JP3071570B2 - 複合のターゲット語に関する辞書データを決定するための装置及び方法 - Google Patents
複合のターゲット語に関する辞書データを決定するための装置及び方法Info
- Publication number
- JP3071570B2 JP3071570B2 JP4197058A JP19705892A JP3071570B2 JP 3071570 B2 JP3071570 B2 JP 3071570B2 JP 4197058 A JP4197058 A JP 4197058A JP 19705892 A JP19705892 A JP 19705892A JP 3071570 B2 JP3071570 B2 JP 3071570B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- record
- word
- target word
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
を含むレコードで構成される語彙と、語彙からターゲッ
トの複合語に合致するレコードを選択する選択手段とを
備える、ターゲットである複合語のデータを決定するた
めの装置に関する。本発明は又、この種の装置の方法及
びこの種の装置を含むデータ処理ユニットに関する。
明細書EP-B-0 145 202号に公知である。これは、スペル
チェックの目的で複合語に合致するレコードを語彙中か
ら選択する装置について記述している。語彙がメモリス
ペースに占める量が最小となるように、語彙は複合語は
含まず、基本語のみである。基本語には序文で言及した
キーワードに対応し、語彙からレコードを一意に識別す
ることができるようになっている。
複合語の辞書データを決定するために、できる限り語彙
用に必要なメモリスペースを制限するために複合語を含
んでいないこの種の語彙中からその複合語に合致するレ
コードを選択することである。
用すること第1の欠点は、複合語を処理するために全語
彙にわたる検索動作を繰り返し実行しなくてはならない
点である。第2の欠点は語彙が膨大な数の基本語を含み
(実際の使用にはこれが望ましいが)、単語の最初の部
分がこの種の基本語に合致し、単語の残りの部分につい
て基本語を見つけることがもはや不可能となる危険性が
あり、繰り返しの検索動作を引き起こすこととなる点で
ある。
とである。
おいて複合語の辞書データは複合語の最後の部分によっ
て決定されるという事実を利用しており、できるだけタ
ーゲット語に対応する語尾を有し従って要求されている
辞書データを含んでいるレコードを探すことは、逆順に
整列された語彙に対して検索動作を行うことにより大幅
に単純化されるという原則に基づいている。
イプの装置はキーワードが逆順に整列され、選択手段が
語彙からターゲット語と共通する最大の語尾部分を有す
るレコードを選択するように構成されていることを特徴
とし、この種の装置の方法は語彙中からターゲット語と
共通する語尾部分が最大であるキーワードを有するレコ
ードを選択することを特徴とする。
になっているが、各語の最後の文字から始まって先頭の
文字へと並んでいることを意味する。この語彙中の単語
は、一文字毎に、語の最後の文字から始まって先頭の文
字へと並んでいるキーワードと合致するかどうかをチェ
ックすることにより検索される。本検索方法の効果は、
ターゲット語が完全には見つからなかった場合でも、タ
ーゲット語と共通する文字を最も多く含むキーワード
(最後の文字から始まって逆に並んでいる)が見つかる
ことである。このやり方で発見した、関連するレコード
を伴うキーワードは、最後の文字から逆に読んでターゲ
ット語に最も合致するキーワードであろう。後の部分は
辞書データの決定要素であるので、発見されたキーワー
ドの辞書データは満足できる。
全に現れている単語の辞書データを決定するためにも適
していることが前述から明かである。このことによる利
点は一つの操作で単純語と複合語の両方の辞書データの
決定が行えるということである。もはや複合語を単純語
と区別する必要はなく、辞書データを決定するために例
えば複合を組み立てている基本語に分割するといった分
離処置を複合語に施す必要もない。
単語の最大の語尾部分が最小の長さを超えた場合のみ選
択が行われることを特徴とする。
すぎることによる不正確な結果を避けることができる。
リミットレコードと下部リミットレコードとで限定され
た検索インターバル内で中間レコードを決定し、中間レ
コードのキーワードとターゲット語を比較し、検索イン
ターバルを狭め、そして、上部リミットレコードとボト
ムリミットレコードが互いに接近したときにレコードを
選択することを特徴とする。
る。この種の装置は入力レジスタ1、検索モジュール
2、逆順に配列された語彙3、及び出力レジスタ7を備
える。逆順の語彙3は多数のレコード4を備える。各レ
コードはキーワード5とそれに関連する辞書データ6を
含む。語彙の逆順はキーワードを逆順に配列することに
より得られる。図1は逆順に配列された複数のキーワー
ドを図解している。これらのキーワードが逆順に書かれ
ていることは本発明にとって肝要ではない。入力レジス
タ1にあるターゲット語は選択手段を備える検索モジュ
ール2に入力される。検索モジュール2は逆順の語彙3
を調べ、選択手段を用いてターゲット語に直接関連する
(relevant)レコードを決定し、得られたデータを出力レ
ジスタ7にセットする。
る。開始位置は参照番号10によって示される。ターゲ
ット語はステップ11にて読み込まれる。そして、ステ
ップ12においてターゲット語を一文字ずつ多数のキー
ワードと比較することによる逆順の語彙の検索が実行さ
れる。ここでは様々な検索方法が可能である。例えば、
語彙の線形トラバースや検索インターバルがステップ毎
に減らされる二分法などである。二分検索法の一つの有
利な変形例を図3A、3Bを用いて説明する。ステップ
12においてターゲット語が完全に語彙に含まれている
ことが分かった場合には(Y)、ステップ13では辞書
データが受け取られ出力レジスタにセットされる。ステ
ップ12においてターゲット語が語彙に含まれないこと
が分かった場合には(N)、ステップ14ではターゲッ
ト語に直接関連する見出しが決定され、その辞書データ
が出力レジスタにセットされる。この後、最終条件15
に達する。
方法の一つの有利な実施例を詳細に説明する。開始状況
は参照番号31に示されている。ターゲット語はステッ
プ32にて読み込まれ、そして、ステップ33において
ターゲット語中のハイフンが削除され、ターゲット語が
逆順にされる。しかし、逆順への変換は本発明の本質に
必要なわけではない。ここに記述する検索方法は文献に
公知の二分検索法の変形であり、検索インターバルがス
テップ毎に減らされるものである。検索インターバルは
上部リミットレコードと下部リミットレコードとよって
規定される。ステップ34において、上部リミットレコ
ードと下部リミットレコードを規定することにより語彙
中の初期の検索インターバルを決定する。この目的のた
めに語彙の最初のレコードと最後のレコードを使用する
ことが可能である。語彙中のキーワードの最初の2文字
が前のキーワードの最初の2文字と異なるレコード毎に
インデックスを設けると更に有利である。初期の検索イ
ンターバルはターゲット語の最初の2文字によって決定
する。下部リミットは逆順のキーワードが2文字の組み
合わせで始まる最初のレコードによって決定され、頭レ
コードは逆順のキーワードが2文字の組み合わせで始ま
る最後のレコードによって決定される。初期の検索イン
ターバルが決まった場合には、ステップ35において、
上部及び下部リミットの逆順のキーワード及び逆順のタ
ーゲット語の相対重みが決定される。3つの逆順の単語
の最初から何文字対応するかのチェックがまず行われ
る。各逆順の単語について、相互に対応する文字の後に
すぐ位置する第1及び第2の文字が取られる。3語のそ
れぞれについて、相互に対応する文字のすぐ後に位置す
る最初の文字に関連する数に27をかけたものと、対応
する文字の後に位置する2番目の文字に関連する数との
和を決定する事により相対重みが決定される。文字に関
連する数とはそのアルファベット順の番号である。文字
に数を割り当てる他の方法ももちろん可能である。ステ
ップ36において、逆順のターゲット語のインターバル
における相対位置は、ターゲット語と下部リミットの相
対重みの差異と上部リミットと下部リミットの相対重み
の差異との商を求めることにより決定される。この方法
で算出された重みはインターバル中に均一に分布してい
ないため、この相対位置はステップ37においてインタ
ーバルの中間により近く置くことにより修正される。ス
テップ38において、語彙中の算出された位置にあるキ
ーワードが検索され、検索されたキーワードとターゲッ
ト語が一致するかどうか決める。もし、完全に一致する
場合には(Y)、ステップ40においてこのレコードが
選択されると共にステップ41において選択されたレコ
ードの辞書データが出力レジスタにセットされて最終条
件42に達する。ステップ39において完全に合致しな
かった場合には(N)、ステップ43ではアルファベッ
トの語順において逆順のターゲット語が逆順のキーワー
ドよりも小さいかどうかチェックする。小さければ
(Y)、ステップ44では要求されている逆順のキーワ
ードが検索インターバルの新しい上部リミットとなる。
小さくなければ(N)、ステップ45では要求されてい
る逆順のキーワードが検索インターバルの新しい下部リ
ミットとなる。ステップ46は検索インターバルの上部
リミットと下部リミットが互いにすぐ隣に位置している
かチェックする。そうでなければ(N)プログラムはス
テップ35に戻る。そうであれば(Y)語彙の検索動作
は停止する。ステップ47は、逆順のターゲット語と下
部リミットの逆順のキーワードの対応する最初の部分の
長さが、逆順のターゲット語と上部リミットの逆順のキ
ーワードの対応する最初の部分の長さが同じであるかど
うかを決定する。同じであれば(Y)、ステップ48で
は上部リミット及び下部リミットから最も長いキーワー
ドを有するレコードを選択する。同じでなければ
(N)、ステップ49ではその逆順のキーワードと逆順
のターゲット語に共通である最初の部分が最も長いレコ
ードを選択する。いずれの場合においても、ステップ5
0において、語の対応している部分が最低限必要とされ
る数の文字を有しているかチェックする。有していれば
(Y)、ステップ51において辞書データと、単語が語
彙中に完全には含まれていないことを示すマーカとが出
力レジスタにセットされた後、最終条件52に達する。
有していなければ、ステップ53においてエラー表示が
出された後、最終条件52に達する。
る。入力単語はオランダ語の教会のドアを指す複合語で
ある「kerkdeur」である。その逆順のキーワードが2文
字の組み合わせである「ru」で始まる語彙の該当するセ
グメントは表1に示された単語を含むものとする。開始
状態31に始まって、ターゲット語である「kerkdeur」
がステップ32で読み込まれる。これは複合語である。
これは語彙に含まれていない。ステップ33にてターゲ
ット語は逆順にされ「ruedkrek」となる。ステップ34
にて初期の検索インターバルの上部リミット及び下部リ
ミットが決められる。これは逆順のターゲット語の最初
の2文字「ru」で規定される。
「ruuv」と下部リミット「ruatnec 」を有する。次に単
語の相対重みがステップ35にて計算される。そのため
に、プログラムはまず、どの位置から単語が互いに異な
っているかを決める。それは第2の位置である。よって
重みは第3及び第4の文字を基に算出される。文字に与
えられる数はアルファベットの順番に対応する。第3の
文字に与えられる数に27をかけて以下の様になる。
中での相対位置xrが、下部リミットとターゲト語の距離
をインターバルのサイズで標準化することにより算出さ
れる。即ち、 xr = (139 - 47) / (589 - 47) = 0.17 ステップ37では、この相対位置はインターバル中の単
語の重みの不均一な分布のために修正される。これはイ
ンターバルの中心xhの方向に位置を移動することにより
算出され、xrc となる。移動の程度は修正因数cにより
決まる。これを0.4 とすると、以下のようになる。
(Nはインターバル中のレコードの数、及びint() は整
数にするために数を丸める関数)となる。
テップ38で語彙中から検索される。これは「ruek」と
なり、ステップ39ではこの語がターゲット語と合致す
るかチェックする。合致しなければ(N)、ステップ4
3では逆順のターゲット語が逆順のキーワードよりもア
ルファベット順で小さいかどうかチェックする。小さけ
れば(Y)、ステップ44では発見されたキーワードは
上部リミットとなる。次に、ステップ46では下部リミ
ット及び上部リミットが互いに隣接しているかチェック
される。隣接していなければ(N)、プログラムはステ
ップ35に戻り、相対重みが再度算出される。
が決定される。
われ、インターバル上の絶対位置xaが決定され、xa=3と
なる。ステップ38では第3の単語のキーワードが決定
され、「rued」となる。次にステップ39において、こ
れとターゲット語が合致しないという結果に到達し、ス
テップ43へと続く。このステップは「ruedkrek」がア
ルファベット順において「rued」よりも大きい(N)こ
とを確認する。ステップ45にて「rued」を下部リミッ
トにする。ステップ46では下部リミットと上部リミッ
トが隣接しているかチェックする。隣接していれば
(Y)、プログラムはステップ47に進み、上部リミッ
ト及び下部リミットの逆順のキーワードが逆順のターゲ
ット語と共通の文字を同じ数だけ有するかどうかをチェ
ックする。違う場合には(N)、ステップ49におい
て、逆順のターゲット語に合致する文字を最も多く有す
る逆順のキーワードのレコードを選択し、「rued」とな
る。ステップ50では単語の合致する部分が要求されて
いる最小の文字数を少なくとも含むかどうかをチェック
する。これを4としよう。発見されたレコードはこの条
件をみたす(Y)。逆順のキーワード「rued」の辞書デ
ータは以下の通りである。「inneuter male female sin
g3」。これらのデータは取り出され、ステップ51にお
いて以下の形で出力レジスタにセットされる。
emale sing3))) マーカーの「*」はターゲット語が語彙中に完全に現れ
ていないことを意味する。そして最終条件52に達す
る。
「bookkeeper」である。逆準のキーワードが2文字の組
み合わせ「re」で始まる語彙の該当するセグメントは表
2に挙げる単語を含むものとする。
ターゲット語「bookkeeper」が読み込まれる。これは複
合語であり、語彙に含まれない。ステップ33ではター
ゲット語は逆転され、「repeekkoob」となる。ステップ
34では初期の検索インターバルの上部リミット及び下
部リミットが決定される。これは逆転されたターゲット
語の最初の2文字「re」によって規定される。
の「repuos」と下部リミットの「rep 」を有する。単語
の相対重みはステップ35で算出される。そのために、
プログラムはまずどの位置から単語が互いに異なってい
るかを決定する。これは第3の位置である。
算出される。文字に与えられる数はアルファベットの順
番に対応する。第4の文字に与えられる数には27をか
ける。結果は以下の通り。
ターバル中の相対位置xrが下部リミットとターゲット語
の距離をインターバルのサイズで割ることにより算出さ
れる。
の不均一な分布のために相対位置が修正される。これは
位置をインターバルの中心xhの方向に移動することによ
り算出され、xrc となる。移動の程度は修正因数cによ
って決まる。これを0.4 とすると、結果は以下の通りと
なる。
*N) = 5 (Nはインターバル中のレコード数、及び int
() は整数を作るために数を丸める関数)となる。
ップ38において語彙中から検索される。それは「slee
per 」となり、ステップ39ではこの単語がターゲット
語と合致するかがチェックされる。合致しなければ
(N)、ステップ43において、逆順のターゲット語が
逆順のキーワードよりもアルファベット順で小さいかど
うかがチェックされる。小さければ(Y)、ステップ4
4では見つかったキーワードが上部リミットとなる。次
にステップ46において下部リミットと上部リミットが
隣接しているかどうかがチェックされる。隣接していな
ければ(N)、プログラムはステップ35に戻り、相対
重みが再度算出される。
が決定される。
の不均一な分布のために修正が行われ、インターバル上
の絶対位置xaが決定され、xa=4となる。ステップ38で
は第4のレコードのキーワードが決定され、「repeek」
となる。次にステップ39において、これとターゲット
語が合致しない(N)という結果に達し、ステップ43
へと進む。このステップでは「repeekkoob」がアルファ
ベット順において「repeek」よりも大きい(N)ことを
確認する。ステップ45にて「repeek」を下部リミット
にする。ステップ46では下部リミットと上部リミット
が隣接しているかチェックする。隣接していれば
(Y)、プログラムはステップ47に進み、上部リミッ
ト及び下部リミットの逆順のキーワードが逆順のターゲ
ット語と共通の文字を同じ数だけ有するかどうかをチェ
ックする。違う場合には(N)、ステップ49におい
て、その逆順のキーワードが逆順のターゲット語に合致
する文字を最も多く有するレコードを選択し、「repee
k」となる。ステップ50では単語の合致する部分が要
求されている最小の文字数を少なくとも含むかどうかを
チェックする。これを4としよう。発見されたレコード
はこの条件を満たす(Y)。逆順のキーワード「repee
k」の辞書データは以下の通りである。「countable sin
g3 noun」これらのデータは取り出され、そしてステッ
プ51において以下の形で出力レジスタにセットされ
る。
g3 noun))) マーカの「*」はターゲット語が語彙中に完全に現れて
いないことを意味する。そして最終条件52に達する。
の語尾部分を有する単語を探す必要のある全てのケース
に有利に適用する。
願日と同一日にオランダ国優先権出願に出願人により出
願された)に記述されている辞書データを取得するため
方法と有利に組み合わせられる。図4を参照して詳細に
説明する。ひと通り実行されるステップはこの図に示さ
れている。参照番号60に示されている開始状態から始
まって、入力単語はステップ61で読み込まれ、入力単
語の仮基本形が文字列操作ダイアグラム62によって誘
導される。ステップ63では電子単語レジスタ64から
検索され、発見された場合には辞書データが決定されて
書き出され、そして最終条件65に達する。
を検索するために有利に使用することが可能である。そ
のために、電子単語レジスタ64は逆順に配列された語
彙として構成され、本発明による検索方法が適用され
る。この手続きには、語形変化されていない単純語を参
照用に語彙に含めるだけで、語形変化された複合語につ
いても辞書データを決定することができるという効果を
有し、従って語彙が占有するメモリスペースを大幅に削
減できる。辞書データに付加されるマーカーは、単語が
その形では語彙中に含まれておらず、単語の語尾部分が
語彙中の単語と合致するだけであることを意味し、又、
単語の残り部分が誤ってつづられていることを意味する
こともできる。
ある。そうすることにより、単語の語尾部分の対応する
文字の要求最小数を増やすことができ、不正確な結果の
危険性を減らすこととなる。
及び単純語の両方の辞書化に適用されたデータ処理ユニ
ットの考えられる実施例の一つを示している。本データ
処理ユニットは、主ユニット71、キーボード72、本
発明によって逆順に配列された語彙を記憶する大容量メ
モリ73、及びスクリーン74を備える。主ユニット7
1は、キーボード72に接続されたキーボードコントロ
ーラ75と、大容量メモリ73に接続されたディスクコ
ントローラ76と、スクリーン74に接続されたスクリ
ーンコントローラ77と、大容量メモリから文字ファイ
ルをロードすることができる第1のメモリモジュール7
8と、文字列操作ダイヤグラム及び関連する命令シリー
ズが記憶される第2のメモリモジュール79と、文字列
操作ダイヤグラムを参照して入力単語を処理する手段及
び文字列操作ダイヤグラムを検索したパスに関連する命
令シリーズを選択する手段を含む文字列操作モジュール
80と、発見された仮基本形が基本形のリスト内に見出
しを有するかをチェックする手段を含む検索モジュール
81とを備える。この目的のために、この検索モジュー
ルは本発明による選択手段を有し、語彙中からターゲッ
ト語と共通な最大の語尾部分を有するキーワードを含む
レコードを選択する様に適用されている。主ユニット
は、発見された見出しが命令シリーズを満足するかチェ
ックする手段及び見出しからデータを適合させる手段を
含む出力モジュール82と、以降の処理で使用できるよ
うに獲得されたデータをセットするバッファ83と、こ
れらのモジュール及びコントローラを制御する処理ユニ
ット84も備えている。
いる文字ファイルからの入力単語やキーボード72から
の入力は文字列操作モジュール80に入力される。第2
のメモリモジュール79に記憶されている文字列操作ダ
イヤグラムを参照して、文字列操作モジュール80は仮
基本形とそれに関連する命令シリーズを作る。得られた
仮基本形は検索モジュール81に入力され、大容量メモ
リ73に記憶されている基本形のリスト中にその仮基本
形が見出しを有するかがチェックされる。そのために、
本発明による方法のステップを実行し、見出しが見つか
ればそのデータが読み込まれる。これらのデータは出力
モジュール82に入力され、文字列操作モジュール80
が提供する命令シリーズと比較され、入力単語の特徴デ
ータを形成するように処理される。得られた特徴データ
はスクリーンコントローラ77を介してスクリーン74
に表示されるか又はバッファメモリ83にセットされ、
そして、例えば文のパーシングといった他の目的に使用
できる。
は限定されず、技術を有する者によって様々な他のやり
方で実施されうる。しかし、それらは全て特許請求の範
囲内に入る。
ロー図である。
ロー図である。
する方法のフロー図である。
辞書化に適用されたデータ処理ユニットの考え得る実施
例の説明図である。
Claims (7)
- 【請求項1】 それぞれがキーワードを含むレコードで
構成される語彙と、該語彙から複合のターゲット語に関
連するレコードを選択する選択手段とを備えた、複合の
ターゲット語に関する辞書データを決定するための装置
であって、前記キーワードが逆順に配列され、且つ前記
選択手段が前記語彙から前記ターゲット語と共通な最大
の語尾部分を有するキーワードを有するレコードを選択
するべく適用されたことを特徴とする複合のターゲット
語に関する辞書データを決定するための装置。 - 【請求項2】 単語の前記最大の語尾部分が最小限の長
さを超える場合にのみ選択が行われることを特徴とする
請求項1に記載の装置。 - 【請求項3】 複合のターゲット語に関する辞書データ
を決定するための方法であって、 それぞれがキーワードを含むレコードで構成される語彙
を準備し、 該語彙から複合のターゲット語に関連するレコードを選
択し、 前記キーワードが逆順に配列され、且つ前記選択が前記
語彙から前記ターゲット語と共通な最大の語尾部分を有
するキーワードを有するレコードを選択するべく行われ
る方法。 - 【請求項4】 単語の前記最大の語尾部分が最小限の長
さを超えた場合のみ選択が行われることを特徴とする請
求項3に記載の方法。 - 【請求項5】 上部リミットレコードと下部リミットレ
コードとで規定された検索インターバル内で中間レコー
ドを決定し、該中間レコードのキーワードと前記ターゲ
ット語とを比較し、前記検索インターバルを狭め、前記
上部リミットレコードと前記下部リミットレコードとが
互いに接近したときにレコードを選択することを特徴と
する請求項3又は4に記載の方法。 - 【請求項6】 隣接した上部リミットレコードと下部リ
ミットレコードとに関連する単語の共通部分の長さが同
じであれば、最大長のキーワードを有するレコードを選
択することを特徴とする請求項5に記載の方法。 - 【請求項7】 ターゲット語に関する辞書データを得る
手段を備え、且つ請求項1に記載の装置を含み、複合語
及び単純語を辞書化するべく適用されたデータ処理ユニ
ット。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL9101285 | 1991-07-23 | ||
NL9101285A NL9101285A (nl) | 1991-07-23 | 1991-07-23 | Inrichting en werkwijze voor het bepalen van gegevens van samengestelde woorden. |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05266079A JPH05266079A (ja) | 1993-10-15 |
JP3071570B2 true JP3071570B2 (ja) | 2000-07-31 |
Family
ID=19859546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4197058A Expired - Fee Related JP3071570B2 (ja) | 1991-07-23 | 1992-07-23 | 複合のターゲット語に関する辞書データを決定するための装置及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5371676A (ja) |
EP (1) | EP0524693B1 (ja) |
JP (1) | JP3071570B2 (ja) |
AT (1) | ATE181777T1 (ja) |
DE (1) | DE69229491T2 (ja) |
NL (1) | NL9101285A (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4213533C2 (de) * | 1992-04-22 | 1996-01-25 | Ibm | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6963871B1 (en) | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
KR100686622B1 (ko) * | 1998-05-22 | 2007-02-23 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 키워드 검출수단을 구비한 기록장치 |
US6751612B1 (en) * | 1999-11-29 | 2004-06-15 | Xerox Corporation | User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US9418151B2 (en) * | 2012-06-12 | 2016-08-16 | Raytheon Company | Lexical enrichment of structured and semi-structured data |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4342085A (en) * | 1979-01-05 | 1982-07-27 | International Business Machines Corporation | Stem processing for data reduction in a dictionary storage file |
JPH067385B2 (ja) * | 1983-08-03 | 1994-01-26 | 株式会社日立製作所 | キ−ワ−ド自動抽出方式 |
JPS6091478A (ja) * | 1983-10-25 | 1985-05-22 | Sharp Corp | 単語の綴り検査方式 |
US4672571A (en) * | 1984-10-24 | 1987-06-09 | International Business Machines Corporation | Compound word suitability for spelling verification |
US4701851A (en) * | 1984-10-24 | 1987-10-20 | International Business Machines Corporation | Compound word spelling verification |
JPS63229523A (ja) * | 1987-03-19 | 1988-09-26 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
JPH02183867A (ja) * | 1989-01-11 | 1990-07-18 | Nec Corp | 表引き方法 |
JPH0398167A (ja) * | 1989-09-11 | 1991-04-23 | Nec Software Ltd | 索引順編成ファイルの逆引き検索方式 |
-
1991
- 1991-07-23 NL NL9101285A patent/NL9101285A/nl not_active Application Discontinuation
-
1992
- 1992-07-17 EP EP92202192A patent/EP0524693B1/en not_active Expired - Lifetime
- 1992-07-17 DE DE69229491T patent/DE69229491T2/de not_active Expired - Fee Related
- 1992-07-17 AT AT92202192T patent/ATE181777T1/de not_active IP Right Cessation
- 1992-07-21 US US07/915,602 patent/US5371676A/en not_active Expired - Lifetime
- 1992-07-23 JP JP4197058A patent/JP3071570B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0524693A1 (en) | 1993-01-27 |
DE69229491D1 (de) | 1999-08-05 |
JPH05266079A (ja) | 1993-10-15 |
ATE181777T1 (de) | 1999-07-15 |
EP0524693B1 (en) | 1999-06-30 |
DE69229491T2 (de) | 1999-12-30 |
NL9101285A (nl) | 1993-02-16 |
US5371676A (en) | 1994-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0813156A2 (en) | Method and apparatus for language translation | |
CN1008016B (zh) | 输入处理系统 | |
EP0651315A1 (en) | Data entry workstation | |
JPH11505052A (ja) | 語彙辞書の検索範囲を削減するシステム及び方法 | |
JPH058464B2 (ja) | ||
US5560037A (en) | Compact hyphenation point data | |
JP3071570B2 (ja) | 複合のターゲット語に関する辞書データを決定するための装置及び方法 | |
US5297038A (en) | Electronic dictionary and method of codifying words therefor | |
EP0524694A1 (en) | A method of inflecting words and a data processing unit for performing such method | |
US5553283A (en) | Stored mapping data with information for skipping branches while keeping count of suffix endings | |
KR101694179B1 (ko) | 모음 제거 기반 인덱스 생성 방법 및 장치 | |
JP2595934B2 (ja) | 仮名漢字変換処理装置 | |
JPH056398A (ja) | 文書登録装置及び文書検索装置 | |
KR930000593B1 (ko) | 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치 방법 | |
JPH0140372B2 (ja) | ||
JP2001092830A (ja) | 文字列の照合装置およびその方法 | |
JPS6246029B2 (ja) | ||
JPS6057421A (ja) | 文書作成装置 | |
JPS6029823A (ja) | 適応型記号列変換方式 | |
TW541472B (en) | Word/vocabulary searching method for electronic dictionary | |
JPH026098B2 (ja) | ||
JPS61285573A (ja) | 仮名漢字変換装置 | |
JPS619755A (ja) | かな漢字変換方式 | |
JPH07109603B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
JP3272536B2 (ja) | 仮名漢字変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090526 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090526 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100526 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |