JP3071570B2

JP3071570B2 - 複合のターゲット語に関する辞書データを決定するための装置及び方法

Info

Publication number: JP3071570B2
Application number: JP4197058A
Authority: JP
Inventors: ロベルタス・ペトラス・エリザベス・フベルタス・ヘーメルス; エデユアルダス・ヨセフス・ウイリブローダス・フアン・フリエンベルゲン; ルイス・マリエ・ジエラルダス・クレメルス
Original assignee: Oce Nederland BV
Current assignee: Oce Technologies BV
Priority date: 1991-07-23
Filing date: 1992-07-23
Publication date: 2000-07-31
Anticipated expiration: 2015-07-31
Also published as: EP0524693A1; DE69229491D1; JPH05266079A; ATE181777T1; EP0524693B1; DE69229491T2; NL9101285A; US5371676A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、それぞれがキーワード
を含むレコードで構成される語彙と、語彙からターゲッ
トの複合語に合致するレコードを選択する選択手段とを
備える、ターゲットである複合語のデータを決定するた
めの装置に関する。本発明は又、この種の装置の方法及
びこの種の装置を含むデータ処理ユニットに関する。

【０００２】

【従来の技術】序文で述べたタイプの装置は、欧州特許
明細書EP-B-0 145 202号に公知である。これは、スペル
チェックの目的で複合語に合致するレコードを語彙中か
ら選択する装置について記述している。語彙がメモリス
ペースに占める量が最小となるように、語彙は複合語は
含まず、基本語のみである。基本語には序文で言及した
キーワードに対応し、語彙からレコードを一意に識別す
ることができるようになっている。

【０００３】

【発明が解決しようとする課題】この発明の問題点は、
複合語の辞書データを決定するために、できる限り語彙
用に必要なメモリスペースを制限するために複合語を含
んでいないこの種の語彙中からその複合語に合致するレ
コードを選択することである。

【０００４】前記特許明細書に記述されている装置を使
用すること第１の欠点は、複合語を処理するために全語
彙にわたる検索動作を繰り返し実行しなくてはならない
点である。第２の欠点は語彙が膨大な数の基本語を含み
（実際の使用にはこれが望ましいが）、単語の最初の部
分がこの種の基本語に合致し、単語の残りの部分につい
て基本語を見つけることがもはや不可能となる危険性が
あり、繰り返しの検索動作を引き起こすこととなる点で
ある。

【０００５】本発明の目的はこれらの欠点を取り除くこ
とである。

【０００６】

【課題を解決するための手段】本発明は、多くの言語に
おいて複合語の辞書データは複合語の最後の部分によっ
て決定されるという事実を利用しており、できるだけタ
ーゲット語に対応する語尾を有し従って要求されている
辞書データを含んでいるレコードを探すことは、逆順に
整列された語彙に対して検索動作を行うことにより大幅
に単純化されるという原則に基づいている。

【０００７】本発明によれば、序文に記述されているタ
イプの装置はキーワードが逆順に整列され、選択手段が
語彙からターゲット語と共通する最大の語尾部分を有す
るレコードを選択するように構成されていることを特徴
とし、この種の装置の方法は語彙中からターゲット語と
共通する語尾部分が最大であるキーワードを有するレコ
ードを選択することを特徴とする。

【０００８】逆順とは、キーワードがアルファベット順
になっているが、各語の最後の文字から始まって先頭の
文字へと並んでいることを意味する。この語彙中の単語
は、一文字毎に、語の最後の文字から始まって先頭の文
字へと並んでいるキーワードと合致するかどうかをチェ
ックすることにより検索される。本検索方法の効果は、
ターゲット語が完全には見つからなかった場合でも、タ
ーゲット語と共通する文字を最も多く含むキーワード
（最後の文字から始まって逆に並んでいる）が見つかる
ことである。このやり方で発見した、関連するレコード
を伴うキーワードは、最後の文字から逆に読んでターゲ
ット語に最も合致するキーワードであろう。後の部分は
辞書データの決定要素であるので、発見されたキーワー
ドの辞書データは満足できる。

【０００９】示唆されている検索方法は又、語彙中に完
全に現れている単語の辞書データを決定するためにも適
していることが前述から明かである。このことによる利
点は一つの操作で単純語と複合語の両方の辞書データの
決定が行えるということである。もはや複合語を単純語
と区別する必要はなく、辞書データを決定するために例
えば複合を組み立てている基本語に分割するといった分
離処置を複合語に施す必要もない。

【００１０】本装置及び方法の一つの有利な実施例は、
単語の最大の語尾部分が最小の長さを超えた場合のみ選
択が行われることを特徴とする。

【００１１】この基準により、合致する語尾文字が少な
すぎることによる不正確な結果を避けることができる。

【００１２】本方法のもう一つの有利な実施例は、上部
リミットレコードと下部リミットレコードとで限定され
た検索インターバル内で中間レコードを決定し、中間レ
コードのキーワードとターゲット語を比較し、検索イン
ターバルを狭め、そして、上部リミットレコードとボト
ムリミットレコードが互いに接近したときにレコードを
選択することを特徴とする。

【００１３】速い検索方法はこのやり方で得られる。

【００１４】

【実施例】図１は本発明による装置のブロック略図であ
る。この種の装置は入力レジスタ１、検索モジュール
２、逆順に配列された語彙３、及び出力レジスタ７を備
える。逆順の語彙３は多数のレコード４を備える。各レ
コードはキーワード５とそれに関連する辞書データ６を
含む。語彙の逆順はキーワードを逆順に配列することに
より得られる。図１は逆順に配列された複数のキーワー
ドを図解している。これらのキーワードが逆順に書かれ
ていることは本発明にとって肝要ではない。入力レジス
タ１にあるターゲット語は選択手段を備える検索モジュ
ール２に入力される。検索モジュール２は逆順の語彙３
を調べ、選択手段を用いてターゲット語に直接関連する
(relevant)レコードを決定し、得られたデータを出力レ
ジスタ７にセットする。

【００１５】本発明による方法を図２を参照して説明す
る。開始位置は参照番号１０によって示される。ターゲ
ット語はステップ１１にて読み込まれる。そして、ステ
ップ１２においてターゲット語を一文字ずつ多数のキー
ワードと比較することによる逆順の語彙の検索が実行さ
れる。ここでは様々な検索方法が可能である。例えば、
語彙の線形トラバースや検索インターバルがステップ毎
に減らされる二分法などである。二分検索法の一つの有
利な変形例を図３Ａ、３Ｂを用いて説明する。ステップ
１２においてターゲット語が完全に語彙に含まれている
ことが分かった場合には（Ｙ）、ステップ１３では辞書
データが受け取られ出力レジスタにセットされる。ステ
ップ１２においてターゲット語が語彙に含まれないこと
が分かった場合には（Ｎ）、ステップ１４ではターゲッ
ト語に直接関連する見出しが決定され、その辞書データ
が出力レジスタにセットされる。この後、最終条件１５
に達する。

【００１６】図３Ａ及び図３Ｂを参照して本発明による
方法の一つの有利な実施例を詳細に説明する。開始状況
は参照番号３１に示されている。ターゲット語はステッ
プ３２にて読み込まれ、そして、ステップ３３において
ターゲット語中のハイフンが削除され、ターゲット語が
逆順にされる。しかし、逆順への変換は本発明の本質に
必要なわけではない。ここに記述する検索方法は文献に
公知の二分検索法の変形であり、検索インターバルがス
テップ毎に減らされるものである。検索インターバルは
上部リミットレコードと下部リミットレコードとよって
規定される。ステップ３４において、上部リミットレコ
ードと下部リミットレコードを規定することにより語彙
中の初期の検索インターバルを決定する。この目的のた
めに語彙の最初のレコードと最後のレコードを使用する
ことが可能である。語彙中のキーワードの最初の２文字
が前のキーワードの最初の２文字と異なるレコード毎に
インデックスを設けると更に有利である。初期の検索イ
ンターバルはターゲット語の最初の２文字によって決定
する。下部リミットは逆順のキーワードが２文字の組み
合わせで始まる最初のレコードによって決定され、頭レ
コードは逆順のキーワードが２文字の組み合わせで始ま
る最後のレコードによって決定される。初期の検索イン
ターバルが決まった場合には、ステップ３５において、
上部及び下部リミットの逆順のキーワード及び逆順のタ
ーゲット語の相対重みが決定される。３つの逆順の単語
の最初から何文字対応するかのチェックがまず行われ
る。各逆順の単語について、相互に対応する文字の後に
すぐ位置する第１及び第２の文字が取られる。３語のそ
れぞれについて、相互に対応する文字のすぐ後に位置す
る最初の文字に関連する数に２７をかけたものと、対応
する文字の後に位置する２番目の文字に関連する数との
和を決定する事により相対重みが決定される。文字に関
連する数とはそのアルファベット順の番号である。文字
に数を割り当てる他の方法ももちろん可能である。ステ
ップ３６において、逆順のターゲット語のインターバル
における相対位置は、ターゲット語と下部リミットの相
対重みの差異と上部リミットと下部リミットの相対重み
の差異との商を求めることにより決定される。この方法
で算出された重みはインターバル中に均一に分布してい
ないため、この相対位置はステップ３７においてインタ
ーバルの中間により近く置くことにより修正される。ス
テップ３８において、語彙中の算出された位置にあるキ
ーワードが検索され、検索されたキーワードとターゲッ
ト語が一致するかどうか決める。もし、完全に一致する
場合には（Ｙ）、ステップ４０においてこのレコードが
選択されると共にステップ４１において選択されたレコ
ードの辞書データが出力レジスタにセットされて最終条
件４２に達する。ステップ３９において完全に合致しな
かった場合には（Ｎ）、ステップ４３ではアルファベッ
トの語順において逆順のターゲット語が逆順のキーワー
ドよりも小さいかどうかチェックする。小さければ
（Ｙ）、ステップ４４では要求されている逆順のキーワ
ードが検索インターバルの新しい上部リミットとなる。
小さくなければ（Ｎ）、ステップ４５では要求されてい
る逆順のキーワードが検索インターバルの新しい下部リ
ミットとなる。ステップ４６は検索インターバルの上部
リミットと下部リミットが互いにすぐ隣に位置している
かチェックする。そうでなければ（Ｎ）プログラムはス
テップ３５に戻る。そうであれば（Ｙ）語彙の検索動作
は停止する。ステップ４７は、逆順のターゲット語と下
部リミットの逆順のキーワードの対応する最初の部分の
長さが、逆順のターゲット語と上部リミットの逆順のキ
ーワードの対応する最初の部分の長さが同じであるかど
うかを決定する。同じであれば（Ｙ）、ステップ４８で
は上部リミット及び下部リミットから最も長いキーワー
ドを有するレコードを選択する。同じでなければ
（Ｎ）、ステップ４９ではその逆順のキーワードと逆順
のターゲット語に共通である最初の部分が最も長いレコ
ードを選択する。いずれの場合においても、ステップ５
０において、語の対応している部分が最低限必要とされ
る数の文字を有しているかチェックする。有していれば
（Ｙ）、ステップ５１において辞書データと、単語が語
彙中に完全には含まれていないことを示すマーカとが出
力レジスタにセットされた後、最終条件５２に達する。
有していなければ、ステップ５３においてエラー表示が
出された後、最終条件５２に達する。

【００１７】例を参照して上記の方法を詳細に説明す
る。入力単語はオランダ語の教会のドアを指す複合語で
ある「kerkdeur」である。その逆順のキーワードが２文
字の組み合わせである「ru」で始まる語彙の該当するセ
グメントは表１に示された単語を含むものとする。開始
状態３１に始まって、ターゲット語である「kerkdeur」
がステップ３２で読み込まれる。これは複合語である。
これは語彙に含まれていない。ステップ３３にてターゲ
ット語は逆順にされ「ruedkrek」となる。ステップ３４
にて初期の検索インターバルの上部リミット及び下部リ
ミットが決められる。これは逆順のターゲット語の最初
の２文字「ru」で規定される。

【００１８】

【表１】

【００１９】初期の検索インターバルは上部リミット
「ruuv」と下部リミット「ruatnec 」を有する。次に単
語の相対重みがステップ３５にて計算される。そのため
に、プログラムはまず、どの位置から単語が互いに異な
っているかを決める。それは第２の位置である。よって
重みは第３及び第４の文字を基に算出される。文字に与
えられる数はアルファベットの順番に対応する。第３の
文字に与えられる数に２７をかけて以下の様になる。

【００２０】 ruatnec -> 27 * 1 + 20 = 47 ruedkrek -> 27 * 5 + 4 = 139 ruuv -> 27 * 21 + 22 = 589 ステップ３６では、逆順のターゲット語のインターバル
中での相対位置xrが、下部リミットとターゲト語の距離
をインターバルのサイズで標準化することにより算出さ
れる。即ち、 xr = (139 - 47) / (589 - 47) = 0.17 ステップ３７では、この相対位置はインターバル中の単
語の重みの不均一な分布のために修正される。これはイ
ンターバルの中心xhの方向に位置を移動することにより
算出され、xrc となる。移動の程度は修正因数ｃにより
決まる。これを0.4 とすると、以下のようになる。

【００２１】xrc = xr*(1-c) + xh*c = 0.3 インターバル中での絶対位置はxa = int(0.3*N) = 4
（Ｎはインターバル中のレコードの数、及びint() は整
数にするために数を丸める関数）となる。

【００２２】算出された位置に関連するキーワードはス
テップ３８で語彙中から検索される。これは「ruek」と
なり、ステップ３９ではこの語がターゲット語と合致す
るかチェックする。合致しなければ（Ｎ）、ステップ４
３では逆順のターゲット語が逆順のキーワードよりもア
ルファベット順で小さいかどうかチェックする。小さけ
れば（Ｙ）、ステップ４４では発見されたキーワードは
上部リミットとなる。次に、ステップ４６では下部リミ
ット及び上部リミットが互いに隣接しているかチェック
される。隣接していなければ（Ｎ）、プログラムはステ
ップ３５に戻り、相対重みが再度算出される。

【００２３】 ruatnec -> 27 * 1 + 20 = 47 ruedkrek -> 27 * 5 + 4 = 139 ruek -> 27 * 5 + 11 = 146 ステップ３６において新しいインターバル上の相対位置
が決定される。

【００２４】xr = (139 - 47) / (146 - 47) = 0.93 ステップ３７において、不均一な分布のために修正が行
われ、インターバル上の絶対位置xaが決定され、xa=3と
なる。ステップ３８では第３の単語のキーワードが決定
され、「rued」となる。次にステップ３９において、こ
れとターゲット語が合致しないという結果に到達し、ス
テップ４３へと続く。このステップは「ruedkrek」がア
ルファベット順において「rued」よりも大きい（Ｎ）こ
とを確認する。ステップ４５にて「rued」を下部リミッ
トにする。ステップ４６では下部リミットと上部リミッ
トが隣接しているかチェックする。隣接していれば
（Ｙ）、プログラムはステップ４７に進み、上部リミッ
ト及び下部リミットの逆順のキーワードが逆順のターゲ
ット語と共通の文字を同じ数だけ有するかどうかをチェ
ックする。違う場合には（Ｎ）、ステップ４９におい
て、逆順のターゲット語に合致する文字を最も多く有す
る逆順のキーワードのレコードを選択し、「rued」とな
る。ステップ５０では単語の合致する部分が要求されて
いる最小の文字数を少なくとも含むかどうかをチェック
する。これを４としよう。発見されたレコードはこの条
件をみたす（Ｙ）。逆順のキーワード「rued」の辞書デ
ータは以下の通りである。「inneuter male female sin
g3」。これらのデータは取り出され、ステップ５１にお
いて以下の形で出力レジスタにセットされる。

【００２５】(kerkdeur (noun (*rued inneuter male f
emale sing3))) マーカーの「＊」はターゲット語が語彙中に完全に現れ
ていないことを意味する。そして最終条件５２に達す
る。

【００２６】英語の例を挙げる。入力単語は複合語の
「bookkeeper」である。逆準のキーワードが２文字の組
み合わせ「re」で始まる語彙の該当するセグメントは表
２に挙げる単語を含むものとする。

【００２７】

【表２】

【００２８】開始状態３１から始めて、ステップ３２で
ターゲット語「bookkeeper」が読み込まれる。これは複
合語であり、語彙に含まれない。ステップ３３ではター
ゲット語は逆転され、「repeekkoob」となる。ステップ
３４では初期の検索インターバルの上部リミット及び下
部リミットが決定される。これは逆転されたターゲット
語の最初の２文字「re」によって規定される。

【００２９】初期の検索インターバルは、上部リミット
の「repuos」と下部リミットの「rep 」を有する。単語
の相対重みはステップ３５で算出される。そのために、
プログラムはまずどの位置から単語が互いに異なってい
るかを決定する。これは第３の位置である。

【００３０】従って、重みは第４及び第５の文字を基に
算出される。文字に与えられる数はアルファベットの順
番に対応する。第４の文字に与えられる数には２７をか
ける。結果は以下の通り。

【００３１】 rep -> 27 * 0 + 0 = 0 repeekkoob -> 27 * 5 + 5 = 140 repuos -> 27 * 21 + 15 = 582 ステップ３６において、逆転されたターゲット語のイン
ターバル中の相対位置xrが下部リミットとターゲット語
の距離をインターバルのサイズで割ることにより算出さ
れる。

【００３２】xr = (140 - 0) / (582 - 0) = 0.25 ステップ３７において、単語の重みのインターバル中へ
の不均一な分布のために相対位置が修正される。これは
位置をインターバルの中心xhの方向に移動することによ
り算出され、xrc となる。移動の程度は修正因数ｃによ
って決まる。これを0.4 とすると、結果は以下の通りと
なる。

【００３３】xrc = xr*(1-c) + xh*c = 0.35 そして、インターバル上での絶対位置は xa = int(0.35
*N) = 5 （Ｎはインターバル中のレコード数、及び int
() は整数を作るために数を丸める関数）となる。

【００３４】次に、算出された位置のキーワードがステ
ップ３８において語彙中から検索される。それは「slee
per 」となり、ステップ３９ではこの単語がターゲット
語と合致するかがチェックされる。合致しなければ
（Ｎ）、ステップ４３において、逆順のターゲット語が
逆順のキーワードよりもアルファベット順で小さいかど
うかがチェックされる。小さければ（Ｙ）、ステップ４
４では見つかったキーワードが上部リミットとなる。次
にステップ４６において下部リミットと上部リミットが
隣接しているかどうかがチェックされる。隣接していな
ければ（Ｎ）、プログラムはステップ３５に戻り、相対
重みが再度算出される。

【００３５】 rep -> 27 * 0 + 0 = 0 repeekkoob -> 27 * 5 + 5 = 140 repeels -> 27 * 5 + 5 = 140 ステップ３６において、新しいインターバルの相対位置
が決定される。

【００３６】xr = (140 - 0) / (140 - 0) = 1 ステップ３７において、単語の重みのインターバル中へ
の不均一な分布のために修正が行われ、インターバル上
の絶対位置xaが決定され、xa=4となる。ステップ３８で
は第４のレコードのキーワードが決定され、「repeek」
となる。次にステップ３９において、これとターゲット
語が合致しない（Ｎ）という結果に達し、ステップ４３
へと進む。このステップでは「repeekkoob」がアルファ
ベット順において「repeek」よりも大きい（Ｎ）ことを
確認する。ステップ４５にて「repeek」を下部リミット
にする。ステップ４６では下部リミットと上部リミット
が隣接しているかチェックする。隣接していれば
（Ｙ）、プログラムはステップ４７に進み、上部リミッ
ト及び下部リミットの逆順のキーワードが逆順のターゲ
ット語と共通の文字を同じ数だけ有するかどうかをチェ
ックする。違う場合には（Ｎ）、ステップ４９におい
て、その逆順のキーワードが逆順のターゲット語に合致
する文字を最も多く有するレコードを選択し、「repee
k」となる。ステップ５０では単語の合致する部分が要
求されている最小の文字数を少なくとも含むかどうかを
チェックする。これを４としよう。発見されたレコード
はこの条件を満たす（Ｙ）。逆順のキーワード「repee
k」の辞書データは以下の通りである。「countable sin
g3 noun」これらのデータは取り出され、そしてステッ
プ５１において以下の形で出力レジスタにセットされ
る。

【００３７】(bookkeeper(noun(*repeek countable sin
g3 noun))) マーカの「＊」はターゲット語が語彙中に完全に現れて
いないことを意味する。そして最終条件５２に達する。

【００３８】本発明は、語彙中からターゲット語と共通
の語尾部分を有する単語を探す必要のある全てのケース
に有利に適用する。

【００３９】本発明は、特許出願NL 91 01284 （本願出
願日と同一日にオランダ国優先権出願に出願人により出
願された）に記述されている辞書データを取得するため
方法と有利に組み合わせられる。図４を参照して詳細に
説明する。ひと通り実行されるステップはこの図に示さ
れている。参照番号６０に示されている開始状態から始
まって、入力単語はステップ６１で読み込まれ、入力単
語の仮基本形が文字列操作ダイアグラム６２によって誘
導される。ステップ６３では電子単語レジスタ６４から
検索され、発見された場合には辞書データが決定されて
書き出され、そして最終条件６５に達する。

【００４０】本発明は、電子単語レジスタから仮基本形
を検索するために有利に使用することが可能である。そ
のために、電子単語レジスタ６４は逆順に配列された語
彙として構成され、本発明による検索方法が適用され
る。この手続きには、語形変化されていない単純語を参
照用に語彙に含めるだけで、語形変化された複合語につ
いても辞書データを決定することができるという効果を
有し、従って語彙が占有するメモリスペースを大幅に削
減できる。辞書データに付加されるマーカーは、単語が
その形では語彙中に含まれておらず、単語の語尾部分が
語彙中の単語と合致するだけであることを意味し、又、
単語の残り部分が誤ってつづられていることを意味する
こともできる。

【００４１】語彙中に多数の複合語を含むことは有利で
ある。そうすることにより、単語の語尾部分の対応する
文字の要求最小数を増やすことができ、不正確な結果の
危険性を減らすこととなる。

【００４２】図５は、本発明による装置を備え、複合語
及び単純語の両方の辞書化に適用されたデータ処理ユニ
ットの考えられる実施例の一つを示している。本データ
処理ユニットは、主ユニット７１、キーボード７２、本
発明によって逆順に配列された語彙を記憶する大容量メ
モリ７３、及びスクリーン７４を備える。主ユニット７
１は、キーボード７２に接続されたキーボードコントロ
ーラ７５と、大容量メモリ７３に接続されたディスクコ
ントローラ７６と、スクリーン７４に接続されたスクリ
ーンコントローラ７７と、大容量メモリから文字ファイ
ルをロードすることができる第１のメモリモジュール７
８と、文字列操作ダイヤグラム及び関連する命令シリー
ズが記憶される第２のメモリモジュール７９と、文字列
操作ダイヤグラムを参照して入力単語を処理する手段及
び文字列操作ダイヤグラムを検索したパスに関連する命
令シリーズを選択する手段を含む文字列操作モジュール
８０と、発見された仮基本形が基本形のリスト内に見出
しを有するかをチェックする手段を含む検索モジュール
８１とを備える。この目的のために、この検索モジュー
ルは本発明による選択手段を有し、語彙中からターゲッ
ト語と共通な最大の語尾部分を有するキーワードを含む
レコードを選択する様に適用されている。主ユニット
は、発見された見出しが命令シリーズを満足するかチェ
ックする手段及び見出しからデータを適合させる手段を
含む出力モジュール８２と、以降の処理で使用できるよ
うに獲得されたデータをセットするバッファ８３と、こ
れらのモジュール及びコントローラを制御する処理ユニ
ット８４も備えている。

【００４３】第１のメモリモジュール７８に記憶されて
いる文字ファイルからの入力単語やキーボード７２から
の入力は文字列操作モジュール８０に入力される。第２
のメモリモジュール７９に記憶されている文字列操作ダ
イヤグラムを参照して、文字列操作モジュール８０は仮
基本形とそれに関連する命令シリーズを作る。得られた
仮基本形は検索モジュール８１に入力され、大容量メモ
リ７３に記憶されている基本形のリスト中にその仮基本
形が見出しを有するかがチェックされる。そのために、
本発明による方法のステップを実行し、見出しが見つか
ればそのデータが読み込まれる。これらのデータは出力
モジュール８２に入力され、文字列操作モジュール８０
が提供する命令シリーズと比較され、入力単語の特徴デ
ータを形成するように処理される。得られた特徴データ
はスクリーンコントローラ７７を介してスクリーン７４
に表示されるか又はバッファメモリ８３にセットされ、
そして、例えば文のパーシングといった他の目的に使用
できる。

【００４４】本発明は記述されている方法又は実施例に
は限定されず、技術を有する者によって様々な他のやり
方で実施されうる。しかし、それらは全て特許請求の範
囲内に入る。

【図面の簡単な説明】

【図１】本発明による装置のブロック略図である。

【図２】本発明による方法のフロー図である。

【図３Ａ】本発明による方法の有利な実施例に関するフ
ロー図である。

【図３Ｂ】本発明による方法の有利な実施例に関するフ
ロー図である。

【図４】本発明が有利に適用されうる入力単語を辞書化
する方法のフロー図である。

【図５】本発明による装置を備え、複合語及び単純語の
辞書化に適用されたデータ処理ユニットの考え得る実施
例の説明図である。

【符号の説明】

１入力レジスタ２検索モジュール３語彙４レコード５キーワード６辞書データ７出力レジスタ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ０６Ｆ 15/20 ５９２Ｆ (72)発明者エデユアルダス・ヨセフス・ウイリブローダス・フアン・フリエンベルゲンオランダ国、5924・アー・イツクス・フエンロ、ラ・フオンテイネストラート・７ (72)発明者ルイス・マリエ・ジエラルダス・クレメルスオランダ国、5915・エー・エム・フエンロ、カシノウエヒ・44 (56)参考文献特開平３−98167（ＪＰ，Ａ) 特開昭60−33665（ＪＰ，Ａ) 特開昭63−229523（ＪＰ，Ａ) 特開平２−183867（ＪＰ，Ａ) 特開昭63−37425（ＪＰ，Ａ) 特開昭60−91478（ＪＰ，Ａ) 特開昭62−184587（ＪＰ，Ａ) 特開平１−137366（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 17/22 G06F 17/27

Claims

(57)【特許請求の範囲】

【請求項１】それぞれがキーワードを含むレコードで
構成される語彙と、該語彙から複合のターゲット語に関
連するレコードを選択する選択手段とを備えた、複合の
ターゲット語に関する辞書データを決定するための装置
であって、前記キーワードが逆順に配列され、且つ前記
選択手段が前記語彙から前記ターゲット語と共通な最大
の語尾部分を有するキーワードを有するレコードを選択
するべく適用されたことを特徴とする複合のターゲット
語に関する辞書データを決定するための装置。
【請求項２】単語の前記最大の語尾部分が最小限の長
さを超える場合にのみ選択が行われることを特徴とする
請求項１に記載の装置。
【請求項３】複合のターゲット語に関する辞書データ
を決定するための方法であって、それぞれがキーワードを含むレコードで構成される語彙
を準備し、該語彙から複合のターゲット語に関連するレコードを選
択し、前記キーワードが逆順に配列され、且つ前記選択が前記
語彙から前記ターゲット語と共通な最大の語尾部分を有
するキーワードを有するレコードを選択するべく行われ
る方法。
【請求項４】単語の前記最大の語尾部分が最小限の長
さを超えた場合のみ選択が行われることを特徴とする請
求項３に記載の方法。
【請求項５】上部リミットレコードと下部リミットレ
コードとで規定された検索インターバル内で中間レコー
ドを決定し、該中間レコードのキーワードと前記ターゲ
ット語とを比較し、前記検索インターバルを狭め、前記
上部リミットレコードと前記下部リミットレコードとが
互いに接近したときにレコードを選択することを特徴と
する請求項３又は４に記載の方法。
【請求項６】隣接した上部リミットレコードと下部リ
ミットレコードとに関連する単語の共通部分の長さが同
じであれば、最大長のキーワードを有するレコードを選
択することを特徴とする請求項５に記載の方法。
【請求項７】ターゲット語に関する辞書データを得る
手段を備え、且つ請求項１に記載の装置を含み、複合語
及び単純語を辞書化するべく適用されたデータ処理ユニ
ット。