JP3071570B2 - 複合のターゲット語に関する辞書データを決定するための装置及び方法 - Google Patents

複合のターゲット語に関する辞書データを決定するための装置及び方法

Info

Publication number
JP3071570B2
JP3071570B2 JP4197058A JP19705892A JP3071570B2 JP 3071570 B2 JP3071570 B2 JP 3071570B2 JP 4197058 A JP4197058 A JP 4197058A JP 19705892 A JP19705892 A JP 19705892A JP 3071570 B2 JP3071570 B2 JP 3071570B2
Authority
JP
Japan
Prior art keywords
vocabulary
record
word
target word
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4197058A
Other languages
English (en)
Other versions
JPH05266079A (ja
Inventor
ロベルタス・ペトラス・エリザベス・フベルタス・ヘーメルス
エデユアルダス・ヨセフス・ウイリブローダス・フアン・フリエンベルゲン
ルイス・マリエ・ジエラルダス・クレメルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oce Technologies BV
Original Assignee
Oce Nederland BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Nederland BV filed Critical Oce Nederland BV
Publication of JPH05266079A publication Critical patent/JPH05266079A/ja
Application granted granted Critical
Publication of JP3071570B2 publication Critical patent/JP3071570B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、それぞれがキーワード
を含むレコードで構成される語彙と、語彙からターゲッ
トの複合語に合致するレコードを選択する選択手段とを
備える、ターゲットである複合語のデータを決定するた
めの装置に関する。本発明は又、この種の装置の方法及
びこの種の装置を含むデータ処理ユニットに関する。
【0002】
【従来の技術】序文で述べたタイプの装置は、欧州特許
明細書EP-B-0 145 202号に公知である。これは、スペル
チェックの目的で複合語に合致するレコードを語彙中か
ら選択する装置について記述している。語彙がメモリス
ペースに占める量が最小となるように、語彙は複合語は
含まず、基本語のみである。基本語には序文で言及した
キーワードに対応し、語彙からレコードを一意に識別す
ることができるようになっている。
【0003】
【発明が解決しようとする課題】この発明の問題点は、
複合語の辞書データを決定するために、できる限り語彙
用に必要なメモリスペースを制限するために複合語を含
んでいないこの種の語彙中からその複合語に合致するレ
コードを選択することである。
【0004】前記特許明細書に記述されている装置を使
用すること第1の欠点は、複合語を処理するために全語
彙にわたる検索動作を繰り返し実行しなくてはならない
点である。第2の欠点は語彙が膨大な数の基本語を含み
(実際の使用にはこれが望ましいが)、単語の最初の部
分がこの種の基本語に合致し、単語の残りの部分につい
て基本語を見つけることがもはや不可能となる危険性が
あり、繰り返しの検索動作を引き起こすこととなる点で
ある。
【0005】本発明の目的はこれらの欠点を取り除くこ
とである。
【0006】
【課題を解決するための手段】本発明は、多くの言語に
おいて複合語の辞書データは複合語の最後の部分によっ
て決定されるという事実を利用しており、できるだけタ
ーゲット語に対応する語尾を有し従って要求されている
辞書データを含んでいるレコードを探すことは、逆順に
整列された語彙に対して検索動作を行うことにより大幅
に単純化されるという原則に基づいている。
【0007】本発明によれば、序文に記述されているタ
イプの装置はキーワードが逆順に整列され、選択手段が
語彙からターゲット語と共通する最大の語尾部分を有す
るレコードを選択するように構成されていることを特徴
とし、この種の装置の方法は語彙中からターゲット語と
共通する語尾部分が最大であるキーワードを有するレコ
ードを選択することを特徴とする。
【0008】逆順とは、キーワードがアルファベット順
になっているが、各語の最後の文字から始まって先頭の
文字へと並んでいることを意味する。この語彙中の単語
は、一文字毎に、語の最後の文字から始まって先頭の文
字へと並んでいるキーワードと合致するかどうかをチェ
ックすることにより検索される。本検索方法の効果は、
ターゲット語が完全には見つからなかった場合でも、タ
ーゲット語と共通する文字を最も多く含むキーワード
(最後の文字から始まって逆に並んでいる)が見つかる
ことである。このやり方で発見した、関連するレコード
を伴うキーワードは、最後の文字から逆に読んでターゲ
ット語に最も合致するキーワードであろう。後の部分は
辞書データの決定要素であるので、発見されたキーワー
ドの辞書データは満足できる。
【0009】示唆されている検索方法は又、語彙中に完
全に現れている単語の辞書データを決定するためにも適
していることが前述から明かである。このことによる利
点は一つの操作で単純語と複合語の両方の辞書データの
決定が行えるということである。もはや複合語を単純語
と区別する必要はなく、辞書データを決定するために例
えば複合を組み立てている基本語に分割するといった分
離処置を複合語に施す必要もない。
【0010】本装置及び方法の一つの有利な実施例は、
単語の最大の語尾部分が最小の長さを超えた場合のみ選
択が行われることを特徴とする。
【0011】この基準により、合致する語尾文字が少な
すぎることによる不正確な結果を避けることができる。
【0012】本方法のもう一つの有利な実施例は、上部
リミットレコードと下部リミットレコードとで限定され
た検索インターバル内で中間レコードを決定し、中間レ
コードのキーワードとターゲット語を比較し、検索イン
ターバルを狭め、そして、上部リミットレコードとボト
ムリミットレコードが互いに接近したときにレコードを
選択することを特徴とする。
【0013】速い検索方法はこのやり方で得られる。
【0014】
【実施例】図1は本発明による装置のブロック略図であ
る。この種の装置は入力レジスタ1、検索モジュール
2、逆順に配列された語彙3、及び出力レジスタ7を備
える。逆順の語彙3は多数のレコード4を備える。各レ
コードはキーワード5とそれに関連する辞書データ6を
含む。語彙の逆順はキーワードを逆順に配列することに
より得られる。図1は逆順に配列された複数のキーワー
ドを図解している。これらのキーワードが逆順に書かれ
ていることは本発明にとって肝要ではない。入力レジス
タ1にあるターゲット語は選択手段を備える検索モジュ
ール2に入力される。検索モジュール2は逆順の語彙3
を調べ、選択手段を用いてターゲット語に直接関連する
(relevant)レコードを決定し、得られたデータを出力レ
ジスタ7にセットする。
【0015】本発明による方法を図2を参照して説明す
る。開始位置は参照番号10によって示される。ターゲ
ット語はステップ11にて読み込まれる。そして、ステ
ップ12においてターゲット語を一文字ずつ多数のキー
ワードと比較することによる逆順の語彙の検索が実行さ
れる。ここでは様々な検索方法が可能である。例えば、
語彙の線形トラバースや検索インターバルがステップ毎
に減らされる二分法などである。二分検索法の一つの有
利な変形例を図3A、3Bを用いて説明する。ステップ
12においてターゲット語が完全に語彙に含まれている
ことが分かった場合には(Y)、ステップ13では辞書
データが受け取られ出力レジスタにセットされる。ステ
ップ12においてターゲット語が語彙に含まれないこと
が分かった場合には(N)、ステップ14ではターゲッ
ト語に直接関連する見出しが決定され、その辞書データ
が出力レジスタにセットされる。この後、最終条件15
に達する。
【0016】図3A及び図3Bを参照して本発明による
方法の一つの有利な実施例を詳細に説明する。開始状況
は参照番号31に示されている。ターゲット語はステッ
プ32にて読み込まれ、そして、ステップ33において
ターゲット語中のハイフンが削除され、ターゲット語が
逆順にされる。しかし、逆順への変換は本発明の本質に
必要なわけではない。ここに記述する検索方法は文献に
公知の二分検索法の変形であり、検索インターバルがス
テップ毎に減らされるものである。検索インターバルは
上部リミットレコードと下部リミットレコードとよって
規定される。ステップ34において、上部リミットレコ
ードと下部リミットレコードを規定することにより語彙
中の初期の検索インターバルを決定する。この目的のた
めに語彙の最初のレコードと最後のレコードを使用する
ことが可能である。語彙中のキーワードの最初の2文字
が前のキーワードの最初の2文字と異なるレコード毎に
インデックスを設けると更に有利である。初期の検索イ
ンターバルはターゲット語の最初の2文字によって決定
する。下部リミットは逆順のキーワードが2文字の組み
合わせで始まる最初のレコードによって決定され、頭レ
コードは逆順のキーワードが2文字の組み合わせで始ま
る最後のレコードによって決定される。初期の検索イン
ターバルが決まった場合には、ステップ35において、
上部及び下部リミットの逆順のキーワード及び逆順のタ
ーゲット語の相対重みが決定される。3つの逆順の単語
の最初から何文字対応するかのチェックがまず行われ
る。各逆順の単語について、相互に対応する文字の後に
すぐ位置する第1及び第2の文字が取られる。3語のそ
れぞれについて、相互に対応する文字のすぐ後に位置す
る最初の文字に関連する数に27をかけたものと、対応
する文字の後に位置する2番目の文字に関連する数との
和を決定する事により相対重みが決定される。文字に関
連する数とはそのアルファベット順の番号である。文字
に数を割り当てる他の方法ももちろん可能である。ステ
ップ36において、逆順のターゲット語のインターバル
における相対位置は、ターゲット語と下部リミットの相
対重みの差異と上部リミットと下部リミットの相対重み
の差異との商を求めることにより決定される。この方法
で算出された重みはインターバル中に均一に分布してい
ないため、この相対位置はステップ37においてインタ
ーバルの中間により近く置くことにより修正される。ス
テップ38において、語彙中の算出された位置にあるキ
ーワードが検索され、検索されたキーワードとターゲッ
ト語が一致するかどうか決める。もし、完全に一致する
場合には(Y)、ステップ40においてこのレコードが
選択されると共にステップ41において選択されたレコ
ードの辞書データが出力レジスタにセットされて最終条
件42に達する。ステップ39において完全に合致しな
かった場合には(N)、ステップ43ではアルファベッ
トの語順において逆順のターゲット語が逆順のキーワー
ドよりも小さいかどうかチェックする。小さければ
(Y)、ステップ44では要求されている逆順のキーワ
ードが検索インターバルの新しい上部リミットとなる。
小さくなければ(N)、ステップ45では要求されてい
る逆順のキーワードが検索インターバルの新しい下部リ
ミットとなる。ステップ46は検索インターバルの上部
リミットと下部リミットが互いにすぐ隣に位置している
かチェックする。そうでなければ(N)プログラムはス
テップ35に戻る。そうであれば(Y)語彙の検索動作
は停止する。ステップ47は、逆順のターゲット語と下
部リミットの逆順のキーワードの対応する最初の部分の
長さが、逆順のターゲット語と上部リミットの逆順のキ
ーワードの対応する最初の部分の長さが同じであるかど
うかを決定する。同じであれば(Y)、ステップ48で
は上部リミット及び下部リミットから最も長いキーワー
ドを有するレコードを選択する。同じでなければ
(N)、ステップ49ではその逆順のキーワードと逆順
のターゲット語に共通である最初の部分が最も長いレコ
ードを選択する。いずれの場合においても、ステップ5
0において、語の対応している部分が最低限必要とされ
る数の文字を有しているかチェックする。有していれば
(Y)、ステップ51において辞書データと、単語が語
彙中に完全には含まれていないことを示すマーカとが出
力レジスタにセットされた後、最終条件52に達する。
有していなければ、ステップ53においてエラー表示が
出された後、最終条件52に達する。
【0017】例を参照して上記の方法を詳細に説明す
る。入力単語はオランダ語の教会のドアを指す複合語で
ある「kerkdeur」である。その逆順のキーワードが2文
字の組み合わせである「ru」で始まる語彙の該当するセ
グメントは表1に示された単語を含むものとする。開始
状態31に始まって、ターゲット語である「kerkdeur」
がステップ32で読み込まれる。これは複合語である。
これは語彙に含まれていない。ステップ33にてターゲ
ット語は逆順にされ「ruedkrek」となる。ステップ34
にて初期の検索インターバルの上部リミット及び下部リ
ミットが決められる。これは逆順のターゲット語の最初
の2文字「ru」で規定される。
【0018】
【表1】
【0019】初期の検索インターバルは上部リミット
「ruuv」と下部リミット「ruatnec 」を有する。次に単
語の相対重みがステップ35にて計算される。そのため
に、プログラムはまず、どの位置から単語が互いに異な
っているかを決める。それは第2の位置である。よって
重みは第3及び第4の文字を基に算出される。文字に与
えられる数はアルファベットの順番に対応する。第3の
文字に与えられる数に27をかけて以下の様になる。
【0020】 ruatnec -> 27 * 1 + 20 = 47 ruedkrek -> 27 * 5 + 4 = 139 ruuv -> 27 * 21 + 22 = 589 ステップ36では、逆順のターゲット語のインターバル
中での相対位置xrが、下部リミットとターゲト語の距離
をインターバルのサイズで標準化することにより算出さ
れる。即ち、 xr = (139 - 47) / (589 - 47) = 0.17 ステップ37では、この相対位置はインターバル中の単
語の重みの不均一な分布のために修正される。これはイ
ンターバルの中心xhの方向に位置を移動することにより
算出され、xrc となる。移動の程度は修正因数cにより
決まる。これを0.4 とすると、以下のようになる。
【0021】xrc = xr*(1-c) + xh*c = 0.3 インターバル中での絶対位置はxa = int(0.3*N) = 4
(Nはインターバル中のレコードの数、及びint() は整
数にするために数を丸める関数)となる。
【0022】算出された位置に関連するキーワードはス
テップ38で語彙中から検索される。これは「ruek」と
なり、ステップ39ではこの語がターゲット語と合致す
るかチェックする。合致しなければ(N)、ステップ4
3では逆順のターゲット語が逆順のキーワードよりもア
ルファベット順で小さいかどうかチェックする。小さけ
れば(Y)、ステップ44では発見されたキーワードは
上部リミットとなる。次に、ステップ46では下部リミ
ット及び上部リミットが互いに隣接しているかチェック
される。隣接していなければ(N)、プログラムはステ
ップ35に戻り、相対重みが再度算出される。
【0023】 ruatnec -> 27 * 1 + 20 = 47 ruedkrek -> 27 * 5 + 4 = 139 ruek -> 27 * 5 + 11 = 146 ステップ36において新しいインターバル上の相対位置
が決定される。
【0024】xr = (139 - 47) / (146 - 47) = 0.93 ステップ37において、不均一な分布のために修正が行
われ、インターバル上の絶対位置xaが決定され、xa=3と
なる。ステップ38では第3の単語のキーワードが決定
され、「rued」となる。次にステップ39において、こ
れとターゲット語が合致しないという結果に到達し、ス
テップ43へと続く。このステップは「ruedkrek」がア
ルファベット順において「rued」よりも大きい(N)こ
とを確認する。ステップ45にて「rued」を下部リミッ
トにする。ステップ46では下部リミットと上部リミッ
トが隣接しているかチェックする。隣接していれば
(Y)、プログラムはステップ47に進み、上部リミッ
ト及び下部リミットの逆順のキーワードが逆順のターゲ
ット語と共通の文字を同じ数だけ有するかどうかをチェ
ックする。違う場合には(N)、ステップ49におい
て、逆順のターゲット語に合致する文字を最も多く有す
る逆順のキーワードのレコードを選択し、「rued」とな
る。ステップ50では単語の合致する部分が要求されて
いる最小の文字数を少なくとも含むかどうかをチェック
する。これを4としよう。発見されたレコードはこの条
件をみたす(Y)。逆順のキーワード「rued」の辞書デ
ータは以下の通りである。「inneuter male female sin
g3」。これらのデータは取り出され、ステップ51にお
いて以下の形で出力レジスタにセットされる。
【0025】(kerkdeur (noun (*rued inneuter male f
emale sing3))) マーカーの「*」はターゲット語が語彙中に完全に現れ
ていないことを意味する。そして最終条件52に達す
る。
【0026】英語の例を挙げる。入力単語は複合語の
「bookkeeper」である。逆準のキーワードが2文字の組
み合わせ「re」で始まる語彙の該当するセグメントは表
2に挙げる単語を含むものとする。
【0027】
【表2】
【0028】開始状態31から始めて、ステップ32で
ターゲット語「bookkeeper」が読み込まれる。これは複
合語であり、語彙に含まれない。ステップ33ではター
ゲット語は逆転され、「repeekkoob」となる。ステップ
34では初期の検索インターバルの上部リミット及び下
部リミットが決定される。これは逆転されたターゲット
語の最初の2文字「re」によって規定される。
【0029】初期の検索インターバルは、上部リミット
の「repuos」と下部リミットの「rep 」を有する。単語
の相対重みはステップ35で算出される。そのために、
プログラムはまずどの位置から単語が互いに異なってい
るかを決定する。これは第3の位置である。
【0030】従って、重みは第4及び第5の文字を基に
算出される。文字に与えられる数はアルファベットの順
番に対応する。第4の文字に与えられる数には27をか
ける。結果は以下の通り。
【0031】 rep -> 27 * 0 + 0 = 0 repeekkoob -> 27 * 5 + 5 = 140 repuos -> 27 * 21 + 15 = 582 ステップ36において、逆転されたターゲット語のイン
ターバル中の相対位置xrが下部リミットとターゲット語
の距離をインターバルのサイズで割ることにより算出さ
れる。
【0032】xr = (140 - 0) / (582 - 0) = 0.25 ステップ37において、単語の重みのインターバル中へ
の不均一な分布のために相対位置が修正される。これは
位置をインターバルの中心xhの方向に移動することによ
り算出され、xrc となる。移動の程度は修正因数cによ
って決まる。これを0.4 とすると、結果は以下の通りと
なる。
【0033】xrc = xr*(1-c) + xh*c = 0.35 そして、インターバル上での絶対位置は xa = int(0.35
*N) = 5 (Nはインターバル中のレコード数、及び int
() は整数を作るために数を丸める関数)となる。
【0034】次に、算出された位置のキーワードがステ
ップ38において語彙中から検索される。それは「slee
per 」となり、ステップ39ではこの単語がターゲット
語と合致するかがチェックされる。合致しなければ
(N)、ステップ43において、逆順のターゲット語が
逆順のキーワードよりもアルファベット順で小さいかど
うかがチェックされる。小さければ(Y)、ステップ4
4では見つかったキーワードが上部リミットとなる。次
にステップ46において下部リミットと上部リミットが
隣接しているかどうかがチェックされる。隣接していな
ければ(N)、プログラムはステップ35に戻り、相対
重みが再度算出される。
【0035】 rep -> 27 * 0 + 0 = 0 repeekkoob -> 27 * 5 + 5 = 140 repeels -> 27 * 5 + 5 = 140 ステップ36において、新しいインターバルの相対位置
が決定される。
【0036】xr = (140 - 0) / (140 - 0) = 1 ステップ37において、単語の重みのインターバル中へ
の不均一な分布のために修正が行われ、インターバル上
の絶対位置xaが決定され、xa=4となる。ステップ38で
は第4のレコードのキーワードが決定され、「repeek」
となる。次にステップ39において、これとターゲット
語が合致しない(N)という結果に達し、ステップ43
へと進む。このステップでは「repeekkoob」がアルファ
ベット順において「repeek」よりも大きい(N)ことを
確認する。ステップ45にて「repeek」を下部リミット
にする。ステップ46では下部リミットと上部リミット
が隣接しているかチェックする。隣接していれば
(Y)、プログラムはステップ47に進み、上部リミッ
ト及び下部リミットの逆順のキーワードが逆順のターゲ
ット語と共通の文字を同じ数だけ有するかどうかをチェ
ックする。違う場合には(N)、ステップ49におい
て、その逆順のキーワードが逆順のターゲット語に合致
する文字を最も多く有するレコードを選択し、「repee
k」となる。ステップ50では単語の合致する部分が要
求されている最小の文字数を少なくとも含むかどうかを
チェックする。これを4としよう。発見されたレコード
はこの条件を満たす(Y)。逆順のキーワード「repee
k」の辞書データは以下の通りである。「countable sin
g3 noun」これらのデータは取り出され、そしてステッ
プ51において以下の形で出力レジスタにセットされ
る。
【0037】(bookkeeper(noun(*repeek countable sin
g3 noun))) マーカの「*」はターゲット語が語彙中に完全に現れて
いないことを意味する。そして最終条件52に達する。
【0038】本発明は、語彙中からターゲット語と共通
の語尾部分を有する単語を探す必要のある全てのケース
に有利に適用する。
【0039】本発明は、特許出願NL 91 01284 (本願出
願日と同一日にオランダ国優先権出願に出願人により出
願された)に記述されている辞書データを取得するため
方法と有利に組み合わせられる。図4を参照して詳細に
説明する。ひと通り実行されるステップはこの図に示さ
れている。参照番号60に示されている開始状態から始
まって、入力単語はステップ61で読み込まれ、入力単
語の仮基本形が文字列操作ダイアグラム62によって誘
導される。ステップ63では電子単語レジスタ64から
検索され、発見された場合には辞書データが決定されて
書き出され、そして最終条件65に達する。
【0040】本発明は、電子単語レジスタから仮基本形
を検索するために有利に使用することが可能である。そ
のために、電子単語レジスタ64は逆順に配列された語
彙として構成され、本発明による検索方法が適用され
る。この手続きには、語形変化されていない単純語を参
照用に語彙に含めるだけで、語形変化された複合語につ
いても辞書データを決定することができるという効果を
有し、従って語彙が占有するメモリスペースを大幅に削
減できる。辞書データに付加されるマーカーは、単語が
その形では語彙中に含まれておらず、単語の語尾部分が
語彙中の単語と合致するだけであることを意味し、又、
単語の残り部分が誤ってつづられていることを意味する
こともできる。
【0041】語彙中に多数の複合語を含むことは有利で
ある。そうすることにより、単語の語尾部分の対応する
文字の要求最小数を増やすことができ、不正確な結果の
危険性を減らすこととなる。
【0042】図5は、本発明による装置を備え、複合語
及び単純語の両方の辞書化に適用されたデータ処理ユニ
ットの考えられる実施例の一つを示している。本データ
処理ユニットは、主ユニット71、キーボード72、本
発明によって逆順に配列された語彙を記憶する大容量メ
モリ73、及びスクリーン74を備える。主ユニット7
1は、キーボード72に接続されたキーボードコントロ
ーラ75と、大容量メモリ73に接続されたディスクコ
ントローラ76と、スクリーン74に接続されたスクリ
ーンコントローラ77と、大容量メモリから文字ファイ
ルをロードすることができる第1のメモリモジュール7
8と、文字列操作ダイヤグラム及び関連する命令シリー
ズが記憶される第2のメモリモジュール79と、文字列
操作ダイヤグラムを参照して入力単語を処理する手段及
び文字列操作ダイヤグラムを検索したパスに関連する命
令シリーズを選択する手段を含む文字列操作モジュール
80と、発見された仮基本形が基本形のリスト内に見出
しを有するかをチェックする手段を含む検索モジュール
81とを備える。この目的のために、この検索モジュー
ルは本発明による選択手段を有し、語彙中からターゲッ
ト語と共通な最大の語尾部分を有するキーワードを含む
レコードを選択する様に適用されている。主ユニット
は、発見された見出しが命令シリーズを満足するかチェ
ックする手段及び見出しからデータを適合させる手段を
含む出力モジュール82と、以降の処理で使用できるよ
うに獲得されたデータをセットするバッファ83と、こ
れらのモジュール及びコントローラを制御する処理ユニ
ット84も備えている。
【0043】第1のメモリモジュール78に記憶されて
いる文字ファイルからの入力単語やキーボード72から
の入力は文字列操作モジュール80に入力される。第2
のメモリモジュール79に記憶されている文字列操作ダ
イヤグラムを参照して、文字列操作モジュール80は仮
基本形とそれに関連する命令シリーズを作る。得られた
仮基本形は検索モジュール81に入力され、大容量メモ
リ73に記憶されている基本形のリスト中にその仮基本
形が見出しを有するかがチェックされる。そのために、
本発明による方法のステップを実行し、見出しが見つか
ればそのデータが読み込まれる。これらのデータは出力
モジュール82に入力され、文字列操作モジュール80
が提供する命令シリーズと比較され、入力単語の特徴デ
ータを形成するように処理される。得られた特徴データ
はスクリーンコントローラ77を介してスクリーン74
に表示されるか又はバッファメモリ83にセットされ、
そして、例えば文のパーシングといった他の目的に使用
できる。
【0044】本発明は記述されている方法又は実施例に
は限定されず、技術を有する者によって様々な他のやり
方で実施されうる。しかし、それらは全て特許請求の範
囲内に入る。
【図面の簡単な説明】
【図1】本発明による装置のブロック略図である。
【図2】本発明による方法のフロー図である。
【図3A】本発明による方法の有利な実施例に関するフ
ロー図である。
【図3B】本発明による方法の有利な実施例に関するフ
ロー図である。
【図4】本発明が有利に適用されうる入力単語を辞書化
する方法のフロー図である。
【図5】本発明による装置を備え、複合語及び単純語の
辞書化に適用されたデータ処理ユニットの考え得る実施
例の説明図である。
【符号の説明】
1 入力レジスタ 2 検索モジュール 3 語彙 4 レコード 5 キーワード 6 辞書データ 7 出力レジスタ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 15/20 592F (72)発明者 エデユアルダス・ヨセフス・ウイリブロ ーダス・フアン・フリエンベルゲン オランダ国、5924・アー・イツクス・フ エンロ、ラ・フオンテイネストラート・ 7 (72)発明者 ルイス・マリエ・ジエラルダス・クレメ ルス オランダ国、5915・エー・エム・フエン ロ、カシノウエヒ・44 (56)参考文献 特開 平3−98167(JP,A) 特開 昭60−33665(JP,A) 特開 昭63−229523(JP,A) 特開 平2−183867(JP,A) 特開 昭63−37425(JP,A) 特開 昭60−91478(JP,A) 特開 昭62−184587(JP,A) 特開 平1−137366(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/22 G06F 17/27

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 それぞれがキーワードを含むレコードで
    構成される語彙と、該語彙から複合のターゲット語に関
    連するレコードを選択する選択手段とを備えた、複合の
    ターゲット語に関する辞書データを決定するための装置
    であって、前記キーワードが逆順に配列され、且つ前記
    選択手段が前記語彙から前記ターゲット語と共通な最大
    の語尾部分を有するキーワードを有するレコードを選択
    するべく適用されたことを特徴とする複合のターゲット
    語に関する辞書データを決定するための装置。
  2. 【請求項2】 単語の前記最大の語尾部分が最小限の長
    さを超える場合にのみ選択が行われることを特徴とする
    請求項1に記載の装置。
  3. 【請求項3】 複合のターゲット語に関する辞書データ
    を決定するための方法であって、 それぞれがキーワードを含むレコードで構成される語彙
    を準備し、 該語彙から複合のターゲット語に関連するレコードを選
    択し、 前記キーワードが逆順に配列され、且つ前記選択が前記
    語彙から前記ターゲット語と共通な最大の語尾部分を有
    するキーワードを有するレコードを選択するべく行われ
    る方法。
  4. 【請求項4】 単語の前記最大の語尾部分が最小限の長
    さを超えた場合のみ選択が行われることを特徴とする
    求項3に記載の方法。
  5. 【請求項5】 上部リミットレコードと下部リミットレ
    コードとで規定された検索インターバル内で中間レコー
    ドを決定し、該中間レコードのキーワードと前記ターゲ
    ット語とを比較し、前記検索インターバルを狭め、前記
    上部リミットレコードと前記下部リミットレコードとが
    互いに接近したときにレコードを選択することを特徴と
    する請求項3又は4に記載の方法。
  6. 【請求項6】 隣接した上部リミットレコードと下部リ
    ミットレコードとに関連する単語の共通部分の長さが同
    じであれば、最大長のキーワードを有するレコードを選
    択することを特徴とする請求項5に記載の方法。
  7. 【請求項7】 ターゲット語に関する辞書データを得る
    手段を備え、且つ請求項1に記載の装置を含み、複合語
    及び単純語を辞書化するべく適用されたデータ処理ユニ
    ット。
JP4197058A 1991-07-23 1992-07-23 複合のターゲット語に関する辞書データを決定するための装置及び方法 Expired - Fee Related JP3071570B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL9101285 1991-07-23
NL9101285A NL9101285A (nl) 1991-07-23 1991-07-23 Inrichting en werkwijze voor het bepalen van gegevens van samengestelde woorden.

Publications (2)

Publication Number Publication Date
JPH05266079A JPH05266079A (ja) 1993-10-15
JP3071570B2 true JP3071570B2 (ja) 2000-07-31

Family

ID=19859546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4197058A Expired - Fee Related JP3071570B2 (ja) 1991-07-23 1992-07-23 複合のターゲット語に関する辞書データを決定するための装置及び方法

Country Status (6)

Country Link
US (1) US5371676A (ja)
EP (1) EP0524693B1 (ja)
JP (1) JP3071570B2 (ja)
AT (1) ATE181777T1 (ja)
DE (1) DE69229491T2 (ja)
NL (1) NL9101285A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4213533C2 (de) * 1992-04-22 1996-01-25 Ibm Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US6963871B1 (en) 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
KR100686622B1 (ko) * 1998-05-22 2007-02-23 코닌클리케 필립스 일렉트로닉스 엔.브이. 키워드 검출수단을 구비한 기록장치
US6751612B1 (en) * 1999-11-29 2004-06-15 Xerox Corporation User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US9418151B2 (en) * 2012-06-12 2016-08-16 Raytheon Company Lexical enrichment of structured and semi-structured data

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4342085A (en) * 1979-01-05 1982-07-27 International Business Machines Corporation Stem processing for data reduction in a dictionary storage file
JPH067385B2 (ja) * 1983-08-03 1994-01-26 株式会社日立製作所 キ−ワ−ド自動抽出方式
JPS6091478A (ja) * 1983-10-25 1985-05-22 Sharp Corp 単語の綴り検査方式
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4701851A (en) * 1984-10-24 1987-10-20 International Business Machines Corporation Compound word spelling verification
JPS63229523A (ja) * 1987-03-19 1988-09-26 Matsushita Electric Ind Co Ltd 情報処理装置
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
JPH02183867A (ja) * 1989-01-11 1990-07-18 Nec Corp 表引き方法
JPH0398167A (ja) * 1989-09-11 1991-04-23 Nec Software Ltd 索引順編成ファイルの逆引き検索方式

Also Published As

Publication number Publication date
EP0524693A1 (en) 1993-01-27
DE69229491D1 (de) 1999-08-05
JPH05266079A (ja) 1993-10-15
ATE181777T1 (de) 1999-07-15
EP0524693B1 (en) 1999-06-30
DE69229491T2 (de) 1999-12-30
NL9101285A (nl) 1993-02-16
US5371676A (en) 1994-12-06

Similar Documents

Publication Publication Date Title
EP0813156A2 (en) Method and apparatus for language translation
CN1008016B (zh) 输入处理系统
EP0651315A1 (en) Data entry workstation
JPH11505052A (ja) 語彙辞書の検索範囲を削減するシステム及び方法
JPH058464B2 (ja)
US5560037A (en) Compact hyphenation point data
JP3071570B2 (ja) 複合のターゲット語に関する辞書データを決定するための装置及び方法
US5297038A (en) Electronic dictionary and method of codifying words therefor
EP0524694A1 (en) A method of inflecting words and a data processing unit for performing such method
US5553283A (en) Stored mapping data with information for skipping branches while keeping count of suffix endings
KR101694179B1 (ko) 모음 제거 기반 인덱스 생성 방법 및 장치
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH056398A (ja) 文書登録装置及び文書検索装置
KR930000593B1 (ko) 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치 방법
JPH0140372B2 (ja)
JP2001092830A (ja) 文字列の照合装置およびその方法
JPS6246029B2 (ja)
JPS6057421A (ja) 文書作成装置
JPS6029823A (ja) 適応型記号列変換方式
TW541472B (en) Word/vocabulary searching method for electronic dictionary
JPH026098B2 (ja)
JPS61285573A (ja) 仮名漢字変換装置
JPS619755A (ja) かな漢字変換方式
JPH07109603B2 (ja) 情報検索処理方式および検索ファイル作成装置
JP3272536B2 (ja) 仮名漢字変換方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090526

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090526

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100526

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees