JPH05189476A - 単語を語形変化させる方法及びその方法を実行するデータ処理ユニット - Google Patents
単語を語形変化させる方法及びその方法を実行するデータ処理ユニットInfo
- Publication number
- JPH05189476A JPH05189476A JP4194282A JP19428292A JPH05189476A JP H05189476 A JPH05189476 A JP H05189476A JP 4194282 A JP4194282 A JP 4194282A JP 19428292 A JP19428292 A JP 19428292A JP H05189476 A JPH05189476 A JP H05189476A
- Authority
- JP
- Japan
- Prior art keywords
- list
- inflection
- word
- category
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Complex Calculations (AREA)
- Debugging And Monitoring (AREA)
Abstract
事前言語の語形変化規則を含む分類スキーマを参照する
ことにより所与の単語を語形変化させると共にそれに対
応して単語の辞書データを改造する方法及びデータ処理
ユニットを提供する。 【構成】 言語学的データがメモリのランダムアクセス
部分に分類スキーマの形で記憶されており、分類スキー
マはそれぞれが文法的属性に関する要素を備えているネ
ストした多数のリストを有し、語形変化ステップが入力
データを基に相互にネストしたリストを選択し、次に入
力データを基に最後に選択したリストから文字列操作を
含む要素を選択し、入力単語を語形変化するために文字
列操作を実行する。
Description
語学的データを参照することにより、語形変化されるべ
き入力単語と、入力単語に関連する文法カテゴリと、入
力単語に関連する文法的特徴と、要求されている語形変
化カテゴリとを備える入力データを基に、入力単語が語
形変化される語形変化のステップを備える単語を語形変
化させる方法に関する。
の方法及びデータ処理ユニットはUS-A-4 724 523米国特
許に公知である。それに記述されている方法は、中で
も、言語学的データを表現するデジタル信号の効率的な
格納を提供するという目的を持つ。とりわけ、この目的
は語形変化ルーチンの使用によって達成される。結果と
して、全ての語形変化された単語をメモリ中に格納する
必要はもはや無く、このことによる技術的な効果はメモ
リスペースの相当な節約である。そこに記述されている
語形変化ルーチンの第1の欠点はルーチンが容量記憶シ
ステムに頻繁にアクセスすることを必要とし、結果とし
て速度効率を著しく低下させるということである。第2
の欠点は、語形変化カテゴリに関する言語学的データが
様々なメモリセグメントに分散しており、異なる言語に
適した語形変化ルーチンを作成することが難しくなると
いうことである。
しながら、前記の欠点を大幅に減少させることである。
したやり方でメモリセグメント内に語形変化に必要な情
報の幾分かを収容することを基にしている。
方法は言語学的なデータが分類スキーマの形でメモリの
ランダムアクセス部分に格納されることを特徴とする。
この分類スキーマは、それぞれが文法的特徴に関する要
素を備える多数のネストされたリストを備え、語形変化
ステップは、入力データを基に相互にネストされたリス
トを選択し、次に入力データを基に最後に選択されたリ
ストから文字列操作を備える要素を選択し、入力単語を
語形変化させる文字列操作を実行することを備える。
ータのコンパクトで効率的な保存構造をもたらす。さら
に、この保存構造は容易に交換可能であり、本方法はそ
の言語に適用可能な分類スキーマを使用することにより
容易に他の言語に適するようにすることが可能である。
カテゴリに対応する文法カテゴリを有する要素で最初に
発見されるものを選択し、 −第1のタイプのリストから選択された要素に関連する
第2のタイプのリスト内で、入力データから要求されて
いる語形変化カテゴリに対応する必要な語形変化カテゴ
リを有する要素で最初に発見されるものを選択し、 −第2のタイプのリストから選択された要素に関連する
第3のタイプのリスト内で、その第1のグループからの
全ての文法的特徴が入力データの文法的特徴に含まれて
いる要素で最初に発見されるものを選択し、 −第3のタイプのリストから選択された要素に関連する
第4のタイプのリスト内で、語形変化コードが入力デー
タの語形変化コードに対応する要素で最初に発見される
ものを選択し、 −第4のタイプのリストから選択された要素に格納され
ている文字列操作を入力単語に対して実行し、 −もし前のステップに言及された文字列操作が成功であ
れば、第1のグループからの特徴を第2のグループから
の特徴で置き換えることにより、特徴を適合させる。こ
のことにより、単語の変化された語形変化の結果として
語彙データの適合が可能となる。
は、もし入力データを基にして入力データと要素との間
に一致が無いために第1のリストから要素を選択するこ
とが不可能な場合には、要求されている語形変化カテゴ
リを所定の語形変化カテゴリに変化し、次に変化された
入力データについて語形変化ステップが実行され、元々
要求されていた語形変化カテゴリを基にこの様にして得
られた結果に対して語形変化ステップを再度実行するこ
とを特徴とする。結果として、分類スキーマはある語形
変化カテゴリから他の語形変化カテゴリへの変化の全て
を含む必要はない。もし要求されている変化が含まれて
いない場合には、入力単語はまず、本発明による方法を
用いて所定の語形変化カテゴリ(例えば1人称単数)に
語形変化される。この方法で語形変化された単語は再度
語形変化されるが、今度は元々要求されていた語形変化
カテゴリに変化される。現在の語形変化から要求されて
いる語形変化への変化は、現在の語形変化から(例え
ば)SINGULAR1 への変化とSINGULAR1 から元々要求され
ていた語形変化への変化とに分割される。
力データが要求されている語形変化カテゴリを基に語形
変化が選び出される入力単語の不規則語形変化を含むこ
とを特徴とする。これにる効果は、不規則語形変化カテ
ゴリについても、大容量メモリに格納されている辞書語
彙を調べる必要がないということである。
学的データがメモリセグメント内に分類スキーマの形で
記憶されており、前記分類スキーマが、それぞれが文法
的な性質に関する要素を備える多数のリストを備えるこ
とと、分類スキーマが記憶されている前記メモリセグメ
ントと共働するように手段が構成されていることを特徴
とする。
照してなされる以下の説明によって明かになるであろ
う。
において使用される分類スキーマの構造をまず説明す
る。表1は、本方法と共働して多数のオランダ語単語を
語形変化するために適した分類スキーマの実施例であ
る。分類スキーマを他の言語学的規則に拡張することは
容易なことであるが、ここに示されている分類スキーマ
は本発明が完全にかつ明確に説明されために十分なもの
である。
ネストされたリスト構造を有する。完全ではないが、本
図は表1の分類スキーマを図式的に再現している。同様
の部品は同様の参照番号によって示されている。分類ス
キーマは、第1のタイプのリストから構成されており、
図1では参照番号1に示されている。その要素は参照番
号2に示されており、それぞれ文法的カテゴリ3と第2
のタイプのリスト4とを有している。本図に示されてい
る文法的カテゴリはNOUN、VERB、ARTICLE である。文法
的カテゴリ3は、第2のタイプのリスト4に関連づけら
れており、その要素5はそれぞれの格について要求され
ている語形変化カテゴリ6に関する情報とと第3のタイ
プのリスト7とを格納している。本図中の要求されてい
る語形変化カテゴリ6は順にPLU3、SING3 、DIMINUTIV
E、及びUNDIMINUTIVEである。これを基に、本分類スキ
ーマは原則として以下の要求されている語形変化形に従
って名詞を語形変化させる可能性を提供する。即ち、複
数形(PLU3)、単数形(SING3 )、指小接形(DIMINUTI
VE)、及び非指小接形(UNDIMUTIVE)である。第3のタ
イプのリスト7は、現在の文法的特徴の第1のグループ
9と、要求されている文法的特徴の第2のグループ10
と、第4のタイプのリスト11とから構成されている要
素8とを備える。第1のグループ9はリスト7から要素
8の一つを選択する決定要因である。要素8が選択され
た後に第2のグループ10の特徴は、単語の特徴リスト
が単語の新しい語形変化形に適合するために必要とされ
る。第3のタイプのリスト11は、一つ以上の語形変化
コードとその後に文字「# 」に先行される一つ以上の文
字列操作からなる一つ以上の要素12を備える。語形変
化コードと文字列操作はそれぞれ表2と表3を参照して
後で説明する。要素12に格納されている語形変化コー
ドの少なくとも一つが入力単語に関した語形変化コード
を満足した場合に、入力単語に要求されている語形変化
を行うために、所定の文字列操作が入力単語に実行され
る。
施例に限定されないことに留意する必要がある。明白な
変形例は、リストのネスティングが異なるものである。
例えば、要求されている語形変化カテゴリを第1のタイ
プのリストとして、文法的カテゴリを第2のタイプのリ
ストとして含めるといったことである。これは本発明の
主旨に影響しない。
ることも又可能であり、これはとりわけ本発明が実施さ
れるデータ処理ユニットに依存している。本表で使用さ
れているコード体系は、スキーマが依然としてオペレー
タによって読みとり可能であり、従ってデータ処理手段
によって容易に変更され得るという利点を有する。
る。開始状況は20に示されている。ステップ21にお
いて入力データが読み込まれる。入力データは語形変化
されるべき入力単語と、入力単語の辞書データと要求さ
れている語形変化カテゴリーとを備える。
的カテゴリを備える。読み込み操作の後、ステップ22
において、該文法的カテゴリに対応する第1の要素が第
1のタイプのリストから選択される。もし対応する要素
が見つからなければ(N)、終了条件23に達する。要
素が選択されたならば(Y)、プログラムはステップ2
4に進む。先に述べたように、第2のタイプのリスト
は、それぞれが要求されている語形変化カテゴリと第3
のタイプのリストとを含む要素から構成されている。ス
テップ24において、ステップ22にて選択された要素
に関する第2のタイプのリストから、要求されている語
形変化カテゴリに対応する最初の要素が選択される。も
しそのような要素が見つからなかった場合には(N)、
プログラムはステップ25に進む。後に説明するステッ
プ31及び32のいずれかが不成功の場合にも同様のこ
とが起こる。ステップ25は第1のフラグF1がセット
されたかチェックする。セットされていなければ
(N)、要求されている語形変化はステップ26におい
てSING1 に変換され、元々の入力データは記憶され、フ
ラグF1がセットされる。そしてプログラムはステップ
24に戻る。これらのステップの効果は、ある時点にお
いて対応する要素が見つからなかったためにネストした
リスト構造の検索が不成功だった場合に、一人称単数形
への中間ステップを介して要求されている結果に達する
試みを開始することである。即ち、本方法が1回目に実
行されるときには入力単語はSING1 に語形変化され、後
に本方法が2回目に実行されるときにはSING1 に語形変
化された入力単語は元々要求されていた語形変化カテゴ
リに語形変化される。結果として、少なくとも全ての語
形からSING1 へ、SING1 から全ての語形変化への語形変
化が含まれていれば、現在の語形変化カテゴリと要求さ
れている語形変化カテゴリの全組み合わせを分類スキー
マ中に含める必要がないためこのことには利点がある。
トされていれば(Y)、このことは要求されている語形
変化をSING1 に転化する試みが既に行われており、この
試みが失敗したこと意味している。次にステップ27は
第2のフラグF2がセットされているかチェックする。
セットされていなければ(N)、ステップ29において
記憶されていた元々の入力データが検索される。次にス
テップ30が実行され、要求されている語形変化コード
に値「17」が割り当てられフラグF2がセットされ
る。そしてステップ24が再度実行される。これらのス
テップの結果として、一定の音変化パターンに従う強変
化規則動詞は個別に扱われ、よってより単純な分類スキ
ーマをもたらす。ステップ27がフラグF2がセットさ
れていることを示したとき(Y)には、単語を語形変化
コード「17」を介して語形変化しようとした試みが失
敗したことを意味する。そして終了条件28に達する。
いる語形変化カテゴリに対応する最初の要素が第2のタ
イプのリストから選択される。語形変化カテゴリを有す
る要素が発見された場合(Y)には、プログラムは第3
のタイプのリストから、その第1のグループ中の文法的
な特徴が入力単語の辞書データ中に格納されている特徴
リストに含まれている要素で最初に見つかったものを選
択するステップ31に進む。もしこの様な要素が見つか
らなかった場合(N)には、プログラムは既に説明する
ステップ25に進む。その様な要素が見つかった場合
(Y)には、ステップ32が実行される。ステップ32
においては、ステップ31にて第3のタイプのリストか
ら選択された要素に関連する第4のタイプのリストか
ら、格納されている語形変化コードの一つが入力単語に
関連する語形変化コードに対応している要素の最初に発
見されたものを選択する。
る。最初の欄は所与の語形変化グループのコードを格納
しており、第2の欄はグループの定義を示している。こ
の種の語形変化コードは、同様の語形変化を有する語幹
に同じコードを割り当てることにより単純なやり方で作
成し得る。そして語形変化コードは、分離コードを含む
ことにより特殊なケースに拡張される。
する語形変化コードを有する要素が見つからなかった場
合(N)には、本方法はステップ25に続く。その様な
要素が見つかった場合(Y)には、ステップ33が実行
される。ステップ33においては、ステップ32にて選
択された要素に含まれる文字列操作が入力単語に対して
実行される。
操作のコードが最初の欄に示されている。第2の欄は文
字列操作の定義を表し、第3の欄は文字列操作が成功し
たとみなされるべき条件を示す。
作が不成功である場合(N)には、ステップ32が再度
実行されて、それ以降の要素から入力単語の語形変化コ
ードに対応する語形変化コードの一つを有する要素を探
す。ステップ33にて実行されるべき全ての文字列操作
が成功した場合(Y)には、プログラムは、入力単語の
特徴リストを新しい状況に合致させるステップ34に進
む。この目的のために、第3のタイプのリストの選択さ
れた要素の第1のグループ中に存在する特徴リスト中の
文法的特徴は、第2のグループの文法的特徴によって置
換される。この様にして得られた特徴リストは、語形変
化された入力単語に適合している。
ットされているかチェックする。セットされていれば
(Y)、中間ステップとして実行されたSING1 への語形
変化が成功であり、SING1 から元々要求されていた語形
変化への語形変化が実行可能であることを意味する。こ
の目的のために、ステップ26にて予め保存されていた
要求されている語形変化カテゴリは、ステップ36にて
再び読み出され、ステップ24から始まって2回目の語
形変化処理を実行する。ステップ35において第1のフ
ラグF1がセットされていない場合(N)には、本方法
に従って得られかつ要求されている語形変化カテゴリに
従って語形変化された入力単語は、ステップ37におい
て関連する辞書データと一緒に書き出され、終了条件3
8に達する。
れぞれ示されている語形変化コード及び文字列操作を使
用した例を幾つか参照して、上記の方法を詳細に説明す
る。
の意のオランダ語)を使う。入力データは以下の通りで
ある。
ば、複合語を処理するNL-A-9101285の特許出願に記載の
発明と組み合わせたNL-A-9101284の特許出願に記載の辞
書化モジュール(両出願共本発明のオランダ国優先出願
と同一日に出願されている)によって実質的に提供され
るものである。上に示されている辞書データは、左から
右に、 入力単語 :deur 文法的カテゴリ :noun 逆転された語幹形:rued 語形変化コード :8 特徴リスト :inneuter male female sing3とな
る。
ップ21にて入力データが読み込まれる。次にステップ
22において、第1のタイプのリストから、入力単語の
文法カテゴリに対応する最初の要素を選択する。入力単
語は文法的カテゴリとして「noun」を有しているため、
ステップ22においてその要素(表1参照)が選択され
る(Y)。ステップ24では、前のステップで選択され
た要素「noun」に関連した第2のタイプのリスト(図1
の参照番号4を参照)から、要求されている語形変化カ
テゴリに対応する要素が選択される。表1によるとこれ
は要素「PLU3」となり、ステップ24は成功である
(Y)。そして、第1のグループ内のその特徴の全てが
入力データの特徴リストに存在する要素がステップ31
にて選択される。表1によると、これは要素「SING3 」
に当てはまり、ステップ31は成功(Y)である。ここ
で選択された要素は第4のタイプのリスト(図1の参照
番号8を参照)を備え、ステップ32においてそのリス
トから入力データの語形変化コードに対応している語形
変化コードを一つ有する要素を選択する。語形変化コー
ド「8 」を含んでいる故に表1に示されている要素「(1
2 8# +s)」がこれを満たしており、ステップ32は成功
(Y)である。ステップ33において、所定の文字列操
作が実行されてその成功がチェックされる。選択された
要素は唯一の動作として「+en 」を明示している。入力
単語「deur」に表3に明示されている定義に従ってこれ
を適用すると、要求されている語形変化カテゴリに従っ
て語形変化された「deuren」という単語が得られる。こ
の文字列操作は成功(Y)であり、プログラムは特徴リ
ストが適合されるステップ34に進む。このことは、ス
テップ31で選択された要素の第1のグループ内にある
特徴リストの特徴の特徴「SING3 」を、このケースでは
「PLU3」である要素の特徴の第2のグループによって置
換することにより行われる。ステップ35ではフラグF
1がセットされているかどうかのチェックが行われる。
セットされていなければ(N)、ステップ37では語形
変化された単語と適合された辞書データとが書き出さ
れ、これは、 (deuren (noun (rued 8 plu3 inneuter male female))) となる。そして終了条件38に達すると共に本方法の目
的、即ち要求されている語形変化カテゴリに従って入力
単語を語形変化するということが達成される。
のように取り扱われるか説明する。入力データは以下の
通りである。
sing1 past main intransitive X#(loop,loopt,lopen,liep,li
epen,gelopen,loop) 特徴リスト中のX#フィールドは動詞の不規則形を格納し
ている。開始位置20から開始してステップ21にて入
力データが読み込まれる。次にステップ22では第1の
タイプのリストから文法的カテゴリ「verb」を含む要素
を選択する。表1によればこの種の要素は存在し、従っ
てステップ22は成功(Y)であり、本方法はステップ
24へと続く。ステップ24では、文法的カテゴリ「ve
rb」に関連する第2のタイプのリストから、要求されて
いる語形変化カテゴリ「pastpart」に対応する要素を選
択する。この要素が存在するならば(Y)ステップ31
が実行される。ステップ31では、前のステップで選択
された要素「PASTPART」に関連する第3のタイプのリス
トから、第1のグループの全ての文法的特徴が入力デー
タの特徴リストに含まれている要素で最初に発見される
ものを選択する。第1の要素がこれを満足する(Y)。
本方法はステップ32へと続き、入力データに含まれて
いる語形変化コードのうちの一つに対応する最初の要素
が選択される。要素「(-2 # x7) 」が適合する。文字列
操作のx7はX#フィールドから7番目の単語を取るべきで
あるということを意味する。これにより、要求された語
形変化カテゴリに従って語形変化された単語である「ge
lopen 」がもたらされる。次にステップ34において特
徴リストが適合される。このことは、第2のタイプのリ
ストから選択された要素の第1のグループ内の特徴リス
トの特徴、この場合では「SING1 SING2 SING3 PAST」
を、関連する第2のグループの特徴、この場合には「PA
STPART」に置換する。そしてステップ35は第1のフラ
グF1がセットされているかチェックする。セットされ
ていなければ(N)得られたデータはステップ37にて
書き出され、
ールドが辞書データに含まれていない強変化動詞をどの
ように取り扱うかの解説する。
タが読み込まれる。次にステップ22において要素「VE
RB」が選択される(Y)。ステップ24において要求さ
れている語形変化カテゴリである「PASTPART」が選択さ
れる(Y)。ステップ31では要素「SING1 PRESENT 」
が選択され(Y)、よってステップ32は語形変化コー
ドの「― 1 」又は「2 」を含む要素を検索する。その
ような要素が無ければ、ステップ32は不成功(N)で
あり、プログラムは第1のフラグF1がセットされてい
るかチェックするステップ25に進む。セットされてい
なければ(N)、プログラムはステップ26に進み、要
求されている語形変化カテゴリが「SING1 」に転換さ
れ、元来の入力データはメモリに保存されてフラグF1
がセットされる。次に、ステップ24では「SING1 」が
選択され、成功となる(Y)。ステップ31では「SING
1 PRESENT 」という特徴を有する要素を探す。その様な
要素は無いためステップ31は不成功である(N)。そ
の結果フラグF1がセットされているかをチェックする
ステップ25が再度実行される。セットされている
(Y)ため、ステップ27が実行される。このステップ
は第2のフラグF2がセットされているかどうかをチェ
ックする。セットされていないため、ステップ29にお
いて元来の入力データが再度取り出される。次にステッ
プ30が実行され、語形変化コードに値「17」が割り当
てられる。ステップ24では要素「PASTPART」が選択さ
れて成功となる(Y)。ステップ31では「SING1 PRES
ENT 」が選択され(Y)、従ってプログラムは語形変化
コード「17」を有する要素を探すステップ32に進む。
これは成功であり(Y)、要素「(17 # S A F)」をもた
らす。プログラムはステップ33に進み、文字列操作
S、A、及びFが入力単語に対して実行される。文字列
操作Sは「ij」を「e 」に置換することにより音韻変化
をもたらし、「en」を単語に加える。「e 」への音韻変
化は、入力データ内の語形変化コード「-1」によって明
示されている。これにより単語「keken 」がもたらされ
る。文字列操作Aは単語の前に接頭語の「ge」を付け、
結果として「gekeken 」という単語になる。最後に、表
3によればこれ以上の条件が呈示されていないため文字
列操作Fはここでは適用可能ではなく、成功と見なされ
るべきである。実行されるべき全ての文字列操作が成功
であるので、このことはステップ33は成功であり
(Y)、ステップ34が実行されなくてはならないこと
を意味する。このステップでは特徴リストが適合され
る。即ち、このケースでは特徴リストの「sing1 presen
t]の「pastpart」への置換である。次にステップ35は
第1のフラグF1がセットされているかチェックする。
セットされていない(N)ため、ステップ37では得ら
れたデータが書き出され、
る。
形変化に関して高い柔軟性を有していることはここまで
の例から明かであろう。その説明として、表1に示され
ている分類スキーマは又、動詞「zijin 」の多数の語形
変化と冠詞の語形変化を含んでいる。例えば後者の特徴
は、所与の定冠詞を不定冠詞形に語形変化させることを
可能とする。
スキーマが他の言語にも適用可能であることは明かであ
ろう。英語はオランダ語よりも語形変化が少ないため、
英語用の分類スキーマはオランダ語用のものよりもかな
りシンプルであろう。
引き出す分類スキーマの実施例が表5に提供されてい
る。ここで使用されている語形変化コードは、表3に既
定されているオランダ語に特定しているものとは同一で
はない。英語の例として、動詞「flies 」をSING1 に語
形変化するものと仮定する。
ansitive))) 要求されている語形変化カテゴリ:sing1 上記の辞書データは左から右に以下の通りである。
ansitive 最初に、第1のタイプのリストから入力単語の文法的カ
テゴリに対応する最初の要素を選択する。入力単語は文
法的カテゴリとして「verb」を有し、よって第1のタイ
プのリストのその要素が選択される。第2のタイプのリ
ストがこの要素に関連している。この第2のタイプのリ
ストから、要求されている語形変化カテゴリ「SING1 」
を有する要素が選択される。第3のタイプのリストがこ
の要素に関連している。この第3のタイプのリストから
語形変化コード「4 」を含む要素が選択される。これは
要素「(4 # -ies +y) 」である。
力単語を「flies 」から「fly 」に無事に変更する効果
を有する。正確な辞書データを得るために、「sing3 pr
esent 」を「sing1 sing2 plu1 plu2 plu3 present」と
置換することにより特徴リストを適合する。
共に語形変化修正器として使用すると有利である。この
ことはこの種の語形変化修正器のブロック略図である図
3を参照して詳細に説明される。文字情報が入力モジュ
ール41に与えられる。これは文章中の文と単語が識別
されることを保証する。単語は、メモリモジュール43
に保存された文字列操作スキーマと、追加の単語レジス
タによって任意に拡張される電子単語レジスタとに連絡
している辞書化モジュール42に与えられ、メモリモジ
ュール44に保存される。辞書化モジュールは各入力単
語の文法的分析に必要な辞書データを規定し、その種の
分析はパーサモジュール45によって実行される。メモ
リモジュール46に保存されている文法を基に、辞書デ
ータを使用してパーサモジュールは文を分析する。もし
辞書化モジュールが、単語に対して全ての要求を満たし
ていない仮の基本的形のみが見つかったことを示した場
合には、パーサモジュールは文中のその単語の文法的位
置を基に基本形のどの語形変化が正しいのかを決めるこ
とができる。本発明に従って動作可能な訂正モジュール
47は、ランダムアクセスメモリ部品48に保存されてい
る分類スキーマに従った正しい語形変化が単語に行われ
ることを保証する。そして、正しく語形変化された単語
が出力モジュール49によって出力される。仮の基本形
が複数見つかった場合には、それらは全て正しく語形変
化されてユーザに提示され、ユーザは一つを選択するこ
とができる。上述の構成は先行刊行物ではない本出願人
の特許出願NL-A― 9100849 の主題事項を構成する。
考えられる実施例を示す。データ処理ユニットは、主ユ
ニット51を備え、更にキーボード52、辞書データベ
ースを格納している大容量メモリ53、及びスクリーン
54を備えている。主ユニット51は、キーボード52
に接続されたキーボードコントローラ55と、大容量メ
モリ53に接続されたディスクコントローラ56と、ス
クリーン54に接続されたスクリーンコントローラ57
と、本発明によって構成された分類スキーマを格納する
第1のランダムアクセスメモリモジュール58と、本発
明によって構成された語形変化モジュール59と、メイ
ンプログラムモジュール60と、その中に大容量メモリ
からテキストファイルをロードすることができる第2の
ランダムアクセスメモリモジュール61と、上記の全モ
ジュール及びコントローラを制御するプロセッサユニッ
ト62とを備える。メインプログラムモジュール60
は、第2のメモリモジュール61に保存されているテキ
ストファイルを処理する。メインプログラムモジュール
が所与の単語の語形変化を決める際、語形変化モジュー
ル59が起動される。語形変化モジュール59はメイン
プログラムモジュール60が用意した入力データを読み
込む。メモリモジュール58に保存されている分類スキ
ーマと協働して、入力単語は語形変化される。その結果
はメインプログラムモジュールに渡され、他の指定され
たプログラムステップが実行される。
応用は、辞書データベースが単語の全ての語形変化形を
格納しておく必要がなく、よってメモリの大幅な節約を
もたらすため有利であり、更に辞書データ自身が単語の
語形変化を行う際に参照される必要がなく、プログラム
の処理スピードの点において有利である。加えて、他の
言語の語形変化単語形を得ることが可能となるように、
メモリモジュール58に保存されているモジュール型の
分類スキーマを他の分類スキーマと交換することは容易
である。
は限定されず、技術を有する者によって様々な他のやり
方で実施可能であるが、それらは全て特許請求の範囲に
含まれる。
図である。
実施例の説明図である。
Claims (8)
- 【請求項1】 メモリ内に記憶されている言語学的デー
タを参照し、語形変化されるべき入力単語と、入力単語
に関する文法的カテゴリと、入力単語に関する文法的特
徴と、要求されている語形変化カテゴリとを含む入力デ
ータを基に入力単語を語形変化させる語形変化ステップ
を備えた単語を語形変化させる方法であって、前記言語
学的データがメモリのランダムアクセス部分に分類スキ
ーマの形で記憶されており、該分類スキーマはそれぞれ
が文法的属性に関する要素を備えているネストした多数
のリストを有し、前記語形変化ステップが前記入力デー
タを基に相互にネストしたリストを選択し、次に前記入
力データを基に最後に選択したリストから文字列操作を
含む要素を選択し、前記入力単語を語形変化するために
該文字列操作を実行することを特徴とする単語を語形変
化させる方法。 - 【請求項2】 前記ネストしたリストが、文法的カテゴ
リを備えている要素を有する第1のタイプのリストと、
要求されている語形変化カテゴリをそなえている要素を
有する第2のタイプのリストと、現在の文法的特徴の第
1のグループ及び要求されている文法的特徴の第2のグ
ループを備えている要素を有する第3のタイプのリスト
と、語形変化コードを備えている要素を有する第4のタ
イプのリストとを備えたことを特徴とする請求項1に記
載の方法。 - 【請求項3】 前記第1のタイプのリストの各要素が前
記第2のタイプのリストも備えており、第2のタイプの
リストの各要素が前記第3のタイプのリストも備えてお
り、前記第3のタイプのリストの各要素が前記第4のタ
イプのリストも備えたことを特徴とする請求項2に記載
の方法。 - 【請求項4】 入力データを基にした相互にネストした
リストの前記選択が、リストから最初に発見された適正
な入力データに対応する要素を選択し、選択された要素
に関連するリストから次の選択の実行を繰り返すことを
備えたことを特徴とする請求項1から3のいずれか一項
に記載の方法。 - 【請求項5】 前記第1のタイプのリストから入力デー
タに含まれる文法的カテゴリに対応する文法的カテゴリ
を有する要素で最初に発見されたものを選択し、前記第
1のタイプのリストから選択された要素に関連する前記
第2のタイプのリストから入力データの要求されている
語形変化カテゴリに対応する要求されている語形変化カ
テゴリを有する要素で最初に発見されたものを選択し、
前記第2のタイプのリストから選択された要素に関連す
る前記第3のタイプのリストからその第1のグループの
文法的特徴の全てが入力データ内の文法的データに含ま
れる要素で最初に発見されたものを選択し、第3のタイ
プのリストから選択された要素に関連する前記第4のタ
イプのリストからその語形変化コードが入力データの語
形変化コードに対応する要素で最初に発見されたものを
選択し、第4のタイプのリストから選択された要素に含
まれる文字列操作を入力単語に実行し、前記ステップの
文字列操作が成功した場合に第1のグループ内の特徴を
第2のグループ内の特徴で置き換えることにより特徴を
適合させることを特徴とする請求項4に記載の方法。 - 【請求項6】 入力データを基に、入力データと要素が
一致しないためにリストの一つから要素を選択すること
が不可能であった場合に、要求されている語形変化カテ
ゴリを所定の語形変化カテゴリに変更し、続いて変更さ
れた入力データに対して語形変化ステップを実行し、元
々要求されている語形変化カテゴリを基に得られた結果
に対して再度語形変化ステップを実行することを特徴と
する請求項1から5のいずれか一項に記載の方法。 - 【請求項7】 入力データが入力単語の不規則語形変化
を含み、その中から要求されている語形変化カテゴリを
基に語形変化が選択されることを特徴とする請求項1か
ら6のいずれか一項に記載の方法。 - 【請求項8】 言語学的データが記憶される少なくとも
一つのメモリと、言語学的データを参照し、かつ、入力
単語、該入力単語に関する文法的カテゴリ、該入力単語
に関する文法的特徴、及び要求されている語形変化カテ
ゴリを備えた入力データを基に前記入力単語を語形変化
させるために構成された手段とを含む単語を語形変化す
るために構成されたデータ処理ユニットであって、前記
言語学的データがメモリセグメント内に分類スキーマの
形で記憶されており、該分類スキーマがそれぞれが文法
的属性に関する要素を備えたネストしたリストを多数含
み、前記手段が前記分類スキーマが記憶されている前記
メモリセグメントと共働するように構成されていること
を特徴とするデータ処理ユニット。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL9101286A NL9101286A (nl) | 1991-07-23 | 1991-07-23 | Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze. |
NL9101286 | 1991-07-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05189476A true JPH05189476A (ja) | 1993-07-30 |
JP3794716B2 JP3794716B2 (ja) | 2006-07-12 |
Family
ID=19859547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19428292A Expired - Fee Related JP3794716B2 (ja) | 1991-07-23 | 1992-07-21 | 単語を語形変化させる方法及びその方法を実行するデータ処理装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5369576A (ja) |
EP (1) | EP0524694B1 (ja) |
JP (1) | JP3794716B2 (ja) |
AT (1) | ATE182224T1 (ja) |
DE (1) | DE69229583T2 (ja) |
NL (1) | NL9101286A (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9217886D0 (en) * | 1992-08-21 | 1992-10-07 | Canon Res Ct Europe Ltd | Method and apparatus for parsing natural language |
US5864797A (en) * | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
DE19526263C1 (de) * | 1995-07-19 | 1996-11-07 | Daimler Benz Ag | Verfahren zur Klassifizierung eines Textes |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US6602335B2 (en) * | 2001-05-08 | 2003-08-05 | Hewlett-Packard Development Company, L.P. | Pigment solubilization via treatment with strong base and substitution |
KR100918338B1 (ko) * | 2001-08-10 | 2009-09-22 | 도쿠리쯔교세이호진 죠호쯔신겡큐기코 | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 |
US10241987B2 (en) | 2005-12-22 | 2019-03-26 | International Business Machines Corporation | Method and system for editing text with a find and replace function leveraging derivations of the find and replace input |
US8706477B1 (en) | 2008-04-25 | 2014-04-22 | Softwin Srl Romania | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code |
DE102009021779A1 (de) * | 2008-08-04 | 2010-06-10 | Annette Kux-Bergsch | Verfahren zur Darstellung von Worten und Sätzen |
US8762131B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates |
US8762130B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking |
DE102017010113B3 (de) | 2017-11-02 | 2019-03-28 | Veronika Caspers | Sprachlehrmittel zur Darstellung einer Sprache in unterschiedlichen Zeitformen |
US11869106B1 (en) * | 2019-09-20 | 2024-01-09 | Airbnb, Inc. | Cross-listed property matching using image descriptor features |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4724523A (en) * | 1985-07-01 | 1988-02-09 | Houghton Mifflin Company | Method and apparatus for the electronic storage and retrieval of expressions and linguistic information |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
JPS61141078A (ja) * | 1984-12-13 | 1986-06-28 | Sharp Corp | 電子式仏単語辞書 |
JPS62251876A (ja) * | 1986-04-18 | 1987-11-02 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 言語処理システム |
US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
US5201047A (en) * | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
-
1991
- 1991-07-23 NL NL9101286A patent/NL9101286A/nl not_active Application Discontinuation
-
1992
- 1992-07-17 AT AT92202199T patent/ATE182224T1/de not_active IP Right Cessation
- 1992-07-17 DE DE69229583T patent/DE69229583T2/de not_active Expired - Fee Related
- 1992-07-17 EP EP92202199A patent/EP0524694B1/en not_active Expired - Lifetime
- 1992-07-21 JP JP19428292A patent/JP3794716B2/ja not_active Expired - Fee Related
- 1992-07-21 US US07/915,676 patent/US5369576A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
NL9101286A (nl) | 1993-02-16 |
EP0524694B1 (en) | 1999-07-14 |
US5369576A (en) | 1994-11-29 |
ATE182224T1 (de) | 1999-07-15 |
JP3794716B2 (ja) | 2006-07-12 |
DE69229583D1 (de) | 1999-08-19 |
EP0524694A1 (en) | 1993-01-27 |
DE69229583T2 (de) | 2000-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102268875B1 (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
JP4986919B2 (ja) | タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法 | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
JPH0724056B2 (ja) | コンピュータによる形態論的テキスト解析方法 | |
JP2009266244A (ja) | 簡潔言語学データを生成かつ使用するシステムおよび方法 | |
JPH079655B2 (ja) | スペルの誤りの検出訂正方法及び装置 | |
JPH0756957A (ja) | ユーザへの情報提供方法 | |
US20070011160A1 (en) | Literacy automation software | |
JPH05189476A (ja) | 単語を語形変化させる方法及びその方法を実行するデータ処理ユニット | |
JPH0567144A (ja) | 前編集支援方法およびその装置 | |
KR100481598B1 (ko) | 복합 형태소 분석 장치 및 방법 | |
AlGahtani et al. | Arabic part-of-speech tagging using transformation-based learning | |
CN117350302A (zh) | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 | |
JPH0447440A (ja) | 語の変換方式 | |
KR100288144B1 (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2001092830A (ja) | 文字列の照合装置およびその方法 | |
JP3892227B2 (ja) | 機械翻訳システム | |
JP2004086919A (ja) | 機械翻訳システム | |
JPH0414168A (ja) | 文書作成装置 | |
JP2005275880A (ja) | 字句をデータに変換する装置、方法及びプログラム | |
HASANPOUR et al. | Design and implementation of a software system for detecting orthographical or morphological errors in persian words | |
JPH0855121A (ja) | 文対応装置及び原文と訳文の対応付け方法 | |
JPH0721212A (ja) | 文書処理装置 | |
JPH06187329A (ja) | 自然言語処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050711 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060411 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |