JP3794716B2 - 単語を語形変化させる方法及びその方法を実行するデータ処理装置 - Google Patents

単語を語形変化させる方法及びその方法を実行するデータ処理装置 Download PDF

Info

Publication number
JP3794716B2
JP3794716B2 JP19428292A JP19428292A JP3794716B2 JP 3794716 B2 JP3794716 B2 JP 3794716B2 JP 19428292 A JP19428292 A JP 19428292A JP 19428292 A JP19428292 A JP 19428292A JP 3794716 B2 JP3794716 B2 JP 3794716B2
Authority
JP
Japan
Prior art keywords
list
word
type
inflection
grammatical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19428292A
Other languages
English (en)
Other versions
JPH05189476A (ja
Inventor
ロベルタス・ペトルス・エリザベス・フベルタス・ヘーメルズ
エデユアルダウス・ヨセフス・ウイリイブロルダウス・フアン・フリームベルゲン
ルイス・マリエ・ヘラルダス・クレメルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Production Printing Netherlands BV
Original Assignee
Oce Nederland BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Nederland BV filed Critical Oce Nederland BV
Publication of JPH05189476A publication Critical patent/JPH05189476A/ja
Application granted granted Critical
Publication of JP3794716B2 publication Critical patent/JP3794716B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Debugging And Monitoring (AREA)
  • Complex Calculations (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、メモリに格納された言語学的データを参照することにより、語形変化されるべき入力単語と、入力単語に関連する文法カテゴリと、入力単語に関連する文法的特徴と、要求されている語形変化カテゴリとを備える入力データを基に、入力単語が語形変化される語形変化のステップを備える単語を語形変化させる方法に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】
この種の方法及びデータ処理ユニットはUS-A-4 724 523米国特許に公知である。それに記述されている方法は、中でも、言語学的データを表現するデジタル信号の効率的な格納を提供するという目的を持つ。とりわけ、この目的は語形変化ルーチンの使用によって達成される。結果として、全ての語形変化された単語をメモリ中に格納する必要はもはや無く、このことによる技術的な効果はメモリスペースの相当な節約である。そこに記述されている語形変化ルーチンの第1の欠点はルーチンが容量記憶システムに頻繁にアクセスすることを必要とし、結果として速度効率を著しく低下させるということである。第2の欠点は、語形変化カテゴリに関する言語学的データが様々なメモリセグメントに分散しており、異なる言語に適した語形変化ルーチンを作成することが難しくなるということである。
【0003】
本発明の目的は、前述の技術的効果を維持しながら、前記の欠点を大幅に減少させることである。
【0004】
【課題を解決するための手段】
本発明は、処理に特に適したやり方でメモリセグメント内に語形変化に必要な情報の幾分かを収容することを基にしている。
【0005】
本発明によると、序文で言及したタイプの方法は言語学的なデータが分類スキーマの形でメモリのランダムアクセス部分に格納されることを特徴とする。この分類スキーマは、それぞれが文法的特徴に関する要素を備える多数のネストされたリストを備え、語形変化ステップは、入力データを基に相互にネストされたリストを選択し、次に入力データを基に最後に選択されたリストから文字列操作を備える要素を選択し、入力単語を語形変化させる文字列操作を実行することを備える。
【0006】
このことは、語形変化に必要な言語学的データのコンパクトで効率的な保存構造をもたらす。さらに、この保存構造は容易に交換可能であり、本方法はその言語に適用可能な分類スキーマを使用することにより容易に他の言語に適するようにすることが可能である。
【0007】
本方法の一つの好ましい実施例は、
−第1のタイプのリスト内で入力データに含まれる文法カテゴリに対応する文法カテゴリを有する要素で最初に発見されるものを選択し、
−第1のタイプのリストから選択された要素に関連する第2のタイプのリスト内で、入力データから要求されている語形変化カテゴリに対応する必要な語形変化カテゴリを有する要素で最初に発見されるものを選択し、
−第2のタイプのリストから選択された要素に関連する第3のタイプのリスト内で、その第1のグループからの全ての文法的特徴が入力データの文法的特徴に含まれている要素で最初に発見されるものを選択し、
−第3のタイプのリストから選択された要素に関連する第4のタイプのリスト内で、語形変化コードが入力データの語形変化コードに対応する要素で最初に発見されるものを選択し、
−第4のタイプのリストから選択された要素に格納されている文字列操作を入力単語に対して実行し、
−もし前のステップに言及された文字列操作が成功であれば、第1のグループからの特徴を第2のグループからの特徴で置き換えることにより、特徴を適合させる。このことにより、単語の変化された語形変化の結果として語彙データの適合が可能となる。
【0008】
以下の好ましい実施例において、本方法は、もし入力データを基にして入力データと要素との間に一致が無いために第1のリストから要素を選択することが不可能な場合には、要求されている語形変化カテゴリを所定の語形変化カテゴリに変化し、次に変化された入力データについて語形変化ステップが実行され、元々要求されていた語形変化カテゴリを基にこの様にして得られた結果に対して語形変化ステップを再度実行することを特徴とする。結果として、分類スキーマはある語形変化カテゴリから他の語形変化カテゴリへの変化の全てを含む必要はない。もし要求されている変化が含まれていない場合には、入力単語はまず、本発明による方法を用いて所定の語形変化カテゴリ(例えば1人称単数)に語形変化される。この方法で語形変化された単語は再度語形変化されるが、今度は元々要求されていた語形変化カテゴリに変化される。現在の語形変化から要求されている語形変化への変化は、現在の語形変化から(例えば)SINGULAR1 への変化とSINGULAR1 から元々要求されていた語形変化への変化とに分割される。
【0009】
本方法のもう一つの好ましい実施例は、入力データが要求されている語形変化カテゴリを基に語形変化が選び出される入力単語の不規則語形変化を含むことを特徴とする。これにる効果は、不規則語形変化カテゴリについても、大容量メモリに格納されている辞書語彙を調べる必要がないということである。
【0010】
本発明によるデータ処理ユニットは、言語学的データがメモリセグメント内に分類スキーマの形で記憶されており、前記分類スキーマが、それぞれが文法的な性質に関する要素を備える多数のリストを備えることと、分類スキーマが記憶されている前記メモリセグメントと共働するように手段が構成されていることを特徴とする。
【0011】
【実施例】
本発明のその他の特徴及び利点は、図面を参照してなされる以下の説明によって明かになるであろう。
【0012】
本発明による方法を説明する前に、本方法において使用される分類スキーマの構造をまず説明する。表1は、本方法と共働して多数のオランダ語単語を語形変化するために適した分類スキーマの実施例である。分類スキーマを他の言語学的規則に拡張することは容易なことであるが、ここに示されている分類スキーマは本発明が完全にかつ明確に説明されために十分なものである。
【0013】
【表1】
Figure 0003794716
【0014】
【表2】
Figure 0003794716
【0015】
分類スキーマは図1を参照して説明されるネストされたリスト構造を有する。完全ではないが、本図は表1の分類スキーマを図式的に再現している。同様の部品は同様の参照番号によって示されている。分類スキーマは、第1のタイプのリストから構成されており、図1では参照番号1に示されている。その要素は参照番号2に示されており、それぞれ文法的カテゴリ3と第2のタイプのリスト4とを有している。本図に示されている文法的カテゴリはNOUN、VERB、ARTICLE である。文法的カテゴリ3は、第2のタイプのリスト4に関連づけられており、その要素5はそれぞれの格について要求されている語形変化カテゴリ6に関する情報とと第3のタイプのリスト7とを格納している。本図中の要求されている語形変化カテゴリ6は順にPLU3、SING3 、DIMINUTIVE、及びUNDIMINUTIVEである。これを基に、本分類スキーマは原則として以下の要求されている語形変化形に従って名詞を語形変化させる可能性を提供する。即ち、複数形(PLU3)、単数形(SING3 )、指小接形(DIMINUTIVE)、及び非指小接形(UNDIMUTIVE)である。第3のタイプのリスト7は、現在の文法的特徴の第1のグループ9と、要求されている文法的特徴の第2のグループ10と、第4のタイプのリスト11とから構成されている要素8とを備える。第1のグループ9はリスト7から要素8の一つを選択する決定要因である。要素8が選択された後に第2のグループ10の特徴は、単語の特徴リストが単語の新しい語形変化形に適合するために必要とされる。第3のタイプのリスト11は、一つ以上の語形変化コードとその後に文字「# 」に先行される一つ以上の文字列操作からなる一つ以上の要素12を備える。語形変化コードと文字列操作はそれぞれ表2と表3を参照して後で説明する。要素12に格納されている語形変化コードの少なくとも一つが入力単語に関した語形変化コードを満足した場合に、入力単語に要求されている語形変化を行うために、所定の文字列操作が入力単語に実行される。
【0016】
本発明は表1に示される分類スキーマの実施例に限定されないことに留意する必要がある。明白な変形例は、リストのネスティングが異なるものである。例えば、要求されている語形変化カテゴリを第1のタイプのリストとして、文法的カテゴリを第2のタイプのリストとして含めるといったことである。これは本発明の主旨に影響しない。
【0017】
更に、本リスト構造を他の方法でコードすることも又可能であり、これはとりわけ本発明が実施されるデータ処理ユニットに依存している。本表で使用されているコード体系は、スキーマが依然としてオペレータによって読みとり可能であり、従ってデータ処理手段によって容易に変更され得るという利点を有する。
【0018】
図2のフロー図を参照して本発明を説明する。開始状況は20に示されている。ステップ21において入力データが読み込まれる。入力データは語形変化されるべき入力単語と、入力単語の辞書データと要求されている語形変化カテゴリーとを備える。
【0019】
中でも辞書データは入力単語に関する文法的カテゴリを備える。読み込み操作の後、ステップ22において、該文法的カテゴリに対応する第1の要素が第1のタイプのリストから選択される。もし対応する要素が見つからなければ(N)、終了条件23に達する。要素が選択されたならば(Y)、プログラムはステップ24に進む。先に述べたように、第2のタイプのリストは、それぞれが要求されている語形変化カテゴリと第3のタイプのリストとを含む要素から構成されている。ステップ24において、ステップ22にて選択された要素に関する第2のタイプのリストから、要求されている語形変化カテゴリに対応する最初の要素が選択される。もしそのような要素が見つからなかった場合には(N)、プログラムはステップ25に進む。後に説明するステップ31及び32のいずれかが不成功の場合にも同様のことが起こる。ステップ25は第1のフラグF1がセットされたかチェックする。セットされていなければ(N)、要求されている語形変化はステップ26においてSING1 に変換され、元々の入力データは記憶され、フラグF1がセットされる。そしてプログラムはステップ24に戻る。これらのステップの効果は、ある時点において対応する要素が見つからなかったためにネストしたリスト構造の検索が不成功だった場合に、一人称単数形への中間ステップを介して要求されている結果に達する試みを開始することである。即ち、本方法が1回目に実行されるときには入力単語はSING1 に語形変化され、後に本方法が2回目に実行されるときにはSING1 に語形変化された入力単語は元々要求されていた語形変化カテゴリに語形変化される。結果として、少なくとも全ての語形からSING1 へ、SING1 から全ての語形変化への語形変化が含まれていれば、現在の語形変化カテゴリと要求されている語形変化カテゴリの全組み合わせを分類スキーマ中に含める必要がないためこのことには利点がある。
【0020】
ステップ25において、フラグF1がセットされていれば(Y)、このことは要求されている語形変化をSING1 に転化する試みが既に行われており、この試みが失敗したこと意味している。次にステップ27は第2のフラグF2がセットされているかチェックする。セットされていなければ(N)、ステップ29において記憶されていた元々の入力データが検索される。次にステップ30が実行され、要求されている語形変化コードに値「17」が割り当てられフラグF2がセットされる。そしてステップ24が再度実行される。これらのステップの結果として、一定の音変化パターンに従う強変化規則動詞は個別に扱われ、よってより単純な分類スキーマをもたらす。ステップ27がフラグF2がセットされていることを示したとき(Y)には、単語を語形変化コード「17」を介して語形変化しようとした試みが失敗したことを意味する。そして終了条件28に達する。
【0021】
前述の通り、ステップ24では要求されている語形変化カテゴリに対応する最初の要素が第2のタイプのリストから選択される。語形変化カテゴリを有する要素が発見された場合(Y)には、プログラムは第3のタイプのリストから、その第1のグループ中の文法的な特徴が入力単語の辞書データ中に格納されている特徴リストに含まれている要素で最初に見つかったものを選択するステップ31に進む。もしこの様な要素が見つからなかった場合(N)には、プログラムは既に説明するステップ25に進む。その様な要素が見つかった場合(Y)には、ステップ32が実行される。ステップ32においては、ステップ31にて第3のタイプのリストから選択された要素に関連する第4のタイプのリストから、格納されている語形変化コードの一つが入力単語に関連する語形変化コードに対応している要素の最初に発見されたものを選択する。
【0022】
表3は多数の語形変化コードを示している。最初の欄は所与の語形変化グループのコードを格納しており、第2の欄はグループの定義を示している。この種の語形変化コードは、同様の語形変化を有する語幹に同じコードを割り当てることにより単純なやり方で作成し得る。そして語形変化コードは、分離コードを含むことにより特殊なケースに拡張される。
【0023】
ステップ32において、入力データに対応する語形変化コードを有する要素が見つからなかった場合(N)には、本方法はステップ25に続く。その様な要素が見つかった場合(Y)には、ステップ33が実行される。ステップ33においては、ステップ32にて選択された要素に含まれる文字列操作が入力単語に対して実行される。
【0024】
表4は文字列操作のリストを示す。文字列操作のコードが最初の欄に示されている。第2の欄は文字列操作の定義を表し、第3の欄は文字列操作が成功したとみなされるべき条件を示す。
【0025】
ステップ33にて実行されるべき文字列操作が不成功である場合(N)には、ステップ32が再度実行されて、それ以降の要素から入力単語の語形変化コードに対応する語形変化コードの一つを有する要素を探す。ステップ33にて実行されるべき全ての文字列操作が成功した場合(Y)には、プログラムは、入力単語の特徴リストを新しい状況に合致させるステップ34に進む。この目的のために、第3のタイプのリストの選択された要素の第1のグループ中に存在する特徴リスト中の文法的特徴は、第2のグループの文法的特徴によって置換される。この様にして得られた特徴リストは、語形変化された入力単語に適合している。
【0026】
【表3】
Figure 0003794716
【0027】
【表4】
Figure 0003794716
【0028】
第2のフラグF2がセットされている場合には、ステップ34にて、更に、第1のフラグF1がリセットされる。次にステップ35は第1のフラグF1がセットされているかチェックする。セットされていれば(Y)、中間ステップとして実行されたSING1 への語形変化が成功であり、SING1 から元々要求されていた語形変化への語形変化が実行可能であることを意味する。この目的のために、ステップ26にて予め保存されていた要求されている語形変化カテゴリは、ステップ36にて再び読み出され、更にステップ36にて第1のフラグF1がリセットされ、ステップ24から始まって2回目の語形変化処理を実行する。ステップ35において第1のフラグF1がセットされていない場合(N)には、本方法に従って得られかつ要求されている語形変化カテゴリに従って語形変化された入力単語は、ステップ37において関連する辞書データと一緒に書き出され、終了条件38に達する。
【0029】
表1の分類スキーマと、表3及び表4にそれぞれ示されている語形変化コード及び文字列操作を使用した例を幾つか参照して、上記の方法を詳細に説明する。
【0030】
第1の例は入力単語として「deur」(ドアの意のオランダ語)を使う。入力データは以下の通りである。
【0031】
(deur (noun (rued 8 inneuter male female sing3)
要求されている語形変化カテゴリ:PLU3
1行目は辞書データを伴った入力単語に関する。例えば、複合語を処理するNL-A-9101285の特許出願に記載の発明と組み合わせたNL-A-9101284の特許出願に記載の辞書化モジュール(両出願共本発明のオランダ国優先出願と同一日に出願されている)によって実質的に提供されるものである。上に示されている辞書データは、左から右に、
入力単語 :deur
文法的カテゴリ :noun
逆転された語幹形:rued
語形変化コード :8
特徴リスト :inneuter male female sing3
となる。
【0032】
開始状況20(図2)から開始して、ステップ21にて入力データが読み込まれる。次にステップ22において、第1のタイプのリストから、入力単語の文法カテゴリに対応する最初の要素を選択する。入力単語は文法的カテゴリとして「noun」を有しているため、ステップ22においてその要素(表1参照)が選択される(Y)。ステップ24では、前のステップで選択された要素「noun」に関連した第2のタイプのリスト(図1の参照番号4を参照)から、要求されている語形変化カテゴリに対応する要素が選択される。表1によるとこれは要素「PLU3」となり、ステップ24は成功である(Y)。そして、第1のグループ内のその特徴の全てが入力データの特徴リストに存在する要素がステップ31にて選択される。表1によると、これは要素「SING3 」に当てはまり、ステップ31は成功(Y)である。ここで選択された要素は第4のタイプのリスト(図1の参照番号8を参照)を備え、ステップ32においてそのリストから入力データの語形変化コードに対応している語形変化コードを一つ有する要素を選択する。語形変化コード「8 」を含んでいる故に表1に示されている要素「(12 8# +s)」がこれを満たしており、ステップ32は成功(Y)である。ステップ33において、所定の文字列操作が実行されてその成功がチェックされる。選択された要素は唯一の動作として「+en 」を明示している。入力単語「deur」に表3に明示されている定義に従ってこれを適用すると、要求されている語形変化カテゴリに従って語形変化された「deuren」という単語が得られる。この文字列操作は成功(Y)であり、プログラムは特徴リストが適合されるステップ34に進む。このことは、ステップ31で選択された要素の第1のグループ内にある特徴リストの特徴の特徴「SING3 」を、このケースでは「PLU3」である要素の特徴の第2のグループによって置換することにより行われる。ステップ35ではフラグF1がセットされているかどうかのチェックが行われる。セットされていなければ(N)、ステップ37では語形変化された単語と適合された辞書データとが書き出され、これは、
(deuren (noun (rued 8 plu3 inneuter male female)))
となる。そして終了条件38に達すると共に本方法の目的、即ち要求されている語形変化カテゴリに従って入力単語を語形変化するということが達成される。
【0033】
以下の第2の例で、不規則強変化動詞がどのように取り扱われるか説明する。入力データは以下の通りである。
【0034】
【数1】
Figure 0003794716
【0035】
要求されている語形変化カテゴリ:pastpart
辞書データは左から右に以下の詳細に説明される。
【0036】
入力単語 :liep
文法的カテゴリ :verb
逆転された語幹形:peil
語形変化コード :-2(音変化コード)
語形変化コード :19
特徴リスト :p.p.zijin p.p.hebben sing3 sing2 sing1
past main intransitive X#(loop,loopt,loopt,
lopen,liep,liepen,gelopen,loop)
特徴リスト中のX#フィールドは動詞の不規則形を格納している。開始位置20から開始してステップ21にて入力データが読み込まれる。次にステップ22では第1のタイプのリストから文法的カテゴリ「verb」を含む要素を選択する。表1によればこの種の要素は存在し、従ってステップ22は成功(Y)であり、本方法はステップ24へと続く。ステップ24では、文法的カテゴリ「verb」に関連する第2のタイプのリストから、要求されている語形変化カテゴリ「pastpart」に対応する要素を選択する。この要素が存在するならば(Y)ステップ31が実行される。ステップ31では、前のステップで選択された要素「PASTPART」に関連する第3のタイプのリストから、第1のグループの全ての文法的特徴が入力データの特徴リストに含まれている要素で最初に発見されるものを選択する。第1の要素がこれを満足する(Y)。本方法はステップ32へと続き、入力データに含まれている語形変化コードのうちの一つに対応する最初の要素が選択される。要素「(-2 # x7)」が適合する。文字列操作のx7はX#フィールドから7番目の単語を取るべきであるということを意味する。これにより、要求された語形変化カテゴリに従って語形変化された単語である「gelopen」がもたらされる。次にステップ34において特徴リストが適合される。このことは、第2のタイプのリストから選択された要素の第1のグループ内の特徴リストの特徴、この場合では「SING1 SING2 SING3 PAST」を、関連する第2のグループの特徴、この場合には「PASTPART」に置換する。そしてステップ35は第1のフラグF1がセットされているかチェックする。セットされていなければ(N)得られたデータはステップ37にて書き出され、
【0037】
【数2】
Figure 0003794716
【0038】
となる。そして終了状況38に達する。
【0039】
以下の第3の例において、本方法がX#フィールドが辞書データに含まれていない強変化動詞をどのように取り扱うかの解説する。
【0040】
入力データは、
【0041】
【数3】
Figure 0003794716
【0042】
要求されている語形変化カテゴリ:PASTPART
開始位置20から開始して、ステップ21にて入力データが読み込まれる。次にステップ22において要素「VERB」が選択される(Y)。ステップ24において要求されている語形変化カテゴリである「PASTPART」が選択される(Y)。ステップ31では要素「SING1 PRESENT」が選択され(Y)、よってステップ32は語形変化コードの「−1」又は「2」を含む要素を検索する。そのような要素が無ければ、ステップ32は不成功(N)であり、プログラムは第1のフラグF1がセットされているかチェックするステップ25に進む。セットされていなければ(N)、プログラムはステップ26に進み、要求されている語形変化カテゴリが「SING1」に転換され、元来の入力データはメモリに保存されてフラグF1がセットされる。次に、ステップ24では「SING1」が選択され、成功となる(Y)。ステップ31では「SING1 PRESENT」という特徴を有する要素を探す。その様な要素は無いためステップ31は不成功である(N)。その結果フラグF1がセットされているかをチェックするステップ25が再度実行される。セットされている(Y)ため、ステップ27が実行される。このステップは第2のフラグF2がセットされているかどうかをチェックする。セットされていないため、ステップ29において元来の入力データが再度取り出される。次にステップ30が実行され、語形変化コードに値「17」が割り当てられる。ステップ24では要素「PASTPART」が選択されて成功となる(Y)。ステップ31では「SING1 PRESENT」が選択され(Y)、従ってプログラムは語形変化コード「17」を有する要素を探すステップ32に進む。これは成功であり(Y)、要素「(17 # S A F)」をもたらす。プログラムはステップ33に進み、文字列操作S、A、及びFが入力単語に対して実行される。文字列操作Sは「ij」を「e」に置換することにより音韻変化をもたらし、「en」を単語に加える。「e」への音韻変化は、入力データ内の語形変化コード「-1」によって明示されている。これにより単語「keken」がもたらされる。文字列操作Aは単語の前に接頭語の「ge」を付け、結果として「gekeken」という単語になる。最後に、表3によればこれ以上の条件が呈示されていないため文字列操作Fはここでは適用可能ではなく、成功と見なされるべきである。実行されるべき全ての文字列操作が成功であるので、このことはステップ33は成功であり(Y)、ステップ34が実行されなくてはならないことを意味する。このステップでは特徴リストが適合される。即ち、このケースでは特徴リストの「sing1 present]の「pastpart」への置換である。また、第2のフラグF2がセットされているので、ステップ34にて第1のフラグF1がリセットされる。次にステップ35は第1のフラグF1がセットされているかチェックする。セットされていない(N)ため、ステップ37では得られたデータが書き出され、
【0043】
【数4】
Figure 0003794716
【0044】
をもたらす。そして終了条件38に達する。
【0045】
分類スキーマと関連して本方法が不規則語形変化に関して高い柔軟性を有していることはここまでの例から明かであろう。その説明として、表1に示されている分類スキーマは又、動詞「zijin 」の多数の語形変化と冠詞の語形変化を含んでいる。例えば後者の特徴は、所与の定冠詞を不定冠詞形に語形変化させることを可能とする。
【0046】
技術を有する者にとっては、この種の分類スキーマが他の言語にも適用可能であることは明かであろう。英語はオランダ語よりも語形変化が少ないため、英語用の分類スキーマはオランダ語用のものよりもかなりシンプルであろう。
【0047】
本発明による多数の英語単語の語形変化を引き出す分類スキーマの実施例が表5に提供されている。ここで使用されている語形変化コードは、表3に既定されているオランダ語に特定しているものとは同一ではない。英語の例として、動詞「flies 」をSING1 に語形変化するものと仮定する。
【0048】
入力データは、
(flies (verb (4 sing3 main present transitive intransitive)))
要求されている語形変化カテゴリ:sing1
上記の辞書データは左から右に以下の通りである。
【0049】
入力単語 :flies
文法的カテゴリ:verb
語形変化コード:4
特徴リスト :sing3 main present transitive intransitive
最初に、第1のタイプのリストから入力単語の文法的カテゴリに対応する最初の要素を選択する。入力単語は文法的カテゴリとして「verb」を有し、よって第1のタイプのリストのその要素が選択される。第2のタイプのリストがこの要素に関連している。この第2のタイプのリストから、要求されている語形変化カテゴリ「SING1 」を有する要素が選択される。第3のタイプのリストがこの要素に関連している。この第3のタイプのリストから語形変化コード「4 」を含む要素が選択される。これは要素「(4 # -ies +y) 」である。
【0050】
表4によれば文字列操作「-ies +y 」は入力単語を「flies 」から「fly 」に無事に変更する効果を有する。正確な辞書データを得るために、「sing3 present 」を「sing1 sing2 plu1 plu2 plu3 present」と置換することにより特徴リストを適合する。
【0051】
これにより最終結果として、
【0052】
【数5】
Figure 0003794716
【0053】
という出力データがもたらされる。
【0054】
【表5】
Figure 0003794716
【0055】
本発明は、辞書化モジュール及びパーサと共に語形変化修正器として使用すると有利である。このことはこの種の語形変化修正器のブロック略図である図3を参照して詳細に説明される。文字情報が入力モジュール41に与えられる。これは文章中の文と単語が識別されることを保証する。単語は、メモリモジュール43に保存された文字列操作スキーマと、追加の単語レジスタによって任意に拡張される電子単語レジスタとに連絡している辞書化モジュール42に与えられ、メモリモジュール44に保存される。辞書化モジュールは各入力単語の文法的分析に必要な辞書データを規定し、その種の分析はパーサモジュール45によって実行される。メモリモジュール46に保存されている文法を基に、辞書データを使用してパーサモジュールは文を分析する。もし辞書化モジュールが、単語に対して全ての要求を満たしていない仮の基本的形のみが見つかったことを示した場合には、パーサモジュールは文中のその単語の文法的位置を基に基本形のどの語形変化が正しいのかを決めることができる。本発明に従って動作可能な訂正モジュール47は、ランダムアクセスメモリ部品48に保存されている分類スキーマに従った正しい語形変化が単語に行われることを保証する。そして、正しく語形変化された単語が出力モジュール49によって出力される。仮の基本形が複数見つかった場合には、それらは全て正しく語形変化されてユーザに提示され、ユーザは一つを選択することができる。上述の構成は先行刊行物ではない本出願人の特許出願NL-A― 9100849 の主題事項を構成する。
【0056】
図4は本発明によるデータ処理ユニットの考えられる実施例を示す。データ処理ユニットは、主ユニット51を備え、更にキーボード52、辞書データベースを格納している大容量メモリ53、及びスクリーン54を備えている。主ユニット51は、キーボード52に接続されたキーボードコントローラ55と、大容量メモリ53に接続されたディスクコントローラ56と、スクリーン54に接続されたスクリーンコントローラ57と、本発明によって構成された分類スキーマを格納する第1のランダムアクセスメモリモジュール58と、本発明によって構成された語形変化モジュール59と、メインプログラムモジュール60と、その中に大容量メモリからテキストファイルをロードすることができる第2のランダムアクセスメモリモジュール61と、上記の全モジュール及びコントローラを制御するプロセッサユニット62とを備える。メインプログラムモジュール60は、第2のメモリモジュール61に保存されているテキストファイルを処理する。メインプログラムモジュールが所与の単語の語形変化を決める際、語形変化モジュール59が起動される。語形変化モジュール59はメインプログラムモジュール60が用意した入力データを読み込む。メモリモジュール58に保存されている分類スキーマと協働して、入力単語は語形変化される。その結果はメインプログラムモジュールに渡され、他の指定されたプログラムステップが実行される。
【0057】
この種のデータ処理ユニットへの本発明の応用は、辞書データベースが単語の全ての語形変化形を格納しておく必要がなく、よってメモリの大幅な節約をもたらすため有利であり、更に辞書データ自身が単語の語形変化を行う際に参照される必要がなく、プログラムの処理スピードの点において有利である。加えて、他の言語の語形変化単語形を得ることが可能となるように、メモリモジュール58に保存されているモジュール型の分類スキーマを他の分類スキーマと交換することは容易である。
【0058】
本発明は記述されている方法又は実施例には限定されず、技術を有する者によって様々な他のやり方で実施可能であるが、それらは全て特許請求の範囲に含まれる。
【図面の簡単な説明】
【図1】分類スキーマの説明図である。
【図2】本発明による方法のフロー図である。
【図3】語形変化修正に使用されるシステムのブロック図である。
【図4】本発明によるデータ処理ユニットの考えられる実施例の説明図である。
【符号の説明】
1 分類スキーマ
2、5、8、12 要素
4、7、11 リスト
3 文法的カテゴリ
6 語形変化カテゴリ
9、10 文法的特徴

Claims (6)

  1. メモリ内に記憶されている言語学的データを参照し、語形変化されるべき入力単語と、入力単語に関する文法的カテゴリと、語形変化コードと、入力単語に関する語形変化についての文法的特徴と、要求されている語形変化カテゴリとを含む入力データを基に入力単語を語形変化させる語形変化ステップを備えた単語を語形変化させる方法であって、前記言語学的データがメモリのランダムアクセス部分に分類スキーマの形で記憶されており、該分類スキーマはそれぞれが文法的属性に関する要素を備えているネストした多数のリストを有し、
    前記ネストしたリストが、文法的カテゴリを備えている要素を有する第1のタイプのリストを有し、該第1のタイプのリストの各要素が第2のタイプのリストを備え、該第2のタイプの各リストが要求されている語形変化カテゴリを備えている要素を有し、該第2のタイプのリストの各要素が第3のタイプのリストを備え、該第3のタイプの各リストが語形変化についての現在の文法的特徴の第1のグループ及び語形変化についての要求されている文法的特徴の第2のグループを備えている要素を有し、該第3のタイプのリストの各要素が第4のタイプのリストを備え、該第4のタイプの各リストが語形変化コード及び文字列操作を備えている要素を有し、
    前記語形変化ステップが前記入力データを基に前記第1のタイプのリストから前記第4のタイプのリストまでを順次選択し、次に前記入力データを基に前記第4のタイプのリストから文字列操作を含む要素を選択し、前記入力単語を語形変化するために該文字列操作を実行することを特徴とする単語を語形変化させる方法。
  2. 入力データを基にしたネストしたリストの前記選択が、リストから最初に発見された適正な入力データに対応する要素を選択し、選択された要素に関連するリストから次の選択の実行を繰り返すことを備えたことを特徴とする請求項1に記載の方法。
  3. 前記第1のタイプのリストから入力データに含まれる文法的カテゴリに対応する文法的カテゴリを有する要素で最初に発見されたものを選択し、前記第1のタイプのリストから選択された要素に関連する前記第2のタイプのリストから入力データの要求されている語形変化カテゴリに対応する語形変化カテゴリを有する要素で最初に発見されたものを選択し、前記第2のタイプのリストから選択された要素に関連する前記第3のタイプのリストからその第1のグループの語形変化についての文法的特徴の全てが入力データ内の文法的データに含まれる要素で最初に発見されたものを選択し、第3のタイプのリストから選択された要素に関連する前記第4のタイプのリストからその語形変化コードが入力データの語形変化コードに対応する要素で最初に発見されたものを選択し、第4のタイプのリストから選択された要素に含まれる文字列操作を入力単語に実行し、前記ステップの文字列操作が成功した場合に第1のグループ内の語形変化についての文法的特徴を第2のグループ内の語形変化についての文法的特徴で置き換えることにより語形変化についての文法的特徴を適合させることを特徴とする請求項2に記載の方法。
  4. 力データと要素が一致しないためにリストの一つから要素を選択することが不可能であった場合に、要求されている語形変化カテゴリを所定の語形変化カテゴリに変更し、続いて変更された入力データに対して語形変化ステップを実行し、得られた結果に対して元々要求されている語形変化カテゴリを基に再度語形変化ステップを実行することを特徴とする請求項1から3のいずれか一項に記載の方法。
  5. 入力データが入力単語の不規則語形変化を含み、その中から語形変化が選択されることを特徴とする請求項1から4のいずれか一項に記載の方法。
  6. 言語学的データが記憶される少なくとも一つのメモリと、言語学的データを参照し、かつ、入力単語、該入力単語に関する文法的カテゴリ、語形変化コード、該入力単語に関する語形変化についての文法的特徴、及び要求されている語形変化カテゴリを含む入力データを基に前記入力単語を語形変化させるために構成された手段とを備えた単語を語形変化するために構成されたデータ処理装置であって、
    前記言語学的データが前記メモリのメモリセグメント内に分類スキーマの形で記憶されており、該分類スキーマがそれぞれが文法的属性に関する要素を備えたネストしたリストを多数含み、
    前記ネストしたリストが、文法的カテゴリを備えている要素を有する第1のタイプのリストを有し、該第1のタイプのリストの各要素が第2のタイプのリストを備え、該第2のタイプの各リストが要求されている語形変化カテゴリを備えている要素を有し、該第2のタイプのリストの各要素が第3のタイプのリストを備え、該第3のタイプの各リストが語形変化についての現在の文法的特徴の第1のグループ及び語形変化についての要求されている文法的特徴の第2のグループを備えている要素を有し、該第3のタイプのリストの各要素が第4のタイプのリストを備え、該第4のタイプの各リストが語形変化コード及び文字列操作を備えている要素を有し、
    前記手段が、前記入力データを基に前記第1のタイプのリストから前記第4のタイプのリストまでを順次選択し、次に前記入力データを基に前記第4のタイプのリストから文字列操作を含む要素を選択し、前記入力単語を語形変化するために該文字列操作を実行するように、前記分類スキーマが記憶されている前記メモリセグメントと共働するように構成されていることを特徴とするデータ処理装置。
JP19428292A 1991-07-23 1992-07-21 単語を語形変化させる方法及びその方法を実行するデータ処理装置 Expired - Fee Related JP3794716B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL9101286 1991-07-23
NL9101286A NL9101286A (nl) 1991-07-23 1991-07-23 Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze.

Publications (2)

Publication Number Publication Date
JPH05189476A JPH05189476A (ja) 1993-07-30
JP3794716B2 true JP3794716B2 (ja) 2006-07-12

Family

ID=19859547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19428292A Expired - Fee Related JP3794716B2 (ja) 1991-07-23 1992-07-21 単語を語形変化させる方法及びその方法を実行するデータ処理装置

Country Status (6)

Country Link
US (1) US5369576A (ja)
EP (1) EP0524694B1 (ja)
JP (1) JP3794716B2 (ja)
AT (1) ATE182224T1 (ja)
DE (1) DE69229583T2 (ja)
NL (1) NL9101286A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9217886D0 (en) * 1992-08-21 1992-10-07 Canon Res Ct Europe Ltd Method and apparatus for parsing natural language
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
DE19526263C1 (de) * 1995-07-19 1996-11-07 Daimler Benz Ag Verfahren zur Klassifizierung eines Textes
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6602335B2 (en) * 2001-05-08 2003-08-05 Hewlett-Packard Development Company, L.P. Pigment solubilization via treatment with strong base and substitution
JP4304268B2 (ja) * 2001-08-10 2009-07-29 独立行政法人情報通信研究機構 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム
KR20080086456A (ko) 2005-12-22 2008-09-25 인터내셔널 비지네스 머신즈 코포레이션 찾기 및 교체 입력의 파생어를 레버리징하는 찾기 및 교체기능을 갖춘 텍스트 편집 방법 및 시스템
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
DE102009021779A1 (de) * 2008-08-04 2010-06-10 Annette Kux-Bergsch Verfahren zur Darstellung von Worten und Sätzen
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
DE102017010113B3 (de) 2017-11-02 2019-03-28 Veronika Caspers Sprachlehrmittel zur Darstellung einer Sprache in unterschiedlichen Zeitformen
US11869106B1 (en) * 2019-09-20 2024-01-09 Airbnb, Inc. Cross-listed property matching using image descriptor features

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
JPS61141078A (ja) * 1984-12-13 1986-06-28 Sharp Corp 電子式仏単語辞書
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US5201047A (en) * 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system

Also Published As

Publication number Publication date
DE69229583T2 (de) 2000-01-13
JPH05189476A (ja) 1993-07-30
ATE182224T1 (de) 1999-07-15
EP0524694B1 (en) 1999-07-14
DE69229583D1 (de) 1999-08-19
EP0524694A1 (en) 1993-01-27
US5369576A (en) 1994-11-29
NL9101286A (nl) 1993-02-16

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5895446A (en) Pattern-based translation method and system
JP2726568B2 (ja) 文字認識方法及び装置
EP0583083B1 (en) Finite-state transduction of related word forms for text indexing and retrieval
JP3794716B2 (ja) 単語を語形変化させる方法及びその方法を実行するデータ処理装置
JP2009266244A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
US20070011160A1 (en) Literacy automation software
Xun et al. A unified statistical model for the identification of english basenp
JPH0567144A (ja) 前編集支援方法およびその装置
JPH08292955A (ja) 言語処理方法及びそれを適用するデータ処理装置
JP3669870B2 (ja) 最適テンプレートパターン探索方法,探索装置および記録媒体
AlGahtani et al. Arabic part-of-speech tagging using transformation-based learning
JPH0447440A (ja) 語の変換方式
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
JP5057916B2 (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
RU2785207C1 (ru) Способ и система автоматического поиска и коррекции ошибок в текстах на естественном языке
Ouersighni Robust rule-based approach in Arabic processing
TW452711B (en) Method using word affix for word search
JP2704945B2 (ja) 重複表現処理装置
JP2001092830A (ja) 文字列の照合装置およびその方法
Souter A corpus-trained parser for systemic-functional syntax
JPS61187077A (ja) 日本語解析装置
JPH04178837A (ja) 字句エラー訂正方法

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050711

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees