JP3794716B2

JP3794716B2 - 単語を語形変化させる方法及びその方法を実行するデータ処理装置

Info

Publication number: JP3794716B2
Application number: JP19428292A
Authority: JP
Inventors: ロベルタス・ペトルス・エリザベス・フベルタス・ヘーメルズ; エデユアルダウス・ヨセフス・ウイリイブロルダウス・フアン・フリームベルゲン; ルイス・マリエ・ヘラルダス・クレメルス
Original assignee: Oce Nederland BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 1991-07-23
Filing date: 1992-07-21
Publication date: 2006-07-12
Anticipated expiration: 2021-07-12
Also published as: DE69229583T2; JPH05189476A; ATE182224T1; EP0524694B1; DE69229583D1; EP0524694A1; US5369576A; NL9101286A

Description

【０００１】
【産業上の利用分野】
本発明は、メモリに格納された言語学的データを参照することにより、語形変化されるべき入力単語と、入力単語に関連する文法カテゴリと、入力単語に関連する文法的特徴と、要求されている語形変化カテゴリとを備える入力データを基に、入力単語が語形変化される語形変化のステップを備える単語を語形変化させる方法に関する。
【０００２】
【従来の技術及び発明が解決しようとする課題】
この種の方法及びデータ処理ユニットはUS-A-4 724 523米国特許に公知である。それに記述されている方法は、中でも、言語学的データを表現するデジタル信号の効率的な格納を提供するという目的を持つ。とりわけ、この目的は語形変化ルーチンの使用によって達成される。結果として、全ての語形変化された単語をメモリ中に格納する必要はもはや無く、このことによる技術的な効果はメモリスペースの相当な節約である。そこに記述されている語形変化ルーチンの第１の欠点はルーチンが大容量記憶システムに頻繁にアクセスすることを必要とし、結果として速度効率を著しく低下させるということである。第２の欠点は、語形変化カテゴリに関する言語学的データが様々なメモリセグメントに分散しており、異なる言語に適した語形変化ルーチンを作成することが難しくなるということである。
【０００３】
本発明の目的は、前述の技術的効果を維持しながら、前記の欠点を大幅に減少させることである。
【０００４】
【課題を解決するための手段】
本発明は、処理に特に適したやり方でメモリセグメント内に語形変化に必要な情報の幾分かを収容することを基にしている。
【０００５】
本発明によると、序文で言及したタイプの方法は言語学的なデータが分類スキーマの形でメモリのランダムアクセス部分に格納されることを特徴とする。この分類スキーマは、それぞれが文法的特徴に関する要素を備える多数のネストされたリストを備え、語形変化ステップは、入力データを基に相互にネストされたリストを選択し、次に入力データを基に最後に選択されたリストから文字列操作を備える要素を選択し、入力単語を語形変化させる文字列操作を実行することを備える。
【０００６】
このことは、語形変化に必要な言語学的データのコンパクトで効率的な保存構造をもたらす。さらに、この保存構造は容易に交換可能であり、本方法はその言語に適用可能な分類スキーマを使用することにより容易に他の言語に適するようにすることが可能である。
【０００７】
本方法の一つの好ましい実施例は、
−第１のタイプのリスト内で入力データに含まれる文法カテゴリに対応する文法カテゴリを有する要素で最初に発見されるものを選択し、
−第１のタイプのリストから選択された要素に関連する第２のタイプのリスト内で、入力データから要求されている語形変化カテゴリに対応する必要な語形変化カテゴリを有する要素で最初に発見されるものを選択し、
−第２のタイプのリストから選択された要素に関連する第３のタイプのリスト内で、その第１のグループからの全ての文法的特徴が入力データの文法的特徴に含まれている要素で最初に発見されるものを選択し、
−第３のタイプのリストから選択された要素に関連する第４のタイプのリスト内で、語形変化コードが入力データの語形変化コードに対応する要素で最初に発見されるものを選択し、
−第４のタイプのリストから選択された要素に格納されている文字列操作を入力単語に対して実行し、
−もし前のステップに言及された文字列操作が成功であれば、第１のグループからの特徴を第２のグループからの特徴で置き換えることにより、特徴を適合させる。このことにより、単語の変化された語形変化の結果として語彙データの適合が可能となる。
【０００８】
以下の好ましい実施例において、本方法は、もし入力データを基にして入力データと要素との間に一致が無いために第１のリストから要素を選択することが不可能な場合には、要求されている語形変化カテゴリを所定の語形変化カテゴリに変化し、次に変化された入力データについて語形変化ステップが実行され、元々要求されていた語形変化カテゴリを基にこの様にして得られた結果に対して語形変化ステップを再度実行することを特徴とする。結果として、分類スキーマはある語形変化カテゴリから他の語形変化カテゴリへの変化の全てを含む必要はない。もし要求されている変化が含まれていない場合には、入力単語はまず、本発明による方法を用いて所定の語形変化カテゴリ（例えば１人称単数）に語形変化される。この方法で語形変化された単語は再度語形変化されるが、今度は元々要求されていた語形変化カテゴリに変化される。現在の語形変化から要求されている語形変化への変化は、現在の語形変化から（例えば）SINGULAR1 への変化とSINGULAR1 から元々要求されていた語形変化への変化とに分割される。
【０００９】
本方法のもう一つの好ましい実施例は、入力データが要求されている語形変化カテゴリを基に語形変化が選び出される入力単語の不規則語形変化を含むことを特徴とする。これによる効果は、不規則語形変化カテゴリについても、大容量メモリに格納されている辞書語彙を調べる必要がないということである。
【００１０】
本発明によるデータ処理ユニットは、言語学的データがメモリセグメント内に分類スキーマの形で記憶されており、前記分類スキーマが、それぞれが文法的な性質に関する要素を備える多数のリストを備えることと、分類スキーマが記憶されている前記メモリセグメントと共働するように手段が構成されていることを特徴とする。
【００１１】
【実施例】
本発明のその他の特徴及び利点は、図面を参照してなされる以下の説明によって明かになるであろう。
【００１２】
本発明による方法を説明する前に、本方法において使用される分類スキーマの構造をまず説明する。表１は、本方法と共働して多数のオランダ語単語を語形変化するために適した分類スキーマの実施例である。分類スキーマを他の言語学的規則に拡張することは容易なことであるが、ここに示されている分類スキーマは本発明が完全にかつ明確に説明されために十分なものである。
【００１３】
【表１】

【００１４】
【表２】

【００１５】
分類スキーマは図１を参照して説明されるネストされたリスト構造を有する。完全ではないが、本図は表１の分類スキーマを図式的に再現している。同様の部品は同様の参照番号によって示されている。分類スキーマは、第１のタイプのリストから構成されており、図１では参照番号１に示されている。その要素は参照番号２に示されており、それぞれ文法的カテゴリ３と第２のタイプのリスト４とを有している。本図に示されている文法的カテゴリはNOUN、VERB、ARTICLE である。文法的カテゴリ３は、第２のタイプのリスト４に関連づけられており、その要素５はそれぞれの格について要求されている語形変化カテゴリ６に関する情報とと第３のタイプのリスト７とを格納している。本図中の要求されている語形変化カテゴリ６は順にPLU3、SING3 、DIMINUTIVE、及びUNDIMINUTIVEである。これを基に、本分類スキーマは原則として以下の要求されている語形変化形に従って名詞を語形変化させる可能性を提供する。即ち、複数形（PLU3）、単数形（SING3 ）、指小接形（DIMINUTIVE）、及び非指小接形（UNDIMUTIVE）である。第３のタイプのリスト７は、現在の文法的特徴の第１のグループ９と、要求されている文法的特徴の第２のグループ１０と、第４のタイプのリスト１１とから構成されている要素８とを備える。第１のグループ９はリスト７から要素８の一つを選択する決定要因である。要素８が選択された後に第２のグループ１０の特徴は、単語の特徴リストが単語の新しい語形変化形に適合するために必要とされる。第３のタイプのリスト１１は、一つ以上の語形変化コードとその後に文字「# 」に先行される一つ以上の文字列操作からなる一つ以上の要素１２を備える。語形変化コードと文字列操作はそれぞれ表２と表３を参照して後で説明する。要素１２に格納されている語形変化コードの少なくとも一つが入力単語に関した語形変化コードを満足した場合に、入力単語に要求されている語形変化を行うために、所定の文字列操作が入力単語に実行される。
【００１６】
本発明は表１に示される分類スキーマの実施例に限定されないことに留意する必要がある。明白な変形例は、リストのネスティングが異なるものである。例えば、要求されている語形変化カテゴリを第１のタイプのリストとして、文法的カテゴリを第２のタイプのリストとして含めるといったことである。これは本発明の主旨に影響しない。
【００１７】
更に、本リスト構造を他の方法でコードすることも又可能であり、これはとりわけ本発明が実施されるデータ処理ユニットに依存している。本表で使用されているコード体系は、スキーマが依然としてオペレータによって読みとり可能であり、従ってデータ処理手段によって容易に変更され得るという利点を有する。
【００１８】
図２のフロー図を参照して本発明を説明する。開始状況は２０に示されている。ステップ２１において入力データが読み込まれる。入力データは語形変化されるべき入力単語と、入力単語の辞書データと要求されている語形変化カテゴリーとを備える。
【００１９】
中でも辞書データは入力単語に関する文法的カテゴリを備える。読み込み操作の後、ステップ２２において、該文法的カテゴリに対応する第１の要素が第１のタイプのリストから選択される。もし対応する要素が見つからなければ（Ｎ）、終了条件２３に達する。要素が選択されたならば（Ｙ）、プログラムはステップ２４に進む。先に述べたように、第２のタイプのリストは、それぞれが要求されている語形変化カテゴリと第３のタイプのリストとを含む要素から構成されている。ステップ２４において、ステップ２２にて選択された要素に関する第２のタイプのリストから、要求されている語形変化カテゴリに対応する最初の要素が選択される。もしそのような要素が見つからなかった場合には（Ｎ）、プログラムはステップ２５に進む。後に説明するステップ３１及び３２のいずれかが不成功の場合にも同様のことが起こる。ステップ２５は第１のフラグＦ１がセットされたかチェックする。セットされていなければ（Ｎ）、要求されている語形変化はステップ２６においてSING1 に変換され、元々の入力データは記憶され、フラグＦ１がセットされる。そしてプログラムはステップ２４に戻る。これらのステップの効果は、ある時点において対応する要素が見つからなかったためにネストしたリスト構造の検索が不成功だった場合に、一人称単数形への中間ステップを介して要求されている結果に達する試みを開始することである。即ち、本方法が１回目に実行されるときには入力単語はSING1 に語形変化され、後に本方法が２回目に実行されるときにはSING1 に語形変化された入力単語は元々要求されていた語形変化カテゴリに語形変化される。結果として、少なくとも全ての語形からSING1 へ、SING1 から全ての語形変化への語形変化が含まれていれば、現在の語形変化カテゴリと要求されている語形変化カテゴリの全組み合わせを分類スキーマ中に含める必要がないためこのことには利点がある。
【００２０】
ステップ２５において、フラグＦ１がセットされていれば（Ｙ）、このことは要求されている語形変化をSING1 に転化する試みが既に行われており、この試みが失敗したこと意味している。次にステップ２７は第２のフラグＦ２がセットされているかチェックする。セットされていなければ（Ｎ）、ステップ２９において記憶されていた元々の入力データが検索される。次にステップ３０が実行され、要求されている語形変化コードに値「１７」が割り当てられフラグＦ２がセットされる。そしてステップ２４が再度実行される。これらのステップの結果として、一定の音変化パターンに従う強変化規則動詞は個別に扱われ、よってより単純な分類スキーマをもたらす。ステップ２７がフラグＦ２がセットされていることを示したとき（Ｙ）には、単語を語形変化コード「１７」を介して語形変化しようとした試みが失敗したことを意味する。そして終了条件２８に達する。
【００２１】
前述の通り、ステップ２４では要求されている語形変化カテゴリに対応する最初の要素が第２のタイプのリストから選択される。語形変化カテゴリを有する要素が発見された場合（Ｙ）には、プログラムは第３のタイプのリストから、その第１のグループ中の文法的な特徴が入力単語の辞書データ中に格納されている特徴リストに含まれている要素で最初に見つかったものを選択するステップ３１に進む。もしこの様な要素が見つからなかった場合（Ｎ）には、プログラムは既に説明するステップ２５に進む。その様な要素が見つかった場合（Ｙ）には、ステップ３２が実行される。ステップ３２においては、ステップ３１にて第３のタイプのリストから選択された要素に関連する第４のタイプのリストから、格納されている語形変化コードの一つが入力単語に関連する語形変化コードに対応している要素の最初に発見されたものを選択する。
【００２２】
表３は多数の語形変化コードを示している。最初の欄は所与の語形変化グループのコードを格納しており、第２の欄はグループの定義を示している。この種の語形変化コードは、同様の語形変化を有する語幹に同じコードを割り当てることにより単純なやり方で作成し得る。そして語形変化コードは、分離コードを含むことにより特殊なケースに拡張される。
【００２３】
ステップ３２において、入力データに対応する語形変化コードを有する要素が見つからなかった場合（Ｎ）には、本方法はステップ２５に続く。その様な要素が見つかった場合（Ｙ）には、ステップ３３が実行される。ステップ３３においては、ステップ３２にて選択された要素に含まれる文字列操作が入力単語に対して実行される。
【００２４】
表４は文字列操作のリストを示す。文字列操作のコードが最初の欄に示されている。第２の欄は文字列操作の定義を表し、第３の欄は文字列操作が成功したとみなされるべき条件を示す。
【００２５】
ステップ３３にて実行されるべき文字列操作が不成功である場合（Ｎ）には、ステップ３２が再度実行されて、それ以降の要素から入力単語の語形変化コードに対応する語形変化コードの一つを有する要素を探す。ステップ３３にて実行されるべき全ての文字列操作が成功した場合（Ｙ）には、プログラムは、入力単語の特徴リストを新しい状況に合致させるステップ３４に進む。この目的のために、第３のタイプのリストの選択された要素の第１のグループ中に存在する特徴リスト中の文法的特徴は、第２のグループの文法的特徴によって置換される。この様にして得られた特徴リストは、語形変化された入力単語に適合している。
【００２６】
【表３】

【００２７】
【表４】

【００２８】
第２のフラグＦ２がセットされている場合には、ステップ３４にて、更に、第１のフラグＦ１がリセットされる。次にステップ３５は第１のフラグＦ１がセットされているかチェックする。セットされていれば（Ｙ）、中間ステップとして実行されたSING1 への語形変化が成功であり、SING1 から元々要求されていた語形変化への語形変化が実行可能であることを意味する。この目的のために、ステップ２６にて予め保存されていた要求されている語形変化カテゴリは、ステップ３６にて再び読み出され、更にステップ３６にて第１のフラグＦ１がリセットされ、ステップ２４から始まって２回目の語形変化処理を実行する。ステップ３５において第１のフラグＦ１がセットされていない場合（Ｎ）には、本方法に従って得られかつ要求されている語形変化カテゴリに従って語形変化された入力単語は、ステップ３７において関連する辞書データと一緒に書き出され、終了条件３８に達する。
【００２９】
表１の分類スキーマと、表３及び表４にそれぞれ示されている語形変化コード及び文字列操作を使用した例を幾つか参照して、上記の方法を詳細に説明する。
【００３０】
第１の例は入力単語として「deur」（ドアの意のオランダ語）を使う。入力データは以下の通りである。
【００３１】
(deur (noun (rued 8 inneuter male female sing3)
要求されている語形変化カテゴリ：PLU3
１行目は辞書データを伴った入力単語に関する。例えば、複合語を処理するNL-A-9101285の特許出願に記載の発明と組み合わせたNL-A-9101284の特許出願に記載の辞書化モジュール（両出願共本発明のオランダ国優先出願と同一日に出願されている）によって実質的に提供されるものである。上に示されている辞書データは、左から右に、
入力単語：deur
文法的カテゴリ：noun
逆転された語幹形：rued
語形変化コード：8
特徴リスト：inneuter male female sing3
となる。
【００３２】
開始状況２０（図２）から開始して、ステップ２１にて入力データが読み込まれる。次にステップ２２において、第１のタイプのリストから、入力単語の文法カテゴリに対応する最初の要素を選択する。入力単語は文法的カテゴリとして「noun」を有しているため、ステップ２２においてその要素（表１参照）が選択される（Ｙ）。ステップ２４では、前のステップで選択された要素「noun」に関連した第２のタイプのリスト（図１の参照番号４を参照）から、要求されている語形変化カテゴリに対応する要素が選択される。表１によるとこれは要素「PLU3」となり、ステップ２４は成功である（Ｙ）。そして、第１のグループ内のその特徴の全てが入力データの特徴リストに存在する要素がステップ３１にて選択される。表１によると、これは要素「SING3 」に当てはまり、ステップ３１は成功（Ｙ）である。ここで選択された要素は第４のタイプのリスト（図１の参照番号８を参照）を備え、ステップ３２においてそのリストから入力データの語形変化コードに対応している語形変化コードを一つ有する要素を選択する。語形変化コード「8 」を含んでいる故に表１に示されている要素「(12 8# +s)」がこれを満たしており、ステップ３２は成功（Ｙ）である。ステップ３３において、所定の文字列操作が実行されてその成功がチェックされる。選択された要素は唯一の動作として「+en 」を明示している。入力単語「deur」に表３に明示されている定義に従ってこれを適用すると、要求されている語形変化カテゴリに従って語形変化された「deuren」という単語が得られる。この文字列操作は成功（Ｙ）であり、プログラムは特徴リストが適合されるステップ３４に進む。このことは、ステップ３１で選択された要素の第１のグループ内にある特徴リストの特徴の特徴「SING3 」を、このケースでは「PLU3」である要素の特徴の第２のグループによって置換することにより行われる。ステップ３５ではフラグＦ１がセットされているかどうかのチェックが行われる。セットされていなければ（Ｎ）、ステップ３７では語形変化された単語と適合された辞書データとが書き出され、これは、
(deuren (noun (rued 8 plu3 inneuter male female)))
となる。そして終了条件３８に達すると共に本方法の目的、即ち要求されている語形変化カテゴリに従って入力単語を語形変化するということが達成される。
【００３３】
以下の第２の例で、不規則強変化動詞がどのように取り扱われるか説明する。入力データは以下の通りである。
【００３４】
【数１】

【００３５】
要求されている語形変化カテゴリ：pastpart
辞書データは左から右に以下の詳細に説明される。
【００３６】
入力単語：liep
文法的カテゴリ：verb
逆転された語幹形：peil
語形変化コード：-2（音変化コード）
語形変化コード：19
特徴リスト：p.p.zijin p.p.hebben sing3 sing2 sing1
past main intransitive X#(loop,loopt,loopt,
lopen,liep,liepen,gelopen,loop)
特徴リスト中のX#フィールドは動詞の不規則形を格納している。開始位置２０から開始してステップ２１にて入力データが読み込まれる。次にステップ２２では第１のタイプのリストから文法的カテゴリ「verb」を含む要素を選択する。表１によればこの種の要素は存在し、従ってステップ２２は成功（Ｙ）であり、本方法はステップ２４へと続く。ステップ２４では、文法的カテゴリ「verb」に関連する第２のタイプのリストから、要求されている語形変化カテゴリ「pastpart」に対応する要素を選択する。この要素が存在するならば（Ｙ）ステップ３１が実行される。ステップ３１では、前のステップで選択された要素「PASTPART」に関連する第３のタイプのリストから、第１のグループの全ての文法的特徴が入力データの特徴リストに含まれている要素で最初に発見されるものを選択する。第１の要素がこれを満足する（Ｙ）。本方法はステップ３２へと続き、入力データに含まれている語形変化コードのうちの一つに対応する最初の要素が選択される。要素「(-2 # x7)」が適合する。文字列操作のx7はX#フィールドから７番目の単語を取るべきであるということを意味する。これにより、要求された語形変化カテゴリに従って語形変化された単語である「gelopen」がもたらされる。次にステップ３４において特徴リストが適合される。このことは、第２のタイプのリストから選択された要素の第１のグループ内の特徴リストの特徴、この場合では「SING1 SING2 SING3 PAST」を、関連する第２のグループの特徴、この場合には「PASTPART」に置換する。そしてステップ３５は第１のフラグＦ１がセットされているかチェックする。セットされていなければ（Ｎ）得られたデータはステップ３７にて書き出され、
【００３７】
【数２】

【００３８】
となる。そして終了状況３８に達する。
【００３９】
以下の第３の例において、本方法がX#フィールドが辞書データに含まれていない強変化動詞をどのように取り扱うかの解説する。
【００４０】
入力データは、
【００４１】
【数３】

【００４２】
要求されている語形変化カテゴリ：PASTPART
開始位置２０から開始して、ステップ２１にて入力データが読み込まれる。次にステップ２２において要素「VERB」が選択される（Ｙ）。ステップ２４において要求されている語形変化カテゴリである「PASTPART」が選択される（Ｙ）。ステップ３１では要素「SING1 PRESENT」が選択され（Ｙ）、よってステップ３２は語形変化コードの「−1」又は「2」を含む要素を検索する。そのような要素が無ければ、ステップ３２は不成功（Ｎ）であり、プログラムは第１のフラグＦ１がセットされているかチェックするステップ２５に進む。セットされていなければ（Ｎ）、プログラムはステップ２６に進み、要求されている語形変化カテゴリが「SING1」に転換され、元来の入力データはメモリに保存されてフラグＦ１がセットされる。次に、ステップ２４では「SING1」が選択され、成功となる（Ｙ）。ステップ３１では「SING1 PRESENT」という特徴を有する要素を探す。その様な要素は無いためステップ３１は不成功である（Ｎ）。その結果フラグＦ１がセットされているかをチェックするステップ２５が再度実行される。セットされている（Ｙ）ため、ステップ２７が実行される。このステップは第２のフラグＦ２がセットされているかどうかをチェックする。セットされていないため、ステップ２９において元来の入力データが再度取り出される。次にステップ３０が実行され、語形変化コードに値「17」が割り当てられる。ステップ２４では要素「PASTPART」が選択されて成功となる（Ｙ）。ステップ３１では「SING1 PRESENT」が選択され（Ｙ）、従ってプログラムは語形変化コード「17」を有する要素を探すステップ３２に進む。これは成功であり（Ｙ）、要素「(17 # S A F)」をもたらす。プログラムはステップ３３に進み、文字列操作Ｓ、Ａ、及びＦが入力単語に対して実行される。文字列操作Ｓは「ij」を「e」に置換することにより音韻変化をもたらし、「en」を単語に加える。「e」への音韻変化は、入力データ内の語形変化コード「-1」によって明示されている。これにより単語「keken」がもたらされる。文字列操作Ａは単語の前に接頭語の「ge」を付け、結果として「gekeken」という単語になる。最後に、表３によればこれ以上の条件が呈示されていないため文字列操作Ｆはここでは適用可能ではなく、成功と見なされるべきである。実行されるべき全ての文字列操作が成功であるので、このことはステップ３３は成功であり（Ｙ）、ステップ３４が実行されなくてはならないことを意味する。このステップでは特徴リストが適合される。即ち、このケースでは特徴リストの「sing1 present]の「pastpart」への置換である。また、第２のフラグＦ２がセットされているので、ステップ３４にて第１のフラグＦ１がリセットされる。次にステップ３５は第１のフラグＦ１がセットされているかチェックする。セットされていない（Ｎ）ため、ステップ３７では得られたデータが書き出され、
【００４３】
【数４】

【００４４】
をもたらす。そして終了条件３８に達する。
【００４５】
分類スキーマと関連して本方法が不規則語形変化に関して高い柔軟性を有していることはここまでの例から明かであろう。その説明として、表１に示されている分類スキーマは又、動詞「zijin 」の多数の語形変化と冠詞の語形変化を含んでいる。例えば後者の特徴は、所与の定冠詞を不定冠詞形に語形変化させることを可能とする。
【００４６】
技術を有する者にとっては、この種の分類スキーマが他の言語にも適用可能であることは明かであろう。英語はオランダ語よりも語形変化が少ないため、英語用の分類スキーマはオランダ語用のものよりもかなりシンプルであろう。
【００４７】
本発明による多数の英語単語の語形変化を引き出す分類スキーマの実施例が表５に提供されている。ここで使用されている語形変化コードは、表３に既定されているオランダ語に特定しているものとは同一ではない。英語の例として、動詞「flies 」をSING1 に語形変化するものと仮定する。
【００４８】
入力データは、
(flies (verb (4 sing3 main present transitive intransitive)))
要求されている語形変化カテゴリ：sing1
上記の辞書データは左から右に以下の通りである。
【００４９】
入力単語：flies
文法的カテゴリ：verb
語形変化コード：4
特徴リスト：sing3 main present transitive intransitive
最初に、第１のタイプのリストから入力単語の文法的カテゴリに対応する最初の要素を選択する。入力単語は文法的カテゴリとして「verb」を有し、よって第１のタイプのリストのその要素が選択される。第２のタイプのリストがこの要素に関連している。この第２のタイプのリストから、要求されている語形変化カテゴリ「SING1 」を有する要素が選択される。第３のタイプのリストがこの要素に関連している。この第３のタイプのリストから語形変化コード「4 」を含む要素が選択される。これは要素「(4 # -ies +y) 」である。
【００５０】
表４によれば文字列操作「-ies +y 」は入力単語を「flies 」から「fly 」に無事に変更する効果を有する。正確な辞書データを得るために、「sing3 present 」を「sing1 sing2 plu1 plu2 plu3 present」と置換することにより特徴リストを適合する。
【００５１】
これにより最終結果として、
【００５２】
【数５】

【００５３】
という出力データがもたらされる。
【００５４】
【表５】

【００５５】
本発明は、辞書化モジュール及びパーサと共に語形変化修正器として使用すると有利である。このことはこの種の語形変化修正器のブロック略図である図３を参照して詳細に説明される。文字情報が入力モジュール４１に与えられる。これは文章中の文と単語が識別されることを保証する。単語は、メモリモジュール４３に保存された文字列操作スキーマと、追加の単語レジスタによって任意に拡張される電子単語レジスタとに連絡している辞書化モジュール４２に与えられ、メモリモジュール４４に保存される。辞書化モジュールは各入力単語の文法的分析に必要な辞書データを規定し、その種の分析はパーサモジュール４５によって実行される。メモリモジュール４６に保存されている文法を基に、辞書データを使用してパーサモジュールは文を分析する。もし辞書化モジュールが、単語に対して全ての要求を満たしていない仮の基本的形のみが見つかったことを示した場合には、パーサモジュールは文中のその単語の文法的位置を基に基本形のどの語形変化が正しいのかを決めることができる。本発明に従って動作可能な訂正モジュール47は、ランダムアクセスメモリ部品４８に保存されている分類スキーマに従った正しい語形変化が単語に行われることを保証する。そして、正しく語形変化された単語が出力モジュール４９によって出力される。仮の基本形が複数見つかった場合には、それらは全て正しく語形変化されてユーザに提示され、ユーザは一つを選択することができる。上述の構成は先行刊行物ではない本出願人の特許出願NL-A― 9100849 の主題事項を構成する。
【００５６】
図４は本発明によるデータ処理ユニットの考えられる実施例を示す。データ処理ユニットは、主ユニット５１を備え、更にキーボード５２、辞書データベースを格納している大容量メモリ５３、及びスクリーン５４を備えている。主ユニット５１は、キーボード５２に接続されたキーボードコントローラ５５と、大容量メモリ５３に接続されたディスクコントローラ５６と、スクリーン５４に接続されたスクリーンコントローラ５７と、本発明によって構成された分類スキーマを格納する第１のランダムアクセスメモリモジュール５８と、本発明によって構成された語形変化モジュール５９と、メインプログラムモジュール６０と、その中に大容量メモリからテキストファイルをロードすることができる第２のランダムアクセスメモリモジュール６１と、上記の全モジュール及びコントローラを制御するプロセッサユニット６２とを備える。メインプログラムモジュール６０は、第２のメモリモジュール６１に保存されているテキストファイルを処理する。メインプログラムモジュールが所与の単語の語形変化を決める際、語形変化モジュール５９が起動される。語形変化モジュール５９はメインプログラムモジュール６０が用意した入力データを読み込む。メモリモジュール５８に保存されている分類スキーマと協働して、入力単語は語形変化される。その結果はメインプログラムモジュールに渡され、他の指定されたプログラムステップが実行される。
【００５７】
この種のデータ処理ユニットへの本発明の応用は、辞書データベースが単語の全ての語形変化形を格納しておく必要がなく、よってメモリの大幅な節約をもたらすため有利であり、更に辞書データ自身が単語の語形変化を行う際に参照される必要がなく、プログラムの処理スピードの点において有利である。加えて、他の言語の語形変化単語形を得ることが可能となるように、メモリモジュール５８に保存されているモジュール型の分類スキーマを他の分類スキーマと交換することは容易である。
【００５８】
本発明は記述されている方法又は実施例には限定されず、技術を有する者によって様々な他のやり方で実施可能であるが、それらは全て特許請求の範囲に含まれる。
【図面の簡単な説明】
【図１】分類スキーマの説明図である。
【図２】本発明による方法のフロー図である。
【図３】語形変化修正に使用されるシステムのブロック図である。
【図４】本発明によるデータ処理ユニットの考えられる実施例の説明図である。
【符号の説明】
１分類スキーマ
２、５、８、１２要素
４、７、１１リスト
３文法的カテゴリ
６語形変化カテゴリ
９、１０文法的特徴

Claims

メモリ内に記憶されている言語学的データを参照し、語形変化されるべき入力単語と、入力単語に関する文法的カテゴリと、語形変化コードと、入力単語に関する語形変化についての文法的特徴と、要求されている語形変化カテゴリとを含む入力データを基に入力単語を語形変化させる語形変化ステップを備えた単語を語形変化させる方法であって、前記言語学的データがメモリのランダムアクセス部分に分類スキーマの形で記憶されており、該分類スキーマはそれぞれが文法的属性に関する要素を備えているネストした多数のリストを有し、
前記ネストしたリストが、文法的カテゴリを備えている要素を有する第１のタイプのリストを有し、該第１のタイプのリストの各要素が第２のタイプのリストを備え、該第２のタイプの各リストが要求されている語形変化カテゴリを備えている要素を有し、該第２のタイプのリストの各要素が第３のタイプのリストを備え、該第３のタイプの各リストが語形変化についての現在の文法的特徴の第１のグループ及び語形変化についての要求されている文法的特徴の第２のグループを備えている要素を有し、該第３のタイプのリストの各要素が第４のタイプのリストを備え、該第４のタイプの各リストが語形変化コード及び文字列操作を備えている要素を有し、
前記語形変化ステップが、前記入力データを基に前記第１のタイプのリストから前記第４のタイプのリストまでを順次選択し、次に前記入力データを基に前記第４のタイプのリストから文字列操作を含む要素を選択し、前記入力単語を語形変化するために該文字列操作を実行することを特徴とする単語を語形変化させる方法。
入力データを基にしたネストしたリストの前記選択が、リストから最初に発見された適正な入力データに対応する要素を選択し、選択された要素に関連するリストから次の選択の実行を繰り返すことを備えたことを特徴とする請求項１に記載の方法。
前記第１のタイプのリストから入力データに含まれる文法的カテゴリに対応する文法的カテゴリを有する要素で最初に発見されたものを選択し、前記第１のタイプのリストから選択された要素に関連する前記第２のタイプのリストから入力データの要求されている語形変化カテゴリに対応する語形変化カテゴリを有する要素で最初に発見されたものを選択し、前記第２のタイプのリストから選択された要素に関連する前記第３のタイプのリストからその第１のグループの語形変化についての文法的特徴の全てが入力データ内の文法的データに含まれる要素で最初に発見されたものを選択し、第３のタイプのリストから選択された要素に関連する前記第４のタイプのリストからその語形変化コードが入力データの語形変化コードに対応する要素で最初に発見されたものを選択し、第４のタイプのリストから選択された要素に含まれる文字列操作を入力単語に実行し、前記ステップの文字列操作が成功した場合に第１のグループ内の語形変化についての文法的特徴を第２のグループ内の語形変化についての文法的特徴で置き換えることにより語形変化についての文法的特徴を適合させることを特徴とする請求項２に記載の方法。
入力データと要素が一致しないためにリストの一つから要素を選択することが不可能であった場合に、要求されている語形変化カテゴリを所定の語形変化カテゴリに変更し、続いて変更された入力データに対して語形変化ステップを実行し、得られた結果に対して元々要求されている語形変化カテゴリを基に再度語形変化ステップを実行することを特徴とする請求項１から３のいずれか一項に記載の方法。
入力データが入力単語の不規則語形変化を含み、その中から語形変化が選択されることを特徴とする請求項１から４のいずれか一項に記載の方法。
言語学的データが記憶される少なくとも一つのメモリと、言語学的データを参照し、かつ、入力単語、該入力単語に関する文法的カテゴリ、語形変化コード、該入力単語に関する語形変化についての文法的特徴、及び要求されている語形変化カテゴリを含む入力データを基に前記入力単語を語形変化させるために構成された手段とを備えた単語を語形変化するために構成されたデータ処理装置であって、
前記言語学的データが前記メモリのメモリセグメント内に分類スキーマの形で記憶されており、該分類スキーマがそれぞれが文法的属性に関する要素を備えたネストしたリストを多数含み、
前記ネストしたリストが、文法的カテゴリを備えている要素を有する第１のタイプのリストを有し、該第１のタイプのリストの各要素が第２のタイプのリストを備え、該第２のタイプの各リストが要求されている語形変化カテゴリを備えている要素を有し、該第２のタイプのリストの各要素が第３のタイプのリストを備え、該第３のタイプの各リストが語形変化についての現在の文法的特徴の第１のグループ及び語形変化についての要求されている文法的特徴の第２のグループを備えている要素を有し、該第３のタイプのリストの各要素が第４のタイプのリストを備え、該第４のタイプの各リストが語形変化コード及び文字列操作を備えている要素を有し、
前記手段が、前記入力データを基に前記第１のタイプのリストから前記第４のタイプのリストまでを順次選択し、次に前記入力データを基に前記第４のタイプのリストから文字列操作を含む要素を選択し、前記入力単語を語形変化するために該文字列操作を実行するように、前記分類スキーマが記憶されている前記メモリセグメントと共働するように構成されていることを特徴とするデータ処理装置。