JP4311772B2

JP4311772B2 - 言語ストリング解析方法および言語ストリング解析システム

Info

Publication number: JP4311772B2
Application number: JP32673496A
Authority: JP
Inventors: ティー．マクスウェルザサードジョン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-12-14
Filing date: 1996-12-06
Publication date: 2009-08-12
Anticipated expiration: 2016-12-06
Also published as: JPH09179862A; DE69617612D1; EP0779578A2; EP0779578B1; US5727222A; EP0779578A3; DE69617612T2

Description

【０００１】
【発明の属する技術分野】
本発明は言語ストリングを解析する方法に関する。更に詳細には、本発明は論理和的レイジーコピーリンクを伴った特徴構造及び単一化ベースの文法を使用して言語ストリングを解析する方法に関する。
【０００２】
【従来の技術】
多くの現代文法論理形式は自然言語の言葉の句構造を記述するために再帰的特徴構造を使用する。例えば、語彙機能文法（Kaplan, Ronald M., and Bresnan, Joan. (1982). "Lexical Functional Grammar:A formal system for grammatical representation." In Joan Bresnan, editor, The Mental Representation of Grammatical Relations, pages 173-281. MIT Press, Cambridge, Mass.) を参照されたい。機能単一化文法（Kay, Martin.(1979). "Functional Grammar." In C. Chiarello et al., editors, Proceedings of the 5th Annual Meeting of the Berkeley Linguistic Society, Berkeley, California, pages 142-158.)、ＨＰＳＧ(Pollard, Carl, and Sag, Ivan. (1987). Information-Based Syntax and Semantics, volume 13 of CSLI Lecture Notes, CSLI, Stanford.) 及び確定節文法（Pereira, Fernando C. N., and Warren, David H. D. (1980). "Definitie clause grammars for language analysis--a survey of the formalism and a comparison with augmented transition networks."Artificial Inteligence, 13(3):213-278.) は全て文法記述の主要な要素として再帰的特徴構造を使用する。特徴構造は理解し易く、Prong のような単一化ベースのプログラミング言語で実施し易いという利点を有する。しかしながら、特徴構造は理論及び実践の両方において効率的に解析しにくい文法論理形式を形成するという不利益な点も有する。理論上、任意の再帰的特徴構造を使用する文法論理形式は最悪の場合決定不能となり得る（Blackburn, Patrick, and Spaan, Edith. (1993). "Decidability and Undecidability in stand-alone Feature Logics" In Proceedings of the Sixth Conference of the EACL, Utrecht, The Netherlands, pages 30-36.)。ＬＦＧ（Lexical Functional Grammar) のオフライン解析能力制約のような適切な制限でも論理形式は最悪の場合指数関数的に多くなる（Barton, G. Edward; Berwick, Robert C., and Ristad, Eric Sven.(1987). Computational Complexity and Natural Language. MIT Press, Cambridge, Mass.)。実際は、論理形式に指数関数的時間がかかるような現象は稀であるが、調整されていない単一化ベースのパーサーは適度に複雑な文を解析するために普通数分を要する。
【０００３】
【発明が解決しようとする課題】
本発明の目的は、特徴構造を含む単一化ベースの文法を解析するために要求される時間を低減させることである。
【０００４】
本発明の別の目的は、解析時間を低減させるために言語ストリングの文脈自由性を利用することである。
【０００５】
【課題を解決するための手段】
論理和的レイジーコピーリンク（lazy copy link) を使用して特徴構造を単一化する方法が述べられる。この方法は２つのドーター特徴構造を単一化してマザー特徴構造を生成することから始まる。レイジーコピーリンクはマザー特徴構造からドーター特徴構造を戻り指示する。単一化によってこれらのレイジーコピーリンクのいずれかが起動されるならば、起動されたレイジーコピーリンクによって示された特徴構造の一つが拡張される。論理和的特徴構造の拡張は複数の代替的な特徴構造を生成し得る。複数の代替的特徴構造を生成する場合、この代替的特徴構造は、複数の特徴構造を各々が代替値を指示する複数の論理和的レイジーコピーリンクを有する一つの特徴構造に置き換えることによって、特徴構造の数を減らすことができるかどうかを決定する。二つ以上の特徴構造が同じ属性及び属性値を持つならばこれらの特徴構造はマージされることができる。マージングが完了すると、拡張のために単一化が停止した時点で、一度に一つの属性ずつ２つのドーター特徴構造の単一化が再開される。属性の単一化がレイジーコピーリンクを起動させると、拡張は必ず再びトリガーされる。拡張、マージング及び単一化のプロセスは、起動するレイジーコピーリンクを含まないマザー特徴構造が生成されるまで繰り返される。
【０００６】
本発明の請求項１の態様に従うと、論理和的レイジーコピーリンクを含む単一化ベースの文法を使用して言語ストリングを解析する方法であって、この方法は前記方法を実施するインストラクションを保存するメモリに接続するプロセッサによって実行され、ａ）第１構成要素に関連する第１論理和的特徴構造と第２構成要素に関連する第２論理和的特徴構造を単一化して第３構成要素に関連する第３特徴構造を生成するステップを有し、前記第１論理和的特徴構造は第１属性及び二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは第１属性の代替値を指示し、前記第３特徴構造は完全に特定される代わりに第１論理和的特徴構造への第１レイジーコピーリンクを有し、ｂ）単一化によって第１レイジーコピーリンクが起動される場合、第１論理和的特徴構造の仕様を拡張して第１の複数の代替的特徴構造を生成するステップを有し、第１の複数の代替的特徴構造は第１論理和的特徴構造よりも更に特定されて少なくとも一つの属性を有し、各属性は値を有し、ｃ）可能な場合には、同一の属性の第１セットを有する第１代替的特徴構造をマージして第１の最小の論理和的特徴構造のうちの一つを形成することによって第１の複数の代替的特徴構造を第１の最小の論理和的特徴構造に減らすステップを有し、第１の最小の論理和的特徴構造のうちの一つは同一の属性の第１セットを有し、マージされた代替的特徴構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、ｄ）第１の最小の第１特徴構造と第２特徴構造を単一化して第３特徴構造の仕様レベルを増加させるステップを有し、前記第３特徴構造は第１特徴構造への少なくとも一つのレイジーコピーリンクを含む。
【０００７】
本発明の請求項２の態様に従うと、請求項１の態様において、ｅ）第３特徴構造から第１の最小の第１特徴構造へのレイジーコピーリンクのうちの一つが起動される場合、１）レイジーコピーリンクの一つによって指示された第１の最小の第１特徴構造の一つを第２の複数の第１代替的特徴構造に拡張するステップを有し、２）可能な場合には、同一の属性の第２セットを有する第２の複数の第１特徴構造をマージして第２の最小の第１特徴構造のうちの一つを形成することによって、第２の複数の第１代替的特徴構造を第２の最小の第１特徴構造に減らすステップを有し、第２の最小の第１特徴構造の一つは同一の属性の第２セットを有し、第２の複数の第１代替的特徴構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、３）第２の最小の第１特徴構造と第２特徴構造を単一化して第３特徴構造の仕様レベルを増加させるステップを有し、前記第３特徴構造は第１特徴構造へのレイジーコピーリンクを有し、４）第３特徴構造から第２の最小の第１特徴構造の一つへのレイジーコピーリンクの一つが起動される場合、第３特徴構造が非起動レイジーコピーリンクのみを含むようになるまでステップｅ１）〜ｅ３）を繰り返すステップを有する。
【０００８】
本発明の請求項３の態様に従うと、製品であって、ａ）メモリを有し、ｂ）メモリに保存されたインストラクションを有し、前記インストラクションは、論理和的レイジーコピーリンクを含んで文脈自由性を利用する単一化ベースの文法を使用して自然言語ストリングを解析する方法を表すインストラクションであって、前記解析方法はメモリに接続するプロセッサによって実行される方法であって、前記方法は、１）第１構成要素に関連する第１論理和的特徴構造と第２構成要素に関連する第２論理和的特徴構造を単一化して第３構成要素に関連する第３特徴構造を生成するステップを有し、前記第１論理和的特徴構造は第１属性及び二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは第１属性の代替値を指示し、前記第３特徴構造は完全に特定される代わりに第１論理和的特徴構造への第１レイジーコピーリンクを有し、２）単一化によって第１レイジーコピーリンクが起動される場合、第１論理和的特徴構造の仕様を拡張して第１の複数の代替的特徴構造を生成するステップを有し、第１の複数の代替的特徴構造は第１論理和的特徴構造よりも更に特定されて少なくとも一つの属性を有し、各属性は値を有し、３）可能な場合には、同一の属性の第１セットを有する第１代替的特徴構造をマージして第１の最小の論理和的特徴構造のうちの一つを形成することによって第１の複数の代替的特徴構造を第１の最小の第１論理和的特徴構造に減らすステップを有し、第１の最小の論理和的特徴構造のうちの一つは同一の属性の第１セットを有し、マージされた代替的特徴構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、４）第１の最小の第１特徴構造と第２特徴構造を単一化して第３特徴構造の仕様レベルを増加させるステップを有し、前記第３特徴構造は第１特徴構造への少なくとも一つのレイジーコピーリンクを含む。
【０００９】
【発明の実施の形態】
図１は本発明の単一化方法を含むコンピュータシステム３０を例示する。メモリ４５に保存されたインストラクション１００を使用してコンピュータシステム３０は単一化ベースの文脈自由文法によって表されるストリング部分を語数の３乗のオーダーの時間で解析することができる。
【００１０】
本発明の詳細な記述の前にコンピュータシステム３０について述べることにする。コンピュータシステム３０は情報をコンピュータユーザに視覚的に表示するモニター３２を含む。また、コンピュータ３０はプリンタ３３を介してコンピュータユーザに情報を出力する。コンピュータシステム３０はコンピューターユーザに入力データに対する複数の経路を提供する。キーボード３４によってコンピューターユーザは手でデータを入力できる。また、コンピューターユーザはペン４０で電子タブレット３８に書き込むことによって情報を入力してもよい。或いは、コンピューターユーザはフロッピーディスク４３のようなマシーン可読媒体をディスクドライブ４２に挿入して該マシーン可読媒体に保存されたデータを入力することもできる。光学式文字認識ユニット（ＯＣＲユニット）４４によってユーザはハードコピー自然言語ドキュメント４６を入力することができ、該光学式文字認識ユニットは該ドキュメントをコード化された電子表示に変換し、このコード化された電子表示は典型的にはAmerican National Standard Code for Information Interchange （ＡＳＣＩＩ）である。
【００１１】
プロセッサ３１はメモリ４５又はディスクドライブ４２内のフロッピーディスク４３に保存されたインストラクションを実行することによって各コマンドに応答して適切な動作を決定且つ行う。典型的には、プロセッサ３１のための動作インストラクションは、固体メモリ４５に保存される。メモリデバイスはメモリ４５を実現するために使用され得る。
【００１２】
本発明の解析方法は、モデリングされている言語現象がベキにおいて文脈自由であるときでも、単一化ベースの文法を解析する標準的方法は指数関数的時間がかかるという事実を利用する。すなわち、言語現象が句構造のような単純な句構造規則を使用して表される場合には、句構造パーサーは文を解析するために長くてもｎ³オーダーの時間がかかり、（ここでｎは語数で表した文の長さである）このような場合でも同じ文をモデリングしている標準的な単一化ベースの特徴構造パーサーは２ⁿオーダーの時間がかかる。何故特徴構造を追加することによって解析時間が急激に長くなるのかを理解するためには、文脈自由文法はチャートを使用してｎ³オーダーの時間でどのように解析され得るのか、及び解析のために標準的な方法を使用した場合に特徴構造を追加することによってシステムの解析時間がどのように指数関数的に増えるのかを理解することが必要とされる。これら両方のトピックは以下に詳細に述べられる。
【００１３】
Ａ．チャートを使用した解析
チャートはパーサーによって既に構成された構成要素をキャッシュするための単純なデータ構造である。チャートを持つことの主な利点は、パーサーが異なる方法で文を解析しようとする際に既存の構成要素を再利用することができるということである（Sheil, Beau. (1976). "Observations on context-free parsing." In Satistical Method in Linguistics, 1976:71-109.)。文法が文脈自由ならばパーサーは構成要素がどのように構成されたかを知る必要はなく、構成可能であることを知っていればよい。例えば、第５語から第１０語までのＮＰ（名詞句）があるかどうか知りたい場合、ＮＰがＰＰ（前置詞句）を有するかどうかを知る必要はない。このため、長さｎの文を構成する異なる構成要素はＣｎ²のオーダーの個数しかない（ここで、Ｃは文法が許容する異なるカテゴリーの数である）。ｎ²はすべての可能な語の位置のクロスプロダクト（２つの集合からの要素の全てのペア）に由来する。基本的には、チャートは（カテゴリー、左位置、右位置）の３次元アレイであり、左位置で開始し右位置で終わる当該カテゴリータイプの構成要素があるかどうかを示す。文頭から開始して文末で終わるカテゴリーＳがある場合、文は句を有する。チャートを埋める一つの方法は、一語の構成要素から始めて次に二語構成要素全てを構成し、三語の構成要素を構成し、以後同様のことを繰り返すものであり、各レベルは先行レベルの結果に基づいて構成される。これは、ＣＫＹアルゴリズム（Younger, D. H. (1967). "Recognition and parsing of context-free languages in time n³" Information and Control, 10:189-208.)と称される。アルゴリズムがｎ²のオーダーではなくｎ³のオーダーである理由は、各構成要素は複数の方法で構成されるためである。最悪の場合でも、サイズがｎのオーダーである構成要素はｎのオーダーの数の異なる方法で構成され得る。ｎのオーダーの数の方法でｎ²のオーダーの個数の構成要素を構成するためにはそれぞれｎ³のオーダーの時間が必要となる。ＣＫＹアルゴリズムは、構成要素が特定の順序、昇順で構成されることを必要とする。チャートを構成するよりフレキシブルな方法は、処理されなかった構成要素のアジェンダを保つことである(Early. J. 1970). "An efficient context-free algorithm." Communications of the ACM, 13:94-102.)。構成要素はアジェンダから一度に一つずつ取り出されて以下のように処理される。各構成要素は結合できる構成要素があるかどうか左右を探す。結合する構成要素を検出するとチャートをチェックして結果として生ずる構成要素がすでにチャートにあるかどうかを見る。ない場合には構成要素はチャートに加えられてアジェンダに配置される。このプロセスはアジェンダが空になるまで続く。構成要素は任意の順序でアジェンダから取り出されることができるのでこのアジェンダによってより柔軟になる。この種のパーサーは "アクティブチャートパーサー" と称される。
【００１４】
上記に述べられたように、上記のアルゴリズムは文が解析可能かどうかを決定するだけであり、どれが有効な解析ツリーであるかを決定しない。しかし、この情報はこれらのアルゴリズムに対する単純な追加によって得ることができる。 "マザー" 構成要素と称される構成要素がサブ構成要素、即ち "ドーター”構成要素から構成される場合、構造は構成された構成要素のローカルサブツリーとして記録される。このようなサブツリーで注釈をつけられたチャートは "パースフォレスト”と称される。パーサーが行われる場合、特定のパースツリーは文全体に渡るＳ構成要素でスタートしランダムに一つのサブツリーを選択することによって読み出され得る。ドーター構成要素それぞれに対して一つのサブツリーがランダムに選択される。ツリーが完全に特定されるまでこのプロセスは続けられる。一般的に、完全に特定されたツリーは指数関数的に多く存在し得るが、完全に特定されたツリーはコンパクトな表示で保存されるため、これらのツリーに対するパースフォレストはｎ³のオーダーの時間で形成されることができる。
【００１５】
Ｂ．特徴構造を追加する構文解析の効果
多くの文法論理形式は特徴構造を文脈自由句構造規則のバックボーンに追加する。文法に基づいて、特徴構造は語彙機能文法（Kaplan and Bresnan 1982)の場合のように明示的であるかもしれないし、機能単一化文法(Kay 1979)の場合のように暗示的であるかもしれない。
【００１６】
特徴構造が明示的であるか暗示的であるかに関わらず、該特徴構造を解析する標準的な方法は、最初に文脈自由句構造チャートを構成し、次にチャートデータ構造上に第２パスを形成し、ボトムアップ特徴構造（Maxwell, John T. III, and Kaplan, Ronald M. (1993). "The interface between phrasal and functional constraints". Computational Linguistics, 19(3)を参照のこと）を形成することである。最初に、特徴構造は与えられた特徴制約に従って語彙アイテムからインスタンス生成される。語彙アイテムがどのような方法においても曖昧であるならば、複数の特徴構造が形成される。マザー構成要素の特徴構造は、ドーター構成要素に属する特徴構造のクロスプロダクトをとることによって構成される。後に少しでも矛盾のある組合せはフィルターにかけられる。結果的にこの点において矛盾のない特徴構造のセットが得られる。ドーター構成要素からマザー構成要素を形成する１つ以上の方法があるならば、全ての解析から形成された特徴構造のセットは単一化される。全ての構成要素の特徴構造が形成されるまでこのプロセスはボトムアップを続ける。
【００１７】
各レベルで起こるクロスプロダクトのためにこのプロセスは最悪の場合は指数関数的である。例えば、語彙アイテムがそれぞれ２通りの曖昧さを持つ場合は、句構造文法が明確であってもトップの構成要素に対して２ⁿオーダーの異なる特徴構造があることになる。
【００１８】
有限な値の特徴が使用される場合は、パーサーはｎ³のオーダーの時間で実行されることができる。これは有限数の特徴構造だけが可能であり、各レベルに対して、特徴構造を得た全ての方法を列挙せずに可能である方法のみを辿ればよいためである。可能な数の特徴構造の上限に到達すると各レベルの特徴構造の数は増えなくなる。全ての特徴値がバイナリ（２値）であるならば、最上位の構成要素は多くて２^kオーダーの異なる特徴構造を有することができ、ここでｋは異なる特徴構造の数である。従って、文の長さの指数関数は有限の特徴グラフのみを使用することによって文法定数の指数関数に変化する。非有限の特徴構造を解析するために要求される時間は、同じ方法で短縮されることができない。
【００１９】
本発明の解析方法
Ａ．論理和的レイジーコピーリンク及び特徴構造
単一化ベースの文法を解析する本発明の方法は、論理和的レイジーコピーリンクを導入することによって、文脈自由ストリングを解析するために要求される時間を短縮する。この新しいタイプのレイジーコピーリンクによって、特徴構造は切り捨てられたように処理されるが必要ならば切り捨てられた情報が関連する場合には拡張される。
【００２０】
標準的なレイジーコピーリンクを知ることは論理和的レイジーコピーリンクの以下の説明の助けとなる。標準的なレイジーコピーリンクは、単一化ベースのチャートパーサーが要求するコピーの量を減らす典型的な方法である（Godden, K.(1990). "Lazy unification." In Proceedings of the 28th Annual Meeting of the ACL, pages 180-187.) 。ドーター構成要素からの特徴構造が単一化される際は特徴構造はクロストークを防ぐために必ずコピーされなければならない。これは、ドーター特徴構造は文の他解析で使用され得るためである。しかし、特徴構造をコピーすることは非常に高価である。従って、１９９０年にゴッデン（Godden）は特徴構造のレイジーコピーを提案した。レイジーコピーでは、最初に各特徴構造の最上レベルのみがコピーされる。標準的なレイジーコピーリンクは、コピーされたもののフリンジにおいてまだコピーされていない材料を戻り指示する。次にコピーされた特徴構造は単一化される。標準的なレイジーコピーリンクが単一化の最中に行われない場合、特徴は結合されず単一化は停止され得る。恐らく結果として生ずる特徴構造は、幾つかはあるドーターを指示し幾つかは別のドーターを指示するような、混合したレイジーコピーリンクを有することになる。
【００２１】
図２は、先に説明したような状態を視覚的に例示する。特徴構造６０はドーター特徴構造６２及び６４の単一化によって得られる。特徴構造６０は完全に特定されず、標準的なレイジーコピーリンク６６及び６８を介して二つの属性値を表している。レイジーコピーリンク６６はドーター特徴構造６２内の情報を指示し、レイジーコピーリンク６８はドーター特徴構造６４に含まれる情報を指示する。
【００２２】
コピーされなかった材料がシスター構成要素内の対応する材料と単一化できない可能性があるために、レイジーコピーリングが単一化中に行われる場合、該レイジーコピーリンクは拡張されなければならない。レイジーコピーリンクは、下位の特徴構造の特徴を１レベル上にコピーすることによって拡張され、レイジーコピーリンクの新しいセットはコピーされる材料を指示している。単一化は続けられ、より多くのレイジーコピーリンクが拡張のために要求される可能性を有する。
【００２３】
標準的なレイジーコピーリンクと論理和的レイジーコピーリンクの主な違いは、論理和的レイジーコピーリンクはそれぞれ特徴値の代替的な拡張を表すということである。標準的なレイジーコピーリンクと同様に、単一化中に論理和的レイジーコピーリンクはレイジーコピーされた関連する特徴構造の拡張をトリガする。標準的なレイジーコピーリンクとは異なって、２つ以上の論理和的レイジーコピーリンクは拡張をトリガせずに同じ属性に結合され得る。また、拡張された特徴構造はレイジーコピーリンクを含む。
【００２４】
論理和的レイジーコピーリンクを使用した結果、チャートの各構成要素又はエッジは２つのタイプの特徴構造、即ち、論理積的特徴構造及び論理和的特徴構造を含む。論理積的特徴構造はドーター特徴構造を単一化することによって得られる。論理積的特徴構造は下位から上位に材料をコピーすることを避けるために標準的な方法でレイジーコピーリンクを使用する。対照的に、論理和的特徴構造はあるポイントまで同じものである論理積的特徴構造をマージすることによって得られる。論理和的特徴構造は論理和的レイジーコピーリンクを使用して切り捨てられた特徴構造の代替的な拡張を表す。論理和的特徴構造は構成要素の消費者に輸出されるため、これらの論理和的特徴構造は "外部的”とも称され、一方論理積的特徴構造は通常は輸出されないため "内部的”とも称される。
【００２５】
図３は、構成要素７０に関連する論理積的特徴構造及び論理和的特徴構造を例示する。特徴構造７２、７４、７６及び７８は論理積的である。論理和的特徴構造８０は切り捨てられ空である。論理和的特徴構造８０によって表される代替値は論理和的コピーリンク８２、８４、８６又は８８で示される。点線は論理和的コピーリンク８２、８４、８６及び８８と実線で表される図２の論理積的コピーリンクを区別している。演算上では、二つのタイプのリンクは関連するエッジとのリンクに基づいて区別される。
【００２６】
チャートの論理積的特徴構造及び論理和的特徴構造は、特徴構造のand-orツリーを形成する：論理積的特徴構造は該論理積的特徴構造が単一化する論理和的ドーター特徴構造を指示し、論理和的特徴は部分的又は切り捨てられたコピーである代替的論理積的特徴構造を指示する。このand-or構造はチャートのand-or構造を鏡映し、構成要素は代替的なサブツリー解析を有し、サブツリーは構成要素の論理積である。
【００２７】
残りの説明では、エッジ、レイジーコピーリンク及び特徴構造は図２及び３のように視覚的に表される。しかし、演算上ではこれらのエンティティーはデータ構造として表される。各エッジデータ構造は以下のリスティングを含む：
１．エッジに関連する論理和的特徴構造へのポインタ
２．ドーターエッジを指示するサブツリーへのポインタ及び
３．マザーエッジへのポインタ
【００２８】
各論理和的特徴構造のデータ構造は以下のリスティングを含む：
１．論理和的特徴構造が関連するエッジへのポインタ
２．論理和的特徴構造が論理積的特徴構造の切り捨てられたバージョンを表すその論理積的特徴構造へのポインタ
３．論理和的特徴構造に含まれるレイジーコピーリンクを含む論理和的特徴構造の内容
【００２９】
各論理積的特徴構造のデータ構造は以下のリスティングを含む：
１．論理積的特徴構造が関連するエッジへのポインタ
２．論理積的特徴構造の値の属性及び仕様を可能な程度含む。即ち、属性値は完全に特定されず、他の特徴構造へのレイジーコピーリンクを使用して切り捨てられた情報が指示され、論理積的特徴構造に埋め込まれた任意のレイジーコピーリンクを含む。
３．組合せのためのサブツリーへのポインタ
【００３０】
各特徴構造は "チャートの上に”あるか又は "アジェンダの上に”あることが好ましい。即ち、エッジが特定の特徴構造へのポインタを含むならば、その特徴構造はアジェンダの上になく、逆に特徴構造がアジェンダに含まれる場合はエッジデータ構造はその特徴構造へのポインタを含まない。しかしながら、本発明の方法の動作をより良く例示するために、以下の図面のチャートの視覚的表示は実際にアジェンダの上にある特徴構造を含み得る。
【００３１】
Ｂ．レイジーＤＮＦ単一化方法
簡単に説明すると、レイジーＤＮＦ単一化は論理和的レイジーコピーリンクを使用して切り捨てられたように特徴構造を処理することを含む。レイジーコピーリンクが二つのシスター構成要素の単一化によって起動させられた場合、コンピュータシステム３０は起動されたレイジーコピーリンクによって指示したシスター特徴構造の一つの仕様のレベルを拡張する。論理和的特徴構造を拡張することによって、コンピュータシステム３０は複数の代替的特徴構造を生成する。代替的特徴構造を生成した場合、コンピュータシステム３０は代替的特徴構造を試験して複数の特徴構造を各々が代替値を指示する複数の論理和的レイジーコピーリンクを有する一つの特徴構造に置き換えることによって、この代替的特徴構造の数を減らすことができるかどうか決定する。複数の特徴構造が同じ属性及び値を有するならば、コンピュータシステム３０はこれらをマージして埋め込まれた論理和的レイジーコピーリンクを有する単一の論理和的特徴構造を生成する。二つの属性の値がレイジーコピーリンクによって示される場合はこの二つの属性は同じ値を有するものとして処理されるため、不必要な情報を上位にコピーすることを防ぐ。コンピュータシステム３０は二つのドーター特徴構造を一回に一つの属性ずつ単一化することを再開する。二つの属性の単一化によって一つ以上のレイジーコピーリンクが起動されるときはコンピュータシステム３０は必ず起動したレイジーコピーリンクのうちの一つによって指示された一つの特徴構造を拡張する。拡張、マージング及び単一化のプロセスは、マザー特徴構造が起動したレイジーコピーリンクを含まなくなるまで続く。従って、切り捨てられた情報が関連する場合のみに特徴構造は拡張されるため、それが起こるときは必ず文脈自由性を利用して単一化のプロセスに関連しない情報を繰り返しコピーすることを避ける。
【００３２】
１．チャート初期化
チャートの特徴構造を単一化し始める前に、チャートは空の特徴構造で初期化されなければならない。図４はチャートを初期化するためのインストラクション９０を形成するフローチャートを例示する。インストラクション９０は固体メモリ４５又はフロッピーディスクドライブ４２内に配置されるフロッピーディスクにマシーン可読形式で保存される。インストラクション９０はProlog、LISP及び C++を含むコンピュータで実現され得る。
【００３３】
プロセッサ３１はステップ９２でインストラクション９０の実行を開始する。ステップ９２の最中にプロセッサ３１は特徴構造をチャートの語彙エントリーに割り当てる。これらはチャートの最低エッジに対する論理積的且つ内部的特徴構造である。この処理が行われてプロセッサ３１はステップ９４へ進む。ステップ９４の最中にプロセッサ３１は、空の論理和的特徴構造の各語彙エッジに関連する。空の特徴構造はエッジへのポインタによってエッジに関連するが、空の特徴構造はまだチャートに加えられない。続いてステップ９６中にプロセッサ３１は空の特徴構造からの離散接的レイジーコピーリンクを代替的論理積的特徴構造に加える。プロセッサ３１はステップ９６を出てステップ９８に進む。プロセッサ３１はステップ９４中に生成された全ての空の特徴構造をステップ９８でアジェンダの上に配置する。プロセッサ３１はチャートのレイジーＤＮＦ単一化を開始する準備ができている。
【００３４】
２．単一化
図５及び６はレイジーＤＮＦ単一化を実行するためのインストラクション１００のフローチャートを例示する。インストラクション１００はマシーン可読形式で固体メモリ４５又はフロッピーディスク４３のようなマシーン可読媒体に保存される。簡単に述べると、インストラクション１００はプロセッサ３１に指示してシスターエッジの特徴構造を有するアジェンダから選択された特徴構造を単一化させる。プロセッサ３１が単一化中にレイジーコピーリンクを検出すると外部特徴構造の拡張が必ずトリガされる。全ての特徴構造がアジェンダから移動されるまでプロセッサ３１はインストラクション１００を実行し続ける。インストラクション１００は、Prolog、LISP及び C++を含むコンピュータ言語で実現され得る。
【００３５】
チャートが初期化された後、プロセッサ３１はインストラクション１００を実行し始める。プロセッサ３１は最初にステップ１０２で実行されるべき単一化があるかどうか決定する。プロセッサ３１はアジェンダを調べることによってこれを決定する。アジェンダが空であるならば、更なる単一化は実行される必要はない。一方アジェンダが空でない場合は少くとも１つの単一化が実行される。この状態に応答してプロセッサ３１はステップ１０２を出てステップ１０４へ進む。
【００３６】
プロセッサ３１はステップ１０４で次の特徴構造をアジェンダのトップから取り出す。この特徴構造を "選択された特徴構造”と呼ぶことにする。特徴構造を選択するとプロセッサ３１はステップ１０４を出てステップ１０６へ進む。
【００３７】
ステップ１０６でプロセッサ３１は選択された特徴構造に関連するエッジは選択された特徴構造と互換性を持つ別の特徴構造を含むかどうかを決定する。別の特徴構造を有する場合、２つの特徴構造はステップ１０８でマージされる。一方、選択された特徴構造に関連するエッジはこの選択された特徴構造に関連する別の特徴構造を有さない場合、プロセッサ３１はステップ１１０に分岐する。この時点で、プロセッサ３１は特徴構造を選択されたエッジに追加する。これが実行されると、プロセッサ３１はステップ１１２へ進む。
【００３８】
ステップで１１２でプロセッサ３１は選択された特徴構造を用いて単一化される特徴構造を識別し始める。プロセッサ３１は選択されたエッジのシスターエッジを選択することによってこの処理を始める。本明細書中で使用されるように、２つのエッジが同じマザーエッジのドーターである場合これらのエッジはシスターである。例えば、図７を参照すると、エッジ１３２は２つのシスター、即ちエッジ１３０及び１３４を有する。エッジ１３２は各シスターエッジと異なるマザーを共有する。言い換えれば、エッジ１３２は２つのマザー、即ちエッジ１３６及び１３８を有する。エッジ１３２及び１３０はエッジ１３６のドーターであり、一方エッジ１３２及び１３４はエッジ１３８のドーターである。シスターエッジを選択すると、プロセッサ３１はステップ１１２からステップ１１４へ進む。
【００３９】
プロセッサ３１はステップ１１４で関連する特徴構造の選択されたシスターエッジをサーチする。選択されたシスターエッジが選択されたシスターエッジにリンクする論理和的特徴構造をまだ持たない場合、２つのエッジに関する単一化は延期される。これに応答してプロセッサ３１はステップ１１４を出てステップ１２８に分岐し他の単一化が行われ得る機会があるかどうかを判断する。一方選択されたシスターエッジが論理和的特徴構造を含む場合、プロセッサ３１はステップ１１４からステップ１１６へ進む。
【００４０】
ステップ１１６でプロセッサ３１は選択されたシスターエッジに関連する論理和的特徴構造のうちの１つを選択する。その後プロセッサ３１はステップ１１８へ進む。
【００４１】
プロセッサ３１はステップ１１８で選択された特徴構造と選択されたシスターの特徴構造とを単一化する。これは、両方のドーターへ戻る論理積的レイジーコピーリンクによって空のマザー特徴構造を形成することから始まる再帰的プロセスである。これらのレイジーコピーリンクは互いに相互作用する、即ち、単一化を停止し、単一化によって起動されたレイジーリンクの一つによって指示された特徴構造の一つの拡張をトリガする。ドーター特徴構造が空である場合起動された特徴構造はドーター特徴構造であるが、ドーター特徴構造が空でない場合は起動された特徴構造はドーター特徴構造のサブ部分であり得る。プロセッサ３１は、再帰的サブルーチンをコールすることによって起動された特徴構造を拡張し、この再帰的サブルーチンは図８及び９を参照して以下により詳細に述べられる。起動された特徴構造を拡張した後、プロセッサ３１は二つの特徴構造の単一化を再開する。プロセッサ３１は上位のマザー特徴構造に拡張された特徴構造の属性を一度に一つの属性ずつコピーし、属性値はレイジーリンクによって元の属性値を示す。次に、他のドーター特徴構造の属性は一度に一つの属性及びレイジーリンクずつ上位のマザー特徴構造にコピーされてマッチする属性を単一化する。レイジーコピーリンクがこのプロセスによって起動させられる場合は、単一化は必ず停止し、起動されたレイジーリンクのうちの一つのターゲット特徴構造は拡張される。単一化し、起動されたレイジーコピーリンクを検出し、必要に応じてターゲット特徴構造を拡張し、単一化を再開するこのプロセスは、起動されたレイジーコピーリンクを含まないマザー特徴構造のバージョンが生成されるまで続く。この時点でプロセッサ１１８はステップ１１８を出てステップ１２２へ進む。
【００４２】
プロセッサ３１はステップ１１８で生成されたマザー特徴構造をステップ１２２でアジェンダに追加する。その後プロセッサ３１はステップ１２６へ進む。
【００４３】
ステップ１２６でプロセッサ３１は選択されたシスターエッジが選択された特徴構造と単一化される他の特徴構造を含むかどうかを決定する。他の特徴構造を含む場合、プロセッサ３１はステップ１２６を出てステップ１１６に戻りそのタスクを開始する。プロセッサ３１は、選択された特徴構造が選択されたシスターエッジにリンクする全ての特徴構造と単一化するまで先に述べられたようにステップ１１６から１２６をループする。これが行われると、プロセッサ３１はステップ１２６からステップ１２８へ進む。
【００４４】
ステップ１２８でプロセッサ３１は、選択された特徴構造の全てのシスターエッジを処理したかどうか決定する。処理していなければ、プロセッサ３１は他の単一化を実行する必要がある。この状態に応答して、プロセッサ３１はステップ１１２に戻ってそのプロセスを開始する。一方、全てのシスターエッジが処理されるとプロセッサ３１は該プロセッサが現在処理できる全ての特徴構造と選択された特徴構造とを単一化したことになる。この状態でプロセッサ３１はステップ１２８から分岐してステップ１０２へ進む。プロセッサ３１がステップ１０２でアジェンダは空でないことを検出すると、該プロセッサは全ての特徴構造がアジェンダから取り出されるまで分岐してステップ１０２から１０８をループする。この処理が行われると、プロセッサ３１はステップ１０２から分岐してステップ１３０へ進み単一化が完了する。
【００４５】
３．レイジー特徴構造拡張
図８及び９は選択された特徴構造の起動された特徴構造を再帰的に拡張するインストラクション１５８を形成するフローチャートを例示する。インストラクション１５８はマシーン可読形式で固体メモリ４５に保存されるか又はフロッピーディスク４３のようなマシーン可読媒体に保存される。簡単に述べると、Ｎ個の論理和的レイジーコピーリンクを用いて起動された特徴構造を拡張することは、選択された特徴構造のコピーを（Ｎ−１）個形成することから始まる。本明細書中で使用されるように、コピーは選択された特徴構造と同一だが、起動された特徴構造の起動されたレイジーコピーリンクのうちの一つだけを含む。各コピーが形成されるとコピーされたレイジーコピーリンクは元の選択された特徴構造から除去される。選択された特徴構造の（Ｎ−１）個のコピーは、それぞれアジェンダに追加され、後にシスターエッジの特徴構造と単一化される。その後、選択された特徴構造内に唯一残る起動されたレイジーコピーリンクは、該コピーリンクが指示する特徴構造、即ちターゲット特徴構造に続く。必要ならターゲット特徴構造は拡張されて元の選択された特徴構造内の起動された特徴構造にコピーされる。マッチする属性値は必要に応じて単一化される。
【００４６】
インストラクション１５８の実行はステップ１６０から始まる。プロセッサ３１は、選択された元の特徴構造内の起動された特徴構造に関連する全てのレイジーコピーリンクが起動されなくなったかどうかを決定することによって、ステップ１６０で起動された特徴構造の拡張が完了したかどうか決定する。該レイジーコピーリンクが起動されなくなるまでプロセッサ３１はステップ１６０から分岐してステップ１６２へ進む。
【００４７】
プロセッサ３１はステップ１６２で、選択され起動された構造のコピーが形成される必要があるかどうかを決定する。起動された特徴構造が一つ以上の論理和的レイジーコピーリンクを含む場合、プロセッサ３１は選択された特徴構造のコピーを形成する。起動された特徴構造が論理和的である場合、プロセッサ３１はステップ１６２で分岐してステップ１６４へ進みコピーを形成するプロセスを開始する。プロセッサ３１は選択された元の特徴構造内の起動された特徴構造に関連する起動されたレイジーコピーのうちの一つを選択し、起動された特徴構造及び該起動された特徴構造に関連するレイジーコピーリンクから選択されたレイジーコピーリンクのみを含む選択された特徴構造のコピーを形成する。次に選択されたレイジーコピーリンクは選択された元の特徴構造内の起動された特徴構造から除去されるため、ステップ１６６で選択されたレイジーコピーリンクは起動されなくなる。プロセッサ３１はステップ１６６からステップ１６８へ進む。
【００４８】
ステップ１６８でプロセッサ３１は、レイジー特徴構造拡張サブルーチン１５８を再帰的にコールすることによって形成された選択された特徴構造のコピーを拡張する。選択された特徴構造のコピー内の起動された特徴構造は一つのレイジーコピーリンクしか含まないため、一つのドーター特徴構造に関連する属性はその特徴構造にコピーされる。その後プロセッサ３１はステップ１７０に進み選択された特徴構造の拡張されたコピーをアジェンダに追加する。
【００４９】
選択された元の特徴構造内の起動された特徴構造が一つの論理和的レイジーコピーリンクのみを含むか又は論理積的レイジーコピーリンクのみを含むまで、プロセッサ３１はインストラクション１６２、１６４、１６６、１６８、及び１７０を繰り返して実行する。これらの処理が終わると、プロセッサ３１はステップ１６２から分岐してステップ１７２まで進む。ステップ１７２でプロセッサ３１は、選択された元の特徴構造内の起動された特徴構造に関連する全てのレイジーコピーリンクが起動しなくなったかどうかを決定する。起動している場合、プロセッサ３１はステップ１７２で分岐してステップ１７４へ進む。
【００５０】
ステップ１７４でプロセッサ３１は、残っているレイジーコピーリンクによって指示された特徴構造からの関連情報を該特徴構造に追加することによって、選択された元の特徴構造内の起動された特徴構造を拡張し始める。これらの特徴構造を "ターゲット特徴構造”と呼ぶことにする。最初にステップ１７４でプロセッサ３１は残っている起動されたレイジーコピーリンクのうちの一つを選択されたレイジーコピーリンクとして指定し、選択されたターゲット特徴構造も指定する。次にステップ１７６でプロセッサ３１は選択されたターゲット特徴構造がレイジーコピーリンクを含むかどうかを検出する。レイジーコピーリンクを含む場合、選択されたターゲット特徴構造は起動される。プロセッサ３１はこの検出に応答してステップ１７６からステップ１７８へ進む。プロセッサ３１はインストラクション１５８をコールすることによって選択されたターゲット特徴構造を拡張する。選択されたターゲット特徴構造の拡張によって一つ以上の特徴構造が得られる。この場合、これらの特徴構造のうちの一つを除くすべてはアジェンダに配置されて後で処理される。ターゲット特徴構造が適切に特定されるとプロセッサ３１はステップ１７８又はステップ１７６のいずれかからステップ１８０へ進む。
【００５１】
ステップ１８０でプロセッサ３１は、ターゲット特徴構造の拡張から生じた特徴構造のうちの一つからの関連情報を一度に一つの属性ずつ選択された元の特徴構造にコピーする。コピーされた各属性は、属性値としてターゲット特徴構造内の属性値に戻るレイジーコピーリンクを有する。ターゲット特徴構造からの属性が選択された元の特徴構造内の起動された特徴構造の属性値にマッチする場合、属性値は単一化される。この単一化によって一つ以上のレイジーコピーリンクが起動するならば、プロセッサ３１はインストラクション１５８をコールすることによって新しく起動された特徴構造を拡張する。しかし、起動された特徴構造にコピーされた属性が得られた属性とマッチしない場合は、その属性はターゲット特徴構造の属性値に戻るレイジーコピーリンクによって起動された特徴構造に追加される。これが行われるとプロセッサ３１はステップ１８０を出てステップ１８２へ進む。
【００５２】
ステップ１８２でプロセッサ３１は、選択された元の特徴構造内の起動された特徴構造から選択されたレイジーコピーリンクを除去することによって、該レイジーコピーリンクの起動を停止させる。その後プロセッサ３１はステップ１６０に戻って起動された特徴構造の拡張が完了しかたどうかを決定する。起動された特徴構造の拡張が完了すると、プロセッサ３１はステップ１９０へ進みインストラクション１５８をコールしたルーチンにコントロールをリターンする。
【００５３】
Ｃ．レイジーＤＮＦ単一化の例
図１０〜１６はレイジーＤＮＦ単一化がどのように動作するかを例示する。レイジーＤＮＦ単一化は図１０から始まり、二つの構成要素２００及び２０２の特徴構造２０１及び２０３が結合される。構成要素２００及び２０２はそれぞれ複数の代替的論理積的特徴構造を含む。論理積的特徴構造２１０、２１２、２１４及び２１６は特徴構造２０１に対する選択肢である一方、論理積的特徴構造２２０、２２２、２２４及び２２６は特徴構造２０３に対する選択肢である。特徴構造２１０、２１２、２１４、２１６、２２０、２２２、２２４及び２２６は語彙及び／又は句の曖昧さによって生成され得る。空の論理和的特徴構造は、論理積的特徴構造への論理和的レイジーコピーリンク（論理和的レイジーコピーリンクは点線で示される）によって各構成要素に対して割り当てられる。図１０はすべてが切り捨てられた状態を表しており、論理積的特徴構造はすべて等しい。マザー構成要素２０５では論理和的特徴構造２０１及び２０３は標準的なレイジーコピーを使用して単一化される。これによって相互作用するレイジーコピーリンク２０７及び２０８によって特徴構造２０６が生成される。二つの相互作用するレイジーコピーリンクは特徴構造２０６の拡張をトリガし、これはドーター特徴構造２０１及び２０３の拡張を必要とする。
【００５４】
図１１では論理和的特徴構造２０１及び２０３が拡張されて、ドーターエッジ２００に対して四つの部分的コピー２４０、２４２、２４４及び２４６を生成し、ドーターエッジ２０２に対して四つの部分的コピー２５０、２５２、２５４及び２５６を生成する。部分的なコピーはそれぞれ元の値を戻り指示する属性下のレイジーコピーリンクを有する。レイジーコピーリンクを除けば、部分的コピーの多くは同一であることに注目されたい。
【００５５】
図１２では同一の部分的コピーがマージされている。これによって構成要素２００に対して一つの論理和的特徴構造２４８を生成し、構成要素２０２に対して二つの論理和的特徴構造２５８及び２５９が生成される。また、レイジーコピーリンクはマージされ、点線で示される論理和的レイジーコピーリンクを生成する。このマージによる特徴構造の減少によって、構成要素２００及び２０２を含む後続の単一化の速度が上昇する。
【００５６】
図１３は、構成要素２００及び２０２に対する拡張された特徴構造を与えられた特徴構造２６０の部分的な拡張を例示する。構成要素２００及び２０２の単一化は、ドーター２００及び２０２の特徴構造のクロスプロダクトをとることから始まる。これによって最初に各属性値を表すレイジーコピーリンクを有する属性Ａ、Ｂ及びＣを有する特徴構造２６０が得られる。二つの論理積的レイジーコピーリンクは特徴構造２６０における属性Ａの値を表すため、属性Ａの値は拡張されなければならない。しかし、関連するレイジーコピーは離接値をポイントするため、離接値が最初に拡張されなければならない。
【００５７】
図１４は特徴構造２４８及び２５８の属性Ａの拡張を例示する。拡張によって構成要素２００に対して四つの新しい部分的なコピーが生成され、構成要素２０２に対して二つの部分的コピーが生成される。構成要素２００に関連する四つの部分的コピーは二つの特徴構造２７０及び２７２にマージされる。特徴構造２７０は三つの特徴構造を表し、該特徴構造の属性Ａの値は＋であり、特徴構造２７２はＡ＝−である特徴構造を表す。構成要素２０２の二つの部分的コピーは、マージされて特徴構造２８０を形成する。構成要素２００及び２０２を表現するために使用される特徴構造の数が減ることによって、文脈自由の場合の処理時間が短縮される。これらの拡張され、切り捨てられたドーター特徴構造を用いて、クロスプロダクト単一化は特徴構造２７０及び２８０を単一化することによって再開する。これによって特徴構造３００が生成され、この特徴構造はレイジーコピーリンク間の相互作用を示さない。特徴構造２７０と２５９の単一化によって特徴構造３０２が生成され、この特徴構造３０２では属性Ａの値に関連するレイジーコピーリンク間に相互作用がある。従って、特徴構造３０２の属性Ａは拡張されなければならない。
【００５８】
図１５は結果として生ずる拡張及び単一化を例示する。特徴構造２５９の拡張によって特徴構造２８２が生成された。特徴構造２８２と特徴構造２７０を単一化することによって特徴構造３０４を得た。特徴構造３０４の属性は特徴構造３００の属性と異なるため、二つの特徴構造はマージされることができない。構成要素２００及び２０２に関連する特徴構造の単一化が再開される。
【００５９】
構成要素２００及び２０２の単一化は、特徴構造２７２と特徴構造２８０及び２８２のクロスプロダクトをとることによって再開される。図１６はこれらの単一化を完了した後の状態を例示しており、属性Ａの値が不一致であるため失敗した状態である。これは一緒にマージされることができない二つの有効な特徴構造を残している。これら二つの代替的特徴構造を表現するために、空の特徴構造３１０は特徴構造３００及び３０４へのレイジーコピーリンクを伴って形成される。後に特徴構造３００又は３０４のレイジーコピーリンクとの相互作用が検出されるまでに構成要素２００と２０２の単一化は完了している。先に述べたように相互作用に関連する属性値のみが拡張される。相互作用が起こるまで情報のコピーを遅らせることによって、この解析方法は各構成要素を表すために必要な特徴構造の数を減らし、文脈自由性を利用して可能な限りｎ³オーダーの時間を減らす。この実施の形態では本発明の方法が使用されないとすると、二つではなく十二の特徴構造が生成されることになる。
【図面の簡単な説明】
【図１】論理和的レイジコピーリンクを使用して単一化ベースの文法を解析するためのコンピュータシステムを例示する。
【図２】単一化ベースの文法における自然言語ストリングのチャートを例示する。
【図３】単一化ベースの文法及び論理和的レイジーコピーリンクを使用した自然言語ストリングのチャートを例示する。
【図４】チャートを初期化する方法のフローチャートである。
【図５】文脈自由性を利用した論理和的レイジーコピーリンクを使用して特徴構造を単一化する方法のフローチャートである。
【図６】文脈自由性を利用した論理和的レイジーコピーリンクを使用して特徴構造を単一化する方法のフローチャートである。
【図７】例示的なチャートを例示する。
【図８】論理積的レイジーコピーリンク及び論理和的レイジーコピーリンクを含んだ特徴構造を再帰的に拡張する方法のフローチャートを例示する。
【図９】論理積的レイジーコピーリンク及び論理和的レイジーコピーリンクを含んだ特徴構造を再帰的に拡張する方法のフローチャートを例示する。
【図１０】二つのシスター構成要素を単一化するチャートの第１段階を例示する。
【図１１】二つのシスター構成要素を単一化するチャートの第２段階を例示する。
【図１２】二つのシスター構成要素を単一化するチャートの第３段階を例示する。
【図１３】二つのシスター構成要素を単一化するチャートの第４段階を例示する。
【図１４】二つのシスター構成要素を単一化するチャートの第５段階を例示する。
【図１５】二つのシスター構成要素を単一化するチャートの第６段階を例示する。
【図１６】二つのシスター構成要素を単一化するチャートの第７段階を例示する。
【符号の説明】
３０コンピュータシステム
４５固体メモリ
６０、６２、６４、７２、７４、７６、７８、８０、１３０、１３２、１３４、１３６、１３８、２１０、２１２、２１４、２１６、２２０、２２２、２２４、２２６、２４８、２５８、２５９、２６０、３００、３０２、３０４
特徴構造
８２、８４、８６、８８、１３９、２０７、２０８レイジーコピーリンク
１００インストラクション

Claims

論理和的レイジーコピーリンクを含む単一化ベースの文法を使用して言語ストリングを解析する方法であって、この方法は、（１）前記方法を実施するパーサーのインストラクションおよび（２）データ構造を保存するメモリに接続するプロセッサによって実行され、
該データ構造は、前記言語ストリングの語から構成される構成要素と、
属性を特定する特徴構造および前記構成要素に関連する値と、
を示し、
ａ）第１構成要素データ構造に関連する第１論理和的特徴構造データ構造と第２構成要素データ構造に関連する第２論理和的特徴構造データ構造を単一化して第３構成要素データ構造に関連する第３特徴構造データ構造を生成するステップを有し、前記第１論理和的特徴構造データ構造は少なくとも二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは代替的論理積的特徴構造データ構造を指示し、前記第３特徴構造データ構造は完全に特定される代わりに第１論理和的特徴構造データ構造への第１レイジーコピーリンクを有し、
ｂ）単一化によって第１レイジーコピーリンクが起動される場合、第１論理和的特徴構造データ構造の仕様を拡張して第１の複数の代替的特徴構造データ構造を生成するステップを有し、第１の複数の代替的特徴構造データ構造は第１論理和的特徴構造データ構造よりもさらに特定されて少なくとも一つの属性を有し、各属性は値を有し、
ｃ）可能な場合には、同一の属性の第１セットを有する第１の複数の代替的特徴構造データ構造をマージして第１の最小の第１論理和的特徴構造データ構造のうちの一つを形成することによって第１の複数の代替的特徴構造データ構造を第１の最小の第１論理和的特徴構造データ構造に減らすステップを有し、第１の最小の第１論理和的特徴データ構造のうちの一つは同一の属性の第１セットを有し、代替的論理積的特徴データ構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、
ｄ）第１の最小の第１論理和的徴構造データ構造と、第１論理和的特徴構造データ構造と同様に処理される第２論理和的特徴構造データ構造と、を単一化して第３特徴構造データ構造の仕様レベルを増加させるステップを有し、前記第３特徴構造データ構造は第１の最小の第１論理和的特徴構造データ構造の値への少なくとも一つのレイジーコピーリンクを含む、
言語ストリング解析方法。
ｅ）第３特徴構造データ構造から第１の最小の第１論理和的特徴構造データ構造へのレイジーコピーリンクのうちの一つが起動される場合、
１）レイジーコピーリンクの一つによって指示された第１の最小の第１論理和的特徴構造データ構造の一つを第２の複数の代替的特徴構造データ構造に拡張するステップを有し、
２）可能な場合には、同一の属性の第２セットを有する第２の複数の代替的特徴構造データ構造をマージして第２の最小の第１論理和的特徴構造データ構造のうちの一つを形成することによって、第２の複数の代替的特徴構造データ構造を第２の最小の第１論理和的特徴構造データ構造に減らすステップを有し、第２の最小の第１論理和的特徴構造データ構造の一つは同一の属性の第２セットを有し、第２の複数の第１代替的特徴構造データ構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、
３）第２の最小の第１論理和的特徴構造データ構造と第２論理和的特徴構造データ構造を単一化して第３特徴構造データ構造の仕様レベルを増加させるステップを有し、前記第３特徴構造データ構造は第２の最小の第１論理和的特徴構造データ構造の値へのレイジーコピーリンクを有し、
４）第３特徴構造データ構造から第２の最小の第１論理和的特徴構造データ構造の一つへのレイジーコピーリンクの一つが起動される場合、第３特徴構造データ構造が非起動レイジーコピーリンクのみを含むようになるまでステップｅ１）〜ｅ３）を繰り返すステップを有する、
請求項１に記載の言語ストリング解析方法。
論理和的レイジーコピーリンクを含む単一化ベースの文法を使用し文脈自由性を利用して自然言語ストリングを解析するシステムであって、
ａ）データ構造を記憶するメモリを有し、
該データ構造は、
前記言語ストリングの語から構成される構成要素と、
属性を特定する特徴構造および前記構成要素に関連する値と、
を示し、
ｂ）前記自然言語ストリングを解析するために前記メモリに記憶されているインストラクションを実行するプロセッサを有し、
該解析は、
１）第１構成要素データ構造に関連する第１論理和的特徴構造データ構造と第２構成要素データ構造に関連する第２論理和的特徴構造データ構造を単一化して第３構成要素データ構造に関連する第３特徴構造データ構造を生成するステップを有し、前記第１論理和的特徴構造データ構造は少なくとも二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは代替的論理積的特徴構造データ構造を指示し、前記第３特徴構造データ構造は完全に特定される代わりに第１論理和的特徴構造データ構造への第１レイジーコピーリンクを有し、
２）単一化によって第１レイジーコピーリンクが起動される場合、第１論理和的特徴構造データ構造の仕様を拡張して第１の複数の代替的特徴構造データ構造を生成するステップを有し、第１の複数の代替的特徴構造データ構造は第１論理和的特徴構造データ構造よりもさらに特定されて少なくとも一つの属性を有し、各属性は値を有し、
３）可能な場合には、同一の属性の第１セットを有する第１の複数の代替的特徴構造データ構造をマージして第１の最小の論理和的特徴構造データ構造のうちの一つを形成することによって第１の複数の代替的特徴構造データ構造を第１の最小の第１論理和的特徴構造データ構造に減らすステップを有し、第１の最小の第１論理和的特徴構造データ構造のうちの一つは同一の属性の第１セットを有し、代替的論理積的特徴構造データ構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、
４）第１の最小の第１論理和的特徴構造データ構造と、第１論理和的特徴構造データ構造と同様に処理される第２論理和的特徴構造データ構造と、を単一化して第３特徴構造データ構造の仕様レベルを増加させるステップを有し、前記第３特徴構造データ構造は第１の最小の第１論理和的特徴構造データ構造の値への少なくとも一つのレイジーコピーリンクを含む、
システム。