JP4311772B2 - 言語ストリング解析方法および言語ストリング解析システム - Google Patents
言語ストリング解析方法および言語ストリング解析システム Download PDFInfo
- Publication number
- JP4311772B2 JP4311772B2 JP32673496A JP32673496A JP4311772B2 JP 4311772 B2 JP4311772 B2 JP 4311772B2 JP 32673496 A JP32673496 A JP 32673496A JP 32673496 A JP32673496 A JP 32673496A JP 4311772 B2 JP4311772 B2 JP 4311772B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature structure
- logical
- data structure
- structure data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は言語ストリングを解析する方法に関する。更に詳細には、本発明は論理和的レイジーコピーリンクを伴った特徴構造及び単一化ベースの文法を使用して言語ストリングを解析する方法に関する。
【0002】
【従来の技術】
多くの現代文法論理形式は自然言語の言葉の句構造を記述するために再帰的特徴構造を使用する。例えば、語彙機能文法(Kaplan, Ronald M., and Bresnan, Joan. (1982). "Lexical Functional Grammar:A formal system for grammatical representation." In Joan Bresnan, editor, The Mental Representation of Grammatical Relations, pages 173-281. MIT Press, Cambridge, Mass.) を参照されたい。機能単一化文法(Kay, Martin.(1979). "Functional Grammar." In C. Chiarello et al., editors, Proceedings of the 5th Annual Meeting of the Berkeley Linguistic Society, Berkeley, California, pages 142-158.)、HPSG(Pollard, Carl, and Sag, Ivan. (1987). Information-Based Syntax and Semantics, volume 13 of CSLI Lecture Notes, CSLI, Stanford.) 及び確定節文法(Pereira, Fernando C. N., and Warren, David H. D. (1980). "Definitie clause grammars for language analysis--a survey of the formalism and a comparison with augmented transition networks."Artificial Inteligence, 13(3):213-278.) は全て文法記述の主要な要素として再帰的特徴構造を使用する。特徴構造は理解し易く、Prong のような単一化ベースのプログラミング言語で実施し易いという利点を有する。しかしながら、特徴構造は理論及び実践の両方において効率的に解析しにくい文法論理形式を形成するという不利益な点も有する。理論上、任意の再帰的特徴構造を使用する文法論理形式は最悪の場合決定不能となり得る(Blackburn, Patrick, and Spaan, Edith. (1993). "Decidability and Undecidability in stand-alone Feature Logics" In Proceedings of the Sixth Conference of the EACL, Utrecht, The Netherlands, pages 30-36.)。LFG(Lexical Functional Grammar) のオフライン解析能力制約のような適切な制限でも論理形式は最悪の場合指数関数的に多くなる(Barton, G. Edward; Berwick, Robert C., and Ristad, Eric Sven.(1987). Computational Complexity and Natural Language. MIT Press, Cambridge, Mass.)。実際は、論理形式に指数関数的時間がかかるような現象は稀であるが、調整されていない単一化ベースのパーサーは適度に複雑な文を解析するために普通数分を要する。
【0003】
【発明が解決しようとする課題】
本発明の目的は、特徴構造を含む単一化ベースの文法を解析するために要求される時間を低減させることである。
【0004】
本発明の別の目的は、解析時間を低減させるために言語ストリングの文脈自由性を利用することである。
【0005】
【課題を解決するための手段】
論理和的レイジーコピーリンク(lazy copy link) を使用して特徴構造を単一化する方法が述べられる。この方法は2つのドーター特徴構造を単一化してマザー特徴構造を生成することから始まる。レイジーコピーリンクはマザー特徴構造からドーター特徴構造を戻り指示する。単一化によってこれらのレイジーコピーリンクのいずれかが起動されるならば、起動されたレイジーコピーリンクによって示された特徴構造の一つが拡張される。論理和的特徴構造の拡張は複数の代替的な特徴構造を生成し得る。複数の代替的特徴構造を生成する場合、この代替的特徴構造は、複数の特徴構造を各々が代替値を指示する複数の論理和的レイジーコピーリンクを有する一つの特徴構造に置き換えることによって、特徴構造の数を減らすことができるかどうかを決定する。二つ以上の特徴構造が同じ属性及び属性値を持つならばこれらの特徴構造はマージされることができる。マージングが完了すると、拡張のために単一化が停止した時点で、一度に一つの属性ずつ2つのドーター特徴構造の単一化が再開される。属性の単一化がレイジーコピーリンクを起動させると、拡張は必ず再びトリガーされる。拡張、マージング及び単一化のプロセスは、起動するレイジーコピーリンクを含まないマザー特徴構造が生成されるまで繰り返される。
【0006】
本発明の請求項1の態様に従うと、論理和的レイジーコピーリンクを含む単一化ベースの文法を使用して言語ストリングを解析する方法であって、この方法は前記方法を実施するインストラクションを保存するメモリに接続するプロセッサによって実行され、a)第1構成要素に関連する第1論理和的特徴構造と第2構成要素に関連する第2論理和的特徴構造を単一化して第3構成要素に関連する第3特徴構造を生成するステップを有し、前記第1論理和的特徴構造は第1属性及び二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは第1属性の代替値を指示し、前記第3特徴構造は完全に特定される代わりに第1論理和的特徴構造への第1レイジーコピーリンクを有し、b)単一化によって第1レイジーコピーリンクが起動される場合、第1論理和的特徴構造の仕様を拡張して第1の複数の代替的特徴構造を生成するステップを有し、第1の複数の代替的特徴構造は第1論理和的特徴構造よりも更に特定されて少なくとも一つの属性を有し、各属性は値を有し、c)可能な場合には、同一の属性の第1セットを有する第1代替的特徴構造をマージして第1の最小の論理和的特徴構造のうちの一つを形成することによって第1の複数の代替的特徴構造を第1の最小の論理和的特徴構造に減らすステップを有し、第1の最小の論理和的特徴構造のうちの一つは同一の属性の第1セットを有し、マージされた代替的特徴構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、d)第1の最小の第1特徴構造と第2特徴構造を単一化して第3特徴構造の仕様レベルを増加させるステップを有し、前記第3特徴構造は第1特徴構造への少なくとも一つのレイジーコピーリンクを含む。
【0007】
本発明の請求項2の態様に従うと、請求項1の態様において、e)第3特徴構造から第1の最小の第1特徴構造へのレイジーコピーリンクのうちの一つが起動される場合、1)レイジーコピーリンクの一つによって指示された第1の最小の第1特徴構造の一つを第2の複数の第1代替的特徴構造に拡張するステップを有し、2)可能な場合には、同一の属性の第2セットを有する第2の複数の第1特徴構造をマージして第2の最小の第1特徴構造のうちの一つを形成することによって、第2の複数の第1代替的特徴構造を第2の最小の第1特徴構造に減らすステップを有し、第2の最小の第1特徴構造の一つは同一の属性の第2セットを有し、第2の複数の第1代替的特徴構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、3)第2の最小の第1特徴構造と第2特徴構造を単一化して第3特徴構造の仕様レベルを増加させるステップを有し、前記第3特徴構造は第1特徴構造へのレイジーコピーリンクを有し、4)第3特徴構造から第2の最小の第1特徴構造の一つへのレイジーコピーリンクの一つが起動される場合、第3特徴構造が非起動レイジーコピーリンクのみを含むようになるまでステップe1)〜e3)を繰り返すステップを有する。
【0008】
本発明の請求項3の態様に従うと、製品であって、a)メモリを有し、b)メモリに保存されたインストラクションを有し、前記インストラクションは、論理和的レイジーコピーリンクを含んで文脈自由性を利用する単一化ベースの文法を使用して自然言語ストリングを解析する方法を表すインストラクションであって、前記解析方法はメモリに接続するプロセッサによって実行される方法であって、前記方法は、1)第1構成要素に関連する第1論理和的特徴構造と第2構成要素に関連する第2論理和的特徴構造を単一化して第3構成要素に関連する第3特徴構造を生成するステップを有し、前記第1論理和的特徴構造は第1属性及び二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは第1属性の代替値を指示し、前記第3特徴構造は完全に特定される代わりに第1論理和的特徴構造への第1レイジーコピーリンクを有し、2)単一化によって第1レイジーコピーリンクが起動される場合、第1論理和的特徴構造の仕様を拡張して第1の複数の代替的特徴構造を生成するステップを有し、第1の複数の代替的特徴構造は第1論理和的特徴構造よりも更に特定されて少なくとも一つの属性を有し、各属性は値を有し、3)可能な場合には、同一の属性の第1セットを有する第1代替的特徴構造をマージして第1の最小の論理和的特徴構造のうちの一つを形成することによって第1の複数の代替的特徴構造を第1の最小の第1論理和的特徴構造に減らすステップを有し、第1の最小の論理和的特徴構造のうちの一つは同一の属性の第1セットを有し、マージされた代替的特徴構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、4)第1の最小の第1特徴構造と第2特徴構造を単一化して第3特徴構造の仕様レベルを増加させるステップを有し、前記第3特徴構造は第1特徴構造への少なくとも一つのレイジーコピーリンクを含む。
【0009】
【発明の実施の形態】
図1は本発明の単一化方法を含むコンピュータシステム30を例示する。メモリ45に保存されたインストラクション100を使用してコンピュータシステム30は単一化ベースの文脈自由文法によって表されるストリング部分を語数の3乗のオーダーの時間で解析することができる。
【0010】
本発明の詳細な記述の前にコンピュータシステム30について述べることにする。コンピュータシステム30は情報をコンピュータユーザに視覚的に表示するモニター32を含む。また、コンピュータ30はプリンタ33を介してコンピュータユーザに情報を出力する。コンピュータシステム30はコンピューターユーザに入力データに対する複数の経路を提供する。キーボード34によってコンピューターユーザは手でデータを入力できる。また、コンピューターユーザはペン40で電子タブレット38に書き込むことによって情報を入力してもよい。或いは、コンピューターユーザはフロッピーディスク43のようなマシーン可読媒体をディスクドライブ42に挿入して該マシーン可読媒体に保存されたデータを入力することもできる。光学式文字認識ユニット(OCRユニット)44によってユーザはハードコピー自然言語ドキュメント46を入力することができ、該光学式文字認識ユニットは該ドキュメントをコード化された電子表示に変換し、このコード化された電子表示は典型的にはAmerican National Standard Code for Information Interchange (ASCII)である。
【0011】
プロセッサ31はメモリ45又はディスクドライブ42内のフロッピーディスク43に保存されたインストラクションを実行することによって各コマンドに応答して適切な動作を決定且つ行う。典型的には、プロセッサ31のための動作インストラクションは、固体メモリ45に保存される。メモリデバイスはメモリ45を実現するために使用され得る。
【0012】
本発明の解析方法は、モデリングされている言語現象がベキにおいて文脈自由であるときでも、単一化ベースの文法を解析する標準的方法は指数関数的時間がかかるという事実を利用する。すなわち、言語現象が句構造のような単純な句構造規則を使用して表される場合には、句構造パーサーは文を解析するために長くてもn3 オーダーの時間がかかり、(ここでnは語数で表した文の長さである)このような場合でも同じ文をモデリングしている標準的な単一化ベースの特徴構造パーサーは2n オーダーの時間がかかる。何故特徴構造を追加することによって解析時間が急激に長くなるのかを理解するためには、文脈自由文法はチャートを使用してn3 オーダーの時間でどのように解析され得るのか、及び解析のために標準的な方法を使用した場合に特徴構造を追加することによってシステムの解析時間がどのように指数関数的に増えるのかを理解することが必要とされる。これら両方のトピックは以下に詳細に述べられる。
【0013】
A.チャートを使用した解析
チャートはパーサーによって既に構成された構成要素をキャッシュするための単純なデータ構造である。チャートを持つことの主な利点は、パーサーが異なる方法で文を解析しようとする際に既存の構成要素を再利用することができるということである(Sheil, Beau. (1976). "Observations on context-free parsing." In Satistical Method in Linguistics, 1976:71-109.)。文法が文脈自由ならばパーサーは構成要素がどのように構成されたかを知る必要はなく、構成可能であることを知っていればよい。例えば、第5語から第10語までのNP(名詞句)があるかどうか知りたい場合、NPがPP(前置詞句)を有するかどうかを知る必要はない。このため、長さnの文を構成する異なる構成要素はCn2 のオーダーの個数しかない(ここで、Cは文法が許容する異なるカテゴリーの数である)。n2 はすべての可能な語の位置のクロスプロダクト(2つの集合からの要素の全てのペア)に由来する。基本的には、チャートは(カテゴリー、左位置、右位置)の3次元アレイであり、左位置で開始し右位置で終わる当該カテゴリータイプの構成要素があるかどうかを示す。文頭から開始して文末で終わるカテゴリーSがある場合、文は句を有する。チャートを埋める一つの方法は、一語の構成要素から始めて次に二語構成要素全てを構成し、三語の構成要素を構成し、以後同様のことを繰り返すものであり、各レベルは先行レベルの結果に基づいて構成される。これは、CKYアルゴリズム(Younger, D. H. (1967). "Recognition and parsing of context-free languages in time n3" Information and Control, 10:189-208.)と称される。アルゴリズムがn2 のオーダーではなくn3 のオーダーである理由は、各構成要素は複数の方法で構成されるためである。最悪の場合でも、サイズがnのオーダーである構成要素はnのオーダーの数の異なる方法で構成され得る。nのオーダーの数の方法でn2 のオーダーの個数の構成要素を構成するためにはそれぞれn3 のオーダーの時間が必要となる。CKYアルゴリズムは、構成要素が特定の順序、昇順で構成されることを必要とする。チャートを構成するよりフレキシブルな方法は、処理されなかった構成要素のアジェンダを保つことである(Early. J. 1970). "An efficient context-free algorithm." Communications of the ACM, 13:94-102.)。構成要素はアジェンダから一度に一つずつ取り出されて以下のように処理される。各構成要素は結合できる構成要素があるかどうか左右を探す。結合する構成要素を検出するとチャートをチェックして結果として生ずる構成要素がすでにチャートにあるかどうかを見る。ない場合には構成要素はチャートに加えられてアジェンダに配置される。このプロセスはアジェンダが空になるまで続く。構成要素は任意の順序でアジェンダから取り出されることができるのでこのアジェンダによってより柔軟になる。この種のパーサーは "アクティブチャートパーサー" と称される。
【0014】
上記に述べられたように、上記のアルゴリズムは文が解析可能かどうかを決定するだけであり、どれが有効な解析ツリーであるかを決定しない。しかし、この情報はこれらのアルゴリズムに対する単純な追加によって得ることができる。 "マザー" 構成要素と称される構成要素がサブ構成要素、即ち "ドーター”構成要素から構成される場合、構造は構成された構成要素のローカルサブツリーとして記録される。このようなサブツリーで注釈をつけられたチャートは "パースフォレスト”と称される。パーサーが行われる場合、特定のパースツリーは文全体に渡るS構成要素でスタートしランダムに一つのサブツリーを選択することによって読み出され得る。ドーター構成要素それぞれに対して一つのサブツリーがランダムに選択される。ツリーが完全に特定されるまでこのプロセスは続けられる。一般的に、完全に特定されたツリーは指数関数的に多く存在し得るが、完全に特定されたツリーはコンパクトな表示で保存されるため、これらのツリーに対するパースフォレストはn3 のオーダーの時間で形成されることができる。
【0015】
B.特徴構造を追加する構文解析の効果
多くの文法論理形式は特徴構造を文脈自由句構造規則のバックボーンに追加する。文法に基づいて、特徴構造は語彙機能文法(Kaplan and Bresnan 1982)の場合のように明示的であるかもしれないし、機能単一化文法(Kay 1979)の場合のように暗示的であるかもしれない。
【0016】
特徴構造が明示的であるか暗示的であるかに関わらず、該特徴構造を解析する標準的な方法は、最初に文脈自由句構造チャートを構成し、次にチャートデータ構造上に第2パスを形成し、ボトムアップ特徴構造(Maxwell, John T. III, and Kaplan, Ronald M. (1993). "The interface between phrasal and functional constraints". Computational Linguistics, 19(3)を参照のこと)を形成することである。最初に、特徴構造は与えられた特徴制約に従って語彙アイテムからインスタンス生成される。語彙アイテムがどのような方法においても曖昧であるならば、複数の特徴構造が形成される。マザー構成要素の特徴構造は、ドーター構成要素に属する特徴構造のクロスプロダクトをとることによって構成される。後に少しでも矛盾のある組合せはフィルターにかけられる。結果的にこの点において矛盾のない特徴構造のセットが得られる。ドーター構成要素からマザー構成要素を形成する1つ以上の方法があるならば、全ての解析から形成された特徴構造のセットは単一化される。全ての構成要素の特徴構造が形成されるまでこのプロセスはボトムアップを続ける。
【0017】
各レベルで起こるクロスプロダクトのためにこのプロセスは最悪の場合は指数関数的である。例えば、語彙アイテムがそれぞれ2通りの曖昧さを持つ場合は、句構造文法が明確であってもトップの構成要素に対して2n オーダーの異なる特徴構造があることになる。
【0018】
有限な値の特徴が使用される場合は、パーサーはn3 のオーダーの時間で実行されることができる。これは有限数の特徴構造だけが可能であり、各レベルに対して、特徴構造を得た全ての方法を列挙せずに可能である方法のみを辿ればよいためである。可能な数の特徴構造の上限に到達すると各レベルの特徴構造の数は増えなくなる。全ての特徴値がバイナリ(2値)であるならば、最上位の構成要素は多くて2k オーダーの異なる特徴構造を有することができ、ここでkは異なる特徴構造の数である。従って、文の長さの指数関数は有限の特徴グラフのみを使用することによって文法定数の指数関数に変化する。非有限の特徴構造を解析するために要求される時間は、同じ方法で短縮されることができない。
【0019】
本発明の解析方法
A.論理和的レイジーコピーリンク及び特徴構造
単一化ベースの文法を解析する本発明の方法は、論理和的レイジーコピーリンクを導入することによって、文脈自由ストリングを解析するために要求される時間を短縮する。この新しいタイプのレイジーコピーリンクによって、特徴構造は切り捨てられたように処理されるが必要ならば切り捨てられた情報が関連する場合には拡張される。
【0020】
標準的なレイジーコピーリンクを知ることは論理和的レイジーコピーリンクの以下の説明の助けとなる。標準的なレイジーコピーリンクは、単一化ベースのチャートパーサーが要求するコピーの量を減らす典型的な方法である(Godden, K.(1990). "Lazy unification." In Proceedings of the 28th Annual Meeting of the ACL, pages 180-187.) 。ドーター構成要素からの特徴構造が単一化される際は特徴構造はクロストークを防ぐために必ずコピーされなければならない。これは、ドーター特徴構造は文の他解析で使用され得るためである。しかし、特徴構造をコピーすることは非常に高価である。従って、1990年にゴッデン(Godden)は特徴構造のレイジーコピーを提案した。レイジーコピーでは、最初に各特徴構造の最上レベルのみがコピーされる。標準的なレイジーコピーリンクは、コピーされたもののフリンジにおいてまだコピーされていない材料を戻り指示する。次にコピーされた特徴構造は単一化される。標準的なレイジーコピーリンクが単一化の最中に行われない場合、特徴は結合されず単一化は停止され得る。恐らく結果として生ずる特徴構造は、幾つかはあるドーターを指示し幾つかは別のドーターを指示するような、混合したレイジーコピーリンクを有することになる。
【0021】
図2は、先に説明したような状態を視覚的に例示する。特徴構造60はドーター特徴構造62及び64の単一化によって得られる。特徴構造60は完全に特定されず、標準的なレイジーコピーリンク66及び68を介して二つの属性値を表している。レイジーコピーリンク66はドーター特徴構造62内の情報を指示し、レイジーコピーリンク68はドーター特徴構造64に含まれる情報を指示する。
【0022】
コピーされなかった材料がシスター構成要素内の対応する材料と単一化できない可能性があるために、レイジーコピーリングが単一化中に行われる場合、該レイジーコピーリンクは拡張されなければならない。レイジーコピーリンクは、下位の特徴構造の特徴を1レベル上にコピーすることによって拡張され、レイジーコピーリンクの新しいセットはコピーされる材料を指示している。単一化は続けられ、より多くのレイジーコピーリンクが拡張のために要求される可能性を有する。
【0023】
標準的なレイジーコピーリンクと論理和的レイジーコピーリンクの主な違いは、論理和的レイジーコピーリンクはそれぞれ特徴値の代替的な拡張を表すということである。標準的なレイジーコピーリンクと同様に、単一化中に論理和的レイジーコピーリンクはレイジーコピーされた関連する特徴構造の拡張をトリガする。標準的なレイジーコピーリンクとは異なって、2つ以上の論理和的レイジーコピーリンクは拡張をトリガせずに同じ属性に結合され得る。また、拡張された特徴構造はレイジーコピーリンクを含む。
【0024】
論理和的レイジーコピーリンクを使用した結果、チャートの各構成要素又はエッジは2つのタイプの特徴構造、即ち、論理積的特徴構造及び論理和的特徴構造を含む。論理積的特徴構造はドーター特徴構造を単一化することによって得られる。論理積的特徴構造は下位から上位に材料をコピーすることを避けるために標準的な方法でレイジーコピーリンクを使用する。対照的に、論理和的特徴構造はあるポイントまで同じものである論理積的特徴構造をマージすることによって得られる。論理和的特徴構造は論理和的レイジーコピーリンクを使用して切り捨てられた特徴構造の代替的な拡張を表す。論理和的特徴構造は構成要素の消費者に輸出されるため、これらの論理和的特徴構造は "外部的”とも称され、一方論理積的特徴構造は通常は輸出されないため "内部的”とも称される。
【0025】
図3は、構成要素70に関連する論理積的特徴構造及び論理和的特徴構造を例示する。特徴構造72、74、76及び78は論理積的である。論理和的特徴構造80は切り捨てられ空である。論理和的特徴構造80によって表される代替値は論理和的コピーリンク82、84、86又は88で示される。点線は論理和的コピーリンク82、84、86及び88と実線で表される図2の論理積的コピーリンクを区別している。演算上では、二つのタイプのリンクは関連するエッジとのリンクに基づいて区別される。
【0026】
チャートの論理積的特徴構造及び論理和的特徴構造は、特徴構造のand-orツリーを形成する:論理積的特徴構造は該論理積的特徴構造が単一化する論理和的ドーター特徴構造を指示し、論理和的特徴は部分的又は切り捨てられたコピーである代替的論理積的特徴構造を指示する。このand-or構造はチャートのand-or構造を鏡映し、構成要素は代替的なサブツリー解析を有し、サブツリーは構成要素の論理積である。
【0027】
残りの説明では、エッジ、レイジーコピーリンク及び特徴構造は図2及び3のように視覚的に表される。しかし、演算上ではこれらのエンティティーはデータ構造として表される。各エッジデータ構造は以下のリスティングを含む:
1.エッジに関連する論理和的特徴構造へのポインタ
2.ドーターエッジを指示するサブツリーへのポインタ及び
3.マザーエッジへのポインタ
【0028】
各論理和的特徴構造のデータ構造は以下のリスティングを含む:
1.論理和的特徴構造が関連するエッジへのポインタ
2.論理和的特徴構造が論理積的特徴構造の切り捨てられたバージョンを表すその論理積的特徴構造へのポインタ
3.論理和的特徴構造に含まれるレイジーコピーリンクを含む論理和的特徴構造の内容
【0029】
各論理積的特徴構造のデータ構造は以下のリスティングを含む:
1.論理積的特徴構造が関連するエッジへのポインタ
2.論理積的特徴構造の値の属性及び仕様を可能な程度含む。即ち、属性値は完全に特定されず、他の特徴構造へのレイジーコピーリンクを使用して切り捨てられた情報が指示され、論理積的特徴構造に埋め込まれた任意のレイジーコピーリンクを含む。
3.組合せのためのサブツリーへのポインタ
【0030】
各特徴構造は "チャートの上に”あるか又は "アジェンダの上に”あることが好ましい。即ち、エッジが特定の特徴構造へのポインタを含むならば、その特徴構造はアジェンダの上になく、逆に特徴構造がアジェンダに含まれる場合はエッジデータ構造はその特徴構造へのポインタを含まない。しかしながら、本発明の方法の動作をより良く例示するために、以下の図面のチャートの視覚的表示は実際にアジェンダの上にある特徴構造を含み得る。
【0031】
B.レイジーDNF単一化方法
簡単に説明すると、レイジーDNF単一化は論理和的レイジーコピーリンクを使用して切り捨てられたように特徴構造を処理することを含む。レイジーコピーリンクが二つのシスター構成要素の単一化によって起動させられた場合、コンピュータシステム30は起動されたレイジーコピーリンクによって指示したシスター特徴構造の一つの仕様のレベルを拡張する。論理和的特徴構造を拡張することによって、コンピュータシステム30は複数の代替的特徴構造を生成する。代替的特徴構造を生成した場合、コンピュータシステム30は代替的特徴構造を試験して複数の特徴構造を各々が代替値を指示する複数の論理和的レイジーコピーリンクを有する一つの特徴構造に置き換えることによって、この代替的特徴構造の数を減らすことができるかどうか決定する。複数の特徴構造が同じ属性及び値を有するならば、コンピュータシステム30はこれらをマージして埋め込まれた論理和的レイジーコピーリンクを有する単一の論理和的特徴構造を生成する。二つの属性の値がレイジーコピーリンクによって示される場合はこの二つの属性は同じ値を有するものとして処理されるため、不必要な情報を上位にコピーすることを防ぐ。コンピュータシステム30は二つのドーター特徴構造を一回に一つの属性ずつ単一化することを再開する。二つの属性の単一化によって一つ以上のレイジーコピーリンクが起動されるときはコンピュータシステム30は必ず起動したレイジーコピーリンクのうちの一つによって指示された一つの特徴構造を拡張する。拡張、マージング及び単一化のプロセスは、マザー特徴構造が起動したレイジーコピーリンクを含まなくなるまで続く。従って、切り捨てられた情報が関連する場合のみに特徴構造は拡張されるため、それが起こるときは必ず文脈自由性を利用して単一化のプロセスに関連しない情報を繰り返しコピーすることを避ける。
【0032】
1.チャート初期化
チャートの特徴構造を単一化し始める前に、チャートは空の特徴構造で初期化されなければならない。図4はチャートを初期化するためのインストラクション90を形成するフローチャートを例示する。インストラクション90は固体メモリ45又はフロッピーディスクドライブ42内に配置されるフロッピーディスクにマシーン可読形式で保存される。インストラクション90はProlog、LISP及び C++を含むコンピュータで実現され得る。
【0033】
プロセッサ31はステップ92でインストラクション90の実行を開始する。ステップ92の最中にプロセッサ31は特徴構造をチャートの語彙エントリーに割り当てる。これらはチャートの最低エッジに対する論理積的且つ内部的特徴構造である。この処理が行われてプロセッサ31はステップ94へ進む。ステップ94の最中にプロセッサ31は、空の論理和的特徴構造の各語彙エッジに関連する。空の特徴構造はエッジへのポインタによってエッジに関連するが、空の特徴構造はまだチャートに加えられない。続いてステップ96中にプロセッサ31は空の特徴構造からの離散接的レイジーコピーリンクを代替的論理積的特徴構造に加える。プロセッサ31はステップ96を出てステップ98に進む。プロセッサ31はステップ94中に生成された全ての空の特徴構造をステップ98でアジェンダの上に配置する。プロセッサ31はチャートのレイジーDNF単一化を開始する準備ができている。
【0034】
2.単一化
図5及び6はレイジーDNF単一化を実行するためのインストラクション100のフローチャートを例示する。インストラクション100はマシーン可読形式で固体メモリ45又はフロッピーディスク43のようなマシーン可読媒体に保存される。簡単に述べると、インストラクション100はプロセッサ31に指示してシスターエッジの特徴構造を有するアジェンダから選択された特徴構造を単一化させる。プロセッサ31が単一化中にレイジーコピーリンクを検出すると外部特徴構造の拡張が必ずトリガされる。全ての特徴構造がアジェンダから移動されるまでプロセッサ31はインストラクション100を実行し続ける。インストラクション100は、Prolog、LISP及び C++を含むコンピュータ言語で実現され得る。
【0035】
チャートが初期化された後、プロセッサ31はインストラクション100を実行し始める。プロセッサ31は最初にステップ102で実行されるべき単一化があるかどうか決定する。プロセッサ31はアジェンダを調べることによってこれを決定する。アジェンダが空であるならば、更なる単一化は実行される必要はない。一方アジェンダが空でない場合は少くとも1つの単一化が実行される。この状態に応答してプロセッサ31はステップ102を出てステップ104へ進む。
【0036】
プロセッサ31はステップ104で次の特徴構造をアジェンダのトップから取り出す。この特徴構造を "選択された特徴構造”と呼ぶことにする。特徴構造を選択するとプロセッサ31はステップ104を出てステップ106へ進む。
【0037】
ステップ106でプロセッサ31は選択された特徴構造に関連するエッジは選択された特徴構造と互換性を持つ別の特徴構造を含むかどうかを決定する。別の特徴構造を有する場合、2つの特徴構造はステップ108でマージされる。一方、選択された特徴構造に関連するエッジはこの選択された特徴構造に関連する別の特徴構造を有さない場合、プロセッサ31はステップ110に分岐する。この時点で、プロセッサ31は特徴構造を選択されたエッジに追加する。これが実行されると、プロセッサ31はステップ112へ進む。
【0038】
ステップで112でプロセッサ31は選択された特徴構造を用いて単一化される特徴構造を識別し始める。プロセッサ31は選択されたエッジのシスターエッジを選択することによってこの処理を始める。本明細書中で使用されるように、2つのエッジが同じマザーエッジのドーターである場合これらのエッジはシスターである。例えば、図7を参照すると、エッジ132は2つのシスター、即ちエッジ130及び134を有する。エッジ132は各シスターエッジと異なるマザーを共有する。言い換えれば、エッジ132は2つのマザー、即ちエッジ136及び138を有する。エッジ132及び130はエッジ136のドーターであり、一方エッジ132及び134はエッジ138のドーターである。シスターエッジを選択すると、プロセッサ31はステップ112からステップ114へ進む。
【0039】
プロセッサ31はステップ114で関連する特徴構造の選択されたシスターエッジをサーチする。選択されたシスターエッジが選択されたシスターエッジにリンクする論理和的特徴構造をまだ持たない場合、2つのエッジに関する単一化は延期される。これに応答してプロセッサ31はステップ114を出てステップ128に分岐し他の単一化が行われ得る機会があるかどうかを判断する。一方選択されたシスターエッジが論理和的特徴構造を含む場合、プロセッサ31はステップ114からステップ116へ進む。
【0040】
ステップ116でプロセッサ31は選択されたシスターエッジに関連する論理和的特徴構造のうちの1つを選択する。その後プロセッサ31はステップ118へ進む。
【0041】
プロセッサ31はステップ118で選択された特徴構造と選択されたシスターの特徴構造とを単一化する。これは、両方のドーターへ戻る論理積的レイジーコピーリンクによって空のマザー特徴構造を形成することから始まる再帰的プロセスである。これらのレイジーコピーリンクは互いに相互作用する、即ち、単一化を停止し、単一化によって起動されたレイジーリンクの一つによって指示された特徴構造の一つの拡張をトリガする。ドーター特徴構造が空である場合起動された特徴構造はドーター特徴構造であるが、ドーター特徴構造が空でない場合は起動された特徴構造はドーター特徴構造のサブ部分であり得る。プロセッサ31は、再帰的サブルーチンをコールすることによって起動された特徴構造を拡張し、この再帰的サブルーチンは図8及び9を参照して以下により詳細に述べられる。起動された特徴構造を拡張した後、プロセッサ31は二つの特徴構造の単一化を再開する。プロセッサ31は上位のマザー特徴構造に拡張された特徴構造の属性を一度に一つの属性ずつコピーし、属性値はレイジーリンクによって元の属性値を示す。次に、他のドーター特徴構造の属性は一度に一つの属性及びレイジーリンクずつ上位のマザー特徴構造にコピーされてマッチする属性を単一化する。レイジーコピーリンクがこのプロセスによって起動させられる場合は、単一化は必ず停止し、起動されたレイジーリンクのうちの一つのターゲット特徴構造は拡張される。単一化し、起動されたレイジーコピーリンクを検出し、必要に応じてターゲット特徴構造を拡張し、単一化を再開するこのプロセスは、起動されたレイジーコピーリンクを含まないマザー特徴構造のバージョンが生成されるまで続く。この時点でプロセッサ118はステップ118を出てステップ122へ進む。
【0042】
プロセッサ31はステップ118で生成されたマザー特徴構造をステップ122でアジェンダに追加する。その後プロセッサ31はステップ126へ進む。
【0043】
ステップ126でプロセッサ31は選択されたシスターエッジが選択された特徴構造と単一化される他の特徴構造を含むかどうかを決定する。他の特徴構造を含む場合、プロセッサ31はステップ126を出てステップ116に戻りそのタスクを開始する。プロセッサ31は、選択された特徴構造が選択されたシスターエッジにリンクする全ての特徴構造と単一化するまで先に述べられたようにステップ116から126をループする。これが行われると、プロセッサ31はステップ126からステップ128へ進む。
【0044】
ステップ128でプロセッサ31は、選択された特徴構造の全てのシスターエッジを処理したかどうか決定する。処理していなければ、プロセッサ31は他の単一化を実行する必要がある。この状態に応答して、プロセッサ31はステップ112に戻ってそのプロセスを開始する。一方、全てのシスターエッジが処理されるとプロセッサ31は該プロセッサが現在処理できる全ての特徴構造と選択された特徴構造とを単一化したことになる。この状態でプロセッサ31はステップ128から分岐してステップ102へ進む。プロセッサ31がステップ102でアジェンダは空でないことを検出すると、該プロセッサは全ての特徴構造がアジェンダから取り出されるまで分岐してステップ102から108をループする。この処理が行われると、プロセッサ31はステップ102から分岐してステップ130へ進み単一化が完了する。
【0045】
3.レイジー特徴構造拡張
図8及び9は選択された特徴構造の起動された特徴構造を再帰的に拡張するインストラクション158を形成するフローチャートを例示する。インストラクション158はマシーン可読形式で固体メモリ45に保存されるか又はフロッピーディスク43のようなマシーン可読媒体に保存される。簡単に述べると、N個の論理和的レイジーコピーリンクを用いて起動された特徴構造を拡張することは、選択された特徴構造のコピーを(N−1)個形成することから始まる。本明細書中で使用されるように、コピーは選択された特徴構造と同一だが、起動された特徴構造の起動されたレイジーコピーリンクのうちの一つだけを含む。各コピーが形成されるとコピーされたレイジーコピーリンクは元の選択された特徴構造から除去される。選択された特徴構造の(N−1)個のコピーは、それぞれアジェンダに追加され、後にシスターエッジの特徴構造と単一化される。その後、選択された特徴構造内に唯一残る起動されたレイジーコピーリンクは、該コピーリンクが指示する特徴構造、即ちターゲット特徴構造に続く。必要ならターゲット特徴構造は拡張されて元の選択された特徴構造内の起動された特徴構造にコピーされる。マッチする属性値は必要に応じて単一化される。
【0046】
インストラクション158の実行はステップ160から始まる。プロセッサ31は、選択された元の特徴構造内の起動された特徴構造に関連する全てのレイジーコピーリンクが起動されなくなったかどうかを決定することによって、ステップ160で起動された特徴構造の拡張が完了したかどうか決定する。該レイジーコピーリンクが起動されなくなるまでプロセッサ31はステップ160から分岐してステップ162へ進む。
【0047】
プロセッサ31はステップ162で、選択され起動された構造のコピーが形成される必要があるかどうかを決定する。起動された特徴構造が一つ以上の論理和的レイジーコピーリンクを含む場合、プロセッサ31は選択された特徴構造のコピーを形成する。起動された特徴構造が論理和的である場合、プロセッサ31はステップ162で分岐してステップ164へ進みコピーを形成するプロセスを開始する。プロセッサ31は選択された元の特徴構造内の起動された特徴構造に関連する起動されたレイジーコピーのうちの一つを選択し、起動された特徴構造及び該起動された特徴構造に関連するレイジーコピーリンクから選択されたレイジーコピーリンクのみを含む選択された特徴構造のコピーを形成する。次に選択されたレイジーコピーリンクは選択された元の特徴構造内の起動された特徴構造から除去されるため、ステップ166で選択されたレイジーコピーリンクは起動されなくなる。プロセッサ31はステップ166からステップ168へ進む。
【0048】
ステップ168でプロセッサ31は、レイジー特徴構造拡張サブルーチン158を再帰的にコールすることによって形成された選択された特徴構造のコピーを拡張する。選択された特徴構造のコピー内の起動された特徴構造は一つのレイジーコピーリンクしか含まないため、一つのドーター特徴構造に関連する属性はその特徴構造にコピーされる。その後プロセッサ31はステップ170に進み選択された特徴構造の拡張されたコピーをアジェンダに追加する。
【0049】
選択された元の特徴構造内の起動された特徴構造が一つの論理和的レイジーコピーリンクのみを含むか又は論理積的レイジーコピーリンクのみを含むまで、プロセッサ31はインストラクション162、164、166、168、及び170を繰り返して実行する。これらの処理が終わると、プロセッサ31はステップ162から分岐してステップ172まで進む。ステップ172でプロセッサ31は、選択された元の特徴構造内の起動された特徴構造に関連する全てのレイジーコピーリンクが起動しなくなったかどうかを決定する。起動している場合、プロセッサ31はステップ172で分岐してステップ174へ進む。
【0050】
ステップ174でプロセッサ31は、残っているレイジーコピーリンクによって指示された特徴構造からの関連情報を該特徴構造に追加することによって、選択された元の特徴構造内の起動された特徴構造を拡張し始める。これらの特徴構造を "ターゲット特徴構造”と呼ぶことにする。最初にステップ174でプロセッサ31は残っている起動されたレイジーコピーリンクのうちの一つを選択されたレイジーコピーリンクとして指定し、選択されたターゲット特徴構造も指定する。次にステップ176でプロセッサ31は選択されたターゲット特徴構造がレイジーコピーリンクを含むかどうかを検出する。レイジーコピーリンクを含む場合、選択されたターゲット特徴構造は起動される。プロセッサ31はこの検出に応答してステップ176からステップ178へ進む。プロセッサ31はインストラクション158をコールすることによって選択されたターゲット特徴構造を拡張する。選択されたターゲット特徴構造の拡張によって一つ以上の特徴構造が得られる。この場合、これらの特徴構造のうちの一つを除くすべてはアジェンダに配置されて後で処理される。ターゲット特徴構造が適切に特定されるとプロセッサ31はステップ178又はステップ176のいずれかからステップ180へ進む。
【0051】
ステップ180でプロセッサ31は、ターゲット特徴構造の拡張から生じた特徴構造のうちの一つからの関連情報を一度に一つの属性ずつ選択された元の特徴構造にコピーする。コピーされた各属性は、属性値としてターゲット特徴構造内の属性値に戻るレイジーコピーリンクを有する。ターゲット特徴構造からの属性が選択された元の特徴構造内の起動された特徴構造の属性値にマッチする場合、属性値は単一化される。この単一化によって一つ以上のレイジーコピーリンクが起動するならば、プロセッサ31はインストラクション158をコールすることによって新しく起動された特徴構造を拡張する。しかし、起動された特徴構造にコピーされた属性が得られた属性とマッチしない場合は、その属性はターゲット特徴構造の属性値に戻るレイジーコピーリンクによって起動された特徴構造に追加される。これが行われるとプロセッサ31はステップ180を出てステップ182へ進む。
【0052】
ステップ182でプロセッサ31は、選択された元の特徴構造内の起動された特徴構造から選択されたレイジーコピーリンクを除去することによって、該レイジーコピーリンクの起動を停止させる。その後プロセッサ31はステップ160に戻って起動された特徴構造の拡張が完了しかたどうかを決定する。起動された特徴構造の拡張が完了すると、プロセッサ31はステップ190へ進みインストラクション158をコールしたルーチンにコントロールをリターンする。
【0053】
C.レイジーDNF単一化の例
図10〜16はレイジーDNF単一化がどのように動作するかを例示する。レイジーDNF単一化は図10から始まり、二つの構成要素200及び202の特徴構造201及び203が結合される。構成要素200及び202はそれぞれ複数の代替的論理積的特徴構造を含む。論理積的特徴構造210、212、214及び216は特徴構造201に対する選択肢である一方、論理積的特徴構造220、222、224及び226は特徴構造203に対する選択肢である。特徴構造210、212、214、216、220、222、224及び226は語彙及び/又は句の曖昧さによって生成され得る。空の論理和的特徴構造は、論理積的特徴構造への論理和的レイジーコピーリンク(論理和的レイジーコピーリンクは点線で示される)によって各構成要素に対して割り当てられる。図10はすべてが切り捨てられた状態を表しており、論理積的特徴構造はすべて等しい。マザー構成要素205では論理和的特徴構造201及び203は標準的なレイジーコピーを使用して単一化される。これによって相互作用するレイジーコピーリンク207及び208によって特徴構造206が生成される。二つの相互作用するレイジーコピーリンクは特徴構造206の拡張をトリガし、これはドーター特徴構造201及び203の拡張を必要とする。
【0054】
図11では論理和的特徴構造201及び203が拡張されて、ドーターエッジ200に対して四つの部分的コピー240、242、244及び246を生成し、ドーターエッジ202に対して四つの部分的コピー250、252、254及び256を生成する。部分的なコピーはそれぞれ元の値を戻り指示する属性下のレイジーコピーリンクを有する。レイジーコピーリンクを除けば、部分的コピーの多くは同一であることに注目されたい。
【0055】
図12では同一の部分的コピーがマージされている。これによって構成要素200に対して一つの論理和的特徴構造248を生成し、構成要素202に対して二つの論理和的特徴構造258及び259が生成される。また、レイジーコピーリンクはマージされ、点線で示される論理和的レイジーコピーリンクを生成する。このマージによる特徴構造の減少によって、構成要素200及び202を含む後続の単一化の速度が上昇する。
【0056】
図13は、構成要素200及び202に対する拡張された特徴構造を与えられた特徴構造260の部分的な拡張を例示する。構成要素200及び202の単一化は、ドーター200及び202の特徴構造のクロスプロダクトをとることから始まる。これによって最初に各属性値を表すレイジーコピーリンクを有する属性A、B及びCを有する特徴構造260が得られる。二つの論理積的レイジーコピーリンクは特徴構造260における属性Aの値を表すため、属性Aの値は拡張されなければならない。しかし、関連するレイジーコピーは離接値をポイントするため、離接値が最初に拡張されなければならない。
【0057】
図14は特徴構造248及び258の属性Aの拡張を例示する。拡張によって構成要素200に対して四つの新しい部分的なコピーが生成され、構成要素202に対して二つの部分的コピーが生成される。構成要素200に関連する四つの部分的コピーは二つの特徴構造270及び272にマージされる。特徴構造270は三つの特徴構造を表し、該特徴構造の属性Aの値は+であり、特徴構造272はA=−である特徴構造を表す。構成要素202の二つの部分的コピーは、マージされて特徴構造280を形成する。構成要素200及び202を表現するために使用される特徴構造の数が減ることによって、文脈自由の場合の処理時間が短縮される。これらの拡張され、切り捨てられたドーター特徴構造を用いて、クロスプロダクト単一化は特徴構造270及び280を単一化することによって再開する。これによって特徴構造300が生成され、この特徴構造はレイジーコピーリンク間の相互作用を示さない。特徴構造270と259の単一化によって特徴構造302が生成され、この特徴構造302では属性Aの値に関連するレイジーコピーリンク間に相互作用がある。従って、特徴構造302の属性Aは拡張されなければならない。
【0058】
図15は結果として生ずる拡張及び単一化を例示する。特徴構造259の拡張によって特徴構造282が生成された。特徴構造282と特徴構造270を単一化することによって特徴構造304を得た。特徴構造304の属性は特徴構造300の属性と異なるため、二つの特徴構造はマージされることができない。構成要素200及び202に関連する特徴構造の単一化が再開される。
【0059】
構成要素200及び202の単一化は、特徴構造272と特徴構造280及び282のクロスプロダクトをとることによって再開される。図16はこれらの単一化を完了した後の状態を例示しており、属性Aの値が不一致であるため失敗した状態である。これは一緒にマージされることができない二つの有効な特徴構造を残している。これら二つの代替的特徴構造を表現するために、空の特徴構造310は特徴構造300及び304へのレイジーコピーリンクを伴って形成される。後に特徴構造300又は304のレイジーコピーリンクとの相互作用が検出されるまでに構成要素200と202の単一化は完了している。先に述べたように相互作用に関連する属性値のみが拡張される。相互作用が起こるまで情報のコピーを遅らせることによって、この解析方法は各構成要素を表すために必要な特徴構造の数を減らし、文脈自由性を利用して可能な限りn3 オーダーの時間を減らす。この実施の形態では本発明の方法が使用されないとすると、二つではなく十二の特徴構造が生成されることになる。
【図面の簡単な説明】
【図1】論理和的レイジコピーリンクを使用して単一化ベースの文法を解析するためのコンピュータシステムを例示する。
【図2】単一化ベースの文法における自然言語ストリングのチャートを例示する。
【図3】単一化ベースの文法及び論理和的レイジーコピーリンクを使用した自然言語ストリングのチャートを例示する。
【図4】チャートを初期化する方法のフローチャートである。
【図5】文脈自由性を利用した論理和的レイジーコピーリンクを使用して特徴構造を単一化する方法のフローチャートである。
【図6】文脈自由性を利用した論理和的レイジーコピーリンクを使用して特徴構造を単一化する方法のフローチャートである。
【図7】例示的なチャートを例示する。
【図8】論理積的レイジーコピーリンク及び論理和的レイジーコピーリンクを含んだ特徴構造を再帰的に拡張する方法のフローチャートを例示する。
【図9】論理積的レイジーコピーリンク及び論理和的レイジーコピーリンクを含んだ特徴構造を再帰的に拡張する方法のフローチャートを例示する。
【図10】二つのシスター構成要素を単一化するチャートの第1段階を例示する。
【図11】二つのシスター構成要素を単一化するチャートの第2段階を例示する。
【図12】二つのシスター構成要素を単一化するチャートの第3段階を例示する。
【図13】二つのシスター構成要素を単一化するチャートの第4段階を例示する。
【図14】二つのシスター構成要素を単一化するチャートの第5段階を例示する。
【図15】二つのシスター構成要素を単一化するチャートの第6段階を例示する。
【図16】二つのシスター構成要素を単一化するチャートの第7段階を例示する。
【符号の説明】
30 コンピュータシステム
45 固体メモリ
60、62、64、72、74、76、78、80、130、132、134、136、138、210、212、214、216、220、222、224、226、248、258、259、260、300、302、304
特徴構造
82、84、86、88、139、207、208 レイジーコピーリンク
100 インストラクション
Claims (3)
- 論理和的レイジーコピーリンクを含む単一化ベースの文法を使用して言語ストリングを解析する方法であって、この方法は、(1)前記方法を実施するパーサーのインストラクションおよび(2)データ構造を保存するメモリに接続するプロセッサによって実行され、
該データ構造は、前記言語ストリングの語から構成される構成要素と、
属性を特定する特徴構造および前記構成要素に関連する値と、
を示し、
a) 第1構成要素データ構造に関連する第1論理和的特徴構造データ構造と第2構成要素データ構造に関連する第2論理和的特徴構造データ構造を単一化して第3構成要素データ構造に関連する第3特徴構造データ構造を生成するステップを有し、前記第1論理和的特徴構造データ構造は少なくとも二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは代替的論理積的特徴構造データ構造を指示し、前記第3特徴構造データ構造は完全に特定される代わりに第1論理和的特徴構造データ構造への第1レイジーコピーリンクを有し、
b) 単一化によって第1レイジーコピーリンクが起動される場合、第1論理和的特徴構造データ構造の仕様を拡張して第1の複数の代替的特徴構造データ構造を生成するステップを有し、第1の複数の代替的特徴構造データ構造は第1論理和的特徴構造データ構造よりもさらに特定されて少なくとも一つの属性を有し、各属性は値を有し、
c) 可能な場合には、同一の属性の第1セットを有する第1の複数の代替的特徴構造データ構造をマージして第1の最小の第1論理和的特徴構造データ構造のうちの一つを形成することによって第1の複数の代替的特徴構造データ構造を第1の最小の第1論理和的特徴構造データ構造に減らすステップを有し、第1の最小の第1論理和的特徴データ構造のうちの一つは同一の属性の第1セットを有し、代替的論理積的特徴データ構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、
d) 第1の最小の第1論理和的徴構造データ構造と、第1論理和的特徴構造データ構造と同様に処理される第2論理和的特徴構造データ構造と、を単一化して第3特徴構造データ構造の仕様レベルを増加させるステップを有し、前記第3特徴構造データ構造は第1の最小の第1論理和的特徴構造データ構造の値への少なくとも一つのレイジーコピーリンクを含む、
言語ストリング解析方法。 - e) 第3特徴構造データ構造から第1の最小の第1論理和的特徴構造データ構造へのレイジーコピーリンクのうちの一つが起動される場合、
1) レイジーコピーリンクの一つによって指示された第1の最小の第1論理和的特徴構造データ構造の一つを第2の複数の代替的特徴構造データ構造に拡張するステップを有し、
2) 可能な場合には、同一の属性の第2セットを有する第2の複数の代替的特徴構造データ構造をマージして第2の最小の第1論理和的特徴構造データ構造のうちの一つを形成することによって、第2の複数の代替的特徴構造データ構造を第2の最小の第1論理和的特徴構造データ構造に減らすステップを有し、第2の最小の第1論理和的特徴構造データ構造の一つは同一の属性の第2セットを有し、第2の複数の第1代替的特徴構造データ構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、
3) 第2の最小の第1論理和的特徴構造データ構造と第2論理和的特徴構造データ構造を単一化して第3特徴構造データ構造の仕様レベルを増加させるステップを有し、前記第3特徴構造データ構造は第2の最小の第1論理和的特徴構造データ構造の値へのレイジーコピーリンクを有し、
4) 第3特徴構造データ構造から第2の最小の第1論理和的特徴構造データ構造の一つへのレイジーコピーリンクの一つが起動される場合、第3特徴構造データ構造が非起動レイジーコピーリンクのみを含むようになるまでステップe1)〜e3)を繰り返すステップを有する、
請求項1に記載の言語ストリング解析方法。 - 論理和的レイジーコピーリンクを含む単一化ベースの文法を使用し文脈自由性を利用して自然言語ストリングを解析するシステムであって、
a) データ構造を記憶するメモリを有し、
該データ構造は、
前記言語ストリングの語から構成される構成要素と、
属性を特定する特徴構造および前記構成要素に関連する値と、
を示し、
b) 前記自然言語ストリングを解析するために前記メモリに記憶されているインストラクションを実行するプロセッサを有し、
該解析は、
1) 第1構成要素データ構造に関連する第1論理和的特徴構造データ構造と第2構成要素データ構造に関連する第2論理和的特徴構造データ構造を単一化して第3構成要素データ構造に関連する第3特徴構造データ構造を生成するステップを有し、前記第1論理和的特徴構造データ構造は少なくとも二つの論理和的レイジーコピーリンクを有し、各論理和的レイジーコピーリンクは代替的論理積的特徴構造データ構造を指示し、前記第3特徴構造データ構造は完全に特定される代わりに第1論理和的特徴構造データ構造への第1レイジーコピーリンクを有し、
2) 単一化によって第1レイジーコピーリンクが起動される場合、第1論理和的特徴構造データ構造の仕様を拡張して第1の複数の代替的特徴構造データ構造を生成するステップを有し、第1の複数の代替的特徴構造データ構造は第1論理和的特徴構造データ構造よりもさらに特定されて少なくとも一つの属性を有し、各属性は値を有し、
3) 可能な場合には、同一の属性の第1セットを有する第1の複数の代替的特徴構造データ構造をマージして第1の最小の論理和的特徴構造データ構造のうちの一つを形成することによって第1の複数の代替的特徴構造データ構造を第1の最小の第1論理和的特徴構造データ構造に減らすステップを有し、第1の最小の第1論理和的特徴構造データ構造のうちの一つは同一の属性の第1セットを有し、代替的論理積的特徴構造データ構造内の代替値を指示する論理和的レイジーコピーリンクの少なくとも一つのペアを有し、
4) 第1の最小の第1論理和的特徴構造データ構造と、第1論理和的特徴構造データ構造と同様に処理される第2論理和的特徴構造データ構造と、を単一化して第3特徴構造データ構造の仕様レベルを増加させるステップを有し、前記第3特徴構造データ構造は第1の最小の第1論理和的特徴構造データ構造の値への少なくとも一つのレイジーコピーリンクを含む、
システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US572393 | 1995-12-14 | ||
US08/572,393 US5727222A (en) | 1995-12-14 | 1995-12-14 | Method of parsing unification based grammars using disjunctive lazy copy links |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09179862A JPH09179862A (ja) | 1997-07-11 |
JP4311772B2 true JP4311772B2 (ja) | 2009-08-12 |
Family
ID=24287603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32673496A Expired - Lifetime JP4311772B2 (ja) | 1995-12-14 | 1996-12-06 | 言語ストリング解析方法および言語ストリング解析システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5727222A (ja) |
EP (1) | EP0779578B1 (ja) |
JP (1) | JP4311772B2 (ja) |
DE (1) | DE69617612T2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819210A (en) * | 1996-06-21 | 1998-10-06 | Xerox Corporation | Method of lazy contexted copying during unification |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6330530B1 (en) * | 1999-10-18 | 2001-12-11 | Sony Corporation | Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures |
US7113905B2 (en) * | 2001-12-20 | 2006-09-26 | Microsoft Corporation | Method and apparatus for determining unbounded dependencies during syntactic parsing |
US7165055B2 (en) * | 2002-02-14 | 2007-01-16 | Xerox Corporation | Systems and methods for solving nogood databases |
US7225121B2 (en) * | 2002-02-20 | 2007-05-29 | Palo Alto Research Center Incorporated | Generating with Lexical Functional Grammars |
US20040167907A1 (en) * | 2002-12-06 | 2004-08-26 | Attensity Corporation | Visualization of integrated structured data and extracted relational facts from free text |
US7203668B2 (en) * | 2002-12-19 | 2007-04-10 | Xerox Corporation | Systems and methods for efficient ambiguous meaning assembly |
US7171403B2 (en) | 2003-01-09 | 2007-01-30 | Palo Alto Research Center Incorporated | Systems and methods for efficient conjunction of Boolean variables |
US7657420B2 (en) * | 2003-12-19 | 2010-02-02 | Palo Alto Research Center Incorporated | Systems and methods for the generation of alternate phrases from packed meaning |
JP5015658B2 (ja) * | 2007-05-23 | 2012-08-29 | 泰章 岩井 | ポインティングデバイスおよびコンピュータ |
US9317595B2 (en) * | 2010-12-06 | 2016-04-19 | Yahoo! Inc. | Fast title/summary extraction from long descriptions |
US10042840B2 (en) | 2016-08-04 | 2018-08-07 | Oath Inc. | Hybrid grammatical and ungrammatical parsing |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5438511A (en) * | 1988-10-19 | 1995-08-01 | Xerox Corporation | Disjunctive unification |
US5642519A (en) * | 1994-04-29 | 1997-06-24 | Sun Microsystems, Inc. | Speech interpreter with a unified grammer compiler |
-
1995
- 1995-12-14 US US08/572,393 patent/US5727222A/en not_active Expired - Lifetime
-
1996
- 1996-12-06 JP JP32673496A patent/JP4311772B2/ja not_active Expired - Lifetime
- 1996-12-11 DE DE69617612T patent/DE69617612T2/de not_active Expired - Lifetime
- 1996-12-11 EP EP96308998A patent/EP0779578B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09179862A (ja) | 1997-07-11 |
DE69617612D1 (de) | 2002-01-17 |
EP0779578A2 (en) | 1997-06-18 |
EP0779578B1 (en) | 2001-12-05 |
US5727222A (en) | 1998-03-10 |
EP0779578A3 (ja) | 1997-10-01 |
DE69617612T2 (de) | 2002-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12050874B2 (en) | System for knowledge acquisition | |
Briscoe et al. | Generalized probabilistic LR parsing of natural language (corpora) with unification-based grammars | |
US9846692B2 (en) | Method and system for machine-based extraction and interpretation of textual information | |
EP0814418B1 (en) | Method of and system for unifying data structures | |
US8195447B2 (en) | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions | |
US6446081B1 (en) | Data input and retrieval apparatus | |
US8214199B2 (en) | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions | |
US9588958B2 (en) | Cross-language text classification | |
US6505157B1 (en) | Apparatus and method for generating processor usable data from natural language input data | |
JP4311772B2 (ja) | 言語ストリング解析方法および言語ストリング解析システム | |
Paumier | Unitex-manuel d'utilisation | |
WO2003096217A2 (en) | Integrated development tool for building a natural language understanding application | |
WO2008045815A2 (en) | Method and system for natural-language sentence generation from language-independent semantic structures | |
JPH05324713A (ja) | 自然語処理方法および自然語処理システム | |
EP0814417B1 (en) | Method of and system for unifying data structures | |
Todirascu et al. | Vulcain—an ontology-based information extraction system | |
JP2006518502A (ja) | テキスト分析のためのシステムと方法 | |
Van Deemter et al. | High-level authoring of illustrated documents | |
Dale et al. | Two investigations into intelligent text processing | |
JPH0635961A (ja) | 文書要約装置 | |
JP2023152343A (ja) | 生成装置、生成方法、および生成プログラム | |
WO2024102449A1 (en) | Systems and methods for enhanced machine learning techniques for knowledge map generation and user interface presentation | |
Skut et al. | A generic finite state compiler for tagging rules | |
Chao et al. | Probabilistic network models for word sense disambiguation | |
Eeg-Olofsson | Software Systems for Computational Morphology—An Overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051007 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051025 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060213 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060216 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090319 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090512 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |