JP3126952B2

JP3126952B2 - 構文解析装置

Info

Publication number: JP3126952B2
Application number: JP10222736A
Authority: JP
Inventors: 秀紀柏岡; エズラ・ダブリュー・ブラック; アンドリュー・フィンチ
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1998-08-06
Filing date: 1998-08-06
Publication date: 2001-01-22
Anticipated expiration: 2018-08-06
Also published as: JP2000057141A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列を含む文章
のテキストデータに対して、構文構造を自動的に付与す
る構文解析装置に関する。

【０００２】

【従来の技術】従来より、構文解析のために統計的な情
報を利用した手法（以下、従来例という。）が提案され
ており、その手法は、例えば従来技術文献「Michael Co
llins,”Three Generative, Lexicalised Models for S
tatistical Parsing”,The proceedings of ACL,pp.16-
23,1997年」において開示されている。

【０００３】この従来例では、各文法規則に尤度を付与
し、その値によって適用する規則を選択し、構文構造の
曖昧性を解消する。この手法では、文法規則に付与する
尤度を、一定量の構文解析済みテキストデータにおいて
使われている文法規則の統計量により決定している。

【０００４】

【発明が解決しようとする課題】従って、従来例では、
全体として利用頻度の低い文法規則は、適用されること
がほとんどないが、このような利用頻度の低い文法規則
であっても、特定の条件のもとでは、頻繁に利用される
ことがある。このような場合、特定の条件のもとでは、
解析を誤ってしまう。すなわち、従来例では、確率付き
文脈自由文法を利用して構文構造の解析を行っている
が、統計的な構文規則適用の尤度を、予め求めた一定値
で処理するため、特定の条件では尤度が高くなるが、当
初の尤度が低い規則の処理に問題があり、構文解析結果
に誤りが多発するという問題点があった。

【０００５】本発明の目的は以上の問題点を解決し、従
来例に比較してより高い精度で構文情報を付与すること
ができる構文解析装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の構文解析装置は、複数の品詞のリストとその尤度を
記憶する第１の記憶装置と、複数の文法規則のリストと
その尤度を記憶する第２の記憶装置と、単語列からなる
構文解析済みテキストデータにおいて、処理対象文にお
ける品詞と、上記処理対象文よりも前の所定数分の前文
内における品詞との間のトリガーペアと、上記処理対象
文における文法規則と、上記前文における文法規則との
間のトリガーペアとの頻度テーブルを記憶する第３の記
憶装置と、複数のトリガーペアとその平均相互情報量と
を記憶する第４の記憶装置と、単語列からなる構文解析
済みテキストデータに基づいて、処理対象文における品
詞と、上記前文内における品詞との間のトリガーペア
と、上記処理対象文における文法規則と、上記前文にお
ける文法規則との間のトリガーペアとの頻度テーブルを
生成して上記第３の記憶装置に記憶し、上記各トリガー
ペアの平均相互情報量を計算し、計算された平均相互情
報量の大きい順序に並べ替えた後、上記複数のトリガー
ペアにおいて平均相互情報量がより大きい上位から所定
数のトリガーペアを選択してその平均相互情報量ととも
に上記第４の記憶装置に記憶する抽出手段と、単語列か
らなる解析対象文である入力されるテキストデータに基
づいて、処理対象文よりも前の所定数分の前文内におけ
る品詞と文法規則のリストを作成し、上記作成されたリ
ストの品詞及び文法規則に対して一致する上記第４の記
憶装置に記憶された選択されたトリガーペアの品詞及び
文法規則を取り出して、上記第１と第２の記憶装置に記
憶された品詞と文法規則の尤度を、上記取り出されたト
リガーペアの品詞及び文法規則の平均相互情報量の大き
さに応じて、上記平均相互情報量が大きいほど上記尤度
を大きくするように変化させて更新し、更新された品詞
と文法規則の尤度に基づいて、所定の構文解析アルゴリ
ズムの方法を用いて、処理対象文に対して適用する品詞
及び文法規則を決定して付与して、構文解析済みテキス
トデータを出力する付与手段とを備えたことを特徴とす
る。

【０００７】また、請求項２記載の構文解析装置は、請
求項１記載の構文解析装置において、上記構文解析アル
ゴリズムの方法は、チャート法であることを特徴とす
る。

【０００８】さらに、請求項３記載の構文解析装置は、
請求項１又は２記載の構文解析装置において、上記付与
手段は、上記第１と第２の記憶装置に記憶された品詞と
文法規則の尤度を、その品詞の全体の数及びその文法規
則の数に依存して変化し、それらの全体の数が大きいほ
ど、尤度の変化量が小さくなるように変化して更新する
ことを特徴とする。

【０００９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１０】図１は、本発明に係る一実施形態である、
トリガーペア抽出装置１０及び構文情報付与装置１１を
備えた構文解析システムのブロック図である。この実施
形態の構文解析システムは、トリガーペア抽出装置１０
と、構文情報付与装置１１とを備えて構成され、トリガ
ーペア抽出装置１０は、単語列からなる構文情報付き文
が予め記憶された構文解析済みテキストデータメモリ２
１から読み出されて入力される学習用テキストデータの
解析対象文の一定範囲内で前に現れている語句と解析対
象との間で、構文規則の適用に関連するトリガーペアと
呼ばれる知識を抽出してトリガーペア知識としてトリガ
ーペア知識メモリ２４に出力して記憶し、次いで、構文
情報付与装置１１は、テキストデータメモリ３０に予め
記憶された、単語列からなるテキストデータの解析対象
文に対して、トリガーペア知識メモリ２４に記憶された
トリガーペア知識を参照して、文法規則リストメモリ２
３内の尤度をトリガーペアの持つ平均相互情報量に応じ
て、平均相互情報量が大きければ尤度が大きくなるよう
に変化させて更新し、更新された文法規則リストメモリ
２３内の文法規則に従って公知のチャート法を用いて構
文情報を付与することにより構文解析済みテキストデー
タを得て構文解析済みテキストデータメモリ３１に出力
して記憶することを特徴としている。

【００１１】本実施形態では、従来例の手法の問題点を
解決するために、解析対象文の前に処理した所定の一定
範囲内（ウインドウサイズＷ個）の文で解析に使われて
いた品詞及び文法規則により、品詞及び文法規則の尤度
を変化させることで、適切な文法規則を適用させる。こ
の実施形態では、品詞と品詞、あるいは、文法規則と文
法規則のトリガーペアと、そのトリガーペアでの尤度の
更新値を含むトリガーペアと呼ぶ知識を利用する。トリ
ガーペアに現れる、品詞と品詞、あるいは、文法規則と
文法規則のペアは、その知識を利用するきっかけになる
トリガリング品詞あるいはトリガリング規則と、尤度を
変化させる対象となるトリガード品詞あるいはトリガー
ド規則から構成される。このトリガーペアは、構文解析
済みテキストデータメモリ２１内の一定量の学習用構文
解析済みテキストデータからトリガーペア抽出装置１０
により抽出される。

【００１２】まず、トリガーペア抽出装置１０によるト
リガーペアの知識の抽出法について述べる。トリガーペ
ア抽出装置１０には、品詞リストとその尤度を予め記憶
した品詞リストメモリ２２と、文法規則リストとその尤
度を予め記憶した文法規則リストメモリ２３と、ワーキ
ングメモリ２５とが接続され、ワーキングメモリ２５
は、トリガーペア頻度テーブルメモリ４１と、トリガー
ペアメモリ４２と、前文保持メモリ４３とを備える。ト
リガーペア抽出装置１０は、構文解析済みテキストデー
タを構文解析済みテキストデータメモリ２１からトリガ
ーペア抽出装置１０に順次読み込み、当該テキストデー
タを読み込むときに、Ｗ個前の文までは前文保持メモリ
４３に記憶して保持する。構文解析済み（分析済み）テ
キストデータは、例えば、以下のように単語と品詞を”
＿”でつなぎ、句や節を”［規則名”と”規則名］”で
まとめた表現をしている。

【００１３】

【数１】［ｎｂａｒｑ４［ｎｂａｒ１［ｎ１ａｍ
ｅｅｔｉｎｇ＿ＮＮ１ＩＮＴＥＲ−ＡＣＴｎ１ａ］ｎ
ｂａｒ１］［ｉ１ｅ［ｐ１ｉｎ＿ＩＩＩＮ［ｎｂ
ａｒ１［ｎ１ａＬｏｎｄｏｎ＿ＮＰ１ＣＩＴＹＮＭ
ｎ１ａ］ｎｂａｒ１］ｐ１］ｉ１ｅ］ｎｂａｒ
ｑ４］

【００１４】品詞リストメモリ２２内に記憶される品詞
リストの一例を表１に示す。ここで、尤度は、構文解析
済みテキストデータにおいて出現した品詞の出現頻度に
応じた尤度であり、この尤度は出現頻度であってもよ
い。

【００１５】

【表１】品詞リストの一例 ―――――――――――――――――――――――――――――――――― 品詞の記号：その説明尤度 ―――――――――――――――――――――――――――――――――― ＮＰ１ＬＯＣＮＭ：地名名詞６７ＮＰ１ＳＴＡＴＥＮＭ：州名名詞４５ＪＪＳＹＳＴＥＭ：組織形容詞５７ＮＰ１ＯＲＧ：組織名詞９０ＶＶＤＩＮＣＨＯＡＴＩＶＥ：動作動詞過去形３５ＶＶＤＰＲＯＣＥＳＳＩＶＥ：経過動詞過去形１５ …… ： …… …… ――――――――――――――――――――――――――――――――――

【００１６】文法規則リストメモリ２３内に記憶される
文法規則リストの一例を表２に示す。ここで、尤度は、
構文解析済みテキストデータにおいて出現した文法規則
の出現頻度に応じた尤度であり、この尤度は出現頻度で
あってもよい。

【００１７】

【表２】文法規則リストの一例 ―――――――――――――――――――――――――――――――――― 記号：文法規則尤度説明 ―――――――――――――――――――――――――――――――――― ｎｂａｒｑ４：Ｎ’→Ｎ’Ｉ９９名詞句ｎｂａｒ１：Ｎ’→Ｎ１３２名詞句ｎ１ａ：Ｎ１→Ｎ＊２１名詞要素ｉ１ｅ：Ｉ→Ｐ５６前置詞句ｐ１：Ｐ→ＩＩ＊Ｎ’ １１前置詞要素 … ： … …… …… ――――――――――――――――――――――――――――――――――

【００１８】また、各文法規則における記号の説明を表
３に示す。この表では、実施例で示すトリガーペアの知
識に現れる文法規則の記号の一部を説明するために示し
ている。

【００１９】

【表３】各文法規則における記号の説明 ―――――――――――――――――――――――――――――――――― 記号：文法規則：記号の説明 ―――――――――――――――――――――――――――――――――― itrpt1:Interrupter Phrase→*Or-:挿入句開始記号 ―――――――――――――――――――――――――――――――――― s:Sentence→Interrupter P+Phrasal C onstit(Non-S):挿入文 ―――――――――――――――――――――――――――――――――― vbari2:VP→Verb+Interrupter Phrase+Obj/Compl:挿入句を含む動詞句 ―――――――――――――――――――――――――――――――――― itrpt2:Interrupter Phrase→,+Interrupter+,:挿入節 ―――――――――――――――――――――――――――――――――― nbar3:Noun Phrase→SimpleNoun Phrase+Numerical:名詞句 ―――――――――――――――――――――――――――――――――― nbarn4:Numerical→Numerical+PrepP with Numerical Obj:数詞句 ―――――――――――――――――――――――――――――――――― vbar5:Verb Phrase→Adverb Phrase+Verb Phrase:動詞句 ―――――――――――――――――――――――――――――――――― avbar1:Auxiliary VP→Model/Auxilliary Verb+Not:補助動詞句 ―――――――――――――――――――――――――――――――――― sq1:Question→Be+NP+Object/Complement:疑問文 ―――――――――――――――――――――――――――――――――― sp1:Quoted Phrasal Constit→”+Phrasal Constit+”:引用符付挿入節 ―――――――――――――――――――――――――――――――――― …： …… ： …… ――――――――――――――――――――――――――――――――――

【００２０】トリガーペア抽出装置１０は、読み込まれ
るテキストデータにおいて、現在の処理対象文に現れる
品詞及び文法規則と、前文保持メモリ４３で保持してい
るＷ個の文に現れる品詞及び文法規則との間で、考えら
れる全てのトリガーペアに対して、平均相互情報量（Av
erage Mutual Information)を算出する。クラスＸとク
ラスＹとの間の理論的な平均相互情報量Ｉ（Ｘ；Ｙ）
は、以下の式で定義される。

【００２１】

【数２】Ｉ（Ｘ；Ｙ）＝Ｈ（Ｘ）−Ｈ（Ｘ｜Ｙ）＝ Σ Σ Ｐ(ｘ,ｙ)log₂{Ｐ(ｘ,ｙ)／(Ｐ(ｘ)・Ｐ(ｙ))} ｘ∈Ａ_x ｙ∈Ａ_ｙ

【００２２】ここで、Ｈは、クラスのモノグラムのエン
トロピーであり、Ｉはテキストデータ内の隣接する２つ
のクラスｘ，ｙに関する平均相互情報量である。ここ
で、大文字はクラスを表し、小文字はクラスの要素を表
す。Ｐ（ｘ，ｙ）はｘとｙが共起する場合の頻度確率を
示し、Ｐ（ｘ）はクラスの要素ｘの頻度確率を表し、Ｐ
（ｙ）はクラスの要素ｙの頻度確率を表す。

【００２３】実際には、構文解析済みテキストデータメ
モリ２１内の処理対象文に現れる品詞あるいは規則をｗ
とし、保持しているＷ個の文に現れる品詞あるいは文法
規則をｔとした場合、以下の式で計算される。Ｐ（ｗ，
ｔ）はｗ，ｔがともに現れる場合の確率であり、Ｐ
（ｗ，／ｔ）はｗが現れてｔが現れない場合の確率であ
り、Ｐ（／ｗ，ｔ）は、ｗが現れず、ｔが現れる場合の
確率であり、Ｐ（／ｗ，／ｔ）は、ｗ、ｔがともに現れ
ない場合の確率である。

【００２４】

【数３】Ｉ（ｗ；ｔ）＝Ｐ（ｗ，ｔ）ｌｏｇ_２｛Ｐ（ｗ，ｔ）／（Ｐ（ｗ）・Ｐ（ｔ））｝＋Ｐ（ｗ，／ｔ）log₂｛Ｐ（ｗ，／ｔ）／（Ｐ（ｗ）・Ｐ（／ｔ））｝＋Ｐ（／ｗ，ｔ）log₂｛Ｐ（／ｗ，ｔ）／（Ｐ（／ｗ）・Ｐ（ｔ））｝＋Ｐ（／ｗ，／ｔ）log₂｛Ｐ（／ｗ，／ｔ）／（Ｐ（／ｗ）・Ｐ（／ｔ））｝

【００２５】品詞と品詞のトリガーペアと、文法規則と
文法規則のトリガーペアのそれぞれの頻度を、テキスト
データについて計数して、次の表のように作成して記憶
する。ここで、品詞と品詞のトリガーペアは、保持して
いるＷ個の文に現れるトリガリング品詞と、処理対象文
に現れるトリガード品詞とからなり、そのトリガーペア
で頻度が計数される。また、文法規則と文法規則のトリ
ガーペアは、保持しているＷ個の文に現れるトリガリン
グ文法規則と、処理対象文に現れるトリガード文法規則
とからなり、そのトリガーペアで頻度が計数される。

【００２６】

【表４】トリガーペア頻度テーブルの一例 ―――――――――――――――――――――――――――――――――― トリガリングトリガード頻度品詞又は文法規則品詞又は文法規則 ―――――――――――――――――――――――――――――――――― ｐｏｓ１ｐｏｓ２ｎｐ１ｐｏｓ４ｐｏｓ５ｎｐ２ …… …… …… ｒｕｌｅ１ｒｕｌｅ３ｎｒ１ｒｕｌｅ１ｒｕｌｅ１０ｎｒ２ …… …… …… ―――――――――――――――――――――――――――――――――― （注）ｐｏｓ（ｎ）は品詞記号であり、ｒｕｌｅ（ｎ）は文法規則記号である。

【００２７】各トリガリング品詞及び各トリガリング規
則に対して、上述の式を用いて平均相互情報量を計算し
て、トリガーペア平均相互情報量メモリ４２に記憶した
のち、平均相互情報量の大きい順に所定数ｎ個（本実施
形態では、ｎ＝５０）のトリガーペアを選択してトリガ
ーペア知識メモリ２４に記憶してトリガーペア知識とし
て利用する。

【００２８】次に、このようにして得られたトリガーペ
アの知識を利用した、構文情報付与装置１１による構文
情報付与処理について述べる。構文情報付与装置１１に
は、品詞リストメモリ２２と、文法規則リストメモリ２
３と、ワーキングメモリ２６とが接続され、ワーキング
メモリ２６は、品詞及び文法規則リストメモリ４４と、
該当知識メモリ４５とを備える。

【００２９】まず、構文情報付与装置１１は、処理すべ
きテキストデータをテキストデータメモリ３０から順次
読み込む。その際に、直前のＷ個の文のテキストを前文
保持メモリ４６に保持して記憶しておく。保持している
Ｗ個の文に現れる品詞、又は文法規則と一致するトリガ
リング品詞、又はトリガリング文法規則をもつトリガー
ペアを、トリガーペア知識メモリ２４内のトリガーペア
知識から取り出す。取り出したトリガーペア知識に含ま
れるトリガード品詞、トリガード文法規則に対応する、
各品詞、各文法規則の尤度を、そのトリガーペアの持つ
平均相互情報量に応じて変更して更新する。この尤度の
変更は、平均相互情報量が大きいほど尤度を大きくなる
ように変更する。その一例を以下に示す。

【００３０】文法規則Ｒｉ（ｉ＝１，２，…，ｎ）に対
して、トリガーペアに表されるトリガリング文法規則Ｒ
Ｔｊ、トリガード文法規則ＲＴＩｊ、平均相互情報量Ｈ
ｊがあったときに、その文法規則の尤度Ｃ（Ｒｉ）を次
式のように変更する。ここで、Ｄは定数であり、例え
ば、尤度の中央値である。また、品詞の尤度についても
同様に変更する。

【００３１】

【数４】Ｃ(Ｒｉ) ＝Ｃ(ＲＴＩｊ)＋Ｄ×(Ｈｊ／ｌｏｇ₁₀ｎ)；Ｒｉ＝ＲＴＩｊのとき＝Ｃ(Ｒｉ)−Ｄ×(Ｈｊ／ｌｏｇ₁₀ｎ)×(１／ｎ)；Ｒｉ≠ＲＴＩｊのとき

【００３２】ここで、数４から明らかなように、構文情
報付与装置１１は、メモリ２２，２３に記憶された品詞
と文法規則の尤度を、その品詞の全体の数及びその文法
規則の数に依存して変化し、それらの全体の数が大きい
ほど、尤度の変化量が小さくなるように変化して更新す
る。

【００３３】そして、構文情報付与装置１１は、現在、
処理対象になっている文を左から右に、公知のチャート
法により文法規則にしたがって解析し、適用している文
法規則の尤度の積算値の高い解析候補の構文情報を解析
対象文に対して付与して解析結果として構文解析済みテ
キストデータメモリ３１に出力して記憶する。

【００３４】図２は、図１のトリガーペア抽出装置１０
によって実行されるトリガーペア抽出処理を示すフロー
チャートである。まず、ステップＳ１においてテキスト
データメモリ２１から学習用テキストデータを読み込
む。このとき、処理対象の文よりもＷ個の文を前文保持
メモリ４３に記憶しておく。次いで、ステップＳ２にお
いて読み込んだ学習用テキストデータにおいて、ウィン
ドウサイズＷ［文］内での品詞及び文法規則のペアの頻
度テーブルを作成してトリガーペア頻度テーブルメモリ
４１に記憶する。そして、ステップＳ３において各トリ
ガーペアの平均相互情報量を計算してトリガーペア平均
相互情報量メモリ４２に記憶し、ステップＳ４において
トリガーペア平均相互情報量メモリ４２中のトリガーペ
ア候補において平均相互情報量の大きい順序に並びかえ
てトリガーペア平均相互情報量メモリ４２の内容を更新
する。ステップＳ５においてトリガーペア平均相互情報
量メモリ４２中のトリガーペア候補の中で平均相互情報
量が大きいものから順に上位ｎ個までのトリガーペアと
その平均相互情報量を選択トリガーペアとして選択し
て、トリガーペア知識メモリ２４に出力して記憶する。
すなわち、トリガーペア知識メモリ２４には、使用頻度
が高いトリガーペアとその平均相互情報量とが記憶され
る。

【００３５】図３は、図１の構文情報付与装置１１によ
って実行される構文情報付与処理を示すフローチャート
である。まず、ステップＳ１１においてテキストデータ
メモリ３０から構文解析すべきテキストデータ（解析対
象文）を読み込む。このとき、処理対象の文よりもＷ個
の文を前文保持メモリ４６に記憶しておく。次いで、ス
テップＳ１２において処理対象の解析対象文よりも直前
に処理したＷ個の文で使用されていた品詞及び文法規則
のリストを作成して品詞及び文法規則リストメモリ４４
に記憶し、ステップＳ１３において品詞及び文法規則リ
ストメモリ４４内のリストの各項目（ここで、項目と
は、品詞又は文法規則である。）に対してトリガーペア
知識メモリ２４の各項目に一致する知識データを取り出
して該当知識メモリ４４に記憶する。さらに、ステップ
Ｓ１４において該当知識メモリ４４内のトリガード項目
に対応する文法規則リストメモリ２３内の文法規則の尤
度をそのペアの持つ平均相互情報量に応じて変化させて
更新する。また、品詞の尤度も同様に変化させて更新す
る。最後に、ステップＳ１５において更新された文法規
則リストメモリ２３内の文法規則リスト及び品詞リスト
メモリ２２内の品詞リストに従って公知のチャート法を
用いて適用する品詞及び文法規則を決定することによ
り、品詞及び文法規則等の構文情報を付与して、出力デ
ータとしてテキストデータメモリ３１に出力して記憶す
る。

【００３６】公知のチャート法では、完成した部分解析
木を記録するＷＦＥＳＴ（Well Formed Substring Tabl
e)法の拡張として、完成した部分解析木と未完成な部分
木を記録するチャートと呼ばれるデータ構造を用いる。
チャートは弧と頂点から成るグラフ構造であって、完成
した部分解析木は不活性孤と呼ばれ、空所を持つ未完成
な部分解析木は活性孤と呼ばれる。チャート法では、活
性孤がその空所と同じラベルを持つ不活性孤と結合して
新しい弧を生成することを繰り返す。最終的には、文を
ラベルに持つ不活性孤ができれば、構文解析が成功した
ことになる。

【００３７】本実施形態では、構文解析アルゴリズムと
して、チャート法を用いているが，本発明はこれに限ら
ず、ＣＫＹ法やＬＲ法などの他の公知の構文解析アルゴ
リズムを用いてもよい。

【００３８】以上の実施形態において、トリガーペア抽
出装置１０及び構文情報付与装置１１は、例えばデジタ
ル計算機によって構成され、各メモリ２１，２２，２
３，２４，２５，２６，３０，３１は、例えばハードデ
ィスクメモリで構成される。

【００３９】

【実施例】本発明者は、上述の構文解析システムを用い
て実験を行い、以下の実験結果を得た。トリガーペアを
抽出するための構文解析済みテキストデータとして、Ｗ
ＳＪ（ウォールストリートジャーナル）及び、本特許出
願人が所有する旅行会話に関するデータベースによるト
リガーペアの抽出結果を以下に示す。

【００４０】

【表５】選択された品詞のトリガーペア ―――――――――――――――――――――――――――――――――― 番号／トリガリング品詞／トリガード品詞／トリガリング単語の例／トリガード単語の例 ―――――――――――――――――――――――――――――――――― １／ＮＰ１ＬＯＣＮＭ／ＮＰ１ＳＴＡＴＥＮＭ／ Hill,County,Bay,Lake／Utah,Maine,Alaska ―――――――――――――――――――――――――――――――――― ２／ＪＪＳＹＳＴＥＭ／ＮＰ１ＯＲＧ／ national,federal,political／Party,Council,Department ―――――――――――――――――――――――――――――――――― ３／ＶＶＤＩＮＣＨＯＡＴＩＶＥ／ＶＶＤＰＲＯＣＥＳＳＩＶＥ／ caused,died,made,failed／began,happened,became ――――――――――――――――――――――――――――――――――

【００４１】

【表６】選択された文法規則のペアの一例 ―――――――――――――――――――――――――――――――――― 番号／選択された文法規則のペア／構文解析結果（番号のｂのところは、それぞれの例文を示す。） ―――――――――――――――――――――――――――――――――― １ａ／Interrupter Phrase→*Or-／ Sentence→Interrupter P+Phrasal Constit(Non-S) ―――――――――――――――――――――――――――――――――― １ｂ／Example:*,-／Ｅｘａｍｐｌｅ：＊ＤＩＧ．ＡＭ／ＦＭＴＵＮＥＲ ―――――――――――――――――――――――――――――――――― ２ａ／ＶＰ→Verb+Interrupter Phrase+Obj/Compl／ Interrupter Phrase→,+Interrupter+, ―――――――――――――――――――――――――――――――――― ２ｂ／Example:starring_surprise,surprise_men／ Example:,according to participants, ―――――――――――――――――――――――――――――――――― ３ａ／Noun Phrase→Simple Noun Phrase+Numerical／ Numerical→Numerical+PrepP with Numerical Obj ―――――――――――――――――――――――――――――――――― ３ｂ／Example:Lows around 50／ Example:(Snow level)6000 to 7000 ―――――――――――――――――――――――――――――――――― ４ａ／Verb Phrase→Adverb Phrase+Verb Phrase／ Auxiliary VP→Model/Auxilliary Verb+Not ―――――――――――――――――――――――――――――――――― ４ｂ／Example:just need to understand it／ Example:do not ―――――――――――――――――――――――――――――――――― ５ａ／Question→Be+NP+Object/Complement／ Quoted Phrasal Constit→”+Phrasal Constit+”** ―――――――――――――――――――――――――――――――――― ５ｂ／Example:Is it possible?／ Example:”Mutual funds are back.” ――――――――――――――――――――――――――――――――――

【００４２】本発明者は、これらのトリガーペア知識を
用いて、解析対象文に対して構文解析を行ったところ、
従来例に比較して、正解精度に深く関連するパープレキ
シティの減少率で品詞タグに対して、約３０％の改善が
みられ、文法規則に対して、約１５％の改善が見られ
た。ここで、パープレキシティは、正解候補の曖昧さを
示す指標である。

【００４３】以上説明したように、本発明に係る実施形
態によれば、トリガーペアと呼ばれる知識を統計的に抽
出するため、構文規則適用のための品詞と文法規則の尤
度の調整を自動的に行うことができる。また、構文規則
を適用するための品詞と文法規則の尤度を解析対象の前
に現れる語句により変化させることで、精度良く構文解
析することができる。

【００４４】

【発明の効果】以上詳述したように本発明に係る構文解
析装置によれば、複数の品詞のリストとその尤度を記憶
する第１の記憶装置と、複数の文法規則のリストとその
尤度を記憶する第２の記憶装置と、単語列からなる構文
解析済みテキストデータにおいて、処理対象文における
品詞と、上記処理対象文よりも前の所定数分の前文内に
おける品詞との間のトリガーペアと、上記処理対象文に
おける文法規則と、上記前文における文法規則との間の
トリガーペアとの頻度テーブルを記憶する第３の記憶装
置と、複数のトリガーペアとその平均相互情報量とを記
憶する第４の記憶装置と、単語列からなる構文解析済み
テキストデータに基づいて、処理対象文における品詞
と、上記前文内における品詞との間のトリガーペアと、
上記処理対象文における文法規則と、上記前文における
文法規則との間のトリガーペアとの頻度テーブルを生成
して上記第３の記憶装置に記憶し、上記各トリガーペア
の平均相互情報量を計算し、計算された平均相互情報量
の大きい順序に並べ替えた後、上記複数のトリガーペア
において平均相互情報量がより大きい上位から所定数の
トリガーペアを選択してその平均相互情報量とともに上
記第４の記憶装置に記憶する抽出手段と、単語列からな
る解析対象文である入力されるテキストデータに基づい
て、処理対象文よりも前の所定数分の前文内における品
詞と文法規則のリストを作成し、上記作成されたリスト
の品詞及び文法規則に対して一致する上記第４の記憶装
置に記憶された選択されたトリガーペアの品詞及び文法
規則を取り出して、上記第１と第２の記憶装置に記憶さ
れた品詞と文法規則の尤度を、上記取り出されたトリガ
ーペアの品詞及び文法規則の平均相互情報量の大きさに
応じて、上記平均相互情報量が大きいほど上記尤度を大
きくするように変化させて更新し、更新された品詞と文
法規則の尤度に基づいて、所定の構文解析アルゴリズム
の方法を用いて、処理対象文に対して適用する品詞及び
文法規則を決定して付与して、構文解析済みテキストデ
ータを出力する付与手段とを備える。

【００４５】従って、トリガーペアと呼ばれる知識を統
計的に抽出するため、構文規則適用のための品詞と文法
規則の尤度の調整を自動的に行うことができる。また、
構文規則を適用するための品詞と文法規則の尤度を解析
対象の前に現れる語句により変化させることで、精度良
く構文解析することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である、トリガーペ
ア抽出装置１０及び構文情報付与装置１１を備えた構文
解析システムのブロック図である。

【図２】図１のトリガーペア抽出装置１０によって実
行されるトリガーペア抽出処理を示すフローチャートで
ある。

【図３】図１の構文情報付与装置１１によって実行さ
れる構文情報付与処理を示すフローチャートである。

【符号の説明】

１０…トリガーペア抽出装置、１１…構文情報付与装置、２１…構文解析済みテキストデータメモリ、２２…品詞リストメモリ、２３…文法規則リストメモリ、２４…トリガーペア知識メモリ、２５，２６…ワーキングメモリ、３０…テキストデータメモリ、３１…構文解析済みテキストデータメモリ、４１…トリガーペア頻度テーブルメモリ、４２…トリガーペア平均相互情報量メモリ、４３…前文保持メモリ、４４…品詞及び文法規則リストメモリ、４５…該当知識メモリ、４６…前文保持メモリ。

フロントページの続き (72)発明者アンドリュー・フィンチ京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献Ｒ．Ｒｏｓｅｎｆｅｌｄ，”Ａｍａｘｉｍｕｍｅｎｔｒｏｐｙａｐｐｒｏａｃｈｔｏａｄａｐｔｉｖｅｓｔａｔｉｓｔｉｃａｌｌａｎｇｕａｇｅｍｏｄｅｌｌｉｎｇ”，ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｖｏｌ．10，Ｎｏ．３, ｐ．187−ｐ．228（1996) Ｅ．Ｂｌａｃｋ，Ａ．Ｆｉｎｃｈ, Ｈ．Ｋａｓｈｉｏｋａ，”Ｔｒｉｇｇｅｒ−ＰａｉｒＰｒｅｄｉｃｔｏｒｓｉｎＰａｒｓｉｎｇａｎｄＴａｇｇｉｎｇ”，ＣＯＬＩＮＧ−ＡＣＬ’98 ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅＶｏｌ. Ｉ，ｐ．131−ｐ．137（1998．８．10− 14) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/20 - 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の品詞のリストとその尤度を記憶す
る第１の記憶装置と、複数の文法規則のリストとその尤度を記憶する第２の記
憶装置と、単語列からなる構文解析済みテキストデータにおいて、
処理対象文における品詞と、上記処理対象文よりも前の
所定数分の前文内における品詞との間のトリガーペア
と、上記処理対象文における文法規則と、上記前文にお
ける文法規則との間のトリガーペアとの頻度テーブルを
記憶する第３の記憶装置と、複数のトリガーペアとその平均相互情報量とを記憶する
第４の記憶装置と、単語列からなる構文解析済みテキストデータに基づい
て、処理対象文における品詞と、上記前文内における品
詞との間のトリガーペアと、上記処理対象文における文
法規則と、上記前文における文法規則との間のトリガー
ペアとの頻度テーブルを生成して上記第３の記憶装置に
記憶し、上記各トリガーペアの平均相互情報量を計算
し、計算された平均相互情報量の大きい順序に並べ替え
た後、上記複数のトリガーペアにおいて平均相互情報量
がより大きい上位から所定数のトリガーペアを選択して
その平均相互情報量とともに上記第４の記憶装置に記憶
する抽出手段と、単語列からなる解析対象文である入力されるテキストデ
ータに基づいて、処理対象文よりも前の所定数分の前文
内における品詞と文法規則のリストを作成し、上記作成
されたリストの品詞及び文法規則に対して一致する上記
第４の記憶装置に記憶された選択されたトリガーペアの
品詞及び文法規則を取り出して、上記第１と第２の記憶
装置に記憶された品詞と文法規則の尤度を、上記取り出
されたトリガーペアの品詞及び文法規則の平均相互情報
量の大きさに応じて、上記平均相互情報量が大きいほど
上記尤度を大きくするように変化させて更新し、更新さ
れた品詞と文法規則の尤度に基づいて、所定の構文解析
アルゴリズムの方法を用いて、処理対象文に対して適用
する品詞及び文法規則を決定して付与して、構文解析済
みテキストデータを出力する付与手段とを備えたことを
特徴とする構文解析装置。
【請求項２】上記構文解析アルゴリズムの方法は、チ
ャート法であることを特徴とする請求項１記載の構文解
析装置。
【請求項３】上記付与手段は、上記第１と第２の記憶
装置に記憶された品詞と文法規則の尤度を、その品詞の
全体の数及びその文法規則の数に依存して変化し、それ
らの全体の数が大きいほど、尤度の変化量が小さくなる
ように変化して更新することを特徴とする請求項１又は
２記載の構文解析装置。