JP3126952B2 - 構文解析装置 - Google Patents

構文解析装置

Info

Publication number
JP3126952B2
JP3126952B2 JP10222736A JP22273698A JP3126952B2 JP 3126952 B2 JP3126952 B2 JP 3126952B2 JP 10222736 A JP10222736 A JP 10222736A JP 22273698 A JP22273698 A JP 22273698A JP 3126952 B2 JP3126952 B2 JP 3126952B2
Authority
JP
Japan
Prior art keywords
speech
sentence
trigger
rule
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10222736A
Other languages
English (en)
Other versions
JP2000057141A (ja
Inventor
秀紀 柏岡
エズラ・ダブリュー・ブラック
アンドリュー・フィンチ
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP10222736A priority Critical patent/JP3126952B2/ja
Publication of JP2000057141A publication Critical patent/JP2000057141A/ja
Application granted granted Critical
Publication of JP3126952B2 publication Critical patent/JP3126952B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列を含む文章
のテキストデータに対して、構文構造を自動的に付与す
る構文解析装置に関する。
【0002】
【従来の技術】従来より、構文解析のために統計的な情
報を利用した手法(以下、従来例という。)が提案され
ており、その手法は、例えば従来技術文献「Michael Co
llins,”Three Generative, Lexicalised Models for S
tatistical Parsing”,The proceedings of ACL,pp.16-
23,1997年」において開示されている。
【0003】この従来例では、各文法規則に尤度を付与
し、その値によって適用する規則を選択し、構文構造の
曖昧性を解消する。この手法では、文法規則に付与する
尤度を、一定量の構文解析済みテキストデータにおいて
使われている文法規則の統計量により決定している。
【0004】
【発明が解決しようとする課題】従って、従来例では、
全体として利用頻度の低い文法規則は、適用されること
がほとんどないが、このような利用頻度の低い文法規則
であっても、特定の条件のもとでは、頻繁に利用される
ことがある。このような場合、特定の条件のもとでは、
解析を誤ってしまう。すなわち、従来例では、確率付き
文脈自由文法を利用して構文構造の解析を行っている
が、統計的な構文規則適用の尤度を、予め求めた一定値
で処理するため、特定の条件では尤度が高くなるが、当
初の尤度が低い規則の処理に問題があり、構文解析結果
に誤りが多発するという問題点があった。
【0005】本発明の目的は以上の問題点を解決し、従
来例に比較してより高い精度で構文情報を付与すること
ができる構文解析装置を提供することにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の構文解析装置は、複数の品詞のリストとその尤度を
記憶する第1の記憶装置と、複数の文法規則のリストと
その尤度を記憶する第2の記憶装置と、単語列からなる
構文解析済みテキストデータにおいて、処理対象文にお
ける品詞と、上記処理対象文よりも前の所定数分の前文
内における品詞との間のトリガーペアと、上記処理対象
文における文法規則と、上記前文における文法規則との
間のトリガーペアとの頻度テーブルを記憶する第3の記
憶装置と、複数のトリガーペアとその平均相互情報量と
を記憶する第4の記憶装置と、単語列からなる構文解析
済みテキストデータに基づいて、処理対象文における品
詞と、上記前文内における品詞との間のトリガーペア
と、上記処理対象文における文法規則と、上記前文にお
ける文法規則との間のトリガーペアとの頻度テーブルを
生成して上記第3の記憶装置に記憶し、上記各トリガー
ペアの平均相互情報量を計算し、計算された平均相互情
報量の大きい順序に並べ替えた後、上記複数のトリガー
ペアにおいて平均相互情報量がより大きい上位から所定
数のトリガーペアを選択してその平均相互情報量ととも
に上記第4の記憶装置に記憶する抽出手段と、単語列か
らなる解析対象文である入力されるテキストデータに基
づいて、処理対象文よりも前の所定数分の前文内におけ
る品詞と文法規則のリストを作成し、上記作成されたリ
ストの品詞及び文法規則に対して一致する上記第4の記
憶装置に記憶された選択されたトリガーペアの品詞及び
文法規則を取り出して、上記第1と第2の記憶装置に記
憶された品詞と文法規則の尤度を、上記取り出されたト
リガーペアの品詞及び文法規則の平均相互情報量の大き
さに応じて、上記平均相互情報量が大きいほど上記尤度
を大きくするように変化させて更新し、更新された品詞
と文法規則の尤度に基づいて、所定の構文解析アルゴリ
ズムの方法を用いて、処理対象文に対して適用する品詞
及び文法規則を決定して付与して、構文解析済みテキス
トデータを出力する付与手段とを備えたことを特徴とす
る。
【0007】また、請求項2記載の構文解析装置は、請
求項1記載の構文解析装置において、上記構文解析アル
ゴリズムの方法は、チャート法であることを特徴とす
る。
【0008】さらに、請求項3記載の構文解析装置は、
請求項1又は2記載の構文解析装置において、上記付与
手段は、上記第1と第2の記憶装置に記憶された品詞と
文法規則の尤度を、その品詞の全体の数及びその文法規
則の数に依存して変化し、それらの全体の数が大きいほ
ど、尤度の変化量が小さくなるように変化して更新する
ことを特徴とする。
【0009】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0010】図1は、本発明に係る一実施形態である、
トリガーペア抽出装置10及び構文情報付与装置11を
備えた構文解析システムのブロック図である。この実施
形態の構文解析システムは、トリガーペア抽出装置10
と、構文情報付与装置11とを備えて構成され、トリガ
ーペア抽出装置10は、単語列からなる構文情報付き文
が予め記憶された構文解析済みテキストデータメモリ2
1から読み出されて入力される学習用テキストデータの
解析対象文の一定範囲内で前に現れている語句と解析対
象との間で、構文規則の適用に関連するトリガーペアと
呼ばれる知識を抽出してトリガーペア知識としてトリガ
ーペア知識メモリ24に出力して記憶し、次いで、構文
情報付与装置11は、テキストデータメモリ30に予め
記憶された、単語列からなるテキストデータの解析対象
文に対して、トリガーペア知識メモリ24に記憶された
トリガーペア知識を参照して、文法規則リストメモリ2
3内の尤度をトリガーペアの持つ平均相互情報量に応じ
て、平均相互情報量が大きければ尤度が大きくなるよう
に変化させて更新し、更新された文法規則リストメモリ
23内の文法規則に従って公知のチャート法を用いて構
文情報を付与することにより構文解析済みテキストデー
タを得て構文解析済みテキストデータメモリ31に出力
して記憶することを特徴としている。
【0011】本実施形態では、従来例の手法の問題点を
解決するために、解析対象文の前に処理した所定の一定
範囲内(ウインドウサイズW個)の文で解析に使われて
いた品詞及び文法規則により、品詞及び文法規則の尤度
を変化させることで、適切な文法規則を適用させる。こ
の実施形態では、品詞と品詞、あるいは、文法規則と文
法規則のトリガーペアと、そのトリガーペアでの尤度の
更新値を含むトリガーペアと呼ぶ知識を利用する。トリ
ガーペアに現れる、品詞と品詞、あるいは、文法規則と
文法規則のペアは、その知識を利用するきっかけになる
トリガリング品詞あるいはトリガリング規則と、尤度を
変化させる対象となるトリガード品詞あるいはトリガー
ド規則から構成される。このトリガーペアは、構文解析
済みテキストデータメモリ21内の一定量の学習用構文
解析済みテキストデータからトリガーペア抽出装置10
により抽出される。
【0012】まず、トリガーペア抽出装置10によるト
リガーペアの知識の抽出法について述べる。トリガーペ
ア抽出装置10には、品詞リストとその尤度を予め記憶
した品詞リストメモリ22と、文法規則リストとその尤
度を予め記憶した文法規則リストメモリ23と、ワーキ
ングメモリ25とが接続され、ワーキングメモリ25
は、トリガーペア頻度テーブルメモリ41と、トリガー
ペアメモリ42と、前文保持メモリ43とを備える。ト
リガーペア抽出装置10は、構文解析済みテキストデー
タを構文解析済みテキストデータメモリ21からトリガ
ーペア抽出装置10に順次読み込み、当該テキストデー
タを読み込むときに、W個前の文までは前文保持メモリ
43に記憶して保持する。構文解析済み(分析済み)テ
キストデータは、例えば、以下のように単語と品詞を”
_”でつなぎ、句や節を”[規則名”と”規則名]”で
まとめた表現をしている。
【0013】
【数1】[nbarq4 [nbar1 [n1a m
eeting_NN1INTER−ACTn1a] n
bar1] [i1e [p1 in_IIIN[nb
ar1 [n1a London_NP1CITYNM
n1a] nbar1]p1] i1e] nbar
q4]
【0014】品詞リストメモリ22内に記憶される品詞
リストの一例を表1に示す。ここで、尤度は、構文解析
済みテキストデータにおいて出現した品詞の出現頻度に
応じた尤度であり、この尤度は出現頻度であってもよ
い。
【0015】
【表1】 品詞リストの一例 ―――――――――――――――――――――――――――――――――― 品詞の記号:その説明 尤度 ―――――――――――――――――――――――――――――――――― NP1LOCNM:地名名詞 67 NP1STATENM:州名名詞 45 JJSYSTEM:組織形容詞 57 NP1ORG:組織名詞 90 VVDINCHOATIVE:動作動詞過去形 35 VVDPROCESSIVE:経過動詞過去形 15 …… : …… …… ――――――――――――――――――――――――――――――――――
【0016】文法規則リストメモリ23内に記憶される
文法規則リストの一例を表2に示す。ここで、尤度は、
構文解析済みテキストデータにおいて出現した文法規則
の出現頻度に応じた尤度であり、この尤度は出現頻度で
あってもよい。
【0017】
【表2】 文法規則リストの一例 ―――――――――――――――――――――――――――――――――― 記号:文法規則 尤度 説明 ―――――――――――――――――――――――――――――――――― nbarq4:N’→N’I 99 名詞句 nbar1:N’→N1 32 名詞句 n1a:N1→N* 21 名詞要素 i1e:I→P 56 前置詞句 p1:P→II*N’ 11 前置詞要素 … : … …… …… ――――――――――――――――――――――――――――――――――
【0018】また、各文法規則における記号の説明を表
3に示す。この表では、実施例で示すトリガーペアの知
識に現れる文法規則の記号の一部を説明するために示し
ている。
【0019】
【表3】 各文法規則における記号の説明 ―――――――――――――――――――――――――――――――――― 記号:文法規則:記号の説明 ―――――――――――――――――――――――――――――――――― itrpt1:Interrupter Phrase→*Or-:挿入句開始記号 ―――――――――――――――――――――――――――――――――― s:Sentence→Interrupter P+Phrasal C onstit(Non-S):挿入文 ―――――――――――――――――――――――――――――――――― vbari2:VP→Verb+Interrupter Phrase+Obj/Compl:挿入句を含む動詞句 ―――――――――――――――――――――――――――――――――― itrpt2:Interrupter Phrase→,+Interrupter+,:挿入節 ―――――――――――――――――――――――――――――――――― nbar3:Noun Phrase→SimpleNoun Phrase+Numerical:名詞句 ―――――――――――――――――――――――――――――――――― nbarn4:Numerical→Numerical+PrepP with Numerical Obj:数詞句 ―――――――――――――――――――――――――――――――――― vbar5:Verb Phrase→Adverb Phrase+Verb Phrase:動詞句 ―――――――――――――――――――――――――――――――――― avbar1:Auxiliary VP→Model/Auxilliary Verb+Not:補助動詞句 ―――――――――――――――――――――――――――――――――― sq1:Question→Be+NP+Object/Complement:疑問文 ―――――――――――――――――――――――――――――――――― sp1:Quoted Phrasal Constit→”+Phrasal Constit+”:引用符付挿入節 ―――――――――――――――――――――――――――――――――― …: …… : …… ――――――――――――――――――――――――――――――――――
【0020】トリガーペア抽出装置10は、読み込まれ
るテキストデータにおいて、現在の処理対象文に現れる
品詞及び文法規則と、前文保持メモリ43で保持してい
るW個の文に現れる品詞及び文法規則との間で、考えら
れる全てのトリガーペアに対して、平均相互情報量(Av
erage Mutual Information)を算出する。クラスXとク
ラスYとの間の理論的な平均相互情報量I(X;Y)
は、以下の式で定義される。
【0021】
【数2】 I(X;Y) =H(X)−H(X|Y) = Σ Σ P(x,y)log2{P(x,y)/(P(x)・P(y))} x∈Ax y∈A
【0022】ここで、Hは、クラスのモノグラムのエン
トロピーであり、Iはテキストデータ内の隣接する2つ
のクラスx,yに関する平均相互情報量である。ここ
で、大文字はクラスを表し、小文字はクラスの要素を表
す。P(x,y)はxとyが共起する場合の頻度確率を
示し、P(x)はクラスの要素xの頻度確率を表し、P
(y)はクラスの要素yの頻度確率を表す。
【0023】実際には、構文解析済みテキストデータメ
モリ21内の処理対象文に現れる品詞あるいは規則をw
とし、保持しているW個の文に現れる品詞あるいは文法
規則をtとした場合、以下の式で計算される。P(w,
t)はw,tがともに現れる場合の確率であり、P
(w,/t)はwが現れてtが現れない場合の確率であ
り、P(/w,t)は、wが現れず、tが現れる場合の
確率であり、P(/w,/t)は、w、tがともに現れ
ない場合の確率である。
【0024】
【数3】 I(w;t) =P(w,t)log{P(w,t)/(P(w)・P(t))} +P(w,/t)log2{P(w,/t)/(P(w)・P(/t))} +P(/w,t)log2{P(/w,t)/(P(/w)・P(t))} +P(/w,/t)log2{P(/w,/t)/(P(/w)・P(/t))}
【0025】品詞と品詞のトリガーペアと、文法規則と
文法規則のトリガーペアのそれぞれの頻度を、テキスト
データについて計数して、次の表のように作成して記憶
する。ここで、品詞と品詞のトリガーペアは、保持して
いるW個の文に現れるトリガリング品詞と、処理対象文
に現れるトリガード品詞とからなり、そのトリガーペア
で頻度が計数される。また、文法規則と文法規則のトリ
ガーペアは、保持しているW個の文に現れるトリガリン
グ文法規則と、処理対象文に現れるトリガード文法規則
とからなり、そのトリガーペアで頻度が計数される。
【0026】
【表4】 トリガーペア頻度テーブルの一例 ―――――――――――――――――――――――――――――――――― トリガリング トリガード 頻度 品詞又は文法規則 品詞又は文法規則 ―――――――――――――――――――――――――――――――――― pos1 pos2 np1 pos4 pos5 np2 …… …… …… rule1 rule3 nr1 rule1 rule10 nr2 …… …… …… ―――――――――――――――――――――――――――――――――― (注)pos(n)は品詞記号であり、rule(n)は文法規則記号である。
【0027】各トリガリング品詞及び各トリガリング規
則に対して、上述の式を用いて平均相互情報量を計算し
て、トリガーペア平均相互情報量メモリ42に記憶した
のち、平均相互情報量の大きい順に所定数n個(本実施
形態では、n=50)のトリガーペアを選択してトリガ
ーペア知識メモリ24に記憶してトリガーペア知識とし
て利用する。
【0028】次に、このようにして得られたトリガーペ
アの知識を利用した、構文情報付与装置11による構文
情報付与処理について述べる。構文情報付与装置11に
は、品詞リストメモリ22と、文法規則リストメモリ2
3と、ワーキングメモリ26とが接続され、ワーキング
メモリ26は、品詞及び文法規則リストメモリ44と、
該当知識メモリ45とを備える。
【0029】まず、構文情報付与装置11は、処理すべ
きテキストデータをテキストデータメモリ30から順次
読み込む。その際に、直前のW個の文のテキストを前文
保持メモリ46に保持して記憶しておく。保持している
W個の文に現れる品詞、又は文法規則と一致するトリガ
リング品詞、又はトリガリング文法規則をもつトリガー
ペアを、トリガーペア知識メモリ24内のトリガーペア
知識から取り出す。取り出したトリガーペア知識に含ま
れるトリガード品詞、トリガード文法規則に対応する、
各品詞、各文法規則の尤度を、そのトリガーペアの持つ
平均相互情報量に応じて変更して更新する。この尤度の
変更は、平均相互情報量が大きいほど尤度を大きくなる
ように変更する。その一例を以下に示す。
【0030】文法規則Ri(i=1,2,…,n)に対
して、トリガーペアに表されるトリガリング文法規則R
Tj、トリガード文法規則RTIj、平均相互情報量H
jがあったときに、その文法規則の尤度C(Ri)を次
式のように変更する。ここで、Dは定数であり、例え
ば、尤度の中央値である。また、品詞の尤度についても
同様に変更する。
【0031】
【数4】 C(Ri) =C(RTIj)+D×(Hj/log10n);Ri=RTIjのとき =C(Ri)−D×(Hj/log10n)×(1/n);Ri≠RTIjのとき
【0032】ここで、数4から明らかなように、構文情
報付与装置11は、メモリ22,23に記憶された品詞
と文法規則の尤度を、その品詞の全体の数及びその文法
規則の数に依存して変化し、それらの全体の数が大きい
ほど、尤度の変化量が小さくなるように変化して更新す
る。
【0033】そして、構文情報付与装置11は、現在、
処理対象になっている文を左から右に、公知のチャート
法により文法規則にしたがって解析し、適用している文
法規則の尤度の積算値の高い解析候補の構文情報を解析
対象文に対して付与して解析結果として構文解析済みテ
キストデータメモリ31に出力して記憶する。
【0034】図2は、図1のトリガーペア抽出装置10
によって実行されるトリガーペア抽出処理を示すフロー
チャートである。まず、ステップS1においてテキスト
データメモリ21から学習用テキストデータを読み込
む。このとき、処理対象の文よりもW個の文を前文保持
メモリ43に記憶しておく。次いで、ステップS2にお
いて読み込んだ学習用テキストデータにおいて、ウィン
ドウサイズW[文]内での品詞及び文法規則のペアの頻
度テーブルを作成してトリガーペア頻度テーブルメモリ
41に記憶する。そして、ステップS3において各トリ
ガーペアの平均相互情報量を計算してトリガーペア平均
相互情報量メモリ42に記憶し、ステップS4において
トリガーペア平均相互情報量メモリ42中のトリガーペ
ア候補において平均相互情報量の大きい順序に並びかえ
てトリガーペア平均相互情報量メモリ42の内容を更新
する。ステップS5においてトリガーペア平均相互情報
量メモリ42中のトリガーペア候補の中で平均相互情報
量が大きいものから順に上位n個までのトリガーペアと
その平均相互情報量を選択トリガーペアとして選択し
て、トリガーペア知識メモリ24に出力して記憶する。
すなわち、トリガーペア知識メモリ24には、使用頻度
が高いトリガーペアとその平均相互情報量とが記憶され
る。
【0035】図3は、図1の構文情報付与装置11によ
って実行される構文情報付与処理を示すフローチャート
である。まず、ステップS11においてテキストデータ
メモリ30から構文解析すべきテキストデータ(解析対
象文)を読み込む。このとき、処理対象の文よりもW個
の文を前文保持メモリ46に記憶しておく。次いで、ス
テップS12において処理対象の解析対象文よりも直前
に処理したW個の文で使用されていた品詞及び文法規則
のリストを作成して品詞及び文法規則リストメモリ44
に記憶し、ステップS13において品詞及び文法規則リ
ストメモリ44内のリストの各項目(ここで、項目と
は、品詞又は文法規則である。)に対してトリガーペア
知識メモリ24の各項目に一致する知識データを取り出
して該当知識メモリ44に記憶する。さらに、ステップ
S14において該当知識メモリ44内のトリガード項目
に対応する文法規則リストメモリ23内の文法規則の尤
度をそのペアの持つ平均相互情報量に応じて変化させて
更新する。また、品詞の尤度も同様に変化させて更新す
る。最後に、ステップS15において更新された文法規
則リストメモリ23内の文法規則リスト及び品詞リスト
メモリ22内の品詞リストに従って公知のチャート法を
用いて適用する品詞及び文法規則を決定することによ
り、品詞及び文法規則等の構文情報を付与して、出力デ
ータとしてテキストデータメモリ31に出力して記憶す
る。
【0036】公知のチャート法では、完成した部分解析
木を記録するWFEST(Well Formed Substring Tabl
e)法の拡張として、完成した部分解析木と未完成な部分
木を記録するチャートと呼ばれるデータ構造を用いる。
チャートは弧と頂点から成るグラフ構造であって、完成
した部分解析木は不活性孤と呼ばれ、空所を持つ未完成
な部分解析木は活性孤と呼ばれる。チャート法では、活
性孤がその空所と同じラベルを持つ不活性孤と結合して
新しい弧を生成することを繰り返す。最終的には、文を
ラベルに持つ不活性孤ができれば、構文解析が成功した
ことになる。
【0037】本実施形態では、構文解析アルゴリズムと
して、チャート法を用いているが,本発明はこれに限ら
ず、CKY法やLR法などの他の公知の構文解析アルゴ
リズムを用いてもよい。
【0038】以上の実施形態において、トリガーペア抽
出装置10及び構文情報付与装置11は、例えばデジタ
ル計算機によって構成され、各メモリ21,22,2
3,24,25,26,30,31は、例えばハードデ
ィスクメモリで構成される。
【0039】
【実施例】本発明者は、上述の構文解析システムを用い
て実験を行い、以下の実験結果を得た。トリガーペアを
抽出するための構文解析済みテキストデータとして、W
SJ(ウォールストリートジャーナル)及び、本特許出
願人が所有する旅行会話に関するデータベースによるト
リガーペアの抽出結果を以下に示す。
【0040】
【表5】 選択された品詞のトリガーペア ―――――――――――――――――――――――――――――――――― 番号/トリガリング品詞/トリガード品詞/ トリガリング単語の例/トリガード単語の例 ―――――――――――――――――――――――――――――――――― 1/NP1LOCNM/NP1STATENM/ Hill,County,Bay,Lake/Utah,Maine,Alaska ―――――――――――――――――――――――――――――――――― 2/JJSYSTEM/NP1ORG/ national,federal,political/Party,Council,Department ―――――――――――――――――――――――――――――――――― 3/VVDINCHOATIVE/VVDPROCESSIVE/ caused,died,made,failed/began,happened,became ――――――――――――――――――――――――――――――――――
【0041】
【表6】 選択された文法規則のペアの一例 ―――――――――――――――――――――――――――――――――― 番号/選択された文法規則のペア/ 構文解析結果 (番号のbのところは、それぞれの例文を示す。) ―――――――――――――――――――――――――――――――――― 1a/Interrupter Phrase→*Or-/ Sentence→Interrupter P+Phrasal Constit(Non-S) ―――――――――――――――――――――――――――――――――― 1b/Example:*,-/ Example:*DIG.AM/FM TUNER ―――――――――――――――――――――――――――――――――― 2a/VP→Verb+Interrupter Phrase+Obj/Compl/ Interrupter Phrase→,+Interrupter+, ―――――――――――――――――――――――――――――――――― 2b/Example:starring_surprise,surprise_men/ Example:,according to participants, ―――――――――――――――――――――――――――――――――― 3a/Noun Phrase→Simple Noun Phrase+Numerical/ Numerical→Numerical+PrepP with Numerical Obj ―――――――――――――――――――――――――――――――――― 3b/Example:Lows around 50/ Example:(Snow level)6000 to 7000 ―――――――――――――――――――――――――――――――――― 4a/Verb Phrase→Adverb Phrase+Verb Phrase/ Auxiliary VP→Model/Auxilliary Verb+Not ―――――――――――――――――――――――――――――――――― 4b/Example:just need to understand it/ Example:do not ―――――――――――――――――――――――――――――――――― 5a/Question→Be+NP+Object/Complement/ Quoted Phrasal Constit→”+Phrasal Constit+”** ―――――――――――――――――――――――――――――――――― 5b/Example:Is it possible?/ Example:”Mutual funds are back.” ――――――――――――――――――――――――――――――――――
【0042】本発明者は、これらのトリガーペア知識を
用いて、解析対象文に対して構文解析を行ったところ、
従来例に比較して、正解精度に深く関連するパープレキ
シティの減少率で品詞タグに対して、約30%の改善が
みられ、文法規則に対して、約15%の改善が見られ
た。ここで、パープレキシティは、正解候補の曖昧さを
示す指標である。
【0043】以上説明したように、本発明に係る実施形
態によれば、トリガーペアと呼ばれる知識を統計的に抽
出するため、構文規則適用のための品詞と文法規則の尤
度の調整を自動的に行うことができる。また、構文規則
を適用するための品詞と文法規則の尤度を解析対象の前
に現れる語句により変化させることで、精度良く構文解
析することができる。
【0044】
【発明の効果】以上詳述したように本発明に係る構文解
析装置によれば、複数の品詞のリストとその尤度を記憶
する第1の記憶装置と、複数の文法規則のリストとその
尤度を記憶する第2の記憶装置と、単語列からなる構文
解析済みテキストデータにおいて、処理対象文における
品詞と、上記処理対象文よりも前の所定数分の前文内に
おける品詞との間のトリガーペアと、上記処理対象文に
おける文法規則と、上記前文における文法規則との間の
トリガーペアとの頻度テーブルを記憶する第3の記憶装
置と、複数のトリガーペアとその平均相互情報量とを記
憶する第4の記憶装置と、単語列からなる構文解析済み
テキストデータに基づいて、処理対象文における品詞
と、上記前文内における品詞との間のトリガーペアと、
上記処理対象文における文法規則と、上記前文における
文法規則との間のトリガーペアとの頻度テーブルを生成
して上記第3の記憶装置に記憶し、上記各トリガーペア
の平均相互情報量を計算し、計算された平均相互情報量
の大きい順序に並べ替えた後、上記複数のトリガーペア
において平均相互情報量がより大きい上位から所定数の
トリガーペアを選択してその平均相互情報量とともに上
記第4の記憶装置に記憶する抽出手段と、単語列からな
る解析対象文である入力されるテキストデータに基づい
て、処理対象文よりも前の所定数分の前文内における品
詞と文法規則のリストを作成し、上記作成されたリスト
の品詞及び文法規則に対して一致する上記第4の記憶装
置に記憶された選択されたトリガーペアの品詞及び文法
規則を取り出して、上記第1と第2の記憶装置に記憶さ
れた品詞と文法規則の尤度を、上記取り出されたトリガ
ーペアの品詞及び文法規則の平均相互情報量の大きさに
応じて、上記平均相互情報量が大きいほど上記尤度を大
きくするように変化させて更新し、更新された品詞と文
法規則の尤度に基づいて、所定の構文解析アルゴリズム
の方法を用いて、処理対象文に対して適用する品詞及び
文法規則を決定して付与して、構文解析済みテキストデ
ータを出力する付与手段とを備える。
【0045】従って、トリガーペアと呼ばれる知識を統
計的に抽出するため、構文規則適用のための品詞と文法
規則の尤度の調整を自動的に行うことができる。また、
構文規則を適用するための品詞と文法規則の尤度を解析
対象の前に現れる語句により変化させることで、精度良
く構文解析することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である、トリガーペ
ア抽出装置10及び構文情報付与装置11を備えた構文
解析システムのブロック図である。
【図2】 図1のトリガーペア抽出装置10によって実
行されるトリガーペア抽出処理を示すフローチャートで
ある。
【図3】 図1の構文情報付与装置11によって実行さ
れる構文情報付与処理を示すフローチャートである。
【符号の説明】
10…トリガーペア抽出装置、 11…構文情報付与装置、 21…構文解析済みテキストデータメモリ、 22…品詞リストメモリ、 23…文法規則リストメモリ、 24…トリガーペア知識メモリ、 25,26…ワーキングメモリ、 30…テキストデータメモリ、 31…構文解析済みテキストデータメモリ、 41…トリガーペア頻度テーブルメモリ、 42…トリガーペア平均相互情報量メモリ、 43…前文保持メモリ、 44…品詞及び文法規則リストメモリ、 45…該当知識メモリ、 46…前文保持メモリ。
フロントページの続き (72)発明者 アンドリュー・フィンチ 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 R.Rosenfeld,”A ma ximum entropy appr oach to adaptive s tatistical languag e modelling”,Compu ter Speech and Lan guage,Vol.10,No.3, p.187−p.228(1996) E.Black,A.Finch, H.Kashioka,”Trigge r−Pair Predictors in Parsing and Tag ging”,COLING−ACL’98 Proceedings of th e Conference Vol. I,p.131−p.137(1998.8.10− 14) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の品詞のリストとその尤度を記憶す
    る第1の記憶装置と、 複数の文法規則のリストとその尤度を記憶する第2の記
    憶装置と、 単語列からなる構文解析済みテキストデータにおいて、
    処理対象文における品詞と、上記処理対象文よりも前の
    所定数分の前文内における品詞との間のトリガーペア
    と、上記処理対象文における文法規則と、上記前文にお
    ける文法規則との間のトリガーペアとの頻度テーブルを
    記憶する第3の記憶装置と、 複数のトリガーペアとその平均相互情報量とを記憶する
    第4の記憶装置と、 単語列からなる構文解析済みテキストデータに基づい
    て、処理対象文における品詞と、上記前文内における品
    詞との間のトリガーペアと、上記処理対象文における文
    法規則と、上記前文における文法規則との間のトリガー
    ペアとの頻度テーブルを生成して上記第3の記憶装置に
    記憶し、上記各トリガーペアの平均相互情報量を計算
    し、計算された平均相互情報量の大きい順序に並べ替え
    た後、上記複数のトリガーペアにおいて平均相互情報量
    がより大きい上位から所定数のトリガーペアを選択して
    その平均相互情報量とともに上記第4の記憶装置に記憶
    する抽出手段と、 単語列からなる解析対象文である入力されるテキストデ
    ータに基づいて、処理対象文よりも前の所定数分の前文
    内における品詞と文法規則のリストを作成し、上記作成
    されたリストの品詞及び文法規則に対して一致する上記
    第4の記憶装置に記憶された選択されたトリガーペアの
    品詞及び文法規則を取り出して、上記第1と第2の記憶
    装置に記憶された品詞と文法規則の尤度を、上記取り出
    されたトリガーペアの品詞及び文法規則の平均相互情報
    量の大きさに応じて、上記平均相互情報量が大きいほど
    上記尤度を大きくするように変化させて更新し、更新さ
    れた品詞と文法規則の尤度に基づいて、所定の構文解析
    アルゴリズムの方法を用いて、処理対象文に対して適用
    する品詞及び文法規則を決定して付与して、構文解析済
    みテキストデータを出力する付与手段とを備えたことを
    特徴とする構文解析装置。
  2. 【請求項2】 上記構文解析アルゴリズムの方法は、チ
    ャート法であることを特徴とする請求項1記載の構文解
    析装置。
  3. 【請求項3】 上記付与手段は、上記第1と第2の記憶
    装置に記憶された品詞と文法規則の尤度を、その品詞の
    全体の数及びその文法規則の数に依存して変化し、それ
    らの全体の数が大きいほど、尤度の変化量が小さくなる
    ように変化して更新することを特徴とする請求項1又は
    2記載の構文解析装置。
JP10222736A 1998-08-06 1998-08-06 構文解析装置 Expired - Fee Related JP3126952B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10222736A JP3126952B2 (ja) 1998-08-06 1998-08-06 構文解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10222736A JP3126952B2 (ja) 1998-08-06 1998-08-06 構文解析装置

Publications (2)

Publication Number Publication Date
JP2000057141A JP2000057141A (ja) 2000-02-25
JP3126952B2 true JP3126952B2 (ja) 2001-01-22

Family

ID=16787104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10222736A Expired - Fee Related JP3126952B2 (ja) 1998-08-06 1998-08-06 構文解析装置

Country Status (1)

Country Link
JP (1) JP3126952B2 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
E.Black,A.Finch,H.Kashioka,"Trigger−Pair Predictors in Parsing and Tagging",COLING−ACL’98 Proceedings of the Conference Vol.I,p.131−p.137(1998.8.10−14)
R.Rosenfeld,"A maximum entropy approach to adaptive statistical language modelling",Computer Speech and Language,Vol.10,No.3,p.187−p.228(1996)

Also Published As

Publication number Publication date
JP2000057141A (ja) 2000-02-25

Similar Documents

Publication Publication Date Title
US7333927B2 (en) Method for retrieving similar sentence in translation aid system
US6539348B1 (en) Systems and methods for parsing a natural language sentence
US6990439B2 (en) Method and apparatus for performing machine translation using a unified language model and translation model
Sedláček et al. A new Czech morphological analyser ajka
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US7349839B2 (en) Method and apparatus for aligning bilingual corpora
JP4676181B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
US6505157B1 (en) Apparatus and method for generating processor usable data from natural language input data
US7124074B2 (en) Method and apparatus for providing improved HMM POS tagger for multi-word entries and factoids
US20020046018A1 (en) Discourse parsing and summarization
US7328404B2 (en) Method for predicting the readings of japanese ideographs
US7398210B2 (en) System and method for performing analysis on word variants
JP4493397B2 (ja) テキスト圧縮装置
US20080154835A1 (en) Using finite-state networks to store weights in a finite-state network
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP3126952B2 (ja) 構文解析装置
Mammadov et al. Part-of-speech tagging for azerbaijani language
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
WO2003003241A1 (en) Predictive cascading algorithm for multi-parser architecture
Chowdhury et al. Parts of speech tagging of bangla sentence
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
Sedlácek et al. Automatic Processing of Czech Inflectional and Derivative Morphology
Lyon et al. Reducing the Complexity of Parsing by a Method of Decomposition.
JP3027553B2 (ja) 構文解析装置
JP2000305938A (ja) 文書情報検索装置およびコンピュータを文書情報検索装置として機能させるためのコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees