JP3308723B2 - 統語解析装置 - Google Patents

統語解析装置

Info

Publication number
JP3308723B2
JP3308723B2 JP19207094A JP19207094A JP3308723B2 JP 3308723 B2 JP3308723 B2 JP 3308723B2 JP 19207094 A JP19207094 A JP 19207094A JP 19207094 A JP19207094 A JP 19207094A JP 3308723 B2 JP3308723 B2 JP 3308723B2
Authority
JP
Japan
Prior art keywords
speech
sentence
knowledge base
word
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19207094A
Other languages
English (en)
Other versions
JPH0836575A (ja
Inventor
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP19207094A priority Critical patent/JP3308723B2/ja
Publication of JPH0836575A publication Critical patent/JPH0836575A/ja
Application granted granted Critical
Publication of JP3308723B2 publication Critical patent/JP3308723B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然言語理解や機械翻訳
における統語解析装置に関し、より具体的には、所定の
言語で記述された文を構成する語毎に辞書中の品詞の情
報を付加した形態素解析済の文を入力し、この入力文中
の個々の語の品詞を絞り込んだ後に入力文の構文を解析
する統語解析装置に関する。
【0002】
【従来の技術】所定の言語で記述された文を入力してシ
ステム内部で処理できる記述形式に変換する自然言語理
解や、更に目的言語に変換する機械翻訳における統語解
析では、入力文中の語がどのような品詞として働いてい
るかを決定し、その結果に基づいて入力文の構文を解析
している。従って、品詞の決定を誤ると、当然統語解析
処理全体が失敗することになる。このため、品詞を正し
く決定することが必要となるが、英語などの言語では重
要な語に多品詞語が多いため、語の品詞を正しく決定す
ることは容易でない。そこで、従来より、統語解析にお
いては統計的な手法により品詞の曖昧性の解消処理の精
度を高めるようにしている。
【0003】例えば品詞列連接確率を用いた品詞曖昧性
解消処理もその例である。これは、複数個の品詞の組み
合わせからなる品詞列毎にその品詞列が文中で現れる確
率を文例集等から洗い出してそれを品詞列連接知識ベー
スに登録しておき、形態素解析済の文の語に品詞の曖昧
性が存在する場合に、その文の全ての語の品詞の組み合
わせからなる品詞列の確率値を品詞列連接確率知識ベー
ス中の品詞列の確率から計算で求め、その確率値が最大
値となる品詞列に基づき品詞を唯一決定する手法であ
る。
【0004】
【発明が解決しようとする課題】ところで、統計的な手
法により品詞の曖昧性を解消する場合には、サンプル数
を十分に大きくする必要がある。しかしながら、サンプ
ル数が増えれば増えるほど知識ベース構築にかかわる利
用者の手間が比例的に増大することになる。そこで、い
わゆる学習機能を付加することにより、知識ベースを実
際の運用中に徐々に学習させていくことが考えられる。
【0005】一般に、所定の機能の精度を実際の運用中
に学習によりチューニングする方法としては、(1)特
開平2−114377号公報に見られるように、曖昧性
を含んだ品詞列とそれをシステムが処理して得た曖昧性
のない品詞列とから学習する方法、(2)特開平4−1
5748号公報に見られるように、システムが最も評価
の高いものとして出力した結果に対して利用者が次候補
の結果を選択した場合、この選択された次候補の結果に
基づき学習する方法等が知られている。しかしながら、
(1)の方法ではシステムが出す結果が必ずしも正しい
とは限らないため、間違ったデータを学習してしまう危
険性がある。これに対し(2)の方法では、利用者によ
って選択された正解データで学習するため間違ったデー
タを学習する危険は少なくなるが、利用者の介入が必要
となるため、利用者に負担がかかるという問題がある。
【0006】本発明はこのような事情に鑑みて提案され
たものであり、その目的とするところは、品詞の曖昧性
解消処理で参照される知識ベースの内容を実際の運用中
に利用者の介入無しに正しくチューニングすることがで
きる統語解析装置を提供することにある。
【0007】
【課題を解決するための手段】本発明は、統語解析装置
において、曖昧性を含んだ品詞列を処理したとき、支障
なく構文解析を行えたからといって品詞の決定が正しか
ったとは断定できず、従って、前記(1)のようにその
場合に決定された品詞列に基づいて学習することは誤っ
たデータで学習してしまう危険性があるが、その逆の場
合、つまり構文解析が破綻したときには品詞の決定処理
自体が誤っていたと考えて良く、従ってそのような品詞
の決定が行われ難くするように学習すれば知識ベースの
内容を正しい方向にチューニングできるという点に着目
してなされたものであり、所定の言語で記述された文を
構成する語毎に辞書中の品詞の情報を付加した形態素解
析済の文を入力し、該入力文中の個々の語の品詞に曖昧
性が存在する場合に知識ベースを参照して品詞の曖昧性
を解消した後に前記入力文の構文を解析する統語解析装
であって、所定数の品詞の組み合わせからなる品詞列
毎にその品詞列が文中で現れる確率を記憶した知識ベー
スと、前記形態素解析済の文に含まれる語の品詞に曖昧
性が存在する場合に、その文に含まれる語の品詞の並び
として可能性のある複数の候補品詞列のそれぞれについ
て、そこに含まれる前記所定数の連続する品詞からなる
品詞列を全て特定し、この特定した品詞列に対して前記
知識ベースに記憶された確率を互いに掛け合わせて積を
求め、品詞の曖昧性が存在する語の品詞を、前記複数の
候補品詞列のうち前記積を最大とする候補品詞列におけ
るその語の品詞に絞り込む品詞曖昧性解消手段と、該品
詞曖昧性解消手段で決定された各語の品詞の情報に基づ
き、前記入力文の構文解析を行う構文解析手段と、該構
文解析手段による構文解析が破綻したことを検出する統
語解析破綻検出手段と、該統語解析破綻検出手段によっ
て構文解析が破綻したことが検出された場合に、前記知
識ベースに記憶された確率のうち、前記絞り込まれた品
詞を含む、所定数の連続する品詞からなる品詞列に対応
する確率を、予め定められた値だけ小さくする知識ベー
ス更新手段とを備えている。
【0008】
【作用】本発明の統語解析装置においては、所定数の品
詞の組み合わせからなる品詞列毎にその品詞列が文中で
現れる確率を記憶した知識ベースを備え、品詞曖昧性解
消手段が、形態素解析結果に含まれる語に品詞の曖昧性
が存在する場合に、その文に含まれる語の品詞の並びと
して可能性のある複数の候補品詞列のそれぞれについ
て、そこに含まれる所定数の連続する品詞からなる品詞
列を全て特定し、この特定した品詞列に対して知識ベー
スに記憶された確率を互いに掛け合わせて積を求め、品
詞の曖昧性が存在する語の品詞を、その複数の候補品詞
列のうちその積を最大とする候補品詞列におけるその語
の品詞に絞り込み、次いで構文解析手段が、品詞曖昧性
解消手段で決定された各語の品詞の情報に基づき、入力
文の構文解析を行う。そして、構文解析手段による構文
解析が破綻すると、そのことを統語解析破綻検出手段が
検出し、知識ベース更新手段が、知識ベースに記憶され
た確率のうち、上記の絞り込まれた品詞を含む、所定数
の連続する品詞からなる品詞列に対応する確率を、予め
定められた値だけ小さくする
【0009】
【実施例】次に本発明の実施例について図面を参照して
詳細に説明する。
【0010】図1を参照すると、本発明の一実施例の統
語解析装置1は、品詞曖昧性解消手段11と、統語解析
破綻検出手段12を含む構文解析手段13と、知識ベー
ス14と、知識ベース更新手段15と、語格納手段16
とで構成されている。なお、2は入力装置、3は形態素
解析装置、4は辞書である。
【0011】入力装置2は、例えばキーボードの如きも
ので、所定の言語、たとえば本実施例では英語で記述さ
れた文を入力する。
【0012】辞書4は、英語で表現された文の解析に必
要な知識のうち語彙的なものを蓄積したものであり、形
態素解析のための形態素レベルの情報等を保持する。
【0013】形態素解析装置3は、入力装置2から入力
された英文に対して、辞書4を引きながらその英文がど
のような語(形態素)から構成されているかを明らかに
する形態素解析を行う部分である。この形態素解析装置
3は、語区間を決定し、各々の語に対して辞書内容をロ
ードし、例えばチャートの形式で解析結果を統語解析装
置1に伝達する。なお、形態素解析で語の品詞の決定ま
で実行する場合もあるが、本発明では語の品詞の決定は
統語解析装置1で行われるため、形態素解析装置3では
認定した語に対し辞書4中の品詞の情報を付与するだけ
で品詞の決定は行わない。
【0014】統語解析装置1は、形態素解析装置3から
形態素解析済の文を入力し、この入力文中の個々の語の
品詞を絞り込むと共に入力文の構文を解析して、その結
果である統語解析結果を出力する装置である。この統語
解析結果は図示しない意味解析装置に伝達され利用され
る。
【0015】知識ベース14は、本実施例の場合、所定
の品詞の組み合わせからなる品詞列毎にその品詞列が
文中で現れる確率を記憶した品詞列連接確率知識ベース
を使用している。図2はこのような知識ベース14に格
納される1つの品詞列連接確率の情報を示しており、3
つの品詞の列とその確率とで構成されている。ここで、
品詞としては、名詞,形容詞,副詞,限定詞,動詞等が
採用され、確率としては0以上、1以下の値が用いられ
る。例えば、名詞,名詞,名詞という品詞列に対して確
率0.02 、名詞, 限定詞, 限定詞という品詞列に対して
確率0が登録されている。これらは所定の文例集を調べ
た結果に基づいて予め登録したものである。
【0016】品詞曖昧性解消手段11は、入力文中の語
に品詞の曖昧性がある場合にそれを解消する手段であ
り、その処理の一例を図3に示す。同図に示すように、
語認定と辞書引きが終了した入力文が形態素解析装置3
から入力されると、品詞曖昧性解消手段11は、品詞が
曖昧な語が存在するか否かを調べ(S1)、全ての語に
品詞の曖昧性がなければ、形態素解析装置3から伝達さ
れた解析結果をそのまま構文解析手段13に伝達し(S
2)、処理を終了する。
【0017】他方、1つの語でも品詞に曖昧性があれ
ば、以下の方法で品詞の曖昧性を解消する(S3)。先
ず、入力文の語数がnであるとき、 i ;位置iにおける語の統語解釈 s(W);統語解釈Wの品詞 tri(s1,s2,s3);品詞列s1,s2,s3
の出現確率 であり、s(W)は形態素解析装置3で辞書4からロー
ドされて解析結果中に付与されたものが使用され、tr
i(s1,s2,s3)は知識ベース14から与えられ
る。次に、上記の各列{Wi }のPの値が最大の列に基
づき、各語の品詞を唯一決定する。
【0018】そして、品詞の曖昧性を解消した語につい
ては語格納手段16に格納し(S4)、決定した品詞を
含む処理結果を構文解析手段13に伝達し(S5)、処
理を終了する。
【0019】構文解析手段13は、品詞曖昧性解消手段
11によって品詞が一意に決定された入力文に対し、図
4に示すように通常の構文解析処理S11を行って構文
を解析し、解析結果を出力する手段である(S20)。
ここで、品詞が正しく決定されていれば一般に破綻なく
構文解析処理が終了するが、品詞の決定が誤っている
と、或る段階で統語解析を進めていく上で矛盾が発生し
てシステムが許容できない状態に陥り、構文解析処理が
破綻する。
【0020】構文解析手段13中の統語解析破綻検出手
段12はこのような状態が発生したことを検出する手段
である。統語解析破綻検出手段12は構文解析処理が破
綻したことを検出すると(図4のS12)、品詞曖昧性
解消手段11から伝達された解析結果中の各語のうち、
語格納手段16に格納されている、品詞の曖昧性を解消
した語を第1,第2,第3品詞とする3つの品詞列を求
め(S13)、知識ベース更新手段15に伝達して知識
ベース14の更新を要求する(S14)。そして、その
更新終了後に再び品詞曖昧性解消手段11から処理を再
度行わせる(S18)。この動作は、構文解析が破綻な
く終了するか、或いは予め定められた再処理回数に達す
るまで繰り返される。このため、図4の処理では、構文
解析処理が破綻なく終了した時点でステップS19に示
すように0に初期化されるカウンタCNTを設け、統語
解析破綻検出手段12では、ステップS15で再処理回
数を計数し、ステップS16で予め定められた回数MA
Xと比較することで、再処理を行うか、統語解析を断念
するかを切り分けている。なお、統語解析を断念した場
合には、統語解析が失敗した旨が出力として得られる
(S17)。
【0021】知識ベース更新手段15は、統語解析破綻
検出手段12から伝達された各品詞列について知識ベー
ス14に登録されている確率を予め定められた値だけ小
さく変更する手段である。
【0022】以下、このように構成された本実施例の動
作を説明する。
【0023】今、図5の51に示すような英文、すなわ
ち、She is just being polit
e.という英文が入力装置2から入力されたとすると、
形態素解析装置3はこの英文を形態素解析し、図5の5
2に示すように「She」,「is」,「just」,
「being」,「polite」,「.」という語を
認定し、各々の語に辞書4中の品詞の情報を付与し、統
語解析装置1に伝達する。なお、この例において品詞の
曖昧性があるのは「just」のみである。
【0024】統語解析装置1の品詞曖昧性解消手段11
は、形態素解析装置3による形態素解析済の文に対し、
図3に示す処理を実行する。今の場合、品詞が曖昧な語
が存在するのでステップS1からステップS3へ進み、
知識ベース14を参照して前述した方法で品詞を絞り込
み、唯一の品詞を決定する。この場合、前記の式F1を
用いて、 列{W1 }=代名詞,be動詞,形容詞,be動詞,形
容詞,記号 列{W2 }=代名詞,be動詞,副詞,be動詞,形容
詞,記号 という2つの列についてPの値が求められ、その最大値
の列に基づき品詞が決定される。今、列{W1 }のP値
の方が大きかったとすると、品詞曖昧性解消手段11の
処理結果は図5の53に示すものとなり、「just」
の品詞が形容詞と決定される。
【0025】次に構文解析手段13は、品詞曖昧性解消
手段11によって品詞の曖昧性が解消された文に対して
通常の構文解析S11を実施し、問題がなければ入力文
の構造を決定して統語解析結果を出力する(S20)。
しかしながら、構文解析中に予め定義された、システム
が許容できないデータの状態が発生する等して構文解析
が破綻すると、これが統語解析破綻検出手段12で検出
される(S12)。例文の場合、「just」を形容詞
として認定しているので、図5の54に示すように「S
he is just」で単文が構成され、「bein
g polite」を分詞構文と認定するが、その2つ
の節の関係をシステムが許容できず、その時点で構文解
析が破綻することになる。
【0026】統語解析破綻検出手段12は、構文解析手
段13の入力となった図5の符号53に示す品詞曖昧性
解消手段11の出力と、語格納手段16に格納されてい
る品詞の曖昧性が解消された語「just」とから、 (1)代名詞,be動詞,形容詞 (2)be動詞,形容詞,be動詞 (3)形容詞,be動詞,形容詞 という3つの品詞列を作成し(S13)、知識ベース更
新手段15に伝達して更新を要求する(S14)。
【0027】知識ベース更新手段15は、知識ベース1
4に格納されている、 (1)代名詞,be動詞,形容詞 (2)be動詞,形容詞,be動詞 (3)形容詞,be動詞,形容詞 という品詞列に対応する確率を所定値だけ小さくする。
【0028】以上の知識ベース14の更新が終了する
と、品詞曖昧性解消手段11から再び処理が開始される
(S18)。このとき、前記(1)〜(3)の品詞列の
確率が下げられているため、「just」が再び形容詞
と決定される確率が低下することになる。但し、「ju
st」が副詞と決定されるか否かは、知識ベース14中
の、 (1)代名詞,be動詞,副詞 (2)be動詞,副詞,be動詞 (3)副詞,be動詞,形容詞 に対応する確率との関係で定まるため、直ちに「副詞」
と決定されるとは限らないが、何度か繰り返しているう
ちに最後には、この例文および同様な構造の文において
「just」を副詞と認定することになる。従って、そ
れ以降、例えば、He is just being
sarcastic.という文が入力された場合、品詞
曖昧性解消手段11は「just」を形容詞でなく副詞
と判断することにより、正しい統語解析が可能となる。
【0029】
【発明の効果】以上説明したように本発明によれば、実
際の運用中に知識ベースの内容を利用者の介入無しに学
習することができ、然も構文解析が破綻したことを契機
にその原因となった品詞列が次回以降より低い確率で決
定されるように知識ベースを更新するので間違ったデー
タで学習してしまう危険性も少なくなり、品詞曖昧性解
消処理の精度を利用者の介入なしに徐々に高めていくこ
とができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例のブロック図である。
【図2】知識ベースに格納される品詞列連接確率情報の
例を示す図である。
【図3】品詞曖昧性解消手段の処理例を示すフローチャ
ートである。
【図4】構文解析手段および統語解析破綻検出手段の処
理例を示すフローチャートである。
【図5】入力文の処理の状況の遷移図である。
【符号の説明】
1…統語解析装置 2…入力装置 3…形態素解析装置 4…辞書 11…品詞曖昧性解消手段 12…統語解析破綻検出手段 13…構文解析手段 14…知識ベース 15…知識ベース更新手段 16…語格納手段

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 所定の言語で記述された文を構成する語
    毎に辞書中の品詞の情報を付加した形態素解析済の文を
    入力し、該入力文中の個々の語の品詞に曖昧性が存在す
    る場合に知識ベースを参照して品詞の曖昧性を解消した
    後に前記入力文の構文を解析する統語解析装置であっ
    て、 所定数の品詞の組み合わせからなる品詞列毎にその品詞
    列が文中で現れる確率を記憶した知識ベースと、 前記形態素解析済の文に含まれる語の品詞に曖昧性が存
    在する場合に、その文に含まれる語の品詞の並びとして
    可能性のある複数の候補品詞列のそれぞれについて、そ
    こに含まれる前記所定数の連続する品詞からなる品詞列
    を全て特定し、この特定した品詞列に対して前記知識ベ
    ースに記憶された確率を互いに掛け合わせて積を求め、
    品詞の曖昧性が存在する語の品詞を、前記複数の候補品
    詞列のうち前記積を最大とする候補品詞列におけるその
    語の品詞に絞り込む品詞曖昧性解消手段と、 該品詞曖昧性解消手段で決定された各語の品詞の情報に
    基づき、前記入力文の構文解析を行う構文解析手段と、 該構文解析手段による構文解析が破綻したことを検出す
    る統語解析破綻検出手段と、 該統語解析破綻検出手段によって構文解析が破綻したこ
    とが検出された場合に、前記知識ベースに記憶された確率のうち、前記絞り込ま
    れた品詞を含む、所定数の連続する品詞からなる品詞列
    に対応する確率を、予め定められた値だけ小さくする
    識ベース更新手段とを備えることを特徴とする統語解析
    装置。
  2. 【請求項2】 前記知識ベース更新手段による前記知識
    ベースの更新後、前記品詞曖昧性解消手段から統語解析
    処理を再実行することを特徴とする請求項1記載の統語
    解析装置。
JP19207094A 1994-07-22 1994-07-22 統語解析装置 Expired - Fee Related JP3308723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19207094A JP3308723B2 (ja) 1994-07-22 1994-07-22 統語解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19207094A JP3308723B2 (ja) 1994-07-22 1994-07-22 統語解析装置

Publications (2)

Publication Number Publication Date
JPH0836575A JPH0836575A (ja) 1996-02-06
JP3308723B2 true JP3308723B2 (ja) 2002-07-29

Family

ID=16285135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19207094A Expired - Fee Related JP3308723B2 (ja) 1994-07-22 1994-07-22 統語解析装置

Country Status (1)

Country Link
JP (1) JP3308723B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5071373B2 (ja) 2006-02-27 2012-11-14 日本電気株式会社 言語処理装置、言語処理方法および言語処理用プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2714238B2 (ja) * 1990-08-30 1998-02-16 キヤノン株式会社 文字処理装置
JPH05250405A (ja) * 1991-05-10 1993-09-28 Ricoh Co Ltd 構文解析装置

Also Published As

Publication number Publication date
JPH0836575A (ja) 1996-02-06

Similar Documents

Publication Publication Date Title
US5485372A (en) System for underlying spelling recovery
US6424983B1 (en) Spelling and grammar checking system
US5477448A (en) System for correcting improper determiners
US5799269A (en) System for correcting grammar based on parts of speech probability
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
US7788085B2 (en) Smart string replacement
US5845306A (en) Context based system for accessing dictionary entries
GB2234614A (en) Machine translation apparatus
JP2000200291A (ja) 選択された文字列をテキスト内で自動検出する方法
Yannakoudakis et al. An intelligent spelling error corrector
Siklósi et al. Context-aware correction of spelling errors in Hungarian medical documents
Ehsan et al. Towards grammar checker development for Persian language
US20020087604A1 (en) Method and system for intelligent spellchecking
JP3308723B2 (ja) 統語解析装置
JPH05151261A (ja) 時制推敲支援システム
JPH10240739A (ja) 情報検索装置および情報検索方法
Stein Preserving Semantic Information from Old Dictionaries: Linking Senses of the ‘Altfranzösisches Wörterbuch’to WordNet
JP3856515B2 (ja) 文書校正装置
JP2595047B2 (ja) 日本文誤り自動検定・訂正装置
JPH07200592A (ja) 文章処理装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JP2719453B2 (ja) 機械翻訳装置
JP2595043B2 (ja) 日本文誤り自動検定装置
JPH07105215A (ja) 句構造抽出装置および構文チェック装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130517

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees