JPH05298349A - 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法 - Google Patents

共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法

Info

Publication number
JPH05298349A
JPH05298349A JP4099291A JP9929192A JPH05298349A JP H05298349 A JPH05298349 A JP H05298349A JP 4099291 A JP4099291 A JP 4099291A JP 9929192 A JP9929192 A JP 9929192A JP H05298349 A JPH05298349 A JP H05298349A
Authority
JP
Japan
Prior art keywords
occurrence
relation
word
frequency
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4099291A
Other languages
English (en)
Inventor
Atsuko Koizumi
敦子 小泉
Hiroyuki Kaji
博行 梶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4099291A priority Critical patent/JPH05298349A/ja
Publication of JPH05298349A publication Critical patent/JPH05298349A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明は、係り受けの曖昧性解消に有効な共
起関係知識の学習方法および学習システムを提供するこ
とを目的とする。また、係り受けの曖昧性解消に有効な
共起関係知識を記憶した共起関係辞書およびその利用方
法を提供することを目的とする。 【構成】 共起事例の統計情報(共起関係の出現頻度、
それぞれの語の出現頻度、それぞれの語にとっての共起
語の異なり語数)および共起事例の重み付け(共起関係
の強さ、名詞の係り自由度、述語の受け自由度)を共起
関係辞書に記憶するようにする。そして、共起関係知識
の学習において、前記統計情報を更新し、その結果を基
に共起事例の重み付けを計算する。係り受け解析におい
ては、共起事例の重み付けに基づいて、共起事例と一致
する係り受け候補の尤もらしさを評価するようにする。 【効果】 共起事例の偏りに起因する、共起事例の副作
用が防止できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システムなど
の自然言語処理システムにおける語と語の共起関係知識
の学習方法および学習システムに関し、特に係り受けの
曖昧性解消に好適な共起関係知識の学習方法および学習
システムに関する。また、そのような共起関係知識を記
憶した共起関係辞書およびその利用方法に関する。
【0002】
【従来の技術】従来より、機械翻訳システムなどの自然
言語処理システムにおいては、語と語の共起関係を利用
して機械翻訳を行なうものがあった。適切な共起関係知
識を数多く登録した共起関係辞書を用いることにより、
より適切な機械翻訳を行なうことができる。そのため、
共起関係知識の学習に関する技術が種々提案されてい
る。
【0003】例えば特開昭62−99865号公報に
は、例文の構文解析を行うことによって共起関係事例を
抽出し、出現件数の多い共起関係を有効なデータと判断
し、共起関係辞書に登録する共起関係辞書の保守方式が
開示されている(以下、従来技術(1)と呼ぶ)。これ
によれば、人手への依存度を減らして共起関係辞書の追
加や修正を行なえる。
【0004】また、特開平2−42572号公報には、
構文的曖昧性のない文の解析結果から語の共起関係を抽
出して知識ベースに蓄積する共起関係辞書の生成保守方
式が開示されている(以下、従来技術(2)と呼ぶ)。
これによれば、ある語と他の語の2項関係を検査しその
2項関係が曖昧でないもののみを共起関係辞書に登録す
るようにしているので、正しい共起関係のみが登録され
る。
【0005】さらに、共起関係知識を係り受け解析の手
がかりとして利用することに関する従来技術としては、
例えば特開平3−116373号に開示された技術(以
下、従来技術(3)と呼ぶ)がある。これは、係り語の
候補と受け語の候補に対し、共起関係辞書中にそれらの
2語ともに一致する共起関係データがある候補を最も共
起強度が強いと判断し、優先する方法である。2語とも
一致するデータが無いときは、意味分類が一致する解を
選ぶ。
【0006】
【発明が解決しようとする課題】ところで、共起関係知
識を係り受けの曖昧性解消に適用するには、共起関係の
事例を蓄積するだけでは不十分である。共起関係の事例
があるからといって共起関係が強いとは限らないし、事
例がないからといって共起しえないとは限らないからで
ある。例えば、上記従来技術(3)のように、複数の係
り受け候補のうち共起関係辞書に登録された共起データ
と一致するものを選択するという方法を取ると、下記
(例1)のように正解を導く場合もあるが、(例2)の
ような副作用も生じやすい。
【0007】 この例1では、係り語「増幅器で」に対し、「変調し
た」と「増幅する」の2つの受け語候補があるが、「変
調した」については共起データがなく、「増幅する」に
ついて共起データがあったので、「増幅器で」の係り先
を「増幅する」に飛ばしている。これは正解であった例
である。
【0008】 この例2では、係り語「機械で」に対し、「変調した」
と「増幅する」の2つの受け語候補があるが、「変調し
た」については共起データがなく、「増幅する」につい
て共起データがあったので、「機械で」の係り先を「増
幅する」に飛ばしている。これは係り受け関係を誤った
例であり、いわば共起データの副作用による誤りであ
る。
【0009】したがって、従来技術の(1)(2)いず
れを用いて共起関係辞書を学習したとしても、その辞書
を用いて係り受け関係を解析したときには上述したよう
な共起データの副作用による誤りが発生する可能性があ
る。
【0010】さらに、従来技術(1)のように出現件数
の多い共起関係を有効なデータと判断して登録するだけ
では、適切な係り受け解析の手がかりとなるような重み
付けをすることができない。共起の件数が多いからとい
って共起性が強いとは限らないからである。例えば、 (a)「増幅器で−増幅する」 (b)「増幅器で−処理する」 という2つの共起関係では、(a)の方が共起性が強い
という知識を学習することが望ましいが、(b)の方が
件数が多い可能性がある。
【0011】本発明は、前記問題点を解決するためにな
されたものであり、その目的は、係り受けの曖昧性解消
に有効な共起関係知識の学習方法および学習システムを
提供することにある。さらに、係り受けの曖昧性解消に
有効な共起関係知識を記憶した共起関係辞書およびその
利用方法を提供することを目的とする。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係る共起関係辞書は、共起関係データの重
みづけの指標となる次の〜の値、およびこれらを求
めるために必要な統計情報(共起関係の出現頻度、それ
ぞれの語の出現頻度、それぞれの語にとっての共起語の
異なり語数)を記憶するフィールドを設けるようにして
いる。そして、本発明に係る共起関係知識の学習方法お
よびそのシステムでは、入力文から共起関係の事例を得
るたびに共起関係辞書のこれらの値を更新するようにし
ている。
【0013】共起関係の強さ(述語と名詞の結び付き
易さ) 「XがYする」の共起性の強さ=(「XがYする」の出
現回数/「Xが」の出現回数)*(「XがYする」の出
現回数/「〜がYする」の出現回数) 係り自由度(多様な述語に係りうるか、特定の述語に
しか係らないか) 「Xで」の自由度=共起する述語の異なり語数/「X
で」の出現回数 受け自由度(述語の格スロットに入る名詞が多様かど
うか) 「〜でYする」の受け自由度=デ格で共起する名詞の異
なり語数/「〜でYする」の出現回数 また、本発明による共起関係知識(辞書)利用方法は、
係り受け解析において、次のステップを設けたことを特
徴とする。
【0014】共起データ評価ステップ 係り受け候補と一致する共起データがあるとき、共起関
係の強さ、係り語の係り自由度、受け語、および他の係
り先候補語の受け自由度に基づいて、該係り受け候補の
採否を決定する。
【0015】非共起関係推定ステップ 係り受け候補と一致する共起データがないとき、係り語
の係り自由度、受け語、および他の係り先候補語の受け
自由度に基づいて、該係り受け候補の採否を決定する。
【0016】
【作用】本発明の共起関係知識学習方法およびシステム
によれば、共起関係辞書には、共起関係の事例だけでな
く、次のような共起関係知識が蓄積されていく。
【0017】共起関係の強さ:例えば「増幅器が−増
幅する」は共起性が強いが、「増幅器が−ある」は共起
性が弱い。
【0018】係り自由度:「機械で」は係り自由度が
高く、多様な述語に係るが、「増幅器で」は限られた語
にしか係らない。
【0019】受け自由度:「〜で増幅する」の「〜」
に入る名詞は少ないが、「〜で得る」の「〜」に入る名
詞は多様である。
【0020】本発明の共起関係辞書利用方法は、上記の
共起関係知識に基づいて、係り受け候補と一致する共起
データの重みを評価するステップを含む。これは、以下
のごとく作用する。係り受け候補と一致する共起データ
が共起関係辞書にあるとき、共起関係が閾値よりも強け
れば、共起データに従って係り受けを決定する。逆に、
多様な述語と共起する名詞(例えば「機械で」)や多様
な名詞と共起する述語(例えば「得る」)を含む共起デ
ータで、かつ共起関係が弱いとき、共起データ(共起の
事例)があってもあてにならないと判断する。これによ
り、共起データの偏りに起因する、共起データの副作用
を防止する。
【0021】 この例1では、係り語「機械で」に対し、「変調した」
と「増幅する」の2つの受け語候補があり、「変調し
た」については共起データがなく、「増幅する」につい
て共起データがある。しかし、「増幅する」についての
共起データは共起性(共起関係の強さ)が低いので、
「増幅器で」の係先を「増幅する」に飛ばすことはしな
い。
【0022】本発明の共起関係辞書利用方法は、前述の
共起関係知識に基づいて非共起関係を推定するステップ
を含む。これは、以下のごとく作用する。係り受け関係
の候補になっている名詞と述語の共起自由度をみる。名
詞も述語も少ない語と共起する特殊な語であるにもかか
わらず、一致する共起データがない場合、それらは共起
しない可能性が高いと判断する。そして、別の候補と一
致する共起データがあれば、その候補を採用する。
【0023】 この例2では、係り語「増幅器が」に対し、「変調し
た」と「増幅する」の2つの受け語候補があり、「変調
した」については共起データがなく、「増幅する」につ
いて共起データがある。しかし、「増幅器が」について
の係り自由度と「変調した」の受け自由度はともに低
く、共起データもない。言い換えると、「増幅器が」と
「変調した」は少ない語と共起する特殊な語であるにも
かかわらず共起データがなかったということである。一
方、「増幅する」については共起データがあるので、
「増幅器が」の係先を「増幅する」に飛ばしている。
【0024】
【実施例】以下、本発明の一実施例を図面を用いて説明
する。この実施例は本発明を日英機械翻訳システムに適
用した例である。
【0025】図2は本発明の一実施例に係る日英機械翻
訳システムの構成図、図3はその日英機械翻訳システム
における語彙辞書のレコード内容の例を示す図、図4は
その日英機械翻訳システムにおける共起関係辞書の述語
レコードの内容の例を示す図、図5は共起関係辞書の名
詞レコードの内容の例を示す図である。
【0026】本実施例の日英機械翻訳システムは、図2
に示すように、処理装置1、入力装置2、出力装置3、
記憶装置4から構成される。
【0027】処理装置1は、翻訳処理や共起関係辞書の
更新処理等を実行する。入力装置2はテキストの入力や
修正に、出力装置3はテキストの表示に用いられるが、
本発明には直接は関係しない。
【0028】記憶装置4には、文法41、語彙辞書4
2、共起関係辞書43が記憶される。語彙辞書42のレ
コードは、図3に示すように、見出し語421、品詞4
22、意味コード423、格フレーム424を含む。格
フレーム424は、複数の格スロット4241からな
り、格スロット4241ごとに、意味条件4242、一
般化処理完了フラグ4243、出現性4244が記憶さ
れる。
【0029】意味条件4242は、格スロット4241
に入る語を意味コードによって一般化したもので、共起
事例をもとに学習する。一般化処理完了フラグ4243
は、学習中の格スロットと一般化処理(一般化処理につ
いては後に詳しく説明する)が完了した格スロットとを
区別するためのものである。出現性4244は、格スロ
ットの出現頻度に基づいて学習する。省略されにくい格
(例えば「〜を得る」)であれば出現性=2、出現しう
る格(例えば「〜の中にある」)であれば出現性=1、
出現しにくい格(例えば「〜の中に示す」)であれば出
現性=0とする。この出現性4244は、係り受け解析
の手がかりとして利用することができる。格の出現性の
学習については後に詳しく説明する。
【0030】共起事例は、共起関係辞書43の述語レコ
ードに蓄積される。共起関係辞書43の述語レコード
は、図4に示すように、述語4301、述語の頻度43
02(vf)、格関係スロット4303、格関係スロッ
ト4303に関する共起事例の出現頻度4304(vc
f)、共起語の異なり語数4305(m)、述語の受け
自由度4306、共起語4307、共起語の意味コード
4308、共起事例の出現頻度4309(vmf)、2
つの語の共起関係の強さ4310、および共起語の意味
コードが意味条件と一致するかどうかを示す一般化フラ
グ4311を含む。
【0031】述語の頻度4302(vf)は、幾つかの
共起事例を読み込んで解析した結果、その述語が検出さ
れた回数である。例えば、図4の述語「得る」の頻度4
302は「100」であるから、「得る」は100回出
現したことが分かる。格関係スロット4303は述語に
接続する格要素を示し、出現頻度4304(vcf)は
その各要素と述語が結び付いたものの出現頻度である。
例えば、図4の述語「得る」の格関係スロット「を」に
関する共起事例の出現頻度4304(vcf)は「10
0」であるから、「を得る」が100回出現したことが
分かる。共起語の異なり語数4305(m)は、共起語
4307として異なる語が幾つ出現したかを示す。「を
得る」の例では、共起語の異なり語数4305(m)が
「50」であるから、共起語4307には「文字列」
「装置」「値」などの50種類の共起語が登録されてい
ることとなる。
【0032】述語の受け自由度4306は、共起語の異
なり語数4305(m)を格関係スロット4303に関
する共起事例の出現頻度4304(vcf)で割った
「0」から「1」までの値(m/vcf)である。受け
自由度4306が小さい値であれば、その述語4301
には一定の数少ない共起語4307が共起する可能性が
高い。逆に、受け自由度4306が「1」に近い大きい
値であれば、その述語4301にはいろいろな数多い共
起語4307が共起していることとなる。
【0033】共起語の意味コード4308は、共起語4
307のそれぞれの意味を表すコードである。共起事例
の出現頻度4309(vmf)は、その述語4301と
各共起語とが共起した頻度である。例えば、図4の述語
「得る」の共起語「文字列」の出現頻度4309(vm
f)は「5」であるから、「を得る」が100回出現し
たうち「文字列を得る」が5回出現したことが分かる。
【0034】共起関係の強さ4310の計算式、および
一般化フラグ4311については後述する。
【0035】本発明の共起関係知識学習方式では、共起
事例を述語に関する知識として蓄えると同時に、名詞が
特定の述語と共起しやすいかどうかに関する知識も学習
していく。共起関係辞書43の名詞レコードは、図5に
示すように、名詞4321、名詞の出現頻度4322
(mf)、名詞の格4323、名詞が格4323で出現
した頻度4324(mcf)、名詞が格4323で共起
する述語の異なり語数4325(v)、および名詞の係
り自由度4326を含む。
【0036】名詞の出現頻度4322(mf)は、幾つ
かの共起事例を読み込んで解析した結果、その名詞が検
出された回数である。例えば、図5の名詞「機械」の出
現頻度4322(mf)は「20」であるから、「機
械」は20回出現したことが分かる。名詞の格4323
はその名詞に接続する各要素を示し、名詞が格4323
で出現した頻度4324(mcf)はその名詞と格が結
び付いたものの出現頻度である。例えば、図5の名詞
「機械」の格「で」の頻度4324(mcf)は「1
6」であるから、「機械で」が16回出現したことが分
かる。
【0037】名詞が格4323で共起する述語の異なり
語数4325(v)は、その名詞に共起する異なる述語
が幾つ出現したかを示す。「機械で」の例では、異なり
語数4325(v)が「12」であるから、「機械で」
に共起する述語が12種類あったということとなる。名
詞の係り自由度4326は、名詞が格4323で共起す
る述語の異なり語数4325(v)を名詞が格4323
で出現した頻度4324(mcf)で割った「0」から
「1」までの値(v/mcf)である。係り自由度43
26が小さい値であれば、その名詞4321には一定の
数少ない述語が共起する可能性が高い。逆に、係り自由
度4326が「1」に近い大きい値であれば、その名詞
4321にはいろいろな数多い述語が共起していること
となる。本実施例の日英翻訳システムでは、共起関係の
強さ(共起性)、係り語の係り自由度、係り先候補の受
け自由度を指標に、共起データと一致する係り受け候補
の採否を決定する。上述したように、これらの指標は次
のように計算する。
【0038】(1)共起関係の強さ=(vmf/mc
f)×(vmf/vcf) (2)係り自由度=v/mcf (3)受け自由度=m/vcf 図6は本実施例の日英翻訳システムの処理フローチャー
ト、図1は本実施例における共起関係知識学習の概要を
示すフローチャート、図8は本実施例における係り受け
の優先解決定の詳細を示すフローチャートである。
【0039】本実施例の日英機械翻訳システムにおける
翻訳処理の過程を図6に従って説明する。まず、処理装
置1は、入力装置2から入力された日本文を読み込み
(ステップ11)、文法41と語彙辞書42を参照しな
がら、入力文における語句の係り受け関係を解析する
(ステップ12)。係り受け解析のステップでは、成立
しうる係り受けの候補をすべて求める。例えば、「画面
に翻訳した文を表示した。」という文における「画面
に」の係り先として、「翻訳した」および「表示した」
の2つの受け語候補を得る。
【0040】次に、語彙辞書42に記憶されている格フ
レーム424(格の出現性と格に対する意味条件、すな
わち一般化された共起関係知識)および共起関係辞書4
3に記憶されている共起関係知識に基づいて、係り受け
の優先解として「画面に−表示した」を得る(ステップ
13)。さらに、曖昧性のない係り受け事例、例えば
「文を−表示した」から共起関係知識を学習し、共起関
係辞書43を更新する(ステップ14)。係り受けの優
先解に意味解釈をあたえることによって中間表現を求め
(ステップ15)、これに基づいて英文を生成し(ステ
ップ16)、出力装置3により出力する(ステップ1
7)。
【0041】以上の処理のうち、優先解決定ステップ1
3と共起関係知識学習ステップ14について、以下に詳
細に説明する。
【0042】図7は、優先解決定ステップ13における
処理フローチャートを示す。まず、共起関係辞書を検索
し、係り受け候補に関する共起関係知識を得る(ステッ
プ1301)。次に、曖昧性のある係り受け候補を対象
に、候補のしぼり込みを行なう。本実施例では、語レベ
ルの共起知識を格フレームよりも優先的に扱う。
【0043】語レベルの共起関係知識による係り受け候
補の絞り込みとしては、まず非共起事例と一致する候補
を排除し、係り受け非交差条件により、曖昧性が解消さ
れた係り受け候補と交差する係り受け候補を排除する
(ステップ1302)。係り受け非交差条件による枝刈
りは、以下、曖昧性解消の各ステップごとに行なう。次
に、共起データと一致する係り受け候補のうち、共起関
係の強さが閾値よりも強いものを採用し(ステップ13
03)、飛び越える別解の受け自由度が閾値よりも低い
ものを採用する(ステップ1304)。共起データと一
致する係り受け候補の採否に条件を付けるのは、共起デ
ータの副作用を防止するためである。例えば、「東京に
住んでいるおばが来た。」という文に対し、「東京に−
住む」という共起事例がなくて「東京に−来る」という
共起事例があるからといって、「東京に」の係り先を
「来た」に飛ばすという副作用を防止する。
【0044】語レベルの共起関係知識による係り受け候
補のしぼり込みに続いて、格フレームに基づく候補の絞
り込みを行なう(ステップ1305)。このステップで
は、述語が出現性=0の格を取るような係り受け候補を
排除した後、述語の格フレームの共起条件(意味条件)
に合うかどうかで候補を絞り、名詞がその格の出現性=
2の述語を飛び越えて別の述語に係るような係り受け候
補を排除する。
【0045】これまでの処理によって曖昧性が解消され
た係り受け候補を「曖昧性なし」と判定する(ステップ
1306)。曖昧性が残った場合には、「係り自由度が
閾値より低い語は受け自由度が閾値より低い語に係らな
い」というヒューリスティックスを適用する(ステップ
1307)。例えば、「増幅器が変調した信号を得
る。」という文に対し、「増幅器が得る」という共起事
例がなくても、「増幅器」は係り自由度が閾値より低
い、「変調する」はガ格に関する受け自由度が閾値より
低い、「得る」はガ格に関する受け自由度が閾値以上、
という共起関係知識に基づいて、「増幅器」は「得る」
に係ると判断する。「増幅器」も「変調する」も共に少
ない語と共起する特殊な語であるにもかかわらず、一致
する共起事例がないのだから、共起しない可能性が高い
という判断である。
【0046】最後に、曖昧性が残ったものに対し、最も
近い係り先を優先解とし(ステップ1308)、処理を
終了する。
【0047】次に、図1を参照して、共起関係知識学習
ステップ14について説明する。共起関係知識学習ステ
ップ14では、共起データの蓄積、格の出現性学習、共
起事例の一般化、一般化によって不要となった語レベル
の共起データの削除、非共起データの蓄積、の処理を行
う。
【0048】入力文中の係り受け事例(優先解)を読み
込み(ステップ1401)、曖昧性がなければ(ステッ
プ1402)、これを共起事例とみなし、以下の処理を
行なう。まず、係り受け事例と一致する非共起データを
削除し(ステップ1403)、共起事例を共起関係辞書
に記憶する。ただし、学習不要の共起データ(係り受け
事例が語彙辞書に意味コードによって一般化されて記述
されている共起条件と一致する場合で、かつ、係り語も
受け語もすでに一定の頻度以上出現していてその共起自
由度が学習済みである場合)は記憶しない(ステップ1
404、ステップ1405)。
【0049】共起データを蓄積した結果、述語の頻度が
一定以上(例えば「10」以上)であれば、(ステップ
1406)、格の出現性(述語にとってどの格が出現し
やすいか、出現しにくいか)を学習する(ステップ14
07)。さらに、述語の格スロットの出現頻度(vc
f)が一定以上(例えば「50」以上)であれば(ステ
ップ1408)、共起事例の一般化を行ない(ステップ
1409)、一般化の結果、語レベルの共起関係として
記憶しておく必要のなくなった共起データを削除する
(ステップ1410)。最後に、非共起データを共起関
係辞書に記憶する(ステップ1411)。
【0050】非共起データとして記憶するのは、共起関
係知識や前編集記号によって係り受け関係を否定された
候補である。例えば、図10の例文(18)からは、
「ファイルの中に−作成する」を非共起データとして記
憶する。入力文中の係り受け事例すべてについて上記の
処理を行ない、未処理の係り受け事例がなくなったら
(ステップ1412)、入力文に基づく共起関係知識の
学習を終える。
【0051】次に、共起関係知識学習ステップ14にお
ける各処理の詳細を図8から図15を用いて説明する。
【0052】(1)共起データ蓄積(図1のステップ1
405) 図8に、共起データ蓄積の処理フローチャートを示す。
まず、入力文から得た共起事例が図4に示す共起関係辞
書43の述語レコードに未登録であれば(ステップ14
0501)、新たに、共起語4307と該共起語の意味
コード4308を登録し、共起語の異なり語数4305
(m)を更新する(ステップ140502)。そして、
述語の出現頻度4302(vf)、述語の格スロットの
出現頻度4304(vcf)、共起事例の出現頻度43
09(vmf)を更新する(ステップ140503)。
同様に、図5に示す名詞レコードも更新する(ステップ
140504)。更新する値は、名詞の出現頻度432
2(mf)、名詞+格の出現頻度4324(mcf)、
共起語の異なり語数4325(v)である。
【0053】そして、これらの頻度情報を基に、共起関
係の強さ4310の値を更新する(ステップ14050
5)。また、述語の格スロットの出現頻度4304(v
cf)が一定の値(例えば「50」)に達した場合(ス
テップ140506)は、述語の受け自由度を求め、共
起関係辞書43に記憶する(ステップ140507)。
同様に、名詞+格の出現頻度4324(mcf)が一定
の値(例えば「50」)に達したら(ステップ1405
08)、名詞の係り自由度を計算し、名詞レコードに記
憶する(ステップ140508)。
【0054】(2)格の出現性学習(図1のステップ1
407) 図9に、格の出現性学習の処理フローチャートを示す。
語彙辞書42において、述語の格フレームには、すべて
の格の格スロットが設けられている。まず、第1の格ス
ロットについて(ステップ140701)、述語がその
格をともなって出現した頻度(vcf)をみる(ステッ
プ140702)。頻度が0の場合、非共起データが存
在すれば(ステップ140703)、述語がその格を取
る可能性=0と判断する(ステップ140705)。ま
た、非共起データが存在しなくても、述語の頻度が非常
に高いにもかかわらずその格の出現頻度が0であるなら
(ステップ140704)、述語がその格を取る可能性
=0と判断する。
【0055】述語の頻度に対し、その格の頻度が一定以
上である場合(例えば2回に1度はその格を取る場合)
は(ステップ140706)、その格を取る可能性が高
い(可能性=2)と判断し(ステップ140707)、
そうでない場合はその格を取りうる(可能性=1)と判
断する(ステップ140708)。以上の判断結果を語
彙辞書42に記憶し、次の格スロットへ進む(ステップ
140709)。すべての格スロットの出現性を学習し
終わるまで(ステップ140710)、同様の処理を繰
り返す。
【0056】図10に格の出現性の学習前の係り受け解
析結果の例を、図11に共起データ蓄積の結果を、図1
2に格の出現性の学習の結果を、図13に格の出現性の
学習語の係り受け解析結果の例を、それぞれ示す。この
例では、「入力する」や「示す」が「〜の中に」を取ら
ないことを学習することにより、例文(5)、例文(5
5)における係り受けの曖昧性が解消できるようになっ
たことを示している。 (3)共起事例一般化(図1のステップ1409) 図14に、共起事例一般化の処理フローチャートを示
す。まだ一般化されていない共起事例が一定以上(例え
ば「10」)あるとき(ステップ140901)、共起
事例の一般化を試みる。まず、一般化フラグ4311を
参照し、一般化されていない共起事例を意味コード別に
集める(ステップ140902)。ある意味コードにつ
いて、その意味コードを持つ共起名詞の異なり数が閾値
以上(例えば「10」)であれば(ステップ14090
6)、一般化できるだけの事例が集まったと判断し、そ
の意味コードを格フレームの共起条件に加え(ステップ
140907)、対応する共起事例に一般化フラグを立
てる(ステップ140908)。他の意味コードについ
ても同様の処理を行い(ステップ140909,140
910)、最終的に得られた共起条件を語彙辞書42に
登録する(ステップ140911)。
【0057】一般化されていない共起事例が1つもない
ときは(ステップ140903)、一般化が完了したと
判断し、語彙辞書42の述語の格フレームの当該格スロ
ットに、一般化完了フラグを立てる((ステップ140
904)。
【0058】(4)不要共起データ削除(図1のステッ
プ1410) 図15に、不要共起データ削除の処理フローチャートを
示す。当該格スロットの共起事例を1つ取り上げ(ステ
ップ141001)、語彙辞書42の格フレームに登録
されている共起条件と一致したら(ステップ14100
2)、共起関係の強さが閾値以上の場合(ステップ14
1003)、名詞+格の出現頻度が一定の値(本実施例
では「50」)に達しておらず、従って係り自由度が学
習済みでない場合(ステップ141004)を除いて、
該共起事例を共起関係辞書から削除する(ステップ14
1005)。当該格スロット内のすべての共起事例につ
いて上記の処理を行う(ステップ141006,141
007)。
【0059】以上、本発明の一実施例である機械翻訳シ
ステムにおける共起関係知識の学習と利用の方法を述べ
た。なお、本実施例では、共起関係知識を述語と名詞の
格関係に絞っているが、述語と述語、あるいは名詞と名
詞の並列関係、修飾関係等、格関係以外の関係を共起関
係知識に含めることも可能である。
【0060】
【発明の効果】本発明によれば、共起関係辞書の共起事
例と一致する係り受け候補があったとき、共起関係の強
さ、係り語の係り自由度、受け候補の受け自由度に基づ
いてその採否を決定しているので、共起データの副作用
を防止することができる。また、語の係り自由度、受け
自由度を学習することにより、共起事例がない係り受け
候補に対して、「共起しうるがたまたま事例がなかっ
た」のか、「共起しない組み合わせである」のかを判断
する手がかりが得られる。
【0061】さらに本発明によれば、共起事例を蓄えな
がら、適時、共起事例の一般化を行い、語レベルで記憶
しておく必要がなくなった共起事例を削除するので、共
起関係辞書をコンパクトに保つことができる。
【図面の簡単な説明】
【図1】本発明の実施例の日英翻訳システムにおける共
起関係知識学習の処理フローチャートである。
【図2】本発明の実施例の日英機械翻訳システムの構成
図である。
【図3】本発明の実施例の日英翻訳システムの語彙辞書
のレコード内容の例である。
【図4】本発明の実施例の日英翻訳システムの共起関係
辞書の述語レコードの内容の例である。
【図5】本発明の実施例の日英翻訳システムの共起関係
辞書の名詞レコードの内容の例である。
【図6】本発明の実施例の日英翻訳システムの処理フロ
ーチャートである。
【図7】本発明の実施例の日英翻訳システムにおける係
り受けの優先解決定の処理フローチャートである。
【図8】本発明の実施例の日英翻訳システムにおける共
起データ蓄積の処理フローチャートである。
【図9】本発明の実施例の日英翻訳システムにおける格
の出現性学習の処理フローチャートである。
【図10】本発明の実施例の日英翻訳システムにおける
格出現性学習前の係り受け解析結果である。
【図11】本発明の実施例の日英翻訳システムにおける
共起データ蓄積後の共起関係辞書のレコード内容であ
る。
【図12】本発明の実施例の日英翻訳システムにおける
格出現性学習後の語彙辞書のレコード内容である。
【図13】本発明の実施例の日英翻訳システムにおける
格出現性学習後の係り受け解析結果である。
【図14】本発明の実施例の日英翻訳システムにおける
共起事例一般化の処理フローチャートである。
【図15】本発明の実施例の日英翻訳システムにおける
不要共起事例削除の処理フローチャートである。
【符号の説明】
1:処理装置、2:入力装置、3:出力装置、4:記憶
装置、41:文法、42:語彙辞書、421:見出し
語、422:品詞、423:意味コード、424:格フ
レーム、4241:格スロット、4242:意味条件、
4243:一般化処理完了フラグ、4244:出現性、
43:共起関係辞書、4301:述語、4302:述語
の頻度(v)、4303:格関係スロット、4304:
格関係スロット4303に関する共起事例の出現頻度
(vcf)、4305:共起語の異なり語数(m)、4
306:述語の受け自由度、4307:共起語、430
8:共起語の意味コード、4309:共起事例の出現頻
度(vmf)、4310:共起関係の強さ、4311:
共起語の意味コードが意味条件といっちするかどうかを
示す一般化フラグ、4321:名詞、4322:名詞の
出現頻度(mf)、4323:名詞の格、4324:名
詞が格4323で出現した頻度(mcf)、4325:
名詞が格4323で共起する述語の異なり語数(v)、
4326:名詞の係り自由度。

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】テキストから語と語の共起事例を獲得し、
    共起関係辞書に蓄積する共起関係知識学習方法であっ
    て、該テキストから共起関係の出現頻度、各語の出現頻
    度、および共起語の異なり語数を検出するステップと、
    検出した共起関係の出現頻度、各語の出現頻度、および
    共起語の異なり語数を共起関係辞書に記憶するステップ
    とを備えたことを特徴とする共起関係知識学習方法。
  2. 【請求項2】前記共起関係の出現頻度および前記各語の
    出現頻度に基づいて、共起関係の強さを示す値を算出す
    るステップと、算出した共起関係の強さを示す値を前記
    共起関係辞書に記憶するステップとを、さらに備えた請
    求項1に記載の共起関係知識学習方法。
  3. 【請求項3】前記語の出現頻度および共起語の異なり語
    数に基づいて、語の共起自由度を示す値を算出するステ
    ップと、算出した語の共起自由度を示す値を前記共起関
    係辞書に記憶するステップとを、さらに備えた請求項1
    または2に記載の共起関係知識学習方法。
  4. 【請求項4】前記語の出現頻度が各述語の出現頻度およ
    びそれらの述語にともなう格の出現頻度を含み、さら
    に、該述語の出現頻度および格の出現頻度に基づいてそ
    れぞれの格の出現しやすさを示す出現性を算出するステ
    ップと、算出した出現性を語彙辞書に記憶するステップ
    とを備えた請求項1ないし3に記載の共起関係知識学習
    方法。
  5. 【請求項5】さらに、前記共起関係辞書に記憶した共起
    名詞が所定数以上あるときには、それらの共起語を意味
    コードに応じて分類し、ある意味コードについてその意
    味コードを有する共起名詞の異なり数が所定のしきい値
    以上であればその意味コードを一般化した共起条件とし
    て語彙辞書に記憶するステップを備えた請求項1ないし
    4に記載の共起関係知識学習方法。
  6. 【請求項6】さらに、前記一般化された共起条件に一致
    する共起関係データのうち、共起関係の強さが所定のし
    きい値より低くかつそれぞれの語の出現頻度が語の共起
    自由度の学習に必要な数を超えているデータを蓄積不要
    なデータと判定し、共起関係辞書から削除するステップ
    を備えた請求項5に記載の共起関係知識学習方法。
  7. 【請求項7】さらに、共起事例が前記一般化された共起
    条件と一致し、かつ係り語と受け語が共に共起自由度学
    習済であるとき、該共起事例を共起関係辞書に蓄積しな
    いステップを備えた請求項6に記載の共起関係知識学習
    方法。
  8. 【請求項8】テキストから語と語の共起事例を獲得し、
    共起関係辞書に蓄積する共起関係知識学習システムであ
    って、該テキストから共起関係の出現頻度、各語の出現
    頻度、および共起語の異なり語数を検出する手段と、検
    出した共起関係の出現頻度、各語の出現頻度、および共
    起語の異なり語数を共起関係辞書に記憶する手段とを備
    えたことを特徴とする共起関係知識学習システム。
  9. 【請求項9】前記共起関係の出現頻度および前記各語の
    出現頻度に基づいて、共起関係の強さを示す値を算出す
    る手段と、算出した共起関係の強さを示す値を前記共起
    関係辞書に記憶する手段とを、さらに備えた請求項8に
    記載の共起関係知識学習システム。
  10. 【請求項10】前記語の出現頻度および共起語の異なり
    語数に基づいて、語の共起自由度を示す値を算出する手
    段と、算出した語の共起自由度を示す値を前記共起関係
    辞書に記憶する手段とを、さらに備えた請求項8または
    9に記載の共起関係知識学習システム。
  11. 【請求項11】前記語の出現頻度が各述語の出現頻度お
    よびそれらの述語にともなう格の出現頻度を含み、さら
    に、該述語の出現頻度および格の出現頻度に基づいてそ
    れぞれの格の出現しやすさを示す出現性を算出する手段
    と、算出した出現性を語彙辞書に記憶する手段とを備え
    た請求項8ないし10に記載の共起関係知識学習システ
    ム。
  12. 【請求項12】さらに、前記共起関係辞書に記憶した共
    起名詞が所定数以上あるときには、それらの共起語を意
    味コードに応じて分類し、ある意味コードについてその
    意味コードを有する共起名詞の異なり数が所定のしきい
    値以上であればその意味コードを一般化した共起条件と
    して語彙辞書に記憶する手段を備えた請求項8ないし1
    1に記載の共起関係知識学習システム。
  13. 【請求項13】さらに、前記一般化された共起条件に一
    致する共起関係データのうち、共起関係の強さが所定の
    しきい値より低くかつそれぞれの語の出現頻度が語の共
    起自由度の学習に必要な数を超えているデータを蓄積不
    要なデータと判定し、共起関係辞書から削除する手段を
    備えた請求項12に記載の共起関係知識学習システム。
  14. 【請求項14】さらに、共起事例が前記一般化された共
    起条件と一致し、かつ係り語と受け語が共に共起自由度
    学習済であるとき、該共起事例を共起関係辞書に蓄積し
    ない手段を備えた請求項13に記載の共起関係知識学習
    システム。
  15. 【請求項15】共起事例の出現頻度、各語の出現頻度、
    共起語の異なり語数を記憶したことを特徴とする共起関
    係辞書。
  16. 【請求項16】共起事例の出現頻度、各語の出現頻度、
    共起語の異なり語数を記憶するとともに、該共起関係の
    出現頻度および各語の出現頻度に基づいて算出した共起
    関係の強さを示す値および該語の出現頻度および共起語
    の異なり語数に基づいて算出された語の共起自由度を示
    す値を記憶したことを特徴とする共起関係辞書。
  17. 【請求項17】自然語文の解析において係り受けの曖昧
    性を解消するために請求項15または16記載の共起関
    係辞書を利用する方法であって、該共起関係辞書に係り
    受け候補と一致する共起関係データがあるときには、共
    起関係の強さ、並びに係り語、受け語、および他の係り
    先候補語の共起自由度に基づいて該係り受け候補の採否
    を決定する共起データ評価ステップを備えたことを特徴
    とする共起関係辞書の利用方法。
  18. 【請求項18】自然語文の解析において係り受けの曖昧
    性を解消するために請求項15または16記載の共起関
    係辞書を利用する方法であって、該共起関係辞書に係り
    受け候補と一致する共起関係データがないとき、係り
    語、受け語、および他の係り先候補語の共起自由度に基
    づいて該係り受け候補の採否を決定する非共起関係推定
    ステップを備えたことを特徴とする共起関係辞書の利用
    方法。
JP4099291A 1992-04-20 1992-04-20 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法 Pending JPH05298349A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4099291A JPH05298349A (ja) 1992-04-20 1992-04-20 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4099291A JPH05298349A (ja) 1992-04-20 1992-04-20 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法

Publications (1)

Publication Number Publication Date
JPH05298349A true JPH05298349A (ja) 1993-11-12

Family

ID=14243541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4099291A Pending JPH05298349A (ja) 1992-04-20 1992-04-20 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法

Country Status (1)

Country Link
JP (1) JPH05298349A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175496A (ja) * 1993-12-18 1995-07-14 Ricoh Co Ltd 文生成装置
JPH08101836A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳の学習方法
JPH08190399A (ja) * 1995-01-09 1996-07-23 Ricoh Co Ltd 規則生成装置
JP2010122982A (ja) * 2008-11-20 2010-06-03 Nec Corp 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム
JP2013164751A (ja) * 2012-02-10 2013-08-22 Nippon Telegr & Teleph Corp <Ntt> 同義語抽出装置、方法、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175496A (ja) * 1993-12-18 1995-07-14 Ricoh Co Ltd 文生成装置
JPH08101836A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳の学習方法
JPH08190399A (ja) * 1995-01-09 1996-07-23 Ricoh Co Ltd 規則生成装置
JP2010122982A (ja) * 2008-11-20 2010-06-03 Nec Corp 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム
JP2013164751A (ja) * 2012-02-10 2013-08-22 Nippon Telegr & Teleph Corp <Ntt> 同義語抽出装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
US5418717A (en) Multiple score language processing system
EP0830668B1 (en) Systems and methods for word recognition
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5642522A (en) Context-sensitive method of finding information about a word in an electronic dictionary
US5659771A (en) System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5784489A (en) Apparatus and method for syntactic signal analysis
CA2351404A1 (en) Method and apparatus for improved part-of-speech tagging
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
EP1465155B1 (en) Automatic resolution of segmentation ambiguities in grammar authoring
CN113705207A (zh) 语法错误识别方法及装置
JPH05298349A (ja) 共起関係知識学習方法、そのシステム、並びに共起関係辞書およびその利用方法
JP2004005641A (ja) 単語の使用を訂正または改善させる方法および装置
JPH1139313A (ja) 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
CN114298048A (zh) 命名实体识别方法及装置
JPH08202737A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JPH09134410A (ja) 認識結果の確信度決定方法及び文字認識装置
JP4876329B2 (ja) 対訳確率付与装置、対訳確率付与方法並びにそのプログラム
JP3783053B2 (ja) 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置
JPH07175808A (ja) 自然言語処理装置
JP2775655B2 (ja) 省略語補完装置及び日本語解析システム
JP2008217529A (ja) テキスト分析装置およびテキスト分析プログラム
JP3308723B2 (ja) 統語解析装置
JP2005173753A (ja) 自然語辞書更新装置、更新方法、プログラム及び記録媒体
JP3358096B2 (ja) 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置