JP2778025B2 - 共起関係辞書の学習方法 - Google Patents

共起関係辞書の学習方法

Info

Publication number
JP2778025B2
JP2778025B2 JP62197423A JP19742387A JP2778025B2 JP 2778025 B2 JP2778025 B2 JP 2778025B2 JP 62197423 A JP62197423 A JP 62197423A JP 19742387 A JP19742387 A JP 19742387A JP 2778025 B2 JP2778025 B2 JP 2778025B2
Authority
JP
Japan
Prior art keywords
dictionary
occurrence relation
word
language
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62197423A
Other languages
English (en)
Other versions
JPS6441971A (en
Inventor
博行 梶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62197423A priority Critical patent/JP2778025B2/ja
Priority to US07/123,791 priority patent/US4916614A/en
Publication of JPS6441971A publication Critical patent/JPS6441971A/ja
Application granted granted Critical
Publication of JP2778025B2 publication Critical patent/JP2778025B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、機械翻訳やカナ漢字変換等を行う言語変換
システムにおける語と語の共起関係辞書(以下、単に
「共起関係辞書」という)の学習方法に関し、特に、そ
の変換結果に対する修正操作からのフイードバック情報
に基づき、システムの利用段階で共起関係に関する知識
を獲得する共起関係辞書の学習方法に関する。 〔従来技術〕 最近、機械翻訳システムが実用化されつつあるが、翻
訳精度の面では種々の問題点がある。 それらの問題点の一つには、入力言語の単語に対して
適切な訳語を割り当てることが難しいという点が挙げら
れる。 この問題点の対策としては、例えば特開昭63−132379
号公報に記載されているように“語と語の共起”に関す
る制約を利用して訳語選択を行う方法が提案されてい
る。 また、このような共起関係の利用は、カナ漢字変換に
おいて同音異語の中から適切な語を選択する際に有効で
あり、ワープロの高機能化にも必要である。 なお、語と語の共起とは、語と語が特定の意味関係を
持って文中に現われることである。 〔発明が解決しようとする問題点〕 上記従来技術では、共起関係データを利用する方法は
示されているが、共起関係データを収集する方法につい
ては配慮がなされていないため、共起関係による訳語選
択を実用化することが難しかった。 つまり、無限の可能性を持つ語と語の組合わせから訳
語選択を行うためには、共起関係辞書を自動生成するこ
とが必要であり、これが実現されなければ、共起関係に
よる訳語選択を行なうことは非常に難しい。 本発明の目的は、このような問題点を改善し、システ
ムの利用段階で共起関係に関する知識を獲得することが
可能な共起関係辞書の学習方法を提供することにある。 〔問題を解決するための手段〕 上記目的を達成するために、本発明の共起関係辞書の
学習方法は、第1の言語の文に対応して抽出した第2の
言語の訳語候補の組から構成される共起関係データが共
起関係辞書に蓄積されている場合、この共起関係データ
を優先的に選択して第1の言語の文を第2の言語の文に
変換する言語変換システムにおける共起関係辞書の学習
方法であって、変換結果に対する利用者による修正があ
れば、修正対象の変換結果が、共起関係辞書に蓄積した
共起関係データを優先的に選択した結果によるものであ
るか(YES)否か(NO)を判別し、NOであれば、利用者
による修正内容に基づき第2の言語の適切な共起関係デ
ータを生成して共起関係辞書に蓄積し、YESであれば、
優先的に選択した共起関係データを共起関係辞書から削
除し、さらに、この削除の後、利用者が修正した新たな
語が、語彙辞書から最初に抽出される訳語候補であるか
(Y)否か(N)を判別し、Yであればなにもせず、N
であれば、利用者による修正内容に基づき第2の言語の
適切な共起関係データを生成して共起関係辞書に蓄積す
ることを特徴とする。 〔作用〕 本発明においては、入力文を語に分割し、語と語の2
項関係の集合として文の構造、あるいは意味を表現した
上で、2項関係ごとに候補訳語の組合わせが共起関係辞
書に存在するか否かを調べ、存在すれば、その組合わせ
を優先的に選択することにより、訳語を決定する。 また、候補訳語の組合わせが共起関係辞書に存在しな
い場合には、語彙辞書中に1番目に登録された修補訳語
を選択する。 従って、変換結果の訳語が不適切であるのは、(1)
必要は共起関係データが共起関係辞書に登録されていな
い場合、および、(2)不正(不適切)な共起関係デー
タが共起関係辞書に登録されている場合である。また、
これらが同時に起こることも考えられる。 このように、変換結果が不適切である場合には、利用
者が修正を行う。 この修正を単語の置換えで指示する場合、どの訳語が
誤りで正しい訳語で何であるかという情報は、修正のた
めの入力情報から直接行える。また、修正を文字単位で
行う場合、修正前後の文の比較により、どの訳語が誤り
で正しい訳語が何であるかという情報を抽出する。 例えば、入力文中の語Aに対して誤まった訳語alが選
択されたが、正しい訳語はacであるとする。言語変換シ
ステムの内部では、入力文を2項関係の集合として表現
しているため、Aと2項関係にある語が何であるかがわ
かる。 Aと2項関係にある語がB1,…,BNであり、B1,…,BN
対する訳語がそれぞれb1,…,bNであるとする。 この場合、訳語が不適切である原因が(1)か、
(2)かという判定については、acがAの1番目の訳語
でなければ、(1)であり、また、alとb1,…,alとbN
組合わせの中、少くとも1組が共起関係辞書中に存在す
れば、(2)である。 上記判定の結果、(1)であれば、acとb1,…,acとbN
の組合わせを共起関係辞書に登録する。また、(2)で
あれば、alとb1,…,alとbNの組合わせを共起関係辞書か
ら削除する。 このように、変換結果に対する修正内容から抽出した
情報に基づき、共起関係辞書にデータが蓄積され、か
つ、不正データが削除されるため、訳語選択の精度は次
第に向上する。 〔実施例〕 以下、本発明の一実施例を図面により説明する。 第2図は、本発明の一実施例における日英機械翻訳シ
ステムの構成図、第3図は本発明の一実施例における語
彙辞書のレコード内容の例を示す図、第4図は本発明の
一実施例における共起関係辞書のレコード内容の例を示
す図である。 本実施例の日英機械翻訳システムは、処理装置1、入
力装置2、出力装置3、語彙辞書記憶装置4、および共
起関係辞書記憶装置5を備える。 処理装置1は翻訳処理や共起関係辞書の更新処理等を
実行する。 入力装置2は翻訳対象である日本文の入力や翻訳結果
である英文の修正のための入力に用いられ、出力装置3
は翻訳結果の出力等に用いられる。 語彙辞書記憶装置4は語彙辞書を格納し、その語彙辞
書は、第3図のように、日本語部と英語部とから構成さ
れたレコードを備える。その日本語部は、レコードの見
出しとしての日本語単語41、その日本語単語41の品詞4
2、および格フレーム43から構成される。格フレーム43
は、動詞、形容詞等の述語に対して記述されるものであ
り、その述語が支配する要素を示す。つまり、それぞれ
の要素について、意味的な役割(動作主,対象,受益
者,終状態等)、および、それを示す標識としての格助
詞が記述される。 また、英語部は、見出しに対する訳語としての英単語
44、その英単語44の品詞45、および格フレーム46から構
成される。ここで、見出しに対して複数の訳語があれ
ば、英語部の訳語の数だけ、操り返される。英語の格フ
レーム46についても、日本語の格フレーム43と同様であ
るが、格助詞の代りに主語や目的語のような構文的役
割、あるいは前置詞が記述される点が異なる。 共起関係辞書記憶装置5は共起関係辞書を格納し、共
起関係辞書は、第4図のように、英語の2単語の組から
構成されるレコードを備える。 その2単語については、通常、第1単語51が述語であ
り、第2単語52が名詞である。つまり、第1単語51が第
2単語52を支配するという関係で、文中に共起し得るこ
とを示す。 共起関係辞書は上記のようなレコードから構成される
ので、レコード全体をキーとして検索することにより、
2単語の間に共起関係があるか否かを判定できる。 第5図は、本発明の一実施例における日英機械翻訳シ
ステムの処理フローチャート、第6図は本発明の一実施
例における訳語選択の詳細を示すフローチャート、第1
図は本発明の一実施例における共起関係辞書更新の詳細
を示すフローチャートである。 本実施例の日英機械翻訳システムにおける翻訳処理の
過程については、第5図のように、まず、処理装置1
は、入力装置2から入力された日本文を読み込み(1
1)、語彙辞書を参照しながら、その日本文の構文・意
味を解析する(12)。 すなわち、述語を中心として、その格フレームとのパ
ターンマッチングにより、名詞の意味的な役割を決定す
る。その解析結果は語と語の2項関係の集合の形で得ら
れる。 次に、共起関係辞書に含まれた単語の組を優先的に選
択する訳語選択を行う(13)。 その訳語選択が終了すると、解析結果と訳語選択結果
とに基づいて、英文を生成する(14)。すなわち、述語
の格フレームを参照することにより、訳語の語順を決定
する。 次に、得られれた英文を出力装置3により出力する
(15)。 次に、出力された英文が正しくなければ、修正のため
の入力を入力装置2から読み込む(16)。 さらに、その修正の中に訳語の置換が含まれていれ
ば、共起関係辞書を更新する(17)。 以上の処理の過程のうち,訳語選択ステップ(13)と
共起関係辞書更新ステップ(17)について以下に詳述す
る。 本実施例における訳語選択ステップ(13)は、第6図
のように、日本文解訳結果の2項関係の中から1個の2
項関係(A,B)を取り出す(131)。 次に、語彙辞書の内容を参照することにより、A、お
よびBの候補訳語の数i0,j0を調べる(132)。 次に、Aの候補訳語aiとBの候補訳語bjとを取り出し
(133)、aiとbjとの組が共起関係辞書に含まれるか否
かを調べる(134)。 この動作をi=1,…,i0;j=1,…,j0に対して操り返
し、共起関係辞書に含まれる候補訳語の組が見つかれ
ば、それを訳語に決定する(135)。 また、共起関係辞書に含まれる候補訳語の組が見つか
らなければ、A,Bの訳語として、それぞれの第1候補訳
語、つまり、語彙辞書中、1番目に書かれた訳語を選択
する(136)。 例えば、第3図のような語彙辞書と、第4図のような
共起関係辞書を用いた場合、「資源を割り当てる」とい
う日本文が入力されると、‘資源’、および‘割り当て
る’の訳語として、それぞれ‘resource'および‘alloc
ate'が選択される。この選択は、‘resource'、および
‘allocate'の共起関係が共起関係辞書に含まれている
ことからなされるのである。 一方、「ファイルを割り当てる」という日本文が入力
されると、‘file'、および‘allot'が選択される。こ
の場合は、共起関係辞書に関連があるデータが含まれて
いないため、語彙辞書中の1番目の訳語が選択されるの
である。 本実施例における共起関係辞書更新ステップ(17)
は、利用者による訳語の置換が行われた各箇所について
行われる。 その詳細については、第1図のように、出力された英
文中の語alがacに置換修正されたことを同定し(17
1)、その後、訳語選択ステップ(13)の結果を参照す
ることにより、alが入力日本文中のどの語に対する訳語
であったかを判定する(172)。その結果、例えばal
単語Aに対する訳語であると判定される。 次に、日本文解析ステップ(12)の結果を参照するこ
とにより、単語Aと2項関係を持つ語を選び出す(17
3)。その結果、例えばB1,…,BNが選び出される。 次に、再び訳語選択ステップ(13)の結果を参照する
ことにより、B1,…,BNに対する訳語を同定する(17
4)。その結果、例えばb1,…,bNが同定される。 次に、alとbi(i=1,…,N)の組が共起関係辞書に含
まれているか否かを調べる(175)。その結果、含まれ
ていれば、それがAに対する訳語選択の誤まりの原因で
あると判定されるので、alとbiの組を共起関係辞書から
削除する(176)。 次に、語彙辞書を参照することにより、acがAの第1
候補訳語であるか否かを調べる(177)。 その結果、第1候補訳語であれば、共起関係辞書から
のデータ削除のみで同じ誤まりの再発は防止できるた
め、処理を終了する。一方、第1候補訳語でなければ、
acとbiの組が共起関係辞書に含まれていないことが、A
に対する訳語選択の誤まりの原因であると判定されるの
で、acとbiの組を共起関係辞書に登録する(178)。 例えば、第3図のような語彙辞書と、第4図のような
共起関係辞書を用いた場合、入力日本文「ファイルを割
り当てる」の翻訳結果「allot a file」が得られるが、
これに対して、‘allot'を‘allocate'に置換する修正
が施される。 この場合の共起関係辞書更新については、‘allot'と
‘file'の組は共起関係辞書に含まれていないため、削
除すべきデータはない。また、‘allocate'は‘割り当
てる’の第1候補訳語ではないため、‘allocate'と‘f
ile'の組が共起関係辞書に新たに登録される。 別の例として、入力日本文「仕事を割り当てる」の翻
訳結果「assign a task」に対して、‘assign'を‘allo
t'に置換する修正が施されたとする。この場合の共起関
係辞書更新については、‘assign'と‘task'の組が共起
関係辞書に含まれていたため、‘assign'が選択された
が、その選択が適切でなかったと判定されるので、‘as
sign'と‘task'の組を共起関係辞書から削除する。な
お、‘allot'は‘割り当てる’の第1候補訳語であるた
め、この修正に伴って共起関係辞書に登録するべきデー
タはない。 本実施例では、共起関係辞書に登録する語の組の格関
係、つまり、意味的な役割について、特に制限しなかっ
たが、一般には、対象格等の、一部の格が訳語選択に深
く関与しているため、登録する語の組の格関係を制限す
ることも有効である。格関係の制限により、誤まりの原
因ともなる無駄なデータの登録が防止され、共起関係辞
書の小容量化、および訳語選択の精度向上につながるか
らである。このように格関係を制限する場合、全ての述
語に共通の制限を行う方法の他に、述語ごとに共起関係
を持つ格を規定する方法も考えられる。 また、本実施例における共起関係辞書では、語と語の
組を記憶しているが、格を含めた3個の組を記憶するこ
とも考えられる。これは、訳語選択の際、格の一致をも
条件に加えることにより、選択精度をより高めることが
できるためである。 さらに、共起関係データに統計的な重みづけをするこ
とにより、特定のデータの登録と削除が繰り返されるこ
とを防ぐことも考えられる。つまり、共起関係データが
正しい訳語選択の原因となった場合には重みを加え、ま
た、誤まった訳語選択の原因となった場合には、重みを
減らし、重みが負となると共起関係辞書から削除するこ
とにより、登録と削除の操り返しを防止できる。 〔発明の効果〕 本発明によれば、予め、共起関係辞書を作成すること
なく、言語変換システムの変換結果を修正する過程を通
じて、自動的に共起関係データを蓄積することができる
ため、容易に言語変換システムの精度を向上することが
可能である。 また、ユーザ側にとっても、使用時間が増すにつれて
精度が向上し、変換結果に対する修正頻度が減少するた
め、システムに対する信頼度が向上する。
【図面の簡単な説明】 第1図は本発明の一実施例における共起関係辞書更新の
詳細を示すフローチャート、第2図は本発明の一実施例
における日英機械翻訳システムの構成図、第3図は本発
明の一実施例における語彙辞書のレコード内容の例を示
す図、第4図は本発明の一実施例における共起関係辞書
のレコード内容の例を示す図、第5図は本発明の一実施
例における日英機械翻訳システムの処理フローチャー
ト、第6図は本発明の一実施例における訳語選択の詳細
を示すフローチャートである。 1:処理装置,2:入力装置,3:出力装置,4:語彙辞書記憶装
置,5:共起関係辞書記憶装置,41:日本語単語,42:日本語
単語の品詞,43:日本語単語の格フレーム,44:英単語,45:
英単語の品詞,46:英単語の格フレーム,51:第1単語,52:
第2単語。
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 1.第1の言語の文を第2の言語の文に変換する言語変
    換システムであり、前記第1の言語の語に対応する前記
    第2の言語の1以上の語(訳語候補)を登録した語彙辞
    書を格納する手段と、前記第2の言語の語と語の共起関
    係データを蓄積した共起関係辞書を格納する手段と、前
    記第1の言語の文を構成する各々の語に対応する訳語候
    補を前記語彙辞書から抽出し、該抽出した訳語候補の組
    から構成される共起関係データが前記共起関係辞書に含
    まれている場合、該共起関係データを構成する訳語候補
    を優先的に選択して前記第1の言語の文を前記第2の言
    語の文に変換する変換手段とを具備した言語変換システ
    ムにおける前記共起関係辞書の学習方法において、 前記変換手段の変換結果に対する利用者による修正があ
    れば、 修正対象の語が、前記共起関係辞書に蓄積した前記共起
    関係データから優先的に選択したものであるか(第1の
    ケース)否か(第2のケース)を判別し、 前記第1のケースであれば前記優先的に選択した共起関
    係データを前記共起関係辞書から削除し、 前記第2のケースであれば前記利用者による修正内容に
    基づき前記共起関係データを生成して前記共起関係辞書
    に蓄積することを特徴とする共起関係辞書の学習方法。 2.第1の言語の文を第2の言語の文に変換する言語変
    換システムであり、前記第1の言語の語に対応する前記
    第2の言語の1以上の語(訳語候補)を登録した語彙辞
    書を格納する手段と、前記第2の言語の語と語の共起関
    係データを蓄積した共起関係辞書を格納する手段と、前
    記第1の言語の文を構成する各々の語に対応する訳語候
    補を前記語彙辞書から抽出し、該抽出した訳語候補の組
    から構成される共起関係データを、前記共起関係辞書か
    ら抽出し、該抽出した共起関係データを構成する訳語候
    補を優先的に選択し、優先的に選択すべき訳語候補がな
    い場合には前記語彙辞書から最初に抽出した訳語候補を
    選択して、前記第1の言語の文を前記第2の言語の文に
    変換する変換手段とを具備した言語変換システムにおけ
    る前記共起関係辞書の学習方法において、 前記変換手段による変換結果に対する利用者による修正
    があれば、 修正対象の語が、前記共起関係辞書に蓄積した前記共起
    関係データに含まれているか否かを前記共起関係辞書を
    検索して判別し、 含まれていなければ、前記利用者による修正内容に基づ
    き共起関係データを生成して前記共起関係辞書に蓄積
    し、 含まれていれば、前記修正対象の語の選択に用いた前記
    共起関係データを前記共起関係辞書から削除し、該削除
    の後、前記利用者が修正した後の語が、前記語彙辞書に
    最初に抽出される語として登録されているか否かを前記
    語彙辞書を検索して判別し、前記語彙辞書に最初に抽出
    される語として登録されていない場合に、前記利用者に
    よる修正内容に基づき共起関係データを生成して前記共
    起関係辞書に蓄積することを特徴とする共起関係辞書の
    学習方法。
JP62197423A 1986-11-25 1987-08-07 共起関係辞書の学習方法 Expired - Lifetime JP2778025B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62197423A JP2778025B2 (ja) 1987-08-07 1987-08-07 共起関係辞書の学習方法
US07/123,791 US4916614A (en) 1986-11-25 1987-11-23 Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62197423A JP2778025B2 (ja) 1987-08-07 1987-08-07 共起関係辞書の学習方法

Publications (2)

Publication Number Publication Date
JPS6441971A JPS6441971A (en) 1989-02-14
JP2778025B2 true JP2778025B2 (ja) 1998-07-23

Family

ID=16374273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62197423A Expired - Lifetime JP2778025B2 (ja) 1986-11-25 1987-08-07 共起関係辞書の学習方法

Country Status (1)

Country Link
JP (1) JP2778025B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03248269A (ja) * 1990-02-27 1991-11-06 Nec Corp 構文解析方式
JPH04112368A (ja) * 1990-09-03 1992-04-14 Nec Corp 機械翻訳装置
JPH04310182A (ja) * 1991-04-09 1992-11-02 Nec Corp 機械翻訳装置
JP2984514B2 (ja) * 1993-04-09 1999-11-29 日本電気株式会社 機械翻訳装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0664585B2 (ja) * 1984-12-25 1994-08-22 株式会社東芝 翻訳編集装置

Also Published As

Publication number Publication date
JPS6441971A (en) 1989-02-14

Similar Documents

Publication Publication Date Title
US4916614A (en) Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words
JP3114181B2 (ja) 異言語交信用翻訳方法およびシステム
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US7512575B2 (en) Automated integration of terminological information into a knowledge base
KR20080023341A (ko) 문서 내의 연어법 실수들을 처리하는 방법
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JP7168411B2 (ja) 情報処理システムおよび情報処理方法
JPS6175957A (ja) 機械翻訳処理装置
JP2778025B2 (ja) 共起関係辞書の学習方法
JPS58192173A (ja) 機械翻訳装置
JP3429612B2 (ja) 辞書登録装置及び機械翻訳装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP3016040B2 (ja) 自然言語処理システム
JP3416918B2 (ja) キーワード自動抽出方法および装置
RU2572367C1 (ru) Способ поиска информации в предварительно преобразованном структурированном массиве данных
JP3345522B2 (ja) データ項目部品を利用するプログラム開発支援装置
JPH07146785A (ja) プログラム自動生成方法および装置
JP3372977B2 (ja) 機械翻訳システム
JP3236027B2 (ja) 機械翻訳装置
RU2571406C1 (ru) Способ двухуровневого поиска информации в предварительно преобразованном структурированном массиве данных
JP3226913B2 (ja) 自然言語処理用辞書の辞書表示・編集装置
JPH08137883A (ja) 辞書装置
JP2752025B2 (ja) 機械翻訳装置
JP2020184218A (ja) 検索プログラム、検索方法及び検索装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080508

Year of fee payment: 10