JP3778705B2 - Bilingual document matching system - Google Patents

Bilingual document matching system Download PDF

Info

Publication number
JP3778705B2
JP3778705B2 JP26968098A JP26968098A JP3778705B2 JP 3778705 B2 JP3778705 B2 JP 3778705B2 JP 26968098 A JP26968098 A JP 26968098A JP 26968098 A JP26968098 A JP 26968098A JP 3778705 B2 JP3778705 B2 JP 3778705B2
Authority
JP
Japan
Prior art keywords
sentence
sentences
path
evaluation value
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26968098A
Other languages
Japanese (ja)
Other versions
JP2000099511A (en
Inventor
達哉 介弘
秀樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP26968098A priority Critical patent/JP3778705B2/en
Publication of JP2000099511A publication Critical patent/JP2000099511A/en
Application granted granted Critical
Publication of JP3778705B2 publication Critical patent/JP3778705B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、英語−日本語などの原文と訳文で構成される対訳文書における文の対応付けを行う対訳文書対応付けシステムに関する。
【0002】
【従来の技術】
英語−日本語といった原文と訳文とで構成される対訳文書中の各文の対応付けを、対訳辞書を用いて行うシステムがある。例えば、このようなシステムに関する文献として、
対訳辞書および統計情報を用いた二言語対訳テキスト照合 宇津呂 武仁 松本 裕治 Vol.12 No.5 sep.1995があった。
【0003】
この文献では、対訳文書の文の対応付けを対訳辞書を利用してダイナミックプログラミング(DP)で行う方法を述べている。このような対応付けをダイナミックプログラミングを用いて行うには、先ず、原文および訳文を1文毎に区切り、その文の形態解析を行って単語毎に分割する。そして、それらの単語の中から自立語を取り出し、対訳辞書を用いて、それぞれの文の中の自立語がどの程度対応しているかで評価する。例えば、評価する方法として以下のような式を用いる。
【0004】
h(x,y)=2×fm(x,y)/(fj(x)+fj(y))
ここで、
xは原文中の文(複数文の場合もある)
yは訳文中の文(複数文の場合もある)
h(x,y)は評価関数
fm(x,y)は、x,yの中で対応のついた自立語の数
fj(x)は、x中の自立語の数
fj(y)は、y中の自立語の数
である。
【0005】
このような評価関数を用いることによって、対応する文同士の評価関数の値は大きくなり、対応していない文同士の評価関数は小さくなる。これを文の先頭から調べていき、評価関数の和が最も大きくなるような組み合わせを対応付け問題の解とする。
【0006】
【発明が解決しようとする課題】
しかしながら、上記のように、評価関数を用いて対応付けを行うには、対訳辞書を引いたり、文字列のマッチング処理を行うため、評価値を算出するには時間がかかる。更に、DPを用いた方法は、原文の文数×訳文の文数に比例した時間がかかり、実行速度に問題があった。それは文の対応のほとんどが1文対1文の対応であり、1文対2文、2文対1文まで含めるとほとんど100パーセントに近い確率で当てはまるにもかかわらず、1文対3文、3文対1文や1文対4文、4文対1文になるまでの可能性を考慮して、考えられる全ての組の評価値を計算しているからである。
【0007】
このような問題に対処するためには、1文対3文、3文対1文などを計算しないといった方法が容易に考えられる。しかしながら、上記のような確率値は対訳文書の分野等によっては変化する恐れがあり、場合によっては、1文対3文といた対応が最適解であることも考えられる。ところが、このような方法は、1文対3文の対応があった場合にこれを見つけられないため、場合によっては対応付けの精度が低くなってしまうという問題があった。
【0008】
このような点から、対応付けの精度を低下させることなく処理を高速化することのできる対訳文書対応付けシステムの実現が望まれていた。
【0009】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する。
〈構成〉
本発明は、原語文書に含まれる複数の原語文と、原語文書の訳語文書に含まれる複数の訳語文との対応関係を付けるための対訳文書文対応付けシステムであって、原語文の数と訳語文の数とを比較し、原語文の数が訳語文の数と等しい場合、各原語文及び各訳語文を文並びに従って一対一に対応させたそれぞれの対応組を順に設定してなる各初期パスを求め、原語文の数が訳語文の数より大きい場合、各原語文及び各訳語文を文並びに従って一対一及び二対一のいずれかに対応させたそれぞれの対応組を順に設定してなる各初期パスを求め、原語文の数が訳語文の数より小さい場合、各原語文及び各訳語文を文並びに従って一対一及び一対二のいずれかに対応させたそれぞれの対応組を順に設定してなる各初期パスを求め、引き続き、原語文と訳語文との対応数を順次増加させる毎に、他の対応組からなる他のパスを順次求める組合せ管理手段と、初期パス及び他のパス毎に、各対応組に対応して、原語文及び訳語文の対応度を示すそれぞれの評価値を文の評価要素に基づき算出し、該算出した各評価値を順次、加算してパス毎の評価値の総和を求める評価値計算手段と、各いずれかの初期パスを求めた場合のパス毎の評価値の和の最大値を暫定解として該当する初期のパスに対応させて保持し、且つ、評価値の設定評価値を保持し、他のパスに対して計算済みの評価値を取り込んでその途中和を計算し、未計算の対応組の評価値が計算される前に、該未計算の対応組の数を調べて該数と設定評価値とを積算し、該積算値を途中和に加算してその加算結果が暫定解より小さいと判定すると他のパスの計算を中止させ、他のパスの評価値の和が暫定解より大きいと判定すると、暫定解を更新し、更に、他のパスにおいて対応組の原語文と訳語文との対応数が最大対応付け文数になると、組合せ管理手段に該最大対応付け文数以上の対応組に関する他のパスの生成を終止させると共に、現在の暫定解に対応するパスを文の対応付けの解とする計算結果管理手段と
を備えることを特徴とする。
【0010】
この設定評価値は、組合せが取り得る最大評価値及び組合せの平均及び分散から計算される評価基準値のいずれかである。
【0012】
【発明の実施の形態】
本発明は、1文対1文や1文対2文等、可能性の高いものから優先的に計算し、暫定解を利用して正解の可能性を絞ることにより、DPで使用する評価値の計算量を減らすようにしたものである。
【0013】
以下、本発明の実施の形態を具体例を用いて詳細に説明する。
【0014】
《具体例1》
〈構成〉
図1は本発明の対訳文書対応付けシステムの具体例1を示す構成図である。
図のシステムは、原文ファイル101、訳文ファイル102、文分割手段103、形態素解析手段104、組み合わせ管理手段105、評価値計算手段106、計算結果管理手段107、対応タグ付き原文ファイル108、対応タグ付き訳文ファイル109、対訳辞書110からなる。
【0015】
原文ファイル101は、複数の原文からなる文書ファイルであり、例えば英語の文書ファイルである。訳文ファイル102は、複数の訳文からなる文書ファイルであり、例えば日本語の文書ファイルである。
【0016】
文分割手段103は、原文ファイル101および訳文ファイル102の文書ファイルを1文毎に分割する機能を有している。例えば、英文であればピリオド、日本文ならば句点等で分割を行うよう構成されている。
【0017】
形態素解析手段104は、文分割手段103で分割された英文や日本文に対して形態素解析を行い、単語毎に分割する機能を有している。尚、これら文分割手段103および形態素解析手段104は既知の構成を用いることができる。
【0018】
組み合わせ管理手段105は、原文と訳文との対応組の組み合わせを求めると共に、文分割手段103や形態素解析手段104の結果に基づき、原文と訳文の原文ファイル101および訳文ファイル102中の文数から、原文と訳文との対応付けの最適解の可能性が高い組み合わせを求める機能を有している。
【0019】
評価値計算手段106は、原文と訳文とが対応している程、高い値となる評価値を求めると共に、暫定解として、組み合わせ管理手段105で求めた可能性の高い組み合わせの評価値の和を求める機能を有している。具体的には、従来技術の項で説明した評価関数の式に基づいて評価値を計算する構成、あるいは他の手段により評価値を計算する構成であってもよい。
【0020】
計算結果管理手段107は、評価値計算手段106で計算したDPの評価値を格納するテーブル(図示せず)を備え、組み合わせ管理手段105で求めた原文と訳文との組み合わせ(パス)の評価値の計算を、組み合わせの先頭の文から順次計算するよう評価値計算手段106に指示し、得られた評価値を前記のテーブルに格納する機能を有している。そして、これらのテーブルの評価値に基づき、任意の組み合わせで、最後まで計算しても暫定解を上回る値にならないと判定できた場合は、その時点で評価値の計算を中止させる機能を有している。
【0021】
対応タグ付き原文ファイル108および対応タグ付き訳文ファイル109は、それぞれ原文ファイル101と訳文ファイル102に文の対応を示すためのタグを付与したものである。
【0022】
対訳辞書110は、対応付けするための原文の単語を引くと訳文の語が複数あるような辞書である。例えば、原文が英語、訳文が日本語の場合英和辞典に相当する。
【0023】
上記の対訳文書対応付けシステムは、マイクロコンピュータ等で構成され、原文ファイル101、訳文ファイル102、対応タグ付き原文ファイル108、対応タグ付き訳文ファイル109、対訳辞書110は、ハードディスク装置等の外部記憶装置あるいは半導体メモリに設けられている。また、文分割手段103〜計算結果管理手段107は、それぞれの手段に対応したプログラムとこれを実行するためのプロセッサや主記憶装置等で構成されている。
【0024】
〈動作〉
図2は、本具体例の動作を示すフローチャートである。
先ず、文分割手段103によって、原文ファイル101と訳文ファイル102の文区切りを行う(ステップS100)。ここで、原文の文数をm、訳文の文数をnとする。また、組み合わせ管理手段105において、文の対応組を徐々に増やしていくための変数iに2をセットする。
【0025】
次に、原文の文数と訳文の文数とが等しいか、即ち、m=nかをチェックする(ステップS101)。ここで、等しければ評価値を計算する文の組み合わせを(1,1)のみとし(ステップS103)、ステップS106に移行する。一方、ステップS101において、等しくなければ、m>nであるかを判定する(ステップS102)。
【0026】
ステップS102において、m<nであれば、計算する対応組を(1,1)、(2,1)として(ステップS104)、ステップS106に移行し、m>nであれば計算する対応組を(1,1)、(1,2)として(ステップS105)、ステップS106に移行する。
【0027】
ステップS106では、評価値計算手段106によって、対応組の評価関数を計算し、計算結果を計算結果管理手段107に送る。これにより、計算結果管理手段107は、最も点数の高いパスを暫定解とする(ステップS107)。尚、パスとは、先頭文から最後の文までどのようなルート(原文と訳文の対応組)を通って対応付けられているいるかを一意に示すものである。
【0028】
次いで、計算結果管理手段107は、計算する対応組を(1,1)、(1,2)、(2,1)とし(ステップS108)、未計算の枝があるかを調べる(ステップS109)。尚、枝とは、パスの1要素であり、パス中のある地点(英文5文目、和文4文目等)から、次の原文と訳文との対応組がどのようなものであるかを示すものである。
【0029】
ステップS109において、未計算の枝があった場合は、その枝の評価値を計算し、この計算値を計算結果管理手段107内のDPのテーブルに保持する(ステップS110)。次に、この計算値によって、上述した暫定解よりも評価値の合計値の高い解が得られるかを判定し(ステップS111)、高い解が得られた場合は、その解を暫定解として更新する(ステップS112)。
【0030】
一方、ステップS111において、暫定解より高い解が得られるかが不明であった場合は、そのパスが最適解になり得ないかを判定する(ステップS113)。このステップS113において、明らかに暫定解より評価値が大きくならないことが判明した場合は、そのノードにマークを付け、それより先の枝の計算は保留し(ステップS114)、ステップS109に戻る。即ち、そのパスとしての計算を中止する。また、ステップS113において、最適解となり得ないかが不明であった場合は、そのままステップS109に戻る。
【0031】
このようなステップS109〜ステップS114の処理を繰り返すことにより、対応組(1,1)、(1,2)、(2,1)におけるパスの暫定解が求められ、また、その処理中で暫定解より大きい値にならないと分かったパスは、それ以上の枝の計算が保留される。尚、ステップS114において、計算が中止ではなく保留となっているのは、後述するステップS115以降でiの値をインクリメントした場合に、そのノードより先も計算する場合があるからである。
【0032】
ステップS109において、未計算の枝がなくなった場合は、ステップS115に移行し、文の対応組を徐々に増やしていくための変数iの値をインクリメントする。即ち、iの値を3とする。
【0033】
次に、iの値が予め定めた最大対応付け文数より大きいかを調べる(ステップS116)。この最大対応付け文数とは、1文と何文の対応まで調べるかを示すもので、最大対応付け文数が4であれば、1文対4文、4文対1文の対応まで調べることを意味する。このステップS116において、i≦最大対応付け文数であれば、計算結果管理手段107において、計算する対応組に、(1,i)、(i,1)を追加し(ステップS117)、ステップS109に戻る。
【0034】
一方、ステップS116において、i>最大対応付け文数であれば、現在の暫定解を最適解、最適解のパスを文の対応付けの解とし(ステップS118)、対応付け処理を終了する。
【0035】
以上の処理を、更に具体的な一例を用いて説明する。
【0036】
図3は、英文9文、和文7文からなるファイルの対応を取るためのパスの説明図である。
【0037】
図において、E1〜E9はそれぞれ英文の1文目から9文目を表しており、J1〜J7はそれぞれ和文の1文目から7文目までを表している。また、丸付きの番号は枝の評価値を計算する順番を表している。例えば、1番の枝は英文の1文目と和文の1文目の対応を評価する。2番の枝は英文の1文目から2文目までと、和文の1文目の対応を評価する、…、27番目の枝は英文の9文目と和文の7文目の対応を評価する、という意味である。
【0038】
先ず、図2のフローチャートにおけるステップS100〜ステップS107の処理を説明する。
【0039】
この例では英文の数の方が多いので、最初に(1,1)、(2,1)の組み合わせを計算する。対応の組み合わせをこの2通りに限定するとゴール(図の右上)まで到達し得るパスは図3に示すように狭い範囲となる。
【0040】
図示の枝にふられた番号順に計算し(必ずしもこの通りに計算しなくともよい)、27番まで計算し終わったら、DPによって、最も評価値の和の高いパスを調べ、その評価値の和を暫定解とする。ここでは、2−5−9−14−19−23−26が暫定解となったとする。
【0041】
次に、ステップS108〜ステップS114の処理を説明する。
ステップS108において、(1,2)の組み合わせを追加すると、図3のパスは次のようになる。
【0042】
図4は、(1,2)の組み合わせを追加した場合のパスの説明図である。
例えば、図中の31番を計算した時点で、2−31−12−19−23−26のパスの方が暫定解よりも高い評価値を得たとすると、その時に暫定解を更新し、そのパスを記憶しておく(ステップS111〜ステップS112)。
【0043】
次に、36番を計算した時点で、どのようなパスを通っても暫定解よりよい解が得られないと分かったら(この方法については後述する)、36番の枝の終点(ゴール側)にマーク付けし、そこから先の枝の評価を保留する(ステップS113〜ステップS114)。図4の例では、40、41、44、45の枝の計算をせずに済む。
【0044】
上記のステップS113の判断処理は次のように行う。各枝の評価値の最大値は1、暫定解が4.8、2−6−36の枝の和が1.2であるとすると、そのパスを通る解は4.2以上にはならない。即ち、暫定解より大きくならないため、そのパスの評価値を計算する意味がないことになる。従って、そのパスとしての計算は中止する。
【0045】
ステップS115〜ステップS118の処理では、最大対応付け文数までの対応について計算するためのものである。その際、上記の対応組を(1,1)、(1,2)、(2,1)とした場合と同様に、1文対3文といった計算で、最適解になり得ない枝の計算はせずに済む。
【0046】
〈効果〉
以上のように、具体例1によれば、原文と訳文との対応の可能性の高い解を暫定解とし、評価値の計算処理において、暫定解より高い値にならないと分かった時点で、そのパスとしての計算を中止するようにしたので、DPにおける計算量を削減でき、処理時間の短縮化を図ることができる。また、1文対3文といった計算も考慮しているため、文書の内容等で精度が低下することもない。
【0047】
更に、任意の組み合わせで、それまでの暫定解よりも評価値の和の高い値が見つかった場合は、見つかった値を新たな暫定解とするようにしたので、処理を行うに従ってより正しい暫定解が得られ、従って、処理の高速化と精度向上の効果を同時に得ることができる。
【0048】
特に、本具体例では、最適解のパスが最初に求めた暫定解のパスと一致するか、あるいは近傍にある場合、従来技術と比較して省略できる評価値の計算個所が多くなり、効果が顕著となる。
【0049】
《具体例2》
具体例2は、複数の枝(原文と訳文との対応組)の評価値が一定の割合で含まれるような値を各枝の基準値として設定し、そのパスが最適解になるか否かの判定を、この基準値を用いて行うようにしたものである。
【0050】
〈構成〉
図5は、具体例2の対訳文書対応付けシステムの構成図である。
図示のシステムは、原文ファイル101、訳文ファイル102、文分割手段103、形態素解析手段104、組み合わせ管理手段105、評価値計算手段106、計算結果管理手段107、対応タグ付き原文ファイル108、対応タグ付き訳文ファイル109、対訳辞書110、基準値計算手段111からなる。ここで、原文ファイル101〜対訳辞書110は、具体例1の構成と同様であるため、その説明を省略する。
【0051】
基準値計算手段111は、各枝の平均、分散などを計算し、一定の割合の枝の評価値がその値を超えないような一定の値、例えば、95%の枝がこの基準値内にあるような値を導き出す機能を有している。図5中に破線で示す式は、基準値の求め方の一例を示すものである。例えば、枝の値が正規分布をなし、平均をμ、分散をDとしたときに図示の式において、p=0.95となるようなxを基準値とするよう構成されている。
【0052】
計算結果管理手段107は、基準値計算手段111で求めた基準値を用いて暫定解よりも高くなり得ないパスを判断するよう構成されている。つまり、評価値を計算していない枝は高々基準値であると見なしてそのパスの評価値を計算する。
【0053】
〈動作〉
図6は、具体例2の動作を示すフローチャートである。
図2に示した具体例1と異なる部分は、ステップS208において、基準値計算手段111で基準値を求めている部分と、ステップS214において、計算結果管理手段107が最適解になる見込みがあるかどうかを判定する時に、ステップS208で求めた基準値を使うことである。
【0054】
具体例2におけるステップS200〜S207は、具体例1のステップS100〜S107の処理と同様である。次に、ステップS208では、例えば図5中の式に基づき、枝の平均、分散から評価基準値を計算する。これ以降のステップS209〜S213の処理は、具体例1のステップS108〜S112の処理と同様である。
【0055】
ステップS214では、上述したように最適解になる見込みがあるか否かを判断する場合に、まだ、計算していない枝の評価値を高々基準値であるとして計算し、これに基づき判断を行うことである。即ち、具体例1では、まだ、計算していない枝の評価値を1として、つまり評価値を最高値としてそのパスの評価値を計算した。これに対し、具体例2では、ほとんどの枝がこの基準値内にあるような値、例えば0.7といったような値であるとしてそのパスの評価値を計算する。
【0056】
このような基準値を用いることにより、最適解が見つかるという保証は必ずしもできなくなるが、具体例1よりも更に評価値を計算する枝を少なくすることができる。
【0057】
尚、最適解が見つかるという保証は必ずしもできなくなるという理由は次の点からである。即ち、基準値は、0.7といった最高値ではない値であるため、まだ計算していない枝の評価値を基準値で計算した場合よりも、実際にその枝の評価値を計算した場合の方がそのパスの評価値が大きくなってしまう可能性がある。しかしながら、適切な基準値を設定することで、実際の処理ではこのような可能性はほとんどあり得ないと考えられる。
【0058】
また、文の対応付け問題は、最適解が100%正しいとは限らないので、後で人手により対応が正しいかどうかをチェックすることが必要であることを考えると、時間をかけて最適解を見つけるよりも、短時間でそれなりの解を見つける方が利用価値の高い場合もある。
【0059】
具体例2におけるそれ以降のステップS215〜S219の処理は、具体例1におけるステップS114〜S118と同様であるため、ここでの説明は省略する。
【0060】
以上の処理を更に具体的な一例を用いて説明する。ここで、具体例2においても、対象となるファイルは英文9文、和文7文からなるとする。また、これらの文の対応を取るためのパスの説明図として、具体例1における図3および図4を用いて説明する。
【0061】
先ず、図6のフローチャートにおけるステップS200〜ステップS207の処理を説明する。
【0062】
この例では英文の数の方が多いので、最初に(1,1)、(2,1)の組み合わせを計算する。対応の組み合わせをこの2通りに限定するとゴール(図の右上)まで到達し得るパスは図3に示すように狭い範囲となる。
【0063】
図示の枝にふられた番号順に計算し(必ずしもこの通りに計算しなくともよい)、27番まで計算し終わったら、DPによって、最も評価値の和の高いパスを調べ、その評価値の和を暫定解とする。ここでは、2−5−9−14−19−23−26が暫定解となったとする。以上は、具体例1と同様である。
【0064】
次に、ステップS208では、枝の基準値を計算する。ここでは、基準値が0.7になったとする。
【0065】
次に、ステップS209〜S215の処理を説明する。
ステップS209において、(1,2)の組み合わせを追加すると、図3のパスは図4のようになる。
【0066】
例えば、図中の31番を計算した時点で、2−31−12−19−23−26のパスの方が暫定解よりも高い評価値を得たとすると、その時に暫定解を更新し、そのパスを記憶しておく(ステップS212〜ステップS213)。
【0067】
次に、36番を計算した時点で、どのようなパスを通っても暫定解よりよい解が得られないと分かったら(この方法については後述する)、36番の枝の終点(ゴール側)にマーク付けし、そこから先の枝の評価を保留する。図4の例では、40、41、44、45の枝の計算をせずに済む。
【0068】
上記の判断方法は次のように行う。各枝の評価値の基準値は0.7、暫定解が4.8、2−6−36の枝の和が2.2であるとすると、そのパスを通る解は4.3以上にはならない。即ち、暫定解より大きくならないため、そのパスの評価値を計算する意味がないことになる。従って、そのパスとしての計算は中止する。
【0069】
ここで、具体例1との比較を行うと次のようになる。即ち、具体例1では、各枝の評価値の最大値である1を用いているため、暫定解が4.8、2−6−36の枝の和が2.2であるとすると、そのパスを通る解は最大5.2となり、この時点では最適解とはなり得ないと判定することができない。これに対し、具体例2では、この時点で計算を中止することができるため、具体例1よりも評価値を計算する枝を少なくすることができる。
【0070】
ステップS216〜ステップS219の処理では、最大対応付け文数までの対応について計算するためのものである。その際、上記の対応組を(1,1)、(1,2)、(2,1)とした場合と同様に、1文対3文といった計算で、最適解になり得ない枝の計算はせずに済む。
【0071】
〈効果〉
以上のように、具体例2によれば、原文と訳文との対応の可能性の高い解を暫定解とし、評価値の計算処理において、暫定解より高い値にならないと分かった時点で、そのパスとしての計算を中止するようにしたので、具体例1と同様に、DPにおける計算量を削減でき、処理時間の短縮化を図ることができ、また、精度の低下もない。
【0072】
更に、具体例2では、予め、基準値を用意し、この基準値を用いて最適解とはなり得ないパスかを判定するようにしたので、具体例1よりも更に評価値を求める枝を少なくすることができ、処理時間の短縮化を図ることができる。
【0073】
尚、上記具体例1、2では、英文と和文との対応付けの場合を示したが、対訳辞書を替えることによって、あらゆる言語同士の対応付けにも利用することができる。また、枝の評価値を計算していく順番も、図示の順番に限定されるものではなく、ある程度順番を変えてもよい。
【0074】
また、具体例1、2において、m>2nのような場合にも、最初に計算する対応組を変更することで容易に対処することができる。このような場合は、1文対1文、2文対1文、3文対1文を最初に計算する。
【0075】
上記具体例2において、基準値は、枝の評価値の平均や分散等により予めその値を決めておいたが、最初に暫定解を見つけるまでの枝の値(図3に示す枝の値=図6におけるステップS206までの処理の値)で計算してもよい。こうすれば、対応付け処理と同時に基準値のための計算も行うことができる。
【図面の簡単な説明】
【図1】本発明の対訳文書対応付けシステムの具体例1を示す構成図である。
【図2】本発明の対訳文書対応付けシステムの具体例1の動作を示すフローチャートである。
【図3】本発明の対訳文書対応付けシステムにおける英文9文、和文7文からなるファイルの対応を取るためのパスの説明図である。
【図4】本発明の対訳文書対応付けシステムにおける(1,2)の組み合わせを追加した場合のパスの説明図である。
【図5】本発明の対訳文書対応付けシステムの具体例2を示す構成図である。
【図6】本発明の対訳文書対応付けシステムの具体例2の動作を示すフローチャートである。
【符号の説明】
101 原文ファイル
102 訳文ファイル
105 組み合わせ管理手段
106 評価値計算手段
107 計算結果管理手段
111 基準値計算手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a bilingual document association system for associating sentences in a bilingual document composed of an original sentence such as English-Japanese and a translated sentence.
[0002]
[Prior art]
There is a system that uses a bilingual dictionary to associate each sentence in a bilingual document composed of original and translated sentences such as English-Japanese. For example, as literature on such systems:
Bilingual text matching using bilingual dictionaries and statistical information Takehito Utsuro Yuji Matsumoto Vol. 12 No. 5 sep. There was 1995.
[0003]
In this document, a method is described in which correspondence between sentences in a bilingual document is performed by dynamic programming (DP) using a bilingual dictionary. In order to perform such association using dynamic programming, first, the original sentence and the translated sentence are divided into sentences, the form of the sentence is analyzed, and divided into words. Then, independent words are taken out from these words and evaluated by how much the independent words in each sentence correspond using a bilingual dictionary. For example, the following formula is used as an evaluation method.
[0004]
h (x, y) = 2 × fm (x, y) / (fj (x) + fj (y))
here,
x is a sentence in the original sentence (may be multiple sentences)
y is a sentence in the translation (may be multiple sentences)
h (x, y) is the evaluation function
fm (x, y) is the number of independent words that correspond in x and y
fj (x) is the number of independent words in x
fj (y) is the number of independent words in y
It is.
[0005]
By using such an evaluation function, the value of the evaluation function between corresponding sentences becomes large, and the evaluation function between sentences that do not correspond becomes small. This is examined from the beginning of the sentence, and the combination that maximizes the sum of the evaluation functions is taken as the solution of the association problem.
[0006]
[Problems to be solved by the invention]
However, as described above, in order to perform the association using the evaluation function, it takes time to calculate the evaluation value because the bilingual dictionary is drawn or the character string matching process is performed. Furthermore, the method using DP takes time proportional to the number of sentences in the original sentence × the number of sentences in the translated sentence, and there is a problem in the execution speed. Even though most of the sentence correspondence is one-to-one sentence correspondence, including one sentence to two sentences and two sentences to one sentence, it is almost 100% of the probability. This is because the evaluation values of all possible combinations are calculated in consideration of the possibility of becoming three sentences versus one sentence, one sentence versus four sentences, and four sentences versus one sentence.
[0007]
In order to cope with such a problem, a method of not calculating one sentence to three sentences, three sentences to one sentence, etc. can be considered easily. However, the probability values as described above may change depending on the field of the bilingual document, and in some cases, the correspondence between one sentence and three sentences may be the optimal solution. However, such a method has a problem that, when there is a correspondence between one sentence and three sentences, it cannot be found, and in some cases, the precision of association is lowered.
[0008]
From this point of view, it has been desired to realize a bilingual document association system that can speed up the processing without reducing the accuracy of association.
[0009]
[Means for Solving the Problems]
The present invention employs the following configuration in order to solve the above-described problems.
<Constitution>
The present invention is a bilingual document sentence correspondence system for associating a plurality of source sentence sentences included in a source language document with a plurality of target sentence sentences included in a translation document of the source language document. Compare the number of translations, When the number of source language sentences is equal to the number of target language sentences, each initial path is obtained by sequentially setting each corresponding source sentence and each corresponding target sentence in a one-to-one correspondence according to the sentence sequence, When the number of source texts is larger than the number of target sentences, each initial path is set by sequentially setting each corresponding pair corresponding to either one source sentence or each target word sentence according to the sentence sequence. If the number of source language sentences is smaller than the number of translated word sentences, each corresponding set corresponding to either one-to-one or one-to-two according to the sentence sequence is set in order. Each time the initial path is obtained and the number of correspondences between the source sentence and the translated sentence is sequentially increased, combination management means for sequentially obtaining other paths composed of other corresponding pairs, and for each initial path and each other path, Each evaluation value indicating the degree of correspondence between the original sentence and the translated sentence is assigned to the corresponding group. Calculate based on the evaluation elements of the sentence, and sequentially add the calculated evaluation values to obtain the total evaluation value for each path. When calculating the evaluation value calculation means and any of the initial paths Per pass Evaluation value Total The maximum value of the sum is stored as a provisional solution in association with the corresponding initial path, the evaluation value setting evaluation value is held, the evaluation value already calculated for the other paths is taken, and the intermediate sum is calculated. Before the evaluation value of the uncalculated corresponding pair is calculated, the number of the uncalculated corresponding pair is examined, the number and the set evaluation value are integrated, and the integrated value is added to the intermediate sum. If it is determined that the addition result is smaller than the provisional solution, the calculation of the other path is stopped and the evaluation value of the other path is Total When it is determined that the sum is larger than the provisional solution, the provisional solution is updated. Further, when the number of correspondences between the original sentence and the corresponding translation sentence in the corresponding pair reaches the maximum number of correspondence sentences in the other paths, the combination management means corresponds to the maximum correspondence. A calculation result management means that terminates the generation of other paths related to the correspondence pairs that are equal to or greater than the number of attached sentences and uses the path corresponding to the current provisional solution as the solution for the correspondence of the sentences;
It is characterized by providing.
[0010]
This set evaluation value is the maximum evaluation value that the combination can take and Evaluation criteria calculated from the mean and variance of the combination One of them.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
The present invention preferentially calculates from the most likely ones, such as one sentence versus one sentence, one sentence versus two sentences, etc., and uses the provisional solution to narrow down the possibility of correct answers. The amount of calculation is reduced.
[0013]
Hereinafter, embodiments of the present invention will be described in detail using specific examples.
[0014]
<< Specific Example 1 >>
<Constitution>
FIG. 1 is a block diagram showing a specific example 1 of the bilingual document association system of the present invention.
The system shown in the figure includes an original text file 101, a translation text file 102, a text segmentation means 103, a morpheme analysis means 104, a combination management means 105, an evaluation value calculation means 106, a calculation result management means 107, an original text file 108 with a corresponding tag, and a corresponding tag. It consists of a translation file 109 and a bilingual dictionary 110.
[0015]
The original text file 101 is a document file composed of a plurality of original texts, for example, an English text file. The translation file 102 is a document file composed of a plurality of translations, for example, a Japanese document file.
[0016]
The sentence dividing unit 103 has a function of dividing the document file of the original sentence file 101 and the translated sentence file 102 into sentences. For example, it is configured to divide by a period if it is English, or by a punctuation if it is Japanese.
[0017]
The morpheme analyzing unit 104 has a function of performing morphological analysis on the English sentence or the Japanese sentence divided by the sentence dividing unit 103 and dividing the word into words. The sentence dividing unit 103 and the morpheme analyzing unit 104 can use known configurations.
[0018]
The combination management unit 105 obtains a combination of the corresponding pair of the original sentence and the translated sentence, and based on the results of the sentence dividing unit 103 and the morpheme analyzing unit 104, from the number of sentences in the original sentence file 101 and the translated sentence file 102 of the original sentence and the translated sentence, It has a function for obtaining a combination that has a high possibility of an optimal solution for matching an original sentence and a translated sentence.
[0019]
The evaluation value calculation means 106 obtains an evaluation value that becomes higher as the original sentence corresponds to the translated sentence, and calculates the sum of the evaluation values of the combinations that are likely to be obtained by the combination management means 105 as a provisional solution. It has the required function. Specifically, the evaluation value may be calculated based on the evaluation function formula described in the section of the related art, or the evaluation value may be calculated by other means.
[0020]
The calculation result management means 107 Evaluation value calculation means 106 The table (not shown) for storing the DP evaluation values calculated in step 1 is calculated, and the evaluation value of the combination (path) of the original sentence and the translation sentence obtained by the combination management means 105 is calculated sequentially from the first sentence of the combination The evaluation value calculation means 106 is instructed to do so, and the obtained evaluation value is stored in the table. Then, based on the evaluation values in these tables, if it can be determined that the value will not exceed the provisional solution even if it is calculated to the end in any combination, it has a function to stop the evaluation value calculation at that time ing.
[0021]
The corresponding tagged original text file 108 and the corresponding tagged translated text file 109 are obtained by adding tags for indicating correspondence between sentences to the original text file 101 and the translated text file 102, respectively.
[0022]
The bilingual dictionary 110 is a dictionary in which there are a plurality of translated words when an original word for association is drawn. For example, when the original text is English and the translated text is Japanese, it corresponds to an English-Japanese dictionary.
[0023]
The above-described bilingual document mapping system is composed of a microcomputer or the like, and the original text file 101, the translated text file 102, the corresponding tagged text file 108, the corresponding tagged text file 109, and the bilingual dictionary 110 are an external storage device such as a hard disk device. Alternatively, it is provided in a semiconductor memory. The sentence dividing unit 103 to the calculation result managing unit 107 are configured by a program corresponding to each unit, a processor for executing the program, a main storage device, and the like.
[0024]
<Operation>
FIG. 2 is a flowchart showing the operation of this example.
First, the sentence dividing means 103 separates the original text file 101 and the translated text file 102 (step S100). Here, m is the number of sentences in the original sentence, and n is the number of sentences in the translated sentence. Further, in the combination management means 105, 2 is set to a variable i for gradually increasing the corresponding group of sentences.
[0025]
Next, it is checked whether the number of sentences in the original sentence is equal to the number of sentences in the translated sentence, that is, m = n (step S101). Here, if they are equal, the combination of sentences for calculating the evaluation value is only (1, 1) (step S103), and the process proceeds to step S106. On the other hand, if they are not equal in step S101, it is determined whether m> n is satisfied (step S102).
[0026]
In step S102 m <n If so, the corresponding pairs to be calculated are (1, 1) and (2, 1) (step S104), the process proceeds to step S106, and if m> n, the corresponding pairs to be calculated are (1, 1), ( 1 and 2) (step S105), the process proceeds to step S106.
[0027]
In step S <b> 106, the evaluation value calculation unit 106 calculates the evaluation function of the corresponding group and sends the calculation result to the calculation result management unit 107. Thereby, the calculation result management means 107 sets the path with the highest score as a provisional solution (step S107). The path uniquely indicates what route (corresponding pair of the original sentence and the translated sentence) is associated through the first sentence to the last sentence.
[0028]
Next, the calculation result management means 107 sets the corresponding pairs to be calculated as (1, 1), (1, 2), (2, 1) (step S108), and checks whether there is an uncalculated branch (step S109). . A branch is an element of a path. From a certain point in the path (5th sentence in English, 4th sentence in Japanese, etc.), what kind of correspondence the next original and translated text is It is shown.
[0029]
If there is an uncalculated branch in step S109, the evaluation value of that branch is calculated, and this calculated value is stored in the DP table in the calculation result management means 107 (step S110). Next, it is determined by this calculated value whether a solution having a higher evaluation value than the provisional solution described above is obtained (step S111). If a high solution is obtained, the solution is updated as a provisional solution. (Step S112).
[0030]
On the other hand, if it is unclear in step S111 whether a solution higher than the provisional solution can be obtained, it is determined whether the path cannot be an optimal solution (step S113). In step S113, if it is clearly determined that the evaluation value does not become larger than the provisional solution, the node is marked, calculation of the branch ahead is suspended (step S114), and the process returns to step S109. That is, the calculation as the path is stopped. If it is unclear in step S113 that the optimal solution cannot be obtained, the process directly returns to step S109.
[0031]
By repeating the processing of step S109 to step S114, a provisional solution of the paths in the corresponding pairs (1, 1), (1, 2), (2, 1) is obtained, and the provisional solution is obtained during the processing. Paths found not to be greater than the solution are deferred from further branch computations. In step S114, the calculation is not suspended but suspended because it may be calculated before the node when the value of i is incremented in step S115 and later.
[0032]
If there are no more uncalculated branches in step S109, the process proceeds to step S115, and the value of the variable i for gradually increasing the corresponding pairs of sentences is incremented. That is, the value of i is set to 3.
[0033]
Next, it is checked whether the value of i is larger than a predetermined maximum number of correspondence sentences (step S116). The maximum number of correspondence sentences indicates how many sentences correspond to one sentence. If the maximum number of correspondence sentences is 4, the correspondence of one sentence to four sentences and four sentences to one sentence is examined. Means that. In this step S116, if i ≦ maximum number of correspondence sentences, the calculation result management means 107 adds (1, i), (i, 1) to the correspondence pair to be calculated (step S117), and step S109. Return to.
[0034]
On the other hand, if i> the maximum number of associated sentences in step S116, the current provisional solution is set as the optimum solution, and the path of the optimum solution is set as the sentence association solution (step S118), and the association process is terminated.
[0035]
The above processing will be described using a more specific example.
[0036]
FIG. 3 is an explanatory diagram of paths for taking correspondence between files composed of nine English sentences and seven Japanese sentences.
[0037]
In the figure, E1 to E9 represent the first to ninth sentences in English, respectively, and J1 to J7 represent the first to seventh sentences in Japanese, respectively. The numbers with circles represent the order in which the branch evaluation values are calculated. For example, the first branch evaluates the correspondence between the first sentence in English and the first sentence in Japanese. The second branch evaluates the correspondence between the first sentence of the English sentence to the second sentence and the first sentence of the Japanese sentence, ... 27th branch evaluates the correspondence of the ninth sentence of the English sentence and the seventh sentence of the Japanese sentence It means to do.
[0038]
First, the processing of step S100 to step S107 in the flowchart of FIG. 2 will be described.
[0039]
In this example, since there are more English sentences, the combination of (1, 1) and (2, 1) is calculated first. If the corresponding combinations are limited to these two ways, the path that can reach the goal (upper right in the figure) is a narrow range as shown in FIG.
[0040]
The calculation is performed in the order of the numbers given to the branches shown in the figure (it is not always necessary to calculate in this way). When calculation is completed up to 27th, the path with the highest evaluation value sum is checked by DP, and the sum of the evaluation values is calculated. Is a provisional solution. Here, it is assumed that 2-5-9-14-19-23-26 is a provisional solution.
[0041]
Next, the process of step S108-step S114 is demonstrated.
If the combination of (1, 2) is added in step S108, the path in FIG. 3 becomes as follows.
[0042]
FIG. 4 is an explanatory diagram of paths when the combination of (1, 2) is added.
For example, when the path No. 31-12-19-23-26 obtained a higher evaluation value than the provisional solution at the time of calculating No. 31 in the figure, the provisional solution is updated at that time, The path is stored (steps S111 to S112).
[0043]
Next, when calculating the number 36, if it is found that a better solution than the provisional solution cannot be obtained through any path (this method will be described later), the end point of the branch number 36 (goal side) And the evaluation of the branch ahead is suspended (steps S113 to S114). In the example of FIG. 4, it is not necessary to calculate the branches 40, 41, 44, and 45.
[0044]
The determination process in step S113 is performed as follows. If the maximum evaluation value of each branch is 1, the provisional solution is 4.8, and the sum of the branches of 2-6-36 is 1.2, the solution passing through the path cannot be 4.2 or more. That is, since it does not become larger than the provisional solution, there is no point in calculating the evaluation value of the path. Therefore, the calculation as the path is stopped.
[0045]
The processing from step S115 to step S118 is for calculating correspondences up to the maximum number of correspondence sentences. At that time, as in the case where the above corresponding pairs are (1, 1), (1, 2), (2, 1), the calculation of branches that cannot be the optimal solution by the calculation of one sentence versus three sentences. You do n’t have to.
[0046]
<effect>
As described above, according to the first specific example, a solution having a high possibility of correspondence between the original sentence and the translated sentence is set as a provisional solution, and when the evaluation value calculation process is found not to be higher than the provisional solution, Since the calculation as the path is stopped, the calculation amount in the DP can be reduced, and the processing time can be shortened. In addition, since calculation such as one sentence versus three sentences is also taken into account, the accuracy of the document contents or the like does not deteriorate.
[0047]
Furthermore, when a value with a higher sum of evaluation values than the previous provisional solution is found in any combination, the found value is used as a new provisional solution. Therefore, it is possible to obtain the effect of speeding up the processing and improving the accuracy at the same time.
[0048]
In particular, in this specific example, when the path of the optimal solution matches or is close to the path of the provisional solution that was first obtained, the number of evaluation value calculations that can be omitted compared to the prior art increases and the effect is increased. Become prominent.
[0049]
<< Specific Example 2 >>
Specific example 2 sets whether a value that includes evaluation values of a plurality of branches (corresponding pairs of original and translated sentences) at a certain ratio is set as a reference value for each branch, and whether or not the path is an optimal solution. Is determined using this reference value.
[0050]
<Constitution>
FIG. 5 is a configuration diagram of the bilingual document association system of the second specific example.
The illustrated system includes an original text file 101, a translation text file 102, a sentence division means 103, a morpheme analysis means 104, a combination management means 105, an evaluation value calculation means 106, a calculation result management means 107, an original text file 108 with a corresponding tag, and a corresponding tag. The translation file 109, the bilingual dictionary 110, and the reference value calculation means 111 are included. Here, since the original text file 101 to the bilingual dictionary 110 are the same as the configuration of the specific example 1, the description thereof is omitted.
[0051]
The reference value calculation means 111 calculates the average, variance, etc. of each branch, and a certain value such that the evaluation value of a certain percentage of branches does not exceed that value, for example, 95% of the branches are within this reference value. It has a function to derive a certain value. The formula shown with a broken line in FIG. 5 shows an example of how to obtain the reference value. For example, when the branch value has a normal distribution, the average is μ, and the variance is D, the reference value is x such that p = 0.95 in the equation shown.
[0052]
The calculation result management unit 107 is configured to determine a path that cannot be higher than the provisional solution using the reference value obtained by the reference value calculation unit 111. In other words, the evaluation value of the path is calculated assuming that the branch for which the evaluation value is not calculated is at most the reference value.
[0053]
<Operation>
FIG. 6 is a flowchart illustrating the operation of the second specific example.
2 differs from the specific example 1 shown in FIG. 2 in that the reference value calculation means 111 obtains the reference value in step S208 and the calculation result management means 107 is likely to be the optimal solution in step S214. When determining whether or not, the reference value obtained in step S208 is used.
[0054]
Steps S200 to S207 in Specific Example 2 are the same as the processes in Steps S100 to S107 of Specific Example 1. Next, in step S208, an evaluation reference value is calculated from the average and variance of branches based on, for example, the formula in FIG. The subsequent steps S209 to S213 are the same as the steps S108 to S112 of the first specific example.
[0055]
In step S214, when it is determined whether or not there is a possibility of an optimal solution as described above, an evaluation value of a branch that has not yet been calculated is calculated as a reference value at most, and a determination is made based on this. That is. That is, in the specific example 1, the evaluation value of the path is calculated by setting the evaluation value of the branch not yet calculated as 1, that is, the evaluation value as the highest value. On the other hand, in the specific example 2, the evaluation value of the path is calculated on the assumption that most of the branches are within the reference value, for example, 0.7.
[0056]
By using such a reference value, it is not always possible to guarantee that an optimal solution is found, but the number of branches for calculating evaluation values can be further reduced as compared with the first specific example.
[0057]
The reason that it is not always possible to guarantee that the optimum solution is found is as follows. That is, since the reference value is a value that is not the highest value such as 0.7, when the evaluation value of the branch is actually calculated rather than when the evaluation value of the branch that has not been calculated yet is calculated with the reference value. There is a possibility that the evaluation value of the path becomes larger. However, it is considered that such a possibility is hardly possible in actual processing by setting an appropriate reference value.
[0058]
Moreover, since the optimal solution is not necessarily 100% correct for the sentence matching problem, considering that it is necessary to manually check whether the response is correct later, it takes time to determine the optimal solution. It may be more useful to find a reasonable solution in a short time than to find it.
[0059]
Since the processing of subsequent steps S215 to S219 in the specific example 2 is the same as the steps S114 to S118 in the specific example 1, the description thereof is omitted here.
[0060]
The above process will be described using a more specific example. Here, also in the specific example 2, it is assumed that the target file is composed of 9 English sentences and 7 Japanese sentences. In addition, as an explanatory diagram of a path for taking correspondence between these sentences, a description will be given with reference to FIGS.
[0061]
First, the processing of step S200 to step S207 in the flowchart of FIG. 6 will be described.
[0062]
In this example, since there are more English sentences, the combination of (1, 1) and (2, 1) is calculated first. If the corresponding combinations are limited to these two ways, the path that can reach the goal (upper right in the figure) is a narrow range as shown in FIG.
[0063]
The calculation is performed in the order of the numbers given to the branches shown in the figure (it is not always necessary to calculate in this way). When calculation is completed up to 27th, the path with the highest evaluation value sum is checked by DP, and the sum of the evaluation values is calculated. Is a provisional solution. Here, it is assumed that 2-5-9-14-19-23-26 is a provisional solution. The above is the same as the specific example 1.
[0064]
In step S208, a branch reference value is calculated. Here, it is assumed that the reference value becomes 0.7.
[0065]
Next, the process of steps S209 to S215 will be described.
If the combination of (1, 2) is added in step S209, the path of FIG. 3 becomes as shown in FIG.
[0066]
For example, when the path No. 31-12-19-23-26 obtained a higher evaluation value than the provisional solution at the time of calculating No. 31 in the figure, the provisional solution is updated at that time, The path is stored (steps S212 to S213).
[0067]
Next, when calculating the number 36, if it is found that a better solution than the provisional solution cannot be obtained through any path (this method will be described later), the end point of the branch number 36 (goal side) And hold the evaluation of the branch from there. In the example of FIG. 4, it is not necessary to calculate the branches 40, 41, 44, and 45.
[0068]
The above determination method is performed as follows. If the reference value of the evaluation value of each branch is 0.7, the provisional solution is 4.8, and the sum of the branches of 2-6-36 is 2.2, the solution passing through the path must be 4.3 or higher Don't be. That is, since it does not become larger than the provisional solution, there is no point in calculating the evaluation value of the path. Therefore, the calculation as the path is stopped.
[0069]
Here, a comparison with Example 1 is as follows. That is, in the specific example 1, since 1 which is the maximum evaluation value of each branch is used, if the provisional solution is 4.8 and the sum of the branches of 2-6-36 is 2.2, The solution passing through the path is 5.2 at the maximum, and it cannot be determined that it cannot be the optimal solution at this point. On the other hand, in the specific example 2, since the calculation can be stopped at this point, the number of branches for calculating the evaluation value can be reduced as compared with the specific example 1.
[0070]
The processing from step S216 to step S219 is for calculating correspondences up to the maximum number of correspondence sentences. At that time, as in the case where the above corresponding pairs are (1, 1), (1, 2), (2, 1), the calculation of branches that cannot be the optimal solution by the calculation of one sentence versus three sentences. You do n’t have to.
[0071]
<effect>
As described above, according to the specific example 2, when a solution having a high possibility of correspondence between the original sentence and the translated sentence is set as a provisional solution, and it is found that the evaluation value calculation process does not become a value higher than the provisional solution, Since the calculation as the path is stopped, the calculation amount in the DP can be reduced, the processing time can be shortened, and the accuracy is not lowered as in the first specific example.
[0072]
Furthermore, in the specific example 2, a reference value is prepared in advance, and it is determined whether the path cannot be an optimal solution using this reference value. Therefore, the processing time can be shortened.
[0073]
In the specific examples 1 and 2, the case of associating English sentences with Japanese sentences has been shown. However, by changing the bilingual dictionary, it can also be used for associating all languages. Further, the order in which the branch evaluation values are calculated is not limited to the order shown in the figure, and the order may be changed to some extent.
[0074]
Further, in specific examples 1 and 2, even when m> 2n, it can be easily dealt with by changing the correspondence set calculated first. In such a case, one sentence to one sentence, two sentences to one sentence, and three sentences to one sentence are calculated first.
[0075]
In the specific example 2, the reference value is determined in advance by the average or variance of the evaluation values of the branches, but the value of the branch until the provisional solution is first found (the branch value shown in FIG. 3) It may be calculated by the value of the processing up to step S206 in FIG. In this way, the calculation for the reference value can be performed simultaneously with the association processing.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing a specific example 1 of a bilingual document association system of the present invention;
FIG. 2 is a flowchart showing the operation of specific example 1 of the bilingual document association system of the present invention.
FIG. 3 is an explanatory diagram of paths for taking correspondence between files composed of nine English sentences and seven Japanese sentences in the bilingual document association system of the present invention;
FIG. 4 is an explanatory diagram of paths when a combination of (1, 2) is added in the bilingual document association system of the present invention.
FIG. 5 is a block diagram showing a specific example 2 of the bilingual document association system of the present invention;
FIG. 6 is a flowchart showing the operation of specific example 2 of the bilingual document association system of the present invention.
[Explanation of symbols]
101 Original file
102 Translated file
105 Combination management means
106 Evaluation value calculation means
107 Calculation result management means
111 Reference value calculation means

Claims (2)

原語文書に含まれる複数の原語文と、前記原語文書の訳語文書に含まれる複数の訳語文との対応関係を付けるための対訳文書文対応付けシステムであって、
前記原語文の数と前記訳語文の数とを比較し、前記原語文の数が前記訳語文の数と等しい場合、各前記原語文及び各前記訳語文を文並びに従って一対一に対応させたそれぞれの対応組を順に設定してなる各初期パスを求め、前記原語文の数が前記訳語文の数より大きい場合、各前記原語文及び各前記訳語文を文並びに従って一対一及び二対一のいずれかに対応させたそれぞれの対応組を順に設定してなる各初期パスを求め、前記原語文の数が前記訳語文の数より小さい場合、各前記原語文及び各前記訳語文を文並びに従って一対一及び一対二のいずれかに対応させたそれぞれの対応組を順に設定してなる各初期パスを求め、引き続き、前記原語文と前記訳語文との対応数を順次増加させる毎に、他の対応組からなる他のパスを順次求める組合せ管理手段と、
前記初期パス及び前記他のパス毎に、各前記対応組に対応して、前記原語文及び前記訳語文の対応度を示すそれぞれの評価値を文の評価要素に基づき算出し、該算出した各評価値を順次、加算してパス毎の評価値の総和を求める評価値計算手段と、
各前記いずれかの初期パスを求めた場合のパス毎の前記評価値の和の最大値を暫定解として該当する前記初期のパスに対応させて保持し、且つ、前記評価値の設定評価値を保持し、前記他のパスに対して計算済みの前記評価値を取り込んでその途中和を計算し、未計算の対応組の前記評価値が計算される前に、該未計算の前記対応組の数を調べて該数と前記設定評価値とを積算し、該積算値を前記途中和に加算してその加算結果が前記暫定解より小さいと判定すると前記他のパスの計算を中止させ、前記他のパスの前記評価値の和が前記暫定解より大きいと判定すると、前記暫定解を更新し、更に、前記他のパスにおいて対応組の原語文と訳語文との前記対応数が最大対応付け文数になると、前記組合せ管理手段に該最大対応付け文数以上の対応組に関する他のパスの生成を終止させると共に、現在の暫定解に対応するパスを文の対応付けの解とする計算結果管理手段と
を備えることを特徴とする対訳文書文対応付けシステム
A bilingual document sentence association system for associating a plurality of original sentence sentences included in a source language document with a plurality of translated sentence sentences included in a translated word document of the original document,
When the number of the source language sentences and the number of the translated texts are compared, and the number of the source language sentences is equal to the number of the translated texts, the original text sentences and the translated texts are made to correspond one-to-one according to the sentence sequence. Each initial path formed by sequentially setting each corresponding pair is obtained, and when the number of the source language sentences is larger than the number of the translation words, each of the source language sentences and each of the translation words are one-to-one and two-to-one according to the sentence sequence. Each corresponding path corresponding to any one of the above is sequentially set to obtain each initial path, and when the number of the source sentence is smaller than the number of the translated sentences, the original sentence and each translated sentence are arranged in a sentence Each of the correspondence paths corresponding to either one-to-one or one-to-two according to the above is obtained in turn, and each time the number of correspondences between the source sentence and the translated sentence is successively increased, Unions that sequentially seek other paths consisting of pairs And management means,
For each of the initial path and the other path, corresponding to each corresponding set, each evaluation value indicating the correspondence between the original sentence and the translated sentence is calculated based on the evaluation element of the sentence, and each of the calculated Evaluation value calculating means for sequentially adding evaluation values to obtain a total sum of evaluation values for each path ;
Each said hold in correspondence with the initial path to the appropriate maximum value of the total sum of the evaluation value for each path when determined either initial path as an interim solution, and, setting the evaluation value of the evaluation value , The calculated evaluation value for the other path is taken and the intermediate sum is calculated, and before the evaluation value of the uncalculated corresponding group is calculated, the uncalculated corresponding group The number and the set evaluation value are added up, the added value is added to the intermediate sum, and if the addition result is determined to be smaller than the provisional solution, the calculation of the other path is stopped, When the total sum of the evaluation values of the other paths it is determined that the tentative solution is greater than, updates the interim solution, further, the corresponding number of the maximum with the corresponding sets of source language sentences and translated word sentences in the other path When the number of correspondence sentences is reached, the combination management means will not exceed the maximum number of correspondence sentences. The corresponding set together to stop the production of other paths related, parallel texts statement associating system, characterized in that it comprises a calculation result management unit to correspondence solutions sentence corresponding path to the current interim solutions.
前記設定評価値は、前記組合せが取り得る最大評価値及び前記組合せの平均及び分散から計算される評価基準値のいずれかであることを特徴とする請求項1記載の対訳文書対応付けシステム。2. The bilingual document association system according to claim 1, wherein the set evaluation value is one of a maximum evaluation value that can be taken by the combination and an evaluation reference value calculated from an average and a variance of the combination .
JP26968098A 1998-09-24 1998-09-24 Bilingual document matching system Expired - Fee Related JP3778705B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26968098A JP3778705B2 (en) 1998-09-24 1998-09-24 Bilingual document matching system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26968098A JP3778705B2 (en) 1998-09-24 1998-09-24 Bilingual document matching system

Publications (2)

Publication Number Publication Date
JP2000099511A JP2000099511A (en) 2000-04-07
JP3778705B2 true JP3778705B2 (en) 2006-05-24

Family

ID=17475706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26968098A Expired - Fee Related JP3778705B2 (en) 1998-09-24 1998-09-24 Bilingual document matching system

Country Status (1)

Country Link
JP (1) JP3778705B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4933808B2 (en) * 2006-03-10 2012-05-16 日本放送協会 Automatic sentence association apparatus, automatic sentence association program, and translation dictionary creation apparatus used therefor
CN101470704A (en) * 2007-12-25 2009-07-01 富士施乐株式会社 Translation extracting device and method thereof
US9081762B2 (en) * 2012-07-13 2015-07-14 Enyuan Wu Phrase-based dictionary extraction and translation quality evaluation
JP5964764B2 (en) * 2013-02-13 2016-08-03 日本電信電話株式会社 Statement association determination apparatus, method, and program
JP6019538B2 (en) * 2014-03-06 2016-11-02 日本電信電話株式会社 Statement association determination apparatus, method, and program

Also Published As

Publication number Publication date
JP2000099511A (en) 2000-04-07

Similar Documents

Publication Publication Date Title
Qian et al. Speculation and negation scope detection via convolutional neural networks
Bikel Intricacies of Collins' parsing model
Bouma et al. Alpino: Wide-coverage computational analysis of Dutch
US5895446A (en) Pattern-based translation method and system
US5640575A (en) Method and apparatus of translation based on patterns
US5594641A (en) Finite-state transduction of related word forms for text indexing and retrieval
Gupta et al. A survey of common stemming techniques and existing stemmers for indian languages
JP2002215619A (en) Translation sentence extracting method from translated document
WO2001082111A2 (en) Computer-aided reading system and method with cross-language reading wizard
Darwish et al. Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging.
JP2004070928A (en) Method and system for developing transition dictionary for use in machine translation system of transition base
JP2001101185A (en) Machine translation method and device capable of automatically switching dictionaries and program storage medium with program for executing such machine translation method stored therein
JP2020113129A (en) Document evaluation device, document evaluation method, and program
Üstün et al. Unsupervised morphological segmentation using neural word embeddings
Ando et al. Mostly-unsupervised statistical segmentation of Japanese kanji sequences
JP3778705B2 (en) Bilingual document matching system
JP2019021194A (en) Information processing system and information processing method
Junker et al. An experimental evaluation of OCR text representations for learning document classifiers
Onyenwe et al. Toward an effective igbo part-of-speech tagger
US20100324885A1 (en) INDEXING MECHANISM (Nth PHRASAL INDEX) FOR ADVANCED LEVERAGING FOR TRANSLATION
Stodden et al. A multi-lingual and cross-domain analysis of features for text simplification
Tanaka et al. Translation selection for Japanese-English noun-noun compounds
WO2003003241A1 (en) Predictive cascading algorithm for multi-parser architecture
Liu et al. Character-level machine translation evaluation for languages with ambiguous word boundaries
CN113536776A (en) Confusion statement generation method, terminal device and computer-readable storage medium

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060228

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090310

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100310

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees