JP3995155B2 - 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体 - Google Patents

複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3995155B2
JP3995155B2 JP2002345988A JP2002345988A JP3995155B2 JP 3995155 B2 JP3995155 B2 JP 3995155B2 JP 2002345988 A JP2002345988 A JP 2002345988A JP 2002345988 A JP2002345988 A JP 2002345988A JP 3995155 B2 JP3995155 B2 JP 3995155B2
Authority
JP
Japan
Prior art keywords
languages
sentence
language
documents
evaluation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002345988A
Other languages
English (en)
Other versions
JP2004178423A (ja
Inventor
達哉 介弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2002345988A priority Critical patent/JP3995155B2/ja
Publication of JP2004178423A publication Critical patent/JP2004178423A/ja
Application granted granted Critical
Publication of JP3995155B2 publication Critical patent/JP3995155B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,複数の言語で構成される文書間の文書対応付けシステムにかかり,特に,2言語以上で記述された対訳文書の,文の対応付けを行う複数言語文書の対応付けシステム,複数言語文書の対応付け方法,この方法を行わせるプログラム,及びこのプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
海外に輸出される製品のマニュアルなどのように,複数の言語で同じ内容の文書を記述する場合が増えている。このような複数の言語文書の対訳の正確性を評価,担保等するため,これらの文の対応付けを行う需要も増えている。非特許文献1は,対訳文書の文の対応付けを,対訳辞書を利用したダイナミックプログラミングで行う方法が記載されている。
【0003】
非特許文献1によれば,対応付けを行うには,文書を1文毎に区切り,さらにその文の形態素解析を行って,単語毎に分割する。そして,これらの単語の中から自立語を取り出し,対訳辞書を用いてそれぞれの文の中の自立語がどの程度対応しているか(どの程度意味内容が一致しているか)によって対応付けを評価する。評価では,例えば以下のような式を用いる。
【0004】
【数1】
Figure 0003995155
【0005】
ここで
h(x,y)は,評価関数,
xは,原文中の文(複数文の場合もある),
yは,訳文中の文(複数文の場合もある),
(x,y)は,文xと文yの中で対応の付いた自立語の数,
(x)は,文x中の自立語の数,
(y)は,文y中の自立語の数,
である。
【0006】
このような式による評価を行えば,文書の対応の割合が大きいほど評価関数h(x,y)の値は大きくなり(最大;1),逆は小さくなる(最小;0)。この評価関数を文の先頭から調べていき,評価関数の和が最も大きくなる組合せを,対応付け問題の解とする。
【0007】
【非特許文献1】
宇津呂 武仁,松本 裕治 共著「対訳辞書及び統計情報を用いた二言語対訳テキスト照合」(「コンピュータソフトウェア」岩波書店 vol.12 No.5 Sep.1995 p.12(414)-p.21(423))
【0008】
【発明が解決しようとする課題】
しかしながら,上記方法では,通常の2言語の対訳文書の文の対応付けを,3言語以上の文書の文の対応付けに適用する場合に,
・複数の辞書を使用するため,システムにかなりの量の記録領域を必要とする。・評価の処理に時間がかかる。
・全ての言語間で,各言語対の対応の整合性をとるのが困難である。
などの問題がある。
【0009】
また,2言語の対訳文書の対応付けに関しても,高精度での対応を自動的に付けるのは難しく,対応付けの結果を見ながらの人の手によるチェックや修正が必要であり,その作業時間が問題となっている。
【0010】
本発明は,従来の複数言語文書の対応付けシステムが有する上記問題点に鑑みてなされたものである。そして,本発明の目的は,英語−日本語−ドイツ語など,複数の言語でそれぞれ構成される文書間の文の対応付けを効率良く行うための,新規かつ改良された複数言語文書の対応付けシステム,及び複数言語文書の対応付け方法を提供することにある。
【0011】
【課題を解決するための手段】
上記課題を解決するための本発明の複数言語文書の対応付けシステムは,n種(nは2以上)の言語の文書を対応付けるシステムである。そして,各言語の文書を単語毎に分割する形態素解析手段と,n種の言語の文書のうちの2種を選択する手段と,選択された2種の言語文書の評価関数を計算する手段と,評価結果に応じてn種の言語の文書を対応付ける手段とから構成される。
【0012】
ここで,各言語の文書を単語毎に分割する形態素解析手段は,各言語の文書を文毎に分割する手段と,分割された各文をさらに単語毎に分割する手段とからなってもよい。
【0013】
【発明の実施の形態】
以下に添付図面を参照しながら,本発明にかかる複数言語文書の対応付けシステム,複数言語文書の対応付け方法の好適な実施の形態について詳細に説明する。
【0014】
(第1の実施の形態)
図1は,第1の実施の形態にかかる複数言語文書の対応付けシステム100の構成を示す説明図である。複数言語文書の対応付けシステム100は,図1に示したように,文分割手段105と,形態素解析手段106と,評価関数計算手段107と,計算結果管理手段108と,対訳辞書データベース109により構成されている。この例では,各言語のファイル101〜104が入力されて,対応タグ付きファイル110〜113が出力される。以下,各構成要素につき詳細に説明する。
【0015】
英語ファイル101は,英語で記述された文書ファイル,日本語ファイル102は,日本語で記述された文書ファイル,ドイツ語ファイル103は,ドイツ語で記述された文書ファイル,中国語ファイル104は,中国語で記述された文書ファイルである。上記4つのファイルはそれぞれ同じ内容のことを述べており,それぞれが対訳形式になっている。
【0016】
文分割手段105は,文書ファイルを1文毎に分割する。例えば,英文であればピリオド「.」,日本文なら句点「。」などで分割する。形態素解析手段106は,形態素解析処理を行い,文を単語毎に分割する。文分割手段105及び形態素解析手段106は,既存のものを適用できる。
【0017】
評価関数計算手段107は,最適な対応付けを見つけるために,与えられた評価関数を計算する。例えば,評価関数は,次式;
h(x,y)=2×f(x,y)/(f(x)+f(y))
で表される。ここで,h(x,y)は,評価関数であり,xは,一方の言語の文(原文)であり,yは,他方の言語の文(訳文)であり,f(x,y)は,文xと文yの中で対応の付いた自立語の数であり,f(x)は,文x中の自立語の数であり,f(y)は,文y中の自立語の数である。
【0018】
計算結果管理手段108は,評価関数計算手段が計算した結果を保持し,既出の評価関数計算が再び到来したときに保持した結果を出力し,同じ計算を何度も行わないようにする。
【0019】
対訳辞書データベース109は,対応付けをするための原文の単語を引くと訳文の語が1つまたは複数あるような辞書である。例えば,原文が英語,訳文が日本語の場合,英和辞典に相当する。
【0020】
対応タグ付英語ファイル110は,英語ファイルに他の文書のどの文に対応しているかを示すタグを付与したものである。対応タグ付き日本語ファイル111,対応タグ付きドイツ語ファイル112,及び対応タグ付中国語ファイル113も同様に,元のファイルに文の対応を示すためのタグを付与したものである。
【0021】
本実施の形態にかかる複数言語文書の対応付けシステム100は,以上のように構成されている。次に,図2を参照しながら,複数言語文書の対応付けシステム100の動作を説明する。
【0022】
図2は,第1の実施の形態の複数言語文書の対応付けシステム100の動作を示すフローチャートである。ステップS10では文分割手段によって一方の文(原文)ファイルと他方の文(訳文)ファイルの文分割を行う。そして,対応付けをどこまで行ったかを示すカウンタNを,0にセットする。
ステップS11では,カウンタNをインクリメント(+1)する。
ステップS12では,対応付けを行う言語の数がカウンタNと等しいかどうかを比較する。もし等しければ,ステップS17に行く。
【0023】
ステップS13では,対応付けを行う言語をN番目とN+1番目にセットする。
ステップS14では,評価関数計算手段がセットされた言語に対して文の対応付けを行う。
ステップS15では,対応付けを行った結果に対して,対応する文同士に双方向リンクを張る。
【0024】
ステップS16では,2対1,3対1などの複数文の対応になった文に対してマーク付けを行う。これらのマーク付けされた文の組は,次に対応付けを行う場合はそれを主文とみなして処理する。
ステップS17では,対応付けを行っていない言語同士の文に対して,他の言語同士の対応付け結果を利用して,リンクを張る。
【0025】
以上の処理を,図1の4言語の対応付けを行う場合に関して説明する。この例では,英語が1番目,日本語が2番目,ドイツ語が3番目,中国語が4番目の言語に相当する。
【0026】
まず,4つの言語(n=4)それぞれを文分割手段によって一文毎に分割する。次に,文の対応付けを行う。英語と日本語の対応付けを英日対訳辞書を使って,日本語とドイツ語の対応付けを日独対訳辞書を使って,ドイツ語と中国語の対応付けを独中対訳辞書を使ってそれぞれ行う。これにより,日本語−英語間,日本語−ドイツ語間,ドイツ語−中国語間の(n−1)通りの文同士のリンクが生成される。
【0027】
さらに,対応のついていない言語同士(ここでは,日本語−中国語,英語−ドイツ語,英語−中国語)の文のリンクを張ることによって,すべての言語間の文の対応をとることができる。
【0028】
以上説明したように,本実施の形態によれば,対応付けの精度は多少落ちるが,少ない記録容量で時間もあまりかからずに効率良く文の対応をとることができる。
【0029】
(第2の実施の形態)
図3に,第2の実施の形態の複数言語文書の対応付けシステムの構成を示す。英語ファイル201は,英語で記述された文書ファイル,日本語ファイル202は,日本語で記述された文書ファイル,ドイツ語ファイル203は,ドイツ語で記述された文書ファイル,中国語ファイル204は,中国語で記述された文書ファイルである。上記4つのファイルは,それぞれ同じ内容が記述されており,それぞれが対訳形式になっている。
【0030】
文分割手段205は,文書ファイルを1文毎に分割する。英文であればピリオド「.」,日本文なら句点「。」などで分割する。形態素解析手段206は,形態素解析処理を行い,文を単語毎に分割する。文分割手段205及び形態素解析手段206は,既存のものを適用できる。評価関数計算手段207は,最適な対応付けを見つけるために,与えられた評価関数を計算する。評価関数は,例えば第1の実施の形態で示したものが適用できる。
【0031】
計算結果管理手段208は,評価関数計算手段が計算した結果を保持し,既出の評価関数計算が再び到来したときに保持した結果を出力し,同じ計算を何度も行わないようにする。対訳辞書データベース209は,対応付けをするための辞書で,原文の単語を引くと訳文の語が1つまたは複数あるような辞書である。原文が英語,訳文が日本語の場合,英和辞典に相当する。
【0032】
対応タグ付英語ファイル210は,英語ファイルに他の文書のどの文に対応しているかを示すタグを付与したものである。対応タグ付き日本語ファイル211,対応タグ付きドイツ語ファイル212,及び対応タグ付中国語ファイル213も同様に,元のファイルに文の対応を示すためのタグを付与したものである。
【0033】
相違箇所表示手段220は,対応付け結果に不整合があった場合に,その不整合箇所を表示し,ユーザに修正させる機能をもつ。不整合とは,例えば,英語の文Enと日本語のJnが対応していて,日本語の文Jnとドイツ語の文Dnが対応しているときに,英語とドイツ語の対応結果をみると,英文Enとドイツ文Dnとが対応していないような場合である。
【0034】
図4は,本実施の形態の複数言語文書の対応付けシステム200の動作を示すフローチャートである。
ステップS20では,文分割手段によって一方の文(原文)ファイルと他方の文(訳文)ファイルの文分割を行う。そして,対応付けをどこまで行ったかを示すカウンタNとMを,1にセットする。
ステップS21では,対応付けを行う言語の数がカウンタNと等しいかどうかを比較する。もし等しければ,ステップS27に行く。
ステップS22では,カウンタMをインクリメントし,Nの値をM+1にする。
ステップS23では,対応付けを行う言語の数がカウンタMと等しいかどうかを比較する。もし等しければ,S28に行く。
【0035】
ステップS24では,対応付けを行う言語をM番目とN番目にセットする。
ステップS25では,評価関数計算手段がセットされた言語に対して文の対応付けを行う。
ステップS26では,対応付けを行った結果に対して,対応する文同士に双方向リンクを張る。
ステップS27では,Nをインクリメントする。
ステップS28では,文の対応に不整合がある部分を表示しユーザに修正させる。
ステップS29では,ユーザの修正に応じて,対応付けのリンクを張り直す。
このようにして,n種の言語の文に対して,全ての組合せ(この例では,言語の種類n=4で,n(n−1)/2=6通り)の対応付けを行う。
【0036】
以上説明したように,本実施の形態によれば,ユーザが修正することが必須であるが,高精度の対応付けが効率良く実現できる。
【0037】
(第3の実施の形態)
図5に,第3の実施の形態の複数言語文書の対応付けシステムの構成を示す。英語ファイル301は,英語で記述された文書ファイル,日本語ファイル302は,日本語で記述された文書ファイル,ドイツ語ファイル303は,ドイツ語で記述された文書ファイル,中国語ファイル304は,中国語で記述された文書ファイルである。上記4つのファイルは,それぞれ同じ内容が記述されており,それぞれが対訳形式になっている。
【0038】
文分割手段305は,文書ファイルを1文毎に分割する。英文であればピリオド「.」,日本文なら句点「。」などで分割する。形態素解析手段306は,形態素解析処理を行い,文を単語毎に分割する。文分割手段305及び形態素解析手段306は,既存のものを適用できる。評価関数計算手段307は,最適な対応付けを見つけるために,与えられた評価関数を計算する。評価関数は,例えば第1の実施の形態で示したものが適用できる。
【0039】
計算結果管理手段308は,評価関数計算手段が計算した結果を保持し,既出の評価関数計算が再び到来したときに保持した結果を出力し,同じ計算を何度も行わないようにする。
【0040】
対訳辞書データベース309は,対応付けをするための辞書で,原文の単語を引くと訳文の語が1つまたは複数あるような辞書である。原文が英語,訳文が日本語の場合英和辞典に相当する。
【0041】
対応タグ付英語ファイル310は,英語ファイルに他の文書のどの文に対応しているかを示すタグを付与したものである。対応タグ付き日本語ファイル311,対応タグ付きドイツ語ファイル312,及び対応タグ付中国語ファイル313も同様に,元のファイルに文の対応を示すためのタグを付与したものである。
【0042】
図6は,本実施の形態の複数言語文書の対応付けシステム300の動作を示すフローチャートである。
ステップS30では,文分割手段によって一方の文(原文)ファイルと他方の文(訳文)ファイルの文分割を行う。そして,対応付けをどこまで行ったかを示すカウンタNとMを,1にセットする。
ステップS31では,対応付けを行う言語の数がカウンタNと等しいかどうかを比較する。もし等しければ,ステップS37に行く。
【0043】
ステップS32では,カウンタMをインクリメントし,Nの値をM+1にする。
ステップS33では,対応付けを行う言語の数がカウンタMと等しいかどうかを比較する。もし等しければ,ステップS37に行く。
【0044】
ステップS34では,対応付けを行う言語をM番目とN番目にセットする。
ステップS35では,評価関数計算手段がセットされた言語に対して評価関数を計算する。
ステップS36では,Nをインクリメントする。
ステップS37では,対応付けのポイントの和が最も大きくなるような文の組を選択する。
ステップS38では,対応する文同士に双方向リンクを張る。
【0045】
以上の処理を,図5の4言語(n=4)の対応付けを行う場合に関して説明する。例では,英語が1番目,日本語が2番目,ドイツ語が3番目,中国語が4番目の言語に相当する。
【0046】
まず,4つの言語それぞれを文分割手段によって一文毎に分割する。次に,すべての文書の組の評価関数を計算する。この場合,英語−日本語,英語−ドイツ語,英語−中国語,日本語−ドイツ語,日本語−中国語,ドイツ語−中国語の6つの評価関数を計算する。
【0047】
次に,対応付けポイントの和が最も大きくなるように対応をとっていく。この対応は4言語まとめて同時に行われる。例えば,英文1文,日本文1文,ドイツ文2文,中国文1文の評価ポイントは,英文と日本文の1文対1文,英文とドイツ文の1文対2文,英文と中国文の1文対1文,日本文とドイツ文の1文対2文,日本文と中国文の1文対1文,ドイツ文と中国文の2文対1文,の評価ポイントの和となる。この計算を続け,評価ポイントの和の和が最も大きくなったものを対応付けの正解とする。
【0048】
以上説明したように,本実施の形態によれば,時間はかなりかかるが高精度の対応付けが効率良く実現できる。
【0049】
(第4の実施の形態)
図7に,第4の実施の形態の複数言語文書の対応付けシステムの構成を示す。英語ファイル401は英語で記述された文書ファイル,日本語ファイル402は日本語で記述された文書ファイル,ドイツ語ファイル403はドイツ語で記述された文書ファイル,中国語ファイル404は中国語で記述された文書ファイルである。上記4つのファイルはそれぞれ同じ内容が記述されており,それぞれが対訳形式になっている。
【0050】
文分割手段405は,文書ファイルを1文毎に分割する。英文であればピリオド「.」,日本文なら句点「。」などで分割する。形態素解析手段406は,形態素解析処理を行い,文を単語毎に分割する。文分割手段405及び形態素解析手段406は,既存のものを適用できる。評価関数計算手段407は,最適な対応付けを見つけるために,与えられた評価関数を計算する。評価関数は,例えば第1の実施の形態で示したものが適用できる。
【0051】
計算結果管理手段408は,評価関数計算手段が計算した結果を保持し,既出の評価関数計算が再び到来したときに保持した結果を出力し,同じ計算を何度も行わないようにする。対訳辞書データベース409は,対応付けをするための辞書で,原文の単語を引くと訳文の語が1つまたは複数あるような辞書である。原文が英語,訳文が日本語の場合英和辞典に相当する。
【0052】
対応タグ付英語ファイル410は,英語ファイルに他の文書のどの文に対応しているかを示すタグを付与したものである。対応タグ付き日本語ファイル411,対応タグ付きドイツ語ファイル412,及び対応タグ付中国語ファイル413も同様に,元のファイルに文の対応を示すためのタグを付与したものである。
【0053】
言語類似度データ420は,言語同士の文法などがどれだけ似ているかを数値化したものである。類似度が高いほど文の対応付けの程度も向上する。それぞれの言語対の類似度の値が,例えば表形式などで記録されている。
【0054】
図8は,本実施の形態の複数言語文書の対応付けシステム400の動作を示すフローチャートである。
ステップS40では,文分割手段によって一方の文ファイルと他方の文ファイルの文分割を行う。
対応付けをどこまで行ったかを示すカウンタNを,0にセットする。
ステップS41では,カウンタNをインクリメントする。
ステップS42では,対応付けを行う言語の数がカウンタNと等しいかどうかを比較する。もし等しければ,終了する。
【0055】
ステップS43では,言語類似度が最も高く,まだ選択されていない言語対を選択し,選択済みのマークをつけておく。
ステップS44では,言語対に文対応のリンクが張られているかどうかを調べる。リンクがすでに張られていれば,ステップS43に行く。
【0056】
ステップS45では,評価関数計算手段が選択された言語に対して文の対応付けを行う。
ステップS46では,対応付けを行った結果に対して,対応する文同士に双方向リンクを張る。
ステップS47では,2対1,3対1などの複数文の対応になった文に対してマーク付けを行う。これらのマーク付けされた文の組は次に対応付けを行う場合はそれを1文とみなして処理する。
ステップS48では,間接的に対応のついた言語に対してリンクを張る。例えば,英語−日本語,英語−ドイツ語の対応がとれたとすると,日本語−ドイツ語間にも文対応のリンクを張る。
【0057】
以上説明したように,本実施の形態によれば,言語類似度データを用意する必要があるが,高速に精度の高い対応付けが効率良く実現できる。
【0058】
上記の4つの実施の形態の速度,精度,使用する記録容量を比較すると,表1のようになる。表1において,「◎」は優良,「○」は良好,「△」は普通である。
【0059】
【表1】
Figure 0003995155
【0060】
以上,添付図面を参照しながら本発明にかかる複数言語文書の対応付けシステム,及び複数言語文書の対応付け方法の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0061】
例えば,上記第1〜第4実施の形態では,英語,日本語,ドイツ語,中国語の対応付けを示したが,対訳辞書を変えることによって,どんな言語同士の対応もとることができる。また,4言語(n=4)の例を示したが,2言語以上であれば何言語の対応付けにも対応できる。第2,第3の実施の形態では言語数が増えてくると処理時間が非常に遅くなるおそれがあるが,計算する対応組の数を減らすことによって対応できる。
【0062】
なお,本発明の複数言語文書の対応付け方法は,プログラムに記述することもでき,本発明の複数言語文書の対応付け方法を記述したプログラムは,記録媒体に記録することができる。
【0063】
【発明の効果】
以上説明したように,本発明によれば,複数の言語で構成される文書間の文の対応付けを効率良く行う複数言語文書の対応付けシステムが提供できた。
【図面の簡単な説明】
【図1】第1の実施の形態にかかる複数言語文書の対応付けシステムの構成を示す説明図である。
【図2】図1の複数言語文書の対応付けシステムの動作を示すフローチャートである。
【図3】第2の実施の形態にかかる複数言語文書の対応付けシステムの構成を示す説明図である。
【図4】図3の複数言語文書の対応付けシステムの動作を示すフローチャートである。
【図5】第3の実施の形態にかかる複数言語文書の対応付けシステムの構成を示す説明図である。
【図6】図5の複数言語文書の対応付けシステムの動作を示すフローチャートである。
【図7】第4の実施の形態にかかる複数言語文書の対応付けシステムの構成を示す説明図である。
【図8】図7の複数言語文書の対応付けシステムの動作を示すフローチャートである。
【符号の説明】
100,200,300,400 複数言語文書の対応付けシステム
101,201,301,401 英語ファイル
102,202,302,402 日本語ファイル
103,203,303,403 ドイツ語ファイル
104,204,304,404 中国語ファイル
105,205,305,405 文分割手段
106,206,306,406 形態素解析手段
107,207,307,407 評価関数計算手段
108,208,308,407 計算結果管理手段
109,209,309,409 対訳辞書データベース
110,210,310,410 対応タグ付英語ファイル
111,211,311,411 対応タグ付日本語ファイル
112,212,312,412 対応タグ付独語ファイル
113,213,313,413 対応タグ付中国語ファイル
114,214,314,414 英日対訳辞書
115,215,315,415 日独対訳辞書
116,216,316,416 独中対訳辞書
217,317,417 英独対訳辞書
218,318,418 英中対訳辞書
219,319,419 日中対訳辞書
220 相違箇所表示手段
420 言語類似度データ

Claims (19)

  1. n種(nは3以上の自然数)の言語の文書を対応付けるシステムであって,
    各言語の文書を単語毎に分割する形態素解析手段と,
    前記n種の言語の文書のうちの2種を選択する手段と,
    前記選択された2種の言語の文書の評価関数を計算する手段と,
    前記n種の言語の文書の対応付けを行った結果,いずれか1種の言語の文に対応付けられた2種以上の言語の文の中に,互いに対応付けられない文の組み合わせが存在する場合に,前記対応付けられない文の組み合わせを不整合箇所として表示する手段と,
    を含むことを特徴とする,複数言語文書の対応付けシステム。
  2. 前記評価関数を計算する手段は,前記n種の言語から選択される前記2種の言語の文書の全ての組み合わせについての前記評価関数の計算結果の和を求め,前記和が最大となったものを対応付けの正解とすることを特徴とする,請求項1に記載の複数言語文書の対応付けシステム。
  3. 前記形態素解析手段が,
    各言語の文書を文毎に分割する手段と,分割された各文をさらに単語毎に分割する手段とからなることを特徴とする,請求項1または2のいずれか1項に記載の複数言語文書の対応付けシステム。
  4. 前記n種の言語の文書のうちの2種を選択する手段が,
    前記n種の言語の文書を任意の順序で並べたときに,k番目とk+1番目(kは,1からn−1までの自然数)の,n−1通りの組合せを選択することを特徴とする,請求項1〜3のいずれか1項に記載の複数言語文書の対応付けシステム。
  5. 前記n種の言語の文書のうちの2種を選択する手段が,
    n(n−1)/2通りの全ての組合せを選択することを特徴とする,請求項1〜4のいずれか1項に記載の複数言語文書の対応付けシステム。
  6. さらに,前記評価関数で計算した結果を保持する計算結果管理手段を含むことを特徴とする,請求項1〜5のいずれか1項に記載の複数言語文書の対応付けシステム。
  7. 前記評価関数が,次式;
    h(x,y)=2×f(x,y)/(f(x)+f(y))
    で表されることを特徴とする,請求項1〜6のいずれか1項に記載の複数言語文書の対応付けシステム。
    但し,h(x,y)は,評価関数,
    xは,一方の言語の文,
    yは,他方の言語の文,
    (x,y)は,文xと文yの中で対応の付いた自立語の数,
    (x)は,文x中の自立語の数,
    (y)は,文y中の自立語の数,
    である。
  8. さらに,言語間の類似度データを調べながら,対応付けの正解率の高い言語対を指示する手段を含むことを特徴とする,請求項1〜7のいずれか1項に記載の複数言語文書の対応付けシステム。
  9. n種(nは3以上の自然数)の言語の文書を単語毎に分割する形態素解析手段が実行する形態素解析工程と,
    前記n種の言語の文書のうちの2種を選択する手段が実行する文書選択工程と,
    前記選択された2種の言語の文書の評価関数を計算する手段が実行する評価関数計算工程と,
    前記対応付け手段による対応付けを行った結果,いずれか1種の言語の文に対応付けられた2種以上の言語の文の中に,互いに対応付けられない文の組み合わせが存在する場合に,前記対応付けられない文の組み合わせを不整合箇所として表示する手段が実行する不整合箇所表示工程と,
    を含むことを特徴とする,複数言語文書の対応付け方法。
  10. 前記評価関数計算工程は,前記n種の言語から選択される前記2種の言語の文書の全ての組み合わせについての前記評価関数の計算結果の和を求め,前記和が最大になったものを対応付けの正解とすることを特徴とする,請求項9に記載の複数言語文書の対応付け方法。
  11. 前記形態素解析工程は,
    各言語の文書を文毎に分割する段階と,分割された各文をさらに単語毎に分割する段階とからなることを特徴とする,請求項9または10のいずれか1項に記載の複数言語文書の対応付け方法。
  12. 前記文書選択工程において,前記n種の言語の文書を任意の順序で並べたときに,k番目とk+1番目(kは,1からn−1までの自然数)の,n−1通りの組合せを選択することを特徴とする,請求項9〜11のいずれか1項に記載の複数言語文書の対応付け方法。
  13. 前記文書選択工程において,n(n−1)/2通りの全ての組合せを選択することを特徴とする,請求項9〜12のいずれか1項に記載の複数言語文書の対応付け方法。
  14. さらに,前記評価関数で計算した結果を保持する計算結果管理手段が実行する計算結果管理工程を含むことを特徴とする,請求項9〜13のいずれか1項に記載の複数言語文書の対応付け方法。
  15. 前記評価関数が,次式;
    h(x,y)=2×f(x,y)/(f(x)+f(y))
    で表されることを特徴とする,請求項9〜14のいずれか1項に記載の複数言語文書の対応付け方法。
    但し,h(x,y)は,評価関数,
    xは,一方の言語の文,
    yは,他方の言語の文,
    (x,y)は,文xと文yの中で対応のついた自立語の数,
    (x)は,文x中の自立語の数,
    (y)は,文y中の自立語の数,
    である。
  16. さらに,言語間の類似度データを調べながら,対応付けの正解率の高い言語対を指示する手段が実行する指示工程を含むことを特徴とする,請求項9〜15のいずれか1項に記載の複数言語文書の対応付け方法。
  17. コンピュータを,
    n種(nは3以上の自然数)の各言語の文書を単語毎に分割する形態素解析手段と,
    前記n種の言語の文書のうちの2種を選択する手段と,
    前記選択された2種の言語の文書の評価関数を計算する手段と,
    前記n種の言語の文書の対応付けを行った結果,いずれか1種の言語の文に対応付けられた2種以上の言語の文の中に,互いに対応付けられない文の組み合わせが存在する場合に,前記対応付けられない文の組み合わせを不整合箇所として表示する手段と,
    を含むn種の言語の文書を対応付ける複数言語文書の対応付けシステムとして機能させるためのプログラム。
  18. 前記評価関数を計算する手段は,前記n種の言語から選択される前記2種の言語の文書の全ての組み合わせについての前記評価関数の計算結果の和を求め,前記和が最大になったものを対応付けの正解とすることを特徴とする,請求項17に記載のプログラム。
  19. 請求項17または18のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002345988A 2002-11-28 2002-11-28 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体 Expired - Fee Related JP3995155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002345988A JP3995155B2 (ja) 2002-11-28 2002-11-28 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002345988A JP3995155B2 (ja) 2002-11-28 2002-11-28 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2004178423A JP2004178423A (ja) 2004-06-24
JP3995155B2 true JP3995155B2 (ja) 2007-10-24

Family

ID=32707033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002345988A Expired - Fee Related JP3995155B2 (ja) 2002-11-28 2002-11-28 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3995155B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4256891B2 (ja) * 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術

Also Published As

Publication number Publication date
JP2004178423A (ja) 2004-06-24

Similar Documents

Publication Publication Date Title
US8959011B2 (en) Indicating and correcting errors in machine translation systems
JP3038079B2 (ja) 自動翻訳装置
US8219381B2 (en) Dictionary registration apparatus, dictionary registration method, and computer product
US20120136647A1 (en) Machine translation apparatus and non-transitory computer readable medium
JPS62121569A (ja) 原文中の成句置換方法
JP5007977B2 (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
US11227119B2 (en) Cognitive word processing
US10120843B2 (en) Generation of parsable data for deep parsing
JP5083317B2 (ja) 翻訳支援プログラム、翻訳支援装置および翻訳支援方法
JP3995155B2 (ja) 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体
JP2838984B2 (ja) 汎用参照装置
JP5628485B2 (ja) 翻訳支援システム及びその方法及びそのプログラム
JP2018163629A (ja) 翻訳支援システム
JP3937171B2 (ja) 翻訳メモリ、プログラムおよび記録媒体
JP3362036B2 (ja) 機械翻訳方法および装置
JP2002132764A (ja) 機械翻訳前処理装置
JP5763830B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
KR20070083757A (ko) 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
Herbig Multi-modal post-editing of machine translation
US20230025835A1 (en) Workflow generation support apparatus, workflow generation support method and workflow generation support program
JP4081109B2 (ja) 機械翻訳装置
JP2002183134A (ja) 翻訳装置
JPH07160720A (ja) 機械で読み取り可能な情報の翻訳を支援し、効率化する装置及びその方法
JPH04158477A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070417

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070607

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070726

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees