JP5100460B2 - 対訳表現処理装置およびプログラム - Google Patents
対訳表現処理装置およびプログラム Download PDFInfo
- Publication number
- JP5100460B2 JP5100460B2 JP2008066393A JP2008066393A JP5100460B2 JP 5100460 B2 JP5100460 B2 JP 5100460B2 JP 2008066393 A JP2008066393 A JP 2008066393A JP 2008066393 A JP2008066393 A JP 2008066393A JP 5100460 B2 JP5100460 B2 JP 5100460B2
- Authority
- JP
- Japan
- Prior art keywords
- bilingual
- phrase
- alignment
- candidate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
[単語単位の手法] 非特許文献1には、単語単位で対訳関係を推定する手法が記載されている。また、この文献の筆者は、単語単位で対訳関係を推定するコンピュータプログラム「GIZA++」を公開している。
[同時生起確率に基づく手法] 非特許文献2には、各言語の文書を複数の表現の列に分割し、対訳表現候補のペアの同時生起確率に基づいて,確率が最も高くなる表現のペアを対訳表現として推定する手法が記載されている。
Franz Josef Och,Hermann Ney,"A Systematic Comparison of Various Statistical Alignment Models",Computational Linguistics,2003年,volume 29,number 1,pp.19−51,March 2003. Daniel Marcu,外1名,"A Phrase-Based, Joint Probability Model for Statistical Machine Translation",Proceedings of the ACL-02 conference on Empirical methods in natural language processing,2002年,Volume 10,p.133−139.
非特許文献1に記載された手法では、1単語と複数単語との対訳関係を推定するため、複数単語からなる表現同士の対訳関係を推定することができないという問題があった。
また、非特許文献2に記載された手法では、長い対訳表現を獲得することができないという問題があった。
対訳文書組データは、アライメント処理の対象として入力されるデータであり、複数言語の対訳文のデータである。そして、対訳フレーズ候補取得部は、対訳文書組データに合致する対訳フレーズ組候補(つまり、アラインメントに使える可能性のある対訳フレーズ組候補)をすべて取得する。そして、アラインメント処理部は、取得された対訳フレーズ組候補を用いて、アラインメント処理を行なう。このとき、アラインメント処理部は、選択される対訳フレーズ組候補が互いに整合する関係(つまり、包含的関係あるいは非連結関係のいずれかの関係を有する)となるように選択する。これら選択された対訳フレーズ組候補を、入力文に適用したものがアラインメント処理結果であるが、このアラインメント処理結果の中には、アラインメント処理部によって採用された対訳フレーズ組候補の情報が含まれている。
対訳フレーズ候補順位付け処理部が対訳フレーズ候補データ記憶部から読み出した統計量に基づき、アラインメント処理部は、確からしい対訳フレーズ組候補を優先的に採用しながら、アラインメントを確立していく。
対訳辞書データに登録されている対訳フレーズは、統計的な処理で抽出された対訳フレーズ組候補よりも、言語的に信頼度が高い。このような対訳フレーズを、対訳フレーズ組候補よりも優先的に採用することは妥当であり、アラインメント処理結果の信頼度が上がる結果となる。
なお、対訳辞書データ内に、対訳フレーズ間の信頼度の差を表わすための対訳フレーズごとの優先度の情報を持つようにしても良い
この構成により、対訳文書組群データ記憶部(1A)に記憶されている対訳文書組データを基に、対訳文書組群データ分析処理部(2A)が対訳フレーズ組候補を抽出して対訳フレーズ候補データ記憶部(3A)に書き込む処理と、それら抽出された対訳フレーズ組候補の中から対訳フレーズ候補取得部(6A)が対訳フレーズ組候補を取得し、これら対訳フレーズ組候補を用いてアラインメント処理部(8A)がアラインメント処理結果を出力するまでの処理を一貫して実行できる。
また、本発明によれば、アラインメント処理部が、包含的にアラインメント処理を行なうため,長い表現から短い表現まで複数の長さのアラインメント結果が得られる.
本実施形態は、次の2段階の処理でアラインメントを行なう。まず、第1段階で、対訳文書対群データ(パラレルデータ)から複数の統計量がしきい値以上となる対訳フレーズ候補を抽出する。次の第2段階では、他のアラインメントと整合性がとれる対訳フレーズ候補の中から、複数の特徴量を用いて識別的に候補を選択していくことでアラインメントを確立させていく。この特徴量としては、単語レベルとフレーズレベルの統計量や対訳辞書の登録の有無を利用する。以下では、これらの段階ごとの処理について述べる。
図1は、本実施形態による対訳表現処理装置100の機能構成を示すブロック図である。この対訳表現処理装置100は、対訳文書の対を大量に記憶する対訳文書対群データを基に、対訳フレーズ候補(対訳フレーズ組候補)を抽出するとともにそれら候補の統計量を算出するものである。
対訳文書対群データ記憶部1は、二言語(複数言語)による対訳文書の対(組)である対訳文書対(組)データを、数多く記憶するものである。
対訳文書対群データ分析処理部2は、対訳文書対データ記憶部1から読み出した対訳文書対(組)データに基づき、単一の対訳文書対(組)データ内に出現する語系列の複数の言語間での共起頻度をカウントし、全ての対訳文書対(組)データにおける共起頻度の合計値が所定の頻度閾値以上となるような、複数言語による語系列の対(組)を対訳フレーズ対(組)候補として抽出して、対訳フレーズ候補データ記憶部3に書き込む。
対訳フレーズ候補データ記憶部3は、抽出された対訳フレーズ候補データを記憶する。
なお、対訳文書対群データ分析処理部2は電子的な回路等によって構成される。また、対訳文書対群データ記憶部1や対訳フレーズ候補データ記憶部3は、半導体メモリやハードディスク装置などを用いて実現され、電子的な手段を介してデータを読み書きすることが可能となっている。
ここでは、フレーズ対の列挙アルゴリズムと枝刈り手法を用いて、複数の統計量が閾値以上となるフレーズ対を効率的に抽出する手法について述べる。ここでフレーズとは、連続する1つ以上の単語からなる任意長の表現である。二種類の言語(ここでは、日本語と英語)各々毎に頻出表現を抽出すると、取得される表現の数が多くなるため、それら二言語の表現の組合せ数は膨大になり、従ってデータ量の多い組合せの計算は困難である。ただし、共起する文数が閾値以上であるような表現対を探索する場合に,各言語毎に出現文数が閾値以上の表現を抽出して、得られた各言語の表現の組(ここでは、日本語表現と英語表現の組)が共起する文を数えるとしきい値未満になる組が多く含まれることになる。そこで、本実施形態の手法では、共起する文数が閾値以上となるフレーズ対を直接探索するアルゴリズムを用いる。この手法のアルゴリズムの基本的な考え方は、深さ優先探索を2段階で行い、頻度以外の統計量を用いて枝刈りするというものである。
以下においては、まず、単言語での出現文数が多いフレーズの深さ優先探索を定式化し、その次に、2段階の深さ優先探索を行なう方法について説明する。
深さ優先探索を利用した、出現文数が多いフレーズの単言語での探索を以下のように定式化する。
単語の集合をW={w1,w2,・・・,wn}とする。文をsとし、文番号をdとし、文番号と文のペア(d,s)の集合をコーパスSとする。フレーズをpとする。単語の系列(語系列)をf=f1f2・・・fl(ただし、fi∈W,i∈{1,2,・・・,l}と定義する。sとpは系列で表される。コーパスSの中でのフレーズpの出現文数をc(p)とする。
即ち、Xにおいて、文番号dに対応する文の中において系列fに一致する末尾の単語位置に1を加えた値をrとする。そして、文番号dと値rとのペア(d,r)の集合をYとする。ただし、r が文末の単語位置より大きい場合にはそのペア(d,r)を集合Yに含めない。
部分コーパスXの中の全てのペア(d,s)において、(d,r)∈Yとなるような文番号dおよび値rと、その文における単語位置rの単語gとの組(d,r,g)の集合をHとする。
そして、集合Hに含まれる単語gの集合をGとする。
ステップ1: 初期値として、f1=aとし、f=f1とする。
ステップ2: fを含む文の文番号dとその文sのペア(d,s)の集合Xを生成するとともに、文番号dと、fが出現した末尾位置プラス1の値rからなるペア(d,r)の集合Yを生成する。
ステップ3: Xの基数であるところの|X|がζ以上(ここでは、ζ=2)の場合にはそのfをフレーズとして出力する。|X|がζ未満の場合には、現在のfについての処理を終了する。
ステップ4: 集合Xと集合Yから、集合Hと集合Gを生成する。そして、fに後続する各単語wi(wi∈G)について、fの末尾にwiを追加したところの、
この「新たなf」とは、現在のfに、集合Yの各要素(d,r)について、コーパスX内の文番号dなる文の単語位置rにおける単語gを連結したものである。
なお、この探索の際には、深さ優先の探索を行なう。このように深さ優先の探索とすることによって、探索処理の途中で記憶しておくべき情報の量が爆発的に増えるのを防ぐことができる。
ノード(1): 図の一番左のノードでは、探索の初期値として、f=aとなっている。そして、コーパスSの中で、系列fに対応する集合Xを求める。すると、(d=1,s=abcd)、(d=2,s=dabc)、(d=3,s=acab)、(d=4,s=bdac)という4つのペアを要素とする集合Xが得られる。ここで|X|=4(|X|≧ζ)であるので、f=aはフレーズとして出力される。そして、新たなfとして、f=ab(d=1,2,3で出現)とf=ac(d=3,4で出現)について、次の探索を行なう。
ノード(1−1): 図中の上の枝の最初のノードは、f=abに対応している。ここでは、|X|=3であるので(|X|≧ζ)、f=abはフレーズとして出力される。そして、新たなfとして、f=abc(d=1,2で出現)について、次の探索を行なう。ここでd=3に対応する文sは、abの後に単語が存在しないため、集合Yには含まれず、よってこれ以上の探索の対象とはならない。
ノード(1−1−1): 次のノードは、f=abcに対応している。ここでは、|X|=2であるので(|X|≧ζ)、f=abcはフレーズとして出力される。そして、新たなfとして、f=abcd(d=1で出現)について、次の探索を行なう。
ノード(1−1−1−1): 次のノードは、f=abcdに対応している。ここでは、|X|=1であるので(|X|<ζ)、f=abcdは出力されない。そして、この枝の処理を終了する。
ノード(1−2): 次に、ノード(1)の直下のもう一つのノードであるノード(1−2)に移る。このノードは、f=acに対応している。ここでは、|X|=2であるので(|X|≧ζ)、f=acはフレーズとして出力される。そして、新たなfとして、f=aca(d=3で出現)について、次の探索を行なう。
ノード(1−2−1): 次のノードは、f=acaに対応している。ここでは、|X|=1であるので(|X|<ζ)、f=acaは出力されない。そして、この枝の処理を終了する。
以上で、f=aを初期値としたときのすべての探索が終了した。
1行目のコードは、φ(空系列)と、コーパスSと、集合Yinitとを実引数として、下に述べる手続きDepthFirstSearchを呼び出すものである。ここで集合Yinitとは、(d,s)∈Sにおける、dと(その文sの中の全ての単語の位置)−1の値との、ペアの集合である。
2行目のコードは、手続きDepthFirstSearchおよびそのパラメータf,X,Yの宣言である。
3行目から14行目までが、手続きDepthFirstSearchの実行部分である。
3行目は、ブロックの始まりを表わすbegin文である。
4行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
5行目は、集合Gに含まれる各々の単語wiについて、6行目から13行目までの処理を実行させるための制御文「foreach」である。
6行目から8行目までは、現在のwiについて、
9行目から12行目までは、
なお、9行目のif文の条件が偽の場合には、何もしない。
13行目のコードは、5行目の「foreach」に対応するend文である。
14行目のコードは、3行目の「begin」に対応するend文である。
次に、本実施形態の対訳文書対群データ分析処理部2による対訳フレーズ候補の抽出処理の手順について説明する。この手順は、上で図5と図6を参照しながら説明した単言語におけるフレーズ探索の処理手順を拡張している。
以下では、まず共起文数に基づくフレーズ対の列挙アルゴリズムについて述べ、次に対訳らしさの統計的指標について述べ、最後に統計量に基づく枝刈り手法について述べる。
まず、パラレルデータの各言語を区別するために、単言語におけるフレーズ探索の際に導入した変数を次のように拡張する。即ち、前で導入した変数に言語を識別するための文字を付加する。第1の言語である言語J(例として、ここでは日本語)についての変数には、変数の右肩に「j」を付け、第2の言語である言語E(例として、ここでは英語)についての変数には、変数の右肩に「e」を付ける。つまり、例えば変数sjは日本語の文を示し、変数seは英語の文を示す。また、コーパスSおよびXのそれぞれは、文番号dと言語Jの文sjと言語Eの文seとの組(d,sj,se)の集合である。なお、パラレルデータは対訳関係にある両言語(言語Jと言語E)の文が文番号を共有するため、言い換えればある文番号dに対応して言語Jの文のsjと言語Eの文seが存在しているため、文番号自体には言語を区別するための情報を付加する必要はない。この組(d,sj,se)は、対訳表現文書対群データ記憶部1に記憶されている対訳表現文書対群データにあたり、先に説明したデータ構成に対応している。
図示するように、このコードには、手続きExpandJの定義と、手続きExpandEの定義と、メイン処理部分とが含まれている。メイン処理部分からは手続きExpandJを呼び出し、手続きExpandJの中からは手続きExpandEを呼び出すとともに手続きExpandJを再帰的に呼び出し、手続きExpandEの中からは手続きExpandEを再帰的に呼び出す構造となっている。
2行目のコードは、手続きExpandJおよびそのパラメータfj,X,Yjの宣言である。
3行目から15行目までが、手続きExpandJの実行部分である。
3行目は、ブロックの始まりを表わすbegin文である。
4行目は、集合Xと集合Yjとを基に、集合Hjと集合Gjとを作る処理である。
5行目は、集合Gjに含まれる各々の単語wj iについて、6行目から14行目までの処理を実行させるための制御文「foreach」である。
6行目から8行目までは、現在のwj iについて、
9行目から12行目までは、
なお、9行目のif文の条件が偽の場合には、何もしない。
14行目のコードは、5行目の「foreach」に対応するend文である。
15行目のコードは、3行目の「begin」に対応するend文である。
17行目から28行目までが、手続きExpandEの実行部分である。
17行目は、ブロックの始まりを表わすbegin文である。
18行目は、集合Xと集合Yeとを基に、集合Heと集合Geとを作る処理である。
19行目は、集合Geに含まれる各々の単語we iについて、20行目から27行目までの処理を実行させるための制御文「foreach」である。
20行目から22行目までは、現在のwe iについて、
23行目から26行目までは、
なお、23行目のif文の条件が偽の場合には、何もしない。
27行目のコードは、19行目の「foreach」に対応するend文である。
28行目のコードは、17行目の「begin」に対応するend文である。
対訳文書対群データ分析処理部2は、上述した探索処理の際に、フレーズ対を抽出する処理を行ないながら、同時にフレーズ対の統計的指標値を算出する処理を行なう。以下、統計的指標について説明する。
これにより、フレーズ対と関連付けたれた統計量の値を後で利用することができるようになる。なお、これら4種類の統計量は、図4にも示して、対訳フレーズ候補データの一部として説明した通りである。
<1.2.2.1 有意確率>
統計的仮説検定であるフィッシャーの正確確率検定(Fisher’s Exact Test)の片側検定をフレーズ対の共起文数について行い、その有意確率(p−value)を2倍して負の対数をとった値を統計量として用いる。つまり、式で表わすと、
−log(p−value × 2)
である。
a1は、言語Jの系列fjと言語Eの系列feがどちらも出現するコーパス中のデータ数である。つまり、分割表におけるfeの行でfjの列の位置がa1である。
a2は、系列fjが出現せず、且つ系列feが出現するデータ数である。つまり、分割表におけるfeの行で¬(not)fjの列の位置がa2である。
a3は、系列fjが出現し、且つ系列feが出現しないデータ数である。つまり、分割表における¬feの行でfjの列の位置がa3である。
a4は、系列fjも系列feもどちらも出現しないデータ数である。つまり、分割表における¬feの行で¬fjの列の位置がa4である。
なお、対訳文書対群データ分析処理部2は、手続きExpandJの中の8行目において手続きExpandEを呼び出す際に、2個目の引数として、
図8に示した2×2分割表の値を用いて、対訳文書対群データ分析処理部2は、次の式(2)で表わされるDice係数を計算する。
対訳文書対群データ分析処理部2は、次の式(3)で定義されるフレーズ平均生成確率を計算する。
<1.2.2.4 フレーズ生成確率>
対訳文書対群データ分析処理部2は、次の式(4)で定義されるフレーズ生成確率を計算する。
前述した処理手順によって、対訳文書対群データ分析処理部2はコーパス内のフレーズ対の探索を行なってフレーズ対候補を抽出することができるが、ここで述べる方法を用いることによって、さらに探索の処理時間を削減することも可能である。
具体的には、対訳文書対群データ分析処理部2は、計算量を削減するために探索中に、統計量を用いて探索対象の空間の枝刈りを行なう。
2行目から18行目までが、手続きExpandEの実行部分である。
2行目は、ブロックの始まりを表わすbegin文である。
3行目は、集合Xと集合Yeとを基に、集合Heと集合Geとを作る処理である。
4行目は、集合Geに含まれる各々の単語we iについて、5行目から17行目までの処理を実行させるための制御文「foreach」である。
5行目から7行目までは、現在のwe iについて、
8行目は、
9行目は、系列fjと系列
10行目は、9行目で算出した統計量が所定の閾値τ(統計量閾値)以上であるか否かを条件とする条件節を備えたif文である。この条件が真の場合には、系列fjと系列
10行目の条件が偽の場合には、13行目のif文の中の
12行目あるいは14行目の処理で手続きExpandEを呼び出す場合の実引数は、
8行目のif文の条件が偽の場合には、何もしない。
17行目のコードは、4行目の「foreach」に対応するend文である。
18行目のコードは、2行目の「begin」に対応するend文である。
以上のように、ここに示した処理手順の特徴は、たとえフレーズ対候補の共起文数が閾値ζ以上であっても、特徴量が閾値τ以上でない限りはそのフレーズ対を出力せず、さらに、特徴量が一つ前のそれよりも低下した場合には当該枝に関してはそれ以上の深さ優先の探索(手続きExpandEの再帰的呼び出し)すら行なわない(枝刈りしている)ということである。
次に、対訳フレーズ候補データに基づいて、与えられる対訳文書対におけるフレーズ対のアラインメントを行なう処理について説明する。
図10は、アラインメント処理を行なうための対訳表現処理装置200の機能構成を示すブロック図である。図示するように、対訳表現処理装置200は、対訳フレーズ候補データ記憶部3と、対訳辞書データ記憶部4と、対訳文書対データ入力部5と、対訳フレーズ候補取得部6と、対訳フレーズ候補順位付け処理部7と、アラインメント処理部8とを含んで構成され、そのアラインメント処理の結果を出力する。
つまり、対訳辞書データ記憶部4は、複数言語(言語Jおよび言語E)のそれぞれによる語系列を関連付けてなる対訳フレーズを複数有する対訳辞書データを記憶する。
言い換えれば、対訳フレーズ候補取得部6は、複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書対(組)データを基に、対訳フレーズ候補データ記憶部3から対訳フレーズ候補データを読み出し、複数言語の全てについて(つまり言語Jと言語Eの両方について)対訳文書の中に語系列が存在するような対訳フレーズ組候補を選択して取得する。
また、対訳フレーズ候補取得部6は、対訳辞書データ記憶部4から対訳辞書データを読み出し、対訳辞書に登録されているエントリであって、複数言語の全てについて対訳文書対の中に当該エントリの語系列が存在するような対訳フレーズを選択して取得する。
対訳フレーズ候補順位付け処理部7は、対訳フレーズ候補取得部6によって取得された対訳フレーズについて、対訳らしさの順位付けを行なう。対訳らしさの順位は次のように決定する。即ち、まず、前述した対訳辞書データに登録がある対訳フレーズ候補をまとめて便宜的にティア1とする。次に、ティア1には含まれず、且つ、フレーズ対の両言語側に内容語類を含む対訳フレーズ候補であってそのスコアが所定の閾値以上のものをまとめてティア2とする。次に、ティア1にも2にも含まれず、且つ、そのスコアが所定の閾値以上の対訳フレーズ候補をまとめてティア3とする。
ティア1から3までのいずれにも入らなかった対訳フレーズ候補(即ち、スコアが上記の各閾値に未たなかったもの)は、使われない。
ティア1内での対訳フレーズ候補の順位は、次の通りである。即ち、対訳辞書データが、前述した優先度を持っている場合には、各対訳フレーズ候補の順位は、その優先度の順である。但し、優先度がたまたま同じ場合には、同順位となる。対訳辞書データがこの優先度を持たない場合には、ティア1内のすべての対訳フレーズ候補は同順位である。
ティア2内での対訳フレーズ候補の順位は、各対訳フレーズ候補のスコアの順である。スコアがたまたま同じ場合には、同順位となる。
ティア3内での対訳フレーズ候補の順位は、各対訳フレーズ候補のスコアの順である。スコアがたまたま同じ場合には、同順位となる。
以上により、対象とするすべての対訳フレーズ候補の順位付けが行なわれる。
以上説明したように、アラインメント処理結果のデータには、採用された対訳フレーズ対(組)候補の情報が含まれている。
アラインメントAとBとが包含関係にある(包含的である)とは、アラインメントAに含まれる要素(単語)は全てアラインメントBに含まれる要素であるか、或いは、アラインメントBに含まれる要素は全てアラインメントAに含まれる要素である、の少なくともいずれかが成り立つ場合であり、且つその場合のみである。
アラインメントAとBとが非連結関係にあるとは、アラインメントAに含まれる要素(単語)のいずれもアラインメントBの要素ではなく、且つ、アラインメントBに含まれる要素のいずれもアラインメントAの要素ではない場合であり、且つその場合のみである。
また、アラインメント処理部8は、対訳フレーズ候補順位付け処理部7による順位付けに基づき、確からしい対訳フレーズ対(組)候補を優先的に採用する。
また、アラインメント処理部8は、対訳フレーズ候補取得部6によって対訳辞書データ記憶部4から取得された対訳フレーズを、対訳フレーズ候補データ記憶部3から取得された対訳フレーズ対(組)候補よりも優先的に採用して、採用された対訳フレーズの情報をも含んだアラインメント処理結果を出力する。これは、対訳フレーズ候補順位付け処理部7が、対訳辞書データに登録されていた対訳フレーズに対して、前述の通りティア1として高い順位を与えていることによる。
次に、対訳フレーズ候補に関する対訳らしさのスコアを計算するために用いる特徴量について説明する。ここでは、6種類の特徴量を使用することができる。それらは、有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率、単語アラインメント結果含有率、対訳フレーズ候補アラインメント率である。これら6種のうち、最初の4種の特徴量については既に説明したのでここでは説明を省略する。
単語単位のアラインメント結果において、対訳フレーズ候補のフレーズ中の単語のうち、対応するフレーズ中の単語にアラインメントされた単語の率が、単語アラインメント結果含有率である。ここでは,単語単位のアラインメント結果としてコンピュータプログラム「GIZA++」の標準設定であるIBM model 4のアラインメント結果を用いる。単語アラインメントは、一方の言語の1単語と他方の言語の任意の数の単語とのアラインメントを行なうため、どの言語からどの言語に向けてアラインメントを行なうかによって、その結果が異なる。ここでは、単語アラインメントを日英および英日の双方向について行った結果、どちらの方向においてもアラインメントされた単語対のみをアラインメント結果とした場合の含有率(便宜上、「AND」と呼ぶ)と、少なくともいずれか一方の方向においてアラインメントされた単語対をアラインメント結果とした場合の含有率(便宜上、「OR」と呼ぶ)とを、統計量として算出し用いることができる。
パラレルデータをアラインメントした結果において、対訳フレーズ候補がアラインメントとして選択された数qsと対訳フレーズ候補が出現した総数qaを用いて、(qs+1)/(qa+1)を対訳フレーズ候補アラインメント率と定義する。
このように、対訳フレーズ候補アラインメント率は、アラインメント処理結果を基に算出される統計量(第2の統計量)である。
前記の6種類(そのうち単語アラインメント結果含有率は、さらにANDとORの2種類に分かれる)の特徴量のうち、−log(p−value × 2)をh1とし、Dice係数をh2とし、フレーズ平均生成確率をh3とし、フレーズ生成確率をh4とし、単語アラインメント結果含有率(AND)をh5とし、単語アラインメント結果含有率(OR)をh6とし、対訳フレーズ候補アラインメント率をh7とする。対訳フレーズ候補順位付け処理部7は、これらh1〜h7の特徴量を用いて、次の式(5)によりスコア(score)を計算する。
次に、対訳フレーズ候補の抽出処理およびフレーズ対のアラインメント処理を併せ持つ形態の対訳表現処理装置300について説明する。
図13は、この対訳表現処理装置300の機能構成を示すブロック図である。図示するように、対訳表現処理装置300は、対訳文書対群データ記憶部1Aと、対訳文書対群データ分析処理部2Aと、対訳フレーズ候補データ記憶部3Aと、対訳辞書データ記憶部4Aと、対訳文書対データ入力部5Aと、対訳フレーズ候補取得部6Aと、対訳フレーズ候補順位付け処理部7Aと、アラインメント処理部8Aとを含んで構成される。
このように、対訳表現処理装置300は、対訳フレーズ候補抽出処理を行なって対訳フレーズ候補データ記憶部3Aに対訳フレーズ候補データを書き込み、この対訳フレーズ候補データを読み出しながらアラインメント処理を行なう。
例えば、上述した実施形態では、二言語(言語Jと言語E)のみに対訳文書および対訳フレーズを対象としたが、三言語以上の役の組を対象としても、本質的には同様の処理方法で対訳フレーズ候補の抽出やアラインメントが行なえる。例えば、言語Jと言語Eに加えて言語Fの三言語とする場合、図7や図9に示した疑似コードを拡張してExpandFという手続きを設け、ExpandEでフレーズ対を出力する代わりに手続きExpandFを呼び出すようにして、手続きExpandFの中でフレーズの組を出力するとともに手続きExpandFを再帰的に呼び出すようにする。四言語以上の場合も本質的には同様である。
また、上述した実施形態では、深さ優先探索の処理を行なう際に、木状の探索空間において、親ノードから子ノードに移る際に、系列の最後に語を加えて新たな系列を作成しているが、語を加える場所は任意であり、先頭に語を連結して新たな系列を生成しても良いし、また、既存系列中の任意の位置に語を挿入して新たな系列を生成しても良い。
また、上述した実施形態では、深さ優先の探索処理を行なうようにしたが、代わりに幅優先探索を行なっても良い。幅優先探索の場合は探索途中の状態を記憶するメモリ(空間計算量)が膨大に必要になるが、装置が充分なメモリさえ備えていれば、深さ優先探索と同等の結果が得られる。
2,2A 対訳文書対群データ分析処理部(対訳文書組群データ分析処理部)
3,3A 対訳フレーズ候補データ記憶部
4,4A 対訳辞書データ記憶部
5,5A 対訳文書対データ入力部
6,6A 対訳フレーズ候補取得部
7,7A 対訳フレーズ候補順位付け処理部
8,8A アラインメント処理部
100 対訳表現処理装置(対訳フレーズ候補データを抽出する処理)
200 対訳表現処理装置(対訳フレーズをアラインメントする処理)
300 対訳表現処理装置(対訳フレーズ候補データの抽出処理および対訳フレーズのアラインメント処理)
Claims (6)
- 複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズ組候補を複数有する対訳フレーズ候補データを記憶する対訳フレーズ候補データ記憶部と、
前記複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書組データを基に、対訳フレーズ候補データ記憶部から前記対訳フレーズ候補データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような対訳フレーズ組候補を選択して取得する対訳フレーズ候補取得部と、
前記対訳文書組データを基に、前記対訳フレーズ候補取得部によって取得された複数の前記対訳フレーズ組候補から、ある対訳フレーズ候補を用いたアラインメントに関して、そのアラインメントが既に確立している他のアラインメントと互いに包含的関係あるいは非連結関係のいずれかの関係を有する場合には当該アラインメントは確立し、その他の場合には当該アラインメントが確立しないように、各々の前記対訳フレーズ組候補を採用するか否かを決定し、採用された前記対訳フレーズ組候補の情報を含んだアラインメント処理結果を出力するアラインメント処理部と、
を具備することを特徴とする対訳表現処理装置。 - 請求項1に記載の対訳表現処理装置であって、
前記対訳フレーズ候補取得部によって取得された前記対訳フレーズ組候補の順位付けを行なう対訳フレーズ候補順位付け処理部、
をさらに具備するとともに、
前記対訳フレーズ候補データ記憶部は、前記対訳フレーズ組候補それぞれについて対訳フレーズ組である確からしさを表わす統計量をも記憶しており、
前記対訳フレーズ候補順位付け処理部は、前記対訳フレーズ候補データ記憶部から読み出した前記統計量に基づき、前記対訳フレーズ組候補の確からしさの順位付けを行ない、
前記アラインメント処理部は、前記対訳フレーズ候補順位付け処理部による順位付けに基づき、確からしい前記対訳フレーズ組候補を優先的に採用する、
ことを特徴とする対訳表現処理装置。 - 請求項1又は2に記載の対訳表現処理装置であって、
複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズを複数有する対訳辞書データを記憶する対訳辞書データ記憶部をさらに具備するとともに、
前記対訳フレーズ候補取得部は、前記対訳文書組データを基に、前記対訳辞書データ記憶部から前記対訳辞書データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような前記対訳フレーズをも選択して取得するものであり、
前記アラインメント処理部は、前記対訳フレーズ候補取得部によって取得された前記対訳フレーズを前記対訳フレーズ組候補よりも優先的に採用して、採用された前記対訳フレーズの情報をも含んだアラインメント処理結果を出力する、
ことを特徴とする対訳表現処理装置。 - 請求項2に記載の対訳表現処理装置であって、
前記対訳フレーズ候補順位付け処理部は、前記アラインメント処理結果がある場合にはそのアラインメント処理結果を基に算出される第2の統計量にも基づき、前記対訳フレーズ組候補の確からしさの順位付けを行なうものであり、
前記アラインメント処理部による前記アラインメント処理結果を前記対訳フレーズ候補順位付け処理部に帰還させることによって、前記アラインメント処理部の処理を複数回繰り返し、その繰り返しの結果得られる最終的な前記アラインメント処理結果を出力する、
ことを特徴とする対訳表現処理装置。 - 請求項1から4までのいずれか一項に記載の対訳表現処理装置であって、
複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部と、
前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出する対訳文書組群データ分析処理部と、
をさらに具備し、
前記対訳文書組群データ分析処理部は、抽出した前記対訳フレーズ組候補を、前記対訳フレーズ候補データ記憶部に書き込む、
ことを特徴とする対訳表現処理装置。 - 複数言語の言語それぞれによる語系列を関連付けてなる対訳フレーズ組候補を複数有する対訳フレーズ候補データを記憶する対訳フレーズ候補データ記憶部を備えるコンピュータに、
前記複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書組データを基に、対訳フレーズ候補データ記憶部から前記対訳フレーズ候補データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような対訳フレーズ組候補を選択して取得する対訳フレーズ候補取得過程と、
前記対訳文書組データを基に、前記対訳フレーズ候補取得過程によって取得された複数の前記対訳フレーズ組候補から、ある対訳フレーズ候補を用いたアラインメントに関して、そのアラインメントが既に確立している他のアラインメントと互いに包含的関係あるいは非連結関係のいずれかの関係を有する場合には当該アラインメントは確立し、その他の場合には当該アラインメントが確立しないように、各々の前記対訳フレーズ組候補を採用するか否かを決定し、採用された前記対訳フレーズ組候補の情報を含んだアラインメント処理結果を出力するアラインメント処理過程と、
の処理を実行させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008066393A JP5100460B2 (ja) | 2008-03-14 | 2008-03-14 | 対訳表現処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008066393A JP5100460B2 (ja) | 2008-03-14 | 2008-03-14 | 対訳表現処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009223548A JP2009223548A (ja) | 2009-10-01 |
JP5100460B2 true JP5100460B2 (ja) | 2012-12-19 |
Family
ID=41240268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008066393A Expired - Fee Related JP5100460B2 (ja) | 2008-03-14 | 2008-03-14 | 対訳表現処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5100460B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5791097B2 (ja) * | 2011-03-04 | 2015-10-07 | 国立研究開発法人情報通信研究機構 | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 |
JP2019153056A (ja) | 2018-03-02 | 2019-09-12 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338261A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳装置、翻訳方法及び翻訳プログラム |
JP4588657B2 (ja) * | 2006-03-24 | 2010-12-01 | 富士通株式会社 | 翻訳装置 |
-
2008
- 2008-03-14 JP JP2008066393A patent/JP5100460B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009223548A (ja) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8670975B2 (en) | Adaptive pattern learning for bilingual data mining | |
Chiang | Statistical parsing with an automatically-extracted tree adjoining grammar | |
US8249856B2 (en) | Machine translation | |
US7672831B2 (en) | System and method for cross-language knowledge searching | |
US10496756B2 (en) | Sentence creation system | |
KR101762866B1 (ko) | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
US20130018650A1 (en) | Selection of Language Model Training Data | |
KR101732634B1 (ko) | 의존관계 포레스트를 이용한 통계적 기계 번역 방법 | |
JP2007122509A (ja) | 語句配列の自然度判定装置、方法及びプログラム | |
JP2015088064A (ja) | テキスト要約装置、方法、及びプログラム | |
JP5100460B2 (ja) | 対訳表現処理装置およびプログラム | |
JP5341375B2 (ja) | 対訳表現処理装置およびプログラム | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
KR101753708B1 (ko) | 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
Demir | Context tailoring for text normalization | |
KR100574887B1 (ko) | 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 | |
JP5416021B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
Tiedemann | Optimization of word alignment clues | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
KR20110062261A (ko) | 대용어 참조해소 시스템 및 대용어 참조해소 방법 | |
Costa | Automatic Extraction and Validation of Lexical Ontologies from text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120925 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |