JP5100460B2 - 対訳表現処理装置およびプログラム - Google Patents

対訳表現処理装置およびプログラム Download PDF

Info

Publication number
JP5100460B2
JP5100460B2 JP2008066393A JP2008066393A JP5100460B2 JP 5100460 B2 JP5100460 B2 JP 5100460B2 JP 2008066393 A JP2008066393 A JP 2008066393A JP 2008066393 A JP2008066393 A JP 2008066393A JP 5100460 B2 JP5100460 B2 JP 5100460B2
Authority
JP
Japan
Prior art keywords
bilingual
phrase
alignment
candidate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008066393A
Other languages
English (en)
Other versions
JP2009223548A (ja
Inventor
功雄 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008066393A priority Critical patent/JP5100460B2/ja
Publication of JP2009223548A publication Critical patent/JP2009223548A/ja
Application granted granted Critical
Publication of JP5100460B2 publication Critical patent/JP5100460B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理に関する。特に、相互に対応する複数言語の文書間の対訳表現の対応を自動的に推定するなどの処理を行なう対訳表現処理装置およびそのプログラムに関する。
二言語による対訳文中に含まれる表現の対応関係を自動的に推定するための従来技術は、下記の通りである。
[単語単位の手法] 非特許文献1には、単語単位で対訳関係を推定する手法が記載されている。また、この文献の筆者は、単語単位で対訳関係を推定するコンピュータプログラム「GIZA++」を公開している。
[同時生起確率に基づく手法] 非特許文献2には、各言語の文書を複数の表現の列に分割し、対訳表現候補のペアの同時生起確率に基づいて,確率が最も高くなる表現のペアを対訳表現として推定する手法が記載されている。
Franz Josef Och,Hermann Ney,"A Systematic Comparison of Various Statistical Alignment Models",Computational Linguistics,2003年,volume 29,number 1,pp.19−51,March 2003. Daniel Marcu,外1名,"A Phrase-Based, Joint Probability Model for Statistical Machine Translation",Proceedings of the ACL-02 conference on Empirical methods in natural language processing,2002年,Volume 10,p.133−139.
上述した従来技術には、次のような問題がある。
非特許文献1に記載された手法では、1単語と複数単語との対訳関係を推定するため、複数単語からなる表現同士の対訳関係を推定することができないという問題があった。
また、非特許文献2に記載された手法では、長い対訳表現を獲得することができないという問題があった。
本発明は、上記の課題認識に基づいて行なわれたものであり、対訳の文書対において、対訳関係である表現同士を推定(以下、アラインメント(alignment)と呼ぶ)する処理であって、より広く対訳の表現同士の対応が取れるように、複数単語同士のアラインメントができるとともに、長い対訳表現のアラインメントを可能とする対訳表現処理装置およびプログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様による対訳表現処理装置は、複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズ組候補を複数有する対訳フレーズ候補データを記憶する対訳フレーズ候補データ記憶部と、前記複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書組データを基に、対訳フレーズ候補データ記憶部から前記対訳フレーズ候補データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような対訳フレーズ組候補を選択して取得する対訳フレーズ候補取得部と、前記対訳文書組データを基に、前記対訳フレーズ候補取得部によって取得された複数の前記対訳フレーズ組候補から、複数の前記対訳フレーズ組候補が互いに包含的関係あるいは非連結関係のいずれかの関係を有するように、各々の前記対訳フレーズ組候補を採用するか否かを決定し、採用された前記対訳フレーズ組候補の情報を含んだアラインメント処理結果を出力するアラインメント処理部とを具備することを特徴とする。
対訳文書組データは、アライメント処理の対象として入力されるデータであり、複数言語の対訳文のデータである。そして、対訳フレーズ候補取得部は、対訳文書組データに合致する対訳フレーズ組候補(つまり、アラインメントに使える可能性のある対訳フレーズ組候補)をすべて取得する。そして、アラインメント処理部は、取得された対訳フレーズ組候補を用いて、アラインメント処理を行なう。このとき、アラインメント処理部は、選択される対訳フレーズ組候補が互いに整合する関係(つまり、包含的関係あるいは非連結関係のいずれかの関係を有する)となるように選択する。これら選択された対訳フレーズ組候補を、入力文に適用したものがアラインメント処理結果であるが、このアラインメント処理結果の中には、アラインメント処理部によって採用された対訳フレーズ組候補の情報が含まれている。
[2]また、本発明の一態様は、上記の対訳表現処理装置において、前記対訳フレーズ候補取得部によって取得された前記対訳フレーズ組候補の順位付けを行なう対訳フレーズ候補順位付け処理部をさらに具備するとともに、前記対訳フレーズ候補データ記憶部は、前記対訳フレーズ組候補それぞれについて対訳フレーズ組である確からしさを表わす統計量をも記憶しており、前記対訳フレーズ候補順位付け処理部は、前記対訳フレーズ候補データ記憶部から読み出した前記統計量に基づき、前記対訳フレーズ組候補の確からしさの順位付けを行ない、前記アラインメント処理部は、前記対訳フレーズ候補順位付け処理部による順位付けに基づき、確からしい前記対訳フレーズ組候補を優先的に採用することを特徴とする。
対訳フレーズ候補順位付け処理部が対訳フレーズ候補データ記憶部から読み出した統計量に基づき、アラインメント処理部は、確からしい対訳フレーズ組候補を優先的に採用しながら、アラインメントを確立していく。
[3]また、本発明の一態様は、上記の対訳表現処理装置において、複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズを複数有する対訳辞書データを記憶する対訳辞書データ記憶部をさらに具備するとともに、前記対訳フレーズ候補取得部は、前記対訳文書組データを基に、前記対訳辞書データ記憶部から前記対訳辞書データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような前記対訳フレーズをも選択して取得するものであり、前記アラインメント処理部は、前記対訳フレーズ候補取得部によって取得された前記対訳フレーズを前記対訳フレーズ組候補よりも優先的に採用して、採用された前記対訳フレーズの情報をも含んだアラインメント処理結果を出力することを特徴とする。
対訳辞書データに登録されている対訳フレーズは、統計的な処理で抽出された対訳フレーズ組候補よりも、言語的に信頼度が高い。このような対訳フレーズを、対訳フレーズ組候補よりも優先的に採用することは妥当であり、アラインメント処理結果の信頼度が上がる結果となる。
なお、対訳辞書データ内に、対訳フレーズ間の信頼度の差を表わすための対訳フレーズごとの優先度の情報を持つようにしても良い
[4]また、本発明の一態様は、上記の対訳表現処理装置において、前記対訳フレーズ候補順位付け処理部は、前記アラインメント処理結果がある場合にはそのアラインメント処理結果を基に算出される第2の統計量にも基づき、前記対訳フレーズ組候補の確からしさの順位付けを行なうものであり、前記アラインメント処理部による前記アラインメント処理結果を前記対訳フレーズ候補順位付け処理部に帰還させることによって、前記アラインメント処理部の処理を複数回繰り返し、その繰り返しの結果得られる最終的な前記アラインメント処理結果を出力することを特徴とする。
[5]また、本発明の一態様は、上記の対訳表現処理装置において、複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部と、前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出する対訳文書組群データ分析処理部とをさらに具備し、前記対訳文書組群データ分析処理部は、抽出した前記対訳フレーズ組候補を、前記対訳フレーズ候補データ記憶部に書き込むことを特徴とする。
この構成により、対訳文書組群データ記憶部(1A)に記憶されている対訳文書組データを基に、対訳文書組群データ分析処理部(2A)が対訳フレーズ組候補を抽出して対訳フレーズ候補データ記憶部(3A)に書き込む処理と、それら抽出された対訳フレーズ組候補の中から対訳フレーズ候補取得部(6A)が対訳フレーズ組候補を取得し、これら対訳フレーズ組候補を用いてアラインメント処理部(8A)がアラインメント処理結果を出力するまでの処理を一貫して実行できる。
[6]また、本発明の一態様は、複数言語の言語それぞれによる語系列を関連付けてなる対訳フレーズ組候補を複数有する対訳フレーズ候補データを記憶する対訳フレーズ候補データ記憶部を備えるコンピュータに、前記複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書組データを基に、対訳フレーズ候補データ記憶部から前記対訳フレーズ候補データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような対訳フレーズ組候補を選択して取得する対訳フレーズ候補取得過程と、前記対訳文書組データを基に、前記対訳フレーズ候補取得過程によって取得された複数の前記対訳フレーズ組候補から、複数の前記対訳フレーズ組候補が互いに包含的関係あるいは非連結関係のいずれかの関係を有するように、各々の前記対訳フレーズ候補組を採用するか否かを決定し、採用された前記対訳フレーズ候補組の情報を含んだアラインメント処理結果を出力するアラインメント処理過程との処理を実行させるコンピュータプログラムである。
本発明によれば、対訳フレーズ候補データを基にアラインメントを行なっているため、複数の単語からなる表現(語系列)同士の、言語間でのアラインメントが可能となる。
また、本発明によれば、アラインメント処理部が、包含的にアラインメント処理を行なうため,長い表現から短い表現まで複数の長さのアラインメント結果が得られる.
以下、図面を参照して本発明の実施形態を説明する。
本実施形態は、次の2段階の処理でアラインメントを行なう。まず、第1段階で、対訳文書対群データ(パラレルデータ)から複数の統計量がしきい値以上となる対訳フレーズ候補を抽出する。次の第2段階では、他のアラインメントと整合性がとれる対訳フレーズ候補の中から、複数の特徴量を用いて識別的に候補を選択していくことでアラインメントを確立させていく。この特徴量としては、単語レベルとフレーズレベルの統計量や対訳辞書の登録の有無を利用する。以下では、これらの段階ごとの処理について述べる。
<1. 対訳フレーズ候補の抽出>
図1は、本実施形態による対訳表現処理装置100の機能構成を示すブロック図である。この対訳表現処理装置100は、対訳文書の対を大量に記憶する対訳文書対群データを基に、対訳フレーズ候補(対訳フレーズ組候補)を抽出するとともにそれら候補の統計量を算出するものである。
図示するように、対訳表現処理装置100は、対訳文書対群データ記憶部1(対訳文書組群データ記憶部)と、対訳文書対群データ分析処理部2(対訳文書組群データ分析処理部)と、対訳フレーズ候補データ記憶部3とを含んで構成される。
対訳文書対群データ記憶部1は、二言語(複数言語)による対訳文書の対(組)である対訳文書対(組)データを、数多く記憶するものである。
対訳文書対群データ分析処理部2は、対訳文書対データ記憶部1から読み出した対訳文書対(組)データに基づき、単一の対訳文書対(組)データ内に出現する語系列の複数の言語間での共起頻度をカウントし、全ての対訳文書対(組)データにおける共起頻度の合計値が所定の頻度閾値以上となるような、複数言語による語系列の対(組)を対訳フレーズ対(組)候補として抽出して、対訳フレーズ候補データ記憶部3に書き込む。
対訳フレーズ候補データ記憶部3は、抽出された対訳フレーズ候補データを記憶する。
なお、対訳文書対群データ分析処理部2は電子的な回路等によって構成される。また、対訳文書対群データ記憶部1や対訳フレーズ候補データ記憶部3は、半導体メモリやハードディスク装置などを用いて実現され、電子的な手段を介してデータを読み書きすることが可能となっている。
図2は、対訳表現文書対群データ記憶部に格納される対訳表現文書対群データの構成を示す概略図である。図示するように、対訳表現文書対群データは、例えば表形式のデータとして表現され、文番号と文(言語J、第1の言語)と文(言語E、他の言語)のデータ項目(列)を有する。つまり、複数の言語による文が関連付けられている。このデータの各行が対訳表現文書対に対応する。文番号は、この対訳表現文書対群データ内において対訳表現文書対を一意に特定することのできる通し番号である。文(言語J)の列は、各行の対訳表現文書対における第1の言語(言語J)による文を格納する。文(言語E)の列は、各行の対訳表現文書対における第2の言語(言語E)による文を格納する。ここで、言語Jおよび言語Eは、例えば、日本語や英語などといった言語であるが、これら2種類の言語には限定されず、任意の言語であってよい。
図3は、対訳表現文書対群データ記憶部に格納される対訳表現文書対の例を示す概略図である。このデータの例では、言語Jは日本語であり、言語Eは英語である。そして、格納されている文番号「1」のデータは、言語Jの文「台風 は あす の 昼 頃 九州 の 南東 の 海上 で 温帯 低 気圧 に 変わる 見込み です 。」と言語Eの文「The typhoon is expected to downgrade over the sea southeast of Kyushu tomorrow afternoon .」が対訳表現文書対であることを表わしている。ここで、両言語による対訳は、必ずしも厳密な逐語訳であることを要しない。なお、日本語のように通常使われる際に分かち書きされない言語の文の場合には、予め形態素解析処理などを行なうことによって、形態素間に空白文字を入れておく。また、日本語の句点「。」や読点「、」、および英語のピリオドやカンマなども、便宜上、独立した形態素として扱う。
図4は、対訳フレーズ候補データ記憶部3に記憶される対訳フレーズ候補データの構成およびデータ例を示す概略図である。対訳フレーズ候補データは、例えば表形式で表わされるデータであり、フレーズ(言語J)pとフレーズ(言語E)pと4種類の統計量の各項目(列)を有する。本実施形態で用いている統計量は、有意確率(−log(p-value×2))と、Dice係数と、フレーズ平均生成確率と、フレーズ生成確率の4種類である。これらの統計量の詳細については後述する。一例として、図中のテーブルのデータの第6行目は、言語Jのフレーズ「気象庁」と言語Eのフレーズ「The meteorological agency」とが対訳フレーズとなる対の候補であり、この対の統計値としては、有意確率が2430.25、Dice係数が0.743797、フレーズ平均生成確率が0.286288、フレーズ生成確率が0.240436であることを表わしている。
次に、対訳表現処理装置100の具体的な処理内容について説明する。
ここでは、フレーズ対の列挙アルゴリズムと枝刈り手法を用いて、複数の統計量が閾値以上となるフレーズ対を効率的に抽出する手法について述べる。ここでフレーズとは、連続する1つ以上の単語からなる任意長の表現である。二種類の言語(ここでは、日本語と英語)各々毎に頻出表現を抽出すると、取得される表現の数が多くなるため、それら二言語の表現の組合せ数は膨大になり、従ってデータ量の多い組合せの計算は困難である。ただし、共起する文数が閾値以上であるような表現対を探索する場合に,各言語毎に出現文数が閾値以上の表現を抽出して、得られた各言語の表現の組(ここでは、日本語表現と英語表現の組)が共起する文を数えるとしきい値未満になる組が多く含まれることになる。そこで、本実施形態の手法では、共起する文数が閾値以上となるフレーズ対を直接探索するアルゴリズムを用いる。この手法のアルゴリズムの基本的な考え方は、深さ優先探索を2段階で行い、頻度以外の統計量を用いて枝刈りするというものである。
以下においては、まず、単言語での出現文数が多いフレーズの深さ優先探索を定式化し、その次に、2段階の深さ優先探索を行なう方法について説明する。
<1.1 単言語でのフレーズの深さ優先探索手法>
深さ優先探索を利用した、出現文数が多いフレーズの単言語での探索を以下のように定式化する。
単語の集合をW={w,w,・・・,w}とする。文をsとし、文番号をdとし、文番号と文のペア(d,s)の集合をコーパスSとする。フレーズをpとする。単語の系列(語系列)をf=f・・・f(ただし、f∈W,i∈{1,2,・・・,l}と定義する。sとpは系列で表される。コーパスSの中でのフレーズpの出現文数をc(p)とする。
単言語での出現文数が閾値ζ(頻度閾値)以上のフレーズの探索とは、任意の自然数ζに対し、c(p)≧ζとなるようなフレーズpをすべて列挙することである。このような列挙は、以下に説明する深さ優先探索に基づくアルゴリズムにより実行することができる。
ここで、アルゴリズムの説明の前に、以下で使用する変数を定義する。ある系列fを含む部分コーパスをXとする(X⊆S)。索引として利用する集合Y,H,Gを次のように定義する。
即ち、Xにおいて、文番号dに対応する文の中において系列fに一致する末尾の単語位置に1を加えた値をrとする。そして、文番号dと値rとのペア(d,r)の集合をYとする。ただし、r が文末の単語位置より大きい場合にはそのペア(d,r)を集合Yに含めない。
部分コーパスXの中の全てのペア(d,s)において、(d,r)∈Yとなるような文番号dおよび値rと、その文における単語位置rの単語gとの組(d,r,g)の集合をHとする。
そして、集合Hに含まれる単語gの集合をGとする。
図5は、ζ=2とした場合に,単語”a”で開始するフレーズを取得する処理の動作を説明的に示す概略図である。つまり、この図は、単言語における深さ優先でのフレーズの探索の例である。
深さ優先でのフレーズの探索の処理は、次の手順の通りである。
ステップ1: 初期値として、f=aとし、f=fとする。
ステップ2: fを含む文の文番号dとその文sのペア(d,s)の集合Xを生成するとともに、文番号dと、fが出現した末尾位置プラス1の値rからなるペア(d,r)の集合Yを生成する。
ステップ3: Xの基数であるところの|X|がζ以上(ここでは、ζ=2)の場合にはそのfをフレーズとして出力する。|X|がζ未満の場合には、現在のfについての処理を終了する。
ステップ4: 集合Xと集合Yから、集合Hと集合Gを生成する。そして、fに後続する各単語w(w∈G)について、fの末尾にwを追加したところの、
Figure 0005100460
を作成し、さらに、
Figure 0005100460
Figure 0005100460
を作成する。そして、作成したこれらの、
Figure 0005100460
を新たなf,X,Yとして、上記のステップ3に戻る。
この「新たなf」とは、現在のfに、集合Yの各要素(d,r)について、コーパスX内の文番号dなる文の単語位置rにおける単語gを連結したものである。
上記のステップ1から3までの処理は、探索する対象の探索空間を木(tree)構造と見たときに、その木における現ノードから伸びる各枝につながる副木(sub tree)の探索の処理を再帰的に呼び出している。これを繰り返すことによって、aから始まり、且つc(p)≧2となる、全てのフレーズを抽出することができる。
なお、この探索の際には、深さ優先の探索を行なう。このように深さ優先の探索とすることによって、探索処理の途中で記憶しておくべき情報の量が爆発的に増えるのを防ぐことができる。
上記手順を図示している実例に適用した場合の具体的処理について説明する。
ノード(1): 図の一番左のノードでは、探索の初期値として、f=aとなっている。そして、コーパスSの中で、系列fに対応する集合Xを求める。すると、(d=1,s=abcd)、(d=2,s=dabc)、(d=3,s=acab)、(d=4,s=bdac)という4つのペアを要素とする集合Xが得られる。ここで|X|=4(|X|≧ζ)であるので、f=aはフレーズとして出力される。そして、新たなfとして、f=ab(d=1,2,3で出現)とf=ac(d=3,4で出現)について、次の探索を行なう。
ノード(1−1): 図中の上の枝の最初のノードは、f=abに対応している。ここでは、|X|=3であるので(|X|≧ζ)、f=abはフレーズとして出力される。そして、新たなfとして、f=abc(d=1,2で出現)について、次の探索を行なう。ここでd=3に対応する文sは、abの後に単語が存在しないため、集合Yには含まれず、よってこれ以上の探索の対象とはならない。
ノード(1−1−1): 次のノードは、f=abcに対応している。ここでは、|X|=2であるので(|X|≧ζ)、f=abcはフレーズとして出力される。そして、新たなfとして、f=abcd(d=1で出現)について、次の探索を行なう。
ノード(1−1−1−1): 次のノードは、f=abcdに対応している。ここでは、|X|=1であるので(|X|<ζ)、f=abcdは出力されない。そして、この枝の処理を終了する。
ノード(1−2): 次に、ノード(1)の直下のもう一つのノードであるノード(1−2)に移る。このノードは、f=acに対応している。ここでは、|X|=2であるので(|X|≧ζ)、f=acはフレーズとして出力される。そして、新たなfとして、f=aca(d=3で出現)について、次の探索を行なう。
ノード(1−2−1): 次のノードは、f=acaに対応している。ここでは、|X|=1であるので(|X|<ζ)、f=acaは出力されない。そして、この枝の処理を終了する。
以上で、f=aを初期値としたときのすべての探索が終了した。
図6は、上記の、単言語でのフレーズの深さ優先探索の処理手順を示す疑似コードである。この疑似コードは、ブロック構造を有する手続き型の言語によるものである。また、この図において、コードの左側の数字は行番号である。
1行目のコードは、φ(空系列)と、コーパスSと、集合Yinitとを実引数として、下に述べる手続きDepthFirstSearchを呼び出すものである。ここで集合Yinitとは、(d,s)∈Sにおける、dと(その文sの中の全ての単語の位置)−1の値との、ペアの集合である。
2行目のコードは、手続きDepthFirstSearchおよびそのパラメータf,X,Yの宣言である。
3行目から14行目までが、手続きDepthFirstSearchの実行部分である。
3行目は、ブロックの始まりを表わすbegin文である。
4行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
5行目は、集合Gに含まれる各々の単語wについて、6行目から13行目までの処理を実行させるための制御文「foreach」である。
6行目から8行目までは、現在のwについて、
Figure 0005100460
を作成させるための処理である。
9行目から12行目までは、
Figure 0005100460
の基数が閾値ζ以上の場合には(9行目のif文の条件が真の場合)、現在の
Figure 0005100460
をフレーズとして出力する(10行目の「output」)とともに、
Figure 0005100460
を実引数として再帰的に手続きDepthFirstSearchを呼び出す(11行目)、という処理である。
なお、9行目のif文の条件が偽の場合には、何もしない。
13行目のコードは、5行目の「foreach」に対応するend文である。
14行目のコードは、3行目の「begin」に対応するend文である。
<1.2 対訳フレーズ候補の抽出方法>
次に、本実施形態の対訳文書対群データ分析処理部2による対訳フレーズ候補の抽出処理の手順について説明する。この手順は、上で図5と図6を参照しながら説明した単言語におけるフレーズ探索の処理手順を拡張している。
以下では、まず共起文数に基づくフレーズ対の列挙アルゴリズムについて述べ、次に対訳らしさの統計的指標について述べ、最後に統計量に基づく枝刈り手法について述べる。
<1.2.1 共起文数に基づくフレーズ対の列挙アルゴリズム>
まず、パラレルデータの各言語を区別するために、単言語におけるフレーズ探索の際に導入した変数を次のように拡張する。即ち、前で導入した変数に言語を識別するための文字を付加する。第1の言語である言語J(例として、ここでは日本語)についての変数には、変数の右肩に「j」を付け、第2の言語である言語E(例として、ここでは英語)についての変数には、変数の右肩に「e」を付ける。つまり、例えば変数sは日本語の文を示し、変数sは英語の文を示す。また、コーパスSおよびXのそれぞれは、文番号dと言語Jの文sと言語Eの文sとの組(d,s,s)の集合である。なお、パラレルデータは対訳関係にある両言語(言語Jと言語E)の文が文番号を共有するため、言い換えればある文番号dに対応して言語Jの文のsと言語Eの文sが存在しているため、文番号自体には言語を区別するための情報を付加する必要はない。この組(d,s,s)は、対訳表現文書対群データ記憶部1に記憶されている対訳表現文書対群データにあたり、先に説明したデータ構成に対応している。
図7は、対訳文書対群データ分析処理部2による処理の手順を示す疑似コードであり、このコードは、深さ優先探索に基づく頻出フレーズ対を対訳文書対群データの中から抽出する処理を実現するものである。この図において、コードの左側の数字は行番号である。
図示するように、このコードには、手続きExpandJの定義と、手続きExpandEの定義と、メイン処理部分とが含まれている。メイン処理部分からは手続きExpandJを呼び出し、手続きExpandJの中からは手続きExpandEを呼び出すとともに手続きExpandJを再帰的に呼び出し、手続きExpandEの中からは手続きExpandEを再帰的に呼び出す構造となっている。
1行目のコードは、メイン処理部分であり、φ(空系列)と、コーパスSと、集合Y initとを実引数として、手続きExpandJを呼び出すものである。ここで集合Y initとは、(d,s,s)∈Sにおける、文番号dと(その文番号dに対応する言語Jの文sの中の全ての単語の位置)−1の値rとの、ペアの集合である。
2行目のコードは、手続きExpandJおよびそのパラメータf,X,Yの宣言である。
3行目から15行目までが、手続きExpandJの実行部分である。
3行目は、ブロックの始まりを表わすbegin文である。
4行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
5行目は、集合Gに含まれる各々の単語w について、6行目から14行目までの処理を実行させるための制御文「foreach」である。
6行目から8行目までは、現在のw について、
Figure 0005100460
を作成させるための処理である。
9行目から12行目までは、
Figure 0005100460
の基数が閾値ζ以上の場合には(9行目のif文の条件が真の場合)、
Figure 0005100460
を作成する(なお、ここで集合Y initとは、(d,s,s)∈Sにおける、文番号dと(その文番号dに対応する言語Eの文sの中の全ての単語の位置)−1の値rとの、ペアの集合である)とともに、手続きExpandEを呼び出し(11行目のcall)、そして手続きExpandJを再帰的に呼び出す(12行目のcall)。ここで手続きExpandEを呼び出す際には、実引数として、
Figure 0005100460
を渡す。また、手続きExpandJを呼び出す際には、実引数として、
Figure 0005100460
を渡す。
なお、9行目のif文の条件が偽の場合には、何もしない。
14行目のコードは、5行目の「foreach」に対応するend文である。
15行目のコードは、3行目の「begin」に対応するend文である。
16行目のコードは、手続きExpandEおよびそのパラメータf,X,Y,fの宣言である。
17行目から28行目までが、手続きExpandEの実行部分である。
17行目は、ブロックの始まりを表わすbegin文である。
18行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
19行目は、集合Gに含まれる各々の単語w について、20行目から27行目までの処理を実行させるための制御文「foreach」である。
20行目から22行目までは、現在のw について、
Figure 0005100460
を作成させるための処理である。
23行目から26行目までは、
Figure 0005100460
の基数が閾値ζ以上の場合には(23行目のif文の条件が真の場合)、f
Figure 0005100460
をフレーズ対として出力するとともに、手続きExpandEを再帰的に呼び出す(25行目のcall)。ここで手続ExpandEを呼び出す際には、実引数として、
Figure 0005100460
を渡す。
なお、23行目のif文の条件が偽の場合には、何もしない。
27行目のコードは、19行目の「foreach」に対応するend文である。
28行目のコードは、17行目の「begin」に対応するend文である。
つまり、疑似コードを用いて上で説明した処理手順では、単言語(言語J)でフレーズを深さ優先探索する手続きExpandJの中で、他方の言語(言語E)のフレーズを深さ優先探索するための手続きExpandEを呼び出す(11行目のコード)といったように、深さ優先探索を2段階で行なっている。また、この処理手順の特徴は、手続きExpandJの中で手続きExpandEを呼び出す(11行目のコード)際に、その2番目の実引数として、対訳文書対群データ全体にあたるコーパスSではなく、
Figure 0005100460
を渡している点である。これにより、呼び出される手続きExpandEの側ではfが出現する文のみを探索することとなる。これにより、手続きExpandEの中の23行目のコードにおける
Figure 0005100460
は、パラメータとして渡されたfと手続きExpandEで探索するノードに対応する
Figure 0005100460
とのフレーズ対が共起する文数となり、共起文数が閾値ζ以上のフレーズ対を直接列挙することができる。
言い換えれば、上で説明した手続きExpandJおよびExpandEの処理を実行することにより、第1の言語(言語J)のデータ内で語系列を探索することによって全ての対訳文書対のデータ(コーパスS)内の当該第1の言語における語系列の出現頻度をカウントし、カウント結果の出現頻度が頻度閾値ζ以上であるような第1の言語における語系列それぞれについて、手続きExpandEを呼び出し、他の言語(言語E)のデータ内で語系列を探索することによって、第1の言語の語系列と他の言語の語系列の共起頻度をカウントし、この共起頻度が頻度閾値ζ以上であるか否かに応じて、対訳フレーズ対候補を抽出している。
また、上で説明した手続きExpandJおよびExpandEの処理では、それぞれの言語について深さ優先探索を行なっているが、これは、言い換えれば、語系列の探索を順次行なう際に、現在の語系列の次に、現在の語系列の中の一語を置き換えて得られる新たな語系列(この新たな語系列は幅方向に広がる)よりも、現在の語系列に一語を加えて得られる新たな語系列(この新たな語系列は深さ方向に広がる)のほうを、優先して先に探索対象としているということである。
<1.2.2 対訳らしさの統計的指標>
対訳文書対群データ分析処理部2は、上述した探索処理の際に、フレーズ対を抽出する処理を行ないながら、同時にフレーズ対の統計的指標値を算出する処理を行なう。以下、統計的指標について説明する。
上述した列挙アルゴリズムは、共起文数に基づいてフレーズ対を列挙するものであるが、これによって列挙されるフレーズ対の中には、実際には対訳である可能性が低いものも多く含まれてしまう。そこで、対訳らしさを示す指標として、以下で説明する4種類の統計量を用いることによって、実際に対訳である可能性が高いものを対訳フレーズ候補として選択することが可能となる。
そこで、対訳文書対群データ分析処理部2は、これら4種類の統計量を算出して、算出された統計量が所定の閾値以上となるフレーズ対のみを、対訳フレーズ候補として抽出し、対訳候補フレーズデータとする。また、対訳文書対群データ分析処理部2は、算出した統計量を、フレーズ対と関連付けて、対訳フレーズ候補データ記憶部3に書き込んでおく。言い換えれば、対訳文書対群データ分析処理部2は、抽出する対訳フレーズ対候補それぞれについて対訳フレーズ対である確からしさを表わす統計量を算出し、算出した統計量を対訳フレーズ対候補とともに関連付けて出力する(対訳フレーズ候補データ記憶部3に書き込む)。
これにより、フレーズ対と関連付けたれた統計量の値を後で利用することができるようになる。なお、これら4種類の統計量は、図4にも示して、対訳フレーズ候補データの一部として説明した通りである。
本実施形態におけるこれら4種類の統計量とは、有意確率、Dice係数、フレーズ平均生成確率,フレーズ生成確率である。
<1.2.2.1 有意確率>
統計的仮説検定であるフィッシャーの正確確率検定(Fisher’s Exact Test)の片側検定をフレーズ対の共起文数について行い、その有意確率(p−value)を2倍して負の対数をとった値を統計量として用いる。つまり、式で表わすと、
−log(p−value × 2)
である。
ここで、図8は、コーパス中のデータ数(文数)a,a,a,aを要素とする2×2(2行・2列)の分割表である。a,a,a,a各々の定義は次の通りである。
は、言語Jの系列fと言語Eの系列fがどちらも出現するコーパス中のデータ数である。つまり、分割表におけるfの行でfの列の位置がaである。
は、系列fが出現せず、且つ系列fが出現するデータ数である。つまり、分割表におけるfの行で¬(not)fの列の位置がaである。
は、系列fが出現し、且つ系列fが出現しないデータ数である。つまり、分割表における¬fの行でfの列の位置がaである。
は、系列fも系列fもどちらも出現しないデータ数である。つまり、分割表における¬fの行で¬fの列の位置がaである。
このとき、p−valueは、次の式(1)で計算することができる。
Figure 0005100460
但し、
Figure 0005100460
上の式において、min(a,a)は、aあるいはaのいずれか小さいほうを値とする関数である。
なお、対訳文書対群データ分析処理部2は、手続きExpandJの中の8行目において手続きExpandEを呼び出す際に、2個目の引数として、
Figure 0005100460
を用いているが、さらに別に、2個目の引数としてSを用いて手続きExpandEを呼び出すことによってコーパスS全体を対象とするfの探索ができるため、その結果としてa+aの値を得ることができる。
<1.2.2.2 Dice係数>
図8に示した2×2分割表の値を用いて、対訳文書対群データ分析処理部2は、次の式(2)で表わされるDice係数を計算する。
Figure 0005100460
<1.2.2.3 フレーズ平均生成確率>
対訳文書対群データ分析処理部2は、次の式(3)で定義されるフレーズ平均生成確率を計算する。
Figure 0005100460
上の式における単語の条件付き確率Pは、EMアルゴリズムにより最尤推定する確率モデルであるIBM model 1を用いる。なお、IBM model 1については、次の文献に記載されている。文献:Franz Josef Och,Hermann Ney,“A Systematic Comparison of Various Statistical Alignment Models”,Computational Linguistics,2003年,volume 29,number 1,pp.19−51,March 2003.
<1.2.2.4 フレーズ生成確率>
対訳文書対群データ分析処理部2は、次の式(4)で定義されるフレーズ生成確率を計算する。
Figure 0005100460
上の式における単語の条件付き確率Pは、EMアルゴリズムにより最尤推定する確率モデルであるIBM model 1を用いる。
<1.2.3 統計量に基づく枝刈りの方法>
前述した処理手順によって、対訳文書対群データ分析処理部2はコーパス内のフレーズ対の探索を行なってフレーズ対候補を抽出することができるが、ここで述べる方法を用いることによって、さらに探索の処理時間を削減することも可能である。
具体的には、対訳文書対群データ分析処理部2は、計算量を削減するために探索中に、統計量を用いて探索対象の空間の枝刈りを行なう。
前述した処理手順では、言語Jと言語Eのフレーズ対の候補のうち、共起文数が閾値ζ以上のものを列挙することとした。ここでは、たとえ共起文数が閾値ζ以上であっても前記の統計量が所定の閾値未満となるものを探索空間から除外することにより計算量を削減する。しかしながら、探索処理の途中で前記の4種類の統計量(有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率)が閾値以上となるフレーズ対を直接列挙することは困難である。
そこで、探索中に、これから探索する範囲の空間に統計量が閾値以上となるフレーズ対が出現するかどうかを予測し、その結果により、出現する見込みが少ないと予測した範囲を探索空間から除く枝刈りを行なう。具体的には次の通りである。
対訳文書対群データ分析処理部2は、手続きExpandEを再帰的に呼び出して深さ優先の探索を行なっていくが、その探索途中において、言語Eの現在の系列(フレーズ候補)である
Figure 0005100460
の統計量が閾値(統計量閾値)未満で、かつひとつ前の(言い換えれば探索木において一段階分上の)系列であるfの統計量よりも小さくなった場合には、それ以上深く探索しても(言い換えれば語を加えて系列をさらに長く伸ばしても)統計量は十分には大きくならないと予測して、それ以上深い探索を行なわずにその段階で打ち切る。言い換えれば、それ以上深い枝(つまり、その枝に続く探索空間)を刈る。
上記のような予測が有効である理由は次の通りである。言語Jのフレーズpの対訳であるところの言語Eの対訳のpが長い表現である場合、pの先頭からの部分的な系列fは、深さ方向への探索に伴ってその長さが対訳のpに近づくほど統計量が大きくなることが期待される。つまり、統計量が所定の閾値未満の場合であって、且つ系列を一語分伸ばしても統計量がより小さくなってしまうような場合は、それ以上系列を延長しても統計量が当該閾値以上にはならないことが期待される。
図9は、枝刈り手法を適用した探索処理の手順を示す疑似コードである。この図において、コードの左側の数字は行番号である。この図に示す手続きExpandEのコードによって図7で説明した手続きExpandEのコードを置き換え、探索処理をすることによって、上で説明した枝刈りしながらの探索が行なえる。この疑似コードでは、統計量を一つの変数uとして簡略的に表現しているが、判断に用いる統計量は複数であっても良い。複数の統計量を用いて枝刈りを行なうか否かを判断する場合にも、この変数uをベクトルとみなして、そのベクトルの大小関係を適宜定義して閾値(複数の統計量のベクトル)との関係を判断すれば良いので、本質的にはこの図に示すコードの処理手順を適用できる。
1行目のコードは、手続きExpandEおよびそのパラメータf,X,Y,f,uの宣言である。手続きExpandEがパラメータとして受け取るuは、系列fに対応する統計量である。
2行目から18行目までが、手続きExpandEの実行部分である。
2行目は、ブロックの始まりを表わすbegin文である。
3行目は、集合Xと集合Yとを基に、集合Hと集合Gとを作る処理である。
4行目は、集合Gに含まれる各々の単語w について、5行目から17行目までの処理を実行させるための制御文「foreach」である。
5行目から7行目までは、現在のw について、
Figure 0005100460
を作成させるための処理である。
8行目は、
Figure 0005100460
の基数が閾値ζ以上であるか否かを条件とする条件節を備えたif文である。この条件が真の場合には、9行目から15行目までの処理を実行する。
9行目は、系列fと系列
Figure 0005100460
を対とするときの統計量である
Figure 0005100460
を算出する処理である。
10行目は、9行目で算出した統計量が所定の閾値τ(統計量閾値)以上であるか否かを条件とする条件節を備えたif文である。この条件が真の場合には、系列fと系列
Figure 0005100460
をフレーズ対として出力する(11行目)とともに、手続きExpandEを再帰的に呼び出す(12行目)。
10行目の条件が偽の場合には、13行目のif文の中の
Figure 0005100460
が真である場合(言い換えれば、9行目で算出した統計量が、ひとつ前からパラメータとして受け取った統計量uよりも大きい場合)、現在のフレーズ対を出力することはないものの、さらに深く探索するために手続きExpandEを再帰的に呼び出す(14行目)。
12行目あるいは14行目の処理で手続きExpandEを呼び出す場合の実引数は、
Figure 0005100460
である。
8行目のif文の条件が偽の場合には、何もしない。
17行目のコードは、4行目の「foreach」に対応するend文である。
18行目のコードは、2行目の「begin」に対応するend文である。
以上のように、ここに示した処理手順の特徴は、たとえフレーズ対候補の共起文数が閾値ζ以上であっても、特徴量が閾値τ以上でない限りはそのフレーズ対を出力せず、さらに、特徴量が一つ前のそれよりも低下した場合には当該枝に関してはそれ以上の深さ優先の探索(手続きExpandEの再帰的呼び出し)すら行なわない(枝刈りしている)ということである。
なお、枝刈りするか否かの判断を行なう際には、次の系列に関する有意確率(−log(p−value × 2)の値)とDice係数の両方ともが、現在の系列に関するそれらの値よりも小さくなったときに、次の系列の枝を刈るようにすることが好適である。このように、これら2種類の統計量が両方とも悪く(小さく)なる場合に限って枝刈りするようにしたことで、枝刈りのし過ぎを防止でき、従って、計算量を削減しながらも必要な対訳フレーズ候補を十分に抽出することができる。
以上、枝刈りを行なう手続きExpandEの処理を言い換えれば、他の言語(言語E)のデータ内での語系列の探索中に、第1の言語(言語J)の語系列と前記他の言語の語系列との組が対訳フレーズ組である確からしさを表わす統計量を算出し(図9の疑似コードの9行目)、現在の言語Eの語系列に関して算出した統計量が表わす確からしさが、現在の言語Eの語系列から一語を除いた語系列(つまり、これは、探索空間の木における親ノードに対応する語系列)について既に算出されていた統計量(その疑似コードでは、手続きExpandEの第5パラメータである変数u)が表わす確からしさよりも低く(その疑似コードの13行目のif文における比較)、かつ閾値(統計量閾値τ)が表わす確からしさよりも低い場合(その疑似コードの10行目のif文における比較)には、以後の、現在の言語Eの語系列に一語を加えて得られる新たな語系列の探索を抑止する(つまり、その疑似コードの14行目に記述されている手続きExpandEの再帰的呼び出しを行なわない)。
<2. フレーズ対のアラインメント>
次に、対訳フレーズ候補データに基づいて、与えられる対訳文書対におけるフレーズ対のアラインメントを行なう処理について説明する。
図10は、アラインメント処理を行なうための対訳表現処理装置200の機能構成を示すブロック図である。図示するように、対訳表現処理装置200は、対訳フレーズ候補データ記憶部3と、対訳辞書データ記憶部4と、対訳文書対データ入力部5と、対訳フレーズ候補取得部6と、対訳フレーズ候補順位付け処理部7と、アラインメント処理部8とを含んで構成され、そのアラインメント処理の結果を出力する。
対訳フレーズ候補データ記憶部3は、前述した処理によって作成された対訳フレーズ候補データを記憶している。つまり、対訳フレーズ候補データとは、複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズ対(組)候補を複数有するものである。対訳フレーズ候補データの構成については、図4を参照して説明した通りである。
対訳辞書データ記憶部4は、二言語間の対訳フレーズ同士を関連付けて保持している対訳辞書データを記憶する。このデータは、語学的には充分な信頼度を有するデータである。但し、単言語でのフレーズの出現頻度や、二言語間でのフレーズ対の共起頻度や、フレーズの長さ(語数)などに基づく優先度を、付加的に、フレーズ対に関連付けて保持するようにしても良い。この優先度がフレーズの長さにも依存する理由は、例えば英語のイディオムに直接対応する日本語のフレーズが、そのイディオムを構成する個々の語に対応する日本語の語を組み合わせて成立するフレーズよりも、対訳フレーズとして優先されるべきである場合などがあるためである。
つまり、対訳辞書データ記憶部4は、複数言語(言語Jおよび言語E)のそれぞれによる語系列を関連付けてなる対訳フレーズを複数有する対訳辞書データを記憶する。
対訳文書対データ入力部5は、アライメント処理の対象となる対訳文書の入力を受け付ける機能を有する。対訳文書対データ入力部5は、具体的には、利用者からの入力を受け付けるキーボード等であったり、ハードディスク装置からテキストを読み取る読み取り手段であったり、光学的に文字を読み取って認識するOCR(光学式文字認識,Optical Character Recognition)装置など、処理対象のテキストを取り込む手段である。
対訳フレーズ候補取得部6は、対訳フレーズ候補データ記憶部3や対訳辞書データ記憶部4から読み取ったデータを参照することにより、対訳文書対データ入力部5が取り込んだ対訳文書対に合致する対訳フレーズ候補を全て取得する。対訳フレーズ候補が「合致する」とは、その対訳フレーズ候補の各言語のフレーズが、対訳文書対の中のそれぞれの言語に含まれている状態である。なお、このとき、対訳フレーズ候補取得部6は、対訳フレーズ候補データの中から取得した対訳フレーズ候補と、対訳辞書データから取得した対訳フレーズ候補とを区別する情報も保持しておく。また、対訳フレーズ候補データの中から取得した対訳フレーズ候補については、その統計量の値も関連付けて保持しておく。また、対訳辞書データが上記の優先度のデータを有している場合は、対訳辞書データの中から取得した対訳フレーズ候補については、その優先度の値も関連付けて保持しておく。
言い換えれば、対訳フレーズ候補取得部6は、複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書対(組)データを基に、対訳フレーズ候補データ記憶部3から対訳フレーズ候補データを読み出し、複数言語の全てについて(つまり言語Jと言語Eの両方について)対訳文書の中に語系列が存在するような対訳フレーズ組候補を選択して取得する。
また、対訳フレーズ候補取得部6は、対訳辞書データ記憶部4から対訳辞書データを読み出し、対訳辞書に登録されているエントリであって、複数言語の全てについて対訳文書対の中に当該エントリの語系列が存在するような対訳フレーズを選択して取得する。
対訳フレーズ候補順位付け処理部7は、フレーズ候補取得部6によって取得された順位付けを行なう。順位付けはスコア等に基づくものである。順位およびスコアの詳細については後述する。対訳フレーズ候補順位付け処理部7が順位付けを行なうことによって、対訳フレーズ候補取得部6によって取得されたすべての対訳フレーズ候補に全順序が与えられる。言い換えれば、対訳フレーズ候補取得部6取得されたすべての対訳フレーズ候補の中から任意に選んだ2つの対訳フレーズ候補について、一方が上位で他方が下位であるか或いはこれらが同順位であるかが決定的となる。
アラインメント処理部8は、対訳フレーズ候補順位付け処理部7によって付けられた対訳フレーズ候補の順位に従って、所定の手順で包含的にアラインメントを行い、その処理結果を出力する。「包含的」の定義や、アラインメントの処理手順については後述する。
なお、後述するように、本実施形態では、アラインメント結果を利用する統計量(対訳フレーズ候補アラインメント率)にも基づいてスコアを算出し、このスコアに基づいた医薬フレーズ候補の順位付けを行なっている。よって、対訳フレーズ候補順位付け処理部7の処理とアラインメント処理部8の処理とを複数回繰り返すようにしている。このとき、最初の順位付けでは、アラインメント処理結果がないため、アラインメント処理結果に基づく統計量を使わずにスコアを計算し、順位付けを行ない、その順位に基づいてアラインメント処理を行なう。その結果、アラインメント処理結果が得られるため、2回目以降は、アラインメント結果を利用する統計量を利用してアラインメント処理を行なえるようになる。2回目のアラインメント処理結果は最初のアラインメント結果より信頼性が高いので、2回目のアラインメント処理結果からさらにまたアラインメント処理結果を利用する統計量を計算し、その結果の順位に基づいて3回目のアラインメントを行なう。このように、処理結果が所定範囲に収束するまで、上記の繰り返しを行なっても良いし、予め定めた所定回数(例えば、3回)で繰り返しを停止するようにしても良い。
次に、対訳表現処理装置200による処理の詳細について説明する。以下では、まずアラインメントの方法について述べ、次にアラインメントで利用する統計的な特徴量について述べ、その後スコアの計算方法について述べ、最後に位置選択手法について述べる。
<2.1 アラインメントの方法>
対訳フレーズ候補順位付け処理部7は、対訳フレーズ候補取得部6によって取得された対訳フレーズについて、対訳らしさの順位付けを行なう。対訳らしさの順位は次のように決定する。即ち、まず、前述した対訳辞書データに登録がある対訳フレーズ候補をまとめて便宜的にティア1とする。次に、ティア1には含まれず、且つ、フレーズ対の両言語側に内容語類を含む対訳フレーズ候補であってそのスコアが所定の閾値以上のものをまとめてティア2とする。次に、ティア1にも2にも含まれず、且つ、そのスコアが所定の閾値以上の対訳フレーズ候補をまとめてティア3とする。
ティア1から3までのいずれにも入らなかった対訳フレーズ候補(即ち、スコアが上記の各閾値に未たなかったもの)は、使われない。
ここで、内容語類とは、日本語では一般的な名詞や動詞や形容詞など内容的な意味を持つ語である。一方、内容語類でないものは機能語であり、機能語は文法上の機能を果たすものの内容的な意味を持たない。
上記の3つのティア間の順位としては、上位から順に、ティア1、ティア2、ティア3の順である。
ティア1内での対訳フレーズ候補の順位は、次の通りである。即ち、対訳辞書データが、前述した優先度を持っている場合には、各対訳フレーズ候補の順位は、その優先度の順である。但し、優先度がたまたま同じ場合には、同順位となる。対訳辞書データがこの優先度を持たない場合には、ティア1内のすべての対訳フレーズ候補は同順位である。
ティア2内での対訳フレーズ候補の順位は、各対訳フレーズ候補のスコアの順である。スコアがたまたま同じ場合には、同順位となる。
ティア3内での対訳フレーズ候補の順位は、各対訳フレーズ候補のスコアの順である。スコアがたまたま同じ場合には、同順位となる。
以上により、対象とするすべての対訳フレーズ候補の順位付けが行なわれる。
言い換えれば、対訳フレーズ候補順位付け処理部7は、対訳フレーズ候補データ記憶部3から読み出した統計量に基づき、対訳フレーズ対(組)候補の確からしさの順位付けを行なう。
アラインメント処理部8は、対訳の文ペアに出現する対訳フレーズ候補の中から、対訳フレーズを識別的に選択することでアラインメントする。ここでアラインメントするフレーズ対は、他のアラインメントと連結しないもの(非連結)、または他のアラインメントと包含的な関係にあるものに制限する。ここで言う「非連結」および「包含的」の定義については、後述する。
上記の制限を満たすアラインメントを整合するアラインメントと呼ぶ。アラインメント処理部8は、順位が上位の対訳フレーズ候補から順に、アラインメントを試みていく。ある順位の対訳フレーズ候補を用いたアラインメントを試みるとき、そのアラインメントが既に確立しているアラインメントと連結しない場合或いは連結しても包含的である場合にはそのアラインメントは確立し、その他の場合にはそのアラインメントは確立しない(つまりその対訳フレーズ候補は使われない)。そして、アラインメント処理部8は、順位に従って、対象となるすべての対訳フレーズ候補のアラインメントを試みた結果を出力する。このような手順で処理を行なうことにより、処理結果に含まれるすべてのアラインメントは整合するアラインメントとなる。また、順位に従ってアラインメントを試みることにより、対訳である可能性が高いフレーズ対が優先的にアラインされる。
図11は、アラインメント処理部8によって出力されるアラインメント処理結果の例を示す概略図である。この処理結果の例は、図3にも示した対訳文の例を、対訳文書対データ入力部5から入力して処理した結果である。図11は、まず、入力される対訳文の各言語における文中の単語の位置を、その単語の直後の括弧内の数字で示している。例えば、日本語文の中の単語「台風」は位置「1」であり、単語「は」は位置「2」であり、単語「あす」は位置「3」であり、以下同様である。日本語文の最後の句点「。」もここでは便宜的に単語として扱い、その位置は「20」である。また対する英語文の中の単語「The」は位置「1」であり、単語「typhoon」は位置「2」であり、単語「is」は位置「3」であり、以下同様である。英語文の最後のピリオド「.」もここでは便宜的に単語として扱い、その位置は「15」である。
また、図11は、アラインメントの処理結果も示している。処理結果の1行目では、日本語のフレーズ「台風」(位置「1」)が英語のフレーズ「typhoon」(位置「2」)にアラインされている。同2行目では、日本語のフレーズ「台風」(位置「1」)が英語のフレーズ「The」(位置「1」)・「typhoon」(位置「2」)にアラインされている。同3行目では、日本語のフレーズ「あす」(位置「3」)・「の」(位置「4」)が英語のフレーズ「tomorrow」(位置「13」)にアラインされている。4行目以下に示すフレーズ同士のアラインメントも同様である。
以上説明したように、アラインメント処理結果のデータには、採用された対訳フレーズ対(組)候補の情報が含まれている。
図12は、アラインメントの整合性について説明するための概略図である。ここでは、図11のアラインメント処理結果を参照しながら図12(a)〜(c)を説明する。
まず図12(a)は、図11に示した1行目および2行目のアラインメントを、概念的に平面図で表わしている。この図において、記号J1は位置「1」の日本語単語「台風」に対応する。また、記号E1は位置「1」の英語単語「The」に対応し、記号E2は位置「2」の英語単語「typhoon」に対応する。記号アは1行目のアラインメントに対応する。「ア」の枠線が記号J1とE2を囲っているのは、1行目のアラインメントにおいては日本語フレーズ「台風」と英語フレーズ「typhoon」が対応していることを表わしている。同様に、記号イは、2行目のアラインメントに対応し、「イ」の枠線が記号J1とE1とE2を囲っているのは、日本語フレーズ「台風」と英語フレーズ「The」・「typhoon」が対応していることを表わしている。この図に示すように、記号「イ」は記号「ア」を包含している。よって、これらの記号「ア」と「イ」が表わすアラインメントは整合している。
次に図12(b)は、図11に示したアラインメントの3行目、4行目、5行目、6行目を表わしており、これらはそれぞれ、記号カ、キ、ク、ケに対応している。上と同様に、J3は日本語単語「あす」を表わし、J4は単語「の」を表わし、J5は単語「昼」を表わし、J6は単語「頃」を表わし、E13は英語単語「tomorrow」を表わし、E14は単語「afternoon」を表わしている。この図では、記号「カ」が記号「キ」を包含している。また、記号「ク」は、記号「カ」、「キ」、「ケ」をそれぞれ包含している。また、記号「カ」と記号「ケ」とは非連結であり、記号「キ」と記号「ケ」とは非連結である。このように、記号「カ」から「ク」までは互いに包含関係にあるか非連結であるかのいずれかであるので、これらの記号「カ」から「ク」までが表わすアラインメントは整合している。
次に図12(c)は、2つのアラインメントが互いに整合しない例を示している。この図において、実線の枠で示すアラインメントは、単語J3とE13とを含んでいる。一方、破線の枠で示すアラインメントは、単語J4とE13とを含んでいる。つまり、これら両者は、包含関係でもなく非連結関係でもないため、互いに整合していない。逆に言うと、実線の枠で示すアラインメントが既に確立している場合、破線の枠で示す対訳フレーズ候補がたとえ存在していたとしても、先に述べたアラインメント処理部8は、この候補を採用せず、よって破線の枠で示されるアラインメントは確立されない。
図12を用いて例示した包含関係および非連結関係の定義は次の通りである。
アラインメントAとBとが包含関係にある(包含的である)とは、アラインメントAに含まれる要素(単語)は全てアラインメントBに含まれる要素であるか、或いは、アラインメントBに含まれる要素は全てアラインメントAに含まれる要素である、の少なくともいずれかが成り立つ場合であり、且つその場合のみである。
アラインメントAとBとが非連結関係にあるとは、アラインメントAに含まれる要素(単語)のいずれもアラインメントBの要素ではなく、且つ、アラインメントBに含まれる要素のいずれもアラインメントAの要素ではない場合であり、且つその場合のみである。
そして、処理手順として、アラインメント処理部8が対訳フレーズ候補を用いて新たなアラインメントを確立させることができるのは、その新たなアラインメントが、既に確立しているいかなるアラインメントに対しても包含関係あるいは非連結関係のいずれかの関係が成り立つ場合であって、且つその場合のみである。
まとめると、アラインメント処理部8は、対訳文書対(組)データを基に、対訳フレーズ候補取得部6によって取得された複数の対訳フレーズ対(組)候補から、複数の対訳フレーズ対(組)候補が互いに整合する関係(包含的関係あるいは非連結関係のいずれかの関係)を有するように、各々の前記対訳フレーズ対(組)候補を採用するか否かを決定し、採用された対訳フレーズ対(組)候補の情報を含んだアラインメント処理結果を出力する。
また、アラインメント処理部8は、対訳フレーズ候補順位付け処理部7による順位付けに基づき、確からしい対訳フレーズ対(組)候補を優先的に採用する。
また、アラインメント処理部8は、対訳フレーズ候補取得部6によって対訳辞書データ記憶部4から取得された対訳フレーズを、対訳フレーズ候補データ記憶部3から取得された対訳フレーズ対(組)候補よりも優先的に採用して、採用された対訳フレーズの情報をも含んだアラインメント処理結果を出力する。これは、対訳フレーズ候補順位付け処理部7が、対訳辞書データに登録されていた対訳フレーズに対して、前述の通りティア1として高い順位を与えていることによる。
<2.2 統計的な特徴量>
次に、対訳フレーズ候補に関する対訳らしさのスコアを計算するために用いる特徴量について説明する。ここでは、6種類の特徴量を使用することができる。それらは、有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率、単語アラインメント結果含有率、対訳フレーズ候補アラインメント率である。これら6種のうち、最初の4種の特徴量については既に説明したのでここでは説明を省略する。
<2.2.1 単語アラインメント結果含有率>
単語単位のアラインメント結果において、対訳フレーズ候補のフレーズ中の単語のうち、対応するフレーズ中の単語にアラインメントされた単語の率が、単語アラインメント結果含有率である。ここでは,単語単位のアラインメント結果としてコンピュータプログラム「GIZA++」の標準設定であるIBM model 4のアラインメント結果を用いる。単語アラインメントは、一方の言語の1単語と他方の言語の任意の数の単語とのアラインメントを行なうため、どの言語からどの言語に向けてアラインメントを行なうかによって、その結果が異なる。ここでは、単語アラインメントを日英および英日の双方向について行った結果、どちらの方向においてもアラインメントされた単語対のみをアラインメント結果とした場合の含有率(便宜上、「AND」と呼ぶ)と、少なくともいずれか一方の方向においてアラインメントされた単語対をアラインメント結果とした場合の含有率(便宜上、「OR」と呼ぶ)とを、統計量として算出し用いることができる。
<2.2.2 対訳フレーズ候補アラインメント率>
パラレルデータをアラインメントした結果において、対訳フレーズ候補がアラインメントとして選択された数qと対訳フレーズ候補が出現した総数qを用いて、(q+1)/(q+1)を対訳フレーズ候補アラインメント率と定義する。
このように、対訳フレーズ候補アラインメント率は、アラインメント処理結果を基に算出される統計量(第2の統計量)である。
<2.3 スコアの計算手法>
前記の6種類(そのうち単語アラインメント結果含有率は、さらにANDとORの2種類に分かれる)の特徴量のうち、−log(p−value × 2)をhとし、Dice係数をhとし、フレーズ平均生成確率をhとし、フレーズ生成確率をhとし、単語アラインメント結果含有率(AND)をhとし、単語アラインメント結果含有率(OR)をhとし、対訳フレーズ候補アラインメント率をhとする。対訳フレーズ候補順位付け処理部7は、これらh〜hの特徴量を用いて、次の式(5)によりスコア(score)を計算する。
Figure 0005100460
ここで、λは各特徴量を重みづけるパラメータであり、γはスムージングのパラメータである。これらのパラメータの値は、どのような手段を用いて設定しても良いが、例えば、エラー率最小化学習によりパラメータの値を設定することができる。エラー率最小化学習については、次の文献に記載されている。文献:Franz Josef Och,“Minimum Error Rate Training in Statistical Machine Translation”,ACL,pp.160-167,2003.
<3. 対訳フレーズ候補の抽出およびフレーズ対のアラインメント>
次に、対訳フレーズ候補の抽出処理およびフレーズ対のアラインメント処理を併せ持つ形態の対訳表現処理装置300について説明する。
図13は、この対訳表現処理装置300の機能構成を示すブロック図である。図示するように、対訳表現処理装置300は、対訳文書対群データ記憶部1Aと、対訳文書対群データ分析処理部2Aと、対訳フレーズ候補データ記憶部3Aと、対訳辞書データ記憶部4Aと、対訳文書対データ入力部5Aと、対訳フレーズ候補取得部6Aと、対訳フレーズ候補順位付け処理部7Aと、アラインメント処理部8Aとを含んで構成される。
対訳表現処理装置300の機能のうち、対訳文書対群データ記憶部1Aと、対訳文書対群データ分析処理部2Aと、対訳フレーズ候補データ記憶部3Aの部分は、対訳文書対群データから対訳フレーズ候補を抽出する処理であり、その具体的な処理手順等は前述の対訳表現処理装置100のそれと同様である。また、対訳フレーズ候補データ記憶部3Aおよび対訳辞書データ記憶部4Aのデータに基づく、対訳文書対データ入力部5Aと、対訳フレーズ候補取得部6Aと、対訳フレーズ候補順位付け処理部7Aと、アラインメント処理部8Aの部分の処理は、アラインメントを行なう処理であり、その具体的な処理手順等は前述の対訳表現処理装置200のそれと同様である。
このように、対訳表現処理装置300は、対訳フレーズ候補抽出処理を行なって対訳フレーズ候補データ記憶部3Aに対訳フレーズ候補データを書き込み、この対訳フレーズ候補データを読み出しながらアラインメント処理を行なう。
なお、図13に示した対訳文書対群データ記憶部1Aのデータと対訳文書対データ入力部5Aから入力されるデータが同一の場合は、対訳フレーズ候補を抽出する際に、図7に示したアルゴリズムにおける出てくるYおよびYの値を対訳フレーズ候補とセットで出力して保存しておくことにより、どの対訳文書対のどの位置にどの候補が出現するのかが既にわかっている状態で対訳フレーズ候補取得の処理を開始することができ、つまり図13の構成における対訳フレーズ候補取得部6Aの処理を効率化することができる。
なお、上述した実施形態における対訳表現処理装置の一部または全部の機能をコンピュータで実現するようにしても良い。その場合、対訳文書処理を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、本発明の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上述した実施形態では、二言語(言語Jと言語E)のみに対訳文書および対訳フレーズを対象としたが、三言語以上の役の組を対象としても、本質的には同様の処理方法で対訳フレーズ候補の抽出やアラインメントが行なえる。例えば、言語Jと言語Eに加えて言語Fの三言語とする場合、図7や図9に示した疑似コードを拡張してExpandFという手続きを設け、ExpandEでフレーズ対を出力する代わりに手続きExpandFを呼び出すようにして、手続きExpandFの中でフレーズの組を出力するとともに手続きExpandFを再帰的に呼び出すようにする。四言語以上の場合も本質的には同様である。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上述した実施形態では、統計量として、有意確率、Dice係数、フレーズ平均生成確率、フレーズ生成確率、単語アラインメント結果含有率、対訳フレーズ候補アラインメント率を用いたが、適宜、別の統計量を用いるようにしても良い。また、本実施形態では、アラインメント処理結果に基づく統計量を一部に用いているため、アラインメント処理部8による処理結果を対訳フレーズ候補順位付け処理部7に帰還させ、順位付けの処理とアラインメント処理とを複数回繰り返すようにしているが、対訳フレーズ候補の順位付けの際にアラインメント処理結果に依存しない統計量のみに基づく順位付けを行なうようにすれば、このような複数回繰り返しの処理は必要ない。
また、上述した実施形態では、深さ優先探索の処理を行なう際に、木状の探索空間において、親ノードから子ノードに移る際に、系列の最後に語を加えて新たな系列を作成しているが、語を加える場所は任意であり、先頭に語を連結して新たな系列を生成しても良いし、また、既存系列中の任意の位置に語を挿入して新たな系列を生成しても良い。
また、上述した実施形態では、深さ優先の探索処理を行なうようにしたが、代わりに幅優先探索を行なっても良い。幅優先探索の場合は探索途中の状態を記憶するメモリ(空間計算量)が膨大に必要になるが、装置が充分なメモリさえ備えていれば、深さ優先探索と同等の結果が得られる。
本発明の実施形態による対訳表現処理装置(対訳フレーズ候補の抽出処理)の機能構成を示すブロック図である。 同実施形態による対訳表現文書対群データの構成を示す概略図である。 同実施形態における対訳表現文書対の一例を示す概略図である。 同実施形態による対訳フレーズ候補データの構成およびデータ例を示す概略図である。 同実施形態による、単言語におけるフレーズの深さ優先探索(単語aで始まるフレーズを探索し、閾値ζ=2)の処理の動作を説明的に示す概略図である。 同実施形態による、単言語でのフレーズの深さ優先探索の処理手順を示す疑似コードである。 同実施形態による、深さ優先探索に基づく頻出フレーズ対を対訳文書対群データの中から抽出する処理を示す疑似コードである。 同実施形態による、コーパス中のデータ数(文数)の2×2分割表である。 同実施形態による、探索空間の枝刈り手法を適用した探索処理の手順を示す疑似コードである。 本発明の実施形態による対訳表現処理装置(アラインメント処理)の機能構成を示すブロック図である。 同実施形態によるアラインメント処理部によって出力されるアラインメント処理結果の例を示す概略図である。 同実施形態におけるアラインメントの整合性を説明する概略図である。 本発明の実施形態による対訳表現処理装置(対訳フレーズ候補の抽出処理およびアラインメント処理)の機能構成を示すブロック図である。
符号の説明
1,1A 対訳文書対群データ記憶部(対訳文書組群データ記憶部)
2,2A 対訳文書対群データ分析処理部(対訳文書組群データ分析処理部)
3,3A 対訳フレーズ候補データ記憶部
4,4A 対訳辞書データ記憶部
5,5A 対訳文書対データ入力部
6,6A 対訳フレーズ候補取得部
7,7A 対訳フレーズ候補順位付け処理部
8,8A アラインメント処理部
100 対訳表現処理装置(対訳フレーズ候補データを抽出する処理)
200 対訳表現処理装置(対訳フレーズをアラインメントする処理)
300 対訳表現処理装置(対訳フレーズ候補データの抽出処理および対訳フレーズのアラインメント処理)

Claims (6)

  1. 複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズ組候補を複数有する対訳フレーズ候補データを記憶する対訳フレーズ候補データ記憶部と、
    前記複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書組データを基に、対訳フレーズ候補データ記憶部から前記対訳フレーズ候補データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような対訳フレーズ組候補を選択して取得する対訳フレーズ候補取得部と、
    前記対訳文書組データを基に、前記対訳フレーズ候補取得部によって取得された複数の前記対訳フレーズ組候補から、ある対訳フレーズ候補を用いたアラインメントに関して、そのアラインメントが既に確立している他のアラインメントと互いに包含的関係あるいは非連結関係のいずれかの関係を有する場合には当該アラインメントは確立し、その他の場合には当該アラインメントが確立しないように、各々の前記対訳フレーズ組候補を採用するか否かを決定し、採用された前記対訳フレーズ組候補の情報を含んだアラインメント処理結果を出力するアラインメント処理部と、
    を具備することを特徴とする対訳表現処理装置。
  2. 請求項1に記載の対訳表現処理装置であって、
    前記対訳フレーズ候補取得部によって取得された前記対訳フレーズ組候補の順位付けを行なう対訳フレーズ候補順位付け処理部、
    をさらに具備するとともに、
    前記対訳フレーズ候補データ記憶部は、前記対訳フレーズ組候補それぞれについて対訳フレーズ組である確からしさを表わす統計量をも記憶しており、
    前記対訳フレーズ候補順位付け処理部は、前記対訳フレーズ候補データ記憶部から読み出した前記統計量に基づき、前記対訳フレーズ組候補の確からしさの順位付けを行ない、
    前記アラインメント処理部は、前記対訳フレーズ候補順位付け処理部による順位付けに基づき、確からしい前記対訳フレーズ組候補を優先的に採用する、
    ことを特徴とする対訳表現処理装置。
  3. 請求項1又は2に記載の対訳表現処理装置であって、
    複数言語のそれぞれによる語系列を関連付けてなる対訳フレーズを複数有する対訳辞書データを記憶する対訳辞書データ記憶部をさらに具備するとともに、
    前記対訳フレーズ候補取得部は、前記対訳文書組データを基に、前記対訳辞書データ記憶部から前記対訳辞書データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような前記対訳フレーズをも選択して取得するものであり、
    前記アラインメント処理部は、前記対訳フレーズ候補取得部によって取得された前記対訳フレーズを前記対訳フレーズ組候補よりも優先的に採用して、採用された前記対訳フレーズの情報をも含んだアラインメント処理結果を出力する、
    ことを特徴とする対訳表現処理装置。
  4. 請求項2に記載の対訳表現処理装置であって、
    前記対訳フレーズ候補順位付け処理部は、前記アラインメント処理結果がある場合にはそのアラインメント処理結果を基に算出される第2の統計量にも基づき、前記対訳フレーズ組候補の確からしさの順位付けを行なうものであり、
    前記アラインメント処理部による前記アラインメント処理結果を前記対訳フレーズ候補順位付け処理部に帰還させることによって、前記アラインメント処理部の処理を複数回繰り返し、その繰り返しの結果得られる最終的な前記アラインメント処理結果を出力する、
    ことを特徴とする対訳表現処理装置。
  5. 請求項1から4までのいずれか一項に記載の対訳表現処理装置であって、
    複数言語による対訳文書の組である対訳文書組データを複数記憶する対訳文書組群データ記憶部と、
    前記対訳文書組データ記憶部から読み出した前記対訳文書組データに基づき、単一の前記対訳文書組データ内に出現する語系列の前記複数の言語間での共起頻度をカウントし、全ての前記対訳文書組データにおける前記共起頻度の合計値が所定の頻度閾値以上となるような、前記複数言語による前記語系列の組を対訳フレーズ組候補として抽出する対訳文書組群データ分析処理部と、
    をさらに具備し、
    前記対訳文書組群データ分析処理部は、抽出した前記対訳フレーズ組候補を、前記対訳フレーズ候補データ記憶部に書き込む、
    ことを特徴とする対訳表現処理装置。
  6. 複数言語の言語それぞれによる語系列を関連付けてなる対訳フレーズ組候補を複数有する対訳フレーズ候補データを記憶する対訳フレーズ候補データ記憶部を備えるコンピュータに、
    前記複数言語それぞれによる文書を関連付けてなる対訳文書を表わす対訳文書組データを基に、対訳フレーズ候補データ記憶部から前記対訳フレーズ候補データを読み出し、前記複数言語の全てについて前記対訳文書の中に前記語系列が存在するような対訳フレーズ組候補を選択して取得する対訳フレーズ候補取得過程と、
    前記対訳文書組データを基に、前記対訳フレーズ候補取得過程によって取得された複数の前記対訳フレーズ組候補から、ある対訳フレーズ候補を用いたアラインメントに関して、そのアラインメントが既に確立している他のアラインメントと互いに包含的関係あるいは非連結関係のいずれかの関係を有する場合には当該アラインメントは確立し、その他の場合には当該アラインメントが確立しないように、各々の前記対訳フレーズ組候補を採用するか否かを決定し、採用された前記対訳フレーズ組候補の情報を含んだアラインメント処理結果を出力するアラインメント処理過程と、
    の処理を実行させるコンピュータプログラム。
JP2008066393A 2008-03-14 2008-03-14 対訳表現処理装置およびプログラム Expired - Fee Related JP5100460B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008066393A JP5100460B2 (ja) 2008-03-14 2008-03-14 対訳表現処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008066393A JP5100460B2 (ja) 2008-03-14 2008-03-14 対訳表現処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009223548A JP2009223548A (ja) 2009-10-01
JP5100460B2 true JP5100460B2 (ja) 2012-12-19

Family

ID=41240268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008066393A Expired - Fee Related JP5100460B2 (ja) 2008-03-14 2008-03-14 対訳表現処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5100460B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5791097B2 (ja) * 2011-03-04 2015-10-07 国立研究開発法人情報通信研究機構 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法
JP2019153056A (ja) 2018-03-02 2019-09-12 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338261A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 翻訳装置、翻訳方法及び翻訳プログラム
JP4588657B2 (ja) * 2006-03-24 2010-12-01 富士通株式会社 翻訳装置

Also Published As

Publication number Publication date
JP2009223548A (ja) 2009-10-01

Similar Documents

Publication Publication Date Title
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
Chiang Statistical parsing with an automatically-extracted tree adjoining grammar
US8249856B2 (en) Machine translation
US7672831B2 (en) System and method for cross-language knowledge searching
US10496756B2 (en) Sentence creation system
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
US20130018650A1 (en) Selection of Language Model Training Data
KR101732634B1 (ko) 의존관계 포레스트를 이용한 통계적 기계 번역 방법
JP2007122509A (ja) 語句配列の自然度判定装置、方法及びプログラム
JP2015088064A (ja) テキスト要約装置、方法、及びプログラム
JP5100460B2 (ja) 対訳表現処理装置およびプログラム
JP5341375B2 (ja) 対訳表現処理装置およびプログラム
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Klang et al. Linking, searching, and visualizing entities in wikipedia
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
KR101753708B1 (ko) 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
Demir Context tailoring for text normalization
KR100574887B1 (ko) 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Tiedemann Optimization of word alignment clues
JP4059501B2 (ja) 自然語辞書更新装置
KR20110062261A (ko) 대용어 참조해소 시스템 및 대용어 참조해소 방법
Costa Automatic Extraction and Validation of Lexical Ontologies from text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees