JP4961755B2 - 単語アライメント装置、単語アライメント方法、単語アライメントプログラム - Google Patents

単語アライメント装置、単語アライメント方法、単語アライメントプログラム Download PDF

Info

Publication number
JP4961755B2
JP4961755B2 JP2006014468A JP2006014468A JP4961755B2 JP 4961755 B2 JP4961755 B2 JP 4961755B2 JP 2006014468 A JP2006014468 A JP 2006014468A JP 2006014468 A JP2006014468 A JP 2006014468A JP 4961755 B2 JP4961755 B2 JP 4961755B2
Authority
JP
Japan
Prior art keywords
word
alignment
language
words
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006014468A
Other languages
English (en)
Other versions
JP2007199793A (ja
Inventor
紹明 劉
ホンリン ウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2006014468A priority Critical patent/JP4961755B2/ja
Priority to US11/492,951 priority patent/US8069027B2/en
Priority to CNA2006101514671A priority patent/CN101008943A/zh
Publication of JP2007199793A publication Critical patent/JP2007199793A/ja
Application granted granted Critical
Publication of JP4961755B2 publication Critical patent/JP4961755B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Description

本発明は、単語アライメント装置、単語アライメント方法、および単語アライメントプログラムに関する。
機械翻訳とは、計算機を利用してある言語から別の言語に変換することである。こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、1)解析ベース機械翻訳方式、2)例文ベース機械翻訳方式、3)統計ベース機械翻訳方式に大別することができる。
解析ベース機械翻訳方式は、第1言語を解析(形態素解析、構文・意味解析など)を行い、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。
特許文献1は、対訳テキストコーパスから訳語対を抽出する訳語対抽出装置に関し、第1言語、第2言語の単語の音韻を推定し、両者の音韻が一致する単語を単語対として出力するものである。また、特許文献2は、第1言語の表現に対応する第2言語の訳語を第2言語の文章中から発音の類似度に基づき抽出する技術を開示している。
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。1980年代に長尾教授が始めてこの翻訳方式を提案した。その後、盛んに研究開発が行われている。非特許文献1は、第1言語の例文とその例文の第2言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献2は、第1言語の例文とその例文の第2言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。
図17は、機械翻訳システムの全体構成例を示す図である。機械翻訳システム1は、文書のすべての部分を正しく翻訳することはできず、翻訳できない部分に無理に翻訳すると、ユーザを混迷させ、原文の内容の把握に悪い影響を与えてしまう。そこで、翻訳結果において、正解または失敗の区別、あるいは信頼性の高低を与えるようにしている。また、翻訳システムに学習機能を設け、翻訳できない部分を自動的に回収し、正確な対訳を付与することで、翻訳の性能を向上させている。
機械翻訳システム1は、原言語テキスト文入力部10から入力された文単位の文を翻訳する翻訳メモリ(翻訳装置)12、翻訳メモリ12において照合できなかった部分(文単位)、つまり適切に翻訳をできなかった文を形態素解析し、解析した結果を入力し例文で翻訳をする例文ベース翻訳エンジン14と、例文ベース翻訳エンジン14で適切に翻訳できなかった文の形態素解析した結果を入力し、単語ベースで翻訳する単語直訳翻訳エンジン16と、目的言語テキスト文を作成する目的言語テキスト作成部18とを有している。
翻訳メモリエンジン12、例文ベース翻訳エンジン14、単語直訳翻訳エンジン16により翻訳した翻訳データは、目的言語テキスト作成部18に入力される。目的言語テキスト作成部18は、これらの翻訳データに基づき目的言語のテキストを作成する。このとき、翻訳メモリエンジン12と例文ベース翻訳エンジン14により翻訳成功した部分については、正確に翻訳されたことがわかるような識別を与える。単語直訳翻訳エンジン16によって翻訳された翻訳データは、目的言語テキスト文作成部18において、参考程度の翻訳として出力される。これにより、ユーザは、テキスト訳文において、どこが信頼できる翻訳結果であり、どこが信頼できない翻訳結果かを一見して把握することができる。
一方、翻訳メモリエンジン12、例文ベース翻訳エンジン14で翻訳失敗した部分(文単位)は、回収部20によって回収され、翻訳者によって回収された翻訳失敗した部分(文単位)の訳文が翻訳される。回収された翻訳失敗部分とその訳文は、例文対訳辞書に出力され、同時に、学習エンジン22において自動的に学習し、例文パターン対訳辞書のデータを自動的に生成する。学習エンジン22によって生成された例文パターン対訳辞書のデータにおいて翻訳者によって修正およびチェックが成され、その結果が、翻訳辞書24に出力される。翻訳辞書24は、単語対訳辞書、例文対訳辞書、例文パターン対訳辞書等を含み、これらの辞書の対訳データは、翻訳メモリエンジン12、例文ベース翻訳エンジン14、単語直訳翻訳エンジン16に供給される。
特開2005−258637号 特許第3282789号 Jin-Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, pp121-130. Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97.pp 490−497. Madrid Spain,1997.
例文ベース機械翻訳には、解決しなければならない二つの重要な課題がある。(a)参考例文の抽出:訳文例文コーパスから、入力文とよく似ている例文パターンを速やかに抽出しなければならない。(b)自動学習:第1言語の例文とその例文の第2言語の訳文を与えられたときに、自動的に訳文例文パターンを生成しなければならない。
上記課題を解決する手段として、例文と訳文に含まれる単語間の対応関係(アライメント)を抽出し、その対応関係を付与する方法が考えられる。例文とその訳文の単語間のアライメントを自動的に生成しておくことで、入力文の単語に対応する訳文の抽出を高精度にかつ高速に行うことが可能となる。
図18は、例文と訳文に含まれる単語間のアライメントを説明する図である。同図(a)は、中国語とその訳文の日本語の入力例文対を示している。同図(b)は、それらの入力例文対を形態素解析して得られた中国語の単語と日本語の単語間の理想的なアライメントを示している。すべての例文と訳文の関係において、同図(b)に示すような正確な単語間のアライメントを人間の手作業により設定することは、非常に時間と手間を要し、現実的ではない。その一方で、単語間のアライメントを自動生成するためには、高いリコール(Recall)率と高精度を要求される。リコール率とは、例文と訳文から抽出されるべき単語のペア数と実際に抽出された単語のペア数との比であり、精度は、実際に抽出された単語のペア数と正解の単語のペア数との比である(図19を参照)。
単語アライメントにおいて非特許文献1に開示される単語対訳辞書を活用した単語の訳語抽出を適用することが可能であるが、この技術は、リコール率が非常に低く、単語対訳辞書に存在しない未登録の単語を処理できない。さらに訳語に多義性があるとどれを選択すべきか不明となってしまう。また、非特許文献2に開示されるように例文対訳辞書を活用した統計モデルにより例文と訳文の共起するパラメータを算出して単語アライメントを行う場合には、単語に多義性があると精度が低下し、最適なアライメントを保証することができない。
本発明は、上記従来の課題を解決するものであり、リコール率が高く、かつ精度良く単語のアライメントを行うことができる単語アライメント装置、単語アライメント方法、および単語アライメントプログラムを提供することを目的とする。
本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、例文および訳文から少なくともそれぞれの単語を抽出する単語抽出手段と、第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出するアライメント算出手段と、2部グラフマッチングによりアライメントの最適化を図る最適化手段と、を有する。2部グラフマッチングによりアライメントの最適化を行うことで、確認度の低いアライメント候補、多対応のアライメント問題を解消し、最適な単語のアライメントを行うことができる。
アライメント算出手段は、さらに、第1言語と第2言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する。
アライメント算出手段は、単語対訳辞書を参照して第1言語と第2言語の単語間の意味上の類似度を求める。
アライメント算出手段は、さらに、コーパスの統計情報を参照して第1言語および第2言語の単語間の相関度を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する。
相関度Ass(c,j)は、次式により算出される。
Figure 0004961755
ここで、cは第1言語の単語、jは第2言語の単語、aは、単語cと単語jの共起出現頻度、freq(c)は単語cの出現頻度、freq(j)は単語jの出現頻度である。
最適化手段は、アライメント算出手段により求められた類似度および相関度の少なくとも一方の値を重み付き2部グラフマッチングによりアライメントを最適化する。
最適化手段は、最大最小重みマッチングにより単語間のアライメントの最適化を図る。
好ましくは、最適化手段は、単語間の類似度および/または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行うようにしてもよい。例えば、第1言語と第2言語の単語が単語対訳辞書に含まれている場合には、そのような単語のアライメントを固定し、残りの単語間のアライメントの最適化を行う。これにより、アライメントの最適化を速やかに行うことができる。
単語抽出手段は、例文および訳文を形態素解析し、例文および訳文から単語を抽出する。
例文とその対訳は例文対訳辞書に格納されている。
単語アライメント装置はさらに、最適化された単語間のアライメントを記憶する記憶手段を含む。
単語アライメント装置において、アライメントすべき単語は、予め例文対訳辞書に格納された例文と当該例文の訳文を用いることができる。例文対訳辞書に含まれる例文と訳文の単語アライメントを実施し、そのアライメントを記憶しておくことで、新たな未登録の例文が入力されたとき、単語対訳辞書を利用して、自動的に訳文を生成する学習機能を与えることが可能になる。
本発明に係る単語アライメント方法は、第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれの単語間のアライメントをCPUが行う単語アライメント方法であって、例文および訳文から少なくともそれぞれの単語をCPUが抽出する第1のステップと、第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントをCPUが算出する第2のステップと、2部グラフマッチングによりアライメントの最適化をCPUが図る第3のステップと、を有する。
本発明に係る単語アライメントプログラムは、第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれの単語間のアライメントをCPUに実行させるための単語アライメントプログラムであって、CPUに、例文および訳文から少なくともそれぞれの単語を抽出する第1のステップと、第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する第2のステップと、2部グラフマッチングによりアライメントの最適化を図る第3のステップと、を実行させる
本発明によれば、リコール率が高く、高精度の単語アライメント装置、単語アライメント方法および単語アライメントプログラムを得ることができる。さらに、そのような単語アライメント技術を例文対訳辞書に適用することで、例文対訳辞書に学習機能を与えることができる。
本発明を実施するための最適な形態を図面を参照して詳細に説明する。
図1は、本発明の実施例に係る単語アライメント装置の全体構成を説明する機能ブロック図である。単語アライメント100は、例文とその訳文の対訳例文対を入力する入力部102、アライメントの結果(つまり,学習装置の結果として例文ベース機械翻訳用の例文パターン対訳辞書に格納される)を出力する出力部104、例文及び訳文を形態素解析し、それらに含まれる単語と品詞をそれぞれ抽出し番号を付与する前処理部106、例文とその訳文の対を格納する例文対訳辞書108、例文対訳辞書108から入力された例文及び訳文対に対してそれぞれ例文と訳文の単語と品詞を抽出し、高速に検索できるコーパスインデックスを構築するコーパス前処理部110、単語とその対訳を格納する単語対訳辞書112、単語対訳辞書を用いて単語アライメントを行う類似度計算部114、コーパス前処理部110で構築された単語のインデックス表を格納する単語インデックス表116、単語インデックス表のコーパス統計情報を用いて、単語と訳語間の相関度を求める相関度計算部118、2部グラフマッチング方法により確認度の低いアライメント候補や多対応のアライメント問題を解消し単語間のアライメントの最適化を図る2部グラフベースアライメント部120を有している。
図2は、単語アライメント装置の構成を示す図である。単語アライメント装置100は、好ましくは、入力装置130、表示装置132、主記憶装置134、記憶装置136、中央処理装置(CPU)138、これらを接続するバス140を含んで構成される。
入力装置130は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置132は、単語アライメントされた結果や例文訳文対等を表示するディスプレイ等を含む。主記憶装置134は、ROMまたはRAMを含み、図1に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置136は、例えばハードディスク等の大容量記憶装置を含み、単語対訳辞書や例文対訳辞書等のデータを格納する。CPU(Central Processing Unit)138は、主記憶装置134に記憶されたプログラムに従い各部を制御する。
例文対訳辞書108は、第1言語の文とその文の第2言語の訳文からなる例文対の集合である。例えば、日本語と中国語の対訳例文辞書であれば、図3(a)に示すように、日本語「私は呉宏林です。」に対する中国語の訳文「我是呉宏林」が格納され、図3(b)に示すように、日本語「この川は黄河です。」の中国語の訳文が格納されている。
図4は、前処理部の動作を説明するフローである。前処理部106は、入力部から入力された対訳例文対を例文と訳文に分離する(ステップS101)。対訳例文対は、例えば例文対訳辞書に格納されたものを用いる。分離された例文と訳文は、それぞれ形態素解析され、例文と訳文の単語にそれぞれ切り分けられ(ステップS102)、それぞれの各単語に品詞が付与される(ステップS103)。次に、単語順位番号が付与される(ステップS104)。単語順位番号の付与は、例文または訳文の左から右へ単語が出現する順序で番号を1から大きくなるように付与する。最後に、前処理結果は記憶装置に格納される(ステップS105)。前処理結果は、それぞれ例文の単語情報配列と訳文の単語情報配列を含んでいる。
図5は、コーパス前処理部110の動作を説明するフローである。コーパス前処理部110は、例文対訳辞書108から入力された例文対を例文と訳文に分離する(ステップS201)。分離された例文と訳文は、それぞれ形態素解析され、単語に切り分けられ(ステップS202)、それぞれの各単語に品詞が付与される(ステップS203)。次に、形態素解析された例文と訳文を収集し(ステップS204)、インデックス表を構築し(ステップS205)、インデックス表としてメモリに格納する(ステップS206)。
形態素解析は、自然言語文を構成する単語、品詞情報を抽出する。形態素解析は、公開されている任意の形態素解析ツールを使用することができる。例えば、日本語について、形態素解析ツールChaSenを使用することができる。中国語について、清華大学、或いは東北大学が開発した中国語形態素解析ツールを使用することができる。例えば図6(a)に示すように、中国語と日本語の対訳例文対が入力された場合、図6(b)に示すような形態素解析結果が得られる。なお、前処理部106においても同様の形態素解析が実施される。
単語インデックス表は、単語と単語のインデックス情報からなる。単語インデックス情報は、単語を含む例文、或いは訳文の番号リストである。例えば、「中国」という単語が、1949番目、10番目、1番目の訳文に出現しているとき、「中国語」のインデックスは、1949,10,1となる。「カード」という単語が、1234番目、567番目、89番目の例文に出現しているとき、「カード」のインデックスは、1234,567,89となる。
図7は、インデックス表の一例を示す図である。コーパス前処理部は、ハッシュ(Hash)関数計算部150と、例文コーパスインデックス表160および訳文コーパスインデックス表170を含み、それぞれのコーパスインデックス表160、170は、単語リスト表(単語1、2、・・・)と文番号表(例文番号または訳文番号)から構成されている。例文コーパスインデックス表の単語リスト表は、コーパスにあるすべての例文に出現した単語を含み、訳文コーパスインデックス表の単語リスト表は、コーパスにあるすべての訳文に出現した単語を含む。例文コーパスインデックス表の文番号表には、対応している単語を含むコーパスにあるすべての例文番号はリスト表形式で記録される。例えば、上記した「カード」であれば、その出現した例文の番号が記録される。同様に、訳文コーパスインデックス表の文番号表には、該単語を含むコーパスにあるすべての訳文番号がリスト表形式で記録される。例えば、上記した「中国」の出現した訳文の番号が記録される。ハッシュ関数係数部150は、単語がどこに出現するかを計算するものであり、公知のハッシュ関数を利用することができる。
次に、類似度計算部の詳細について説明する。類似度計算部114は、上記したように、入力された例文対訳対に対して形態素解析により抽出された例文および訳文に含まれる単語間の類似度を算出し、例文と訳文の単語間のアライメント(対応関係)を求める。
図8は、単語対訳辞書112に格納された辞書レコード構造を示す図である。同図に示すように、辞書レコード構造は、単語、単語情報、訳語、および訳語情報を含んでいる。単語情報は、その単語の品詞等の属性を表す情報であり、訳語情報は、その訳語の品詞等の属性を表す情報である。
類似度計算部114は、例文と訳文の単語間において複数の類似度、つまり辞書類似度、形状類似度、意味類似度、品詞類似度を計算により求める。
(a)辞書類似度SimD:例文CSの任意の単語c、単語対訳辞書の中にcの訳語の集合をDTcとする。訳文JSの任意の単語jに対して、もし、j∈DTc、ならばSimD(c,j)=1とする。言い換えれば、例文の単語cの訳語が単語対訳辞書にあれば、SimDは「1」であり、存在しなければSimDは「0」である。
(b)形状類似度SimM:例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語に対して、次の数式(1)で信用度を計算する。ここで、例文は中国語、訳文は日本語の場合(或いは、例文は日本語、訳文は中国語の場合)、訳文JSに日本語の漢字を含み、かつ対応している中国語の簡体字があれば、その漢字を中国語の簡体字に変換してから、SimM(c,j)を計算する。勿論、中国語の漢字を日本語の漢字に変換してから、SimM(c,j)を計算してもよい。また,繁体字の中国語に対しても同じ方法で処理する。
Figure 0004961755
(c)意味類似度SimS:例文CSのSim(c,j)≠1の各単語cについて、単語対訳辞書の中のcの訳語の集合をDTcとする。訳文JSのSim(w,j)≠1の任意の単語に対して次の数式(2)で信用度を計算する。Distance(c,j)、或いはSimilarity(c,j)の計算方法は、例えば数式(3)に示すように、公開された単語間の距離、或いは類似度を求める任意の方法を使用することができる。例えば、シソーラスを用いた方法、統計技術を用いた方法である。
Figure 0004961755
Figure 0004961755
(d)品詞類似度SimP:品詞間の類似度SimP(c,j)を計算する。品詞集合を言語知識によって幾つかのグルーブに分類する。cの品詞が属している品詞類とjの品詞が属している品詞類が同じであれば、POS(c,j)=1,それ以外であれば、POS(c,j)=0である。勿論、公開された任意の方法でPOS(c,j)を求めることができる。
なお、上記以外の公開された任意のSimMとSimSの算出方法を用いても良い。SimMは、例えば数式(4)により求めることができる。ここで、MaxC(c,j)は、文字列CとJの最長共通部分列である。例えば、cがxyabcef、jが efkeabcfであれば、MaxC(c,j)はabcである。あるいは、数式(5)により文字列間の重み付き編集距離を用いて求めることもできる。ここで、qは挿入1文字の重み、rは削除1文字の重み、Pは1文字間の置換の重みであり、P←q+rである。なお、編集距離の参考文献として、V.I. Levenshtein, "Binary codes capable of correcting deletions, insertions, and reversals,"Cybernetics and Control Theory,vol.10,pp.707-710,1966、などがある。
Figure 0004961755
Figure 0004961755
SimSの他の求める方法の例は、以下の通りである。
相澤彰子、影浦峡、“著者キーワード中での共起に基づく専門用語間の関連度計算法”,信学論(D-I), Vol.J83-D-I, No.11, pp.1154-1162, 2000.
H. Schütze, “Ambiguity Resolution in Language Learning: Computational and Cognitive Models . California “, PhD thesis, Stanford University, Department of Linguistics, 1995.
小嶋秀樹・古郡廷治 : 単語の意味的な類似度の計算, 電子情報通信学会 技術研究報告, AI92-100, pp.81-88, 1993.
小嶋秀樹・伊藤昭 : 文脈依存的に単語間の意味距離を計算する一手法, 情報処理学会論文誌,Vol.38,No.3,pp.481-489, 1997.
次に、相関度計算部118の詳細について説明する。
例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語jに対して、単語と訳語間の相関度Assを計算する。相関度Assは、例えば、X2相関度(ガオの2乗方法)、Dice(ダイス)係数相関度、相互情報量、T-scoreなどを使用することができる。勿論、他の公開された任意の相関度を使用してもよい。
本実施例では、相関度を求める場合に、図9に示すようにパラメーターa,b,c,dを定義する。すべでの単語と訳語間のパラメーターa,b,c,dを例文対訳辞書から求めることが可能である。始めに、すべての例文にある単語とすべての訳文にある訳語の出現頻度freq(c)、freq(j)を求める。続いて、各例文にある単語cと各訳文にある訳語j間の共起出現頻度freq(c,j)を求める。最後に、パラメーターa,b,c,dを求める。なお、Nは、コーパスのすべての例文と訳文の対の数であり、dは、Nからパラメーターa,b,cを引いた値である。
次に、得られたパラメーターを用いて、数式(6)により相関度Ass(c,j)を求める。
Figure 0004961755
上記相関度の算出方法のほか、図10に示す方法により相関度を算出するようにしてもよい。同図の上から順に、ガオの2乗方法、DICE係数法、相互情報量法、T−scoreの数式を示している。なお、X2相関度と相互情報量相関度に関する論文として、William A. Gale, Kenneth W. Church.1991. Identifying Word Correspondances in Parallel Texts, in proceedings of DARPA Workshop on Speech and Natural Language, pages 152-157. Pacific Grove, CA.などが知られている。
類似度計算部114および相関度計算部118は、算出した類似度および相関度に基づき例文と訳文の単語間の類似度/相関度リストを作成し、記憶する。類似度/相関度リストは、好ましくは、定数長の配列から構成され、ここでは定数長を10としている。図6(a)に示す例文対訳対を例に用いた場合、図11(a)に示すように、例文の中国語は6つの単語に分けられ、訳文の日本語は4つの単語に分けられる。図11(b)に示すように、リストの先頭から順番に例文と訳文の単語の類似度/相関度の「0」または「1」の2値データが記録される。例文の単語において「1」が記録されている単語は、訳語の単語との対応が存在し、「1」がなければ対応が存在しない。図11(c)は、例文と訳語の単語間のアライメント(対応関係)を示している。
図12は、アライメント結果と例文および訳文の単語情報を保存するためのデータ構造である。データ構造は、単語情報、品詞情報、単語順位番号、インデックス表指針、アライメント表、および次のインデックス表指針とを含んで構成される。アライメント表は、図11に示した相関度/類似度リストから抽出されたものである。これらのデータ構造は、類似度計算部および相関度計算部において生成され、記憶装置に格納される。図13は、図6(a)の例文対訳対についてのデータ構造の生成例である。
次に、2部グラフベースアライメント部120の詳細について説明する。上記して算出された類似度および相関度に基づき、図14(a)に示すような例文の単語と訳文の単語間の2部グラフを得ることができる。同図において、a1、a2、・・・は、例えば、例文の中国語の単語cを表しており、b1、b2、・・・は、訳文の日本語の単語jを表している。これらの対応関係は、アライメント表、すなわち類似度/相関度リストから得られた結果である。
本発明では、さらに2部グラフマッチングによりアライメントの最適化を図る。初めに、2部ベースアライメント部120は、e(a,b)<ρを満たすとき、該当する対応関係を取り除く。eは、2部グラフのノード間の対応関係を示す枝の重みであり、ρは、非負の実数である。これにより、該当する単語cと訳語jが取り除かれる。
取り除いた後、残りの例文の単語と訳文の単語を用いて,2部グラフを構築する.例文に残った単語集合をCSとし、訳文に残った訳語の集合をJSとする。構築方法として、2部グラフをG=(A,B,,e(a,b) )とする。ここで、AとBは、Gのノードの集合、e(a,b)は、AのノードaとBのノードbの間のリンク上の重みを表す。A=CS,CSの各単語をAの各ノードに対応させる。B=JS,JSの各訳語をBの各ノードに対応させる。
e(a,b)を次の計算数式(7)を用いて計算する。ノードaが単語cに、ノードbが訳語jに対応しているとし、α、β、χ、δは非負の実数、SimDは辞書類似度である。
Figure 0004961755
次に、2部グラフG=(A,B,,e(a,b))の最大最小重みマッチングを求める。2部グラフG=(A,B,,e(a,b))の最大最小重みマッチングとは、2部グラフGの枝を選び、選び方として、各ノードに結ぶ枝から選られた枝の数が<=1、選んだ枝の数が最大、かつ、選んだ枝の重みの和が最小である。求められたマッチングの結果M={(a1,b1),(a2,b2),…}によって、単語アライメントを求める{(c1,js),(c2,jt,…)}。ここで、c1はa1、c2はa2、・・・に対応し、jsはbs、jtはbt、・・・に対応する。図14(b)は、2部グラフ最大最小重みマッチングにより1対1に最適化されたアライメントを示している。なお、最大最小重みマッチング法は、例えば、E.L. Lawler, Combinatorial Optimization : Networks and Matroids, Holt Rinehalt and Winston, New York, NY, 1976等の文献に開示されている。
このように本実施例では、辞書類似度、単語間の意味上の類似度、単語間の形状類似度、品詞類似度、単語と訳語間の相関度を2部グラフのリンクの重みとし、2部グラフ最適マッチング法を用いることで、高いリコール(Recall)率と高精度な単語アライメントを可能にし、これにより単語アライメント例文対訳辞書学習装置および訳語抽出装置を構築することが可能になる。また、2部グラフ最適マッチング法を用いて、最適な単語と訳語間の照合を実現することが可能になる。さらに、複数の類似度により単語の多義性問題によるアライメント精度の低下の問題および単語の辞書への未登録の問題を改善することが可能となる。
次に、本発明の第2の実施例について説明する。第2の実施例では、2部グラフベースアライメント部の動作を変更するものであり、その他の構成は第1の実施例と同様である。
先ず、入力された例文と訳文の対に対して、SimD(c,j)=1の単語cは、訳語jと対応付け(アライメント)する。すなわち、アライメントを固定し、2部グラフアライメント処理の対象から除外する。
もし,SimM(c,j)が閾値θより大きい場合は、単語cは、訳語jと対応付け(アライメント)する。ここで、θは非負の実数である。
もし,SimS(c,j)が閾値ξより大きい場合は、単語cは、訳語jと対応付け(アライメント)する。ここで、ξは非負の実数である。
入力された例文と訳文の対に対して、上記3つのステップで対応付けされた単語cと訳語jを取り除く。もし、e(a,b)<ρであれば、対応している単語cと訳語jを取り除く。ここで、ρは非負の実数である。
上記対応を取り除いた後、残りの例文の単語と訳文の単語を用いて、2部グラフを構築する。例文に残った単語集合をCSとし、訳文に残った訳語の集合をJSとする。構築方法として、2部グラフをG=(A,B,,e(c,j) )とする。ここで、AとBはノードの集合、e(a,b)はAのノードaとBのノードbの間のリンク上の重みを表す。A=CS,CSにある各単語cをAのノードaに対応させる。B=JS,JSにある各訳語jをBのノードbに対応させる。e(a,b)=e(c,j)=α*Ass(c,j)+β*SimP(c,j)+γ:SimS(c,j) + δ*SimM(c,j)。ここで、α、β、γとδは非負の実数である。
2部グラフG=(A,B,,e(a,b))の最大最小重みマッチングを求める。求められたマッチングの結果M={(a1,b1),(a2,b2),…}によって、単語アライメントを求める{(c1,js),(c2,jt,…)}。ここで、c1はa1、c2はa2、・・・に対応し、jsはbs、jtはbt、・・・に対応する。
第2の実施例によれば、2部ベースアライメント部の処理を軽減することで、単語アライメント処理の高速化を図ることができる。
図16は、本発明の第2の実施例による入力例文対の単語アライメントの処理例を示す図である。SimDにおいて、「1」で示した単語の対応関係は、単語対訳辞書に存在するものであり、アライメントが固定される。3つの対応関係が「1」であり、これらが取り除かれる。
残りの単語の対応関係において、SimS,SimM,相関度が算出される。本例では、SimSの閾値ξ=0,999よりも大きい単語の対応関係、SimMの閾値θ=0.999よりも大きい単語の対応関係、相関度が0.999よりも単語の対応関係がさらに取り除かれ、結果として、3つの単語について2部グラフマッチングが行われている。最終的に、2部グラフマッチングを含む、例文の単語と訳文の単語間のアライメント結果が示されている。
図16は、第2の実施例による単語アライメントを行ったときの実験結果を示す表である。例文対訳辞書は、15,405例分対を含み、領域はスポーツ新聞記事、テスト集合(Open test)は、98例分対であり、領域はスポーツ新聞記事である。従来のBaseline1およびBaseline2と比較して、本実施例の2BGでは、リコール率および精度の改善が見られる。なお、2つの2BGのうち、Ass1は本実施例の相関度を用いたものであり、もう一方はガオの2乗方法を用いたものである。
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明に係る単語アライメント装置は、学習機能を備えた例文対訳辞書や訳語抽出装置等に利用される。
本発明の実施例に係る単語アライメント装置の機能ブロック図である。 単語アライメント装置の構成例を示す図である。 例文対訳辞書の内容を説明する図である。 前処理部の動作フローチャートである。 コーパス前処理の動作フローチャートである。 前処理部およびコーパス前処理部における形態素解析の例を説明する図である。 コーパスインデックス表の例を示す図である。 単語対訳辞書の格納される単語レコード構造を示す図である。 相関度のパラメーターを説明する図である。 他の相関度の算出例を示す図である。 類似度/相関度のリストを説明する図である。 類似度および相関度の計算結果を保存するデータ構造を説明する図である。 データ構造の例を示す図である。 2部グラフマッチングを説明する図である。 本発明の第2の実施例により入力例文対の単語アライメントを行った例を示す図である。 本発明の第2の実施例による単語アライメントと従来の単語アライメントとのリコール率および精度を比較結果を示す表である。 機械翻訳システムの概要を示すブロック図である。 単語アライメントの概要を説明する図である。 単語アライメントにおけるリコール率と精度を示す図である。
符号の説明
100:単語アライメント装置 102:入力部
104:出力部 106:前処理部
108:例文対訳辞書 110:コーパス前処理部
112:単語対訳辞書 114:類似度計算部
116:コーパスインデックス表 118:相関度計算部
120:2部グラフベースアライメント部
130:入力装置 132:表示装置
134:主記憶装置 136:記憶装置
138:CPU

Claims (23)

  1. 第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
    例文および訳文から少なくともそれぞれの単語を抽出する単語抽出手段と、
    第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出するアライメント算出手段と、
    2部グラフマッチングにより前記アライメントの最適化を図る最適化手段と、
    を有する単語アライメント装置。
  2. アライメント算出手段は、さらに、第1言語と第2言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項1に記載の単語アライメント装置。
  3. アライメント算出手段は、単語対訳辞書を参照して第1言語と第2言語の単語間の意味上の類似度を求める、請求項に記載の単語アライメント装置。
  4. アライメント算出手段は、さらに、コーパスの統計情報を参照して第1言語および第2言語の単語間の相関度を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項1から3のいずれか1項に記載の単語アライメント装置。
  5. 相関度Ass(c,j)は、次式により算出される、請求項4に記載の単語アライメント装置。
    Figure 0004961755
    ここで、cは第1言語の単語、jは第2言語の単語、aは、単語cと単語jの共起出現頻度、freq(c)は単語cの出現頻度、freq(j)は単語jの出現頻度である。
  6. 最適化手段は、アライメント算出手段により求められた類似度および相関度の少なくとも一方の値を重み付き2部グラフマッチングによりアライメントを最適化する、請求項4又は5に記載の単語アライメント装置。
  7. 最適化手段は、最大最小重みマッチングにより単語間のアライメントの最適化を図る、請求項6に記載の単語アライメント装置。
  8. 最適化手段は、単語間の類似度および/または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行う、請求項ないし7いずれか1つに記載の単語アライメント装置。
  9. 前記単語抽出手段は、例文および訳文を形態素解析し、例文および訳文から単語を抽出する、請求項1から8のいずれか1項に記載の単語アライメント装置。
  10. 例文とその対訳は例文対訳辞書に格納されている、請求項1から9のいずれか1項に記載の単語アライメント装置。
  11. 単語アライメント装置はさらに、最適化された単語間のアライメントを記憶する記憶手段を含む、請求項1から10のいずれか1項に記載の単語アライメント装置。
  12. 第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれの単語間のアライメントをCPUが行う単語アライメント方法であって、
    例文および訳文から少なくともそれぞれの単語をCPUが抽出する第1のステップと、
    第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントをCPUが算出する第2のステップと、
    2部グラフマッチングにより前記アライメントの最適化をCPUが図る第3のステップと、
    を有する単語アライメント方法。
  13. 第2のステップは、さらに、第1言語と第2言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項12に記載の単語アライメント方法。
  14. 第2のステップは、単語対訳辞書を参照して第1言語と第2言語の単語間の意味上の類似度を求める、請求項13に記載の単語アライメント方法。
  15. 第2のステップは、さらに、コーパスの統計情報を参照して第1言語および第2言語の単語間の相関度を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項12から14のいずれか1項に記載の単語アライメント方法。
  16. 相関度Ass(c,j)は、次式により算出される、請求項15に記載の単語アライメント方法。
    Figure 0004961755
    ここで、cは第1言語の単語、jは第2言語の単語、aは、単語cと単語jの共起出現頻度、freq(c)は単語cの出現頻度、freq(j)は単語jの出現頻度である。
  17. 第3のステップは、第2のステップにより求められた少なくとも類似度および相関度の一方の値を重み付き2部グラフマッチングによりアライメントを最適化する、請求項15又は16に記載の単語アライメント方法。
  18. 第3のステップは、最大最小重みマッチングにより単語間のアライメントを求める、請求項17に記載の単語アライメント方法。
  19. 第3のステップは、単語間の類似度および/または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行う、請求項15から18のいずれか1項に記載の単語アライメント方法。
  20. 第1のステップは、例文対訳辞書に格納された例文とその訳文を抽出する、請求項12から19のいずれか1項に記載の単語アライメント方法。
  21. 第1のステップは、例文および訳文を形態素解析し、単語を抽出する、請求項12から20のいずれか1項に記載の単語アライメント方法。
  22. 適化された単語間のアライメントを格納する第4のステップを含む、請求項12から21のいずれか1項に記載の単語アライメント方法。
  23. 第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれの単語間のアライメントをCPUに実行させるための単語アライメントプログラムであって、
    前記CPUに、
    例文および訳文から少なくともそれぞれの単語を抽出する第1のステップと、
    第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する第2のステップと、
    2部グラフマッチングにより前記アライメントの最適化を図る第3のステップと、
    実行させるための単語アライメントプログラム。
JP2006014468A 2006-01-23 2006-01-23 単語アライメント装置、単語アライメント方法、単語アライメントプログラム Expired - Fee Related JP4961755B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006014468A JP4961755B2 (ja) 2006-01-23 2006-01-23 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US11/492,951 US8069027B2 (en) 2006-01-23 2006-07-26 Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CNA2006101514671A CN101008943A (zh) 2006-01-23 2006-09-08 词语对齐设备、方法、程序产品和例句双语词典

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006014468A JP4961755B2 (ja) 2006-01-23 2006-01-23 単語アライメント装置、単語アライメント方法、単語アライメントプログラム

Publications (2)

Publication Number Publication Date
JP2007199793A JP2007199793A (ja) 2007-08-09
JP4961755B2 true JP4961755B2 (ja) 2012-06-27

Family

ID=38286590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006014468A Expired - Fee Related JP4961755B2 (ja) 2006-01-23 2006-01-23 単語アライメント装置、単語アライメント方法、単語アライメントプログラム

Country Status (3)

Country Link
US (1) US8069027B2 (ja)
JP (1) JP4961755B2 (ja)
CN (1) CN101008943A (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5280642B2 (ja) * 2007-04-23 2013-09-04 株式会社船井電機新応用技術研究所 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
JP2008305167A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
JP4939347B2 (ja) * 2007-09-05 2012-05-23 日本放送協会 対訳表現アラインメント装置およびそのプログラム
JP2009205357A (ja) * 2008-02-27 2009-09-10 Toshiba Corp 中国語の品詞を判定する装置、方法およびプログラム
JP5341375B2 (ja) * 2008-03-14 2013-11-13 日本放送協会 対訳表現処理装置およびプログラム
JP5386855B2 (ja) * 2008-05-30 2014-01-15 富士ゼロックス株式会社 翻訳メモリ翻訳装置および翻訳プログラム
CN101630313A (zh) * 2008-07-18 2010-01-20 富士施乐株式会社 单词对齐装置、例句对译词典及单词对齐方法
US8812304B2 (en) * 2008-08-12 2014-08-19 Abbyy Infopoisk Llc Method and system for downloading additional search results into electronic dictionaries
EP2377080A4 (en) * 2008-12-12 2014-01-08 Univ Columbia DEVICES, METHODS AND SYSTEMS FOR MACHINE OPTIMIZATION
JP5298833B2 (ja) * 2008-12-23 2013-09-25 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8463806B2 (en) 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
JP5257189B2 (ja) * 2009-03-25 2013-08-07 富士通株式会社 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法
JP5391867B2 (ja) * 2009-06-26 2014-01-15 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
TWI409646B (zh) * 2009-10-14 2013-09-21 Inst Information Industry 詞彙翻譯系統、詞彙翻譯方式以及電腦可讀寫儲存媒體
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP4318463A3 (en) 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
CN102193936B (zh) * 2010-03-09 2013-09-18 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
JP5555542B2 (ja) * 2010-05-20 2014-07-23 日本電信電話株式会社 自動単語対応付け装置とその方法とプログラム
CN102375839A (zh) * 2010-08-17 2012-03-14 富士通株式会社 从候选数据集获取目标数据集的方法和装置以及翻译机器
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム
CN102193915B (zh) * 2011-06-03 2012-11-28 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
US8719003B1 (en) * 2011-06-24 2014-05-06 Google Inc. Translation access
JP2013073282A (ja) * 2011-09-26 2013-04-22 Fuji Xerox Co Ltd 情報処理装置およびプログラム
KR101449551B1 (ko) * 2011-10-19 2014-10-14 한국전자통신연구원 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
US8909516B2 (en) * 2011-10-27 2014-12-09 Microsoft Corporation Functionality for normalizing linguistic items
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
CN104699778B (zh) * 2015-03-10 2017-09-01 东南大学 一种基于机器学习的跨语言分类结构匹配方法
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9990361B2 (en) * 2015-10-08 2018-06-05 Facebook, Inc. Language independent representations
US10586168B2 (en) 2015-10-08 2020-03-10 Facebook, Inc. Deep translations
CN105677621B (zh) * 2015-12-30 2018-08-17 语联网(武汉)信息技术有限公司 翻译错误的定位方法和装置
CN105786803B (zh) * 2016-02-22 2018-12-18 广东小天才科技有限公司 翻译方法及翻译装置
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN108345590B (zh) * 2017-12-28 2022-05-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
US11144735B2 (en) * 2019-04-09 2021-10-12 International Business Machines Corporation Semantic concept scorer based on an ensemble of language translation models for question answer system
JP7332486B2 (ja) * 2020-01-08 2023-08-23 株式会社東芝 記号列変換装置および記号列変換方法
CN117131241A (zh) * 2023-02-09 2023-11-28 荣耀终端有限公司 搜索对象推荐方法、电子设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3282789B2 (ja) 1996-11-08 2002-05-20 日本電信電話株式会社 訳語対抽出装置
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP4035111B2 (ja) 2004-03-10 2008-01-16 日本放送協会 対訳語抽出装置、及び対訳語抽出プログラム
US7698124B2 (en) * 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework

Also Published As

Publication number Publication date
CN101008943A (zh) 2007-08-01
JP2007199793A (ja) 2007-08-09
US8069027B2 (en) 2011-11-29
US20070174040A1 (en) 2007-07-26

Similar Documents

Publication Publication Date Title
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US8239188B2 (en) Example based translation apparatus, translation method, and translation program
Jiang et al. Natural language processing and its applications in machine translation: A diachronic review
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
Woodsend et al. Text rewriting improves semantic role labeling
KR100918338B1 (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
Lefever et al. Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings
JP5973986B2 (ja) 翻訳システム、方法、及びプログラム
Lyons A review of Thai–English machine translation
Elsherif et al. Perspectives of Arabic machine translation
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
Saloot et al. Toward tweets normalization using maximum entropy
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
JP5439776B2 (ja) 単語アライメント装置及び単語アライメントプログラム
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Rauf et al. Automated grammatical error correction: A comprehensive review
Ovi et al. BaNeP: An End-to-End Neural Network Based Model for Bangla Parts-of-Speech Tagging
Malik et al. Qualitative Analysis of Contemporary Urdu Machine Translation Systems.
Joshi et al. Empirical Analysis of Sentence Embedding Techniques for Answer Retrieval in Marathi Question Answering
Khem et al. An Overview of Text Translation and Text Simplification Tasks
Chen Automatic chinese proofreading based on deep learning
JP3820452B2 (ja) 対応付け装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees