JP5700833B2 - 並替モデル生成装置、語順並替装置、方法及びプログラム - Google Patents

並替モデル生成装置、語順並替装置、方法及びプログラム Download PDF

Info

Publication number
JP5700833B2
JP5700833B2 JP2011265390A JP2011265390A JP5700833B2 JP 5700833 B2 JP5700833 B2 JP 5700833B2 JP 2011265390 A JP2011265390 A JP 2011265390A JP 2011265390 A JP2011265390 A JP 2011265390A JP 5700833 B2 JP5700833 B2 JP 5700833B2
Authority
JP
Japan
Prior art keywords
language
sentence
language sentence
rearrangement
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011265390A
Other languages
English (en)
Other versions
JP2013117888A (ja
Inventor
塚田 元
元 塚田
克仁 須藤
克仁 須藤
ドゥ ケヴィン
ドゥ ケヴィン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011265390A priority Critical patent/JP5700833B2/ja
Publication of JP2013117888A publication Critical patent/JP2013117888A/ja
Application granted granted Critical
Publication of JP5700833B2 publication Critical patent/JP5700833B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、ある言語の語順を他の言語の語順に並び替える技術に関する。
以下の並替モデル生成装置及び語順並替装置が、非特許文献1に記載されている(例えば、非特許文献1参照。)。
説明を簡単にするために、日本語文を英語の語順に並び替える例を挙げて説明する。
まず、並替モデル生成装置について説明する。図9に例示するように、並替モデル生成装置は、対訳データ記憶部91、対応付部92、対応並替部93、モデル生成部94及び並替モデル記憶部95を備えている。並替モデル生成装置は、それぞれ単語に分割されている英語文とその英語文と同じ意味を持つ日本語文とのペアの複数に基づいて、英語の語順に変換された日本語文としての尤もらしさを評価するための並替モデルを生成する。
対訳データ記憶部91には、英語文とその英語文と同じ意味を持つ日本語文とのペアが複数記憶されている。各英語文及び各日本語文は、単語に分割されて対訳データ記憶部91に記憶されている。
英語文とその英語文と同じ意味を持つ日本語文とのペアを、図11に例示する。この図11のペアの例では、英語文は「Language | is | a | means | of | communication」であり、日本語文は「言語|は|コミュニケーション|の|道具|である」である。なお、分割された隣接する単語との境界を「|」の記号で示している。
対応付部92は、対訳データ記憶部91から読み込んだ英語文とその英語文と同じ意味を持つ日本語文とのペアのそれぞれにおいて、英語文を構成する各単語と、その各単語と同じ意味を持つ日本語文を構成する単語とを対応付ける。対応付けに関する情報は、対応並替部93に送信される。
図11の日本語文と英語文とのペアにおいては、例えば図12に例示するように単語の対応付けが行われる。すなわち、「Language」と「言語」とが対応付けられ、「is」と「である」とが対応付けられ、「means」と「道具」とが対応付けられ、「of」と「の」とが対応付けられ、「communication」と「コミュニケーション」とが対応付けられる。
対応並替部93は、英語文とその英語文と同じ意味を持つ日本語文とのペアのそれぞれについて、日本語文を構成する各単語を、その各単語に対応する英語文を構成する単語の英語文における順序に基づいて並び替えることにより、日本語文を英語の語順に変換する。
その際、対応する英語文の単語が存在しない日本語文の単語は、文頭に持ってゆく。また、同一の英語文の単語に複数の日本語文の単語が対応付けされている場合には、これらの複数の日本語文の単語の語順は、元の日本語文における語順を維持するものとする。英語の語順に変換された日本語文に関する情報は、モデル生成部94に送信される。
図13に例示するように、図11の日本語文と英語文とのペアについての、英語の語順に変換された日本語文は、「は|言語|である|道具|の|コミュニケーション」となる。
モデル生成部94は、英語の語順に変換された日本語文の複数に基づいて、英語の語順に変換された日本語文としての尤もらしさを評価するための並替モデルを生成する。生成された並替モデルは、並替モデル記憶部95に記憶される。
次に、語順並替装置について説明する。語順並替装置は、並替モデル記憶部95、並替対象言語文記憶部96及び並替部97を備えている。
並替モデル記憶部95には、モデル生成部94により生成された並替モデルが記憶されている。並替対象言語文記憶部96には、日本語文が記憶されている。並替対象言語文記憶部96に記憶された日本語文は、単語に分割されているものとする。
並替部97には、並替対象言語文記憶部96から読み込まれた日本語文が入力される。まず、並替部97は、入力された日本語文の単語を互いに異なる複数の順序で並び替えて複数の並替候補日本語文を生成する。並替部97は、並替モデル記憶部95から読み込んだ並替モデルを用いて、複数の並替候補日本語文のそれぞれについて英語の語順に変換された日本語文としての尤もらしさを計算し、尤もらしさが最も大きい並替候補日本語文を、英語の語順に変換された日本語文として出力する。
例えば、図14に示す「ジョン|は|昨夜|美しい|少女|を|見た」という日本語文が並替部97に入力されたとする。この場合、並替部97は、例えば図15に示す「ジョン|は|見た|美しい|少女|を|昨日」という並替候補日本語文を、英語の語順に変換された日本語文として出力する。「ジョン|は|見た|美しい|少女|を|昨日」という英語の語順に変換された日本語文は、「John | saw | a | beautiful | girl | yesterday」というこの日本語文と同じ意味の英語文と「a」という単語を除いて同じ語順となる。
Roy Tromble, Jason Eisner, "Learning Linear Ordering Problems for Better Translation", Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp.1007-1016, Singapore, 6-7 August 2009
しかしながら、非特許文献1の技術では、主格や目的格を表す「は」「を」等の機能語が、もう一方の言語に対応する単語が無いために、主語や目的語等の自立語とは独立して文頭に配置される傾向がある。このように、機能語が自立語とは独立に並び替えられることにより、適切な並替モデルが生成されない可能性がある。なぜなら、機能語を考慮せずに自立語の並び替えを行おうとしても、語順に関する情報は機能語が保持しているために自立語の語順を適切に決められないからである。
この発明の一態様による並替モデル生成装置、方法及びプログラムは、従来よりも適切な並替モデルを生成することを目的とする。また、この発明の一態様による語順並替装置は、従来よりも適切に語順の並び替えを行うことを目的とする。
この発明の一態様による並替モデル生成装置は、第一言語で記載された文を第一言語文とし、その第一言語文と同じ意味を持つ、第二言語で記載された文を第二言語文とし、上記第二言語文を構成する各文節の少なくとも1つは、1つ以上の自立語と1つ以上の機能語から構成されるとして、第二言語文を構成する各文節を、第一言語文を構成する単語の1つに対応付ける対応付部と、第二言語文を構成する各文節を、その各文節に対応する第一言語文を構成する単語の第一言語文における順序に基づいて並び替えることにより、第二言語文を第一言語の語順に変換する対応並替部と、第一言語の語順に変換された第二言語文の複数に基づいて、第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを生成するモデル生成部と、を備える。
この発明の一態様による語順並替装置は、並替モデル生成装置と、第二言語文を文節に分割する文節分割部と、並替モデル生成装置で生成された第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを用いて、互いに異なる順序で文節が並び替えられた複数の第二言語文のそれぞれについて第一言語の語順に変換された第二言語文としての尤もらしさを計算し、尤もらしさが最も大きい順序で文節が並び替えられた第二言語文を出力する並替部と、を備える。
自立語と機能語とを合わせた文節単位で並び替えを行うことにより、並替モデル生成装置、方法及びプログラムにおいては、従来よりも適切な並替モデルを生成することができる。また、語順並替装置においては、従来よりも適切に語順の並び替えを行うことができる。
並替モデル生成装置を説明するためのブロック図。 語順並替装置を説明するためのブロック図。 第一言語文を英語とし第二言語文を日本語とした場合の第一言語文と第二言語文とのペアの例を表す図。 単語の対応付けを説明するための図。 単語と文節との対応付けを説明するための図。 単語と文節との対応付けに基づく、第二言語文の並び替えを説明するための図。 並替モデル生成装置を説明するための流れ図。 語順並替装置を説明するための流れ図。 背景技術の並替モデル生成装置を説明するためのブロック図。 背景技術の語順並替装置を説明するためのブロック図。 英語文と日本語文とのペアの例を表す図。 単語の対応付けを説明するための図。 単語の対応付けに基づく、日本語文の並び替えを説明するための図。単語と文節との対応付けを説明するための図。 並替部97の処理の例を説明するための図。 並替部97の処理の例を説明するための図。
以下、図面を参照して、この発明の実施形態を説明する。
まず、図1を参照して並替モデル生成装置の実施形態について説明する。
並替モデル生成装置は、図1に例示するように、対訳データ記憶部1、対応付部2、対応並替部3、モデル生成部4及び並替モデル記憶部5を備えている。並替モデル生成装置は、それぞれ単語に分割されている第一言語文とその第一言語文と同じ意味を持つ第二言語文とのペアの複数に基づいて、第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを生成する。
第一言語文とは第一言語で記載された文のことであり、第二言語文とは第二言語で記載された文のことである。第一言語は、単語という概念を観念することができ、単語に分割することができればどのような言語であってもよい。第二言語は、単語という概念を観念することができ、単語に分割することができ、第二言語の単語には自立語と機能語の区別があり、文節という概念を観念することができ、文節に分割することができればどのような言語であってもよい。ここで文節とは、自立語と機能語の列であり、曖昧性がほとんどなく、一意に文を分割できる単位である。ここでの文節は、base phrase等の概念を含むものとする。例えば日本語の場合、自立語は名詞、連体詞、副詞、接続詞、感動詞、動詞、形容詞、形容動詞からなり、機能語は助動詞、助詞からなると定義することができる。さらに日本語の文節は、例えば1つ以上の自立語に0個以上の付属語が連なった単語列として定義できる。以上は、自立語、機能語、文節の定義の一例であり、他の定義もありうる。また、ここでいう文節は、どの言語を第二言語にするかに応じて適宜変化し得る。以下、必要に応じて第一言語を英語とし、第二言語を日本語とした場合を例に挙げて説明する。
対訳データ記憶部1には、第一言語文とその第一言語文と同じ意味を持つ第二言語文とのペアが複数記憶されている。各第一言語文及び各第二言語文は、単語に分割されて対訳データ記憶部1に記憶されている。また、各言語の各単語には品詞などの属性情報が付与されていてもよい。第二言語文の各単語には、自立語か機能語かを区別する属性が付与されているものとする。
第一言語文を英語とし第二言語文を日本語とした場合の、第一言語文とその第一言語文と同じ意味を持つ第二言語文とのペアを、図3に例示する。この図3のペアの例では、第一言語文は「Taro | saw | Hanako」であり、第二言語文は「太郎|は|花子|を|見た」である。なお、分割された隣接する単語との境界を「|」の記号で示している。
対応付部2は、対訳データ記憶部1から読み込んだ第一言語文とその第一言語文と同じ意味を持つ第二言語文とのペアのそれぞれにおいて、第二言語文を構成する各文節を、第一言語文を構成する単語の1つに対応付ける(ステップA1)。対応付けに関する情報は、対応並替部3に送信される。対応付部2の処理の詳細を、以下に説明する。
まず、対応付部2は、第一言語文を構成する各単語について、その各単語と同じ意味を持つ、第二言語文を構成する単語の多対多対応を求める。ここで「同じ意味」という表現は、お互いが翻訳となっている関係を表すものとする。同じ意味を持つ単語の対応づけにはいくつかの方法が考えられる。例えば、同じ意味を持つ単語の対を予め対訳辞書という形で定義しておき、それを各言語の文を構成する単語の対応付けに用いる方法がある。他にも、第一言語単語eと第二言語単語jの共起に関する統計量P(e|j)やP(j|e)に基づき、例えば参考文献1に記載された方法で各言語の単語を対応づけることができる。
〔参考文献1〕Philipp Koehn, “Statistical Machine Translation”, Cambridge University Press, ISBN-10:0521874157, ISBN-13:978-0521874151
図3のペアの例では、例えば図4に例示するように単語の対応付けが行われる。すなわち、「Taro」と「太郎」とが対応付けられ、「saw」と「見た」とが対応付けられ、「Hanako」と「花子」とが対応付けられる。
つぎに、対応付部2は、第二言語文を文節に分割する。文節への分割は、既存の言語解析技術を利用すればよい。
最後に、対応付部2は、第二言語文を構成する各文節について、第一言語のただ1つの単語を対応付けるようにするために、以下の処理を行う。対応付部2は、第二言語文を構成する各文節が、第一言語文の単語に対応付けされた機能語を含む場合には、その第一言語文の単語とその機能語との対応付けを消す。また、第二言語文を構成する各文節に含まれる自立語が、第一言語文の複数の単語に対応付けされている場合には、一番確からしい対応付けを残し、他の対応付けを消す。さらに、第二言語文を構成する各文節が2以上の自立語を含み、これらの2以上の自立語が第一言語文の異なる複数の単語に対応付けされている場合には、一番確からしい対応付けを残し、他の対応付けを消す。このようにして、対応付部2は、第二言語文を構成する各文節を、第一言語の高々1つの単語と対応付ける。
図3のペアの例では、例えば図5に示すように第一言語文の単語と第二言語文の文節との対応付けが行われる。すなわち、「Taro」と「太郎|は」とが対応付けられ、「saw」と「見た」とが対応付けられ、「Hanako」と「花子|を」とが対応付けられる。図5では、文節を[・]で表している。
対応並替部3は、第一言語文とその第一言語文と同じ意味を持つ第二言語文とのペアのそれぞれについて、第二言語文を構成する各文節を、その各文節に対応する第一言語文を構成する単語の第一言語文における順序に基づいて並び替えることにより、第二言語文を第一言語の語順に変換する(ステップA2)。第一言語文の単語に対応づかない第二言語の文節は、文頭に配置する。そのような文節が複数ある場合は、元の順序を保存するものとする。また、第一言語文の複数の文節が同一の第一言語の単語に対応する場合は、それら文節の順序は元の順序を保持するものとする。第一言語の語順に変換された第二言語文に関する情報は、モデル生成部4に送信される。ここで第二言語文に関する情報とは、第二言語文を構成する各単語およびその語順を含むものとする。またこの情報には、各単語の表層(表記)とその属性の組を含んでもよい。
図3のペアの例では、第一言語の語順に変換された第二言語文は、図6に示すように「[太郎|は][見た][花子|を]」となる。
モデル生成部4は、第一言語の語順に変換された第二言語文に関する情報に基づき、第二言語の単語列に対し、第一言語の語順としての尤もらしさを評価する並替モデルを生成する(ステップA3)。生成された並替モデルは、並替モデル記憶部5に記憶される。
並替モデルは、例えば以下の関数で表される。もちろん、並替モデルとしてn-gramなど他の既存のモデルを用いてもよい。
Bw[L,R]=θ・φ(w,L,R)
ここで、θは重みベクトル、φは素性ベクトル(特徴ベクトル)、wは第二言語文の単語列、LとRはwのインデックスであり、「0≦L,R≦wの長さ-1」である。このモデルでは、Bw[L,R]>Bw[R,L]のとき、インデックスLの単語w_Lが、インデックスRの単語w_Rよりも左側に来ることが適切であることを表す。モデルBwに基づく単語列w_0,w_1,…,w_(n-1)のスコアscore(w_0,w_1,…,w_(n-1))は、以下のように与えられる。
Figure 0005700833
このscore(w_0,w_1,…,w_(n-1))が大きいほど第一言語の語順に変換された第二言語文として尤もらしいことを意味する。
ここで用いる並替モデルの生成、すなわちθの値の学習には、例えば、非特許文献1にあるようにLog-oddsやパーセプトロン等の既存の学習法が利用できる。また、素性ベクトルについても、例えば非特許文献1で利用しているものが利用できる。
このように、自立語と機能語とを合わせた文節単位で並び替えを行うことにより、並替モデル生成装置においては、従来よりも適切な並替モデルを生成することができる。
次に、語順並替装置について説明する。語順並替装置は、図2に例示するように、並替モデル記憶部5、並替対象言語文記憶部6、文節分割部8及び並替部7を備えている。
並替モデル記憶部5には、モデル生成部4により生成された並替モデルが記憶されている。並替対象言語文記憶部6には、並び替えの対象となる第二言語文が記憶されている。並替対象言語文記憶部6に記憶された第二言語文は、単語に分割されているものとする。
文節分割部8は、並替対象言語文記憶部6から第二言語文を読み込み、その読み込んだ第二言語文を文節に分割する(ステップB1)。この例では、並替対象言語文記憶部6から読み込まれた第二言語文は単語に分割されているため、第二言語文を構成する単語の品詞を求めて自立語か機能語かを判定し、これらの単語を文節にまとめることにより、第二言語文を文節に分割する。文節への分割は、既存の言語解析技術を利用すればよい。文節に分割された第二言語文の情報は、並替部7に送信される。ここで、文節に分割された第二言語文の情報とは、第二言語文を構成する各単語とその語順、文節境界の情報を含むものとするが、並替部7で使用する並替モデルによっては、第二言語文を構成する各単語の表層とその属性の組を含んでもよい。
並替部7は、並替モデル記憶部5から読み込んだ並替モデルを用いて、互いに異なる順序で文節が並び替えられた複数の第二言語文のそれぞれについて第一言語の語順に変換された第二言語文としての尤もらしさを計算し、尤もらしさが最も大きい順序で文節が並び替えられた第二言語文を、第一言語の語順に変換された第二言語文として出力する(ステップB2)。以下、並替部7の処理の詳細について説明する。
まず、並替部7は、入力された第二言語文の文節を互いに異なる複数の順序で並び替えて複数の並替候補第二言語文を生成する。その後、並替部7は、並替モデル記憶部5から読み込んだ並替モデルを用いて、複数の並替候補第二言語文のそれぞれについて第一言語の語順に変換された第二言語文としての尤もらしさを計算し、尤もらしさが最も大きい並替候補第二言語文を、第一言語の語順に変換された第二言語文として出力する。
第二言語文の文節がn個ある場合には、n!個の並替候補第二言語文の全部に対して尤もらしさを計算してもよいし、尤もらしさが大きいと予想される一部の並替候補第二言語文に対してだけ尤もらしさを計算してもよい。例えば、非特許文献1に記載されたITGに基づく方法や、構文解析で求めた構文木のノード上の並替に限定する等の既存の方法に基づいて、尤もらしさが大きいと予想される並替候補第二言語文を絞ることができる。
このように、一部の並替候補第二言語文のみを尤もらしさを計算する対象とすることにより、計算量を削減することができる。
このように、自立語と機能語とを合わせた文節単位で並び替えを行うことにより、語順並替装置においては、従来よりも適切に語順の並び替えを行うことができる。
また、単語単位ではなく文節単位で並び替えを行うことにより、並び替えの単位が大きくなり並び替えの対象の数が少なくなるため、計算処理が少なくなる。
[変形例等]
語順並替装置は、並替モデル生成装置を含んでいてもよい。
並替モデル生成装置の各部間のデータの送受信は直接行われてもよいし、図示していない記憶部を介して行われてもよい。同様に、語順並替装置の各部間のデータの送受信は直接行われてもよいし、図示していない記憶部を介して行われてもよい。
その他、この発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各部がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
統計的機械翻訳(統計翻訳)は、同じ内容を表す二言語の文の対を大量に集めたデータ(対訳データ)から翻訳モデルなどの統計モデルを学習し、それを使って原言語(入力言語)を目的言語(出力言語)に翻訳する技術である。統計翻訳のバリエーションとして、事前並び換えに基づく手法がある。事前並び換えに基づく統計翻訳では、学習用の対訳データの原言語側を予め目的言語の語順に並び換えてから、統計モデルを学習する。原言語の文を翻訳する際は、同様の語順並び換え方法を用いて文の語順を並び換え、それから学習した統計モデルを用いて、目的言語の文を求める。このような事前並び換えに基づく統計翻訳は語順の大きく異なる言語間、たとえば英語―日本語間で特に有効であることが知られている。このように、本発明は、例えば、このように事前並び換えに基づく統計翻訳に用いることができる。
1 対訳データ記憶部
2 対応付部
3 対応並替部
4 モデル生成部
5 並替モデル記憶部
6 並替対象言語文記憶部
7 並替部
8 文節分割部

Claims (7)

  1. 第一言語で記載された文を第一言語文とし、その第一言語文と同じ意味を持つ、第二言語で記載された文を第二言語文とし、上記第二言語文を構成する各文節の少なくとも1つは、1つ以上の自立語と1つ以上の機能語から構成されるとして、
    上記第二言語文を構成する各文節を、上記第一言語文を構成する単語のひとつに対応づける対応付部と、
    上記第二言語文を構成する各文節を、その各文節に対応する上記第一言語文を構成する単語の上記第一言語文における順序に基づいて並び替えることにより、上記第二言語文を第一言語の語順に変換する対応並替部と、
    上記第一言語の語順に変換された上記第二言語文の複数に基づいて、上記第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを生成するモデル生成部と、
    を含む並替モデル生成装置。
  2. 請求項1に記載された並替モデル生成装置であって、
    上記対応付部は、上記第二言語文を構成する各文節が上記第一言語文を構成する単語に対応付けされた機能語を含む場合には、上記第一言語文の単語と上記機能語との対応付けを消し、また、上記第二言語文を構成する各文節に含まれる自立語が上記第一言語文の複数の単語に対応付けされている場合には、一番確からしい対応付けを残して他の対応付けを消し、また、上記第二言語文を構成する各文節が2以上の自立語を含み上記2以上の自立語が上記第一言語文の異なる複数の単語に対応付けされている場合には、一番確からしい対応付けを残して他の対応付けを消す、
    並替モデル生成装置。
  3. 請求項1又は2に記載された並替モデル生成装置と、
    第二言語文を文節に分割する文節分割部と、
    上記並替モデル生成装置で生成された第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを用いて、互いに異なる順序で文節が並び替えられた複数の第二言語文のそれぞれについて第一言語の語順に変換された第二言語文としての尤もらしさを計算し、尤もらしさが最も大きい順序で文節が並び替えられた第二言語文を出力する並替部と、
    を含む語順並替装置。
  4. 第一言語で記載された文を第一言語文とし、その第一言語文と同じ意味を持つ、第二言語で記載された文を第二言語文とし、上記第二言語文を構成する各文節の少なくとも1つは、1つ以上の自立語と1つ以上の機能語から構成されるとして、
    対応付部が、第二言語文を構成する各文節を、上記第一言語文を構成する単語の1つに対応付ける対応付ステップと、
    対応並替部が、上記第二言語文を構成する各文節を、その各文節に対応する上記第一言語文を構成する単語の上記第一言語文における順序に基づいて並び替えることにより、上記第二言語文を第一言語の語順に変換する対応並替ステップと、
    モデル生成部が、上記第一言語の語順に変換された上記第二言語文の複数に基づいて、上記第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを生成するモデル生成ステップと、
    を含む並替モデル生成方法。
  5. 請求項に記載された並替モデル生成方法であって、
    上記対応付ステップは、上記第二言語文を構成する各文節が上記第一言語文を構成する単語に対応付けされた機能語を含む場合には、上記第一言語文の単語と上記機能語との対応付けを消し、また、上記第二言語文を構成する各文節に含まれる自立語が上記第一言語文の複数の単語に対応付けされている場合には、一番確からしい対応付けを残して他の対応付けを消し、また、上記第二言語文を構成する各文節が2以上の自立語を含み上記2以上の自立語が上記第一言語文の異なる複数の単語に対応付けされている場合には、一番確からしい対応付けを残して他の対応付けを消す、
    並替モデル生成方法。
  6. 請求項4又は5に記載された並替モデル生成方法の各ステップと、
    文節分割部が、第二言語文を文節に分割する文節分割ステップと、
    並替部が、上記並替モデル生成方法で生成された第一言語の語順に変換された第二言語文としての尤もらしさを評価するための並替モデルを用いて、互いに異なる順序で文節が並び替えられた複数の第二言語文のそれぞれについて第一言語の語順に変換された第二言語文としての尤もらしさを計算し、尤もらしさが最も大きい順序で文節が並び替えられた第二言語文を出力する並替ステップと、
    を含む語順並替方法。
  7. 請求項1及び2に記載の並替モデル生成装置又は請求項3に記載の語順並替装置の各部としてコンピュータを機能させるためのプログラム。
JP2011265390A 2011-12-05 2011-12-05 並替モデル生成装置、語順並替装置、方法及びプログラム Active JP5700833B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011265390A JP5700833B2 (ja) 2011-12-05 2011-12-05 並替モデル生成装置、語順並替装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011265390A JP5700833B2 (ja) 2011-12-05 2011-12-05 並替モデル生成装置、語順並替装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013117888A JP2013117888A (ja) 2013-06-13
JP5700833B2 true JP5700833B2 (ja) 2015-04-15

Family

ID=48712398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011265390A Active JP5700833B2 (ja) 2011-12-05 2011-12-05 並替モデル生成装置、語順並替装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5700833B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7247460B2 (ja) 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JP7477359B2 (ja) 2020-05-11 2024-05-01 株式会社Nttドコモ 文章作成装置

Also Published As

Publication number Publication date
JP2013117888A (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
Gupta et al. Abstractive summarization: An overview of the state of the art
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US9342499B2 (en) Round-trip translation for automated grammatical error correction
JP5239307B2 (ja) 翻訳装置及び翻訳プログラム
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
JP6578941B2 (ja) 含意判定装置、含意判定方法及びプログラム
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
Zhu et al. Robust spoken language understanding with unsupervised asr-error adaptation
JP5700833B2 (ja) 並替モデル生成装置、語順並替装置、方法及びプログラム
Chaudhary et al. The ariel-cmu systems for lorehlt18
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP2013054608A (ja) 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム
JP5544518B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Venkatapathy et al. Three models for discriminative machine translation using Global Lexical Selection and Sentence Reconstruction
Parnow et al. Grammatical error correction: More data with more context
Tambouratzis et al. Language-independent hybrid MT: Comparative evaluation of translation quality
JP2012042991A (ja) 文作成プログラム及び文作成装置
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
JP2018055328A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Yao et al. Joint decoding of tree transduction models for sentence compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150216

R150 Certificate of patent or registration of utility model

Ref document number: 5700833

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150