JP2012079107A - 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム - Google Patents
翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム Download PDFInfo
- Publication number
- JP2012079107A JP2012079107A JP2010223914A JP2010223914A JP2012079107A JP 2012079107 A JP2012079107 A JP 2012079107A JP 2010223914 A JP2010223914 A JP 2010223914A JP 2010223914 A JP2010223914 A JP 2010223914A JP 2012079107 A JP2012079107 A JP 2012079107A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- sentence
- words
- correlation coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】単語対応付け部が入力される機械翻訳文と正解翻訳文の前後の単語の情報を用いて正解翻訳文と機械翻訳文との間の単語を対応付けた整数リストを生成し、順位相関係数計算部が整数リストから正規化順位相関係数を計算する。そして、評価スコア計算部が正規化順位相関係数に訳語適合率を底とし指数α、αは0乃至1の範囲の予め決められた定数とする指数関数を乗じた値を評価スコアとして計算する。
【選択図】図1
Description
原文:彼はその本を読んだので、その有名な会社に興味があった。
正解翻訳文:he was interested in the famous company because he read the book
機械翻訳文:he read the book because he was interested in the famous company
この発明は、このような課題に鑑みてなされたものであり、大局的な語順の違いに対する感度の低さを解決した翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳装置とプログラムを提供することを目的とする。
〔この発明の考え〕
この発明は、「順位相関係数」(参考文献、Maurice G. Kendall: “Rank Correlation Methods,” Charles Griffin, 1975.)によって、正解翻訳文と機械翻訳文の語順の近さを測定し、その測定結果を機械翻訳文の評価スコアに反映するものである。
〔単語対応付け部〕
図3に、単語対応付け部20のより具体的な機能構成例を示す。その動作フローを図4に示す。単語対応付け部20は、ユニグラム単語対応付け手段21と、バイグラム単語順方向対応付け手段22と、バイグラム単語逆方向対応付け手段23と、を備える。
という単語列であるとして、機械翻訳文hypの各単語hiに対して正解翻訳文refで対応する単語の位置loc[i]を求めるものである。
機械翻訳文hypの最初の単語h1=”he”を考えると、refcount(“he”)=hypcount(“he”)=2なので、ユニグラムは一対一対応ではない。そこで、順方向のバイグラム”he read”を調べると、hypcount(“he read”)=1、refcount(“he read”)=1で、一対一対応である。“he read”が正解翻訳文refで始まる位置reflocはrefloc(“he read”)=9なので、loc[1]=9がセットされる。
順位相関係数計算部40は、単語対応付け部20が生成した整数リストloc[・]から正規化順位相関係数を計算する。
順位相関係数計算部40は、正解翻訳文refに存在しない単語を意味するインデックス-1を無視した整数リストloc=[9,10,11,1,2,3,4,5,6,7]から、上記した式(2)と式(6)から正規化ケンドール順位相関係数NKTを計算する。
順位相関係数計算部40において正規化ケンドール順位相関係数NKTが求まったが、このままだと対応する単語が存在しない単語を無視しているので、評価結果が過大評価になってしまう恐れがある。例えば正解翻訳文refと機械翻訳文hypの単語がそれぞれ50語ずつ在って、その間で2個の単語しか共有していない場合には、その2単語のみの語順だけで全体を評価することになる。
〔再付番部〕
スピアマンの順位相関係数ρは、機械翻訳文hypと正解翻訳文ref間における単語の移動距離を利用する関係から、この順番を番号順に整列し直す必要がある。そこで、再付番部30では、抜けのない整数リストになるように番号を付け替える処理を行う。
この処理には、いくつかの手法が考えられるが、ここでは、そのうちのひとつの手法を、例を用いて説明する。同じ結果が得られれば、他の手法を採用してもよい。
再付番したい整数リストをloc=[1,3,9,8,10,4,6]とする。-1の要素はすでに除いてあるものとする。最初にリストの中の最大値を探す。そして、その最大値の長さの整数配列rankを確保し、ゼロで初期化する。この場合の最大値は10なので、長さが10の配列rankを確保する。rank=[0,0,0,0,0,0,0,0,0,0]
そして、locに整数iが含まれていれば、rankの第i要素を1に書き換える。この場合、rank=[1,0,1,1,0,1,0,1,1,1]となる。このリストにおいて、左から1を数えた数を1のかわりに書き込む。するとrank=[1,0,2,3,0,4,0,5,6,7]となる。
以上のようにして整数リストlocを書き換えると、locの中の整数に飛びがなくなり、連続した整数になるのでρやNSRを計算しても異常な数値にならない。
図8に、形態2の再付番部30の機能構成例を示す。図9にその動作フローを示す。再付番部30は、正解翻訳文インデックス対配列手段31と、昇順正解インデックス対配列手段32と、再付番正解インデックス対配列手段33と、機械翻訳文順位付け手段34と、機械翻訳文配列出力手段35と、を備える。
順位相関係数計算部40′は、再付番部30で書き換えた整数リストlocに基づいてdiを、式(13)で求め、これを上記した式(5)式(7)に代入して正規化スピアマン順位相関係数NSRを求める。
〔応用例〕
図10に、この発明の翻訳品質自動評価装置100、200を利用した語順最適化機械翻訳学習装置300の機能構成例を示す。語順最適化機械翻訳学習装置300は、この発明の翻訳品質自動評価装置100、200と、既存の統計的機械翻訳装置301とを組み合わせたものである。語順最適化機械翻訳学習装置300は、統計的機械翻訳装置301と、翻訳品質自動評価装置100、200と、翻訳パラメタ最適化部302と、を具備する。
この発明の翻訳品質自動評価装置100、200で求めた評価スコアの有効性を確認する目的で、この発明の方法で求めた評価スコアと従来法で求めた評価スコアの比較を行った。表1にその結果を示す。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
Claims (10)
- 原文を他の言語に翻訳した正解翻訳文を記憶するリファレンス記憶部と、
入力される機械翻訳文と上記正解翻訳文の前後の単語の情報を用いて上記正解翻訳文と上記機械翻訳文との間の単語を対応付けた整数リストを生成する単語対応付け部と、
上記整数リストから正規化順位相関係数を計算する順位相関係数計算部と、
上記正規化順位相関係数に、訳語適合率を底とし指数α、αは0乃至1の範囲の予め決められた定数とする指数関数を乗じた値を評価スコアとして計算する評価スコア計算部と、
を具備する翻訳品質自動評価装置。 - 原文を他の言語に翻訳した正解翻訳文を記憶するリファレンス記憶部と、
入力される機械翻訳文と上記正解翻訳文の前後の単語の情報を用いて上記正解翻訳文と上記機械翻訳文との間の単語を対応付けた整数リストを生成する単語対応付け部と、
上記整数リストを、上記機械翻訳文の単語の並びに対応する上記正解翻訳文の単語の順番を表す整列されたインデックスの配列に変換する再付番部と、
上記配列から順位相関係数を求め更にその順位相関係数を正規化した正規化順位相関係数を計算する順位相関係数計算部と、
上記正規化順位相関係数に、訳語適合率を底とし指数α、αは0乃至1の範囲の予め決められた定数とする指数関数を乗じた値を評価スコアとして計算する評価スコア計算部と、
を具備する翻訳品質自動評価装置。 - 請求項1又は2に記載した翻訳品質自動評価装置において、
上記単語対応付け部は、
上記正解翻訳文の単語と一対一で対応する上記機械翻訳文の単語であるユニグラム単語の対応付けを行うユニグラム単語対応付け手段と、
上記機械翻訳文の隣接する2単語が、上記正解翻訳文の2単語と順方向に一対一で対応するバイグラム単語の対応付けを行うバイグラム単語順方向対応付け手段と、
上記機械翻訳文の隣接する2単語が、上記正解翻訳文の2単語と逆方向に一対一で対応するバイグラム単語の対応付けを行うバイグラム単語逆方向対応付け手段と、
を備えることを特徴とする翻訳品質自動評価装置。 - 請求項1乃至3の何れかに記載した翻訳品質自動評価装置において、
上記順位相関係数は、ケンドールの順位相関係数τであることを特徴とする翻訳品質自動評価装置。 - 請求項2又は3に記載した翻訳品質自動評価装置において、
上記順位相関係数は、スピアマンの順位相関係数ρであることを特徴とする翻訳品質自動評価装置。 - 請求項1乃至5の何れかに記載した翻訳品質自動評価装置と、
上記翻訳品質自動評価装置が出力する評価スコアを参照して、機械翻訳システムの翻訳パタメタを最適な値に自動調整する翻訳パラメタ最適化部と、
を具備する語順最適化機械翻訳学習装置。 - 入力される機械翻訳文と、リファレンス記憶部に記憶された原文を他の言語に翻訳した正解翻訳文の前後の単語の情報を用いて上記正解翻訳文と上記機械翻訳文との間の単語を対応付けた整数リストを生成する単語対応付け過程と、
上記整数リストから正規化順位相関係数を計算する順位相関係数計算過程と、
上記正規化順位相関係数に、訳語適合率を底とし指数α、αは0乃至1の範囲の予め決められた定数とする指数関数を乗じた値を評価スコアとして計算する評価スコア計算過程と、
を含む翻訳品質自動評価方法。 - 請求項7に記載した翻訳品質自動評価方法において、
上記単語対応付け過程は、
上記正解翻訳文の単語と一対一で対応する上記機械翻訳文の単語であるユニグラム単語の対応付けを行うユニグラム単語対応付けステップと、
上記機械翻訳文の隣接する2単語が、上記正解翻訳文の2単語と順方向に一対一で対応するバイグラム単語の対応付けを行うバイグラム単語順方向対応付けステップと、
上記機械翻訳文の隣接する2単語が、上記正解翻訳文の2単語と逆方向に一対一で対応するバイグラム単語の対応付けを行うバイグラム単語逆方向対応付けステップと、
を含むことを特徴とする翻訳品質自動評価方法。 - 請求項7又は8に記載した翻訳品質自動評価方法と、
上記翻訳品質自動評価方法が出力する評価スコアを参照して、機械翻訳システムの翻訳パタメタを最適な値に自動調整する翻訳パラメタ最適化過程と、
を備える語順最適化機械翻訳学習方法。 - 請求項1乃至6の何れかに記載した翻訳品質自動評価装置又は語順最適化機械翻訳学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010223914A JP5285676B2 (ja) | 2010-10-01 | 2010-10-01 | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010223914A JP5285676B2 (ja) | 2010-10-01 | 2010-10-01 | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012079107A true JP2012079107A (ja) | 2012-04-19 |
JP5285676B2 JP5285676B2 (ja) | 2013-09-11 |
Family
ID=46239269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010223914A Active JP5285676B2 (ja) | 2010-10-01 | 2010-10-01 | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285676B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858042A (zh) * | 2018-11-20 | 2019-06-07 | 科大讯飞股份有限公司 | 一种翻译质量的确定方法及装置 |
CN111144134A (zh) * | 2019-11-27 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
WO2006134759A1 (ja) * | 2005-06-15 | 2006-12-21 | Waseda University | 文章評価装置及び文章評価プログラム |
JP2009059123A (ja) * | 2007-08-31 | 2009-03-19 | National Institute Of Information & Communication Technology | 翻訳品質の人による評定を推定するための装置及び方法 |
-
2010
- 2010-10-01 JP JP2010223914A patent/JP5285676B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
WO2006134759A1 (ja) * | 2005-06-15 | 2006-12-21 | Waseda University | 文章評価装置及び文章評価プログラム |
JP2009059123A (ja) * | 2007-08-31 | 2009-03-19 | National Institute Of Information & Communication Technology | 翻訳品質の人による評定を推定するための装置及び方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858042A (zh) * | 2018-11-20 | 2019-06-07 | 科大讯飞股份有限公司 | 一种翻译质量的确定方法及装置 |
CN109858042B (zh) * | 2018-11-20 | 2024-02-20 | 科大讯飞股份有限公司 | 一种翻译质量的确定方法及装置 |
CN111144134A (zh) * | 2019-11-27 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
CN111144134B (zh) * | 2019-11-27 | 2023-05-16 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5285676B2 (ja) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
do Carmo et al. | A review of the state-of-the-art in automatic post-editing | |
Piao et al. | Development of the multilingual semantic annotation system | |
US20110184723A1 (en) | Phonetic suggestion engine | |
JP2014232452A (ja) | 翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム | |
Shterionov et al. | A roadmap to neural automatic post-editing: an empirical approach | |
Mondal et al. | Machine translation and its evaluation: a study | |
JP5285676B2 (ja) | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム | |
Kadhim et al. | An Evaluation of Online Machine Translation of Arabic into English News Headlines: Implications on Students' Learning Purposes. | |
Blain et al. | Exploring hypotheses spaces in neural machine translation | |
Zhu et al. | Improve word embedding using both writing and pronunciation | |
Valavani et al. | Improving machine translation output of German compound and multiword financial terms: comparison with cross-linguistic data | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
Septarina et al. | Machine translation of Indonesian: a review | |
WO2022079845A1 (ja) | 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム | |
Farzi et al. | A syntactically informed reordering model for statistical machine translation | |
US20030093261A1 (en) | Multilingual database creation system and method | |
Li et al. | A semantic concept based unknown words processing method in neural machine translation | |
Zhu | Weblio pre-reordering statistical machine translation system | |
Shravani et al. | Unsupervised Synthetic Code-Mixed Data Generation | |
Li et al. | Handling many-to-one unk translation for neural machine translation | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
RU2817524C1 (ru) | Способ и система генерации текста | |
Benkova et al. | Evaluation of Various Approaches to Compute BLEU Metrics. | |
Shravani et al. | Unsupervised Synthetic Code-Mixed Data Generation Check for updates | |
Hedberg | Spanish-Swedish neural machine translation for the civil engineering domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5285676 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |