JP5285676B2 - 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム - Google Patents
翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム Download PDFInfo
- Publication number
- JP5285676B2 JP5285676B2 JP2010223914A JP2010223914A JP5285676B2 JP 5285676 B2 JP5285676 B2 JP 5285676B2 JP 2010223914 A JP2010223914 A JP 2010223914A JP 2010223914 A JP2010223914 A JP 2010223914A JP 5285676 B2 JP5285676 B2 JP 5285676B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- sentence
- words
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
原文:彼はその本を読んだので、その有名な会社に興味があった。
正解翻訳文:he was interested in the famous company because he read the book
機械翻訳文:he read the book because he was interested in the famous company
この発明は、このような課題に鑑みてなされたものであり、大局的な語順の違いに対する感度の低さを解決した翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳装置とプログラムを提供することを目的とする。
〔この発明の考え〕
この発明は、「順位相関係数」(参考文献、Maurice G. Kendall: “Rank Correlation Methods,” Charles Griffin, 1975.)によって、正解翻訳文と機械翻訳文の語順の近さを測定し、その測定結果を機械翻訳文の評価スコアに反映するものである。
〔単語対応付け部〕
図3に、単語対応付け部20のより具体的な機能構成例を示す。その動作フローを図4に示す。単語対応付け部20は、ユニグラム単語対応付け手段21と、バイグラム単語順方向対応付け手段22と、バイグラム単語逆方向対応付け手段23と、を備える。
という単語列であるとして、機械翻訳文hypの各単語hiに対して正解翻訳文refで対応する単語の位置loc[i]を求めるものである。
機械翻訳文hypの最初の単語h1=”he”を考えると、refcount(“he”)=hypcount(“he”)=2なので、ユニグラムは一対一対応ではない。そこで、順方向のバイグラム”he read”を調べると、hypcount(“he read”)=1、refcount(“he read”)=1で、一対一対応である。“he read”が正解翻訳文refで始まる位置reflocはrefloc(“he read”)=9なので、loc[1]=9がセットされる。
順位相関係数計算部40は、単語対応付け部20が生成した整数リストloc[・]から正規化順位相関係数を計算する。
順位相関係数計算部40は、正解翻訳文refに存在しない単語を意味するインデックス-1を無視した整数リストloc=[9,10,11,1,2,3,4,5,6,7]から、上記した式(2)と式(6)から正規化ケンドール順位相関係数NKTを計算する。
順位相関係数計算部40において正規化ケンドール順位相関係数NKTが求まったが、このままだと対応する単語が存在しない単語を無視しているので、評価結果が過大評価になってしまう恐れがある。例えば正解翻訳文refと機械翻訳文hypの単語がそれぞれ50語ずつ在って、その間で2個の単語しか共有していない場合には、その2単語のみの語順だけで全体を評価することになる。
〔再付番部〕
スピアマンの順位相関係数ρは、機械翻訳文hypと正解翻訳文ref間における単語の移動距離を利用する関係から、この順番を番号順に整列し直す必要がある。そこで、再付番部30では、抜けのない整数リストになるように番号を付け替える処理を行う。
この処理には、いくつかの手法が考えられるが、ここでは、そのうちのひとつの手法を、例を用いて説明する。同じ結果が得られれば、他の手法を採用してもよい。
再付番したい整数リストをloc=[1,3,9,8,10,4,6]とする。-1の要素はすでに除いてあるものとする。最初にリストの中の最大値を探す。そして、その最大値の長さの整数配列rankを確保し、ゼロで初期化する。この場合の最大値は10なので、長さが10の配列rankを確保する。rank=[0,0,0,0,0,0,0,0,0,0]
そして、locに整数iが含まれていれば、rankの第i要素を1に書き換える。この場合、rank=[1,0,1,1,0,1,0,1,1,1]となる。このリストにおいて、左から1を数えた数を1のかわりに書き込む。するとrank=[1,0,2,3,0,4,0,5,6,7]となる。
以上のようにして整数リストlocを書き換えると、locの中の整数に飛びがなくなり、連続した整数になるのでρやNSRを計算しても異常な数値にならない。
図8に、形態2の再付番部30の機能構成例を示す。図9にその動作フローを示す。再付番部30は、正解翻訳文インデックス対配列手段31と、昇順正解インデックス対配列手段32と、再付番正解インデックス対配列手段33と、機械翻訳文順位付け手段34と、機械翻訳文配列出力手段35と、を備える。
順位相関係数計算部40′は、再付番部30で書き換えた整数リストlocに基づいてdiを、式(13)で求め、これを上記した式(5)式(7)に代入して正規化スピアマン順位相関係数NSRを求める。
〔応用例〕
図10に、この発明の翻訳品質自動評価装置100、200を利用した語順最適化機械翻訳学習装置300の機能構成例を示す。語順最適化機械翻訳学習装置300は、この発明の翻訳品質自動評価装置100、200と、既存の統計的機械翻訳装置301とを組み合わせたものである。語順最適化機械翻訳学習装置300は、統計的機械翻訳装置301と、翻訳品質自動評価装置100、200と、翻訳パラメタ最適化部302と、を具備する。
り、機械翻訳システムのパラメタを最適な値に自動調整する。通常、MERTでは、BLEUのスコアが大きくなるように調整が行われるが、上記したように、日英翻訳などの語順の入れ替わりの大きい言語対の機械翻訳において、BLEUは人間との相関が低い。そこで、翻訳パラメタ最適化部302が、BLEUの代わりにこの発明の翻訳品質自動評価装置100,20
0を用いて、評価スコアが大きくなるように機械翻訳システムのパラメタの調整を自動的に行う。
この発明の翻訳品質自動評価装置100、200で求めた評価スコアの有効性を確認する目的で、この発明の方法で求めた評価スコアと従来法で求めた評価スコアの比較を行った。表1にその結果を示す。
ることにより、NKT(τと等価)よりも、さらに高い性能(人手評価との順位相関)を得
ることができている。本発明は、英語と日本語に限らず、同様に語順が大幅に入れかわる言語対である日本語に似た語順の韓国語と、英語に似た語順のスウェーデン語の間の翻訳の評価などにも利用することができる。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
Claims (11)
- 原文を他の言語に翻訳した正解翻訳文を記憶するリファレンス記憶部と、
入力される機械翻訳文と上記正解翻訳文の前後の単語の情報を用いて上記正解翻訳文と上記機械翻訳文との間の単語を対応付け、当該機械翻訳文の単語の順番を当該正解翻訳文の単語の順番を示す整数で表した整数リストを生成する単語対応付け部と、
上記整数リストから正規化順位相関係数を計算する順位相関係数計算部と、
上記正規化順位相関係数に、機械翻訳文の単語数で正解翻訳文に含まれる機械翻訳文の単語数を除して得られる訳語適合率Pを底とし指数α、αは0より大で1以下の範囲の予め決められた定数とする指数関数P α を乗じた値を評価スコアとして計算する評価スコア計算部と、
を具備する翻訳品質自動評価装置。 - 原文を他の言語に翻訳した正解翻訳文を記憶するリファレンス記憶部と、
入力される機械翻訳文と上記正解翻訳文の前後の単語の情報を用いて上記正解翻訳文と上記機械翻訳文との間の単語を対応付け、当該機械翻訳文の単語の順番を当該正解翻訳文の単語の順番を示す整数で表した整数リストを生成する単語対応付け部と、
上記整数リストを、上記機械翻訳文の単語の並びに対応する上記正解翻訳文の単語の順番を、抜けのない連続した整数で再付番する再付番部と、
上記配列から順位相関係数を求め更にその順位相関係数を正規化した正規化順位相関係数を計算する順位相関係数計算部と、
上記正規化順位相関係数に、機械翻訳文の単語数で正解翻訳文に含まれる機械翻訳文の単語数を除して得られる訳語適合率Pを底とし指数α、αは0より大で1以下の範囲の予め決められた定数とする指数関数P α を乗じた値を評価スコアとして計算する評価スコア計算部と、
を具備する翻訳品質自動評価装置。 - 請求項1又は2に記載した翻訳品質自動評価装置において、
上記単語対応付け部は、
上記正解翻訳文の単語と一対一で対応する上記機械翻訳文の単語であるユニグラム単語の対応付けを行い、整数リストの要素である当該機械翻訳文の当該ユニグラム単語の位置に対応する当該正解翻訳文の当該ユニグラム単語の位置を出力するユニグラム単語対応付け手段と、
上記ユニグラム単語では無い当該機械翻訳文の順方向に隣接する2単語が、上記正解翻訳文の2単語と順方向に一対一で対応するバイグラム単語の対応付けを行い、整数リストの要素である当該対応付けられたバイグラム単語の当該機械翻訳文の単語の位置に対応する当該正解翻訳文の単語の位置を出力するバイグラム単語順方向対応付け手段と、
上記ユニグラム単語では無い当該機械翻訳文の逆方向に隣接する2単語が、上記正解翻訳文の2単語と逆方向に一対一で対応するバイグラム単語の対応付けを行い、整数リストの要素である当該対応付けられたバイグラム単語の当該機械翻訳文の単語の位置に対応する当該正解翻訳文の単語の位置を出力するバイグラム単語逆方向対応付け手段と、
を備えることを特徴とする翻訳品質自動評価装置。 - 請求項1乃至3の何れかに記載した翻訳品質自動評価装置において、
上記順位相関係数は、ケンドールの順位相関係数τであることを特徴とする翻訳品質自動評価装置。 - 請求項2又は3に記載した翻訳品質自動評価装置において、
上記順位相関係数は、スピアマンの順位相関係数ρであることを特徴とする翻訳品質自動評価装置。 - 原文テキストデータを入力として機械翻訳文を出力する統計的機械翻訳装置と、上記機械翻訳文を入力とする請求項1乃至5の何れかに記載した翻訳品質自動評価装置と、を具備する語順最適化機械翻訳装置であって、
上記翻訳品質自動評価装置が出力する評価スコアを参照して、当該評価スコアが大きくなるように上記統計的機械翻訳装置の翻訳パラメタを自動調整する翻訳パラメタ最適化部と、
を具備する語順最適化機械翻訳学習装置。 - 単語対応付け部が、入力される機械翻訳文と、リファレンス記憶部に記憶された原文を他の言語に翻訳した正解翻訳文の前後の単語の情報を用いて上記正解翻訳文と上記機械翻訳文との間の単語を対応付け、当該機械翻訳文の単語の順番を当該正解翻訳文の単語の順番を示す整数で表した整数リストを生成する単語対応付け過程と、
順位相関係数計算部が、上記整数リストから正規化順位相関係数を計算する順位相関係数計算過程と、
評価スコア計算部が、上記正規化順位相関係数に、機械翻訳文の単語数で正解翻訳文に含まれる機械翻訳文の単語数を除して得られる訳語適合率Pを底とし指数α、αは0より大で1以下の範囲の予め決められた定数とする指数関数P α を乗じた値を評価スコアとして計算する評価スコア計算過程と、
を含む翻訳品質自動評価方法。 - 請求項7に記載した翻訳品質自動評価方法において、
上記単語対応付け過程は、
ユニグラム単語対応付け手段が、上記正解翻訳文の単語と一対一で対応する上記機械翻訳文の単語であるユニグラム単語の対応付けを行い、整数リストの要素である当該機械翻訳文の単語の位置に対応する当該正解翻訳文の単語の位置を出力するユニグラム単語対応付けステップと、
バイグラム単語順方向対応付け手段が、上記ユニグラム単語では無い当該機械翻訳文の順方向に隣接する2単語が、上記正解翻訳文の2単語と順方向に一対一で対応するバイグラム単語の対応付けを行い、整数リストの要素である当該機械翻訳文の単語の位置に対応する当該正解翻訳文の単語の位置を出力するバイグラム単語順方向対応付けステップと、
バイグラム単語逆方向対応付け手段が、上記ユニグラム単語では無い当該機械翻訳文の逆方向に隣接する2単語が、上記正解翻訳文の2単語と逆方向に一対一で対応するバイグラム単語の対応付けを行い、整数リストの要素である当該機械翻訳文の単語の位置に対応する当該正解翻訳文の単語の位置を出力するバイグラム単語逆方向対応付けステップと、
を含むことを特徴とする翻訳品質自動評価方法。 - 統計的機械翻訳装置が、原文テキストデータを入力として機械翻訳文を出力する統計的機械翻訳過程と、上記機械翻訳文を入力とする請求項7又は8に記載した翻訳品質自動評価方法と、を備えた語順最適化機械翻訳学習方法であって、
上記翻訳品質自動評価方法が出力する評価スコアを参照して、当該評価スコアが大きくなるように上記統計的機械翻訳方法の翻訳パラメタを自動調整する翻訳パラメタ最適化過程と、
を備える語順最適化機械翻訳学習方法。 - 請求項1乃至5の何れかに記載した翻訳品質自動評価装置としてコンピュータを機能させるためのプログラム。
- 請求項6に記載した語順最適化機械翻訳学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010223914A JP5285676B2 (ja) | 2010-10-01 | 2010-10-01 | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010223914A JP5285676B2 (ja) | 2010-10-01 | 2010-10-01 | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012079107A JP2012079107A (ja) | 2012-04-19 |
JP5285676B2 true JP5285676B2 (ja) | 2013-09-11 |
Family
ID=46239269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010223914A Active JP5285676B2 (ja) | 2010-10-01 | 2010-10-01 | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285676B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858042B (zh) * | 2018-11-20 | 2024-02-20 | 科大讯飞股份有限公司 | 一种翻译质量的确定方法及装置 |
CN111144134B (zh) * | 2019-11-27 | 2023-05-16 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298360A (ja) * | 1992-04-17 | 1993-11-12 | Hitachi Ltd | 翻訳文評価方法、翻訳文評価装置、翻訳文評価機能付き機械翻訳システムおよび機械翻訳システム評価装置 |
WO2006134759A1 (ja) * | 2005-06-15 | 2006-12-21 | Waseda University | 文章評価装置及び文章評価プログラム |
JP2009059123A (ja) * | 2007-08-31 | 2009-03-19 | National Institute Of Information & Communication Technology | 翻訳品質の人による評定を推定するための装置及び方法 |
-
2010
- 2010-10-01 JP JP2010223914A patent/JP5285676B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012079107A (ja) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
do Carmo et al. | A review of the state-of-the-art in automatic post-editing | |
Yamada | Can college students be post-editors? An investigation into employing language learners in machine translation plus post-editing settings | |
Piao et al. | Development of the multilingual semantic annotation system | |
US20110184723A1 (en) | Phonetic suggestion engine | |
JP6296592B2 (ja) | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム | |
SG188531A1 (en) | Methods and systems for automated text correction | |
Shterionov et al. | A roadmap to neural automatic post-editing: an empirical approach | |
Morishita et al. | Improving neural machine translation by incorporating hierarchical subword features | |
Seljan et al. | Human evaluation of online machine translation services for english/russian-croatian | |
Zaretskaya et al. | Measuring post-editing time and effort for different types of machine translation errors | |
Munk et al. | Towards the use of entropy as a measure for the reliability of automatic MT evaluation metrics | |
JP5285676B2 (ja) | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム | |
Zhang et al. | Similarity-aware neural machine translation: reducing human translator efforts by leveraging high-potential sentences with translation memory | |
Poncelas et al. | Extending feature decay algorithms using alignment entropy | |
Septarina et al. | Machine translation of Indonesian: a review | |
Srivastava et al. | Extraction of reordering rules for statistical machine translation | |
Wisniewski et al. | Oracle decoding as a new way to analyze phrase-based machine translation | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
Farzi et al. | A syntactically informed reordering model for statistical machine translation | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
Babhulgaonkar et al. | Experimenting with factored language model and generalized back-off for Hindi | |
Tambouratzis et al. | Language-independent hybrid MT: Comparative evaluation of translation quality | |
JP6292036B2 (ja) | 機械翻訳方法、機械翻訳プログラム及び機械翻訳装置 | |
Zhu | Weblio pre-reordering statistical machine translation system | |
RU2817524C1 (ru) | Способ и система генерации текста |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5285676 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |