JP2014013514A - 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム - Google Patents
機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014013514A JP2014013514A JP2012150929A JP2012150929A JP2014013514A JP 2014013514 A JP2014013514 A JP 2014013514A JP 2012150929 A JP2012150929 A JP 2012150929A JP 2012150929 A JP2012150929 A JP 2012150929A JP 2014013514 A JP2014013514 A JP 2014013514A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- pronoun
- character string
- pronouns
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】単語分割部2は、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び翻訳元言語の文字列を正しく翻訳した目標言語の文字列である参照訳文字列の各々を単語単位に分割する。代名詞F値計算部4は、機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、参照訳文字列の分割結果に基づいて、代名詞リストに含まれる各代名詞の出現数をカウントし、カウントされた機械翻訳文字列における各代名詞の出現数及び参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、算出した再現率及び適合率に基づいて、代名詞に対するF値を、品質スコアとして算出する。
【選択図】図1
Description
n個の重みの組λ1 n=λ1〜λnについて、BLEU値が最大となる翻訳結果が選ばれる重みの組を^λ1 nとしたとき、以下の(1)式に示す最適化の式を計算する。
1.λに初期値を与える。
2.λを用いてデコーディングを行い、確率の高い上位N文を出力する
3.上位N文の中でBLEUスコアが高い文が上位に来るようλを最適化する
4.重みが収束するまで2,3を繰り返す。
また、代名詞の省略による翻訳の質の低下を考慮して翻訳モデルのパラメータを最適化することができる翻訳パラメータ最適化装置及びプログラムを提供することを第2の目的とする。
また、本発明の翻訳パラメータ最適化装置によれば、代名詞の省略による翻訳の質の低下を考慮して翻訳モデルのパラメータを最適化することができる。
P(p)=min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数) / (システムが出力した翻訳結果中にある代名詞pの個数)
で求められ、
ある代名詞pに対する再現率R(p)は、
R(p)=min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数) / (参照訳による正解の翻訳結果中にある代名詞pの個数)
で求められ、
ある代名詞pに対するF値、F(p)は、
F(p) = 2 * P(p) * R(p) / (P(p) + R(p))
で求められる。
また、F値を代名詞毎に算出する場合を例に説明したが、これに限定されるものではない。
P=Σp {min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数)} / Σp { (システムが出力した翻訳結果中にある代名詞pの個数)}
で求められ、
すべての代名詞に対する再現率Rは、
R=Σp {min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数)} /Σp { (参照訳による正解の翻訳結果中にある代名詞pの個数)}
で求められ、
すべての代名詞に対するF値、Fは、
F = 2 * P * R / (P + R)
で求められる。
入力部52は、原文テキスト及び参照訳を自然言語の形態でコンピュータ54に入力する。入力部52としては、ユーザによって操作されるキーボート、インターネット等のネットワークを介して翻訳パラメータ最適化装置50と接続可能なユーザの端末、または翻訳パラメータ最適化装置50とユーザの端末とを中継するネットワークサーバ等が挙げられる。原文テキストは、翻訳元言語の文字列であり、参照訳は、当該翻訳元言語の文字列を人手等により翻訳した正解翻訳としての目標言語の文字列(テキスト)である。
コンピュータ54をハードウェアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図9に示すように、入力部52により入力された原文テキストを記憶する原文テキスト記憶部62と、統計的翻訳モデルに基づいて原文テキストを機械翻訳する統計的機械翻訳部56と、第1の実施の形態の翻訳結果評価装置と同様の構成である翻訳品質自動評価部60と、翻訳品質の品質スコアが最も高くなるように、統計的翻訳モデルのモデルパラメータを最適化する翻訳パラメータ最適化部58と、を含んだ構成で表すことができる。
翻訳品質自動評価部60は、各原文テキストについてシステム翻訳結果の各々について、代名詞毎に、当該代名詞について算出したF値とBLEU値をある重み付けで線形和を取ったものを、品質スコアとして算出する。
2 単語分割部
3 単語分割済みテキストテーブル
4 代名詞F値計算部
5 評価値テーブル
6 出力部
7 システム翻訳結果記憶部
8 参照訳記憶部
9 代名詞リスト記憶部
10 入力部
20 翻訳結果評価装置
50 翻訳パラメータ最適化装置
52 入力部
54 コンピュータ
56 統計的機械翻訳部
58 翻訳パラメータ最適化部
60 翻訳品質自動評価部
62 原文テキスト記憶部
Claims (7)
- 翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割する分割手段と、
前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントする代名詞カウント手段と、
前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するF値を、品質スコアとして算出する算出手段と、
を含む機械翻訳結果評価装置。 - 前記算出手段は、全ての代名詞に対する再現率、及び全ての代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、全ての代名詞に対するF値を、品質スコアとして算出する請求項1記載の機械翻訳結果評価装置。
- 前記算出手段は、前記代名詞に対するF値を算出すると共に、前記分割手段による前記機械翻訳文字列の分割結果と前記参照訳文字列の分割結果とに基づいて、BLEU値を算出し、前記算出した前記代名詞に対するF値とBLEU値との線形和を、品質スコアとして算出する、請求項1記載の機械翻訳結果評価装置。
- 請求項1〜請求項3の何れか1項記載の機械翻訳結果評価装置と、
翻訳モデルに基づいて、翻訳元言語の文字列を目標言語の文字列に翻訳する機械翻訳手段と、
前記翻訳モデルのモデルパラメータを更新する更新手段と、
前記機械翻訳手段によって翻訳された前記目標言語の文字列について前記機械翻訳結果装置によって算出された前記品質スコアが最も高くなるように、前記翻訳モデルのモデルパラメータが最適化されるまで、前記機械翻訳手段による翻訳、及び前記更新手段による更新を繰り返すパラメータ最適化手段と、
を含む翻訳パラメータ最適化装置。 - 分割手段、代名詞カウント手段、及び算出手段を含む機械翻訳結果評価装置における機械翻訳結果評価方法であって、
前記機械翻訳結果評価装置は、
前記分割手段によって、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割するステップと、
前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントするステップと、
前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するF値を、品質スコアとして算出するステップと、
を含んで実行することを特徴とする機械翻訳結果評価方法。 - 前記算出手段によって算出するステップは、全ての代名詞に対する再現率、及び全ての代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、全ての代名詞に対するF値を、品質スコアとして算出する請求項5記載の機械翻訳結果評価方法。
- コンピュータを、
翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割する分割手段、
前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントする代名詞カウント手段、及び
前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するF値を、品質スコアとして算出する算出手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012150929A JP5710551B2 (ja) | 2012-07-04 | 2012-07-04 | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012150929A JP5710551B2 (ja) | 2012-07-04 | 2012-07-04 | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014013514A true JP2014013514A (ja) | 2014-01-23 |
JP5710551B2 JP5710551B2 (ja) | 2015-04-30 |
Family
ID=50109153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012150929A Active JP5710551B2 (ja) | 2012-07-04 | 2012-07-04 | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5710551B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145315A (zh) * | 2018-09-05 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN110020440A (zh) * | 2018-01-09 | 2019-07-16 | 深圳市腾讯计算机系统有限公司 | 一种机器翻译方法、装置、服务器及存储介质 |
CN112749316A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 翻译质量的确定方法、装置、存储介质和处理器 |
-
2012
- 2012-07-04 JP JP2012150929A patent/JP5710551B2/ja active Active
Non-Patent Citations (2)
Title |
---|
CSNG200701365001; 安田圭志 他1名: '機械翻訳の研究・開発における翻訳自動評価技術とその応用' 人工知能学会誌 第23巻第1号, 20080101, 2-9頁, 社団法人人工知能学会 * |
JPN6015003465; 安田圭志 他1名: '機械翻訳の研究・開発における翻訳自動評価技術とその応用' 人工知能学会誌 第23巻第1号, 20080101, 2-9頁, 社団法人人工知能学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020440A (zh) * | 2018-01-09 | 2019-07-16 | 深圳市腾讯计算机系统有限公司 | 一种机器翻译方法、装置、服务器及存储介质 |
CN110020440B (zh) * | 2018-01-09 | 2023-05-23 | 深圳市腾讯计算机系统有限公司 | 一种机器翻译方法、装置、服务器及存储介质 |
CN109145315A (zh) * | 2018-09-05 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN111368565A (zh) * | 2018-09-05 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN109145315B (zh) * | 2018-09-05 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN112749316A (zh) * | 2019-10-29 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 翻译质量的确定方法、装置、存储介质和处理器 |
Also Published As
Publication number | Publication date |
---|---|
JP5710551B2 (ja) | 2015-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ling et al. | Latent predictor networks for code generation | |
US10061769B2 (en) | Machine translation method for performing translation between languages | |
US9367541B1 (en) | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms | |
JP5774751B2 (ja) | ツリーレット翻訳対の抽出 | |
US8660836B2 (en) | Optimization of natural language processing system based on conditional output quality at risk | |
US10789431B2 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
EP3508992A1 (en) | Error correction method and device for search term | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
US20140149102A1 (en) | Personalized machine translation via online adaptation | |
CN109062912B (zh) | 一种翻译质量评价方法及装置 | |
CA2971884C (en) | Method and device for general machine translation engine-oriented individualized translation | |
US9442922B2 (en) | System and method for incrementally updating a reordering model for a statistical machine translation system | |
JP2008216341A (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
JP2006134311A (ja) | ツリーレット翻訳対の抽出 | |
US20130054224A1 (en) | Method and system for enhancing text alignment between a source language and a target language during statistical machine translation | |
US20220058349A1 (en) | Data processing method, device, and storage medium | |
Blain et al. | Incremental adaptation using translation informations and post-editing analysis | |
JP5710551B2 (ja) | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム | |
CN104516870A (zh) | 一种译文检查方法及其系统 | |
JP2015032307A (ja) | ドメイン固有のテキストに対する機械翻訳サービスによる専門用語検証システムとその方法 | |
JP6478382B2 (ja) | 翻訳装置 | |
JP5791097B2 (ja) | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 | |
Formiga Fanals et al. | Dealing with input noise in statistical machine translation | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
KR101626386B1 (ko) | 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140723 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5710551 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |