JP2007241910A - 機械翻訳評価装置及び方法 - Google Patents
機械翻訳評価装置及び方法 Download PDFInfo
- Publication number
- JP2007241910A JP2007241910A JP2006066836A JP2006066836A JP2007241910A JP 2007241910 A JP2007241910 A JP 2007241910A JP 2006066836 A JP2006066836 A JP 2006066836A JP 2006066836 A JP2006066836 A JP 2006066836A JP 2007241910 A JP2007241910 A JP 2007241910A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- question
- text
- machine translation
- question pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】 機械翻訳結果を自動的に評価する機械翻訳評価装置であって、記憶手段30に格納した、評価事項である部分目標について機械翻訳結果が適合するか否かを判定するための設問パターンを用い、機械翻訳結果である翻訳先テキストに対して、少なくとも該設問パターンに適合するか否かの結果を含む条件から部分目標に係る判定を行う部分目標判定手段12と、部分目標判定において適合した設問パターンと適合しなかった設問パターンに関する情報の少なくともいずれかに基づく所定の計算式を用いて機械翻訳結果の評価値を算出する評価手段13と、評価値を出力する出力手段14とを備える。
【選択図】 図1
Description
自動評価の性能が向上することにより、機械翻訳システムの利用や改良が効率良くできるようになることが期待されるからである。例えば、非特許文献4によれば、自動評価の指標をシステムパラメータのチューニングに利用することにより、翻訳性能が向上したという報告がある。この報告は、自動評価の性能が向上すれば翻訳性能が自動的に向上することを示している。
学習ステップは、予め人手によってランク付けが行なわれているとともに、予め人手によって正解翻訳文が用意されている複数の学習用機械翻訳文それぞれを、それに対する正解翻訳文との間の複数種類の編集距離を用いて、編集距離の種類数に応じた要素からなるベクトルに符号化するステップ、および得られたベクトルを訓練事例としてランク付け規則を学習するステップを備えている。
一般に、ある文を翻訳する際には、英日翻訳で言えば前置詞や不定詞の訳し分けのように翻訳品質を良好に保つために満たすべき条件がひとつ以上存在する。
それらの条件を設問の形で各テスト文に付与したテストセットと、個々の設問に対する回答を自動推定するシステムを作成することにより、従来の手法に比べ個々の翻訳文の品質をより適切に自動評価することが可能となる。
すなわち、請求項6に記載の機械翻訳評価方法は、評価事項である部分目標について機械翻訳結果が適合するか否かを判定するための設問パターンを用い、部分目標判定手段が、機械翻訳結果である翻訳先テキストに対して、少なくとも該設問パターンに適合するか否かの結果を含む条件から部分目標に係る判定を行う部分目標判定ステップ、評価手段が、該部分目標判定において適合した設問パターンと適合しなかった設問パターンに関する情報の少なくともいずれかに基づく所定の計算式を用いて機械翻訳結果の評価値を算出する評価ステップ、出力手段が、評価値を出力する出力ステップの各ステップを含む。
請求項1又は6に記載の発明によると、部分目標として設問パターンを用い、適合した設問パターンと適合しなかった設問パターンに関する情報というコンピュータ上の処理が容易な指標により機械翻訳結果を評価することができる。
特に、機械翻訳で生じる典型的な誤りについて重点的に評価することが可能であり、1つの文章についても適切な評価が行える。
本発明に係る設問パターンを予め用意して処理する実施例1、設問パターンを自動的に定義する実施例2、さらに設問を選択して設問パターンを定義する実施例3をそれぞれ説述する。
まず機械翻訳結果である翻訳先テキスト(100)を外部記憶装置からの読み込み又はネットワークアダプタからの取得によりCPU(10)に取得すると、文単位抽出部(11)が文単位に分割して抽出する。(S1)
翻訳先テキストの言語によって公知の抽出方法を適宜選択することができるが、例えば日本語であれば読点や段落、改行コードなどをテキストから検索して、その位置で文が終了すると判定することができる。
本発明では、機械翻訳評価を行うために、設問パターンを用いる。設問パターンは外部記憶装置(30)にデータテーブルの形式で格納されており、例えば次の表1のように定義される。
まず日本語を対象とする場合には、あらかじめ漢字を句読点を含まない仮名文に変換した後に処理を行う。第1文を「私は今日の午後、彼を店に連れて行く」と訳した場合には、「わたしはきょうのごごかれをみせにつれていく」と変換する。このような変換は辞書データベース(図示しない)を用いて仮名に置換することで容易に行える。さらに周知の形態素解析処理手段を用いて高精度な変換を行うこともできる。一例としてJUMAN(非特許文献6参照)を用いて処理することができる。
そこで、設問パターンには、「(かれが)はやくくる(こと|の)は」が含まれる、と定義しておき、翻訳先テキストに「かれが」が前置されても、されなくてもよく、続いて「はやくくることは」又は「はやくくるのは」が含まれるか否か、2択で判定できるようにしてある。
このような設問パターンは多数用意しておき、翻訳元テキストも例えば第1文の主語について「(I am|I was|You are|You were|She is)」というように複数の変形を許容するように定義するか、あるいは全ての組み合わせを定義しておくのが望ましい。
これにより、任意の翻訳元テキスト・翻訳先テキストを入力することで、自動的に設問パターンを選択して部分目標を判定することができる。
本発明における評価としては、入力された翻訳先テキスト(100)に対して部分目標判定で設問パターンと合致すると判定された個数と、合致しないと判定された個数とを用いて予め定めた計算式で算出する。
(数1)
評価値 = (合致した個数)/(合致した個数+合致しなかった個数)
により評価値を得る。この場合、評価値が1に近いほど正確な機械翻訳結果であると評価できる。しきい値を用いて、一定の評価値以上の場合に合格、それ未満の場合に不合格などと判定してもよい。
部分目標の達成度をQ、翻訳先テキストと参照テキストとの類似度をSとし、ある翻訳先テキストに対する評価値Aを次の式で定義する。
このQiは部分目標が達成されていれば1、達成されていなければ−1の値を返す。fi は、評価対象の翻訳先テキストに依存して設問テーブル中の項目で判定する場合には1、しない場合には0をとる。(部分目標判定部での選択を基に決定する)
すなわち、予め複数の機械翻訳結果についてfluency(流暢さ)とadequancy(妥当性)を人手によって数値評価し、λを例えば0から0.1ずつ増加させていって、両者の数値評価と評価部で計算されるAとの相関が最大となるときのλを求める。これにより、評価部(13)における評価の高精度化が図られる。
本実施例では図3のように設問パターン定義部(15)をCPU(10)に備え、外部記憶装置(30)には設問パターン書式を予め定義しておく。
設問パターン書式としては表2に示すようなものを用いる
このとき、図示しない同義語データベースを用い、aの同義語a1,a2,a3についても「(a|a1|a2|a3)を含んでいるか?」という設問パターンとして定義してもよい。「含んでいないか」についても同様である。
このとき、設問パターン定義部(15)は「(かれらは|それらは)を含んでいないか」という設問パターンとして定義することができる。
同時に、両者の文の対訳関係が予め定義されているとき、又は周知の対訳関係の抽出処理によって判明するときには、「by herself」が「独りで」と訳されていることから、「ひとりでを含んでいるか?」という設問パターンとなる。
同義語データベースを用いれば、「ひとり(だけ|きり)で|たんどくで|たんしんで を含んでいるか?」という設問パターンを定義できる。
「ようだ」を辞書データベースで検索すると助動詞であることもわかるから、設問パターン定義部(15)はappear toについて「助動詞を含んでいるか?」という設問パターンを定義することができる。
このように、訳語の選択だけでなく、正しい品詞で用いられているかについて部分目標の評価を行うこともできる。
例えば、非特許文献10で示されたテストセットが知られている。
設問は主として文法的な観点からカテゴリ分けされており、上の設問は連鎖動詞に関するものである。
表3は、外部記憶装置(30)に格納される設問データベースの一例である。
翻訳元テキストでは表3に示したような具体的な文の他「* live * by *self」(*は任意、動詞は原形に変換して登録する)などのような形で定義してもよい。
具体的には、表4に示すような設問・設問パターン変換テーブルを外部記憶装置(30)に備えておくのが簡便である。
下段の例では「△△のように」は単なる例示であり、□□を表すようにというさらに有益な情報が含まれているため、「□□を表す」語句を辞書データベースから抽出して代入する。
10 CPU
11 文単位抽出部
12 部分目標判定部
13 評価部
14 出力部
20 モニタ
30 外部記憶装置
40 ネットワークアダプタ
50 キーボード・マウス
Claims (10)
- 機械翻訳結果を自動的に評価する機械翻訳評価装置であって、
記憶手段に格納した、評価事項である部分目標について機械翻訳結果が適合するか否かを判定するための設問パターンを用い、
機械翻訳結果である翻訳先テキストに対して、少なくとも該設問パターンに適合するか否かの結果を含む条件から部分目標に係る判定を行う部分目標判定手段と、
該部分目標判定において適合した設問パターンと適合しなかった設問パターンに関する情報の少なくともいずれかに基づく所定の計算式を用いて機械翻訳結果の評価値を算出する評価手段と、
評価値を出力する出力手段と
を備えたことを特徴とする機械翻訳評価装置。 - 前記所定の計算式において、設問パターンに応じて重み付けを行う
請求項1に記載の機械翻訳評価装置。 - 前記機械翻訳評価装置において、
機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出手段を備え、
抽出された文に対して部分目標判定手段が処理する
請求項1又は2に記載の機械翻訳評価装置。 - 記憶手段に予め格納される、又は情報取得手段から取得される、翻訳元言語の翻訳元テキストと、機械翻訳結果である翻訳先テキストと、正解の翻訳結果である参照テキストとを用い、
該翻訳元テキストと、該参照テキストとを比較して予め定義されて記憶手段に格納された設問パターン書式に該当する語句を挿入することで設問パターンを定義する設問パターン定義手段を備えた
請求項1ないし3に記載の機械翻訳評価装置。 - 記憶手段に予め格納される、又は情報取得手段から取得される、翻訳元言語の翻訳元テキストと、機械翻訳結果である翻訳先テキストと、正解の翻訳結果である参照テキストとを用い、
該翻訳元テキストと、該参照テキストとを比較して予め定義された設問の中から使用する設問を選択する設問設定手段と、
選択された設問を参照して予め定義されて記憶手段に格納された設問パターン書式に該当する語句を挿入することで設問パターンを定義する設問パターン定義手段と
を備えた
請求項1ないし3に記載の機械翻訳評価装置。 - 機械翻訳結果を自動的に評価する機械翻訳評価方法であって、
評価事項である部分目標について機械翻訳結果が適合するか否かを判定するための設問パターンを用い、
部分目標判定手段が、機械翻訳結果である翻訳先テキストに対して、少なくとも該設問パターンに適合するか否かの結果を含む条件から部分目標に係る判定を行う部分目標判定ステップ、
評価手段が、該部分目標判定において適合した設問パターンと適合しなかった設問パターンに関する情報の少なくともいずれかに基づく所定の計算式を用いて機械翻訳結果の評価値を算出する評価ステップ、
出力手段が、評価値を出力する出力ステップ
を含むことを特徴とする機械翻訳評価方法。 - 前記所定の計算式において、設問パターンに応じて重み付けを行う
請求項6に記載の機械翻訳評価方法。 - 前記機械翻訳評価方法において、
文単位抽出手段が、機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出ステップを含み、
抽出された文に対して部分目標判定ステップ以下を処理する
請求項6又は7に記載の機械翻訳評価方法。 - 翻訳元言語の翻訳元テキストと、機械翻訳結果である翻訳先テキストと、正解の翻訳結果である参照テキストとを用い、
設問パターン定義手段が、該翻訳元テキストと、該参照テキストとを比較して予め定義された設問パターン書式に該当する語句を挿入することで設問パターンを定義する設問パターン定義ステップを含み、
該定義された設問パターンを用いる
請求項6ないし8に記載の機械翻訳評価方法。 - 翻訳元言語の翻訳元テキストと、機械翻訳結果である翻訳先テキストと、正解の翻訳結果である参照テキストとを用い、
設問設定手段が、該翻訳元テキストと、該参照テキストとを比較して予め定義された設問の中から使用する設問を選択する設問設定ステップ、
設問パターン定義手段が、
選択された設問を参照して予め定義された設問パターン書式に該当する語句を挿入することで設問パターンを定義する設問パターン定義ステップ
を含み、
該定義された設問パターンを用いる
請求項6ないし8に記載の機械翻訳評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066836A JP5207016B2 (ja) | 2006-03-13 | 2006-03-13 | 機械翻訳評価装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066836A JP5207016B2 (ja) | 2006-03-13 | 2006-03-13 | 機械翻訳評価装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007241910A true JP2007241910A (ja) | 2007-09-20 |
JP5207016B2 JP5207016B2 (ja) | 2013-06-12 |
Family
ID=38587349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006066836A Expired - Fee Related JP5207016B2 (ja) | 2006-03-13 | 2006-03-13 | 機械翻訳評価装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5207016B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102138573B1 (ko) * | 2019-01-24 | 2020-07-28 | 주식회사 크라우드웍스 | 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치 |
KR102138575B1 (ko) * | 2019-03-12 | 2020-07-29 | 주식회사 크라우드웍스 | 크라우드 소싱 기반의 작업 태스크에 대한 검수를 하는 검수자의 검수 비용 산출 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61245279A (ja) * | 1985-04-24 | 1986-10-31 | Hitachi Ltd | 翻訳方式及び装置 |
-
2006
- 2006-03-13 JP JP2006066836A patent/JP5207016B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61245279A (ja) * | 1985-04-24 | 1986-10-31 | Hitachi Ltd | 翻訳方式及び装置 |
Non-Patent Citations (8)
Title |
---|
CSNG200301543005; 井佐原 均 外11名: '開発者の視点からの機械翻訳システムの技術的評価-テストセットを用いた品質評価法-' 自然言語処理 第3巻第3号, 19960710, p.83-102, 言語処理学会 * |
CSNG200400074011; 安田 圭志 外4名: '対訳コーパスを用いた翻訳品質自動評価法' 情報処理学会論文誌 第43巻第7号, 20020715, p.2108-2117, 社団法人情報処理学会 * |
CSNG200501418008; 隅田 英一郎 外2名: '機械翻訳システム評価法の最前線' 情報処理 第46巻第5号, 20050515, p.552-557, 社団法人情報処理学会 * |
CSNJ200710020078; 安田 圭志 外5名: '翻訳一対比較法の自動化に関する検討' 第65回(平成15年)全国大会講演論文集(5) , 20030325, p.5-307〜5-310, 社団法人情報処理学会 * |
JPN6012008117; 井佐原 均 外11名: '開発者の視点からの機械翻訳システムの技術的評価-テストセットを用いた品質評価法-' 自然言語処理 第3巻第3号, 19960710, p.83-102, 言語処理学会 * |
JPN6012008118; 安田 圭志 外4名: '対訳コーパスを用いた翻訳品質自動評価法' 情報処理学会論文誌 第43巻第7号, 20020715, p.2108-2117, 社団法人情報処理学会 * |
JPN6012008119; 安田 圭志 外5名: '翻訳一対比較法の自動化に関する検討' 第65回(平成15年)全国大会講演論文集(5) , 20030325, p.5-307〜5-310, 社団法人情報処理学会 * |
JPN6012008120; 隅田 英一郎 外2名: '機械翻訳システム評価法の最前線' 情報処理 第46巻第5号, 20050515, p.552-557, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102138573B1 (ko) * | 2019-01-24 | 2020-07-28 | 주식회사 크라우드웍스 | 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치 |
WO2020153698A1 (ko) * | 2019-01-24 | 2020-07-30 | 주식회사 크라우드웍스 | 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치 |
KR102138575B1 (ko) * | 2019-03-12 | 2020-07-29 | 주식회사 크라우드웍스 | 크라우드 소싱 기반의 작업 태스크에 대한 검수를 하는 검수자의 검수 비용 산출 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5207016B2 (ja) | 2013-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4993762B2 (ja) | 用例ベースの機械翻訳システム | |
US20070112553A1 (en) | System, method, and program for identifying the corresponding translation | |
JP2008276517A (ja) | 訳文評価装置、訳文評価方法およびプログラム | |
Salehi et al. | Predicting the compositionality of multiword expressions using translations in multiple languages | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
Scherrer et al. | Modernising historical Slovene words | |
Banitz | Machine translation: a critical look at the performance of rule-based and statistical machine translation | |
Albadr et al. | Evaluation of machine translation systems and related procedures | |
Adly et al. | Evaluation of Arabic machine translation system based on the universal networking language | |
JP2004220266A (ja) | 機械翻訳装置および機械翻訳方法 | |
Aasha et al. | Machine translation from English to Malayalam using transfer approach | |
JP5207016B2 (ja) | 機械翻訳評価装置及び方法 | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Srivastava et al. | Extraction of reordering rules for statistical machine translation | |
Wang et al. | Modifications of machine translation evaluation metrics by using word embeddings | |
Saini et al. | Relative clause based text simplification for improved english to hindi translation | |
Jusoh et al. | Automated translation machines: Challenges and a proposed solution | |
Khenglawt | Machine translation and its approaches | |
Tambouratzis | Conditional Random Fields versus template-matching in MT phrasing tasks involving sparse training data | |
Fan et al. | Automatic extraction of bilingual terms from a chinese-japanese parallel corpus | |
Xu et al. | Partitioning parallel documents using binary segmentation | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
Vandeghinste et al. | Example-based Translation without Parallel Corpora: First experiments on a prototype | |
Khemakhem et al. | The MIRACL Arabic-English statistical machine translation system for IWSLT 2010 | |
Li et al. | Named entity recognition based on bilingual co-training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120420 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120425 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |