JP5207016B2 - 機械翻訳評価装置及び方法 - Google Patents
機械翻訳評価装置及び方法 Download PDFInfo
- Publication number
- JP5207016B2 JP5207016B2 JP2006066836A JP2006066836A JP5207016B2 JP 5207016 B2 JP5207016 B2 JP 5207016B2 JP 2006066836 A JP2006066836 A JP 2006066836A JP 2006066836 A JP2006066836 A JP 2006066836A JP 5207016 B2 JP5207016 B2 JP 5207016B2
- Authority
- JP
- Japan
- Prior art keywords
- machine translation
- translation
- evaluation
- question
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
自動評価の性能が向上することにより、機械翻訳システムの利用や改良が効率良くできるようになることが期待されるからである。例えば、非特許文献4によれば、自動評価の指標をシステムパラメータのチューニングに利用することにより、翻訳性能が向上したという報告がある。この報告は、自動評価の性能が向上すれば翻訳性能が自動的に向上することを示している。
学習ステップは、予め人手によってランク付けが行なわれているとともに、予め人手によって正解翻訳文が用意されている複数の学習用機械翻訳文それぞれを、それに対する正解翻訳文との間の複数種類の編集距離を用いて、編集距離の種類数に応じた要素からなるベクトルに符号化するステップ、および得られたベクトルを訓練事例としてランク付け規則を学習するステップを備えている。
一般に、ある文を翻訳する際には、英日翻訳で言えば前置詞や不定詞の訳し分けのように翻訳品質を良好に保つために満たすべき条件がひとつ以上存在する。
それらの条件を設問の形で各テスト文に付与したテストセットと、個々の設問に対する回答を自動推定するシステムを作成することにより、従来の手法に比べ個々の翻訳文の品質をより適切に自動評価することが可能となる。
評価値を出力する出力手段とを備えたことを特徴とする。
請求項1又は6に記載の発明によると、部分目標として設問パターンを用い、適合した設問パターンと適合しなかった設問パターンに関する情報というコンピュータ上の処理が容易な指標により機械翻訳結果を評価することができる。
特に、機械翻訳で生じる典型的な誤りについて重点的に評価することが可能であり、1つの文章についても適切な評価が行える。
本発明に係る設問パターンを予め用意して処理する実施例1、設問パターンを自動的に定義する実施例2、さらに設問を選択して設問パターンを定義する実施例3をそれぞれ説述する。
まず機械翻訳結果である翻訳先テキスト(100)を外部記憶装置からの読み込み又はネットワークアダプタからの取得によりCPU(10)に取得すると、文単位抽出部(11)が文単位に分割して抽出する。(S1)
翻訳先テキストの言語によって公知の抽出方法を適宜選択することができるが、例えば日本語であれば読点や段落、改行コードなどをテキストから検索して、その位置で文が終了すると判定することができる。
本発明では、機械翻訳評価を行うために、設問パターンを用いる。設問パターンは外部記憶装置(30)にデータテーブルの形式で格納されており、例えば次の表1のように定義される。
まず日本語を対象とする場合には、あらかじめ漢字を句読点を含まない仮名文に変換した後に処理を行う。第1文を「私は今日の午後、彼を店に連れて行く」と訳した場合には、「わたしはきょうのごごかれをみせにつれていく」と変換する。このような変換は辞書データベース(図示しない)を用いて仮名に置換することで容易に行える。さらに周知の形態素解析処理手段を用いて高精度な変換を行うこともできる。一例としてJUMAN(非特許文献6参照)を用いて処理することができる。
そこで、設問パターンには、「(かれが)はやくくる(こと|の)は」が含まれる、と定義しておき、翻訳先テキストに「かれが」が前置されても、されなくてもよく、続いて「はやくくることは」又は「はやくくるのは」が含まれるか否か、2択で判定できるようにしてある。
このような設問パターンは多数用意しておき、翻訳元テキストも例えば第1文の主語について「(I am|I was|You are|You were|She is)」というように複数の変形を許容するように定義するか、あるいは全ての組み合わせを定義しておくのが望ましい。
これにより、任意の翻訳元テキスト・翻訳先テキストを入力することで、自動的に設問パターンを選択して部分目標を判定することができる。
本発明における評価としては、入力された翻訳先テキスト(100)に対して部分目標判定で設問パターンと合致すると判定された個数と、合致しないと判定された個数とを用いて予め定めた計算式で算出する。
(数1)
評価値 = (合致した個数)/(合致した個数+合致しなかった個数)
により評価値を得る。この場合、評価値が1に近いほど正確な機械翻訳結果であると評価できる。しきい値を用いて、一定の評価値以上の場合に合格、それ未満の場合に不合格などと判定してもよい。
部分目標の達成度をQ、翻訳先テキストと参照テキストとの類似度をSとし、ある翻訳先テキストに対する評価値Aを次の式で定義する。
このQiは部分目標が達成されていれば1、達成されていなければ−1の値を返す。fi は、評価対象の翻訳先テキストに依存して設問テーブル中の項目で判定する場合には1、しない場合には0をとる。(部分目標判定部での選択を基に決定する)
すなわち、予め複数の機械翻訳結果についてfluency(流暢さ)とadequancy(妥当性)を人手によって数値評価し、λを例えば0から0.1ずつ増加させていって、両者の数値評価と評価部で計算されるAとの相関が最大となるときのλを求める。これにより、評価部(13)における評価の高精度化が図られる。
本実施例では図3のように設問パターン定義部(15)をCPU(10)に備え、外部記憶装置(30)には設問パターン書式を予め定義しておく。
設問パターン書式としては表2に示すようなものを用いる
このとき、図示しない同義語データベースを用い、aの同義語a1,a2,a3についても「(a|a1|a2|a3)を含んでいるか?」という設問パターンとして定義してもよい。「含んでいないか」についても同様である。
このとき、設問パターン定義部(15)は「(かれらは|それらは)を含んでいないか」という設問パターンとして定義することができる。
同時に、両者の文の対訳関係が予め定義されているとき、又は周知の対訳関係の抽出処理によって判明するときには、「by herself」が「独りで」と訳されていることから、「ひとりでを含んでいるか?」という設問パターンとなる。
同義語データベースを用いれば、「ひとり(だけ|きり)で|たんどくで|たんしんで を含んでいるか?」という設問パターンを定義できる。
「ようだ」を辞書データベースで検索すると助動詞であることもわかるから、設問パターン定義部(15)はappear toについて「助動詞を含んでいるか?」という設問パターンを定義することができる。
このように、訳語の選択だけでなく、正しい品詞で用いられているかについて部分目標の評価を行うこともできる。
例えば、非特許文献10で示されたテストセットが知られている。
設問は主として文法的な観点からカテゴリ分けされており、上の設問は連鎖動詞に関するものである。
表3は、外部記憶装置(30)に格納される設問データベースの一例である。
翻訳元テキストでは表3に示したような具体的な文の他「*live*by*self」(*は任意、動詞は原形に変換して登録する)などのような形で定義してもよい。
具体的には、表4に示すような設問・設問パターン変換テーブルを外部記憶装置(30)に備えておくのが簡便である。
下段の例では「△△のように」は単なる例示であり、□□を表すようにというさらに有益な情報が含まれているため、「□□を表す」語句を辞書データベースから抽出して代入する。
10 CPU
11 文単位抽出部
12 部分目標判定部
13 評価部
14 出力部
20 モニタ
30 外部記憶装置
40 ネットワークアダプタ
50 キーボード・マウス
Claims (8)
- 機械翻訳結果を自動的に評価する機械翻訳評価装置であって、
記憶手段には、評価事項である複数の部分目標に対応する複数の設問パターンを備え、該設問パターンには少なくとも機械翻訳結果と比較処理する対象となる文字列を定義し、
機械翻訳結果である翻訳先テキストにおいて、単数又は複数の設問パターンに定義された文字列が含まれる、又は含まれないかを順次比較処理することで各部分目標の達成・未達成又は達成度の判定を行う部分目標判定手段と、
該部分目標判定において、全ての部分目標の達成・未達成の数又は達成度に基づき所定の計算式を用いて機械翻訳結果の評価値を算出する評価手段と、
評価値を出力する出力手段と
を備えたことを特徴とする機械翻訳評価装置。 - 前記所定の計算式において、設問パターンに応じて重み付けを行う
請求項1に記載の機械翻訳評価装置。 - 前記機械翻訳評価装置において、
機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出手段を備え、
抽出された文に対して部分目標判定手段が処理する
請求項1又は2に記載の機械翻訳評価装置。 - 記憶手段に予め格納される、又は情報取得手段から取得される、翻訳元言語の翻訳元テキストと、正解の翻訳結果である参照テキストと、辞書データベースとを用い、
該翻訳元テキストに含まれる語句を該辞書データベースで照合した時の訳語又は品詞が、該参照テキストに含まれているか否かを参照し、その結果に応じて該訳語又は品詞を、予め定義されて記憶手段に格納された設問パターン書式に挿入することで設問パターンを定義する設問パターン定義手段を備えた
請求項1ないし3に記載の機械翻訳評価装置。 - 機械翻訳結果を自動的に評価する機械翻訳評価方法であって、
評価事項である複数の部分目標に対応する複数の設問パターンを用い、該設問パターンには少なくとも機械翻訳結果と比較処理する対象となる文字列を定義し、
部分目標判定手段が、機械翻訳結果である翻訳先テキストにおいて、単数又は複数の設問パターンに定義された文字列が含まれる、又は含まれないかを順次比較処理することで各部分目標の達成・未達成又は達成度の判定を行う部分目標判定ステップ、
評価手段が、該部分目標判定において、全ての部分目標の達成・未達成の数又は達成度に基づき所定の計算式を用いて機械翻訳結果の評価値を算出する評価ステップ、
出力手段が、評価値を出力する出力ステップ
を含むことを特徴とする機械翻訳評価方法。 - 前記所定の計算式において、設問パターンに応じて重み付けを行う
請求項5に記載の機械翻訳評価方法。 - 前記機械翻訳評価方法において、
文単位抽出手段が、機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出ステップを含み、
抽出された文に対して部分目標判定ステップ以下を処理する
請求項5又は6に記載の機械翻訳評価方法。 - 翻訳元言語の翻訳元テキストと、正解の翻訳結果である参照テキストと、辞書データベースとを用い、
設問パターン定義手段が、該翻訳元テキストに含まれる語句を該辞書データベースで照合した時の訳語又は品詞が、該参照テキストに含まれているか否かを参照し、その結果に応じて該訳語又は品詞を、予め定義されて記憶手段に格納された設問パターン書式に挿入することで設問パターンを定義する設問パターン定義ステップを含み、
該定義された設問パターンを用いる
請求項5ないし7に記載の機械翻訳評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066836A JP5207016B2 (ja) | 2006-03-13 | 2006-03-13 | 機械翻訳評価装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066836A JP5207016B2 (ja) | 2006-03-13 | 2006-03-13 | 機械翻訳評価装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007241910A JP2007241910A (ja) | 2007-09-20 |
JP5207016B2 true JP5207016B2 (ja) | 2013-06-12 |
Family
ID=38587349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006066836A Expired - Fee Related JP5207016B2 (ja) | 2006-03-13 | 2006-03-13 | 機械翻訳評価装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5207016B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102138573B1 (ko) * | 2019-01-24 | 2020-07-28 | 주식회사 크라우드웍스 | 연관 조건을 이용한 어노테이터를 선별하는 방법 및 장치 |
KR102138575B1 (ko) * | 2019-03-12 | 2020-07-29 | 주식회사 크라우드웍스 | 크라우드 소싱 기반의 작업 태스크에 대한 검수를 하는 검수자의 검수 비용 산출 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61245279A (ja) * | 1985-04-24 | 1986-10-31 | Hitachi Ltd | 翻訳方式及び装置 |
-
2006
- 2006-03-13 JP JP2006066836A patent/JP5207016B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007241910A (ja) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4993762B2 (ja) | 用例ベースの機械翻訳システム | |
US7496496B2 (en) | System and method for machine learning a confidence metric for machine translation | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
EP1703419A1 (en) | Translation judgment device, method, and program | |
Salehi et al. | Predicting the compositionality of multiword expressions using translations in multiple languages | |
Adly et al. | Evaluation of Arabic machine translation system based on the universal networking language | |
JP2004220266A (ja) | 機械翻訳装置および機械翻訳方法 | |
Daðason | Post-correction of Icelandic OCR text | |
JP5207016B2 (ja) | 機械翻訳評価装置及び方法 | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Wang et al. | Modifications of machine translation evaluation metrics by using word embeddings | |
Fan et al. | Automatic extraction of bilingual terms from a chinese-japanese parallel corpus | |
Tambouratzis | Conditional Random Fields versus template-matching in MT phrasing tasks involving sparse training data | |
Khenglawt | Machine translation and its approaches | |
Xu et al. | Partitioning parallel documents using binary segmentation | |
Vandeghinste et al. | Example-based Translation without Parallel Corpora: First experiments on a prototype | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
Khemakhem et al. | The MIRACL Arabic-English statistical machine translation system for IWSLT 2010 | |
JP4812811B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
Kessikbayeva et al. | Impact of Statistical Language Model on Example Based Machine Translation System between Kazakh and Turkish Languages | |
JP3921543B2 (ja) | 機械翻訳装置 | |
Mitamura et al. | Keyword translation accuracy and cross-lingual question answering inchinese and japanese | |
Li et al. | Named entity recognition based on bilingual co-training | |
de Souza et al. | Mt quality estimation for e-commerce data | |
Vassiliou et al. | Evaluating Specifications for Controlled Greek |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120420 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120425 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |