JP6478382B2 - 翻訳装置 - Google Patents
翻訳装置 Download PDFInfo
- Publication number
- JP6478382B2 JP6478382B2 JP2014185934A JP2014185934A JP6478382B2 JP 6478382 B2 JP6478382 B2 JP 6478382B2 JP 2014185934 A JP2014185934 A JP 2014185934A JP 2014185934 A JP2014185934 A JP 2014185934A JP 6478382 B2 JP6478382 B2 JP 6478382B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- sentence
- weight parameter
- language
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 154
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 7
- 230000014616 translation Effects 0.000 description 142
- 230000014509 gene expression Effects 0.000 description 27
- 230000008859 change Effects 0.000 description 11
- 230000008707 rearrangement Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
一般的に、事前にオフラインで開発データ(学習データ)を用いることによって、重みパラメーターを最適化する方法が知られている。非特許文献1には、オフラインで重みパラメーターを最適化するための代表的な手法であるMinimum Error Rate Trainingについて記載されている。
また、オフラインで重みパラメーターを最適化するのではなく、原言語による入力文が入力されてから重みパラメーターを最適化する手法も存在する。非特許文献2には、入力文の集合を用いて、重みパラメーターの最適化に用いるための開発データを選択する手法が記載されている。また、非特許文献3には、入力文ごとに重みパラメーターを最適化する手法が記載されている。
図1は、本実施形態による翻訳装置の概略機能構成を示すブロック図である。図示するように、翻訳装置1は、入力文取得部11と、語順変更部12と、言語モデル記憶部14と、生成確率計算部15と、第1重みパラメーター記憶部21と、第2重みパラメーター記憶部22と、翻訳用モデル記憶部23と、重みパラメーター変更部24と、翻訳デコーダー部31と、出力部32と、を含んで構成される。翻訳装置1は、翻訳前の言語(以下において、原言語(source language)と言う)によって書かれた文を読み込み、その文の翻訳処理を行い、翻訳語の言語(以下において、目的言語(target language)と言う)による文を出力する。
第1重みパラメーター記憶部21は、目的言語の言語モデルに関する重みパラメーターを記憶する。
第2重みパラメーター記憶部22は、第1重みパラメーター記憶部21に記憶されている目的言語の言語モデルに関する重みパラメーター以外の、すべての重みパラメーターを記憶する。
第1重みパラメーター記憶部21および第2重みパラメーター記憶部22に記憶されている重みパラメーターは、翻訳デコーダー部31が翻訳文候補についてのスコアを計算する際に用いられる重み値である。これらの重みパラメーターは、翻訳デコーダー部31が、それぞれの翻訳用モデルをどのような比率で重み付けて総合的なスコアを算出するかを決定づけるための値である。これらの重みパラメーターを用いたスコアの算出のしかたについては、後で数式を示しながら詳述する。
なお、翻訳モデルにおける原言語および目的言語の対訳として、表層の単語列の対を用いる代わりに、各言語における構文解析木の部分木を用いるようにしても良い。
一方で、元々の入力文の生成確率が意味の異なる並べ替え文の生成確率の最大値よりも低い場合には、重みパラメーター変更部24は、第1重みパラメーター記憶部21から読み出した第1パラメーターの値を減少させる。
そして、scoreiが、翻訳文候補Starget,iに対するスコアである。
出力部32は、翻訳デコーダー部31によって求められた翻訳文を、外部に出力する。
図2は、言語モデルのデータ構成を示す概略図である。原言語の言語モデルは、言語モデル記憶部14に格納されている。また、目的言語の言語モデルは、翻訳用モデルの一部として、翻訳用モデル記憶部23に格納されている。図示するように、言語モデルは、nグラムとその生成確率とを対応付けた構造を有するデータである。すなわち、言語モデルは、単語や文字等の言語要素のn個の連鎖とその生成確率とを対応付けた構造を有するデータである。一例として、言語モデルは、図示するような表形式のデータとして記憶装置に保持される。同図中のデータ例は、対象の言語(原言語または目的言語)が英語である場合の例である。データ例の第1行目は「go−to−the」という3単語連鎖と、その生成確率を示す。この生成確率は、「go−to」という2単語連鎖を前提とする場合に単語「the」を生成する条件付き確率であり、その値は0.2である。また、データ例の第2行目は、「go−to−school」という3単語連鎖と、その生成確率を示す。この生成確率は、「go−to」という2単語連鎖を前提とする場合に単語「school」を生成する条件付き確率であり、その値は0.05である。
なお、前述のとおり、第1重みパラメーター記憶部21に記憶されている目的言語の言語モデル用重みパラメーターについては、そのままの値として使われるのではなく、重みパラメーター変更部24によって変更された値が翻訳デコーダー部31によって使われる。
図5は、翻訳装置1の動作手順を示したフローチャートである。以下、このフローチャートが示す流れに沿って説明する。
重みパラメーター変更部24は、目的言語の言語モデルにより計算した素性値に対する重みを、入力文の生成確率と、並べ替え文の生成確率との関係に応じて変更する。即ち、入力文の生成確率が、当該入力文の語順を並べ替えて得られるいかなる並べ替え文の生成確率よりも高い場合には、目的言語の言語モデル用の予め最適化されている重みパラメーターの値を変更しない。また、入力文の生成確率が、当該入力文の語順を並べ替えて得られる並べ替え文の生成確率よりも低い場合は、翻訳候補文について、目的言語の言語モデルによる素性値を重視しないほうが好ましい翻訳結果が得られる。なぜなら、対訳ではない2言語のコーパスすなわち原言語のデータおよび目的言語のデータでも、事実に基づいた報道など内容が一致する文が含まれていることが期待されるからである。そのため、重みパラメーター変更部24は、目的言語用言語モデルが翻訳結果に与える影響を軽減するよう、目的言語の言語モデルに関する重みパラメーターの値を低くする。一例として、重みパラメーター変更部24は、入力文の生成確率と並べ替え文(例えば、生成確率が最大であるような並べ替え文)の生成確率との比を乗じる形で、目的言語の言語モデルに関する重みパラメーターの値を低くする。これにより、誤った翻訳結果が出力する可能性が低くなり、結果として翻訳精度が向上する。
上記の実施形態では、翻訳候補文のスコアを、各種モデルを用いて求められた素性値の重み付線形和として計算したが、各素性値を用いたその他の計算方法で翻訳候補文のスコアを計算するようにしても良い。
上記の実施形態では、翻訳候補文のスコアの数値が高いほうがより良好な(より正解であると考えられる)翻訳候補文である場合を記載したが、スコアの数値の低いほうがより良好な翻訳候補文であるように、スコアの計算方法を決めても良い。また、スコアの値自体は正負のいずれであっても良い。また、上記の実施形態ではモデルの重みパラメーターの値がより大きい場合に、そのモデルがより重視される方向に作用するような計算方法としていたが、モデルの重みパラメーターの値の大小に関して、逆でも良い。
上記の実施形態では、目的言語の言語モデルの影響を小さくするために、目的言語の言語モデルに関する重みパラメーターの値を小さくするようにした。しかし、逆に、目的言語の言語モデル以外のモデルに関する重みパラメーターの値を大きくすることによって目的言語の言語モデルの影響が小さくなるようにしても良い。重みパラメーターの値自体は他の重みパラメーターとの間の相対的な関係において意味があるものである。
上記の実施形態では、言語要素(文字や単語等)のnグラムの出現頻度に基づいて言語モデルを構築することとした。しかし、その他の形態で、表現の現れやすさを統計的に数値化したものを言語モデルとしても良い。一例として、文を構文解析した結果の部分木とその出現頻度に基づく言語モデルを用いても良い。
11 入力文取得部
12 語順変更部
14 言語モデル記憶部
15 生成確率計算部
21 第1重みパラメーター記憶部(重みパラメーター記憶部)
22 第2重みパラメーター記憶部(重みパラメーター記憶部)
23 翻訳用モデル記憶部
24 重みパラメーター変更部
31 翻訳デコーダー部
32 出力部
Claims (2)
- 原言語による入力文を取得する入力文取得部と、
前記入力文の主語と目的語とを入れ替える処理により語順を変更することによって前記入力文に対応する並べ替え文を生成する語順変更部と、
前記原言語に関する統計情報に基づき、前記入力文の生成確率および前記並べ替え文の生成確率を求める生成確率計算部と、
目的言語に関する統計情報である目的言語用言語モデルと、前記目的言語用言語モデル以外の翻訳処理用の各種モデルを記憶する翻訳用モデル記憶部と、
前記目的言語用言語モデルに関する重みパラメーターと、前記目的言語用言語モデル以外の翻訳処理用の各種モデルに関する重みパラメーターとを記憶する重みパラメーター記憶部と、
前記入力文の生成確率よりも前記並べ替え文の生成確率のほうが大きいほど前記目的言語用言語モデルが翻訳結果に与える影響を軽減するよう、前記重みパラメーター記憶部に記憶されている前記重みパラメーターの値を変更する重みパラメーター変更部と、
前記重みパラメーター変更部によって変更された前記重みパラメーターの値を用いた重み付けを行いながら、且つ前記翻訳用モデル記憶部から読み出した前記目的言語用言語モデルと前記翻訳処理用の各種モデルとに基づいて、前記入力文の翻訳処理を行う翻訳デコーダー部と、
を具備することを特徴とする翻訳装置。 - 前記重みパラメーター変更部は、前記入力文の生成確率よりも前記並べ替え文の生成確率のほうが大きい場合に、前記入力文の生成確率と前記並べ替え文の生成確率との比に応じて前記目的言語用言語モデルが翻訳結果に与える影響を軽減するよう前記重みパラメーターの値を変更する、
ことを特徴とする請求項1に記載の翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014185934A JP6478382B2 (ja) | 2014-09-12 | 2014-09-12 | 翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014185934A JP6478382B2 (ja) | 2014-09-12 | 2014-09-12 | 翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016058003A JP2016058003A (ja) | 2016-04-21 |
JP6478382B2 true JP6478382B2 (ja) | 2019-03-06 |
Family
ID=55758737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014185934A Active JP6478382B2 (ja) | 2014-09-12 | 2014-09-12 | 翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6478382B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102424540B1 (ko) * | 2017-10-16 | 2022-07-25 | 삼성전자주식회사 | 문장 생성 모델의 업데이트 방법 및 문장 생성 장치 |
CN109960814B (zh) * | 2019-03-25 | 2023-09-29 | 北京金山数字娱乐科技有限公司 | 模型参数搜索方法以及装置 |
CN110502746B (zh) * | 2019-07-18 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种在线域更新解码方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338261A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 翻訳装置、翻訳方法及び翻訳プログラム |
JP2007317000A (ja) * | 2006-05-26 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、その方法およびプログラム |
US8977537B2 (en) * | 2011-06-24 | 2015-03-10 | Microsoft Technology Licensing, Llc | Hierarchical models for language modeling |
-
2014
- 2014-09-12 JP JP2014185934A patent/JP6478382B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016058003A (ja) | 2016-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769387B2 (en) | System and method for translating chat messages | |
US7797148B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
KR20220027198A (ko) | 자연어 이해(nlu) 프레임워크에서 검색 키들 및 검색 공간들의 확장을 위한 아티팩트들의 피닝 | |
US10789431B2 (en) | Method and system of translating a source sentence in a first language into a target sentence in a second language | |
JP4852448B2 (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
JP2009140503A (ja) | 音声翻訳方法及び装置 | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
US20220058349A1 (en) | Data processing method, device, and storage medium | |
Yuan | Grammatical error correction in non-native English | |
JP6478382B2 (ja) | 翻訳装置 | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
Filimonov et al. | A joint language model with fine-grain syntactic tags | |
Cuong et al. | A survey of domain adaptation for statistical machine translation | |
JP2017129995A (ja) | 前処理モデル学習装置、方法、及びプログラム | |
CN110222181B (zh) | 一种基于Python的影评情感分析方法 | |
Formiga Fanals et al. | Dealing with input noise in statistical machine translation | |
JP5710551B2 (ja) | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
Van Niekerk | Exploring unsupervised word segmentation for machine translation in the South African context | |
US9311302B2 (en) | Method, system and medium for character conversion between different regional versions of a language especially between simplified chinese and traditional chinese | |
Cate et al. | Bidirectional american sign language to english translation | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
JP2010170303A (ja) | 機械翻訳装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180815 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6478382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |