JP6058513B2 - 語順並び替え装置、翻訳装置、方法、及びプログラム - Google Patents
語順並び替え装置、翻訳装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6058513B2 JP6058513B2 JP2013206589A JP2013206589A JP6058513B2 JP 6058513 B2 JP6058513 B2 JP 6058513B2 JP 2013206589 A JP2013206589 A JP 2013206589A JP 2013206589 A JP2013206589 A JP 2013206589A JP 6058513 B2 JP6058513 B2 JP 6058513B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- stack
- action
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
本実施の形態におけるシフトレデュース型の語順並び替え方法を用いた翻訳装置は、入力として図1に示すようなバッファを用いて、図2に示すようなスタックに部分解析結果を保持する。また、解析はアクション定義、統計的に学習されたモデル、文法に従って進められる。
状態は、
各スタック要素は、上記図3の右図で示したような完全な中間英語木を作るための部分解析木を保持する。また、スタック要素sは、定義上は最低限度の情報として下記(4)式が表わす要素を持つとする。
シフトアクションは、バッファの先頭単語を取り出し、スタックに積み、その単語に品詞を割り当てることにより、取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、スタックの先頭要素として追加する操作を行う。下記(5)式は前状態pに対して、シフトアクションを適用した際に、次の状態へと進むことを自然演繹法の推論規則で表している。
挿入アクションは、現在の状態が持つスタック先頭要素の部分解析木が覆う単語列の先頭に「“the”」、「“a/an”」、又は「“no articles”」のいずれかを挿入するように、スタックの先頭要素に格納されている部分解析木を更新する操作であり、下記(6)式により表される。なお、「“the”」を挿入する操作、「“a/an”」を挿入する操作、及び「“no articles”」を挿入する操作の各々が別々の挿入アクションとなる。また、「“no articles”」を挿入する操作に対応する挿入アクションが、スタックの先頭要素に格納されている部分解析木に対応する少なくとも1つの単語の先頭に冠詞を挿入しないことを示す情報を挿入するように、部分解析木を更新する挿入アクションの一例である。
レデュースアクションは、レデュースMRアクションとレデュースSRアクションの2種類を定義する。これらの推論規則は下記(7)式で同一に表記できる。
入力文xに対して作り出せる中間言語木の集合をУとし、y∈Уとなる中間言語木yは、下記(10)式に示すように、状態とアクションのペアの列am−1 0に分解できる。
図4に本実施の形態において定義した素性テンプレートを示す。素性テンプレートとは、素性ベクトルf^(p,a)の特徴を作り出すための雛形である。ある状態pは各スタック要素が下記(13)式からなる情報を持つとする。
モデルの学習は、ある入力文xが与えられたときにできるだけ良いyが出力できる重みベクトルw^を学習することである。これは、一般に教師付き学習と呼ばれる手法で行われ、本実施の形態では平均化パーセプトロンを用いる(非特許文献6:Michael Collins and Brian Roark. Incremental parsing with the perceptron algorithm. In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics,page 111, 2004.)。パーセプトロンの基本的な仕組みは装置からの出力が正解と異なる場合に、正解事例から発火する素性ベクトルを正の向きに、装置の出力事例から発火する素性ベクトルを負の向きにして、重みベクトルに足し合わせることで更新が行われる。結果として、正解事例にはできるだけ正の高いスコアを割り当てるような重みベクトルw^が学習できる。
本発明の実施の形態に係るモデル学習装置について説明する。図5に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図5に示すように入力部10と、演算部20と、出力部50とを備えている。
本発明の実施の形態に係る翻訳装置について説明する。図6に示すように、本発明の実施の形態に係る翻訳装置200は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置200は、機能的には図6に示すように入力部210と、演算部220と、出力部250とを備えている。
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。まず、入力部10により、日本語と英語の対訳となっている文対(対訳データ)の集合が入力され、対訳データ記憶部22に記憶される。そして、モデル学習装置100のROMに記憶されたプログラムを、CPUが実行することにより、図7に示すモデル学習処理ルーチンが実行される。
次に、本発明の実施の形態に係る翻訳装置200の作用について説明する。まず、入力部210により、モデル学習装置100によって学習された翻訳モデルが入力され翻訳モデル記憶部224に記憶される。また、モデル学習装置100によって学習された重みベクトルが入力され重みベクトル記憶部228に記憶される。そして、入力部210により、日本語で記述された文が入力されると、翻訳装置200のROMに記憶されたプログラムを、CPUが実行することにより、図8に示す翻訳処理ルーチンが実行される。
次に、日本語から英語への翻訳を行った実施例について以下説明する。
20、220 演算部
22 対訳データ記憶部
24 中間目的語作成部
26 翻訳モデル学習部
28、224 翻訳モデル記憶部
30 重みベクトル学習部
32、228 重みベクトル記憶部
50、250 出力部
100 モデル学習装置
200 翻訳装置
222 翻訳部
29、225 バッファ
226 探索部
31、227 スタック
230 中間目的語木作成部
232 並び替え部
Claims (8)
- 第1言語の語順に並んだ第1言語とは異なる第2言語で記述された入力文に含まれる各単語を格納したバッファと、
少なくとも1つの単語の形態素解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、
前記バッファに格納された先頭の単語を取り出し、前記取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、
初期状態から、前記入力文の形態素解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各単語と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列を探索する探索部と、
前記探索部によって探索されたアクションの列に従って前記最終状態で作成される、前記スタックの先頭要素に格納されている部分解析木を、前記入力文の形態素解析結果を表す解析木とし、前記解析木をバックトラックすることにより、前記入力文に含まれる各単語を、前記第2言語の語順に並び替える並び替え部と、
を含む語順並び替え装置。 - 前記レデュースアクションは、前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素に格納された前記部分解析木を右側とし、取り出した2番目の要素に格納された前記部分解析木を左側として結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースMRアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素に格納された前記部分解析木を左側とし、取り出した2番目の要素に格納された前記部分解析木を右側として結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースSRアクションを含む請求項1記載の語順並び替え装置。
- 前記複数のアクションは、前記スタックの先頭要素に格納されている前記部分解析木に対応する前記少なくとも1つの単語の先頭に冠詞を挿入するように、前記部分解析木を更新する挿入アクション、及び前記スタックの先頭要素に格納されている前記部分解析木に対応する前記少なくとも1つの単語の先頭に冠詞を挿入しないことを示す情報を挿入するように、前記部分解析木を更新する挿入アクションを更に含む、請求項1又は2記載の語順並び替え装置。
- 前記第1言語で記述された入力文を、前記第2言語で記述された文に翻訳する翻訳装置において、
前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するための予め学習された翻訳モデルに基づいて、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳する翻訳部と、
請求項1〜請求項3の何れか1項記載の語順並び替え装置と、
を含み、
前記語順並び替え装置は、前記翻訳部によって翻訳された、前記第1言語の語順に並んだ前記第2言語で記述された文を、前記第2言語の語順に並び替える
翻訳装置。 - 第1言語の語順に並んだ第1言語とは異なる第2言語で記述された入力文に含まれる各単語を格納したバッファと、少なくとも1つの単語の形態素解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、探索部と、並び替え部とを含む語順並び替え装置の語順並び替え方法であって、
前記探索部は、前記バッファに格納された先頭の単語を取り出し、前記取り出した単語の形態素解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、
初期状態から、前記入力文の形態素解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各単語と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列を探索するステップと、
前記並び替え部は、前記探索部によって探索されたアクションの列に従って前記最終状態で作成される、前記スタックの先頭要素に格納されている部分解析木を、前記入力文の形態素解析結果を表す解析木とし、前記解析木をバックトラックすることにより、前記入力文に含まれる各単語を、前記第2言語の語順に並び替えるステップと、
を含む語順並び替え方法。 - 翻訳部と、語順並び替え装置とを含み、前記第1言語で記述された入力文を、前記第2言語で記述された文に翻訳する翻訳装置の翻訳方法であって、
前記翻訳部は、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するための予め学習された翻訳モデルに基づいて、前記第1言語で記述された入力文を、前記第1言語の語順に並んだ前記第2言語で記述された文に翻訳するステップと、
請求項5記載の語順並び替え方法の各ステップと、
を含み、
前記語順並び替え方法は、前記翻訳部によって翻訳された、前記第1言語の語順に並んだ前記第2言語で記述された文を、前記第2言語の語順に並び替える
翻訳方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載の語順並び替え装置の各部として機能させるためのプログラム。
- コンピュータを、請求項4記載の翻訳装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013206589A JP6058513B2 (ja) | 2013-10-01 | 2013-10-01 | 語順並び替え装置、翻訳装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013206589A JP6058513B2 (ja) | 2013-10-01 | 2013-10-01 | 語順並び替え装置、翻訳装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015072509A JP2015072509A (ja) | 2015-04-16 |
JP6058513B2 true JP6058513B2 (ja) | 2017-01-11 |
Family
ID=53014853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013206589A Active JP6058513B2 (ja) | 2013-10-01 | 2013-10-01 | 語順並び替え装置、翻訳装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6058513B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1465018A (zh) * | 2000-05-11 | 2003-12-31 | 南加利福尼亚大学 | 机器翻译技术 |
JP5780670B2 (ja) * | 2011-09-05 | 2015-09-16 | 日本電信電話株式会社 | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム |
-
2013
- 2013-10-01 JP JP2013206589A patent/JP6058513B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015072509A (ja) | 2015-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102268875B1 (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
US5895446A (en) | Pattern-based translation method and system | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
US10198437B2 (en) | Machine translation device and machine translation method in which a syntax conversion model and a word translation model are combined | |
JPS61105671A (ja) | 自然言語処理装置 | |
JP2008065395A (ja) | 翻訳装置、翻訳方法および翻訳プログラム | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
KR20160138077A (ko) | 기계 번역 시스템 및 방법 | |
KR20120021933A (ko) | 의존관계 포레스트를 이용한 통계적 기계 번역 방법 | |
Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
Ali et al. | Genetic approach for Arabic part of speech tagging | |
JP6112536B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
CN109960803B (zh) | 基于成分句法压缩树的指代消解方法 | |
Vandeghinste et al. | METIS-II: machine translation for low resource languages | |
Jones | Non-hybrid example-based machine translation architectures | |
JP6058513B2 (ja) | 語順並び替え装置、翻訳装置、方法、及びプログラム | |
Gao et al. | Chinese-Naxi machine translation method based on Naxi dependency language model | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
CN116484842A (zh) | 语句纠错的方法及装置、电子设备、存储介质 | |
Venkatapathy et al. | A discriminative approach for dependency based statistical machine translation | |
Cromières et al. | Translation rules with right-hand side lattices | |
JP5380566B2 (ja) | 言語処理装置、プログラムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160914 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6058513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |