JP5749219B2 - 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム - Google Patents
統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5749219B2 JP5749219B2 JP2012128333A JP2012128333A JP5749219B2 JP 5749219 B2 JP5749219 B2 JP 5749219B2 JP 2012128333 A JP2012128333 A JP 2012128333A JP 2012128333 A JP2012128333 A JP 2012128333A JP 5749219 B2 JP5749219 B2 JP 5749219B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- result
- analysis
- character string
- statistical translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
<システム構成>
本発明の第1の実施の形態に係る統計翻訳装置100は、第1言語(翻訳元言語)の入力文字列と第2言語(翻訳先言語)の正しい出力文字列との対訳を含む対訳データが入力され、統計翻訳モデルを学習する。また、統計翻訳装置100は、学習した統計翻訳モデルを用いて、入力された第1言語の入力文字列を第2言語へ翻訳する。この統計翻訳装置100は、CPUと、RAMと、後述する統計翻訳モデル学習処理ルーチン及び統計翻訳処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、統計翻訳装置100は、入力部10と、演算部20と、出力部30とを備えている。
次に、第1の実施の形態に係る統計翻訳装置100の作用について説明する。まず、対訳として対応がとれている日本語の文字列群と英語の正しい翻訳文である文字列群とからなる対訳データが、統計翻訳装置100に入力されると、統計翻訳装置100によって、入力された対訳データが、第1言語文字列群記憶部21及び第2言語文字列群記憶部22に分かれて格納される。そして、統計翻訳装置100によって、図7に示す統計翻訳モデル学習処理ルーチンが実行される。
次に、本実施の形態で説明した統計翻訳の方法について実験を行った結果を説明する。英語側で構文の情報を利用した日本語から英語への翻訳実験を行った。本発明の主辞に関わる付加的情報を利用しなかった場合の統計翻訳を、比較対象とした。比較対象では、公知の翻訳自動評価方法BLEUにおいて0.311、RIBESにおいて0.733であったものが、本実施の形態で説明した統計翻訳の方法によればBLEUにおいて0.317、RIBESにおいて0.742と改善することを確認した。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
20、220 演算部
21 第1言語文字列群記憶部
22 第2言語文字列群記憶部
24A、25A、29A 形態素解析部
24、224 第1言語解析部
25 第2言語解析部
25B、224B、229B 構文解析部
25C、224C、229C 識別子付与部
26 統計翻訳モデル学習部
27 統計翻訳モデル記憶部
29、229 入力言語解析部
30 出力部
31 統計翻訳部
100、200統計翻訳装置
Claims (8)
- 対訳となる第1言語の文字列及び第2言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、
前記第1言語の文字列に対して形態素解析を含む言語解析処理を行う第1言語解析手段と、
前記第2言語の文字列に対して形態素解析を含む言語解析処理を行う第2言語解析手段と、
前記第1言語解析手段による言語解析処理の結果及び前記第2言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する学習手段と、
を含み、
前記第1言語解析手段による言語解析処理及び前記第2言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する
統計翻訳モデル学習装置。 - 請求項1記載の統計翻訳モデル学習装置によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、
入力された前記第1言語の文字列に対して形態素解析を含む言語解析処理を行う言語解析手段と、
前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する統計翻訳手段と、
を含む統計翻訳装置。 - 前記第1言語解析手段による言語解析処理は、前記構文解析処理を行うと共に前記付加情報を前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記言語解析手段は、前記入力された前記第1言語の文字列に対して構文解析処理を行って、部分構文構造に付与された前記識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記統計翻訳手段は、前記言語解析手段による前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する請求項2記載の統計翻訳装置。 - 対訳となる第1言語の文字列及び第2言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、第1言語解析手段と、第2言語解析手段と、学習手段とを含む統計翻訳モデル学習装置における統計翻訳モデル学習方法であって、
前記第1言語解析手段によって、前記第1言語の文字列に対して形態素解析を含む言語解析処理を行い、
前記第2言語解析手段によって、前記第2言語の文字列に対して形態素解析を含む言語解析処理を行い、
前記学習手段によって、前記第1言語解析手段による言語解析処理の結果及び前記第2言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する
ことを含み、
前記第1言語解析手段による言語解析処理及び前記第2言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する
統計翻訳モデル学習方法。 - 請求項4記載の統計翻訳モデル学習方法によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、言語解析手段と、統計翻訳手段とを含む統計翻訳装置における統計翻訳方法であって、
前記言語解析手段によって、入力された前記第1言語の文字列に対して形態素解析を含む言語解析処理を行い、
前記統計翻訳手段によって、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する
統計翻訳方法。 - 前記第1言語解析手段による言語解析処理は、前記構文解析処理を行うと共に前記付加情報を前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記言語解析手段は、前記入力された前記第1言語の文字列に対して構文解析処理を行って、部分構文構造に付与された前記識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記統計翻訳手段は、前記言語解析手段による前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する請求項5記載の統計翻訳方法。 - コンピュータを、請求項1記載の統計翻訳モデル学習装置の各手段として機能させるためのプログラム。
- コンピュータを、請求項2又は3記載の統計翻訳装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012128333A JP5749219B2 (ja) | 2012-06-05 | 2012-06-05 | 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012128333A JP5749219B2 (ja) | 2012-06-05 | 2012-06-05 | 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013254271A JP2013254271A (ja) | 2013-12-19 |
JP5749219B2 true JP5749219B2 (ja) | 2015-07-15 |
Family
ID=49951741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012128333A Active JP5749219B2 (ja) | 2012-06-05 | 2012-06-05 | 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5749219B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263433A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 統計的機械翻訳機における翻訳モデルの生成方法 |
KR101130457B1 (ko) * | 2004-11-04 | 2012-03-28 | 마이크로소프트 코포레이션 | 트리렛 번역쌍 추출 |
-
2012
- 2012-06-05 JP JP2012128333A patent/JP5749219B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013254271A (ja) | 2013-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210004443A1 (en) | Pinning artifacts for expansion of search keys and search spaces in a natural language understanding (nlu) framework | |
KR102268875B1 (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
US20180314690A1 (en) | Statistical machine translation method using dependency forest | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
JP2008276517A (ja) | 訳文評価装置、訳文評価方法およびプログラム | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
Ringger et al. | Linguistically informed statistical models of constituent structure for ordering in sentence realization | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5410334B2 (ja) | 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム | |
Hamdi et al. | Automatically building a Tunisian lexicon for deverbal nouns | |
JP5911931B2 (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
JP5749219B2 (ja) | 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム | |
JP5780670B2 (ja) | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
Green et al. | NP subject detection in verb-initial Arabic clauses | |
Sennrich et al. | A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge | |
Cahill et al. | Treebank-driven parsing, translation and grammar induction using LFG | |
KR20200101735A (ko) | 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 | |
Ouersighni | Robust rule-based approach in Arabic processing | |
JP6040946B2 (ja) | 語順並べ替え装置、翻訳装置、方法、及びプログラム | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
Wu et al. | Improve syntax-based translation using deep syntactic structures | |
JP2006252290A (ja) | 機械翻訳装置及びコンピュータプログラム | |
JP2014153857A (ja) | 同義述部抽出装置、方法、及びプログラム | |
JP5462894B2 (ja) | 翻訳モデル学習装置、方法、翻訳装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140723 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5749219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |