JP2017084274A - 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム - Google Patents
単語対応付け装置、機械翻訳学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2017084274A JP2017084274A JP2015214659A JP2015214659A JP2017084274A JP 2017084274 A JP2017084274 A JP 2017084274A JP 2015214659 A JP2015214659 A JP 2015214659A JP 2015214659 A JP2015214659 A JP 2015214659A JP 2017084274 A JP2017084274 A JP 2017084274A
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- language sentence
- words
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
まず、本発明の実施形態の概要について説明する。本実施形態は、非特許文献1記載のような統計的機械翻訳を実現する機械翻訳装置において、自動単語対応付け処理を行う前に、原言語に冠詞相当の仮想単語を補完する処理を行うことと、自動単語対応付け処理完了後に補完した仮想単語と仮想単語に関わる単語対応付けを除去してから対訳語句対の対応付けと対訳語句対集合の獲得、及び翻訳モデルの学習を行うように構成することとを特徴とする。
次に、本発明の実施の形態に係る機械翻訳学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る機械翻訳学習装置300は、CPUと、RAMと、後述する機械翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この機械翻訳学習装置300は、機能的には図4に示すように入力部310と、演算部320と、出力部390とを備えている。
次に、本発明の実施の形態に係る機械翻訳装置の構成について説明する。図6に示すように、本発明の実施の形態に係る機械翻訳装置400は、CPUと、RAMと、後述する機械翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この機械翻訳装置400は、機能的には図6に示すように入力部410と、演算部420と、出力部490とを備えている。
次に、本発明の実施の形態に係る機械翻訳学習装置300の作用について説明する。まず、入力部310により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、対訳原言語文データベース322に記憶され、目的言語文の集合が、対訳目的言語文データベース324に記憶される。
次に、本発明の実施の形態に係る機械翻訳装置400の作用について説明する。まず、入力部410により、機械翻訳対象の原言語文を受け付けると、機械翻訳装置400のROMに記憶されたプログラムを、CPUが実行することにより、図8に示す機械翻訳処理ルーチンが実行される。
本実施形態に係る機械翻訳学習装置を利用した機械翻訳システムは日本語から英語への翻訳において翻訳評価尺度の一つであるTER(翻訳誤り率)を、Mosesを利用した一般的な統計的機械翻訳システムと比較して59.08から58.31に改善することができた。
310 入力部
320 演算部
322 対訳原言語文データベース
324 対訳目的言語文データベース
325 統語解析部
326 単語対応付け部
328 翻訳モデル学習部
330 目的言語文データベース
332 言語モデル学習部
333 機械翻訳モデル出力部
334 翻訳モデル
336 言語モデル
338 調整用対訳文データベース
340 重み調整部
342 モデル重み記憶部
350 仮想単語挿入部
352 単語対応推定部
354 仮想単語除去部
390 出力部
400 機械翻訳装置
410 入力部
420 演算部
422 翻訳モデル
424 言語モデル
426 モデル重み記憶部
428 翻訳実行部
490 出力部
Claims (8)
- 対訳となる第1言語文及び第2言語文のペアに含まれる第1言語文について、
前記第2言語の統語要素であって、かつ前記第1言語に存在しない統語要素に対応する予め定義した仮想単語を、前記第1言語文に挿入し、
前記仮想単語を挿入した前記第1言語文に含まれる単語の各々と、前記第2言語文に含まれる単語の各々との単語の対応関係を推定し、
前記推定された単語の対応関係に基づいて、前記仮想単語と対応付けられた前記単語の対応関係を除去し、かつ前記単語の対応関係に含まれる前記仮想単語を除去した結果を単語対応付け結果とする単語対応付け部
を含む、単語対応付け装置。 - 前記第1言語文の統語解析を行う統語解析部を更に含み、
前記単語対応付け部は、前記統語解析部による前記第1言語文の統語解析結果に基づいて、前記第2言語の統語要素であって、かつ前記第1言語に存在しない統語要素に対応する予め定義した仮想単語を、前記第1言語文に挿入する請求項1記載の単語対応付け装置。 - 前記第1言語を日本語とし、
前記第2言語を英語とし、
前記単語対応付け部は、前記英語の冠詞に対応する予め定義した仮想単語を、前記日本語文の名詞に係る単語のうち最も左側にある形容詞、前記名詞の直前、又は前記形容詞を修飾している副詞の直前に挿入する請求項1又は2記載の単語対応付け装置。 - 請求項1〜請求項3の何れか1項記載の単語対応付け装置によって取得した単語対応付け結果に基づいて、前記第1言語の語句が前記第2言語の語句に翻訳される確率を計算したモデルを学習する翻訳モデル学習部
を含む、機械翻訳学習装置。 - 単語対応付け部を含む単語対応付け装置における、単語対応付け方法であって、
前記単語対応付け部は、対訳となる第1言語文及び第2言語文のペアに含まれる第1言語文について、
前記第2言語の統語要素であって、かつ前記第1言語に存在しない統語要素に対応する予め定義した仮想単語を、前記第1言語文に挿入し、
前記仮想単語を挿入した前記第1言語文に含まれる単語の各々と、前記第2言語文に含まれる単語の各々との単語の対応関係を推定し、
前記推定された単語の対応関係に基づいて、前記仮想単語と対応付けられた前記単語の対応関係を除去し、かつ前記単語の対応関係に含まれる前記仮想単語を除去した結果を単語対応付け結果とする
単語対応付け方法。 - 統語解析部が前記第1言語文の統語解析を行うことを更に含み、
前記単語対応付け部により仮想単語を挿入することは、前記統語解析部による前記第1言語文の統語解析結果に基づいて、前記第2言語の統語要素であって、かつ前記第1言語に存在しない統語要素に対応する予め定義した仮想単語を、前記第1言語文に挿入する請求項5記載の単語対応付け方法。 - 翻訳モデル学習部を含む機械翻訳学習装置における、機械翻訳学習方法であって、
前記翻訳モデル学習部は、請求項5又は請求項6記載の単語対応付け方法によって取得した単語対応付け結果に基づいて、前記第1言語の語句が前記第2言語の語句に翻訳される確率を計算したモデルを学習する
機械翻訳学習方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載の単語対応付け装置、又は請求項4記載の機械翻訳学習装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015214659A JP6558696B2 (ja) | 2015-10-30 | 2015-10-30 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015214659A JP6558696B2 (ja) | 2015-10-30 | 2015-10-30 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017084274A true JP2017084274A (ja) | 2017-05-18 |
JP6558696B2 JP6558696B2 (ja) | 2019-08-14 |
Family
ID=58710964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015214659A Active JP6558696B2 (ja) | 2015-10-30 | 2015-10-30 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6558696B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6474873B1 (ja) * | 2017-09-22 | 2019-02-27 | 株式会社みらい翻訳 | クラストークン対応決定装置及び方法、そのためのコンピュータプログラム並びに当該コンピュータプログラムを記録した記憶媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003642A (ja) * | 2007-06-20 | 2009-01-08 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
JP2010198438A (ja) * | 2009-02-26 | 2010-09-09 | National Institute Of Information & Communication Technology | 文の対中の単語対応付装置及びそのコンピュータプログラム |
JP2013218524A (ja) * | 2012-04-09 | 2013-10-24 | National Institute Of Information & Communication Technology | 翻訳装置、およびプログラム |
-
2015
- 2015-10-30 JP JP2015214659A patent/JP6558696B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003642A (ja) * | 2007-06-20 | 2009-01-08 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
JP2010198438A (ja) * | 2009-02-26 | 2010-09-09 | National Institute Of Information & Communication Technology | 文の対中の単語対応付装置及びそのコンピュータプログラム |
JP2013218524A (ja) * | 2012-04-09 | 2013-10-24 | National Institute Of Information & Communication Technology | 翻訳装置、およびプログラム |
Non-Patent Citations (1)
Title |
---|
PHILLIP KOEHN他2名: "Statistical Phrase-Based Translation", PROCEEDINGS OF HLT-NAACL 2003[ONLINE], JPN7018003882, 2003 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6474873B1 (ja) * | 2017-09-22 | 2019-02-27 | 株式会社みらい翻訳 | クラストークン対応決定装置及び方法、そのためのコンピュータプログラム並びに当該コンピュータプログラムを記録した記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6558696B2 (ja) | 2019-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8886514B2 (en) | Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list | |
Pourdamghani et al. | Aligning english strings with abstract meaning representation graphs | |
Durrani et al. | Can markov models over minimal translation units help phrase-based smt? | |
KR20150036041A (ko) | 구문 기반 사전 추출 및 번역 품질 평가 기법 | |
US9311299B1 (en) | Weakly supervised part-of-speech tagging with coupled token and type constraints | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
Chen et al. | A simplification-translation-restoration framework for cross-domain SMT applications | |
KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
Mansouri et al. | State-of-the-art english to persian statistical machine translation system | |
JP6558696B2 (ja) | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム | |
Nakazawa et al. | Alignment by bilingual generation and monolingual derivation | |
CN111178060A (zh) | 一种基于语言模型的韩语分词还原方法 | |
Groves et al. | Hybridity in MT: Experiments on the Europarl corpus | |
Naik et al. | Reducing Gender Bias in Machine Translation through Counterfactual Data Generation | |
Rikters et al. | Combining machine translated sentence chunks from multiple MT systems | |
Wołk et al. | Multi-domain machine translation enhancements by parallel data extraction from comparable corpora | |
Tambouratzis et al. | Machine Translation with Minimal Reliance on Parallel Resources | |
CN112766002A (zh) | 基于动态规划的文本对齐方法及系统 | |
Fu et al. | Phrase-based parallel fragments extraction from comparable corpora | |
Zhu | Weblio pre-reordering statistical machine translation system | |
Bouamor et al. | Web-based validation for contextual targeted paraphrasing | |
Jachmann et al. | Machine-translating English forum posts to Japanese: On pre-editing rules as part of domain adaptation | |
Vandeghinste et al. | Top-down Transfer in Example-based MT | |
Niehues et al. | The Universität Karlsruhe translation system for the EACL-WMT 2009 | |
WO2023148889A1 (ja) | 推定装置、学習装置、推定方法、学習方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20171220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6558696 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |