JP2014232452A - 翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム - Google Patents
翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム Download PDFInfo
- Publication number
- JP2014232452A JP2014232452A JP2013113397A JP2013113397A JP2014232452A JP 2014232452 A JP2014232452 A JP 2014232452A JP 2013113397 A JP2013113397 A JP 2013113397A JP 2013113397 A JP2013113397 A JP 2013113397A JP 2014232452 A JP2014232452 A JP 2014232452A
- Authority
- JP
- Japan
- Prior art keywords
- term
- candidate
- vector
- current
- language sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】原言語文を格納し得る文格納部と、重みベクトルを格納し得る重みベクトル格納部と、現在の翻訳対象の用語である現用語の現用語位置を受け付ける受付部と、現用語位置と、現用語の次に翻訳される候補となる1以上の次用語位置候補を、原言語文から取得する候補取得部と、現用語、次用語候補、および原言語文を用いて、2以上の要素を有するベクトルを取得するベクトル取得部と、ベクトルと重みベクトルとを用いて、1以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、1以上の各次用語位置候補ごとに取得する確率情報取得部と、確率情報を出力する出力部とを具備する翻訳語順情報出力装置により、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる。
【選択図】図1
Description
本実施の形態において、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる翻訳語順情報出力装置について説明する。なお、本明細書において、用語とは、通常、単語であるが、複数の単語、句等でも良い。また、翻訳語順情報出力装置は、通常、統計翻訳において利用される。
図4に、図1乃至図3を参照しつつ詳しく説明した本発明翻訳語順情報出力装置1の出力結果を利用した機械翻訳装置2のブロック図を示す。この機械翻訳装置2は、用語対辞書21、翻訳語順情報出力装置1、目的言語用語取得部22、目的言語文構成部23、目的言語文出力部24を備えており、通常は統計的機械翻訳装置である。
図5に、上記翻訳語順情報出力装置1または機械翻訳装置2で利用される重みベクトルを学習する学習装置を示す。この学習装置3は、重みベクトル格納部12、パラレルコーパス格納部31、用語アライメント情報格納部32、学習部33、重みベクトル蓄積部34を備えている。
重みベクトル蓄積部34は、ステップS611で学習部33が取得した重みベクトルを重みベクトル格納部12に蓄積する。
(実験結果)
(1)実験の前提
(1)the linear distortion cost model feature(LINEAR)
(2)the linear distortion cost model feature and the six MSD bidirectional lexical distortion model features (LINEAR +LEX)
(3)the outbound and inbound distortion model features discriminating nine distortion classes(9-CLASS)
(4)翻訳語順情報出力装置1の一例であるPairモデルの特徴量(PAIR)
(5)翻訳語順情報出力装置1の一例であるSequenceモデルの特徴量(SEQUENCE).
(2)実験結果
2 機械翻訳装置
3 学習装置
11 文格納部
12 ベクトル格納部
13 受付部
14 候補取得部
15 ベクトル取得部
16 確率情報取得部
17 出力部
21 用語対辞書
22 目的言語用語取得部
23 目的言語文構成部
24 目的言語文出力部
31 パラレルコーパス格納部
32 用語アライメント情報格納部
33 学習部
34 ベクトル蓄積部
151 元情報取得手段
152 ベクトル取得手段
Claims (7)
- 翻訳対象の原言語の文である原言語文を格納し得る文格納部と、
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、
前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付部と、
前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である1以上の次用語位置候補を、前記原言語文から取得する候補取得部と、
前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記現用語と前記次用語候補との間の用語である1以上の中間用語を、各々区別して用いて、2以上の要素を有するベクトルを取得するベクトル取得部と、
前記ベクトル取得部が取得したベクトルと前記重みベクトルとを用いて、前記候補取得部が取得した1以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記1以上の各次用語位置候補ごとに取得する確率情報取得部と、
前記確率情報取得部が取得した確率情報を出力する出力部とを具備する翻訳語順情報出力装置。 - 前記ベクトル取得部は、
前記現用語、当該現用語の直前の用語または直後の用語を含む1以上の現用語周辺用語、前記次用語候補、当該次用語候補の直前の用語または直後の用語を含む1以上の次用語周辺用語、前記原言語文における前記現用語と前記次用語候補の相対的な語順に関する情報である語順情報、前記現用語と前記次用語候補との前記原言語文での距離に関する情報である距離情報、および前記現用語と前記次用語候補との間の用語である1以上の中間用語を有する元情報を取得する元情報取得手段と、
前記元情報取得手段が取得した元情報を用いて、2以上の要素を有するベクトルを取得するベクトル取得手段とを具備する請求項1記載の翻訳語順情報出力装置。 - 前記ベクトル取得部は、
前記現用語、当該現用語の直前の用語または直後の用語を含む1以上の現用語周辺用語、前記次用語候補、当該次用語候補の直前の用語または直後の用語を含む1以上の次用語周辺用語、前記原言語文における前記現用語と前記次用語候補の相対的な語順に関する情報である語順情報、および前記現用語と前記次用語候補との前記原言語文での距離に関する情報である距離情報を有する元情報を取得する元情報取得手段と、
前記元情報取得手段が取得した元情報を用いて、2以上の要素を有するベクトルを取得するベクトル取得手段とを具備する請求項1記載の翻訳語順情報出力装置。 - 原言語の用語と目的言語の用語との組である2以上の用語対を格納し得る用語対辞書と、
請求項1から請求項3いずれか記載の翻訳語順情報出力装置と、
前記翻訳語順情報出力装置が出力した1以上の次用語候補の確率情報から次用語を決定し、当該次用語に対応する目的言語の用語を、前記用語対辞書から取得する目的言語用語取得部と、
前記目的言語用語取得部が取得した1以上の目的言語の用語から目的言語文を構成する目的言語文構成部と、
前記目的言語文構成部が構成した目的言語文を出力する目的言語文出力部とを具備する機械翻訳装置。 - ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、
原言語文と目的言語文との組である2以上の対訳文であるパラレルコーパスを格納し得るパラレルコーパス格納部と、
原言語文を構成する用語と目的言語文を構成する用語との対応を示す情報である用語アライメント情報を格納し得る用語アライメント情報格納部と、
前記2以上の各対訳文が有する2以上の各目的言語文の左から右に、各目的言語文の現用語を移動させながら、各目的言語文の現用語の位置である現用語位置と次用語の位置である次用語位置とを取得し、前記用語アライメント情報を用いて、各目的言語文の現用語位置と次用語位置に対応する各原言語文の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置と当該次用語位置以外のすべての次用語位置候補とを取得し、各原言語文の現用語位置と次用語位置とすべての次用語位置候補に関する1または2以上の特徴量を取得し、当該取得した特徴量を用いて、エントロピーを最大にするように重みベクトルを決定し、当該重みベクトルを取得する学習部と、
前記学習部が取得した重みベクトルを、前記重みベクトル格納部に蓄積する重みベクトル蓄積部とを具備する学習装置。 - 記録媒体は、
翻訳対象の原言語の文である原言語文を格納し得る文格納部と、
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部とを具備し、
受付部、候補取得部、ベクトル取得部、確率情報取得部、および出力部により実現される翻訳語順情報出力方法であって、
前記受付部が、前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付ステップと、
前記候補取得部が、前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である1以上の次用語位置候補を、前記原言語文から取得する候補取得ステップと、
前記ベクトル取得部が、前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記原言語文を用いて、2以上の要素を有するベクトルを取得するベクトル取得ステップと、
前記確率情報取得部が、前記ベクトル取得ステップで取得されたベクトルと前記重みベクトルとを用いて、前記候補取得ステップで取得された1以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記1以上の各次用語位置候補ごとに取得する確率情報取得ステップと、
前記出力部が、前記確率情報取得ステップで取得された確率情報を出力する出力ステップとを具備する翻訳語順情報出力方法。 - コンピュータがアクセス可能な記録媒体は、
翻訳対象の原言語の文である原言語文を格納し得る文格納部と、
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部とを有し、コンピュータを、
前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付部と、
前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である1以上の次用語位置候補を、前記原言語文から取得する候補取得部と、
前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記原言語文を用いて、2以上の要素を有するベクトルを取得するベクトル取得部と、
前記ベクトル取得部が取得したベクトルと前記重みベクトルとを用いて、前記候補取得部が取得した1以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記1以上の各次用語位置候補ごとに取得する確率情報取得部と、
前記確率情報取得部が取得した確率情報を出力する出力部として機能させるためのプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013113397A JP6296592B2 (ja) | 2013-05-29 | 2013-05-29 | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム |
PCT/JP2014/063387 WO2014192598A1 (ja) | 2013-05-29 | 2014-05-20 | 翻訳語順情報出力装置、翻訳語順情報出力方法、および記録媒体 |
EP14803390.5A EP3007076A4 (en) | 2013-05-29 | 2014-05-20 | Translation word order information output device, translation word order information output method, and recording medium |
CN201480023752.8A CN105144149B (zh) | 2013-05-29 | 2014-05-20 | 翻译词序信息输出装置、翻译词序信息输出方法及存储介质 |
US14/893,452 US20160085748A1 (en) | 2013-05-29 | 2014-05-20 | Translation word order information output apparatus, translation word order information output method, and storage medium |
KR1020157030874A KR20160016768A (ko) | 2013-05-29 | 2014-05-20 | 번역 어순 정보 출력 장치, 번역 어순 정보 출력 방법 및 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013113397A JP6296592B2 (ja) | 2013-05-29 | 2013-05-29 | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014232452A true JP2014232452A (ja) | 2014-12-11 |
JP6296592B2 JP6296592B2 (ja) | 2018-03-20 |
Family
ID=51988631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013113397A Expired - Fee Related JP6296592B2 (ja) | 2013-05-29 | 2013-05-29 | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20160085748A1 (ja) |
EP (1) | EP3007076A4 (ja) |
JP (1) | JP6296592B2 (ja) |
KR (1) | KR20160016768A (ja) |
CN (1) | CN105144149B (ja) |
WO (1) | WO2014192598A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017025510A (ja) * | 2015-07-17 | 2017-02-02 | 積水化学工業株式会社 | 太陽電池モジュールを搭載した建物 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9817821B2 (en) * | 2012-12-19 | 2017-11-14 | Abbyy Development Llc | Translation and dictionary selection by context |
US9805028B1 (en) * | 2014-09-17 | 2017-10-31 | Google Inc. | Translating terms using numeric representations |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN106484681B (zh) | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
KR102637338B1 (ko) | 2017-01-26 | 2024-02-16 | 삼성전자주식회사 | 번역 보정 방법 및 장치와 번역 시스템 |
CN107368476B (zh) * | 2017-07-25 | 2020-11-03 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
WO2019107623A1 (ko) * | 2017-11-30 | 2019-06-06 | 주식회사 시스트란인터내셔널 | 기계 번역 방법 및 이를 위한 장치 |
US11657277B2 (en) * | 2019-05-23 | 2023-05-23 | Google Llc | Generating neural network outputs using insertion commands |
CN110298045B (zh) * | 2019-05-31 | 2023-03-24 | 北京百度网讯科技有限公司 | 机器翻译方法、装置、设备及存储介质 |
CN113988089A (zh) * | 2021-10-18 | 2022-01-28 | 浙江香侬慧语科技有限责任公司 | 一种基于k近邻的机器翻译方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007068123A1 (en) * | 2005-12-16 | 2007-06-21 | National Research Council Of Canada | Method and system for training and applying a distortion component to machine translation |
JP2007317000A (ja) * | 2006-05-26 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、その方法およびプログラム |
US20080319736A1 (en) * | 2007-06-21 | 2008-12-25 | Microsoft Corporation | Discriminative Syntactic Word Order Model for Machine Translation |
US20150161109A1 (en) * | 2012-01-13 | 2015-06-11 | Google Inc. | Reordering words for machine translation |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08227423A (ja) * | 1995-02-20 | 1996-09-03 | Matsushita Electric Ind Co Ltd | 機械翻訳装置 |
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
CN1661593B (zh) * | 2004-02-24 | 2010-04-28 | 北京中专翻译有限公司 | 一种计算机语言翻译方法及其翻译系统 |
CN101201818A (zh) * | 2006-12-13 | 2008-06-18 | 李萍 | 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法 |
US20080154577A1 (en) * | 2006-12-26 | 2008-06-26 | Sehda,Inc. | Chunk-based statistical machine translation system |
JP2009205357A (ja) * | 2008-02-27 | 2009-09-10 | Toshiba Corp | 中国語の品詞を判定する装置、方法およびプログラム |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN103116575B (zh) * | 2011-11-16 | 2016-06-22 | 富士通株式会社 | 基于层次短语模型的译文词序概率确定方法及装置 |
-
2013
- 2013-05-29 JP JP2013113397A patent/JP6296592B2/ja not_active Expired - Fee Related
-
2014
- 2014-05-20 US US14/893,452 patent/US20160085748A1/en not_active Abandoned
- 2014-05-20 WO PCT/JP2014/063387 patent/WO2014192598A1/ja active Application Filing
- 2014-05-20 KR KR1020157030874A patent/KR20160016768A/ko not_active Application Discontinuation
- 2014-05-20 CN CN201480023752.8A patent/CN105144149B/zh not_active Expired - Fee Related
- 2014-05-20 EP EP14803390.5A patent/EP3007076A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007068123A1 (en) * | 2005-12-16 | 2007-06-21 | National Research Council Of Canada | Method and system for training and applying a distortion component to machine translation |
JP2007317000A (ja) * | 2006-05-26 | 2007-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、その方法およびプログラム |
US20080319736A1 (en) * | 2007-06-21 | 2008-12-25 | Microsoft Corporation | Discriminative Syntactic Word Order Model for Machine Translation |
US20150161109A1 (en) * | 2012-01-13 | 2015-06-11 | Google Inc. | Reordering words for machine translation |
Non-Patent Citations (2)
Title |
---|
GRAHAM NEUBIG ET AL: "Inducing a Discriminative Parser to Optimize Machine Translation Reordering", PROCEEDINGS OF THE 2012 JOINT CONFERENCE ON EMPIRICAL METHODS IN NATURAL OANGUAGE PROCEESSING AND CO, JPN7017002197, 12 July 2012 (2012-07-12), US, pages 843 - 853 * |
大橋 一輝 外3名: "句の翻訳順序パタンを考慮した統計的機械翻訳モデル", 言語処理学会第12回年次大会発表論文集, JPN6017025304, 13 March 2006 (2006-03-13), JP, pages 857 - 860 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017025510A (ja) * | 2015-07-17 | 2017-02-02 | 積水化学工業株式会社 | 太陽電池モジュールを搭載した建物 |
Also Published As
Publication number | Publication date |
---|---|
EP3007076A1 (en) | 2016-04-13 |
JP6296592B2 (ja) | 2018-03-20 |
US20160085748A1 (en) | 2016-03-24 |
CN105144149A (zh) | 2015-12-09 |
CN105144149B (zh) | 2017-10-27 |
EP3007076A4 (en) | 2017-01-25 |
KR20160016768A (ko) | 2016-02-15 |
WO2014192598A1 (ja) | 2014-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6296592B2 (ja) | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム | |
US10061768B2 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
US20170075883A1 (en) | Machine translation apparatus and machine translation method | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
WO2014196375A1 (ja) | 翻訳装置、学習装置、翻訳方法、および記録媒体 | |
Specia et al. | Translation quality and productivity: A study on rich morphology languages | |
JP5002271B2 (ja) | 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム | |
CN108986820B (zh) | 用于语音翻译的方法、装置、电子设备和存储介质 | |
Sajjad et al. | Statistical models for unsupervised, semi-supervised, and supervised transliteration mining | |
JP6160438B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
KR20170008357A (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
US20090063127A1 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP5791097B2 (ja) | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
WO2020241039A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2007317000A (ja) | 機械翻訳装置、その方法およびプログラム | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
Kri et al. | Phrase-based machine translation of Digaru-English | |
Mediani et al. | Improving in-domain data selection for small in-domain sets | |
JP2012079107A (ja) | 翻訳品質自動評価装置とその方法、及び語順最適化機械翻訳学習装置とプログラム | |
JP5116580B2 (ja) | 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
Hoang et al. | Refining lexical translation training scheme for improving the quality of statistical phrase-based translation | |
Wibawa et al. | Augmented Javanese Speech Levels Machine Translation | |
Blaicher | Smt-based text generation for Code-Switching language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6296592 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |