JP2013054607A - 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム - Google Patents
並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013054607A JP2013054607A JP2011193366A JP2011193366A JP2013054607A JP 2013054607 A JP2013054607 A JP 2013054607A JP 2011193366 A JP2011193366 A JP 2011193366A JP 2011193366 A JP2011193366 A JP 2011193366A JP 2013054607 A JP2013054607 A JP 2013054607A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- rearrangement
- learning
- node
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】入力文解析部54で、翻訳元言語で記述された入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現されるように、入力文を解析する。並べ替え部56で、解析された構文木に対して並べ替え規則42を適用して、入力文を並べ替える。並べ替え規則42は、構文木における部分木の複数の子ノードを並べ替えるための並べ替え規則であって、子ノードに付与されたラベルで示される文節内の機能語と翻訳先言語の文法とによる制約と、翻訳元言語と翻訳先言語との単語対応及び翻訳先言語の構文解析結果による制約とが考慮されている。翻訳処理部58は、並べ替え部56で並べ替えられた入力文を翻訳モデル46に基づいて、翻訳先言語に翻訳する。
【選択図】図1
Description
・(文節1)26[主辞単語/名詞]は →文節4に係る
・(文節2)前記し[主辞単語/動詞]た →文節3に係る
・(文節3)WFSTデータベース[主辞単語/名詞]に →文節4に係る
・(文節4)相当する[主辞単語]。 →係り先がない=文の主辞文節
ここで、[ ]は、[ ]前の単語がその文節を代表する主辞単語であること、及びその主辞単語の品詞を表している。そして、ステップ104〜126で、図4に示すように、上記ステップ102の解析結果を構文木(係り受け解析木34)へ変換する。
(b)そのノードに対応する文節が動詞を含まない場合は、その文節内の主辞単語の品詞を表すラベル
(c)そのノードに対応する文節が機能語を含む場合は、その機能語を上記(1)または(2)のラベルの後に追加する。
・係り先の文節ID及び“D”、または“−1O”(係り先のない文節=主辞文節)
・文節の主辞単語の位置、文節の機能語の位置(文節内最初の単語の位置を0とする)
また、*以下の行は文節内の単語の情報(表層、読み、原型、品詞情報、キーワードラベル(人名、地名等の情報、特にない場合は“0”))を表し、末尾行のEOSは文の区切りを表す。この係り受け解析結果は、上記実施の形態のステップ102で説明したような係り受け関係を表している。この解析結果を用いて、入力文を構文木(係り受け解析木34)に変換する(翻訳処理におけるステップ104〜126)。
・子ノードのラベル(各子ノードが記号“|”で区切られている)
・並べ替え結果、数字は子ノードのIDを示し、数字の部分には対応する子ノードのラベルで表現されている文字列が代入される(品詞ラベルなら機能語を除いた文節、Xなら機能語を除いた部分木の被覆する文字列)。ここでは、日本語及び英語の文法に基づいて、並べ替え結果における機能語の位置を定めている。
・並べ替えスコア(部分木構造に対する条件付き確率)
この並べ替え規則を例文に適用すると、以下のような並べ替え候補が得られる(ステップ602)。スコアは各並べ替え規則の並べ替えスコアを乗算したものを用いた(ステップ604)。
・26 状態 遷移 情報 データベース は 相当する に 前記した WFSTデータベース(スコア:0.0044)
・状態 遷移 情報 データベース 26 は 相当する に WFSTデータベース 前記した(スコア:0.4393)
・26 状態 遷移 情報 データベース は 相当する に WFSTデータベース 前記した(スコア:0.0126)
“correspond”の活用形が誤っている他は正しい翻訳結果を得ることができた。
“−”で結ばれた数字はそれぞれ日本語側の単語位置(0から始まる)、及び英語側の単語位置(0から始まる)であり、この対応関係は図の破線で示されている。ここで、一点鎖線はsymalによって重ねあわせた際に消去された単語対(symalの処理の詳細は非特許文献5参照)を示す。
上記のように日本語と英語との並行コーパスとそれぞれの言語解析結果、及び単語対応付け結果を用いて、係り受け解析木の構文木に含まれる部分木に基づいて、並べ替えパターンを抽出することができる。そして、抽出された並べ替えパターンを数え上げ、並べ替え規則集合として構成する。本実施例では、日本語の部分木構造に対する並べ替え結果の条件付き確率を並べ替え規則のスコアとして定義する。従って、
X に ||| 動詞 | 名詞 に ||| 1 0 に ||| 1
がラベル「動詞」が付与されたノード、及びラベル「名詞に」が付与されたノードを子ノードとする部分木全体の25.9%から抽出され、
X に ||| 動詞 | 名詞 に ||| 0 1 に ||| 0
がラベル「動詞」が付与されたノード、及びラベル「名詞に」が付与されたノードを子ノードとする部分木全体の74.1%から抽出された結果として、図9の並べ替え規則が構成されたこととなる。
20 学習部
22 翻訳元言語解析部
24 翻訳先言語解析部
26 単語対応付け部
28 並べ替え規則学習部
30 翻訳学習部
50 翻訳部
52 入力部
54 入力文解析部
56 並べ替え部
58 翻訳処理部
60 出力部
Claims (10)
- 翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る翻訳元解析手段と、
前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する学習手段と、
を含む並べ替え規則学習装置。 - 前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析する翻訳先解析手段を更に含み、
前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習する
請求項1記載の並べ替え規則学習装置。 - 翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る入力文解析手段と、
親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え手段と、
前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する翻訳手段と、
を含む翻訳装置。 - 前記並べ替え手段は、請求項1または請求項2記載の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替える請求項3記載の翻訳装置。
- 翻訳元解析手段と、学習手段とを含む並べ替え規則学習装置における並べ替え規則学習方法であって、
前記翻訳元解析手段は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、
前記学習手段は、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する
並べ替え規則学習方法。 - 翻訳先解析手段を更に含む並べ替え規則学習装置における並べ替え規則学習方法であって、
前記翻訳先解析手段は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析し、
前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習する
請求項5記載の並べ替え規則学習方法。 - 入力文解析手段と、並べ替え手段と、翻訳手段とを含む翻訳装置における翻訳方法であって、
前記入力文解析手段は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、
前記並べ替え手段は、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え、
前記翻訳手段は、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する
翻訳方法。 - 前記並べ替え手段は、請求項1または請求項2記載の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替える請求項7記載の翻訳方法。
- コンピュータを、請求項1または請求項2記載の並べ替え規則学習装置を構成する各手段として機能させるための並べ替え規則学習プログラム。
- コンピュータを、請求項3または請求項4記載の翻訳装置を構成する各手段として機能させるための翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193366A JP5552101B2 (ja) | 2011-09-05 | 2011-09-05 | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193366A JP5552101B2 (ja) | 2011-09-05 | 2011-09-05 | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013054607A true JP2013054607A (ja) | 2013-03-21 |
JP5552101B2 JP5552101B2 (ja) | 2014-07-16 |
Family
ID=48131521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011193366A Active JP5552101B2 (ja) | 2011-09-05 | 2011-09-05 | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5552101B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015028779A (ja) * | 2013-07-30 | 2015-02-12 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 複数のレベルの中間閾値ビットマップを用いた、hdr画像処理におけるゴーストアーティファクトの検出および除去方法 |
WO2015083762A1 (ja) * | 2013-12-04 | 2015-06-11 | 独立行政法人情報通信研究機構 | 学習装置、翻訳装置、学習方法、および翻訳方法 |
JP2015153182A (ja) * | 2014-02-14 | 2015-08-24 | 日本電信電話株式会社 | 語順並べ替え装置、翻訳装置、方法、及びプログラム |
JP2017021596A (ja) * | 2015-07-10 | 2017-01-26 | 日本電信電話株式会社 | 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム |
CN112800754A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 基于预训练语言模型的无监督语法推导方法、装置和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05266069A (ja) * | 1992-03-23 | 1993-10-15 | Nec Corp | 中国語と日本語との間の双方向機械翻訳方式 |
JP2003263433A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 統計的機械翻訳機における翻訳モデルの生成方法 |
JP2004310170A (ja) * | 2003-04-02 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 |
JP2005025474A (ja) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | 機械翻訳装置、コンピュータプログラム及びコンピュータ |
-
2011
- 2011-09-05 JP JP2011193366A patent/JP5552101B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05266069A (ja) * | 1992-03-23 | 1993-10-15 | Nec Corp | 中国語と日本語との間の双方向機械翻訳方式 |
JP2003263433A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 統計的機械翻訳機における翻訳モデルの生成方法 |
JP2004310170A (ja) * | 2003-04-02 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 |
JP2005025474A (ja) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | 機械翻訳装置、コンピュータプログラム及びコンピュータ |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015028779A (ja) * | 2013-07-30 | 2015-02-12 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 複数のレベルの中間閾値ビットマップを用いた、hdr画像処理におけるゴーストアーティファクトの検出および除去方法 |
WO2015083762A1 (ja) * | 2013-12-04 | 2015-06-11 | 独立行政法人情報通信研究機構 | 学習装置、翻訳装置、学習方法、および翻訳方法 |
US9779086B2 (en) | 2013-12-04 | 2017-10-03 | National Institute Of Information And Communications Technology | Learning apparatus, translation apparatus, learning method, and translation method |
JP2015153182A (ja) * | 2014-02-14 | 2015-08-24 | 日本電信電話株式会社 | 語順並べ替え装置、翻訳装置、方法、及びプログラム |
JP2017021596A (ja) * | 2015-07-10 | 2017-01-26 | 日本電信電話株式会社 | 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム |
CN112800754A (zh) * | 2021-01-26 | 2021-05-14 | 浙江香侬慧语科技有限责任公司 | 基于预训练语言模型的无监督语法推导方法、装置和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5552101B2 (ja) | 2014-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | A synchronous hyperedge replacement grammar based approach for AMR parsing | |
US7707026B2 (en) | Multilingual translation memory, translation method, and translation program | |
EP1351158A1 (en) | Machine translation | |
US20050137853A1 (en) | Machine translation | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
Williams et al. | Edinburgh's statistical machine translation systems for WMT16 | |
JP5552101B2 (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5780670B2 (ja) | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム | |
Nguyen et al. | A tree-to-string phrase-based model for statistical machine translation | |
JP5924677B2 (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
JP6590723B2 (ja) | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム | |
CN114528459A (zh) | 一种基于语义的网页信息抽取方法及系统 | |
Kondo et al. | Hidden markov tree model for word alignment | |
Novák | A model of computational morphology and its application to Uralic languages | |
JP6040946B2 (ja) | 語順並べ替え装置、翻訳装置、方法、及びプログラム | |
JP6083645B2 (ja) | 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム | |
CN112016301B (zh) | 一种融合短语先验知识的依存句法分析方法及装置 | |
JP5416021B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
Mohamed et al. | Automatic creation of a word aligned Sinhala-Tamil parallel corpus | |
Shaalan et al. | Automatic rule induction in Arabic to English machine translation framework | |
Lee et al. | IBM Chinese-to-English PatentMT System for NTCIR-9. | |
JP3921543B2 (ja) | 機械翻訳装置 | |
JP2017021596A (ja) | 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム | |
JP5749219B2 (ja) | 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5552101 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |