JP2012185622A - 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 - Google Patents
対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 Download PDFInfo
- Publication number
- JP2012185622A JP2012185622A JP2011047588A JP2011047588A JP2012185622A JP 2012185622 A JP2012185622 A JP 2012185622A JP 2011047588 A JP2011047588 A JP 2011047588A JP 2011047588 A JP2011047588 A JP 2011047588A JP 2012185622 A JP2012185622 A JP 2012185622A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- pair
- appearance frequency
- frequency information
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】フレーズテーブルと、フレーズペアの取得を試みて、取得できなかった場合、一の記号を取得する記号取得部と、フレーズペアを取得できなかった場合、当該フレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成部と、取得した記号に従って、新しいフレーズペアを生成する、または、2つのフレーズペアを順に繋げた新しいフレーズペアを生成する、または、2つのフレーズペアを逆順に繋げたフレーズペアを生成する、のいずれかを行う新フレーズペア生成部とを具備し、上記の処理を再帰的に行い、フレーズテーブルの各フレーズペアに対するスコアを算出し、当該スコアを各フレーズペアに対応付けて蓄積する対訳フレーズ学習装置により、多数の適切なフレーズペアを学習できる。
【選択図】図1
Description
Pbaは非特許文献7に記載されている通り、以下の数式3で算出できる。
本実施の形態において、複数の階層の対訳フレーズを蓄積する対訳フレーズ学習装置について説明する。
である。また、フレーズペナルティは、例えば、すべてのフレーズに対して「1」である。
(実験)
本実施の形態において、実施の形態1における対訳フレーズ学習装置1が学習したフレーズテーブル101を用いたフレーズベース統計的機械翻訳装置について説明する。
2 フレーズベース統計的機械翻訳装置
101 フレーズテーブル
102 フレーズ出現頻度情報格納部
103 記号出現頻度情報格納部
104 生成フレーズペア取得部
105 フレーズ出現頻度情報更新部
106 記号取得部
107 記号出現頻度情報更新部
108 部分フレーズペア生成部
109 新フレーズペア生成部
110 制御部
111 スコア算出部
112 フレーズテーブル更新部
201 受付部
202 フレーズ取得部
203 文構成部
204 出力部
Claims (5)
- 第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアと当該フレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアを格納し得るフレーズテーブルと、
フレーズペアと、当該フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報を格納し得るフレーズ出現頻度情報格納部と、
新しいフレーズペアを生成する方法を識別する記号と、当該記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報を格納し得る記号出現頻度情報格納部と、
前記1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得する生成フレーズペア取得部と、
フレーズペアを取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新部と、
フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、
前記記号取得部が取得した記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新部と、
フレーズペアを取得できなかった場合、前記取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成部と、
前記記号取得部が取得した記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、前記生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成部と、
前記新フレーズペア生成部が生成したフレーズペアに対して、前記フレーズ出現頻度情報更新部、前記記号取得部、前記記号出現頻度情報更新部、前記部分フレーズペア生成部、および前記新フレーズペア生成部の処理を再帰的に行う制御部と、
前記フレーズ出現頻度情報格納部に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアを前記各フレーズペアに対応付けて蓄積するフレーズテーブル更新部とを具備する対訳フレーズ学習装置。 - 前記生成フレーズペア取得部は、
フレーズペアの確率分布を用いて、第一言語フレーズと第二言語フレーズとを有する生成フレーズペアを取得し、
前記記号取得部は、
フレーズペアを取得できなかった場合、記号の確率分布を用いて、一の記号を取得し、
前記部分フレーズペア生成部は、
フレーズペアを取得できなかった場合、基底測度を用いて、前記生成しようとしたフレーズペアより小さい2つのフレーズペアを生成し、
前記第一の処理は、フレーズペアの基底測度を用いて、新しいフレーズペアを生成する処理であり、
前記スコア算出部は、
前記フレーズ出現頻度情報格納部に格納されている1以上のフレーズ出現頻度情報を用いて、ノンパラメトリックベイズ法に基づいて、フレーズテーブルの各フレーズペアに対するスコアを算出する請求項1記載の対訳フレーズ学習装置。 - 請求項1または請求項2記載の対訳フレーズ学習装置が学習したフレーズテーブルと、
1以上の単語を有する第一言語の文を受け付ける受付部と、
前記受付部が受け付けた文から1以上のフレーズを抽出し、前記フレーズテーブルのスコアを用いて、前記フレーズテーブルから第二言語の1以上のフレーズを取得するフレーズ取得部と、
前記フレーズ取得部が取得した1以上のフレーズから第二言語の文を構成する文構成部と、
前記文構成部が構成した文を出力する出力部とを具備するフレーズベース統計的機械翻訳装置。 - 記憶媒体に、
第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアと当該フレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアであるフレーズテーブルと、
フレーズペアと、当該フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報と、
新しいフレーズペアを生成する方法を識別する記号と、当該記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報とを格納しており、
生成フレーズペア取得部、フレーズ出現頻度情報更新部、記号取得部、記号出現頻度情報更新部、部分フレーズペア生成部、新フレーズペア生成部、制御部、スコア算出部、およびフレーズテーブル更新部により実現される対訳フレーズ学習方法であって、
前記生成フレーズペア取得部が、前記1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有するフレーズペアを取得する生成フレーズペア取得ステップと、
前記フレーズ出現頻度情報更新部が、フレーズペアを取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新ステップと、
前記記号取得部が、フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、
前記記号出現頻度情報更新部が、前記記号取得ステップで取得された記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新ステップと、
フレーズペアを取得できなかった場合、前記取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成ステップと、
前記新フレーズペア生成部が、前記記号取得ステップで取得された記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、前記生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成ステップと、
前記制御部が、前記新フレーズペア生成ステップで生成されたフレーズペアに対して、前記フレーズ出現頻度情報更新ステップ、前記記号取得ステップ、前記記号出現頻度情報更新ステップ、前記部分フレーズペア生成ステップ、および前記新フレーズペア生成ステップの処理を再帰的に行う制御ステップと、
前記スコア算出部が、前記記憶媒体に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出ステップと、
前記フレーズテーブル更新部が、前記スコア算出ステップで算出されたスコアを前記各フレーズペアに対応付けて蓄積するフレーズテーブル更新ステップとを具備する対訳フレーズ学習方法。 - 記憶媒体に、
第一言語の1以上の単語を有する第一言語フレーズと、第二言語の1以上の単語を有する第二言語フレーズとの対であるフレーズペアと当該フレーズペアの出現確率に関する情報であるスコアとを有する1以上のスコア付きフレーズペアであるフレーズテーブルと、
フレーズペアと、当該フレーズペアの出現頻度に関する情報であるF出現頻度情報とを有する1以上のフレーズ出現頻度情報と、
新しいフレーズペアを生成する方法を識別する記号と、当該記号の出現頻度に関する情報であるS出現頻度情報とを有する1以上の記号出現頻度情報とを格納しており、
生成フレーズペア取得部、フレーズ出現頻度情報更新部、記号取得部、記号出現頻度情報更新部、部分フレーズペア生成部、新フレーズペア生成部、制御部、スコア算出部、およびフレーズテーブル更新部により実現される対訳フレーズの生産方法であって、
前記生成フレーズペア取得部が、前記1以上のフレーズ出現頻度情報を用いて、第一言語フレーズと第二言語フレーズとを有する生成フレーズペアを取得する生成フレーズペア取得ステップと、
前記フレーズ出現頻度情報更新部が、フレーズペアを取得できた場合、当該フレーズペアに対応するF出現頻度情報を、予め決められた値だけ増加するフレーズ出現頻度情報更新ステップと、
前記記号取得部が、フレーズペアを取得できなかった場合、1以上の記号出現頻度情報を用いて、一の記号を取得する記号取得部と、
前記記号出現頻度情報更新部が、前記記号取得ステップで取得された記号に対応するS出現頻度情報を、予め決められた値だけ増加する記号出現頻度情報更新ステップと、
フレーズペアを取得できなかった場合、前記取得しようとしたフレーズペアより小さい2つのフレーズペアを生成する部分フレーズペア生成ステップと、
前記新フレーズペア生成部が、前記記号取得ステップで取得された記号に従って、新しいフレーズペアを生成する第一の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、前記生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第二の処理、または、2つのより小さいフレーズペアを生成し、前記1以上のフレーズ出現頻度情報を用いて、生成した2つのフレーズペアを構成する2つの第一言語フレーズを順に繋げた新しい第一言語フレーズと、2つのフレーズペアを構成する2つの第二言語フレーズを逆順に繋げた新しい第二言語フレーズとを有する一つのフレーズペアを生成する第三の処理のいずれかを行う新フレーズペア生成ステップと、
前記制御部が、前記新フレーズペア生成ステップで生成されたフレーズペアに対して、前記フレーズ出現頻度情報更新ステップ、前記記号取得ステップ、前記記号出現頻度情報更新ステップ、前記部分フレーズペア生成ステップ、および前記新フレーズペア生成ステップの処理を再帰的に行う制御ステップと、
前記スコア算出部が、前記記憶媒体に格納されている1以上のフレーズ出現頻度情報を用いて、フレーズテーブルの各フレーズペアに対するスコアを算出するスコア算出ステップと、
前記フレーズテーブル更新部が、前記スコア算出ステップで算出されたスコアを前記各フレーズペアに対応付けて蓄積するフレーズテーブル更新ステップとを具備する対訳フレーズの生産方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011047588A JP5791097B2 (ja) | 2011-03-04 | 2011-03-04 | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011047588A JP5791097B2 (ja) | 2011-03-04 | 2011-03-04 | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012185622A true JP2012185622A (ja) | 2012-09-27 |
JP2012185622A5 JP2012185622A5 (ja) | 2014-03-27 |
JP5791097B2 JP5791097B2 (ja) | 2015-10-07 |
Family
ID=47015671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011047588A Expired - Fee Related JP5791097B2 (ja) | 2011-03-04 | 2011-03-04 | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5791097B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014219809A (ja) * | 2013-05-07 | 2014-11-20 | 国立大学法人奈良先端科学技術大学院大学 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
WO2014203681A1 (ja) * | 2013-06-17 | 2014-12-24 | 独立行政法人情報通信研究機構 | 対訳フレーズ学習装置、統計的機械翻訳装置、対訳フレーズ学習方法、および記録媒体 |
US20160132491A1 (en) * | 2013-06-17 | 2016-05-12 | National Institute Of Information And Communications Technology | Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium |
JP2017199363A (ja) * | 2016-04-21 | 2017-11-02 | 国立研究開発法人情報通信研究機構 | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004446A (ja) * | 2005-06-23 | 2007-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、その方法およびプログラム |
JP2009223548A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 対訳表現処理装置およびプログラム |
-
2011
- 2011-03-04 JP JP2011047588A patent/JP5791097B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004446A (ja) * | 2005-06-23 | 2007-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、その方法およびプログラム |
JP2009223548A (ja) * | 2008-03-14 | 2009-10-01 | Nippon Hoso Kyokai <Nhk> | 対訳表現処理装置およびプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200500630005; 渡辺 太郎 外3名: '階層的句アラインメントを用いた統計的機械翻訳' 電子情報通信学会論文誌 (J87-D-II) 第J87-D-II巻第4号, 20040401, p.978-986, 社団法人電子情報通信学会 * |
CSNG201000460208; 今村 賢治 外2名: '句ベース統計翻訳における構文情報の効果' 言語処理学会第11回年次大会発表論文集 , 20050315, p.867-870, 言語処理学会 * |
JPN6014050599; 渡辺 太郎 外3名: '階層的句アラインメントを用いた統計的機械翻訳' 電子情報通信学会論文誌 (J87-D-II) 第J87-D-II巻第4号, 20040401, p.978-986, 社団法人電子情報通信学会 * |
JPN6014050600; 今村 賢治 外2名: '句ベース統計翻訳における構文情報の効果' 言語処理学会第11回年次大会発表論文集 , 20050315, p.867-870, 言語処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014219809A (ja) * | 2013-05-07 | 2014-11-20 | 国立大学法人奈良先端科学技術大学院大学 | テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置 |
WO2014203681A1 (ja) * | 2013-06-17 | 2014-12-24 | 独立行政法人情報通信研究機構 | 対訳フレーズ学習装置、統計的機械翻訳装置、対訳フレーズ学習方法、および記録媒体 |
JP2015001862A (ja) * | 2013-06-17 | 2015-01-05 | 独立行政法人情報通信研究機構 | 対訳フレーズ学習装置、統計的機械翻訳装置、対訳フレーズ学習方法、およびプログラム |
US20160132491A1 (en) * | 2013-06-17 | 2016-05-12 | National Institute Of Information And Communications Technology | Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium |
JP2017199363A (ja) * | 2016-04-21 | 2017-11-02 | 国立研究開発法人情報通信研究機構 | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5791097B2 (ja) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
US9471561B2 (en) | Adaptive parser-centric text normalization | |
US10025778B2 (en) | Training markov random field-based translation models using gradient ascent | |
US9176936B2 (en) | Transliteration pair matching | |
US20120101804A1 (en) | Machine translation using overlapping biphrase alignments and sampling | |
KR20080014845A (ko) | 1개 국어 및 이용가능한 2개 국어 코퍼스로부터의 연어번역을 위한 컴퓨터 판독가능 매체, 추출 방법 및 추출시스템 | |
US8874433B2 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
WO2014196375A1 (ja) | 翻訳装置、学習装置、翻訳方法、および記録媒体 | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110969028A (zh) | 用于同步翻译的系统和方法 | |
US11669695B2 (en) | Translation method, learning method, and non-transitory computer-readable storage medium for storing translation program to translate a named entity based on an attention score using neural network | |
US20160132491A1 (en) | Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium | |
JP5791097B2 (ja) | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 | |
JP5911098B2 (ja) | 翻訳装置、およびプログラム | |
López-Ludeña et al. | Automatic categorization for improving Spanish into Spanish Sign Language machine translation | |
JP2009064051A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Vandeghinste et al. | Improving the translation environment for professional translators | |
JP2011175500A (ja) | 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム | |
JP5710551B2 (ja) | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
JP6192098B2 (ja) | 対訳フレーズ学習装置、統計的機械翻訳装置、対訳フレーズ学習方法、およびプログラム | |
JP5428199B2 (ja) | 対訳文抽出装置及び対訳文抽出方法 | |
Zeng et al. | Lexicon expansion for latent variable grammars | |
Costa-jussà | An overview of the phrase-based statistical machine translation techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5791097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |