JP4331219B2 - 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 - Google Patents
二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 Download PDFInfo
- Publication number
- JP4331219B2 JP4331219B2 JP2007048894A JP2007048894A JP4331219B2 JP 4331219 B2 JP4331219 B2 JP 4331219B2 JP 2007048894 A JP2007048894 A JP 2007048894A JP 2007048894 A JP2007048894 A JP 2007048894A JP 4331219 B2 JP4331219 B2 JP 4331219B2
- Authority
- JP
- Japan
- Prior art keywords
- bilingual
- word
- model
- corpus
- correspondence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Description
英語:Please put the red jacket on the bed.
中国語:清 把 紅色 的 来克 放 在 床 上
この単語対応モデルを使用して、以下の順方向および逆方向対応結果が得られる。
#(A1)=7//順方向対応の数
#(A2)=7//逆方向対応の数
であり、
中国語/英語対応結果には「on<−>在」があり、英語/中国語対応結果には「on<−>在..上」がある。よって、
#(A1∩A2)=6//順方向対応結果と逆方向対応結果の両方に出現する対応の数(順方向対応結果と逆方向対応結果の両方に出現する対応が1対応とみなされる)
#(A1UA2)=8//順方向と逆方向の対応の総和における対応の数
よって、定義
よって、例文の獲得された対応は、要件を満たす。次いで、A1∩A2に出現しない対応について、「単語対応確率」を使用して、どの対応が正しいか決定される。上記の例では、「on<−>在」と「on<−>在..上」がある。これらの2つの対応の確率がそれぞれ計算され、「on<−>在..上」の確率がより大きいため、「on<−>在..上」が選択される。例文および処理された対応は、ラベル付き集合に保存される。すなわち、以下の結果がラベル付き集合に保存される。
Claims (12)
- 二言語単語対応付け装置であって、
単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するよう構成され、前記単語対応ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練するモデル訓練ユニットと、
前記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うよう構成され、前記順方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けをと、前記逆方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う単語対応付けユニットと、
前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するよう構成され、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する判定ユニットと、
前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して前記二言語単語対応モデルを再訓練するよう構成されているモデル再訓練ユニットと、
前記再訓練された二言語単語対応モデルを使用して前記無ラベル二言語コーパス内の残りの前記二言語文対の再単語対応付けを行うよう構成されている再単語対応付けユニットと、
を備える二言語単語対応付け装置。 - 前記モデル再訓練ユニットは、前記拡張ラベル付き二言語コーパスを使用して前記順方向二言語単語対応モデルを再訓練し、前記拡張ラベル付き二言語コーパスを使用して前記逆方向二言語単語対応モデルを再訓練する、請求項1に記載の二言語単語対応付け装置。
- 前記判定ユニットは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率をさらに計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加する、請求項1に記載の二言語単語対応付け装置。
- 二言語単語対応モデルの訓練装置であって、
単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するよう構成され、前記単語対応ラベル付き二言語コーパスを使用して順方向初期二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向初期二言語単語対応モデルを訓練する初期モデル訓練ユニットと、
前記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うよう構成され、前記順方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う単語対応付けユニットと、
前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するように構成され、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する判定ユニットと、
前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットと、
を備える二言語単語対応モデルの訓練装置。 - 前記モデル訓練ユニットは、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する、請求項4に記載の二言語単語対応モデルの訓練装置。
- 前記判定ユニットは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率を計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加する、請求項4に記載の二言語単語対応モデルの訓練装置。
- 二言語単語対応付け方法であって、
モデル訓練ユニットが単語対応ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する第1ステップと、
単語対応付けユニットが前記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うため、前記順方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う第2ステップと、
判定ユニットが前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するため、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する第3ステップと、
モデル再訓練ユニットが前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して前記二言語単語対応モデルを再訓練する第4ステップと、
再単語対応付けユニットが前記再訓練された二言語単語対応モデルを使用して前記無ラベル二言語コーパス内の残りの前記二言語文対の再単語対応付けを行う第5ステップと、
を含む二言語単語対応付け方法。 - 前記第4ステップは前記拡張ラベル付き二言語コーパスを使用して前記順方向二言語単語対応モデルを再訓練し、前記拡張ラベル付き二言語コーパスを使用して前記逆方向二言語単語対応モデルを再訓練するステップを含む、請求項7に記載の二言語単語対応付け方法。
- 前記第3ステップは前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記判定ユニットが前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率をさらに計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加するステップを含む、請求項7に記載の二言語単語対応付け方法。
- 二言語単語対応モデルの訓練方法であって、
初期モデル訓練ユニットが単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するため、前記単語対応ラベル付き二言語コーパスを使用して順方向初期二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向初期二言語単語対応モデルを訓練する第1ステップと、
単語対応付けユニットが前記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うため、前記順方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う第2ステップと、
判定ユニットが前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するため、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する第3ステップと、
モデル訓練ユニットが前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練する第4ステップと、
を含む二言語単語対応モデルの訓練方法。 - 前記第3ステップは、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練するステップを含む、請求項10に記載の二言語単語対応モデルの訓練方法。
- 前記第3ステップは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率を計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加するステップを含む、請求項10に記載の二言語単語対応モデルの訓練方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006100580727A CN101030197A (zh) | 2006-02-28 | 2006-02-28 | 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007234024A JP2007234024A (ja) | 2007-09-13 |
JP4331219B2 true JP4331219B2 (ja) | 2009-09-16 |
Family
ID=38445092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007048894A Expired - Fee Related JP4331219B2 (ja) | 2006-02-28 | 2007-02-28 | 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7827027B2 (ja) |
JP (1) | JP4331219B2 (ja) |
CN (1) | CN101030197A (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452446A (zh) * | 2007-12-07 | 2009-06-10 | 株式会社东芝 | 目标语言单词变形的方法及装置 |
US8229728B2 (en) * | 2008-01-04 | 2012-07-24 | Fluential, Llc | Methods for using manual phrase alignment data to generate translation models for statistical machine translation |
US8849665B2 (en) * | 2008-01-30 | 2014-09-30 | At&T Intellectual Property I, L.P. | System and method of providing machine translation from a source language to a target language |
US8504354B2 (en) | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
KR20100037813A (ko) * | 2008-10-02 | 2010-04-12 | 삼성전자주식회사 | 통계적 자동 번역 장치 및 방법 |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
JP2010170306A (ja) * | 2009-01-22 | 2010-08-05 | Toshiba Corp | 対訳可逆性適性判断システムおよび機械翻訳システム |
US20120158398A1 (en) * | 2010-12-17 | 2012-06-21 | John Denero | Combining Model-Based Aligner Using Dual Decomposition |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
US10529013B2 (en) * | 2013-07-01 | 2020-01-07 | Intuit Inc. | Identifying business type using public information |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
CN107436865B (zh) * | 2016-05-25 | 2020-10-16 | 阿里巴巴集团控股有限公司 | 一种词对齐训练方法、机器翻译方法及系统 |
CN107704456B (zh) * | 2016-08-09 | 2023-08-29 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
CN107798386B (zh) * | 2016-09-01 | 2022-02-15 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN109992763A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 语言标注处理方法、系统、电子设备及计算机可读介质 |
CN108664999B (zh) * | 2018-05-03 | 2021-02-12 | 北京图森智途科技有限公司 | 一种分类模型的训练方法及其装置、计算机服务器 |
CN110874536B (zh) * | 2018-08-29 | 2023-06-27 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN109857746B (zh) * | 2018-11-09 | 2021-05-04 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
KR102592630B1 (ko) * | 2018-11-21 | 2023-10-23 | 한국전자통신연구원 | 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법 |
US20200401878A1 (en) * | 2019-06-19 | 2020-12-24 | International Business Machines Corporation | Collaborative real-time solution efficacy |
CN111933116B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN112668307B (zh) * | 2020-12-30 | 2022-06-21 | 清华大学 | 一种双语句子自动对齐方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2272091B (en) * | 1992-10-30 | 1996-10-23 | Canon Europa Nv | Apparatus for use in aligning bilingual corpora |
US6304841B1 (en) * | 1993-10-28 | 2001-10-16 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary features |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
US6092034A (en) * | 1998-07-27 | 2000-07-18 | International Business Machines Corporation | Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US7349839B2 (en) * | 2002-08-27 | 2008-03-25 | Microsoft Corporation | Method and apparatus for aligning bilingual corpora |
US7194455B2 (en) * | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7945437B2 (en) * | 2005-02-03 | 2011-05-17 | Shopping.Com | Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language |
US7672830B2 (en) * | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
-
2006
- 2006-02-28 CN CNA2006100580727A patent/CN101030197A/zh active Pending
-
2007
- 2007-02-23 US US11/678,364 patent/US7827027B2/en not_active Expired - Fee Related
- 2007-02-28 JP JP2007048894A patent/JP4331219B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20070203689A1 (en) | 2007-08-30 |
JP2007234024A (ja) | 2007-09-13 |
US7827027B2 (en) | 2010-11-02 |
CN101030197A (zh) | 2007-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4331219B2 (ja) | 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 | |
CN111226222B (zh) | 使用人工神经网络的基于深度上下文的语法错误校正 | |
US8886514B2 (en) | Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list | |
JP4381425B2 (ja) | 二言語単語対応付けモデル訓練方法及び装置、二言語単語対応付け方法及び装置 | |
US9311299B1 (en) | Weakly supervised part-of-speech tagging with coupled token and type constraints | |
CN109284503B (zh) | 翻译语句结束判断方法与系统 | |
US20130054224A1 (en) | Method and system for enhancing text alignment between a source language and a target language during statistical machine translation | |
US11775763B2 (en) | Weakly supervised and explainable training of a machine-learning-based named-entity recognition (NER) mechanism | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN114254658A (zh) | 翻译评测训练数据的生成方法及装置、设备和存储介质 | |
CN110442877B (zh) | 使用机器人规划作为平行语言语料库 | |
CN109325237B (zh) | 用于机器翻译的完整句识别方法与系统 | |
Vashistha et al. | Active learning for neural machine translation | |
WO2022242535A1 (zh) | 一种翻译方法、翻译装置、翻译设备以及存储介质 | |
US8655640B2 (en) | Automatic word alignment | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
Yoshikawa et al. | Automatic generation of high quality CCGbanks for parser domain adaptation | |
JP2007317000A (ja) | 機械翻訳装置、その方法およびプログラム | |
Esplà-Gomis et al. | Predicting insertion positions in word-level machine translation quality estimation | |
Alfaidi et al. | Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets. | |
KR20160085100A (ko) | 하이브리드 번역 장치 및 그 방법 | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
CN116306601B (zh) | 小语种纠错模型训练方法、纠错方法、系统、介质及设备 | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
WO2023090014A1 (ja) | 学習データ拡張装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090526 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090617 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |