JP2009064137A - 対訳表現アラインメント装置およびそのプログラム - Google Patents
対訳表現アラインメント装置およびそのプログラム Download PDFInfo
- Publication number
- JP2009064137A JP2009064137A JP2007229863A JP2007229863A JP2009064137A JP 2009064137 A JP2009064137 A JP 2009064137A JP 2007229863 A JP2007229863 A JP 2007229863A JP 2007229863 A JP2007229863 A JP 2007229863A JP 2009064137 A JP2009064137 A JP 2009064137A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- pair
- bilingual
- expression pair
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】対訳表現アラインメント装置1は、対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する初期表現対回数計算手段11と、表現対出現回数に基づいて、表現対が対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段13と、表現対同時確率に基づいて、対訳文書対のアラインメントを実施するアラインメント実施手段17と、を備えることを特徴とする。
【選択図】図2
Description
Daniel Marcu and William Wong."A Phrase-Based, Joint Probability Model for Statistical Machine Translation." Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002). 2002. Dragos Stefan Munteanu and Daniel Marcu."Extracting Parallel Sub-Sentential Fragments from Non-Parallel Corpora."Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING-ACL 2006). 2006.
請求項1,3に記載の発明によれば、対訳のない表現を双方に含んだ対訳文書対であっても、一方の相手側の表現に空単語列を割り当てることで、対応付けに意味のない表現対を生成することがない。これによって、本発明は、品質のよい対訳辞書、あるいは、当該辞書を構築するための品質のよい対訳コーパスを別途用意することなく、また、対訳文書対が直訳されているか否かにかかわらず、対訳文書対のアラインメントを精度よく行うことができる。
最初に、図1を参照して、本発明におけるアラインメント(表現アラインメント)の手法の概要について説明する。図1は、本発明のアラインメント手法の概要を説明するための説明図であって、(a)は対訳コーパスの内容を模式的に示し、(b)は従来のアラインメント手法の概要、(c)は本発明のアラインメント手法の概要をそれぞれ示している。
まず、図2を参照して、本発明の実施形態に係る対訳表現アラインメント装置の構成について説明する。図2は、本発明の実施形態に係る対訳表現アラインメント装置の構成を示すブロック図である。
一般的な統計処理を用いると、ある事象xとある事象yとの出現が、ある信頼性確率を持って独立でない(何らかの相関を持っている)か、独立している(相関を持っていると判定できない)か、を分類することができる。また、独立でない事象については、さらに、それらの事象が正の相関を持つ(一方の事象が出現するときにはもう一方の事象が出現しやすく、一方の事象が出現しないときにはもう一方の事象も出現しにくい)か、負の相関を持つ(一方の事象が出現するときにはもう一方の事象が出現しにくく、一方の事象が出現しないときにはもう一方の事象が出現しやすい)かに分類することができる。
処理対象文書対記憶手段171は、処理対象文書対選択手段170で選択された文書対を記憶するものであって、半導体メモリなどの一般的な記憶装置である。
例えば、「(単語1/単語2)−(単語a/単語b)」という、各々2単語以上からなる表現対に対して、アラインメント改善案探索手段177は、「(単語1)−(単語a)」と「(単語2)−(単語b)」の2表現対、あるいは、「(単語1)−(単語b)」と「(単語2)−(単語a)」の2表現対など、各表現を任意に分割した表現の任意の組み合わせからなる表現対を用いて、文書対生成確率を計算する。
例えば、「(単語1)−(単語a)」と「(単語2)−(単語b)」の2表現対に対して、アラインメント改善案探索手段177は、「(単語1)−(単語b)」と「(単語2)−(単語a)」の2表現対を用いて、文書対生成確率を計算する。
例えば、文書対の一方の言語側にある連続した4単語列「…/単語1/単語2/単語3/単語4/…」と、他方の言語側にある連続した4単語列「…/単語a/単語b/単語c/単語d/…」とが存在する場合、アラインメント改善案探索手段177は、「(単語1/単語2)−(単語a/単語b)」という各々2単語からなる表現対と、「(単語3/単語4)−(単語c/単語d)」という各々2単語からなる表現対とによって生成されている表現対集合において、両言語の単語列を過不足なく被覆する1つまたは2つの新たな表現対、例えば、「(単語1/単語2/単語3)−(単語d)」と、「(単語4)−(単語a/単語b/単語c)」の2表現対などを用いて、文書対生成確率を計算する。
なお、表現対出現回数更新手段178は、表現対出現回数の更新後、所定の終了条件を満たすまで、表現対同時確率計算手段13に繰り返しを指示する。この終了条件は、例えば、予め定めた回数であってもよいし、対訳コーパス全体の文書対生成確率の総計の平均改善率が予め定めた値以下に収束することを条件としてもよい。さらに、表現対出現回数更新手段178は、終了条件を満たした場合、処理対象文書対選択手段170に対して、処理を行っていない文書対に対する処理を行う旨を指示する。
図2に戻って、対訳表現アラインメント装置1の構成について説明を続ける。
次に、図4を参照(構成については、適宜図2参照)して、本発明の実施形態に係る対訳表現アラインメント装置の動作について説明する。図4は、本発明の実施形態に係る対訳表現アラインメント装置の動作を示すフローチャートである。
次に、図5を参照(構成については、適宜図2および図3参照)して、本発明の実施形態に係る対訳表現アラインメント装置1のアラインメント実施手段17の動作について説明する。図5は、本発明の実施形態に係る対訳表現アラインメント装置のアラインメント実施手段の動作を示すフローチャートである。なお、図5に示した動作は、図4に示した対訳表現アラインメント装置1の動作のうち、ステップS4の動作に相当する。
10 対訳コーパス記憶手段
11 初期表現回数計算手段
12 表現対出現回数記憶手段
13 表現対同時確率計算手段
14 表現対同時確率記憶手段
15 独立性検定手段
16 独立性検定結果記憶手段
17 アラインメント実施手段
170 処理対象文書選択手段
171 処理対象文書対記憶手段
172 表現対選択手段
173 選択済表現対同時確率記憶手段
174 初期アラインメント生成手段
175 文書中表現対出現回数記憶手段
176 文書中出現回数収集手段
177 アラインメント改善案探索手段
178 表現対出現回数更新手段
18 アラインメント記憶手段
Claims (4)
- 2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行う対訳表現アラインメント装置であって、
前記対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する初期表現対回数計算手段と、
この初期表現対回数計算手段で計算された表現対出現回数および単言語表現対出現回数を前記表現対に対応付けて記憶する表現対出現回数記憶手段と、
この表現対出現回数記憶手段に記憶されている前記表現対出現回数および前記単言語表現対出現回数に基づいて、前記表現対が前記対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段と、
この表現対同時確率計算手段で計算された表現対同時確率に基づいて、前記対訳文書対を過不足なく生成し得る表現対集合を探索するとともに、当該表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求めるアラインメント実施手段と、を備え、
前記アラインメント実施手段は、
前記表現対集合について、前記表現対の各々が前記表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、前記表現対出現回数を更新する表現対出現回数更新手段を備え、順次、更新された表現対出現回数により前記表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施することを特徴とする対訳表現アラインメント装置。 - 前記表現対出現回数記憶手段に記憶されている2言語表現対出現回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により、前記表現対を、それぞれ対応付け可能、対応付け保留および非対応に分類する独立性検定手段を備え、
前記アラインメント実施手段は、前記表現対出現回数更新手段によって、2言語表現対についての前記加算結果を用いて、前記表現対出現回数記憶手段に記憶されている当該表現対の出現回数を更新するとともに、単言語表現対についての前記加算結果をさらに全単言語表現対について総和した数である単言語表現対出現総数、および、単言語表現対および前記対応付け保留に分類された2言語表現対について、前記表現対出現回数を総和した数である単言語・保留表現対既出現総数を用いて、前記表現対出現回数記憶手段に記憶されている単言語表現対および前記対応付け保留に分類された2言語表現対の出現回数の各々を、前記単言語・保留表現対既出現総数に対する前記単言語表現対出現総数の割合を乗ずることで更新することを特徴とする請求項1に記載の対訳表現アラインメント装置。 - 2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行うために、コンピュータを、
前記対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算して、表現対出現回数記憶手段に記憶させる初期表現対回数計算手段、
前記表現対出現回数記憶手段に記憶されている前記表現対出現回数および前記単言語表現対出現回数に基づいて、前記表現対が前記対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段、
この表現対同時確率計算手段で計算された表現対同時確率に基づいて、前記対訳文書対を過不足なく生成し得る表現対集合を探索するとともに、当該表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求めるアラインメント実施手段、として機能させ、
前記アラインメント実施手段は、
前記表現対集合について、前記表現対の各々が前記表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、前記表現対出現回数を更新する表現対出現回数更新手段を備え、順次、更新された表現対出現回数により前記表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施することを特徴とする対訳表現アラインメントプログラム。 - 2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行うために、コンピュータを、
前記対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算して、表現対出現回数記憶手段に記憶させる初期表現対回数計算手段、
前記表現対出現回数記憶手段に記憶されている前記表現対出現回数および前記単言語表現対出現回数に基づいて、前記表現対が前記対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段、
前記表現対出現回数記憶手段に記憶されている2言語表現対出現回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により、前記表現対を、それぞれ対応付け可能、対応付け保留および非対応に分類する独立性検定手段、
前記表現対同時確率計算手段で計算された表現対同時確率に基づいて、前記対訳文書対を過不足なく生成し得る表現対集合を探索するとともに、当該表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求めるアラインメント実施手段、として機能させ、
前記アラインメント実施手段は、
前記表現対集合について、前記表現対の各々が前記表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、2言語表現対についての前記加算結果を用いて、前記表現対出現回数記憶手段に記憶されている当該表現対の出現回数を更新するとともに、単言語表現対についての前記加算結果をさらに全単言語表現対について総和した数である単言語表現対出現総数、および、単言語表現対および前記対応付け保留に分類された2言語表現対について、前記表現対出現回数を総和した数である単言語・保留表現対既出現総数を用いて、前記表現対出現回数記憶手段に記憶されている単言語表現対および前記対応付け保留に分類された2言語表現対の出現回数の各々を、前記単言語・保留表現対既出現総数に対する前記単言語表現対出現総数の割合を乗ずることで更新し、順次、更新された表現対出現回数により前記表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施することを特徴とする対訳表現アラインメントプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007229863A JP4939347B2 (ja) | 2007-09-05 | 2007-09-05 | 対訳表現アラインメント装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007229863A JP4939347B2 (ja) | 2007-09-05 | 2007-09-05 | 対訳表現アラインメント装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009064137A true JP2009064137A (ja) | 2009-03-26 |
JP4939347B2 JP4939347B2 (ja) | 2012-05-23 |
Family
ID=40558687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007229863A Expired - Fee Related JP4939347B2 (ja) | 2007-09-05 | 2007-09-05 | 対訳表現アラインメント装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4939347B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242654A (ja) * | 2012-05-18 | 2013-12-05 | Nippon Hoso Kyokai <Nhk> | 句翻訳モデル学習装置およびそのプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006127405A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
JP2007199793A (ja) * | 2006-01-23 | 2007-08-09 | Fuji Xerox Co Ltd | 単語アライメント例文対訳辞書学習装置と訳語抽出装置 |
-
2007
- 2007-09-05 JP JP2007229863A patent/JP4939347B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006127405A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
JP2007199793A (ja) * | 2006-01-23 | 2007-08-09 | Fuji Xerox Co Ltd | 単語アライメント例文対訳辞書学習装置と訳語抽出装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242654A (ja) * | 2012-05-18 | 2013-12-05 | Nippon Hoso Kyokai <Nhk> | 句翻訳モデル学習装置およびそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4939347B2 (ja) | 2012-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kiyono et al. | An empirical study of incorporating pseudo data into grammatical error correction | |
CN110543574B (zh) | 一种知识图谱的构建方法、装置、设备及介质 | |
JP7223785B2 (ja) | 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
US8209665B2 (en) | Identification of topics in source code | |
CN110427618B (zh) | 对抗样本生成方法、介质、装置和计算设备 | |
WO2017130434A1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
Wang et al. | Joint word alignment and bilingual named entity recognition using dual decomposition | |
WO2020233269A1 (zh) | 由2d图像重建3d模型的方法、装置、设备及存储介质 | |
Shi et al. | Fast (er) exact decoding and global training for transition-based dependency parsing via a minimal feature set | |
US10990763B2 (en) | Bias parameters for topic modeling | |
TW201419014A (zh) | 從電子文件中之表結構提取語義關係 | |
Chen et al. | Omni-word feature and soft constraint for Chinese relation extraction | |
JP2023525731A (ja) | テキストシーケンス生成方法、装置、機器及び媒体 | |
JPWO2017130434A1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
Wijeratne et al. | Sinhala language corpora and stopwords from a decade of sri lankan facebook | |
JP2009217689A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110888876A (zh) | 生成数据库脚本的方法、装置、存储介质及计算机设备 | |
JP7197542B2 (ja) | テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 | |
JP4939347B2 (ja) | 対訳表現アラインメント装置およびそのプログラム | |
US20210263732A1 (en) | Context-based word embedding for programming artifacts | |
US9146918B2 (en) | Compressing data for natural language processing | |
CN105718441A (zh) | 一种查找不同平台间功能相似ui组件的方法和装置 | |
CN111597794B (zh) | 一种基于依存关系的“是”字句关系抽取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120131 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120224 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |