JP2010198438A - 文の対中の単語対応付装置及びそのコンピュータプログラム - Google Patents
文の対中の単語対応付装置及びそのコンピュータプログラム Download PDFInfo
- Publication number
- JP2010198438A JP2010198438A JP2009043828A JP2009043828A JP2010198438A JP 2010198438 A JP2010198438 A JP 2010198438A JP 2009043828 A JP2009043828 A JP 2009043828A JP 2009043828 A JP2009043828 A JP 2009043828A JP 2010198438 A JP2010198438 A JP 2010198438A
- Authority
- JP
- Japan
- Prior art keywords
- word
- pair
- sentence
- feature
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000000605 extraction Methods 0.000 claims description 79
- 238000003860 storage Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 7
- 238000013519 translation Methods 0.000 description 59
- 230000014616 translation Effects 0.000 description 59
- 238000004364 calculation method Methods 0.000 description 18
- 230000004044 response Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000008571 general function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】単語対応付け装置70は、単語対応付対訳コーパス80と、素性セットを抽出し、文の対の各々における各単語対に対応付ラベルを割当てる素性抽出モジュール84と、素性セットと対応付ラベルとを用いて、CRF単語対応付モデル92の学習を行なうCRFモジュール90と、CRF単語対応付モデル92を用いて入力された文の対の単語を対応付ける対応付モジュール96と、を含む。素性抽出モジュール84は、ダイス係数、POSタグ、語幹、Bi−dic尺度、又は単語対の相対的な文の位置、又はこれら素性のいずれかの組合せを含む、ユニグラム素性を計算する。素性セットはさらに、文脈素性又はマルチグラム素性を含んでもよい。
【選択図】 図2
Description
この発明の一実施の形態は、大型の、文が対応付けられた中国語と英語との対訳コーパスでの単語対応付けに関する。この実施の形態では、機械学習モデルとして、識別的モデル、CRFを適用して、単語対応付けの問題を解決する。ここでは、このモデルをスーパーアライン(Super−Align)と呼ぶ。なぜなら、これは素性の学習に有力な(効率のよい)教師ありモデルだからである。対応付けの問題は、(後述する)ダイス(Dice)、文の対における単語の相対位置(Relpos)、Bi−dic尺度、品詞(part−of−speech:POS)タグ、及び屈折語での語幹といった特徴を与えられた場合の単語対のラベル付け問題として扱われる。さらに、文脈中の単語とPOSタグとが、通常のシーケンシャルなラベル付け問題と同様に、素性として用いられる。
ダイス係数は、文対応付コーパスを用いて2つの単語の密接さを推定するのに用いられる。この係数はまた、非特許文献1でも用いられている。
2つの単語についての第2の尺度パラメータはBi−dic尺度であり、これは対訳辞書中の単語対の共起確率を示す。もし単語対が辞書中の同じエントリに存在すれば、これらを互いに対応付けできる確率は高い。しかし、ひとつの言語に属する多くの単語が、別の言語の単一の単語に常に翻訳できるとは限らない。ソース言語中の単語は、別の言語では複合語として翻訳されうるし、その逆もある。中国語と英語といった、統語的にかなり異なる言語間の翻訳では特にそうである。
このパラメータは対応付行列の対角空間に近接して単語を対応付けする傾向を学習するのに用いられる。Relposは以下のように計算される。
単語のPOSラベルは、この実施の形態では、辞書的な単語のスパースネスを減じるために、両方の言語について素性のパラメータとして用いられる。中国語のテキストと英語のテキストとで用いられるPOSタグ付部は、この実施の形態では同様のPOSタグの組を共有する。異なるPOSタグの組も同じようにうまく働くであろうが、正確さはおそらく低くなるであろう。この実施の形態では、対訳コーパス中の単語にPOSタグが割当てられていると仮定する。
スパースネスを減じるために、屈折語の語幹又は見出し語が用いられる。この実施の形態では、英語にのみ語幹を用いる。この実施の形態では、対訳コーパス中の単語に語幹又は見出し語が割当てられていると仮定する。
現在の単語(ソース及びターゲット)の前後の文脈を用いる。文脈は上述の素性パラメータ、POS及びステム化を含む。
図2を参照して、この発明の一実施の形態にしたがった翻訳モデル生成システム70は、小規模の単語対応付対訳コーパス80と大規模な文対応付対訳コーパス94とから、統計的翻訳モデル76を生成する。この実施の形態では、単語対応付対訳コーパス80を用いてCRF単語対応付モデルの学習を行ない、次にこれを用いて、文対応付対訳コーパスにおいて文の対の単語を対応付ける。
この実施の形態の翻訳モデル生成システム70は以下のように動作する。ダイス係数82は、文対応付対訳からダイス係数計算部74によって生成され、単語対応付対訳コーパス80内の各文対の各単語はセグメント化されかつ適切なPOSタグを付され、さらに翻訳モデル生成システム70は対訳辞書86を使用可能である、と仮定する。
実験的セットアップ
上述の実施の形態は簡潔の目的のため2つの対応付けラベル(「対応あり」と「対応なし」)を用いたシステムを扱ったが、実験では4つの対応付けラベル(強、弱、偽、ヌル)を用いた。さらに、CRF対応付けのために、出願人が用意した中国語と英語との人手で対応付けした基本旅行表現コーパス(Basic Traveler Experssion Corpus:BTEC)を用いた。これは35,384個の文対と369,587個のリンクとからなる。これらのリンクのうち、54.17%が強リンク、25.34%が弱リンク、20.49%が偽リンクである。
単語対応付けの実験において、1000個の文対を取置データとして、また999個の文対をテスト用データとして、ランダムに選択した。最後に、33Kを学習データとして保持した。
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で動作するコンピュータプログラムとによって実現されうる。図13はこの実施の形態で用いられるコンピュータシステム330の外観を示し、図14はコンピュータシステム330のブロック図である。ここに示すコンピュータシステム330は単なる例示であって、他の構成も利用可能である。
この実施の形態では、識別的モデルであるCRFを用いて、教師あり単語対応付けを導入した。対応付けを、シーケンシャルなラベル付問題として扱い、モデルを学習して、単語対の各々に、文中の単語間の関係を示すラベルを付与させた。すなわち、強リンク、弱リンク、偽リンク又はヌルリンクである。単語対には、ダイス係数、相対位置、対訳辞書に基づく類似度、POSタグ及び単語の語幹といった、有用な素性を与えた。さらに、文脈上の素性、すなわち現在の単語対の回りの単語及びPOSタグも規定した。
76 翻訳モデル
80 単語対応付対訳コーパス
82 ダイス係数テーブル
84 素性抽出モジュール
86 対訳辞書
88 学習データセット
90 CRFモジュール
92 CRF単語対応付モデル
94 文対応付対訳コーパス
96 対応付モジュール
98 単語対応付対訳コーパス
100 翻訳モデル生成部
138、258 文対抽出モジュール
140、260 単語対抽出モジュール
142、262 ダイス係数ルックアップモジュール
144、264 POSタグ抽出部
146、268 Bi−dic尺度計算部
150、270 ステム化モジュール
152、272 素性メモリ
154、274 マルチグラム/文脈素性生成部
Claims (8)
- 第1の言語と第2の言語との入力文対において単語を対応付けるための装置であって、
前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含み、前記第1の対訳コーパスでは単語が対応付けられており、さらに
前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含み、前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示すものであり、さらに、
前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
前記CRF単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、を含み、
前記抽出手段は
前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、単語対応付け装置。 - 前記第2の単語は屈折語であり、前記ユニグラム素性の組はさらに、前記単語対の各々における前記第2の言語の単語の語幹又は見出し語を含む、請求項1に記載の装置。
- 前記ユニグラム素性の組はさらに、前記文の対のいずれかの文の先行する単語又は後続の単語について抽出された前記ユニグラム素性のいずれかを含む、請求項1又は請求項2に記載の装置。
- 前記素性の組はさらに、前記ユニグラム素性のマルチグラム組合せを含む、マルチグラム素性の組を含む、請求項1から請求項3のいずれかに記載の装置。
- 前記マルチグラム素性の組は前記ユニグラム素性の2つの組合せを1個又は2個以上含むバイグラム素性の組を含む、請求項4に記載の装置。
- 前記マルチグラム素性の組はさらに、前記ユニグラム素性の3つの組合せを1個又は2個以上含むトライグラム素性の組を含む、請求項5に記載の装置。
- 前記第1及び第2の言語の第2の対訳コーパスを記憶する記憶部をさらに含み、前記第2の対訳コーパスでは単語対応付けされておらず、さらに、
前記学習手段によって前記第2の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第2の対訳コーパス中の文の対を対応付けるための手段を含む、請求項1から請求項6のいずれかに記載の装置。 - コンピュータによって、第1の言語と第2の言語との入力文対において単語を対応付けるための装置を実現するためのコンピュータで実行可能なプログラムであって、前記プログラムは前記コンピュータを、
前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部として機能させ、前記第1の対訳コーパスは単語が対応付けられており、さらに
前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段として機能させ、前記対応付けラベルは前記可能な単語対が対応ありか対応なしかを示すものであり、さらに、
前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
前記CRF単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、として機能させ、
前記抽出手段は
前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009043828A JP5454763B2 (ja) | 2009-02-26 | 2009-02-26 | 文の対中の単語対応付装置及びそのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009043828A JP5454763B2 (ja) | 2009-02-26 | 2009-02-26 | 文の対中の単語対応付装置及びそのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010198438A true JP2010198438A (ja) | 2010-09-09 |
JP5454763B2 JP5454763B2 (ja) | 2014-03-26 |
Family
ID=42823081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009043828A Active JP5454763B2 (ja) | 2009-02-26 | 2009-02-26 | 文の対中の単語対応付装置及びそのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5454763B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084274A (ja) * | 2015-10-30 | 2017-05-18 | 日本電信電話株式会社 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
CN110889456A (zh) * | 2019-12-02 | 2020-03-17 | 深圳大学 | 基于神经网络的共生矩阵特征提取方法、存储介质及终端 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175246B (zh) * | 2019-04-09 | 2021-04-13 | 山东科技大学 | 一种从视频字幕中提取概念词的方法 |
-
2009
- 2009-02-26 JP JP2009043828A patent/JP5454763B2/ja active Active
Non-Patent Citations (7)
Title |
---|
CSNG200100814007; 辻 慶太,芳鐘 冬樹,影浦 峡: '対訳コーパスにおける低頻度語の性質 訳語対自動抽出に向けた基礎研究' 電子情報通信学会技術研究報告 Vol.100 No.200 第100巻 第200号【ISSN】0913-5685, 20000711, p.47-p.54, 社団法人電子情報通信学会 * |
CSNG200800066010; 塚田 元,永田 昌明,隅田 英一郎,黒橋 禎夫: '機械翻訳最新事情:(下)評価型ワークショップの動向と日本からの貢献' 情報処理 第49巻 第2号 第49巻 第2号【ISSN】0447-8053, 20080215, p.194-p.202, 社団法人情報処理学会 * |
JPN6013023958; 塚田 元,永田 昌明,隅田 英一郎,黒橋 禎夫: '機械翻訳最新事情:(下)評価型ワークショップの動向と日本からの貢献' 情報処理 第49巻 第2号 第49巻 第2号【ISSN】0447-8053, 20080215, p.194-p.202, 社団法人情報処理学会 * |
JPN6013023960; 辻 慶太,芳鐘 冬樹,影浦 峡: '対訳コーパスにおける低頻度語の性質 訳語対自動抽出に向けた基礎研究' 電子情報通信学会技術研究報告 Vol.100 No.200 第100巻 第200号【ISSN】0913-5685, 20000711, p.47-p.54, 社団法人電子情報通信学会 * |
JPN7013001861; Phil Blunsom,Trevor Cohn: 'Discriminative word alignment with conditional random fields.' In proceeding of COLING/ACL , 2006, pp.65-72, ACL-44 Proceedings of the 21st International Confe * |
JPN7013001862; Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, Robert L. Mercer: 'The mathematics of statistical machine translation: parameter estimation' Computational Linguistics - Special issue on using large corpora: II Volume 19 Issue 2, 199306, pp.263-311 * |
JPN7013001863; Franz Josef Och, Hermann Ney: 'A systematic comparison of various statistical alignment models' Computational Linguistics Volume 29 Issue 1, 200303, pp.19-51, MIT Press * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084274A (ja) * | 2015-10-30 | 2017-05-18 | 日本電信電話株式会社 | 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム |
CN110889456A (zh) * | 2019-12-02 | 2020-03-17 | 深圳大学 | 基于神经网络的共生矩阵特征提取方法、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
JP5454763B2 (ja) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
US20070011132A1 (en) | Named entity translation | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
US20100088085A1 (en) | Statistical machine translation apparatus and method | |
Costa-Jussá et al. | Statistical machine translation enhancements through linguistic levels: A survey | |
Mori | Word-based partial annotation for efficient corpus construction | |
Singh et al. | Part of speech tagging of Marathi text using trigram method | |
Li et al. | Improving text normalization using character-blocks based models and system combination | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
Huang et al. | Words without boundaries: Computational approaches to Chinese word segmentation | |
Udupa et al. | “They Are Out There, If You Know Where to Look”: Mining Transliterations of OOV Query Terms for Cross-Language Information Retrieval | |
JP5454763B2 (ja) | 文の対中の単語対応付装置及びそのコンピュータプログラム | |
Slayden et al. | Thai sentence-breaking for large-scale SMT | |
Saito et al. | Multi-language named-entity recognition system based on HMM | |
Saini et al. | Relative clause based text simplification for improved english to hindi translation | |
Dhanalakshmi et al. | Chunker for tamil | |
Pretorius et al. | Setswana tokenisation and computational verb morphology: Facing the challenge of a disjunctive orthography | |
Cing et al. | Joint word segmentation and part-of-speech (POS) tagging for Myanmar language | |
JP2006127405A (ja) | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム | |
Hatori et al. | Predicting word pronunciation in Japanese | |
Phodong et al. | Improvement of word alignment in Thai-English statistical machine translation by grammatical attributes identification | |
Bar et al. | Arabic multiword expressions | |
Khemakhem et al. | The MIRACL Arabic-English statistical machine translation system for IWSLT 2010 | |
Gebre | Part of speech tagging for Amharic | |
Phyue | Unknown word detection via syntax analyzer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131022 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5454763 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |