JP2011034220A - 字訳装置、コンピュータプログラム及び記録媒体 - Google Patents
字訳装置、コンピュータプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2011034220A JP2011034220A JP2009178137A JP2009178137A JP2011034220A JP 2011034220 A JP2011034220 A JP 2011034220A JP 2009178137 A JP2009178137 A JP 2009178137A JP 2009178137 A JP2009178137 A JP 2009178137A JP 2011034220 A JP2011034220 A JP 2011034220A
- Authority
- JP
- Japan
- Prior art keywords
- grapheme
- sequence
- phoneme
- string
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】ソース言語の書記素列から、ターゲット言語の音素列を推定するための音素列推定部136と、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、音素列推定処理部136」により推定されたターゲット言語の音素列とから、ターゲット言語の書記素列(文字列)を推定するための文字列推定部140とを含む。ターゲット言語の音素列から書記素列の推定に、ソース言語の書記素列又は音素列の情報を利用することで推定精度を高めることができる。
【選択図】図4
Description
図2に示す例では、中国語のピンイン「LI」だけから対応する文字を決定することはむずかしい。しかし、ピンインに対応する英語の音素(「R IY」及び「L IY」)を考慮すると、どの文字を採用すべきかは容易に分かる。すなわち、中国語の音素だけではなく、英語の音素まで考慮すると中国語の文字を判定するための材料がより豊富になり、文字を正確に予測することが可能になる。同様の事情が英語の書記素列に対しても成立する。すなわち、図3を参照して、中国語の音素34だけではなく、「英語の音素32及び中国語の音素34」からなるグループ52、「英語の書記素30、音素32及び中国語の音素34」からなるグループ50、又は「英語の書記素30及び中国語の音素34」からなるグループ54を文字判定のための判定材料とすることにより、中国語の音素のみから中国語の書記素を推定する場合よりも推定精度が高くなるはずである。本実施の形態は、そうした知見に基づいている。以下の説明では、このうちのグループ50を用いて中国語の書記素36を推定する場合を例にとる。
・Ep=ep1,…,epn=epn 1
・CG=cp1,…,cpn=cpn 1
・CG=cg1,…,cgn=cgn 1
ただしegi,epi,cpi,cgiはそれぞれ、i番目の英語の書記素と、この書記素に対応するi番目の英語の音素、i番目の中国語の音素(ピンイン)、及びi番目の中国語の書記素(文字)を、それぞれ示す。
このモデルは、英語の書記素列から中国語の音素列を推定し、英語の書記素列及び中国語の音素列の双方から得られる素性によって構築されたモデルである。
このモデルは、英語の音素列から中国語の音素列を推定し、英語の音素列及び中国語の音素列の双方から得られる素性によって構築されたモデルである。
このモデルは、英語の書記素列及び音素列から中国語の音素列を推定し、英語の書記素列及び音素列、並びに中国語の音素列を全て組み合わせて得られた素性によって構築されたモデルである。ある英語の書記素列EGに対し、ある中国語の書記素列CGが生ずる確率は、これらのモデルでは以下のように表される。
上記式(1)−(3)についての確率は同様の手法で推定できるので、以下では式(3)を例として確率の推定方法を説明する。式(3)中のP(EP|EG)、P(CP|EG,EP)及びP(CG|EG,EP,CP)がコンテキスト・ウィンドウの大きさk(ここではk=3とする。)に依存するものと仮定すると、これらは次の式(5)−(8)というより簡単な形式で近似できる。一般的に、MEMは式(8)の形の条件確率を与える指数モデルである。式(8)においてλiは推定対象のパラメータであり、fi(a、b)はλiに対応する素性関数である。
上記した書記素と縦方向に、音素列を横方向に、それぞれ配列したものである。行番号をI,列番号をJでそれぞれ表す。音素列及び書記素列の先頭には、それぞれ先頭を表すダミー文字「$」を付しておく。
こうして最初にマトリクスの全セルに値を挿入した後、以下のようなアルゴリズムで書記素列と音素列とのアライメントを行なう。
字訳システム70の動作は、確率モデルを用いる一般的なシステムと同様である。最初に、対照データ100と、アライメント用テーブル102〜106を準備する。アライメント部108により、英語の書記素と英語の音素、英語の音素と中国語の音素、及び中国語の音素と中国語の書記素のアライメントのうち必要なものを行なう。その結果を組み合わせることで、アライメント済対照データ110を作成することができる。ここでは、英語の書記素列から英語の音素列を推定し、英語の書記素列及び英語の音素列から中国語の音素列を推定し、英語の書記素列、英語の音素列、及び中国語の音素列から中国語の書記素列を推定するものとする。したがって、確率モデル130とともに、確率モデル132及び確率モデル134の双方の学習を行なう。
《設定》
実験では、「NEWS09 機械字訳協働タスク」(NEWS2009 machine transliteration shared task)において英語―中国語での字訳において用いられたデータと同じデータを用いた。このデータは「外国の個人名の中国語字訳」(新華社通信、1992)から抽出され、英語と、それに対応する公式な中国語の字訳との対を37,694個含んでいる。元データには、英語と、フランス語と、ドイツ語と、そのほか多くの言語の名前が含まれている。
x∈X={EG,EP,EGP}
y∈Y={φ,CP,JCP}
xは英語側の情報を表す。これについては前述したとおりである。yは中国語側の情報を表す。φは字訳の推定にあたって、中国語側の情報を使用しないことを表す。CPは、字訳の推定にあたって、中国語の音素の情報を使用するが、英語側から得られた情報は使用しないことを示す。これらを組み合わせて、たとえば英語の書記素列を中国語の音素列の推定に使用するが、中国語の書記素列の推定にあたっては、中国語の音素列のみを使用するモデルをM(EG,CP)で表す。ハイブリッドモデルの表記方法は前述したとおりである。
実験結果をテーブル4に示す。
<コンピュータによる実現>
上述の実施の形態は,コンピュータシステムと、当該システム上で実行されるコンピュータプログラムとによって実現可能である。図9はこれら実施の形態で用いられるコンピュータシステム550の外観を示し、図10はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例示であって、さまざまな他の構成が利用可能である。
上記した第1の実施の形態は、英語の書記素列から中国語の書記素列への変換に関するものであった。しかし、本願発明は英語から中国語への書記素の変換のみに適用可能なわけではない。任意の言語の組み合わせに対して上記第1の実施の形態と同様に字訳システムを構築することができる。さらに、上記した第1の実施の形態では、字訳のための確率モデルとしてMEMを使用した。しかし、すでに述べたように、確率モデルとしてはMEMに限らず、CRF及びMIRAを使用することもできる。
(2)左3つ、及び右3つのターゲット言語の音素
(3)ソース言語側の直前の3つの書記素に割り当てられたターゲット言語の書記素(又は音節)。
ここでは、各字訳エンジンによるランクを用いた2つの再ランキング関数grank及びgFscoreを用いて各エンジンの出力を組み合わせる。同じ入力に対するN個の字訳エンジンの出力の集合をXとする。grank(x)はx∈Xを次の式(13)により示される方法により再ランキングする。式(13)において、Ranki(x)はi番目の字訳エンジンにより生成されたN−ベストリスト中における字訳xの順位を示す。
再ランキング関数GME(x)の学習をMEMによって行なう。refがソース言語の単語sの基準字訳、feature(x)をx∈Xの素性ベクトル、y∈{ref,wrong}をxのための学習ラベルとする。
xの素性ベクトルはgrank(x),gFscore(x),1/Ranki(x),及びP(T|S)を含む。ただし、各字訳エンジンの1/Ranki(x)及びP(T|S)を素性として用いる。
EnJa:ソース言語=英語、ターゲット言語=日本語カタカナ
EnKo:ソース下後=英語、ターゲット言語=韓国語(ハングル)
JnJk:ソース言語=日本語固有名詞(英語表記)、ターゲット言語=日本語漢字
EnHi:ソース言語=英語、ターゲット言語=ヒンディー語
EnTa:ソース言語=英語、ターゲット言語=タミル語
EnKa:ソース言語=英語、ターゲット言語=カナラ語
EnRu:ソース言語=英語、ターゲット言語=ロシア語
テーブル6より、EnKa,EnKo及びEnRuにおいてはCRF−Gが最もよい性能を示した。学習コストが高いため、EnChについてはごく少ない繰返回数の学習しか行なわなかった。そのためか、EnChにおいてはCRF−Gの性能は他のモデルの性能より劣っている。EnCh,EnHi,EnJa及びEnTaではMEM−GPが最もよい性能を示した。
テーブル7は、各言語の組み合わせ別に、複数の字訳エンジンの結果を組み合わせた字訳システム(grank,gFscore,gME)と、個々の字訳エンジンのうちで最も性能の高かったもの(1−BEST)との結果を示す。
32 英語の音素列
34 中国語の音素列
36 中国語の書記素列
50,52,54 グループ
70 字訳システム
80 学習部
82 字訳部
86 中国語文字列
100 対照データ
102,104,106 アライメント用テーブル
108 アライメント部
112,118,138 素性抽出部
114,120,122 学習データ
116,124,126 学習部
130,132,134 確率モデル
136 音素列推定処理部
140 文字列推定部
Claims (7)
- ソース言語の書記素列からターゲット言語の書記素列を推定する字訳装置であって、
前記ソース言語の書記素列から、前記ターゲット言語の音素列を推定するためのターゲット言語音素列推定手段と、
前記ソース言語の書記素列若しくは音素列、又は前記ソース言語の書記素列及び音素列と、前記音素列推定手段により推定された前記ターゲット言語の音素列とから、前記ターゲット言語の書記素列を推定するためのターゲット言語書記素列推定手段とを含む、字訳装置。 - 前記ターゲット言語書記素列推定手段は、
前記ソース言語の書記素列若しくは音素列、又は前記ソース言語の書記素列及び音素列と、前記ターゲット言語の音素列とから、前記ソース言語の書記素列に関連する所定の素性ベクトル列を算出するための第1の素性算出手段と、
前記第1の素性算出手段により出力された前記素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高い前記ターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための手段とを含む、請求項1に記載の字訳装置。 - 前記確率モデルは、
前記第1の素性算出手段により出力された前記素性ベクトルの要素のうち、前記ソース言語の書記素列及び前記ターゲット言語の音素列から得られた素性が与えられると、前記ターゲット言語の各書記素に対する確率を与えるための第1の確率モデルと、
前記第1の素性算出手段により出力された前記素性ベクトルの要素のうち、前記ソース言語の書記素列及び音素列、並びに前記ターゲット言語の音素列から得られた素性が与えられると、前記ターゲット言語の各書記素に対する確率を与えるための第2の確率モデルとを、
所定の割合α(0<α<1)で混合した確率モデルを含む、請求項2に記載の字訳装置。 - 前記決定するための手段は、
各々が、前記第1の素性算出手段により出力された前記素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高い前記ターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための複数の確率算出手段と、
前記複数の確率算出手段によりそれぞれ決定された複数の書記素列を再ランキングすることにより、前記ソース言語の書記素列に対応する可能性が最も高いターゲット言語の書記素列を決定するための手段とを含む、請求項2に記載の字訳装置。 - 前記複数確率算出手段の確率モデルは、互いに異なる機械学習アルゴリズムにより学習済である、請求項4に記載の字訳装置。
- コンピュータにより実行されると、当該コンピュータを、請求項1−請求項5のいずれかに記載の字訳装置として動作させる、コンピュータプログラム。
- 請求項6に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009178137A JP5500624B2 (ja) | 2009-07-30 | 2009-07-30 | 字訳装置、コンピュータプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009178137A JP5500624B2 (ja) | 2009-07-30 | 2009-07-30 | 字訳装置、コンピュータプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011034220A true JP2011034220A (ja) | 2011-02-17 |
JP5500624B2 JP5500624B2 (ja) | 2014-05-21 |
Family
ID=43763251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009178137A Expired - Fee Related JP5500624B2 (ja) | 2009-07-30 | 2009-07-30 | 字訳装置、コンピュータプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5500624B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021501903A (ja) * | 2017-09-27 | 2021-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092682A (ja) * | 2003-09-19 | 2005-04-07 | Nippon Hoso Kyokai <Nhk> | 翻字装置、及び翻字プログラム |
JP2007109233A (ja) * | 2005-10-09 | 2007-04-26 | Toshiba Corp | 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置 |
JP2009157888A (ja) * | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム |
-
2009
- 2009-07-30 JP JP2009178137A patent/JP5500624B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092682A (ja) * | 2003-09-19 | 2005-04-07 | Nippon Hoso Kyokai <Nhk> | 翻字装置、及び翻字プログラム |
JP2007109233A (ja) * | 2005-10-09 | 2007-04-26 | Toshiba Corp | 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置 |
JP2009157888A (ja) * | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200701241024; 黄 海湘 外2名: '中国語への翻字における確率的な漢字選択手法' 電子情報通信学会論文誌 第J90-D巻 第10号, 20071001, P.2914-2923, 社団法人電子情報通信学会 * |
CSNG200900279021; 後藤 功雄 外4名: '部分文字列への最適な分割と文脈を考慮した変換による翻字処理' 電子情報通信学会論文誌 第J92-D巻 第6号, 20090601, P.909-920, 社団法人電子情報通信学会 * |
JPN6013032411; 黄 海湘 外2名: '中国語への翻字における確率的な漢字選択手法' 電子情報通信学会論文誌 第J90-D巻 第10号, 20071001, P.2914-2923, 社団法人電子情報通信学会 * |
JPN6013032413; 後藤 功雄 外4名: '部分文字列への最適な分割と文脈を考慮した変換による翻字処理' 電子情報通信学会論文誌 第J92-D巻 第6号, 20090601, P.909-920, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021501903A (ja) * | 2017-09-27 | 2021-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム |
JP7129137B2 (ja) | 2017-09-27 | 2022-09-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5500624B2 (ja) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US9176936B2 (en) | Transliteration pair matching | |
US7881928B2 (en) | Enhanced linguistic transformation | |
US8719006B2 (en) | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis | |
US20110184723A1 (en) | Phonetic suggestion engine | |
US20110071817A1 (en) | System and Method for Language Identification | |
US20100076746A1 (en) | Computerized statistical machine translation with phrasal decoder | |
US20080027725A1 (en) | Automatic Accent Detection With Limited Manually Labeled Data | |
Sitaram et al. | Speech synthesis of code-mixed text | |
JP2008216756A (ja) | 語句として新たに認識するべき文字列等を取得する技術 | |
Sitaram et al. | Experiments with Cross-lingual Systems for Synthesis of Code-Mixed Text. | |
Scherrer et al. | Modernising historical Slovene words | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
JP4738847B2 (ja) | データ検索装置および方法 | |
US20090240501A1 (en) | Automatically generating new words for letter-to-sound conversion | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
JP5500624B2 (ja) | 字訳装置、コンピュータプログラム及び記録媒体 | |
JP2022121456A (ja) | 処理プログラム、処理方法および情報処理装置 | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
Núñez et al. | Phonetic normalization for machine translation of user generated content | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム | |
CN117094329B (zh) | 一种用于解决语音歧义的语音翻译方法及装置 | |
JP6763527B2 (ja) | 認識結果補正装置、認識結果補正方法、およびプログラム | |
Hatori et al. | Predicting word pronunciation in Japanese | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120619 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5500624 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |