JP5500636B2 - 句テーブル生成器及びそのためのコンピュータプログラム - Google Patents
句テーブル生成器及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP5500636B2 JP5500636B2 JP2010046158A JP2010046158A JP5500636B2 JP 5500636 B2 JP5500636 B2 JP 5500636B2 JP 2010046158 A JP2010046158 A JP 2010046158A JP 2010046158 A JP2010046158 A JP 2010046158A JP 5500636 B2 JP5500636 B2 JP 5500636B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- source
- training
- phrase table
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
先行のアプローチとは対照的に、この実施例では、最初のセグメント化を得るために、言語学的に導かれた単語セグメント化ツールが存在しなくてもよい、言語に依存しないアプローチを提案する。提案される方法は、パラレルコーパスを用い、文字列となっているソース言語の文をターゲット言語の空白文字で分離された単語単位に対応付ける。同じターゲット単語に対応付けされた連続する文字がマージされたより大きなソース言語単位になる。したがって、翻訳単位の粒度は、所与のバイリンガルコーパスの文脈により規定される。対応付けの誤りの副作用を最小にし、かつセグメント化の一貫性を保つために、最大エントロピ(Maximum−Entropy:ME)アルゴリズムを適用し、再セグメント化されたバイリンガルコーパスでトレーニングされる、SMTシステムの翻訳品質を最適化するソース言語単語セグメント化の学習が行われる。
(単語セグメント化)
この実施例で利用される単語セグメント化は2つのステップからなる。第1のステップでは、ユニグラムにセグメント化されたソース言語文字列と、空白文字で分けられたターゲット言語の単語とからなるパラレルテキストコーパス上で、標準的SMTモデルがトレーニングされる。SMTトレーニング手順の文字−単語対応付けの結果を利用して、それぞれのバイリンガルコーパスで同じターゲット言語の単語に対応付けされた連続したソース言語の文字を特定し、これらの文字をマージしてより大きな翻訳単位とする。
(1)MEタグ付けモデル
MEモデルは、分類と予測とのための汎用の機械学習技術を提供する。これらは多くの特徴量を扱うことのできる多用途のツールであり、文境界検出又は品詞タグ付けを含む広範なNLP作業において非常に有効であることが知られている。
tは予測されるタグであり、
cはtのコンテキストであり、
γは正規化係数であり、
Kはモデル内の特徴量の数であり、
fkは二値特徴量関数であり、
αkは特徴量関数fkの重みであり、
p0はデフォルトモデルである。
図4を参照して、このトークン分類器トレーニング装置12を実現するコンピュータプログラムは、バイリンガルコーパス30のソース言語テキスト34をユニグラムにセグメント化してユニグラムセグメント化されたソース言語文48を得るステップ140で開始し、その後、ターゲット言語テキスト32とセグメント化ソース言語文48とを含むバイリンガルコーパスを利用してSMT40をトレーニングするステップ142を含む。
図6を参照して、句テーブルは以下のようにマージ(統合)される。図6(A)は0回目の繰返しで得られる句テーブルの例であるテーブル250を示す。図6(A)に示すように、ソース文字列は全て文字にセグメント化され、これは文字間におかれた空間で示される。例えば、エントリ252のソース文字列は「a_b_c」である(アンダースコアは文字間を分離するスペースを示す)。
最後のステップ308で、マージされた句テーブルが図1に示すマージ後の句テーブル20として出力され、さらにSMT24に与えられる。
提案のセグメント化方法を5つのアジア系言語(日本語、韓国語、タイ語、中国語(標準中国語、台湾語))から英語への翻訳に適用した。SMTモデルのトレーニングには、標準的な単語対応付け及び言語モデル化ツールを用いた。デコーダのパラメータのチューニングには最小誤り率トレーニングを用いた。翻訳には、オープンソースツールキットMOSESと同等のマルチスタック句ベースデコーダを用いた。翻訳品質の評価には、標準的自動評価尺度、すなわちBLEUを用いた。以下の表は実験の結果をまとめたものである。ここでは、所与のスコアがパーセンテージの値としてリストされている。
このように構成されたプログラムはコンピュータで実行されると、図1に示されるシステムと、図2に示すその動作とを実現するものであることが当業者には理解されるであろう。
この実施例は、現在のSMTシステムの性能を改良するために、意味のある単語単位を分離するのに空白文字を用いない文を、教師なしでセグメント化する、新たな言語に依存しない方法を提案する。提案の方法はソース言語について何ら言語学的情報必要とせず、このため、形態素的分析ツールが利用できないこともしばしばである比較的マイナーな言語の翻訳のためのSMTシステムを構築するのに重要である。加えて、開発費用は、バイリンガルコーパスの生成についてのみで、言語学的単語セグメント化ツールの開発、またはデータセットを人手でセグメント化するために人に支払う費用にくらべはるかに少ない。
12 分類器トレーニング装置
16、41、51、61、81及び91 句テーブル
18 句テーブルマージ部
20 マージされた句テーブル
22 入力テキスト
24、40、50、60、80、90 SMT
26 翻訳文
30 バイリンガルコーパス
32 ターゲット言語テキスト
34 ソース言語テキスト
36 ユニグラム分離器
42、52、62、82、92 評価結果
44、54、84 トークン対単語対応付け結果
46、56、76、86 ME分類器
48、58、78、88 セグメント化されたソース言語文
Claims (7)
- 第1の言語と第2の言語との統計的機械翻訳で用いられる句テーブルを生成するための句テーブル生成器であって、
前記句テーブル生成器は
翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第1の言語のソース文と第2の言語のターゲット文とを含み、前記ソース文の各々は、互いに区切りのない文字列から構成され、前記ターゲット文の各々の各単語は、互いに空白文字で区切られており、前記句テーブル生成器はさらに
前記バイリンガルコーパスを利用して統計的機械翻訳手段をトレーニングするためのトレーニング手段を含み、
前記トレーニング手段は
前記バイリンガルコーパス中の前記ソース文を予め定められた区切り文字によって文字ごとに分離してセグメント化するための文字ベースの第1の分離器と、
前記ソース文と前記ターゲット文との翻訳対を含むバイリンガルトレーニングコーパスを利用して前記統計的機械翻訳手段をトレーニングするための第1のトレーニング手段と、を含み、
前記統計的機械翻訳手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々について、前記ソース文中の、前記区切り文字により分離されたセグメントの各々を、前記ターゲット文中の単語のいずれかに対応付ける機能を持ち、
前記統計的機械翻訳手段はトレーニングの間に句テーブルを出力し、前記句テーブルは、ソース句、ターゲット句、及び、トレーニングの間に前記ソース句が前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含み、さらに
前記トレーニング手段によってトレーニングされた前記統計的機械翻訳手段の性能を評価するための評価手段と、
前記統計的機械翻訳手段による対応付けの結果を利用して、前記バイリンガルコーパスの翻訳対の各々について、ソース文中の連続する文字であって、ターゲット文中の同じ単語に対応付けられた複数の文字を1つの文字列に統合しながら、当該ソース文をセグメントに分離するよう前記ソース文の第2の分離器をトレーニングするための第2のトレーニング手段と、
前記バイリンガルコーパス中の前記ソース文を、前記第2のトレーニング手段によってトレーニングされた前記第2の分離器を利用してセグメントに分離し、セグメント境界に前記予め定められた区切り文字を挿入するためのセグメント化手段と、
前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段及び前記第2の分離器を、前記評価手段による評価の向上が見られなくなるまで繰返し動作するよう制御するための繰返し制御手段と、を含み、
前記繰返し制御手段は、第1回目の繰返しに、前記第1の分離器によってセグメント化されたソース文を含む前記バイリンガルコーパスを選択し、その後の繰返しで前記第2の分離器によってセグメント化された前記ソース文を有する前記バイリンガルコーパスを選択し、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第1のトレーニング手段に前記統計的機械翻訳手段をトレーニングさせ、
前記統計的機械翻訳手段は、前記繰返し制御手段による繰返しごとに句テーブルを出力することにより、前記トレーニング手段によるトレーニングの間に複数個の句テーブルを出力し、
前記複数個の句テーブルはそれぞれ、前記バイリンガルコーパスの前記ソース文の、前記繰返し制御手段による繰返しごとの、前記第1及び第2の分離器によるセグメント化を反映しており、さらに
前記複数個の句テーブルのうち、前記繰返し制御手段による繰返しの最後に得られた句テーブルを除く各々のエントリの各々におけるソース句を予め定められた区切り文字で文字ごとにセグメント化するためのソース分離手段と、
前記複数個の句テーブルのうち、前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルを、同一のソース及びターゲット句対を有するエントリがそれぞれ単一のエントリに統合され、かつソース句又はターゲット句が異なるエントリを別々のエントリとして含む統合句テーブルに統合するための句テーブル統合手段とを含み、
前記句テーブル統合手段は、前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルの全エントリのスコアを参照して、各エントリに対応するソース句とターゲット句との出現確率を反映するよう前記統合句テーブルの各エントリのスコアを調整する、句テーブル生成器。 - 前記第2のトレーニング手段は、
前記統計的機械翻訳手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、
前記バイリンガルコーパスの前記ソース文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース文の対象の文字のコンテキストを反映し、さらに
前記第2の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース文中の文字が単語の終端であるか否かの確率を推定するのに用いられる、請求項1に記載の句テーブル生成器。 - 前記確率モデルは最大エントロピモデルを含む、請求項2に記載の句テーブル生成器。
- 前記繰返し制御手段は、前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段、及び前記第2の分離器を、前記評価手段による評価が先行する繰返しでの前記評価手段の評価より悪くなるまで繰返し動作するよう制御する、請求項1から3のいずれかに記載の句テーブル生成器。
- 前記句テーブル統合手段は
前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルの各々のエントリの各々のスコアを、当該句テーブルの全てのエントリのスコアを参照して各エントリに対応するソース句とターゲット句との出現確率を反映するよう調整するためのスコア調整手段と、
前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルを連結して、連結句テーブルにするための連結手段と、
前記連結句テーブルのエントリを、同一のソース及びターゲット句対を有する複数のエントリが1つを除いて削除され、削除されたエントリのスコアが残る1つのエントリに加算されるようにマージするためのマージング手段とを含む、請求項1から4のいずれかに記載の句テーブル生成器。 - コンピュータによって実行されると、前記コンピュータを請求項1から請求項5のいずれかに記載の装置として機能させる、コンピュータプログラム。
- 請求項6に記載のコンピュータプログラムを記録したコンピュータ可読媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010046158A JP5500636B2 (ja) | 2010-03-03 | 2010-03-03 | 句テーブル生成器及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010046158A JP5500636B2 (ja) | 2010-03-03 | 2010-03-03 | 句テーブル生成器及びそのためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011180941A JP2011180941A (ja) | 2011-09-15 |
JP5500636B2 true JP5500636B2 (ja) | 2014-05-21 |
Family
ID=44692359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010046158A Expired - Fee Related JP5500636B2 (ja) | 2010-03-03 | 2010-03-03 | 句テーブル生成器及びそのためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5500636B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317961B (zh) * | 2014-11-14 | 2018-04-27 | 武汉众邦领创技术有限公司 | 一种专业系统输入智能提示系统 |
CN111274353B (zh) * | 2020-01-14 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
CN114201975B (zh) * | 2021-10-26 | 2024-04-12 | 中国科学技术大学 | 翻译模型训练方法和翻译方法及其装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001505330A (ja) * | 1996-08-22 | 2001-04-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | テキストストリーム中の単語の切れ目を与える方法及び装置 |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP3919771B2 (ja) * | 2003-09-09 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | 機械翻訳システム、その制御装置、及びコンピュータプログラム |
JP2006127405A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
JP4829685B2 (ja) * | 2006-06-07 | 2011-12-07 | 日本電信電話株式会社 | 翻訳フレーズペア生成装置、統計的機械翻訳装置、翻訳フレーズペア生成方法、統計的機械翻訳方法、翻訳フレーズペア生成プログラム、統計的機械翻訳プログラム、および、記憶媒体 |
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
JP5288371B2 (ja) * | 2008-06-03 | 2013-09-11 | 独立行政法人情報通信研究機構 | 統計的機械翻訳装置 |
-
2010
- 2010-03-03 JP JP2010046158A patent/JP5500636B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011180941A (ja) | 2011-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101084786B1 (ko) | 트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체 | |
US11645475B2 (en) | Translation processing method and storage medium | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US9588958B2 (en) | Cross-language text classification | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
KR101130457B1 (ko) | 트리렛 번역쌍 추출 | |
US20090326916A1 (en) | Unsupervised chinese word segmentation for statistical machine translation | |
Salloum et al. | Elissa: A dialectal to standard Arabic machine translation system | |
WO2010046782A2 (en) | Hybrid machine translation | |
Bar-Haim et al. | Part-of-speech tagging of Modern Hebrew text | |
Ueffing et al. | Semi-supervised model adaptation for statistical machine translation | |
Antony et al. | Machine transliteration for indian languages: A literature survey | |
Zitouni et al. | Arabic diacritic restoration approach based on maximum entropy models | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
US7752033B2 (en) | Text generation method and text generation device | |
JP5565827B2 (ja) | 統計的機械翻訳のための言語独立な単語セグメント化のための文分離器トレーニング装置、そのためのコンピュータプログラム及びコンピュータ可読媒体。 | |
JP5500636B2 (ja) | 句テーブル生成器及びそのためのコンピュータプログラム | |
JP2014146312A (ja) | 強化言語モデル表現を使用するフレーズベース機械翻訳におけるサンプリングおよび最適化 | |
Haertel et al. | Automatic diacritization for low-resource languages using a hybrid word and consonant CMM | |
Chaudhary et al. | The ariel-cmu systems for lorehlt18 | |
Van Den Bosch et al. | A memory-based classification approach to marker-based EBMT | |
JP2009059123A (ja) | 翻訳品質の人による評定を推定するための装置及び方法 | |
JP5454763B2 (ja) | 文の対中の単語対応付装置及びそのコンピュータプログラム | |
Hailu et al. | Semantic Role Labeling for Amharic Text Using Multiple Embeddings and Deep Neural Network | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5500636 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |