JP2014021863A - 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム - Google Patents
記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014021863A JP2014021863A JP2012161994A JP2012161994A JP2014021863A JP 2014021863 A JP2014021863 A JP 2014021863A JP 2012161994 A JP2012161994 A JP 2012161994A JP 2012161994 A JP2012161994 A JP 2012161994A JP 2014021863 A JP2014021863 A JP 2014021863A
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- symbol string
- symbols
- string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】パラメータ初期化部223によって、全ての記号列組データにおいて共起する、第1の体系の記号と、第2の体系の0個以上の連続する記号の先頭及び末尾の各々に記号を追加した部分記号列のうちの対応する記号バイグラムとの対応付けの各々に対して、記号バイグラム確率を定義して初期値を設定する。期待値計算部223によって、記号バイグラム確率に基づいて、記号バイグラムとの対応付けの各々に対する期待値を計算し、パラメータ更新部224によって、各記号バイグラム確率を更新する。停止条件判定部225によって停止条件が満たされたと判定されるまで、期待値計算部223及びパラメータ更新部224を繰り返す。記号列対応付け処理部226によって、記号バイグラム確率に基づいて、記号間の対応付けを行う。
【選択図】図1
Description
<発明の概要>
第1の体系の記号列E=e1,e2,...,eIから第2の体系の記号列F=f1;,f2,...,fJへの変換確率は、第2の体系の記号が対応付けられる第1の体系の記号の位置を表すA={aj|1≦j≦J,0≦aj≦ I}(ただしaj=0はfjに対応する第1の体系の記号が存在しないことを表す)を用いて以下の式で表現される。
本発明の第1の実施の形態に係る記号列変換装置100は、第1の言語体系の記号列(単語)と第2の言語体系の記号列(単語)との対訳である記号列組データが入力され、記号列変換モデルを学習する。また、記号列変換装置100は、学習した記号列変換モデルを用いて、入力された第1の言語体系の入力記号列を第2の言語体系の記号列へ変換(翻訳)する。この記号列変換装置100は、CPUと、RAMと、後述する記号対応付け処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、記号列変換装置100は、入力部10と、演算部20と、出力部30とを備えている。
ッ → <s> </s> (「ッ」に対応する英語の記号は存在しない。)
ト → <s> t </s>
次に、第1の実施の形態に係る記号列変換装置100の作用について説明する。まず、対訳となっている第1の言語体系の記号列及び第2の言語体系の記号列の組である記号列組データが、記号列変換装置100に複数入力されると、記号列変換装置100によって、入力された複数の記号列組データが、記号列組データベース21に格納される。そして、記号列変換装置100によって、図4に示す記号対応付け処理ルーチンが実行される。
<システム構成>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
次に、第2の実施の形態に係る記号列変換装置200の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して説明を省略する。
20、220 演算部
21 記号列組データベース
22 記号対応付け部
23 記号対応付記号列組データベース
24 記号列変換モデル学習部
25 記号列変換モデル記憶部
26 記号列変換部
100、200記号列変換装置
222、322パラメータ初期化部
223、323期待値計算部
224、324パラメータ更新部
225、325停止判定部
226、326記号列対応付け処理部
227 記号対応付記号列組データ出力部
251 記号列変換モデル記憶部
327 多対多対応推定部
Claims (7)
- 異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置であって、
前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちのNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定する初期値設定手段と、
前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算する期待値計算手段と、
前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新するパラメータ更新手段と、
予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返す停止条件判定手段と、
前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け手段と、
を含む記号列対応付け装置。 - 請求項1記載の記号列対応付け装置によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する学習手段
を含む記号列変換モデル学習装置。 - 請求項2記載の記号列変換モデル学習装置によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する記号列変換手段
を含む記号列変換装置。 - 異なる第1の体系及び第2の体系にそれぞれ属する同じ意味の記号列の組み合わせである記号列組において、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける記号列対応付け装置における記号列対応付け装置であって、
初期値設定手段によって、前記記号列組を複数組記憶した記号列組データベースに記憶された前記記号列組の各々における、前記第1の体系の記号と、前記第2の体系の0個以上の連続する記号の先頭及び末尾の各々に追加される記号の存在を仮定した部分記号列とから得られる、前記第1の体系の記号と対応する前記第2の体系の部分記号列のうちのNグラム(Nは2以上の整数)との対応付けの各々に対して、前記対応付けの確率を表わすNグラム確率の初期値を設定し、
期待値計算手段によって、前記初期値設定手段によって設定され、又は前回更新された前記対応付けの各々に対するNグラム確率に基づいて、前記対応付けの各々に対する期待値を計算し、
パラメータ更新手段によって、前記期待値計算手段によって計算された前記対応付けの各々に対する期待値に基づいて、期待値を最大化するように、前記対応付けの各々に対するNグラム確率を更新し、
停止条件判定手段によって、予め定められた停止条件が満たされたか否かを判定し、前記停止条件が満たされるまで、前記期待値計算手段による計算、及び前記パラメータ更新手段による更新を繰り返し、
記号列対応付け手段によって、前記記号列組の各々に対して、前記Nグラム確率の各々に基づいて、前記第1の体系の記号列の1つの記号の各々と、前記第2の体系の0個以上の連続する記号とを対応付ける
記号列対応付け方法。 - 学習手段によって、請求項4記載の記号列対応付け方法によって対応付けが行われた前記複数組の記号列組に基づいて、前記第1の体系の記号列と前記第2の体系の記号列との間の変換を行うための記号列変換モデルを学習する
記号列変換モデル学習方法。 - 記号列変換手段によって、請求項5記載の記号列変換モデル学習方法によって学習された前記記号列変換モデルに基づいて、入力された前記第1の体系及び前記第2の体系の何れか一方の記号列を、前期第1の体系及び前記第2の体系の何れか他方の記号列に変換する
記号列変換方法。 - コンピュータを、請求項1記載の記号列対応付け装置の各手段、請求項2記載の記号列変換モデル学習装置の各手段、又は請求項3記載の記号列変換装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012161994A JP5825639B2 (ja) | 2012-07-20 | 2012-07-20 | 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012161994A JP5825639B2 (ja) | 2012-07-20 | 2012-07-20 | 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014021863A true JP2014021863A (ja) | 2014-02-03 |
JP5825639B2 JP5825639B2 (ja) | 2015-12-02 |
Family
ID=50196635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012161994A Active JP5825639B2 (ja) | 2012-07-20 | 2012-07-20 | 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5825639B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007156545A (ja) * | 2005-11-30 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
JP2012185679A (ja) * | 2011-03-04 | 2012-09-27 | Rakuten Inc | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
-
2012
- 2012-07-20 JP JP2012161994A patent/JP5825639B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007156545A (ja) * | 2005-11-30 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
JP2012185679A (ja) * | 2011-03-04 | 2012-09-27 | Rakuten Inc | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
Non-Patent Citations (3)
Title |
---|
JPN6015013738; 羽鳥 潤 外1名: '機械翻訳手法に基づいた日本語の読み推定' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110331, p.579-582, 言語処理学会 * |
JPN6015013743; 萩原 正人 外1名: '原言語の起源に基づく潜在クラス翻字モデル' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110331, p.967-970, 言語処理学会 * |
JPN6015013744; 久保 慶伍 外3名: '発音付与のためのEMアルゴリズムを用いた多対多アライメントの評価' 日本音響学会 2012年 春季研究発表会講演論文集CD-ROM [CD-ROM] , 20120306, p.229-232, 社団法人日本音響学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5825639B2 (ja) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9176936B2 (en) | Transliteration pair matching | |
US20190087403A1 (en) | Online spelling correction/phrase completion system | |
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
Duan et al. | Online spelling correction for query completion | |
JP5535417B2 (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
JP4833476B2 (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
US20120166942A1 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
JP2003514304A5 (ja) | ||
JP2009140503A (ja) | 音声翻訳方法及び装置 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
Le et al. | Measuring the influence of long range dependencies with neural network language models | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
Ammar et al. | Transliteration by sequence labeling with lattice encodings and reranking | |
Hifny | Restoration of Arabic diacritics using dynamic programming | |
JP5973986B2 (ja) | 翻訳システム、方法、及びプログラム | |
JP5825639B2 (ja) | 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム | |
CN116484842A (zh) | 语句纠错的方法及装置、电子设备、存储介质 | |
Varol et al. | Estimation of quality of service in spelling correction using Kullback–Leibler divergence | |
JP5264649B2 (ja) | 情報圧縮型モデルパラメータ推定装置、方法及びプログラム | |
Farooq et al. | Phrase-based correction model for improving handwriting recognition accuracies | |
Singvongsa et al. | Lao-Thai machine translation using statistical model | |
JP5057916B2 (ja) | 固有表現抽出装置、その方法、プログラム及び記録媒体 | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150407 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150529 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5825639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |