JP4266222B2 - 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 - Google Patents
単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP4266222B2 JP4266222B2 JP2005346898A JP2005346898A JP4266222B2 JP 4266222 B2 JP4266222 B2 JP 4266222B2 JP 2005346898 A JP2005346898 A JP 2005346898A JP 2005346898 A JP2005346898 A JP 2005346898A JP 4266222 B2 JP4266222 B2 JP 4266222B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- state transition
- source
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
K. Knight et al, "Machine Transliteration", Computational Linguistics, 1998,vol.24,No.4, p.599-612 E. Brill et al. "Automatically Harvesting Katakana-English Term Pairs from Search Engine Query Logs" in Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, 2001, p.393-399
すなわち、非特許文献1に開示された技術では、学習データ中の原言語の単語と対象言語の単語の両方とも単語の読みが既知でなければ、確率モデルを作成することができないという問題がある。また、発音体系の異なる言語対においては発音間の対応をとることが困難である。
[単語翻訳システムの構成]
(第1の実施形態)
図1は、本発明の第1の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。単語翻訳システム(記号列変換システム)1は、変換元文字列である第1の単語(記号列)と、この第1の単語に対応した変換先文字列である第2の単語とをそれぞれ構成する文字の同時生起確率(同時生起頻度)をデータとして格納した翻字確率モデルを利用して、入力された第1の単語を第2の単語へ変換して出力するものである。ここで、第1の単語とは、第1の言語体系に属する複数の第1の文字から構成されている。同様に、第2の単語は、第2の言語体系に属する複数の第2の文字から構成されている。また、同時生起確率とは、第1の文字の出現と、該第1の文字の変換結果としての第2の文字の出現とが同時に生起する確率である。以下では、第1の単語をソース単語、第1の文字をソース文字、第2の単語をターゲット単語、第2の文字をターゲット文字と呼ぶ場合もある。
記憶装置2は、学習データベース6を記憶したものであって、一般的なハードディスク等の記憶手段である。
学習データベース6は、ソース単語とターゲット単語の組である。
翻字確率モデル7は、ソース文字からターゲット文字への翻字確率を、ソース文字とターゲット文字の同時生起確率をデータとして格納するものである。
単語翻訳装置(記号列変換装置)5は、1つのソース単語を入力として、翻字確率モデル7を用いて、ソース単語に対応するターゲット単語を出力するものである。
図2は、図1に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。
翻字確率モデル作成装置4は、図2に示すように、入力手段10と、記憶手段(RAM等)11と、文字間関連度データベース作成手段(記号間関連度データベース作成手段)12と、単語組データベース作成手段(記号列組データベース作成手段)13と、生起確率計算手段14と、書込手段15とを備えている。
記憶手段11は、RAMと、ROMと、HDDとを含んでおり、HDDに、文字間関連度データベース(記号間関連度データベース)16と、単語組データベース(記号列組データベース)17とを記憶するものである。
単語組データベース17は、ソース単語とターゲット単語との間で対応付けられた文字間の関連度のそれぞれの積が最大となるように対応付けられた、2つの単語の組から成る単語組をデータとして格納するものである。
また、単語組データベース作成手段13は、式(2)に基づいて、最適な対応付けA^を求めるようにしてもよい。この場合には、文字間の関連度および仮想的な関連度のそれぞれの和が最大となるような対応付けが求められることとなる。
生起確率計算手段14は、単語組データベース17に記憶されたデータを参照して、同時生起確率を、単語組を構成するソース単語およびターゲット単語において、ソース文字とターゲット文字の文字組の出現順序の確率(出現順序の頻度)として計算し、翻字確率モデル7を作成するものである。ここで、出現順序の確率とは、着目するソース文字またはターゲット文字が出現するまでの各文字の状態遷移を示す履歴を条件とする条件付き確率である。つまり、生起確率計算手段14は、あるソース文字の出現と、そのソース文字の翻字結果であるターゲット文字の出現とが同時に生起する確率として、あるソース文字の直前(N−1)個のソース文字の履歴と、当該ターゲット文字の直前(N−1)個のターゲット文字の履歴とを用いて翻字確率モデル7を作成する。例えば、図3を参照して説明したソース文字(文字ID「sj」)とターゲット文字(文字ID「tk」)を利用すると、対応付けられ単語組において、ソース文字とターゲット文字とで表現される文字組(文字組ID「ai」)が現れる確率(同時生起確率)P(ai)は、直前(N−1)個の文字組(ai-1,…,ai-N+1)の条件付き確率で表すことができる。なお、Nは、Nグラム言語モデルにおける「N」を示す数値である。また、以下、単に確率という場合には、同時生起確率を意味する。
図4は、図1に示した単語翻訳装置の構成例を示す機能ブロック図である。
単語翻訳装置5は、翻字確率モデル作成装置4で作成された翻字確率モデル7に基づいて、入力装置Mから入力されるソース単語を構成するソース文字をターゲット文字に翻字することによってターゲット単語への翻訳(変換)を実現し、翻訳したターゲット単語を出力装置Dへ出力するものである。
ここで、単語翻訳装置5における翻訳(記号列変換)の原理を数式に基づいて説明する。なお、この翻訳原理の説明において「ターゲット単語T」という場合には、ソース単語Sと1対1に対応する正確に翻訳された該当する単語と、それに類似した単語とを含んでおり、いわば、ターゲット単語候補と呼べるものを意味している。
単語翻訳装置5は、前記した翻訳(記号列変換)原理を実現するために、図4に示すように、入力手段(第1の入力手段)21と、記憶手段22と、状態遷移情報データベース作成手段(データベース作成手段)23と、単語探索手段24と、出力手段(第1の出力手段)25と、状態遷移情報データベース26とを備えている。
記憶手段22は、RAMと、ROMと、HDDとを含んでおり、HDDに、状態遷移情報データベース26を記憶するものである。
また、状態遷移情報データベース26は、具体的には、翻字確率モデル7に格納された単語組のソース文字の系列を入力対応データとして有する。また、状態遷移情報データベース26は、翻字確率モデル7に格納された単語組のターゲット文字の系列と、状態遷移重みとして前記した式(6)の確率値の重みとを、出力対応データとして有する。
出力手段(第1の出力手段)25は、出力装置Dへの出力インターフェースであり、単語探索手段24によって探索されたターゲット単語を出力装置Dに出力するものである。なお、出力装置Dは、例えば、液晶ディスプレイ等の表示装置である。
翻字確率モデル作成装置4の動作について図5を参照(適宜図2参照)して説明する。
図5は、図2に示した翻字確率モデル作成装置の動作を示すフローチャートである。
翻字確率モデル作成装置4は、文字間関連度データベース作成手段12によって、学習データベース6に格納されたデータに基づいて、ソース文字とターゲット文字との文字(記号)間関連度を計算し、文字間関連度データベース16を作成する(ステップS1)。
続いて、翻字確率モデル作成装置4は、単語組データベース作成手段13によって、学習データベース6に格納されたデータと、文字間関連度データベース16に格納されたデータとに基づいて、関連度の積が最大となる単語(記号列)組を生成し、単語組データベース17を作成する(ステップS2)。
続いて、翻字確率モデル作成装置4は、生起確率計算手段14によって、単語組データベース17に格納されたデータに基づいて、単語組の各単語(ソース単語およびターゲット単語)において、文字の同時生起確率を、履歴を条件とする条件付き確率として計算し、翻字確率モデル(記号変換確率モデル)7を作成する(ステップS3)。
単語翻訳装置5の動作について図6を参照(適宜図4参照)して説明する。
図6は、図4に示した単語翻訳装置の動作を示すフローチャートである。
単語翻訳装置5は、状態遷移情報データベース作成手段23によって、翻字確率モデル(記号変換確率モデル)7に基づき、単語組を構成するソース単語とターゲット単語をそれぞれ構成するソース文字およびターゲット文字に関して、文字(記号)の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベース26を予め作成する(ステップS11)。
そして、単語翻訳装置5は、状態遷移情報データベース26が予め作成された状態で、入力手段21によって、入力装置Mから、翻訳対象である第1の単語(記号列)をソース単語として入力する(ステップS12)。
続いて、単語翻訳装置5は、ステップS11で予め作成された状態遷移情報データベース26に基づいて、単語探索手段24によって、第1の単語(ソース単語)に対応するターゲット単語として第2の単語(記号列)を探索する(ステップS13)。
続いて、単語翻訳装置5は、探索された第2の単語(ターゲット単語)を翻訳結果として出力する(ステップS14)。これにより、出力装置Dは、ターゲット単語を表示する。なお、単語翻訳装置5は、ターゲット単語と共に、その状態遷移重みの値を出力するようにしてもよい。
図7は、本発明の第2の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム(記号列変換システム)1Aは、第1の単語(ソース単語)と、ソース単語の第2の単語(ターゲット単語)への変換候補の単語である1以上の第3の単語とを入力するものである。この単語翻訳システム1Aは、単語翻訳装置(記号列変換装置)5Aを備えている点を除いて、図1に示した単語翻訳システム1と同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。
単語出力部5は、図4に示した単語翻訳装置5(第1の実施形態)を指しており、同一の符号を付してある。
変換可能性計算部30は、単語翻訳装置5Aの外部から入力された第3の単語と、入力されたソース単語との間で翻訳(記号列の変換)がどのくらい尤もらしいかを示す変換可能性を確率値として出力するものである。
図8は、図7に示した変換可能性計算部の構成例を示す機能ブロック図である。
変換可能性計算部30が最適な状態遷移系列を探索する方法として、本実施形態では、状態遷移情報データベース26(WFSTデータベース)と、ターゲット単語Tを構成するターゲット文字列とを受理する有限状態オートマトン(FSA:Finite State Automaton)との合成によって得られる重み付き有限状態オートマトン(WFSA:Weighted Finite State Automaton)を用いる。本実施形態では、このWFSAは、具体的には、WFSAデータベースと、WFSA探索プログラムとから構成される。
合成状態遷移情報データベース36は、前記したWFSAデータベースに相当し、入力予定の第3の単語を構成する第3の文字に関する履歴と、状態遷移情報データベース26に記憶されたデータとを合成した結果をデータとして格納するものである。図8では、合成状態遷移情報データベース36を1つだけ示しているが、第2の実施形態では、入力予定の各第3の単語と、状態遷移情報データベース26とをそれぞれ合成することにより、入力予定の第3の単語の個数だけ、合成状態遷移情報データベースを予め作成しておく。
具体的には、状態遷移重み計算手段34は、第3の単語を構成する第3の文字を順に、当該第3の単語を構成する第3の文字の履歴がFSAとして合成された合成状態遷移情報データベース36の入力対応データとした場合に、ε遷移も考慮して、ソース文字(第1の文字)から第3の文字への状態遷移重みの合計値を計算する。そして、この計算処理を、入力された第3の単語に対応する合成状態遷移情報データベース36それぞれについて実行し、この合計値が、入力された複数の第3の単語の中で最小値となる第3の単語を探索し、そのときの最小値を変換可能性として出力手段35に出力する。
変換可能性計算部30の動作について図9を参照(適宜図8参照)して説明する。
図9は、図8に示した変換可能性計算部の動作を示すフローチャートである。
変換可能性計算部30は、合成状態遷移情報データベース作成手段33によって、既知の入力予定の1以上の第3の単語(記号列)を構成する第3の文字(記号)の履歴を、状態遷移情報データベース26に合成し、合成状態遷移情報データベース36を予め作成する(ステップS21)。
そして、変換可能性計算部30は、合成状態遷移情報データベース36を予め作成した状態で、入力手段31によって、入力装置Mから、ソース単語としての第1の単語(記号列)の変換候補である第3の単語(記号列)を入力する(ステップS22)。
続いて、変換可能性計算部30は、状態遷移重み計算手段34によって、第1の単語を構成する第1の文字(記号)から、第3の単語を構成する第3の文字(記号)への状態遷移重みの合計値が、最小となる第3の単語を選択する(ステップS23)。
続いて、変換可能性計算部30は、状態遷移重み計算手段34によって選択された第3の単語の状態遷移重みを出力手段35によって出力する(ステップS24)。これにより、出力装置Dは、状態遷移重みを変換可能性として表示する。
図10は、本発明の第3の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム(記号列変換システム)1Bは、第1の単語(ソース単語)と共に単語翻訳装置5Bに入力される、ソース単語の第2の単語(ターゲット単語)への変換候補の単語である第3の単語を、単語翻訳装置5Bの外部から取得するものである。
この単語翻訳システム1Bは、単語翻訳装置(記号列変換装置)5Bを備えている点を除いて、図7に示した単語翻訳システム1Aと同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。
変換候補検索部40は、通信ネットワークNWに接続された電子機器50から取得した文書データに基づいて抽出された単語群を第3の単語として変換可能性計算部30に入力するものである。
通信ネットワークNWは、例えば、インターネット等から構成されている。
電子機器50は、例えば、Webサーバ等のコンピュータ(情報処理装置)や、データベースを備えるハードディスク装置等の記憶装置である。
図11は、図10に示した変換候補検索部の構成例を示す機能ブロック図である。
変換候補検索部40は、図11に示すように、入力手段41と、記憶手段42と、文書データ取得手段43と、変換候補抽出手段44と、出力手段45とを備えている。
記憶手段42は、RAMと、ROMと、HDDとを含んでおり、入力手段41から入力する文書データ等のデータや、各種動作プログラム等を記憶するものである。
出力手段45は、出力装置Dへの出力インターフェースであり、変換候補抽出手段44によって抽出された第3の単語を出力装置Dに出力するものである。
変換候補検索部40の動作について図12を参照(適宜図11参照)して説明する。
図12は、図11に示した変換候補検索部の動作を示すフローチャートである。
変換候補検索部40は、入力手段41によって、入力装置Mから、翻訳対象である第1の単語(記号列)をソース単語として入力する(ステップS31)。
続いて、変換候補検索部40は、文書データ取得手段43によって、入力された第1の単語(ソース単語)に基づいて、通信ネットワークNWから文書データを取得する(ステップS32)。
続いて、変換候補検索部40は、変換候補抽出手段44によって、取得された文書データから、変換候補である第3の単語(記号列)を抽出する(ステップS33)。
そして、変換候補検索部40は、出力手段45によって、抽出された第3の単語を変換可能性計算部30に出力する(ステップS34)。これにより、変換可能性計算部30では、第3の単語は、入力手段31(図8参照)によって、合成状態遷移情報データベース作成手段33(図8参照)に入力されることとなる。
単語翻訳システム1(図1参照)において、翻字確率モデル作成装置4によって、翻字確率モデル7を予め作成し、第1の実施形態の単語翻訳装置5を用いて、ソース単語「ドナルド」からターゲット単語「donald」を取得した。
この場合には、翻字確率モデル作成装置4は、以下に示すようにして、翻字確率モデル7を作成した。
まず、学習データベース6には、図13(a)に例示するように、カタカナ表記1301の語と、アルファベット表記1302の語との組を格納した。
作成された文字間関連度データベース16には、図13(b)に例示するように、学習データベース6内のターゲット文字1311ごとに、ソース文字との関連度1312が格納されている。例えば、ターゲット文字1311が「a」の場合には、ソース文字“ア”と「0.312370273233768」の関連度を有し、ソース文字“ラ”やソース文字“ナ”等とも所定の関連度を有している。同様に、ターゲット文字1311が「b」の場合には、ソース文字“ブ”と「0.247172957562107」の関連度を有していることが示されている。
生起確率1501は、直前の単語と無関係に翻字文字組が生起する確率を対数で示している。
第1表記1502は、文字組の表記である
平滑化係数1503は、平滑化のための係数で、N>1のNグラムの確率を堆定するために利用される。
生起確率1511は、直前の1単語に依存して翻字文字組が生起する確率を対数で示している。
第2表記1512は、直前の文字組の表記である。
第3表記1513は、生起確率1511を求めるために用いた文字組である。
平滑化係数1514は、平滑化のための係数で、N>2のNグラムの確率を推定するために利用される。
生起確率1521は、直前の2単語に依存して翻字文字組が生起する確率を対数で示している。
第4表記1522は、2つ前の文字組の表記である。
第5表記1523は、直前の文字組の表記である。
第6表記1524は、生起確率を求めるために用いた文字組である。
状態識別1601は、初期状態「I」、遷移状態「T」、終了(受理)状態「F」をそれぞれ示すものである。
第1状態番号1602は、遷移元状態番号を示すものである。ただし、初期状態「I」や終了(受理)状態「F」においては、初期状態の状態番号や終了状態の状態番号を示す。第2状態番号1603は、遷移先状態番号を示すものである。
ソース文字1604は、入力記号に対応した入力対応データであり、図15に示したコロンで結ばれた各文字組が分解されたソース文字によって生成される。
ターゲット文字1605は、出力記号に対応した出力対応データであり、図15に示したコロンで結ばれた各文字組が分解されたターゲット文字によって生成される。
状態遷移重み1606は、遷移に与えられる重み(状態遷移重み)である。ただし、初期状態「I」や終了(受理)状態「F」においては、初期状態の重みや終了状態の重みを示す。なお、図16では、初期状態の重みや終了状態の重みは実質的に「0」としている。
対応状態番号1711は、ソース単語と対応するターゲット単語とから成る単語組を構成する文字組の状態を示す状態番号である。ここで、文字組の状態は、条件付き確率を反映している。
入力記号1712は、ソース単語に対して最適な対応付けを実行したときのソース文字の系列を示している。なお、ターゲット単語に対応する文字が無い場合には、空文字φの代わりに<eps>が記載されている。また、<s>は語の開始点を示し、</s>は語の終了点を表す記号である。
状態遷移重み1714は、条件付き確率の対数の符号を逆転させた値である。
なお、この例では、スペルどおり正しく変換されたが、たとえ変換結果のスペルが正しくなかったとしても、探索空間を大きくしてより多くの変換候補を得ることができれば、例えば、情報検索システムにおいて、クエリに含めて利用することが可能となる。
実施例2は、実施例1に以下の内容を加えたものである。すなわち、単語翻訳システム1A(図7参照)において、第2の実施形態の単語翻訳装置5Aを用いて、第1の単語であるソース単語「レオパード」に対して、変換候補として、3つの第3の単語である「leopard」と、「lion」と、「leopon」とを入力したときのそれぞれの単語への変換可能性を計算した。なお、アルファベットはすべて小文字に置き換えられている。
実施例3は、実施例2に以下の内容を加えたものである。すなわち、単語翻訳システム1B(図10参照)において、第3の実施形態の単語翻訳装置5Bを用いて、第1の単語であるソース単語「スーパーカミオカンデ」に対して、変換候補である第3の単語をインターネットを利用して取得し、正解である「Super−Kamiokande」への変換可能性を計算した。
2 記憶装置
3 記憶装置
4 翻字確率モデル作成装置(記号変換確率モデル作成装置)
5 単語翻訳装置(単語出力部)
5A,5B 単語翻訳装置(記号列変換装置)
6 学習データベース
7 翻字確率モデル(記号変換確率モデル)
10 入力手段
11 記憶手段
12 文字間関連度データベース作成手段(記号間関連度データベース作成手段)
13 単語組データベース作成手段(記号列組データベース作成手段)
14 生起確率計算手段
15 書込手段
16 文字間関連度データベース(記号間関連度データベース)
17 単語組データベース(記号列組データベース)
M 入力装置
21 入力手段(第1の入力手段)
22 記憶手段
23 状態遷移情報データベース作成手段(データベース作成手段)
24 単語探索手段
25 出力手段(第1の出力手段)
26 状態遷移情報データベース
D 出力装置
30 変換可能性計算部
31 入力手段(第2の入力手段)
32 記憶手段
33 合成状態遷移情報データベース作成手段
34 状態遷移重み計算手段
35 出力手段(第2の出力手段)
36 合成状態遷移情報データベース
40 変換候補検索部
50 電子機器
N 通信ネットワーク
41 入力手段
42 記憶手段
43 文書データ取得手段
44 変換候補抽出手段
45 出力手段
Claims (5)
- 異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、
第1の言語体系に属する第1の単語と、それに対応する第2の言語体系に属する第2の単語とに対して、文字同士を1対1に対応させ、かつ対応する文字間において前記第1の単語を構成する第1の文字に対する翻字候補として、前記第2の単語を構成する第2の文字が現れ易いことを指す尺度である統計的な関連度を計算すると共に、前記第1の文字と前記第2の文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字を用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベースを作成する文字間関連度データベース作成手段と、
前記対応させた文字間の関連度の積あるいは和が最大となるように前記第1の単語あるいは前記第2の単語あるいは両単語のいずれかの文字位置に空文字を挿入した単語組みを探索し、この探索された単語組を単語組データベースに記憶する単語組データベース作成手段と、
前記単語組データベースに記憶された単語組に対して、前記第1の単語を構成する第1の文字と前記第2の単語を構成する第2の文字との文字組の出現順序の頻度を計算し、前記同時生起頻度としての翻字確率モデルを作成する生起確率計算手段と、
第1の言語体系に属するソース単語の入力を受け付ける入力手段と、
前記翻字確率モデルに基づいて、前記ソース単語と、第2の言語体系に属するターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組のうちのターゲット単語を、前記入力を受け付けたソース単語に対応するターゲット単語として推定する単語探索手段と、
前記推定されたターゲット単語を出力する出力手段と、
を備えることを特徴とする単語翻訳装置。 - 前記単語探索手段は、
前記翻字確率モデルに基づいて、前記ソース単語と前記ターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この出現順序の頻度が最大となる単語組を考慮する近似を用いて求められた確率に対応する重みを示す状態遷移重みを、前記翻字確率モデルに格納された単語組の第1の文字および第2の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成する状態遷移情報データベース作成手段を含み、
前記状態遷移情報データベースから、前記入力を受け付けたソース単語を構成するソース文字ごとに、前記状態遷移重みが最小となるようなターゲット文字を探索することで、前記ターゲット単語を探索することを特徴とする請求項1に記載の単語翻訳装置。 - 前記入力手段に入力される前記ソース単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、
前記取得された文書データから、予め定められた個数の単語を、前記ソース単語に対応したターゲット単語の属する第2の言語体系で用いられている文字コードを用いた正規表現によるマッチングにより前記ソース単語の翻訳結果の変換候補として抽出する変換候補抽出手段と、
前記抽出した変換候補を第3の単語として受け付け、当該第3の単語を構成する第3の文字の履歴を前記状態遷移情報データベース中の文字の系列に対応して合成し、合成された状態遷移重みを含む合成状態遷移情報データベースを作成する合成状態遷移情報データベース作成手段と、
前記合成状態遷移情報データベースを参照して、前記ソース単語を構成するソース文字から前記第3の単語を構成する第3の文字への前記合成された状態遷移重みについて文字の系列に対応した合計値を前記第3の単語ごとに計算し、計算結果が最小となる第3の単語を選択する状態遷移重み計算手段と、
前記状態遷移重み計算手段によって選択された第3の単語の前記合成された状態遷移重みを出力する第2の出力手段と、
をさらに備えることを特徴とする請求項2に記載の単語翻訳装置。 - 請求項1乃至請求項3のいずれか一項に記載の単語翻訳装置を構成する各手段としてコンピュータを機能させるための単語翻訳プログラム。
- 請求項4に記載の単語翻訳プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005346898A JP4266222B2 (ja) | 2005-11-30 | 2005-11-30 | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005346898A JP4266222B2 (ja) | 2005-11-30 | 2005-11-30 | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007156545A JP2007156545A (ja) | 2007-06-21 |
JP4266222B2 true JP4266222B2 (ja) | 2009-05-20 |
Family
ID=38240873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005346898A Active JP4266222B2 (ja) | 2005-11-30 | 2005-11-30 | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4266222B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157888A (ja) * | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム |
JP5071486B2 (ja) * | 2008-01-22 | 2012-11-14 | 富士通株式会社 | 検索装置および検索方法 |
JP5090547B2 (ja) | 2011-03-04 | 2012-12-05 | 楽天株式会社 | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
JP5825639B2 (ja) * | 2012-07-20 | 2015-12-02 | 日本電信電話株式会社 | 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム |
JP6043651B2 (ja) * | 2013-02-22 | 2016-12-14 | 日本放送協会 | 読みがな割当装置およびプログラム |
JP6044996B2 (ja) * | 2013-07-18 | 2016-12-14 | 日本電信電話株式会社 | 文字列対応付け装置、方法、及びプログラム |
JP6067952B1 (ja) * | 2015-06-30 | 2017-01-25 | 楽天株式会社 | 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 |
US11120064B2 (en) * | 2018-11-20 | 2021-09-14 | Amazon Technologies, Inc. | Transliteration of data records for improved data matching |
-
2005
- 2005-11-30 JP JP2005346898A patent/JP4266222B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007156545A (ja) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
US8745077B2 (en) | Searching and matching of data | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
US9110980B2 (en) | Searching and matching of data | |
JP2003514304A5 (ja) | ||
US20110218796A1 (en) | Transliteration using indicator and hybrid generative features | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
WO2019093172A1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
Vykhovanets et al. | An overview of phonetic encoding algorithms | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
Zhang et al. | Tracing a loose wordhood for Chinese input method engine | |
Jamro | Sindhi language processing: A survey | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
CN114548075A (zh) | 文本处理方法、文本处理装置、存储介质与电子设备 | |
JP2011243166A (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP2017021602A (ja) | テキスト変換装置、方法、及びプログラム | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Cui et al. | Efficient Text Analysis with Pre-Trained Neural Network Models | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
Yan et al. | A novel approach to improve the Mongolian language model using intermediate characters | |
Sowmya et al. | Transliteration based text input methods for telugu |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4266222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |