JP4266222B2 - 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 - Google Patents

単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4266222B2
JP4266222B2 JP2005346898A JP2005346898A JP4266222B2 JP 4266222 B2 JP4266222 B2 JP 4266222B2 JP 2005346898 A JP2005346898 A JP 2005346898A JP 2005346898 A JP2005346898 A JP 2005346898A JP 4266222 B2 JP4266222 B2 JP 4266222B2
Authority
JP
Japan
Prior art keywords
word
character
state transition
source
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005346898A
Other languages
English (en)
Other versions
JP2007156545A (ja
Inventor
克仁 須藤
秀樹 磯崎
元 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005346898A priority Critical patent/JP4266222B2/ja
Publication of JP2007156545A publication Critical patent/JP2007156545A/ja
Application granted granted Critical
Publication of JP4266222B2 publication Critical patent/JP4266222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば、情報検索システム、質問応答システム、機械翻訳システムに利用される単語翻訳置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体に関する。
従来、例えば、情報検索システム、質問応答システム、機械翻訳システムにおいて、言語横断的な変換、すなわち、原言語の単語あるいは複合語(以下、単に単語という)から対象言語の単語への変換(翻訳)が必要な場合がある。このように言語横断的な変換が必要な場合には、一般に、辞書のように単語の変換規則を記述したデータベースが利用される。
また、単語を構成する文字(記号)に着目して、単語の翻訳(記号列の変換)を、文字単位の変換として捉える「翻字」という技術が知られている(例えば、非特許文献1、非特許文献2)。この翻字によれば、例えば、変換すべき言語の種類が多い場合にも、それに対応した種々の辞書を必ずしも整備しておかなくてもよいことが期待される。
非特許文献1に開示された翻字技術では、単語の発音に対応する記号を利用して、翻字の確からしさ(単語の変換の確からしさ)を示す確率モデルを予め作成しておき、原言語の単語(文字)から、この確からしさが最も大きくなるような対象言語の単語(文字)を求める。具体的には、両言語の対応する単語組の複数のデータを含む学習データから確率モデルを作成する際に、原言語の文字が原言語の発音に変換される確率と、原言語の発音が対象言語の発音に変化する確率と、対象言語の発音が対象言語の文字に変換される確率と、を統計的に求めておき、確率の積によって翻字の確からしさを計算することとしている。
また、非特許文献2に開示された翻字技術は、カタカナ(日本語)で表記される単語から、アルファベット(英語)で表記される単語への翻字を実現するものである。具体的には、この翻字技術では、カタカナ表記をローマ字表記に置き換えた各文字から英単語の各文字への変換確率を示す確率モデルを予め作成しておき、この確率モデルを利用して翻字を行う。なお、この場合には、1文字単位の変換だけではなく、着目する文字の前後の文字(複数の文字)に関して、対応付け可能な複数文字間の変換確率も利用している。
K. Knight et al, "Machine Transliteration", Computational Linguistics, 1998,vol.24,No.4, p.599-612 E. Brill et al. "Automatically Harvesting Katakana-English Term Pairs from Search Engine Query Logs" in Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, 2001, p.393-399
しかしながら、前記した翻字技術(記号変換技術)には、以下に示す問題がある。
すなわち、非特許文献1に開示された技術では、学習データ中の原言語の単語と対象言語の単語の両方とも単語の読みが既知でなければ、確率モデルを作成することができないという問題がある。また、発音体系の異なる言語対においては発音間の対応をとることが困難である。
一方、非特許文献2に開示された技術では、カタカナをローマ字表記にすることでアルファベットとの対応関係をとりやすくすることは可能であるが、日英翻訳以外の様々な言語に対応して翻字を実現するためには、発音情報と同等な効力のある別の情報がさらに必要となるという問題がある。
そこで、本発明では、以上のような問題点に鑑みてなされたものであり、所定の記号体系に属する記号列を、任意の記号体系に属する対応した記号列に変換することのできる技術を提供することを目的とする。
前記課題を解決するため、請求項1に記載の単語翻訳装置は、異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、第1の言語体系に属する第1の単語と、それに対応する第2の言語体系に属する第2の単語とに対して、文字同士を1対1に対応させ、かつ対応する文字間において前記第1の単語を構成する第1の文字に対する翻字候補として、前記第2の単語を構成する第2の文字が現れ易いことを指す尺度である統計的な関連度を計算すると共に、前記第1の文字と前記第2の文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字を用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベースを作成する文字間関連度データベース作成手段と、前記対応させた文字間の関連度の積あるいは和が最大となるように前記第1の単語あるいは前記第2の単語あるいは両単語のいずれかの文字位置に空文字を挿入した単語組みを探索し、この探索された単語組を単語組データベースに記憶する単語組データベース作成手段と、前記単語組データベースに記憶された単語組に対して、前記第1の単語を構成する第1の文字と前記第2の単語を構成する第2の文字との文字組の出現順序の頻度を計算し、前記同時生起頻度としての翻字確率モデルを作成する生起確率計算手段と、第1の言語体系に属するソース単語の入力を受け付ける入力手段と、前記翻字確率モデルに基づいて、前記ソース単語と、第2の言語体系に属するターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組のうちのターゲット単語を、前記入力を受け付けたソース単語に対応するターゲット単語として推定する単語探索手と、前記推定されたターゲット単語を出力する出力手段とを備えることを特徴とする。
かかる構成によれば、単語翻訳装置は、入力されたソース単語(第1の単語を構成する文字の出現順序に対応した順序で出現することが尤もらしい文字から構成されたターゲット単語(第2の単語を推定することができる。ここで、例えば、第1の単語をカタカナ表記、第2の単語をアルファベット表記とすることができる。この単語翻訳装置によれば、入力される第1の単語が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習(未知)の単語であっても第2の単語を出力することが可能となる。ここで、単語翻訳装置は、第1の単語と第2の単語とを文字単位で対応付けた組から成る単語組における出現順序の頻度のうち、その出現順序の頻度が最大となる対応付けがなされた文字組だけを考慮する近似を用いて単語を推定するので、探索の枝刈りなどによって解探索空間を削減することができる。
また、請求項2に記載の単語翻訳装置は、請求項1に記載の単語翻訳装置において、前記単語探索手段は、前記翻字確率モデルに基づいて、前記ソース単語と前記ターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この出現順序の頻度が最大となる単語組を考慮する近似を用いて求められた確率に対応する重みを示す状態遷移重みを、前記翻字確率モデルに格納された単語組の第1の文字および第2の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成する状態遷移情報データベース作成手段を含み、前記状態遷移情報データベースから、前記入力を受け付けたソース単語を構成するソース文字ごとに、前記状態遷移重みが最小となるようなターゲット文字を探索することで、前記ターゲット単語を探索することを特徴とする。
かかる構成によれば、単語翻訳装置は、出現順序の頻度が最大となる対応付けがなされた文字組だけを考慮する近似を用いて探索した単語組に関する状態遷移重みを、翻字確率モデルに格納された単語組の第1の文字および第2の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成し、作成した状態遷移情報データベースを参照してターゲット単語(第2の単語)を探索する。したがって、入力されるソース単語(第1の単語)が、同時生起頻度を計算するために利用された学習データベースに予め登録されている学習済み(既知)の単語の場合に、学習データベースに第1の単語とペアで登録されていた第2の単語を翻訳結果として出力することが可能となる。ここで、状態遷移重みは、出現順序の確率値の対数をとって符号を逆転させる等の処理を行って生成することもできる。
また、請求項3に記載の単語翻訳装置は、請求項2に記載の単語翻訳装置において、前記入力手段に入力される前記ソース単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、前記取得された文書データから、予め定められた個数の単語を、前記ソース単語に対応したターゲット単語の属する第2の言語体系で用いられている文字コードを用いた正規表現によるマッチングにより前記ソース単語の翻訳結果の変換候補として抽出する変換候補抽出手段と、前記抽出した変換候補を第3の単語として受け付け、当該第3の単語を構成する第3の文字の履歴を前記状態遷移情報データベース中の文字の系列に対応して合成し、合成された状態遷移重みを含む合成状態遷移情報データベースを作成する合成状態遷移情報データベース作成手段と、前記合成状態遷移情報データベースを参照して、前記ソース単語を構成するソース文字から前記第3の単語を構成する第3の文字への前記合成された状態遷移重みについて文字の系列に対応した合計値を前記第3の単語ごとに計算し、計算結果が最小となる第3の単語を選択する状態遷移重み計算手段と、前記状態遷移重み計算手段によって選択された第3の単語の前記合成された状態遷移重みを出力する第2の出力手段とをさらに備えることを特徴とする。
かかる構成によれば、単語翻訳装置は、通信ネットワークから取得した文書データから単語を、翻訳のために入力されるソース単語(第1の単語)からの変換候補として抽出する。そして、単語翻訳装置は、抽出した変換候補を第3の単語として受け付け、入力されたソース単語を構成するソース文字から、第3の単語を構成する第3の文字への合成された状態遷移重みを計算することで、複数の第3の単語の変換可能性をそれぞれ計算する。したがって、入力されるソース単語(第1の単語)が、同時生起頻度を計算するために利用された学習データベースに予め登録されていない未学習(未知)の単語であっても、通信ネットワークから抽出された現存する単語を、翻訳結果として採用して出力することが可能となる。そして、複数の出力結果のうち変換可能性の最も高い単語を、ソース単語に対する翻訳結果として最終的に取得することができる。
また、請求項4に記載の単語翻訳プログラムは、請求項1乃至請求項3のいずれか一項に記載の単語翻訳装置を構成する各手段としてコンピュータを機能させるためのプログラムである。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。
また、請求項5に記載のコンピュータ読み取り可能な記録媒体は、請求項4に記載の単語翻訳プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。
本発明によれば、所定の記号体系に属する記号列を、任意の記号体系に属する対応した記号列に変換することができる。特に、発音やローマ字化規則などの情報を利用することなく、既知の記号変換結果の出現順序を考慮して変換することが可能である。
以下、本発明の実施形態について、適宜図面を参照しながら説明する。
[単語翻訳システムの構成]
(第1の実施形態)
図1は、本発明の第1の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。単語翻訳システム(記号列変換システム)1は、変換元文字列である第1の単語(記号列)と、この第1の単語に対応した変換先文字列である第2の単語とをそれぞれ構成する文字の同時生起確率(同時生起頻度)をデータとして格納した翻字確率モデルを利用して、入力された第1の単語を第2の単語へ変換して出力するものである。ここで、第1の単語とは、第1の言語体系に属する複数の第1の文字から構成されている。同様に、第2の単語は、第2の言語体系に属する複数の第2の文字から構成されている。また、同時生起確率とは、第1の文字の出現と、該第1の文字の変換結果としての第2の文字の出現とが同時に生起する確率である。以下では、第1の単語をソース単語、第1の文字をソース文字、第2の単語をターゲット単語、第2の文字をターゲット文字と呼ぶ場合もある。
この単語翻訳システム1は、図1に示すように、記憶装置2と、記憶装置3と、翻字確率モデル作成装置(記号変換確率モデル作成装置)4と、単語翻訳装置(記号列変換装置)5とを備えている。
記憶装置2は、学習データベース6を記憶したものであって、一般的なハードディスク等の記憶手段である。
学習データベース6は、ソース単語とターゲット単語の組である。
記憶装置3は、翻字確率モデル(記号変換確率モデル)7を記憶したものであって、一般的なハードディスク等の記憶手段である。
翻字確率モデル7は、ソース文字からターゲット文字への翻字確率を、ソース文字とターゲット文字の同時生起確率をデータとして格納するものである。
翻字確率モデル作成装置(記号変換確率モデル作成装置)4と、単語翻訳装置(記号列変換装置)5は、一般的なコンピュータ(計算機)であり、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、KB/CRT(Key Board/Cathode Ray Tube)と、入力/出力インタフェースとを含んで構成されている。
翻字確率モデル作成装置(記号変換確率モデル作成装置)4は、学習データベース6に基づいて、ソース文字とターゲット文字との対応関係を求め、このソース文字とターゲット文字との間の翻字確率を、直前(N−1)個の翻字結果を考慮して決定するNグラムモデルとしてモデル化して、翻字確率モデル7を作成するものである。
単語翻訳装置(記号列変換装置)5は、1つのソース単語を入力として、翻字確率モデル7を用いて、ソース単語に対応するターゲット単語を出力するものである。
[翻字確率モデル作成装置の構成]
図2は、図1に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。
翻字確率モデル作成装置4は、図2に示すように、入力手段10と、記憶手段(RAM等)11と、文字間関連度データベース作成手段(記号間関連度データベース作成手段)12と、単語組データベース作成手段(記号列組データベース作成手段)13と、生起確率計算手段14と、書込手段15とを備えている。
入力手段10は、入力インターフェースであり、学習データベース6から、ソース文字とターゲット文字とを入力し、文字間関連度データベース作成手段12と、単語組データベース作成手段13とに出力するものである。この入力手段10は、入力装置Mからデータベース作成の指示等を入力する。入力装置Mは、例えば、マウスやキーボード等のポインティングデバイスである。
記憶手段11は、RAMと、ROMと、HDDとを含んでおり、HDDに、文字間関連度データベース(記号間関連度データベース)16と、単語組データベース(記号列組データベース)17とを記憶するものである。
文字間関連度データベース16は、ソース文字とターゲット文字との間の統計的な関連度をデータとして格納するものである。ここで、関連度Assoc(s,t)とは、ソース文字sに対する翻字候補としてターゲット文字tが現れ易いことを指す尺度である。例えば、ソース文字sを含むソース単語S0に対応するターゲット単語T0にターゲット文字tが多く含まれていたり、このソース単語S0に対応しないターゲット単語T1にターゲット文字tがあまり含まれていなかったりする場合には、関連度Assoc(s,t)は高くなる。この関連度は、具体的には、共起頻度や、統計量の検定に用いられるカイ二乗値、カイ二乗値を0〜1の範囲に正規化した値であるφ2などを用いることができる。
単語組データベース17は、ソース単語とターゲット単語との間で対応付けられた文字間の関連度のそれぞれの積が最大となるように対応付けられた、2つの単語の組から成る単語組をデータとして格納するものである。
文字間関連度データベース作成手段12は、学習データベース6に記憶されたデータに基づいて、ソース文字とターゲット文字との間の統計的な関連度を計算すると共に、ソース文字とターゲット文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字φを用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベース16を作成するものである。本実施形態では、仮想的な関連度として、ソース文字sがターゲット文字tのどの文字とも対応しない場合の仮想的な関連度Assoc(s,φt)と、ターゲット文字tがソース文字sのどの文字とも対応しない場合の仮想的な関連度Assoc(φs,t)との2種類を用いる。
単語組データベース作成手段13は、学習データベース6に記憶されたデータと、文字間関連度データベース16に記憶されたデータと、に基づいて、ソース単語とターゲット単語との間で対応付けられた文字間の関連度および仮想的な関連度のそれぞれの積が最大となるように(最適となるように)対応付けられた、2つの単語の組から成る単語組を生成し、生成した単語組をデータとする単語組データベース17を作成するものである。
ここで、単語組データベース17が作成されるまでの具体例について図3を参照して説明する。図3は、図2に示した単語組データベースが作成されるまでの具体例を示す説明図である。ここでは、第1の言語体系が日本語(カタカナ)で第2の言語体系が英語(アルファベット)5としている。
図3の(a)に示すように、第1の単語(ソース単語)Sとして「アイスクリーム」、第2の単語(ターゲット単語)Tとして「ice cream」を想定する。ここで想定したように、単語は、単語数が1つに制限されるものではなく、複数個の単語から成る複合語(例えば、ice cream)であってもよい。
ここで、第1の単語Sは、m個の第1の文字(ソース文字s1,s2,…,sm)で構成されるものとする。したがって、「アイスクリーム」の場合には、第1の単語Sは、図3の(b)に示すように、m=7なので、7個の文字ID(s1〜s7)が付されることとなる。
同様に、第2の単語Tは、n個の第2の文字(ターゲット文字t1,t2,…,tn)で構成されるものとする。したがって、「ice cream」の場合には、第2の単語Tは、図3の(c)に示すように、n=8なので、8個の文字ID(t1〜t8)が付されることとなる。ここで、空白を無視して文字列を結合することとしたが、空白も文字として扱ってもよい。なお、空白に限らず、アンダーバー等の他の記号を同様に扱ってもよいことはもちろんである。
図3の(b)と図3の(c)とを比較すると、文字の個数が異なる(m<n)。本実施形態では、文字間の対応関係は、第1の文字の1文字と第2の文字の1文字の1対1対応であり、それぞれ対応する文字がない場合には空文字を必要とする。すなわち、第1の単語Sと第2の単語Tとを文字単位で最適となるように対応付けると、第1の単語では、図3の(d)に示すように、空文字φ(文字ID「φs」)が2つ挿入される。同様に、第2の単語では、図3の(e)に示すように、空文字φ(文字ID「φt」)が1つ挿入される。このように対応付けが最適化されたときには、文字の個数は等しくなる。このときの個数をl個(エル個)とすると、一般に、l≧mかつl≧nと表すことができる。なお、この場合には、l=9である。
図3の(d)および図3の(e)に示された空文字入りのそれぞれの単語から、図3の(f)に示すように、単語組を生成する。そして、この単語組を構成する両言語の文字間の対応付けAを、A=a1,a2,…,alとする。そして、対応付けAの要素、すなわち、文字組IDを、ai=(sj,tk)で示すこととする。ここで、sjはs1,…,smのいずれか、もしくはφsであり、tkはt1,…,tnのいずれか、もしくはφtのことである。
また、本実施形態では、対応付けが最適化されたときには、空文字を入れる前のs1,…,sm,t1,…,tnの各文字をその順序を変えることなく対応づけるものとする。言い換えると、I>iなるaI=(sJ,tK)に対して、J>j、K>kの関係がある。具体的には、図3の(f)に示すように、文字組ID「a2」、「a3」において、文字組(イ,i)、文字組(ス,c)の各要素を比較すると、第1の単語側(ソース側)の「イ」と「ス」との順序は、元の「アイスクリーム」の順序と同じであり、また、第2の単語側(ターゲット側)の「i」と「c」との順序は、元の「ice cream」の順序と同じである。つまり、対応付けによっても順序は不変である。
一方、仮に、例えば、図3の(g)に示すように、文字組ID「a2」、「a3」において、文字組(イ,e)、文字組(ス,c)の各要素を比較すると、第1の単語側(ソース側)の「イ」と「ス」との順序は、元の「アイスクリーム」の順序と同じであるが、第2の単語側(ターゲット側)の「e」と「c」との順序は、元の「ice cream」の順序と逆転している。つまり、対応付けによって順序が変化していることとなる。要するに、本実施形態では、最適な対応付けによって、図3の(g)に示すような対応付けは排除され、図3の(f)に示すように対応付けがなされる。
単語組データベース作成手段13は、式(1)に基づいて、文字間の関連度および仮想的な関連度のそれぞれの積が最大となるような対応付け(最適な対応付け)A^(Aハット)を求める。なお、式(1)において、Assoc(ai)は、所定の対応付け「A」がなされた文字組aiのソース文字とターゲット文字との関連度であり、「argmax A (y)、ただしy=f(A)」は、yが最大となるときの「A」を求めることを意味する。
また、単語組データベース作成手段13は、式(2)に基づいて、最適な対応付けA^を求めるようにしてもよい。この場合には、文字間の関連度および仮想的な関連度のそれぞれの和が最大となるような対応付けが求められることとなる。
Figure 0004266222
Figure 0004266222
図2に戻って、翻字確率モデル作成装置4の構成例の説明を続ける。
生起確率計算手段14は、単語組データベース17に記憶されたデータを参照して、同時生起確率を、単語組を構成するソース単語およびターゲット単語において、ソース文字とターゲット文字の文字組の出現順序の確率(出現順序の頻度)として計算し、翻字確率モデル7を作成するものである。ここで、出現順序の確率とは、着目するソース文字またはターゲット文字が出現するまでの各文字の状態遷移を示す履歴を条件とする条件付き確率である。つまり、生起確率計算手段14は、あるソース文字の出現と、そのソース文字の翻字結果であるターゲット文字の出現とが同時に生起する確率として、あるソース文字の直前(N−1)個のソース文字の履歴と、当該ターゲット文字の直前(N−1)個のターゲット文字の履歴とを用いて翻字確率モデル7を作成する。例えば、図3を参照して説明したソース文字(文字ID「sj」)とターゲット文字(文字ID「tk」)を利用すると、対応付けられ単語組において、ソース文字とターゲット文字とで表現される文字組(文字組ID「ai」)が現れる確率(同時生起確率)P(ai)は、直前(N−1)個の文字組(ai-1,…,ai-N+1)の条件付き確率で表すことができる。なお、Nは、Nグラム言語モデルにおける「N」を示す数値である。また、以下、単に確率という場合には、同時生起確率を意味する。
そこで、生起確率計算手段14は、単語組データベース17を用いて、条件付き確率P(ai|ai-1,…,ai-N+1)を計算する。ここで、Nに大きな値を設定すると、大多数の条件付き確率が「0」となり、その結果、確率モデルとして汎用性が劣化してしまうことから、生起確率計算手段14は、Nを比較的小さな値(例えば、1,2,3)としたときの確率値を用いて平滑化処理する。これにより、直前(N−1)文字の条件付き確率が「0」にならないため、任意の翻字結果に対して「0」ではない確率値を与えることができる。この平滑化処理としては、自然言語処理や音声認識に利用されるNグラム言語モデルに適用される公知の平滑化技術を利用することができる(例えば、「確率的言語モデル」北研二、東京大学出版会、1999、第3章、言語と計算−4を参照)。
書込手段15は、生起確率計算手段14で計算された確率値を翻字確率モデル7として記憶装置3(図1参照)に書き込むものである。
なお、前記した文字間関連度データベース作成手段12と、単語組データベース作成手段13と、生起確率計算手段14は、CPUが記憶手段11のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
[単語翻訳装置の構成]
図4は、図1に示した単語翻訳装置の構成例を示す機能ブロック図である。
単語翻訳装置5は、翻字確率モデル作成装置4で作成された翻字確率モデル7に基づいて、入力装置Mから入力されるソース単語を構成するソース文字をターゲット文字に翻字することによってターゲット単語への翻訳(変換)を実現し、翻訳したターゲット単語を出力装置Dへ出力するものである。
(翻訳原理)
ここで、単語翻訳装置5における翻訳(記号列変換)の原理を数式に基づいて説明する。なお、この翻訳原理の説明において「ターゲット単語T」という場合には、ソース単語Sと1対1に対応する正確に翻訳された該当する単語と、それに類似した単語とを含んでおり、いわば、ターゲット単語候補と呼べるものを意味している。
入力されたソース単語Sと、その正確な翻訳結果を含むターゲット単語Tとが、翻字確率モデル7において単語組として現れる同時生起確率は、入力されたソース単語Sのソース文字と、ターゲット単語Tのターゲット文字との文字間の対応付けAによって、それぞれ異なったものとなっている。このとき、入力されたソース単語Sと、そのターゲット単語Tとの同時生起確率P(S,T,A)は、式(3)に示すように、条件付き確率の積で表すことができる。
Figure 0004266222
文字間の対応付けAとしては、多数の可能性があるため、それらをすべて考慮してソース単語Sとターゲット単語Tとが翻字確率モデル7に基づいて翻字される単語の組として現れる最終的な確率P(S,T)は、式(4)で示されることとなる。
Figure 0004266222
前記した式(4)によると、確率P(S,T)を正確に求めるには、各対応付けAに対する確率値の総和を計算しなければならないことになる。しかしながら、すべての対応付けAを考慮すると、計算が膨大になるため実用的ではない。そこで、計算量を削減するために、本実施形態では、以下の近似を導入することとする。すなわち、式(5)に示すように、対応付けAに対する確率値を最大にするときの対応付けAを、最適な対応付けA′として採用する。
Figure 0004266222
そして、前記した式(5)で示される最適な対応付けA′のみを考慮する近似を行う。このような計算のためには、公知のViterbiアルゴリズムが利用可能である。この近似により、前記した式(4)で示した確率P(S,T)は、式(6)のように近似されることとなる。なお、式(6)の具体的な計算に際しては、前記した式(3)が利用されることとなる。
Figure 0004266222
単語翻訳装置5は、ソース単語Sに対する最適なターゲット単語T′の探索として、任意のターゲット単語Tに対する任意の文字間の対応付けを考慮し、その上で前記した式(6)を満たすものを探索することになるため、探索の枝刈りなどによって解探索空間を削減することができる。
前記した式(6)の探索、すなわち、最適なターゲット単語T′を探索する方法として、本実施形態では、公知の重み付き有限状態トランスデューサ(WFST:Weighted Finite State Transducer)と呼ばれる有限状態機械を用いて効率的な探索を行う(非特許文献1参照)。このWFSTでは、状態遷移に対する重みが予め定義されており、ソース文字の系列を入力とし、ターゲット文字の系列を出力することができる。
複数のWFSTの合成演算によって複数の有限状態機械の機能を統合することが可能である(非特許文献1参照)。つまり、ソース単語Sから、ソース単語Sの言語でもターゲット単語Tの言語でもない言語を示す中間言語の単語Iを翻訳生成する第1のWFSTと、この中間言語の単語Iから、ターゲット単語Tを翻訳生成する第2のWFSTと、を合成することにより、ソース単語Sからターゲット単語Tへの翻訳を実現するようにしてもよい。このように構成することで、例えば、ソース単語Sの言語とターゲット単語Tの言語との間の翻字を実現するための学習データベースが利用できなくとも、ソース単語Sの言語と中間言語との間の翻字を実現するための学習データベースと、中間言語とターゲット単語Tの言語との間の翻字を実現するための学習データベースと、をそれぞれ利用すれば、第1のWFSTと、第2のWFSTとを作成可能である。ここで、ソース単語Sからターゲット単語Tへの翻訳の際に変換に利用する中間言語の数は1つに限定されるものではなく、翻字を実現するための学習データベースが存在すれば複数種類の中間言語を介在させることも可能である。
具体的には、本実施形態では、単語翻訳装置5は、以下に示すように、1種類のWFSTを、1種類のWFSTデータベースおよびWFST探索プログラムの組で構成するが、中間言語を介して合成演算可能な複数種類のWFSTを利用するようにしてもよい。この場合には、複数種類の翻字確率モデル7を利用することとなる。
(構成の具体例)
単語翻訳装置5は、前記した翻訳(記号列変換)原理を実現するために、図4に示すように、入力手段(第1の入力手段)21と、記憶手段22と、状態遷移情報データベース作成手段(データベース作成手段)23と、単語探索手段24と、出力手段(第1の出力手段)25と、状態遷移情報データベース26とを備えている。
入力手段(第1の入力手段)21は、入力インターフェースであり、入力装置Mから、ソース単語(第1の単語)を入力し、状態遷移情報データベース作成手段23と単語探索手段24とに出力するものである。また、入力手段21は、翻字確率モデル7からソース文字列およびターゲット文字列を入力し、状態遷移情報データベース作成手段23に出力する。
記憶手段22は、RAMと、ROMと、HDDとを含んでおり、HDDに、状態遷移情報データベース26を記憶するものである。
状態遷移情報データベース26は、前記したWFSTデータベースに相当する。この状態遷移情報データベース26は、ソース単語と、該ソース単語に文字間対応付けされたターゲット単語とを文字単位で対応付けた組から成る単語組の中の文字組の出現順序の確率に対応する重み(状態遷移重み)を、遷移元状態および遷移先状態と共に、データとして格納するものである。なお、重みの代わりに出現順序の確率そのものを格納するようにしても良い。
また、状態遷移情報データベース26は、具体的には、翻字確率モデル7に格納された単語組のソース文字の系列を入力対応データとして有する。また、状態遷移情報データベース26は、翻字確率モデル7に格納された単語組のターゲット文字の系列と、状態遷移重みとして前記した式(6)の確率値の重みとを、出力対応データとして有する。
状態遷移情報データベース作成手段(データベース作成手段)23は、翻字確率モデル7に格納されたデータを参照して、状態遷移情報データベース26を作成するものである。この状態遷移情報データベース作成手段23は、ソース単語と、該ソース単語に文字間対応付けされたターゲット単語との組から成る単語組の中の文字組の出現順序の確率が最大となる単語組を考慮する近似(前記した式(6)に相当する)を用いて求められた確率に対応する重みを状態遷移重みとして計算する。なお、出現順序の確率を算出するための各確率値は予め求められている。
ここで、状態遷移情報データベース作成手段23が計算する状態遷移重みについて説明する。前記した式(3)の条件付き確率P(ai|ai-1,…,ai-N+1)における条件ai-1,…,ai-N+1を履歴という。この履歴は、各文字組aiに対応する状態遷移の系列である。具体的には、i番目の文字組ai(sj,tk)に着目する。この文字組ai(sj,tk)は、ソース文字sjを入力として、ターゲット文字tkを出力するような状態遷移に対応している。この文字組ai(sj,tk)が出現するまでには、直前の(N−1)個の文字組ai-1,…,ai-N+1の状態遷移の系列を経ている。そこで、文字組ai(sj,tk)が対応している状態遷移に対して、条件付き確率P(ai|ai-1,…,ai-N+1)に対応する重みを状態遷移重みとして付与する。ここでは、この状態遷移重みを、条件付き確率の対数の符号を逆転させたもの、すなわち、−logP(ai|ai-1,…,ai-N+1)とする。ここで、対数の底は、例えば、2である。なお、ソース文字sjが空文字φ(文字ID「φs」)である場合には、入力されたソース文字と無関係に行われる状態遷移として実現される(これはε遷移と呼ばれる)。また、ターゲット文字tkが空文字φ(文字ID「φt」)である場合には、出力なしの状態遷移として実現される。
単語探索手段24は、入力された第1の単語に対応する第2の単語を推定するものであり、前記したWFST探索プログラムに相当する。この単語探索手段24は、状態遷移情報データベース26に記憶されたデータを参照して、入力されたソース単語Sに対応して前記した式(6)を満たす最適なターゲット単語Tを探索(推定)し、出力手段25に出力するものである。具体的には、単語探索手段24は、入力されたソース単語Sを構成するソース文字s1,…,smを順に状態遷移情報データベース26の入力対応データとした場合に、ε遷移も考慮して、状態遷移情報データベース26の出力対応データを探索し、探索した出力対応データに相当する文字系列(ターゲット文字列)の中で状態遷移重みが最小となるターゲット文字列を選択する。なお、本実施形態では、単語探索手段24は、状態遷移重みが最小となるターゲット文字列を選択するが、これに限定されずに、複数個選択するようにしてもよい。この場合には、変換候補として上位数個のターゲット単語を出力することとなる。また、単語探索手段24は、ターゲット単語(ターゲット文字列)と共に、その状態遷移重みの値を出力するようにしてもよい。この場合には、ターゲット単語と、入力されたソース単語との間で翻訳(記号列の変換)がどのくらい尤もらしいかを示す変換可能性として、この状態遷移重みの値を利用することができる。
なお、前記した状態遷移情報データベース作成手段23と、単語探索手段24とは、CPUが記憶手段22のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
出力手段(第1の出力手段)25は、出力装置Dへの出力インターフェースであり、単語探索手段24によって探索されたターゲット単語を出力装置Dに出力するものである。なお、出力装置Dは、例えば、液晶ディスプレイ等の表示装置である。
[翻字確率モデル作成装置の動作]
翻字確率モデル作成装置4の動作について図5を参照(適宜図2参照)して説明する。
図5は、図2に示した翻字確率モデル作成装置の動作を示すフローチャートである。
翻字確率モデル作成装置4は、文字間関連度データベース作成手段12によって、学習データベース6に格納されたデータに基づいて、ソース文字とターゲット文字との文字(記号)間関連度を計算し、文字間関連度データベース16を作成する(ステップS1)。
続いて、翻字確率モデル作成装置4は、単語組データベース作成手段13によって、学習データベース6に格納されたデータと、文字間関連度データベース16に格納されたデータとに基づいて、関連度の積が最大となる単語(記号列)組を生成し、単語組データベース17を作成する(ステップS2)。
続いて、翻字確率モデル作成装置4は、生起確率計算手段14によって、単語組データベース17に格納されたデータに基づいて、単語組の各単語(ソース単語およびターゲット単語)において、文字の同時生起確率を、履歴を条件とする条件付き確率として計算し、翻字確率モデル(記号変換確率モデル)7を作成する(ステップS3)。
[単語翻訳装置の動作]
単語翻訳装置5の動作について図6を参照(適宜図4参照)して説明する。
図6は、図4に示した単語翻訳装置の動作を示すフローチャートである。
単語翻訳装置5は、状態遷移情報データベース作成手段23によって、翻字確率モデル(記号変換確率モデル)7に基づき、単語組を構成するソース単語とターゲット単語をそれぞれ構成するソース文字およびターゲット文字に関して、文字(記号)の条件付き確率に対応する状態遷移重みを計算し、状態遷移情報データベース26を予め作成する(ステップS11)。
そして、単語翻訳装置5は、状態遷移情報データベース26が予め作成された状態で、入力手段21によって、入力装置Mから、翻訳対象である第1の単語(記号列)をソース単語として入力する(ステップS12)。
続いて、単語翻訳装置5は、ステップS11で予め作成された状態遷移情報データベース26に基づいて、単語探索手段24によって、第1の単語(ソース単語)に対応するターゲット単語として第2の単語(記号列)を探索する(ステップS13)。
続いて、単語翻訳装置5は、探索された第2の単語(ターゲット単語)を翻訳結果として出力する(ステップS14)。これにより、出力装置Dは、ターゲット単語を表示する。なお、単語翻訳装置5は、ターゲット単語と共に、その状態遷移重みの値を出力するようにしてもよい。
第1の実施形態によれば、所定の言語体系に属する単語(第1の単語)を、任意の言語体系に属する対応した単語(第2の単語)に変換することができる。また、単語翻訳システム1では、翻字確率モデル作成装置4が、発音やローマ字化規則などの情報を利用することなく、学習データベース6に登録された第1の単語および第2の単語の組の集合のみを利用して、翻字確率モデル7を作成する。そのため、翻字確率モデル7を利用する単語翻訳装置5は、発音が不明な単語の処理の問題や、発音間の対応付けの問題や、ローマ字化に代表される表記変換のための知識などを必要とすることなく、既知の記号変換結果の履歴を考慮した翻訳を可能とすることができる。その結果、例えば、日本語のカタカナ(表音文字)を用いた英語(アルファベット、表音文字)文書の検索システムや、同種の質問応答システム、機械翻訳システムにおける翻訳処理において、翻訳辞書でカバーできない単語を扱うことができるようになる。なお、単語翻訳装置5は、状態遷移情報データベース作成手段23および状態遷移情報データベース26とを備えるベストモードで説明したが、これらは必須の構成ではない。
(第2の実施形態)
図7は、本発明の第2の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム(記号列変換システム)1Aは、第1の単語(ソース単語)と、ソース単語の第2の単語(ターゲット単語)への変換候補の単語である1以上の第3の単語とを入力するものである。この単語翻訳システム1Aは、単語翻訳装置(記号列変換装置)5Aを備えている点を除いて、図1に示した単語翻訳システム1と同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。
単語翻訳装置(記号列変換装置)5Aは、図7に示すように、単語出力部5と、変換可能性計算部30とを備えている。
単語出力部5は、図4に示した単語翻訳装置5(第1の実施形態)を指しており、同一の符号を付してある。
変換可能性計算部30は、単語翻訳装置5Aの外部から入力された第3の単語と、入力されたソース単語との間で翻訳(記号列の変換)がどのくらい尤もらしいかを示す変換可能性を確率値として出力するものである。
変換可能性計算部30は、ソース単語(第1の単語)Sと第3の単語の双方を入力とし、前記した式(6)で示される確率の積が最大となるような対応付けのときの重みを、それらに対する確率として計算して出力する機能を有する。つまり、変換可能性計算部30は第3の単語のソース単語Sからの変換可能性(尤度)を翻字確率モデル7に基づいて計算する。その際には状態遷移情報データベース作成手段23(図4参照)で作成した有限状態機械を利用する。
[変換可能性計算部の構成]
図8は、図7に示した変換可能性計算部の構成例を示す機能ブロック図である。
変換可能性計算部30が最適な状態遷移系列を探索する方法として、本実施形態では、状態遷移情報データベース26(WFSTデータベース)と、ターゲット単語Tを構成するターゲット文字列とを受理する有限状態オートマトン(FSA:Finite State Automaton)との合成によって得られる重み付き有限状態オートマトン(WFSA:Weighted Finite State Automaton)を用いる。本実施形態では、このWFSAは、具体的には、WFSAデータベースと、WFSA探索プログラムとから構成される。
変換可能性計算部30は、前記したWFSAを実現するために、図8に示すように、入力手段(第2の入力手段)31と、記憶手段32と、合成状態遷移情報データベース作成手段33と、状態遷移重み計算手段34と、出力手段(第2の出力手段)35とを備えている。
入力手段(第2の入力手段)31は、入力インターフェースであり、ソース単語(第1の単語)のターゲット単語(第2の単語)への変換候補の単語である1つ以上の第3の単語を入力装置Mから入力し、状態遷移重み計算手段34に出力するものである。また、入力手段31は、単語出力部5から状態遷移情報データベース26を入力し、合成状態遷移情報データベース作成手段33に出力する。
記憶手段32は、RAMと、ROMと、HDDとを含んでおり、HDDに、合成状態遷移情報データベース36を記憶するものである。
合成状態遷移情報データベース36は、前記したWFSAデータベースに相当し、入力予定の第3の単語を構成する第3の文字に関する履歴と、状態遷移情報データベース26に記憶されたデータとを合成した結果をデータとして格納するものである。図8では、合成状態遷移情報データベース36を1つだけ示しているが、第2の実施形態では、入力予定の各第3の単語と、状態遷移情報データベース26とをそれぞれ合成することにより、入力予定の第3の単語の個数だけ、合成状態遷移情報データベースを予め作成しておく。
合成状態遷移情報データベース作成手段33は、入力予定の第3の単語を構成する第3の文字に関する履歴と、単語出力部5の状態遷移情報データベース26に記憶されたデータとを合成し、合成した結果をデータとする合成状態遷移情報データベース36を作成するものである。この合成状態遷移情報データベース作成手段33は、入力手段31から入力する第3の単語から、合成に必要なFSAを作成する。なお、合成状態遷移情報データベース作成手段33は、入力手段31から予め作成されたFSAを入力してデータベースの合成を行うようにしてもよい。
状態遷移重み計算手段34は、前記したWFSA探索プログラムに相当する。この状態遷移重み計算手段34は、合成状態遷移情報データベース36に記憶されたデータを参照して、入力手段21に入力された第1の単語を構成するソース文字(第1の文字)と、入力手段31に入力された第3の単語を構成する第3の文字と、から成る文字組の出現順序の確率として、前記した状態遷移重みを計算するものである。なお、状態遷移重みの代わりに条件付き確率そのものを計算するようにしても良い。
具体的には、状態遷移重み計算手段34は、第3の単語を構成する第3の文字を順に、当該第3の単語を構成する第3の文字の履歴がFSAとして合成された合成状態遷移情報データベース36の入力対応データとした場合に、ε遷移も考慮して、ソース文字(第1の文字)から第3の文字への状態遷移重みの合計値を計算する。そして、この計算処理を、入力された第3の単語に対応する合成状態遷移情報データベース36それぞれについて実行し、この合計値が、入力された複数の第3の単語の中で最小値となる第3の単語を探索し、そのときの最小値を変換可能性として出力手段35に出力する。
なお、前記した合成状態遷移情報データベース作成手段33と、状態遷移重み計算手段34とは、CPUが記憶手段32のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
出力手段(第2の出力手段)35は、出力装置Dへの出力インターフェースであり、状態遷移重み計算手段34によって選択された第3の単語の状態遷移重み(または確率)を出力装置Dに出力するものである。なお、出力する状態遷移重みは、それぞれの値でも合計値でもよい。
[変換可能性計算部の動作]
変換可能性計算部30の動作について図9を参照(適宜図8参照)して説明する。
図9は、図8に示した変換可能性計算部の動作を示すフローチャートである。
変換可能性計算部30は、合成状態遷移情報データベース作成手段33によって、既知の入力予定の1以上の第3の単語(記号列)を構成する第3の文字(記号)の履歴を、状態遷移情報データベース26に合成し、合成状態遷移情報データベース36を予め作成する(ステップS21)。
そして、変換可能性計算部30は、合成状態遷移情報データベース36を予め作成した状態で、入力手段31によって、入力装置Mから、ソース単語としての第1の単語(記号列)の変換候補である第3の単語(記号列)を入力する(ステップS22)。
続いて、変換可能性計算部30は、状態遷移重み計算手段34によって、第1の単語を構成する第1の文字(記号)から、第3の単語を構成する第3の文字(記号)への状態遷移重みの合計値が、最小となる第3の単語を選択する(ステップS23)。
続いて、変換可能性計算部30は、状態遷移重み計算手段34によって選択された第3の単語の状態遷移重みを出力手段35によって出力する(ステップS24)。これにより、出力装置Dは、状態遷移重みを変換可能性として表示する。
なお、以上の第2の実施形態の説明では、状態遷移重み計算手段34は、状態遷移重みの合計値を計算し、この合計値が、入力された複数の第3の単語の中で最小値となる第3の単語を探索するものとして説明したが、単に合計値または状態遷移重みの各値のみを出力するようにしてもよい。この場合には、出力装置Dに表示された状態遷移重みをユーザが目視により確認して、そのときの最小値となる第3の単語を選択すればよい。
第2の実施形態によれば、ソース単語(第1の単語)の変換候補として、複数の単語(第3の単語)を入力としたときに、ソース単語(第1の単語)から第3の単語への変換の確からしさを求めることができ、翻訳の精度を向上させることができる。また、ソース単語(第1の単語)が、学習データベース6に予め登録されていない未学習(未知)の単語であっても、第3の単語を、ソース単語(第1の単語)からの翻訳結果(変換候補)として採用することも可能となる。この場合、変換可能性が予め定められた値よりも高い第3の単語を翻訳結果として出力(表示)するようにしてもよい。
(第3の実施形態)
図10は、本発明の第3の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。
単語翻訳システム(記号列変換システム)1Bは、第1の単語(ソース単語)と共に単語翻訳装置5Bに入力される、ソース単語の第2の単語(ターゲット単語)への変換候補の単語である第3の単語を、単語翻訳装置5Bの外部から取得するものである。
この単語翻訳システム1Bは、単語翻訳装置(記号列変換装置)5Bを備えている点を除いて、図7に示した単語翻訳システム1Aと同様なので、説明の便宜のために、同一の構成には、同一の符号を付し、説明および図面を適宜省略する。
単語翻訳装置(記号列変換装置)5Bは、図10に示すように、単語出力部5と、変換可能性計算部30と、変換候補検索部40とを備えている。
変換候補検索部40は、通信ネットワークNWに接続された電子機器50から取得した文書データに基づいて抽出された単語群を第3の単語として変換可能性計算部30に入力するものである。
通信ネットワークNWは、例えば、インターネット等から構成されている。
電子機器50は、例えば、Webサーバ等のコンピュータ(情報処理装置)や、データベースを備えるハードディスク装置等の記憶装置である。
[変換候補検索部の構成]
図11は、図10に示した変換候補検索部の構成例を示す機能ブロック図である。
変換候補検索部40は、図11に示すように、入力手段41と、記憶手段42と、文書データ取得手段43と、変換候補抽出手段44と、出力手段45とを備えている。
入力手段41は、入力インターフェースであり、ソース単語(第1の単語)を入力装置Mから入力し、文書データ取得手段43に出力するものである。また、入力手段41は、通信ネットワークNWから文書データを入力し、文書データ取得手段43に出力する。
記憶手段42は、RAMと、ROMと、HDDとを含んでおり、入力手段41から入力する文書データ等のデータや、各種動作プログラム等を記憶するものである。
文書データ取得手段43は、入力手段41に入力される第1の単語(ソース単語)に基づいて、通信ネットワークNWに接続された電子機器50から文書データを取得するものである。この文書データ取得手段43は、公知の技術であるインターネット上での文書検索方法、または、文書データベースに対する文書検索方法を利用して、入力されたソース単語を含む文書を検索する。なお、取得すべき文書数は、入力装置Mから指定してもよいし、予め指定された文書数を記憶手段42に格納しておくようにしてもよい。
変換候補抽出手段44は、文書データ取得手段43によって取得された文書データから、予め定められた個数の第3の単語を抽出し、出力手段45に出力するものである。変換候補抽出手段44による抽出方法は、任意であり、例えば、ターゲット言語で用いられている文字コードを用いた正規表現によるマッチングなどを利用してもよい。なお、抽出すべき単語数は、入力装置Mから指定してもよいし、予め指定された単語数を記憶手段42に格納しておくようにしてもよい。
なお、前記した文書データ取得手段43と、変換候補抽出手段44とは、CPUが記憶手段42のROM等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
出力手段45は、出力装置Dへの出力インターフェースであり、変換候補抽出手段44によって抽出された第3の単語を出力装置Dに出力するものである。
[変換候補検索部の動作]
変換候補検索部40の動作について図12を参照(適宜図11参照)して説明する。
図12は、図11に示した変換候補検索部の動作を示すフローチャートである。
変換候補検索部40は、入力手段41によって、入力装置Mから、翻訳対象である第1の単語(記号列)をソース単語として入力する(ステップS31)。
続いて、変換候補検索部40は、文書データ取得手段43によって、入力された第1の単語(ソース単語)に基づいて、通信ネットワークNWから文書データを取得する(ステップS32)。
続いて、変換候補検索部40は、変換候補抽出手段44によって、取得された文書データから、変換候補である第3の単語(記号列)を抽出する(ステップS33)。
そして、変換候補検索部40は、出力手段45によって、抽出された第3の単語を変換可能性計算部30に出力する(ステップS34)。これにより、変換可能性計算部30では、第3の単語は、入力手段31(図8参照)によって、合成状態遷移情報データベース作成手段33(図8参照)に入力されることとなる。
第3の実施形態によれば、通信ネットワークから取得した文書データから抽出された単語を、第3の単語として入力し、この第3の単語の変換可能性を計算することができる。したがって、第2の単語として適切なものが探索されない場合でも、通信ネットワークから取得した第3の単語の変換可能性が適切な結果である場合に、この第3の単語を変換候補として採用することが可能となる。
以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で様々に実施することができる。例えば、各実施形態では、ある言語体系に属する文字で構成された単語を変換対象(翻訳対象)としたが、この場合の「言語」とは、自然言語に限定されるものではなく、所定の規則に基づく記号体系であってもよい。この場合には、この記号体系に属する記号で構成された記号列を変換対象とする号列変換装置および記号列変換プログラムとして実現することができる。
また、第2の実施形態の単語翻訳装置5Aや第3の実施形態の単語翻訳装置5Bでは、それぞれ、第1の実施形態の単語翻訳装置5で説明した入力手段21、記憶手段22、出力手段25とは、別に入力手段、記憶手段、出力手段を設けたが、これらは共通の構成としてもよく、また、入力装置Mや出力装置Dを共用するようにしてもよい。
また、第3の実施形態の単語翻訳装置5Bでは、通信ネットワークNWから取得した単語の変換可能性を計算することを前提として説明したが、変換可能性計算部30は必須の構成ではない。単語翻訳装置5Bが変換可能性計算部30を備えない場合には、例えば、単語出力部5でソース単語(第1の単語)が未知の単語であると判別したときに、通信ネットワークNWから取得した1つ以上の単語を、ソース単語(第1の単語)からの変換候補としてそのまま採用し、出力装置Dに出力(表示)するようにしてもよい。
次に、本発明の効果を確認した複数の実施例について説明する。各実施例では、ソース言語が日本語(カタカナで表記)、ターゲット言語が英語(アルファベットで表記)の場合の単語の変換を行った。
[実施例1]
単語翻訳システム1(図1参照)において、翻字確率モデル作成装置4によって、翻字確率モデル7を予め作成し、第1の実施形態の単語翻訳装置5を用いて、ソース単語「ドナルド」からターゲット単語「donald」を取得した。
この場合には、翻字確率モデル作成装置4は、以下に示すようにして、翻字確率モデル7を作成した。
まず、学習データベース6には、図13(a)に例示するように、カタカナ表記1301の語と、アルファベット表記1302の語との組を格納した。
また、翻字確率モデル作成装置4の文字間関連度データベース作成手段12(図2参照)は、関連度として、式(7)で示されるφ2(s,t)を用いた。このφ2(s,t)は、カイ二乗値を0〜1の範囲に正規化した値である(詳細はW. A. Gale and K. W. Church,”Identifying word correspondances in parallel texts Proceedings of the 4th DARPA workshop on Speech and Natural Language,1991を参照)。
Figure 0004266222
ここで、freq(*)は、学習データベース6中で記号*が出現する単語組の数を示すものである。すなわち、freq(s)はソース文字sが出現する単語組の数を示し、freq(t)はターゲット文字tが出現する単語組の数を示し、freq(s,t)は両方とも出現する単語組の数を示す。また、Lは、学習データベース6中に格納されているすべての単語組の総数である。
この文字間関連度データベース作成手段12は、英単語の区切りとして現れるターゲット文字側の空白を削除し、一続きの単語であるようにして扱った。
作成された文字間関連度データベース16には、図13(b)に例示するように、学習データベース6内のターゲット文字1311ごとに、ソース文字との関連度1312が格納されている。例えば、ターゲット文字1311が「a」の場合には、ソース文字“ア”と「0.312370273233768」の関連度を有し、ソース文字“ラ”やソース文字“ナ”等とも所定の関連度を有している。同様に、ターゲット文字1311が「b」の場合には、ソース文字“ブ”と「0.247172957562107」の関連度を有していることが示されている。
また、文字間関連度データベース作成手段12は、ソース文字sとの空文字φtとの関連度Assoc(s,φt)としては、ソース文字sと他のターゲット文字との関連度の相乗平均を用いるト共に、空文字φsとターゲット文字tとの関連度Assoc(φs,t)としては、ターゲット文字tと他のソース文字との関連度の相乗平均を用いた。
次に、翻字確率モデル作成装置4の単語組データベース作成手段13(図2参照)は、図13の(a)に示すような学習データベース6と、図13(b)に示すような文字間関連度データベース16とを用いて、学習データベース6の各単語組に対して、前記した式(1)を満たすような文字間の対応付けを求め、図14に例示するような単語組データベース17を作成する。
図14に示すように、対応付け1401は、対応付けられたターゲット文字とソース文字とをコロンで結んで表記している。ここで、<eps>は、空文字φを表す記号であり、各行の左端の<s>:<s>は、語の開始点を示し、各行の右端</s>:</s>は、語の終了点を表す記号である。
次に、翻字確率モデル作成装置4の生起確率計算手段14(図2参照)は、図14に示す単語組データベース17から、N=3のトライグラムモデルを作成した。ここでは、生起確率計算手段14は、実際には、N=1のユニグラムモデルと、N=2のバイグラムモデルと、N=3のトライグラムモデルとをそれぞれ作成した。これにより、翻字確率モデル7には、図15に示すように、3種類の形式で各文字組の同時生起確率が格納される。
ユニグラムモデル(N=1)は、図15の(a)に示すように、生起確率1501と、第1表記1502と、平滑化係数1503の各データを備えている。
生起確率1501は、直前の単語と無関係に翻字文字組が生起する確率を対数で示している。
第1表記1502は、文字組の表記である
平滑化係数1503は、平滑化のための係数で、N>1のNグラムの確率を堆定するために利用される。
バイグラムモデル(N=2)は、図15の(b)に示すように、生起確率1511と、第2表記1512と、第3表記1513と、平滑化係数1514の各データを備えている。
生起確率1511は、直前の1単語に依存して翻字文字組が生起する確率を対数で示している。
第2表記1512は、直前の文字組の表記である。
第3表記1513は、生起確率1511を求めるために用いた文字組である。
平滑化係数1514は、平滑化のための係数で、N>2のNグラムの確率を推定するために利用される。
トライグラムモデル(N=3)は、図15の(c)に示すように、生起確率1521と、第4表記1522と、第5表記1523と、第6表記1524の各データを備えている。
生起確率1521は、直前の2単語に依存して翻字文字組が生起する確率を対数で示している。
第4表記1522は、2つ前の文字組の表記である。
第5表記1523は、直前の文字組の表記である。
第6表記1524は、生起確率を求めるために用いた文字組である。
これらのモデルの作成にあたって、生起確率計算手段14は、公知の言語モデル作成ツール「CMU-Cambridge SLM Toolkit」を利用した(P. Clarkson et a1, “Statistical language modeling using the CMU-Cambridge toolkit”, in Proceedings of EUROSPEECH97,1997,p.2707-2710)。なお、この際、図14または図15に示したコロンで結ばれた各文字組は一つの記号として扱われる。
また、これらのモデルの平滑化手法として、生起確率計算手段14は、公知のWitten-Bellの平滑化手法を利用した(I. H. Witten and T. C. Bell, “The zero-frequency problem: Estimating the prob-abilities of novel events in adaptive text compression”, IEEE Transaction of Information Theory,1991 vol. 37, no.4, p. 1085-1094)。
次に、第1の実施形態の単語翻訳装置5は、状態遷移情報データベース作成手段23(図4参照)によって、図15に例示した翻字確率モデル7から、図16に例示するような状態遷移情報データベース26を作成する。なお、この際、図15に示したコロンで結ばれた各文字組は分解され、ソース文字は、状態遷移情報データベース26の入力対応データとして使用され、ターゲット文字は状態遷移情報データベース26の出力対応データとして使用される。
状態遷移情報データベース26は、図16に示すように、状態識別1601と、第1状態番号1602と、第2状態番号1603と、ソース文字1604と、ターゲット文字1605と、状態遷移重み1606とを格納している。
状態識別1601は、初期状態「I」、遷移状態「T」、終了(受理)状態「F」をそれぞれ示すものである。
第1状態番号1602は、遷移元状態番号を示すものである。ただし、初期状態「I」や終了(受理)状態「F」においては、初期状態の状態番号や終了状態の状態番号を示す。第2状態番号1603は、遷移先状態番号を示すものである。
ソース文字1604は、入力記号に対応した入力対応データであり、図15に示したコロンで結ばれた各文字組が分解されたソース文字によって生成される。
ターゲット文字1605は、出力記号に対応した出力対応データであり、図15に示したコロンで結ばれた各文字組が分解されたターゲット文字によって生成される。
状態遷移重み1606は、遷移に与えられる重み(状態遷移重み)である。ただし、初期状態「I」や終了(受理)状態「F」においては、初期状態の重みや終了状態の重みを示す。なお、図16では、初期状態の重みや終了状態の重みは実質的に「0」としている。
この状態遷移情報データベース26は、翻字確率モデル7の文脈情報(条件付き確率)を反映したものとなっている。具体的には、図15に例示した翻字確率モデル7では、翻字文字組の同時生起確率は直前の最大2個(図15の(c)の場合)の翻字文字組によって決定されている。このときの同時生起確率(文脈情報または条件付き確率)は、図16においては、第1状態番号1602と、第2状態番号1603と(各状態)に保持されていることになる。
以上のように各データベースが整備された状態で、第1の実施形態の単語翻訳装置5に、一例として、図17の(a)に示すように、入力単語1701として、ソース単語「ドナルド」を入力して翻訳した。すなわち、図16に例示した状態遷移情報データベース26をWFSTデータベースとし、かつ、単語探索手段24(図4参照)をWFST探索プログラムとしたWFSTを用いて、ソース単語をターゲット単語に変換した。このときの単語探索手段24の出力例を、図17の(b)に示す。
図17の(b)に示す出力例には、対応状態番号1711と、入力記号1712と、出力記号1713と、状態遷移重み1714とが格納されている。
対応状態番号1711は、ソース単語と対応するターゲット単語とから成る単語組を構成する文字組の状態を示す状態番号である。ここで、文字組の状態は、条件付き確率を反映している。
入力記号1712は、ソース単語に対して最適な対応付けを実行したときのソース文字の系列を示している。なお、ターゲット単語に対応する文字が無い場合には、空文字φの代わりに<eps>が記載されている。また、<s>は語の開始点を示し、</s>は語の終了点を表す記号である。
出力記号1713は、ターゲット単語に関し、入力記号1712と同様なものである。この出力記号1713の系列を連結すると、図17の(c)に示すように、出力単語1721として「donald」が生成される。そして、連結生成された「donald」は出力装置D(図4参照)に表示されることとなる。
状態遷移重み1714は、条件付き確率の対数の符号を逆転させた値である。
なお、この例では、スペルどおり正しく変換されたが、たとえ変換結果のスペルが正しくなかったとしても、探索空間を大きくしてより多くの変換候補を得ることができれば、例えば、情報検索システムにおいて、クエリに含めて利用することが可能となる。
また、単語翻訳装置5は、ターゲット単語と共に、図17の(b)に示す状態遷移重み1714の値を出力するようにしてもよい。この場合には、ターゲット文字と、入力されたソース文字との間で翻訳(文字の変換)がどのくらい尤もらしいかを示す変換可能性として、この状態遷移重みの値を利用することができる。また、図17の(b)に示す状態遷移重み1714の合計値を出力するようにすれば、ターゲット単語と、入力されたソース単語との間で翻訳がどのくらい尤もらしいかを示すこともできる。
[実施例2]
実施例2は、実施例1に以下の内容を加えたものである。すなわち、単語翻訳システム1A(図7参照)において、第2の実施形態の単語翻訳装置5Aを用いて、第1の単語であるソース単語「レオパード」に対して、変換候補として、3つの第3の単語である「leopard」と、「lion」と、「leopon」とを入力したときのそれぞれの単語への変換可能性を計算した。なお、アルファベットはすべて小文字に置き換えられている。
そこで、単語翻訳装置5Aの変換可能性計算部30(図8参照)では、合成状態遷移情報データベース作成手段33は、入力手段31を介して第3の単語、例えば「leopard」を取得し、図18に示すように、この「leopard」に対応するデータベースであるFSA(有限状態オートマトン)を作成する。このFSAは、遷移元状態番号1801と、遷移先状態番号1802と、入力文字の表記1803と、出力文字の表記1804と、状態遷移重み1805とを備えている。例えば、遷移元状態番号1801が「1(one)」の行は、現在状態が「1(one)」で入力文字の表記1803として記号「l(エル)」を受け取った場合には、状態遷移重み1805を「0」として、出力文字の表記1804として記号「<eps>」を出力し(この場合には、何もしないことになる)、遷移先状態番号1802である「2」の状態に移行する。なお、表記の注釈は前記した通りである。
そして、合成状態遷移情報データベース作成手段33(図8参照)は、図18に例示したFSAと、図16に例示した状態遷移情報データベース26とを合成する。これにより、「leopard」が合成された合成状態遷移情報データベース36(WFSAデータベース)が作成される。同様に、図示は省略するが、他の入力予定の第3の単語「lion」および「leopon」についても、FSAを作成し、図16に例示した状態遷移情報データベース26と合成し、対応する合成状態遷移情報データベース36をそれぞれ作成する。そして、単語翻訳装置5Aは、例えば、「leopard」が入力されたときに、状態遷移重み計算手段34(図8参照)によって、作成された合成状態遷移情報データベース36を参照して、状態遷移重みを計算する。同様に、「lion」および「leopon」についても、状態遷移重みをそれぞれ計算する。そのときの計算結果を図19に示す。
変換可能性計算部30は、図19の(a)、(c)、(e)に示すように、変換候補として入力された各第3の単語に対応する出力単語1901と、累計重み1902とを出力する。ここで、累計重み1902は、ソース文字から第3の文字への状態遷移重みの合計値である。例えば、入力された「leopard」に関しては、図19の(a)に示すように、出力単語1901として「leopard」を出力し、累計重み1902として「12.799」を出力する。同様に、「lion」に関しては、図19の(c)に示すように、累計重み1902として「23.4622」を出力し、さらに、「leopon」に関しては、図19の(e)に示すように、累計重み1902として「17.98」を出力する。したがって、この例では、「レオパード」に対応して探索された「leopard」の累計重み1902が最小となっている。つまり、入力された3つの第3の単語のうち、「leopard」が最も変換可能性が高いことになる。
なお、変換可能性計算部30は、図19の(b)、(d)、(f)に示すように、計算結果をデータベースであるFSA(有限状態オートマトン)の形式で出力するようにしてもよい。これらのFSAは、対応状態番号1911と、入力文字の表記1912と、出力文字の表記1913と、状態遷移重み1914とを備えている。各項目は、図18に示したFSAと同様なものである。
また、本第3の実施例の代わりに、第3の単語「leopard」、「lion」および「leopon」と、状態遷移情報データベース26とを一度に合成することにより唯一の合成状態遷移情報データベース36を作成するようにしてもよい。この場合には、入力されたそれぞれの第3の単語は、この唯一の合成状態遷移情報データベース36に基づいて確率が計算され、変換可能性の最も高いもの(この場合には、「leopard」)が一位の候補として出力され、以下、変換可能性の高い順に出力されることになる。その結果、変換可能性を一度に比較することが可能となる。
[実施例3]
実施例3は、実施例2に以下の内容を加えたものである。すなわち、単語翻訳システム1B(図10参照)において、第3の実施形態の単語翻訳装置5Bを用いて、第1の単語であるソース単語「スーパーカミオカンデ」に対して、変換候補である第3の単語をインターネットを利用して取得し、正解である「Super−Kamiokande」への変換可能性を計算した。
単語翻訳装置5Bの変換候補検索部40は、文書データ取得手段43(図11参照)によって、ソース単語「スーパーカミオカンデ」が含まれる文書を検索し、データベースとして記憶手段42に格納した。この記憶手段42に格納されたデータベースの一例を図20の(a)に示す。このデータベースは、図20の(a)に示すように、文書のタイトル2001と、文書の掲載されたホームページのアドレスを示すURL2002とを備え、10個の文書データ(No,501〜510)を格納している。
変換候補検索部40は、変換候補抽出手段44(図11参照)によって、各文書データ(No,501〜510)のURL2002にアクセスして、ソース単語「スーパーカミオカンデ」に対する変換候補としてふさわしい単語を、図20の(b)に示すように、抽出した。ここでは、変換候補抽出手段44は、図20の(b)に示すように、抽出単語2011として、各文書データ(No,501〜510)から1つずつ抽出した合計10個のアルファベット表記の語を、第3の単語として、変換可能性計算部30に出力した。
これにより、変換可能性計算部30は、変換候補検索部40から入力した10個の第3の単語に関して、前記した実施例2で説明した動作を実行し、変換可能性(重み)を計算し、出力する。その出力データの例を、図20の(c)に示す。出力データは、図20の(c)に示すように、項目として、抽出単語2021と、変換可能性(重み)2022とを有している。この出力データによれば、No.611の「Super−Kamiokande」は、変換可能性(重み)2022が「19.9722」であり、この重みは、10個の抽出単語2021のうち最小の値となっている。つまり、No.611の「Super−Kamiokande」は、変換可能性が最大となっている。その結果、単語翻訳装置5Bは、ソース単語「スーパーカミオカンデ」に対して、インターネットを利用して変換候補となる単語を複数取得し、その中で、正解である「Super−Kamiokande」への変換可能性が最大であることを求めることができた。
この第3の実施例によれば、入力されたソース単語(同様にターゲット単語)が、単語翻訳装置5Bが利用する翻字確率モデル7を作成する際に学習データベース6に登録されていなかった場合でも、ソース単語に対して最尤のターゲット単語に変換することが可能となる。すなわち、第1段階で、インターネットで取得した第3の単語をFSAとして状態遷移情報データベース26に合成しておき、第2段階で、第1の単語と、取得した第3の単語とを入力として、予め作成された合成状態遷移情報データベース36に基づいて、変換可能性を計算し、変換可能性が最も高い第3の単語を選択する。したがって、単語翻訳装置5Bは、固定された辞書に依存するのではなく、通信ネットワークNWを介して取得する実在の単語を変換候補とするので、実用性が高くなる。このため、人名や地名等の固有名詞の翻訳や、新語が次々に使用される記事やニュース等の翻訳に好適である。
本発明の第1の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。 図1に示した翻字確率モデル作成装置の構成例を示す機能ブロック図である。 図2に示した単語組データベースが作成されるまでの具体例を示す説明図である。 図1に示した単語翻訳装置の構成例を示す機能ブロック図である。 図2に示した翻字確率モデル作成装置の動作を示すフローチャートである。 図4に示した単語翻訳装置の動作を示すフローチャートである。 本発明の第2の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。 図7に示した変換可能性計算部の構成例を示す機能ブロック図である。 図8に示した変換可能性計算部の動作を示すフローチャートである。 本発明の第3の実施形態に係る単語翻訳装置を含む単語翻訳システムの構成例を示す図である。 図10に示した変換候補検索部の構成例を示す機能ブロック図である。 11に示した変換候補検索部の動作を示すフローチャートである。 カタカナをアルファベットに変換する実施例の説明図であり、(a)は学習データベースの一例であり、(b)は文字間関連度データベースの一例である。 図13の(a)に示した学習データベースから作成された文字間対応付き単語組データベースの一例を示す説明図である。 図1に示した翻字確率モデルデータベースの一例を示す説明図であり、(a)はユニグラム、(b)はバイグラム、(c)はトライグラムのデータをそれぞれ示している。 図4に示した状態遷移情報データベースの一例を示す説明図である。 単語翻訳の一例を示す説明図であり、(a)は入力単語、(b)は探索結果、(c)は出力単語を示している。 第3の単語に関するFSAの一例を示す説明図である。 第2の実施形態に係る単語翻訳装置に第3の単語を3個入力した場合の探索結果の一例を示す説明図である。 第3の実施形態に係る単語翻訳装置の変換候補検索部による第3の単語の検索の一例を示す説明図であり、(a)は検索文書、(b)は抽出単語、(c)は出力結果を示している。
符号の説明
1(1A,1B) 単語翻訳システム(記号列変換システム)
2 記憶装置
3 記憶装置
4 翻字確率モデル作成装置(記号変換確率モデル作成装置)
5 単語翻訳装置(単語出力部)
5A,5B 単語翻訳装置(記号列変換装置)
6 学習データベース
7 翻字確率モデル(記号変換確率モデル)
10 入力手段
11 記憶手段
12 文字間関連度データベース作成手段(記号間関連度データベース作成手段)
13 単語組データベース作成手段(記号列組データベース作成手段)
14 生起確率計算手段
15 書込手段
16 文字間関連度データベース(記号間関連度データベース)
17 単語組データベース(記号列組データベース)
M 入力装置
21 入力手段(第1の入力手段)
22 記憶手段
23 状態遷移情報データベース作成手段(データベース作成手段)
24 単語探索手段
25 出力手段(第1の出力手段)
26 状態遷移情報データベース
D 出力装置
30 変換可能性計算部
31 入力手段(第2の入力手段)
32 記憶手段
33 合成状態遷移情報データベース作成手段
34 状態遷移重み計算手段
35 出力手段(第2の出力手段)
36 合成状態遷移情報データベース
40 変換候補検索部
50 電子機器
N 通信ネットワーク
41 入力手段
42 記憶手段
43 文書データ取得手段
44 変換候補抽出手段
45 出力手段

Claims (5)

  1. 異なる言語体系にそれぞれ属する同じ意味の単語の組合わせである単語組における文字の同時生起頻度を利用した単語翻訳装置であって、
    第1の言語体系に属する第1の単語と、それに対応する第2の言語体系に属する第2の単語とに対して、文字同士を1対1に対応させ、かつ対応する文字間において前記第1の単語を構成する第1の文字に対する翻字候補として、前記第2の単語を構成する第2の文字が現れ易いことを指す尺度である統計的な関連度を計算すると共に、前記第1の文字と前記第2の文字とのうちのいずれかに対応する文字がない場合に仮想的な空文字を用いた仮想的な関連度を計算し、計算した関連度および仮想的な関連度をデータとする文字間関連度データベースを作成する文字間関連度データベース作成手段と、
    前記対応させた文字間の関連度の積あるいは和が最大となるように前記第1の単語あるいは前記第2の単語あるいは両単語のいずれかの文字位置に空文字を挿入した単語組みを探索し、この探索された単語組を単語組データベースに記憶する単語組データベース作成手段と、
    前記単語組データベースに記憶された単語組に対して、前記第1の単語を構成する第1の文字と前記第2の単語を構成する第2の文字との文字組の出現順序の頻度を計算し、前記同時生起頻度としての翻字確率モデルを作成する生起確率計算手段と、
    第1の言語体系に属するソース単語の入力を受け付ける入力手段と、
    前記翻字確率モデルに基づいて、前記ソース単語と、第2の言語体系に属するターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この計算の結果に基づいて、前記出現順序の頻度が最大となる単語組を探索し、この探索された単語組のうちのターゲット単語を、前記入力を受け付けたソース単語に対応するターゲット単語として推定する単語探索手と、
    前記推定されたターゲット単語を出力する出力手段と、
    を備えることを特徴とする単語翻訳装置。
  2. 前記単語探索手段は、
    前記翻字確率モデルに基づいて、前記ソース単語と前記ターゲット単語とを文字単位で対応付けた組から成る任意の単語組において、前記空文字を考慮して、前記出現順序の頻度をそれぞれ計算し、この出現順序の頻度が最大となる単語組を考慮する近似を用いて求められた確率に対応する重みを示す状態遷移重みを、前記翻字確率モデルに格納された単語組の第1の文字および第2の文字と、遷移元状態および遷移先状態と共に文字の系列に対応して状態遷移のデータとして格納する状態遷移情報データベースを作成する状態遷移情報データベース作成手段を含み、
    前記状態遷移情報データベースから、前記入力を受け付けたソース単語を構成するソース文字ごとに、前記状態遷移重みが最小となるようなターゲット文字を探索することで、前記ターゲット単語を探索することを特徴とする請求項1に記載の単語翻訳装置。
  3. 前記入力手段に入力される前記ソース単語に基づいて、通信ネットワークに接続された電子機器から文書データを取得する文書データ取得手段と、
    前記取得された文書データから、予め定められた個数の単語を、前記ソース単語に対応したターゲット単語の属する第2の言語体系で用いられている文字コードを用いた正規表現によるマッチングにより前記ソース単語の翻訳結果の変換候補として抽出する変換候補抽出手段と、
    前記抽出した変換候補を第3の単語として受け付け、当該第3の単語を構成する第3の文字の履歴を前記状態遷移情報データベース中の文字の系列に対応して合成し、合成された状態遷移重みを含む合成状態遷移情報データベースを作成する合成状態遷移情報データベース作成手段と、
    前記合成状態遷移情報データベースを参照して、前記ソース単語を構成するソース文字から前記第3の単語を構成する第3の文字への前記合成された状態遷移重みについて文字の系列に対応した合計値を前記第3の単語ごとに計算し、計算結果が最小となる第3の単語を選択する状態遷移重み計算手段と、
    前記状態遷移重み計算手段によって選択された第3の単語の前記合成された状態遷移重みを出力する第2の出力手段と、
    をさらに備えることを特徴とする請求項2に記載の単語翻訳装置。
  4. 請求項1乃至請求項3のいずれか一項に記載の単語翻訳装置を構成する各手段としてコンピュータを機能させるための単語翻訳プログラム。
  5. 請求項4に記載の単語翻訳プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2005346898A 2005-11-30 2005-11-30 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 Active JP4266222B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005346898A JP4266222B2 (ja) 2005-11-30 2005-11-30 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005346898A JP4266222B2 (ja) 2005-11-30 2005-11-30 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007156545A JP2007156545A (ja) 2007-06-21
JP4266222B2 true JP4266222B2 (ja) 2009-05-20

Family

ID=38240873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005346898A Active JP4266222B2 (ja) 2005-11-30 2005-11-30 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4266222B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157888A (ja) * 2007-12-28 2009-07-16 National Institute Of Information & Communication Technology 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
JP5071486B2 (ja) * 2008-01-22 2012-11-14 富士通株式会社 検索装置および検索方法
JP5090547B2 (ja) 2011-03-04 2012-12-05 楽天株式会社 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
JP5825639B2 (ja) * 2012-07-20 2015-12-02 日本電信電話株式会社 記号列対応付け装置、記号列変換モデル学習装置、記号列変換装置、方法、及びプログラム
JP6043651B2 (ja) * 2013-02-22 2016-12-14 日本放送協会 読みがな割当装置およびプログラム
JP6044996B2 (ja) * 2013-07-18 2016-12-14 日本電信電話株式会社 文字列対応付け装置、方法、及びプログラム
JP6067952B1 (ja) * 2015-06-30 2017-01-25 楽天株式会社 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置
US11120064B2 (en) * 2018-11-20 2021-09-14 Amazon Technologies, Inc. Transliteration of data records for improved data matching

Also Published As

Publication number Publication date
JP2007156545A (ja) 2007-06-21

Similar Documents

Publication Publication Date Title
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US8745077B2 (en) Searching and matching of data
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
US9110980B2 (en) Searching and matching of data
JP2003514304A5 (ja)
US20110218796A1 (en) Transliteration using indicator and hybrid generative features
CN111414561B (zh) 用于呈现信息的方法和装置
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
Vykhovanets et al. An overview of phonetic encoding algorithms
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
Zhang et al. Tracing a loose wordhood for Chinese input method engine
Jamro Sindhi language processing: A survey
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
CN114548075A (zh) 文本处理方法、文本处理装置、存储介质与电子设备
JP2011243166A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP2017021602A (ja) テキスト変換装置、方法、及びプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Cui et al. Efficient Text Analysis with Pre-Trained Neural Network Models
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
Yan et al. A novel approach to improve the Mongolian language model using intermediate characters
Sowmya et al. Transliteration based text input methods for telugu

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090213

R150 Certificate of patent or registration of utility model

Ref document number: 4266222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350