JP2005092682A - 翻字装置、及び翻字プログラム - Google Patents

翻字装置、及び翻字プログラム Download PDF

Info

Publication number
JP2005092682A
JP2005092682A JP2003327491A JP2003327491A JP2005092682A JP 2005092682 A JP2005092682 A JP 2005092682A JP 2003327491 A JP2003327491 A JP 2003327491A JP 2003327491 A JP2003327491 A JP 2003327491A JP 2005092682 A JP2005092682 A JP 2005092682A
Authority
JP
Japan
Prior art keywords
conversion candidate
conversion
katakana
word
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003327491A
Other languages
English (en)
Inventor
Norio Goto
功雄 後藤
Naoto Kato
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2003327491A priority Critical patent/JP2005092682A/ja
Publication of JP2005092682A publication Critical patent/JP2005092682A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 他言語の単語からカタカナの単語への高精度な翻字を実現する。
【解決手段】 他言語の単語とカタカナの単語とにおける部分文字列が対応付けられたデータに基づいて、変換候補の規則を生成する変換候補規則生成手段と、前記他言語の単語を文脈情報に基づいて変換単位に分割するための分割確率を取得するモデルと、前記他言語とカタカナとの部分文字列の対応確率を計算するモデルとを生成するモデル生成手段と、前記他言語で入力される単語を前記変換候補規則生成手段により得られる変換規則に基づいて、前記カタカナの変換候補と前記他言語での変換単位とを生成する変換候補生成手段と、前記モデル生成手段により得られるモデルと、前記他言語と前記カタカナとの文脈情報とに基づいて、変換候補の生起確率を計算する確率計算手段と、前記確率計算手段により得られる生起確率が最大となる変換候補を選択する変換候補選択手段とを有する。
【選択図】 図1

Description

本発明は、翻字装置、及び翻字プログラムに係り、特に、他言語の単語からカタカナの単語へ変換するための翻字装置、及び翻字プログラムに関する。
従来、英語や日本語等の文字が異なる言語間において、固有名詞は多くの場合に元の単語の発音を表す外来語に翻訳される。特に、日本語では、カタカナを用いた単語に翻訳される場合が多い。
ここで、他言語からカタカナへの翻字処理に関する技術は、すでに開示されており、例えば、他言語を発音記号(音韻体系)へ変換してから、発音記号をカタカナへ変換する方式(例えば、非特許文献1参照。)や他言語からカタカナへ直接変換する小規模な変換テーブルを用いて変換する方式(例えば、非特許文献2参照。)がある。
また、カタカナ以外の文字への翻字も提案されている。例えば、「発音を考慮した変換単位」を用いる英語から韓国語への翻字処理の手法がある(例えば、非特許文献3参照)。また、英語から韓国語への翻字において、決定木を用いて変換単位の曖昧性を解消する手法がある(例えば、非特許文献4参照。)。更に、英語から韓国語への翻字において、決定木を用いて英語の文脈を考慮して変換候補の部分文字列を決定する手法がある(例えば、非特許文献5参照。)。
堀内 雄一,山崎 一生.1990.英単語のアルファベット表記から仮名表記ヘの変換.情報処理学会自然言語処理研究会報告,No.79−1,pp.1−8. 住吉 英樹,相沢 輝昭.英語固有名詞の片カナ変換.1994.情報処理学会論文誌,Vol.35, No.1, pp.35−45. Byung−Ju Kang and Key−Sun Choi. 2000. Automatic Transliteration and Back−Transliteration by Decision Tree Learning. International Conference on Language Resources and Evaluation, pp.1135−1411. In−Ho Kang and GilChang Kim. 2000. English−to−Korean Transliteration using Multiple Unbounded Overlapping Phoneme Chunks. The 18th International Conference on Computational Linguistics, Vol.1, pp.418−424. Jong−Hoon Oh and Key−Sun Choi. 2002. An English−Korean Transliteration Model using Pronunciation and Contextual rules. The 19th International Conference on Computational Linguistics.
しかしながら、非特許文献1に記載された技術は、他言語を発音記号へ変換することが困難であり、また非特許文献2に記載された技術は、小規模な変換テーブルを用いた方式の場合に詳細な文脈利用ができないため精度に問題があり、高精度な翻字処理を行うことはできない。
また、非特許文献3に記載された技術は、変換単位に複数の長さの部分文字列を用いる場合における変換元の部分文字列の選択の曖昧性を考慮しているが、更に高精度な変換を行うためには、翻字元と翻字先との文脈情報を考慮する必要がある。
更に、非特許文献4に記載された技術は、変換先の候補との対応関係を考慮せずに元の英語の単語の情報のみで一意に決定しているため、高精度な変換を行っているとはいえない。また、非特許文献5に記載された技術は、英語の1文字を変換の単位をした「発音を考慮しない変換単位」を用いているため、「発音を考慮した変換単位」と比べると精度が低下する。
本発明は、上述した問題点に鑑みなされたものであり、他言語からカタカナへの高精度な翻字を行うための翻字装置、及び翻字プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、他言語の単語からカタカナの単語を生成するための翻字装置において、前記他言語の単語と前記カタカナの単語とにおける部分文字列が対応付けられたデータに基づいて、変換候補の規則を生成する変換候補規則生成手段と、前記他言語の単語を単語内の文脈情報に基づいて変換単位に分割するための分割確率を取得するモデルと、前記他言語とカタカナとの部分文字列の対応確率を単語内の文脈情報に基づいて計算するモデルとを生成するモデル生成手段と、前記他言語で入力される単語を前記変換候補規則生成手段により得られる変換規則に基づいて、前記カタカナの変換候補と前記他言語での変換単位とを生成する変換候補生成手段と、前記モデル生成手段により得られるモデルと、前記他言語と前記カタカナとの文脈情報とに基づいて、変換候補の生起確率を計算する確率計算手段と、前記確率計算手段により得られる生起確率が最大となる変換候補を選択する変換候補選択手段とを有することを特徴とする。
請求項1記載の発明によれば、部分文字列が対応付けられたデータを利用して、変換規則を適用する単位となる変換単位への分割確率に基づいてカタカナの変換候補を選択することにより、他言語からカタカナへの翻字を高精度に行うことができる。また、モデル生成手段により得られるモデルと前記他言語と前記カタカナの文字との文脈情報とにより生起確率を算出することで、より高精度にカタカナの変換候補の選択を高精度に行うことができ、他言語からカタカナへの翻字を高精度に行うことができる。
請求項2に記載された発明は、前記変換候補選択手段は、予め設定される評価式に基づいて、前記変換候補生成手段にて得られる変換候補からカタカナの変換候補を選択することを特徴とする。
請求項2記載の発明によれば、予め設定される評価式を用いることで、一定の評価基準により容易に変換候補を選択することができる。これにより、他言語からカタカナへの翻字を高精度に行うことができる。
請求項3に記載された発明は、他言語の単語からカタカナの単語を生成するための処理をコンピュータに実行させるための翻字プログラムにおいて、前記他言語の単語と前記カタカナの単語とにおける部分文字列が対応付けられたデータに基づいて、変換候補の規則を生成する変換候補規則生成処理と、前記他言語の単語を単語内の文脈情報に基づいて変換単位に分割するための分割確率を取得するモデルと、前記他言語とカタカナとの部分文字列の対応確率を単語内の文脈情報に基づいて計算するモデルとを生成するモデル生成処理と、前記他言語で入力される単語を前記変換候補規則生成処理により得られる変換規則に基づいて、前記カタカナの変換候補と前記他言語での変換単位とを生成する変換候補生成処理と、前記モデル生成処理により得られるモデルと、前記他言語と前記カタカナとの文脈情報とに基づいて、変換候補の生起確率を計算する確率計算処理と、前記確率計算処理により得られる生起確率が最大となる変換候補を選択する変換候補選択処理とをコンピュータに実行させる。
請求項3記載の発明によれば、部分文字列が対応付けられたデータを利用して、変換規則を適用する単位となる変換単位への分割確率に基づいてカタカナの変換候補を選択することにより、他言語からカタカナへの翻字を高精度に行うことができる。また、モデル生成処理により得られるモデルと前記他言語と前記カタカナの文字との文脈情報とにより生起確率を算出することで、より高精度にカタカナの変換候補の選択を高精度に行うことができ、他言語からカタカナへの翻字を高精度に行うことができる。また、実行プログラムをコンピュータにインストールすることにより、容易に他言語からカタカナへの翻字を実現することができる。
本発明によれば、他言語の単語からカタカナの単語への高精度な翻字を実現する。
<本発明の概要>
本発明は、外来語のカタカナで表現される単語を、元の外国語(以後、他言語という)から生成するものである。そのために、カタカナの単語とその対訳の他言語の単語との両方の単語内で発音的に類似している部分を対応付けたデータベースに基づいて変換候補を生成し、その変換候補の適用スコアを統計的に学習し、学習結果を利用して翻字(音訳)を行う。
以下に、上記のような特徴を有する本発明における翻字装置、及び翻字プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本実施例では、他言語の例として、英語の場合について説明するが、韓国語等の言語においても本発明を適用することができる。
<機能構成図>
図1は、本発明における翻字装置の機能構成の一例を示す図である。図1の翻字装置10は、学習データ11と、モデル生成手段12と、規則生成手段13と、変換候補生成手段14と、変換候補の確率計算手段15と、最適な変換候補を選択する選択手段16とを有するよう構成されている。
まず、モデル生成手段12は、学習データ(コーパス)11を入力して確率モデル17を出力する。ここでは、最大エントロピー法に基づく学習を例として扱う。つまり、最大エントロピー法で利用する素性関数を定義して確率モデル17を作成して出力する。なお、素性関数の定義内容については後述する。
規則生成手段13は、単語内の部分文字列の対応がついた学習データ11を用いて、英語の各部分文字列から変換されているカタカナの部分の字列の変換候補の規則を生成する。
例えば、「シ/ソー/ラ/ス:the/sau/ru/s」のデータからは、“the”→“シ”,“sau”→“ソー”,“ru”→“ラ”,“s”→“ス”という変換候補生成規則を得る。このような変換候補を学習データ11中の全ての英語とカタカナの部分文字列の対応付けされたデータから生成し、変換候補生成規則18を作成する。
なお、上述したモデル生成手段12及び規則生成手段13により確率モデル17及び変換候補生成規則18を作成するまでが学習フェーズとなる。つまり、学習データ11に基づいて、入力される他言語の単語を翻字する処理の前に実行される。また、以下に説明する変換候補生成手段14、確率計算手段15、及び選択手段16が、翻字を実行する実行フェーズとなる。
次に、実際の翻字を行う際には、例えば、他言語として英語の単語からなる入力データが変換候補生成手段14に入力される。変換候補生成手段14は、英語の単語からカタカナの単語を直接推定する。ここで、変換候補生成手段14における候補生成の内容について具体的に説明する。
翻字を行う英語の単語からカタカナの単語の先頭に“^”、単語の末尾に“$”等の識別子を追加して、英語の単語Eを以下に示す(1)式のように表現する。
Figure 2005092682
ここで、eは、英語の単語のj番目の文字であり、mは、英語の単語の“^”と“$”以外の文字数である。また、e m+1は、eからem+1までの文字列であることを示している。
この英語の単語の各部分に対する対応付けされた英語の部分文字列eu(English Unit)と、カタカナの部分文字列ku(Katakana unit)とからなる変換候補生成規則の適用方法は、Eの文字列中に一致する変換候補生成規則のeuを全て適用し、そのeuに対応する全てのkuにより、ラティスL{K}を作成する。
ここで、一例として図2に英語の単語「actinium」の変換候補のラティスL{K}の例を示す。L{K}中の“^”から“$”までの各経路P∈(P,P,・・・,P)中の部分文字列を繋いだ文字列が変換先の単語の候補となる。例えば、図2において、「c」には、「キ(ki)」、「ク(ku)」、及び「ック(kku)」の3つの候補があることを示している。なお、qは、L{K}中の“^”から“$”までの経路数を示している。
ここで、L{K}中のある経路Pを選択した場合について説明する。この場合のP中の“^”及び“$”以外の部分文字列の数をn(P)とする。また、P中の部分文字列に、先頭から順番に番号を付与する。上述の条件により、Pに対する英語の単語Eとその変換結果のカタカナの単語Kは、次のようになる。
Figure 2005092682
ここで、kはカタカナの単語のj番目の文字であり、m(P)はカタカナの単語の“^”及び“$”以外の文字数である。なお、(3)式におけるeu n(Pd)+1は、euからeun(Pd)+1までの文字列を示し、(4)式におけるku n(Pd)+1は、kuからkun(Pd)+1までの文字列を示している。
L{K}中の各Pにおける(4)式のku n(Pd)+1が変換候補のカタカナ単語となる。また、(3)式のeu n(Pd)+1が(4)式の変換候補を出力する際の英語の単語中の変換単位を示している。
変換候補生成手段14は、他言語の単語等が格納されている変換候補生成規則18を入力し、変換候補のラティス19を出力する。出力された変換候補のラティス19は、確率計算手段15に入力される。
次に、確率計算手段15は、入力された変換候補のラティス19と、確率モデル17とに基づいて、変換候補の生起確率を計算して選択手段16に出力する。選択手段16は、生起確率に基づいて変換候補を選択して出力する。また、確率計算手段15の処理と選択手段16の処理は交互に繰り返しながら少しずつ処理を行い、最適な変換候補として生起確率が最大となる変換候補を選択する。なお、選択手段16は、確率計算手段15による文脈情報を用いた変換候補の評価に基づいて変換候補の選択を行う。
ここで、変換候補の評価手法について説明する。まず、英語の単語を入力して対応するカタカナの単語E^を推定するためには、以下に示す(6)式を満たすKを求めればよい。
Figure 2005092682
ここで、P(K|E)は、Eが与えられた場合の、Kの条件付き確率分布を表す。しかしながら、(6)式を直接求めることは未知の単語に対して難しい。そこで、(3)式、(4)式により(6)式中の単語を部分文字列に分解する。分解した式を(7)式に示す。
Figure 2005092682
(7)式では、ラティス上の同じKを示す全ての変換候補の確率を合計することで、結果が得られることを示している。
また、(7)式のP(eu n(Pd)+1|E)は、英語の単語から生成される部分文字列の確率分布であり、変換単位推定モデルと呼ぶ。また、P(ku n(Pd)+1|eu n(Pd)+1)は、英語の部分文字列から生成されたカタカナの部分文字列の確率分布であり翻訳モデルと呼ぶ。更に、P(K|ku n(Pd)+1)は、カタカナの部分文字列からカタカナの単語が生成される確率分布である。
ここで、上述の変換単位推定モデル、翻訳モデル、及び確率分布である式、P(K|ku n(Pd)+1)P(ku n(Pd)+1|eu n(Pd)+1)P(eu n(Pd)+1|E)に実際の値を入力した例を図に示す。図3は、変換単位推定モデル、翻訳モデル、及び確率分布に実際の値を適用した一例の図である。なお、図3では、“アクチニウム(actinium)”を変換単位推定モデル、翻訳モデル、及び確率分布を示す式に適用し、「変換単位推定モデル×翻訳モデル×確率分布」を示している。
ここで、(7)式のP(ku n(Pd)+1|eu n(Pd)+1)を、単語単位の処理から部分文字列単位の処理に分解する。これにより、下記に示す(8)式のようになる。
Figure 2005092682
更に、P(ku|ku i−1,eu n(Pd)+1)の条件の英語の文字列をeuと、euの前a文字、euの後b文字だけに近似し、カタカナの文字列をkuの前c文字だけに近似する。
Figure 2005092682
ここで、start_eu(i)は、i番目の部分文字列euの初めの文字の位置を示し、start_ku(i)はi番目の部分文字列kuの初めの文字の位置を示している。また、上述のa,b,cは定数を示している。
(7)式の変換単位推定モデルP(eu n(Pd)+1|E)の確率は、E=eu m+1の単語を部分文字列に分割する確率(分割確率)であるので、各文字の間が分割点にあるかどうかで全ての分割パターンを表現することができる。分割可能な部分はm+1個あり、それらが分割点かそうでないかの2値を取ることにより、全ての部分文字列への分割を表現することができる。ここで、eとej+1との間が部分文字列の分割になるかどうかをZで表現する。
Figure 2005092682
を用いて、P(eu n(Pd)+1|E)を単語単位の処理から文字単位の処理に分解する。
Figure 2005092682
更に、Zの前a’文字と後b’文字と、Zの前のc’の分割情報(分割点か、又は分割点ではないかの情報)とを考慮するように近似する。
Figure 2005092682
(9)式、(12)式を用いると、(7)式は次のようになる。
Figure 2005092682
この(13)式が、本発明における第1の評価式である。
また、(13)式とは別の方法について説明する。(13)式に示すように同じKを出力するku n(Pd)+1とeu n(Pd)+1とについての合計を取らずに、部分文字列の組み合わせを1つだけ選択するように近似する。ここでは、Kは、ku n(Pd)+1としている。
Figure 2005092682
この(14)式が本発明における第2の評価式である。
なお、(13)式、(14)式に示す評価式では、euに対応するkuの確率を求める際に、euの前a文字及びeuの後b文字の英語の文脈と、kuの前c文字の日本語の文脈情報を考慮している。これによって、euの発音を示すkuの推定精度を向上させることができる。また、英単語を部分文字列に分割する際に、分割候補の部分の前a’文字とb’文字、前c’の分割情報という文脈情報を考慮している。
このように、文脈情報を用いて、元の単語を部分文字列へ分割する確率と、元の単語の部分文字列をカタカナの部分文字列へ変換する確率とからカタカナの単語の生起確率を計算し、ビタビアルゴリズム(Viterbi algorithm)を利用して効率的に確率が最大となるカタカナを選択することで、他言語の単語から高精度にカタカナの単語へ変換することができる。つまり、ラティスL{K}中の経路から、本発明における第1の評価式又は第2の評価式を満たすカタカナの文字列を選択し、カタカナの単語として出力する。
<確率モデルの生成における素性関数の定義内容>
次に、モデル生成手段12にて行う確率モデルの生成における素性関数の定義内容について説明する。
本発明における評価式((13)式,(14)式)で文脈を考慮する場合には、最大エントロピー法に基づいて構築した確率モデルを利用する。この確率モデルを利用するとモデルが対応できるデータが過疎になることを避けながら文脈情報を全て考慮して確率を求めることができる。なお、本発明におけるモデルの生成においてはこの限りではなく、他の統計的手法を用いてもよい。また、以下の説明では、最大エントロピー法による学習を例として扱う。
まず、(13)式と(14)式中の翻訳モデルである(15)式で利用する素性関数について説明する。
Figure 2005092682
ここでは、データが過疎になりにくいように文字情報だけでなく、子音、母音、半母音の区別の情報も利用する。そこで、eの子音、母音、半母音の区別の情報をG(ej)と表す。
Figure 2005092682
このeu,e,G(e),kuを夫々1つの属性として、それらの属性の組み合わせにより、素性関数を定義する条件を作成する。
最大エントロピー法に基づいてモデルを構築する際に最も重要なことは、素性関数をどのように定義するかという点にある。そこで、本発明では変換対象の部分文字列に距離が近いことと、連続していることが重要であると考え、以下の属性の組み合わせにより素性関数を定義する。
「kuとeu」、「kuと、euと、euの前あるいは後、又は前後のいくつかのe」、「kuと、euと、euの前あるいは後、又は前後のいくつかのG(e)」、「kuとkstart_ku(i)−1
また、分割モデルである(17)式では、次の組み合わせにより、素性関数を定義する。
Figure 2005092682
「Zとeとej+1」、「Zとeとej+1とeの前のいくつかのZとe」、「Zとeとej+1とeの後のいくつかのZ」、「Zとeとej+1とeの前のいくつかのZとeと後のいくつかのe」
これにより、素性関数を定義することができるため、この素性関数を用いて最大エントロピー法による確率モデルを生成することができる。
なお、最大エントロピー法によるモデルの学習では、例えば、Berger(1996)の確率モデルの構築手法等を用いて(13)式と(14)式で用いる(15)式、又は(17)式の確率モデルを、学習データ11を用いて構築することができる(Adam L. Berger, Stephen A. Della Pietra, and Vincent J. Della Pietra. 1996. A Maximum Entropy Approach to Natural Language Processing. Association for Computational Linguistics, Vol.22, No.1, pp.39−71.)。
これにより、本発明における素性関数を用いて最大エントロピー法による確率モデルを生成することができる。
ここで、上述したように翻字装置における専用の装置構成により本発明における翻字を行うこともできるが、上述した内容をコンピュータに実行させることができる実行プログラム(翻字プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等に翻字プログラムをインストールすることにより、本発明における翻字が実現可能となる。
ここで、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図4は、本発明における翻字処理が実現可能なハードウェア構成の一例を示す図である。
図4におけるコンピュータ本体には、入力装置31と、出力装置32と、ドライブ装置33と、補助記憶装置34と、メモリ装置35と、各種制御を行うCPU(Central Processing Unit)36と、ネットワーク接続装置37とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置31は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置32は、本発明における翻字処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、CPU36が有する制御プログラムに基づいて実行結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体38等により提供される。プログラムを記録した記録媒体38は、ドライブ装置33にセット可能であり、記録媒体38に含まれる実行プログラムが、記録媒体38からドライブ装置33を介して補助記憶装置34にインストールされる。
補助記憶装置34は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラムの他に、ドライブ装置33から読み取ることができる学習データや、学習フェーズにおいて作成された確率モデル17や変換候補生成規則18を蓄積し必要に応じて入出力を行うことができる。
CPU36は、OS(Operating System)等の制御プログラム、メモリ装置35により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、上述した翻字における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置34から取得することができ、また格納することもできる。
ネットワーク接続装置37は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、翻字手順を規定したプログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な翻字処理を実現できる。
次に、上述したようなハードウェア構成により実行される翻字プログラムにおける処理手順について、フローチャートを用いて説明する。なお、フローチャートは学習フェーズと実行フェーズとに分けて示しており、翻字プログラムは、CPU36により図4に示す各構成部を用いた後述の各処理手順を実行する。つまり、ユーザから入力装置31を用いて翻字プログラムの実行指示が入力されると、補助記憶装置34に格納されている翻字プログラムをメモリ装置35に格納する。CPU36は、メモリ装置35に格納された翻字プログラムにしたがって本発明における翻字処理に係る機能を実行する。
図5は、本発明の学習フェーズにおけるモデル生成手順を示す一例のフローチャートである。まず、学習データを入力する(S01)。この学習データは、対訳の単語内において対応付けがされているデータとなる。次に、確率モデルを生成する(S02)。ここでは、上述した素性関数を用い、(13)式、(14)式中の確率モデルを統計的に求める。その後、S02により生成した確率モデルを出力する(S03)。
次に、図6に、本発明の学習フェーズにおける変換候補生成規則作成手順の一例のフローチャートを示す。図6に示す変換候補生成規則作成処理では、まず、学習データを入力する(S11)。この学習データは、上述した確率モデル生成手順にて使用される学習データと同様であり、対訳の単語内において対応付けがされているデータである。次に、入力した学習データに基づいて変換候補生成規則を作成する(S12)。ここでは、部分対応付けされたカタカナと英語の単語対を用いてカタカナへの翻字処理のための変換候補生成規則を作成する。その後、S12にて生成された変換候補生成規則を出力する(S13)。
次に、実行フェーズについて図を用いて説明する。図7は、本発明の実行フェーズにおける翻字手順を示す一例のフローチャートである。
図7において、まず、翻字を行うために他言語データが入力されると(S21)、変換候補生成規則手順にて生成された変換候補生成規則を入力する(S22)。次に、他言語データと変換候補生成規則とから変換候補を生成する(S23)。具体的には、英語からカタカナへ変換する場合は、変換元となる英単語から変換候補生成規則を用いて変換先のカタカナの部分文字列からなるカタカナの変換候補のラティスL{K}を生成する。
次に、上述したモデル生成手順にて生成した確率モデルを入力する(S24)。確率モデルを入力後、S23にて生成した変換候補のラティスL{K}を対象に、文脈情報を用いて元の単語を部分文字列へ分割する確率、及び元の単語の部分文字列をカタカナの部分文字列へ変換する確率から変換候補となるカタカナの単語の生起確率を計算する(S25)。
次に、最適な変換候補として、S25にて計算された生起確率が最大となる変換候補を選択して出力する(S26)。具体的には、(13)式、(14)式に示した評価式を満たす最適なカタカナの文字列を選択し、その文字列をカタカナの単語として出力する。
ここで、本発明における第2の評価式である(14)式の上位解は、ダイナミックプログラミング(動的計画法)に基づく、最適な状態遷移が生じた場合の出力確率を求めるアルゴリズムであるビタビアルゴリズムによって、効率的に求めることができる。
また、第1の評価式の(13)式を満たす解は、(14)式の上位解となる経路のみを取り扱うことにより、高精度な近似解を効率よく求めることができる。
これにより、他言語の単語から高精度にカタカナの単語へ翻字することができる。また、実行プログラムを用いることで、特別な装置構成を必要とせず、汎用のコンピュータで本発明における翻字処理を実行できるため、低コストで高精度なカタカナへの翻字を実現することができる。
上述したように本発明によれば、他言語の単語からカタカナの単語への高精度な翻字を実現することができる。これにより、例えば、辞書に登録がない場合でも翻字処理によって外国語の単語からカタカナの単語を生成することができるため、外国から日本語へ機械翻訳する際の翻訳率を向上することができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における翻字装置の機能構成の一例を示す図である。 「actinium」の変換候補のラティスL{K}の例を示す。 変換単位推定モデル、翻訳モデル、及び確率分布に実際の値を適用した一例の図である。 本発明における翻字処理が実現可能なハードウェア構成の一例を示す図である。 モデル生成手順を示す一例のフローチャートである。 変換候補生成規則作成手順を示す一例のフローチャートである。 翻字手順を示す一例のフローチャートである。
符号の説明
10 翻字装置
11 学習データ
12 モデル生成手段
13 規則生成手段
14 変換候補生成手段
15 確率計算手段
16 選択手段
17 確率モデル
18 変換候補生成規則
19 変換候補のラティス
31 入力装置
32 出力装置
33 ドライブ装置
34 補助記憶装置
35 メモリ装置
36 CPU
37 ネットワーク接続装置
38 記録媒体

Claims (3)

  1. 他言語の単語からカタカナの単語を生成するための翻字装置において、
    前記他言語の単語と前記カタカナの単語とにおける部分文字列が対応付けられたデータに基づいて、変換候補の規則を生成する変換候補規則生成手段と、
    前記他言語の単語を単語内の文脈情報に基づいて変換単位に分割するための分割確率を取得するモデルと、前記他言語とカタカナとの部分文字列の対応確率を単語内の文脈情報に基づいて計算するモデルとを生成するモデル生成手段と、
    前記他言語で入力される単語を前記変換候補規則生成手段により得られる変換規則に基づいて、前記カタカナの変換候補と前記他言語での変換単位とを生成する変換候補生成手段と、
    前記モデル生成手段により得られるモデルと、前記他言語と前記カタカナとの文脈情報とに基づいて、変換候補の生起確率を計算する確率計算手段と、
    前記確率計算手段により得られる生起確率が最大となる変換候補を選択する変換候補選択手段とを有することを特徴とする翻字装置。
  2. 前記変換候補選択手段は、
    予め設定される評価式に基づいて、前記変換候補生成手段にて得られる変換候補からカタカナの変換候補を選択することを特徴とする請求項1に記載の翻字装置。
  3. 他言語の単語からカタカナの単語を生成するための処理をコンピュータに実行させるための翻字プログラムにおいて、
    前記他言語の単語と前記カタカナの単語とにおける部分文字列が対応付けられたデータに基づいて、変換候補の規則を生成する変換候補規則生成処理と、
    前記他言語の単語を単語内の文脈情報に基づいて変換単位に分割するための分割確率を取得するモデルと、前記他言語とカタカナとの部分文字列の対応確率を単語内の文脈情報に基づいて計算するモデルとを生成するモデル生成処理と、
    前記他言語で入力される単語を前記変換候補規則生成処理により得られる変換規則に基づいて、前記カタカナの変換候補と前記他言語での変換単位とを生成する変換候補生成処理と、
    前記モデル生成処理により得られるモデルと、前記他言語と前記カタカナとの文脈情報とに基づいて、変換候補の生起確率を計算する確率計算処理と、
    前記確率計算処理により得られる生起確率が最大となる変換候補を選択する変換候補選択処理とをコンピュータに実行させるための翻字プログラム。
JP2003327491A 2003-09-19 2003-09-19 翻字装置、及び翻字プログラム Pending JP2005092682A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003327491A JP2005092682A (ja) 2003-09-19 2003-09-19 翻字装置、及び翻字プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003327491A JP2005092682A (ja) 2003-09-19 2003-09-19 翻字装置、及び翻字プログラム

Publications (1)

Publication Number Publication Date
JP2005092682A true JP2005092682A (ja) 2005-04-07

Family

ID=34457346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003327491A Pending JP2005092682A (ja) 2003-09-19 2003-09-19 翻字装置、及び翻字プログラム

Country Status (1)

Country Link
JP (1) JP2005092682A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018330A (ja) * 2009-07-08 2011-01-27 Nhn Corp 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2011034220A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 字訳装置、コンピュータプログラム及び記録媒体
WO2012121063A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 翻字処理装置、プログラム、記録媒体、及び方法
JP2014106857A (ja) * 2012-11-29 2014-06-09 Mitsubishi Electric Corp アルファベット読み推定装置
JP2015022508A (ja) * 2013-07-18 2015-02-02 日本電信電話株式会社 文字列対応付け装置、方法、及びプログラム
US9009021B2 (en) 2010-01-18 2015-04-14 Google Inc. Automatic transliteration of a record in a first language to a word in a second language
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム
JP2021111051A (ja) * 2020-01-08 2021-08-02 株式会社東芝 記号列変換装置および記号列変換方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018330A (ja) * 2009-07-08 2011-01-27 Nhn Corp 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2011034220A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 字訳装置、コンピュータプログラム及び記録媒体
US9009021B2 (en) 2010-01-18 2015-04-14 Google Inc. Automatic transliteration of a record in a first language to a word in a second language
TWI465941B (zh) * 2011-03-04 2014-12-21 Rakuten Inc A translation processing apparatus, a translation processing program, a computer-readable recording medium having a translation processing program, and a translation processing method
KR101326354B1 (ko) * 2011-03-04 2013-11-11 라쿠텐 인코포레이티드 문자 변환 처리 장치, 기록 매체 및 방법
JP2012185679A (ja) * 2011-03-04 2012-09-27 Rakuten Inc 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法
WO2012121063A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 翻字処理装置、プログラム、記録媒体、及び方法
US9323744B2 (en) 2011-03-04 2016-04-26 Rakuten, Inc. Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration
JP2014106857A (ja) * 2012-11-29 2014-06-09 Mitsubishi Electric Corp アルファベット読み推定装置
JP2015022508A (ja) * 2013-07-18 2015-02-02 日本電信電話株式会社 文字列対応付け装置、方法、及びプログラム
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム
JP2021111051A (ja) * 2020-01-08 2021-08-02 株式会社東芝 記号列変換装置および記号列変換方法
JP7332486B2 (ja) 2020-01-08 2023-08-23 株式会社東芝 記号列変換装置および記号列変換方法

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5377889B2 (ja) 言語処理装置およびプログラム
JP4968036B2 (ja) 韻律語グルーピング方法及び装置
JP6175900B2 (ja) 翻訳装置、方法、及びプログラム
JP3986531B2 (ja) 形態素解析装置及び形態素解析プログラム
US20140095143A1 (en) Transliteration pair matching
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
JP2000516749A (ja) 語構成源テキストを語構成目標テキストに翻訳する機械構成の方法及び装置
JP2007206975A (ja) 言語情報変換装置及びその方法
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
Fernández-González et al. Non-projective dependency parsing with non-local transitions
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
Oh et al. An ensemble of grapheme and phoneme for machine transliteration
JP2005092682A (ja) 翻字装置、及び翻字プログラム
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Bhargava et al. How do you pronounce your name? Improving G2P with transliterations
JP2007317000A (ja) 機械翻訳装置、その方法およびプログラム
Nanayakkara et al. Context aware back-transliteration from english to sinhala
JP3961858B2 (ja) 翻字装置及びそのプログラム
JP2001142877A (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JP5336779B2 (ja) 文字列変換を行う情報処理装置、文字列変換方法、プログラム、および情報処理システム
JP3953772B2 (ja) 読みがな付与装置およびプログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP2010170252A (ja) 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070515