JP4084515B2

JP4084515B2 - アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体

Info

Publication number: JP4084515B2
Application number: JP32489299A
Authority: JP
Inventors: 邦子森脇
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-11-16
Filing date: 1999-11-16
Publication date: 2008-04-30
Anticipated expiration: 2019-11-16
Also published as: JP2001142877A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト自動読み上げやディクテーション（口述筆記）など、コンピュータを用いた音声合成や音声認識等の言語処理技術に係り、特に、英単語等のアルファベットからなる外来語に対する日本語読み（カタカナ）への変換（音訳）を効率的に行うに好適なアルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体に関するものである。
【０００２】
【従来の技術】
コンピュータを用いたテキスト自動読み上げやディクテーションなどの音声合成・音声認識システムにおいて、英単語に日本語読み（カタカナ音訳）を振る技術の一般的なものに、英単語とそれに対応する日本語読みを予め単語辞書に登録する従来技術（ａ）がある。しかし、多くの場合、英単語には複数の読みが存在する。例えば、「ｂｏｄｙ」は「バディー」や「ボディー」あるいは「ボディ」など色々な読みがある。
【０００３】
また、人名、地名などの固有名詞は単語辞書に登録されていないことが多いが、単語単位で読みが登録されていないものは１文字ずつに分解してアルファべット読みを繋げてしまうため、従来技術（ａ）では全く意味をなさない読みが振られてしまう。
【０００４】
このような問題に対処するためには、複数のカタカナ読みや新しい固有名詞の読みなどを全て辞書に登録する必要があり、その辞書の作成・維持に膨大なコストがかかる。
【０００５】
この従来技術（ａ）のように予め読みを辞書に登録するのではなく、英単語から自動的に読みを生成する試みもある。例えば、英単語を一度英語の発音記号に変換し、更にこれを日本語の読みへ変換する従来技術（ｂ）が、例えば、K. Knight and J. Graehl:“Machine Transliteration”,Computational Linguistics,vol.24,No.4,pp.599-612(1998)に開示されている。しかし、この従来技術（ｂ）には、英語の発音と日本語の読みが必ずしも一致しないという困難点がある。
【０００６】
また、英単語表記から直接日本語の読みに変換する従来技術（ｃ）が、例えば、塚田，増田：“英単語に対する日本語読み付与方法の検討”,情報処理学会第５３回全国大会,２−３５９（平成８年後期）において提案されている。
【０００７】
これは、アルファべット部分列と日本語音節の対応規則およびそれを補強する幾つかの規則（末尾−ｅ規則、接尾辞規則、促音挿入規則）を用いて英語表記を直接日本語の読みに変換する技術である。
【０００８】
しかし、この従来技術（ｃ）は、対応規則や補強規則を全て人手で作成しなければならないので、規則の設定に経験が必要とされ、理論的根拠に乏しく、コストもかかるという問題点がある。
【０００９】
【発明が解決しようとする課題】
解決しようとする問題点は、従来技術（ａ）の単語単位で読みを辞書に登録する技術では、辞書作成・維持にコストがかかり、また未知語には読みが振れないといった点であり、従来技術（ｂ）の単語表記から発音記号を経由して読みを生成する技術では、英語と日本語の発音に違いがあるため困難が多いといった点であり、さらに、従来技術（ｃ）の単語表記から直接読みを生成する技術では、人手による規則の設定を必要とするため、設定基準に理論的根拠がなく、コストがかかるといった点である。
【００１０】
本発明の目的は、これら従来技術の課題を解決し、英語等のアルファベット単語の日本語読み（カタカナ音訳等）への高精度な変換を、簡易かつ低コストで、さらに未知語等の任意の単語に対しても行うことを可能とするアルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体を提供することである。
【００１１】
【課題を解決するための手段】
上記目的を達成するため、本発明のアルファベット・日本語読み対応付け装置と方法は、対で入力されたアルファベット単語と、このアルファベット単語の日本語読みとから、アルファベット単語を構成する文字列と、この文字列に対する日本語読みとを対応付けたデータを生成するものであり、まず、予め対で入力されたアルファベット文字列とこのアルファベット文字列の１以上の日本語読みとを対応付けて記憶装置に記憶しておく。そして、アルファベット単語と、このアルファベット単語の日本語読みとの対が入力されると、要素間距離計算手段により、このアルファベット単語を構成する文字列と日本語読みを構成する文字列の全ての組合せの部分文字列間について要素間距離の計算を行う。この際、記憶装置で記憶した対応付けを例えば接続コスト０それ以外を接続コスト１として要素間距離の計算を行う。そして、対応付け探索手段により、計算した部分文字列間の要素間距離の語頭から語尾までの総和が最小になる対応付けを求める。このようにして、対で入力されたアルファベット単語と、このアルファベット単語の日本語読みとから、アルファベット単語を構成する文字列と、この文字列に対する日本語読みとを対応付けた大量のデータを容易に生成することができる。
【００１２】
また、本発明のアルファベット単語音訳装置と方法は、上述のアルファベット・日本語読み対応付け装置で生成されたアルファベット文字列とその日本語読みとを対応付けた大量のデータを用いて、入力されたアルファベット単語を構成する文字列とその日本語読みとの文字列ngram（複数要素の連鎖）頻度を計算し、この統計情報を用いた音訳モデル（日本語のカナ文字およびその連鎖の出現頻度の集合からなるモデル）に基づいて、入力されたアルファベット単語の日本語読みを特定する。
【００１３】
【発明の実施の形態】
以下、本発明の実施の形態を、図面により詳細に説明する。
図１は、本発明のアルファベット・日本語読み対応付け装置とアルファベット単語音訳装置の本発明に係る構成の一例を示すブロック図であり、図２は、本発明のアルファベット・日本語読み対応付け方法とアルファベット単語音訳方法の本発明に係る処理動作の一例を示すフローチャート、図９は、図１および図２における本発明のアルファベット・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法を実現するためのコンピュータシステムのハードウェア構成の一例を示すブロック図である。
【００１４】
図９において、９１はＣＲＴ（Cathode Ray Tube）やＬＣＤ（Liquid Crystal Display）等からなる表示装置、９２はキーボードやマウス等からなる入力装置、９３はハードディスクドライブ等からなる外部記憶装置、９４はＣＰＵ（Central Processing Unit）や主メモリ等を有し蓄積プログラム方式によるコンピュータ処理を行なう情報処理装置、９５は本発明に係る処理プログラムやデータ等を記録した光ディスク、９６は光ディスク９５の読み取り動作を行なう駆動装置である。
【００１５】
光ディスク９５に記録された処理プログラムやデータをインストールして主メモリに読み込むことにより、情報処理装置９４内に、図１に示すアルファベット・日本語読み対応付け装置やアルファベット単語音訳装置の本発明に係る機能が実装される。
【００１６】
以下、図１を用いて本発明に係るアルファベット・日本語読み対応付け装置とアルファベット単語音訳装置の構成を説明する。
図１において、１はアルファベット・日本語読み対応付け装置(図中、「英文字・カタカナ対応付け装置」と記載)、２はアルファベット単語音訳装置(図中、「英単語カタカナ音訳装置」と記載)である。
【００１７】
本例のアルファベット音訳装置２は、英単語からカタカナ読みを作成し、また、本例のアルファベット・日本語読み対応付け装置１は、このアルファベット音訳装置２で用いる音訳モデルを作成するために必要となる英文字・カタカナ対応データを作成する。
【００１８】
すなわち、アルファベット・日本語読み対応付け装置１は、入力された英単語とその日本語読みであるカタカナとを文字列単位で自動的に対応付ける装置であり、要素間距離計算手段１ａと、最小距離対応付け探索手段１ｂ、英文字カタカナ読みテーブル１ｃ、および、フィードバック手段１ｄとを有する。
【００１９】
英文字カタカナ読みテーブル１ｃには、予め対で入力された英文字列とそのカタカナ読みの候補（複数可）が格納されており、要素間距離計算手段１ａは、入力された英単語・カタカナ対応データの、任意の部分文字列間について、その英文字カタカナ読みテーブル１ｃを参照し、予め設定された関数を用いて要素間距離を計算する。
【００２０】
そして、最小距離対応付け探索手段１ｂは、動的計画法を用いて、要素間距離計算手段１ａで計算した文字列の要素間距離の総和が最小となる経路を探索し、その時の英文字とカタカナの対応付け（英文字・カタカナ対応データ）を１組出力する。
【００２１】
さらに、フィードバック手段１ｄは、最小距離対応付け探索手段１ｂで求めた英文字・カタカナ対応データを英文字カタカナ読みテーブル１ｃに記憶させる。
【００２２】
また、アルファベット音訳装置２は、英単語に対してカタカナ音訳をする装置であって、音訳モデル作成手段２ａと、英単語・カタカナ同時出現確率計算手段２ｂ、最大確率経路探索手段２ｃ、および、音訳モデルとしての文字列ngram頻度テーブル２ｄを有する。
【００２３】
音訳モデル作成手段２ａは、アルファベット・日本語読み対応付け装置１によって生成されたアルファベット・カタカナ対応データから、英単語とそのカタカナの同時出現確率を求めて音訳するための確率モデル（音訳モデル）である文字列ngram頻度テーブル２ｄを生成する。
【００２４】
この文字列ngram頻度テーブル２ｄ（音訳モデル）には、図６，７で具体例を示す文字列bigram頻度テーブル２ｅと文字列unigram頻度テーブル２ｆが格納されており、同時出現確率計算手段２ｂは、文字列unigram頻度テーブル２ｆから、入力された英単語内の英文字列に対するカタカナ文字列候補を複数列挙し、文字列bigram頻度テーブル２ｅに基づいて、入力された英単語に対するカタカナの同時出現確率を計算する。
【００２５】
最大確率経路探索手段２ｃは、複数の候補の中から、英単語・カタカナ同時出現確率計算手段２ｂで計算した同時出現確率を最大にする経路を探索し、その結果をカタカナ音訳結果として出力する。
【００２６】
以下、このような構成のアルファベット・日本語読み対応付け装置１とアルファベット音訳装置２の動作を、図２に基づき説明する。
【００２７】
図２において、ステップ２０１，２０２が図１のアルファベット・日本語読み対応付け装置１の処理、ステップ２０３〜２０４が図１のアルファベット単語音訳装置２の処理である。
【００２８】
まず、アルファベット・日本語読み対応付け装置１では、英単語とそのカタカナ読みとが対で入力されると、要素間距離計算手段１ａにより、その英単語・カタカナ対応データを入力として、英文字カタカナ読みテーブル１ｃを参照し、英文字とカタカナの任意の部分文字列間の要素間距離を計算する（ステップ２０１）。
【００２９】
そして、最小距離対応付け探索手段１ｂにより、その要素間距離の総和が最小となる対応付け経路を探索してアルファベット・カタカナ対応データを作成する（ステップ２０２）。
【００３０】
続いて、アルファベット音訳装置２では、アルファベット・日本語読み対応付け装置１で作成されたアルファベット・カタカナ対応データを用いて、音訳モデル作成手段２ａにより、音訳モデル（文字列ngram頻度テーブル２ｄ）を作成する（ステップ２０３）。
【００３１】
その後、任意の英単語が入力されると、その英単語の入力に対して、英単語・カタカナ同時出現確率計算手段２ｂにより、音訳モデル（文字列ngram頻度テーブル２ｄ）に基づいて英単語とカタカナの同時出現確率を計算する（ステップ２０４）。そして、最大確率経路探索手段２ｃにより、最も確率の高い経路を探索してカタカナ音訳結果を出力する（ステップ２０５）。
【００３２】
このようにして、アルファベット・日本語読み対応付け装置１において、対で入力された英単語・カタカナ対応データから自動的に文字列単位で対応付けたカタカナ読みデータを作成し、そして、この文字列単位で対応付けたデータから作成した音訳モデルに基づいて、アルファベット音訳装置２において、任意に入力された英単語に対してカタカナ音訳を行う。
【００３３】
次に、図３〜図８に基づき、具体的な例を用いて、アルファベット・日本語読み対応付け装置１とアルファベット音訳装置２の動作等に関して、要素間距離計算と最小距離対応付け探索、および、音訳モデルの順に説明する。
【００３４】
尚、以下に説明する技術は、例えば、北研二・中村哲・永田昌明著：“音声言語処理”（森北出版株式会社発行、１９９６年）の第２７頁〜第３０頁、第６３頁〜第６９頁、第８２頁〜第８７頁等に記載の形態素解析技術に基づくものである。
【００３５】
図３は、図１における要素間距離計算手段で参照する英文字カタカナ読みテーブルの構成例を示す説明図、図４は、図１における最小距離対応付け探索手段による英文字・カタカナの対応付け結果表の構成例を示す説明図、図５は、図１における要素間距離計算手段による要素間距離の計算結果例を示す説明図、図６は、図１における文字列bigram頻度テーブルの構成例を示す説明図、図７は、図１における文字列unigram頻度テーブルの構成例を示す説明図、そして、図８は、図１における最大確率経路探索手段により出力される英単語カタカナ音訳の結果表例を示す説明図である。
【００３６】
まず、要素間距離計算と最小距離対応付け探索について説明する。
英単語とカタカナを対応付けるというのは、例えば「station／ステーション」という単語単位の対応データを「s／ス」、「ta／テー」、「tio/ショ」、「n／ン」というように、文字列単位で対応付けを行うことである。
尚、文字列単位は原則として日本語発音の単位にする。
【００３７】
英単語を構成する文字列Ｘ＝x₁x₂…x_nと、その読みであるカタカナを構成する文字列Ｙ＝y₁y₂…y_mを対応付ける時は、各要素間の距離を定義し、距離の和が最小となるような対応付けを求めれば良い。
文字列の対応は「ｓ／ス」の「１：１」から、「tio／ショ」の「３：２」等の「ｓ／ｔ（ｓ，ｔ＞１）」まで多数ある。
本例では「１：１」〜「４：４」までの対応とする。
【００３８】
英単語の要素x₁からx_iまでと、カタカナの要素y₁からy_jまでの距離をｄ(i,j)とする。
英文字列とカタカナ列が「ｓ：ｔ」に対応している時、すなわち英文字x_i-s+1…x_iと、カタカナy_j-t+1…y_jが対応している時、その要素間距離をcost(x_i-s+1…x_i，y_j-t+1…y_j)とすると次の式（数１）で表される。
【００３９】
【数１】

【００４０】
各地点(i,j)で「１：１」〜「４：４」の対応について要素間距離cost(x_i-s+1…x_i，y_j-t+1…y_j)の計算を行い、語頭からの距離ｄ(i,j)を求める。
【００４１】
求めた距離ｄ(i,j)の最小値と、そのときの対応「ｓ：ｔ」の値から，直前の地点（ｉ−ｓ，ｊ−ｔ）を記憶しておく。
語尾まで至ったら、記憶された直前の地点を順に巡り、最小距離となる対応付けを求める。
要素間距離の値は、英文字カタカナ読みテーブルを用いて以下の式（数２）から求められる。
【００４２】
【数２】

【００４３】
この他の対応として、以下のように１文字挿入と１文字削除も考える。
１文字挿入は、英文字列とカタカナが「０：１」に対応し、１文字削除は「１：０」に対応する。このときの要素間距離は常に「１」である。
【００４４】
図３に示す英文字カタカナ読みテーブル１ｃは、予め作成した対応付け規則であり、本例では約１３０項目の英文字列について設定した。これは、アルファべットの子音と母音の組み合わせ（ka,ki,ku,ke,ko，…）に対する読みと、全てのアルファべット１文字（a,b,c,…）に対する読みの候補を機械的に幾つか列挙したものである。
【００４５】
図４に示す英文字・カタカナの対応付け結果表４１において、１行目が、入力された英単語・カタカナ対応データであり、「英単語／カタカナ」で表される。
また、２行目以降が対応付けの結果であり、「英文字／カタカナ」で表される。
【００４６】
図５に示す要素間距離を説明する図では、矢印が「ｓ：ｔ」の対応を示し、そして矢印に添えてある数字が、その対応の要素間距離である。いくつかの対応例を示しており、この例では図３の英文字カタカナ読みテーブル１ｃの項目にある「lo／ロ」と「so／ソ」の対応のみが要素間距離「０」となるが、それ以外の対応、例えば、「ｉ／フィ」と「op／ィ」等では全て「１」になる。
【００４７】
従って、語頭から語尾までの要素間距離の和が最小となるには、「phy／フィ」と「phy／フィー」の対応を経由する場合で、その距離は、「１＋０＋０＋１＝２」となる。
語頭から語尾までの全ての対応付けについて総当りで検討し、最小距離となる対応付けの経路（矢印の組み合わせ）を求める。
【００４８】
以上の例からも分かるように、本例の図１に示す英文字・カタカナ対応付け装置１では、図３の英文字カタカナ読みテーブル１ｃに項目が存在しないものが含まれる場合でも、前後に正確な対応付けができる要素があるために、全体として正しく対応付けができる。
【００４９】
このように、元となる英文字カタカナ読みテーブル１ｃが、全ての対応を網羅していなくても、新しい対応付けを行える点がこの英文字・カタカナ対応付け装置１の優れた点である。
【００５０】
次に、図１におけるアルファベット音訳装置２の音訳モデル作成手段２ａで生成し、英単語・カタカナ同時出現確率計算手段２ｂで参照する音訳モデル（文字列bigram頻度テーブル２ｅ、文字列unigram頻度テーブル２ｆ）について説明する。
【００５１】
図１の音訳モデル作成手段２ａでは、英文字・カタカナ対応付け装置１の最小距離対応付け探索手段１ｂの処理結果で出力される各英文字・カタカナ対応データの発生頻度を、１組単位(unigram)および連続した組単位(bigram)で、図６および図７の文字列bigram頻度テーブル２ｅ、文字列unigram頻度テーブル２ｆで示すようにして記録する。尚、本例では、６万単語についての結果を記録した。
【００５２】
英単語・カタカナ同時出現確率計算手段２ｂでは、これらの文字列bigram頻度テーブル２ｅ、文字列unigram頻度テーブル２ｆを参照して、入力された任意の英単語に最適なカタカナ読みを振る。以下、その詳細を説明する。
【００５３】
英単語に最適なカタカナ読みを振るということは、英単語の文字列Ｃ＝ｃ₁…ｃ_nに対応するカタカナの文字列Ｑ＝ｑ₁…ｑ_nとの同時出現確率Ｐ（Ｃ，Ｑ）を最大にするようなカタカナを求めるということである。尚、ここでのｃ_k，ｑ_kは、１文字を表すのではなく、１文字以上の文字列を表す。
【００５４】
本例では、同時出現確率をマルコフモデルで近似する。即ち、同時出現確率Ｐ（Ｃ，Ｑ）を、文字列bigramと確率Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，ｑ_i-1）の積として次式（数３）で表す。
【００５５】
【数３】

【００５６】
Ｐ（ｃ_i，ｑ_i｜ｃ_i-1，ｑ_i-1）の値は、文字列bigram頻度を、先行する文字列のunigram頻度で割ることによって与えられる。すなわち頻度をＣ（＊）で表すと、次の式（数４）となる。
【００５７】
【数４】

【００５８】
例えば、図６の文字列bigram頻度テーブル２ｅに示すように、「tio，ショ」および「n，ン」の文字列bigram頻度が「１５７２」で、図７の文字列unigram頻度テーブル２ｆに示すように、「tio，ショ」の文字列unigram頻度が「２５３７」ならば、Ｐ（n，ン｜tio，ショ）＝１５７２／２５３７＝０．６１９６２…である。
【００５９】
実際のカタカナ音訳処理では、各英文字列に対するカタカナ候補を文字列unigram頻度テーブル２ｆから列挙し、各候補について文字列bigram確率を計算する。
この結果に基づき、単語全体の確率が最大となる文字列の組み合わせを選択し、最適なカタカナ音訳を求める。
【００６０】
このように、本例の技術では、文字列単位で音訳をしているので、単語単位ではカタカナ音訳がわからない英単語であっても、連続する２つの文字列について文字列bigram確率が与えられれば、単語全体にカタカナ音訳が行える。
【００６５】
以上のようにして、英単語の語頭から語尾まで、全ての連続する文字列bigram確率を計算し、英単語とカタカナの同時出現確率が最大となるカタカナを求める。
その結果、図８の英単語カタカナ音訳の結果表８１に示すように、英単語に対するカタカナ音訳と、その対数確率値が得られる。
【００６６】
この図８においては、「station」についての読みが、「英文字列／カタカナ」の形で、対数確率値と共に３つ表されている。すなわち、音訳結果は対数確率値の高い順に「ステーション」、「ステイション」、「スタション」となり、尤らしい音訳が行えていることがわかる。
【００６７】
尚、この対数確率値は、上述の「数３」式の対数をとったものであり、積を和に表わすことにより、演算（プログラム作成）が容易になる。また、確率値は極めて小さい（１０^-6オーダー）が、対数をとることにより、その比較を容易とすることができる。
【００６８】
また、本例では、文字列の対応は「１：１」〜「４：４」までの対応としている。これにより、例えば、「１：１」〜「５：５」とした場合に「phylo／フィロソ」、「sopy／フィー」との結果が出力されるといった不適切なデータの生成を防ぐことができる。
【００６９】
また、本例では、フィードバック手段１ｄにより、最小距離対応付け探索手段１ｂで求めた英文字・カタカナ対応データを英文字カタカナ読みテーブル１ｃに記憶させている。これにより、英文字カタカナ読みテーブル１ｃにおけるデータを容易に増やすことができる。
【００７０】
以上、図１〜図９を用いて説明したように、本例のアルファベット・日本語読み対応付け装置と方法およびアルファベット音訳装置と方法では、まず、アルファベット・日本語読み対応付け装置および方法において、英単語・カタカナ対応データの対を入力とし、要素間距離計算手段１ａにより、英文字とカタカナの任意の部分文字列間の要素間距離を計算し、最小距離対応付け探索手段１ｂにより、要素間距離の総和が最小となる対応付け経路を探索してアルファベット・カタカナ対応データを作成することにより、英文字とカタカナの対応付けを自動的に処理できる。
【００７１】
そして、英単語カタカナ音訳装置および方法において、このアルファベット・カタカナ対応データを用いて、音訳モデル作成手段２ａにより、音訳モデル(文字列unigram頻度テーブル２ｆ、文字列bigram頻度２ｅ)を作成し、英単語の入力に対して、英単語・カタカナ同時出現確率計算手段２ｂにより、音訳モデルに基づいて英単語とカタカナの同時出現確率を計算し、最大確率経路探索手段２ｃにより、最も確率の高い経路を探索してカタカナ音訳結果を出力することにより、任意の英単語について最適なカタカナ音訳を行うことができる。
【００７２】
このようにして、英単語（アルファベット単語）のカタカナ読み（日本語読み）への高精度な変換を、簡易かつ低コストで行うことができる。
【００７３】
尚、本発明は、図１〜図９を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、本例では、英語を音訳対象の言語として用いて説明しているが、ドイツ語やフランス語等の他のアルファベットを用いた言語に対しても適用することができる。
【００７４】
また、本例では、本発明に係わる処理プログラムを記録する記録媒体として光ディスクを用いているが、ＦＤ（Flexible Disk）等の磁気ディスクを用いて良い。また、その処理プログラムのインストールに関しても、ネットワークを介してダウンロードすることでも良い。
【００７５】
【発明の効果】
本発明によれば、従来の単語単位で読みを辞書に登録する技術のように、辞書作成・維持にコストがかかると共に未知語には読みが振れないといった問題点や、従来の単語表記から発音記号を経由して読みを生成する技術のように、英語と日本語の発音に違いがあるため困難が多いといった問題点、さらには、従来の単語表記から直接読みを生成する技術にように、人手による規則の設定を必要とするため設定基準に理論的根拠がなくコストがかかるといった問題点を解決でき、英語等のアルファベット単語の日本語読み（カタカナ音訳等）への高精度な変換を、簡易かつ低コストで行うことができ、さらに未知語等の任意の単語に対しても行うことが可能となり、アルファベット単語の日本語読みへの変換を行うシステムの性能の向上を図ることができる。
【図面の簡単な説明】
【図１】本発明のアルファベット・日本語読み対応付け装置とアルファベット単語音訳装置の本発明に係る構成の一例を示すブロック図である。
【図２】本発明のアルファベット・日本語読み対応付け方法とアルファベット単語音訳方法の本発明に係る処理動作の一例を示すフローチャートである。
【図３】図１における要素間距離計算手段で参照する英文字カタカナ読みテーブルの構成例を示す説明図である。
【図４】図１における最小距離対応付け探索手段による英文字・カタカナの対応付け結果表の構成例を示す説明図である。
【図５】図１における要素間距離計算手段による要素間距離の計算結果例を示す説明図である。
【図６】図１における文字列bigram頻度テーブルの構成例を示す説明図である。
【図７】図１における文字列unigram頻度テーブルの構成例を示す説明図である。
【図８】図１における最大確率経路探索手段により出力される英単語カタカナ音訳の結果表例を示す説明図である。
【図９】図１および図２における本発明のアルファベット・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法を実現するためのコンピュータシステムのハードウェア構成の一例を示すブロック図である。
【符号の説明】
１：アルファベット・日本語読み対応付け装置(「英文字・カタカナ対応付け装置」)、１ａ：要素間距離計算手段、１ｂ：最小距離対応付け探索手段、１ｃ：英文字カタカナ読みテーブル、１ｄ：フィードバック手段、２：アルファベット単語音訳装置(「英単語カタカナ音訳装置」)、２ａ：音訳モデル作成手段、２ｂ：英単語・カタカナ同時出現確率計算手段、２ｃ：最大確率経路探索手段、２ｄ：文字列ngram頻度テーブル、２ｅ：文字列bigram頻度テーブル、２ｆ：文字列unigram頻度テーブル、４１：英文字・カタカナの対応付け結果表、８１：英単語カタカナ音訳の結果表、９１：表示装置、９２：入力装置、９３：外部記憶装置、９４：情報処理装置、９５：光ディスク、９６：駆動装置。

Claims

対で入力されたアルファベット単語と該アルファベット単語の日本語読みとに基づき、上記アルファベット単語を構成する部分文字列と該部分文字列に対する日本語読みとを対応付けたデータを生成するアルファベット文字・日本語読み対応付け装置であって、
予めアルファベット部分文字列と該アルファベット部分文字列の１以上の日本語読みとを対応付けてテーブルに記憶する記憶手段と、
上記アルファベット単語と該アルファベット単語の日本語読みとの対が入力されると、該アルファベット単語を構成する部分文字列と上記日本語読みを構成する部分文字列の全ての組合せの部分文字列間について、上記記憶手段で上記テーブルに記憶した対応付けを接続コストＭ（Ｍ≧０）、上記記憶手段で上記テーブルに記憶していない対応付けを接続コストＮ（Ｎ＞Ｍ）として要素間距離の計算を行う要素間距離計算手段と、
該要素間距離計算手段で計算した部分文字列間の要素間距離の語頭から語尾までの総和が最小になるアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組を求める対応付け探索手段とを有し、
上記要素間距離計算手段は要素間距離を計算するとき、アルファベットの部分文字列の長さと日本語読みを構成する部分文字列の長さとを０：１にした１文字挿入と、アルファベットの部分文字列の長さと日本語読みを構成する部分文字列の長さとを１：０にした１文字削除を取り入れ、１文字挿入と１文字削除はともに接続コストをＮとして要素間距離の計算を行う
ことを特徴とするアルファベット文字・日本語読み対応付け装置。
請求項１に記載のアルファベット文字・日本語読み対応付け装置であって、
上記対応付け探索手段で求められたアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組を上記テーブルに新たに記憶させるフィードバック手段とをさらに有する
ことを特徴とするアルファベット文字・日本語読み対応付け装置。
請求項１あるいは請求項２に記載のアルファベット文字・日本語読み対応付け装置であって、
上記対応付け探索手段で求められたアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組の生成頻度（文字列unigram頻度）を記憶する文字列unigram頻度記憶手段と、
上記対応付け探索手段で求められたアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組の隣り合う二つのアルファベット文字・日本語読み対応データの組の生成頻度（文字列bigram頻度）を記憶する文字列bigram頻度記憶手段と、
上記文字列unigram頻度と上記文字列bigram頻度に基づき、入力されたアルファベット単語を構成する全ての文字列と該文字列に対応する日本語読みの文字列との同時出現確率を計算する同時出現確率計算手段と、
該同時出現確率計算手段で計算した同時出現確率を最大にする上記日本語読みの文字列の組合せを求める最大確率経路探索手段と、
該最大確率経路探索手段で求めた組合せの日本語読みを上記入力されたアルファベット単語の日本語読みとして出力する手段とをさらに有する
ことを特徴とするアルファベット文字・日本語読み対応付け装置。
対で入力されたアルファベット単語と該アルファベット単語の日本語読みとに基づき、上記アルファベット単語を構成する部分文字列と該部分文字列に対する日本語読みとを対応付けたデータを生成するコンピュータシステムによるアルファベット文字・日本語読み対応付け方法であって、
予めアルファベット部分文字列と該アルファベット部分文字列の１以上の日本語読みとを対応付けたテーブルを記憶装置に記憶する第1のステップと、
上記アルファベット単語と該アルファベット単語の日本語読みとの対が入力されると、該アルファベット単語を構成する部分文字列と上記日本語読みを構成する部分文字列の全ての組合せの部分文字列間について、上記記憶装置で上記テーブルに記憶した対応付けを接続コストＭ（Ｍ≧０）、上記記憶装置で上記テーブルに記憶していない対応付けを接続コストＮ（Ｎ＞Ｍ）として要素間距離の計算を行う第２のステップと、
該第２のステップで計算した部分文字列間の要素間距離の語頭から語尾までの総和が最小になるアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組を求める第３のステップとを有し、
上記第２のステップでは要素間距離を計算するとき、アルファベットの部分文字列の長さと日本語読みを構成する部分文字列の長さとを０：１にした１文字挿入と、アルファベットの部分文字列の長さと日本語読みを構成する部分文字列の長さとを１：０にした１文字削除を取り入れ、１文字挿入と１文字削除はともに接続コストをＮとして要素間距離の計算を行う
ことを特徴とするアルファベット文字・日本語読み対応付け方法。
請求項４に記載のアルファベット文字・日本語読み対応付け方法であって、
上記第３のステップで求められたアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組を上記テーブルに新たに記憶させる第４のステップをさらに有する
ことを特徴とするアルファベット文字・日本語読み対応付け方法。
請求項４あるいは請求項５に記載のアルファベット文字・日本語読み対応付け方法であって、
上記第３のステップで求められたアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組の生成頻度（文字列unigram頻度）を記憶する第５のステップと、
上記第３のステップで求められたアルファベット単語を構成する部分文字列と日本語読みを構成する部分文字列の組の隣り合う二つのアルファベット文字・日本語読み対応データの組の生成頻度（文字列bigram頻度）を記憶する第６のステップと、
上記文字列unigram頻度と上記文字列bigram頻度に基づき、入力されたアルファベット単語を構成する全ての文字列と該文字列に対応する日本語読みの文字列との同時出現確率を計算する第７のステップと、
該第７のステップで計算した同時出現確率を最大にする上記日本語読みの文字列の組合せを求める第８のステップと、
該第８のステップで求めた組合せの日本語読みを上記入力されたアルファベット単語の日本語読みとして出力する第９のステップとをさらに有する
ことを特徴とするアルファベット文字・日本語読み対応付け方法。
請求項１ないし３のいずれか１項に記載のアルファベット文字・日本語読み対応付け装置を構成する各手段としてコンピュータを機能させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。