JP6179884B2

JP6179884B2 - Ｗｆｓｔ作成装置、音声認識装置、音声翻訳装置、ｗｆｓｔ作成方法、およびプログラム

Info

Publication number: JP6179884B2
Application number: JP2012257341A
Authority: JP
Inventors: ディクソン・ポール・リチャード; 堀　智織; 智織堀; 秀紀柏岡
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2017-08-16
Anticipated expiration: 2032-11-26
Also published as: JP2014106272A

Description

本発明は、音声認識等に使用される重み付き有限状態トランスデューサ（以下、適宜「ＷＦＳＴ」と言う。）を作成する装置であるＷＦＳＴ作成装置等に関するものである。

従来、ＷＦＳＴを使用した音声認識の技術が存在する（例えば、非特許文献１〜非特許文献４参照）。

また、従来、ＷＦＳＴを使用した機械翻訳の技術が存在する（例えば、非特許文献５参照）。

そして、従来の音声認識や機械翻訳の技術において、新しい単語を登録する場合、ＷＦＳＴを再構築していた。

F. Pereira, M. Riley, and R. Sproat, "Weighted rational transductions and their application to human language processing," in Proc. ARPA Workshop on Human Language technology, 1994, pp. 249-254. M. Mohri and M. Riley, "Weighted determinization and minimization for large vocabulary speech recognition," in Proc. Eurospeech, vol. 1, 1997, pp.131-134. Mohri, M., Pereira, F. and Riley, M.: Weighted Finite-state Transducers in Speech Recognition, Computer Speech and Language, Vol.16, No.1, pp.69-88 (2002). 堀貴明，塚田元，"音声情報処理の最先端3「重み付き有限状態トランスデューサによる音声認識」",情報処理学会誌「情報処理」45巻10号,pp.1020-1026 (2004.10). Shankar Kumar and William Byrne,A Weighted Finite State Transducer Implementation of the Alignment Template Model for Statistical Machine Translation,Proceedings of HLT-NAACL 2003, pp. 63-70.

しかしながら、従来技術においては、音声認識で利用するＷＦＳＴに新しい単語を追加するために、ＷＦＳＴを再構築する必要があった。そして、そのために、ＷＦＳＴの開発環境を用意する必要であり、かつＷＦＳＴの再構築のために長時間を要していた。

本第一の発明のＷＦＳＴ作成装置は、トライフォン音素列を単音素列に変換するためのＷＦＳＴである音素環境依存ＷＦＳＴ（Ｃ）と、単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴを格納し得るＧＷＦＳＴ格納部と、単語の単音素列と単語の文字列とを受け付ける受付部と、単語の単音素列を入力とし、単語の文字列を出力とする状態遷移を構成し、状態遷移をＧのＷＦＳＴに追加する新規単語蓄積部とを具備するＷＦＳＴ作成装置である。

かかる構成により、音声認識で用いるＷＦＳＴに新しい単語を受け付ける状態遷移が簡単に追加できる。

また、本第二の発明のＷＦＳＴ作成装置は、第一の発明に対して、新規単語蓄積部は、受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、状態遷移をＧのＷＦＳＴに追加するＷＦＳＴ作成装置である。

また、本第三の発明のＷＦＳＴ作成装置は、第二の発明に対して、新規単語蓄積部は、受付部が受け付けた単語の単音素列と同一の単音素列を構成する単語列が２以上存在する場合、単語列を構成する単語の数が最少である単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、状態遷移をＧのＷＦＳＴに追加するＷＦＳＴ作成装置である。

また、本第四の発明のＷＦＳＴ作成装置は、第二または第三の発明に対して、ＧのＷＦＳＴは、単語と単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴであり、受付部は、単語の単音素列と単語の文字列と単語のクラスとを受け付け、新規単語蓄積部は、受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、状態遷移を受付部が受け付けたクラスに対応するＧのＷＦＳＴに追加するＷＦＳＴ作成装置である。

かかる構成により、音声認識で用いるクラス言語モデルＷＦＳＴに新しい単語を受け付ける状態遷移が簡単に追加できる。

また、本第五の発明のＷＦＳＴ作成装置は、原言語のトライフォン音素列を単音素列に変換するためのＷＦＳＴである音素環境依存ＷＦＳＴ（Ｃ）と、原言語の単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、原言語の単語列から原言語のフレーズ列を取得するためのＷＦＳＴであるＰのＷＦＳＴを格納し得るＰＷＦＳＴ格納部と、原言語のフレーズ列から目的言語のフレーズ列を取得するためのＷＦＳＴであるＴのＷＦＳＴを格納し得るＴＷＦＳＴ格納部と、目的言語のフレーズ列から１以上の単語の並びである単語列を取得するためのＷＦＳＴであるＲのＷＦＳＴを格納し得るＲＷＦＳＴ格納部と、目的言語の単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ'）であるＧ'のＷＦＳＴを格納し得る第二ＧＷＦＳＴ格納部と、原言語の単語の単音素列と単語の文字列とを受け付ける受付部と、受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、状態遷移をＰのＷＦＳＴに追加する新規単語蓄積部とを具備するＷＦＳＴ作成装置である。

かかる構成により、機械翻訳で用いるＷＦＳＴに新しい単語を受け付ける状態遷移が簡単に追加できる。

また、本第六の発明のＷＦＳＴ作成装置は、第五の発明に対して、新規単語蓄積部は、受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を構成する２以上の各単語に対応する目的言語の単語を、ＴのＷＦＳＴから取得し、受付部が受け付けた原言語の文字列を入力とし、２以上の目的言語の単語の列を出力とする状態遷移を構成し、状態遷移をＴのＷＦＳＴに追加するＷＦＳＴ作成装置である。

また、本第七の発明のＷＦＳＴ作成装置は、第六の発明に対して、新規単語蓄積部は、２以上の目的言語の単語の列からなるフレーズを入力とし、２以上の目的言語の単語の列を出力とする状態遷移を構成し、状態遷移をＲのＷＦＳＴに追加するＷＦＳＴ作成装置である。

また、本第八の発明のＷＦＳＴ作成装置は、第七の発明に対して、Ｇ'のＷＦＳＴは、目的言語の単語と単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴであり、受付部は、原言語の単語の単音素列と単語の文字列と単語のクラスとを受け付け、新規単語蓄積部は、受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を構成する２以上の各単語に対応する目的言語の単語を、ＴのＷＦＳＴから取得し、２以上の目的言語の単語の列をＧ'のＷＦＳＴに追加するＷＦＳＴ作成装置である。

また、本第九の発明の音声認識装置は、ＣＬＷＦＳＴ格納部と、ＧＷＦＳＴ格納部と、音声を受け付ける音声受付部と、ＣＬＷＦＳＴ格納部に格納されているＣＬのＷＦＳＴ、およびＧＷＦＳＴ格納部に格納されているＧのＷＦＳＴを用いて、音声に対して音声認識処理を行い、文字列を取得する音声認識部と、音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置である。

かかる構成により、新しい単語が登録されたＷＦＳＴを用いることにより、音声認識処理の精度が向上する。

また、本第十の発明の音声翻訳装置は、ＰＷＦＳＴ格納部に格納されているＰのＷＦＳＴと、ＴＷＦＳＴ格納部に格納されているＴのＷＦＳＴと、ＲＷＦＳＴ格納部に格納されているＲのＷＦＳＴと、第二ＧＷＦＳＴ格納部に格納されているＧ'のＷＦＳＴとを合成したＰＴＲＧ'のＷＦＳＴを格納し得るＰＴＲＧＷＦＳＴ格納部と、音声認識装置と、音声認識装置が出力した原言語の文字列を、ＰＴＲＧ'のＷＦＳＴを用いて機械翻訳し、目的言語の文字列を取得する機械翻訳部と、目的言語の文字列を出力する翻訳結果出力部とを具備する音声翻訳装置である。

かかる構成により、新しい単語が登録されたＷＦＳＴを用いることにより、音声翻訳処理の精度が向上する。

本発明によるＷＦＳＴ作成装置によれば、ＷＦＳＴに新しい単語を受け付ける状態遷移が簡単に追加できる。

実施の形態１におけるＷＦＳＴ作成装置１のブロック図実施の形態１におけるＷＦＳＴ作成装置１の第一の動作について説明するフローチャート実施の形態１におけるＷＦＳＴ作成装置１の第二の動作について説明するフローチャート実施の形態１に追加する状態遷移の例を示す図実施の形態１に追加する状態遷移の例を示す図実施の形態１に追加する状態遷移の例を示す図実施の形態１におけるＧのＷＦＳＴの例を示す図実施の形態１におけるＧのＷＦＳＴの構成方法を説明する図実施の形態１におけるＧのＷＦＳＴの構成方法を説明する図実施の形態１におけるＧのＷＦＳＴに状態遷移を追加する処理を説明する図実施の形態２における音声認識装置２のブロック図実施の形態３におけるＷＦＳＴ作成装置３のブロック図実施の形態３におけるＷＦＳＴ作成装置３の動作について説明するフローチャート実施の形態３に追加する状態遷移の例を示す図実施の形態３に追加する状態遷移の例を示す図実施の形態３に追加する状態遷移の例を示す図実施の形態３に追加する状態遷移の例を示す図実施の形態４における音声翻訳装置４のブロック図上記実施の形態におけるコンピュータシステムの概観図上記実施の形態におけるコンピュータシステムのブロック図

以下、ＷＦＳＴ作成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、音素環境依存ＷＦＳＴ（Ｃ）と単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＷＦＳＴであるＣＬのＷＦＳＴ、および単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴとを有する環境において、新規単語の登録指示を受け付けた場合、ＣＬのＷＦＳＴ内に、新規単語を登録するＷＦＳＴ作成装置１について説明する。

また、本実施の形態において、新規単語の部分と同じ発音になる単語の系列を任意の基準で選択し、既登録単語を入力、新規単語を出力とする状態遷移をＣＬのＷＦＳＴ内に追加するＷＦＳＴ作成装置１について説明する。なお、単語の系列の選択に関して、最少単語数基準で行われる例について説明する。

また、本実施の形態において、新たな単語とクラスとを受け付けるＷＦＳＴ作成装置１について説明する。

図１は、本実施の形態におけるＷＦＳＴ作成装置１のブロック図である。ＷＦＳＴ作成装置１は、ＣＬＷＦＳＴ格納部１１、ＧＷＦＳＴ格納部１２、受付部１３、および新規単語蓄積部１４を備える。

ＣＬＷＦＳＴ格納部１１は、ＣＬのＷＦＳＴを格納し得る。ＣＬのＷＦＳＴとは、音素環境依存ＷＦＳＴと、単語辞書ＷＦＳＴとを合成したＷＦＳＴである。なお、音素環境依存ＷＦＳＴは、トライフォン音素列を単音素列に変換するためのＷＦＳＴであり、適宜、「Ｃ」とする。音素環境依存ＷＦＳＴは、通常、ＨＭＭ（隠れマルコフモデル）を入力とし、単音素列を出力とするＷＦＳＴである。また、単語辞書ＷＦＳＴは、単音素列を単語列に変換するためのＷＦＳＴであり、適宜、「Ｌ」とする。単語辞書ＷＦＳＴは、通常、単音素列と単語列と重みを有するＷＦＳＴである。さらに、ＣとＬとを合成したＷＦＳＴとは、ＣとＬとを連結したＷＦＳＴである。また、ＣＬのＷＦＳＴは、最適化されているＷＦＳＴであることは好適である。ＷＦＳＴを最適化する技術は公知技術であるので、詳細な説明を省略する。なお、ＷＦＳＴを最適化する技術は、非特許文献４等に記載されている。

ＧＷＦＳＴ格納部１２は、ＧのＷＦＳＴを格納し得る。ＧのＷＦＳＴは、単語と重みとを有する言語モデルである。また、ＧのＷＦＳＴは、単語と重みとを有するＷＦＳＴである。さらに、ＧのＷＦＳＴとは、単語と単語が属するクラスと重みとを有するクラス言語モデルのＷＦＳＴであることは好適である。

受付部１３は、単語の単音素列と単語の文字列とを受け付ける。また、受付部１３は、単語の単音素列と単語の文字列と単語のクラスとを受け付けても良い。なお、この単語は、ＷＦＳＴに登録する新規単語である。

また、受付部１３は、単語の文字列を受け付け、当該文字列から単音素列を生成して、単語の単音素列と単語の文字列とを取得しても良い。かかる場合も、受付部１３は、単語の単音素列と単語の文字列とを受け付けたこととなる。なお、文字列から単音素列を生成する技術は公知技術であるので、説明を省略する。

また、受付部１３は、単語の単音素列を受け付け、当該単音素列から文字列を取得しても良い。かかる場合も、受付部１３は、単語の単音素列と単語の文字列とを受け付けたこととなる。なお、単音素列から文字列を取得する技術は公知技術であるので、説明を省略する。

ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

受付部１３が受け付ける情報の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１３は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

新規単語蓄積部１４は、受付部１３が受け付けた単語の単音素列を入力とし、受付部１３が受け付けた単語の文字列を出力とする状態遷移を構成し、当該状態遷移をＧのＷＦＳＴに追加する。

なお、状態遷移とは、状態の遷移を示す情報である。また、新規単語蓄積部１４が状態遷移を構成する場合、状態の識別子は、例えば、使用されていない識別子（例えば、数値）を生成することにより、取得される。そして、新規単語蓄積部１４は、入力の情報と出力の情報と状態の識別子とを用いて、状態遷移を構成する。また、ここで、新規単語蓄積部１４は、追加する状態遷移に対応するクラスのＷＦＳＴを取得し、当該ＷＦＳＴに状態遷移を追加する。その際、新規単語蓄積部１４は、例えば、現在使われている状態識別子（数値）の最大値＋１から、必要になった順に数値を増やして割り当て、当該割り当てた状態識別子を使用して、ＷＦＳＴに状態遷移を追加する。また、新規単語蓄積部１４は、追加する状態遷移が有する入力に対応する状態識別子と出力に対応する状態識別子とを生成し、当該状態遷移をＷＦＳＴに追加しても良い。また、新規単語蓄積部１４における本処理を処理１とする。つまり、処理１は、新規単語の発音(単音素列)を入力、新規単語を出力とする状態遷移を言語モデルＷＦＳＴＧ（ＧのＷＦＳＴ）に追加する処理である、とも言える。なお、新規単語蓄積部１４が、状態遷移をＷＦＳＴに追加する処理は公知技術であるので、詳細な説明を省略する。

また、新規単語蓄積部１４は、受付部１３が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語（この単語は「新規単語」である。）の文字列を出力とする状態遷移を構成し、ＧのＷＦＳＴに追加する。新規単語蓄積部１４における本処理を処理２とする。つまり、処理２は、既登録単語の中から、新規単語と同じ発音になる単語(または音素)の系列を任意の基準（例えば最少単語数基準）で選び、選んだ既登録単語列を入力、新規単語を出力とする状態遷移を言語モデルＷＦＳＴＧ（ＧのＷＦＳＴ）に追加する処理である。なお、状態遷移をＧのＷＦＳＴに追加する場所を決定する処理は、上述した処理と同様である。

また、新規単語蓄積部１４は、受付部１３が受け付けた単語の単音素列と同一の単音素列を構成する単語列が２以上存在する場合、単語列を構成する単語の数が最少である単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、ＧのＷＦＳＴに追加することは好適である。なお、状態遷移をＧのＷＦＳＴに追加する場所を決定する処理は、上述した処理と同様である。また、本処理は、処理２をさらに適切な処理に限定した処理であり、処理２'とする。

新規単語蓄積部１４は、処理１のみを行っても良いし、処理２または処理２'のみを行っても良いが、処理１と、処理２または処理２'とを行うことは好適である。

また、受付部１３が単語の単音素列と単語の文字列と単語のクラスとを受け付けた場合、新規単語蓄積部１４は、受付部１３が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、単語列を入力とし、単語の文字列を出力とする状態遷移を構成する。そして、新規単語蓄積部１４は、ＧのＷＦＳＴに対して、受付部１３が受け付けたクラスに対応する状態遷移の始端・終端の状態間に追加しても良い。

ＣＬＷＦＳＴ格納部１１、ＧＷＦＳＴ格納部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

ＣＬＷＦＳＴ格納部１１等にＣＬのＷＦＳＴ等が記憶される過程は問わない。例えば、記録媒体を介してＣＬのＷＦＳＴ等がＣＬＷＦＳＴ格納部１１で記憶されるようになってもよく、通信回線等を介して送信されたＣＬのＷＦＳＴ等がＣＬＷＦＳＴ格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたＣＬのＷＦＳＴ等がＣＬＷＦＳＴ格納部１１等で記憶されるようになってもよい。

新規単語蓄積部１４は、通常、ＭＰＵやメモリ等から実現され得る。新規単語蓄積部１４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、ＷＦＳＴ作成装置１の第一の動作について、図２のフローチャートを用いて説明する。第一の動作は、上記の処理１である。

（ステップＳ２０１）受付部１３は、単語等を受け付けたか否かを判断する。単語等を受け付ければステップＳ２０２に行き、単語等を受け付けなければステップＳ２０１に戻る。なお、単語等とは、単語の単音素列と単語の文字列である。

（ステップＳ２０２）新規単語蓄積部１４は、ステップＳ２０１で受け付けられた単語等から、単音素列を取得する。

（ステップＳ２０３）新規単語蓄積部１４は、ステップＳ２０１で受け付けられた単語等から、文字列を取得する。なお、この文字列は、登録される新規な単語である。

（ステップＳ２０４）新規単語蓄積部１４は、ステップＳ２０２で取得した単音素列を入力とし、ステップＳ２０３で取得した文字列を出力とする状態遷移を構成する。

（ステップＳ２０５）新規単語蓄積部１４は、ステップＳ２０４で構成した状態遷移を、ＧＷＦＳＴ格納部１２のＧのＷＦＳＴに追加し、ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ＷＦＳＴ作成装置１の第二の動作について、図３のフローチャートを用いて説明する。第二の動作は、上記の処理２'である。図３のフローチャートにおいて、図２のフローチャートと同一のステップ（Ｓ２０１−Ｓ２０３）については、説明を省略する。

（ステップＳ３０１）新規単語蓄積部１４は、ステップＳ２０１で受け付けられた文字列と同じ発音になる２以上の単語の並びである単語列を取得する。なお、ここで、新規単語蓄積部１４は、２以上の単語列を取得する場合もあり得る。

（ステップＳ３０２）新規単語蓄積部１４は、ステップＳ３０１で取得した単語列が２以上、存在するか否かを判断する。２以上存在する場合はステップＳ３０３に行き、１つしか存在しない場合はステップＳ３０４に行く。なお、単語列が１つしか存在しない場合は、その単語列は既に予め決められたバッファに格納される、とする。

（ステップＳ３０３）新規単語蓄積部１４は、ステップＳ３０１で取得した２以上の単語列のうち、最小の単語数の単語列を取得し、予め決められたバッファに蓄積する。なお、最小の単語数の単語列が２以上、存在する場合は、新規単語蓄積部１４は、当該２以上の単語列から、任意の一つを取得して良い。

（ステップＳ３０４）新規単語蓄積部１４は、予め決められたバッファに格納されている単語列を入力とし、ステップＳ２０１で受け付けられた文字列を出力とする状態遷移を構成する。

（ステップＳ３０５）新規単語蓄積部１４は、ステップＳ３０４で構成された状態遷移を、ＧＷＦＳＴ格納部１２のＧのＷＦＳＴに追加し、ステップＳ２０１に戻る。

なお、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

また、ステップＳ３０３において、単語列が２以上、存在する場合、新規単語蓄積部１４は、最小の単語数の単語列ではない任意の単語列を取得しても良い。

以下、本実施の形態におけるＷＦＳＴ作成装置１の２つの具体的な動作について説明する。また、以下の具体例において、単語「都電荒川線」をＷＦＳＴに登録するものとする。

（具体例１）
まず、ユーザは、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」とをＷＦＳＴ作成装置１に入力する。

次に、受付部１３は、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」とを受け付ける。

次に、新規単語蓄積部１４は、単音素列「t o d e ng a r a k a w a s e ng」を入力とし、文字列「都電荒川線」を出力とする状態遷移を、図４のように構成する。図４において、ノード（○）の中の数値は状態の識別子である。また、図４において、新規単語蓄積部１４は、状態識別子を順に自動生成していくものとする。また、図４における「t:都電荒川線」は、「t」を入力とし、「都電荒川線」を出力とすることを示す。また、「o:-」は、「o」を入力とし、出力は無い「-」ことを示す。つまり、図４の状態遷移の全体は、単語の単音素列「t o d e ng a r a k a w a s e ng」が入力で、単語の文字列「都電荒川線」が出力である旨を示す。

次に、新規単語蓄積部１４は、構成した図４の状態遷移を、ＧＷＦＳＴ格納部１２のＧのＷＦＳＴに追加する。

次に、新規単語蓄積部１４は、受け付けられた文字列「都電荒川線」と同じ発音になる２以上の単語の並びである単語列を取得する。ここで、新規単語蓄積部１４は、「都電，荒川，線」「都，電，荒川，線」「都，電，荒，川，線」等を取得した、とする（図５参照）。

次に、新規単語蓄積部１４は、取得した単語列が２以上、存在する、と判断する。そして、新規単語蓄積部１４は、取得した上記の２以上の単語列のうち、最小の単語数の単語列「都電，荒川，線」を取得し、予め決められたバッファに蓄積する。

次に、新規単語蓄積部１４は、予め決められたバッファに格納されている単語列「都電，荒川，線」を入力とし、受け付けられた文字列「都電荒川線」を出力とする状態遷移を、図６のように構成する。

次に、新規単語蓄積部１４は、図６の状態遷移を、ＧＷＦＳＴ格納部１２のＧのＷＦＳＴに追加する。

以上の処理により、新規な単語に対応出来る状態遷移がＷＦＳＴに登録された。

（具体例２）
具体例２は、クラス言語モデルＷＦＳＴへ、単語を受け付ける状態遷移が追加される場合である。つまり、ここでは、新規単語蓄積部１４は、受付部１３が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得し、当該単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、受付部１３が受け付けたクラスに対応するＧのＷＦＳＴに追加する。

今、ＧＷＦＳＴ格納部１２のＧのＷＦＳＴは、例えば、図７である。図７のＷＦＳＴは、例えば、図８に示すように、図示しないＧＷＦＳＴ生成手段が、単語−クラス対応リスト（７１、７２、および７３）から、重みをキーとしてソートしたリスト（７４）を構成する。そして、ＧＷＦＳＴ生成手段が、リスト（７４）から状態遷移（ＧのＷＦＳＴ）を構成する。なお、図９のクラス連鎖ＷＦＳＴ（９２）は有っても無くとも構成することができる。

なお、ＧのＷＦＳＴ（図７，図９の９３）は、図９に示すように、単語−クラス対応ＷＦＳＴ（９１）とクラス連鎖ＷＦＳＴ（９２）とを合成して、図示しないＧＷＦＳＴ生成手段が取得しても良い。かかる場合、単語−クラス対応ＷＦＳＴ（９１）とクラス連鎖ＷＦＳＴ（９２）とは、予め図示しない記憶手段に格納されている。

次に、ユーザは、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」と、クラス＜ｐｌａｃｅ＿ｎａｍｅ＞とをＷＦＳＴ作成装置１(図１)に入力した、とする。

次に、図１において、受付部１３は、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」と、クラス＜ｐｌａｃｅ＿ｎａｍｅ＞とを受け付ける。

次に、具体例１と同様に、新規単語蓄積部１４は、単音素列「t o d e ng a r a k a w a s e ng」を入力とし、文字列「都電荒川線」を出力とする状態遷移を、図４のように構成する。次に、新規単語蓄積部１４は、構成した図４の状態遷移を、ＧＷＦＳＴ格納部１２のＧのＷＦＳＴに追加する。

次に、具体例１と同様に、新規単語蓄積部１４は、受け付けられた文字列「都電荒川線」と同じ発音になる２以上の単語の並びである単語列の中で、最小の単語数の単語列「都電，荒川，線」を取得し、予め決められたバッファに蓄積する。

次に、新規単語蓄積部１４は、受け付けられたクラス＜ｐｌａｃｅ＿ｎａｍｅ＞に対応するＧのＷＦＳＴに、構成した状態遷移を追加し、図１０の１０１に示すＧのＷＦＳＴを得る。

以上の処理により、クラス言語モデルＷＦＳＴへ単語に対応出来る状態遷移が追加された。なお、図１０の１０１のグレイの領域が追加された状態遷移である。

以上、本実施の形態によれば、ＷＦＳＴに新しい単語を簡単に追加できる。さらに具体的には、ＷＦＳＴに新しい単語を追加する場合に、ＣＬの再構築が不要である。また、本実施の形態によれば、上記の処理２で説明したように、ＷＦＳＴに新しい単語を追加する場合に、主として、既登録の単語列を見つける処理が必要なだけであり、極めて高速に新しい単語を追加できる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態におけるＷＦＳＴ作成装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、トライフォン音素列を単音素列に変換するためのＷＦＳＴである音素環境依存ＷＦＳＴ（Ｃ）と単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴを格納し得るＧＷＦＳＴ格納部とを具備し、コンピュータを、単語の単音素列と当該単語の文字列とを受け付ける受付部と、前記単語の単音素列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加する新規単語蓄積部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記新規単語蓄積部は、前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加するものとして、コンピュータを機能させることは好適である。

また、上記プログラムにおいて、前記新規単語蓄積部は、前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する単語列が２以上存在する場合、当該単語列を構成する単語の数が最少である単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加するものとして、コンピュータを機能させることは好適である。

また、上記プログラムにおいて、前記ＧのＷＦＳＴは、単語と当該単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴであり、前記受付部は、単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、前記新規単語蓄積部は、前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記受付部が受け付けたクラスに対応するＧのＷＦＳＴに追加するものとして、コンピュータを機能させることは好適である。

（実施の形態２）
本実施の形態において、ＷＦＳＴ作成装置１を用いて作成したＷＦＳＴを用いた音声認識装置２について、図１１を用いて説明する。

図１１は、本実施の形態における音声認識装置２のブロック図である。音声認識装置２は、ＣＬＷＦＳＴ格納部１１、ＧＷＦＳＴ格納部１２、音声受付部２３、音声認識部２４、出力部２５を備える。

ＣＬＷＦＳＴ格納部１１は、上述したＷＦＳＴ作成装置１が具備するものと同様である。また、ＧＷＦＳＴ格納部１２も、上述したＷＦＳＴ作成装置１が具備するものと同様である。

音声受付部２３は、音声を受け付ける。この音声は、音声認識の対象の音声である。音声の入力手段は、通常、マイクである。音声受付部２３は、ディジタル化された音声信号を出力する。

音声認識部２４は、ＣＬＷＦＳＴ格納部１１に格納されているＣＬのＷＦＳＴ、およびＧＷＦＳＴ格納部１２に格納されているＧのＷＦＳＴを用いて、デジタル化された音声信号に対して音声認識処理を行い、文字列を取得する。つまり音声認識部２４は、例えば、受け取った音声信号に対して、ＷＦＳＴの各トライフォン音素に対応する隠れマルコフモデルを用いて音響スコア（音声と各トライフォンとの近さを表すスコア）を計算し、これを状態遷移の重みとしてＷＦＳＴの中からスコアの総和が最大となる単語列を探し出し、文字列として出力する。なお上記の、ＣＬのＷＦＳＴ、およびＧのＷＦＳＴを用いて、音声認識を行う技術は公知技術であるので、詳細な説明を省略する。

音声認識部２４は、通常、ＭＰＵやメモリ等から実現され得る。音声認識部２４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部２５は、音声認識部２４が取得した文字列を出力する。出力部２５は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。すなわち出力部２５は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声認識装置２の動作について説明する。音声認識装置２の音声受付部２３は、音声を受け付ける。そして、音声認識部２４は、ＣＬＷＦＳＴ格納部１１に格納されているＣＬのＷＦＳＴ、およびＧＷＦＳＴ格納部１２に格納されているＧのＷＦＳＴを用いて、音声受付部２３が受け付けた音声に対して音声認識処理を行い、文字列を取得する。次に、出力部２５は、音声認識部２４が取得した文字列を出力する。

以上、本実施の形態によれば、ＷＦＳＴ作成装置１で作成したＷＦＳＴを用いて音声認識できる。そして、かかる音声認識装置２が行う音声認識処理を、ＣＬの再構築を行って作成したＷＦＳＴを用いて音声認識した場合と比較して、認識の速度およびメモリ使用量はあまり変わらない、と言える。

なお、本実施の形態における音声認識装置２を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、トライフォン音素列を単音素列に変換するためのＷＦＳＴである音素環境依存ＷＦＳＴ（Ｃ）と、単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴを格納し得るＧＷＦＳＴ格納部とを具備し、コンピュータを、音声を受け付ける音声受付部と、前記ＣＬＷＦＳＴ格納部に格納されているＣＬのＷＦＳＴ、および前記ＧＷＦＳＴ格納部に格納されているＧのＷＦＳＴを用いて、前記音声に対して音声認識処理を行い、文字列を取得する音声認識部と、前記音声認識部が取得した文字列を出力する出力部として機能させるためのプログラムである。

（実施の形態３）
本実施の形態において、機械翻訳のために使用するＷＦＳＴを作成するＷＦＳＴ作成装置３について、図１２を用いて説明する。

図１２は、本実施の形態におけるＷＦＳＴ作成装置３のブロック図である。ＷＦＳＴ作成装置３は、ＣＬＷＦＳＴ格納部１１、ＰＷＦＳＴ格納部３２、ＴＷＦＳＴ格納部３３、ＲＷＦＳＴ格納部３４、第二ＧＷＦＳＴ格納部３５、受付部３６、新規単語蓄積部３７を備える。

ＰＷＦＳＴ格納部３２は、ＰのＷＦＳＴを格納し得る。ＰのＷＦＳＴとは、原言語の単語列から原言語のフレーズ列を取得するためのＷＦＳＴである。つまり、ＰのＷＦＳＴは、原言語の単語列を入力とし、原言語のフレーズ列を出力とする状態遷移の集合である。

ＴＷＦＳＴ格納部３３は、ＴのＷＦＳＴを格納し得る。ＴのＷＦＳＴとは、原言語のフレーズ列から目的言語のフレーズ列を取得するためのＷＦＳＴである。つまり、ＰＴのＷＦＳＴは、原言語のフレーズ列を入力とし、目的言語のフレーズ列を出力とする状態遷移の集合である。

ＲＷＦＳＴ格納部３４は、ＲのＷＦＳＴを格納し得る。ＲのＷＦＳＴとは、目的言語のフレーズ列から１以上の単語の並びである単語列を取得するためのＷＦＳＴである。ＲのＷＦＳＴは、目的言語のフレーズ列を入力とし、目的言語の単語列を出力とする状態遷移の集合である。

第二ＧＷＦＳＴ格納部３５は、目的言語の単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ'）であるＧ'のＷＦＳＴを格納し得る。なお、Ｇ'のＷＦＳＴとは、目的言語の単語と単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴである。

受付部３６は、原言語の単語の単音素列と単語の文字列とを受け付ける。また、受付部３６は、原言語の単語の単音素列と単語の文字列と単語のクラスとを受け付けても良い。受付部３６が受け付ける情報の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部３６は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

新規単語蓄積部３７は、受付部３６が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得する。次に、新規単語蓄積部３７は、当該単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、状態遷移をＰのＷＦＳＴに追加する。かかる処理を処理３１とする。

また、新規単語蓄積部３７は、受付部３６が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得する。そして、新規単語蓄積部３７は、当該単語列を構成する２以上の各単語に対応する目的言語の単語を、ＴのＷＦＳＴから取得する。次に、新規単語蓄積部３７は、受付部３６が受け付けた原言語の文字列を入力とし、２以上の目的言語の単語の列を出力とする状態遷移を構成し、状態遷移をＴのＷＦＳＴに追加するようにしても良い。かかる処理を処理３２とする。

また、新規単語蓄積部３７は、受付部３６が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得する。そして、新規単語蓄積部３７は、当該単語列を構成する２以上の各単語に対応する目的言語の単語を、ＴのＷＦＳＴから取得する。次に、新規単語蓄積部３７は、取得した２以上の目的言語の単語の列からなるフレーズを入力とし、２以上の目的言語の単語の列を出力とする状態遷移を構成し、状態遷移をＲのＷＦＳＴに追加しても良い。かかる処理を処理３３とする。

さらに、新規単語蓄積部３７は、受付部３６が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列をＣＬのＷＦＳＴから取得する。そして、新規単語蓄積部３７は、当該単語列を構成する２以上の各単語に対応する目的言語の２以上の単語の列を、ＴのＷＦＳＴから取得する。次に、新規単語蓄積部３７は、当該２以上の目的言語の単語の列をＧ'のＷＦＳＴに追加しても良い。かかる処理を処理３４とする。

なお、新規単語蓄積部３７は、処理３１から処理３４のすべての処理を行うことは好適であるが、一部の処理を行っても良い。

ＰＷＦＳＴ格納部３２、ＴＷＦＳＴ格納部３３、ＲＷＦＳＴ格納部３４、および第二ＧＷＦＳＴ格納部３５は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

ＰＷＦＳＴ格納部３２等にＰのＷＦＳＴ等が記憶される過程は問わない。例えば、記録媒体を介してＰのＷＦＳＴ等がＰＷＦＳＴ格納部３２等で記憶されるようになってもよく、通信回線等を介して送信されたＰのＷＦＳＴ等がＰＷＦＳＴ格納部３２等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたＰのＷＦＳＴ等がＰＷＦＳＴ格納部３２等で記憶されるようになってもよい。

新規単語蓄積部３７は、通常、ＭＰＵやメモリ等から実現され得る。新規単語蓄積部３７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、ＷＦＳＴ作成装置３の動作について、図１３のフローチャートを用いて説明する。図１３のフローチャートにおいて、図２または図３のフローチャートと同一のステップ（Ｓ２０１−Ｓ３０４）について、説明を省略する。

（ステップＳ１３０１）新規単語蓄積部３７は、単語列を入力とし、単語の文字列を出力とする状態遷移をＰのＷＦＳＴに追加する。

（ステップＳ１３０２）新規単語蓄積部３７は、原言語の単語列を構成する２以上の各単語に対応する目的言語の２以上の単語を、ＴのＷＦＳＴから取得する。次に、新規単語蓄積部３７は、受付部３６が受け付けた原言語の文字列を入力とし、２以上の目的言語の単語の列を出力とする第二の状態遷移を構成する。

（ステップＳ１３０３）新規単語蓄積部３７は、ステップＳ１３０２で構成した第二の状態遷移を、ＴのＷＦＳＴに追加する。

（ステップＳ１３０４）新規単語蓄積部３７は、取得した２以上の目的言語の単語の列からなるフレーズを入力とし、２以上の目的言語の単語の列を出力とする第三の状態遷移を構成する。

（ステップＳ１３０５）新規単語蓄積部３７は、ステップＳ１３０４で構成した第三の状態遷移を、ＲのＷＦＳＴに追加する。

（ステップＳ１３０６）新規単語蓄積部３７は、目的言語の２以上の単語の列（フレーズ）をＧ'のＷＦＳＴに追加する。ステップＳ２０１に戻る。

なお、図１３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態におけるＷＦＳＴ作成装置３の具体的な動作について説明する。以下の具体例において、日英翻訳システムで、単語「都電荒川線」を新規に追加する場合について説明する。

（具体例１）
具体例１は、単語列を入力とし、新規登録する単語の文字列を出力とする状態遷移を構成し、当該状態遷移をＰのＷＦＳＴに追加する場合である。

まず、ユーザは、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」とをＷＦＳＴ作成装置３に入力する。

次に、受付部３６は、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」とを受け付ける。

次に、新規単語蓄積部３７は、受け付けられた単語等から、単音素列「t o d e ng a r a k a w a s e ng」を取得する。また、新規単語蓄積部３７は、文字列「都電荒川線」を取得する。

次に、新規単語蓄積部３７は、受け付けられた文字列「都電荒川線」と同じ発音になる２以上の単語の並びである単語列を取得する。ここで、新規単語蓄積部３７は、「都電，荒川，線」「都，電，荒川，線」「都，電，荒，川，線」等を取得した、とする（図５参照）。

次に、新規単語蓄積部３７は、取得した単語列が２以上、存在する、と判断する。そして、新規単語蓄積部３７は、取得した上記の２以上の単語列のうち、最小の単語数の単語列「都電，荒川，線」を取得し、予め決められたバッファに蓄積する。

次に、新規単語蓄積部３７は、予め決められたバッファに格納されている単語列「都電，荒川，線」を入力とし、受け付けられた文字列「都電荒川線」を出力とする状態遷移を構成する。

次に、新規単語蓄積部３７は、構成した状態遷移を、ＰＷＦＳＴ格納部３２のＰのＷＦＳＴに追加する（図１４参照）。図１４において、網掛けの状態遷移が追加した状態遷移である。

以上の処理により、新規な単語を受け付けられる状態遷移がＷＦＳＴに登録された。

（具体例２）
具体例２は、受付部３６が受け付けた原言語の文字列を入力とし、２以上の目的言語のフレーズを出力とする状態遷移をＴのＷＦＳＴに追加する場合である。

次に、新規単語蓄積部３７は、受け付けられた文字列「都電荒川線」と同じ発音になる２以上の単語の並びである単語列を取得する。ここで、新規単語蓄積部１４は、「都電，荒川，線」「都，電，荒川，線」「都，電，荒，川，線」等を取得した、とする（図５参照）。

次に、新規単語蓄積部３７は、取得した単語列が２以上、存在する、と判断する。そして、新規単語蓄積部３７は、取得した上記の２以上の単語列のうち、最小の単語数の単語列「都電，荒川，線」を取得する。

次に、新規単語蓄積部３７は、各単語「都電」「荒川」「線」に対応する目的言語の単語「Toden」「Arakawa」「Line」を、ＴのＷＦＳＴから取得する。

次に、新規単語蓄積部３７は、目的言語の単語「Toden」「Arakawa」「Line」を連結し、目的言語のフレーズ「Toden_Arakawa_Line」を構成する。

次に、新規単語蓄積部３７は、受付部３６が受け付けた原言語の文字列「都電荒川線」を入力とし、２以上の目的言語のフレーズ「Toden_Arakawa_Line」を出力とする状態遷移を構成し、状態遷移をＴのＷＦＳＴに追加する（図１５参照）。図１５において、５１の部分の状態遷移が追加した状態遷移である。

以上の処理により、新しいフレーズの翻訳ルールがＷＦＳＴに登録された。

（具体例３）
具体例３は、２以上の目的言語の単語の列からなるフレーズを入力とし、２以上の目的言語の単語の列を出力とする状態遷移をＲのＷＦＳＴに追加する場合である。

次に、新規単語蓄積部３７は、目的言語の単語列を連結し、フレーズ「Toden_Arakawa_Line」を取得する。

次に、新規単語蓄積部３７は、フレーズ「Toden_Arakawa_Line」を入力とし、２以上の目的言語の単語の列「Toden」「Arakawa」「Line」を出力とする状態遷移を構成し、状態遷移をRのＷＦＳＴに追加する（図１６参照）。図１６において、網掛けの状態遷移が追加した状態遷移である。また、図１６は、「Toden_Arakawa_Line」が目的言語の言語モデルWFST G'に存在しない場合である。

なお、「Toden_Arakawa_Line」が目的言語の言語モデル（Ｇ'のＷＦＳＴ）に存在するか、Ｇ'がクラス言語モデルで「Toden_Arakawa_Line」を登録可能な場合は、新規単語蓄積部３７は、図１７に示すように、フレーズ「Toden_Arakawa_Line」を入力とし、フレーズ「Toden_Arakawa_Line」を出力とする状態遷移を、Ｇ'のＷＦＳＴに追加する。

以上の処理により、目的言語の新規なフレーズ列を単語列に分割するための状態遷移が登録された。

以上、本実施の形態によれば、機械翻訳で用いるＷＦＳＴに新しい単語を受け付ける状態遷移が簡単に追加できる。

なお、本実施の形態におけるＷＦＳＴ作成装置３を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、原言語のトライフォン音素列を単音素列に変換するためのＷＦＳＴである音素環境依存ＷＦＳＴ（Ｃ）と、原言語の単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、原言語の単語列から原言語のフレーズ列を取得するためのＷＦＳＴであるＰのＷＦＳＴを格納し得るＰＷＦＳＴ格納部と、原言語のフレーズ列から目的言語のフレーズ列を取得するためのＷＦＳＴであるＴのＷＦＳＴを格納し得るＴＷＦＳＴ格納部と、目的言語のフレーズ列から１以上の単語の並びである単語列を取得するためのＷＦＳＴであるＲのＷＦＳＴを格納し得るＲＷＦＳＴ格納部と、目的言語の単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ'）であるＧ'のＷＦＳＴを格納し得る第二ＧＷＦＳＴ格納部とを具備し、コンピュータを、原言語の単語の単音素列と当該単語の文字列とを受け付ける受付部と、前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＰのＷＦＳＴに追加する新規単語蓄積部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記新規単語蓄積部は、前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を構成する２以上の各単語に対応する目的言語の単語を、前記ＴのＷＦＳＴから取得し、前記受付部が受け付けた原言語の文字列を入力とし、前記２以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記ＴのＷＦＳＴに追加するものとして、コンピュータを機能させることは好適である。

また、上記プログラムにおいて、前記新規単語蓄積部は、前記２以上の目的言語の単語の列からなるフレーズを入力とし、前記２以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記ＲのＷＦＳＴに追加するものとして、コンピュータを機能させることは好適である。

また、上記プログラムにおいて、前記Ｇ'のＷＦＳＴは、目的言語の単語と当該単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴであり、前記受付部は、原言語の単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、前記新規単語蓄積部は、前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を構成する２以上の各単語に対応する目的言語の単語を、前記ＴのＷＦＳＴから取得し、前記２以上の目的言語の単語の列を前記Ｇ'のＷＦＳＴに追加するものとして、コンピュータを機能させることは好適である。

（実施の形態４）
本実施の形態において、音声認識装置２を用いた音声翻訳装置４について、図１８を用いて説明する。図１８は、本実施の形態における音声翻訳装置４のブロック図である。音声翻訳装置４は、ＰＴＲＧＷＦＳＴ格納部４１、音声認識装置２、機械翻訳部４２、翻訳結果出力部４３を備える。

ＰＴＲＧＷＦＳＴ格納部４１は、ＰＴＲＧ'のＷＦＳＴを格納し得る。ＰＴＲＧ'のＷＦＳＴは、原言語の単語列を原言語のフレーズ列に変換するためのＷＦＳＴ（Ｐ）と、フレーズ翻訳に用いるＷＦＳＴ（Ｔ）と、目的言語のフレーズ列を単語列に変換するためのＷＦＳＴ（Ｒ）と、目的言語の単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ'）とを合成したＷＦＳＴである。

ＰＴＲＧＷＦＳＴ格納部４１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

ＰＴＲＧＷＦＳＴ格納部４１にＰＴＲＧ'のＷＦＳＴが記憶される過程は問わない。例えば、記録媒体を介してＰＴＲＧ'のＷＦＳＴがＰＴＲＧＷＦＳＴ格納部４１で記憶されるようになってもよく、通信回線等を介して送信されたＰＴＲＧ'のＷＦＳＴがＰＴＲＧＷＦＳＴ格納部４１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたＰＴＲＧ'のＷＦＳＴがＰＴＲＧＷＦＳＴ格納部４１で記憶されるようになってもよい。

音声認識装置２は、実施の形態２で説明した。

機械翻訳部４２は、音声認識装置２が出力した原言語の文字列を、ＰＴＲＧ'のＷＦＳＴを用いて機械翻訳し、目的言語の文字列を取得する。なお、ＰＴＲＧ'のＷＦＳＴを用いて機械翻訳する処理は公知技術であるので、詳細な説明を省略する。なお、かかる技術は、非特許文献５等に記載されている。

機械翻訳部４２は、通常、ＭＰＵやメモリ等から実現され得る。機械翻訳部４２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

翻訳結果出力部４３は、機械翻訳部４２が取得した目的言語の文字列を出力する。翻訳結果出力部４３は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。翻訳結果出力部４３は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声翻訳装置４の動作について説明する。音声認識装置２は、音声を受け付ける。そして、音声認識装置２は上述したように、受け付けた音声を音声認識処理し、文字列を取得する。なお、この文字列は、原言語の文字列である。次に、音声認識装置２は、原言語の文字列を機械翻訳部４２に渡す。次に、機械翻訳部４２は、ＰＴＲＧ'のＷＦＳＴを用いて、文字列に対して機械翻訳の処理を行い、目的言語の文字列を取得する。次に、翻訳結果出力部４３は、機械翻訳部４２が取得した目的言語の文字列を出力する。

以上、本実施の形態によれば、ＷＦＳＴ作成装置３で作成されたＷＦＳＴを用いて、音声翻訳が可能になる。その結果、精度の高い音声翻訳が実現できる。

なお、本実施の形態における音声翻訳装置４を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、ＰＷＦＳＴ格納部に格納されているＰのＷＦＳＴと、ＴＷＦＳＴ格納部に格納されているＴのＷＦＳＴと、ＲＷＦＳＴ格納部に格納されているＲのＷＦＳＴと、第二ＧＷＦＳＴ格納部に格納されているＧ'のＷＦＳＴとを合成したＰＴＲＧ'のＷＦＳＴを格納し得るＷＦＳＴＰＴＲＧ格納部を具備し、コンピュータを、音声認識装置と、前記音声認識装置が出力した原言語の文字列を、前記ＰＴＲＧ'のＷＦＳＴを用いて機械翻訳し、目的言語の文字列を取得する機械翻訳部と、前記目的言語の文字列を出力する翻訳結果出力部として機能させるためのプログラムである。

また、図１９は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態のＷＦＳＴ作成装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１９は、このコンピュータシステム３００の概観図であり、図２０は、コンピュータシステム３００のブロック図である。

図１９において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４と、マイク３０５とを含む。

図２０において、コンピュータ３０１は、ＵＳＢポート３０１１、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、バス３０１４と、ＲＯＭ３０１５と、ＲＡＭ３０１６と、ハードディスク３０１７とを含む。なお、バス３０１４は、ＭＰＵ３０１３やＣＤ−ＲＯＭドライブ３０１２に接続されている。また、ＲＯＭ３０１５には、ブートアッププログラム等のプログラムが記憶されている。また、ＲＡＭ３０１６は、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク３０１７は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態のＷＦＳＴ作成装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、もしくはＵＳＢメモリ３１０２に記憶され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＵＳＢメモリ３１０２、ＣＤ−ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態のＷＦＳＴ作成装置等の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかるＷＦＳＴ作成装置は、ＷＦＳＴに新しい単語を受理できる状態遷移を簡単に追加できるという効果を有し、音声認識装置や音声翻訳装置等に利用可能である。

１、３ＷＦＳＴ作成装置
２音声認識装置
４音声翻訳装置
１１ＣＬＷＦＳＴ格納部
１２ＧＷＦＳＴ格納部
１３、３６受付部
１４、３７新規単語蓄積部
２３音声受付部
２４音声認識部
２５出力部
３２ＰＷＦＳＴ格納部
３３ＴＷＦＳＴ格納部
３４ＲＷＦＳＴ格納部
３５第二ＧＷＦＳＴ格納部
４１ＰＴＲＧＷＦＳＴ格納部
４２機械翻訳部
４３翻訳結果出力部

Claims

トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ（ＷＦＳＴ）である音素環境依存ＷＦＳＴ（Ｃ）と、単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、
単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴを格納し得るＧＷＦＳＴ格納部と、
単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加する新規単語蓄積部とを具備するＷＦＳＴ作成装置。
前記新規単語蓄積部は、
さらに、前記受付部が受け付けた単語の単音素列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加する請求項１記載のＷＦＳＴ作成装置。
前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する単語列が２以上存在する場合、当該単語列を構成する単語の数が最少である単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加する請求項１または請求項２記載のＷＦＳＴ作成装置。
前記ＧのＷＦＳＴは、
単語と当該単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴであり、
前記受付部は、
単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、
前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記受付部が受け付けたクラスに対応するＧのＷＦＳＴに追加する請求項１から請求項３いずれか一項に記載のＷＦＳＴ作成装置。
原言語のトライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ（ＷＦＳＴ）である音素環境依存ＷＦＳＴ（Ｃ）と、原言語の単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、
原言語の単語列から原言語のフレーズ列を取得するためのＷＦＳＴであるＰのＷＦＳＴを格納し得るＰＷＦＳＴ格納部と、
原言語のフレーズ列から目的言語のフレーズ列を取得するためのＷＦＳＴであるＴのＷＦＳＴを格納し得るＴＷＦＳＴ格納部と、
目的言語のフレーズ列から１以上の単語の並びである単語列を取得するためのＷＦＳＴであるＲのＷＦＳＴを格納し得るＲＷＦＳＴ格納部と、
目的言語の単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ'）であるＧ'のＷＦＳＴを格納し得る第二ＧＷＦＳＴ格納部と、
原言語の単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＰのＷＦＳＴに追加する新規単語蓄積部とを具備するＷＦＳＴ作成装置。
前記新規単語蓄積部は、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を構成する２以上の各単語に対応する目的言語の単語を、前記ＴのＷＦＳＴから取得し、前記受付部が受け付けた原言語の文字列を入力とし、前記２以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記ＴのＷＦＳＴに追加する請求項５記載のＷＦＳＴ作成装置。
前記新規単語蓄積部は、
前記２以上の目的言語の単語の列からなるフレーズを入力とし、前記２以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記ＲのＷＦＳＴに追加する請求項６記載のＷＦＳＴ作成装置。
前記Ｇ'のＷＦＳＴは、
目的言語の単語と当該単語が属するクラスと重みを有するクラス言語モデルのＷＦＳＴであり、
前記受付部は、
原言語の単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、
前記新規単語蓄積部は、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を構成する２以上の各単語に対応する目的言語の単語を、前記ＴのＷＦＳＴから取得し、前記２以上の目的言語の単語の列を前記Ｇ'のＷＦＳＴに追加する請求項７記載のＷＦＳＴ作成装置。
請求項１から請求項４いずれか一項に記載のＷＦＳＴ作成装置が具備するＣＬＷＦＳＴ格納部と、
請求項１から請求項４いずれか一項に記載のＷＦＳＴ作成装置が具備するＧＷＦＳＴ格納部と、
音声を受け付ける音声受付部と、
前記ＣＬＷＦＳＴ格納部に格納されているＣＬのＷＦＳＴ、および前記ＧＷＦＳＴ格納部に格納されているＧのＷＦＳＴを用いて、前記音声に対して音声認識処理を行い、文字列を取得する音声認識部と、
前記音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置。
請求項５から請求項８いずれか一項に記載のＷＦＳＴ作成装置が具備するＰＷＦＳＴ格納部に格納されているＰのＷＦＳＴと、請求項５から請求項８いずれか一項に記載のＷＦＳＴ作成装置が具備するＴＷＦＳＴ格納部に格納されているＴのＷＦＳＴと、請求項５から請求項８いずれか一項に記載のＷＦＳＴ作成装置が具備するＲＷＦＳＴ格納部に格納されているＲのＷＦＳＴと、
請求項５から請求項８いずれか一項に記載のＷＦＳＴ作成装置が具備する第二ＧＷＦＳＴ格納部に格納されているＧ'のＷＦＳＴとを合成したＰＴＲＧ'のＷＦＳＴを格納し得るＷＦＳＴＰＴＲＧ格納部と、
請求項５記載の音声認識装置と、
前記音声認識装置が出力した原言語の文字列を、前記ＰＴＲＧ'のＷＦＳＴを用いて機械翻訳し、目的言語の文字列を取得する機械翻訳部と、
前記目的言語の文字列を出力する翻訳結果出力部とを具備する音声翻訳装置。
記録媒体は、
トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ（ＷＦＳＴ）である音素環境依存ＷＦＳＴ（Ｃ）と、単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、
単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴを格納し得るＧＷＦＳＴ格納部とを具備し、
受付部と新規単語蓄積部とにより実現されるＷＦＳＴ作成方法であって、
前記受付部は、単語の単音素列と当該単語の文字列とを受け付ける受付ステップと、
前記新規単語蓄積部は、前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加する新規単語蓄積ステップとを具備するＷＦＳＴ作成方法。
コンピュータがアクセス可能な記録媒体は、
トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ（ＷＦＳＴ）である音素環境依存ＷＦＳＴ（Ｃ）と、単音素列を単語列に変換するためのＷＦＳＴである単語辞書ＷＦＳＴ（Ｌ）とを合成したＣＬのＷＦＳＴを格納し得るＣＬＷＦＳＴ格納部と、
単語と重みとを有する言語モデルのＷＦＳＴ（Ｇ）であるＧのＷＦＳＴを格納し得るＧＷＦＳＴ格納部とを具備し、
コンピュータを、
単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する２以上の単語からなる単語列を前記ＣＬのＷＦＳＴから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記ＧのＷＦＳＴに追加する新規単語蓄積部として機能させるためのプログラム。