JP5522393B2

JP5522393B2 - 音響モデル構築装置、音声認識装置、音響モデル構築方法、およびプログラム

Info

Publication number: JP5522393B2
Application number: JP2010198502A
Authority: JP
Inventors: 一彦阿部
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2010-02-26
Filing date: 2010-09-06
Publication date: 2014-06-18
Anticipated expiration: 2030-09-06
Also published as: JP2011197631A

Description

本発明は、音声認識処理等で利用できる音響モデルを構築する音響モデル構築装置等に関するものである。

異なる言語の間の壁を越える技術として、音声翻訳等の技術が開発されている（非特許文献１、非特許文献２参照）

また、音声翻訳等にも利用される音声認識処理において、音響モデルが利用される。そして、一般に、高い音声認識率を得るための音響モデルの学習においては、十分な学習データが必要である。特に、音響モデルの構成単位である音素ごとに十分な学習データが必要である。そこで、従来、他言語データを混ぜて音響モデルを構築する方法が提案されている。

Nakamura,Satoshietal.,"TheATRmultilingual speech-to-speechtranslationsystem,"IEEETrans.ASLP,vol.14,no.2,365?376,March2006. Sakti,Sakriani,"TheAsianNetwork-basedSpeech-to-Speech TranslationSystem",InASRU-2009,507-512

しかしながら、従来の音響モデルの構築方法においては、多言語データを混ぜて学習データセットを構成し、かつ、全音素に対して学習を行っていた。その場合、多言語データの全音素に対して学習を行うため、従来の音響モデルの構築方法では、音響モデルが膨大となり、音声認識の処理効率が低下する、という課題があった。また、膨大な記憶容量が必要となる、という課題があった。

さらに、従来の音響モデルの構築方法においては、十分に学習データがある音素に対しても、学習データが不足している音素と同様の処理を行うため、言語固有の特徴が失われてしまう、という課題がった。

本第一の発明の音響モデル構築装置は、音素を識別する音素識別子と音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、一の言語とは異なる１以上の他の言語の１以上の音素の波形データと、各波形データに対応付けられた音素の音素識別子とを有する音声データを、１以上の他の言語ごとに格納している音声データ格納部と、音素識別子の出現頻度である音素頻度に関する条件を格納している条件格納部と、音響モデル格納部に格納されている各音素識別子の音素頻度、または一の言語の音響モデルが取得される元になる一の言語の音声データから各音素識別子の音素頻度を取得する音素頻度取得部と、音素頻度取得部が取得した各音素頻度を、条件格納部の条件に適用し、音素頻度が条件を満たすほど低いか否かを判断する判断部と、条件を満たすほど音素頻度が低いと判断部が判断した１以上の各音素識別子に対応する音素識別子と対になる波形データを、音声データ格納部から取得する音声データ取得部と、音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、１以上の特徴量と条件を満たすほど音素頻度が低いと判断部が判断した音素識別子とを有する１以上の他言語音素情報を取得する学習部と、音響モデル格納部の音響モデルと、学習部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置である。

かかる構成により、高品質な音響モデルを効率よく構築できる。

また、本第二の発明の音響モデル構築装置は、第一の発明に対して、一の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報、および他の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報を格納している対応情報格納部をさらに具備し、音声データ取得部は、条件を満たすほど音素頻度が低いと判断部が判断した１以上の各音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の音素識別子と対になる１以上の波形データを、音声データ格納部から取得する音響モデル構築装置である。

また、本第三の発明の音響モデル構築装置は、第一の発明に対して、音声データ格納部の音声データは、音素の波形データと音素識別子に加えて、１以上の特徴量を含み、音声データ取得部は、条件を満たすほど音素頻度が低いと判断部が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、他の言語の音声データが有する１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出する距離算出手段と、距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量を取得する特徴量取得手段とを具備し、学習部は、特徴量取得手段が取得した１以上の特徴量と、一の言語の音素識別子とを有する１以上の他言語音素情報を取得する音響モデル構築装置である。

また、本第四の発明の音響モデル構築装置は、第一から第三いずれかの発明に対して、音響モデル格納部は、一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納し、音声データ格納部は、他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納し、音声データ取得部は、条件を満たすほど音素頻度が低いと判断部が判断した一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、音響モデル格納部から取得する第一音素環境情報取得手段と、他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、音声データ格納部から取得する第二音素環境情報取得手段とを具備し、第一音素環境情報と第二音素環境情報とを比較し、予め決められた条件を満たすほど第一音素環境情報と類似している第二音素環境情報に対する他の言語の音声データまたは１以上の特徴量の中から、条件を満たすほど音素頻度が低いと判断部が判断した音素識別子に対応する音素識別子と対になる波形データまたは１以上の特徴量を取得する音響モデル構築装置である。

かかる構成により、高品質な音響モデルを極めて効率よく構築できる。

また、本第五の発明の音響モデル構築装置は、第一から第四いずれかの発明に対して、音響モデル構築部は、音響モデル格納部に格納されている音素情報のうちの、条件を満たすほど音素頻度が低いと判断部が判断しなかった音素情報、および学習部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成する音響モデル構築装置である。

また、本第六の発明の音響モデル構築装置は、音素を識別する音素識別子と音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、音素を識別する音素識別子と音素の１以上の特徴量とを含む音素情報を２以上有する他の言語の他言語音響モデルを、１以上格納している他言語音響モデル格納部と、音素頻度に関する条件を格納している条件格納部と、音響モデル格納部に格納されている各音素識別子の音素頻度、または一の言語の音響モデルが取得される元になる一の言語の音声データから各音素識別子の音素頻度を取得する音素頻度取得部と、音素頻度取得部が取得した各音素頻度を、条件格納部の条件に適用し、音素頻度が条件を満たすほど低いか否かを判断する判断部と、条件を満たすほど音素頻度が低いと判断部が判断した１以上の各音素識別子と、１以上の各音素識別子に対応する音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得する他言語音素情報取得部と、音響モデル格納部の音響モデルと、他言語音素情報取得部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置である。

かかる構成により、高品質な音響モデルを高速に効率よく構築できる。

また、本第七の発明の音響モデル構築装置は、第六の発明に対して、一の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報、および他の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報を格納している対応情報格納部をさらに具備し、他言語音素情報取得部は、条件を満たすほど音素頻度が低いと判断部が判断した音素識別子と、音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の１以上の特徴量を有する他言語音素情報を、１以上取得する音響モデル構築装置である。

また、本第八の発明の音響モデル構築装置は、第六の発明に対して、他言語音素情報取得部は、条件を満たすほど音素頻度が低いと判断部が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、他言語音響モデル格納部に格納されている１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出する距離算出手段と、条件を満たすほど音素頻度が低いと判断部が判断した音素識別子と、距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量とを含む１以上の他言語音素情報を取得する音素情報取得手段とを具備する音響モデル構築装置である。

また、本第九の発明の音響モデル構築装置は、第六から第八いずれかの発明に対して、音響モデル格納部は、一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納し、他言語音響モデル格納部は、他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納し、他言語音素情報取得部は、条件を満たすほど音素頻度が低いと判断部が判断した、一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、音響モデル格納部から取得する第一音素環境情報取得手段と、他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、音声データ格納部から取得する第二音素環境情報取得手段とを具備し、第一音素環境情報と第二音素環境情報とを比較し、予め決められた条件を満たすほど第一音素環境情報と類似している第二音素環境情報に対する他の言語に対応する１以上の特徴量から、条件を満たすほど音素頻度が低いと判断部が判断した音素識別子と、音素識別子に対応する他の言語の音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得する音響モデル構築装置である。

かかる構成により、高品質な音響モデルを高速に極めて効率よく構築できる。

また、本第十の発明の音響モデル構築装置は、第六から第九いずれかの発明に対して、音響モデル構築部は、音響モデル格納部に格納されている音素情報のうちの、条件を満たすほど音素頻度が低いと判断部が判断しなかった音素情報、および他言語音素情報取得部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成する音響モデル構築装置である。

また、本第十一の発明の音声認識装置は、音声を受け付ける音声受付部と、音声受付部が受け付けた音声に対して、第一から第十いずれかの音響モデル構築装置が構築した新たな音響モデルを用いて、音声認識を行い、文字列を取得する音声認識部と、音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置である。

かかる構成により、例えば、ポルトガル語などのマイナーな言語においても、高い精度の音声認識処理が行える。

また、本第十二の発明の音響モデル構築装置は、一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、一の言語とは異なる１以上の他の言語の連続音素の波形データと、各波形データに対応付けられた連続音素の連続音素識別子とを有する音声データを、１以上の他の言語ごとに格納している音声データ格納部と、連続音素識別子の出現数に関する情報である出現関連情報を用いた条件を格納している条件格納部と、音響モデル格納部に格納されている各連続音素識別子の出現関連情報、または一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、出現関連情報取得部が取得した各出現関連情報を、条件格納部の条件に適用し、出現関連情報が条件を満たすか否かを判断する判断部と、出現関連情報が条件を満たすと判断部が判断した１以上の各連続音素識別子に対応する連続音素識別子と対になる波形データを、音声データ格納部から取得する音声データ取得部と、音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、１以上の特徴量と条件を満たすと判断部が判断した連続音素識別子とを有する１以上の他言語連続音素情報を取得する学習部と、音響モデル格納部の音響モデルと、学習部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置である。

かかる構成により、さらに高品質な音響モデルを効率よく構築できる。

また、本第十三の発明の音響モデル構築装置は、一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する他の言語の他言語音響モデルを、１以上格納している他言語音響モデル格納部と、連続音素識別子の出現数に関する情報である出現関連情報を用いた条件を格納している条件格納部と、音響モデル格納部に格納されている各連続音素識別子の出現関連情報、または一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、出現関連情報取得部が取得した各出現関連情報を、条件格納部の条件に適用し、出現関連情報が条件を満たすか否かを判断する判断部と、条件を満たすと判断部が判断した１以上の各連続音素識別子と、１以上の各連続音素識別子と対になる１以上の特徴量とを有する１以上の他言語連続音素情報を取得する他言語連続音素情報取得部と、音響モデル格納部の音響モデルと、他言語音素情報取得部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置である。

また、本第十四の発明の音響モデル構築装置は、第十二または第十三の発明に対して、一連音素情報は、連続する２以上の音素である連続音素を識別する２以上の連続音素識別子と２以上の連続音素の１以上の特徴量とを含む一のクラスを構成し、連続音素は、連続する２以上の音素である音響モデル構築装置である。

また、本第十五の発明の音響モデル構築装置は、第十二から第十四いずれかの発明に対して、出現関連情報は、連続音素識別子の出現頻度である音響モデル構築装置である。

また、本第十六の発明の音響モデル構築装置は、第十二から第十四いずれかの発明に対して、出現関連情報は、連続音素識別子の出現確率又は情報量である音響モデル構築装置である。

また、本第十七の発明の音響モデル構築装置は、第十二の発明に対して、音声データ格納部の音声データは、音素の波形データと音素識別子に加えて、１以上の特徴量を含み、音声データ取得部は、条件を満たすと判断部が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、他の言語の音声データが有する１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出する距離算出手段と、距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量を取得する特徴量取得手段とを具備し、学習部は、特徴量取得手段が取得した１以上の特徴量と、一の言語の連続音素識別子とを有する１以上の他言語音素情報を取得する音響モデル構築装置である。

また、本第十八の発明の音響モデル構築装置は、第十二の発明に対して、音響モデル構築部は、音響モデル格納部に格納されている一連音素情報のうちの、条件を満たすと判断部が判断しなかった一連音素情報、および学習部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成する音響モデル構築装置である。

また、本第十九の発明の音響モデル構築装置は、第十三の発明に対して、他言語音素情報取得部は、条件を満たすと判断部が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、他言語音響モデル格納部に格納されている１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出する距離算出手段と、条件を満たすと判断部が判断した連続音素識別子と、距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量とを含む１以上の他言語連続音素情報を取得する連続音素情報取得手段とを具備する音響モデル構築装置である。

また、本第二十の発明の音響モデル構築装置は、第十三の発明に対して、音響モデル構築部は、音響モデル格納部に格納されている一連音素情報のうちの、条件を満たすと判断部が判断しなかった一連音素情報、および他言語音素情報取得部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成する音響モデル構築装置である。

また、本第二十一の発明の音声認識装置は、第十二から第二十いずれかの発明に対して、音声を受け付ける音声受付部と、音声受付部が受け付けた音声に対して、音響モデル構築装置が構築した新たな音響モデルを用いて、音声認識を行い、文字列を取得する音声認識部と、音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置である。

かかる構成により、例えば、ポルトガル語などのマイナーな言語においても、さらに高い精度の音声認識処理が行える。

本発明による音響モデル構築装置によれば、数多くの言語の音響モデルを効率よく構築できる。

実施の形態１における音響モデル構築装置のブロック図同音響モデル構築装置の動作について説明するフローチャート同他言語決定処理の動作について説明するフローチャート同対応音素取得処理の動作について説明するフローチャート同評価実験の条件を示す図同本手法により作成した音響モデルによる平均文認識率を示す図実施の形態２における音響モデル構築装置のブロック図同音響モデル構築装置の動作について説明するフローチャート同音響モデル構築処理の動作について説明するフローチャート実施の形態３における音響モデル構築装置のブロック図実施の形態４における音声認識装置のブロック図実施の形態５における音響モデル構築装置のブロック図同音響モデル構築装置の動作について説明するフローチャート同対応連続音素取得処理の動作の第一の例について説明するフローチャート同対応連続音素取得処理の動作の第二の例について説明するフローチャート実施の形態６における音響モデル構築装置のブロック図上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

以下、音響モデル構築装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、一の言語の音響モデル内の低頻度の音素に関して、他の１以上の言語から対応する音素の学習データを記録する音響モデル構築装置について説明する。

また、本実施の形態において、国際音声記号（ＩＰＡ:International Phonetic Alphabet）を用いて低頻度の音素に対応する音素を検出する音響モデル構築装置について説明する。

また、本実施の形態において、各音素の前後の音素環境を用いて低頻度の音素に対応する音素を検出する音響モデル構築装置について説明する。

図１は、本実施の形態における音響モデル構築装置１のブロック図である。音響モデル構築装置１は、音響モデル格納部１１、音声データ格納部１２、対応情報格納部１３、条件格納部１４、音素頻度取得部１５、判断部１６、音声データ取得部１７、学習部１８、音響モデル構築部１９を備える。

音声データ取得部１７は、第一音素環境情報取得手段１７１、第二音素環境情報取得手段１７２、音声データ取得手段１７３を備える。

音響モデル格納部１１は、一の言語の音響モデルを格納している。一の言語とは、例えば、音声認識処理を行う目的言語である。なお、一の言語を、適宜、目的言語とも言う。また、後述する他の言語を、適宜、補完言語とも言う。一の言語は、ポルトガル語、スワヒリ語など、他の言語と比較して、多数の人が使用していないマイナーな言語であることは好適である。ただし、一の言語は、何でも良い。また、音響モデルは、音素を識別する音素識別子と音素の１以上の特徴量とを含む音素情報を２以上有する。音響モデルは、ＧＭＭ、ＨＭＭなど、その構造は問わない。また、特徴量は、通常、複数である。特徴量とは、例えば、１２次元ＭＦＣＣ、１２次元ΔＭＦＣＣ、Δ対数パワー、ケプストラム、パワースペクトル等である。また、音響モデル格納部１１は、一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納していても良い。また、音素とは、一つの音素でも良いし、複数の音素（又は音韻）でも良い。つまり、日本語の「か」に対して、音素を「ｋ」や「ａ」という単位で捕らえても良いし、「ｋａ」という単位で捕らえても良い。そして、音素を各言語の発音の単位と捕らえることは好適である。そして、音素は発音の単位と捕らえられるので、音素識別子を発音識別子と言い換えても良い。

音声データ格納部１２は、一の言語とは異なる他の言語の音声データを、他の言語ごとに格納している。音声データは、１以上の他の言語の１以上の音素の波形データと、各波形データに対応付けられた音素の音素識別子とを有するデータである。他の言語ごととは、他の言語の言語識別子と対応付けて音声データを格納していても良いし、言語ごとに、音声データを蓄積する記憶媒体を分けていても良い趣旨である。音声データとは、連続した音素に対応する連続した波形データの集合でも良いし、音素ごとに波形データが切れているデータ構造でも良い。音声データのデータ構造も問わない。

音声データ格納部１２は、他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納していても良い。

対応情報格納部１３は、２以上の対応情報を格納している。対応情報は、一の言語の音素識別子と国際音声記号とを対応付ける情報である。また、対応情報は、他の言語の音素識別子と国際音声記号とを対応付ける情報である。対応情報は、音響モデル格納部１１の音素識別子と国際音声記号の組でも良いし、音声データ格納部１２の音素識別子と国際音声記号の組でも良い。かかる場合、対応情報格納部１３は、音響モデル格納部１１および音声データ格納部１２の一部分となる。音素識別子と国際音声記号とは対応づけられれば良く、対応情報の構造は問わない。例えば、音素識別子と国際音声記号は外部に存在し、対応情報は、当該外部に存在する音素識別子と国際音声記号とを取得するための情報であっても良い。

条件格納部１４は、音素識別子の出現頻度である音素頻度に関する条件を格納している。出現頻度は、通常、出現回数と同意義である。ただし、出現頻度は出現割合や出現確率である、と考えても良い。つまり、出現頻度とは、出現の度合いに関する情報であり、広く解する。また、音素頻度に関する条件とは、例えば、音素頻度が予め決められた閾値以下、または音素頻度が閾値より小さいこと、音素頻度の低い順に音素識別子を並べた場合に、予め決められた順位以上であること等である。条件は、プログラム中に埋め込まれていても良い。

音素頻度取得部１５は、一の言語の各音素識別子の音素頻度を取得する。音素頻度取得部１５は、例えば、音響モデル格納部１１に格納されている各音素識別子の音素頻度を取得する。また、音素頻度取得部１５は、例えば、一の言語の音響モデルが取得される元になる一の言語の音声データから各音素識別子の音素頻度を取得しても良い。なお、音素頻度取得部１５が一の言語の音声データから各音素識別子の音素頻度を取得する場合、音響モデル構築装置１は、一の言語の音声データを格納する原言語音声データ格納部（図示しない）を具備する。そして、音響モデル格納部１１の音響モデルは、原言語音声データ格納部の音声データから取得されることとなる。つまり、図示しない原言語音響モデル取得部が、原言語音声データ格納部の音声データから音響モデル格納部１１の音響モデルを取得する。なお、音声データから音響モデルを取得する処理は公知技術であるので、詳細な説明は省略する。また、ここで、音素頻度取得部１５は、すべての音素識別子の出現頻度を取得することは好適であるが、すべての音素識別子の出現頻度を取得することは必須ではない。

判断部１６は、音素頻度取得部１５が取得した各音素頻度を、条件格納部１４に格納されている条件に適用し、音素頻度が条件を満たすほど低いか否かを判断する。

音声データ取得部１７は、判断部１６が条件を満たすほど音素頻度が低いと判断した１以上の各音素識別子に対応する音素識別子と対になる波形データを、音声データ格納部１２から取得する。ここで、対応するとは、音素識別子が一致するまたは近似する、２つの音響モデルのモデル間距離が近いなどのことを言う。

具体的には、例えば、音声データ取得部１７は、判断部１６が条件を満たすほど音素頻度が低いと判断した１以上の各音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の音素識別子と対になる１以上の波形データを、音声データ格納部１２から取得する。ここで、音声データ取得部１７が取得する波形データは、一つの言語の波形データでも良いし、２以上の言語の波形データでも良い。また、音声データ取得部１７は、国際音声記号に含まれる複数のパラメータのうちの１以上のパラメータが一致する割合、１以上のパラメータの近似する度合い等から、２つの国際音声記号が近似するか否かを判断する。国際音声記号は、あらゆる言語の音声を文字で表記すべく、国際音声学会が定めた音声記号である。国際音声記号は、国際音声字母（こくさいおんせいじぼ）、万国音標文字（ばんこくおんぴょうもじ）とも言う。また、国際音声記号について、ＵＲＬ「http://www.langsci.ucl.ac.uk/ipa/」のウェブページにおいて、詳細に説明されている。例えば、音声データ取得部１７は、国際音声記号の／ｉ／と国際音声記号の／Ｉ／とは近似する、と判断する。両音素とも調音点が同一の母音だからである。なお、音声データ取得部１７は、判断部１６が条件を満たすほど音素頻度が低いと判断した１以上の各音素識別子と対になる記号と一致するまたは近似する記号と対になる他の言語の音素識別子と対になる１以上の波形データを、音声データ格納部１２から取得しても良い。なお、上記の記号とは、複数の言語に対して付与されている共通の体系を有する記号であり、国際音声記号は、その一例である。

第一音素環境情報取得手段１７１は、条件を満たすほど音素頻度が低いと判断部１６が判断した一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、音響モデル格納部１１から取得する。第一音素環境情報は、例えば、一の言語の音素識別子と後続する音素識別子の組の情報である。ここで、上記の１以上の第一音素環境情報とは、通常、複数である。

第二音素環境情報取得手段１７２は、他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、音声データ格納部１２から取得する。第二音素環境情報は、例えば、他の言語の音素識別子と後続する音素識別子の組の情報である。ここで、上記の１以上の第一音素環境情報とは、通常、複数である。

音声データ取得手段１７３は、第一音素環境情報と第二音素環境情報とを比較し、予め決められた条件を満たすほど第一音素環境情報と類似している第二音素環境情報に対する他の言語の音声データの中から、条件を満たすほど音素頻度が低いと判断部１６が判断した音素識別子に対応する音素識別子と対になる波形データを取得する。

なお、音声データ取得手段１７３に代えて、音声データ取得部１７は、以下の処理を行っても良い。つまり、音声データ取得部１７は、第一音素環境情報と第二音素環境情報とを比較し、予め決められた条件を満たすほど第一音素環境情報と類似している第二音素環境情報に対する他の言語の１以上の特徴量の中から、条件を満たすほど音素頻度が低いと判断部１６が判断した音素識別子に対応する音素識別子を有する１以上の特徴量を取得しても良い。ここで、第一音素環境情報と類似している第二音素環境情報は、音素識別子に後続する１以上の音素識別子の中で一致する音素識別子の数が閾値以上（より大きい、でも良い）であること、後続する１以上の音素識別子の中で一致する音素識別子の割合が閾値以上（より大きい、でも良い）であること等である。例えば、第一音素環境情報が「ａ−ｋ、ａ−ｓ、ａ−ｔ、ａ−ｉ、ａ−ｅ、ａ−ｏ」であり、第二音素環境情報が「ａ−ｋ、ａ−ｓ、ａ−ｔ、ａ−ｈ、ａ−ｍ、ａ−ｎ」である場合、２つの音素環境情報は類似する、と判断される。一致する後続の音素識別子の数が３以上であるからである（予め決められた条件が一致する音素識別子の数が３以上の場合）。また、例えば、第一音素環境情報が「ａ−ｋ、ａ−ｓ、ａ−ｔ、ａ−ｉ、ａ−ｅ、ａ−ｏ」であり、第二音素環境情報が「ａ−ｓｈ、ａ−ｈ、ａ−ｍ、ａ−ｎ」である場合、２つの音素環境情報は類しない、と判断される。一致する後続の音素識別子の数が３未満であるからである（予め決められた条件が一致する音素識別子の数が３以上の場合）。

学習部１８は、１以上の他言語音素情報を取得する。他言語音素情報は、１以上の特徴量と、一の言語の音素識別子とを有する。つまり、学習部１８は、音声データ取得部１７が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子とを有する１以上の他言語音素情報を取得する。なお、一の言語の音素識別子は、他の言語の１以上の特徴量に対応する他の言語の音素識別子に対応する一の言語の音素識別子である。また、学習部１８が波形データから１以上の特徴量を取得する処理は公知技術であるので、詳細な説明は省略する。
音響モデル構築部１９は、音響モデル格納部１１に格納されている音響モデルと、学習部１８が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する。なお、音響モデル構築部１９は、既に音響モデル格納部１１に格納されている音素識別子と、１以上の特徴量とを対応付けて、１以上の特徴量を音響モデル格納部１１に蓄積しても良い。かかる場合も、他言語音素情報を蓄積する処理と同じ処理であえると解釈する。
音響モデル構築部１９は、音響モデル格納部１１に格納されている音素情報のうちの、条件を満たすほど音素頻度が低いと判断部１６が判断しなかった音素情報、および学習部１８が取得した１以上の他言語音素情報を有する新たな音響モデルを構成しても良い。つまり、音響モデル構築部１９は、構成する新たな音響モデルの中に、一の言語の低頻度の音素識別子を含む音素情報は使わなくても良い。また、新たな音響モデルを構成するとは、通常、通常、音声データ取得部１７が取得した音声データが有する音素識別子と学習部１８が取得した１以上の特徴量とを含む音素情報を、音響モデル格納部１１に追記することである。つまり、構成するとは、通常、記録媒体に蓄積することも含む。なお、音響モデル構築部１９は、音響モデル格納部１１とは別の記憶領域や記憶媒体に、新たな音響モデルを構成しても良い。

音響モデル格納部１１、音声データ格納部１２、対応情報格納部１３、条件格納部１４、および図示しない原言語音声データ格納部は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。音響モデル格納部１１等に音響モデル等の情報が記憶される過程は問わない。例えば、記録媒体を介して音響モデル等が音響モデル格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された音響モデル等が音響モデル格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音響モデル等が音響モデル格納部１１等で記憶されるようになってもよい。

音素頻度取得部１５、判断部１６、音声データ取得部１７、第一音素環境情報取得手段１７１、第二音素環境情報取得手段１７２、音声データ取得手段１７３、学習部１８、音響モデル構築部１９、および図示しない原言語音響モデル取得部は、通常、ＭＰＵやメモリ等から実現され得る。音素頻度取得部１５等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル構築装置１の動作について図２のフローチャートを用いて説明する。

（ステップＳ２０１）音素頻度取得部１５は、カウンタｉに１を代入する。

（ステップＳ２０２）音素頻度取得部１５は、ｉ番目の音素識別子が存在するか否かを判断する。ｉ番目の音素識別子が存在すればステップＳ２０３に行き、ｉ番目の音素識別子が存在しなければステップＳ２０６に行く。なお、音素識別子は、一の言語の音響モデルが取得される元になる一の言語の音声データから取得しても良いし、音響モデル格納部１１から取得しても良い。

（ステップＳ２０３）音素頻度取得部１５は、ｉ番目の音素識別子の出現頻度である音素頻度を取得する。音素頻度取得部１５は、一の言語の音響モデルが取得される元になる一の言語の音声データから各音素識別子の音素頻度を取得することは好適である。但し、音素頻度取得部１５は、音響モデル格納部１１に格納されている各音素識別子の音素頻度を取得しても良い。

（ステップＳ２０４）音素頻度取得部１５は、ｉ番目の音素識別子に対応付けて、ステップＳ２０３で取得した音素頻度を、図示しないバッファに一時蓄積する。

（ステップＳ２０５）音素頻度取得部１５は、カウンタｉを１、インクリメントする。ステップＳ２０２に戻る。

（ステップＳ２０６）判断部１６は、音素頻度をキーとして、昇順に、音素頻度と音素識別子との組の情報をソートする。

（ステップＳ２０７）判断部１６は、ステップＳ２０６でソートした各情報に対して、条件格納部１４の音素頻度に関する条件を満たすほど、音素頻度が低いか否かを判断し、当該条件を満たすほど音素頻度が低い音素識別子を、すべて取得する。

（ステップＳ２０８）音声データ取得部１７は、カウンタｉに１を代入する。

（ステップＳ２０９）音声データ取得部１７は、ステップＳ２０７で取得した音素識別子の中で、ｉ番目の音素識別子が存在するか否かを判断する。ｉ番目の音素識別子が存在すればステップＳ２１０に行き、ｉ番目の音素識別子が存在しなければ処理を終了する。

（ステップＳ２１０）音声データ取得部１７は、学習対象の他言語を決定する処理である他言語決定処理を行う。他言語決定処理について、図３のフローチャートを用いて説明する。

（ステップＳ２１１）音声データ取得部１７は、ステップＳ２１０で決定した他言語の音素識別子の中で、低い音素頻度のｉ番目の音素識別子に対応する１以上の音素識別子を取得する処理である対応音素取得処理を行う。対応音素取得処理について、図４のフローチャートを用いて説明する。

（ステップＳ２１２）音声データ取得部１７は、ステップＳ２１１で取得した１以上の各音素識別子と対になる１以上の波形データを、音声データ格納部１２からすべて取得する。

（ステップＳ２１３）学習部１８は、カウンタｊに１を代入する。

（ステップＳ２１４）学習部１８は、ステップＳ２１２で取得された波形データのうち、ｊ番目の波形データが存在するか否かを判断する。ｊ番目の波形データが存在すればステップＳ２１５に行き、存在しなければステップＳ２１８に行く。

（ステップＳ２１５）学習部１８は、ｊ番目の波形データから、１以上の特徴量を取得する。

（ステップＳ２１６）音響モデル構築部１９は、ステップＳ２１５で取得した１以上の特徴量と音素識別子とを有する他言語音素情報を音響モデル格納部１１に蓄積する。なお、ここでの音素識別子は、波形データと対になる音素識別子に対応する一の言語の音素識別子である。

（ステップＳ２１７）学習部１８は、カウンタｊを１、インクリメントし、ステップＳ２１４に戻る。

（ステップＳ２１８）音声データ取得部１７は、カウンタｉを１、インクリメントし、ステップＳ２０９に戻る。

なお、図２のフローチャートにおいて、ステップＳ２１０の他言語決定処理は行わなくても良い。かかる場合、対応音素取得処理において、すべての他の言語から対応する１以上の音素識別子を取得しようとする。

次に、ステップＳ２１０の他言語決定処理について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）音声データ取得部１７の第一音素環境情報取得手段１７１は、条件を満たすほど音素頻度が低いと判断部１６が判断した一の言語の音素識別子と、当該音素識別子に後続する音素識別子とを有する第一音素環境情報を、１以上取得する。第一音素環境情報取得手段１７１は、音響モデル格納部１１から１以上の第一音素環境情報を取得する。

（ステップＳ３０２）音声データ取得部１７の第二音素環境情報取得手段１７２は、カウンタｉに１を代入する。

（ステップＳ３０３）第二音素環境情報取得手段１７２は、音声データ格納部１２を検査し、ｉ番目の他の言語が存在するか否かを判断する。ｉ番目の他の言語が存在すればステップＳ３０４に行き、存在しなければ上位処理にリターンする。なお、音声データ格納部１２は、例えば、他言語の言語識別子と１以上の音声データとが対応付けられて格納しており、第二音素環境情報取得手段１７２は、かかる情報を検査し、ｉ番目の他の言語が存在するか否かを判断する。また、音声データ格納部１２は、例えば、他言語ごとに、異なるデータベースで、音声データを格納しており、第二音素環境情報取得手段１７２は、かかる情報を検査し、ｉ番目の他の言語が存在するか否かを判断する。

（ステップＳ３０４）第二音素環境情報取得手段１７２は、ｉ番目の他の言語のすべての音素の第二音素環境情報を取得する

（ステップＳ３０５）音声データ取得部１７は、ステップＳ３０１で取得した第一音素環境情報と、ステップＳ３０４で取得した１以上の各第二音素環境情報とを、順に比較し、類似するか否かを判断する。所定の条件をみたすほど第一音素環境情報に類似する第二音素環境情報が存在すればステップＳ３０６に行き、存在しなければステップＳ３０７に行く。

（ステップＳ３０６）音声データ取得部１７は、ｉ番目の他言語の言語識別子を図示しないバッファに一時蓄積する。

（ステップＳ３０７）音声データ取得部１７は、カウンタｉを１、インクリメントする。ステップＳ３０３に戻る。

なお、図３のフローチャートにおいて、他言語決定処理は他のアルゴリズムでも良い。例えば、第一音素環境情報および第二音素環境情報は、処理対象の音素識別子と当該音素識別子に後続する音素識別子とを有する情報であったが、処理対象の音素識別子と当該音素識別子の前に出現する音素識別子とを有する情報でも良いし、処理対象の音素識別子と前出の音素識別子と後続する音素識別子とを有する情報でも良い。

また、図３のフローチャートのステップＳ３０５において、類似するか否かの判断基準は、上述したように、種々考えられる。

さらに、図３のフローチャートにおいて、第一音素環境情報と最も類似する第二音素環境情報に対応する一つの他の言語の言語識別子のみが取得されても良い。

次に、ステップＳ２１１の対応音素取得処理について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）音声データ取得部１７は、処理対象の音声識別子の国際音声記号（ＩＰＡ）を、対応情報格納部１３から取得する。

（ステップＳ４０２）音声データ取得部１７は、カウンタｉに１を代入する。

（ステップＳ４０３）音声データ取得部１７は、他の言語のｉ番目の音素識別子が存在するか否かを判断する。ｉ番目の音素識別子が存在すればステップＳ４０４に行き、存在しなければ上位処理にリターンする。ここで、他の言語とは、他言語決定処理で取得された１以上の言語識別子に対応する１以上の言語である。

（ステップＳ４０４）音声データ取得部１７は、ｉ番目の音素識別子のＩＰＡを、対応情報格納部１３から取得する。

（ステップＳ４０５）音声データ取得部１７は、ステップＳ４０１で取得したＩＰＡと、ステップＳ４０４で取得したＩＰＡが処理の条件（一致または類似）を満たすか否かを判断する。条件を満たせばステップＳ４０６に行き、条件を満たさなければステップＳ４０７に行く。

（ステップＳ４０６）音声データ取得部１７は、他の言語のｉ番目の音素識別子を、図示しないバッファに蓄積する。

（ステップＳ４０７）音声データ取得部１７は、カウンタｉを１、インクリメントする。ステップＳ４０３に戻る。

なお、図４のフローチャートにおいて、ＩＰＡが一致する他の言語の音素識別子のみを取得するようにしても良いし、最も類似する一つまたは上位ｎ（ｎは２以上の整数）の音素識別子のみを取得するようにしても良い。
（実験）

以下、本実施の形態における音響モデル構築装置１で構成した音響モデルを、音声認識処理に用いた実験結果について説明する。なお、音声認識装置は、後述する実施の形態４で説明する音声認識装置である。

今、目的言語をブラジルポルトガル語とする。そして、補完言語を日本語、英語、中国語とする。具体的には、構築する音響モデルを、ブラジルポルトガル語の音響モデル、とする。さらに具体的には、音響モデル格納部１１には、Globalphoneプロジェクトの音声データ及びSPOLTECプロジェクトのバランス文発声データおよび、当該データから学習された１以上の特徴量の集合が格納されている、とする。なお、発音辞書は、パラ連邦大学で作成されたG2P(Grapheme to Phoneme)ツールを用いて作成した。Globalphoneプロジェクトの音声データは、「Schultz, Tanja: "Globalphone: a multilingual speech and text database developed at karlsruhe university", in Proc.ICSLP-2002, 345-348.」を参照のこと。SPOLTECプロジェクトのバランス文発声データは、「Schramm, Mauricio C. et al.:" A Brasilian Portuguese Language Corpus Development",in Proc.ICSLP-2000, vol. II, 579-582.」を参照のこと。G2P(Grapheme to Phoneme)ツールは、「"http://www.laps.ufpa.br/falabrasil" visited in December,2009」を参照のこと。

また、本実験では、補完言語の音声データとして、日本語バランス文読み上げ音声、米語旅行基本会話文（BTEC）読み上げ音声、中国語普通話旅行会話文読み上げ音声を用いた。つまり、音声データ格納部１２は、日本語バランス文読み上げ音声、米語旅行基本会話文（BTEC）読み上げ音声、中国語普通話旅行会話文読み上げ音声を格納している。

また、本実験では、目的言語（ここでは、ブラジルポルトガル語）との対応をとるため、各言語の発音情報についてＩＰＡと対応をとり共通の音素体系で記述している。つまり、対応情報格納部１３の対応情報は、音響モデル格納部１１および音声データ格納部１２の中に格納されている構造である。

また、実験におけるベースラインの音響モデル学習データセットは、先述の音声データに含まれる男性話者によるブラジルポルトガル語音声データとした。この音声データは、１６時間、７５００発声のデータ量である。また、音響モデル構築装置１の手法を評価するため、ベースラインの学習セットに上記した手順で補完言語の音声データより選択した、５００、１０００、２０００発声をそれぞれ追加した学習データセットを作成した。また、音響モデル構築装置１の手法の有効性を検討するため、補完言語の音声データよりランダムに選択した５００、１０００、２０００、発声を追加した学習データセットを作成した。

そして、各学習セットに対して、図５に示す条件の下、音響モデルを学習し、評価実験を行った。実験で用いた評価音声は、出願人が収録したブラジルポルトガル語旅行会話基本文の読み上げ音声であり、話者数は１５名、各話者が発声した１から３単語の旅行会話表現９８発声を評価データとした。実験は、評価文より作成したＦＳＡ言語モデルを言語モデルとし、出願人が開発した音声認識エンジンをデコーダとして用いて音声認識実験を行った。音響モデル構築装置１等を構成するＣＰＵはDualCoreXeon2.33GHzで統一し、実験を行った。

音響モデル構築装置１の手法により作成した音響モデルによる平均文認識率を図６に示す。本実験結果では、ベースラインの認識率が６２．６５%に対し、補完言語より選択する学習データを音素の出現頻度を考慮して選択する音響モデル構築装置１の手法により、６９．８８%まで性能が改善している。また、補完言語の発声よりランダムに学習データを選択したセットによる音響モデルに比べ、高い性能を示している。特に、ベースラインとなる学習セットにおいて出現頻度が少なかった音素を含む発声を中心に性能が向上している。

本実験において、ブラジルポルトガル語に対して、音響モデル構築装置１の音響モデル構築法を適用し、音声目的言語以外の複数の言語の音声データを選択的に学習データに追加することにより、音声認識の性能が改善することを確認した。

以上、本実施の形態によれば、音素頻度を考慮し、低頻度の音素に対してだけ、他言語データの音声を学習データとして利用するため、数多くの言語の音響モデルを効率よく構築できる。また、本実施の形態によれば、高品質な音響モデルを効率よく構築できる。また、十分に学習データのある言語について、他言語の音響的な違いによる影響が出ない。

また、本実施の形態によれば、特に、音声データが十分に用意できない場合や、音声データは豊富にあっても音素の出現頻度が考慮されていない場合でも、音素ごとに出現頻度に応じて他の言語の音声を追加することにより、音響モデルの性能を向上させることができる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納しており、記憶媒体に、前記一の言語とは異なる１以上の他の言語の１以上の音素の波形データと、当該各波形データに対応付けられた音素の音素識別子とを有する音声データを、１以上の他の言語ごとに格納しており、コンピュータを、前記記憶媒体に格納されている各音素識別子（音声データ内の音素識別子でも音響モデルの音素識別子でも良い）の音素頻度を取得する音素頻度取得部と、前記音素頻度取得部が取得した各音素頻度を、音素識別子の出現頻度である音素頻度に関する条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断部と、前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子に対応する音素識別子と対になる１以上の波形データを、前記記憶媒体から取得する音声データ取得部と、前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と一の言語の音素識別子とを有する１以上の他言語音素情報を取得する学習部と、前記記憶媒体の音響モデルと、前記学習部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラム、である。

また、上記のプログラムにおいて、記憶媒体に、前記一の言語の各音素識別子および前記他の言語の各音素識別子と、国際音声記号とを対応付けている情報である対応情報を、２以上格納しており、前記音声データ取得部は、前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の音素識別子と対になる１以上の波形データを、前記記憶媒体から取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記のプログラムにおいて、前記記憶媒体は、一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納し、前記記憶媒体は、他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納し、前記音声データ取得部は、前記条件を満たすほど音素頻度が低いと前記判断部が判断した前記一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、前記音響モデル格納部から取得する第一音素環境情報取得手段と、前記他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、前記記憶媒体から取得する第二音素環境情報取得手段とを具備し、前記第一音素環境情報と前記第二音素環境情報とを比較し、予め決められた条件を満たすほど前記第一音素環境情報と類似している第二音素環境情報に対する他の言語の波形データまたは１以上の特徴量の中から、前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子に対応する音素識別子と対になる波形データまたは１以上の特徴量を取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。

さらに、上記のプログラムにおいて、前記音響モデル構築部は、前記記憶媒体に格納されている音素情報のうちの、前記条件を満たすほど音素頻度が低いと前記判断部が判断しなかった音素情報、および前記学習部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成するものとして、コンピュータを機能させるためのプログラムであることは好適である。
（実施の形態２）

本実施の形態において、実施の形態１と同様、一の言語の音響モデル内の低頻度の音素に関して、他の１以上の言語から対応する音素の学習データを記録する音響モデル構築装置について説明する。

また、本実施の形態における音響モデル構築装置と、実施の形態１の音響モデル構築装置１との異なる点は、国際音声記号（ＩＰＡ）ではなく、音響モデルの距離を用いて低頻度の音素に対応する音素を検出する点である。

図７は、本実施の形態における音響モデル構築装置２のブロック図である。音響モデル構築装置２は、音響モデル格納部１１、音声データ格納部１２、対応情報格納部１３、条件格納部１４、音素頻度取得部１５、判断部１６、音声データ取得部２７、学習部２８、音響モデル構築部１９を備える。音響モデル構築装置１と音響モデル構築装置２とは、音声データ取得部２７および学習部２８が異なる。

音声データ取得部２７は、第一音素環境情報取得手段１７１、第二音素環境情報取得手段１７２、距離算出手段２７３、特徴量取得手段２７４を備える。

距離算出手段２７３は、条件を満たすほど音素頻度が低いと判断部１６が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、他の言語の音声データが有する１以上の特徴量とを用いて、一の言語の音素の音響モデルと、他の言語の音素の音響モデルとの距離を算出する。

距離算出手段２７３は、例えば、Ｋｕｌｌｂａｃｋ−ＬｉｅｂｌｅｒＤｉｖｅｒｇｅｎｃｅ（ＫＬＤ）を用いて、音響モデルの音素のモデル間距離を算出する。ＫＬＤは数式１により算出される。

数式１において、一の言語の音響モデルはｓ、他の言語の音響モデルはｓ〜（〜は上付き）で示す。また、数式１において、Ｎは音響モデルの特徴量の次元数、Ｍは混合数、ω_ｍはＧＭＭにおけるｍ番目のＧａｕｓｓｉａｎｋｅｒｎｅｌの混合重み、ｏ_ｍ，ｋ（１＜＝ｋ＜＝２Ｎ）はｍ番目のＧａｕｓｓｉａｎｋｅｒｎｅｌのｋ番目のｓｉｇｍａｐｏｉｎｔである。

なお、ＫＬＤは、公知技術であるので、詳細な説明は省略する。また、距離算出手段２７３は、ＫＬＤ以外の方法を用いて、音響モデルのモデル間距離を算出しても良いことは言うまでもない。

また、距離算出手段２７３は、第一音素環境情報と第二音素環境情報とを比較し、予め決められた条件を満たすほど第一音素環境情報と類似している第二音素環境情報に対する他の言語の音声データの中から、条件を満たすほど音素頻度が低いと判断部１６が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、他の言語の音声データが有する１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出することは好適である。

特徴量取得手段２７４は、距離算出手段２７３が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量を取得する。また、距離条件とは、２つの音響モデルの距離が閾値以下、または閾値より小さい等である。特徴量取得手段２７４は、予め距離条件を格納している。ここで、距離条件などの条件を格納していることは、条件をプログラム中に記載していても良い趣旨である。

学習部２８は、音声データ取得部２７が取得した１以上の各音声データが有する波形データから１以上の特徴量を取得し、１以上の特徴量と音声データ取得部２７が取得した１以上の各音声データが有する音素識別子とを有する１以上の他言語音素情報を取得する。さらに具体的には、学習部２８は、特徴量取得手段２７４が取得した１以上の特徴量と、１以上の特徴量と対になっている音素識別子とを有する１以上の他言語音素情報を取得する。なお、特徴量取得手段２７４が既に１以上の特徴量を取得しているので、学習部２８は、特徴量取得手段２７４が取得した１以上の特徴量と、一の言語の音素識別子とを有する１以上の他言語音素情報を構成するのみで良い。

距離算出手段２７３、特徴量取得手段２７４、および学習部２８は、通常、ＭＰＵやメモリ等から実現され得る。距離算出手段２７３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル構築装置２の動作について説明する。図６のフローチャートを用いて説明する。図８のフローチャートにおいて、図３のフローチャートと同一の処理について、説明を省略する。

（ステップＳ８０１）音声データ取得部２７、学習部２８、および音響モデル構築部１９は、音響モデル構築処理を行い、ステップＳ２１８に行く。音響モデル構築処理にいて、図７のフローチャートを用いて説明する。

次に、ステップＳ８０１の音響モデル構築処理にいて、図９のフローチャートを用いて説明する。

（ステップＳ９０１）音声データ取得部２７は、処理対象の音素識別子に対応する１以上の特徴量を、音響モデル格納部１１から取得する。

（ステップＳ９０２）音声データ取得部２７は、カウンタｉに１を代入する。

（ステップＳ９０３）音声データ取得部２７は、他の言語のｉ番目の音素識別子が存在するか否かを判断する。ｉ番目の音素識別子が存在すればステップＳ９０４に行き、存在しなければ上位処理にリターンする。

（ステップＳ９０４）音声データ取得部２７の距離算出手段２７３は、他の言語のｉ番目の音素識別子に対応する波形データの１以上の特徴量を取得する。なお、学習部２８が、他の言語のｉ番目の音素識別子に対応する波形データの１以上の特徴量を取得しても良い。

（ステップＳ９０５）距離算出手段２７３は、ステップＳ９０１で取得した１以上の特徴量と、ステップＳ９０４で取得した１以上の特徴量とを用いて、２つの音響モデルの距離を算出する。なお、通常、この距離は、数式１を用いて算出される。

（ステップＳ９０６）音声データ取得部２７の特徴量取得手段２７４は、ステップＳ９０５で取得した距離が、予め格納している距離条件を満たすほど、近いか否かを判断する。距離条件を満たせばステップＳ９０７に行き、満たさなければステップＳ９０８に行く。

（ステップＳ９０７）学習部２８は、一の言語の音素識別子と、ステップＳ９０４で取得された１以上の特徴量とを用いて、他言語音素情報を構成する。

（ステップＳ９０８）音響モデル構築部１９は、ステップＳ９０７で構成された他言語音素情報を、音響モデル格納部１１に蓄積する。なお、音響モデル構築部１９は、ステップＳ９０４で取得された１以上の特徴量を、既に蓄積されている一の言語の音素識別子と対応付けて蓄積しても良い。かかる場合も、他言語音素情報が蓄積された、とする。

（ステップＳ９０９）音声データ取得部１７は、カウンタｉを１、インクリメントする。ステップＳ９０３に戻る。

以上、本実施の形態によれば、実施の形態１と同様、音素頻度を考慮し、低頻度の音素に対してだけ、他言語データの音声を学習データとして利用するため、数多くの言語の音響モデルを効率よく構築できる。また、本実施の形態によれば、高品質な音響モデルを効率よく構築できる。また、十分に学習データのある言語について、他言語の音響的な違いによる影響が出ない。

また、本実施の形態によれば、特に、モデル間距離を用いて低頻度の音素に対応する音素を検出したので、音響モデルをさらに効率よく構築できる。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納しており、記憶媒体に、前記一の言語とは異なる１以上の他の言語の１以上の音素の波形データと、当該各波形データに対応付けられた音素の音素識別子とを有する音声データを、１以上の他の言語ごとに格納しており、コンピュータを、前記記憶媒体に格納されている各音素識別子の音素頻度、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各音素識別子の音素頻度を取得する音素頻度取得部と、前記音素頻度取得部が取得した各音素頻度を、音素識別子の出現頻度である音素頻度に関する条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断部と、前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子に対応する音素識別子と対になる１以上の波形データを、前記記憶媒体から取得する音声データ取得部と、前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記一の言語の音素識別子とを有する１以上の他言語音素情報を取得する学習部と、前記記憶媒体の音響モデルと、前記学習部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラム、である。

また、上記のプログラムにおいて、前記記憶媒体の音声データは、音素の波形データと音素識別子に加えて、１以上の特徴量を含み、前記音声データ取得部は、前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、前記他の言語の音声データが有する１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量を取得する特徴量取得手段とを具備し、前記学習部は、前記特徴量取得手段が取得した１以上の特徴量と、前記一の言語の音素識別子とを有する１以上の他言語音素情報を取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。

さらに、上記のプログラムにおいて、前記音響モデル構築部は、前記記憶媒体に格納されている音素情報のうちの、前記条件を満たすほど音素頻度が低いと前記判断部が判断しなかった音素情報、および前記学習部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成するものとして、コンピュータを機能させるためのプログラムであることは好適である。
（実施の形態３）

本実施の形態において、他の言語の音響モデルを予め保持している状況において、一の言語の音響モデル内の低頻度の音素に関して、他の１以上の言語から対応する音素の学習データを記録する音響モデル構築装置について説明する。

本実施の形態における音響モデル構築装置は、他の言語の音響モデルを予め保持している以外は、実施の形態１と実施の形態２における音響モデル構築装置の技術を用いる。なお、ここでの音響モデル構築装置は、他の言語の波形データを保持している必要はない。

図１０は、本実施の形態における音響モデル構築装置３のブロック図である。音響モデル構築装置３は、音響モデル格納部１１、他言語音響モデル格納部３２、対応情報格納部１３、条件格納部１４、音素頻度取得部１５、判断部１６、他言語音素情報取得部３７、音響モデル構築部３９を備える。音響モデル構築装置１と音響モデル構築装置３とは、他言語音響モデル格納部３２、他言語音素情報取得部３７、および音響モデル構築部３９が異なる。

なお、図１０において音素頻度取得部１５は、音響モデルから頻度を取得していない。ここでは、音響モデルに関連する出現頻度に関する情報は、別途、図示しない記憶手段に記憶されている。なお、この図示しない記憶手段は、一の言語の音響モデルが取得される元になる一の言語の音声データを格納している格納部でも良い。
他言語音素情報取得部３７は、第一音素環境情報取得手段１７１、第二音素環境情報取得手段１７２、距離算出手段２７３、音素情報取得手段３７４を備える。

他言語音響モデル格納部３２は、音素を識別する音素識別子と音素の１以上の特徴量とを含む音素情報を２以上有する他の言語の他言語音響モデルを、１以上格納している。

他言語音響モデル格納部３２は、他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納していても良い。

他言語音響モデル格納部３２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

他言語音響モデル格納部３２に他言語音響モデルが記憶される過程は問わない。例えば、記録媒体を介して他言語音響モデルが他言語音響モデル格納部３２で記憶されるようになってもよく、通信回線等を介して送信された他言語音響モデルが他言語音響モデル格納部３２で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された他言語音響モデルが他言語音響モデル格納部３２で記憶されるようになってもよい。

他言語音素情報取得部３７は、条件を満たすほど音素頻度が低いと判断部１６が判断した１以上の各音素識別子と、当該１以上の各音素識別子に対応する音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得する。

つまり、他言語音素情報取得部３７は、条件を満たすほど音素頻度が低いと判断部１６が判断した音素識別子を取得する。そして、他言語音素情報取得部３７は、当該音素識別子に対応する他の言語の音素識別子を取得する。次に、他言語音素情報取得部３７は、当該他の言語の音素識別子と対になる１以上の特徴量を、他言語音響モデル格納部３２から取得する。次に、他言語音素情報取得部３７は、取得した音素識別子と、１以上の特徴量とを有する他言語音素情報を得る。そして、他言語音素情報取得部３７は、条件を満たすほど音素頻度が低いと判断部１６が判断した１以上の各音素識別子に対して上記処理を行い、１以上の他言語音素情報を得る。

他言語音素情報取得部３７は、条件を満たすほど音素頻度が低いと判断部１６が判断した音素識別子と、当該音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の音素識別子と対になる１以上の特徴量とを有する他言語音素情報を、１以上取得しても良い。

また、他言語音素情報取得部３７を構成する音素情報取得手段３７４は、条件を満たすほど音素頻度が低いと判断部１６が判断した音素識別子と、距離算出手段２７３が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量とを含む１以上の他言語音素情報を取得する。

音響モデル構築部３９は、音響モデル格納部１１の音響モデルと、他言語音素情報取得部３７が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する。

音響モデル構築部３９は、音響モデル格納部１１に格納されている音素情報のうちの、条件を満たすほど音素頻度が低いと判断部１６が判断しなかった音素情報、および他言語音素情報取得部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成しても良い。

音声データ取得部３７、音素情報取得手段３７４、および音響モデル構築部３９は、通常、ＭＰＵやメモリ等から実現され得る。音声データ取得部３７等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル構築装置３の動作について説明する。音響モデル構築装置３は、補完言語の１以上の特徴量も既に保持しているので、音響モデル構築装置１や音響モデル構築装置２のように、音声データを学習して、音声データから１以上の特徴量を取得する必要はない。したがって、音響モデル構築装置３は、学習部１８を具備しない。

音響モデル構築装置３は、目的言語の音響モデルのうち、音素頻度が所定の条件を満たすほど低い音素に対して、当該音素に対応する補完言語の音素情報が有する１以上の特徴量を、他言語音響モデル格納部３２から取得し、当該１以上の特徴量と目的言語の音素識別子とを有する１以上の他言語音素情報を、音響モデル格納部１１に蓄積する。

そして、音素頻度が所定の条件を満たすほど低い音素に対して、当該音素に対応する補完言語の音素を決定する処理は、音響モデル構築装置１または音響モデル構築装置２と同様の処理であるので説明を省略する。

また、本実施の形態によれば、音声データからの学習処理が不要となるので、さらに高速に、効率よく数多くの言語の音響モデルを構築できる。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納しており、記憶媒体に、音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する他の言語の他言語音響モデルを、１以上格納しており、記憶媒体に、音素頻度に関する条件を格納しており、コンピュータを、前記記憶媒体に格納されている各音素識別子の音素頻度を取得する音素頻度取得部と、前記音素頻度取得部が取得した各音素頻度を、前記記憶媒体の条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断部と、前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と、当該１以上の各音素識別子に対応する音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得する他言語音素情報取得部と、前記記憶媒体の音響モデルと、前記他言語音素情報取得部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラム、である。
また、上記のプログラムにおいて、記憶媒体に、前記一の言語の各音素識別子および前記他の言語の各音素識別子と、国際音声記号とを対応付けている情報である対応情報を、２以上格納しており、前記他言語音素情報取得部は、前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子と、当該音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の１以上の特徴量を有する他言語音素情報を、１以上取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。

また、上記のプログラムにおいて、前記他言語音素情報取得部は、前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、前記記憶媒体に格納されている１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子と、前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量とを含む１以上の他言語音素情報を取得する音素情報取得手段とを具備するものとして、コンピュータを機能させるためのプログラムであ
ることは好適である。

また、上記のプログラムにおいて、前記記憶媒体は、一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納し、前記記憶媒体は、他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納し、前記他言語音素情報取得部は、前記条件を満たすほど音素頻度が低いと前記判断部が判断した、前記一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、前記音響モデル格納部から取得する第一音素環境情報取得手段と、前記他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、前記記憶媒体から取得する第二音素環境情報取得手段とを具備し、前記第一音素環境情報と前記第二音素環境情報とを比較し、予め決められた条件を満たすほど前記第一音素環境情報と類似している第二音素環境情報に対する他の言語に対応する１以上の特徴量から、前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子と、当該音素識別子に対応する前記他の言語の音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。

さらに、上記のプログラムにおいて、前記音響モデル構築部は、前記記憶媒体に格納されている音素情報のうちの、前記条件を満たすほど音素頻度が低いと前記判断部が判断しなかった音素情報、および前記他言語音素情報取得部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成するものとして、コンピュータを機能させるためのプログラムであることは好適である。
（実施の形態４）

本実施の形態において、実施の形態１から実施の形態３で説明した音響モデル構築装置が構成した音響モデルを用いて、音声認識を行う音声認識装置について説明する。

図１１は、本実施の形態における音声認識装置４のブロック図である。音声認識装置４は、音響モデル格納部４１、音声受付部４２、音声認識部４３、出力部４４を具備する。

音響モデル格納部４１は、音響モデル構築装置１、音響モデル構築装置２、または音響モデル構築装置３が構築した新たな音響モデルを格納している。また、音響モデル格納部４１は、後述する音響モデル構築装置５、または音響モデル構築装置６が構築した新たな音響モデルを格納していても良い。

音響モデル格納部４１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。音響モデル格納部４１に音響モデルが記憶される過程は問わない。例えば、記録媒体を介して音響モデルが音響モデル格納部４１で記憶されるようになってもよく、通信回線等を介して送信された音響モデルが音響モデル格納部４１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音響モデルが音響モデル格納部４１で記憶されるようになってもよい。

音声受付部４２は、音声を受け付ける。ここで、受け付けとは、通常、マイクによる受け付けであるが、有線もしくは無線の通信回線を介して送信された音声の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された音声の受け付けなどを含む概念である。また、音声の入力手段は、例えば、マイクである。

音声認識部４３は、音声受付部４２が受け付けた音声に対して、音響モデル格納部４１の新たな音響モデルを用いて、音声認識を行い、文字列を取得する。音声認識部４３における音声認識アルゴリズムは問わない。音声認識部４３の処理は公知技術でも良いので、少詳細な説明を省略する。なお、音声認識部４３は、音声認識を行った後、音声認識結果に対応する命令を取得しても良い。

音声認識部４３は、通常、ＭＰＵやメモリ等から実現され得る。音声認識部４３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部４４は、音声認識部４３が取得した文字列や命令等を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、外部の装置（例えば、表示装置）への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む出力概念である。出力部４４は、例えば、音声認識結果を、ナビゲーションシステムに渡し、ナビゲーションシステムは受け付けた音声認識結果に応じて動作しても良い。

出力部４４は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部４４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

音声認識装置４の評価実験について、実施の形態１で説明した。

以上、本実施の形態によれば、目的言語以外の音響モデルを構築するために収集した音声データを、目的言語の音響モデルの学習用に適切に再利用することが可能となり、音響モデルの構築コストを抑え、音声インターフェイスの多言語化を容易にする。

また、本実施の形態によれば、複数の公用語やマイナーな言語が存在する国においても、母語の違いの気兼ねがいらない音声インターフェイスが実現できる。

また、本実施の形態の音声認識装置４は、カーナビゲーションシステムをはじめ、様々な音声認識アプリケーションで利用され得る。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声に対して、音響モデル構築装置１、音響モデル構築装置２、または音響モデル構築装置３が構成した新たな音響モデルを用いて、音声認識を行い、文字列を取得する音声認識部と、前記音声認識部が取得した文字列を出力する出力部として機能させるためのプログラム、である。

（実施の形態５）

本実施の形態において、他の言語の音素の学習データを取得する条件が出現関連情報を用いた条件である。出現関連情報とは、連続音素識別子の出現数に関する情報であり、例えば、一連音素情報の情報量や、一連音素情報の出現頻度などである。また、一連音素情報とは、連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む情報であり、詳細は後述する。

また、本実施の形態において、一連音素情報は、２以上の連続音素情報を有するクラスを構成していることは好適である。なお、連続音素は、音素コンテキストと言い換えても良い。また、クラスは、音響モデルにおいて、コンテキストクラスタリングされた結果、できるものである。

以下、本実施の形態における音響モデル構築装置５について説明する。図１２は、本実施の形態における音響モデル構築装置５のブロック図である。

音響モデル構築装置５は、対応情報格納部１３、音響モデル格納部５１、音声データ格納部５２、条件格納部５３、出現関連情報取得部５４、判断部５５、音声データ取得部５６、学習部５７、音響モデル構築部５８を具備する。

音声データ取得部５６は、距離算出手段５６１、特徴量取得手段５６２を具備する。

音響モデル格納部５１は、２以上の一連音素情報を有する一の言語の音響モデルを格納している。一連音素情報とは、１以上の連続音素識別子と１以上の特徴量とを含む情報である。連続音素識別子とは、一または連続する２以上の音素である連続音素を識別する情報である。連続音素識別子は、例えば、「ａ−ｋ−ａ」「ａ−ｋ−ｉ」「ｂ−ａ」「ａ−ｉ」などの複数の連続する音素識別子の集合であても良いし、「ａ」「ｋ」などの一の音素識別子でも良い。また、一連音素情報は、２以上の連続音素識別子と２以上の連続音素の１以上の特徴量とを含む一のクラスを構成していても良い。１以上の特徴量は、一の連続音素識別子で識別される連続音素に対応する波形データから抽出される特徴量でも良いし、複数の連続音素識別子で構成されたクラスに対応する１以上の波形データから抽出される特徴量でも良い。

一連音素情報は、例えば、以下の４つの場合がある。一連音素情報は、（１）一の音素識別子と１以上の特徴量とを含む情報である場合、（２）一の音素識別子の集合と１以上の特徴量とを含む情報である場合、（３）２以上の連続する連続音素の一の連続音素識別子と１以上の特徴量とを含む情報である場合、（４）２以上の連続音素識別子の集合と１以上の特徴量とを含む情報である場合がある。なお、一連音素情報が（１）の場合であり、後述する出現関連情報が出現頻度の場合については、実施の形態１から３で説明した。上記の（２）の場合、一の音素識別子の集合は、近似する音素を識別する音素識別子の集合であり、一のクラスを構成する音素識別子の集合である。近似する音素とは、例えば、音素の特徴量ベクトルの距離が閾値以内の２以上の音素である。また、上記の（４）の場合、２以上の連続音素識別子の集合とは、近似する連続音素を識別する連続音素識別子の集合であり、一のクラスを構成する２以上の連続音素識別子である。近似する連続音素とは、例えば、連続音素の特徴量ベクトルの距離が閾値以内の２以上の音素である。

音声データ格納部５２は、１以上の他の言語ごとに、音声データを格納している。音声データは、一の言語とは異なる他の言語の連続音素の波形データと、各波形データに対応付けられた連続音素の連続音素識別子とを有する。ここで、他の言語ごととは、他の言語の言語識別子と対応付けて音声データを格納していても良いし、言語ごとに、音声データを蓄積する記憶媒体を分けていても良い趣旨である。音声データは、例えば、連続した音素に対応する連続した波形データの集合や、音素ごとに波形データが切れており、１以上の波形データの集合などである。音声データのデータ構造も問わない。

条件格納部５３は、１以上の条件を格納している。条件は、判断部５５が判断のために利用する条件である。条件は、音声データ取得部５６が、波形データを取得するための条件である。条件は、ここでは、連続音素識別子の出現数に関する情報である出現関連情報を用いた条件である。条件は、連続音素識別子の出現に関する情報である出現関連情報を用いた条件である、とも言える。ここで、出現関連情報とは、例えば、連続音素識別子（一の音素識別子である場合もある）の出現頻度や、連続音素識別子の情報量等である。条件とは、例えば、連続音素識別子の出現頻度が予め決められた閾値以下、または出現頻度が閾値より小さいこと、出現頻度の低い順に連続音素識別子を並べた場合に、予め決められた順位以上であること等である。また、条件とは、例えば、連続音素識別子の情報量が予め決められた閾値以上、または情報量が閾値より大きいこと、情報量の大きい順に連続音素識別子を並べた場合に、予め決められた順位以上であること等である。また、条件とは、波形データを取得した場合の連続音素識別子のエントロピーが予め決められた閾値以上、またはエントロピーが閾値より大きいこと、エントロピーの大きい順に並べた場合に、予め決められた順位以上であること等である。なお、条件は、プログラム中に埋め込まれていても良いし、条件を管理するテーブル等が、条件を利用するプログラムとは別に記憶されていても良い。

出現関連情報取得部５４は、音響モデル格納部５１に格納されている各連続音素識別子の出現関連情報、または一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する。なお、出現関連情報が情報量である場合、出現関連情報取得部５４は、以下の数式２を用いて、連続音素識別子の情報量（Ｉ（ｘ））を算出する。なお、数式２において、ｘは音素、Ｐ（ｘ）は音素ｘの出現確率である。

また、出現関連情報が出現頻度である場合、出現関連情報取得部５４は、上述した音素頻度取得部１５と同様である。

判断部５５は、出現関連情報取得部５４が取得した各出現関連情報を、条件格納部５３の条件に適用し、出現関連情報が条件を満たすか否かを判断する。条件格納部５３の条件が２以上存在する場合、判断部５５は、２以上の条件のいずれかを満たせば、出現関連情報が条件を満たすと判断しても良いし、すべての条件を満たした場合のみ、出現関連情報が条件を満たすと判断しても良い。なお、波形データを取得する条件として、連続音素識別子のエントロピーを用いる場合、判断部では、以下の数式３を用いて、各波形データを追加した場合のエントロピー（Ｈ（ｘ））を算出する。なお、数式３において、Ｘ_ｉは連続音素識別子であり、ｐ（Ｘ_ｉ）は、連続音素識別子の出現確率である。

音声データ取得部５６は、出現関連情報が条件を満たすと判断部５５が判断した出現関連情報に対応する１以上の各連続音素識別子を取得する。なお、取得された連続音素識別子は、一の言語の連続音素識別子である。そして、音声データ取得部５６は、取得した各連続音素識別子に対応する、他の言語の連続音素識別子と対になる波形データを、音声データ格納部５２から取得する。ここで、対応するとは、連続音素識別子が一致するまたは近似することや、２つの音響モデルのモデル間距離が近いことなどを言う。

音声データ取得部５６は、後述する距離算出手段５６１と特徴量取得手段５６２とを用いて、波形データを取得しても良いし、以下に述べる国際音声記号を用いて、波形データを取得しても良い。

音声データ取得部５６が国際音声記号を用いる場合、例えば、音声データ取得部５６は、対応情報格納部１３を利用する。なお、対応情報格納部１３は、２以上の対応情報を格納している。対応情報は、一の言語の音素識別子と国際音声記号とを対応付ける情報である。また、対応情報は、他の言語の音素識別子と国際音声記号とを対応付ける情報である。対応情報は、音響モデル格納部１１の音素識別子と国際音声記号の組でも良いし、音声データ格納部５２の音素識別子と国際音声記号の組でも良い。音素識別子と国際音声記号とは対応づけられれば良く、対応情報の構造は問わない。例えば、音素識別子と国際音声記号は外部に存在し、対応情報は、当該外部に存在する音素識別子と国際音声記号とを取得するための情報であっても良い。

具体的には、例えば、音声データ取得部５６は、判断部５５が条件を満たすと判断した１以上の各連続音素識別子を構成する各音素と対になる１以上の国際音声記号と一致するまたは近似する１以上の国際音声記号と対になる他の言語の１以上の連続する音素識別子である各連続音素識別子と対になる１以上の波形データを、音声データ格納部５２から取得する。ここで、音声データ取得部５６が取得する波形データは、一つの言語の波形データでも良いし、２以上の言語の波形データでも良い。また、音声データ取得部５６は、国際音声記号に含まれる複数のパラメータのうちの１以上のパラメータが一致する割合、１以上のパラメータの近似する度合い等から、２つの国際音声記号が近似するか否かを判断する。

距離算出手段５６１は、条件を満たすと判断部５５が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、他の言語の音声データ（音声データ格納部５２に格納されている）が有する１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出する。距離の算出方法は、上述した通り、公知技術であるので、詳細な説明を省略する。

特徴量取得手段５６２は、距離算出手段５６１が算出した距離が予め決められた距離条件を満たすほど近い他の言語の１以上の特徴量を取得する。なお、音声データ取得部５６は、特徴量取得手段５６２が取得した１以上の特徴量に対応する波形データを取得しても良い。

学習部５７は、音声データ取得部５６が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と条件を満たすと判断部５５が判断した連続音素識別子とを有する１以上の他言語連続音素情報を取得する。また、学習部５７は、特徴量取得手段５６２が取得した１以上の特徴量と、一の言語の連続音素識別子とを有する１以上の他言語音素情報を取得しても良い。

音響モデル構築部５８は、音響モデル格納部５１の音響モデルと、学習部５７が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する。また、音響モデル構築部５８は、音響モデル格納部５１に格納されている一連音素情報のうちの、条件を満たすと判断部５５が判断しなかった一連音素情報、および学習部５７が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成しても良い。なお、新たな音響モデルを構成するとは、通常、音声データ取得部５６が取得した音声データが有する連続音素識別子と学習部５７が取得した１以上の特徴量とを含む他言語連続音素情報を、音響モデル格納部１１に追記することである。つまり、構成するとは、通常、記録媒体に蓄積することも含む。なお、音響モデル構築部５８は、音響モデル格納部５１とは別の記憶領域や記憶媒体に、新たな音響モデルを構成しても良い。

音響モデル格納部５１、音声データ格納部５２、および条件格納部５３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。音響モデル格納部５１に等に一の言語の音響モデル等が記憶される過程は問わない。
出現関連情報取得部５４、判断部５５、音声データ取得部５６、学習部５７、音響モデル構築部５８、距離算出手段５６１、および特徴量取得手段５６２は、通常、ＭＰＵやメモリ等から実現され得る。出現関連情報取得部５４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル構築装置５の動作について図１３のフローチャートを用いて説明する。

（ステップＳ１３０１）出現関連情報取得部５４は、カウンタｉに１を代入する。

（ステップＳ１３０２）出現関連情報取得部５４は、音響モデル格納部５１の一の言語の音響モデル内に、ｉ番目のクラスが存在するか否かを判断する。ｉ番目のクラスが存在すればステップＳ１３０３に行き、ｉ番目のクラスが存在しなければステップＳ１３０６に行く。ここで、クラスとは、通常、２以上の近似する連続音素識別子の集合である。ただし、本フローチャートにおいて、一の連続音素識別子が一つのクラスを構成する、と考えても良い。また、連続音素識別子は、通常、２以上の連続する音素識別子の集合であるが、一の音素識別子でも良い。

（ステップＳ１３０３）出現関連情報取得部５４は、ｉ番目のクラスの出現関連情報を取得する。出現関連情報取得部５４は、一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得することは好適である。但し、出現関連情報取得部５４は、音響モデル格納部１１に格納されている各連続音素識別子の出現関連情報を取得しても良い。

（ステップＳ１３０４）出現関連情報取得部５４は、ｉ番目のクラスに対応付けて、ステップＳ１３０３で取得した出現関連情報を、図示しないバッファに一時蓄積する。

（ステップＳ１３０５）出現関連情報取得部５４は、カウンタｉを１、インクリメントし、ステップＳ１３０２に戻る。

（ステップＳ１３０６）判断部５５は、出現関連情報をキーとして、出現関連情報と１以上の連続音素識別子の集合との組の情報をソートする。出現関連情報が出現頻度である場合、判断部５５は、昇順に、出現関連情報と１以上の連続音素識別子の集合との組の情報をソートする。また、出現関連情報が情報量である場合、判断部５５は、降順に、出現関連情報と１以上の連続音素識別子の集合との組の情報をソートする。

（ステップＳ１３０７）判断部５５は、ステップＳ１３０６でソートした各情報に対して、条件格納部１４の出現関連情報に関する条件を満たすか否かを判断し、当該条件を満たす１以上の連続音素識別子を、すべて取得する。ここで、条件を満たす１以上の連続音素識別子を取得する処理は、条件を満たす１以上のクラスを決定する処理であるとも言える。

（ステップＳ１３０８）音声データ取得部５６は、カウンタｉに１を代入する。

（ステップＳ１３０９）音声データ取得部５６は、ステップＳ１３０７で決定したクラスの中で、ｉ番目のクラスが存在するか否かを判断する。ｉ番目のクラスが存在すればステップＳ１３１０に行き、ｉ番目のクラスが存在しなければ処理を終了する。

（ステップＳ１３１０）音声データ取得部５６は、音声データ格納部５２の他言語の連続音素識別子の中で、条件を満たすｉ番目のクラスに対応する１以上の連続音素識別子を取得する処理である対応連続音素取得処理を行う。対応連続音素取得処理については、図１４のフローチャートを用いて後述する。

（ステップＳ１３１１）音声データ取得部５６は、ステップＳ１３１０で取得した１以上の各連続音素識別子と対になる１以上の波形データを、音声データ格納部５２からすべて取得する。

（ステップＳ１３１２）学習部５７は、カウンタｊに１を代入する。

（ステップＳ１３１３）学習部５７は、ステップＳ１３１１で取得された波形データのうち、ｊ番目の波形データが存在するか否かを判断する。ｊ番目の波形データが存在すればステップＳ１３１４に行き、存在しなければステップＳ１３１７に行く。

（ステップＳ１３１４）学習部５７は、学習処理を行う。学習処理は、ｊ番目の波形データから、１以上の特徴量を取得する処理である。

（ステップＳ１３１５）音響モデル構築部１９は、ステップＳ１３１４で取得した１以上の特徴量と連続音素識別子とを有する他言語音素情報を音響モデル格納部５１に蓄積する。なお、ここでの連続音素識別子は、波形データと対になる連続音素識別子に対応する一の言語の連続音素識別子である。

（ステップＳ１３１６）学習部５７は、カウンタｊを１、インクリメントし、ステップＳ１３１３に戻る。

（ステップＳ１３１７）音声データ取得部５６は、カウンタｉを１、インクリメントし、ステップＳ１３０９に戻る。

次に、ステップＳ１３１０の対応連続音素取得処理の第一の例について、図１４のフローチャートを用いて説明する。

（ステップＳ１４０１）音声データ取得部５６は、カウンタｉに１を代入する。

（ステップＳ１４０２）音声データ取得部５６は、着目しているクラスに対応するｉ番目の連続音素識別子が存在するか否かを判断する。ｉ番目の連続音素識別子が存在すればステップＳ１４０３に行き、存在しなければ上位処理にリターンする。

（ステップＳ１４０３）音声データ取得部５６は、カウンタｊに１を代入する。

（ステップＳ１４０４）音声データ取得部５６は、ｉ番目の連続音素識別子の中に、ｊ番目の音素識別子が存在するか否かを判断する。ｊ番目の音素識別子が存在すればステップＳ１４０５に行き、存在しなければステップＳ１４１０に行く。

（ステップＳ１４０５）音声データ取得部５６は、ｉ番目の連続音素識別子のｊ番目の音素識別子に対応するＩＰＡを、対応情報格納部１３から取得する。

（ステップＳ１４０６）音声データ取得部５６は、ステップＳ１４０５で取得したＩＰＡと、条件を満たす他言語のＩＰＡを検索する。なお、通常、一の言語の音素に対応するＩＰＡと、他の言語の音素に対応するＩＰＡが一致または類似である場合、条件を満たす、とする。ここで、２以上の他言語のＩＰＡを検索できる場合もあり得る。

（ステップＳ１４０７）音声データ取得部５６は、ステップＳ１４０６において、１以上のＩＰＡが存在するか否か（検索できたか否か）を判断する。ＩＰＡが存在すればステップＳ１４０８に行き、が存在しなければステップＳ１４１１に行く。なお、ステップＳ１４０６において、複数の言語のＩＰＡが存在する場合もあり得る。

（ステップＳ１４０８）音声データ取得部５６は、他言語のＩＰＡを一時蓄積する。なお、ここで、複数の言語のＩＰＡを一時蓄積しても良い。複数の言語のＩＰＡを一時蓄積する場合、言語ごとに、ＩＰＡを追記していく。

（ステップＳ１４０９）音声データ取得部５６は、カウンタｊを１、インクリメントし、ステップＳ１４０４に戻る。

（ステップＳ１４１０）音声データ取得部５６は、１以上のＩＰＡに対応する連続音素識別子を、対応情報格納部１３から取得する。なお、取得する連続音素識別子は、他の言語の連続音素識別子である。また、ステップＳ１４０８で、複数の言語の１以上のＩＰＡが蓄積された場合、音声データ取得部５６は、複数の言語の連続音素識別子を取得する。

（ステップＳ１４１１）音声データ取得部５６は、カウンタｉを１、インクリメントし、ステップＳ１４０２に戻る。

なお、図１４のフローチャートにおいて、ＩＰＡが一致する他の言語の音素識別子のみを取得するようにしても良いし、最も類似する一つまたは上位ｎ（ｎは２以上の整数）の音素識別子のみを取得するようにしても良い。

次に、ステップＳ１３１０の対応連続音素取得処理の第二の例について、図１５のフローチャートを用いて説明する。図１５のフローチャートにおいて、図１４のフローチャートと同一のステップについて、説明を省略する。

（ステップＳ１５０１）音声データ取得部５６は、ｉ番目の連続音素識別子に対応する１以上の特徴量を、音響モデル格納部１１から取得する。

（ステップＳ１５０２）音声データ取得部５６は、カウンタｊに１を代入する。

（ステップＳ１５０３）音声データ取得部５６は、他の言語のｊ番目の連続音素識別子が存在するか否かを判断する。ｊ番目の連続音素識別子が存在すればステップＳ１５０４に行き、存在しなければステップＳ１５０９に行く。

（ステップＳ１５０４）音声データ取得部５６の距離算出手段２７３は、他の言語のｊ番目の連続音素識別子に対応する波形データの１以上の特徴量を取得する。なお、学習部５７が、他の言語のｊ番目の連続音素識別子に対応する波形データの１以上の特徴量を取得しても良い。

（ステップＳ１５０５）距離算出手段５６１は、ステップＳ１５０１で取得した１以上の特徴量と、ステップＳ１５０４で取得した１以上の特徴量とを用いて、２つの音響モデルの距離を算出する。なお、例えば、この距離は、数式１を用いて算出される。

（ステップＳ１５０６）音声データ取得部５６の特徴量取得手段５６２は、ステップＳ１５０５で取得した距離が、予め格納している距離条件を満たすほど、近いか否かを判断する。距離条件を満たせばステップＳ１５０７に行き、満たさなければステップＳ１５０８に行く。

（ステップＳ１５０７）学習部５７は、他の言語のｊ番目の連続音素識別子を蓄積する。

（ステップＳ１５０８）音声データ取得部１７は、カウンタｊを１、インクリメントし、ステップＳ１５０３に戻る。

（ステップＳ１５０９）音声データ取得部１７は、カウンタｉを１、インクリメントし、ステップＳ１４０２に戻る。

以上、本実施の形態によれば、数多くの言語の音響モデルを効率よく構築できる。また、本実施の形態によれば、極めて高品質な音響モデルを効率よく構築できる。また、十分に学習データのある言語について、他言語の音響的な違いによる影響が出ない。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルと、１以上の他の言語ごとに、前記一の言語とは異なる１以上の他の言語の連続音素の波形データと、当該各波形データに対応付けられた連続音素の連続音素識別子とを有する音声データと、連続音素識別子の出現数に関する情報である出現関連情報を用いた条件とを格納しており、コンピュータを、前記記憶媒体に格納されている各連続音素識別子の出現関連情報、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、前記出現関連情報取得部が取得した各出現関連情報を、前記記憶媒体の条件に適用し、出現関連情報が前記条件を満たすか否かを判断する判断部と、出現関連情報が前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子に対応する連続音素識別子と対になる波形データを、前記記憶媒体から取得する音声データ取得部と、前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすと前記判断部が判断した連続音素識別子とを有する１以上の他言語連続音素情報を取得する学習部と、前記音響モデル格納部の音響モデルと、前記学習部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラム、である。

また、上記プログラムにおいて、前記記憶媒体の音声データは、音素の波形データと音素識別子に加えて、１以上の特徴量を含み、前記音声データ取得部は、前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、前記他の言語の音声データが有する１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、前記距離算出手段が算出した距離が予め決められた距離条件を満たすほど近い前記他の言語の１以上の特徴量を取得する特徴量取得手段とを具備し、前記学習部は、前記特徴量取得手段が取得した１以上の特徴量と、前記一の言語の連続音素識別子とを有する１以上の他言語音素情報を取得することは好適である。

また、上記プログラムにおいて、前記音響モデル構築部は、前記記憶媒体に格納されている一連音素情報のうちの、前記条件を満たすと前記判断部が判断しなかった一連音素情報、および前記学習部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成することは好適である。

（実施の形態６）

本実施の形態において、他の言語の音響モデルを予め格納している状況において、一の言語の音響モデル内の連続音素識別子であり、条件を満たす連続音素識別子に対応する学習データであり、他の１以上の言語の音素の学習データを記録する音響モデル構築装置について説明する。

本実施の形態においても、実施の形態５と同様に、一連音素情報は、２以上の連続音素情報を有するクラスを構成していることは好適である。

図１６は、本実施の形態における音響モデル構築装置６のブロック図である。

音響モデル構築装置６は、対応情報格納部１３、音響モデル格納部５１、他言語音響モデル格納部６２、条件格納部５３、出現関連情報取得部５４、判断部５５、他言語連続音素情報取得部６６、音響モデル構築部６７を具備する。

他言語連続音素情報取得部６６は、距離算出手段６６１、連続音素情報取得手段６６２を具備する。

他言語音響モデル格納部６２は、他の言語の他言語音響モデルを、１以上格納している。他言語音響モデルは、２以上の一連音素情報を有する。一連音素情報は、１以上の連続音素識別子と１以上の特徴量とを含む情報である。１以上の特徴量とは、１以上の連続音素の１以上の特徴量である。１または２以上の連続音素識別子は、クラスを構成している、と考えても良い。

他言語連続音素情報取得部６６は、条件を満たすと判断部５５が判断した１以上の各連続音素識別子（一の言語の１以上の各連続音素識別子）と、他言語の１以上の各連続音素識別子と対になる１以上の特徴量とを有する１以上の他言語連続音素情報を取得する。

つまり、他言語音素情報取得部６６は、条件を満たすと判断部５５が判断した１以上の各連続音素識別子を取得する。次に、他言語音素情報取得部６６は、当該連続音素識別子に対応する連続音素識別子であり、他の言語の連続音素識別子を取得する。次に、他言語音素情報取得部６６は、当該他の言語の連続音素識別子と対になる１以上の特徴量を、他言語音響モデル格納部６２から取得する。次に、他言語音素情報取得部６６は、取得した連続音素識別子（一の言語の連続音素識別子）と、１以上の特徴量とを有する他言語音素情報を得る。そして、他言語音素情報取得部６６は、条件を満たすと判断部６５が判断した１以上の各連続音素識別子に対して上記処理を行い、１以上の他言語音素情報を得る。

他言語音素情報取得部６６は、条件を満たすと判断部５５が判断した連続音素識別子と、当該連続音素識別子を構成する各音素識別子と対になる１以上の国際音声記号を取得する。次に、他言語音素情報取得部６６は、１以上の各国際音声記号と一致するまたは近似する１以上の国際音声記号と対になる他の言語の１以上の音素識別子からなる連続音素識別子を取得する。次に、他言語音素情報取得部６６は、当該他言語の連続音素識別子と対になる１以上の特徴量（他の言語の特徴量）を取得する。そして、他言語音素情報取得部６６は、一の言語の連続音素識別子と他の言語の１以上の特徴量とを有する他言語音素情報を、１以上取得しても良い。

また、他言語音素情報取得部６６は、条件を満たすと判断部５５が判断した連続音素識別子と、距離算出手段６６１が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量とを含む１以上の他言語音素情報を取得しても良い。ここでの他言語音素情報は、一の言語の連続音素識別子を有する。

距離算出手段６６１は、条件を満たすと判断部５５が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、他言語音響モデル格納部６２に格納されている１以上の特徴量とを用いて、一の言語の音響モデルと、他の言語の音響モデルとの距離を算出する。音響モデル間の距離を算出する方法は、上述したように公知技術であるので、詳細な説明を省略する。

連続音素情報取得手段６６２は、条件を満たすと判断部５５が判断した連続音素識別子と、距離算出手段６６１が算出した距離が予め決まれている距離条件を満たすほど近い他の言語の１以上の特徴量とを含む１以上の他言語連続音素情報を取得する。

音響モデル構築部６７は、音響モデル格納部５１の音響モデルと、他言語音素情報取得部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する。また、音響モデル構築部６７は、音響モデル格納部５１に格納されている一連音素情報のうちの、条件を満たすと判断部５５が判断しなかった一連音素情報、および他言語音素情報取得部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成しても良い。

他言語音響モデル格納部６２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。他言語音響モデル格納部６２に他言語音響モデルが記憶される過程は問わない。

他言語連続音素情報取得部６６、音響モデル構築部６７は、通常、ＭＰＵやメモリ等から実現され得る。他言語連続音素情報取得部６６等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音響モデル構築装置６の動作について説明する。音響モデル構築装置３は、補完言語の１以上の特徴量も既に保持しているので、音響モデル構築装置５のように、音声データを学習して、音声データから１以上の特徴量を取得する必要はない。したがって、音響モデル構築装置６は、学習部５７を具備しない。

音響モデル構築装置６は、目的言語の音響モデルのうち、出現関連情報が所定の条件を満たす連続音素に対して、当該連続音素に対応する補完言語の連続音素情報が有する１以上の特徴量を、他言語音響モデル格納部３２から取得し、当該１以上の特徴量と目的言語の連続音素識別子とを有する１以上の他言語音素情報を、音響モデル格納部１１に蓄積する。

そして、出現関連情報が所定の条件を満たす連続音素に対して、当該連続音素に対応する補完言語の連続音素を決定する処理は、音響モデル構築装置５と同様の処理であるので説明を省略する。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルと、一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する他の言語の１以上の他言語音響モデルと、連続音素識別子の出現数に関する情報である出現関連情報を用いた条件とを格納しており、コンピュータを、前記音響モデル格納部に格納されている各連続音素識別子の出現関連情報、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、前記出現関連情報取得部が取得した各出現関連情報を、前記条件格納部の条件に適用し、出現関連情報が前記条件を満たすか否かを判断する判断部と、前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子と、当該１以上の各連続音素識別子と対になる１以上の特徴量とを有する１以上の他言語連続音素情報を取得する他言語連続音素情報取得部と、前記音響モデル格納部の音響モデルと、前記他言語音素情報取得部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記他言語音素情報取得部は、前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、前記他言語音響モデル格納部に格納されている１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、前記条件を満たすと前記判断部が判断した連続音素識別子と、前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量とを含む１以上の他言語連続音素情報を取得する連続音素情報取得手段とを具備することは好適である。

また、上記プログラムにおいて、前記音響モデル構築部は、前記音響モデル格納部に格納されている一連音素情報のうちの、前記条件を満たすと前記判断部が判断しなかった一連音素情報、および前記他言語音素情報取得部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成することは好適である。

また、図１７は、本明細書で述べたプログラムを実行して、上述した実施の形態の音響モデル構築装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１７は、このコンピュータシステム３４０の概観図であり、図１８は、コンピュータシステム３４０のブロック図である。なお、音声認識装置４は、音響モデル構築装置を実現するコンピュータ構成に加えてマイクを有する。

図１７において、コンピュータシステム３４０は、ＦＤドライブ、ＣＤ−ＲＯＭドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４とを含む。

図１８において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＭＰＵ３４１３と、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３４１５とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の音響モデル構築装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の音響モデル構築装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

なお、上記プログラムにおいて、ハードウェアによって行われる処理、（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音響モデル構築装置は、数多くの言語の音響モデルを効率よく構築できる、という効果を有し、例えば、カーナビゲーションシステムで利用される音声認識装置等として有用である。

１、２、３、５、６音響モデル構築装置
４音声認識装置
１１、４１、５１音響モデル格納部
１２、５２音声データ格納部
１３対応情報格納部
１４、５３条件格納部
１５音素頻度取得部
１６、５５、６５判断部
１７、２７、３７、５６音声データ取得部
１８、２８、５７学習部
１９、３９、５８、６７音響モデル構築部
３２、６２他言語音響モデル格納部
３７、６６他言語音素情報取得部
４２音声受付部
４３音声認識部
４４出力部
５４出現関連情報取得部
６６他言語連続音素情報取得部
１７１第一音素環境情報取得手段
１７２第二音素環境情報取得手段
１７３音声データ取得手段
２７３、５６１、６６１距離算出手段
２７４、５６２特徴量取得手段
３７４音素情報取得手段
６６２連続音素情報取得手段

Claims

音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、
前記一の言語とは異なる１以上の他の言語の１以上の音素の波形データと、当該各波形データに対応付けられた音素の音素識別子とを有する音声データを、１以上の他の言語ごとに格納している音声データ格納部と、
音素識別子の出現頻度である音素頻度に関する条件を格納している条件格納部と、
前記音響モデル格納部に格納されている各音素識別子の音素頻度を取得する音素頻度取得部と、
前記音素頻度取得部が取得した各音素頻度を、前記条件格納部の条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断部と、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子に対応する音素識別子と対になる波形データを、前記音声データ格納部から取得する音声データ取得部と、
前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子とを有する１以上の他言語音素情報を取得する学習部と、
前記音響モデル格納部の音響モデルと、前記学習部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置。
前記一の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報、および前記他の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報を格納している対応情報格納部をさらに具備し、
前記音声データ取得部は、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の音素識別子と対になる１以上の波形データを、前記音声データ格納部から取得する請求項１記載の音響モデル構築装置。
前記音声データ格納部の音声データは、
音素の波形データと音素識別子に加えて、１以上の特徴量を含み、
前記音声データ取得部は、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、前記他の言語の音声データが有する１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、
前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量を取得する特徴量取得手段とを具備し、
前記学習部は、
前記特徴量取得手段が取得した１以上の特徴量と、前記一の言語の音素識別子とを有する１以上の他言語音素情報を取得する請求項１記載の音響モデル構築装置。
前記音響モデル格納部は、
一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納し、
前記音声データ格納部は、
他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納し、
前記音声データ取得部は、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した前記一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、前記音響モデル格納部から取得する第一音素環境情報取得手段と、
前記他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、前記音声データ格納部から取得する第二音素環境情報取得手段とを具備し、
前記第一音素環境情報と前記第二音素環境情報とを比較し、予め決められた条件を満たすほど前記第一音素環境情報と類似している第二音素環境情報に対する他の言語の音声データまたは１以上の特徴量の中から、前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子に対応する音素識別子と対になる波形データまたは１以上の特徴量を取得する請求項１から請求項３いずれか記載の音響モデル構築装置。
前記音響モデル構築部は、
前記音響モデル格納部に格納されている音素情報のうちの、前記条件を満たすほど音素頻度が低いと前記判断部が判断しなかった音素情報、および前記学習部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成する請求項１から請求項４いずれか記載の音響モデル構築装置。
音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、
音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する他の言語の他言語音響モデルを、１以上格納している他言語音響モデル格納部と、
音素頻度に関する条件を格納している条件格納部と、
前記音響モデル格納部に格納されている各音素識別子の音素頻度を取得する音素頻度取得部と、
前記音素頻度取得部が取得した各音素頻度を、前記条件格納部の条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断部と、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と、当該１以上の各音素識別子に対応する音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得する他言語音素情報取得部と、
前記音響モデル格納部の音響モデルと、前記他言語音素情報取得部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置。
前記一の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報、および前記他の言語の各音素識別子と国際音声記号とを対応付けている情報である１以上の対応情報を格納している対応情報格納部をさらに具備し、
前記他言語音素情報取得部は、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子と、当該音素識別子と対になる国際音声記号と一致するまたは近似する国際音声記号と対になる他の言語の１以上の特徴量を有する他言語音素情報を、１以上取得する請求項６記載の音響モデル構築装置。
前記他言語音素情報取得部は、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子と対になる一の言語の１以上の特徴量と、前記他言語音響モデル格納部に格納されている１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子と、前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量とを含む１以上の他言語音素情報を取得する音素情報取得手段とを具備する請求項６記載の音響モデル構築装置。
前記音響モデル格納部は、
一の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第一音素環境情報をも格納し、
前記他言語音響モデル格納部は、
他の言語の音素識別子の連結に関する１以上の音素環境情報である１以上の第二音素環境情報をも格納し、
前記他言語音素情報取得部は、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した、前記一の言語の音素識別子の後または前の音素環境情報である１以上の第一音素環境情報を、前記音響モデル格納部から取得する第一音素環境情報取得手段と、
前記他の言語の音素識別子の後または前の音素環境情報である１以上の第二音素環境情報を、前記他言語音響モデル格納部から取得する第二音素環境情報取得手段とを具備し、
前記第一音素環境情報と前記第二音素環境情報とを比較し、予め決められた条件を満たすほど前記第一音素環境情報と類似している第二音素環境情報に対する他の言語に対応する１以上の特徴量から、前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子と、当該音素識別子に対応する前記他の言語の音素識別子と対になる１以上の特徴量とを有する１以上の他言語音素情報を取得する請求項６から請求項８いずれか記載の音響モデル構築装置。
前記音響モデル構築部は、
前記音響モデル格納部に格納されている音素情報のうちの、前記条件を満たすほど音素頻度が低いと前記判断部が判断しなかった音素情報、および前記他言語音素情報取得部が取得した１以上の他言語音素情報を有する新たな音響モデルを構成する請求項６から請求項９いずれか記載の音響モデル構築装置。
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声に対して、請求項１から請求項１０いずれか記載の音響モデル構築装置が構築した新たな音響モデルを用いて、音声認識を行い、文字列を取得する音声認識部と、
前記音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置。
記憶媒体に、
音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納しており、
記憶媒体に、
前記一の言語とは異なる１以上の他の言語の１以上の音素の波形データと、当該各波形データに対応付けられた音素の音素識別子とを有する音声データを、１以上の他の言語ごとに格納しており、
音素頻度取得部、判断部、音声データ取得部、学習部、および音響モデル構築部により実現される音響モデル構築方法であって、
前記音素頻度取得部により、前記記憶媒体に格納されている各音素識別子の音素頻度を取得する出現頻度取得ステップと、
前記判断部により、前記出現頻度取得ステップで取得された各音素頻度を、音素識別子の出現頻度である音素頻度に関する条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断ステップと、
前記音声データ取得部により、前記条件を満たすほど音素頻度が低いと、前記判断ステップで判断された１以上の各音素識別子に対応する音素識別子と対になる１以上の波形データを、前記記憶媒体から取得する音声データ取得ステップと、
前記学習部により、前記音声データ取得ステップにより取得された１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすほど音素頻度が低いと前記判断ステップで判断された音素識別子とを有する１以上の他言語音素情報を取得する学習ステップと、
前記音響モデル構築部により、前記記憶媒体の音響モデルと、前記学習ステップで取得された１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築ステップとを具備する音響モデル構築方法。
記憶媒体に、
音素を識別する音素識別子と当該音素の１以上の特徴量とを含む音素情報を２以上有する一の言語の音響モデルを格納しており、
記憶媒体に、
前記一の言語とは異なる１以上の他の言語の１以上の音素の波形データと、当該各波形データに対応付けられた音素の音素識別子とを有する音声データを、１以上の他の言語ごとに格納しており、
コンピュータを、
前記記憶媒体に格納されている各音素識別子の音素頻度を取得する音素頻度取得部と、
前記音素頻度取得部が取得した各音素頻度を、音素識別子の出現頻度である音素頻度に関する条件に適用し、音素頻度が前記条件を満たすほど低いか否かを判断する判断部と、
前記条件を満たすほど音素頻度が低いと前記判断部が判断した１以上の各音素識別子に対応する音素識別子と対になる１以上の波形データを、前記記憶媒体から取得する音声データ取得部と、
前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすほど音素頻度が低いと前記判断部が判断した音素識別子とを有する１以上の他言語音素情報を取得する学習部と、
前記記憶媒体の音響モデルと、前記学習部が取得した１以上の他言語音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラム。
一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、
前記一の言語とは異なる１以上の他の言語の連続音素の波形データと、当該各波形データに対応付けられた連続音素の連続音素識別子とを有する音声データを、１以上の他の言語ごとに格納している音声データ格納部と、
連続音素識別子の出現数に関する情報である出現関連情報を用いた条件を格納している条件格納部と、
前記音響モデル格納部に格納されている各連続音素識別子の出現関連情報、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、
前記出現関連情報取得部が取得した各出現関連情報を、前記条件格納部の条件に適用し、出現関連情報が前記条件を満たすか否かを判断する判断部と、
出現関連情報が前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子に対応する連続音素識別子と対になる波形データを、前記音声データ格納部から取得する音声データ取得部と、
前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすと前記判断部が判断した連続音素識別子とを有する１以上の他言語連続音素情報を取得する学習部と、
前記音響モデル格納部の音響モデルと、前記学習部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置。
一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルを格納している音響モデル格納部と、
一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する他の言語の他言語音響モデルを、１以上格納している他言語音響モデル格納部と、
連続音素識別子の出現数に関する情報である出現関連情報を用いた条件を格納している条件格納部と、
前記音響モデル格納部に格納されている各連続音素識別子の出現関連情報、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、
前記出現関連情報取得部が取得した各出現関連情報を、前記条件格納部の条件に適用し、出現関連情報が前記条件を満たすか否かを判断する判断部と、
前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子と、当該１以上の各連続音素識別子と対になる１以上の特徴量とを有する１以上の他言語連続音素情報を取得する他言語連続音素情報取得部と、
前記音響モデル格納部の音響モデルと、前記他言語連続音素情報取得部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部とを具備する音響モデル構築装置。
前記一連音素情報は、
連続する２以上の音素である連続音素を識別する２以上の連続音素識別子と当該２以上の連続音素の１以上の特徴量とを含む一のクラスを構成し、
前記連続音素は、
連続する２以上の音素である請求項１４または請求項１５記載の音響モデル構築装置。
前記出現関連情報は、
連続音素識別子の出現頻度である請求項１４から請求項１６いずれか記載の音響モデル構築装置。
前記出現関連情報は、
連続音素識別子のエントロピーである請求項１４から請求項１６いずれか記載の音響モデル構築装置。
前記音声データ格納部の音声データは、
音素の波形データと音素識別子に加えて、１以上の特徴量を含み、
前記音声データ取得部は、
前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、前記他の言語の音声データが有する１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、
前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量を取得する特徴量取得手段とを具備し、
前記学習部は、
前記特徴量取得手段が取得した１以上の特徴量と、前記一の言語の連続音素識別子とを有する１以上の他言語音素情報を取得する請求項１４記載の音響モデル構築装置。
前記音響モデル構築部は、
前記音響モデル格納部に格納されている一連音素情報のうちの、前記条件を満たすと前記判断部が判断しなかった一連音素情報、および前記学習部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成する請求項１４記載の音響モデル構築装置。
前記他言語連続音素情報取得部は、
前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子と対になる一の言語の１以上の特徴量と、前記他言語音響モデル格納部に格納されている１以上の特徴量とを用いて、前記一の言語の音響モデルと、前記他の言語の音響モデルとの距離を算出する距離算出手段と、
前記条件を満たすと前記判断部が判断した連続音素識別子と、前記距離算出手段が算出した距離が予め決まれている距離条件を満たすほど近い前記他の言語の１以上の特徴量とを含む１以上の他言語連続音素情報を取得する連続音素情報取得手段とを具備する請求項１５記載の音響モデル構築装置。
前記音響モデル構築部は、
前記音響モデル格納部に格納されている一連音素情報のうちの、前記条件を満たすと前記判断部が判断しなかった一連音素情報、および前記他言語連続音素情報取得部が取得した１以上の他言語連続音素情報を有する新たな音響モデルを構成する請求項１５記載の音響モデル構築装置。
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声に対して、請求項１４から請求項２２いずれか記載の音響モデル構築装置が構築した新たな音響モデルを用いて、音声認識を行い、文字列を取得する音声認識部と、
前記音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置。
記憶媒体に、
一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルと、
１以上の他の言語ごとに、前記一の言語とは異なる１以上の他の言語の連続音素の波形データと、当該各波形データに対応付けられた連続音素の連続音素識別子とを有する音声データと、
連続音素識別子の出現数に関する情報である出現関連情報を用いた条件とを格納しており、
出現関連情報取得部、判断部、音声データ取得部、学習部、および音響モデル構築部により実現される音響モデル構築方法であり、
前記出現関連情報取得部が、前記記憶媒体に格納されている各連続音素識別子の出現関連情報、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得ステップと、
前記判断部が、前記出現関連情報取得ステップで取得された各出現関連情報を、前記記憶媒体の条件に適用し、出現関連情報が前記条件を満たすか否かを判断する判断ステップと、
前記音声データ取得部が、出現関連情報が前記条件を満たすと前記判断ステップで判断された１以上の各連続音素識別子に対応する連続音素識別子と対になる波形データを、前記記憶媒体から取得する音声データ取得ステップと、
前記学習部が、前記音声データ取得ステップで取得された１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすと前記判断ステップで判断された連続音素識別子とを有する１以上の他言語連続音素情報を取得する学習ステップと、
前記音響モデル構築部が、前記記憶媒体の音響モデルと、前記学習ステップで取得された１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築ステップとを具備する音響モデル構築方法。
記憶媒体に、
一または連続する２以上の音素である連続音素を識別する１以上の連続音素識別子と当該１以上の連続音素の１以上の特徴量とを含む一連音素情報を２以上有する一の言語の音響モデルと、
１以上の他の言語ごとに、前記一の言語とは異なる１以上の他の言語の連続音素の波形データと、当該各波形データに対応付けられた連続音素の連続音素識別子とを有する音声データと、
連続音素識別子の出現数に関する情報である出現関連情報を用いた条件とを格納しており、
コンピュータを、
前記記憶媒体に格納されている各連続音素識別子の出現関連情報、または前記一の言語の音響モデルが取得される元になる一の言語の音声データから各連続音素識別子の出現関連情報を取得する出現関連情報取得部と、
前記出現関連情報取得部が取得した各出現関連情報を、前記記憶媒体の条件に適用し、出現関連情報が前記条件を満たすか否かを判断する判断部と、
出現関連情報が前記条件を満たすと前記判断部が判断した１以上の各連続音素識別子に対応する連続音素識別子と対になる波形データを、前記記憶媒体から取得する音声データ取得部と、
前記音声データ取得部が取得した１以上の各波形データから１以上の特徴量を取得し、当該１以上の特徴量と前記条件を満たすと前記判断部が判断した連続音素識別子とを有する１以上の他言語連続音素情報を取得する学習部と、
前記記憶媒体の音響モデルと、前記学習部が取得した１以上の他言語連続音素情報とを有する新たな音響モデルを構成する音響モデル構築部として機能させるためのプログラム。