JP4654452B2

JP4654452B2 - 音響モデル生成装置、およびプログラム

Info

Publication number: JP4654452B2
Application number: JP2005254424A
Authority: JP
Inventors: 繁樹松田; ヘルボートウォルフガング; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-09-02
Filing date: 2005-09-02
Publication date: 2011-03-23
Anticipated expiration: 2025-09-02
Also published as: JP2007065533A

Description

本発明は、音声認識等に利用する音響モデルを生成する装置等に関するものである。

近年、様々な発話スタイルの音響的な振る舞いの解析、また、これらの変動に頑健な音響モデルや言語モデルを推定するため、「日本語話し言葉コーパス」に代表される大規模な音声データベースの収録が広く行われている。ここでは、高精度な音声認識を実現するためには、クリッピングや突発性雑音を含まない音声波形と、精密な書き起こしテキストを用いて音響モデルを推定することが重要である。

しかしながら、データベースの規模が増大するに従い、突発性雑音や誤り記述などの異常データ（Ｏｕｔｌｉｅｒ）の数も同様に増加する。実環境において音声を収録する場合、クリッピングや突発性雑音を、完全に抑えることは非常に困難である。さらに、精密な書き起こしテキストを得るための作業は、人手に頼らざるを得ず、高価かつ時間の掛る作業である。

書き起こしテキストを持たない大規模音声データベースを音声認識し、その認識結果から信頼度の高い単語を音響モデルの学習に用いる手法（Unsupervised Training法）が存在する（「非特許文献１」参照）。また、字幕などの必ずしも正確とは言えないテキストによって適応された言語モデルを用いて音声認識を行ない、信頼度の高い単語を抽出する手法が存在する（「非特許文献２」参照）。これらの手法は、個々の単語の信頼度を計算することによって、単語毎に音響モデル推定に利用可能であるか判定している。
F． Wessel and H． Ney、"Unsupervised training of acoustic models for large vocabulary continuous speech recognition、" IEEE Transactions on Speech and Audio Processing、vol． 13、 no． 1、 pp． 23-31、 2005． L． Nguyen and B． Xiang、 "Light supervision in acoustic model training、" in Proc． Eurospeech、 vol． 3、 pp． 1837-1840、 2003．

しかしながら、上記の従来技術において、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データに対して、その単語全体が学習データから削除される、さらに、異常データを含む音声データが音響モデルの学習に用いられる、という課題があった。

本第一の発明の音響モデル生成装置は、確率モデルである音響モデルを格納している音響モデル格納部と、第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報を格納している第一特徴ベクトル情報格納部と、モデルの構造に関する情報であるモデル構造情報を格納しているモデル構造情報格納部と、第二の音声を受け付ける音声受付部と、前記音響モデルに基づいて、前記第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を２以上取得する特徴ベクトル情報取得部と、前記音響モデルと、少なくとも前記第一特徴ベクトルを含む評価対象の２以上の特徴ベクトル情報に基づいて、モデルパラメータを算出するモデルパラメータ算出部と、前記特徴ベクトル情報取得部が取得した２以上の第二特徴ベクトル情報と、前記モデル構造情報と前記モデルパラメータを有するモデルとの距離を、前記第二特徴ベクトル情報ごとに算出する距離算出部と、前記距離算出部が算出した距離に基づいて、前記特徴ベクトル情報取得部が取得した２以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する判断部と、前記判断部が最近の処理において正常データであると判断した第二特徴ベクトル情報、および前記第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、前記モデルパラメータ算出部にモデルパラメータの算出を指示し、かつ前記距離算出部、および前記判断部に、前記各部の前記所定の動作を行うように指示する制御部と、前記制御部の指示による繰り返し動作を終了するか否かを判断する終了判断部と、前記終了判断部が繰り返し動作を終了すると判断した場合、前記モデルパラメータ算出部が最後に算出したモデルパラメータを出力する出力部を具備する音響モデル生成装置である。
かかる構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが生成できる。

また、本第二の発明の音響モデル生成装置は、第一の発明に対して、前記モデル構造情報は、ＨＭＭ状態を示す情報であり、前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトルである音響モデル生成装置である。

また、本第三の発明の音響モデル生成装置は、第一の発明に対して、前記モデル構造情報は、ＨＭＭ状態を示す情報であり、前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である音響モデル生成装置である。

また、本第四の発明の音響モデル生成装置は、第一の発明に対して、前記モデル構造情報は、音素ＨＭＭを示す情報であり、前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である音響モデル生成装置である。
かかる第二から第四の発明の構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが生成できる。

また、本第五の発明の音響モデル生成装置は、第一から第四いずれかの発明に対して、前記終了判断部は、予め決められた回数だけ、前記制御部の指示による繰り返し動作を行った場合に、前記繰り返し動作を終了すると判断する音響モデル生成装置である。
かかる構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが生成でき、かつ少ない処理量音響モデルが生成できる。

また、本第六の発明の音響モデル生成装置は、第一から第五いずれかの発明に対して、前記判断部は、予め決められた割合に適合するように、当該第二特徴ベクトル情報中の正常データおよび異常データを決定する音響モデル生成装置である。
かかる構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが、精度高く生成できる。

本発明による音響モデル生成装置によれば、誤り音素記述や突発性雑音など単語中の一部分だけに異常データが存在する場合において、その単語中の一部の異常データのみを学習データから削除できる。さらに、異常データを含む音声データが音響モデルの学習に用いられる可能性を回避できる。

以下、音響モデル生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）
図１は、本実施の形態における音響モデル生成装置のブロック図である。

本音響モデル生成装置は、音響モデル格納部１０１、第一特徴ベクトル情報格納部１０２、モデル構造情報格納部１０３、音声受付部１０４、第一特徴ベクトル情報取得部１０５、第一特徴ベクトル情報蓄積部１０６、特徴ベクトル情報取得部１０７、モデルパラメータ算出部１０８、距離算出部１０９、判断部１１０、制御部１１１、終了判断部１１２、出力部１１３を具備する。音声受付部１０４は、第一音声受付手段１０４１、第二音声受付手段１０４２を具備する。また、本音響モデル生成装置は、音声受付部１０４に音声を入力するマイク３０５や、ハードディスク３０１７を有しても良い。さらに、本音響モデル生成装置は、出力部１１３の出力対象であるディスプレイ３０４や、ハードディスク３０１７を有しても良い。なお、音声を入力するハードディスク３０１７と、出力対象であるハードディスク３０１７は、同じハードディスクでも、異なるハードディスクでも良い。

音響モデル格納部１０１は、隠れマルコフモデル（以下、適宜「ＨＭＭ」と言う。）などの確率モデルである音響モデルを格納している。音響モデルは、混合ガウス分布を持つ状態の情報と状態遷移確率の情報から構成されているＨＭＭの情報である。音響モデルは、例えば、一のファイルに格納されているデータである。音響モデル格納部１０１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第一特徴ベクトル情報格納部１０２は、第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報を格納している。第一の音声は、音響モデルを新たに生成するために前もって学習しておくための音声データである。第一特徴ベクトル情報は、第一の音声から構成される特徴ベクトル情報の集合であり、以下、適宜、「基本学習データ」とも言う。基本学習データは、通常、信頼できるデータである。「信頼できるデータ」とは、電気的な雑音や突発性雑音を含まない音声ファイル、および精密かつ正確に記述された(単語や音素による)書き起こしテキストを持つ音声データベースのことである。また、第一の音声は、マイクから取得されても良いし、磁気テープやＣＤ等の光ディスクやハードディスク等の記録媒体から読み出されても良い。第一特徴ベクトル情報は、基本学習データをＶｉｔｅｒｂｉアラインメントして得られる特徴ベクトルの集合である。第一特徴ベクトル情報は、特徴ベクトルの集合の場合もあるし、特徴ベクトル時系列の集合の場合もある。なお、第一特徴ベクトル情報が特徴ベクトルの集合である場合、後述する正常データか異常データかの判断対象の単位が一の特徴ベクトルである。また、第一特徴ベクトル情報が特徴ベクトル時系列の集合である場合、後述する正常データか異常データかの判断対象の単位が一の特徴ベクトル時系列である。音声は、Ｖｉｔｅｒｂｉアラインメントにより、１以上の特徴ベクトル、および１以上の特徴ベクトル時系列が取得され得る。Ｖｉｔｅｒｂｉアラインメントは、公知の技術であるので説明を省略する。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。また、特徴ベクトルは、上記に限られず、例えば、フィルタバンクのチャネル数は２０で、１２ＭＦＣＣｓとデルタパラメータ、デルタパワーの計２５次元等でも良い。第一特徴ベクトル情報格納部１０２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

モデル構造情報格納部１０３は、モデルの構造に関する情報であるモデル構造情報を格納している。モデルの構造は、ここでは、「ＨＭＭ状態」、または「音素ＨＭＭ」である。モデル構造情報は、モデルの構造を示す情報であり、例えば、文字列「ＨＭＭ状態」、または文字列「音素ＨＭＭ」である。また、モデル構造情報は、ＨＭＭ状態を示す識別子（例えば、「１」）、音素ＨＭＭを示す識別子（例えば、「０」）などでも良い。モデル構造情報は、例えば、本音響モデル生成装置を使用するユーザが、本音響モデル生成装置に対して与える。なお、モデル構造情報の与えられ方は問わない。モデル構造情報格納部１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

音声受付部１０４は、ここでは、第一の音声、および第二の音声を受け付ける。ただし、音声受付部１０４は、第二の音声のみを受け付けても良い。第二の音声は、音響モデルを新たに生成する元になるデータである。本音響モデル生成装置は、第二の音声から上手く異常データを取り除いて、新たに音響モデルを生成する装置である。第二の音声等の入力手段は、マイクや記録媒体からの読み出し等、何でも良い。音声受付部１０４は、マイク等の入力手段のデバイスドライバーや、記録媒体からのデータ読み出し制御のソフトウェア等で実現され得る。なお、音声受付部１０４を構成する第一音声受付手段１０４１は、第一の音声を受け付ける。第二音声受付手段１０４２は、第二の音声を受け付ける。

第一特徴ベクトル情報取得部１０５は、音響モデルに基づいて、第一音声受付手段１０４１が受け付けた第一の音声をＶｉｔｅｒｂｉアラインメントして、第一特徴ベクトル情報の集合を取得する。第一特徴ベクトル情報取得部１０５は、通常、ＭＰＵやメモリ等から実現され得る。第一特徴ベクトル情報取得部１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第一特徴ベクトル情報蓄積部１０６は、第一特徴ベクトル情報取得部１０５が取得した第一特徴ベクトル情報を第一特徴ベクトル情報格納部１０２に、少なくとも一時的に蓄積する。第一特徴ベクトル情報蓄積部１０６は、通常、ＭＰＵやメモリ等から実現され得る。第一特徴ベクトル情報蓄積部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

特徴ベクトル情報取得部１０７は、音響モデル格納部１０１の音響モデルに基づいて、第二音声受付手段１０４２が受け付けた第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を２以上取得する。特徴ベクトル情報取得部１０７は、第一特徴ベクトル情報取得部１０５と同様、第二の音声をＶｉｔｅｒｂｉアラインメントして、第二特徴ベクトル情報を取得する。第二特徴ベクトル情報は、特徴ベクトルの集合または、特徴ベクトル時系列の集合である。なお、第二特徴ベクトル情報が特徴ベクトルの集合である場合、後述する正常データか異常データかの判断対象の単位が一の特徴ベクトルである。また、第二特徴ベクトル情報が特徴ベクトル時系列の集合である場合、後述する正常データか異常データかの判断対象の単位が一の特徴ベクトル時系列である。第二特徴ベクトル情報は、以下、「追加学習データ」と、適宜、言う。特徴ベクトル情報取得部１０７は、通常、ＭＰＵやメモリ等から実現され得る。特徴ベクトル情報取得部１０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

モデルパラメータ算出部１０８は、音響モデル格納部１０１の音響モデルと、少なくとも第一特徴ベクトルを含む評価対象の２以上の特徴ベクトル情報に基づいて、モデルパラメータを算出する。モデルパラメータ算出部１０８は、例えば、ＨＭＭに対してＥＭ法を適用したアルゴリズムであるＢＷアルゴリズムにより、モデルパラメータを算出する。なお、ベージアンネットのモデルパラメータをモデルパラメータ算出部１０８で算出しても良い。ＥＭ法、およびＢＷアルゴリズム、ページアンネットは公知技術であるので説明は省略する。また、モデルパラメータとは、学習データの統計的な性質を表すパラメータ(例えば、平均や分散，状態遷移確率など)の集合である。さらに、モデルパラメータのデータ構造は、ＨＭＭである。モデルパラメータ算出部１０８は、通常、ＭＰＵやメモリ等から実現され得る。モデルパラメータ算出部１０８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

距離算出部１０９は、特徴ベクトル情報取得部１０７が取得した２以上の第二特徴ベクトル情報と、モデルとの距離を、第二特徴ベクトル情報ごとに算出する。ここで、モデルとは、モデル構造情報格納部１０３のモデル構造情報モデルパラメータ算出部１０８が算出したモデルパラメータを有する情報のことである。また、モデル構造情報は、例えば、「ＨＭＭ状態」や「音素ＨＭＭ」などである。また、ここで、距離とは、例えば、モデル中に第二特徴ベクトル情報が現れる確率をパラメータとする減少関数の演算結果である。距離算出部１０９は、例えば、フォワード法により距離を算出する。フォワード法は、公知技術であるので説明を省略する。距離算出部１０９は、通常、ＭＰＵやメモリ等から実現され得る。距離算出部１０９の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

判断部１１０は、距離算出部１０９が算出した距離に基づいて、特徴ベクトル情報取得部１０７が取得した２以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する。判断部１１０は、例えば、予め決められた割合に適合するように、当該第二特徴ベクトル情報中の正常データおよび異常データを決定する。この予め決められた割合を、以下、適宜「削減率」という。削減率は、全体の第二特徴ベクトル情報中に、異常データが占める割合である。判断部１１０は、距離算出部１０９が算出した距離が、予め決められた閾値以上である場合に、当該特徴ベクトル情報を異常データと判断し、閾値未満の場合に、当該特徴ベクトル情報を正常データと判断しても良い。なお、閾値を示すデータは、予め判断部１１０が保持している。判断部１１０は、通常、ＭＰＵやメモリ等から実現され得る。判断部１１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

制御部１１１は、判断部１１０が最近の処理において正常データであると判断した第二特徴ベクトル情報、および第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、モデルパラメータ算出部１０８にモデルパラメータの算出を指示し、かつ距離算出部１０９、および判断部１１０に、各部の所定の動作を行うように指示する。各部の所定の動作とは、距離算出部１０９の上述した動作、および判断部１１０の上述した動作である。制御部１１１および後述する終了判断部１１２の処理により、モデルパラメータ算出部１０８、距離算出部１０９、および判断部１１０の動作は繰り返し行われる。かかる繰り返しの動作を「繰り返し動作」という。繰り返し動作は、終了判断部１１２が、繰り返し動作を終了すると判断するまで繰り返される。制御部１１１は、かかる繰り返し動作を司る。つまり、制御部１１１は、ループ処理を行う。なお、制御部１１１は、本音響モデル生成装置がループ処理を行えば、必ずしも、明示的にモデルパラメータ算出部１０８等に指示する（メッセージ送信など）を行う必要はない。また、最近の処理とは、繰り返し動作において、現時点での最終の処理のことである。また、評価対象の特徴ベクトル情報は、繰り返し動作でループする間、通常、変化する。ループする間、通常、第二特徴ベクトル情報が変化するからである。制御部１１１は、通常、ＭＰＵやメモリ等から実現され得る。制御部１１１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

終了判断部１１２は、制御部１１１の指示による繰り返し動作を終了するか否かを判断する。終了判断部１１２は、例えば、予め決められた回数（例えば、１０回）だけ、制御部１１１の指示による繰り返し動作を行った場合に、繰り返し動作を終了すると判断する。また、終了判断部１１２は、最近に算出されたモデルパラメータと、一つ前に算出されたモデルパラメータとの差が所定の差以内（例えば、「０」）である場合に、繰り返し動作を終了すると判断しても良い。最近に算出されたモデルパラメータと、一つ前に算出されたモデルパラメータとの差が０である場合、モデルパラメータが動いておらず、収束したことを示す。終了判断部１１２は、通常、ＭＰＵやメモリ等から実現され得る。終了判断部１１２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１１３は、終了判断部１１２が繰り返し動作を終了すると判断した場合、モデルパラメータ算出部１０８が最後に算出したモデルパラメータを出力する。出力とは、記録媒体への蓄積、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。出力部１１３は、ディスプレイや記録媒体等のデバイスを含むと考えても含まないと考えても良い。出力部１１３は、デバイスのドライバーソフトまたは、デバイスのドライバーソフトとデバイス等で実現され得る。
次に、音響モデル生成装置の動作について図２のフローチャートを用いて説明する。
（ステップＳ２０１）第一特徴ベクトル情報取得部１０５は、音響モデル格納部１０１に格納されているＨＭＭの音響モデルを読み込む。
（ステップＳ２０２）第一音声受付手段１０４１は、第一の音声を受け付けたか否かを判断する。第一の音声を受け付ければステップＳ２０３に行き、第一の音声を受け付けなければステップＳ２０２に戻る。

（ステップＳ２０３）第一特徴ベクトル情報取得部１０５は、ステップＳ２０１で読み込んだ音響モデルに基づいて、ステップＳ２０２で受け付けた第一の音声をＶｉｔｅｒｂｉアラインメントして、第一特徴ベクトル情報の集合を取得する。

（ステップＳ２０４）第一特徴ベクトル情報取得部１０５は、ステップＳ２０３で取得した第一特徴ベクトル情報の集合を第一特徴ベクトル情報格納部１０２に蓄積する。この蓄積は、一時的な蓄積でも良いことは言うまでもない。

（ステップＳ２０５）第二音声受付手段１０４２は、第二の音声を受け付けたか否かを判断する。第二の音声を受け付ければステップＳ２０６に行き、第二の音声を受け付けなければステップＳ２０５に戻る。なお、例えば、第一の音声、および第二の音声は、講演で講演者から発声される音声であり、第一の音声は、講演の前半部の音声、第二の音声は、講演の後半部の音声である。

（ステップＳ２０６）特徴ベクトル情報取得部１０７は、ステップＳ２０１で読み込んだ音響モデルに基づいて、ステップＳ２０５で受け付けた第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報の集合を取得する。
（ステップＳ２０７）特徴ベクトル情報取得部１０７は、ステップＳ２０６で取得した第二特徴ベクトル情報の集合を図示しない手段に蓄積する。この蓄積は、一時的な蓄積でも良いことは言うまでもない。

（ステップＳ２０８）モデルパラメータ算出部１０８は、評価対象の特徴ベクトル情報の集合を取得する。ここで、取得する評価対象の特徴ベクトル情報の集合は、例えば、第一特徴ベクトルの集合のみである。また、評価対象の特徴ベクトル情報の集合は、例えば、第一特徴ベクトルの集合と、第二特徴ベクトルの集合でも良い。
（ステップＳ２０９）モデルパラメータ算出部１０８は、音響モデル格納部１０１の音響モデルと、ステップＳ２０８で取得した評価対象の２以上の特徴ベクトル情報に基づいて、モデルパラメータを算出する。
（ステップＳ２１０）距離算出部１０９は、カウンタｉに１を代入する。

（ステップＳ２１１）距離算出部１０９は、ｉ番目の第二特徴ベクトル情報が存在するか否かを判断する。ｉ番目の第二特徴ベクトル情報が存在すればステップＳ２１２に行き、ｉ番目の第二特徴ベクトル情報が存在しなければステップＳ２１５に行く。
（ステップＳ２１２）距離算出部１０９は、ｉ番目の第二特徴ベクトル情報と、モデル構造情報格納部１０３のモデル構造情報とステップＳ２０９で取得したモデルパラメータを有するモデルとの距離を算出する。
（ステップＳ２１３）距離算出部１０９は、ｉ番目の第二特徴ベクトル情報に対応付けて、ステップＳ２１２で算出した距離を一時蓄積する。
（ステップＳ２１４）距離算出部１０９は、カウンタｉを１、インクリメントし、ステップＳ２１１に戻る。
（ステップＳ２１５）判断部１１０は、距離をキーとして、第二特徴ベクトル情報群の中で、距離の近い方から、例えば、９９．５％を選択する。

（ステップＳ２１６）判断部１１０は、例えば、ステップＳ２１５で選択した上位９９．５％を正常データの第二特徴ベクトル情報とし、下位０．５％を異常データの第二特徴ベクトル情報とする。そして、判断部１１０は、各第二特徴ベクトル情報に対応付けて、正常データか異常データかを示すラベルを付与する。ラベルは、例えば、正常データが「１」、異常データが「０」である。また、ソートした上位９９．５％を正常データの第二特徴ベクトル情報とし、下位０．５％を異常データの第二特徴ベクトル情報とする場合、削減率が「０．５％」である、とする。

（ステップＳ２１７）終了判断部１１２は、処理を終了するか否かを判断する。終了判断部１１２は、例えば、モデルパラメータ算出部１０８が、ループにより、１０回、モデルパラメータを算出した場合に、処理を終了する、と判断する。また、終了判断部１１２は、例えば、ステップＳ２１７を５回通過した後、６回目の通過の時点で、処理を終了する、と判断しても良い。また、終了判断部１１２は、例えば、最後にステップＳ２０９で算出したモデルパラメータと、その前のループにより算出したモデルパラメータとを比較し、同じ場合に処理を終了する、と判断しても良い。さらに、終了判断部１１２は、例えば、最後にステップＳ２０９で算出したモデルパラメータと、その前のループにより算出したモデルパラメータとを比較し、所定以内の差である場合に処理を終了する、と判断しても良い。ここで、「所定以内の差」とは、一般的には，個々の学習データに対する確率の積（学習データに対するモデルの尤度)の差である。直前に推定されたモデルパラメータをＨ（ｎ−１）、新たに推定されたモデルパラメータをＨ（ｎ）とした場合、各々の尤度は以下の様に計算される。そして，これらの尤度の差（Ｌ（ｎ）−Ｌ（ｎ−１））が、予め設定した値以下の場合に、推定処理を終了する。なお、「Ｐｒｏｄ」は，「ｐｒｏｄｕｃｔ」を意味する。
そして、終了判断部１１２が処理を終了すると判断した場合、ステップＳ２１９に行き、終了判断部１１２が処理を終了しないと判断した場合、ステップＳ２１８に行く。

（ステップＳ２１８）モデルパラメータ算出部１０８は、評価対象の特徴ベクトル情報の集合を取得する。評価対象の特徴ベクトル情報の集合は、ここでは、正常データのラベルが付された第二特徴ベクトル情報と、第一特徴ベクトル情報である。本ステップの処理終了後、ステップＳ２０９に戻る。

（ステップＳ２１９）出力部１１３は、モデルパラメータ算出部１０８が最後に算出したモデルパラメータを出力する。このモデルパラメータは、ステップＳ２０９で算出した最後のモデルパラメータである。本ステップの処理終了後、処理を終了する。

なお、図２のフローチャートにおいて、第一特徴ベクトル情報の集合は、予め第一特徴ベクトル情報格納部１０２に格納されていても良い。かかる場合、ステップＳ２０２、Ｓ２０３，Ｓ２０４の処理は、不要である。また、かかる場合、第一特徴ベクトル情報の集合を読み込む処理は、別途、必要である。

以下、本実施の形態における音響モデル生成装置の具体的な動作について説明する。本音響モデル生成装置は、最尤法を基礎とした異常データ検出手法によって、受け付けた音声から異常データを除去し、正常データのみを採用し、当該正常データから音響モデルを生成する装置である。本音響モデル生成装置は、任意の確率モデルμと、長さＴｉの特徴ベクトル時系列Ｘｉ＝（ｘｉ、１、・・・、ｘｉ、Ｔｉ）から構成された追加学習データＷに対して適用することができる。また、追加学習データは特徴ベクトル時系列の集合である。

今、音響モデル格納部１０１の音響モデルは、混合ガウス分布を持つ状態と状態遷移確率から構成されている。音響モデルは、隠れマルコフモデル（ＨＭＭ）、混合ガウスモデル（ＧＭＭ）、ベージアンネットなど、任意の確率モデルである。
また、ここで、講演者が、講演を開始する、とする。
まず、本音響モデル生成装置の第一特徴ベクトル情報取得部１０５は、音響モデル格納部１０１に格納されているＨＭＭの音響モデルを読み込む。

そして、本音響モデル生成装置は、講演者の講演を、例えば、３０分間、受け付け、本音響モデル生成装置の第一特徴ベクトル情報取得部１０５が、読み込んだ音響モデルに基づいて、当該３０分間の音声（第一の音声）をＶｉｔｅｒｂｉアラインメントし、第一特徴ベクトル情報を得る。第一特徴ベクトル情報（音響特徴量の集合）の例を図３に示す。図３は、講演者が「はい、そうです」と発声した場合の、音響特徴量を示す。図３の音響特徴量は、１ｓｔＭＦＣＣ、２ｎｄＭＦＣＣ、３ｒｄＭＦＣＣ、４ｔｈＭＦＣＣの４つのＭＦＣＣである。また、図３において、横軸は発話開始からの絶対時間（ｍｓ）、縦軸は各音響特徴量の値である。そして、第一特徴ベクトル情報取得部１０５は、図３に示す第一特徴ベクトル情報の集合を第一特徴ベクトル情報格納部１０２に蓄積する。なお、第一の音声は、基本学習データである。

次に、講演開始から３０分以降、６０分までの間、第二音声受付手段１０４２は、音声を受け付ける。かかる音声が第二の音声である。なお、ここでは、第一音声受付手段１０４１と第二音声受付手段１０４２は、通常、物理的に一の手段である。

次に、特徴ベクトル情報取得部１０７は、読み込んだ音響モデルに基づいて、受け付けた第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報の集合を取得する。この第二特徴ベクトル情報の集合も、図３に示すのと同様の構造を有するデータである。特徴ベクトル情報取得部１０７は、第二特徴ベクトル情報の集合を蓄積する。

次に、モデルパラメータ算出部１０８は、評価対象の特徴ベクトル情報の集合（ここでは、第一特徴ベクトル情報の集合）を取得する。そして、モデルパラメータ算出部１０８は、ＢＷアルゴリズムにより、第一特徴ベクトル情報の集合からモデルパラメータ（θ_１）を算出する。算出したモデルパラメータと状態の関係を表した図の例を、図４に示す。図４において、「ｓ」は状態、「ａ」は状態遷移確率、「ｂ」は状態出力確率分布である。つまり、図４において、「Ｓ_１」「Ｓ_２」「Ｓ_３」は状態、「ａ_０１」「ａ_１１」「ａ_１２」「ａ_２２」「ａ_２３」「ａ_３４」は状態遷移確率、「ｂ_１」「ｂ_２」「ｂ_３」は状態出力確率分布である。モデルパラメータ（θ_１）は、図４において、「ａ_０１」「ａ_１１」「ａ_１２」「ａ_２２」「ａ_２３」「ａ_３３」「ａ_３４」、および「ｂ_１」「ｂ_２」「ｂ_３」の集合である。なお、状態出力確率は、例えば、混合ガウス分布である。また、θ_１は、最初に算出されたモデルパラメータである。

次に、距離算出部１０９は、モデルパラメータ算出部１０８が算出したモデルパラメータ（θ_１）とモデル構造情報格納部１０３のモデル構造を有するモデルに対する、各第二特徴ベクトル情報の出現確率（ｄ（ｋ）_１）を算出する。ここで、第二特徴ベクトル情報は、特徴ベクトル時系列である、とする。

ｄ（ｋ）_１は、数式２により算出される。また、第二特徴ベクトル情報は、特徴ベクトル時系列（例えば、特徴ベクトル時系列を「Ｘｉ＝（ｘｉ、１、・・・、ｘｉ、Ｔｉ）」とする）であるので、数式３に示すように、第二特徴ベクトル情報ごとに、最大の確率の積が得られる学習データＵを選択し、かかる学習データＵの最大の確率の積を出現確率とする。

ここで、Ｐ（ｘ_ｋ，１，ｘ_ｋ，２，・・・・・，ｘ_ｋ，Ｔｋ）は、モデル（θ_１）に対する特徴ベクトル時系列の確率を意味する。また、ｈは、特徴ベクトルの個数である。なお、最大の確率の積が得られる学習データＵを選択する問題は、Ｋｎａｐｓａｃｋ問題と同じであり、動的計画法により効率的に解くことができる。数式２の第２番目の式の左辺（Ｕハット）が、最大の確率の積が得られる学習データである。なお、動的計画法は、公知技術であるので説明を省略する。
そして、距離算出部１０９は、例えば、出現確率（ｄ（ｋ）_１）を距離として、算出する。

また、距離算出部１０９が出現確率を算出する場合の概念図を図５に示す。図５において、特徴ベクトル時系列（ＦｅａｔｕｒｅＶｅｃｔｏｒＳｅｑｕｅｎｃｅｓ）が長さ（Ｌｅｎｇｔｈ）「Ｌ」の特徴ベクトルを有する場合（特徴ベクトル時系列により長さは異なり得る）、上述した動的計画法により、確率の積が最大となるように特徴ベクトル時系列を選択し、当該最大の積を出現確率とする。つまり、図５は、数式１の説明となる。図５において、各特徴ベクトル時系列の出現確率「Ｐｒｏｂａｂｉｌｉｔｙ」は、Ｋｎａｐｓａｃｋ問題の解法である動的計画法により算出することを示す。
そして、距離算出部１０９は、算出した距離と、各第二特徴ベクトル情報を対応づけて蓄積する。かかる距離算出等の処理を、全第二特徴ベクトル情報に対して行う。
そして、ここで、削減率「０．５％」である、とする。そして、判断部１１０は、距離をキーとして、距離が小さい９９．５％の第二特徴ベクトル情報を選択する。

そして、判断部１１０は、例えば、選択した上位９９．５％を正常データの第二特徴ベクトル情報とし、下位０．５％を異常データの第二特徴ベクトル情報として、正常データには「１」を、異常データには「０」のデータ（ラベル）を付加する。

次に、終了判断部１１２は、処理を終了するか否かを判断する。ここで、処理終了の条件は、例えば、処理終了の判断の回数が１０回まで、とする。つまり、ここでは、処理終了の判断は、１回目の判断であるので、処理を終了しない。なお、終了判断部１１２は、処理終了の判断を１回行うごとに、カウンタを１、インクリメントする（カウンタの初期値は、１である）。

次に、モデルパラメータ算出部１０８は、第二特徴ベクトル情報の集合の中で、正常データには「１」のラベルが付された第二特徴ベクトル情報と、第一特徴ベクトル情報の集合を、次の評価対象の特徴ベクトル情報の集合とし、取得する。
次に、制御部１１１は、モデルパラメータ算出部１０８にモデルパラメータの算出を指示する。

次に、モデルパラメータ算出部１０８は、音響モデル格納部１０１の音響モデルと、先に取得した評価対象の特徴ベクトル情報の集合（正常データには「１」のラベルが付された第二特徴ベクトル情報と、第一特徴ベクトル情報の集合）に基づいて、上記と同様に、ＢＷアルゴリズムにより、モデルパラメータ（θ_２）を算出する。

次に、制御部１１１は、距離算出部１０９、および判断部１１０に、各部の所定の動作を行うように指示する。なお、かかる指示は、実際に指示しなくとも（メッセージ送信など行わなくとも）、距離算出部１０９、および判断部１１０が所定の処理を行えば、制御部１１１が指示をしたと考えることとする。例えば、実際に指示しない場合、制御部１１１は、モデルパラメータ算出部１０８、距離算出部１０９、および判断部１１０の一連の処理をループさせる制御等を行い、指示するのと同様の動作を結果として行うからである。
そして、１０回モデルパラメータが算出され、最終的にモデルパラメータ（θ_１０）が得られる。

そして、終了判断部１１２は、処理を終了すると、判断する。出力部１１３は、モデルパラメータ算出部１０８が最後に算出したモデルパラメータ（θ_１０）を、例えば、予め決められたファイルに出力する。モデルパラメータ（θ_１０）のデータ例は、例えば、図４である。

以下、本音響モデル生成装置が生成した音響モデルを用いて音声認識性能を確認する実験について述べる。この実験は、日本語大語彙連続音声認識実験である。本実験に使用した音声認識エンジンは、本出願人が開発した「ＡＴＲＡＳＲＶｅｒ３．３」という公知の音声認識エンジンである。

まず、以下の実験は、３つの手法で行った。３つの手法とは、手法Ａ、手法Ｂ、手法Ｃである。図６に、本音響モデル生成装置が行う３手法による処理であり、異常データに頑健な音響モデル推定法の処理の概念図を示す。手法Ａ（ＦｅａｔｕｒｅｖｅｃｔｏｒｓｏｎＨＭＭｓｔａｔｅ）は、モデル構造情報は、ＨＭＭ状態を示す情報であり、判断部１１０が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトルである場合である。手法Ａの場合、第一特徴ベクトル情報も、特徴ベクトルである。また、手法Ｂ（ＦｅａｔｕｒｅｖｅｃｔｏｒｓｅｑｕｅｎｃｅｓｏｎＨＭＭｓｔａｔｅ）は、モデル構造情報（Ｓｔｒａｇｅ構造の情報）は、ＨＭＭ状態を示す情報であり、判断部１１０が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報（検出単位）は、特徴ベクトル時系列である場合である。手法Ｂの場合、第一特徴ベクトル情報も、特徴ベクトル時系列である。手法Ｂは、状態を学習するために用いられる特徴ベクトル時系列の集合に対して異常データに頑健な推定が行われる。
さらに、手法Ｃ（ＦｅａｔｕｒｅｖｅｃｔｏｒｓｅｑｕｅｎｃｅｓｏｎｐｈｏｎｅｍｅＨＭＭ）は、音素ＨＭＭ（ＰｈｏｎｅｍｅＨＭＭ（ＨＭＭ状態系列））を学習するために用いられる特徴ベクトル時系列の集合に対して異常データに頑健な推定が行われる手法である。手法Ｃにおいて、モデル構造情報は、音素ＨＭＭを示す情報であり、判断部１１０が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である場合である。手法Ｃの場合、第一特徴ベクトル情報も、特徴ベクトル時系列である。なお、特徴ベクトルの集合は、学習データをＶｉｔｅｒｂｉアラインメントすることによって得られることは上述した通りである。

また、図６において、「Ｓｔｒａｇｅ」とは、学習データの集合Ｗのことである。図６において、「Ｓｔｒａｇｅ」の中で繋がっていないノードは特徴ベクトルであり、繋がっているノード群は、特徴ベクトル時系列である。手法Ａにおいて、モデル構造（Ｓｔｒａｇｅ構造）は、ＨＭＭ状態であり、判断部１１０が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報、および第一特徴ベクトル情報（「検出単位」とも言う。）は、特徴ベクトルである。ここでは、学習データはＨＭＭ状態毎にＶｉｔｅｒｂｉアラインメントを行う、とする。従って、推定中に状態アラインメントが変化することは無い。

次に、本実験において、言語モデルの学習には、旅行会話基本表現集ＢＴＥＣ及び、自然発話音声、自然発話音声・言語データベースＳＤＢ、ＳＬＤＢ、ＬＤＢに含まれる６。１Ｍ単語を用いた。第１パスは多重クラス複合２−ｇｒａｍを使用し、第２パスでは単語３−ｇｒａｍを用いた。辞書サイズは３４ｋである。音響モデル学習用音声データは、ＡＴＲ旅行対話データベースである。４０７名が発話した対話及び、音素バランス５０３文（計２６３８０発話）である。評価用音声データとして、ＡＴＲ旅行会話基本表現集ＢＴＥＣｔｅｓｔｓｅｔ−０１（５１０文、男性４名、女性６名、各々５１文の発声データ）を用いた。

また、本実験において、誤り音素記述に対する頑健性を確認するため、人工的に生成した誤り音素記述を含む音声データベースを用いて推定された音響モデルの音声認識性能を評価した。モデル推定に用いた学習データの半分に、１０％の誤り音素記述が含まれている。この誤り記述は、乱数を用いて生成した。残りの半分のデータを用い、ＭＬ−ＳＳＳ法により１４００状態のＨＭｎｅｔ構造を生成した。各状態の混合数は５である。異常データの検出は、誤り記述を含む音声データベースからのみ行った。他方の誤り記述を含まない音声データベースからは異常データの検出は行わず、無条件でモデル推定に用いた。図７に学習データの削減率に対する、誤り音素記述の発見率を示す。図７に示すように、手法Ｂは、最も高い発見率を得た。図８に、単語誤り率を示す。手法Ａ及び、手法Ｂはデータ削減率２％、手法Ｃはデータ削減率４％において、各々、最も低い単語誤り率が得られた。誤り記述の発見率と同様、手法Ｂは、最も低い単語誤り率を得た。さらに、誤り記述を取り除いた学習データを用いて推定された音響モデル（Ｏｒａｃｌｅ）に近い認識性能が得られた。これらの結果から、たとえ音声データベースが誤り記述を含んでいたとしても、本音響モデル生成装置の手法を用いることによって精密な音響モデルを推定することが可能であることが分かる。なお、「Ｏｒａｃｌｅ」とは、理論的な限界性能を意味する。つまり、人工的に生成された誤り音素記述(Outlier)を含まない学習データを用いて推定された音響モデルの認識性能である。

次に、未知の異常データに対する頑健性を確認するため、全ての音響モデル学習用データに対して本音響モデル生成装置の手法を適用し、その音声認識性能の評価を行った。本実験で用いた音声データベースは、上記の実験で用いられたような人工的な誤り音素記述は含まれていない。状態共有構造として、全ての学習データを用いて生成した１４００状態のＨＭｎｅｔを用いた。各状態は、前の実験と同様、５混合である。図９に単語誤り率を示す。図９のように、全ての手法において、適切なデータ削減率を設定することによって、従来のＭＬ推定よりも低い単語誤り率が得られた。ＭＬ推定によって学習された音響モデルは７．１９％の単語誤り率であるのに対して、データ削減率０．５％の手法Ｃは６．８８％であり、４．３１％の誤り削減率が得られた。

以上、本実施の形態によれば、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データに対して、その単語中の一部の異常データのみを学習データから削除できる。さらに、異常データを含む音声データが音響モデルの学習に用いられる可能性を回避できる。特に、上述の手法Ｂによって推定された音響モデルは，誤り音素記述を除いて学習した音響モデルに近い単語正解精度が得られた。つまり、特に手法Ｂ（モデル構造情報は、ＨＭＭ状態を示す情報であり、判断部１１０が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である場合）は、有効である。
なお、本実施の形態によれば、モデル構造情報、および第二特徴ベクトル情報の組み合わせは、上記の手法Ａ、Ｂ、Ｃにおける組み合わせのいずれでも良い。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音響モデル生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響モデルを格納しており、第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報を格納しており、モデルの構造に関する情報であるモデル構造情報を格納しており、第二の音声を受け付ける音声受付ステップと、格納している音響モデルに基づいて、前記第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を２以上取得する特徴ベクトル情報取得ステップと、前記特徴ベクトル情報取得ステップで取得した２以上の第二特徴ベクトル情報と、格納しているモデル構造情報と前記モデルパラメータを有するモデルとの距離を、前記第二特徴ベクトル情報ごとに算出する距離算出ステップと、前記距離算出ステップで算出した距離に基づいて、前記特徴ベクトル情報取得ステップで取得した２以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する判断ステップと、前記判断ステップで最近の処理において正常データであると判断した第二特徴ベクトル情報、および前記第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、前記モデルパラメータ算出ステップ、前記距離算出ステップ、および前記判断ステップの動作を繰り返し、前記繰り返しの動作を終了するか否かを判断する終了判断ステップと、前記終了判断ステップで繰り返しの動作を終了すると判断した場合、前記モデルパラメータ算出ステップで最後に算出したモデルパラメータを出力する出力ステップを実行させるためのプログラム、である。

上記プログラムにおいて、前記モデル構造情報は、ＨＭＭ状態を示す情報であり、前記判断ステップで正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトルであっても良い。

上記プログラムにおいて、前記モデル構造情報は、ＨＭＭ状態を示す情報であり、前記判断ステップで正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列であっても良い。

上記プログラムにおいて、前記モデル構造情報は、音素ＨＭＭを示す情報であり、前記判断ステップで正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列であっても良い。
前記終了判断ステップにおいて、予め決められた回数だけ、前記繰り返し動作を行った場合に、前記繰り返し動作を終了すると判断することは好適である。
前記判断ステップにおいて、予め決められた割合に適合するように、当該第二特徴ベクトル情報中の正常データおよび異常データを決定することは好適である。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図１０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響モデル生成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１０は、このコンピュータシステム３００の概観図であり、図１１は、システム３００のブロック図である。

図１０において、コンピュータシステム３００は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４と、マイク３０５とを含む。

図１１において、コンピュータ３０１は、ＦＤドライブ３０１１、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１３と、ＣＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２及びＦＤドライブ３０１１に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３０１５と、ＣＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の音響モデル生成装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１、またはＦＤ３１０２に記憶されて、ＣＤ−ＲＯＭドライブ３０１２またはＦＤドライブ３０１１に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１、ＦＤ３１０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の音響モデル生成装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音響モデル生成装置等は、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データに対して、その単語中の一部の異常データのみを学習データから削除できる、という効果を有し、音声認識装置等に利用できる音響モデルを生成する音響モデル生成装置等として有用である。

実施の形態１における音響モデル生成装置のブロック図同音響モデル生成装置の動作について説明するフローチャート同第一特徴ベクトル情報の例を示す図同モデルパラメータの例を示す図同出現確率を算出する場合の概念図同音響モデル生成装置が行う３手法を説明する図同実験結果（誤り音素記述の発見率）を示す図同実験結果（単語誤り率）を示す図同実験結果（単語誤り率）を示す図同音響モデル生成装置の概観図同システムのブロック図

符号の説明

１０１音響モデル格納部
１０２第一特徴ベクトル情報格納部
１０３モデル構造情報格納部
１０４音声受付部
１０５第一特徴ベクトル情報取得部
１０６第一特徴ベクトル情報蓄積部
１０７特徴ベクトル情報取得部
１０８モデルパラメータ算出部
１０８モデル構造情報モデルパラメータ算出部
１０９距離算出部
１１０判断部
１１１制御部
１１２終了判断部
１１３出力部
１０４１第一音声受付手段
１０４２第二音声受付手段

Claims

確率モデルである音響モデルを格納している音響モデル格納部と、
第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報を格納している第一特徴ベクトル情報格納部と、
モデルの構造に関する情報であるモデル構造情報を格納しているモデル構造情報格納部と、
第二の音声を受け付ける音声受付部と、
前記音響モデルに基づいて、前記第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を２以上取得する特徴ベクトル情報取得部と、
前記音響モデルと、少なくとも前記第一特徴ベクトルを含む評価対象の２以上の特徴ベクトル情報に基づいて、モデルパラメータを算出するモデルパラメータ算出部と、
前記特徴ベクトル情報取得部が取得した２以上の第二特徴ベクトル情報と、前記モデル構造情報と前記モデルパラメータを有するモデルとの距離を、前記第二特徴ベクトル情報ごとに算出する距離算出部と、
前記距離算出部が算出した距離に基づいて、前記特徴ベクトル情報取得部が取得した２以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する判断部と、
前記判断部が最近の処理において正常データであると判断した第二特徴ベクトル情報、および前記第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、前記モデルパラメータ算出部にモデルパラメータの算出を指示し、かつ前記距離算出部、および前記判断部に、前記各部の前記所定の動作を行うように指示する制御部と、
前記制御部の指示による繰り返し動作を終了するか否かを判断する終了判断部と、
前記終了判断部が繰り返し動作を終了すると判断した場合、前記モデルパラメータ算出部が最後に算出したモデルパラメータを出力する出力部を具備する音響モデル生成装置。
前記モデル構造情報は、ＨＭＭ状態を示す情報であり、
前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトルである請求項1記載の音響モデル生成装置。
前記モデル構造情報は、ＨＭＭ状態を示す情報であり、
前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である請求項1記載の音響モデル生成装置。
前記モデル構造情報は、音素ＨＭＭを示す情報であり、
前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である請求項1記載の音響モデル生成装置。
記憶媒体に、
確率モデルである音響モデルと、第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報と、モデルの構造に関する情報であるモデル構造情報とを格納しており、
コンピュータに、
第二の音声を受け付ける音声受付ステップと、
前記音響モデルに基づいて、前記第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を２以上取得する特徴ベクトル情報取得ステップと、
前記特徴ベクトル情報取得ステップで取得した２以上の第二特徴ベクトル情報と、前記モデル構造情報と前記モデルパラメータを有するモデルとの距離を、前記第二特徴ベクトル情報ごとに算出する距離算出ステップと、
前記距離算出ステップで算出した距離に基づいて、前記特徴ベクトル情報取得ステップで取得した２以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する判断ステップと、
前記判断ステップで最近の処理において正常データであると判断した第二特徴ベクトル情報、および前記第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、前記モデルパラメータ算出ステップ、前記距離算出ステップ、および前記判断ステップを繰り返し、
前記繰り返しの動作を終了するか否かを判断する終了判断ステップと、
前記終了判断ステップで繰り返しの動作を終了すると判断した場合、前記モデルパラメータ算出ステップで最後に算出したモデルパラメータを出力する出力ステップを実行させるためのプログラム。