JP4682198B2

JP4682198B2 - 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体

Info

Publication number: JP4682198B2
Application number: JP2007521127A
Authority: JP
Inventors: 載小林; 聡一外山; 光弥駒村
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2005-03-30
Filing date: 2006-03-09
Publication date: 2011-05-11
Anticipated expiration: 2026-03-09
Also published as: EP1865496A1; EP1865496A4; WO2006112198A1; JPWO2006112198A1

Description

［技術分野］
［０００１］
この発明は、音声を認識する音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関する。ただし、この発明の利用は、上述した音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に限られない。
［背景技術］
［０００２］
音声認識で使用される音響モデルの１つに混合分布音響モデルがある。混合分布音響モデルはサブワード（音節・音韻などを表す単位）毎に複数の多次元正規分布（これら多次元正規分布の各々を要素分布という）と１つの分岐確率を有する。
［０００３］
混合分布音響モデルを使用する音声認識装置は、発話に対する音声特徴量を各サブワードの混合分布に代入し、サブワード別の尤度（サブワード尤度という）を求め、これらを基に辞書に登録された単語の尤度（単語尤度という）を求める。
［発明の開示］
［発明が解決しようとする課題］
［０００４］
しかしながら、属性（例えば話者の性別，発話環境など）によってサブワードの混合分布は異なるものであると考えられる。したがって、あらゆる属性の発話に対するサブワード尤度を１つの固定的な分岐確率により求めることは認識性能劣化につながると考えられる。
［課題を解決するための手段］
［０００５］
請求項１の発明にかかる音声認識装置は、異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識装置であって、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得手段と、前記取得手段によって取得された未知音声のスペクトル情報量に関する音響特徴量と、混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度（以下、「要素分布尤度」という）を算出する要素分布尤度算出手段と、前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更手段と、前記変更手段によって変更された分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、サブワードの尤度（以下、「サブワード尤度」という）を算出するサブワード尤度算出手段と、前記サブワード尤度算出手段によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識手段と、を備えることを特徴とする。
［０００６］
請求項３の発明にかかる音声認識方法は、異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識方法であって、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得工程と、前記取得工程によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度（以下、「要素分布尤度」という）を算出する要素分布尤度算出工程と、前記取得工程によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更工程と、前記変更工程によって変更された分岐確率と、前記要素分布尤度算出工程によって算出された要素分布尤度と、に基づいて、サブワードの尤度（以下、「サブワード尤度」という）を算出するサブワード尤度算出工程と、前記サブワード尤度算出工程によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識工程と、を含んだことを特徴とする。
［０００７］
請求項４の発明にかかる音声認識プログラムは、請求項３に記載の音声認識方法をコンピュータに実行させることを特徴とする。
［０００８］
請求項５の発明にかかる記録媒体は、請求項４に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記録媒体であることを特徴とする。
【図面の簡単な説明】
［図面の簡単な説明］
［０００９］
［図１］図１は、この発明の実施の形態にかかる音声認識装置のハードウェア構成を示すブロック図である。
［図２］図２は、この発明の実施の形態にかかる混合分布音響モデルを示す説明図である。
［図３］図３は、要素分布ＤＢの記憶内容の一例を示す説明図である。
［図４］図４は、分岐確率ＤＢの記憶内容の一例を示す説明図である。
【図５】図５は、この発明の実施の形態にかかる音声認識装置の機能的構成を示すブロック図である。
【図６】図６は、カテゴリー／ゾーンテーブルに関するグラフである。
【図７】図７は、ルックアップテーブルの記憶内容を示す説明図である。
【図８】図８は、実施例にかかる音声認識処理手順を示すフローチャートである。
【符号の説明】
【００１０】
１０９マイク
２００要素分布データベース
２１０分岐確率データベース
５００音声認識装置
５０１取得部
５０２要素分布尤度算出部
５０３分岐確率変更部
５０４サブワード尤度算出部
５０５認識部
５０６特定部
５０７重み付け処理部
５１０カテゴリー／ゾーンテーブル
５１１単語尤度算出部
５１２辞書
７００ルックアップテーブル
Ａ，Ｂ音響特徴量
Ｓ混合分布音響モデル
【発明を実施するための最良の形態】
【００１１】
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。
【００１２】
（音声認識装置のハードウェア構成）
図１は、この発明の実施の形態にかかる音声認識装置のハードウェア構成を示すブロック図である。図１において、音声認識装置は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、磁気ディスクドライブ１０４と、磁気ディスク１０５と、光ディスクドライブ１０６と、光ディスク１０７と、音声Ｉ／Ｆ（インターフェース）１０８と、マイク１０９と、スピーカ１１０と、入力デバイス１１１と、映像Ｉ／Ｆ１１２と、ディスプレイ１１３と、通信Ｉ／Ｆ（インターフェース）１１４と、を備えている。また、各構成部１０１〜１１３はバス１００によってそれぞれ接続されている。
【００１３】
ここで、ＣＰＵ１０１は、音声認識装置の全体の制御を司る。ＲＯＭ１０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される。磁気ディスクドライブ１０４は、ＣＰＵ１０１の制御にしたがって磁気ディスク１０５に対するデータのリード／ライトを制御する。磁気ディスク１０５は、磁気ディスクドライブ１０４の制御で書き込まれたデータを記憶する。磁気ディスク１０５としては、たとえば、ＨＤ（ハードディスク）やＦＤ（フレキシブルディスク）を用いることができる。
【００１４】
光ディスクドライブ１０６は、ＣＰＵ１０１の制御にしたがって光ディスク１０７に対するデータのリード／ライトを制御する。光ディスク１０７は、光ディスクドライブ１０６の制御にしたがって光ディスク１０７からデータの読み出される着脱自在な記録媒体である。光ディスク１０７は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク１０７のほか、ＭＯ、メモリーカードなどであってもよい。
【００１５】
また、音声Ｉ／Ｆ１０８は、音声入力用のマイク１０９および音声出力用のスピーカ１１０に接続される。マイク１０９に受音された音声は、音声Ｉ／Ｆ１０８内でＡ／Ｄ変換される。また、スピーカ１１０からは音声が出力される。また、入力デバイス１１１は、文字、数値、各種指示等の入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。
【００１６】
また、映像Ｉ／Ｆ１１２は、ディスプレイ１１３と接続される。映像Ｉ／Ｆ１１２は、具体的には、たとえば、ディスプレイ１１３全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記憶するＶＲＡＭ（ＶｉｄｅｏＲＡＭ）などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ１１３を表示制御する制御ＩＣなどによって構成される。
【００１７】
ディスプレイ１１３には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データが表示される。このディスプレイ１１３は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【００１８】
また、通信Ｉ／Ｆ１１４は、無線、あるいは通信ケーブルを介してネットワークに接続され、このネットワークとＣＰＵ１０１とのインターフェースとして機能する。ネットワークには、ＬＡＮ、ＷＡＮ、公衆回線網や携帯電話網等がある。
【００１９】
（混合分布音響モデルの構成）
つぎに、この発明の実施の形態にかかる混合分布音響モデルについて説明する。混合分布音響モデルは、各サブワード（音素や音節を表す単位）の分布が混合正規分布で表現された音響モデルである。
【００２０】
混合分布音響モデルは、サブワード毎に複数の多次元正規分布と１つの分岐確率を有する。具体的には、各サブワードに対応する複数の要素分布と１つの分岐確率が存在する。たとえば、サブワードがＮ種類，および混合数（１つの状態に対する要素分布の数を指す）Ｍである混合分布音響モデルは、全体として（Ｎ×Ｍ）個の要素分布と、Ｎ個の分岐確率を有する。
【００２１】
図２は、この発明の実施の形態にかかる混合分布音響モデルを示す説明図である。図２において、混合分布音響モデルＳは、属性数ｎの音響モデルＳ１〜Ｓｎから構成されている。各音響モデルＳ１〜Ｓｎは、ｍ種類のサブワードｓｗ１〜ｓｗｍごとに、要素分布（ｐ１１〜ｐｍ１、・・・、ｐ１ｎ〜ｐｍｎ）と分岐確率（ｗ１１〜ｗｍ１、・・・、ｗ１ｎ〜ｗｍｎ）とを含む混合正規分布（Ｇ１１〜Ｇｍ１、・・・、Ｇ１ｎ〜Ｇｍｎ）を有する。
【００２２】
また、要素分布ＤＢ（データベース）２００は、混合分布音響モデルＳ内の要素分布情報（ｐ１１〜ｐｍ１、・・・、ｐ１ｎ〜ｐｍｎ）の集合である。すなわち、要素分布ＤＢ２００は、サブワードｓｗ１〜ｓｗｍごとに要素分布データベース２００−１〜２００−ｍを有し、各要素分布データベース２００−１〜２００−ｍには、それぞれ要素分布情報（ｐ１１〜ｐｍ１、・・・、ｐ１ｎ〜ｐｍｎ）が含まれている。
【００２３】
同様に、分岐確率ＤＢ（データベース）２１０は、混合分布音響モデルＳ内の分岐確率（ｗ１１〜ｗ１ｎ、・・・、ｗｍ１〜ｗｍｎ）の集合である。すなわち、分岐確率ＤＢ２１０は、サブワードｓｗ１〜ｓｗｍごとに分岐確率データベース２１０−１〜２１０−ｍを有し、各分岐確率データベース２１０−１〜２１０−ｍには、それぞれ要素分布情報（ｗ１１〜ｗ１ｎ、・・・、ｗｍ１〜ｗｍｎ）が含まれている。
【００２４】
ここで、要素分布ＤＢ２００の記憶内容の一例について説明する。図３は、要素分布ＤＢ２００の記憶内容の一例を示す説明図である。図３においては、音源の属性数ｎを２とし、ｎ＝１は男性、ｎ＝２は女性を示す。たとえば、サブワードｓｗｋの要素分布情報は、男性（ｎ＝１）の要素分布情報（μｋ１，σｋ１）と女性（ｎ＝２）の要素分布情報（μｋ２，σｋ２）とを有する。ここで、『μｋ１』は、サブワードｓｗｋの要素分布ｐｋ１の平均ベクトルであり、『σｋ１』はサブワードｓｗｋの要素分布ｐｋ１の共分散行列である。
【００２５】
また、ここで、分岐確率ＤＢ２１０の記憶内容の一例について説明する。図４は、分岐確率ＤＢ２１０の記憶内容の一例を示す説明図である。図４においても、音源の属性数ｎを２とし、ｎ＝１は男性、ｎ＝２は女性を示す。たとえば、サブワードｓｗｋの分岐確率は、男性（ｎ＝１）の分岐確率ｗｋ１と女性（ｎ＝２）の分岐確率ｗｋ２とを有する。
【００２６】
（音声認識装置の機能的構成）
つぎに、この発明の実施の形態にかかる音声認識装置５００の機能的構成について説明する。図５は、この発明の実施の形態にかかる音声認識装置５００の機能的構成を示すブロック図である。図５において、音声認識装置５００は、取得部５０１と、要素分布尤度算出部５０２と、分岐確率変更部５０３と、サブワード尤度算出部５０４と、認識部５０５と、から構成されている。
【００２７】
まず、取得部５０１は、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する。具体的には、未知音声をＡ／Ｄ変換することによって得られたディジタル音声信号から、スペクトル情報量に関する音響特徴量（以下、「音響特徴量Ａ」と称す。）と、属性情報量に関する音響特徴量（以下、「音響特徴量Ｂ」と称す。）を算出する。
【００２８】
たとえば、音響特徴量Ａは一般的にメルＬＰＣケプストラムやＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）で表されるベクトルとして算出される。具体的には、ディジタル音声信号を単位時間でフレーム分割し、各フレームに対して音響特徴量Ａを求める。これにより、未知音声のスペクトル情報量を音響特徴量として取得することができる。
【００２９】
また、音響特徴量Ｂは、たとえば、基本周期の平均値を用いることにより算出することができる。基本周期の平均値は、次のようにして算出することができる。まず、ディジタル音声信号をフレーム分割した後、音声パワーの閾値判定による手段等から有声音／無声音または非音声の音声判別を行う。このうち、有声音と判別されたフレームから基本周期を抽出する。すべてのフレームに対する音声判別が終了した後、基本周期を平均する。具体的に基本周期の平均値ＰＡＶを数式で表現すると下記式（１）のようになる。
【００３０】
【数１】

【００３１】
ただし、式（１）において、Ｎは分割されたフレーム数であり、stat（ｉ）は有声音であれば「１」、それ以外であれば「０」が代入されるフレームに対する音声判別結果であり、Ｔ（ｉ）はフレームｉにおける基本周期である。これにより、未知音声の属性情報量を音響特徴量として取得することができる。
【００３２】
また、要素分布尤度算出部５０２は、取得部５０１によって取得されたスペクトル情報量に関する音響特徴量Ａと、音源の属性ごとに設定されたサブワードの要素分布に関する情報と、に基づいて、要素分布の尤度（以下、「要素分布尤度Ｐ」という）を算出する。具体的には、各々の要素分布はそれぞれ異なる平均ベクトルと共分散行列を持つ多次元正規分布に各フレームの音響特徴量Ａをそれぞれあてはめることによって要素分布尤度Ｐが求められる。
【００３３】
すなわち、要素分布データベース２００に記憶されている各サブワードｓｗ１〜ｓｗｍの要素分布情報と音響特徴量Ａとを用いて、各サブワードｓｗ１〜ｓｗｍの要素分布に関する尤度（以下、「要素分布尤度」という）を属性ごとに計算する。たとえば、要素分布は多次元正規分布であるため、サブワードｓｗｋについての男性の要素分布尤度Ｐｋ１は、サブワードｓｗｋの要素分布ｐｋ１の平均ベクトルμｋ１と、サブワードｓｗｋの要素分布ｐｋ１の共分散行列σｋ１とを用い、音響特徴量Ａの値を変数として確率密度関数に代入することで算出することができる。
［００３４］
同様に、サブワードｓｗｋについてみ女性の要素分布尤度Ｐｋ２も、サブワードｓｗｋの要素分布ｐｋ２の平均ベクトルμｋ２と、サブワードｓｗｋの要素分布ｐｋ２の共分散行列σｋ２とを用い、音響特徴量Ａの値を変数として確率密度関数に代入することで算出することができる。
［００３５］
また、分岐確率変更部５０３は、取得部５０１によって取得された未知音声の属性情報量に関する音響特徴量Ｂに基づいて、属性ごとに設定されたサブワードの分岐確率の割合を変更する。具体的には、特定部５０６と重み付け処理部５０７により、属性ごとに設定されたサブワードの分岐確率の割合を変更する。
［００３６］
この特定部５０６は、取得部５０１によって取得された属性情報量に関する音響特徴量Ｂに基づいて、未知音声のカテゴリーを特定する。具体的には、カテゴリー／ゾーンテーブル５１０を用いて未知音声のカテゴリーを特定する。ここで、カテゴリー／ゾーンテーブル５１０について説明する。
［００３７］
図６は、カテゴリー／ゾーンテーブル５１０に関するグラフであり、属性とカテゴリーとの関係を示している。図６において、縦軸は確率、横軸は音響特徴量Ｂを示している。また、太線波形は男性の属性分布、太点線は女性の属性分布を示している。また、Ｒはしきい値であり、しきい値Ｒ以上の属性分布の確率値は該当する属性の可能性が高いものとして扱う。すなわち、ｂ，ｄは男性の属性分布がしきい値Ｒとなる値であり、区間［ｂ，ｄ］は男性である可能性が高いゾーン（男性ゾーンという）Ｚ１となる。同様に、ａ，ｃは女性の属性分布がしきい値Ｒとなる値であり、区間［ａ，ｃ］は女性である可能性が高いゾーン（女性ゾーンという）Ｚ２となる。
［００３８］
図６において、カテゴリーＣ１は、男性ゾーンＺ１のみが存在する区間［ｃ，ｄ］であり、カテゴリーＣ２は、女性ゾーンＺ２のみが存在する区間［ａ，ｂ］であり、カテゴリーＣ３は、男性ゾーンＺ１と女性ゾーンＺ２との重複区間［ｂ，ｃ］であり、カテゴリーＣ４は、男性ゾーンＺ１および女性ゾーンＺ２のいずれにも該当しない区間である。この図６に示したグラフを用いることにより、特定部５０６では、図６に示したグラフを音響特徴量Ｂにあてはめることによって未知音声が属するカテゴリーを特定することができる。
【００３９】
重み付け処理部５０７は、特定部５０６によって特定されたカテゴリーに基づいて、音源の属性ごとに設定されたサブワードの分岐確率に重み付けする。具体的には、ルックアップテーブルを用いて、分岐確率データベース２１０に記憶されている分岐確率の重み付けをおこなう。
【００４０】
ここで、ルックアップテーブルの記憶内容について説明する。図７は、ルックアップテーブルの記憶内容の例を示す説明図である。図７において、ルックアップテーブル７００は、この図６に示したカテゴリーＣ１〜Ｃ４を元に作成されている。この属性係数は音響特徴量Ｂが属するカテゴリーによって属性（男性および女性）ごとに決定される値であり、その総和は１となる。図７において、音響特徴量Ｂの値が男性ゾーンＺ１のみであるカテゴリーＣ１に該当する場合、男性の属性係数ｚ１はｚ１＝１、女性の属性係数ｚ２はｚ２＝０である。
【００４１】
また、音響特徴量Ｂの値が女性ゾーンＺ２のみであるカテゴリーＣ２に該当する場合、男性の属性係数ｚ１はｚ１＝０、女性の属性係数ｚ２はｚ２＝１である。また、音響特徴量Ｂの値が男性ゾーンＺ１および女性ゾーンＺ２が重複するカテゴリーＣ３に該当する場合、男性の属性係数ｚ１はｚ１＝０．５、女性の属性係数ｚ２はｚ２＝０．５である。同様に、音響特徴量Ｂの値が男性ゾーンＺ１および女性ゾーンＺ２のいずれでもないカテゴリーＣ４に該当する場合、男性の属性係数ｚ１はｚ１＝０．５、女性の属性係数ｚ２はｚ２＝０．５である。
【００４２】
このように、ルックアップテーブル７００で決定された属性係数ｚ１，ｚ２の値を用いて、各サブワードの分岐確率の重み付けをおこなう。たとえば、サブワードｓｗｋの分岐確率ｗｋ１，ｗｋ２の重み付け処理は下記式（２）に示す通りとなる。
【００４３】
（Ｗｋ１，Ｗｋ２）＝（ｚ１・ｗｋ１，ｚ２・ｗｋ２）・・・（２）
【００４４】
なお、Ｗｋ１は、サブワードｓｗｋの重み付け処理後の男性の分岐確率であり、Ｗｋ２は、サブワードｓｗｋの重み付け処理後の女性の分岐確率である。たとえば、音響特徴量Ｂの値が男性ゾーンＺ１のみであるカテゴリーＣ１に該当する場合、上記式（２）の値は、下記式（３）のようになる。
【００４５】
（Ｗｋ１，Ｗｋ２）＝（ｚ１・ｗｋ１，ｚ２・ｗｋ２）
＝（１・ｗｋ１，０・ｗｋ２）
＝（ｗｋ１，０）・・・・・・・・・・・（３）
［００４６］
また、サブワード尤度算出部５０４は、取得部５０１によって取得されたスペクトル情報量に関する音響特徴量と、属性ごとに設定されたサブワードの要素分布に関する情報と、重み付け処理部５０７によって属性ごとに重み付けされたサブワードの分岐確率と、に基づいて、サブワード尤度を算出する。具体的には、要素分布尤度算出部５０２によって算出された要素分布尤度と、重み付け処理部５０７によって属性ごとに重み付けされたサブワードの分岐確率と、に基づいて、サブワード尤度を算出する。サブワードｓｗｋの属性数ｎにおけるサブワード尤度Ｑｋｎは、たとえば、下記式（４）によって算出することができる。
［００４７］
［数２］

［００４８］
ここで、属性数ｎ＝２、すなわち、属性が男性および女性の場合、サブワードｓｗｋを例に挙げると、サブワードｓｗｋの男性の要素分布尤度Ｐｋ１および女性の要素分布尤度Ｐｋ２と、サブワードｓｗｋの重み付け処理後の男性の分岐確率Ｗｋ１および女性の分岐確率Ｗｋ２を用いることができ、上記式（４）は、下記式（５）のようになる。
［００４９］
Ｑｋｎ＝Ｗｋ１・Ｐｋ１＋Ｗｋ２・Ｐｋ２・・・（５）
［００５０］
また、認識部５０５は、単語尤度算出部５１１と認識可能な単語それぞれがサブワードの列（サブワード列という）で記述されている辞書５１２とから構成されている。すなわち、認識部５０５では、単語尤度算出部５１１により、ビタビ（Ｖｉｔｅｒｂｉ）アルゴリズム等のマッチング処理を用いて、サブワード尤度算出部５０４によって算出されたサブワード尤度と辞書に記憶されている各単語のサブワード列とから単語尤度を算出し、算出された単語尤度が最大の単語を、未知音声に相当する単語（認識結果）として出力する。
［００５１］
なお、上述した取得部５０１、要素分布尤度算出部５０２、分岐確率変更部５０３、サブワード尤度算出部５０４、および認識部５０５は、具体的には、たとえば、図１に示したＲＯＭ１０２、ＲＡＭ１０３、磁気ディスク１０５、光ディスク１０７などの記録媒体に記録されたプログラムを、ＣＰＵ１０１が実行することによって、その機能を実現する。
【実施例】
【００５２】
（音声認識処理手順）
つぎに、上述した実施の形態にかかる音声認識装置５００の実施例について説明する。図８は、実施例にかかる音声認識処理手順を示すフローチャートである。図８において、まず、図１に示したマイク１０９から音声（未知音声）が受音され、音声Ｉ／Ｆ１０８でのＡ／Ｄ変換によりディジタル音声信号が入力された場合（ステップＳ８０１：Ｙｅｓ）、取得部５０１により、未知音声のスペクトル情報量および属性情報量に関する音響特徴量Ａ，Ｂを取得する（ステップＳ８０２）。
【００５３】
つぎに、要素分布尤度算出部５０２により、各サブワードの要素分布尤度を属性ごとに算出する（ステップＳ８０３）。そして、特定部５０６により、未知音声のカテゴリーを特定し（ステップＳ８０４）、重み付け処理部５０７により、特定されたカテゴリーをルックアップテーブル７００で参照して、各サブワードの分岐確率を、属性ごとに重み付けする（ステップＳ８０５）。
【００５４】
このあと、サブワード尤度算出部５０４により、各サブワードについての属性ごとの要素分布尤度と、各サブワードについての属性ごとの重み付け処理後の分岐確率とを用いて、サブワード尤度を算出する（ステップＳ８０６）。最後に、単語尤度算出部５１１により、サブワード尤度と単語データベース５１２に記憶されている各単語のサブワード列から、単語尤度を算出し（ステップＳ８０７）、算出された単語尤度が最大の単語を、未知音声に相当する単語（認識結果）として出力する（ステップＳ８０８）。
【００５５】
このように、この実施の形態および実施例によれば、複数の異なる属性ごとに用意された分岐確率を、未知音声の発話環境や状況に応じて調整することができるため、未知音声の認識率の向上を図ることができる。
【００５６】
なお、上述した実施の形態および実施例では、音源を人間としたためにその属性を男性と女性の２種類に設定したが、男性女性それぞれについても年齢、また周囲の環境などにより音声が異なるため、男性女性それぞれについてさらに複数の属性についての要素分布および分岐確率を設定することとしてもよい。
【００５７】
なお、本実施の形態で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

Claims

異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識装置であって、
未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得手段と、
前記取得手段によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度（以下、「要素分布尤度」という）を算出する要素分布尤度算出手段と、
前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更手段と、
前記変更手段によって変更された分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、サブワードの尤度（以下、「サブワード尤度」という）を算出するサブワード尤度算出手段と、
前記サブワード尤度算出手段によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識手段と、
を備えることを特徴とする音声認識装置。
前記変更手段は、
前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて、前記未知音声のカテゴリーを特定する特定手段と、
前記特定手段によって特定されたカテゴリーに基づいて、前記属性ごとに設定されたサブワードの分岐確率に重み付けする重み付け手段と、を備え、
前記サブワード尤度算出手段は、
前記重み付け手段によって前記属性ごとに重み付けされたサブワードの分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、前記サブワード尤度を算出することを特徴とする請求項１に記載の音声認識装置。
異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識方法であって、
未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得工程と、
前記取得工程によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度（以下、「要素分布尤度」という）を算出する要素分布尤度算出工程と、
前記取得工程によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更工程と、
前記変更工程によって変更された分岐確率と、前記要素分布尤度算出工程によって算出された要素分布尤度と、に基づいて、サブワードの尤度（以下、「サブワード尤度」という）を算出するサブワード尤度算出工程と、
前記サブワード尤度算出工程によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識工程と、
を含んだことを特徴とする音声認識方法。
請求項３に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
請求項４に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記録媒体。