JP4400169B2

JP4400169B2 - 音声認識装置、音声認識方法及びプログラム

Info

Publication number: JP4400169B2
Application number: JP2003351501A
Authority: JP
Inventors: 浩一中込; 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2003-10-10
Filing date: 2003-10-10
Publication date: 2010-01-20
Anticipated expiration: 2023-10-10
Also published as: JP2005115191A

Description

本発明は、音声認識装置、音声認識方法及びプログラムに関し、特に音声認識の高速化を可能とする音声認識装置、音声認識方法及びプログラムに関する。

近時、人間の音声を機械に認識させるための音声認識の研究が盛んに行われ、部分的には実用化の域に達してきている。音声認識の方法としては、入力音声と、予め与えられた標準パターンと、を比較して、最も類似度の大きいものを選び出し、出力する方法が採用されている。

この標準パターンは、採用する音声認識方法によって異なるものが採用される。例えば、ＤＰ（Dynamical Programming；動的計画法）を用いたＤＴＷ（Dynamic
Time Warping；時間軸非線形マッチング）と呼ばれる音声認識方法においては、典型的な音声特徴量の時系列を標準パターンとして用いている。また、ＨＭＭ（Hidden
Markov Model；隠れマルコフモデル）を用いた音声認識方法では、単語毎での状態の遷移確率と、各状態から入力された特徴量を出力する確率（出力確率）と、をパラメータとした標準パターンが用られる。現時、このＨＭＭが、中心的な音声認識方法として広く利用されている。

ところで、この出力確率パラメータの表現方法としては、離散確率分布を用いた表現方法と連続確率分布を用いた表現方法とがある。離散確率分布を用いた表現方法では、予めベクトル量子化された入力音声を用いて音声特徴量から出力確率を求めることにより、出力確率パラメータを表現する。連続確率分布を用いた表現方法では、複数のガウス（正規）分布を重み付きで加算した正規混合連続分布を用いて、出力確率パラメータを表現する。
離散確率分布よりも連続確率分布を用いた表現方法の方が認識精度の点で優れており、多くの音声認識システムでは、連続正規混合分布が採用されている。

一方、音声入力の音声特徴量を抽出する方法は、分析フレームの範囲内でハミング窓のような一定値の窓長を有する時間窓を時系列に一定時間ずつシフトさせて設定し、設定された各時間窓によって順次切り出された分析フレーム内の音声波形からの音声サンプル（Ｎ標本数点）をそれぞれ取り出し、時間窓の音声サンプルの音声特徴量を抽出する方法を用いる。

このような音声特徴量は、時間窓毎に順次切り出された所定数の音声サンプルを周波数軸上に変換することによって得られる音声特徴量（以後、これを周波数軸系特徴パラメータと呼ぶ）と、線形ＰＭＣ（Pulse
Code Modulation；パルス符号化）により量子化された音声振幅の２乗和またはその対数をとることによって得られる音声特徴量（以後、これをパワー系特徴パラメータと呼ぶ）とを組み合わせることによって得られるものである。

例えば、周波数軸系特徴パラメータ１２成分（１２次元）とパワー系特徴パラメータ１成分（１次元）、及び直前の時間窓の各成分との差分を取ったもの、すなわち△周波数軸系特徴パラメータ１２成分（１２次元）と△パワー系特徴パラメータ１成分（１次元）の、合計２６成分を２６次元ベクトル量として特徴量を構成する等が考えられ、３０〜４０次元の音声特徴ベクトルが音声認識に用いられる（例えば、特許文献１参照）。
特開２００１−３５６７９０号公報

上述した多次元正規混合確率分布型のＨＭＭを用いた音声認識システムは、確かに認識精度の点では優れているが、ＨＭＭの状態の個数、ガウス分布の混合数や特徴ベクトル次元数が増えるに伴って、出力確率パラメータにおける計算量、記憶量等が増加するといった問題点を有している。特に、定数化できない多次元正規混合確率分布を算出するときの共分散行列の計算量が増加する。

このため、多次元正規混合確率分布型のＨＭＭを用いた音声認識システムは、音声の認識速度が遅いといった問題があった。

また、多大な計算量及び記憶量が必要となるため、多次元正規混合確率分布型のＨＭＭを用いた音声認識システムの小型化は、困難であった。

ところで、人間の音声は、全ての区間において、明瞭というわけではなく、「あ、か、さ、た、な」等の単語節を発音したときの発音終了間際や、「こんにちは」等の連続で発音したときの音節と音節との継ぎ目では、明瞭性は失われる。このように明瞭性が失われる部分では、音声の振幅が減衰している。

このような音声の振幅が減衰している区間での音声認識は、出力確率パラメータ等の計算量を増加させて、認識速度を遅くするだけでなく、不明瞭であるが故、認識精度も却って低下していた。

本発明は、上記課題を解決するためになされたものであって、音声認識の高速化を可能とする音声認識装置、音声認識方法及びプログラムを提供することを目的とする。

また、本発明は、小型化が可能な音声認識装置、その音声認識方法及び、該音声認識装置をコンピュータで実現可能にするプログラムを提供することを目的とする。

さらに、本発明は、音声の認識精度を向上させる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る音声認識装置は、認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出手段と、前記音声特徴量抽出手段により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出手段と、前記パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第１の判別手段と、前記第１の判別手段により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第１の判別手段により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出手段と、前記累積尤度算出手段により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識手段と、を備える。

また、上記音声認識装置は、パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータの変化率を示すパワー系加速度特徴パラメータを算出するパワー系加速度特徴パラメータ算出手段と、前記パワー系加速度特徴パラメータ算出手段により算出されたパワー系加速度特徴パラメータが所定の閾値以上であるか否かを判別する第２の判別手段と、をさらに備え、前記累積尤度算出手段は、前記第２の判別手段により前記パワー系加速度特徴パラメータが所定の閾値より小さいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、前記第１の判別手段により前記パワー系速度特徴パラメータが所定の閾値以下であると判別され、且つ、該第２の判別手段により該パワー系加速度特徴パラメータが所定の閾値以上であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率から、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出してもよい。

さらに、上記音声認識装置において、前記累積尤度算出手段は、前記所定状態の混合ガウス分布を構成する単純正規分布をそれぞれ算出し、該算出した単純正規分布を重み付き和することにより、前記所定状態の出力確率を求めてもよい。

さらに、上記音声認識装置は、前記累積尤度算出手段により算出された累積尤度を格納する累積尤度格納手段と、文法規則を定義したファイルを格納する文法ファイル格納手段と、単語毎の音素パターン系列情報を登録した単語辞書を格納する単語辞書格納手段と、前記文法ファイル格納手段に格納されているファイルに基づいて、前記単語辞書格納手段から取得した単語と、前記累積尤度算出手段により算出された累積尤度と、を対応付けて前記累積尤度格納手段に展開する展開手段と、をさらに備え、音声認識手段は、前記展開手段により展開された累積尤度に基づいて取得した単語を認識結果として出力してもよい。

また、上記目的を達成するため、本発明の第２の観点に係る音声認識方法は、認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段を備える音声認識装置における音声認識方法であって、入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出工程と、前記音声特徴量抽出工程により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出工程と、前記パワー系速度特徴パラメータ算出工程により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第１の判別工程と、前記第１の判別工程により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出工程により抽出された特徴量と前記音素モデル格納工程に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第１の判別工程により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出工程と、前記累積尤度算出工程により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識工程と、を備える、ことを特徴とする。

さらに、上記目的を達成するため、本発明の第３の観点に係るプログラムは、認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段を備えるコンピュータを、入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出手段、前記音声特徴量抽出手段により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出手段、前記パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第１の判別手段、前記第１の判別手段により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第１の判別手段により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出手段、前記累積尤度算出手段により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識手段、として機能させる。

本発明により、音声認識の高速化を可能とする音声認識装置、音声認識方法及びプログラムを提供することができる。

また、本発明により、小型化が可能な音声認識装置、その音声認識方法及び、該音声認識装置をコンピュータで実現可能にするプログラムを提供することができる。

さらに、本発明により、音声の認識精度を向上させる音声認識装置、音声認識方法及びプログラムを提供することができる。

以下、本発明の実施の形態に係る音声認識装置ついて図面を参照して説明する。

（実施形態１）
図１は、本発明の実施の形態に係る音声認識装置１の構成を示すブロック図である。音声認識装置１は、図１に示すように、音声入力部１１と、音声データ格納部１２と、時間窓設定部１３と、音声特徴量抽出部１４と、音声特徴量格納部１５と、音素モデル格納部１６と、尤度計算部１７と、累積尤度格納部１８と、文法ファイル格納部１９と、単語辞書格納部２０と、ノード作成部２１と、音声認識部２２と、スピーカやディスプレイ等から構成された認識結果出力部２３と、から構成されている。

音声入力部１１は、例えばマイクロフォン等から構成され、入力された音声データをＡ／Ｄ(Analog / Digital)変換して出力する。

音声データ格納部１２は、ＲＡＭ（Random Access Memory）等から構成され、音声入力部１１から出力される音声データを随時バッファリングする。

時間窓設定部１３は、入力された音声データに対して設定する時間窓Ｆの窓長Ｌ及び周期Ｓ（＜Ｌ）が予め定められている。時間窓設定部１３は、この予め定められた窓長Ｌ及び周期Ｓに従って、時間窓Ｆを音声特徴量抽出部１４に設定する。

より詳細に説明すれば、時間窓設定部１３は、予め定められた周期Ｓ毎に、音声特徴量の抽出の開始を指示する開始制御信号を音声特徴量抽出部１４に出力する。そして、時間窓位置部１３は、開始制御信号を出力したタイミングから窓長Ｌ後のタイミングに、音声特徴量の抽出の終了を指示する終了指示信号を音声特徴量抽出部１４に出力する。

図２は、時間窓設定部１３による時間窓Ｆの設定動作についての説明図である。図２（Ａ）は、入力された音声データの波形図であり、その縦軸は、波形の振幅（エネルギー）の大きさを示している。また、図２（Ｂ）には、周期Ｓずつシフトして設定された時間窓Ｆ（ｔ）（ｔ＝０，１，…，Ｔ）が示されている。なお、ｔの単位は周期Ｓである。

例えば図２（Ｂ）に示す例では、時間窓設定部１３は、時刻ｔ＝０に、開始制御信号を出力して音声特徴量抽出部１４に音声特徴量の抽出を開始させ、さらに、時刻ｔ＝０から窓長Ｌ後のタイミングに、終了制御信号を出力して音声特徴量抽出部１４に音声特徴量の抽出を終了させる。このようにして、時間窓設定部１３は、時間窓Ｆ（０）を音声特徴量抽出部１４に設定する。

また、時間窓設定部１３は、時刻ｔ＝０から周期Ｓ後のタイミングである時刻ｔ＝１に開始制御信号を、時刻ｔ＝１から窓長Ｌ後のタイミングに終了制御信号を、それぞれ出力して、時間窓Ｆ（１）を音声特徴量抽出部１４に設定する。時間窓設定部１３は、このような時間窓Ｆ（ｔ）の設定動作を、入力された音声データの音声区間が終了するまで繰り返す。また、この設定動作によって設定される時間窓Ｆ（ｔ）は、周期Ｓよりも窓長Ｌのほうが長いことから、隣接する時間窓Ｆ（ｔ＋１）と（Ｌ−Ｓ）だけ重複する。

音声特徴量抽出部１４は、時間窓設定部１３から入力される時間窓Ｆの開始制御信号及び終了制御信号に応答して、入力音声を分析フレーム内の時間窓Ｆで切り出し、この切り出した時間窓Ｆ内の音声データから音声特徴量ｘ（ｔ）を抽出する。

この音声特徴量ｘ（ｔ）は、周波数軸系特徴パラメータｆ（Ｄ次元ベクトル量）とパワー系特徴パラメータｐ（１次元ベクトル量）とから構成されている。

周波数軸系特徴パラメータｆは、例えば、ケプストラムやメルケプストラムと呼ばれる音声データの周波数に関する特徴量である。周波数軸系特徴パラメータｆは、音声データをフーリエ変換、対数変換、メル軸変換等することにより求められた複数の計算結果から構成されるＤ次元ベクトル量である。

パワー系特徴パラメータｐは、音声データの振幅に関する特徴量である。パワー系特徴パラメータＰは、例えば、音声データのエネルギー二乗和やその対数を計算することにより求められ、比較的計算量の少ない１次元ベクトル量である。

そして、音声特徴量抽出部１４は、以下の数１と数２とに従って、周波数軸系特徴パラメータｆの動的特徴を示す速度パラメータ（周波数軸系特徴速度パラメータ）Δｆ（Ｄ元ベクトル量）と、パワー系特徴パラメータｐの動的特徴を示す速度パラメータ（パワー系特徴速度パラメータ）△ｐ（１次元ベクトル量）とを算出する。

ここで、Θは考慮する前後の時間窓の数（時間）である。

さらに、音声特徴量抽出部１４は、以下の数３に従って、パワー系特徴速度パラメータΔｐの動的特徴を示す加速度パラメータ（パワー系特徴加速度パラメータ）ΔΔｐ（１次元ベクトル量）を算出する。

そして、音声特徴量抽出部１４は、抽出した音声特徴量ｘ（ｔ）と、算出した周波数軸系特徴速度パラメータΔｆ（ｔ）、パワー系特徴速度パラメータΔｐ（ｔ）及びパワー系特徴加速度パラメータΔΔｐ（ｔ）と、を音声特徴量格納部１５に対応付けて格納する

音声特徴量格納部１５は、ＲＡＭ等から構成され、音声特徴量抽出部１４により抽出された各時間窓Ｆでの音声特徴量ｘ（ｔ）を随時格納する。図３は、音声特徴量格納部１５の構成例を示す図である。音声特徴量格納部１５は、図３に示すように、時間窓の番号（時刻）ｔと、周波数軸系特徴パラメータｆ（ｔ）と、周波数軸系特徴速度パラメータΔｆ（ｔ）と、パワー系特徴パラメータｐ（ｔ）と、パワー系特徴速度パラメータΔｐ（ｔ）と、パワー系特徴加速度パラメータΔΔｐ（ｔ）と、を対応付けて格納する。

音素モデル格納部１６は、ハードディスク装置等から構成され、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを予め格納している。本実施の形態において、音素モデル格納部１６は、音素モデルとして、複数の「隠れマルコフモデル（ＨＭＭ）」を格納している。

ＨＭＭは、音声データに含まれている各単語を音素程度の比較的少ない複数の状態によって表したものであり、単語毎の時間的な状態の揺らぎを示す遷移確率と、各状態から入力された音声特徴量を出力する確率（出力確率）と、がパラメータとして与えられている。この出力確率は、所定の重み係数で重み付けされたガウス分布を線形結合の和で表した混合ガウス分布によって表現されるものである。

尤度計算部１７は、ＣＰＵ（Central Processing Unit），ＲＡＭ，ＲＯＭ（Read Only Memory）等から構成され、時間窓Ｆの数を計数する時間窓カウンタを備える。

尤度計算部１７は、音声特徴量抽出部１４により抽出された各時間窓Ｆでの音声の特徴量と音素モデル格納部１６に格納されている「隠れマルコフモデル（ＨＭＭ）」とを比較して、いずれのＨＭＭに対応する特徴量が最も高い確率で出力されるかを示す尤度を計算する。なお、本実施の形態においては、音素毎に所定の状態数が予め定められており、例えば、状態数を「３」とした場合、単語「はちのへ」の音素「h・a・ch・i・n・o・h・e」は、それぞれ「h1,
h2, h3」「a1, a2, a3」「ch1, ch2, ch3」…、と表す。

より詳細に説明すると、尤度計算部１７は、まず、音声特徴量格納部１５から、単位時間窓Ｆ（ｔ）の音声特徴量ｘ（ｔ）とパワー系特徴速度パラメータΔｐ（ｔ）とを読み出す。

次に、尤度計算部１７は、音声特徴量格納部１５から読み出したパワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下であるか否かを判別する。

尤度算出部１７は、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値αより大きいと判別した場合、以下の数４に従って、状態ｉの混合ガウス分布を構成するＭ個の単純正規分布Ｐｍ（ｘ（ｔ））（ｍ＝１，２，…Ｍ）をそれぞれ算出する。

ここで、ｎは音声特徴量ｘ（ｔ）の次元数であり、μｉは状態ｉの音声特徴量ｘ（ｔ）の平均値（平均ベクトル）である。

続いて、尤度計算部１７は、以下の数５に従って、算出したＭ個の単純正規分布Ｐｍ（ｘ）から、時間窓Ｆ（ｔ）での状態ｉの出力確率ｂｉ（ｘ（ｔ））を算出する。

ここで、Ｃｍは混合比である。

そして、尤度計算部１７は、以下数６と数７とに従って、算出した出力確率ｂｉ（ｘ（ｔ））から、状態ｉ−１から状態ｉに遷移する状態間遷移の場合での累積尤度Ｌｐ（ｉ，ｔ）と、状態ｉから状態ｉに遷移する自己遷移の場合での累積尤度Ｌｓ（ｉ，ｔ）と、を算出する。

ここで、ａ（ｉ−１，ｔ−１）は、状態ｉ−１から状態ｉへの状態間遷移率であり、ａ（ｉ，ｔ−１）は、状態ｉから状態ｉへの自己遷移率である。

一方、尤度計算部１７は、パワー系特徴速度パラメータ△ｐ（ｔ）が所定の閾値α以下であると判別した場合、出力確率ｂｉ（ｘ（ｔ））に代え、前時間窓Ｆ（ｔ−１）において算出した出力確率ｂ（ｉ−１）（ｘ（ｔ−１））又はｂｉ（ｘ（ｔ−１））を用いることにより、累積尤度Ｌｐ（ｉ，ｔ）と累積尤度Ｌｓ（ｉ，ｔ）とを算出する。

このようにして、尤度計算部１７は、単純正規分布Ｐｍ（ｘ（ｔ））及び出力確率ｂｉ（ｘ（ｔ））の計算を省略する。

そして、尤度計算部１７は、算出した累積尤度Ｌｐ（ｉ，ｔ）と累積尤度Ｌｓ（ｉ，ｔ）とのうち、大きい方の累積尤度Ｌ（ｉ，ｔ）を累積尤度格納部１８に書き込んで、累積尤度格納部１８に格納されている累積尤度を更新する。

尤度計算部１７は、時間窓Ｆ（ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））を計算し、その都度、累積尤度格納部１８に格納されている累積尤度を更新する。

この後、尤度計算部１７は、最終の時間窓Ｆ（Ｔ）まで、上記の出力確率ｂ（ｘ（ｔ））の計算と累積尤度の更新とを行う。

累積尤度格納部１８は、尤度計算部１７により算出された累積尤度を格納する。

文法ファイル格納部１９は、言語の文法規則を定義したファイルを格納する。

単語辞書格納部２０は、言語の単語毎の音素パターン系列情報を登録した単語辞書を格納する。

ノード作成部２１は、文法ファイル格納部１９に格納されているファイルに基づいて、単語辞書格納部２０から取得した候補単語と、尤度計算部１７が計算した累積尤度とを対応付けて累積尤度格納部１８に展開する。

音声認識部２２は、ノード作成部２１が累積尤度格納部１８に展開した累積尤度に基づいて取得した候補単語を認識結果として認識結果出力部２３から出力する。

続いて本発明の第１の実施の形態に係る音声認識装置１による音声認識動作について、図４に示すフローチャートを参照して説明する。

音声認識装置１は、入力された音声データが音声入力部１１においてＡ／Ｄ変換された後、音声データ格納部１２に格納されたことを契機として、図４のフローチャートに示す音声認識動作を開始する。

まず、時間窓設定部１３は、開始制御信号及び終了制御信号を出力して時間窓Ｆを音声特徴量抽出部１４に設定する（ステップＳ１０１）。

次に、音声特徴量抽出部１４は、時間窓設定部１３から入力される時間窓Ｆの開始制御信号及び終了制御信号に応答して、入力音声を分析フレーム内の時間窓Ｆで切り出し、この切り出した時間窓Ｆ内の音声データから音声特徴量ｘ（ｔ）を抽出する
（ステップＳ１０２）。

さらに、音声特徴量抽出部１４は、音声特徴量ｘ（ｔ）を構成する周波数軸系特徴パラメータｆ（ｔ）とパワー系特徴パラメータｐ（ｔ）とから、周波数軸系特徴速度パラメータΔｆ（ｔ）、パワー系特徴速度パラメータΔｐ（ｔ）及びパワー系特徴加速度パラメータΔΔｐ（ｔ）を算出する（ステップＳ１０３）。

そして、音声特徴量抽出部１４は、抽出した音声特徴量ｘ（ｔ）と、算出した周波数軸系特徴速度パラメータΔｆ（ｔ）、パワー系特徴速度パラメータΔｐ（ｔ）及びパワー系特徴加速度パラメータΔΔｐ（ｔ）と、を音声特徴量格納部１５に対応付けて格納する
（ステップＳ１０４）。

続いて、尤度計算部１７は、音声特徴量抽出部１４により抽出された各時間窓Ｆでの音声特徴量ｘ（ｔ）と音素モデル格納部１６に格納されている「隠れマルコフモデル（ＨＭＭ）」とを比較して累積尤度を計算する尤度計算処理を実行する（ステップＳ１０５）。

そして、ノード作成部２１は、文法ファイル格納部１９に格納されているファイルに基づいて、単語辞書格納部２０から取得した候補単語と、尤度計算部１７が計算した累積尤度と、を累積尤度格納部１８に対応付けて展開する（ステップＳ１０６）。

音声認識部２２は、ノード作成部２１が累積尤度格納部１８に展開した累積尤度に基づいて取得した候補単語を認識結果として認識結果出力部２３から出力する（ステップＳ１０７）。

続いて、上記ステップＳ１０５における尤度計算処理について、図５に示すフローチャートを参照してより詳細に説明する。

まず、尤度計算部１７は、音声特徴量格納部１５から単位時間窓Ｆ（ｔ）の音声特徴量ｘ（ｔ）とパワー系特徴速度パラメータΔｐ（ｔ）とを読み出す（ステップＳ２０１）。

次に、尤度計算部１７は、音声特徴量格納部１５から読み出したパワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下であるか否かを判別する（ステップＳ２０２）。

パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値αより大きいと判別した場合（ステップＳ２０２；Ｎｏ）、尤度計算部１７は、状態ｉの混合ガウス分布を構成するＭ個の単純正規分布Ｐｍ（ｘ（ｔ））をそれぞれ算出する（ステップＳ２０３）。

続いて、尤度計算部１７は、算出したＭ個の単純正規分布Ｐｍ（ｘ）から、時間窓Ｆ（ｔ）での状態ｉの出力確率ｂｉ（ｘ（ｔ））を算出する（ステップＳ２０４）。

そして、尤度計算部１７は、算出した出力確率ｂｉ（ｘ（ｔ））から、状態間遷移の場合での累積尤度Ｌｐ（ｉ，ｔ）と、自己遷移の場合での累積尤度Ｌｓ（ｉ，ｔ）と、を算出し（ステップＳ２０５）、その後、ステップＳ２０７に進む。

一方、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値以下であると判別した場合（ステップＳ２０２；Ｙｅｓ）、尤度計算部１７は、出力確率ｂｉ（ｘ（ｔ））に代え、前時間窓Ｆ（ｔ−１）での出力確率ｂ（ｉ−１）（ｘ（ｔ−１））又はｂｉ（ｘ（ｔ−１））を用いることにより、累積尤度Ｌｐ（ｉ，ｔ）と累積尤度Ｌｓ（ｉ，ｔ）とを算出する（ステップＳ２０６）。

そして、尤度計算部１７は、算出した累積尤度Ｌｐ（ｉ，ｔ）と累積尤度Ｌｓ（ｉ，ｔ）とのうち、大きい方の累積尤度Ｌ（ｉ，ｔ）を累積尤度格納部１８に書き込んで、累積尤度格納部１８に格納されている累積尤度を更新する（ステップＳ２０７）。

その後、尤度計算部１７は、時間窓Ｆ（ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））の計算が終了するまで、上記ステップＳ２０１からステップＳ２０７までの動作を繰り返す。

そして、時間窓Ｆ（ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））の計算が終了すると（ステップＳ２０８；Ｙｅｓ）、尤度計算部１７は、時間窓カウンタの値を１インクリメントする（ステップＳ２０９）。

その後、尤度計算部１７は、最終の時間窓Ｆ（Ｔ）まで（時間窓カウンタの値がＴになるまで）、上記ステップＳ２０１からステップＳ２０９までの動作を繰り返す。

そして、最終の時間窓Ｆ（Ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））の計算が終了すると（ステップＳ２１０；Ｙｅｓ）、尤度計算部１７は、図５に示すフローチャートを終了する。

上記説明したように、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下の場合に、尤度計算部１７における単純正規分布Ｐｍ（ｘ（ｔ））及び出力確率ｂｉ（ｘ（ｔ））の計算を省略することにより、音声認識装置１は、音声認識の高速化を実現することができる。

また、このように尤度計算部１７における計算量を省略することにより、音声認識装置１の小型化が可能となる。

さらに、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下の場合での尤度の計算、換言すれば音声データの振幅が減少していく部分での尤度計算、を省略することにより、音声の認識精度を高めることができる。

（実施形態２）
続いて、本発明の第２の実施の形態について説明する。なお、音声認識装置の構成及び音声認識動作については、上記第１の実施の形態と同様であるので、その説明を省略し、上記第１の実施の形態と異なるステップＳ１０５の尤度計算処理について、図６に示すフローチャートを参照して説明する。

まず、尤度計算部１７は、音声特徴量格納部１５から単位時間窓Ｆ（ｔ）の音声特徴量ｘ（ｔ）とパワー系特徴速度パラメータΔｐ（ｔ）とパワー系特徴加速度パラメータΔΔｐ（ｔ）とを読み出す（ステップＳ３１１）。

次に、尤度計算部１７は、音声特徴量格納部１５から読み出したパワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下であるか否かを判別する（ステップＳ３１２）。

続いて、尤度計算部１７は、音声特徴量格納部１５から読み出したパワー系特徴加速度パラメータΔΔｐ（ｔ）が所定の閾値β以上であるか否かを判別する（ステップＳ３１３）。

パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値αより大きいと判別した場合（ステップＳ３１２；Ｎｏ）、或いはパワー系特徴加速度パラメータΔΔｐ（ｔ）が所定の閾値βより小さいと判別した場合（ステップＳ３１３；Ｎｏ）、尤度計算部１７は、状態ｉの混合ガウス分布を構成するＭ個の単純正規分布Ｐｍ（ｘ（ｔ））をそれぞれ算出する（ステップＳ３１４）。

続いて、尤度計算部１７は、算出したＭ個の単純正規分布Ｐｍ（ｘ）から、時間窓Ｆ（ｔ）での状態ｉの出力確率ｂｉ（ｘ（ｔ））を算出する（ステップＳ３１５）。

そして、尤度計算部１７は、算出した出力確率ｂｉ（ｘ（ｔ））から、状態間遷移の場合での累積尤度Ｌｐ（ｉ，ｔ）と、自己遷移の場合での累積尤度Ｌｓ（ｉ，ｔ）と、を算出し（ステップＳ３１６）、その後、ステップＳ３１８に進む。

一方、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下であり、（ステップＳ３１２；Ｙｅｓ）、且つパワー系特徴加速度パラメータΔΔｐ（ｔ）が所定の閾値β以上であると判別した場合（ステップＳ３１３；Ｙｅｓ）、尤度計算部１７は、出力確率ｂｉ（ｘ（ｔ））に代え、前時間窓Ｆ（ｔ−１）での出力確率ｂ（ｉ−１）（ｘ（ｔ−１））又はｂｉ（ｘ（ｔ−１））を用いることにより、累積尤度Ｌｐ（ｉ，ｔ）と累積尤度Ｌｓ（ｉ，ｔ）とを算出する（ステップＳ３１７）。

そして、尤度計算部１７は、算出した累積尤度Ｌｐ（ｉ，ｔ）と累積尤度Ｌｓ（ｉ，ｔ）とのうち、大きい方の累積尤度Ｌ（ｉ，ｔ）を累積尤度格納部１８に書き込んで、累積尤度格納部１８に格納されている累積尤度を更新する（ステップＳ３１８）。

その後、尤度計算部１７は、時間窓Ｆ（ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））の計算が終了するまで、上記ステップＳ３１１からステップＳ３１８までの動作を繰り返す。

そして、時間窓Ｆ（ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））の計算が終了すると（ステップＳ３１９；Ｙｅｓ）、尤度計算部１７は、時間窓カウンタの値を１インクリメントする（ステップＳ３２０）。

その後、尤度計算部１７は、最終の時間窓Ｆ（Ｔ）まで（時間窓カウンタの値がＴになるまで）、上記ステップＳ３１１からステップＳ３２０までの動作を繰り返す。

そして、最終の時間窓Ｆ（Ｔ）に含まれる全ての状態での出力確率ｂ（ｘ（ｔ））の計算が終了すると（ステップＳ３２１；Ｙｅｓ）、尤度計算部１７は、図６に示すフローチャートを終了する。

上記説明したように、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下で、且つパワー系特徴加速度パラメータΔΔｐ（ｔ）が所定の閾値β以上の場合に、尤度計算部１７における単純正規分布Ｐｍ（ｘ（ｔ））及び出力確率ｂｉ（ｘ（ｔ））の計算を省略することにより、音声認識装置１は、音声認識の高速化を実現することができる。

さらに、パワー系特徴速度パラメータΔｐ（ｔ）が所定の閾値α以下で、且つパワー系特徴加速度パラメータΔΔｐ（ｔ）が所定の閾値β以上の場合での尤度の計算、換言すれば音声データの振幅が減少していく部分での尤度計算、を省略することにより、音声の認識精度を高めることができる。

本発明は、上記実施の形態に限定されず、種々の変形、応用が可能である。以下、本発明に適用可能な上記実施の形態の変形態様について、説明する。

上記実施の形態における音声認識装置１は、専用装置で構成可能であることはもとより、例えば図７に示すように、パーソナルコンピュータなどの汎用コンピュータ装置などをプラットフォームとして実現することができる。

例えば、音声入力部１１、認識結果出力部１２の機能は、それぞれ汎用コンピュータに接続される、マイクロフォン等の入力インターフェイス３１、スピーカ、ディスプレイ等の出力インターフェイス３２によって実現できる。

また、音声データ格納部１２と音声特徴量格納部１５と累積尤度格納部１８との機能は、ＲＡＭ（Random Access Memory）３３によって実現され、音素モデル格納部１６と文法ファイル格納部１９と単語辞書格納部２０との機能は、それぞれに対応した領域がＨＤＤ（Hard
Disk Drive)３４に確保されることによって実現される。音素モデル格納部６が格納する音素モデル、文法ファイル格納部１９が格納する文法ファイル及び単語辞書格納部２０が格納する単語辞書は、認識処理を行う前に予め外部装置から読み込まれて、ＨＤＤ３４に記憶されたものである。

時間窓設定部１３、音声特徴量抽出部１４、尤度計算部１７、ノード作成部２１及び音声認識部２２の機能は、ＣＰＵ（Central Processing Unit）３５がＲＯＭ（Read
Only Memory）３６に記憶されたプログラムを実行することによって実現される。

なお、このプログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなどの他の記録媒体からＨＤＤ３４にインストールしてもよい。また、ＨＤＤ３４やＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の記録手段の他に、例えば、Ｂｌｕｅ−Ｒａｙ−Ｄｉｓｃ（Ｒ）やＡＯＤ（Advanced
Optical Disc）などの青色レーザを用いた次世代光ディスク記憶媒体、赤色レーザを用いるＨＤ−ＤＶＤ９、青紫色レーザを用いるＢｌｕｅ−Ｌａｓｅｒ−ＤＶＤ等、今後開発される種々の大容量記憶媒体を用いて本発明を実施することが可能であることはいうまでもない。

また、搬送波に重畳させることで、インターネットなどの通信媒体を介してダウンロードし、インストールしてもよい。さらに、インストールを行わずに、上記の他の記録媒体に記録されたデータを直接読み取りながらプログラムの実行をすることも可能である。

これにより、本発明にかかる音声認識装置は、例えば、携帯型の翻訳装置などとして実現できる他、パーソナルコンピュータやゲーム装置などで動作するアプリケーションとして実現することも可能である。

またさらに、既存の音声認識装置や音声認識アプリケーションなどに、本発明にかかる各処理を実現するためのプログラムを追加すること（例えば、バージョンアップなど）により、音声認識処理を高速化することができる。

本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。時間窓設定部による時間窓の設定動作についての説明図である。音声特徴量格納部の構成例を示す図である。本発明の実施の形態に係る音声認識装置における音声認識動作についてのフローチャートである。本発明の第１の実施の形態に係る音声認識装置における音声認識動作についてのフローチャートである。本発明の第２の実施の形態に係る音声認識装置における音声認識動作についてのフローチャートである。本発明の実施の形態に係る音声認識装置と同様の動作を実行することができるコンピュータのブロック図である。

符号の説明

１…音声認識装置、１１…音声入力部、１２…音声データ格納部、１３…時間窓設定部、１４…音声特徴量抽出部、１５…音声特徴量格納部、１６…音素モデル格納部、１７…尤度計算部、１８…累積尤度格納部、１９…文法ファイル格納部、２０…単語辞書格納部、２１…ノード作成部、２２…音声認識部、２３…認識結果出力部

Claims

認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出手段と、
前記音声特徴量抽出手段により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出手段と、
前記パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第１の判別手段と、
前記第１の判別手段により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第１の判別手段により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出手段と、
前記累積尤度算出手段により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識手段と、
を備える音声認識装置。
パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータの変化率を示すパワー系加速度特徴パラメータを算出するパワー系加速度特徴パラメータ算出手段と、
前記パワー系加速度特徴パラメータ算出手段により算出されたパワー系加速度特徴パラメータが所定の閾値以上であるか否かを判別する第２の判別手段と、
をさらに備え、
前記累積尤度算出手段は、
前記第２の判別手段により前記パワー系加速度特徴パラメータが所定の閾値より小さいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、
前記第１の判別手段により前記パワー系速度特徴パラメータが所定の閾値以下であると判別され、且つ、該第２の判別手段により該パワー系加速度特徴パラメータが所定の閾値以上であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率から、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する、
ことを特徴とする請求項１に記載の音声認識装置。
前記累積尤度算出手段は、前記所定状態の混合ガウス分布を構成する単純正規分布をそれぞれ算出し、該算出した単純正規分布を重み付き和することにより、前記所定状態の出力確率を求める、
ことを特徴とする請求項１又は２に記載の音声認識装置。
前記累積尤度算出手段により算出された累積尤度を格納する累積尤度格納手段と、
文法規則を定義したファイルを格納する文法ファイル格納手段と、
単語毎の音素パターン系列情報を登録した単語辞書を格納する単語辞書格納手段と、
前記文法ファイル格納手段に格納されているファイルに基づいて、前記単語辞書格納手段から取得した単語と、前記累積尤度算出手段により算出された累積尤度と、を対応付けて前記累積尤度格納手段に展開する展開手段と、
をさらに備え、
前記音声認識手段は、前記展開手段により展開された累積尤度に基づいて取得した単語を認識結果として出力する、
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段を備える音声認識装置における音声認識方法であって、
入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出工程と、
前記音声特徴量抽出工程により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出工程と、
前記パワー系速度特徴パラメータ算出工程により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第１の判別工程と、
前記第１の判別工程により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出工程により抽出された特徴量と前記音素モデル格納工程に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第１の判別工程により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出工程と、
前記累積尤度算出工程により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識工程と、
を備える、ことを特徴とする音声認識方法。
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段を備えるコンピュータを、
入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出手段、
前記音声特徴量抽出手段により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出手段、
前記パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第１の判別手段、
前記第１の判別手段により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第１の判別手段により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出手段、
前記累積尤度算出手段により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識手段、
として機能させるプログラム。