JPH09160585A

JPH09160585A - 音声認識装置および音声認識方法

Info

Publication number: JPH09160585A
Application number: JP7316747A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-12-05
Filing date: 1995-12-05
Publication date: 1997-06-20

Abstract

(57)【要約】【課題】様々な雑音環境下において生じる音声認識装
置の認識性能の劣化を防止（低減）する。【解決手段】有音声部／無音声部判定部１１では、入
力された音声信号に基づいて、その音声の特徴量として
のシンボルが、有音声部または無音声部のうちのいずれ
のものであるかが判定され、その判定結果が特徴量変換
部１２に供給される。特徴量変換部１２では、音声の特
徴量であるシンボル系列のうち、有音声部／無音声部判
定部１１において無音声部であると判定されたフレーム
におけるシンボルが、所定のシンボルに変換（置換）さ
れる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。特に、異なる雑音環境下にお
いて、良好な音声認識結果を得ることができるようにす
る音声認識装置および音声認識方法に関する。

【０００２】

【従来の技術】入力された音声に対して、与えられた辞
書の中から、その音声に対応する音素や単語などを選択
する音声認識手法としては、従来より、例えば、ＤＰ
（Dynamic Programming）マッチングなどに代表される
パターンマッチングによる方法や、ＨＭＭ（Hidden Mar
kov Model）などに代表される確率的な方法が知られて
いる。

【０００３】ＤＰマッチングでは、音声認識の対象とな
る単語に対応した標準パターンをあらかじめ作成してお
き、入力された音声を音響分析して得られる特徴量と、
標準パターンとを、時間軸の対応とりながらマッチング
させ（音声の特徴量と、標準パターンそれぞれとの距離
を計算し）、例えば、音声の特徴量と最も類似する標準
パターンに対応する単語が、音声の認識結果とされる。

【０００４】また、ＨＭＭでは、幾つかの状態を有する
マルコフモデルについて、音声認識の対象となる単語に
対応して、状態が遷移する確率（状態遷移確率）と、そ
の状態遷移の際に出力されるシンボルの確率（シンボル
出力確率）とを求めることで、確率モデルをあらかじめ
作成しておき、入力された音声を音響分析して得られる
特徴量に対応したシンボル系列が、各モデルから観測
（生起）される確率（生起確率）を求め、例えば、最も
生起確率の高いモデルに対応する単語が、音声の認識結
果とされる。

【０００５】以上のように、音声認識においては、音声
認識の対象となっている単語（認識対象単語）と入力音
声とのマッチングをとるために距離計算を行ったり、ま
た、認識対象単語に対応する確率モデルを用いて生起確
率を計算したりすることによって、入力音声の、認識対
象単語それぞれに対するスコアを求め、そのスコアが最
も高い認識対象単語を、音声の認識結果として選択する
ようになされている。

【０００６】ここで、スコアが高いというのは、距離に
ついては、その値が小さい（距離が短い）ことを意味
し、生起確率については、その値が大きい（生起確率が
大きい）ことを意味する。

【０００７】以上は、孤立単語音声認識の場合である
が、連続音声認識においても、上述のような距離計算や
確率計算が行われ、その結果得られるスコアが最も高く
なる単語の並びが、音声認識結果として出力される。但
し、連続音声認識の場合は、例えば文法や、単語の意味
的な接続関係などを考慮して、単語の並びが制限される
場合がある。

【０００８】図７は、孤立単語音声認識を行う、従来の
音声認識装置の一例の構成を示している。入力部１は、
入力された音声を電気信号としての音声信号に変換する
マイク、その音声信号を増幅するアンプ、増幅されたア
ナログの音声信号をディジタルの音声信号にＡ／Ｄ変換
するＡ／Ｄ変換器などで構成される。音響分析部２は、
入力部１より出力される音声信号を音響分析し、これに
より、その音声信号の特徴量を抽出して出力するように
なされている。

【０００９】パラメータ記憶部３には、音響分析部２に
おいて学習用の音声から抽出された特徴量に基づいて、
あらかじめ学習により求められた、音声の認識に用いる
認識用パラメータ（認識対象の単語などに対応するパラ
メータ）が記憶されている。

【００１０】認識部５は、音響分析部２から出力される
音声の特徴量に対する、パラメータ記憶部３に記憶され
ている認識用パラメータそれぞれのスコアを、所定の音
声認識アルゴリズムにしたがって算出し、そのスコアに
基づいて、入力部１に入力された音声の認識結果を出力
するようになされている。

【００１１】ここで、音声認識アルゴリズムとしては、
上述したＤＰマッチングやＨＭＭ、さらには、例えばニ
ューラルネットワークを利用したものなどが、比較的多
く用いられる。

【００１２】認識部５において、ＤＰマッチングにより
音声認識を行う場合においては、学習時に、学習用の音
声から抽出された特徴量に基づいて、テンプレートと呼
ばれる標準パターンが認識用パラメータとして求めら
れ、パラメータ記憶部３に記憶される。そして、認識時
には、音響分析部２から出力される音声の特徴量と、パ
ラメータ記憶部３に記憶されているテンプレートそれぞ
れとの距離がスコアとして計算され、そのスコアの高い
もの、あるいはそのスコアの高い上位幾つか、即ち、そ
の距離が最も短いもの、あるいはその距離の短い上位幾
つかが、音声認識結果とされる。なお、ＤＰマッチング
では、発話速度の変動を吸収するため、即ち、テンプレ
ートと、音声の特徴量との間で、同じ音素どうしが対応
し、両者の間の歪みが最小化するように、時間軸正規化
（ＤＴＷ（Dynamic Time Warping））が行われる。

【００１３】また、認識部５において、ＨＭＭにより音
声認識を行う場合においては、学習時に、学習用の音声
から抽出された特徴量に基づいて、確率モデルを規定す
る状態遷移確率およびシンボル出力確率が、認識用パラ
メータとして求められ、パラメータ記憶部３に記憶され
る。そして、認識時には、パラメータ記憶部３に記憶さ
れている確率モデル（ＨＭＭ）それぞれから、音響分析
部２より出力される音声の特徴量に対応したシンボル系
列が観測される生起確率が、スコアとして求められ、そ
のスコアの高いもの、あるいはそのスコアの高い上位幾
つか、即ち、その生起確率が最も高いもの、あるいはそ
の生起確率の高い上位幾つかが、音声認識結果とされ
る。

【００１４】さらに、認識部５において、ニューラルネ
ットワークを利用して音声認識を行う場合においては、
学習時に、学習用の音声から抽出された特徴量に基づい
て、人間の脳の構造を模倣するネットワークモデルにつ
いてのパスの重み係数が、認識用パラメータとして求め
られ、パラメータ記憶部３に記憶される。そして、認識
時には、パラメータ記憶部３に記憶されているパスの重
み係数によって規定されるニューラルネットワークに、
音響分析部２から出力される音声の特徴量を入力して得
られる出力値に基づいて、音声認識結果が決定される。
る。

【００１５】出力部６は、モニタや、スピーカなどで構
成され、認識部５が出力する音声の認識結果を、モニタ
に表示したり、スピーカから出力するようになされてい
る。あるいは、また、出力部６は、認識部５の音声認識
結果に基づいて、図示せぬ装置を制御するようになされ
ている。

【００１６】以上のように構成される音声認識装置で
は、入力部１に音声が入力されると、その音声は、電気
信号としての音声信号に変換され、さらに、必要に応じ
て増幅される。そして、入力部１では、その音声信号
が、例えば１２ｋＨｚなどのクロックにしたがってサン
プリングされ（Ａ／Ｄ変換され）、これにより、ディジ
タルの音声信号とされた後、音響分析部２に出力され
る。

【００１７】音響分析部２では、入力部１からの音声信
号が音響分析され、その特徴量が抽出される。即ち、音
響分析部２では、例えば、音声信号のパワーやエネル
ギ、ゼロ交差数、ピッチ周波数などが抽出される。ある
いは、また、音声信号を、例えば線形予測分析すること
で、線形予測係数が求められ、さらに、その線形予測係
数に基づいて、ケプストラム係数などが求められる。ま
た、音声信号を、例えばＦＦＴ（Fast Fourier Transfo
rm）や、ウェーブレット（Wavelet）変換したり、複数
のＢＰＦ（Band Pass Filter）でなるフィルタバンクで
フィルタリングすることによって周波数分析することで
周波数帯域分割を行い、各帯域ごとのエネルギやパワー
が求められる。

【００１８】音響分析部２においては、上述のような音
声の特徴量の抽出が、所定の微小間隔のフレームごと
に、そのフレームを、一部が隣接するフレームとオーバ
ラップするようにシフトしながら時系列に行われる。そ
して、音響分析部２で求められた音声の特徴量は、認識
部５に出力される。

【００１９】なお、音響分析部２では、上述の音声の特
徴量のいずれか１つだけ求めるようにすることもできる
し、複数を求めるようにすることもできる。

【００２０】さらに、音響分析部２には、以上のように
して求めた、あるフレームの音声の特徴量と、他のフレ
ームの特徴量との差分を求めさせ、これも元の特徴量と
あわせて出力させるようにすることができる。また、音
響分析部２には、上述のような音声の特徴量を、ＫＬ
（Karhunen-Loeve）変換させたり、あるいはニューラル
ネットワークを用いて適当な写像を施させることなどに
より、分離度のより大きな特徴量に変換させ、これを音
声の特徴量として出力させるようにすることもできる。
さらに、音響分析部２において、例えば各周波数帯域ご
とのエネルギなどを要素とするベクトルが、音声の特徴
量として求められる場合には、そのベクトルをベクトル
量子化するなどして圧縮し、これを出力するようにする
こともできる。

【００２１】認識部５では、上述したように音声の特徴
量に対する、パラメータ記憶部３に記憶された認識用パ
ラメータのスコアが計算される。そして、そのスコアに
対応して、音声認識結果が求められ、出力部６に出力さ
れる。出力部６では、認識部５からの音声認識結果が、
例えばモニタに文字で表示され、また、スピーカから音
声で出力される。あるいは、その音声認識結果に基づい
て、所定の装置の制御が行われる。

【００２２】なお、連続音声認識を行う場合には、パラ
メータ記憶部３に認識用パラメータの他、音声認識の対
象としている言語の文法や、単語の意味的な接続関係を
記述した規則も記憶させておくようにし、認識部５にお
いて、その規則に基づいて、単語の並びを制限しながら
音声認識結果が決定される。

【００２３】

【発明が解決しようとする課題】ところで、以上のよう
な音声認識装置は、雑音（背景雑音）のない所で使用さ
れることはほとんどなく、通常は、雑音（背景雑音）の
ある環境下で使用される。従って、例えば防音室などで
得られた、背景雑音のない学習用の音声を用いて学習を
行い、その結果得られる認識用パラメータをパラメータ
記憶部３に記憶させたのでは、実際に音声認識装置が使
用される環境下において、背景雑音を含む音声の認識率
が低下することになる。

【００２４】そこで、ある背景雑音のある環境下におい
て得られた学習用の音声を用いて学習を行い、これによ
り、音声の認識率の低下を防止する方法がある。しかし
ながら、背景雑音は、常に一定のものではなく、環境に
よって変化するため、学習用の音声に含まれる雑音と異
なる背景雑音がある環境下では、音声認識装置の認識性
能が劣化するのを防止することは困難であった。

【００２５】即ち、音声認識アルゴリズムとして、例え
ばＤＰマッチングを採用した場合において、ある環境下
で発話された音声を用いて標準パターンを作成してお
き、その音声と同一の音声を、その環境と異なる背景雑
音の環境下で音声認識装置に入力したときには、その入
力された音声の特徴量は、標準パターンとは異なったも
のとなり、正確に認識されないことがあった。

【００２６】また、例えばＨＭＭを採用したした場合に
おいても、学習時と異なる雑音環境下で認識を行うとき
には、学習時における場合と同一の話者が、同一の音声
を発したとしても、大きく異なるシンボル系列が得られ
ることがあり、やはり、正確な音声の認識がなされない
課題があった。

【００２７】本発明は、このような状況に鑑みてなされ
たものであり、様々な雑音環境下において生じる音声認
識装置の認識性能の劣化を防止（低減）し、これによ
り、良好な音声認識結果を得ることができるようにする
ものである。

【００２８】

【課題を解決するための手段】請求項１に記載の音声認
識装置は、音声が有音声部のものであるか、または無音
声部のものであるかを判定する判定手段と、無音声部の
音声についての特徴量を、所定の特徴量に置き換える置
換手段とを備えることを特徴とする。

【００２９】請求項１０に記載の音声認識方法は、音声
が有音声部のものであるか、または無音声部のものであ
るかを判定し、無音声部の音声についての特徴量を、所
定の特徴量に置き換え、その置き換えの結果を用いて、
スコアを算出することを特徴とする。

【００３０】請求項１に記載の音声認識装置において
は、判定手段は、音声が有音声部のものであるか、また
は無音声部のものであるかを判定し、置換手段は、無音
声部の音声についての特徴量を、所定の特徴量に置き換
えるようになされている。

【００３１】請求項１０に記載の音声認識方法において
は、音声が有音声部のものであるか、または無音声部の
ものであるかを判定し、無音声部の音声についての特徴
量を、所定の特徴量に置き換え、その置き換えの結果を
用いて、スコアを算出するようになされている。

【００３２】

【発明の実施の形態】以下に、本発明の実施例を説明す
るが、その前に、特許請求の範囲に記載の発明の各手段
と以下の実施例との対応関係を明らかにするために、各
手段の後の括弧内に、対応する実施例（但し、一例）を
付加して、本発明の特徴を記述すると、次のようにな
る。

【００３３】即ち、請求項１に記載の音声認識装置は、
入力された音声を音響分析し、その音声の特徴量を抽出
する抽出手段（例えば、図１に示す音響分析部２など）
と、音声の認識に用いる認識用パラメータを記憶してい
る記憶手段（例えば、図１に示すパラメータ記憶部３な
ど）と、特徴量に対する、認識用パラメータそれぞれの
スコアを算出し、そのスコアに基づいて、音声を認識す
る認識手段（例えば、図１に示す認識部５など）とを有
する音声認識装置であって、音声が有音声部のものであ
るか、または無音声部のものであるかを判定する判定手
段（例えば、図２に示す有音声部／無音声部判定部１１
など）と、無音声部の音声についての特徴量を、所定の
特徴量に置き換える置換手段（例えば、図２に示す特徴
量変換部１２など）とを備えることを特徴とする。

【００３４】請求項７に記載の音声認識装置は、無音声
部の音声に基づいて、所定の基準スペクトルを更新する
更新手段（例えば、図３に示す背景雑音更新部２４な
ど）をさらに備えることを特徴とする。

【００３５】請求項１０に記載の音声認識方法は、入力
された音声を音響分析し、その音声の特徴量を抽出する
抽出手段（例えば、図１に示す音響分析部２など）と、
音声の認識に用いる認識用パラメータを記憶している記
憶手段（例えば、図１に示すパラメータ記憶部３など）
と、特徴量に対する、認識用パラメータそれぞれのスコ
アを算出し、そのスコアに基づいて、音声を認識する認
識手段（例えば、図１に示す認識部５など）とを有する
音声認識装置の音声認識方法であって、音声が有音声部
のものであるか、または無音声部のものであるかを判定
し、無音声部の音声についての特徴量を、所定の特徴量
に置き換え、その置き換えの結果を用いて、スコアを算
出することを特徴とする。

【００３６】なお、勿論この記載は、各手段を上記した
ものに限定することを意味するものではない。

【００３７】図１は、本発明を適用した音声認識装置の
一実施例の構成を示している。なお、図中、図７におけ
る場合と対応する部分については、同一の符号を付して
あり、以下では、その説明は、適宜省略する。即ち、こ
の音声認識装置は、音響分析部２と認識部５との間に、
環境適応処理部４が設けられている他は、図７の音声認
識装置と同様に構成されている。

【００３８】環境適応処理部４は、入力部１が出力する
音声信号に基づいて、音声が有音声部のものであるか、
または無音声部のものであるかを判定し、音響分析部２
が出力する音声の特徴量のうち、無音声部の音声につい
ての特徴量を、所定の特徴量に置き換えるようになされ
ている。

【００３９】即ち、入力部１から出力される音声信号の
うち、例えば背景雑音のパワーより充分大きなパワーを
有する部分などは、背景雑音の影響をそれほど受けるこ
とがなく、従って、このような部分については、背景雑
音が変化しても、ほぼ同一の特徴量を得ることができ
る。一方、例えば背景雑音のパワーより充分大きなパワ
ーを有しない部分などは、背景雑音の影響を受け易く、
従って、背景雑音が異なれば、その特徴量も異なるもの
となる。特に、パワーがゼロの部分（音声区間でない部
分や、破裂音における無音の部分）については、背景雑
音の変化が、そのまま、音響分析部２で求められる特徴
量の変化として現れる。このような部分の特徴量の変化
が、認識部３において算出されるスコア（例えば、ＨＭ
Ｍにおける生起確率や、ＤＰマッチングにおけるテンプ
レートとの距離など）に大きな影響を与え、これにより
認識性能が劣化する。

【００４０】そこで、環境適応処理部４では、音声（真
の音声の他、雑音も含むもの）が、真の音声についての
特徴量を抽出可能な部分である有音声部のものである
か、または真の音声についての特徴量の抽出が困難な部
分である無音声部のものであるかが判定され、音響分析
部２が出力する音声の特徴量のうち、無音声部について
の特徴量が、異なる背景雑音の環境下において同一の音
声認識結果が得られるような特徴量に置換され、その置
換後の特徴量が認識部５に出力されるようになされてい
る。

【００４１】具体的には、環境適応処理部４において
は、無音声部についての特徴量は、例えば学習時に用い
た学習用の音声の無音声部から得られる特徴量や、無音
声部に対する認識用パラメータのスコアがすべて同一に
なるような特徴量などに置き換えられるようになされて
いる。

【００４２】次に、その動作について説明する。なお、
ここでは、認識部５において、例えばＨＭＭにより音声
認識が行われるものとする。従って、パラメータ記憶部
３には、確率モデルを規定する遷移確率とシンボル出力
確率とが、あらかじめ学習により求められて記憶されて
いるものとする。

【００４３】入力部１に音声が入力されると、その音声
は、前述したように、ディジタル信号の音声信号とさ
れ、音響分析部２および環境適応処理部４に出力され
る。音響分析部２では、入力部１からの音声信号が、例
えば周波数分析されることによって、各周波数帯域ごと
のパワーを要素とするベクトル（特徴ベクトル）とさ
れ、さらに、この特徴ベクトルが、あらかじめ生成され
たコードブックに基づいてベクトル量子化されること
で、シンボルとされる。音響分析部２においては、以上
のような処理がフレーム単位で行われ、これにより、シ
ンボルが時系列に環境適応処理部４に出力される。

【００４４】環境適応処理部４は、例えば図２に示すよ
うに有音声部／無音声部判定部１１と特徴量変換部１２
とで構成されている。有音声部／無音声部判定部１１で
は、入力部１からの音声信号に基づいて、音響分析部２
が出力する音声の特徴量としてのシンボルが、有音声部
または無音声部のうちのいずれのものであるかが判定さ
れ、その判定結果が特徴量変換部１２に供給される。特
徴量変換部１２では、音響分析部２が出力するシンボル
系列のうち、有音声部／無音声部判定部１１において無
音声部であると判定されたフレームにおけるシンボル
が、所定のシンボルに変換される。

【００４５】即ち、例えば、学習時において学習用の音
声から得られるシンボルのうち、学習用の音声の無音声
部についてのシンボル（従って、学習用の音声が発話さ
れた環境における背景雑音から得られるシンボル）（そ
のようなシンボルは、通常、複数個存在するので、その
場合には、例えばその出現頻度が最も高いシンボル）を
あらかじめ求めておき、そのシンボルに、有音声部／無
音声部判定部１１において無音声部であると判定された
フレームにおけるシンボルが、特徴量変換部１２におい
て置き換えられる。

【００４６】あるいは、また、音響分析部２におけるベ
クトル量子化の結果得られるシンボル以外に、特別なシ
ンボルを決めておくとともに、そのシンボルのシンボル
出力確率を、すべての確率モデルについて同一にしてお
き、そのシンボルに、有音声部／無音声部判定部１１に
おいて無音声部であると判定されたフレームにおけるシ
ンボルが、特徴量変換部１２において置き換えられる。

【００４７】特徴量変換部１２において置き換えのなさ
れたシンボル系列は認識部５に出力され、認識部５で
は、スコアとして、そのシンボル系列についての生起確
率が、例えば前向きパスアルゴリズムやビタビ（Viterb
i）アルゴリズムなどにしたがって計算される。そし
て、そのスコアに基づいて、入力部１に入力された音声
の認識結果が決定され、出力部６を介して出力される。

【００４８】なお、例えば、音響分析部２において、入
力部１に入力された音声の各周波数帯域ごとのパワーを
要素とするベクトル（特徴ベクトル）を求め、これを特
徴量として、認識部５において、例えばＤＰマッチング
により音声認識を行う場合には、学習時において学習用
の音声から得られる特徴ベクトルのうち、学習用の音声
の無音声部についての特徴ベクトル（従って、学習用の
音声が発話された環境における背景雑音から得られる特
徴ベクトル）（そのような特徴ベクトルは、通常、複数
種類存在するので、その場合には、例えばその平均値
（平均ベクトル）など）をあらかじめ求めておき、その
特徴ベクトルに、有音声部／無音声部判定部１１におい
て無音声部であると判定されたフレームにおける特徴ベ
クトルを置き換えるようにすれば良い。

【００４９】あるいは、また、パラメータ記憶部２に記
憶されているテンプレートすべてから等距離にある特徴
ベクトルを求めておき、その特徴ベクトルに、有音声部
／無音声部判定部１１において無音声部であると判定さ
れたフレームにおける特徴ベクトルを置き換えるように
することもできる。

【００５０】以上のように、無音声部についての特徴量
を置換することで、背景雑音によってスコアは影響を受
けなくなり（スコアに対する背景雑音の影響力が低減さ
れ）、その結果、異なる背景雑音の下で、同一の音声認
識結果が得られるようになる。即ち、音声認識装置の認
識性能の低下を防止（低減）することができる。

【００５１】なお、上述の場合においては、環境適応処
理部４において、無音声部についての特徴量を、所定の
特徴量に置き換えて、認識部５に出力するようにした
が、その他、例えば環境適応処理部４においては、音声
の特徴量とともに、それが、無音声部または有音声部の
うちのいずれのものであるかの判定結果を、認識部５に
出力するようにし、認識部５において、無音声部である
と判定された部分については、シンボル出力確率が、す
べての確率モデルにおいて等確率であるとみなして、あ
るいは、テンプレートそれぞれとの距離が、すべて等距
離であるとみなして、スコアの計算を行うようにするこ
とも可能である。この場合、環境適応処理部４では、無
音声部についての特徴量が、いわば仮想的に所定の特徴
量に置き換えられ、認識部５に出力されるということが
できる。

【００５２】次に、図３は、図２の有音声部／無音声部
判定部１１の構成例を示している。周波数分析部２１
は、入力部１からの音声信号を周波数分析し、そのスペ
クトルを表す、例えば各周波数帯域ごとのパワー（エネ
ルギ）を要素とするベクトル（以下、適宜、入力スペク
トルという）を、判定部２２および背景雑音更新部２４
に出力するようになされている。

【００５３】判定部２２は、背景雑音記憶部２３に記憶
されている、背景雑音を周波数分析することにより得ら
れる、例えば各周波数帯域ごとのパワー（エネルギ）を
要素とするベクトルの平均値（以下、適宜、雑音スペク
トルという）（所定の基準スペクトル）と、周波数分析
部２１からの入力スペクトルとの距離を求め、その距離
と、所定の閾値とを比較するようになされている。さら
に、判定部２２は、その比較結果に基づいて、入力部１
からの音声信号が、有音声部または無音声部のうちのい
ずれのものであるかを判定し、その判定結果を、特徴量
変換部１２および背景雑音更新部２４に出力するように
なされている。

【００５４】背景雑音記憶部２３には、後述するように
して求められた現在の環境における背景雑音についての
雑音スペクトルが記憶される。背景雑音更新部２４は、
判定部２２から、入力部１に入力された音声が、無音声
部のものであるという判定結果を受信した場合、そのと
き周波数分析部２１から供給される入力スペクトルに基
づいて、背景雑音記憶部２３に記憶されている雑音スペ
クトルを更新するようになされている。これにより、背
景雑音記憶部２３には、常時、現在の環境における背景
雑音についての雑音スペクトルが記憶されるようになさ
れている。

【００５５】次に、周波数分析部２１および判定部２２
の動作について、図４のフローチャートを参照して説明
する。まず最初に、ステップＳ１において、入力部１か
らの音声信号が、周波数分析部２１によってフレーム単
位で周波数分析され、これにより、入力スペクトルが求
められる。

【００５６】ここで、周波数分析部２１では、例えばフ
ィルタバンクを用いて音声信号がフィルタリングされた
り、あるいは、また、音声信号をＦＦＴすることによっ
てその振幅特性を計算することにより、各周波数帯域ご
とのパワー（エネルギ）が求められる。入力スペクトル
は、この各周波数帯域ごとのパワーを要素とするベクト
ルであるから、例えば、いま、周波数分析部２１におい
て、Ｎ個の周波数帯域のパワーが求められるとすると、
時刻ｔにおいては、次式で表されるＮ次元のベクトルが
入力スペクトルＸ_tとして求められる。

【００５７】Ｘ_t＝［ｘ_1,t，ｘ_2,t，・・・，ｘ_N,t］^T ・・・（１）但し、ｘ_i,tは、時刻ｔにおける音声信号の第ｉ周波数
帯域のパワーを表す。従って、ｘ_i,tについては、式ｘ_i,t≧０・・・（２）が成立する。また、式（１）において、上付きのＴは、
転置を表す。

【００５８】なお、図１の音響分析部１において、音声
の特徴量として、入力部１が出力する信号の各周波数帯
域ごとのパワーが求められる場合には、それを、入力ス
ペクトルとして用いることができる。この場合、有音声
部／無音声部判定部１１には、周波数分析部２１を設け
る必要がなくなり、装置の簡素化を図ることができる。

【００５９】ステップＳ１で算出された入力スペクトル
Ｘ_tは、判定部２２および背景雑音更新部２４に出力さ
れる。判定部２２では、周波数分析部２１から入力スペ
クトルＸ_tを受信すると、ステップＳ２において、その
入力スペクトルＸ_tと、背景雑音記憶部３３に記憶され
ている雑音スペクトルとの距離εが算出される。

【００６０】ここで、雑音スペクトルをベクトルＶを、
式（１）の入力スペクトルＸ_tと同様に、次式で表す。Ｖ＝［ｖ₁，ｖ₂，・・・，ｖ_N］^T ・・・（３）但し、ｖ_iは、背景雑音の第ｉ周波数帯域のパワーを表
す。

【００６１】この場合、ステップＳ２においては、入力
スペクトルＸ_tと雑音スペクトルＶとの距離εが、例え
ば式（４）や式（５）にしたがって算出される。

【００６２】

【数１】・・・（４）

【数２】・・・（５）

【００６３】そして、ステップＳ３に進み、入力スペク
トルＸ_tと雑音スペクトルＶとの距離εが、所定の閾値
ｒ₁より大きいか否か（所定の閾値ｒ₁以上か否か）が、
判定部２２によって判定される。ステップＳ３におい
て、入力スペクトルＸ_tと雑音スペクトルＶとの距離ε
が、所定の閾値ｒ₁より大きいと判定された場合、即
ち、式 ε＞ｒ₁ ・・・（６）を満たす場合、ステップＳ４に進み、入力部１に入力さ
れた音声が、有音声部のものである旨が、判定部２２よ
り出力され、処理を終了する。また、ステップＳ３にお
いて、入力スペクトルＸ_tと雑音スペクトルＶとの距離
εが、所定の閾値ｒ₁より大きくないと判定された場
合、ステップＳ５に進み、入力部１に入力された音声
が、無音声部のものである旨が、判定部２２より出力さ
れ、処理を終了する。

【００６４】背景雑音は、前述したように、環境が異な
れば変化するが、ある短い時間（例えば、フレームに相
当する時間など）に着目すれば、その周波数特性は、そ
れほど大きく変動しない場合が多い。従って、入力部１
から出力される信号が、背景雑音のみを含む場合、ある
いは、背景雑音でそのほとんどが占められるものである
場合、即ち、無音声部の信号である場合、その信号から
得られる入力スペクトルＸ_tと、背景雑音記憶部２３に
記憶されている周波数スペクトルＶとは、それほど異な
るものにはならない。これに対し、入力部１から出力さ
れる信号が、無音声部の信号から、真の音声でそのほと
んどが占められるもの、即ち、有音声部の信号に変化し
た場合、その信号の周波数特性は大きく変動する。即
ち、その信号から得られる入力スペクトルＸ_tと、背景
雑音記憶部２３に記憶されている周波数スペクトルＶと
は、大きく異なるものとなる。

【００６５】判定部２２では、この点に着目し、上述し
たように、入力スペクトルＸ_tと雑音スペクトルＶとの
距離εが所定の閾値ｒ₁より大きいか否かで、入力部１
から出力される信号が、有音声部または無音声部のうち
のいずれの信号であるが判定される。

【００６６】なお、入力スペクトルＸ_tと雑音スペクト
ルＶとの距離εとしては、上述した式（４）や（５）に
したがって求められるものの他、例えば分散を考慮した
マハラノビス（Mahalanobis）距離などを用いるように
することも可能である。

【００６７】また、閾値ｒ₁は、例えば実験などによっ
て求めるようにすることができる。さらに、この閾値ｒ
₁は固定値とすることもできるし、また、必要に応じて
変化させるようにすることもできる。閾値ｒ₁を可変と
する場合は、例えば次のようにして変化させることがで
きる。

【００６８】即ち、例えば、背景雑音記憶部２３に記憶
されている雑音スペクトルＶの大きさ｜Ｖ｜を求め、こ
の｜Ｖ｜にしたがって、閾値ｒ₁を変化させるようにす
ることができる。また、例えば、背景雑音記憶部２３に
記憶されている雑音スペクトルＶを、後述するようにし
て更新する際に、その共分散行列Σを求めるようにし、
その行列式｜Σ｜や、トレースｔｒ（Σ）にしたがっ
て、閾値ｒ₁を変化させるようにすることなどもでき
る。

【００６９】ある変数ｘにしたがって、閾値ｒ₁を変化
させる方法としては、例えば次式にしたがって、閾値ｒ
₁を、変数ｘに比例させる方法などがある。

【００７０】ｒ₁＝ａｘ＋ｂ・・・（７）但し、ａ，ｂは所定の定数であり、例えば実験などによ
り求めるようにすることができる。

【００７１】なお、式（７）などにしたがって、閾値ｒ
₁を変化させる場合には、その上限値ｒ_maxと下限値ｒ
_minとを設定しておき、その範囲内で変化させるように
するのが望ましい。ここで、閾値ｒ₁を、上限値ｒ_maxと
下限値ｒ_minを設定して、式（７）にしたがって変化さ
せる場合の、変数ｘと閾値ｒ₁との関係を、図５に示
す。

【００７２】また、閾値ｒ₁は、１つの変数ｘにしたが
って変化させるのではなく、例えば雑音スペクトルＶ
と、その共分散行列Σなどの２以上の変数にしたがって
変化させるようにすることも可能である。この場合、所
定の関数をｆ（）と表すとすると、閾値ｒ₁は、次式に
したがって変更されることになる。ｒ₁＝ｆ（Ｖ，Σ）・・・（８）

【００７３】さらに、上述の場合においては、有音声部
／無音声部判定部１１を、図３に示したように構成し、
入力スペクトルＸ_tと雑音スペクトルＶとの距離εに基
づいて、有音声部と無音声部とを識別するようにした
が、この有音声部と無音声部との識別は、例えば、次の
ようにして、有音声部／無音声部判定部１１に行わせる
ようにすることも可能である。

【００７４】即ち、例えば、有音声部または無音声部そ
れぞれのエネルギ（パワー）が大きいまたは小さいこと
に着目し、入力部１から出力された信号のエネルギ（パ
ワー）を求め、そのエネルギに基づいて、有音声部と無
音声部との識別を行うようにすることができる。具体的
には、入力部１から出力された信号のエネルギｅを、例
えば式（９）にしたがって求め、そのエネルギｅが式
（１０）を満たすかどうかで、有音声部と無音声部との
識別を行うようにする。

【００７５】

【数３】・・・（９）

【００７６】ｅ＞ｒ₂ ・・・（１０）但し、ｒ₂は、実験などによって求められる所定の閾値
である。

【００７７】そして、エネルギｅが式（１０）を満たす
場合、または満たさない場合、入力部１から出力された
信号は、それぞれ有音声部または無音声部の信号と判定
（識別）するようにする。

【００７８】なお、閾値ｒ₂は、閾値ｒ₁における場合と
同様に、例えば雑音スペクトルの大きさや共分散などに
したがって変化させるようにすることが可能である。ま
た、入力部１から出力された信号のエネルギｅは、式
（９）にしたがって、その周波数特性から求める他、そ
の信号の振幅値（入力部１におけるＡ／Ｄ変換の結果得
られる音声信号のサンプル値そのもの）から求めるよう
にすることもできる。

【００７９】さらに、有音声部と無音声部との識別は、
その他、例えば、次のようにして、有音声部／無音声部
判定部１１に行わせるようにすることもできる。即ち、
入力部１から出力される信号の符号が反転する回数（正
から負になる回数および負から正になる回数）、つまり
ゼロ交差数を、所定の単位時間ごとにカウントし、その
単位時間あたりのゼロ交差数であるゼロ交差速度ｚを求
め、このゼロ交差速度ｚが式（１１）を満たすかどうか
で、有音声部と無音声部との識別を行うようにする。

【００８０】ｚ＞ｒ₃ ・・・（１１）但し、ｒ₃は、実験などによって求められる所定の閾値
である。

【００８１】この場合、ゼロ交差速度ｚが、式（１１）
を満たすとき、または満たさないとき、例えば入力部１
から出力された信号は、それぞれ有音声部または無音声
部の信号と判定（識別）するようにする。

【００８２】また、有音声部と無音声部との識別は、以
上の方法を複数組み合わせて行ったり、さらに、その他
の方法を用いて行うことも可能である。

【００８３】次に、図６のフローチャートを参照して、
図３の背景雑音更新部２４の動作について説明する。背
景雑音更新部２４では、まず最初に、ステップＳ１１に
おいて、入力部１から出力された信号が、有音声部また
は無音声部のうちのいずれの信号であるかが、判定部２
２の判定結果に基づいて判定される。ステップＳ１１に
おいて、入力部１から出力された信号が、無音声部の信
号であると判定された場合、ステップＳ１２に進み、背
景雑音記憶部２３に記憶されている雑音スペクトルＶが
更新される。

【００８４】即ち、ステップＳ１２では、背景雑音記憶
部２３に記憶されている雑音スペクトルＶが、入力部１
から出力された無音声部の信号が周波数分析部２１で周
波数分析されることにより得られる入力スペクトルＸ_t
を用い、例えば次式にしたがって更新される。

【００８５】Ｖ＝α₁Ｖ＋β₁Ｘ_t ・・・（１２）但し、α₁，β₁は、所定の重み係数であり、式 α₁＋β₁＝１．０・・・（１３）を満たすように（例えばα₁＝０．９５，β₁＝０．０５
などのように）、あらかじめ設定されている。

【００８６】なお、背景雑音記憶部２３に記憶されてい
る雑音スペクトルＶを大きく変化させたくない場合に
は、α₁を大きな値に設定し、また、背景雑音記憶部２
３に記憶された雑音スペクトルＶを、現在の環境に、よ
り迅速に追従させたい場合には、β₁を大きな値に設定
すれば良い。背景雑音記憶部２３に記憶された雑音スペ
クトルＶを、現在の環境に、即座に対応させるには、極
端には、α₁＝０，β₁＝１とすれば良いが、このように
すると、判定部２２において、有音声部が、無音声部と
誤って認識された場合には、その有音声部から得られる
入力スペクトルが、現在の環境下における背景雑音の雑
音スペクトルとされることとなり、好ましくない。従っ
て、β₁はあまり大きな値にしない方が望ましい（α₁は
あまり小さな値としない方が望ましい）。

【００８７】また、図４で説明した閾値ｒ₁を、上述し
たように、雑音スペクトルＶの共分散行列Σを用いて変
化させる場合には、ステップＳ１２では、雑音スペクト
ルＶの更新後、その共分散行列Σも、入力部１から出力
された無音声部の信号が周波数分析部２１で周波数分析
されることにより得られる入力スペクトルＸ_tを用い、
例えば次式にしたがって更新される。

【００８８】 Σ＝α₂Σ＋β₂（Ｖ−Ｘ_t）（Ｖ−Ｘ_t）^T ・・・（１４）但し、α₂，β₂は、所定の重み係数であり、式 α₂＋β₂＝１．０・・・（１５）を満たすように、あらかじめ設定されている。

【００８９】なお、以上においては、入力部１から出力
された信号が、無音声部の信号であると判定されたとき
に、その無音声部の信号が周波数分析部２１で周波数分
析されることにより得られる入力スペクトルＸ_tのみを
用いて、雑音スペクトルＶやその共分散行列Σを更新す
るようにしたが、雑音スペクトルＶやその共分散行列Σ
の更新は、その他、例えば、入力部１から出力された信
号が、無音声部の信号であると判定されたときに得られ
る無音声部の信号の入力スペクトルを、最新のものから
Ｍ個だけ記憶しておくようにし、そのＭ個の入力スペク
トルを用いて行うようにすることなども可能である。即
ち、例えば、そのＭ個の入力スペクトルの平均値を、雑
音スペクトルＶの更新値とすることなどが可能である。

【００９０】ここで、雑音スペクトルＶの更新は、判定
部２２の判定結果に基づいて行われる。また、判定部２
２における有音声部か、または無音声部かの判定は、雑
音スペクトルＶを用いて行われる。従って、時刻ｔにお
ける判定部２２の判定は、時刻ｔ−１までに更新された
雑音スペクトルＶを用いて行われることになる。なお、
背景雑音記憶部２３には、初期値として、例えば学習時
における背景雑音の周波数分析結果を記憶させておくよ
うにする。

【００９１】ステップＳ１２の処理後は、入力部１から
出力された信号が、有音声部の信号であると連続して判
定された回数をカウントする変数ｄが、例えば０にリセ
ットされ、ステップＳ１１に戻る。

【００９２】一方、ステップＳ１１において、入力部１
から出力された信号が、有音声部の信号であると判定さ
れた場合、ステップＳ１４に進み、変数ｄが１だけイン
クリメントされ、ステップＳ１５に進む。ステップＳ１
５では、変数ｄが、所定値ｄ_maxより大きいか否かが判
定され、大きくないと判定された場合、ステップＳ１１
に戻る。従って、入力部１から出力された信号が無音声
部の信号、即ち、背景雑音である場合だけ、その背景雑
音を用いて、背景雑音記憶部２３の記憶値が更新され
る。

【００９３】また、ステップＳ１５において、変数ｄ
が、所定値ｄ_maxより大きいと判定された場合、即ち、
入力部１から出力された信号が、有音声部の信号である
と、所定の時間（所定値ｄ_maxに対応する時間）連続し
て判定された場合、ステップＳ１２に進み、上述したよ
うに、背景雑音記憶部２３に記憶されている雑音スペク
トルＶ、および必要に応じてその共分散行列Σが更新さ
れる。

【００９４】このように、入力部１から出力された信号
が、有音声部の信号であると、所定の時間連続して判定
された場合に、背景雑音記憶部２３に記憶されている雑
音スペクトルＶや共分散行列Σの更新を行うのは次のよ
うな理由による。

【００９５】即ち、実際の音声が入力されていないのに
も拘らず、例えば、装置を使用する環境が、比較的雑音
の少ない環境から、雑音の多い環境に急に変化した場合
には、判定部２２において、雑音が有音声部と誤って判
定される可能性があり、この場合、背景雑音記憶部２３
に記憶されている雑音スペクトルＶの更新が行われない
ため、その後も、雑音が有音声部と誤って判定され続け
ることになる。

【００９６】そこで、このような環境の急激な変化があ
った場合に、雑音スペクトルＶの更新がされない状態が
続くことを防止するために、入力部１から出力された信
号が、有音声部の信号であると、所定の時間連続して判
定された場合には、いわば強制的に、背景雑音記憶部２
３に記憶されている雑音スペクトルＶが更新されるよう
になされている。

【００９７】なお、無音声部を挿入することなく行うこ
とのできる発話の最長時間は、例えば統計をとることな
どによって推定することができるから、上述の所定の時
間は、そのような最長時間以上に設定するようにすれば
良い。

【００９８】以上、本発明を適用した音声認識装置につ
いて説明したが、このような音声認識装置は、例えばカ
ーナビゲーションその他の装置の制御を、キーボードな
どの操作に代えて音声によって行う場合に用いたり、ま
た、ロボットその他のインタラクティブなシステムとユ
ーザとの間のインターフェイスなどとして用いることが
可能である。

【００９９】なお、本実施例では、入力部１から出力さ
れた信号が無音声部の信号と判定された場合には、常に
その無音声部についての特徴量を置換するようにした
が、装置の使用環境が、学習時における環境と同一の場
合や似ている場合には、入力部１から出力された信号が
無音声部の信号と判定されたときでも、その無音声部に
ついての特徴量の置換を行わず、そのまま認識に用いる
ようにすることが可能である。これは、学習時における
背景雑音のスペクトルを保持しておき、このスペクトル
が、無音声部と判定された信号のスペクトルと同一また
は類似の場合には、その特徴量を置換しないようにする
ことで行うことができる。

【０１００】また、本実施例においては、有音声部また
は無音声部のいずれであるかを判定する場合と、音声の
認識を行う場合とで、同一の特徴量（本実施例では、上
述したように、周波数帯域分割された各帯域のエネルギ
を要素とするベクトル）を用いるようにしたが、有音声
部または無音声部のいずれであるかの判定と、音声の認
識とを行う場合では、異なる特徴量を用いることが可能
である。

【０１０１】さらに、本実施例では、ＨＭＭによる音声
認識を行う場合、シンボル出力確率に着目して、無音声
部のシンボルと置き換えるシンボルのシンボル出力確率
を、すべての確率モデルで同一になるようにしたが、シ
ンボル出力確率だけでなく、状態遷移確率についても、
何らかの処理を施すようにすることが可能である。

【０１０２】また、本発明は、孤立単語音声認識装置の
他、連続音声認識装置などにも適用可能である。

【０１０３】

【発明の効果】請求項１に記載の音声認識装置および請
求項１０に記載の音声認識方法によれば、音声が有音声
部のものであるか、または無音声部のものであるかが判
定され、無音声部の音声についての特徴量が、所定の特
徴量に置き換えらえる。そして、その置き換えの結果を
用いて、スコアが算出される。従って、学習時における
雑音環境と異なる雑音環境下において、良好な音声認識
結果を得ることが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置の一実施例の構
成を示すブロック図である。

【図２】図１の環境適応処理部４の構成例を示すブロッ
ク図である。

【図３】図２の有音声部／無音声部判定部１１の構成例
を示すブロック図である。

【図４】図３の周波数分析部２１および判定部２２の動
作を説明するためのフローチャートである。

【図５】変数ｘと閾値ｒ₁との関係を示す図である。

【図６】図３の背景雑音更新部２４の動作を説明するた
めのフローチャートである。

【図７】従来の音声認識装置の一例の構成を示すブロッ
ク図である。

【符号の説明】

１入力部２音響分析部３パラメータ記憶部４環境適応処理部５認識部６出力部１１有音声部／無音声部判定部１２特徴量変換部２１周波数分析部２２判定部２３背景雑音記憶部２４背景雑音更新部

Claims

【特許請求の範囲】

【請求項１】入力された音声を音響分析し、その音声
の特徴量を抽出する抽出手段と、前記音声の認識に用いる認識用パラメータを記憶してい
る記憶手段と、前記特徴量に対する、前記認識用パラメータそれぞれの
スコアを算出し、そのスコアに基づいて、前記音声を認
識する認識手段とを有する音声認識装置であって、前記音声が有音声部のものであるか、または無音声部の
ものであるかを判定する判定手段と、前記無音声部の音声についての前記特徴量を、所定の特
徴量に置き換える置換手段とを備えることを特徴とする
音声認識装置。
【請求項２】前記置換手段は、前記無音声部の音声に
ついての前記特徴量を、前記記憶手段に記憶されている
前記認識用パラメータを求めるときに用いた音声の無音
声部から得られる特徴量に置き換えることを特徴とする
請求項１に記載の音声認識装置。
【請求項３】前記置換手段は、前記無音声部の音声に
ついての前記特徴量を、その無音声部に対する、前記認
識用パラメータの前記スコアすべてが同一になるような
特徴量に置き換えることを特徴とする請求項１に記載の
音声認識装置。
【請求項４】前記判定手段は、前記音声のエネルギまたはパワーを求め、そのエネルギまたはパワーに基づいて、前記音声が有音
声部のものであるか、または無音声部のものであるかを
判定することを特徴とする請求項１に記載の音声認識装
置。
【請求項５】前記判定手段は、単位時間あたりの前記音声のゼロ交差数であるゼロ交差
速度を求め、そのゼロ交差速度に基づいて、前記音声が有音声部のも
のであるか、または無音声部のものであるかを判定する
ことを特徴とする請求項１に記載の音声認識装置。
【請求項６】前記判定手段は、前記音声を周波数分析し、その結果得られる前記音声のスペクトルと、所定の基準
スペクトルとの距離を求め、その距離を、所定の閾値と比較し、その比較結果に基づいて、前記音声が有音声部のもので
あるか、または無音声部のものであるかを判定すること
を特徴とする請求項１に記載の音声認識装置。
【請求項７】前記無音声部の音声に基づいて、前記所
定の基準スペクトルを更新する更新手段をさらに備える
ことを特徴とする請求項６に記載の音声認識装置。
【請求項８】前記判定手段は、前記更新手段により更
新された前記所定の基準スペクトルに基づいて、前記所
定の閾値を変更することを特徴とする請求項７に記載の
音声認識装置。
【請求項９】前記更新手段は、前記判定手段により前
記音声が有音声部のものであると、所定の時間以上連続
して判定された場合、前記所定の基準スペクトルを更新
することを特徴とする請求項７に記載の音声認識装置。
【請求項１０】入力された音声を音響分析し、その音
声の特徴量を抽出する抽出手段と、前記音声の認識に用いる認識用パラメータを記憶してい
る記憶手段と、前記特徴量に対する、前記認識用パラメータそれぞれの
スコアを算出し、そのスコアに基づいて、前記音声を認
識する認識手段とを有する音声認識装置の音声認識方法
であって、前記音声が有音声部のものであるか、または無音声部の
ものであるかを判定し、前記無音声部の音声についての前記特徴量を、所定の特
徴量に置き換え、その置き換えの結果を用いて、前記スコアを算出するこ
とを特徴とする音声認識方法。