JP2737624B2

JP2737624B2 - 音声認識装置

Info

Publication number: JP2737624B2
Application number: JP5331478A
Authority: JP
Inventors: 啓三郎 ▲高▼木
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1993-12-27
Filing date: 1993-12-27
Publication date: 1998-04-08
Anticipated expiration: 2013-04-08
Also published as: DE69423588D1; EP0660300B1; JPH07191689A; EP0660300A1; ES2144031T3; DE69423588T2; US5655057A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関し、特
に入力音声と標準パタンとの雑音環境の違いを適合化さ
せ、耐環境雑音性能を向上する技術に関するものであ
る。

【０００２】

【従来の技術】音声の認識を行なう際に、入力音声の発
声環境と標準パタン音声の発声環境とが異なることによ
り音声の認識率が低下することが知られている。これら
の環境のうち特に音声の認識率低下を招く大きな要因と
しては、背景雑音のように発声者の音声と同時に混入し
スペクトル上で加法的に作用する付加雑音、マイクロホ
ンや電話回線の伝達特性などのようにスペクトルそのも
のを歪ませ、スペクトル上で乗法的に作用する回路歪み
の２つが挙げられる。

【０００３】従来、音声に混入した背景雑音などの付加
雑音の除去を目的としたスペクトルサブトラクションと
呼ばれる手法が存在している。例えば、Ｓ．Ｆ．Ｂｏｌ
ｌ：“ＳｕｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃ
ＮｏｉｓｅｉｎＳｐｅｅｃｈＵｓｉｎｇＳｐ
ｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ”，ＩＥＥＥＴ
ｒａｎｓ．ｏｎＡＳＳＰ，Ｖｏｌ．ＡＳＳＰ−２
７，Ｎｏ．２，１９７９．（以下引用文献［１］とす
る）に述べられているようなスペクトルサブトラクショ
ンを用いた音声認識装置は、例えば図２に示すような構
成となる。すなわち図２では、雑音が重畳した入力音声
はスペクトル計算部２１でスペクトルの時系列に変換さ
れる。雑音推定部２２は入力音声のスペクトルの時系列
のうち音声のない位置のスペクトルを用いて音声全体に
付加されている雑音成分のスペクトルを推定し、雑音除
去部２３はスペクトル計算部２１で得られた入力音声の
スペクトルの時系列全体から雑音推定部２２にて推定し
た雑音のスペクトルを引き算する。特徴ベクトル変換部
２４は、雑音除去部２３で得られた雑音除去後の音声の
スペクトルの時系列を認識に用いる特徴ベクトルの時系
列に変換し、マッチング部２６は例えばＤＰマッチン
グ、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅ
ｌ：隠れマルコフモデル）などの時間軸を正規化して類
似度を計算する手法を用いて標準パタン２５に登録され
た雑音の混入していない標準話者の音声の特徴ベクトル
の時系列と入力音声の特徴ベクトルの時系列との間の類
似度を計算し、類似度が最も高かった辞書候補を認識結
果として出力するように構成されている。このような認
識装置を構成することにより、雑音が入力音声毎に変化
する場合であっても高精度に付加雑音を除去し、高い認
識率を得ることが可能である。

【０００４】また、回線歪みによる認識率の低下を防止
することを目的として、従来より図３に示すような構成
をとることにより行なわれている。すなわち、標準パタ
ン３２は、標準話者の音声を入力音声に用いたものと同
一の特性を有するマイクロホンを用いて収音し、入力音
声が通過した回線と同一の特性を有する回線を通過さ
せ、予め分析部３１と同一の処理により分析されたもの
を登録することにより作成されている。分析部３１は入
力音声を特徴ベクトルの時系列に変換し、マッチング部
３３にて時間軸を正規化して類似度を計算する手法を用
いて標準パタン３２に登録された標準話者の音声の特徴
ベクトルの時系列と入力音声の特徴ベクトルの時系列と
の間の類似度を計算し、類似度が最も高かった辞書候補
を認識結果として出力するように構成されている。この
ような認識装置を構成することにより認識時に使用する
マイクロホンや信号を伝送する回線が予め既知で学習用
音声の収集にも使用可能である場合には、マイクロホン
の特性や回線の伝送特性に起因する回線歪みを標準パタ
ンと入力音声との間で一致させることができ、回線歪み
に影響されない高精度な音声認識装置を提供することが
可能である。

【０００５】図３に示すような構成を用いて、付加的な
雑音を考慮した音声認識装置を提供することも可能であ
る。この場合には、標準パタン３２は、標準話者の音声
の背景雑音を入力音声の背景雑音と一致させた環境で収
集し、予め分析部３１と同一の処理により分析されたも
のを登録することにより実現される。このような認識装
置を構成することにより認識時の背景雑音が予め既知で
学習用音声の収集にも使用可能である場合には、付加雑
音に関して標準パタンと入力音声との間で一致させるこ
とができ、付加雑音に影響されない高精度な音声認識装
置を提供することが可能である。

【０００６】さらに、図２に示す従来のスペクトルサブ
トラクションを用いた音声認識装置に用いる標準パタン
２５を、図３に示す回線歪みを一致させた標準パタン３
２で置き換えることにより、付加雑音と回線歪みの両方
に対して考慮した音声認識装置を提供することも可能で
ある。

【０００７】

【発明が解決しようとする課題】しかしながら、従来の
スペクトルサブトラクションを用いた音声認識装置で
は、マイクロホンや回線の伝達特性などの回線歪みに対
してはまったく考慮がなされておらず、入力音声と標準
パタンを作成した音声との間の回線歪みが異なる場合に
は認識率が大きく低下するという問題点があった。

【０００８】また、標準パタンの回線歪みを入力音声の
回線歪みと一致させるように構成された音声認識装置で
は、入力音声と同一の特性を有するマイクロホンおよび
伝送回線を用いた標準話者音声の収集が可能である場合
にのみ実現可能な方法である。しかし例えば電話音声の
認識を行なう場合などでは、入力音声毎にマイクロホン
や伝送する電話回線が異なり、しかもそれらは予め知る
ことが出来ず、それらを用いて学習用音声を収集するこ
とが不可能であるため、このような音声認識装置を提供
することが出来ないという問題点を有する。この問題点
は、標準パタンの付加雑音を入力音声の付加雑音と一致
させるように構成した音声認識装置の場合においても解
決されない。

【０００９】さらに、スペクトルサブトラクションを用
いた音声認識装置の標準パタン２５を、回線歪みを一致
させた標準パタン３２で置き換えた音声認識装置を構成
する場合においても、回線歪みが学習時には未知である
ような場合には、上に述べたような問題点は解決されな
い。

【００１０】本発明は上述の問題を解決するものであ
り、その目的は、認識時の入力音声を用いて、入力音声
と標準パタンとの間の付加雑音および回線歪みに関する
雑音条件を素早く適合させることにより、付加雑音およ
び回線歪みが予め知られておらず、しかも入力音声毎に
異なっている場合においても雑音環境に影響されない高
性能な音声認識装置を提供することにある。

【００１１】

【課題を解決するための手段】本発明による第１の音声
認識装置は、入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に
変換して蓄えられた雑音区間と音声区間とを有する標準
パタンと、分析部から得られた入力音声の特徴ベクトル
の時系列と前記標準パタンの特徴ベクトルの時系列との
間の時間軸対応付けを行なう予備マッチング部と、入力
音声の特徴ベクトルの時系列および標準パタンの特徴ベ
クトル時系列をそれぞれスペクトルの時系列に変換する
スペクトル変換部と、予備マッチング部から得られた対
応付け情報をもとに、スペクトル変換部から得られた入
力音声および標準パタンのスペクトルの時系列をそれぞ
れ雑音区間、音声区間に分け、各区間毎の平均ベクトル
を算出する平均ベクトル算出部と、平均ベクトル算出部
が算出した平均ベクトルに関し、雑音区間に対応付けら
れたスペクトルの時系列の平均ベクトル同士と音声区間
に対応付けられたスペクトルの時系列の平均ベクトル同
士がそれぞれ一致するような補正を、入力音声のスペク
トルの時系列もしくは標準パタンのスペクトルの時系列
のどちらか一方または両方に対し行なう補正部と、補正
部が補正した入力音声および標準パタンのスペクトルの
時系列をそれぞれ認識のための特徴ベクトルの時系列に
変換する特徴ベクトル変換部と、特徴ベクトル変換部か
ら得られた入力音声および標準パタンの認識のための特
徴ベクトルを用いて標準パタンと入力音声との間の最終
的なマッチングを行ない認識結果として出力するマッチ
ング部とを有する。

【００１２】本発明による第２の音声認識装置は、平均
ベクトル算出部が算出した平均ベクトルに関し、雑音区
間に対応付けられたスペクトルの時系列のどちらか一方
を他方の雑音区間の平均ベクトルＮｉで置換し、音声区
間に対応付けられたスペクトルの時系列から一方の雑音
区間の平均ベクトルＮｔを減じた後に（Ｓｉ−Ｎｉ）／
（Ｓｔ−Ｎｔ）を乗じ（／はスペクトルのチャンネル毎
の除算、Ｓｉは他方の音声区間の平均ベクトル、Ｓｔは
一方の音声区間の平均ベクトル）、さらにＮｉを加算す
る補正部とを有する。

【００１３】

【作用】本発明は、認識時の入力音声を用いて、入力音
声と標準パタンとの間の付加雑音および回線歪みに関す
る雑音条件を素早く適合させることにより、付加雑音お
よび入力音声を収集したマイクロホンや伝送回線が予め
学習時には未知であり、しかも入力音声毎に異なってい
る場合においても入力の雑音環境に影響されない高性能
な音声認識装置を提供できるという効果を得るものであ
り、従来の音声認識装置が有していた欠点を補う効果を
得るものである。

【００１４】まず、本発明による第１の雑音除去装置の
作用を図１を用いて説明する。付加雑音および回線歪み
を含む入力音声は分析部１にて特徴ベクトルの時系列に
変換される。一般に特徴ベクトルとして良く知られてい
るものは、例えば古井“ディジタル音声処理”、東海大
学出版、ｐｐ．１５４−１６０（１９８５）．（以下文
献［２］とする）に述べられている種々のものが知られ
ているが、ここではＬＰＣ分析、ＦＦＴ分析などによっ
て得られるケプストラムを用いる場合について述べるこ
ととし、その導出法については述べない。得られたケプ
ストラムスペクトルの時系列をＸ（ｔ）（ｔは離散的な
時刻）で表す。入力音声には通常発声の前後に音声のな
い、周囲雑音だけが含まれる部分が存在するように分析
を行なう。この理由は、一般に音声の始終端を正確に切
り出すことは困難であり、始端の子音が欠落する場合も
起こり得るので、通常は切り出した始終端より少し長め
の音声を分析することで音声の欠落を防止している。標
準パタン３には予め標準話者音声を分析部１と同様の方
法を用いて分析したものを単語あるいは文章のような認
識対象毎に保持してある。この標準パタン３についても
通常音声区間の前後に雑音区間が含まれるように分析さ
れており、また、雑音区間の開始、終了位置は予め調べ
て保持する。予備マッチング部２は入力音声の特徴ベク
トルの時系列Ｘ（ｔ）と標準パタン３に保持されている
各認識対象語彙との間の時間軸正規化マッチングを行な
い各認識語彙との間の時間軸方向の対応づけを行ない出
力する。時間軸正規化マッチングとしては、例えば文献
［２］のｐｐ．１６２−１７０に述べられているような
ＤＰマッチングあるいはＨＭＭ（ＨｉｄｄｅｎＭａｒ
ｋｏｖＭｏｄｅｌ）などの方法が挙げられる。スペク
トル変換部４は、入力音声の特徴ベクトルの時系列Ｘ
（ｔ）および標準パタンの特徴ベクトルの時系列Ｙ
（ｔ）を、それぞれスペクトルの時系列Ｖ（ｔ）および
Ｗ（ｔ）に変換する。ケプストラムからスペクトルへの
変換は、

【００１５】

【数１】

【００１６】で表され、また、その逆変数は、

【００１７】

【数２】

【００１８】で表される。但し、Ｃはコサイン変換行
列、ｅｘｐ（．）、ｌｏｇ（．）はそれぞれ入力の各要
素に対する指数演算、対数演算を表すものとする。い
ま、入力音声が付加雑音および回線歪みにより変形され
ている時、スペクトル上では、付加雑音は和の形、回線
歪みは積の形で表される。入力音声の付加雑音をＢ_v、
回線歪みをＡ_vで表し、真の音声のスペクトルを

【００１９】

【数３】

【００２０】とすると、

【００２１】

【数４】

【００２２】なる関係が得られる。ここで、Ω_vは音声
が含まれる時刻（音声区間）の集合を表し、Φ_vは、音
声の含まれない時刻（雑音区間）の時刻の集合を表すと
する。スペクトル領域では一般にチャンネル間の相関は
低いためＡ_vは回転を含まない対角行列となる。従って
以後の演算は各チャンネル独立に行なうものとして扱
う。

【００２３】標準パタンの付加雑音をＢ_w、回線歪みを
Ａ_wで表し、真の音声のスペクトルを

【００２４】

【数５】

【００２５】とすると、

【００２６】

【数６】

【００２７】なる関係が得られる。ここで、Ω_wは音声
が含まれる時刻（音声区間）の集合を表し、Φ_wは、音
声の含まれない時刻（雑音区間）の時刻の集合を表すと
する。このスペクトルに関する付加的な雑音および回線
歪みが入力音声と標準パタンとで異なることにより音声
認識に関する照合誤りが起こり、認識率が低下する要因
となる。本発明では、入力音声および標準パタンそれぞ
れの雑音区間、音声区間におけるスペクトルの平均値を
用い、両者の間の付加雑音および回線歪みを同時に適合
化させ、平均値に関して両者が等しくなるような補正を
行なう。この補正は、入力音声に対して行なうことも標
準パタンに対して行なうことも可能であるが、ここでは
標準パタンに対して行なった場合について述べる。い
ま、入力音声のスペクトルのうち予備マッチング部２に
より標準パタンの音声区間に対応付けられた部分の平均
スペクトルをＳ_v、雑音区間に対応付けられた部分の平
均スペクトルをＮ_vとすると、

【００２８】

【数７】

【００２９】で計算される。ここで、Ω、Φはそれぞれ
標準パタンの音声区間、雑音区間に対応付けがなされた
時刻の集合であり、

【００３０】

【外１】

【００３１】はそれぞれ音声区間、雑音区間に対応付け
がなされた部位の個数を表すものとする。この例では、
総加平均を求める場合を示したが、相乗平均を用いるこ
とも可能である。一方、標準パタンの音声区間の平均ス
ペクトルをＳ_w、雑音区間の平均スペクトルをＮ_wとす
ると、

【００３２】

【数８】

【００３３】で計算される。ここで、

【００３４】

【外２】

【００３５】はそれぞれ音声区間、雑音区間のフレーム
の個数を表すものとする。また、これらの平均ベクトル
に関しても相乗平均を用いることも可能である。

【００３６】一方、式（３），（４）を用いて入力音声
および標準パタンの平均ベクトルを計算すると、

【００３７】

【数９】

【００３８】ここで、

【００３９】

【外３】

【００４０】は、それぞれ区間に含まれるフレーム数と
する。式（５）の対応付け、すなわちΩ、Φがある程度
の高い精度で求められたとすると、式（５）および式
（７）とから以下のような近似が得られる。すなわち、

【００４１】

【数１０】

【００４２】となる。ただし、ベクトル同士の除算はチ
ャンネル成分毎の除算を表し、Ａ_vに関しては対角成分
に対する演算を表しているものとする。

【００４３】これと同様に式（６）および式（８）とか
ら以下のような近似が得られる。すなわち、

【００４４】

【数１１】

【００４５】となる。式（９），（１０）で求めたＡ、
Ｂを用い、標準パタン音声を新しく入力の付加雑音、回
線歪みによる雑音環境の音声へ適合するために、標準パ
タンの雑音区間に対しては入力音声の雑音で置き換え、
標準パタンの音声区間に関しては真の音声のスペクトル
に入力の伝送歪みを掛け、さらに入力の雑音を加えるこ
とにより行なう。すなわち、標準パタンの雑音区間につ
いては、

【００４６】

【数１２】

【００４７】で置き換える。また、標準パタンの音声区
間のスペクトルに関しては、

【００４８】

【数１３】

【００４９】となる。ここで、

【００５０】

【数１４】

【００５１】はそれぞれ標準パタンおよび入力音声に関
する真の（雑音が重畳されていない）スペクトルの音声
区間での平均値であり、入力音声と標準パタンとが同一
語彙に関する発声であるとみなし、両者は等しいと近似
することにより、結局式（１２）は、

【００５２】

【数１５】

【００５３】となる。すなわち、補正部６は、式（１
１），（１３）に従い、標準パタンを入力音声の付加雑
音、回線歪みを用いて適合化させ、環境に関する適合化
を行なう。この例では、標準パタンに対しての演算を示
したが、同様の方法を入力音声に対して行なっても良
い。また、この他、どちらか一方の平均値が他方の平均
値に等しくなるように一定の付加雑音を付加したり、あ
るいは平均値が等しくなるように一定の回線歪み成分を
掛けることにより補正を行なうことも可能である。式
（１１），（１３）に示すように補正を行なうことで、
標準パタンの雑音区間、音声区間の平均スペクトルは入
力音声の雑音区間、音声区間の平均値と等しくなってい
る。

【００５４】特徴ベクトル変換部７は、式（２）に示す
変換、すなわちスペクトルからケプストラムへの変換を
行なう。また、ケプストラムのみならず、入力音声のパ
ワー情報、パワーの差分情報、ケプストラムの線形回帰
係数などを含めることも可能である。マッチング部８
は、特徴ベクトル変換部７が変換した特徴ベクトルを用
いて標準パタンの各認識対象語彙と入力音声との間の時
間軸正規化マッチングを行ないもっとも類似度の高い語
彙を認識結果として出力する。

【００５５】すなわち、本発明によれば、認識時の入力
音声を用いて、入力音声と標準パタンとの間の付加雑音
および回線歪みに関する雑音条件を素早く適合させるこ
とにより、付加雑音および入力音声を収集したマイクロ
ホンや伝送回線が予め学習時には未知であり、しかも入
力音声毎に異なっている場合においても入力の雑音環境
に影響されない高性能な音声認識装置を提供できるとい
う効果を得、従来の音声認識装置が有していた欠点を補
う効果を有する。

【００５６】

【実施例】以下、図面を参照しながら本発明の一実施例
について具体的に説明する。

【００５７】図１は本発明による第１の音声認識装置を
示す一実施例のブロック図である。この音声認識装置
は、入力音声を特徴ベクトルの時系列に変換する分析部
１と、予め学習用音声を特徴ベクトルの時系列に変換し
て蓄えられた雑音区間と音声区間とを有する標準パタン
３と、分析部１から得られた入力音声の特徴ベクトルの
時系列と標準パタンの特徴ベクトルの時系列との間の時
間軸対応付けを行なう予備マッチング部２と、入力音声
の特徴ベクトルの時系列および標準パタン３の特徴ベク
トル時系列をそれぞれスペクトルの時系列に変換するス
ペクトル変換部４と、予備マッチング部２から得られた
対応付け情報をもとに、スペクトル変換部４から得られ
た入力音声および標準パタンのスペクトルの時系列をそ
れぞれ雑音区間、音声区間に分け、各区間毎の平均ベク
トルを算出する平均ベクトル算出部５と、平均ベクトル
算出部５が算出した平均ベクトルに関し、雑音区間に対
応付けられたスペクトルの時系列の平均ベクトル同士と
音声区間に対応付けられたスペクトルの時系列の平均ス
ペクトル同士がそれぞれ一致するような補正を、入力音
声のスペクトルの時系列もしくは標準パタンのスペクト
ルの時系列のどちらか一方または両方に対し補正を行な
う補正部６と、補正部６が補正した入力音声および標準
パタンのスペクトルの時系列をそれぞれ認識のための特
徴ベクトルの時系列に変換する特徴ベクトル変換部７
と、特徴ベクトル変換部７から得られた入力音声および
標準パタンの認識のための特徴ベクトルを用いて標準パ
タンと入力音声との間の最終的なマッチングを行ない認
識結果として出力するマッチング部８とを有している。

【００５８】付加雑音および回線歪みを含む入力音声は
分析部１にて予備マッチングのための特徴ベクトルの時
系列に変換される。一般に特徴ベクトルとして良く用い
られているものは、パワー情報、パワー情報の変化量、
ケプストラム、ケプストラムの線形回帰係数などが考え
られ、これらを含ませたものを特徴ベクトルとすること
も可能である。あるいはまた、スペクトルそのものを用
いたり、対数化スペクトルを用いることも可能である。
入力音声には通常発声の前後に音声のない、周囲雑音だ
けが含まれる部分が存在するように分析を行なう。標準
パタン３には予め標準話者音声を分析部１と同様の方法
を用いて分析したものを単語あるいは文章のような認識
対象毎に保持してある。この標準パタン３についても通
常音声区間の前後に雑音区間が含まれるように分析され
ており、また、雑音区間の開始、終了位置は予め調べて
保持している。予備マッチング部２は入力音声の特徴ベ
クトルの時系列と標準パタン３に保持されている各認識
対象語彙との間の時間軸正規化マッチングを行ない各認
識語彙との間の時間軸方向の対応づけを行ない出力す
る。時間軸正規化マッチングとしては、例えば文献
［２］のｐｐ．１６２−１７０に述べられているような
ＤＰマッチングあるいはＨＭＭ（ＨｉｄｄｅｎＭａｒ
ｋｏｖＭｏｄｅｌ）などの方法が挙げられる。スペク
トル変換部４は、入力音声の特徴ベクトルの時系列およ
び標準パタンの特徴ベクトルの時系列を、それぞれスペ
クトルの時系列に変換する。特徴ベクトルが例えばスペ
クトルそのものであるような場合には、このスペクトル
変換部４は省略しても良く、また、特徴ベクトルがいく
つかの種類の特徴ベクトルを組み合わせたもので構成さ
れている場合には、その中からスペクトルへの変換に必
要な情報のみを抜き出してスペクトルへの変換を行なう
ように構成することも可能である。平均ベクトル算出部
５は、予備マッチング部２から得られた対応付け情報を
もとに、スペクトル変換部４から得られた入力音声およ
び標準パタンのスペクトルの時系列をそれぞれ雑音区
間、音声区間に分け、各区間毎のスペクトルの平均ベク
トルを算出する。補正部６は、平均ベクトル算出部５が
算出した入力音声、標準パタンのスペクトルそれぞれの
平均値について雑音区間同士、音声区間同士がそれぞれ
等しくなるような補正を行なう。この補正は、入力音
声、標準パタンのどちらか一方あるいは両方に行なうこ
とが出来る。特徴ベクトル変換部７は、補正部６が補正
した後の入力音声および標準パタンのスペクトルの時系
列を認識に用いる特徴ベクトルの時系列へと変換する。
特徴ベクトルとしては、パワー情報、パワー情報の変化
量、ケプストラム、ケプストラムの線形回帰係数などが
考えられ、これら複数を組み合わせたのを特徴ベクトル
とすることも可能である。また、スペクトルそのものを
用いたり、対数化スペクトルを用いることも可能であ
る。マッチング部８は、特徴ベクトル変換部７が変換し
た入力音声および標準パタンの特徴ベクトルの時系列と
の間の類似度を時間軸正規化マッチングを用いて計算
し、類似度が最大のものを認識結果として出力する。

【００５９】この例は、入力音声そのものを用いた補正
について述べたが、例えば時間的にあまり離れていない
入力音声に関しては付加雑音も回線歪みも殆ど同一であ
ることも少なくない。このような場合には毎回入力音声
を用いた平均ベクトル算出および補正を行なわないよう
に構成することも可能である。例えば平均ベクトル算出
部５および補正部６は、前回の発声で用いた補正のため
のパラメータを保持しておき、次回の発声に対してはこ
のパラメータを用いて補正するような構成も可能であ
る。あるいは、補正した標準パタンを次回のために保持
し、次回は標準パタンの補正を行なわず、分析部１は最
終的なマッチングに用いる特徴ベクトルを計算し、マッ
チング部８にて予め保持してある標準パタンとのマッチ
ングを行なうように構成することも可能である。

【００６０】本発明による第２の音声認識装置は、補正
部６が、平均ベクトル算出部５が算出した平均ベクトル
に関し、雑音区間に対応付けられたスペクトルの時系列
のどちらか一方を他方の雑音区間の平均ベクトルＮｉで
置換し、音声区間に対応付けられたスペクトルの時系列
から一方の雑音区間の平均ベクトルＮｔを減じた後に
（Ｓｉ−Ｎｉ）／（Ｓｔ−Ｎｔ）を乗じ（／はスペクト
ルのチャンネル毎の除算、Ｓｉは他方の音声区間の平均
ベクトル、Ｓｔは一方の音声区間の平均ベクトル）、さ
らにＮｉを加算する。例えば、標準パタンのスペクトル
を補正する場合には、式（１１），（１３）に示すよう
な補正を行なう。

【００６１】

【発明の効果】以上から明らかなように、本発明の音声
認識装置によれば、認識時の入力音声を用いて、入力音
声と標準パタンとの間の付加雑音および回線歪みに関す
る雑音条件を素早く適合させることにより、付加雑音お
よび入力音声を収集したマイクロホンや伝送回線が予め
学習時には未知であり、しかも入力音声毎に異なってい
る場合においても入力の雑音環境に影響されない高性能
な音声認識装置を提供できるという効果を得、従来の音
声認識装置が有していた欠点を補う効果を有する。

【図面の簡単な説明】

【図１】本発明による音声認識装置の一実施例を示すブ
ロック図である。

【図２】従来のスペクトルサブトラクションを用いた音
声認識装置を示すブロック図である。

【図３】従来の認識時と同一の回線歪みを有する標準話
者音声で学習した標準パタンを用いた場合の音声認識装
置を示すブロック図である。

【符号の説明】

１，３１分析部２予備マッチング部３，２５，３２標準パタン４スペクトル変換部５平均ベクトル算出部６補正部７，２４特徴ベクトル変換部８，２６，３３マッチング部２１スペクトル計算部２２雑音推定部２３雑音除去部

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して蓄え
られた雑音区間と音声区間とを有する標準パタンと、前記分析部から得られた入力音声の特徴ベクトルの時系
列と前記標準パタンの特徴ベクトルの時系列との間の時
間軸対応付けを行なう予備マッチング部と、前記入力音声の特徴ベクトルの時系列および前記標準パ
タンの特徴ベクトル時系列をそれぞれスペクトルの時系
列に変換するスペクトル変換部と、前記予備マッチング部から得られた対応付け情報をもと
に、前記スペクトル変換部から得られた入力音声および
標準パタンのスペクトルの時系列をそれぞれ雑音区間、
音声区間に分け、各区間毎の平均ベクトルを算出する平
均ベクトル算出部と、前記平均ベクトル算出部が算出した平均ベクトルに関
し、雑音区間に対応付けられたスペクトルの時系列の平
均ベクトル同士と音声区間に対応付けられたスペクトル
の時系列の平均ベクトル同士がそれぞれ一致するような
補正を、入力音声のスペクトルの時系列もしくは標準パ
タンのスペクトルの時系列のどちらか一方または両方に
対し行なう補正部と、前記補正部が補正した入力音声および標準パタンのスペ
クトルの時系列をそれぞれ認識のための特徴ベクトルの
時系列に変換する特徴ベクトル変換部と、前記特徴ベクトル変換部から得られた入力音声および標
準パタンの認識のための特徴ベクトルを用いて標準パタ
ンと入力音声との間の最終的なマッチングを行ない認識
結果として出力するマッチング部とで構成される音声認
識装置。
【請求項２】前記補正部は、前記平均ベクトル算出部が
算出した平均ベクトルに関し、雑音区間に対応付けられ
たスペクトルの時系列のどちらか一方を他方の雑音区間
の平均ベクトルＮｉで置換し、音声区間に対応付けられ
たスペクトルの時系列から一方の雑音区間の平均ベクト
ルＮｔを減じた後に（Ｓｉ-Ｎｉ）／（Ｓｔ-Ｎｔ）を乗
じ（／はスペクトルのチャンネル毎の除算、Ｓｉは他方
の音声区間の平均ベクトル、Ｓｔは一方の音声区間の平
均ベクトル）、さらにＮｉを加算することを特徴とする
請求項１記載の音声認識装置。
【請求項３】入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に変換して蓄え
られた雑音区間と音声区間とを有する標準パタンと、前記分析部から得られた入力音声の特徴ベクトルの時系
列と前記標準パタンの特徴ベクトルの時系列との間の時
間軸対応付けを行なう予備マッチング部と、前記予備マッチング部から得られた対応付け情報をもと
に前記分析部から得られた入力音声および標準パタンの
特徴ベクトルの時系列をそれぞれ雑音区間、音声区間に
分け、各区間毎の平均ベクトルを算出する平均ベクトル
算出部と、前記平均ベクトル算出部が算出した平均ベクトルに関
し、雑音区間に対応付けられた特徴ベクトルの時系列の
平均ベクトル同士と音声区間に対応付けられた特徴ベク
トルの時系列の平均ベクトル同士がそれぞれ一致するよ
うな補正を、入力音声の特徴ベクトルの時系列もしくは
標準パタンの特徴ベクトルの時系列のどちらか一方また
は両方に対し行う補正部と、前記補正部から得られた入力音声および標準パタンの特
徴ベクトルを用いて標準パタンと入力音声との間の最終
的なマッチングを行ない認識結果として出力するマッチ
ング部とで構成される音声認識装置。
【請求項４】前記補正部は、前記平均ベクトル算出部が
算出した平均ベクトルに関し、雑音区間に対応付けられ
た特徴ベクトルの時系列のどちらか一方を他方の雑音区
間の平均ベクトルNiで置換し、音声区間に対応付けられ
た特徴ベクトルの時系列から一方の雑音区間の平均ベク
トルNtを減じた後に(Si-Ni)/(St-Nt)を乗じ(/は特徴ベ
クトルのチャンネル毎の除算、Siは他方の音声区間の平
均ベクトル、St は一方の音声区間の平均ベクトル)、さ
らにNiを加算することを特徴とする請求項３記載の音声
認識装置。