JP2001318687A

JP2001318687A - 音声認識装置

Info

Publication number: JP2001318687A
Application number: JP2000315546A
Authority: JP
Inventors: Tomohiro Narita; 知宏成田; Tadashi Suzuki; 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-02-28
Filing date: 2000-10-16
Publication date: 2001-11-16
Anticipated expiration: 2020-10-16
Also published as: JP3933860B2

Abstract

(57)【要約】【課題】従来の音声認識装置は、雑音用マイクロホン
への音声の洩れ込みが無視できない場合や、音声用と雑
音用とのマイクロホン間の雑音パターンに対する周波数
特性が変化する場合には、認識性能が低下するという課
題があった。【解決手段】音声認識装置において、音声用マイクロ
ホン１と雑音用マイクロホン２との間の音声に対する周
波数特性の差異を補正するために話者位置に応じた複数
の補正フィルタを記憶する音声補正用補正フィルタメモ
リ６と、音声用マイクロホン１と雑音用マイクロホン２
との間の雑音パターンに対する周波数特性の差異を補正
するために雑音パターンに応じた複数の補正フィルタを
記憶する雑音補正用補正フィルタメモリ１０とを備え
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声認識装置に係
り、特に周囲に雑音がある環境下でも入力された音声に
重畳する背景雑音を除去したうえで、雑音が除去された
音声の特徴量と予め用意された標準音声パターンの特徴
量とを照合して入力された音声を認識する音声認識装置
に関するものである。

【０００２】

【従来の技術】周囲に雑音または騒音がある環境下で発
声した音声には背景雑音が重畳しているために音声認識
率が低下する。図８は、雑音等がある環境下において音
声を認識する従来の音声認識装置の構成を示すブロック
図である。図において、ｔは時刻、Ｋは雑音源の数、ｘ
（ｔ）はマイクロホンの観測信号、ｓ（ｔ）は話者が発
声する音声信号、ｎ^ｋ（ｔ）は雑音源ｋ（１≦ｋ≦Ｋ）
が出力する雑音信号、ｈ _ｓ（ｔ）は話者からマイクロホ
ンへのインパルス応答、ｈ^ｋ _ｎ（ｔ）は雑音源ｋからマ
イクロホンへのインパルス応答、＊は畳み込み演算を示
すものである。また、マイクロホン以外の音声認識装置
の構成要素を総括して認識処理部として示し、この認識
処理部はこの分野において周知である音声認識技術を用
いて構成されているものとする。図に示されるように、
マイクロホンの観測信号は音声信号に雑音信号が重畳し
たものである。したがって、雑音無し音声パターンと標
準音声パターンとを照合して認識処理を行う必要のある
音声認識装置においては、重畳雑音を除去する必要が生
じる。観測点における雑音信号は各雑音源から出力され
る各雑音信号が足し合わされたものである。以下では、
複数の雑音源からそれぞれ出力される雑音の組み合せに
より観測点において与えられる雑音に係る識別パターン
を“雑音パターン”と定義して、当該雑音パターンを出
力する仮想的な雑音源があるものとして説明を行なう。

【０００３】重畳雑音を除去するための簡単で有効な手
法として、音声用マイクロホンと雑音用マイクロホンと
を用いた２入力スペクトルサブトラクション法（以下、
２入力ＳＳ法と称する）が広く用いられている。図９
は、例えば「２入力による雑音除去手法を用いた自動車
内の音声認識；信学技報ＳＰ８９−８１」に示された従
来の２入力ＳＳ法を用いた音声認識装置の構成を示す図
である。図において、１０１は背景雑音が重畳した音声
を収集する音声用マイクロホン、１０２は主に背景雑音
を収集する雑音用マイクロホン、１０３は音声用マイク
ロホン１０１が出力する雑音重畳音声信号を周波数変換
して雑音重畳音声に係るパワースペクトルを時系列に出
力する雑音重畳音声スペクトル演算手段、１０４は雑音
用マイクロホン１０２が出力する雑音パターン信号を周
波数変換して雑音パターンに係るパワースペクトルを時
系列に出力する雑音スペクトル演算手段、１０５は音声
用マイクロホン１０１と雑音用マイクロホン１０２との
間においての雑音パターンに対する伝達特性に係る周波
数特性についての差異を補正するためのフィルタを１つ
記憶する補正フィルタメモリ、１０６は補正フィルタメ
モリ１０５が記憶する補正フィルタを用いて雑音スペク
トル演算手段１０４から出力される雑音パターンに係る
パワースペクトルを補正して補正雑音パターンに係るパ
ワースペクトルを時系列に出力する雑音スペクトル補正
手段、１０７は雑音重畳音声スペクトル演算手段１０３
から出力される雑音重畳音声に係るパワースペクトルか
ら補正雑音パターンに係るパワースペクトルを減算して
雑音除去音声に係るパワースペクトルを時系列に出力す
る雑音除去音声スペクトル演算手段、１０８は雑音除去
音声スペクトル演算手段１０７から出力される雑音除去
音声に係るパワースペクトルから特徴ベクトルを生成し
て当該特徴ベクトルを時系列に出力する特徴ベクトル演
算手段、１０９は照合用の雑音の無い複数の標準音声パ
ターンに対する特徴ベクトルを予め記憶させる照合パタ
ーンメモリ、１１０は特徴ベクトル演算手段１０８から
出力される特徴ベクトルと照合パターンメモリ１０９内
に記憶された標準音声パターンに係る特徴ベクトルとを
照合して最大尤度を与える認識候補を認識結果として出
力する照合手段である。

【０００４】次に動作について説明する。音声用マイク
ロホン１０１は、一般的に話者の近傍に設置されて、背
景雑音が重畳した音声を収集する。雑音用マイクロホン
１０２は、一般的に話者から離隔した位置に設置され
て、主に背景雑音を収集する。なお、この従来の音声認
識装置は、雑音用マイクロホン１０２への音声の洩れ込
みが無視できるほど小さい場合を想定して構成されてい
るものである。

【０００５】雑音重畳音声スペクトル演算手段１０３
は、音声用マイクロホン１０１が出力する雑音重畳音声
信号に対して、一定時間毎にシフトする分析フレーム毎
にＦＦＴ（高速フーリエ変換）を用いて周波数変換を実
施し、雑音重畳音声信号に対する分析フレーム毎のパワ
ースペクトルを時系列に出力する。ここで、雑音重畳音
声信号のｚ変換をＸ１（ｚ）、音声信号のｚ変換をＳ
（ｚ）、雑音パターン信号のｚ変換をＮ（ｚ）、話者か
ら音声用マイクロホン１０１への伝達特性をＧ
_１１（ｚ）、雑音パターンについての仮想的な雑音源か
ら音声用マイクロホン１０１への伝達特性をＧ
_２１（ｚ）とすると、以下の式（１）の関係が導かれ
る。Ｘ１（ｚ）＝Ｇ_１１（ｚ）・Ｓ（ｚ）＋Ｇ_２１（ｚ）・Ｎ（ｚ）（１）

【０００６】また、複数の分析フレームにわたる信号の
遅延は生じないと仮定すれば、式（１）は以下の式
（２）のように表すことができる。Ｘ１_ｉ（ω）＝Ｇ_１１（ω）・Ｓ_ｉ（ω）＋Ｇ_２１（ω）・Ｎ_ｉ（ω）（２）式（２）において、ωは角周波数、Ｘ１_ｉ（ω）は分析
フレームｉにおける音声用マイクロホンから出力される
雑音重畳音声信号に係るパワースペクトル、Ｓ _ｉ（ω）
は分析フレームｉにおいて話者が発声する音声に係るパ
ワースペクトル、Ｎ_ｉ（ω）は分析フレームｉにおいて
仮想的な雑音源が出力する雑音パターンに係るパワース
ペクトル、Ｇ_１１（ω）は話者から音声用マイクロホン
への伝達特性についての周波数特性（フィルタ）、Ｇ
_２１（ω）は仮想的な雑音源から音声用マイクロホンへ
の伝達特性についての周波数特性（フィルタ）である。
音声認識では、位相情報は不必要であるために、以降で
は、特に明示しない限り位相情報を考慮しない周波数領
域を対象として説明を行う。

【０００７】雑音スペクトル演算手段１０４は、雑音用
マイクロホン１０２が出力する雑音パターン信号に対し
て、一定時間毎にシフトする分析フレーム毎にＦＦＴ
（高速フーリエ変換）を用いて周波数変換を実施して、
雑音パターン信号に対する分析フレーム毎のパワースペ
クトルを時系列に出力する。このとき、分析フレームｉ
における雑音パターンに係るパワースペクトルＸ２
_ｉ（ω）は、以下の式（３）で表される。式（３）にお
いて、Ｇ_２２（ω）は雑音パターンについての仮想的な
雑音源から雑音用マイクロホン１０２への伝達特性につ
いての周波数特性である。Ｘ２_ｉ（ω）＝Ｇ_２２（ω）・Ｎ_ｉ（ω）（３）

【０００８】補正フィルタメモリ１０５は、音声用マイ
クロホン１０１と雑音用マイクロホン１０２との間にお
ける雑音パターンに対する伝達特性に係る周波数特性の
差異を補正するためのフィルタＨ_２１（ω）＝Ｇ
_２１（ω）／Ｇ_２２（ω）を記憶する。上述の「２入力
による雑音除去手法を用いた自動車内の音声認識」で
は、音声区間の直前の雑音区間において、以下に記され
る式（４）を用いて音声区間の直前の雑音区間から補正
フィルタを算出してその値を記憶する。式（４）におい
てＴ_ｓは音声区間の先頭の分析フレーム番号を示すもの
であり、式（４）により音声区間直前の２０フレームに
おける雑音パターンに係るパワースペクトルについての
雑音用マイクロホンに対する音声用マイクロホンの周波
数成分毎の比の平均値が算出される。

【数１】

【０００９】雑音スペクトル補正手段１０６は、補正フ
ィルタメモリ１０５に記憶された補正フィルタを用いて
雑音パターンに係るパワースペクトルを補正して、補正
雑音パターンに係るパワースペクトルを時系列に出力す
る。このとき、分析フレームｉにおける補正雑音パター
ンに係るパワースペクトルＸ２’_ｉ（ω）は以下の式
（５）のように表される。Ｘ２’_ｉ（ω）＝Ｈ_２１（ω）・Ｘ２_ｉ（ω）（５）

【００１０】雑音除去音声スペクトル演算手段１０７
は、雑音重畳音声スペクトル演算手段１０３から分析フ
レーム毎に時系列にそれぞれ出力される雑音重畳音声に
係るパワースペクトルから、雑音スペクトル補正手段１
０６から出力される補正雑音パターンに係るパワースペ
クトルを減算して、雑音除去音声に係るパワースペクト
ルを算出しこれを時系列に出力する。このとき、分析フ
レームｉにおける雑音除去音声に係るパワースペクトル
Ｓ’_ｉ（ω）は、以下の式（６）で表される。式（６）
において、αは補正雑音パターンに係るパワースペクト
ルの減算量を調整するパラメータであり、βは補正雑音
パターンに係るパワースペクトルの過剰な減算を防止す
るために雑音除去音声に係るパワースペクトルにおける
各周波数成分の下限値を設定するパラメータである。ま
た、ｍａｘ｛｝は括弧内の要素の中で最大の値の要素を
返す関数として与えられるものである。Ｓ’_ｉ（ω）＝ｍａｘ｛Ｘ１_ｉ（ω）−αＸ２’_ｉ（ω），β｝（６）

【００１１】ここで、Ｈ_２１（ω）＝Ｇ_２１（ω）／Ｇ
_２２（ω）であるから、式（３）および式（５）から、
Ｘ２’_ｉ（ω）＝Ｇ_２１（ω）Ｎ_ｉ（ω）となる。この
式および式（２）を式（６）に代入すると、α＝１のと
きにＳｉ’（ω）＝Ｇ_１１（ω）Ｓ_ｉ（ω）となって、
雑音が除去された音声に係るパワースペクトルを得るこ
とができる。

【００１２】特徴ベクトル演算手段１０８は、雑音除去
音声スペクトル演算手段１０７が時系列に出力する雑音
除去音声に係るパワースペクトルをＬＰＣケプストラム
等の音声認識において音響的な特徴を表現する特徴ベク
トルに変換して、当該特徴ベクトルを時系列に出力す
る。

【００１３】照合手段１１０は、特徴ベクトル演算手段
１０８から出力される特徴ベクトルと、照合パターンメ
モリ１０９内に記憶された雑音無しの標準音声パターン
に係る特徴ベクトルとの照合を実施して、最大尤度を与
える音声認識候補を認識結果として出力する。

【００１４】

【発明が解決しようとする課題】従来の２入力ＳＳ法を
用いた音声認識装置は上記のように構成されているの
で、雑音用マイクロホンへの音声の洩れ込みが無視でき
るほど小さく、かつ音声用マイクロホンと雑音用マイク
ロホンとの雑音パターンに対する伝達特性に係る周波数
特性の変動が小さい場合すなわち雑音源が固定されてい
る場合には比較的良好に動作する。しかし、雑音用マイ
クロホンへの音声の洩れ込みが無視できない場合や、雑
音源が複数あり雑音源が時間とともに入れ替わる場合等
で音声用マイクロホンと雑音用マイクロホンとの雑音パ
ターンに対する伝達特性に係る周波数特性が時々刻々変
化するような場合には、正確な雑音除去を実施すること
ができなくて認識性能が低下するという課題があった。

【００１５】この発明は上記のような課題を解決するた
めになされたもので、雑音用マイクロホンに音声が洩れ
込んだ場合においても、雑音環境下で音声を正確に認識
することができる音声認識装置を得ることを目的とす
る。

【００１６】また、この発明は、音声用マイクロホンと
雑音用マイクロホンとの雑音パターンに対する伝達特性
に係る周波数特性が時々刻々変化するような場合におい
ても、雑音環境下で音声を正確に認識することができる
音声認識装置を得ることを目的とする。

【００１７】

【課題を解決するための手段】この発明に係る音声認識
装置は、背景雑音が重畳した音声を収集する音声用マイ
クロホンと、主に背景雑音を収集する雑音用マイクロホ
ンと、音声用マイクロホンが出力する雑音重畳音声信号
を周波数変換して雑音重畳音声に係るパワースペクトル
を時系列に出力する雑音重畳音声スペクトル演算手段
と、雑音用マイクロホンが出力する雑音パターン信号を
周波数変換して音声が洩れ込んだ雑音パターンに係るパ
ワースペクトルを時系列に出力する雑音スペクトル演算
手段と、音声用マイクロホンと雑音用マイクロホンとの
音声に対する伝達特性に係る周波数特性の差異を補正す
るためのフィルタを用いて雑音重畳音声に係るパワース
ペクトルを補正して補正雑音重畳音声に係るパワースペ
クトルを時系列に出力する雑音重畳音声スペクトル補正
手段と、音声が洩れ込んだ雑音パターンに係るパワース
ペクトルから補正雑音重畳音声に係るパワースペクトル
を減算して洩れ込み音声を除去した雑音パターンに係る
パワースペクトルを時系列に出力する洩れ込み音声除去
手段と、音声用マイクロホンと雑音用マイクロホンとの
雑音パターンに対する伝達特性に係る周波数特性の差異
を補正するためのフィルタを用いて洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを補正して補
正雑音パターンに係るパワースペクトルを時系列に出力
する洩れ込み音声除去雑音スペクトル補正手段と、雑音
重畳音声に係るパワースペクトルから補正雑音パターン
に係るパワースペクトルを減算して雑音除去音声に係る
パワースペクトルを時系列に出力する雑音除去音声スペ
クトル演算手段と、雑音除去音声に係るパワースペクト
ルを基にして音声認識処理を実行する認識処理部とを備
えるようにしたものである。

【００１８】この発明に係る音声認識装置は、センサに
よって話者の存在する位置を検出して当該位置データを
時系列に出力する話者位置検出手段と、音声用マイクロ
ホンと雑音用マイクロホンとの音声に対する伝達特性に
係る周波数特性の差異を補正するための複数の補正フィ
ルタを記憶する音声補正用補正フィルタメモリと、話者
位置検出手段から出力される話者の位置データに対応す
る補正フィルタを音声補正用補正フィルタメモリから選
択して当該補正フィルタを雑音重畳音声スペクトル補正
手段へ時系列に出力する音声補正用補正フィルタ選択手
段とを備えるようにしたものである。

【００１９】この発明に係る音声認識装置は、背景雑音
が重畳した音声を収集する音声用マイクロホンと、主に
背景雑音を収集する雑音用マイクロホンと、音声用マイ
クロホンが出力する雑音重畳音声信号を周波数変換して
雑音重畳音声に係るパワースペクトルを時系列に出力す
る雑音重畳音声スペクトル演算手段と、雑音用マイクロ
ホンが出力する雑音パターン信号を周波数変換して雑音
パターンに係るパワースペクトルを時系列に出力する雑
音スペクトル演算手段と、音声用マイクロホンと雑音用
マイクロホンとの雑音パターンに対する伝達特性に係る
周波数特性の差異を補正するための複数の補正フィルタ
を記憶する雑音補正用補正フィルタメモリと、雑音補正
用補正フィルタメモリに記憶された複数の補正フィルタ
にそれぞれ対応する洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルを記憶する代表雑音スペクト
ルメモリと、洩れ込み音声を除去した雑音パターンに係
るパワースペクトルと代表雑音スペクトルメモリに記憶
される複数の洩れ込み音声を除去した雑音パターンに係
るパワースペクトルとの間の距離値を演算して最短距離
値を与える雑音パターンを代表雑音スペクトルメモリか
ら選択して当該雑音パターンを識別する信号を時系列に
出力する雑音スペクトル選択手段と、雑音スペクトル選
択手段から出力される雑音パターン識別信号に対応する
補正フィルタを雑音補正用補正フィルタメモリから選択
して時系列に出力する雑音補正用補正フィルタ選択手段
と、雑音補正用補正フィルタ選択手段から出力される補
正フィルタを用いて雑音パターンに係るパワースペクト
ルを補正して補正雑音パターンに係るパワースペクトル
を時系列に出力する雑音スペクトル補正手段と、雑音重
畳音声に係るパワースペクトルから補正雑音に係るパワ
ースペクトルを減算して雑音除去音声に係るパワースペ
クトルを時系列に出力する雑音除去音声スペクトル演算
手段と、雑音除去音声に係るパワースペクトルを基にし
て音声認識処理を実行する認識処理部とを備えるように
したものである。

【００２０】この発明に係る音声認識装置は、音声用マ
イクロホンと雑音用マイクロホンとの雑音パターンに対
する伝達特性に係る周波数特性の差異を補正するための
複数の補正フィルタを記憶する雑音補正用補正フィルタ
メモリと、雑音補正用補正フィルタメモリに記憶された
複数の補正フィルタにそれぞれ対応する洩れ込み音声を
除去した雑音パターンに係るパワースペクトルを記憶す
る代表雑音スペクトルメモリと、洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルと代表雑音スペ
クトルメモリに記憶される複数の洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルとの間の距離値
を演算して最短距離値を与える雑音パターンを代表雑音
スペクトルメモリから選択して当該雑音パターンを識別
する信号を時系列に出力する雑音スペクトル選択手段
と、雑音スペクトル選択手段から出力される雑音パター
ン識別信号に対応する補正フィルタを雑音補正用補正フ
ィルタメモリから選択して洩れ込み音声除去雑音スペク
トル補正手段へ時系列に出力する雑音補正用補正フィル
タ選択手段とを備えるようにしたものである。

【００２１】この発明に係る音声認識装置は、背景雑音
が重畳した音声を収集する音声用マイクロホンと、主に
背景雑音を収集する雑音用マイクロホンと、音声用マイ
クロホンから出力される雑音重畳音声信号を周波数変換
して雑音重畳音声に係るパワースペクトルを時系列に出
力する雑音重畳音声スペクトル演算手段と、雑音用マイ
クロホンから出力される雑音パターン信号を周波数変換
して音声が洩れ込んだ雑音パターンに係るパワースペク
トルを時系列に出力する雑音スペクトル演算手段と、音
声用マイクロホンと雑音用マイクロホンとの音声に対す
る伝達特性に係る周波数特性の差異を補正するためのフ
ィルタを用いて、雑音重畳音声に係るパワースペクトル
を補正して補正雑音重畳音声に係るパワースペクトルを
時系列に出力する雑音重畳音声スペクトル補正手段と、
音声が洩れ込んだ雑音パターンに係るパワースペクトル
から補正雑音重畳音声に係るパワースペクトルを減算し
て洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルを時系列に出力する洩れ込み音声除去手段と、
洩れ込み音声を除去した雑音パターンに係る複数のパワ
ースペクトルを記憶する第１の代表雑音スペクトルメモ
リと、第１の代表雑音スペクトルメモリに記憶される複
数の洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルにそれぞれ対応する複数の重畳雑音パターン
に係るパワースペクトルを記憶する第２の代表雑音スペ
クトルメモリと、収集された洩れ込み音声を除去した雑
音パターンに係るパワースペクトルと、第１の代表雑音
スペクトルメモリに記憶される複数の洩れ込み音声を除
去した雑音パターンに係るパワースペクトルとの間の距
離値を演算して最短距離値を与える雑音パターンに係る
パワースペクトルを第１の代表雑音スペクトルメモリか
ら選択して、当該雑音パターンを識別する信号を時系列
に出力する第１の雑音スペクトル選択手段と、第１の雑
音スペクトル選択手段から出力される雑音パターン識別
信号に対応する重畳雑音パターンに係るパワースペクト
ルを第２の代表雑音スペクトルメモリから選択し時系列
に出力する第２の雑音スペクトル選択手段と、雑音重畳
音声に係るパワースペクトルから、第２の雑音スペクト
ル選択手段が選択した重畳雑音パターンに係るパワース
ペクトルを減算して雑音除去音声に係るパワースペクト
ルを時系列に出力する雑音除去音声スペクトル演算手段
と、雑音除去音声に係るパワースペクトルを基にして音
声認識処理を実行する認識処理部とを備えるようにした
ものである。

【００２２】この発明に係る音声認識装置は、雑音用マ
イクロホンから出力される雑音パターン信号から雑音パ
ワーレベルを算出し当該雑音パワーレベルを時系列に出
力する雑音パワーレベル演算手段と、音声用マイクロホ
ンから出力される雑音重畳音声信号と雑音用マイクロホ
ンから出力される雑音パターン信号とに基づいて音声区
間を判定し、音声区間であるか否かの識別信号を時系列
に出力する音声区間検出手段と、雑音パワーレベル演算
手段から出力される雑音パワーレベルが閾値以下であり
かつ音声区間検出手段から出力される識別信号が音声区
間である旨を示している場合に、補正フィルタの学習を
実施することを示す識別信号を時系列に出力する補正フ
ィルタ学習決定手段と、補正フィルタ学習決定手段から
出力される識別信号が補正フィルタの学習を実施する旨
を示している場合に、雑音重畳音声スペクトル演算手段
から出力される雑音重畳音声に係るパワースペクトルと
雑音スペクトル演算手段から出力される雑音パターンに
係るパワースペクトルとに基づいて、話者位置検出手段
から出力される話者の位置データに対応する補正フィル
タを学習し当該補正フィルタを出力する補正フィルタ学
習手段とを備えるようにしたものである。

【００２３】この発明に係る音声認識装置は、雑音用マ
イクロホンから出力される雑音パターン信号から雑音パ
ワーレベルを算出し当該雑音パワーレベルを時系列に出
力する雑音パワーレベル演算手段と、音声用マイクロホ
ンから出力される雑音重畳音声信号と雑音用マイクロホ
ンから出力される雑音パターン信号とに基づいて雑音区
間を判定し、雑音区間であるか否かの識別信号を時系列
に出力する雑音区間検出手段と、雑音パワーレベル演算
手段から出力される雑音パワーレベルが閾値以上であり
かつ雑音区間検出手段から出力される識別信号が雑音区
間である旨を示している場合に、雑音スペクトルの学習
を実施することを示す識別信号を時系列に出力する雑音
スペクトル学習決定手段と、雑音スペクトル学習決定手
段から出力される識別信号が雑音スペクトルの学習を実
施する旨を示している場合に、洩れ込み音声除去手段か
ら出力される洩れ込み音声を除去した雑音パターンに係
るパワースペクトルから、代表的な洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを学習し当該
パワースペクトルを出力する第１の雑音スペクトル学習
手段と、雑音スペクトル学習決定手段から出力される識
別信号が雑音スペクトルの学習を実施する旨を示してい
る場合に、雑音重畳音声スペクトル演算手段から出力さ
れる雑音重畳音声に係るパワースペクトルから、第１の
雑音スペクトル学習手段から出力される代表的な洩れ込
み音声を除去した雑音パターンに係るパワースペクトル
に対応する重畳雑音パターンに係るパワースペクトルを
学習し当該パワースペクトルを出力する第２の雑音スペ
クトル学習手段とを備えるようにしたものである。

【００２４】この発明に係る音声認識装置は、第１の雑
音スペクトル学習手段が、洩れ込み音声除去手段から出
力される複数の洩れ込み音声を除去した雑音パターンに
係るパワースペクトルを記憶する第１の雑音スペクトル
メモリと、第１の雑音スペクトルメモリに記憶される複
数の洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルについて、それぞれのクラスのセントロイド
となるパワースペクトルと当該クラスに含まれる雑音パ
ターンのパワースペクトルとの間の距離値の総和が最小
となるようにクラスタリングを実施し、各クラスのセン
トロイドを代表的な洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルとして出力する第１のクラス
タリング手段とを備え、第２の雑音スペクトル学習手段
が、第１の雑音スペクトルメモリに記憶される複数の洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルとそれぞれ同一分析フレームに出力された複数の重
畳雑音パターンに係るパワースペクトルを記憶する第２
の雑音スペクトルメモリと、第２の雑音スペクトルメモ
リに記憶される複数の重畳雑音パターンに係るパワース
ペクトルに対して第１のクラスタリング手段におけるク
ラスタリング結果を反映するようにクラスタリングを実
施し、各クラスのセントロイドを代表的な重畳雑音パタ
ーンに係るパワースペクトルとして出力する第２のクラ
スタリング手段とを備えるようにしたものである。

【００２５】この発明に係る音声認識装置は、第１の雑
音スペクトル学習手段は、洩れ込み音声除去手段から出
力される洩れ込み音声を除去した雑音パターンに係る複
数のパワースペクトルを記憶する第１の雑音スペクトル
メモリと、第１の雑音スペクトルメモリに記憶される洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルからパワースペクトルの概形を表すパラメータを算
出し当該パラメータを出力するスペクトル概形パラメー
タ演算手段と、第１の雑音スペクトルメモリに記憶され
る洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルからパワースペクトルの強度を表すパラメータ
を算出し当該パラメータを出力するスペクトル強度パラ
メータ演算手段と、スペクトル概形パラメータ演算手段
から出力されるパワースペクトルの概形を表すパラメー
タとスペクトル強度パラメータ演算手段から出力される
パワースペクトルの強度を表すパラメータに重みを掛け
て算出する距離値を用いて、第１の雑音スペクトルメモ
リに記憶される複数の洩れ込み音声を除去した雑音パタ
ーンに係るパワースペクトルをクラスタリングし、代表
的な洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルを出力する重み付けクラスタリング手段とを
備えるようにしたものである。

【００２６】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１は、この発明の実施の形態１による
音声認識装置の構成を示す図である。図において、１は
背景雑音が重畳した音声を収集する音声用マイクロホ
ン、２は主に背景雑音を収集する雑音用マイクロホン、
３は音声用マイクロホン１が出力する雑音重畳音声信号
を周波数変換して雑音重畳音声に係るパワースペクトル
を時系列に出力する雑音重畳音声スペクトル演算手段、
４は雑音用マイクロホン２が出力する雑音パターン信号
を周波数変換して音声が洩れ込んだ雑音パターンに係る
パワースペクトルを時系列に出力する雑音スペクトル演
算手段、５はセンサによって話者の存在する位置を検出
して当該位置データを時系列に出力する話者位置検出手
段、６は音声用マイクロホン１と雑音用マイクロホン２
との間においての音声の伝達特性に係る周波数特性の差
異を補正するためのフィルタを１または複数個記憶する
音声補正用補正フィルタメモリ、７は話者位置検出手段
５から出力される話者の位置データに対応する補正フィ
ルタを音声補正用補正フィルタメモリ６から選択して当
該補正フィルタを時系列に出力する音声補正用補正フィ
ルタ選択手段、８は音声補正用補正フィルタ選択手段７
から出力される補正フィルタを用いて対応する雑音重畳
音声に係るパワースペクトルを補正して補正雑音重畳音
声に係るパワースペクトルを時系列に出力する雑音重畳
音声スペクトル補正手段、９は雑音スペクトル演算手段
４から出力される音声が洩れ込んだ雑音パターンに係る
パワースペクトルから補正雑音重畳音声に係るパワース
ペクトルを減算して洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルを時系列に出力する洩れ込み
音声除去手段、１０は音声用マイクロホン１と雑音用マ
イクロホン２との間においての雑音パターンの伝達特性
に係る周波数特性の差異を補正するためのフィルタを１
または複数個記憶する雑音補正用補正フィルタメモリ、
１１は雑音補正用補正フィルタメモリ１０に記憶された
それぞれの補正フィルタに対応する代表的な洩れ込み音
声を除去した雑音パターンに係るパワースペクトルを記
憶する代表雑音スペクトルメモリ、１２は洩れ込み音声
除去手段９から出力される洩れ込み音声を除去した雑音
パターンに係るパワースペクトルと代表雑音スペクトル
メモリ１１に記憶される複数の代表的な洩れ込み音声を
除去した雑音パターンに係るパワースペクトルとの間の
距離値を演算して最短距離値を与える雑音パターンを代
表雑音スペクトルメモリ１１から選択して当該雑音パタ
ーンを識別する信号を時系列に出力する雑音スペクトル
選択手段、１３は雑音スペクトル選択手段１２から出力
される雑音パターン識別信号に対応する補正フィルタを
雑音補正用補正フィルタメモリ１０から選択して時系列
に出力する雑音補正用補正フィルタ選択手段、１４は雑
音補正用補正フィルタ選択手段１３から出力される補正
フィルタを用いて洩れ込み音声を除去した雑音パターン
に係るパワースペクトルを補正して補正雑音パターンに
係るパワースペクトルを時系列に出力する洩れ込み音声
除去雑音スペクトル補正手段、１５は雑音重畳音声に係
るパワースペクトルから補正雑音パターンに係るパワー
スペクトルを減算して雑音除去音声に係るパワースペク
トルを時系列に出力する雑音除去音声スペクトル演算手
段、１６は雑音除去音声に係るパワースペクトルから特
徴ベクトルを生成して当該特徴ベクトルを時系列に出力
する特徴ベクトル演算手段、１７は照合用の複数の雑音
の無い標準音声パターンに係る特徴ベクトルを予め記憶
させる照合パターンメモリ、１８は特徴ベクトル演算手
段１６から時系列に出力される特徴ベクトルと照合パタ
ーンメモリ１７内に記憶された雑音無し標準音声パター
ンに係る特徴ベクトルとを照合して最大尤度を与える認
識候補を認識結果として出力する照合手段である。な
お、特徴ベクトル演算手段１６、照合パターンメモリ１
７および照合手段１８を総括して、雑音除去音声に係る
パワースペクトルを基にして音声認識処理を実行する認
識処理部が与えられるものとみなすこともできる。

【００２７】次に動作について説明する。音声用マイク
ロホン１は、一般的に話者の近傍に設置されて、背景雑
音が重畳した音声を収集する。雑音用マイクロホン２
は、一般的に話者から離隔した位置に設置されて、主に
背景雑音を収集する。なお、この発明の実施の形態１に
よる音声認識装置は、雑音源が複数個あって時間ととも
に雑音源が入れ替わる環境を想定するとともに雑音用マ
イクロホン２への音声の洩れ込みが無視できるほど小さ
くはない場合を想定して構成されているものである。

【００２８】雑音重畳音声スペクトル演算手段３は、音
声用マイクロホン１が出力する雑音重畳音声信号に対し
て、一定時間毎にシフトする分析フレーム毎にＦＦＴ
（高速フーリエ変換）を用いて周波数変換を実施して、
雑音重畳音声信号に対する分析フレーム毎のパワースペ
クトルを時系列に出力する。このとき、分析フレームｉ
における雑音重畳音声に係るパワースペクトルＸ１
_ｉ（ω）は以下の式（７）で表される。式（７）におい
て、Ｓ_ｉ（ω）は分析フレームｉにおける話者が発声す
る音声に係るパワースペクトル、Ｎ_ｉ（ω）は分析フレ
ームｉにおいて仮想的な雑音源が出力する雑音パターン
に係るパワースペクトル、Ｇ_１１ ^{（ｘ（ｉ），}
^{ｙ（ｉ））}（ω）は分析フレームｉにおける話者位置
（ｘ（ｉ），ｙ（ｉ））での話者から音声用マイクロホ
ン１への伝達特性についての周波数特性（フィルタ）、
Ｇ_２１，ｉ（ω）は分析フレームｉにおける仮想的な雑
音源から音声用マイクロホン１への伝達特性についての
周波数特性（フィルタ）である。Ｘ１_ｉ（ω）＝Ｇ_１１ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）・Ｓ_ｉ（ω）＋Ｇ_２１，ｉ（ω）・Ｎ_ｉ（ω）（７）

【００２９】雑音スペクトル演算手段４は、雑音用マイ
クロホン２が出力する雑音パターン信号に対して、同様
に一定時間毎にシフトする分析フレーム毎にＦＦＴ（高
速フーリエ変換）を用いて周波数変換を実施して、音声
の洩れ込んだ雑音パターン信号に対する分析フレーム毎
のパワースペクトルを時系列に出力する。このとき、分
析フレームｉにおける音声の洩れ込んだ雑音に係るパワ
ースペクトルＸ２_ｉ（ω）は以下の式（８）で表され
る。式（８）において、Ｇ_１２ ^{（ｘ（ｉ），ｙ（} ^ｉ））
（ω）は分析フレームｉにおける話者位置（ｘ（ｉ），
ｙ（ｉ））での話者から雑音用マイクロホン２への伝達
特性についての周波数特性（フィルタ）、Ｇ
_２２，ｉ（ω）は分析フレームｉにおける仮想的な雑音
源から雑音用マイクロホン２への伝達特性についての周
波数特性（フィルタ）である。Ｘ２_ｉ（ω）＝Ｇ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）・Ｓ_ｉ（ω）＋Ｇ_２２，ｉ（ω）・Ｎ_ｉ（ω）（８）

【００３０】話者位置検出手段５は、センサによって話
者のいる位置を検出して、分析フレームｉ毎に話者位置
データ（ｘ（ｉ），ｙ（ｉ））を時系列に出力する。

【００３１】音声補正用補正フィルタメモリ６は、予め
話者位置（ｘ，ｙ）毎に学習される音声用マイクロホン
１と雑音用マイクロホン２との間においての音声の伝達
特性に係る周波数特性の差異を補正するフィルタＷ_１２
^{（ｘ，ｙ）}（ω）＝Ｇ_１２ ^（ ^ｘ，ｙ）（ω）／Ｇ_１１
^{（ｘ，ｙ）}（ω）を記憶する。ここで、補正フィルタの
学習方法について述べる。各話者位置における補正フィ
ルタは、雑音のない環境または雑音を無視できる環境下
で発声された音声区間において事前学習される。このと
き、分析フレームｊにおける音声用マイクロホン１が出
力する信号に係るパワースペクトルＸ１_ｊ（ω）
_{ｖｏｉｃｅ}、および雑音用マイクロホン２が出力する信
号に係るパワースペクトルＸ２_ｊ（ω）_{ｖｏｉｃｅ}は以
下の式（９）で表される。式（９）は、背景雑音が無視
できるという仮定のもとに、式（７）および式（８）の
第２項を削除することで導かれる。

【数２】

【００３２】したがって、話者位置（ｘ（ｊ），ｙ
（ｊ））での音声用マイクロホン１と雑音用マイクロホ
ン２との間においての音声の伝達特性に係る周波数特性
の差異を補正するためのフィルタＷ_１２
^{（ｘ（ｊ）、ｙ（ｊ））}（ω）は、以下の式（１０）を
用いて導かれる。

【数３】

【００３３】音声補正用補正フィルタ選択手段７は、話
者位置検出手段５から時系列に出力される分析フレーム
ｉでの話者位置データ（ｘ（ｉ），ｙ（ｉ））に対応す
る補正フィルタＷ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）＝
Ｇ_１２ ^{（ｘ（ｉ），ｙ（ｉ）} ^）（ω）／Ｇ_１１
^{（ｘ（ｉ），ｙ（ｉ））}（ω）を音声補正用補正フィル
タメモリ６から選択して分析フレームｉ毎に当該補正フ
ィルタを時系列に出力する。

【００３４】雑音重畳音声スペクトル補正手段８は、音
声補正用補正フィルタ選択手段７から出力される補正フ
ィルタを用いて雑音重畳音声に係るパワースペクトルを
補正して、補正雑音重畳音声に係るパワースペクトルを
時系列に出力する。各分析フレームｉにおける補正雑音
重畳音声に係るパワースペクトルＸ１’_ｉ（ω）は以下
の式（１１）で表される。Ｘ１’_ｉ（ω）＝Ｗ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）・Ｘ１_ｉ（ω）（１１）

【００３５】洩れ込み音声除去手段９は、雑音スペクト
ル演算手段４から出力される音声が洩れ込んだ雑音パタ
ーンに係るパワースペクトルから、雑音重畳音声スペク
トル補正手段８から出力される補正雑音重畳音声に係る
パワースペクトルを減算して、洩れ込み音声を除去した
雑音パターンに係るパワースペクトルを時系列に出力す
る。分析フレームｉにおける洩れ込み音声を除去した雑
音パターンに係るパワースペクトルＹ２_ｉ（ω）は、以
下の式（１２）で表される。

【数４】

【００３６】雑音補正用補正フィルタメモリ１０は、雑
音区間を用いた事前学習により、音声用マイクロホン１
と雑音用マイクロホン２との間においての雑音パターン
の伝達特性に係る周波数特性の差異を補正するフィルタ
を、想定される雑音パターンの種類に応じた適正な数で
あるＮ個だけ記憶する。また、代表雑音スペクトルメモ
リ１１は、雑音補正用補正フィルタメモリ１０が記憶す
るＮ個の補正フィルタのそれぞれに対応する雑音パター
ンに係るパワースペクトルを記憶する。

【００３７】以下では、雑音補正用補正フィルタメモリ
１０に記憶される補正フィルタおよび当該補正フィルタ
に対応する雑音パターンに係るパワースペクトルの学習
方法および記憶方法について説明する。雑音区間では、
分析フレームｊにおいて音声用マイクロホンにより観測
されるパワースペクトルＸ１_ｊ（ω）_{ｎｏｉｓｅ}は、以
下の式（１３）で表される。式（１３）は音声のない雑
音区間であることから、式（７）の第１項を削除するこ
とで導かれる。Ｘ１_ｊ（ω）_{ｎｏｉｓｅ}＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（１３）

【００３８】したがって、分析フレームｊにおいてＫ個
の雑音源が出力するＫ個の雑音の組み合わせΩ（ｊ）＝
｛Ｎ^１ _ｊ，Ｎ^２ _ｊ，…，Ｎ^Ｋ _ｊ｝に係る雑音パターンの
伝達特性についての音声用マイクロホン１と雑音用マイ
クロホン２との間においての周波数特性の差異を補正す
るフィルタＷ^Ω（ｊ） _２１（ω）は、以下の式（１４）
で表される。

【数５】

【００３９】分析フレームｊにおけるＫ個の雑音源から
の雑音の組み合わせに係る雑音パターンは未知である
が、分析フレームｊ_１，ｊ_２においてΩ（ｊ１）＝Ω
（ｊ２）であれば、Ｗ^{Ω（ｊ１）} _２１（ω）＝Ｗ
^{Ω（ｊ２）} _２１（ω）であると考えられる。そこで、時
系列に出力されるＸ１_ｊ（ω）_{ｎｏｉｓｅ}／Ｙ２
_ｊ（ω）の値を適切な数のＮ個のクラスにクラスタリン
グする。クラスタリングは以下の式（１５）で表わされ
る評価関数が最小になるように実施される。式（１５）
において、Ｗ^ｎ _２１（ω）はクラスｎのセントロイド、
Θ（ｎ）はクラスｎの要素が有する時系列番号の集合、
ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペク
トルＹとの間の距離値を返す関数である。

【数６】また各クラスのセントロイドＷ^ｎ _２１（ω）は、以下の
式（１６）から導かれる。式（１６）においてＭ_ｎはク
ラスｎの要素数である。

【数７】クラスタリング終了後、Ｎ個のＷ^ｎ _２１（ω）が代表的
な補正フィルタとして出力され、雑音補正用補正フィル
タメモリ１０に記憶される。

【００４０】また、代表雑音スペクトルメモリ１１は、
同様に時系列に出力される洩れ込み音声を除去した雑音
パターンに係るパワースペクトルＹ２_ｊ（ω）をＸ１_ｊ
（ω）_{ｎｏｉｓｅ}／Ｙ２_ｊ（ω）のクラスタリング結果
に基づいてＮ個のクラスに分類した後に、各クラスｎ
（１≦ｎ≦Ｎ）のセントロイドを代表的な洩れ込み音声
を除去したパワースペクトルＹ２^ｎ（ω）として代表雑
音スペクトルメモリ１１に記憶する。各クラスのセント
ロイドＹ２^ｎ（ω）は以下の式（１７）から導かれる。
式（１７）において、Ｍ_ｎはクラスｎの要素数である。

【数８】以上のように、Ｎ個の補正フィルタＷ^ｎ _２１（ω）がＮ
個にクラス分けされた雑音パターンに対応するようにそ
れぞれ記憶されるとともに、Ｎ組のＹ２^ｎ（ω）とＷ^ｎ
_２１（ω）との対応関係に基づいて任意のフレームｊに
おける雑音パターンＹ２_ｊ（ω）に対応する補正フィル
タＷ^Ω（ｊ） _２１（ω）を導くことができる。すなわ
ち、Ｋ個の雑音源が出力するＫ個の雑音の組み合わせに
係る雑音パターンの数はほぼ無限にあると考えられる
が、任意の雑音パターンＹ２_ｊ（ω）に最も類似する雑
音パターンを代表雑音スペクトルメモリ１１に記憶され
た代表的なＮ個の雑音パターンから選択して、最も類似
する雑音パターンＹ２^ｎ（ω）に対応する補正フィルタ
Ｗ^ｎ _２１（ω）をフレームｊにおける補正フィルタＷ^Ω
^（ｊ） _２１（ω）として用いる。

【００４１】雑音スペクトル選択手段１２は、洩れ込み
音声除去手段９から時系列に出力される洩れ込み音声を
除去した雑音パターンに係るパワースペクトルと代表雑
音スペクトルメモリ１１に記憶された代表的なＮ個の雑
音パターンに係るパワースペクトルとの間の距離値をそ
れぞれ演算して、洩れ込み音声を除去した雑音パターン
のパワースペクトルに対して最短距離値を与える代表雑
音パターンを代表雑音スペクトルメモリ１１から選択し
て当該代表雑音パターンを識別する信号を出力する。こ
のとき、最短距離値を与える雑音パターンに係るパワー
スペクトルＹ２ ^ｌ（ｉ）（ω）は式（１８）のように表
される。式（１８）において、ｄｉｓ（Ｘ，Ｙ）はパワ
ースペクトルＸとパワースペクトルＹとの間の距離を返
す関数、ｌ（ｉ）は分析フレームｉにおいて最短距離値
を与える雑音パターンの番号を示す。

【数９】

【００４２】雑音補正用補正フィルタ選択手段１３は、
雑音スペクトル選択手段１２から時系列に出力される雑
音パターン識別信号に対応する補正フィルタＷ^ｌ（ｉ）
_２１（ω）を雑音補正用補正フィルタメモリ１０から選
択して時系列に出力する。洩れ込み音声除去雑音スペク
トル補正手段１４は、雑音補正用補正フィルタ選択手段
１３から出力される補正フィルタを用いて、洩れ込み音
声除去手段９から出力される洩れ込み音声を除去した雑
音パターンに係るパワースペクトルを補正して、補正雑
音パターンに係るパワースペクトルを時系列に出力す
る。このとき、補正雑音パターンに係るパワースペクト
ルＹ２’_ｉ（ω）は以下の式（１９）で表される。Ｙ２’_ｉ（ω）＝Ｗ^ｌ（ｉ） _２１（ω）Ｙ２_ｉ（ω）（１９）

【００４３】雑音除去音声スペクトル演算手段１５は、
雑音重畳音声に係るパワースペクトルから補正雑音パタ
ーンに係るパワースペクトルを減算して、雑音除去音声
に係るパワースペクトルＳ’_ｉ（ω）を時系列に出力す
る。このとき、分析フレームｉにおける雑音除去音声に
係るパワースペクトルＳ’_ｉ（ω）は、以下の式（２
０）で表される。式（２０）において、αは補正雑音パ
ターンに係るパワースペクトルの減算量を調整するパラ
メータであり、βは補正雑音パターンに係るパワースペ
クトルの過剰な減算を防止するために雑音除去音声に係
るパワースペクトルにおける各周波数成分の下限値を設
定するパラメータである。また、ｍａｘ｛｝は括弧内の
要素の中で最大の値の要素を返す関数として与えられる
ものである。Ｓ’_ｉ（ω）＝ｍａｘ｛Ｘ１_ｉ（ω）−αＹ２’_ｉ（ω），β｝（２０）

【００４４】ここで、分析フレームｉにおけるＫ個の雑
音源が出力するＫ個の雑音の組み合わせΩ（ｉ）に係る
雑音パターンに対する補正フィルタＷ
^Ω（ｉ） _２１（ω）が既に事前学習において適切に記憶
されている場合には、Ｗ^ｌ（ｉ） _２１（ω）＝Ｗ
^Ω（ｉ） _２１（ω）となる。したがって、式（１２）お
よび式（１９）から、Ｙ２’_ｉ（ω）＝Ｇ
_２１，ｉ（ω）・Ｎ_ｉ（ω）となる。そして、この式お
よび式（７）を式（１７）に代入すると、α＝１のとき
に、Ｓ’_ｉ（ω）＝Ｇ
_１１ ^（ ^{ｘ（ｉ），ｙ（ｉ））}（ω）Ｓ_ｉ（ω）となっ
て、雑音が除去された音声に係るパワースペクトルを得
ることができる。

【００４５】特徴ベクトル演算手段１６、照合パターン
メモリ１７および照合手段１８に係る動作は、従来の技
術の特徴ベクトル演算手段１０８、照合パターンメモリ
１０９および照合手段１１０とそれぞれ同様であるので
その説明を省略する。

【００４６】以上のように、この実施の形態１によれ
ば、音声が洩れ込んだ雑音パターンに係るパワースペク
トルから補正雑音重畳音声に係るパワースペクトルを減
算して、洩れ込み音声を除去した雑音パターンに係るパ
ワースペクトルを時系列に出力する洩れ込み音声除去手
段を備えるように構成したので、雑音用マイクロホンへ
の音声の洩れ込みがあっても雑音パターンから洩れ込み
音声を除去して、雑音重畳音声に対して洩れ込み音声を
除去した雑音パターンの除去を実施することができるか
ら、音声認識の性能を向上することができるという効果
を奏する。

【００４７】また、話者位置を検出して分析フレーム毎
に話者位置データを時系列に出力する話者位置検出手段
５と、話者位置毎に学習される音声用マイクロホン１と
雑音用マイクロホン２との間において音声の伝達特性に
係る周波数特性の差異を補正する複数のフィルタを記憶
する音声補正用補正フィルタメモリ６と、話者位置に対
応した補正フィルタを選択する音声補正用補正フィルタ
選択手段７とを備えるように構成したので、話者位置に
応じて適正な補正フィルタを選択して音声が洩れ込んだ
雑音パターンに係るパワースペクトルから洩れ込み音声
に係るパワースペクトルを正確に除去することができる
から、雑音重畳音声からの雑音パターンの除去を正確に
実施することができて、音声認識の性能をより向上する
ことができるという効果を奏する。

【００４８】また、音声用マイクロホン１と雑音用マイ
クロホン２との間においての雑音の伝達特性に係る周波
数特性の差異を補正するための複数のフィルタを記憶す
る雑音補正用補正フィルタメモリ１０と、雑音補正用補
正フィルタメモリ１０に記憶されたそれぞれの補正フィ
ルタに対応する雑音パターンに係るパワースペクトルを
記憶する代表雑音スペクトルメモリ１１と、洩れ込み音
声を除去した雑音パターンに係るパワースペクトルと代
表雑音スペクトルメモリ１１に記憶される複数個の雑音
パターンに係るパワースペクトルとの間の距離値を演算
して最短距離値を与える雑音パターンを代表雑音スペク
トルメモリ１１から選択して当該雑音パターンを識別す
る信号を時系列に出力する雑音スペクトル選択手段１２
と、雑音スペクトル選択手段１２から出力される雑音パ
ターン識別信号に対応する補正フィルタを雑音補正用補
正フィルタメモリ１０から選択して時系列に出力する雑
音補正用補正フィルタ選択手段１３とを備えるように構
成したので、洩れ込み音声が除去された雑音パターンに
応じて適正な補正フィルタを選択して補正雑音パターン
に係るパワースペクトルを生成し、雑音重畳音声に係る
パワースペクトルから補正雑音パターンに係るパワース
ペクトルを正確に除去することができるから、音声認識
の性能をより向上することができるという効果を奏す
る。

【００４９】実施の形態２．図２は、この発明の実施の
形態２による音声認識装置の構成を示す図である。図２
において、図１と同一符号は同一または相当部分を示す
のでその説明を省略する。２１は代表的な洩れ込み音声
を除去した雑音パターンに係るパワースペクトルを複数
個記憶する第１の代表雑音スペクトルメモリ、２２は雑
音重畳音声についての代表的な重畳雑音パターンに係る
パワースペクトルを複数個記憶する第２の代表雑音スペ
クトルメモリ、２３は洩れ込み音声除去手段９から出力
される洩れ込み音声を除去した雑音パターンに係るパワ
ースペクトルと第１の代表雑音スペクトルメモリ２１に
記憶される複数の代表雑音パターンに係るパワースペク
トルとの間の距離値を演算して最短距離値を与える代表
雑音パターンを第１の代表雑音スペクトルメモリ２１か
ら選択して当該代表雑音パターンを識別する信号を時系
列に出力する第１の雑音スペクトル選択手段、２４は第
１の雑音スペクトル選択手段２３から出力される代表雑
音パターン識別信号に対応した重畳雑音パターンに係る
パワースペクトルを第２の代表雑音スペクトルメモリ２
２から選択して時系列に出力する第２の雑音スペクトル
選択手段、２５は雑音重畳音声スペクトル演算手段３か
ら出力される雑音重畳音声に係るパワースペクトルか
ら、第２の雑音スペクトル選択手段２４から出力される
重畳雑音パターンに係るパワースペクトルを減算して雑
音除去音声に係るパワースペクトルを時系列に出力する
雑音除去音声スペクトル演算手段である。

【００５０】次に動作について説明する。音声用マイク
ロホン１から洩れ込み音声除去手段９に係る動作並びに
特徴ベクトル演算手段１６から照合手段１８に係る動作
は実施の形態１と同様であるので、その説明を省略す
る。

【００５１】第１の代表雑音スペクトルメモリ２１は、
雑音区間を用いた事前学習により、洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを、想定され
る雑音パターンの種類に応じた適正な数であるＮ個だけ
記憶する。また、第２の代表雑音スペクトルメモリ２２
は、雑音区間を用いた事前学習により、第１の代表雑音
スペクトルメモリ２１が記憶するＮ個の洩れ込み音声を
除去した雑音パターンに対応する重畳雑音パターンに係
るパワースペクトルを記憶する。

【００５２】以下では、洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルおよび重畳雑音パターン
に係るパワースペクトルの学習方法および記憶方法につ
いて説明する。雑音区間では、分析フレームｊにおいて
音声用マイクロホン１が出力するのは雑音重畳音声に重
畳している重畳雑音成分であり、そのパワースペクトル
Ｘ１_ｊ（ω）_{ｎｏｉｓｅ}は以下の式（２１）で表され
る。式（２１）は音声のない雑音区間であるということ
から、式（７）の第１項を削除することで導かれる。Ｘ１_ｊ（ω）_{ｎｏｉｓｅ}＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（２１）これは雑音重畳音声に重畳している重畳雑音パターンに
対するパワースペクトルであり、これをＹ１_ｊ（ω）と
定義する。Ｙ１_ｊ（ω）＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（２２）

【００５３】分析フレームｊにおいて、雑音重畳音声に
重畳している重畳雑音パターンに対するパワースペクト
ルＹ１_ｊ（ω）を推定することができれば、雑音重畳音
声に係るパワースペクトルから推定されたＹ１_ｊ（ω）
を減算することで、雑音除去を実施することができる。
そこで、洩れ込み音声を除去した雑音パターンに係るパ
ワースペクトルＹ２_ｊ（ω）からＹ１_ｊ（ω）を推定す
るために、洩れ込み音声を除去した雑音パターンに係る
パワースペクトルＹ２_ｊ（ω）から重畳雑音パターンに
対するパワースペクトルＹ１_ｊ（ω）への写像関係を以
下の手順で学習する。

【００５４】分析フレームｊにおいて、Ｋ個の雑音源が
出力するＫ個の雑音の組み合せΩ（ｊ）＝｛Ｎ^１ _ｊ，Ｎ
^２ _ｊ，・・・，Ｎ^Ｋ _ｊ｝に係る雑音パターンは未知であ
るが、分析フレームｊ_１，ｊ_２においてΩ（ｊ_１）＝Ω
（ｊ_２）であれば、洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルは等しく、すなわちＹ２_ｊ _１
（ω）＝Ｙ２_ｊ２（ω）であると考えられる。そこで、
時系列に出力される洩れ込み音声を除去した雑音パター
ンに係る複数のパワースペクトルＹ２_ｊ（ω）を適切な
数のＮ個のクラスにクラスタリングする。クラスタリン
グは以下の式（２３）で表される評価関数Ｄが最小にな
るように実施される。式（２３）において、Ｙ２
^ｎ（ω）はクラスｎのセントロイド、Θ（ｎ）はクラス
ｎの要素が有する時系列番号の集合、ｄｉｓ（Ｘ，Ｙ）
はパワースペクトルＸとパワースペクトルＹとの間の距
離値を返す関数である。

【数１０】また、各クラスのセントロイドＹ２^ｎ（ω）は式（１
７）を用いて導かれる。クラスタリング終了後、Ｎ個の
Ｙ２^ｎ（ω）が代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルとして出力され、第１の
代表雑音スペクトルメモリ２１に記憶される。

【００５５】また、同様に音声用マイクロホン１から時
系列に出力される重畳雑音パターンに係るパワースペク
トルＹ１_ｊ（ω）をＹ２_ｊ（ω）のクラスタリング結果
に基づいてＮ個のクラスに分類した後に、各クラスｎ
（１≦ｎ≦Ｎ）のセントロイドを代表的な重畳雑音パタ
ーンに係るパワースペクトルＹ１^ｎ（ω）として第２の
代表雑音スペクトルメモリ２２に記憶する。各クラスの
セントロイドＹ１^ｎ（ω）は、以下の式（２４）から導
かれる。式（２４）において、Θ（ｎ）は上記クラスタ
リング手段が実施した洩れ込み音声を除去した雑音パタ
ーンに係るパワースペクトルのクラスタリングの結果と
してクラスｎの要素が有する時系列番号の集合、Ｍ_ｎは
クラスｎの要素数である。

【数１１】

【００５６】以上のように、Ｎ個のＹ１^ｎ（ω）、Ｙ２
^ｎ（ω）がＮ個にクラス分けされた雑音パターンに対応
するようにそれぞれ記憶されるとともに、Ｎ組のＹ２^ｎ
（ω）とＹ１^ｎ（ω）との対応関係に基づいて、任意の
フレームｊにおける洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルに対応した雑音重畳音声に重
畳している重畳雑音パターンに係るパワースペクトルを
導くことができる。すなわち、Ｋ個の雑音源が出力する
Ｋ個の雑音の組み合せで決まる洩れ込み音声を除去した
雑音パターンの数はほぼ無限にあると考えられるが、任
意の洩れ込み音声を除去した雑音パターンに最も類似す
る洩れ込み音声を除去した雑音パターンを第１の代表雑
音スペクトルメモリ２１に記憶されたＮ個の洩れ込み音
声を除去した雑音パターンから選択して、最も類似する
洩れ込み音声を除去した雑音パターンに対応した雑音重
畳音声に重畳している重畳雑音パターンに係るパワース
ペクトルを第２の代表雑音スペクトルメモリ２２から選
択して、フレームｊにおける重畳雑音パターンに係るパ
ワースペクトルとして用いる。

【００５７】第１の雑音スペクトル選択手段２３は、洩
れ込み音声除去手段９から出力される洩れ込み音声を除
去した雑音パターンに係るパワースペクトルと、第１の
代表雑音スペクトルメモリ２１に記憶されたＮ個の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルとの間の距離値をそれぞれ演算して、洩れ込み音声を
除去した雑音パターンに係るパワースペクトルに対して
最短距離値を与える代表的な洩れ込み音声を除去した雑
音パターンを第１の代表雑音スペクトルメモリ２１から
選択して当該雑音パターンを識別する信号を出力する。
分析フレームｉにおいて最短距離値を与える洩れ込み音
声を除去した雑音パターンに係るパワースペクトルの番
号ｌ（ｉ）は式（２５）を用いて導かれる。式（２５）
において、ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパ
ワースペクトルＹとの間の距離値を返す関数である。

【数１２】

【００５８】第２の雑音スペクトル選択手段２４は、第
１の雑音スペクトル選択手段２３から時系列に出力され
る雑音パターン識別信号に対応する重畳雑音パターンに
係るパワースペクトルＹ１^ｌ（ｉ）（ω）を第２の代表
雑音スペクトルメモリ２２から選択して時系列に出力す
る。

【００５９】雑音除去音声スペクトル演算手段２５は、
雑音重畳音声スペクトル演算手段３から出力される雑音
重畳音声に係るパワースペクトルから、第２の雑音スペ
クトル選択手段２４から出力される重畳雑音パターンに
係るパワースペクトルを減算して、雑音除去音声に係る
パワースペクトルＳ’_ｉ（ω）を時系列に出力する。こ
のとき、分析フレームｉにおける雑音除去音声に係るパ
ワースペクトルＳ’_ｉ（ω）は、以下の式（２６）を用
いて導かれる。式（２６）において、αは重畳雑音パタ
ーンに係るパワースペクトルの減算量を調整するパラメ
ータであり、βは重畳雑音パターンに係るパワースペク
トルの過剰な減算を防止するために雑音除去音声に係る
パワースペクトルにおける各周波数成分の下限値を設定
するパラメータである。また、ｍａｘ｛｝は括弧内の要
素の中で最大の値の要素を返す関数として与えられるも
のである。Ｓ’_ｉ（ω）＝ｍａｘ｛Ｘ１_ｉ（ω）−αＹ１^ｌ（ｉ）（ω），β｝（２６）

【００６０】ここで、分析フレームｉにおいてＫ個の雑
音源が出力するＫ個の雑音の組み合せΩ（ｉ）に対する
重畳雑音パターンに係るパワースペクトルが適切に学習
されているならば、Ｙ１^ｌ（ｉ）（ω）＝Ｇ
_２１，ｉ（ω）Ｎ_ｉ（ω）となる。これと式（７）を式
（２３）に代入すると、α＝１のとき、Ｓ’_ｉ（ω）＝
Ｇ_１１ ^（ ^{ｘ（ｉ），ｙ（ｉ））}（ω）・Ｓ_ｉ（ω）とな
り、雑音が除去された音声に係るパワースペクトルを得
ることができる。

【００６１】図３は、雑音除去音声に係るパワースペク
トルを得る処理手順を示すブロック図である。既に述べ
たように、Ｘ１_ｉ（ω）は雑音重畳音声に係るパワース
ペクトル、Ｘ２_ｉ（ω）は音声が洩れ込んだ雑音パター
ンに係るパワースペクトル、Ｙ２_ｉ（ω）は洩れ込み音
声を除去した雑音パターンに係るパワースペクトル、Ｙ
１^ｌ（ｉ）（ω）は推定された重畳雑音パターンに係る
パワースペクトル、Ｓ’_ｉ（ω）は雑音除去音声に係る
パワースペクトル、Ｗ_１２（ω）は補正フィルタであ
る。図３に示されるように、音声が洩れ込んだ雑音パタ
ーンに係るパワースペクトルＸ２_ｉ（ω）から雑音重畳
音声に係るパワースペクトルＸ１_ｉ（ω）に補正フィル
タＷ_１２（ω）を適用したものを減算することで、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルＹ２_ｉ（ω）を得る。次に事前学習より求めたＹ２^ｎ
（ω）とＹ１^ｎ（ω）との写像関係から、Ｙ２_ｉ（ω）
に対応する重畳雑音パターンに係るパワースペクトルＹ
１^ｌ（ｉ）（ω）を推定する。最後に、雑音重畳音声に
係るパワースペクトルＸ１_ｉ（ω）から推定されたＹ１
^ｌ（ｉ）（ω）を減算することで、雑音除去音声に係る
パワースペクトルＳ’ _ｉ（ω）を得ることができる。

【００６２】以上のように、この実施の形態２によれ
ば、洩れ込み音声除去手段９を備えること、並びに話者
位置検出手段５、音声補正用補正フィルタメモリ６およ
び音声補正用補正フィルタ選択手段７を備えることにつ
いては実施の形態１と同等の効果を奏する。さらに、洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを複数記憶する第１の代表雑音スペクトルメモリ２
１と、重畳雑音パターンに係るパワースペクトルを複数
記憶する第２の代表雑音スペクトルメモリ２２と、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと第１の代表雑音スペクトルメモリ２１に記憶される
複数個の雑音パターンに係るパワースペクトルとの間の
距離値を演算して最短距離値を与える雑音パターンを第
１の代表雑音スペクトルメモリ２１から選択して当該雑
音パターンを識別する信号を時系列に出力する第１の雑
音スペクトル選択手段２３と、第１の雑音スペクトル選
択手段２３から出力される雑音パターン識別信号に対応
する重畳雑音に係るパワースペクトルを第２の代表雑音
スペクトルメモリ２２から選択して時系列に出力する第
２の雑音スペクトル選択手段２４とを備えるように構成
したので、洩れ込み音声が除去された雑音パターンに応
じた適切な重畳雑音パターンに係るパワースペクトルを
選択して、雑音重畳音声に係るパワースペクトルから重
畳雑音パターンに係るパワースペクトルを正確に除去す
ることができるために、音声用マイクロホン１と雑音用
マイクロホン２との雑音パターンに対する伝達特性が時
々刻々変化するような場合においても、音声認識の性能
をより向上することができるという効果を奏する。

【００６３】実施の形態３．実施の形態２による音声認
識装置は、補正フィルタおよび雑音パターンのパワース
ペクトル等に係る学習を事前に実施する必要があるため
に、事前の学習データに含まれないような雑音パターン
等が生ずる環境下においては、正確に雑音除去を実施す
ることができないことが予想される。この実施の形態３
は、実際に音声認識を行なっている環境下において補正
フィルタおよび雑音パターンのパワースペクトル等に係
る学習を実施する学習手段を備えることを特徴とする。

【００６４】図４は、この発明の実施の形態３による音
声認識装置の構成を示す図である。図４において、図１
および図２と同一符号は同一または相当部分を示すので
その説明を省略する。３１は雑音用マイクロホン２から
出力される雑音パターン信号から雑音パワーレベルを算
出し当該雑音パワーレベルを時系列に出力する雑音パワ
ーレベル演算手段、３２は音声用マイクロホン１から出
力される雑音重畳音声信号と雑音用マイクロホン２から
出力される雑音パターン信号とに基づいて音声区間を判
定し、音声区間であるか否かの識別信号を時系列に出力
する音声区間検出手段、３３は音声用マイクロホン１か
ら出力される雑音重畳音声信号と雑音用マイクロホン２
から出力される雑音パターン信号とに基づいて雑音区間
を判定し、雑音区間であるか否かの識別信号を時系列に
出力する雑音区間検出手段、３４は雑音パワーレベル演
算手段３１から出力される雑音パワーレベルが閾値以下
でありかつ音声区間検出手段３２から出力される識別信
号が音声区間である旨を示している場合に、補正フィル
タの学習を実施することを示す識別信号を時系列に出力
する補正フィルタ学習決定手段、３５は雑音パワーレベ
ル演算手段３１から出力される雑音パワーレベルが閾値
以上でありかつ雑音区間検出手段３３から出力される識
別信号が雑音区間である旨を示している場合に、雑音ス
ペクトルの学習を実施することを示す識別信号を時系列
に出力する雑音スペクトル学習決定手段、３６は補正フ
ィルタ学習決定手段３４から出力される識別信号が補正
フィルタの学習を実施する旨を示している場合に、雑音
重畳音声スペクトル演算手段３から出力される雑音重畳
音声に係るパワースペクトルと雑音スペクトル演算手段
４から出力される雑音パターンに係るパワースペクトル
とに基づいて、話者位置検出手段５から出力される話者
の位置データに対応する補正フィルタを学習し当該補正
フィルタを出力する補正フィルタ学習手段、３７は雑音
スペクトル学習決定手段３５から出力される識別信号が
雑音スペクトルの学習を実施する旨を示している場合
に、洩れ込み音声除去手段９から出力される洩れ込み音
声を除去した雑音パターンに係るパワースペクトルに基
づいて、代表的な洩れ込み音声を除去した雑音パターン
に係るパワースペクトルを学習し当該パワースペクトル
を出力する第１の雑音スペクトル学習手段、３８は雑音
スペクトル学習決定手段３５から出力される識別信号が
雑音スペクトルの学習を実施する旨を示している場合
に、雑音重畳音声スペクトル演算手段３から出力される
雑音重畳音声に係るパワースペクトルに基づいて、第１
の雑音スペクトル学習手段３７から出力される代表的な
洩れ込み音声を除去した雑音パターンに対応する重畳雑
音パターンに係るパワースペクトルを学習し当該パワー
スペクトルを出力する第２の雑音スペクトル学習手段で
ある。

【００６５】また、図５は、第１の雑音スペクトル学習
手段の内部構成を示した図である。図５において、４１
は洩れ込み音声除去手段９から出力される洩れ込み音声
を除去した雑音パターンに係るパワースペクトルを複数
記憶する第１の雑音スペクトルメモリ、４２は第１の雑
音スペクトルメモリ４１に記憶される複数の洩れ込み音
声を除去した雑音パターンに係るパワースペクトルに対
してクラスタリングを実施し、クラスタリング結果にお
けるセントロイドに対応するパワースペクトルを代表的
な洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルとして出力する第１のクラスタリング手段であ
る。

【００６６】また、図６は、第２の雑音スペクトル学習
手段の内部構成を示した図である。図６において、４３
は第１の雑音スペクトルメモリ４１に記憶される複数の
洩れ込み音声を除去した雑音パターンに係るパワースペ
クトルとそれぞれ同一分析フレームに雑音重畳音声スペ
クトル演算手段３から出力された複数の重畳雑音パター
ンに係るパワースペクトルを記憶する第２の雑音スペク
トルメモリ、４４は第２の雑音スペクトルメモリ４３に
記憶される複数の重畳雑音パターンに係るパワースペク
トルに対して、第１のクラスタリング手段４２のクラス
タリング結果に基づいてクラスタリングを実施し、クラ
スタリング結果におけるセントロイドに対応するパワー
スペクトルを代表的な重畳雑音パターンに係るパワース
ペクトルとして出力する第２のクラスタリング手段であ
る。

【００６７】次に動作について説明する。音声用マイク
ロホン１から洩れ込み音声除去手段９に係る動作、特徴
ベクトル演算手段１６から照合手段１８に係る動作、並
びに第１の代表雑音スペクトルメモリ２１から雑音除去
音声スペクトル演算手段２５に係る動作については実施
の形態２と同様であるのでその説明を省略する。

【００６８】雑音パワーレベル演算手段３１は、雑音用
マイクロホン２から出力される雑音パターン信号につい
て雑音パワーレベルを算出し当該雑音パワーレベルを時
系列に出力する。時刻ｔにおける雑音用マイクロホン２
が出力する雑音パターン信号をｘ２（ｔ）とすると、分
析フレームｉにおける雑音パワーレベルＬＥＶ_ｉは以下
の式（２７）から導くことができる。式（２７）におい
て、ｘ２（ｔ）は時刻ｔにおける雑音用マイクロホン２
が出力する雑音パターン信号、Ｍは分析フレームのシフ
ト量、Ｌは１分析フレームのサンプル数である。

【数１３】

【００６９】音声区間検出手段３２は、音声用マイクロ
ホン１から出力される雑音重畳音声信号と雑音用マイク
ロホン２から出力される雑音パターン信号から音声区間
を判定し、音声区間であるか否かの識別信号を時系列に
出力する。分析フレームｉが音声区間であるか否かにつ
いては、以下の式（２８）を満たすか否かにより判定す
る。式（２８）において、Ｐ１_ｉは分析フレームｉにお
ける雑音重畳音声信号のパワー、Ｐ２_ｉは分析フレーム
ｉにおける雑音パターン信号のパワー、ＴＨ_ｖは音声区
間判定用の閾値である。

【数１４】

【００７０】雑音区間検出手段３３は、音声用マイクロ
ホン１から出力される雑音重畳音声信号と雑音用マイク
ロホン２から出力される雑音パターン信号とに基づいて
雑音区間を判定し、雑音区間であるか否かの識別信号を
時系列に出力する。分析フレームｉが雑音区間であるか
否かについては、以下の式（２９）を満たすか否かによ
り判定する。式（２９）において、Ｐ１_ｉは分析フレー
ムｉにおける雑音重畳音声信号のパワー、Ｐ２_ｉは分析
フレームｉにおける雑音パターン信号のパワー、ＴＨ_ｎ
は雑音区間判定用の閾値である。

【数１５】

【００７１】補正フィルタ学習決定手段３４は、雑音パ
ワーレベル演算手段３１から出力される雑音パワーレベ
ルが閾値以下でありかつ音声区間検出手段３２から出力
される識別信号が音声区間である旨を示している場合
に、補正フィルタの学習を実施することを示す識別信号
を時系列に出力する。すなわち、背景雑音の雑音パワー
レベルが小さく背景雑音の影響が無視できるような環境
で発声された音声区間において補正フィルタの学習を実
施することを示す識別信号を時系列に出力する。

【００７２】雑音スペクトル学習決定手段３５は、雑音
パワーレベル演算手段３１から出力される雑音パワーレ
ベルが閾値以上でありかつ雑音区間検出手段３３から出
力される識別信号が雑音区間である旨を示している場合
に、雑音スペクトルの学習を実施することを示す識別信
号を時系列に出力する。すなわち、背景雑音の雑音パワ
ーレベルが大きく音声が発声されていない雑音区間にお
いて雑音スペクトルの学習を実施することを示す識別信
号を時系列に出力する。

【００７３】補正フィルタ学習手段３６は、補正フィル
タ学習決定手段３４から出力される識別信号が補正フィ
ルタの学習を実施する旨を示している場合に、雑音重畳
音声スペクトル演算手段３から出力される雑音重畳音声
に係るパワースペクトルと雑音スペクトル演算手段４か
ら出力される雑音パターンに係るパワースペクトルとに
基づいて、話者位置検出手段５から出力される話者の位
置データ（ｘ（ｉ），ｙ（ｉ））に対応する補正フィル
タＷ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）を学習し当該補
正フィルタを出力する。学習された補正フィルタは、音
声補正用補正フィルタメモリ６に記憶される。背景雑音
が無視できるような環境下で発声が行われた場合に、分
析フレームｊにおける雑音重畳音声スペクトル演算手段
３から出力される雑音重畳音声に係るパワースペクトル
Ｘ１_ｊ（ω）および雑音スペクトル演算手段４から出力
される雑音パターンに係るパワースペクトルＸ２
_ｊ（ω）は、以下の式（３０）で表すことができる。式
（３０）は、背景雑音が無視できるという仮定のもと
に、式（７）および式（８）の第２項を削除することで
導かれる。

【数１６】したがって、話者位置（ｘ（ｊ），ｙ（ｊ））での音声
用マイクロホン１と雑音用マイクロホン２との音声に対
する伝達特性に係る周波数特性の差異を補正するための
フィルタＷ_１２ ^{（ｘ（ｊ），ｙ（ｊ））}（ω）は以下の
式（３１）を用いて導かれる。

【数１７】

【００７４】第１の雑音スペクトル学習手段３７は、雑
音スペクトル学習決定手段３５から出力される識別信号
が雑音スペクトルの学習を実施する旨を示している場合
に、洩れ込み音声除去手段９から出力される洩れ込み音
声を除去した雑音パターンに係るパワースペクトルに基
づいて、代表的な洩れ込み音声を除去した雑音パターン
に係るパワースペクトルを学習し当該パワースペクトル
を出力する。学習された代表的な洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルは、第１の代表
雑音スペクトルメモリ２１に記憶される。この第１の雑
音スペクトル学習手段３７は、第１の雑音スペクトルメ
モリ４１と第１のクラスタリング手段４２とから構成さ
れる。

【００７５】第１の雑音スペクトルメモリ４１は、洩れ
込み音声除去手段９から出力される洩れ込み音声を除去
した雑音パターンに係るパワースペクトルを複数個記憶
する。

【００７６】第１のクラスタリング手段４２は、第１の
雑音スペクトルメモリ４１に記憶される複数の洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
対してクラスタリングを実施し、クラスタリング結果に
おけるセントロイドに対応するパワースペクトルを代表
的な洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルとして出力する。クラスタリングは、式（３
２）で表される評価関数Ｄが最小になるように実施され
る。式（３２）において、Ｎはクラス数、Ｙ２ ^ｎ（ω）
はクラスｎのセントロイド、Θ（ｎ）はクラスｎの要素
が有する時系列番号の集合、ｉは現在第１の雑音スペク
トルメモリ４１に記憶されている洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルの時系列番号、
ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペク
トルＹとの間の距離値を返す関数である。

【数１８】また、各クラスのセントロイドＹ２^ｎ（ω）は式（１
７）を用いて導かれる。クラスタリング終了後、Ｎ個の
Ｙ２^ｎ（ω）が代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルとして出力され、第１の
代表雑音スペクトルメモリ２１に記憶される。

【００７７】第２の雑音スペクトル学習手段３８は、雑
音スペクトル学習決定手段３５から出力される識別信号
が雑音スペクトルの学習を実施する旨を示している場合
に、雑音重畳音声スペクトル演算手段３が出力する雑音
重畳音声に係るパワースペクトルに基づいて、第１の雑
音スペクトル学習手段３７が出力する代表的な洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
対応する重畳雑音パターンに係るパワースペクトルを学
習し当該パワースペクトルを出力する。学習された代表
的な重畳雑音パターンに係るパワースペクトルは、第２
の代表雑音スペクトルメモリ２２に記憶される。この第
２の雑音スペクトル学習手段３８は、第２の雑音スペク
トルメモリ４３と第２のクラスタリング手段４４とから
構成される。

【００７８】第２の雑音スペクトルメモリ４３は、第１
の雑音スペクトルメモリ４１に記憶されている複数の洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルと同一分析フレームにおいてそれぞれ出力された複
数の重畳雑音パターンに係るパワースペクトルを記憶す
る。雑音区間においては、分析フレームｊにおける音声
用マイクロホン１が出力する雑音重畳音声に係るパワー
スペクトルは以下の式（３３）で表される。式（３３）
は音声のない雑音区間であるということから、式（７）
の第１項を削除することで導かれる。Ｘ１_ｊ（ω）＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（３３）これは雑音重畳音声において重畳している重畳雑音パタ
ーンに対するパワースペクトルであり、これを式（１
９）と同様にＹ１_ｊ（ω）と定義する。Ｙ１_ｊ（ω）＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（３４）すなわち、第２の雑音スペクトルメモリ４３は、第１の
雑音スペクトルメモリ４１に記憶されている複数の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルＹ２_ｉ（ω）が出力された分析フレームｉとそれぞれ
同じ分析フレームにおいて雑音重畳音声スペクトル演算
手段３から出力された重畳雑音パターンに係るパワース
ペクトルＹ１_ｉ（ω）を記憶する。

【００７９】第２のクラスタリング手段４４は、第２の
雑音スペクトルメモリ４３が記憶する複数の重畳雑音パ
ターンに係るパワースペクトルに対して、第１のクラス
タリング手段４２のクラスタリング結果に基づいてクラ
スタリングを実施し、クラスタリング結果におけるセン
トロイドに対応するパワースペクトルを代表的な重畳雑
音パターンに係るパワースペクトルとして出力する。各
クラスのセントロイドＹ１^ｎ（ω）は式（２１）を用い
て導かれる。クラスタリング終了後、Ｎ個のＹ１
^ｎ（ω）が代表的な重畳雑音パターンに係るパワースペ
クトルとして出力され、第２の代表雑音スペクトルメモ
リ２２に記憶される。

【００８０】以上のように、Ｎ個のＹ１^ｎ（ω）、Ｙ２
^ｎ（ω）がＮ個にクラス分けされた雑音パターンに対応
するようにそれぞれ記憶されるとともに、Ｎ組のＹ２^ｎ
（ω）とＹ１^ｎ（ω）との対応関係に基づいて任意のフ
レームｊにおける洩れ込み音声を除去した雑音パターン
に係るパワースペクトルに対応する雑音重畳音声に重畳
している重畳雑音パターンに係るパワースペクトルを導
くことができる。

【００８１】以上のように、この実施の形態３によれ
ば、雑音用マイクロホン２から出力される雑音パターン
信号から雑音パワーレベルを算出し当該雑音パワーレベ
ルを時系列に出力する雑音パワーレベル演算手段３１
と、音声用マイクロホン１から出力される雑音重畳音声
信号と雑音用マイクロホン２から出力される雑音パター
ン信号とに基づいて音声区間を検出し音声区間か否かを
識別する信号を時系列に出力する音声区間検出手段３２
と、雑音パワーレベル演算手段３１から出力される雑音
パワーレベルが閾値以下でかつ音声区間検出手段３２か
ら出力される識別信号が音声区間である旨を示している
場合に補正フィルタの学習を実施することを示す識別信
号を時系列に出力する補正フィルタ学習決定手段３４
と、補正フィルタ学習決定手段３４から出力される識別
信号が補正フィルタの学習を実施する旨を示している場
合に雑音重畳音声スペクトル演算手段３から出力される
雑音重畳音声に係るパワースペクトルと雑音スペクトル
演算手段４から出力される雑音パターンに係るパワース
ペクトルとに基づいて話者位置検出手段５から出力され
る話者の位置データに対応する補正フィルタを学習し当
該補正フィルタを出力する補正フィルタ学習手段３６と
を備えるように構成したので、事前学習によって学習で
きなかった話者位置において発声が行われる場合におい
ても、雑音重畳音声に係るパワースペクトルの補正を正
確に行ない、音声が洩れ込んだ雑音パターンに係るパワ
ースペクトルから洩れ込み音声の除去を正確に実施する
ことができるから、音声認識の性能を向上することがで
きるという効果を奏する。

【００８２】また、雑音用マイクロホン２から出力され
る雑音パターン信号から雑音パワーレベルを算出し当該
雑音パワーレベルを時系列に出力する雑音パワーレベル
演算手段３１と、音声用マイクロホン１から出力される
雑音重畳音声信号と雑音用マイクロホン２から出力され
る雑音パターン信号とに基づいて雑音区間を検出し雑音
区間か否かを識別する信号を時系列に出力する雑音区間
検出手段３３と、雑音パワーレベル演算手段３１から出
力される雑音パワーレベルが閾値以上でありかつ雑音区
間検出手段３３から出力される識別信号が雑音区間であ
る旨を示している場合に、雑音スペクトルの学習を実施
することを示す識別信号を時系列に出力する雑音スペク
トル学習決定手段３５と、雑音スペクトル学習決定手段
３５から出力される識別信号が雑音スペクトルの学習を
実施する旨を示している場合に、洩れ込み音声除去手段
９から出力される洩れ込み音声を除去した雑音パターン
に係るパワースペクトルに基づいて代表的な洩れ込み音
声を除去した雑音パターンに係るパワースペクトルを学
習し当該パワースペクトルを出力する第１の雑音スペク
トル学習手段３７と、雑音スペクトル学習決定手段３５
から出力される識別信号が雑音スペクトルの学習を実施
する旨を示している場合に、雑音重畳音声スペクトル演
算手段３から出力される雑音重畳音声に係るパワースペ
クトルに基づいて、第１の雑音スペクトル学習手段３７
から出力される代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルに対応する重畳雑音パタ
ーンに係るパワースペクトルを学習し当該パワースペク
トルを出力する第２の雑音スペクトル学習手段３８とを
備えるように構成したので、事前学習によって学習でき
なかった雑音パターンが音声に重畳した場合において
も、洩れ込み音声が除去された雑音パターンに応じて適
切な重畳雑音パターンに係るパワースペクトルを選択し
て、雑音重畳音声に係るパワースペクトルから当該重畳
雑音パターンに係るパワースペクトルを正確に除去する
ことができるから、音声認識の性能をより向上すること
ができるという効果を奏する。

【００８３】さらに、第１の雑音スペクトル学習手段３
７が、洩れ込み音声除去手段９から出力される複数の洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを記憶する第１の雑音スペクトルメモリ４１と、第
１の雑音スペクトルメモリ４１に記憶される複数の洩れ
込み音声を除去した雑音パターンに係る複数のパワース
ペクトルについて、それぞれのクラスのセントロイドと
当該クラスに含まれる雑音パターンのパワースペクトル
との間の距離値の総和が最小となるようにクラスタリン
グを実施し、各クラスのセントロイドを代表的な洩れ込
み音声を除去した雑音パターンに係るパワースペクトル
として出力する第１のクラスタリング手段４２とを備
え、第２の雑音スペクトル学習手段３８が、第１の雑音
スペクトルメモリ４１に記憶される複数の洩れ込み音声
を除去した雑音パターンに係るパワースペクトルとそれ
ぞれ同一分析フレームに出力された複数の重畳雑音パタ
ーンに係るパワースペクトルを記憶する第２の雑音スペ
クトルメモリ４３と、第２の雑音スペクトルメモリ４３
に記憶される複数の重畳雑音パターンに係るパワースペ
クトルに対して第１のクラスタリング手段４２における
クラスタリング結果を反映するようにクラスタリングを
実施し、各クラスのセントロイドを代表的な重畳雑音パ
ターンに係るパワースペクトルとして出力する第２のク
ラスタリング手段４４とを備えるように構成したので、
洩れ込み音声を除去した雑音パターンについてそれぞれ
のクラスのセントロイドと当該クラスに含まれるパワー
スペクトルとの間の距離値の総和が最小となるようにす
ることで適切なクラスタリングを実施するとともに、洩
れ込み音声を除去した雑音パターンおよび重畳雑音パタ
ーンについて各クラスのセントロイドを代表的なパワー
スペクトルとして記憶することで、洩れ込み音声を除去
した雑音パターンに係るパワースペクトルと重畳雑音に
係るパワースペクトルとの間の写像関係を精密に学習で
きるから、雑音重畳音声に係るパワースペクトルから重
畳雑音パターンに係るパワースペクトルを正確に除去す
ることができて、音声認識の性能をより向上することが
できるという効果を奏する。

【００８４】実施の形態４．実施の形態２および実施の
形態３による音声認識装置では、単純なクラスタリング
によって、洩れ込み音声を除去した雑音パターンと重畳
雑音パターンとの間の写像関係を学習しているために、
雑音パワーレベルの変動が大きい場合等に過度に雑音の
強さ方向にのみ分解能を有して雑音の種類方向に分解能
を有しない写像関係を学習してしまい、結果的に正確に
雑音除去することができないことが予想される。そこ
で、この実施の形態４による音声認識装置は、クラスタ
リングの精度を上げて洩れ込み音声を除去した雑音パタ
ーンと重畳雑音パターンとの間の写像関係をより精密に
学習することを特徴とする。

【００８５】図７は、この発明の実施の形態４による音
声認識装置における第１の雑音スペクトル学習手段の内
部構成を示す図である。図７において、図５と同一符号
は同一または相当部分を示すのでその説明を省略する。
５１は第１の雑音スペクトルメモリ４１に記憶される洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルからパワースペクトルの概形を表すパラメータを算
出し当該パラメータを出力するスペクトル概形パラメー
タ演算手段、５２は第１の雑音スペクトルメモリ４１に
記憶される洩れ込み音声を除去した雑音パターンに係る
パワースペクトルからパワースペクトルの強度を表すパ
ラメータを算出し当該パラメータを出力するスペクトル
強度パラメータ演算手段、５３はスペクトル概形パラメ
ータ演算手段５１から出力されるパワースペクトルの概
形を表すパラメータとスペクトル強度パラメータ演算手
段５２から出力されるパワースペクトルの強度を表すパ
ラメータとに重みを掛けて算出する距離値を用いて、第
１の雑音スペクトルメモリ４１に記憶される複数の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルをクラスタリングし、代表的な洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルを出力する重み
付けクラスタリング手段である。

【００８６】次に動作について説明する。スペクトル概
形パラメータ演算手段５１は、洩れ込み音声除去手段９
から出力される洩れ込み音声を除去した雑音パターンに
係るパワースペクトルからパワースペクトルの概形を表
すパラメータを算出し時系列に出力する。具体的には式
（３５）からＹ２_ｉ（ω）のケプストラムＣ_ｉ（ｐ）を
求め、Ｃ_ｉ（ｐ）（１≦ｐ≦Ｐ）をパワースペクトルの
概形を表すパラメータとする。Ｐはケプストラムの次数
である。また、式（３５）においてＦ^−１は逆ＦＦＴを
実施する関数である。Ｃ_ｉ（ｐ）＝Ｆ^−１（ｌｎ（Ｙ２_ｉ（ω）））（３５）

【００８７】スペクトル強度パラメータ演算手段５２
は、洩れ込み音声除去手段９から出力される洩れ込み音
声を除去した雑音パターンに係るパワースペクトルから
パワースペクトルの強度を表すパラメータを算出し時系
列に出力する。具体的には、式（３５）からＹ２
_ｉ（ω）のケプストラムＣ_ｉ（ｐ）を求め、Ｃ_ｉ（０）
をパワースペクトルの強度を表すパラメータとする。

【００８８】重み付けクラスタリング手段５３は、スペ
クトル概形パラメータ演算手段５１から出力されるパワ
ースペクトルの概形を表すパラメータとスペクトル強度
パラメータ演算手段５２から出力されるパワースペクト
ルの強度を表すパラメータとに重みを掛けて算出する距
離値を用いて、第１の雑音スペクトルメモリ４１に記憶
される複数の洩れ込み音声を除去した雑音パターンに係
るパワースペクトルをクラスタリングし、代表的な洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルを出力する。クラスタリングは、以下の式（３６）で
表される評価関数Ｄが最小になるように実施される。式
（３６）において、Ｃ^ｎ（ｐ）はクラスｎのセントロイ
ド、Θ（ｎ）はクラスｎの要素が有する時系列番号の集
合、ｄｉｓ（Ｘ，Ｙ）は指定された次数の範囲における
ケプストラムＸとケプストラムＹとの間の距離値を返す
関数である。Ｗは、パワースペクトルの概形を表すパラ
メータおよびパワースペクトルの強度を表すパラメータ
についての全体の距離値に対する寄与度の割合を決定す
る重み係数である。

【数１９】また、各クラスのセントロイドＹ２^ｎ（ω）は式（１
７）を用いて導かれる。クラスタリング終了後、Ｎ個の
Ｙ２^ｎ（ω）が代表的な洩れ込み音声を除去した雑音パ
ターンに係るパワースペクトルとして出力され、第１の
代表雑音スペクトルメモリ２１に記憶される。

【００８９】以上のように、この実施の形態４によれ
ば、第１の雑音スペクトルメモリ４１に記憶される洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルからパワースペクトルの概形を表すパラメータを算出
し当該パラメータを出力するスペクトル概形パラメータ
演算手段５１と、第１の雑音スペクトルメモリ４１に記
憶される洩れ込み音声を除去した雑音パターンに係るパ
ワースペクトルからパワースペクトルの強度を表すパラ
メータを算出し当該パラメータを出力するスペクトル強
度パラメータ演算手段５２と、スペクトル概形パラメー
タ演算手段５１から出力されるパワースペクトルの概形
を表すパラメータとスペクトル強度パラメータ演算手段
５２から出力されるパワースペクトルの強度を表すパラ
メータとにそれぞれ重みを掛けて算出する距離値を用い
て、第１の雑音スペクトルメモリ４１に記憶される複数
の洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルをクラスタリングし、代表的な洩れ込み音声を
除去した雑音パターンに係るパワースペクトルを出力す
る重み付けクラスタリング手段５３とを備えるように構
成したので、雑音パワーレベルの変動が激しい環境下等
においても、雑音の強度を表すパラメータに対する重み
を調整することによってより精密なクラスタリングが可
能となり、洩れ込み音声を除去した雑音パターンに係る
パワースペクトルと重畳雑音パターンに係るパワースペ
クトルとの間の写像関係をより精密に学習することがで
きることで、雑音重畳音声に係るパワースペクトルから
重畳雑音パターンに係るパワースペクトルを正確に除去
することができるために、音声認識の性能をより向上す
ることができるという効果を奏する。

【００９０】

【発明の効果】以上のように、この発明によれば、音声
用マイクロホンと雑音用マイクロホンとの音声に対する
伝達特性に係る周波数特性の差異を補正するためのフィ
ルタを用いて雑音重畳音声に係るパワースペクトルを補
正して補正雑音重畳音声に係るパワースペクトルを時系
列に出力する雑音重畳音声スペクトル補正手段と、音声
が洩れ込んだ雑音パターンに係るパワースペクトルから
補正雑音重畳音声に係るパワースペクトルを減算して洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを時系列に出力する洩れ込み音声除去手段とを備え
るように構成したので、雑音用マイクロホンへの音声の
洩れ込みがある場合においても、雑音パターンから洩れ
込み音声を除去することができて、洩れ込み音声が除去
された雑音パターンを雑音重畳音声から除去することが
できるから、音声認識の性能を向上することができると
いう効果を奏する。

【００９１】この発明によれば、センサによって話者の
存在する位置を検出して当該位置データを時系列に出力
する話者位置検出手段と、音声用マイクロホンと雑音用
マイクロホンとの音声に対する伝達特性に係る周波数特
性の差異を補正するための複数の補正フィルタを記憶す
る音声補正用補正フィルタメモリと、話者位置検出手段
から出力される話者の位置データに対応する補正フィル
タを音声補正用補正フィルタメモリから選択して当該補
正フィルタを雑音重畳音声スペクトル補正手段へ時系列
に出力する音声補正用補正フィルタ選択手段とを備える
ように構成したので、話者位置に応じて適正な補正フィ
ルタを選択して音声が洩れ込んだ雑音パターンに係るパ
ワースペクトルから洩れ込み音声に係るパワースペクト
ルを正確に除去することができるから、雑音重畳音声か
らの雑音除去を正確に実施することができて、音声認識
の性能をより向上することができるという効果を奏す
る。

【００９２】この発明によれば、音声用マイクロホンと
雑音用マイクロホンとの雑音パターンに対する伝達特性
に係る周波数特性の差異を補正するための複数の補正フ
ィルタを記憶する雑音補正用補正フィルタメモリと、雑
音補正用補正フィルタメモリに記憶された複数の補正フ
ィルタにそれぞれ対応する雑音パターンに係るパワース
ペクトルを記憶する代表雑音スペクトルメモリと、収集
された雑音パターンに係るパワースペクトルと代表雑音
スペクトルメモリに記憶される複数の雑音パターンに係
るパワースペクトルとの間の距離値を演算して最短距離
値を与える雑音パターンを代表雑音スペクトルメモリか
ら選択して当該雑音パターンを識別する信号を時系列に
出力する雑音スペクトル選択手段と、雑音スペクトル選
択手段から出力される雑音パターン識別信号に対応する
補正フィルタを雑音補正用補正フィルタメモリから選択
して時系列に出力する雑音補正用補正フィルタ選択手段
とを備えるように構成したので、雑音用マイクロホンに
より収集された雑音パターンに応じて適正な補正フィル
タを選択して、雑音重畳音声に係るパワースペクトルか
ら雑音パターンに係るパワースペクトルを正確に除去す
ることができるから、音声認識の性能を向上することが
できるという効果を奏する。

【００９３】この発明によれば、音声用マイクロホンと
雑音用マイクロホンとの雑音パターンに対する伝達特性
に係る周波数特性の差異を補正するための複数の補正フ
ィルタを記憶する雑音補正用補正フィルタメモリと、雑
音補正用補正フィルタメモリに記憶された複数の補正フ
ィルタにそれぞれ対応する雑音パターンに係るパワース
ペクトルを記憶する代表雑音スペクトルメモリと、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと代表雑音スペクトルメモリに記憶される複数の雑音
パターンに係るパワースペクトルとの間の距離値を演算
して最短距離値を与える雑音パターンを代表雑音スペク
トルメモリから選択して当該雑音パターンを識別する信
号を時系列に出力する雑音スペクトル選択手段と、雑音
スペクトル選択手段から出力される雑音パターン識別信
号に対応する補正フィルタを雑音補正用補正フィルタメ
モリから選択して洩れ込み音声除去雑音スペクトル補正
手段へ時系列に出力する雑音補正用補正フィルタ選択手
段とを備えるように構成したので、洩れ込み音声が除去
された雑音パターンに応じて適正な補正フィルタを選択
して、雑音重畳音声に係るパワースペクトルから雑音パ
ターンに係るパワースペクトルを正確に除去することが
できるから、音声認識の性能をより向上することができ
るという効果を奏する。

【００９４】この発明によれば、洩れ込み音声を除去し
た雑音パターンに係る複数のパワースペクトルを記憶す
る第１の代表雑音スペクトルメモリと、第１の代表雑音
スペクトルメモリに記憶される複数の洩れ込み音声を除
去した雑音パターンに係るパワースペクトルにそれぞれ
対応する複数の重畳雑音パターンに係るパワースペクト
ルを記憶する第２の代表雑音スペクトルメモリと、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと、第１の代表雑音スペクトルメモリに記憶される複
数の洩れ込み音声を除去した雑音パターンに係るパワー
スペクトルとの間の距離値を演算して最短距離値を与え
る雑音パターンに係るパワースペクトルを第１の代表雑
音スペクトルメモリから選択して、当該雑音パターンを
識別する信号を時系列に出力する第１の雑音スペクトル
選択手段と、第１の雑音スペクトル選択手段から出力さ
れる雑音パターン識別信号に対応する重畳雑音パターン
に係るパワースペクトルを第２の代表雑音スペクトルメ
モリから選択し時系列に出力する第２の雑音スペクトル
選択手段とを備えるように構成したので、洩れ込み音声
が除去された雑音パターンに応じた適切な重畳雑音パタ
ーンに係るパワースペクトルを選択して、雑音重畳音声
に係るパワースペクトルから重畳雑音パターンに係るパ
ワースペクトルを正確に除去することができるために、
音声用マイクロホンと雑音用マイクロホンとの雑音パタ
ーンに対する伝達特性に係る周波数特性が時々刻々変化
するような場合においても、音声認識の性能をより向上
することができるという効果を奏する。

【００９５】この発明によれば、雑音用マイクロホンか
ら出力される雑音パターン信号から雑音パワーレベルを
算出し当該雑音パワーレベルを時系列に出力する雑音パ
ワーレベル演算手段と、音声用マイクロホンから出力さ
れる雑音重畳音声信号と雑音用マイクロホンから出力さ
れる雑音パターン信号とに基づいて音声区間を判定し、
音声区間であるか否かの識別信号を時系列に出力する音
声区間検出手段と、雑音パワーレベル演算手段から出力
される雑音パワーレベルが閾値以下でありかつ音声区間
検出手段から出力される識別信号が音声区間である旨を
示している場合に、補正フィルタの学習を実施すること
を示す識別信号を時系列に出力する補正フィルタ学習決
定手段と、補正フィルタ学習決定手段から出力される識
別信号が補正フィルタの学習を実施する旨を示している
場合に、雑音重畳音声スペクトル演算手段から出力され
る雑音重畳音声に係るパワースペクトルと雑音スペクト
ル演算手段から出力される雑音パターンに係るパワース
ペクトルとに基づいて、話者位置検出手段から出力され
る話者の位置データに対応する補正フィルタを学習し当
該補正フィルタを出力する補正フィルタ学習手段とを備
えるように構成したので、事前学習によって学習できな
かった話者位置において発声が行われる場合において
も、雑音重畳音声に係るパワースペクトルの補正を正確
に行ない、音声が洩れ込んだ雑音パターンに対するパワ
ースペクトルから洩れ込み音声の除去を正確に実施する
ことができて、音声認識の性能を向上することができる
という効果を奏する。

【００９６】この発明によれば、雑音用マイクロホンか
ら出力される雑音パターン信号から雑音パワーレベルを
算出し当該雑音パワーレベルを時系列に出力する雑音パ
ワーレベル演算手段と、音声用マイクロホンから出力さ
れる雑音重畳音声信号と雑音用マイクロホンから出力さ
れる雑音パターン信号とに基づいて雑音区間を判定し、
雑音区間であるか否かの識別信号を時系列に出力する雑
音区間検出手段と、雑音パワーレベル演算手段から出力
される雑音パワーレベルが閾値以上でありかつ雑音区間
検出手段から出力される識別信号が雑音区間である旨を
示している場合に、雑音スペクトルの学習を実施するこ
とを示す識別信号を時系列に出力する雑音スペクトル学
習決定手段と、雑音スペクトル学習決定手段から出力さ
れる識別信号が雑音スペクトルの学習を実施する旨を示
している場合に、洩れ込み音声除去手段から出力される
洩れ込み音声を除去した雑音パターンに係るパワースペ
クトルに基づいて、代表的な洩れ込み音声を除去した雑
音パターンに係るパワースペクトルを学習し当該パワー
スペクトルを出力する第１の雑音スペクトル学習手段
と、雑音スペクトル学習決定手段から出力される識別信
号が雑音スペクトルの学習を実施する旨を示している場
合に、雑音重畳音声スペクトル演算手段から出力される
雑音重畳音声に係るパワースペクトルに基づいて、第１
の雑音スペクトル学習手段から出力される代表的な洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルに対応する重畳雑音パターンに係るパワースペクトル
を学習し当該パワースペクトルを出力する第２の雑音ス
ペクトル学習手段とを備えるように構成したので、事前
学習によって学習できなかった雑音パターンが音声に重
畳した場合においても、洩れ込み音声が除去された雑音
パターンに応じて適切な重畳雑音パターンに係るパワー
スペクトルを選択して、雑音重畳音声に係るパワースペ
クトルから当該重畳雑音パターンに係るパワースペクト
ルを正確に除去することができるので、音声認識の性能
をより向上することができるという効果を奏する。

【００９７】この発明によれば、第１の雑音スペクトル
学習手段が、洩れ込み音声除去手段から出力される複数
の洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルを記憶する第１の雑音スペクトルメモリと、第
１の雑音スペクトルメモリに記憶される複数の洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
ついて、それぞれのクラスのセントロイドとなるパワー
スペクトルと当該クラスに含まれる雑音パターンのパワ
ースペクトルとの間の距離値の総和が最小となるように
クラスタリングを実施し、各クラスのセントロイドを代
表的な洩れ込み音声を除去した雑音パターンに係るパワ
ースペクトルとして出力する第１のクラスタリング手段
とを備え、第２の雑音スペクトル学習手段が、第１の雑
音スペクトルメモリに記憶される複数の洩れ込み音声を
除去した雑音パターンに係るパワースペクトルとそれぞ
れ同一分析フレームに出力された複数の重畳雑音パター
ンに係るパワースペクトルを記憶する第２の雑音スペク
トルメモリと、第２の雑音スペクトルメモリに記憶され
る複数の重畳雑音パターンに係るパワースペクトルに対
して第１のクラスタリング手段におけるクラスタリング
結果を反映するようにクラスタリングを実施し、各クラ
スのセントロイドを代表的な重畳雑音パターンに係るパ
ワースペクトルとして出力する第２のクラスタリング手
段とを備えるように構成したので、洩れ込み音声を除去
した雑音パターンについてそれぞれのクラスのセントロ
イドと当該クラスに含まれるパワースペクトルとの間の
距離の総和が最小となるようにすることで適切なクラス
タリングを実施するとともに、洩れ込み音声を除去した
雑音パターンおよび重畳雑音パターンについて各クラス
のセントロイドを代表的なパワースペクトルとして記憶
することで、洩れ込み音声を除去した雑音パターンに係
るパワースペクトルと重畳雑音パターンに係るパワース
ペクトルとの間の写像関係を精密に学習できるから、雑
音重畳音声に係るパワースペクトルから重畳雑音パター
ンに係るパワースペクトルを正確に除去することができ
て、音声認識の性能をより向上することができるという
効果を奏する。

【００９８】この発明によれば、第１の雑音スペクトル
学習手段が、洩れ込み音声除去手段から出力される洩れ
込み音声を除去した雑音パターンに係る複数のパワース
ペクトルを記憶する第１の雑音スペクトルメモリと、第
１の雑音スペクトルメモリに記憶される洩れ込み音声を
除去した雑音パターンに係るパワースペクトルからパワ
ースペクトルの概形を表すパラメータを算出し当該パラ
メータを出力するスペクトル概形パラメータ演算手段
と、第１の雑音スペクトルメモリに記憶される洩れ込み
音声を除去した雑音パターンに係るパワースペクトルか
らパワースペクトルの強度を表すパラメータを算出し当
該パラメータを出力するスペクトル強度パラメータ演算
手段と、スペクトル概形パラメータ演算手段から出力さ
れるパワースペクトルの概形を表すパラメータとスペク
トル強度パラメータ演算手段から出力されるパワースペ
クトルの強度を表すパラメータとに重みを掛けて算出す
る距離値を用いて、第１の雑音スペクトルメモリに記憶
される複数の洩れ込み音声を除去した雑音パターンに係
るパワースペクトルをクラスタリングし、代表的な洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルを出力する重み付けクラスタリング手段とを備えるよ
うに構成したので、雑音パワーレベルの変動が激しい環
境下等においても、雑音の強度を表すパラメータに対す
る重みを調整することによってより精密なクラスタリン
グが可能となり、洩れ込み音声を除去した雑音パターン
に係るパワースペクトルと重畳雑音に係るパワースペク
トルとの間の写像関係をより精密に学習することができ
ることで、雑音重畳音声に係るパワースペクトルから重
畳雑音パターンに係るパワースペクトルを正確に除去す
ることができるために、音声認識の性能をより向上する
ことができるという効果を奏する。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声認識装置
の構成を示す図である。

【図２】この発明の実施の形態２による音声認識装置
の構成を示す図である。

【図３】雑音除去音声に係るパワースペクトルを得る
処理手順を示すブロック図である。

【図４】この発明の実施の形態３による音声認識装置
の構成を示す図である。

【図５】第１の雑音スペクトル学習手段の内部構成を
示す図である。

【図６】第２の雑音スペクトル学習手段の内部構成を
示す図である。

【図７】この発明の実施の形態４による音声認識装置
の第１の雑音スペクトル学習手段の内部構成を示す図で
ある。

【図８】雑音等がある環境下において音声を認識する
従来の音声認識装置の構成を示すブロック図である。

【図９】従来の２入力ＳＳ法を用いた音声認識装置の
構成を示す図である。

【符号の説明】

１音声用マイクロホン、２雑音用マイクロホン、３
雑音重畳音声スペクトル演算手段、４雑音スペクト
ル演算手段、５話者位置検出手段、６音声補正用補
正フィルタメモリ、７音声補正用補正フィルタ選択手
段、８雑音重畳音声スペクトル補正手段、９洩れ込
み音声除去手段、１０雑音補正用補正フィルタメモ
リ、１１代表雑音スペクトルメモリ、１２雑音スペ
クトル選択手段、１３雑音補正用補正フィルタ選択手
段、１４洩れ込み音声除去雑音スペクトル補正手段
（雑音スペクトル補正手段）、１５，２５雑音除去音
声スペクトル演算手段、１６特徴ベクトル演算手段、
１７照合パターンメモリ、１８照合手段、２１第
１の代表雑音スペクトルメモリ、２２第２の代表雑音
スペクトルメモリ、２３第１の雑音スペクトル選択手
段、２４第２の雑音スペクトル選択手段、３１雑音
パワーレベル演算手段、３２音声区間検出手段、３３
雑音区間検出手段、３４補正フィルタ学習決定手
段、３５雑音スペクトル学習決定手段、３６補正フ
ィルタ学習手段、３７第１の雑音スペクトル学習手
段、３８第２の雑音スペクトル学習手段、４１第１
の雑音スペクトルメモリ、４２第１のクラスタリング
手段、４３第２の雑音スペクトルメモリ、４４第２
のクラスタリング手段、５１スペクトル概形パラメー
タ演算手段、５２スペクトル強度パラメータ演算手
段、５３重み付けクラスタリング手段。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考） // Ｇ１０Ｌ 101:02 Ｇ１０Ｌ 7/08 Ａ

Claims

【特許請求の範囲】

【請求項１】背景雑音が重畳した音声を収集する音声
用マイクロホンと、主に背景雑音を収集する雑音用マイ
クロホンと、前記音声用マイクロホンが出力する雑音重
畳音声信号を周波数変換して雑音重畳音声に係るパワー
スペクトルを時系列に出力する雑音重畳音声スペクトル
演算手段と、前記雑音用マイクロホンが出力する雑音パ
ターン信号を周波数変換して音声が洩れ込んだ雑音パタ
ーンに係るパワースペクトルを時系列に出力する雑音ス
ペクトル演算手段と、前記音声用マイクロホンと前記雑
音用マイクロホンとの音声に対する伝達特性に係る周波
数特性の差異を補正するためのフィルタを用いて雑音重
畳音声に係るパワースペクトルを補正して補正雑音重畳
音声に係るパワースペクトルを時系列に出力する雑音重
畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パ
ターンに係るパワースペクトルから補正雑音重畳音声に
係るパワースペクトルを減算して洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルを時系列に出力
する洩れ込み音声除去手段と、前記音声用マイクロホン
と前記雑音用マイクロホンとの雑音パターンに対する伝
達特性に係る周波数特性の差異を補正するためのフィル
タを用いて洩れ込み音声を除去した雑音パターンに係る
パワースペクトルを補正して補正雑音パターンに係るパ
ワースペクトルを時系列に出力する洩れ込み音声除去雑
音スペクトル補正手段と、雑音重畳音声に係るパワース
ペクトルから補正雑音パターンに係るパワースペクトル
を減算して雑音除去音声に係るパワースペクトルを時系
列に出力する雑音除去音声スペクトル演算手段と、雑音
除去音声に係るパワースペクトルを基にして音声認識処
理を実行する認識処理部とを備えることを特徴とする音
声認識装置。
【請求項２】センサによって話者の存在する位置を検
出して当該位置データを時系列に出力する話者位置検出
手段と、音声用マイクロホンと雑音用マイクロホンとの
音声に対する伝達特性に係る周波数特性の差異を補正す
るための複数の補正フィルタを記憶する音声補正用補正
フィルタメモリと、前記話者位置検出手段から出力され
る話者の位置データに対応する補正フィルタを前記音声
補正用補正フィルタメモリから選択して当該補正フィル
タを雑音重畳音声スペクトル補正手段へ時系列に出力す
る音声補正用補正フィルタ選択手段とを備えることを特
徴とする請求項１記載の音声認識装置。
【請求項３】背景雑音が重畳した音声を収集する音声
用マイクロホンと、主に背景雑音を収集する雑音用マイ
クロホンと、前記音声用マイクロホンが出力する雑音重
畳音声信号を周波数変換して雑音重畳音声に係るパワー
スペクトルを時系列に出力する雑音重畳音声スペクトル
演算手段と、前記雑音用マイクロホンが出力する雑音パ
ターン信号を周波数変換して雑音パターンに係るパワー
スペクトルを時系列に出力する雑音スペクトル演算手段
と、音声用マイクロホンと雑音用マイクロホンとの雑音
パターンに対する伝達特性に係る周波数特性の差異を補
正するための複数の補正フィルタを記憶する雑音補正用
補正フィルタメモリと、前記雑音補正用補正フィルタメ
モリに記憶された複数の補正フィルタにそれぞれ対応す
る洩れ込み音声を除去した雑音パターンに係るパワース
ペクトルを記憶する代表雑音スペクトルメモリと、洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルと前記代表雑音スペクトルメモリに記憶される複数の
洩れ込み音声を除去した雑音パターンに係るパワースペ
クトルとの間の距離値を演算して最短距離値を与える洩
れ込み音声を除去した雑音パターンを前記代表雑音スペ
クトルメモリから選択して当該雑音パターンを識別する
信号を時系列に出力する雑音スペクトル選択手段と、前
記雑音スペクトル選択手段から出力される雑音パターン
識別信号に対応する補正フィルタを前記雑音補正用補正
フィルタメモリから選択して時系列に出力する雑音補正
用補正フィルタ選択手段と、前記雑音補正用補正フィル
タ選択手段から出力される補正フィルタを用いて雑音パ
ターンに係るパワースペクトルを補正して補正雑音パタ
ーンに係るパワースペクトルを時系列に出力する雑音ス
ペクトル補正手段と、雑音重畳音声に係るパワースペク
トルから補正雑音に係るパワースペクトルを減算して雑
音除去音声に係るパワースペクトルを時系列に出力する
雑音除去音声スペクトル演算手段と、雑音除去音声に係
るパワースペクトルを基にして音声認識処理を実行する
認識処理部とを備えることを特徴とする音声認識装置。
【請求項４】音声用マイクロホンと雑音用マイクロホ
ンとの雑音パターンに対する伝達特性に係る周波数特性
の差異を補正するための複数の補正フィルタを記憶する
雑音補正用補正フィルタメモリと、前記雑音補正用補正
フィルタメモリに記憶された複数の補正フィルタにそれ
ぞれ対応する洩れ込み音声を除去した雑音パターンに係
るパワースペクトルを記憶する代表雑音スペクトルメモ
リと、洩れ込み音声を除去した雑音パターンに係るパワ
ースペクトルと前記代表雑音スペクトルメモリに記憶さ
れる複数の洩れ込み音声を除去した雑音パターンに係る
パワースペクトルとの間の距離値を演算して最短距離値
を与える雑音パターンを前記代表雑音スペクトルメモリ
から選択して当該雑音パターンを識別する信号を時系列
に出力する雑音スペクトル選択手段と、前記雑音スペク
トル選択手段から出力される雑音パターン識別信号に対
応する補正フィルタを前記雑音補正用補正フィルタメモ
リから選択して洩れ込み音声除去雑音スペクトル補正手
段へ時系列に出力する雑音補正用補正フィルタ選択手段
とを備えることを特徴とする請求項１または請求項２記
載の音声認識装置。
【請求項５】背景雑音が重畳した音声を収集する音声
用マイクロホンと、主に背景雑音を収集する雑音用マイ
クロホンと、前記音声用マイクロホンから出力される雑
音重畳音声信号を周波数変換して雑音重畳音声に係るパ
ワースペクトルを時系列に出力する雑音重畳音声スペク
トル演算手段と、前記雑音用マイクロホンから出力され
る雑音パターン信号を周波数変換して音声が洩れ込んだ
雑音パターンに係るパワースペクトルを時系列に出力す
る雑音スペクトル演算手段と、前記音声用マイクロホン
と前記雑音用マイクロホンとの音声に対する伝達特性に
係る周波数特性の差異を補正するためのフィルタを用い
て、雑音重畳音声に係るパワースペクトルを補正して補
正雑音重畳音声に係るパワースペクトルを時系列に出力
する雑音重畳音声スペクトル補正手段と、音声が洩れ込
んだ雑音パターンに係るパワースペクトルから補正雑音
重畳音声に係るパワースペクトルを減算して洩れ込み音
声を除去した雑音パターンに係るパワースペクトルを時
系列に出力する洩れ込み音声除去手段と、洩れ込み音声
を除去した雑音パターンに係る複数のパワースペクトル
を記憶する第１の代表雑音スペクトルメモリと、前記第
１の代表雑音スペクトルメモリに記憶される複数の洩れ
込み音声を除去した雑音パターンに係るパワースペクト
ルにそれぞれ対応する複数の重畳雑音パターンに係るパ
ワースペクトルを記憶する第２の代表雑音スペクトルメ
モリと、収集された洩れ込み音声を除去した雑音パター
ンに係るパワースペクトルと、前記第１の代表雑音スペ
クトルメモリに記憶される複数の洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルとの間の距離値
を演算して最短距離値を与える雑音パターンに係るパワ
ースペクトルを前記第１の代表雑音スペクトルメモリか
ら選択して、当該雑音パターンを識別する信号を時系列
に出力する第１の雑音スペクトル選択手段と、前記第１
の雑音スペクトル選択手段から出力される雑音パターン
識別信号に対応する重畳雑音パターンに係るパワースペ
クトルを前記第２の代表雑音スペクトルメモリから選択
し時系列に出力する第２の雑音スペクトル選択手段と、
雑音重畳音声に係るパワースペクトルから、前記第２の
雑音スペクトル選択手段が選択した重畳雑音パターンに
係るパワースペクトルを減算して雑音除去音声に係るパ
ワースペクトルを時系列に出力する雑音除去音声スペク
トル演算手段と、雑音除去音声に係るパワースペクトル
を基にして音声認識処理を実行する認識処理部とを備え
ることを特徴とする音声認識装置。
【請求項６】センサによって話者の存在する位置を検
出して当該位置データを時系列に出力する話者位置検出
手段と、音声用マイクロホンと雑音用マイクロホンとの
音声に対する伝達特性に係る周波数特性の差異を補正す
るための複数の補正フィルタを記憶する音声補正用補正
フィルタメモリと、前記話者位置検出手段から出力され
る話者の位置データに対応する補正フィルタを前記音声
補正用補正フィルタメモリから選択して当該補正フィル
タを雑音重畳音声スペクトル補正手段へ時系列に出力す
る音声補正用補正フィルタ選択手段とを備えることを特
徴とする請求項５記載の音声認識装置。
【請求項７】雑音用マイクロホンから出力される雑音
パターン信号から雑音パワーレベルを算出し当該雑音パ
ワーレベルを時系列に出力する雑音パワーレベル演算手
段と、音声用マイクロホンから出力される雑音重畳音声
信号と前記雑音用マイクロホンから出力される雑音パタ
ーン信号とに基づいて音声区間を判定し、音声区間であ
るか否かの識別信号を時系列に出力する音声区間検出手
段と、前記雑音パワーレベル演算手段から出力される雑
音パワーレベルが閾値以下でありかつ前記音声区間検出
手段から出力される識別信号が音声区間である旨を示し
ている場合に、補正フィルタの学習を実施することを示
す識別信号を時系列に出力する補正フィルタ学習決定手
段と、前記補正フィルタ学習決定手段から出力される識
別信号が補正フィルタの学習を実施する旨を示している
場合に、前記雑音重畳音声スペクトル演算手段から出力
される雑音重畳音声に係るパワースペクトルと前記雑音
スペクトル演算手段から出力される雑音パターンに係る
パワースペクトルとに基づいて、話者位置検出手段から
出力される話者の位置データに対応する補正フィルタを
学習し当該補正フィルタを出力する補正フィルタ学習手
段とを備えることを特徴とする請求項５または請求項６
記載の音声認識装置。
【請求項８】雑音用マイクロホンから出力される雑音
パターン信号から雑音パワーレベルを算出し当該雑音パ
ワーレベルを時系列に出力する雑音パワーレベル演算手
段と、音声用マイクロホンから出力される雑音重畳音声
信号と前記雑音用マイクロホンから出力される雑音パタ
ーン信号とに基づいて雑音区間を判定し、雑音区間であ
るか否かの識別信号を時系列に出力する雑音区間検出手
段と、前記雑音パワーレベル演算手段から出力される雑
音パワーレベルが閾値以上でありかつ前記雑音区間検出
手段から出力される識別信号が雑音区間である旨を示し
ている場合に、雑音スペクトルの学習を実施することを
示す識別信号を時系列に出力する雑音スペクトル学習決
定手段と、前記雑音スペクトル学習決定手段から出力さ
れる識別信号が雑音スペクトルの学習を実施する旨を示
している場合に、洩れ込み音声除去手段から出力される
洩れ込み音声を除去した雑音パターンに係るパワースペ
クトルから、代表的な洩れ込み音声を除去した雑音パタ
ーンに係るパワースペクトルを学習し当該パワースペク
トルを出力する第１の雑音スペクトル学習手段と、前記
雑音スペクトル学習決定手段から出力される識別信号が
雑音スペクトルの学習を実施する旨を示している場合
に、雑音重畳音声スペクトル演算手段から出力される雑
音重畳音声に係るパワースペクトルから、前記第１の雑
音スペクトル学習手段から出力される代表的な洩れ込み
音声を除去した雑音パターンに係るパワースペクトルに
対応する重畳雑音パターンに係るパワースペクトルを学
習し当該パワースペクトルを出力する第２の雑音スペク
トル学習手段とを備えることを特徴とする請求項５また
は請求項６記載の音声認識装置。
【請求項９】第１の雑音スペクトル学習手段が、洩れ
込み音声除去手段から出力される複数の洩れ込み音声を
除去した雑音パターンに係るパワースペクトルを記憶す
る第１の雑音スペクトルメモリと、前記第１の雑音スペ
クトルメモリに記憶される複数の洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルについて、それ
ぞれのクラスのセントロイドとなるパワースペクトルと
当該クラスに含まれる雑音パターンのパワースペクトル
との間の距離値の総和が最小となるようにクラスタリン
グを実施し、各クラスのセントロイドを代表的な洩れ込
み音声を除去した雑音パターンに係るパワースペクトル
として出力する第１のクラスタリング手段とを備え、第２の雑音スペクトル学習手段が、前記第１の雑音スペ
クトルメモリに記憶される複数の洩れ込み音声を除去し
た雑音パターンに係るパワースペクトルとそれぞれ同一
分析フレームに出力された複数の重畳雑音パターンに係
るパワースペクトルを記憶する第２の雑音スペクトルメ
モリと、前記第２の雑音スペクトルメモリに記憶される
複数の重畳雑音パターンに係るパワースペクトルに対し
て前記第１のクラスタリング手段におけるクラスタリン
グ結果を反映するようにクラスタリングを実施し、各ク
ラスのセントロイドを代表的な重畳雑音パターンに係る
パワースペクトルとして出力する第２のクラスタリング
手段とを備えることを特徴とする請求項８記載の音声認
識装置。
【請求項１０】第１の雑音スペクトル学習手段は、洩
れ込み音声除去手段から出力される洩れ込み音声を除去
した雑音パターンに係る複数のパワースペクトルを記憶
する第１の雑音スペクトルメモリと、前記第１の雑音ス
ペクトルメモリに記憶される洩れ込み音声を除去した雑
音パターンに係るパワースペクトルからパワースペクト
ルの概形を表すパラメータを算出し当該パラメータを出
力するスペクトル概形パラメータ演算手段と、前記第１
の雑音スペクトルメモリに記憶される洩れ込み音声を除
去した雑音パターンに係るパワースペクトルからパワー
スペクトルの強度を表すパラメータを算出し当該パラメ
ータを出力するスペクトル強度パラメータ演算手段と、
前記スペクトル概形パラメータ演算手段から出力される
パワースペクトルの概形を表すパラメータと前記スペク
トル強度パラメータ演算手段から出力されるパワースペ
クトルの強度を表すパラメータに重みを掛けて算出する
距離値を用いて、前記第１の雑音スペクトルメモリに記
憶される複数の洩れ込み音声を除去した雑音パターンに
係るパワースペクトルをクラスタリングし、代表的な洩
れ込み音声を除去した雑音パターンに係るパワースペク
トルを出力する重み付けクラスタリング手段とを備える
ことを特徴とした請求項８記載の音声認識装置。