JP3074952B2

JP3074952B2 - 雑音除去装置

Info

Publication number: JP3074952B2
Application number: JP04218068A
Authority: JP
Inventors: 啓三郎 ▲高▼木; 和永吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-08-18
Filing date: 1992-08-18
Publication date: 2000-08-07
Anticipated expiration: 2015-08-07
Also published as: JPH0667691A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置などに用
いる、雑音中で発声された音声から雑音を除去する雑音
除去装置に関するものである。

【０００２】

【従来の技術】音声認識や音声通信を行う際に、使用環
境によりさまざまな雑音が存在し、これらの雑音が音声
認識の認識率を低下させ、音声通信を阻害する大きな要
因となっている。

【０００３】従来、音声を主に入力する音声マイクロホ
ンと周囲雑音を主に入力する雑音マイクロホンの２つの
マイクロホンを用い、音声マイクロホンに含まれる雑音
成分を推定し、推定した雑音を、雑音を含む音声から除
去してクリアな音声に変換する、いわゆる２入力スペク
トルサブトラクションと呼ばれる手法が存在している。

【０００４】例えば、菅村らによる、“２入力による雑
音除去手法を用いた自動車内の音声認識”電子情報通信
学会技術研究報告、ＳＰ−８１、ｐｐ．４１−４８（１
９８９）（以下、引用文献［１］と称する）に述べられ
ているような２入力スペクトルサブトラクションを用い
た雑音除去装置は、図１６に示すような構成となってい
る。すなわち図１６では、話者の口の前に設置し、音声
を主に入力する音声マイクロホン２０１と、音声マイク
に入力された周囲雑音となるべく同じものが入力され、
しかも、音声はなるべく混入しない位置に設置した雑音
マイクロホン２０２の２つのマイクロホンを用い、２ｃ
ｈ同時に入力する。音声マイクロホン２０１により入力
された雑音を含む音声は、音声特徴抽出部２０３におい
て雑音を含む音声の時系列特徴ベクトルに変換され、雑
音マイクロホン２０２により入力された周囲雑音は、雑
音特徴抽出部２０４において周囲雑音の時系列特徴ベク
トルに変換される。２入力サブトラクション部２０５で
は、まず、特徴抽出部２０３から得られた雑音を含む音
声の時系列特徴ベクトル中に含まれる雑音成分を、特徴
抽出部２０４から得られた周囲雑音の時系列特徴ベクト
ルを用いて推定する。この雑音成分の推定は、例えば、
音声を含まない時間位置で２つの入力を比較してあらか
じめ２入力間の補正係数を算出しておき、求めた補正係
数を雑音特徴抽出部２０４から得られた周囲雑音の時系
列特徴ベクトル全体に乗ずることにより行う。次に、２
入力サブトラクション部２０５は、推定した雑音の時系
列特徴ベクトルを音声特徴抽出部２０３から得られた雑
音を含む音声の時系列特徴ベクトル全体から差し引くこ
とにより，雑音除去後のクリアな音声の時系列特徴ベク
トルを出力する。ここで得られたクリアな音声の時系列
特徴ベクトルを用いて音声認識を行うことにより、雑音
による認識率の劣化の少ない音声認識を実現しようとし
ている。

【０００５】

【発明が解決しようとする課題】しかしながら、通常の
騒音環境では、物体の移動音や人の話し声などの時間
的、空間的に性質が変化するような非定常雑音源を含
み、雑音の伝達特性や雑音が到来する方向が時々刻々と
変化するため、従来の１つの雑音マイクロホンを用いた
２入力スペクトルサブトラクションにおいては音声マイ
クロホンに入力される雑音成分と、雑音マイクに入力さ
れる雑音とが常に同一のものが入力されるとは限らない
ため、音声に含まれる雑音の推定に誤差が生じ、雑音除
去効果が低下するという欠点を有していた。また、従来
の２入力スペクトルサブトラクションにおいては、雑音
マイクロホンの設置方法、あるいは使用する雑音環境に
よっては、発声した音声が雑音マイクロホンに混入する
場合があり、この混入した音声を音声マイクロホンから
得られた特徴ベクトルから差し引くため、本来除去すべ
きでない音声の特徴ベクトル成分を除去する場合がある
ため、音声の認識率あるいは通信の了解度が著しく低下
するという欠点を有していた。

【０００６】本発明の目的は、上述の問題を解決するも
のであり、時間的、空間的に性質が変化するような非定
常雑音に対しても効率良く雑音除去を行い、また、音声
の雑音マイクロホンへの混入が起こった場合でも必要な
音声信号を除去しない安定な雑音除去装置を提供するこ
とにある。

【０００７】

【課題を解決するための手段】第１の発明は、音声を主
に入力する音声マイクロホンと、周囲雑音を主に入力
し、音声マイクロホンの周囲に配置された複数の雑音マ
イクロホンと、音声マイクロホンの出力信号を音声の時
系列特徴ベクトルに変換する音声特徴抽出部と、複数の
雑音マイクロホンの出力信号をそれぞれ雑音の時系列特
徴ベクトルに変換する複数の雑音特徴抽出部と、複数の
雑音特徴抽出部から得られた雑音の時系列特徴ベクトル
のなかから周囲雑音に最も近い雑音の時系列特徴ベクト
ルを選び出す雑音検出部と、雑音検出部が選び出した雑
音の時系列特徴ベクトルを選択し出力する選択部と、音
声特徴抽出部が出力する音声の時系列特徴ベクトルか
ら、選択部が出力する雑音の時系列特徴ベクトルを差し
引く２入力サブトラクション部とを備えることを特徴と
している。

【０００８】第２の発明は、音声を主に入力する音声マ
イクロホンと、周囲雑音を主に入力し、音声マイクロホ
ンの周囲に配置された複数の雑音マイクロホンと、音声
マイクロホンの出力信号を音声の時系列特徴ベクトルに
変換する音声特徴抽出部と、複数の雑音マイクロホンの
出力信号のうちパワーが最小となる雑音マイクロホンの
出力信号を選び出す最小パワー検出部と、最小パワー検
出部が選び出した雑音マイクロホンの出力信号を選択し
出力する選択部と、選択部が出力する雑音マイクロホン
の出力信号を雑音の時系列特徴ベクトルに変換する雑音
特徴抽出部と、音声特徴抽出部が出力する音声の時系列
特徴ベクトルから、雑音特徴抽出部が出力する雑音の時
系列特徴ベクトルを差し引く２入力サブトラクション部
とを備えることを特徴としている。

【０００９】第３の発明は、音声を主に入力する音声マ
イクロホンと、周囲雑音を主に入力し、音声マイクロホ
ンの周囲に配置された複数の雑音マイクロホンと、音声
マイクロホンの出力信号を音声の時系列特徴ベクトルに
変換する音声特徴抽出部と、複数の雑音マイクロホンの
出力信号をそれぞれ雑音の時系列特徴ベクトルに変換す
る複数の雑音特徴抽出部と、複数の雑音特徴抽出部が出
力する雑音の時系列特徴ベクトルと音声特徴抽出部が出
力する音声の時系列特徴ベクトルとの間の類似度を計算
して出力する類似度計算部と、類似度計算部が出力する
類似度のうち最大の類似度を選び出す最大値検出部と、
雑音の時系列特徴ベクトルのうち、最大値検出部が選び
出した類似度と対応した雑音の時系列特徴ベクトルを選
択して出力する選択部と、音声特徴抽出部が出力する音
声の時系列特徴ベクトルから選択部が出力する雑音の第
ｎ時系列特徴ベクトルを差し引く２入力サブトラクショ
ン部とを備えることを特徴としている。

【００１０】第４の発明は、第３の発明において、類似
度計算部が出力する類似度にあらかじめ定められた重み
を付加して重み付き類似度を出力する重み付加部を備
え、最大値検出部は重み付加部の出力する重み付き類似
度のうち最大の類似度を選び出すことを特徴としてい
る。

【００１１】第５の発明は、音声を主に入力する音声マ
イクロホンと、周囲雑音を主に入力し、音声マイクロホ
ンの周囲に配置された複数の雑音マイクロホンと、音声
マイクロホンの出力信号を音声の時系列特徴ベクトルに
変換する音声特徴抽出部と、音声マイクロホンの出力信
号を音声の部分帯域の時系列特徴ベクトルに変換する音
声部分特徴抽出部と、複数の雑音マイクロホンの出力信
号それぞれを雑音の部分帯域の時系列特徴ベクトルに変
換する複数の部分特徴抽出部と、複数の部分特徴抽出部
が出力する雑音の部分帯域の時系列特徴ベクトルと音声
部分特徴抽出部が出力する音声の部分帯域の時系列特徴
ベクトルとの間の類似度をそれぞれ計算し、出力する部
分帯域類似度計算部と、部分帯域類似度計算部が出力す
る類似度のうち最大の類似度を選び出す最大値検出部
と、複数の雑音マイクロホンの出力信号のうち、最大値
検出部が選び出した類似度と対応した雑音マイクロホン
からの出力信号を選択して出力する選択部と、選択部が
出力する雑音マイクロホンからの出力信号を雑音の時系
列特徴ベクトルに変換する雑音特徴抽出部と、音声特徴
抽出部が出力する音声の時系列特徴ベクトルから雑音特
徴抽出部が出力する雑音の時系列特徴ベクトルを差し引
く２入力サブトラクション部とを備えることを特徴とし
ている。

【００１２】第６の発明は、第３第４または第５の発明
において、最大値検出部の代わりに、入力された類似度
のうち最小の類似度を求める最小値検出部を備えること
を特徴としている。

【００１３】第７の発明は、音声を主に入力する音声マ
イクロホンと、周囲雑音を主に入力し、音声マイクロホ
ンの周囲に配置された複数の雑音マイクロホンと、音声
マイクロホンの出力信号を音声の時系列特徴ベクトルに
変換する音声特徴抽出部と、複数の雑音マイクロホンの
出力信号をそれぞれ雑音の時系列特徴ベクトルに変換す
る複数の雑音特徴抽出部と、複数の雑音特徴抽出部から
得られた雑音の時系列特徴ベクトルを平均化し、平均化
した特徴ベクトルを雑音の合成ベクトルとして出力する
平均値合成部と、音声特徴抽出部が出力する音声の時系
列特徴ベクトルから平均値合成部が出力する雑音の合成
ベクトルを差し引く２入力サブトラクション部とを備え
ることを特徴としている。

【００１４】第８の発明は、第７の発明において、平均
値合成部の代わりに、雑音特徴抽出部が出力する雑音の
時系列特徴ベクトルにあらかじめ定められた重みを付加
した後に平均化し、平均化した特徴ベクトルを雑音の合
成ベクトルとして出力する重み付き平均値合成部を備え
ることを特徴としている。

【００１５】第９の発明は、音声を主に入力する音声マ
イクロホンと、周囲雑音を主に入力し、音声マイクロホ
ンの周囲に配置された複数の雑音マイクロホンと、音声
マイクロホンの出力信号を音声の時系列特徴ベクトルに
変換する音声特徴抽出部と、複数の雑音マイクロホンの
出力信号をそれぞれ雑音の第１〜第Ｎ時系列特徴ベクト
ルに変換する第１〜第Ｎ雑音特徴抽出部と、複数の雑音
特徴抽出部が出力する雑音の時系列特徴ベクトルそれぞ
れを複数の帯域に分割して出力する分割部と、分割部が
出力する帯域分割後の雑音の時系列特徴ベクトルの各帯
域毎にパワーが最小のものを取り出し、帯域毎の各最小
値を合成して雑音の合成ベクトルとして出力する最小値
合成部と、音声特徴抽出部が出力する音声の時系列特徴
ベクトルから最小値合成部が出力する雑音の合成ベクト
ルを差し引く２入力サブトラクション部とを備えること
を特徴としている。

【００１６】第１０の発明は第１の発明において、音声
マイクロホンから得られた出力信号を用いて音声が存在
しない区間を雑音区間として検出する雑音区間検出部を
備え、雑音検出部が雑音区間検出部により検出された雑
音区間の雑音の時系列特徴ベクトルを用いて雑音の時系
列特徴ベクトルを選び出すことを特徴としている。

【００１７】第１１の発明は、第２の発明において、音
声マイクロホンから得られた出力信号を用いて音声が存
在しない区間を雑音区間として検出する雑音区間検出部
を備え、最小パワー検出部が雑音区間検出部により検出
された雑音区間の雑音マイクロホンの出力信号を用いて
雑音マイクロホンの出力信号を選び出すことを特徴とし
ている。

【００１８】第１２の発明は、第３または第４の発明に
おいて、音声マイクロホンから得られた出力信号を用い
て音声が存在しない区間を雑音区間として検出する雑音
区間検出部を備え、類似度計算部が雑音区間検出部によ
り検出された雑音区間の雑音の時系列特徴ベクトルを用
いて類似度を計算して出力することを特徴としている。

【００１９】第１３の発明は、第５の発明において、音
声マイクロホンから得られた出力信号を用いて音声が存
在しない区間を雑音区間として検出する雑音区間検出部
を備え、部分帯域類似度計算部が雑音区間検出部により
検出された雑音区間の雑音の部分帯域の時系列特徴ベク
トルを用いて類似度を計算して出力することを特徴とし
ている。

【００２０】第１４の発明は、第１０、１１、１２また
は１３の発明において、雑音区間検出部は２入力サブト
ラクション部が出力する特徴ベクトルを用いて音声が存
在しない区間を雑音区間として検出することを特徴とし
ている。

【００２１】第１５の発明は、第３、第４または第５の
発明において、音声マイクロホンから得られた出力信号
を用いて音声が存在しない区間を雑音区間として検出す
る雑音区間検出部または２入力サブトラクション部が出
力する特徴ベクトルを用いて音声が存在しない区間を雑
音区間として検出する雑音区間検出部を備え、最大値検
出部の代わりに、雑音区間検出部が検出した雑音区間内
では入力された類似度のうち最大の類似度を選び出し、
雑音区間検出部が雑音区間を検出していない場合は入力
された類似度のうち最小の類似度を選び出す最大／最小
値検出部を備えることを特徴としている。

【００２２】

【作用】第１の発明の作用を図１を用いて説明する。雑
音を含む音声は、音声マイクロホン１により電気信号に
変換される。これと同時に、周囲雑音は、音声マイクロ
ホン１の周囲に設置された２つ以上の第１〜第Ｎ雑音マ
イクロホン２により電気信号に変換される。２つ以上の
第１〜第Ｎ雑音マイクロホン２の設置方法は多々ある
が、例えば、音声マイクの周囲に適当な距離を保って配
置しても良いし、あるいは、あらゆる方角から到来する
雑音に対応して放射状に配置したり、また、特定の雑音
源に向けて設置しても良い。音声特徴抽出部３は、音声
マイクロホン１から得られた電気信号を、音響的な特徴
を時系列的に表現する時系列特徴量に変換する変換器で
あり、例えば、古井“ディジタル音声処理”、東海大学
出版（１９８５）（以下、引用文献［２］と称する）の
ｐｐ．３７−４９に述べられているようなＤＦＴ（離散
的フーリエ変換器）、ＦＦＴ（高速フーリエ変換器）ま
たはＢＰＦ（帯域フィルタバンク）等で構成され、例え
ば、パワースペクトル、振幅スペクトルまたはＢＰＦ出
力等の特徴ベクトルの時系列データを出力する。また、
第１〜第Ｎ音声特徴抽出部４は、２つ以上の第１〜第Ｎ
雑音マイクロホン２から得られた電気信号を、それぞれ
音響的な特徴を時系列的に表現する時系列特徴量に変換
する変換器であり、雑音の第１〜第Ｎ時系列特徴ベクト
ルを出力する。この第１〜第Ｎ雑音特徴抽出部４は、音
声特徴抽出部３と同一の機能を有する。雑音検出部５
は、第１〜第Ｎ雑音特徴抽出部４から得られた雑音の第
１〜第Ｎ時系列特徴ベクトルのなかから周囲雑音に最も
近い雑音の第ｎ時系列特徴ベクトルを選び出す。この周
囲雑音に最も近いかどうかの判定は、例えば、雑音の第
１〜第Ｎ時系列特徴ベクトルをＹ_i（ｔ）（１≦ｉ≦
Ｎ、ｔ：時刻）、あらかじめ記憶しておいた周囲雑音の
特徴ベクトルをＲとすると、時刻ｔにおいて、ｎ＝ａｒｇｍｉｎ（ｉ）［‖Ｙ_i（ｔ）−Ｒ‖］のように周囲雑音の特徴ベクトルＲとの間のベクトル間
距離が最小となる雑音の第ｎ時系列特徴ベクトルＹ
_i（ｔ）におけるｎを求めることで行うことができる。
この周囲雑音に最も近いかどうかの判定は、これ以外に
も低域パワーが高域パワーに比べて大きいかなどの周波
数分布状態の情報を用いる方法でも可能である。ただ
し、ａｒｇｍｉｎ（ｉ）［］は、［］内の演算結果につ
いての最小値を与えるｉを求める関数とする。雑音検出
部４において選び出された雑音の第ｎ時系列特徴ベクト
ルは、選択部６において選択し出力される。２入力サブ
トラクション部７は、音声マイクロホン１が出力する雑
音を含む音声の時系列特徴ベクトルから、選択部６が出
力する雑音の第ｎ時系列特徴ベクトルを差し引くことに
より、２入力スペクトルサブトラクションを行い、音声
に含まれる雑音を除去する。この２入力サブトラクショ
ン部７は、例えば、引用文献［１］に述べられているよ
うな、図１６に示す２入力サブトラクション部２０５と
同一の機能を有している。すなわち、第１の発明は、２
つ以上の第１〜第Ｎ雑音マイクロホン２が出力する雑音
の第１〜第Ｎ時系列特徴ベクトルのうち、最も、周囲雑
音と近い雑音の第ｎ時系列特徴ベクトルを選択すること
により、雑音源が移動したり、また、雑音の伝達特性が
時間的、空間的に変化した場合であっても、常に最も雑
音の除去効果が高い雑音マイクロホンからの出力を選択
するという作用がある。また、周囲雑音に最も近い雑音
の第ｎ時系列特徴ベクトルを選択することにより、音声
の回り込みが大であるような雑音マイクロホンからの出
力信号は選ばないため、音声の雑音マイクロホンへの回
り込みによる音声の認識率あるいは通信の了解度の低下
を防止するという効果がある。

【００２３】第２の発明の作用を図２を用いて説明す
る。雑音を含む音声は、音声マイクロホン１１により電
気信号に変換され、同時に周囲雑音は、音声マイクロホ
ン１１の周囲に設置された２つ以上の第１〜第Ｎ雑音マ
イクロホン１２により電気信号に変換される。音声特徴
抽出部１３は、音声マイクロホン１１から得られた電気
信号を、音響的な特徴を時系列的に表現する時系列特徴
量に変換する変換器であり、この音声特徴抽出部１３
は、図１における音声特徴抽出部３と同一の機能を有す
る。最小パワー検出部１４は、２つ以上の第１〜第Ｎ雑
音マイクロホン１２の出力信号のうちパワーが最小とな
る第ｎ雑音マイクロホンの出力信号を選び出す。すなわ
ち、２つ以上の第１〜第Ｎ雑音マイクロホン１２から得
られた第１〜第ＮパワーをＰ_i（ｔ）（１≦ｉ≦Ｎ）と
すると、最小パワー検出部１４は、時刻ｔにおいて、ｎ＝ａｒｇｍｉｎ（ｉ）［Ｐ_i（ｔ）］なる演算を行い、最もパワーが小さいＰ_iに関するｎを
求めることで行う。ここで用いる出力信号のパワーは、
部分的な帯域に制限した信号のパワーを用いても良い。
最小パワー検出部１４が選び出した第ｎ雑音マイクロホ
ンの出力信号は、選択部１５において選択され出力され
る。選択部１５において選択された第ｎ雑音マイクロホ
ンの出力信号は、雑音特徴抽出部１６において雑音の時
系列特徴ベクトルに変換される。この雑音特徴抽出部１
６は、図１における音声特徴抽出部３と同一の機能を有
する。２入力サブトラクション部１７は、図１における
２入力サブトラクション部７と同一の機能を有し、音声
特徴抽出部１３が出力する音声の時系列特徴ベクトルか
ら、雑音特徴抽出部１６が出力する雑音の時系列特徴ベ
クトルを差し引くことにより、２入力スペクトルサブト
ラクションを行う。すなわち、第２の発明は、音声マイ
クロホン１１の近隣に雑音源が存在せず、しかも雑音源
が複数の雑音マイクロホンの近隣を移動しているような
場合に特定の雑音源からの入力を排除するように働き、
音声マイクロホン１１に入力される雑音と選択部１５か
ら得られる雑音との相関が高くなり、従来の１つの雑音
マイクロホンを用いて２入力スペクトルサブトラクショ
ンを行った場合に比べて、高い雑音除去性能が得られる
という効果がある。また、最小のパワーを有する雑音マ
イクロホンからの第ｎ時系列特徴ベクトルを用いること
で、音声の回り込みの大きな雑音マイクロホンからの出
力信号は選ばないため、音声の雑音マイクロホンへの回
り込みによる音声の認識率あるいは通信の了解度の低下
を防止することができるという効果がある。

【００２４】第３の発明の作用を図３を用いて説明す
る。雑音を含む音声は、音声マイクロホン２１により電
気信号に変換され、同時に周囲雑音は、音声マイクロホ
ン１１の周囲に設置された２つ以上の第１〜第Ｎ雑音マ
イクロホン２２により電気信号に変換される。音声特徴
抽出部２３は、音声マイクロホン２１から得られた電気
信号を、音響的な特徴を時系列的に表現する時系列特徴
量に変換する変換器である。第１〜第Ｎ雑音特徴抽出部
２４は、２つ以上の第１〜第Ｎ雑音マイクロホン２２の
電気信号を、音響的な特徴を時系列的に表現する時系列
特徴量に変換する変換器であり、雑音の第１〜第Ｎ時系
列特徴ベクトルを出力する。この音声特徴抽出部２３お
よび第１〜第Ｎ雑音特徴抽出部２４は、図１における音
声特徴抽出部３と同一の機能を有する。類似度計算部２
５は、第１〜第Ｎ雑音特徴抽出部２４が出力する雑音の
第１〜第Ｎ時系列特徴ベクトルと、音声特徴抽出部２３
が出力する音声の時系列特徴ベクトルとの間の第１〜第
Ｎ類似度をそれぞれ計算し出力する。この第１〜第Ｎ類
似度を求める方法は、例えば、音声マイクロホン２１か
ら得られた音声の時系列特徴ベクトルをＸ（ｔ）、第１
〜第Ｎ雑音特徴抽出部２４から得られた雑音の第１〜第
Ｎ時系列特徴ベクトルをＹ_i（ｔ）、求める類似度をβ
_i（ｔ）とすると、

【００２５】

【数１】

【００２６】で求めることが可能である。この類似度の
求め方としては他にも多々あるが、例えば、引用文献
［２］に述べられているような、ベクトル同士の内積を
用いる方法によっても求めることが可能である。最大値
検出部２６は、類似度計算部２５が出力する第１〜第Ｎ
類似度のうち最大の第ｎ類似度を選び出す。選択部２７
は、雑音の第１〜第Ｎ時系列特徴ベクトルのうち、最大
値検出部２６が選び出した第ｎ類似度と対応した雑音の
第ｎ時系列特徴ベクトルを選択して出力する。２入力サ
ブトラクション部２８は、図１における２入力サブトラ
クション部７と同一の機能を有し、音声特徴抽出部２３
が出力する音声の時系列特徴ベクトルから、選択部２７
が出力する雑音の第ｎ時系列特徴ベクトルを差し引くこ
とにより、２入力スペクトルサブトラクションを行う。
すなわち、第３の発明は、音声マイクロホン２１に入力
された雑音と最も相関の高い雑音を入力する第ｎ雑音マ
イクロホンからの時系列特徴ベクトルを用いることで、
常に雑音除去効果が最良となり、従来の１つの雑音マイ
クロホンを用いて２入力スペクトルサブトラクションを
行った場合に比べて高い雑音除去性能が得られるという
効果がある。

【００２７】第４の発明の作用を図４を用いて説明す
る。図４は、図３に示す雑音除去装置の構成に加えて、
類似度計算部２５が出力する第１〜第Ｎ類似度にあらか
じめ定められた重みを付加し、重み付き第１〜第Ｎ類似
度を出力する重み付加部２９を有し、最大値検出部２６
は、重み付加部２９が出力する重み付き第１〜第Ｎ類似
度のうち最大の第ｎ類似度を選び出すように構成されて
いる。すなわち、第４の発明は、第１〜第Ｎ類似度に重
みを付けることで、特定の雑音マイクロホンからの入力
を特に重視して選択することが可能である。このことに
より、例えば、音声マイクロホン２１に近い位置に設置
された雑音マイクロホン２２からの入力に、より大きな
重みを与え、音声マイクロホン２１から遠い位置に設置
された雑音マイクロホン２２に小さな重みを付けた場合
には、音声マイクロホン２１に入力される周囲雑音と相
関が高い雑音が入力される可能性のある近傍の雑音マイ
クロホン２２からの入力が重視され、従来の２入力スペ
クトルサブトラクションに比べて、高い雑音除去性能が
得られるという効果がある。あるいは、例えば、音声マ
イクロホン２１に近い位置に設置された雑音マイクロホ
ン２２からの入力に、より小さな重みを与え、音声の混
入の可能性が少ない、遠方の雑音マイクロホン２２から
の入力が重視されるため、雑音マイクロホンへの音声の
混入による認識率の劣化や通信了解度の低下を防止する
ことが可能であるという効果がある。

【００２８】第５の発明の作用を図５を用いて説明す
る。雑音を含む音声は、音声マイクロホン４１により電
気信号に変換され、同時に周囲雑音は、２つ以上の第１
〜第Ｎ雑音マイクロホン４２により電気信号に変換され
る。音声特徴抽出部４３は、音声マイクロホン４１から
得られた電気信号を、音響的な特徴を時系列的に表現す
る時系列特徴量に変換する変換器である。この音声特徴
抽出部２３は、図１における音声特徴抽出部３と同一の
機能を有する。音声部分特徴抽出部４４は、音声マイク
ロホン４１から得られた電気信号を、部分帯域の音響的
な特徴を時系列的に表現する時系列特徴量に変換する変
換器であり、例えば、ＢＰＦ、ＤＦＴによる分析結果か
ら選び出した一部分の周波数帯域を音声の部分帯域の特
徴ベクトルとして出力する。この部分帯域の特徴として
は、これらの他にも引用文献［２］に述べられているケ
プストラム分析などの他の分析結果や、ＫＬ変換等によ
る圧縮された特徴量も含む。第１〜第Ｎ部分特徴抽出部
４５は、２つ以上の第１〜第Ｎ雑音マイクロホン４２の
電気信号を、部分帯域の音響的な特徴を時系列的に表現
する時系列特徴量に変換する変換器であり、雑音の部分
帯域の第１〜第Ｎ時系列特徴ベクトルを出力する。この
第１〜第Ｎ部分特徴抽出部４５は、音声部分特徴抽出部
４４と同一の機能を有する。部分帯域類似度計算部４６
は、第１〜第Ｎ部分特徴抽出部４５が出力する雑音の部
分帯域の第１〜第Ｎ時系列特徴ベクトルと、音声部分特
徴抽出部４４が出力する音声の部分帯域の時系列特徴ベ
クトルとの間の第１〜第Ｎ類似度をそれぞれ計算し出力
する。最大値検出部４７は、部分帯域類似度計算部４６
が出力する第１〜第Ｎ類似度のうち最大の第ｎ類似度を
選び出す。選択部４８は、２つ以上の第１〜第Ｎ雑音マ
イクロホン４２の出力信号のうち、最大値検出部４７が
選び出した第ｎ類似度と対応した第ｎ雑音マイクロホン
からの出力信号を選択して出力する。選択部４８から得
られた第ｎ雑音マイクロホンからの出力信号は、雑音特
徴抽出部４９において雑音の時系列特徴ベクトルに変換
される。この雑音特徴抽出部４９は、図１における音声
特徴抽出部３と同一の機能を有する。２入力サブトラク
ション部５０は、図１における２入力サブトラクション
部７と同一の機能を有し、音声特徴抽出部４３が出力す
る音声の時系列特徴ベクトルから、雑音特徴抽出部４９
が出力する雑音の時系列特徴ベクトルを差し引くことに
より、２入力スペクトルサブトラクションを行う。すな
わち、第５の発明は、音声マイクロホン４１に入力され
た雑音の部分帯域の特徴ベクトルと最も相関の高い雑音
が入力された雑音マイクロホンの出力信号を用いて、２
入力スペクトルサブトラクションを行うので、常に雑音
除去効果が最良となり、従来の１つの雑音マイクロホン
を用いて２入力スペクトルサブトラクションを行った場
合に比べて、高い雑音除去性能が得られるという効果が
ある。特に、雑音の存在する帯域が限られていることが
あらかじめ分かっているような場合には、部分帯域をあ
らかじめ雑音が存在する帯域に設定することにより、よ
り正確な雑音除去が可能であるという効果がある。

【００２９】第６の発明の作用を図６を用いて説明す
る。図６は、図３に示す雑音除去装置において、最大値
検出部２６の代わりに最小値検出部３０を有し、この最
小値検出部３０は、入力された第１〜第Ｎ類似度のうち
最小の第ｎ類似度を選び出すように構成されている。す
なわち、第５の発明は、音声マイクロホン２１の入力信
号との類似度が最も低い雑音マイクロホン２２の出力信
号を用いて２入力スペクトルサブトラクションを行うこ
とで、常に音声の回り込みが最も小さい雑音マイクロホ
ン２２の出力信号を選択するため、音声の雑音マイクロ
ホンへの回り込みにより、音声自身を差し引くことによ
る音声の認識率あるいは通信の了解度の低下を防止する
という効果がある。図６では、第３の発明に対して応用
した例を示したが、第４または第５の発明に対しても同
様の構成をとることが可能である。

【００３０】第７の発明の作用を図７を用いて説明す
る。雑音を含む音声は、音声マイクロホン６１により電
気信号に変換され、これと同時に周囲雑音は、２つ以上
の第１〜第Ｎ雑音マイクロホン６２により電気信号に変
換される。音声特徴抽出部６３は、音声マイクロホン６
１から得られた電気信号を、音響的な特徴を時系列的に
表現する時系列特徴量に変換する変換器である。

【００３１】第１〜第Ｎ雑音特徴抽出部６４は、２つ以
上の第１〜第Ｎマイクロホン６２の電気信号を、音響的
な特徴を時系列的に表現する時系列特徴量に変換する変
換器であり、雑音の第１〜第Ｎ時系列特徴ベクトルを出
力する。この音声特徴抽出部６３および第１〜第Ｎ雑音
特徴抽出部６４は、図１における音声特徴抽出部３と同
一の機能を有する。第１〜第Ｎ雑音特徴抽出部６４から
得られた雑音の第１〜第Ｎ時系列特徴ベクトルは、平均
値合成部６５において平均化され、雑音の合成ベクトル
として出力される。すなわち、２つ以上の第１〜第Ｎマ
イクロホン６２から得られた時系列特徴ベクトルをＹ_i
（ｔ）、得られた雑音の合成ベクトルをＭ（ｔ）とする
と、平均値合成部６５は、時刻ｔにおいて、

【００３２】

【数２】

【００３３】なる演算を行い、２つ以上の第１〜第Ｎ雑
音マイクロホン６２から得られた時系列特徴ベクトルの
合成ベクトルＭ（ｔ）を計算し、出力する。平均値を求
める方法は、このような計算以外にも相乗平均を用いた
り、あるいは引用文献［２］に述べられているセントロ
イド（パターン中心）などを用いることができる。２入
力サブトラクション部６６は、図１における２入力サブ
トラクション部７と同一の機能を有し、音声特徴抽出部
６３が出力する音声の時系列特徴ベクトルから、平均値
合成部６５が出力する雑音の合成ベクトルを差し引くこ
とにより、２入力スペクトルサブトラクションを行う。
すなわち、第７の発明は、２つ以上の第１〜第Ｎマイク
ロホン６２から得られた時系列特徴ベクトルの平均ベク
トルを用いて２入力スペクトルサブトラクションを行う
ことにより、雑音が第１〜第Ｎ雑音マイクロホン６２よ
り多くの雑音マイクロホンに入力されていればいるほど
合成ベクトルに、より大きく反映され、逆に特定の雑音
マイクロホンにのみ入力される雑音は、平均化操作を行
うために合成ベクトルにはあまり大きく反映されないた
め、特定の雑音マイクロホンにのみ入力された雑音によ
る除去誤りが低減されるという効果がある。

【００３４】第８の発明の作用を図８を用いて説明す
る。図８は、図７に示す平均値合成部６５の代わりに重
み付き平均値合成部６７を有し、この重み付き平均値合
成部６７は、第１〜第Ｎ雑音特徴抽出部が出力する雑音
の第１〜第Ｎ時系列特徴ベクトルにあらかじめ定めた重
みを付加した後に平均化し、平均化した特徴ベクトルを
雑音の合成ベクトルとして出力する。すなわち、第８の
発明は、重みを付加することで特定の雑音マイクロホン
からの入力を特に重視することが可能であるため、第４
の発明が有するのと同様の効果を得、さらに、２つ以上
の第１〜第Ｎ雑音マイクロホン６２から得られた時系列
特徴ベクトルの平均ベクトルを用いることで、第７の発
明が有するのと同様の効果を兼備している。

【００３５】第９の発明の作用を図９を用いて説明す
る。雑音を含む音声は、音声マイクロホン８１により電
気信号に変換され、同時に周囲雑音は、音声マイクロホ
ン８１の周囲に設置された２つ以上の第１〜第Ｎ雑音マ
イクロホン８２により電気信号に変換される。音声特徴
抽出部８３は、音声マイクロホン８１から得られた電気
信号を、音響的な特徴を時系列的に表現する時系列特徴
量に変換する変換器である。第１〜第Ｎ雑音特徴抽出部
８４は、２つ以上の第１〜第Ｎ雑音マイクロホン８２の
電気信号を、音響的な特徴を時系列的に表現する時系列
特徴量に変換する変換器であり、雑音の第１〜第Ｎ時系
列特徴ベクトルを出力する。この音声特徴抽出部８３お
よび第１〜第Ｎ雑音特徴抽出部８４は、図１における音
声特徴抽出部３と同一の機能を有する。第１〜第Ｎ雑音
特徴抽出部８４が出力する雑音の第１〜第Ｎ時系列特徴
ベクトルは、それぞれ分割部８５において複数の帯域に
分割され出力される。最小合成部８６は、分割部８５が
出力する帯域分割後の雑音の時系列特徴ベクトルの各帯
域毎にパワー最小のものを取り出し、帯域毎の各最小値
を合成し、雑音の合成ベクトルとして出力する。２入力
サブトラクション部８７は、図１における２入力サブト
ラクション部７と同一の機能を有し、音声特徴抽出部８
３が出力する音声の時系列特徴ベクトルから、最小値合
成部８６が出力する雑音の合成ベクトルを差し引くこと
により、２入力スペクトルサブトラクションを行う。す
なわち、帯域毎に伝達特性が異なるような環境で発声し
た場合、雑音マイクロホンへの音声の回り込み量は、帯
域毎、雑音マイクロホン毎に異なっていると考えられ
る。このような場合、第９の発明を用いることで、雑音
の第１〜第Ｎ時系列特徴ベクトルを複数の帯域に分割
し、各帯域毎に最小のパワーを有するものを選択し、そ
れぞれ帯域毎の最小値を合成して出力することにより、
常に音声の回り込み量が最も少ない特定の雑音マイクロ
ホンの特定帯域の特徴量を用いて雑音の特徴ベクトルを
合成するため、雑音マイクロホンへの音声の混入による
認識率の劣化や通信了解度の低下を防止することが可能
であるという効果がある。

【００３６】第１０の発明の作用を図１０を用いて説明
する。図１０は、図１に示す雑音除去装置の構成に加え
て、音声マイクロホン１から得られた出力信号を用いて
音声が存在しない区間を雑音区間として検出する雑音区
間検出部８を有し、雑音検出部５が雑音区間検出部８に
より検出された雑音区間の雑音の第１〜第Ｎ時系列特徴
ベクトルを用いて雑音の第ｎ時系列特徴ベクトルを選び
出すように構成されている。すなわち、第１０の発明
は、第１の発明が有する効果に加えて、音声の混入がな
い雑音区間を用いて雑音の第１〜第Ｎ時系列特徴ベクト
ルの１つを選択するため、より正しく雑音の推定が可能
であり、雑音の除去効果が高くなるという効果を得る。

【００３７】第１１の発明の作用を図１１を用いて説明
する。図１１は、図２に示す雑音除去装置の構成に加え
て、音声マイクロホン１１から得られた出力信号を用い
て音声が存在しない区間を雑音区間として検出する雑音
区間検出部１８を有し、最小パワー検出部１４が雑音区
間検出部１８により検出された雑音区間の第１〜第Ｎ雑
音マイクロホンの出力信号を用いて第ｎ雑音マイクロホ
ンの出力信号を選び出すように構成されている。すなわ
ち、第１１の発明は、第２の発明が有する効果に加え
て、音声の混入がない雑音区間を用いて第１〜第Ｎ雑音
マイクロホンの出力の一つを選択するため、より正しく
雑音の推定が可能であり、雑音の除去効果が高くなると
いう効果を得る。

【００３８】第１２の発明の作用を図１２を用いて説明
する。図１２は、図３に示す雑音除去装置の構成に加え
て、音声マイクロホン２１から得られた出力信号を用い
て音声が存在しない区間を雑音区間として検出する雑音
区間検出部３１を有し、類似度計算部２５が雑音区間検
出部３１により検出された雑音区間の雑音の第１〜第Ｎ
時系列特徴ベクトルを用いて第１〜第Ｎ類似度を計算し
て出力するように構成されている。図１２では、図３に
対して応用した例を示したが、図４に示す実施例に対し
ても同様の構成をとることが可能である。すなわち、第
１２の発明は、第３または第４の発明が有する効果に加
えて、音声の混入がない雑音区間を用いて雑音の第１〜
第Ｎ時系列特徴ベクトルの出力の一つを選択するため、
より正しく雑音の推定が可能であり、雑音の除去効果が
高くなるという効果を得る。

【００３９】第１３の発明の作用を図１３を用いて説明
する。図１３は、図５に示す雑音除去装置の構成に加え
て、音声マイクロホン４１から得られた出力信号を用い
て音声が存在しない区間を雑音区間として検出する雑音
区間検出部５１を有し、部分帯域類似度計算部４６が雑
音区間検出部５１により検出された雑音区間の雑音の部
分帯域の第１〜第Ｎ時系列特徴ベクトルを用いて第１〜
第Ｎ類似度を計算して出力するように構成されている。
すなわち、第１３の発明は、第５の発明が有する効果に
加えて、音声の混入がない雑音区間を用いて第１〜第Ｎ
雑音マイクロホンの出力の一つを選択するため、より正
しく雑音の推定が可能であり、雑音の除去効果が高くな
るという効果を得る。

【００４０】第１４の発明の作用を図１４を用いて説明
する。図１４は、図１０に示す雑音除去装置において、
雑音区間検出部９が，２入力サブトラクション部７の出
力する特徴ベクトルを用いて音声が存在しない区間を雑
音区間として検出するように構成されている。図１４で
は、図１０に対して応用した例を示したが、図１１また
は図１２または図１３に示す雑音除去装置に対しても同
様の構成をとることが可能である。すなわち、第１４の
発明は、第１０また第１１または第１３の発明が有する
効果に加えて、雑音除去後のクリアな時系列特徴ベクト
ルを用いて雑音区間を推定することにより、雑音区間の
検出精度が改善され、このことにより、より高性能な雑
音除去が可能であるという効果がある。

【００４１】第１５の発明の作用を図１５を用いて説明
する。図１５は、図３に示す雑音除去装置の構成に加え
て、音声マイクロホン２１から得られた出力信号を用い
て音声が存在しない区間を雑音区間として検出する雑音
区間検出部３１と、最大値検出部２６の代わりに雑音区
間検出部３１が検出した雑音区間内では第１〜第Ｎ類似
度のうち最大の類似度を選び出し、雑音区間検出部３１
が雑音区間を検出していない場合は第１〜第Ｎ類似度の
うち最小の類似度を選び出す最大／最小値検出部３２を
有している。雑音区間検出部３１は、２入力サブトラク
ション部２８が出力する特徴ベクトルを用いて音声が存
在しない区間を雑音区間として検出するように構成する
ことも可能である。図１５では、図３に対して応用した
例を示したが、図４または図５に示す雑音除去装置に対
しても同様の構成をとることが可能である。すなわち、
第１５の発明は、第３または第４または第５の発明が有
する効果に加えて、雑音区間以外の音声が存在する区間
では音声マイクロホンの出力信号と最も類似していない
雑音マイクロホンの出力信号を選択する。このことによ
り雑音マイクへの音声の回り込み量が最も少ない雑音マ
イクロホンからの出力信号を選択し、雑音マイクロホン
への音声の混入による認識率の劣化や通信了解度の低下
を防止することができる。

【００４２】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【００４３】図１は、第１の発明の一実施例を示すブロ
ック図である。図１に示す雑音除去装置は、音声を主に
入力する音声マイクロホン１と周囲雑音を主に入力し、
音声マイクロホンの周囲に配置した２つ以上の第１〜第
Ｎ雑音マイクロホン２と、音声マイクロホン１の出力信
号を音声の時系列特徴ベクトルに変換する音声特徴抽出
部３と、２つ以上の第１〜第Ｎ雑音マイクロホン２の出
力信号をそれぞれ雑音の第１〜第Ｎ時系列特徴ベクトル
に変換する第１〜第Ｎ雑音特徴抽出部４と、第１〜第Ｎ
雑音特徴抽出部４から得られた雑音の第１〜第Ｎ時系列
特徴ベクトルのなかから周囲雑音に最も近い雑音の第ｎ
時系列特徴ベクトル（ｎ＝１〜Ｎ）を選び出す雑音検出
部５と、雑音検出部５が選び出した雑音の第ｎ時系列特
徴ベクトルを選択し出力する選択部６と、音声特徴抽出
部３が出力する音声の時系列特徴ベクトルから選択部６
が出力する雑音の第ｎ時系列特徴ベクトルを差し引く２
入力サブトラクション部７とを有している。

【００４４】雑音を含む音声は、音声マイクロホン１に
より電気信号に変換される。これと同時に、周囲雑音
は、音声マイクロホン１の周囲に設置した２つ以上の第
１〜第Ｎ雑音マイクロホン２により電気信号に変換され
る。２つ以上の第１〜第Ｎ雑音マイクロホン２の設置方
法は多々あるが、例えば、音声マイクの周囲に適当な距
離を保って配置しても良いし、あるいは、あらゆる方角
から到来する雑音に対応して放射線状に配置したり、ま
た特定の雑音源に向けて設置しても良い。音声マイクロ
ホン１から得られた電気信号は、音声特徴抽出部３にお
いて、音声の時系列特徴ベクトルに変換され、２つ以上
の第１〜第Ｎ雑音マイクロホン２から得られた電気信号
は、それぞれ第１〜第Ｎ雑音特徴抽出部４において、雑
音の第１〜第Ｎ時系列特徴ベクトルに変換される。雑音
検出部５は、第１〜第Ｎ雑音特徴抽出部４から得られた
雑音の第１〜第Ｎ時系列特徴ベクトルのなかから、周囲
雑音に最も近い雑音の第ｎ時系列特徴ベクトルを選び出
す。雑音検出部５において選び出された雑音の第ｎ時系
列特徴ベクトルは、選択部６において選択し出力され
る。２入力サブトラクション部７は、音声マイクロホン
１が出力する、雑音を含む音声の時系列特徴ベクトルか
ら、選択部６が出力する雑音の第ｎ時系列特徴ベクトル
を差し引くことにより、２入力スペクトルサブトラクシ
ョンを行い、音声に含まれる雑音を除去する。この２入
力サブトラクション部７は、図１６に示す２入力サブト
ラクション部２０５と同一の機能を有している。

【００４５】図２は、第２の発明の一実施例を示すブロ
ック図である。図２に示す雑音除去装置は、音声を主に
入力する音声マイクロホン１１と、周囲雑音を主に入力
し、音声マイクロホン１１の周囲に配置した２つ以上の
第１〜第Ｎ雑音マイクロホン１２と、音声マイクロホン
１１の出力信号を音声の時系列特徴ベクトルに変換する
音声特徴抽出部１３と、２つ以上の第１〜第Ｎ雑音マイ
クロホン１２の出力信号のうち、パワーが最小となる第
ｎ雑音マイクロホンの出力信号を選び出す最小パワー検
出部１４と、最小パワー検出部１４が選び出した第ｎ雑
音マイクロホンの出力信号を選択し出力する選択部１５
と、選択部１５が出力する第ｎ雑音マイクロホンの出力
信号を、雑音の時系列特徴ベクトルに変換する雑音特徴
抽出部１６と、音声特徴抽出部１３が出力する音声の時
系列特徴ベクトルから、雑音特徴抽出部１６が出力する
雑音の時系列特徴ベクトルを差し引く２入力サブトラク
ション部とを有している。

【００４６】雑音を含む音声は、音声マイクロホン１１
により電気信号に変換される。これと同時に、周囲雑音
は、音声マイクロホン１１の周囲に設置した２つ以上の
第１〜第Ｎ雑音マイクロホン１２により電気信号に変換
される。音声マイクロホン１１から得られた電気信号
は、音声特徴抽出部１３において音声の時系列特徴ベク
トルに変換される。この音声特徴抽出部１３は、図１に
おける音声特徴抽出部３と同一の機能を有する。最小パ
ワー検出部１４は、２つ以上の第１〜第Ｎ雑音マイクロ
ホン１２の出力信号のうち、パワーが最小となる第ｎ雑
音マイクロホンの出力信号を選び出す。最小パワー検出
部１４が選び出した第ｎ雑音マイクロホンの出力信号は
選択部１５において選択され出力される。選択部１５に
おいて選択された第ｎ雑音マイクロホンの出力信号は、
雑音特徴抽出部１６において雑音の時系列特徴ベクトル
に変換される。この２入力サブトラクション部１７は、
図１における２入力サブトラクション部７と同一の機能
を有し、音声特徴抽出部１３が出力する雑音の時系列特
徴ベクトルを差し引くことにより２入力スペクトルサブ
トラクションを行う。

【００４７】図３は、第３の発明の一実施例を示すブロ
ック図である。図３に示す雑音除去装置は、音声を主に
入力する音声マイクロホン２１と、周囲雑音を主に入力
し、音声マイクロホン２１の周囲に配置した２つ以上の
第１〜第Ｎ雑音マイクロホン２２と、音声マイクロホン
２１の出力信号を音声の時系列特徴ベクトルに変換する
音声特徴抽出部２３と、２つ以上の第１〜第Ｎ雑音マイ
クロホン２２の出力信号を、それぞれ雑音の第１〜第Ｎ
時系列特徴ベクトルに変換する第１〜第Ｎ雑音特徴抽出
部２４と、第１〜第Ｎ雑音特徴抽出部２４が出力する雑
音の第１〜第Ｎ時系列特徴ベクトルと、音声特徴抽出部
２３が出力する音声の時系列特徴ベクトルとの間の第１
〜第Ｎ類似度をそれぞれ計算し出力する類似度計算部２
５と、類似度計算部２５が出力する第１〜第Ｎ類似度の
うち最大の第ｎ類似度を選び出す最大値検出部２６と、
雑音の第１〜第Ｎ時系列特徴ベクトルのうち、最大値検
出部２６が選び出した第ｎ類似度と対応した雑音の第ｎ
時系列特徴ベクトルを選択して出力する選択部２７と、
音声特徴抽出部２３が出力する音声の時系列特徴ベクト
ルから、選択部２７が出力する雑音の第ｎ時系列特徴ベ
クトルを差し引く２入力サブトラクション部とを有して
いる。

【００４８】雑音を含む音声は、音声マイクロホン２１
により電気信号に変換される。これと同時に、周囲雑音
は、音声マイクロホン１１の周囲に設置された２つ以上
の第１〜第Ｎ雑音マイクロホン２２により電気信号に変
換される。音声マイクロホン２１から得られた電気信号
は、音声特徴抽出部２３において音声の時系列特徴ベク
トルに変換され、２つ以上の第１〜第Ｎ雑音マイクロホ
ン２２の出力信号は、それぞれ第１〜第Ｎ雑音特徴抽出
部２４において雑音の第１〜第Ｎ時系列特徴ベクトルに
変換される。

【００４９】この音声特徴抽出部２３および第１〜第Ｎ
雑音特徴抽出部２４は、図１における音声特徴抽出部３
と同一の機能を有する。類似度計算部２５は、第１〜第
Ｎ雑音特徴抽出部２４が出力する雑音の第１〜第Ｎ時系
列特徴ベクトルと、音声特徴抽出部２３が出力する音声
の時系列特徴ベクトルとの間の第１〜第Ｎ類似度をそれ
ぞれ計算し出力する。

【００５０】最大値検出部２６は、類似度計算部２５が
出力する第１〜第Ｎ類似度のうち最大の第ｎ類似度を選
び出す。選択部２７は、雑音の第１〜第Ｎ時系列特徴ベ
クトルのうち、最大値検出部２６が選び出した第ｎ類似
度と対応した雑音の第ｎ時系列特徴ベクトルを選択して
出力する。２入力サブトラクション部２８は、図１にお
ける２入力サブトラクション部７と同一の機能を有し、
音声特徴抽出部２３が出力する音声の時系列特徴ベクト
ルから、選択部２７が出力する雑音の第ｎ時系列特徴ベ
クトルを差し引くことにより２入力スペクトルサブトラ
クションを行う。

【００５１】図４は、第４の発明の一実施例を示すブロ
ック図である。図４に示す雑音除去装置は、図３に示す
一実施例の構成に加えて、類似度計算部２５が出力する
第１〜第Ｎ類似度にあらかじめ定めた重みを付加し、重
み付き第１〜第Ｎ類似度を出力する重み付加部２９を有
し、最大値検出部２６は、重み付加部２９が出力する重
み付き第１〜第Ｎ類似度のうち、最大の第ｎ類似度を選
び出すように構成されている。

【００５２】図５は、第５の発明の一実施例を示すブロ
ック図である。図５に示す雑音除去装置は、音声を主に
入力する音声マイクロホン４１と、周囲雑音を主に入力
し、音声マイクロホン４１の周囲に配置した２つ以上の
第１〜第Ｎ雑音マイクロホン４２と、音声マイクロホン
４１の出力信号を音声の時系列特徴ベクトルに変換する
音声特徴抽出部４３と、音声マイクロホン４１の出力信
号を音声の部分帯域の時系列特徴ベクトルに変換する音
声部分特徴抽出部４４と、２つ以上の第１〜第Ｎ雑音マ
イクロホン４２の出力信号それぞれを雑音の部分帯域の
第１〜第Ｎ時系列特徴ベクトルに変換する第１〜第Ｎ部
分特徴抽出部４５と、第１〜第Ｎ部分特徴抽出部４５が
出力する雑音の部分帯域の第１〜第Ｎ時系列特徴ベクト
ルと、音声部分特徴抽出部４４が出力する音声の部分帯
域の時系列特徴ベクトルとの間の第１〜第Ｎ類似度をそ
れぞれ計算し出力する部分帯域類似度計算部４６と、部
分帯域類似度計算部４６が出力する第１〜第Ｎ類似度の
うち最大の第ｎ類似度を選び出す最大値検出部４７と、
２つ以上の第１〜第Ｎ雑音マイクロホン４２の出力信号
のうち、最大値検出部４７が選び出した第ｎ類似度と対
応した第ｎ雑音マイクロホン４５からの出力信号を選択
して出力する選択部４８と、選択部４８が出力する第ｎ
雑音マイクロホン４５からの出力信号を、雑音の時系列
特徴ベクトルに変換する雑音特徴抽出部４９と、音声特
徴抽出部４３が出力する音声の時系列特徴ベクトルか
ら、雑音特徴抽出部４９が出力する雑音の時系列特徴ベ
クトルを差し引くことにより２入力サブトラクション部
５０とを有している。

【００５３】雑音を含む音声は、音声マイクロホン４１
により電気信号に変換される。これと同時に周囲雑音
は、２つ以上の第１〜第Ｎ雑音マイクロホン４２により
電気信号に変換される。音声マイクロホン４１から得ら
れた出力信号は、音声特徴抽出部４３において音声の時
系列特徴ベクトルに変換され、同時に音声マイクロホン
４１の出力信号は、音声部分特徴抽出部４４において音
声の部分帯域の時系列特徴ベクトルに変換される。この
音声特徴抽出部４３は、図１における音声特徴抽出部３
と同一の機能を有する。２つ以上の第１〜第Ｎ雑音マイ
クロホン４２の出力信号は、それぞれ第１〜第Ｎ部分特
徴抽出部４５において雑音の部分帯域の第１〜第Ｎ時系
列特徴ベクトルに変換される。部分帯域類似度計算部４
６は、第１〜第Ｎ部分特徴抽出部４５が出力する雑音の
部分帯域の第１〜第Ｎ時系列特徴ベクトルと、音声部分
特徴抽出部４４が出力する音声の部分帯域の時系列特徴
ベクトルとの間の第１〜第Ｎ類似度をそれぞれ計算し出
力する。最大値検出部４７は、部分帯域類似度計算部４
６が出力する第１〜第Ｎ類似度のうち、最大の第ｎ類似
度を選び出す。選択部４８は、２つ以上の第１〜第Ｎ雑
音マイクロホン４２の出力信号のうち、最大値検出部４
７が選び出した第ｎ類似度と対応した第ｎ雑音マイクロ
ホン４５からの出力信号を選択して出力する。選択部４
８から得られた第ｎ雑音マイクロホン４５からの出力信
号は、雑音特徴抽出部４９において雑音の時系列特徴ベ
クトルに変換される。この雑音特徴抽出部４９は、図１
における音声特徴抽出部３と同一の機能を有する。２入
力サブトラクション部５０は、図１における２入力サブ
トラクション部７と同一の機能を有し、音声特徴抽出部
４３が出力する音声の時系列特徴ベクトルから、雑音特
徴抽出部４９が出力する雑音の時系列特徴ベクトルを差
し引くことにより２入力スペクトルサブトラクションを
行う。

【００５４】図６は、第６の発明の一実施例を示すブロ
ック図である。図６に示す雑音除去装置は、図３に示す
実施例における最大値検出部２６の代わりに、入力され
た第１〜第Ｎ類似度のうち最大の第ｎ類似度を求める最
小値検出部３０を有している。本実施例では、図３に対
して応用した例を示したが、図４または図５に示す実施
例に対しても同様の構成をとることが可能である。

【００５５】図７は、第７の発明の一実施例を示すブロ
ック図である。図７に示す雑音除去装置は、音声を主に
入力する音声マイクロホン６１と、周囲雑音を主に入力
し、音声マイクロホン６１の周囲に配置した２つ以上の
第１〜第Ｎマイクロホン６２と、音声マイクロホン６１
の出力信号を音声の時系列特徴ベクトルに変換する音声
特徴抽出部６３と、２つ以上の第１〜第Ｎ雑音マイクロ
ホン６２の出力信号をそれぞれ雑音の第１〜第Ｎ時系列
特徴ベクトルに変換する第１〜第Ｎ雑音特徴抽出部６４
と、第１〜第Ｎ雑音特徴抽出部６４から得られた雑音の
第１〜第Ｎ時系列特徴ベクトルを平均化し、平均化した
特徴ベクトルを雑音の合成ベクトルとして出力する平均
値合成部６５と、音声特徴抽出部６３が出力する音声の
時系列特徴ベクトルから、平均値合成部６５が出力する
雑音の合成ベクトルを差し引く２入力サブトラクション
部６６とを有している。

【００５６】雑音を含む音声は、音声マイクロホン６１
により電気信号に変換される。これと同時に周囲雑音
は、２つ以上の第１〜第Ｎ雑音マイクロホン６２により
電気信号に変換される。音声マイクロホン６１の出力信
号は、音声特徴抽出部６３において音声の時系列特徴ベ
クトルに変換され、２つ以上の第１〜第Ｎ雑音マイクロ
ホン６２の出力信号は、第１〜第Ｎ雑音特徴抽出部６４
においてそれぞれ雑音の第１〜第Ｎ時系列特徴ベクトル
に変換される。この音声特徴抽出部６３および第１〜第
Ｎ雑音特徴抽出部６４は、図１における音声特徴抽出部
３と同一の機能を有する。第１〜第Ｎ雑音特徴抽出部６
４から得られた雑音の第１〜第Ｎ時系列特徴ベクトル
は、平均値合成部６５において平均化され、雑音の合成
ベクトルとして出力される。２入力サブトラクション部
６６は、図１における２入力サブトラクション部７と同
一の機能を有し、音声特徴抽出部６３が出力する音声の
時系列特徴ベクトルから、平均値合成部６５が出力する
雑音の合成ベクトルを差し引くことにより２入力スペク
トルサブトラクションを行う。

【００５７】図８は、第８の発明の一実施例を示すブロ
ック図である。図８に示す雑音除去装置は、図７に示す
一実施例における平均値合成部６５の代わりに、第１〜
第Ｎ雑音特徴抽出部が出力する雑音の第１〜第Ｎ時系列
特徴ベクトルにあらかじめ定めた重みを付加した後に平
均化し、平均化した特徴ベクトルを雑音の合成ベクトル
として出力する重み付き平均値合成部６７を有してい
る。

【００５８】図９は、第９の発明の一実施例を示すブロ
ック図である。図９に示す雑音除去装置は、音声を主に
入力する音声マイクロホン８１と、周囲雑音を主に入力
し、音声マイクロホン８１の周囲に配置した２つ以上の
第１〜第Ｎ雑音マイクロホン８２と、音声マイクロホン
８１の出力信号を音声の時系列特徴ベクトルに変換する
音声特徴抽出部８３と、２つ以上の第１〜第Ｎ雑音マイ
クロホン８２の出力信号を、それぞれ雑音の第１〜第Ｎ
時系列特徴ベクトルに変換する第１〜第Ｎ雑音特徴抽出
部８４と、第１〜第Ｎ雑音特徴抽出部８４が出力する雑
音の第１〜第Ｎ時系列特徴ベクトルそれぞれを、複数の
帯域に分割して出力する分割部８５と、分割部８５が出
力する帯域分割後の雑音の時系列特徴ベクトルの各帯域
毎に、パワーが最小のものを取り出し、帯域毎の各最小
値を合成して雑音の合成ベクトルとして出力する最小値
合成部８６と、音声特徴抽出部８３が出力する音声の時
系列特徴ベクトルから、最小値合成部８６が出力する雑
音の合成ベクトルを差し引く２入力サブトラクション部
８７とを有している。

【００５９】雑音を含む音声は、音声マイクロホン８１
により電気信号に変換される。これと同時に周囲雑音
は、音声マイクロホン８１の周囲に設置した２つ以上の
第１〜第Ｎ雑音マイクロホン８２により電気信号に変換
される。音声マイクロホン８１の出力信号は、音声特徴
抽出部８３において音声の時系列特徴ベクトルに変換さ
れ、２つ以上の第１〜第Ｎ雑音マイクロホン８２の出力
信号は、それぞれ第１〜第Ｎ雑音特徴抽出部８４におい
て雑音の第１〜第Ｎ時系列特徴ベクトルに変換される。
この音声特徴抽出部８３および第１〜第Ｎ雑音特徴抽出
部８４は、図１における音声特徴抽出部３と同一の機能
を有する。第１〜第Ｎ雑音特徴抽出部８４が出力する雑
音の第１〜第Ｎ時系列特徴ベクトルは、それぞれ分割部
８５において複数の帯域に分割され出力される。最小値
合成部８６は、分割部８５が出力する帯域分割後の雑音
の時系列特徴ベクトルの各帯域毎に、パワーが最小のも
のを取り出し、帯域毎の各最小値を合成し雑音の合成ベ
クトルとして出力する。２入力サブトラクション部８７
は、図１における２入力サブトラクション部７と同一の
機能を有し、音声特徴抽出部８３が出力する音声の時系
列特徴ベクトルから最小値合成部８６が出力する雑音の
合成ベクトルを差し引くことにより２入力スペクトルサ
ブトラクションを行う。

【００６０】図１０は、第１０の発明の一実施例を示す
ブロック図である。図１０に示す雑音除去装置は、図１
に示す実施例の構成に加えて、音声マイクロホン１から
得られた特徴ベクトルを用いて音声が存在しない区間を
雑音区間として検出する雑音区間検出部８を有し、雑音
検出部５が、雑音区間検出部８により検出された雑音区
間の雑音の第１〜第Ｎ時系列特徴ベクトルを用いて、雑
音の第ｎ時系列特徴ベクトルを選び出すように構成され
ている。

【００６１】図１１は、第１１の発明の一実施例を示す
ブロック図である。図１１に示す雑音除去装置は、図２
に示す実施例の構成に加えて、音声マイクロホン１１か
ら得られた出力信号を用いて音声が存在しない区間を雑
音区間として検出する雑音区間検出部１８を有し、最小
パワー検出部１４が雑音区間検出部１８により検出され
た雑音区間の第１〜第Ｎ雑音マイクロホンの出力信号を
用いて、第ｎ雑音マイクロホンの出力信号を選び出すよ
うに構成されている。

【００６２】図１２は、第１２の発明の一実施例を示す
ブロック図である。図１２に示す雑音除去装置は、図３
に示す実施例の構成に加えて、音声マイクロホン２１か
ら得られた出力信号を用いて音声が存在しない区間を雑
音区間として検出する雑音区間検出部３１を有し、類似
度計算部２５が、雑音区間検出部３１により検出された
雑音区間の雑音の第１〜第Ｎ時系列特徴ベクトルを用い
て、第１〜第Ｎ類似度を計算して出力するように構成さ
れている。本実施例では図３に対して応用した例を示し
たが、図４に示す実施例に対しても同様の構成をとるこ
とが可能である。

【００６３】図１３は、第１３の発明の一実施例を示す
ブロック図である。図１３に示す雑音除去装置は、図５
に示す実施例の構成に加えて、音声マイクロホン４１か
ら得られた出力信号を用いて、音声が存在しない区間を
雑音区間として検出する雑音区間検出部５１を有し、部
分帯域類似度計算部４６が、雑音区間検出部５１により
検出された雑音区間の雑音の部分帯域の第１〜第Ｎ時系
列特徴ベクトルを用いて、第１〜第Ｎ類似度を計算して
出力するように構成されている。

【００６４】図１４は、第１４の発明の一実施例を示す
ブロック図である。図１４に示す雑音除去装置は、図１
０に示す実施例の構成において、雑音区間検出部９が、
２入力サブトラクション部７が出力する特徴ベクトルを
用いて音声が存在しない区間を雑音区間として検出する
ように構成されている。本実施例では、図１０に対して
応用した例を示したが、図１１または図１２または図１
３に示す実施例に対しても同様の構成をとることが可能
である。

【００６５】図１５は、第１５の発明の一実施例を示す
ブロック図である。図１５に示す雑音除去装置は、図３
に示す実施例の構成に加えて、音声マイクロホン２１か
ら得られた出力信号を用いて、音声が存在しない区間を
雑音区間として検出する雑音区間検出部３１と、最大値
検出部２６の代わりに雑音区間検出部３１が検出した雑
音区間内では、第１〜第Ｎ類似度のうち最大の類似度を
選び出し、雑音区間検出部３１が雑音区間を検出してい
ない場合は、第１〜第Ｎ類似度のうち最小の類似度を選
び出す最大／最小値検出部３２を有している。雑音区間
検出部３１は、２入力サブトラクション部２８が出力す
る特徴ベクトルを用いて音声が存在しない区間を雑音区
間として検出するように構成することも可能である。本
実施例では、図３に対して応用した例を示したが、図４
または図５に示す実施例に対しても同様の構成をとるこ
とが可能である。

【００６６】

【発明の効果】以上説明したように本発明の雑音除去装
置は、音声マイクロホンに含まれる雑音成分を複数の雑
音マイクロホンを用いて推定して除去を行うことによ
り、時間的、空間的に性質が変化するような非定常雑音
に対しても効率良く雑音除去を行うことができ、また、
音声の雑音マイクロホンへの混入が起こった場合でも必
要な音声信号を除去しない、安定な雑音除去を行うこと
ができるという効果を有する。

【図面の簡単な説明】

【図１】第１の発明の一実施例を示すブロック図であ
る。

【図２】第２の発明の一実施例を示すブロック図であ
る。

【図３】第３の発明の一実施例を示すブロック図であ
る。

【図４】第４の発明の一実施例を示すブロック図であ
る。

【図５】第５の発明の一実施例を示すブロック図であ
る。

【図６】第６の発明の一実施例を示すブロック図であ
る。

【図７】第７の発明の一実施例を示すブロック図であ
る。

【図８】第８の発明の一実施例を示すブロック図であ
る。

【図９】第９の発明の一実施例を示すブロック図であ
る。

【図１０】第１０の発明の一実施例を示すブロック図で
ある。

【図１１】第１１の発明の一実施例を示すブロック図で
ある。

【図１２】第１２の発明の一実施例を示すブロック図で
ある。

【図１３】第１３の発明の一実施例を示すブロック図で
ある。

【図１４】第１４の発明の一実施例を示すブロック図で
ある。

【図１５】第１５の発明の一実施例を示すブロック図で
ある。

【図１６】従来の２入力スペクトルサブトラクションに
よる雑音除去装置を示すブロック図である。

【符号の説明】

１，１１，２１，４１，６１，８１，２０１音声マイ
クロホン２，１２，２２，４２，６２，８２，２０２雑音マイ
クロホン３，１３，２３，４３，６３，８３，２０３音声特徴
抽出部４，１６，２４，４９，６４，８４雑音特徴抽出部５雑音検出部６，１５，２７，４８選択部７，１７，２８，５０，６６，８７，２０５２入力サ
ブトラクション部８，９，１８，３１，５１雑音区間検出部１４最小パワー検出部２５類似度計算部２６，４７最大値検出部２９重み付加部３０最小値検出部３２最大／最小値検出部４４音声部分特徴抽出部４５部分特徴抽出部４６部分帯域類似度計算部６５平均値合成部６７重み付き平均値合成部８５分割部８６最小値合成部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−16900（ＪＰ，Ａ) 特開平４−249299（ＪＰ，Ａ) 特開平３−256100（ＪＰ，Ａ) 特開昭63−262695（ＪＰ，Ａ) 特開平５−6193（ＪＰ，Ａ) 特開平３−218199（ＪＰ，Ａ) 特許2861011（ＪＰ，Ｂ２) 特許2544173（ＪＰ，Ｂ２) 日本音響学会平成３年度春季研究発表会講演論文集２−５−３「２段スペクトルサブトラクションによる雑音下音声認識」ｐ．59−60（平成３年３月27日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．89，Ｎｏ．340，ＳＰ89−81, 「２入力による雑音除去手法を用いた自動車内の音声認識」ｐ．33−40（1989年 12月14日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 G10L 21/02 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を主に入力する音声マイクロホンと、周囲雑音を主に入力し、音声マイクロホンの周囲に配置
された複数の雑音マイクロホンと、音声マイクロホンの出力信号を音声の時系列特徴ベクト
ルに変換する音声特徴抽出部と、複数の雑音マイクロホンの出力信号のうちパワーが最小
となる雑音マイクロホンの出力信号を選び出す最小パワ
ー検出部と、最小パワー検出部が選び出した雑音マイクロホンの出力
信号を選択し出力する選択部と、選択部が出力する雑音マイクロホンの出力信号を雑音の
時系列特徴ベクトルに変換する雑音特徴抽出部と、音声特徴抽出部が出力する音声の時系列特徴ベクトルか
ら、雑音特徴抽出部が出力する雑音の時系列特徴ベクト
ルを差し引く２入力サブトラクション部とを備えること
を特徴とする雑音除去装置。
【請求項２】音声を主に入力する音声マイクロホンと、周囲雑音を主に入力し、音声マイクロホンの周囲に配置
された複数の雑音マイクロホンと、音声マイクロホンの出力信号を音声の時系列特徴ベクト
ルに変換する音声特徴抽出部と、複数の雑音マイクロホンの出力信号をそれぞれ雑音の時
系列特徴ベクトルに変換する複数の雑音特徴抽出部と、複数の雑音特徴抽出部が出力する雑音の時系列特徴ベク
トルと音声特徴抽出部が出力する音声の時系列特徴ベク
トルとの間の類似度を計算して出力する類似度計算部
と、音声マイクロホンから得られた出力信号を用いて音声が
存在しない区間を雑音区間として検出する雑音区間検出
部または２入力サブトラクション部が出力する特徴ベク
トルを用いて音声が存在しない区間を雑音区間として検
出する雑音区間検出部と、雑音区間検出部が検出した雑音区間内では入力された類
似度のうち最大の類似度を選び出し、雑音区間検出部が
雑音区間を検出していない場合は入力された類似度のう
ち最小の類似度を選び出す最大／最小値検出部と、雑音の時系列特徴ベクトルのうち、最大値／最小値検出
部が選び出した類似度と対応した雑音の時系列特徴ベク
トルを選択して出力する選択部と、音声特徴抽出部が出力する音声の時系列特徴ベクトルか
ら選択部が出力する雑音の第ｎ時系列特徴ベクトルを差
し引く２入力サブトラクション部とを備えることを特徴
とする雑音除去装置。
【請求項３】請求項２記載の雑音除去装置において、類
似度計算部が出力する類似度にあらかじめ定められた重
みを付加して重み付き類似度を出力する重み付加部をさ
らに備えたことを特徴とする雑音除去装置。
【請求項４】音声を主に入力する音声マイクロホンと、周囲雑音を主に入力し、音声マイクロホンの周囲に配置
された複数の雑音マイクロホンと、音声マイクロホンの出力信号を音声の時系列特徴ベクト
ルに変換する音声特徴抽出部と、音声マイクロホンの出力信号を音声の部分帯域の時系列
特徴ベクトルに変換する音声部分特徴抽出部と、複数の雑音マイクロホンの出力信号それぞれを雑音の部
分帯域の時系列特徴ベクトルに変換する複数の部分特徴
抽出部と、複数の部分特徴抽出部が出力する雑音の部分帯域の時系
列特徴ベクトルと音声部分特徴抽出部が出力する音声の
部分帯域の時系列特徴ベクトルとの間の類似度をそれぞ
れ計算し、出力する部分帯域類似度計算部と、音声マイクロホンから得られた出力信号を用いて音声が
存在しない区間を雑音区間として検出する雑音区間検出
部または２入力サブトラクション部が出力する特徴ベク
トルを用いて音声が存在しない区間を雑音区間として検
出する雑音区間検出部と、雑音区間検出部が検出した雑音区間内では入力された類
似度のうち最大の類似度を選び出し、雑音区間検出部が
雑音区間を検出していない場合は入力された類似度のう
ち最小の類似度を選び出す最大／最小値検出部と、複数の雑音マイクロホンの出力信号のうち、最大／最小
値検出部が選び出した類似度と対応した雑音マイクロホ
ンからの出力信号を選択して出力する選択部と、選択部が出力する雑音マイクロホンからの出力信号を雑
音の時系列特徴ベクトルに変換する雑音特徴抽出部と、音声特徴抽出部が出力する音声の時系列特徴ベクトルか
ら雑音特徴抽出部が出力する雑音の時系列特徴ベクトル
を差し引く２入力サブトラクション部とを備えることを
特徴とする雑音除去装置。
【請求項５】音声を主に入力する音声マイクロホンと、周囲雑音を主に入力し、音声マイクロホンの周囲に配置
された複数の雑音マイクロホンと、音声マイクロホンの出力信号を音声の時系列特徴ベクト
ルに変換する音声特徴抽出部と、複数の雑音マイクロホンの出力信号をそれぞれ雑音の第
１〜第Ｎ時系列特徴ベクトルに変換する第１〜第Ｎ雑音
特徴抽出部と、複数の雑音特徴抽出部が出力する雑音の時系列特徴ベク
トルそれぞれを複数の帯域に分割して出力する分割部
と、分割部が出力する帯域分割後の雑音の時系列特徴ベクト
ルの各帯域毎にパワーが最小のものを取り出し、帯域毎
の各最小値を合成して雑音の合成ベクトルとして出力す
る最小値合成部と、音声特徴抽出部が出力する音声の時系列特徴ベクトルか
ら最小値合成部が出力する雑音の合成ベクトルを差し引
く２入力サブトラクション部とを備えることを特徴とす
る雑音除去装置。