JP2007093635A

JP2007093635A - 既知雑音除去装置

Info

Publication number: JP2007093635A
Application number: JP2005278857A
Authority: JP
Inventors: Masuzo Yanagida; 益造柳田; Takehiro Ota; 健紘大田
Original assignee: Doshisha Co Ltd
Current assignee: Doshisha Co Ltd
Priority date: 2005-09-26
Filing date: 2005-09-26
Publication date: 2007-04-12

Abstract

【課題】雑音源とマイクとの間における伝達特性が時間的に変化した場合であっても、マイクで受音した信号から既知雑音を精度よく除去することのできるような既知雑音除去方法を提供することを目的とする。
【解決手段】マイクで受音した信号から母音や子音、無音などの音声区間を検出し、母音区間が検出された場合、受音点信号から目的音声を差し引くことによって受音点雑音を推定し、この受音点雑音のスペクトルと、初期状態の伝達特性、あるいは、すでに推定された前の時刻の伝達特性を畳み込んだ既知雑音のスペクトルとの差が最小となるように伝達特性を適応化する。そして、その適応化された伝達特性を畳み込んだ既知雑音のスペクトルをマイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する。また、子音区間については、直近に推定した伝達特性を用いて既知雑音を除去する。
【選択図】図５

Description

本発明は、既知雑音が存在している状態において認識対象となる目的音声のみを抽出することのできる既知雑音除去装置に関するものである。

既知雑音を除去する方法としては、スペクトル減算法（非特許文献１）などが一般的に知られている。このスペクトル減算法を用いた既知雑音の除去方法のうち、音声の伝達特性を考慮した既知雑音の除去方法について説明する。

例えば、テレビから既知雑音が出力されている状態において人間が発した目的音声を抽出する場合について説明する。まず、既知雑音を除去する前に、あらかじめテレビからマイクまでの音の伝達特性を調べておく。ここで「伝達特性」とは、音源からマイクまでの間の音の伝搬経路に関する特性をいい、例えば、その経路中に障害物や反射物が置かれている場合は、その障害物や反射物などによって変化するものである。この伝達特性は、時間領域で表現されるインパルス応答をフーリエ変換して得られるものであり、あらかじめ伝達特性を調べておく場合は、まず、雑音源から信号を出力し、これをマイクで受信することによって行われる。このマイクで受音した信号のスペクトルは、雑音源信号に伝達特性を畳み込んだスペクトルと一致するため、次式のように表される。

そして、<数１>の下式を雑音源信号をフーリエ変換した値で割ってからフーリエ逆変換することによって、伝達特性を下式のように得ることができる。

このようにして伝達特性が得られれば、この伝達特性を既知雑音に畳み込み、そのスペクトルをマイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去することができる。
特開２００４−０１２８８４号公報 S.F.BOLL: "Suppression of Acoustic Noise in Speech Using Spectral Subtraction, " IEEE Transaction on Acoustics, Speech and Signal Processing, Vol.27, No.2, pp.113-120, 1978

ところが、このような方法で既知雑音を除去する方法においては、次のような問題が存在する。すなわち、雑音源とマイクとの間の伝達特性は固定的なものではなく、時間的に変化するものである。例えば、雑音源とマイクとの間にコップなどの障害物が置かれた場合や、当該音場を人間が通行する場合、あるいは、雑音源とマイクとの間の側方に反射物が置かれたような場合には、音の伝達特性は変化する。このため、最初に算出された伝達特性のみを用いて雑音を除去していっても、既知雑音を精度よく除去することができないといった問題があった。

そこで、本発明は、上記課題に着目してなされたもので、雑音源とマイクとの間の伝達特性が時間的に変化した場合であっても、マイクで受音した信号から既知雑音を精度よく除去することのできる既知雑音除去装置を提供することを目的とするものである。

すなわち、本発明は上記課題を解決するために、マイクで受音した信号から既知雑音を除去する既知雑音除去装置において、マイクで既知雑音を取得した時刻における音波の伝達特性を推定する伝達特性推定手段と、そのマイクで受音した信号のスペクトルから、前記時刻において推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去する雑音除去手段とを備えるようにしたものである。

そして、このような発明において、伝達特性を推定する場合、直近の時刻で推定された伝達特性を適応化することによって現時刻の伝達特性を推定する。

本来、マイクで受音された信号のスペクトルは、その時刻における伝達特性に既知雑音を畳み込んだスペクトルと一致するものである。このため、直近の時刻の伝達特性に既知雑音を畳み込んだスペクトルとマイクから受音された雑音信号のスペクトルとの差が最小となるように直近の時刻の伝達特性を適応化させれば、現時刻における伝達特性を推定することができる。そして、このように推定された伝達特性を用いることにより、現時刻における伝達特性を考慮した既知雑音を除去することができる。

また、このような発明において、既知雑音以外から音が出力されていない状態で雑音源からマイクまでの初期状態の伝達特性を算出し、また、マイクで受音した信号から母音や子音、無音などの音声区間を検出する。そして、ここで母音区間が検出された場合には、マイクで受音した信号から推定された母音の調波構造を減算し、マイクで受音した雑音信号を推定する。そして、初期状態の伝達特性、あるいは、すでに推定された直近の時刻の伝達特性を畳み込んだ既知雑音のスペクトルと前記推定された雑音信号のスペクトルとの差が最小となるように伝達特性を推定する。そして、マイクで受音した信号のスペクトルから前記推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去していく。

通常、母音は調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在する。従って、母音区間においては、その母音の成分周波数を取り除いた成分がマイクで受音した雑音信号であると見なすことができる。そこで、母音区間については、受音信号中の認識対象音声の調波構造以外の部分を雑音と見なし、受音信号から雑音と見なせる部分を差し引いて、この推定雑音のスペクトルと一致するように既知雑音を畳み込んだ伝達特性を適応化すれば、現時刻における伝達特性を推定することができる。

また、音声区間が子音区間である場合は、直近に推定された伝達特性に既知雑音を畳み込み、このスペクトルを前記マイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する。

子音区間においては、母音区間と異なって調波構造を有していないため、母音区間と同じ処理を行うことができない。しかしながら、一般的には、短い時間に伝達特性は大きく変化していないと考えられるため、直近に推定された伝達特性を用いて既知雑音を除去すれば、同様に精度よく既知雑音を除去することができるようになる。

また、音声区間が無音区間である場合は、雑音除去の処理を行わないようにする。

このようにすれば、雑音除去後に音声認識を行う場合に、無音区間においても雑音を除去して音声を認識するといった処理の無駄を防止することができる。

本発明によれば、既知雑音を除去する時刻における伝達特性を推定して既知雑音を除去するようにしたので、精度よく既知雑音を除去することができ、音声認識率を向上させることなどができるようになる。

以下、本発明の一実施の形態について図面を参照して詳細に説明する。図１は、本実施の形態における既知雑音除去装置１の使用例を図示したものであり、図２は、その既知雑音除去装置１の機能ブロック図を示したものである。

まず、本実施の形態における雑音除去処理の概要について説明すると、マイク２は、テレビ３や話者の近傍位置に設置され、テレビ３からの音声（既知雑音）や話者からの目的音声を取得する。この話者の音声としては、例えば、「音量を大きくして」などのようにテレビ３を制御するための音声とする。マイク２によって受音された音声は、テレビ３から出力された既知雑音や話者の目的音声が混合したものである。この混合した音から既知雑音を除去する場合は、まず最初に、テレビ３からマイク２までにおける音の伝達特性を調べておく。初期状態の伝達特性を調べる場合は、テレビ３から以外の音が存在していない状況において、テレビ３から信号を出力する。この信号は、途中、伝達特性によって変化した状態でマイク２に受信される。このマイク２で受信された信号は、原信号に伝達経路のインパルス応答を畳み込んだものであるため、上述の<数１>の関係を有する。そして、その受信された信号を<数２>のように変形することによって、初期状態の伝達特性を得ることができる。

そして、このように初期状態の伝達特性を得た後、話者からの音声の入力を受け付け、その音声のみを抽出できるようにする。既知雑音を存在している状態において既知雑音を除去する場合は、まず、マイク２で受音した信号を母音的な区間、子音的な区間（それぞれ、以後、母音区間、子音区間と略する）、無音区間に分け、それぞれの区間に応じた雑音の除去処理を行う。

既知雑音を除去する場合、まず、母音区間については、マイク２で受音した信号から母音の調波構造を除去し、その区間におけるマイク２で受音された雑音を推定する。一般的に、母音は図３（ａ）に示すように、基本周波数の整数倍の所に周波数成分が現れる特性を有しているため、その母音の周波数成分を除去することができる。このマイク２で受音された雑音は、その時刻における既知雑音にその時刻の伝達特性を畳み込んだものであるが、一般的には、直近の時刻に推定した伝達特性と大きく変化しないと考えられる。そこで、初期状態の伝達特性、あるいは、直近の時刻に推定した伝達特性を用いてこれを適応化する。この適応化は、マイク２で受音された雑音のスペクトルとその既知雑音に伝達特性を畳み込んだスペクトルとの差が最小となるように行う。そして、このように最適化された伝達特性をその時刻における伝達特性と推定してその時刻における既知雑音に畳み込み、マイク２で受音された信号から既知雑音を除去していく。

一方、子音区間については、図３（ｂ）に示すように、母音区間のように調波構造を持たないため、マイク２で受音した信号から子音の周波数成分のみを除去することができない。このため、直近の時刻で推定された伝達特性を用いて従来のスペクトラム減算法によって既知雑音を除去していく。

また、無音区間については、既知雑音を除去する必要がないため、雑音除去処理を行うことなく無処理とする。そして、このように雑音が除去されたスペクトルを音声認識装置に入力することによって音声認識率を向上させるようにする。

次に、この既知雑音除去装置１を備えたシステムの機能ブロックについて説明する。

マイク２は、テレビ３からの雑音や人間の音声などを集音するもので、雑音源３と話者との間に設けられる。好ましくは、話者に近い側に設けられるが、このマイク２の個数は１個であってもよく、あるいは、複数個であってもよい。

雑音源３は、認識対象となる目的音声以外の音を出力するものであって、その出力される雑音信号を直接取得することのできるものである。本実施の形態では、テレビ３を既知雑音源の例としている。このテレビ３の音声出力端子から既知雑音除去装置１の音声入力端子にラインが接続され、既知雑音の信号を取得する。なお、本実施の形態では、雑音源としてテレビ３を例に挙げて説明するが、これに限らず、ラジオやＣＤコンポなどのように、出力する音を出力端でシステムが知ることのできる装置であれば、それを既知雑音源とみなすことができる。

既知雑音除去装置１は、テレビ３やマイク２などに接続されるコンピュータであって、以下の機能を有する。

雑音信号取得手段４０は、テレビ３から出力されてきた雑音信号をラインによって取得する。

周波数解析手段４１は、マイク２で受音した信号や雑音信号取得手段４０によって取得された雑音信号の周波数を解析する。この周波数の解析を行うに際しては、処理フレームをシフトさせながらマイク２で受音した信号を解析する。

音声区間検出手段４２は、マイク２で受音された信号から母音的な区間、子音的な区間、無音区間の種別を検出する。具体的には、摩擦音などのように高周波数領域に強いスペクトルを持つ区間と、高周波数領域に大きな成分を持たない母音区間と、無音区間とに分類し、区間毎に目的音声の抽出方法を切り替える。区間毎の音声種別を判定する場合、まず、時間領域で表された処理フレームの信号をフーリエ変換し、一定間隔毎に突出する周波数成分が存在する（調波構造をとる）場合は「母音区間」であると判定する。また、スペクトルが調波構造を採らない場合「子音区間」であると判定し、一定時間以上にわたってパワーが小さい場合は「無音区間」であると判定する。通常、処理フレーム内の信号が母音的な音である場合、図４に示すように、ケプストラム（ｄＢ表示の周波数スペクトラムのフーリエ逆変換）をとれば、調波構造の櫛形の周波数成分の間隔に応じた所に一本の突出した成分が現れる。この突出した成分の相対的な高さ（δ）によって母音区間であるかどうかを判定することができる。すなわち、この成分が相対的に周囲の成分よりも高い場合は、母音区間であると判定し、また、周囲の成分との高さの差が余りない場合は、子音区間であると判定する。

初期伝達特性算出手段４３は、テレビ３以外の音声が何も存在していない状況においてテレビ３からマイク２までの初期状態の伝達特性を算出する。この初期状態の伝達特性は、テレビ３から既知の信号を出力し、これをマイク２で受信して受音信号のスペクトルを原信号のスペクトルで周波数ごとに割り、それをフーリエ逆変換することによって得られる。

雑音信号推定手段４４は、音声区間検出手段４２によって母音区間であることが検出された場合に、マイク２で受音した信号から母音の信号を除去する。一般に、母音は、図３（ａ）に示すような調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在する。従って、母音区間においては、その母音の調波構造を取り除くことによってマイクで受音した雑音信号を推定することができる。

伝達特性推定手段４５は、音声区間検出手段４２によって母音区間であることが検出された場合に、初期状態の伝達特性、あるいは、この伝達特性推定手段４５によってすでに直近の時刻で推定された伝達特性を用いて現時刻の伝達特性を推定する。本来、マイク２で受音した雑音信号のスペクトルは、その時刻における既知雑音とその時刻の伝達特性を畳み込んだスペクトルと一致するものであるため、その時刻における既知雑音に直近の時刻の伝達特性を畳み込んだスペクトルを算出し、そのスペクトルの値と前記雑音信号推定手段４４によって推定された雑音信号のスペクトルとの差が最小となるように直近の伝達特性を適応化していく。そして、これを現時刻における伝達特性とする。

第一の雑音除去手段４６は、このように推定された現在の時刻の伝達特性を用いてその時刻における既知雑音を畳み込み、これをマイク２で受音した信号、すなわち、既知雑音と目的音声の信号のスペクトルから差し引くことによって既知雑音を除去する。

一方、第二の雑音除去手段４７は、音声区間検出手段４２によって子音区間（摩擦音区間）であると検出された場合の雑音除去処理を行う。子音区間が検出された場合、最初に既知の信号を用いて算出された伝達特性や、あるいは、すでに母音区間が存在している場合は、直近の母音区間で推定された伝達特性を用いて既知雑音を除去する。この既知雑音の除去は、スペクトル減算法と同様に、マイク２で受音した信号のスペクトルからこの伝達特性を用いて畳み込んだ既知雑音のスペクトルを差し引くことによって行われる。

音声認識手段４８は、このように既知雑音が除去された信号に基づいて目的音声を認識する。音声認識は周波数スペクトル情報を入力として行われ、例えば、"Julian"などを用いる。この実施の形態では、この音声認識の結果、テレビ３のチャンネルや音量などを制御できるようにしている。なお、音声認識は、スペクトル信号によって認識する場合に限らず、時間領域の信号によって認識するようにしてもよい。

次に、この既知雑音除去装置１における処理の内容を具体的な数式を用いて説明する。

まず、マイク２で受音された既知雑音と目的音声の信号の処理フレーム長をＮとし、その標本値（k 〜 k+N-1）の信号に基づいて目的音声の基本周波数を推定する。雑音を含んだ受音信号から基本周波数を推定するのでは充分な精度を得ることができないため、まず、受音信号から事前に推定した伝達特性、あるいは、初期状態の伝達特性を既知雑音に畳み込んで得られた推定既知雑音を算出しておく。そして、マイク２で受音した信号からこの推定既知雑音をスペクトル上で差し引いておき、その結果に対してケプストラム法などを用いて基本周波数の推定を行う。ただし、残留雑音により非音声区間に対しても強制的に推定された偽の基本周波数を取り除くために音声・非音声の判定を行う。そして、推定した基本周波数に基づいてマイク２で受音された信号に含まれる目的音声を推定する。しかし、音声区間は母音のように調波構造を有する区間と、子音のように調波構造を持たない区間が存在する。そのため、音声区間を摩擦音のように高周波領域に強いスペクトルを持つ区間と、高周波領域に大きな成分を持たない母音の区間に分類し、区間毎に目的音声の推定方法を切り替える。

（１）母音の周波数スペクトル成分の存在場所の推定
母音は調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在すると考えられる。従って、その成分周波数が存在しないはずの周波数の成分は、雑音成分とみなせる。そこで、母音区間については、受音信号中の認識対象音声の調波構造以外の部分を雑音とみなし、受音信号から雑音と見なせる部分を差し引くと、認識対象音声を抽出することができると考える。そのため、母音区間での周波数成分の存在場所を基本周波数の整数倍の周波数としておく。時間領域で表現するなら、目的音声を次式の調波構造と推定することになる。ここでは、標本番号k番目の標本値列をスカラー量として表記している。これは、始点を０としてt = kT (k：整数、T：標本間隔)としたときの調波合成音のk番目の標本値を表す。

現在、減算は振幅のパワースペクトル上で行っており、この場合、位相φ_mは計算に影響しないので、ここでは０としている。また、振幅は、<数３>の形として想定した信号の振幅が最大であってもたかだか当該フレームの最大振幅にしかならないと考え、最大振幅を帯域内での高周波の数で割り、各周波数に対して一定の値と想定している。

（２）摩擦音区間（子音区間）での目的音声の推定
摩擦音区間は、調波構造を有していないため、<数３>のように仮定することができない。そのため、<数４>を用いて受音信号から雑音信号を減算（対数周波数スペクトルでは減算であるが、実際は割り算）することで摩擦音区間の音声信号を推定できると仮定している。

（３）母音、摩擦音以外の区間での目的音声の推定
最後に、母音・摩擦音以外の区間は無音区間と考え、その区間の目的音声の推定値を次式のようにする。

このように（１）〜（３）によって推定した目的音声は、本来の目的音声の近似になっていると考えることができるので、

として、時刻tでの受音点雑音の近似値が下式のように得られる。

（４）伝達特性の適応処理
<数６>によって求めたある時点kから始まる処理フレームでの受音点雑音n_r(t)の推定値を用いて、事前にあるいは少し前に推定した伝達特性から現処理フレームにおける伝達特性を適応的に求める。n'_r(t)_kは、n(t)_kとh_nr(t)_kの畳み込みと考えられるので、第k標本点での推定誤差ε(k)は、スカラーで表して、

の２乗和が最小になるように、

の適応化を行う。ただし、適応処理の初期ベクトルには事前に、あるいは、少し前に推定した伝達特性を用いる。つまり、

となるように適応処理を施す伝達特性を

として更新する。ただし、pは反復ＩＤを表す。つまり、適応処理を施した伝達特性と雑音源信号n(t)_kとを畳み込んで、受音点雑音n_r(t)_kの周波数スペクトルを推定し、スペクトル上での減算を行う。適応処理を施した伝達特性は、次の処理フレームでの適応処理の初期値となる。

次に、この既知雑音除去の処理のフローチャートについて図４および図５を用いて説明する。

既知雑音を除去するための前処理について図５に説明すると、まず、テレビ３の音声以外に音声が存在していない状況において、テレビ３から既知の信号を出力し（ステップＳ１）、これをマイク２で受信する（ステップＳ２）。このマイク２で受信された信号は、既知の信号に伝達特性を畳み込んだものであるため、これをフーリエ逆変換することによって初期状態の伝達特性を得ることができる（ステップＳ３）。

次に、既知雑音が存在している状況下において既知雑音を除去するフローチャートについて図６を用いて説明する。

話者の音声と既知雑音が混在している状況で既知雑音を除去する場合、まず、前の処理によって求めた初期状態の伝達特性を用いて既知雑音を畳み込むか、あるいは、すでに推定された伝達特性を用いてその時刻の既知雑音を畳み込むことによって現時刻における受音点雑音を推定する（ステップＴ１）。この推定雑音は、直近の時刻における伝達特性を用いているが、基本的に伝達特性は大きく変化しているとは考えられないため、ほぼ現時点における受音点雑音と近似することができる。そして、マイク２で受音した信号からこの受音点雑音をスペクトル上で減算しておき（ステップＴ２）、目的音声の基本周波数を抽出しやすい状態とする。そして、この近似された受音点雑音を除去した後のスペクトルに基づいて目的音声の基本周波数を抽出し（ステップＴ３）、音声区間の種別を判定する（ステップＴ４）。そして、抽出された基本周波数の整数倍の所に周波数成分が大きく存在している場合は、その区間を母音区間と判定して、基本周波数の整数倍の所に存在する周波数成分をスペクトル上で受音点信号から減算する（ステップＴ５）。次に、この減算によって推定された現時刻の受音点雑音のスペクトルと直近の伝達特性に既知雑音を畳み込んだスペクトルとの差が最小となるように伝達特性を適応化し（ステップＴ６）、その適応化された伝達特性を基に現時刻における既知雑音を畳み込んで、これを受音点信号からスペクトル上で減算することによって、母音区間における既知雑音を除去する（ステップＴ７）。

一方、基本周波数の整数倍上に周波数成分が存在しないことなどにより子音区間（摩擦音区間）であることが判定された場合は、直近に推定された伝達特性と既知雑音を畳み込み、これを受音点信号からスペクトル上で減算することによって、子音区間における既知雑音を除去する（ステップＴ８）。

また、母音区間や子音区間でもない無音区間が検出された場合は、目的音声を０として雑音除去処理を行わないようにする。

そして、このように現時刻近傍の伝達特性を考慮した既知雑音を除去することによって目的音声を抽出し、この目的音声を既存の音声認識ソフトなどを用いて認識処理する。

このように、上記実施の形態によれば、マイク２で受音した信号から既知雑音を除去する場合に、母音区間については、あらかじめ受音点信号から目的音声を差し引いて受音点雑音を推定し、この受音点雑音のスペクトルと直近の伝達特性に現時点での既知雑音を畳み込んだスペクトルとの差が最小となるように伝達特性を適応化させ、この適応化させた伝達特性を現時点での伝達特性として既知雑音を除去する。また、子音区間については、直近の時刻で推定された伝達特性を用いて既知雑音を除去するようにしたので、時間的に変化する伝達特性を用いて精度よく雑音を除去することができるようになる。

以下、本提案手法を用いた評価結果について説明する。テレビを音声により操作することを想定して、それを模擬する状況で本方式の評価を行った。評価において、テレビ３とマイク２までの距離を１００ｃｍ、マイク２と話者との間を５０ｃｍとしている。

評価には、ライン入力で認識率が１００％の音声データを用い、それらを図１に示す状況においてスピーカから流した。テレビ３からの雑音としては、複数の人の声およびバックに音楽が含まれている音声を用いた。Ｓ／Ｎは０，６，１２，１８ｄＢの４種類とする。被験者（認識対象の発話者）は男性３名、女性１名であり、５０個のテレビ操作コマンドを発生した。発話内容は「テレビ朝日」「笑っていいとも」「テレビ、オフ」や「音量を大きくして」などである。音声認識のデコーダには"Julian"を用いている。

被験者４名の音声認識率の平均値を図７に示す。図７は受音信号そのままの場合、スペクトル減算のみを行った場合、および本提案手法による場合の３種類を比較している。図６より、スペクトル減算法のみを用いた場合でも音声認識率は改善しているが、本提案手法を用いることによりさらに音声認識率が改善していることがわかる。

本実施の形態における既知雑音除去装置の使用例を示す図同形態における既知雑音除去装置の機能ブロック図母音と子音の波形構造を示す図同形態における母音区間と子音区間を判別する方法を示す図同形態における初期状態の伝達特性を算出するフローチャート同形態における既知雑音を除去する処理を示すフローチャート本実施例の評価結果を示す図

符号の説明

１・・・既知雑音除去装置
２・・・マイク
３・・・雑音源（テレビ）
４０・・・雑音信号取得手段
４１・・・周波数解析手段
４２・・・音声区間検出手段
４３・・・初期伝達特性算出手段
４４・・・雑音信号推定手段
４５・・・伝達特性推定手段
４６・・・第一の雑音除去手段
４７・・・第二の雑音除去手段
４８・・・音声認識手段

Claims

マイクで受音した信号から既知雑音を除去する既知雑音除去装置において、
前記マイクで既知雑音を取得した時刻における音波の伝達特性を推定する伝達特性推定手段と、
マイクで受音した信号のスペクトルから、前記時刻において推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去する雑音除去手段を備えたことを特徴とする既知雑音除去装置。
前記伝達特性推定手段が、直近の時刻における伝達特性を適応化することによって前記既知雑音を取得した時刻の伝達特性を推定するものである請求項１に記載の既知雑音除去装置。
マイクで受音した信号から既知雑音を除去する既知雑音除去装置において、
既知雑音以外の音が出力されていない状態で雑音源からマイクまでの初期状態の伝達特性を算出する初期伝達特性算出手段と、
マイクで受音した信号から音声区間を検出する音声区間検出手段と、
前記音声区間検出手段によって母音区間が検出された場合に、マイクで受音した信号から推定された目的音声の信号を減算し、マイクで受音した雑音信号を推定する雑音信号推定手段と、
前記初期伝達特性算出手段によって算出された初期状態の伝達特性、あるいは、すでに推定された直近の時刻の伝達特性を畳み込んだ既知雑音のスペクトルと、前記雑音信号推定手段によって推定された雑音信号のスペクトルとの差が最小となるように伝達特性を推定する伝達特性推定手段と、
前記マイクで受音した信号のスペクトルから前記推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去する第一の雑音除去手段を備えたことを特徴とする既知雑音除去装置。
前記音声区間検出手段によって子音区間が検出された場合、直近に推定された伝達特性を畳み込んだ既知雑音のスペクトルを前記マイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する第二の雑音除去手段を備えた請求項３に記載の既知雑音除去装置。
前記音声区間検出手段によって無音区間が検出された場合に、雑音除去処理を行わないようにした請求項２から４いずれか１項に記載の既知雑音除去装置。