JP2007093635A - 既知雑音除去装置 - Google Patents
既知雑音除去装置 Download PDFInfo
- Publication number
- JP2007093635A JP2007093635A JP2005278857A JP2005278857A JP2007093635A JP 2007093635 A JP2007093635 A JP 2007093635A JP 2005278857 A JP2005278857 A JP 2005278857A JP 2005278857 A JP2005278857 A JP 2005278857A JP 2007093635 A JP2007093635 A JP 2007093635A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- transfer characteristic
- known noise
- microphone
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】雑音源とマイクとの間における伝達特性が時間的に変化した場合であっても、マイクで受音した信号から既知雑音を精度よく除去することのできるような既知雑音除去方法を提供することを目的とする。
【解決手段】マイクで受音した信号から母音や子音、無音などの音声区間を検出し、母音区間が検出された場合、受音点信号から目的音声を差し引くことによって受音点雑音を推定し、この受音点雑音のスペクトルと、初期状態の伝達特性、あるいは、すでに推定された前の時刻の伝達特性を畳み込んだ既知雑音のスペクトルとの差が最小となるように伝達特性を適応化する。そして、その適応化された伝達特性を畳み込んだ既知雑音のスペクトルをマイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する。また、子音区間については、直近に推定した伝達特性を用いて既知雑音を除去する。
【選択図】図5
【解決手段】マイクで受音した信号から母音や子音、無音などの音声区間を検出し、母音区間が検出された場合、受音点信号から目的音声を差し引くことによって受音点雑音を推定し、この受音点雑音のスペクトルと、初期状態の伝達特性、あるいは、すでに推定された前の時刻の伝達特性を畳み込んだ既知雑音のスペクトルとの差が最小となるように伝達特性を適応化する。そして、その適応化された伝達特性を畳み込んだ既知雑音のスペクトルをマイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する。また、子音区間については、直近に推定した伝達特性を用いて既知雑音を除去する。
【選択図】図5
Description
本発明は、既知雑音が存在している状態において認識対象となる目的音声のみを抽出することのできる既知雑音除去装置に関するものである。
既知雑音を除去する方法としては、スペクトル減算法(非特許文献1)などが一般的に知られている。このスペクトル減算法を用いた既知雑音の除去方法のうち、音声の伝達特性を考慮した既知雑音の除去方法について説明する。
例えば、テレビから既知雑音が出力されている状態において人間が発した目的音声を抽出する場合について説明する。まず、既知雑音を除去する前に、あらかじめテレビからマイクまでの音の伝達特性を調べておく。ここで「伝達特性」とは、音源からマイクまでの間の音の伝搬経路に関する特性をいい、例えば、その経路中に障害物や反射物が置かれている場合は、その障害物や反射物などによって変化するものである。この伝達特性は、時間領域で表現されるインパルス応答をフーリエ変換して得られるものであり、あらかじめ伝達特性を調べておく場合は、まず、雑音源から信号を出力し、これをマイクで受信することによって行われる。このマイクで受音した信号のスペクトルは、雑音源信号に伝達特性を畳み込んだスペクトルと一致するため、次式のように表される。
そして、<数1>の下式を雑音源信号をフーリエ変換した値で割ってからフーリエ逆変換することによって、伝達特性を下式のように得ることができる。
このようにして伝達特性が得られれば、この伝達特性を既知雑音に畳み込み、そのスペクトルをマイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去することができる。
特開2004−012884号公報
S.F.BOLL: "Suppression of Acoustic Noise in Speech Using Spectral Subtraction, " IEEE Transaction on Acoustics, Speech and Signal Processing, Vol.27, No.2, pp.113-120, 1978
ところが、このような方法で既知雑音を除去する方法においては、次のような問題が存在する。すなわち、雑音源とマイクとの間の伝達特性は固定的なものではなく、時間的に変化するものである。例えば、雑音源とマイクとの間にコップなどの障害物が置かれた場合や、当該音場を人間が通行する場合、あるいは、雑音源とマイクとの間の側方に反射物が置かれたような場合には、音の伝達特性は変化する。このため、最初に算出された伝達特性のみを用いて雑音を除去していっても、既知雑音を精度よく除去することができないといった問題があった。
そこで、本発明は、上記課題に着目してなされたもので、雑音源とマイクとの間の伝達特性が時間的に変化した場合であっても、マイクで受音した信号から既知雑音を精度よく除去することのできる既知雑音除去装置を提供することを目的とするものである。
すなわち、本発明は上記課題を解決するために、マイクで受音した信号から既知雑音を除去する既知雑音除去装置において、マイクで既知雑音を取得した時刻における音波の伝達特性を推定する伝達特性推定手段と、そのマイクで受音した信号のスペクトルから、前記時刻において推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去する雑音除去手段とを備えるようにしたものである。
そして、このような発明において、伝達特性を推定する場合、直近の時刻で推定された伝達特性を適応化することによって現時刻の伝達特性を推定する。
本来、マイクで受音された信号のスペクトルは、その時刻における伝達特性に既知雑音を畳み込んだスペクトルと一致するものである。このため、直近の時刻の伝達特性に既知雑音を畳み込んだスペクトルとマイクから受音された雑音信号のスペクトルとの差が最小となるように直近の時刻の伝達特性を適応化させれば、現時刻における伝達特性を推定することができる。そして、このように推定された伝達特性を用いることにより、現時刻における伝達特性を考慮した既知雑音を除去することができる。
また、このような発明において、既知雑音以外から音が出力されていない状態で雑音源からマイクまでの初期状態の伝達特性を算出し、また、マイクで受音した信号から母音や子音、無音などの音声区間を検出する。そして、ここで母音区間が検出された場合には、マイクで受音した信号から推定された母音の調波構造を減算し、マイクで受音した雑音信号を推定する。そして、初期状態の伝達特性、あるいは、すでに推定された直近の時刻の伝達特性を畳み込んだ既知雑音のスペクトルと前記推定された雑音信号のスペクトルとの差が最小となるように伝達特性を推定する。そして、マイクで受音した信号のスペクトルから前記推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去していく。
通常、母音は調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在する。従って、母音区間においては、その母音の成分周波数を取り除いた成分がマイクで受音した雑音信号であると見なすことができる。そこで、母音区間については、受音信号中の認識対象音声の調波構造以外の部分を雑音と見なし、受音信号から雑音と見なせる部分を差し引いて、この推定雑音のスペクトルと一致するように既知雑音を畳み込んだ伝達特性を適応化すれば、現時刻における伝達特性を推定することができる。
また、音声区間が子音区間である場合は、直近に推定された伝達特性に既知雑音を畳み込み、このスペクトルを前記マイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する。
子音区間においては、母音区間と異なって調波構造を有していないため、母音区間と同じ処理を行うことができない。しかしながら、一般的には、短い時間に伝達特性は大きく変化していないと考えられるため、直近に推定された伝達特性を用いて既知雑音を除去すれば、同様に精度よく既知雑音を除去することができるようになる。
また、音声区間が無音区間である場合は、雑音除去の処理を行わないようにする。
このようにすれば、雑音除去後に音声認識を行う場合に、無音区間においても雑音を除去して音声を認識するといった処理の無駄を防止することができる。
本発明によれば、既知雑音を除去する時刻における伝達特性を推定して既知雑音を除去するようにしたので、精度よく既知雑音を除去することができ、音声認識率を向上させることなどができるようになる。
以下、本発明の一実施の形態について図面を参照して詳細に説明する。図1は、本実施の形態における既知雑音除去装置1の使用例を図示したものであり、図2は、その既知雑音除去装置1の機能ブロック図を示したものである。
まず、本実施の形態における雑音除去処理の概要について説明すると、マイク2は、テレビ3や話者の近傍位置に設置され、テレビ3からの音声(既知雑音)や話者からの目的音声を取得する。この話者の音声としては、例えば、「音量を大きくして」などのようにテレビ3を制御するための音声とする。マイク2によって受音された音声は、テレビ3から出力された既知雑音や話者の目的音声が混合したものである。この混合した音から既知雑音を除去する場合は、まず最初に、テレビ3からマイク2までにおける音の伝達特性を調べておく。初期状態の伝達特性を調べる場合は、テレビ3から以外の音が存在していない状況において、テレビ3から信号を出力する。この信号は、途中、伝達特性によって変化した状態でマイク2に受信される。このマイク2で受信された信号は、原信号に伝達経路のインパルス応答を畳み込んだものであるため、上述の<数1>の関係を有する。そして、その受信された信号を<数2>のように変形することによって、初期状態の伝達特性を得ることができる。
そして、このように初期状態の伝達特性を得た後、話者からの音声の入力を受け付け、その音声のみを抽出できるようにする。既知雑音を存在している状態において既知雑音を除去する場合は、まず、マイク2で受音した信号を母音的な区間、子音的な区間(それぞれ、以後、母音区間、子音区間と略する)、無音区間に分け、それぞれの区間に応じた雑音の除去処理を行う。
既知雑音を除去する場合、まず、母音区間については、マイク2で受音した信号から母音の調波構造を除去し、その区間におけるマイク2で受音された雑音を推定する。一般的に、母音は図3(a)に示すように、基本周波数の整数倍の所に周波数成分が現れる特性を有しているため、その母音の周波数成分を除去することができる。このマイク2で受音された雑音は、その時刻における既知雑音にその時刻の伝達特性を畳み込んだものであるが、一般的には、直近の時刻に推定した伝達特性と大きく変化しないと考えられる。そこで、初期状態の伝達特性、あるいは、直近の時刻に推定した伝達特性を用いてこれを適応化する。この適応化は、マイク2で受音された雑音のスペクトルとその既知雑音に伝達特性を畳み込んだスペクトルとの差が最小となるように行う。そして、このように最適化された伝達特性をその時刻における伝達特性と推定してその時刻における既知雑音に畳み込み、マイク2で受音された信号から既知雑音を除去していく。
一方、子音区間については、図3(b)に示すように、母音区間のように調波構造を持たないため、マイク2で受音した信号から子音の周波数成分のみを除去することができない。このため、直近の時刻で推定された伝達特性を用いて従来のスペクトラム減算法によって既知雑音を除去していく。
また、無音区間については、既知雑音を除去する必要がないため、雑音除去処理を行うことなく無処理とする。そして、このように雑音が除去されたスペクトルを音声認識装置に入力することによって音声認識率を向上させるようにする。
次に、この既知雑音除去装置1を備えたシステムの機能ブロックについて説明する。
マイク2は、テレビ3からの雑音や人間の音声などを集音するもので、雑音源3と話者との間に設けられる。好ましくは、話者に近い側に設けられるが、このマイク2の個数は1個であってもよく、あるいは、複数個であってもよい。
雑音源3は、認識対象となる目的音声以外の音を出力するものであって、その出力される雑音信号を直接取得することのできるものである。本実施の形態では、テレビ3を既知雑音源の例としている。このテレビ3の音声出力端子から既知雑音除去装置1の音声入力端子にラインが接続され、既知雑音の信号を取得する。なお、本実施の形態では、雑音源としてテレビ3を例に挙げて説明するが、これに限らず、ラジオやCDコンポなどのように、出力する音を出力端でシステムが知ることのできる装置であれば、それを既知雑音源とみなすことができる。
既知雑音除去装置1は、テレビ3やマイク2などに接続されるコンピュータであって、以下の機能を有する。
雑音信号取得手段40は、テレビ3から出力されてきた雑音信号をラインによって取得する。
周波数解析手段41は、マイク2で受音した信号や雑音信号取得手段40によって取得された雑音信号の周波数を解析する。この周波数の解析を行うに際しては、処理フレームをシフトさせながらマイク2で受音した信号を解析する。
音声区間検出手段42は、マイク2で受音された信号から母音的な区間、子音的な区間、無音区間の種別を検出する。具体的には、摩擦音などのように高周波数領域に強いスペクトルを持つ区間と、高周波数領域に大きな成分を持たない母音区間と、無音区間とに分類し、区間毎に目的音声の抽出方法を切り替える。区間毎の音声種別を判定する場合、まず、時間領域で表された処理フレームの信号をフーリエ変換し、一定間隔毎に突出する周波数成分が存在する(調波構造をとる)場合は「母音区間」であると判定する。また、スペクトルが調波構造を採らない場合「子音区間」であると判定し、一定時間以上にわたってパワーが小さい場合は「無音区間」であると判定する。通常、処理フレーム内の信号が母音的な音である場合、図4に示すように、ケプストラム(dB表示の周波数スペクトラムのフーリエ逆変換)をとれば、調波構造の櫛形の周波数成分の間隔に応じた所に一本の突出した成分が現れる。この突出した成分の相対的な高さ(δ)によって母音区間であるかどうかを判定することができる。すなわち、この成分が相対的に周囲の成分よりも高い場合は、母音区間であると判定し、また、周囲の成分との高さの差が余りない場合は、子音区間であると判定する。
初期伝達特性算出手段43は、テレビ3以外の音声が何も存在していない状況においてテレビ3からマイク2までの初期状態の伝達特性を算出する。この初期状態の伝達特性は、テレビ3から既知の信号を出力し、これをマイク2で受信して受音信号のスペクトルを原信号のスペクトルで周波数ごとに割り、それをフーリエ逆変換することによって得られる。
雑音信号推定手段44は、音声区間検出手段42によって母音区間であることが検出された場合に、マイク2で受音した信号から母音の信号を除去する。一般に、母音は、図3(a)に示すような調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在する。従って、母音区間においては、その母音の調波構造を取り除くことによってマイクで受音した雑音信号を推定することができる。
伝達特性推定手段45は、音声区間検出手段42によって母音区間であることが検出された場合に、初期状態の伝達特性、あるいは、この伝達特性推定手段45によってすでに直近の時刻で推定された伝達特性を用いて現時刻の伝達特性を推定する。本来、マイク2で受音した雑音信号のスペクトルは、その時刻における既知雑音とその時刻の伝達特性を畳み込んだスペクトルと一致するものであるため、その時刻における既知雑音に直近の時刻の伝達特性を畳み込んだスペクトルを算出し、そのスペクトルの値と前記雑音信号推定手段44によって推定された雑音信号のスペクトルとの差が最小となるように直近の伝達特性を適応化していく。そして、これを現時刻における伝達特性とする。
第一の雑音除去手段46は、このように推定された現在の時刻の伝達特性を用いてその時刻における既知雑音を畳み込み、これをマイク2で受音した信号、すなわち、既知雑音と目的音声の信号のスペクトルから差し引くことによって既知雑音を除去する。
一方、第二の雑音除去手段47は、音声区間検出手段42によって子音区間(摩擦音区間)であると検出された場合の雑音除去処理を行う。子音区間が検出された場合、最初に既知の信号を用いて算出された伝達特性や、あるいは、すでに母音区間が存在している場合は、直近の母音区間で推定された伝達特性を用いて既知雑音を除去する。この既知雑音の除去は、スペクトル減算法と同様に、マイク2で受音した信号のスペクトルからこの伝達特性を用いて畳み込んだ既知雑音のスペクトルを差し引くことによって行われる。
音声認識手段48は、このように既知雑音が除去された信号に基づいて目的音声を認識する。音声認識は周波数スペクトル情報を入力として行われ、例えば、"Julian"などを用いる。この実施の形態では、この音声認識の結果、テレビ3のチャンネルや音量などを制御できるようにしている。なお、音声認識は、スペクトル信号によって認識する場合に限らず、時間領域の信号によって認識するようにしてもよい。
次に、この既知雑音除去装置1における処理の内容を具体的な数式を用いて説明する。
まず、マイク2で受音された既知雑音と目的音声の信号の処理フレーム長をNとし、その標本値(k 〜 k+N-1)の信号に基づいて目的音声の基本周波数を推定する。雑音を含んだ受音信号から基本周波数を推定するのでは充分な精度を得ることができないため、まず、受音信号から事前に推定した伝達特性、あるいは、初期状態の伝達特性を既知雑音に畳み込んで得られた推定既知雑音を算出しておく。そして、マイク2で受音した信号からこの推定既知雑音をスペクトル上で差し引いておき、その結果に対してケプストラム法などを用いて基本周波数の推定を行う。ただし、残留雑音により非音声区間に対しても強制的に推定された偽の基本周波数を取り除くために音声・非音声の判定を行う。そして、推定した基本周波数に基づいてマイク2で受音された信号に含まれる目的音声を推定する。しかし、音声区間は母音のように調波構造を有する区間と、子音のように調波構造を持たない区間が存在する。そのため、音声区間を摩擦音のように高周波領域に強いスペクトルを持つ区間と、高周波領域に大きな成分を持たない母音の区間に分類し、区間毎に目的音声の推定方法を切り替える。
(1)母音の周波数スペクトル成分の存在場所の推定
母音は調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在すると考えられる。従って、その成分周波数が存在しないはずの周波数の成分は、雑音成分とみなせる。そこで、母音区間については、受音信号中の認識対象音声の調波構造以外の部分を雑音とみなし、受音信号から雑音と見なせる部分を差し引くと、認識対象音声を抽出することができると考える。そのため、母音区間での周波数成分の存在場所を基本周波数の整数倍の周波数としておく。時間領域で表現するなら、目的音声を次式の調波構造と推定することになる。ここでは、標本番号k番目の標本値列をスカラー量として表記している。これは、始点を0としてt = kT (k:整数、T:標本間隔)としたときの調波合成音のk番目の標本値を表す。
母音は調波構造を有しているため、基本周波数の整数倍の周波数の所に音声の成分が存在すると考えられる。従って、その成分周波数が存在しないはずの周波数の成分は、雑音成分とみなせる。そこで、母音区間については、受音信号中の認識対象音声の調波構造以外の部分を雑音とみなし、受音信号から雑音と見なせる部分を差し引くと、認識対象音声を抽出することができると考える。そのため、母音区間での周波数成分の存在場所を基本周波数の整数倍の周波数としておく。時間領域で表現するなら、目的音声を次式の調波構造と推定することになる。ここでは、標本番号k番目の標本値列をスカラー量として表記している。これは、始点を0としてt = kT (k:整数、T:標本間隔)としたときの調波合成音のk番目の標本値を表す。
現在、減算は振幅のパワースペクトル上で行っており、この場合、位相φmは計算に影響しないので、ここでは0としている。また、振幅は、<数3>の形として想定した信号の振幅が最大であってもたかだか当該フレームの最大振幅にしかならないと考え、最大振幅を帯域内での高周波の数で割り、各周波数に対して一定の値と想定している。
(2)摩擦音区間(子音区間)での目的音声の推定
摩擦音区間は、調波構造を有していないため、<数3>のように仮定することができない。そのため、<数4>を用いて受音信号から雑音信号を減算(対数周波数スペクトルでは減算であるが、実際は割り算)することで摩擦音区間の音声信号を推定できると仮定している。
摩擦音区間は、調波構造を有していないため、<数3>のように仮定することができない。そのため、<数4>を用いて受音信号から雑音信号を減算(対数周波数スペクトルでは減算であるが、実際は割り算)することで摩擦音区間の音声信号を推定できると仮定している。
(3)母音、摩擦音以外の区間での目的音声の推定
最後に、母音・摩擦音以外の区間は無音区間と考え、その区間の目的音声の推定値を次式のようにする。
最後に、母音・摩擦音以外の区間は無音区間と考え、その区間の目的音声の推定値を次式のようにする。
このように(1)〜(3)によって推定した目的音声は、本来の目的音声の近似になっていると考えることができるので、
として、時刻tでの受音点雑音の近似値が下式のように得られる。
(4)伝達特性の適応処理
<数6>によって求めたある時点kから始まる処理フレームでの受音点雑音nr(t)の推定値を用いて、事前にあるいは少し前に推定した伝達特性から現処理フレームにおける伝達特性を適応的に求める。n'r(t)kは、n(t)kとhnr(t)kの畳み込みと考えられるので、第k標本点での推定誤差ε(k)は、スカラーで表して、
<数6>によって求めたある時点kから始まる処理フレームでの受音点雑音nr(t)の推定値を用いて、事前にあるいは少し前に推定した伝達特性から現処理フレームにおける伝達特性を適応的に求める。n'r(t)kは、n(t)kとhnr(t)kの畳み込みと考えられるので、第k標本点での推定誤差ε(k)は、スカラーで表して、
の2乗和が最小になるように、
の適応化を行う。ただし、適応処理の初期ベクトルには事前に、あるいは、少し前に推定した伝達特性を用いる。つまり、
となるように適応処理を施す伝達特性を
として更新する。ただし、pは反復IDを表す。つまり、適応処理を施した伝達特性と雑音源信号n(t)kとを畳み込んで、受音点雑音nr(t)kの周波数スペクトルを推定し、スペクトル上での減算を行う。適応処理を施した伝達特性は、次の処理フレームでの適応処理の初期値となる。
次に、この既知雑音除去の処理のフローチャートについて図4および図5を用いて説明する。
既知雑音を除去するための前処理について図5に説明すると、まず、テレビ3の音声以外に音声が存在していない状況において、テレビ3から既知の信号を出力し(ステップS1)、これをマイク2で受信する(ステップS2)。このマイク2で受信された信号は、既知の信号に伝達特性を畳み込んだものであるため、これをフーリエ逆変換することによって初期状態の伝達特性を得ることができる(ステップS3)。
次に、既知雑音が存在している状況下において既知雑音を除去するフローチャートについて図6を用いて説明する。
話者の音声と既知雑音が混在している状況で既知雑音を除去する場合、まず、前の処理によって求めた初期状態の伝達特性を用いて既知雑音を畳み込むか、あるいは、すでに推定された伝達特性を用いてその時刻の既知雑音を畳み込むことによって現時刻における受音点雑音を推定する(ステップT1)。この推定雑音は、直近の時刻における伝達特性を用いているが、基本的に伝達特性は大きく変化しているとは考えられないため、ほぼ現時点における受音点雑音と近似することができる。そして、マイク2で受音した信号からこの受音点雑音をスペクトル上で減算しておき(ステップT2)、目的音声の基本周波数を抽出しやすい状態とする。そして、この近似された受音点雑音を除去した後のスペクトルに基づいて目的音声の基本周波数を抽出し(ステップT3)、音声区間の種別を判定する(ステップT4)。そして、抽出された基本周波数の整数倍の所に周波数成分が大きく存在している場合は、その区間を母音区間と判定して、基本周波数の整数倍の所に存在する周波数成分をスペクトル上で受音点信号から減算する(ステップT5)。次に、この減算によって推定された現時刻の受音点雑音のスペクトルと直近の伝達特性に既知雑音を畳み込んだスペクトルとの差が最小となるように伝達特性を適応化し(ステップT6)、その適応化された伝達特性を基に現時刻における既知雑音を畳み込んで、これを受音点信号からスペクトル上で減算することによって、母音区間における既知雑音を除去する(ステップT7)。
一方、基本周波数の整数倍上に周波数成分が存在しないことなどにより子音区間(摩擦音区間)であることが判定された場合は、直近に推定された伝達特性と既知雑音を畳み込み、これを受音点信号からスペクトル上で減算することによって、子音区間における既知雑音を除去する(ステップT8)。
また、母音区間や子音区間でもない無音区間が検出された場合は、目的音声を0として雑音除去処理を行わないようにする。
そして、このように現時刻近傍の伝達特性を考慮した既知雑音を除去することによって目的音声を抽出し、この目的音声を既存の音声認識ソフトなどを用いて認識処理する。
このように、上記実施の形態によれば、マイク2で受音した信号から既知雑音を除去する場合に、母音区間については、あらかじめ受音点信号から目的音声を差し引いて受音点雑音を推定し、この受音点雑音のスペクトルと直近の伝達特性に現時点での既知雑音を畳み込んだスペクトルとの差が最小となるように伝達特性を適応化させ、この適応化させた伝達特性を現時点での伝達特性として既知雑音を除去する。また、子音区間については、直近の時刻で推定された伝達特性を用いて既知雑音を除去するようにしたので、時間的に変化する伝達特性を用いて精度よく雑音を除去することができるようになる。
以下、本提案手法を用いた評価結果について説明する。テレビを音声により操作することを想定して、それを模擬する状況で本方式の評価を行った。評価において、テレビ3とマイク2までの距離を100cm、マイク2と話者との間を50cmとしている。
評価には、ライン入力で認識率が100%の音声データを用い、それらを図1に示す状況においてスピーカから流した。テレビ3からの雑音としては、複数の人の声およびバックに音楽が含まれている音声を用いた。S/Nは0,6,12,18dBの4種類とする。被験者(認識対象の発話者)は男性3名、女性1名であり、50個のテレビ操作コマンドを発生した。発話内容は「テレビ朝日」「笑っていいとも」「テレビ、オフ」や「音量を大きくして」などである。音声認識のデコーダには"Julian"を用いている。
被験者4名の音声認識率の平均値を図7に示す。図7は受音信号そのままの場合、スペクトル減算のみを行った場合、および本提案手法による場合の3種類を比較している。図6より、スペクトル減算法のみを用いた場合でも音声認識率は改善しているが、本提案手法を用いることによりさらに音声認識率が改善していることがわかる。
1・・・既知雑音除去装置
2・・・マイク
3・・・雑音源(テレビ)
40・・・雑音信号取得手段
41・・・周波数解析手段
42・・・音声区間検出手段
43・・・初期伝達特性算出手段
44・・・雑音信号推定手段
45・・・伝達特性推定手段
46・・・第一の雑音除去手段
47・・・第二の雑音除去手段
48・・・音声認識手段
2・・・マイク
3・・・雑音源(テレビ)
40・・・雑音信号取得手段
41・・・周波数解析手段
42・・・音声区間検出手段
43・・・初期伝達特性算出手段
44・・・雑音信号推定手段
45・・・伝達特性推定手段
46・・・第一の雑音除去手段
47・・・第二の雑音除去手段
48・・・音声認識手段
Claims (5)
- マイクで受音した信号から既知雑音を除去する既知雑音除去装置において、
前記マイクで既知雑音を取得した時刻における音波の伝達特性を推定する伝達特性推定手段と、
マイクで受音した信号のスペクトルから、前記時刻において推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去する雑音除去手段を備えたことを特徴とする既知雑音除去装置。 - 前記伝達特性推定手段が、直近の時刻における伝達特性を適応化することによって前記既知雑音を取得した時刻の伝達特性を推定するものである請求項1に記載の既知雑音除去装置。
- マイクで受音した信号から既知雑音を除去する既知雑音除去装置において、
既知雑音以外の音が出力されていない状態で雑音源からマイクまでの初期状態の伝達特性を算出する初期伝達特性算出手段と、
マイクで受音した信号から音声区間を検出する音声区間検出手段と、
前記音声区間検出手段によって母音区間が検出された場合に、マイクで受音した信号から推定された目的音声の信号を減算し、マイクで受音した雑音信号を推定する雑音信号推定手段と、
前記初期伝達特性算出手段によって算出された初期状態の伝達特性、あるいは、すでに推定された直近の時刻の伝達特性を畳み込んだ既知雑音のスペクトルと、前記雑音信号推定手段によって推定された雑音信号のスペクトルとの差が最小となるように伝達特性を推定する伝達特性推定手段と、
前記マイクで受音した信号のスペクトルから前記推定された伝達特性を畳み込んだ既知雑音のスペクトルを差し引くことによって既知雑音を除去する第一の雑音除去手段を備えたことを特徴とする既知雑音除去装置。 - 前記音声区間検出手段によって子音区間が検出された場合、直近に推定された伝達特性を畳み込んだ既知雑音のスペクトルを前記マイクで受音した信号のスペクトルから差し引くことによって既知雑音を除去する第二の雑音除去手段を備えた請求項3に記載の既知雑音除去装置。
- 前記音声区間検出手段によって無音区間が検出された場合に、雑音除去処理を行わないようにした請求項2から4いずれか1項に記載の既知雑音除去装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005278857A JP2007093635A (ja) | 2005-09-26 | 2005-09-26 | 既知雑音除去装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005278857A JP2007093635A (ja) | 2005-09-26 | 2005-09-26 | 既知雑音除去装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007093635A true JP2007093635A (ja) | 2007-04-12 |
Family
ID=37979500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005278857A Pending JP2007093635A (ja) | 2005-09-26 | 2005-09-26 | 既知雑音除去装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007093635A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013168856A (ja) * | 2012-02-16 | 2013-08-29 | Jvc Kenwood Corp | ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム |
JP2013168857A (ja) * | 2012-02-16 | 2013-08-29 | Jvc Kenwood Corp | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
JP2013172257A (ja) * | 2012-02-20 | 2013-09-02 | Jvc Kenwood Corp | 音声入力装置、通信装置、状態通知方法 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
WO2019235134A1 (ja) * | 2018-06-07 | 2019-12-12 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
-
2005
- 2005-09-26 JP JP2005278857A patent/JP2007093635A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013168856A (ja) * | 2012-02-16 | 2013-08-29 | Jvc Kenwood Corp | ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム |
JP2013168857A (ja) * | 2012-02-16 | 2013-08-29 | Jvc Kenwood Corp | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
JP2013172257A (ja) * | 2012-02-20 | 2013-09-02 | Jvc Kenwood Corp | 音声入力装置、通信装置、状態通知方法 |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
WO2019235134A1 (ja) * | 2018-06-07 | 2019-12-12 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Graf et al. | Features for voice activity detection: a comparative analysis | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
EP2546831B1 (en) | Noise suppression device | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
JP3423906B2 (ja) | 音声の動作特性検出装置および検出方法 | |
EP2151822A1 (en) | Apparatus and method for processing and audio signal for speech enhancement using a feature extraction | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
JP2011203700A (ja) | 音声判別装置 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
US10176824B2 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
US20190139567A1 (en) | Voice Activity Detection Feature Based on Modulation-Phase Differences | |
US20190172477A1 (en) | Systems and methods for removing reverberation from audio signals | |
JP2007093635A (ja) | 既知雑音除去装置 | |
US20120265526A1 (en) | Apparatus and method for voice activity detection | |
JPH08160994A (ja) | 雑音抑圧装置 | |
KR20090098891A (ko) | 강인한 언어 활동 검출 방법 및 장치 | |
JP3270866B2 (ja) | 雑音除去方法および雑音除去装置 | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
JP2002258899A (ja) | 雑音抑圧方法および雑音抑圧装置 | |
JP3106543B2 (ja) | 音声信号処理装置 | |
CN111226278B (zh) | 低复杂度的浊音语音检测和基音估计 | |
JP7144078B2 (ja) | 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム |