JP4434813B2 - 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 - Google Patents

雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 Download PDF

Info

Publication number
JP4434813B2
JP4434813B2 JP2004100935A JP2004100935A JP4434813B2 JP 4434813 B2 JP4434813 B2 JP 4434813B2 JP 2004100935 A JP2004100935 A JP 2004100935A JP 2004100935 A JP2004100935 A JP 2004100935A JP 4434813 B2 JP4434813 B2 JP 4434813B2
Authority
JP
Japan
Prior art keywords
noise
spectrum
signal
observed signal
amplitude spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004100935A
Other languages
English (en)
Other versions
JP2005284163A (ja
Inventor
道子 風間
三樹夫 東山
徹 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Yamaha Corp
Original Assignee
Waseda University
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Yamaha Corp filed Critical Waseda University
Priority to JP2004100935A priority Critical patent/JP4434813B2/ja
Priority to US11/093,672 priority patent/US7596495B2/en
Priority to GB0506434A priority patent/GB2413469B/en
Priority to CA2502980A priority patent/CA2502980C/en
Publication of JP2005284163A publication Critical patent/JP2005284163A/ja
Application granted granted Critical
Publication of JP4434813B2 publication Critical patent/JP4434813B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/10Means associated with receiver for limiting or suppressing noise or interference

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

この発明は、雑音が混入した音声信号から、該雑音のスペクトルを推定する方法に関する。また、この発明は、該推定に基づき該雑音を抑圧した音声信号を生成する方法および装置に関する。
雑音が混入した音声信号から該雑音のスペクトルを推定する技術は、例えば音声認識技術、電話等による音声通信技術等において、雑音を抑圧する(雑音の混入した音声信号から雑音を除去し、目的とする音声信号を取り出す)のに利用される。音声信号に含まれる雑音を抑圧する技術としては、例えばスペクトルサブトラクション法がある。スペクトルサブトラクション法は、雑音が混入した音声信号から該雑音のスペクトルを推定し、雑音が混入した音声信号のスペクトルから、推定された雑音のスペクトルを差し引くことにより、雑音を抑圧するものである。
スペクトルサブトラクション技術を開示した従来技術として、下記特許文献に記載されたものがある。
特開平11−3094号公報 特開2002−14694号公報 特開2003−223186号公報
この発明は、雑音が混入した音声信号から、該雑音のスペクトルを推定する新規な方法を提供しようとするものである。また、この発明は、該推定に基づき該雑音を抑圧した音声信号を生成する方法および装置を提供しようとするものである。
この発明の雑音スペクトル推定方法は、雑音が混入した音声信号から、該雑音のスペクトルを推定する方法であって、現在観測されている信号区間の観測信号のスペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音のスペクトルの包絡線との相関を求め、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号のスペクトルと、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルとを混合し、該混合したスペクトルを前記現在観測されている信号区間の観測信号について雑音のスペクトルとして推定するものである。
この発明の雑音スペクトル推定方法は、前記相関が高いときは該相関が低いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に高くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に低くし、前記相関が低いときは該相関が高いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に低くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に高くすることができる。
この発明の雑音スペクトル推定方法は、前記相関が高くなるにつれて、該相関の変化に対する、前記現在観測されている信号区間の観測信号のスペクトルの混合比率の変化を大きくすることができる。
この発明の雑音スペクトル推定方法は、前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルが

N(k)=[1−{ρ/(1+ρ)}]・N(k)+{ρ/(1+ρ)}・X(k)
但し、N(k):現在観測されている信号区間の観測信号について推定される
雑音のスペクトル
(k):前回観測された信号区間の観測信号について推定された雑音
のスペクトル
X(k):現在観測されている信号区間の観測信号のスペクトル
ρ:現在観測されている信号区間の観測信号のスペクトルの包絡線と前回
観測された信号区間の観測信号について推定された雑音のスペクトル
の包絡線との相関値
l,m:定数(lは1以上の値、mは0以上の値)

として求められる値とすることができる。
この発明の雑音スペクトル推定方法は、前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音のスペクトルとすることができる。
この発明の雑音スペクトル推定方法は、前記スペクトルの包絡線が振幅スペクトルの包絡線であるものとすることができる。
この発明の雑音スペクトル抑圧方法は、雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する方法であって、現在観測されている信号区間の観測信号をフーリエ変換して振幅スペクトルと位相スペクトルを求め、該求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関を求め、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定し、前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算し、該減算により得られる振幅スペクトルと前記求められた位相スペクトルとを再合成して逆フーリエ変換し、該逆フーリエ変換で得られる信号を前記雑音を抑圧した音声信号として出力し、前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとするものである。
この発明の雑音抑圧装置は、雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する装置であって、現在観測されている信号区間の観測信号をフーリエ変換するフーリエ変換手段と、該フーリエ変換されたデータから振幅スペクトルを求める振幅スペクトル演算手段と、該フーリエ変換されたデータから位相スペクトルを求める位相スペクトル演算手段と、前記求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関を求める相関演算手段と、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定する雑音振幅スペクトル演算手段と、前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算する減算手段と、該減算により得られる振幅スペクトルと前記位相スペクトルとを再合成する再合成手段と、該再合成されたデータを逆フーリエ変換する逆フーリエ変換手段とを具備し、該逆フーリエ変換によって生成された信号を前記雑音を抑圧した音声信号として出力し、前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとするものである。
この発明の雑音スペクトル推定方法によれば、現在観測されている信号区間の観測信号について雑音のスペクトルを推定することができる。この発明の雑音スペクトル抑圧方法および雑音スペクトル抑圧装置によれば、この発明の雑音スペクトル推定方法を利用して、音声信号に混入している雑音を除去、抑圧し、目的とする音声信号を取り出すことができる。
(実施の形態1)
この発明の雑音スペクトル推定方法をスペクトルサブトラクション法による雑音抑圧処理に適用した実施の形態を以下説明する。図1は、この発明による雑音抑圧装置の実施の形態を示す。一点鎖線10で囲んだ部分は、従来のスペクトルサブトラクション法による雑音抑圧装置と共通する部分である。一点鎖線11で囲んだ部分は、この発明の方法により雑音の振幅スペクトルの推定を行う雑音振幅スペクトル推定部である。入力信号(観測信号)x(n)(n=0,1,2,…,N−1。但し、Nは1フレームのサンプル数)はマイク等で入力された雑音を含む音声信号(例えば音声認識のために入力された信号、電話通信で受信された音声信号等)のサンプル列である。入力信号x(n)には、背景雑音等の定常雑音が混入している。入力信号x(n)は、入力信号切り出し部12に入力され、所定サンプル数で構成されるフレームごとに切り出される。ここでは、雑音抑圧処理終了後に最終的に出力信号を合成する際に、フレーム間に切れ目を生じさせないように、図2(a),(b)に示すように、半フレームごとに順次ずらしてフレーム切り出しを行う。なお、1フレーム長Nは125〜500msec程度とするのが音質上好ましい。この長さの1フレーム長は、入力信号x(n)のサンプリング周波数が約8kHzの場合、1フレームを1024〜4096サンプルで構成することに相当する。
入力信号切り出し部12で切り出された入力信号x(n)は、フーリエ変換部14で、切り出されたフレームごとに順次フーリエ変換される。該フーリエ変換により順次求められる離散フーリエ変換X(k)(k=0,1,2,…,N−1)は、振幅スペクトル計算部16と位相スペクトル計算部18に入力される。振幅スペクトル計算部16は、(1)式により離散フーリエ変換X(k)の振幅スペクトル|X(k)|を求める。

|X(k)|={X(k)+X(k)1/2 …(1)
但し、X(k):X(k)の実数部
(k):X(k)の虚数部

また、位相スペクトル計算部18は、(2)式により離散フーリエ変換X(k)の位相スペクトルθ(k)を求める。

θ(k)=tan−1{X(k)/X(k)} …(2)
雑音振幅スペクトル推定部11は、求められた振幅スペクトル|X(k)|に応じて、入力信号x(n)に含まれる雑音信号の振幅スペクトル(雑音振幅スペクトル)|N(k)|を、後述する手法により推定する。スペクトル減算部15は、切り出されたフレームごとに、(3)式により、振幅スペクトル計算部16で求めた現フレームの振幅スペクトル|X(k)|から、雑音振幅スペクトル推定部11で求めた現フレームの雑音振幅スペクトル|N(k)|を減算することにより、雑音振幅スペクトルを除去した現フレームの振幅スペクトル|Y(k)|を求める。

|Y(k)|=|X(k)|−|N(k)| …(3)
再合成部17は、スペクトル減算部15で求めた現フレームの振幅スペクトル|Y(k)|と、位相スペクトル計算部18で求めた現フレームの入力信号x(n)の位相スペクトルθ(k)とを再合成して、(4)式に示す複素スペクトルデータG(k)に戻す。

G(k)=|Y(k)|eθ(k) …(4)
逆フーリエ変換部19は、複素スペクトルデータG(k)を逆フーリエ変換して、時間波形データg(n)に戻す。出力信号連結部21は、半フレーム毎に得られる(半フレームずつオーバーラップして得られる)各1フレーム長の時間波形データg(n)にそれぞれ図2(c)に示す三角窓を掛け(1フレーム長の前半の1/2フレームでゲインが0から1に直線的に上昇し、後半の1/2フレームでゲインが1から0に下降する特性のゲインを付与し)、これら三角窓を掛けられた時間波形データg(n)を図2(d)に示すように加算合成して連結することにより、出力信号g(n)を作成する。以上のようにして、入力信号x(n)から雑音を除去した出力信号g(n)(目的とする音声信号)が得られる。なお、上記の処理は、窓関数として三角窓を用いたが、これに限らず、ハニング窓、ハミング窓、台形窓等の窓関数を用いてもよい。
図1の雑音振幅スペクトル推定部11について説明する。スペクトル包絡線抽出部20は、振幅スペクトル|X(k)|に含まれる細かな凹凸特性を除去して、振幅スペクトル|X(k)|の包絡線|X’(k)|を抽出する(つまり、振幅スペクトル|X(k)|を平滑化する)ものである。これは、後述する相関値算出において、振幅スペクトル|X(k)|そのものを用いると、スペクトルの相関値が低くなり、「音声区間」と「雑音区間」の区別が明確でなくなるためである。すなわち、雑音は長時間的平均でみれば、そのスペクトルは広い帯域にわたってほぼ一様となる滑らかな分布となることが期待できる。しかし、短時間でみれば多くの山谷を有するスペクトルの変動が観察される。一方、音声は、雑音とは異なり、その全体的な周波数特性は特定の周波数帯域に大きな振幅値を持っており、全周波数帯域に一様に分布していない。この実施の形態による雑音スペクトルの推定方法の特徴は、この「全周波数帯域に一様に分布する雑音」と、「ある特定の周波数帯域に大きな振幅値を持つ音声」を、スペクトルの相関値の大小で区別することにあるので、雑音の振幅スペクトルが持っている細かな凹凸特性を除去する。
スペクトル包絡線抽出部20は、例えば、振幅スペクトル|X(k)|を時間波形と見立ててローパスフィルタ処理をする(振幅スペクトル|X(k)|を直接ローパスフィルタにかける、あるいは振幅スペクトル|X(k)|を周波数軸方向に移動平均処理をする等)ことにより、包絡線を抽出する。振幅スペクトル|X(k)|を直接ローパスフィルタにかける場合のローパスフィルタのカットオフ周波数は、高すぎても低すぎても、音声の特徴を抽出することができない。すなわち、カットオフ周波数が高すぎると、雑音のスペクトルの細かな凹凸特性を除去できない。また、カットオフ周波数が低すぎると、音声成分自体が除去されてしまう。実験によれば、ローパスフィルタのカットオフ周波数はfs/300Hz{fs=16kHzサンプリングした時間数列とみなしたときの約50Hzに相当。fsは入力信号x(n)のサンプリング周波数}〜fs/16Hz{fs=16kHzサンプリングした時間数列とみなしたときの約1000Hzに相当)の範囲に設定した場合に、音声の特徴を良好に抽出することができた。スペクトル包絡線抽出部20は、具体的には、ローパスフィルタのカットオフ周波数をfs/300Hzとする場合は、カットオフ周波数が50Hzに相当する8次バタワース特性のローパスフィルタで構成することができる。
なお、スペクトル包絡線抽出部20により振幅スペクトル|X(k)|の包絡線を抽出する別の方法として、振幅スペクトル|X(k)|をさらにフーリエ変換してケプストラムを求める方法もあり、上記の方法に限定されない。ケプストラムを用いる場合は、具体的には、例えば「ディジタル信号処理/社団法人 電子情報通信学会(コロナ社)」3.3.5 ケプストラム(p66〜70)や、「ディジタル信号処理入門/城戸健一著(丸善)」8.3 ケプストラムの計算(p158〜162)で説明されているような計算方法により、ケプストラムの低ケフレンシー部分のみを通過させるような窓関数をかけて、スペクトル包絡線を抽出する。
雑音振幅スペクトル初期値出力部22は雑音振幅スペクトルの初期値を出力する。すなわち、本装置の起動当初は、参照する雑音振幅スペクトルデータがないため、初期値を設定する。雑音振幅スペクトル初期値の設定方法としては、たとえは、次の方法が考えられる。
(方法1)起動直後に入力された、音声の混入していない背景雑音のみのデータをフーリエ変換し、該フーリエ変換されたデータから、前記(1)式により求められる振幅スペクトルデータを雑音振幅スペクトル初期値として設定する。
(方法2)予め背景雑音に相当する振幅スペクトルデータをメモリに保持しておき、起動時にそれを読み出して雑音振幅スペクトル初期値として設定する。あるいは、予め背景雑音に相当する振幅スペクトルデータの包絡線データをメモリに保持しておき、起動時にそれを読み出して雑音振幅スペクトル包絡線データの初期値として設定する。
(方法3)ホワイトノイズやピンクノイズの振幅スペクトルデータを雑音振幅スペクトル初期値として設定する。
雑音振幅スペクトル更新部24は、後述する雑音振幅スペクトル算出部30で半フレームごとに求められる雑音の振幅スペクトル|N(k)|を順次入力し、半フレーム分遅延して、前回(半フレーム前)観測された信号区間の観測信号について推定された雑音振幅スペクトル推定値|N(k)|として順次出力するものである。起動当初は雑音の振幅スペクトル|N(k)|は未だ推定されていないので、雑音振幅スペクトル更新部24は雑音振幅スペクトル初期値出力部22で設定された雑音振幅スペクトルの初期値を出力する。スペクトル包絡線抽出部26は、スペクトル包絡線抽出部20と同様の方法により、雑音振幅スペクトル|N(k)|の包絡線|N’(k)|を抽出する。
相関値算出部28は、スペクトル包絡線抽出部20で抽出された現フレームの振幅スペクトル包絡線|X’(k)|と、スペクトル包絡線抽出部26で抽出された雑音振幅スペクトル包絡線|N’(k)|の相関値(相関係数)ρを求める。相関値ρは、
入力信号振幅スペクトル包絡線を|X’(k)|=(x,x,…,x
雑音振幅スペクトル包絡線を|N’(k)|=(y,y,…,y
とすると、(5)式により求められる。
Figure 0004434813
雑音振幅スペクトル算出部30は、求められた相関値ρに応じて、現在観測されている信号区間の音声信号について雑音の振幅スペクトル|N(k)|を、(6)式により求める。

|N(k)|=[1−{ρ/(1+ρ)}]・|N(k)|+{ρ/(1+ρ)} ・|X(k)| …(6)
但し、|N(k)|:現在観測されているフレームの音声信号について推定
される雑音の振幅スペクトル
|N(k)|:前回(半フレーム前)観測されたフレームの音声信号
について推定された雑音の振幅スペクトル
|X(k)|:現在観測されているフレームの音声信号のスペクトル
ρ:現在観測されているフレームの音声信号のスペクトルの包絡線と
前回観測されたフレームの音声信号について推定された雑音の
スペクトルの包絡線との相関値
l,m:定数(lは1以上の値、mは0以上の値)
(6)式は、前回(半フレーム前)推定した雑音の振幅スペクトル|N(k)|と、今回算出した入力信号の振幅スペクトル|X(k)|を、求められた相関値ρに応じた比率で加算して、新たな振幅スペクトル|N(k)|を推定するものである。すなわち、相関値ρが低いときは、入力信号に含まれる音声成分が多い(つまり、有音区間)と判断されるので、前回推定した雑音の振幅スペクトル|N(k)|の比率を高くし、今回算出した入力信号の振幅スペクトル|X(k)|を比率を低くして加算する。つまり、雑音振幅スペクトル推定値|N(k)|が音声成分の影響で変化しないようにする。これに対し、相関値ρが高いときは、入力信号に含まれる音声成分が少ない(つまり、無音区間)と判断されるので、前回推定した雑音の振幅スペクトル|N(k)|の比率を低くし、今回算出した入力信号の振幅スペクトル|X(k)|を比率を高くして加算する。つまり、雑音振幅スペクトル推定値|N(k)|が、定常雑音の緩やかな変化に追従して変化するようにする。そして、相関値ρが限りなく1に近いときに、前回推定した雑音の振幅スペクトル|N(k)|と、今回算出した入力信号の振幅スペクトル|X(k)|を同じ比率(0.5:0.5)で加算する。このようにして、主に無音区間で雑音の振幅スペクトルが更新される。
(6)式において、lは、低相関値に対する感度を調整するための定数である。l値による、相関値ρに対する(6)式の係数値1−{ρ/(1+ρ)}、{ρ/(1+ρ)}の変化を図3に示す。なお、図3はm=1とした場合のものである。図3によれば、l値が大きいほど低相関時の雑音振幅スペクトル推定値の更新量が少なくなることがわかる。
(6)式において、mは、更新量を調整するための定数である。m値による、相関値ρに対する(6)式の係数値1−{ρ/(1+ρ)}、{ρ/(1+ρ)}の変化を図4に示す。なお、図4はl=2とした場合のものである。図4によれば、m値が大きいほど更新量が少なくなることがわかる。
図1の雑音抑圧装置を使用して雑音抑圧実験を行い、雑音抑圧効果を測定した。実験では、定常雑音としてプロジェクタから発生する雑音が存在する環境で、女声アナウンス音および男声アナウンス音を収音し、その収音信号について、図1の雑音抑圧装置による雑音抑圧処理をした場合と、何も雑音抑圧処理をしない場合のPESQ−MOS値をそれぞれ測定した。収音信号のサンプリング周波数を16kHzとし、フレーム切り出しの1フレーム長を1024サンプルとし、図2の処理(雑音抑圧前に半フレームずつずらしてフレーム切り出しを行い、雑音抑圧後に三角窓を掛けて加算合成を行う。)を行った。雑音振幅スペクトルの演算には前記(6)式を使用し、そのl値、m値は、それぞれl=70、m=1とした。なお、PESQ−MOS値は、音声品質の評価指標で、0.5〜4.5の範囲で値をとり、値が高いほど音声品質が良いと判断される。測定結果を表1に示す。また、図5は表1の結果を図示したものである。
Figure 0004434813
表1によれば、背景雑音レベルが低い場合(SN比=24dB)も、高い場合(SN比=12dB)も、また、女声アナウンスの場合も、男声アナウンスの場合も、いずれの場合も、図1の雑音抑圧装置による雑音抑圧処理をした場合の方が、何も雑音抑圧処理をしなかった場合に比べてPESQ−MOS値が高く、同雑音抑圧処理により音声品質が改善されることがわかった。
(変更例)
前記実施の形態では、雑音振幅スペクトルの演算に前記(6)式を使用したが、雑音振幅スペクトルの演算はこれに限るものではなく、例えば、下記(7)式により雑音振幅スペクトル|N(k)|を求めることもできる。

|N(k)|=(1−ρ)・|N(k)|+ρ ・|X(k)| …(7)

また、相関値ρが所定値以下の時は、現在観測されているフレームの入力信号の振幅スペクトル|X(k)|の加算比率を0とする(すなわち、雑音振幅スペクトル推定値|N(k)|を更新しない)こともできる。
前記実施の形態では、振幅スペクトルサブトラクション法を用いて、入力信号の振幅スペクトル|X(k)|の包絡線に基づき雑音の振幅スペクトル|N(k)|を推定し、入力信号の振幅スペクトル|X(k)|から雑音の振幅スペクトル|N(k)|を減算して雑音抑圧を行ったが、これに代えて、パワースペクトルサブトラクション法を用いて、入力信号のパワースペクトル|X(k)|の包絡線に基づき雑音のパワースペクトル|N(k)|を推定し、入力信号のパワースペクトル|X(k)|から雑音のパワースペクトル|N(k)|を減算して雑音抑圧を行うことができ、この雑音のパワースペクトル|N(k)|の推定にこの発明の雑音スペクトル推定方法を適用することができる。
前記実施の形態では、入力信号の振幅スペクトル|X(k)|の包絡線に基づき雑音の振幅スペクトル|N(k)|を推定し、入力信号の振幅スペクトル|X(k)|から雑音の振幅スペクトル|N(k)|を減算して雑音抑圧を行ったが、これに代えて、入力信号の振幅情報と位相情報を分離していない複素スペクトルX(k)そのものを用いて、該複素スペクトルX(k)の包絡線に基づき雑音の複素スペクトルN(k)を推定し、入力信号の複素スペクトルX(k)から雑音の複素スペクトルN(k)を減算して雑音抑圧を行うこともできる。
この発明の雑音スペクトル推定方法は雑音抑圧以外の用途にも適用することができる。
この発明による雑音抑圧装置の実施の形態を示すブロック図である。 図1の雑音抑圧装置における入力信号の切り出しおよび出力信号の連結方法を説明するタイムチャートである。 l値による、相関値ρに対する(6)式の係数値1−{ρ/(1+ρ)}、{ρ/(1+ρ)}の変化を示す特性図である。 m値による、相関値ρに対する(6)式の係数値1−{ρ/(1+ρ)}、{ρ/(1+ρ)}の変化を図4に示す特性図である。 図1の雑音抑圧装置による雑音抑圧効果を示す図で、表1の測定結果を線図で示したものである。
符号の説明
14…フーリエ変換部(フーリエ変換手段)、15…スペクトル減算部(減算手段)、16…振幅スペクトル計算部(振幅スペクトル演算手段)、17…再合成部(再合成手段)、18…位相スペクトル計算部(位相スペクトル演算手段)、19…逆フーリエ変換部(逆フーリエ変換手段)、20,26…スペクトル崩落線抽出部、28…相関値算出部(相関演算手段)、30…雑音振幅スペクトル算出部(雑音振幅スペクトル演算手段)

Claims (8)

  1. 雑音が混入した音声信号から、該雑音のスペクトルを推定する方法であって、
    現在観測されている信号区間の観測信号のスペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音のスペクトルの包絡線との相関を求め、該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号のスペクトルと、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルとを混合し、該混合したスペクトルを前記現在観測されている信号区間の観測信号について雑音のスペクトルとして推定する雑音スペクトル推定方法。
  2. 前記相関が高いときは該相関が低いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に高くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に低くし、
    前記相関が低いときは該相関が高いときに比べて、前記現在観測されている信号区間の観測信号のスペクトルの混合比率を相対的に低くし、前記前回観測された信号区間の観測信号について推定された雑音のスペクトルの混合比率を相対的に高くする請求項記載の雑音スペクトル推定方法。
  3. 前記相関が高くなるにつれて、該相関の変化に対する、前記現在観測されている信号区間の観測信号のスペクトルの混合比率の変化を大きくする請求項記載の雑音スペクトル推定方法。
  4. 前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルが、

    N(k)=[1−{ρ/(1+ρ)}]・N(k)+{ρ/(1+ρ)}・X(k)
    但し、N(k):現在観測されている信号区間の観測信号について推定される
    雑音のスペクトル
    (k):前回観測された信号区間の観測信号について推定された雑音
    のスペクトル
    X(k):現在観測されている信号区間の観測信号のスペクトル
    ρ:現在観測されている信号区間の観測信号のスペクトルの包絡線と前回
    観測された信号区間の観測信号について推定された雑音のスペクトル
    の包絡線との相関値
    l,m:定数(lは1以上の値、mは0以上の値)

    として求められる値である請求項記載の雑音スペクトル推定方法。
  5. 前記現在観測されている信号区間の観測信号について推定される雑音のスペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音のスペクトルとする請求項1からのいずれかに記載の雑音スペクトル推定方法。
  6. 前記スペクトルの包絡線が振幅スペクトルの包絡線である請求項1からのいずれかに記載の雑音スペクトル推定方法。
  7. 雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する方法であって、
    現在観測されている信号区間の観測信号をフーリエ変換して振幅スペクトルと位相スペクトルを求め、
    該求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関を求め、
    該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定し、前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算し、
    該減算により得られる振幅スペクトルと前記求められた位相スペクトルとを再合成して逆フーリエ変換し、
    該逆フーリエ変換で得られる信号を前記雑音を抑圧した音声信号として出力し、
    前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとする雑音抑圧方法。
  8. 雑音が混入した音声信号から、該雑音の振幅スペクトルを推定し、該雑音を抑圧した音声信号を生成する装置であって、
    現在観測されている信号区間の観測信号をフーリエ変換するフーリエ変換手段と、
    該フーリエ変換されたデータから振幅スペクトルを求める振幅スペクトル演算手段と、
    該フーリエ変換されたデータから位相スペクトルを求める位相スペクトル演算手段と、
    前記求められた現在観測されている信号区間の観測信号の振幅スペクトルの包絡線と、前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルの包絡線との相関を求める相関演算手段と、
    該求められた相関値に応じた比率で、前記現在観測されている信号区間の観測信号の振幅スペクトルと、前記前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとを混合し、該混合した振幅スペクトルを前記現在観測されている信号区間の観測信号について雑音の振幅スペクトルとして推定する雑音振幅スペクトル演算手段と、
    前記現在観測されている信号区間の観測信号の振幅スペクトルから該現在観測されている信号区間の観測信号について推定された雑音の振幅スペクトルを減算する減算手段と、
    該減算により得られる振幅スペクトルと前記位相スペクトルとを再合成する再合成手段と、
    該再合成されたデータを逆フーリエ変換する逆フーリエ変換手段とを具備し、
    該逆フーリエ変換によって生成された信号を前記雑音を抑圧した音声信号として出力し、前記現在観測されている信号区間の観測信号について推定される雑音の振幅スペクトルを、次の信号区間における前回観測された信号区間の観測信号について推定された雑音の振幅スペクトルとする雑音抑圧装置。
JP2004100935A 2004-03-30 2004-03-30 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 Expired - Fee Related JP4434813B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004100935A JP4434813B2 (ja) 2004-03-30 2004-03-30 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
US11/093,672 US7596495B2 (en) 2004-03-30 2005-03-29 Current noise spectrum estimation method and apparatus with correlation between previous noise and current noise signal
GB0506434A GB2413469B (en) 2004-03-30 2005-03-30 Noise spectrum estimation method and apparatus
CA2502980A CA2502980C (en) 2004-03-30 2005-03-30 Noise spectrum estimation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004100935A JP4434813B2 (ja) 2004-03-30 2004-03-30 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置

Publications (2)

Publication Number Publication Date
JP2005284163A JP2005284163A (ja) 2005-10-13
JP4434813B2 true JP4434813B2 (ja) 2010-03-17

Family

ID=34567592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004100935A Expired - Fee Related JP4434813B2 (ja) 2004-03-30 2004-03-30 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置

Country Status (4)

Country Link
US (1) US7596495B2 (ja)
JP (1) JP4434813B2 (ja)
CA (1) CA2502980C (ja)
GB (1) GB2413469B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
JP4454591B2 (ja) * 2006-02-09 2010-04-21 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP4816334B2 (ja) * 2006-08-29 2011-11-16 カシオ計算機株式会社 ノイズ低減装置、撮像装置、ノイズ低減方法およびプログラム
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US8744798B2 (en) * 2007-06-12 2014-06-03 Tektronix International Sales Gmbh Signal generator and user interface for adding amplitude noise to selected portions of a test signal
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
JP6114518B2 (ja) * 2012-08-27 2017-04-12 株式会社ザクティ 雑音低減装置
CN107945813B (zh) * 2012-08-29 2021-10-26 日本电信电话株式会社 解码方法、解码装置、和计算机可读取的记录介质
US10032462B2 (en) 2015-02-26 2018-07-24 Indian Institute Of Technology Bombay Method and system for suppressing noise in speech signals in hearing aids and speech communication devices
JP6668995B2 (ja) * 2016-07-27 2020-03-18 富士通株式会社 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
CN117934487B (zh) * 2024-03-25 2024-05-28 板石智能科技(深圳)有限公司 一种扫描噪点和误差的检测方法、装置、电子设备和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
UA41913C2 (uk) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JP3183104B2 (ja) 1995-07-14 2001-07-03 松下電器産業株式会社 ノイズ削減装置
JPH113094A (ja) 1997-06-12 1999-01-06 Kobe Steel Ltd ノイズ除去装置
EP1141949A1 (en) * 1999-10-29 2001-10-10 Koninklijke Philips Electronics N.V. Elimination of noise from a speech signal
JP2002014694A (ja) 2000-06-30 2002-01-18 Toyota Central Res & Dev Lab Inc 音声認識装置
JP3693022B2 (ja) 2002-01-29 2005-09-07 株式会社豊田中央研究所 音声認識方法及び音声認識装置

Also Published As

Publication number Publication date
JP2005284163A (ja) 2005-10-13
US20050256705A1 (en) 2005-11-17
CA2502980C (en) 2010-05-04
CA2502980A1 (en) 2005-09-30
GB2413469A (en) 2005-10-26
GB2413469B (en) 2006-05-03
GB0506434D0 (en) 2005-05-04
US7596495B2 (en) 2009-09-29

Similar Documents

Publication Publication Date Title
JP4958303B2 (ja) 雑音抑圧方法およびその装置
JP5528538B2 (ja) 雑音抑圧装置
Nakatani et al. Robust and accurate fundamental frequency estimation based on dominant harmonic components
EP2031583B1 (en) Fast estimation of spectral noise power density for speech signal enhancement
US7957964B2 (en) Apparatus and methods for noise suppression in sound signals
JP4434813B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
JP2005195955A (ja) 雑音抑圧装置及び雑音抑圧方法
JP4454591B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP3960834B2 (ja) 音声強調装置及び音声強調方法
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
JPH11265199A (ja) 送話器
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP2004020679A (ja) 雑音抑圧装置および雑音抑圧方法
JP3849679B2 (ja) 雑音除去方法、雑音除去装置およびプログラム
Fang et al. Speech enhancement based on modified a priori SNR estimation
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
EP1635331A1 (en) Method for estimating a signal to noise ratio
Fingscheidt et al. Towards objective quality assessment of speech enhancement systems in a black box approach
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
JP2000010593A (ja) スペクトル雑音除去装置
Krishnamoorthy et al. Modified spectral subtraction method for enhancement of noisy speech
Tabaja et al. A quantitative analysis of hands-free speech enhancement using real automobile data
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
Shi et al. Subband dereverberation algorithm for noisy environments
JP4950971B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091215

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091222

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140108

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees