JP2000330598A - 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 - Google Patents
雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法Info
- Publication number
- JP2000330598A JP2000330598A JP11137737A JP13773799A JP2000330598A JP 2000330598 A JP2000330598 A JP 2000330598A JP 11137737 A JP11137737 A JP 11137737A JP 13773799 A JP13773799 A JP 13773799A JP 2000330598 A JP2000330598 A JP 2000330598A
- Authority
- JP
- Japan
- Prior art keywords
- determination
- delay
- section
- parameter
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Noise Elimination (AREA)
- Telephone Function (AREA)
Abstract
次判定を実施して、その判定結果に基づいて推定雑音情
報を更新するが、この一次判定に誤りが生じると、音声
区間の特徴が推定雑音情報に取り込まれてしまうため、
雑音区間の判定精度が低下するなどの課題があった。 【解決手段】 Nフレーム前が雑音区間であるか否か
を、Nフレーム前を含む過去から現在までの複数フレー
ムの遅延判定用パラメータに基づいて一次判定を実施
し、この判定結果とNフレーム前の非遅延判定用パラメ
ータに基づいて非遅延判定に用いる判定用閾値を更新す
る。
Description
信号中の背景雑音が支配的な区間を判定する雑音区間判
定装置、ディジタル音声信号に含まれている音声以外の
雑音成分を抑圧する雑音抑圧装置、及び雑音区間判定装
置や雑音抑圧装置などで使用される推定雑音情報更新方
法に関するものである。
平3−48900号公報、特開平4−58297号公報
に開示されているものがある。特開平3−48900号
公報に開示されている雑音区間判定装置は、雑音区間判
定装置の性能向上を目的としたものであり、現在のフレ
ームの入力音声に対して特徴パラメータを算出し、全て
の特徴パラメー又は雑音区間の特徴パラメータを記憶す
る。
ム分の過去の特徴パラメータ集合を取り出して、現在の
フレームの特徴ベクトルとの距離ベクトル又はベクトル
のノルムを求めて、これを変換パラメータとし、この変
換パラメータと予め設定された標準パターンとを比較し
て雑音区間を判定するようにしたものである。
現在のフレームの特徴パラメータを用いて、現在のフレ
ームが有音区間であるか否かを判定するための判定用パ
ラメータとして変換パラメータを求め、この変換パラメ
ータを用いて現在のフレームの判定を行っている。
音区間の特徴パラメータのみを記憶する構成の場合、現
在のフレームに対する雑音区間判定(一次判定)を行
い、その結果が雑音区間と判定したときに現在のフレー
ムの特徴パラメータを記憶するようにしている。この従
来の雑音区間判定装置における推定雑音情報は、Sフレ
ーム前から数えてNフレーム分の過去の特徴パラメータ
集合であり、その更新は、現在のフレームが雑音区間で
あると一次判定されたときに現在のフレームの特徴パラ
メータをバッファに追加記憶することによって行われて
いる。
いる雑音区間判定装置は、上記特開平3−48900号
公報に開示されている雑音区間判定装置と同様に、雑音
区間判定装置の性能向上を目的としたものであり、現在
のフレームの入力音声に対して特徴パラメータを算出
し、雑音区間であると一次判定されたフレームの特徴ベ
クトルを記憶する。
ム分の過去の特徴パラメータ集合を取り出して、この集
合に基づいて雑音標準パターンを作成し、現在のフレー
ムの特徴パラメータを雑音標準パターンと比較すること
で、雑音区間を判定するようにしたものである。
雑音情報は、Sフレーム前から数えてNフレーム分の過
去の特徴パラメータ集合、または、この集合に基づいて
作成された雑音標準パターンであり、その更新は、現在
のフレームが雑音区間であると一次判定されたときに現
在のフレームの特徴パラメータをバッファに追加記憶す
ることによって行われている。
311698号公報に開示されているものがある。特開
平9−311698号公報に開示されている雑音抑圧装
置は、雑音抑圧後の音質を改善することを目的としたも
のであり、音声区間では推定雑音信号(推定雑音情報)
の更新を停止させるか、または、雑音区間より遅い追従
速度で更新させるようにしている。現在のフレームが音
声区間であるか雑音区間であるかの判定については、短
期間信号のパワー平均値の差、相関係数、LPC係数の
変化などを用いることができると記載されている。
置は以上のように構成されているので、現在のフレーム
が雑音区間であるか否かの一次判定を実施して、その判
定結果に基づいて推定雑音情報を更新するが、この一次
判定に誤りが生じると、音声区間の特徴が推定雑音情報
に取り込まれてしまうため、雑音区間の判定精度が低下
するなどの課題があった。特に、背景雑音レベルが高い
場合、レベルの低い音声区間(例えば、音声の立ち上が
り区間)と、雑音が変動している区間の判定が困難であ
るため、一次判定に誤りが生じ易く、その誤った一次判
定が雑音区間の判定精度の低下をもたらすという課題が
あった。
構成されているので、現在のフレームが音声区間である
か雑音区間であるかの判定を実施して、その判定結果に
基づいて推定雑音情報の更新を制御しているが、その判
定に誤りが生じると、音声区間の特徴が推定雑音情報に
取り込まれてしまうため、この推定雑音情報を用いて雑
音抑圧処理を実施すると、雑音抑圧後の音質が劣化する
などの課題があった。特に、背景雑音レベルが高い場
合、レベルの低い音声区間(例えば、音声の立ち上がり
区間)と、雑音が変動している区間の判定が困難である
ため、判定を誤って音声区間の特徴を推定雑音情報に取
り込み易く、雑音抑圧後の音質が劣化し易いという課題
があった。
めになされたもので、雑音区間の一次判定精度を高め
て、精度よく雑音区間を判定することができる雑音区間
判定装置を得ることを目的とする。また、この発明は、
雑音区間の判定精度を高めて、精度よく雑音を抑圧する
ことができる雑音抑圧装置を得ることを目的とする。さ
らに、この発明は、音声区間の特徴の取り込みを抑制し
て、精度よく推定雑音情報を更新することができる推定
雑音情報更新方法を得ることを目的とする。
判定装置は、記憶手段に記憶されている入力音声の複数
のフレームにおける遅延判定用パラメータからNフレー
ム前が雑音区間又は音声区間の何れであるかを判定し、
その判定結果と記憶手段に記憶されている入力音声のN
フレーム前の非遅延判定用パラメータから判定用閾値を
更新するようにしたものである。
メータ分析手段により取得された入力音声の複数のフレ
ームにおける遅延判定用パラメータからNフレーム前が
雑音区間又は音声区間の何れであるかを判定し、その判
定結果とパラメータ分析手段により取得された入力音声
のNフレーム前の非遅延判定用パラメータから判定用閾
値を更新するようにしたものである。
判定用パラメータと非遅延判定用パラメータを共通化す
るようにしたものである。
手段により更新された判定用閾値と入力音声の複数のフ
レームにおける遅延判定用パラメータを比較して、Nフ
レーム前が雑音区間又は音声区間の何れであるかを判定
するようにしたものである。
区間である可能性の大きさを算出し、その音声区間であ
る可能性の大きさに基づいて判定用閾値の更新速度を制
御するようにしたものである。
手段により更新された判定用閾値の変動を分析し、その
変動の大きさに応じて遅延フレーム数を示すNの値を制
御するようにしたものである。
区間又は音声区間の何れであるかを判定する際、非遅延
判定手段の判定結果を考慮して判定するようにしたもの
である。
用閾値を更新する際、非遅延判定手段の判定結果を考慮
して更新するようにしたものである。
に記憶されている入力音声のNフレーム前のスペクトル
と遅延判定手段の判定結果から推定雑音スペクトルを更
新し、その推定雑音スペクトルを用いて入力音声の現在
のフレームにおけるスペクトルを補正するようにしたも
のである。
ル分析手段により分析された入力音声のNフレーム前の
スペクトルと遅延判定手段の判定結果から推定雑音スペ
クトルを更新し、その推定雑音スペクトルを用いて入力
音声の現在のフレームにおけるスペクトルを補正するよ
うにしたものである。
ル分析手段により取得された入力音声のスペクトルから
遅延判定用パラメータを算出するようにしたものであ
る。
により更新された推定雑音スペクトルから遅延判定用パ
ラメータを算出し、その遅延判定用パラメータと入力音
声の複数のフレームにおける遅延判定用パラメータを比
較して、Nフレーム前が雑音区間又は音声区間の何れで
あるかを判定するようにしたものである。
である可能性の大きさを算出し、その音声区間である可
能性の大きさに基づいて推定雑音スペクトルの更新速度
を制御するようにしたものである。
により更新された推定雑音スペクトルの変動を分析し、
その変動の大きさに応じて遅延フレーム数を示すNの値
を制御するようにしたものである。
に記憶されている入力音声の複数のフレームにおける遅
延判定用パラメータからNフレーム前が雑音区間又は音
声区間の何れであるかを判定し、その判定結果と記憶手
段に記憶されている入力音声のNフレーム前の非遅延判
定用パラメータから判定用閾値を更新する一方、スペク
トル分析手段により取得された入力音声のスペクトルと
非遅延判定手段の判定結果から推定雑音スペクトルを更
新し、その推定雑音スペクトルを用いて入力音声の現在
のフレームにおけるスペクトルを補正するようにしたも
のである。
タ分析手段により取得された入力音声の複数のフレーム
における遅延判定用パラメータからNフレーム前が雑音
区間又は音声区間の何れであるかを判定し、その判定結
果とパラメータ分析手段により取得された入力音声のN
フレーム前の非遅延判定用パラメータから判定用閾値を
更新する一方、スペクトル分析手段により取得された入
力音声のスペクトルと非遅延判定手段の判定結果から推
定雑音スペクトルを更新し、その推定雑音スペクトルを
用いて入力音声の現在のフレームにおけるスペクトルを
補正するようにしたものである。
遅延判定用パラメータと特徴情報を記憶すると、入力音
声の複数のフレームにおける遅延判定用パラメータから
Nフレーム前が雑音区間又は音声区間の何れであるかを
判定し、その判定結果と入力音声のNフレーム前の特徴
情報から推定雑音情報を更新するようにしたものであ
る。
入力音声の特徴を表す遅延判定用パラメータと特徴情報
を取得すると、その入力音声の複数のフレームにおける
遅延判定用パラメータからNフレーム前が雑音区間又は
音声区間の何れであるかを判定し、その判定結果と入力
音声のNフレーム前の特徴情報から推定雑音情報を更新
するようにしたものである。
遅延判定用パラメータと特徴情報を共通化するようにし
たものである。
推定雑音情報中の遅延判定用パラメータと入力音声の複
数のフレームにおける遅延判定用パラメータを比較し
て、Nフレーム前が雑音区間又は音声区間の何れである
かを判定するようにしたものである。
音声区間である可能性の大きさを算出し、その音声区間
である可能性の大きさに基づいて推定雑音情報の更新速
度を制御するようにしたものである。
推定雑音情報の変動を分析し、その変動の大きさに応じ
て遅延フレーム数を示すNの値を制御するようにしたも
のである。
説明する。 実施の形態1.図1はこの発明の実施の形態1による雑
音区間判定装置を示す構成図であり、図において、1は
入力音声をフレーム毎に分析して、その入力音声の特徴
を表す遅延判定用パラメータと非遅延判定用パラメータ
を取得するパラメータ分析部(パラメータ分析手段)、
2は非遅延判定用パラメータを取得する非遅延判定用パ
ラメータ分析部、3は遅延判定用パラメータを取得する
遅延判定用パラメータ分析部である。
遅延判定用パラメータと非遅延判定用パラメータを記憶
する記憶部(記憶手段)、5は記憶部4に記憶されてい
る入力音声の複数のフレームにおける遅延判定用パラメ
ータからNフレーム前が雑音区間又は音声区間の何れで
あるかを判定する遅延判定部(遅延判定手段)、6は記
憶部4に記憶されている入力音声のNフレーム前の非遅
延判定用パラメータと遅延判定部5の判定結果から判定
用閾値を更新する閾値算出部(更新手段)、7はパラメ
ータ分析部1により取得された入力音声の現在のフレー
ムにおける非遅延判定用パラメータと閾値算出部6によ
り更新された判定用閾値を比較して、現在のフレームが
雑音区間又は音声区間の何れであるかを判定する非遅延
判定部(非遅延判定手段)である。
ムと呼ばれる所定の時間長の入力音声が、パラメータ分
析部1内の非遅延判定用パラメータ分析部2と遅延判定
用パラメータ分析部3に入力される。
音声を分析して、入力音声(現在のフレーム)の特徴を
表す所定のパラメータを求め、これを非遅延判定用パラ
メータとして出力する。一方、遅延判定用パラメータ分
析部3は、入力音声を分析して、非遅延判定用パラメー
タ分析部2と異なる所定のパラメータ(現在のフレーム
の特徴を表す所定のパラメータ)を求め、これを遅延判
定用パラメータとして出力する。
判定用パラメータとしては、入力音声のパワー、帯域パ
ワー、高域強調などの所定の加工処理を施した入力音声
のパワー、LSPなどのスペクトル特徴を表すスペクト
ルパラメータ、このスペクトルパラメータを用いてスペ
クトル特徴を取り除いた後の残差信号のパワー、ピッチ
周期の相関の大きさなど、従来の雑音区間判定装置で用
いられている様々なパラメータを、単独または複数で用
いることができる。
判定用パラメータと遅延判定用パラメータを出力する
と、これらを記憶するが、記憶部4は、(N+1)フレ
ーム分の非遅延判定用パラメータと、Mフレーム分の遅
延判定用パラメータを記憶することができる能力を有す
る。
新たに現在のフレームの非遅延判定用パラメータと遅延
判定用パラメータを出力すると、その内部に記憶されて
いる最も過去のフレームの両パラメータ、即ち、(N+
1)フレーム前の非遅延判定用パラメータと、Mフレー
ム前の遅延判定用パラメータを忘却し、現在のフレーム
の非遅延判定用パラメータと、現在のフレームの遅延判
定用パラメータを記憶することで内部状態を更新する。
この更新処理により、記憶部4内には、常にNフレーム
前から現在のフレームまでの、合計(N+1)フレーム
分の最新の非遅延判定用パラメータと、(M−1)フレ
ーム前から現在のフレームまでの、合計Mフレーム分の
最新の遅延判定用パラメータが格納されている状態が保
たれる。ただし、Nは1以上の整数、MはNより大きい
整数である。
パラメータと遅延判定用パラメータを記憶すると、記憶
部4に記憶されているMフレーム分の遅延判定用パラメ
ータを用いて、Nフレーム前が雑音区間であるか、音声
区間であるかを判定し、その判定結果を閾値算出部6に
出力する。
ができる。Mを雑音区間が必ず含まれるほど大きく取れ
る場合には、Mフレーム分の遅延判定用パラメータから
雑音区間フレームを特定し、その雑音区間フレームの遅
延判定用パラメータから平均的な雑音区間の遅延判定用
パラメータを求める。Mをそれほど大きく取れない場合
には、各フレームの遅延判定用パラメータを用いて平均
的な雑音区間の遅延判定用パラメータを逐次更新する。
フレーム前及びその近傍のフレームの各遅延判定用パラ
メータと、この平均的な雑音区間の遅延判定用パラメー
タを比較して、各フレームに対する暫定的な雑音/音声
区間の判定を行う。この暫定的な判定において、Nフレ
ーム前が音声区間であると判定され、なおかつ、その前
後の少なくとも一方に音声区間と判定されたフレームが
所定数以上存在する場合に、Nフレーム前が音声区間で
あると判定する。即ち、Nフレーム前の情報だけでな
く、その近傍(現在を含む)の情報を用いて総合的に判
定を行う。
一例を説明する説明図である。図19では遅延判定用パ
ラメータとして入力音声のパワーを使用し、背景雑音区
間のパワーがある程度定常で、かつ、音声区間の大半よ
り低い値となる条件を前提にして判定を行う。
低いので暫定的に雑音区間と判定される。ただし、図1
9(1)では、Nフレーム前は暫定的に音声区間である
と判定されるが、その前後に音声区間と判定されるフレ
ームがないため、最終的にNフレーム前は雑音区間であ
ると判定される。これに対し、図19(2)では、Nフ
レーム前に加えて、(N−1)フレーム前以降に音声区
間と判定されるフレームが多く存在するので、最終的に
Nフレーム前は音声区間であると判定される。
を出力すると、その判定結果と記憶部4に記憶されてい
るNフレーム前の非遅延判定用パラメータとを用いて、
非遅延判定部7が使用する判定用閾値を更新し、更新後
の判定用閾値を非遅延判定部7に出力する。
小さい正の値αを更新速度として行うことができる。ま
ず、閾値算出部6は、内部パラメータとして、雑音区間
の平均的な非遅延判定用パラメータPnと音声区間の平
均的な非遅延判定用パラメータPsを更新する。具体的
には、遅延判定部5の判定結果が、Nフレーム前が雑音
区間であるとする判定の場合、Nフレーム前の非遅延判
定用パラメータPを用いて雑音区間の平均的な非遅延判
定用パラメータPnを更新する。遅延判定部5の判定結
果が、Nフレーム前が音声区間であるとする判定の場
合、Nフレーム前の非遅延判定用パラメータPを用いて
音声区間の平均的な非遅延判定用パラメータPsを更新
する。
(1)式と(2)式に示すように、1フレーム前の非遅
延判定用パラメータPn又はPsにαを乗じたものと、
Nフレーム前の非遅延判定用パラメータPに(1−α)
を乗じたものを加算することにより行う。 Pn←Pn×α+P×(1−α) (1) Ps←Ps×α+P×(1−α) (2)
パラメータを用いて、以下の(3)式と(4)式によっ
て2つの判定用閾値Th1,Th2を算出し、これを出
力とする。なお、βとγは0より大きく1より小さい値
で、βの方がγより小さい値をもつ。 Th1=Pn×β+Ps×(1−β) (3) Th2=Pn×γ+Ps×(1−γ) (4)
閾値Th1,Th2を更新すると、非遅延判定用パラメ
ータ分析部2が出力する現在のフレームの非遅延判定用
パラメータと、閾値算出部6が出力する判定用閾値とを
比較して、現在のフレームが雑音区間であるか、音声区
間であるかを判定し、その判定結果を出力する。その判
定は、前フレームが音声区間であって、現在のフレーム
の非遅延判定用パラメータが判定用閾値Th1より大き
い場合、または、前フレームが雑音区間であって、現在
のフレームの非遅延判定用パラメータが判定用閾値Th
2より大きい場合に音声区間であると判定し、それ以外
であれば雑音区間であると判定する。
平均的な非遅延判定用パラメータPnと音声区間の平均
的な非遅延判定用パラメータPsを更新する更新速度と
して共通のαという値を用いたが、異なる更新速度を与
えて、判定結果が良くなるように調整することも可能で
ある。また、判定用閾値を更新するための値βとγは固
定値である必要はなく、PnとPsの値の差の大きさな
どに基づいて適応的な値を与えてもよい。
用閾値Th1,Th2を用いたが、一つの判定用閾値だ
けの構成も可能である。また、PnまたはPsの一方の
みを更新するようにして、これをそのまま判定用閾値と
する構成も可能である。また、記憶部4に記憶されてい
る複数のフレームの非遅延判定用パラメータを用いて非
遅延判定を行ってもよい。非遅延判定部7については、
この他にも従来の様々な雑音区間判定装置で用いられて
きた各種判定方法を用いることができる。
によれば、Nフレーム前が雑音区間であるか否かを、N
フレーム前を含む過去から現在までの複数フレームの遅
延判定用パラメータに基づいて一次判定を実施し、この
判定結果とNフレーム前の非遅延判定用パラメータに基
づいて非遅延判定に用いる判定用閾値を更新するように
したので、一次判定においては、判定対象フレームであ
るNフレーム前から見て過去と未来の情報を用いること
ができるので誤判定が抑制でき、その結果として、音声
区間のパラメータを用いて判定用閾値である推定雑音情
報(雑音区間の平均的な非遅延判定用パラメータ)を更
新したり、雑音区間のパラメータを用いて判定用閾値で
ある推定音声情報(音声区間の平均的な非遅延判定用パ
ラメータ)を更新することが少なくなり、最終的な雑音
区間判定の精度が向上する効果がある。背景雑音レベル
が高い場合でも、音声の立ち上がり区間のようにレベル
の低い音声区間と、雑音が変動して特徴パラメータが変
化したのかが精度良く一次判定でき、安定に雑音区間判
定が行える効果がある。
態2による雑音区間判定装置を示す構成図であり、図に
おいて、図1と同一符号は同一または相当部分を示すの
で説明を省略する。11は入力音声を数フレーム分記憶
する記憶部(記憶手段)、12が記憶部11に記憶され
ている入力音声を分析して、その入力音声の特徴を表す
遅延判定用パラメータと非遅延判定用パラメータを取得
するパラメータ分析部(パラメータ分析手段)、13は
非遅延判定用パラメータを取得する非遅延判定用パラメ
ータ分析部、14は遅延判定用パラメータを取得する遅
延判定用パラメータ分析部である。
ムと呼ばれる所定の時間長の入力音声が、記憶部11に
入力される。記憶部11は、Mフレーム分の入力音声を
記憶することができる能力を有し、その内部に記憶され
ている最も過去のフレームの入力音声を忘却し、入力さ
れた現在のフレームの入力音声を記憶することで内部状
態を更新する。この更新処理により、この記憶部11内
には、常に(M−1)フレーム前から現在のフレームま
での、合計Mフレーム分の最新の入力音声が格納されて
いる状態が保たれる。
ラメータ分析部13は、記憶部11に記憶されているN
フレーム前の入力音声と現在のフレームの入力音声を分
析して、各フレームの入力音声の特徴を表す所定のパラ
メータを求め、これを各フレームの非遅延判定用パラメ
ータとして出力する。一方、パラメータ分析部12内の
遅延判定用パラメータ分析部14は、記憶部11に記憶
されているMフレーム分の入力音声を分析して、非遅延
判定用パラメータ分析部13と異なる所定のパラメータ
を求め、これを各フレームの遅延判定用パラメータとし
て出力する。なお、非遅延判定用パラメータ及び遅延判
定用パラメータについては、上記実施の形態1と同様
に、従来の雑音区間判定装置で用いられている様々なパ
ラメータを、単独または複数で用いることができる。
析部14がMフレーム分の遅延判定用パラメータを出力
すると、そのMフレーム分の遅延判定用パラメータを用
いて、Nフレーム前が雑音区間であるか、音声区間であ
るかを判定し、その判定結果を閾値算出部6に出力す
る。
を出力すると、その判定結果と、非遅延判定用パラメー
タ分析部13が出力するNフレーム前の非遅延判定用パ
ラメータとを用いて、非遅延判定部7が使用する判定用
閾値を更新し、更新後の判定用閾値を非遅延判定部7に
出力する。
が更新後の判定用閾値を出力すると、非遅延判定用パラ
メータ分析部13が出力する現在のフレームの非遅延判
定用パラメータと、更新後の判定用閾値とを比較して、
現在のフレームが雑音区間であるか音声区間であるかを
判定し、この判定結果を出力する。遅延判定部5におけ
る判定方法、閾値算出部6における更新方法、非遅延判
定部7における判定方法については、上記実施の形態1
と同様な方法を用いることができる。
5が、遅延判定用パラメータ分析部14が既に分析済み
の複数フレームの遅延判定用パラメータを用いて判定を
行ったが、遅延判定部5内での判定の信頼度が低いと判
断される場合に、遅延判定部5が遅延判定用パラメータ
分析部14に別の遅延判定用パラメータの分析と出力を
要求し、遅延判定用パラメータ分析部14がこれに応え
て、複数フレーム分の別の遅延判定用パラメータの分析
と出力を行い、遅延判定部5が、このパラメータを用い
て判定を行うようにすることもできる。
によれば、Mフレーム分の入力音声を記憶しておき、こ
れから過去及び現在の非遅延判定用パラメータと遅延判
定用パラメータを算出し、上記実施の形態1と同様にし
て一次判定と判定用閾値の更新を行うようにしたので、
上記実施の形態1が持つ効果に加えて、非遅延判定用パ
ラメータと遅延判定用パラメータの情報量の合計が入力
音声の情報量を上回る場合に、記憶部11の容量を削減
できる効果が得られる。
遅延判定用パラメータの分析と出力を要求する構成とし
た場合には、メモリ量を増加させず、平均的な処理量を
あまり増加させないで、一次判定精度を改善でき、音声
区間のパラメータを用いて判定用閾値である推定雑音情
報(雑音区間の平均的な非遅延判定用パラメータ)を更
新したり、雑音区間のパラメータを用いて判定用閾値で
ある推定音声情報(音声区間の平均的な非遅延判定用パ
ラメータ)を更新することが少なくなり、最終的な雑音
区間判定の精度が向上する効果がある。
態3による雑音区間判定装置を示す構成図であり、図に
おいて、21は入力音声をフレーム毎に分析して、その
入力音声の特徴を表す判定用パラメータを取得するパラ
メータ分析部(パラメータ分析手段)、22はパラメー
タ分析部21により取得された判定用パラメーを記憶す
る記憶部(記憶手段)、23は記憶部22に記憶されて
いる入力音声の複数のフレームにおける判定用パラメー
タからNフレーム前が雑音区間又は音声区間の何れであ
るかを判定する遅延判定部(遅延判定手段)である。
声のNフレーム前の判定用パラメータと遅延判定部23
の判定結果から判定用閾値を更新する閾値算出部(更新
手段)、25はパラメータ分析部21により取得された
入力音声の現在のフレームにおける非遅延判定用パラメ
ータと閾値算出部24により更新された判定用閾値を比
較して、現在のフレームが雑音区間又は音声区間の何れ
であるかを判定する非遅延判定部(非遅延判定手段)で
ある。
ムと呼ばれる所定の時間長の入力音声が、パラメータ分
析部21に入力される。パラメータ分析部21は、入力
音声を分析して、入力音声(現在のフレーム)の特徴を
表す所定のパラメータを求め、これを判定用パラメータ
として出力する。なお、判定用パラメータについては、
上記実施の形態1における非遅延判定用パラメータと同
じものを用いる。
メータを記憶することができる能力を有し、その内部に
記憶されている最も過去のフレームの判定用パラメータ
(Mフレーム前の判定用パラメータ)を忘却し、パラメ
ータ分析部21が出力する現在のフレームの判定用パラ
メータを記憶することで、内部状態を更新する。この更
新処理により、この記憶部22内には、常に(M−1)
フレーム前から現在のフレームまでの、合計Mフレーム
分の最新の判定用パラメータが格納されている状態が保
たれる。
ているMフレーム分の判定用パラメータを用いて、Nフ
レーム前が雑音区間であるか、音声区間であるかを判定
し、その判定結果を閾値算出部24に出力する。判定方
法としては、上記実施の形態1における遅延判定部5の
判定に用いる遅延判定用パラメータを、判定用パラメー
タに変更したものを用いることができる。なお、遅延判
定部23の判定に用いるパラメータについては、判定用
パラメータが複数のパラメータで構成されている場合
に、その一部だけを用いて簡易に判定するようにしても
構わない。
結果を出力すると、その判定結果と、記憶部22に記憶
されているNフレーム前の判定用パラメータとを用い
て、非遅延判定部25が使用する判定用閾値を更新し、
更新後の判定用閾値を非遅延判定部25に出力する。更
新方法としては、上記実施の形態1における閾値算出部
6の更新に用いる遅延判定用パラメータを、判定用パラ
メータに変更したものを用いることができる。
24が更新後の判定用閾値を出力すると、パラメータ分
析部21が出力する現在のフレームの判定用パラメータ
と、更新後の判定用閾値とを比較して、現在のフレーム
が雑音区間であるか音声区間であるかを判定し、この判
定結果を出力する。判定方法としては、上記実施の形態
1における非遅延判定部7の判定に用いる非遅延判定用
パラメータを、判定用パラメータに変更したものを用い
ることができる。
態1における非遅延判定用パラメータと遅延判定用パラ
メータを共通化して判定用パラメータのみとしたものに
相当するが、同様に実施の形態2における非遅延判定用
パラメータと遅延判定用パラメータを共通化して判定用
パラメータのみとした構成も可能である。
によれば、上記実施の形態1における非遅延判定用パラ
メータと遅延判定用パラメータを共通化して判定用パラ
メータのみとしたので、上記実施の形態1が持つ効果に
加えて、パラメータ分析処理量、記憶部22における必
要な記憶容量が削減できる効果がある。同様に実施の形
態2における非遅延判定用パラメータと遅延判定用パラ
メータを共通化して判定用パラメータのみとしたので、
上記実施の形態2が持つ効果に加えて、パラメータ分析
処理量や記憶容量が削減できる効果がある。
態4による雑音区間判定装置を示す構成図であり、図に
おいて、図3と同一符号は同一または相当部分を示すの
で説明を省略する。26は閾値算出部24により更新さ
れた判定用閾値と入力音声の複数のフレームにおける遅
延判定用パラメータを比較して、Nフレーム前が雑音区
間又は音声区間の何れであるかを判定する遅延判定部
(遅延判定手段)である。
ムと呼ばれる所定の時間長の入力音声が、パラメータ分
析部21に入力される。パラメータ分析部21は、入力
音声を分析して、入力音声(現在のフレーム)の特徴を
表す所定のパラメータを求め、これを判定用パラメータ
として出力する。
メータを記憶することができる能力を有し、その内部に
記憶されている最も過去のフレームの判定用パラメータ
(Mフレーム前の判定用パラメータ)を忘却し、パラメ
ータ分析部21が出力する現在のフレームの判定用パラ
メータを記憶することで、内部状態を更新する。
ているMフレーム分の判定用パラメータと、閾値算出部
24にて前フレームまでに更新されている判定用閾値を
用いて、Nフレーム前が雑音区間であるか音声区間であ
るかを判定し、その判定結果を閾値算出部24に出力す
る。この判定は例えば以下のように行うことができる。
ム前及びその近傍のフレームの各判定用パラメータと、
閾値算出部24から出力された判定用閾値を比較して、
各フレームに対する暫定的な雑音/音声区間の判定を行
う。この暫定的な判定においてNフレーム前が音声区間
であると判定され、なおかつ、その前後の少なくとも一
方に音声区間と判定されるフレームが所定数以上存在す
る場合には、Nフレーム前が音声区間であると判定す
る。即ち、Nフレーム前の情報だけでなく、その近傍
(現在を含む)の情報を用いて、総合的に判定を行う。
なお、遅延判定部26の判定に用いるパラメータについ
ては、前記判定用パラメータが複数のパラメータで構成
されている場合に、その一部だけを用いて簡易に判定す
るようにしても構わない。
結果を出力すると、その判定結果と、記憶部22に記憶
されているNフレーム前の判定用パラメータとを用い
て、非遅延判定部25が使用する判定用閾値を更新し、
更新後の判定用閾値を非遅延判定部25に出力する。
24が更新後の判定用閾値を出力すると、パラメータ分
析部21が出力する現在のフレームの判定用パラメータ
と、更新後の判定用閾値とを比較して、現在のフレーム
が雑音区間であるか音声区間であるかを判定し、この判
定結果を出力する。
によれば、上記実施の形態3の構成において、遅延判定
部26が、閾値算出部24から出力される判定用閾値を
用いて判定を行うようにしたので、上記実施の形態3が
持つ効果に加えて、遅延判定部26内での処理が簡易化
でき、なおかつ、安定に更新された判定用閾値を利用す
ることで一次判定の精度が一層改善し、音声区間のパラ
メータを用いて判定用閾値である推定雑音情報(雑音区
間の平均的な非遅延判定用パラメータ)を更新したり、
雑音区間のパラメータを用いて判定用閾値である推定音
声情報(音声区間の平均的な非遅延判定用パラメータ)
を更新することが少なくなり、最終的な雑音区間判定の
精度が向上する効果がある。
延判定部5が判定結果のみを出力し、閾値算出部6が、
遅延判定部5の判定結果が音声区間であるか雑音区間で
あるかに応じて判定用閾値の更新を行うものについて示
したが、遅延判定部5が、Nフレーム前が音声区間であ
る可能性の大きさを出力し、閾値算出部6がこの可能性
の大きさに応じて判定用閾値の更新速度を制御する構成
も可能である。以下、図1に基づいて、動作が新規な部
分のみ説明する。
るMフレーム分の遅延判定用パラメータを用いて、Nフ
レーム前が音声区間である可能性の大きさを算出して、
その可能性の大きさを閾値算出部6に出力する。この算
出は例えば以下のように行うことができる。
れる場合には、まず、Mフレーム分の遅延判定用パラメ
ータから雑音区間フレームを特定する。そして、この雑
音区間フレームの遅延判定用パラメータから平均的な雑
音区間の遅延判定用パラメータを求める。一方、Mをそ
れほど大きく取れない場合には、各フレームの遅延判定
用パラメータを用いて平均的な雑音区間の遅延判定用パ
ラメータを逐次更新する。
フレーム前及びその近傍のフレームの各遅延判定用パラ
メータと、この平均的な雑音区間の遅延判定用パラメー
タとの距離を計算する。この複数の距離値を、予め用意
しておいたニューラルネットワークに入力して、出力値
として、Nフレーム前が音声区間である可能性の大きさ
を得る。なお、このニューラルネットワークは、音声区
間と雑音区間が正しく判定されている様々な雑音重畳音
声データを分析して、上記と同様の距離値と正しい判定
結果(音声区間なら1、雑音区間なら0)を教師信号と
して与えて学習を行っておく。この場合、常に0〜1の
値が出力される。
されたNフレーム前が音声区間である可能性の大きさ
と、記憶部4に記憶されているNフレーム前の非遅延判
定用パラメータとを用いて、非遅延判定部7が使用する
判定用閾値を更新し、更新後の判定用閾値を非遅延判定
部7に出力する。この更新は、例えば以下のように行う
ことができる。
平均的な非遅延判定用パラメータPnと、音声区間の平
均的な非遅延判定用パラメータPsを更新する。具体的
には、遅延判定部5により算出されたNフレーム前が音
声区間である可能性の大きさQと、更新速度に関する固
定値Cn,Cs(1より小さい正の固定値)とを用い
て、(5)式及び(6)式から2つの更新速度αn,α
sを算出する。
と、Nフレーム前の非遅延判定用パラメータPとを用い
て、(7)式及び(8)式から雑音区間の平均的な非遅
延判定用パラメータPnと音声区間の平均的な非遅延判
定用パラメータPsを更新する。音声区間である可能性
が高い場合には、Qが1に近づくため、αnが1に近づ
くとともに、αsが1−Csに近づき、Pnの更新は殆
ど行われず、Psの更新速度が大きくなる。逆に音声区
間である可能性が低い場合には、Qが0に近づくため、
αnが1−Cnに近づくとともに、αsが1に近づき、
Psの更新は殆ど行われず、Pnの更新速度が大きくな
る。
(3)式と(4)式によって2つの判定用閾値Th1,
Th2を算出し、これを出力とする。
いて、遅延判定用パラメータ上での距離をニューラルネ
ットワークに入力して音声区間である可能性の大きさを
求めたが、距離に上限値を与えたり、対数距離、複数の
パラメータの各々の重要度に基づいた重み付け距離など
の尺度を用いても構わないし、ニューラルネットワーク
ではなく、適切な演算式によって算出しても構わない。
更に更新速度の制御方法は(5)式と(6)式に限定さ
れるものではなく、Qが0.6以上の時にのみPsの更
新を行い、Qが0.4以下の時にのみPnの更新を行う
など、様々な方法が可能である。また、上記実施の形態
2から実施の形態4の遅延判定部と閾値算出部を、この
実施の形態5と同様なものに変更した構成も可能であ
る。
によれば、上記実施の形態1から実施の形態4の構成に
おいて、Nフレーム前が音声区間である可能性の大きさ
を算出し、この可能性の大きさに基づいて判定用閾値の
更新速度を制御するようにしたので、上記実施の形態1
から実施の形態4が持つ効果に加えて、遅延判定部にお
いて音声区間であるか雑音区間であるかを2値判定して
いた場合に避けられない誤判定による判定用閾値の急激
な更新を緩和でき、最終的な雑音区間判定の精度が向上
する効果がある。この実施の形態5の場合、雑音区間で
あるか音声区間であるか曖昧な場合には、判定用閾値の
更新が自動的に遅く制御されることにより上記の効果が
得られる。
態6による雑音区間判定装置を示す構成図であり、図に
おいて、図1と同一符号は同一または相当部分を示すの
で説明を省略する。31は閾値算出部6により更新され
た判定用閾値の変動を分析する変動性分析部(遅延制御
手段)、32は変動性分析部31により分析された変動
の大きさに応じて遅延フレーム数を示すNの値を制御す
る遅延制御部(遅延制御手段)である。
ムと呼ばれる所定の時間長の入力音声が、パラメータ分
析部1内の非遅延判定用パラメータ分析部2と遅延判定
用パラメータ分析部3に入力される。非遅延判定用パラ
メータ分析部2は、入力音声を分析して、入力音声(現
在のフレーム)の特徴を表す所定のパラメータを求め、
これを非遅延判定用パラメータとして出力する。一方、
遅延判定用パラメータ分析部3は、入力音声を分析し
て、非遅延判定用パラメータ分析部2と異なる所定のパ
ラメータを求め、これを遅延判定用パラメータとして出
力する。
延判定用パラメータとMフレーム分の遅延判定用パラメ
ータを記憶することができる能力を有し、その内部に記
憶されている最も過去のフレームの両パラメータ、即
ち、(N+1)フレーム前の非遅延判定用パラメータ
と、Mフレーム前の遅延判定用パラメータを忘却し、非
遅延判定用パラメータ分析部2が出力する現在のフレー
ムの非遅延判定用パラメータと、遅延判定用パラメータ
分析部3が出力する現在のフレームの遅延判定用パラメ
ータを記憶することで、内部状態を更新する。
るMフレーム分の遅延判定用パラメータを用いて、Nフ
レーム前が雑音区間であるか音声区間であるかを判定
し、その判定結果を閾値算出部6に出力する。閾値算出
部6は、遅延判定部5の判定結果と、記憶部4に記憶さ
れているNフレーム前の非遅延判定用パラメータとを用
いて、非遅延判定部7が使用する判定用閾値を更新し、
更新後の判定用閾値を非遅延判定部7と変動性分析部3
1に出力する。
タ分析部2が出力する現在のフレームの非遅延判定用パ
ラメータと、閾値算出部6が出力する判定用閾値とを比
較して、現在のフレームが雑音区間であるか音声区間で
あるかを判定し、この判定結果を出力する。
力された判定用閾値の変動の大きさを分析して、その結
果を遅延制御部32に出力する。変動の分析としては、
過去の複数フレーム分の判定用閾値を記憶しておき、そ
の最大値と最小値の差の大きさを固定値にて正規化した
値を求めたり、フレーム毎の判定用閾値の変化量を求め
て、その最大値や標準偏差を固定値にて正規化した値を
求めるなど、様々な方法が可能である。
は、雑音の変動性に関するものである。従って、判定用
閾値として、上記実施の形態1と同様に、雑音区間の平
均的な非遅延判定用パラメータと音声区間の平均的な非
遅延判定用パラメータを用いている場合には、雑音区間
の平均的な非遅延判定用パラメータの変動の大きさを分
析する。
り分析された変動の大きさが大きいほど、遅延フレーム
数Nを大きく制御し、このNの値を記憶部4、遅延判定
部5及び閾値算出部6に出力する。記憶部4、遅延判定
部5及び閾値算出部6は前記した通り、このNの値を用
いて、次のフレーム以降の各処理を行う。
限値を与え、変動の大きさが所定の閾値を上回るフレー
ムと下回るフレームをカウントアップし、所定の閾値を
上回るフレーム数の方が所定数より多くなったらNを1
増やし、逆に所定の閾値を下回るフレーム数の方が所定
数より多くなったらNを1減らし、Nを増減させたらフ
レーム数のカウントを初期化する。なお、変動の大きさ
に関する所定の閾値については、Nの値毎に用意してお
いて現在のNの値に応じて与えればよい。
形態1をベースにして、変動性分析部31と遅延制御部
32を追加した構成としているが、上記実施の形態2か
ら実施の形態5に対して、同様の変動性分析部31と遅
延制御部32を追加した構成も可能である。
によれば、上記実施の形態1から実施の形態5の構成に
おいて、判定用閾値の変動の大きさを分析し、その大き
さが大きいほど、遅延フレーム数Nを大きく制御するよ
うにしたので、上記実施の形態1から実施の形態5が持
つ効果に加えて、雑音の変動が大きく一次判定誤りの可
能性が高い場合に遅延フレーム数Nを増やして、一次判
定誤りの増加を抑制することができ、最終的な雑音区間
判定の精度が向上する効果がある。雑音の変動性が小さ
い場合には、遅延フレーム数Nを減らすことで、記憶部
4における記憶容量を減らすことができ、判定用閾値の
雑音に対する追従性が向上して最終的な雑音区間判定の
精度が向上する効果がある。
態7による雑音区間判定装置を示す構成図であり、図に
おいて、図1と同一符号は同一または相当部分を示すの
で説明を省略する。33は雑音区間又は音声区間の何れ
であるかを判定する際、非遅延判定部7の判定結果を考
慮して判定する遅延判定部(遅延判定手段)である。
ムと呼ばれる所定の時間長の入力音声が、判定用パラメ
ータ分析部1内の非遅延判定用パラメータ分析部2と遅
延判定用パラメータ分析部3に入力される。非遅延判定
用パラメータ分析部2は、入力音声を分析して、入力音
声(現在のフレーム)の特徴を表す所定のパラメータを
求め、これを非遅延判定用パラメータとして出力する。
一方、遅延判定用パラメータ分析部3は、入力音声を分
析して、非遅延判定用パラメータ分析部2と異なる所定
のパラメータを求め、これを遅延判定用パラメータとし
て出力する。
延判定用パラメータ、Mフレーム分の遅延判定用パラメ
ータ、Mフレーム分の非遅延判定部7の判定結果を記憶
することができる能力を有し、その内部に記憶されてい
る最も過去のフレームの各パラメータ、即ち、(N+
1)フレーム前の非遅延判定用パラメータ、Mフレーム
前の遅延判定用パラメータ及びMフレーム分の非遅延判
定部7の判定結果を忘却し、非遅延判定用パラメータ分
析部2が出力する現在のフレームの非遅延判定用パラメ
ータと、遅延判定用パラメータ分析部3が出力する現在
のフレームの遅延判定用パラメータと、非遅延判定部7
が出力する判定結果を記憶することで、内部状態を更新
する。
いるMフレーム分の遅延判定用パラメータとMフレーム
分の非遅延判定部7の判定結果を用いて、Nフレーム前
が雑音区間であるか音声区間であるかを判定し、その判
定結果を閾値算出部6に出力する。その判定方法は以下
の通りである。
部5と同様の方法を用いて、記憶部4に記憶されている
Mフレーム分の遅延判定用パラメータから第一の判定を
行う。次に、記憶部4に記憶されているMフレーム分の
非遅延判定部7の判定結果を用いて、Nフレーム前が雑
音区間であるか音声区間であるかの第二の判定を行う。
この第二の判定は、Nフレーム前の非遅延判定部7の判
定結果が音声区間であるという判定であり、なおかつ、
その前後の少なくとも一方に音声区間があると判定され
たフレームが所定数以上存在する場合に、Nフレーム前
が音声区間であると判定する。
一致する場合には、それらの判定結果を遅延判定部33
の判定結果として出力する。一方、第一の判定と第二の
判定の結果が一致しない場合には、音声区間であるか雑
音区間であるかの判定を実施せず、「不定」という判定
結果を出力する。なお、判定方法の詳細については、こ
こで説明した方法に限定されるものではない。
果と、記憶部4に記憶されているNフレーム前の非遅延
判定用パラメータとを用いて、非遅延判定部7が使用す
る判定用閾値を更新し、更新後の判定用閾値を非遅延判
定部7に出力する。更新方法としては、遅延判定部33
の判定結果が、Nフレーム前が雑音区間であるとする判
定の場合には、Nフレーム前の非遅延判定用パラメータ
を用いて雑音区間の平均的な非遅延判定用パラメータを
更新する。遅延判定部33の判定結果が、Nフレーム前
が音声区間であるとする判定の場合には、Nフレーム前
の非遅延判定用パラメータを用いて音声区間の平均的な
非遅延判定用パラメータを更新する。遅延判定部33の
判定結果が「不定」である場合には、どちらの更新も行
わない。
パラメータ分析部2が出力する現在のフレームの非遅延
判定用パラメータと、閾値算出部6が出力する判定用閾
値とを比較して、現在のフレームが雑音区間であるか音
声区間であるかを判定し、この判定結果を出力する。
定部33がMフレーム分の非遅延判定部7の判定結果の
みを用いて判定を行い、遅延判定用パラメータ分析部
3、記憶部4内の遅延判定用パラメータを省略する構成
も可能である。また、この実施の形態7は、上記実施の
形態1において、Mフレーム分の判定結果を記憶して、
遅延判定に使用するようにしたものであるが、上記実施
の形態2においても同様な変更が可能である。
によれば、上記実施の形態1及び実施の形態2の構成に
おいて、少なくとも複数の非遅延判定部7の判定結果を
用いて遅延判定を行うようにしたので、判定のための情
報量が増えることで一次判定(遅延判定)の精度が改善
し、最終的な雑音区間判定の精度が向上する効果があ
る。また、一次判定において音声区間か雑音区間かの判
定がつかない場合に判定用閾値の更新を行わないように
したので、音声区間の情報を用いて誤って雑音区間に関
する判定用閾値を更新したり、雑音区間の情報を用いて
誤って音声区間に関する判定用閾値を更新することを抑
制でき、最終的な雑音区間判定が安定化する効果があ
る。
延判定部33が複数の非遅延判定部7の判定結果を用い
て遅延判定を行うようにしたが、遅延判定部33は上記
実施の形態1と同じ方法で判定を行い、閾値算出部6が
遅延判定部33の判定結果と、記憶部4に記憶されてい
るNフレーム前の非遅延判定用パラメータと複数フレー
ム分の非遅延判定部7の判定結果を用いて判定用閾値を
算出する構成も可能である。以下、図6に基づいて、動
作が新規な部分のみ説明する。
ける遅延判定部5と同様に、記憶部4に記憶されている
Mフレーム分の遅延判定用パラメータを用いて、Nフレ
ーム前が雑音区間であるか音声区間であるか判定し、そ
の判定結果を閾値算出部6に出力する。
果と、記憶部4に記憶されているNフレーム前の非遅延
判定用パラメータと、記憶部4に記憶されているMフレ
ーム分の非遅延判定部7の判定結果を用いて、非遅延判
定部7が使用する判定用閾値を更新し、更新後の判定用
閾値を非遅延判定部7に出力する。
結果と、Nフレーム前の非遅延判定部7の判定結果の両
方が雑音区間である場合には、Nフレーム前の非遅延判
定用パラメータを用いて雑音区間の平均的な非遅延判定
用パラメータを更新する。遅延判定部33の判定結果
と、Nフレーム前の非遅延判定部7の判定結果の両方が
音声区間である場合には、Nフレーム前の非遅延判定用
パラメータを用いて音声区間の平均的な非遅延判定用パ
ラメータを更新する。遅延判定部33の判定結果と、N
フレーム前の非遅延判定部7の判定結果が一致しない場
合には、どちらの更新も行わない。なお、更新方法の詳
細については、ここで説明した方法に限定されるもので
はない。
出部6がNフレーム前の非遅延判定用パラメータとMフ
レーム分の非遅延判定部7の判定結果だけを用いて更新
を行い、遅延判定用パラメータ分析部3、記憶部4内の
遅延判定用パラメータ、遅延判定部33を省略する構成
も可能である。また、この実施の形態8は、上記実施の
形態1における記憶部4と閾値算出部6を変更したもの
であるが、上記実施の形態2においても同様な変更が可
能である。
によれば、上記実施の形態1及び実施の形態2の構成に
おいて、少なくとも記憶部4に記憶されている非遅延判
定用パラメータと非遅延判定部7の判定結果を用いて、
非遅延判定のための判定用閾値を算出するようにしたの
で、遅延判定結果と合わせた場合には誤った閾値の更新
が抑制され、最終的な雑音区間判定の精度が向上する効
果がある。遅延判定結果を用いない場合には、より簡単
な構成とできる効果がある。また、遅延判定部33の判
定結果と、Nフレーム前の非遅延判定部7の判定結果が
一致しない場合には判定用閾値の更新を行わないように
したので、音声区間の情報を用いて誤って雑音区間に関
する判定用閾値を更新したり、雑音区間の情報を用いて
誤って音声区間に関する判定用閾値を更新することを抑
制でき、最終的な雑音区間判定が安定化する効果があ
る。
態9による雑音抑圧装置を示す構成図であり、図におい
て、41は入力音声をフレーム毎に分析して、その入力
音声のスペクトルを取得するスペクトル分析部(スペク
トル分析手段)、42は入力音声に応じて推定雑音スペ
クトルを更新する推定雑音スペクトル更新部、43は入
力音声をフレーム毎に分析して、その入力音声の特徴を
表す遅延判定用パラメータを取得するパラメータ分析部
(パラメータ分析手段)、44はスペクトル分析部41
により取得されたスペクトルとパラメータ分析部43に
より取得された遅延判定用パラメータを記憶する記憶部
(記憶手段)、45は記憶部44に記憶されている入力
音声の複数のフレームにおける遅延判定用パラメータか
らNフレーム前が雑音区間又は音声区間の何れであるか
を判定する遅延判定部(遅延判定手段)、46は記憶部
44に記憶されている入力音声のNフレーム前のスペク
トルと遅延判定部45の判定結果から推定雑音スペクト
ルを更新する更新部(更新手段)である。
新部46により更新された推定雑音スペクトルを用いて
入力音声の現在のフレームにおけるスペクトルを補正す
るスペクトル補正部(補正手段)、48はスペクトル補
正部47により補正されたスペクトルをフーリエ変換に
より信号領域に変換し、その得られた信号を連接して出
力音声を生成する出力音声生成部(音声生成手段)であ
る。
ムと呼ばれる所定の時間長の入力音声が、スペクトル分
析部41と推定雑音スペクトル更新部42内のパラメー
タ分析部43に入力される。
して、入力音声(現在のフレーム)のスペクトルを求
め、これを入力音声スペクトルとして、スペクトル補正
部47に出力する。また、この入力音声スペクトルの各
周波数成分のパワーを求めて、その得られたパワースペ
クトルを必要に応じてスペクトル補正部47に出力す
る。さらに、このパワースペクトルを対数領域に変換し
て、その得られた対数パワースペクトルを推定雑音スペ
クトル更新部42内の記憶部44に出力する。なお、入
力音声スペクトルの算出は、入力音声にハニング窓や台
形窓をかけた信号に対してFFTやDFTなどのフーリ
エ変換を行うことによって実行できる。
ータ分析部43は、入力音声を分析して、入力音声(現
在のフレーム)の特徴を表す所定のパラメータを求め、
これを遅延判定用パラメータとして出力する。ここで、
遅延判定用パラメータとしては、入力音声のパワー、帯
域パワー、高域強調などの所定加工処理を施した入力音
声のパワー、LSPなどのスペクトル特徴を表すスペク
トルパラメータ、このスペクトルパラメータを用いてス
ペクトル特徴を取り除いた後の残差信号のパワー、ピッ
チ周期の相関の大きさなど、従来の雑音区間判定装置で
用いられている様々なパラメータを、単独または複数用
いることができる。
数パワースペクトルとMフレーム分の遅延判定用パラメ
ータを記憶することができる能力を有し、その内部に記
憶されている最も過去のフレームの両パラメータ、即
ち、(N+1)フレーム前の対数パワースペクトルとM
フレーム前の遅延判定用パラメータを忘却し、スペクト
ル分析部41が出力する現在のフレームの対数パワース
ペクトルと、パラメータ分析部43が出力する現在のフ
レームの遅延判定用パラメータを記憶することで、内部
状態を更新する。
は、常にNフレーム前から現在のフレームまでの、合計
(N+1)フレーム分の最新の対数パワースペクトル
と、(M−1)フレーム前から現在のフレームまでの、
合計Mフレーム分の最新の遅延判定用パラメータが格納
されている状態が保たれる。なお、Nは1以上の整数、
MはNより大きい整数である。
ているMフレーム分の遅延判定用パラメータを用いて、
Nフレーム前が雑音区間であるか音声区間であるかを判
定し、その判定結果を更新部46に出力する。この判定
は例えば以下のように行うことができる。
れる場合には、まず、Mフレーム分の遅延判定用パラメ
ータから雑音区間フレームを特定する。そして、この雑
音区間フレームの遅延判定用パラメータから平均的な雑
音区間の遅延判定用パラメータを求める。一方、Mをそ
れほど大きく取れない場合には、各フレームの遅延判定
用パラメータを用いて平均的な雑音区間の遅延判定用パ
ラメータを逐次更新する。
Nフレーム前及びその近傍のフレームの各遅延判定用パ
ラメータと、この平均的な雑音区間の遅延判定用パラメ
ータを比較して、各フレームに対する暫定的な雑音/音
声区間の判定を行う。この暫定的な判定において、Nフ
レーム前が音声区間であると判定され、なおかつ、その
前後の少なくとも一方に音声区間があると判定されたフ
レームが所定数以上存在する場合には、Nフレーム前が
音声区間であると判定する。即ち、Nフレーム前の情報
だけでなく、その近傍(現在を含む)の情報を用いて、
総合的に判定を行う。この判定方法の一例については、
上記実施の形態1において、図19を用いて説明した通
りである。
と、記憶部44に記憶されているNフレーム前の対数パ
ワースペクトルとを用いて、雑音区間の平均的な対数パ
ワースペクトルである推定雑音スペクトルを更新し、更
新後の推定雑音スペクトルをスペクトル補正部47に出
力する。この更新は、例えば以下のように、1より小さ
い正の値αを更新速度として行うことができる。
前が雑音区間であるとする判定の場合に限り、Nフレー
ム前の対数パワースペクトルlog(Sp)を下記の
(9)式に代入して、推定雑音スペクトルの対数値lo
g(Spn)を更新する。即ち、1フレーム前の推定雑
音スペクトルの対数値log(Spn)にαを乗じたも
のと、Nフレーム前の対数パワースペクトルlog(S
p)に(1−α)を乗じたものを加算して、新たな推定
雑音スペクトルの対数値log(Spn)とする。な
お、Sp及びSpnは、各周波数成分の値を要素とする
ベクトルとなっている。 log(Spn)←log(Spn)×α+log(Sp)×(1−α) (9)
トル更新部42内の更新部46が出力する推定雑音スペ
クトルを用いて、スペクトル分析部41が出力する現在
のフレームの入力音声スペクトルに対する補正処理を実
施し、その得られた補正スペクトルを出力音声生成部4
8に出力する。
各周波数fの成分毎に、下記の(10)式に従って、入
力音声のパワースペクトルSpから推定雑音スペクトル
Spnを減算したときのパワースペクトルの減少率gを
算出し、この減少率gを入力音声スペクトルに対応する
各周波数成分に乗じる方法がある。 g(f) =[Max{0,Sp(f)−Spn(f)}/Sp(f)]1/2 (10)
って振幅が小さくなり過ぎた周波数成分に対して適切な
振幅値を与えるように修正するなど、従来の雑音抑圧装
置に用いられている様々な処理を適用することができ
る。
47が出力する補正スペクトルに対して、逆FFT、逆
DFTなどのフーリエ変換処理を行って、信号領域に戻
し、その得られた信号をハニング窓や台形窓などの適切
な窓をかけつつフレーム間を連接し、その連接した信号
をフレーム周期毎に出力音声として出力する。
に対数パワースペクトルを記憶する構成としたが、同情
報を含む入力音声スペクトルそのものや、等価な振幅ス
ペクトルやパワースペクトルなどを記憶する構成として
も構わない。
によれば、Nフレーム前が雑音区間であるか否かを、N
フレーム前を含む過去から現在までの複数のフレームの
遅延判定用パラメータに基づいて判定し、この判定結果
とNフレーム前の対数パワースペクトルに基づいて推定
雑音スペクトルを更新するようにしたので、Nフレーム
前が雑音区間であるか否かの判定においては、判定対象
フレームであるNフレーム前から見て過去と未来の情報
を用いることができるので誤判定が抑制でき、その結果
として、パワーが大きい音声区間の対数パワースペクト
ルを用いて推定雑音スペクトルを過大に更新することが
少なくなり、スペクトル補正部47における過剰な補正
が抑制され、最終的に雑音抑圧された出力音声における
音質が改善する効果が得られる。
形態10による雑音抑圧装置を示す構成図であり、図に
おいて、図7と同一符号は同一または相当部分を示すの
で説明を省略する。51は入力音声を数フレーム分記憶
する記憶部(記憶手段)、52は記憶部51に記憶され
ている入力音声を分析して、その入力音声のNフレーム
前のスペクトルを取得するスペクトル分析部(スペクト
ル分析手段)、53は入力音声に応じて推定雑音スペク
トルを更新する推定雑音スペクトル更新部、54は記憶
部51に記憶されている入力音声を分析して、その入力
音声の特徴を表す遅延判定用パラメータを取得するパラ
メータ分析部(パラメータ分析手段)である。
ムと呼ばれる所定の時間長の入力音声が、記憶部51に
入力される。記憶部51は、Mフレーム分の入力音声を
記憶することができる能力を有し、その内部に記憶され
ている最も過去のフレームの入力音声を忘却し、入力さ
れた現在のフレームの入力音声を記憶することで、内部
状態を更新する。この更新処理により、この記憶部51
内には、常に(M−1)フレーム前から現在のフレーム
までの、合計Mフレーム分の最新の入力音声が格納され
ている状態が保たれる。
憶されている入力音声を分析して、入力音声(現在のフ
レーム)のスペクトルを求め、これを入力音声スペクト
ルとして、スペクトル補正部47に出力する。また、必
要に応じて、この入力音声スペクトルの各周波数成分の
パワーを求めて、その得られたパワースペクトルをスペ
クトル補正部47に出力する。さらに、スペクトル分析
部52は、記憶部51に記憶されているNフレーム前の
入力音声を分析して、Nフレーム前のスペクトルを求
め、その各周波数成分のパワーを求めて、対数領域に変
換して、その得られた対数パワースペクトルを推定雑音
スペクトル更新部45内の更新部46に出力する。な
お、スペクトルの算出は、入力音声にハニング窓や台形
窓をかけた信号に対して、FFTやDFTなどのフーリ
エ変換を行うことによって実行できる。
ータ分析部54は、記憶部51に記憶されているMフレ
ーム分の入力音声を分析して、入力音声(各フレーム)
の特徴を表す所定のパラメータを求め、これを各フレー
ムの遅延判定用パラメータとして出力する。なお、非遅
延判定用パラメータ及び遅延判定用パラメータについて
は、上記実施の形態9と同様に、従来の雑音区間判定装
置で用いられている様々なパラメータを、単独または複
数用いることができる。
が出力するMフレーム分の遅延判定用パラメータを用い
て、Nフレーム前が雑音区間であるか音声区間であるか
を判定し、その判定結果を更新部46に出力する。更新
部46は、遅延判定部45の判定結果と、スペクトル分
析部52が出力するNフレーム前の対数パワースペクト
ルとを用いて、雑音区間の平均的な対数パワースペクト
ルである推定雑音スペクトルを更新し、更新後の推定雑
音スペクトルをスペクトル補正部47に出力する。
トル更新部53内の更新部46が出力する推定雑音スペ
クトルを用いて、スペクトル分析部52が出力する現在
のフレームの入力音声スペクトルに対する補正処理を実
施し、その得られた補正スペクトルを出力音声生成部4
8に出力する。
47が出力する補正スペクトルに対して、逆FFT、逆
DFTなどのフーリエ変換処理を行って、信号領域に戻
し、その得られた信号をハニング窓や台形窓などの適切
な窓をかけつつフレーム間を連接し、その連接した信号
をフレーム周期毎に出力音声として出力する。
0によれば、Mフレーム分の入力音声を記憶しておき、
これから過去及び現在の入力音声スペクトルと遅延判定
用パラメータを算出し、上記実施の形態9と同様にし
て、雑音区間の判定と推定雑音スペクトルの更新を行う
ようにしたので、上記実施の形態9が持つ効果に加え
て、(N+1)フレーム分の対数パワースペクトルとM
フレーム分の遅延判定用パラメータの情報量の合計が
(N+1)フレーム分の入力音声の情報量を上回る場合
に、記憶部51の容量を削減できる効果が得られる。
形態11による雑音抑圧装置を示す構成図であり、図に
おいて、図7と同一符号は同一または相当部分を示すの
で説明を省略する。55はスペクトル分析部41により
取得された入力音声のスペクトルから遅延判定用パラメ
ータを算出するパラメータ分析部(パラメータ分析手
段)である。
ムと呼ばれる所定の時間長の入力音声が、スペクトル分
析部41に入力される。
して、入力音声(現在のフレーム)のスペクトルを求
め、これを入力音声スペクトルとして、スペクトル補正
部47に出力する。また、この入力音声スペクトルの各
周波数成分のパワーを求めて、その得られたパワースペ
クトルを必要に応じてスペクトル補正部47に出力す
る。さらに、このパワースペクトルを対数領域に変換し
て、その得られた対数パワースペクトルを推定雑音スペ
クトル更新部42内の記憶部44及びパラメータ分析部
55に出力する。なお、入力音声スペクトルの算出は、
入力音声にハニング窓や台形窓をかけた信号に対してF
FTやDFTなどのフーリエ変換を行うことによって実
行できる。
ータ分析部55は、スペクトル分析部41が出力する対
数パワースペクトルを分析して、入力音声(現在のフレ
ーム)の特徴を表す所定のパラメータを求め、これを遅
延判定用パラメータとして出力する。
対数領域で所定帯域内を平均することで算出した帯域パ
ワー(低域パワー、高域パワーの2分割が最も単純)、
全帯域のパワー、高域に重みを強く設定して加算した対
数スペクトルの重み付き和、対数パワースペクトルをフ
ーリエ変換して求められるケプストラムなどのスペクト
ルパラメータ、このスペクトルパラメータを用いてスペ
クトル特徴を取り除いた後の残差信号のパワー、ケプス
トラムの高次から求められるピッチ周期の相関の大きさ
など、様々なパラメータを、単独または複数用いること
ができる。
数パワースペクトルとMフレーム分の遅延判定用パラメ
ータを記憶することができる能力を有し、上記実施の形
態9と同様に、その内部に記憶されている最も過去のフ
レームの両パラメータ、即ち、(N+1)フレーム前の
対数パワースペクトルとMフレーム前の遅延判定用パラ
メータを忘却し、スペクトル分析部51が出力する現在
のフレームの対数パワースペクトルと、パラメータ分析
部55が出力する現在のフレームの遅延判定用パラメー
タを記憶することで、内部状態を更新する。
ているMフレーム分の遅延判定用パラメータを用いて、
Nフレーム前が雑音区間であるか音声区間であるかを判
定し、その判定結果を更新部46に出力する。更新部4
6は、遅延判定部45の判定結果と、記憶部44に記憶
されているNフレーム前の対数パワースペクトルとを用
いて、雑音区間の平均的な対数パワースペクトルである
推定雑音スペクトルを更新し、更新後の推定雑音スペク
トルをスペクトル補正部47に出力する。
トル更新部42内の更新部46が出力する推定雑音スペ
クトルを用いて、スペクトル分析部41が出力する現在
のフレームの入力音声スペクトルに対する補正処理を実
施し、その得られた補正スペクトルを出力音声生成部4
8に出力する。
ル補正部47が出力する補正スペクトルに対して、逆F
FT、逆DFTなどのフーリエ変換処理を行って、信号
領域に戻し、その得られた信号をハニング窓や台形窓な
どの適切な窓をかけつつフレーム間を連接し、その連接
した信号をフレーム周期毎に出力音声として出力する。
タ分析部55が対数パワースペクトルを分析して遅延判
定用パラメータを算出したが、対数パワースペクトルで
はなく、入力音声スペクトルやそのパワースペクトルを
分析して算出を行うようにしても構わない。また、この
実施の形態11は、上記実施の形態9における遅延判定
用パラメータをスペクトル分析部41の出力結果を用い
て分析するようにしたものに相当するが、同様に実施の
形態10における遅延判定用パラメータを、スペクトル
分析部41の出力結果を用いて分析するようにした構成
も可能である。
1によれば、上記実施の形態9における遅延判定用パラ
メータをスペクトル分析部41の出力結果を用いて分析
するようにしたので、上記実施の形態9が持つ効果に加
えて、パラメータ分析処理量を削減できる効果がある。
同程度の処理量であれば、より精度の高い雑音区間判定
が行えるため、パワーが大きい音声区間の対数パワース
ペクトルを用いて推定雑音スペクトルを過大に更新する
ことが少なくなり、スペクトル補正部47における過剰
な補正が抑制され、最終的に雑音抑圧された出力音声に
おける音質が改善する効果が得られる。
パラメータをスペクトル分析部41の出力結果を用いて
分析するようにしたので、上記実施の形態9が持つ効果
に加えて、パラメータ分析処理量を削減できる効果があ
る。同程度の処理量であれば、より精度の高い雑音区間
判定が行えるため、パワーが大きい音声区間の対数パワ
ースペクトルを用いて推定雑音スペクトルを過大に更新
することが少なくなり、スペクトル補正部47における
過剰な補正が抑制され、最終的に雑音抑圧された出力音
声における音質が改善する効果が得られる。
の形態12による雑音抑圧装置を示す構成図であり、図
において、図9と同一符号は同一または相当部分を示す
ので説明を省略する。56は更新部46により更新され
た推定雑音スペクトルから遅延判定用パラメータを算出
するパラメータ算出部(遅延判定手段)、57はパラメ
ータ算出部56により算出された遅延判定用パラメータ
と記憶部44に記憶されている入力音声の複数のフレー
ムにおける遅延判定用パラメータを比較して、Nフレー
ム前が雑音区間又は音声区間の何れであるかを判定する
遅延判定部(遅延判定手段)である。
は、遅延判定部57の判定結果と、記憶部44に記憶さ
れているNフレーム前の対数パワースペクトルとを用い
て、雑音区間の平均的な対数パワースペクトルである推
定雑音スペクトルを更新し、更新後の推定雑音スペクト
ルをスペクトル補正部47とパラメータ算出部56に出
力する。
力する推定雑音スペクトルを分析して、平均的な雑音の
特徴を表す所定のパラメータを求め、これを遅延判定用
パラメータとして出力する。なお、ここにおける所定の
パラメータ及びその算出方法には、パラメータ分析部5
5と同じものを用いる。
ているMフレーム分の遅延判定用パラメータと、パラメ
ータ算出部56が出力する雑音区間の平均的な遅延判定
用パラメータとを比較して、Nフレーム前が雑音区間で
あるか音声区間であるかを判定し、その判定結果を更新
部46に出力する。なお、判定方法については、上記実
施の形態4の遅延判定部26と同様の方法を用いること
ができる。
2によれば、上記実施の形態11の構成において、遅延
判定部57が、推定雑音スペクトルを分析して算出され
た遅延判定用パラメータを用いて判定を行うようにした
ので、上記実施の形態11が持つ効果に加えて、遅延判
定部57内での処理が簡易化でき、なおかつ、安定に更
新された推定雑音スペクトルを利用することで雑音区間
の判定精度が一層改善され、その結果として、パワーが
大きい音声区間の対数パワースペクトルを用いて推定雑
音スペクトルを過大に更新することが少なくなり、スペ
クトル補正部47における過剰な補正が抑制され、最終
的に雑音抑圧された出力音声における音質が改善する効
果が得られる。
遅延判定部45が判定結果のみを出力し、更新部46が
遅延判定部45の判定結果が雑音区間である場合に、推
定雑音スペクトルの更新を行うものについて示したが、
遅延判定部45がNフレーム前が音声区間である可能性
の大きさを出力し、更新部46がこの可能性の大きさに
応じて推定雑音スペクトルの更新速度を制御する構成も
可能である。以下、図7に基づいて、動作が新規な部分
のみ説明する。
ているMフレーム分の遅延判定用パラメータを用いて、
Nフレーム前が音声区間である可能性の大きさを算出
し、その可能性の大きさを更新部46に出力する。この
音声区間の可能性の大きさの算出方法については、上記
実施の形態5の遅延判定部5と同様の方法を用いること
ができる。
されたNフレーム前が音声区間である可能性の大きさ
と、記憶部44に記憶されているNフレーム前の対数パ
ワースペクトルとを用いて、雑音区間の平均的な対数パ
ワースペクトルである推定雑音スペクトルを更新し、更
新後の推定雑音スペクトルをスペクトル補正部47に出
力する。この更新は、例えば以下のように行うことがで
きる。
フレーム前が音声区間である可能性の大きさQと、更新
速度に関する固定値C(1より小さい正の固定値)とを
用いて、下記の(11)式に基づいて更新速度αを算出
する。そして、この更新速度αと対数パワースペクトル
log(Sp)を(9)式に代入して推定雑音スペクト
ルの対数値log(Spn)を更新する。即ち、1フレ
ーム前の推定雑音スペクトルの対数値log(Spn)
にαを乗じたものと、Nフレーム前の対数パワースペク
トルlog(Sp)に(1−α)を乗じたものを加算し
て、新たな推定雑音スペクトルの対数値log(Sp
n)とする。なお、Sp及びSpnは、各周波数成分の
値を要素とするベクトルとなっている。 α=1−C×(1−Q)×(1−Q) (11)
が1に近づくため、αが1に近づき、推定雑音スペクト
ルSpnの更新は殆ど行われない。逆に音声区間である
可能性が低い場合には、Qが0に近づくため、αが1−
Cに近づき、推定雑音スペクトルSpnの更新は殆ど行
われない。
式に限定されるものではなく、Qが0.4以下の時にの
みSpnの更新を行うなど、様々な方法が可能である。
また、上記実施の形態10から実施の形態12の遅延判
定部と更新部をこの実施の形態13と同様なものに変更
した構成も可能である。
3によれば、上記実施の形態9から実施の形態12の構
成において、遅延判定部45がNフレーム前が音声区間
である可能性の大きさを算出し、この可能性の大きさに
基づいて制御した更新速度を用いて推定雑音スペクトル
の更新を行うようにしたので、上記実施の形態9から実
施の形態12が持つ効果に加えて、遅延判定部45にお
いて音声区間であるか雑音区間であるかを2値判定して
いた場合に避けられない誤判定による推定雑音スペクト
ルの急激な更新を緩和でき、スペクトル補正部47にお
ける過剰な補正が抑制され、最終的に雑音抑圧された出
力音声における音質が改善する効果が得られる。
の形態14による雑音抑圧装置を示す構成図であり、図
において、図7と同一符号は同一または相当部分を示す
ので説明を省略する。58は更新部46により更新され
た推定雑音スペクトルの変動を分析する変動性分析部
(遅延制御手段)、59は変動性分析部58により分析
された変動の大きさに応じて遅延フレーム数を示すNの
値を制御する遅延制御部(遅延制御手段)である。
ムと呼ばれる所定の時間長の入力音声が、スペクトル分
析部41と推定雑音スペクトル更新部42内のパラメー
タ分析部43に入力される。
して、入力音声(現在のフレーム)のスペクトルを求
め、これを入力音声スペクトルとして、スペクトル補正
部47に出力する。また、この入力音声スペクトルの各
周波数成分のパワーを求めて、その得られたパワースペ
クトルを必要に応じてスペクトル補正部47に出力す
る。さらに、このパワースペクトルを対数領域に変換し
て、その得られた対数パワースペクトルを推定雑音スペ
クトル更新部42内の記憶部44に出力する。
ータ分析部43は、入力音声を分析して、入力音声(現
在のフレーム)の特徴を表す所定のパラメータを求め、
これを遅延判定用パラメータとして出力する。
数パワースペクトルとMフレーム分の遅延判定用パラメ
ータを記憶することができる能力を有し、その内部に記
憶されている最も過去のフレームの両パラメータ、即
ち、(N+1)フレーム前の対数パワースペクトルとM
フレーム前の遅延判定用パラメータを忘却し、スペクト
ル分析部41が出力する現在のフレームの対数パワース
ペクトルと、パラメータ分析部43が出力する現在のフ
レームの遅延判定用パラメータを記憶することで、内部
状態を更新する。
ているMフレーム分の遅延判定用パラメータを用いて、
Nフレーム前が雑音区間であるか音声区間であるかを判
定し、その判定結果を更新部46に出力する。更新部4
6は、遅延判定部45の判定結果と、記憶部44に記憶
されているNフレーム前の対数パワースペクトルとを用
いて、雑音区間の平均的な対数パワースペクトルである
推定雑音スペクトルを更新し、更新後の推定雑音スペク
トルをスペクトル補正部47と変動性分析部58に出力
する。なお、遅延判定部45における判定方法、更新部
46における更新方法については、上記実施の形態9と
同様の方法を用いることができる。
る推定雑音スペクトルの変動の大きさを分析して、その
得られた結果を遅延制御部59に出力する。変動の分析
としては、過去の複数フレーム分の推定雑音スペクトル
を記憶しておき、各々を周波数方向に平滑化した後、周
波数毎の最大値と最小値の差の大きさを周波数毎の平均
値にて正規化した値を求めたり、フレーム間の周波数毎
の変化量を求めて、その最大値や標準偏差を平均値にて
正規化した値を求め、それらを全周波数成分で重み付け
平均を算出するなど、様々な方法が可能である。
り分析された変動の大きさが大きいほど、遅延フレーム
数Nを大きく制御し、このNを記憶部44、遅延判定部
45及び更新部46に出力する。記憶部44、遅延判定
部45及び更新部46は前記した通り、このNの値を用
いて次のフレーム以降の各処理を行う。Nの制御方法に
ついては、上記実施の形態6の遅延制御部と同様な方法
を用いることができる。
トル更新部42内の更新部46が出力する推定雑音スペ
クトルを用いて、スペクトル分析部41が出力する現在
のフレームの入力音声スペクトルに対する補正処理を実
施し、その得られた補正スペクトルを出力音声生成部4
8に出力する。そして、出力音声生成部48は、スペク
トル補正部47が出力する補正スペクトルに対して、逆
FFT、逆DFTなどのフーリエ変換処理を行って、信
号領域に戻し、その得られた信号をハニング窓や台形窓
などの適切な窓をかけつつフレーム間を連接し、その連
接した信号をフレーム周期毎に出力音声として出力す
る。
の形態9をベースに変動性分析部58と遅延制御部59
を追加した構成としているが、上記実施の形態10から
実施の形態13に同様の変動性分析部58と遅延制御部
59を追加した構成も可能である。
4によれば、上記実施の形態9から実施の形態13の構
成において、推定雑音スペクトルの変動の大きさを分析
し、その大きさが大きいほど、遅延フレーム数Nを大き
く制御するようにしたので、上記実施の形態9から実施
の形態13が持つ効果に加えて、推定雑音スペクトルの
変動が大きく、雑音区間判定の誤りの可能性が高い場合
には、遅延フレーム数Nを増やして、判定誤りの増加を
抑制することができ、その結果として、パワーが大きい
音声区間の対数パワースペクトルを用いて推定雑音スペ
クトルを過大に更新することが少なくなり、スペクトル
補正部47における過剰な補正が抑制され、最終的に雑
音抑圧された出力音声における音質が改善する効果が得
られる。推定雑音スペクトルの変動が小さい場合には、
遅延フレーム数Nを減らすことで、記憶部44における
記憶容量を減らすことができ、推定雑音スペクトルの雑
音に対する追従性が向上して最終的に雑音抑圧された出
力音声における音質が改善する効果が得られる。
の形態15による雑音抑圧装置を示す構成図であり、図
において、図7と同一符号は同一または相当部分を示す
ので説明を省略する。60はスペクトル分析部41によ
り取得された入力音声のスペクトルと雑音区間判定装置
における非遅延判定部7の判定結果から推定雑音スペク
トルを更新する推定雑音スペクトル更新部(更新手段)
である。
ムと呼ばれる所定の時間長の入力音声が、スペクトル分
析部41と雑音区間判定装置内のパラメータ分析部1に
入力される。雑音区間判定装置内の各構成要素は、上記
実施の形態1の雑音区間判定装置と同様に動作し、最終
的に非遅延判定部7が判定結果を出力する。
して、入力音声(現在のフレーム)のスペクトルを求
め、これを入力音声スペクトルとして、スペクトル補正
部47に出力する。また、この入力音声スペクトルの各
周波数成分のパワーを求めて、その得られたパワースペ
クトルを必要に応じてスペクトル補正部47に出力す
る。さらに、このパワースペクトルを対数領域に変換し
て、その得られた対数パワースペクトルを推定雑音スペ
クトル更新部60に出力する。
間判定装置における非遅延判定部7が出力する判定結果
と、スペクトル分析部41が出力する対数パワースペク
トルとを用いて、雑音区間の平均的な対数パワースペク
トルである推定雑音スペクトルを更新し、更新後の推定
雑音スペクトルをスペクトル補正部47に出力する。こ
の更新は、例えば以下のように、1より小さい正の値α
を更新速度として行うことができる。
る場合に限り、対数パワースペクトルlog(Sp)を
(9)式に代入して、推定雑音スペクトルの対数値lo
g(Spn)を更新する。即ち、1フレーム前の推定雑
音スペクトルの対数値log(Spn)にαを乗じたも
のと、対数パワースペクトルlog(Sp)に(1−
α)を乗じたものを加算して、新たな推定雑音スペクト
ルの対数値log(Spn)とする。
トル更新部60が出力する推定雑音スペクトルを用い
て、スペクトル分析部41が出力する現在のフレームの
入力音声スペクトルに対する補正処理を実施し、その得
られた補正スペクトルを出力音声生成部48に出力す
る。そして、出力音声生成部48は、スペクトル補正部
47が出力する補正スペクトルに対して、逆FFT、逆
DFTなどのフーリエ変換処理を行って、信号領域に戻
し、その得られた信号をハニング窓や台形窓などの適切
な窓をかけつつフレーム間を連接し、連接した信号をフ
レーム周期毎に出力音声として出力する。
判定装置の構成を上記実施の形態1の雑音区間判定装置
と同一としたが、上記実施の形態2から実施の形態8の
雑音区間判定装置と同一の構成でも構わない。
5によれば、上記実施の形態1から実施の形態8の雑音
区間判定装置を用いて、高精度に雑音区間の判定を実施
し、この判定結果を用いて推定雑音スペクトルを更新す
るようにしたので、パワーが大きい音声区間の対数パワ
ースペクトルを用いて推定雑音スペクトルを過大に更新
することが少なくなり、スペクトル補正部47における
過剰な補正が抑制され、最終的に雑音抑圧された出力音
声における音質が改善する効果が得られる。
の形態16による推定雑音情報更新方法を示すフローチ
ャートである。図において、ST1は分析ステップ、S
T2は記憶ステップ、ST3は遅延判定ステップ、ST
4は遅延更新ステップである。この実施の形態16で
は、雑音が重畳した音声が入力されたときに、その雑音
に関する所定の特徴情報の推定値である推定雑音情報を
更新する。
プST1において、現在のフレームの入力音声を分析し
て、遅延判定用パラメータと入力音声の所定の特徴を表
す特徴情報を取得する。
のパワー、帯域パワー、高域強調などの所定加工処理を
施した入力音声のパワー、LSPなどのスペクトル特徴
を表すスペクトルパラメータ、このスペクトルパラメー
タを用いてスペクトル特徴を取り除いた後の残差信号の
パワー、ピッチ周期の相関の大きさなど、従来の雑音区
間判定装置で用いられている様々なパラメータを、単独
または複数用いることができる。
おける判定用閾値を推定雑音情報として更新する場合に
は、遅延判定用パラメータと同様のパラメータとなる。
一方、雑音抑圧装置における推定雑音スペクトルを推定
雑音情報として更新する場合には、入力音声の対数パワ
ースペクトル、パワースペクトル、振幅スペクトルなど
になる。
されているNフレーム前の特徴情報とMフレーム前の遅
延判定用パラメータを忘却し、ステップST1で取得し
た現在のフレームの特徴情報と遅延判定用パラメータを
記憶することで、記憶内容を更新する。この更新処理に
より、常にNフレーム前から現在のフレームまでの、合
計(N+1)フレーム分の最新の特徴情報と、(M−
1)フレーム前から現在のフレームまでの、合計Mフレ
ーム分の最新の遅延判定用パラメータが記憶されている
状態が保たれる。なお、Nは1以上の整数、MはNより
大きい整数である。
で記憶してあるMフレーム分の遅延判定用パラメータを
用いて、Nフレーム前が雑音区間であるか音声区間であ
るかを判定する。この判定方法については、上記実施の
形態1における遅延判定部5に関して説明したものと同
じ方法を用いることができる。
における判定結果と、ステップST2で記憶してあるN
フレーム前の特徴情報とを用いて、雑音区間の平均的な
特徴情報である推定雑音情報を更新する。この更新方法
についても、上記実施の形態1における閾値算出部6な
いし上記実施の形態9における更新部46に関して説明
したものと同じ方法を用いることができる。
6によれば、Nフレーム前が雑音区間であるか否かを、
Nフレーム前を含む過去から現在までの複数フレームの
遅延判定用パラメータに基づいて判定し、この判定結果
とNフレーム前の特徴情報に基づいて推定雑音情報を更
新するようにしたので、Nフレーム前が雑音区間である
か否かの判定においては、判定対象フレームであるNフ
レーム前から見て過去と未来の情報を用いることができ
るので誤判定が抑制でき、その結果として、音声区間の
特徴情報を用いて推定雑音情報を更新することが少なく
なり、推定雑音情報の精度が向上する効果が得られる。
なお、この実施の形態16の雑音情報更新方法を用いた
雑音区間判定装置が上記実施の形態1であり、この実施
の形態16の雑音情報更新方法を用いた雑音抑圧装置が
上記実施の形態9である。
の形態17による推定雑音情報更新方法を示すフローチ
ャートである。図において、ST11は記憶ステップ、
ST12は分析ステップ、ST13は遅延判定ステッ
プ、ST14は遅延更新ステップである。
プST11において、それまでに記憶されているMフレ
ーム前の入力音声を忘却し、現在のフレームの入力音声
を記憶することで、記憶内容を更新する。この更新処理
により、常に(M−1)フレーム前から現在のフレーム
までの、合計Mフレーム分の最新の入力音声が記憶され
ている状態が保たれる。なお、Nは1以上の整数、Mは
Nより大きい整数である。
11で記憶してある入力音声を分析して、Mフレーム分
の遅延判定用パラメータと、Nフレーム前の入力音声の
所定の特徴を表す特徴情報を取得する。遅延判定用パラ
メータと特徴情報については上記実施の形態16と同様
である。
12で取得されたMフレーム分の遅延判定用パラメータ
を用いて、Nフレーム前が雑音区間であるか音声区間で
あるかを判定する。ステップST14において、ステッ
プST13における判定結果と、ステップST12で取
得されたNフレーム前の特徴情報とを用いて、雑音区間
の平均的な特徴情報である推定雑音情報を更新する。な
お、ステップST13における判定方法と、ステップS
T14における更新方法については、上記実施の形態1
6と同様である。
7によれば、Nフレーム前が雑音区間であるか否かを、
Nフレーム前を含む過去から現在までの複数フレームの
遅延判定用パラメータに基づいて判定し、この判定結果
とNフレーム前の特徴情報に基づいて推定雑音情報を更
新するようにしたので、Nフレーム前が雑音区間である
か否かの判定においては、判定対象フレームであるNフ
レーム前から見て過去と未来の情報を用いることができ
るので誤判定が抑制でき、その結果として、音声区間の
特徴情報を用いて推定雑音情報を更新することが少なく
なり、推定雑音情報の精度が向上する効果が得られる。
なお、この実施の形態17の雑音情報更新方法を用いた
雑音区間判定装置が上記実施の形態2であり、この実施
の形態17の雑音情報更新方法を用いた雑音抑圧装置が
上記実施の形態10である。
の形態18による推定雑音情報更新方法を示すフローチ
ャートである。図において、ST21は分析ステップ、
ST22は記憶ステップ、ST23は遅延判定ステッ
プ、ST24は遅延更新ステップである。
プST21において、現在のフレームの入力音声を分析
して、入力音声の所定の特徴を表す特徴情報を取得す
る。特徴情報については上記実施の形態16と同様であ
る。
憶されているMフレーム前の特徴情報を忘却し、ステッ
プST21で取得された現在のフレームの特徴情報を記
憶することで、記憶内容を更新する。この更新処理によ
り、常に(M−1)フレーム前から現在のフレームまで
の、合計Mフレーム分の最新の特徴情報が記憶されてい
る状態が保たれる。
22で記憶してあるMフレーム分の特徴情報を用いて、
Nフレーム前が雑音区間であるか音声区間であるかを判
定する。この判定方法については、上記実施の形態1の
遅延判定部5における遅延判定用パラメータの代わりに
特徴情報を用いるようにした場合と同じものを用いるこ
とができる。なお、当然のことであるが、特徴情報の一
部を取得したり、特徴情報を変換して別のパラメータと
してから判定に用いる構成も可能である。
23における判定結果と、ステップST22で記憶して
あるNフレーム前の特徴情報とを用いて、雑音区間の平
均的な特徴情報である推定雑音情報を更新する。この更
新方法については、上記実施の形態1における閾値算出
部6ないし上記実施の形態9における更新部46に関し
て説明したものと同じ方法を用いることができる。
形態16における特徴情報と遅延判定用パラメータを共
通化した構成に相当するが、同様に実施の形態17にお
ける特徴情報と遅延判定用パラメータを共通化した構成
も可能である。
8によれば、上記実施の形態16における特徴情報と遅
延判定用パラメータを共通化したので、上記実施の形態
16が持つ効果に加えて、パラメータ分析処理量と必要
な記憶容量が削減できる効果がある。同様に実施の形態
17における特徴情報と遅延判定用パラメータを共通化
したので、上記実施の形態17が持つ効果に加えて、パ
ラメータ分析処理量と必要な記憶容量が削減できる効果
がある。なお、この実施の形態18の雑音情報更新方法
を用いた雑音区間判定装置が上記実施の形態3であり、
この実施の形態18の雑音情報更新方法を用いた雑音抑
圧装置が上記実施の形態11である。
の形態19による推定雑音情報更新方法を示すフローチ
ャートである。図において、ST31は分析ステップ、
ST32は記憶ステップ、ST33は遅延判定ステッ
プ、ST34は遅延更新ステップである。
プST31において、現在のフレームの入力音声を分析
して、入力音声の所定の特徴を表す特徴情報を取得す
る。特徴情報については上記実施の形態16と同様であ
る。
憶されているMフレーム前の特徴情報を忘却し、ステッ
プST31で取得された現在のフレームの特徴情報を記
憶することで、記憶内容を更新する。この更新処理によ
り、常に(M−1)フレーム前から現在のフレームまで
の、合計Mフレーム分の最新の特徴情報が記憶されてい
る状態が保たれる。
32で記憶してあるMフレーム分の特徴情報中に含まれ
る各フレームの遅延判定用パラメータと、推定雑音情報
に含まれる遅延判定用パラメータとを比較して、Nフレ
ーム前が雑音区間であるか音声区間であるかを判定す
る。ここで、特徴情報の一部を遅延判定用パラメータと
したが、特徴情報を再分析したり、別のパラメータに変
換して遅延判定用パラメータとする構成も可能である。
33における判定結果と、ステップST32で記憶して
あるNフレーム前の特徴情報とを用いて、雑音区間の平
均的な特徴情報である推定雑音情報を更新する。
9によれば、上記実施の形態18の構成において、推定
雑音情報を用いて判定を行うようにしたので、上記実施
の形態18が持つ効果に加えて、ステップST33の遅
延判定処理が簡易化でき、なおかつ、安定に更新された
推定雑音情報を利用することで遅延判定の精度が一層改
善し、音声区間の特徴情報を用いて推定雑音情報を更新
することが少なくなり、推定雑音情報の精度が向上する
効果が得られる。なお、この実施の形態19の雑音情報
更新方法を用いた雑音区間判定装置が上記実施の形態4
であり、この実施の形態4の雑音情報更新方法を用いた
雑音抑圧装置が上記実施の形態12である。
の形態20による推定雑音情報更新方法を示すフローチ
ャートである。図において、ST41は分析ステップ、
ST42は記憶ステップ、ST43は遅延判定ステッ
プ、ST44は遅延更新ステップである。
プST41において、現在のフレームの入力音声を分析
して、遅延判定用パラメータと、入力音声の所定の特徴
を表す特徴情報を取得する。
憶されている(N+1)フレーム前の特徴情報とMフレ
ーム前の遅延判定用パラメータを忘却し、ステップST
41で取得された現在のフレームの特徴情報と遅延判定
用パラメータを記憶することで、記憶内容を更新する。
42で記憶してあるMフレーム分の遅延判定用パラメー
タを用いて、Nフレーム前が音声区間である可能性の大
きさを算出する。この算出方法については、上記実施の
形態5における遅延判定部5に関して説明したものと同
じ方法を用いることができる。
43で算出されたNフレーム前が音声区間である可能性
の大きさと、ステップST42で記憶してあるNフレー
ム前の特徴情報とを用いて、雑音区間の平均的な特徴情
報である推定雑音情報を更新する。音声区間の可能性の
大きさが大きいほど、推定雑音情報の更新速度を小さく
制御する。この更新方法については、上記実施の形態5
における閾値算出部6ないし上記実施の形態13におけ
る更新部46に関して説明したものと同じ方法を用いる
ことができる。
0によれば、上記実施の形態16から実施の形態19の
構成において、Nフレーム前が音声区間である可能性の
大きさを算出し、この可能性の大きさに基づいて推定雑
音情報の更新速度を制御するようにしたので、上記実施
の形態16から実施の形態19が持つ効果に加えて、音
声区間であるか雑音区間であるかを2値判定していた場
合に避けられない誤判定による推定雑音情報の急激な更
新を緩和でき、推定雑音情報の精度が向上する効果が得
られる。なお、この実施の形態20の雑音情報更新方法
を用いた雑音区間判定装置が上記実施の形態5であり、
この実施の形態20の雑音情報更新方法を用いた雑音抑
圧装置が上記実施の形態13である。
の形態21による推定雑音情報更新方法を示すフローチ
ャートである。図において、ST51は分析ステップ、
ST52は記憶ステップ、ST53は遅延判定ステッ
プ、ST54は遅延更新ステップ、ST55は変動性分
析ステップ、ST56は遅延制御ステップである。
51において、現在のフレームの入力音声を分析して、
遅延判定用パラメータと、入力音声の所定の特徴を表す
特徴情報を取得する。
憶されている(N+1)フレーム前の特徴情報とMフレ
ーム前の遅延判定用パラメータを忘却し、ステップST
51で取得された現在のフレームの特徴情報と遅延判定
用パラメータを記憶することで、記憶内容を更新する。
52で記憶してあるMフレーム分の遅延判定用パラメー
タを用いて、Nフレーム前が雑音区間であるか音声区間
であるかを判定する。ステップST54において、ステ
ップST53における判定結果と、ステップST52で
記憶してあるNフレーム前の特徴情報とを用いて、雑音
区間の平均的な特徴情報である推定雑音情報を更新す
る。
音情報と、ステップST54で更新された推定雑音情報
を比較することで、推定雑音情報における時間方向の変
動の大きさを分析する。なお、ステップST55におけ
る分析方法としては、上記実施の形態6及び実施の形態
14における変動性分析部31に関して説明したものと
同じ方法を用いることができる。
54で分析した変動の大きさが大きいほど、遅延フレー
ム数Nを大きく制御し、このNを次のフレーム以降のス
テップST52,ST53,ST54で使用するように
する。Nの制御方法については、上記実施の形態6の遅
延制御部32に関して説明したものと同じ方法を用いる
ことができる。
の形態16をベースに変動性分析ステップと遅延制御ス
テップを追加した構成としているが、上記実施の形態1
7から実施の形態20に、同様の変動性分析ステップと
遅延制御ステップを追加した構成も可能である。
1によれば、上記実施の形態16から実施の形態20の
構成において、推定雑音情報の変動の大きさを分析し、
その大きさが大きいほど、遅延フレーム数Nを大きく制
御するようにしたので、上記実施の形態16から実施の
形態20が持つ効果に加えて、雑音の変動が大きく雑音
区間判定の判定誤りの可能性が高い場合に遅延フレーム
数Nを増やして、その判定誤りの増加を抑制することが
でき、推定雑音情報の精度が向上する効果が得られる。
雑音の変動性が小さい場合には、遅延フレーム数Nを減
らすことで、必要な記憶容量を減らすことができ、推定
雑音情報の雑音に対する追従性が向上して最終的な推定
雑音情報の精度が向上する効果が得られる。
手段に記憶されている入力音声の複数のフレームにおけ
る遅延判定用パラメータからNフレーム前が雑音区間又
は音声区間の何れであるかを判定し、その判定結果と記
憶手段に記憶されている入力音声のNフレーム前の非遅
延判定用パラメータから判定用閾値を更新するように構
成したので、精度の高い一次判定結果を利用して雑音区
間の最終判定を実施することができるようになり、その
結果、精度よく雑音区間を判定することができる効果が
ある。
より取得された入力音声の複数のフレームにおける遅延
判定用パラメータからNフレーム前が雑音区間又は音声
区間の何れであるかを判定し、その判定結果とパラメー
タ分析手段により取得された入力音声のNフレーム前の
非遅延判定用パラメータから判定用閾値を更新するよう
に構成したので、精度の高い一次判定結果を利用して雑
音区間の最終判定を実施することができるようになり、
その結果、精度よく雑音区間を判定することができる効
果がある。また、非遅延判定用パラメータと遅延判定用
パラメータの情報量の合計が入力音声の情報量を上回る
場合、記憶手段の容量を削減することができる効果があ
る。
と非遅延判定用パラメータを共通化するように構成した
ので、パラメータの分析処理量や記憶容量が削減できる
効果がある。
れた判定用閾値と入力音声の複数のフレームにおける遅
延判定用パラメータを比較して、Nフレーム前が雑音区
間又は音声区間の何れであるかを判定するように構成し
たので、一次判定の精度が一層改善され、最終的な雑音
区間の判定精度が向上する効果がある。
の大きさを算出し、その音声区間である可能性の大きさ
に基づいて判定用閾値の更新速度を制御するように構成
したので、2値判定による一次判定では避けることがで
きない誤判定に伴う判定用閾値の急激な更新を緩和でき
るようになり、その結果、最終的な雑音区間の判定精度
が向上する効果がある。
れた判定用閾値の変動を分析し、その変動の大きさに応
じて遅延フレーム数を示すNの値を制御するように構成
したので、雑音の変動が大きい場合には、一次判定の誤
りの増加を抑制することができる一方、雑音の変動が小
さい場合には、記憶手段の記憶容量を抑制して、判定用
閾値の雑音に対する追従性を向上することができる効果
がある。
の何れであるかを判定する際、非遅延判定手段の判定結
果を考慮して判定するように構成したので、一次判定の
精度が一層改善され、最終的な雑音区間の判定精度が向
上する効果がある。
際、非遅延判定手段の判定結果を考慮して更新するよう
に構成したので、誤った判定用閾値の更新が抑制され、
最終的な雑音区間の判定精度が向上する効果がある。
いる入力音声のNフレーム前のスペクトルと遅延判定手
段の判定結果から推定雑音スペクトルを更新し、その推
定雑音スペクトルを用いて入力音声の現在のフレームに
おけるスペクトルを補正するように構成したので、雑音
区間の誤判定に伴う推定雑音スペクトルの過大な更新が
抑制され、出力音声の音質が向上する効果がある。
より分析された入力音声のNフレーム前のスペクトルと
遅延判定手段の判定結果から推定雑音スペクトルを更新
し、その推定雑音スペクトルを用いて入力音声の現在の
フレームにおけるスペクトルを補正するように構成した
ので、雑音区間の誤判定に伴う推定雑音スペクトルの過
大な更新が抑制され、出力音声の音質が向上する効果が
ある。また、スペクトルと遅延判定用パラメータの情報
量の合計が入力音声の情報量を上回る場合に、記憶手段
の容量を削減することができる効果がある。
より取得された入力音声のスペクトルから遅延判定用パ
ラメータを算出するように構成したので、パラメータの
分析処理量を削減することができる効果がある。
れた推定雑音スペクトルから遅延判定用パラメータを算
出し、その遅延判定用パラメータと入力音声の複数のフ
レームにおける遅延判定用パラメータを比較して、Nフ
レーム前が雑音区間又は音声区間の何れであるかを判定
するように構成したので、安定に更新された推定雑音ス
ペクトルを利用することで雑音区間の判定精度が一層改
善され、出力音声の音質が向上する効果がある。
の大きさを算出し、その音声区間である可能性の大きさ
に基づいて推定雑音スペクトルの更新速度を制御するよ
うに構成したので、2値判定による雑音区間の判定では
避けることができない誤判定に伴う推定雑音スペクトル
の急激な更新を緩和できるようになり、その結果、出力
音声の音質が向上する効果がある。
れた推定雑音スペクトルの変動を分析し、その変動の大
きさに応じて遅延フレーム数を示すNの値を制御するよ
うに構成したので、推定雑音スペクトルの変動が大きい
場合には、判定誤りの増加を抑制することができる一
方、推定雑音スペクトルの変動が小さい場合には、記憶
手段の記憶容量を抑制して、推定雑音スペクトルの雑音
に対する追従性を向上することができる効果がある。
いる入力音声の複数のフレームにおける遅延判定用パラ
メータからNフレーム前が雑音区間又は音声区間の何れ
であるかを判定し、その判定結果と記憶手段に記憶され
ている入力音声のNフレーム前の非遅延判定用パラメー
タから判定用閾値を更新する一方、スペクトル分析手段
により取得された入力音声のスペクトルと非遅延判定手
段の判定結果から推定雑音スペクトルを更新し、その推
定雑音スペクトルを用いて入力音声の現在のフレームに
おけるスペクトルを補正するように構成したので、雑音
区間の誤判定に伴う推定雑音スペクトルの過大な更新が
抑制され、出力音声の音質が向上する効果がある。
より取得された入力音声の複数のフレームにおける遅延
判定用パラメータからNフレーム前が雑音区間又は音声
区間の何れであるかを判定し、その判定結果とパラメー
タ分析手段により取得された入力音声のNフレーム前の
非遅延判定用パラメータから判定用閾値を更新する一
方、スペクトル分析手段により取得された入力音声のス
ペクトルと非遅延判定手段の判定結果から推定雑音スペ
クトルを更新し、その推定雑音スペクトルを用いて入力
音声の現在のフレームにおけるスペクトルを補正するよ
うに構成したので、雑音区間の誤判定に伴う推定雑音ス
ペクトルの過大な更新が抑制され、出力音声の音質が向
上する効果がある。
と特徴情報を記憶すると、入力音声の複数のフレームに
おける遅延判定用パラメータからNフレーム前が雑音区
間又は音声区間の何れであるかを判定し、その判定結果
と入力音声のNフレーム前の特徴情報から推定雑音情報
を更新するように構成したので、雑音区間の誤判定が抑
制され、精度よく推定雑音情報を更新することができる
効果がある。
遅延判定用パラメータと特徴情報を取得すると、その入
力音声の複数のフレームにおける遅延判定用パラメータ
からNフレーム前が雑音区間又は音声区間の何れである
かを判定し、その判定結果と入力音声のNフレーム前の
特徴情報から推定雑音情報を更新するように構成したの
で、雑音区間の誤判定が抑制され、精度よく推定雑音情
報を更新することができる効果がある。
と特徴情報を共通化するように構成したので、パラメー
タの分析処理量と必要な記憶容量を削減することができ
る効果がある。
判定用パラメータと入力音声の複数のフレームにおける
遅延判定用パラメータを比較して、Nフレーム前が雑音
区間又は音声区間の何れであるかを判定するように構成
したので、雑音区間の判定精度が一層改善され、精度よ
く推定雑音情報を更新することができる効果がある。
の大きさを算出し、その音声区間である可能性の大きさ
に基づいて推定雑音情報の更新速度を制御するように構
成したので、2値判定による雑音区間の判定では避ける
ことができない誤判定に伴う推定雑音情報の急激な更新
を緩和できるようになり、その結果、精度よく推定雑音
情報を更新することができる効果がある。
分析し、その変動の大きさに応じて遅延フレーム数を示
すNの値を制御するように構成したので、推定雑音情報
の変動が大きい場合には、判定誤りの増加を抑制するこ
とができる一方、推定雑音情報の変動が小さい場合に
は、記憶容量を抑制して、推定雑音情報の雑音に対する
追従性を向上することができる効果がある。
装置を示す構成図である。
装置を示す構成図である。
装置を示す構成図である。
装置を示す構成図である。
装置を示す構成図である。
装置を示す構成図である。
を示す構成図である。
置を示す構成図である。
置を示す構成図である。
装置を示す構成図である。
装置を示す構成図である。
装置を示す構成図である。
情報更新方法を示すフローチャートである。
情報更新方法を示すフローチャートである。
情報更新方法を示すフローチャートである。
情報更新方法を示すフローチャートである。
情報更新方法を示すフローチャートである。
情報更新方法を示すフローチャートである。
する説明図である。
(パラメータ分析手段)、4,11,22,44,51
記憶部(記憶手段)、5,23,26,33,45,
57 遅延判定部(遅延判定手段)、6,24 閾値算
出部(更新手段)、7,25 非遅延判定部(非遅延判
定手段)、31,58 変動性分析部(遅延制御手
段)、32,59 遅延制御部(遅延制御手段)、4
1,52 スペクトル分析部(スペクトル分析手段)、
46 更新部(更新手段)、47 スペクトル補正部
(補正手段)、48 出力音声生成部(音声生成手
段)、56 パラメータ算出部(遅延判定手段)、60
推定雑音スペクトル更新部(更新手段)。
Claims (22)
- 【請求項1】 入力音声をフレーム毎に分析して、その
入力音声の特徴を表す遅延判定用パラメータと非遅延判
定用パラメータを取得するパラメータ分析手段と、上記
パラメータ分析手段により取得された遅延判定用パラメ
ータと非遅延判定用パラメータを記憶する記憶手段と、
上記記憶手段に記憶されている入力音声の複数のフレー
ムにおける遅延判定用パラメータからNフレーム前が雑
音区間又は音声区間の何れであるかを判定する遅延判定
手段と、上記記憶手段に記憶されている入力音声のNフ
レーム前の非遅延判定用パラメータと上記遅延判定手段
の判定結果から判定用閾値を更新する更新手段と、上記
パラメータ分析手段により取得された入力音声の現在の
フレームにおける非遅延判定用パラメータと上記更新手
段により更新された判定用閾値を比較して、現在のフレ
ームが雑音区間又は音声区間の何れであるかを判定する
非遅延判定手段とを備えた雑音区間判定装置。 - 【請求項2】 入力音声を数フレーム分記憶する記憶手
段と、上記記憶手段に記憶されている入力音声を分析し
て、その入力音声の特徴を表す遅延判定用パラメータと
非遅延判定用パラメータを取得するパラメータ分析手段
と、上記パラメータ分析手段により取得された入力音声
の複数のフレームにおける遅延判定用パラメータからN
フレーム前が雑音区間又は音声区間の何れであるかを判
定する遅延判定手段と、上記パラメータ分析手段により
取得された入力音声のNフレーム前の非遅延判定用パラ
メータと上記遅延判定手段の判定結果から判定用閾値を
更新する更新手段と、上記パラメータ分析手段により取
得された入力音声の現在のフレームにおける非遅延判定
用パラメータと上記更新手段により更新された判定用閾
値を比較して、現在のフレームが雑音区間又は音声区間
の何れであるかを判定する非遅延判定手段とを備えた雑
音区間判定装置。 - 【請求項3】 パラメータ分析手段は、遅延判定用パラ
メータと非遅延判定用パラメータを共通化することを特
徴とする請求項1または請求項2記載の雑音区間判定装
置。 - 【請求項4】 遅延判定手段は、更新手段により更新さ
れた判定用閾値と入力音声の複数のフレームにおける遅
延判定用パラメータを比較して、Nフレーム前が雑音区
間又は音声区間の何れであるかを判定することを特徴と
する請求項3記載の雑音区間判定装置。 - 【請求項5】 遅延判定手段は音声区間である可能性の
大きさを算出し、更新手段は遅延判定手段が算出する音
声区間である可能性の大きさに基づいて判定用閾値の更
新速度を制御することを特徴とする請求項1から請求項
4のうちのいずれか1項記載の雑音区間判定装置。 - 【請求項6】 更新手段により更新された判定用閾値の
変動を分析し、その変動の大きさに応じて遅延フレーム
数を示すNの値を制御する遅延制御手段を設けたことを
特徴とする請求項1から請求項5のうちのいずれか1項
記載の雑音区間判定装置。 - 【請求項7】 遅延判定手段は、雑音区間又は音声区間
の何れであるかを判定する際、非遅延判定手段の判定結
果を考慮して判定することを特徴とする請求項1または
請求項2記載の雑音区間判定装置。 - 【請求項8】 更新手段は、判定用閾値を更新する際、
非遅延判定手段の判定結果を考慮して更新することを特
徴とする請求項1または請求項2記載の雑音区間判定装
置。 - 【請求項9】 入力音声をフレーム毎に分析して、その
入力音声のスペクトルを取得するスペクトル分析手段
と、その入力音声をフレーム毎に分析して、その入力音
声の特徴を表す遅延判定用パラメータを取得するパラメ
ータ分析手段と、上記スペクトル分析手段により取得さ
れたスペクトルと上記パラメータ分析手段により取得さ
れた遅延判定用パラメータを記憶する記憶手段と、上記
記憶手段に記憶されている入力音声の複数のフレームに
おける遅延判定用パラメータからNフレーム前が雑音区
間又は音声区間の何れであるかを判定する遅延判定手段
と、上記記憶手段に記憶されている入力音声のNフレー
ム前のスペクトルと上記遅延判定手段の判定結果から推
定雑音スペクトルを更新する更新手段と、上記更新手段
により更新された推定雑音スペクトルを用いて入力音声
の現在のフレームにおけるスペクトルを補正する補正手
段と、上記補正手段により補正されたスペクトルを信号
領域の出力音声に変換する音声生成手段とを備えた雑音
抑圧装置。 - 【請求項10】 入力音声を数フレーム分記憶する記憶
手段と、上記記憶手段に記憶されている入力音声を分析
して、その入力音声のNフレーム前のスペクトルを取得
するスペクトル分析手段と、上記記憶手段に記憶されて
いる入力音声を分析して、その入力音声の特徴を表す遅
延判定用パラメータを取得するパラメータ分析手段と、
上記パラメータ分析手段により分析された入力音声の複
数のフレームにおける遅延判定用パラメータからNフレ
ーム前が雑音区間又は音声区間の何れであるかを判定す
る遅延判定手段と、上記スペクトル分析手段により分析
された入力音声のNフレーム前のスペクトルと上記遅延
判定手段の判定結果から推定雑音スペクトルを更新する
更新手段と、上記更新手段により更新された推定雑音ス
ペクトルを用いて入力音声の現在のフレームにおけるス
ペクトルを補正する補正手段と、上記補正手段により補
正されたスペクトルを信号領域の出力音声に変換する音
声生成手段とを備えた雑音抑圧装置。 - 【請求項11】 パラメータ分析手段は、スペクトル分
析手段により取得された入力音声のスペクトルから遅延
判定用パラメータを算出することを特徴とする請求項9
または請求項10記載の雑音抑圧装置。 - 【請求項12】 遅延判定手段は、更新手段により更新
された推定雑音スペクトルから遅延判定用パラメータを
算出し、その遅延判定用パラメータと入力音声の複数の
フレームにおける遅延判定用パラメータを比較して、N
フレーム前が雑音区間又は音声区間の何れであるかを判
定することを特徴とする請求項11記載の雑音抑圧装
置。 - 【請求項13】 遅延判定手段は音声区間である可能性
の大きさを算出し、更新手段は遅延判定手段が算出する
音声区間である可能性の大きさに基づいて推定雑音スペ
クトルの更新速度を制御することを特徴とする請求項9
から請求項12のうちのいずれか1項記載の雑音抑圧装
置。 - 【請求項14】 更新手段により更新された推定雑音ス
ペクトルの変動を分析し、その変動の大きさに応じて遅
延フレーム数を示すNの値を制御する遅延制御手段を設
けたことを特徴とする請求項9から請求項13のうちの
いずれか1項記載の雑音抑圧装置。 - 【請求項15】 入力音声をフレーム毎に分析して、そ
の入力音声の特徴を表す遅延判定用パラメータと非遅延
判定用パラメータを取得するパラメータ分析手段と、上
記パラメータ分析手段により取得された遅延判定用パラ
メータと非遅延判定用パラメータを記憶する記憶手段
と、上記記憶手段に記憶されている入力音声の複数のフ
レームにおける遅延判定用パラメータからNフレーム前
が雑音区間又は音声区間の何れであるかを判定する遅延
判定手段と、上記記憶手段に記憶されている入力音声の
Nフレーム前の非遅延判定用パラメータと上記遅延判定
手段の判定結果から判定用閾値を更新する更新手段と、
上記パラメータ分析手段により取得された入力音声の現
在のフレームにおける非遅延判定用パラメータと上記更
新手段により更新された判定用閾値を比較して、現在の
フレームが雑音区間又は音声区間の何れであるかを判定
する非遅延判定手段と、その入力音声をフレーム毎に分
析して、その入力音声のスペクトルを取得するスペクト
ル分析手段と、上記スペクトル分析手段により取得され
た入力音声のスペクトルと上記非遅延判定手段の判定結
果から推定雑音スペクトルを更新する更新手段と、上記
更新手段により更新された推定雑音スペクトルを用いて
入力音声の現在のフレームにおけるスペクトルを補正す
る補正手段と、上記補正手段により補正されたスペクト
ルを信号領域の出力音声に変換する音声生成手段とを備
えた雑音抑圧装置。 - 【請求項16】 入力音声を数フレーム分記憶する記憶
手段と、上記記憶手段に記憶されている入力音声を分析
して、その入力音声の特徴を表す遅延判定用パラメータ
と非遅延判定用パラメータを取得するパラメータ分析手
段と、上記パラメータ分析手段により取得された入力音
声の複数のフレームにおける遅延判定用パラメータから
Nフレーム前が雑音区間又は音声区間の何れであるかを
判定する遅延判定手段と、上記パラメータ分析手段によ
り取得された入力音声のNフレーム前の非遅延判定用パ
ラメータと上記遅延判定手段の判定結果から判定用閾値
を更新する更新手段と、上記パラメータ分析手段により
取得された入力音声の現在のフレームにおける非遅延判
定用パラメータと上記更新手段により更新された判定用
閾値を比較して、現在のフレームが雑音区間又は音声区
間の何れであるかを判定する非遅延判定手段と、その入
力音声をフレーム毎に分析して、その入力音声のスペク
トルを取得するスペクトル分析手段と、上記スペクトル
分析手段により取得された入力音声のスペクトルと上記
非遅延判定手段の判定結果から推定雑音スペクトルを更
新する更新手段と、上記更新手段により更新された推定
雑音スペクトルを用いて入力音声の現在のフレームにお
けるスペクトルを補正する補正手段と、上記補正手段に
より補正されたスペクトルを信号領域の出力音声に変換
する音声生成手段とを備えた雑音抑圧装置。 - 【請求項17】 入力音声をフレーム毎に分析して、そ
の入力音声の特徴を表す遅延判定用パラメータと特徴情
報を取得し、その遅延判定用パラメータと特徴情報を記
憶すると、その入力音声の複数のフレームにおける遅延
判定用パラメータからNフレーム前が雑音区間又は音声
区間の何れであるかを判定し、その判定結果と入力音声
のNフレーム前の特徴情報から推定雑音情報を更新する
推定雑音情報更新方法。 - 【請求項18】 入力音声を数フレーム分記憶して、そ
の入力音声をフレーム毎に分析し、その入力音声の特徴
を表す遅延判定用パラメータと特徴情報を取得すると、
その入力音声の複数のフレームにおける遅延判定用パラ
メータからNフレーム前が雑音区間又は音声区間の何れ
であるかを判定し、その判定結果と入力音声のNフレー
ム前の特徴情報から推定雑音情報を更新する推定雑音情
報更新方法。 - 【請求項19】 遅延判定用パラメータと特徴情報を共
通化することを特徴とする請求項17または請求項18
記載の推定雑音情報更新方法。 - 【請求項20】 推定雑音情報中の遅延判定用パラメー
タと入力音声の複数のフレームにおける遅延判定用パラ
メータを比較して、Nフレーム前が雑音区間又は音声区
間の何れであるかを判定することを特徴とする請求項1
9記載の推定雑音情報更新方法。 - 【請求項21】 音声区間である可能性の大きさを算出
し、その音声区間である可能性の大きさに基づいて推定
雑音情報の更新速度を制御することを特徴とする請求項
17から請求項20のうちのいずれか1項記載の推定雑
音情報更新方法。 - 【請求項22】 推定雑音情報の変動を分析し、その変
動の大きさに応じて遅延フレーム数を示すNの値を制御
することを特徴とする請求項17から請求項21のうち
のいずれか1項記載の推定雑音情報更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13773799A JP3759685B2 (ja) | 1999-05-18 | 1999-05-18 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13773799A JP3759685B2 (ja) | 1999-05-18 | 1999-05-18 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000330598A true JP2000330598A (ja) | 2000-11-30 |
JP3759685B2 JP3759685B2 (ja) | 2006-03-29 |
Family
ID=15205662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13773799A Expired - Fee Related JP3759685B2 (ja) | 1999-05-18 | 1999-05-18 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3759685B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006189907A (ja) * | 2001-06-11 | 2006-07-20 | Alcatel | 信号の音声活動を検知する方法と、この方法の実施装置を含む音声信号コーダ |
JP2008151840A (ja) * | 2006-12-14 | 2008-07-03 | Nippon Telegr & Teleph Corp <Ntt> | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置 |
JP2010020165A (ja) * | 2008-07-11 | 2010-01-28 | Fujitsu Ltd | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
US8370139B2 (en) | 2006-04-07 | 2013-02-05 | Kabushiki Kaisha Toshiba | Feature-vector compensating apparatus, feature-vector compensating method, and computer program product |
JP2013508773A (ja) * | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声エンコーダの方法およびボイス活動検出器 |
JP2016145944A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016145940A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016184116A (ja) * | 2015-03-26 | 2016-10-20 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム |
JP2016191788A (ja) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | 音響処理装置、音響処理方法、及び、プログラム |
-
1999
- 1999-05-18 JP JP13773799A patent/JP3759685B2/ja not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006189907A (ja) * | 2001-06-11 | 2006-07-20 | Alcatel | 信号の音声活動を検知する方法と、この方法の実施装置を含む音声信号コーダ |
US8370139B2 (en) | 2006-04-07 | 2013-02-05 | Kabushiki Kaisha Toshiba | Feature-vector compensating apparatus, feature-vector compensating method, and computer program product |
JP2008151840A (ja) * | 2006-12-14 | 2008-07-03 | Nippon Telegr & Teleph Corp <Ntt> | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置 |
JP4758879B2 (ja) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
JP2010020165A (ja) * | 2008-07-11 | 2010-01-28 | Fujitsu Ltd | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
US9135924B2 (en) | 2008-07-11 | 2015-09-15 | Fujitsu Limited | Noise suppressing device, noise suppressing method and mobile phone |
JP2013508773A (ja) * | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声エンコーダの方法およびボイス活動検出器 |
US9401160B2 (en) | 2009-10-19 | 2016-07-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and voice activity detectors for speech encoders |
JP2016145944A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016145940A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2016184116A (ja) * | 2015-03-26 | 2016-10-20 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム |
JP2016191788A (ja) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | 音響処理装置、音響処理方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3759685B2 (ja) | 2006-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6788086B2 (ja) | オーディオ信号における背景雑音の推定 | |
US10249316B2 (en) | Robust noise estimation for speech enhancement in variable noise conditions | |
US8380500B2 (en) | Apparatus, method, and computer program product for judging speech/non-speech | |
US6216103B1 (en) | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise | |
US9208780B2 (en) | Audio signal section estimating apparatus, audio signal section estimating method, and recording medium | |
JP4440937B2 (ja) | 暗騒音存在時の音声を改善するための方法および装置 | |
JP4886715B2 (ja) | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 | |
JP4753821B2 (ja) | 音信号補正方法、音信号補正装置及びコンピュータプログラム | |
US20110238417A1 (en) | Speech detection apparatus | |
US10354659B2 (en) | Frame loss compensation processing method and apparatus | |
US20140177853A1 (en) | Sound processing device, sound processing method, and program | |
US6658380B1 (en) | Method for detecting speech activity | |
WO2001029821A1 (en) | Method for utilizing validity constraints in a speech endpoint detector | |
US5696873A (en) | Vocoder system and method for performing pitch estimation using an adaptive correlation sample window | |
JP2000330598A (ja) | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 | |
EP1199712A2 (en) | Noise reduction method | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2817429B2 (ja) | 音声認識装置 | |
US20180061436A1 (en) | Audio processing method, audio processing device, and computer readable storage medium | |
CN116137154A (zh) | 语音信号的信号增强方法、装置、设备及存储介质 | |
Sun et al. | Robust noise estimation using minimum correction with harmonicity control. | |
JPH0844390A (ja) | 音声認識装置 | |
JP2001067092A (ja) | 音声検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060104 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110113 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120113 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130113 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130113 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |