JP3759685B2 - 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 - Google Patents
雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 Download PDFInfo
- Publication number
- JP3759685B2 JP3759685B2 JP13773799A JP13773799A JP3759685B2 JP 3759685 B2 JP3759685 B2 JP 3759685B2 JP 13773799 A JP13773799 A JP 13773799A JP 13773799 A JP13773799 A JP 13773799A JP 3759685 B2 JP3759685 B2 JP 3759685B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- determination
- noise
- delay
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Noise Elimination (AREA)
- Telephone Function (AREA)
Description
【発明の属する技術分野】
この発明は、ディジタル音声信号中の背景雑音が支配的な区間を判定する雑音区間判定装置、ディジタル音声信号に含まれている音声以外の雑音成分を抑圧する雑音抑圧装置、及び雑音区間判定装置や雑音抑圧装置などで使用される推定雑音情報更新方法に関するものである。
【0002】
【従来の技術】
従来の雑音区間判定装置としては、特開平3−48900号公報、特開平4−58297号公報に開示されているものがある。
特開平3−48900号公報に開示されている雑音区間判定装置は、雑音区間判定装置の性能向上を目的としたものであり、現在のフレームの入力音声に対して特徴パラメータを算出し、全ての特徴パラメー又は雑音区間の特徴パラメータを記憶する。
【0003】
そして、Sフレーム前から数えてNフレーム分の過去の特徴パラメータ集合を取り出して、現在のフレームの特徴ベクトルとの距離ベクトル又はベクトルのノルムを求めて、これを変換パラメータとし、この変換パラメータと予め設定された標準パターンとを比較して雑音区間を判定するようにしたものである。
【0004】
即ち、過去のフレームの特徴パラメータと現在のフレームの特徴パラメータを用いて、現在のフレームが有音区間であるか否かを判定するための判定用パラメータとして変換パラメータを求め、この変換パラメータを用いて現在のフレームの判定を行っている。
【0005】
なお、背景雑音の影響を回避するために雑音区間の特徴パラメータのみを記憶する構成の場合、現在のフレームに対する雑音区間判定(一次判定)を行い、その結果が雑音区間と判定したときに現在のフレームの特徴パラメータを記憶するようにしている。
この従来の雑音区間判定装置における推定雑音情報は、Sフレーム前から数えてNフレーム分の過去の特徴パラメータ集合であり、その更新は、現在のフレームが雑音区間であると一次判定されたときに現在のフレームの特徴パラメータをバッファに追加記憶することによって行われている。
【0006】
特開平4−58297号公報に開示されている雑音区間判定装置は、上記特開平3−48900号公報に開示されている雑音区間判定装置と同様に、雑音区間判定装置の性能向上を目的としたものであり、現在のフレームの入力音声に対して特徴パラメータを算出し、雑音区間であると一次判定されたフレームの特徴ベクトルを記憶する。
【0007】
そして、Sフレーム前から数えてNフレーム分の過去の特徴パラメータ集合を取り出して、この集合に基づいて雑音標準パターンを作成し、現在のフレームの特徴パラメータを雑音標準パターンと比較することで、雑音区間を判定するようにしたものである。
【0008】
この従来の雑音区間判定装置における推定雑音情報は、Sフレーム前から数えてNフレーム分の過去の特徴パラメータ集合、または、この集合に基づいて作成された雑音標準パターンであり、その更新は、現在のフレームが雑音区間であると一次判定されたときに現在のフレームの特徴パラメータをバッファに追加記憶することによって行われている。
【0009】
従来の雑音抑圧装置としては、特開平9−311698号公報に開示されているものがある。
特開平9−311698号公報に開示されている雑音抑圧装置は、雑音抑圧後の音質を改善することを目的としたものであり、音声区間では推定雑音信号(推定雑音情報)の更新を停止させるか、または、雑音区間より遅い追従速度で更新させるようにしている。現在のフレームが音声区間であるか雑音区間であるかの判定については、短期間信号のパワー平均値の差、相関係数、LPC係数の変化などを用いることができると記載されている。
【0010】
【発明が解決しようとする課題】
従来の雑音区間判定装置は以上のように構成されているので、現在のフレームが雑音区間であるか否かの一次判定を実施して、その判定結果に基づいて推定雑音情報を更新するが、この一次判定に誤りが生じると、音声区間の特徴が推定雑音情報に取り込まれてしまうため、雑音区間の判定精度が低下するなどの課題があった。特に、背景雑音レベルが高い場合、レベルの低い音声区間(例えば、音声の立ち上がり区間)と、雑音が変動している区間の判定が困難であるため、一次判定に誤りが生じ易く、その誤った一次判定が雑音区間の判定精度の低下をもたらすという課題があった。
【0011】
また、従来の雑音抑圧装置は以上のように構成されているので、現在のフレームが音声区間であるか雑音区間であるかの判定を実施して、その判定結果に基づいて推定雑音情報の更新を制御しているが、その判定に誤りが生じると、音声区間の特徴が推定雑音情報に取り込まれてしまうため、この推定雑音情報を用いて雑音抑圧処理を実施すると、雑音抑圧後の音質が劣化するなどの課題があった。特に、背景雑音レベルが高い場合、レベルの低い音声区間(例えば、音声の立ち上がり区間)と、雑音が変動している区間の判定が困難であるため、判定を誤って音声区間の特徴を推定雑音情報に取り込み易く、雑音抑圧後の音質が劣化し易いという課題があった。
【0012】
この発明は上記のような課題を解決するためになされたもので、雑音区間の一次判定精度を高めて、精度よく雑音区間を判定することができる雑音区間判定装置を得ることを目的とする。
また、この発明は、雑音区間の判定精度を高めて、精度よく雑音を抑圧することができる雑音抑圧装置を得ることを目的とする。
さらに、この発明は、音声区間の特徴の取り込みを抑制して、精度よく推定雑音情報を更新することができる推定雑音情報更新方法を得ることを目的とする。
【0013】
【課題を解決するための手段】
この発明に係る雑音区間判定装置は、記憶手段に記憶されている現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定する遅延判定手段を設け、その遅延判定手段の判定結果に応じて雑音区間又は音声区間の平均的な非遅延判定用パラメータを更新したのち、雑音区間及び音声区間の平均的な非遅延判定用パラメータと記憶手段に記憶されている現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータとを用いて判定用閾値を更新するようにしたものである。
【0014】
この発明に係る雑音区間判定装置は、パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定する遅延判定手段を設け、その遅延判定手段の判定結果に応じて雑音区間又は音声区間の平均的な非遅延判定用パラメータを更新したのち、雑音区間及び音声区間の平均的な非遅延判定用パラメータと上記パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータとを用いて判定用閾値を更新するようにしたものである。
【0015】
この発明に係る雑音区間判定装置は、遅延判定用パラメータと非遅延判定用パラメータを共通化するようにしたものである。
【0016】
この発明に係る雑音区間判定装置は、現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと更新手段により更新された判定用閾値とを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定するようにしたものである。
【0017】
この発明に係る雑音区間判定装置は、遅延判定手段が音声区間である可能性の大きさを算出すると、その音声区間である可能性の大きさに基づいて更新速度を算出し、その更新速度と現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータとを用いて、雑音区間及び音声区間の平均的な非遅延判定用パラメータを更新するようにしたものである。
【0018】
この発明に係る雑音区間判定装置は、更新手段により更新された判定用閾値の変動を分析し、その変動が大きい程、遅延判定手段の判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定する遅延制御手段を設けたものである。
【0019】
この発明に係る雑音区間判定装置は、現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果と非遅延判定手段によるNフレーム前のフレームの判定結果とを総合して、Nフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定するようにしたものである。
【0020】
この発明に係る雑音区間判定装置は、判定用閾値を更新する際、非遅延判定手段の判定結果を用いて更新するようにしたものである。
【0021】
この発明に係る雑音抑圧装置は、記憶手段に記憶されている現在のフレームよりNフレーム前のフレームのスペクトルと遅延判定手段の判定結果とを用いて推定雑音スペクトルを更新する更新手段を設け、その更新手段により更新された推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するようにしたものである。
【0022】
この発明に係る雑音抑圧装置は、スペクトル分析手段により分析された現在のフレームよりNフレーム前のフレームのスペクトルと遅延判定手段の判定結果とを用いて推定雑音スペクトルを更新する更新手段を設け、その更新手段により更新された推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するようにしたものである。
【0023】
この発明に係る雑音抑圧装置は、スペクトル分析手段により取得された入力音声のスペクトルから遅延判定用パラメータを算出するようにしたものである。
【0024】
この発明に係る雑音抑圧装置は、更新手段により更新された推定雑音スペクトルから遅延判定用パラメータを算出するようにしたものである。
【0025】
この発明に係る雑音抑圧装置は、遅延判定手段が音声区間である可能性の大きさを算出すると、その音声区間である可能性の大きさに基づいて更新速度を算出し、その更新速度と現在のフレームよりNフレーム前のフレームのスペクトルとを用いて、推定雑音スペクトルを更新するようにしたものである。
【0026】
この発明に係る雑音抑圧装置は、更新手段により更新された推定雑音スペクトルの変動を分析し、その変動が大きい程、遅延判定手段の判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定する遅延制御手段を設けたものである。
【0027】
この発明に係る雑音抑圧装置は、記憶手段に記憶されている入力音声の複数のフレームにおける遅延判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定し、その判定結果と記憶手段に記憶されている入力音声のNフレーム前の非遅延判定用パラメータから判定用閾値を更新する一方、スペクトル分析手段により取得された入力音声のスペクトルと非遅延判定手段の判定結果から推定雑音スペクトルを更新し、その推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するようにしたものである。
【0028】
この発明に係る雑音抑圧装置は、パラメータ分析手段により取得された入力音声の複数のフレームにおける遅延判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定し、その判定結果とパラメータ分析手段により取得された入力音声のNフレーム前の非遅延判定用パラメータから判定用閾値を更新する一方、スペクトル分析手段により取得された入力音声のスペクトルと非遅延判定手段の判定結果から推定雑音スペクトルを更新し、その推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するようにしたものである。
【0029】
この発明に係る推定雑音情報更新方法は、遅延判定用パラメータと特徴情報を記憶すると、入力音声の現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定し、その判定結果と現在のフレームよりNフレーム前のフレームの特徴情報とを用いて推定雑音情報を更新するようにしたものである。
【0030】
この発明に係る推定雑音情報更新方法は、遅延判定用パラメータと特徴情報を取得すると、その入力音声の現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定し、その判定結果と現在のフレームよりNフレーム前のフレームの特徴情報とを用いて推定雑音情報を更新するようにしたものである。
【0031】
この発明に係る推定雑音情報更新方法は、遅延判定用パラメータと特徴情報を共通化するようにしたものである。
【0033】
この発明に係る推定雑音情報更新方法は、音声区間である可能性の大きさを算出して、その音声区間である可能性の大きさに基づいて更新速度を算出し、その更新速度と現在のフレームよりNフレーム前のフレームの特徴情報とを用いて、推定雑音情報を更新するようにしたものである。
【0034】
この発明に係る推定雑音情報更新方法は、推定雑音情報の変動を分析し、その変動が大きい程、判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定するようにしたものである。
【0035】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による雑音区間判定装置を示す構成図であり、図において、1は入力音声をフレーム毎に分析して、その入力音声の特徴を表す遅延判定用パラメータと非遅延判定用パラメータを取得するパラメータ分析部(パラメータ分析手段)、2は非遅延判定用パラメータを取得する非遅延判定用パラメータ分析部、3は遅延判定用パラメータを取得する遅延判定用パラメータ分析部である。
【0036】
4はパラメータ分析部1により取得された遅延判定用パラメータと非遅延判定用パラメータを記憶する記憶部(記憶手段)、5は記憶部4に記憶されている入力音声の複数のフレームにおける遅延判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定する遅延判定部(遅延判定手段)、6は記憶部4に記憶されている入力音声のNフレーム前の非遅延判定用パラメータと遅延判定部5の判定結果から判定用閾値を更新する閾値算出部(更新手段)、7はパラメータ分析部1により取得された入力音声の現在のフレームにおける非遅延判定用パラメータと閾値算出部6により更新された判定用閾値を比較して、現在のフレームが雑音区間又は音声区間の何れであるかを判定する非遅延判定部(非遅延判定手段)である。
【0037】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、パラメータ分析部1内の非遅延判定用パラメータ分析部2と遅延判定用パラメータ分析部3に入力される。
【0038】
非遅延判定用パラメータ分析部2は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを非遅延判定用パラメータとして出力する。
一方、遅延判定用パラメータ分析部3は、入力音声を分析して、非遅延判定用パラメータ分析部2と異なる所定のパラメータ(現在のフレームの特徴を表す所定のパラメータ)を求め、これを遅延判定用パラメータとして出力する。
【0039】
ここで、非遅延判定用パラメータ及び遅延判定用パラメータとしては、入力音声のパワー、帯域パワー、高域強調などの所定の加工処理を施した入力音声のパワー、LSPなどのスペクトル特徴を表すスペクトルパラメータ、このスペクトルパラメータを用いてスペクトル特徴を取り除いた後の残差信号のパワー、ピッチ周期の相関の大きさなど、従来の雑音区間判定装置で用いられている様々なパラメータを、単独または複数で用いることができる。
【0040】
記憶部4は、パラメータ分析部1が非遅延判定用パラメータと遅延判定用パラメータを出力すると、これらを記憶するが、記憶部4は、(N+1)フレーム分の非遅延判定用パラメータと、Mフレーム分の遅延判定用パラメータを記憶することができる能力を有する。
【0041】
なお、記憶部4は、パラメータ分析部1が新たに現在のフレームの非遅延判定用パラメータと遅延判定用パラメータを出力すると、その内部に記憶されている最も過去のフレームの両パラメータ、即ち、(N+1)フレーム前の非遅延判定用パラメータと、Mフレーム前の遅延判定用パラメータを忘却し、現在のフレームの非遅延判定用パラメータと、現在のフレームの遅延判定用パラメータを記憶することで内部状態を更新する。
この更新処理により、記憶部4内には、常にNフレーム前から現在のフレームまでの、合計(N+1)フレーム分の最新の非遅延判定用パラメータと、(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の遅延判定用パラメータが格納されている状態が保たれる。ただし、Nは1以上の整数、MはNより大きい整数である。
【0042】
遅延判定部5は、記憶部4が非遅延判定用パラメータと遅延判定用パラメータを記憶すると、記憶部4に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか、音声区間であるかを判定し、その判定結果を閾値算出部6に出力する。
【0043】
上記の判定は例えば以下のように行うことができる。
Mを雑音区間が必ず含まれるほど大きく取れる場合には、Mフレーム分の遅延判定用パラメータから雑音区間フレームを特定し、その雑音区間フレームの遅延判定用パラメータから平均的な雑音区間の遅延判定用パラメータを求める。
Mをそれほど大きく取れない場合には、各フレームの遅延判定用パラメータを用いて平均的な雑音区間の遅延判定用パラメータを逐次更新する。
【0044】
そして、遅延判定部5の判定対象であるNフレーム前及びその近傍のフレームの各遅延判定用パラメータと、この平均的な雑音区間の遅延判定用パラメータを比較して、各フレームに対する暫定的な雑音/音声区間の判定を行う。この暫定的な判定において、Nフレーム前が音声区間であると判定され、なおかつ、その前後の少なくとも一方に音声区間と判定されたフレームが所定数以上存在する場合に、Nフレーム前が音声区間であると判定する。
即ち、Nフレーム前の情報だけでなく、その近傍(現在を含む)の情報を用いて総合的に判定を行う。
【0045】
図19は遅延判定部5における判定方法の一例を説明する説明図である。
図19では遅延判定用パラメータとして入力音声のパワーを使用し、背景雑音区間のパワーがある程度定常で、かつ、音声区間の大半より低い値となる条件を前提にして判定を行う。
【0046】
図19の場合には、aの区間のパワー値が低いので暫定的に雑音区間と判定される。
ただし、図19(1)では、Nフレーム前は暫定的に音声区間であると判定されるが、その前後に音声区間と判定されるフレームがないため、最終的にNフレーム前は雑音区間であると判定される。
これに対し、図19(2)では、Nフレーム前に加えて、(N−1)フレーム前以降に音声区間と判定されるフレームが多く存在するので、最終的にNフレーム前は音声区間であると判定される。
【0047】
閾値算出部6は、遅延判定部5が判定結果を出力すると、その判定結果と記憶部4に記憶されているNフレーム前の非遅延判定用パラメータとを用いて、非遅延判定部7が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部7に出力する。
【0048】
この更新は、例えば以下のように、1より小さい正の値αを更新速度として行うことができる。
まず、閾値算出部6は、内部パラメータとして、雑音区間の平均的な非遅延判定用パラメータPnと音声区間の平均的な非遅延判定用パラメータPsを更新する。
具体的には、遅延判定部5の判定結果が、Nフレーム前が雑音区間であるとする判定の場合、Nフレーム前の非遅延判定用パラメータPを用いて雑音区間の平均的な非遅延判定用パラメータPnを更新する。
遅延判定部5の判定結果が、Nフレーム前が音声区間であるとする判定の場合、Nフレーム前の非遅延判定用パラメータPを用いて音声区間の平均的な非遅延判定用パラメータPsを更新する。
【0049】
この2つの内部パラメータの更新は、(1)式と(2)式に示すように、1フレーム前の非遅延判定用パラメータPn又はPsにαを乗じたものと、Nフレーム前の非遅延判定用パラメータPに(1−α)を乗じたものを加算することにより行う。
Pn←Pn×α+P×(1−α) (1)
Ps←Ps×α+P×(1−α) (2)
【0050】
そして、閾値算出部6は、この2つの内部パラメータを用いて、以下の(3)式と(4)式によって第1の判定用閾値である判定用閾値Th1と第2の判定用閾値である判定用閾値Th2とを算出し、これを出力とする。なお、βとγは0より大きく1より小さい値で、βの方がγより小さい値をもつ。
Th1=Pn×β+Ps×(1−β) (3)
Th2=Pn×γ+Ps×(1−γ) (4)
【0051】
非遅延判定部7は、閾値算出部6が判定用閾値Th1,Th2を更新すると、非遅延判定用パラメータ分析部2が出力する現在のフレームの非遅延判定用パラメータと、閾値算出部6が出力する判定用閾値とを比較して、現在のフレームが雑音区間であるか、音声区間であるかを判定し、その判定結果を出力する。
その判定は、前フレームが音声区間であって、現在のフレームの非遅延判定用パラメータが判定用閾値Th1より大きい場合、または、前フレームが雑音区間であって、現在のフレームの非遅延判定用パラメータが判定用閾値Th2より大きい場合に音声区間であると判定し、それ以外であれば雑音区間であると判定する。
【0052】
なお、この実施の形態1では、雑音区間の平均的な非遅延判定用パラメータPnと音声区間の平均的な非遅延判定用パラメータPsを更新する更新速度として共通のαという値を用いたが、異なる更新速度を与えて、判定結果が良くなるように調整することも可能である。また、判定用閾値を更新するための値βとγは固定値である必要はなく、PnとPsの値の差の大きさなどに基づいて適応的な値を与えてもよい。
【0053】
また、この実施の形態1では、2つの判定用閾値Th1,Th2を用いたが、一つの判定用閾値だけの構成も可能である。また、PnまたはPsの一方のみを更新するようにして、これをそのまま判定用閾値とする構成も可能である。また、記憶部4に記憶されている複数のフレームの非遅延判定用パラメータを用いて非遅延判定を行ってもよい。非遅延判定部7については、この他にも従来の様々な雑音区間判定装置で用いられてきた各種判定方法を用いることができる。
【0054】
以上で明らかなように、この実施の形態1によれば、Nフレーム前が雑音区間であるか否かを、Nフレーム前を含む過去から現在までの複数フレームの遅延判定用パラメータに基づいて一次判定を実施し、この判定結果とNフレーム前の非遅延判定用パラメータに基づいて非遅延判定に用いる判定用閾値を更新するようにしたので、一次判定においては、判定対象フレームであるNフレーム前から見て過去と未来の情報を用いることができるので誤判定が抑制でき、その結果として、音声区間のパラメータを用いて判定用閾値である推定雑音情報(雑音区間の平均的な非遅延判定用パラメータ)を更新したり、雑音区間のパラメータを用いて判定用閾値である推定音声情報(音声区間の平均的な非遅延判定用パラメータ)を更新することが少なくなり、最終的な雑音区間判定の精度が向上する効果がある。背景雑音レベルが高い場合でも、音声の立ち上がり区間のようにレベルの低い音声区間と、雑音が変動して特徴パラメータが変化したのかが精度良く一次判定でき、安定に雑音区間判定が行える効果がある。
【0055】
実施の形態2.
図2はこの発明の実施の形態2による雑音区間判定装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。11は入力音声を数フレーム分記憶する記憶部(記憶手段)、12が記憶部11に記憶されている入力音声を分析して、その入力音声の特徴を表す遅延判定用パラメータと非遅延判定用パラメータを取得するパラメータ分析部(パラメータ分析手段)、13は非遅延判定用パラメータを取得する非遅延判定用パラメータ分析部、14は遅延判定用パラメータを取得する遅延判定用パラメータ分析部である。
【0056】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、記憶部11に入力される。
記憶部11は、Mフレーム分の入力音声を記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの入力音声を忘却し、入力された現在のフレームの入力音声を記憶することで内部状態を更新する。
この更新処理により、この記憶部11内には、常に(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の入力音声が格納されている状態が保たれる。
【0057】
パラメータ分析部12内の非遅延判定用パラメータ分析部13は、記憶部11に記憶されているNフレーム前の入力音声と現在のフレームの入力音声を分析して、各フレームの入力音声の特徴を表す所定のパラメータを求め、これを各フレームの非遅延判定用パラメータとして出力する。
一方、パラメータ分析部12内の遅延判定用パラメータ分析部14は、記憶部11に記憶されているMフレーム分の入力音声を分析して、非遅延判定用パラメータ分析部13と異なる所定のパラメータを求め、これを各フレームの遅延判定用パラメータとして出力する。
なお、非遅延判定用パラメータ及び遅延判定用パラメータについては、上記実施の形態1と同様に、従来の雑音区間判定装置で用いられている様々なパラメータを、単独または複数で用いることができる。
【0058】
遅延判定部5は、遅延判定用パラメータ分析部14がMフレーム分の遅延判定用パラメータを出力すると、そのMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか、音声区間であるかを判定し、その判定結果を閾値算出部6に出力する。
【0059】
閾値算出部6は、遅延判定部5が判定結果を出力すると、その判定結果と、非遅延判定用パラメータ分析部13が出力するNフレーム前の非遅延判定用パラメータとを用いて、非遅延判定部7が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部7に出力する。
【0060】
そして、非遅延判定部7は、閾値算出部6が更新後の判定用閾値を出力すると、非遅延判定用パラメータ分析部13が出力する現在のフレームの非遅延判定用パラメータと、更新後の判定用閾値とを比較して、現在のフレームが雑音区間であるか音声区間であるかを判定し、この判定結果を出力する。
遅延判定部5における判定方法、閾値算出部6における更新方法、非遅延判定部7における判定方法については、上記実施の形態1と同様な方法を用いることができる。
【0061】
なお、この実施の形態2では、遅延判定部5が、遅延判定用パラメータ分析部14が既に分析済みの複数フレームの遅延判定用パラメータを用いて判定を行ったが、遅延判定部5内での判定の信頼度が低いと判断される場合に、遅延判定部5が遅延判定用パラメータ分析部14に別の遅延判定用パラメータの分析と出力を要求し、遅延判定用パラメータ分析部14がこれに応えて、複数フレーム分の別の遅延判定用パラメータの分析と出力を行い、遅延判定部5が、このパラメータを用いて判定を行うようにすることもできる。
【0062】
以上で明らかなように、この実施の形態2によれば、Mフレーム分の入力音声を記憶しておき、これから過去及び現在の非遅延判定用パラメータと遅延判定用パラメータを算出し、上記実施の形態1と同様にして一次判定と判定用閾値の更新を行うようにしたので、上記実施の形態1が持つ効果に加えて、非遅延判定用パラメータと遅延判定用パラメータの情報量の合計が入力音声の情報量を上回る場合に、記憶部11の容量を削減できる効果が得られる。
【0063】
また、遅延判定部5が、必要に応じて別の遅延判定用パラメータの分析と出力を要求する構成とした場合には、メモリ量を増加させず、平均的な処理量をあまり増加させないで、一次判定精度を改善でき、音声区間のパラメータを用いて判定用閾値である推定雑音情報(雑音区間の平均的な非遅延判定用パラメータ)を更新したり、雑音区間のパラメータを用いて判定用閾値である推定音声情報(音声区間の平均的な非遅延判定用パラメータ)を更新することが少なくなり、最終的な雑音区間判定の精度が向上する効果がある。
【0064】
実施の形態3.
図3はこの発明の実施の形態3による雑音区間判定装置を示す構成図であり、図において、21は入力音声をフレーム毎に分析して、その入力音声の特徴を表す判定用パラメータを取得するパラメータ分析部(パラメータ分析手段)、22はパラメータ分析部21により取得された判定用パラメーを記憶する記憶部(記憶手段)、23は記憶部22に記憶されている入力音声の複数のフレームにおける判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定する遅延判定部(遅延判定手段)である。
【0065】
24は記憶部22に記憶されている入力音声のNフレーム前の判定用パラメータと遅延判定部23の判定結果から判定用閾値を更新する閾値算出部(更新手段)、25はパラメータ分析部21により取得された入力音声の現在のフレームにおける非遅延判定用パラメータと閾値算出部24により更新された判定用閾値を比較して、現在のフレームが雑音区間又は音声区間の何れであるかを判定する非遅延判定部(非遅延判定手段)である。
【0066】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、パラメータ分析部21に入力される。
パラメータ分析部21は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを判定用パラメータとして出力する。なお、判定用パラメータについては、上記実施の形態1における非遅延判定用パラメータと同じものを用いる。
【0067】
記憶部22は、Mフレーム分の判定用パラメータを記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの判定用パラメータ(Mフレーム前の判定用パラメータ)を忘却し、パラメータ分析部21が出力する現在のフレームの判定用パラメータを記憶することで、内部状態を更新する。
この更新処理により、この記憶部22内には、常に(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の判定用パラメータが格納されている状態が保たれる。
【0068】
遅延判定部23は、記憶部22に記憶されているMフレーム分の判定用パラメータを用いて、Nフレーム前が雑音区間であるか、音声区間であるかを判定し、その判定結果を閾値算出部24に出力する。
判定方法としては、上記実施の形態1における遅延判定部5の判定に用いる遅延判定用パラメータを、判定用パラメータに変更したものを用いることができる。
なお、遅延判定部23の判定に用いるパラメータについては、判定用パラメータが複数のパラメータで構成されている場合に、その一部だけを用いて簡易に判定するようにしても構わない。
【0069】
閾値算出部24は、遅延判定部23が判定結果を出力すると、その判定結果と、記憶部22に記憶されているNフレーム前の判定用パラメータとを用いて、非遅延判定部25が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部25に出力する。
更新方法としては、上記実施の形態1における閾値算出部6の更新に用いる遅延判定用パラメータを、判定用パラメータに変更したものを用いることができる。
【0070】
そして、非遅延判定部25は、閾値算出部24が更新後の判定用閾値を出力すると、パラメータ分析部21が出力する現在のフレームの判定用パラメータと、更新後の判定用閾値とを比較して、現在のフレームが雑音区間であるか音声区間であるかを判定し、この判定結果を出力する。
判定方法としては、上記実施の形態1における非遅延判定部7の判定に用いる非遅延判定用パラメータを、判定用パラメータに変更したものを用いることができる。
【0071】
なお、この実施の形態3は、上記実施の形態1における非遅延判定用パラメータと遅延判定用パラメータを共通化して判定用パラメータのみとしたものに相当するが、同様に実施の形態2における非遅延判定用パラメータと遅延判定用パラメータを共通化して判定用パラメータのみとした構成も可能である。
【0072】
以上で明らかなように、この実施の形態3によれば、上記実施の形態1における非遅延判定用パラメータと遅延判定用パラメータを共通化して判定用パラメータのみとしたので、上記実施の形態1が持つ効果に加えて、パラメータ分析処理量、記憶部22における必要な記憶容量が削減できる効果がある。同様に実施の形態2における非遅延判定用パラメータと遅延判定用パラメータを共通化して判定用パラメータのみとしたので、上記実施の形態2が持つ効果に加えて、パラメータ分析処理量や記憶容量が削減できる効果がある。
【0073】
実施の形態4.
図4はこの発明の実施の形態4による雑音区間判定装置を示す構成図であり、図において、図3と同一符号は同一または相当部分を示すので説明を省略する。26は閾値算出部24により更新された判定用閾値と入力音声の複数のフレームにおける遅延判定用パラメータを比較して、Nフレーム前が雑音区間又は音声区間の何れであるかを判定する遅延判定部(遅延判定手段)である。
【0074】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、パラメータ分析部21に入力される。パラメータ分析部21は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを判定用パラメータとして出力する。
【0075】
記憶部22は、Mフレーム分の判定用パラメータを記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの判定用パラメータ(Mフレーム前の判定用パラメータ)を忘却し、パラメータ分析部21が出力する現在のフレームの判定用パラメータを記憶することで、内部状態を更新する。
【0076】
遅延判定部26は、記憶部22に記憶されているMフレーム分の判定用パラメータと、閾値算出部24にて前フレームまでに更新されている判定用閾値を用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を閾値算出部24に出力する。この判定は例えば以下のように行うことができる。
【0077】
遅延判定部26の判定対象であるNフレーム前及びその近傍のフレームの各判定用パラメータと、閾値算出部24から出力された判定用閾値を比較して、各フレームに対する暫定的な雑音/音声区間の判定を行う。この暫定的な判定においてNフレーム前が音声区間であると判定され、なおかつ、その前後の少なくとも一方に音声区間と判定されるフレームが所定数以上存在する場合には、Nフレーム前が音声区間であると判定する。即ち、Nフレーム前の情報だけでなく、その近傍(現在を含む)の情報を用いて、総合的に判定を行う。
なお、遅延判定部26の判定に用いるパラメータについては、前記判定用パラメータが複数のパラメータで構成されている場合に、その一部だけを用いて簡易に判定するようにしても構わない。
【0078】
閾値算出部24は、遅延判定部26が判定結果を出力すると、その判定結果と、記憶部22に記憶されているNフレーム前の判定用パラメータとを用いて、非遅延判定部25が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部25に出力する。
【0079】
そして、非遅延判定部25は、閾値算出部24が更新後の判定用閾値を出力すると、パラメータ分析部21が出力する現在のフレームの判定用パラメータと、更新後の判定用閾値とを比較して、現在のフレームが雑音区間であるか音声区間であるかを判定し、この判定結果を出力する。
【0080】
以上で明らかなように、この実施の形態4によれば、上記実施の形態3の構成において、遅延判定部26が、閾値算出部24から出力される判定用閾値を用いて判定を行うようにしたので、上記実施の形態3が持つ効果に加えて、遅延判定部26内での処理が簡易化でき、なおかつ、安定に更新された判定用閾値を利用することで一次判定の精度が一層改善し、音声区間のパラメータを用いて判定用閾値である推定雑音情報(雑音区間の平均的な非遅延判定用パラメータ)を更新したり、雑音区間のパラメータを用いて判定用閾値である推定音声情報(音声区間の平均的な非遅延判定用パラメータ)を更新することが少なくなり、最終的な雑音区間判定の精度が向上する効果がある。
【0081】
実施の形態5.
上記実施の形態1では、遅延判定部5が判定結果のみを出力し、閾値算出部6が、遅延判定部5の判定結果が音声区間であるか雑音区間であるかに応じて判定用閾値の更新を行うものについて示したが、遅延判定部5が、Nフレーム前が音声区間である可能性の大きさを出力し、閾値算出部6がこの可能性の大きさに応じて判定用閾値の更新速度を制御する構成も可能である。
以下、図1に基づいて、動作が新規な部分のみ説明する。
【0082】
遅延判定部5は、記憶部4に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が音声区間である可能性の大きさを算出して、その可能性の大きさを閾値算出部6に出力する。この算出は例えば以下のように行うことができる。
【0083】
Mを雑音区間が必ず含まれるほど大きく取れる場合には、まず、Mフレーム分の遅延判定用パラメータから雑音区間フレームを特定する。
そして、この雑音区間フレームの遅延判定用パラメータから平均的な雑音区間の遅延判定用パラメータを求める。一方、Mをそれほど大きく取れない場合には、各フレームの遅延判定用パラメータを用いて平均的な雑音区間の遅延判定用パラメータを逐次更新する。
【0084】
そして、遅延判定部5の判定対象であるNフレーム前及びその近傍のフレームの各遅延判定用パラメータと、この平均的な雑音区間の遅延判定用パラメータとの距離を計算する。この複数の距離値を、予め用意しておいたニューラルネットワークに入力して、出力値として、Nフレーム前が音声区間である可能性の大きさを得る。
なお、このニューラルネットワークは、音声区間と雑音区間が正しく判定されている様々な雑音重畳音声データを分析して、上記と同様の距離値と正しい判定結果(音声区間なら1、雑音区間なら0)を教師信号として与えて学習を行っておく。この場合、常に0〜1の値が出力される。
【0085】
閾値算出部6は、遅延判定部5により算出されたNフレーム前が音声区間である可能性の大きさと、記憶部4に記憶されているNフレーム前の非遅延判定用パラメータとを用いて、非遅延判定部7が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部7に出力する。この更新は、例えば以下のように行うことができる。
【0086】
まず、内部パラメータとして、雑音区間の平均的な非遅延判定用パラメータPnと、音声区間の平均的な非遅延判定用パラメータPsを更新する。
具体的には、遅延判定部5により算出されたNフレーム前が音声区間である可能性の大きさQと、更新速度に関する固定値Cn,Cs(1より小さい正の固定値)とを用いて、(5)式及び(6)式から2つの更新速度αn,αsを算出する。
【0087】
そして、この2つの更新速度αn,αsと、Nフレーム前の非遅延判定用パラメータPとを用いて、(7)式及び(8)式から雑音区間の平均的な非遅延判定用パラメータPnと音声区間の平均的な非遅延判定用パラメータPsを更新する。
音声区間である可能性が高い場合には、Qが1に近づくため、αnが1に近づくとともに、αsが1−Csに近づき、Pnの更新は殆ど行われず、Psの更新速度が大きくなる。
逆に音声区間である可能性が低い場合には、Qが0に近づくため、αnが1−Cnに近づくとともに、αsが1に近づき、Psの更新は殆ど行われず、Pnの更新速度が大きくなる。
【0088】
αn=1−Cn×(1−Q)×(1−Q) (5)
αs=1−Cs×Q×Q (6)
Pn←Pn×αn+P×(1−αn) (7)
Ps←Ps×αs+P×(1−αs) (8)
そして、この2つの内部パラメータを用いて、前記(3)式と(4)式によって2つの判定用閾値Th1,Th2を算出し、これを出力とする。
【0089】
この実施の形態5では、遅延判定部5において、遅延判定用パラメータ上での距離をニューラルネットワークに入力して音声区間である可能性の大きさを求めたが、距離に上限値を与えたり、対数距離、複数のパラメータの各々の重要度に基づいた重み付け距離などの尺度を用いても構わないし、ニューラルネットワークではなく、適切な演算式によって算出しても構わない。
更に更新速度の制御方法は(5)式と(6)式に限定されるものではなく、Qが0.6以上の時にのみPsの更新を行い、Qが0.4以下の時にのみPnの更新を行うなど、様々な方法が可能である。また、上記実施の形態2から実施の形態4の遅延判定部と閾値算出部を、この実施の形態5と同様なものに変更した構成も可能である。
【0090】
以上で明らかなように、この実施の形態5によれば、上記実施の形態1から実施の形態4の構成において、Nフレーム前が音声区間である可能性の大きさを算出し、この可能性の大きさに基づいて判定用閾値の更新速度を制御するようにしたので、上記実施の形態1から実施の形態4が持つ効果に加えて、遅延判定部において音声区間であるか雑音区間であるかを2値判定していた場合に避けられない誤判定による判定用閾値の急激な更新を緩和でき、最終的な雑音区間判定の精度が向上する効果がある。この実施の形態5の場合、雑音区間であるか音声区間であるか曖昧な場合には、判定用閾値の更新が自動的に遅く制御されることにより上記の効果が得られる。
【0091】
実施の形態6.
図5はこの発明の実施の形態6による雑音区間判定装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。31は閾値算出部6により更新された判定用閾値の変動を分析する変動性分析部(遅延制御手段)、32は変動性分析部31により分析された変動の大きさに応じて遅延フレーム数を示すNの値を制御する遅延制御部(遅延制御手段)である。
【0092】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、パラメータ分析部1内の非遅延判定用パラメータ分析部2と遅延判定用パラメータ分析部3に入力される。
非遅延判定用パラメータ分析部2は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを非遅延判定用パラメータとして出力する。
一方、遅延判定用パラメータ分析部3は、入力音声を分析して、非遅延判定用パラメータ分析部2と異なる所定のパラメータを求め、これを遅延判定用パラメータとして出力する。
【0093】
記憶部4は、(N+1)フレーム分の非遅延判定用パラメータとMフレーム分の遅延判定用パラメータを記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの両パラメータ、即ち、(N+1)フレーム前の非遅延判定用パラメータと、Mフレーム前の遅延判定用パラメータを忘却し、非遅延判定用パラメータ分析部2が出力する現在のフレームの非遅延判定用パラメータと、遅延判定用パラメータ分析部3が出力する現在のフレームの遅延判定用パラメータを記憶することで、内部状態を更新する。
【0094】
遅延判定部5は、記憶部4に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を閾値算出部6に出力する。
閾値算出部6は、遅延判定部5の判定結果と、記憶部4に記憶されているNフレーム前の非遅延判定用パラメータとを用いて、非遅延判定部7が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部7と変動性分析部31に出力する。
【0095】
非遅延判定部7は、非遅延判定用パラメータ分析部2が出力する現在のフレームの非遅延判定用パラメータと、閾値算出部6が出力する判定用閾値とを比較して、現在のフレームが雑音区間であるか音声区間であるかを判定し、この判定結果を出力する。
【0096】
変動性分析部31は、閾値算出部6から出力された判定用閾値の変動の大きさを分析して、その結果を遅延制御部32に出力する。
変動の分析としては、過去の複数フレーム分の判定用閾値を記憶しておき、その最大値と最小値の差の大きさを固定値にて正規化した値を求めたり、フレーム毎の判定用閾値の変化量を求めて、その最大値や標準偏差を固定値にて正規化した値を求めるなど、様々な方法が可能である。
【0097】
変動性分析部31で求める変動の大きさは、雑音の変動性に関するものである。従って、判定用閾値として、上記実施の形態1と同様に、雑音区間の平均的な非遅延判定用パラメータと音声区間の平均的な非遅延判定用パラメータを用いている場合には、雑音区間の平均的な非遅延判定用パラメータの変動の大きさを分析する。
【0098】
遅延制御部32は、変動性分析部31により分析された変動の大きさが大きいほど、遅延フレーム数Nを大きく制御し、このNの値を記憶部4、遅延判定部5及び閾値算出部6に出力する。
記憶部4、遅延判定部5及び閾値算出部6は前記した通り、このNの値を用いて、次のフレーム以降の各処理を行う。
【0099】
Nの制御方法の一例としては、上限値と下限値を与え、変動の大きさが所定の閾値を上回るフレームと下回るフレームをカウントアップし、所定の閾値を上回るフレーム数の方が所定数より多くなったらNを1増やし、逆に所定の閾値を下回るフレーム数の方が所定数より多くなったらNを1減らし、Nを増減させたらフレーム数のカウントを初期化する。なお、変動の大きさに関する所定の閾値については、Nの値毎に用意しておいて現在のNの値に応じて与えればよい。
【0100】
なお、この実施の形態6では、上記実施の形態1をベースにして、変動性分析部31と遅延制御部32を追加した構成としているが、上記実施の形態2から実施の形態5に対して、同様の変動性分析部31と遅延制御部32を追加した構成も可能である。
【0101】
以上で明らかなように、この実施の形態6によれば、上記実施の形態1から実施の形態5の構成において、判定用閾値の変動の大きさを分析し、その大きさが大きいほど、遅延フレーム数Nを大きく制御するようにしたので、上記実施の形態1から実施の形態5が持つ効果に加えて、雑音の変動が大きく一次判定誤りの可能性が高い場合に遅延フレーム数Nを増やして、一次判定誤りの増加を抑制することができ、最終的な雑音区間判定の精度が向上する効果がある。雑音の変動性が小さい場合には、遅延フレーム数Nを減らすことで、記憶部4における記憶容量を減らすことができ、判定用閾値の雑音に対する追従性が向上して最終的な雑音区間判定の精度が向上する効果がある。
【0102】
実施の形態7.
図6はこの発明の実施の形態7による雑音区間判定装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。33は雑音区間又は音声区間の何れであるかを判定する際、非遅延判定部7の判定結果を考慮して判定する遅延判定部(遅延判定手段)である。
【0103】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、判定用パラメータ分析部1内の非遅延判定用パラメータ分析部2と遅延判定用パラメータ分析部3に入力される。
非遅延判定用パラメータ分析部2は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを非遅延判定用パラメータとして出力する。
一方、遅延判定用パラメータ分析部3は、入力音声を分析して、非遅延判定用パラメータ分析部2と異なる所定のパラメータを求め、これを遅延判定用パラメータとして出力する。
【0104】
記憶部4は、(N+1)フレーム分の非遅延判定用パラメータ、Mフレーム分の遅延判定用パラメータ、Mフレーム分の非遅延判定部7の判定結果を記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの各パラメータ、即ち、(N+1)フレーム前の非遅延判定用パラメータ、Mフレーム前の遅延判定用パラメータ及びMフレーム分の非遅延判定部7の判定結果を忘却し、非遅延判定用パラメータ分析部2が出力する現在のフレームの非遅延判定用パラメータと、遅延判定用パラメータ分析部3が出力する現在のフレームの遅延判定用パラメータと、非遅延判定部7が出力する判定結果を記憶することで、内部状態を更新する。
【0105】
遅延判定部33は、記憶部4に記憶されているMフレーム分の遅延判定用パラメータとMフレーム分の非遅延判定部7の判定結果を用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を閾値算出部6に出力する。その判定方法は以下の通りである。
【0106】
まず、上記実施の形態1における遅延判定部5と同様の方法を用いて、記憶部4に記憶されているMフレーム分の遅延判定用パラメータから第一の判定を行う。
次に、記憶部4に記憶されているMフレーム分の非遅延判定部7の判定結果を用いて、Nフレーム前が雑音区間であるか音声区間であるかの第二の判定を行う。この第二の判定は、Nフレーム前の非遅延判定部7の判定結果が音声区間であるという判定であり、なおかつ、その前後の少なくとも一方に音声区間があると判定されたフレームが所定数以上存在する場合に、Nフレーム前が音声区間であると判定する。
【0107】
そして、第一の判定と第二の判定の結果が一致する場合には、それらの判定結果を遅延判定部33の判定結果として出力する。
一方、第一の判定と第二の判定の結果が一致しない場合には、音声区間であるか雑音区間であるかの判定を実施せず、「不定」という判定結果を出力する。なお、判定方法の詳細については、ここで説明した方法に限定されるものではない。
【0108】
閾値算出部6は、遅延判定部33の判定結果と、記憶部4に記憶されているNフレーム前の非遅延判定用パラメータとを用いて、非遅延判定部7が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部7に出力する。
更新方法としては、遅延判定部33の判定結果が、Nフレーム前が雑音区間であるとする判定の場合には、Nフレーム前の非遅延判定用パラメータを用いて雑音区間の平均的な非遅延判定用パラメータを更新する。遅延判定部33の判定結果が、Nフレーム前が音声区間であるとする判定の場合には、Nフレーム前の非遅延判定用パラメータを用いて音声区間の平均的な非遅延判定用パラメータを更新する。遅延判定部33の判定結果が「不定」である場合には、どちらの更新も行わない。
【0109】
最後に、非遅延判定部7は、非遅延判定用パラメータ分析部2が出力する現在のフレームの非遅延判定用パラメータと、閾値算出部6が出力する判定用閾値とを比較して、現在のフレームが雑音区間であるか音声区間であるかを判定し、この判定結果を出力する。
【0110】
なお、この実施の形態7において、遅延判定部33がMフレーム分の非遅延判定部7の判定結果のみを用いて判定を行い、遅延判定用パラメータ分析部3、記憶部4内の遅延判定用パラメータを省略する構成も可能である。
また、この実施の形態7は、上記実施の形態1において、Mフレーム分の判定結果を記憶して、遅延判定に使用するようにしたものであるが、上記実施の形態2においても同様な変更が可能である。
【0111】
以上で明らかなように、この実施の形態7によれば、上記実施の形態1及び実施の形態2の構成において、少なくとも複数の非遅延判定部7の判定結果を用いて遅延判定を行うようにしたので、判定のための情報量が増えることで一次判定(遅延判定)の精度が改善し、最終的な雑音区間判定の精度が向上する効果がある。また、一次判定において音声区間か雑音区間かの判定がつかない場合に判定用閾値の更新を行わないようにしたので、音声区間の情報を用いて誤って雑音区間に関する判定用閾値を更新したり、雑音区間の情報を用いて誤って音声区間に関する判定用閾値を更新することを抑制でき、最終的な雑音区間判定が安定化する効果がある。
【0112】
実施の形態8.
上記実施の形態7では、遅延判定部33が複数の非遅延判定部7の判定結果を用いて遅延判定を行うようにしたが、遅延判定部33は上記実施の形態1と同じ方法で判定を行い、閾値算出部6が遅延判定部33の判定結果と、記憶部4に記憶されているNフレーム前の非遅延判定用パラメータと複数フレーム分の非遅延判定部7の判定結果を用いて判定用閾値を算出する構成も可能である。以下、図6に基づいて、動作が新規な部分のみ説明する。
【0113】
遅延判定部33は、上記実施の形態1における遅延判定部5と同様に、記憶部4に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるか判定し、その判定結果を閾値算出部6に出力する。
【0114】
閾値算出部6は、遅延判定部33の判定結果と、記憶部4に記憶されているNフレーム前の非遅延判定用パラメータと、記憶部4に記憶されているMフレーム分の非遅延判定部7の判定結果を用いて、非遅延判定部7が使用する判定用閾値を更新し、更新後の判定用閾値を非遅延判定部7に出力する。
【0115】
更新方法としては、遅延判定部33の判定結果と、Nフレーム前の非遅延判定部7の判定結果の両方が雑音区間である場合には、Nフレーム前の非遅延判定用パラメータを用いて雑音区間の平均的な非遅延判定用パラメータを更新する。
遅延判定部33の判定結果と、Nフレーム前の非遅延判定部7の判定結果の両方が音声区間である場合には、Nフレーム前の非遅延判定用パラメータを用いて音声区間の平均的な非遅延判定用パラメータを更新する。
遅延判定部33の判定結果と、Nフレーム前の非遅延判定部7の判定結果が一致しない場合には、どちらの更新も行わない。なお、更新方法の詳細については、ここで説明した方法に限定されるものではない。
【0116】
なお、この実施の形態8において、閾値算出部6がNフレーム前の非遅延判定用パラメータとMフレーム分の非遅延判定部7の判定結果だけを用いて更新を行い、遅延判定用パラメータ分析部3、記憶部4内の遅延判定用パラメータ、遅延判定部33を省略する構成も可能である。
また、この実施の形態8は、上記実施の形態1における記憶部4と閾値算出部6を変更したものであるが、上記実施の形態2においても同様な変更が可能である。
【0117】
以上で明らかなように、この実施の形態8によれば、上記実施の形態1及び実施の形態2の構成において、少なくとも記憶部4に記憶されている非遅延判定用パラメータと非遅延判定部7の判定結果を用いて、非遅延判定のための判定用閾値を算出するようにしたので、遅延判定結果と合わせた場合には誤った閾値の更新が抑制され、最終的な雑音区間判定の精度が向上する効果がある。遅延判定結果を用いない場合には、より簡単な構成とできる効果がある。また、遅延判定部33の判定結果と、Nフレーム前の非遅延判定部7の判定結果が一致しない場合には判定用閾値の更新を行わないようにしたので、音声区間の情報を用いて誤って雑音区間に関する判定用閾値を更新したり、雑音区間の情報を用いて誤って音声区間に関する判定用閾値を更新することを抑制でき、最終的な雑音区間判定が安定化する効果がある。
【0118】
実施の形態9.
図7はこの発明の実施の形態9による雑音抑圧装置を示す構成図であり、図において、41は入力音声をフレーム毎に分析して、その入力音声のスペクトルを取得するスペクトル分析部(スペクトル分析手段)、42は入力音声に応じて推定雑音スペクトルを更新する推定雑音スペクトル更新部、43は入力音声をフレーム毎に分析して、その入力音声の特徴を表す遅延判定用パラメータを取得するパラメータ分析部(パラメータ分析手段)、44はスペクトル分析部41により取得されたスペクトルとパラメータ分析部43により取得された遅延判定用パラメータを記憶する記憶部(記憶手段)、45は記憶部44に記憶されている入力音声の複数のフレームにおける遅延判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定する遅延判定部(遅延判定手段)、46は記憶部44に記憶されている入力音声のNフレーム前のスペクトルと遅延判定部45の判定結果から推定雑音スペクトルを更新する更新部(更新手段)である。
【0119】
47は推定雑音スペクトル更新部42の更新部46により更新された推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するスペクトル補正部(補正手段)、48はスペクトル補正部47により補正されたスペクトルをフーリエ変換により信号領域に変換し、その得られた信号を連接して出力音声を生成する出力音声生成部(音声生成手段)である。
【0120】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、スペクトル分析部41と推定雑音スペクトル更新部42内のパラメータ分析部43に入力される。
【0121】
スペクトル分析部41は、入力音声を分析して、入力音声(現在のフレーム)のスペクトルを求め、これを入力音声スペクトルとして、スペクトル補正部47に出力する。また、この入力音声スペクトルの各周波数成分のパワーを求めて、その得られたパワースペクトルを必要に応じてスペクトル補正部47に出力する。
さらに、このパワースペクトルを対数領域に変換して、その得られた対数パワースペクトルを推定雑音スペクトル更新部42内の記憶部44に出力する。なお、入力音声スペクトルの算出は、入力音声にハニング窓や台形窓をかけた信号に対してFFTやDFTなどのフーリエ変換を行うことによって実行できる。
【0122】
推定雑音スペクトル更新部42内のパラメータ分析部43は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを遅延判定用パラメータとして出力する。
ここで、遅延判定用パラメータとしては、入力音声のパワー、帯域パワー、高域強調などの所定加工処理を施した入力音声のパワー、LSPなどのスペクトル特徴を表すスペクトルパラメータ、このスペクトルパラメータを用いてスペクトル特徴を取り除いた後の残差信号のパワー、ピッチ周期の相関の大きさなど、従来の雑音区間判定装置で用いられている様々なパラメータを、単独または複数用いることができる。
【0123】
記憶部44は、(N+1)フレーム分の対数パワースペクトルとMフレーム分の遅延判定用パラメータを記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの両パラメータ、即ち、(N+1)フレーム前の対数パワースペクトルとMフレーム前の遅延判定用パラメータを忘却し、スペクトル分析部41が出力する現在のフレームの対数パワースペクトルと、パラメータ分析部43が出力する現在のフレームの遅延判定用パラメータを記憶することで、内部状態を更新する。
【0124】
この更新処理により、この記憶部44内には、常にNフレーム前から現在のフレームまでの、合計(N+1)フレーム分の最新の対数パワースペクトルと、(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の遅延判定用パラメータが格納されている状態が保たれる。なお、Nは1以上の整数、MはNより大きい整数である。
【0125】
遅延判定部45は、記憶部44に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を更新部46に出力する。この判定は例えば以下のように行うことができる。
【0126】
Mを雑音区間が必ず含まれるほど大きく取れる場合には、まず、Mフレーム分の遅延判定用パラメータから雑音区間フレームを特定する。
そして、この雑音区間フレームの遅延判定用パラメータから平均的な雑音区間の遅延判定用パラメータを求める。一方、Mをそれほど大きく取れない場合には、各フレームの遅延判定用パラメータを用いて平均的な雑音区間の遅延判定用パラメータを逐次更新する。
【0127】
そして、遅延判定部45の判定対象であるNフレーム前及びその近傍のフレームの各遅延判定用パラメータと、この平均的な雑音区間の遅延判定用パラメータを比較して、各フレームに対する暫定的な雑音/音声区間の判定を行う。
この暫定的な判定において、Nフレーム前が音声区間であると判定され、なおかつ、その前後の少なくとも一方に音声区間があると判定されたフレームが所定数以上存在する場合には、Nフレーム前が音声区間であると判定する。即ち、Nフレーム前の情報だけでなく、その近傍(現在を含む)の情報を用いて、総合的に判定を行う。この判定方法の一例については、上記実施の形態1において、図19を用いて説明した通りである。
【0128】
更新部46は、遅延判定部45の判定結果と、記憶部44に記憶されているNフレーム前の対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47に出力する。この更新は、例えば以下のように、1より小さい正の値αを更新速度として行うことができる。
【0129】
遅延判定部45の判定結果が、Nフレーム前が雑音区間であるとする判定の場合に限り、Nフレーム前の対数パワースペクトルlog(Sp)を下記の(9)式に代入して、推定雑音スペクトルの対数値log(Spn)を更新する。
即ち、1フレーム前の推定雑音スペクトルの対数値log(Spn)にαを乗じたものと、Nフレーム前の対数パワースペクトルlog(Sp)に(1−α)を乗じたものを加算して、新たな推定雑音スペクトルの対数値log(Spn)とする。なお、Sp及びSpnは、各周波数成分の値を要素とするベクトルとなっている。
【0130】
スペクトル補正部47は、推定雑音スペクトル更新部42内の更新部46が出力する推定雑音スペクトルを用いて、スペクトル分析部41が出力する現在のフレームの入力音声スペクトルに対する補正処理を実施し、その得られた補正スペクトルを出力音声生成部48に出力する。
【0131】
この補正処理の最も簡単なものとしては、各周波数fの成分毎に、下記の(10)式に従って、入力音声のパワースペクトルSpから推定雑音スペクトルSpnを減算したときのパワースペクトルの減少率gを算出し、この減少率gを入力音声スペクトルに対応する各周波数成分に乗じる方法がある。
【0132】
なお、この補正処理については、補正によって振幅が小さくなり過ぎた周波数成分に対して適切な振幅値を与えるように修正するなど、従来の雑音抑圧装置に用いられている様々な処理を適用することができる。
【0133】
出力音声生成部48は、スペクトル補正部47が出力する補正スペクトルに対して、逆FFT、逆DFTなどのフーリエ変換処理を行って、信号領域に戻し、その得られた信号をハニング窓や台形窓などの適切な窓をかけつつフレーム間を連接し、その連接した信号をフレーム周期毎に出力音声として出力する。
【0134】
なお、この実施の形態9では、記憶部44に対数パワースペクトルを記憶する構成としたが、同情報を含む入力音声スペクトルそのものや、等価な振幅スペクトルやパワースペクトルなどを記憶する構成としても構わない。
【0135】
以上で明らかなように、この実施の形態9によれば、Nフレーム前が雑音区間であるか否かを、Nフレーム前を含む過去から現在までの複数のフレームの遅延判定用パラメータに基づいて判定し、この判定結果とNフレーム前の対数パワースペクトルに基づいて推定雑音スペクトルを更新するようにしたので、Nフレーム前が雑音区間であるか否かの判定においては、判定対象フレームであるNフレーム前から見て過去と未来の情報を用いることができるので誤判定が抑制でき、その結果として、パワーが大きい音声区間の対数パワースペクトルを用いて推定雑音スペクトルを過大に更新することが少なくなり、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0136】
実施の形態10.
図8はこの発明の実施の形態10による雑音抑圧装置を示す構成図であり、図において、図7と同一符号は同一または相当部分を示すので説明を省略する。
51は入力音声を数フレーム分記憶する記憶部(記憶手段)、52は記憶部51に記憶されている入力音声を分析して、その入力音声のNフレーム前のスペクトルを取得するスペクトル分析部(スペクトル分析手段)、53は入力音声に応じて推定雑音スペクトルを更新する推定雑音スペクトル更新部、54は記憶部51に記憶されている入力音声を分析して、その入力音声の特徴を表す遅延判定用パラメータを取得するパラメータ分析部(パラメータ分析手段)である。
【0137】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、記憶部51に入力される。記憶部51は、Mフレーム分の入力音声を記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの入力音声を忘却し、入力された現在のフレームの入力音声を記憶することで、内部状態を更新する。この更新処理により、この記憶部51内には、常に(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の入力音声が格納されている状態が保たれる。
【0138】
スペクトル分析部52は、記憶部51に記憶されている入力音声を分析して、入力音声(現在のフレーム)のスペクトルを求め、これを入力音声スペクトルとして、スペクトル補正部47に出力する。また、必要に応じて、この入力音声スペクトルの各周波数成分のパワーを求めて、その得られたパワースペクトルをスペクトル補正部47に出力する。
さらに、スペクトル分析部52は、記憶部51に記憶されているNフレーム前の入力音声を分析して、Nフレーム前のスペクトルを求め、その各周波数成分のパワーを求めて、対数領域に変換して、その得られた対数パワースペクトルを推定雑音スペクトル更新部45内の更新部46に出力する。
なお、スペクトルの算出は、入力音声にハニング窓や台形窓をかけた信号に対して、FFTやDFTなどのフーリエ変換を行うことによって実行できる。
【0139】
推定雑音スペクトル更新部53内のパラメータ分析部54は、記憶部51に記憶されているMフレーム分の入力音声を分析して、入力音声(各フレーム)の特徴を表す所定のパラメータを求め、これを各フレームの遅延判定用パラメータとして出力する。
なお、非遅延判定用パラメータ及び遅延判定用パラメータについては、上記実施の形態9と同様に、従来の雑音区間判定装置で用いられている様々なパラメータを、単独または複数用いることができる。
【0140】
遅延判定部45は、パラメータ分析部54が出力するMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を更新部46に出力する。
更新部46は、遅延判定部45の判定結果と、スペクトル分析部52が出力するNフレーム前の対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47に出力する。
【0141】
スペクトル補正部47は、推定雑音スペクトル更新部53内の更新部46が出力する推定雑音スペクトルを用いて、スペクトル分析部52が出力する現在のフレームの入力音声スペクトルに対する補正処理を実施し、その得られた補正スペクトルを出力音声生成部48に出力する。
【0142】
出力音声生成部48は、スペクトル補正部47が出力する補正スペクトルに対して、逆FFT、逆DFTなどのフーリエ変換処理を行って、信号領域に戻し、その得られた信号をハニング窓や台形窓などの適切な窓をかけつつフレーム間を連接し、その連接した信号をフレーム周期毎に出力音声として出力する。
【0143】
以上で明らかなように、この実施の形態10によれば、Mフレーム分の入力音声を記憶しておき、これから過去及び現在の入力音声スペクトルと遅延判定用パラメータを算出し、上記実施の形態9と同様にして、雑音区間の判定と推定雑音スペクトルの更新を行うようにしたので、上記実施の形態9が持つ効果に加えて、(N+1)フレーム分の対数パワースペクトルとMフレーム分の遅延判定用パラメータの情報量の合計が(N+1)フレーム分の入力音声の情報量を上回る場合に、記憶部51の容量を削減できる効果が得られる。
【0144】
実施の形態11.
図9はこの発明の実施の形態11による雑音抑圧装置を示す構成図であり、図において、図7と同一符号は同一または相当部分を示すので説明を省略する。
55はスペクトル分析部41により取得された入力音声のスペクトルから遅延判定用パラメータを算出するパラメータ分析部(パラメータ分析手段)である。
【0145】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、スペクトル分析部41に入力される。
【0146】
スペクトル分析部41は、入力音声を分析して、入力音声(現在のフレーム)のスペクトルを求め、これを入力音声スペクトルとして、スペクトル補正部47に出力する。また、この入力音声スペクトルの各周波数成分のパワーを求めて、その得られたパワースペクトルを必要に応じてスペクトル補正部47に出力する。
さらに、このパワースペクトルを対数領域に変換して、その得られた対数パワースペクトルを推定雑音スペクトル更新部42内の記憶部44及びパラメータ分析部55に出力する。なお、入力音声スペクトルの算出は、入力音声にハニング窓や台形窓をかけた信号に対してFFTやDFTなどのフーリエ変換を行うことによって実行できる。
【0147】
推定雑音スペクトル更新部42内のパラメータ分析部55は、スペクトル分析部41が出力する対数パワースペクトルを分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを遅延判定用パラメータとして出力する。
【0148】
ここで、遅延判定用パラメータとしては、対数領域で所定帯域内を平均することで算出した帯域パワー(低域パワー、高域パワーの2分割が最も単純)、全帯域のパワー、高域に重みを強く設定して加算した対数スペクトルの重み付き和、対数パワースペクトルをフーリエ変換して求められるケプストラムなどのスペクトルパラメータ、このスペクトルパラメータを用いてスペクトル特徴を取り除いた後の残差信号のパワー、ケプストラムの高次から求められるピッチ周期の相関の大きさなど、様々なパラメータを、単独または複数用いることができる。
【0149】
記憶部44は、(N+1)フレーム分の対数パワースペクトルとMフレーム分の遅延判定用パラメータを記憶することができる能力を有し、上記実施の形態9と同様に、その内部に記憶されている最も過去のフレームの両パラメータ、即ち、(N+1)フレーム前の対数パワースペクトルとMフレーム前の遅延判定用パラメータを忘却し、スペクトル分析部51が出力する現在のフレームの対数パワースペクトルと、パラメータ分析部55が出力する現在のフレームの遅延判定用パラメータを記憶することで、内部状態を更新する。
【0150】
遅延判定部45は、記憶部44に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を更新部46に出力する。
更新部46は、遅延判定部45の判定結果と、記憶部44に記憶されているNフレーム前の対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47に出力する。
【0151】
スペクトル補正部47は、推定雑音スペクトル更新部42内の更新部46が出力する推定雑音スペクトルを用いて、スペクトル分析部41が出力する現在のフレームの入力音声スペクトルに対する補正処理を実施し、その得られた補正スペクトルを出力音声生成部48に出力する。
【0152】
そして、出力音声生成部48は、スペクトル補正部47が出力する補正スペクトルに対して、逆FFT、逆DFTなどのフーリエ変換処理を行って、信号領域に戻し、その得られた信号をハニング窓や台形窓などの適切な窓をかけつつフレーム間を連接し、その連接した信号をフレーム周期毎に出力音声として出力する。
【0153】
なお、この実施の形態11では、パラメータ分析部55が対数パワースペクトルを分析して遅延判定用パラメータを算出したが、対数パワースペクトルではなく、入力音声スペクトルやそのパワースペクトルを分析して算出を行うようにしても構わない。
また、この実施の形態11は、上記実施の形態9における遅延判定用パラメータをスペクトル分析部41の出力結果を用いて分析するようにしたものに相当するが、同様に実施の形態10における遅延判定用パラメータを、スペクトル分析部41の出力結果を用いて分析するようにした構成も可能である。
【0154】
以上で明らかなように、この実施の形態11によれば、上記実施の形態9における遅延判定用パラメータをスペクトル分析部41の出力結果を用いて分析するようにしたので、上記実施の形態9が持つ効果に加えて、パラメータ分析処理量を削減できる効果がある。同程度の処理量であれば、より精度の高い雑音区間判定が行えるため、パワーが大きい音声区間の対数パワースペクトルを用いて推定雑音スペクトルを過大に更新することが少なくなり、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0155】
同様に実施の形態10における遅延判定用パラメータをスペクトル分析部41の出力結果を用いて分析するようにしたので、上記実施の形態9が持つ効果に加えて、パラメータ分析処理量を削減できる効果がある。同程度の処理量であれば、より精度の高い雑音区間判定が行えるため、パワーが大きい音声区間の対数パワースペクトルを用いて推定雑音スペクトルを過大に更新することが少なくなり、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0156】
実施の形態12.
図10はこの発明の実施の形態12による雑音抑圧装置を示す構成図であり、図において、図9と同一符号は同一または相当部分を示すので説明を省略する。56は更新部46により更新された推定雑音スペクトルから遅延判定用パラメータを算出するパラメータ算出部(遅延判定手段)、57はパラメータ算出部56により算出された遅延判定用パラメータと記憶部44に記憶されている入力音声の複数のフレームにおける遅延判定用パラメータを比較して、Nフレーム前が雑音区間又は音声区間の何れであるかを判定する遅延判定部(遅延判定手段)である。
【0157】
次に動作について説明する。
更新部46は、遅延判定部57の判定結果と、記憶部44に記憶されているNフレーム前の対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47とパラメータ算出部56に出力する。
【0158】
パラメータ算出部56は、更新部46が出力する推定雑音スペクトルを分析して、平均的な雑音の特徴を表す所定のパラメータを求め、これを遅延判定用パラメータとして出力する。なお、ここにおける所定のパラメータ及びその算出方法には、パラメータ分析部55と同じものを用いる。
【0159】
遅延判定部57は、記憶部44に記憶されているMフレーム分の遅延判定用パラメータと、パラメータ算出部56が出力する雑音区間の平均的な遅延判定用パラメータとを比較して、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を更新部46に出力する。なお、判定方法については、上記実施の形態4の遅延判定部26と同様の方法を用いることができる。
【0160】
以上で明らかなように、この実施の形態12によれば、上記実施の形態11の構成において、遅延判定部57が、推定雑音スペクトルを分析して算出された遅延判定用パラメータを用いて判定を行うようにしたので、上記実施の形態11が持つ効果に加えて、遅延判定部57内での処理が簡易化でき、なおかつ、安定に更新された推定雑音スペクトルを利用することで雑音区間の判定精度が一層改善され、その結果として、パワーが大きい音声区間の対数パワースペクトルを用いて推定雑音スペクトルを過大に更新することが少なくなり、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0161】
実施の形態13.
上記実施の形態9では、遅延判定部45が判定結果のみを出力し、更新部46が遅延判定部45の判定結果が雑音区間である場合に、推定雑音スペクトルの更新を行うものについて示したが、遅延判定部45がNフレーム前が音声区間である可能性の大きさを出力し、更新部46がこの可能性の大きさに応じて推定雑音スペクトルの更新速度を制御する構成も可能である。以下、図7に基づいて、動作が新規な部分のみ説明する。
【0162】
遅延判定部45は、記憶部44に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が音声区間である可能性の大きさを算出し、その可能性の大きさを更新部46に出力する。この音声区間の可能性の大きさの算出方法については、上記実施の形態5の遅延判定部5と同様の方法を用いることができる。
【0163】
更新部46は、遅延判定部45により算出されたNフレーム前が音声区間である可能性の大きさと、記憶部44に記憶されているNフレーム前の対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47に出力する。この更新は、例えば以下のように行うことができる。
【0164】
まず、遅延判定部45により算出されたNフレーム前が音声区間である可能性の大きさQと、更新速度に関する固定値C(1より小さい正の固定値)とを用いて、下記の(11)式に基づいて更新速度αを算出する。
そして、この更新速度αと対数パワースペクトルlog(Sp)を(9)式に代入して推定雑音スペクトルの対数値log(Spn)を更新する。
即ち、1フレーム前の推定雑音スペクトルの対数値log(Spn)にαを乗じたものと、Nフレーム前の対数パワースペクトルlog(Sp)に(1−α)を乗じたものを加算して、新たな推定雑音スペクトルの対数値log(Spn)とする。なお、Sp及びSpnは、各周波数成分の値を要素とするベクトルとなっている。
α=1−C×(1−Q)×(1−Q) (11)
【0165】
音声区間である可能性が高い場合には、Qが1に近づくため、αが1に近づき、推定雑音スペクトルSpnの更新は殆ど行われない。逆に音声区間である可能性が低い場合には、Qが0に近づくため、αが1−Cに近づき、推定雑音スペクトルSpnの更新は殆ど行われない。
【0166】
なお、更新速度αの制御方法は、(11)式に限定されるものではなく、Qが0.4以下の時にのみSpnの更新を行うなど、様々な方法が可能である。また、上記実施の形態10から実施の形態12の遅延判定部と更新部をこの実施の形態13と同様なものに変更した構成も可能である。
【0167】
以上で明らかなように、この実施の形態13によれば、上記実施の形態9から実施の形態12の構成において、遅延判定部45がNフレーム前が音声区間である可能性の大きさを算出し、この可能性の大きさに基づいて制御した更新速度を用いて推定雑音スペクトルの更新を行うようにしたので、上記実施の形態9から実施の形態12が持つ効果に加えて、遅延判定部45において音声区間であるか雑音区間であるかを2値判定していた場合に避けられない誤判定による推定雑音スペクトルの急激な更新を緩和でき、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0168】
実施の形態14.
図11はこの発明の実施の形態14による雑音抑圧装置を示す構成図であり、図において、図7と同一符号は同一または相当部分を示すので説明を省略する。58は更新部46により更新された推定雑音スペクトルの変動を分析する変動性分析部(遅延制御手段)、59は変動性分析部58により分析された変動の大きさに応じて遅延フレーム数を示すNの値を制御する遅延制御部(遅延制御手段)である。
【0169】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、スペクトル分析部41と推定雑音スペクトル更新部42内のパラメータ分析部43に入力される。
【0170】
スペクトル分析部41は、入力音声を分析して、入力音声(現在のフレーム)のスペクトルを求め、これを入力音声スペクトルとして、スペクトル補正部47に出力する。また、この入力音声スペクトルの各周波数成分のパワーを求めて、その得られたパワースペクトルを必要に応じてスペクトル補正部47に出力する。
さらに、このパワースペクトルを対数領域に変換して、その得られた対数パワースペクトルを推定雑音スペクトル更新部42内の記憶部44に出力する。
【0171】
推定雑音スペクトル更新部42内のパラメータ分析部43は、入力音声を分析して、入力音声(現在のフレーム)の特徴を表す所定のパラメータを求め、これを遅延判定用パラメータとして出力する。
【0172】
記憶部44は、(N+1)フレーム分の対数パワースペクトルとMフレーム分の遅延判定用パラメータを記憶することができる能力を有し、その内部に記憶されている最も過去のフレームの両パラメータ、即ち、(N+1)フレーム前の対数パワースペクトルとMフレーム前の遅延判定用パラメータを忘却し、スペクトル分析部41が出力する現在のフレームの対数パワースペクトルと、パラメータ分析部43が出力する現在のフレームの遅延判定用パラメータを記憶することで、内部状態を更新する。
【0173】
遅延判定部45は、記憶部44に記憶されているMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定し、その判定結果を更新部46に出力する。
更新部46は、遅延判定部45の判定結果と、記憶部44に記憶されているNフレーム前の対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47と変動性分析部58に出力する。
なお、遅延判定部45における判定方法、更新部46における更新方法については、上記実施の形態9と同様の方法を用いることができる。
【0174】
変動性分析部58は、更新部46が出力する推定雑音スペクトルの変動の大きさを分析して、その得られた結果を遅延制御部59に出力する。
変動の分析としては、過去の複数フレーム分の推定雑音スペクトルを記憶しておき、各々を周波数方向に平滑化した後、周波数毎の最大値と最小値の差の大きさを周波数毎の平均値にて正規化した値を求めたり、フレーム間の周波数毎の変化量を求めて、その最大値や標準偏差を平均値にて正規化した値を求め、それらを全周波数成分で重み付け平均を算出するなど、様々な方法が可能である。
【0175】
遅延制御部59は、変動性分析部58により分析された変動の大きさが大きいほど、遅延フレーム数Nを大きく制御し、このNを記憶部44、遅延判定部45及び更新部46に出力する。記憶部44、遅延判定部45及び更新部46は前記した通り、このNの値を用いて次のフレーム以降の各処理を行う。Nの制御方法については、上記実施の形態6の遅延制御部と同様な方法を用いることができる。
【0176】
スペクトル補正部47は、推定雑音スペクトル更新部42内の更新部46が出力する推定雑音スペクトルを用いて、スペクトル分析部41が出力する現在のフレームの入力音声スペクトルに対する補正処理を実施し、その得られた補正スペクトルを出力音声生成部48に出力する。
そして、出力音声生成部48は、スペクトル補正部47が出力する補正スペクトルに対して、逆FFT、逆DFTなどのフーリエ変換処理を行って、信号領域に戻し、その得られた信号をハニング窓や台形窓などの適切な窓をかけつつフレーム間を連接し、その連接した信号をフレーム周期毎に出力音声として出力する。
【0177】
なお、この実施の形態14では、上記実施の形態9をベースに変動性分析部58と遅延制御部59を追加した構成としているが、上記実施の形態10から実施の形態13に同様の変動性分析部58と遅延制御部59を追加した構成も可能である。
【0178】
以上で明らかなように、この実施の形態14によれば、上記実施の形態9から実施の形態13の構成において、推定雑音スペクトルの変動の大きさを分析し、その大きさが大きいほど、遅延フレーム数Nを大きく制御するようにしたので、上記実施の形態9から実施の形態13が持つ効果に加えて、推定雑音スペクトルの変動が大きく、雑音区間判定の誤りの可能性が高い場合には、遅延フレーム数Nを増やして、判定誤りの増加を抑制することができ、その結果として、パワーが大きい音声区間の対数パワースペクトルを用いて推定雑音スペクトルを過大に更新することが少なくなり、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。推定雑音スペクトルの変動が小さい場合には、遅延フレーム数Nを減らすことで、記憶部44における記憶容量を減らすことができ、推定雑音スペクトルの雑音に対する追従性が向上して最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0179】
実施の形態15.
図12はこの発明の実施の形態15による雑音抑圧装置を示す構成図であり、図において、図7と同一符号は同一または相当部分を示すので説明を省略する。60はスペクトル分析部41により取得された入力音声のスペクトルと雑音区間判定装置における非遅延判定部7の判定結果から推定雑音スペクトルを更新する推定雑音スペクトル更新部(更新手段)である。
【0180】
次に動作について説明する。
まず、フレームと呼ばれる所定の時間長の入力音声が、スペクトル分析部41と雑音区間判定装置内のパラメータ分析部1に入力される。
雑音区間判定装置内の各構成要素は、上記実施の形態1の雑音区間判定装置と同様に動作し、最終的に非遅延判定部7が判定結果を出力する。
【0181】
スペクトル分析部41は、入力音声を分析して、入力音声(現在のフレーム)のスペクトルを求め、これを入力音声スペクトルとして、スペクトル補正部47に出力する。また、この入力音声スペクトルの各周波数成分のパワーを求めて、その得られたパワースペクトルを必要に応じてスペクトル補正部47に出力する。
さらに、このパワースペクトルを対数領域に変換して、その得られた対数パワースペクトルを推定雑音スペクトル更新部60に出力する。
【0182】
推定雑音スペクトル更新部60は、雑音区間判定装置における非遅延判定部7が出力する判定結果と、スペクトル分析部41が出力する対数パワースペクトルとを用いて、雑音区間の平均的な対数パワースペクトルである推定雑音スペクトルを更新し、更新後の推定雑音スペクトルをスペクトル補正部47に出力する。この更新は、例えば以下のように、1より小さい正の値αを更新速度として行うことができる。
【0183】
非遅延判定部7の判定結果が雑音区間である場合に限り、対数パワースペクトルlog(Sp)を(9)式に代入して、推定雑音スペクトルの対数値log(Spn)を更新する。即ち、1フレーム前の推定雑音スペクトルの対数値log(Spn)にαを乗じたものと、対数パワースペクトルlog(Sp)に(1−α)を乗じたものを加算して、新たな推定雑音スペクトルの対数値log(Spn)とする。
【0184】
スペクトル補正部47は、推定雑音スペクトル更新部60が出力する推定雑音スペクトルを用いて、スペクトル分析部41が出力する現在のフレームの入力音声スペクトルに対する補正処理を実施し、その得られた補正スペクトルを出力音声生成部48に出力する。
そして、出力音声生成部48は、スペクトル補正部47が出力する補正スペクトルに対して、逆FFT、逆DFTなどのフーリエ変換処理を行って、信号領域に戻し、その得られた信号をハニング窓や台形窓などの適切な窓をかけつつフレーム間を連接し、連接した信号をフレーム周期毎に出力音声として出力する。
【0185】
なお、上記実施の形態15では、雑音区間判定装置の構成を上記実施の形態1の雑音区間判定装置と同一としたが、上記実施の形態2から実施の形態8の雑音区間判定装置と同一の構成でも構わない。
【0186】
以上で明らかなように、この実施の形態15によれば、上記実施の形態1から実施の形態8の雑音区間判定装置を用いて、高精度に雑音区間の判定を実施し、この判定結果を用いて推定雑音スペクトルを更新するようにしたので、パワーが大きい音声区間の対数パワースペクトルを用いて推定雑音スペクトルを過大に更新することが少なくなり、スペクトル補正部47における過剰な補正が抑制され、最終的に雑音抑圧された出力音声における音質が改善する効果が得られる。
【0187】
実施の形態16.
図13はこの発明の実施の形態16による推定雑音情報更新方法を示すフローチャートである。図において、ST1は分析ステップ、ST2は記憶ステップ、ST3は遅延判定ステップ、ST4は遅延更新ステップである。
この実施の形態16では、雑音が重畳した音声が入力されたときに、その雑音に関する所定の特徴情報の推定値である推定雑音情報を更新する。
【0188】
次に動作について説明する。
まず、ステップST1において、現在のフレームの入力音声を分析して、遅延判定用パラメータと入力音声の所定の特徴を表す特徴情報を取得する。
【0189】
遅延判定用パラメータとしては、入力音声のパワー、帯域パワー、高域強調などの所定加工処理を施した入力音声のパワー、LSPなどのスペクトル特徴を表すスペクトルパラメータ、このスペクトルパラメータを用いてスペクトル特徴を取り除いた後の残差信号のパワー、ピッチ周期の相関の大きさなど、従来の雑音区間判定装置で用いられている様々なパラメータを、単独または複数用いることができる。
【0190】
特徴情報については、雑音区間判定装置における判定用閾値を推定雑音情報として更新する場合には、遅延判定用パラメータと同様のパラメータとなる。一方、雑音抑圧装置における推定雑音スペクトルを推定雑音情報として更新する場合には、入力音声の対数パワースペクトル、パワースペクトル、振幅スペクトルなどになる。
【0191】
ステップST2において、それまでに記憶されているNフレーム前の特徴情報とMフレーム前の遅延判定用パラメータを忘却し、ステップST1で取得した現在のフレームの特徴情報と遅延判定用パラメータを記憶することで、記憶内容を更新する。
この更新処理により、常にNフレーム前から現在のフレームまでの、合計(N+1)フレーム分の最新の特徴情報と、(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の遅延判定用パラメータが記憶されている状態が保たれる。なお、Nは1以上の整数、MはNより大きい整数である。
【0192】
ステップST3において、ステップST2で記憶してあるMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定する。この判定方法については、上記実施の形態1における遅延判定部5に関して説明したものと同じ方法を用いることができる。
【0193】
ステップST4において、ステップST3における判定結果と、ステップST2で記憶してあるNフレーム前の特徴情報とを用いて、雑音区間の平均的な特徴情報である推定雑音情報を更新する。この更新方法についても、上記実施の形態1における閾値算出部6ないし上記実施の形態9における更新部46に関して説明したものと同じ方法を用いることができる。
【0194】
以上で明らかなように、この実施の形態16によれば、Nフレーム前が雑音区間であるか否かを、Nフレーム前を含む過去から現在までの複数フレームの遅延判定用パラメータに基づいて判定し、この判定結果とNフレーム前の特徴情報に基づいて推定雑音情報を更新するようにしたので、Nフレーム前が雑音区間であるか否かの判定においては、判定対象フレームであるNフレーム前から見て過去と未来の情報を用いることができるので誤判定が抑制でき、その結果として、音声区間の特徴情報を用いて推定雑音情報を更新することが少なくなり、推定雑音情報の精度が向上する効果が得られる。
なお、この実施の形態16の雑音情報更新方法を用いた雑音区間判定装置が上記実施の形態1であり、この実施の形態16の雑音情報更新方法を用いた雑音抑圧装置が上記実施の形態9である。
【0195】
実施の形態17.
図14はこの発明の実施の形態17による推定雑音情報更新方法を示すフローチャートである。図において、ST11は記憶ステップ、ST12は分析ステップ、ST13は遅延判定ステップ、ST14は遅延更新ステップである。
【0196】
次に動作について説明する。
まず、ステップST11において、それまでに記憶されているMフレーム前の入力音声を忘却し、現在のフレームの入力音声を記憶することで、記憶内容を更新する。この更新処理により、常に(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の入力音声が記憶されている状態が保たれる。なお、Nは1以上の整数、MはNより大きい整数である。
【0197】
ステップST12において、ステップST11で記憶してある入力音声を分析して、Mフレーム分の遅延判定用パラメータと、Nフレーム前の入力音声の所定の特徴を表す特徴情報を取得する。遅延判定用パラメータと特徴情報については上記実施の形態16と同様である。
【0198】
ステップST13において、ステップST12で取得されたMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定する。
ステップST14において、ステップST13における判定結果と、ステップST12で取得されたNフレーム前の特徴情報とを用いて、雑音区間の平均的な特徴情報である推定雑音情報を更新する。
なお、ステップST13における判定方法と、ステップST14における更新方法については、上記実施の形態16と同様である。
【0199】
以上で明らかなように、この実施の形態17によれば、Nフレーム前が雑音区間であるか否かを、Nフレーム前を含む過去から現在までの複数フレームの遅延判定用パラメータに基づいて判定し、この判定結果とNフレーム前の特徴情報に基づいて推定雑音情報を更新するようにしたので、Nフレーム前が雑音区間であるか否かの判定においては、判定対象フレームであるNフレーム前から見て過去と未来の情報を用いることができるので誤判定が抑制でき、その結果として、音声区間の特徴情報を用いて推定雑音情報を更新することが少なくなり、推定雑音情報の精度が向上する効果が得られる。
なお、この実施の形態17の雑音情報更新方法を用いた雑音区間判定装置が上記実施の形態2であり、この実施の形態17の雑音情報更新方法を用いた雑音抑圧装置が上記実施の形態10である。
【0200】
実施の形態18.
図15はこの発明の実施の形態18による推定雑音情報更新方法を示すフローチャートである。図において、ST21は分析ステップ、ST22は記憶ステップ、ST23は遅延判定ステップ、ST24は遅延更新ステップである。
【0201】
次に動作について説明する。
まず、ステップST21において、現在のフレームの入力音声を分析して、入力音声の所定の特徴を表す特徴情報を取得する。特徴情報については上記実施の形態16と同様である。
【0202】
ステップST22において、それまでに記憶されているMフレーム前の特徴情報を忘却し、ステップST21で取得された現在のフレームの特徴情報を記憶することで、記憶内容を更新する。この更新処理により、常に(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の特徴情報が記憶されている状態が保たれる。
【0203】
ステップST23において、ステップST22で記憶してあるMフレーム分の特徴情報を用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定する。この判定方法については、上記実施の形態1の遅延判定部5における遅延判定用パラメータの代わりに特徴情報を用いるようにした場合と同じものを用いることができる。なお、当然のことであるが、特徴情報の一部を取得したり、特徴情報を変換して別のパラメータとしてから判定に用いる構成も可能である。
【0204】
ステップST24において、ステップST23における判定結果と、ステップST22で記憶してあるNフレーム前の特徴情報とを用いて、雑音区間の平均的な特徴情報である推定雑音情報を更新する。この更新方法については、上記実施の形態1における閾値算出部6ないし上記実施の形態9における更新部46に関して説明したものと同じ方法を用いることができる。
【0205】
なお、この実施の形態18は、上記実施の形態16における特徴情報と遅延判定用パラメータを共通化した構成に相当するが、同様に実施の形態17における特徴情報と遅延判定用パラメータを共通化した構成も可能である。
【0206】
以上で明らかなように、この実施の形態18によれば、上記実施の形態16における特徴情報と遅延判定用パラメータを共通化したので、上記実施の形態16が持つ効果に加えて、パラメータ分析処理量と必要な記憶容量が削減できる効果がある。同様に実施の形態17における特徴情報と遅延判定用パラメータを共通化したので、上記実施の形態17が持つ効果に加えて、パラメータ分析処理量と必要な記憶容量が削減できる効果がある。
なお、この実施の形態18の雑音情報更新方法を用いた雑音区間判定装置が上記実施の形態3であり、この実施の形態18の雑音情報更新方法を用いた雑音抑圧装置が上記実施の形態11である。
【0207】
実施の形態19.
図16はこの発明の実施の形態19による推定雑音情報更新方法を示すフローチャートである。図において、ST31は分析ステップ、ST32は記憶ステップ、ST33は遅延判定ステップ、ST34は遅延更新ステップである。
【0208】
次に動作について説明する。
まず、ステップST31において、現在のフレームの入力音声を分析して、入力音声の所定の特徴を表す特徴情報を取得する。特徴情報については上記実施の形態16と同様である。
【0209】
ステップST32において、それまでに記憶されているMフレーム前の特徴情報を忘却し、ステップST31で取得された現在のフレームの特徴情報を記憶することで、記憶内容を更新する。この更新処理により、常に(M−1)フレーム前から現在のフレームまでの、合計Mフレーム分の最新の特徴情報が記憶されている状態が保たれる。
【0210】
ステップST33において、ステップST32で記憶してあるMフレーム分の特徴情報中に含まれる各フレームの遅延判定用パラメータと、推定雑音情報に含まれる遅延判定用パラメータとを比較して、Nフレーム前が雑音区間であるか音声区間であるかを判定する。ここで、特徴情報の一部を遅延判定用パラメータとしたが、特徴情報を再分析したり、別のパラメータに変換して遅延判定用パラメータとする構成も可能である。
【0211】
ステップST34において、ステップST33における判定結果と、ステップST32で記憶してあるNフレーム前の特徴情報とを用いて、雑音区間の平均的な特徴情報である推定雑音情報を更新する。
【0212】
以上で明らかなように、この実施の形態19によれば、上記実施の形態18の構成において、推定雑音情報を用いて判定を行うようにしたので、上記実施の形態18が持つ効果に加えて、ステップST33の遅延判定処理が簡易化でき、なおかつ、安定に更新された推定雑音情報を利用することで遅延判定の精度が一層改善し、音声区間の特徴情報を用いて推定雑音情報を更新することが少なくなり、推定雑音情報の精度が向上する効果が得られる。
なお、この実施の形態19の雑音情報更新方法を用いた雑音区間判定装置が上記実施の形態4であり、この実施の形態4の雑音情報更新方法を用いた雑音抑圧装置が上記実施の形態12である。
【0213】
実施の形態20.
図17はこの発明の実施の形態20による推定雑音情報更新方法を示すフローチャートである。図において、ST41は分析ステップ、ST42は記憶ステップ、ST43は遅延判定ステップ、ST44は遅延更新ステップである。
【0214】
次に動作について説明する。
まず、ステップST41において、現在のフレームの入力音声を分析して、遅延判定用パラメータと、入力音声の所定の特徴を表す特徴情報を取得する。
【0215】
ステップST42において、それまでに記憶されている(N+1)フレーム前の特徴情報とMフレーム前の遅延判定用パラメータを忘却し、ステップST41で取得された現在のフレームの特徴情報と遅延判定用パラメータを記憶することで、記憶内容を更新する。
【0216】
ステップST43において、ステップST42で記憶してあるMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が音声区間である可能性の大きさを算出する。この算出方法については、上記実施の形態5における遅延判定部5に関して説明したものと同じ方法を用いることができる。
【0217】
ステップST44において、ステップST43で算出されたNフレーム前が音声区間である可能性の大きさと、ステップST42で記憶してあるNフレーム前の特徴情報とを用いて、雑音区間の平均的な特徴情報である推定雑音情報を更新する。音声区間の可能性の大きさが大きいほど、推定雑音情報の更新速度を小さく制御する。この更新方法については、上記実施の形態5における閾値算出部6ないし上記実施の形態13における更新部46に関して説明したものと同じ方法を用いることができる。
【0218】
以上で明らかなように、この実施の形態20によれば、上記実施の形態16から実施の形態19の構成において、Nフレーム前が音声区間である可能性の大きさを算出し、この可能性の大きさに基づいて推定雑音情報の更新速度を制御するようにしたので、上記実施の形態16から実施の形態19が持つ効果に加えて、音声区間であるか雑音区間であるかを2値判定していた場合に避けられない誤判定による推定雑音情報の急激な更新を緩和でき、推定雑音情報の精度が向上する効果が得られる。
なお、この実施の形態20の雑音情報更新方法を用いた雑音区間判定装置が上記実施の形態5であり、この実施の形態20の雑音情報更新方法を用いた雑音抑圧装置が上記実施の形態13である。
【0219】
実施の形態21.
図18はこの発明の実施の形態21による推定雑音情報更新方法を示すフローチャートである。図において、ST51は分析ステップ、ST52は記憶ステップ、ST53は遅延判定ステップ、ST54は遅延更新ステップ、ST55は変動性分析ステップ、ST56は遅延制御ステップである。
【0220】
次に動作について説明する。
ステップST51において、現在のフレームの入力音声を分析して、遅延判定用パラメータと、入力音声の所定の特徴を表す特徴情報を取得する。
【0221】
ステップST52において、それまでに記憶されている(N+1)フレーム前の特徴情報とMフレーム前の遅延判定用パラメータを忘却し、ステップST51で取得された現在のフレームの特徴情報と遅延判定用パラメータを記憶することで、記憶内容を更新する。
【0222】
ステップST53において、ステップST52で記憶してあるMフレーム分の遅延判定用パラメータを用いて、Nフレーム前が雑音区間であるか音声区間であるかを判定する。
ステップST54において、ステップST53における判定結果と、ステップST52で記憶してあるNフレーム前の特徴情報とを用いて、雑音区間の平均的な特徴情報である推定雑音情報を更新する。
【0223】
ステップST55において、過去の推定雑音情報と、ステップST54で更新された推定雑音情報を比較することで、推定雑音情報における時間方向の変動の大きさを分析する。なお、ステップST55における分析方法としては、上記実施の形態6及び実施の形態14における変動性分析部31に関して説明したものと同じ方法を用いることができる。
【0224】
ステップST56において、ステップST54で分析した変動の大きさが大きいほど、遅延フレーム数Nを大きく制御し、このNを次のフレーム以降のステップST52,ST53,ST54で使用するようにする。Nの制御方法については、上記実施の形態6の遅延制御部32に関して説明したものと同じ方法を用いることができる。
【0225】
なお、この実施の形態21では、上記実施の形態16をベースに変動性分析ステップと遅延制御ステップを追加した構成としているが、上記実施の形態17から実施の形態20に、同様の変動性分析ステップと遅延制御ステップを追加した構成も可能である。
【0226】
以上で明らかなように、この実施の形態21によれば、上記実施の形態16から実施の形態20の構成において、推定雑音情報の変動の大きさを分析し、その大きさが大きいほど、遅延フレーム数Nを大きく制御するようにしたので、上記実施の形態16から実施の形態20が持つ効果に加えて、雑音の変動が大きく雑音区間判定の判定誤りの可能性が高い場合に遅延フレーム数Nを増やして、その判定誤りの増加を抑制することができ、推定雑音情報の精度が向上する効果が得られる。雑音の変動性が小さい場合には、遅延フレーム数Nを減らすことで、必要な記憶容量を減らすことができ、推定雑音情報の雑音に対する追従性が向上して最終的な推定雑音情報の精度が向上する効果が得られる。
【0227】
【発明の効果】
以上のように、この発明によれば、記憶手段に記憶されている現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定する遅延判定手段を設け、その遅延判定手段の判定結果に応じて雑音区間又は音声区間の平均的な非遅延判定用パラメータを更新したのち、雑音区間及び音声区間の平均的な非遅延判定用パラメータと記憶手段に記憶されている現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータとを用いて判定用閾値を更新するように構成したので、精度の高い一次判定結果を利用して雑音区間の最終判定を実施することができるようになり、その結果、精度よく雑音区間を判定することができる効果がある。
【0228】
この発明によれば、パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定する遅延判定手段を設け、その遅延判定手段の判定結果に応じて雑音区間又は音声区間の平均的な非遅延判定用パラメータを更新したのち、雑音区間及び音声区間の平均的な非遅延判定用パラメータと上記パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータとを用いて判定用閾値を更新するように構成したので、精度の高い一次判定結果を利用して雑音区間の最終判定を実施することができるようになり、その結果、精度よく雑音区間を判定することができる効果がある。
また、非遅延判定用パラメータと遅延判定用パラメータの情報量の合計が入力音声の情報量を上回る場合、記憶手段の容量を削減することができる効果がある。
【0229】
この発明によれば、遅延判定用パラメータと非遅延判定用パラメータを共通化するように構成したので、パラメータの分析処理量や記憶容量が削減できる効果がある。
【0230】
この発明によれば、現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと更新手段により更新された判定用閾値とを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定するように構成したので、一次判定の精度が一層改善され、最終的な雑音区間の判定精度が向上する効果がある。
【0231】
この発明によれば、遅延判定手段が音声区間である可能性の大きさを算出すると、その音声区間である可能性の大きさに基づいて更新速度を算出し、その更新速度と現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータとを用いて、雑音区間及び音声区間の平均的な非遅延判定用パラメータを更新するように構成したので、2値判定による一次判定では避けることができない誤判定に伴う判定用閾値の急激な更新を緩和できるようになり、その結果、最終的な雑音区間の判定精度が向上する効果がある。
【0232】
この発明によれば、更新手段により更新された判定用閾値の変動を分析し、その変動が大きい程、遅延判定手段の判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定する遅延制御手段を設けるように構成したので、雑音の変動が大きい場合には、一次判定の誤りの増加を抑制することができる一方、雑音の変動が小さい場合には、記憶手段の記憶容量を抑制して、判定用閾値の雑音に対する追従性を向上することができる効果がある。
【0233】
この発明によれば、現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果と非遅延判定手段によるNフレーム前のフレームの判定結果とを総合して、Nフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定するように構成したので、一次判定の精度が一層改善され、最終的な雑音区間の判定精度が向上する効果がある。
【0234】
この発明によれば、判定用閾値を更新する際、非遅延判定手段の判定結果を用いて更新するように構成したので、誤った判定用閾値の更新が抑制され、最終的な雑音区間の判定精度が向上する効果がある。
【0235】
この発明によれば、記憶手段に記憶されている現在のフレームよりNフレーム前のフレームのスペクトルと遅延判定手段の判定結果とを用いて推定雑音スペクトルを更新する更新手段を設け、その更新手段により更新された推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するように構成したので、雑音区間の誤判定に伴う推定雑音スペクトルの過大な更新が抑制され、出力音声の音質が向上する効果がある。
【0236】
この発明によれば、スペクトル分析手段により分析された現在のフレームよりNフレーム前のフレームのスペクトルと遅延判定手段の判定結果とを用いて推定雑音スペクトルを更新する更新手段を設け、その更新手段により更新された推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するように構成したので、雑音区間の誤判定に伴う推定雑音スペクトルの過大な更新が抑制され、出力音声の音質が向上する効果がある。
また、スペクトルと遅延判定用パラメータの情報量の合計が入力音声の情報量を上回る場合に、記憶手段の容量を削減することができる効果がある。
【0237】
この発明によれば、スペクトル分析手段により取得された入力音声のスペクトルから遅延判定用パラメータを算出するように構成したので、パラメータの分析処理量を削減することができる効果がある。
【0238】
この発明によれば、更新手段により更新された推定雑音スペクトルから遅延判定用パラメータを算出するように構成したので、安定に更新された推定雑音スペクトルを利用することで雑音区間の判定精度が一層改善され、出力音声の音質が向上する効果がある。
【0239】
この発明によれば、遅延判定手段が音声区間である可能性の大きさを算出すると、その音声区間である可能性の大きさに基づいて更新速度を算出し、その更新速度と現在のフレームよりNフレーム前のフレームのスペクトルとを用いて、推定雑音スペクトルを更新するように構成したので、2値判定による雑音区間の判定では避けることができない誤判定に伴う推定雑音スペクトルの急激な更新を緩和できるようになり、その結果、出力音声の音質が向上する効果がある。
【0240】
この発明によれば、更新手段により更新された推定雑音スペクトルの変動を分析し、その変動が大きい程、遅延判定手段の判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定する遅延制御手段を設けるように構成したので、推定雑音スペクトルの変動が大きい場合には、判定誤りの増加を抑制することができる一方、推定雑音スペクトルの変動が小さい場合には、記憶手段の記憶容量を抑制して、推定雑音スペクトルの雑音に対する追従性を向上することができる効果がある。
【0241】
この発明によれば、記憶手段に記憶されている入力音声の複数のフレームにおける遅延判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定し、その判定結果と記憶手段に記憶されている入力音声のNフレーム前の非遅延判定用パラメータから判定用閾値を更新する一方、スペクトル分析手段により取得された入力音声のスペクトルと非遅延判定手段の判定結果から推定雑音スペクトルを更新し、その推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するように構成したので、雑音区間の誤判定に伴う推定雑音スペクトルの過大な更新が抑制され、出力音声の音質が向上する効果がある。
【0242】
この発明によれば、パラメータ分析手段により取得された入力音声の複数のフレームにおける遅延判定用パラメータからNフレーム前が雑音区間又は音声区間の何れであるかを判定し、その判定結果とパラメータ分析手段により取得された入力音声のNフレーム前の非遅延判定用パラメータから判定用閾値を更新する一方、スペクトル分析手段により取得された入力音声のスペクトルと非遅延判定手段の判定結果から推定雑音スペクトルを更新し、その推定雑音スペクトルを用いて入力音声の現在のフレームにおけるスペクトルを補正するように構成したので、雑音区間の誤判定に伴う推定雑音スペクトルの過大な更新が抑制され、出力音声の音質が向上する効果がある。
【0243】
この発明によれば、遅延判定用パラメータと特徴情報を記憶すると、入力音声の現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定し、その判定結果と現在のフレームよりNフレーム前のフレームの特徴情報とを用いて推定雑音情報を更新するように構成したので、雑音区間の誤判定が抑制され、精度よく推定雑音情報を更新することができる効果がある。
【0244】
この発明によれば、遅延判定用パラメータと特徴情報を取得すると、その入力音声の現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果を総合してNフレーム前のフレームが雑音区間又は音声区間の何れであるかを判定し、その判定結果と現在のフレームよりNフレーム前のフレームの特徴情報とを用いて推定雑音情報を更新するように構成したので、雑音区間の誤判定が抑制され、精度よく推定雑音情報を更新することができる効果がある。
【0245】
この発明によれば、遅延判定用パラメータと特徴情報を共通化するように構成したので、パラメータの分析処理量と必要な記憶容量を削減することができる効果がある。
【0247】
この発明によれば、音声区間である可能性の大きさを算出して、その音声区間である可能性の大きさに基づいて更新速度を算出し、その更新速度と現在のフレームよりNフレーム前のフレームの特徴情報とを用いて、推定雑音情報を更新するように構成したので、2値判定による雑音区間の判定では避けることができない誤判定に伴う推定雑音情報の急激な更新を緩和できるようになり、その結果、精度よく推定雑音情報を更新することができる効果がある。
【0248】
この発明によれば、推定雑音情報の変動を分析し、その変動が大きい程、判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定するように構成したので、推定雑音情報の変動が大きい場合には、判定誤りの増加を抑制することができる一方、推定雑音情報の変動が小さい場合には、記憶容量を抑制して、推定雑音情報の雑音に対する追従性を向上することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による雑音区間判定装置を示す構成図である。
【図2】 この発明の実施の形態2による雑音区間判定装置を示す構成図である。
【図3】 この発明の実施の形態3による雑音区間判定装置を示す構成図である。
【図4】 この発明の実施の形態4による雑音区間判定装置を示す構成図である。
【図5】 この発明の実施の形態6による雑音区間判定装置を示す構成図である。
【図6】 この発明の実施の形態7による雑音区間判定装置を示す構成図である。
【図7】 この発明の実施の形態9による雑音抑圧装置を示す構成図である。
【図8】 この発明の実施の形態10による雑音抑圧装置を示す構成図である。
【図9】 この発明の実施の形態11による雑音抑圧装置を示す構成図である。
【図10】 この発明の実施の形態12による雑音抑圧装置を示す構成図である。
【図11】 この発明の実施の形態14による雑音抑圧装置を示す構成図である。
【図12】 この発明の実施の形態15による雑音抑圧装置を示す構成図である。
【図13】 この発明の実施の形態16による推定雑音情報更新方法を示すフローチャートである。
【図14】 この発明の実施の形態17による推定雑音情報更新方法を示すフローチャートである。
【図15】 この発明の実施の形態18による推定雑音情報更新方法を示すフローチャートである。
【図16】 この発明の実施の形態19による推定雑音情報更新方法を示すフローチャートである。
【図17】 この発明の実施の形態20による推定雑音情報更新方法を示すフローチャートである。
【図18】 この発明の実施の形態21による推定雑音情報更新方法を示すフローチャートである。
【図19】 遅延判定部における判定方法の一例を説明する説明図である。
【符号の説明】
1,12,21,43,54,55 パラメータ分析部(パラメータ分析手段)、4,11,22,44,51 記憶部(記憶手段)、5,23,26,33,45,57 遅延判定部(遅延判定手段)、6,24 閾値算出部(更新手段)、7,25 非遅延判定部(非遅延判定手段)、31,58 変動性分析部(遅延制御手段)、32,59 遅延制御部(遅延制御手段)、41,52 スペクトル分析部(スペクトル分析手段)、46 更新部(更新手段)、47 スペクトル補正部(補正手段)、48 出力音声生成部(音声生成手段)、56 パラメータ算出部(遅延判定手段)、60 推定雑音スペクトル更新部(更新手段)。
Claims (21)
- 入力音声をフレーム毎に分析して、その入力音声の特徴を表す遅延判定用パラメータと非遅延判定用パラメータを取得するパラメータ分析手段と、上記パラメータ分析手段により取得された遅延判定用パラメータと非遅延判定用パラメータを記憶する記憶手段と、上記記憶手段に記憶されている現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する遅延判定手段と、上記遅延判定手段によりNフレーム前のフレームが音声区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって音声区間の平均的な非遅延判定用パラメータを更新し、Nフレーム前のフレームが雑音区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって雑音区間の平均的な非遅延判定用パラメータを更新し、その後、雑音区間及び音声区間の平均的な非遅延判定用パラメータと上記記憶手段に記憶されている現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータにしたがって第1及び第2の判定用閾値を更新する更新手段と、現在のフレームより1フレーム前のフレームの判定結果が音声区間であって、上記パラメータ分析手段により取得された現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第1の判定用閾値より大きい場合、または、現在のフレームより1フレーム前のフレームの判定結果が雑音区間であって、現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第2の判定用閾値より大きい場合、現在のフレームが音声区間であると判定し、それ以外であれば、現在のフレームが雑音区間であると判定する非遅延判定手段とを備えた雑音区間判定装置。
- 入力音声を数フレーム分記憶する記憶手段と、上記記憶手段に記憶されている入力音声を分析して、その入力音声の特徴を表す遅延判定用パラメータと非遅延判定用パラメータを取得するパラメータ分析手段と、上記パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する遅延判定手段と、上記遅延判定手段によりNフレーム前のフレームが音声区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって音声区間の平均的な非遅延判定用パラメータを更新し、Nフレーム前のフレームが雑音区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって雑音区間の平均的な非遅延判定用パラメータを更新し、その後、雑音区間及び音声区間の平均的な非遅延判定用パラメータと上記パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータにしたがって第1及び第2の判定用閾値を更新する更新手段と、現在のフレームより1フレーム前のフレームの判定結果が音声区間であって、上記パラメータ分析手段により取得された現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第1の判定用閾値より大きい場合、または、現在のフレームより1フレーム前のフレームの判定結果が雑音区間であって、現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第2の判定用閾値より大きい場合、現在のフレームが音声区間であると判定し、それ以外であれば、現在のフレームが雑音区間であると判定する非遅延判定手段とを備えた雑音区間判定装置。
- パラメータ分析手段は、遅延判定用パラメータと非遅延判定用パラメータを共通化することを特徴とする請求項1または請求項2記載の雑音区間判定装置。
- 遅延判定手段は、現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと更新手段により更新された判定用閾値とを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定することを特徴とする請求項3記載の雑音区間判定装置。
- 更新手段は、遅延判定手段が音声区間である可能性の大きさを算出すると、音声区間である可能性が高い程、音声区間の平均的な非遅延判定用パラメータが大きくなるように更新し、音声区間である可能性が低い程、雑音区間の平均的な非遅延判定用パラメータが大きくなるように更新することを特徴とする請求項1から請求項4のうちのいずれか1項記載の雑音区間判定装置。
- 更新手段により更新された判定用閾値の変動を分析し、その変動が大きい程、遅延判定手段の判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定する遅延制御手段を設けたことを特徴とする請求項1から請求項5のうちのいずれか1項記載の雑音区間判定装置。
- 遅延判定手段は、現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する第1の判定処理と、非遅延判定手段の判定結果がNフレーム前が音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、上記非遅延判定手段の判定結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する第2の判定処理とを実施し、その第1の判定処理の判定結果と上記第2の判定処理の判定結果が一致する場合に限り、その判定結果を出力することを特徴とする請求項1または請求項2記載の雑音区間判定装置。
- 更新手段は、遅延判定手段の判定結果と非遅延判定手段の判定結果が一致する場合に限り、判定用閾値を更新することを特徴とする請求項1または請求項2記載の雑音区間判定装置。
- 入力音声をフレーム毎に分析して、その入力音声のスペクトルを取得するスペクトル分析手段と、その入力音声をフレーム毎に分析して、その入力音声の特徴を表す遅延判定用パラメータを取得するパラメータ分析手段と、上記スペクトル分析手段により取得されたスペクトルと上記パラメータ分析手段により取得された遅延判定用パラメータを記憶する記憶手段と、上記記憶手段に記憶されている現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する遅延判定手段と、上記遅延判定手段によりNフレーム前のフレームが雑音区間であると判定された場合に限り、上記記憶手段に記憶されている現在のフレームよりNフレーム前のフレームのスペクトルにしたがって推定雑音スペクトルを更新する更新手段と、入力音声の現在のフレームにおけるスペクトルから上記更新手段により更新された推定雑音スペクトルを減算したときのスペクトルの減少率を求め、その減少率を入力音声の現在のフレームにおけるスペクトルに乗じる補正処理を実施する補正手段と、上記補正手段により補正されたスペクトルを信号領域の出力音声に変換する音声生成手段とを備えた雑音抑圧装置。
- 入力音声を数フレーム分記憶する記憶手段と、上記記憶手段に記憶されている入力音声を分析して、その入力音声のNフレーム前のスペクトルを取得するスペクトル分析手段と、上記記憶手段に記憶されている入力音声を分析して、その入力音声の特徴を表す遅延判定用パラメータを取得するパラメータ分析手段と、上記パラメータ分析手段により分析された現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する遅延判定手段と、上記遅延判定手段によりNフレーム前のフレームが雑音区間であると判定された場合に限り、上記スペクトル分析手段により分析された現在のフレームよりNフレーム前のフレームのスペクトルにしたがって推定雑音スペクトルを更新する更新手段と、入力音声の現在のフレームにおけるスペクトルから上記更新手段により更新された推定雑音スペクトルを減算したときのスペクトルの減少率を求め、その減少率を入力音声の現在のフレームにおけるスペクトルに乗じる補正処理を実施する補正手段と、上記補正手段により補正されたスペクトルを信号領域の出力音声に変換する音声生成手段とを備えた雑音抑圧装置。
- パラメータ分析手段は、スペクトル分析手段により取得された入力音声のスペクトルから遅延判定用パラメータを算出することを特徴とする請求項9または請求項10記載の雑音抑圧装置。
- 遅延判定手段は、更新手段により更新された推定雑音スペクトルから遅延判定用パラメータを算出することを特徴とする請求項9または請求項10記載の雑音抑圧装置。
- 更新手段は、遅延判定手段が音声区間である可能性の大きさを算出すると、その音声区間である可能性が低い程、Nフレーム前のフレームのスペクトルに大きな重みを付けて推定雑音スペクトルを更新することを特徴とする請求項9から請求項12のうちのいずれか1項記載の雑音抑圧装置。
- 更新手段により更新された推定雑音スペクトルの変動を分析し、その変動が大きい程、遅延判定手段の判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定する遅延制御手段を設けたことを特徴とする請求項9から請求項13のうちのいずれか1項記載の雑音抑圧装置。
- 入力音声をフレーム毎に分析して、その入力音声の特徴を表す遅延判定用パラメータと非遅延判定用パラメータを取得するパラメータ分析手段と、上記パラメータ分析手段により取得された遅延判定用パラメータと非遅延判定用パラメータを記憶する記憶手段と、上記記憶手段に記憶されている現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する遅延判定手段と、上記遅延判定手段によりNフレーム前のフレームが音声区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって音声区間の平均的な非遅延判定用パラメータを更新し、Nフレーム前のフレームが雑音区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって雑音区間の平均的な非遅延判定用パラメータを更新し、その後、雑音区間及び音声区間の平均的な非遅延判定用パラメータと上記記憶手段に記憶されている現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータにしたがって第1及び第2の判定用閾値を更新する更新手段と、現在のフレームより1フレーム前のフレームの判定結果が音声区間であって、上記パラメータ分析手段により取得された現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第1の判定用閾値より大きい場合、または、現在のフレームより1フレーム前のフレームの判定結果が雑音区間であって、現在のフレームの非遅延判定用パラメー タが上記更新手段により更新された第2の判定用閾値より大きい場合、現在のフレームが音声区間であると判定し、それ以外であれば、現在のフレームが雑音区間であると判定する非遅延判定手段と、その入力音声をフレーム毎に分析して、その入力音声のスペクトルを取得するスペクトル分析手段と、上記非遅延判定手段により現フレームが雑音区間であると判定された場合に限り、上記スペクトル分析手段により分析された入力音声のスペクトルにしたがって推定雑音スペクトルを更新する更新手段と、入力音声の現在のフレームにおけるスペクトルから上記更新手段により更新された推定雑音スペクトルを減算したときのスペクトルの減少率を求め、その減少率を入力音声の現在のフレームにおけるスペクトルに乗じる補正処理を実施する補正手段と、上記補正手段により補正されたスペクトルを信号領域の出力音声に変換する音声生成手段とを備えた雑音抑圧装置。
- 入力音声を数フレーム分記憶する記憶手段と、上記記憶手段に記憶されている入力音声を分析して、その入力音声の特徴を表す遅延判定用パラメータと非遅延判定用パラメータを取得するパラメータ分析手段と、上記パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定する遅延判定手段と、上記遅延判定手段によりNフレーム前のフレームが音声区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって音声区間の平均的な非遅延判定用パラメータを更新し、Nフレーム前のフレームが雑音区間であると判定された場合、Nフレーム前の非遅延判定用パラメータにしたがって雑音区間の平均的な非遅延判定用パラメータを更新し、その後、雑音区間及び音声区間の平均的な非遅延判定用パラメータと上記パラメータ分析手段により取得された現在のフレームよりNフレーム前のフレームの非遅延判定用パラメータにしたがって第1及び第2の判定用閾値を更新する更新手段と、現在のフレームより1フレーム前のフレームの判定結果が音声区間であって、上記パラメータ分析手段により取得された現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第1の判定用閾値より大きい場合、または、現在のフレームより1フレーム前のフレームの判定結果が雑音区間であって、現在のフレームの非遅延判定用パラメータが上記更新手段により更新された第2の判定用閾値より大きい場合、現在のフレームが音声区間であると判定し、それ以外であれば、現在のフレームが雑音区間であると判定する非遅延判定手段と、その入力音声をフレーム毎に分析して、その入力音声のスペクトルを取得するスペクトル分析手段と、上記非遅延判定手段により現フレームが雑音区間であると判定された場合に限り、上記スペクトル分析手段により分析された入力音声のスペクトルにしたがって推定雑音スペクトルを更新する更新手段と、入力音声の現在のフレームにおけるスペクトルから上記更新手段により更新された推定雑音スペクトルを減算したときのスペクトルの減少率を求め、その減少率を入力音声の現在のフレームにおけるスペクトルに乗じる補正処理を実施する補正手段と、上記補正手段により補正されたスペクトルを信号領域の出力音声に変換する音声生成手段とを備えた雑音抑圧装置。
- 入力音声をフレーム毎に分析して、その入力音声の特徴を表す遅延判定用パラメータと特徴情報を取得し、その遅延判定用パラメータと特徴情報を記憶すると、その入力音声の現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定し、その判定結果が、Nフレーム前のフレームが雑音区間である旨を示す場合に限り、Nフレーム前のフレームの特徴情報にしたがって推定雑音情報を更新する推定雑音情報更新方法。
- 入力音声を数フレーム分記憶して、その入力音声をフレーム毎に分析し、その入力音声の特徴を表す遅延判定用パラメータと特徴情報を取得すると、その入力音声の現在のフレームよりNフレーム前のフレーム及びそのフレームの近傍のフレームの遅延判定用パラメータと平均的な雑音区間の遅延判定用パラメータとを比較し、それらの比較結果がNフレーム前のフレームが音声区間である旨を示し、かつ、そのフレームの近傍に音声区間であるフレームが所定数以上存在する旨を示していれば、Nフレーム前のフレームが音声区間であると判定し、それらの比較結果がそれ以外を示していれば、Nフレーム前のフレームが雑音区間であると判定し、その判定結果が、Nフレーム前のフレームが雑音区間である旨を示す場合に限り、Nフレーム前のフレームの特徴情報にしたがって推定雑音情報を更新する推定雑音情報更新方法。
- 遅延判定用パラメータと特徴情報を共通化することを特徴とする請求項17または請求項18記載の推定雑音情報更新方法。
- 音声区間である可能性の大きさを算出し、その音声区間である可能性が低い程、Nフレーム前のフレームの特徴情報に大きな重みを付けて推定雑音スペクトルを更新することを特徴とする請求項17から請求項19のうちのいずれか1項記載の推定雑音情報更新方法。
- 推定雑音情報の変動を分析し、その変動が大きい程、判定対象のフレームであるNフレームを現在のフレームより過去のフレームに設定することを特徴とする請求項17から請求項20のうちのいずれか1項記載の推定雑音情報更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13773799A JP3759685B2 (ja) | 1999-05-18 | 1999-05-18 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13773799A JP3759685B2 (ja) | 1999-05-18 | 1999-05-18 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000330598A JP2000330598A (ja) | 2000-11-30 |
JP3759685B2 true JP3759685B2 (ja) | 2006-03-29 |
Family
ID=15205662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13773799A Expired - Fee Related JP3759685B2 (ja) | 1999-05-18 | 1999-05-18 | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3759685B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
JP4316583B2 (ja) | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP4758879B2 (ja) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
JP5555987B2 (ja) * | 2008-07-11 | 2014-07-23 | 富士通株式会社 | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
CA2778343A1 (en) * | 2009-10-19 | 2011-04-28 | Martin Sehlstedt | Method and voice activity detector for a speech encoder |
JP6596833B2 (ja) * | 2015-02-09 | 2019-10-30 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP6531412B2 (ja) * | 2015-02-09 | 2019-06-19 | 沖電気工業株式会社 | 目的音区間検出装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP6554853B2 (ja) * | 2015-03-26 | 2019-08-07 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム |
JP6724290B2 (ja) * | 2015-03-31 | 2020-07-15 | ソニー株式会社 | 音響処理装置、音響処理方法、及び、プログラム |
-
1999
- 1999-05-18 JP JP13773799A patent/JP3759685B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000330598A (ja) | 2000-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109643552B (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
JP4764118B2 (ja) | 帯域制限オーディオ信号の帯域拡大システム、方法及び媒体 | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
JP2002149200A (ja) | 音声処理装置及び音声処理方法 | |
JP4886715B2 (ja) | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 | |
JP4753821B2 (ja) | 音信号補正方法、音信号補正装置及びコンピュータプログラム | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
JP6788086B2 (ja) | オーディオ信号における背景雑音の推定 | |
US20110238417A1 (en) | Speech detection apparatus | |
US10354659B2 (en) | Frame loss compensation processing method and apparatus | |
US20140177853A1 (en) | Sound processing device, sound processing method, and program | |
JP3759685B2 (ja) | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
JP2006126859A5 (ja) | ||
JP6439174B2 (ja) | 音声強調装置、および音声強調方法 | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
WO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、記録媒体 | |
JP6447357B2 (ja) | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
US10109291B2 (en) | Noise suppression device, noise suppression method, and computer program product | |
JP2008064821A (ja) | 信号区間推定装置、方法、プログラム及びその記録媒体 | |
JPH0844390A (ja) | 音声認識装置 | |
Singh et al. | Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060104 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100113 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110113 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120113 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130113 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130113 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |