JP2005258158A - ノイズ除去装置 - Google Patents
ノイズ除去装置 Download PDFInfo
- Publication number
- JP2005258158A JP2005258158A JP2004070786A JP2004070786A JP2005258158A JP 2005258158 A JP2005258158 A JP 2005258158A JP 2004070786 A JP2004070786 A JP 2004070786A JP 2004070786 A JP2004070786 A JP 2004070786A JP 2005258158 A JP2005258158 A JP 2005258158A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- noise
- spectrum
- axis direction
- masking threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ノイズ除去精度が高く、処理後の信号に生じる歪みが少ないノイズ除去装置を提供する。
【解決手段】ノイズ除去装置180は、音声信号182をフレーム化し、フレームごとの音響スペクトルを算出するフレーム化処理部200と、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、各フレームから減算するノイズスペクトル推定部202及びスペクトル減算部204と、フレーム化処理部200の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するマスキングしきい値算出部208と、スペクトル減算部204から出力されるフレームごとの音響スペクトルに対し、マスキングしきい値と処理対象のフレームの直前のフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なう時間軸方向平滑化処理部206及び周波数方向平滑化処理部210とを含む。
【選択図】 図7
【解決手段】ノイズ除去装置180は、音声信号182をフレーム化し、フレームごとの音響スペクトルを算出するフレーム化処理部200と、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、各フレームから減算するノイズスペクトル推定部202及びスペクトル減算部204と、フレーム化処理部200の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するマスキングしきい値算出部208と、スペクトル減算部204から出力されるフレームごとの音響スペクトルに対し、マスキングしきい値と処理対象のフレームの直前のフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なう時間軸方向平滑化処理部206及び周波数方向平滑化処理部210とを含む。
【選択図】 図7
Description
本発明は、音声信号に付加された音響雑音を除去するためのノイズ除去装置に関し、特に、スペクトルサブトラクション(以下「SS」と呼ぶ。)法を用いたノイズ除去装置に関する。
近年、音響情報を扱う種々の装置の実用化に伴ない、ノイズを除去する技術は必要不可欠となっている。現在、受音系の形態を問わず広く採用されているノイズ除去の手法として、後掲の非特許文献1に記載のSS法がある。
非特許文献1に記載のSS法は、ノイズが定常性を有し、かつ音声と無相関であるという仮定に基づいている。すなわち、この方法は、発話の前に観測されたノイズの振幅スペクトル(以下、「ノイズスペクトル」と呼ぶ。)が、発話に含まれるノイズスペクトルと同じであると仮定し、発話から得られた音声信号の振幅スペクトルから、発話直前に観測されたノイズスペクトルを減算することでノイズを除去する。
この方法は、上記のとおり、ノイズが定常性を有するという仮定に基づいているため、非定常なノイズに対しては十分なノイズ除去を行なうことができない。また、SS法では、独特の残留ノイズ(ミュージカルノイズ)が発生し、ノイズ除去処理後の音声信号の品質が低下する。
SS法におけるこれらの問題を解決することを目的として、これまでに種々の改良法が開発されてきている。後掲の非特許文献2には、小規模マイクロホンアレイを用いたSS改良法が開示されている。このSS改良法は、入力音声の受音に小規模マイクロホンアレイを用いる。マイクロホンアレイによる受音信号から到来信号の空間情報を得ることで、時々刻々に変化するノイズスペクトルを推定する。
S.F.ボル、「スペクトルサブトラクションを用いた、音声内の音響ノイズの抑制」、IEEE Trans. ASSP,Vol.27、No.2、pp.113−120、1979年(S.F.Boll,"Suppression of acoustic noise in speech using spectral subtraction.",IEEE Trans. ASSP,Vol.27,No.2,pp.113−120(1979))
水町他一名、"マイクロホン対を用いたスペクトルサブトラクションによる雑音除去法,"電子情報通信学会論文誌(A)Vol.J82−A,No.4,pp.503−512(1999)
処理後音声の歪みは、大別すると次の2種のものがある。即ち、第1の種類の歪みは、広い周波数帯域に分散する歪みである。第2の種類の歪みは、特定の時間、及び特定の周波数領域に突発的に発生するスパイク状の歪みである。特に、後者の歪みは処理後音声の品質劣化に大きな影響を及ぼすと考えられている。しかし、非特許文献2に記載の方法をはじめ、現在提案されているいずれのSS改良法も、処理後音声のこのような歪みを完全に除去できるとは言いがたい。
それゆえに、本発明の目的は、ノイズ除去精度が高く、かつ処理後の信号に生じる歪みが少ないノイズ除去装置を提供することである。
本発明の別の目的は、SS処理後音声に存在する不自然なスパイク上の歪みを除去することが可能なノイズ除去装置を提供することである。
本発明に係るノイズ除去装置は、入力される音響信号を所定の周期で所定の時間長を有するフレームにフレーム化し、フレームごとの音響スペクトルを算出するためのフレーム化手段と、フレーム化手段により出力される音響スペクトルに基づいて、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、当該各フレームの音響スペクトルから減算するためのノイズ減算手段と、フレーム化手段の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するためのマスキングしきい値算出手段と、ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、マスキングしきい値と処理対象のフレームに対し時間軸上で所定の関係にあるフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なうことにより平滑化された音声信号を出力するための平滑化処理手段とを含む。
好ましくは、平滑化処理手段は、ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、所定の関係にあるフレームの音響スペクトルを用いて時間軸方向の平滑化を行なうための時間軸方向平滑化手段と、時間軸方向平滑化手段の出力するフレームごとの音響スペクトルに対し、マスキングしきい値算出手段により算出されたマスキングしきい値を用いた周波数軸方向の平滑化を行なって、周波数軸方向に平滑化された音声信号を生成するための周波数軸方向平滑化処理手段とを含む。
より好ましくは、時間軸方向平滑化手段は、ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分について、所定の関係にあるフレームの音響スペクトル内で対応する周波数成分との値の相違が所定の条件を充足しているか否かを判定するための第1の判定手段と、第1の判定手段により所定の条件を充足していると判定された周波数成分の値を、予め定めた推定方法により推定された値で置換するための手段とを含む。
第1の判定手段は、ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分と、処理対象のフレームに対し時間軸上で1フレーム前のフレームの音響スペクトル内で対応する周波数成分との値の相違が所定のしきい値、例えばフレーム長21.3ms、フレーム周期10.6msの場合、30dBを超えているか否かを判定するための手段を含んでもよい。
また、周波数軸方向平滑化手段は、時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値がマスキングしきい値に対し所定の関係を充足しているか否かを判定するための第2の判定手段と、第2の判定手段により所定の関係を充足していると判定された周波数成分を所定の値で置換するための置換手段とを含んでもよい。
好ましくは、第2の判定手段は、時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値がマスキングしきい値を超えているか否かを判定するための手段を含む。
さらに好ましくは、置換手段は、第2の判定手段により所定の関係を充足していると判定された周波数成分を、判定対象の周波数成分に対応するマスキングしきい値で置換するための手段を含んでもよい。
[制約条件]
本発明の一実施の形態に係るノイズ除去装置は、ノイズと音声とが混在する環境下で受音された音声の信号から、SS法を用いてノイズを除去する装置である。しかし、上記の通り、単純にSS法を用いてノイズ除去を行なうと、処理後の音声に歪みが生じる。
本発明の一実施の形態に係るノイズ除去装置は、ノイズと音声とが混在する環境下で受音された音声の信号から、SS法を用いてノイズを除去する装置である。しかし、上記の通り、単純にSS法を用いてノイズ除去を行なうと、処理後の音声に歪みが生じる。
そこで本実施の形態に係るノイズ除去装置では、まず人間の聴覚特性を考慮した制約条件を導入する。そのためにまず人間聴覚系のマスキング特性を工学的にシミュレートし、連続かつ滑らかに変化するマスキングしきい値を求め、そのマスキングしきい値を用いてSSにより振幅スペクトルに生じた周波数軸方向の不連続性を解消することを試みる。
さらに本実施の形態に係るノイズ除去装置では、環境及び時間の関数であり予測困難なノイズ信号ではなく、目的信号である音声に着目した時間軸方向の制約条件を導入する。
音声は、時間とともに変化する非定常信号であるが、SS処理後音声の歪みの動特性と比較すると、20ms程度の区間内ではほぼ定常な信号とみなすことができる。音声は時間的に滑らかな信号であるという時間軸方向の制約条件を導入することにより、SSにより音声に生じる突発的なスペクトル歪みの抑圧を試みる。
−マスキング特性による制約条件の検討−
人間の聴覚系のマスキング特性を工学的にシミュレートする方法について図1及び図2を参照して説明する。なお、本実施の形態のノイズ除去装置では、人間の聴覚特性のうち、同時マスキング特性(周波数軸方向のマスキング特性)のみを考慮し、時間軸方向のマスキング特性及びレベル依存性については考慮しない。
人間の聴覚系のマスキング特性を工学的にシミュレートする方法について図1及び図2を参照して説明する。なお、本実施の形態のノイズ除去装置では、人間の聴覚特性のうち、同時マスキング特性(周波数軸方向のマスキング特性)のみを考慮し、時間軸方向のマスキング特性及びレベル依存性については考慮しない。
図1を参照して、ある音声30(マスキングの原因となるという意味でこの音声を「マスカ」と呼ぶ。)が存在するとき、このマスカ30により生じるマスキング範囲を図1の曲線32で示す。この範囲に存在する音は人間には知覚できない。すなわち、マスキング範囲を画する線は、マスキングのしきい値を示す。
この曲線32をシミュレートするために、三点ABCで定められる図形34を用いる。図形34の各点A,B,Cの位置は、図1に示すようにマスカ30のレベルとその周波数k(Hz)との関係で定まる。
次に、このようなシミュレート方法を用いて、音声信号に対するマスキングしきい値を次のようにして求める。本実施の形態では、パワー・ロー・モデルと呼ばれるモデルを用いる。図2を参照してその概略を説明する。
図2に示されるように音声信号の短時間対数スペクトル50が存在しているものとする。この音声信号に対するマスキングしきい値は以下のようにして求められる。まず、このスペクトル50の振幅の最大のピーク(図2ではピーク52)をマスカ候補として求める。このピークに対して、シミュレートされたマスキング領域54を求める。続いて、スペクトル50の周波数を中心とする臨界帯域の外で次に大きなピーク(図2においてはピーク56)を次のマスカ候補として求める。このピークに対して、最初と同様にマスキング領域58を求める。以下同様に、次のマスカ候補としてのピーク60、それに対するマスキング領域62、…、を求める。
このようにして求められたマスキング領域54,58,62,…により定まるマスキング領域の和を求めることで、周波数軸方向に連続した、マスキングしきい値を示す(周波数の)関数を考えることができる。
すなわち、マスキングしきい値Thresholdtotalは、次の式で求められる。
上記のようにして求めたマスキングしきい値の時間変化の例を、図3に示す。図3に示すグラフ100のうち、比較的平坦な部分がマスキングしきい値を示し、突出して見える部分は音声の短時間スペクトルのうち、マスキングしきい値より大きな値の部分を示す。図3から分かるように、音声スペクトルのうちしきい値より小さな部分については平滑化される。本実施の形態では、このようにして音声スペクトルの谷を埋め、不連続をなくす。
−時間軸方向の制約条件の検討−
次に、音声が時間軸方向に滑らかに変化するという前提による制約条件について検討する。図4に、特定のテストデータに対する測定により得られた、各周波数における音声信号の対数振幅スペクトル値の隣接フレーム間での変化量のヒストグラムを示す。
次に、音声が時間軸方向に滑らかに変化するという前提による制約条件について検討する。図4に、特定のテストデータに対する測定により得られた、各周波数における音声信号の対数振幅スペクトル値の隣接フレーム間での変化量のヒストグラムを示す。
図5を参照して、対数振幅の相違の概念を説明する。図5に示すように、ある時間tにおける音響スペクトル122のi番目の周波数成分の対数振幅の値132をXt(fi)で表すものとする。その1フレーム前(時間t−1)の音響スペクトル120の、これに対応するi番目の周波数成分の対数振幅の値はXt-1(fi)で表される。したがって、時間軸上で隣接する二つのフレームの対応する周波数成分の値の差140をΔとすると、ΔはΔ=Xt(fi)−Xt-1(fi)で表される。
図4を参照して容易に分かるように、時間軸上で隣接する二つのフレーム間の振幅の差は0の近辺に集中しており、これらの間では音声信号の対数振幅スペクトルは時間的に滑らかに変化することが分かる。
図6に、時間軸上で隣接するフレーム間の対数振幅の差が10dB、20dB,30dBにそれぞれ入るものの割合を、周波数との関数としてそれぞれ曲線150、152及び154として示す。図6の曲線154を参照して分かるように、時間軸上で隣接する二つのフレーム間の振幅の差が30dB以上であることはほとんどなく、30dBを超える場合は異常であると考えることができる。
[構成]
図7に、以上の制約条件を考慮したSSによりノイズ除去を試みる、本実施の形態に係るノイズ除去装置の機能的構成をブロック図形式で示す。図7を参照して、ノイズ除去装置180は、ノイズを含む音声信号182を窓長21.3msのハニング窓を用い、時間間隔10.6msでフレーム化しさらにそれらにフーリエ変換を行なってフレームごとの振幅スペクトルを出力するフレーム化処理部200と、フレーム化処理部200が出力する振幅スペクトルを受け、フレーム毎にノイズスペクトルを推定するノイズスペクトル推定部202と、フレーム化処理部200から振幅スペクトルを、ノイズスペクトル推定部202から推定ノイズスペクトルを、それぞれ受けるように接続され、フレーム化処理部200からの振幅スペクトルから推定ノイズスペクトルを減算するスペクトル減算部204と、スペクトル減算部204の出力に対し、時間軸方向の音声の平滑性による平滑化処理を実行するための時間軸方向平滑化処理部206とを含む。
図7に、以上の制約条件を考慮したSSによりノイズ除去を試みる、本実施の形態に係るノイズ除去装置の機能的構成をブロック図形式で示す。図7を参照して、ノイズ除去装置180は、ノイズを含む音声信号182を窓長21.3msのハニング窓を用い、時間間隔10.6msでフレーム化しさらにそれらにフーリエ変換を行なってフレームごとの振幅スペクトルを出力するフレーム化処理部200と、フレーム化処理部200が出力する振幅スペクトルを受け、フレーム毎にノイズスペクトルを推定するノイズスペクトル推定部202と、フレーム化処理部200から振幅スペクトルを、ノイズスペクトル推定部202から推定ノイズスペクトルを、それぞれ受けるように接続され、フレーム化処理部200からの振幅スペクトルから推定ノイズスペクトルを減算するスペクトル減算部204と、スペクトル減算部204の出力に対し、時間軸方向の音声の平滑性による平滑化処理を実行するための時間軸方向平滑化処理部206とを含む。
ノイズ除去装置180はさらに、フレーム化処理部200からフレームごとの振幅スペクトルを受けるように接続され、この振幅スペクトルに対して聴覚特性を考慮したマスキングしきい値を算出するためのマスキングしきい値算出部208と、時間軸方向平滑化処理部206により時間軸方向の平滑化がされたフレームごとの音声スペクトルについて、マスキングしきい値算出部208により算出されたマスキングしきい値を用いた周波数軸方向の平滑化を行ない、音声信号184の形で出力するための周波数軸方向平滑化処理部210とを含む。
本実施の形態におけるノイズスペクトル推定部202によるノイズスペクトルの推定処理について説明する。図8を参照して、本実施の形態では、ターゲットとなる音源240と、ノイズ源242とが異なる方向に存在することを仮定し、二つのマイクロホン250及び252を含む2チャンネルのマイクロホンアレイにより、受音位置254における、ノイズ源242からのノイズのスペクトルを推定する。二つの音源が異なる方向に存在する場合、二つのマイクロホンによる観測信号を用いて、これら音源からの信号を互いに分離できることが知られている。
すなわち、音源240からの音声と、ノイズ源242からのノイズとの2つの信号到来方向を推定し、音源240からの音声を完全に抑制するように2チャンネル減算型ビームフォーマを設計し、ノイズスペクトルを推定する。この方法では、信号の到達時間差という空間情報を利用したフィルタリングを行なうため、短時間音声に対するノイズスペクトルをフレーム毎に推定することが可能である。したがってこの方法では、非定常ノイズのスペクトルも推定可能である。
本実施の形態では、この公知の減算型ビームフォーマを形成するマイクロホンアレイを用いて音源240からの音声信号を抑圧し、それによってノイズ源242からのノイズのスペクトルを推定する。
スペクトル減算部204によるノイズスペクトルの減算処理は、通常のSSによるものと同様である。スペクトル減算部204の出力を、以下「推定振幅スペクトル」と呼ぶことにする。
図9に、時間軸方向平滑化処理部206の実行する処理のフローチャートを示す。図9を参照して、時間軸方向平滑化処理部206は、推定振幅スペクトルの各周波数成分について、時間軸上で隣接するフレームの同一周波数成分との差を求め、この差が30dBを超えるか否かを判定する(ステップ270)。差が30dBを超えない場合には何もしない。差が30dBを超える場合、音声の時間軸上の平滑性によりそのような差は異常と考えられる。したがってステップ272でこのフレームのこの周波数成分の値を、過去のフレームからの予測値で置換する。
この処理により、時間軸上で直前のフレームと比較して大きく違う周波数成分を検出し、より滑らかに変化する値に平滑化することができる。
図10に、周波数軸方向平滑化処理部210の実行する処理のフローチャートを示す。図10を参照して、周波数軸方向平滑化処理部210は、時間軸方向平滑化処理部206から時間軸方向の平滑化処理が施されたフレームごとのスペクトルを受け、フレームごとに周波数軸方向の平滑化処理を行なう。
具体的には周波数軸方向平滑化処理部210は、時間軸方向の平滑化がされた振幅スペクトルの各フレームに含まれる各周波数の対数振幅スペクトル値に対し、その値がマスキングしきい値算出部208から与えられるマスキングしきい値より大きいか否かを判定する(ステップ280)。各周波数の対数振幅スペクトル値が、対応するマスキングしきい値より大きい場合には何もしない。マスキングしきい値以下の場合には、ステップ282でその部分の値をマスキングしきい値で置換することにより、対数振幅スペクトルの谷を埋める。
この処理を各周波数成分に対して実行することにより、周波数軸方向平滑化処理部210はこのフレームに対する周波数軸方向の平滑化処理を行なう。
[動作]
本実施の形態に係るノイズ除去装置180は以下のように動作する。
本実施の形態に係るノイズ除去装置180は以下のように動作する。
図7を参照して、ノイズが存在する環境化で受音されたノイズを含む音声からの音声信号182がノイズ除去装置180に与えられる。フレーム化処理部200は、与えられた入力信号を10.6msごとに21.3msの長さのフレームに順次フレーム化する。これらフレームの音声信号に対してフーリエ変換を行なって得られた音声スペクトルは、ノイズスペクトル推定部202及びマスキングしきい値算出部208に与えられる。
ノイズスペクトル推定部202は、与えられた各フレームの音声信号スペクトルについて、図8を参照して説明した方法によりノイズスペクトルの推定を行なう。ノイズスペクトル推定部202は、推定されたノイズスペクトルをスペクトル減算部204に与える。
スペクトル減算部204は、フレーム化処理部200から受けた各フレームの音声信号スペクトルから、ノイズスペクトル推定部202から受けた同一フレームのノイズスペクトルを減算し、推定振幅スペクトルを時間軸方向平滑化処理部206に与える。
時間軸方向平滑化処理部206は、一つ前のフレームに関する推定振幅スペクトルを保持しており、図9のフローチャートにより示される処理を処理対象のフレームの各周波数成分に対して実行する。この処理により、直前のフレームに対して30dBを越える相違を持つような周波数成分の値は、過去のフレームから推定された値で置換される。この結果、時間軸方向の平滑化が実現される。
一方、マスキングしきい値算出部208は、フレーム化処理部200から1フレーム分の音声信号スペクトルが与えられると、与えられたフレームに対するマスキングしきい値を算出する。マスキングしきい値算出部208は、算出したマスキングしきい値を周波数軸方向平滑化処理部210に与える。
周波数軸方向平滑化処理部210は、時間軸方向平滑化処理部206の出力と、この出力に対応するフレームのマスキングしきい値とが与えられると、以下のようにして、与えられたフレームにおけるスペクトルの平滑化を行なう。
すなわち、周波数軸方向平滑化処理部210は、図10に示すように、与えられた時間軸方向平滑化後のスペクトルの各周波数成分と、当該周波数におけるマスキングしきい値とを比較する(ステップ280)。周波数成分の値がマスキングしきい値以下の場合、当該値をマスキングしきい値で置換する。それ以外の場合には何もしない。マスキングしきい値以下の周波数成分は、本来マスキングされているものでありそれほど重要なものとは考えられない。そこで、このようなスペクトル上の谷に相当する部分をマスキングしきい値で置換して平滑化することにより、最終的な歪みの発生を抑える。周波数軸方向平滑化処理部210は、以上のようにしてノイズが除去され、かつ時間軸方向と周波数軸方向との双方に音声スペクトルを平滑化するようにして音声信号を推定し、音声信号184として出力する。
[実験による検証]
上記した本実施の形態のノイズ除去装置180によるノイズ除去の有効性について、実験により検証を行なった。図11を参照して、この実験では、目的音声となる音源300は正面方向に、ノイズ源は正面から右に30度方向に、それぞれ位置するものとした。ノイズは無相関Gaussianノイズである。マイクロホン314から音源300とノイズ源302とまでの距離は等しい。
上記した本実施の形態のノイズ除去装置180によるノイズ除去の有効性について、実験により検証を行なった。図11を参照して、この実験では、目的音声となる音源300は正面方向に、ノイズ源は正面から右に30度方向に、それぞれ位置するものとした。ノイズは無相関Gaussianノイズである。マイクロホン314から音源300とノイズ源302とまでの距離は等しい。
ノイズスペクトル推定のために使用するマイクロホンアレイのマイクロホン310及び312は、マイクロホン314の左右、等距離に設けた。音源300までの距離は1.0m、マイクロホン314からマイクロホン310及び312までの距離はいずれも0.1mである。
図12に、ノイズ付加音声、上記した制約条件を用いずにノイズ除去を行なった音声(ベースライン:BL)、マスキング特性を導入してノイズ除去を行なった音声(BL+周波数軸方向平滑化)、及びこれに加えて時間軸方向平滑化を導入してノイズ除去を行なった音声(BL+周波数軸方向平滑化+時間軸方向平滑化)のノイズ除去後音声の平均スペクトル歪みを示す。
図12から、ノイズ環境下において、本実施の形態に係る聴覚特性及び音声生成系に基づく平滑化処理の有効性が確認できる。
なお、本実施の形態では、複数マイクロホンを用いた減算型ビームフォーマにより音響信号中のノイズスペクトルの推定を行なったが、これに限らず現在までに提案されているものおよび将来提案されるものも含みどのようなノイズ推定の手法を用いることもできる。
また、図9のステップ272で使用される予測値としては、直前の1フレームから予測した値、例えば直前の1フレームの対応周波数成分の値を用いることもできるし、直前の複数フレームでの対応周波数成分の推移から外挿した値を用いてもよい。
さらに、図9のステップ270及び図10のステップ280では、各値が所定のしきい値を超えているか否かを判定しているが、判定条件はこれに限らない。例えば各値が所定のしきい値以上か否かを判定してもよい。また、例えば図9のステップ270ではしきい値として30dBという定数を用いているが、このしきい値を、過去のフレームからの予測により求めるようにしてもよい。
また、図10のステップ282では、スペクトルの谷部の値をマスキングしきい値で置換しているが、これに限らずマスキングしきい値又は振幅の大きさに基づいて何らかの関数で算出される値で置換するようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
180 ノイズ除去装置、182 ノイズを含む音声信号、184 ノイズ除去後の音声信号、200 フレーム化処理部、202 ノイズスペクトル推定部、204 スペクトル減算部、206 時間軸方向平滑化処理部、208 マスキングしきい値算出部、210 周波数軸方向平滑化処理部
Claims (6)
- 入力される音響信号を所定の周期で所定の時間長を有するフレームにフレーム化し、フレームごとの音響スペクトルを算出するためのフレーム化手段と、
前記フレーム化手段により出力される音響スペクトルに基づいて、各フレームの音響スペクトルに含まれるノイズスペクトルを推定し、当該各フレームの音響スペクトルから減算するためのノイズ減算手段と、
前記フレーム化手段の出力する各フレームの音響スペクトルに対する周波数軸方向のマスキングしきい値を算出するためのマスキングしきい値算出手段と、
前記ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、前記マスキングしきい値と処理対象のフレームに対し時間軸上で所定の関係にあるフレームの音響スペクトルとを用いて、時間軸方向と周波数軸方向との双方の平滑化を行なうことにより平滑化された音声信号を出力するための平滑化処理手段とを含む、ノイズ除去装置。 - 前記平滑化処理手段は、
前記ノイズ減算手段から出力されるフレームごとの音響スペクトルに対し、前記所定の関係にあるフレームの音響スペクトルを用いて時間軸方向の平滑化を行なうための時間軸方向平滑化手段と、
前記時間軸方向平滑化手段の出力するフレームごとの音響スペクトルに対し、前記マスキングしきい値算出手段により算出されたマスキングしきい値を用いた周波数軸方向の平滑化を行なって、周波数軸方向に平滑化された音声信号を生成するための周波数軸方向平滑化処理手段とを含む、請求項1に記載のノイズ除去装置。 - 前記時間軸方向平滑化手段は、
前記ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分について、前記所定の関係にあるフレームの音響スペクトル内で対応する周波数成分との値の相違が所定の条件を充足しているか否かを判定するための第1の判定手段と、
前記第1の判定手段により前記所定の条件を充足していると判定された周波数成分の値を、予め定めた推定方法により推定された値で置換するための手段とを含む、請求項2に記載のノイズ除去装置。 - 前記第1の判定手段は、前記ノイズ減算手段の出力する各フレームの音響スペクトルの各周波数成分と、処理対象のフレームに対し時間軸上で1フレーム前のフレームの音響スペクトル内で対応する周波数成分との値の相違が所定のしきい値を超えているか否かを判定するための手段を含む、請求項3に記載のノイズ除去装置。
- 前記周波数軸方向平滑化手段は、
前記時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値が前記マスキングしきい値に対し所定の関係を充足しているか否かを判定するための第2の判定手段と、
前記第2の判定手段により前記所定の関係を充足していると判定された周波数成分を所定の値で置換するための置換手段とを含む、請求項1〜請求項4のいずれかに記載のノイズ除去装置。 - 前記第2の判定手段は、前記時間軸方向平滑化手段の出力する各フレームの音響スペクトルの各周波数成分について、その値が前記マスキングしきい値を超えているか否かを判定するための手段を含む、請求項5に記載のノイズ除去装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004070786A JP2005258158A (ja) | 2004-03-12 | 2004-03-12 | ノイズ除去装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004070786A JP2005258158A (ja) | 2004-03-12 | 2004-03-12 | ノイズ除去装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005258158A true JP2005258158A (ja) | 2005-09-22 |
Family
ID=35083912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004070786A Pending JP2005258158A (ja) | 2004-03-12 | 2004-03-12 | ノイズ除去装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005258158A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009151299A (ja) * | 2007-12-20 | 2009-07-09 | Toshiba Corp | 音声スペクトルピーク検出方法及び装置、音声認識方法およびシステム |
WO2010046954A1 (ja) * | 2008-10-24 | 2010-04-29 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
JPWO2009004727A1 (ja) * | 2007-07-04 | 2010-08-26 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
JP2010539792A (ja) * | 2007-09-12 | 2010-12-16 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチ増強 |
US7941315B2 (en) * | 2005-12-29 | 2011-05-10 | Fujitsu Limited | Noise reducer, noise reducing method, and recording medium |
JP2011095567A (ja) * | 2009-10-30 | 2011-05-12 | Nikon Corp | 撮像装置 |
JP2012063394A (ja) * | 2010-09-14 | 2012-03-29 | Casio Comput Co Ltd | 雑音抑制装置、雑音抑制方法およびプログラム |
JP2015108766A (ja) * | 2013-12-05 | 2015-06-11 | 日本電信電話株式会社 | 雑音抑圧方法とその装置とプログラム |
US9076440B2 (en) | 2008-02-19 | 2015-07-07 | Fujitsu Limited | Audio signal encoding device, method, and medium by correcting allowable error powers for a tonal frequency spectrum |
JP2016099148A (ja) * | 2014-11-19 | 2016-05-30 | 日置電機株式会社 | 測定データ処理装置および測定データ処理方法 |
US9613610B2 (en) | 2012-07-24 | 2017-04-04 | Koninklijke Philips N.V. | Directional sound masking |
JP2017122769A (ja) * | 2016-01-05 | 2017-07-13 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
-
2004
- 2004-03-12 JP JP2004070786A patent/JP2005258158A/ja active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7941315B2 (en) * | 2005-12-29 | 2011-05-10 | Fujitsu Limited | Noise reducer, noise reducing method, and recording medium |
JPWO2009004727A1 (ja) * | 2007-07-04 | 2010-08-26 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
JP5071479B2 (ja) * | 2007-07-04 | 2012-11-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
US8244524B2 (en) | 2007-07-04 | 2012-08-14 | Fujitsu Limited | SBR encoder with spectrum power correction |
JP2012110049A (ja) * | 2007-09-12 | 2012-06-07 | Dolby Lab Licensing Corp | スピーチ増強 |
JP2010539792A (ja) * | 2007-09-12 | 2010-12-16 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチ増強 |
US8891778B2 (en) | 2007-09-12 | 2014-11-18 | Dolby Laboratories Licensing Corporation | Speech enhancement |
JP2009151299A (ja) * | 2007-12-20 | 2009-07-09 | Toshiba Corp | 音声スペクトルピーク検出方法及び装置、音声認識方法およびシステム |
US9076440B2 (en) | 2008-02-19 | 2015-07-07 | Fujitsu Limited | Audio signal encoding device, method, and medium by correcting allowable error powers for a tonal frequency spectrum |
CN102150206A (zh) * | 2008-10-24 | 2011-08-10 | 三菱电机株式会社 | 噪音抑制装置以及声音解码装置 |
JP5153886B2 (ja) * | 2008-10-24 | 2013-02-27 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
WO2010046954A1 (ja) * | 2008-10-24 | 2010-04-29 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
US8860822B2 (en) | 2009-10-30 | 2014-10-14 | Nikon Corporation | Imaging device |
JP2011095567A (ja) * | 2009-10-30 | 2011-05-12 | Nikon Corp | 撮像装置 |
JP2012063394A (ja) * | 2010-09-14 | 2012-03-29 | Casio Comput Co Ltd | 雑音抑制装置、雑音抑制方法およびプログラム |
US9613610B2 (en) | 2012-07-24 | 2017-04-04 | Koninklijke Philips N.V. | Directional sound masking |
RU2647213C2 (ru) * | 2012-07-24 | 2018-03-14 | Конинклейке Филипс Н.В. | Направленное маскирование звука |
JP2015108766A (ja) * | 2013-12-05 | 2015-06-11 | 日本電信電話株式会社 | 雑音抑圧方法とその装置とプログラム |
JP2016099148A (ja) * | 2014-11-19 | 2016-05-30 | 日置電機株式会社 | 測定データ処理装置および測定データ処理方法 |
JP2017122769A (ja) * | 2016-01-05 | 2017-07-13 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5102365B2 (ja) | 複数マイクロホン音声アクティビティ検出器 | |
JP5183828B2 (ja) | 雑音抑圧装置 | |
JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
JP2006003899A (ja) | ゲイン制約ノイズ抑圧 | |
JP2006087082A (ja) | 多感覚音声強調のための方法および装置 | |
US11587575B2 (en) | Hybrid noise suppression | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
JP2005258158A (ja) | ノイズ除去装置 | |
US11183172B2 (en) | Detection of fricatives in speech signals | |
KR20110061781A (ko) | 실시간 잡음 추정에 기반하여 잡음을 제거하는 음성 처리 장치 및 방법 | |
Banchhor et al. | GUI based performance analysis of speech enhancement techniques | |
Toyin et al. | Speech enhancement in wireless communication system using hybrid spectral-kalman filter | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
Lu | Reduction of musical residual noise using block-and-directional-median filter adapted by harmonic properties | |
Naik et al. | A literature survey on single channel speech enhancement techniques | |
Shanmugapriya et al. | Evaluation of sound classification using modified classifier and speech enhancement using ICA algorithm for hearing aid application | |
KR101096091B1 (ko) | 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법 | |
Tanabe et al. | Kalman filter for robust noise suppression in white and colored noises | |
Costa | A complementary low-cost method for broadband noise reduction in hearing aids for medium to high SNR levels | |
Miyazaki et al. | Theoretical Analysis of Amounts of Musical Noise and Speech Distortion in Structure-Generalized Parametric Blind Spatial Subtraction Array | |
Saleem et al. | Unsupervised single-channel speech enhancement based on phase aware time-frequency mask estimation | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
JP2015155982A (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム |