JP2008209445A - 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 - Google Patents

残響除去装置、残響除去方法、残響除去プログラム、記録媒体 Download PDF

Info

Publication number
JP2008209445A
JP2008209445A JP2007043430A JP2007043430A JP2008209445A JP 2008209445 A JP2008209445 A JP 2008209445A JP 2007043430 A JP2007043430 A JP 2007043430A JP 2007043430 A JP2007043430 A JP 2007043430A JP 2008209445 A JP2008209445 A JP 2008209445A
Authority
JP
Japan
Prior art keywords
estimation
speech
signal
estimated
autocorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007043430A
Other languages
English (en)
Other versions
JP4891805B2 (ja
Inventor
Tomohiro Nakatani
智広 中谷
Takafumi Hikichi
孝文 引地
Takuya Yoshioka
拓也 吉岡
Keisuke Kinoshita
慶介 木下
Masato Miyoshi
正人 三好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007043430A priority Critical patent/JP4891805B2/ja
Publication of JP2008209445A publication Critical patent/JP2008209445A/ja
Application granted granted Critical
Publication of JP4891805B2 publication Critical patent/JP4891805B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音質劣化の少ない残響除去装置、方法を提供する。
【解決手段】音声信号の初期推定値もしくは音声信号推定手段が推定した音声信号の推定値を受け取り、音声信号の確率モデルに基づき各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定手段と、観測信号と音声自己相関推定手段が推定した短時間区間ごとの音声の自己相関を受け取り逆フィルタを推定する逆フィルタ推定手段と、観測信号と逆フィルタ推定手段が推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定手段と、音声自己相関推定手段、逆フィルタ推定手段、音声信号推定手段が順に各推定を繰り返すことで各推定精度を向上させ、音声信号推定手段が推定した音声信号の推定値を受け取り繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の当該推定値を出力する収束判定手段とを備える。
【選択図】図3

Description

この発明は残響を伴った音響信号から、残響を取り除いた音声信号を抽出する残響除去装置、残響除去方法、残響除去プログラム、このプログラムを記録した記録媒体に関する。
音声信号は、残響のある環境で収音されると、本来の音声信号に残響が重畳された信号として観測される。このため、本来の音声信号の性質を抽出することが困難になるとともに、音声自体の明瞭度が低下する。これに対し、残響除去処理は、重畳した残響を取り除くことで、音声本来の性質を抽出しやすくするとともに、音声の明瞭度を回復することができる。
これは他のさまざまな音響信号処理システムの要素技術として用いることで、そのシステム全体の性能向上につながる技術である。残響除去処理が要素技術として性能向上に寄与できるような音響信号処理システムには、例えば、以下のようなものが列挙できる。
1.残響除去を前処理として用いる音声認識システム。
2.残響除去により音声の明瞭度を向上させるTV会議システムなどの通信システム。
3.講演の録音に含まれる残響を除去することで、録音された音声の明瞭度を向上させる再生システム。
4.残響を除去することで聞き取りやすさを向上させる補聴器。
5.人が発した声に反応して機械にコマンドをわたす機械制御インターフェース、および機械と人間との対話装置。
残響除去方法の従来例1を図4を参照して説明する。図4において、1はマイクロホン、2は逆フィルタ処理部、3は逆フィルタ計算部を示す。従来例1では、あらかじめ音源からマイクロフォン1までの室内インパルス応答を測定しておいて、ムーアペンローズ擬似逆行列に基づき室内インパルス応答の逆フィルタを逆フィルタ計算部3において求め、逆フィルタ計算部3で算出した逆フィルタを逆フィルタ処理部2に設定し、観測信号に適用することで残響除去を行う(非特許文献1)。
残響除去方法の従来例2を図5を参照して説明する。図5において1はマイクロホン、4は死角型指向性形成部、5−1は目的音源位置推定部、5−2は残響反射位置推定部を示す。従来例2では、マイクロフォン1で測定された観測信号を入力として用いて、目的音源位置推定部5−1では音源の位置を推定し、残響反射位置推定部5−2では壁などの反射位置を推定し、これらの推定位置により死角型指向性形成部4は話者の方向から到来する音は強調し、壁などに反射した音が到来する方向には死角を向けるような指向特性を形成することで残響の除去を行う(非特許文献2)。
Miyoshi, M., and Kaneda, Y., "Inverse filtering of room acoustics," IEEE Trans. ASSP, 36(2), pp. 145-152, 1988. Schmidt, R. O., "Multiple emitter location and signal parameter estimation," IEEE Trans. AP, 34(3), pp. 276-280, 1986.
上述した残響除去方法の従来例1では、あらかじめ用意しておいた室内インパルス応答の推定値を用いて、観測された音響信号に室内インパルス応答の逆フィルタを適用することで、少数のマイクロフォンによる観測信号から残響を除去することができる。しかし、一般に、室内インパルス応答の逆フィルタは、背景雑音に敏感で、背景雑音が収音時に影響を与える実際的な環境では、雑音のレベルがかなり小さくても残響除去後の音声の音質を劣化させる結果につながる。
一方、上述した残響除去方法の従来例2では、ディジタル信号処理により形成する死角の数をnとすると、原理的にn個以上のマイクロフォンが必要になる。したがって、残響が周囲のいたるところから到来するような環境においては、非常に多数のマイクロフォンによる観測信号が必要になる。さらに、目的音と同じ方向から来る残響についてはこの方法では除去することはできない。
このように、従来用いられてきた残響除去方法では、室内伝達関数の変動や背景雑音により性能が大きく劣化したり、または、充分な残響除去性能を達成するためには非常に多くのマイクロフォンが必要であった。
従来法の課題を解決するために、本発明では、単一もしくは複数のマイクロフォンで観測された観測信号に対し、室内インパルス応答の推定値や背景雑音の統計量を利用しながら、音声の確率モデルに基づき各短時間区間に含まれる音声の自己相関関数(もしくは、自己回帰係数やパワースペクトルなどの自己相関関数と等価な情報)を推定することで、雑音などの要因の影響をあまり受けない残響除去法を構成する。また、残響を含む観測信号から、音声の確率モデルに基づき各短時間区間に含まれる音声の自己相関関数(もしくはそれと等価な情報)を推定し、推定した自己相関関数に基づき室内インパルス応答の逆フィルタを推定することで、少ないマイクロフォンで残響除去を実現する残響除去法を構成する。
より具体的に本発明による残響除去装置の特徴とする構成は、音声信号の初期推定値もしくは音声信号推定手段が推定した音声信号の推定値を受け取り、音声信号の確率モデルに従って各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定手段と、話者の位置からマイクロフォンまでの室内インパルス応答の推定値と上記音声自己相関推定手段が推定した短時間区間ごとの音声の自己相関を受け取り、逆フィルタを推定する逆フィルタ推定手段と、観測信号と逆フィルタ推定手段が推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定手段と、音声自己相関推定手段、逆フィルタ推定手段、および音声信号推定手段が順に各推定を繰り返すことで各推定の精度を向上させ、音声信号推定手段が推定した音声信号の推定値を受け取り、繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の推定値を出力する収束判定手段とを備えることを特徴とする。
本発明では更に前記記載の残響除去装置において、観測信号を受け取り、観測信号に含まれる背景雑音の統計量を推定する背景雑音推定手段を備え、この背景雑音推定手段が推定した背景雑音の統計量と音声自己相関推定手段が推定する音声自己相関推定値とを逆フィルタ推定手段が受け取って逆フィルタを推定することを特徴とする。
本発明では更に、音声信号の初期推定値もしくは後記音声信号推定部が推定した音声信号の推定値を受け取り、音声信号の確率モデルに基づき各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定手段と、観測信号と音声自己相関推定手段が推定した短時間区間ごとの音声の自己相関を受け取り逆フィルタを推定する逆フィルタ推定手段と、観測信号と逆フィルタ推定手段が推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定手段と、音声自己相関推定手段、逆フィルタ推定手段、音声信号推定手段が順に各推定を繰り返すことで各推定精度を向上させ、音声信号推定手段が推定した音声信号の推定値を受け取り、繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の当該推定値を出力する収束判定手段とを備えることを特徴とする。
本発明によれば、音声信号の確率モデルに基づき、残響除去処理結果として得られる音声信号がより音声らしい信号になるように室内インパルス応答の逆フィルタを推定する手段を与える。音声の確率モデルを利用することの利点は、音声らしさを定量的に評価できるようになること、すなわち、確率に基づく評価関数を定義できることにある。これにより、背景雑音下で逆フィルタを求める際に、「音声の品質を劣化させる」とするような逆フィルタは、結果として得られる音声信号の推定値の音声らしさを確率的に下げることになる。したがって、音声の確率モデルを利用することで、音声の劣化を制御しながら残響を除去する逆フィルタを推定できるようになる。
また、室内インパルス応答の推定値が与えられていない場合でも、音声の確率モデルに基づき観測信号を確率的により音声信号らしい信号に変換するフィルタを求めることで、比較的少ない数のマイクロフォンでも高品質な残響除去を実現できる逆フィルタを推定することができるようになる。
本発明による残響除去装置はハードウェアによって構成することも可能であるが、最も簡素に実現するにはコンピュータに本発明による残響除去プログラムをインストールし、コンピュータに残響除去装置として機能させる実施形態が最良である。
本発明による残響除去装置で機能する残響除去方法は音声の確率モデルに基づく残響除去方法として、自己相関コードブックに基づく残響除去方法を採る点を特徴とする。
自己相関コードブックに基づく残響除去の原理
単一の音声信号が単一もしくは複数のマイクロフォンで収音されているとする。簡単のため、以下では二つのマイクロフォンで収音されたものとして説明を進める。st,xt (l),およびdt (l)を音声信号、観測信号、および背景雑音をディジタル化した時系列とする。tとlは、それぞれ、時間とマイクロフォンのインデックスを表すものとする。さらにst ,xt ,およびdt を、各信号に対応するベクトル表現(それぞれ長さK,2L,2L)とし、以下で定義されるものとする。
Figure 2008209445
ここで、Ht は後述する音声信号の時刻tにおける状態を表す確率変数である。st は、推定の目的である音声信号であるので、本発明を通じてθに含まれているものとみなされる。関係式(1)により、確率密度関数p(Xt |A,St ;θ)は、背景雑音Dt の統計量を表す確率密度関数、すなわちp(Dt ;θ)のみから特定することができる。
以下では、この背景雑音の確率密度関数p(Dt ;θ)は、平均0のガウス分布に従うと仮定する。この確率密度関数は、例えば、雑音のレベルが充分に小さい環境では、比較的レベルの小さな白色雑音を想定することで統計量としては充分である。また、常に同じ環境で用いられる残響除去システムの場合、事前に背景雑音の統計量を測定して定めておくことが可能である。
もしくは、事前に雑音の統計量が想定できない状況では、従来から用いられているスペクトル減算において採用されている多くの方法と同様に、音声信号を含まない背景雑音だけを含んだ時間区間の観測信号をもとに、背景雑音の統計量を残響除去処理と平行して推定することが可能である。
本発明では、音声の確率モデルを表現するために、事後確率密度関数p(St |Ht ;θ)を用いる。後述するように、音声信号の波形は、短時間区間ごとに平均0の定常ガウス過程に基づくと仮定し、各時間区間ごとに変化する音声の自己相関行列(定常ガウス過程では共分散行列と等価)だけで特定することができる。
定常ガウス過程の状態が短時間区間ごとに変化するような確率モデルを表現する一方法として、以下では、コードブックに基づく実現法について説明を進める。この方法では、短時間区間の音声の自己相関関数の集合に相当する特徴ベクトルの集合を、事前に何らかの音声データベースから抽出しておいて、音声の事後確率密度関数を表現するために用いる。(以下、この自己相関関数の集合のことを自己相関コードブックと呼ぶ)その結果、上記の尤度関数を最大化するθは、条件式(1)と音声の確率モデルの両方を反映するものと期待される。
なお、上記では、音声信号や背景雑音の波形は平均値0と仮定したが、それらの平均値が0でない場合は、残響除去の前処理として信号の直流成分を減算するなどの方法を用いて、平均値をほぼ0にすることができる。以下では、特に断りが無い限り必要に応じて同様の処理をしているものと仮定して説明を進める。
自己相関コードブックを用いた音声の確率モデル
短時間区間の音声の時変特徴を合理的に表現することができるモデルを構築するために、本発明では以下の仮定を導入する。
Figure 2008209445
上記の仮定に従って、音声の確率モデルは自己相関行列rの集合h=1〜N、もしくはそれと等価な情報である自己相関関数の集合によってモデル化することができる。この自己相関関数の集合のことを自己相関コードブックと呼ぶ。音声の時間変化する特徴は、各短時間区間ごとに自己相関関数を適切に切り替えることで実現することができる。残響除去においては、音声の状態hは事前に与えられないので、hは、尤度最大化の過程において決定されるべきパラメータに含まれていると考えられる。
ここで音声信号の表現において二種類の異なる時間区間s とs を式(1)と(3)において導入したことに注意されたい。式(1)中のs は長さKの長時間区間で、およそ室内インパルス応答の長さと同程度になり、式(3)中のs は長さNの短時間区間で、音声信号の特徴量を抽出するのに適した長さである。両者の関係として、s は短時間区間s を連結したものに一致し、また、これに準じて、長時間区間s の状態h を、s に含まれる各短時間区間s に対応する状態hを連結した系列として定義する。その結果、Hが与えられた条件のもとで、S は時間的に独立な系列になると仮定すると、式(2)の第2項は、以下のように書き換えることができる。
Figure 2008209445
図6は、本発明における自己相関コードブックの構築法の一例を示す。音声信号は、まず、時間窓処理部6で窓処理を適用して短時間区間に切り分けられる。次に、自己相関計算部8で自己相関関数を各区間について求める。最後に、例えば、LBGアルゴリズムなどのクラスタリング手法を用いてクラスタリング部11において自己相関関数をクラスタリングし、自己相関の集合を生成する。
クラスタリングにおける距離は、クラスタリングのよさを決定する大きな要因となりうる。特に、信号のレベルの取り扱いは注意が必要である。例えば、信号のレベルと自己相関の形状は別々に距離を測定するなどの方法が有効である。
このため、一つの実施例として、クラスタリングの前に音声の短時間区間をエネルギーに関してエネルギー正規化部7で正規化するとともに、エネルギーの対数値を時間差0の項の置き換え部10において当該短時間区間の自己相関の時間差ゼロのラグの値と置き換えておき、クラスタリング部11におけるクラスタリングをユークリッド距離尺度に基づいて行う方法などが挙げられる。
こうすることで、信号のレベルのみを対数変換後のユークリッド距離として評価することができ、信号のレベルのクラスタリングに与える影響を低減することができる。クラスタリング後に、コードブック中の自己相関のエネルギーを、時間差ゼロのラグの値をもとに復元することで、通常の自己相関関数に戻すことが出来る。(正規化と距離尺度の他の例としては、残差正規化自己相関関数の尤度のひずみなどがあげられる。)式(3)の自己相関行列は、コードブック中の自己相関関数に基づきToeplitz行列を構成することで生成することができる。
以下では、自己相関コードブックを用いた二つの残響除去の実施例を説明する。
室内インパルス応答が既知の場合の雑音環境下での残響除去
図1を用いて、本発明の実施例1で提案する残響除去装置の構成を説明する。実施例1で提案する残響除去装置は音声信号推定手段21と、収束判定手段22と、音声自己相関推定手段23と、逆フィルタ推定手段24とによって構成される。
音声信号推定手段21は観測信号と逆フィルタ推定手段24が推定した逆フィルタの推定値を受け取り、音声信号を推定する。
音声自己相関推定手段23は音声信号の初期推定値もしくは音声信号推定手段が推定した音声信号の推定値を受け取り、音声信号の確率モデルにしたがって各短時間区間ごとの音声の自己相関関数を推定する。
逆フィルタ推定手段24は話者の位置からマイクロホン1までの室内インパルス応答の推定値と音声自己相関推定手段23が推定した短時間区間ごとの音声の自己相関を受け取り、逆フィルタを推定する。
収束判定手段22は音声自己相関推定手段23と、逆フィルタ推定手段24と、音声信号推定手段21が順に各推定を繰り返すことで各推定の精度を向上させ、音声信号推定手段21が推定した音声信号の推定値を受け取り、繰り返しによる推定の収束を判定し、推定の繰り返しを終了させるとともに、音声信号の当該推定値を出力する。
以下では各部の動作を詳細に説明する。
まず、もし、音源信号が平均0分散1の白色ガウス過程であり、室内インパルス応答が事前に観測できる場合、式(2)を最大にする解は以下のように与えることができる。
Figure 2008209445
およびstのどれか一つが初期値として与えられると、以後は、式(4)から式(6)に従い、その初期値から初めて、各値を交互に繰り返し更新することで、尤度関数をある定常点まで最大化することができる。例えば初期値の一例として、音声信号stの初期推定に観測信号xtを用いることができる。
繰り返し推定の収束判定については、様々な方法を用いることができる。例えば、一回の繰り返しで音声または自己相関関数の推定値が変更される絶対値を毎回測定しておき、この絶対量がある閾値より小さくなった場合に収束したと判断することができる。また、繰り返しごとの尤度関数の増加量をモニターしておいて、増加量が閾値以下になった場合に収束したと判断する方法もある。さらに、もっとシンプルな方法として、あらかじめ繰り返し回数を決めておいて、繰り返しがその回数に達したら収束したと判断するという方法をとることも可能である。
なお、式(5)、(6)は、逆フィルタだけではなく自己相関領域でのウィーナフィルタとみることもできる。すなわち、残響除去と雑音除去を同時に実現することができるといえる。このことは、σd=0としたとき(すなわち雑音がないとき)当該式がムーアペンローズ擬似逆行列に一致すること、および、
Figure 2008209445
図2は図1に示した実施例1の変形例を示す。この変形実施例では図1に示した構成に加えてマイクロフォン1と逆フィルタ推定手段24との間に背景雑音推定手段25を設けた構成を特徴とする。
この背景雑音推定手段25はマイクロフォン1から観測信号を受け取り、観測信号に含まれる背景雑音の統計量を推定する。逆フィルタ推定手段24は背景推定手段25が推定した背景雑音の統計量と音声自己相関推定手段23が推定する音声自己相関推定値とを受け取って逆フィルタを推定する。これ以外の動作は図1の場合と同じである。
この図2の実施例によれば逆フィルタ推定部24では音声自己相関推定値に背景雑音統計量を加味して逆フィルタを推定するから、背景雑音の除去率を高めることができる効果が得られる。
室内インパルス応答が既知でない場合の残響除去
もう一つの残響除去の構成法として、室内インパルス応答が既知でない場合に自己相関コードブックに基づき逆フィルタを推定し残響除去を行う方法について、図3を用いて説明する。図1とこの構成の違いはインパルス応答が既知でないことから、逆フィルタ推定部24に観測信号を入力している点である。その他の構成は図1と同じである。
まず、単純化のため、背景雑音はないと仮定する。また、音源位置で各時刻に生成された音声信号が最初に到達するマイクロフォンのインデックスlは既知であると仮定し、l=1とする。もしくは、そのようなマイクロフォンが既知でない場合は、どれか一つのマイクロフォンを選び、それ以外のマイクロフォンで受音される観測信号に充分に長い時間遅延を付加することで、仮想的に選択したチャンネルに音声が最初に到達するように定めるとする。この場合は、この遅延を付加した室内インパルス応答の系をまとめて、以下では室内インパルス応答と呼ぶことにする。さらに、観測信号のゲインと初期遅延を適切に調節することで、一般性を失わずにチャンネル1に関してa1 (1)=1と正規化されているものとする。すると、室内インパルス応答aの逆フィルタはw=[1 (w ̄(1))T 0 (w ̄(2))T]Tの形で書くことができる。これを用いて式(1)を以下のように書き換える。
Figure 2008209445
式(8)、式(9)、式(10)は、それぞれ、音声の短時間区間の自己相関と一対一に対応する状態h、逆フィルタw、および音声信号を推定する式である。h,w,およびs のどれか一つが初期値として与えられると、以後は、式(8)から式(10)に従い、その初期値から始めて、各値を交互に繰り返し更新することで、尤度関数をある定常点まで最大化することができる。例えば、初期値の一例として、音声信号sの初期推定値に観測信号xを用いることができる。
実施例1と同様、繰り返し推定の収束判定については、様々な方法を用いることができる。例えば一回の繰り返しで音声、逆フィルタまたは自己相関関数の推定値が変更される絶対量を毎回測定しておき、この絶対量がある閾値より小さくなった場合に収束したと判断することができる。また、繰り返しごとの尤度関数の増加量をモニターしておいて、増加量が閾値以下になった場合に収束したと判断する方法もある。さらに、もっとシンプルな方法として、あらかじめ繰り返し回数を決めておいて、繰り返しがその回数に達したら収束したと判断する方法をとることも可能である。
音声の確率モデルに基づく残響除去法の効果を確認するために二つの実験結果を示す。効果の確認のため、ATR音声データベースの女性話者(FKM)による5240単語の発話を用いて、図6に従い自己相関コードブックを作成した。観測信号は、事前に測定した2チャンネルの室内インパルス応答(RT60=0.5秒)を女性の発話音声に畳み込むことで合成した。標本化周波数を8kH、K=9216,L=5217,M=4000,N=64,およびNs=1024とした。
実験1:実施例1の効果
実施例1の効果を確認するために、室内インパルス応答を畳み込んだ音声に、白色雑音を付加したものを観測信号として用意した。このとき、平均の信号対雑音比(SNR)を10dBとした。ムーアペンローズ擬似逆行列、Tikhonov正則化法、および実施例1による残響除去性能を比較した。以下、簡単のため、ムーアペンローズ擬似逆行列に基づく方法をMPI、Tikhonov正則化法をCRI、および実施例1をPROP1と表記することとする。PROP1では、st の初期値としてCRIが残響除去した後の信号を用いた。また、PROP1の繰り返し数は5回に固定した。図7は、残響除去前後の音声のスペクトログラムを示している。MPIは音声信号が完全に埋もれてしまう程まで背景雑音を増幅してしまうのに対し、CRIは背景雑音を増幅することなく適切に残響除去が行えている。
一方、PROP1は、残響だけではなく背景雑音も低減することができている。興味深いことに、SNRが極端に低い時間領域において、PROP1は信号の全エネルギーを低減している。図8のAは、残響や背景雑音を付加する前のクリーンな音声信号と残響除去後の信号のケプストラム距離の時間遷移を示している。PROP1は、信号の全エネルギーを低減する時間領域を除いて、ケプストラム距離を最も低減することができている。この結果から、PROP1は、時間変化する音声の特徴とSNRに依存しながら、効果的に信号の品質を回復することができているといえる。
実験2:実施例2の効果
実施例2の効果を残響除去後の音声の品質に基づいて評価した。以後、簡単化のため、実施例2をPROP2と表記する。この実験においては、各チャンネルの逆フィルタのフィルタ長を3000とした。1単語の列、および5単語の列からなる2種類の観測信号を用意した。また、PROP2ではst の初期値として、観測信号xt をそのまま用いた。クリーン音声と、5回繰り返し推定後の残響除去後の音声とのケプストラム距離、残響除去後の信号のスペクトログラムを、それぞれ、図8のBおよび図9に示す。図より、明らかなようにPROP2は、信号の品質を大変良く回復できていることがわかる。特に、5単語列の観測信号を用いた実験の結果得られたケプストラム距離はほとんど常に2dB以下である。1単語観測の場合も、耳で実際に聴取した音声の品質は大変良い。200msおよび800ms付近のケプストラム距離が大変大きくなっているが、実際には、この時間領域の信号のエネルギーは充分に小さいため、音声を耳で聴取した品質にはほとんど影響を与えていなかった。
以上説明した本発明による残響除去装置はコンピュータに図1、図2、図3に示した音声信号推定手段21、収束判定手段22、音声自己相関推定手段23、逆フィルタ推定手段24として機能させる音響除去プログラムをインストールすることにより実現することができる。音響除去プログラムはコンピュータに備えたCPUが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な磁気ディスク、CD−ROM、半導体メモリ等に記録され、これらの記録媒体からコンピュータにインストールするかまたは通信回線を通じてコンピュータにインストールすることができる。
残響除去処理を必要とする、音声認識システムの分野、TV会議システムのような通信システムの分野、録音、再生機器の分野、補聴器の分野、機械と人間との対話装置の分野に広く活用される。
本発明の実施例1を説明するためのブロック図。 図1の変形実施例を説明するためのブロック図。 本発明の実施例2を説明するためのブロック図。 従来例1を説明するためのブロック図。 従来例2を説明するためのブロック図。 本発明で用いる自己相関コードブックの作成方法を説明するためのブロック図。 本発明の作用効果を説明するためのグラフ。 本発明の作用効果を説明するためのグラフ。 図7、図8と同様に本発明の作用効果を説明するためのグラフ。
符号の説明
1 マイクロフォン 23 音声自己相関推定手段
21 音声信号推定手段 24 逆フィルタ推定手段
22 収束判定手段

Claims (8)

  1. 音声信号の初期推定値もしくは音声信号推定手段が推定した音声信号の推定値を受け取り、音声信号の確率モデルに従って各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定手段と、
    話者の位置からマイクロフォンまでの室内インパルス応答の推定値と上記音声自己相関推定手段が推定した短時間区間ごとの音声の自己相関を受け取り、逆フィルタを推定する逆フィルタ推定手段と、
    観測信号と上記逆フィルタ推定手段が推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定手段と、
    上記音声自己相関推定手段、逆フィルタ推定手段、および音声信号推定手段が順に各推定を繰り返すことで各推定の精度を向上させ、上記音声信号推定手段が推定した音声信号の推定値を受け取り、上記繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の推定値を出力する収束判定手段と、
    を備えることを特徴とする残響除去装置。
  2. 請求項1記載の残響除去装置において、観測信号を受け取り、観測信号に含まれる背景雑音の統計量を推定する背景雑音推定手段を備え、この背景雑音推定手段が推定した背景雑音の統計量と音声自己相関推定手段が推定する音声自己相関推定値とを上記逆フィルタ推定手段が受け取って逆フィルタを推定することを特徴とする残響除去装置。
  3. 音声信号の初期推定値もしくは後記音声信号推定手段が推定した音声信号の推定値を受け取り、音声信号の確率モデルに基づき各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定手段と、
    観測信号と上記音声自己相関推定手段が推定した短時間区間ごとの音声の自己相関を受け取り逆フィルタを推定する逆フィルタ推定手段と、
    観測信号と上記逆フィルタ推定手段が推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定手段と、
    上記音声自己相関推定手段、逆フィルタ推定手段、音声信号推定手段が順に各推定を繰り返すことで各推定精度を向上させ、上記音声信号推定手段が推定した音声信号の推定値を受け取り上記繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の当該推定値を出力する収束判定手段と、
    を備えることを特徴とする残響除去装置。
  4. 音声信号の初期推定値もしくは音声信号推定手段が推定した音声信号の推定値を受け取り、音声信号の確率モデルに従って各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定処理ステップと、
    話者の位置からマイクロフォンまでの室内インパルス応答の推定値と上記音声自己相関推定処理ステップが推定した短時間区間ごとの音声の自己相関を受け取り、逆フィルタを推定する逆フィルタ推定処理ステップと、
    観測信号と上記逆フィルタ推定処理ステップが推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定処理ステップと、
    上記音声自己相関推定処理ステップ、逆フィルタ推定処理ステップ、および音声信号推定処理ステップが順に各推定を繰り返すことで各推定の精度を向上させ、上記音声信号推定処理ステップで推定した音声信号の推定値を受け取り、上記繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の推定値を出力する収束判定処理ステップと、
    を実行させる残響除去方法。
  5. 請求項4記載の残響除去方法において、観測信号を受け取り、観測信号に含まれる背景雑音の統計量を推定する背景雑音推定処理ステップを含み、この背景雑音推定処理ステップが推定した背景雑音の統計量と音声自己相関推定処理ステップで推定する音声自己相関推定値とを上記逆フィルタ推定処理ステップが受け取って逆フィルタを推定することを特徴とする残響除去方法。
  6. 音声信号の初期推定値もしくは後記音声信号推定部が推定した音声信号の推定値を受け取り、音声信号の確率モデルに基づき各短時間区間ごとの音声の自己相関関数を推定する音声自己相関推定処理ステップと、
    観測信号と上記音声自己相関推定処理ステップで推定した短時間区間ごとの音声の自己相関を受け取り逆フィルタを推定する逆フィルタ推定処理ステップと、
    観測信号と上記逆フィルタ推定処理ステップで推定した逆フィルタの推定値を受け取り、音声信号を推定する音声信号推定処理ステップと、
    上記音声自己相関推定処理ステップ、逆フィルタ推定処理ステップ、音声信号推定処理ステップが順に各推定処理を繰り返すことで各推定精度を向上させ、上記音声信号推定処理ステップが推定した音声信号の推定値を受け取り上記繰り返しによる推定の収束を判定し、推定の繰り返しを終了させると共に、音声信号の当該推定値を出力する収束判定処理ステップと、
    を実行させることを特徴とする残響除去方法。
  7. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至3の何れかに記載の残響除去装置として機能させる残響除去プログラム。
  8. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項7記載の残響除去プログラムを記録した記録媒体。
JP2007043430A 2007-02-23 2007-02-23 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 Expired - Fee Related JP4891805B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007043430A JP4891805B2 (ja) 2007-02-23 2007-02-23 残響除去装置、残響除去方法、残響除去プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007043430A JP4891805B2 (ja) 2007-02-23 2007-02-23 残響除去装置、残響除去方法、残響除去プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2008209445A true JP2008209445A (ja) 2008-09-11
JP4891805B2 JP4891805B2 (ja) 2012-03-07

Family

ID=39785829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007043430A Expired - Fee Related JP4891805B2 (ja) 2007-02-23 2007-02-23 残響除去装置、残響除去方法、残響除去プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP4891805B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009212599A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置とその方法と、そのプログラムと記録媒体
JP2011248290A (ja) * 2010-05-31 2011-12-08 Nara Institute Of Schience And Technology 雑音抑圧装置
JP2013504283A (ja) * 2009-09-07 2013-02-04 クゥアルコム・インコーポレイテッド マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
CN108429995A (zh) * 2017-02-14 2018-08-21 株式会社东芝 音响处理装置、音响处理方法以及存储介质
JP2019121950A (ja) * 2018-01-09 2019-07-22 株式会社東芝 音響処理装置、音響処理方法およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135630A (ja) * 1984-07-27 1986-02-20 Matsushita Electric Ind Co Ltd エコ−キヤンセラ
JPH06274196A (ja) * 1993-03-23 1994-09-30 Sony Corp 雑音除去方法および雑音除去装置
JP2002057606A (ja) * 2000-06-26 2002-02-22 Lucent Technol Inc 音響およびネットワークエコーキャンセレーションにおいて用いるための耐誤差性の適応フィルタ
JP2002062900A (ja) * 2000-08-17 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 収音装置及び受信装置
JP2002258897A (ja) * 2001-02-27 2002-09-11 Fujitsu Ltd 雑音抑圧装置
JP2006148453A (ja) * 2004-11-18 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
JP2006227152A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 計算装置およびその計算装置を利用した収音装置
JP2006319925A (ja) * 2005-05-16 2006-11-24 Advanced Telecommunication Research Institute International 適応フィルタ

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135630A (ja) * 1984-07-27 1986-02-20 Matsushita Electric Ind Co Ltd エコ−キヤンセラ
JPH06274196A (ja) * 1993-03-23 1994-09-30 Sony Corp 雑音除去方法および雑音除去装置
JP2002057606A (ja) * 2000-06-26 2002-02-22 Lucent Technol Inc 音響およびネットワークエコーキャンセレーションにおいて用いるための耐誤差性の適応フィルタ
JP2002062900A (ja) * 2000-08-17 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 収音装置及び受信装置
JP2002258897A (ja) * 2001-02-27 2002-09-11 Fujitsu Ltd 雑音抑圧装置
JP2006148453A (ja) * 2004-11-18 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 信号推定方法、信号推定装置、信号推定プログラム及びその記録媒体
JP2006227152A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 計算装置およびその計算装置を利用した収音装置
JP2006319925A (ja) * 2005-05-16 2006-11-24 Advanced Telecommunication Research Institute International 適応フィルタ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009212599A (ja) * 2008-02-29 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置とその方法と、そのプログラムと記録媒体
JP2013504283A (ja) * 2009-09-07 2013-02-04 クゥアルコム・インコーポレイテッド マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2011248290A (ja) * 2010-05-31 2011-12-08 Nara Institute Of Schience And Technology 雑音抑圧装置
CN108429995A (zh) * 2017-02-14 2018-08-21 株式会社东芝 音响处理装置、音响处理方法以及存储介质
CN108429995B (zh) * 2017-02-14 2020-03-13 株式会社东芝 音响处理装置、音响处理方法以及存储介质
JP2019121950A (ja) * 2018-01-09 2019-07-22 株式会社東芝 音響処理装置、音響処理方法およびプログラム

Also Published As

Publication number Publication date
JP4891805B2 (ja) 2012-03-07

Similar Documents

Publication Publication Date Title
JP4880036B2 (ja) 音源と室内音響の確率モデルに基づく音声残響除去のための方法及び装置
CN107393550B (zh) 语音处理方法及装置
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
KR102316537B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2014153800A1 (zh) 语音识别系统
JP2014219467A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
JP4891805B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
CN114041185A (zh) 用于确定深度过滤器的方法和装置
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP4098647B2 (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
JP2021152623A (ja) 信号処理装置、信号処理方法およびプログラム
JP4729534B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
KR101610708B1 (ko) 음성 인식 장치 및 방법
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Li et al. Joint sparse representation based cepstral-domain dereverberation for distant-talking speech recognition
TWI749547B (zh) 應用深度學習的語音增強系統
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
KR101022457B1 (ko) Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111216

R150 Certificate of patent or registration of utility model

Ref document number: 4891805

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees