JP5897343B2 - 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム - Google Patents
残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム Download PDFInfo
- Publication number
- JP5897343B2 JP5897343B2 JP2012033159A JP2012033159A JP5897343B2 JP 5897343 B2 JP5897343 B2 JP 5897343B2 JP 2012033159 A JP2012033159 A JP 2012033159A JP 2012033159 A JP2012033159 A JP 2012033159A JP 5897343 B2 JP5897343 B2 JP 5897343B2
- Authority
- JP
- Japan
- Prior art keywords
- dereverberation
- component
- reverberation
- linear
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000004364 calculation method Methods 0.000 claims description 94
- 230000008569 process Effects 0.000 claims description 58
- 230000008030 elimination Effects 0.000 claims description 16
- 238000003379 elimination reaction Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 27
- 238000000926 separation method Methods 0.000 description 27
- 239000011159 matrix material Substances 0.000 description 24
- 230000006870 function Effects 0.000 description 23
- 230000014509 gene expression Effects 0.000 description 21
- 230000003139 buffering effect Effects 0.000 description 13
- 238000009432 framing Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000000354 decomposition reaction Methods 0.000 description 6
- 239000006185 dispersion Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000037433 frameshift Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
- H04B3/23—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/002—Damping circuit arrangements for transducers, e.g. motional feedback circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/265—Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
- G10H2210/281—Reverberation or echo
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
<各拠点のシステム構成>
図4は、本発明の第1の実施形態による遠隔会議の各拠点に設置される会議システムのハードウェア概略構成を示す図である。各拠点の会議システム100では、マイクロホンアレイ105が、各会議室の中の音声波形を集音する。マイクロホンアレイ105は、単一のマイクロホンまたは複数のマイクロホン素子からなることを想定する。
図5は、本発明の遠隔会議システムの全体構成例を示す図である。遠隔会議システムは、N個の各拠点会議システム100−1、100−2、・・・100−N(拠点数をNとする)と、各拠点の音声や映像の流れを制御するMCU202と、各拠点の計算機では処理できないような、処理量の大きい計算を実行する会議情報計算サーバ201と、を有し、それぞれネットワークを介して接続されている。なお、当該システムは、当業者であれば既知のシステムであるため、詳細な説明は割愛する。また、会議情報計算サーバ201において、各拠点の会議システムで実行される残響除去に必要な一部の処理を実行するような構成を採っても良い。
図6は、本発明の第1の実施形態において、中央演算装置102内で実行される処理(プログラム)のブロック構成を示す図である。マイクロホンアレイ105からA/D変換機104経由で得られたデジタル音声波形は、エコーキャンセラ301で処理され、音響エコー成分が除去される。ここで、音響エコー成分とは、スピーカアレイ107から出力された音声波形が各拠点の壁や天井などで反射した後、マイクロホンアレイ105に混入する成分を指す。エコーキャンセラ301は、音響エコー成分を除去するためにHUB108経由で得られるNLMS法など当業者であれば既知の構成により実現される。スピーカアレイ107から出力する信号として、遠端音声波形が用いられる。
図7は、残響除去302の効果(一例)を説明するための図である。マイク入力信号(図7の(i)参照)は、マイクロホンアレイ105を構成するある一つのマイクロホンの入力波形を時間−周波数領域に変換したスペクトログラムを示している。横軸が時間軸で、縦軸が周波数を示している。図7において、明るい時間−周波数成分ほど、音量が大きいことを意味する。
図8は、第1の実施形態による残響除去(処理)302(図6参照)の詳細なブロック構成を示す図である。
図8に示されるように、エコーキャンセル後のデジタル音声波形は、フレーム化(処理)401に送られる。ここで、デジタル音声波形をq(m,t)と記載し、mを、マイクロホンアレイ105を構成するマイクロホンのインデックス、tをA/D変換処理のサンプルインデックスとする。
フレーム化401は、各マイクロホン素子のフレーム単位の音声波形k(m,τ)を出力する。
周波数分解(処理)402は、フーリエ変換処理など、同業者であれば一般的に使われている周波数変換処理により、各マイクロホン素子の音声波形を時間周波数領域信号に変換する。時間周波数領域信号に変換したm番目のフレーム単位の信号をXm(f,τ)と定義する。ここで、fは時間周波数領域における周波数インデックスとする。また、各マイクロホンの時間領域信号を時間周波数毎にまとめたベクトルをX(f,τ)=[X1(f,τ),X2(f,τ),..Xm(f,τ),…XM(f,τ)]と記載する。Mはマイクロホンの数を意味する。そして、各マイクロホンの周波数領域信号は、バッファリング(処理)403及びオンライン残響除去(処理)405に送られる。
バッファリング(処理)403は、時間領域信号を蓄積し、蓄積量が一定量に達した場合のみ、蓄積した信号を出力し、それ以外の場合は何も出力しない。各マイクロホンに蓄積する量は、Tフレーム(例えば、300フレーム)分とする。ある程度の統計量を用いないとパラメータ推定が適切に(安定的に)行えないため、Tフレーム分の音声データを蓄積してから残響パラメータ推定処理を実行するようにする。また、例えば、会議中に話者が切り替わると、今までオンライン残響除去405で使用していた残響除去パラメータは適切なものではなくなるため、再度パラメータ推定を実行し、当該パラメータを更新する。ただし、話者の切り替わりを音声波形のみから検出するのは困難であるため、本実施形態では、Tフレームごとに残響除去パラメータを更新するようにしている。別の言い方をすれば、本実施形態では、一度パラメータを推定すると、次のパラメータ推定の処理が終了するまで、現在のパラメータを用いて残響除去処理が実行される。つまり、本実施形態の残響除去処理では、常に最新の推定パラメータを用いている。なお、話者が切り替わったことが検知できれば、話者切り替わりのタイミングで残響除去パラメータを更新するようにしても良い。
残響除去パラメータ推定(処理)404は、バッファリング403が出力するTフレーム分のデータを基に、残響除去を行うためのパラメータを推定し、推定したパラメータを出力する。残響除去パラメータ推定(処理)404の更なる詳細については、図11を参照して後述する。
オンライン残響除去(処理)405は、推定された残響除去パラメータをリアルタイムで活用する。残響除去パラメータ推定404は、Tフレーム分のデータが溜まる毎に処理を実施するのに対して、オンライン残響除去405は、リアルタイムに残響除去を行うことが必要であるため、1フレーム分のデータ毎に処理を実施する。オンライン残響除去405は、残響が含まれた1フレーム分のデータ中の残響成分を除去した後の信号を出力する。
このような構成を採ることで、残響除去パラメータの推定が遅延した場合であても、残響除去をリアルタイムに実行することが可能となる。
図8に戻り、時間領域変換(処理)406は、マイクロホン毎に1フレーム分の周波数領域信号に対して逆フーリエ変換などの周波数領域から時間領域への変換処理を実行することにより、時間領域信号に戻し、戻した時間領域信号を残響除去後の音声波形として出力する。この時間領域変換処理を実行することにより、各フレームにおける、(P−S)ポイント分の重複領域の音声パワーを調整することができる。
図11は、残響除去パラメータ推定(処理)404の詳細ブロック構成を示す図である。残響除去パラメータ推定404は、繰り返し計算により、残響除去性能を逐次的に高めるような構成になっている。つまり、本実施形態において、2種類のパラメータX及びY(ここでは、Xを非変動性残響除去パラメータ、Yを変動性残響除去パラメータとする)を求める場合、Xをまず固定して、Yを変化させてYの適正値を求める。次に、Xを変化させ、Xの適正値を求める。このように、図11は、XとYを交互に求めて収束させていく処理を表している。また、残響除去パラメータ推定404では、周波数インデックス毎に、独立して処理が行われる。したがって、本残響除去パラメータ推定処理を周波数毎に異なる中央演算装置(プロセッサ)で実行する構成も可能である。
周波数毎に得られた、マイクロホン毎のTフレーム分のデータは、まず逆フィルタ算出(処理)701に送られ、残響除去のための線形フィルタが算出される。
フィルタ計算(処理)1403は、線形フィルタを式(2)によって算出する。残響成分は過去の信号に由来する成分であるため、式(2)は現在の信号と過去の信号、及び過去の信号同士がどの位の相関を有しているか算出するための演算式である。現在の信号と過去の信号との相関を求めるだけでは、過去の信号を現在の信号から除去しすぎてしまう可能性があるため、過剰な信号除去を回避すべく、過去の信号同士の相関をも考慮した演算となっている。なお、相関を算出するための演算は、Tフレーム分の音声信号に対して実行される。
は、クロネッカ・デルタ積を表す演算子である。
さらに、式(3)において、Uf,τ(i)は、式(5)で定義される。
残留残響・直接音分離(処理)703は、線形残響除去後の信号を直接音と残響音(推定値)の2つに分離する。
図14は、残留残響・直接音分離703の詳細なブロック構成を示す図である。残留残響・直接音分離処理についても、Tフレーム分の時間周波数信号全てに対して実行する。
残留残響パラメータ推定(処理)704は、変動性残響成分の統計量などのパラメータを推定する。図15は、残留残響パラメータ推定(処理)704の詳細を示す図である。
直接音パラメータ推定(処理)705は、直接音の統計量などのパラメータを推定する。図16は、直接音パラメータ推定705の詳細を示す図である。
推定した直接音のパラメータと残留残響のパラメータは、収束判定(処理)706に送られる。
収束判定706は、繰り返し計算を所定回数実行したかどうか、推定したパラメータの値と推定前の値との差が所定値以下か否かなど、一般的な繰り返し計算の場合と同様の尺度で、計算が収束したかどうか判定する。収束していれば、残響除去のパラメータを出力して、残響除去パラメータ推定404のブロックを終了する。
収束していなければ、処理は、線形残響成分重み算出702に移行する。
直接音や残留残響(変動性残響成分)のパワーは、時間毎に変化するため、上述したように、図11の処理によって変数として学習している。従って、Tフレームの中で、どのフレームの直接音や残留残響のパワーが大きいか把握することができる(図3参照)。パワー(直接音や残留残響のパワーの和)が大きいほど変動成分が大きいことになるので、その時間帯は逆フィルタのパラメータを求めるための情報として使わない方が得策である。そこで、ここでは、例えば、パワー(直接音や残留残響のパワーの和)の大きさの逆数に比例するような重み係数を用いることとしている。
図17は、オンライン残響除去(処理)405の具体的な構成を示す図である。オンライン残響除去(処理)405は、逐次計算によりパラメータ推定精度を高める構成となっている。
バッファリング(処理)801は、フレーム毎の時間周波数領域信号を揮発性メモリ103上に格納する。本実施形態では、格納される時間周波数領域信号は、Tフレーム内の信号のうち、最新の時間領域信号から数えてL1フレーム(例えば、5フレーム)分とする。
線形残響成分消去(処理)702は、格納したL1フレーム分の時間領域信号を受け取り、残響成分を逆フィルタにより除去する。この際、適用される逆フィルタは、残響除去パラメータ推定(処理)404が出力した残響除去のパラメータに含まれるフィルタである。
残留残響直接音分離(処理)703は、線形残響成分消去(処理)702から残響成分除去信号を受け取り、直接音と残留残響成分に分離し、直接音を出力する。この際、vs(n),f,τの初期値は1とする。また、Cs(n),fは残響除去パラメータ推定(処理)404が出力した残響除去のパラメータに含まれる共分散行列である。
音声信号は時間毎にそのパワーが変化するため、時間毎の音声パワーの値を推定する必要がある。例えば、同じ話者が発生しても、時間毎に出力される音量は変化し、パワーが変化するため、リアルタイムに推定値を更新する必要があるからである。そこで、直接音分離推定(処理)802では、非線形パラメータの中の一部のパラメータ(直接音のパラメータ)のみをリアルタイムに推定する。そして、時間毎にリアルタイムに変化する部分には、推定処理を繰り返して推定値の精度を上げるようにする。なお、残留残響(変動性残響成分)のパラメータについては、時間変動が少ないと考えられるため、過去のフレームで学習したパラメータをそのまま用いれば良い。
収束判定(処理)706は、推定した直接音分散などのパラメータを用いて、求めたパラメータの収束判定を行う。収束していると判断された場合には、収束判定(処理)706は、推定した直接音を出力して処理を終了する。それ以外の場合、収束判定(処理)706は、推定した直接音分散を基に再度、残留残響直接音分離(処理)703を実行する。
なお、収束したか否かの判定は、図11で説明した通りである。
第2の実施形態は、残響除去(処理)302において、残響除去パラメータ推定(処理)404で求めた過去の残響除去パラメータを複数組持って置き、時間毎に最も良いフィルタを選択して用いる構成について開示している。
第3の実施形態は、残響除去とエコーキャンセラを同じフレームワーク内で実行し、残響除去とエコーキャンセラの双方の性能を向上させることが可能な構成に関するものである。残響除去とエコーキャンセラ消去は別々に動作させることもでき、この構成が単純である(図6参照)。しかし、エコーキャンセラのフィルタは常時形状が変化するため、エコーキャンセラで消去できなかった音声が残響除去に悪影響を及ぼす場合がある。そこで、残響除去及びエコーキャンセラをそれぞれ別々に最適化するのではなく、2つを同時に(互いに及ぼす影響を考慮して)最適化した方がシステム全体のパフォーマンスをより向上させることができる。これを実現するための構成が第3の実施形態に係るものである。
中央演算装置102内で実行されるプログラム内で、残響除去及びエコーキャンセラ2001は、デジタル音声波形(マイクロホン入力信号)及び遠端デジタル音声波形(参照信号)を受信し、それに対して残響除去処理及びエコーキャンセル処理を同時に実行し、残響除去・エコーキャンセル後の音声波形を出力する。
図20は、残響除去及びエコーキャンセラ2001の具体的な構成を示す図である。オフラインパラメータ推定(処理)1800は、デジタル音声波形(マイクロホン入力信号)と遠端デジタル音声波形(参照信号)を受信し、残響除去と音響エコーキャンセラ用のパラメータを推定する。オフラインパラメータ推定1800は、複数フレーム(Tフレーム分)時間領域信号が得られるごとに推定処理を実行する。オフラインパラメータ推定(処理)1800の詳細な構成及び処理については、図21を参照して後述する。
時間領域変換406は、残響成分及び音響エコー成分が除去された時間周波数領域信号を時間領域信号に変換してそれを出力する。
図21は、オフラインパラメータ推定(処理)1800の具体的なブロック構成を示す図である。
図22は、残響・音響エコー消去用パラメータ推定(処理)1801の具体的なブロック構成を示す図である。線形残響成分消去702、残留残響パラメータ推定704、直接音パラメータ推定705、及び収束判定706については、上述した通りの構成及び処理であるので、詳細な説明は割愛する。
逆フィルタ算出(処理)1908は、前述の方法(第1の実施形態)で残響(非変動成分)除去用の逆フィルタを求める。逆フィルタを算出する際に、マイク入力信号の代わりに、線形音響エコー消去フィルタ算出(処理)1901の結果を用いて線形音響エコーを消去した信号を使っても良い。この場合、逆フィルタ算出1908は、線形音響エコー消去(処理)1902の機能を有している。つまり、逆フィルタ算出1908は、線形音響エコー消去フィルタ算出1901が算出したエコー消去フィルタを使って、入力信号(複数フレームの周波数領域信号)に含まれる音響エコーを消去した後、残響除去用の逆フィルタを算出する。
線形音響エコー消去(処理)1902は、線形音響エコー消去フィルタ算出1901で算出した音響エコー消去用のフィルタを使って音響エコー成分を消去した信号g2,f,τ(i)を式(27)に従って取得する。
残留残響・残留音響エコー・直接音分離(処理)1904は、残留残響及び直接音については残留残響・直接音分離703(第1の実施形態)と同一の方法で求める。なお、残留音響エコーについては、式(28)によって求めたで求めた残留音響エコー抽出用フィルタWref,l,b,f,τ(i)をg2,f,τ(i)に重畳することにより、残留音響エコー推定値yref,l,b,f,τ(i)を式(29)に従って算出する。
残留音響エコーパラメータ推定(処理)1906は、Cref,l,b,fを残留残響パラメータ推定(処理)704(図11:第1の実施形態)と同一の処理により更新する。詳細な説明については上述の通りであるためここでは省略する。
図24は、オンライン(リアルタイム)音響エコー・残響除去(処理)2301の具体的な構成を示す図である。
バッファリングされた音声波形は、線形音響エコー・残響除去(処理)1902に送られる。
その後、残留残響・残留音響エコー・直接音分離(処理)1904は、直接音のみを抽出する。
第4の実施形態は、残響除去の中で、特に計算量が大きい残響除去パラメータを会議情報計算サーバ201で実行し、それ以外のリアルタイムの残響除去処理を拠点毎会議システム100で実行するような分散構成に関する。
(i)本発明の第1の実施形態の残響除去パラメータ推定装置においては、揮発性メモリ等のメモリに残響除去パラメータを格納し、処理に従って逐次更新していく。メモリには、少なくとも、音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータと、音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータと、が格納される。そして、中央処理装置等のプロセッサが、音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定及び更新し、当該残響除去パラメータを、線形フィルタのパラメータ及び非線形フィルタのパラメータとしてメモリに格納する。より具体的には、プロセッサ(逆フィルタ算出701及び線形残響成分消去702)は、メモリから線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成する。次に、プロセッサ(残留残響・直接音分離703)は、メモリから非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成する。続いて、プロセッサ(残留残響パラメータ推定704及び直接音パラメータ推定705)は、変動性残響成分及び直接音の推定値に基づいて主軸演算(図15及び16参照)を実行し、非線形フィルタのパラメータを構成する変動残響成分及び直接音成分のパラメータを更新する。そして、プロセッサ(線形残響成分重み算出707及び逆フィルタ算出701)は、更新された変動性残響成分及び直接音成分のパラメータに基づいて、線形フィルタのパラメータを逐次的に更新する。つまり、非変動性残響成分を除去するための線形フィルタのパラメータをある値に固定して、変動性残響成分を除去するための非線形フィルタのパラメータを推定し、得られた推定値に照らして再度線形フィルタのパラメータを更新するようにして、推定パラメータが収束するまでパラメータ推定処理を繰り返す。このようにすることにより、精度良く残響除去するための線形及び非線形フィルタのパラメータ(残響除去パラメータ)を推定することができる。そして、このパラメータを用いて残響除去処理を実行することにより、マイクロホンからの音声入力信号の直接音成分を歪ませることなく、残響成分を精度良く除去することができるようになる。
Claims (12)
- 音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータと、前記音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータと、を格納するメモリと、
前記音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定し、当該残響除去パラメータを、前記線形フィルタのパラメータ及び前記非線形フィルタのパラメータとして前記メモリに格納するプロセッサと、を有し、
前記プロセッサは、
前記メモリから前記線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成し、
前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成し、
前記変動性残響成分及び前記直接音の推定値に基づいて、前記非線形フィルタのパラメータを構成する前記変動残響成分及び前記直接音成分のパラメータを更新し、
前記更新された変動性残響成分及び直接音成分のパラメータに基づいて、前記線形フィルタのパラメータを逐次的に更新する、ことを特徴とする残響除去パラメータ推定装置。 - 請求項1において、
前記プロセッサは、前記更新された変動性残響成分及び直接音成分のパラメータによって、前記音声入力信号において前記変動残響成分と前記直接音成分の和が大きい時間帯を反映して前記線形フィルタの重み係数を決定し、前記線形フィルタのパラメータを更新することを特徴とする残響除去パラメータ推定装置。 - 請求項1において、
前記音声入力信号は、複数のマイクからの音声信号を含み、
前記プロセッサは、
前記複数のマイクのそれぞれからの音声信号に含まれる前記直接音成分の推定値及び前記変動性残響成分の推定値を生成し、
前記それぞれのマイクからの前記直接音成分及び前記変動性残響成分の推定値の二次統計量を抽出し、
前記二次統計量から、前記複数のマイクの音声信号の前記直接音成分及び前記変動性残響成分のそれぞれのパワーのばらつきを表す情報を、前記変動性残響成分及び前記直接音成分のパラメータとする、ことを特徴とする残響除去パラメータ推定装置。 - 請求項1において、
前記プロセッサは、前記更新された変動性残響成分及び直接音成分のパラメータの収束判定を実行し、収束していると判断した場合に、前記残響除去パラメータとして、前記線形フィルタ及び前記非線形フィルタのパラメータを出力し、未収束であると判断した場合には、前記線形フィルタのパラメータの逐次的更新処理を継続する、ことを特徴とする残響除去パラメータ推定装置。 - 音声入力信号に含まれる非変動性残響成分を除去するための線形残響フィルタのパラメータと、前記音声入力信号に含まれる非変動性エコー成分を除去するための線形エコー消去フィルタのパラメータと、前記音声入力信号に含まれる変動性残響成分及び変動性エコー成分を除去するための非線形フィルタのパラメータと、を格納するメモリと、
前記音声入力信号に含まれる残響成分及びエコー成分を除去して直接音を取得するための残響・エコー除去パラメータを推定し、当該残響・エコー除去パラメータを、前記線形残響フィルタのパラメータ、前記線形エコー消去フィルタのパラメータ、及び前記非線形フィルタのパラメータとして前記メモリに格納するプロセッサと、を有し、
前記プロセッサは、
前記メモリから前記線形残響フィルタのパラメータと、線形エコー消去フィルタのパラメータを読み出し、前記線形残響フィルタ及び前記線形エコー消去フィルタによって音声入力信号に含まれる非変動性残響成分及び非変動性エコー成分を除去して線形残響・エコー除去信号の推定値を生成し、
前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響・エコー除去信号の推定値に含まれる変動性残響成分、変動性エコー成分、及び直接音成分の推定値を生成し、
前記変動性残響成分、前記変動性エコー成分、及び前記直接音の推定値に基づいて、
前記非線形フィルタのパラメータを構成する前記変動残響成分、前記変動性エコー成分、及び前記直接音成分のパラメータを更新し、
前記更新された変動性残響成分、変動性エコー成分、及び直接音成分のパラメータに基づいて、前記線形残響フィルタ及び前記線形エコー消去フィルタのパラメータを逐次的に更新する、ことを特徴とする残響・エコー除去パラメータ推定装置。 - 請求項5において、
前記プロセッサは、前記非変動性残響成分を除去した後の音声信号に対して適用する前記線形エコー消去フィルタのパラメータを更新するとともに、前記非変動性エコー成分を除去した後の音声信号に対して適用する前記線形残響除去フィルタのパラメータを更新することを特徴とする残響・エコー除去パラメータ推定装置。 - プロセッサによって、音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定し、当該残響除去パラメータを、音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータ、及び前記音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータとして、出力する残響除去パラメータ推定方法であって、
前記プロセッサが、メモリから前記線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成するステップと、
前記プロセッサが、前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成するステップと、
前記プロセッサが、前記変動性残響成分及び前記直接音の推定値に基づいて、前記非線形フィルタのパラメータを構成する前記変動残響成分及び前記直接音成分のパラメータを更新するステップと、
前記プロセッサが、前記更新された変動性残響成分及び直接音成分のパラメータに基づいて、前記線形フィルタのパラメータを逐次的に更新するステップと、
を有することを特徴とする残響除去パラメータ推定方法。 - 音声入力信号に含まれる残響成分を除去する残響除去装置であって、
請求項1に記載の残響除去パラメータ推定装置と、
前記残響除去パラメータ推定装置から前記残響除去パラメータを取得して、前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を除去し、前記直接音成分を出力するプロセッサと、を有し、
前記プロセッサは、
前記線形フィルタによって前記音声入力信号から前記非変動性残響成分を除去して線形残響除去信号を推定し、
前記非線形フィルタによって前記線形残響除去信号から前記変動性残響成分と前記直接音成分を分離し、
前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を出力する、ことを特徴とする残響除去装置。 - 音声入力信号に含まれる残響成分を除去する残響除去装置であって、
請求項1に記載の残響除去パラメータ推定装置と、
前記残響除去パラメータ推定装置によって得られた前記残響除去パラメータであって、過去の残響除去パラメータを格納する残響除去パラメータデータベースと、
前記残響除去パラメータデータベースから複数の残響除去パラメータを取得し、当該複数の残響除去パラメータのそれぞれを用いて前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を除去し、複数の直接音成分を生成し、当該複数の直接音成分のうち最適な直接音成分を出力するプロセッサと、
を有することを特徴とする残響除去装置。 - 請求項9において、
前記プロセッサは、前記複数の残響除去パラメータのそれぞれを用いて、
前記線形フィルタによって前記音声入力信号から前記非変動性残響成分を除去して線形残響除去信号を推定し、
前記非線形フィルタによって前記線形残響除去信号から前記変動性残響成分と前記直接音成分を分離し、
前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を、前記複数の残響除去パラメータに対応して出力する、ことを特徴とする残響除去装置。 - 音声入力信号に含まれる残響成分を除去する残響・エコー除去装置であって、
請求項5に記載の残響・エコー除去パラメータ推定装置と、
前記残響・エコー除去パラメータ推定装置から前記残響・エコー除去パラメータを取得して、前記音声入力信号から前記非変動性及び前記変動性残響成分、並びに非変動性及び変動性エコー成分を除去し、前記直接音成分を出力するプロセッサと、を有し、
前記プロセッサは、
前記線形残響フィルタ及び前記線形エコー消去フィルタによって前記音声入力信号から前記非変動性残響成分及び前記非変動性エコー成分を除去して線形残響・エコー除去信号を推定し、
前記非線形フィルタによって前記線形残響・エコー除去信号から前記変動性残響及びエコー成分と前記直接音成分を分離し、
前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を出力する、ことを特徴とする残響・エコー除去装置。 - 各拠点に配置された複数の拠点毎会議システムと、当該複数の拠点毎会議システムを管理する計算サーバと、を有するオンライン会議システムであって、
前記計算サーバは、請求項1に記載の残響除去パラメータ推定装置を有し、それぞれの拠点毎会議システムから受信する音声入力信号を前記残響除去パラメータ推定装置によって処理し、それぞれの拠点毎会議システムに対応した残響除去パラメータを算出し、当該算残響パラメータを該当する拠点毎会議システムに送信し、
前記複数の拠点毎会議システムのそれぞれは、音声入力信号を前記計算サーバに送信し、前記計算サーバから前記送信した音声入力信号に対応する残響除去パラメータを受信し、当該受信した残響パラメータを用いて、前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を分離して前記直接音成分をリアルタイムに出力する、オンライン会議システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012033159A JP5897343B2 (ja) | 2012-02-17 | 2012-02-17 | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム |
CN201380009596.5A CN104115223B (zh) | 2012-02-17 | 2013-02-15 | 混响去除参数估计装置以及方法、混响/回波去除参数估计装置、混响去除装置、混响/回波去除装置、以及混响去除装置在线会议系统 |
PCT/JP2013/053645 WO2013122183A1 (ja) | 2012-02-17 | 2013-02-15 | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム |
US14/379,144 US9288576B2 (en) | 2012-02-17 | 2013-02-15 | Dereverberation parameter estimation device and method, dereverberation/echo-cancellation parameter estimation device, dereverberation device, dereverberation/echo-cancellation device, and dereverberation device online conferencing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012033159A JP5897343B2 (ja) | 2012-02-17 | 2012-02-17 | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013171076A JP2013171076A (ja) | 2013-09-02 |
JP5897343B2 true JP5897343B2 (ja) | 2016-03-30 |
Family
ID=48984292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012033159A Expired - Fee Related JP5897343B2 (ja) | 2012-02-17 | 2012-02-17 | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9288576B2 (ja) |
JP (1) | JP5897343B2 (ja) |
CN (1) | CN104115223B (ja) |
WO (1) | WO2013122183A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2884491A1 (en) * | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
JP6349899B2 (ja) | 2014-04-14 | 2018-07-04 | ヤマハ株式会社 | 放収音装置 |
CN103956170B (zh) * | 2014-04-21 | 2016-12-07 | 华为技术有限公司 | 一种消除混响的方法、装置和设备 |
US9607627B2 (en) * | 2015-02-05 | 2017-03-28 | Adobe Systems Incorporated | Sound enhancement through deverberation |
CN106448691B (zh) * | 2015-08-10 | 2020-12-11 | 深圳市潮流网络技术有限公司 | 一种用于扩音通信系统的语音增强方法 |
CN106485192B (zh) * | 2015-09-02 | 2019-12-06 | 富士通株式会社 | 用于图像识别的神经网络的训练方法和装置 |
WO2017063693A1 (en) * | 2015-10-14 | 2017-04-20 | Huawei Technologies Co., Ltd. | Adaptive reverberation cancellation system |
US9813811B1 (en) | 2016-06-01 | 2017-11-07 | Cisco Technology, Inc. | Soundfield decomposition, reverberation reduction, and audio mixing of sub-soundfields at a video conference endpoint |
JP7175441B2 (ja) * | 2016-12-23 | 2022-11-21 | シナプティクス インコーポレイテッド | 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム |
WO2018119467A1 (en) * | 2016-12-23 | 2018-06-28 | Synaptics Incorporated | Multiple input multiple output (mimo) audio signal processing for speech de-reverberation |
US20180218747A1 (en) * | 2017-01-28 | 2018-08-02 | Bose Corporation | Audio Device Filter Modification |
US10389885B2 (en) | 2017-02-01 | 2019-08-20 | Cisco Technology, Inc. | Full-duplex adaptive echo cancellation in a conference endpoint |
US11373667B2 (en) * | 2017-04-19 | 2022-06-28 | Synaptics Incorporated | Real-time single-channel speech enhancement in noisy and time-varying environments |
CN107316649B (zh) * | 2017-05-15 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
EP3460795A1 (en) | 2017-09-21 | 2019-03-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
US10504529B2 (en) | 2017-11-09 | 2019-12-10 | Cisco Technology, Inc. | Binaural audio encoding/decoding and rendering for a headset |
CN110111804B (zh) * | 2018-02-01 | 2021-03-19 | 南京大学 | 基于rls算法的自适应去混响方法 |
US10448154B1 (en) | 2018-08-31 | 2019-10-15 | International Business Machines Corporation | Enhancing voice quality for online meetings |
CN109712637B (zh) * | 2018-12-21 | 2020-09-22 | 珠海慧联科技有限公司 | 一种混响抑制系统及方法 |
CN111933170B (zh) * | 2020-07-20 | 2024-03-29 | 歌尔科技有限公司 | 语音信号的处理方法、装置、设备及存储介质 |
CN112017680A (zh) * | 2020-08-26 | 2020-12-01 | 西北工业大学 | 一种去混响方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62130029A (ja) * | 1985-12-02 | 1987-06-12 | Matsushita Electric Ind Co Ltd | 反響消去装置 |
JPS6319924A (ja) * | 1986-07-14 | 1988-01-27 | Matsushita Electric Ind Co Ltd | エコ−消去装置 |
US6044068A (en) * | 1996-10-01 | 2000-03-28 | Telefonaktiebolaget Lm Ericsson | Silence-improved echo canceller |
US7215765B2 (en) * | 2002-06-24 | 2007-05-08 | Freescale Semiconductor, Inc. | Method and apparatus for pure delay estimation in a communication system |
JP2007522705A (ja) * | 2004-01-07 | 2007-08-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声歪み圧縮システム及びそのフィルター装置 |
JP2006157498A (ja) * | 2004-11-30 | 2006-06-15 | Matsushita Electric Ind Co Ltd | 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法 |
US7539300B1 (en) * | 2005-06-11 | 2009-05-26 | Mindspeed Technologies, Inc. | Echo canceller with enhanced infinite and finite ERL detection |
JP4107613B2 (ja) * | 2006-09-04 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 残響除去における低コストのフィルタ係数決定法 |
DE102008039330A1 (de) * | 2008-01-31 | 2009-08-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung |
-
2012
- 2012-02-17 JP JP2012033159A patent/JP5897343B2/ja not_active Expired - Fee Related
-
2013
- 2013-02-15 US US14/379,144 patent/US9288576B2/en not_active Expired - Fee Related
- 2013-02-15 CN CN201380009596.5A patent/CN104115223B/zh not_active Expired - Fee Related
- 2013-02-15 WO PCT/JP2013/053645 patent/WO2013122183A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN104115223A (zh) | 2014-10-22 |
CN104115223B (zh) | 2017-02-22 |
US9288576B2 (en) | 2016-03-15 |
US20150016622A1 (en) | 2015-01-15 |
JP2013171076A (ja) | 2013-09-02 |
WO2013122183A1 (ja) | 2013-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5897343B2 (ja) | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム | |
JP5550456B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP5451876B2 (ja) | 音響マルチチャネル相殺 | |
JP5102371B2 (ja) | エコー抑制フィルタの制御情報を演算する装置および方法、並びに、ディレイ値を演算する装置および方法 | |
US8391472B2 (en) | Acoustic echo cancellation solution for video conferencing | |
US9966086B1 (en) | Signal rate synchronization for remote acoustic echo cancellation | |
JP4104626B2 (ja) | 収音方法及び収音装置 | |
WO2010053129A1 (ja) | 放収音装置及び放収音方法 | |
JP5382745B2 (ja) | 雑音除去装置及び雑音除去方法 | |
CN105165026A (zh) | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 | |
JP2011232691A (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP2012512413A (ja) | パーティクルフィルタリングを利用した音源位置の推定 | |
JP2020515106A (ja) | ビームフォーミングを使用するオーディオキャプチャ | |
JP5235226B2 (ja) | エコー消去装置及びそのプログラム | |
JP2011203414A (ja) | 雑音及び残響抑圧装置及びその方法 | |
JP3756828B2 (ja) | 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
KR20110021306A (ko) | 마이크로폰의 신호 보상 장치 및 그 방법 | |
WO2023051622A1 (zh) | 提升远场语音交互性能的方法和远场语音交互系统 | |
JP5937451B2 (ja) | エコー消去装置、エコー消去方法及びプログラム | |
JP3514714B2 (ja) | 収音方法およびその装置 | |
KR102045953B1 (ko) | 칼만필터 기반의 다채널 입출력 음향학적 반향 제거 방법 | |
JP2002223182A (ja) | 反響消去方法、その装置、そのプログラム及びその記録媒体 | |
CN113160842A (zh) | 一种基于mclp的语音去混响方法及系统 | |
JP6961545B2 (ja) | 音信号処理装置、音信号処理方法、およびプログラム | |
CN110246516A (zh) | 一种语音通信中小空间回声信号的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160302 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5897343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |