JP5897343B2

JP5897343B2 - 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム

Info

Publication number: JP5897343B2
Application number: JP2012033159A
Authority: JP
Inventors: 真人戸上; 洋平川口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2016-03-30
Anticipated expiration: 2032-02-17
Also published as: CN104115223A; CN104115223B; US9288576B2; US20150016622A1; JP2013171076A; WO2013122183A1

Description

本発明は、マイクロホンに入った音の中から、所望の音だけをピックアップする雑音除去及び／又は残響成分の除去技術に関する技術分野に属する。

マイクロホンに含まれる音の中から、部屋の壁や天井などで音が反射した結果生じる残響成分を高精度に除去し、話者の口元から直接マイクに届く成分（直接音）成分のみを高精度にピックアップするための残響除去技術が検討されている（例えば非特許文献１参照）。

図１は、室内における音の伝搬過程の模式図を示している。図１に示されるように、話者の口元から発せられ、マイクで受音される成分は、話者の口元からマイクロホンまで最短経路を辿って伝搬する成分である直接音成分（図１の（i）参照）と、壁や床、また室内の人に反射し跳ね返った音がマイクに混入する成分である残響成分と、に大きく分けることができる。

これまでの残響除去技術は、マイクに入った音を、伝搬特性の逆フィルタを線形フィルタとして推定し、推定した線形フィルタをマイク入力信号に重畳している。これにより、マイク入力信号を直接音成分と残響成分の二つに分けて、残響の無い直接音成分のみを抽出する技術と捉える事ができる。従来は、この残響成分の伝搬経路が時間変動しない非変動性残響成分（図１の（ii）参照）として捉えてきた。

しかし、実際には、非変動性残響成分の他に、室内で動く人（頭等が動く）などに反射した後、マイクに伝わる成分である変動性残響成分（図１の（iii）参照）も存在する。この変動性残響成分は、線形フィルタでは十分消去しきれない成分と捉えることできる。このような変動性残響成分については、非線形フィルタによって除去することが提案されている（例えば特許文献１参照）。

特許第４１０７６１３号公報

T. Yoshioka et al., "Blind separation and dereverberation of speech mixtures by joint optimization," IEEE Trans. ASLP、 vol. 19、 no. 1, pp. 69-84, Jan. 2011 K. Kinoshita et al., "Suppression of Late Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear Prediction、" IEEE Trans. ASLP, vol. 17, no. 4、 pp. 534-545, 2009

従来の線形フィルタを用いた残響除去方式（例えば非特許文献１参照）では、話者の口元からマイクまで音が伝達する時の伝達関数は変化しないという前提で残響成分を除去する。

しかし、例えば会議シーン等においては、話者の顔の向きや話者以外の人（頭等）が動くなどの影響を受けて、伝達関数が時間毎に変化する場合が多い。このような場合、まず、線形フィルタを推定するのに用いる信号の中に、伝達関数が揺らぐような時間帯が含まれていると、伝達関数の推定精度が落ちてしまい、結果として残響除去性能が落ちるという課題がある（課題１）。また、たとえ線形フィルタが高精度に求まったとしても、線形フィルタでは伝達関数が変化しないような場合以外は残響を落とすことができず、伝達関数が揺らぐような時間帯における残響抑圧性能が悪いという課題がある（課題２）。

一方、非線形フィルタを用いた非線形の残響除去技術では、残響成分を落とす量を制御するパラメータを大きくすることで残響除去量を増やすことが可能である。

しかし、パラメータを適切に設定できないと本来取りたい音声成分を歪ませる量を増やしてしまうことになり、結果的に取りたい音の抽出精度が下がることになる。

本発明はこのような状況に鑑みてなされたものであり、マイク入力信号から非変動性及び変動性の残響成分を精度良く除去して、直接音の抽出精度を高めるためのパラメータを推定する技術及びそのパラメータを用いて残響成分をマイク入力信号から除去する技術を提供するものである。

（i）上記課題を解決するため、本発明は、線形フィルタを用いた残響除去方式と非線形フィルタを用いた残響除去方式の統合アルゴリズムを提案する。より具体的には、後段の非線形フィルタにおいて伝達関数の揺らぎの量を時間毎に計測する機能を有し、その機能を基に時間毎の非線形フィルタの強さを制御（パラメータの生成を制御）する。これにより、伝達関数の揺らぎが大きい時だけ、強い非線形処理を掛けるような構成とすることになるため、音声成分の歪みを最小限に小さく保つことができる。また、非線形処理によって得られる変動性残響成分の推定値を、線形フィルタのパラメータ生成処理にフィードバックして非変動性残響成分除去の精度をさらに向上させる。

（ii）図２は、マイクロホン内に含まれる非変動性残響成分と変動性残響成分を除去する方法を模式的に示す図である。図２に示されるように、伝搬過程が変動しない非変動性残響成分は、伝搬過程の逆フィルタに相当する線形フィルタにより抑圧される。一方、所望の直接音及び変動性残響成分は線形フィルタでは抑圧されずに残る。その後、空間／非線形のフィルタリングを施すことにより、線形フィルタでは抑圧しきれなかった変動性残響成分が抑圧され、最終的に所望の直接音のみを得ることができる。

つまり、本発明を全体としてみると、伝搬過程が揺らがない残響成分だけでなく、伝搬過程が揺らぐ残響成分も落とすことが可能な構成となっている（課題１の解決）。つまり、本発明では、線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成し、非線形フィルタを用いて、線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成する。そして、変動性残響成分及び直接音の推定値に基づいて、非線形フィルタのパラメータを構成する変動残響成分及び直接音成分のパラメータを更新する。さらに、更新された変動性残響成分及び直接音成分のパラメータに基づいて、線形フィルタのパラメータを逐次的に更新するようにしている。

（iii）また、同機能による時間毎の伝達関数の揺らぎの量を前段の線形フィルタの推定にフィードバックさせて、線形フィルタ推定値に伝達関数が揺らぐような時間帯の重みを下げることで、伝達関数の推定精度が落ちる影響を軽減させることが可能である（課題２の解決）。

図３は、時間毎の重みの違いを模式的に示す図である。線形フィルタを学習する際には、できるだけ線形フィルタで抑圧するべき対象である非変動性残響成分が大きく存在する時間帯のみをピックアップして学習するべきといえる。そこで、本発明の重み決定プロセスでは、直接音成分と変動性成分が少ない時間帯を選ぶことで、学習対象の非変動性残響成分が大きく存在している時間帯だけを抽出することが可能となっている。

本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

本発明により広い部屋同士をつなぐビデオ会議システムにおいて、残響の影響が少ないクリアな音声で快適な音声通話を可能にする残響除去パラメータを推定することが可能となる。

音の伝搬過程を説明するための模式図である。マイクロホン内に含まれる非変動性残響成分と変動性残響成分の除去過程（保温発明の基本概念）を説明するための模式図である。時間毎の重みの大きさの違いについて説明するための模式図である。本発明による拠点毎会議システムの概略構成を示す図である。本発明による遠隔会議システムの全体構成を示す図である。中央演算装置１０２内で実行する残響除去プログラムのブロック構成を示す図である。残響除去３０２の効果の一例を示す図である。残響除去３０２の詳細なブロック構成（フローチャート相当）を示す図である。各マイクロホンのデータ取得について説明するための図である。残響除去パラメータ推定４０４と、オンライン残響除去４０５の実行タイミングについてのタイミングチャートである。残響除去パラメータ推定４０４の詳細なブロック構成（フローチャート相当）を示す図である。逆フィルタ算出７０１の詳細なブロック構成（フローチャート相当）を示す図である。マイクチャンネル毎に残響除去を行う構成を示す概念図である。残留残響・直接音分離７０３の具体的なブロック構成（フローチャート相当）を示す図である。残留残響パラメータ推定７０４の詳細なブロック構成（フローチャート相当）を示す図である。直接音パラメータ推定７０５の詳細なブロック構成（フローチャート相当）を示す図である。オンライン残響除去４０５の具体的な構成（フローチャート相当）を示す図である。本発明の第２の実施形態による残響除去処理の構成を示す図である。残響除去とエコーキャンセラの双方の性能を向上させることが可能な構成を示す図である。残響除去及びエコーキャンセラ２００１の具体的な構成を示す図である。オフラインパラメータ推定１８００の詳細なブロック構成を示す図である。残響・音響エコー消去用パラメータ推定１８０１の詳細なブロック構成（フローチャート相当）を示す図である。残響除去とエコーキャンセラを同時実行する構成における重み係数の決定（Ｒ_{x，f，τ(i)}の影響）について説明するための図である。オンライン音響エコー・残響除去２３０１の詳細な構成（フローチャート相当）を示す図である。分散構成による残響除去のブロック構成を示す図である。

本発明は、広い部屋で使われる遠隔会議システムなどで使用されることを想定し、複数設けられたマイクに対する入力信号から残響雑音（非変動及び変動性の残響成分）を取り除き、口元で直接マイクによって音を取ったようにする（直接音採取）ための技術を提供する。第１の実施形態では、残響除去パラメータの推定及びそれを用いたリアルタイム残響除去処理について示されている。また、第２の実施形態では、残響除去処理において、残響除去パラメータ推定処理で求めた過去の残響除去パラメータを複数組持っておき、時間毎に最も良いフィルタを選択して用いる処理について示されている。さらに、第３の実施形態では、残響及びエコー（反響）を除去するパラメータの推定及びそれを用いたリアルタイム残響及びエコー除去処理について示されている。また、第４の実施形態では、残響除去パラメータ推定処理をサーバ側で実行する分散処理について示されている。

以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

（１）第１の実施形態
＜各拠点のシステム構成＞
図４は、本発明の第１の実施形態による遠隔会議の各拠点に設置される会議システムのハードウェア概略構成を示す図である。各拠点の会議システム１００では、マイクロホンアレイ１０５が、各会議室の中の音声波形を集音する。マイクロホンアレイ１０５は、単一のマイクロホンまたは複数のマイクロホン素子からなることを想定する。

集音したアナログの音声波形は、Ａ／Ｄ変換機１０４でアナログ信号からデジタル信号に変換される。変換されたデジタル音声波形は、中央演算装置１０２（プロセッサとも言う）で残響除去処理が施された後、ＨＵＢ１０８を介してパケットに変換されネットワークに放出される。

中央演算装置１０２は、不揮発性メモリ１０１に記憶されているプログラム、及びプログラムで用いるパラメータを読み込み、該プログラムを実行する。また、プログラム実行時に用いるワークメモリは、揮発性メモリ１０３上に確保され、残響除去に必要な各種パラメータの記憶領域が定義される。残響除去パラメータは、中央処理装置１０２によって推定され、それが揮発性メモリ１０３に格納される。そして、格納された残響パラメータが再度中央処理装置１０２によって読み出され、新たな推定処理に用いられる。

中央演算装置１０２は、遠隔会議における、他拠点（遠端）の音声波形を、ネットワーク経由で、ＨＵＢ１０８から受け取る。受け取った遠端音声波形（デジタル音声波形）は、中央演算装置１０２経由で、Ｄ／Ａ変換機１０６に送られて、デジタル信号からアナログ信号に変換された後、変換されたアナログの音声波形は、スピーカアレイ１０７から放出される。

スピーカアレイ１０７は、単一のスピーカ素子または複数のスピーカ素子で構成される。また、各拠点の映像情報は、一般的なカメラ１０９で撮像され、ＨＵＢ１０８を経由して他拠点に送信される。他拠点の映像情報は、ネットワーク経由でＨＵＢ１０８に送られ、更に中央演算装置１０２を経由して、各拠点に設置されたディスプレイ１１０上で表示される。なお、カメラ１０９を複数台設置したり、ディスプレイ１１０を複数台設置するような構成を、取っても良い。

＜遠隔会議システムの全体構成＞
図５は、本発明の遠隔会議システムの全体構成例を示す図である。遠隔会議システムは、Ｎ個の各拠点会議システム１００−１、１００−２、・・・１００−Ｎ（拠点数をＮとする）と、各拠点の音声や映像の流れを制御するＭＣＵ２０２と、各拠点の計算機では処理できないような、処理量の大きい計算を実行する会議情報計算サーバ２０１と、を有し、それぞれネットワークを介して接続されている。なお、当該システムは、当業者であれば既知のシステムであるため、詳細な説明は割愛する。また、会議情報計算サーバ２０１において、各拠点の会議システムで実行される残響除去に必要な一部の処理を実行するような構成を採っても良い。

＜残響除去処理＞
図６は、本発明の第１の実施形態において、中央演算装置１０２内で実行される処理（プログラム）のブロック構成を示す図である。マイクロホンアレイ１０５からＡ／Ｄ変換機１０４経由で得られたデジタル音声波形は、エコーキャンセラ３０１で処理され、音響エコー成分が除去される。ここで、音響エコー成分とは、スピーカアレイ１０７から出力された音声波形が各拠点の壁や天井などで反射した後、マイクロホンアレイ１０５に混入する成分を指す。エコーキャンセラ３０１は、音響エコー成分を除去するためにＨＵＢ１０８経由で得られるＮＬＭＳ法など当業者であれば既知の構成により実現される。スピーカアレイ１０７から出力する信号として、遠端音声波形が用いられる。

エコーキャンセル後の音声波形は、残響除去３０２に送られ、残響成分が除去され、残響成分を除去した後の音声波形が出力される。音声波形は、時系列信号であるため、残響除去プログラムはＡ／Ｄ変換後の音声波形が一定量蓄積される毎に実行される。

＜残響除去の効果＞
図７は、残響除去３０２の効果（一例）を説明するための図である。マイク入力信号（図７の（i）参照）は、マイクロホンアレイ１０５を構成するある一つのマイクロホンの入力波形を時間−周波数領域に変換したスペクトログラムを示している。横軸が時間軸で、縦軸が周波数を示している。図７において、明るい時間−周波数成分ほど、音量が大きいことを意味する。

残響の無い信号（理想）（図７の（ii）参照）は、部屋の残響が存在しない直接音のみの波形を示している。マイク入力信号と残響の無い信号（理想）を比較すると、前者は、時間方向にインクがにじんだように成分が拡散している様子が見て取れる。本成分が、本発明で捉える残響成分である。

残響除去後の信号（図７の（iii）参照）は、本発明の残響除去３０２で処理した後の波形である。残響成分が除去され、残響の無い信号（理想）に近付いている様子が分かる。

＜残響除去処理＞
図８は、第１の実施形態による残響除去（処理）３０２（図６参照）の詳細なブロック構成を示す図である。

（i）フレーム化処理
図８に示されるように、エコーキャンセル後のデジタル音声波形は、フレーム化（処理）４０１に送られる。ここで、デジタル音声波形をｑ（ｍ，ｔ）と記載し、ｍを、マイクロホンアレイ１０５を構成するマイクロホンのインデックス、ｔをＡ／Ｄ変換処理のサンプルインデックスとする。

フレーム化４０１では、マイクロホン素子毎のデジタル音声波形が一定量蓄積されるたびに、フレーム単位の音声波形を出力する。一方、一定量蓄積されるまでは、何も出力されない。該一定量をフレームシフトと呼び、Ｓ（ポイント）と記載する。このようなフレームシフトを行うのは、音声は徐々に周波数成分が変化して伝わるので、その遷移を正確に捉えるためである。また、フレーム化４０１で出力される各マイクロホン素子毎の音声波形は、フレームシフトよりも大きい、Ｐポイント分の音声波形とする。

フレームの単位をフレームインデックスとよび、τと記載する。そして、Ｍ番目のマイクロホン素子におけるフレームインデックスτの出力信号は、ｔ＝Ｓτからｔ＝Ｓτ＋Ｐ−１までのポイントの音声波形となり、これを式（１）で定義する。

図９は、フレーム形成、及びフレームシフトの処理を説明するための図である。フレームインデックスが１の場合、「フレーム１」は、データ取得開始直後Ｐポイント分のデータの音声波形で構成される。次のフレーム「フレーム２」は、フレーム１からＳポイントずらしたポイントからＰポイント分のデータの音声波形で構成される。
フレーム化４０１は、各マイクロホン素子のフレーム単位の音声波形ｋ（ｍ，τ）を出力する。

（ii）周波数分解処理
周波数分解（処理）４０２は、フーリエ変換処理など、同業者であれば一般的に使われている周波数変換処理により、各マイクロホン素子の音声波形を時間周波数領域信号に変換する。時間周波数領域信号に変換したｍ番目のフレーム単位の信号をＸｍ（ｆ，τ）と定義する。ここで、ｆは時間周波数領域における周波数インデックスとする。また、各マイクロホンの時間領域信号を時間周波数毎にまとめたベクトルをＸ（ｆ，τ）＝［Ｘ１（ｆ，τ），Ｘ２（ｆ，τ），．．Ｘｍ（ｆ，τ），…ＸＭ（ｆ，τ）］と記載する。Ｍはマイクロホンの数を意味する。そして、各マイクロホンの周波数領域信号は、バッファリング（処理）４０３及びオンライン残響除去（処理）４０５に送られる。

（iii）バッファリング処理
バッファリング（処理）４０３は、時間領域信号を蓄積し、蓄積量が一定量に達した場合のみ、蓄積した信号を出力し、それ以外の場合は何も出力しない。各マイクロホンに蓄積する量は、Ｔフレーム（例えば、３００フレーム）分とする。ある程度の統計量を用いないとパラメータ推定が適切に（安定的に）行えないため、Ｔフレーム分の音声データを蓄積してから残響パラメータ推定処理を実行するようにする。また、例えば、会議中に話者が切り替わると、今までオンライン残響除去４０５で使用していた残響除去パラメータは適切なものではなくなるため、再度パラメータ推定を実行し、当該パラメータを更新する。ただし、話者の切り替わりを音声波形のみから検出するのは困難であるため、本実施形態では、Ｔフレームごとに残響除去パラメータを更新するようにしている。別の言い方をすれば、本実施形態では、一度パラメータを推定すると、次のパラメータ推定の処理が終了するまで、現在のパラメータを用いて残響除去処理が実行される。つまり、本実施形態の残響除去処理では、常に最新の推定パラメータを用いている。なお、話者が切り替わったことが検知できれば、話者切り替わりのタイミングで残響除去パラメータを更新するようにしても良い。

（iv）残響除去パラメータ推定処理
残響除去パラメータ推定（処理）４０４は、バッファリング４０３が出力するＴフレーム分のデータを基に、残響除去を行うためのパラメータを推定し、推定したパラメータを出力する。残響除去パラメータ推定（処理）４０４の更なる詳細については、図１１を参照して後述する。

（v）オンライン残響除去処理
オンライン残響除去（処理）４０５は、推定された残響除去パラメータをリアルタイムで活用する。残響除去パラメータ推定４０４は、Ｔフレーム分のデータが溜まる毎に処理を実施するのに対して、オンライン残響除去４０５は、リアルタイムに残響除去を行うことが必要であるため、１フレーム分のデータ毎に処理を実施する。オンライン残響除去４０５は、残響が含まれた１フレーム分のデータ中の残響成分を除去した後の信号を出力する。

図１０は、残響除去パラメータ推定４０４と、オンライン残響除去４０５の実行タイミングを説明するためのタイミングチャートである。残響除去パラメータ推定４０４では、上述のように、Ｔフレーム分のデータを得るたびにパラメータ推定処理が実行される。推定したパラメータがオンライン残響除去４０５で使われ始めるまでの各処理遅延フレーム長（Ｕフレーム）は、残響除去パラメータ推定４０４での処理量に依存し、異なる。

オンライン残響除去４０５は、各フレームの時間領域信号を、処理時点で得られている最新の残響除去パラメータを用いて残響除去実施する。
このような構成を採ることで、残響除去パラメータの推定が遅延した場合であても、残響除去をリアルタイムに実行することが可能となる。

（vi）時間領域変換処理
図８に戻り、時間領域変換（処理）４０６は、マイクロホン毎に１フレーム分の周波数領域信号に対して逆フーリエ変換などの周波数領域から時間領域への変換処理を実行することにより、時間領域信号に戻し、戻した時間領域信号を残響除去後の音声波形として出力する。この時間領域変換処理を実行することにより、各フレームにおける、（Ｐ−Ｓ）ポイント分の重複領域の音声パワーを調整することができる。

＜残響除去推定パラメータ処理の詳細＞
図１１は、残響除去パラメータ推定（処理）４０４の詳細ブロック構成を示す図である。残響除去パラメータ推定４０４は、繰り返し計算により、残響除去性能を逐次的に高めるような構成になっている。つまり、本実施形態において、２種類のパラメータＸ及びＹ（ここでは、Ｘを非変動性残響除去パラメータ、Ｙを変動性残響除去パラメータとする）を求める場合、Ｘをまず固定して、Ｙを変化させてＹの適正値を求める。次に、Ｘを変化させ、Ｘの適正値を求める。このように、図１１は、ＸとＹを交互に求めて収束させていく処理を表している。また、残響除去パラメータ推定４０４では、周波数インデックス毎に、独立して処理が行われる。したがって、本残響除去パラメータ推定処理を周波数毎に異なる中央演算装置（プロセッサ）で実行する構成も可能である。

（i）逆フィルタ算出処理
周波数毎に得られた、マイクロホン毎のＴフレーム分のデータは、まず逆フィルタ算出（処理）７０１に送られ、残響除去のための線形フィルタが算出される。

図１２は、逆フィルタ算出（処理）７０１の詳細な構成を示す図である。
フィルタ計算（処理）１４０３は、線形フィルタを式（２）によって算出する。残響成分は過去の信号に由来する成分であるため、式（２）は現在の信号と過去の信号、及び過去の信号同士がどの位の相関を有しているか算出するための演算式である。現在の信号と過去の信号との相関を求めるだけでは、過去の信号を現在の信号から除去しすぎてしまう可能性があるため、過剰な信号除去を回避すべく、過去の信号同士の相関をも考慮した演算となっている。なお、相関を算出するための演算は、Ｔフレーム分の音声信号に対して実行される。

τ（ｉ）を、Ｔフレーム分のデータのうち、ｉ番目のデータのフレームインデックスとすると、式（２）におけるＰ_ｆは、重み付き共分散行列であり、重み付き共分散行列計算１４０２において式（３）によって定義される。式（３）は、過去の信号同士の相関を算出するための演算式である。ここで、Ｈは、行列またはベクトルの共役転置を表す演算子とする。

さらに、式（２）におけるＱ_ｆは、重み付き相関行列計算１４０１において、式（４）で算出される。式（４）は、現在の信号と過去の信号との相関を算出するための演算式である。

また、式（３）における「’」は、行列またはベクトルの転置を表す演算子を表している。なお、式（３）において、

は、クロネッカ・デルタ積を表す演算子である。
さらに、式（３）において、Ｕ_{ｆ，τ（ｉ）}は、式（５）で定義される。

Ｄ、Ｌ１を予め定めるパラメータとする。Ｄは残響成分のうち、初期残響に相当するフレーム長に設定することが望ましい。Ｌ１は、後部残響の継続フレーム長に対応するパラメータであり、後部残響が大きい環境では大きい値に設定することが望ましい。Ｒ_{ｘ，ｆ，τ（ｉ）}は、線形残響成分重み算出７０７が出力する行列とする。線形残響成分重み算出（処理）７０７を行わない場合、もしくは、Ｔフレーム分のデータ毎に、初めて逆フィルタ算出７０１を実行する場合は、Ｒ_{ｘ，ｆ，τ（ｉ）}を単位行列に設定する。式（２）において、「ｖｅｃ」は、行列をベクトルに変換するためのオペレータとする。行列Ａをｖｅｃオペレータにより、ベクトルに変換する例を式（６）に示す。

式（６）において、ａ_ｍｎは行列Ａのｍ行ｎ列目の成分を意味する。ｉｖｅｃは、ｖｅｃオペレータの逆演算子とし、ベクトルを行列に変換する。行列に変換する際には、行数の任意性があるが、式（２）においては、出力される行列の行数がマイク数に一致するような行列を出力するものとする。式（２）で求めたＡ_ｆは、式（７）により、ブロック毎に区分される。

逆フィルタ算出７０１は、Ａ_ｆを出力して処理を終了する。

（ii）線形残響成分消去処理
線形残響成分消去（処理）７０２は、逆フィルタ算出７０１が出力するＡｆを利用して非変動残響成分を除去した信号ｇ_{ｆ，τ（ｉ）}を式（８）によって取得する。

線形残響成分消去（処理）７０２は、定性的には、マイクチャンネル毎に、別々のＦＩＲフィルタを動作させて、チャンネル毎の残響除去信号を得るような方式と捉えることができる。なお、図１３に、マイクチャンネル毎に残響除去を行うような構成として捉えた概念が示されている。このように、本実施形態による線形残響除去処理は、Ｔフレーム分の時間周波数信号全てに対して実行される。そして、線形残響除去後の信号は、残留残響・直接音分離７０３に送られる。

（iii）残留残響・直接音分離処理
残留残響・直接音分離（処理）７０３は、線形残響除去後の信号を直接音と残響音（推定値）の２つに分離する。
図１４は、残留残響・直接音分離７０３の詳細なブロック構成を示す図である。残留残響・直接音分離処理についても、Ｔフレーム分の時間周波数信号全てに対して実行する。

フレーム毎の残響除去信号の推定値は、直接音フィルタ係数推定１１０２で推定したフィルタ係数Ｗ_{ｎ，ｆ，τ（ｉ）}を各フレームの時間周波数信号に重畳することで、式（９）のように算出される。

ここで、ｎは音源のインデックスを意味する変数であり、１からＮまでの整数とする。Ｎが音源数であり、複数の音源が存在する場合においても、Ｎを２以上とすることで、同時に複数音源の残響除去及び直接音の分離が可能となる。

図１４において、直接音フィルタ推定（処理）１１０２は、式（１０）を用いて、直接音を抽出するためのフィルタ（ミラーフィルタ）Ｗ_{ｎ，ｆ，τ（ｉ）}を音源毎に算出する。式（１０）は、直接音のパワーが全体のパワーに占める割合（直接音のパワー／（直接音のパワー＋残留残響のパワー））を求めていることと実質的に等価である。

ここで、Ｒ_{ｓ（ｎ），ｆ，τ（ｉ）}は、音源毎、及びフレーム毎の共分散行列であり、時間毎の目的音分散推定（処理）１１０４において、式（１１）を用いて算出される。

ここで、ｖ_{ｓ（ｎ），ｆ，τ（ｉ）}、Ｃ_{ｓ（ｎ），ｆ}は、ｎ番目の直接音成分に関するパラメータであり、繰り返し計算の中で、逐次的に更新されるパラメータである。ｖ_{ｓ（ｎ），ｆ，τ（ｉ）}の初期値は１であり、Ｃ_{ｓ（ｎ），ｆ}は、ランダムな正定エルミート行列とする。

よって、残留残響成分は、Ｗ_{ｒｅｖ，ｌ，ｍ，ｆ，τ（ｉ）}を各フレームの時間周波数信号に重畳することで、式（１２）のように算出される。

ここで、ｌは、逆フィルタのタップインデックスに対応したインデックス、ｍはマイクインデックスとなっている。つまり、逆フィルタのタップインデックス及びマイクインデックス毎に残留残響成分が算出される。残留残響フィルタ係数推定１１０３では、Ｗ_{ｒｅｖ，ｌ，ｍ，ｆ，τ（ｉ）}を式（１３）によって算出する。式（１３）は、残留残響のパワーが全体のパワーに占める割合（残留残響のパワー／（直接音のパワー＋残留残響のパワー））を求めていることと実質的に等価である。

ここで、Ｒ_{ｒｅｖ，ｌ，ｍ，ｆ，τ（ｉ）}は、逆フィルタのタップインデックス毎、フレーム毎の共分散行列であって、時間毎の残留残響分散推定（処理）１１０５において、式（１４）に従って算出される。

Ｘ_{ｆ，τ（ｉ）}（ｍ）は、周波数インデックスｆ、フレームインデックスτ（ｉ）のｍ番目のマイクロホンの時間周波数領域信号である。Ｃ_{ｒｅｖ，ｌ，ｍ，ｆ}は各タップインデックス、マイクインデックス毎の残留残響成分の共分散行列であり、繰り返し計算の中で、逐次的に更新されるパラメータである。初期値は、ランダムな正定エルミート行列とする。

以上のように、分離された残留残響の推定値、及び直接音の推定値は、残留残響パラメータ推定（処理）７０４及び直接音パラメータ推定（処理）７０５に、それぞれ送られる。

（iv）残響パラメータ推定処理
残留残響パラメータ推定（処理）７０４は、変動性残響成分の統計量などのパラメータを推定する。図１５は、残留残響パラメータ推定（処理）７０４の詳細を示す図である。

図１５において、残留残響二次統計量算出（処理）１３０１は、残留残響・直接音分離７０３から送られてきた残留残響の推定値に対して式（１５）を適用し、フレーム毎の残留残響成分の二次統計量（残留残響のパワー）を算出する。

Ｖ_{ｒｅｖ，ｌ，ｍ，ｆ，τ（ｉ）}は、主軸算出（処理）１３０２に送られて、Ｃ_{ｒｅｖ，ｌ，ｍ，ｆ}が式（１６）によって更新される。

（v）直接音パラメータ推定処理
直接音パラメータ推定（処理）７０５は、直接音の統計量などのパラメータを推定する。図１６は、直接音パラメータ推定７０５の詳細を示す図である。

図１６において、直接音二次統計量算出（処理）１２０１は、残留残響・直接音分離７０３から送られてきた残留残響の推定値に対して式（１７）を適用し、各音源のフレーム毎の直接音の共分散行列（各マイクに入力される直接音のパワー及び各マイクに信号が到達するまでの時間差成分）を算出する。

時変パラメータ算出１２０２は、ｖ_{ｓ（ｎ），ｆ，τ（ｉ）}を式（１８）に従って更新する。ここで、時変パラメータとは、Ｎ個のマイクに直接音が到達するまでの時間差を含む情報を意味する。

更に、主軸算出１２０３は、Ｃ_{ｓ（ｎ），ｆ}を式（１９）に従って更新する。ここで主軸算出は、Ｎ個のマイクに直接音が到達するまでの時間差を考慮して、Ｎ次元（Ｎ個のマイク）におけるＮ次元多様体（楕円）の主軸（各マイクに入力される直接音のパワーのばらつき）を求めることを意味する。

例えば、複数のマイクが会議室内に設置されている場合、ある話者が特定方向から話していると、各フレーム時間の各マイクに入力される音声信号のパワーは、話者に近いマイクほど大きくなる。主軸算出１２０３は、この各マイクに伝わる音声信号のパワーのばらつきを算出する処理であり、時変パラメータ算出１２０２は、各マイクに到達するまでの音声信号（直接音）の時間差を算出する処理である。より具体的に、２つのマイクｍ１及びｍ２が設置されている場合には、ｍ１及びｍ２に伝わる音声信号のパワーをｍ１−ｍ２平面でプロットしたときの、原点とそのプロットとを結ぶ直線の傾きが主軸を表し、その主軸長（原点から当該プロットまでの距離）が時変パラメータ（時間差）を表すことになる。

（vi）収束判定処理
推定した直接音のパラメータと残留残響のパラメータは、収束判定（処理）７０６に送られる。
収束判定７０６は、繰り返し計算を所定回数実行したかどうか、推定したパラメータの値と推定前の値との差が所定値以下か否かなど、一般的な繰り返し計算の場合と同様の尺度で、計算が収束したかどうか判定する。収束していれば、残響除去のパラメータを出力して、残響除去パラメータ推定４０４のブロックを終了する。
収束していなければ、処理は、線形残響成分重み算出７０２に移行する。

（vii）線形残響成分重み算出処理
直接音や残留残響（変動性残響成分）のパワーは、時間毎に変化するため、上述したように、図１１の処理によって変数として学習している。従って、Ｔフレームの中で、どのフレームの直接音や残留残響のパワーが大きいか把握することができる（図３参照）。パワー（直接音や残留残響のパワーの和）が大きいほど変動成分が大きいことになるので、その時間帯は逆フィルタのパラメータを求めるための情報として使わない方が得策である。そこで、ここでは、例えば、パワー（直接音や残留残響のパワーの和）の大きさの逆数に比例するような重み係数を用いることとしている。

線形残響成分重み算出（処理）７０７は、Ｒ_{ｘ，ｆ，τ（ｉ）}を式（２０）に従って更新する。ここで、Ｎは音源数とする。

そして、時間毎の重みは、逆フィルタ算出７０１にフィードバックされる。なお、演算初期段階では、各時間帯の各成分のパワーは推定できていないため、重み係数を１として演算を開始する。そして、図１１の演算を繰り返すことによって重み係数を適切な値に収束させることができるようになっている。

＜オンライン残響除去処理の詳細＞
図１７は、オンライン残響除去（処理）４０５の具体的な構成を示す図である。オンライン残響除去（処理）４０５は、逐次計算によりパラメータ推定精度を高める構成となっている。

（i）バッファリング処理
バッファリング（処理）８０１は、フレーム毎の時間周波数領域信号を揮発性メモリ１０３上に格納する。本実施形態では、格納される時間周波数領域信号は、Ｔフレーム内の信号のうち、最新の時間領域信号から数えてＬ１フレーム（例えば、５フレーム）分とする。

あるフレームの音声信号が得られたとき、そのフレームの残響成分を除去するには過去のフレームの信号が必要となる。そのため、バッファリング処理８０１によって所定フレーム分の音声信号を溜めて処理対象とする。

（ii）線形残響成分消去処理
線形残響成分消去（処理）７０２は、格納したＬ１フレーム分の時間領域信号を受け取り、残響成分を逆フィルタにより除去する。この際、適用される逆フィルタは、残響除去パラメータ推定（処理）４０４が出力した残響除去のパラメータに含まれるフィルタである。

（iii）残留残響直接音分離処理
残留残響直接音分離（処理）７０３は、線形残響成分消去（処理）７０２から残響成分除去信号を受け取り、直接音と残留残響成分に分離し、直接音を出力する。この際、ｖ_{ｓ（ｎ），ｆ，τ}の初期値は１とする。また、Ｃ_{ｓ（ｎ），ｆ}は残響除去パラメータ推定（処理）４０４が出力した残響除去のパラメータに含まれる共分散行列である。

（iv）直接音分離推定処理
音声信号は時間毎にそのパワーが変化するため、時間毎の音声パワーの値を推定する必要がある。例えば、同じ話者が発生しても、時間毎に出力される音量は変化し、パワーが変化するため、リアルタイムに推定値を更新する必要があるからである。そこで、直接音分離推定（処理）８０２では、非線形パラメータの中の一部のパラメータ（直接音のパラメータ）のみをリアルタイムに推定する。そして、時間毎にリアルタイムに変化する部分には、推定処理を繰り返して推定値の精度を上げるようにする。なお、残留残響（変動性残響成分）のパラメータについては、時間変動が少ないと考えられるため、過去のフレームで学習したパラメータをそのまま用いれば良い。

図１７において、直接音分散推定（処理）８０２は、残留除去パラメータ推定４０４内の直接音パラメータ推定７０５と同様の流れで、式（２１）（式（１８）と同じ式）に従って、処理対象のフレームにおけるｖ_{ｓ（ｎ），ｆ，τ（ｉ）}を算出する。

（v）収束判定処理
収束判定（処理）７０６は、推定した直接音分散などのパラメータを用いて、求めたパラメータの収束判定を行う。収束していると判断された場合には、収束判定（処理）７０６は、推定した直接音を出力して処理を終了する。それ以外の場合、収束判定（処理）７０６は、推定した直接音分散を基に再度、残留残響直接音分離（処理）７０３を実行する。
なお、収束したか否かの判定は、図１１で説明した通りである。

（２）第２の実施形態
第２の実施形態は、残響除去（処理）３０２において、残響除去パラメータ推定（処理）４０４で求めた過去の残響除去パラメータを複数組持って置き、時間毎に最も良いフィルタを選択して用いる構成について開示している。

図１８は、本発明の第２の実施形態による残響除去（処理）３０２の構成を示す図である。なお、本構成による残響除去３０２おいては、フレーム化（処理）４０１から残響除去パラメータ推定（処理）４０４までの構成及び処理と、時間領域変換（処理）４０６は、既に説明した図８の構成と同一である。

図１８において、パラメータ書き込み制御（処理）９０３は、残響除去パラメータ推定４０４が出力する残響除去パラメータを、新しい残響除去パラメータとして登録するかどうかを切り替える処理である。残響除去パラメータＤＢ９０１は、予め定める個数分の残響除去パラメータをＤＢ内に記憶している。

パラメータ書き込み制御９０３が実行する処理としては、例えば残響除去パラメータＤＢ９０１内に記憶している残響除去パラメータのうち、記憶された時間が最も古い残響除去パラメータを廃棄し、新しい残響除去パラメータを代わりに記憶するような構成や、残響除去時の尤度（likelihood：ここでは誤差と同義である）の値が最も小さい残響除去パラメータを廃棄し、新しい残響除去パラメータを代わりに記憶するような構成を採っても良い。また、廃棄する残響除去パラメータは、周波数毎に同じタイミングで記憶された残響除去パラメータを廃棄するような構成を取っても良い。

ここで、残響除去パラメータＤＢ９０１に記憶されている残響除去パラメータの数をＡとすると、オンライン残響除去（処理）４０５−１〜４０５−Ａはそれぞれ、各残響除去パラメータにオンライン処理で残響成分を除去する処理を実行する。

最適残響除去音選択（処理）９０２は、各残響除去パラメータで除去された残響除去音の内、一つの残響除去音を選択する。例えば、各残響除去音の中で最も音量が小さい成分を選択するような構成や、尤度値が最も大きくなるような残響除去音を選択するような構成を取っても良い。また、音量成分や尤度値の計算は周波数方向に平均した値を用いても良い。

選択された残響除去音は、時間領域変換（処理）４０６に送られ、時間領域信号に変換されて出力される。例えば、低周波数領域の音声信号についてはパラメータ１を、高周波数領域の音声信号についてはパラメータ２を使って残響除去することが可能となる。これにより、周波数ごとに最適なフィルタを求めることができ、複数人が同時に発話するような場面であっても正確な残響除去処理を実行することが可能となる。また、第２の実施形態では、過去に求めた残響除去パラメータを蓄積しており、話者が切り替わっても過去に求めた最適なパラメータを使うことができるので、残響除去処理を迅速に実行することができるようになる。

（３）第３の実施形態
第３の実施形態は、残響除去とエコーキャンセラを同じフレームワーク内で実行し、残響除去とエコーキャンセラの双方の性能を向上させることが可能な構成に関するものである。残響除去とエコーキャンセラ消去は別々に動作させることもでき、この構成が単純である（図６参照）。しかし、エコーキャンセラのフィルタは常時形状が変化するため、エコーキャンセラで消去できなかった音声が残響除去に悪影響を及ぼす場合がある。そこで、残響除去及びエコーキャンセラをそれぞれ別々に最適化するのではなく、２つを同時に（互いに及ぼす影響を考慮して）最適化した方がシステム全体のパフォーマンスをより向上させることができる。これを実現するための構成が第３の実施形態に係るものである。

図１９は、第３の実施形態による処理を実行する中央演算装置の内部構成を概略的に示す図である。
中央演算装置１０２内で実行されるプログラム内で、残響除去及びエコーキャンセラ２００１は、デジタル音声波形（マイクロホン入力信号）及び遠端デジタル音声波形（参照信号）を受信し、それに対して残響除去処理及びエコーキャンセル処理を同時に実行し、残響除去・エコーキャンセル後の音声波形を出力する。

＜残響除去及びエコーキャンセラの構成＞
図２０は、残響除去及びエコーキャンセラ２００１の具体的な構成を示す図である。オフラインパラメータ推定（処理）１８００は、デジタル音声波形（マイクロホン入力信号）と遠端デジタル音声波形（参照信号）を受信し、残響除去と音響エコーキャンセラ用のパラメータを推定する。オフラインパラメータ推定１８００は、複数フレーム（Ｔフレーム分）時間領域信号が得られるごとに推定処理を実行する。オフラインパラメータ推定（処理）１８００の詳細な構成及び処理については、図２１を参照して後述する。

オンライン音響エコー・残響除去（処理）２３０１は、オフラインパラメータ推定１８００によって推定されたパラメータを用いて、フレーム毎の時間周波数領域信号に対して残響除去及び音響エコー成分の除去を行う。オンライン音響エコー・残響除去（処理）２３０１の詳細な構成及び処理については、図２４を参照して後述する。
時間領域変換４０６は、残響成分及び音響エコー成分が除去された時間周波数領域信号を時間領域信号に変換してそれを出力する。

＜オフラインパラメータ推定処理の詳細＞
図２１は、オフラインパラメータ推定（処理）１８００の具体的なブロック構成を示す図である。

マイクロホンアレイ１０５で得られた音声波形をデジタル信号に変換したデジタル音声波形及び遠端デジタル音声波形（参照信号と呼称）は共に、フレーム化（処理）４０１及び周波数分解（処理）４０２が施され、時間周波数領域信号に変換される。

スピーカアレイ１０７を構成するスピーカ素子のうちｂ番目の素子の参照信号の時間領域信号をＸ_{ｒｅｆ，ｂ（ｆ，τ）}と記載すると、Ｘ_{ｍ（ｆ、τ）}及びＸ_{ｒｅｆ，ｂ（ｆ，τ）}は共に、バッファリング４０３にて複数フレーム分（Ｔフレーム）バッファに蓄積される。ここで、Ｘ_{ｒｅｆ，ｂ（ｆ，τ）}＝［Ｘ_{ｒｅｆ，１（ｆ，τ）}，・・・，Ｘ_{ｒｅｆ，Ｂ（ｆ，τ）}］とし、Ｂをスピーカ素子数とする。

そして、バッファリング（処理）４０３によってＴフレーム分のデータが溜まる度に、残響・音響エコー消去用パラメータ推定（処理）１８０１が実行され、残響・音響エコー消去用パラメータが出力される。残響・音響エコー消去用パラメータ推定（処理）１８０１の詳細な構成及び処理については、図２２を参照して後述する。

＜残響・音響エコー消去用パラメータ推定処理の詳細＞
図２２は、残響・音響エコー消去用パラメータ推定（処理）１８０１の具体的なブロック構成を示す図である。線形残響成分消去７０２、残留残響パラメータ推定７０４、直接音パラメータ推定７０５、及び収束判定７０６については、上述した通りの構成及び処理であるので、詳細な説明は割愛する。

（i）逆フィルタ算出処理
逆フィルタ算出（処理）１９０８は、前述の方法（第１の実施形態）で残響（非変動成分）除去用の逆フィルタを求める。逆フィルタを算出する際に、マイク入力信号の代わりに、線形音響エコー消去フィルタ算出（処理）１９０１の結果を用いて線形音響エコーを消去した信号を使っても良い。この場合、逆フィルタ算出１９０８は、線形音響エコー消去（処理）１９０２の機能を有している。つまり、逆フィルタ算出１９０８は、線形音響エコー消去フィルタ算出１９０１が算出したエコー消去フィルタを使って、入力信号（複数フレームの周波数領域信号）に含まれる音響エコーを消去した後、残響除去用の逆フィルタを算出する。

（ii）線形音響エコー消去フィルタ算出処理
線形音響エコー消去フィルタ算出（処理）１９０１は、式（２２）を用いて音響エコー消去用のフィルタを求める。

この際、線形音響エコー消去フィルタ算出（処理）１９０１は、マイク入力信号の代わりに、前述の逆フィルタ算出１９０８により求めた逆フィルタを使って残響成分を除去した信号を用いて音響エコー消去用のフィルタを求めても良い。この場合、線形音響エコー消去フィルタ算出（処理）１９０１は、線形残響成分消去（処理）７０２の機能を有している。つまり、線形音響エコー消去フィルタ算出（処理）１９０１は、逆フィルタ算出１９０８で算出した残響除去用の逆フィルタを使って残響を除去した後に、線形音響エコー消去フィルタを算出する。

式（２２）において、Ｊ_ｐ，ｆ、Ｊ_{ｕ，ｆ，τ（ｉ）}及びＪ_ｑ，ｆはそれぞれ、式（２３）、（２４）及び（２５）のように定義される。

また、音響エコー消去用フィルタは、式（２６）のように、タップ毎のフィルタに分割される。

（iii）線形音響エコー消去処理
線形音響エコー消去（処理）１９０２は、線形音響エコー消去フィルタ算出１９０１で算出した音響エコー消去用のフィルタを使って音響エコー成分を消去した信号ｇ_{２，ｆ，τ（ｉ）}を式（２７）に従って取得する。

（iv）残留残響・残留音響エコー・直接音分離処理
残留残響・残留音響エコー・直接音分離（処理）１９０４は、残留残響及び直接音については残留残響・直接音分離７０３（第１の実施形態）と同一の方法で求める。なお、残留音響エコーについては、式（２８）によって求めたで求めた残留音響エコー抽出用フィルタＷ_{ｒｅｆ，ｌ，ｂ，ｆ，τ（ｉ）}をｇ_{２，ｆ，τ（ｉ）}に重畳することにより、残留音響エコー推定値ｙ_{ｒｅｆ，ｌ，ｂ，ｆ，τ（ｉ）}を式（２９）に従って算出する。

ここで、Ｒ_{ｒｅｆ，ｌ，ｂ，ｆ，τ（ｉ）}は、式（３０）によって求めることができる。

式（３０）において、Ｃ_{ｒｅｆ，ｌ，ｂ，ｆ}は、繰り返し計算により更新されるパラメータであり、初期値はランダムな正定エルミート行列とする。

（v）残留音響エコーパラメータ推定処理
残留音響エコーパラメータ推定（処理）１９０６は、Ｃ_{ｒｅｆ，ｌ，ｂ，ｆ}を残留残響パラメータ推定（処理）７０４（図１１：第１の実施形態）と同一の処理により更新する。詳細な説明については上述の通りであるためここでは省略する。

（vi）線形残響・エコー成分重み算出処理
線形残響・エコー成分重み算出（処理）１９０７は、式（３１）により、Ｒ_{ｘ，ｆ，τ（ｉ）}を算出する。

そして、図２３に示されるように、Ｒ_{ｘ，ｆ，τ（ｉ）}に対して影響を与える変動性残響成分だけでなく変動性音響エコー成分が大きい場合に、それらの重みが小さくなるように高精度に線形フィルタを求めることができる。

＜オンライン音響エコー・残響除去処理＞
図２４は、オンライン（リアルタイム）音響エコー・残響除去（処理）２３０１の具体的な構成を示す図である。

デジタル音声波形（マイク入力音声信号）及び遠端デジタル音声波形（参照信号）は、フレーム化（処理）４０１及び周波数分解（処理）４０２が施され、更にバッファリング（処理）４０３によりバッファリングされる。
バッファリングされた音声波形は、線形音響エコー・残響除去（処理）１９０２に送られる。

線形音響エコー・残響除去（処理）１９０２は、受信した音声波形の各フレームのデータに対して非変動性の残響と音響エコー成分を除去する。
その後、残留残響・残留音響エコー・直接音分離（処理）１９０４は、直接音のみを抽出する。

直接音分散推定（処理）８０２は、残留残響・残留音響エコー・直接音分離（処理）１９０４から抽出された直接音を受信し、ｖ_{ｓ（ｎ），ｆ，τ}を算出する。当該処理の詳細は、第１の実施形態で説明した通りであるので説明を省略する。

その後、収束判定（処理）７０６は、分散推定が収束したかどうか判定し、収束していれば推定した直接音成分を出力する。それ以外の場合、推定した直接音分散値を残留残響・残留音響エコー・直接音分離１９０４に戻し、再度直接音推定処理が実行される。当該処理の詳細も、第１の実施形態で説明した通りである。

（４）第４の実施形態
第４の実施形態は、残響除去の中で、特に計算量が大きい残響除去パラメータを会議情報計算サーバ２０１で実行し、それ以外のリアルタイムの残響除去処理を拠点毎会議システム１００で実行するような分散構成に関する。

図２５は、第４の実施形態による全体のシステム概略構成を示す図である。図２５において、フレーム化（処理）４０１、周波数分解（処理）４０２、及びバッファリング（処理）４０３は拠点毎会議システム１００で実行される。そして、Ｔフレーム分時間周波数領域信号が蓄積された後、拠点毎会議システム１００は、その時間周波数領域信号を会議情報計算サーバ２０１に送信する。

会議情報計算サーバ２０１は、拠点毎会議システム１００から送られてきたＴフレーム分時間周波数領域信号を受信し、その信号に対して残響除去パラメータ推定４０４を実行する。そして、会議情報計算サーバ２０１は、推定した残響除去パラメータをサーバから拠点毎会議システム１００に送信する。

拠点毎会議システム１００は、フレーム毎の時間周波領域信号を得る毎に、オンライン残響除去４０５、及び時間領域変換４０６を実行し、残響除去音（残響除去された直接音）を取得する。

なお、会議情報計算サーバ２０１は、残響除去パラメータ推定（処理）４０４の構成の代わりに、第３の実施形態で示した残響・音響エコー消去用パラメータ推定（処理）１８０１の構成を含むようにしても良い。この場合、拠点毎会議システム１００は、オンライン残響除去（処理）４０５の構成の代わりに、第３の実施形態で示したオンライン音響エコー・残響除去（処理）２３０１の構成を含むことになる。

（５）まとめ
（i）本発明の第１の実施形態の残響除去パラメータ推定装置においては、揮発性メモリ等のメモリに残響除去パラメータを格納し、処理に従って逐次更新していく。メモリには、少なくとも、音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータと、音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータと、が格納される。そして、中央処理装置等のプロセッサが、音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定及び更新し、当該残響除去パラメータを、線形フィルタのパラメータ及び非線形フィルタのパラメータとしてメモリに格納する。より具体的には、プロセッサ（逆フィルタ算出７０１及び線形残響成分消去７０２）は、メモリから線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成する。次に、プロセッサ（残留残響・直接音分離７０３）は、メモリから非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成する。続いて、プロセッサ（残留残響パラメータ推定７０４及び直接音パラメータ推定７０５）は、変動性残響成分及び直接音の推定値に基づいて主軸演算（図１５及び１６参照）を実行し、非線形フィルタのパラメータを構成する変動残響成分及び直接音成分のパラメータを更新する。そして、プロセッサ（線形残響成分重み算出７０７及び逆フィルタ算出７０１）は、更新された変動性残響成分及び直接音成分のパラメータに基づいて、線形フィルタのパラメータを逐次的に更新する。つまり、非変動性残響成分を除去するための線形フィルタのパラメータをある値に固定して、変動性残響成分を除去するための非線形フィルタのパラメータを推定し、得られた推定値に照らして再度線形フィルタのパラメータを更新するようにして、推定パラメータが収束するまでパラメータ推定処理を繰り返す。このようにすることにより、精度良く残響除去するための線形及び非線形フィルタのパラメータ（残響除去パラメータ）を推定することができる。そして、このパラメータを用いて残響除去処理を実行することにより、マイクロホンからの音声入力信号の直接音成分を歪ませることなく、残響成分を精度良く除去することができるようになる。

また、プロセッサ（線形残響成分重み算出７０７）は、更新された変動性残響成分及び直接音成分のパラメータによって、音声入力信号において変動残響成分と直接音成分の和が大きい時間帯を反映して線形フィルタの重み係数を決定（図３参照）し、線形フィルタのパラメータを更新する。このように、線形フィルタの伝達関数が揺らぐ可能性のある時間帯におけるフィルタ係数の重みを小さくすることにより、非変動性残響成分が大きく存在する時間帯の比重を大きくして信号を抽出することができるため、伝達関数の推定精度が落ちる影響を軽減することが可能となる。

本発明の実施形態では、音声入力信号として、複数のマイクロホンからの音声信号を想定している。この場合、プロセッサ（残留残響・直接音分離７０３）は、複数のマイクロホンのそれぞれからの音声信号に含まれる直接音成分の推定値及び変動性残響成分の推定値を生成する。そして、プロセッサ（残留残響パラメータ推定７０４及び直接音パラメータ推定７０５）は、それぞれのマイクロホンからの直接音成分及び変動性残響成分の推定値の二次統計量を抽出し、二次統計量から、複数のマイクの音声信号の直接音成分及び変動性残響成分のそれぞれのパワーのばらつきを表す情報を、変動性残響成分及び直接音成分のパラメータとする。このようにすることにより、音源（話者や、壁及び人物等の反射体における音声反射面（音源から発せられた音が反射する箇所））から各マイクロホンまでの距離が異なる場合に、各マイクロホンに入力される音声のパワーのばらつきを考慮し、残響を精度良く除去できるパラメータを推定することが可能となる。

第１の実施形態は、さらに、上述した残響除去パラメータ推定装置を有する残響除去装置を提案している。当該装置（図８及び１７参照）では、プロセッサ（中央処理装置）は、残響除去パラメータ推定装置から残響除去パラメータを取得して、音声入力信号から非変動性残響成分及び変動性残響成分を除去し、前記直接音成分を出力する。より具体的には、プロセッサ（線形残響成分消去７０２）は、線形フィルタによって音声入力信号から非変動性残響成分を除去して線形残響除去信号を推定する。次に、プロセッサ（残留残響・直接音分離７０３）は、非線形フィルタによって線形残響除去信号から変動性残響成分と直接音成分を分離する。そして、プロセッサ（直接音分散推定８０２及び収束判定７０６）は、直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した直接音成分を出力する。このようにすることにより、リアルタイムに残響を精度良く除去することができるようになる。また、直接音分散推定（時間毎に変化する音声パワーに応じて直接音を更新する処理）を実行しているので、時間経過に伴って起こる音声パワーの変化に追従して歪みのない直接音を抽出することができるようになる。

（ii）第２の実施形態は、別の残響除去装置を提案している。当該装置（図１８）は、残響除去パラメータ推定装置によって得られた残響除去パラメータを格納する残響除去パラメータデータベースを有している。このデータベースには、過去に推定して得られた残響除去パラメータの全て或いは一部が格納されている。当該装置では、プロセッサ（設置されたマイクロホンに対応するオンライン残響除去４５０−１乃至４０５−Ａ）が、残響除去パラメータデータベースから対応する複数の残響除去パラメータを取得し、当該複数の残響除去パラメータのそれぞれを用いて音声入力信号から非変動性残響成分及び変動性残響成分を除去し、複数の直接音成分を生成し、当該複数の直接音成分のうち最適な直接音成分を出力する。このように、推定済のパラメータを用いて残響除去の処理を実行することができるので、残響除去処理を迅速に行うことができ、よってリアルタイム処理に資することになる。

（iii）第３の実施形態では、メモリに、音声入力信号に含まれる非変動性残響成分を除去するための線形残響フィルタのパラメータと、音声入力信号に含まれる非変動性エコー成分を除去するための線形エコー消去フィルタのパラメータと、音声入力信号に含まれる変動性残響成分及び変動性エコー成分を除去するための非線形フィルタのパラメータと、を格納している。また、プロセッサ（中央処理装置）は、音声入力信号に含まれる残響成分及びエコー成分を除去して直接音を取得するための残響・エコー除去パラメータを推定し、当該残響・エコー除去パラメータを、線形残響フィルタのパラメータ、線形エコー消去フィルタのパラメータ、及び非線形フィルタのパラメータとしてメモリに格納する。より具体的に、プロセッサ（逆フィルタ算出１９０８及び線形音響エコー消去フィルタ算出１９０１）は、メモリから線形残響フィルタのパラメータのパラメータと、線形エコー消去フィルタのパラメータを読み出し、線形残響フィルタ及び線形エコー消去フィルタによって音声入力信号に含まれる非変動性残響成分及び非変動性エコー成分を除去して線形残響・エコー除去信号の推定値を生成する。この場合、逆フィルタ算出１９０８と線形音響エコー消去フィルタ算出１９０１は、互いの処理結果を利用してフィルタを算出する。つまり、線形音響エコー消去フィルタ算出１９０１は、音声入力信号から非変動残響成分を除去した信号を用いて線形音響エコー消去フィルタを算出する。一方、逆フィルタ算出１９０８は、音声入力信号から非変動音響エコー成分を除去した信号を用いて逆フィルタを算出する。次に、プロセッサ（残留残響・残留音響エコー・直接音分離１９０４）は、非線形フィルタを用いて、線形残響・エコー除去信号の推定値に含まれる変動性残響成分、変動性エコー成分、及び直接音成分の推定値を生成する。さらに、プロセッサ（残留残響パラメータ推定７０４、直接音パラメータ推定７０５、及び残留音響エコーパラメータ推定１９０６）は、変動性残響成分、変動性エコー成分、及び直接音の推定値に基づいて、非線形フィルタのパラメータを構成する変動残響成分、変動性エコー成分、及び直接音成分のパラメータを更新する。そして、プロセッサ（線形残響・エコー成分重み算出１９０７、線形音響エコー消去フィルタ算出１９０１、及び逆フィルタ算出１９０８）は、更新された変動性残響成分、変動性エコー成分、及び直接音成分のパラメータに基づいて、線形残響フィルタ及び線形エコー消去フィルタのパラメータを逐次的に更新する。このようにすることに残響除去とエコーキャンセルを同じフレームワーク内で実行することにより、双方の処理精度を向上させることが可能なパラメータを推定することができるようになる。

（iv）第４の実施形態は、処理に負荷が掛かる残響パラメータ推定処理を、会議システムの計算機サーバにおいて実行する構成（図２５）について提案している。このようにすることにより、それぞれの拠点における会議システムの処理負荷を軽減することができるため、会議システムのリアルタイム性を担保することができると共に、当該会議システムを構築するためのコストを劇的に削減することができるようになる。

（v）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び／又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。

１００…拠点毎会議システム、１０１…不揮発性メモリ、１０２…中央演算装置、１０３…揮発性メモリ、１０４…Ａ／Ｄ変換機、１０５…マイクロホンアレイ、１０６…Ｄ／Ａ変換機、１０７…スピーカアレイ、１０８…ＨＵＢ、１０９…カメラ、１１０…ディスプレイ、２０１…会議情報計算サーバ、２０２…ＭＣＵ、３０１…エコーキャンセラ、３０２…残響除去、４０１…フレーム化、４０２…周波数分解、４０３…バッファリング、４０４…残響除去パラメータ推定、４０５…オンライン残響除去、４０６…時間領域変換、７０１…逆フィルタ算出、７０２…線形残響成分消去、７０３…残留残響・直接音分離、７０４…残留残響パラメータ推定、７０５…直接音パラメータ推定、７０６…収束判定、７０７…線形残響成分重み算出、８０１…バッファリング、８０２…直接音分散推定、９０１…残響除去パラメータＤＢ、９０２…最適残響除去音選択、９０３…パラメータ書き込み制御、１１０２…直接音フィルタ係数推定、１１０３…残留残響フィルタ係数推定、１１０４…時間毎の目的音分散推定、１１０５…時間毎の残留残響分散推定、１２０１…直接音二次統計量算出、１２０２…時変パラメータ算出、１２０３…主軸算出、１３０１…残留残響二次統計量算出、１３０２…主軸算出、１４０１…重み付き相関行列計算、１４０２…重み付き共分散行列計算、１４０３…フィルタ計算、１８００…オフラインパラメータ推定、１８０１…残響・音響エコー消去用パラメータ推定、１９０１…線形音響エコー消去フィルタ算出、１９０２…線形音響エコー消去、１９０４…残留残響・残留音響エコー・直接音分離、１９０６…残留音響エコーパラメータ推定、１９０７…線形残響・エコー成分重み算出、１９０８…逆フィルタ算出、２００１…残響除去及びエコーキャンセラ、２３０１…オンライン音響エコー・残響除去

Claims

音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータと、前記音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータと、を格納するメモリと、
前記音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定し、当該残響除去パラメータを、前記線形フィルタのパラメータ及び前記非線形フィルタのパラメータとして前記メモリに格納するプロセッサと、を有し、
前記プロセッサは、
前記メモリから前記線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成し、
前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成し、
前記変動性残響成分及び前記直接音の推定値に基づいて、前記非線形フィルタのパラメータを構成する前記変動残響成分及び前記直接音成分のパラメータを更新し、
前記更新された変動性残響成分及び直接音成分のパラメータに基づいて、前記線形フィルタのパラメータを逐次的に更新する、ことを特徴とする残響除去パラメータ推定装置。
請求項１において、
前記プロセッサは、前記更新された変動性残響成分及び直接音成分のパラメータによって、前記音声入力信号において前記変動残響成分と前記直接音成分の和が大きい時間帯を反映して前記線形フィルタの重み係数を決定し、前記線形フィルタのパラメータを更新することを特徴とする残響除去パラメータ推定装置。
請求項１において、
前記音声入力信号は、複数のマイクからの音声信号を含み、
前記プロセッサは、
前記複数のマイクのそれぞれからの音声信号に含まれる前記直接音成分の推定値及び前記変動性残響成分の推定値を生成し、
前記それぞれのマイクからの前記直接音成分及び前記変動性残響成分の推定値の二次統計量を抽出し、
前記二次統計量から、前記複数のマイクの音声信号の前記直接音成分及び前記変動性残響成分のそれぞれのパワーのばらつきを表す情報を、前記変動性残響成分及び前記直接音成分のパラメータとする、ことを特徴とする残響除去パラメータ推定装置。
請求項１において、
前記プロセッサは、前記更新された変動性残響成分及び直接音成分のパラメータの収束判定を実行し、収束していると判断した場合に、前記残響除去パラメータとして、前記線形フィルタ及び前記非線形フィルタのパラメータを出力し、未収束であると判断した場合には、前記線形フィルタのパラメータの逐次的更新処理を継続する、ことを特徴とする残響除去パラメータ推定装置。
音声入力信号に含まれる非変動性残響成分を除去するための線形残響フィルタのパラメータと、前記音声入力信号に含まれる非変動性エコー成分を除去するための線形エコー消去フィルタのパラメータと、前記音声入力信号に含まれる変動性残響成分及び変動性エコー成分を除去するための非線形フィルタのパラメータと、を格納するメモリと、
前記音声入力信号に含まれる残響成分及びエコー成分を除去して直接音を取得するための残響・エコー除去パラメータを推定し、当該残響・エコー除去パラメータを、前記線形残響フィルタのパラメータ、前記線形エコー消去フィルタのパラメータ、及び前記非線形フィルタのパラメータとして前記メモリに格納するプロセッサと、を有し、
前記プロセッサは、
前記メモリから前記線形残響フィルタのパラメータと、線形エコー消去フィルタのパラメータを読み出し、前記線形残響フィルタ及び前記線形エコー消去フィルタによって音声入力信号に含まれる非変動性残響成分及び非変動性エコー成分を除去して線形残響・エコー除去信号の推定値を生成し、
前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響・エコー除去信号の推定値に含まれる変動性残響成分、変動性エコー成分、及び直接音成分の推定値を生成し、
前記変動性残響成分、前記変動性エコー成分、及び前記直接音の推定値に基づいて、
前記非線形フィルタのパラメータを構成する前記変動残響成分、前記変動性エコー成分、及び前記直接音成分のパラメータを更新し、
前記更新された変動性残響成分、変動性エコー成分、及び直接音成分のパラメータに基づいて、前記線形残響フィルタ及び前記線形エコー消去フィルタのパラメータを逐次的に更新する、ことを特徴とする残響・エコー除去パラメータ推定装置。
請求項５において、
前記プロセッサは、前記非変動性残響成分を除去した後の音声信号に対して適用する前記線形エコー消去フィルタのパラメータを更新するとともに、前記非変動性エコー成分を除去した後の音声信号に対して適用する前記線形残響除去フィルタのパラメータを更新することを特徴とする残響・エコー除去パラメータ推定装置。
プロセッサによって、音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定し、当該残響除去パラメータを、音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータ、及び前記音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータとして、出力する残響除去パラメータ推定方法であって、
前記プロセッサが、メモリから前記線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成するステップと、
前記プロセッサが、前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成するステップと、
前記プロセッサが、前記変動性残響成分及び前記直接音の推定値に基づいて、前記非線形フィルタのパラメータを構成する前記変動残響成分及び前記直接音成分のパラメータを更新するステップと、
前記プロセッサが、前記更新された変動性残響成分及び直接音成分のパラメータに基づいて、前記線形フィルタのパラメータを逐次的に更新するステップと、
を有することを特徴とする残響除去パラメータ推定方法。
音声入力信号に含まれる残響成分を除去する残響除去装置であって、
請求項１に記載の残響除去パラメータ推定装置と、
前記残響除去パラメータ推定装置から前記残響除去パラメータを取得して、前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を除去し、前記直接音成分を出力するプロセッサと、を有し、
前記プロセッサは、
前記線形フィルタによって前記音声入力信号から前記非変動性残響成分を除去して線形残響除去信号を推定し、
前記非線形フィルタによって前記線形残響除去信号から前記変動性残響成分と前記直接音成分を分離し、
前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を出力する、ことを特徴とする残響除去装置。
音声入力信号に含まれる残響成分を除去する残響除去装置であって、
請求項１に記載の残響除去パラメータ推定装置と、
前記残響除去パラメータ推定装置によって得られた前記残響除去パラメータであって、過去の残響除去パラメータを格納する残響除去パラメータデータベースと、
前記残響除去パラメータデータベースから複数の残響除去パラメータを取得し、当該複数の残響除去パラメータのそれぞれを用いて前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を除去し、複数の直接音成分を生成し、当該複数の直接音成分のうち最適な直接音成分を出力するプロセッサと、
を有することを特徴とする残響除去装置。
請求項９において、
前記プロセッサは、前記複数の残響除去パラメータのそれぞれを用いて、
前記線形フィルタによって前記音声入力信号から前記非変動性残響成分を除去して線形残響除去信号を推定し、
前記非線形フィルタによって前記線形残響除去信号から前記変動性残響成分と前記直接音成分を分離し、
前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を、前記複数の残響除去パラメータに対応して出力する、ことを特徴とする残響除去装置。
音声入力信号に含まれる残響成分を除去する残響・エコー除去装置であって、
請求項５に記載の残響・エコー除去パラメータ推定装置と、
前記残響・エコー除去パラメータ推定装置から前記残響・エコー除去パラメータを取得して、前記音声入力信号から前記非変動性及び前記変動性残響成分、並びに非変動性及び変動性エコー成分を除去し、前記直接音成分を出力するプロセッサと、を有し、
前記プロセッサは、
前記線形残響フィルタ及び前記線形エコー消去フィルタによって前記音声入力信号から前記非変動性残響成分及び前記非変動性エコー成分を除去して線形残響・エコー除去信号を推定し、
前記非線形フィルタによって前記線形残響・エコー除去信号から前記変動性残響及びエコー成分と前記直接音成分を分離し、
前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を出力する、ことを特徴とする残響・エコー除去装置。
各拠点に配置された複数の拠点毎会議システムと、当該複数の拠点毎会議システムを管理する計算サーバと、を有するオンライン会議システムであって、
前記計算サーバは、請求項１に記載の残響除去パラメータ推定装置を有し、それぞれの拠点毎会議システムから受信する音声入力信号を前記残響除去パラメータ推定装置によって処理し、それぞれの拠点毎会議システムに対応した残響除去パラメータを算出し、当該算残響パラメータを該当する拠点毎会議システムに送信し、
前記複数の拠点毎会議システムのそれぞれは、音声入力信号を前記計算サーバに送信し、前記計算サーバから前記送信した音声入力信号に対応する残響除去パラメータを受信し、当該受信した残響パラメータを用いて、前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を分離して前記直接音成分をリアルタイムに出力する、オンライン会議システム。