JP5897343B2 - 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム - Google Patents

残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム Download PDF

Info

Publication number
JP5897343B2
JP5897343B2 JP2012033159A JP2012033159A JP5897343B2 JP 5897343 B2 JP5897343 B2 JP 5897343B2 JP 2012033159 A JP2012033159 A JP 2012033159A JP 2012033159 A JP2012033159 A JP 2012033159A JP 5897343 B2 JP5897343 B2 JP 5897343B2
Authority
JP
Japan
Prior art keywords
dereverberation
component
reverberation
linear
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012033159A
Other languages
English (en)
Other versions
JP2013171076A (ja
Inventor
真人 戸上
真人 戸上
洋平 川口
洋平 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2012033159A priority Critical patent/JP5897343B2/ja
Priority to CN201380009596.5A priority patent/CN104115223B/zh
Priority to PCT/JP2013/053645 priority patent/WO2013122183A1/ja
Priority to US14/379,144 priority patent/US9288576B2/en
Publication of JP2013171076A publication Critical patent/JP2013171076A/ja
Application granted granted Critical
Publication of JP5897343B2 publication Critical patent/JP5897343B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/281Reverberation or echo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本発明は、マイクロホンに入った音の中から、所望の音だけをピックアップする雑音除去及び/又は残響成分の除去技術に関する技術分野に属する。
マイクロホンに含まれる音の中から、部屋の壁や天井などで音が反射した結果生じる残響成分を高精度に除去し、話者の口元から直接マイクに届く成分(直接音)成分のみを高精度にピックアップするための残響除去技術が検討されている(例えば非特許文献1参照)。
図1は、室内における音の伝搬過程の模式図を示している。図1に示されるように、話者の口元から発せられ、マイクで受音される成分は、話者の口元からマイクロホンまで最短経路を辿って伝搬する成分である直接音成分(図1の(i)参照)と、壁や床、また室内の人に反射し跳ね返った音がマイクに混入する成分である残響成分と、に大きく分けることができる。
これまでの残響除去技術は、マイクに入った音を、伝搬特性の逆フィルタを線形フィルタとして推定し、推定した線形フィルタをマイク入力信号に重畳している。これにより、マイク入力信号を直接音成分と残響成分の二つに分けて、残響の無い直接音成分のみを抽出する技術と捉える事ができる。従来は、この残響成分の伝搬経路が時間変動しない非変動性残響成分(図1の(ii)参照)として捉えてきた。
しかし、実際には、非変動性残響成分の他に、室内で動く人(頭等が動く)などに反射した後、マイクに伝わる成分である変動性残響成分(図1の(iii)参照)も存在する。この変動性残響成分は、線形フィルタでは十分消去しきれない成分と捉えることできる。このような変動性残響成分については、非線形フィルタによって除去することが提案されている(例えば特許文献1参照)。
特許第4107613号公報
T. Yoshioka et al., "Blind separation and dereverberation of speech mixtures by joint optimization," IEEE Trans. ASLP、 vol. 19、 no. 1, pp. 69-84, Jan. 2011 K. Kinoshita et al., "Suppression of Late Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear Prediction、" IEEE Trans. ASLP, vol. 17, no. 4、 pp. 534-545, 2009
従来の線形フィルタを用いた残響除去方式(例えば非特許文献1参照)では、話者の口元からマイクまで音が伝達する時の伝達関数は変化しないという前提で残響成分を除去する。
しかし、例えば会議シーン等においては、話者の顔の向きや話者以外の人(頭等)が動くなどの影響を受けて、伝達関数が時間毎に変化する場合が多い。このような場合、まず、線形フィルタを推定するのに用いる信号の中に、伝達関数が揺らぐような時間帯が含まれていると、伝達関数の推定精度が落ちてしまい、結果として残響除去性能が落ちるという課題がある(課題1)。また、たとえ線形フィルタが高精度に求まったとしても、線形フィルタでは伝達関数が変化しないような場合以外は残響を落とすことができず、伝達関数が揺らぐような時間帯における残響抑圧性能が悪いという課題がある(課題2)。
一方、非線形フィルタを用いた非線形の残響除去技術では、残響成分を落とす量を制御するパラメータを大きくすることで残響除去量を増やすことが可能である。
しかし、パラメータを適切に設定できないと本来取りたい音声成分を歪ませる量を増やしてしまうことになり、結果的に取りたい音の抽出精度が下がることになる。
本発明はこのような状況に鑑みてなされたものであり、マイク入力信号から非変動性及び変動性の残響成分を精度良く除去して、直接音の抽出精度を高めるためのパラメータを推定する技術及びそのパラメータを用いて残響成分をマイク入力信号から除去する技術を提供するものである。
(i)上記課題を解決するため、本発明は、線形フィルタを用いた残響除去方式と非線形フィルタを用いた残響除去方式の統合アルゴリズムを提案する。より具体的には、後段の非線形フィルタにおいて伝達関数の揺らぎの量を時間毎に計測する機能を有し、その機能を基に時間毎の非線形フィルタの強さを制御(パラメータの生成を制御)する。これにより、伝達関数の揺らぎが大きい時だけ、強い非線形処理を掛けるような構成とすることになるため、音声成分の歪みを最小限に小さく保つことができる。また、非線形処理によって得られる変動性残響成分の推定値を、線形フィルタのパラメータ生成処理にフィードバックして非変動性残響成分除去の精度をさらに向上させる。
(ii)図2は、マイクロホン内に含まれる非変動性残響成分と変動性残響成分を除去する方法を模式的に示す図である。図2に示されるように、伝搬過程が変動しない非変動性残響成分は、伝搬過程の逆フィルタに相当する線形フィルタにより抑圧される。一方、所望の直接音及び変動性残響成分は線形フィルタでは抑圧されずに残る。その後、空間/非線形のフィルタリングを施すことにより、線形フィルタでは抑圧しきれなかった変動性残響成分が抑圧され、最終的に所望の直接音のみを得ることができる。
つまり、本発明を全体としてみると、伝搬過程が揺らがない残響成分だけでなく、伝搬過程が揺らぐ残響成分も落とすことが可能な構成となっている(課題1の解決)。つまり、本発明では、線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成し、非線形フィルタを用いて、線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成する。そして、変動性残響成分及び直接音の推定値に基づいて、非線形フィルタのパラメータを構成する変動残響成分及び直接音成分のパラメータを更新する。さらに、更新された変動性残響成分及び直接音成分のパラメータに基づいて、線形フィルタのパラメータを逐次的に更新するようにしている。
(iii)また、同機能による時間毎の伝達関数の揺らぎの量を前段の線形フィルタの推定にフィードバックさせて、線形フィルタ推定値に伝達関数が揺らぐような時間帯の重みを下げることで 、伝達関数の推定精度が落ちる影響を軽減させることが可能である(課題2の解決)。
図3は、時間毎の重みの違いを模式的に示す図である。線形フィルタを学習する際には、できるだけ線形フィルタで抑圧するべき対象である非変動性残響成分が大きく存在する時間帯のみをピックアップして学習するべきといえる。そこで、本発明の重み決定プロセスでは、直接音成分と変動性成分が少ない時間帯を選ぶことで、学習対象の非変動性残響成分が大きく存在している時間帯だけを抽出することが可能となっている。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明により広い部屋同士をつなぐビデオ会議システムにおいて、残響の影響が少ないクリアな音声で快適な音声通話を可能にする残響除去パラメータを推定することが可能となる。
音の伝搬過程を説明するための模式図である。 マイクロホン内に含まれる非変動性残響成分と変動性残響成分の除去過程(保温発明の基本概念)を説明するための模式図である。 時間毎の重みの大きさの違いについて説明するための模式図である。 本発明による拠点毎会議システムの概略構成を示す図である。 本発明による遠隔会議システムの全体構成を示す図である。 中央演算装置102内で実行する残響除去プログラムのブロック構成を示す図である。 残響除去302の効果の一例を示す図である。 残響除去302の詳細なブロック構成(フローチャート相当)を示す図である。 各マイクロホンのデータ取得について説明するための図である。 残響除去パラメータ推定404と、オンライン残響除去405の実行タイミングについてのタイミングチャートである。 残響除去パラメータ推定404の詳細なブロック構成(フローチャート相当)を示す図である。 逆フィルタ算出701の詳細なブロック構成(フローチャート相当)を示す図である。 マイクチャンネル毎に残響除去を行う構成を示す概念図である。 残留残響・直接音分離703の具体的なブロック構成(フローチャート相当)を示す図である。 残留残響パラメータ推定704の詳細なブロック構成(フローチャート相当)を示す図である。 直接音パラメータ推定705の詳細なブロック構成(フローチャート相当)を示す図である。 オンライン残響除去405の具体的な構成(フローチャート相当)を示す図である。 本発明の第2の実施形態による残響除去処理の構成を示す図である。 残響除去とエコーキャンセラの双方の性能を向上させることが可能な構成を示す図である。 残響除去及びエコーキャンセラ2001の具体的な構成を示す図である。 オフラインパラメータ推定1800の詳細なブロック構成を示す図である。 残響・音響エコー消去用パラメータ推定1801の詳細なブロック構成(フローチャート相当)を示す図である。 残響除去とエコーキャンセラを同時実行する構成における重み係数の決定(Rx,f,τ(i)の影響)について説明するための図である。 オンライン音響エコー・残響除去2301の詳細な構成(フローチャート相当)を示す図である。 分散構成による残響除去のブロック構成を示す図である。
本発明は、広い部屋で使われる遠隔会議システムなどで使用されることを想定し、複数設けられたマイクに対する入力信号から残響雑音(非変動及び変動性の残響成分)を取り除き、口元で直接マイクによって音を取ったようにする(直接音採取)ための技術を提供する。第1の実施形態では、残響除去パラメータの推定及びそれを用いたリアルタイム残響除去処理について示されている。また、第2の実施形態では、残響除去処理において、残響除去パラメータ推定処理で求めた過去の残響除去パラメータを複数組持っておき、時間毎に最も良いフィルタを選択して用いる処理について示されている。さらに、第3の実施形態では、残響及びエコー(反響)を除去するパラメータの推定及びそれを用いたリアルタイム残響及びエコー除去処理について示されている。また、第4の実施形態では、残響除去パラメータ推定処理をサーバ側で実行する分散処理について示されている。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
(1)第1の実施形態
<各拠点のシステム構成>
図4は、本発明の第1の実施形態による遠隔会議の各拠点に設置される会議システムのハードウェア概略構成を示す図である。各拠点の会議システム100では、マイクロホンアレイ105が、各会議室の中の音声波形を集音する。マイクロホンアレイ105は、単一のマイクロホンまたは複数のマイクロホン素子からなることを想定する。
集音したアナログの音声波形は、A/D変換機104でアナログ信号からデジタル信号に変換される。変換されたデジタル音声波形は、中央演算装置102(プロセッサとも言う)で残響除去処理が施された後、HUB108を介してパケットに変換されネットワークに放出される。
中央演算装置102は、不揮発性メモリ101に記憶されているプログラム、及びプログラムで用いるパラメータを読み込み、該プログラムを実行する。また、プログラム実行時に用いるワークメモリは、揮発性メモリ103上に確保され、残響除去に必要な各種パラメータの記憶領域が定義される。残響除去パラメータは、中央処理装置102によって推定され、それが揮発性メモリ103に格納される。そして、格納された残響パラメータが再度中央処理装置102によって読み出され、新たな推定処理に用いられる。
中央演算装置102は、遠隔会議における、他拠点(遠端)の音声波形を、ネットワーク経由で、HUB108から受け取る。受け取った遠端音声波形(デジタル音声波形)は、中央演算装置102経由で、D/A変換機106に送られて、デジタル信号からアナログ信号に変換された後、変換されたアナログの音声波形は、スピーカアレイ107から放出される。
スピーカアレイ107は、単一のスピーカ素子または複数のスピーカ素子で構成される。また、各拠点の映像情報は、一般的なカメラ109で撮像され、HUB108を経由して他拠点に送信される。他拠点の映像情報は、ネットワーク経由でHUB108に送られ、更に中央演算装置102を経由して、各拠点に設置されたディスプレイ110上で表示される。なお、カメラ109を複数台設置したり、ディスプレイ110を複数台設置するような構成を、取っても良い。
<遠隔会議システムの全体構成>
図5は、本発明の遠隔会議システムの全体構成例を示す図である。遠隔会議システムは、N個の各拠点会議システム100−1、100−2、・・・100−N(拠点数をNとする)と、各拠点の音声や映像の流れを制御するMCU202と、各拠点の計算機では処理できないような、処理量の大きい計算を実行する会議情報計算サーバ201と、を有し、それぞれネットワークを介して接続されている。なお、当該システムは、当業者であれば既知のシステムであるため、詳細な説明は割愛する。また、会議情報計算サーバ201において、各拠点の会議システムで実行される残響除去に必要な一部の処理を実行するような構成を採っても良い。
<残響除去処理>
図6は、本発明の第1の実施形態において、中央演算装置102内で実行される処理(プログラム)のブロック構成を示す図である。マイクロホンアレイ105からA/D変換機104経由で得られたデジタル音声波形は、エコーキャンセラ301で処理され、音響エコー成分が除去される。ここで、音響エコー成分とは、スピーカアレイ107から出力された音声波形が各拠点の壁や天井などで反射した後、マイクロホンアレイ105に混入する成分を指す。エコーキャンセラ301は、音響エコー成分を除去するためにHUB108経由で得られるNLMS法など当業者であれば既知の構成により実現される。スピーカアレイ107から出力する信号として、遠端音声波形が用いられる。
エコーキャンセル後の音声波形は、残響除去302に送られ、残響成分が除去され、残響成分を除去した後の音声波形が出力される。音声波形は、時系列信号であるため、残響除去プログラムはA/D変換後の音声波形が一定量蓄積される毎に実行される。
<残響除去の効果>
図7は、残響除去302の効果(一例)を説明するための図である。マイク入力信号(図7の(i)参照)は、マイクロホンアレイ105を構成するある一つのマイクロホンの入力波形を時間−周波数領域に変換したスペクトログラムを示している。横軸が時間軸で、縦軸が周波数を示している。図7において、明るい時間−周波数成分ほど、音量が大きいことを意味する。
残響の無い信号(理想)(図7の(ii)参照)は、部屋の残響が存在しない直接音のみの波形を示している。マイク入力信号と残響の無い信号(理想)を比較すると、前者は、時間方向にインクがにじんだように成分が拡散している様子が見て取れる。本成分が、本発明で捉える残響成分である。
残響除去後の信号(図7の(iii)参照)は、本発明の残響除去302で処理した後の波形である。残響成分が除去され、残響の無い信号(理想)に近付いている様子が分かる。
<残響除去処理>
図8は、第1の実施形態による残響除去(処理)302(図6参照)の詳細なブロック構成を示す図である。
(i)フレーム化処理
図8に示されるように、エコーキャンセル後のデジタル音声波形は、フレーム化(処理)401に送られる。ここで、デジタル音声波形をq(m,t)と記載し、mを、マイクロホンアレイ105を構成するマイクロホンのインデックス、tをA/D変換処理のサンプルインデックスとする。
フレーム化401では、マイクロホン素子毎のデジタル音声波形が一定量蓄積されるたびに、フレーム単位の音声波形を出力する。一方、一定量蓄積されるまでは、何も出力されない。該一定量をフレームシフトと呼び、S(ポイント)と記載する。このようなフレームシフトを行うのは、音声は徐々に周波数成分が変化して伝わるので、その遷移を正確に捉えるためである。また、フレーム化401で出力される各マイクロホン素子毎の音声波形は、フレームシフトよりも大きい、Pポイント分の音声波形とする。
フレームの単位をフレームインデックスとよび、τと記載する。そして、M番目のマイクロホン素子におけるフレームインデックスτの出力信号は、t=Sτからt=Sτ+P−1までのポイントの音声波形となり、これを式(1)で定義する。
Figure 0005897343
図9は、フレーム形成、及びフレームシフトの処理を説明するための図である。フレームインデックスが1の場合、「フレーム1」は、データ取得開始直後Pポイント分のデータの音声波形で構成される。次のフレーム「フレーム2」は、フレーム1からSポイントずらしたポイントからPポイント分のデータの音声波形で構成される。
フレーム化401は、各マイクロホン素子のフレーム単位の音声波形k(m,τ)を出力する。
(ii)周波数分解処理
周波数分解(処理)402は、フーリエ変換処理など、同業者であれば一般的に使われている周波数変換処理により、各マイクロホン素子の音声波形を時間周波数領域信号に変換する。時間周波数領域信号に変換したm番目のフレーム単位の信号をXm(f,τ)と定義する。ここで、fは時間周波数領域における周波数インデックスとする。また、各マイクロホンの時間領域信号を時間周波数毎にまとめたベクトルをX(f,τ)=[X1(f,τ),X2(f,τ),..Xm(f,τ),…XM(f,τ)]と記載する。Mはマイクロホンの数を意味する。そして、各マイクロホンの周波数領域信号は、バッファリング(処理)403及びオンライン残響除去(処理)405に送られる。
(iii)バッファリング処理
バッファリング(処理)403は、時間領域信号を蓄積し、蓄積量が一定量に達した場合のみ、蓄積した信号を出力し、それ以外の場合は何も出力しない。各マイクロホンに蓄積する量は、Tフレーム(例えば、300フレーム)分とする。ある程度の統計量を用いないとパラメータ推定が適切に(安定的に)行えないため、Tフレーム分の音声データを蓄積してから残響パラメータ推定処理を実行するようにする。また、例えば、会議中に話者が切り替わると、今までオンライン残響除去405で使用していた残響除去パラメータは適切なものではなくなるため、再度パラメータ推定を実行し、当該パラメータを更新する。ただし、話者の切り替わりを音声波形のみから検出するのは困難であるため、本実施形態では、Tフレームごとに残響除去パラメータを更新するようにしている。別の言い方をすれば、本実施形態では、一度パラメータを推定すると、次のパラメータ推定の処理が終了するまで、現在のパラメータを用いて残響除去処理が実行される。つまり、本実施形態の残響除去処理では、常に最新の推定パラメータを用いている。なお、話者が切り替わったことが検知できれば、話者切り替わりのタイミングで残響除去パラメータを更新するようにしても良い。
(iv)残響除去パラメータ推定処理
残響除去パラメータ推定(処理)404は、バッファリング403が出力するTフレーム分のデータを基に、残響除去を行うためのパラメータを推定し、推定したパラメータを出力する。残響除去パラメータ推定(処理)404の更なる詳細については、図11を参照して後述する。
(v)オンライン残響除去処理
オンライン残響除去(処理)405は、推定された残響除去パラメータをリアルタイムで活用する。残響除去パラメータ推定404は、Tフレーム分のデータが溜まる毎に処理を実施するのに対して、オンライン残響除去405は、リアルタイムに残響除去を行うことが必要であるため、1フレーム分のデータ毎に処理を実施する。オンライン残響除去405は、残響が含まれた1フレーム分のデータ中の残響成分を除去した後の信号を出力する。
図10は、残響除去パラメータ推定404と、オンライン残響除去405の実行タイミングを説明するためのタイミングチャートである。残響除去パラメータ推定404では、上述のように、Tフレーム分のデータを得るたびにパラメータ推定処理が実行される。推定したパラメータがオンライン残響除去405で使われ始めるまでの各処理遅延フレーム長(Uフレーム)は、残響除去パラメータ推定404での処理量に依存し、異なる。
オンライン残響除去405は、各フレームの時間領域信号を、処理時点で得られている最新の残響除去パラメータを用いて残響除去実施する。
このような構成を採ることで、残響除去パラメータの推定が遅延した場合であても、残響除去をリアルタイムに実行することが可能となる。
(vi)時間領域変換処理
図8に戻り、時間領域変換(処理)406は、マイクロホン毎に1フレーム分の周波数領域信号に対して逆フーリエ変換などの周波数領域から時間領域への変換処理を実行することにより、時間領域信号に戻し、戻した時間領域信号を残響除去後の音声波形として出力する。この時間領域変換処理を実行することにより、各フレームにおける、(P−S)ポイント分の重複領域の音声パワーを調整することができる。
<残響除去推定パラメータ処理の詳細>
図11は、残響除去パラメータ推定(処理)404の詳細ブロック構成を示す図である。残響除去パラメータ推定404は、繰り返し計算により、残響除去性能を逐次的に高めるような構成になっている。つまり、本実施形態において、2種類のパラメータX及びY(ここでは、Xを非変動性残響除去パラメータ、Yを変動性残響除去パラメータとする)を求める場合、Xをまず固定して、Yを変化させてYの適正値を求める。次に、Xを変化させ、Xの適正値を求める。このように、図11は、XとYを交互に求めて収束させていく処理を表している。また、残響除去パラメータ推定404では、周波数インデックス毎に、独立して処理が行われる。したがって、本残響除去パラメータ推定処理を周波数毎に異なる中央演算装置(プロセッサ)で実行する構成も可能である。
(i)逆フィルタ算出処理
周波数毎に得られた、マイクロホン毎のTフレーム分のデータは、まず逆フィルタ算出(処理)701に送られ、残響除去のための線形フィルタが算出される。
図12は、逆フィルタ算出(処理)701の詳細な構成を示す図である。
フィルタ計算(処理)1403は、線形フィルタを式(2)によって算出する。残響成分は過去の信号に由来する成分であるため、式(2)は現在の信号と過去の信号、及び過去の信号同士がどの位の相関を有しているか算出するための演算式である。現在の信号と過去の信号との相関を求めるだけでは、過去の信号を現在の信号から除去しすぎてしまう可能性があるため、過剰な信号除去を回避すべく、過去の信号同士の相関をも考慮した演算となっている。なお、相関を算出するための演算は、Tフレーム分の音声信号に対して実行される。
Figure 0005897343
τ(i)を、Tフレーム分のデータのうち、i番目のデータのフレームインデックスとすると、式(2)におけるPは、重み付き共分散行列であり、重み付き共分散行列計算1402において式(3)によって定義される。式(3)は、過去の信号同士の相関を算出するための演算式である。ここで、Hは、行列またはベクトルの共役転置を表す演算子とする。
Figure 0005897343
さらに、式(2)におけるQは、重み付き相関行列計算1401において、式(4)で算出される。式(4)は、現在の信号と過去の信号との相関を算出するための演算式である。
Figure 0005897343
また、式(3)における「’」は、行列またはベクトルの転置を表す演算子を表している。なお、式(3)において、
Figure 0005897343
は、クロネッカ・デルタ積を表す演算子である。
さらに、式(3)において、Uf,τ(i)は、式(5)で定義される。
Figure 0005897343
D、L1を予め定めるパラメータとする。Dは残響成分のうち、初期残響に相当するフレーム長に設定することが望ましい。L1は、後部残響の継続フレーム長に対応するパラメータであり、後部残響が大きい環境では大きい値に設定することが望ましい。Rx,f,τ(i)は、線形残響成分重み算出707が出力する行列とする。線形残響成分重み算出(処理)707を行わない場合、もしくは、Tフレーム分のデータ毎に、初めて逆フィルタ算出701を実行する場合は、Rx,f,τ(i)を単位行列に設定する。式(2)において、「vec」は、行列をベクトルに変換するためのオペレータとする。行列Aをvecオペレータにより、ベクトルに変換する例を式(6)に示す。
Figure 0005897343
式(6)において、amnは行列Aのm行n列目の成分を意味する。ivecは、vecオペレータの逆演算子とし、ベクトルを行列に変換する。行列に変換する際には、行数の任意性があるが、式(2)においては、出力される行列の行数がマイク数に一致するような行列を出力するものとする。式(2)で求めたAは、式(7)により、ブロック毎に区分される。
Figure 0005897343
逆フィルタ算出701は、Aを出力して処理を終了する。
(ii)線形残響成分消去処理
線形残響成分消去(処理)702は、逆フィルタ算出701が出力するAfを利用して非変動残響成分を除去した信号gf,τ(i)を式(8)によって取得する。
Figure 0005897343
線形残響成分消去(処理)702は、定性的には、マイクチャンネル毎に、別々のFIRフィルタを動作させて、チャンネル毎の残響除去信号を得るような方式と捉えることができる。なお、図13に、マイクチャンネル毎に残響除去を行うような構成として捉えた概念が示されている。このように、本実施形態による線形残響除去処理は、Tフレーム分の時間周波数信号全てに対して実行される。そして、線形残響除去後の信号は、残留残響・直接音分離703に送られる。
(iii)残留残響・直接音分離処理
残留残響・直接音分離(処理)703は、線形残響除去後の信号を直接音と残響音(推定値)の2つに分離する。
図14は、残留残響・直接音分離703の詳細なブロック構成を示す図である。残留残響・直接音分離処理についても、Tフレーム分の時間周波数信号全てに対して実行する。
フレーム毎の残響除去信号の推定値は、直接音フィルタ係数推定1102で推定したフィルタ係数Wn,f,τ(i)を各フレームの時間周波数信号に重畳することで、式(9)のように算出される。
Figure 0005897343
ここで、nは音源のインデックスを意味する変数であり、1からNまでの整数とする。Nが音源数であり、複数の音源が存在する場合においても、Nを2以上とすることで、同時に複数音源の残響除去及び直接音の分離が可能となる。
図14において、直接音フィルタ推定(処理)1102は、式(10)を用いて、直接音を抽出するためのフィルタ(ミラーフィルタ)Wn,f,τ(i)を音源毎に算出する。式(10)は、直接音のパワーが全体のパワーに占める割合(直接音のパワー/(直接音のパワー+残留残響のパワー))を求めていることと実質的に等価である。
Figure 0005897343
ここで、Rs(n),f,τ(i)は、音源毎、及びフレーム毎の共分散行列であり、時間毎の目的音分散推定(処理)1104において、式(11)を用いて算出される。
Figure 0005897343
ここで、vs(n),f,τ(i)、Cs(n),fは、n番目の直接音成分に関するパラメータであり、繰り返し計算の中で、逐次的に更新されるパラメータである。vs(n),f,τ(i)の初期値は1であり、Cs(n),fは、ランダムな正定エルミート行列とする。
よって、残留残響成分は、Wrev,l,m,f,τ(i)を各フレームの時間周波数信号に重畳することで、式(12)のように算出される。
Figure 0005897343
ここで、lは、逆フィルタのタップインデックスに対応したインデックス、mはマイクインデックスとなっている。つまり、逆フィルタのタップインデックス及びマイクインデックス毎に残留残響成分が算出される。残留残響フィルタ係数推定1103では、Wrev,l,m,f,τ(i)を式(13)によって算出する。式(13)は、残留残響のパワーが全体のパワーに占める割合(残留残響のパワー/(直接音のパワー+残留残響のパワー))を求めていることと実質的に等価である。
Figure 0005897343
ここで、Rrev,l,m,f,τ(i)は、逆フィルタのタップインデックス毎、フレーム毎の共分散行列であって、時間毎の残留残響分散推定(処理)1105において、式(14)に従って算出される。
Figure 0005897343
f,τ(i)(m)は、周波数インデックスf、フレームインデックスτ(i)のm番目のマイクロホンの時間周波数領域信号である。Crev,l,m,fは各タップインデックス、マイクインデックス毎の残留残響成分の共分散行列であり、繰り返し計算の中で、逐次的に更新されるパラメータである。初期値は、ランダムな正定エルミート行列とする。
以上のように、分離された残留残響の推定値、及び直接音の推定値は、残留残響パラメータ推定(処理)704及び直接音パラメータ推定(処理)705に、それぞれ送られる。
(iv)残響パラメータ推定処理
残留残響パラメータ推定(処理)704は、変動性残響成分の統計量などのパラメータを推定する。図15は、残留残響パラメータ推定(処理)704の詳細を示す図である。
図15において、残留残響二次統計量算出(処理)1301は、残留残響・直接音分離703から送られてきた残留残響の推定値に対して式(15)を適用し、フレーム毎の残留残響成分の二次統計量(残留残響のパワー)を算出する。
Figure 0005897343
rev,l,m,f,τ(i)は、主軸算出(処理)1302に送られて、Crev,l,m,fが式(16)によって更新される。
Figure 0005897343
(v)直接音パラメータ推定処理
直接音パラメータ推定(処理)705は、直接音の統計量などのパラメータを推定する。図16は、直接音パラメータ推定705の詳細を示す図である。
図16において、直接音二次統計量算出(処理)1201は、残留残響・直接音分離703から送られてきた残留残響の推定値に対して式(17)を適用し、各音源のフレーム毎の直接音の共分散行列(各マイクに入力される直接音のパワー及び各マイクに信号が到達するまでの時間差成分)を算出する。
Figure 0005897343
時変パラメータ算出1202は、vs(n),f,τ(i)を式(18)に従って更新する。ここで、時変パラメータとは、N個のマイクに直接音が到達するまでの時間差を含む情報を意味する。
Figure 0005897343
更に、主軸算出1203は、Cs(n),fを式(19)に従って更新する。ここで主軸算出は、N個のマイクに直接音が到達するまでの時間差を考慮して、N次元(N個のマイク)におけるN次元多様体(楕円)の主軸(各マイクに入力される直接音のパワーのばらつき)を求めることを意味する。
Figure 0005897343
例えば、複数のマイクが会議室内に設置されている場合、ある話者が特定方向から話していると、各フレーム時間の各マイクに入力される音声信号のパワーは、話者に近いマイクほど大きくなる。主軸算出1203は、この各マイクに伝わる音声信号のパワーのばらつきを算出する処理であり、時変パラメータ算出1202は、各マイクに到達するまでの音声信号(直接音)の時間差を算出する処理である。より具体的に、2つのマイクm1及びm2が設置されている場合には、m1及びm2に伝わる音声信号のパワーをm1−m2平面でプロットしたときの、原点とそのプロットとを結ぶ直線の傾きが主軸を表し、その主軸長(原点から当該プロットまでの距離)が時変パラメータ(時間差)を表すことになる。
(vi)収束判定処理
推定した直接音のパラメータと残留残響のパラメータは、収束判定(処理)706に送られる。
収束判定706は、繰り返し計算を所定回数実行したかどうか、推定したパラメータの値と推定前の値との差が所定値以下か否かなど、一般的な繰り返し計算の場合と同様の尺度で、計算が収束したかどうか判定する。収束していれば、残響除去のパラメータを出力して、残響除去パラメータ推定404のブロックを終了する。
収束していなければ、処理は、線形残響成分重み算出702に移行する。
(vii)線形残響成分重み算出処理
直接音や残留残響(変動性残響成分)のパワーは、時間毎に変化するため、上述したように、図11の処理によって変数として学習している。従って、Tフレームの中で、どのフレームの直接音や残留残響のパワーが大きいか把握することができる(図3参照)。パワー(直接音や残留残響のパワーの和)が大きいほど変動成分が大きいことになるので、その時間帯は逆フィルタのパラメータを求めるための情報として使わない方が得策である。そこで、ここでは、例えば、パワー(直接音や残留残響のパワーの和)の大きさの逆数に比例するような重み係数を用いることとしている。
線形残響成分重み算出(処理)707は、Rx,f,τ(i)を式(20)に従って更新する。ここで、Nは音源数とする。
Figure 0005897343
そして、時間毎の重みは、逆フィルタ算出701にフィードバックされる。なお、演算初期段階では、各時間帯の各成分のパワーは推定できていないため、重み係数を1として演算を開始する。そして、図11の演算を繰り返すことによって重み係数を適切な値に収束させることができるようになっている。
<オンライン残響除去処理の詳細>
図17は、オンライン残響除去(処理)405の具体的な構成を示す図である。オンライン残響除去(処理)405は、逐次計算によりパラメータ推定精度を高める構成となっている。
(i)バッファリング処理
バッファリング(処理)801は、フレーム毎の時間周波数領域信号を揮発性メモリ103上に格納する。本実施形態では、格納される時間周波数領域信号は、Tフレーム内の信号のうち、最新の時間領域信号から数えてL1フレーム(例えば、5フレーム)分とする。
あるフレームの音声信号が得られたとき、そのフレームの残響成分を除去するには過去のフレームの信号が必要となる。そのため、バッファリング処理801によって所定フレーム分の音声信号を溜めて処理対象とする。
(ii)線形残響成分消去処理
線形残響成分消去(処理)702は、格納したL1フレーム分の時間領域信号を受け取り、残響成分を逆フィルタにより除去する。この際、適用される逆フィルタは、残響除去パラメータ推定(処理)404が出力した残響除去のパラメータに含まれるフィルタである。
(iii)残留残響直接音分離処理
残留残響直接音分離(処理)703は、線形残響成分消去(処理)702から残響成分除去信号を受け取り、直接音と残留残響成分に分離し、直接音を出力する。この際、vs(n),f,τの初期値は1とする。また、Cs(n),fは残響除去パラメータ推定(処理)404が出力した残響除去のパラメータに含まれる共分散行列である。
(iv)直接音分離推定処理
音声信号は時間毎にそのパワーが変化するため、時間毎の音声パワーの値を推定する必要がある。例えば、同じ話者が発生しても、時間毎に出力される音量は変化し、パワーが変化するため、リアルタイムに推定値を更新する必要があるからである。そこで、直接音分離推定(処理)802では、非線形パラメータの中の一部のパラメータ(直接音のパラメータ)のみをリアルタイムに推定する。そして、時間毎にリアルタイムに変化する部分には、推定処理を繰り返して推定値の精度を上げるようにする。なお、残留残響(変動性残響成分)のパラメータについては、時間変動が少ないと考えられるため、過去のフレームで学習したパラメータをそのまま用いれば良い。
図17において、直接音分散推定(処理)802は、残留除去パラメータ推定404内の直接音パラメータ推定705と同様の流れで、式(21)(式(18)と同じ式)に従って、処理対象のフレームにおけるvs(n),f,τ(i)を算出する。
Figure 0005897343
(v)収束判定処理
収束判定(処理)706は、推定した直接音分散などのパラメータを用いて、求めたパラメータの収束判定を行う。収束していると判断された場合には、収束判定(処理)706は、推定した直接音を出力して処理を終了する。それ以外の場合、収束判定(処理)706は、推定した直接音分散を基に再度、残留残響直接音分離(処理)703を実行する。
なお、収束したか否かの判定は、図11で説明した通りである。
(2)第2の実施形態
第2の実施形態は、残響除去(処理)302において、残響除去パラメータ推定(処理)404で求めた過去の残響除去パラメータを複数組持って置き、時間毎に最も良いフィルタを選択して用いる構成について開示している。
図18は、本発明の第2の実施形態による残響除去(処理)302の構成を示す図である。なお、本構成による残響除去302おいては、フレーム化(処理)401から残響除去パラメータ推定(処理)404までの構成及び処理と、時間領域変換(処理)406は、既に説明した図8の構成と同一である。
図18において、パラメータ書き込み制御(処理)903は、残響除去パラメータ推定404が出力する残響除去パラメータを、新しい残響除去パラメータとして登録するかどうかを切り替える処理である。残響除去パラメータDB901は、予め定める個数分の残響除去パラメータをDB内に記憶している。
パラメータ書き込み制御903が実行する処理としては、例えば残響除去パラメータDB901内に記憶している残響除去パラメータのうち、記憶された時間が最も古い残響除去パラメータを廃棄し、新しい残響除去パラメータを代わりに記憶するような構成や、残響除去時の尤度(likelihood:ここでは誤差と同義である)の値が最も小さい残響除去パラメータを廃棄し、新しい残響除去パラメータを代わりに記憶するような構成を採っても良い。また、廃棄する残響除去パラメータは、周波数毎に同じタイミングで記憶された残響除去パラメータを廃棄するような構成を取っても良い。
ここで、残響除去パラメータDB901に記憶されている残響除去パラメータの数をAとすると、オンライン残響除去(処理)405−1〜405−Aはそれぞれ、各残響除去パラメータにオンライン処理で残響成分を除去する処理を実行する。
最適残響除去音選択(処理)902は、各残響除去パラメータで除去された残響除去音の内、一つの残響除去音を選択する。例えば、各残響除去音の中で最も音量が小さい成分を選択するような構成や、尤度値が最も大きくなるような残響除去音を選択するような構成を取っても良い。また、音量成分や尤度値の計算は周波数方向に平均した値を用いても良い。
選択された残響除去音は、時間領域変換(処理)406に送られ、時間領域信号に変換されて出力される。例えば、低周波数領域の音声信号についてはパラメータ1を、高周波数領域の音声信号についてはパラメータ2を使って残響除去することが可能となる。これにより、周波数ごとに最適なフィルタを求めることができ、複数人が同時に発話するような場面であっても正確な残響除去処理を実行することが可能となる。また、第2の実施形態では、過去に求めた残響除去パラメータを蓄積しており、話者が切り替わっても過去に求めた最適なパラメータを使うことができるので、残響除去処理を迅速に実行することができるようになる。
(3)第3の実施形態
第3の実施形態は、残響除去とエコーキャンセラを同じフレームワーク内で実行し、残響除去とエコーキャンセラの双方の性能を向上させることが可能な構成に関するものである。残響除去とエコーキャンセラ消去は別々に動作させることもでき、この構成が単純である(図6参照)。しかし、エコーキャンセラのフィルタは常時形状が変化するため、エコーキャンセラで消去できなかった音声が残響除去に悪影響を及ぼす場合がある。そこで、残響除去及びエコーキャンセラをそれぞれ別々に最適化するのではなく、2つを同時に(互いに及ぼす影響を考慮して)最適化した方がシステム全体のパフォーマンスをより向上させることができる。これを実現するための構成が第3の実施形態に係るものである。
図19は、第3の実施形態による処理を実行する中央演算装置の内部構成を概略的に示す図である。
中央演算装置102内で実行されるプログラム内で、残響除去及びエコーキャンセラ2001は、デジタル音声波形(マイクロホン入力信号)及び遠端デジタル音声波形(参照信号)を受信し、それに対して残響除去処理及びエコーキャンセル処理を同時に実行し、残響除去・エコーキャンセル後の音声波形を出力する。
<残響除去及びエコーキャンセラの構成>
図20は、残響除去及びエコーキャンセラ2001の具体的な構成を示す図である。オフラインパラメータ推定(処理)1800は、デジタル音声波形(マイクロホン入力信号)と遠端デジタル音声波形(参照信号)を受信し、残響除去と音響エコーキャンセラ用のパラメータを推定する。オフラインパラメータ推定1800は、複数フレーム(Tフレーム分)時間領域信号が得られるごとに推定処理を実行する。オフラインパラメータ推定(処理)1800の詳細な構成及び処理については、図21を参照して後述する。
オンライン音響エコー・残響除去(処理)2301は、オフラインパラメータ推定1800によって推定されたパラメータを用いて、フレーム毎の時間周波数領域信号に対して残響除去及び音響エコー成分の除去を行う。オンライン音響エコー・残響除去(処理)2301の詳細な構成及び処理については、図24を参照して後述する。
時間領域変換406は、残響成分及び音響エコー成分が除去された時間周波数領域信号を時間領域信号に変換してそれを出力する。
<オフラインパラメータ推定処理の詳細>
図21は、オフラインパラメータ推定(処理)1800の具体的なブロック構成を示す図である。
マイクロホンアレイ105で得られた音声波形をデジタル信号に変換したデジタル音声波形及び遠端デジタル音声波形(参照信号と呼称)は共に、フレーム化(処理)401及び周波数分解(処理)402が施され、時間周波数領域信号に変換される。
スピーカアレイ107を構成するスピーカ素子のうちb番目の素子の参照信号の時間領域信号をXref,b(f,τ)と記載すると、Xm(f、τ)及びXref,b(f,τ)は共に、バッファリング403にて複数フレーム分(Tフレーム)バッファに蓄積される。ここで、Xref,b(f,τ)=[Xref,1(f,τ),・・・,Xref,B(f,τ)]とし、Bをスピーカ素子数とする。
そして、バッファリング(処理)403によってTフレーム分のデータが溜まる度に、残響・音響エコー消去用パラメータ推定(処理)1801が実行され、残響・音響エコー消去用パラメータが出力される。残響・音響エコー消去用パラメータ推定(処理)1801の詳細な構成及び処理については、図22を参照して後述する。
<残響・音響エコー消去用パラメータ推定処理の詳細>
図22は、残響・音響エコー消去用パラメータ推定(処理)1801の具体的なブロック構成を示す図である。線形残響成分消去702、残留残響パラメータ推定704、直接音パラメータ推定705、及び収束判定706については、上述した通りの構成及び処理であるので、詳細な説明は割愛する。
(i)逆フィルタ算出処理
逆フィルタ算出(処理)1908は、前述の方法(第1の実施形態)で残響(非変動成分)除去用の逆フィルタを求める。逆フィルタを算出する際に、マイク入力信号の代わりに、線形音響エコー消去フィルタ算出(処理)1901の結果を用いて線形音響エコーを消去した信号を使っても良い。この場合、逆フィルタ算出1908は、線形音響エコー消去(処理)1902の機能を有している。つまり、逆フィルタ算出1908は、線形音響エコー消去フィルタ算出1901が算出したエコー消去フィルタを使って、入力信号(複数フレームの周波数領域信号)に含まれる音響エコーを消去した後、残響除去用の逆フィルタを算出する。
(ii)線形音響エコー消去フィルタ算出処理
線形音響エコー消去フィルタ算出(処理)1901は、式(22)を用いて音響エコー消去用のフィルタを求める。
Figure 0005897343
この際、線形音響エコー消去フィルタ算出(処理)1901は、マイク入力信号の代わりに、前述の逆フィルタ算出1908により求めた逆フィルタを使って残響成分を除去した信号を用いて音響エコー消去用のフィルタを求めても良い。この場合、線形音響エコー消去フィルタ算出(処理)1901は、線形残響成分消去(処理)702の機能を有している。つまり、線形音響エコー消去フィルタ算出(処理)1901は、逆フィルタ算出1908で算出した残響除去用の逆フィルタを使って残響を除去した後に、線形音響エコー消去フィルタを算出する。
式(22)において、Jp,f、Ju,f,τ(i)及びJq,fはそれぞれ、式(23)、(24)及び(25)のように定義される。
Figure 0005897343
Figure 0005897343
Figure 0005897343
また、音響エコー消去用フィルタは、式(26)のように、タップ毎のフィルタに分割される。
Figure 0005897343
(iii)線形音響エコー消去処理
線形音響エコー消去(処理)1902は、線形音響エコー消去フィルタ算出1901で算出した音響エコー消去用のフィルタを使って音響エコー成分を消去した信号g2,f,τ(i)を式(27)に従って取得する。
Figure 0005897343
(iv)残留残響・残留音響エコー・直接音分離処理
残留残響・残留音響エコー・直接音分離(処理)1904は、残留残響及び直接音については残留残響・直接音分離703(第1の実施形態)と同一の方法で求める。なお、残留音響エコーについては、式(28)によって求めたで求めた残留音響エコー抽出用フィルタWref,l,b,f,τ(i)をg2,f,τ(i)に重畳することにより、残留音響エコー推定値yref,l,b,f,τ(i)を式(29)に従って算出する。
Figure 0005897343
Figure 0005897343
ここで、Rref,l,b,f,τ(i)は、式(30)によって求めることができる。
Figure 0005897343
式(30)において、Cref,l,b,fは、繰り返し計算により更新されるパラメータであり、初期値はランダムな正定エルミート行列とする。
(v)残留音響エコーパラメータ推定処理
残留音響エコーパラメータ推定(処理)1906は、Cref,l,b,fを残留残響パラメータ推定(処理)704(図11:第1の実施形態)と同一の処理により更新する。詳細な説明については上述の通りであるためここでは省略する。
(vi)線形残響・エコー成分重み算出処理
線形残響・エコー成分重み算出(処理)1907は、式(31)により、Rx,f,τ(i)を算出する。
Figure 0005897343
そして、図23に示されるように、Rx,f,τ(i)に対して影響を与える変動性残響成分だけでなく変動性音響エコー成分が大きい場合に、それらの重みが小さくなるように高精度に線形フィルタを求めることができる。
<オンライン音響エコー・残響除去処理>
図24は、オンライン(リアルタイム)音響エコー・残響除去(処理)2301の具体的な構成を示す図である。
デジタル音声波形(マイク入力音声信号)及び遠端デジタル音声波形(参照信号)は、フレーム化(処理)401及び周波数分解(処理)402が施され、更にバッファリング(処理)403によりバッファリングされる。
バッファリングされた音声波形は、線形音響エコー・残響除去(処理)1902に送られる。
線形音響エコー・残響除去(処理)1902は、受信した音声波形の各フレームのデータに対して非変動性の残響と音響エコー成分を除去する。
その後、残留残響・残留音響エコー・直接音分離(処理)1904は、直接音のみを抽出する。
直接音分散推定(処理)802は、残留残響・残留音響エコー・直接音分離(処理)1904から抽出された直接音を受信し、vs(n),f,τを算出する。当該処理の詳細は、第1の実施形態で説明した通りであるので説明を省略する。
その後、収束判定(処理)706は、分散推定が収束したかどうか判定し、収束していれば推定した直接音成分を出力する。それ以外の場合、推定した直接音分散値を残留残響・残留音響エコー・直接音分離1904に戻し、再度直接音推定処理が実行される。当該処理の詳細も、第1の実施形態で説明した通りである。
(4)第4の実施形態
第4の実施形態は、残響除去の中で、特に計算量が大きい残響除去パラメータを会議情報計算サーバ201で実行し、それ以外のリアルタイムの残響除去処理を拠点毎会議システム100で実行するような分散構成に関する。
図25は、第4の実施形態による全体のシステム概略構成を示す図である。図25において、フレーム化(処理)401、周波数分解(処理)402、及びバッファリング(処理)403は拠点毎会議システム100で実行される。そして、Tフレーム分時間周波数領域信号が蓄積された後、拠点毎会議システム100は、その時間周波数領域信号を会議情報計算サーバ201に送信する。
会議情報計算サーバ201は、拠点毎会議システム100から送られてきたTフレーム分時間周波数領域信号を受信し、その信号に対して残響除去パラメータ推定404を実行する。そして、会議情報計算サーバ201は、推定した残響除去パラメータをサーバから拠点毎会議システム100に送信する。
拠点毎会議システム100は、フレーム毎の時間周波領域信号を得る毎に、オンライン残響除去405、及び時間領域変換406を実行し、残響除去音(残響除去された直接音)を取得する。
なお、会議情報計算サーバ201は、残響除去パラメータ推定(処理)404の構成の代わりに、第3の実施形態で示した残響・音響エコー消去用パラメータ推定(処理)1801の構成を含むようにしても良い。この場合、拠点毎会議システム100は、オンライン残響除去(処理)405の構成の代わりに、第3の実施形態で示したオンライン音響エコー・残響除去(処理)2301の構成を含むことになる。
(5)まとめ
(i)本発明の第1の実施形態の残響除去パラメータ推定装置においては、揮発性メモリ等のメモリに残響除去パラメータを格納し、処理に従って逐次更新していく。メモリには、少なくとも、音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータと、音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータと、が格納される。そして、中央処理装置等のプロセッサが、音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定及び更新し、当該残響除去パラメータを、線形フィルタのパラメータ及び非線形フィルタのパラメータとしてメモリに格納する。より具体的には、プロセッサ(逆フィルタ算出701及び線形残響成分消去702)は、メモリから線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成する。次に、プロセッサ(残留残響・直接音分離703)は、メモリから非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成する。続いて、プロセッサ(残留残響パラメータ推定704及び直接音パラメータ推定705)は、変動性残響成分及び直接音の推定値に基づいて主軸演算(図15及び16参照)を実行し、非線形フィルタのパラメータを構成する変動残響成分及び直接音成分のパラメータを更新する。そして、プロセッサ(線形残響成分重み算出707及び逆フィルタ算出701)は、更新された変動性残響成分及び直接音成分のパラメータに基づいて、線形フィルタのパラメータを逐次的に更新する。つまり、非変動性残響成分を除去するための線形フィルタのパラメータをある値に固定して、変動性残響成分を除去するための非線形フィルタのパラメータを推定し、得られた推定値に照らして再度線形フィルタのパラメータを更新するようにして、推定パラメータが収束するまでパラメータ推定処理を繰り返す。このようにすることにより、精度良く残響除去するための線形及び非線形フィルタのパラメータ(残響除去パラメータ)を推定することができる。そして、このパラメータを用いて残響除去処理を実行することにより、マイクロホンからの音声入力信号の直接音成分を歪ませることなく、残響成分を精度良く除去することができるようになる。
また、プロセッサ(線形残響成分重み算出707)は、更新された変動性残響成分及び直接音成分のパラメータによって、音声入力信号において変動残響成分と直接音成分の和が大きい時間帯を反映して線形フィルタの重み係数を決定(図3参照)し、線形フィルタのパラメータを更新する。このように、線形フィルタの伝達関数が揺らぐ可能性のある時間帯におけるフィルタ係数の重みを小さくすることにより、非変動性残響成分が大きく存在する時間帯の比重を大きくして信号を抽出することができるため、伝達関数の推定精度が落ちる影響を軽減することが可能となる。
本発明の実施形態では、音声入力信号として、複数のマイクロホンからの音声信号を想定している。この場合、プロセッサ(残留残響・直接音分離703)は、複数のマイクロホンのそれぞれからの音声信号に含まれる直接音成分の推定値及び変動性残響成分の推定値を生成する。そして、プロセッサ(残留残響パラメータ推定704及び直接音パラメータ推定705)は、それぞれのマイクロホンからの直接音成分及び変動性残響成分の推定値の二次統計量を抽出し、二次統計量から、複数のマイクの音声信号の直接音成分及び変動性残響成分のそれぞれのパワーのばらつきを表す情報を、変動性残響成分及び直接音成分のパラメータとする。このようにすることにより、音源(話者や、壁及び人物等の反射体における音声反射面(音源から発せられた音が反射する箇所))から各マイクロホンまでの距離が異なる場合に、各マイクロホンに入力される音声のパワーのばらつきを考慮し、残響を精度良く除去できるパラメータを推定することが可能となる。
第1の実施形態は、さらに、上述した残響除去パラメータ推定装置を有する残響除去装置を提案している。当該装置(図8及び17参照)では、プロセッサ(中央処理装置)は、残響除去パラメータ推定装置から残響除去パラメータを取得して、音声入力信号から非変動性残響成分及び変動性残響成分を除去し、前記直接音成分を出力する。より具体的には、プロセッサ(線形残響成分消去702)は、線形フィルタによって音声入力信号から非変動性残響成分を除去して線形残響除去信号を推定する。次に、プロセッサ(残留残響・直接音分離703)は、非線形フィルタによって線形残響除去信号から変動性残響成分と直接音成分を分離する。そして、プロセッサ(直接音分散推定802及び収束判定706)は、直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した直接音成分を出力する。このようにすることにより、リアルタイムに残響を精度良く除去することができるようになる。また、直接音分散推定(時間毎に変化する音声パワーに応じて直接音を更新する処理)を実行しているので、時間経過に伴って起こる音声パワーの変化に追従して歪みのない直接音を抽出することができるようになる。
(ii)第2の実施形態は、別の残響除去装置を提案している。当該装置(図18)は、残響除去パラメータ推定装置によって得られた残響除去パラメータを格納する残響除去パラメータデータベースを有している。このデータベースには、過去に推定して得られた残響除去パラメータの全て或いは一部が格納されている。当該装置では、プロセッサ(設置されたマイクロホンに対応するオンライン残響除去450−1乃至405−A)が、残響除去パラメータデータベースから対応する複数の残響除去パラメータを取得し、当該複数の残響除去パラメータのそれぞれを用いて音声入力信号から非変動性残響成分及び変動性残響成分を除去し、複数の直接音成分を生成し、当該複数の直接音成分のうち最適な直接音成分を出力する。このように、推定済のパラメータを用いて残響除去の処理を実行することができるので、残響除去処理を迅速に行うことができ、よってリアルタイム処理に資することになる。
(iii)第3の実施形態では、メモリに、音声入力信号に含まれる非変動性残響成分を除去するための線形残響フィルタのパラメータと、音声入力信号に含まれる非変動性エコー成分を除去するための線形エコー消去フィルタのパラメータと、音声入力信号に含まれる変動性残響成分及び変動性エコー成分を除去するための非線形フィルタのパラメータと、を格納している。また、プロセッサ(中央処理装置)は、音声入力信号に含まれる残響成分及びエコー成分を除去して直接音を取得するための残響・エコー除去パラメータを推定し、当該残響・エコー除去パラメータを、線形残響フィルタのパラメータ、線形エコー消去フィルタのパラメータ、及び非線形フィルタのパラメータとしてメモリに格納する。より具体的に、プロセッサ(逆フィルタ算出1908及び線形音響エコー消去フィルタ算出1901)は、メモリから線形残響フィルタのパラメータのパラメータと、線形エコー消去フィルタのパラメータを読み出し、線形残響フィルタ及び線形エコー消去フィルタによって音声入力信号に含まれる非変動性残響成分及び非変動性エコー成分を除去して線形残響・エコー除去信号の推定値を生成する。この場合、逆フィルタ算出1908と線形音響エコー消去フィルタ算出1901は、互いの処理結果を利用してフィルタを算出する。つまり、線形音響エコー消去フィルタ算出1901は、音声入力信号から非変動残響成分を除去した信号を用いて線形音響エコー消去フィルタを算出する。一方、逆フィルタ算出1908は、音声入力信号から非変動音響エコー成分を除去した信号を用いて逆フィルタを算出する。次に、プロセッサ(残留残響・残留音響エコー・直接音分離1904)は、非線形フィルタを用いて、線形残響・エコー除去信号の推定値に含まれる変動性残響成分、変動性エコー成分、及び直接音成分の推定値を生成する。さらに、プロセッサ(残留残響パラメータ推定704、直接音パラメータ推定705、及び残留音響エコーパラメータ推定1906)は、変動性残響成分、変動性エコー成分、及び直接音の推定値に基づいて、非線形フィルタのパラメータを構成する変動残響成分、変動性エコー成分、及び直接音成分のパラメータを更新する。そして、プロセッサ(線形残響・エコー成分重み算出1907、線形音響エコー消去フィルタ算出1901、及び逆フィルタ算出1908)は、更新された変動性残響成分、変動性エコー成分、及び直接音成分のパラメータに基づいて、線形残響フィルタ及び線形エコー消去フィルタのパラメータを逐次的に更新する。このようにすることに残響除去とエコーキャンセルを同じフレームワーク内で実行することにより、双方の処理精度を向上させることが可能なパラメータを推定することができるようになる。
(iv)第4の実施形態は、処理に負荷が掛かる残響パラメータ推定処理を、会議システムの計算機サーバにおいて実行する構成(図25)について提案している。このようにすることにより、それぞれの拠点における会議システムの処理負荷を軽減することができるため、会議システムのリアルタイム性を担保することができると共に、当該会議システムを構築するためのコストを劇的に削減することができるようになる。
(v)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
100…拠点毎会議システム、101…不揮発性メモリ、102…中央演算装置、103…揮発性メモリ、104…A/D変換機、105…マイクロホンアレイ、106…D/A変換機、107…スピーカアレイ、108…HUB、109…カメラ、110…ディスプレイ、201…会議情報計算サーバ、202…MCU、301…エコーキャンセラ、302…残響除去、401…フレーム化、402…周波数分解、403…バッファリング、404…残響除去パラメータ推定、405…オンライン残響除去、406…時間領域変換、701…逆フィルタ算出、702…線形残響成分消去、703…残留残響・直接音分離、704…残留残響パラメータ推定、705…直接音パラメータ推定、706…収束判定、707…線形残響成分重み算出、801…バッファリング、802…直接音分散推定、901…残響除去パラメータDB、902…最適残響除去音選択、903…パラメータ書き込み制御、1102…直接音フィルタ係数推定、1103…残留残響フィルタ係数推定、1104…時間毎の目的音分散推定、1105…時間毎の残留残響分散推定、1201…直接音二次統計量算出、1202…時変パラメータ算出、1203…主軸算出、1301…残留残響二次統計量算出、1302…主軸算出、1401…重み付き相関行列計算、1402…重み付き共分散行列計算、1403…フィルタ計算、1800…オフラインパラメータ推定、1801…残響・音響エコー消去用パラメータ推定、1901…線形音響エコー消去フィルタ算出、1902…線形音響エコー消去、1904…残留残響・残留音響エコー・直接音分離、1906…残留音響エコーパラメータ推定、1907…線形残響・エコー成分重み算出、1908…逆フィルタ算出、2001…残響除去及びエコーキャンセラ、2301…オンライン音響エコー・残響除去

Claims (12)

  1. 音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータと、前記音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータと、を格納するメモリと、
    前記音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定し、当該残響除去パラメータを、前記線形フィルタのパラメータ及び前記非線形フィルタのパラメータとして前記メモリに格納するプロセッサと、を有し、
    前記プロセッサは、
    前記メモリから前記線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成し、
    前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成し、
    前記変動性残響成分及び前記直接音の推定値に基づいて、前記非線形フィルタのパラメータを構成する前記変動残響成分及び前記直接音成分のパラメータを更新し、
    前記更新された変動性残響成分及び直接音成分のパラメータに基づいて、前記線形フィルタのパラメータを逐次的に更新する、ことを特徴とする残響除去パラメータ推定装置。
  2. 請求項1において、
    前記プロセッサは、前記更新された変動性残響成分及び直接音成分のパラメータによって、前記音声入力信号において前記変動残響成分と前記直接音成分の和が大きい時間帯を反映して前記線形フィルタの重み係数を決定し、前記線形フィルタのパラメータを更新することを特徴とする残響除去パラメータ推定装置。
  3. 請求項1において、
    前記音声入力信号は、複数のマイクからの音声信号を含み、
    前記プロセッサは、
    前記複数のマイクのそれぞれからの音声信号に含まれる前記直接音成分の推定値及び前記変動性残響成分の推定値を生成し、
    前記それぞれのマイクからの前記直接音成分及び前記変動性残響成分の推定値の二次統計量を抽出し、
    前記二次統計量から、前記複数のマイクの音声信号の前記直接音成分及び前記変動性残響成分のそれぞれのパワーのばらつきを表す情報を、前記変動性残響成分及び前記直接音成分のパラメータとする、ことを特徴とする残響除去パラメータ推定装置。
  4. 請求項1において、
    前記プロセッサは、前記更新された変動性残響成分及び直接音成分のパラメータの収束判定を実行し、収束していると判断した場合に、前記残響除去パラメータとして、前記線形フィルタ及び前記非線形フィルタのパラメータを出力し、未収束であると判断した場合には、前記線形フィルタのパラメータの逐次的更新処理を継続する、ことを特徴とする残響除去パラメータ推定装置。
  5. 音声入力信号に含まれる非変動性残響成分を除去するための線形残響フィルタのパラメータと、前記音声入力信号に含まれる非変動性エコー成分を除去するための線形エコー消去フィルタのパラメータと、前記音声入力信号に含まれる変動性残響成分及び変動性エコー成分を除去するための非線形フィルタのパラメータと、を格納するメモリと、
    前記音声入力信号に含まれる残響成分及びエコー成分を除去して直接音を取得するための残響・エコー除去パラメータを推定し、当該残響・エコー除去パラメータを、前記線形残響フィルタのパラメータ、前記線形エコー消去フィルタのパラメータ、及び前記非線形フィルタのパラメータとして前記メモリに格納するプロセッサと、を有し、
    前記プロセッサは、
    前記メモリから前記線形残響フィルタのパラメータと、線形エコー消去フィルタのパラメータを読み出し、前記線形残響フィルタ及び前記線形エコー消去フィルタによって音声入力信号に含まれる非変動性残響成分及び非変動性エコー成分を除去して線形残響・エコー除去信号の推定値を生成し、
    前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響・エコー除去信号の推定値に含まれる変動性残響成分、変動性エコー成分、及び直接音成分の推定値を生成し、
    前記変動性残響成分、前記変動性エコー成分、及び前記直接音の推定値に基づいて、
    前記非線形フィルタのパラメータを構成する前記変動残響成分、前記変動性エコー成分、及び前記直接音成分のパラメータを更新し、
    前記更新された変動性残響成分、変動性エコー成分、及び直接音成分のパラメータに基づいて、前記線形残響フィルタ及び前記線形エコー消去フィルタのパラメータを逐次的に更新する、ことを特徴とする残響・エコー除去パラメータ推定装置。
  6. 請求項5において、
    前記プロセッサは、前記非変動性残響成分を除去した後の音声信号に対して適用する前記線形エコー消去フィルタのパラメータを更新するとともに、前記非変動性エコー成分を除去した後の音声信号に対して適用する前記線形残響除去フィルタのパラメータを更新することを特徴とする残響・エコー除去パラメータ推定装置。
  7. プロセッサによって、音声入力信号に含まれる残響成分を除去して直接音を取得するための残響除去パラメータを推定し、当該残響除去パラメータを、音声入力信号に含まれる非変動性残響成分を除去するための線形フィルタのパラメータ、及び前記音声入力信号に含まれる変動性残響成分を除去するための非線形フィルタのパラメータとして、出力する残響除去パラメータ推定方法であって、
    前記プロセッサが、メモリから前記線形フィルタのパラメータを読み出し、当該線形フィルタによって音声入力信号に含まれる非変動性残響成分を除去して線形残響除去信号の推定値を生成するステップと、
    前記プロセッサが、前記メモリから前記非線形フィルタのパラメータを読み出し、当該非線形フィルタを用いて、前記線形残響除去信号の推定値に含まれる変動性残響成分及び直接音成分の推定値を生成するステップと、
    前記プロセッサが、前記変動性残響成分及び前記直接音の推定値に基づいて、前記非線形フィルタのパラメータを構成する前記変動残響成分及び前記直接音成分のパラメータを更新するステップと、
    前記プロセッサが、前記更新された変動性残響成分及び直接音成分のパラメータに基づいて、前記線形フィルタのパラメータを逐次的に更新するステップと、
    を有することを特徴とする残響除去パラメータ推定方法。
  8. 音声入力信号に含まれる残響成分を除去する残響除去装置であって、
    請求項1に記載の残響除去パラメータ推定装置と、
    前記残響除去パラメータ推定装置から前記残響除去パラメータを取得して、前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を除去し、前記直接音成分を出力するプロセッサと、を有し、
    前記プロセッサは、
    前記線形フィルタによって前記音声入力信号から前記非変動性残響成分を除去して線形残響除去信号を推定し、
    前記非線形フィルタによって前記線形残響除去信号から前記変動性残響成分と前記直接音成分を分離し、
    前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を出力する、ことを特徴とする残響除去装置。
  9. 音声入力信号に含まれる残響成分を除去する残響除去装置であって、
    請求項1に記載の残響除去パラメータ推定装置と、
    前記残響除去パラメータ推定装置によって得られた前記残響除去パラメータであって、過去の残響除去パラメータを格納する残響除去パラメータデータベースと、
    前記残響除去パラメータデータベースから複数の残響除去パラメータを取得し、当該複数の残響除去パラメータのそれぞれを用いて前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を除去し、複数の直接音成分を生成し、当該複数の直接音成分のうち最適な直接音成分を出力するプロセッサと、
    を有することを特徴とする残響除去装置。
  10. 請求項9において、
    前記プロセッサは、前記複数の残響除去パラメータのそれぞれを用いて、
    前記線形フィルタによって前記音声入力信号から前記非変動性残響成分を除去して線形残響除去信号を推定し、
    前記非線形フィルタによって前記線形残響除去信号から前記変動性残響成分と前記直接音成分を分離し、
    前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を、前記複数の残響除去パラメータに対応して出力する、ことを特徴とする残響除去装置。
  11. 音声入力信号に含まれる残響成分を除去する残響・エコー除去装置であって、
    請求項5に記載の残響・エコー除去パラメータ推定装置と、
    前記残響・エコー除去パラメータ推定装置から前記残響・エコー除去パラメータを取得して、前記音声入力信号から前記非変動性及び前記変動性残響成分、並びに非変動性及び変動性エコー成分を除去し、前記直接音成分を出力するプロセッサと、を有し、
    前記プロセッサは、
    前記線形残響フィルタ及び前記線形エコー消去フィルタによって前記音声入力信号から前記非変動性残響成分及び前記非変動性エコー成分を除去して線形残響・エコー除去信号を推定し、
    前記非線形フィルタによって前記線形残響・エコー除去信号から前記変動性残響及びエコー成分と前記直接音成分を分離し、
    前記直接音成分における時間毎のパワーの変化を学習し、当該パワーの変化が収束した前記直接音成分を出力する、ことを特徴とする残響・エコー除去装置。
  12. 各拠点に配置された複数の拠点毎会議システムと、当該複数の拠点毎会議システムを管理する計算サーバと、を有するオンライン会議システムであって、
    前記計算サーバは、請求項1に記載の残響除去パラメータ推定装置を有し、それぞれの拠点毎会議システムから受信する音声入力信号を前記残響除去パラメータ推定装置によって処理し、それぞれの拠点毎会議システムに対応した残響除去パラメータを算出し、当該算残響パラメータを該当する拠点毎会議システムに送信し、
    前記複数の拠点毎会議システムのそれぞれは、音声入力信号を前記計算サーバに送信し、前記計算サーバから前記送信した音声入力信号に対応する残響除去パラメータを受信し、当該受信した残響パラメータを用いて、前記音声入力信号から前記非変動性残響成分及び前記変動性残響成分を分離して前記直接音成分をリアルタイムに出力する、オンライン会議システム。
JP2012033159A 2012-02-17 2012-02-17 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム Expired - Fee Related JP5897343B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012033159A JP5897343B2 (ja) 2012-02-17 2012-02-17 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
CN201380009596.5A CN104115223B (zh) 2012-02-17 2013-02-15 混响去除参数估计装置以及方法、混响/回波去除参数估计装置、混响去除装置、混响/回波去除装置、以及混响去除装置在线会议系统
PCT/JP2013/053645 WO2013122183A1 (ja) 2012-02-17 2013-02-15 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
US14/379,144 US9288576B2 (en) 2012-02-17 2013-02-15 Dereverberation parameter estimation device and method, dereverberation/echo-cancellation parameter estimation device, dereverberation device, dereverberation/echo-cancellation device, and dereverberation device online conferencing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012033159A JP5897343B2 (ja) 2012-02-17 2012-02-17 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム

Publications (2)

Publication Number Publication Date
JP2013171076A JP2013171076A (ja) 2013-09-02
JP5897343B2 true JP5897343B2 (ja) 2016-03-30

Family

ID=48984292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012033159A Expired - Fee Related JP5897343B2 (ja) 2012-02-17 2012-02-17 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム

Country Status (4)

Country Link
US (1) US9288576B2 (ja)
JP (1) JP5897343B2 (ja)
CN (1) CN104115223B (ja)
WO (1) WO2013122183A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
JP6349899B2 (ja) 2014-04-14 2018-07-04 ヤマハ株式会社 放収音装置
CN103956170B (zh) * 2014-04-21 2016-12-07 华为技术有限公司 一种消除混响的方法、装置和设备
US9607627B2 (en) * 2015-02-05 2017-03-28 Adobe Systems Incorporated Sound enhancement through deverberation
CN106448691B (zh) * 2015-08-10 2020-12-11 深圳市潮流网络技术有限公司 一种用于扩音通信系统的语音增强方法
CN106485192B (zh) * 2015-09-02 2019-12-06 富士通株式会社 用于图像识别的神经网络的训练方法和装置
WO2017063693A1 (en) * 2015-10-14 2017-04-20 Huawei Technologies Co., Ltd. Adaptive reverberation cancellation system
US9813811B1 (en) 2016-06-01 2017-11-07 Cisco Technology, Inc. Soundfield decomposition, reverberation reduction, and audio mixing of sub-soundfields at a video conference endpoint
JP7175441B2 (ja) * 2016-12-23 2022-11-21 シナプティクス インコーポレイテッド 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム
WO2018119467A1 (en) * 2016-12-23 2018-06-28 Synaptics Incorporated Multiple input multiple output (mimo) audio signal processing for speech de-reverberation
US20180218747A1 (en) * 2017-01-28 2018-08-02 Bose Corporation Audio Device Filter Modification
US10389885B2 (en) 2017-02-01 2019-08-20 Cisco Technology, Inc. Full-duplex adaptive echo cancellation in a conference endpoint
US11373667B2 (en) * 2017-04-19 2022-06-28 Synaptics Incorporated Real-time single-channel speech enhancement in noisy and time-varying environments
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
EP3460795A1 (en) 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
US10504529B2 (en) 2017-11-09 2019-12-10 Cisco Technology, Inc. Binaural audio encoding/decoding and rendering for a headset
CN110111804B (zh) * 2018-02-01 2021-03-19 南京大学 基于rls算法的自适应去混响方法
US10448154B1 (en) 2018-08-31 2019-10-15 International Business Machines Corporation Enhancing voice quality for online meetings
CN109712637B (zh) * 2018-12-21 2020-09-22 珠海慧联科技有限公司 一种混响抑制系统及方法
CN111933170B (zh) * 2020-07-20 2024-03-29 歌尔科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN112017680A (zh) * 2020-08-26 2020-12-01 西北工业大学 一种去混响方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62130029A (ja) * 1985-12-02 1987-06-12 Matsushita Electric Ind Co Ltd 反響消去装置
JPS6319924A (ja) * 1986-07-14 1988-01-27 Matsushita Electric Ind Co Ltd エコ−消去装置
US6044068A (en) * 1996-10-01 2000-03-28 Telefonaktiebolaget Lm Ericsson Silence-improved echo canceller
US7215765B2 (en) * 2002-06-24 2007-05-08 Freescale Semiconductor, Inc. Method and apparatus for pure delay estimation in a communication system
JP2007522705A (ja) * 2004-01-07 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声歪み圧縮システム及びそのフィルター装置
JP2006157498A (ja) * 2004-11-30 2006-06-15 Matsushita Electric Ind Co Ltd 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法
US7539300B1 (en) * 2005-06-11 2009-05-26 Mindspeed Technologies, Inc. Echo canceller with enhanced infinite and finite ERL detection
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
DE102008039330A1 (de) * 2008-01-31 2009-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung

Also Published As

Publication number Publication date
CN104115223A (zh) 2014-10-22
CN104115223B (zh) 2017-02-22
US9288576B2 (en) 2016-03-15
US20150016622A1 (en) 2015-01-15
JP2013171076A (ja) 2013-09-02
WO2013122183A1 (ja) 2013-08-22

Similar Documents

Publication Publication Date Title
JP5897343B2 (ja) 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
JP5550456B2 (ja) 残響抑圧装置、及び残響抑圧方法
JP5451876B2 (ja) 音響マルチチャネル相殺
JP5102371B2 (ja) エコー抑制フィルタの制御情報を演算する装置および方法、並びに、ディレイ値を演算する装置および方法
US8391472B2 (en) Acoustic echo cancellation solution for video conferencing
US9966086B1 (en) Signal rate synchronization for remote acoustic echo cancellation
JP4104626B2 (ja) 収音方法及び収音装置
WO2010053129A1 (ja) 放収音装置及び放収音方法
JP5382745B2 (ja) 雑音除去装置及び雑音除去方法
CN105165026A (zh) 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法
JP2011232691A (ja) 残響抑圧装置、及び残響抑圧方法
JP2012512413A (ja) パーティクルフィルタリングを利用した音源位置の推定
JP2020515106A (ja) ビームフォーミングを使用するオーディオキャプチャ
JP5235226B2 (ja) エコー消去装置及びそのプログラム
JP2011203414A (ja) 雑音及び残響抑圧装置及びその方法
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
KR20110021306A (ko) 마이크로폰의 신호 보상 장치 및 그 방법
WO2023051622A1 (zh) 提升远场语音交互性能的方法和远场语音交互系统
JP5937451B2 (ja) エコー消去装置、エコー消去方法及びプログラム
JP3514714B2 (ja) 収音方法およびその装置
KR102045953B1 (ko) 칼만필터 기반의 다채널 입출력 음향학적 반향 제거 방법
JP2002223182A (ja) 反響消去方法、その装置、そのプログラム及びその記録媒体
CN113160842A (zh) 一种基于mclp的语音去混响方法及系统
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム
CN110246516A (zh) 一种语音通信中小空间回声信号的处理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160302

R151 Written notification of patent or utility model registration

Ref document number: 5897343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees