JP5373473B2

JP5373473B2 - 音声抽出装置

Info

Publication number: JP5373473B2
Application number: JP2009114631A
Authority: JP
Inventors: 琢磨鈴木; 克昌佐藤; 栄治三澤; 友紀勝俣
Original assignee: AMENITY RESEARCH INSTITUTE CO., LTD.
Current assignee: AMENITY RESEARCH INSTITUTE CO., LTD.
Priority date: 2009-05-11
Filing date: 2009-05-11
Publication date: 2013-12-18
Anticipated expiration: 2029-05-11
Also published as: JP2010263567A

Description

本発明は、音響エコーやハウリングを抑制、防止して音声の抽出を行う音声抽出装置に関する。

スピーカとマイクロフォンを用いて通話が行われる、会議システムなどのハンズフリーフォンシステム（図７）では、通常話者Ａの送話音声信号は、話者Ｂ側のスピーカから再生されると同時に話者Ｂのマイクロフォンで受音され、このため、話者Ａ側のスピーカから再生される。
これにより、話者Ａ側では、自分の発声した音声が自分の側のスピーカから出力されることになり、これがエコーとして聞こえてしまう。

また、話者Ａ側のスピーカから再生されたエコーが、話者Ａ側のマイクで受音されることにより、信号の閉ループが形成され、ゲインが１を超えるとハウリングが発生してしまう。

このような、音響エコーやハウリングを、適応信号処理に基づき抑制、防止するための関連技術として、音響エコーキャンセラを含む拡声通話システム（特許文献１）やハウリングキャンセラを含む拡声装置（特許文献２）が開示されている。
また、以下に示すように、「音響システムとディジタル処理」（大賀寿郎山崎芳男金田豊共著）で、関連技術が開示されている。

この音響エコーキャンセラでは、例えば、図８（話者Ｂ側）に示すように、相手側（話者Ａ）の声である受話信号ｘ(ｋ)が受話スピーカから再生され、室内音響伝達系を経て、音響エコーｙ’(ｋ)として送話マイクロフォンに受音される。
ここで、室内の音響インパルス応答をｈ’(ｋ)で表すと、ｙ’(ｋ)はｘ(ｋ)とｈ’(ｋ)を畳み込んだ信号となる。

音響エコーキャンセラは、室内音響伝達系のインパルス応答の推定値ｈ(ｋ)を求めて、それを受話信号ｘ(ｋ)と畳み込んで推定エコー信号ｙ(ｋ)を合成する。
合成したｙ(ｋ)をマイクロフォンで受音した信号から減算することで音響エコーの消去を行う。

尚、室内の音響インパルス応答ｈ’(ｋ)は話者やマイクロフォンの位置の移動など周囲環境の変化に伴って変化するため、ｈ’(ｋ)の推定には、通常適応フィルタが使用される。
また、この適応フィルタとしては安定な実時間動作が可能であるなどの理由からFIRフィルタが利用される。このときFIRフィルタの係数が室内音響伝達系のインパルス応答の推定値ｈ(ｋ)となる。

更に、適応フィルタは、受話信号ｘ(ｋ)が存在するときに誤差信号ｅ(ｋ)のパワーが最小となるようにフィルタ係数（インパルス応答推定値）ｈ(ｋ)を計算する。ここで、誤差信号ｅ(ｋ)は以下に示す［数１］により算出される。
（数１）
ｅ(ｋ)＝ｙ’(ｋ)＋ｓ（ｋ）−ｙ（ｋ）

このとき送話信号ｓ(ｋ)が０であれば、誤差信号ｅ(ｋ)は、エコー消去誤差ｙ’(ｋ)−ｙ(ｋ)を表し、これを最小化するフィルタ係数ｈ(ｋ)は、エコー経路のインパルス応答の良好な推定値となる。

しかしながら、双方向通話においては同時通話状態（double-talk：ダブルトーク）があり、この時は送話信号ｓ(ｋ)が存在する。送話信号ｓ(ｋ)が存在するとｅ(ｋ)はエコーの消去誤差信号とはならないため、この状態でインパルス応答の推定を行うと推定に誤りを生じてしまう。
したがって、同時通話状態時には、適応フィルタの適応動作を停止させる、若しくは適応速度を低減させることなどが行われている（特許文献１）。

次に、拡声系およびハウリングキャンセラの一例のブロック図を、図９に示す。
この拡声系は、発話者による発話音声や楽器の音などであるｓ(ｋ)をマイクロフォンで受音し、それを増幅器で増幅した信号ｘ(ｋ)を発話者と同一空間内（室内）にスピーカで再生する系である。

また、スピーカから出た音は室内空間伝達系ｈ’を経てマイクロフォンで受音されて閉ループを形成する。
この系において増幅器のゲインを大きくしすぎると閉ループのゲインが１以上となり、ハウリングが発声する。

このハウリングを抑制するためのハウリングキャンセラは、上記音響エコーキャンセラと同様に、スピーカとマイクロフォンの間の伝達関数を推定し、これを用いて合成した信号ｙ(ｋ)をマイクロフォン受音信号から減算して帰還信号ｙ’(ｋ)を消去するものである。

しかしながら、伝達関数の推定を行うのに必要な信号ｘ(ｋ)が存在するときには常に発話者の音声（妨害信号）ｓ(ｋ)がマイクロフォンに入力されている。
この状態は、上記音響エコーキャンセラにおける同時通話状態に相当する。また、帰還信号ｙ’(ｋ)と推定の妨害信号ｓ(ｋ)とは強い相関をもつ。
このように、ハウリングキャンセラは、音響エコーキャンセラと比べて劣悪な条件下で空間伝達系の推定を行わなければならない。

このため、適応アルゴリズムを利用する場合にはＳＮ比が悪い場合の対処、すなわちステップサイズを十分に小さくして、推定精度を確保するといった手法が開示されている（特許文献２）。

特開２００６−２７０１４７公報特開２００６−１９７０７６公報

しかしながら、上記特許文献１に開示された関連技術では、同時通話状態、および同時通話状態の発生を正確に検出することできないという不都合がある。
また、上記特許文献２に開示された関連技術では、室内伝達系の推定に時間を要するため、伝達系の変動に十分追従できないといった不都合がある。
更に、上記特許文献１および２に開示された関連技術では、同時通話状態時における適応フィルタの適応動作を停止、若しくは収束速度を低減させる必要があるため、この場合、人の移動や周囲環境の変化への追従性が低下してしまうといった不都合がある。

また、同時通話状態の検出に誤差信号ｅ(ｋ)を利用する場合には、適応フィルタの適応動作が良好なときにｅ(ｋ)が送話信号ｓ(ｋ)となるため、ｓ(ｋ)が存在すると、適応の推定に誤りを生じ、安定してｅ(ｋ)を利用することが困難となってしまう不都合がある。
更に、誤差信号ｅ(ｋ)は、エコーや帰還信号を消去した後の最終的な送話信号となるが、同時通話状態の検出に失敗しインパルス応答推定に誤りが生じている場合には、この送話信号に劣化が生じてしまう不都合がある。また、適応動作を停止せずに常時更新した場合でも、送話信号の品質が劣化してしまう不都合が生じ得る。
これは、特に送話信号を入力信号として音声認識処理に利用する場合など、抽出された送話信号の品質が高いことが要求される場合に大きな問題となり得る。

［発明の目的］
本発明は、上記関連技術の有する不都合を改善し、スピーカから発せられた帰還音とスピーカ以外の音源からの外部音とがマイクロフォンより収音された同時通話状態時に、外部音声を有効に抽出し得る音声抽出装置を提供することを、その目的とする。

上記目的を達成するために、本発明に係る音声抽出装置は、マイクロフォンに接続され、予め設定されたスピーカ以外の外部音源から前記マイクロフォンに入力された外部音声信号を抽出信号として抽出する適応信号処理部を備えた音声信号抽出装置であって、前記適応信号処理部は、前記スピーカに入力される音声信号と前記マイクロフォンから入力されたマイク入力音声信号とに基づき前記スピーカから前記マイクロフォンへの伝達系を模擬したフィルタ係数の設定および更新を行う第１および第２の適応フィルタと、前記スピーカに入力される入力音声信号を前記第１の適応フィルタで演算処理し得られた模擬信号と前記マイク入力音声信号との差分を第１の残差信号として抽出すると共に、当該第１の残差信号を前記第１の適応フィルタ部に送り込む第１の減算部と、前記入力音声信号を前記第２の適応フィルタで演算処理して得られた模擬信号と前記マイク入力音声信号との差分を第２の残差信号として抽出すると共に、当該第２の残差信号を前記第２の適応フィルタ部に送り込む第２の減算部と、前記第１の減算部における前記マイク入力音声信号および前記第１の残差信号の差分量と前記第２の減算部における前記マイク入力音声信号および前記第２の残差信号の差分量とを監視する減算量監視部と、前記差分量の高い側の残差信号を前記抽出信号として送出する構成とし、前記減算量監視部は、前記第１の減算部で予め設定された値を超える差分量が検知された場合に、前記第１の適応フィルタにおけるフィルタ係数の更新動作を停止する係数更新停止制御機能を備えると共に、この減算量監視部は、更に、前記第１および第２の適応フィルタにおける係数更新の収束速度を、予め設定された収束速度の速いパラメータおよび遅いパラメータの少なくとも２種のパラメータを用いて制御する収束速度制御機能と、前記第１の適応フィルタにおけるフィルタ係数の更新動作停止中に、前記第２の適応フィルタにおける係数更新の収束速度を前記収束速度の遅いパラメータに基づき動作制御する低収束速度同定制御機能とを備えた構成をとっている。

本発明は、以上のように構成され機能するので、これによると、フィルタ係数の設定および更新を行う異なる二つの適応フィルタと、異なる適応フィルタからの模擬信号に基づき残差信号を生成する異なる二つの減算部と、各減算部で減算処理された減算量を監視する減算量監視部を備え、生成された残差信号のうち前記減算量の高い減算処理により生成された残差信号を前記抽出信号として送出する構成としたことにより、同時通話状態時においても外部音声を有効に抽出し得る音声抽出装置を提供することができる。

本発明による音声入力装置を含む一実施形態を示した概略ブロック図である。本発明による音声入力装置を含む一実施形態を示した概略ブロック図である。本発明による音声入力装置（音響エコーキャンセルシステム）を含む一実施形態を示す概略ブロック図である。図１に開示した音声入力装置における学習時における全体の動作処理ステップを示すフローチャートである。図１に開示した音声入力装置における学習完了時における全体の動作処理ステップを示すフローチャートである。図１に開示した音声入力装置における再学習時における全体の動作処理ステップを示すフローチャートである。通話拡声系であるハンズフリーフォンの構成例を示した概略ブロック図である。図７に示したハンズフリーフォンにおける音響エコーキャンセラの一例を示したブロック図である。拡声系の一例を示した概略ブロック図である。

［実施形態１］
次に、本発明の実施形態１について、その基本的構成内容を説明する。

本実施形態１は、図１に示すように、車内に設置されたカーナビゲーションシステム５に対してユーザの発話音声の入力を行う音声入力装置１である。
この音声入力装置１は、その内部に車内に設置されたカーオーディオシステム４からの音声信号を取得する適応フィルタ部１１を備えると共に、ユーザによる発話音声を収音するためのマイクロフォン３を備えた構成となっている。

尚、カーオーディオシステム４は、音声信号として音楽やラジオ放送を放音しているものとする。
また、カーオーディオシステム４には、上記適応フィルタ部１１が取得する音声信号（以下「入力信号ｘ（ｋ）という」）と同一の音声信号を送出するスピーカ２が接続して設けられている。

また、カーナビゲーションシステム５は、音声認識機能によりアドレス指定を行うカーナビゲーションシステムであり、その内部に音声認識部６を備え、この音声認識部６が入力された送話信号に基づき、カーナビゲーションシステム５に予め設定された地図情報における住所を特定する機能を備えているものとする。
このため、アドレス指定を行うにあたっては、この音声認識部６に入力される送話信号は、より高品質であることが望ましい。

また、音声入力装置１の適応フィルタ部１１は、スピーカ２からマイクロフォン３への室内伝達系（帰還伝達系）１００を模擬したフィルタ係数を自己設定する。
尚、音声入力装置１は、プロセッサを備えたコンピュータであって、予め設定されたプログラムに基づく実行処理を行うことにより、以下に示す各部、および各手段の動作機能を実現するものとする。

スピーカ２は、カーオーディオシステム４からのアナログ音声信号を放音する。
尚、このアナログ音声信号は、遅延バッファ１１３に入力される入力信号ｘ（ｋ）に対してD／Ａ（Ｄｉｇｉｔａｌ／Ａｎａｌｏｇ）変換を行い生成された音声信号であり、この音声信号をアンプなどを介して増幅したものとする。

マイクロフォン３は、上記カーオーディオシステム４の設置された車内に設置され、音声入力装置１外部からの音声をマイクロフォン入力音声信号として音声入力装置１に入力する。
このマイクロフォン入力信号は、スピーカ２から出力（再生）され、帰還伝達系１００を介して、マイクロフォン入力信号として、マイクロフォン３に受音される。
尚、上記マイクロフォン入力信号は、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）コンバータ（図示なし）によりＡ／Ｄ変換され、図１に示すように、帰還音信号ｄ（ｋ）として加算部１２，１３、およびキャンセル量算出部１４，１５に入力されるものとする。

ここで、カーナビゲーションシステム５に対してアドレス指定を行うために、例えば、ユーザが、マイクロフォン３に対して、「東京都八王子」と発話したとする。
この場合、マイクロフォン３に入力される音声の状態は、スピーカ２から帰還伝達系１００を介してマイクロフォンに入力された帰還音声と、ユーザの発話したアドレス指定音声（「東京都八王子」という音声：送話信号ｓ（ｋ）とする）とが含まれる同時通話状態（ダブルトーク状態）となる。

また、音声入力装置１には、カーオーディオシステム４からの音声（スピーカ２に供給される音声と同一）がＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）コンバータ（図示なし）によってＡ／Ｄ変換され、入力デジタル信号(以下「入力信号ｘ(ｋ)」という)として入力される。ここで、この入力デジタル信号（入力信号ｘ（ｋ））は、遅延バッファ１３に記憶される。

適応フィルタ部１１は、入力信号ｘ（ｋ）を取得し一時的に記憶保持する遅延バッファ手段１１３と、後述する加算部１２、１３から出力されたリファレンス信号に基づきフィルタ係数の算出を行うフィルタ係数算出手段１１１、１１２と、このフィルタ係数算出手段１１１により決定されたフィルタ係数を用いて内積演算処理（畳み込み演算）を行う内積演算手段（適応フィルタ）１１４、１１５を備えた構成となっている。
また、適応フィルタ部１１では、フィルタ係数算出手段１１１および内積演算手段１１４と、フィルタ係数算出手段１１２および内積演算手段１１５とにおいて、それぞれ適応信号処理が行われる。

ここで、遅延バッファ手段１１３は、帰還伝達系１００を介した帰還音信号ｄ（ｋ）の遅れ時間τを模擬するものであり、内積演算手段１１４および１１５は、帰還伝達系１００の音声伝播特性である伝達関数を模擬するものとする。
本発明に係る実施形態では、上述のように、入力信号ｘ（ｋ）が、スピーカ３から出力されるのに並行して、遅延バッファ１１３に供給されることで、内積演算手段１１４、および１１５から出力される模擬信号ｙｆ（ｋ）、およびｙｂ（ｋ）を、帰還音信号ｄ（ｋ）に近似させることができる。

フィルタ係数算出手段１１１は、加算部１２から出力された残差信号ｅｆ（ｋ）と、遅延バッファ手段１１３からの遅延音声信号ｘ（ｋ−τ）に基づいて、室内伝達系１００の伝達関数を推定し、この伝達関数に合わせて（模擬して）内積演算手段１１４のフィルタ係数を算出する（フィルタ係数算出機能）。
また、フィルタ係数算出手段１１１は、算出されたフィルタ係数の更新を行い、内積演算手段１１４に対してこれを通知する（フィルタ係数更新設定機能）。これにより、内積演算手段１１４におけるフィルタ係数の設定を行う。

尚、上記フィルタ係数更新設定機能は、残差信号ｅｆ（ｋ）ができるだけ小さくなるように実行される。
また、フィルタ係数更新設定機能は、予め設定された時間間隔毎（例えば、数μｓｅｃ〜数百μｓｅｃ毎）に行われる設定としてもよい。

以下、フィルタ係数算出手段１１１、１１２それぞれでフィルタ係数の更新が行われている状態を「学習状態」という。

また、フィルタ係数算出手段１１１は、以下に示すキャンセル量比較部１６からの制御信号に応じて、フィルタ係数の更新を停止する学習停止実行機能を有する。
これにより、フィルタ係数算出手段１１１は、一定のキャンセル量が得られた時点で、学習を完了し（学習完了状態）、この時点でフィルタ係数が固定されるものとする。

また、フィルタ係数算出手段１１１は、以下に示す係数コピー手段１１６によりフィルタ係数の書き換えが行われた場合には、書き換えの行われたフィルタ係数を内積演算手段１１４に通知する。
これにより、フィルタ係数算出手段１１１、１１２で更新（算出）されたフィルタ係数のうち、キャンセル量の高い、つまり、室内伝達系１００のより正確に（精度よく）同定されたフィルタ係数を内積演算手段１１４に設定することができる。

フィルタ係数算出手段１１２は、以下に示す加算部１３から出力された残差信号ｅｂ（ｋ）と、遅延バッファ手段１１３からの遅延音声信号ｘ（ｋ−τ）に基づいて、室内伝達系１００の伝達関数を推定し、この伝達関数に合わせて（模擬して）内積演算手段１１５のフィルタ係数を算出する（フィルタ係数算出機能）。
また、フィルタ係数算出手段１１２は、算出されたフィルタ係数の更新を行い、内積演算手段１１５に対してこれを通知する（フィルタ係数更新設定機能）。これにより、内積演算手段１１５におけるフィルタ係数の設定を行う。

尚、上記フィルタ係数更新設定機能は、残差信号ｅｂ（ｋ）ができるだけ小さくなるように実行される。
また、フィルタ係数更新設定機能は、予め設定された時間間隔毎（例えば、数μｓｅｃ〜数百μｓｅｃ毎）に行われる設定としてもよい。

尚、フィルタ係数算出手段１１１の学習中は、フィルタ係数算出手段１１２も同時にフィルタ係数の更新を行うものとする。

また、フィルタ係数算出手段１１１、１１２には、それぞれ、収束速度を制御するパラメータ（収束速度パラメータ）が、少なくとも２種類、つまり収束速度が速いパラメータ値ｖ１と、収束速度の遅いパラメータ値ｖ２とが設定できるものとする。

ここで、フィルタ係数算出手段１１１における学習完了時、つまりフィルタ係数算出手段１１１で同定されたインパルス応答が安定しているときに、フィルタ係数算出手段１１２は、適応制御の同定の程度を下げた収束速度（収束速度を低減した状態：ｖ２）でフィルタ係数の算出更新（適応制御）を行うものとする。

これにより、適応フィルタ部１１は、突発的に生じ得るマイクロフォン３における同時通話などに対するフィルタ係数破壊や推定誤りなどの変動を軽減することができる。

尚、フィルタ係数算出手段１１１の学習中には、収束の早いパラメータ（ｖ１）により、フィルタ係数の更新を行うものとし、更には、フィルタ係数算出手段１１２も、収束の早いパラメータ（ｖ１）により、同時にフィルタ係数の更新を行うものとする。

尚、本発明にかかる実施形態では、フィルタ係数算出手段１１１、１１２における学習状態（学習中、学習停止、学習開始（学習再開））は、以下で説明するキャンセル量比較部１６により制御されるものとする。

キャンセル量比較部１６は、例えば、キャンセル量算出部１４のキャンセル量がｃaｎ１ｄB（例えば、２４ｄＢとする）を上回った場合に、学習が完了したと判定し、フィルタ係数更新手段１１１におけるフィルタ係数の算出更新を停止する制御を行う（学習停止）。

また、キャンセル量算出部１４のキャンセル量がｃaｎ２ｄB（例えば、９ｄＢとする）を下回った場合に、キャンセル量比較部１６は、再学習が必要と判定され、フィルタ係数更新手段１１１におけるフィルタ係数の更新を再開する制御を行う（再学習開始）。このとき、フィルタ係数更新手段１１１および１１２は、同時に更新を開始する。

これにより、例えば、マイクロフォン３、スピーカ２の位置の変化することなどによる室内伝達系１００の変動が生じた場合に、この変動に対して迅速に適応した適応信号処理を行うことができる。

また、フィルタ係数更新手段１１１および１１２における、室内（帰還）伝達系１００の伝達関数の推定およびフィルタ係数の算出更新は、適応アルゴリズムを用いて行われる。
ここで、適応アルゴリズムとしては、例えば、学習同定法、ＬＭＳ法、射影法及びＲＬＳ法などを適用することができる。

遅延バッファ手段１１３は、カーオーディオ４から入力された入力信号ｘ（ｋ）を遅れ時間τだけ遅延させ、この遅延させた遅延信号ｘ（ｋ−τ）を内積演算手段１１４、１１５、およびフィルタ係数算出手段１１１、１１２に対して入力する。

尚、内積演算手段１１４、１１５は、具体的にはデジタルフィルタであって（典型的にはＦＩＲ：Finite Impulse Response Filter）、この内積演算手段１１４、および１１５それぞれのフィルタ係数を決定するフィルタ係数算出手段１１１、および１１２に接続された構成となっている。
また、内積演算手段１１４、１１５は、入力された遅延信号ｘ（ｋ−τ）を、フィルタ係数算出手段１１１により算出されたフィルタ係数で畳み込み演算処理を行う。
これにより、内積演算手段１１４は、模擬信号ｙｆ（ｋ）を生成し、この模擬信号ｙｆ（ｋ）を加算部１２に対して出力する。また、内積演算手段１１５は、模擬信号ｙｂ（ｋ）を生成し、この模擬信号ｙｂ（ｋ）を加算部１３に対して出力する。

尚、本発明に係る実施形態では、適応フィルタ部１１における適応信号処理を、特許第４０６７２６９号に開示された高速H∞フィルタ(ＦＨＦ：高速算出フィルタ)を用いて行うものとする。このＦＨＦを用いて一定時間毎に適応係数を高速に算出することにより、適応フィルタ部１１では、スピーカ２からマイクロフォン３への帰還伝達系（室内空間伝達系）１００の特性を正確かつ迅速に同定することができる。

また、この高速H∞フィルタは、パラメータγｆによって、適応信号処理の収束速度を制御可能であるものとする。このパラメータγｆは、０＜γｆ＜１００の値をとり、この数値が大きいほど収束速度が遅くなる。
ここで、この高速Ｈ∞フィルタでは、例えば、収束速度の速いパラメータｖ１としてのγｆ１、および収束速度の遅いパラメータｖ２としてのγｆ２（ただしγｆ１＜γｆ２とする）が予め設定されているものとする。

この高速Ｈ∞フィルタを用いることにより、音声入力装置１の同時通話（ダブルトーク）状態時においても、フィルタ係数の係数破壊（推定誤り）が生じにくく、更には、帰還伝達系１００における急激な変動、および微小な変動を追随することにより生じる推定誤り等を有効に軽減することができる。

係数コピー手段１１６は、キャンセル量比較部１６からの要求に応じて、フィルタ係数算出手段１１２で算出されたフィルタ係数を複製し、このフィルタ係数によりフィルタ係数算出１１１のフィルタ係数を書き換えるフィルタ係数書換え実行機能を備えている。
尚、係数コピー手段１１６は、比較判定部１６の機能として設定されてもよい。

加算部１２には、模擬信号ｙｆ（ｋ）と帰還音信号ｄ（ｋ）とが入力される。加算部１２は、模擬信号ｙｆ（ｋ）（マイナス成分）および帰還音信号ｄ（ｋ）（プラス成分）の加算処理を行い、帰還音信号ｄ（ｋ）から模擬信号ｙｆ（ｋ）を除いた残差信号eｆ（ｋ）を、キャンセル量算出部１４に出力すると共に、フィルタ係数算出手段１１１に出力する。
また、ここで出力される模擬信号eｆ（ｋ）は、送出信号（Ｓ_out）として、カーナビゲーションシステム５の音声認識部６に入力される。

ここで、マイクロフォン３における音声入力状態が、ユーザからのアドレス指定音声がマイクロフォン３に入力された同時通話状態にあり、且つ適応フィルタ部１１における適応信号処理が有効に機能している場合、加算部１２から送出される残差信号ｅｆ（ｋ）（つまり送出信号（Ｓ_out））には、ユーザからのアドレス指定音声である送話信号ｓ（ｋ）だけが含まれることとなり、高品質な送話信号を音声認識部６に対して入力することができる。

加算部１３には、加算部１２と同様に、模擬信号ｙｂ（ｋ）と帰還音信号ｄ（ｋ）とが入力される。加算部１３は、模擬信号ｙｂ（ｋ）（マイナス成分）および帰還音信号ｄ（ｋ）（プラス成分）の加算処理を行い、帰還音信号ｄ（ｋ）から模擬信号ｙｂ（ｋ）を除いた残差信号eｂ（ｋ）を、キャンセル量算出部１５に出力すると共に、リファレンス信号としてフィルタ係数算出手段１１２に出力する。

キャンセル量算出部１４には、帰還音信号ｄ（ｋ）と残差信号eｆ（ｋ）とが入力される。ここで、キャンセル量算出部１４は、入力された信号の差分値の算出を行う。
ここで、キャンセル量算出部１４は、ｄ（ｋ）／eｆ（ｋ）（デシベル表現では、ｄ（ｋ）−eｆ（ｋ））の値を算出する。

キャンセル量算出部１５には、帰還音信号ｄ（ｋ）と残差信号eｂ（ｋ）とが入力される。ここで、キャンセル量算出部１５は、キャンセル量算出部１４と同様に、入力された信号の差分値の算出を行う。
ここで、キャンセル量算出部１５は、ｄ（ｋ）／eｂ（ｋ）（デシベル表現では、ｄ（ｋ）−eｂ（ｋ））の値を算出する。

キャンセル量比較部１６は、キャンセル量算出部１４および１５におけるキャンセル量を常時監視するキャンセル量監視機能を備えている。
また、キャンセル量比較部１６は、キャンセル量算出部１４のキャンセル量（foregroundキャンセル量という）が予め設定されたキャンセル量閾値（ｃaｎ１ｄB：例えば、２４ｄBとする）に達した（上回った）場合、フィルタ係数算出手段１１１における学習が完了したと判定し、フィルタ係数算出手段１１１における係数算出更新機能を停止する制御を行う学習停止制御機能を備えている。
これにより、フィルタ係数算出手段１１１では、フィルタ係数の算出更新が停止される。
このとき、フィルタ係数算出手段１１２では、フィルタ係数の算出更新が継続して行われる。

更に、キャンセル量比較部１６は、上記学習停止制御機能を実行したとき、フィルタ係数算出手段１１２におけるフィルタ係数の算出更新の収束速度を落とす（同定の程度を下げる）制御を行う（ステップサイズ制御機能）。
具体的には、キャンセル量比較部１６は、フィルタ係数算出手段１１２におけるフィルタ係数の算出更新の収束速度を、予め設定された遅い方の（ステップサイズ）パラメータｖ２に設定する。
ここで、フィルタ係数算出手段１１２が高速Ｈ∞フィルタである場合には、上述のように、γｆ２に設定する。
これにより、フィルタ係数算出手段１１２では、収束速度を落とした状態でフィルタ係数の算出更新が継続して行われる。

これにより、音声入力装置１の周囲環境や帰還伝達系１００が安定している場合における（学習完了時）、同時通話（ダブルトーク）状態ときに、適応フィルタ部１１がフィルタ係数に生じる意図しない変動や微細な変化を追従してしまうことにより生ずる、適応信号処理における係数破壊や推定誤りを有効に抑制することができる。

また、キャンセル量比較部１６は、キャンセル量算出部１４のキャンセル量（foregroundキャンセル量）が予め設定されたキャンセル量閾値（ｃaｎ２ｄB：例えば９ｄBとする）より小さくなった（下回った）場合には、フィルタ係数算出手段１１１，１１２における再学習が必要と判定し、フィルタ係数算出手段１１１、１１２における収束速度パラメータを予め設定された収束速度の速い方のステップサイズパラメータｖ２に設定する制御を行う（再学習起動機能）。
これにより、フィルタ係数算出手段１１１，１１２では、同時に学習が再開され、フィルタ係数の算出更新が開始される。

更に、キャンセル量比較部１６は、フィルタ係数算出手段１１１における学習完了時に、キャンセル量算出部１４で算出されたキャンセル量（foregroundキャンセル量）とキャンセル量算出部１５で算出されたキャンセル量（backgroundキャンセル量）とを取得し、その大小比較を行う（キャンセル量比較機能）。

このとき、キャンセル量比較部１６は、backgroundキャンセル量がforegroundキャンセル量より大きい場合、係数コピー手段１１６に対して指示を行い、フィルタ係数算出手段１１２のフィルタ係数をコピーしてフィルタ係数算出手段１１１のフィルタ係数と置き換える制御を行う（フィルタ係数置き換え制御機能）。

以上のように、本発明に係る実施形態では、音声入力装置１における同時通話（ダブルトーク）状態時においても、室内（帰還）伝達系１００の変動に対して迅速に追従した適応信号処理を行うことができるため、例えば、車内で音楽やラジオなどのオーディオ音声だけを有効に除去することができると共に、住所が発話された送話信号を（送出信号（Ｓｏｕｔ）として）カーナビゲーション５に対して入力することができるので、車内でオーディオ信号を流している状態（ダブルトーク状態）でも、カーナビゲーションの音声認識機能を有効に利用することができる。

［実施形態１の動作説明］
次に、本実施形態１である音声入力装置１の学習時における動作について、図４のフローチャートに基づいて説明する。

（学習時）
まず、フィルタ係数算出手段１１１，１１２が同時にフィルタ係数の算出更新処理を行う（ステップＳ１）。
このとき、フィルタ係数算出手段１１１、１１２では、予め設定された収束速度の速いパラメータｖ１（Ｈ∞フィルタである場合はパラメータγｆ１）に基づき、高速にフィルタ係数の算出更新が行われるものとする。
ここで、キャンセル量比較部１６がキャンセル量算出部１４におけるキャンセル量がｃaｎ１ｄB（例えば２４ｄＢ）を上回ったことを検知した場合に（ステップＳ２）、キャンセル量比較部１６は、フィルタ係数算出手段１１１の算出更新動作（学習動作）を停止する制御を行う（ステップＳ３）と共に、フィルタ係数算出手段１１２における学習動作を収束速度の遅いパラメータｖ２（Ｈ∞フィルタである場合はパラメータγｆ２）に基づき行うように制御する、つまり、フィルタ係数算出手段１１２におけるフィルタ係数の算出更新処理を、収束速度を下げた状態で行う（ステップＳ４）。

次に、適応フィルタ部１１における学習完了（状態）時における音声入力装置１の動作について、図５のフローチャートに基づき説明する。

（学習停止時）
まず、キャンセル量比較部１６は、常時キャンセル量算出部１４および１５のキャンセル量を監視している（ステップS１１）。
ここで、backgroundキャンセル量がforegroundキャンセル量を上回った場合に（ステップＳ１２）、キャンセル量比較部１６は、係数コピー手段１１６に対して係数コピー機能の実行を指示する（ステップS１３）。
係数コピー手段１１６は、フィルタ係数算出手段１１２で算出されたフィルタ係数を取得し、フィルタ係数算出手段１１１におけるフィルタ係数を書き換える処理を行う（ステップS１４）。
これにより、フィルタ係数算出手段１１２で算出（更新）されたフィルタ係数は、係数コピー手段１１６によりコピーされ、フィルタ係数算出手段１１１で算出されたフィルタ係数に書き換えられ、この書き換えられたフィルタ係数に基づき内積演算（畳み込み演算）が行われる。

（再学習開始）
次に、本実施形態１で、適応フィルタ部１１における再学習動作が開始される場合の音声入力装置１の動作について、図６のフローチャートに基づき説明する。

まず、キャンセル量比較部１６は、常時キャンセル量算出部におけるforegroundキャンセル量およびbackgroundキャンセル量の監視を行っている（ステップＳ２１）。
foregroundキャンセル量が、予め設定されたｃaｎ１ｄB（例えば９ｄB）を下回ったことを検知した場合（ステップS２２）、キャンセル量比較部１６は、帰還伝達系１００に変動が生じたものと判定し、適応フィルタ部１１に対して再学習動作の開始を指示する（ステップS２３）。
この指示に応じてフィルタ係数算出手段１１１および１１２は、同時に再学習動作を開始する（ステップS２４）。このとき、フィルタ係数算出手段１１１および１１２は、共に収束速度の速いパラメータｖ１（γｆ１）に基づき、高速にフィルタ係数の算出更新動作を行うものとする。

以上のように、本実施形態の音声入力装置（音響エコーキャンセル装置）では、適応フィルタの適応動作を平行して行う手段（具体的には、フィルタ係数算出手段および内積演算手段）と、適応動作のキャンセル量の監視を行う手段（キャンセル量比較部）とを備えた簡易な構成により、高精度な同時通話状態の検出処理を行うことなく、同時通話状態における適応信号処理を高精度に行うことができる。
また、この音声入力装置（音響エコーキャンセル装置）により処理され出力される送出信号（Ｓｏｕｔ）の劣化を有効に抑制することができる。

更には、上述のように、実施形態１、２、および３における適応フィルタの適応動作をＨ∞フィルタ（「高速算出フィルタ」に相当）を用いて行うことにより、同時通話（ダブルトーク）状態時でも、適応フィルタの適応動作を迅速に行うことができ、更には、フィルタ係数の係数破壊（推定誤り）を抑制し、更には、帰還伝達系における急激な変動、および微小な変動の影響により生じる推定誤り等を有効に軽減することができる。

［実施形態２］
次に、本発明に係る実施形態２について説明する。
この実施形態２における音声入力装置１の機器構成部分は、図２に示すように、前述した実施形態１と同一の構成を備えている。
また、前述の実施形態１におけるカーオーディオシステム４およびカーナビゲーションシステム５に代えて、予め設定された室内に設置され、カラオケ伴奏音信号の再生出力を行うカラオケ装置７を備えた構成となっている。

このカラオケ装置７は、その内部に、カラオケ伴奏音信号の再生出力を行う再生部と、この再生部からのカラオケ伴奏音信号と音声入力装置１で処理された送出信号（Ｓｏｕｔ）とをミキシングする処理（ミキシング処理）を行うミキサー８とを有し、ミキシング処理された合成音声信号をスピーカ２に提供する。
ここで、前述した実施形態１と同一の部分については、同一の符号を付するものとする。

また、本実施形態２で、音声入力装置１は、このカラオケ装置７（ミキサー８）からの合成音声信号を入力信号ｘ（ｋ）として取得すると共に、ミキサー８に対して送出信号（Ｓｏｕｔ）の入力を行う。

これにより、マイクロフォン３から入力された音声信号にカラオケ伴奏音信号と話者による発話音声とが含まれた状態（同時通話状態に相当）においても、音声入力装置１は、帰還音信号であるカラオケ伴奏音信号を有効に除去することができ、更に、話者（ユーザ）による発話信号だけを送出信号（Ｓｏｕｔ）としてミキサー８に入力することができ、これにより、カラオケ装置７におけるハウリングの発生を有効に抑制することができる。

［実施形態３］
次に、本発明に係る実施形態３について説明する。
この実施形態３は、図３に示すように、音響エコーキャンセル装置（音声入力装置）３１および３２を、それぞれ話者Ａ側および話者Ｂ側に設置し、話者ＡおよびＢは、自己側に設置されたスピーカおよびマイクを用いて相互通話を行う構成とする。
尚、音響エコーキャンセル装置３１および３２の内部機器構成部分は、前述した実施形態１および２の音声入力装置１と同一の構成を備えているものとする。

ここで、音響エコーキャンセラ３１は、話者Ａ側のスピーカから発生する音響エコーを抑制するように機能し、また、音響エコーキャンセラ３２は、話者Ｂ側のスピーカから発生する音響エコーを抑制するように機能する。

また、音響エコーキャンセル装置３１の適応フィルタ部に対しては、伝送路３０を介して音響エコーキャンセル装置３２からの送出信号（Ｓｏｕｔ）が入力信号ｘ（ｋ）として入力される（ここでは、ｘａ(ｋ)とする）。一方、音響エコーキャンセル装置３２の適応フィルタブに対しては、伝送路３０を介して音響エコーキャンセル装置３１からの送出信号（Ｓｏｕｔ）が入力信号ｘ（ｋ）として入力される（ここでは、ｘｂ(ｋ)とする）。

これにより、本実施形態３では、話者Ｂ側で、マイクロフォンＢから入力された音声信号に、スピーカＢからの出力された相手（話者Ａ）の発話信号と話者Ｂによる発話音声とが入力された状態（同時通話状態：ダブルトーク状態）であっても、音響エコーキャンセル装置３２は、帰還音信号としての話者Ａの発話信号を有効に除去し、話者Ｂによる発話信号だけを送出信号（Ｓｏｕｔ）として話者Ａ側（伝送路）へと送出することができる。
一方、話者Ａ側でも、同様に、マイクロフォンＡから入力された音声信号に、スピーカＡからの出力された相手（話者Ｂ）の発話信号と話者Ａによる発話音声とが入力された状態（同時通話状態：ダブルトーク状態）であっても、音響エコーキャンセル装置３１は、帰還音信号としての話者Ｂの発話信号を有効に除去し、話者Ａによる発話信号だけを送出信号（Ｓｏｕｔ）として話者Ｂ側（伝送路）へと送出することができる。

これにより、本実施形態３では、音響エコーの発生を有効に抑制することができ、更には、話者Ａ側のスピーカＡから再生されたエコーが話者Ａ側のマイクロフォンＡで受音されることにより（話者Ｂ側についても同様）、音声信号の閉ループが形成されるという現象の発生を有効に抑制することができるため、ハウリングの発生を有効に防止することが可能となる。

以上実施形態１，２，３に示すように、本発明の音声入力装置（音響エコーキャンセル装置）では、適応フィルタの適応動作を平行して行う手段（具体的には、フィルタ係数算出手段および内積演算手段）と、適応動作のキャンセル量の監視を行う手段（キャンセル量比較部）とを備えた簡易な構成により、高精度な同時通話状態の検出処理を行うことなく、同時通話状態における適応信号処理を高精度に行うことができる。
また、この音声入力装置（音響エコーキャンセル装置）により処理され出力される送出信号（Ｓｏｕｔ）の劣化を有効に抑制することができる。

本発明は、会議システムや携帯電話等におけるエコーキャンセルシステムやカラオケなどの音声拡張装置におけるハウリングキャンセルシステムに対して有用に適用することができる。

１音声入力（収音）装置
２スピーカ
３マイクロフォン
４カーオーディオ
５カーナビゲーションシステム
６音声認識部
７カラオケ音源
８ミキサー
１１適応フィルタ部
１２加算部（第１の減算部）
１３加算部（第２の減算部）
１４，１５キャンセル量算出部
１６キャンセル量比較部（減算量監視部）
１００帰還伝達系
１１１，１１２フィルタ係数算出手段
１１３遅延バッファ手段
１１４，１１５内積演算手段（適応フィルタ）

Claims

マイクロフォンに接続され、予め設定されたスピーカ以外の外部音源から前記マイクロフォンに入力された外部音声信号を抽出信号として抽出する適応信号処理部を備えた音声信号抽出装置であって、
前記適応信号処理部は、
前記スピーカに入力される音声信号と前記マイクロフォンから入力されたマイク入力音声信号とに基づき前記スピーカから前記マイクロフォンへの伝達系を模擬したフィルタ係数の設定および更新を行う第１および第２の適応フィルタと、
前記スピーカに入力される入力音声信号を前記第１の適応フィルタで演算処理し得られた模擬信号と前記マイク入力音声信号との差分を第１の残差信号として抽出すると共に、当該第１の残差信号を前記第１の適応フィルタ部に送り込む第１の減算部と、
前記入力音声信号を前記第２の適応フィルタで演算処理して得られた模擬信号と前記マイク入力音声信号との差分を第２の残差信号として抽出すると共に、当該第２の残差信号を前記第２の適応フィルタ部に送り込む第２の減算部と、
前記第１の減算部における前記マイク入力音声信号および前記第１の残差信号の差分量と前記第２の減算部における前記マイク入力音声信号および前記第２の残差信号の差分量とを監視する減算量監視部と、
前記差分量の高い側の残差信号を前記抽出信号として送出する構成とし、
前記減算量監視部は、前記第１の減算部で予め設定された値を超える差分量が検知された場合に、前記第１の適応フィルタにおけるフィルタ係数の更新動作を停止する係数更新停止制御機能を備えると共に、
この減算量監視部は、更に、前記第１および第２の適応フィルタにおける係数更新の収束速度を、予め設定された収束速度の速いパラメータおよび遅いパラメータの少なくとも２種のパラメータを用いて制御する収束速度制御機能と、
前記第１の適応フィルタにおけるフィルタ係数の更新動作停止中に、前記第２の適応フィルタにおける係数更新の収束速度を前記収束速度の遅いパラメータに基づき動作制御する低収束速度同定制御機能とを備えたことを特徴とする音声信号抽出装置。
前記請求項１に記載の音声信号抽出装置において、
前記減算量監視部は、前記第１の適応フィルタにおけるフィルタ係数の更新動作停止中に、前記第１の減算部で予め設定された値を下回る差分量が検知された場合に、前記第１および第２の適応フィルタにおける設定および更新動作を起動する再学習起動機能を備えたことを特徴とする音声信号抽出装置。
前記請求項１又は２に記載の音声信号抽出装置において、
前記減算量監視部は、前記第１の適応フィルタにおけるフィルタ係数の更新動作停止中に前記第２の減算部の差分量が前記第１の減算部の差分量を超えたことが検知された場合に、前記第１の適応フィルタにおけるフィルタ係数を前記第２の適応フィルタのフィルタ係数に書き換えるフィルタ係数複製設定機能を備えたことを特徴とする音声信号抽出装置。
前記請求項１乃至３の何れか１つに記載の音声信号抽出装置を要部として備えた拡声装置において、
前記適応フィルタとして当該適応フィルタにおけるフィルタ係数を高速に算出する高速算出フィルタを用いることを特徴とした拡声装置。