JP2015019185A

JP2015019185A - 音声スイッチ装置、音声スイッチ方法、及びそのプログラム

Info

Publication number: JP2015019185A
Application number: JP2013144100A
Authority: JP
Inventors: 江村　暁; Akira Emura; 暁江村; 祐介日和▲崎▼; Yuusuke Hiwazaki; 仲大室; Naka Omuro
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-07-10
Filing date: 2013-07-10
Publication date: 2015-01-29
Anticipated expiration: 2033-07-10
Also published as: JP5762479B2

Abstract

【課題】波面の進行方向毎に異なるゲインを適用する音声スイッチ装置、音声スイッチ方法、及びそのプログラムを提供する。
【解決手段】音声スイッチ装置３００は、Ｐ個の第一マイクロホン１ｐを設置した第一空間の地点（ア）で取得した音波面を、Ｐ個の第二スピーカ２ｐを設置した第二空間の地点（イ）で再合成し、Ｐ個の第二マイクロホンを設置した第二空間で取得した音波面を、Ｐ個の第一スピーカを設置した第一空間で再合成するものとし、第二スピーカで再生される信号を再生信号とし、第二マイクロホン３ｐで収音される信号を収音信号とし、波数領域の再生信号と波数領域の収音信号とから、周波数と波数との組合せ毎に、波数領域の再生信号と波数領域の収音信号とに対する減衰ゲインを算出する減衰ゲイン算出部２３とを含む。
【選択図】図７

Description

本発明は、マルチチャネル双方向拡声通話等において通話を安定化するための音声スイッチ装置、音声スイッチ方法、及びそのプログラムに関する。

音声会議装置やテレビ会議装置では、スピーカから再生した音がマイクロホンで収音されて生じる音響エコーを消去するために、音声スイッチ装置を内部に備えたエコーキャンセラを使用する。

拡声通話では、遠隔地からの音声をスピーカで再生し、こちらの音声をマイクロホンで収音して遠隔地に送る。このとき、スピーカで再生された音がマイクロホンで収音される。そのままではエコーとなって遠隔地に送られてしまうために、ハウリングが生じて、通話不能になる。ハウリングを防止するために、音声スイッチ装置を用いて、受話と送話の有無を判定し、受話がない場合には再生信号のゲインを下げ、送話がない場合には収音信号のゲインを下げる。

この音声スイッチ装置の動作を、モノラルチャネルの場合について図１を用いて説明する。音声スイッチ装置９は、受話端１を介して遠隔地から再生信号ｘ（ｎ）を受け取る。また、音声スイッチ装置９は、マイクロホン３で収音した収音信号ｙ（ｎ）を受け取る。減衰ゲイン算出部９５は、減衰前の（図１のＡ点での）再生信号ｘ（ｎ）と減衰前の（図１の点Ｃでの）収音信号ｙ（ｎ）の大きさから受話と送話のどちらが優勢かを判定する。なお、ｎは、時刻を表すインデックスである。受話が優勢と判定されたとき、送話側減衰部９４で収音信号ｙ（ｎ）を減衰させ、送話端４に出力する。一方、送話が優勢と判定されたとき受話側減衰部９３で再生信号ｘ（ｎ）を減衰させ、スピーカ２に出力する。

スピーカ２とマイクロホン３が一体型の音声会議装置では、スピーカ２とマイクロホン３との間の音響結合が既知であることを利用して、送受話判定の精度を上げることができる。具体的には、この音響結合量と減衰後の（図１の点Ｂでの）再生信号ｘ（ｎ）のレベルからエコーのレベルを推定し、推定値ｙ＾（ｎ）を収音信号ｙ（ｎ）のレベルから差し引くことで、より正確に送話のレベルを得ることができる。

さらに、マルチチャネル拡声通話における従来の音声スイッチ方法として、特許文献１が知られている。図２を用いてマルチチャネル拡声通話における従来の音声スイッチ方法を説明する。Ｐチャネル拡声通話系では、音声スイッチ装置８は、Ｐ個の送話音声パワー推定部８６_ｐを含み、Ｐ個のスピーカ２_ｐとＰ個のマイクロホン３_ｐとからなる音響系をＰ個のＰ入力１出力系に分解する。ただし、ｐ＝１，２，…，Ｐである。そして、送話音声パワー推定部８６_ｐ（図２ではｐ＝１について説明する。）は、Ｐ個のＴＦ変換部８６１_ｐを含み、ＴＦ変換部８６１_ｐは、時間領域の再生信号ｘ（ｐ，ｎ）を周波数領域に変換する。また、ＴＦ変換部８６２は、収音信号ｙ（ｎ）を周波数領域に変換する。エコー成分比率推定部８６３は、周波数領域の再生信号Ｘ_ｆ（ｐ，ｉ）と収音信号Ｙ_ｆ（ｐ，ｉ）とを用いて、収音信号について、エコー成分が占める比率γ^２ _ｆ（ｐ，ｉ）を推定する。なお、ｆは周波数のインデックスを、ｉはフレームのインデックスを表す。送話パワー算出部８６４は、その比率γ^２ _ｆ（ｐ，ｉ）からエコー以外の成分として送話パワーＰ_ｆ（ｐ，ｉ）を算出する。

減衰ゲイン制御部８５では、Ｐチャネルの再生信号ｘ（ｐ，ｎ）とＰチャネルの送話パワーＰ_ｆ（ｐ，ｉ）から、受話と送話のどちらが優勢かを判定し、判定結果に応じて受話側及び送話側のゲインを算出する。

この受話側及び送話側のゲインは、図３のように受話側と送話側とで変動しても、受話側の全チャネル、または、受話側の全チャネルに同じゲインを適用する。それはチャネルｐ毎に異なるゲインを適用すると、再生音像の位置が変わったり動いたりするためである。例えばＰ＝２チャネルのときに受話側でチャネルｐ毎に異なるゲインを適用すると、再生信号ｘ（ｐ，ｎ）のＬＲバランスが本来のＬＲバランスから変わってしまい、音像の再生位置が本来より右もしくは左に寄ってしまう。また再生中にＬＲバランスが変化した場合、再生音像の位置が動いてしまう。

特開２００７−１５１０４７号公報

近年、マルチチャネル再生技術は、チャネル数拡大の方向へ、例えばステレオ再生から５．１チャネル再生へと進んでいる。さらに高い立体感で音が再生されるリスニングエリアを大幅に拡大する技術として、Wave Field Synthesis（以下「ＷＦＳ」ともいう）の研究が進められている。ＷＦＳでは、数十以上のマイクロホン、数十以上のスピーカを用いて、図４のようにある地点での音波面を取得し、別の地点で再合成する。このようなＷＦＳ収音再生技術として、波面再構成フィルタ１１が提案されている（参考文献１参照）。
（参考文献１）小山、「音場再現技術における数理問題」、日本音響学会誌、２０１２年、Ｖｏｌ．６８，Ｎｏ．１１，ｐｐ．５８４−５８９．

波面再構成フィルタ１１では、Ｐ個のマイクロホン１_ｐで収音された時間領域の収音信号（以下、スピーカ２_ｐで再生される信号という意味で「再生信号」という）ｘ（ｐ，ｎ）を、多ＣＨ短時間フーリエ変換部１１１及び空間フーリエ変換部１１２を介して、波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）に変換する。ただし、ｋは波数のインデックスを表す。Ｐ個のマイクロホン１_ｐを設置した地点で取得した音波面を、Ｐ個のスピーカ２_ｐを設置した地点で再合成するように、フィルタ１１３は、再生信号Ｘ__ｆ（ｋ，ｉ）をフィルタリングし、再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）を求める。ただし、下付き添え字Ｒは、音波面を再合成するためのフィルタリングした信号であることを示す。波数領域の再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）を、空間逆フーリエ変換部１１４及び多ＣＨ短時間逆フーリエ変換部１１５を介して、Ｐ個の時間領域の再生信号ｘ_Ｒ（ｐ，ｎ）に変換する。Ｐ個の時間領域の再生信号ｘ_Ｒ（ｐ，ｎ）がＰ個のスピーカで再生され、音波面が再合成される。

空間的な音情報の伝送は、数十個のマイクロホンとスピーカの配置を同一にし、マイクロホンで収音した信号をそのまま対応するスピーカから再生することでも、可能である。しかし、収音された音場（以下「収音音場」ともいう）と再生された音場（以下「再生音場」ともいう）との間の関係は、音波伝搬の物理式を満たさなくなる。参考文献２においてBerkhoutらは音波の物理式に従う収音再生を解析し、理想的なダイポール特性を持つマイクロホンと理想的なモノポール特性を持つスピーカを用いれば、収音音場と再生音場との間の関係が音波伝搬の物理式を満たすことを示した。
（参考文献２）A. J. Berkhout, D. de Vries, and P. Vogel, "Acoustic control by wave field synthesis", J. Acoust. Soc. Am, 1993, vol.93, pp.2764-2778

このマイクロホンによる収音は、「低域ほどゲインが小さい」という周波数特性を持ち、「脇から入射する音ほどゲインが小さい」という指向特性を持つ。

参考文献１の波面再構成フィルタを用いれば、理想的なダイポール特性を持つマイクロホンでなく、通常入手できるモノポール特性のマイクロホンとスピーカを用いても、音波伝搬の物理式を満たすように音場を収音し、再生することができる。

ＷＦＳの収音再生システムは、音空間全体の伝送を目的とするため、伝送する空間の幅、すなわち、マイクロホンアレー及びスピーカアレーの横幅は、例えば大型液晶テレビよりもずっと大きく、３ｍ以上に設定される。そのため各マイクロホンで収音される送話レベルの空間的なピーク位置は話者の位置に応じて変わり、話者から遠いマイクロホンほど送話レベルは減衰する。

ＷＦＳ収音再生を用いて双方向音声通信を行うことを考える。この場合、図４に示すように、スピーカ２_ｐが配置される空間に、マイクロホン３_ｐを配置し、マイクロホン１_ｐが配置される空間にスピーカ４_ｐを配置し、マイクロホン３_ｐとスピーカ４_ｐとの間に波面再構成フィルタ１２を設ける必要がある。波面再構成フィルタ１２は、波面再構成フィルタ１１と同様の構成であり、マイクロホン３_ｐで収音された収音信号ｙ（ｐ，ｎ）を受け取り、フィルタリングして、収音信号ｙ_Ｒ（ｐ，ｎ）を出力する。

ここで、従来の音声スイッチ装置を適用することを考える。図５のように対地（双方向通話の通話先、言い換えると、スピーカ２_ｐの再生信号の送信元）との間で話者位置が重ならず、図６のように空間的な送話の信号レベルと受話の信号レベルのピーク位置がずれている場合を考える。

受話の信号レベルと送話の信号レベルとが図６のような概形を持って拮抗している場合、受話と送話のどちらが優勢かを判定するのは困難になる。それでも判定結果に応じて送話もしくは受話の一方を減衰しようとすると、音声レベルの時間変動も影響して、判定結果及び減衰量がバタついてしまい（不安定になり）、音切れが生じやすくなる。また受話と送話の双方を減衰しようとすれば、受話側の全チャネルと送話側の全チャネルに減衰が入り続ける状態となり、どちらの音声も聞き取りが困難になってしまう。また再生信号と収音信号とは、波面再構成フィルタにより周波数特性が大きく異なるために直接比較しても望ましい判定結果を得られる保証はない。

本発明は、受話側の全チャネル、または、受話側の全チャネルに同じゲインを適用するのではなく、波面の進行方向毎に異なるゲインを適用する音声スイッチ装置、音声スイッチ方法、及びそのプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、音声スイッチ装置は、複数の第一マイクロホンを設置した第一空間で取得した音波面を、複数の第二スピーカを設置した第二空間で再合成し、複数の第二マイクロホンを設置した第二空間で取得した音波面を、複数の第一スピーカを設置した第一空間で再合成するものとし、第二スピーカで再生される信号を再生信号とし、第二マイクロホンで収音される信号を収音信号とし、波数領域の再生信号と波数領域の収音信号とから、周波数と波数との組合せ毎に、波数領域の再生信号と波数領域の収音信号とに対する減衰ゲインを算出する減衰ゲイン算出部と、波数領域の再生信号に減衰ゲインを適用する第一減衰ゲイン適用部と、波数領域の収音信号に減衰ゲインを適用する第二減衰ゲイン適用部とを含む。

上記の課題を解決するために、本発明の第二の態様によれば、音声スイッチ方法は、複数の第一マイクロホンを設置した第一空間で取得した音波面を、複数の第二スピーカを設置した第二空間で再合成し、複数の第二マイクロホンを設置した第二空間で取得した音波面を、複数の第一スピーカを設置した第一空間で再合成するものとし、第二スピーカで再生される信号を再生信号とし、第二マイクロホンで収音される信号を収音信号とし、波数領域の再生信号と波数領域の収音信号とから、周波数と波数との組合せ毎に、波数領域の再生信号と波数領域の収音信号とに対する減衰ゲインを算出する減衰ゲイン算出ステップと、波数領域の再生信号に減衰ゲインを適用する第一減衰ゲイン適用ステップと、波数領域の収音信号に減衰ゲインを適用する第二減衰ゲイン適用ステップとを含む。

本発明によれば、波面の進行方向毎に異なるゲインを適用できるという効果を奏する。

モノラルチャネルの場合の音声スイッチ装置の動作を説明するための図。マルチチャネル拡声通話における従来の音声スイッチ方法を説明するための図。受話側及び送話側のゲインの変動を説明するための図。ＷＦＳでは、ある地点での音波面を取得し、別の地点で再合成する方法を説明するための図。対地との間で話者位置が重ならない様子を示す図。空間的な送話の信号レベルと受話の信号レベルのピーク位置がずれている様子を示す図。第一実施形態に係る音声スイッチ装置の機能ブロック図。第一実施形態に係る音声スイッチ装置の処理フローを示す図。飽和特性を持つ関数を説明するための図。送話優勢度から送話側の減衰ゲインを求めるための関数を説明するための図。第一実施形態に係る音声スイッチ装置の減衰ゲインの設定を説明するための図。第二実施形態に係る音声スイッチ装置の機能ブロック図。第二実施形態に係る音声スイッチ装置の処理フローを示す図。第三実施形態に係る音声スイッチ装置の機能ブロック図。第三実施形態に係る音声スイッチ装置の処理フローを示す図。第三実施形態に係るエコー消去部の機能ブロック図。第三実施形態に係るエコー消去部の処理フローを示す図。フィルタ係数の転送単位を説明するための図。第三実施形態に係る波数領域残留エコー推定消去部の機能ブロック図。第三実施形態に係る波数領域残留エコー推定消去部の処理フローを示す図。第三実施形態に係るノイズ抑圧部の機能ブロック図。第三実施形態に係るノイズ抑圧部の処理フローを示す図。第三実施形態に係るノイズ抑圧部の効果を説明するための図。単一周波数波の平面波のサンプリングの様子を示す図。空間エリアシングが生じる様子及び生じない様子を示す図。第三実施形態の第一変形例に係る音声スイッチ装置の機能ブロック図。第三実施形態の第一変形例に係る音声スイッチ装置の処理フローを示す図。第三実施形態の第四変形例に係る波数領域残留エコー推定消去部の機能ブロック図。第三実施形態の第四変形例に係る波数領域残留エコー推定消去部の処理フローを示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、この明細書の表記においては、Ａ_は

を、Ａ^は

を、Ａ^_は

を表すものとする。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜本実施形態のポイント＞
本実施形態では、本来あるべき音像の位置と再生音像の位置とを保ちつつ、受話及び送話のゲインを従来よりも柔軟に適用できる方法を提案する。

そのために、本実施形態は多チャネルの受話信号及び送話信号を周波数毎に分解し、さらに波面の進行方向毎に分解する。そして進行方向毎に異なるゲインを適用する。これにより受話信号の波面が優勢な方向では送話信号を減衰させ、送話信号が優勢な方向では受話信号を減衰させることが可能となる。また、波面再構成フィルタの適用前の再生信号と収音信号とを比較して送受話状態を判定する。これにより、受話と送話とが混在する状況においても、受話と送話の両方をほぼ減衰させることなく通すことが可能となる。

＜第一実施形態に係る音声スイッチ装置３００＞
図７は本実施形態に係る音声スイッチ装置３００の機能ブロック図を、図８はその処理フローを示す。図７では、２地点（ア）と（イ）を、波面合成信号処理と音声スイッチ信号処理により双方向接続したときの処理構成を示す。なお、２地点（ア）と（イ）は、図７に示したものに限定されない。２地点（ア）と（イ）は、隣接していても互いに離れた位置にあってもよい。また、マイクロホン、スピーカの向きもどのようなものであってもよい。

音声スイッチ装置３００は、多ＣＨ短時間フーリエ変換部２１１及び２２１と、空間フーリエ変換部２１２及び２２２と、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３と、波面再構成フィルタ２１３及び２２３と、空間逆フーリエ変換部２１４及び２２４と、多ＣＨ短時間逆フーリエ変換部２１５及び２２５とを含む。

地点（ア）のＰ個のマイクロホン１_ｐで収音されたＰチャネルの収音信号（以下、地点（イ）から見て、スピーカ２_ｐで再生される信号という意味で「再生信号」ともいう）ｘ（ｐ，ｎ）は、多ＣＨ短時間フーリエ変換部２１１で周波数領域に変換され（ｓ２１１）、周波数ｆ毎に空間フーリエ変換部２１２で波数領域に変換される（ｓ２１２）ことで方向（波面、波数）毎に分解される。周波数−波数空間で分割された波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）は、各周波数ｆの各波数ｋについて、減衰ゲイン適用部２１７で減衰される（ｓ２１７）。その後、波数領域の波面再構成フィルタ２１３によりフィルタ処理され（ｓ２１３）、空間逆フーリエ変換部２１４及び多ＣＨ短時間逆フーリエ変換部２１５を経て時間領域のＰチャネルの再生信号ｘ_ＧＲ（ｐ，ｎ）に変換されて（ｓ２１４、ｓ２１５）、スピーカ２_ｐから再生される。ただし、下付添え字ＧＲは、減衰のためのゲインを適用し、かつ、音波面を再合成するためのフィルタリングした信号であることを示す。

地点（イ）のＰ個のマイクロホン３_ｐで収音されたＰチャネルの収音信号ｙ（ｐ，ｎ）は、多ＣＨ短時間フーリエ変換部２２１で周波数領域に変換され（ｓ２２１）、周波数ｆ毎に空間フーリエ変換部２２２で波数領域に変換される（ｓ２２２）ことで方向（波面、波数）毎に分解される。周波数−波数空間で分割された波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）は、各周波数ｆの各波数ｋについて、減衰ゲイン適用部２２７で減衰される（ｓ２２７）。その後、波数領域の波面再構成フィルタ２２３によりフィルタ処理され（ｓ２２３）、空間逆フーリエ変換部２２４及び多ＣＨ短時間逆フーリエ変換部２２５を経て時間領域のＰチャネルの収音信号ｙ_ＧＲ（ｐ，ｎ）に変換されて（ｓ２２４、ｓ２２５）、地点（ア）のスピーカ４_ｐから再生される。

減衰ゲイン適用部２１７及び２２７で適用されるゲインは、減衰ゲイン制御部２３で決定される（ｓ２３）。減衰ゲイン制御部２３では、各周波数ｆ、各波数ｋにおいて、減衰前の再生信号Ｘ__ｆ（ｋ，ｉ）と収音信号Ｙ__ｆ（ｋ，ｉ）とから、受話と送話のどちらが優勢かを判定する。なお、地点（イ）から見て、再生信号Ｘ__ｆ（ｋ，ｉ）が受話側の信号であり、収音信号Ｙ__ｆ（ｋ，ｉ）が送話側の信号である。受話が優勢と判定されたとき、送話側の減衰ゲイン適用部２２７で収音信号Ｙ__ｆ（ｋ，ｉ）を減衰させ、送話が優勢と判定されたとき受話側の減衰ゲイン適用部２１７で再生信号Ｙ__ｆ（ｋ，ｉ）を減衰させる。

各周波数ｆ、各波数ｋにおいて入力から出力までのゲイン（音響結合）が事前に分かっている場合には、再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）のレベル、すなわち、波面再構成フィルタ２１３の出力信号のレベルにこのゲインをかけてエコーレベルを推定し、推定値Ｙ^__ｆ（ｋ，ｉ）を収音信号Ｙ__ｆ（ｋ，ｉ）のレベルから差し引くことで、より正確に送話信号レベルを得ることができ、送話状態か受話状態かをより高い精度で判定できる。

以下、各部の詳細を説明する。

＜多ＣＨ短時間フーリエ変換部２１１及び２２１＞
多ＣＨ短時間フーリエ変換部２１１は、Ｐチャネルの時間領域の再生信号ｘ（ｐ，ｎ）を受け取り、チャネルｐ毎に周波数領域の再生信号Ｘ（ｐ，ｉ）に変換し（ｓ２１１）、空間フーリエ変換部２１２に出力する。ただし、ｉはフレーム番号を表す。なお、周波数領域変換の方法としては、高速フーリエ変換（Fast Fourier Transform；以下「ＦＦＴ」ともいう）等が考えられる。

まず、多ＣＨ短時間フーリエ変換部２１１は、再生信号ｘ（ｐ，ｎ）をＦ／Ｄ個受け取る毎に（言い換えると、ｎ＝ｉＦ／Ｄの関係になる毎に）、２Ｆ個の再生信号ｘ（ｐ，ｎ−２Ｆ＋１），ｘ（ｐ，ｎ−２Ｆ＋２），…，ｘ（ｐ，ｎ）を１フレーム分としてブロック化し、フレーム単位の再生信号ｘ（ｐ，ｉ）を得る。ただし、Ｆは自然数であり、ＤはＦを割り切る自然数である。例えば、

である。ただし、^Ｔは転置を表す。以下、特に断りが無い限り、各信号を１フレーム＝２Ｆサンプル（フレーム長）、シフト量Ｆ／Ｄサンプル（シフト幅）でブロック化する。ＦＦＴ計算を簡略化・高速化するために、Ｆを２のべき乗にとることが多い。以下ではＤ≧２の場合を示す。

さらに、多ＣＨ短時間フーリエ変換部２１１は、フレーム単位の再生信号ｘ（ｐ，ｉ）を、次式のように周波数領域の再生信号Ｘ（ｐ，ｉ）に変換する。

なお、再生信号Ｘ（ｐ，ｉ）を含め、周波数領域の各信号は短時間スペクトルにより表される。なお、ｆは周波数のインデックスを表し、ｆ＝０，１，…，２Ｆ−１である。信号のサンプリング周波数をｆ_Ｓとすると、Ｘ_ｆ（ｐ，ｉ）はフレームｉにおけるチャネルｐの再生信号の周波数ｆ_Ｓｆ／２Ｆ［Ｈｚ］の成分を表す。

同様に、多ＣＨ短時間フーリエ変換部２２１は、Ｐチャネルの時間領域の収音信号ｙ（ｐ，ｎ）を受け取り、チャネルｐ毎に周波数領域の再生信号Ｙ（ｐ，ｉ）に変換し（ｓ２２１）、空間フーリエ変換部２２２に出力する。

＜空間フーリエ変換部２１２及び２２２＞
空間フーリエ変換部２１２は、Ｐチャネルの周波数領域の再生信号Ｘ（ｐ，ｉ）＝［Ｘ_０（ｐ，ｉ） … Ｘ_ｆ（ｐ，ｉ） … Ｘ_２F-1（ｐ，ｉ）］を受け取り、以下の式（３）や（４）により、周波数ｆ毎に波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）に変換し（ｓ２１２）、波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）を減衰ゲイン制御部２３及び減衰ゲイン適用部２１７に出力する。ただし、ここでは、ｆ＝０，１，…，Ｆについて、波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）に変換する。Ｆ＜ｆ≦２Ｆ−１については、後述する空間逆フーリエ変換部２１４において説明する。また、ｋは波数のインデックスであり、Ｋを自然数とし、チャネル数Ｐが偶数でＰ＝２Ｋのときｋ＝−Ｋ＋１，−Ｋ＋２，…，−１，０，１，…，Ｋであり、チャネル数Ｐが奇数でＰ＝２Ｋ＋１のときｋ＝−Ｋ，−Ｋ＋１，…，−１，０，１，…，Ｋである。

（１）チャネル数Ｐが偶数でＰ＝２Ｋのとき、

である。
（２）チャネル数Ｐが奇数でＰ＝２Ｋ＋１のとき、

である。波数領域への変換は、２のべき乗の点数を持つＦＦＴで高速に行うため、以下、チャネル数Ｐが偶数の場合（Ｐ＝２Ｋ）について説明を進める。なお、再生信号Ｘ__ｆ（ｋ，ｉ）を含め、波数領域の各信号は短時間スペクトルにより表される。この処理により、再生信号は、進行方向毎に分解される。以下の減衰ゲイン適用処理は、送話側の全チャネルまたは受話側の全チャネル毎ではなく、方向毎に行われる。

なお、空間フーリエ変換部２１２は、特定方向にビームを持つマイクロホンアレーをＰ個並べていると考えることもできる。そして、後述する空間逆フーリエ変換部２１４により、信号が元のＰチャネルの信号に戻ることから、このＰ個のマイクロホンアレーは逆変換を持つことが分かる。

同様に、空間フーリエ変換部２２２は、Ｐチャネルの周波数領域の収音信号Ｙ（ｐ，ｉ）＝［Ｙ_０（ｐ，ｉ） … Ｙ_ｆ（ｐ，ｉ） … Ｙ_２F-1（ｐ，ｉ）］を受け取り、周波数ｆ毎に波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）に変換し（ｓ２２２）、波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）を減衰ゲイン制御部２３及び減衰ゲイン適用部２２７に出力する。

＜減衰ゲイン制御部２３＞
減衰ゲイン制御部２３は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）と収音信号Ｙ__ｆ（ｋ，ｉ）とを受け取り、波数領域の減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）及びＧ__Ｙ，ｆ（ｋ，ｉ）とを求め（ｓ２３）、それぞれ減衰ゲイン適用部２１７及び２２７に出力する。例えば、減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）及びＧ__Ｙ，ｆ（ｋ，ｉ）は、以下のようにして求める。

まず、波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）と収音信号Ｙ__ｆ（ｋ，ｉ）とをそれぞれ２乗して平滑化する、もしくは、絶対値をとって平滑化する等の処理により、各信号のレベルｌｅｖｅｌ（Ｘ__ｆ（ｋ，ｉ））及びｌｅｖｅｌ（Ｙ__ｆ（ｋ，ｉ））を求める。

次に、各信号のレベルから送話がどれくらい優勢か（送話優勢度）を求める。その方法としては、例えば、図９に示すような飽和特性を持つ関数を用い、送話と受話の比率（送話優勢度）ｌｅｖｅｌ（Ｙ__ｆ（ｋ，ｉ））／ｌｅｖｅｌ（Ｘ__ｆ（ｋ，ｉ））を０〜１にマッピングすることが考えられる。なおこのグラフの横軸はｄＢ単位になっている。また飽和点を決めるパラメータＲ_ｔｈ［ｄＢ］としては、６〜２０［ｄＢ］を用いる。

さらに、例えば、図１０のような関数を用いて、送話優勢度から送話側の減衰ゲインＧ__Ｙ，ｆ（ｋ，ｉ）を求める。なお減衰ゲインの最小値−Ｌｓ［ｄＢ］としては、−３〜４０[dB]の値が考えられる。受話側の減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）は、あらかじめ設定した送話側＋受話側の減衰ゲインＧ__all，ｆ（ｋ，ｉ）を用いて、次式により求める。

このような構成により、図１１に示すように、送話側の全チャネルまたは受話側の全チャネル毎ではなく、各周波数ｆの各波数ｋについて、減衰ゲインを設定することができる。なお、図１１は、色の濃い部分ほど適用される減衰ゲインが小さいことを表す。

＜減衰ゲイン適用部２１７及び２２７＞
減衰ゲイン適用部２１７は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）と波数領域の減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）とを受け取り、各周波数ｆ（ただし、ｆ≦Ｆ）の各波数ｋ（−Ｋ＜ｋ≦Ｋ）において、次式のように、波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）に、減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）を適用し（乗じ）（ｓ２１７）、減衰ゲイン適用後の再生信号Ｘ__Ｇ，ｆ（ｋ，ｉ）を求め、波面再構成フィルタ２１３に出力する。

同様に、減衰ゲイン適用部２２７は、波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）と波数領域の減衰ゲインＧ__Ｙ，ｆ（ｋ，ｉ）とを受け取り、各周波数ｆ（ｆ≦Ｆ）において、波数領域（−Ｋ＜ｋ≦Ｋ）で収音信号Ｙ__ｆ（ｋ，ｉ）に、減衰ゲインＧ__Ｙ，ｆ（ｋ，ｉ）を適用し（乗じ）（ｓ２２７）、減衰ゲイン適用後の収音信号Ｙ__Ｇ，ｆ（ｋ，ｉ）を求め、波面再構成フィルタ２２３に出力する。

＜波面再構成フィルタ２１３及び２２３＞
波面再構成フィルタ２１３は、地点（ア）で取得した音波面を地点（イ）で再合成するように、複数のマイクロホン１_ｐで収音した再生信号をフィルタリングし、複数のスピーカ２_ｐで再生する複数の再生信号を求めるためのフィルタである。同様に、波面再構成フィルタ２２３は、地点（イ）で取得した音波面を地点（ア）で再合成するように、複数のマイクロホン３_ｐで収音した収音信号をフィルタリングし、複数のスピーカ４_ｐで再生する複数の収音信号を求めるためのフィルタである。

波面再構成フィルタ２１３は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__Ｇ，ｆ（ｋ，ｉ）を受け取り、各周波数ｆ（ただし、ｆ≦Ｆ）の各波数ｋ（−Ｋ＜ｋ≦Ｋ）において、次式のように、波数領域の再生信号Ｘ__Ｇ，ｆ（ｋ，ｉ）にフィルタ係数Ｒ__Ｘ，ｆ（ｋ）をかけることで、フィルタリングし（ｓ２１３）、フィルタリング後の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を求め、空間逆フーリエ変換部２１４に出力する。

同様に、波面再構成フィルタ２２３は、Ｐ×（Ｆ＋１）個の波数領域の収音信号Ｙ__Ｇ，ｆ（ｋ，ｉ）を受け取り、各周波数ｆ（ただし、ｆ≦Ｆ）の各波数ｋ（−Ｋ＜ｋ≦Ｋ）において、波数領域の収音信号Ｙ__Ｇ，ｆ（ｋ，ｉ）にフィルタ係数Ｒ__Ｙ，ｆ（ｋ）をかけることで、フィルタリングし（ｓ２２３）、フィルタリング後の収音信号Ｙ__ＧＲ，ｆ（ｋ，ｉ）を求め、空間逆フーリエ変換部２２４に出力する。

＜空間逆フーリエ変換部２１４及び２２４＞
空間逆フーリエ変換部２１４は、Ｐ×（Ｆ＋１）個の波数領域の減衰ゲイン適用処理及びフィルタリング処理済みの再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を受け取り、周波数ｆ≦Ｆにおいて、次式のように周波数ｆ毎に周波数領域の再生信号Ｘ_ＧＲ，ｆ（ｐ，ｉ）に変換し（ｓ２１４）、出力する。

なお、周波数Ｆ＜ｆ≦２Ｆ−１については、実数信号のＦＦＴ結果に関する対称性から、次式で周波数領域の再生信号Ｘ_ＧＲ，ｆ（ｐ，ｉ）を求める。
X_GR,f(p,i)=conj(X_GR,2F-f(p,i))
ただし、ｃｏｎｊ（Ａ）はＡ内のスカラーあるいはベクトル、行列の個々の要素に対して複素共役をとることを示す。なお、本実施形態では、周波数Ｆ＜ｆ≦２Ｆ−１について、減衰ゲイン適用部２１７等の処理を省略しているが、省略せずに全ての周波数０≦ｆ≦２Ｆ−１において処理を行ってもよい。

このようにして求めた合計Ｐ×２Ｆ個の周波数領域の再生信号Ｘ_ＧＲ，ｆ（ｐ，ｉ）を多ＣＨ短時間逆フーリエ変換部２１５に出力する。ただし、このとき、ｆ＝０，１，…，２Ｆ−１である。なお、逆波数変換方法としては、空間フーリエ変換部２１２における波数領域変換方法に対応するものを用いればよい。

同様に、空間逆フーリエ変換部２２４は、Ｐ×（Ｆ＋１）個の波数領域の減衰ゲイン適用処理及びフィルタリング処理済みの収音信号Ｙ__ＧＲ，ｆ（ｋ，ｉ）を受け取り、周波数ｆ≦Ｆにおいて、周波数ｆ毎に周波数領域の収音信号Ｙ_ＧＲ，ｆ（ｐ，ｉ）に変換し（ｓ２２４）、出力する。

＜多ＣＨ短時間逆フーリエ変換部２１５及び２２５＞
多ＣＨ短時間逆フーリエ変換部２１５は、Ｐ×２Ｆ個の周波数領域の再生信号Ｘ_ＧＲ，ｆ（ｐ，ｉ）を受け取り、次式のように、チャネルｐ毎に周波数領域の再生信号Ｘ_ＧＲ，ｆ（ｐ，ｉ）を逆ＦＦＴし、時間領域の再生信号ｘ_ＧＲ（ｐ，ｉ）（ベクトルであり、要素数は２Ｆ個）に変換する（ｓ２１５）。

時間領域変換方法としては、多ＣＨ短時間フーリエ変換部２１１における周波数領域変換方法に対応するものを用いればよい。

さらに、多ＣＨ短時間逆フーリエ変換部２１５は、時間領域の再生信号ｘ（ｐ，ｉ）を合成し、合成した信号を音声スイッチ装置３００の出力値として出力する。例えば、多ＣＨ短時間フーリエ変換部２１１において、再生信号ｘ（ｐ，ｎ）をＤ≧２でフレーム化した場合には、多ＣＨ短時間逆フーリエ変換部２１５は、フレームｉで求めた再生信号ｘ_ＧＲ（ｐ，ｉ）と一つ前のフレームｉ−１で求めた再生信号ｘ_ＧＲ（ｐ，ｉ−１）とに対して窓かけ処理を行った上で、合成し、合成後の再生信号ｘ’_ＧＲ（ｐ，ｉ）（ベクトルであり、要素数はＦ／Ｄ個）の要素ｘ_ＧＲ（ｐ，ｎ−Ｆ／Ｄ＋１），ｘ_ＧＲ（ｐ，ｎ−Ｆ／Ｄ＋２），…，ｘ_ＧＲ（ｐ，ｎ）を逐次、出力値として出力する。ただし、ｎ＝ｉＦ／Ｄの関係にある。

同様に、多ＣＨ短時間逆フーリエ変換部２２５は、Ｐ×２Ｆ個の周波数領域の収音信号Ｙ_ＧＲ，ｆ（ｐ，ｉ）を受け取り、チャネルｐ毎に周波数領域の収音信号Ｙ_ＧＲ，ｆ（ｐ，ｉ）を逆ＦＦＴし、時間領域の収音信号ｙ_ＧＲ（ｐ，ｉ）（ベクトルであり、要素数は２Ｆ個）に変換する（ｓ２２５）。さらに、多ＣＨ短時間逆フーリエ変換部２２５は、時間領域の収音信号ｙ（ｐ，ｉ）を合成し、合成した信号ｙ’_ＧＲ（ｐ，ｉ）の要素ｙ_ＧＲ（ｐ，ｎ−Ｆ／Ｄ＋１），ｙ_ＧＲ（ｐ，ｎ−Ｆ／Ｄ＋２），…，ｙ_ＧＲ（ｐ，ｎ）を逐次、出力値として出力する。

＜効果＞
このような構成により、波面の進行方向毎に異なるゲインを適用できる。つまり、図１１のように周波数ｆ毎、波数ｋ毎に減衰ゲインをきめ細かく設定することができる。これにより再生信号の波面が優勢な方向で収音信号を減衰させ、収音信号が優勢な方向で再生信号を減衰させることが可能となり、送話と受話の混在するダブルトーク状況でも通話（受話と送話の両方）をほぼ減衰させることなく双方向に通すことが可能となる。

＜変形例＞
なお、ｓ２１２の周波数領域から波数領域への空間フーリエ変換について、式（３）では各周波数ｆにおけるＰチャネルの再生信号Ｘ_ｆ（ｐ，ｉ）を対象としてＰ（＝２Ｋ）点フーリエ変換を用いている。この場合、空間フーリエ変換部２１２の入力から空間逆フーリエ変換部２１４の出力までは巡回畳み込みの処理と見ることができる。巡回畳み込みはＰチャネルの空間信号を周期信号として扱うために、その悪影響が空間信号の両端に現れやすい。これを避けるために、次式のようにＰチャネルの再生信号Ｘ_ｆ（ｐ，ｉ）の両脇にＰ／２個ずつ０詰めをして、２Ｐ（＝４Ｋ）点フーリエ変換を適用してもよい。

この場合、減衰ゲイン制御処理（ｓ２３）や減衰ゲイン適用処理（ｓ２１７）で処理対象となる波数ｋの範囲が、−Ｋ＋１≦ｋ≦Ｋから−２Ｋ＋１≦ｋ≦２Ｋへと倍になる。また空間逆フーリエ変換部２１４は、ｓ２１４の式（７）の代わりに次式を用い、２Ｐ（＝４Ｋ）点逆フーリエ変換を使用する。そして、その結果の中央部Ｐ点を抜き出して、チャネル毎に短時間逆フーリエ変換を適用すればよい。

空間フーリエ変換部２２２と空間逆フーリエ変換部２２４についても、同様に２Ｐ（＝４Ｋ）点のフーリエ変換、逆フーリエ変換を用いることができる。

また、音声スイッチ装置３００は、少なくとも、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３とを含めばよい。ただし、音声スイッチ装置３００は、送話側の全チャネルまたは受話側の全チャネル毎ではなく、方向毎に減衰ゲインを適用するため、ＷＦＳによる波面再構成フィルタ２１３及び２２３とともに利用するときにのみその効果を生じる。例えば、音声スイッチ装置３００は、多ＣＨ短時間フーリエ変換部２２１と、空間フーリエ変換部２２２と、減衰ゲイン適用部２１７及び２２７と、波面再構成フィルタ２１３と、減衰ゲイン制御部２３と、空間逆フーリエ変換部２１４と、多ＣＨ短時間逆フーリエ変換部２１５とを含み（図７の一点鎖線より右側の構成）、他の構成（多ＣＨ短時間フーリエ変換部２１１と、空間フーリエ変換部２１２と、波面再構成フィルタ２２３と、空間逆フーリエ変換部２２４と、多ＣＨ短時間逆フーリエ変換部２２５）については対地に設置された装置内に設ける構成としてもよい。このような構成により、収音再生＋音声スイッチを２地点に分割することができる。

また、本実施形態では、Ｐが偶数の場合について、説明しているが、Ｐが奇数（Ｐ＝２Ｋ＋１であってもよい。式（３）に代えて式（４）を用い、さらに、式（７）に代えて、次式を用いる。

また、多ＣＨ短時間フーリエ変換部２１１及び２２１の処理と空間フーリエ変換部２１２及び２２２の処理とを同時に行ってもよい。同様に、空間逆フーリエ変換部２１４及び２２４の処理と多ＣＨ短時間逆フーリエ変換部２１５及び２２５の処理とを同時に行ってもよい。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。図１２は第二実施形態に係る音声スイッチ装置の機能ブロック図を、図１３はその処理フローを示す。

第一実施形態とは、送受話判定の入力信号が異なる。第一実施形態は、波面再構成フィルタ２１３及び２２３のフィルタリング前の再生信号Ｘ__ｆ（ｋ，ｉ）と収音信号Ｙ__ｆ（ｋ，ｉ）とを比較して送受話判定を行った。第二実施形態では、フィルタリング後の再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）と収音信号Ｙ__Ｒ，ｆ（ｋ，ｉ）とを比較して送受話判定を行う。

＜波面再構成フィルタ２１３及び２２３＞
波面再構成フィルタ２１３は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）を受け取り、各周波数ｆ（ただし、ｆ≦Ｆ）の各波数ｋ（−Ｋ＜ｋ≦Ｋ）において、次式のように、波数領域の再生信号Ｘ__ｆ（ｋ，ｉ）にフィルタ係数Ｒ__Ｘ，ｆ（ｋ）をかけることで、フィルタリングし（ｓ２１３）、フィルタリング後の再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）を求め、減衰ゲイン適用部２１７に出力する。

同様に、波面再構成フィルタ２２３は、Ｐ×（Ｆ＋１）個の波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）を受け取り、各周波数ｆ（ただし、ｆ≦Ｆ）の各波数ｋ（−Ｋ＜ｋ≦Ｋ）において、波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）にフィルタ係数Ｒ__Ｙ，ｆ（ｋ）をかけることで、フィルタリングし（ｓ２２３）、フィルタリング後の収音信号Ｙ__Ｒ，ｆ（ｋ，ｉ）を求め、減衰ゲイン適用部２２７に出力する。

＜減衰ゲイン制御部２３＞
減衰ゲイン制御部２３は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）と収音信号Ｙ__Ｒ，ｆ（ｋ，ｉ）とを受け取り、波数領域の減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）及びＧ__Ｙ，ｆ（ｋ，ｉ）とを求め（ｓ２３）、それぞれ減衰ゲイン適用部２１７及び２２７に出力する。再生信号Ｘ__ｆ（ｋ，ｉ）と収音信号Ｙ__ｆ（ｋ，ｉ）に代えて、再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）と収音信号Ｙ__Ｒ，ｆ（ｋ，ｉ）を用いて、第一実施形態と同様の方法により、波数領域の減衰ゲインを求める。

＜減衰ゲイン適用部２１７及び２２７＞
減衰ゲイン適用部２１７は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）と波数領域の減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）とを受け取り、各周波数ｆ（ただし、ｆ≦Ｆ）の各波数ｋ（−Ｋ＜ｋ≦Ｋ）において、次式のように、波数領域の再生信号Ｘ__Ｒ，ｆ（ｋ，ｉ）に、減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）を適用し（乗じ）（ｓ２１７）、再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を求め、空間逆フーリエ変換部２１４に出力する。

同様に、減衰ゲイン適用部２２７は、波数領域の収音信号Ｙ__Ｒ，ｆ（ｋ，ｉ）と波数領域の減衰ゲインＧ__Ｙ，ｆ（ｋ，ｉ）とを受け取り、各周波数ｆ（ｆ≦Ｆ）において、波数領域（−Ｋ＜ｋ≦Ｋ）で収音信号Ｙ__Ｒ，ｆ（ｋ，ｉ）に、減衰ゲインＧ__Ｙ，ｆ（ｋ，ｉ）を適用し（乗じ）（ｓ２２７）、減衰ゲイン適用後の収音信号Ｙ__ＧＲ，ｆ（ｋ，ｉ）を求め、空間逆フーリエ変換部２２４に出力する。

このような構成により、第一実施形態と同様の効果を得ることができる。

なお、第二実施形態と第一実施形態の変形例とを組み合わせてもよい。例えば、音声スイッチ装置３００は、少なくとも、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３とを含めばよい。例えば、音声スイッチ装置３００は、多ＣＨ短時間フーリエ変換部２２１と、空間フーリエ変換部２２２と、減衰ゲイン適用部２１７及び２２７と、波面再構成フィルタ２２３と、減衰ゲイン制御部２３と、空間逆フーリエ変換部２１４と、多ＣＨ短時間逆フーリエ変換部２１５とを含み（図１２の一点鎖線より右側の構成）、他の構成（多ＣＨ短時間フーリエ変換部２１１と、空間フーリエ変換部２１２と、波面再構成フィルタ２１３と、空間逆フーリエ変換部２２４と、多ＣＨ短時間逆フーリエ変換部２２５）については対地に設置された装置内に設ける構成としてもよい。このような構成により、収音再生＋音声スイッチを２地点に分割することができる。

＜第三実施形態＞
第一実施形態と異なる部分を中心に説明する。

図１４は音声スイッチ装置３００の機能ブロック図を、図１５はその処理フローを示す。

音声スイッチ装置３００は、多ＣＨ短時間フーリエ変換部２１１及び２２１と、空間フーリエ変換部２１２及び２２２と、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３と、波面再構成フィルタ２１３及び２２３と、空間逆フーリエ変換部２１４及び２２４と、多ＣＨ短時間逆フーリエ変換部２１５及び２２５とを含み、さらに、エコー消去部１００と、波数領域残留エコー推定消去部５２３と、ノイズ抑圧部２３０とを含む。

＜エコー消去部１００＞
図１６はエコー消去部１００の機能ブロック図を、図１７はその処理フローを示す。

エコー消去部１００は、Ｐチャネルの再生信号ｘ_ＧＲ（ｐ，ｎ）及びＰチャネルの収音信号ｙ（ｐ，ｎ）を受け取り、Ｐチャネルの収音信号ｙ（ｐ，ｎ）からエコー成分を消去し（ｓ１００）、エコー成分消去後の収音信号ｙ_Ｄ（ｐ，ｎ）を出力する。なお、下付添え字Ｄは、エコー成分を消去した信号であることを示す。

本実施形態に係るエコー消去部１００では、Ｐ入力Ｐ出力の系を波数領域の適応フィルタで処理する。

エコー消去部１００は、時空間ＦＦＴ変換部１０、ＢＧ波数領域エコーレプリカ生成部２１、ＦＧ波数領域エコーレプリカ生成部２２、時空間逆ＦＦＴ変換部３１及び３２、Ｐ個の減算部４１_ｐ、時空間ＦＦＴ変換部５１〜５３、エコー経路推定部７０、転送判定部６０、Ｐ個の減算部４２_ｐ、Ｐ個のフレーム合成部８０_ｐを含む。

図１６に示すように転送判定部６０には時空間ＦＦＴ変換後のＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）、ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）が入力される。Ｐチャネルの再生信号ｘ_ＧＲ（ｐ，ｎ）は、Ｐ個のスピーカ２_ｐから再生され、Ｐ個のマイクロホン３_ｐで収音される。同時に、Ｐチャネルの再生信号ｘ_ＧＲ（ｐ，ｎ）は、時空間ＦＦＴ変換部１０において、波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）に変換される。ＦＧ波数領域エコーレプリカ生成部２２及びＢＧ波数領域エコーレプリカ生成部２１は、それぞれ波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を受け取り、波数領域のＦＧエコーレプリカＹ^__ＦＧ，ｆ（ｋ，ｉ）及びＢＧエコーレプリカＹ^__ＢＧ，ｆ（ｋ，ｉ）を生成する。

時空間逆ＦＦＴ変換部３２により時間領域に変換されたＦＧエコーレプリカｙ^_ＦＧ（ｐ，ｉ）と収音信号ｙ（ｐ，ｎ）との差であるＦＧ誤差信号ｅ_ＦＧ（ｐ，ｉ）が、フレーム合成部８０_ｐでフレーム合成後に、エコー成分を消去した収音信号ｙ_Ｄ（ｐ，ｎ）として、多ＣＨ短時間フーリエ変換部２１１に出力される。

時空間逆ＦＦＴ変換部３１により時間領域に戻したＢＧエコーレプリカｙ^__ＢＧ（ｐ，ｉ）と収音信号ｙ（ｐ，ｎ）との差であるＢＧ誤差信号ｅ_ＢＧ（ｐ，ｉ）は、時空間ＦＦＴ変換部５１において、波数領域に変換され、エコー経路推定部７０に入力される。エコー経路推定部７０は、波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）とＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）とを用いて、波数領域のフィルタ係数Ｈ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）を求め、ＢＧ波数領域エコーレプリカ生成部２１に出力し、フィルタ係数を更新する。

転送判定部６０は、波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）、収音信号Ｙ__ｆ（ｋ，ｉ）、ＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）及びＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）を比較し、適切と判定したときにＢＧ波数領域エコーレプリカ生成部２１のフィルタ係数Ｈ__{ＢＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）をＦＧ波数領域エコーレプリカ生成部２２に転送するように、制御信号ｃ（ｉ）をＢＧ波数領域エコーレプリカ生成部２１に出力する。ただし、ｋ’、ｆ’は、それぞれ転送判定部６０で転送を指示された周波数及び波数のインデックスを表す。フィルタ係数の転送単位は、チャネル毎ではなく、図１８のように各周波数ｆにおける各波数ｋへと細分される。なお、図１８中、網掛け部分に対応するフィルタ係数Ｈ__{ＢＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）を転送する。

本発明のエコー消去部１００の詳細を下記に示す。

＜時空間ＦＦＴ変換部１０及び５３＞
時空間ＦＦＴ変換部１０は、Ｐチャネルの時間領域の再生信号ｘ_ＧＲ（ｐ，ｎ）を受け取り、波数領域に変換し（ｓ１）、波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を出力する。例えば、多ＣＨ短時間フーリエ変換部２１１及び空間フーリエ変換部２１２と同様の方法により時間領域の再生信号ｘ_ＧＲ（ｐ，ｎ）を波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）に変換する。

時空間ＦＦＴ変換部５３も、同様に時間領域の収音信号ｙ（ｐ，ｉ）を波数領域に変換し（ｓ３５）、波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）を転送判定部６０に出力する。

＜ＢＧ波数領域エコーレプリカ生成部２１＞
ＢＧ波数領域エコーレプリカ生成部２１は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と波数領域のフィルタ係数Ｈ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）（詳細は後述する）とを受け取り（ただし、ｆ≦Ｆ）、各周波数ｆの各波数ｋにおいて、次式のように、波数領域（−Ｋ＜ｋ≦Ｋ）で再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）にフィルタ係数Ｈ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）をかけて、波数領域のエコーレプリカをＹ^__ＢＧ，ｆ（ｋ，ｉ）を生成し（ｓ１２）、出力する。

なお、次式のように、隣接する空間周波数成分を含めてもよい。

なお、δとして、参考文献３では１もしくは２が推奨されている。
（参考文献３）
M. Schneider, W. Kellermann, "A Wave-domain model for acoustic MIMO systems with reduced complexity", 2011 Joint Workshop on Hands-free Speech Communication and Microphone arrays, 2012, pp. 133-138.
なお、δ＝０のとき、式（３１）となる。

＜ＦＧ波数領域エコーレプリカ生成部２２＞
ＦＧ波数領域エコーレプリカ生成部２２は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と（ただし、ｆ≦Ｆ）、後述する転送判定部６０で転送を指示された波数領域のフィルタ係数Ｈ__{ＢＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）とを受け取る。なお、フィルタ係数Ｈ__{ＢＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）の個数は、転送を指示された個数によって変化し、フレームｉ毎に異なる。

ＦＧ波数領域エコーレプリカ生成部２２は、一つ前のフレーム（ｉ−１）において、利用したフィルタ係数Ｈ__ＦＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ−１）のうち、転送判定部６０で転送を指示された周波数ｆ’、波数ｋ’に対応するフィルタ係数Ｈ__{ＦＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ−１）をフィルタ係数Ｈ__{ＢＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）に置き換え、フィルタ係数Ｈ__{ＦＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）を更新する。

ＦＧ波数領域エコーレプリカ生成部２２は、ＢＧ波数領域エコーレプリカ生成部２１と同様に、再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）にフィルタ係数Ｈ__ＦＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）をかけて、波数領域のエコーレプリカをＹ^__ＦＧ，ｆ（ｋ，ｉ）を生成し（ｓ２２）、出力する。

＜時空間逆ＦＦＴ変換部３１及び３２＞
時空間逆ＦＦＴ変換部３１は、Ｐ×（Ｆ＋１）個の波数領域のエコーレプリカＹ^__ＢＧ，ｆ（ｋ，ｉ）を受け取り（ただしｆ≦Ｆ）、時間領域に変換し（ｓ１３）、時間領域のエコーレプリカｙ^_ＢＧ（ｐ，ｉ）を出力する。例えば、空間逆フーリエ変換部２１４及び多ＣＨ短時間逆フーリエ変換部２１５と同様の方法により波数領域のエコーレプリカＹ^__ＢＧ，ｆ（ｋ，ｉ）を時間領域のエコーレプリカｙ^_ＢＧ（ｐ，ｉ）に変換する。

同様に、時空間逆ＦＦＴ変換部３２は、Ｐ×（Ｆ＋１）個の波数領域のエコーレプリカＹ^__ＦＧ，ｆ（ｋ，ｉ）を受け取り（ただしｆ≦Ｆ）、時間領域に変換し（ｓ２３）、時間領域のエコーレプリカｙ^_ＦＧ（ｐ，ｉ）を出力する。

なお、ｓ１の周波数領域から波数領域への空間フーリエ変換換について、式（３）では各周波数ｆにおけるＰチャネルの信号を対象としてＰ（＝２Ｋまたは２Ｋ＋１）点ＦＦＴを用いている。この場合、時空間ＦＦＴ変換部１０の入力から時空間逆ＦＦＴ変換部３１または３２の出力までは巡回畳み込みの処理と見ることができる。よって、第一実施形態の変形例で説明した場合と同様に、Ｐチャネルの空間信号を周期信号として扱う際に生じる悪影響を低減するために、２Ｐ点フーリエ変換を適用してもよい。

＜減算部４１_ｐ及び４２_ｐ＞
減算部４１_ｐは、時間領域のエコーレプリカｙ^_ＢＧ（ｐ，ｉ）と時間領域の収音信号ｙ（ｐ，ｎ）とを受け取り、収音信号ｙ（ｐ，ｎ）からエコーレプリカｙ^_ＢＧ（ｐ，ｉ）を減算し、ＢＧ誤差信号ｅ_ＢＧ（ｐ，ｉ）を求め（ｓ１４）、時空間ＦＦＴ変換部５１に出力する。例えば、Ｆ個の収音信号ｙ（ｐ，ｎ−Ｆ＋１），ｙ（ｐ，ｎ−Ｆ＋２），…，ｙ（ｐ，ｎ）を蓄積し、収音信号ｙ（ｐ，ｉ）＝［ｙ（ｐ，ｎ−Ｆ＋１），ｙ（ｐ，ｎ−Ｆ＋２），…，ｙ（ｐ，ｎ）］とし、ＢＧ誤差信号ｅ_ＢＧ（ｐ，ｉ）を次式により求める。

同様に、減算部４２_ｐは、収音信号ｙ（ｐ，ｎ）からエコーレプリカｙ^_ＦＧ（ｐ，ｉ）を減算し、ＦＧ誤差信号ｅ_ＦＧ（ｐ，ｉ）を求め（ｓ２４）、時空間ＦＦＴ変換部５２及びフレーム合成部８０_ｐに出力する。

＜時空間ＦＦＴ変換部５１及び５２＞
時空間ＦＦＴ変換部５１は、Ｐ個の時間領域のＢＧ誤差信号ｅ_ＢＧ（ｐ，ｉ）を受け取り、波数領域に変換し（ｓ１５）、波数領域のＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）を転送判定部６０に出力する。

例えば、まず、時空間ＦＦＴ変換部５１は、時間領域のＢＧ誤差信号ｅ_ＢＧ（ｐ，ｉ）に０詰めをして、周波数領域に変換する。

次に、時空間ＦＦＴ変換部５１は、周波数領域のＢＧ誤差信号Ｅ_ＢＧ（ｐ，ｉ）を波数領域に変換する。

時空間ＦＦＴ変換部５２も、同様に時間領域のＢＧ誤差信号ｅ_ＢＧ（ｐ，ｉ）を受け取り、波数領域に変換し（ｓ２５）、波数領域のＢＧ誤差信号Ｅ_ＢＧ，ｆ（ｋ，ｉ）を転送判定部６０に出力する。

＜エコー経路推定部７０＞
エコー経路推定部７０は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と波数領域のＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）とを受け取り、この値を用いて、ＢＧ波数領域エコーレプリカ生成部２１内にある適応フィルタのフィルタ係数Ｈ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ＋１）を求め（ｓ４４）、ＢＧ波数領域エコーレプリカ生成部２１に出力する。

まず、エコー経路推定部７０は、フィルタ係数Ｈ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）の修正量ｄＨ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）を求める。例えば、周波数ｆ（ｆ≦Ｆ＋１）、波数ｋ（−Ｋ＋１≦ｋ≦Ｋ）の修正量ｄＨ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）を次式により求める。

ただし、−δ≦ｄｋ≦δである。右辺分母中のＺ__ｆ（ｋ，ｉ）は修正量ｄＨ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）を補正しており，次式により計算される値である。

つまり、Ｚ__ｆ（ｋ，ｉ）は，周波数成分ごとの第ｋ−δ〜ｋ＋δの再生信号のパワーの総和である。また、式（３３）のρは、分母が０になることを防止するための微小な正定数である。式（３４）のβはパワー計算で短時間平均をとるための平滑化定数であり，０〜１の値をとる。

次に、エコー経路推定部７０は、次式でＢＧ波数領域エコーレプリカ生成部２１内にある適応フィルタのフィルタ係数Ｈ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）を更新し、ＢＧ波数領域エコーレプリカ生成部２１に出力する。

ただし、μは０〜１の値をとるステップサイズである。なお、エコー経路推定部７０では、修正量ｄＨ__ＢＧ，ｆ（ｋ，ｋ＋ｄｋ，ｉ）だけを計算し、更新処理（式（３５）の処理）はＢＧ波数領域エコーレプリカ生成部２１内で行ってもよい。

＜転送判定部６０＞
転送判定部６０は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と波数領域のＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）と波数領域のＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）と波数領域の収音信号Ｙ__ｆ（ｋ，ｉ）とを受け取り、各周波数ｆの各波数ｋについて、ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）とＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）とを比較し、ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）のほうがＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）よりもエコーが消去されているか否かを判定する（ｓ４１）。例えば、周波数ｆ（ｆ≦Ｆ＋１）、波数ｋ（−Ｋ＋１≦ｋ≦Ｋ）において、「下記（Ａ）（Ｂ）（Ｃ）の条件を同時に満たすか」否かを判定する（ｓ４１）。
（Ａ）再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）が所定レベルＴ_１より大きい、
（Ｂ）ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）が収音信号Ｙ__ｆ（ｋ，ｉ）＋所定レベルＴ_２より小さい、
（Ｃ）ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）がＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）＋所定レベルＴ_３より小さい、
この条件の一具体例としては、

等が考えられる。ただしＥ[＊]は短時間平均をとることを意味する。

（Ａ）〜（Ｃ）を満たす場合には、ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）のほうがＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）よりもエコーが消去されていると判定し、その際の周波数ｆ’及び波数ｋ’に対応するフィルタ係数Ｈ__{ＢＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）（ただし、−δ≦ｄｋ≦δ）をＦＧ波数領域エコーレプリカ生成部２２に転送するように、制御信号ｃ（ｉ）をＢＧ波数領域エコーレプリカ生成部２１に出力する（ｓ４２）。

なお、本実施形態の変形例として、信号の短時間平均Ｅ［＊］の代わりに、所定の時間ピーク値を保持するピークホールドＰ_ｈ[＊]を用いてもよい。

例えば、次式によりピークホールドを求める。

ここで、βは減衰定数（０＜β＜１）であり、ｍａｘ［ａ，ｂ］はａとｂの大きい方の値を出力する関数である。ｍａｘは、β×Ｐ_ｈ[Ｘ__ＧＲ，ｆ（ｋ，ｉ−１）]（一時点前のピーク値）と直近の値Ｘ__ＧＲ，ｆ（ｋ，ｉ）を比較する。直近の値Ｘ__ＧＲ，ｆ（ｋ，ｉ）が小さい場合、βで減衰したピーク値が出力される。減衰定数βの値が１に近いほどピークを保持する期間が長くなる。なお、上記では値の絶対値ノルムを使用しているが、２乗ノルムを使用してもよい。

なお収音信号に小さくない外乱が含まれる場合、エコー経路推定部７０によるフィルタ更新でフィルタ係数が劣化してしまうことがある。劣化のためにＢＧ誤差信号がＦＧ誤差信号よりも明らかに大きい状況では、ＦＧ波数領域エコーレプリカ生成部２２からＢＧ波数領域エコーレプリカ生成部２１へフィルタ係数を転送してもよい。この状況は、「下記（Ａ）（Ｂ’）（Ｃ’）の条件を同時に満たすか」を判定することで検出できる。
（Ａ）再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）が所定レベルＴ_１より大きい、
（Ｂ’）ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）が収音信号Ｙ__ｆ（ｋ，ｉ）＋所定レベルＴ_１２より大きい、
（Ｃ’）ＢＧ誤差信号Ｅ__ＢＧ，ｆ（ｋ，ｉ）がＦＧ誤差信号Ｅ__ＦＧ，ｆ（ｋ，ｉ）＋所定レベルＴ_１３より大きい、
この条件の一具体例としては、

等が考えられる。

（Ａ）、（Ｂ’），（Ｃ’）を満たす場合には、転送判定部６０は、外乱によりフィルタ係数が劣化していると判定し、その際の周波数ｆ’及び波数ｋ’に対応するフィルタ係数Ｈ__{ＦＧ，ｆ’}（ｋ’，ｋ’＋ｄｋ，ｉ）（ただし、−δ≦ｄｋ≦δ）をＢＧ波数領域エコーレプリカ生成部２１に転送するように、制御信号ｃ’（ｉ）をＦＧ波数領域エコーレプリカ生成部２２に出力する。

＜フレーム合成部８０_ｐ＞
フレーム合成部８０_ｐは、時間領域のＦＧ誤差信号ｅ_ＦＧ（ｐ，ｉ）を受け取り、そのＦＧ誤差信号ｅ_ＦＧ（ｐ，ｉ）を合成し（ｓ４３）、合成した信号をエコー消去部１００の出力値として出力する。例えば、時空間ＦＦＴ変換部１０において、再生信号ｘ_ＧＲ（ｐ，ｎ）をＤ≧２でフレーム化した場合には、フレーム合成部８０_ｐは、フレームｉで求めたＦＧ誤差信号ｅ_ＦＧ（ｐ，ｉ）と一つ前のフレームｉ−１で求めたＦＧ誤差信号ｅ_ＦＧ（ｐ，ｉ−１）とに対して窓かけ処理を行った上で、合成し、合成後の収音信号ｙ_Ｄ（ｐ，ｉ）（要素数はＦ／Ｄ個）の要素ｙ_Ｄ（ｐ，ｎ−Ｆ／Ｄ＋１），ｙ_Ｄ（ｐ，ｎ−Ｆ／Ｄ＋２），…，ｙ_Ｄ（ｐ，ｎ）を逐次、出力値として出力する。ただし、ｎ＝ｉＦ／Ｄの関係にある。

このような構成により、波数領域において、ＦＧ／ＢＧ方式を適用できる。波数領域においてＦＧ適応フィルタとＢＧ適応フィルタを備えるエコー消去法では、再生信号及び誤差信号を波数領域に変換し、波数領域において転送条件を判定する。これにより、波数領域の適応フィルタのように、フィルタ係数と送話チャネルの対応が１対１に対応しない場合でも、ＦＧ／ＢＧ方式を適用し、ダブルトーク状態に対して安定的にエコー消去を行うことが可能になる。

なお、多ＣＨ短時間フーリエ変換部２２１及び空間フーリエ変換部２２２は、それぞれ、収音信号ｙ（ｐ，ｎ）及びＹ（ｐ，ｉ）に代えて、エコー成分を消去した収音信号ｙ_Ｄ（ｐ，ｎ）及びＹ_Ｄ（ｐ，ｉ）を受け取り、各処理行い（ｓ２２１、ｓ２２２）、収音信号Ｙ_Ｄ（ｐ，ｉ）及びＹ__Ｄ，ｆ（ｋ，ｉ）を出力する。

＜波数領域残留エコー推定消去部５２３＞
波数領域残留エコー推定消去部５２３は、Ｐ×２Ｆ個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と、Ｐ×２Ｆ個の波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）とを受け取り、これらの値を用いて、ｆ≦Ｆにおいて、収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）に含まれる残留エコーを推定し、消去し（ｓ５２３）、残留エコーを消去したＰ×（Ｆ＋１）個の波数領域の収音信号Ｙ__ＤＳ，ｆ（ｐ，ｉ）を求め、ノイズ抑圧部２３０に出力する。なお、下付添え字ＤＳは、エコー成分及び残留エコー成分を消去した信号であることを示す。以下、処理の詳細を説明する。

図１９は波数領域残留エコー推定消去部５２３の機能ブロック図を、図２０はその処理フローを示す。

波数領域残留エコー推定消去部５２３は、入出力相関係数算出部５２３１と、入出力伝達特性推定部５２３２と、残留エコー推定部５２３３と、残留エコー補正部５２３４と減算部５２３５とを含む。

((入出力相関係数算出部５２３１))
入出力相関係数算出部５２３１は、Ｐ×２Ｆ個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）とＰ×２Ｆ個の波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）とを受け取り、ｆ≦Ｆにおいて、波数領域の残留エコー信号を出力とする系の伝達特性を推定するために、時刻ｎ＝ｉＦ／Ｄにおける波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）とから
P_f(k,i)=E[X_^* _f(k,i)X__GR,f(k,i)]
Q_f(k,i)=E[X_^* _f(k,i)Y__D,f(k,i)] (41)
により、再生信号のパワースペクトルＰ_ｆ（ｋ，ｉ）と、再生信号と収音信号との間のクロススペクトルＱ_ｆ（ｋ，ｉ）とを算出し（ｓ５２３１）、入出力伝達特性推定部５２３２に出力する。

((入出力伝達特性推定部５２３２))
入出力伝達特性推定部５２３２は、Ｐ×（Ｆ＋１）個のパワースペクトルＰ_ｆ（ｋ，ｉ）とＰ×（Ｆ＋１）個のクロススペクトルＱ_ｆ（ｋ，ｉ）とを受け取り、ｆ（ｆ≦Ｆ）において、パワースペクトルＰ_ｆ（ｋ，ｉ）及びクロススペクトルＱ_ｆ（ｋ，ｉ）から

により、再生信号と収音信号との入出力伝達特性を推定し（ｓ５２３２）、推定値Ｇ’_ｆ（ｋ，ｉ）を残留エコー推定部５２３３に出力する。

また、次式により推定値Ｇ’_ｆ（ｋ，ｉ）を平滑化し、平滑化した推定値Ｇ_ｆ（ｋ，ｉ）を残留エコー推定部５２３３に出力してもよい。

本実施形態では、平滑化した推定値Ｇ_ｆ（ｋ，ｉ）を出力するものとする。ここで、βは、入出力伝達特性の推定値を平滑化するための定数であり、０〜１の間の値をとる。

((残留エコー推定部５２３３))
残留エコー推定部５２３３は、Ｐ×（Ｆ＋１）個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と、Ｐ×（Ｆ＋１）個の推定値Ｇ_ｆ（ｋ，ｉ）とを受け取り、ｆ（ｆ≦Ｆ）において、次式のように、再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）に推定値Ｇ_ｆ（ｋ，ｉ）を乗じて、残留エコーを推定し（ｓ５２３３）、推定値ΔＹ__ｆ（ｋ，ｉ）を残留エコー補正部５２３４に出力する。
ΔY__f(k,i)=G_f(k,i)X__GR,f(k,i) (43)

((残留エコー補正部５２３４))
残留エコー補正部５２３４は、Ｐ×（Ｆ＋１）個の推定値ΔＹ__ｆ（ｋ，ｉ）と、Ｐ×（Ｆ＋１）個の波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）とを受け取り、ｆ（ｆ≦Ｆ）において、次式で補正し（ｓ５２３４）、補正後の残留エコーの推定値ΔＹ^II__ｆ（ｋ，ｉ）を減算部５２３５に出力する。

ただし、式中のＳ__ｆ（ｋ，ｉ）は、送話信号の推定値であり、次式により算出される。
S__f(k,i)=Y__D,f(k,i)-ΔY__f(k,i) (45)
また、Ｔは各スペクトルの推定の自由度の数であり、入出力相関係数算出部５２３１においてパワースペクトルＰ_ｆ（ｋ，ｉ）及びクロススペクトルＱ_ｆ（ｋ，ｉ）を算出するときのフレーム数（つまり、各スペクトル推定に使用するフレーム数）が、これにあたる。
Ｍは入力変数の数であり、式（４２）の場合にはＭ＝１になる。またＦ_{２Ｍ，Ｔ−２Ｍ，ａｌｐｈａ}は、自由度ｎ_１＝２Ｍ、ｎ_２＝Ｔ−２ＭのＦ分布の１００×ａｌｐｈａ百分比点である。

なお、Ｆ分布は、統計学で用いられる連続確率分布である。統計的仮説検定の一手法である分散分析において、観測データにおける変動を誤差変動と各要因の変動に分解し、各要因の効果・有意性を判定する際に使用される。

参考文献４によれば、Ｍ＝１のとき入出力伝達特性推定部５２３２において推定される入出力伝達特性の推定値Ｇ_ｆ（ｋ，ｉ）の信頼区間は、真値からの比率で

の幅を持つ。
（参考文献４）Ｊ．Ｓ．ベンダット、Ａ．Ｇ．ピアソル、「ランダムデータの統計的処理」、培風館、１９７６年、ｐ．１９４〜１９７

短時間スペクトルに基づく入出力伝達特性推定部５２３２の推定では、本来よりも送話と残留エコーの相関性を高めに推定しやすく、伝達特性を高めに推定する傾向がある。このことに基づき、上記の補正は残留エコーの信頼区間の下端の値を残留エコーの補正値としている。

((減算部５２３５))
減算部５２３５は、Ｐ×２Ｆ個の波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）と、Ｐ×（Ｆ＋１）個の波数領域の補正後の残留エコーの推定値ΔＹ^II__ｆ（ｋ，ｉ）とを受け取り、ｆ（ｆ≦Ｆ）において、次式のように波数領域で収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）から残留エコーの推定値ΔＹ^II__ｆ（ｋ，ｉ）を差し引いて（ｓ５２３５）、差分を、残留エコーを消去した波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）として求め、ノイズ抑圧部２３０に出力する。
Y__DS,f(k,i)=Y__D,f(k,i)-ΔY^II__f(k,i) (47)

このような構成により、波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）とから波数領域で残留エコーを推定し、収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）から残留エコーの推定値ΔＹ__ｆ（ｋ，ｉ）を差し引く。これにより、波数領域の適応フィルタによるエコー経路推定及び消去が十分でない状態であっても、会話状態によらずに迅速に残留エコーを低減することができるという効果を奏する。

＜ノイズ抑圧部２３０＞
ノイズ抑圧部２３０は、Ｐ×（Ｆ＋１）個の波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）を受け取り（ただし、ｆ≦Ｆ）、周波数−波数空間で分割された各収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）に対してノイズ抑圧処理を施し（ｓ２１５）、波数領域のノイズ抑圧処理済みの収音信号Ｙ__{ＤＳＮ，ｆ}（ｋ，ｉ）を減衰ゲイン適用部２２７に出力する。なお、下付添え字ＤＳＮは、エコー成分及び残留エコー成分を消去し、減衰ゲインを適用した信号であることを示す。図２１は、ノイズ抑圧部２３０の機能ブロック図を、図２２はその処理フローを示す。ノイズ抑圧部２３０は、ノイズレベル推定部２１５７及びノイズ抑圧ゲイン算出適用部２１５８を含む。

（ノイズレベル推定部２１５７）
ノイズレベル推定部２１５７は、Ｐ×（Ｆ＋１）個の波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）を受け取り、そのノイズレベルを推定し（ｓ２１５７）、その推定値Ｎ__ｆ（ｋ，ｉ）を出力する。その推定法としては参考文献５や参考文献６等に記載の方法を用いることができる。
（参考文献５）Rainer Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics", IEEE Transactions on Speech and Audio Processing, 2001, Vol. 9, No. 5, pp. 504-512
（参考文献６）Mehrez Souden et al., "A new recursive approach for noise power spectral density tracking", 2012年, 日本音響学会秋季研究発表会講演論文集、pp.-741-742

例えば、参考文献５をベースに以下の方法でノイズレベルを推定できる。周波数ｆ、波数ｋの成分の振幅を

で求める。ただしαは０〜１の間の値をとる平滑化定数である。直近のＴｉ個のフレームの振幅、Ｌｅｖ（ｆ，ｋ，ｉ−Ｔｉ＋１）〜Ｌｅｖ（ｆ，ｋ，ｉ）を保持し、Ｔｉ個の振幅の最小値を求める。このＴｉ個の振幅の最小値をフレーム番号ｉにおける周波数ｆ、波数ｋでのノイズレベルの推定値Ｎ__ｆ（ｋ，ｉ）とする。

（ノイズ抑圧ゲイン算出適用部２１５８）
ノイズ抑圧ゲイン算出適用部２１５８は、Ｐ個の波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）とＰ個のノイズレベルの推定値Ｎ__ｆ（ｋ，ｉ）とを受け取り、これらの値からノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を求める（ｓ２１５８Ａ）。例えば、ノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）として、波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）の振幅｜Ｙ__ＤＳ，ｆ（ｋ，ｉ）｜とノイズレベルの推定値Ｎ__ｆ（ｋ，ｉ）とから、次式のように直接求められるレベル比を用いてもよい。

また、例えば、参考文献７のようにこの比を平滑化してノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）としてもよい。
（参考文献７）特開２００５−３４８１７３号公報

例えば、平滑化前のノイズ抑圧ゲインをＧ__ｆ’（ｋ，ｉ）とし、平滑化後のノイズ抑圧ゲインをＧ__ｆ（ｋ，ｉ）とすると、平滑化処理の１例は、以下の式で表すことができる。
Ｇ__ｆ（ｋ，ｉ）＝Σ_h,j ａ（ｈ）×Ｇ__ｊ’（ｋ，ｉ）／Σ_h ａ（ｈ）
この式は、インデックスｊで示されるｆ番目の周波数帯域に隣接する平滑化前のノイズ抑圧ゲインＧ__ｆ’（ｋ，ｉ）の平均値を求め、ｆ番目の周波数帯域のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）とする平滑化処理を示す。和をとる際のｈとｊの総数は同数であり、またその総数は最も多くても周波数分析点数以下である。重み係数ａ（ｈ）は、平滑化前のノイズ抑圧ゲインをＧ__ｆ’（ｋ，ｉ）の断続性を緩和する。さらに、平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）の強調化を行ってもよい。強調化処理は平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）の値の大小によって、それぞれのゲイン係数を０もしくは１に近づける処理である。即ち、平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）が大きく１に近い場合は、より１に近づけて対象成分をより通し易くし、平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）が小さく０に近い場合は、より０に近づけて雑音成分をより大きく低減する様に平滑化後のノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を強調する。この強調化処理の具体的な１例を以下に式で示す。
Ｇ__ｆ（ｋ，ｉ）がｔｈ１より大きい場合：
G__f(k,i)=th1×(G__f(k,i)/th1)^v1
Ｇ__ｆ（ｋ，ｉ）がｔｈ２より小さい場合：
G__f(k,i)=1-(1-th2){(1-G__f(k,i))/(1-th2)}^v2
ここで、ｖ１及びｖ２は１以上の整数とする。また、ｔｈ１とｔｈ２は、ｔｈ１≧ｔｈ２の関係を満たす０以上１以下の整数である。ノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）は０から１の範囲の値を持つので、ｔｈ１より大きい場合、より１に近づき、ｔｈ２より小さい場合、より０に近づく処理をこの式は実現する。

さらに、ノイズ抑圧ゲイン算出適用部２１５８は、次式のように、波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）にノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を適用し（ノイズ抑圧ゲインＧ__ｆ（ｋ，ｉ）を乗じ）（ｓ２１５８Ｂ）、波数領域のノイズ抑圧処理済みの収音信号Ｙ__{ＤＳＮ，ｆ}（ｋ，ｉ）を求め、出力する。

ノイズ抑圧部２３０の効果を図２３で説明する。単一話者のターゲット音声ｘを対象とし、同時に拡散性のノイズｎがマイクロホンにより収音されるケースを考える。波数領域のＰチャネルの再生信号Ｙ__ＤＳ，ｆ（ｐ，ｉ）は、方向毎に分解されている。変換後のターゲット音すなわち対象成分は特定の方向に集中して抽出される。拡散性ノイズは全方向の成分をもち、そのごく一部の特定方向に含まれる分が抽出される。したがって、この特定方向でＳＮ比が良好になり、抑圧処理の歪みは大幅に小さくなる。この信号処理は波数領域で行われているため、ノイズ抑圧後の波面進行方向は抑圧前と同じであり、空間バランスの点で抑圧処理の影響をほとんど受けない。一方、その他の方向ではノイズ成分が大半を占め、非定常の音声成分が少なくなるため、ノイズレベル推定の精度が相対的に高くなり、ノイズが良好に抑圧される。

このような構成により生成した収音信号Ｙ__{ＤＳＮ，ｆ}（ｐ，ｉ）を、減衰ゲイン適用部２２７で減衰し、波面再構成フィルタ２２３でフィルタリングし、減衰ゲイン適用後、かつ、フィルタリング後の収音信号Ｙ__{ＤＳＮＧＲ，ｆ}（ｐ，ｉ）を対地のスピーカで再生することで、ノイズを抑圧しつつ、所望の音場を再現することができる。

減衰ゲイン制御部２３は、収音信号Ｙ__ｆ（ｋ，ｉ）に代えて収音信号Ｙ__{ＤＳＮ，ｆ}（ｐ，ｉ）を受け取り、波数領域の減衰ゲインＧ__Ｘ，ｆ（ｋ，ｉ）及びＧ__Ｙ，ｆ（ｋ，ｉ）とを求め（ｓ２３）、それぞれ減衰ゲイン適用部２１７及び２２７に出力する。

減衰ゲイン適用部２２７は、収音信号Ｙ__ｆ（ｋ，ｉ）に代えて、収音信号Ｙ__{ＤＳＮ，ｆ}（ｐ，ｉ）を受け取り、減衰ゲインＧ__Ｙ，ｆ（ｋ，ｉ）を適用し（ｓ２２７）、減衰ゲイン適用後の収音信号Ｙ__{ＤＳＮＧ，ｆ}（ｋ，ｉ）を求め、波面再構成フィルタ２２３に出力する。

波面再構成フィルタ２２３は、収音信号Ｙ__Ｇ，ｆ（ｋ，ｉ）に代えて収音信号Ｙ__{ＤＳＮＧ，ｆ}（ｋ，ｉ）を受け取り、フィルタ係数Ｒ__Ｙ，ｆ（ｋ）をかけることで、フィルタリングし（ｓ２２３）、フィルタリング後の収音信号Ｙ__{ＤＳＮＧＲ，ｆ}（ｋ，ｉ）を求め、空間逆フーリエ変換部２２４に出力する。

空間逆フーリエ変換部２２４は、収音信号Ｙ__ＧＲ，ｆ（ｋ，ｉ）に代えて収音信号Ｙ__{ＤＳＮＧＲ，ｆ}（ｋ，ｉ）を受け取り、周波数領域の収音信号Ｙ_{ＤＳＮＧＲ，ｆ}（ｐ，ｉ）に変換し（ｓ２２４）、出力する。

多ＣＨ短時間逆フーリエ変換部２２５は、収音信号Ｙ_ＧＲ，ｆ（ｐ，ｉ）に代えて、Ｙ_{ＤＳＮＧＲ，ｆ}（ｐ，ｉ）を受け取り、逆ＦＦＴし、時間領域の収音信号ｙ_{ＤＳＮＧＲ}（ｐ，ｉ）に変換する（ｓ２２５）。さらに、多ＣＨ短時間逆フーリエ変換部２２５は、時間領域の収音信号ｙ_{ＤＳＮＧＲ}（ｐ，ｉ）を合成し、合成した信号の要素を逐次、出力値として出力する。

＜効果＞
このような構成により、第一実施形態の効果に加え、（１）、ダブルトーク状態に対して安定的にエコー消去を行うことが可能になり、（２）これにより、波数領域の適応フィルタによるエコー経路推定及び消去が十分でない状態であっても、会話状態によらずに迅速に残留エコーを低減することができ、（３）ノイズを抑圧しつつ、所望の音場を再現することができる。

なお、音声スイッチ装置３００に入力される収音信号Ｙ__ｆ（ｋ，ｉ）についても同様に、エコー消去処理（ｓ１００）、残留エコー消去処理（ｓ５２３）、ノイズ抑圧処理（ｓ２１５）を行ったほうが、送話状態か受話状態かをより高い精度で判定できる。

また、音声スイッチ装置３００は、前述の通り、少なくとも、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３とを含めばよく、他の処理は別装置に再生信号、または、収音信号を他の装置に伝送して他の装置内で行ってもよい。

さらに、波数領域残留エコー推定消去部５２３は、エコー消去部１００とともに用いてもよいし、単独で用いてもよい。エコー消去部１００及びノイズ抑圧部２３０はそれぞれ単独で用いることができる。また、各部の処理の順番は異なってもよい。例えば、第二実施形態で説明したように先に波面再構成用のフィルタリング処理を行い、その後に、ノイズ抑圧を行い、減衰ゲイン制御処理、減衰ゲイン適用処理を行ってもよい。ただし、再生信号Ｘ__ｆ（ｋ，ｉ）についても同様に、処理したものを用いることで、送話状態か受話状態かをより高い精度で判定できる。要は、同じ処理（エコー消去処理（ｓ１００）、残留エコー消去処理（ｓ５２３）、ノイズ抑圧処理（ｓ２１５）、波面再構成用のフィルタリング処理（ｓ２１３、ｓ２２３））を行った再生信号と収音信号を用いて判定することで、その精度を向上させることができる。

＜第一変形例＞
第三実施形態と異なる部分を中心に説明する。

本変形例では、波を周波数−波数空間で見るとき、周波数が低いほど波の存在する範囲が狭いことを利用して、ノイズ抑圧処理の演算量を削減する。

参考文献８によれば、周波数−波数空間で見ると波の存在範囲は周波数に応じて限定される。
（参考文献８）T. Ajdler, L. Sbaiz, and M. Vetterli, "Dynamic measurement of room impulse responses using a moving microphone", The Journal of the Acoustical Society of America, 2007, vol. 122, issue 3, p. 1636-1645

図２４は、単一周波数波の平面波のサンプリングの様子を示す。マイクロホン素子列に角度αで入射する単一の周波数ｆ_０の平面波を考える。マイクロホン列をｘ軸にとると、ｔを時刻としてｘ軸上での音圧の時間変動ｐ(ｘ,ｔ)は、
p(x,t)=e^{j(ω0t+φ0xcosα)} (71)
になる。ただし、上付き添え字中のω０及びφ０はそれぞれω_０及びφ_０を表し、ω_０及びφ_０はそれぞれ周波数ｆ_０の角周波数及び波数を表し、音速をｖｅｌｏｃとして、φ_０は
φ₀=ω₀/veloc (72)
である。このｘ−ｔ軸上の音圧を周波数−波数領域に変換すると

になる。時間−空間領域で単一の周波数の平面波は、周波数−波数領域では１点になる。

全周波数で同一の周波数成分を持ち、時間―空間で

であらわされる平面波は、周波数−波数領域では、

のように直線になる。入射の角度αは０〜１８０度の範囲をとるため、周波数−波数領域で見ると波の成分は、

の範囲に存在する。

実際のマイクロホン列によるサンプリングは離散的である。時間方向について、サンプリング周波数をｆ_ｓ、フレーム長を２Ｆ、２Ｆ点−ＦＦＴを使用し、空間方向について、Ｐ個のマイクロホンは直線上に等間隔に配列されているものとし、マイクロホン間隔をｄ、マイクロホン数を２ＫとしてＫ点−ＦＦＴを使用する。このとき、周波数の範囲は０〜ｆ_ｓ／２であり、波数ｋの範囲は−π／ｄ〜π／ｄである。

なお、このサンプリングにおける最大の周波数ｆ＝ｆ_ｓ／２の波について、波数はπｆ_ｓ／ｖｅｌｏｃになる。マイクロホン間隔ｄが十分小さくπ／ｄがこの値より大きいとき空間エリアシングは生じない。しかしマイクロホン間隔ｄが相対的に長いために、π／ｄがこの値より小さい場合に空間エリアシングが生じる。この様子を図２５に示す。

第三実施形態では、全周波数及び全波数で処理を行っている。しかし上記の知見によれば、周波数−波数領域において信号成分の存在範囲は、音波の周波数が低いほど狭まっている。この信号成分の存在しない範囲で信号処理を省くことができ、その処理削減の効果は周波数が低いほど大きい。これが本変形例のポイントである。

＜第一変形例に係る音声スイッチ装置３００＞
図２６は第一変形例に係る音声スイッチ装置３００の機能ブロック図を、図２７はその処理フローを示す。音声スイッチ装置３００は、多ＣＨ短時間フーリエ変換部２１１及び２２１と、空間フーリエ変換部２１２及び２２２と、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３と、波面再構成フィルタ２１３及び２２３と、空間逆フーリエ変換部２１４及び２２４と、多ＣＨ短時間逆フーリエ変換部２１５及び２２５と、エコー消去部１００と、波数領域残留エコー推定消去部５２３と、ノイズ抑圧部２３０とを含み、さらに、波数限定部２１８と波数０詰め部２１９及び２２９とを含む。

はじめに、波数限定部２１８において、周波数ｆから波数ｋの有効範囲を求める。波数限定部２１８は、減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３と、波面再構成フィルタ２１３及び２２３と、エコー消去部１００と、波数領域残留エコー推定消去部５２３と、ノイズ抑圧部２３０の処理をこの波数ｋの範囲内に限定する。波数０詰め部２１９及び２２９は未処理の範囲に０を設定する。

上記処理のために、第一変形例に加える変更の詳細を以下に示す。

(波数限定部２１８)
波数限定部２１８は、周波数ｆ≦Ｆにおいて、周波数ｆ毎に波数ｋの有効範囲を算出し（ｓ２１８）、この有効範囲を減衰ゲイン適用部２１７及び２２７と、減衰ゲイン制御部２３と、波面再構成フィルタ２１３及び２２３と、エコー消去部１００と、波数領域残留エコー推定消去部５２３と、ノイズ抑圧部２３０に出力する（ただし、図中各部への出力を省略する）。例えば、周波数ｆの一次関数で表す式（７７）により波数ｋの上限ｍａｘ＿ｋ（ｆ）を求める。

ただし、ｃｅｉｌ（Ａ）は、Ａを整数へ切り上げる関数である。また、ｆ_ｔｈはマイクロホン間隔ｄでのサンプリングするときに空間エリアシングが生じない最大周波数であり、次式で定義される。

なお、式（７６）（７７）は、波数ｋの範囲を周波数ｆの一次関数で表し、波数ｋの範囲の上限と下限は

で与えられるものであることを表している。言い換えると、式（７７）は、音速ｖｅｌｏｃとマイクロホン間隔ｄとサンプリング周波数ｆ_ｓとに基づき、周波数ｆに対する波数ｋの上限を求めている。

各部では、周波数ｆ≦Ｆにおいて、波数限定部２１８が周波数ｆについて求めた波数ｋの有効範囲
-max_k(f)≦k≦max_k(f) (79)
で、各処理を行う。

なお、波数ｋの有効範囲を算出する際に、周波数ｆの一次関数を用いることは、一例であり、高周波領域に比べ低周波領域では波数の範囲が狭くなるように波数ｋの有効範囲を限定するものであれば他の方法により、有効範囲を算出してもよい。

また、波数限定部２１８における処理は、ノイズ抑圧処理を開始時、または開始前に一度行い、各部に上限ｍａｘ＿ｋ（ｆ）を設定しておいてもよい。

(波数０詰め部２１９及び２２９)
波数０詰め部２１９は、波面再構成フィルタ２１３から（Ｐ−２・ｍａｘ＿ｋ（ｆ））個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を受け取り（ただし、周波数ｆ≦Ｆ、−ｍａｘ＿ｋ（ｆ）≦ｋ≦ｍａｘ＿ｋ（ｆ））、有効範囲外の波数、すなわちｋ＜−ｍａｘ＿ｋ（ｆ）及びｍａｘ＿ｋ（ｆ）＜ｋの範囲で、波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）を０とし（ｓ２１９）、空間逆フーリエ変換部２１４に出力する。

同様に、波数０詰め部２２９は、波面再構成フィルタ２２３から波数領域の収音信号Ｙ__ＧＲ，ｆ（ｋ，ｉ）を受け取り、有効範囲外の波数の範囲で、波数領域の収音信号Ｙ__ＧＲ，ｆ（ｋ，ｉ）を０とし（ｓ２２９）、空間逆フーリエ変換部２２４に出力する。

＜効果＞
このような構成により、第三実施形態と同様の効果を得ることができ、さらに、計算量を減らすことができるという効果を奏する。

さらに、波数限定部及び波数０詰め部をエコー消去部１００内に設けてもよい。この場合、波数領域の処理（つまり、ＢＧ波数領域エコーレプリカ生成部２１、ＦＧ波数領域エコーレプリカ生成部２２、エコー経路推定部７０、転送判定部６０におけるそれぞれの処理ｓ１２、ｓ２２、ｓ４４、ｓ４１、ｓ４２）を有効範囲内に限定することができ、計算量を減らすことができる。

なお、本変形例と、第一実施形態や第二実施形態、それらの変形例とを組合せてもよい。

＜第二変形例＞
第三実施形態の転送判定部６０において、転送条件としてさらに収音信号Ｙ_ｆ（ｋ，ｉ）とエコーレプリカＹ^__ｆ（ｋ，ｉ）の類似性を判定する条件を追加する。それは、
（Ｄ）エコーレプリカの大きさが収音信号の大きさと比較して、小さくない、
（Ｅ）所定期間のエコーレプリカと収音信号のコヒーレンスが高い、
の２条件からなる。

この条件の一例としては、

が考えられる。なおpar1の推奨値は0.5程度、par2の推奨値は0.5程度である。

この２条件は収音信号Ｙ_ｆ（ｋ，ｉ）とエコーレプリカＹ^__ｆ（ｋ，ｉ）の相互相関の強さを評価し、転送を相互相関が強いタイミングに限定する効果を持つ。そのため、ノイズや送話の影響が小さくないタイミングでの転送を効果的に防止でき、転送判定をより頑健にすることができる。

＜第三変形例＞
第三実施形態と異なる部分についてのみ説明する。波数領域残留エコー推定消去部５２３の処理（ｓ５２３）において、残留エコーを補正しない構成としてもよい。この場合、波数領域残留エコー推定消去部５２３は、残留エコー補正部５２３４を含まず、減算部５２３５では、残留エコー推定部５２３３の出力値である残留エコーの推定値ΔＹ__ｆ（ｋ，ｉ）を補正せずにそのまま用いる。

このような構成により、第三実施形態と同様の効果を得ることができ、計算量を削減することができる。ただし、伝達特性を高めに推定する可能性がある。

＜第四変形例＞
第三実施形態またはその第三変形例と異なる部分についてのみ説明する。

波数領域残留エコー推定消去部５２３の処理内容が、第三実施形態またはその第三変形例とは異なる。

＜波数領域残留エコー推定消去部５２３＞
波数領域残留エコー推定消去部５２３は、波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）とＦＧ波数領域エコーレプリカ生成部２２で生成されたエコーレプリカＹ＾__ＦＧ，ｆ（ｋ，ｉ）の線形和として波数領域の残留エコーを推定する。

図２８は第四変形例に係る波数領域残留エコー推定消去部５２３の機能ブロック図を、図２９はその処理フローを示す。

波数領域残留エコー推定消去部５２３は、線形和重み算出部５２３６と、線形和算出部５２３７と、減算部５２３５とを含む。なお、図示されていないが、ＦＧ波数領域エコーレプリカ生成部２２の出力値であるエコーレプリカＹ＾__ＦＧ，ｆ（ｋ，ｉ）が、波数領域残留エコー推定消去部５２３に入力されるものとする。

((線形和重み算出部５２３６))
線形和重み算出部５２３６は、Ｐ×２Ｆ個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と、Ｐ×２Ｆ個の波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）と、Ｐ×２Ｆ個の波数領域のエコーレプリカＹ＾__ＦＧ，ｆ（ｋ，ｉ）とを受け取り、ｆ（ｆ≦Ｆ）において、以下のように相互スペクトルを係数とする式を解いて線形和重みｃ’_ｆ，１（ｋ，ｉ）及びｃ’_ｆ，２（ｋ，ｉ）を算出する（ｓ５２３６）。

線形和重み算出部５２３６は、式（８１）によって求めた線形和重みｃ’_ｆ，１（ｋ，ｉ）及びｃ’_ｆ，２（ｋ，ｉ）をそのまま線形和算出部５２３７に出力してもよいし、次式により平滑化した線形和重みｃ_ｆ，１（ｋ，ｉ）及びｃ_ｆ，２（ｋ，ｉ）を線形和算出部５２３７に出力してもよい。

本変形例では、平滑化した線形和重みｃ_ｆ，１（ｋ，ｉ）及びｃ_ｆ，２（ｋ，ｉ）を出力するものとする。

((線形和算出部５２３７))
線形和算出部５２３７は、Ｐ×（Ｆ＋１）個の線形和重みｃ_ｆ，１（ｋ，ｉ）と、Ｐ×（Ｆ＋１）個の線形和重みｃ_ｆ，２（ｋ，ｉ）と、Ｐ×２Ｆ個の波数領域の再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）と、Ｐ×２Ｆ個の波数領域のエコーレプリカＹ＾__ＦＧ，ｆ（ｋ，ｉ）とを受け取り、次式のように、ｆ（ｆ≦Ｆ）において、再生信号Ｘ__ＧＲ，ｆ（ｋ，ｉ）とエコーレプリカＹ＾__ＦＧ，ｆ（ｋ，ｉ）との線形和Ｚ＾__ｆ（ｋ，ｉ）を算出し（ｓ５２３７）、この線形和Ｚ＾__ｆ（ｋ，ｉ）を残留エコーの推定値ΔＹ__ｆ（ｋ，ｉ）として減算部５２３５に出力する。
Ｚ^__f(k,i)=X__GR,f(k,i)c_f,1(k,i)+Y^__FG,f(k,i)c_f,2(k,i) (83)

（減算部５２３５）
減算部５２３５は、Ｐ×２Ｆ個の波数領域の収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）と、Ｐ×（Ｆ＋１）個の波数領域の残留エコーの推定値ΔＹ__ｆ（ｋ，ｉ）とを受け取り、ｆ（ｆ≦Ｆ）において、次式のように波数領域で収音信号Ｙ__Ｄ，ｆ（ｋ，ｉ）から波数領域の残留エコーの推定値ΔＹ__ｆ（ｋ，ｉ）を差し引いて（ｓ５２３５）、残留エコーを消去した波数領域の収音信号Ｙ__ＤＳ，ｆ（ｋ，ｉ）を求め、出力する。
Y__DS,f(k,i)=Y__D,f(k,i)-ΔY__f(k,i)

＜効果＞
このような構成により、第三実施形態と同様の効果を得ることができる。本変形例では、第三実施形態に比べ計算量は増えるが、エコーレプリカを残留エコー推定に含めることで、フレーム長が部屋の残響時間と比較して大幅に短い場合でも、残留エコー消去性能の劣化を抑えることができる。

なお、第三実施形態またはその変形例と、第一〜第二実施形態またはその変形例とを組み合わせてもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の実施形態またはその変形例では、全周波数帯域において処理を行っているが、所望の音声処理性能を実現するために、各部、各装置において、対象とする周波数帯域を変更してもよい。例えば、エコー消去部１００の処理は、計算量が大きいが、得られるエコー消去効果も大きい。一方、波数領域残留エコー推定消去部５２３の処理は、エコー消去部１００と比べると計算量は小さいが、エコーを消去した場合と比べて、音声の明瞭性はそれほど変わらない。音声スイッチ装置３００は、さらに計算量が小さいが、音声の明瞭性はそれほど変わらない。そのため、エコー消去部１００の処理対象とする周波数帯域を３００〜３４００Ｈｚ程度に限定し、波数領域残留エコー推定消去部５２３の処理対象とする周波数帯域を３００〜７５００Ｈｚ程度に限定し、音声スイッチ装置３００の処理対象とする周波数帯域を３００〜２２０５０Ｈｚ程度にする。このような構成とすることで、聴覚上大きな影響を与える周波数帯域においては十分にエコーを消去しつつ、広帯域においてエコーを低減し、全帯域において減衰ゲインを適用することができ、計算量を抑えつつ、音声の明瞭性を効率よく向上させることができる。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の第一マイクロホンを設置した第一空間で取得した音波面を、複数の第二スピーカを設置した第二空間で再合成し、複数の第二マイクロホンを設置した前記第二空間で取得した音波面を、複数の第一スピーカを設置した前記第一空間で再合成するものとし、前記第二スピーカで再生される信号を再生信号とし、前記第二マイクロホンで収音される信号を収音信号とし、
波数領域の再生信号と波数領域の収音信号とから、周波数と波数との組合せ毎に、前記波数領域の再生信号と前記波数領域の収音信号とに対する減衰ゲインを算出する減衰ゲイン算出部と、
前記波数領域の再生信号に前記減衰ゲインを適用する第一減衰ゲイン適用部と、
前記波数領域の収音信号に前記減衰ゲインを適用する第二減衰ゲイン適用部とを含む、
音声スイッチ装置。
請求項１記載の音声スイッチ装置であって、
前記第一減衰ゲイン適用部は、前記第一空間で取得した音波面を、前記第二空間で再合成するためのフィルタリング処理を行う前の前記波数領域の再生信号に前記減衰ゲインを適用し、
前記第二減衰ゲイン適用部は、前記第二空間で取得した音波面を、前記第一空間で再合成するためのフィルタリング処理を行う前の前記波数領域の収音信号に前記減衰ゲインを適用する、
音声スイッチ装置。
請求項１記載の音声スイッチ装置であって、
前記第一減衰ゲイン適用部は、前記第一空間で取得した音波面を、前記第二空間で再合成するためのフィルタリング処理を行った後の前記波数領域の再生信号に前記減衰ゲインを適用し、
前記第二減衰ゲイン適用部は、前記第二空間で取得した音波面を、前記第一空間で再合成するためのフィルタリング処理を行った後の前記波数領域の収音信号に前記減衰ゲインを適用する、
音声スイッチ装置。
請求項１から請求項３の何れかに記載の音声スイッチ装置であって、
さらに、
波数領域の再生信号に第一フィルタ係数をかけて、波数領域の第一エコーレプリカを生成する第一エコーレプリカ生成部と、
波数領域の第一エコーレプリカを時間領域の第一エコーレプリカに変換する第一時空間領域逆変換部と、
時間領域の収音信号から時間領域の第一エコーレプリカを減算して第一誤差信号を求める第一エコーレプリカ減算部と、
波数領域の再生信号に第二フィルタ係数をかけて、波数領域の第二エコーレプリカを生成する第二エコーレプリカ生成部と、
波数領域の第二エコーレプリカを時間領域の第二エコーレプリカに変換する第二時空間領域逆変換部と、
時間領域の収音信号から時間領域の第二エコーレプリカを減算して第二誤差信号を求める第二エコーレプリカ減算部と、
時間領域の第一誤差信号を波数領域に変換する第二時空間領域変換部と、
波数領域の第一誤差信号と波数領域の再生信号とを用いて、前記第一エコーレプリカ生成部内のフィルタ係数を更新するエコー経路推定部と、
各周波数の各波数について、第一誤差信号と第二誤差信号とを比較し、第一誤差信号のほうが第二誤差信号よりもエコーが消去されていると判定したときに、前記第一エコーレプリカ生成部内のフィルタ係数を前記第二エコーレプリカ生成部に転送する転送判定部とを含む、
音声スイッチ装置。
請求項４に記載の音声スイッチ装置であって、
さらに、
波数領域の前記再生信号と波数領域の前記第二誤差信号とを用いて、波数領域の前記第二誤差信号に含まれる残留エコーを推定し、消去する波数領域残留エコー推定消去部とを含む、
音声スイッチ装置。
請求項１から請求項５の何れかに記載の音声スイッチ装置であって、
さらに、
周波数と波数との組合せ毎に、波数領域の収音信号のノイズレベルを推定するノイズレベル推定部と、
周波数と波数との組合せ毎に、波数領域の収音信号と、波数領域のノイズレベルの推定値との比に基づきノイズ抑圧ゲインを求め、波数領域の収音信号にノイズ抑圧ゲインを乗じ、波数領域のノイズ抑圧処理済みの収音信号を求めるノイズ抑圧ゲイン算出適用部とを含む、
音声スイッチ装置。
複数の第一マイクロホンを設置した第一空間で取得した音波面を、複数の第二スピーカを設置した第二空間で再合成し、複数の第二マイクロホンを設置した前記第二空間で取得した音波面を、複数の第一スピーカを設置した前記第一空間で再合成するものとし、前記第二スピーカで再生される信号を再生信号とし、前記第二マイクロホンで収音される信号を収音信号とし、
波数領域の再生信号と波数領域の収音信号とから、周波数と波数との組合せ毎に、前記波数領域の再生信号と前記波数領域の収音信号とに対する減衰ゲインを算出する減衰ゲイン算出ステップと、
前記波数領域の再生信号に前記減衰ゲインを適用する第一減衰ゲイン適用ステップと、
前記波数領域の収音信号に前記減衰ゲインを適用する第二減衰ゲイン適用ステップとを含む、
音声スイッチ方法。
請求項１から請求項６の何れかに記載の音声スイッチ装置として、コンピュータを機能させるためのプログラム。