JP2008141735A

JP2008141735A - エコーキャンセラ及び通話音声処理装置

Info

Publication number: JP2008141735A
Application number: JP2007274492A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭; Nobuyuki Kihara; 信之木原; Takayoshi Kawaguchi; 貴義川口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-11-10
Filing date: 2007-10-22
Publication date: 2008-06-19
Also published as: US20080260172A1; CN101179296A; US8160239B2

Abstract

【課題】テレビ会議システムなどの拡声通話系のエコーキャンセラにおける最適ステップサイズを高精度に反応よく求める。
【解決手段】スピーカ１とマイクロホン２を利用して拡声通話を行う拡声通話系に用いられるエコーキャンセラにおいて、適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部２１と、このステップサイズ制御部２１より入力されるステップサイズに基づいて、スピーカ１とマイクロホン２の音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して帰還経路への入力信号から帰還経路のエコー成分を推定し、そのエコー成分を帰還経路からの出力信号より減算する適応フィルタ部２２と、を備える。ステップサイズ制御部２１は、帰還経路からの出力信号と残差信号の比に基づいて定義される量を用いて、ステップサイズの値を求め、適応フィルタ部２２へ出力する。
【選択図】図２

Description

本発明は、ハンズフリー電話システムやテレビ会議システムなどの拡声通話系で通話を行う場合に起こる、エコーやハウリングの問題を解決するエコーキャンセラ及びこれを用いた通話音声処理装置に関する。

従来、テレビ会議システムなどの拡声通話系では、遠端装置のマイクロホンで収音された音声が、近端装置に送られ、近端装置のスピーカから放音される。近端装置にもマイクロホンが装備されており、近端話者の音声を遠端装置へ送るように構成されている。このため、遠端側、近端側のそれぞれでスピーカから放音される音声がマイクロホンに入力される。何も処理を行わない場合はこの音声が再び相手装置へ送られるため、自分の発声がこだまのように少し遅れてスピーカから聞こえる「エコー」という現象を引き起こす。エコー（回り込み成分）が大きくなると、再びマイクロホンに入力され、系をループし「ハウリング」を引き起こす。

上述のようなエコーやハウリングを防止するための装置としてエコーキャンセラが知られている。一般的に、適応フィルタを用いて、スピーカとマイクロホンの音響結合などにより形成される帰還経路（エコー経路）のインパルス応答を測定し、スピーカから放音される受話信号（リファレンス信号）に前述のインパルス応答を畳み込んで擬似エコーを生成し、これをマイクロホンで収音された音声信号から差し引くことで除去している。

適応フィルタは可変の係数を有するプロセッサと係数を随時決定していく適応アルゴリズムからなる従来周知のものであって、減算器の出力信号の自乗平均値を最小化するアルゴリズムにより可変のフィルタ係数（ステップサイズ）を適応更新することによって帰還経路のエコー成分（帰還経路を介した受話信号の回り込み成分）を推定する。そして、適応フィルタで推定されたエコー成分を減算器において送話信号から減算することにより、送話信号に含まれるエコー成分のみを相殺し、マイクロホンで集音されたエコー以外の成分（マイクロホンに対して通話者から発せられた音声や周囲の騒音）に対しては損失を与えないようにする。

しかし、このようなエコーキャンセラのみで完全にエコーが消しきれるわけではなく、消し残ったエコーが聞こえてしまう。これを「残留エコー」と呼ぶ。この残留エコーを抑制することは、テレビ会議システムなどの拡声通話を違和感なく行う上で不可欠である。

エコーキャンセラからエコー除去処理後に出力されるエコーキャンセル出力信号（残差信号）をＹ(ｋ)、除去しきれなかった残留エコー信号をＥｒ(ｋ)、マイクロホンで収音される話者の音声である近端側音声信号（「送話音声」又は「妨害信号」とも呼ばれる）をＳ(ｋ)とする。ｋは周波数である。このときエコーキャンセル出力信号Ｙ（ｋ）は、残留エコー信号Ｅｒ（ｋ）のほかに、近端側音声信号が加えられるので、次式のように表される。このエコーキャンセル出力信号Ｙ（ｋ）のうち、残留エコー信号に相当する分Ｅｒ（ｋ）を更新に使うように、ステップサイズを決定すればよい。

例えば適応アルゴリズムの一つに、ＬＭＳ（Least Mean Square）アルゴリズムベースのＮＬＭＳ（Normalized LMS）アルゴリズムがある。このＮＬＭＳアルゴリズムの手法を応用したものに、短時間スペクトラル振幅（STSA：Short-Time Spectral Amplitude）推定の一手法であるＷｉｅｎｅｒＦｉｌｔｅｒｉｎｇ（ウィーナーフィルタリング）法がある。ウィーナーフィルタリング法では、残留エコー信号Ｅｒ（ｋ）の混じったエコーキャンセル出力信号Ｙ（ｋ）から、二乗誤差を最小にする基準で信号の予測値を与えるフィルタ係数（ステップサイズ）を設計する。

すなわち、上記（２）式で与えられる評価量εを最小とするステップサイズ（フィルタ係数）μ（ｋ）を求めればよい。これによりエコーを除去し送話音声を強調する。ここでＥ[］は、短時間平均をとることを意味する。

ウィーナーフィルタリング法によると、マイクロホン入力信号と残留エコー信号との残差信号が小さくなるように、フィルタ係数が更新される。このとき、毎回の繰り返しにおける補正量の大きさ（すなわち、収束の速さ）を制御するための定数（ステップサイズ（修正幅））が設定される。ウィーナーフィルタリング法で更新される適応フィルタの最適なステップサイズμ（ｋ）は、次式で求められる。

一方、ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ（スペクトルサブトラクション）法によりステップサイズを計算する方法では、エコーキャンセル出力信号Ｙ（ｋ）のうち、残留エコー信号に相当する分Ｅｒ（ｋ）の割合をパワーレベルで推定する。スペクトルサブトラクション法によれば、（２）式の評価量εを最小化するステップサイズμ（ｋ）は、次式となる。

しかし、上述の最適なステップサイズμ（ｋ）はそのままでは実際には適用できない。それは、エコーキャンセル出力信号（残差信号）Ｙ（ｋ）に含まれる残留エコー信号Ｅｒ(ｋ)と近端側音声信号（妨害信号）Ｓ(ｋ)は、各々の信号を直接観測できず、分離抽出することが困難だからである。

そこで、残差信号における残留エコー信号の量（比率）を、所定の計算式で定義される入力信号と残差信号とのコヒーレンスを用いて推定する方法が提案されている（例えば、非特許文献１を参照。）。

江村暁、羽田陽一，「雑音環境下でのステレオエコー消去用適応アルゴリズム」，日本音響学会講演論文集，日本音響学会，２００２年３月，１−Ｑ−５，ｐ．６４５−６４６

ところで、非特許文献１で提案されている手法を用いて信頼できるステップサイズ値を求めるには、ある程度長い時間の相関をとる必要があるが、最適なステップサイズを求めようとすると反応が鈍くなってしまう。逆に短い時間で相関をとると、反応は早くなるが、信頼できるコヒーレンス値が得られない。適切でないステップサイズ、例えば小さいステップサイズの場合、変動が大きいインパルス応答初期のタップ係数の修正に時間がかかるため収束速度が遅くなる、などの問題がある。

本発明は斯かる点に鑑みてなされたものであり、ハンズフリー電話システムやテレビ会議システムなどの拡声通話系における残留エコーを抑制することを目的とする。

本発明の第１の側面のエコーキャンセラは、スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられるエコーキャンセラにおいて、適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、そのステップサイズ制御部より入力されるステップサイズに基づいて、スピーカとマイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して帰還経路への入力信号から帰還経路のエコー成分を推定し、そのエコー成分を帰還経路からのマイクロホン入力信号より減算する適応フィルタ部と、を備える。そして、ステップサイズ制御部は、ウィーナーフィルタリング法に基づくステップサイズの値を、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、適応フィルタ部へ出力することを特徴とする。

また本発明の第１の側面の通話音声処理装置は、スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられる通話音声処理装置において、遠端側より受信した受話音声を出力するスピーカと、送話音声が入力されるマイクロホンと、適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、ステップサイズ制御部より入力されるステップサイズに基づいて、スピーカとマイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して帰還経路への入力信号から帰還経路のエコー成分を推定し、そのエコー成分を帰還経路からのマイクロホン入力信号より減算する適応フィルタ部、から構成されるエコーキャンセラと、を有している。そして、ステップサイズ制御部は、ウィーナーフィルタリング法に基づくステップサイズの値を、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、適応フィルタ部へ出力することを特徴とする。

本発明の第２の側面のエコーキャンセラは、スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられるエコーキャンセラにおいて、適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、そのステップサイズ制御部より入力されるステップサイズに基づいて、スピーカとマイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して帰還経路への入力信号から帰還経路のエコー成分を推定し、そのエコー成分を帰還経路からのマイクロホン入力信号より減算する適応フィルタ部と、を備える。そして、ステップサイズ制御部は、スペクトラルサブトラクション法に基づくステップサイズの値を、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、適応フィルタ部へ出力することを特徴とする。

また本発明の第２の側面の通話音声処理装置は、スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられる通話音声処理装置において、遠端側より受信した受話音声を出力するスピーカと、送話音声が入力されるマイクロホンと、適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、ステップサイズ制御部より入力されるステップサイズに基づいて、スピーカとマイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して帰還経路への入力信号から帰還経路のエコー成分を推定し、そのエコー成分を帰還経路からのマイクロホン入力信号より減算する適応フィルタ部、から構成されるエコーキャンセラと、を有している。そして、ステップサイズ制御部は、スペクトラルサブトラクション法に基づくステップサイズの値を、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、適応フィルタ部へ出力することを特徴とする。

本発明の第１の側面によると、ウィーナーフィルタリング法に基づく適応フィルタの最適ステップサイズμ値を、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義される量を用いて計算するようにしたので、簡単な計算式により最適なステップサイズを高精度に反応よく求めることができる。それにより、適応フィルタ部において適切なエコーキャンセル処理が実施できる。

本発明の第２の側面によると、スペクトラルサブトラクション法に基づく適応フィルタの最適ステップサイズμ値を、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義される量を用いて計算するようにしたので、簡単な計算式により最適なステップサイズを高精度に反応よく求めることができる。それにより、適応フィルタ部において適切なエコーキャンセル処理が実施できる。

本発明によれば、拡声通話系で用いられるエコーキャンセラにおいて、帰還経路からのマイクロホン入力信号と帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて計算することにより、最適なステップサイズを高精度に反応よく求めることができる。
また、上記エコーキャンセラを通話音声処理装置に用いることで、適切なエコーキャンセル処理が行われ、ハンズフリー電話システムやテレビ会議システム等の拡声通話システムにおけるエコーやハウリングの問題が解決される。

以下、本発明の第１の実施の形態の例について、添付図面を参照しながら説明する。

まず、本発明のエコーキャンセラ及び通話音声処理装置が適用される拡声通話システムの一例を説明する。図１に、双方向（全二重）の拡声通話システムの一例であるテレビ会議システムの構成を示す。この図１では、画像処理に関する部分など、本発明の本質部分ではない箇所の記載は省略している。

図１に示すテレビ会議システムは、受話音声を出力するスピーカ１及び送話音声が入力されるマイクロホン２を備えた近端装置３と、同じようにスピーカ６及びマイクロホン７を備えた遠端装置５が通信回線４により接続され、双方向に全二重通話が可能となっている。近端装置３と遠端装置５は同一機能を備えた通話音声処理装置であり、遠端装置５の内部ブロックの記載は省略している。

近端装置３に接続されたスピーカ１は、遠端装置５に接続されたマイクロホンで収音された音声が近端装置３で処理されたものを放音する。近端装置３に接続されたマイクロホン２は、近端側のテレビ会議出席者の発言音声を収音するとともに、スピーカ１から放音され空間を介して発言音声に重畳される音声も収音する。

Ｄ／Ａ（ディジタル／アナログ）変換器１１は、信号処理部１３で処理されたディジタル音声データをアナログ音声データへ変換する。信号処理部１３で処理されたアナログ音声データは、アンプ（図示せず）で適宜増幅され、スピーカ１から放音される。

Ａ／Ｄ（アナログ／ディジタル）変換器１２は、マイクロホン２で収音され音声（アナログ音声データ）をディジタル音声データに変換する。このとき、Ａ／Ｄ変換器１２には、アンプ（図示せず）で適宜増幅された音声（アナログ音声データ）が入力される。

信号処理部１３は、例えばディジタルシグナルプロセッサ(ＤＳＰ;Digital Signal Processor)で構成され、入力及び出力の音声データを所望のデータへ変換する処理を行う。
この処理については後に詳細に説明する。

音声コーデック１４は、信号処理部１３から送られてくるマイクロホン入力に基づく音声データをテレビ会議システムの通信で標準的に定められている符号へ変換するとともに、通信部１５から送られてくる、遠端装置５からの符号化された音声データをデコードし信号処理部１３へ送る。

通信部１５は、通信回線４を介して遠端装置５と符号化された音声の入出力データの送受信をディジタルデータ通信により行う。通信回線４はイーサーネット（登録商標）などの一般的なディジタル通信回線を利用する。

図２は、信号処理部１３内部の構成を示すブロック図である。この図２に関しても、本発明の本質部分ではない箇所部分の記載は省略している。

信号処理部１３は、エコーキャンセラとして機能するものであり、μ制御部２１と適応フィルタ部２２を備えて構成されている。本実施形態では、適応アルゴリズムとして、ＮｏｒｍａｌｉｚｅｄＬＭＳアルゴリズム（以下、「ＮＬＭＳ」と称する。）を採用している。ＮＬＭＳアルゴリズムでは、マイクロホン入力信号と推定エコー信号との残差信号が小さくなるように、フィルタ係数が更新される。

μ制御部２１は、ステップサイズ制御部として機能するものであり、適応フィルタ部２２が毎回の繰り返しにおける補正量の大きさ（すなわち、収束の速さ）を制御するための定数であるμ値（ステップサイズ（修正幅））を計算し、その結果を適応フィルタ部２２に出力する。

適応フィルタ部２２は、スピーカとマイクロホンの音響結合などにより形成される帰還経路（エコー経路）のインパルス応答を、μ制御部２１からの最適ステップサイズ（μ値）に応じて適応的に同定して帰還経路への入力信号（受話信号）から上記帰還経路のエコー成分（帰還経路を介した受話信号の回り込み成分）を推定する適応フィルタ機能と、適応フィルタで推定されたエコー成分を帰還経路からの出力信号（マイクロホン入力信号）より減算する演算機能を有している。サンプリング周波数４８０００Ｈｚにより徐々に適応させていく。

この適応フィルタ部２２は、可変の係数を有するプロセッサと係数を随時決定していくアルゴリズムからなり、適応フィルタ部２２内の減算器の出力信号の自乗平均値を最小化するアルゴリズム、本例では、ＮＬＭＳアルゴリズムにより可変のフィルタ係数を適応更新することによって帰還経路のエコー成分を推定する。そして、適応フィルタで推定されたエコー成分を減算器において送話信号から減算することにより、送話信号に含まれるエコー成分を除去し、マイクロホンで収音されたエコー以外の成分（マイクロホンに対して通話者から発せられた音声や周囲の騒音）に対しては損失を与えないようにしている。

音声コーデック１４から信号処理部１３に送られてきた音声信号（受話信号）は、スピーカ１から直接放音されるだけでなく、μ制御部２１と適応フィルタ部２２に送られる。また、マイクロホン２からＡ／Ｄ変換器１２を通って信号処理部１３に送られてきた音声信号（マイクロホン入力信号）は、μ制御部２１と適応フィルタ部２２へ供給される。μ制御部２１では、Ａ／Ｄ変換器１２から送られてくるマイクロホン入力信号と、受話信号又は適応フィルタ部２２から送られてくるエコーキャンセル処理後の音声信号（エコーキャンセル出力信号）とから最適ステップサイズ（μ値）を算出し、適応フィルタ部２２へ出力する。適応フィルタ部２２では、μ制御部２１から供給されたμ値に基づいて適応処理を行い、エコーキャンセル処理が施された音声信号が信号処理部１３から音声コーデック１４へと渡される。

雑音や送話音声も収音される状況では、エコー以外の近端側音声信号（送話音声信号）が妨害信号として作用するため、適応フィルタのフィルタ係数推定が不安定となり、ときに発散してしまう。このような状況下で、最適なステップサイズを求める方法として、本発明では、Echo Return Loss Enhancement（以下、「ＥＲＬＥ」と称する。）を用いる方法を考案したので、以下これについて説明する。このＥＲＬＥは、適応フィルタ部２１でどれだけエコーを除去できたか（エコー低減量）を示すものである。

以下、本発明の第１の実施の形態によるステップサイズの推定方法を説明する。この第１の実施の形態では、ウィーナーフィルタリング法に基づくエコー低減量を、ＥＲＬＥを用いて求める。

マイクロホン２に入力される近端側音声信号（「妨害信号」又は「送話音声信号」）をＳ(ｋ)、適応フィルタで推定されたエコー信号をＥｐ(ｋ)、適応フィルタでは消しきれない残留エコー信号をＥｒ(ｋ)とすると、マイクロホン２に入力されたマイクロホン入力信号Ｍ(ｋ)及び適応フィルタ部２２より出力されるエコーキャンセル出力信号（残差信号）Ｙ(ｋ)はそれぞれ次式で表される。ｋは周波数である。

エコー低減量ＥＲＬＥは、マイクロホン入力信号Ｍ(ｋ)とエコーキャンセル出力信号（残差信号）Ｙ(ｋ)の振幅の比を用いて定義される量であり、

で表される。単位は[ｄＢ]である。

本実施の形態では、エコーキャンセル出力信号Ｙ(ｋ)と、マイクロホン入力信号Ｍ(ｋ)のパワーの二乗の比を、エコー低減量ＥＲＬＥとして次の式（８）で表す。

Ｅ［] は短時間平均をとることを意味する。

なお、式（８）では、式（７）から分母と分子を入れ替え、分母をマイクロホン入力信号Ｍ（ｋ）の要素、分子をエコーキャンセル出力信号Ｙ（ｋ）の要素としている。これは、エコー低減量ＥＲＬＥの値を０〜１とするためである。仮に式（８）の分母と分子が逆の場合（式（７）と同様の場合）、エコー低減量ＥＲＬＥの値が発散してしまうことがあり、エコー抑圧量を適切に計算することができなくなる。

以下、短時間平均、パワー（絶対値）及び二乗の記述を省略し、Ｅ［｜Ｓ(ｋ)｜^２］をＳ、Ｅ[｜Ｅｒ(ｋ)｜^２]をＥｒ、Ｅ［｜Ｅｐ(ｋ)｜^２］をＥｐ、と表現すると、式（８）は、

と表すことができる。

この各信号の短時間平均のパワーを基に算出したエコー低減量を「短時間ＥＲＬＥ」、これに時定数をかけて長時間平均をとったものを「長時間ＥＲＬＥ」と呼ぶことにする。例えば測定時間が１０秒のようにある程度長い場合、会話が行われていない時間帯が多く、平均すると近端側音声信号Ｓ(ｋ)はほぼゼロとみなせる。この場合、長時間ＥＲＬＥは、近端側音声信号Ｓ(ｋ)の影響が打ち消され、次式に近づくと考えられる。

ここで、式（９）の短時間ＥＲＬＥと、式（１０）の長時間ＥＲＬＥを用いて、式（３）の最適ステップサイズμ（ｋ）を、式（１１ａ）〜式（１１ｅ）に示すように変換する。

以上のことから、近端側音声信号Ｓ(ｋ)および残留エコー信号Ｅｒ(ｋ)を直接求めることなく、短時間ＥＲＬＥと長時間ＥＲＬＥを用いて、ウィーナーフィルタリング法に基づく評価値εを最小とするステップサイズμ（ｋ）を計算できることがわかる。μ制御部２１は、上述の計算式により求めた最適ステップサイズμ（ｋ）を適応フィルタ部２２へ送る。適応フィルタ部２２はこの最適ステップサイズμ（ｋ）に基づいてフィルタ係数を決定し、エコーキャンセル処理を行った後、エコーキャンセル処理されたエコーキャンセル出力信号Ｙ（ｋ）を音声コーデック１４に送る。そして、エコーキャンセル処理されたエコーキャンセル出力信号が近端装置３から遠端装置５へ送られ、スピーカ６より放音される。

上述した第１の実施の形態によれば、μ制御部２１において、適応フィルタの最適ステップサイズμ値を、エコー低減量ＥＲＬＥに基づいて高精度に、かつ比較的簡単な計算によって反応よく求めることができる。すなわち、エコーキャンセル出力信号（残差信号）に残留エコー信号Ｅｒ（ｋ）が含まれていても、ウィーナーフィルタリング法における最適ステップサイズμ（ｋ）をエコー低減量ＥＲＬＥを用いて表すことができるので、最適ステップサイズでの適応フィルタ更新が可能になる。

その結果、適応フィルタ部２２では、その最適ステップサイズμ値に基づいてフィルタ係数を決定し、適切なエコーキャンセル処理を実施できる。それにより、ハンズフリー電話やテレビ会議などにおいてエコーの問題が解決され、遠端装置５の利用者は、適切にエコーキャンセル処理された音声による拡声通話を行うことができる。同様に、遠端装置５にも近端装置３の信号処理部１３と同様の機能が備わっており、近端装置３の利用者は、適切にエコーキャンセル処理された音声による拡声通話を違和感なく行うことができる。

なお、適応フィルタ部２２の後段にエコー抑圧部を設け、適応フィルタ部２２のエコーキャンセル処理で消しきれなかった残留エコーに対して、エコー抑圧処理を実施する構成としてもよい。

ところで、上記最適ステップサイズμ（ｋ）を音声帯域の全周波数帯域で平均化して計算すると、適応フィルタ部２２で周波数ごとの最適なフィルタ係数が選択されなくなり、周波数帯域ごとの適切なエコーキャンセル処理がなされなくなる。そこで上記第１の実施の形態の変形例として、マイクロホン入力信号Ｍ（ｋ）の音声信号の帯域を分割し、分割した周波数帯域ごとに、それぞれの最適ステップサイズμ値をエコー低減量ＥＲＬＥに基づいて高精度に反応よく求めることを提案する。

例えば周波数帯域［Ｈｚ］を、０＜ｋ≦１００、１００＜ｋ≦２００、２００＜ｋ≦３００、・・・というように分割する。μ制御部２１にてこれらの周波数帯域ごとにエコー低減量ＥＲＬＥに基づく最適ステップサイズμ値を計算し、適応フィルタ２２がそれぞれの最適ステップサイズμ値に基づいて、各周波数帯域ごとにフィルタ係数を決定し、周波数帯域ごとにエコー成分を求めてエコーキャンセル処理を実施する。そして、その結果を音声コーデック１４に送る。このようにすることで、全周波数帯域で一律なステップサイズではなく、周波数帯域ごとに計算された最適なステップサイズにより、きめ細かなエコーキャンセル処理が可能になる。

また、上記第１の実施の形態の他の変形例として、音声帯域を分割してエコーキャンセル処理を行う通話音声処理装置において、音質に強く影響を与える周波数成分についてはエコー低減量ＥＲＬＥに基づいて求めた最適ステップサイズμ値による適応処理を行い、音質に影響が少ない周波数成分についてはボイススイッチなどを用い、所定のステップサイズによる適応処理を行うようにする。ボイススイッチは、最適ステップサイズ計算の実施と不実施を切り替える切り替え手段である。このような構成とすることにより、音質と計算量の双方を考慮して拡声通話システムを設計することができる。

さらに、上記第１の実施の形態のさらに他の変形例として、μ制御部２１において、特定の周波数成分について周波数帯域ごとに最適ステップサイズを算出し、その他の周波数成分についてはある所定のステップサイズを適応フィルタ部２２へ出力するようにしてもよい。それにより、特定の周波数成分では周波数帯域ごとに適切なステップサイズμ値が設定され、適応フィルタ部２２においてさらにきめ細かなエコーキャンセル処理が可能となる。

＜第２の実施の形態＞
次に、本発明の第２の実施の形態の例について説明する。この第２の実施の形態は、上記第１の実施の形態におけるウィーナーフィルタリング法に替えて、スペクトラルサブトラクション法を用い最適なステップサイズを算出するようにしたものである。なお、第２の実施の形態について、上記第１の実施の形態で用いられた拡声通話システム（図１を参照）を利用して説明する。

上記第１の実施の形態の場合と同様に、マイクロホン２に入力される近端側音声信号（「妨害信号」又は「送話音声信号」）をＳ(ｋ)、適応フィルタで推定されたエコー信号をＥｐ(ｋ)、適応フィルタでは消しきれない残留エコー信号をＥｒ(ｋ)とすると、マイクロホン２に入力されたマイクロホン入力信号Ｍ(ｋ)及び適応フィルタ部２２より出力されるエコーキャンセル出力信号（残差信号）Ｙ(ｋ)はそれぞれ次式で表される。ｋは周波数である。

で表される。単位は[ｄＢ]である。

スペクトラルサブトラクション法を用いる第２の実施の形態では、エコーキャンセル出力信号Ｙ(ｋ)と、マイクロホン入力信号Ｍ(ｋ)のパワーの比を、エコー低減量ＥＲＬＥとして次の式（１５）で表す。

Ｅ［] は短時間平均をとることを意味する。

なお、式（１５）では、式（１４）から分母と分子を入れ替え、分母をマイクロホン入力信号Ｍ（ｋ）の要素、分子をエコーキャンセル出力信号Ｙ（ｋ）の要素としている。これは、第１の実施の形態における式（８）と同様の理由による。

以下、短時間平均及びパワー（絶対値）の記述を省略し、Ｅ［｜Ｓ(ｋ)｜］をＳ、Ｅ[｜Ｅｒ(ｋ)｜]をＥｒ、Ｅ［｜Ｅｐ(ｋ)｜］をＥｐ、と表現すると、式（１５）は、

と表すことができる。

ここで、式（１６）の短時間ＥＲＬＥと、式（１７）の長時間ＥＲＬＥを用いて、式（４）の最適ステップサイズμ（ｋ）を、式（１８ａ）〜式（１８ｅ）に示すように変換する。

以上のことから、近端側音声信号Ｓ(ｋ)および残留エコー信号Ｅｒ(ｋ)を直接求めることなく、短時間ＥＲＬＥと長時間ＥＲＬＥを用いて、スペクトラルサブトラクション法に基づく評価値εを最小とするステップサイズμ（ｋ）を計算できることがわかる。μ制御部２１は、上述の計算式により求めた最適ステップサイズμ（ｋ）を適応フィルタ部２２へ送る。適応フィルタ部２２はこの最適ステップサイズμ（ｋ）に基づいてフィルタ係数を決定し、エコーキャンセル処理を行った後、エコーキャンセル処理されたエコーキャンセル出力信号Ｙ（ｋ）を音声コーデック１４に送る。そして、エコーキャンセル処理されたエコーキャンセル出力信号が近端装置３から遠端装置５へ送られ、スピーカ６より放音される。

上述した第２の実施の形態によれば、μ制御部２１において、適応フィルタの最適ステップサイズμ値を、エコー低減量ＥＲＬＥに基づいて高精度に、かつ比較的簡単な計算によって反応よく求めることができる。すなわち、エコーキャンセル出力信号（残差信号）に残留エコー信号Ｅｒ（ｋ）が含まれていても、スペクトラルサブトラクション法における最適ステップサイズμ（ｋ）をエコー低減量ＥＲＬＥを用いて表すことができるので、最適ステップサイズでの適応フィルタ更新が可能になる。

また、この第２の実施の形態においても、第１の実施の形態に対する各変形例を適用して、同様の効果を得ることができる。

ここで、第１の実施の形態と第２の実施の形態における２種類の定式化による本質的な違いを説明する。

第１の実施の形態におけるウィーナーフィルタリング法では、式（２）に示すように二乗誤差を最小化するため、残留エコー信号Ｅｒ（ｋ）が小さいときの推定誤差と、残留エコー信号Ｅｒ（ｋ）が大きいときの推定誤差が同等に扱われる。そのため、残留エコー信号Ｅｒ（ｋ）が小さいときに、推定誤差と残留エコー信号Ｅｒ（ｋ）の比を考えるとその比が大きな値となる。すなわち、推定誤差により残留エコー信号Ｅｒ（ｋ）を大きく見積もってしまい、ステップサイズμの値が大きくなることで、誤った適応をしてしまうことを意味する。実際には、収束が進み残留エコー信号Ｅｒ（ｋ）が小さくなったときに、μの値が大きい値に推定され、誤った適応をしてしまう。

実際に、ノイズ環境下で録音したインパルス応答を用いて作成したシミュレーションデータを用いて、２つの手法による性能を評価した結果（グラフ）を図３に示す。評価指標には、実際の帰還経路のインパルス応答ｈと推定した適応フィルタの係数ｗの誤差の比を表すＮＣＥ（ノーマライズコーシェントエラー）を用いた。ＮＣＥは下記の式で求められる。

図３において、横軸は時間（ｓｅｃ）、縦軸はＮＣＥ［ｄＢ］を示し、スペクトラルサブトラクション法、ウィーナーフィルタリング法、コヒーレンス法（従来手法）のそれぞれについてシミュレーションした結果を表している。

推定した適応フィルタ係数がゼロのときにはいずれの手法においてもＮＣＥがゼロになり、適応フィルタの係数ｗがインパルス応答ｈに近づくとＮＣＥは小さい値をとる。従来のコヒーレンス法によるステップサイズ推定では、ＮＣＥは−９ｄＢ〜−１０ｄＢの間で落ち着いてしまっている。

ウィーナーフィルタリング法を用いたステップサイズ推定では、ＮＣＥが−１１ｄＢ程度まで改善している。なお、ＮＣＥが−１１ｄＢ程度になると、ＮＣＥの値が振動しているのがわかる。それは、収束が進み残留エコー信号Ｅｒ（ｋ）が小さくなったときの推定誤差により、適応フィルタ係数が悪化するためである。

それに対し、スペクトラルサブトラクション法を用いたステップサイズ推定では、ＮＣＥは−１４ｄＢ近くまで性能が改善しているのがわかる。

なお、本発明は、上述した実施の形態の例に限定されるものではなく、μ制御部２１と適応フィルタ部２２の機能を一体構成の処理部に設けるなど、本発明の要旨を逸脱しない範囲において、種々の変形、変更が可能であることは勿論である。

本発明の実施の形態に係る拡声通話システムの全体構成を示すブロック図である。通話音声処理装置内の信号処理部の構成を示すブロック図である。２つの手法による性能をＮＣＥを用いて評価した結果を示すグラフである。

符号の説明

１…スピーカ、２…マイクロホン、３…近端装置、４…通信回路、５…遠端装置、６…スピーカ、７…マイクロホン、１１…Ｄ／Ａ変換器、１２…Ａ／Ｄ変換器、１３…信号処理部、１４…音声コーデック、１５…通信部、２１…μ制御部、２２…適応フィルタ部

Claims

スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられるエコーキャンセラにおいて、
適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、
前記ステップサイズ制御部より入力される前記ステップサイズに基づいて、スピーカとマイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して前記帰還経路への入力信号から前記帰還経路のエコー成分を推定し、そのエコー成分を前記帰還経路からのマイクロホン入力信号より減算する適応フィルタ部と、
を備え、
前記ステップサイズ制御部は、ウィーナーフィルタリング法に基づくステップサイズの値を、前記帰還経路からのマイクロホン入力信号と前記帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、前記適応フィルタ部へ出力する
ことを特徴とするエコーキャンセラ。
前記帰還経路に混入する近端側音声信号をＳ（ｋ）、前記適応フィルタ部より出力されるエコーキャンセル出力信号をＹ(ｋ)、残留エコー信号をＥｒ（ｋ）、Ｅ［］は短時間平均、ｋは周波数とするとき、前記ウィーナーフィルタリング法において、
ε＝Ｅ［｛Ｓ(ｋ)−Ｇ（ｋ）・Ｙ（ｋ）｝^２］
で与えられる評価値εを最小とするステップサイズμ（ｋ）は、
μ（ｋ）＝Ｅ［｜Ｅｒ(ｋ)｜^２］／｛Ｅ［｜Ｓ(ｋ)｜^２］＋Ｅ[｜Ｅｒ(ｋ)｜^２]｝
で表され、
前記ステップサイズ制御部は、前記ステップサイズμ（ｋ）を、短時間平均のパワーを基に求められるエコー低減量（短時間ＥＲＬＥ）と、長時間平均のパワーを基に求められるエコー低減量（長時間ＥＲＬＥ）を用いて計算する
ことを特徴とする請求項１に記載のエコーキャンセラ。
前記適応フィルタ部で推定したエコー信号をＥｐ(ｋ)、前記マイクロホン入力信号と前記エコーキャンセル出力信号のパワーの二乗の比をＥＲＬＥとするとき、
前記短時間平均のパワーを基に求められるＥＲＬＥは、
（短時間ＥＲＬＥ）＝｛Ｅ［｜Ｓ(ｋ)｜^２］＋Ｅ[｜Ｅｒ(ｋ)｜^２]｝／
｛Ｅ［｜Ｓ(ｋ)｜^２］＋Ｅ[｜Ｅｒ(ｋ)｜^２]＋Ｅ［｜Ｅｐ(ｋ)｜^２］｝で表され、
前記長時間平均のパワーを基に求められるＥＲＬＥは、
（長時間ＥＲＬＥ）＝｛Ｅ[｜Ｅｒ(ｋ)｜^２]｝／
｛Ｅ[｜Ｅｒ(ｋ)｜^２]＋Ｅ［｜Ｅｐ(ｋ)｜^２］｝
で表され、
前記ステップサイズμ（ｋ）は、
μ（ｋ）＝（長時間ＥＲＬＥ）・｛（１−（短時間ＥＲＬＥ）｝／
［（短時間ＥＲＬＥ）・｛１−（長時間ＥＲＬＥ）｝］
と表される
ことを特徴とする請求項２に記載のエコーキャンセラ。
前記ステップサイズ制御部は、周波数帯域ごとにステップサイズを計算し、前記適応フィルタ部に供給する
ことを特徴とする請求項３に記載のエコーキャンセラ。
前記ステップサイズ制御部は、特定の周波数成分についてステップサイズを計算し、その他の周波数成分については所定のステップサイズを、前記適応フィルタ部に供給する
ことを特徴とする請求項３に記載のエコーキャンセラ。
前記ステップサイズ制御部は、特定の周波数成分について周波数帯域ごとにステップサイズを計算し、その他の周波数成分については所定のステップサイズを、前記適応フィルタ部へ供給する
ことを特徴とする請求項３に記載のエコーキャンセラ。
スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられる通話音声処理装置において、
遠端側より受信した受話音声を出力するスピーカと、
送話音声が入力されるマイクロホンと、
適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、前記ステップサイズ制御部より入力される前記ステップサイズに基づいて、前記スピーカと前記マイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して前記帰還経路への入力信号から前記帰還経路のエコー成分を推定し、そのエコー成分を前記帰還経路からのマイクロホン入力信号より減算する適応フィルタ部、から構成されるエコーキャンセラと、を有し、
前記ステップサイズ制御部は、ウィーナーフィルタリング法に基づくステップサイズの値を、前記帰還経路からのマイクロホン入力信号と前記帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、前記適応フィルタ部へ出力する
ことを特徴とする通話音声処理装置。
スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられるエコーキャンセラにおいて、
適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、
前記ステップサイズ制御部より入力される前記ステップサイズに基づいて、スピーカとマイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して前記帰還経路への入力信号から前記帰還経路のエコー成分を推定し、そのエコー成分を前記帰還経路からのマイクロホン入力信号より減算する適応フィルタ部と、
を備え、
前記ステップサイズ制御部は、スペクトラルサブトラクション法に基づくステップサイズの値を、前記帰還経路からのマイクロホン入力信号と前記帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、前記適応フィルタ部へ出力する
ことを特徴とするエコーキャンセラ。
前記帰還経路に混入する近端側音声信号をＳ（ｋ）、前記適応フィルタ部より出力されるエコーキャンセル出力信号をＹ(ｋ)、残留エコー信号をＥｒ（ｋ）、Ｅ［］は短時間平均、ｋは周波数とするとき、前記スペクトラルサブトラクション法において、
ε＝Ｅ［｛Ｓ(ｋ)−Ｇ（ｋ）・Ｙ（ｋ）｝^２］
で与えられる評価値εを最小とするステップサイズμ（ｋ）は、
μ（ｋ）＝Ｅ［｜Ｅｒ(ｋ)｜］／｛Ｅ［｜Ｓ(ｋ)｜］＋Ｅ[｜Ｅｒ(ｋ)｜]｝
で表され、
前記ステップサイズ制御部は、前記ステップサイズμ（ｋ）を、短時間平均のパワーを基に求められるエコー低減量（短時間ＥＲＬＥ）と、長時間平均のパワーを基に求められるエコー低減量（長時間ＥＲＬＥ）を用いて計算する
ことを特徴とする請求項８に記載のエコーキャンセラ。
前記適応フィルタ部で推定したエコー信号をＥｐ(ｋ)、前記マイクロホン入力信号と前記エコーキャンセル出力信号のパワーの二乗の比をＥＲＬＥとするとき、
前記短時間平均のパワーを基に求められるＥＲＬＥは、
（短時間ＥＲＬＥ）＝｛Ｅ［｜Ｓ(ｋ)｜］＋Ｅ[｜Ｅｒ(ｋ)｜]｝／
｛Ｅ［｜Ｓ(ｋ)｜］＋Ｅ[｜Ｅｒ(ｋ)｜]＋Ｅ［｜Ｅｐ(ｋ)｜］｝で表され、
前記長時間平均のパワーを基に求められるＥＲＬＥは、
（長時間ＥＲＬＥ）＝｛Ｅ[｜Ｅｒ(ｋ)｜]｝／
｛Ｅ[｜Ｅｒ(ｋ)｜]＋Ｅ［｜Ｅｐ(ｋ)｜］｝
で表され、
前記ステップサイズμ（ｋ）は、
μ（ｋ）＝（長時間ＥＲＬＥ）・｛（１−（短時間ＥＲＬＥ）｝／
［（短時間ＥＲＬＥ）・｛１−（長時間ＥＲＬＥ）｝］
と表される
ことを特徴とする請求項９に記載のエコーキャンセラ。
前記ステップサイズ制御部は、周波数帯域ごとにステップサイズを計算し、前記適応フィルタ部に供給する
ことを特徴とする請求項１０に記載のエコーキャンセラ。
前記ステップサイズ制御部は、特定の周波数成分についてステップサイズを計算し、その他の周波数成分については所定のステップサイズを、前記適応フィルタ部に供給する
ことを特徴とする請求項１０に記載のエコーキャンセラ。
前記ステップサイズ制御部は、特定の周波数成分について周波数帯域ごとにステップサイズを計算し、その他の周波数成分については所定のステップサイズを、前記適応フィルタ部へ供給する
ことを特徴とする請求項１０に記載のエコーキャンセラ。
スピーカとマイクロホンを利用して拡声通話を行う拡声通話系に用いられる通話音声処理装置において、
遠端側より受信した受話音声を出力するスピーカと、
送話音声が入力されるマイクロホンと、
適応フィルタにおけるステップサイズの値を計算するステップサイズ制御部と、前記ステップサイズ制御部より入力される前記ステップサイズに基づいて、前記スピーカと前記マイクロホンの音響結合などにより形成される帰還経路のインパルス応答を適応的に同定して前記帰還経路への入力信号から前記帰還経路のエコー成分を推定し、そのエコー成分を前記帰還経路からのマイクロホン入力信号より減算する適応フィルタ部、から構成されるエコーキャンセラと、を有し、
前記ステップサイズ制御部は、スペクトラルサブトラクション法に基づくステップサイズの値を、前記帰還経路からのマイクロホン入力信号と前記帰還経路に混入する近端側音声信号の比に基づいて定義されるエコー低減量を用いて求め、前記適応フィルタ部へ出力する
ことを特徴とする通話音声処理装置。