JP2021184587A

JP2021184587A - エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Info

Publication number: JP2021184587A
Application number: JP2020177958A
Authority: JP
Inventors: 友樹寺嶋; Yuki Terashima; 慎一杠; Shinichi Yuzuriha
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-11-12
Filing date: 2020-10-23
Publication date: 2021-12-02
Also published as: US20210144472A1; US11197093B2; EP3829151B1; EP3829151A1; CN112863532A

Abstract

【課題】マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができる技術を提供する。【解決手段】エコー抑圧装置１は、マイクロホン１３によって取得された入力信号から線形エコー信号を抑圧するエコーキャンセラ１４と、スピーカ１２へ出力される受話信号及び入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号及び入力信号の少なくとも一方から入力信号に含まれる非線形エコー信号を推定する非線形エコー推定部１８と、推定された非線形エコー信号を用いて、エコーキャンセラ１４の出力信号から非線形エコー信号を抑圧する非線形エコー抑圧部１９と、エコーキャンセラ１４によって抑圧されなかった残留線形エコー信号を、非線形エコー抑圧部１９の出力信号から抑圧するエコーサプレッサ２０とを備える。【選択図】図３

Description

本開示は、マイクロホンによって取得された入力信号に含まれる線形エコー信号及び非線形エコー信号を抑圧する技術に関するものである。

ハンズフリー通話システム及びテレビ会議システム等において、スピーカ及びマイクロホンを用いた拡声通話が行われる場合、送話側の話者が話した音声は、送話側のマイクロホンに入力され、送話信号としてネットワーク回線を介して受話側の機器へ送信される。受話側のスピーカから拡声された音声は、受話側のマイクロホンで収音され、ネットワーク回線を介して送信側の機器へ送信される。このとき、送話側のスピーカからは、ネットワーク回線を通過した時間と受話側の空間を伝搬した時間とを経過した自身の発話した音声が再生される。このように、受話側のスピーカからマイクロホンの間で伝搬する音声は、エコーと呼ばれ、通話を妨げる要因となる。そのため、エコーキャンセラ及びエコーサプレッサなどのエコー抑圧技術が提案されている。

例えば、特許文献１に示すエコー抑圧装置は、スピーカにおいて受話信号を再生する際に、受話信号のレベルが大きいために再生音に歪みが生じる可能性がある場合、仮に歪みが生じない場合に用いるゲインよりも、抑圧量の大きいゲインを周波数毎に求め、周波数領域の収音信号に基づく値にゲインを乗じる。

また、例えば、特許文献２に示すエコー抑圧装置は、いずれかの周波数値の再生信号のパワーが予め定めた閾値より大きい場合であって、かつ、その周波数値のｍ（ｍ＝２，３，・・・，Ｍ）倍の周波数値またはｍ倍の周波数値の周辺の周波数値の場合には、ｍ倍の周波数値及びその周辺の周波数値に対応するゲイン係数を０に近づけた値を第２ゲイン係数として求め、それ以外の場合には、ゲイン係数を第２ゲイン係数として求める。

特開２０１７−１９１９９２号公報特開２０１０−１０３８７５号公報

しかしながら、上記従来の技術では、マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することが困難であり、更なる改善が必要とされていた。

本開示は、上記の問題を解決するためになされたもので、マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができる技術を提供することを目的とするものである。

本開示の一態様に係るエコー抑圧装置は、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部と、を備える。

本開示によれば、マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができる。

スピーカ歪みによる非線形エコーが入力信号に含まれない場合におけるマイクロホン信号、エコーキャンセラ出力信号及びエコーサプレッサ出力信号を示す図である。スピーカ歪みによる非線形エコーが入力信号に含まれる場合におけるマイクロホン信号、エコーキャンセラ出力信号及びエコーサプレッサ出力信号を示す図である。本開示の実施の形態１における通話装置の構成を示す図である。本実施の形態１におけるエコー抑圧装置の各部から出力される信号の一例を示す図である。本開示の実施の形態１におけるエコー抑圧装置の動作を説明するためのフローチャートである。本開示の実施の形態１における学習装置の構成を示す図である。本実施の形態１における学習装置の各部から出力される信号の一例を示す図である。１／３オクターブバンドノイズを含む受話信号の振幅スペクトルを示す図である。図８に示す受話信号が拡声された際にマイクロホンで得られる入力信号に含まれる非線形エコー信号の正解値及び推定値の振幅スペクトルを示す図である。女性の声を含む受話信号の振幅スペクトルを示す図である。図１０に示す受話信号が拡声された際にマイクロホンで得られる入力信号に含まれる非線形エコー信号の正解値及び推定値の振幅スペクトルを示す図である。従来のエコー抑圧装置からの出力信号及び本実施の形態１のエコー抑圧装置からの出力信号を周波数解析した結果を示す図である。男性の声を含む入力信号の振幅の時間変化と、入力信号に対するエコー抑圧量（ＥＲＬＥ）の時間変化とを示す図である。本開示の実施の形態２における通話装置の構成を示す図である。本開示の実施の形態３における通話装置の構成を示す図である。本開示の実施の形態４における通話装置の構成を示す図である。本開示の実施の形態５における通話装置の構成を示す図である。本開示の実施の形態６における通話装置の構成を示す図である。本開示の実施の形態７における通話装置の構成を示す図である。

（本開示の基礎となった知見）
エコーキャンセラは、適応フィルタによってエコー信号を推定し、推定したエコー信号をマイクロホンで収音した信号から差し引くことでエコーを除去する技術である。エコーは、スピーカから拡声された音の直接音と反射音との重ね合わせである。そのため、スピーカとマイクロホンとの間の伝達特性は、ＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタで表現することができる。ＦＩＲ型適応フィルタは、伝達特性を近似するように学習し、受話信号にフィルタ係数を畳み込むことでエコーの推定値である疑似エコー信号を生成する。適応フィルタの学習アルゴリズムとしては、ＬＭＳ（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ）法、ＮＬＭＳ（ＮｏｒｍａｌｉｚｅｄＬＭＳ）法及びＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）に基づく手法などが提案されている。

一方、エコーサプレッサは、周波数領域におけるエコーのパワースペクトルを推定し、推定したエコーのパワースペクトルをマイクロホンで収音した信号のパワースペクトルから差し引くことでエコーを抑圧する技術である。エコーサプレッサは、例えば、スペクトルサブトラクション法又はウィナーフィルタ法によりエコーを抑圧する。前述のエコーキャンセラは適応フィルタの学習に時間がかかるため、電源を入れた直後及びエコーパスが変動した際に、残留エコーが生じるおそれがある。また、スピーカ又はマイクロホンで発生する雑音又は送話信号が適応フィルタの誤学習を引き起こし、疑似エコー信号に推定誤差が生じ、残留エコーが増加するおそれがある。このため、エコーサプレッサはエコーキャンセラの後段でエコー抑圧を補う目的で使用されるのが一般的である。

従来のエコーキャンセラ及び従来のエコーサプレッサは、線形モデルでエコーを推定するため、スピーカ歪みのような非線形雑音が付与された非線形エコーを抑圧することが困難であるという課題がある。ノートパソコン又は可搬型テレビ会議システムに用いられる機器では、小口径スピーカから大音量の音が拡声されるため、スピーカ歪みに起因する非線形エコーの影響が顕著に現れ、快適に通話できないおそれがある。

また、上記の特許文献１では、高調波歪みのように、受話信号に含まれない周波数成分の非線形エコー信号を抑圧することが困難である。

また、上記の特許文献２では、広帯域な歪み成分を抑圧することが困難であり、整数倍の周波数値以外の周波数値で生じる歪み成分を抑圧することが困難である。

以上の課題を解決するために、本開示の一態様に係るエコー抑圧装置は、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部と、を備える。

この構成によれば、スピーカへ出力される受話信号及び入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号及び入力信号の少なくとも一方から入力信号に含まれる非線形エコー信号が推定され、推定された非線形エコー信号を用いて、第１の線形エコー抑圧部の出力信号から非線形エコー信号が抑圧される。したがって、マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができる。

また、第２の線形エコー抑圧部によって、非線形エコー信号が抑圧された出力信号から残留線形エコー信号が抑圧される。したがって、第２の線形エコー抑圧部の動作を安定させることができ、線形エコー信号の抑圧性能を向上させることができる。

また、上記のエコー抑圧装置において、前記非線形エコーモデルは、前記受話信号及び前記入力信号の少なくとも一方と、前記入力信号から線形エコー信号を抑圧する前記第１の線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する前記第２の線形エコー抑圧部の出力信号とを教師データとして用い、入力を前記受話信号及び前記入力信号の少なくとも一方とし、出力を前記非線形エコー信号として学習されてもよい。

この構成によれば、第１の線形エコー抑圧部及び第２の線形エコー抑圧部は線形エコー信号のみを抑圧して非線形エコー信号を抑圧しないので、第１の線形エコー抑圧部及び第２の線形エコー抑圧部によって線形エコー信号が抑圧された信号を、非線形エコー信号として教師データに用いることができる。

また、受話信号及び入力信号の少なくとも一方と、第２の線形エコー抑圧部の出力信号とを教師データとして用いて非線形エコー信号が学習されるので、スピーカによる複雑な歪みを正確にモデル化することができ、非線形エコー信号の推定精度を向上させることができる。

また、上記のエコー抑圧装置において、前記非線形エコーモデルは、ニューラルネットワークであってもよい。

この構成によれば、ニューラルネットワークにより非線形エコーモデルを実現することができる。

また、上記のエコー抑圧装置において、前記非線形エコー推定部は、前記受話信号と前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号から前記入力信号に含まれる前記非線形エコー信号を推定してもよい。

この構成によれば、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号から非線形エコー信号が推定されるので、受話信号から非線形エコー信号を容易に推定することができる。

また、上記のエコー抑圧装置において、前記非線形エコー推定部は、前記受話信号及び前記入力信号と、前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号及び前記入力信号から前記入力信号に含まれる前記非線形エコー信号を推定してもよい。

この構成によれば、受話信号だけでなく、受話信号及び入力信号から非線形エコー信号が推定されるので、非線形エコー信号の推定精度を向上させることができる。

また、上記のエコー抑圧装置において、前記非線形エコー推定部は、前記受話信号及び前記第１の線形エコー抑圧部の出力信号と、前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号及び前記第１の線形エコー抑圧部の出力信号から前記入力信号に含まれる前記非線形エコー信号を推定してもよい。

この構成によれば、受話信号だけでなく、受話信号及び第１の線形エコー抑圧部の出力信号から非線形エコー信号が推定されるので、非線形エコー信号の推定精度を向上させることができる。

また、上記のエコー抑圧装置において、前記第１の線形エコー抑圧部は、フィルタ係数と前記受話信号とを畳み込むことにより前記入力信号に含まれる前記受話信号の成分を示す擬似線形エコー信号を生成する適応フィルタと、前記入力信号から前記擬似線形エコー信号を減算する減算部とを含み、前記非線形エコー推定部は、前記受話信号及び前記適応フィルタからの前記擬似線形エコー信号と、前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号及び前記適応フィルタからの前記擬似線形エコー信号から前記入力信号に含まれる前記非線形エコー信号を推定してもよい。

この構成によれば、受話信号だけでなく、受話信号及び第１の線形エコー抑圧部の適応フィルタからの擬似線形エコー信号から非線形エコー信号が推定されるので、非線形エコー信号の推定精度を向上させることができる。

また、上記のエコー抑圧装置において、前記非線形エコー推定部は、前記入力信号と前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記入力信号から前記入力信号に含まれる前記非線形エコー信号を推定してもよい。

この構成によれば、入力信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、入力信号から非線形エコー信号が推定されるので、入力信号から非線形エコー信号を容易に推定することができる。

また、上記のエコー抑圧装置において、前記非線形エコー抑圧部の出力信号及び前記第２の線形エコー抑圧部の出力信号のいずれかを最小化するための可変ゲインを算出し、算出した前記可変ゲインを用いて前記非線形エコー推定部によって推定された前記非線形エコー信号を補正する補正部をさらに備えてもよい。

この構成によれば、非線形エコー信号の推定誤差を補正することができ、非線形エコー信号の抑圧性能を向上させることができる。

本開示の他の態様に係るエコー抑圧装置は、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記入力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部と、を備える。

この構成によれば、スピーカへ出力される受話信号及び入力信号の少なくとも一方から入力信号に含まれる非線形エコー信号が推定され、推定された非線形エコー信号を用いて、入力信号から非線形エコー信号が抑圧される。したがって、マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができる。

また、第２の線形エコー抑圧部によって、残留線形エコー信号が抑圧される。したがって、第２の線形エコー抑圧部の動作を安定させることができ、線形エコー信号の抑圧性能を向上させることができる。

本開示の他の態様に係るエコー抑圧方法は、第１の線形エコー抑圧部が、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧し、非線形エコー推定部が、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定し、非線形エコー抑圧部が、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧し、第２の線形エコー抑圧部が、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する。

本開示の他の態様に係るエコー抑圧方法は、第１の線形エコー抑圧部が、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧し、非線形エコー推定部が、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定し、非線形エコー抑圧部が、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記入力信号から前記非線形エコー信号を抑圧し、第２の線形エコー抑圧部が、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記残留線形エコー信号を抑圧する。

本開示の他の態様に係るエコー抑圧プログラムは、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部としてコンピュータを機能させる。

本開示の他の態様に係るエコー抑圧プログラムは、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記入力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部としてコンピュータを機能させる。

以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

（実施の形態１）
まず、非線形エコーの発生要因について説明する。

非線形歪みは、システムの入出力関係が比例関係に無い場合に生じる歪みの総称である。例えば、入力振幅が大きくなるに連れて出力振幅がクリップする入出力特性のシステムに周波数ｆ１及びｆ２の２トーン正弦波が入力されると、出力波形の振幅スペクトルでは、入力信号には存在しない周波数成分に非線形歪みが生じる。非線形歪みは、２ｆ１及び２ｆ２のように入力信号の整数倍の周波数に生じる高調波歪みと、ｆ１＋ｆ２及びｆ２−ｆ１のように入力信号の和及び差の周波数に生じる相互変調歪みとに大別できる。

実際のシステムでは、スピーカの拡声音の非線形歪みが非線形エコーの要因となる。一般的に広く用いられている動電型スピーカでは、最低共振周波数ｆ０付近の周波数帯域で振動板の変位が増大する。そして、永久磁石が作る磁束の範囲を超えてボイスコイルが可動することで生じる駆動力の非線形性、又はコーンエッジ又はダンパなどの支持系の機械的非線形性などにより非線形歪みが発生する。さらに、小口径スピーカでは、低域の音圧レベルの低下を補うために、最低共振周波数ｆ０付近の音圧が前処理によってブーストされる場合がある。この場合、振動板の変位が増大し、さらなる非線形歪みが発生する要因となる。

続いて、非線形エコーが従来のエコー抑圧技術に与える影響について説明する。従来のエコー抑圧技術としては、エコーキャンセラとエコーサプレッサとを備えるシステムについて説明する。

エコーキャンセラは、適応フィルタによってエコーの推定値、すなわち擬似エコー信号を算出し、算出した擬似エコー信号をマイクロホン信号から差し引くことでエコーを除去する。つまり、受話信号をｘ（ｋ）とし、適応フィルタの係数をｗ_ｎ（ｋ）とし、適応フィルタのタップ数をＮとすると、擬似エコーｙ（ｋ）は下記の式（１）で表される。

上記の式（１）は、受話信号の位相と振幅とを変化させた線形和によって擬似エコーを表現することを意味しており、係数学習に用いる適応アルゴリズムに関係なく非線形エコーを表現できない。

また、エコーサプレッサは、エコーキャンセラの後段に設けられる。エコーサプレッサは、エコーキャンセラで抑圧されなかった残留エコーのパワースペクトルを推定することにより残留エコーを抑圧する。一般に広く用いられているウィナーフィルタ法に基づくエコーサプレッサでは、受話信号の短時間スペクトルＸ（ω）と残留エコーの短時間スペクトルＹ_ＥＣ（ω）との間の音響結合量Ａ_Ｅ（ω）が推定され、下記の式（２）に基づいてウィナーフィルタＧ_{ｗｉｅｎｅｒ}（ω）が算出される。

そして、エコーサプレッサは、ウィナーフィルタＧ_{ｗｉｅｎｅｒ}（ω）を、下記の式（３）のように残留エコーの短時間スペクトルＹ_ＥＣ（ω）に対して掛け合わせることでエコーを抑圧した信号Ｙ_ＥＳ（ω）を得る。

Ｙ_ＥＳ（ω）＝Ｇ_{ｗｉｅｎｅｒ}（ω）Ｙ_ＥＣ（ω）・・・（３）
つまり、エコーサプレッサは、周波数成分ごとに推定した音響結合量Ａ_Ｅ（ω）と受話信号Ｘ（ω）とによって残留エコーを推定する。そのため、エコーサプレッサは、非線形エコーのような受話信号に存在しない周波数成分を推定することができない。

上記の裏付けとして、発明者らは、非線形エコーの影響評価を確認する実験を実施した。なお、評価実験には、従来のエコー抑圧装置が用いられた。従来のエコー抑圧装置は、受話信号を拡声するスピーカ、マイクロホン、マイクロホンによって取得された入力信号からエコー信号を抑圧するエコーキャンセラ、及びエコーキャンセラからの出力信号からエコー信号を抑圧するエコーサプレッサを備える。また、評価実験には、拡声に用いたスピーカの最低共振周波数ｆ０付近である中心周波数４００Ｈｚの１／３オクターブバンドノイズが用いられた。

図１は、スピーカ歪みによる非線形エコーが入力信号に含まれない場合におけるマイクロホン信号、エコーキャンセラ出力信号及びエコーサプレッサ出力信号を示す図であり、図２は、スピーカ歪みによる非線形エコーが入力信号に含まれる場合におけるマイクロホン信号、エコーキャンセラ出力信号及びエコーサプレッサ出力信号を示す図である。

図１及び図２において、実線は、マイクロホンから出力されたマイクロホン信号（入力信号）を表し、破線は、エコーキャンセラ出力信号を表し、一点鎖線は、エコーサプレッサ出力信号を表す。図１及び図２において、横軸は、周波数を表し、縦軸は、振幅レベルを表す。

図２では、入力信号の２次〜４次高調波が現れており、前述の通り、従来のエコーキャンセラ及びエコーサプレッサでは非線形エコーが全く抑圧できないことが示されている。さらに、図１及び図２において、４００Ｈｚ付近の基音に着目すると、非線形エコーが含まれない場合ではエコーキャンセラで３５ｄＢ程度のエコーが抑圧されているのに対し、非線形エコーが含まれる場合ではエコーキャンセラの抑圧量が２０ｄＢ程度まで劣化している。これは、適応フィルタが本来表現できないはずの非線形エコーを模擬しようとしてフィルタ係数を無理に更新し続けた結果、誤学習を引き起こし、エコー推定に誤差が生じたためと考えられる。

従来のエコー抑圧技術の本質的な課題は、線形モデルでエコーを推定するために非線形エコーが表現できない点にある。そこで、本実施の形態１におけるエコー抑圧装置は、任意の非線形関数を近似することができるニューラルネットワークを用いて非線形エコーを推定する。ニューラルネットワークの導入方法としては、非線形エコーの振幅及び位相を推定してエコーキャンセラに適用する方法と、非線形エコーの振幅のみを推定してエコーサプレッサに適用する方法との２通りが考えられる。前者は後者と比較して高い推定精度が必要であると共に、演算量が増大するという問題がある。そこで、本実施の形態１におけるエコー抑圧装置は、低消費電力、低コスト及び少ない演算量で実装可能なエコーサプレッサ方式により非線形エコーの抑圧を実現する。

図３は、本開示の実施の形態１における通話装置の構成を示す図である。図４は、本実施の形態１におけるエコー抑圧装置の各部から出力される信号の一例を示す図である。なお、通話装置は、拡声型のハンズフリー通話システム、拡声型の双方向通信会議システム及びインターホンシステムなどに利用される。

図３に示す通話装置は、エコー抑圧装置１、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。

入力端子１１は、受話側の通話装置（不図示）から受信した受話信号ｘ（ｋ）をエコー抑圧装置１へ出力する。

スピーカ１２は、入力された受話信号ｘ（ｋ）を外部へ出力する。ここで、スピーカ１２から出力された音声が、マイクロホン１３によって収音された場合、受話側のスピーカからは、受話側の話者の発話した音声が遅れて再生されることになり、いわゆる音響エコーが発生する。そこで、エコー抑圧装置１は、マイクロホン１３から出力される入力信号ｘ_ｍｉｃ（ｋ）に含まれる音響エコー信号を抑圧する。このとき、音響エコー信号は、線形エコー信号及び非線形エコー信号を含む。

マイクロホン１３は、送話者がいる空間内に配置され、送話者の音声を収音する。マイクロホン１３は、収音した音声を示す入力信号ｘ_ｍｉｃ（ｋ）をエコー抑圧装置１に出力する。

出力端子２２は、エコー抑圧装置１によって線形エコー信号及び非線形エコー信号が抑圧された入力信号ｙ_ＥＳ（ｋ）を出力する。

なお、入力端子１１及び出力端子２２は、通信部（不図示）に接続されている。通信部は、ネットワークを介して受話側の通話装置（不図示）へ入力信号ｙ_ＥＳ（ｋ）を送信するとともに、ネットワークを介して受話側の通話装置（不図示）から受話信号ｘ（ｋ）を受信する。ネットワークは、例えば、インターネットである。

エコー抑圧装置１は、エコーキャンセラ１４、高速フーリエ変換部１５，１６、非線形エコーモデル記憶部１７、非線形エコー推定部１８、非線形エコー抑圧部１９、エコーサプレッサ２０及び逆高速フーリエ変換部２１を備える。

入力端子１１は、受話信号ｘ（ｋ）をスピーカ１２、エコーキャンセラ１４及び高速フーリエ変換部１５へ出力する。

エコーキャンセラ１４は、マイクロホン１３によって取得された入力信号ｘ_ｍｉｃ（ｋ）に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧する。エコーキャンセラ１４は、第１の線形エコー抑圧部の一例である。図４に示すように、エコーキャンセラ１４は、マイクロホン１３から出力された入力信号ｘ_ｍｉｃ（ｋ）に含まれる線形エコー信号のみを抑圧する。

エコーキャンセラ１４は、不図示の適応フィルタ及び減算部を備える。

適応フィルタは、フィルタ係数と受話信号とを畳み込むことにより、マイクロホン１３によって取得された入力信号ｘ_ｍｉｃ（ｋ）に含まれる受話信号の成分を示す擬似エコー信号を生成する。

減算部は、マイクロホン１３からの入力信号ｘ_ｍｉｃ（ｋ）と適応フィルタからの擬似エコー信号との誤差信号を算出し、算出した誤差信号を適応フィルタへ出力する。適応フィルタは、入力された誤差信号に基づいてフィルタ係数を修正し、修正したフィルタ係数と受話信号とを畳み込むことにより擬似エコー信号を生成する。適応フィルタは、適応アルゴリズムを用いて、誤差信号が最小となるようにフィルタ係数を修正する。適応アルゴリズムとしては、例えば、学習同定法（ＮＬＭＳ（ＮｏｒｍａｒｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅ）法）、アフィン射影法又は再帰的最小２乗法（ＲＬＳ（ＲｅｃｕｒｓｉｖｅＬｅａｓｔＳｑｕａｒｅ）法）が用いられる。

また、減算部は、マイクロホン１３からの入力信号ｘ_ｍｉｃ（ｋ）から、適応フィルタからの擬似エコー信号を減算することにより、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧する。そして、減算部は、線形エコー信号を抑圧した入力信号ｙ_ＥＣ（ｋ）を高速フーリエ変換部１５へ出力する。

高速フーリエ変換部１５は、離散フーリエ変換を高速に行う。高速フーリエ変換部１５は、エコーキャンセラ１４から非線形エコー抑圧部１９に入力される時間領域の入力信号ｙ_ＥＣ（ｋ）を周波数領域の入力信号Ｙ_ＥＣ（ω）に変換する。高速フーリエ変換部１５は、エコーキャンセラ１４によって線形エコー信号のみが抑圧された周波数領域の入力信号Ｙ_ＥＣ（ω）を非線形エコー抑圧部１９へ出力する。

高速フーリエ変換部１６は、離散フーリエ変換を高速に行う。高速フーリエ変換部１６は、非線形エコー推定部１８に入力される時間領域の受話信号ｘ（ｋ）を周波数領域の受話信号Ｘ（ω）に変換する。高速フーリエ変換部１６は、周波数領域の受話信号Ｘ（ω）を非線形エコー推定部１８及びエコーサプレッサ２０へ出力する。

非線形エコーモデル記憶部１７は、スピーカ１２へ出力される受話信号及びマイクロホン１３によって取得された入力信号の少なくとも一方と非線形エコー信号との関係性を示す非線形エコーモデルを予め記憶する。なお、本実施の形態１における非線形エコーモデル記憶部１７は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを予め記憶する。非線形エコーモデルは、例えば、ニューラルネットワークである。

非線形エコーモデルは、受話信号及び入力信号の少なくとも一方と、入力信号から線形エコー信号を抑圧するエコーキャンセラの出力信号から線形エコー信号を抑圧するエコーサプレッサの出力信号とを教師データとして用い、入力を受話信号及び入力信号の少なくとも一方とし、出力を非線形エコー信号として学習される。本実施の形態１における非線形エコーモデルは、受話信号と、入力信号から線形エコー信号を抑圧するエコーキャンセラの出力信号から線形エコー信号を抑圧するエコーサプレッサの出力信号とを教師データとして用い、入力を受話信号とし、出力を非線形エコー信号として学習される。

非線形エコー推定部１８は、スピーカ１２へ出力される受話信号Ｘ（ω）及び入力信号ｘ_ｍｉｃ（ｋ）の少なくとも一方から入力信号Ｙ_ＥＣ（ω）に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。より具体的には、非線形エコー推定部１８は、スピーカ１２へ出力される受話信号Ｘ（ω）及び入力信号ｘ_ｍｉｃ（ｋ）の少なくとも一方と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及び入力信号ｘ_ｍｉｃ（ｋ）の少なくとも一方から入力信号Ｙ_ＥＣ（ω）に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。なお、本実施の形態１における非線形エコー推定部１８は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）から入力信号に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

非線形エコー推定部１８は、非線形エコーモデル記憶部１７から非線形エコーモデルを読み出す。非線形エコー推定部１８は、高速フーリエ変換部１６から出力された受話信号Ｘ（ω）を非線形エコーモデルに入力することにより、非線形エコーモデルから非線形エコー信号Ｘ_ＮＮ（ω）を取得する。非線形エコー推定部１８は、受話信号Ｘ（ω）を用いて推定した非線形エコー信号Ｘ_ＮＮ（ω）を非線形エコー抑圧部１９へ出力する。

非線形エコー抑圧部１９は、非線形エコー推定部１８によって推定された非線形エコー信号Ｘ_ＮＮ（ω）を用いて、入力信号Ｙ_ＥＣ（ω）から非線形エコー信号Ｘ_ＮＮ（ω）を抑圧する。より具体的には、非線形エコー抑圧部１９は、非線形エコー推定部１８によって推定された非線形エコー信号Ｘ_ＮＮ（ω）を用いて、エコーキャンセラ１４の出力信号から非線形エコー信号Ｘ_ＮＮ（ω）を抑圧する。

非線形エコー抑圧部１９は、下記の式（４）に基づいて、推定された非線形エコー信号Ｘ_ＮＮ（ω）とエコーキャンセラ１４からの入力信号Ｙ_ＥＣ（ω）とから、ウィナーフィルタＧ_ＮＮ（ω）を算出する。

非線形エコー抑圧部１９は、ウィナーフィルタＧ_ＮＮ（ω）を、下記の式（５）のように入力信号Ｙ_ＥＣ（ω）に乗ずることで非線形エコー信号を抑圧した入力信号Ｙ_{ＮＬ−ＥＳ}（ω）を得る。

Ｙ_{ＮＬ−ＥＳ}（ω）＝Ｇ_ＮＮ（ω）Ｙ_ＥＣ（ω）・・・（５）

非線形エコー抑圧部１９は、非線形エコー信号Ｘ_ＮＮ（ω）のみを抑圧した入力信号Ｙ_{ＮＬ−ＥＳ}（ω）をエコーサプレッサ２０へ出力する。

エコーサプレッサ２０は、エコーキャンセラ１４によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、残留線形エコー信号を抑圧する。より具体的には、エコーサプレッサ２０は、エコーキャンセラ１４によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、非線形エコー抑圧部１９の出力信号Ｙ_{ＮＬ−ＥＳ}（ω）から残留線形エコー信号を抑圧する。エコーサプレッサ２０は、第２の線形エコー抑圧部の一例である。

エコーサプレッサ２０は、スペクトルサブトラクション法又はウィナーフィルタ法により、残留線形エコー信号を抑圧する。エコーサプレッサ２０は、エコー信号のみの空間又はコヒーレンス関数を用いて、周波数毎に音響結合量を推定する。エコーサプレッサ２０は、推定した音響結合量と、非線形エコー抑圧部１９の出力信号Ｙ_{ＮＬ−ＥＳ}（ω）と、受話信号Ｘ（ω）とを用いて、抑圧ゲインを算出する。エコーサプレッサ２０は、算出した抑圧ゲインを非線形エコー抑圧部１９の出力信号に乗ずることにより、エコーキャンセラ１４によって抑圧されなかった残留線形エコー信号を抑圧する。エコーサプレッサ２０は、入力信号Ｙ_{ＮＬ−ＥＳ}（ω）から残留線形エコー信号のみを抑圧した入力信号Ｙ_ＥＳ（ω）を逆高速フーリエ変換部２１へ出力する。

逆高速フーリエ変換部２１は、逆離散フーリエ変換を高速に行う。逆高速フーリエ変換部２１は、エコーサプレッサ２０から出力端子２２に入力される周波数領域の入力信号Ｙ_ＥＳ（ω）を時間領域の入力信号ｙ_ＥＳ（ｋ）に変換する。逆高速フーリエ変換部２１は、入力信号ｙ_ＥＳ（ｋ）を出力端子２２へ出力する。

次に、本開示の実施の形態１におけるエコー抑圧装置１の動作について説明する。

図５は、本開示の実施の形態１におけるエコー抑圧装置の動作を説明するためのフローチャートである。

まず、ステップＳ１において、エコーキャンセラ１４は、マイクロホン１３によって取得された入力信号ｘ_ｍｉｃ（ｋ）に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧する。

次に、ステップＳ２において、非線形エコー推定部１８は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）から入力信号に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

次に、ステップＳ３において、非線形エコー抑圧部１９は、エコーキャンセラ１４から出力された入力信号Ｙ_ＥＣ（ω）から、非線形エコー推定部１８によって推定された非線形エコー信号Ｘ_ＮＮ（ω）を抑圧する。

次に、ステップＳ４において、エコーサプレッサ２０は、エコーキャンセラ１４によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、非線形エコー抑圧部１９からの入力信号Ｙ_{ＮＬ−ＥＳ}（ω）から残留線形エコー信号を抑圧する。エコーサプレッサ２０は、入力信号Ｙ_{ＮＬ−ＥＳ}（ω）から残留線形エコー信号のみを抑圧した入力信号Ｙ_ＥＳ（ω）を逆高速フーリエ変換部２１へ出力する。逆高速フーリエ変換部２１は、時間領域の入力信号ｙ_ＥＳ（ｋ）を出力端子２２へ出力する。

以上のように、スピーカ１２へ出力される受話信号及び入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号及び入力信号の少なくとも一方から入力信号に含まれる非線形エコー信号が推定され、推定された非線形エコー信号を用いて、エコーキャンセラ１４の出力信号から非線形エコー信号が抑圧される。したがって、マイクロホン１３によって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができる。

また、エコーサプレッサ２０によって、非線形エコー信号が抑圧された出力信号から残留線形エコー信号が抑圧される。したがって、エコーサプレッサ２０の動作を安定させることができ、線形エコー信号の抑圧性能を向上させることができる。

続いて、本実施の形態１における非線形エコーモデルの学習方法について説明する。

図６は、本開示の実施の形態１における学習装置の構成を示す図である。図７は、本実施の形態１における学習装置の各部から出力される信号の一例を示す図である。

図６に示す学習装置は、非線形エコーモデル作成装置２、入力端子３１、スピーカ３２、マイクロホン３３及び出力端子３９を備える。

入力端子３１は、受話側の通話装置（不図示）から受信した受話信号ｘ（ｋ）をエコー抑圧装置１へ出力する。

スピーカ３２は、入力された受話信号ｘ（ｋ）を外部へ出力する。

マイクロホン３３は、送話者がいる空間内に配置され、送話者の音声を収音する。マイクロホン３３は、収音した音声を示す入力信号ｘ_ｍｉｃ（ｋ）を非線形エコーモデル作成装置２に出力する。

出力端子３９は、非線形エコーモデル作成装置２によって線形エコー信号が抑圧された入力信号ｙ_ＥＳ（ｋ）を出力する。

なお、入力端子３１、スピーカ３２、マイクロホン３３及び出力端子３９の構成は、図３における入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２の構成と同じである。

非線形エコーモデル作成装置２は、エコーキャンセラ３４、高速フーリエ変換部３５，３６、エコーサプレッサ３７、逆高速フーリエ変換部３８、非線形エコーモデル学習部４０及び非線形エコーモデル記憶部４１を備える。

エコーキャンセラ３４は、マイクロホン１３によって取得された入力信号ｘ_ｍｉｃ（ｋ）に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧する。エコーキャンセラ３４の構成は、図３に示すエコーキャンセラ１４の構成と同じである。エコーキャンセラ３４は、線形エコー信号を抑圧した入力信号ｙ_ＥＣ（ｋ）を高速フーリエ変換部３５へ出力する。

高速フーリエ変換部３５は、離散フーリエ変換を高速に行う。高速フーリエ変換部３５は、エコーキャンセラ３４からエコーサプレッサ３７に入力される時間領域の入力信号ｙ_ＥＣ（ｋ）を周波数領域の入力信号Ｙ_ＥＣ（ω）に変換する。高速フーリエ変換部３５は、エコーキャンセラ３４によって線形エコー信号のみが抑圧された周波数領域の入力信号Ｙ_ＥＣ（ω）をエコーサプレッサ３７へ出力する。

高速フーリエ変換部３６は、離散フーリエ変換を高速に行う。高速フーリエ変換部３６は、エコーサプレッサ３７に入力される時間領域の受話信号ｘ（ｋ）を周波数領域の受話信号Ｘ（ω）に変換する。高速フーリエ変換部３６は、周波数領域の受話信号Ｘ（ω）をエコーサプレッサ３７及び非線形エコーモデル学習部４０へ出力する。

エコーサプレッサ３７は、エコーキャンセラ３４によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、入力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧する。エコーサプレッサ３７は、入力信号Ｙ_ＥＣ（ω）から残留線形エコー信号のみを抑圧した入力信号Ｙ_ＥＳ（ω）を逆高速フーリエ変換部２１及び非線形エコーモデル学習部４０へ出力する。

逆高速フーリエ変換部３８は、逆離散フーリエ変換を高速に行う。逆高速フーリエ変換部３８は、エコーサプレッサ３７から出力端子３９に入力される周波数領域の入力信号Ｙ_ＥＳ（ω）を時間領域の入力信号ｙ_ＥＳ（ｋ）に変換する。逆高速フーリエ変換部３８は、入力信号ｙ_ＥＳ（ｋ）を出力端子３９へ出力する。

非線形エコーモデル学習部４０は、受話信号Ｘ（ω）及び入力信号ｘ_ｍｉｃ（ｋ）の少なくとも一方と、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧するエコーキャンセラ３４の出力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧するエコーサプレッサ３７の出力信号Ｙ_ＥＳ（ω）とを教師データとして用い、入力を受話信号Ｘ（ω）及び入力信号ｘ_ｍｉｃ（ｋ）の少なくとも一方とし、出力を非線形エコー信号とする非線形エコーモデルを学習する。本実施の形態１における非線形エコーモデル学習部４０は、受話信号Ｘ（ω）と、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧するエコーキャンセラ３４の出力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧するエコーサプレッサ３７の出力信号Ｙ_ＥＳ（ω）とを教師データとして用い、入力を受話信号Ｘ（ω）とし、出力を非線形エコー信号とする非線形エコーモデルを学習する。

非線形エコーモデルは、受話信号の振幅スペクトルＸ（ω）と、エコーキャンセラ３４及びエコーサプレッサ３７の残留エコー振幅スペクトルＹ_ＥＳ（ω）とを教師データとして事前学習させたニューラルネットワークである。エコーキャンセラ３４及びエコーサプレッサ３７は、線形エコー信号のみを抑圧可能である。そのため、エコーキャンセラ３４及びエコーサプレッサ３７の出力信号（残留エコー信号）は、非線形エコー信号とほぼ等しい。このように、非線形エコーモデル学習部４０は、受話信号の振幅スペクトルと、非線形エコー信号の振幅スペクトルとの関係性をモデル化することができる。

なお、機械学習としては、例えば、入力情報に対してラベル（出力情報）が付与された教師データを用いて入力と出力との関係を学習する教師あり学習、ラベルのない入力のみからデータの構造を構築する教師なし学習、ラベルありとラベルなしとのどちらも扱う半教師あり学習、報酬を最大化する行動を試行錯誤により学習する強化学習なども挙げられる。また、機械学習の具体的な手法としては、ニューラルネットワーク（多層のニューラルネットワークを用いた深層学習を含む）だけでなく、遺伝的プログラミング、決定木、ベイジアン・ネットワーク、又はサポート・ベクター・マシン（ＳＶＭ）などが存在する。非線形エコーモデルの機械学習においては、以上で挙げた具体例のいずれかを用いればよい。

非線形エコーモデル学習部４０は、学習した非線形エコーモデルを非線形エコーモデル記憶部４１に記憶する。

非線形エコーモデル記憶部４１は、非線形エコーモデル学習部４０によって学習された非線形エコーモデルを記憶する。

なお、図３に示すエコー抑圧装置１は、非線形エコーモデル学習部４０を備えてもよい。この場合、エコー抑圧装置１は、学習モードとエコー抑圧モードとを切り替えるモード切替部をさらに備えてもよい。モード切替部によって学習モードに切り替えられた場合、エコーキャンセラ１４は、出力信号をエコーサプレッサ２０へ出力する。非線形エコーモデル学習部４０は、エコーキャンセラ１４及びエコーサプレッサ２０によって線形エコー信号が抑圧された入力信号Ｙ_ＥＳ（ω）と、受話信号Ｘ（ω）とを教師データとして、非線形エコーモデルを学習してもよい。

また、学習装置によって学習された非線形エコーモデルが、エコー抑圧装置１の非線形エコーモデル記憶部１７に予め記憶されてもよい。また、エコー抑圧装置１は、学習装置によって学習された非線形エコーモデルを受信し、非線形エコーモデル記憶部１７に記憶されている非線形エコーモデルを更新してもよい。

続いて、本実施の形態１におけるエコー抑圧装置１のエコー抑圧量と、従来のエコー抑圧装置のエコー抑圧量とを比較したシミュレーション結果について説明する。

まず、シミュレーションに用いるニューラルネットワーク（非線形エコーモデル）は、短時間フーリエ変換の振幅スペクトルを入出力特徴量とした。

図８〜図１１は、ニューラルネットワークで非線形エコー信号の振幅スペクトルを推定した例を示す図である。図８は、１／３オクターブバンドノイズを含む受話信号の振幅スペクトルを示す図であり、図９は、図８に示す受話信号が拡声された際にマイクロホンで得られる入力信号に含まれる非線形エコー信号の正解値及び推定値の振幅スペクトルを示す図である。図１０は、女性の声を含む受話信号の振幅スペクトルを示す図であり、図１１は、図１０に示す受話信号が拡声された際にマイクロホンで得られる入力信号に含まれる非線形エコー信号の正解値及び推定値の振幅スペクトルを示す図である。

図８〜図１１において、横軸は周波数を表し、縦軸は振幅レベルを表す。図９及び図１１において、実線は、非線形エコー信号の正解値を表し、破線は非線形エコー信号の推定値を表す。

図９及び図１１に示すように、ニューラルネットワークは、実線で示した非線形エコー信号を精度良く推定できていることがわかる。

次に、学習させたニューラルネットワークを用いた本実施の形態１のエコー抑圧装置１と、従来のエコー抑圧装置とのシミュレーション結果について説明する。なお、従来のエコー抑圧装置は、エコーキャンセラ及びエコーサプレッサのみを備え、エコーキャンセラ及びエコーサプレッサにより線形エコー信号のみを抑圧する。

図１２は、従来のエコー抑圧装置からの出力信号及び本実施の形態１のエコー抑圧装置からの出力信号を周波数解析した結果を示す図である。なお、図１２において、横軸は周波数を表し、縦軸は振幅レベルを表す。また、図１２において、実線はマイクロホン１３からの入力信号を表し、破線は従来のエコー抑圧装置からの出力信号を表し、一点鎖線は本実施の形態１のエコー抑圧装置１からの出力信号を表す。また、受話信号は、中心周波数３１５Ｈｚの１／３オクターブバンドノイズである。

図１２に示すように、本実施の形態１のエコー抑圧装置１では、非線形エコー信号である高調波歪みに対して目標値を上回る１５ｄＢから２０ｄＢの抑圧効果が得られている。さらに、本実施の形態１のエコー抑圧装置１では、３１５Ｈｚの線形エコー信号に対しても従来のエコー抑圧装置と比較して約１５ｄＢ高い抑圧効果が得られている。これは、本実施の形態１の非線形エコー抑圧部１９により非線形エコー信号が抑圧されたことで、後段のエコーサプレッサ２０における音響結合量の推定が安定して動作するようになったためと考えられる。

次に、人の声のように複雑な周波数構造を持つ入力信号に対する本実施の形態１のエコー抑圧装置１及び従来のエコー抑圧装置によるエコー抑圧量の評価結果について説明する。なお、評価指標にはエコーの抑圧量を意味するＥＲＬＥ（ＥｃｈｏＲｅｔｕｒｎＬｏｓｓＥｎｈａｎｃｅｍｅｎｔ）が用いられた。ＥＲＬＥは、下記の式（６）により算出される。

図１３は、男性の声を含む入力信号の振幅の時間変化と、入力信号に対するエコー抑圧量（ＥＲＬＥ）の時間変化とを示す図である。なお、図１３の上段において、横軸は時間を表し、縦軸は振幅を表す。また、図１３の下段において、横軸は時間を表し、縦軸はエコー抑圧量を表す。また、図１３の下段において、実線は本実施の形態１のエコー抑圧装置１によるエコー抑圧量を表し、破線は従来のエコー抑圧装置によるエコー抑圧量を表す。

本実施の形態１のエコー抑圧装置１は、従来のエコー抑圧装置と比較して、約１０ｄＢ高い抑圧効果が得られている。そのため、本実施の形態１のエコー抑圧装置１は、人の声のような複雑な周波数構造を有する入力信号に対しても十分に有効であることが示された。

このように、本実施の形態１のエコー抑圧装置１は、歪みの多いスピーカでも快適な通話が可能となり、ノートパソコン、ウェブ会議システム及び携帯電話等の高品質化、小型化及び低コストに貢献できる。

（実施の形態２）
上記の実施の形態１における非線形エコー推定部１８は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号から入力信号に含まれる非線形エコー信号を推定している。これに対し、実施の形態２における非線形エコー推定部は、受話信号及び入力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号及び入力信号から入力信号に含まれる非線形エコー信号を推定する。

図１４は、本開示の実施の形態２における通話装置の構成を示す図である。

図１４に示す通話装置は、エコー抑圧装置１Ａ、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。なお、本実施の形態２において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

エコー抑圧装置１Ａは、エコーキャンセラ１４、高速フーリエ変換部１５，１６，２３、非線形エコーモデル記憶部１７１、非線形エコー推定部１８１、非線形エコー抑圧部１９、エコーサプレッサ２０及び逆高速フーリエ変換部２１を備える。

マイクロホン１３は、入力信号ｘ_ｍｉｃ（ｋ）をエコーキャンセラ１４へ出力するとともに、高速フーリエ変換部２３を介して非線形エコー推定部１８１へ出力する。

高速フーリエ変換部２３は、離散フーリエ変換を高速に行う。高速フーリエ変換部２３は、非線形エコー推定部１８１に入力される時間領域の入力信号ｘ_ｍｉｃ（ｋ）を周波数領域の入力信号Ｘ_ｍｉｃ（ω）に変換する。高速フーリエ変換部２３は、周波数領域の入力信号Ｘ_ｍｉｃ（ω）を非線形エコー推定部１８１へ出力する。

非線形エコーモデル記憶部１７１は、スピーカ１２へ出力される受話信号及びマイクロホン１３によって取得された入力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを予め記憶する。非線形エコーモデルは、例えば、ニューラルネットワークである。

本実施の形態２における非線形エコーモデルは、受話信号と、入力信号と、入力信号から線形エコー信号を抑圧するエコーキャンセラの出力信号から残留線形エコー信号を抑圧するエコーサプレッサの出力信号とを教師データとして用い、入力を受話信号及び入力信号とし、出力を非線形エコー信号として学習される。

実施の形態２における非線形エコーモデルの学習方法では、図６に示す非線形エコーモデル学習部４０に受話信号Ｘ（ω）と周波数領域の入力信号Ｘ_ｍｉｃ（ω）とが入力される。そして、本実施の形態２における非線形エコーモデル学習部４０は、受話信号Ｘ（ω）と、入力信号Ｘ_ｍｉｃ（ω）と、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧するエコーキャンセラ３４の出力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧するエコーサプレッサ３７の出力信号Ｙ_ＥＳ（ω）とを教師データとして用い、入力を受話信号Ｘ（ω）及び入力信号Ｘ_ｍｉｃ（ω）とし、出力を非線形エコー信号とする非線形エコーモデルを学習する。

非線形エコー推定部１８１は、受話信号及び入力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及び入力信号Ｘ_ｍｉｃ（ω）から入力信号に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

非線形エコー推定部１８１は、非線形エコーモデル記憶部１７１から非線形エコーモデルを読み出す。非線形エコー推定部１８１は、高速フーリエ変換部１６から出力された受話信号Ｘ（ω）及び高速フーリエ変換部２３から出力された入力信号Ｘ_ｍｉｃ（ω）を非線形エコーモデルに入力することにより、非線形エコーモデルから非線形エコー信号Ｘ_ＮＮ（ω）を取得する。非線形エコー推定部１８１は、受話信号Ｘ（ω）及び入力信号Ｘ_ｍｉｃ（ω）を用いて推定した非線形エコー信号Ｘ_ＮＮ（ω）を非線形エコー抑圧部１９へ出力する。

なお、本実施の形態２におけるエコー抑圧装置１Ａの動作については、図５に示すステップＳ２の処理のみが異なる。すなわち、本実施の形態２では、非線形エコー推定部１８１は、受話信号及び入力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及び入力信号Ｘ_ｍｉｃ（ω）から非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

本実施の形態２では、受話信号及び入力信号から非線形エコー信号が推定されるので、非線形エコー信号の推定精度をより向上させることができる。

（実施の形態３）
上記の実施の形態１における非線形エコー推定部１８は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号から入力信号に含まれる非線形エコー信号を推定している。これに対し、実施の形態３における非線形エコー推定部は、受話信号及びエコーキャンセラの出力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号及びエコーキャンセラ１４の出力信号から入力信号に含まれる非線形エコー信号を推定する。

図１５は、本開示の実施の形態３における通話装置の構成を示す図である。

図１５に示す通話装置は、エコー抑圧装置１Ｂ、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。なお、本実施の形態３において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

エコー抑圧装置１Ｂは、エコーキャンセラ１４、高速フーリエ変換部１５，１６、非線形エコーモデル記憶部１７２、非線形エコー推定部１８２、非線形エコー抑圧部１９、エコーサプレッサ２０及び逆高速フーリエ変換部２１を備える。

高速フーリエ変換部１５は、エコーキャンセラ１４によって線形エコー信号のみが抑圧された周波数領域の入力信号Ｙ_ＥＣ（ω）を非線形エコー抑圧部１９及び非線形エコー推定部１８２へ出力する。

非線形エコーモデル記憶部１７２は、スピーカ１２へ出力される受話信号及びエコーキャンセラの出力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを予め記憶する。非線形エコーモデルは、例えば、ニューラルネットワークである。

本実施の形態３における非線形エコーモデルは、受話信号と、エコーキャンセラの出力信号と、入力信号から線形エコー信号を抑圧するエコーキャンセラの出力信号から残留線形エコー信号を抑圧するエコーサプレッサの出力信号とを教師データとして用い、入力を受話信号及びエコーキャンセラの出力信号とし、出力を非線形エコー信号として学習される。

実施の形態３における非線形エコーモデルの学習方法では、図６に示す非線形エコーモデル学習部４０に受話信号Ｘ（ω）とエコーキャンセラ３４の周波数領域の出力信号Ｙ_ＥＣ（ω）とが入力される。そして、本実施の形態３における非線形エコーモデル学習部４０は、受話信号Ｘ（ω）と、エコーキャンセラ３４の周波数領域の出力信号Ｙ_ＥＣ（ω）と、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧するエコーキャンセラ３４の周波数領域の出力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧するエコーサプレッサ３７の出力信号Ｙ_ＥＳ（ω）とを教師データとして用い、入力を受話信号Ｘ（ω）及びエコーキャンセラ３４の周波数領域の出力信号Ｙ_ＥＣ（ω）とし、出力を非線形エコー信号とする非線形エコーモデルを学習する。

非線形エコー推定部１８２は、受話信号及びエコーキャンセラの出力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及びエコーキャンセラ１４の周波数領域の出力信号Ｙ_ＥＣ（ω）から入力信号に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

非線形エコー推定部１８２は、非線形エコーモデル記憶部１７２から非線形エコーモデルを読み出す。非線形エコー推定部１８２は、高速フーリエ変換部１６から出力された受話信号Ｘ（ω）及び高速フーリエ変換部１５から出力された入力信号Ｙ_ＥＣ（ω）を非線形エコーモデルに入力することにより、非線形エコーモデルから非線形エコー信号Ｘ_ＮＮ（ω）を取得する。非線形エコー推定部１８２は、受話信号Ｘ（ω）及び入力信号Ｙ_ＥＣ（ω）を用いて推定した非線形エコー信号Ｘ_ＮＮ（ω）を非線形エコー抑圧部１９へ出力する。

なお、本実施の形態３におけるエコー抑圧装置１Ｂの動作については、図５に示すステップＳ２の処理のみが異なる。すなわち、本実施の形態３では、非線形エコー推定部１８２は、受話信号及びエコーキャンセラ１４の出力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及びエコーキャンセラ１４の周波数領域の出力信号Ｙ_ＥＣ（ω）から非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

本実施の形態３では、受話信号及びエコーキャンセラの出力信号から非線形エコー信号が推定されるので、非線形エコー信号の推定精度をより向上させることができる。

（実施の形態４）
上記の実施の形態１における非線形エコー推定部１８は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号から入力信号に含まれる非線形エコー信号を推定している。これに対し、実施の形態４における非線形エコー推定部は、受話信号及びエコーキャンセラの適応フィルタからの擬似線形エコー信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号及びエコーキャンセラの適応フィルタからの擬似線形エコー信号から入力信号に含まれる非線形エコー信号を推定する。

図１６は、本開示の実施の形態４における通話装置の構成を示す図である。

図１６に示す通話装置は、エコー抑圧装置１Ｃ、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。なお、本実施の形態４において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

エコー抑圧装置１Ｃは、エコーキャンセラ１４、高速フーリエ変換部１５，１６，２４、非線形エコーモデル記憶部１７３、非線形エコー推定部１８３、非線形エコー抑圧部１９、エコーサプレッサ２０及び逆高速フーリエ変換部２１を備える。

エコーキャンセラ１４は、適応フィルタ１４１及び減算部１４２を備える。適応フィルタ１４１は、フィルタ係数と受話信号とを畳み込むことにより入力信号に含まれる受話信号の成分を示す擬似線形エコー信号を生成する。減算部１４２は、入力信号から擬似線形エコー信号を減算する。

高速フーリエ変換部２４は、離散フーリエ変換を高速に行う。高速フーリエ変換部２４は、非線形エコー推定部１８３に入力される時間領域の擬似線形エコー信号を周波数領域の擬似線形エコー信号に変換する。高速フーリエ変換部２４は、周波数領域の擬似線形エコー信号を非線形エコー推定部１８３へ出力する。

非線形エコーモデル記憶部１７３は、スピーカ１２へ出力される受話信号及びエコーキャンセラの適応フィルタからの擬似線形エコー信号と、非線形エコー信号との関係性を示す非線形エコーモデルを予め記憶する。非線形エコーモデルは、例えば、ニューラルネットワークである。

本実施の形態４における非線形エコーモデルは、受話信号と、エコーキャンセラの適応フィルタからの擬似線形エコー信号と、入力信号から線形エコー信号を抑圧するエコーキャンセラの出力信号から残留線形エコー信号を抑圧するエコーサプレッサの出力信号とを教師データとして用い、入力を受話信号及び擬似線形エコー信号とし、出力を非線形エコー信号として学習される。

実施の形態４における非線形エコーモデルの学習方法では、図６に示す非線形エコーモデル学習部４０に受話信号Ｘ（ω）とエコーキャンセラ３４の適応フィルタからの擬似線形エコー信号とが入力される。そして、本実施の形態４における非線形エコーモデル学習部４０は、受話信号Ｘ（ω）と、エコーキャンセラ３４の適応フィルタからの擬似線形エコー信号と、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧するエコーキャンセラ３４の出力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧するエコーサプレッサ３７の出力信号Ｙ_ＥＳ（ω）とを教師データとして用い、入力を受話信号Ｘ（ω）及び擬似線形エコー信号とし、出力を非線形エコー信号とする非線形エコーモデルを学習する。

非線形エコー推定部１８３は、受話信号及び適応フィルタからの擬似線形エコー信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及び適応フィルタ１４１からの擬似線形エコー信号から入力信号に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

非線形エコー推定部１８３は、非線形エコーモデル記憶部１７３から非線形エコーモデルを読み出す。非線形エコー推定部１８３は、高速フーリエ変換部１６から出力された受話信号Ｘ（ω）及び高速フーリエ変換部２４から出力された擬似線形エコー信号を非線形エコーモデルに入力することにより、非線形エコーモデルから非線形エコー信号Ｘ_ＮＮ（ω）を取得する。非線形エコー推定部１８３は、受話信号Ｘ（ω）及び擬似線形エコー信号を用いて推定した非線形エコー信号Ｘ_ＮＮ（ω）を非線形エコー抑圧部１９へ出力する。

なお、本実施の形態４におけるエコー抑圧装置１Ｃの動作については、図５に示すステップＳ２の処理のみが異なる。すなわち、本実施の形態４では、非線形エコー推定部１８３は、受話信号及びエコーキャンセラの適応フィルタからの擬似線形エコー信号と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号Ｘ（ω）及びエコーキャンセラ１４の適応フィルタ１４１からの擬似線形エコー信号から非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

本実施の形態４では、受話信号及びエコーキャンセラ１４の適応フィルタ１４１からの擬似線形エコー信号から非線形エコー信号が推定されるので、非線形エコー信号の推定精度をより向上させることができる。

（実施の形態５）
上記の実施の形態１における非線形エコー推定部１８は、受話信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、受話信号から入力信号に含まれる非線形エコー信号を推定している。これに対し、実施の形態５における非線形エコー推定部は、入力信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、入力信号から入力信号に含まれる非線形エコー信号を推定する。

図１７は、本開示の実施の形態５における通話装置の構成を示す図である。

図１７に示す通話装置は、エコー抑圧装置１Ｄ、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。なお、本実施の形態５において、実施の形態１，２と同じ構成については同じ符号を付し、説明を省略する。

エコー抑圧装置１Ｄは、エコーキャンセラ１４、高速フーリエ変換部１５，１６，２３、非線形エコーモデル記憶部１７４、非線形エコー推定部１８４、非線形エコー抑圧部１９、エコーサプレッサ２０及び逆高速フーリエ変換部２１を備える。

マイクロホン１３は、入力信号ｘ_ｍｉｃ（ｋ）をエコーキャンセラ１４へ出力するとともに、高速フーリエ変換部２３を介して非線形エコー推定部１８４へ出力する。

高速フーリエ変換部２３は、離散フーリエ変換を高速に行う。高速フーリエ変換部２３は、非線形エコー推定部１８４に入力される時間領域の入力信号ｘ_ｍｉｃ（ｋ）を周波数領域の入力信号Ｘ_ｍｉｃ（ω）に変換する。高速フーリエ変換部２３は、周波数領域の入力信号Ｘ_ｍｉｃ（ω）を非線形エコー推定部１８４へ出力する。

非線形エコーモデル記憶部１７４は、マイクロホン１３によって取得された入力信号と、非線形エコー信号との関係性を示す非線形エコーモデルを予め記憶する。非線形エコーモデルは、例えば、ニューラルネットワークである。

本実施の形態５における非線形エコーモデルは、マイクロホンによって取得された入力信号と、入力信号から線形エコー信号を抑圧するエコーキャンセラの出力信号から残留線形エコー信号を抑圧するエコーサプレッサの出力信号とを教師データとして用い、入力を入力信号とし、出力を非線形エコー信号として学習される。

実施の形態５における非線形エコーモデルの学習方法では、図６に示す非線形エコーモデル学習部４０に周波数領域の入力信号Ｘ_ｍｉｃ（ω）が入力される。そして、本実施の形態５における非線形エコーモデル学習部４０は、入力信号Ｘ_ｍｉｃ（ω）と、入力信号ｘ_ｍｉｃ（ｋ）から線形エコー信号を抑圧するエコーキャンセラ３４の出力信号Ｙ_ＥＣ（ω）から残留線形エコー信号を抑圧するエコーサプレッサ３７の出力信号Ｙ_ＥＳ（ω）とを教師データとして用い、入力を入力信号Ｘ_ｍｉｃ（ω）とし、出力を非線形エコー信号とする非線形エコーモデルを学習する。

非線形エコー推定部１８４は、入力信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、入力信号Ｘ_ｍｉｃ（ω）から入力信号に含まれる非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

非線形エコー推定部１８４は、非線形エコーモデル記憶部１７４から非線形エコーモデルを読み出す。非線形エコー推定部１８４は、高速フーリエ変換部２３から出力された入力信号Ｘ_ｍｉｃ（ω）を非線形エコーモデルに入力することにより、非線形エコーモデルから非線形エコー信号Ｘ_ＮＮ（ω）を取得する。非線形エコー推定部１８４は、入力信号Ｘ_ｍｉｃ（ω）を用いて推定した非線形エコー信号Ｘ_ＮＮ（ω）を非線形エコー抑圧部１９へ出力する。

なお、本実施の形態５におけるエコー抑圧装置１Ｄの動作については、図５に示すステップＳ２の処理のみが異なる。すなわち、本実施の形態５では、非線形エコー推定部１８４は、入力信号と非線形エコー信号との関係性を示す非線形エコーモデルを用いて、入力信号Ｘ_ｍｉｃ（ω）から非線形エコー信号Ｘ_ＮＮ（ω）を推定する。

本実施の形態５では、マイクロホン１３によって取得された入力信号のみからでも、非線形エコー信号を推定することができる。

（実施の形態６）
上記の実施の形態１では、非線形エコー推定部１８によって推定された非線形エコー信号は、非線形エコー抑圧部１９へ出力される。これに対し、実施の形態６では、非線形エコー推定部１８によって推定された非線形エコー信号の推定誤差が、非線形エコー抑圧部１９の出力信号を用いて補正される。

図１８は、本開示の実施の形態６における通話装置の構成を示す図である。

図１８に示す通話装置は、エコー抑圧装置１Ｅ、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。なお、本実施の形態６において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

エコー抑圧装置１Ｅは、エコーキャンセラ１４、高速フーリエ変換部１５，１６、非線形エコーモデル記憶部１７、非線形エコー推定部１８、非線形エコー抑圧部１９、エコーサプレッサ２０、逆高速フーリエ変換部２１及び補正部２５を備える。

補正部２５は、非線形エコー抑圧部１９の出力信号を最小化するための可変ゲインを算出し、算出した可変ゲインを用いて非線形エコー推定部１８によって推定された非線形エコー信号を補正する。このとき、補正部２５は、非線形エコー抑圧部１９の出力信号が０に近づくように可変ゲインを算出する。そして、補正部２５は、算出した可変ゲインを、非線形エコー推定部１８によって推定された非線形エコー信号に乗ずる。これにより、補正部２５は、非線形エコー推定部１８によって推定された非線形エコー信号の推定誤差を補正する。

なお、本実施の形態６におけるエコー抑圧装置１Ｅの動作については、図５に示すステップＳ２とステップＳ３との間に新たな処理が加わる。すなわち、本実施の形態６では、ステップＳ２の処理の後、補正部２５は、非線形エコー抑圧部１９の出力信号を最小化するための可変ゲインを算出し、算出した可変ゲインを用いて非線形エコー推定部１８によって推定された非線形エコー信号を補正する。

本実施の形態６では、非線形エコー抑圧部１９の出力信号を用いて、非線形エコー推定部１８によって推定された非線形エコー信号の推定誤差が補正されるので、非線形エコー信号の推定精度を向上させることができ、エコー抑圧性能を向上させることができる。特に、本実施の形態６は、非線形エコーモデルが固定値である場合に有効である。

なお、上記の実施の形態２〜５におけるエコー抑圧装置１Ａ〜１Ｄが、本実施の形態６における補正部２５を備えてもよい。

（実施の形態７）
上記の実施の形態１では、非線形エコー推定部１８によって推定された非線形エコー信号は、非線形エコー抑圧部１９へ出力される。これに対し、実施の形態７では、非線形エコー推定部１８によって推定された非線形エコー信号の推定誤差が、エコーサプレッサ２０の出力信号を用いて補正される。

図１９は、本開示の実施の形態７における通話装置の構成を示す図である。

図１９に示す通話装置は、エコー抑圧装置１Ｆ、入力端子１１、スピーカ１２、マイクロホン１３及び出力端子２２を備える。なお、本実施の形態７において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

エコー抑圧装置１Ｆは、エコーキャンセラ１４、高速フーリエ変換部１５，１６、非線形エコーモデル記憶部１７、非線形エコー推定部１８、非線形エコー抑圧部１９、エコーサプレッサ２０、逆高速フーリエ変換部２１及び補正部２５１を備える。

補正部２５１は、エコーサプレッサ２０の出力信号を最小化するための可変ゲインを算出し、算出した可変ゲインを用いて非線形エコー推定部１８によって推定された非線形エコー信号を補正する。このとき、補正部２５は、エコーサプレッサ２０の出力信号が０に近づくように可変ゲインを算出する。そして、補正部２５１は、算出した可変ゲインを、非線形エコー推定部１８によって推定された非線形エコー信号に乗ずる。これにより、補正部２５１は、非線形エコー推定部１８によって推定された非線形エコー信号の推定誤差を補正する。

なお、本実施の形態７におけるエコー抑圧装置１Ｆの動作については、図５に示すステップＳ２とステップＳ３との間に新たな処理が加わる。すなわち、本実施の形態７では、ステップＳ２の処理の後、補正部２５１は、エコーサプレッサ２０の出力信号を最小化するための可変ゲインを算出し、算出した可変ゲインを用いて非線形エコー推定部１８によって推定された非線形エコー信号を補正する。

本実施の形態７では、エコーサプレッサ２０の出力信号を用いて、非線形エコー推定部１８によって推定された非線形エコー信号の推定誤差が補正されるので、非線形エコー信号の推定精度を向上させることができ、エコー抑圧性能を向上させることができる。特に、本実施の形態７は、非線形エコーモデルが固定値である場合に有効である。

なお、上記の実施の形態２〜５におけるエコー抑圧装置１Ａ〜１Ｄが、本実施の形態７における補正部２５１を備えてもよい。

なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

また、本開示の実施の形態に係る装置の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

本開示の技術は、マイクロホンによって取得された入力信号に含まれる非線形エコー信号を安定して抑圧することができるので、マイクロホンによって取得された入力信号に含まれる線形エコー信号及び非線形エコー信号を抑圧する技術に有用である。

１，１Ａ，１Ｂ，１Ｃ，１Ｄ，１Ｅ，１Ｆエコー抑圧装置
２非線形エコーモデル作成装置
１１，３１入力端子
１２，３２スピーカ
１３，３３マイクロホン
１４，３４エコーキャンセラ
１５，１６，２３，２４，３５，３６高速フーリエ変換部
１７，１７１，１７２，１７３，１７４非線形エコーモデル記憶部
１８，１８１，１８２，１８３，１８４非線形エコー推定部
１９非線形エコー抑圧部
２０，３７エコーサプレッサ
２１，３８逆高速フーリエ変換部
２２，３９出力端子
２５，２５１補正部
４０非線形エコーモデル学習部
４１非線形エコーモデル記憶部
１４１適応フィルタ
１４２減算部

Claims

マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、
スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、
前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、
前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部と、
を備えるエコー抑圧装置。
前記非線形エコーモデルは、前記受話信号及び前記入力信号の少なくとも一方と、前記入力信号から線形エコー信号を抑圧する前記第１の線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する前記第２の線形エコー抑圧部の出力信号とを教師データとして用い、入力を前記受話信号及び前記入力信号の少なくとも一方とし、出力を前記非線形エコー信号として学習される、
請求項１記載のエコー抑圧装置。
前記非線形エコーモデルは、ニューラルネットワークである、
請求項１又は２記載のエコー抑圧装置。
前記非線形エコー推定部は、前記受話信号と前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号から前記入力信号に含まれる前記非線形エコー信号を推定する、
請求項１〜３のいずれか１項に記載のエコー抑圧装置。
前記非線形エコー推定部は、前記受話信号及び前記入力信号と、前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号及び前記入力信号から前記入力信号に含まれる前記非線形エコー信号を推定する、
請求項１〜３のいずれか１項に記載のエコー抑圧装置。
前記非線形エコー推定部は、前記受話信号及び前記第１の線形エコー抑圧部の出力信号と、前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号及び前記第１の線形エコー抑圧部の出力信号から前記入力信号に含まれる前記非線形エコー信号を推定する、
請求項１〜３のいずれか１項に記載のエコー抑圧装置。
前記第１の線形エコー抑圧部は、フィルタ係数と前記受話信号とを畳み込むことにより前記入力信号に含まれる前記受話信号の成分を示す擬似線形エコー信号を生成する適応フィルタと、前記入力信号から前記擬似線形エコー信号を減算する減算部とを含み、
前記非線形エコー推定部は、前記受話信号及び前記適応フィルタからの前記擬似線形エコー信号と、前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記受話信号及び前記適応フィルタからの前記擬似線形エコー信号から前記入力信号に含まれる前記非線形エコー信号を推定する、
請求項１〜３のいずれか１項に記載のエコー抑圧装置。
前記非線形エコー推定部は、前記入力信号と前記非線形エコー信号との関係性を示す前記非線形エコーモデルを用いて、前記入力信号から前記入力信号に含まれる前記非線形エコー信号を推定する、
請求項１〜３のいずれか１項に記載のエコー抑圧装置。
前記非線形エコー抑圧部の出力信号及び前記第２の線形エコー抑圧部の出力信号のいずれかを最小化するための可変ゲインを算出し、算出した前記可変ゲインを用いて前記非線形エコー推定部によって推定された前記非線形エコー信号を補正する補正部をさらに備える、
請求項１〜８のいずれか１項に記載のエコー抑圧装置。
マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、
スピーカへ出力される受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、
前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記入力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、
前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部と、
を備えるエコー抑圧装置。
第１の線形エコー抑圧部が、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧し、
非線形エコー推定部が、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定し、
非線形エコー抑圧部が、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧し、
第２の線形エコー抑圧部が、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する、
エコー抑圧方法。
第１の線形エコー抑圧部が、マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧し、
非線形エコー推定部が、スピーカへ出力される受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定し、
非線形エコー抑圧部が、前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記入力信号から前記非線形エコー信号を抑圧し、
第２の線形エコー抑圧部が、前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記残留線形エコー信号を抑圧する、
エコー抑圧方法。
マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、
スピーカへ出力される受話信号及び前記入力信号の少なくとも一方と、非線形エコー信号との関係性を示す非線形エコーモデルを用いて、前記受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、
前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記第１の線形エコー抑圧部の出力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、
前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記非線形エコー抑圧部の出力信号から前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部としてコンピュータを機能させる、
エコー抑圧プログラム。
マイクロホンによって取得された入力信号に含まれる線形エコー信号の振幅成分及び位相成分を推定することにより、前記入力信号から線形エコー信号を抑圧する第１の線形エコー抑圧部と、
スピーカへ出力される受話信号及び前記入力信号の少なくとも一方から前記入力信号に含まれる前記非線形エコー信号を推定する非線形エコー推定部と、
前記非線形エコー推定部によって推定された前記非線形エコー信号を用いて、前記入力信号から前記非線形エコー信号を抑圧する非線形エコー抑圧部と、
前記第１の線形エコー抑圧部によって抑圧されなかった残留線形エコー信号の振幅成分を推定することにより、前記残留線形エコー信号を抑圧する第２の線形エコー抑圧部としてコンピュータを機能させる、
エコー抑圧プログラム。