JP2022151366A

JP2022151366A - エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Info

Publication number: JP2022151366A
Application number: JP2021054402A
Authority: JP
Inventors: 祐樹里見; Yuki Satomi
Original assignee: Transtron Inc
Current assignee: Transtron Inc
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-07
Anticipated expiration: 2041-03-26
Also published as: CN117063231A; US20240171685A1; EP4319192A1; JP7696676B2; WO2022202012A1; EP4319192A4

Abstract

【課題】非線形エコー成分が大きい場合であっても、エコー抑圧量を周波数毎に正確に推定することができる。【解決手段】受話信号の各周波数における大きさの対数と、受話信号の周波数と、受話信号の大きさの総和又は任意の周波数範囲における受話信号の送話である総受話値の対数と、総受話値のエンベロープの対数とを変数とする推定エコー関数が記憶されている。推定エコーを表す関数に第２受話信号（受話信号を周波数の領域に変換した結果）の値を入力してエコー抑圧用マスクを生成し、このエコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを第２送話信号（送話信号を周波数の領域に変換した結果）に乗じることでエコー抑圧処理を行う。【選択図】図２

Description

本発明は、エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムに関する。

特許文献１には、マイクとスピーカとを有する音声通信システムに使用されるエコーキャンセラ装置が開示されている。このエコーキャンセラ装置は、マイク入力信号から疑似エコー成分を除去して残差信号を出力するエコー消去部と、マイク入力信号と残差信号の比を示すｐＥＲＬ値を算出するｐＥＲＬ算出部と、マイク入力信号のうちのスピーカからマイクに入力したエコーに基づくエコー信号と、エコー信号から疑似エコー成分を減じて得られた残留エコー信号との比を示すＥＲＬＥ値を算出するＥＲＬＥ算出部と、ＥＲＬＥ値とｐＥＲＬ値との差分を示す減少度合を算出するｐＥＲＬ減少度合算出部と、減少度合をリニア値で示した値をＫとし、ＥＲＬＥ値をリニア値で示した値をＴとしたときに、式（Ｋ－１）Ｔ／Ｋ（Ｔ－１）から残留エコー抑圧量を算出する抑圧量算出部と、残差信号に残留エコー抑圧量を乗じることで、出力信号を生成する残留エコー抑圧処理部とを有する。

特許第６１８０６８９号

一般的に、反射やスピーカの振動等により発生する非線形エコー成分が大きい場合には、エコー抑圧量の推定が適切に機能しないことが多い。特許文献１に記載のエコーキャンセラ装置では、反射時間が長く、受話に信号が無いフレームでは、エコー抑圧量が正確に推定できないおそれがある。

本発明はこのような事情に鑑みてなされたもので、非線形エコー成分が大きい場合であっても、エコー抑圧量を周波数毎に正確に推定することができるエコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラムを提供することを目的とする。

上記課題を解決するために、本発明に係るエコー抑圧装置は、例えば、スピーカへ信号を伝送する受話側信号経路を受話信号が伝送され、前記受話信号により前記スピーカから出力された音声がマイクロホンに入力されることにより生じるエコーを抑圧するエコー抑圧装置であって、前記受話側信号経路を伝送される学習用受話信号を周波数の領域に変換した第２学習用受話信号と、前記学習用受話信号により前記スピーカから出力された音が前記マイクロホンに入力されたときに前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号を周波数の領域に変換した第２学習用信号とに基づいて算出された推定エコーであって、前記受話信号の各周波数における大きさの対数と、前記受話信号の周波数と、前記受話信号の大きさの総和又は任意の周波数範囲における前記受話信号の送話である総受話値の対数と、前記総受話値のエンベロープの対数とを変数とする推定エコー関数を記憶する記憶部と、前記受話信号を周波数の領域に変換した第２受話信号の値を前記推定エコーを表す関数に入力してエコー抑圧用マスクを生成し、前記エコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを前記送話側信号経路を伝送される送話信号を周波数の領域に変換した第２送話信号に乗じることでエコー抑圧処理を行う非線形エコー抑圧部と、を備えたことを特徴とする。

本発明に係るエコー抑圧装置によれば、受話信号の各周波数における大きさの対数と、受話信号の周波数と、受話信号の大きさの総和である総受話値の対数と、総受話値のエンベロープの対数とを変数とする推定エコー関数が記憶されており、この推定エコーを表す関数に第２受話信号（受話信号を周波数の領域に変換した結果）の値を入力してエコー抑圧用マスクを生成し、このエコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを第２送話信号（送話信号を周波数の領域に変換した結果）に乗じることでエコー抑圧処理を行う。これにより、非線形エコー成分が大きい場合であっても、エコー抑圧量を周波数毎に正確に推定することができる。その結果、通話品質を向上させることができる。

前記第２受話信号の値を前記推定エコーを表す関数に入力してダブルトーク検知用マスクを生成し、前記第２送話信号と、前記ダブルトーク検知用マスクとに基づいて前記マイクロホンに発話が入力されたか否かを逐次検知するダブルトーク検知部を有し、前記非線形エコー抑圧部は、前記マイクロホンに発話が入力された場合には、前記エコー抑圧ゲインを前記マイクロホンに発話が入力されなかった場合より小さくしてもよい。これにより、近端発話があり、遠端の話者がエコーを不快と感じにくいと考えられるときにはエコーの抑圧を弱め、エコーを抑圧しすぎることで音が不自然になることを防ぐことができる。

前記ダブルトーク検知部は、前記第２送話信号の大きさと前記ダブルトーク検知用マスクの大きさとを周波数毎に比較し、前記第２送話信号の大きさが前記ダブルトーク検知用マスクの大きさを上回る周波数の数が第１閾値より小さいか否か、前記第２送話信号の大きさが前記ダブルトーク検知用マスクの大きさを上回る周波数帯域における前記第２送話信号の大きさの総和が第２閾値より小さいか否か、又は、前記第２送話信号の大きさが前記ダブルトーク検知用マスクの大きさを上回る周波数帯域における前記第２送話信号の大きさと前記ダブルトーク検知用マスクの大きさとの差の総和が第３閾値より小さいか否かに基づいて、前記マイクロホンに発話が入力されていないことを検知してもよい。これにより、近端発話の有無を正確に検知することができる。

前記第２送話信号に含まれる雑音成分を推定するノイズ推定部と、前記第２送話信号にノイズ抑圧ゲインを乗じてエコー除去信号から雑音信号を抑圧するノイズ抑圧部と、を備え、前記非線形エコー抑圧部は、前記推定エコーと、前記雑音成分と、前記ノイズ抑圧ゲインとに基づいて前記エコー抑圧用マスクを求めてもよい。これにより、ノイズに影響されず適切なエコー抑圧を行うことができる。

前記第２送話信号に含まれる雑音成分を推定するノイズ推定部と、前記第２送話信号にノイズ抑圧ゲインを乗じてエコー除去信号から雑音信号を抑圧するノイズ抑圧部と、を備え、前記ダブルトーク検知部は、前記推定エコーと、前記雑音成分と、前記ノイズ抑圧ゲインとに基づいて前記ダブルトーク検知用マスクを求めてもよい。これにより、ノイズの影響による誤検知を防ぐことができる。

前記非線形エコー抑圧部は、前記雑音成分と前記ノイズ抑圧ゲインとに基づいて許容される残留エコーの大きさを示す許容値を求め、前記エコー抑圧用マスクの大きさを前記許容値の大きさまで小さくするような前記エコー抑圧ゲインを前記第２送話信号に乗じてもよい。これにより、必要以上にエコーを抑圧しすぎないようにすることができる。

前記非線形エコー抑圧部は、前記第２送話信号の大きさが前記許容値より大きく前記エコー抑圧用マスク以下の場合には、前記第２送話信号の大きさから前記許容値を引いた値に基づいて前記エコー抑圧ゲインを求め、前記第２送話信号の値が前記許容値及び前記エコー抑圧用マスクより大きい場合には、前記エコー抑圧用マスクから前記許容値を引いた値に基づいて前記エコー抑圧ゲインを求めてもよい。これにより、第２送話信号の大きさに応じて適切にエコーを抑圧することができる。

前記推定エコーを表す関数において、各変数の係数は前記第２学習用信号から外れ値を除いたデータに基づいて求められてもよい。これにより、エコー抑圧用マスクの大きさが必要以上に大きくなることを防ぎ、エコーを抑圧し過ぎないようにすることができる。また、ダブルトーク検知用マスクの大きさが必要以上に大きくなることを防ぎ、近端発話の有無を正確に検知することができる。

前記推定エコーを表す関数は、前記第２学習用信号から外れ値を除いたデータに基づいて各変数の係数が求められた第１関数と、外れ値を除かない前記第２学習用信号に基づいて各変数の係数が求められた第２関数と、を有し、前記ダブルトーク検知用マスクは、前記第１関数に基づいて求められ、前記エコー抑圧用マスクは、前記第２関数に基づいて求められてもよい。これにより、近端発話の有無を正確に検知しつつ、非線形エコーの抑圧を強くして十分なエコー抑圧を行うことができる。

上記課題を解決するために、本発明に係るエコー抑圧方法は、例えば、スピーカへ信号を伝送する受話側信号経路を受話信号が伝送され、前記受話信号により前記スピーカから出力された音声がマイクロホンに入力されることにより生じるエコーを抑圧するエコー抑圧方法であって、前記受話側信号経路を伝送される学習用受話信号を周波数の領域に変換した第２学習用受話信号と、前記学習用受話信号により前記スピーカから出力された音が前記マイクロホンに入力されたときに前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号を周波数の領域に変換した第２学習用信号とに基づいて算出され、記憶部に記憶された推定エコーであって、前記受話信号の各周波数における大きさの対数と、前記受話信号の周波数と、前記受話信号の大きさの総和である総受話値の対数と、前記総受話値のエンベロープの対数とを変数とする推定エコー関数を取得するステップと、前記受話信号を周波数の領域に変換した第２受話信号の値を前記推定エコーを表す関数に入力してエコー抑圧用マスクを生成し、前記エコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを前記送話側信号経路を伝送される送話信号を周波数の領域に変換した第２送話信号に乗じることでエコー抑圧処理を行うステップと、を含むことを特徴とする。

上記課題を解決するために、本発明に係るエコー抑圧プログラムは、例えば、スピーカへ信号を伝送する受話側信号経路を受話信号が伝送され、前記受話信号により前記スピーカから出力された音声がマイクロホンに入力されることにより生じるエコーを抑圧するエコー抑圧プログラムであって、コンピュータを、前記受話側信号経路を伝送される学習用受話信号を周波数の領域に変換した第２学習用受話信号と、前記学習用受話信号により前記スピーカから出力された音が前記マイクロホンに入力されたときに前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号を周波数の領域に変換した第２学習用信号とに基づいて算出された推定エコーであって、前記受話信号の各周波数における大きさの対数と、前記受話信号の周波数と、前記受話信号の大きさの総和である総受話値の対数と、前記総受話値のエンベロープの対数とを変数とする推定エコー関数を記憶する記憶部、前記受話信号を周波数の領域に変換した第２受話信号の値を前記推定エコーを表す関数に入力してエコー抑圧用マスクを生成し、前記エコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを前記送話側信号経路を伝送される送話信号を周波数の領域に変換した第２送話信号に乗じることでエコー抑圧処理を行う非線形エコー抑圧部、として機能させることを特徴とする。
なお、コンピュータプログラムは、インターネット等のネットワークを介したダウンロードによって提供したり、ＣＤ－ＲＯＭなどのコンピュータ読取可能な各種の記録媒体に記録して提供したりすることができる。

本発明によれば、非線形エコー成分が大きい場合であっても、エコー抑圧量を周波数毎に正確に推定することができる。

第１の実施の形態に係るエコー抑圧装置１が設けられた音声通信システム１００を模式的に示す図である。エコー抑圧装置１の機能ブロックの概略を示す図である。エコー抑圧装置１において推定エコーを算出する関数を求めるときの機能ブロックの概略を示す図である。ある時刻における学習用受話信号［ｉ］に対する学習用信号［ｉ］の散布図の一例であり、（Ａ）は学習用受話信号の各周波数におけるパワースペクトルの対数と学習用信号の各周波数におけるパワースペクトルの対数の散布図であり、（Ｂ）は学習用受話信号の周波数と学習用信号の各周波数におけるパワースペクトルの対数の散布図であり、（Ｃ）は学習用受話信号の総受話パワースペクトルの対数と学習用信号の各周波数におけるパワースペクトルの対数の散布図であり、（Ｄ）は総受話パワースペクトルのエンベロープの対数と学習用信号の各周波数におけるパワースペクトルの対数の散布図である。受話のパワースペクトルの対数と送話のパワースペクトルの対数の散布図である。受話の周波数の対数と送話のパワースペクトルの対数の散布図である。学習用受話信号の総受話パワースペクトルの対数と送話のパワースペクトルの対数の散布図である。学習用受話信号の総受話パワースペクトルのエンベロープの対数と送話のパワースペクトルの対数の散布図である。ある時刻における１フレームの被抑圧信号とダブルトーク検知用マスクとを比較する様子を示す図である。ある時刻における１フレームの被抑圧信号とエコー抑圧用マスクとを比較する様子を示す図である。許容値［ｉ］の一例を示すグラフである。エコー抑圧装置１がエコーを低減する処理の流れを示すフローチャートである。

以下、本発明に係るエコー抑圧装置の実施形態を、図面を参照して詳細に説明する。エコー抑圧装置は、音声通信システムにおいて、スピーカから出力された音声信号がマイクロホンに入力されることにより生じるエコーを抑圧する装置である。

＜第１の実施の形態＞
図１は、第１の実施の形態に係るエコー抑圧装置１が設けられた音声通信システム１００を模式的に示す図である。音声通信システム１００は、主として、マイクロホン５１及びスピーカ５２を有する端末５０と、２台の携帯電話５３、５４と、スピーカアンプ５５と、エコー抑圧装置１とを有する。

音声通信システム１００は、端末５０（近端端末）を利用する近端話者（近端側にいる利用者Ａ）が、携帯電話５４（遠端端末）を利用する遠端話者（遠端側にいる利用者Ｂ）と音声通信を行なうシステムである。携帯電話５４を介して入力された音声信号をスピーカ５２によって拡声出力し、かつ、近端側にいる利用者Ａの発する音声をマイクロホン５１により集音して携帯電話５４へ伝送することで、利用者Ａは、携帯電話５３を把持することなく拡声通話（ハンズフリー通話）が可能となる。携帯電話５３と携帯電話５４とは、一般的な電話回線により接続されている。

エコー抑圧装置１は、例えば、音声通信システム１００内の通信端末等（例えば、車載装置、会議システム、携帯端末）に搭載される専用ボードとして構築されてもよい。また、エコー抑圧装置１は、例えば、主として、情報処理を実行するためのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶装置を含むコンピュータシステム及びソフトウエア（エコー抑圧プログラム）によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのＳＳＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記憶しておき、そこからコンピュータにインストールしてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納（記憶）しておいてもよい。

図２は、エコー抑圧装置１の機能ブロックの概略を示す図である。エコー抑圧装置１は、機能的には、主として、エコー除去部１１と、周波数分析器（ＦＦＴ部）１２、２２と、ノイズ推定部１３と、ノイズ抑圧部１４と、ダブルトーク検知部１５と、非線形エコー抑圧部１６と、ノイズ重畳部１７と、復元部（ＩＦＦＴ部）１８と、ダイナミックレンジコントロール２１と、記憶部２３と、を有する。図２において、上側の信号経路は、マイクロホン５１から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ５２へ信号を伝送する受話側信号経路である。なお、エコー抑圧装置１の機能構成要素は、処理内容に応じてさらに多くの構成要素に分類されてもよいし、１つの構成要素が複数の構成要素の処理を実行してもよい。

エコー除去部１１は、例えば、適応フィルタを用いてエコーを除去する。エコー除去部１１は、与えられた手順に従ってフィルタ係数を更新して、受話側信号経路を伝送される信号から擬似エコー信号を生成し、送話側信号経路を伝送される信号から擬似エコー信号を減算することで、エコーを除去するものである。なお、適応フィルタについては既に公知であるため、説明を省略する。

なお、本実施の形態では、エコー除去部１１に適応フィルタを適用したが、その他の公知のエコー除去技術をエコー除去部１１に適用することもできる。また、エコー除去部１１は必須ではないが、エコーの一部が除去された学習用信号を用いてマスクを生成することで、近端発話（利用者Ａ（図１参照）の発話）があることをより正確に検知することができるため、エコー除去部１１を設けることが望ましい。

ダイナミックレンジコントロール２１は、ダブルトーク検知部１５（後に詳述）により近端発話があることが検知された場合に、入力された受話信号のうち閾値より大きい受信信号に対して予め定められた係数（係数は１より小さい値）で増幅（すなわち、圧縮）を行い、出力を行う。なお、ダイナミックレンジコントロール２１は、端末５０が搭載されている環境の雑音等によって自動的にゲインを変えたり、受話信号の大きさに応じて自動的にゲインを変えたりするゲイン調整部を有していてもよい。

周波数分析器（ＦＦＴ部）１２、２２は、信号に対して高速フーリエ変換（ＦＦＴ、ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行う。ＦＦＴ部１２は、送話側信号経路を伝送される信号、ここではエコー除去部１１を通過した信号に対して高速フーリエ変換を行い、ＦＦＴ部２２は、受話側信号経路を伝送される信号に対して高速フーリエ変換を行う。ＦＦＴ部１２、２２は、時系列に並んだ信号（時間の領域）を周波数の集合で表す信号（周波数の領域）に変換する。以下、時間に依存する信号を・・・［ｔ］で示し、周波数に依存する信号を・・・［ｉ］で示す。

ノイズ推定部１３は、マイクロホン５１から入力されて送話側信号経路を伝送される送話信号に対してエコー除去部１１でエコーが除去され、ＦＦＴ部１２で周波数の領域に変換されたエコー除去信号［ｉ］に含まれる雑音成分、すなわち推定雑音信号のパワースペクトル［ｉ］（以下、推定ノイズパワースペクトル［ｉ］という）を周波数ごとに推定する。推定ノイズパワースペクトル［ｉ］は、ノイズ抑圧部１４、ダブルトーク検知部１５、非線形エコー抑圧部１６及びノイズ重畳部１７に出力される。

ノイズ抑圧部１４は、推定ノイズパワースペクトル［ｉ］に周波数に依存する信号であるノイズ抑圧ゲイン（以下、ノイズ抑圧ゲイン［ｉ］という）を乗じてエコー除去信号［ｉ］から雑音信号を抑圧し、被抑圧信号［ｉ］を生成する。ノイズ抑圧部１４は、スペクトルサブトラクション法、ウィナーフィルタ等の公知の雑音抑制方法を用いて雑音信号を抑圧し、ノイズ抑圧ゲイン［ｉ］は、用いる雑音抑制方法に応じてノイズ抑圧部１４で算出される。算出されたノイズ抑圧ゲイン［ｉ］は、ダブルトーク検知部１５に出力される。なお、ノイズ推定部１３及びノイズ抑圧部１４は必須ではない。

記憶部２３は、推定エコー算出部２４（図３参照）により生成されたマスクを記憶する。以下、マスクの生成について詳細に説明する。マスクは、エコー抑圧装置１がエコーを抑圧する処理を行なう前に、前もって生成される。

図３は、エコー抑圧装置１において推定エコーを算出する関数を求めるときの機能ブロックの概略を示す図である。エコー抑圧装置１は、推定エコー算出部２４を機能的に有する。推定エコーの算出処理は、主として、推定エコー算出部２４で行われる。

推定エコーの算出処理について詳細に説明する。まず、エコー除去部１１において十分に適応フィルタの学習を終えた後に、近端発話がなく、背景ノイズが十分小さい状況下で、受話側信号経路に学習用受話信号を伝送させて、学習用受話信号によりスピーカ５２から音を出力させる遠端側の片側発話（シングルトーク）を繰り返す。そして、シングルトーク時に送話側信号経路を伝送される信号を学習用信号とする。エコー抑圧装置１においては、エコー除去部１１によりエコーが除去された信号が学習用信号となる。

時間に依存する信号である学習用信号（以下、学習用信号［ｔ］という）は、ＦＦＴ部１２に入力される。ＦＦＴ部１２は、学習用信号［ｔ］に対して高速フーリエ変換を行って、周波数に依存する信号である学習用信号（以下、学習用信号［ｉ］という）を生成し、推定エコー算出部２４に入力する。

時間に依存する信号である学習用受話信号（以下、学習用受話信号［ｔ］という）は、ＦＦＴ部２２に入力される。ＦＦＴ部２２は、学習用受話信号［ｔ］に対して高速フーリエ変換を行って、周波数に依存する信号である学習用受話信号（以下、学習用受話信号［ｉ］という）を生成し、推定エコー算出部２４に入力する。

推定エコー算出部２４は、学習用信号［ｉ］及び学習用受話信号［ｉ］を記憶部２３に記憶する。また、推定エコー算出部２４は、記憶部２３に記憶された学習用信号［ｉ］及び学習用受話信号［ｉ］についてのパワースペクトルを一定区間毎に計算して、複数の学習用パワースペクトルを求める。ここで、一定区間とは、任意に定められた所定の時間領域である。推定エコー算出部２４は、学習用パワースペクトルを記憶部２３に記憶する。

なお、パワースペクトルＰ［ｉ］とは、高速フーリエ変換によって求められたフーリエスペクトルＸ［ｉ］の２乗で表される（数式（１）参照）。

P[i]=|X[i]|²=|X[i]|×|X[i]| ・・・（１）

推定エコー算出部２４は、記憶部２３に記憶された学習用信号［ｉ］、学習用受話信号［ｉ］及び学習用パワースペクトルに基づいて、学習用信号［ｉ］と学習用受話信号［ｉ］の散布図を複数作成する。

図４は、ある時刻（例えば時刻ｔ１）における学習用受話信号［ｉ］に対する学習用信号［ｉ］の散布図の一例であり、（Ａ）は各周波数における学習用受話信号の大きさ（学習用受話信号［ｔ］のパワースペクトル）の対数と学習用信号の各周波数におけるパワースペクトルの対数の散布図であり、（Ｂ）は学習用受話信号の周波数と学習用信号の各周波数におけるパワースペクトルの対数の散布図であり、（Ｃ）は学習用受話信号の大きさの総和である総受話パワースペクトル（本発明の総受話値に相当）の対数と学習用信号の各周波数におけるパワースペクトルの対数の散布図であり、（Ｄ）は総受話パワースペクトルのエンベロープの対数と学習用信号の各周波数におけるパワースペクトルの対数の散布図である。

例えば、図４（Ａ）、（Ｃ）に示すように、学習用信号のパワースペクトルが同じであっても、学習用信号、すなわちエコーのパワースペクトルは様々である。したがって、本実施の形態では、学習用信号のパワースペクトルのみならず、横軸を変えた複数の散布図に基づいて推定エコーを算出する。

ここで、学習用信号の各周波数におけるパワースペクトルは、学習用受話信号によるエコーのパワースペクトルを意味する。また、総受話パワースペクトルは、学習用信号の各周波数におけるパワースペクトルの総和、すなわちＦＦＴ部２２を通る前の学習用受話信号［ｔ］のパワースペクトルの総和と同じであり、以下の数式（２）で表される。

なお、総受話パワースペクトルは、学習用信号の任意の周波数の範囲における、各周波数におけるパワースペクトルの総和としてもよい。このときの総受話パワースペクトル、以下の数式（３）で表される。ここで、Ａは０以上であり、Ｂは最大の周波数より小さい（Ａ＞０、Ｂ＜Ｆ_ＭＡＸ）。

ダブルトーク検知部１５が発話検知を行う（後に詳述）ときに、学習用信号の全ての各周波数のパワースペクトルの総和（数式（２））を用いる場合より、学習用信号の任意の周波数の範囲のパワースペクトルの総和と（数式（３））を用いる場合に精度がいい場合があり得る。したがって、このような場合には、推定エコー算出部２４は、数式（３）を用いて総受話パワースペクトルを求めることが望ましい。

なお、図４に示す散布図は一例であり、音の反射の状況、スピーカ５２やマイクロホン５１の配置、スピーカ５２の形状、エコー除去部１１の有無等により異なる散布図となる。

図４に示すように、学習用受話信号の対数や周波数の情報と、学習用信号、すなわちエコーのパワースペクトルとの間に一定の関係が成立する。本実施の形態では、あらかじめ十分な学習用信号［ｉ］及び学習用受話信号［ｉ］を取得しておき、これらの間の一定の関係に基づいて推定エコー量を求める。

具体的には、推定エコー算出部２４は、以下の数式（４）を用いて推定エコー関数を算出する。推定エコー関数（推定エコーパワースペクトル［ｉ］）は、周波数に依存する信号であり、学習用受話信号の各周波数における大きさの対数と、学習用受話信号の周波数と、学習用受話信号の総受話パワースペクトルの対数と、学習用受話信号の総受話値のエンベロープの対数とを変数とする関数で表される。

推定エコーパワースペクトル［ｉ］＝α×受話パワースペクトル［ｉ］＋β×周波数＋γ×総受話パワースペクトル＋δ×総受話パワースペクトルのエンベロープ・・・（４）

推定エコー関数の算出について図５～図８を用いて詳しく説明する。推定エコー算出部２４は、受話パワースペクトル［ｉ］の係数α、周波数の係数β、総受話パワースペクトルの係数γ、総受話パワースペクトルのエンベロープの係数δを順番に算出する。各変数の係数α、β、γ、δは学習用信号［ｉ］から外れ値を除いたデータに基づいて求められる。

図５は、学習用受話信号の各周波数におけるパワースペクトル（以下、受話のパワースペクトルという）の対数と学習用信号の各周波数におけるパワースペクトル（以下、送話のパワースペクトルという）の対数の散布図である。図５では、測定されたデータがプロットされており、αが線で示されている。

αは、受話のパワースペクトルの対数と、送話のパワースペクトルの対数の最大値との関係を示す。αは、受話のパワースペクトルの対数と送話のパワースペクトルの対数の散布図から外れ値を除去した結果に基づいて求められる。αは、線形関数（条件分岐を有しない）又は非線形関数（条件分岐を有する）で表される。

図５に示すように、受話のパワースペクトルが大きいと送話のパワースペクトル（すなわち、エコー）が大きくなる訳ではなく、受話のパワースペクトルがある程度より大きくなるとエコーが小さくなっている。スピーカ５２の特性（音が出せない領域がある）や、ＦＦＴ部１２より前段にエコー除去部１１が設けられていることが理由である。図５に示す例では、αは数式（５）及び数式（６）で示される。このように、αは非線形関数である。

受話のパワースペクトルの対数＜-1の場合
α＝0.5×受話のパワースペクトルの対数－0.5・・・（５）

受話のパワースペクトルの対数≧-1の場合
α＝-1.0×受話のパワースペクトルの対数－2.0・・・（６）

なお、エコー除去部１１が設けられていない場合には、図５に示す例と比べ、αを示す線のピークが右側にずれ、ピーク以降の下降線の傾きが小さくなるが、αは非線形関数（条件分岐有）であることに変わりはない。

αが算出されたら、推定エコー算出部２４はβを算出する。図６は、学習用受話信号の周波数（以下、受話の周波数という）の対数と送話のパワースペクトルの対数の散布図である。図６では、測定されたデータからα成分を減じた結果がプロットされており、βが線で示されている。

βは、受話の周波数と、送話のパワースペクトルの対数の最大値との関係を示す。βは、受話の周波数と送話のパワースペクトルの対数の散布図から外れ値を除去した結果に基づいて求められる。βは、線形関数又は非線形関数で表される。

スピーカ５２には低周波や高周波は鳴らし難いという特性があるため、図６において、低周波や高周波についてはエコーが小さくなっている。また、端末５０が車両内に設けられている場合には、図６に示すように、途中環境の影響（反射等）でエコーが小さくなるディップが１ｋＨｚ近傍に存在する。したがって、βは非線形関数である。

βが算出されたら、推定エコー算出部２４はγを算出する。図７は、学習用受話信号の総受話パワースペクトルの対数と送話のパワースペクトルの対数の散布図である。図７では、測定されたデータからα成分及びβ成分を減じた結果がプロットされており、γが線で示されている。

例えば、スピーカ５２から１００Ｈｚと１１０Ｈｚの音を出力するとき、スピーカ５２から１００Ｈｚと１１０Ｈｚに加えて１０５Ｈｚの音が鳴ってしまうことがある。したがって、本来、鳴らしたい周波数以外の音が鳴っているかどうかという情報を参照するため、本実施の形態では、推定エコー関数（数式（４））に総受話パワースペクトルの対数を変数とする項を加える。

γは、総受話パワースペクトルの対数と、送話のパワースペクトルの対数の最大値との関係を示す。γは、受話の周波数と送話のパワースペクトルの対数の散布図から外れ値を除去した結果に基づいて求められる。γは、線形関数又は非線形関数で表される。図７に示す例では、γは非線形関数である。

γが算出されたら、推定エコー算出部２４はδを算出する。図８は、学習用受話信号の総受話パワースペクトルのエンベロープの対数と送話のパワースペクトルの対数の散布図である。図８では、測定されたデータからα成分、β成分及びγ成分を減じた結果がプロットされており、δが線で示されている。

車内での音の反射や、スピーカ５２の振動等がスピーカ５２から音になって出力されるため、学習用受話信号が無くてもエコーが存在し得る。したがって、現時点の総受話パワースペクトルのみならず、直近の一定期間の学習用信号を参照してエコーを推定する必要がある。そのため、本実施の形態では、推定エコー関数（数式（４））に総受話パワースペクトルのエンベロープの対数を変数とする項を加える。

エンベロープＡは、直近の一定期間における最大値であり、時定数Ｂ、総受話パワースペクトルＣを用いて、以下の数式（７）のように漸次算出される。本実施の形態では、時定数Ｂを０．５～１とする。

If(A＜C)：
A=C
Else：
A=B×A+（1-B）×C ・・・（７）

δは、総受話パワースペクトルのエンベロープの対数と、送話のパワースペクトルの対数の最大値との関係を示す。δは、受話の周波数と送話のパワースペクトルの対数の散布図から外れ値を除去した結果に基づいて求められる。δは、線形関数又は非線形関数で表される。図８に示す例では、δは線形関数である。

このようにして推定エコー関数（推定エコーパワースペクトル［ｉ］を表す関数）が算出されたら、推定エコー算出部２４は、推定エコー関数を記憶部２３に記憶する。

図２の説明に戻る。図２の説明において、マイクロホン５１から入力される入力信号には、受話側信号経路を伝送される受話信号によりスピーカ５２から出力された音及びそのエコー、マイクロホン５１に入力されたノイズ、近端側にいる利用者Ａの発話（図１参照）によりマイクロホン５１に入力された音（近端発話）が含まれる。

ダブルトーク検知部１５は、受話側信号経路を伝送される受話信号［ｔ］をＦＦＴ部２２で周波数に依存する信号に変換した受話信号［ｉ］と、マイクロホン５１から入力信号が入力され、送話側信号経路を伝送される送話信号［ｉ］（ここでは、エコー除去部１１、ＦＦＴ部１２及びノイズ抑圧部１４を通過した後の被抑圧信号）と、ダブルトーク検知用マスクとに基づいてダブルトーク状態であるか否かを逐次検知する。

なお、ダブルトーク状態とは、近端発話及び遠端発話が有る状態であり、シングルトーク状態とは近端発話のみ又は遠端発話のみの状態である。本実施の形態は、ダブルトーク検知部１５は、近端発話の有無を検知する方法に特徴があり、遠端発話の有無を検知する方法は問わない。例えば、ダブルトーク検知部１５は、総受話パワースペクトルのエンベロープが閾値より大きい場合に遠端発話が有ると検知してもよい。

以下、ダブルトーク検知部１５が近端発話の有無を検知する方法について説明する。ダブルトーク検知部１５には、受話信号［ｉ］及び送話信号［ｉ］が逐次入力される。ダブルトーク検知部１５は、受話信号［ｉ］及び送話信号［ｉ］が入力された（サンプル点が取得された）ら、記憶部２３に記憶された推定エコーパワースペクトル［ｉ］に基づいてダブルトーク検知用マスクを生成し、ダブルトーク状態であるか否かを検知する。また、ダブルトーク検知部１５は、ダブルトーク状態であるか否かを検知する処理を、サンプル点が取得される毎に行う。

まず、ダブルトーク検知用マスクについて説明する。ダブルトーク検知部１５は、推定エコーパワースペクトル［ｉ］と、推定ノイズパワースペクトル［ｉ］と、ノイズ抑圧ゲイン［ｉ］とに基づいてダブルトーク検知用マスクを算出する。具体的には、ダブルトーク検知用マスクは、数式（８）に示すように、推定エコーパワースペクトル［ｉ］に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を加算して求められる。ダブルトーク検知用マスクは周波数に依存する信号であるため、以下ダブルトーク検知用マスク［ｉ］という。

ダブルトーク検知用マスク［ｉ］＝推定エコーパワースペクトル［ｉ］＋推定ノイズパワースペクトル［ｉ］×ノイズ抑圧ゲイン［ｉ］・・・（８）

数式（８）において、推定エコーパワースペクトル［ｉ］は、受話信号［ｉ］の値を推定エコーを表す関数（数式（４））に入力することで求められる。推定ノイズパワースペクトル［ｉ］はノイズ推定部１３で求められ、ノイズ抑圧ゲイン［ｉ］は記憶部２３に記憶されている。

次に、ダブルトーク状態か否か検知する処理について、図９を用いて説明する。図９は、ある時刻における１フレームの被抑圧信号とダブルトーク検知用マスクとを比較する様子を示す図である。図９において、各プロットが被抑圧信号であり、線がダブルトーク検知用マスクである。また、図９の横軸は被抑圧信号の周波数であり、縦軸は被抑圧信号のパワースペクトルの対数である。

ダブルトーク検知部１５は、被抑圧信号とダブルトーク検知用マスクとを周波数毎に比較してダブルトーク状態であるか否かを検知する。ダブルトーク状態であるか否かを検知する方法として、以下のパターンＡ、Ｂ、Ｃの３通りの方法がある。パターンＡ、Ｂ、Ｃは、図９のプロットがダブルトーク検知用マスクを超えているときに、それが近端発話によるものなのか、外れ値なのかを判定するための方法である。

＜パターンＡ＞
ダブルトーク検知部１５は、周波数毎に、被抑圧信号の大きさとダブルトーク検知用マスクの大きさとを比較し、被抑圧信号の大きさがダブルトーク検知用マスクの大きさを上回る周波数の数（以下、超過数という）を数える。言い換えれば、図９に示す散布図において、ダブルトーク検知用マスクよりも上側にあるプロットの数を数える。ダブルトーク検知部１５は、超過数が予め用意した閾値Ｉ（第１閾値に相当）以下であるかを求める。なお、閾値Ｉは、任意の値に設定することができる。

＜パターンＢ＞
ダブルトーク検知部１５は、周波数毎に、被抑圧信号の大きさとダブルトーク検知用マスクの大きさとを比較し、被抑圧信号の大きさがダブルトーク検知用マスクの大きさを上回る周波数における被抑圧信号の大きさの総和を算出する。言い換えれば、図９に示す散布図において、ダブルトーク検知用マスクよりも上側にあるプロットの値（図９の２点鎖線参照）の総和を求める。

例えば、被抑圧信号の大きさの総和は、被抑圧信号のパワースペクトルの対数の値から定数（例えば、－７）を引いた値である。被抑圧信号のパワースペクトルの対数は負の値を取り得るため、負の値を減じることで正の値にする。また、例えば、被抑圧信号の大きさの総和は、被抑圧信号のパワースペクトルの総和であってもよい。被抑圧信号のパワースペクトルは対数をとっておらず正の値であるため、単に総和を求めるだけでよい。

ダブルトーク検知部１５は、被抑圧信号の大きさの総和が予め用意した閾値ＩＩ（第２閾値に相当）以下であるかを求める。なお、閾値ＩＩは、任意の値に設定することができる。

＜パターンＣ＞
ダブルトーク検知部１５は、周波数毎に、被抑圧信号の大きさとダブルトーク検知用マスクの大きさとを比較し、被抑圧信号の大きさがダブルトーク検知用マスクの大きさを上回る周波数における被抑圧信号の大きさ（ここでは、被抑圧信号のパワースペクトルの対数）とダブルトーク検知用マスク大きさとの差の総和を算出する。言い換えれば、図９に示す散布図において、ダブルトーク検知用マスクよりも上側にあるプロットの大きさとダブルトーク検知用マスクの大きさとの差（図９の点線参照）の総和を求める。

ダブルトーク検知部１５は、被抑圧信号の大きさとダブルトーク検知用マスク大きさとの差の総和が予め用意した閾値ＩＩＩ（第３閾値に相当）以下であるかを求める。なお、閾値ＩＩＩは、任意の値に設定することができる。

ダブルトーク検知部１５は、パターンＡ～Ｃのいずれかの方法において算出された値が閾値（閾値Ｉ、ＩＩ又はＩＩＩ）以上か否かを検知する。そして、算出された値が閾値以上となるフレームが連続して所定数（例えば、２フレーム）以上となる場合に、近端発話があると判定する。

例えば、ダブルトーク検知部１５は、算出された値が閾値以上となった場合にはカウンターの値を１増やし（カウントアップ）、算出された値が閾値未満の場合にはカウンターの値を１減らす（カウントダウン）又はカウンターを０にする。そして、ダブルトーク検知部１５は、カウンターの値が閾値（例えば、２）以上となったときに近端発話があると判定する。

パターンＣは、計算量が最も多いが、ダブルトーク検知用マスクを超えているときに、それが近端発話によるものなのか、外れ値なのかを最も正確に判定することができる。

なお、ダブルトーク検知部１５は、例えば、近端発話のみの状態から遠端発話のみの状態に移行した場合、ダブルトーク状態から近端発話のみ、遠端発話のみ又は近端発話及び遠端発話がない状態に移行した場合には、ダブルトーク状態であるか否かを検知しなくてもよい。特に、ダブルトーク状態から近端遠端発話がない状態に移行した場合には、まだエコーが残っている可能性が高く、ダブルトーク状態から遠端発話がない状態に移行した場合には、近端発話がある可能性が高いため、移行後所定の時間はダブルトーク状態であるか否かを検知しなくてもよい。

図２の説明に戻る。非線形エコー抑圧部１６は、マイクロホン５１から入力信号が入力され、送話側信号経路を伝送される送話信号［ｉ］（ここでは、エコー除去部１１、ＦＦＴ部１２及びノイズ抑圧部１４を通過した後の被抑圧信号）に対して非線形エコーを抑圧する処理（以下、非線形エコー抑圧処理と言う）を行う。本実施の形態では、非線形エコー抑圧部１６は、推定エコーに基づいて生成されたエコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを送話信号［ｉ］に乗じることで非線形エコー抑圧処理を行う。また、非線形エコー抑圧部１６は、ダブルトーク検知部１５における検知結果に基づいてエコー抑圧ゲインを異なる値にする。

非線形エコー抑圧部１６には、受話信号［ｉ］、送話信号［ｉ］及びダブルトーク検知部１５における検知結果が逐次入力される。非線形エコー抑圧部１６は、送話信号［ｉ］が入力された（サンプル点が取得された）ら、記憶部２３に記憶された推定エコー関数に基づいてエコー抑圧用マスクを生成し、かつ、非線形エコー抑圧処理を行う

非線形エコー抑圧部１６は、推定エコーパワースペクトル［ｉ］と、推定ノイズパワースペクトル［ｉ］と、ノイズ抑圧ゲイン［ｉ］とに基づいてエコー抑圧用マスクを算出する。具体的には、エコー抑圧用マスクは、数式（９）に示すように、推定エコーパワースペクトル［ｉ］に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を加算して求められる。エコー抑圧用マスクは周波数に依存する信号であるため、以下エコー抑圧用マスク［ｉ］という。

エコー抑圧用マスク［ｉ］＝推定エコーパワースペクトル［ｉ］＋推定ノイズパワースペクトル［ｉ］×ノイズ抑圧ゲイン［ｉ］・・・（９）

数式（９）の場合も、数式（８）の場合と同様に、推定エコーパワースペクトル［ｉ］は受話信号［ｉ］の値を数式（４）に入力することで求められ、推定ノイズパワースペクトル［ｉ］はノイズ推定部１３で求められ、ノイズ抑圧ゲイン［ｉ］は記憶部２３に記憶されている。

図１０は、ある時刻における１フレームの被抑圧信号とエコー抑圧用マスクとを比較する様子を示す図である。図１０において、各プロットが被抑圧信号であり、実線がエコー抑圧用マスクであり、点線が許容値である。また、図１０の横軸は被抑圧信号の周波数であり、縦軸は被抑圧信号のパワースペクトルの対数である。

非線形エコー抑圧部１６は、エコー抑圧用マスクの大きさを許容値の大きさまで小さくするように、各プロットに対してエコー抑圧処理を行う。以下、エコー抑圧処理について詳細に説明する。

まず、許容値について説明する。許容値とは、送話信号［ｉ］に許容される残留エコーの大きさを示し、数式（１０）に示すように推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］に基づいて求められる。許容値は周波数に依存する信号であるため、以下許容値［ｉ］という。

許容値［ｉ］＝推定ノイズパワースペクトル［ｉ］×ノイズ抑圧ゲイン［ｉ］＋Ｌ・・・（１０）

Ｌは定数である。なお、推定ノイズパワースペクトル［ｉ］の大きさ、ダブルトーク検知部１５における検知結果に基づいてＬを変えてもよい。

図１１は、許容値［ｉ］の一例を示すグラフである。推定ノイズパワースペクトル［ｉ］が大きい場合には許容値が大きくなり、推定ノイズパワースペクトル［ｉ］が小さい場合には許容値が小さくなる。

図１０の説明に戻る。図１０の許容値［ｉ］は、図１１における推定ノイズパワースペクトル［ｉ］が小さい場合の許容値［ｉ］である。非線形エコー抑圧部１６は、以下の数式（１１）に基づいて基本的なゲインＧを算出する。ゲインＧは周波数に依存する信号であるため、以下Ｇ［ｉ］という。

なお、数式（９）は、入力信号をＸ（Z=log₁₀Re(X)×Re(X)+Im(X)×Im(X)、Zは入力信号のパワースペクトルの対数、Reは実部、Imは虚部）、目標信号をＹ（Re(Y)=Re(X)×G, Im(Y)=Im(X)×G）として、以下の数式（１２）～（１５）に基づいて算出される。

非線形エコー抑圧部１６は、エコー抑圧用マスク［ｉ］及び許容値［ｉ］をフレームごとに生成する。そして、非線形エコー抑圧部１６は、フレーム毎に、送話信号［ｉ］の大きさとエコー抑圧用マスク［ｉ］の大きさ及び送話信号［ｉ］の大きさと許容値［ｉ］の大きさとを比較する。そして、非線形エコー抑圧部１６は、フレーム毎に、比較した結果と、ダブルトーク検知部１５における検知結果に基づいてエコー抑圧ゲインＧ１～Ｇ５を算出する。エコー抑圧ゲインＧ１～Ｇ５は、数式（１１）により求められた基本的なゲインＧを用いて、以下の数式（１６）～（２０）のように求められる。なお、数式（１６）～（２０）におけるＺは、送話信号［ｉ］のパワースペクトルの対数（送話信号［ｉ］の大きさ）であり、図１０では各プロットの縦軸の値である。

Z≦許容値：G1＝1.0・・・（１６）

数式（１６）に示すように、Ｚが許容値以下の場合（図１０の網掛け部Ｉ）には、非線形エコー抑圧部１６は、エコー抑圧ゲインＧ１を１とし、エコー抑圧を行わない。

数式（１７）、（１８）に示すように、Ｚが許容値より大きくエコー抑圧用マスクの大きさ以下の場合（図１０の網掛け部ＩＩ）には、エコー抑圧ゲインＧ２、Ｇ３は、送話信号の大きさから許容値を引いた値（Z－許容値）に基づいて求められる。言い換えれば、Ｚが許容値より大きくエコー抑圧用マスクの大きさ以下の場合は、非線形エコー抑圧部１６は、送話信号の大きさを許容値まで小さくするようにエコー抑圧を行う。

そして、近端発話がある場合には、非線形エコー抑圧部１６は、送話信号の大きさから許容値を引いた値に定数Ｗ１を乗じてエコー抑圧ゲインＧ３を求める。定数Ｗ１は、０から１の間の任意の数である。言い換えれば、非線形エコー抑圧部１６は、近端発話がある場合にはエコー抑圧を弱める。なお、Ｗ１を１とするとエコー抑圧ゲインＧ２とエコー抑圧ゲインＧ３が一致する。

数式（１９）、（２０）に示すように、Ｚが許容値及びエコー抑圧用マスクの大きさより大きい場合（図１０の非網掛け部ＩＩＩ）には、エコー抑圧ゲインＧ４、Ｇ５は、エコー抑圧用マスクの大きさから許容値を引いた値（エコー抑圧用マスク－許容値）に基づいて求められる。言い換えれば、Ｚが許容値及びエコー抑圧用マスクより大きい場合には、非線形エコー抑圧部１６は、エコー抑圧用マスクの大きさを許容値まで小さくするようにエコー抑圧を行う。

そして、近端発話がある場合には、非線形エコー抑圧部１６は、エコー抑圧用マスクから許容値を引いた値に定数Ｗ２を乗じてエコー抑圧ゲインＧ５を求める。定数Ｗ２は、０から１の間の任意の数である。言い換えれば、非線形エコー抑圧部１６は、近端発話がある場合にはエコー抑圧を弱める。なお、Ｗ２を１とするとエコー抑圧ゲインＧ４とエコー抑圧ゲインＧ５が一致する。なお、Ｗ２の値は、Ｗ１の値と同一でもよいし異なっていてもよい。

非線形エコー抑圧部１６は、各フレームにおいて、測定点毎に、求められたエコー抑圧ゲインＧ１～Ｇ５を用いて非線形エコー抑圧処理を行う。

図２の説明に戻る。ノイズ重畳部１７は、ノイズ推定部１３で推定された推定雑音信号に基づいてコンフォートノイズを生成し、非線形エコー抑圧部１６でエコー抑圧処理が行われた後の送話信号に対してコンフォートノイズを重畳する。

ＩＦＦＴ部１８は、ノイズ重畳部１７を通過した入力信号に対して逆ＦＦＴ（ＩＦＦＴ、ＩｎｖｅｒｓｅＦＦＴ）を行う。

図１２は、エコー抑圧装置１がエコーを逐次低減する処理の流れを示すフローチャートである。この処理は、受話信号及び入力信号がエコー抑圧装置１に入力される間、所定時間毎に連続して行われる。

まず、エコー除去部１１は入力信号からエコーを除去する（ステップＳ１１）。ノイズ推定部１３はエコー除去信号に含まれる推定雑音信号を推定し、ノイズ抑圧部１４は、推定雑音信号に基づいてエコー除去信号から雑音信号を抑圧し、被抑圧信号を生成する（ステップＳ１２）。

ダブルトーク検知部１５は被抑圧信号及び受話信号のパワースペクトルスペクトルを算出し（ステップＳ１３）、記憶部２３から推定エコーパワースペクトル［ｉ］を取得し、当該取得した推定エコーとステップＳ１３で算出されたパワースペクトルとに基づいてダブルトーク検知用マスクを生成し（ステップＳ１４）、ステップＳ１４で生成されたダブルトーク検知用マスクを用いて近端発話の有無を検知する（ステップＳ１５）。

次に、非線形エコー抑圧部１６は、記憶部２３から推定エコーパワースペクトル［ｉ］を取得し、当該取得した推定エコーとステップＳ１３で算出されたパワースペクトルとに基づいてエコー抑圧用マスクを生成し（ステップＳ１６）、ステップＳ１５で検知された近端発話の有無及びステップＳ１６で生成されたエコー抑圧用マスクを用いて被抑圧信号に対してエコー抑圧処理を行う（ステップＳ１７）。

次に、ノイズ重畳部１７は、ノイズ推定部１３で推定された推定雑音信号に基づいてコンフォートノイズを生成し、ステップＳ１７でエコー抑圧処理が行われた後の送話信号に対してコンフォートノイズを重畳する（ステップＳ１８）。最後に、ＩＦＦＴ部１８は、ノイズを重畳後の送話信号を時間軸信号に戻す（ステップＳ１９）。

本実施の形態によれば、推定エコー関数（推定エコーパワースペクトル［ｉ］）に受話信号の値を入力して生成されたエコー抑圧用マスクを用いて非線形エコー抑圧処理を行うため、非線形エコー成分が大きい場合であってもエコー抑圧量を正確に推定することができる。

また、本実施の形態によれば、推定エコーパワースペクトル［ｉ］を表す関数に受話信号の値を入力して生成されたダブルトーク検知用マスクを用いて近端発話の有無を検知するため、近端発話の有無を正確に検知することができる。特に、被抑圧信号がダブルトーク検知用マスクの値を上回る周波数における被抑圧信号の大きさとダブルトーク検知用マスクの大きさとの差の総和を算出する方法（パターンＣ）により近端発話の有無を検知することで、入力信号がダブルトーク検知用マスクより大きい場合にそのデータが近端発話なのか外れ値なのかを正確に検知することができる。

また、本実施の形態によれば、ダブルトーク検知用マスクを求める数式（８）に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を追加することで、正確に近端発話の有無を検知することができる。例えば、近端発話ではなく、ノイズの影響で送話信号の値がダブルトーク検知用マスクより大きくなってしまう恐れがある。それに対し、ダブルトーク検知用マスクを求める数式（８）に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を追加することで、ノイズの影響により誤検知を防ぐことができる。

また、本実施の形態によれば、エコー抑圧マスクを求める数式（９）に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を追加することで、適切に非線形エコー抑圧処理を行うことができる。

また、本実施の形態によれば、ノイズ推定部１３で推定された雑音成分とノイズ抑圧部１４で用いられるノイズ抑圧ゲインとに基づいて許容される残留エコーの値である許容値を求め、エコー抑圧用マスクと許容値との差に基づいて求められたエコー抑圧ゲインを用いて非線形エコー抑圧処理を行うため、必要以上にエコーを抑圧し過ぎないようにすることができる。例えば、非線形エコー抑圧処理後の大きさを近端及び遠端での発話がないときの送話信号［ｉ］の値よりも小さくする必要はなく、エコー抑圧ゲインを大きくし過ぎて非線形エコー抑圧処理により音が不自然になるデメリットの方が大きくなってしまう。したがって、非線形エコー抑圧処理において、処理後の信号の大きさが雑音成分に基づいて求められた許容値よりも小さくならないようにエコー抑圧ゲインを調整することが望ましい。特に、送話信号［ｉ］の値が許容値より大きくエコー抑圧用マスク以下の場合（図１０の網掛け部ＩＩ）には、エコー抑圧ゲインＧ２、Ｇ３を送話信号から許容値を引いた値（Z－許容値）に基づいて求め、送話信号［ｉ］が許容値及びエコー抑圧用マスクより大きい場合（図１０の非網掛け部ＩＩＩ）には、エコー抑圧ゲインＧ４、Ｇ５をエコー抑圧用マスクから許容値を引いた値（エコー抑圧用マスク－許容値）に基づいて求めることで、適切にエコーを抑圧することができる。

また、本実施の形態によれば、Ｚが許容値より大きくエコー抑圧用マスクの大きさ以下の場合には、送話信号の大きさを許容値まで小さくするようにエコー抑圧を行い、Ｚが許容値及びエコー抑圧用マスクより大きい場合には、エコー抑圧用マスクの大きさを許容値まで小さくするようにエコー抑圧を行うことで、Ｚの大きさに応じて適切にエコーを抑圧することができる。

また、本実施の形態によれば、近端発話があるときのエコー抑圧ゲインＧ３、Ｇ５を近端発話がないときのエコー抑圧ゲインＧ２、Ｇ４より小さくすることで、必要以上にエコーを抑圧し過ぎないようにすることができる。一般的に、近端発話があるときには、話者がエコーを気にしない傾向がある。したがって、近端発話がある場合にはエコーの抑圧を弱め、エコーを抑圧し過ぎることで音が不自然になることを防ぐことができる。

また、本実施の形態によれば、推定エコーパワースペクトル［ｉ］の各係数α、β、γ、δを学習用信号［ｉ］から外れ値を除いたデータに基づいて求めるため、ダブルトーク検知用マスクの大きさが必要以上に大きくなることを防ぎ、近端発話の有無を正確に検知することができる。例えば、外れ値を入れたままで推定エコーパワースペクトル［ｉ］の各係数を求めると、近端話者の声が小さいときに送話信号［ｉ］の値がダブルトーク検知用マスクを超えないおそれがある。それに対し、推定エコーパワースペクトル［ｉ］の各係数α、β、γ、δを学習用信号［ｉ］から外れ値を除いたデータに基づいて求めることで、近端話者の声が小さくても、近端発話があることを検知することができる。また、推定エコーパワースペクトル［ｉ］の各係数α、β、γ、δを学習用信号［ｉ］から外れ値を除いたデータに基づいて求めるため、エコー抑圧用マスクの大きさが必要以上に大きくなることを防ぎ、エコーを抑圧し過ぎないようにすることができる。

なお、本実施の形態では、非線形エコー抑圧部１６において、ダブルトーク検知部１５における検知結果を用いて、近端発話があるときにはエコー抑圧ゲインを近端発話がないときより小さくしたが、ダブルトーク検知部１５は必須ではなく、非線形エコー抑圧部１６がダブルトーク検知部１５における検知結果を用いて処理を行わなくてもよい。例えば、非線形エコー抑圧部１６は、数式（１５）、（１６）、（１８）で求められるエコー抑圧ゲインＧ１、Ｇ２、Ｇ５を用いて非線形エコー抑圧処理を行ってもよい。

また、本実施の形態では、推定エコーパワースペクトル［ｉ］の各係数α、β、γ、δを学習用信号［ｉ］から外れ値を除いたデータに基づいて求め、これを用いてダブルトーク検知用マスク及びエコー抑圧用マスクを求めたが、ダブルトーク検知用マスクの基となる推定エコーパワースペクトル［ｉ］と、エコー抑圧用マスクの基となる推定エコーパワースペクトル［ｉ］とが異なっていてもよい。

例えば、推定エコー算出部２４は、学習用信号［ｉ］から外れ値を除いたデータに基づいて各変数の係数が求められた第１推定エコー関数（第１推定エコーパワースペクトル［ｉ］）と、外れ値を除かない学習用受話信号［ｉ］に基づいて各変数の係数が求められた第２推定エコー関数（第２推定エコーパワースペクトル［ｉ］）とを生成し、記憶部２３は、推定エコーパワースペクトル［ｉ］として第１推定エコーパワースペクトル［ｉ］及び第２推定エコーパワースペクトル［ｉ］を記憶する。そして、ダブルトーク検知部１５はダブルトーク検知用マスクを第１推定エコーパワースペクトル［ｉ］に基づいて求め、非線形エコー抑圧部１６はエコー抑圧用マスクを第２推定エコーパワースペクトル［ｉ］に基づいて求める。これにより、近端発話の有無を正確に検知しつつ、非線形エコーの抑圧を強くして十分なエコー抑圧を行うことができる。

また、本実施の形態では、ノイズ推定部１３及びノイズ抑圧部１４を有し、ダブルトーク検知用マスク［ｉ］を求める数式（８）及びエコー抑圧用マスク［ｉ］を求める数式（９）では、推定エコーパワースペクトル［ｉ］に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を追加したが、ノイズ推定部１３及びノイズ抑圧部１４は必須ではなく、数式（８）、（９）に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を追加することも必須ではない。ただし、正確な近端発話の検知及び適切なエコー抑圧を行うためには、数式（８）、（９）に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項を追加することが望ましい。

また、本実施の形態では、非線形エコー抑圧処理において、推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とに基づいて許容値を求め、エコー抑圧用マスク［ｉ］の大きさを許容値の大きさまで小さくするようなエコー抑圧ゲインを求めたが、非線形エコー抑圧処理に許容値を用いる必要はない。例えば、非線形エコー抑圧部１６は、エコー抑圧用マスク［ｉ］の大きさを０又は任意の値まで小さくするようなエコー抑圧ゲインを用いて非線形エコー抑圧処理を行ってもよい。ただし、エコーを抑圧し過ぎることで音が不自然になることを防ぐためには、エコー抑圧用マスク［ｉ］の大きさを許容値の大きさまで小さくするように非線形エコー抑圧処理を行うことが望ましい。

また、本実施の形態では、許容値［ｉ］が周波数に依存する信号であったが、許容値は周波数によらない定数であってもよい。例えば、許容値［ｉ］の平均値を周波数によらない許容値（定数）とし、許容値（定数）を用いてＧ［ｉ］を求めてもよい。

また、本実施の形態では、推定エコー算出部２４がエコー抑圧装置１に設けられていたが、推定エコー算出部２４はエコー抑圧装置１と異なる演算装置等に設けられていてもよい。例えば、推定エコー算出部２４は、図示しない記憶媒体又はネットワーク等を介して学習用信号［ｉ］及び学習用受話信号［ｉ］を取得し、生成した推定エコーパワースペクトル［ｉ］を図示しない記憶媒体又はネットワーク等を介して記憶部２３に記憶すればよい。

また、本実施の形態では、ある時刻における学習用受話信号［ｉ］に対する学習用信号［ｉ］の散布図（図５～図８）を用いて推定エコーパワースペクトル［ｉ］を求めたが、各散布図において送話のパワースペクトルの対数がある一定値（例えば－５）以下のデータは推定エコーパワースペクトル［ｉ］の算出に影響しないため、送話のパワースペクトルの対数がある一定値以下のデータを削除したデータを用いて推定エコーパワースペクトル［ｉ］を求めてもよい。これにより、データ量や計算量を減らすことができる。

また、本実施の形態では、ある時刻における学習用受話信号［ｉ］に対する学習用信号［ｉ］の散布図（図５～図８）を用いて推定エコーパワースペクトル［ｉ］を求めたが、学習用受話信号［ｉ］及び学習用信号［ｉ］から推定エコーパワースペクトル［ｉ］を求める方法はこれに限られない。例えば、公知の統計学の手法又はディープラーニングを用いて推定エコーパワースペクトル［ｉ］を求めてもよい。

また、本実施の形態ではパワースペクトルを用いたが、パワースペクトルの代わりに振幅スペクトルを用いてもよい。振幅スペクトルを用いる場合、本発明の信号の大きさは、信号の大きさとして信号の振幅の絶対値を用いればよく、本発明の総受話値に相当する総受話振幅スペクトルは、数式（２１）に示すように、学習用信号の各周波数における振幅スペクトルの絶対値の総和を用いればよい。また、総受話振幅スペクトルは、数式（２２）（Ａ＞０、Ｂ＜Ｆ_ＭＡＸ）に示すように、学習用信号の任意の周波数の範囲における、各周波数における振幅スペクトルの総和としてもよい。

また、本実施の形態では、エコー除去部１１がＦＦＴ部１２の前段に設けられているが、エコー除去部１１はＦＦＴ部１２の後段に設けられていてもよいし、ノイズ抑圧部１４の後段に設けられていてもよい。また、ノイズ重畳部１７が非線形エコー抑圧部１６の後段に設けられているが、ノイズ重畳部１７は復元部（ＩＦＦＴ部）１８の後段に設けられていてもよい。

また、本実施の形態では、ノイズ抑圧部１４が非線形エコー抑圧部１６の前段に設けられていたが、ノイズ抑圧部１４が非線形エコー抑圧部１６の後段に設けられていてもよい。この場合には、数式（８）、（９）に推定ノイズパワースペクトル［ｉ］とノイズ抑圧ゲイン［ｉ］とを乗じた項は不要である。

以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。特に、実施の形態においては、振幅の二乗で表されるパワースペクトルに基づいて基礎マスクの生成、最適マスクの生成や選択、ダブルトーク状態の検知等を行ったが、これらの処理は振幅の絶対値に基づいて行ってもよい。

１：エコー抑圧装置
１１：エコー除去部
１２、２２：ＦＦＴ部
１３：ノイズ推定部
１４：ノイズ抑圧部
１５：ダブルトーク検知部
１６：非線形エコー抑圧部
１７：ノイズ重畳部
１８：ＩＦＦＴ部
２１：ダイナミックレンジコントロール
２３：記憶部
２４：推定エコー算出部
５０：端末
５１：マイクロホン
５２：スピーカ
５３、５４：携帯電話
５５：スピーカアンプ
１００：音声通信システム

Claims

スピーカへ信号を伝送する受話側信号経路を受話信号が伝送され、前記受話信号により前記スピーカから出力された音声がマイクロホンに入力されることにより生じるエコーを抑圧するエコー抑圧装置であって、
前記受話側信号経路を伝送される学習用受話信号を周波数の領域に変換した第２学習用受話信号と、前記学習用受話信号により前記スピーカから出力された音が前記マイクロホンに入力されたときに前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号を周波数の領域に変換した第２学習用信号とに基づいて算出された推定エコーであって、前記受話信号の各周波数における大きさの対数と、前記受話信号の周波数と、前記受話信号の大きさの総和又は任意の周波数範囲における前記受話信号の送話である総受話値の対数と、前記総受話値のエンベロープの対数とを変数とする推定エコー関数を記憶する記憶部と、
前記受話信号を周波数の領域に変換した第２受話信号の値を前記推定エコーを表す関数に入力してエコー抑圧用マスクを生成し、前記エコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを前記送話側信号経路を伝送される送話信号を周波数の領域に変換した第２送話信号に乗じることでエコー抑圧処理を行う非線形エコー抑圧部と、
を備えたことを特徴とするエコー抑圧装置。
前記第２受話信号の値を前記推定エコーを表す関数に入力してダブルトーク検知用マスクを生成し、前記第２送話信号と、前記ダブルトーク検知用マスクとに基づいて前記マイクロホンに発話が入力されたか否かを逐次検知するダブルトーク検知部を有し、
前記非線形エコー抑圧部は、前記マイクロホンに発話が入力された場合には、前記エコー抑圧ゲインを前記マイクロホンに発話が入力されなかった場合より小さくする
ことを特徴とする請求項１に記載のエコー抑圧装置。
前記ダブルトーク検知部は、前記第２送話信号の大きさと前記ダブルトーク検知用マスクの大きさとを周波数毎に比較し、前記第２送話信号の大きさが前記ダブルトーク検知用マスクの大きさを上回る周波数の数が第１閾値より小さいか否か、前記第２送話信号の大きさが前記ダブルトーク検知用マスクの大きさを上回る周波数帯域における前記第２送話信号の大きさの総和が第２閾値より小さいか否か、又は、前記第２送話信号の大きさが前記ダブルトーク検知用マスクの大きさを上回る周波数帯域における前記第２送話信号の大きさと前記ダブルトーク検知用マスクの大きさとの差の総和が第３閾値より小さいか否かに基づいて、前記マイクロホンに発話が入力されていないことを検知する
ことを特徴とする請求項２に記載のエコー抑圧装置。
前記第２送話信号に含まれる雑音成分を推定するノイズ推定部と、
前記第２送話信号にノイズ抑圧ゲインを乗じてエコー除去信号から雑音信号を抑圧するノイズ抑圧部と、を備え、
前記非線形エコー抑圧部は、前記推定エコーと、前記雑音成分と、前記ノイズ抑圧ゲインとに基づいて前記エコー抑圧用マスクを求める
ことを特徴とする請求項１から３のいずれか一項に記載のエコー抑圧装置。
前記第２送話信号に含まれる雑音成分を推定するノイズ推定部と、
前記第２送話信号にノイズ抑圧ゲインを乗じてエコー除去信号から雑音信号を抑圧するノイズ抑圧部と、を備え、
前記ダブルトーク検知部は、前記推定エコーと、前記雑音成分と、前記ノイズ抑圧ゲインとに基づいて前記ダブルトーク検知用マスクを求める
ことを特徴とする請求項２又は３に記載のエコー抑圧装置。
前記非線形エコー抑圧部は、前記雑音成分と前記ノイズ抑圧ゲインとに基づいて許容される残留エコーの大きさを示す許容値を求め、前記エコー抑圧用マスクの大きさを前記許容値の大きさまで小さくするような前記エコー抑圧ゲインを前記第２送話信号に乗じる
ことを特徴とする請求項４又は５に記載のエコー抑圧装置。
前記非線形エコー抑圧部は、前記第２送話信号の大きさが前記許容値より大きく前記エコー抑圧用マスク以下の場合には、前記第２送話信号の大きさから前記許容値を引いた値に基づいて前記エコー抑圧ゲインを求め、前記第２送話信号の値が前記許容値及び前記エコー抑圧用マスクより大きい場合には、前記エコー抑圧用マスクから前記許容値を引いた値に基づいて前記エコー抑圧ゲインを求める
ことを特徴とする請求項６に記載のエコー抑圧装置。
前記推定エコーを表す関数において、各変数の係数は前記第２学習用信号から外れ値を除いたデータに基づいて求められる
ことを特徴とする請求項１から７のいずれか一項に記載のエコー抑圧装置。
前記推定エコーを表す関数は、前記第２学習用信号から外れ値を除いたデータに基づいて各変数の係数が求められた第１関数と、外れ値を除かない前記第２学習用信号に基づいて各変数の係数が求められた第２関数と、を有し、
前記ダブルトーク検知用マスクは、前記第１関数に基づいて求められ、
前記エコー抑圧用マスクは、前記第２関数に基づいて求められる
ことを特徴とする請求項２、３又は５に記載のエコー抑圧装置。
スピーカへ信号を伝送する受話側信号経路を受話信号が伝送され、前記受話信号により前記スピーカから出力された音声がマイクロホンに入力されることにより生じるエコーを抑圧するエコー抑圧方法であって、
前記受話側信号経路を伝送される学習用受話信号を周波数の領域に変換した第２学習用受話信号と、前記学習用受話信号により前記スピーカから出力された音が前記マイクロホンに入力されたときに前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号を周波数の領域に変換した第２学習用信号とに基づいて算出され、記憶部に記憶された推定エコーであって、前記受話信号の各周波数における大きさの対数と、前記受話信号の周波数と、前記受話信号の大きさの総和である総受話値の対数と、前記総受話値のエンベロープの対数とを変数とする推定エコー関数を取得するステップと、
前記受話信号を周波数の領域に変換した第２受話信号の値を前記推定エコーを表す関数に入力してエコー抑圧用マスクを生成し、前記エコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを前記送話側信号経路を伝送される送話信号を周波数の領域に変換した第２送話信号に乗じることでエコー抑圧処理を行うステップと、
を含むことを特徴とするエコー抑圧方法。
スピーカへ信号を伝送する受話側信号経路を受話信号が伝送され、前記受話信号により前記スピーカから出力された音声がマイクロホンに入力されることにより生じるエコーを抑圧するエコー抑圧プログラムであって、
コンピュータを、
前記受話側信号経路を伝送される学習用受話信号を周波数の領域に変換した第２学習用受話信号と、前記学習用受話信号により前記スピーカから出力された音が前記マイクロホンに入力されたときに前記マイクロホンから入力された信号を伝送する送話側信号経路を伝送される学習用信号を周波数の領域に変換した第２学習用信号とに基づいて算出された推定エコーであって、前記受話信号の各周波数における大きさの対数と、前記受話信号の周波数と、前記受話信号の大きさの総和である総受話値の対数と、前記総受話値のエンベロープの対数とを変数とする推定エコー関数を記憶する記憶部、
前記受話信号を周波数の領域に変換した第２受話信号の値を前記推定エコーを表す関数に入力してエコー抑圧用マスクを生成し、前記エコー抑圧用マスクに基づいて算出されるエコー抑圧ゲインを前記送話側信号経路を伝送される送話信号を周波数の領域に変換した第２送話信号に乗じることでエコー抑圧処理を行う非線形エコー抑圧部、
として機能させることを特徴とするエコー抑圧プログラム。