JP2021131536A

JP2021131536A - ダブルトーク状態検出方法、装置及び電子機器

Info

Publication number: JP2021131536A
Application number: JP2021019188A
Authority: JP
Inventors: 俊楠呉; Junnan Wu; 楊飛徐; Yangfei Xu; 峻寧; Jun Ning; ▲ユイ▼洲貢; Yuzhou Gong; 楠周; Nan Zhou
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-02-20
Filing date: 2021-02-09
Publication date: 2021-09-09
Anticipated expiration: 2041-02-09
Also published as: CN111161748A; KR102523305B1; EP3869775A1; JP7159366B2; US11804235B2; US20210264935A1; EP3869775B1; CN111161748B; KR20210106905A

Abstract

【課題】検出精度が向上したダブルトーク状態検出方法、装置及び電子機器を提供する。【解決手段】ダブルトーク状態検出方法は、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得る。誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数である。Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得て、Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値に基づいて、ダブルトーク状態検出を行い、入力信号の状態を決定する。【選択図】図１

Description

本願はコンピュータ技術における音声の技術分野に関し、特にダブルトーク状態検出方法、装置及び電子機器に関する。

たとえば、音声対話を実行可能なスマートスピーカー等のようないくつかの電子機器では、音響エコーキャンセル（ＡＥＣ）は重要な役割を果たしており、音響エコーキャンセルの効果はスマートスピーカーの音声対話性能を直接左右している。また、たとえば、電子機器による通話中、音響エコーキャンセルによって通話品質を向上させることができる。ＡＥＣアルゴリズムでは、遠端基準信号をよりよく除去するとともに、近端音声信号を保護するために、通常、ダブルトーク検出モジュールが備えられる。ダブルトーク検出モジュールは現在の信号の状態がシングルトーク状態であるかダブルトーク状態であるかを検出する。シングルトーク状態とは、遠端基準信号のみがあることを意味し、ダブルトーク状態とは、近端話者の音声信号も遠端基準信号もあることを意味する。

従来のダブルトーク状態検出方法は、フルバンドエネルギー比の方法を採用し、即ち、マイクロフォンにより収集される信号を線形フィルタで処理した残りの信号エネルギーとスピーカーの信号エネルギーとを比較し、比の値が設定された検出閾値よりも大きい場合、ダブルトーク（ｄｏｕｂｌｅｔａｌｋ）状態であると判断し、それ以外の場合、シングルトーク（ｓｉｎｇｌｅｔａｌｋ）状態であると判断する。

しかしながら、上記ダブルトーク状態検出方法によって状態検出を行う場合、基準信号のエネルギーが大きい、又は近端信号のエネルギーが小さい（たとえば、話者の声が非常に小さい）と、誤判断が発生しやすく、即ち、状態検出の精度が低くなりやすい。

本願は、ダブルトーク状態検出精度が低いという課題を解決するために、ダブルトーク状態検出方法、装置及び電子機器を提供する。

第１態様によれば、本願の一実施例は、
Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得ることであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数であることと、
前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得ることと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含むダブルトーク状態検出方法を提供する。

本願の実施例に係るダブルトーク状態検出方法では、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値に対して第１平滑化処理を行うことにより、得られるＭ個の第１エネルギー平滑化比の値をさらに安定化させ、それにより、いくつかのサブバンドにおける誤差信号の異常に起因するＭ個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、そして、第１平滑化処理を行われたＭ個の第１エネルギー平滑化比の値に対して第２平滑化処理を行うことで、得られるＭ個の第２エネルギー平滑化比の値をさらに安定化させ、それにより、Ｍ個の第１エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させることができ、したがって、前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行うことで、状態検出の精度を向上させることができる。

選択可能に、前記の前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記Ｍ個の第２エネルギー平滑化比の値に基づいて、前記Ｍ個の第２エネルギー平滑化比の値の雑音を予測することと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値の雑音に基づいて、前記Ｍ個のエネルギー比の値の信号対雑音比を得ることと、
前記Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む。

本実施例では、Ｍ個の第１エネルギー平滑化比の値及び予測されたＭ個の第２エネルギー平滑化比の値の雑音を利用してエネルギー比の値の信号対雑音比を計算し、エネルギー比の値の信号対雑音比を利用してダブルトーク状態検出を行うことで、検出精度を向上させる。

選択可能に、前記フィルタリング信号はＮフレームのフィルタリングサブ信号を含み、前記誤差信号はＮフレームの誤差サブ信号を含み、Ｎは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるＮ個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるＮ個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第１エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第２エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第１エネルギー平滑化比の値は前記Ｎ個のサブエネルギー比に対して前記第１平滑化処理を行って得たＮ個の第１サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第２エネルギー平滑化比の値は前記Ｎ個の第１サブエネルギー平滑化比の値に対して前記第２平滑化処理を行って得たＮ個の第２サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記Ｍ個のサブバンドのうちのいずれかのサブバンドである。

本実施例では、誤差信号及びフィルタリング信号をフレーミング処理し、ターゲットサブバンドにおけるＮフレームの誤差サブ信号のそれぞれの第１エネルギーとそれに対応するフレームのフィルタリングサブ信号の第２エネルギーとのエネルギー比を計算し、ターゲットサブバンドにおけるＮ個のサブエネルギー比を得て、ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるＮ個のサブエネルギー比を含み、Ｍ個のサブバンドがあるため、Ｍ個のサブバンドのそれぞれにおけるＮ個のサブエネルギー比が得られ、Ｍ個のサブバンドのそれぞれにおけるＮ個のサブエネルギー比をダブルトーク状態検出の基礎とすることで、状態検出の精度を向上させることができる。

選択可能に、以下の式によって前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行う。
ratio＿short＿sm(n+1,k)=α*ratio＿short＿sm(n,k)+(1-α)*ratio(n+1,k)
（ただし、αは第１平滑化因子であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿short＿sm(1,k)はratio(1,k)に等しく、ratio(1,k)はｋ番目のサブバンドにおける第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比である。）

上記第１平滑化処理によって、得られたＭ個の第１エネルギー平滑化比の値がＭ個のエネルギー比の値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。

選択可能に、以下の式によって前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行う。
ratio＿long＿sm(n+1,k)=β*ratio＿long＿sm(n,k)+(1-β)*ratio＿short＿sm(n+1,k)
（ただし、βは第２平滑化因子であり、前記ratio＿long＿sm(n+1,k)は前記ratio＿short＿sm(n+1,k)に対して第２平滑化処理を行って得た第２サブエネルギー平滑化比の値であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿long＿sm(n,k)は前記ratio＿short＿sm(n,k)に対して第２平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿long＿sm(1,k)はratio＿short＿sm(1,k)に等しい。）

上記第２平滑化処理によって、得られたＭ個の第２エネルギー平滑化比の値がＭ個の第１エネルギー平滑化値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。

選択可能に、前記の前記Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記Ｍ個のエネルギー比の値の信号対雑音比のうちのＩ（Ｉは正の整数で、且つＩ≦Ｍである）個のエネルギー比の値の信号対雑音比の合計を計算することと、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定することと、を含む。

本実施例では、Ｍ個のエネルギー比の値のうち対応するサブバンドのサブ周波数範囲が第１所定範囲内にあるエネルギー比の値（即ち、Ｉ個のエネルギー比の値）の信号対雑音比の合計でダブルトーク状態検出を行う。このようにして、計算量を減少させるだけでなく、検出精度を向上させることができる。

第２態様によれば、本願の一実施例は、
Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得るための第１計算モジュールであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数である第１計算モジュールと、
前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得るための平滑化モジュールと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態検出モジュールと、を含むダブルトーク状態検出装置を提供する。

選択可能に、前記状態検出モジュールは、
前記Ｍ個の第２エネルギー平滑化比の値に基づいて、前記Ｍ個の第２エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値の雑音に基づいて、前記Ｍ個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
前記Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態決定モジュールと、を含む。

選択可能に、前記平滑化モジュールは、以下の式によって前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行う。
ratio＿short＿sm(n+1,k)=α*ratio＿short＿sm(n,k)+(1-α)*ratio(n+1,k)
（ただし、αは第１平滑化因子であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿short＿sm(1,k)はratio(1,k)に等しく、ratio(1,k)はｋ番目のサブバンドにおける第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比である。）

選択可能に、前記平滑化モジュールは、以下の式によって前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行う。
ratio＿long＿sm(n+1,k)=β*ratio＿long＿sm(n,k)+(1-β)*ratio＿short＿sm(n+1,k)
（ただし、βは第２平滑化因子であり、前記ratio＿long＿sm(n+1,k)は前記ratio＿short＿sm(n+1,k)に対して第２平滑化処理を行って得た第２サブエネルギー平滑化比の値であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿long＿sm(n,k)は前記ratio＿short＿sm(n,k)に対して第２平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿long＿sm(1,k)はratio＿short＿sm(1,k)に等しい。）

選択可能に、前記状態決定モジュールは、前記入力信号の状態を決定し、
前記Ｍ個のエネルギー比の値の信号対雑音比のうちのＩ（Ｉは正の整数で、且つＩ≦Ｍである）個のエネルギー比の値の信号対雑音比の合計を計算するための合計モジュールを含み、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定する。

第３態様によれば、本願の一実施例は、
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサに通信可能に接続されたメモリを含み、
前記少なくとも１つのプロセッサにより実行されると、本願の各実施例に係る方法を前記少なくとも１つのプロセッサに実行させる、前記少なくとも１つのプロセッサによって実行可能な命令が前記メモリに記憶されている電子機器をさらに提供する。

第４態様によれば、本願の一実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、本願の各実施例に係る方法を前記コンピュータに実行させる、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。

図面は本技術案をより理解しやするためであり、本願を制限するものではない。
本願に係る一実施例のダブルトーク状態検出方法の一例の模式的なフローチャートである。本願に係る一実施例のダブルトーク状態検出方法の別の模式的なフローチャートである。本願に係る一実施例のＡＥＣアルゴリズムの回路図である。本願に係る一実施例のダブルトーク状態検出装置の構造図である。本願の実施例のダブルトーク状態検出方法を実現するための電子機器のブロック図である。

以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。

図１に示すように、本願の実施例では、本願はダブルトーク状態検出方法を提供し、電子機器に適用でき、たとえば、電子機器はスマートスピーカー等を含んでもよく、上記方法は、ステップＳ１０１〜Ｓ１０３を含む。

ステップＳ１０１、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得る。

誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数である。一例として、線形フィルタによって基準信号をフィルタリング処理してもよい。なお、上記基準信号は、電子機器のスピーカーに伝送して放送する信号として理解してもよい。電子機器のマイクロフォンは入力信号を収集でき、電子機器のスピーカーが放送している場合、マイクロフォンによって収集された入力信号はスピーカーによって放送されている信号について収集された信号及び近端音声信号（たとえば、ユーザーが話している等）を含んでもよい。

周波数領域では、１つの周波数帯が複数のサブバンドに分割され、各サブバンドは一定の周波数範囲に対応し、たとえば、０〜１００Ｈｚの周波数帯域の場合、５個のサブバンドに分割されてもよく、各サブバンドに対応するサブ周波数範囲の大きさが２０Ｈｚであり、５個のサブバンドに対応するサブ周波数範囲がそれぞれ０〜２０Ｈｚ、２０〜４０Ｈｚ、４０〜６０Ｈｚ、６０〜８０Ｈｚ、８０〜１００Ｈｚである。本実施例では、１つの周波数帯域を予め設定してもよく、該周波数帯域は電子機器に処理可能な信号の周波数範囲に関連してもよい。たとえば、スマートスピーカーの場合、一例として、該周波数帯域は３０００Ｈｚであってもよい。予め設定された周波数帯域を予め周波数分割して、Ｍ個のサブバンドを得るようにしてもよい。

Ｍ個のサブバンドのうちのいずれかにおける誤差信号は該サブバンドにおける入力信号と該サブバンドにおけるフィルタリング信号との差である。サブバンドのいずれかに対して、該サブバンドにおける誤差信号の第１エネルギーと該サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算でき、つまり、各エネルギー比の値は同一サブバンドにおける誤差信号とフィルタリング信号とのエネルギーの比である。即ち、各サブバンドにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値は、同一サブバンドのそれぞれにおける誤差信号の第１エネルギーとフィルタリング信号の第２エネルギーとのエネルギー比として理解してもよく、得られるＭ個のエネルギー比の値は同一サブバンドのそれぞれにおける誤差信号の第１エネルギーとフィルタリング信号の第２エネルギーとのエネルギー比を含み、即ち、各エネルギー比の値は対応するサブバンドを有し、Ｍ個のエネルギー比の値はＭ個のサブバンドにおけるエネルギー比の値として理解してもよい。たとえば、Ｍ個のサブバンドは１番目のサブバンド及び２番目のサブバンドを含み、即ち、Ｍが２である場合、１番目のサブバンドにおける誤差信号の第１エネルギーと１番目のサブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値、及び２番目のサブバンドにおける誤差信号の第１エネルギーと２番目のサブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、このようにして、２個のエネルギー比の値を得る。

ステップＳ１０２、Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得る。

Ｍ個のエネルギー比を得た後、まず、第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、次に、Ｍ個の第１エネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得て、Ｍ個のエネルギー比の値に対して第１平滑化処理を行うことによって、得られるＭ個の第１エネルギー平滑化比の値をＭ個のエネルギー比の値よりも安定化させ、いくつかのサブバンドにおける誤差信号の異常に起因するＭ個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、さらにＭ個のエネルギー平滑化比の値に対して第２平滑化処理を行うことによって、Ｍ個の第２エネルギー平滑化比の値をＭ個の第１エネルギー平滑化比の値よりも安定化させ、Ｍ個の第１エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させる。一例として、第１平滑化処理の平滑化パラメータと第２平滑化処理の平滑化パラメータは異なる。

ステップＳ１０３、Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定する。

本実施例では、Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値をダブルトーク状態検出の根拠とすることで、状態検出の精度を向上させる。

本願の実施例に係るダブルトーク状態検出方法では、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値に対して第１平滑化処理を行うことで、得られるＭ個の第１エネルギー平滑化比の値をさらに安定化させ、それにより、いくつかのサブバンドにおける誤差信号の異常に起因するＭ個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、そして、第１平滑化処理を行われたＭ個の第１エネルギー平滑化比の値に対して第２平滑化処理を行うことで、得られるＭ個の第２エネルギー平滑化比の値をさらに安定化させ、それにより、Ｍ個の第１エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させることができ、したがって、前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行うことで、状態検出の精度を向上させることができる。

一実施例では、Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得るステップは、基準信号の信号対雑音比が所定の信号対雑音比よりも大きい場合、Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得るステップを含む。

即ち、基準信号を取得した後、まず、基準信号の信号対雑音比を計算し、たとえば、基準信号の雑音を推定し（たとえば、最小値追跡法を採用して雑音を推定することができる）、即ち、基準信号の雑音を追跡し、基準信号の雑音を得て、次に、基準信号と基準信号の雑音との比を計算し、基準信号の信号対雑音比を得ることができる。基準信号の信号対雑音比が低い場合、雑音の存在のためエネルギー比の値がやや大きく、状態検出の精度が低下してしまうという現象を軽減するために、本実施例の平滑化処理過程では、まず、基準信号の信号対雑音比と所定の信号対雑音比を比較し、基準信号の信号対雑音比が所定の信号対雑音比よりも大きい場合、Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得る。基準信号が強い（即ち、基準信号の信号対雑音比が高い）場合、後続で非常に小さい雑音が追跡されることを回避するために、さらにＭ個の第１エネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得て、それにより、状態検出の精度を向上させる。

一例として、入力信号の状態を決定した後、入力信号の状態に応じて、線形フィルタのフィルタリングパラメータを調整するステップをさらに含んでもよい。

線形フィルタは基準信号をフィルタリングしてフィルタリング信号を得るフィルタであり、たとえば、入力信号の状態がダブルトーク状態である場合、線形フィルタのフィルタリングパラメータを一定に維持し、入力信号の状態がシングルトーク状態である場合、線形フィルタのフィルタリングパラメータを更新する。線形フィルタのフィルタリングパラメータを更新する方式は様々であり、本願では限定しない。

図２に示すように、一実施例では、Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するステップ１０３は、ステップＳ１０３１〜ステップＳ１０３３を含む。

ステップＳ１０３１、Ｍ個の第２エネルギー平滑化比の値に基づいて、Ｍ個の第２エネルギー平滑化比の値の雑音を予測する。

Ｍ個の第２エネルギー平滑化比の値はＭ個の第１エネルギー平滑化比の値に対して第２平滑化処理を行った結果であり、このようにして、第２平滑化処理を行われたＭ個の第２エネルギー平滑化比の値に基づいて雑音予測を行うことで、雑音予測の精度を向上させ、それにより、状態検出の精度を向上させることができる。

なお、上記Ｍ個の第２エネルギー平滑化比の値の雑音を予測する方式は様々であり、一例として、最小値追跡アルゴリズムによってＭ個の第２エネルギー平滑化比の値の雑音を予測してもよく、即ち、最小値追跡アルゴリズムによって第２エネルギー平滑化比の値に対して最小値追跡を行い、第２エネルギー平滑化比の値の最小値を予測して、第２エネルギー平滑化比の値の雑音とする。

ステップＳ１０３２、Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値の雑音に基づいて、Ｍ個のエネルギー比の値の信号対雑音比を得る。

第１エネルギー平滑化比の値はエネルギー比の値に対して第１平滑化処理を行った結果であり、第１エネルギー平滑化比の値はエネルギー比の値に１対１で対応し、第２エネルギー平滑化比の値は第１エネルギー平滑化比の値に対して第２平滑化処理を行った結果であり、即ち、第２エネルギー平滑化比の値は第１エネルギー平滑化比の値に１対１で対応し、各第１エネルギー平滑化比の値とそれに対応する第２エネルギー平滑化比の値との比の値を、対応するエネルギー比の値の信号対雑音比とすることができ、このようにして、Ｍ個のエネルギー比の値の信号対雑音比を得ることができる。

ステップＳ１０３３、Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定する。

Ｍ個のエネルギー比の値の信号対雑音比を得た後、Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定することができる。

一実施例では、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算する前に、基準信号及びマイクロフォンによって収集された入力信号を取得するステップと、基準信号をフィルタリング処理してフィルタリング信号を得るステップと、入力信号とフィルタリング信号との誤差信号を取得するステップと、Ｍ個のサブバンドにおける誤差信号のＭ個の第１エネルギー及びＭ個のサブバンドにおけるフィルタリング信号のＭ個の第２エネルギーを計算するステップと、をさらに含む。

即ち、エネルギー比を計算する前に、エネルギーを取得する必要がある。Ｍ個のサブバンドがあるため、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーを計算し、Ｍ個のサブバンドのそれぞれにおけるフィルタリング信号の第２エネルギーを計算する必要があり、このようにして、Ｍ個の第１エネルギー及びＭ個の第２エネルギーを得て、後続のエネルギー比の値の計算に根拠を提供する。

一実施例では、フィルタリング信号はＮフレームのフィルタリングサブ信号を含み、誤差信号はＮフレームの誤差サブ信号を含み、Ｎは正の整数であり、
ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるＮ個のサブエネルギー比を含み、ターゲットサブバンドにおけるＮ個のサブエネルギー比はターゲットサブバンドにおける各フレームの誤差サブ信号の第１エネルギーとターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第２エネルギーとのエネルギー比を含み、ターゲットサブバンドにおける第１エネルギー平滑化比の値はＮ個のサブエネルギー比に対して第１平滑化処理を行って得たＮ個の第１サブエネルギー平滑化比の値を含み、ターゲットサブバンドにおける第２エネルギー平滑化比の値はＮ個の第１サブエネルギー平滑化比の値に対して第２平滑化処理を行って得たＮ個の第２サブエネルギー平滑化比の値を含み、ターゲットサブバンドはＭ個のサブバンドのうちのいずれかのサブバンドである。

なお、入力信号はＮフレームの入力サブ信号を含み、基準信号はＮフレームの基準サブ信号を含み、誤差信号は入力信号及び基準信号に応じて決定され、このため、誤差サブ信号は入力サブ信号及び基準サブ信号に応じて決定され、入力サブ信号は誤差サブ信号に１対１で対応し、基準サブ信号は誤差サブ信号に１対１で対応している。フィルタリング信号は基準信号によって決定され、このため、フィルタリングサブ信号は基準サブ信号によって決定され、フィルタリングサブ信号は基準サブ信号に１対１で対応している。このようにして、誤差サブ信号はフィルタリングサブ信号に１対１で対応し、ターゲットサブバンドにおける各フレームの誤差サブ信号は、対応する第１エネルギーを有し、ターゲットサブバンドにおける各フレームのフィルタリングサブ信号は対応する第２エネルギーを有する。ターゲットサブバンドにおけるＮフレームの誤差サブ信号のそれぞれの第１エネルギーとそれに対応するフレームのフィルタリングサブ信号の第２エネルギーとのエネルギー比を計算することによって、Ｎ個のサブエネルギー比を得ることができる。

一実施例では、以下の式によって前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行う。
ratio＿short＿sm(n+1,k)=α*ratio＿short＿sm(n,k)+(1-α)*ratio(n+1,k)
（ただし、αは第１平滑化因子であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿short＿sm(1,k)はratio(1,k)に等しく、ratio(1,k)はｋ番目のサブバンドにおける第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比である。）

上記誤差サブ信号のフレーム順序は誤差信号における誤差サブ信号の時間順であり、上記フィルタリングサブ信号のフレーム順序はフィルタリング信号におけるフィルタリングサブ信号の時間順であり、ratio＿short＿sm(1,k)がratio(1,k)に等しく、このことから理解できるように、ｋ番目のサブバンドにおける、時間が最も早い第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比については、第１平滑化を行った結果が平滑化前の結果と同じであり、つまり、ｋ番目のサブバンドにおける、最も早く収集される第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比については、平滑化を行わない。上記第１平滑化処理によって、得られたＭ個の第１エネルギー平滑化比の値がＭ個のエネルギー比の値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。

一例として、０≦α≦１である。上記第１平滑化処理の式では、第１平滑化因子αの値は式の右側のratio＿short＿sm(n,k)及びratio(n+1,k)に応じて決定でき、ｎ又は／及びｋの変化に伴い、ratio＿short＿sm(n,k)及びratio(n+1,k)が変化し、この場合、αは変化する可能性がある。たとえば、ratio(n,k)に対して第１平滑化処理を行って、ratio＿short＿sm(n,k)を得て、現在、ratio(n+1,k)に対して第１平滑化処理を行う必要があり、ratio＿short＿sm(n,k)がratio(n+1,k)未満の場合、現在、近端音声が存在する可能性が大きいことを示し、現在のratio(n+1,k)をできるだけ早く追跡する必要があり、したがって、第１平滑化因子として小さい値を選択し、逆の場合は、大きい値を選択する。たとえば、第１所定値及び第２所定値が予め設定されており、第１所定値は第２所定値未満であり、一例として、第１所定値は０．５、第２所定値は０．７であってもよく、ratio＿short＿sm(n,k)がratio(n+1,k)未満の場合、第１所定値を第１平滑化因子の値として選択し、それ以外の場合、第２所定値を第１平滑化因子の値として選択する。

一実施例では、以下の式によって前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行う。
ratio＿long＿sm(n+1,k)=β*ratio＿long＿sm(n,k)+(1-β)*ratio＿short＿sm(n+1,k)
（ただし、βは第２平滑化因子であり、前記ratio＿long＿sm(n+1,k)は前記ratio＿short＿sm(n+1,k)に対して第２平滑化処理を行って得た第２サブエネルギー平滑化比の値であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿long＿sm(n,k)は前記ratio＿short＿sm(n,k)に対して第２平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿long＿sm(1,k)はratio＿short＿sm(1,k)に等しい。）

上記誤差サブ信号のフレーム順序は誤差信号における誤差サブ信号の時間順であり、上記フィルタリングサブ信号のフレーム順序はフィルタリング信号におけるフィルタリングサブ信号の時間順であり、ratio＿long＿sm(1,k)がratio＿short＿sm(1,k)に等しく、このことから理解できるように、ｋ番目のサブバンドにおける、時間が最も早い第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比については、第１平滑化処理を行った結果が、第２平滑化を行った結果と同じであり、つまり、ｋ番目のサブバンドにおける、最も早く収集される第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比については、第１平滑化処理を行った後、第２平滑化処理を行わない。上記第２平滑化処理によって、得られたＭ個の第２エネルギー平滑化比の値がＭ個の第１エネルギー平滑化値よりも安定的になり、これに基づいてダブルトーク状態検出を行うことで、検出精度を向上させる。一例として、０≦β≦１であり、たとえば、βは０．９９であってもよい。また、β＞αである。

一実施例では、Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するステップは、
Ｍ個のエネルギー比の値の信号対雑音比のうちのＩ（Ｉは正の整数で、且つＩ≦Ｍである）個のエネルギー比の値の信号対雑音比の合計を計算するステップと、
合計が所定閾値よりも大きい場合、入力信号がダブルトーク状態であると決定し、又は、合計が所定閾値以下の場合、入力信号がシングルトーク状態であると決定するステップと、を含む。

エネルギー比の値はサブバンドに１対１で対応し、サブバンドは１つのサブ周波数範囲に対応し、一例として、上記Ｉ個のエネルギー比の値はＭ個のエネルギー比の値のうち対応するサブバンドのサブ周波数範囲が第１周波数範囲に属するエネルギー比の値であってもよく、たとえば、周波数帯域を３０００Ｈｚと予め設定し、分割されたＭ個のサブバンドについて、近端音声信号のエネルギーが主に低周波帯域（２０００Ｈｚ以下）にあるため、第１周波数範囲が０〜２０００Ｈｚであってもよい。又は、電子機器のマイクロフォンによって受信された入力信号の周波数分布に応じて第１周波数範囲を選択してもよく、たとえば、マイクロフォンによって収集された入力信号のうち信号対雑音比が大きい（たとえば、所定閾値よりも大きい）周波数帯域を第１周波数範囲とする。本実施例では、Ｍ個のエネルギー比の値のうち対応するサブバンドのサブ周波数範囲が第１所定範囲内にあるエネルギー比の値（即ち、Ｉ個のエネルギー比の値）の信号対雑音比の合計でダブルトーク状態検出を行う。このようにして、計算量を減少させるだけでなく、検出精度を向上させることができる。

一実施例では、入力信号はＮフレームの入力サブ信号を含み、入力サブ信号は誤差信号に１対１で対応しており、フレーミング処理の場合、上記合計は各フレームの誤差サブ信号（又は各フレームのフィルタリングサブ信号）におけるＭ個のエネルギー比の値の信号対雑音比のうちＩ個のエネルギー比の値の信号対雑音比の和を含んでもよく、即ち、合計はＮ個の信号対雑音比の和を含み、したがって、前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定するステップは、前記Ｎ個の信号対雑音比の和のうち所定閾値よりも大きい第１ターゲット信号対雑音比に対応する第１ターゲットフレームの入力サブ信号（入力信号の入力サブ信号に属する）がダブルトーク状態であると決定し、前記Ｎ個の信号対雑音比の和のうち所定閾値以下の第２ターゲット信号対雑音比に対応する第２ターゲットフレームの入力サブ信号（入力信号の入力サブ信号に属する）がシングルトーク状態であると決定するステップを含む。

以下、具体的な実施例をもって上記ダブルトーク状態検出方法の過程を詳細に説明する。

図３に示すように、ＡＥＣアルゴリズムの回路図であり、ＡＥＣアルゴリズムでは、遠端信号をよりよく除去するとともに、近端音声信号ｓを保護するために、通常、ダブルトーク検出モジュールが備えられる。ダブルトーク検出モジュールは入力信号ｙの状態、即ち、近端状態、シングルトーク状態及びダブルトーク状態を検出する。近端状態とは、近端話者の近端音声信号のみがあることを意味し、シングルトーク状態とは、遠端信号のみがあることを意味し、ダブルトーク状態とは、近端話者の近端音声信号も遠端信号もあることを意味する。入力信号の状態を識別して初めて、後続の処理では状態に応じて処理を行うことができ、たとえば、近端状態では、音響エコーキャンセルが不要であり、ダブルトーク状態では、音響エコーキャンセルの等級が低く、シングルトーク状態では、音響エコーキャンセルの等級が高まり、それによって、遠端信号のみがある場合、できるだけ除去し、近端信号がある場合、音声信号の歪みを低減させる。

図３に示すように、ＡＥＣアルゴリズムを実現する回路図は線形フィルタ、ダブルトーク検出モジュール及び非線形処理モジュールを含み、また、マイクロフォンと差分回路との間には、入力信号をサブバンド分解する第１サブバンド変換モジュールがさらに接続され、且つ、基準信号ｘと線形フィルタとの間には、基準信号をサブバンド分解する第２サブバンド変換モジュールがさらに接続されている。線形フィルタモジュールが基準信号を線形フィルタリングした後、マイクロフォンの入力信号ｙとフィルタリング信号

を差分回路で差分処理して誤差信号ｅを得て、マイクロフォンによって受信された入力信号のうち遠端信号の大部分が除去されたが、近端音声信号が保持され、非線形処理モジュールは誤差信号ｅに対してさらなる音響エコーキャンセルを行う。このとき、各サブバンドにおいて誤差信号とフィルタリング信号とのエネルギー比の値ratio(n,k)をそれぞれ計算する。ここで、

（E(n,k)はｋ番目のサブバンドにおける誤差信号のうちの第ｎフレームの誤差サブ信号の周波数領域信号であり、|E(n,k)|²はｋ番目のサブバンドにおける誤差信号のうちの第ｎフレームの誤差サブ信号の第１エネルギーであり、X(n,k)はｋ番目のサブバンドにおけるフィルタリング信号のうちの第ｎフレームのフィルタリングサブ信号の周波数領域信号であり、|X(n,k)|²はｋ番目のサブバンドにおけるフィルタリング信号のうちの第ｎフレームのフィルタリングサブ信号の第２エネルギーである。）である。

近端音声信号がある場合、ratio(n,k)が大きく、遠端信号のみがある場合、ratio(n,k)が小さく、該ratio(n,k)を直接利用して状態判定を行う場合、基準信号のエネルギーが異なると、判定閾値は統一し難く、且ついくつかのサブバンドにおける異常点が最終的な判定結果に影響を与えやすい。

基準信号の信号対雑音比が大きい場合、ratio(n,k)に対して短時間平滑化（即ち、第１平滑化処理）及び長時間平滑化（第２平滑化処理）を行い、基準信号の信号対雑音比が大きいことを求めるのは、基準信号の信号対雑音比が低い場合、雑音信号の存在によってratio(n,k)が大きすぎて判定結果に悪影響を与えることを防止するためである。

本実施例では、上記ダブルトーク状態検出方法の過程は以下の通りである。
Ｍ個のサブバンドにおける誤差信号のＭ個の第１エネルギー及びＭ個のサブバンドにおけるフィルタリング信号のＭ個の第２エネルギーを計算する。

サブエネルギー比ratio(n,k)を計算し、ここで、ｎは１、２、…、Ｎ−１であり、ｋは１、２、…、Ｍであり、
ratio(n,k)に対して短時間平滑化を行い、ratio＿short＿sm(n,k)を得る。

ratio＿short＿sm(n,k)に対して長時間平滑化を行い、ratio＿long＿sm(n,k)を得る。

最小値追跡アルゴリズムによってratio＿short＿sm(n,k)の雑音ratio＿long＿min(n,k)を追跡する。

ratio(n,k)の信号対雑音比ratio＿snr(n,k)を計算し、ここで、

である。

サブバンドのサブ周波数範囲が第１所定周波数範囲であるratio＿snr(n,k)を合計し、即ち、

であり、
式中、ｋ₁、ｋ₂のそれぞれに対応するサブ周波数範囲が第１所定周波数範囲内にあり、ｋ₁は正の整数であり、且つｋ₁≦Ｍであり、ｋ₂は正の整数であり、且つｋ₂≦Ｍであり、ｋ₁≦ｋ₂であり、RATIO＿SNRは第ｎフレームの誤差信号におけるｋ₂−ｋ₁＋１個のエネルギー比の値の信号対雑音比の和であり、また、第ｎフレームの入力サブ信号におけるｋ₂−ｋ₁＋１個のエネルギー比の値の信号対雑音比の和であり、即ち、Ｉはｋ₂−ｋ₁＋１であるようにしてもよい。

RATIO＿SNRを判定閾値（即ち、所定閾値）Ｔと比較し、RATIO＿SNR＞Tであると、ダブルトーク状態であると判断し、RATIO＿SNR＞Tではないと、シングルトーク状態であると判断する。

最終的に判定閾値と比較するのが誤差信号とフィルタリング信号（基準信号に対応する）とのエネルギー比の値の信号対雑音比であるため、ダブルトーク状態検出の適応調整を実現することができ、誤差信号とフィルタリング信号とのエネルギーの大きさにかかわらず、その信号対雑音比が常に同一レベルに維持でき、即ち、近端音声が存在する場合、信号対雑音比が高く、それ以外の場合、信号対雑音比が低い。また、低周波帯域を選択する（又は実際の機器に応じてほかの周波数帯域を選択する）ことによっても、いくつかの周波数における異常点による影響を回避し、それによってダブルトークの検出精度をさらに向上させることができる。

図４に示すように、本願は一実施例に係るダブルトーク状態検出装置４００を提供し、装置は、
Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得るための第１計算モジュール４０１であって、誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数である第１計算モジュール４０１と、
Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得るための平滑化モジュール４０２と、
Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するための状態検出モジュール４０３と、を含む。

一実施例では、状態検出モジュールは、
Ｍ個の第２エネルギー平滑化比の値に基づいて、Ｍ個の第２エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
Ｍ個の第１エネルギー平滑化比の値及びＭ個の第２エネルギー平滑化比の値の雑音に基づいて、Ｍ個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するための状態決定モジュールと、を含む。

一実施例では、平滑化モジュールは以下の式によってＭ個のエネルギー比の値に対して第１平滑化処理を行う。
ratio＿short＿sm(n+1,k)=α*ratio＿short＿sm(n,k)+(1-α)*ratio(n+1,k)
（ただし、αは第１平滑化因子であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿short＿sm(1,k)はratio(1,k)に等しく、ratio(1,k)はｋ番目のサブバンドにおける第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比である。）

一実施例では、平滑化モジュールは以下の式によってＭ個のエネルギー平滑化比の値に対して第２平滑化処理を行う。
ratio＿long＿sm(n+1,k)=β*ratio＿long＿sm(n,k)+(1-β)*ratio＿short＿sm(n+1,k)
（ただし、βは第２平滑化因子であり、前記ratio＿long＿sm(n+1,k)は前記ratio＿short＿sm(n+1,k)に対して第２平滑化処理を行って得た第２サブエネルギー平滑化比の値であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿long＿sm(n,k)は前記ratio＿short＿sm(n,k)に対して第２平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿long＿sm(1,k)はratio＿short＿sm(1,k)に等しい。）

一実施例では、状態決定モジュールは、入力信号の状態を決定し、
Ｍ個のエネルギー比の値の信号対雑音比のうちのＩ（Ｉは正の整数で、且つＩ≦Ｍである）個のエネルギー比の値信号対雑音比の合計を計算するための合計モジュールを含み、
合計が所定閾値よりも大きい場合、入力信号がダブルトーク状態であると決定し、又は、合計が所定閾値以下の場合、入力信号がシングルトーク状態であると決定する。

上記各実施例に係るダブルトーク状態検出装置は、上記各実施例に係るダブルトーク状態検出方法を実現する装置であり、技術的特徴が対応し、技術的効果が対応し、ここでは詳しく説明しない。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図５に示すように、本願の実施例に係るダブルトーク状態検出方法の電子機器のブロック図である。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及びその他の類似のコンピュータ装置など、様々な形式の移動装置を示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本願の実現を制限する意図はしない。

図５に示すように、この電子機器は、１つ又は複数のプロセッサ５０１、メモリ５０２、及び高速インターフェースと低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の方式で取り付けられ得る。プロセッサは電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力／出力装置（たとえば、インターフェースに結合された表示機器など）にＧＵＩのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び／又は複数のバスを、必要に応じて、複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は必要な操作の一部（たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして）を提供する。図５では、１つのプロセッサ５０１の場合が例示されている。

メモリ５０２は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、本願に係るダブルターク状態検出方法を前記少なくとも１つの前記プロセッサに実行させるように、少なくとも１つのプロセッサによって実行可能な命令を格納している。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願に係るダブルターク状態検出方法をコンピュータに実行させるためのコンピュータ命令を格納している。

非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ５０２は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本願の実施例におけるダブルターク状態検出方法に対応するプログラム命令／モジュール（たとえば、図４に示される第１計算モジュール４０１、平滑化モジュール４０２、状態検出モジュール４０３）を格納することができる。プロセッサ５０１は、メモリ５０２に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例におけるダブルターク状態検出方法を実現する。

メモリ５０２は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも１つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、キーボード表示に基づく電子機器の使用にしたがって作成されたデータなどを格納する。さらに、メモリ５０２は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔的に設置されるメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してキーボードに表示された電子機器に接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

ダブルトーク状態検出方法の電子機器は、入力装置５０３及び出力装置５０４をさらに含んでもよい。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４はバス又はその他の方式で接続してもよく、図５には、バスによる接続が例示されている。

入力装置５０３は、入力される数字又はキャラクター情報を受信すること、キーボードに表示された電子機器、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインタ、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。出力装置５０４は、表示機器、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などを含む。この表示機器は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであり得る。

ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）には、プログラム可能なプロセッサの機械命令が含まれ、プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を用いてこれらのコンピュータプログラムを実施できる。たとえば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサの任意のコンピュータプログラム製品、機器、及び／又は装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック機器（ＰＬＤ））に提供するものを指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び/又はデータを提供するために使用される任意の信号を指す。

ユーザと対話できるように、ここで説明するシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置（たとえば、マウスやトラックボール）を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック（たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であってもよく、そして、ユーザからの入力は、任意の形式（音響入力、音声入力、又は触覚入力を含む）で受信できる。

ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピュータシステム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピュータシステム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピュータシステム（たとえば、グラフィカルユーザインターフェース又はＷＥＢブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのＷＥＢブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピュータシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して互いに会話するのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント−サーバの関係を持つコンピュータプログラムによって生成される。

本願の実施例の技術案によれば、本願の実施例に係るダブルトーク状態検出方法では、Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値に対して第１平滑化処理を行うことで、得られるＭ個の第１エネルギー平滑化比の値をさらに安定化させ、それにより、いくつかのサブバンドにおける誤差信号の異常に起因するＭ個のエネルギー比の値のうちの異常エネルギー比の値の、状態検出の精度に対する影響を低減させ、そして、第１平滑化処理を行われたＭ個の第１エネルギー平滑化比の値に対して第２平滑化処理を行うことで、得られるＭ個の第２エネルギー平滑化比の値をさらに安定化させ、それにより、Ｍ個の第１エネルギー平滑化比の値のうちのいくつかの異常比の値の、状態検出の精度に対する影響を低減させることができ、したがって、前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行うことで、状態検出の精度を向上させることができる。

なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本願に記載の各ステップは、本願開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順序で実施してもよく、本明細書では、それについて限定しない。

上記特定実施形態は、本願の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本願の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本願の特許範囲に含まれるものとする。

Claims

Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得することであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数であることと、
前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得ることと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む、ことを特徴とするダブルトーク状態検出方法。
前記の前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記Ｍ個の第２エネルギー平滑化比の値に基づいて、前記Ｍ個の第２エネルギー平滑化比の値の雑音を予測することと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値の雑音に基づいて、前記Ｍ個のエネルギー比の値の信号対雑音比を得ることと、
前記Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む、ことを特徴とする請求項１に記載の方法。
前記フィルタリング信号はＮフレームのフィルタリングサブ信号を含み、前記誤差信号はＮフレームの誤差サブ信号を含み、Ｎは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるＮ個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるＮ個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第１エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第２エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第１エネルギー平滑化比の値は前記Ｎ個のサブエネルギー比に対して前記第１平滑化処理を行って得たＮ個の第１サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第２エネルギー平滑化比の値は前記Ｎ個の第１サブエネルギー平滑化比の値に対して前記第２平滑化処理を行って得たＮ個の第２サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記Ｍ個のサブバンドのうちのいずれかのサブバンドである、ことを特徴とする請求項１に記載の方法。
以下の式によって前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行う、ことを特徴とする請求項３に記載の方法。
ratio＿short＿sm(n+1,k)=α*ratio＿short＿sm(n,k)+(1-α)*ratio(n+1,k)
（ただし、αは第１平滑化因子であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿short＿sm(1,k)はratio(1,k)に等しく、ratio(1,k)はｋ番目のサブバンドにおける第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比である。）
以下の式によって前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行う、ことを特徴とする請求項３に記載の方法。
ratio＿long＿sm(n+1,k)=β*ratio＿long＿sm(n,k)+(1-β)*ratio＿short＿sm(n+1,k)
（ただし、βは第２平滑化因子であり、前記ratio＿long＿sm(n+1,k)は前記ratio＿short＿sm(n+1,k)に対して第２平滑化処理を行って得た第２サブエネルギー平滑化比の値であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿long＿sm(n,k)は前記ratio＿short＿sm(n,k)に対して第２平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿long＿sm(1,k)はratio＿short＿sm(1,k)に等しい。）
前記の前記Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記Ｍ個のエネルギー比の値の信号対雑音比のうちのＩ（Ｉは正の整数で、且つＩ≦Ｍである）個のエネルギー比の値の信号対雑音比の合計を計算することと、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定することと、を含む、ことを特徴とする請求項２に記載の方法。
Ｍ個のサブバンドのそれぞれにおける誤差信号の第１エネルギーと同サブバンドにおけるフィルタリング信号の第２エネルギーとのエネルギー比の値を計算し、Ｍ個のエネルギー比の値を得るための第１計算モジュールであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Ｍは正の整数である第１計算モジュールと、
前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行い、Ｍ個の第１エネルギー平滑化比の値を得て、前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行い、Ｍ個の第２エネルギー平滑化比の値を得るための平滑化モジュールと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態検出モジュールと、を含む、ことを特徴とするダブルトーク状態検出装置。
前記状態検出モジュールは、
前記Ｍ個の第２エネルギー平滑化比の値に基づいて、前記Ｍ個の第２エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
前記Ｍ個の第１エネルギー平滑化比の値及び前記Ｍ個の第２エネルギー平滑化比の値の雑音に基づいて、前記Ｍ個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
前記Ｍ個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態決定モジュールと、を含む、ことを特徴とする請求項７に記載の装置。
前記フィルタリング信号はＮフレームのフィルタリングサブ信号を含み、前記誤差信号はＮフレームの誤差サブ信号を含み、Ｎは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるＮ個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるＮ個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第１エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第２エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第１エネルギー平滑化比の値は前記Ｎ個のサブエネルギー比に対して前記第１平滑化処理を行って得たＮ個の第１サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第２エネルギー平滑化比の値は前記Ｎ個の第１サブエネルギー平滑化比の値に対して前記第２平滑化処理を行って得たＮ個の第２サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記Ｍ個のサブバンドのうちのいずれかのサブバンドである、ことを特徴とする請求項７に記載の装置。
前記平滑化モジュールは、以下の式によって前記Ｍ個のエネルギー比の値に対して第１平滑化処理を行う、ことを特徴とする請求項９に記載の装置。
ratio＿short＿sm(n+1,k)=α*ratio＿short＿sm(n,k)+(1-α)*ratio(n+1,k)
（ただし、αは第１平滑化因子であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿short＿sm(1,k)はratio(1,k)に等しく、ratio(1,k)はｋ番目のサブバンドにおける第１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比である。）
前記平滑化モジュールは、以下の式によって前記Ｍ個のエネルギー平滑化比の値に対して第２平滑化処理を行う、ことを特徴とする請求項９に記載の装置。
ratio＿long＿sm(n+1,k)=β*ratio＿long＿sm(n,k)+(1-β)*ratio＿short＿sm(n+1,k)
（ただし、βは第２平滑化因子であり、前記ratio＿long＿sm(n+1,k)は前記ratio＿short＿sm(n+1,k)に対して第２平滑化処理を行って得た第２サブエネルギー平滑化比の値であり、前記ratio＿short＿sm(n+1,k)は前記ratio(n+1,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はｋ番目のサブバンドにおける第ｎ＋１フレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎ＋１フレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、前記ratio＿long＿sm(n,k)は前記ratio＿short＿sm(n,k)に対して第２平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio＿short＿sm(n,k)は前記ratio(n,k)に対して第１平滑化処理を行って得た第１サブエネルギー平滑化比の値であり、ratio(n,k)はｋ番目のサブバンドにおける第ｎフレームの誤差サブ信号の第１エネルギーとｋ番目のサブバンドにおける第ｎフレームのフィルタリングサブ信号の第２エネルギーとのサブエネルギー比であり、ｎは正の整数であり、且つｎ≦Ｎ−１であり、ｋは正の整数であり、且つｋ≦Ｍであり、ratio＿long＿sm(1,k)はratio＿short＿sm(1,k)に等しい。）
前記状態決定モジュールは、前記入力信号の状態を決定し、
前記Ｍ個のエネルギー比の値の信号対雑音比のうちのＩ（Ｉは正の整数で、且つＩ≦Ｍである）個のエネルギー比の値の信号対雑音比の合計を計算するための合計モジュールを含み、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定する、ことを特徴とする請求項８に記載の装置。
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサに通信可能に接続されたメモリを含み、
前記少なくとも１つのプロセッサにより実行されると、請求項１〜６のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させる、前記少なくとも１つのプロセッサによって実行可能な命令が前記メモリに記憶されている、ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項１〜６のいずれか１項に記載の方法を前記コンピュータに実行させる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜６のいずれか１項に記載の方法が実現される、ことを特徴とするコンピュータプログラム製品。