JP4955696B2 - エコー検出 - Google Patents

エコー検出 Download PDF

Info

Publication number
JP4955696B2
JP4955696B2 JP2008543234A JP2008543234A JP4955696B2 JP 4955696 B2 JP4955696 B2 JP 4955696B2 JP 2008543234 A JP2008543234 A JP 2008543234A JP 2008543234 A JP2008543234 A JP 2008543234A JP 4955696 B2 JP4955696 B2 JP 4955696B2
Authority
JP
Japan
Prior art keywords
signal
pitch estimate
echo
distance measure
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008543234A
Other languages
English (en)
Other versions
JP2009518663A (ja
Inventor
テヌ トランプ,
アンデシュ エリクソン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2009518663A publication Critical patent/JP2009518663A/ja
Application granted granted Critical
Publication of JP4955696B2 publication Critical patent/JP4955696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/46Monitoring; Testing
    • H04B3/493Testing echo effects or singing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、信号の類似性検出に関し、詳細には通信システムにおけるエコーの検出に関する。
幾つかのアプリケーションでは、音声および雑音成分を含みうる受信信号における既知の音声信号の変形した可能性のあるバージョンの存在を検出し、関心成分の相対遅延を推定することが必要である。このようなアプリケーションの例には、エコー制御、ネットワーク統計の収集、複数参加者の会議ブリッジがある。
根源的な問題を図1に示す。既知音声信号は遅延ブロック10において遅延し、加算点14へのその経路における未知の変形12により影響を受ける。既知音声信号は加算点に到達するが、しないこともありうる(それはスイッチ16の開放または閉鎖で示される)。加算点では、信号は他の音声信号および雑音と混合される。原信号の送信点への復路において、加算点14からの信号は再度、未知の変形18および遅延ブロック20により変化する。問題は、原既知音声信号の変形した可能性のあるバージョンが受信信号に存在するかどうかを検出することであり、存在すれば既知音声信号に対するその相対遅延を推定する。これは存在検出・遅延推定ブロック22で実行される。
自身の音声の遅延反射が聞こえる現象をエコーという。電話ネットワークでは、エコーの主要源はネットワークの4線部を2線加入者線と接続する所謂ハイブリッド回路における電気的反射である。この電気的エコーは一般に、電話システムに実装するネットワーク・エコー・キャンセラで処理される。ネットワーク・エコー・キャンセラは通常、エコー源に近いところに実装すべきである。例えばネットワーク・エコー・キャンセラは、パケットネットワーク(IPまたはATM)をPSTNネットワークとインタフェースさせるメディアゲートウェイまたは移動ネットワークをPSTNネットワークとインタフェースさせる移動サービス交換センタに必要である。同様にネットワーク・エコー・キャンセラは国際交換機に、および終端間伝送遅延が25msを超えれば、1つの国内の幾つかの位置の電話交換機に実装すべきである(非特許文献1参照)。とはいえ、幾つかの場合、ネットワーク・エコー・キャンセラがその妥当な位置、即ちエコー源に近い電話交換機に見当たらないことがある。この場合、このような位置からおよびこのような位置への長距離呼はエコー問題に直面する。離れた位置で発生するエコーを伴う呼を検出し、エコーを除去する妥当な処理を行うことにより、別の国の国際運用会社はその運用会社自体の顧客に対する問題を解決することを望むことがあろう。これを行うために、エコーを検出し、その遅延を推定することが必要である。
別のエコー源は、電話機(端末)のスピーカとマイクロフォンとの間の音響結合である。このタイプのエコーは例えば携帯端末またはIP電話機から戻ることがある。理想的には端末は、エコーをシステムに返さないようにそれ自体のエコーを処理すべきである。現在使用中の多くの端末はそれ自体のエコーを適切に処理することができるが、そうでないモデルもある。
エコー経路は音声符号化器および復号化器を含むので、音響エコーの問題はネットワークにおいて解決することは容易ではない(非特許文献2参照)。その上、移動体ネットワークの場合、信号は信号にビット誤りが生じうる無線チャネルを経て送信される。したがってエコー経路は非線形、非定常となり、エコー経路に未知の遅延が生じる。このため、通常のネットワーク・エコー・キャンセラは一般に携帯端末から回帰する音響エコーに対処することはできない。再度エコーに対処するためには、まずエコーが呼に存在するかを検出し、存在すればその遅延を推定することが必要である。
このタイプの検出が有用である別のアプリケーションはネットワーク統計の収集である。電話運用会社はそのネットワークにおける電話呼の品質に関係する種々の統計データの収集を望むであろう。関心を持つ統計の幾つかは端末(例えば、携帯端末またはIP電話機)から回帰するエコーおよびこれらのエコーに関連する遅延の存在である。この仕事を遂行するために、統計収集装置は図1に示すような存在検出・遅延推定ブロック22を含むことができよう。前の例ではエコー制御のために結果を直ちに使用するのに対し、この例では検出および推定の結果は後に使用するためにデータベースに蓄積する。データベースに蓄積する統計を使用して収集したネットワーク統計を提示することができる。運用会社が音声品質に関する顧客の苦情を受信したとき、データベースに蓄積する統計を使用して問題を排除することもできる。
さらに別のアプリケーションは複数参加者の会議ブリッジである(特許文献1参照)。通信システムにおける複数参加者のブリッジでは、種々の参加者から入力するマイクロフォン信号はディジタル的に混合され、種々の参加者のスピーカに送信される。例として基本的実施形態では、全ての参加者から入力される信号が混合され、全ての参加者に送信される。ある理由、例えば送信信号の背景雑音レベルを下げるために、複数参加者のブリッジの幾つかの実装では参加者の固定サブセットから入力する信号のみを混合する。この選択は典型的に信号レベルおよび種々の参加者の話者活動に基づいて実行し、他の参加者の話者活動がなければ最も直近の活動話者を保持する。基本動作に対するさらなる修正は、参加者Aから到来するマイクロフォン信号を参加者Aに返送する信号和から除外することができる。この理由は、参加者Aからのマイクロフォン信号は話者Aのスピーカに存在するからであり(電話機セットにおけるサイドトーンにより)、大きな伝送遅延がシステムに存在すれば、マイクロフォン信号は望ましくないエコーとして感じられるからである。
米国特許第6,771,779号(フィルタリングするために推定漏話マトリックスを反転することによる多元マイクロフォン会議システムにおける音響漏話の削減) 米国特許第6,256,384号(携帯端末から発生するエコーを打ち消すための方法および装置) 米国特許第6,466,666号(電話システムのエコー電力推定方法) ITU−T勧告G.131、「話者エコーの制御(Control of talker echo)」 A.エリクソン(A.Eriksson)他著、「移動システムにおける音声品質の向上(Enhancing speech quality in mobile systems)」、エリクソンレビュー(Ericsson Review)、1998年2号 3GPP TS26.090 V6.00、第3世代協力プロジェクト;技術仕様化グループ、サービスおよびシステム側面;必須の音声コーデック音声処理機能;適応型多元速度(Adaptive Multi-Rate、AMR)音声コーデック;符号変換機能(リリース6)、2004年12月(3rd Generation Partnership Project,Technical Specification Group Services and System Aspects,Mandatory Speech Codec,Transcoding functions(Release 6)) L.ファン トリーズ(L.Van Trees)著「検出、推定および変調理論(Detection,Estimation,and Modulation Theory)、ウィリー・アンド・ソンズ(Wikley & Sons)出版、1971年、p.19−33 ウィキペディア(Wikipedia)、http://amswers.com/topics/l-vy-distribution
多様な携帯端末(例えば、セルラフォン)の使用が増加することにより、会議呼における複数のユーザが同じ位置にいることはより一般的になるであろう。これらの状態では、ユーザAの音声がユーザBのマイクロフォンへの入力となりうる。大きな伝送遅延により、ユーザBのマイクロフォンから到来するこの信号はユーザAに望ましくない話者エコーを与えることになる。しかも、ユーザAのマイクロフォン信号はユーザBのスピーカに伝送される。話者AとユーザBとの間の音声の直接経路があるため、これはシステムにおける大きな伝送遅延により、ユーザBには話者Aの聴取者エコーが聞こえてしまう。同様に、ユーザAおよびBのマイクロフォン信号の双方が他の参加者に送信されれば、この信号は話者Aの望ましくない聴取者エコーを含むことになる。よって、複数参加者の会議ブリッジへの2つの入力回線間のクロストークを検出し、このクロストークの検出に基づきそれぞれのユーザへの送信を制御する必要がある。
本明細書では、既知信号に端を発する受信信号の成分をエコーと呼ぶ。
エコー信号を検出する幾つかの方法がある。例えば、関心を持つ遅延範囲に亘る短い適応フィルタセットおよび関連するヒストグラムを使用してエコー信号が存在するかを判断し、その遅延を推定することができる。この手法は非特許文献1に記載されている。この手法の問題点は計算コストが高くなることである。
別の公知の方法では、関心を持つ幾つかの遅延のアップリンクとダウンリンク信号電力を相関させる。ある時間に亘るアップリンクとダウンリンクとの間の電力相関の観測に基づき、エコーを検出することができる。ある遅延の電力相関が十分長い時間に亘って存在していれば、エコーが検出される。幾つかの遅延についてエコーが検出されれば、電力相関が最大である遅延を遅延推定として選択する(特許文献3参照)。この解法の問題はその収束が遅いことである(エコーを検出し、その遅延の信頼性を推定するには電力相関が十分長い時間に亘って存在しなければならない)。
上記の方法の双方に共通の欠点は、音声信号を復号化することなく直接符号化音声に両方法を適用することができないことである。符号変換のない動作(Transcoder Free Operation、TrFO)および縦列性のない動作(Tandem Free Operation、TFO)がネットワークに導入されつつあるので、符号化ビットストリームに直接処理することが益々重要になりつつある。
本発明の目的は、簡単なエコー検出であり、特に符号化ビットストリームへの適用に適するエコー検出を実現することである。
別の目的は2つの信号間の類似性を表すのに適した測定を実現することである。
これらの目的は添付する特許請求の範囲に従い達成される。
本発明はピッチの比較に基づく。簡単には、本発明は第1の信号のピッチ推定値と第1の信号に関する所定の遅延における第2の信号のピッチ推定値との間の距離尺度のセットを生成する。このセットから、第1の信号と第2の信号との間の最大の類似性に対応する距離尺度を選択する。選択した距離尺度が類似性閾値に対し特定の関係を持てば、第2の信号を第1の信号からのエコーを含むと分類する。エコーが見つけられた場合、選択した距離尺度に対応する遅延をエコーの遅延推定として使用することができる。
本発明は、以下の説明を添付図面と共に参照することにより、その他の目的および利点と共に、最良に理解できるであろう。
以下の説明では、同じまたは類似の機能を実行する要素には同じ参照番号を付与する。
信号の反射であるエコーを検出するために、ダウンリンク信号とアップリンク信号との間の類似性測定が必要である。携帯ハンドセットが生成するエコーのエコー経路は非線形、非定常であるため、信号波形に直接適用する従来の類似性測定の使用は困難である。
以下の説明では、例としてGSM AMR(Adaptive Multi-Rate)音声コーデックを使用することにするが、類似の理由付けは多くの他の音声コーデック、特にCELP(Code Excited Linear Prediction、符号励起線形予測)技術に基づくものについて可能である。AMRコーデックは4つの5ms(40サンプル)サブフレームに分割する20ms(160サンプル)フレームにおいて動作する。AMR符号化ビットストリームにおいて利用可能なパラメータはLSP(Line Spectral Pair、線スペクトル対)ベクトル、非整数ピッチラグ(ピッチ周期)、励起コードベクトル、ピッチ、励起ゲインである(非特許文献3参照)。本発明によれば、ピッチ周期はエコー検出の選択パラメータである。音声信号のピッチ周期または基本周波数は、AMRコーデックにおける音声を表すのに使用される他のパラメータに比べ、未知の非線形システムを通過する際に、変形されずに、あるいは少しの変形で済む可能性が高いと考えられる。その直感的理由は、非線形システムは、高調波を生成する可能性はあるが、非線形システムを通過する正弦波の基本周波数は変化させないだろうからである。その上、無線通信システムでは、ピッチ周期はチャネル符号化により保護されることが多い。
ul(t)によりサブフレームtのアップリンク(図1参照)ピッチ周期を表し、Tdl(t−Δ)によりサブフレームt−Δのダウンリンクピッチ周期を表す。アップリンクピッチ周期は、測定誤差の寄与および移動体側からの真の信号の寄与による確率変数(random variable)として処理することにする。
アップリンクピッチ周期とダウンリンクピッチ周期との間の差分を次の過程(process)により表す。
Figure 0004955696
これらの定義により、仮定判断の使用が可能である。従って、以下の仮定を設定する。
・H:アップリンク信号はアップリンクピッチ周期とダウンリンクピッチ周期との類似性によって示されるようなエコーを含む。
・H:エコーは存在せず、移動体側に存在する信号のみに基づき、アップリンクピッチ周期が形成される。
仮定Hの下で、過程w(t,Δ)は、携帯電話の音声コーデックにおけるピッチ推定誤差、並びに、真の移動信号の寄与をモデル化する。シミュレーションによれば、推定誤差の分布はラプラス(Laplace)分布で近似でき、近端信号の寄与は分布関数に一様な底 (floor) を与える。従って、仮定Hの下では、w(t,Δ)の分布関数は次式により与えられると仮定される。
Figure 0004955696
ただし、
βは、ラプラス成分および一様成分の重み付けに使用できる設計パラメータ(典型的には、0.1と0.3との間にある)である。
δは、ラプラス分布のパラメータ(典型的には、1と3との間にある)である。
a、bは、音声コーデックにおいてピッチ周期を表すことができる限界によって決まる変数である。AMRコーデックの12.2kbit/sモードではピッチ周期は18から143の範囲であり、その他のモードでは20から143の範囲である。これは2.2kbit/sモードではa=−125、b=125、他の全てのモードではa=−123、b=123である。
αは、確率密度関数(probability density function)を正規化する定数であり、積分すると1になる。この定数は次式を解くことにより得られる。
Figure 0004955696
ここで、
Figure 0004955696
式(2)はさらなる誘導のためのより好都合な形式に書き換えることができる。
Figure 0004955696
仮定Hの下で、w(t,Δ)の分布は区間[a、b]、即ち以下の中では一様であると仮定する。
Figure 0004955696
種々の時刻における確率過程w(t,Δ)がとる値は統計的に独立であると仮定する。その場合Nのこのような密度の結合確率密度(joint probability density)(Nのサブフレームに相当し、典型的にNは100またはそれ以上の近辺にある)は個々の密度の積である。
Figure 0004955696
尤度比判断(likelihood ratio test、非特許文献4参照)を上記の仮定HおよびHについて設計することができる。両仮定は等しい事前確率(a priori probabilities)を有すると仮定する。その場合、テストは次式により与えられる。
Figure 0004955696
式(8)の対数をとり、単純化すると、次式が得られる。
Figure 0004955696
式(9)の右側は既知の定数のみを含むことを注意されたい。従って、式(9)の右側は閾値により以下のように表すことができる。
Figure 0004955696
同様に、式(9)の最小関数 (minimum function) の第2の項を制限定数 (limiting constant) により表すことができる。
Figure 0004955696
従って、式(9)は(w(t,Δ)の定義を使用して)以下のように書くことができる。
Figure 0004955696
距離尺度D(Δ)は遅延Δを有するエコーの存在の有無を表す。D(Δ)が閾値THを超えるほど、遅延Δ(仮定H)を有するエコーの存在がより確かになる。とはいえ、D(Δ)は特定の時刻におけるエコーの存在の有無を表すに過ぎないことに注意すべきである。任意の時刻tに対する式(12)に相当する一般的表現は次式の通りである。
Figure 0004955696
式(13)は、遅延Δを有するエコーの存在の有無を検出するエコー遅延検出器の基礎として使用することができる。検出器は遅延Δに対するアップリンクピッチ周期とダウンリンクピッチ周期との間の絶対距離(absolute distance)を計算し、LIMより短いように絶対距離を制限し(飽和させ)、N個全ての時刻について結果を合計し、総和を閾値THと比較する必要がある。このような検出器の構成を図2に示す。検出器はアップリンクピッチTul(t)および遅延ダウンリンクピッチTdl(t−Δ)を受信する減算器24を含む。距離信号または差分信号w(t,Δ)は、絶対値算出部26に転送され、更にリミッタ28、累算部30へと送られる。ここで、過去N個の結果が累算されて、Nで除算される。その後、その結果が分類器すなわち比較器32に転送されて閾値THと比較される。閾値を超えれば、仮定Hが有効、即ち遅延Δについてエコーが検出されたと考えられ、それ以外では仮定Hが有効、即ちエコーは存在しないと考えられる。
図2は遅延Δを有する単一の遅延チャネルの検出を示している。未知の遅延を持つエコーを検出し、遅延を推定することができるためには、図3に示すように並列に動作する幾つかの遅延チャネルを実装する必要がある。エコー遅延は関連する距離尺度の最大値D(t,Δ)を持つ遅延Δに対応する。図2に示す構成を有しうる信号類似性検出器のセットは図3で遅延セットΔMIN、ΔMIN+1、...、ΔMAXに対する距離尺度D(t,ΔMIN)、D(t,ΔMIN+1)、...、D(t,ΔMAX)を計算する。遅延は(エコーがあると予期する)アプリケーションに依存する。GSMシステムにおける移動エコーの検出の場合、ΔMINは間隔100乃至160msにあり、ΔMAXは間隔300乃至360にある。選択器36は距離尺度の最大値(t,Δ)に対応する遅延Δ(t)を選択し、選択する距離尺度が閾値THを超えれば、分類器32は対応する遅延Δ(t)を出力する。エコーが存在しないこと示す、選択する距離尺度が閾値THを超えなければ、「ダミー」値、例えば0を生成する。
代替実施形態では、エコー検出器は累積和(running sum)として実現できる、すなわち、時刻tにおいて関心を持つ遅延のそれぞれについて以下の距離尺度を計算し、0と比較する。
Figure 0004955696
ただし、THおよびLIMは式(13)の定数に相当し、λはD(t,Δ)への古い寄与を「消去する」のに使用する重みづけ係数である。例えば、定数に適する値はTH=7(THは典型的に区間[4.7、10.9]にある)、LIM=9(LIMは典型的に区間[7.1、18.0]にある)。重みづけ係数λは典型的には区間[0.9、0.99]にある。絶対ピッチ周期距離(absolute pitch period distance)は負号により式(14)に導入されるので、距離尺度が大きければアップリンク信号とダウンリンク信号との間に類似性があり、逆に、距離尺度が小さければ類似性が見つからなかったことを示すことに注意されたい。距離尺度のいずれかがゼロレベルを超えればエコーを検出する。エコー遅延は、ゼロを超える関連する距離尺度の最大値D(t,Δ)を有するΔに対応する。
図4は本発明によるエコー遅延検出方法の実施形態を示すフローチャートである。特定の時刻tにおいて、ステップS1では、mおよびm−Δの可能な値に対するTul(t−m)およびTdl(t−m−Δ)を判断する。典型的には古い値はバッファメモリに蓄積される。ステップS2では、式(13)により各遅延Δの距離尺度D(t,Δ)を判断する。ステップS3では、最大のD(t,Δ)を選択する。ステップS4では、選択した距離尺度が閾値THを超えるかを判断する。超えれば、ステップS5で、選択した距離尺度D(t,Δ)に対応する遅延Δを出力する。その他の場合、ステップS6では、「エコーはない」を表す値、例えば0を出力する。
アップリンクピッチ周期とダウンリンクピッチ周期との間の距離尺度D(t,Δ)を計算する特定の方法が本発明にとって重要ではないことに留意すべきである。本発明の別の実施形態はラプラシアンに代わってガウシアンとして推定誤差の分布w(t,Δ)をモデル化する。この場合、上述した説明と類似した導出により、打ち切り絶対距離尺度に反して2次距離尺度 (quadratic distance measure) を得る。
この実施形態によれば、アップリンク信号とダウンリンク信号とのピッチ周期の距離は次式のようにNのサブフレーム(例えば、N=16)の方形の窓を使用して種々の信号遅延Δについて計算する。
Figure 0004955696
{D(t,Δ)}ΔMIN ΔMAXの最小値が所定の閾値TH(例えば、10)より小さければ、エコーの存在が検出され、信号遅延はD(t,Δ)の最小値に対応する遅延から見つけることができる。図5および図6はこの実施形態を示す。図5で、二乗計算部40はアップリンクピッチTul(t)と遅延ダウンリンクピッチTdl(t−Δ)との間の差分を二乗する。これらの二乗を累算部42において累算し、得られる総和D(t,Δ)を分類器すなわち比較器44に転送し、比較器は得られる総和を閾値TH(THは典型的に区間[8、12]にある)と比較する。閾値が上回ればエコーは存在せず、その他の場合エコーが検出される。
図6に示す実施形態で、図5に示す構成を有しうる信号類似性検出器のセット46は所定の遅延セットΔMIN、ΔMIN+1、...、ΔMAXに対する距離尺度D(t,ΔMIN)、D(t,ΔMIN+1)、...、D(t,ΔMAX)を判断する。選択器48は距離尺度の最小値D(t,Δ)を選択し、選択した距離尺度が閾値THを超えなければ、分類器44は対応する遅延Δ(t)を出力する。エコーが存在しないこと示す、選択した距離尺度が閾値を超えれば、「ダミー」値、例えば0を生成する。
式(14)に対応する別の実施形態では、ガウシアン例を次のように実現することができる。
Figure 0004955696
本発明の別の実施形態はレビー・アルファ安定分布(Levy alpha-stable distribution)として推定誤差の分布w(t,Δ)をモデル化する(非特許文献5参照)。適する分布の重要な特徴はゼロに対して対称であるべきであり、幾分狭い最大値を有するべきである。
音声信号が符号化される場合に(TrFOまたはTFOを伝送に使用する)、本発明は特に有用であるが、本発明は非符号化信号、たとえばITU−T G.711 A法則またはμ法則フォーマットの場合を扱うこともできる。この場合、既知音声信号のピッチ推定器を加え、受信信号を検出器に加える必要がある。適するピッチ推定器は例えば非特許文献3に記載されている。この構成を図7に示す。この実施形態で、ピッチ推定器50を既知および受信信号および図3のエコー検出器との間に挿入した。
上記の実施形態で、1つの距離尺度を選択し、次いで閾値と比較した。一方、別の可能性は各距離尺度をまず閾値と比較し、次いで閾値比較を通過した測定値のセットから1つの(実施形態に応じて最大または最小)測定値を選択する。
以上で導出した基本的な検出器構成に加えることができる幾つかの実際的事項がある。
・音声信号は非定常であり、ダウンリンク音声がないか、またはエコーを生成するには静かすぎれば、エコー検出器を動作させる意味はない。実際的な実施形態では、ダウンリンクの信号電力が例えば−40dBm0より大きい場合にのみ距離尺度を更新すればよい。
・同様に、ダウンリンクピッチゲインに関する閾値が存在しうる。AMRコーデックの場合、閾値は例えば10、000に設定することができる。
・検出は「良好な」アップリンクフレーム、即ちSID(Silence Insertion Descriptor、静寂挿入記述子)フレームに関してのみ実行することができ、信頼できないフレームは除外することができる。
・擬似エコーバーストを速く検出することを可能にするために、距離尺度は例えば−200で飽和させることができる、即ち常にD(t,Δ)≧−200である。
ピッチ推定における最も一般的誤りは実際のピッチ周期の2倍になることは良く知られた事実である。この特徴を利用して、エコー検出器を高度化することができる。式(14)の特定のインプリメンテーションでは、元の検出器に検出器を加えることによりこのことを考慮することができ、元の検出器に加える検出器ではダウンリンクピッチ周期をアップリンクピッチ周期の半分と比較する。例えば、式(14)は以下のように修正することができる。
Figure 0004955696
ただし、λ2、TH2、LIM2は式(14)のλ、TH、LIMに対応するが、異なる値を持ちうる。次に、携帯電話機のエンコーダが行う最もありうるピッチ推定誤りに関係するチャネルを考察するので、式(14)のTH、LIMより小さい定数TH2、LIM2を選択するのが妥当である。例えば、定数に適する値はTH2=4(TH2は典型的に間隔[3、5]にある)およびLIM2=6(LIM2は典型的に区間[5,7]にある)である。同じ「長さのメモリ」を与えるためには典型的にλ2=λであるが、これは厳密には必要ではない。説明上の実施形態において、式(14)および式(17)により与える更新の1つのみを各時刻tにおいて使用する。これを以下の擬似コードにより示す。
Figure 0004955696
実際のピッチの半分などその他のありうる推定誤りを同様に処理することができる。
信号の類似性およびエコー検出器の種々のブロックの機能は、典型的には、1つまたは幾つかのマイクロプロセッサまたはマイクロプロセッサ/シグナルプロセッサの組み合わせおよび対応するソフトウェアによって実現される。
関係する信号間の一定の遅延を意味するエコーの検出について、本発明を説明したが、実際には、同じ原理を使用して、(相互遅延のあるまたはない)2つの一般的な信号間の類似性を検出することができる。
さらに、音声信号について、本発明を説明したが、音楽などの高調波コンテンツを有するさらに一般的なオーディオ信号に同じ原理を適用することができること。実際には、ピッチ推定により部分的に特徴付けることができる任意の種類の信号に同じ原理を適用することができる。
説明した本発明は幾つかの利点を有する。
・幾つかの音声および/またはオーディオ信号と雑音が混じる既知の音声またはオーディオ信号の遅延し、恐らく歪んだレプリカの速い検出および遅延推定が可能になる。例えば、移動体エコーの速い検出および遅延推定が可能になる。
・非線形エコー経路に対処することができる。
・符号化音声に関して動作することができる(ピッチ周期の抽出のみが必要)。
添付する特許請求の範囲により定義する本発明の範囲を逸脱することなく、本発明に種々の修正および変更をなしうることは当業者により理解されるであろう。
エコーの発生および検出を概略的に示すブロック図である。 本発明による類似性検出装置に係る実施形態のブロック図である。 本発明によるエコー検出器に係る実施形態のブロック図である。 本発明によるエコー検出方法の実施形態を示すフローチャートである。 本発明による類似性検出装置に係る別の実施形態のブロック図である。 本発明によるエコー検出器に係る別の実施形態のブロック図である。 本発明によるエコー検出器に係る更に別の実施形態のブロック図である。

Claims (26)

  1. エコーを検出する方法であって、
    第1の信号のピッチ推定値と前記第1の信号に関する所定の遅延における第2の信号のピッチ推定値との間の距離尺度のセットを生成するステップであって、前記第1の信号のピッチ推定値と前記第2の信号のピッチ推定値との間の距離は、エコーの存在する場合は第1の統計分布に従う確率過程であると仮定し、エコーが存在しない場合は第2の統計分布に従う確率過程であると仮定する仮定判断により、前記セットを生成するステップと、
    前記第1の信号と第2の信号との間の最大の類似性に対応する距離尺度を前記セットから選択するステップと、
    前記選択した距離尺度が所定の類似性閾値に対して所定の関係を持つ場合、前記第2の信号は前記第1の信号からのエコーを含むと分類するステップと、
    を有することを特徴とする方法。
  2. 前記第2の信号がエコーを含むと分類された場合、選択された距離尺度に対応する遅延を出力するステップを有することを特徴とする請求項1に記載の方法。
  3. 前記第1の統計分布は、一様な底(floor)と組み合わせるラプラス分布であることを特徴とする請求項1又は2に記載の方法。
  4. 前記第1の統計分布は、ガウス分布であることを特徴とする請求項1又は2に記載の方法。
  5. 前記第1の統計分布は、レビー・アルファ安定分布(Levy alpha-stable distribution)であることを特徴とする請求項1又は2に記載の方法。
  6. 前記第2の統計分布は、一様分布であることを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  7. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    底をLIM、
    前記距離尺度に含まれる個々のピッチ推定値の数をN、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  8. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    底をLIM、
    所定の定数をTH、
    所定の重みづけ係数をλ、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  9. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    前記距離尺度に含まれる個々のピッチ推定値の数をN、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項1,2,4のいずれか1項に記載の方法。
  10. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    所定の定数をTH
    所定の重みづけ係数をλ、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項1,2,4のいずれか1項に記載の方法。
  11. 符号化ビットストリームから前記ピッチ推定値を得るステップを含むことを特徴とする請求項1乃至10のいずれか1項に記載の方法。
  12. 非符号化データストリームから前記ピッチ推定値を導出するステップを含むことを特徴とする請求項1乃至10のいずれか1項に記載の方法。
  13. 第1の信号と第2の信号との間の類似性を判断する方法であって、前記第1の信号のピッチ推定値と前記第2の信号のピッチ推定値との間の距離尺度を生成するステップを有し、
    前記ステップは、前記第1の信号のピッチ推定値と前記第2の信号のピッチ推定値との間の距離は、前記信号が類似する場合は第1の統計分布に従う確率過程であると仮定し、前記信号が類似しない場合は第2の統計分布に従う確率過程であると仮定する仮定判断により、前記距離尺度を生成することを特徴とする方法。
  14. 前記第1の統計分布は、一様な底(floor)と組み合わせるラプラス分布であることを特徴とする請求項13に記載の方法。
  15. 前記第1の統計分布は、ガウス分布であることを特徴とする請求項13に記載の方法。
  16. 前記第1の統計分布は、レビー・アルファ安定分布(Levy alpha-stable distribution)であることを特徴とする請求項13に記載の方法。
  17. 前記第2の統計分布は、一様分布であることを特徴とする請求項13乃至16のいずれか1項に記載の方法。
  18. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    底をLIM、
    前記距離尺度に含まれる個々のピッチ推定値の数をN、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項13又は14に記載の方法。
  19. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    底をLIM、
    所定の定数をTH、
    所定の重みづけ係数をλ、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項13又は14に記載の方法。
  20. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    前記距離尺度に含まれる個々のピッチ推定値の数をN、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項13又は15に記載の方法。
  21. 前記第1の信号のピッチ推定値をTul
    前記第2の信号のピッチ推定値をTdl
    所定の定数をTH
    所定の重みづけ係数をλ、
    とするとき、
    時刻tおよび遅延Δに関連する距離尺度D(t,Δ)が、
    Figure 0004955696
    に比例することを特徴とする請求項13又は15に記載の方法。
  22. 符号化ビットストリームから前記ピッチ推定値を得るステップを含むことを特徴とする請求項13乃至21のいずれか1項に記載の方法。
  23. 非符号化データストリームから前記ピッチ推定値を導出するステップを含むことを特徴とする請求項13乃至21のいずれか1項に記載の方法。
  24. 第1の信号のピッチ推定値と前記第1の信号に関する所定の遅延における第2の信号のピッチ推定値との間の距離尺度のセットを生成する手段(34、46)であって、前記第1の信号のピッチ推定値と前記第2の信号のピッチ推定値との間の距離は、エコーの存在する場合は第1の統計分布に従う確率過程であると仮定し、エコーが存在しない場合は第2の統計分布に従う確率過程であると仮定する仮定判断を用いて、前記距離尺度のセットを生成する手段(34、46)と、
    前記第1の信号と第2の信号との間の最大の類似性に対応する距離尺度を前記セットから選択する選択器(36,48)と、
    前記選択した距離尺度が所定の類似性閾値(TH、TH)に対して所定の関係を持つ場合、前記第2の信号は前記第1の信号からのエコーを含むと分類する分類器(32、44)と、
    を備えることを特徴とするエコー検出器。
  25. 前記分類器(32、44)は、前記第2の信号がエコーを含むと分類された場合、前記選択した距離尺度に対応する遅延を出力することを特徴とする請求項24に記載のエコー検出器。
  26. 第1の信号と第2の信号との間の類似性を判断する装置であって、前記第1の信号のピッチ推定値と前記第2の信号のピッチ推定値との間の距離尺度を生成する手段(34、46)を備え、
    前記手段(34、46)は、前記第1の信号のピッチ推定値と前記第2の信号のピッチ推定値との間の距離は、前記信号が類似する場合は第1の統計分布に従う確率過程であると仮定し、前記信号が類似しない場合は第2の統計分布に従う確率過程であると仮定する仮定判断を用いて、距離尺度を生成する
    ことを特徴とする装置。
JP2008543234A 2005-12-05 2006-11-28 エコー検出 Active JP4955696B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US74190305P 2005-12-05 2005-12-05
US60/741,903 2005-12-05
PCT/SE2006/001358 WO2007067125A2 (en) 2005-12-05 2006-11-28 Echo detection

Publications (2)

Publication Number Publication Date
JP2009518663A JP2009518663A (ja) 2009-05-07
JP4955696B2 true JP4955696B2 (ja) 2012-06-20

Family

ID=38123322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008543234A Active JP4955696B2 (ja) 2005-12-05 2006-11-28 エコー検出

Country Status (10)

Country Link
US (1) US8130940B2 (ja)
EP (1) EP1958341B1 (ja)
JP (1) JP4955696B2 (ja)
KR (1) KR101300327B1 (ja)
CN (1) CN101322323B (ja)
AU (1) AU2006323242B2 (ja)
BR (1) BRPI0619402B8 (ja)
CA (1) CA2630635C (ja)
RU (1) RU2427077C2 (ja)
WO (1) WO2007067125A2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809129B2 (en) * 2007-08-31 2010-10-05 Motorola, Inc. Acoustic echo cancellation based on noise environment
US20090168673A1 (en) * 2007-12-31 2009-07-02 Lampros Kalampoukas Method and apparatus for detecting and suppressing echo in packet networks
JP5167871B2 (ja) * 2008-03-05 2013-03-21 沖電気工業株式会社 伝搬遅延時間推定器、プログラム及び方法、並びにエコーキャンセラ
US8488745B2 (en) * 2009-06-17 2013-07-16 Microsoft Corporation Endpoint echo detection
US9343073B1 (en) * 2010-04-20 2016-05-17 Knowles Electronics, Llc Robust noise suppression system in adverse echo conditions
EP2444967A1 (en) * 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
US9307321B1 (en) 2011-06-09 2016-04-05 Audience, Inc. Speaker distortion reduction
JP5235226B2 (ja) * 2011-06-28 2013-07-10 日本電信電話株式会社 エコー消去装置及びそのプログラム
GB2501234A (en) * 2012-03-05 2013-10-23 Microsoft Corp Determining correlation between first and second received signals to estimate delay while a disturbance condition is present on the second signal
JP6343585B2 (ja) * 2015-05-14 2018-06-13 日本電信電話株式会社 未知伝達系推定装置、未知伝達系推定方法、およびプログラム
KR101842777B1 (ko) * 2016-07-26 2018-03-27 라인 가부시키가이샤 음질 개선 방법 및 시스템
JP6833616B2 (ja) * 2017-05-29 2021-02-24 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
CN108881652B (zh) * 2018-07-11 2021-02-26 北京大米科技有限公司 回音检测方法、存储介质和电子设备
CN112534800B (zh) * 2018-07-18 2021-10-15 谷歌有限责任公司 一种回波检测的方法和系统
KR20200024066A (ko) * 2018-08-27 2020-03-06 서강대학교산학협력단 스테레오 노이즈 제거 장치 및 스테레오 노이즈 제거 방법
CN109688284B (zh) * 2018-12-28 2021-10-08 广东美电贝尔科技集团股份有限公司 一种回音延时检测方法
CN111681667B (zh) * 2020-06-23 2021-05-04 青岛科技大学 基于自适应窗口滤波和小波阈值优化的水声信号去噪方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK140611B (da) * 1976-03-24 1979-10-08 Rovsing As Christian Apparat til detektering af ekkosignaler.
ZA95599B (en) * 1994-02-28 1996-02-06 Qualcomm Inc Doubletalk detection by means of spectral content
US6912277B1 (en) * 1997-08-29 2005-06-28 Anip, Inc. Assigning telecommunications services to matchable classes
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3508978B2 (ja) * 1997-05-15 2004-03-22 日本電信電話株式会社 音楽演奏に含まれる楽器音の音源種類判別方法
US6826350B1 (en) * 1998-06-01 2004-11-30 Nippon Telegraph And Telephone Corporation High-speed signal search method device and recording medium for the same
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
SE516143C2 (sv) * 1999-05-10 2001-11-26 Ericsson Telefon Ab L M Skattning av ren fördröjning
US6643337B1 (en) * 2000-06-02 2003-11-04 The United States Of America As Represented By The Secretary Of The Navy Codifference correlator for impulsive signals and noise
US6804203B1 (en) 2000-09-15 2004-10-12 Mindspeed Technologies, Inc. Double talk detector for echo cancellation in a speech communication system
EP1301018A1 (en) * 2001-10-02 2003-04-09 Alcatel Apparatus and method for modifying a digital signal in the coded domain
GB0204057D0 (en) * 2002-02-21 2002-04-10 Tecteon Plc Echo detector having correlator with preprocessing
US6937723B2 (en) * 2002-10-25 2005-08-30 Avaya Technology Corp. Echo detection and monitoring
EP2068308B1 (en) * 2003-09-02 2010-06-16 Nippon Telegraph and Telephone Corporation Signal separation method, signal separation device, and signal separation program
JP2005326673A (ja) 2004-05-14 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、その装置およびプログラム、その記録媒体
US7852792B2 (en) * 2006-09-19 2010-12-14 Alcatel-Lucent Usa Inc. Packet based echo cancellation and suppression
EP2043278B1 (en) * 2007-09-26 2013-03-20 Psytechnics Ltd Signal processing

Also Published As

Publication number Publication date
AU2006323242B2 (en) 2010-08-05
RU2427077C2 (ru) 2011-08-20
EP1958341B1 (en) 2015-01-21
EP1958341A4 (en) 2014-01-01
KR101300327B1 (ko) 2013-08-28
CN101322323B (zh) 2013-01-23
BRPI0619402B8 (pt) 2020-09-24
WO2007067125A2 (en) 2007-06-14
EP1958341A2 (en) 2008-08-20
AU2006323242A1 (en) 2007-06-14
BRPI0619402A2 (pt) 2011-10-04
CA2630635C (en) 2015-04-28
RU2008127412A (ru) 2010-01-20
US8130940B2 (en) 2012-03-06
JP2009518663A (ja) 2009-05-07
WO2007067125A3 (en) 2007-08-16
US20080292109A1 (en) 2008-11-27
KR20080082624A (ko) 2008-09-11
CA2630635A1 (en) 2007-06-14
CN101322323A (zh) 2008-12-10

Similar Documents

Publication Publication Date Title
JP4955696B2 (ja) エコー検出
US7539615B2 (en) Audio signal quality enhancement in a digital network
US7907977B2 (en) Echo canceller with correlation using pre-whitened data values received by downlink codec
US8184537B1 (en) Method and apparatus for quantifying, predicting and monitoring the conversational quality
US7436822B2 (en) Method and apparatus for the estimation of total transmission delay by statistical analysis of conversational behavior
US20060217969A1 (en) Method and apparatus for echo suppression
US8874437B2 (en) Method and apparatus for modifying an encoded signal for voice quality enhancement
US20060217970A1 (en) Method and apparatus for noise reduction
US20060217983A1 (en) Method and apparatus for injecting comfort noise in a communications system
EP2664062B1 (en) A method and an apparatus for voice quality enhancement
US20060217971A1 (en) Method and apparatus for modifying an encoded signal
Ding et al. Non-intrusive single-ended speech quality assessment in VoIP
EP2158753B1 (en) Selection of audio signals to be mixed in an audio conference
KR100772199B1 (ko) VoIP 서비스의 품질보장을 위한 통화 잡음 제거장치 및방법, 그리고 이를 적용한 VoIP 단말
CN118197354A (zh) 基于音频分析检测的电话诈骗识别方法和系统
Paglierani et al. Uncertainty evaluation of speech quality measurement in voip systems
Möller et al. Towards a universal value scale for quantifying the quality of speech communication across services
Prasad et al. VAD for VOIP using cepstrum
Kauffman An algorithm to evaluate the echo signal and the voice quality in VoIP networks
Trump Detection of echo generated in mobile phones using pitch distance
Trump Detection of echo generated in mobile phones
Mousa et al. VoIP Quality Assessment Technologies
BRPI0619402B1 (pt) Método de detecção de eco, e, detector de eco

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120315

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4955696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150323

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250