JP2003500936A - エコー抑止システムにおけるニアエンド音声信号の改善 - Google Patents

エコー抑止システムにおけるニアエンド音声信号の改善

Info

Publication number
JP2003500936A
JP2003500936A JP2000619908A JP2000619908A JP2003500936A JP 2003500936 A JP2003500936 A JP 2003500936A JP 2000619908 A JP2000619908 A JP 2000619908A JP 2000619908 A JP2000619908 A JP 2000619908A JP 2003500936 A JP2003500936 A JP 2003500936A
Authority
JP
Japan
Prior art keywords
spectrum
signal
improved
echo
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000619908A
Other languages
English (en)
Inventor
ニルス クリステンソン,
ヨーン フィリプソン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2003500936A publication Critical patent/JP2003500936A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Abstract

(57)【要約】 ハンドフリー環境において、オーディオ信号を受信し、評価された音響エコー信号を生成し、オーディオ信号からその評価された音響エコー信号を除去することにより処理された信号を生成することにより、改善されたニアエンド音声信号が生成される。それから、検出器スペクトラムが最大値をもつようになる連続した周波数の1つ以上の範囲をもつニアエンド改善スペクトラムが決定される。ここで、連続した周波数の範囲は処理された信号における相対的に高いエコーリターン損失に関連したものである。その処理された信号はニアエンド改善スペクトラムに従ってフィルタされ、これにより改善されたニアエンド音声信号を生成する。それから、改善されたニアエンド音声信号が、ニアエンドスピーチを処理することを意図されている任意の数の要素に印加される。例えば、音声アクティビティ検出器に印加されるとき、改善されたニアエンド音声信号に含まれているエネルギー量が測定される。ニアエンド音声アクティビティの有無は、改善されたニアエンド音声信号の測定されたエネルギーに基づいて決定される。その処理は周期的に繰り返されて動的に調整可能な動作をもたらす。

Description

【発明の詳細な説明】
【0001】 背 景 本発明は通信システムにおける音声信号の処理に関し、特に、ファーエンド音
声のエコーと結合したニアエンド音声を含む信号におけるニアエンド音声の改善
に関する。
【0002】 通信分野において、例えば、スピーカフォンを用いた場合や、セルラ電話にお
いて、ユーザが1つ以上の自分の手が続いて占有される必要なしに、通信機器を
操作できることがしばしば望まれている。このことは自動車の環境では重要な因
子である。その環境では、ドライバが電話機器を保持することに没頭しているな
らば、自分自身の安全だけでなく道路を共有している他の人の安全をも危険にさ
らすことになるかもしれない。マイクロフォンを保持する以外の何かにその手を
用いる自由度があれば、パーソナルコンピュータによるインターネット通信、コ
ンピュータによる音声認識、或いは、オーディオビジュアルプレゼンテーション
システムを用いるような別の応用分野においても同様に有用である。
【0003】 これらの重要なニーズに対して便宜を図るために、所謂“ハンドフリー”機器
が開発されている。その機器において、マイクロフォンとラウドスピーカとはハ
ンドフリー環境でマウントされ、これによってそれらを保持する必要を不要にし
ている。例えば、自動車に応用した場合、セルラ電話のマイクロフォンはサンバ
イザにマウントされる一方で、ラウドスピーカはダッシュボードにマウントされ
たユニットで良いし、或いはカーステレオ機器に関連したものでも良い。このよ
うにしてマウントされた構成要素を用いると、セルラ電話のユーザはセルラユニ
ットやそのハンドセットを保持しなければならなくとも会話を行なえる。同様に
、パーソナルコンピュータはしばしば、例えば、互いに相対的には近接してモニ
タ内にマイクロフォンとラウドスピーカとをマウントさせることがある。
【0004】 ハンドフリー構成の問題には、マイクロフォンが、ハンドフリー機器のユーザ
(所謂、“ニアエンドユーザ”)の声に加えて、近くのラウドスピーカからの音
をピックアップする傾向がある点がある。このことはまた、どんどん小型化して
いるハンドヘルド移動電話のようなハンドフリーではないある機器においても問
題である。(小型サイズであるために、移動電話のマイクロフォンはそのラウド
スピーカによって発せられる音から完全にはシールドできない。)そのラウドス
ピーカによって生成された音がマイクロフォンによって感知されることは、多く
の応用分野において問題の原因となる。例えば、通信機器において、全体として
通信システムによって入り込む遅延は、ラウドスピーカからの音がその呼の他端
にいる(所謂“ファーエンド”)個人には自分の声のエコーとして聞こえる原因
となる。そのようなエコーはオーディオ品質を低下させ、その軽減が望まれる。
例えば、ラウドスピーカを通してスピーチを合成し、マイクロフォンにより話さ
れた命令や検知された他の言葉を認識して応答する音声認識要素を含む自動化シ
ステムにおいて、同様の問題が存在する。そのような応用分野において、マイク
ロフォン信号における合成されたスピーチのエコーの存在は音声認識要素の性能
を著しく低下させる。このようなエコーを改善するための解決策は、適応型エコ
ーキャンセレーションフィルタやエコー減衰器の利用が含まれる。
【0005】 一般にハンドフリー機器の代表的な例として、適応型フィルタ構成の形をした
従来のエコーキャンセラをもった代表的な“ハンドフリー”移動電話が図1に描
かれている。例えば、ハンドフリー通信環境は、移動電話が設置された自動車の
インテリアであるかもしれない。そのような環境はそこでの音響的な信号伝播に
影響を及ぼす原因となるが、その影響は通常はわからない。今後、この種の環境
はこの明細書を通じて未知のシステムH(z)として言及されるであろう。マイ
クロフォン105はユーザの声を検出することが意図されているが、ラウドスピ
ーカ109から発せられるオーディオ信号を検出するという望ましくない影響を
もつかもしれない。それが、そのシステムにエコー信号を導き入れてしまう望ま
しくない動作である。
【0006】 もし除去できないのであれば、そのエコーを減衰させる回路には、適応型有限
衝撃応答(FIR)フィルタのような適応型フィルタ101、最小自乗平均(L
MS)相互相関器のようなアダプテーションユニット103、及び減算器107
を含む。その動作では、適応型フィルタ101は一般にはu^信号として言及さ
れるエコー評価信号102を生成する。エコー評価信号102はファーエンド信
号112と、フィルタ101のひと続きのm個のフィルタ重み係数(hi)との
畳み込みである(式1を参照)。 ここで、 x(n)は入力信号であり、 mは重み係数の数であり、 nはサンプル数である。
【0007】 その重み係数が正しくセットされるとき、適応型フィルタ101は未知のシス
テムH(z)内のラウドスピーカ109によって生成される応答におおよそ等し
い衝撃応答を生み出す。適応型フィルタ101によって生成されるエコー評価信
号102が入力されるデジタル化されたマイクロフォン信号126(式2におい
てu(n)で表されている)から減算されてエラー信号e(n)を生み出す(式
2を参照)。 理想的には、ラウドスピーカ109によって導入された未知のシステムH(z
)からのどんなエコー応答も、エコー評価信号102の減算によってデジタル化
されたマイクロフォン信号126から除去される。通常、エコーを効果的にキャ
ンセルするのに必要な重み係数の数(以後、“複数の係数”として言及される)
はその適用に依存する。ハンドヘルド電話の場合、100個より少ない数の係数
が適当であるかもしれない。自動車のハンドフリー電話の場合には、約200〜
400個の係数が必要である。より大きな空間では、適切なエコーキャンセレー
ションを備えるために、1000個を越える係数を用いたフィルタを必要とする
かもしれない。
【0008】 エコーキャンセラーの効果性は、どれほどうまく適応型フィルタ101が未知
のシステムH(z)の衝撃応答を複製することができるかに直接的に関係してい
ることが分かる。このことは、次に、フィルタ101によって維持される係数の
セットhiに直接に関係する。
【0009】 動的に係数hiを変化させ、適応型フィルタ101が未知のシステムH(z)
における変化に適合できるようにする機構を提供することには利点がある。ハン
ドフリーセルラ構成をもつ車では、そのような変化は、ウィンドウや車のドアを
開閉するときに発生するかもしれない。公知の係数適用方式は、最小自乗平均(
LMS)過程であり、その過程はウィドロウ(Widrow)とホッフ(Hoff)とによ
り1960年に最初に導入され、その効率性と耐性のある性質のために、頻繁に
用いられている。エコーキャンセレーションの問題に適用されるとき、LMS過
程は、g(n)=e(n)x(n)という傾きの大雑把な(ノイズのある)評価を用いる統計
的な傾きステップの方法であり、マイクロフォン信号e(n)におけるエコー信
号のエネルギーを最小化する方向に向かって増分ステップをつくる。ここで、x(
n)は、x(n)=[x(n)x(n-1)x(n-2)…x(n-m+1)]という表現に対応したベクトル表記
である。LMS過程e(n)x(n)によって生成される更新情報が用いられて次のサン
プルにおける係数の値を決定する。次の係数の値hi(n+1)を計算するため
の式は次のように与えられる。 ここで、 x(n)はデジタル化された入力信号134であり、 (hj)はフィルタ重み付け係数であり、 iは特定の係数を指示し、 mは係数の数であり、 nはサンプル数であり、 μはステップ或いは更新利得パラメータである。
【0010】 LMS方法は正或いは負の値をもつかもしれない増分の部分夫々における情報
を生成する。LMS過程によって生成された情報がフィルタに提供されてそのフ
ィルタ係数を更新する。
【0011】 再び図1に戻り、従来のエコーキャンセレーション回路はフィルタ101に係
数更新情報104を提供するLMS相互相関器の形でフィルタアダプテーション
ユニット103を含む。この構成において、フィルタアダプテーションユニット
103はデジタル化されたマイクロフォン信号126からフィルタ101によっ
て生成されたエコー評価信号102を差し引いたものを表す修正された信号e(
n)を監視する。上述のように、フィルタアダプテーションユニット103によ
って適応型フィルタ101に提供された更新情報104を用いて、エコー評価信
号102が生成される。適応型フィルタ101の係数hiは、式3に示されてい
るように更新情報104を累積する。
【0012】 マイクロフォン信号から音響エコーの存在を低減するので、その結果得られる
信号は付加的な構成要素に供給されアプリケーション特有のさらなる処理を行な
う。例えば、上述のような音響エコーキャンセレーション回路に加えて、図1に
描いたようなトランシーバは通常、ニアエンド音声アクティビティ検出器150
を含む。それはニアエンドユーザが話しているのかどうかを示す信号153を出
力する。ニアエンド音声アクティビティ検出を実行するための最も一般的に用い
られているやり方は、時間領域での電力計算を用いることである。通常、音声の
アクティビティがあるかないかに関する決定は主に、(背景雑音に対応した)閾
値エネルギーレベルとバンドパスフィルタによってフィルタされた信号エネルギ
ーの測定との比較に基づいている。バンドパスフィルタリングの目的は、背景雑
音に関連した信号エネルギーを除去することである。
【0013】 ニアエンドスピーチの有無を示す信号は、数多くのユーザにいずれに対しても
有用である。1つには、汎欧州デジタル移動電話方式(GSM)のようなセルラ
通信システムにおいて、デジタル化されたスピーチ信号は生の形でネットワーク
を介して送信されないが、その代わり、実際にある場所から別の場所へと送信さ
れる必要のあるビットの数を減少させる方法で符号化される。GSMにおいて、
スピーチコーダは通常の会話において各参加者は平均で40%未満の時間話して
いるという事実を利用している。スピーチコーダの機能の一部として音声アクテ
ィビティ検出器を組み込むことにより、GSMシステムは不連続伝送モード(D
TX)で動作する。そのモードにおいて、GSMの送信機は沈黙の時間は(即ち
、ニアエンド音声アクティビティ検出器150がニアエンドユーザは話していな
いことを示すとき)アクティブな状態にはない。このやり方は加入者の電池寿命
をより長くし、瞬間的な無線の干渉を低減する。受信側での快適なノイズサブシ
ステムは背景の音響雑音を導き入れDTXにより発生する悩ましい切換えミュー
トを補償する。
【0014】 ニアエンド音声アクティビティ検出器はまた、スピーチ信号がニアエンドスピ
ーチの成分を含んでいるかどうかに基づいてアクティブな音響エコーキャンセラ
ーの減衰因子を制御するために用いられても良い。
【0015】 さらにその上、ニアエンド音声アクティビティ検出器はまた、適応型フィルタ
101のアダプテーション速度を制御するために用いられても良い。
【0016】 音声アクティビティ検出器はニアエンドのスピーチを表す信号を処理するタイ
プだけの構成要素ではない。そのような信号は、例えば、音声認識モジュールに
も供給されても良い。音声認識モジュールは公知であり、ユーザが音声制御を介
して装置やコンピュータを制御することを可能にする応用分野や、ユーザがただ
文書を口述するだけで電子文書を創成できる応用分野において有用である。
【0017】 さらにその上、ニアエンドスピーチを表す信号がまた、システム内でフィード
バックされて、例えばアダプテーションの速度を制御するといった、エコーキャ
ンセレーションフィルタ101それ自身を制御するために用いられても良い。
【0018】 上述したようなエコーキャンセレーション回路があるにも係らず、さらなる処
理のために(例えば、通信システムにおけるファーエンドユーザへの送信のため
や、或いは、ニアエンドの音声認識のためや、或いは、エコーキャンセレーショ
ンフィルタ101の動作を制御するために)生成された信号はかなり頻繁に依然
としてエコー成分を含むかもしれない。このことは、例えば、適応型フィルタが
十分に適応された状態にまだ収束していないか、或いは、そのような収束の後で
さえも未知のシステムH(z)が変化するときにはいつでも、それによって適応
過程が繰り返されるのを必要とするために発生するかもしれない。その信号に強
いエコー信号成分があると、これらのエコー信号成分がニアエンドのスピーチと
して誤認されるかもしれないので、信号劣化の原因となったり、或いは、ダウン
ストリーム処理要素の誤動作の原因にさえなったりする。
【0019】 従来の音声アクティビティ検出器、音声認識モジュールなどのようなニアエン
ドスピーチ信号を処理する従来の適用では通常、処理される信号にはエコーは存
在しないと仮定しており、それ故に、人間の音声によるアクティビティの周波数
範囲内にあるかもしれないエコー信号成分を除去してしまうほどにニアエンドス
ピーチに焦点を当てた能力はもちあわせていない。
【0020】 要 約 それ故、ニアエンドスピーチ成分がエコー信号成分に相対して強調された信号
を生成する方法と装置とを提供することが本発明の目的である。
【0021】 前述のまた他の目的は改善されたニアエンド音声信号を生成する方法と装置と
において達成される。本発明の1つの側面からすれば、改善されたニアエンド音
声信号の生成には、オーディオ信号の受信と、評価された音響エコー信号の生成
と、そのオーディオ信号から評価された音響エコー信号を除去することにより処
理された信号を生成することが含まれる。これらの工程は、例えば、ハンドフリ
ー電話機において有用である。その電話機では、ファーエンドユーザからの情報
を搬送するラウドスピーカの信号がそのハンドフリー電話機のマイクロフォンに
よって音響エコーとしてピックアップされる。次に、ニアエンドの改善スペクト
ラムが決定される。ここで、ニアエンドの改善スペクトラムは、少なくとも1つ
の連続した周波数の範囲をもち、その範囲にわたって所定の閾値よりも大きな量
をもっており、その連続した周波数の範囲は、処理された信号における相対的に
大きなエコーリターン損失に関連しているものである。その処理された信号はニ
アエンドの改善されたスペクトラムに従ってフィルタされ、これにより改善され
たニアエンド音声信号を生成する。
【0022】 本発明のもう1つの面からすれば、改善されたニアエンド音声信号に含まれる
エネルギー量が測定される。その改善されたニアエンド音声信号の測定されたエ
ネルギーに基づいて、ニアエンドで音声が発せられているかどうかが検出される
【0023】 本発明のさらにもう1つの面からすれば、改善されたニアエンド音声信号はニ
アエンド音声認識器に印加されて、これにより音声認識の性能の改善が得られる
ようにしても良い。
【0024】 本発明のもう1つの面からすれば、上述の過程は周期的に繰り返され、ニアエ
ンドで音声が発せられているかどうかの決定が動的に調整可能となり、変化する
条件に適応できる。
【0025】 本発明のさらにもう1つの面において、ニアエンドの改善されたスペクトラム
の決定は、重み付けされたスペクトラムの関数としてそのニアエンドの改善され
たスペクトラムを決定することが含まれ、その重み付けされたスペクトラムは、
次のように定義される。 ここで、 Γは、ファーエンド信号から生じた音響エコーの評価のスペクトラムであり、 Eは、c)の工程のエコーキャンセル性能を表すエコーリターン損失改善スペ
クトラムであり、 Nは、処理された信号のスペクトラムであり、 Sは、エコーの経路のスペクトラム拡散特性を表すエコー拡散スペクトラムで
あり、 Γmax=max(Γ),Emax=max(E),Smax=max(S)であり、 α,β,及びγは定数であり、α+β+γ>0である。
【0026】 本発明のさらにもう1つの面から見れば、α+β+γ=1である。
【0027】 本発明のさらにもう1つの面において、重み付けされたスペクトラムの関数と
してニアエンドの改善されたスペクトラムを決定することは、次の式に従って検
出器のスペクトラムを決定することを含む。 ここで、 Speechmin(i)は、Nが所定の閾値より大きい場合におけるi番目の周波数であ
り、 Speechmax(i)は、Nがその所定の閾値未満の場合におけるi番目の周波数であ
り、 Spectrumtotalmaxは、その重み付けされたスペクトラムW(f)における注目
の最大周波数である。
【0028】 本発明の目的と利点は添付図面に関連して次の詳細な説明を読むことにより理
解される。
【0029】 詳 細 な 説 明 本発明の種々の特徴を図面に関して説明する。その図面で同様の部分について
は同じ参照記号で識別される。
【0030】 本発明の1つの面からすれば、エコー信号成分に相対的にニアエンドのスピー
チ成分が強調された信号が、エコーキャンセラがよく作用して信号エネルギーが
おそらくニアエンドの音声アクティビティのためであろう周波数のバンド幅を決
定する周波数についての情報を用いて生成される。音声アクティビティにただ一
般的に関連しているより広い周波数範囲についてというよりはむしろ、エコーキ
ャンセレーションが効果的であることが知られている主にそれら選択された周波
数の電力を計算することにより、エコー成分とニアエンドスピーチとの間のより
大きな違いが得られる。この違いが大きくなると、エコーキャンセレーション動
作それ自身を制御する音声アクティビティ検出器、音声認識器、或いはフィード
バック経路のようなニアエンドスピーチを処理するために設計されたダウンスト
リームの構成要素の性能が改善される。
【0031】 改善をするためにどの周波数を選択するのかについての技術は、どんな種類の
エコーキャンセラが用いられているのかに依存する。例えば、LMSタイプのエ
コーキャンセレーションのやり方では、各周波数についてのエコーリターン損失
改善(ERLE)は、信号のスペクトラルパワーに依存する。図2において、実
線201はエコーキャンセレーション適用前のスピーチ信号(1つのセンテンス
)のパワースペクトルを図示している。比較のため、破線203はエコーキャン
セレーション適用後の同じスピーチ信号のパワースペクトルを図示している。エ
コーキャンセルの実行における実質的な損失は250Hz未満或いは1500Hz
を越えた周波数において観測可能である。従って、250Hzから1500Hzの
範囲のスピーチ信号周波数にだけその解析を限定したニアエンド音声処理ユニッ
ト(例えば、音声アクティビティ検出器や音声認識器)はニアエンドスピーチに
ついてエコー成分を誤ることはそれほどないであろう。一般に、性能改善のため
にニアエンド音声処理ユニットが動作すべき特定の周波数バンドは信号スペクト
ラルパワーとともに用いられるエコーキャンセラのタイプにも依存するであろう
【0032】 次のことは、ファーエンドエコー信号を除外してしまうほどにニアエンドスピ
ーチを処理することが望まれるときに改善するか或いは焦点をあわせるための周
波数バンドを選択するときに考慮すべき考察である。マイクロフォンはニアエン
ド音声信号とファーエンドエコー信号とを混合するので、ニアエンド音声信号の
本当のスペクトラムは分からないということが認識されねばならない。雑音の多
い環境下でスピーチを検出する従来の技術では、その雑音が有力な周波数を(例
えば、フィルタリングによって)除去することが含まれている。しかしながら、
ファーエンドエコーの場合、ファーエンドエコー信号に関連した周波数はそれ自
体スピーチに関連したものである。即ち、他の(例えば、ファーエンドの)スピ
ーチが存在している状況でニアエンドスピーチの検出を試みているのである。従
って、ただエコーに関連した周波数を除去すると、それはおそらくニアエンドス
ピーチに関連した信号の一部も除去することになり、それによって目的は達せら
れない。
【0033】 上述のように、ニアエンドスピーチスペクトラムの測定を行なうことは不可能
なので、ニアエンドスピーチ信号の明瞭な複製は利用可能ではない。(事実、ニ
アエンドスピーチ信号の明瞭な複製が利用可能であれば、今扱っている問題は存
在しないことになる。)しかしながら、ニアエンドスピーチによって汚染されて
いないファーエンドスピーチ信号112は利用可能であり、これはうまく利用で
きる。第1に、概して、エコー信号に含まれているスペクトラルエネルギーはニ
アエンドスピーチ信号のスペクトラルエネルギーに対応する(なぜなら、両方と
もスピーチ信号であるからである)。従って、ある程度まで、ファーエンドスピ
ーチ信号(或いは、この信号から生じる信号)はニアエンドスピーチを探索する
ことに焦点を合わせるための情報源として用いられる。
【0034】 エコーキャンセレーションが最も効果的である周波数の測定も行なうことがで
きる。この情報がニアエンドスピーチ処理を改善するのに都合良く用いられるの
で、これらの周波数においてニアエンドスピーチ信号がエコースピーチ成分の存
在によって隠されてしまうことはまずないであろう。
【0035】 ニアエンドスピーチについての改善されたスペクトラルの計算において用いら
れる周波数バンドの数は設計者にまかされている。計算された周波数スペクトラ
ムに存在する周波数バンドの最大数はそのスペクトラムが計算された信号サンプ
ル数の半分である。しかしながら、最大数の周波数バンドを必ずしもいつも計算
する必要はない。同じ数の信号サンプルからより少ない周波数バンドを決定する
ことによって、より意味のある数を得るかもしれない。例えば、周波数スペクト
ラムがGSMセルラ通信システムにおいて伝播される信号の1600個のサンプ
ルから生成されるものであるとしよう。GSMにおいて、これら1600個のサ
ンプルは200ミリ秒のスピーチを表現している。従って、最大の表現可能な周
波数は4000Hz(Nyquist周波数)である。これら1600個のサンプルは夫
々が160サンプルをもった10個のグループに分割される。10個のグループ
の夫々について256ポイントの高速フーリエ変換(FFT)は10個のスペク
トラムを生成し、それらは適当な重み平均の手法によって結合される。例えば、
指数関数的な平均化の手法が用いられるなら、これにより、新たに生成される周
波数スペクトラムに関連した周波数バンドは以前に決定された平均よりもはるか
に小さい重みをもつことになる(その結果、その平均は時間についてのスペクト
ラムの変化への応答が遅い)。スペクトラムのこのような結合の結果、一回のF
FTが元々の1600個のサンプルで実行されてより多くの周波数バンドを生成
しているかのように10倍も多くの情報から各ポイント(周波数バンド)が生成
されるスペクトラムが得られる。重み付け結合の技術を用いることにより、代表
的ではないセットのサンプルから生成された1個のスペクトラムは全体的な動作
において実質的な影響を及ぼすことはないであろう。
【0036】 本発明の1実施形態において、設計者はまず、エコーキャンセラーがよく作用
することが期待される1つ以上の周波数バンドを計算し、それからこれらの周波
数バンドでのみ動作するために後に続くニアエンド音声処理に対して調整をする
であろう。
【0037】 別の実施形態では、後続のニアエンド音声処理が動作することになる周波数バ
ンドが動的に決定されても良い。これは、エコーキャンセラ性能の変化と、ファ
ーエンド信号112のスペクトラル品質の変化のような動的に変化する条件に対
応して変化する条件にニアエンド音声処理を調整することができる能力を備える
ものである。本発明のこの面に従うニアエンドスピーチの改善の代表的な実施形
態について、図3のブロック図を参照して説明する。
【0038】 代表的な音響エコーキャンセリング構成301は、適応型フィルタ101、フ
ィルタアダプテーションユニット103、ラウドスピーカ109、マイクロフォ
ン105、D/A変換器136、A/D変換器124、及び減算器107を含み
、これらは図1で描写されているものと同じ動作をする。従って、これらの構成
要素の説明はここでは繰り返さない。代表的なトランシーバで示されているもの
も、この要素はオプションではあるが、雑音抑制ユニット303である。これが
あると、雑音抑制ユニット303はそれ自身、本発明に従って生成された情報に
基づいて動的に調整される(例えば、雑音抑制ユニット303の動作は、減算器
107の出力で生成される信号e(n)においてニアエンド音声があるかないかが検
出されることの関数である)。ファーエンド信号112は、特定の応用分野に依
存して、任意の数のソースによって生成されるかもしれない。例えば、セルラ電
話において、ファーエンド信号112は受信信号からファーエンド信号112を
生成するスピーチデコーダ(不図示)の出力で供給される。音響エコーキャンセ
リング構成301の出力として、処理されたニアエンド音声信号313が生成さ
れ、これがニアエンド音声プロセッサ(不図示)の入力に供給されても良い。ニ
アエンド音声プロセッサの機能はアプリケーション固有のものであり、ここで詳
細に説明はしない。セルラ電話の例では、ニアエンド音声プロセッサは音声アク
ティビティ検出器(不図示)でも良く、同様に、ファーエンドユーザに伝送する
符号化信号を生成するスピーチエンコーダ(不図示)でも良い。
【0039】 本発明に従えば、音響エコーキャンセリング構成301はさらに、ニアエンド
改善スペクトラム生成器309を含む。ニアエンド改善スペクトラム生成器30
9の出力はその性能を改善するためにニアエンド音声プロセッサの制御入力に供
給される。例えば、ニアエンド音声プロセッサが音声アクティビティ検出器であ
れば、その音声アクティビティ検出器は、ニアエンド改善スペクトラム生成器3
09によって示されているように、処理されたニアエンド音声信号313の特定
のスペクトラルバンドの特性に基づいて音声アクティビティの決定を行なうこと
ができる。即ち、ニアエンド改善スペクトラム生成器309の出力はどんなタイ
プのフィルタリングが音声アクティビティ検出のやり方の一部として処理された
ニアエンド音声信号313に適用されるのかを決定する。
【0040】 類似の制御調整は、音声認識機器のような他のタイプのニアエンド音声処理機
器に対してもなされる。
【0041】 ニアエンド改善スペクトラム生成器309は数多くの形で実施され、そして、
その各々は本発明の範囲内にあると考えられる。そのような形式にはランダムア
クセスメモリ(RAM)、磁気記憶媒体(例えば、磁気ディスク、ディスケット
、或いはテープ)、及び光学的記憶媒体(例えば、コンパクトディスクの読み出
し専用メモリ(CD−ROM))のようなコンピュータが利用可能な記憶媒体上
の信号として実現されるコンピュータプログラム命令を含む。或いは、本発明は
そのような命令を実行するプログラム可能なプログラムとして構成されても良い
。ニアエンド改善スペクトラム生成器309は或いは、数多くの構成のハードワ
イヤードの構成要素やプログラムされたロジックアレイにおいて実現されても良
い。
【0042】 ニアエンド改善スペクトラム生成器309の動作を説明するために、次の用語
が定義される。
【0043】 評価されたエコースペクトラム(Γ)は適応型フィルタ101によって供給さ
れる評価されたエコー信号y(n)のスペクトラムである(即ち、デジタル化さ
れたマイクロフォン信号d(n)から減算される信号である)。その評価された
エコースペクトラムΓは、例えば、FFTによってデジタル化されたマイクロフ
ォン信号d(n)から生成されても良く、それ故に、周波数fの関数である。評
価されたエコースペクトラムΓは通常、ファーエンドスペクトラムのエコーの局
部的に定常的なスペクトラムを表現しているべきである。GSMセルラ電話のよ
うな応用分野において、これは20ミリ秒のスピーチのスペクトラムであるべき
である。この場合そのスペクトラムは20ミリ秒より速いスペクトラルの内容を
変更しないことを認識するなら、評価されたエコースペクトラムΓを計算するた
めに用いられるサンプルの数は、ニアエンド音声プロセッサ(例えば、ニアエン
ド音声アクティビティ検出器)によって用いられるサンプルの数と同じであるこ
とが好ましい。もし結合技術(例えば、重み付け平均)が評価されたエコースペ
クトラムΓのいくつかの測定に適用されるなら、その重みは新しく計算された評
価されたエコースペクトラムΓが迅速にその結合に影響を与えるようなものであ
るべきである。いくつかの好適な実施形態では、評価されたエコースペクトラム
Γに関して平均化は適用されない。なお、評価されたエコースペクトラムΓが用
いられて相対的に高いエコーリターン損失に関連した周波数を示す。
【0044】 エコーリターン損失改善(ERLE)スペクトラム(E)は、エコーキャンセ
リングフィルタのエコーキャンセリング性能を表現するスペクトラムである。E
RLEスペクトラムEは周波数fの関数である。ERLEスペクトラムEのいく
つかの代替的な測定が用いられても良い。いくつかの実施形態では、ERLEス
ペクトラムは次の式に従って決定されても良い。 ここで、 はフーリエ変換を表し、d(n)はニアエンド音声とともにエコーと雑音成分と
を含むデジタル化されたマイクロフォン信号であり、e'(n)は処理されたニアエ
ンド音声信号313である。
【0045】 別の実施形態では、異なるERLEスペクトラムは次の式に従って最初に時間
領域での測定を行なうことによって決定されても良い。 これから、周波数領域のスペクトラムは次の式に従って生成されても良い。 ERLEスペクトラムEのいずれかの測定が用いられて相対的に高いエコーリタ
ーン損失に関連した周波数を示しても良い。また、これらの実施形態のいずれに
おいても、ERLEスペクトラムEはサンプルのグループの各々と上述したよう
に(例えば、重み付け平均によって)結合された結果得られるスペクトラムに対
して別々に決定されても良い。平均化の速度(即ち、新しく計算されたスペクト
ラムにおいてその平均化に重大な影響を与える速度)は、適応型フィルタ101
のアダプテーション速度とおおよそ同じであることが好ましく、その結果、ER
LEスペクトラムEは正確にエコーキャンセレーションの性能を反映するであろ
う。
【0046】 ニアエンドスペクトラム(N)は、エコーキャンセリングとオプションの雑音
抑制の後に受信された信号のスペクトラムである(即ち、それは、処理されたニ
アエンドスピーチ信号313のスペクトラムである)。ニアエンドスペクトラム
Nは周波数fの関数であり、そして、それは処理されたニアエンド音声信号31
3(e'(n))のFFTとして計算されても良い。評価されたエコースペクトラム
Γを計算するのに用いられたのと同じ数のサンプルを用いて計算されるのが好ま
しい。
【0047】 エコー拡散スペクトラム(S)はエコー経路のスペクトラム拡散特性を表現し
ている。即ち、それは、どのくらい異なる周波数がラウドスピーカ109とマイ
クロフォン105との間で伝達されるのかの評価の測定である。エコー拡散スペ
クトラムSは周波数fの関数であり、適用型フィルタ101によって実行される
フィルタリングの特性を決定する係数h(n)のフーリエ変換として計算されて
も良い。即ち、次の式である。 早くに説明した実施形態にあるように、ERLEスペクトラム(E)を用いて
ニアエンド音声処理が動作すべき周波数バンド(これ以降、“検出器スペクトラ
ム”として言及される)を決定することでニアエンド検出の性能が改善される。
本発明の別の面に従えば、スペクトラムEの使用から生じる利点は、評価された
エコースペクトラム(Γ)がEに対応しないときに性能を落とすことなく次のよ
うに検出器スペクトラムを決定することにより達成される。
【0048】 図4のフローチャートにおいて、種々のスペクトラムΓ、E、S、及びNがま
ず上述したように決定される(ステップ401)。
【0049】 次に、ステップ403において、重み付けされたスペクトラムW(f)は評価
されたエコースペクトラムΓ、ERLEスペクトラムE、及びエコー拡散スペク
トラムSから、次の式に従って決定される。 ここで、 Γmax=max(Γ),Emax=max(E),Smax=max(S)であり、 α,β,及びγは定数である。
【0050】 スペクトラムΓ、E、及びSの夫々を各最大値で割り算する目的は、重み付け
因子α,β,及びγの内の対応する1つでスケーリングしたあとに結合される正
規化されたスペクトラムを生成することであることがすぐに明らかであろう。
【0051】 好適な実施形態では、α+β+γは1つの値に近く(例えば、それはゼロに等
しくはないがそれに近い分数の値から約2の値までの範囲にあるかもしれない)
、しかし、このことは厳密な要求ではない。
【0052】 次に、ステップ405では、圧縮因子Cが決定される。それは、重み付けされ
たスペクトラムW(f)が、ニアエンドスペクトラムNがその最大エネルギー成
分をもつ1つ以上の周波数バンド内にあるパワーを含む程度を表現している。図
5において、Speechmin(1)とSpeechmax(1)との間の第1のバンドとSpeechmin(2) とSpeechmax(2)との間の第2のバンドとによって図示されているように、ニアエ
ンドスペクトラムNがいくつかの不連続な周波数バンドをもち、その範囲にわた
って所定の閾値レベルを越えた値をもっているかもしれないために、1つ以上の
周波数バンドへの参照がなされる。圧縮因子Cは次の式によって与えられる。 ここで、 Speechmin(i)はNがアプリケーションに特有な所定の閾値より大きい場合におけ
るi番目の周波数であり、そして、それ故に設計者によってセットされ、 Speechmax(i)はNがその所定の閾値未満の場合におけるi番目の周波数であり、
Spectrumtotalmaxは重み付けされたスペクトラムW(f)における我々が注目す
る最大周波数である。即ち、関数W(f)の値は、Spectrumtotalmaxより高い周
波数全てに対してゼロに等しいことが仮定されて良い。
【0053】 またなお、圧縮因子Cは2つの積分の比として定義されるが、実際には、対応
するスペクトラムを種々の範囲の周波数にわたって実質的にはフラットであると
して近似することによりしばしば簡単に計算されるかもしれない。このことはさ
らに、以下に呈示するいくつかの例において説明される。
【0054】 圧縮因子Cと重み付けされたスペクトラムW(f)とを決定すると、検出器ス
ペクトラムはステップ407において次の式を計算することによって得られる。 その結果得られるニアエンド改善スペクトラムは周波数fの関数であることが
認識されるであろう。
【0055】 ニアエンド改善スペクトラムはそれから、ニアエンド音声プロセッサ(不図示
)の制御入力に供給されても良い。例えば、ニアエンド改善スペクトラムが用い
られて、セルラ電話におけるニアエンド音声アクティビティ検出器によって実行
されるバンドパスフィルタリングを決定する。
【0056】 動的に調整可能な動作については、図4で示されているように、これらのステ
ップが周期的に繰り返され、ステップ401で再び始まるようになっている。例
えば、160個のサンプルのフレームが20ミリ秒毎に一度生成されるシステム
において、新しいニアエンド改善スペクトラムもまた20ミリ秒毎に一度決定さ
れても良い。
【0057】 上述した技術を説明するためにいくつかの例が呈示される。各ケースにおいて
、全ての説明されるスペクトラムはニアエンドスペクトラムNについて以外は正
規化されている。(Nを正規化しない理由は処理されたニアエンド音声信号31
3の実際のエネルギーレベルについての情報を保持するためである。)さらにそ
の上、次の例では、しばしばあることであるが、拡散スペクトラムは均一に分布
していると考えられる。さらに本発明の理解を容易にするために、Nはパワーが
所定の閾値レベルを超えている領域を1つだけもっているように示される。これ
によって別々に計算された積分を合計することが避けられる。
【0058】 第1の例を図6A〜図6Eを参照して説明する。図6Aはニアエンドスピーチ
スペクトラムNのグラフである。f=0〜f=250Hzの間ではN=0.25
であり、f=250Hz〜f=750Hzの間ではN=1.0であり、f=750
Hz〜f=1500Hzの間ではN=0.25である(なお、最大値1.0が描か
れていることは単に例示的な目的のためであり、一般に、Nは正規化されていな
い。)。
【0059】 例について続けると、図6Bは正規化されたERLEスペクトラムEのグラフ
である。f=0〜f=750Hzの間ではE=1.0であり、f=750Hz〜f
=1500Hzの間ではE=0.25である。
【0060】 正規化された評価されたエコースペクトラムΓのグラフは図6Cに描かれてい
る。f=0〜f=750Hzの間ではΓ=1.0であり、f=750Hz〜f=1
500Hzの間ではΓ=0.25である。
【0061】 この例において、重み付けされたスペクトラムは次の式によって与えられる。 (なぜなら、この例において、重み付け係数γ=0であるので、エコー拡散スペ
クトラムSが似ているように見えるものは無関係のものである。)正規化された
評価されたエコースペクトラムΓ(図6Cに描かれているように)と正規化され
たERLEスペクトラムE(図6Bに描かれているように)とが与えられると、
この例については、結果として重み付けされたスペクトラムW(f)が得られ、
それは図6Dに描かれている。
【0062】 次に、圧縮因子Cを計算する。所定の閾値が0.25であることを仮定するな
らば、図6Aからこの閾値を超えるたった1つの周波数バンドがあることが理解
できる。この周波数バンドは Speechmin=250Hz; Speechmax=750Hz; Spectrumtotalmax=1500Hzによって境界が定められる。
【0063】 それ故に、式(7)に従えば、 重み付けされたスペクトラムW(f)がいくつかの範囲各々に対して定数である
ために、その積分とそれ故にCは計算するのが比較的に容易である。
【0064】 今や式(8)に従って、ニアエンド改善スペクトラムを計算できる。図6Eの
最左端のスペクトラムはこの例について結果として得られるニアエンド改善スペ
クトラムを描いている。それは、f=0〜f=750Hzの間では1.0の大き
さがあり、f=750Hz〜f=1500Hzの間では0.600...の値である
ことが分かる。
【0065】 図6Eはさらに、このニアエンド改善スペクトラムを音声アクティビティ検出
器のようなニアエンド音声プロセッサを制御することに適用していることを描い
ている。そのような音声アクティビティ検出器はニアエンド改善スペクトラムに
準拠するために調整されたバンドパスフィルタリング機能をもっている。その結
果、処理されたニアエンド音声信号313が音声アクティビティ検出器に印加さ
れるとき(図6Eの真中のスペクトラムを参照されたい)、結果として得られる
音声アクティビティ検出器スペクトラムは、図6Eの右側に示したものと似てい
るように見える。結果として得られる検出器スペクトラムはf=0〜f=250
Hzの間では0.25に等しく、f=250Hz〜f=750Hzの間では1.0
に等しく、f=750Hz〜f=1500Hzの間では0.15に等しい。その結
果、それらの周波数帯(即ち、f=0Hzとf=750Hzとの間であり、図6D
における代表的な重み付けされたスペクトラムを参照されたい)についての動作
における変化はなく、そこではエコーキャンセレーションの動作は良好である。
しかしながら、エコーキャンセリング性能が良くないことに関係する周波数では
ニアエンド検出器の性能に小さな影響しかない。その結果、ニアエンド検出器の
性能は改善される。
【0066】 第2の例を図7A〜図7Eを参照して説明する。図7Aはニアエンドスピーチ
スペクトラムNのグラフである。f=0〜f=250Hzの間ではN=0.25
であり、f=250Hz〜f=750Hzの間ではN=1.0であり、f=750
Hz〜f=1500Hzの間ではN=0.25である(なお、最大値1.0が描か
れていることは単に例示的な目的のためであり、一般に、Nは正規化されていな
い。)。
【0067】 例について続けると、図7Bは正規化されたERLEスペクトラムEのグラフ
である。f=0〜f=750Hzの間ではE=1.0であり、f=750Hz〜f
=1500Hzの間ではE=0.25である。
【0068】 今までは図6A〜図6Eに関して上述された例に従っている。しかしながら、
ここで、異なる正規化された評価されたエコースペクトラムΓのグラフが図7C
に描かれている。f=0〜f=750Hzの間ではΓ=0.25であり、f=7
50Hz〜f=1500Hzの間ではΓ=1.0である。
【0069】 この例において、重み付けされたスペクトラムは次の式によって与えられるこ
とを再び仮定する。 (なぜなら、この例において、重み付け係数γ=0であるので、エコー拡散スペ
クトラムSが似ているように見えるものは無関係のものである。)正規化された
評価されたエコースペクトラムΓ(図7Cに描かれているように)と正規化され
たERLEスペクトラムE(図7Bに描かれているように)とが与えられると、
この例に関して、結果として重み付けされたスペクトラムW(f)が得られ、そ
れは図7Dに描かれている。f=0からf=1500までの全範囲を通じてそれ
は定数(=0.625)であることに気づかれたい。
【0070】 次に、圧縮因子Cを計算する。図7Aから、 Speechmin=250Hz; Speechmax=750Hz; Spectrumtotalmax=1500Hzであることが分かる。
【0071】 それ故に、式(7)に従えば、 重み付けされたスペクトラムW(f)がf=0からf=1500Hzの間の全範
囲に対して定数であるために、その積分とそれ故にCは再び計算するのが比較的
に容易である。
【0072】 今や式(8)に従って、ニアエンド改善スペクトラムを計算できる。図7Eの
最左端のスペクトラムはこの例について結果として得られるニアエンド改善スペ
クトラムを描いている。それは、f=0からf=1500Hzの間の全範囲にわ
たって0.875の大きさがあることが分かる。
【0073】 図7Eはさらに、このニアエンド改善スペクトラムを音声アクティビティ検出
器のようなニアエンド音声プロセッサを制御することに適用していることを描い
ている。そのような音声アクティビティ検出器はニアエンド改善スペクトラムに
準拠するために調整されたバンドパスフィルタリング機能をもっている。その結
果、処理されたニアエンド音声信号313が音声アクティビティ検出器に印加さ
れるとき(図7Eの真中のスペクトラムを参照されたい)、結果として得られる
音声アクティビティ検出器スペクトラムは、図7Eの右側に示したものと似てい
るように見える。結果として得られる検出器スペクトラムはf=0〜f=250
Hzの範囲では0.21875に等しく、f=250Hz〜f=750Hzの範囲
では0.875に等しく、f=750Hz〜f=1500Hzの範囲では再び0.
21875に等しい。ERLEスペクトラムEと評価されたエコースペクトラム
Γとの間において相関がないか小さい場合については、検出器スペクトラム全体
が減衰されることが分かる。にも係らず、ニアエンド検出器は依然としてニアエ
ンドスペクトラムNがその最大成分をもつ周波数に対して最も良好に応答する。
【0074】 本発明は特定の実施形態に関して説明された。しかしながら、前述した好適な
実施形態以外の特定の形態で本発明を実施できることは当業者には容易に明らか
であろう。このことは本発明の精神を逸脱することなくなされるものである。
【0075】 例えば、図示されたスペクトラムは本発明の検討を容易にするために理想化さ
れている。しかしながら、実際には、これらのスペクトラムのいずれか或いは全
ては図6A〜図6E及び図7A〜図7Eに描かれた代表的なステップの関数に合
致しないかもしれない。むしろ、これらのスペクトラムのいくつか或いは全ては
より複雑な数学的な関数によって記述されるかもしれない。その違いにもかかわ
らず、結果として得られる検出器スペクトラムが連続的な周波数の範囲によって
特徴付けられ、その周波数範囲にわたってその検出器スペクトラムは最大値をも
ち、連続する周波数の範囲は処理された信号における相対的に高いエコーリター
ン損失に関連したものであることが期待される。
【0076】 従って、好適な実施形態はただ例示的なものであり、どのようにも限定的に考
えられるべきではない。本発明の範囲は前述の説明によるよりはむしろ、添付さ
れた請求の範囲によって与えられるべきであり、その請求の範囲の中にある全て
の変形例や同等物はその請求の範囲に含まれることが意図されている。
【図面の簡単な説明】
【図1】 音響エコーキャンセラとニアエンド音声アクティビティ検出器とを含む従来の
ハンドフリートランシーバのブロック図である。
【図2】 エコーキャンセレーション適用前後における音声信号のパワースペクトル(1
センテンス)の比較図である。
【図3】 本発明の代表的な実施形態のブロック図である。
【図4】 本発明に従って実行される工程を描いたフローチャートである。
【図5】 振幅が所定の閾値レベルを超えたいくつかの不連続な周波数バンドの場合を図
示した代表的なニアエンドスペクトラムNである。
【図6A】 代表的な正規化されたニアエンド音声スペクトラムNのグラフである。
【図6B】 代表的な正規化されたERLEスペクトラムEのグラフである。
【図6C】 代表的な正規化されたラウドスピーカスペクトラムΓのグラフである。
【図6D】 本発明の1つの側面に従う代表的な重み付けスペクトラムのグラフである。
【図6E】 本発明の1つの側面に従う代表的な圧縮因子Cの決定を描いたグラフである。
【図7A】 もう1つの代表的な正規化されたニアエンド音声スペクトラムNのグラフであ
る。
【図7B】 もう1つの代表的な正規化されたERLEスペクトラムEのグラフである。
【図7C】 もう1つの代表的な正規化されたラウドスピーカスペクトラムΓのグラフであ
る。
【図7D】 本発明の1つの側面に従うもう1つの代表的な重み付けスペクトラムのグラフ
である。
【図7E】 本発明の1つの側面に従うもう1つの代表的な圧縮因子Cの決定を描いたグラ
フである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年7月26日(2001.7.26)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】 従来の音声アクティビティ検出器、音声認識モジュールなどのようなニアエン
ドスピーチ信号を処理する従来の適用では通常、処理される信号にはエコーは存
在しないと仮定しており、それ故に、人間の音声によるアクティビティの周波数
範囲内にあるかもしれないエコー信号成分を除去してしまうほどにニアエンドス
ピーチに焦点を当てた能力はもちあわせていない。 欧州特許出願第0854626号公報は、受信された未処理のニアエンド信号
を周波数領域における評価されたエコー信号とを比較することを含むエコーキャ
ンセレーション技術を開示している。この比較からの情報は、それから、その比
較からの情報に基づいて改善されたニアエンド音声信号を生成するフィルタに供
給される。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 1/60 G10L 3/02 301C 9/08 (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AG,AL,AM,AT,AU, AZ,BA,BB,BG,BR,BY,CA,CH,C N,CR,CU,CZ,DE,DK,DM,DZ,EE ,ES,FI,GB,GD,GE,GH,GM,HR, HU,ID,IL,IN,IS,JP,KE,KG,K P,KR,KZ,LC,LK,LR,LS,LT,LU ,LV,MA,MD,MG,MK,MN,MW,MX, NO,NZ,PL,PT,RO,RU,SD,SE,S G,SI,SK,SL,TJ,TM,TR,TT,TZ ,UA,UG,UZ,VN,YU,ZA,ZW Fターム(参考) 5D015 EE04 KK00 5D020 CC05 5K027 DD07 DD10 5K038 AA07 CC01 FF13 5K046 HH01 HH18 HH24 HH78 HH79 【要約の続き】 されて動的に調整可能な動作をもたらす。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 改善されたニアエンド音声信号を生成する方法であって、 a)オーディオ信号を受信する工程と、 b)評価された音響エコー信号を生成する工程と、 c)前記オーディオ信号から前記評価された音響エコー信号を除去することに
    より処理された信号を生成する工程と、 d)連続した周波数の範囲をもち、該連続した周波数の範囲は前記処理された
    信号における相対的に大きなエコーリターン損失に関連しており、前記範囲にわ
    たって所定の閾値よりも大きな量をもつニアエンドの改善されたスペクトラムを
    決定する工程と、 e)前記ニアエンドの改善されたスペクトラムに従って前記処理された信号を
    フィルタし、これにより前記改善されたニアエンド音声信号を生成する工程とを
    有することを特徴とする方法。
  2. 【請求項2】 f)前記改善されたニアエンド音声信号にエネルギーがどれほ
    ど含まれるのかを測定する工程と、 g)前記改善されたニアエンド音声信号の測定されたエネルギーに基づいて、
    ニアエンドで音声が発せられているかどうかを検出する工程とをさらに有するこ
    とを特徴とする請求項1に記載の方法。
  3. 【請求項3】 f)前記改善されたニアエンド音声信号に含まれるニアエンド
    のスピーチを認識する工程をさらに有することを特徴とする請求項1に記載の方
    法。
  4. 【請求項4】 前記a)からe)の工程は周期的に繰り返されることを特徴と
    する請求項1に記載の方法。
  5. 【請求項5】 前記ニアエンドの改善されたスペクトラムを決定する工程は、
    重み付けされたスペクトラムの関数として前記ニアエンドの改善されたスペクト
    ラムを決定することを含み、 前記重み付けされたスペクトラムは、 として定義され、 Γは、ファーエンド信号から生じた音響エコーの評価のスペクトラムであり、 Eは、前記c)の工程のエコーキャンセリング性能を表すエコーリターン損失
    改善スペクトラムであり、 Nは、前記処理された信号のスペクトラムであり、 Sは、前記エコーの経路のスペクトラム拡散特性を表すエコー拡散スペクトラ
    ムであり、 Γmax=max(Γ),Emax=max(E),Smax=max(S)であり、 α,β,及びγは定数であり、α+β+γ>0であることを特徴とする請求項
    1に記載の方法。
  6. 【請求項6】 α+β+γ=1であることを特徴とする請求項5に記載の方法
  7. 【請求項7】 前記重み付けされたスペクトラムの関数として前記ニアエンド
    の改善されたスペクトラムを決定する工程は、 に従って前記ニアエンドの改善されたスペクトラムを決定することを含み、 Speechmin(i)は、Nが所定の閾値より大きい場合におけるi番目の周波数であ
    り、 Speechmax(i)は、Nが前記所定の閾値未満の場合におけるi番目の周波数であ
    り、 Spectrumtotalmaxは、前記重み付けされたスペクトラムW(f)における注目
    の最大周波数であることを特徴とする請求項5に記載の方法。
  8. 【請求項8】 改善されたニアエンド音声信号生成器であって、 a)オーディオ信号を受信する手段と、 b)評価された音響エコー信号を生成する手段と、 c)前記オーディオ信号から前記評価された音響エコー信号を除去することに
    より処理された信号を生成する手段と、 d)連続した周波数の範囲をもち、該連続した周波数の範囲は前記処理された
    信号における相対的に大きなエコーリターン損失に関連しており、前記範囲にわ
    たって所定の閾値よりも大きな量をもつニアエンドの改善されたスペクトラムを
    決定する手段と、 e)前記ニアエンドの改善されたスペクトラムに従って前記処理された信号を
    フィルタし、これにより前記改善されたニアエンド音声信号を生成するフィルタ
    とを有することを特徴とする改善されたニアエンド音声信号生成器。
  9. 【請求項9】 f)前記改善されたニアエンド音声信号にエネルギーがどれほ
    ど含まれるのかを測定する手段と、 g)前記改善されたニアエンド音声信号の測定されたエネルギーに基づいて、
    ニアエンドで音声が発せられているかどうかを検出する手段とをさらに有するこ
    とを特徴とする請求項8に記載の改善されたニアエンド音声信号生成器。
  10. 【請求項10】 f)前記改善されたニアエンド音声信号を受信するために結
    合された音声認識器をさらに有することを特徴とする請求項8に記載の改善され
    たニアエンド音声信号生成器。
  11. 【請求項11】 前記a)からe)の構成要素は周期的に繰り返して動作する
    ことを特徴とする請求項8に記載の改善されたニアエンド音声信号生成器。
  12. 【請求項12】 前記ニアエンドの改善されたスペクトラムを決定する手段は
    、重み付けされたスペクトラムの関数として前記ニアエンドの改善されたスペク
    トラムを決定する手段を含み、 前記重み付けされたスペクトラムは、 として定義され、 Γは、ファーエンド信号から生じた音響エコーの評価のスペクトラムであり、 Eは、前記処理された信号を生成する手段のエコーキャンセリング性能を表す
    エコーリターン損失改善スペクトラムであり、 Nは、前記処理された信号のスペクトラムであり、 Sは、前記エコーの経路のスペクトラム拡散特性を表すエコー拡散スペクトラ
    ムであり、 Γmax=max(Γ),Emax=max(E),Smax=max(S)であり、 α,β,及びγは定数であり、α+β+γ>0であることを特徴とする請求項
    8に記載の改善されたニアエンド音声信号生成器。
  13. 【請求項13】 α+β+γ=1であることを特徴とする請求項12に記載の
    改善されたニアエンド音声信号生成器。
  14. 【請求項14】 前記重み付けされたスペクトラムの関数として前記ニアエン
    ドの改善されたスペクトラムを決定する手段は、 に従って前記ニアエンドの改善されたスペクトラムを決定する手段を含み、 Speechmin(i)は、Nが所定の閾値より大きい場合におけるi番目の周波数であ
    り、 Speechmax(i)は、Nが前記所定の閾値未満の場合におけるi番目の周波数であ
    り、 Spectrumtotalmaxは、前記重み付けされたスペクトラムW(f)における注目
    の最大周波数であることを特徴とする請求項12に記載の改善されたニアエンド
    音声信号生成器。
JP2000619908A 1999-05-20 2000-05-09 エコー抑止システムにおけるニアエンド音声信号の改善 Withdrawn JP2003500936A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/315,009 US6510224B1 (en) 1999-05-20 1999-05-20 Enhancement of near-end voice signals in an echo suppression system
US09/315,009 1999-05-20
PCT/EP2000/004138 WO2000072565A1 (en) 1999-05-20 2000-05-09 Enhancement of near-end voice signals in an echo suppression system

Publications (1)

Publication Number Publication Date
JP2003500936A true JP2003500936A (ja) 2003-01-07

Family

ID=23222473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000619908A Withdrawn JP2003500936A (ja) 1999-05-20 2000-05-09 エコー抑止システムにおけるニアエンド音声信号の改善

Country Status (7)

Country Link
US (1) US6510224B1 (ja)
JP (1) JP2003500936A (ja)
CN (1) CN1223109C (ja)
AU (1) AU4563700A (ja)
DE (1) DE10084614T1 (ja)
MY (1) MY122658A (ja)
WO (1) WO2000072565A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
US6912209B1 (en) * 1999-04-13 2005-06-28 Broadcom Corporation Voice gateway with echo cancellation
AU2094201A (en) * 1999-12-13 2001-06-18 Broadcom Corporation Voice gateway with downstream voice synchronization
US6865162B1 (en) * 2000-12-06 2005-03-08 Cisco Technology, Inc. Elimination of clipping associated with VAD-directed silence suppression
DE10155179B4 (de) * 2001-11-12 2006-11-23 Andrew Wireless Systems Gmbh Digitaler Repeater mit Bandpassfilterung, adaptiver Vorentzerrung und Unterdrückung der Eigenschwingung
AU2003244935A1 (en) * 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Echo canceller with model mismatch compensation
JP4161628B2 (ja) * 2002-07-19 2008-10-08 日本電気株式会社 エコー抑圧方法及び装置
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US20050285935A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Personal conferencing node
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US20060182014A1 (en) * 2005-02-14 2006-08-17 Texas Instruments Incorporated Apparatus for and method of characterization of ethernet cable impairments
CN101292508B (zh) * 2005-10-21 2011-05-25 皇家飞利浦电子股份有限公司 声回波消除器
US8868417B2 (en) * 2007-06-15 2014-10-21 Alon Konchitsky Handset intelligibility enhancement system using adaptive filters and signal buffers
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US8868418B2 (en) * 2007-06-15 2014-10-21 Alon Konchitsky Receiver intelligibility enhancement system
JP4916394B2 (ja) * 2007-07-03 2012-04-11 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
US9280984B2 (en) * 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
US9426300B2 (en) 2013-09-27 2016-08-23 Dolby Laboratories Licensing Corporation Matching reverberation in teleconferencing environments
GB2536742B (en) * 2015-08-27 2017-08-09 Imagination Tech Ltd Nearend speech detector
WO2018072214A1 (zh) * 2016-10-21 2018-04-26 向裴 混合现实音频系统
EP3669780B1 (en) * 2018-12-21 2023-10-04 Audiodo AB (publ) Methods, devices and system for a compensated hearing test
CN111048096B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2054073B2 (de) 1970-11-03 1972-09-28 Siemens AG, 1000 Berlin u. 8000 München Echosperre fuer einen sprechkreis auf einem vierdraht-uebertragungssystem
JPS63294018A (ja) 1987-05-27 1988-11-30 Oki Electric Ind Co Ltd 拡声電話機
JPS645250A (en) 1987-06-29 1989-01-10 Oki Electric Ind Co Ltd Howling prevention circuit for loudspeaker system telephone set
GB2240452A (en) 1990-01-10 1991-07-31 Motorola Inc Echo canceller has plurality of sub-band channels each with its own adaptive filter
CA2036078C (en) 1990-02-21 1994-07-26 Fumio Amano Sub-band acoustic echo canceller
US5305307A (en) 1991-01-04 1994-04-19 Picturetel Corporation Adaptive acoustic echo canceller having means for reducing or eliminating echo in a plurality of signal bandwidths
FR2678453B1 (fr) 1991-06-27 1994-12-09 Alcatel Business Systems Poste telephonique a dispositif d'annulation d'echo.
DE4227327A1 (de) 1992-08-18 1994-02-24 Philips Patentverwaltung Teilbandechokompensator mit Teilbandcodiereinrichtung
JP2654894B2 (ja) 1992-09-30 1997-09-17 日本電信電話株式会社 反響消去装置およびその方法
CN1284309C (zh) * 1994-05-07 2006-11-08 株式会社Ntt都科摩 回波消除器学习方法
US5553014A (en) 1994-10-31 1996-09-03 Lucent Technologies Inc. Adaptive finite impulse response filtering method and apparatus
US5548642A (en) 1994-12-23 1996-08-20 At&T Corp. Optimization of adaptive filter tap settings for subband acoustic echo cancelers in teleconferencing
FR2729024A1 (fr) 1994-12-30 1996-07-05 Matra Communication Annuleur d'echo acoustique avec filtrage en sous-bandes
US5633936A (en) 1995-01-09 1997-05-27 Texas Instruments Incorporated Method and apparatus for detecting a near-end speech signal
ATE282924T1 (de) 1996-02-09 2004-12-15 Texas Instruments Inc Geräuschverminderungsanordnung
US5706344A (en) * 1996-03-29 1998-01-06 Digisonix, Inc. Acoustic echo cancellation in an integrated audio and telecommunication system
EP0843934B1 (en) 1996-05-31 2007-11-14 Koninklijke Philips Electronics N.V. Arrangement for suppressing an interfering component of an input signal
JP3099870B2 (ja) 1996-07-23 2000-10-16 日本電気株式会社 音響エコーキャンセラ
FR2758677B1 (fr) * 1997-01-21 1999-04-02 Matra Communication Procede d'annulation d'echo et annuleur d'echo mettant en oeuvre un tel procede

Also Published As

Publication number Publication date
CN1223109C (zh) 2005-10-12
MY122658A (en) 2006-04-29
DE10084614T1 (de) 2002-06-27
AU4563700A (en) 2000-12-12
WO2000072565A1 (en) 2000-11-30
US6510224B1 (en) 2003-01-21
CN1361972A (zh) 2002-07-31

Similar Documents

Publication Publication Date Title
JP2003500936A (ja) エコー抑止システムにおけるニアエンド音声信号の改善
EP1298815B1 (en) Echo processor generating pseudo background noise with high naturalness
KR100851716B1 (ko) 바크 대역 위너 필터링 및 변형된 도블링거 잡음 추정에기반한 잡음 억제
EP1252796B1 (en) System and method for dual microphone signal noise reduction using spectral subtraction
EP1208689B1 (en) Acoustical echo cancellation device
EP1080465B1 (en) Signal noise reduction by spectral substraction using linear convolution and causal filtering
US7454010B1 (en) Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
EP1046273B1 (en) Methods and apparatus for providing comfort noise in communications systems
JP4624503B2 (ja) 音声源を検出する装置及び方法
US6487257B1 (en) Signal noise reduction by time-domain spectral subtraction using fixed filters
US9992572B2 (en) Dereverberation system for use in a signal processing apparatus
EP2244254B1 (en) Ambient noise compensation system robust to high excitation noise
EP1080463B1 (en) Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging
AU2017405291B2 (en) Method and apparatus for processing speech signal adaptive to noise environment
EP1769492A1 (en) Comfort noise generator using modified doblinger noise estimate
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
Park et al. Integrated echo and noise canceler for hands-free applications
EP1210814B1 (en) Methods and apparatus for improving adaptive filter performance by inclusion of inaudible information
WO2000062281A1 (en) Signal noise reduction by time-domain spectral subtraction
JP2003218745A (ja) ノイズキャンセラ及び音声検出装置
Gustafsson et al. Combined residual echo and noise reduction: A novel psychoacoustically motivated algorithm
KANG et al. A new post-filtering algorithm for residual acoustic echo cancellation in hands-free mobile application
WO2000074361A1 (en) Residual echo suppression

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070807