JP2003500936A

JP2003500936A - エコー抑止システムにおけるニアエンド音声信号の改善

Info

Publication number: JP2003500936A
Application number: JP2000619908A
Authority: JP
Inventors: ニルスクリステンソン，; ヨーンフィリプソン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 1999-05-20
Filing date: 2000-05-09
Publication date: 2003-01-07
Also published as: CN1223109C; MY122658A; DE10084614T1; AU4563700A; WO2000072565A1; US6510224B1; CN1361972A

Abstract

(57)【要約】ハンドフリー環境において、オーディオ信号を受信し、評価された音響エコー信号を生成し、オーディオ信号からその評価された音響エコー信号を除去することにより処理された信号を生成することにより、改善されたニアエンド音声信号が生成される。それから、検出器スペクトラムが最大値をもつようになる連続した周波数の１つ以上の範囲をもつニアエンド改善スペクトラムが決定される。ここで、連続した周波数の範囲は処理された信号における相対的に高いエコーリターン損失に関連したものである。その処理された信号はニアエンド改善スペクトラムに従ってフィルタされ、これにより改善されたニアエンド音声信号を生成する。それから、改善されたニアエンド音声信号が、ニアエンドスピーチを処理することを意図されている任意の数の要素に印加される。例えば、音声アクティビティ検出器に印加されるとき、改善されたニアエンド音声信号に含まれているエネルギー量が測定される。ニアエンド音声アクティビティの有無は、改善されたニアエンド音声信号の測定されたエネルギーに基づいて決定される。その処理は周期的に繰り返されて動的に調整可能な動作をもたらす。

Description

【発明の詳細な説明】

【０００１】背景本発明は通信システムにおける音声信号の処理に関し、特に、ファーエンド音
声のエコーと結合したニアエンド音声を含む信号におけるニアエンド音声の改善
に関する。

【０００２】通信分野において、例えば、スピーカフォンを用いた場合や、セルラ電話にお
いて、ユーザが１つ以上の自分の手が続いて占有される必要なしに、通信機器を
操作できることがしばしば望まれている。このことは自動車の環境では重要な因
子である。その環境では、ドライバが電話機器を保持することに没頭しているな
らば、自分自身の安全だけでなく道路を共有している他の人の安全をも危険にさ
らすことになるかもしれない。マイクロフォンを保持する以外の何かにその手を
用いる自由度があれば、パーソナルコンピュータによるインターネット通信、コ
ンピュータによる音声認識、或いは、オーディオビジュアルプレゼンテーション
システムを用いるような別の応用分野においても同様に有用である。

【０００３】これらの重要なニーズに対して便宜を図るために、所謂“ハンドフリー”機器
が開発されている。その機器において、マイクロフォンとラウドスピーカとはハ
ンドフリー環境でマウントされ、これによってそれらを保持する必要を不要にし
ている。例えば、自動車に応用した場合、セルラ電話のマイクロフォンはサンバ
イザにマウントされる一方で、ラウドスピーカはダッシュボードにマウントされ
たユニットで良いし、或いはカーステレオ機器に関連したものでも良い。このよ
うにしてマウントされた構成要素を用いると、セルラ電話のユーザはセルラユニ
ットやそのハンドセットを保持しなければならなくとも会話を行なえる。同様に
、パーソナルコンピュータはしばしば、例えば、互いに相対的には近接してモニ
タ内にマイクロフォンとラウドスピーカとをマウントさせることがある。

【０００４】ハンドフリー構成の問題には、マイクロフォンが、ハンドフリー機器のユーザ
（所謂、“ニアエンドユーザ”）の声に加えて、近くのラウドスピーカからの音
をピックアップする傾向がある点がある。このことはまた、どんどん小型化して
いるハンドヘルド移動電話のようなハンドフリーではないある機器においても問
題である。（小型サイズであるために、移動電話のマイクロフォンはそのラウド
スピーカによって発せられる音から完全にはシールドできない。）そのラウドス
ピーカによって生成された音がマイクロフォンによって感知されることは、多く
の応用分野において問題の原因となる。例えば、通信機器において、全体として
通信システムによって入り込む遅延は、ラウドスピーカからの音がその呼の他端
にいる（所謂“ファーエンド”）個人には自分の声のエコーとして聞こえる原因
となる。そのようなエコーはオーディオ品質を低下させ、その軽減が望まれる。
例えば、ラウドスピーカを通してスピーチを合成し、マイクロフォンにより話さ
れた命令や検知された他の言葉を認識して応答する音声認識要素を含む自動化シ
ステムにおいて、同様の問題が存在する。そのような応用分野において、マイク
ロフォン信号における合成されたスピーチのエコーの存在は音声認識要素の性能
を著しく低下させる。このようなエコーを改善するための解決策は、適応型エコ
ーキャンセレーションフィルタやエコー減衰器の利用が含まれる。

【０００５】一般にハンドフリー機器の代表的な例として、適応型フィルタ構成の形をした
従来のエコーキャンセラをもった代表的な“ハンドフリー”移動電話が図１に描
かれている。例えば、ハンドフリー通信環境は、移動電話が設置された自動車の
インテリアであるかもしれない。そのような環境はそこでの音響的な信号伝播に
影響を及ぼす原因となるが、その影響は通常はわからない。今後、この種の環境
はこの明細書を通じて未知のシステムＨ（ｚ）として言及されるであろう。マイ
クロフォン１０５はユーザの声を検出することが意図されているが、ラウドスピ
ーカ１０９から発せられるオーディオ信号を検出するという望ましくない影響を
もつかもしれない。それが、そのシステムにエコー信号を導き入れてしまう望ま
しくない動作である。

【０００６】もし除去できないのであれば、そのエコーを減衰させる回路には、適応型有限
衝撃応答（ＦＩＲ）フィルタのような適応型フィルタ１０１、最小自乗平均（Ｌ
ＭＳ）相互相関器のようなアダプテーションユニット１０３、及び減算器１０７
を含む。その動作では、適応型フィルタ１０１は一般にはｕ＾信号として言及さ
れるエコー評価信号１０２を生成する。エコー評価信号１０２はファーエンド信
号１１２と、フィルタ１０１のひと続きのｍ個のフィルタ重み係数（ｈ_i）との
畳み込みである（式１を参照）。ここで、ｘ（ｎ）は入力信号であり、ｍは重み係数の数であり、ｎはサンプル数である。

【０００７】その重み係数が正しくセットされるとき、適応型フィルタ１０１は未知のシス
テムＨ（ｚ）内のラウドスピーカ１０９によって生成される応答におおよそ等し
い衝撃応答を生み出す。適応型フィルタ１０１によって生成されるエコー評価信
号１０２が入力されるデジタル化されたマイクロフォン信号１２６（式２におい
てｕ（ｎ）で表されている）から減算されてエラー信号ｅ（ｎ）を生み出す（式
２を参照）。理想的には、ラウドスピーカ１０９によって導入された未知のシステムＨ（ｚ
）からのどんなエコー応答も、エコー評価信号１０２の減算によってデジタル化
されたマイクロフォン信号１２６から除去される。通常、エコーを効果的にキャ
ンセルするのに必要な重み係数の数（以後、“複数の係数”として言及される）
はその適用に依存する。ハンドヘルド電話の場合、１００個より少ない数の係数
が適当であるかもしれない。自動車のハンドフリー電話の場合には、約２００〜
４００個の係数が必要である。より大きな空間では、適切なエコーキャンセレー
ションを備えるために、１０００個を越える係数を用いたフィルタを必要とする
かもしれない。

【０００８】エコーキャンセラーの効果性は、どれほどうまく適応型フィルタ１０１が未知
のシステムＨ（ｚ）の衝撃応答を複製することができるかに直接的に関係してい
ることが分かる。このことは、次に、フィルタ１０１によって維持される係数の
セットｈ_iに直接に関係する。

【０００９】動的に係数ｈ_iを変化させ、適応型フィルタ１０１が未知のシステムＨ（ｚ）
における変化に適合できるようにする機構を提供することには利点がある。ハン
ドフリーセルラ構成をもつ車では、そのような変化は、ウィンドウや車のドアを
開閉するときに発生するかもしれない。公知の係数適用方式は、最小自乗平均（
ＬＭＳ）過程であり、その過程はウィドロウ（Widrow）とホッフ（Hoff）とによ
り１９６０年に最初に導入され、その効率性と耐性のある性質のために、頻繁に
用いられている。エコーキャンセレーションの問題に適用されるとき、ＬＭＳ過
程は、g(n)＝e(n)x(n)という傾きの大雑把な（ノイズのある）評価を用いる統計
的な傾きステップの方法であり、マイクロフォン信号ｅ（ｎ）におけるエコー信
号のエネルギーを最小化する方向に向かって増分ステップをつくる。ここで、x(
n)は、x(n)＝[x(n)x(n-1)x(n-2)…x(n-m+1)]という表現に対応したベクトル表記
である。ＬＭＳ過程e(n)x(n)によって生成される更新情報が用いられて次のサン
プルにおける係数の値を決定する。次の係数の値ｈ_i（ｎ＋１）を計算するため
の式は次のように与えられる。ここで、ｘ（ｎ）はデジタル化された入力信号１３４であり、（ｈ_j）はフィルタ重み付け係数であり、ｉは特定の係数を指示し、ｍは係数の数であり、ｎはサンプル数であり、 μはステップ或いは更新利得パラメータである。

【００１０】ＬＭＳ方法は正或いは負の値をもつかもしれない増分の部分夫々における情報
を生成する。ＬＭＳ過程によって生成された情報がフィルタに提供されてそのフ
ィルタ係数を更新する。

【００１１】再び図１に戻り、従来のエコーキャンセレーション回路はフィルタ１０１に係
数更新情報１０４を提供するＬＭＳ相互相関器の形でフィルタアダプテーション
ユニット１０３を含む。この構成において、フィルタアダプテーションユニット
１０３はデジタル化されたマイクロフォン信号１２６からフィルタ１０１によっ
て生成されたエコー評価信号１０２を差し引いたものを表す修正された信号ｅ（
ｎ）を監視する。上述のように、フィルタアダプテーションユニット１０３によ
って適応型フィルタ１０１に提供された更新情報１０４を用いて、エコー評価信
号１０２が生成される。適応型フィルタ１０１の係数ｈ_iは、式３に示されてい
るように更新情報１０４を累積する。

【００１２】マイクロフォン信号から音響エコーの存在を低減するので、その結果得られる
信号は付加的な構成要素に供給されアプリケーション特有のさらなる処理を行な
う。例えば、上述のような音響エコーキャンセレーション回路に加えて、図１に
描いたようなトランシーバは通常、ニアエンド音声アクティビティ検出器１５０
を含む。それはニアエンドユーザが話しているのかどうかを示す信号１５３を出
力する。ニアエンド音声アクティビティ検出を実行するための最も一般的に用い
られているやり方は、時間領域での電力計算を用いることである。通常、音声の
アクティビティがあるかないかに関する決定は主に、（背景雑音に対応した）閾
値エネルギーレベルとバンドパスフィルタによってフィルタされた信号エネルギ
ーの測定との比較に基づいている。バンドパスフィルタリングの目的は、背景雑
音に関連した信号エネルギーを除去することである。

【００１３】ニアエンドスピーチの有無を示す信号は、数多くのユーザにいずれに対しても
有用である。１つには、汎欧州デジタル移動電話方式（ＧＳＭ）のようなセルラ
通信システムにおいて、デジタル化されたスピーチ信号は生の形でネットワーク
を介して送信されないが、その代わり、実際にある場所から別の場所へと送信さ
れる必要のあるビットの数を減少させる方法で符号化される。ＧＳＭにおいて、
スピーチコーダは通常の会話において各参加者は平均で４０％未満の時間話して
いるという事実を利用している。スピーチコーダの機能の一部として音声アクテ
ィビティ検出器を組み込むことにより、ＧＳＭシステムは不連続伝送モード（Ｄ
ＴＸ）で動作する。そのモードにおいて、ＧＳＭの送信機は沈黙の時間は（即ち
、ニアエンド音声アクティビティ検出器１５０がニアエンドユーザは話していな
いことを示すとき）アクティブな状態にはない。このやり方は加入者の電池寿命
をより長くし、瞬間的な無線の干渉を低減する。受信側での快適なノイズサブシ
ステムは背景の音響雑音を導き入れＤＴＸにより発生する悩ましい切換えミュー
トを補償する。

【００１４】ニアエンド音声アクティビティ検出器はまた、スピーチ信号がニアエンドスピ
ーチの成分を含んでいるかどうかに基づいてアクティブな音響エコーキャンセラ
ーの減衰因子を制御するために用いられても良い。

【００１５】さらにその上、ニアエンド音声アクティビティ検出器はまた、適応型フィルタ
１０１のアダプテーション速度を制御するために用いられても良い。

【００１６】音声アクティビティ検出器はニアエンドのスピーチを表す信号を処理するタイ
プだけの構成要素ではない。そのような信号は、例えば、音声認識モジュールに
も供給されても良い。音声認識モジュールは公知であり、ユーザが音声制御を介
して装置やコンピュータを制御することを可能にする応用分野や、ユーザがただ
文書を口述するだけで電子文書を創成できる応用分野において有用である。

【００１７】さらにその上、ニアエンドスピーチを表す信号がまた、システム内でフィード
バックされて、例えばアダプテーションの速度を制御するといった、エコーキャ
ンセレーションフィルタ１０１それ自身を制御するために用いられても良い。

【００１８】上述したようなエコーキャンセレーション回路があるにも係らず、さらなる処
理のために（例えば、通信システムにおけるファーエンドユーザへの送信のため
や、或いは、ニアエンドの音声認識のためや、或いは、エコーキャンセレーショ
ンフィルタ１０１の動作を制御するために）生成された信号はかなり頻繁に依然
としてエコー成分を含むかもしれない。このことは、例えば、適応型フィルタが
十分に適応された状態にまだ収束していないか、或いは、そのような収束の後で
さえも未知のシステムＨ（ｚ）が変化するときにはいつでも、それによって適応
過程が繰り返されるのを必要とするために発生するかもしれない。その信号に強
いエコー信号成分があると、これらのエコー信号成分がニアエンドのスピーチと
して誤認されるかもしれないので、信号劣化の原因となったり、或いは、ダウン
ストリーム処理要素の誤動作の原因にさえなったりする。

【００１９】従来の音声アクティビティ検出器、音声認識モジュールなどのようなニアエン
ドスピーチ信号を処理する従来の適用では通常、処理される信号にはエコーは存
在しないと仮定しており、それ故に、人間の音声によるアクティビティの周波数
範囲内にあるかもしれないエコー信号成分を除去してしまうほどにニアエンドス
ピーチに焦点を当てた能力はもちあわせていない。

【００２０】要約それ故、ニアエンドスピーチ成分がエコー信号成分に相対して強調された信号
を生成する方法と装置とを提供することが本発明の目的である。

【００２１】前述のまた他の目的は改善されたニアエンド音声信号を生成する方法と装置と
において達成される。本発明の１つの側面からすれば、改善されたニアエンド音
声信号の生成には、オーディオ信号の受信と、評価された音響エコー信号の生成
と、そのオーディオ信号から評価された音響エコー信号を除去することにより処
理された信号を生成することが含まれる。これらの工程は、例えば、ハンドフリ
ー電話機において有用である。その電話機では、ファーエンドユーザからの情報
を搬送するラウドスピーカの信号がそのハンドフリー電話機のマイクロフォンに
よって音響エコーとしてピックアップされる。次に、ニアエンドの改善スペクト
ラムが決定される。ここで、ニアエンドの改善スペクトラムは、少なくとも１つ
の連続した周波数の範囲をもち、その範囲にわたって所定の閾値よりも大きな量
をもっており、その連続した周波数の範囲は、処理された信号における相対的に
大きなエコーリターン損失に関連しているものである。その処理された信号はニ
アエンドの改善されたスペクトラムに従ってフィルタされ、これにより改善され
たニアエンド音声信号を生成する。

【００２２】本発明のもう１つの面からすれば、改善されたニアエンド音声信号に含まれる
エネルギー量が測定される。その改善されたニアエンド音声信号の測定されたエ
ネルギーに基づいて、ニアエンドで音声が発せられているかどうかが検出される
。

【００２３】本発明のさらにもう１つの面からすれば、改善されたニアエンド音声信号はニ
アエンド音声認識器に印加されて、これにより音声認識の性能の改善が得られる
ようにしても良い。

【００２４】本発明のもう１つの面からすれば、上述の過程は周期的に繰り返され、ニアエ
ンドで音声が発せられているかどうかの決定が動的に調整可能となり、変化する
条件に適応できる。

【００２５】本発明のさらにもう１つの面において、ニアエンドの改善されたスペクトラム
の決定は、重み付けされたスペクトラムの関数としてそのニアエンドの改善され
たスペクトラムを決定することが含まれ、その重み付けされたスペクトラムは、
次のように定義される。ここで、 Γは、ファーエンド信号から生じた音響エコーの評価のスペクトラムであり、Ｅは、ｃ）の工程のエコーキャンセル性能を表すエコーリターン損失改善スペ
クトラムであり、Ｎは、処理された信号のスペクトラムであり、Ｓは、エコーの経路のスペクトラム拡散特性を表すエコー拡散スペクトラムで
あり、 Γ_max＝ｍａｘ（Γ），Ｅ_max＝ｍａｘ（Ｅ），Ｓ_max＝ｍａｘ（Ｓ）であり、 α，β，及びγは定数であり、α＋β＋γ＞０である。

【００２６】本発明のさらにもう１つの面から見れば、α＋β＋γ＝１である。

【００２７】本発明のさらにもう１つの面において、重み付けされたスペクトラムの関数と
してニアエンドの改善されたスペクトラムを決定することは、次の式に従って検
出器のスペクトラムを決定することを含む。ここで、 Speech_min(i)は、Ｎが所定の閾値より大きい場合におけるｉ番目の周波数であ
り、 Speech_max(i)は、Ｎがその所定の閾値未満の場合におけるｉ番目の周波数であ
り、 Spectrum_totalmaxは、その重み付けされたスペクトラムＷ（ｆ）における注目
の最大周波数である。

【００２８】本発明の目的と利点は添付図面に関連して次の詳細な説明を読むことにより理
解される。

【００２９】詳細な説明本発明の種々の特徴を図面に関して説明する。その図面で同様の部分について
は同じ参照記号で識別される。

【００３０】本発明の１つの面からすれば、エコー信号成分に相対的にニアエンドのスピー
チ成分が強調された信号が、エコーキャンセラがよく作用して信号エネルギーが
おそらくニアエンドの音声アクティビティのためであろう周波数のバンド幅を決
定する周波数についての情報を用いて生成される。音声アクティビティにただ一
般的に関連しているより広い周波数範囲についてというよりはむしろ、エコーキ
ャンセレーションが効果的であることが知られている主にそれら選択された周波
数の電力を計算することにより、エコー成分とニアエンドスピーチとの間のより
大きな違いが得られる。この違いが大きくなると、エコーキャンセレーション動
作それ自身を制御する音声アクティビティ検出器、音声認識器、或いはフィード
バック経路のようなニアエンドスピーチを処理するために設計されたダウンスト
リームの構成要素の性能が改善される。

【００３１】改善をするためにどの周波数を選択するのかについての技術は、どんな種類の
エコーキャンセラが用いられているのかに依存する。例えば、ＬＭＳタイプのエ
コーキャンセレーションのやり方では、各周波数についてのエコーリターン損失
改善（ＥＲＬＥ）は、信号のスペクトラルパワーに依存する。図２において、実
線２０１はエコーキャンセレーション適用前のスピーチ信号（１つのセンテンス
）のパワースペクトルを図示している。比較のため、破線２０３はエコーキャン
セレーション適用後の同じスピーチ信号のパワースペクトルを図示している。エ
コーキャンセルの実行における実質的な損失は２５０Ｈz未満或いは１５００Ｈz
を越えた周波数において観測可能である。従って、２５０Ｈzから１５００Ｈzの
範囲のスピーチ信号周波数にだけその解析を限定したニアエンド音声処理ユニッ
ト（例えば、音声アクティビティ検出器や音声認識器）はニアエンドスピーチに
ついてエコー成分を誤ることはそれほどないであろう。一般に、性能改善のため
にニアエンド音声処理ユニットが動作すべき特定の周波数バンドは信号スペクト
ラルパワーとともに用いられるエコーキャンセラのタイプにも依存するであろう
。

【００３２】次のことは、ファーエンドエコー信号を除外してしまうほどにニアエンドスピ
ーチを処理することが望まれるときに改善するか或いは焦点をあわせるための周
波数バンドを選択するときに考慮すべき考察である。マイクロフォンはニアエン
ド音声信号とファーエンドエコー信号とを混合するので、ニアエンド音声信号の
本当のスペクトラムは分からないということが認識されねばならない。雑音の多
い環境下でスピーチを検出する従来の技術では、その雑音が有力な周波数を（例
えば、フィルタリングによって）除去することが含まれている。しかしながら、
ファーエンドエコーの場合、ファーエンドエコー信号に関連した周波数はそれ自
体スピーチに関連したものである。即ち、他の（例えば、ファーエンドの）スピ
ーチが存在している状況でニアエンドスピーチの検出を試みているのである。従
って、ただエコーに関連した周波数を除去すると、それはおそらくニアエンドス
ピーチに関連した信号の一部も除去することになり、それによって目的は達せら
れない。

【００３３】上述のように、ニアエンドスピーチスペクトラムの測定を行なうことは不可能
なので、ニアエンドスピーチ信号の明瞭な複製は利用可能ではない。（事実、ニ
アエンドスピーチ信号の明瞭な複製が利用可能であれば、今扱っている問題は存
在しないことになる。）しかしながら、ニアエンドスピーチによって汚染されて
いないファーエンドスピーチ信号１１２は利用可能であり、これはうまく利用で
きる。第１に、概して、エコー信号に含まれているスペクトラルエネルギーはニ
アエンドスピーチ信号のスペクトラルエネルギーに対応する（なぜなら、両方と
もスピーチ信号であるからである）。従って、ある程度まで、ファーエンドスピ
ーチ信号（或いは、この信号から生じる信号）はニアエンドスピーチを探索する
ことに焦点を合わせるための情報源として用いられる。

【００３４】エコーキャンセレーションが最も効果的である周波数の測定も行なうことがで
きる。この情報がニアエンドスピーチ処理を改善するのに都合良く用いられるの
で、これらの周波数においてニアエンドスピーチ信号がエコースピーチ成分の存
在によって隠されてしまうことはまずないであろう。

【００３５】ニアエンドスピーチについての改善されたスペクトラルの計算において用いら
れる周波数バンドの数は設計者にまかされている。計算された周波数スペクトラ
ムに存在する周波数バンドの最大数はそのスペクトラムが計算された信号サンプ
ル数の半分である。しかしながら、最大数の周波数バンドを必ずしもいつも計算
する必要はない。同じ数の信号サンプルからより少ない周波数バンドを決定する
ことによって、より意味のある数を得るかもしれない。例えば、周波数スペクト
ラムがＧＳＭセルラ通信システムにおいて伝播される信号の１６００個のサンプ
ルから生成されるものであるとしよう。ＧＳＭにおいて、これら１６００個のサ
ンプルは２００ミリ秒のスピーチを表現している。従って、最大の表現可能な周
波数は４０００Ｈz（Nyquist周波数）である。これら１６００個のサンプルは夫
々が１６０サンプルをもった１０個のグループに分割される。１０個のグループ
の夫々について２５６ポイントの高速フーリエ変換（ＦＦＴ）は１０個のスペク
トラムを生成し、それらは適当な重み平均の手法によって結合される。例えば、
指数関数的な平均化の手法が用いられるなら、これにより、新たに生成される周
波数スペクトラムに関連した周波数バンドは以前に決定された平均よりもはるか
に小さい重みをもつことになる（その結果、その平均は時間についてのスペクト
ラムの変化への応答が遅い）。スペクトラムのこのような結合の結果、一回のＦ
ＦＴが元々の１６００個のサンプルで実行されてより多くの周波数バンドを生成
しているかのように１０倍も多くの情報から各ポイント（周波数バンド）が生成
されるスペクトラムが得られる。重み付け結合の技術を用いることにより、代表
的ではないセットのサンプルから生成された１個のスペクトラムは全体的な動作
において実質的な影響を及ぼすことはないであろう。

【００３６】本発明の１実施形態において、設計者はまず、エコーキャンセラーがよく作用
することが期待される１つ以上の周波数バンドを計算し、それからこれらの周波
数バンドでのみ動作するために後に続くニアエンド音声処理に対して調整をする
であろう。

【００３７】別の実施形態では、後続のニアエンド音声処理が動作することになる周波数バ
ンドが動的に決定されても良い。これは、エコーキャンセラ性能の変化と、ファ
ーエンド信号１１２のスペクトラル品質の変化のような動的に変化する条件に対
応して変化する条件にニアエンド音声処理を調整することができる能力を備える
ものである。本発明のこの面に従うニアエンドスピーチの改善の代表的な実施形
態について、図３のブロック図を参照して説明する。

【００３８】代表的な音響エコーキャンセリング構成３０１は、適応型フィルタ１０１、フ
ィルタアダプテーションユニット１０３、ラウドスピーカ１０９、マイクロフォ
ン１０５、Ｄ／Ａ変換器１３６、Ａ／Ｄ変換器１２４、及び減算器１０７を含み
、これらは図１で描写されているものと同じ動作をする。従って、これらの構成
要素の説明はここでは繰り返さない。代表的なトランシーバで示されているもの
も、この要素はオプションではあるが、雑音抑制ユニット３０３である。これが
あると、雑音抑制ユニット３０３はそれ自身、本発明に従って生成された情報に
基づいて動的に調整される（例えば、雑音抑制ユニット３０３の動作は、減算器
１０７の出力で生成される信号e(n)においてニアエンド音声があるかないかが検
出されることの関数である）。ファーエンド信号１１２は、特定の応用分野に依
存して、任意の数のソースによって生成されるかもしれない。例えば、セルラ電
話において、ファーエンド信号１１２は受信信号からファーエンド信号１１２を
生成するスピーチデコーダ（不図示）の出力で供給される。音響エコーキャンセ
リング構成３０１の出力として、処理されたニアエンド音声信号３１３が生成さ
れ、これがニアエンド音声プロセッサ（不図示）の入力に供給されても良い。ニ
アエンド音声プロセッサの機能はアプリケーション固有のものであり、ここで詳
細に説明はしない。セルラ電話の例では、ニアエンド音声プロセッサは音声アク
ティビティ検出器（不図示）でも良く、同様に、ファーエンドユーザに伝送する
符号化信号を生成するスピーチエンコーダ（不図示）でも良い。

【００３９】本発明に従えば、音響エコーキャンセリング構成３０１はさらに、ニアエンド
改善スペクトラム生成器３０９を含む。ニアエンド改善スペクトラム生成器３０
９の出力はその性能を改善するためにニアエンド音声プロセッサの制御入力に供
給される。例えば、ニアエンド音声プロセッサが音声アクティビティ検出器であ
れば、その音声アクティビティ検出器は、ニアエンド改善スペクトラム生成器３
０９によって示されているように、処理されたニアエンド音声信号３１３の特定
のスペクトラルバンドの特性に基づいて音声アクティビティの決定を行なうこと
ができる。即ち、ニアエンド改善スペクトラム生成器３０９の出力はどんなタイ
プのフィルタリングが音声アクティビティ検出のやり方の一部として処理された
ニアエンド音声信号３１３に適用されるのかを決定する。

【００４０】類似の制御調整は、音声認識機器のような他のタイプのニアエンド音声処理機
器に対してもなされる。

【００４１】ニアエンド改善スペクトラム生成器３０９は数多くの形で実施され、そして、
その各々は本発明の範囲内にあると考えられる。そのような形式にはランダムア
クセスメモリ（ＲＡＭ）、磁気記憶媒体（例えば、磁気ディスク、ディスケット
、或いはテープ）、及び光学的記憶媒体（例えば、コンパクトディスクの読み出
し専用メモリ（ＣＤ−ＲＯＭ））のようなコンピュータが利用可能な記憶媒体上
の信号として実現されるコンピュータプログラム命令を含む。或いは、本発明は
そのような命令を実行するプログラム可能なプログラムとして構成されても良い
。ニアエンド改善スペクトラム生成器３０９は或いは、数多くの構成のハードワ
イヤードの構成要素やプログラムされたロジックアレイにおいて実現されても良
い。

【００４２】ニアエンド改善スペクトラム生成器３０９の動作を説明するために、次の用語
が定義される。

【００４３】評価されたエコースペクトラム（Γ）は適応型フィルタ１０１によって供給さ
れる評価されたエコー信号ｙ（ｎ）のスペクトラムである（即ち、デジタル化さ
れたマイクロフォン信号ｄ（ｎ）から減算される信号である）。その評価された
エコースペクトラムΓは、例えば、ＦＦＴによってデジタル化されたマイクロフ
ォン信号ｄ（ｎ）から生成されても良く、それ故に、周波数ｆの関数である。評
価されたエコースペクトラムΓは通常、ファーエンドスペクトラムのエコーの局
部的に定常的なスペクトラムを表現しているべきである。ＧＳＭセルラ電話のよ
うな応用分野において、これは２０ミリ秒のスピーチのスペクトラムであるべき
である。この場合そのスペクトラムは２０ミリ秒より速いスペクトラルの内容を
変更しないことを認識するなら、評価されたエコースペクトラムΓを計算するた
めに用いられるサンプルの数は、ニアエンド音声プロセッサ（例えば、ニアエン
ド音声アクティビティ検出器）によって用いられるサンプルの数と同じであるこ
とが好ましい。もし結合技術（例えば、重み付け平均）が評価されたエコースペ
クトラムΓのいくつかの測定に適用されるなら、その重みは新しく計算された評
価されたエコースペクトラムΓが迅速にその結合に影響を与えるようなものであ
るべきである。いくつかの好適な実施形態では、評価されたエコースペクトラム
Γに関して平均化は適用されない。なお、評価されたエコースペクトラムΓが用
いられて相対的に高いエコーリターン損失に関連した周波数を示す。

【００４４】エコーリターン損失改善（ＥＲＬＥ）スペクトラム（Ｅ）は、エコーキャンセ
リングフィルタのエコーキャンセリング性能を表現するスペクトラムである。Ｅ
ＲＬＥスペクトラムＥは周波数ｆの関数である。ＥＲＬＥスペクトラムＥのいく
つかの代替的な測定が用いられても良い。いくつかの実施形態では、ＥＲＬＥス
ペクトラムは次の式に従って決定されても良い。ここで、はフーリエ変換を表し、ｄ（ｎ）はニアエンド音声とともにエコーと雑音成分と
を含むデジタル化されたマイクロフォン信号であり、e'(n)は処理されたニアエ
ンド音声信号３１３である。

【００４５】別の実施形態では、異なるＥＲＬＥスペクトラムは次の式に従って最初に時間
領域での測定を行なうことによって決定されても良い。これから、周波数領域のスペクトラムは次の式に従って生成されても良い。ＥＲＬＥスペクトラムＥのいずれかの測定が用いられて相対的に高いエコーリタ
ーン損失に関連した周波数を示しても良い。また、これらの実施形態のいずれに
おいても、ＥＲＬＥスペクトラムＥはサンプルのグループの各々と上述したよう
に（例えば、重み付け平均によって）結合された結果得られるスペクトラムに対
して別々に決定されても良い。平均化の速度（即ち、新しく計算されたスペクト
ラムにおいてその平均化に重大な影響を与える速度）は、適応型フィルタ１０１
のアダプテーション速度とおおよそ同じであることが好ましく、その結果、ＥＲ
ＬＥスペクトラムＥは正確にエコーキャンセレーションの性能を反映するであろ
う。

【００４６】ニアエンドスペクトラム（Ｎ）は、エコーキャンセリングとオプションの雑音
抑制の後に受信された信号のスペクトラムである（即ち、それは、処理されたニ
アエンドスピーチ信号３１３のスペクトラムである）。ニアエンドスペクトラム
Ｎは周波数ｆの関数であり、そして、それは処理されたニアエンド音声信号３１
３（e'(n)）のＦＦＴとして計算されても良い。評価されたエコースペクトラム
Γを計算するのに用いられたのと同じ数のサンプルを用いて計算されるのが好ま
しい。

【００４７】エコー拡散スペクトラム（Ｓ）はエコー経路のスペクトラム拡散特性を表現し
ている。即ち、それは、どのくらい異なる周波数がラウドスピーカ１０９とマイ
クロフォン１０５との間で伝達されるのかの評価の測定である。エコー拡散スペ
クトラムＳは周波数ｆの関数であり、適用型フィルタ１０１によって実行される
フィルタリングの特性を決定する係数ｈ（ｎ）のフーリエ変換として計算されて
も良い。即ち、次の式である。早くに説明した実施形態にあるように、ＥＲＬＥスペクトラム（Ｅ）を用いて
ニアエンド音声処理が動作すべき周波数バンド（これ以降、“検出器スペクトラ
ム”として言及される）を決定することでニアエンド検出の性能が改善される。
本発明の別の面に従えば、スペクトラムＥの使用から生じる利点は、評価された
エコースペクトラム（Γ）がＥに対応しないときに性能を落とすことなく次のよ
うに検出器スペクトラムを決定することにより達成される。

【００４８】図４のフローチャートにおいて、種々のスペクトラムΓ、Ｅ、Ｓ、及びＮがま
ず上述したように決定される（ステップ４０１）。

【００４９】次に、ステップ４０３において、重み付けされたスペクトラムＷ（ｆ）は評価
されたエコースペクトラムΓ、ＥＲＬＥスペクトラムＥ、及びエコー拡散スペク
トラムＳから、次の式に従って決定される。ここで、 Γ_max＝ｍａｘ（Γ），Ｅ_max＝ｍａｘ（Ｅ），Ｓ_max＝ｍａｘ（Ｓ）であり、 α，β，及びγは定数である。

【００５０】スペクトラムΓ、Ｅ、及びＳの夫々を各最大値で割り算する目的は、重み付け
因子α，β，及びγの内の対応する１つでスケーリングしたあとに結合される正
規化されたスペクトラムを生成することであることがすぐに明らかであろう。

【００５１】好適な実施形態では、α＋β＋γは１つの値に近く（例えば、それはゼロに等
しくはないがそれに近い分数の値から約２の値までの範囲にあるかもしれない）
、しかし、このことは厳密な要求ではない。

【００５２】次に、ステップ４０５では、圧縮因子Ｃが決定される。それは、重み付けされ
たスペクトラムＷ（ｆ）が、ニアエンドスペクトラムＮがその最大エネルギー成
分をもつ１つ以上の周波数バンド内にあるパワーを含む程度を表現している。図
５において、Speech_min(1)とSpeech_max(1)との間の第１のバンドとSpeech_min(2) とSpeech_max(2)との間の第２のバンドとによって図示されているように、ニアエ
ンドスペクトラムＮがいくつかの不連続な周波数バンドをもち、その範囲にわた
って所定の閾値レベルを越えた値をもっているかもしれないために、１つ以上の
周波数バンドへの参照がなされる。圧縮因子Ｃは次の式によって与えられる。ここで、 Speech_min(i)はＮがアプリケーションに特有な所定の閾値より大きい場合におけ
るｉ番目の周波数であり、そして、それ故に設計者によってセットされ、 Speech_max(i)はＮがその所定の閾値未満の場合におけるｉ番目の周波数であり、
Spectrum_totalmaxは重み付けされたスペクトラムＷ（ｆ）における我々が注目す
る最大周波数である。即ち、関数Ｗ（ｆ）の値は、Spectrum_totalmaxより高い周
波数全てに対してゼロに等しいことが仮定されて良い。

【００５３】またなお、圧縮因子Ｃは２つの積分の比として定義されるが、実際には、対応
するスペクトラムを種々の範囲の周波数にわたって実質的にはフラットであると
して近似することによりしばしば簡単に計算されるかもしれない。このことはさ
らに、以下に呈示するいくつかの例において説明される。

【００５４】圧縮因子Ｃと重み付けされたスペクトラムＷ（ｆ）とを決定すると、検出器ス
ペクトラムはステップ４０７において次の式を計算することによって得られる。その結果得られるニアエンド改善スペクトラムは周波数ｆの関数であることが
認識されるであろう。

【００５５】ニアエンド改善スペクトラムはそれから、ニアエンド音声プロセッサ（不図示
）の制御入力に供給されても良い。例えば、ニアエンド改善スペクトラムが用い
られて、セルラ電話におけるニアエンド音声アクティビティ検出器によって実行
されるバンドパスフィルタリングを決定する。

【００５６】動的に調整可能な動作については、図４で示されているように、これらのステ
ップが周期的に繰り返され、ステップ４０１で再び始まるようになっている。例
えば、１６０個のサンプルのフレームが２０ミリ秒毎に一度生成されるシステム
において、新しいニアエンド改善スペクトラムもまた２０ミリ秒毎に一度決定さ
れても良い。

【００５７】上述した技術を説明するためにいくつかの例が呈示される。各ケースにおいて
、全ての説明されるスペクトラムはニアエンドスペクトラムＮについて以外は正
規化されている。（Ｎを正規化しない理由は処理されたニアエンド音声信号３１
３の実際のエネルギーレベルについての情報を保持するためである。）さらにそ
の上、次の例では、しばしばあることであるが、拡散スペクトラムは均一に分布
していると考えられる。さらに本発明の理解を容易にするために、Ｎはパワーが
所定の閾値レベルを超えている領域を１つだけもっているように示される。これ
によって別々に計算された積分を合計することが避けられる。

【００５８】第１の例を図６Ａ〜図６Ｅを参照して説明する。図６Ａはニアエンドスピーチ
スペクトラムＮのグラフである。ｆ＝０〜ｆ＝２５０Ｈzの間ではＮ＝０．２５
であり、ｆ＝２５０Ｈz〜ｆ＝７５０Ｈzの間ではＮ＝１．０であり、ｆ＝７５０
Ｈz〜ｆ＝１５００Ｈzの間ではＮ＝０．２５である（なお、最大値１．０が描か
れていることは単に例示的な目的のためであり、一般に、Ｎは正規化されていな
い。）。

【００５９】例について続けると、図６Ｂは正規化されたＥＲＬＥスペクトラムＥのグラフ
である。ｆ＝０〜ｆ＝７５０Ｈzの間ではＥ＝１．０であり、ｆ＝７５０Ｈz〜ｆ
＝１５００Ｈzの間ではＥ＝０．２５である。

【００６０】正規化された評価されたエコースペクトラムΓのグラフは図６Ｃに描かれてい
る。ｆ＝０〜ｆ＝７５０Ｈzの間ではΓ＝１．０であり、ｆ＝７５０Ｈz〜ｆ＝１
５００Ｈzの間ではΓ＝０．２５である。

【００６１】この例において、重み付けされたスペクトラムは次の式によって与えられる。（なぜなら、この例において、重み付け係数γ＝０であるので、エコー拡散スペ
クトラムＳが似ているように見えるものは無関係のものである。）正規化された
評価されたエコースペクトラムΓ（図６Ｃに描かれているように）と正規化され
たＥＲＬＥスペクトラムＥ（図６Ｂに描かれているように）とが与えられると、
この例については、結果として重み付けされたスペクトラムＷ（ｆ）が得られ、
それは図６Ｄに描かれている。

【００６２】次に、圧縮因子Ｃを計算する。所定の閾値が０．２５であることを仮定するな
らば、図６Ａからこの閾値を超えるたった１つの周波数バンドがあることが理解
できる。この周波数バンドは Speech_min＝２５０Ｈz； Speech_max＝７５０Ｈz； Spectrum_totalmax＝１５００Ｈzによって境界が定められる。

【００６３】それ故に、式（７）に従えば、重み付けされたスペクトラムＷ（ｆ）がいくつかの範囲各々に対して定数である
ために、その積分とそれ故にＣは計算するのが比較的に容易である。

【００６４】今や式（８）に従って、ニアエンド改善スペクトラムを計算できる。図６Ｅの
最左端のスペクトラムはこの例について結果として得られるニアエンド改善スペ
クトラムを描いている。それは、ｆ＝０〜ｆ＝７５０Ｈzの間では１．０の大き
さがあり、ｆ＝７５０Ｈz〜ｆ＝１５００Ｈzの間では０．６００...の値である
ことが分かる。

【００６５】図６Ｅはさらに、このニアエンド改善スペクトラムを音声アクティビティ検出
器のようなニアエンド音声プロセッサを制御することに適用していることを描い
ている。そのような音声アクティビティ検出器はニアエンド改善スペクトラムに
準拠するために調整されたバンドパスフィルタリング機能をもっている。その結
果、処理されたニアエンド音声信号３１３が音声アクティビティ検出器に印加さ
れるとき（図６Ｅの真中のスペクトラムを参照されたい）、結果として得られる
音声アクティビティ検出器スペクトラムは、図６Ｅの右側に示したものと似てい
るように見える。結果として得られる検出器スペクトラムはｆ＝０〜ｆ＝２５０
Ｈzの間では０．２５に等しく、ｆ＝２５０Ｈz〜ｆ＝７５０Ｈzの間では１．０
に等しく、ｆ＝７５０Ｈz〜ｆ＝１５００Ｈzの間では０．１５に等しい。その結
果、それらの周波数帯（即ち、ｆ＝０Ｈzとｆ＝７５０Ｈzとの間であり、図６Ｄ
における代表的な重み付けされたスペクトラムを参照されたい）についての動作
における変化はなく、そこではエコーキャンセレーションの動作は良好である。
しかしながら、エコーキャンセリング性能が良くないことに関係する周波数では
ニアエンド検出器の性能に小さな影響しかない。その結果、ニアエンド検出器の
性能は改善される。

【００６６】第２の例を図７Ａ〜図７Ｅを参照して説明する。図７Ａはニアエンドスピーチ
スペクトラムＮのグラフである。ｆ＝０〜ｆ＝２５０Ｈzの間ではＮ＝０．２５
であり、ｆ＝２５０Ｈz〜ｆ＝７５０Ｈzの間ではＮ＝１．０であり、ｆ＝７５０
Ｈz〜ｆ＝１５００Ｈzの間ではＮ＝０．２５である（なお、最大値１．０が描か
れていることは単に例示的な目的のためであり、一般に、Ｎは正規化されていな
い。）。

【００６７】例について続けると、図７Ｂは正規化されたＥＲＬＥスペクトラムＥのグラフ
である。ｆ＝０〜ｆ＝７５０Ｈzの間ではＥ＝１．０であり、ｆ＝７５０Ｈz〜ｆ
＝１５００Ｈzの間ではＥ＝０．２５である。

【００６８】今までは図６Ａ〜図６Ｅに関して上述された例に従っている。しかしながら、
ここで、異なる正規化された評価されたエコースペクトラムΓのグラフが図７Ｃ
に描かれている。ｆ＝０〜ｆ＝７５０Ｈzの間ではΓ＝０．２５であり、ｆ＝７
５０Ｈz〜ｆ＝１５００Ｈzの間ではΓ＝１．０である。

【００６９】この例において、重み付けされたスペクトラムは次の式によって与えられるこ
とを再び仮定する。（なぜなら、この例において、重み付け係数γ＝０であるので、エコー拡散スペ
クトラムＳが似ているように見えるものは無関係のものである。）正規化された
評価されたエコースペクトラムΓ（図７Ｃに描かれているように）と正規化され
たＥＲＬＥスペクトラムＥ（図７Ｂに描かれているように）とが与えられると、
この例に関して、結果として重み付けされたスペクトラムＷ（ｆ）が得られ、そ
れは図７Ｄに描かれている。ｆ＝０からｆ＝１５００までの全範囲を通じてそれ
は定数（＝０．６２５）であることに気づかれたい。

【００７０】次に、圧縮因子Ｃを計算する。図７Ａから、 Speech_min＝２５０Ｈz； Speech_max＝７５０Ｈz； Spectrum_totalmax＝１５００Ｈzであることが分かる。

【００７１】それ故に、式（７）に従えば、重み付けされたスペクトラムＷ（ｆ）がｆ＝０からｆ＝１５００Ｈzの間の全範
囲に対して定数であるために、その積分とそれ故にＣは再び計算するのが比較的
に容易である。

【００７２】今や式（８）に従って、ニアエンド改善スペクトラムを計算できる。図７Ｅの
最左端のスペクトラムはこの例について結果として得られるニアエンド改善スペ
クトラムを描いている。それは、ｆ＝０からｆ＝１５００Ｈzの間の全範囲にわ
たって０．８７５の大きさがあることが分かる。

【００７３】図７Ｅはさらに、このニアエンド改善スペクトラムを音声アクティビティ検出
器のようなニアエンド音声プロセッサを制御することに適用していることを描い
ている。そのような音声アクティビティ検出器はニアエンド改善スペクトラムに
準拠するために調整されたバンドパスフィルタリング機能をもっている。その結
果、処理されたニアエンド音声信号３１３が音声アクティビティ検出器に印加さ
れるとき（図７Ｅの真中のスペクトラムを参照されたい）、結果として得られる
音声アクティビティ検出器スペクトラムは、図７Ｅの右側に示したものと似てい
るように見える。結果として得られる検出器スペクトラムはｆ＝０〜ｆ＝２５０
Ｈzの範囲では０．２１８７５に等しく、ｆ＝２５０Ｈz〜ｆ＝７５０Ｈzの範囲
では０．８７５に等しく、ｆ＝７５０Ｈz〜ｆ＝１５００Ｈzの範囲では再び０．
２１８７５に等しい。ＥＲＬＥスペクトラムＥと評価されたエコースペクトラム
Γとの間において相関がないか小さい場合については、検出器スペクトラム全体
が減衰されることが分かる。にも係らず、ニアエンド検出器は依然としてニアエ
ンドスペクトラムＮがその最大成分をもつ周波数に対して最も良好に応答する。

【００７４】本発明は特定の実施形態に関して説明された。しかしながら、前述した好適な
実施形態以外の特定の形態で本発明を実施できることは当業者には容易に明らか
であろう。このことは本発明の精神を逸脱することなくなされるものである。

【００７５】例えば、図示されたスペクトラムは本発明の検討を容易にするために理想化さ
れている。しかしながら、実際には、これらのスペクトラムのいずれか或いは全
ては図６Ａ〜図６Ｅ及び図７Ａ〜図７Ｅに描かれた代表的なステップの関数に合
致しないかもしれない。むしろ、これらのスペクトラムのいくつか或いは全ては
より複雑な数学的な関数によって記述されるかもしれない。その違いにもかかわ
らず、結果として得られる検出器スペクトラムが連続的な周波数の範囲によって
特徴付けられ、その周波数範囲にわたってその検出器スペクトラムは最大値をも
ち、連続する周波数の範囲は処理された信号における相対的に高いエコーリター
ン損失に関連したものであることが期待される。

【００７６】従って、好適な実施形態はただ例示的なものであり、どのようにも限定的に考
えられるべきではない。本発明の範囲は前述の説明によるよりはむしろ、添付さ
れた請求の範囲によって与えられるべきであり、その請求の範囲の中にある全て
の変形例や同等物はその請求の範囲に含まれることが意図されている。

【図面の簡単な説明】

【図１】音響エコーキャンセラとニアエンド音声アクティビティ検出器とを含む従来の
ハンドフリートランシーバのブロック図である。

【図２】エコーキャンセレーション適用前後における音声信号のパワースペクトル（１
センテンス）の比較図である。

【図３】本発明の代表的な実施形態のブロック図である。

【図４】本発明に従って実行される工程を描いたフローチャートである。

【図５】振幅が所定の閾値レベルを超えたいくつかの不連続な周波数バンドの場合を図
示した代表的なニアエンドスペクトラムＮである。

【図６Ａ】代表的な正規化されたニアエンド音声スペクトラムＮのグラフである。

【図６Ｂ】代表的な正規化されたＥＲＬＥスペクトラムＥのグラフである。

【図６Ｃ】代表的な正規化されたラウドスピーカスペクトラムΓのグラフである。

【図６Ｄ】本発明の１つの側面に従う代表的な重み付けスペクトラムのグラフである。

【図６Ｅ】本発明の１つの側面に従う代表的な圧縮因子Ｃの決定を描いたグラフである。

【図７Ａ】もう１つの代表的な正規化されたニアエンド音声スペクトラムＮのグラフであ
る。

【図７Ｂ】もう１つの代表的な正規化されたＥＲＬＥスペクトラムＥのグラフである。

【図７Ｃ】もう１つの代表的な正規化されたラウドスピーカスペクトラムΓのグラフであ
る。

【図７Ｄ】本発明の１つの側面に従うもう１つの代表的な重み付けスペクトラムのグラフ
である。

【図７Ｅ】本発明の１つの側面に従うもう１つの代表的な圧縮因子Ｃの決定を描いたグラ
フである。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１３年７月２６日（２００１．７．２６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正の内容】

【００１９】従来の音声アクティビティ検出器、音声認識モジュールなどのようなニアエン
ドスピーチ信号を処理する従来の適用では通常、処理される信号にはエコーは存
在しないと仮定しており、それ故に、人間の音声によるアクティビティの周波数
範囲内にあるかもしれないエコー信号成分を除去してしまうほどにニアエンドス
ピーチに焦点を当てた能力はもちあわせていない。欧州特許出願第０８５４６２６号公報は、受信された未処理のニアエンド信号
を周波数領域における評価されたエコー信号とを比較することを含むエコーキャ
ンセレーション技術を開示している。この比較からの情報は、それから、その比
較からの情報に基づいて改善されたニアエンド音声信号を生成するフィルタに供
給される。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｍ 1/60 Ｇ１０Ｌ 3/02 ３０１Ｃ 9/08 (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷＦターム(参考） 5D015 EE04 KK00 5D020 CC05 5K027 DD07 DD10 5K038 AA07 CC01 FF13 5K046 HH01 HH18 HH24 HH78 HH79 【要約の続き】されて動的に調整可能な動作をもたらす。

Claims

【特許請求の範囲】

【請求項１】改善されたニアエンド音声信号を生成する方法であって、ａ）オーディオ信号を受信する工程と、ｂ）評価された音響エコー信号を生成する工程と、ｃ）前記オーディオ信号から前記評価された音響エコー信号を除去することに
より処理された信号を生成する工程と、ｄ）連続した周波数の範囲をもち、該連続した周波数の範囲は前記処理された
信号における相対的に大きなエコーリターン損失に関連しており、前記範囲にわ
たって所定の閾値よりも大きな量をもつニアエンドの改善されたスペクトラムを
決定する工程と、ｅ）前記ニアエンドの改善されたスペクトラムに従って前記処理された信号を
フィルタし、これにより前記改善されたニアエンド音声信号を生成する工程とを
有することを特徴とする方法。
【請求項２】ｆ）前記改善されたニアエンド音声信号にエネルギーがどれほ
ど含まれるのかを測定する工程と、ｇ）前記改善されたニアエンド音声信号の測定されたエネルギーに基づいて、
ニアエンドで音声が発せられているかどうかを検出する工程とをさらに有するこ
とを特徴とする請求項１に記載の方法。
【請求項３】ｆ）前記改善されたニアエンド音声信号に含まれるニアエンド
のスピーチを認識する工程をさらに有することを特徴とする請求項１に記載の方
法。
【請求項４】前記ａ）からｅ）の工程は周期的に繰り返されることを特徴と
する請求項１に記載の方法。
【請求項５】前記ニアエンドの改善されたスペクトラムを決定する工程は、
重み付けされたスペクトラムの関数として前記ニアエンドの改善されたスペクト
ラムを決定することを含み、前記重み付けされたスペクトラムは、として定義され、 Γは、ファーエンド信号から生じた音響エコーの評価のスペクトラムであり、Ｅは、前記ｃ）の工程のエコーキャンセリング性能を表すエコーリターン損失
改善スペクトラムであり、Ｎは、前記処理された信号のスペクトラムであり、Ｓは、前記エコーの経路のスペクトラム拡散特性を表すエコー拡散スペクトラ
ムであり、 Γ_max＝ｍａｘ（Γ），Ｅ_max＝ｍａｘ（Ｅ），Ｓ_max＝ｍａｘ（Ｓ）であり、 α，β，及びγは定数であり、α＋β＋γ＞０であることを特徴とする請求項
１に記載の方法。
【請求項６】 α＋β＋γ＝１であることを特徴とする請求項５に記載の方法
。
【請求項７】前記重み付けされたスペクトラムの関数として前記ニアエンド
の改善されたスペクトラムを決定する工程は、に従って前記ニアエンドの改善されたスペクトラムを決定することを含み、 Speech_min(i)は、Ｎが所定の閾値より大きい場合におけるｉ番目の周波数であ
り、 Speech_max(i)は、Ｎが前記所定の閾値未満の場合におけるｉ番目の周波数であ
り、 Spectrum_totalmaxは、前記重み付けされたスペクトラムＷ（ｆ）における注目
の最大周波数であることを特徴とする請求項５に記載の方法。
【請求項８】改善されたニアエンド音声信号生成器であって、ａ）オーディオ信号を受信する手段と、ｂ）評価された音響エコー信号を生成する手段と、ｃ）前記オーディオ信号から前記評価された音響エコー信号を除去することに
より処理された信号を生成する手段と、ｄ）連続した周波数の範囲をもち、該連続した周波数の範囲は前記処理された
信号における相対的に大きなエコーリターン損失に関連しており、前記範囲にわ
たって所定の閾値よりも大きな量をもつニアエンドの改善されたスペクトラムを
決定する手段と、ｅ）前記ニアエンドの改善されたスペクトラムに従って前記処理された信号を
フィルタし、これにより前記改善されたニアエンド音声信号を生成するフィルタ
とを有することを特徴とする改善されたニアエンド音声信号生成器。
【請求項９】ｆ）前記改善されたニアエンド音声信号にエネルギーがどれほ
ど含まれるのかを測定する手段と、ｇ）前記改善されたニアエンド音声信号の測定されたエネルギーに基づいて、
ニアエンドで音声が発せられているかどうかを検出する手段とをさらに有するこ
とを特徴とする請求項８に記載の改善されたニアエンド音声信号生成器。
【請求項１０】ｆ）前記改善されたニアエンド音声信号を受信するために結
合された音声認識器をさらに有することを特徴とする請求項８に記載の改善され
たニアエンド音声信号生成器。
【請求項１１】前記ａ）からｅ）の構成要素は周期的に繰り返して動作する
ことを特徴とする請求項８に記載の改善されたニアエンド音声信号生成器。
【請求項１２】前記ニアエンドの改善されたスペクトラムを決定する手段は
、重み付けされたスペクトラムの関数として前記ニアエンドの改善されたスペク
トラムを決定する手段を含み、前記重み付けされたスペクトラムは、として定義され、 Γは、ファーエンド信号から生じた音響エコーの評価のスペクトラムであり、Ｅは、前記処理された信号を生成する手段のエコーキャンセリング性能を表す
エコーリターン損失改善スペクトラムであり、Ｎは、前記処理された信号のスペクトラムであり、Ｓは、前記エコーの経路のスペクトラム拡散特性を表すエコー拡散スペクトラ
ムであり、 Γ_max＝ｍａｘ（Γ），Ｅ_max＝ｍａｘ（Ｅ），Ｓ_max＝ｍａｘ（Ｓ）であり、 α，β，及びγは定数であり、α＋β＋γ＞０であることを特徴とする請求項
８に記載の改善されたニアエンド音声信号生成器。
【請求項１３】 α＋β＋γ＝１であることを特徴とする請求項１２に記載の
改善されたニアエンド音声信号生成器。
【請求項１４】前記重み付けされたスペクトラムの関数として前記ニアエン
ドの改善されたスペクトラムを決定する手段は、に従って前記ニアエンドの改善されたスペクトラムを決定する手段を含み、 Speech_min(i)は、Ｎが所定の閾値より大きい場合におけるｉ番目の周波数であ
り、 Speech_max(i)は、Ｎが前記所定の閾値未満の場合におけるｉ番目の周波数であ
り、 Spectrum_totalmaxは、前記重み付けされたスペクトラムＷ（ｆ）における注目
の最大周波数であることを特徴とする請求項１２に記載の改善されたニアエンド
音声信号生成器。