JP2011508533A - マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置 - Google Patents

マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置 Download PDF

Info

Publication number
JP2011508533A
JP2011508533A JP2010539833A JP2010539833A JP2011508533A JP 2011508533 A JP2011508533 A JP 2011508533A JP 2010539833 A JP2010539833 A JP 2010539833A JP 2010539833 A JP2010539833 A JP 2010539833A JP 2011508533 A JP2011508533 A JP 2011508533A
Authority
JP
Japan
Prior art keywords
signal
spatial processing
processor
filter
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010539833A
Other languages
English (en)
Other versions
JP5479364B2 (ja
JP2011508533A5 (ja
Inventor
チャン、クワク−ルン
トマン、ジェレミー
ビッサー、エリック
パーク、ヒュン・ジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2011508533A publication Critical patent/JP2011508533A/ja
Publication of JP2011508533A5 publication Critical patent/JP2011508533A5/ja
Application granted granted Critical
Publication of JP5479364B2 publication Critical patent/JP5479364B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

複数の空間分離フィルタの中の選択された1つによって生成される信号を出力することを含む、Mチャネル入力信号を処理するためのシステム、方法、および装置について説明する。ノイズの多い環境から音響信号を分離することへの適用例について説明し、マルチマイクロホンハンドヘルドデバイスに実装できる構成についても説明する。

Description

関連出願
米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明白に組み込まれる、2007年12月19日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第61/015,084号、2007年12月26日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第61/016,792号、2008年6月30日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第61/077,147号、2008年7月9日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する仮出願第61/079,359号の優先権を主張する。
本開示は、スピーチ処理に関する。
情報信号は、ノイズの避けられない環境で捕捉され得る。したがって、所望の情報ソースからの信号と1つまたは複数の干渉ソースからの信号とを含むいくつかのソース信号の重ね合わせおよび線形結合の中から情報信号を区別することが望ましい。そのような問題は、ボイス通信(たとえば、電話)のための様々な音響アプリケーションにおいて発生する可能性がある。
そのような混合から信号を分離する1つの手法は、混合環境の逆を近似する逆混合行列を作成することである。しかしながら、現実的な捕捉環境は、しばしば、時間遅延、マルチパス、反射、位相差、エコー、および/または残響などの影響を含む。そのような影響は、旧来の線形モデリング方法で問題を引き起こす可能性があり、周波数依存の可能性もあるソース信号の畳み込み混合を生成する。そのような混合から1つまたは複数の所望の信号を分離するための信号処理方法を開発することが望ましい。
人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキットまたは他の通信デバイスによって提供される。人が話すと、通信デバイスのマクロホンがその人のボイスの音声を受信し、それを電子信号に変換する。マイクロホンはまた、様々なノイズソースからも音声信号を受信する可能性があり、したがって、電子信号はノイズ成分をも含む可能性がある。マイクロホンは人の口からある距離に位置し、環境は多数の制御不能なノイズソースを有する可能性があるので、ノイズ成分は信号の大きな成分となることがある。そのような大きなノイズは、不満足な通信経験および/または通信デバイスの非効率的な動作を引き起こす可能性がある。
音響環境はしばしばノイズが多いので、所望の情報信号を確実に検出し、これに反応することが困難になる。1つの特定の例では、ノイズの多い環境でスピーチ信号を生成し、スピーチ処理方法を使用して環境ノイズからスピーチ信号を分離する。ノイズは現実の状態ではほとんど常に存在するので、そのようなスピーチ信号処理は日常的な通信の多くの領域で重要である。ノイズは、当該のスピーチ信号を妨害するかまたは劣化させるすべての信号の組合せと定義できる。現実の世界は、単一点ノイズソースを含む複数のノイズソースにあふれており、これらは、しばしば複数の音声に入って残響を生じる。所望のスピーチ信号がバックグラウンドノイズから分離され、隔離されない限り、それを確実に効率的に利用することが困難になる可能性がある。バックグラウンドノイズは、一般的な環境によって生成される多数のノイズ信号、他の人々のバックグラウンドの会話によって生成される信号、ならびにそれらの信号の各々から生成される反射および残響を含む。通信がノイズの多い環境で行われる適用例では、所望のスピーチ信号をバックグラウンドノイズから分離することが望ましい。
バックグラウンドノイズ信号から所望の音声信号を分離するための既存の方法は、単純なフィルタ処理プロセスを含む。そのような方法は、音声信号のリアルタイム処理のためには十分に単純で高速である場合があるが、様々な音声環境に容易には適応できず、所望のスピーチ信号の大幅な劣化をもたらす可能性がある。たとえば、このプロセスは、所望のスピーチ信号の部分がノイズと分類され、除去されるように、過度に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。代替的に、このプロセスは、音楽または会話などのバックグラウンドノイズの部分が所望の信号と分類され、フィルタ処理済み出力スピーチ信号中に残されるように、不十分に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。
PDAおよび携帯電話のようなハンドセットが選り抜きのモバイル音声通信デバイスとして急速に台頭しており、セルラーネットワークおよびインターネットへのモバイルアクセスのためのプラットフォームとして役立っている。以前は静かなオフィスまたは家庭環境のデスクトップコンピュータ、ラップトップコンピュータ、およびオフィス電話で実行されていた、ますます多くの機能が、車、道路、またはカフェのような日常的な状況で実行されている。この傾向は、ユーザが他の人々に囲まれる環境で、一般に人が集まる傾向のある場所で遭遇する種類のノイズ成分を伴って、かなりの量のボイス通信が行われていることを意味する。(たとえば、競合する話し手、音楽、バブル、空港のノイズを含む)この種のノイズの特性は、一般に非定常であり、ユーザ自身の周波数特性に近く、したがって、旧来の単一マイクロホンまたは固定ビームフォーミングタイプの方法を使用してそのようなノイズをモデル化することが難しい場合がある。そのようなノイズはまた、電話で会話しているユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(たとえば、口座残高または株価の確認)はボイス音声認識ベースのデータ照会を使用しており、これらのシステムの精度は干渉ノイズによって著しく妨げられる可能性がある。したがって、たとえば、ノイズの多い環境でのハンドセットの使用をサポートするために、複数マイクロホンベースの高度な信号処理が望ましい。
一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法は、入力信号に第1の空間処理フィルタを適用することと、入力信号に第2の空間処理フィルタを適用することとを含む。ただし、Mは1よりも大きい整数である。本方法は、1回目に、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記1回目に判断することに応答して、出力信号として第1の空間処理済み信号に基づく信号を生成することとを含む。本方法は、1回目に続いて2回目に、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記2回目に判断することに応答して、出力信号として第2の空間処理済み信号に基づく信号を生成することとを含む。本方法では、第1および第2の空間処理済み信号は、入力信号に基づく。
そのような方法の例についても説明する。1つのそのような例では、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法は、第1の空間フィルタ処理済み出力信号を生成するために入力信号に第1の空間処理フィルタを適用することと、第2の空間フィルタ処理済み出力信号を生成するために入力信号に第2の空間処理フィルタを適用することとを含む。ただし、Mは1よりも大きい整数である。本方法は、1回目に、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記1回目に判断することに応答して、出力信号として第1の空間処理済み信号を生成することとを含む。本方法は、1回目に続いて2回目に、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記2回目に判断することに応答して、出力信号として第2の空間処理済み信号を生成することとを含む。
別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置は、入力信号に対して第1の空間処理演算を実行するための手段と、入力信号に対して第2の空間処理演算を実行するための手段とを含む。ただし、Mは1よりも大きい整数である。本装置は、1回目に、第1の空間処理演算を実行するための手段が第2の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、1回目に判断するための前記手段からの指示に応答して、出力信号として第1の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置は、1回目に続いて2回目に、第2の空間処理演算を実行するための手段が第1の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、2回目に判断するための前記手段からの指示に応答して、出力信号として第2の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置では、第1および第2の空間処理済み信号は、入力信号に基づく。
別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置は、入力信号をフィルタ処理するように構成された第1の空間処理フィルタと、入力信号をフィルタ処理するように構成された第2の空間処理フィルタとを含む。ただし、Mは1よりも大きい整数である。本装置は、1回目に、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器を含む。本装置は、1回目の指示に応答して、出力信号として第1の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールを含む。本装置では、状態推定器は、1回目に続いて2回目に、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成され、遷移制御モジュールは、2回目の指示に応答して、出力信号として第2の空間処理済み信号に基づく信号を生成するように構成される。本装置では、第1および第2の空間処理済み信号は、入力信号に基づく。
別の一般的な構成によれば、プロセッサによって実行されると、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法をプロセッサに実行させる命令を備えるコンピュータ可読媒体は、プロセッサによって実行されると、入力信号に対して第1の空間処理演算をプロセッサに実行させる命令と、プロセッサによって実行されると、入力信号に対して第2の空間処理演算をプロセッサに実行させる命令とを含む。ただし、Mは1よりも大きい整数である。本媒体は、プロセッサによって実行されると、1回目に、第1の空間処理演算が第2の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、1回目の前記指示に応答して、出力信号として第1の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。本媒体は、プロセッサによって実行されると、1回目に続いて2回目に、第2の空間処理演算が第1の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、2回目の前記指示に応答して、出力信号として第1の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。この例では、第1および第2の空間処理済み信号は、入力信号に基づく。
装置A100の実装形態を含むハンドセットH100の動作構成を示す図。 ハンドセットH100の別の動作構成を示す図。 ハンドセットH100の可能な配向の範囲を示す図。 図1Aに示すハンドセットH100の動作構成のための動作配向を示す図。 図1Aに示すハンドセットH100の動作構成のための動作配向を示す図。 図1Bに示すハンドセットH100の動作構成のための動作配向を示す図。 図1Bに示すハンドセットH100の動作構成のための動作配向を示す図。 ハンドセットH100の3つの異なる配向状態に対応するエリアを示す図。 ハンドセットH100の発生源エリアの追加の例を示す図。 ハンドセットH100の発生源エリアの追加の例を示す図。 ハンドセットH100の発生源エリアの追加の例を示す図。 ハンドセットH100の実装形態H110を示す図。 ハンドセットH110の2つの追加の図。 一般的構成による装置A200のブロック図。 ヘッドセット63の2つの異なる配向状態を示す図。 装置A200の2チャネルの実装形態A210のブロック図。 フィルタバンク120の2チャネルの実装形態130を含む装置A210の実装形態A220を示すブロック図。 スイッチング機構350の実装形態352のブロック図。 スイッチング機構352および360の実装形態362のブロック図。 状態推定器400の実装形態402を示す図。 状態推定器400の実装形態404を示す図。 状態推定器400の実装形態406を示す図。 状態推定器400の実装形態408を示す図。 装置A220の実装形態222のブロック図。 状態推定器412の実装形態414の一例を示す図。 装置A210の実装形態A214のブロック図。 装置A222の実装形態A224のブロック図。 装置A210の実装形態A216のブロック図。 遷移制御モジュール500の実装520のブロック図。 遷移制御モジュール500の実装550のブロック図。 ミキサ70a〜70mのj番目の1つの実装72jのブロック図。 ミキサバンク700の2チャネルの実装710のブロック図。 装置A210の実装形態A218のブロック図。 装置A220の実装形態A228のブロック図。 装置A228の実装形態A229のブロック図。 装置A210の実装形態A210Aのブロック図。 装置A220の実装形態A224Aのブロック図。 装置A220の実装形態A232のブロック図。 装置A220の実装形態A234のブロック図。 装置A220の実装形態A236のブロック図。 推定状態S50へのインジケータ関数値のマッピングを示す図。 推定状態S50へのインジケータ関数値の異なるマッピングを示す図。 装置A200の実装形態A310のブロック図。 装置A200の実装形態A320のブロック図。 装置A200の実装形態A330のブロック図。 減衰方式の一例を示す図。 装置A210の実装形態A210Bのブロック図。 エコーキャンセラEC10の実装形態EC12のブロック図。 エコーキャンセラEC20の実装形態EC22のブロック図。 設計および使用手順のフローチャート。 方法M10のフローチャート。 トレーニングデータを記録するように構成された音響無響室の例を示す図。 ハンズフリーカーキット83の一例を示す図。 図37に示すカーキットの適用の一例を示す図。 マイクロホンの線形アレイを有する書込み機器(たとえば、ペン)またはスタイラス79の一例を示す図。 設計段階で2点ソースノイズフィールドに置かれたハンドセットを示す図。 1対のフィードバックフィルタC110およびC120を含む適応フィルタ構造FS10のブロック図。 直接フィルタD110およびD120を含むフィルタ構造FS10の実装形態FS20のブロック図。 一般的構成による装置A100のブロック図。 装置A100の実装形態A110のブロック図。 装置A100の実装形態A120のブロック図。 方法M100のフローチャート。 装置F100のブロック図。 装置A100またはA200の実装形態を含む通信デバイスC100のブロック図。
本開示は、ノイズの多い環境から音響信号を分離するためのシステム、方法、および装置に関する。そのような構成は、音響信号の混合から音響信号を分離することを含むことができる。分離動作は、固定のフィルタ処理ステージ(すなわち、固定の係数値で構成されたフィルタを有する処理ステージ)を使用して、音響信号の入力混合から所望の成分を隔離することによって実行できる。マルチマイクロホンハンドヘルド通信デバイスに実装できる構成についても説明する。そのような構成は、通信デバイスが遭遇する、干渉ソース、音響エコー、および/または空間分布バックグラウンドノイズを備える可能性があるノイズ環境に対処するのに好適である場合がある。
本開示は、1つまたは複数のブラインドソース分離(BSS)、ビームフォーミング、および/またはBSS/ビームフォーミングの方法の組合せを使用して、通信デバイスのマイクロホンアレイを使用して記録されるトレーニングデータを処理することによって、フィルタ係数値の1つのセット(またはフィルタ係数値の複数のセット)を生成するためのシステム、方法、および装置についても説明する。トレーニングデータは、アレイに対する様々なユーザおよびノイズソースの位置、ならびに(たとえば、通信デバイスの1つまたは複数のスピーカからの)音響エコーに基づくことができる。次いで、上述のように分離すべき音響信号の入力混合を得るために、このマイクロホンアレイまたは同じ構成を有する別のマイクロホンアレイを使用することができる。
本開示は、生成されたフィルタ係数値の1つまたは複数のセットが固定のフィルタ処理ステージ(または「フィルタバンク」)に提供されるシステム、方法、および装置についても説明する。そのような構成は、固定のフィルタ処理ステージで生成されたフィルタ係数値のセットの中(および場合によっては後続の処理ステージのための他のパラメータセットの中)から、ユーザに対する通信デバイスの現在特定されている配向に基づいて選択するスイッチング動作を含むことができる。
本開示は、別の分離された信号を生成するために、上述のように固定のフィルタ処理ステージの出力に基づいて空間処理された(または「分離された」)信号が、適応(または部分適応)BSS、ビームフォーミング、またはBSS/ビームフォーミングを組み合わせたフィルタ処理ステージを使用してフィルタ処理されるシステム、方法、および装置についても説明する。これらの分離された信号の各々は、出力チャネルの少なくとも1つが分布バックグラウンドノイズと所望の信号とを含み、他の出力チャネルの少なくとも1つが干渉ソース信号と分布バックグラウンドノイズとを含むように、2つ以上の出力チャネルを含むことができる。本開示は、所望の信号を搬送している出力チャネル中のノイズを、別の出力チャネルによって提供されるノイズ基準に基づいて低減する、後処理ステージ(たとえば、ノイズ低減フィルタ)を含むシステム、方法および装置についても説明する。
本開示は、スイッチング動作による1つまたは複数の分離またはノイズ低減段のための、パラメータのチューニング、初期条件およびフィルタセットの選択、エコー除去、および/または固定のフィルタ係数値のセット間の遷移処理を含むために実装できる構成についても説明する。システムパラメータのチューニングは、全体的なノイズ低減およびエコー消去パフォーマンスを最適化するために、ベースバンドチップまたはチップセットの性質および設定、および/またはネットワーク効果に依存することができる。
文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも表すのに使用される。文脈によって特に制限されない限り、「計算」という用語は、本明細書で、値のセットから計算すること、評価すること、および/または選択することなど、その通常の意味のすべてを示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも表すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(ii)「と等しい」(たとえば、「AはBと等しい」)というケースを含む、その通常の意味のすべてを意味するのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のすべてを意味するのに使用される。
別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定のコンテキストによって示されるように、方法、装置、またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、また特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。
2つ以上のマイクロホンを有する携帯ボイス通信用のデバイスを製造することが望ましい。複数のマイクロホンによって捕捉された信号を使用して、空間処理演算をサポートすることができ、その空間処理演算を使用して、より大きいノイズ除去などの知覚品質の向上を可能にすることができる。そのようなデバイスの例は、電話機ハンドセット(たとえば、携帯電話機ハンドセット)および有線またはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)を含む。
図1Aに、第1の動作構成における2マイクロホンハンドセットH100(たとえば、クラムシェルタイプセルラー電話ハンドセット)を示す。ハンドセットH100は第1のマイクロホンMC10と第2のマイクロホンMC20とを含む。この例では、ハンドセットH100はまた第1のスピーカSP10と第2のスピーカSP20とを含む。
ハンドセットH100が第1の動作構成にあるとき、第1のスピーカSP10はアクティブであり、第2のスピーカSP20は使用不能にされるか、さもなければ無音にされる。この構成では、スピーチ強調および/またはノイズ低減のための空間処理技法をサポートするために、第1のマイクロホンMC10と第2のマイクロホンMC20の両方がアクティブのままであることが望ましい。図2に、この動作構成の可能な配向の範囲内にある2つを示す。配向のこの範囲内で、第1のスピーカSP10がユーザの耳に近く、第1のマイクロホンMC10がユーザの口に近くなるように、ハンドセットH100はユーザの頭部に保持される。図2に示すように、第1のマイクロホンMC10とユーザ口との間の距離は変化する。図2はまた、指向性および/または拡散性の遠端信号およびノイズに応答して第1のスピーカSP10によって生成される、エコーなどの生じうる干渉音声信号を示す。図3Aおよび図3Bに、(たとえば、スピーカホンまたはプッシュツートークモードにおける)ユーザがハンドセットH100のこの動作構成を使用することができる2つの他の可能な配向を示す。ハンドセットH100のそのような動作構成においてスピーカホンまたはプッシュツートークモードがアクティブであるとき、第2のスピーカSP20はアクティブであり、場合によっては第1のスピーカSP10は使用不能にされるか、さもなければ無音にされることが望ましい。
図1Bに、ハンドセットH100の第2の動作構成を示す。この構成では、第1のマイクロホンMC10はふさがれ、第2のスピーカSP20はアクティブであり、第1のスピーカSP10は使用不能にされるか、さもなければ無音にされる。この場合も、この構成では、(空間処理技法をサポートするために)第1のマイクロホンMC10と第2のマイクロホンMC20の両方がアクティブであることが望ましい。図4Aおよび図4Bに、ユーザがハンドセットH100のこの動作構成を使用することができる2つの異なる可能な動作配向を示す。ハンドセットH100は、その(1つまたは複数の)状態がデバイスの現在の動作構成を示す1つまたは複数のスイッチを含むことができる。
上記の図に示すように、セルラー電話ハンドセットは、デバイスのマイクロホンとユーザの口との間の異なる空間関係にそれぞれ関連する様々な異なる可能な位置での使用をサポートすることができる。たとえば、ハンドセットH100は、図2に示す従来の電話動作モードよりも広い範囲の位置変化を必要とすることが予想される、全二重スピーカホンモードおよび/または半二重プッシュツートーク(PTT)モードなどの機能をサポートすることが望ましい。これらの位置変化に応答して空間処理フィルタを適合させるという問題は、複雑すぎて、フィルタ収束をリアルタイムで得ることができないことがある。さらに、時間がたつにつれていくつかの異なる方向から到着するスピーチ信号とノイズ信号とを適切に分離するという問題は、複雑すぎて、単一の空間処理フィルタが解決することができないことがある。そのようなハンドセットは、2つ以上の空間処理フィルタを有するフィルタバンクを含むことが望ましい。そのような場合、ハンドセットは、所望の音源(たとえば、ユーザの口)に対するデバイスの現在の配向に従ってこのバンクから空間処理フィルタを選択することが望ましい。
図5に、所望の音源(たとえば、ユーザの口)に対するハンドセットH100の3つの異なる配向状態に対応するエリアを示す。所望のサウンド(たとえば、ユーザの声)がエリアA1の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアA1に対して指向性であり、他の方向から来るサウンドを減衰させる傾向があるフィルタを使用することが望ましい。同様に、所望のサウンド(たとえば、ユーザの声)がエリアA2の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアA2に対して指向性であり、他の方向から来るサウンドを減衰させる傾向がある異なるフィルタを使用することが望ましい。同様に、所望のサウンド(たとえば、ユーザの声)がエリアA3の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、最初の2つのフィルタのいずれをも使用しないことが望ましい。たとえば、そのような場合、ハンドセットは第3のフィルタを使用することが望ましい。代替的に、そのような場合、ただ1つのマイクロホン(たとえば、第1のマイクロホンMC10)がアクティブになるように、または現在アクティブなマイクロホンがシングルチャネルにミックスダウンされるように、ハンドセットは、シングルチャネルモードに入るか、場合によっては空間処理演算を中断することが望ましい。
図5に示すエリア境界は、視覚的な説明のためのものにすぎず、様々な配向状態に関連するエリア間の実際の境界を示すものではないことに留意されたい。図6A〜図6Cに、1つの空間分離フィルタが別の空間分離フィルタよりも良好に動作することが予想される発生源エリアの3つのさらなる例を示す。これらの3つの図は、フィルタのうちの2つ以上が、ハンドセットからある距離だけ離れているソースに対して等しく良好に動作することを示す(そのような配向は「遠距離シナリオ」とも呼ばれる)。この距離は、主に、デバイスのマイクロホン間の距離(一般にハンドセットに対して1.5〜4.5センチメートルであり、ヘッドセットに対してさらに短くなることもある)に依存する。図6Cに、2つのエリアが重複しており、したがって2つの対応するフィルタが、重複エリア中に配置された所望のソースに対して等しく良好に動作することが予想される一例を示す。
通信デバイス(たとえば、ハンドセットH100)のマイクロホンの各々は、全方向性、双方向性、または単方向性である(たとえば、カージオイドの)応答を有することができる。使用できる様々なタイプのマイクロホンは、圧電型マイクロホン、ダイナミックマイクロホン、およびエレクトレットマイクロホンを含む。そのようなデバイスは、3つ以上のマイクロホンを有するように実装することもできる。たとえば、図7Aに、第3のマイクロホンMC30を含むハンドセットH100の実装形態H110を示す。図7Bに、デバイスの軸線に沿った様々なトランスデューサの配置を示すハンドセットH110の2つの他の図を示す。
図8に、本明細書で開示するハンドセットH100またはH110などの通信デバイス内に実装できる一般的構成による装置A200のブロック図を示す。装置A200は、Mチャネル入力信号S10を受信するように構成されたフィルタバンク100を含み、ただし、Mは1よりも大きい整数であり、Mチャネルの各々は、M個のマイクロホン(たとえば、ハンドセットH100またはH110のマイクロホン)のうちの対応する1つのマイクロホンの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理)され、さらには(たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって)事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、8kHzから16kHzの範囲にわたる。
フィルタバンク100はn個の空間分離フィルタF10−1〜F10−nを含み(ただし、nは1よりも大きい整数)、それらの空間分離フィルタの各々は、Mチャネル入力信号S40をフィルタ処理して、対応する空間処理済みのMチャネル信号を生成するように構成される。空間分離フィルタF10−1〜F10−nの各々は、1つまたは複数の指向性干渉ソースおよび/または拡散ノイズ成分など、信号の1つまたは複数の他の成分からMチャネル入力信号の1つまたは複数の指向性所望音声成分を分離するように構成される。図8の例では、フィルタF10−1は、フィルタ処理済みチャネルS2011〜S20m1を含むMチャネル信号を生成し、フィルタF10−2は、フィルタ処理済みチャネルS2012〜S20m2を含むMチャネル信号を生成し、以下同様である。フィルタF10−1〜F10−nの各々は係数値の1つまたは複数の行列によって特徴づけられ、係数値の行列は、BSS、ビームフォーミング、またはBS/ビームフォーミングの方法(たとえば、ICAまたはIVA方法、または本明細書で説明するその変形体)の組合せを使用して計算することができ、また本明細書で説明するようにトレーニングすることもできる。場合によっては、係数値の行列は係数値のベクトルのみ(すなわち、1次元の行列)とすることができる。装置A200はまた、各々フィルタF10−1〜F10−nからMチャネルフィルタ処理済み信号を受信し、これらのフィルタのうちのどれが1つまたは複数の他の成分から入力信号S10の少なくとも1つの所望の成分を現在最も良く分離するかを判断し、Mチャネル出力信号S40を生成するように構成されたスイッチング機構350を含む。
M個のマイクロホンを有するように実装されたイヤホンまたは他のヘッドセットは、異なる動作構成を有し、装置A200の実装形態を含むことができる別種のポータブル通信デバイスである。そのようなヘッドセットは有線またはワイヤレスとすることができる。たとえば、ワイヤレスヘッドセットは、(たとえば、ワシントン州Bellevue、Bluetooth Special Interest Group社によって公表されたBluetoothプロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話通信をサポートするように構成できる。図9に、ユーザの耳65に使用するために取り付けられるそのようなヘッドセット63の異なる動作構成の範囲66の図を示す。ヘッドセット63は、使用中にユーザの口64に対して異なって配向できる第1の(たとえば、縦形)マイクロホンと第2の(たとえば、直角)マイクロホンとのアレイ67を含む。
説明が過度に複雑になることを避けるために、開示する構成の一部の機能は、本明細書では装置A200の2チャネルおよび/または2フィルタの実装形態に関して説明しているが、そのような実装形態に関して説明するどんな機能もMチャネルおよび/またはnフィルタの実装形態に一般化でき、そのような一般化は明確に企図され、開示されることを理解されたい。
図10に、装置A200の2チャネル(たとえば、ステレオ)の実装形態A210のブロック図を示す。装置A210は、n個の空間分離フィルタF14−1〜F14−nを含むフィルタバンク100の実装形態120を含む。これらの空間分離フィルタの各々は、2つの入力チャネルS10−1およびS10−2をフィルタ処理して、2つのフィルタ処理済みチャネル(たとえば、スピーチチャネルおよびノイズチャネル)上で対応する空間処理済み信号を生成するように構成されたフィルタF10−1〜F10−nのうちの1つに対応する2チャネルの実装形態である。フィルタF14−1〜F14−nの各々は、信号の1つまたは複数のノイズ成分から入力信号S10の指向性所望音声成分を分離するように構成される。図10の例では、フィルタF14−1はスピーチチャネルS2011とノイズチャネルS2021とを含む2チャネル信号を生成し、フィルタF14−2はスピーチチャネルS2012とノイズチャネルS2022とを含む2チャネル信号を生成し、以下同様である。装置A210はまた、フィルタF14−1〜F14−nの各々から2つのフィルタ処理済みチャネルを受信し、これらのフィルタのうちどれが入力信号S10の所望の成分とノイズ成分を現在最も良く分離するかを判断し、2つの出力チャネルS40−1およびS40−2の選択されたセットを生成するように構成されたスイッチング機構350の実装形態360を含む。
図11に、フィルタバンク120の2フィルタの実装形態130を含む装置A210の特定の実装形態A220を示すブロック図を示す。フィルタF14−1およびF14−2は、本明細書で説明するように調整するおよび/または設計することができる。フィルタバンク130はまた、フィルタF14−1およびF14−2が、互いに実質的に同じであるが、順序が異なる係数値を有するように実装できる。(この文脈では、「実質的に」という用語は、1パーセント、5パーセント、または10パーセント内までの誤差を表す。)1つのそのような例では、フィルタF14−1およびF14−2は、互いに実質的に同じであるが、順序が異なる係数値を有する。(特定の例では、フィルタF14−1はv係数値a〜aのベクトルを有し、フィルタF14−2は逆順a〜aで実質的に同じ値のv成分ベクトルを有する。)別のそのような例では、フィルタF14−1は係数値A〜Aのv列の行列を有し(各列は、入力チャネルの各々に対するフィルタ処理操作を表す)、フィルタF14−2は、異なる順序の実質的に同じ列を有するv列の行列を有する。(特定の例では、フィルタF14−1の係数値の行列は、フィルタF14−2の係数値の行列を得るために中央垂直軸に関して反転される)。そのような場合、フィルタF14−1およびF14−2は異なる(たとえば、ほぼ相補的な)空間分離性能を有することが予想される。たとえば、1つのフィルタは、所望の音源が図5のA1エリアなどのエリア中にあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができ、他のフィルタは、所望の音源が図5のエリアA2などの反対側エリア中のあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができる。代替的に、フィルタバンク130は、フィルタF14−1とF14−2が構造的に類似し、フィルタF14−2の係数値の各々が、フィルタF14−1の対応する係数値の加法逆元に実質的に等しくなる(すなわち、1パーセント、5パーセント、または10パーセント内までの誤差で、大きさが同じで方向が反対になる)ように実装できる。
ハンドセットまたはヘッドセットの典型的な使用は、ただ1つの所望の音源、すなわちユーザの口を必要とする。そのような場合、2チャネル空間分離フィルタのみを含むフィルタバンク120の実装形態の使用が適切である。オーディオおよび/またはテレビ会議のために通信デバイス中に装置A200の実装形態を含めることも明確に企図され、開示される。オーディオおよび/またはテレビ会議用のデバイスでは、デバイスの典型的な使用は、複数の所望の音源(たとえば、様々な参加者の口)を必要とする。そのような場合、Rチャネル空間分離フィルタ(ただし、Rは2よりも大きい)を含むフィルタバンク100の実装形態の使用がより適切であることがある。一般に、フィルタバンク100の空間分離フィルタは、各指向性音源用の少なくとも1つのチャネルと拡散ノイズ用の1つのチャネルとを有することが望ましい。場合によっては、任意の指向性干渉ソースの各々に追加のチャネルを与えることが望ましい。
図12に、状態推定器400と遷移制御モジュール500とを含むスイッチング機構350の実装形態352のブロック図を示す。状態推定器400からの推定配向状態指示(または「推定状態」)S50に応答して、遷移制御モジュール500は、フィルタ処理済みチャネルS2011−S20m1〜S201n−S20mnのn個のセットの中から選択して、M個の出力チャネルS40−1〜S40−mのセットを生成するように構成される。図13に、状態推定器400の実装形態401と遷移制御モジュール500の実装形態501とを含み、Mの値が2に等しい、スイッチング機構352の特定の実装形態362のブロック図を示す。
状態推定器400は、1つまたは複数の入力チャネルS10−1〜S10−m、1つまたは複数のフィルタ処理済みチャネルS2011−S20mn、あるいは入力およびフィルタ処理済みチャネルの組合せに基づいて推定状態指示S50を計算するように実装できる。図14Aに、n個のスピーチチャネルS2011−S201nとn個のノイズチャネルS202a−S202nとを受信するように構成された状態推定器401の実装形態402を示す。一例では、状態推定器402は、1≦i≦nに対して式max[E(S)−E(N)]に従って推定状態指示S50を計算するように構成される。ここで、E(S)はスピーチチャネルS201iのエネルギーを示し、E(N)はノイズチャネルS202iのエネルギーを示す。別の例では、状態推定器402は、式max[E(S)−E(N)+C]に従って推定状態指示S50を計算するように構成される。ここで、CはフィルタF10−iに関連する選好定数を示す。通信デバイスの動作構成および/または動作モードの変化に応答して、選好定数Cのうちの1つまたは複数の各々に異なる値を割り当てるように状態推定器400を構成することが望ましい。
状態推定器402は、対応するチャネルによって搬送される信号の連続するサンプルのブロック(「フレーム」とも呼ばれる)の2乗サンプル値の合計としてエネルギー値E(S)およびE(N)の各実例を計算するように構成できる。典型的なフレーム長は、約5または10ミリ秒から約40または50ミリ秒にわたり、フレームは重複していても重複していなくてもよい。1つの操作によって処理されるフレームは、異なる操作によって処理されるより大きいフレームのセグメント(すなわち、「サブフレーム」)とすることもできる。1つの特定の例では、フィルタ処理済みチャネルS2011〜S202nによって搬送される信号は、10ミリ秒の重複しないフレームのシーケンスに分割され、状態推定器402は、フィルタ処理済みチャネルS2011およびS2012の各々の各フレームのエネルギー値E(S)の実例を計算し、フィルタ処理済みチャネルS2021およびS2022の各々の各フレームのエネルギー値E(N)の実例を計算するように構成される。状態推定器402の別の例は、1≦i≦nに対して式min(corr(S,N))(またはmin(corr(S,N))+C)に従って推定状態指示S50を計算するように構成される。ここで、corr(A,B)はAとBの相関を示す。この場合、相関の各実例は、上述のように対応するフレームにわたって計算できる。
図14Bに、n個の入力チャネルS10−1−S10−mとn個のノイズチャネルS2021−S202nとを受信するように構成された状態推定器401の実装形態404を示す。一例では、状態推定器404は、1≦i≦nおよび1≦j≦nに対して式max[E(I)−E(N)](またはmax[E(I)−E(N)+C])に従って推定状態指示S50を計算するように構成され、ただし、E(I)は入力チャネルS10−jのエネルギーを示す。別の例では、状態推定器404は、1≦i≦nに対して式max[E(I)−E(N)](またはmax[E(I)−E(N)+C])に従って推定状態指示S50を計算するように構成される。ここで、E(I)は、入力チャネルS10−1〜S10−mのうちから選択された1つのIのエネルギーを示す。この場合、チャネルIは、所望のスピーチ信号を搬送する可能性がある入力チャネルである。チャネルIは、デバイス内の対応するマイクロホンの物理的位置に基づいて選択できる。代替的に、チャネルIは、入力チャネルの2つ以上(場合によってはすべて)の信号対雑音比の比較に基づいて選択できる。
図14Cに、n個のスピーチチャネルS2011−S201nを受信するように構成された状態推定器401の実装形態406を示す。状態推定器406は、スピーチ測定(たとえば、スピーチ特性の測定)の最高値を有するスピーチチャネルに対応する状態を選択するように構成される。一例では、状態推定器406は、スピーチチャネルS2011−S201nの相対自己相関特性に基づいて推定状態指示S50を計算するように構成される。この場合、予想される人間のピッチ遅延値の範囲内で自己相関ピークを有する信号を現在搬送しているチャネルが、ゼロ遅延のみにおいて自己相関ピークを有する信号を現在搬送しているチャネルよりも好ましいことがある。別の例では、状態推定器406は、スピーチチャネルS2011−S201nの相対尖度(kurtosis)(すなわち、4次モーメント)特性に基づいて推定状態指示S50を計算するように構成される。この場合、より高い尖度を有する(すなわち、より非ガウシアンである)信号を現在搬送しているチャネルは、より低い尖度を有する(すなわち、よりガウシアンである)信号を現在搬送しているチャネルよりも好ましいことがある。
図14Dに、n個の入力チャネルS10−1−S10−mを受信するように構成された状態推定器401の実装形態408を示す。この場合、フィルタセットF10−1からF10−nの各々は、到達時間差(TDOA)値の異なる範囲に関連する。状態推定器408は、(たとえば、入力チャネル、入力/出力相関、および/または相対遅延入力の和と差の相関に基づく方法を使用して)入力チャネル間のTDOAを推定し、関連するフィルタセットに対応する状態を選択するように構成される。入力信号の和と差の測定に基づいて遅延推定値を計算する前に入力チャネルの低域フィルタリングを実施することは、そのようなフィルタリングが遅延推定値を調整し、および/または安定化させるのに役立つので、望ましい。状態推定器408は、マイクロホン利得の正確な較正にあまり依存せず、および/または状態推定器400の他の実装形態よりも較正誤差に対してロバストにすることができる。
状態推定器400の入力パラメータ値を平滑化し、その後(たとえば、上述のように)それらの入力パラメータ値を使用して推定状態計算を実施するように状態推定器400を構成することが望ましい。1つの特定の例では、状態推定器402は、スピーチチャネルS2011−S201nおよびノイズチャネルS2021−S202nの各々のエネルギーを計算し、次いで[E=αE+(1−α)E]などの第1の式に従ってこれらのエネルギーを平滑化するように構成され、ただし、Eは現在の平滑化されたエネルギー値を示し、Eは前の平滑化されたエネルギー値を示し、Eは現在の計算されたエネルギー値を示し、αは平滑化係数を示し、この値は、0(平滑化なし)と、0.9(最大平滑化)などの1未満の値との間で固定または適応型とすることができる。この例では、そのような平滑化を、計算されたエネルギー値に適用して、値E(S)およびE(N)を得る。他の例では、そのような線形平滑化(および/または非線形平滑化操作)を、図14A〜図14Dを参照しながら説明したように計算されたエネルギー値に適用して、値E(S)、E(N)、E(I)、およびE(I)のうちの1つまたは複数を得る。代替および/または追加として、状態推定器400に供給される(たとえば、スピーチ、ノイズ、および/または入力チャネル上で搬送される)信号のうちの任意の1つまたは複数を選択および/または事前調整することは、そのような前処理が大きい干渉ソースの存在下で誤った状態推定を避けるのに役立つので、望ましい。
図15に、(A)2つのフィルタからのチャネルを処理するように構成された状態推定器402の実装形態412と、(B)遷移制御モジュール501の対応する実装形態510とを有するスイッチング機構370の実装形態372を含む装置A220の実装形態A222の一例を示す。図16に、状態推定器412の実装形態414の一例を示す。この例では、分離測定計算器550aは信号S2011とS2021との間のエネルギー差を計算し、分離測定計算器550bは信号S2012とS2022との間のエネルギー差を計算し、コンパレータ560は、それらの結果を比較して、チャネル間の最大分離(たとえば、最大エネルギー差)を作り出すフィルタに対応する配向状態を指示する。それぞれのエネルギー差を計算する際、分離測定計算器550aと550bのいずれの一方(または両方)は、上述したE=αE+(1−α)Eなどの式に従って時間とともに計算された差を平滑化するように構成できる。コンパレータ560はまた、比較する前に上述の対応するフィルタ選好定数をエネルギー差の一方または両方に加算するように構成できる。これらの原理は、(たとえば、2よりも大きいMの値に対して)状態推定器402の他の実装形態に拡張し、状態推定器404および406を類似の方法で実装することができる。また、状態推定器400は、実装形態402、404、406、および408を参照しながら説明した技術のうちの2つ以上の組合せに基づいて推定状態S50を生成するように構成できることに留意されたい。
入力チャネルが所望のスピーチ成分を含まない間隔中に(たとえば、ノイズのみ間隔中に)フィルタ出力の間のスイッチングを抑止または不能にすることが望ましい。たとえば、所望の音声成分がアクティブであるときのみ、状態推定器400が推定配向状態を更新することが望ましい。状態推定器400のそのような実装形態は、通信デバイスのユーザが話していない間隔中ではなく、スピーチ間隔中にのみ推定配向状態を更新するように構成できる。
図17に、ボイスアクティビティ検出器(または「VAD」)20とスイッチング機構360の実装形態364とを含む装置A210の実装形態A214を示す。ボイスアクティビティ検出器20は、スピーチアクティビティが入力チャネルS10−1(たとえば、第1のマイクロホンMC10に対応するチャネル)上で検出されたかどうかをその状態によって指示する更新制御信号S70を生成するように構成され、スイッチング機構364は、更新制御信号S70の状態に従って制御される。スイッチング機構364は、スピーチが検出されない間隔(たとえば、フレーム)中に推定状態S50の更新を抑止するように構成できる。
ボイスアクティビティ検出器20は、フレームエネルギー、信号対雑音比(SNR)、周期性、ゼロ交差レート、スピーチおよび/または残差の自己相関、ならびに第1の反射係数など、1つまたは複数のファクタに基づいてその入力信号のフレームをスピーチまたはノイズとして分類する(たとえば、2値ボイス検出指示信号の状態を制御する)ように構成できる。そのような分類は、そのようなファクタの値または大きさとしきい値の比較、および/またはそのようなレートの変化の大きさとしきい値の比較を含むことができる。代替または追加として、そのような分類は、1つの周波数帯域におけるエネルギーなどのそのようなファクタの値もしくは大きさまたはそのようなファクタの変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。ボイスアクティビティ検出器20は、一般に、更新制御信号S70をバイナリ値ボイス検出指示信号として生成するように構成されるが、連続および/または多値信号を生成する構成も可能である。
図18に、VAD20とスイッチング機構372の実装形態374とを含む装置220の実装形態A224のブロック図を示す。この例では、更新制御信号S70は、入力チャネルS10−1上にスピーチアクティビティが検出されたかどうかに従って状態推定器412の実装形態416を制御する(たとえば、推定状態S50の値が変化することを可能または不能にする)ように構成される。図19に、VAD20の実例20−1および20−2を含む装置A210の実装形態A216を示し、これらの実例は同じとすることができるが、同じでなくてもよい。装置A216の場合、スイッチング機構360の実装形態366の状態推定器は、スピーチアクティビティがいずれかの入力チャネル上で検出された場合は使用可能にされ、他の場合は使用不能にされる。
通信デバイスとユーザの口との間の距離が増大するにつれて、スピーチフレームを非スピーチフレームと区別するVAD20の能力が(たとえば、SNRの減少により)低下することがある。しかしながら、上記のように、スピーチ間隔中にのみ推定配向状態を更新するように状態推定器400を制御することが望ましい。したがって、(たとえば、遠距離シナリオにおいて所望のスピーカ検出アクティビティを改善するために)高度な信頼性を有するシングルチャネルVADを使用してVAD20(またはVAD20−1と20−2の一方または両方)を実装することが望ましい。たとえば、そのような検出器は、複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD判定のメモリに基づいてボイスアクティビティ検出を実施するように実装することが望ましい。装置A212の別の実装では、VAD20の実例20−1および20−2の代わりに、上記のようにバイナリ値とすることができる)更新制御信号を生成するデュアルチャネルVADを使用する。
状態推定器400は、通信デバイスの現在の配向状態を推定するための2つ以上の機能を使用するように構成できる。たとえば、状態推定器400は、図14A〜図14Dを参照しながら上述した基準のうち2つまたはそれ以上の組合せを使用するように構成できる。状態推定器400はまた、(たとえば、通信デバイスの加速度計からの情報に基づく)位置情報、(たとえば、通信デバイスの1つまたは複数の状態、あるいは1つまたは複数のスイッチによって示される)動作構成、および/または(たとえば、プッシュツートーク、スピーカホン、またはビデオ再生もしくは記録などのモードが現在選択されているかどうかの)動作モードなど、通信デバイスの現在の状態に関係する他の情報を使用するように構成できる。たとえば、状態推定器400は、どのマイクロホンが現在アクティブであるかを示す(たとえば、現在の動作構成に基づく)情報を使用するように構成できる。
装置A200はまた、通信デバイスのいくつかの動作構成またはモードでは、デバイスがその構成またはモードにある間は十分な分離を行うので状態推定の継続が不必要になるように、空間分離フィルタのうちの対応する1つを仮定するように構成できる。たとえば、ビデオディスプレイモードが選択されているとき、推定状態指示S50を(たとえば、ユーザがビデオスクリーンに面する配向状態に関係する)特定の対応する値に限定することが望ましい。入力信号S10からの情報に基づく状態推定のプロセスは必ず多少の遅延を含むので、通信デバイスの現在の状態に関係するそのような情報の使用により、状態推定プロセスを早め、および/または1つまたは複数の後続の処理ステージのアクティブ化および/またはそれらの処理ステージに対するパラメータ変化などの推定状態S50の変化に応答する動作の遅延を低減するのを助けることができる。
通信デバイスのいくつかの動作構成または動作モードは、特に広範囲のユーザデバイス配向をサポートすることができる。たとえば、プッシュツートークまたはスピーカホンモードなどの動作モードで使用されるとき、通信デバイスをユーザの口から比較的遠い距離に保持することができる。これらの配向のいくつかでは、ユーザの口は各マイクロホンからほぼ等距離になり、現在の配向状態の確実な推定がより困難になることがある。(そのような配向は、たとえば、図6Cに示す様々な配向状態に関連するエリア間の重複領域に対応する。)そのような場合、配向の小さい変化が推定状態S50の不必要な変化をもたらすことがある。
(たとえば、ヒステリシスまたは慣性を取り入れることによって)不必要な変化を抑止するように状態推定器400を構成することが望ましい。たとえば、コンパレータ560は、(A)最大分離測定と、(B)現在の状態に対応する分離測定との間の差がしきい値を超過する(代替的に、そのしきい値以上である)場合にのみ推定状態指示S50を更新するように構成できる。
図20に、遷移制御モジュール500の実装520のブロック図を示す。遷移制御モジュール520はM個の選択器(たとえば、デマルチプレクサ)のセットを含む。1≦j≦Mに対して、各選択器jは、推定状態S50の値に従ってフィルタ処理済みチャネルS20j1〜S20jnのうちの1つを出力チャネルS40−jとして出力する。
遷移制御モジュール520の使用により、ある空間分離フィルタの出力から別の空間分離フィルタの出力への出力信号S40の突然の遷移を生じることがある。通信デバイスが現在2つ以上の配向状態間の空間境界の近くにある状況では、遷移制御モジュール520の使用により、あるフィルタ出力から別のフィルタ出力への頻繁な遷移(「ジッタ(jitter)」とも呼ばれる)を生じることもある。様々なフィルタの出力は大幅に異なることがあるので、これらの遷移は、所望のスピーチ信号の一時的減衰または他の不連続性など、出力信号S40中に好ましくない乱れを生じることがある。あるフィルタ出力から別のフィルタ出力への変更の間に遅延期間(「ハングオーバ(hangover)」とも呼ばれる)を付与することによってそのような乱れを低減することが望ましい。たとえば、遅延間隔(たとえば、5または10個の連続するフレーム)にわたって同じ宛先状態が一貫して示されたときのみに推定状態指示S50を更新するように状態推定器400を構成することが望ましい。状態推定器400のそのような実装形態は、すべての状態遷移に対して同じ遅延間隔を使用するように、あるいは特定のソースおよび/または潜在的な宛先状態に従って異なる遅延間隔を使用するように構成できる。
出力信号S40におけるフィルタ出力間の突然の遷移は知覚的に好ましくなく、遷移制御モジュール520によって与えられる遷移よりもフィルタ出力間でより漸進的な遷移を得ることが望ましい。そのような場合、スイッチング機構350が、時間がたつにつれてある空間分離フィルタの出力から別の空間分離フィルタの出力に漸進的にフェードさせることが望ましい。たとえば、上述のように遅延間隔を付与することの代替または追加として、スイッチング機構350は、いくつかのフレームのマージ間隔(たとえば、10個の20ミリ秒フレーム)にわたってあるフィルタの出力から別のフィルタの出力への線形平滑化を実施するように構成できる。
図21に、遷移制御モジュール500の実装550のブロック図を示す。モジュール520のデマルチプレクサのアレイの代わりに、遷移制御モジュール550はm個のミキサ70a〜70mのミキサバンク700を含む。遷移制御モジュール550はまた、遷移制御信号S60を生成するように構成されたハングオーバ論理回路600を含む。1≦j≦Mに対して、各ミキサ70jは、遷移制御信号S60に従ってフィルタ処理済みチャネルS20j1〜S20jnを混合して、対応する出力チャネルS40−jを生成するように構成される。
図22に、ミキサ70jの実装72jのブロック図を示す(ただし、1≦j≦M)。この例では、遷移制御信号S60は、それぞれのフィルタ処理済みチャネルS20j1〜S20jnに重み付けするためにミキサ72jによって適用される並列のn個の値と、重み付けされた信号の和を計算して出力チャネルS40−jを生成する加算器60jとを含む。
図23に、ミキサバンク700の2チャネル実装710を含む遷移制御モジュール550の実装555のブロック図を示す。1つのそのような例では、ハングオーバ論理回路600の2チャネル実装610は、所定数のフレーム(すなわち、マージ間隔)にわたって0から1に変化する重みファクタωを計算し、ωと(1−ω)値を遷移制御信号60として(推定状態S50によって決定された順序で)出力するように構成される。ミキサバンク710のミキサ74aおよび74bは、それぞれωFn+(1−ω)Fcなどの式に従ってこれらの重みファクタを適用するように構成され、ただし、Fnはミキサの遷移先であるフィルタ処理済みチャネルを示し、Fcはミキサの遷移元であるフィルタ処理済みチャネルを示す。
推定状態S50の異なる遷移に対して異なる遅延および/またはマージ間隔を適用するようにハングオーバ論理回路600を構成することが望ましい。たとえば、推定状態S50の一部の遷移は、実際には他の遷移よりも起こる可能性が低いことがある。比較的可能性が低い状態遷移の一例は、ユーザがハンドセットを完全に(すなわち、第1のマイクロホンがユーザの口に向く配向から、第1のマイクロホンがユーザの口の反対方向に向く配向に)反転させたことを示す遷移である。見込みのより少ない遷移にはより長い遅延および/またはマージ期間を使用するようにハングオーバ論理回路600を構成することが望ましい。そのような構成は、推定状態指示S50のスプリアス過渡状態を抑制するに役立つ。また、ハングオーバ論理回路600は、本明細書で論じる位置情報、動作構成、および/または動作モードなど、通信デバイスの現在および/または以前の状態に関係する他の情報に従って遅延および/またはマージ間隔を選択するように構成することが望ましい。
図24に、装置A210の実装形態A218のブロック図を示す。この例では、スイッチング機構360の実装形態368は、フィルタ処理済みチャネルのn個のペアならびに入力チャネルのペアの中から選択してスピーチチャネルS40−1およびノイズチャネルS40−2を生成するように構成される。一例では、スイッチング機構368は、デュアルチャネルモードまたはシングルチャネルモードで動作するように構成される。デュアルチャネルモードでは、スイッチング機構368は、フィルタ処理済みチャネルのn個のペアの中から選択してスピーチチャネルS40−1およびノイズチャネルS40−2を生成するように構成される。シングルチャネルモードでは、スイッチング機構368は、入力チャネルS10−1を選択してスピーチチャネルS40−1を生成するように構成される。シングルチャネルモードの代替実装形態では、スイッチング機構368は、2つの入力チャネルの中から選択してスピーチチャネルS40−1を生成するように構成される。そのような場合、2つの入力チャネル間の選択は、最大のSNR、(たとえば、1つまたは複数の統計メトリックによって示される)最大のスピーチ尤度、通信デバイスの現在の動作構成、および/または所望の信号が生じたと判断される方向など、1つまたは複数の基準に基づくことができる。
図25に、スイッチング機構370の実装形態378が、シングルチャネルモードにあるときに入力チャネルのうちの1つ(たとえば、第1のマイクロホンに関連するチャネル)を受信し、このチャネルをスピーチ信号S40−1として出力するように構成された装置A220の関連実装形態A228のブロック図を示す。スイッチング機構は、推定配向状態がフィルタバンク中のn個のフィルタのいずれにも対応しないとき、シングルチャネルモードを選択するように構成できる。たとえば、フィルタバンク120の2フィルタの実装形態130および図5に示す可能な配向状態の3つ組では、スイッチング機構は、推定状態S50がエリアA3に対応するとき、シングルチャネルモードを選択するように構成できる。設計上の観点から、シングルチャネルモードは、信頼できる空間処理結果を生じる(または、代替的に、生じることが予想される)フィルタがフィルタバンク中に全く発見されない場合を含むことができる。たとえば、スイッチング機構は、空間分離フィルタのいずれかが所望の音声成分を対応するフィルタ処理済みチャネルに分離したと状態推定器が確実に判断できないときは、シングルチャネルモードを選択するように構成できる。1つのそのような例では、コンパレータ560は、分離測定の差が最小値を超過しない場合に対してシングルチャネルモードの選択を指示するように構成される。
同じ構造のそれぞれの実例を使用してフィルタバンク100のフィルタのすべてを実装する場合、この構造の別の実例を使用してシングルチャネルモードを実装すると便利である。図26に、装置A228のそのような実装形態A229のブロック図を示す。パススルーフィルタF14−3は、空間処理なしに入力チャネルS10−1およびS10−2をパスするように構成された同じ構造の別の実例を使用して実装される。たとえば、フィルタバンク100のフィルタは、一般にクロスフィルタフィードフォワードおよび/またはフィードバック構造を使用して実装される。そのような場合、パススルーフィルタは、クロスフィルタのすべての係数値が0である構造を使用して実装できる。さらなる一例では、パススルーフィルタF14−3は、入力チャネルS10−1のみがパスされるように入力チャネルS10−2を遮断するように実装される。装置A229はまた、(たとえば、推定状態指示S50に基づいて)他のフィルタ処理済みチャネルS2011、S2012、S2021、およびS2022と同じ方法でパススルーフィルタF14−3によって生成されたチャネルへ、およびそのチャネルから遷移するように構成されたスイッチング機構378の実装形態379を含む。
無相関ノイズは、空間処理システムのパフォーマンスを劣化させる。たとえば、ホワイトノイズ利得により、無相関ノイズの増幅が空間処理フィルタ中で発生することがある。無相関ノイズは、マイクロホンまたはセンサのすべてよりも少ない(たとえば、1つの)マイクロホンまたはセンサに特有であり、マイクロホンおよび/またはセンサもしくは回路ノイズへの直接的な風、(たとえば、ユーザの爪の)ひっかき、呼気または吹込みによるノイズを含むことができる。そのようなノイズは、特に低周波で現れる傾向がある。無相関ノイズが検出されたとき空間分離フィルタをオフにするかまたはバイパスし(たとえば、シングルチャネルモードに移行し)、および/または高域通過フィルタを用いて影響を受けている(1つまたは複数の)入力チャネルから無相関ノイズを除去するように装置A200を実装することが望ましい。
図27に、入力チャネル間で無相関であるノイズを検出するように構成された無相関ノイズ検出器30を含む装置A210の実装形態A210Aのブロック図を示す。無相関ノイズ検出器30は、無相関ノイズの検出および/またはそのような検出への応答の開示に限定した目的のために、参照により本明細書に組み込まれる、「SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する2008年8月29日に出願の米国特許出願第12/201,528号に開示された構成のいずれかに従って実装できる。この例では、装置A210Aは、無相関ノイズ検出器30が(たとえば、バイナリ値とすることができる検出指示S80によって)無相関ノイズの存在を示すとき、上述のシングルチャネルモードに入るように構成されたスイッチング機構368の実装形態368Aを含む。シングルチャネルモードの使用の代替(または追加)として、装置A210Aは、1つまたは複数のチャネルで無相関ノイズが検出されたときにのみフィルタをアクティブ化するように、入力チャネルのうちの1つまたは複数に調節可能な高域通過フィルタを使用して無相関ノイズを除去するように構成できる。
ボイス通信(たとえば、電話通信)のためのトランシーバ適用例では、「近端(near-end)」という用語は、(たとえば、マイクロホンからの)オーディオとして受信され、通信デバイスによって送信される信号を示すために使用され、「遠端」という用語は、通信デバイスによって受信され、(たとえば、デバイスの1つまたは複数のラウドスピーカを介した)オーディオとして再生される信号を示すために使用される。遠端信号アクティビティに応答して装置A200の実装形態の動作を変更することが望ましい。たとえば、特に全二重スピーカホンモード中またはヘッドセットでは、デバイスのラウドスピーカによって再生された遠端信号アクティビティは、デバイスのマイクロホンによってピックアップされて、入力信号S10上に現れて、最終的に配向状態推定器を混乱させることがある。そのような場合、遠端信号アクティビティの期間中に推定状態への更新を中断することが望ましい。図28に、(たとえば、通信デバイスの受信機部から受信された)遠端オーディオ信号S15に対するボイスアクティビティ検出器(VAD)20の実例70を含む装置A224の実装形態A224Aのブロック図を示す。ハンドセットの場合、全二重スピーカホンモード中に、および/または第2のスピーカSP20がアクティブであるときにVAD70をアクティブ化することができ、VAD70が生成する更新制御信号S75を使用して、VADが遠端スピーチアクティビティを指示するときに状態推定器の出力に対する変更を不能にするようにスイッチング機構を制御することができる。図28は、VAD20およびVAD70のうちの少なくとも一方がスピーチアクティビティを指示するとき推定状態S50の更新を中断するように構成されたスイッチング機構374の特定の実装形態374Aを示す。ヘッドセットの場合、通常動作中に(たとえば、デバイスの第1のスピーカが無音にされなければ)VAD70をアクティブ化することができる。
空間分離フィルタF10−1〜F10−nのうちの1つまたは複数は、M個よりも少ないチャネルを有する信号を処理するように構成することが望ましい。たとえば、Mが2よりも大きい場合でさえ、入力チャネルのペアのみを処理するように空間分離フィルタのうちの1つまたは複数(場合によってはすべて)を構成することが望ましい。そのような構成を求める1つの考えられる理由は、M個のマイクロホンのうちの1つまたは複数の障害に耐性がある装置A200の実装形態を得るためである。別の考えられる理由は、通信デバイスのいくつかの動作構成では、M個のマイクロホンのうちの1つまたは複数を非アクティブ化するか、さもなければ無視するように装置A200を構成することができることである。
図29および図30に、Mが3に等しく、フィルタF14−1、F14−2、およびF14−3の各々が入力チャネルのペアを処理するように構成された装置A200の2つの実装形態を示す。図29は、フィルタF14−1、F14−2、およびF14−3の各々が、3つの入力チャネルS10−1、S10−2、およびS10−3の異なるペアを処理するように構成された装置A232のブロック図を示す。図30は、フィルタF14−1およびF14−2が入力チャネルS10−1およびS10−2を処理するように構成され、フィルタF14−3が入力チャネルS10−1およびS10−3を処理するように構成された装置A234のブロック図を示す。図31に、フィルタF14−1〜F14−6の各々が入力チャネルのペアを処理するように構成された装置A200の実装形態A236のブロック図を示す。
装置A234において、スイッチング機構360は、入力チャネルS10−3に対応するマイクロホンが無音にされているかまたは障害のある動作構成のためにフィルタF14−1およびF14−2の中の一方を選択し、他のためにはフィルタF14−1およびF14−3の中の一方を選択するように構成できる。装置A236において入力チャネルS10−1〜S10−3の特定のペアが(たとえば、現在の動作構成に基づいて、または他の入力チャネルに関連するマイクロホンの故障に応答して)選択されている場合、スイッチング機構360は、入力チャネルのそのペアを受信するフィルタF14−1〜F14−6に対応する2つの状態の中からのみ選択するように構成できる。
通信装置のいくつかの動作モードでは、3つ以上の入力チャネルの中のペアの選択は、少なくとも部分的にヒューリスティックスに基づいて実行できる。たとえば、図2に示す従来の電話モードでは、電話機は、一般に、(入力チャネルのペアの固定的選択が適切となるように)変動が限定された制約付き方法で保持される。しかしながら、図3Aおよび図3B、または図4Aおよび図4Bに示すスピーカホンモードでは、多くの保持パターンが可能であり、したがって、すべての予想される使用配向における十分な分離を得るためには入力チャネルのペアの動的な選択が望ましい。
通信デバイスの寿命期間中に、マイクロホン要素のうちの1つまたは複数が損傷するか、さもなければ故障することがある。上記のように、装置A200はマイクロホンのうちの1つまたは複数の故障に耐性があることが望ましい。スイッチング機構360は、それぞれ入力チャネルの異なるサブセットに対応する複数の状態推定方式を用いて構成できる。たとえば、様々な予想される障害シナリオの各々に対して(たとえば、あらゆる可能な障害シナリオに対して)状態推定ロジックを設けることが望ましい。
状態推定器400は、インジケータ関数の値を可能な配向状態のセットにマッピングすることによって推定状態指示S50を生成するように実装することが望ましい。たとえば、装置A200の2フィルタの実装形態A220では、分離測定を単一のインジケータに圧縮し、そのインジケータの値を、可能な配向状態のセットのうちの対応する1つにマッピングすることが望ましい。1つのそのような方法は、各フィルタの分離測定を計算し、2つの測定を使用してインジケータ関数を評価し、そのインジケータ関数値を可能な状態のセットにマッピングすることを含む。
図14A〜図14Dを参照しながら上述したものを含むいかなる分離測定でも使用することができる(たとえば、エネルギー差、相関、TDOA)。一例では、フィルタバンク130のそれぞれの空間分離フィルタF14−1およびF14−2に対する分離測定ZおよびZの各々は、以下のように、フィルタの出力のエネルギーの差として計算され、各チャネルのエネルギーは、20ミリ秒フレームにわたる2乗サンプルの合計として計算できる:Z=e11−e12、Z=e21−e22。ここで、e11、e12、e21、e22はそれぞれ、対応するフレームにわたるチャネルS2011、S2021、S2012、およびS2022のエネルギーを示す。次いでインジケータ関数を、たとえば、Z−Zのように2つの分離測定の差として計算することができる。
インジケータ関数を評価する前に、対応するフィルタ入力チャネルのうちの1つまたは複数に従って各分離測定をスケーリングすることが望ましい。たとえば、対応するフレームにわたる以下の式のうちの1つの値の合計などのファクタに従って測定ZおよびZの各々をスケーリングすることが望ましい:|x|、|x|、|x|+|x|、|x+x|、|x|。ここで、x、xはそれぞれ入力チャネルS10−1およびS10−2の値を示す。
分離測定に対して異なるスケールファクタを使用することが望ましい。1つのそのような例では、フィルタF14−1は、チャネルS10−1に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応し、フィルタF14−2は、チャネルS10−2に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応する。この場合、フレームにわたる|x|の合計に基づくファクタに従って分離測定Zをスケーリングし、フレームにわたる|x|の合計に基づくファクタに従って分離測定Zをスケーリングすることが望ましい。この例では、分離測定Z
Figure 2011508533
のような式に従って計算し、分離測定Z
Figure 2011508533
のような式に従って計算できる。
スケールファクタは、他の方向ではなく一方向においてより強く分離測定の値に影響を及ぼすことが望ましい。たとえば、最大差に基づく分離測定の場合、スケールファクタは、入力ボリュームが小さいときに分離測定の値を過度に増大させることなく、大きい入力チャネルボリュームに応答して分離測定の値を低減させることが望ましい。(最小差に基づく分離測定の場合は、反対の効果が望ましい。)1つのそのような例では、分離測定ZおよびZは、以下のような式に従って計算される:
Figure 2011508533
、およびTはしきい値である。
図32Aに、インジケータ関数値(たとえば、Z−Z)を3つの可能な配向状態のセットにマッピングする一例を示す。この値が第1のしきい値T1未満である場合、(第1のフィルタに対応する)状態1が選択される。この値が第2のしきい値T2を上回る場合、(第2のフィルタに対応する)状態3が選択される。この値がそれらのしきい値の間にある場合、(いずれのフィルタにも対応しない、すなわち、シングルチャネルモードの)状態3が選択される。典型的な場合、しきい値T1とT2は反対の極性を有する。図32Bに、遷移がどちらの方向に進んでいるかに応じて状態間の遷移を制御するのに異なるしきい値T1A、T1BおよびT2A、T2Bを使用するマッピングの別の例を示す。そのようなマッピングを使用して、配向の小さい変化によるジッタを低減し、および/または重複エリアにおける不必要な状態遷移を少なくすることができる。
上述のインジケータ関数方式は、たとえば、ペアの選択された状態を得るようにチャネルの各ペアを処理し、次いで全体的に最も多い得票を有する状態を選択することによって装置A200の3チャネル(またはMチャネル)の実装形態に拡張することもできる。
上記のように、フィルタバンク130は、フィルタF14−2の係数値行列がフィルタF14−1の対応する係数値行列に関して反転されるように実装できる。この特定の場合、上述のインジケータ関数値は
Figure 2011508533
のような式に従って計算できる。ここで、βは前述の値を有する。
図33Aに、出力信号S40の追加の空間処理(たとえば、スピーチ成分とノイズ成分のさらなる分離)を実行してさらなる出力信号S42を生成するように構成された適応フィルタ450と装置A210を組み合わせる装置A200の実装形態A310のブロック図を示す。これらの成分フィルタの各々が、フィルタバンク120中のフィルタのうちの1つに対応し推定状態指示S50に従って選択できるように、適応フィルタ450は、複数の適応フィルタを含むように実装することが望ましい。たとえば、適応フィルタ450のそのような実装は、成分フィルタのうちの1つの出力を信号S42として選択し、および/またはマージ間隔中に成分フィルタのうちの2つ以上の出力を混合して、推定状態指示S50に従って信号S42を得るように構成された遷移制御モジュール500に類似する選択機構または混合機構を含むことができる。
適応フィルタ450(あるいは、その成分フィルタのうちの1つまたは複数、場合によってはすべて)は、本明細書で説明するように1つまたは複数のBS、ビームフォーミング、および/または結合BS/ビームフォーミング方法に従って、あるいは特定の適用例に適した任意の他の方法に従って構成できる。初期条件のセットをもつ適応フィルタ450を構成することが望ましい。たとえば、成分フィルタのうちの少なくとも1つが0以外の初期状態を有することが望ましい。そのような状態は、フィルタバンク120の対応するフィルタを使用してトレーニング信号のセットをフィルタ処理することによって得られるフィルタ処理済み信号への収束の状態に成分フィルタをトレーニングすることによって計算できる。典型的な生成適用例では、成分フィルタとフィルタバンク120の対応するフィルタとの参照実例を使用して初期状態(すなわち、フィルタ係数の初期値のセット)を生成し、次いでその初期状態は、適応フィルタ450の成分フィルタに記憶される。初期状況の生成はまた、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する2008年8月25日に出願の米国特許出願第12/197,924号の段落[00130]〜[00134](「For a configuration that includes」で開始し「during online operation」で終了する)に記載されており、それらの段落は、フィルタトレーニングの開示に限定した目的のために、参照により本明細書に組み込まれる。トレーニングを介したフィルタ状態の生成についても以下でより詳細に説明する。
装置A200はまた、空間処理済み信号のスペクトル処理を実行するように構成された1つまたは複数のステージを含むように実装できる。図33Bに、装置A210をノイズ低減フィルタ460と組み合わせる装置A200の実装形態A320のブロック図を示す。ノイズ低減フィルタ460は、ノイズチャネルS40−2上の信号をノイズ基準として適用して、スピーチ信号S40−1中のノイズを低減し、対応するフィルタ処理済みスピーチ信号S45を生成するように構成される。ノイズ低減フィルタ460は、フィルタ係数値が、分離されたチャネルからの信号およびノイズ電力情報に基づくウィーナーフィルタとして実装できる。そのような場合、ノイズ低減フィルタ460は、ノイズ基準(あるいは出力チャネルS40が3つ以上のチャネルを有するより一般的な場合は、1つまたは複数のノイズ基準)に基づいてノイズスペクトルを推定するように構成できる。代替的に、ノイズ低減フィルタ460は、1つまたは複数のノイズ基準からのスペクトルに基づいてスピーチ信号に対してスペクトル減算演算を実行するように実装できる。代替的に、ノイズ低減フィルタ460は、ノイズ共分散が1つまたは複数のノイズ基準に基づくカルマンフィルタとして実装できる。
ノイズ低減フィルタ460は、非スピーチ間隔のみの間にスペクトルおよびまたは共分散などのノイズ特性を推定するように構成することが望ましい。そのような場合、ノイズ低減フィルタ460は、ボイスアクティビティ検出(VAD)動作を含むかまたは装置もしくはデバイス内で他の方法によって実施されるそのような動作の結果を使用して、スピーチ間隔中にノイズ特性の推定を不能にする(代替的に、ノイズのみ間隔中のみでそのような推定を可能にする)ように構成できる。図33Cに、適応フィルタ450とノイズ低減フィルタ460の両方を含む装置A310およびA320の実装形態A330のブロック図を示す。この場合、ノイズ低減フィルタ460は、ノイズチャネルS42−2上の信号をノイズ基準として適用して、スピーチ信号S42−1中のノイズを低減して、フィルタ処理済みスピーチ信号S45を生成するように構成される。
装置A200の実装形態は、通信デバイスの他の要素が出力信号S40またはS45に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。この場合、(たとえば、移動局モデム(MSM)チップまたはチップセットのベースバンド部分内に含めることができる)シングルチャネルノイズ低減モジュールの実装など、装置A200とデバイスの任意の他のノイズ低減要素との間に起こりうる相互作用をなくすことが望ましい。
そのような場合、残差バックグラウンドノイズの量および/または品質を調整することが望ましい。たとえば、装置A200のマルチチャネルフィルタは、シングルチャネルノイズ低減モジュールの予想されるノイズ入力レベルに対して、あまりにアグレッシブなことがある。出力信号S40中に残っているノイズの振幅および/またはスペクトルシグナチャに応じて、シングルチャネルノイズ低減モジュールはより多くのひずみ(たとえば、急激に変化する残差、音楽ノイズ)を発生させることがある。そのような場合、結合ノイズ低減方式の出力に応答して何らかのフィルタ処理済み快適ノイズを出力信号S40に加え、および/または1つまたは複数のパラメータ設定を調整することが望ましい。
シングルチャネルノイズ低減法は、一般に、ノイズ低減演算をサポートするのに使用される参照情報を提供するのにノイズおよびボイスデータの多少延長された期間の獲得を必要とする。この獲得期間は、可観測性ノイズ除去において遅延を生じさせる傾向がある。そのような方法と比較して、ここで提示するマルチチャネル方法は、バックグラウンドノイズからのユーザボイスの分離により、比較的即時のノイズ低減を行うことができる。したがって、シングルチャネルノイズ低減モジュールの動的機能に関してマルチチャネル処理ステージのアグレッシブネス設定の適用のタイミングを最適化することが望ましい。
推定状態指示S50の変更に応答して、後続の処理ステージにおいてパラメータ変更を実施することが望ましい。また、装置A200は、特有のパラメータ変更および/または推定配向状態に関連できるタイミングキューおよび/またはハングオーバ論理回路における変更を始動することが望ましい。たとえば、一定の延長された推定期間は、状態推定知識の信頼度を十分なものにするのに役立つので、推定状態指示S50の変更後に少しの期間だけアグレッシブな後処理ステージを遅延させることが望ましい。
配向状態が変化すると、現在のノイズ基準は後続の空間および/またはスペクトル処理演算にはもはや適切でなくなることがあり、状態遷移中にこれらのステージをよりアグレッシブでないようにすることが望ましい。たとえば、遷移位相中にスイッチング機構350が現在のノイズチャネル出力を減衰させることが望ましい。ハングオーバ論理回路600は、そのような演算を実施するように実装できる。1つのそのような例では、ハングオーバ論理回路600は、現在の推定状態と以前の推定状態との間の不一致を検出し、そのような検出に応答して現在のノイズチャネル出力(たとえば、装置A210のチャネルS40−2)を減衰させるように構成される。(漸進的または即時とすることができる)そのような減衰は、大幅なものに(たとえば、75または80パーセントなど、50または60パーセントから80または90パーセントまでの範囲内の量だけに)することができる。また、新しいスピーチおよびノイズチャネルへの(たとえば、両方とも通常ボリュームの)遷移を、本明細書で(たとえば、遷移制御モジュール550を参照しながら)説明したように実施することができる。図34に、チャネルペアS2011とS2012からチャネルペアS2021とS2022に遷移中の減衰方式の一例における、スピーチチャネルS2011、S2021およびノイズチャネルS2012、S2022の時間の変化に伴う相対的な利得レベルを示す。
また、推定状態指示S50に従って1つまたは複数の下流の演算を制御することが望ましい。たとえば、推定状態指示S50に従って初期条件の対応するセットを(たとえば、図33Aおよび図33Cに示す)下流の適応フィルタに適用することが望ましい。そのような場合、上述のように推定状態指示S50に従って適応フィルタ450の成分フィルタを選択し、成分フィルタをその初期状態にリセットすることが望ましい。初期条件のあるセットから別のセットへの、またはある成分フィルタから別の成分フィルタへの遷移中は、ハングオーバ論理回路600を参照しながら上述したのと類似する方法で現在のノイズチャネル出力(たとえば、S42−2)を減衰させることが望ましい。また、装置A200のシングルチャネル動作中は、下流の適応空間処理フィルタなどの(たとえば、図33A〜図33Cに示す)デバイスの他の空間処理演算を不能にすることが望ましい。
いくつかの方向に対するシステムノイズ低減性能の若干の感度が(たとえば、通信デバイス上のマイクロホン配置により)発生することがある。特定の適用例に適したマイクロホンの構成を選択することによって、および/またはノイズ間隔の選択的マスキングを使用することによって、そのような感度を下げることが望ましい。そのようなマスキングは、(たとえば、本明細書で説明したVADを使用して)ノイズのみ時間間隔を選択的に減衰させることによって、または後続のシングルチャネルノイズ低減モジュールが残差ノイズ乱れを除去するのを可能にするために快適ノイズを加えることによって達成できる。
図35Aに、遠端オーディオ信号S15に基づいて入力信号S10からエコーを消去するように構成されたエコーキャンセラEC10を含む装置A200の実装形態A210Bのブロック図を示す。この例では、エコーキャンセラEC10は、フィルタバンク120によって入力として受信されたエコー消去済み信号S10aを生成する。装置A200はまた、遠端オーディオ信号S15に基づいて出力信号S40からエコーを消去するように構成されたエコーキャンセラEC10の実例を含むように実装できる。いずれの場合も、スピーカホンモードでの通信デバイスの動作中および/またはPTTモードでの通信デバイスの動作中はエコーキャンセラEC10を使用不能にすることが望ましい。
図35Bに、シングルチャネルエコーキャンセラEC20の2つの実例EC20aおよびEC20bを含むエコーキャンセラEC10の実装形態EC12のブロック図を示す。この例では、エコーキャンセラEC20の各実例は、入力チャネルI1、I2のセットのうちの一方を処理して出力チャネルO1、O2のセットのうちの対応する1つを生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技術(たとえば、最小2乗平均技術)に従ってエコーキャンセラEC20の様々な実例をそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第12/197,924号の段落[00139]−[00141](「An apparatus」で開始し「B500」で終了する)で論じられており、それらの段落は、装置の他の要素の設計、実装、および/または統合を含むがこれに限定されないエコー消去の開示に限定した目的のために、参照により本明細書に組み込まれる。
図35Cに、遠端信号S15をフィルタ処理するように構成されたフィルタCE10と、処理中の入力チャネルとフィルタ処理済み遠端信号を組み合わせるように構成された加算器CE20とを含むエコーキャンセラEC20の実装形態EC22のブロック図を示す。フィルタCE10のフィルタ係数値は固定および/または適応型とすることができる。遠端オーディオ信号を再生するように通信デバイスの参照実例によって記録されたマルチチャネル信号のセットを使用して(たとえば、以下でより詳細に説明するように)フィルタCE10の参照実例をトレーニングすることが望ましい。
装置A210Bの実装形態は、通信デバイスの他の要素(たとえば、移動局モデム(MSM)チップまたはチップセットのベースバンド部分)が出力信号S40に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。エコーキャンセラを装置A200の実装形態中に含めるように設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ(たとえば、MSMチップまたはチップセットのエコー消去モジュール)との間の起こりうる相乗効果を考慮に入れることが望ましい。
図36に、本明細書で説明する装置A200(または以下で説明する装置A100)の実装形態を含むデバイスの設計および使用中に従われる手順のフローチャートを示す。設計段階では、トレーニングデータを使用して固定フィルタセット(たとえば、フィルタバンク100のフィルタのフィルタ係数値)を決定し、対応するユーザハンドセット状態を、電流配向状態の(たとえば、本明細書で説明するスイッチング機構による)オンライン推定と、電流状況に適した固定フィルタセットの選択とを可能にするように特徴づける。トレーニングデータは、通信デバイス(たとえば、ハンドセットまたはヘッドセット)の参照実例を使用して様々なユーザデバイス音響シナリオにおいて記録される、ノイズの多いスピーチサンプルのセットである。(無響室において実行される)そのような記録の前に、(周波数とともに変化する)参照デバイスのM個のマイクロホンの利得の比が所望の範囲内にあることを確認するために較正を実行することが望ましい。参照デバイスを使用して固定フィルタセットが決定されると、本明細書で説明する装置の実装形態を含む通信デバイスのプロダクション実例に、それらの固定フィルタセットがコピーされる。
図37に、フィルタバンク100の空間分離フィルタの1つまたは複数を特徴づける係数値を得るために使用できる設計方法M10のフローチャートを示す。方法M10は、マルチチャネルトレーニング信号のセットを記録するタスクT10と、トレーニング信号のセットをサブセットに分割するタスクT20とを含む。方法M10はまた、タスクT30とT40とを含む。サブセットの各々について、タスクT30は、収束のために対応する空間分離フィルタをトレーニングする。タスクT40は、トレーニングされたフィルタの分離性能を評価する。タスクT20、T30、およびT40は、一般に、パーソナルコンピュータまたはワークステーションを使用して、通信デバイスの外部で実行される。タスクT40において容認できる結果が得られるまで、方法M10のタスクの1つまたは複数を繰り返す。方法M10の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、空間分離フィルタの設計、トレーニング、および/または評価に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号に記載されている。
タスクT10は、少なくともK個のマイクロホンのアレイを使用して、Kチャネルトレーニング信号のセットを記録する。ここで、Kは、少なくともMに等しい整数である。トレーニング信号の各々は、スピーチ成分とノイズ成分の両方を含み、各トレーニング信号は、P個のシナリオの1つの下で記録される。ここで、Pは、2に等しい場合があるが、一般に1よりも大きい任意の整数である。以下で説明するように、P個のシナリオの各々は、様々な空間特徴(たとえば、様々なハンドセットまたはヘッドセット配向)および/または様々なスペクトル特徴(たとえば、様々な特性を有する音源の捕捉)を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、P個のシナリオのうちの異なる1つの下でそれぞれ記録される少なくともP個のトレーニング信号を含む。
Kチャネルトレーニング信号のセットの各々は、少なくとも1つの情報ソースおよび少なくとも1つの干渉ソースに応答してK個のマイクロホンのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、ノイズの多い環境でのスピーチの記録であることが望ましい。K個のチャネルの各々は、K個のマイクロホンのうちの対応する1つの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理)され、さらには(たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって)事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、8kHzから16kHzにわたる。
本明細書で説明する装置A200の他の要素を含んでいる同じ通信デバイスを使用してタスクT10を実行することが可能である。しかしながら、より一般的には、タスクT10は、通信デバイス(たとえば、ハンドセットまたはヘッドセット)の参照実例を使用して実行されるであろう。方法M10によって生成される収束フィルタソリューションの得られたセットは、次いで、プロダクション中に同じまたは同様の通信デバイスの他の実例(たとえば、各そのようなプロダクション実例のフラッシュメモリ)にロードされる。
そのような場合、通信デバイス(「参照デバイス」)の参照実例は、K個のマイクロホンのアレイを含む。参照デバイスのマイクロホンは、通信デバイスのプロダクション実例(「プロダクションデバイス」)の音響応答と同じ音響応答を有することが望ましい。たとえば、参照デバイスのマイクロホンは、プロダクションデバイスのモデルと同じ1つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。さらに、他の場合は、参照デバイスはプロダクションデバイスと同じ音響特性を有することが望ましい。さらには、プロダクションデバイス同士が音響的に同じであるように、参照デバイスはプロダクションデバイスと音響的に同じであることが望ましい。たとえば、参照デバイスはプロダクションデバイスと同じデバイスモデルであることが望ましい。しかしながら、実際のプロダクション環境では、参照デバイスは、1つまたは複数の低位の(すなわち、音響的に重要でない)態様においてプロダクションデバイスとは異なるプロダクション開始前のバージョンでもよい。典型的な場合には、参照デバイスは、トレーニング信号を記録するためにのみ使用されるので、参照デバイス自体が装置A200の要素を含む必要はない。
同じK個のマイクロホンを使用して、トレーニング信号のすべてを記録することができる。代替的に、トレーニング信号の1つを記録するために使用されるK個のマイクロホンのセットは、トレーニング信号のもう1つを記録するために使用されるK個のマイクロホンのセットとは(マイクロホンの1つまたは複数において)異なることが望ましい。たとえば、マイクロホンの間のある程度の変動に対してロバストである複数のフィルタ係数値を生成するために、マイクロホンアレイの異なる実例を使用することが望ましい。1つのそのような場合には、Kチャネルトレーニング信号のセットは、参照デバイスの少なくとも2つの異なる実例を使用して記録された信号を含む。
P個のシナリオの各々は、少なくとも1つの情報ソースと少なくとも1つの干渉ソースとを含む。一般に、各情報ソースは、スピーチ信号または楽音信号を再生するラウドスピーカであり、各干渉ソースは、別のスピーチ信号または典型的な予想される環境からの周囲のバックグラウンドサウンド、またはノイズ信号などの干渉側音響信号を再生するラウドスピーカである。使用できるラウドスピーカの様々なタイプには、動電型(たとえば、ボイスコイル)スピーカ、圧電型スピーカ、静電型スピーカ、リボンスピーカ、平面磁気スピーカなどがある。1つのシナリオまたは適用例において情報ソースとして働くソースは、異なるシナリオまたは適用例において干渉ソースとして働くことができる。P個のシナリオの各々におけるK個のマイクロホンからの入力データの記録は、Kチャネルテープレコーダ、Kチャネルサウンドの記録または捕捉機能をもつコンピュータ、あるいは(たとえば、サンプリング解像度のオーダー内で)同時にK個のマイクロホンの出力を捕捉あるいは記録することが可能な別のデバイスを使用して実行できる。
音響無響室は、Kチャネルトレーニング信号のセットを記録するために使用できる。図38に、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、Head and Torso Simulator(HATS、デンマーク、Naerum、Bruel&Kjaer製)は、干渉ソース(すなわち、4つのラウドスピーカ)の内向きアレイ内に配置される。HATSの頭部は、代表的な人間の頭部と音響的に同様であり、スピーチ信号を再生するために口部にラウドスピーカを含む。干渉ソースのアレイは、図示のようにHATSを囲む拡散ノイズフィールドを生成するように駆動できる。1つのそのような例では、ラウドスピーカのアレイは、HATS耳参照ポイントまたは口参照ポイントにおいて75〜78dBの音圧レベルでノイズ信号を再生するように構成される。他の場合には、1つまたは複数のそのような干渉ソースは、様々な空間分布を有するノイズフィールド(たとえば、指向性ノイズフィールド)を生成するように駆動できる。
使用できるノイズ信号のタイプは、(たとえば、ニュージャージー州Piscataway、米国電気電子学会(IEEE)によって公表されたIEEE規格269−2001、「Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように)ホワイトノイズ、ピンクノイズ、グレーノイズ、Hothノイズを含む。使用できる他のタイプのノイズ信号は、ブラウンノイズ、ブルーノイズ、およびパープルノイズを含む。
P個のシナリオは、少なくとも1つの空間および/またはスペクトル特徴に関して互いに異なる。ソースおよびマイクロホンの空間構成は、少なくとも以下の方法、すなわち、他の1つまたは複数のソースに対するソースの配置および/または配向と、他の1つまたは複数のマイクロホンに対するマイクロホンの配置および/または配向と、マイクロホンに対するソースの配置および/または配向と、ソースに対するマイクロホンの配置および/または配向とのうちの任意の1つまたは複数でシナリオごとに異なることができる。P個のシナリオの中の少なくとも2つは、セットの中のマイクロホンまたはソースの少なくとも1つが、1つのシナリオにおいて、他のシナリオにおけるその位置または配向とは異なる位置または配向を有するように、異なる空間構成に配置されたマイクロホンおよびソースのセットに対応することができる。たとえば、P個のシナリオの中の少なくとも2つは、ユーザの口などの情報ソースに対する、K個のマイクロホンのアレイを有するハンドセットまたはヘッドセットなどのポータブル通信デバイスの異なる配向に関することができる。シナリオごとに異なる空間特徴は、ハードウェア制約(たとえば、デバイス上のマイクロホンのロケーション)、デバイスの予測される使用パターン(たとえば、典型的な予想されるユーザの保持姿勢)、および/または異なるマイクロホン位置および/またはアクティブ化(たとえば、3つ以上のマイクロホンの中の異なるペアをアクティブにすること)を含むことができる。
シナリオごとに異なることがあるスペクトル特徴は、少なくとも1つのソース信号のスペクトル成分(たとえば、異なるボイスからのスピーチ、異なる色のノイズ)と、マイクロホンの1つまたは複数の周波数応答とを少なくとも含む。上述の1つの特定の例では、シナリオの少なくとも2つは、マイクロホンの少なくとも1つに関して異なる(言い換えれば、1つのシナリオにおいて使用されるマイクロホンの少なくとも1つの代わりに、他のシナリオでは別のマイクロホンを使用するか、または全く使用しない)。そのような変動は、マイクロホンの周波数応答および/または位相応答の変化の予想される範囲にわたってロバストであり、および/またはマイクロホンの障害に対してロバストであるソリューションをサポートするために望ましい。
別の特定の例では、シナリオの少なくとも2つは、バックグラウンドノイズを含み、バックグラウンドノイズのシグナチャ(すなわち、周波数および/または時間にわたるノイズの統計値)に関して異なる。そのような場合、干渉ソースは、P個のシナリオの1つでは、1つの色(たとえば、白、ピンク、またはHoth)またはタイプ(たとえば、道路のノイズ、バブルのノイズ、または車のノイズの再生)のノイズを放出し、P個のシナリオのもう1つでは、別の色またはタイプのノイズ(たとえば、1つのシナリオではバブルのノイズ、および別のシナリオでは道路および/または車のノイズ)を放出するように構成することができる。
P個のシナリオの少なくとも2つは、実質的に異なるスペクトル成分を有する信号を生成する情報ソースを含むことができる。スピーチ適用例では、たとえば、2つの異なるシナリオにおける情報信号は、互いに10パーセント、20パーセント、30パーセント、さらには50パーセント以上異なる平均ピッチ(すなわち、シナリオの長さにわたる)を有する2つのボイスなどの異なるボイスとすることができる。シナリオごとに異なることがある別の特徴は、他の1つまたは複数のソースの出力振幅に対するソースの出力振幅である。シナリオごとに異なることがある別の特徴は、他の1つまたは複数のマイクロホンの利得感度に対するマイクロホンの利得感度である。
以下で説明するように、Kチャネルトレーニング信号のセットは、タスクT30においてフィルタ係数値の収束セットを得るために使用される。トレーニング信号の各々の持続時間は、トレーニング動作の予想される収束レートに基づいて選択できる。たとえば、収束に向かった著しい進展を可能にするのに十分長いが、他のトレーニング信号も収束ソリューションに実質的に寄与できるようにするのに十分短い、各トレーニング信号の持続時間を選択することが望ましい。典型的な適用例では、トレーニング信号の各々は、約1/2または1秒〜約5または10秒持続する。典型的なトレーニング動作では、トレーニング信号のコピーは、トレーニングに使用すべきサウンドファイルを得るためにランダムな順序で連結される。トレーニングファイルの典型的な長さは、10、30、45、60、75、90、100、および120秒を含む。
近距離シナリオ(たとえば、通信デバイスがユーザの口の近くに保持されるとき)では、遠距離シナリオ(たとえば、デバイスがユーザの口から遠くに保持されるとき)とは異なる振幅と遅延との関係が、マイクロホン出力間に存在することがある。P個のシナリオの範囲は、近距離シナリオと遠距離シナリオの両方を含むことが望ましい。以下に示すように、タスクT30は、異なるフィルタをトレーニングするために、近距離および遠距離シナリオからのトレーニング信号を使用するように構成できる。
P個の音響シナリオの各々では、(ITU−T勧告P.50、国際電気通信連合、スイス、ジュネーブ、1993年3月に記載されているように)ユーザの口の人工スピーチ、および/または(「IEEE Transactions on Audio and Electroacoustics」、第17巻、227〜46ページ、1969年において「IEEE Recommended Practices for Speech Quality Measurements」に記載されているように)Harvard Sentenceの1つまたは複数などの標準化された語彙を発しているボイスから複製することによって、情報信号をK個のマイクロホンに供給することができる。1つのそのような例では、スピーチは、89dBの音圧レベルでHATSの口部ラウドスピーカから再生される。P個のシナリオの少なくとも2つは、この情報信号に関して互いに異なることができる。たとえば、異なるシナリオは、実質的に異なるピッチを有するボイスを使用することができる。追加または代替として、P個のシナリオの少なくとも2つは、(たとえば、異なるマイクロホンに応答した変動に対してロバストである収束ソリューションをサポートするために)参照デバイスの異なる実例を使用することができる。
適用例の1つの特定のセットでは、K個のマイクロホンは、セルラー電話ハンドセットなどのワイヤレス通信用の携帯デバイスのマイクロホンである。図1Aおよび図1Bは、そのようなデバイスの2つの異なる動作構成を示し、図2〜図4Bは、これらの構成のための様々な異なる配向状態を示す。2つ以上のそのような配向状態を、P個のシナリオのうちの異なるシナリオにおいて使用することができる。たとえば、Kチャネルトレーニング信号の1つは、これらの2つの配向の一方においてマイクロホンによって生成される信号に基づき、Kチャネルトレーニング信号のもう1つは、これらの2つの配向の他方においてマイクロホンによって生成される信号に基づくことが望ましい。
(たとえば、各構成について収束フィルタ状態の別々のセットを得るために)デバイスの異なる動作構成の各々に対して方法M10の別々の実例を実行することも可能である。そのような場合、装置A200は、実行時に収束フィルタ状態の様々なセット(すなわち、フィルタバンク100の異なる実例)の中で選択するように構成できる。たとえば、装置A200は、デバイスが開いているか閉じているかを指示するスイッチの状態に対応するフィルタ状態のセットを選択するように構成できる。
適用例の別の特定のセットでは、K個のマイクロホンは、有線またはワイヤレスイヤホンあるいは他のヘッドセットのマイクロホンである。図9は、本明細書で説明する、そのようなヘッドセットの一例63を示す。そのようなヘッドセットのためのトレーニングシナリオは、上記でハンドセット適用例を参照しながら説明したように情報ソースおよび/または干渉ソースの任意の組合せを含むことができる。図9にヘッドセット取り付け可変性66によって示すように、P個のトレーニングシナリオのうちの異なるシナリオによってモデル化できる別の変動は、耳に対するトランスデューサ軸の変動する角度である。そのような変動は、実際問題としてユーザごとに生じることがある。そのような変動は、同じユーザがデバイスを着用する単一の期間に関してさえ生じることがある。そのような変動は、トランスデューサアレイからユーザの口への方向および距離を変化させることによって信号分離性能に悪影響を及ぼす場合があることが理解されよう。そのような場合、複数のKチャネルトレーニング信号の1つは、ヘッドセットが、取り付け角度の予想される範囲の1つの極値またはその近くの角度で耳65に取り付けられるシナリオに基づき、Kチャネルトレーニング信号のもう1つは、ヘッドセットが、取り付け角度の予想される範囲の他の極値またはその近くの角度で耳65に取り付けられるシナリオに基づくことが望ましい。P個のシナリオのうちの他のシナリオは、これらの極値間の中間の角度に対応する1つまたは複数の配向を含むことができる。
適用例のさらなるセットでは、K個のマイクロホンは、ハンズフリー車キットに設けられたマイクロホンである。図39に、ラウドスピーカ85がマイクロホンアレイ84に対して直角に配設された、そのような通信デバイス83の一例を示す。そのようなデバイスのためのP個の音響シナリオは、上記でハンドセット適用例を参照しながら説明したように、情報ソースおよび/または干渉ソースの任意の組合せを含むことができる。たとえば、図40に示すように、2つ以上のP個のシナリオは、マイクロホンアレイに対する所望のスピーカの配置において異なることができる。P個のシナリオの1つまたは複数はまた、ラウドスピーカ85から干渉信号を再生することを含むことができる。異なるシナリオは、時間的および/または周波数的に異なるシグナチャ(たとえば、実質的に異なるピッチ周波数)を有する音楽および/またはボイスなど、ラウドスピーカ85から再生される干渉信号を含むことができる。そのような場合、方法M10は、所望のスピーチ信号から干渉信号を分離する少なくとも1つのフィルタ状態を生成することが望ましい。P個のシナリオの1つまたは複数はまた、上述のように拡散または指向性ノイズフィールドなどの干渉を含むことができる。
適用例のさらなるセットでは、K個のマイクロホンは、ペン、スタイラス、または他の描画デバイス内に設けられたマイクロホンである。図41に、先端から到着し、先端と描画面81との間の接触によって起こるスクラッチノイズ82に対してマイクロホン80が縦形構成で配設された、そのようなデバイス79の一例を示す。そのような通信デバイスのためのP個のシナリオは、上記で適用例を参照しながら説明したように情報ソースおよび/または干渉ソースの任意の組合せを含むことができる。追加または代替として、異なるシナリオは、スクラッチノイズ82の異なる実例(たとえば、時間および/または周波数に関して異なるシグナチャを有する)を誘発するために、異なる表面上でデバイス79の先端を引くことを含むことができる。上述のようにハンドセットまたはヘッドセット適用例に比較して、そのような適用例では、方法M10は、情報ソース(すなわち、ユーザのボイス)ではなく干渉ソース(すなわち、スクラッチノイズ)を分離するフィルタ状態のセットを生成することが望ましい。そのような場合、分離された干渉は、後の処理ステージで所望の信号から除去できる(たとえば、本明細書で説明するようにノイズ基準として適用できる)。
方法M10によって生成される収束フィルタソリューションのセットの空間分離特性(たとえば、様々なビームパターンの形状および配向)は、タスクT10においてトレーニング信号を収集するために使用されるマイクロホンの相対特性に敏感であることがある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのK個のマイクロホンの利得を互いに対して較正することが望ましい。また、プロダクション中および/またはプロダクション後に、少なくとも各プロダクションデバイスのマイクロホンの利得を互いに対して較正することが望ましい。
個々のマイクロホン素子が音響的にうまく特徴づけられたとしても、素子を通信デバイスに取り付ける方法、および音響ポートの品質などのファクタの差により、同様のマイクロホン素子が実際の使用において大幅に異なる周波数および利得応答パターンを有することがある。したがって、マイクロホンアレイを通信デバイスに設置した後に、マイクロホンアレイのそのような較正を実行することが望ましい。
マイクロホンのアレイの較正は特殊なノイズフィールド内で実行でき、通信デバイスは、そのノイズフィールド内に特定の方法で配向される。図42に、両方のマイクロホン(それぞれ全方向または単方向とすることができる)が同じSPLレベルに等しく露出されるように、2点のソースノイズフィールドに置かれた2つのマイクロホンハンドセットの例を示す。プロダクションデバイス(たとえば、ハンドセット)の工場較正を実行するために使用できる他の較正エンクロージャおよび手順の例は、マルチマイクロホンデバイスの較正に限定した目的のために、参照により本明細書に組み込まれる、2008年6月30日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第61/077,144号に記載されている。参照デバイスのマイクロホンの周波数応答および利得を一致させることは、プロダクション中に音響空洞および/またはマイクロホン感度の変動を訂正するのを助けることができ、各プロダクションデバイスのマイクロホンを較正することも望ましい。
プロダクションデバイスのマイクロホンと参照デバイスのマイクロホンとが、同じ手順を使用して適切に較正されるようにすることが望ましい。代替的に、異なる音響較正手順をプロダクション中に使用することができる。たとえば、部屋サイズの無響室において実験室手順を使用して参照デバイスを較正すること、および工場の現場で(たとえば、上記で組み込まれる米国特許出願第61/077,144号に記載されているように)ポータブルチャンバにおいて各プロダクションデバイスを較正することが望ましい。プロダクション中に音響較正手順を実行することが可能でない場合には、自動利得マッチング手順を実行するようにプロダクションデバイスを構成することが望ましい。そのような手順の例は、マイクロホン較正の技法および/または実装の説明に限定された目的のために、参照により本明細書に組み込まれる、2008年6月2日に出願された、「SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES」と題する米国仮特許出願第61/058,132号に記載されている。
プロダクションデバイスのマイクロホンの特性は、時間とともに変動することがある。代替または追加として、そのようなデバイスのアレイ構造は、時間とともに機械的に変化することがある。したがって、サービス中に周期的に、または何らかの他のイベント(たとえば、ユーザ選択)時に、1つまたは複数のマイクロホン周波数特性および/または感度(たとえば、マイクロホン利得間の比)を一致させるように構成された較正ルーチンを通信デバイス内に含むことが望ましい。そのような手順の例は、上記で組み込まれる米国仮特許出願第61/058,132号に記載されている。
P個のシナリオの1つまたは複数は、指向性干渉ソースを与えるために、(たとえば、標準化された語彙を発する人工スピーチおよび/またはボイスによって)通信デバイスの1つまたは複数のラウドスピーカを駆動することを含むことができる。1つまたは複数のそのようなシナリオを含むことは、遠端オーディオ信号からの干渉に対する得られた収束フィルタソリューションのロバストネスをサポートするのを助けることができる。そのような場合、参照デバイスの1つまたは複数のラウドスピーカは、プロダクションデバイスのモデルと同じ、1つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。図1Aに示す動作構成では、そのようなシナリオは第1のスピーカSP10を駆動することを含むことができ、図1Bに示す動作構成では、そのようなシナリオは第2のスピーカSP20を駆動することを含むことができる。シナリオは、たとえば、図38に示す干渉ソースのアレイによって生成される拡散ノイズフィールドの追加または代替として、そのような干渉ソースを含むことができる。
代替または追加として、方法M10の実例は、上述のようにエコーキャンセラEC10のための1つまたは複数の収束フィルタセットを得るために実行できる。エコーキャンセラがフィルタバンク100の上流にある場合には、トレーニング信号の記録中にエコーキャンセラのトレーニングされたフィルタをフィルタバンク100に対して使用できる。エコーキャンセラがフィルタバンク100の下流にある場合には、トレーニング信号の記録中にフィルタバンク100のトレーニングされたフィルタをエコーキャンセラに対して使用できる。
無響室内に配置されたHATSを、タスクT10においてトレーニング信号を記録するための好適なテストデバイスとして説明するが、他の人型ロボットシミュレータまたは人間スピーカを所望のスピーチ生成ソースの代わりに使用することができる。そのような場合、(たとえば、可聴周波数の所望の範囲にわたるフィルタ係数行列をより良く調整するために)少なくともある量のバックグラウンドノイズを使用することが望ましい。デバイスの使用より前および/または使用中に、プロダクションデバイスに対してテストを実行することも可能である。たとえば、テストは、マイクロホンから口までの典型的な距離など、通信デバイスのユーザの特徴に基づいて、および/または予想される使用環境に基づいて個人化できる。一連の予め設定された「質問」をユーザ応答に対して設計することができ、たとえば、特定の特徴、形質、環境、使用などに対してシステムを調整するのを助けることができる。
タスクT20は、トレーニング信号のQ個のサブセットを得るためにトレーニング信号のセットの各々を分類し、Qは、タスクT30においてトレーニングすべきフィルタの数に等しい整数である。分類を各トレーニング信号のすべてのK個のチャネルに基づいて実行することができ、または分類を各トレーニング信号のK個のチャネルのすべてよりも少数のチャネルに限定することができる。KがMよりも大きい場合、たとえば、分類を各トレーニング信号のM個のチャネルの同じセット(すなわち、トレーニング信号を記録するために使用されたアレイのM個のマイクロホンの特定のセットから開始したチャネルのみ)に限定することが望ましい。
分類基準は先験的知識および/または発見的方法を含むことができる。1つのそのような例では、タスクT20は、トレーニング信号が記録されたシナリオに基づいて、各トレーニング信号を特定のサブセットに割り当てる。タスクT20では、近距離シナリオからのトレーニング信号を、遠距離シナリオからのトレーニング信号とは異なる1つまたは複数のサブセットに分類することが望ましい。別の例では、タスクT20は、トレーニング信号の2つ以上のチャネルの相対エネルギーに基づいてトレーニング信号を特定のサブセットに割り当てる。
代替または追加として、分類基準は、トレーニング信号を空間的に処理するために1つまたは複数の空間分離フィルタを使用することによって得られる結果を含むことができる。そのような1つまたは複数のフィルタは、タスクT30の前の反復によって生成される対応する1つまたは複数の収束フィルタ状態に従って構成できる。代替または追加として、1つまたは複数のそのようなフィルタは、本明細書で説明するようにビームフォーミングまたは結合BSS/ビームフォーミング方法に従って構成できる。たとえば、タスクT20では、Q個の空間分離フィルタのどれが信号のスピーチおよびノイズ成分の最良の分離を生成すると考えられるかに基づいて(たとえば、図14A〜図14Dを参照しながら上記で説明した基準に従って)、各トレーニング信号を分類することが望ましい。
タスクT20がトレーニング信号のすべてをQ個のサブセットに分類することができない場合、Qの値を増加させることが望ましい。代替的に、分類タスクT20の別の反復を実行する前に、トレーニング信号の新しいセットを得るため、分類基準の1つまたは複数を変更するため、および/または各トレーニング信号のM個のチャネルの異なるセットを選択するために、異なるマイクロホン配置について記録タスクT10を繰り返すことが望ましい。タスクT20は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。
タスクT30は、Q個のトレーニングサブセットの各々を使用して、それぞれのソース分離アルゴリズムに従って対応する適応フィルタ構造をトレーニングする(すなわち、対応する収束フィルタソリューションを計算する)。Q個のフィルタ構造の各々は、フィードフォワードおよび/またはフィードバック係数を含むことができ、有限インパルス応答(FIR)または無限インパルス応答(IIR)設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第12/197,924号に記載されている。タスクT30は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。
「ソース分離アルゴリズム(source separation algorithms)」という用語は、独立成分分析(ICA)、および独立ベクトル分析(IVA)などの関連する方法など、ブラインドソース分離アルゴリズムを含む。ブラインドソース分離(BSS)アルゴリズムは、ソース信号の混合のみに基づいて、(1つまたは複数の情報ソースおよび1つまたは複数の干渉ソースからの信号を含むことがある)個々のソース信号を分離する方法である。「ブラインド(blind)」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および/または干渉信号の1つまたは複数の統計値に関する仮定を含む。スピーチ適用例では、たとえば、当該のスピーチ信号は、通常、スーパーガウス分布(たとえば、高い尖度)を有すると仮定される。
典型的なソース分離アルゴリズムは、混合信号のセットを処理して、(A)信号とノイズの両方を有する結合チャネルと、(B)少なくとも1つのノイズ優位チャネルとを含む分離されたチャネルのセットを生成するように構成される。結合チャネルはまた、入力チャネルに比較して増加した信号対雑音比(SNR)を有することがある。タスクT30では、得られた出力信号において指向性成分のエネルギーが出力チャネルの1つに集中するように、指向性成分を有する入力信号をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。
BSSアルゴリズムの種類は、多変量ブラインドデコンボリューションアルゴリズムを含む。ソース分離アルゴリズムはまた、たとえば、マイクロホンアレイの軸に対する、ソース信号の1つまたは複数の各々の知られている方向などの他の先験的情報によって制限された、ICAおよびIVAなど、BSSアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマ(beamformers)と区別される。
本明細書に示すように、フィルタバンク100の空間分離フィルタの各々および/または適応フィルタ450の各々は、BSS、ビームフォーミング、または結合BSS/ビームフォーミング方法を使用して構成できる。BSS方法は、ICA、IVA、制約付きICA、または制約付きIVAのうちの少なくとも1つの実装形態を含むことができる。独立成分分析は、互いからおそらく独立している混合ソース信号(成分)を分離するための技法である。その簡略形態では、独立成分分析は、混合信号上の重みの「逆混合」行列を演算し、たとえば行列を混合信号で乗算して、分離された信号を生成する。重みは、初期値を割り当てられ、次いで、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ICAなどの方法は、ノイズソースからのスピーチ信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析(「IVA」)は関連する技法であり、ソース信号は、単一の可変ソース信号ではなくベクトルソース信号である。これらの技法は、各信号のソースに関する情報を必要としないので、「ブラインドソース分離」方法として知られる。ブラインドソース分離問題は、複数の独立ソースから来る混合信号を分離するアイデアに関連する。
(たとえば、フィルタバンク100、または適応フィルタ450の)Q個の空間分離フィルタの各々は、係数値が、ソース分離アルゴリズムから導出される学習規則を使用してタスクT30によって計算される、対応する適応フィルタ構造に基づく。図43Aに、2つのフィードバックフィルタC110およびC120を含む適応フィルタ構造FS10の2チャネル例のブロック図を示し、図43Bに、2つの直接フィルタD110およびD120をも含むフィルタ構造FS10の実装形態FS20のブロック図を示す。そのような構造をトレーニングするためにタスクT30によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする(たとえば、フィルタの出力チャネルの少なくとも1つによって含まれる情報量を最大にする)ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報(infomaxとしても知られる)、最大の尤度、および最大非ガウス性(たとえば、最大の尖度)がある。そのような適応構造、およびICAまたはIVA適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、2006年3月9日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第2006/0053002A1号、2006年3月1日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第60/777,920号、2006年3月1日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第60/777,900号、および「Systems and Methods for Blind Source Signal Separation」と題する国際特許公開第WO2007/100330A1号(Kimら)に記載されている。適応フィルタ構造、およびタスクT30においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第12/197,924号に記載されている。
Q個のフィルタの1つまたは複数(場合によってはすべて)は同じ適応構造に基づくことができ、そのような各フィルタは異なる学習規則に従ってトレーニングされる。代替的に、Q個のフィルタのすべては異なる適応フィルタ構造に基づくことができる。図43Aに示すフィードバック構造FS10をトレーニングするために使用できる学習規則の一例は、次のように表される。
Figure 2011508533
ここで、tは、時間サンプル指数を示し、h12(t)は、時間tにおけるフィルタC110の係数値を示し、h21(t)は、時間tにおけるフィルタC120の係数値を示し、記号
Figure 2011508533
は、時間領域畳み込み演算を示し、Δh12kは、出力値y(t)およびy(t)の計算に続くフィルタC110のk番目の係数値の変化を示し、Δh21kは、出力値y(t)およびy(t)の計算に続くフィルタC120のk番目の係数値の変化を示す。アクティブ化関数fを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。スピーチ適用例のためのアクティブ化信号fに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。
ICAおよびIVA技法は、非常に複雑なシナリオを解決するためにフィルタの適応を可能にするが、リアルタイムで適応するように構成された信号分離プロセスのために、これらの技法を実装することは常に可能または望ましいというわけではない。第1に、適応のために必要とされる収束時間および命令の数が、いくつかの適用例について極端に多いことがある。良好な初期条件の形態での先験的トレーニング知識の組込みは収束を加速することができるが、適用例によっては、適応は必要でないかまたは音響シナリオの一部にのみ必要である。第2に、入力チャネルの数が大きい場合、IVA学習規則は、非常にゆっくり収束し、極小値で止まる可能性がある。第3に、IVAのオンライン適応のための計算コストは法外に高いことがある。最後に、適応フィルタリングは、ユーザによって追加の残響として知覚されるか、処理方式の下流に取り付けられたスピーチ認識システムに有害なことがある、過渡分および適応利得変調に関連することがある。
線形マイクロホンアレイ処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロホンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロホンの1つは、所望のソース(たとえば、ユーザの口)に直接配向され、他のマイクロホンは、このソースから比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、ソースとセンサとの間のジオメトリ、または音声信号自体が知られていると仮定する。フィルタバンク100のフィルタの1つまたは複数は、データ従属またはデータ独立ビームフォーマ設計(たとえば、超指向性ビームフォーマ、最小2乗ビームフォーマ、または統計学的最適ビームフォーマ設計)に従って構成できる。データ独立ビームフォーマ設計の場合、(たとえば、ノイズ相関行列を同調させることによって)所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。
「一般化サイドローブ消去」(GSC)と呼ばれるロバストな適応ビーム成形の十分に研究された技法は、Hoshuyama, O.、Sugiyama, A.、Hirano, A.、「A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters」、IEEE Transactions on Signal Processing、第47巻、第10号、2677〜2684ページ、1999年10月において論じられている。一般化サイドローブ消去は、測定値のセットから単一の所望のソース信号をフィルタ除去することを目的とする。GSC原理のより完全な説明は、たとえば、Griffiths, L.J.、Jim, C.W.、「An alternative approach to linear constrained adaptive beamforming」、IEEE Transactions on Antennas and Propagation、第30巻、第1号、27〜34ページ、1982年1月に記載されている。
Q個のトレーニングサブセットの各々について、タスクT30は、学習規則に従って収束のためにそれぞれの適応フィルタ構造をトレーニングする。収束ソリューションが得られるまで、トレーニングサブセットの信号に応答したフィルタ係数値の更新を続けることができる。この動作中に、トレーニングサブセットの信号の少なくとも一部を、場合によっては異なる順序で、入力として2回以上フィルタ構造に提出することができる。たとえば、収束ソリューションが得られるまで、トレーニングサブセットをループで繰り返すことができる。収束はフィルタ係数値に基づいて判断できる。たとえば、フィルタ係数値がもはや変化しないとき、または、ある時間間隔にわたってフィルタ係数値の全変化がしきい値未満(代替的に、しきい値以下)のとき、フィルタが収束したと決定できる。収束はまた、相関測定を評価することによって監視できる。クロスフィルタを含むフィルタ構造では、1つのクロスフィルタの更新動作が、別のクロスフィルタの更新動作を続けながら終了することができるように、各クロスフィルタについて独立して収束を判断することができる。代替的に、クロスフィルタのすべてが収束するまで、各クロスフィルタの更新を続けることができる。
タスクT30において、フィルタが極小に収束する可能性があり、タスクT40において、対応する評価セット中の信号の1つまたは複数(場合によってはすべて)に対して、そのフィルタが機能しなくなる。そのような場合、異なるトレーニングパラメータ(たとえば、異なる学習レート、異なる幾何学的制約など)を使用して、タスクT30を少なくともそのフィルタについて繰り返すことができる。
タスクT40は、各フィルタの分離性能を評価することによって、タスクT30において生成されたQ個のトレーニングされたフィルタのセットを評価する。たとえば、タスクT40は、評価信号の1つまたは複数のセットに対するフィルタの応答を評価するように構成できる。そのような評価は、自動的におよび/または人間監視によって実行できる。タスクT40は、一般に、パーソナルコンピュータまたはワークステーションを使用して、通信デバイスの外部で実行される。
タスクT40は、評価信号の同じセットに対する各フィルタの応答を得るように構成できる。評価信号のこのセットは、タスクT30において使用されたトレーニングセットと同じトレーニングセットとすることができる。1つのそのような例では、タスクT40は、トレーニング信号の各々に対する各フィルタの応答を得る。代替的に、評価信号のセットは、トレーニングセットの信号とは異なるが同様である(たとえば、マイクロホンの同じアレイの少なくとも一部と、同じP個のシナリオの少なくとも一部を使用して記録される)Mチャネル信号のセットとすることができる。
タスクT40の異なる実装形態は、評価信号の異なるそれぞれのセットに対するQ個のトレーニングされたフィルタの少なくとも2つ(および、場合によってはすべて)の応答を得るように構成される。各フィルタの評価セットは、タスクT30において使用されたトレーニングセットと同じトレーニングセットとすることができる。1つのそのような例では、タスクT40は、そのそれぞれのトレーニングサブセット中の信号の各々に対する各フィルタの応答を得る。代替的に、評価信号の各セットは、対応するトレーニングサブセットの信号とは異なるが同様である(たとえば、マイクロホンの同じアレイの少なくとも一部と、同じシナリオの少なくとも1つまたは複数を使用して記録される)Mチャネル信号のセットとすることができる。
タスクT40は、1つまたは複数のメトリックの値に従ってフィルタ応答を評価するように構成できる。各フィルタ応答では、たとえば、タスクT40は、1つまたは複数のメトリックの各々の値を計算し、計算値をそれぞれのしきい値と比較するように構成できる。
フィルタを評価するために使用できるメトリックの一例は、(A)評価信号の元の情報成分(たとえば、HATSの口部ラウドスピーカから再生されるスピーチ信号)と、(B)その評価信号に対するフィルタの応答の少なくとも1つのチャネルとの間の相関である。そのようなメトリックは、収束フィルタ構造が、情報を干渉からどのくらいうまく分離するかを示すことができる。この場合、情報成分がフィルタ応答のM個のチャネルの1つと実質的に相関し、他のチャネルとの相関をほとんど有しないとき、分離が示される。
フィルタを評価する(たとえば、フィルタが情報を干渉からどのくらいうまく分離するかを示す)ために使用できるメトリックの他の例には、たとえば分散などの統計特性、ガウス性、および/または尖度などの高次の統計モーメントがある。スピーチ信号に使用できるメトリックの追加の例には、ゼロ交差レートおよび時間的なバースト性(時間スパーシティ(time sparsity)としても知られる)がある。一般に、スピーチ信号は、ノイズ信号よりも低いゼロ交差レートおよび低い時間スパーシティを示す。フィルタを評価するために使用できるメトリックのさらなる一例は、評価信号の記録中のマイクロホンのアレイに対する情報または干渉ソースの実際のロケーションが、その評価信号に対するフィルタの応答によって示されるビームパターン(またはヌルビームパターン)と合致する度合いである。タスクT40において使用されるメトリックは、装置A200の対応する実装形態において使用される分離測定(たとえば、状態推定器402、404、406、408、および414を参照しながら上述した分離測定の1つまたは複数)を含むか、またはそれに限定されることが望ましい。
タスクT40は、各計算されたメトリック値を対応するしきい値と比較するように構成できる。そのような場合、各メトリックの計算値がそれぞれのしきい値を上回れば(代替的に、少なくともしきい値に等しければ)、フィルタは信号の適切な分離結果を生成すると言うことができる。複数のメトリックのそのような比較方式において、1つまたは複数の他のメトリックの計算値が高いとき、1つのメトリックのしきい値を低減することができることを、当業者なら認識するであろう。
タスクT40は、各評価信号に対して、Q個のトレーニングされたフィルタの少なくとも1つが適切な分離結果を生成することを検証するように構成できる。たとえば、タスクT40は、Q個のトレーニングされたフィルタの各々が、そのそれぞれの評価セット中の各信号に対して適切な分離結果を与えることを検証するように構成できる。
代替的に、タスクT40は、評価信号のセット中の各信号に対して、Q個のトレーニングされたフィルタの適切な1つが、Q個のトレーニングされたフィルタのすべての中で最良の分離性能を与えることを検証するように構成できる。たとえば、タスクT40は、Q個のトレーニングされたフィルタの各々が、評価信号のそのそれぞれのセット中の信号のすべてに対して、Q個のトレーニングされたフィルタのすべての中で最良の分離性能を与えることを検証するように構成できる。評価信号のセットがトレーニング信号のセットと同じである場合には、タスクT40は、各評価信号に対して、その信号を使用してトレーニングされたフィルタが最良の分離結果を生成することを検証するように構成できる。
タスクT40はまた、状態推定器400(たとえば、プロダクションデバイスで使用すべき状態推定器400の実装形態)を使用してフィルタ応答を分類することによって、フィルタ応答を評価するように構成できる。1つのそのような例では、タスクT40は、トレーニング信号のセットの各々に対するQ個のトレーニングされたフィルタの各々の応答を得る。これらのトレーニング信号の各々について、得られたQ個のフィルタ応答は、対応する配向状態を示す状態推定器400に供給される。タスクT40は、配向状態の得られたセットが、タスクT20からの対応するトレーニング信号の分類に一致するかどうか(または、どのくらいうまく一致するか)を判断する。
タスクT40は、トレーニングされたフィルタQの数の値を変化させるように構成できる。たとえば、タスクT40は、Q個のトレーニングされたフィルタの2つ以上が適切な分離結果を生成する評価信号の数(または割合)が、しきい値を上回る(代替的に、少なくともしきい値に等しい)場合、Qの値を低減するように構成できる。代替または追加として、不十分な分離性能が見られる評価信号の数(または割合)がしきい値を上回る(代替的に、少なくともしきい値に等しい)場合、タスクT40はQの値を増加させるように構成できる。
タスクT40が評価信号の一部のみに対して機能しない可能性があり、タスクT40がパスした複数の評価信号に適した、対応するトレーニングされた1つまたは複数のフィルタを保持することが望ましい。そのような場合、方法M10を繰り返して、他の評価信号に対するソリューションを得ることが望ましい。代替的に、タスクT40が機能しなかった信号を特殊な場合として無視することができる。
タスクT40では、収束フィルタソリューションのセットが、TIA−810−B(たとえば、バージニア州Arlington、米国電気通信工業会によって公表された2006年11月版)などの規格文書で指定された送信応答公称ラウドネス曲線など、他の性能基準に準拠することを検証することが望ましい。
方法M10は一般に反復的設計プロセスであり、タスクT40において所望の評価結果が得られるまで、タスクT10、T20、T30、およびT40の1つまたは複数を変更し、繰り返すことが望ましい。たとえば、方法M10の反復は、タスクT30において新しいトレーニングパラメータを使用すること、タスクT30において新しい区分を使用すること、および/またはタスクT10において新しいトレーニングデータを記録することを含むことができる。
参照デバイスは、プロダクションデバイスよりも多くのマイクロホンを有することが可能である。たとえば、参照デバイスはK個のマイクロホンのアレイを有することができ、各プロダクションデバイスはM個のマイクロホンのアレイを有する。最小数の固定のフィルタセットが、最大数のユーザデバイス保持パターンのセット、またはその中の少なくとも最も一般的なユーザデバイス保持パターンからトレーニング信号を適切に分離することができるように、マイクロホン配置(またはKチャネルマイクロホンアレイのサブセット)を選択することが望ましい。1つのそのような例では、タスクT40は、タスクT30の次の反復のためのM個のチャネルのサブセットを選択する。
タスクT40において、Q個のトレーニングされたフィルタセットについて所望の評価結果が得られると、それらのフィルタ状態をフィルタバンク100のフィルタの固定の状態としてプロダクションデバイスにロードすることができる。上述のように、各プロダクションデバイスにおいて、実験室、工場、または自動(たとえば、自動利得整合)較正手順など、マイクロホンの利得および/または周波数応答を較正するための手順を実行することも望ましい。
方法M10において生成されるQ個のトレーニングされたフィルタを、トレーニング信号の別のセットをフィルタ処理するために使用することもでき、(たとえば、適応フィルタ450の1つまたは複数の成分フィルタについて)適応フィルタ450の初期条件を計算するために参照デバイスを使用して記録することもできる。適応フィルタの初期条件のそのような計算の例は、適応フィルタの設計、トレーニング、および/または実装形態の説明に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号の、たとえば、段落[00129]〜[00135](「It may be desirable」で開始し「cancellation in parallel」で終了する)に記載されている。そのような初期条件はまた、(たとえば、フィルタバンク100のトレーニングされたフィルタに関して)プロダクション中に、同じまたは同様のデバイスの他の実例にロードできる。同様に、方法M10の実例を実行して、以下で説明するフィルタバンク200のフィルタの収束フィルタ状態を得ることができる。
前述の装置A200の実装形態は、状態推定と出力信号S40の生成との両方ために単一のフィルタバンクを使用する。状態推定と出力生成とに異なるフィルタバンクを使用することが望ましい。たとえば、状態推定フィルタバンクには連続的に実行する、より複雑でないフィルタを使用し、出力生成フィルタバンクには必要に応じてのみ実行する、より複雑なフィルタを使用することが望ましい。そのような手法は、適用例および/または性能基準によっては、より低い電力コストでより良い空間処理性能を提供することができる。フィルタのそのような選択的アクティブ化はまた、異なる時間に(たとえば、フィルタ係数値の異なるセットをロードすることによって)異なるフィルタと同じフィルタ構造の使用をサポートするために適用できることも、当業者なら認識するであろう。
図44に、本明細書で説明するフィルタバンク100(各フィルタF10−1〜F10−nは、n個のMチャネル空間処理済み信号S20−1〜S20−nの対応する1つを生成するように構成される)と、出力生成フィルタバンク200とを含む、一般的構成による装置A100のブロック図を示す。(上述の設計手順においてフィルタバンク100のフィルタとともに得られた)フィルタバンク200のフィルタF20−1〜F20−nの各々は、入力信号S10に基づくMチャネル信号を受信し、処理し、Mチャネル空間処理済み信号S30−1〜S30−nの対応する1つを生成するように構成される。スイッチング機構300は、(たとえば、状態推定器400を参照しながら本明細書で説明するように)現在どのフィルタF10−1〜F10−nが入力信号S10の所望の成分とノイズ成分とを最も良く分離するかを判断し、(たとえば、遷移制御モジュール500を参照しながら本明細書で説明するように)信号S30−1〜S30−nの少なくとも対応する選択された1つに基づく出力信号S40を生成するように構成される。スイッチング機構300はまた、たとえば、その出力が出力信号S40に現在寄与しているフィルタのみが現在アクティブであるようにフィルタF20−1〜F20−nの個々のフィルタを選択的にアクティブにするように構成できる。したがって、どの時点においても、フィルタバンク200は、信号S30−1〜S30−nのn個よりも少ない(および場合によっては1つまたは2つのみの)信号を出力している。
図45に、フィルタバンク240のフィルタF26−1がフィルタバンク140のフィルタF16−1に対応し、フィルタバンク240のフィルタF26−2がフィルタバンク140のフィルタF16−2に対応するように、フィルタバンク100の2フィルタ実装形態140とフィルタバンク200の2フィルタ実装形態240とを含む、装置A100の実装形態A110のブロック図を示す。フィルタバンク140の対応するフィルタのより長い、あるいはより複雑なバージョンとしてフィルタバンク240の各フィルタを実装することが望ましく、そのような対応するフィルタの(たとえば、図5および図6A〜図6Cの図に示す)空間処理エリア同士は少なくともほぼ一致することが望ましい。
装置A110はまた、状態推定器400の実装形態420と遷移制御モジュール500の2フィルタ実装形態510とを有するスイッチング機構300の実装形態305を含む。この特定の例では、状態推定器420は、必要な場合のみフィルタを使用可能にするように、制御信号S90の実例S90−1およびS90−2の対応する1つをフィルタバンク240の各フィルタに出力するように構成される。たとえば、状態推定器420は、(A)推定状態S50が、そのフィルタに対応する配向状態を示す期間中、および(B)遷移制御モジュール510が、そのフィルタの出力に遷移するか、またはそのフィルタの出力から遷移するように構成されたマージ間隔中に、対応するフィルタを使用可能にするように、(一般にバイナリ値である)制御信号S90の各実例を生成するように構成できる。したがって、状態推定器420は、現在および前の推定状態、関連する遅延およびマージ間隔、および/またはフィルタバンク200の対応するフィルタの長さなどの情報に基づいて、各制御信号を生成するように構成できる。
図46に、フィルタバンク250のフィルタF28−1がフィルタバンク150のフィルタF18−1に対応し、フィルタバンク250のフィルタF28−2がフィルタバンク150のフィルタF18−2に対応するように、フィルタバンク100の2フィルタ実装形態150とフィルタバンク200の2フィルタ実装形態250とを含む、装置A100の実装形態A120のブロック図を示す。この場合、フィルタリングは2つのステージにおいて実行され、第2のステージ(すなわち、フィルタバンク250)のフィルタは、(たとえば、上述のように、そのフィルタの選択中およびそのフィルタの出力への遷移またはそのフィルタの出力からの遷移中に)必要な場合のみ使用可能にされる。フィルタバンクはまた、フィルタバンク150のフィルタが固定であり、フィルタバンク250のフィルタが適応型であるように実装できる。ただし、各2ステージのフィルタの(たとえば、図5および図6A〜図6Cの図に示す)空間処理エリアがフィルタバンク100のフィルタの対応する1つの空間処理エリアと少なくともほぼ一致するように、フィルタバンク250のフィルタを実装することが望ましい。装置A200の実装形態の使用が開示される本明細書のどの文脈でも、装置A100の類似の実装形態の置換を実行することができ、すべてのそのような組合せおよび構成が明確に企図され、本明細書によって開示されることを、当業者なら認識するであろう。
図47に、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法M100のフローチャートを示す。方法M100は、入力信号に第1の空間処理フィルタを適用するタスクT110と入力信号に第2の空間処理フィルタを適用するタスクT120とを含む。方法M100はまた、タスクT130とT140とを含む。1回目に、タスクT130は、第1の空間処理フィルタが第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離すると判断する。この判断に応答して、タスクT140は、空間フィルタ処理済み出力信号として第1の空間処理済み信号に基づく信号を生成する。方法M100はまた、タスクT150とT160とを含む。1回目に続いて2回目に、タスクT150は、第2の空間処理フィルタが第1の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離すると判断する。この判断に応答して、タスクT160は、空間フィルタ処理済み出力信号として第2の空間処理済み信号に基づく信号を生成する。本方法では、第1および第2の空間処理済み信号は、入力信号に基づく。
上述の装置A100を使用して、方法M100の実装形態を実行することができる。そのような場合、タスクT110およびT120において適用される第1および第2の空間処理フィルタは、フィルタバンク100の2つの異なるフィルタである。スイッチング機構300を使用して、第1の空間処理済み信号が、タスクT110において適用されたフィルタバンク100のフィルタに対応するフィルタバンク200のフィルタの出力となるように、タスクT130およびT140を実行することができる。スイッチング機構300を使用して、第2の空間処理済み信号が、タスクT120において適用されたフィルタバンク100のフィルタに対応するフィルタバンク200のフィルタの出力となるように、タスクT150およびT160を実行することもできる。
上述の装置A200を使用して、方法M100の実装形態を実行することができる。そのような場合、タスクT110において使用されるフィルタバンク100のフィルタはまた、タスクT140において出力信号が基づく第1の空間処理済み信号を生成し、タスクT120において使用されるフィルタバンク100のフィルタはまた、タスクT160において出力信号が基づく第2の空間処理済み信号を生成する。
図48に、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置F100のブロック図を示す。装置F100は、(たとえば、フィルタバンク100とタスクT110およびT120とを参照しながら上述したように)入力信号に対して第1の空間処理演算を実行するための手段F110と、入力信号に対して第2の空間処理演算を実行するための手段F120とを含む。装置F100はまた、(たとえば、状態推定器400およびタスクT130を参照しながら上述したように)1回目に、第1の空間処理演算を実行するための手段が第2の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離すると判断するための手段F130と、(たとえば、遷移制御モジュール500およびタスクT140を参照しながら上述したように)そのような判断に応答して、出力信号として第1の空間処理済み信号に基づく信号を生成するための手段F140とを含む。装置F100はまた、(たとえば、状態推定器400およびタスクT150を参照しながら上述したように)1回目に続いて2回目に、第2の空間処理演算を実行するための手段が第1の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離すると判断するための手段F150と、(たとえば、遷移制御モジュール500およびタスクT160を参照しながら上述したように)そのような判断に応答して、出力信号として第2の空間処理済み信号に基づく信号を生成するための手段F160とを含む。
図49に、本明細書で開示する装置A100またはA200の実装形態を含むことができる通信デバイスC100の一例のブロック図を示す。デバイスC100は、アンテナC30を介して高周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し、ラウドスピーカSP10を介して再生するように構成されたチップまたはチップセットCS10(たとえば、本明細書で説明するMSMチップセット)を含む。チップ/チップセットCS10はまた、M個のマイクロホン(2つを図示、MC10およびMC20)のアレイを介してMチャネルオーディオ信号を受信し、装置A100またはA200の内部実装形態を使用してMチャネル信号を空間的に処理し、得られたオーディオ信号を符号化し、アンテナC30を介して符号化オーディオ信号を表すRF通信信号を送信するように構成される。デバイスC100はまた、アンテナC30への経路中にダイプレクサと1つまたは複数の電力増幅器とを含むことができる。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスC100はまた、Global Positioning System(GPS)ロケーションサービスおよび/またはワイヤレス(たとえば、Bluetooth(登録商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートする1つまたは複数のアンテナC40を含む。別の例では、そのような通信デバイスは、それ自体でBluetoothヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、状態図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願される添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に合致する最も広い範囲を与えられるべきである。
本明細書で開示する装置の実装形態の様々な要素は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで実施できる。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップの間に存在する電子デバイスおよび/または光デバイスとして製造できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定またはプログラマブルなアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装できる。これらの要素の任意の2つ以上、さらにはすべてを同じ1つまたは複数のアレイ内に実装することができる。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装できる。
本明細書で開示する装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定的なアレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装することもできる。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)として実施することもでき、これらの要素の任意の2つ以上、さらにはすべてを同じそのような1つまたは複数のコンピュータ内に実装することができる。
本明細書で開示する構成に関連して説明する様々な例示的な論理ブロック、モジュール、回路、および動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装できることを、当業者なら理解されよう。そのような論理ブロック、モジュール、回路、および動作は、本明細書で説明する機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行できる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装できる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読み取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はASIC中に常駐することができる。ASICはユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体はユーザ端末中の個別構成要素として常駐することができる。
(たとえば、本明細書で開示する装置の様々な実装形態の動作の説明によって)本明細書で開示する様々な方法は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装できることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むものと理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶でき、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信できる。
本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとして有形に実施することもできる。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含むことができる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または所望の情報を記憶するために使用でき、アクセスできる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号をも含むことができる。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードできる。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクの1つ、複数、さらにはすべてを実行するように構成される。タスクの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって可読および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)として実装することもできる。本明細書で開示する方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によって実行することもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行することができる。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成できる。たとえば、そのようなデバイスは、符号化フレームを受けるように構成されたRF回路を含むことができる。
本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行でき、本明細書に記載の様々な装置は、そのようなデバイスに含めることができることが明白に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話通話である。
1つまたは複数の例示的な実施形態では、説明した機能はハードウェア、ソフトウェア、ファームウェア、またはその任意の組合せで実装できる。ソフトウェアで実装する場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶するか、あるいはコンピュータ可読媒体を介して送信することができる。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体でよい。限定ではなく、例として、そのようなコンピュータ可読媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含むことができる)半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの一連の記憶要素、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で担持または記憶するために使用でき、コンピュータによってアクセスできる、任意の他の媒体を備えることができる。さらに、いかなる接続も正しくはコンピュータ可読媒体と呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイ(登録商標)ディスク(disc)(ブルーレイディスクアソシエーション、カリフォルニア州Universal City)を含み、この場合、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記のものの組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
本明細書で説明する音響信号処理装置は、いくつかの機能を制御するためにスピーチ入力を受容し、あるいはバックグラウンドノイズから所望のノイズを分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込むことができる。多くの適用例では、複数の方向発のバックグラウンドサウンドから明瞭な所望のサウンドを強調または分離することから利益を得ることができる。そのような適用例では、ボイス認識および検出、スピーチ強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたは計算デバイスにヒューマンマシンインターフェースを含むことができる。限定された処理機能をのみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい。
本明細書で説明するモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ上に存在する電子デバイスおよび/または光学デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定またはプログラマブルなアレイである。本明細書で説明する装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど論理要素の1つまたは複数の固定またはプログラマブルなアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装することもできる。
本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。たとえば、VAD20−1、20−2、および/または70は、異なる時間に同じ構造を含むように実装できる。別の例では、フィルタバンク100および/またはフィルタバンク200の実装の1つまたは複数の空間分離フィルタは、(たとえば、異なる時間にフィルタ係数値の異なるセットを使用して)異なる時間に同じ構造を含むように実装できる。

Claims (50)

  1. Mが1よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法であって、
    前記入力信号に第1の空間処理フィルタを適用することと、
    前記入力信号に第2の空間処理フィルタを適用することと、
    1回目に、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、
    前記1回目に前記判断することに応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成することと、
    前記1回目に続いて2回目に、前記第2の空間処理フィルタが前記第1の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、
    前記2回目に前記判断することに応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成することとを備え、
    前記第1および第2の空間処理済み信号が前記入力信号に基づく、
    方法。
  2. 前記第1および第2の空間処理フィルタのうちの少なくとも一方の複数の係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、
    請求項1に記載の方法。
  3. 前記第1および第2の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、
    請求項1に記載の方法。
  4. 前記第1の空間処理フィルタの複数の前記係数値が、第1の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づき、
    前記第2の空間処理フィルタの複数の前記係数値が、前記第1の複数のシナリオとは異なる第2の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、
    請求項1に記載の方法。
  5. 前記入力信号に前記第1の空間処理フィルタを前記適用することが前記第1の空間処理済み信号を生成し、前記入力信号に前記第2の空間処理フィルタを前記適用することが前記第2の空間処理済み信号を生成する、
    請求項1に記載の方法。
  6. 前記出力信号として第1の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第1の空間処理済み信号を生成することを備え、
    前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第2の空間処理済み信号を生成することを備える、
    請求項5に記載の方法。
  7. 前記第1の空間処理フィルタが係数値の第1の行列によって特徴づけられ、前記第2の空間処理フィルタが係数値の第2の行列によって特徴づけられ、
    前記第2の行列が、前記第1の行列を中央垂直軸に関して反転した結果に少なくとも実質的に等しい、
    請求項1に記載の方法。
  8. 前記方法が、前記1回目の直後の第1の遅延間隔にわたって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、
    前記出力信号として第1の空間処理済み信号に基づく信号を前記生成することが、前記第1の遅延間隔の後に開始される、
    請求項1に記載の方法。
  9. 前記方法が、前記2回目の直後の第2の遅延間隔にわたって、前記第2の空間処理フィルタが前記第1の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、
    前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、前記第2の遅延間隔の後に実行され、
    前記第2の遅延間隔が前記第1の遅延間隔より長い、
    請求項8に記載の方法。
  10. 前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移することを含み、
    前記遷移することが、前記第1のマージ間隔中に、前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成することを含む、
    請求項1に記載の方法。
  11. 前記方法が、
    前記入力信号に第3の空間処理フィルタを適用することと、
    2回目に続いて3回目に、第3の空間処理フィルタが第1の空間処理フィルタよりも良好に、かつ、第2の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、
    前記3回目に前記判断することに応答して、出力信号として第3の空間処理済み信号に基づく信号を生成することとを備え、
    前記第3の空間処理済み信号が前記入力信号に基づく、
    請求項1に記載の方法。
  12. 前記出力信号として第2の空間処理済み信号に基づく信号を前記生成することが、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移することを含み、
    前記出力信号として第3の空間処理済み信号に基づく信号を前記生成することが、第2のマージ間隔にわたって、前記出力信号を前記第2の空間処理済み信号に基づく前記信号から前記第3の空間処理済み信号に基づく信号に前記遷移することを含み、
    前記第2のマージ間隔が前記第1のマージ間隔より長い、
    請求項11に記載の方法。
  13. 前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、
    前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、
    1回目に前記判断することが、前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することを含む、
    請求項1に記載の方法。
  14. 前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、
    前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、
    1回目に前記判断することが、前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値より小さいことを検出することを含む、
    請求項1に記載の方法。
  15. 前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、
    前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、
    1回目に前記判断することが、前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することを含む、
    請求項1に記載の方法。
  16. 前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、
    前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、
    1回目に前記判断することが、前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することを含む、
    請求項1に記載の方法。
  17. 前記入力信号に第1の空間処理フィルタを前記適用することが第1のフィルタ処理済み信号を生成し、
    前記入力信号に第2の空間処理フィルタを前記適用することが第2のフィルタ処理済み信号を生成し、
    1回目に前記判断することが、前記入力信号の2つのチャネル間の到着時間差を計算することを含む、
    請求項1に記載の方法。
  18. 前記方法が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用することを備える、
    請求項1に記載の方法。
  19. Mが1よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置であって、
    前記入力信号に対して第1の空間処理演算を実行するための手段と、
    前記入力信号に対して第2の空間処理演算を実行するための手段と、
    1回目に、第1の空間処理演算を実行するための前記手段が第2の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、
    1回目に判断するための前記手段からの指示に応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成するための手段と、
    前記1回目に続いて2回目に、第2の空間処理演算を実行するための前記手段が第1の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、
    2回目に判断するための前記手段からの指示に応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成するための手段と、を備え、
    前記第1および第2の空間処理済み信号が前記入力信号に基づく、
    装置。
  20. (A)第1の空間処理演算を実行するための前記手段と、(B)第2の空間処理演算を実行するための前記手段と、の中の少なくとも1つの複数の前記係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、
    請求項19に記載の装置。
  21. 前記入力信号に対して前記第1の空間処理演算を実行するための前記手段が、前記第1の空間処理済み信号を生成するように構成され、前記入力信号に対して前記第2の空間処理演算を実行するための前記手段が、前記第2の空間処理済み信号を生成するように構成され、
    前記出力信号として第1の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第1の空間処理済み信号を生成するように構成され、
    前記出力信号として第2の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第2の空間処理済み信号を生成するように構成された、
    請求項19に記載の装置。
  22. 前記装置が、前記1回目の直後の第1の遅延間隔にわたって、第1の空間処理演算を実行するための前記手段が第2の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するための手段を備え、
    前記出力信号として第1の空間処理済み信号に基づく前記信号を生成するための前記手段が、前記第1の遅延間隔の後に前記信号を生成し始めるように構成された、
    請求項19に記載の装置。
  23. 前記出力信号として第2の空間処理済み信号に基づく信号を生成するための前記手段が、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移するための手段を含み、
    遷移するための前記手段が、前記第1のマージ間隔中に、前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成するように構成された、
    請求項19に記載の装置。
  24. 前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、
    前記入力信号に対して第2の空間処理演算を実行するための前記手段が第2のフィルタ処理済み信号を生成し、
    前記1回目に判断するための手段が、前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出するための手段を含む、
    請求項19に記載の装置。
  25. 前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、
    前記入力信号に対して前記第2の空間処理演算を実行するための手段が第2のフィルタ処理済み信号を生成し、
    1回目に判断するための前記手段が、前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値よりも小さいことを検出するための手段を含む、
    請求項19に記載の装置。
  26. 前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、
    前記入力信号に対して第2の空間処理演算を実行するための前記手段が第2のフィルタ処理済み信号を生成し、
    1回目に判断するための前記手段が、前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出するための手段を含む、
    請求項19に記載の装置。
  27. 前記入力信号に対して第1の空間処理演算を実行するための前記手段が第1のフィルタ処理済み信号を生成し、
    前記入力信号に対して第2の空間処理演算を実行するための前記手段が第2のフィルタ処理済み信号を生成し、
    1回目に判断するための前記手段が、前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出するための手段を含む、
    請求項19に記載の装置。
  28. 前記装置が、前記入力信号が基づくMチャネル信号を生成するように構成されたマイクロホンアレイを備える、
    請求項19に記載の装置。
  29. 前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用するための手段を備える、
    請求項19に記載の装置。
  30. Mが1よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理するための装置であって、
    前記入力信号をフィルタ処理するように構成された第1の空間処理フィルタと、
    前記入力信号をフィルタ処理するように構成された第2の空間処理フィルタと、
    1回目に、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器と、
    1回目の前記指示に応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールとを備え、
    前記状態推定器が、前記1回目に続いて2回目に、前記第2の空間処理フィルタが前記第1の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成され、
    前記遷移制御モジュールが2回目の前記指示に応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成するように構成され、
    前記第1および第2の空間処理済み信号が前記入力信号に基づく、
    装置。
  31. 前記第1および第2の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、
    請求項30に記載の装置。
  32. 前記第1の空間処理フィルタが前記入力信号に応答して前記第1の空間処理済み信号を生成するように構成され、前記第2の空間処理フィルタが前記入力信号に応答して前記第2の空間処理済み信号を生成するように構成され、
    前記遷移制御モジュールが、前記出力信号として第1の空間処理済み信号を生成することによって、前記出力信号として前記第1の空間処理済み信号に基づく信号を生成するように構成され、
    前記遷移制御モジュールが、前記出力信号として第2の空間処理済み信号を前記生成することによって、前記出力信号として前記第2の空間処理済み信号に基づく信号を生成するように構成された、
    請求項30に記載の装置。
  33. 前記状態推定器が、前記1回目の直後の第1の遅延間隔にわたって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するように構成され、
    前記遷移制御モジュールが、前記第1の遅延間隔中に前記出力信号として前記第2の空間処理済み信号に基づく信号を生成するように構成され、
    前記遷移制御モジュールが、前記第1の遅延間隔の後に前記出力信号として前記第1の空間処理済み信号に基づく前記信号を生成するように構成された、
    請求項30に記載の装置。
  34. 前記遷移制御モジュールが、第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から第2の空間処理済み信号に基づく信号に遷移することによって、前記出力信号として前記第2の空間処理済み信号に基づく前記信号を生成するように構成され、
    前記第1のマージ間隔中に、前記状態遷移モジュールが前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成するように構成された、
    請求項30に記載の装置。
  35. 前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、
    前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、
    前記状態推定器が、前記1回目に、前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
    請求項30に記載の装置。
  36. 前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、
    前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、
    前記状態推定器が、前記1回目に、前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値よりも小さいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
    請求項30に記載の装置。
  37. 前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、
    前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、
    前記状態推定器が、前記1回目に、前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
    請求項30に記載の装置。
  38. 前記第1の空間処理フィルタが前記入力信号に応答して第1のフィルタ処理済み信号を生成するように構成され、
    前記第2の空間処理フィルタが、前記入力信号に応答して第2のフィルタ処理済み信号を生成するように構成され、
    前記状態推定器が、前記1回目に、前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することによって、前記第1の空間処理フィルタが前記第2の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
    請求項30に記載の装置。
  39. 前記装置が、前記入力信号が基づくMチャネル信号を生成するように構成されたマイクロホンアレイを備える、
    請求項30に記載の装置
  40. 前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用するように構成されたノイズ低減フィルタを備える、
    請求項30に記載の装置。
  41. プロセッサによって実行されると、前記プロセッサに、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むMチャネル入力信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、Mが1よりも大きい整数であり、前記命令が、プロセッサによって実行されると、前記プロセッサに、
    前記入力信号に対して第1の空間処理演算を実行させ、
    前記入力信号に対して第2の空間処理演算を実行させ、
    1回目に、前記第1の空間処理演算が前記第2の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、
    1回目の前記指示に応答して、前記出力信号として第1の空間処理済み信号に基づく信号を生成させ、
    前記1回目に続いて2回目に、前記第2の空間処理演算が前記第1の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、
    2回目の前記指示に応答して、前記出力信号として第2の空間処理済み信号に基づく信号を生成させ、
    前記第1および第2の空間処理済み信号が前記入力信号に基づく、
    コンピュータ可読媒体。
  42. 前記第1および第2の空間処理演算のうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束したフィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、
    請求項41に記載のコンピュータ可読媒体。
  43. プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第1の空間処理演算を実行させる前記命令が、前記プロセッサに前記第1の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第2の空間処理演算を実行させる前記命令が、前記プロセッサに前記第2の空間処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに前記出力信号として第1の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第1の空間処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに前記出力信号として第2の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第2の空間処理済み信号を生成させる、
    請求項41に記載のコンピュータ可読媒体。
  44. 前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記1回目の直後の第1の遅延間隔にわたって、前記第1の空間処理演算が前記第2の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断させる命令を備え、
    プロセッサによって実行されると、前記プロセッサに前記出力信号として第1の空間処理済み信号に基づく前記信号を生成させる前記命令が、前記プロセッサに前記第1の遅延間隔の後に前記信号を生成し始めさせる、
    請求項41に記載のコンピュータ可読媒体。
  45. プロセッサによって実行されると、前記プロセッサに前記出力信号として第2の空間処理済み信号に基づく信号を生成させる前記命令が、プロセッサによって実行されると、前記プロセッサに第1のマージ間隔にわたって、前記出力信号を、前記第1の空間処理済み信号に基づく前記信号から前記第2の空間処理済み信号に基づく信号に遷移させる命令を含み、
    プロセッサによって実行されると、前記プロセッサに遷移させる前記命令が、プロセッサによって実行されると、前記プロセッサに、前記第1のマージ間隔中に、前記出力信号として前記第1および第2の空間処理済み信号の両方に基づく信号を生成させる命令を含む、
    請求項41に記載のコンピュータ可読媒体。
  46. プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記入力信号のチャネルと前記第1のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第2のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出させる命令を含む、
    請求項41に記載のコンピュータ可読媒体。
  47. プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第1のフィルタ処理済み信号の2つのチャネル間の相関の前記値が前記第2のフィルタ処理済み信号の2つのチャネル間の相関の前記値よりも小さいことを検出させる命令を含む、
    請求項41に記載のコンピュータ可読媒体。
  48. プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第1のフィルタ処理済み信号のチャネル間のエネルギー差が前記第2のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出させる命令を含む、
    請求項41に記載のコンピュータ可読媒体。
  49. プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第1の空間処理演算を実行させる前記命令が、前記プロセッサに第1のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第2の空間処理演算を実行させる前記命令が、前記プロセッサに第2のフィルタ処理済み信号を生成させ、
    プロセッサによって実行されると、前記プロセッサに1回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第1のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第2のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出させる命令を含む、
    請求項41に記載のコンピュータ可読媒体。
  50. 前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも1つのチャネルに基づくノイズ基準を適用させる命令を備える、
    請求項41に記載のコンピュータ可読媒体。
JP2010539833A 2007-12-19 2008-12-18 マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置 Expired - Fee Related JP5479364B2 (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US1508407P 2007-12-19 2007-12-19
US61/015,084 2007-12-19
US1679207P 2007-12-26 2007-12-26
US61/016,792 2007-12-26
US7714708P 2008-06-30 2008-06-30
US61/077,147 2008-06-30
US7935908P 2008-07-09 2008-07-09
US61/079,359 2008-07-09
US12/334,246 2008-12-12
US12/334,246 US8175291B2 (en) 2007-12-19 2008-12-12 Systems, methods, and apparatus for multi-microphone based speech enhancement
PCT/US2008/087541 WO2009086017A1 (en) 2007-12-19 2008-12-18 Systems, methods, and apparatus for multi-microphone based speech enhancement

Publications (3)

Publication Number Publication Date
JP2011508533A true JP2011508533A (ja) 2011-03-10
JP2011508533A5 JP2011508533A5 (ja) 2014-02-06
JP5479364B2 JP5479364B2 (ja) 2014-04-23

Family

ID=40789657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010539833A Expired - Fee Related JP5479364B2 (ja) 2007-12-19 2008-12-18 マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置

Country Status (7)

Country Link
US (1) US8175291B2 (ja)
EP (1) EP2229678A1 (ja)
JP (1) JP5479364B2 (ja)
KR (1) KR101172180B1 (ja)
CN (1) CN101903948B (ja)
TW (1) TW200939210A (ja)
WO (1) WO2009086017A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013078118A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP2013543987A (ja) * 2010-10-22 2013-12-09 クゥアルコム・インコーポレイテッド 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
JP2015213328A (ja) * 2010-10-25 2015-11-26 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチマイクロフォンを用いた3次元サウンド獲得及び再生

Families Citing this family (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
KR20090123921A (ko) * 2007-02-26 2009-12-02 퀄컴 인코포레이티드 신호 분리를 위한 시스템, 방법 및 장치
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
US8068620B2 (en) * 2007-03-01 2011-11-29 Canon Kabushiki Kaisha Audio processing apparatus
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
US20100057472A1 (en) * 2008-08-26 2010-03-04 Hanks Zeng Method and system for frequency compensation in an audio codec
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
JP5071346B2 (ja) * 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5538425B2 (ja) * 2008-12-23 2014-07-02 コーニンクレッカ フィリップス エヌ ヴェ スピーチ取り込み及びスピーチレンダリング
US9064499B2 (en) * 2009-02-13 2015-06-23 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program
US8954323B2 (en) * 2009-02-13 2015-02-10 Nec Corporation Method for processing multichannel acoustic signal, system thereof, and program
FR2945169B1 (fr) * 2009-04-29 2011-06-03 Commissariat Energie Atomique Methode d'identification d'un signal ofdm
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101587844B1 (ko) * 2009-08-26 2016-01-22 삼성전자주식회사 마이크로폰의 신호 보상 장치 및 그 방법
US20110058676A1 (en) 2009-09-07 2011-03-10 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
WO2011063830A1 (en) * 2009-11-24 2011-06-03 Nokia Corporation An apparatus
WO2011063857A1 (en) 2009-11-30 2011-06-03 Nokia Corporation An apparatus
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8718290B2 (en) * 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
JP5489778B2 (ja) * 2010-02-25 2014-05-14 キヤノン株式会社 情報処理装置およびその処理方法
US9759917B2 (en) 2010-02-28 2017-09-12 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered AR eyepiece interface to external devices
US10180572B2 (en) 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
US9223134B2 (en) 2010-02-28 2015-12-29 Microsoft Technology Licensing, Llc Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses
US9366862B2 (en) 2010-02-28 2016-06-14 Microsoft Technology Licensing, Llc System and method for delivering content to a group of see-through near eye display eyepieces
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US9091851B2 (en) 2010-02-28 2015-07-28 Microsoft Technology Licensing, Llc Light control in head mounted displays
WO2011106798A1 (en) 2010-02-28 2011-09-01 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US9128281B2 (en) 2010-09-14 2015-09-08 Microsoft Technology Licensing, Llc Eyepiece with uniformly illuminated reflective display
US9229227B2 (en) 2010-02-28 2016-01-05 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a light transmissive wedge shaped illumination system
US20120249797A1 (en) 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display
US9341843B2 (en) 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
US9182596B2 (en) 2010-02-28 2015-11-10 Microsoft Technology Licensing, Llc See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light
US9097890B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc Grating in a light transmissive illumination system for see-through near-eye display glasses
US9134534B2 (en) 2010-02-28 2015-09-15 Microsoft Technology Licensing, Llc See-through near-eye display glasses including a modular image source
US9129295B2 (en) 2010-02-28 2015-09-08 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear
US9097891B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN203242334U (zh) * 2010-05-03 2013-10-16 艾利佛卡姆公司 用于电子系统的风抑制/替换部件
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5732937B2 (ja) 2010-09-08 2015-06-10 ヤマハ株式会社 サウンドマスキング装置
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US20120128168A1 (en) * 2010-11-18 2012-05-24 Texas Instruments Incorporated Method and apparatus for noise and echo cancellation for two microphone system subject to cross-talk
TWI412023B (zh) 2010-12-14 2013-10-11 Univ Nat Chiao Tung 可消除噪音且增進語音品質之麥克風陣列架構及其方法
US9596549B2 (en) 2011-01-05 2017-03-14 Koninklijke Philips N.V. Audio system and method of operation therefor
US8989402B2 (en) * 2011-01-19 2015-03-24 Broadcom Corporation Use of sensors for noise suppression in a mobile communication device
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US8929564B2 (en) * 2011-03-03 2015-01-06 Microsoft Corporation Noise adaptive beamforming for microphone arrays
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
FR2976111B1 (fr) * 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
US20130054233A1 (en) * 2011-08-24 2013-02-28 Texas Instruments Incorporated Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
US9666206B2 (en) * 2011-08-24 2017-05-30 Texas Instruments Incorporated Method, system and computer program product for attenuating noise in multiple time frames
TWI459381B (zh) * 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US8712769B2 (en) * 2011-12-19 2014-04-29 Continental Automotive Systems, Inc. Apparatus and method for noise removal by spectral smoothing
US9532157B2 (en) * 2011-12-23 2016-12-27 Nokia Technologies Oy Audio processing for mono signals
DE102012200745B4 (de) * 2012-01-19 2014-05-28 Siemens Medical Instruments Pte. Ltd. Verfahren und Hörvorrichtung zum Schätzen eines Bestandteils der eigenen Stimme
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
CN102646418B (zh) * 2012-03-29 2014-07-23 北京华夏电通科技股份有限公司 一种远程音频交互的多路声学回音消除方法及系统
US9282405B2 (en) * 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
BR112014027968A2 (pt) * 2012-05-07 2017-06-27 Adaptive Spectrum & Signal Alignment Inc aparelho, sistemas e métodos para detecção e mitigação de ruído de impulso
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9881616B2 (en) 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN102969000B (zh) * 2012-12-04 2014-10-22 中国科学院自动化研究所 一种多通道语音增强方法
BR112015013907A2 (pt) * 2012-12-17 2017-07-11 Koninklijke Philips Nv aparelho eletrônico, método para gerar informações de classificação de áudio e informações de movimento da cabeça e mídia legível por computador não temporária
US20140184796A1 (en) * 2012-12-27 2014-07-03 Motorola Solutions, Inc. Method and apparatus for remotely controlling a microphone
US9692379B2 (en) * 2012-12-31 2017-06-27 Spreadtrum Communications (Shanghai) Co., Ltd. Adaptive audio capturing
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
US9467777B2 (en) * 2013-03-15 2016-10-11 Cirrus Logic, Inc. Interface for a digital microphone array
EP2976893A4 (en) * 2013-03-20 2016-12-14 Nokia Technologies Oy SPACE AUDIO DEVICE
KR102094392B1 (ko) * 2013-04-02 2020-03-27 삼성전자주식회사 복수의 마이크로폰들을 구비하는 사용자 기기 및 그 동작 방법
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9357080B2 (en) * 2013-06-04 2016-05-31 Broadcom Corporation Spatial quiescence protection for multi-channel acoustic echo cancellation
JP2015052466A (ja) * 2013-09-05 2015-03-19 株式会社デンソー 車両用装置及び音声切換制御プログラム
CN104424953B (zh) 2013-09-11 2019-11-01 华为技术有限公司 语音信号处理方法与装置
WO2015047308A1 (en) * 2013-09-27 2015-04-02 Nuance Communications, Inc. Methods and apparatus for robust speaker activity detection
US9392353B2 (en) * 2013-10-18 2016-07-12 Plantronics, Inc. Headset interview mode
US10536773B2 (en) 2013-10-30 2020-01-14 Cerence Operating Company Methods and apparatus for selective microphone signal combining
ITTO20130901A1 (it) 2013-11-05 2015-05-06 St Microelectronics Srl Interfaccia di espansione dell'intervallo dinamico di un segnale di ingresso, in particolare di un segnale audio di un trasduttore acustico a due strutture di rilevamento, e relativo metodo
GB2520029A (en) 2013-11-06 2015-05-13 Nokia Technologies Oy Detection of a microphone
JP6432597B2 (ja) * 2014-03-17 2018-12-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
BR112016021565B1 (pt) 2014-03-21 2021-11-30 Huawei Technologies Co., Ltd Aparelho e método para estimar um tempo de mistura geral com base em uma pluralidade de pares de respostas impulsivas de sala, e decodificador de áudio
CN105096961B (zh) * 2014-05-06 2019-02-01 华为技术有限公司 语音分离方法和装置
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US20150381333A1 (en) * 2014-06-26 2015-12-31 Harris Corporation Novel approach for enabling mixed mode behavior using microphone placement on radio terminal hardware
US10062374B2 (en) * 2014-07-18 2018-08-28 Nuance Communications, Inc. Methods and apparatus for training a transformation component
WO2016016387A1 (en) * 2014-07-31 2016-02-04 Koninklijke Kpn N.V. Noise suppression system and method
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
WO2016112113A1 (en) 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN104952459B (zh) * 2015-04-29 2018-05-15 大连理工大学 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9736578B2 (en) 2015-06-07 2017-08-15 Apple Inc. Microphone-based orientation sensors and related techniques
US9558731B2 (en) * 2015-06-15 2017-01-31 Blackberry Limited Headphones using multiplexed microphone signals to enable active noise cancellation
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
WO2017007848A1 (en) 2015-07-06 2017-01-12 Dolby Laboratories Licensing Corporation Estimation of reverberant energy component from active audio source
US10389393B2 (en) * 2015-08-31 2019-08-20 Sony Corporation Reception device, receiving method, and program
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
US10013996B2 (en) * 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
CN105529034A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 一种基于混响的语音识别方法和装置
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
CN105825865B (zh) * 2016-03-10 2019-09-27 福州瑞芯微电子股份有限公司 噪声环境下的回声消除方法及系统
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
US10045110B2 (en) * 2016-07-06 2018-08-07 Bragi GmbH Selective sound field environment processing system and method
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106548783B (zh) * 2016-12-09 2020-07-14 西安Tcl软件开发有限公司 语音增强方法、装置及智能音箱、智能电视
CN106782591B (zh) * 2016-12-26 2021-02-19 惠州Tcl移动通信有限公司 一种在背景噪音下提高语音识别率的装置及其方法
WO2018121972A1 (en) * 2016-12-30 2018-07-05 Harman Becker Automotive Systems Gmbh Acoustic echo canceling
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10554822B1 (en) * 2017-02-28 2020-02-04 SoliCall Ltd. Noise removal in call centers
KR101811635B1 (ko) 2017-04-27 2018-01-25 경상대학교산학협력단 스테레오 채널 잡음 제거 장치 및 방법
CN110663258B (zh) * 2017-05-19 2021-08-03 铁三角有限公司 语音信号处理装置
CN107360496B (zh) * 2017-06-13 2023-05-12 东南大学 可根据环境自动调节音量的扬声器系统及调节方法
EP3422736B1 (en) 2017-06-30 2020-07-29 GN Audio A/S Pop noise reduction in headsets having multiple microphones
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
US20190090052A1 (en) * 2017-09-20 2019-03-21 Knowles Electronics, Llc Cost effective microphone array design for spatial filtering
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
WO2019112468A1 (en) * 2017-12-08 2019-06-13 Huawei Technologies Co., Ltd. Multi-microphone noise reduction method, apparatus and terminal device
US10998617B2 (en) * 2018-01-05 2021-05-04 Byton Limited In-vehicle telematics blade array and methods for using the same
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
EP3680895B1 (en) 2018-01-23 2021-08-11 Google LLC Selective adaptation and utilization of noise reduction technique in invocation phrase detection
US10755728B1 (en) * 2018-02-27 2020-08-25 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN108766456B (zh) * 2018-05-22 2020-01-07 出门问问信息科技有限公司 一种语音处理方法及装置
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108718402B (zh) * 2018-08-14 2021-04-13 四川易为智行科技有限公司 视频会议管理方法及装置
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、系统、电子设备及存储介质
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN109410978B (zh) * 2018-11-06 2021-11-09 北京如布科技有限公司 一种语音信号分离方法、装置、电子设备及存储介质
US11195540B2 (en) * 2019-01-28 2021-12-07 Cirrus Logic, Inc. Methods and apparatus for an adaptive blocking matrix
CN109767783B (zh) * 2019-02-15 2021-02-02 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
US11049509B2 (en) * 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
US11955138B2 (en) * 2019-03-15 2024-04-09 Advanced Micro Devices, Inc. Detecting voice regions in a non-stationary noisy environment
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
WO2020191380A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings,Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
GB2585086A (en) * 2019-06-28 2020-12-30 Nokia Technologies Oy Pre-processing for automatic speech recognition
KR102226132B1 (ko) * 2019-07-23 2021-03-09 엘지전자 주식회사 헤드셋 및 그의 구동 방법
JP2022545113A (ja) 2019-08-23 2022-10-25 シュアー アクイジッション ホールディングス インコーポレイテッド 指向性が改善された一次元アレイマイクロホン
CN110992967A (zh) * 2019-12-27 2020-04-10 苏州思必驰信息科技有限公司 一种语音信号处理方法、装置、助听器及存储介质
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
KR20210142268A (ko) * 2020-05-18 2021-11-25 주식회사 엠피웨이브 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11632782B2 (en) * 2020-06-29 2023-04-18 Qualcomm Incorporated Spatial filters in full duplex mode
CN113949976B (zh) * 2020-07-17 2022-11-15 通用微(深圳)科技有限公司 声音采集装置、声音处理设备及方法、装置、存储介质
CN113949978A (zh) * 2020-07-17 2022-01-18 通用微(深圳)科技有限公司 声音采集装置、声音处理设备及方法、装置、存储介质
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
WO2023064750A1 (en) * 2021-10-12 2023-04-20 Qsc, Llc Multi-source audio processing systems and methods
CN114528525B (zh) * 2022-01-11 2023-03-28 西南交通大学 基于最大重加权峭度盲解卷积的机械故障诊断方法
CN114550734A (zh) * 2022-03-02 2022-05-27 上海又为智能科技有限公司 音频增强方法和装置、计算机存储介质
GB2622386A (en) * 2022-09-14 2024-03-20 Nokia Technologies Oy Apparatus, methods and computer programs for spatial processing audio scenes
CN116825076B (zh) * 2023-08-29 2023-11-07 荣耀终端有限公司 语音通话降噪方法、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006012578A2 (en) * 2004-07-22 2006-02-02 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US20070244698A1 (en) * 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US4912767A (en) 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
US5327178A (en) 1991-06-17 1994-07-05 Mcmanigal Scott P Stereo speakers mounted on head
US5208786A (en) 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
JPH05316587A (ja) 1992-05-08 1993-11-26 Sony Corp マイクロホン装置
US5251263A (en) 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5732143A (en) 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
US5383164A (en) 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5375174A (en) 1993-07-28 1994-12-20 Noise Cancellation Technologies, Inc. Remote siren headset
JP3146804B2 (ja) 1993-11-05 2001-03-19 松下電器産業株式会社 アレイマイクロホンおよびその感度補正装置
US5706402A (en) 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5675659A (en) 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6130949A (en) 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
CA2269027A1 (en) 1996-10-17 1998-04-23 Andrea Electronics Corporation Noise cancelling acoustical improvement to wireless telephone or cellular phone
US5999567A (en) 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US7072476B2 (en) 1997-02-18 2006-07-04 Matech, Inc. Audio headset
FR2759824A1 (fr) 1997-02-18 1998-08-21 Philips Electronics Nv Systeme de separation de sources non stationnaires
US6496581B1 (en) * 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6167417A (en) 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
DE19822021C2 (de) 1998-05-15 2000-12-14 Siemens Audiologische Technik Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich
US6654468B1 (en) 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
DE19849739C2 (de) 1998-10-28 2001-05-31 Siemens Audiologische Technik Adaptives Verfahren zur Korrektur der Mikrofone eines Richtmikrofonsystems in einem Hörgerät sowie Hörgerät
US6898612B1 (en) 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6606506B1 (en) 1998-11-19 2003-08-12 Albert C. Jones Personal entertainment and communication device
US6343268B1 (en) 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
DE19859174C1 (de) * 1998-12-21 2000-05-04 Max Planck Gesellschaft Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
US6381570B2 (en) 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
CA2367579A1 (en) 1999-03-19 2000-09-28 Siemens Aktiengesellschaft Method and device for recording and processing audio signals in an environment filled with acoustic noise
US6526148B1 (en) 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6549630B1 (en) 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
JP2003527012A (ja) 2000-03-14 2003-09-09 オーディア テクノロジー インク 多重マイクロフォン方向システムにおける順応型マイクロフォン・マッチング
US20010038699A1 (en) 2000-03-20 2001-11-08 Audia Technology, Inc. Automatic directional processing control for multi-microphone system
US8903737B2 (en) 2000-04-25 2014-12-02 Accenture Global Service Limited Method and system for a wireless universal mobile product interface
US6879952B2 (en) 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7027607B2 (en) 2000-09-22 2006-04-11 Gn Resound A/S Hearing aid with adaptive microphone matching
US7471798B2 (en) 2000-09-29 2008-12-30 Knowles Electronics, Llc Microphone array having a second order directional pattern
WO2002028140A2 (en) 2000-09-29 2002-04-04 Knowles Electronics, Llc Second order microphone array
JP4028680B2 (ja) 2000-11-01 2007-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体
US6462664B1 (en) * 2000-11-20 2002-10-08 Koninklijke Philips Electronics N.V. Baby monitor, system, and method and control of remote devices
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
WO2002065735A2 (en) 2001-02-14 2002-08-22 Gentex Corporation Vehicle accessory microphone
AU2001258132A1 (en) 2001-05-23 2001-08-20 Phonak Ag Method of generating an electrical output signal and acoustical/electrical conversion system
US7123727B2 (en) 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
WO2003107591A1 (en) 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
AU2003250464A1 (en) 2002-09-13 2004-04-30 Koninklijke Philips Electronics N.V. Calibrating a first and a second microphone
WO2004053839A1 (en) 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US7142682B2 (en) 2002-12-20 2006-11-28 Sonion Mems A/S Silicon-based transducer for use in hearing instruments and listening devices
KR100480789B1 (ko) 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
EP1453348A1 (de) 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
DE10310579B4 (de) 2003-03-11 2005-06-16 Siemens Audiologische Technik Gmbh Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7203323B2 (en) 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
US7424119B2 (en) 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
US7515721B2 (en) 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
KR100600313B1 (ko) 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
US7415117B2 (en) 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US7688985B2 (en) 2004-04-30 2010-03-30 Phonak Ag Automatic microphone matching
CN101023372B (zh) * 2004-09-23 2011-10-05 美商内数位科技公司 使用相关及非相关天线元件组合的盲信号分离
ATE405925T1 (de) 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
US7190308B2 (en) 2004-09-23 2007-03-13 Interdigital Technology Corporation Blind signal separation using signal path selection
US7826624B2 (en) 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
DE102005047047A1 (de) 2005-09-30 2007-04-12 Siemens Audiologische Technik Gmbh Mikrofonkalibrierung bei einem RGSC-Beamformer
US7813923B2 (en) 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
JP2007156300A (ja) 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
CN1809105B (zh) 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
WO2007100330A1 (en) 2006-03-01 2007-09-07 The Regents Of The University Of California Systems and methods for blind source signal separation
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US20080175407A1 (en) 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006012578A2 (en) * 2004-07-22 2006-02-02 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US20070244698A1 (en) * 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013543987A (ja) * 2010-10-22 2013-12-09 クゥアルコム・インコーポレイテッド 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体
JP2013545136A (ja) * 2010-10-25 2013-12-19 クゥアルコム・インコーポレイテッド 音声アクティビティ検出のための、システム、方法、および装置
JP2015213328A (ja) * 2010-10-25 2015-11-26 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチマイクロフォンを用いた3次元サウンド獲得及び再生
JP2013078118A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法

Also Published As

Publication number Publication date
WO2009086017A1 (en) 2009-07-09
KR20100105700A (ko) 2010-09-29
CN101903948B (zh) 2013-11-06
KR101172180B1 (ko) 2012-08-07
EP2229678A1 (en) 2010-09-22
CN101903948A (zh) 2010-12-01
TW200939210A (en) 2009-09-16
US8175291B2 (en) 2012-05-08
JP5479364B2 (ja) 2014-04-23
US20090164212A1 (en) 2009-06-25

Similar Documents

Publication Publication Date Title
JP5479364B2 (ja) マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置
JP5628152B2 (ja) スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品
JP5456778B2 (ja) 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
JP5307248B2 (ja) コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
JP5038550B1 (ja) ロバストな雑音低減のためのマイクロフォンアレイサブセット選択
KR101275442B1 (ko) 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置
CN102947878A (zh) 用于音频均衡的系统、方法、装置、设备和计算机程序产品
Doclo Multi-microphone noise reduction and dereverberation techniques for speech applications

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121024

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130730

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20131202

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140212

R150 Certificate of patent or registration of utility model

Ref document number: 5479364

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees