JP5329655B2 - マルチチャネル信号のバランスをとるためのシステム、方法及び装置 - Google Patents

マルチチャネル信号のバランスをとるためのシステム、方法及び装置 Download PDF

Info

Publication number
JP5329655B2
JP5329655B2 JP2011512595A JP2011512595A JP5329655B2 JP 5329655 B2 JP5329655 B2 JP 5329655B2 JP 2011512595 A JP2011512595 A JP 2011512595A JP 2011512595 A JP2011512595 A JP 2011512595A JP 5329655 B2 JP5329655 B2 JP 5329655B2
Authority
JP
Japan
Prior art keywords
channel
segment
level
series
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011512595A
Other languages
English (en)
Other versions
JP2011523836A (ja
Inventor
チャン、クワクルン
パーク、ヒュン・ジン・シニア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2011523836A publication Critical patent/JP2011523836A/ja
Application granted granted Critical
Publication of JP5329655B2 publication Critical patent/JP5329655B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

(35 U.S.C.§119の下の優先権の主張)
本特許出願は、2008年6月2日付け提出され、本願の譲受人に譲渡され、「SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES」と題された米国仮出願第61/058,132号(Attorney Docket No. 081747P1)の優先権を主張する。
(同時継続の特許出願への参照)
本特許出願は、以下の同時継続の米国特許出願に関係する:
2008年8月25日付け提出され、本願の譲受人に譲渡され、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題された米国特許出願第12/197,924号;及び
2008年12月12日付け提出され、本願の譲受人に譲渡され、「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題された米国特許出願第12/334,246号(Attorney Docket No. 080426)。
(技術分野)
この開示は、2又はそれ以上のチャネルを有するオーディオ信号のバランスをとることに関係する。
以前に静かなオフィス又は家庭環境において実行された多くの活動が、今日、車、ストリート又はカフェのような音響的に変わりやすい状況において実行されている。従って、かなりの量の音声通信(voice communication)は、ユーザが他の人によって囲まれる環境において、人々が集まる傾向にある所で一般的に遭遇する一種のノイズコンテンツ(noise content)を伴い、モバイル・デバイス(例えば、ハンドセット及び/又はヘッドセット)を使用して起こっている。そのような雑音は、電話で会話中のユーザの気を散らせあるいは悩ます傾向がある。さらに、多くの標準的なオートメーション化した商取引(例えば、アカウント・バランス又は株価情報チェック(stock quote checks))は、音声認識ベースのデータ問合せを使用し、これらのシステムの正確さは、干渉する雑音によってかなり妨害される可能性がある。
雑音が多い環境で通信が起こるアプリケーションについて、所望のスピーチ信号(speech signal)をバックグラウンド・ノイズから分離することは、望ましい場合がある。雑音は、所望の信号に干渉するか或いは所望の信号の品質を低下させる(degrading)すべての信号の組み合せとして定義されることもできる。バックグラウンド・ノイズは、信号の各々から生成される反射(reflections)及び反響(reverberation)だけでなく、音響環境内で生成される多数の雑音信号(例えば他の人たちの背景会話(ckground conversations))を含むことがある。所望のスピーチ信号がバックグラウンド・ノイズから分離(separated)及び分離(isolated)されない限り、それの信頼性ある効果的な利用をすることは、難しい場合がある。一つの特定の例において、スピーチ信号が雑音の多い環境で生成され、そして、スピーチ処理方法がスピーチ信号を環境雑音から分離するために使用される。雑音は現実の社会状況(real-world conditions)においてほとんどいつでも存在するので、そのようなスピーチ信号処理は日常的な通信の多くの領域で重要である。
モバイル環境で起こるノイズは、様々な異なる成分(例えば、競合する話し手、音楽、喧騒(babble)、町の騒音(street noise)及び/又は空港雑音)を含み得る。そのような雑音のサイン(signature)は一般的に非定常でユーザ自身の周波数サインに近いので、雑音は伝統的なシングルマイク又は固定されたビームフォーミング・タイプの方法を使用してモデル化するのが難しい場合がある。シングルマイクの雑音低減技術は、一般的に、最適性能を達成するために、重要なパラメータのチューニングを要求する。例えば、適当な雑音基準(noise reference)は、そのような場合、直接利用できない可能性があり、間接的に雑音基準を導き出すことが必要とされる場合がある。したがって、マルチマイク・ベースの高度信号処理(multiple microphone based advanced signal processing)は、雑音が多い環境における音声通信のためのモバイル・デバイスの使用をサポートするために望ましい場合がある。
一般的な構成に従ったマルチチャネル・オーディオ信号を処理する方法は、時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算することと、時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算することを含む。この方法は、前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算することと、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御することを含む。この方法は、前記オーディオ信号のセグメントが情報セグメントであることを指示することを含む。この方法において、時間にわたってゲイン・ファクタの値の系列を計算することは、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つについて且つ前記指示することに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタ値を計算することを含む。この方法において、前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置(audio sensing device)の標準的な方向に基づくものである。また、例えば通信デバイスのような音声検出装置内のそのような方法の実行が、本明細書で開示される。また、そのような方法を実行するために手段を含む装置及びそのような方法のための実行可能なインストラクションを持つコンピュータ読み取り可能な媒体が、本明細書で開示される。
一般的な構成に従ったマルチチャネル・オーディオ信号を処理するための装置は、時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算するための手段と、時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算するための手段とを含む。この装置は、前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するための手段と、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御するための手段とを含む。この装置は、前記オーディオ信号のセグメントが情報セグメントであることを指示するための手段を含む。この装置において、時間にわたってゲイン・ファクタの値の系列を計算するための前記手段は、前記インジケーションに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成される。この装置において、前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである。また、前記装置は、第1のチャネルのレベルの値の系列を計算するための前記手段が第1レベル計算機であり、第2のチャネルのレベルの値の系列を計算するための前記手段が第2レベル計算機であり、ゲイン・ファクタの値の系列を計算するための前記手段がゲイン・ファクタ計算機であり、前記第2のチャネルの振幅を制御するための前記手段が振幅制御エレメントであり、前記音声信号のセグメントが情報セグメントであることを指示するための前記手段が情報セグメント・インジケータであるこの装置の実装が、本明細書で開示される。また、前記マルチチャネル・オーディオ信号を作り出すように構成されたマイク・アレイを含む音声検出装置の様々な実装が、本明細書で開示される。
図1A〜1Dは、マルチマイク無線ヘッドセットD100の様々な図を示す。 図1A〜1Dは、マルチマイク無線ヘッドセットD100の様々な図を示す。 図1A〜1Dは、マルチマイク無線ヘッドセットD100の様々な図を示す。 図1A〜1Dは、マルチマイク無線ヘッドセットD100の様々な図を示す。 図2A〜2Dは、マルチマイク無線ヘッドセットD200の様々な図を示す。 図2A〜2Dは、マルチマイク無線ヘッドセットD200の様々な図を示す。 図2A〜2Dは、マルチマイク無線ヘッドセットD200の様々な図を示す。 図2A〜2Dは、マルチマイク無線ヘッドセットD200の様々な図を示す。 図3Aは、マルチマイク通信ハンドセットD300の(中心軸に沿った)横断面図を示す。 図3Bは、デバイスD300の実装D310の横断面図を示す。 図4Aは、マルチマイク・メディアプレーヤーD400の図を示す。 図4B及び4Cは、それぞれ、デバイスD400の実装D410及びD420の図を示す。 図4B及び4Cは、それぞれ、デバイスD400の実装D410及びD420の図を示す。 図5Aは、マルチマイク・ハンズフリー・カーキットD500の図を示す。 図5Bは、マルチマイク・ライティング・デバイスD600の図を示す。 図6Aは、アレイR100の実装R200のブロック図を示す。 図6Bは、アレイR200の実装R210のブロック図を示す。 図7Aは、アレイR100のマイクが音響ポート(acoustic port)の後方のデバイス・ハウジング内にマウントされてもよい例の横断面を示す。 図7Bは、プレデリバリー・キャリブレーション・オペレーション(pre-delivery calibration operation)のために配置される無反響室(anechoic chamber)の平面図を示す。 図8は、ユーザの口に対する(relative to)標準的な方向においてユーザの耳にマウントされるヘッドセットD100の図を示す。 図9は、ユーザの口に対する標準的な方向において配置されるハンドセットD300の図を示す。 図10Aは、一般的な構成(general configuration)に従ったマルチチャネル・オーディオ信号を処理する方法M100のフローチャートを示す。 図10Bは、方法M100の実装M200のフローチャートを示す。 図11Aは、タスクT400の実装T410のフローチャートを示す。 図11Bは、タスクT400の実装T460のフローチャートを示す。 図12Aは、タスクT410の実装T420のフローチャートを示す。 図12Bは、タスクT460の実装T470のフローチャートを示す。 図13Aは、タスクT420の実装T430のフローチャートを示す。 図13Bは、タスクT470の実装T480のフローチャートを示す。 図14は、ヘッドセットD100についてユーザの口に対する標準的な方向の範囲の2つの境界の例を示す。 図15は、ハンドセットD300についてユーザの口に対する標準的な方向の範囲の2つの境界の例を示す。 図16Aは、方法M100の実装M300のフローチャートを示す。 図16Bは、タスクT500の実装T510のフローチャートを示す。 図17は、様々なタイプの情報及びノイズ源アクティビティーに関するおよその到来角(angles of arrival)の理想化された視覚的な描写を示す。 図18Aは、タスクT510の実装T550のためのフローチャートを示す。 図18Bは、タスクT510の実装T560のためのフローチャートを示す。 図19は、3つの異なる情報ソースによるアクティビティーに関するおよその到来角の理想化された視覚的な描写を示す。 図20Aは、方法M100の実装M400のフローチャートを示す。 図20Bは、タスクT500の実行がタスクT400の結果に関して条件付きである例のフローチャートを示す。 図21Aは、タスクT550の実行がタスクT400の結果に関して条件付きである例のフローチャートを示す。 図21Bは、タスクT400の実行がタスクT500の結果に関して条件付きである例のフローチャートを示す。 図22Aは、タスクT510の実装T520のフローチャートを示す。 図22Bは、タスクT510の実装T530のフローチャートを示す。 図23Aは、タスクT550の実装T570のフローチャートを示す。 図23Bは、タスクT550の実装T580のフローチャートを示す。 図24Aは、一般的な構成に従ったデバイスD10のブロック図を示す。 図24Bは、装置MF100の実装MF110のブロック図を示す。 図25は、装置MF110の実装MF200のブロック図を示す。 図26は、装置MF110の実装MF300のブロック図を示す。 図27は、装置MF110の実装MF400のブロック図を示す。 図28Aは、一般的な構成に従ったデバイスD20のブロック図を示す。 図28Bは、装置A100の実装A110のブロック図を示す。 図29は、装置A110の実装A200のブロック図を示す。 図30は、装置A110の実装A300のブロック図を示す。 図31は、装置A110の実装A400のブロック図を示す。 図32は、装置MF300の実装MF310のブロック図を示す。 図33は、装置A300の実装A310のブロック図を示す。 図34は、通信デバイスD50のブロック図を示す。
詳細な説明
用語「信号(signal)」は、その文脈により明確に限定されない限り、その通常の意味のいずれをも示すために本明細書で使用され、ワイヤー、バス又は他の伝送媒体上で表現されるメモリ位置(又は1セットのメモリ位置)の状態を含む。用語「生成(generating)」は、その文脈により明確に限定されない限り、例えば作成(creating)、計算(computing)或いは生成、発生、作り出すこと(producing)のような、その通常の意味のいずれをも示すために本明細書で使用される。用語「計算(calculating)」は、その文脈により明確に限定されない限り、例えば計算(computing)、評価(evaluating)、スムージング(smoothing)及び/又は複数の値からの選択(selecting from a plurality of values)のような、その通常の意味のいずれをも示すために本明細書で使用される。用語「取得、得ること(obtaining)」は、その文脈により明確に限定されない限り、例えば計算(calculating)、導くこと(deriving)、(例えば外部デバイスからの)受信(receiving)及び/又は(例えば記憶素子アレイからの)検索(retrieving)のような、その通常の意味のいずれをも示すために使用される。用語「含む(comprising)」が、本説明及び特許請求の範囲で使用される場合に、それは他のエレメント又はオペレーションを排除するものではない。用語「AはBに基づいている(A is based on B)」におけるような「基づいている(based on)」は、ケース(i)「少なくとも基づいている(based on at least)」(例えば、「Aは少なくともBに基づいている(A is based on at least B)」)、及び、特定の文脈で適切な場合に、ケース(ii)「等しい(equal to)」(例えば、「AはBに等しい(A is equal to B)」)を含めて、その通常の意味のいずれをも示すために使用される。同様に、用語“〜に応答して(in response to)”は、その通常の意味のいずれをも示すために使用され、“少なくとも〜に応答して(in response to at least)”を含む。
特に文脈により明記されない限り、マルチマイク音声検出装置(multi-microphone audio sensing device)のマイクの“位置”への言及は、そのマイクの音響的にセンシティブな面の中心の位置を示す。用語“チャネル(channel)”は、時に、信号経路を示すために、そして、他の時に、特定の文脈に従って、そのような経路により運ばれる信号を示すために、使用される。特に明記されない限り、用語“系列(series)”は、一連(sequence)の2つ又はそれ以上のアイテムを示すために使用される。用語“対数(logarithm)”は、底を10とする対数を示すために使用されるが、当該演算の他の底への拡張は、この開示の範囲内である。
特に明記されない限り、特定の特徴(feature)を有する装置のオペレーションの開示はまた、類似する特徴を有する方法を開示することを明確に意図されており(逆の場合も同じ)、特定の構成を有する装置のオペレーションの開示はまた、類似する構成に従った方法を開示することを明確に意図されている(逆の場合も同じ)。用語“構成(configuration)”は、その特定の文脈により示されるような、方法、装置及び/又はシステムに関連して使用されることがある。用語“方法(method)”、“プロセス(process)”、“手続き(procedure)”及び“技術(technique)”は、特定の文脈によって特に明記されない限り、一般的にそして互換的に使用される。用語“装置(apparatus)”及び“デバイス(device)”は、特定の文脈によって特に明記されない限り、一般的にそして互換的に使用される。用語“要素(element)”及び“モジュール(module)”は、一般的に、より大きな構成の一部を示すために使用される。用語“システム”は、その文脈により明確に限定されない限り、その通常の意味のいずれをも示すために本明細書で使用され、“共通の目的を果たすために相互に作用する一群の要素(a group of elements that interact to serve a common purpose)”を含む。文書の部分の参照による組み込みはまた、組み込まれるその部分において参照される図面と同様に、その部分の中で参照される項(terms)又は変数(variables)の定義(当該定義は、その文書中の他の部分に現れる。)を組み込むことと、解釈されるべきである。
音響信号(acoustic signals)を受信するように構成された2又はそれ以上のマイクのアレイR100を有する携帯型の音声検出装置を作り出すことは、望ましい可能性がある。例えば、補聴器(hearing aid)が、そのようなアレイを含むように実装されても良い。そのようなアレイを含むように実装され、オーディオ録音(audio recording)アプリケーション及び/又は音声通信アプリケーションのために使用され得る携帯型の音声検出装置の他の例は、電話のハンドセット(例えば、セルラー電話のハンドセット)、有線又は無線のヘッドセット(例えば、Bluetooth(登録商標)ヘッドセット)、ハンドヘルドのオーディオ及び/又はビデオ・レコーダー、オーディオ及び/又はビデオ・コンテンツを記録するように構成されたパーソナル・メディア・プレーヤー、携帯情報端末(PDA)又は他のハンドヘルドのコンピュータ・デバイス、及び、ノートブック型コンピュータ、ラップトップ・コンピュータ、又は、他の携帯型のコンピュータ・デバイスを含む。
アレイR100の各々のマイクは、無指向性(omnidirectional)、両指向性(bidirectional)又は単一指向性(unidirectional)(例えば、カージオイド(cardioid))のレスポンスを有しても良い。アレイR100において使用され得る様々なタイプのマイクは、圧電マイクロフォン、ダイナミック・マイクロフォン及びエレクトレット・マイクロフォンを含む(ただし、それらに制限されない)。携帯型の音声通信のためのデバイス(例えば、ハンドセット又はヘッドセット)において、アレイR100の隣接するマイクの間の中心間距離は、一般的に、およそ1.5cmからおよそ4.5cmまでの範囲にあるが、より大きな間隔(例えば、最高10又は15cm)もまた、例えばハンドセットのようなデバイスにおいて可能である。補聴器において、アレイR100の隣接マイク間の中心間距離は、わずかおよそ4又は5mmであっても良い。アレイR100のマイクは、直線に沿って配置されても良く、または、その代わりに、それらのセンターが二次元の形の(例えば、三角形の(triangular))頂点又は3次元の形の頂点に配置されても良い。
図1A〜1Dは、マルチマイク携帯型音声検出装置D100の様々な図を示す。デバイスD100は、アレイR100の2マイク(two-microphone)実装をもたらすハウジングZ10及びハウジングから延びるイヤホンZ20を含む無線ヘッドセットである。そのようなデバイスは、例えばセルラー電話ハンドセットのような電話デバイスとの通信を介して(例えば、Bluetooth SIG社、ベルヴュー、WA(the Bluetooth Special Interest Group, Inc., Bellevue, WA)によって広められるBluetoothプロトコルのバージョンを使用して)半二重又は全二重の電話通信(telephony)をサポートするように構成されても良い。一般に、ヘッドセットのハウジングは、長方形であるか或いは図1A、1B及び1Dで示されるように細長く(例えば、ミニブーム(miniboom)のような形をしている)であっても良いし、又は、丸みを帯びて板も良いし若しくは円形でさえあっても良い。ハウジングはまた、バッテリー及びプロセッサ及び/又は他の処理回路(例えば、プリント回路基板及びその上にマウントされるコンポーネント)を封入(enclose)していても良く、そして、電気的ポート(例えば、ミニ・ユニバーサル・シリアル・バス(USB)又はバッテリー充電のための他のポート)及びユーザ・インタフェース機能(例えば、1又は複数のボタン・スイッチ及び/又はLEDのような)を含んでも良い。一般的に、ハウジングの、その長軸に沿った長さは、1インチから3インチまでの範囲にある。
一般的に、アレイR100の各々のマイクは、音響ポートとして働くハウジングにおける1又は複数の小さな穴の後方で、デバイス中にマウントされる。図1B〜1Dは、デバイスD100のアレイの一次マイクのための音響ポートZ50及びデバイスD100のアレイの二次マイクのための音響ポートZ40の位置を示す。
ヘッドセットはまた、固定デバイス(securing device)(例えばイヤーフックZ30)を含んでも良い。それは、一般的にヘッドセットから取り外し可能である。例えば、外部イヤーフックは、ユーザがヘッドセットをどちらの耳での使用のためにも設定(configure)できるように、リバーシブルであっても良い。あるいは、ヘッドセットのイヤホンは、異なるユーザが、特定のユーザの外耳道(ear canal)の外側部へのより良いフィットのために、異なるサイズ(例えば、直径)のイヤーピース(earpiece)を使用するのを可能にするために、取り外し可能なイヤーピースを含み得る内部固定デバイス(例えば、耳栓)としてデザインされても良い。
図2A〜2Dは、ワイヤレス・ヘッドセットの他の例であるマルチマイク携帯型音声検出装置D200の様々な図を示す。デバイスD200は、丸みを帯びた楕円ハウジングZ12、及び、耳栓として構成され得るイヤホンZ22を含む。図2A〜2Dはまた、デバイスD200のアレイの一次マイクのための音響ポートZ42及び二次マイクのための音響ポートZ52の位置を示す。二次マイク・ポートZ52は、(例えば、ユーザ・インタフェース・ボタンによって)少なくとも部分的にふさがれて(occluded)いても良い。
図3Aは、通信ハンドセットであるマルチマイク携帯型音声検出装置D300の(中心軸に沿った)横断面図を示す。デバイスD300は、一次マイクMC10及び二次マイクMC20を有するアレイR100の実装を含む。この例において、デバイスD300はまた、一次ラウドスピーカSP10及び二次ラウドスピーカSP20を含む。そのようなデバイスは、1又は複数の符号化及び復号化スキーム(“コーデック(codecs)”とも呼ばれる)によって音声通信データを無線で送信及び受信するように構成されても良い。そのようなコーデックの例は、第3世代パートナーシッププロジェクト2(3GPP2)のドキュメントC.S0014-C, v1.0(タイトル“Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems,” February 2007 (www-dot-3gpp-dot-orgでオンラインで入手できる))に記載されているような強化された可変レート・コーデック(Enhanced Variable Rate Codec)、3GPP2のドキュメントC.S0030-0, v3.0(タイトル“Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems,” January 2004 (www-dot-3gpp-dot-orgでオンラインで入手できる))に記載されているような選択可能モードのボコーダ・スピーチコーデック(Selectable Mode Vocoder speech codec)、ドキュメントETSI TS 126 092 V6.0.0 (European Telecommunications Standards Institute (ETSI), Sophia Antipolis Cedex, FR, December 2004)に記載されているような適応マルチレート(AMR)スピーチコーデック(Adaptive Multi Rate (AMR) speech codec)、及び、ドキュメントETSI TS 126 192 V6.0.0 (ETSI, December 2004)に記載されているようなAMRワイドバンド・スピーチコーデック(AMR Wideband speech codec)を含む。図3Aの例において、ハンドセットD300は、クラムシェル・タイプのセルラー電話ハンドセット(“フリップ”ハンドセットとも呼ばれる)である。そのようなマルチマイク通信ハンドセットの他の構成は、バー・タイプ及びスライダー・タイプの電話ハンドセットを含む。図3Bは、三次マイクMC30を含むアレイR100の3マイク(three-microphone)実装を含むデバイスD300の実装D310の横断面図を示す。
図4Aは、メディア・プレーヤーであるマルチマイク携帯型音声検出装置D400の図を示す。そのようなデバイスは、例えば標準的な圧縮フォーマット(例えば、ムービング・ピクチャーズ・エキスパーツ・グループ(MPEG)−1 オーディオ・レイヤ3(MP3)、MPEG−4パート14(MP4)、ウィンドウズ(登録商標)メディア・オーディオ/ビデオ(WMA/WMV)のバージョン(Microsoft Corp., Redmond, WA)、アドバンスト・オーディオ・コーディング(AAC)、国際電気通信連合(ITU)−T H.264、又は、同種のもの)に従って符号化されるファイル又はストリームのような、圧縮されたオーディオ又はオーディオビジュアル情報の再生(playback of)のために構成されても良い。デバイスD400は、デバイスの前面に配置される表示スクリーンSC10及びラウドスピーカSP10を含み、そして、アレイR100のマイクMC10及びMC20は、デバイスの同一面に(例えば、この例の場合のように上面の両側に、又は、前面の両側に)配置される。図4Bは、マイクMC10及びMC20がデバイスの対面に配置されるデバイスD400の他の実装D410を示し、図4Cは、マイクMC10及びMC20がデバイスの隣接面に配置されるデバイスD400の更なる実装D420を示す。メディア・プレーヤーはまた、意図された使用の間、長軸が水平になるように、デザインされても良い。
図5Aは、ハンズフリー自動車のキットであるマルチマイク携帯型音声検出装置D500の図を示す。そのような装置は、車両のダッシュボードに取り付けられるか、又は、フロントガラス、バイザー若しくは他の内面(interior surface)に取り外し可能に取り付けられるように、構成されても良い。デバイスD500は、ラウドスピーカ85及びアレイR100の実装を含む。この特定の例において、デバイスD500は、アレイR100の4マイク(four-microphone)実装R102を含む。そのようなデバイスは、1又は複数のコーデック(例えば上記に掲載された例)によって音声通信データを無線で送信及び受信するように構成されても良い。代わりに又は加えて、そのようなデバイスは、例えばセルラー電話ハンドセットのような電話デバイスとの通信を介して(例えば、先に述べたようにBluetoothプロトコルのバージョンを使用して)半二重又は全二重の電話通信をサポートするように構成されても良い。
図5Bは、ライティング・デバイス(例えば、ペン又は鉛筆)であるマルチマイク携帯型音声検出装置D600の図を示す。デバイスD600は、アレイR100の実装を含む。そのようなデバイスは、1又は複数のコーデック(例えば上記の例)により音声通信データを無線で送信及び受信するように構成されても良い。代わりに又は加えて、そのようなデバイスは、例えばセルラー電話ハンドセット及び/又は無線ヘッドセットのようなデバイスとの通信を介して(例えば、先に述べたようにBluetoothプロトコルのバージョンを使用して)半二重又は全二重の電話通信をサポートするように構成されても良い。デバイスD600は、アレイR100により生成される信号において、スクラッチ・ノイズ82のレベルを低減するために、空間選択的な処理オペレーション(spatially selective processing operation)を実行するように構成される1又は複数のプロセッサを含んでも良い。このスクラッチ・ノイズは、描画面(drawing surface)81(例えば、紙)を横切るデバイスD600の先端の運動から生じ得る。本明細書で開示されるシステム、方法及び装置の適用性は図1A〜5Bに示される特定の例に制限されないことが、明確に開示される。
マルチマイク音声検出装置(例えば、デバイスD100,D200,D300,D400,D500又はD600)のオペレーションの間、アレイR100は、マルチチャネル信号を生成する。マルチチャネル信号において、各々のチャネルは、音響環境に対する複数のマイクのうちの対応する一つのマイクのレスポンスに基づいている。シングルマイクを使用して捕捉される(captured)ことができるよりも、音響環境のより完全な表現を提供するために、対応する複数のチャネルが互い異なるように、一つのマイクが、他のマイクに比較してより直接的に、特定のサウンド(sound)を受信しても良い。
マルチチャネル信号S10を生成するために、アレイR100が、複数のマイクにより生成される信号に対して1又は複数の処理オペレーションを実行することは、望ましい場合がある。図6Aは、1又は複数のそのようなオペレーションを実行するように構成されるオーディオ前処理ステージAP10を含むアレイR100の実装R200のブロック図を示す。そのようなオペレーションは、インピーダンス整合、アナログ・デジタル変換、ゲイン制御、及び/又は、アナログ領域及び/又はデジタル領域におけるフィルタリングを含んでも良い(ただし、それらに制限されない)。
図6Bは、アレイR200の実装R210のブロック図を示す。アレイR210は、アナログ前処理ステージP10a及びP10bを含むオーディオ前処理ステージAP10の実装AP20を含む。一つの例において、ステージP10a及びP10bは、対応するマイク信号に対してハイパス・フィルタリング・オペレーション(例えば、50、100又は200Hzのカットオフ周波数による)を実行するようにそれぞれ構成される。
アレイR100がデジタル信号としてマルチチャネル信号を生成する(すなわち、サンプルの系列として)ことは、望ましい場合がある。アレイR210は、例えば、対応するアナログ・チャネルをサンプルするようにそれぞれアレンジされたアナログ・デジタル変換器(ADC)C10a及びC10bを含む。音響アプリケーションのための典型的なサンプリング・レートは、8kHz,12kHz,16kHz及びおよそ8〜およそ16kHzの範囲の他の周波数を含むが、およそ44kHzと同じ高さのサンプリング・レートが使用されても良い。この特定の例において、アレイR210はまた、対応するデジタイズされたチャネルに対して1又は複数の前処理オペレーション(例えば、エコー・キャンセル、ノイズ・リダクション及び/又はスペクトラル・シェイピング)を実行するようにそれぞれ構成されたデジタル前処理ステージP20a及びP20bを含む。
アレイR100により生成されるマルチチャネル信号は、空間処理オペレーション(例えば、音声検出装置と特定の音源(sound source)との間の距離を判定し、ノイズを低減し、特定の方向から到来する信号成分を強化し、及び/又は、1又は複数のサウンド・コンポーネントを他の環境音(environmental sounds)から分離するオペレーション)をサポートするために使用されても良い。例えば、空間選択的な処理オペレーションは、マルチチャネル信号の1又は複数の所望のサウンド・コンポーネントを、該マルチチャネル信号の1又は複数のノイズ・コンポーネントから分離するために実行されても良い。典型的な所望のサウンド・コンポーネントは、音声検出装置のユーザのボイスのサウンドであり、ノイズ・コンポーネントの例は、拡散環境雑音(diffuse environmental noise)(例えば、町の騒音(street noise)、自動車騒音及び/又は喧騒雑音(babble noise))、及び、指向性雑音(例えば、干渉するスピーカ)、及び/又は、他の点音源(point source)からのサウンド(例えば、テレビ、ラジオ又は拡声装置(public address system))を含む(ただし、それらに制限されない)。空間処理オペレーション(それは音声検出装置内で及び/又は他のデバイス内で実行されてもよい)の例は、米国特許出願番号12/197,924(2008年8月25日付け提出、タイトル“SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION”)、及び、米国特許出願番号12/277,283(2008年11月24日付け提出、タイトル“SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY”)に記載されており、また、ビームフォーミング及びブラインド・ソース分離オペレーションを含む(ただし、これに制限されない)。
アレイR100のマイクの製造の間、変化が生じることがある。、一回分の大量生産であって一見したところは全く同じマイクの間でさえ、マイクによって感度が有意に変化することがある。携帯型の大量市場向けのデバイスに使用されるマイクは、+/−3デシベルの感度トレランス(sensitivity tolerance)で製造されることがあり、例えばアレイR100の実装における2つのそのようなマイクの感度が6デシベルも異なることがある。
さらに、一旦、それがデバイス中に又はデバイス上にマウントされると、マイクの実効的なレスポンス特性において変化が生じる場合がある。マイクは、一般的に、音響ポートの後方でデバイス・ハウジング内にマウントされ、圧力によって及び/又は摩擦若しくは粘着力によって、所定の位置に固定され得る。図7Aは、マイクA10が音響ポートA30の後方でデバイス・ハウジングA20内にマウントされる例の横断面を示す。ハウジングA20は、一般的に、成形されたプラスチック(例えば、ポリカーボネート(PC)及び/又はアクリロニトリル−ブタジエン−スチレン共重合樹脂(ABS))で出来ており、そして、音響ポートA30は、一般的に、ハウジングの1又は複数の小さなホール又はスロットとして実装される。ハウジングA20におけるタブは、マイクを適切な位置に固定するために、圧縮性の(例えば、ゴム弾性の(elastomeric))ガスケットA40に対して、マイクA10を加圧する。多くのファクタは、このような方法でマウントされるマイクの実効的なレスポンス特性に影響を及ぼす可能性がある(例えば、マイクがマウントされる空洞の共鳴(resonances)及び/又は他の音響特性、ガスケットに対する圧力の量及び/又は均一性、音響ポートのサイズ及び形、その他)。
アレイR100により生成されるマルチチャネル信号に対するオペレーション(例えば、空間処理オペレーション)のパフォーマンスは、アレイ・チャネルのレスポンス特性がどれくらい良く互いにマッチするかに依存し得る。例えば、それぞれのマイクのレスポンス特性の相違、それぞれの前処理ステージのゲイン・レベルの相違及び/又は回路ノイズのレベルの相違に起因して、チャネルのレベルは異なり得る。このような場合、マイク・レスポンス特性の相違が補償(compensated)されない限り、結果として生じるマルチチャネル信号は、音響環境の正確な表現を提供しない可能性がある。そのような補償をしなければ、そのような信号に基づく空間処理オペレーションは、誤った結果を与える可能性がある。例えば、低周波(すなわち、およそ100Hzから1kHz)における1又は2デシベルと同じくらい小さなチャネル間の振幅レスポンスの偏り(deviations)は、低周波の指向性をかなり低減する可能性がある。アレイR100のチャネル間のアンバランスの影響は、3以上のマイクを有するアレイR100の実装からのマルチチャネル信号を処理するアプリケーションに対して特に有害(detrimental)である場合がある。
アレイのチャネルの実効的なレスポンス特性の相違を定量化するために、組み立てられたマルチマイク音声検出装置に対してプレデリバリー・キャリブレーション・オペレーション(pre-delivery calibration operation)を実行すること(すなわち、ユーザへの供給(delivery)の前に)は、望ましい場合がある。例えば、アレイのチャネルの実効的なゲイン特性の相違を定量化するために、組み立てられたマルチマイク音声検出装置に対してプレデリバリー・キャリブレーション・オペレーションを実行することは、望ましい場合がある。
プレデリバリー・キャリブレーション・オペレーションは、キャリブレートされるべきマイクの全てが同一の音圧レベル(sound pressure levels)(SPL)にさらされる音場(sound field)に対する、アレイR100のインスタンスのレスポンスに基づいて、1又は複数の補償ファクタを計算することを含んでも良い。図7Bは、そのようなオペレーションの一つの例のために配置される無反響室の上面図を示す。この例において、頭・胴シミュレーター(Head and Torso Simulator)(HAT,デンマークのネーロムのブリュエル・ケアー社(Bruel & Kjaer, Naerum, Denmark)製のような)は、無反響室において、4つのラウドスピーカの内向きに集中されたアレイ(inward-focused array)内に置かれる。音圧レベル(SPL)が音場内の位置に関して実質的に一定になるように、ラウドスピーカは、図示されるように、HATSを囲む音場を作成するように、キャリブレーション信号によって駆動される。一つの例において、それらラウドスピーカは、拡散ノイズ音場(diffuse noise field)を作成するように、ホワイトノイズ又はピンクノイズのキャリブレーション信号により駆動される。他の例において、キャリブレーション信号は、インタレストの周波数における1又は複数のトーン(例えば、およそ200Hzからおよそ2kHzの範囲における(例えば1kHzにおける)トーン)を含む。音場が、HATSの耳基準点(ear reference point)(ERP)又は口基準点(mouth reference point)(MRP)において、75から78dBまでのSPLを有することは、望ましい場合がある。
キャリブレートされるべきアレイR100のインスタンスを有するマルチマイク音声検出装置が、音場内に適切に配置される。例えば、ヘッドセットD100又はD200は、図8の例の場合のように口スピーカ(mouth speaker)に対する標準的な方向においてHATSの耳にマウントされても良いし、あるいは、ハンドセットD300は、図9の例の場合のように口スピーカに対する標準的な方向においてHATSに配置されても良い。音場に応答してアレイにより生成されるマルチチャネル信号は、それから、録音(recorded)される。信号のチャネル間の関係に基づいて、1又は複数の補償ファクタは、アレイの特定のインスタンスのチャネルのゲイン及び/又は周波数レスポンス特性にマッチするように計算される(例えば、デバイスの1又は複数のプロセッサによって及び/又は1又は複数の外部プロセッサによって)。例えば、ゲイン・ファクタを得るために、チャネルのレベル間の差分(difference)又は比率(ratio)が計算されても良い。ゲイン・ファクタは、これ以降、アレイのチャネルのゲイン・レスポンス特性の相違(difference)を補償するために、複数のチャネルのうちの1つに(例えば、ゲイン・ファクタとして)適用されても良い。
プレデリバリー・キャリブレーション手続きは、研究及びデザインの間、有用であり得るが、そのような手続きは、大部分の製造されたデバイスのために実行するにはあまりに時間がかかるか或いは非実用的である場合がある。例えば、大量市場向けのデバイスの各々のインスタンスについてそのようなオペレーションを実行することは、経済的に実行不可能である場合がある。さらに、プレデリバリー・オペレーションだけでは、デバイスの耐用年数(lifetime)の間、良いパフォーマンスを確実にするには不十分である場合がある。エイジング、温度、放射線及び汚染を含み得るファクタに起因して、マイク感度は、緩やかに変動(drift)するか或いは経時変化する場合がある。しかし、アレイの様々なチャネルのレスポンス間のアンバランスの十分な補償をしないと、マルチチャネル・オペレーション(例えば、空間選択的な処理オペレーション)のためのパフォーマンスの所望のレベルは、達成するのが難しいか或いは不可能である場合がある。
図10Aは、タスクT100a,T100b,T200及びT300を含む一般的な構成に従ってマルチチャネル・オーディオ信号(例えば、アレイR100の実装により生成されるような)を処理する方法M100のフローチャートを示す。タスクT100aは、時間にわたってオーディオ信号の第1のチャネルのレベルの値の系列を計算し、タスクT100bは、時間にわたってオーディオ信号の第2のチャネルのレベルの値の系列を計算する。タスクT200は、第1及び第2のチャネルの値の系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算する。タスクT300は、ゲイン・ファクタ値の系列に従って、時間にわたって第1のチャネルの振幅に対して(relative to)第2のチャネルの振幅を制御する。
タスクT100a及びT100bは、対応する一定期間(period of time)(マルチチャネル信号の“セグメント”とも呼ばれる)にわたって、チャネルの振幅(amplitude)又は振幅(magnitude)の尺度(measure)(“絶対振幅(absolute amplitude)”又は“調整振幅(rectified amplitude)”とも呼ばれる)として、対応するチャネルのレベルの値の系列をそれぞれ計算するように構成されても良い。振幅(amplitude)又は振幅(magnitude)の尺度の例は、総振幅(total magnitude)、平均振幅(average magnitude)、平方二乗平均(root-mean-square)(RMS)振幅、メジアン振幅(median magnitude)及びピーク振幅(peak magnitude)を含む。デジタル領域において、これらの尺度は、次のような式に従ってn個のサンプル値x,i=1,2,...,nのブロック(“フレーム”とも呼ばれる)にわたって計算されても良い。
Figure 0005329655
それらのような式はまた、変換領域(例えば、フーリエ又は離散コサイン変換(DCT)領域)においてこれらの尺度を計算するために使用されても良い。これらの尺度はまた、類似する式に従って(例えば、総和の代わりに積分を使用して)、アナログの領域において計算されても良い。
代わりに、タスクT100a及びT100bは、対応する一定期間(period of time)にわたって、チャネルのエネルギーの尺度として、対応するチャネルのレベルの値の系列をそれぞれ計算するように構成されても良い。エネルギーの尺度の例は、総エネルギー及び平均エネルギーを含む。
デジタル領域において、これらの尺度は、次のような式に従ってn個のサンプル値x,i=1,2,...,nのブロックにわたって計算されても良い。
Figure 0005329655
それらのような式はまた、変換領域(例えば、フーリエ又は離散コサイン変換(DCT)領域)においてこれらの尺度を計算するために使用されても良い。これらの尺度はまた、類似する式に従って(例えば、総和の代わりに積分を使用して)、アナログの領域において計算されても良い。
典型的なセグメント長は、およそ5又は10ミリ秒からおよそ40又は50ミリ秒にわたり、セグメントは、オーバーラップするものであっても良いし(例えば、隣接するセグメントが、25%又は50%オーバーラップする)、又は、オーバーラップしないものであっても良い。一つの特定の例において、オーディオ信号の各々のチャネルは、10ミリ秒のオーバーラップしないセグメントの系列に分割され、タスクT100aは、第1のチャネルの各々のセグメントのためのレベルの値を計算するように構成され、タスクT100bは、第2のチャネルの各々のセグメントのためのレベルの値を計算するように構成される。タスクT100a及びT100bにより処理されるセグメントはまた、異なるオペレーションにより処理されるようなより大きなセグメントのセグメント(すなわち、“サブフレーム(subframe)”)であっても良く、その逆も同じである(vice versa)。
レベル値の系列を計算する前に、オーディオ信号チャネルに対して1又は複数のスペクトラル・シェイピング・オペレーションを実行するように、タスクT100a及びT100bを構成することは、望ましい場合がある。そのようなオペレーションは、アナログ領域及び/又はデジタル領域において実行されても良い。例えば、レベル値の系列を計算する前に、それぞれのチャネルからの信号に対して、ローパスフィルタ(例えば、200、500又は1000Hzのカットオフ周波数で)又はバンドパスフィルタ(例えば、200Hzから1kHzの通過帯域で)を適用するように、タスクT100a及びT100bの各々を構成することは、望ましい場合がある。
対応するレベル値の系列が時間上でスムージングされるように、時間的スムージング・オペレーションを含むようにタスクT100a及び/又はタスクT100bを構成することは、望ましい場合がある。そのようなオペレーションは、例えば次のような式に従って実行されても良い。
Figure 0005329655
ここで、Ljnは、チャネルjのためのセグメントnに対応するレベル値を表し、Lj−tmpは、例えば上の式(1)−(7)のうちの一つのような式に従ってセグメントnのチャネルjについて計算されたスムージングされていないレベル値を表し、Lj(n−1)は、チャネルjのための前のセグメント(n−1)に対応するレベル値を表し、μは、0.1(最大スムージング)から1(スムージングなし)までの範囲の値(例えば0.3、0.5又は0.7のような)を有する時間的スムージング・ファクタを表す。
音声検出装置のオペレーションの間のある時において、音響情報ソース及び任意の指向性ノイズ源は、実質的にアクティブでない。こうした時に、マルチチャネル信号の指向性コンテンツは、バックグラウンド・ノイズ・レベルと比較して(relative to)重要でない場合がある。サイレンス又はバックグラウンド・ノイズのみを含むオーディオ信号の対応するセグメントは、本明細書で“バックグラウンド(background)”セグメントと呼ばれる。各々のマイクの音圧レベルが一般的に等しくなるように、これらの時間のサウンド環境は、拡散場(diffuse field)であると考えられても良く、バックグラウンド・セグメントにおけるチャネルのレベルもまた、等しくなるはずであると予期されても良い。
図10Bは、方法M100の実装M200のフローチャートを示す。方法M200は、バックグラウンド・セグメントを指示するように構成されるタスクT400を含む。タスクT400は、1の値を有するステートが、対応するセグメントはバックグラウンド・セグメントであることを指示し、且つ、他の値を有するステートが、対応するセグメントはバックグラウンド・セグメントでないことを指示するように、時間にわたってバイナリの値を有する信号(binary-valued signal)のステート(例えば、バイナリの値を有するフラグのステート)の系列として、インジケーションを生成するように構成されても良い。代わりに、ステートが非バックグラウンド・セグメントの2又はそれ以上の異なるタイプのうちの1つを示し得るように、タスクT400は、一度に、2を超える可能性がある値を有する信号のステートの系列として、インジケーションを生成するように構成されても良い。
タスクT400は、セグメントの1又は複数の特性(例えば、全体的なエネルギー、ローバンド・エネルギー、ハイバンド・エネルギー、スペクトル分布(例えば、1又は複数の線スペクトル周波数、線スペクトル対及び/又は反射係数を使用して評価されるような)、信号対雑音比、周期性、及び/又、周期・頻度特性(zero-crossing rate))に基づいて、セグメントがバックグラウンド・セグメントであることを指示するように構成されても良い。そのようなオペレーションは、そのような特性の1又は複数の各々について、そのような特性の値又は振幅(magnitude)を、固定された又は適応可能な閾値と比較することを含んでも良い。代わりに又は加えて、そのようなオペレーションは、そのような特性の1又は複数の各々について、そのような特性の値又は振幅(magnitude)における変化の値又は振幅(magnitude)を、計算し、そして、固定された又は適応可能な閾値と比較することを含んでも良い。複数の基準(例えば、エネルギー、周期−頻度特性(zero-crossing rate)、その他)及び/又は最近のバックグラウンド・セグメント・インジケーションのメモリに基づいて、セグメントがバックグラウンド・セグメントであることを指示するように、タスクT400を実装することは、望ましい場合がある。
代わりに又は加えて、タスクT400は、1つの周波数バンドにおける、そのような特性(例えば、エネルギー)の値若しくは振幅(magnitude)、又は、そのような特性における変化の値若しくは振幅(magnitude)を、他の周波数バンドにおける同様の値と比較することを含んでも良い。例えば、タスクT400は、低周波バンド(例えば、300Hzから2kHz)及び高周波バンド(例えば、2kHzから4kHz)の各々における現在のセグメントのエネルギーを評価し、そして、各々のバンドにおけるエネルギーがそれぞれの閾値未満(あるいは、以下)であるならば、セグメントがバックグラウンド・セグメントであることを指示するように、構成されても良い。閾値は、固定されていても良いし、又は、適応可能であっても良い。タスクT400により実行され得るそのようなボイス・アクティビティー検出オペレーション(voice activity detection operation)の一つの例は、再生される(reproduced)オーディオ信号S40のハイバンド・エネルギー及びローバンド・エネルギーを、それぞれの閾値値と比較することを含む(例えば、3GPP2のドキュメントC.S0014-C, v1.0(タイトルEnhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems,” January 2007(www-dot-3gpp-dot-orgでオンラインで入手できる))のセクション4.7(pp. 4-49 to 4-57)に記載されているように)。この例において、各々のバンドのための閾値は、アンカー・オペレーティング・ポイント(anchor operating point)(所望の平均データレートから導かれるような)、前のセグメントに関するそのバンドのバックグラウンド・ノイズ・レベルの推定、及び、前のセグメントに関するそのバンドの信号対雑音比に基づくものである。
代わりに、タスクT400は、(A)セグメントに対応するレベルslと、(B)バックグラウンド・レベル値bgとの関係に従って、セグメントがバックグラウンド・セグメントであるかどうか指示するように構成されても良い。レベル値slは、セグメントnのチャネルのうちのただ1つのレベルの値であっても良い(例えば、タスクT100aにより計算されるL1n又はタスクT100bにより計算されるL2n)。このような場合、レベル値slは、一般的に、一次マイクMC10(すなわち、より直接的に所望の情報信号を受信するために配置されるマイク)に対応するチャネルのレベルの値である。代わりに、レベル値slは、例えば上記の式(1)−(7)のうちの一つのような式に従って計算されるような、セグメントnの2又はそれ以上のチャネルのミクスチャー(mixture)(例えば、平均)のレベルの値であっても良い。更なる代わりの方法において、セグメント・レベルslは、セグメントnの2又はそれ以上のチャネルの各々のレベルの値の平均であっても良い。タスクT100aが時間にわたってL1nをスムージングするように構成され、タスクT100bが時間にわたってL2nをスムージングするように構成される場合についてさえ、レベル値slが(例えば、式(8)に関して上で説明されたように)時間にわたってスムージングされてはいない値であることは、望ましい場合がある。
図11Aは、タスクT400のそのような実装T410のフローチャートを示す(それは、レベル値slを、バックグラウンド・レベル値bgと重みwとの積と、比較する)。他の例において、重みwは、ファクタとしてよりもむしろバックグラウンド・レベル値bgへのオフセットとして実装される。重みwの値は、例えば1から、1.5,2又は5までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、wの値は、1.2と等しい。タスクT410は、オーディオ信号の各々のセグメントごとに又はより少ない頻度で(例えば、2番目のセグメントごとに(一つ置きに)、又は、4番目のセグメントごとに)、実行するように実装されても良い。
図11Bは、タスクT400の関係する実装T460のフローチャートを示す(それは、レベル値slとバックグラウンド・レベル値bgとの間の差分を、バックグラウンド・レベル値bgと重みwとの積と、比較する)。他の例において、重みwは、ファクタとしてよりもむしろバックグラウンド・レベル値bgへのオフセットとして実装される。重みwの値は、例えば0から、0.4,1又は2までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、wの値は、0.2と等しい。タスクT460は、オーディオ信号の各々のセグメントごとに又はより少ない頻度で(例えば、2番目のセグメントごとに(一つ置きに)、又は、4番目のセグメントごとに)、実行するように実装されても良い。
タスクT400は、対応するレベル値slが下限(lower bound)より大きい(又は、以上)であるときにのみ、セグメントがバックグラウンド・セグメントであることを指示するように構成されても良い。そのような特性は、例えば、主に非音響ノイズ(例えば、固有雑音又は回路雑音)に基づいてゲイン・ファクタの値を計算することを避けるために使用されても良い。あるいは、タスクT400は、そのような機能(feature)なしで実行するように構成されても良い。例えば、タスクT210が、音響コンポーネントについてだけでなくバックグラウンド・ノイズ環境の非音響コンポーネントについても、ゲイン・ファクタの値を計算することを可能にする(permit)ことは、望ましい場合がある。
タスクT400は、バックグラウンド・レベル値bgについて固定値を使用するように構成されても良い。しかし、より一般的には、タスクT400は、時間とともにバックグラウンド・レベルの値を更新するように構成される。例えば、タスクT400は、バックグラウンド・レベル値bgを、バックグラウンド・セグメントからの情報(例えば、対応するセグメント・レベル値sl)で置き換えるか或いは更新するように構成されても良い。そのような更新は、例えばbg←(1−α)bg+(α)slのような式に従って実行されても良い。ここで、αは0(更新なし)から1(スムージングなし)までの範囲の値を有する時間的スムージング・ファクタであり、y←xは、xの値のyへの割り当て(代入)(assignment)を示す。タスクT400は、バックグラウンド・セグメントごとに又はより少ない頻度で(例えば、バックグラウンド・セグメントについて一つ置きに、又は、4番目のバックグラウンド・セグメントごとに、など)、バックグラウンド・レベルの値を更新するように構成されても良い。タスクT400はまた、非バックグラウンド・セグメントからバックグラウンド・セグメントへの移行の後に、1又は複数のセグメント(“ハンドオーバー・ピリオド(hangover period)”とも呼ばれる)について、バックグラウンド・レベルの値を更新することを控えるように構成されても良い。
タスクT400を、時間の経過に伴うバックグラウンド・レベルの値の間の関係(例えば、現在と前のバックグラウンド・レベルの値の間の関係)に従って、異なるスムージング・ファクタ値を使用するように構成することは、望ましい場合がある。例えば、バックグラウンド・レベルが下がっている(falling)とき(例えば、バックグラウンド・レベルの現在の値がバックグラウンド・レベルの前の値より小さいとき)よりも、バックグラウンド・レベルが上がっている(rising)とき(例えば、バックグラウンド・レベルの現在の値がバックグラウンド・レベルの前の値より大きいとき)、タスクT400を、より多いスムージングを実行するように構成することは、望ましい場合がある。一つの特定の例において、スムージング・ファクタαは、バックグラウンド・レベルが上がっているときに、値α=0.01を割り当てられ、バックグラウンド・レベルが下がっているとき、値α=0.02(あるいは、2*α)を割り当てられる。図12Aは、タスクT410のそのような実装T420のフローチャートを示し、図12Bは、タスクT460のそのような実装T470のフローチャートを示す。
方法M200がどれくらい長く実行していたかに従って、異なるスムージング・ファクタ値を使用するように、タスクT400を構成することは、望ましい場合がある。例えば、タスクT400が、音声検出セッションの初期セグメントの間に(例えば、セッションの、最初の50,100,200,400若しくは800のセグメント、又は、最初の5,10,20若しくは30秒の間に)、もっと後のセグメントの間に比べて、より少ないスムージングを実行する(例えば、αのより高い値(例えばα)を使用する)ように、方法M200を構成することは、望ましい場合がある。そのような構成は、例えば、音声検出セッション(例えば、通話(telephone call)のような通信セッション)の間、バックグラウンド・レベル値bgのより速い初期収束(initial convergence)をサポートするために使用されても良い。
タスクT400は、バックグラウンド・レベル値bgに関して下限を観測するように構成されても良い。例えば、タスクT400は、(A)バックグラウンド・レベル値bgのための計算された値と、(B)最小許容バックグラウンド・レベル値minlvlとのうちの最大値として、バックグラウンド・レベル値bgのための現在の値を選択するように構成されても良い。最小許容値minlvlは、固定値であっても良い。あるいは、最小許容値minlvlは、例えば最も低く観測された最近のレベル(例えば、最も最近の200のセグメントにおけるセグメント・レベル値slのうちで最も低い値)のような適応可能な値であっても良い。図13Aは、タスクT420のそのような実装T430のフローチャートを示し、図13Bは、タスクT470のそのような実装T480のフローチャートを示す。
バックグラウンド・レベル値bg及び/又は最小許容値minlvlを、方法M200のその後の実行における(例えば、その後の音声検出セッションにおける及び/又はパワー・サイクルの後での)それぞれのパラメータに対する初期値として使用するために、不揮発性メモリに保存するように、タスクT400を構成することは、望ましい場合がある。タスクT400のそのような実装は、音声検出セッション(例えば、通話のような通信セッション)の終わりにおいて及び/又はパワーダウン・ルーチンの間に、周期的に(例えば、10、20、30又は60秒ごとに1回)そのような保存を実行するように構成されても良い。
方法M200はまた、タスクT400のインジケーションに基づいてゲイン・ファクタの値の系列を計算するように構成されるタスクT200の実装T210を含む。一般的に、バックグラウンド・セグメントについては、第1及び第2のチャネルのレベルの対応する値が等しくなることは、望ましい。しかし、アレイR100のチャネルのレスポンス特性の間の相違は、これらのレベルがマルチチャネル・オーディオ信号において異なる原因になる場合がある。バックグラウンド・セグメントにおけるチャネル・レベル間のアンバランスは、レベル間の関係に従ってセグメントにわたって第2のチャネルの振幅(amplitude)を変化させることによって、少なくとも部分的に補償されても良い。方法M200は、セグメントの第2のチャネルのサンプルを、L1n/L2nのファクタにより乗算することによって、そのような補償オペレーションの特定の例を実行するように構成されても良い。ここで、L1n及びL2nは、それぞれ、セグメントの第1及び第2のチャネルのレベルの値を表す。
バックグラウンド・セグメントについて、タスクT210は、第1のチャネルのレベルの値と第2のチャネルのレベルの値との間の関係に基づいて、ゲイン・ファクタの値を計算するように構成されても良い。例えば、タスクT210は、第1のチャネルのレベルの対応する値と第2のチャネルのレベルの対応する値との間の関係に基づいて、バックグラウンド・セグメントのためのゲイン・ファクタの値を計算するように構成されても良い。そのようなタスクT210の実装は、線形レベル値の関数として(例えば、G=L1n/L2nのような式に従って)、ゲイン・ファクタの値を計算するように構成されても良い。ここで、Gは、ゲイン・ファクタの現在の値を表す。あるいは、そのようなタスクT210の実装は、対数領域のレベル値の関数として(例えば、G=L1n−L2nのような式に従って)、ゲイン・ファクタの値を計算するように構成されても良い。
タスクT210を、時間にわたってゲイン・ファクタの値をスムージングするように構成することは、望ましい場合がある。例えば、タスクT210は、例えば次のような式に従ってゲイン・ファクタの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、Gtmpは、第1及び第2のチャネルのレベルの値の間の関係に基づくゲイン・ファクタのスムージングされていない(unsmoothed)値(例えば、Gtmp=L1n/L2nのような式に従って計算される値)であり、Gn−1は、ゲイン・ファクタの最も最近の値(例えば、最も最近のバックグラウンド・セグメントに対応する値)を表し、βは、0(更新なし)から1(スムージングなし)までの範囲の値を有する時間的スムージング・ファクタである。
マイク・アレイのチャネルのレスポンス特性の間の相違は、チャネル・レベルが、バックグラウンド・セグメントのためにだけでなく非バックグラウンド・セグメントのためにも、異なる原因になる場合がある。しかし、非バックグラウンド・セグメントについて、チャネル・レベルはまた、音響情報ソースの指向性に起因して異なる場合がある。非バックグラウンド・セグメントについて、ソース指向性に起因するチャネル・レベルの間でのアンバランスを取り除くことなく、アレイ・アンバランスを補償することは、望ましい場合がある。
例えば、バックグラウンド・セグメントについてのみゲイン・ファクタの値を更新するように、タスクT210を構成することは、望ましい場合がある。タスクT210のそのような実装は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
タスクT300は、ゲイン・ファクタの値の系列に従って、時間にわたって他のチャネルの振幅に対してオーディオ信号の一つのチャネルの振幅(amplitude)を制御する。例えば、タスクT300は、よりセンシティブでないチャネルからの信号を増幅するように構成されても良い。あるいは、タスクT300は、二次マイクに対応するチャネルの振幅(amplitude)を制御する(例えば、増幅又は減衰する)ように構成されても良い。
タスクT300は、線形領域においてチャネルの振幅制御を実行するように構成されても良い。例えば、タスクT300は、セグメントの第2のチャネルの振幅を、そのチャネルにおける該セグメントのサンプルの値の各々を該セグメントに対応するゲイン・ファクタの値で乗算することによって、制御するように構成されても良い。あるいは、タスクT300は、対数領域において振幅を制御するように構成されても良い。例えば、タスクT300は、セグメントの第2のチャネルの振幅を、該セグメントの継続時間にわたってそのチャネルに適用される対数関数ゲイン制御値に対してゲイン・ファクタの対応する値を加えることによって、制御するように構成されても良い。このような場合、タスクT300は、対数関数値(例えば、デシベルで)としてゲイン・ファクタの値の系列を受信し、または、線形ゲイン・ファクタ値を対数関数値に変換するように構成されても良い(例えば、xlog=20log xlinのような式に従って(ここで、xlinは線形ゲイン・ファクタ値であり、xlogは対応する対数関数値である))。タスクT300は、1つのチャネル又は複数のチャネルの他の振幅制御(例えば、自動ゲイン制御(AGC)又は自動ボリューム制御(AVC)モジュール、ユーザ操作によるボリューム制御(user-operated volume control)、その他)と結合されても良いし、または、その上流(upstream)又は下流(downstream)で実行されても良い。
時間にわたるゲイン・ファクタの値の間の関係(例えば、現在と前のゲイン・ファクタの値の間の関係)に従って異なるスムージング・ファクタ値を使用するように、タスクT210を構成することは、望ましい場合がある。例えば、ゲイン・ファクタの値が下がっているとき(例えば、ゲイン・ファクタの現在の値がゲイン・ファクタの前の値より小さいとき)よりも、ゲイン・ファクタの値が上がっているとき(例えば、ゲイン・ファクタの現在の値がゲイン・ファクタの前の値より大きいとき)、タスクT210を、より多いスムージングを実行するように構成することは、望ましい場合がある。そのようなタスクT210の構成の例は、パラメータΔG=Gtmp−Gn−1を評価し、ΔGが0より大きい(あるいは、0以上である)ときはβの値をスムージング・ファクタβに割り当て、そうでないときはβの値をΔGに割り当てることによって、実装されても良い。一つの特定の例において、βは0.2の値を有し、βは0.3(あるいは、1.5*β)の値を有する。タスクT210が以下のようにΔGに関して上記の式(11)を実装するように構成されても良い点に注意される。
Figure 0005329655
方法M200がどれくらい長く実行していたかに従って、ゲイン・ファクタ値の時間的スムージングの程度を変化させるように、タスクT210を構成することは、望ましい場合がある。例えば、タスクT210が、音声検出セッションの初期セグメントの間(例えば、セッションの、最初の50,100,200,400若しくは800のセグメント、又は、最初の5,10,20若しくは30秒の間)に、もっと後のセグメントの間に比べて、より少ないスムージングを実行する(例えば、より高いスムージング・ファクタ値(例えばβ*2またはβ*3)を使用する)ように、方法M200を構成することは、望ましい場合がある。そのような構成は、例えば、音声検出セッション(例えば、通話)の間、該値のより速い初期収束をサポートするために使用されても良い。代わりに又は加えて、タスクT210が、初期セグメントの間(例えば、セッションの、最初の50,100,200,400又は800のセグメント、又は、最初の5,10,20又は30秒の後)に比べて、音声検出セッションのもっと後のセグメントの間に、より多いスムージングを実行する(例えば、より低いスムージング・ファクタ値(例えば、β/2,β/3又はβ/4)を使用する)ように、方法M200を構成することは、望ましい場合がある。
タスクT200が何らかの状況(circumstances)においてゲイン・ファクタの値を更新するのを抑制する(inhibit)ことは、望ましい場合がある。例えば、対応するセグメント・レベル値slが最小レベル値未満(あるいは、以下)であるときに、ゲイン・ファクタの前の値を使用するように、タスクT200を構成することは、望ましい場合がある。他の例において、対応するセグメントのチャネルのレベル値の間のアンバランスがあまりに大きい(例えば、レベル値の間の絶対差(absolute difference)が最大アンバランス値より大きい(あるいは、以上である)か、又は、レベル値の間の比率が、あまりに大きいか若しくはあまりに小さい)ときに、ゲイン・ファクタの前の値を使用するように、タスクT200を構成することは、望ましい場合がある。そのような状態(それは一方又は両方のチャネル・レベルの値が信頼できないことを示す可能性がある)は、マイクのうちの一つがふさがれているか(例えば、ユーザの指によって)、壊れているか、又は、汚染されている(例えば、埃又は水によって)ときに、起こる場合がある。
更なる例において、無相関ノイズ(例えば、ウィンド・ノイズ(wind noise))が対応するセグメントにおいて検出されるときに、ゲイン・ファクタの前の値を使用するように、タスクT200を構成することは、望ましい場合がある。マルチチャネル・オーディオ信号の無相関ノイズの検出は、例えば、米国特許出願番号12/201,528, filed August 29, 2008, entitled “SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT”に記載されている。このドキュメントは、無相関ノイズの検出及び/又はそのような検出のインジケーションのための装置及びプロシージャーの開示に制限された目的のために参照によって本明細書に組み込まれる。そのような検出は、差分信号(difference signal)のエネルギーを閾値と比較することを含んでも良い。ここで、差分信号はセグメントのチャネルの間の差分である。そのような検出は、チャネルをローパスフィルタリングすること、及び/又は、差分信号の計算の上流で、ゲイン・ファクタの前の値を第2のチャネルに適用することを含んでも良い。
マルチマイク音声検出装置は、音響情報ソースに対して(relative to)、特定の方法(“標準的な方向(standard orientation)”とも呼ばれる)において、着用され、持たれ、或いは、正しい位置に置かれるようにデザインされても良い。例えばハンドセット又はヘッドセットのような音声通信デバイスについて、情報ソースは、一般的に、ユーザの口である。図8は、アレイR100の一次マイクMC10が、第二のマイクMC20に比べて、ユーザの口により直接的に向けられ、及び、ユーザの口により近付けられるように、標準的な方向にあるヘッドセットD100の上面図を示す。図9は、一次マイクMC10が、第二のマイクMC20に比べて、ユーザの口により直接的に向けられ、及び、ユーザの口により近付けられるように、標準的な方向にあるハンドセットD300の側面図を示す。
通常の使用の間、携帯型の音声検出装置は、情報ソースに対して標準的な方向の範囲の間で、任意にオペレートしても良い。例えば、異なるユーザが、異なってデバイスを着用し又は持っても良く、同一のユーザが、同一の使用期間内(例えば、1回の通話(single telephone call)の間)でさえ、異なる時に異なるようにデバイス着用し又は持っても良い。図14は、ユーザの耳65にマウントされるヘッドセットD100について、ユーザの口64に対して標準的な方向の範囲66の2つの境界の例を示す。図15は、ユーザの口に対してハンドセットD300について標準的な方向の範囲の2つの境界の例を示す。
オーディオ信号の“情報”セグメントは、指向性音響情報ソース(例えば、ユーザの口)からの情報を含む(アレイのマイクのうちの第1のものは、アレイのマイクのうちの第2のものに比べて、該ソースにより近付けられており及び/又は該ソースへより直接向けられている)。この場合、たとえ2つのマイクのレスポンスが完全にマッチされるとしても、対応するチャネルのレベルは異なると予期され得る。
上で示したように、マイク・アレイのチャネルのレスポンス特性の間の相違に起因するチャネル・レベルの間のアンバランスを補償することは、望ましい場合がある。しかし、情報セグメントについて、情報ソースの指向性に起因するチャネル・レベルの間のアンバランスを維持することはまた、望ましい場合がある。ソース指向性に起因するアンバランスは、重要な情報を、例えば空間処理オペレーションに、提供し得る。
図16Aは、方法M100の実装M300のフローチャートを示す。方法M300は、情報セグメントを指示するように構成されるタスクT500を含む。タスクT500は、例えば第1のチャネルのレベルの対応する値及び第2のチャネルのレベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成されても良い。方法M300はまた、タスクT500のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるタスクT200の実装T220を含む。
図16Bは、タスクT500の実装T510のフローチャートを示す。タスクT510は、セグメントのバランス尺度(balance measure)の値に基づいて、セグメントが情報セグメントであるかどうか指示するように構成される。ここで、バランス尺度は、第1及び第2のチャネルのレベルの対応する値と、アレイR100のチャネルの異なるレスポンス特性に起因するチャネル・レベルの間の推定されたアンバランス(“アレイ・アンバランス推定(array imbalance estimate)”)とに基づくものである。タスクT510は、レベル値の間の関係に重み付けをするために、アレイ・アンバランス推定を使用することによって、バランス尺度を計算するように構成されても良い。例えば、タスクT510は、例えばM=I(L2n/L1n)のような式に従ってセグメントnについてバランス尺度Mを計算するように構成されても良い。L1n及びL2nは、それぞれ、セグメントについて第1及び第2のチャネルのレベルの値を示し(すなわち、タスクT100a及びT100bによって計算されたもののような)、Iは、アレイ・アンバランス推定を表す。
アレイ・アンバランス推定Iは、ゲイン・ファクタの少なくとも1つの値に基づいても良い(すなわち、タスクT220によって計算されたもののような)。一つの特定の例において、アレイ・アンバランス推定Iは、ゲイン・ファクタの前の値G(n−1)である。他の例において、アレイ・アンバランス推定Iは、ゲイン・ファクタの前の値の2個又はそれ以上の個数の平均(例えば、ゲイン・ファクタの2つの最も最近の値の平均)である。
タスクT510は、対応するバランス尺度Mが閾値T未満(あるいは、以下)であるときに、セグメントが情報セグメントであることを指示するように構成されても良い。例えば、タスクT510は、例えば次のような式に従って、各々のセグメントについてバイナリ・インジケーションを生成するように構成されても良い。
Figure 0005329655
ここで、1の結果は、情報セグメントを示し、0の結果は、非情報セグメントを示す。タスクT510のそのような構成を実装するために使用され得る同じ関係の他の式は以下を含んでも良い(それらに制限されない)。
Figure 0005329655
もちろん、そのような式の他の実装は、対応する結果を示すために異なる値を使用しても良い(例えば、情報セグメントを示す0の値及び非情報セグメントを示す1の値)。タスクT510は、割り当てられた数値(例えば1,1.2,1.5若しくは2又はそのような値に等しい対数関数)を有する閾値T1を使用するように構成されても良い。あるいは、閾値T1が、タスクT220に関して下記のようにバイアス・ファクタに基づくことは、望ましい場合がある。ゲイン・ファクタ計算タスクT220の適切なオペレーションをサポートするために、閾値T1を選択することは、望ましい場合がある。例えば、フォールス・ポジティブ(false positives)(非情報セグメントを情報セグメントとして指示)とフォールス・ネガティブ(false negatives)(情報セグメントを指示することに失敗)との間のタスクT510における適切なバランスを提供するために、閾値T1を選択することは、望ましい場合がある。
タスクT220は、タスクT500のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される。情報セグメントについて、タスクT220は、チャネル・レベル値及びバイアス・ファクタIに基づいて、ゲイン・ファクタ値の対応する値を計算するように構成される。バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものであり、一般的に、セグメントの第1及び第2のチャネルのレベルの間の比率から独立しており、そして、下記のように計算又は評価されても良い。タスクT220は、第1及び第2のチャネルのレベルの対応する値の間の関係における重みとしてバイアス・ファクタを使用することによって、情報セグメントについてゲイン・ファクタの値を計算するように構成されても良い。そのようなタスクT220の実装は、線形値の関数として(例えば、G=L1n/I(L2n)のような式に従って(ここで、バイアス・ファクタIは、第2のチャネルのレベルの値を重み付けするために使用される))、ゲイン・ファクタの値を計算するように構成されても良い。あるいは、そのようなタスクT220の実装は、対数領域の値の関数として(例えば、G=L1n−(I+L2n)のような式に従って)、ゲイン・ファクタの値を計算するように構成されても良い。
情報セグメントについてのみゲイン・ファクタの値を更新するように、タスクT220を構成することは、望ましい場合がある。タスクT220のそのような実装は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、βは、上で述べられたように、スムージング・ファクタ値である。
バイアス・ファクタIは、指向性音源からの音響信号に起因するアレイの異なるマイクにおける音圧レベルの間の比率の近似として計算されても良い。そのような計算は、例えばデバイス内のマイクの位置及び方向のようなファクタ及びデバイスがソースに対して標準的な方向にあるときのデバイスとソースとの間の予測距離(expected distance)のようなファクタに基づいて、オフラインで(例えば、デバイスの設計又は製造の間に)実行されても良い。そのような計算はまた、マイク・アレイにより検出(sensed)される音場に影響を及ぼし得る音響ファクタ(例えば、デバイスの表面の及び/又はユーザの頭の反射特性)を考慮しても良い。
加えて又は代わりに、バイアス・ファクタIは、指向性音響信号に対するデバイスのインスタンスの実際のレスポンスに基づいて、オフラインで評価されても良い。この方法において、デバイスの基準インスタンス(“基準デバイス(reference device)”とも呼ばれる)は、指向性情報ソースに対して標準的な方向に置かれ、そして、音響信号は、ソースにより発生(produces)される。マルチチャネル信号は、音響信号に応答してデバイス・アレイから得られ、バイアス・ファクタは、マルチチャネル信号のチャネル・レベルの間の関係に基づいて、(例えば、一次マイクのチャネルのレベル対二次マイクのチャネルのレベルの比率のような、チャネル・レベル間の比率として)計算される。
そのような評価オペレーションは、指向性音源(例えば、HATSの口ラウドスピーカ)に対して標準的な方向において適したテスト・スタンド(例えば、HATS)の上に基準デバイスをマウントすることを含んでも良い。他の例において、基準デバイスは、人に着用されるか或いは人の口に対して標準的な方向においてマウントされる。ソースが、(例えば、耳基準点(ERP)又は口基準点(MRP)において測定されるような)75から78dBまでの音圧レベル(SPL)のスピーチ信号又は人工スピーチ信号として音響信号を発生することは、望ましい場合がある。(例えば、図6Bで示されるような配置において)マルチチャネル信号が得られる間、基準デバイス及びソースは、無反響室内に位置しても良い。マルチチャネル信号が得られる間、基準デバイスが、拡散ノイズ音場(例えば、図6Bで示されるように配置された4つのラウドスピーカにより発生され、ホワイト又はピンクノイズにより駆動される音場)内にあることはまた、望ましい場合がある。基準デバイスのプロセッサ又は外部処理デバイスは、バイアス・ファクタを(例えば、一次マイクのチャネルのレベル対二次マイクのチャネルのレベルの比率のような、チャネルのレベルの比率として)計算するために、マルチチャネル信号を処理する。
バイアス・ファクタIが、ソースに対して標準的な方向における基準インスタンス(例えば、同一のモデルの任意のデバイス)と同じタイプのデバイスの任意のインスタンスについて、情報ソースの指向性によって、予期され得るチャネル・アンバランスを表現(describe)することは、望ましい場合がある。そのようなバイアス・ファクタは、一般的に、大量生産の間、デバイスの他のインスタンスに対してコピー(copied)されるであろう。ヘッドセット・アプリケーション及びハンドセット・アプリケーションのためのバイアス・ファクタIの典型的な値は、1,1.5,2,2.5,3,4及び6デシベル並びにそのような値の線形等価(linear equivalents)を含む。
デバイスの他のインスタンスに信頼して(reliably)適用できるバイアス・ファクタを得るために、バイアス・ファクタ評価を実行する前に、デバイスの基準インスタンスをキャリブレートすることは、望ましい場合がある。そのようなキャリブレーションは、バイアス・ファクタが、基準デバイスのアレイのチャネルのレスポンス特性の間のアンバランスから独立していることを確実とするために、望ましい場合がある。図6Bに関して以前に説明されたように、基準デバイスは、例えば、プレデリバリー・キャリブレーション・オペレーションに従ってキャリブレートされても良い。
あるいは、バイアス・ファクタ評価オペレーションの後に基準インスタンスをキャリブレートし、そして、キャリブレーション結果に従って(例えば、結果として生じる補償ファクタに従って)、バイアス・ファクタIを調整(adjust)することは、望ましい場合がある。更なる代わりの方法において、バイアス・ファクタは、各々の生成デバイス(production device)内での方法M100の実行の間、バックグラウンド・セグメントについてタスクT200により計算されるようなゲイン・ファクタの値に基づいて、調整される。
任意の一つの基準インスタンスに起因するバイアス・ファクタIにおける誤差の影響を低減することは、望ましい場合がある。例えば、デバイスの幾つかの基準インスタンスに対してバイアス・ファクタ評価オペレーションを実行し、そして、バイアス・ファクタIを得るために、該結果を平均することは、望ましい場合がある。
上記のように、タスクT510の閾値T1が、バイアス・ファクタIに基づくことは、望ましい場合がある。この場合、閾値T1は、例えば1/(1+δε)のような値を有しても良い。ここで、ε=(I−1)であり、δは0.5から2まで範囲の値(例えば、0.8、0.9又は1)を有する。
時間にわたってバイアス・ファクタIを調整(tune)するためにタスクT500を実装することは、望ましい場合がある。例えば、バイアス・ファクタの最適の値は、同一のデバイスについて、一人のユーザから他のユーザまで(ユーザごとに)、少し(slightly)変化させても良い。そのような変化は、例えば様々なユーザによって採用(adopted)される標準的な方向の間の相違及び/又はデバイスとユーザの口との間の距離上の相違のようなファクタに起因して、生じる場合がある。一つの例において、タスクT500は、バックグラウンドと情報セグメントとの間の移行にわたってゲイン・ファクタの値の系列における変化を最小にするように、バイアス・ファクタIを調整するために実装される。タスクT500のそのような実装はまた、更新されたバイアス・ファクタIを、方法M300の後続する実行における(例えば、その後の音声検出セッションにおける及び/又はパワー・サイクルの後での)それぞれのパラメータのための初期値として使用するために、不揮発性メモリに保存するように構成されても良い。タスクT500のそのような実装は、音声検出セッション(例えば、通話)の終わりにおいて及び/又はパワーダウン・ルーチンの間に、周期的に(例えば、10,20,30又は60秒おきに1回)そのような保存を実行するように構成されても良い。
図17は、バランス尺度Mの値がどのようにしてマルチチャネル・オーディオ信号の対応するセグメントの指向性コンポーネントのおよその到来角を判定するために使用され得るかという理想化された視覚的描写を示す。これらの表現(terms)において、タスクT510は、バランス尺度Mの対応する値が閾値T1より小さい場合に、セグメントを情報ソースS1に対応付けるものとして表現(described)されても良い。
遠い指向性ソースからのサウンドは、拡散する傾向がある。したがって、遠距離音場(far-field)アクティビティーの期間の間に、アレイR100のマイクにおけるSPLは、サイレンス又はバックグラウンド・ノイズの期間の間のように、比較的均等であろうと仮定されても良い。遠距離音場アクティビティーの期間の間のSPLは、サイレンス又はバックグラウンド・ノイズの期間の間のそれらより高いが、しかし、対応するセグメントから導かれるチャネル・アンバランス情報は、バックグラウンド・セグメントから導かれる類似する情報に比べて、非音響ノイズ・コンポーネント(例えば回路ノイズ)からの影響をより受けない可能性がある。
3以上のタイプのセグメントの間で区別するように、タスクT500を構成することは、望ましい場合がある。例えば、情報セグメントだけでなく遠距離音場アクティビティーの期間に対応するセグメント(“バランス・ノイズ(balanced noise)”セグメントとも呼ばれる)を指示するように、タスクT500を構成することは、望ましい場合がある。タスクT500のそのような実装は、対応するバランス尺度Mが、閾値Tより大きく(あるいは、以上であり)、且つ、閾値Tより少ない(あるいは、以下である)ときに、セグメントはバランス・ノイズ・セグメントであることを指示するように構成されても良い。例えば、タスクT510の実装は、例えば次のような式に従って各々のセグメントのためのインジケーションを生成するように構成されても良い。
Figure 0005329655
ここで、1の結果は情報セグメントを示し、−1の結果はバランス・ノイズ・セグメントを示し、0の結果はいずれでもないセグメントを示す。
タスクT510のそのような実装は、割り当てられた数値(例えば、閾値T2について、1,1.2,1.5若しくは2又はそのような値に等しい対数関数、及び、閾値T2について、1.2,1.5,2若しくは3又はそのような値に等しい対数関数)を有する閾値を使用するように構成されても良い。あるいは、閾値T2及び/又は閾値T3がバイアス・ファクタIに基づくことは、望ましい場合がある。例えば、閾値T2は、例えば1/(1+γε)のような値を有しても良く、及び/又は、閾値T3は、例えば1+γεのような値を有しても良い。ここで、ε=(I−1)であり、γは0.03から0.5まで範囲の値(例えば、0.05、0.1又は0.2)を有する。ゲイン・ファクタ計算タスクT220の適切なオペレーションをサポートするために、閾値T2及びT3を選択することは、望ましい場合がある。例えば、情報セグメントの十分な棄却(rejection)を提供するために閾値T2を選択し、近距離音場(near-field)ノイズの十分な棄却を提供するために閾値T3を選択することは、望ましい場合がある。
タスクT500が情報セグメント及びバランス・ノイズ・セグメントを指示するように構成されるケースについて、タスクT220は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、βは、上で示したように、スムージング・ファクタ値である。
図18Aは、例えば式(19)により表現されるようなプロシージャーに従って、情報セグメント及びバランス・ノイズ・セグメントを指示するタスクT510の実装T550のためのフローチャートを示す。図18Bは、バランス・ノイズ・セグメントに対するテストが、情報セグメントに対するテストの上流で実行されるタスクT510の類似する実装T560のためのフローチャートを示す。当業者は、いま、タスクT510のそのような構成を実装するために使用され得る同一の関係の様々な他の式を認識するであろう。当業者はまた、そのようなその式が、対応する結果を示すために、異なる値を使用してもよいことを認識するであろう。
例えばヘッドセット又はハンドセットのような携帯型の通信デバイスの典型的な使用において、ただ1つの情報ソースが予想される(すなわち、ユーザの口)。しかし、他の音声検出アプリケーションについて、情報セグメントの2又はそれ以上の異なるタイプの間で区別するように、タスクT500を構成することは、望ましい場合がある。そのような能力は、例えば、会議開催アプリケーション又はスピーカーホン・アプリケーションにおいて有用である場合がある。図19は、バランス尺度Mの値がどのようにして3つの異なるそれぞれの情報ソース(例えば、電話会議開催デバイスを使用している3人の人)からのアクティビティーに対応する情報セグメントの間で区別するために使用され得るかという理想化された視覚的描写を示す。タスクT510の対応する実装は、例えば次のような式に従って情報セグメントの特定のタイプを指示するように構成されても良い。
Figure 0005329655
ここで、第1、第2及び第3の結果が、それぞれ、ソースS1、S2及びS3に対応する情報セグメントを示し、閾値T1〜T4は、ゲイン・ファクタ計算タスクT220の適切なオペレーションをサポートするために、選択される。
異なるそれぞれの情報ソースからのアクティビティーに対応する情報セグメントの間で区別するように方法M300が構成されるケースについて、タスクT220は、情報セグメントの異なるタイプの各々について、異なるそれぞれのバイアス・ファクタを使用するように構成されても良い。方法M300のそのような実装については、異なるバイアス・ファクタの各々を得るために、先に述べたようなバイアス・ファクタ評価オペレーションの対応するインスタンスを実行することは、望ましい場合がある(基準バイスは、各々のケースにおけるそれぞれの情報ソースに対して標準的な方向にある)。
音声検出装置は、方法M200及びM300のうちの一つを実行するように構成されても良い。あるいは、音声検出装置は、方法M200及びM300の間で選択するように構成されても良い。例えば、方法M200の信頼できる使用をサポートするのに不十分なバックグラウンド音響ノイズを有する環境において、方法M300を使用するように、音声検出装置を構成することは、望ましい場合がある。更なる代わりの構成において、音声検出装置は、図20Aのフローチャートで示されるような方法M100の実装M400を実行するように構成される。方法M400(それはまた方法M200及びM300の実装である)は、本明細書で説明されたタスクT400の実装の任意のインスタンス及び本明細書で説明されたタスクT500の実装の任意のインスタンスを含む。方法M400はまた、タスクT400のインジケーション及びタスクT500のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるタスクT200の実装T230を含む。
タスクT400及びT500を並列に実行するように方法M400を構成することは、望ましい場合がある。あるいは、タスクT400及びT500を逐次的な(例えば、カスケードな)方法で実行するように方法M400を構成することは、望ましい場合がある。図20Bは、タスクT500の実行が、各々のセグメントに対するタスクT400の結果に関して条件付きである、そのような例のフローチャートを示す。図21Aは、タスクT550の実行が、各々のセグメントに対するタスクT400の結果に関して条件付きである、そのような例のフローチャートを示す。図21Bは、タスクT400の実行が、各々のセグメントに対するタスクT500の結果に関して条件付きである、そのような例のフローチャートを示す。
タスクT500は、セグメントに対応するレベル値(例えば、タスクT410に関して本明細書で説明されるレベル値sl)とバックグラウンド・レベル値(例えば、タスクT410に関して本明細書で説明されるバックグラウンド・レベル値bg)との間の関係に基づいて、セグメントは情報セグメントであることを指示するように構成されても良い。図22Aは、その実行がタスクT400の結果に関して条件付きであるタスクT510の、そのような実装T520のフローチャートを示す。タスクT520は、レベル値slを、バックグラウンド・レベル値bgと重みwとの積に比較するテストを含む。他の例において、重みwは、ファクタとしてよりもむしろバックグラウンド・レベル値bgへのオフセットとして実装される。重みwの値は、例えば1から、1.5,2又は5までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、wの値は、1.3と等しい。
図22Bは、タスクT510の類似する実装T530のフローチャートを示す。それは、レベル値slとバックグラウンド・レベル値bgとの間の差分を、バックグラウンド・レベル値bgと重みwの積との積と比較するテストを含む。他の例において、重みwは、ファクタとしてよりもむしろバックグラウンド・レベル値bgへのオフセットとして実装される。重みwの値は、例えば0から、0.4,1又は2までのような範囲から選択されても良く、また、固定されていても良いし又は適応可能であっても良い。一つの特定の例において、wの値は、0.3と等しい。図23A及び23Bは、それぞれ、タスクT550の類似する実装T570及びT580のフローチャートを示す。
方法M100の様々なタスクの比較(“テスト”とも呼ばれる)及び他のオペレーションも、同一のタスク中のテスト及び他のオペレーションも、他のオペレーションの結果がオペレーションを不必要にし得るケースについてさえ、並行して実行するように実装されても良い点に明確に留意される。例えば、たとえ第1のテストの否定的な結果が第2のテストを不必要にし得るとしても、タスクT520の複数のテスト(又は、タスクT530の複数のテスト)を並行して実行すること(或いは、タスクT570又はT580の複数のテストのうちの2又はそれ以上を並行して実行すること)は、望ましい場合がある。
タスクT230は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、βは、上で示したように、スムージング・ファクタ値である。タスクT400及び/又はタスクT500のインジケーションに従って、ゲイン・ファクタの時間的スムージングの程度を変化させるように、タスクT230を構成することは、望ましい場合がある。例えば、タスクT230を、少なくとも音声検出セッションの初期セグメントの間に(例えば、セッションの、最初の50,100,200,400若しくは800のセグメント、又は、最初の5,10,20若しくは30秒の間に)、バックグラウンド・セグメントについて、より少ない(より程度を抑えた)スムージングを実行するように(例えば、より高いスムージング・ファクタ値(例えば、β*2又はβ*3)を使用するように)構成することは、望ましい場合がある。加えて又は代わりに、情報及び/又はバランス・ノイズ・セグメントの間、より多くのスムージングを実行するように(例えば、より低いスムージング・ファクタ値(例えば、β/2、β/3又はβ/4)を使用するように)、タスクT230を構成することは、望ましい場合がある。
タスクT500が情報セグメント及びバランス・ノイズ・セグメントを指示するように構成される方法M400の実装については、タスクT230は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、βは、上で示したように、スムージング・ファクタ値である。また、先に述べたように、バックグラウンド・セグメントについて、及び/又は、情報及び/又はバランス・ノイズ・セグメントについて、ゲイン・ファクタ値の時間的スムージングの程度を変化させるように、タスクT230を構成することは、望ましい場合がある。
レベル値計算タスクT100a、レベル値計算タスクT100b及びゲイン・ファクタ計算タスクT200のうちの1又は複数を、他のタスクに比べて異なる時間スケール(time scale)の上で実行するように、方法M100を構成することは、望ましい場合がある。例えば、方法M100は、タスクT100a及びT100bは、各々のセグメントについてレベル値を生成するが、タスクT200は、一つ置きのセグメントについてだけ、又は、4番目のセグメントごとにだけ、ゲイン・ファクタを計算するように、構成されても良い。同様に、方法M200(又は方法M300)は、タスクT100a及びT100bは、各々のセグメントについてレベル値を生成するが、タスクT400(及び/又はタスクT500)は、一つ置きのセグメントについてだけ、又は、4番目のセグメントごとにだけ、その結果を更新するように、構成されても良い。そのような場合、より頻度の低いタスクからの結果が、より頻度の高いタスクからの結果の平均に基づいても良い。
タスクT300によって、1つのセグメントに対応するゲイン・ファクタ値(例えば、セグメントnからのレベル値に基づくゲイン・ファクタ値)が、異なるセグメント(例えば、セグメント(n+1)又はセグメント(n+2))に適用されるように、方法M100を構成することは、望ましい場合がある。同様に、タスクT300によって、1つのセグメントに対応するバックグラウンド・セグメント・インジケーション(あるいは、情報又はバランス・ノイズ・セグメント・インジケーション)が、異なるセグメントに(例えば、次のセグメントに)適用されるゲイン・ファクタ値を計算するために使用されるように、方法M200(又はM300)を構成することは、望ましい場合がある。そのような構成は、例えば可聴アーティファクト(audible artifact)を作成することなくそれが計算量(computational budget)を削減するならば、望ましい場合がある。
マルチチャネル・オーディオ信号のそれぞれの周波数サブバンドの上で方法M100の独立したインスタンスを実行することは、望ましい場合がある。そのような例において、1セットの解析フィルタ又は変換オペレーション(例えば、高速フーリエ変換又はFFT)は、信号の各々のチャネルを1セットのサブバンドにデコンポーズ(decompose)するために使用され、方法M100のインスタンスは、各々のサブバンドの上で別々に実行され、そして、1セットの合成フィルタ又は逆変換オペレーションは、第1のチャネル及び処理された第2のチャネルの各々をリコンポーズ(recompose)するために使用される。様々なサブバンドは、オーバーラップしていてもオーバーラップしていなくても良く、また、均一な幅であっても不均一な幅であっても良い。使用されても良い不均一のサブバンド分割スキームの例は、例えばバーク・スケール(Bark scale)に基づくスキームのような超越関数(transcendental)スキーム、又は、例えばメル・スケール(Mel scale)に基づくスキームのような対数関数スキームを含む。
方法M100を、3以上のチャネルを有するマルチチャネル・オーディオ信号まで拡張することは、望ましい場合がある。例えば、方法M100の一つのインスタンスは、第1及び第2のチャネルのレベルに基づいて、第1のチャネルに対して(relative to)第2のチャネルの振幅を制御するために実行されても良く、一方、方法M100の他のインスタンスは、第1のチャネルに対して第3のチャネルの振幅を制御するために実行される。このような場合、方法M300の異なるインスタンスは、異なるそれぞれのバイアス・ファクタを使用するように構成されても良い。ここで、バイアス・ファクタの各々は、基準デバイスの対応するチャネルの上で、それぞれのバイアス・ファクタ評価オペレーションを実行することによって、得られても良い。
マイク・アレイのチャネルの稼動中(in-service)のマッチングについて本明細書で説明されるように、携帯型のマルチマイク音声検出装置は、方法M100の実装を実行するように構成されても良い。そのようなデバイスは、デバイスのあらゆる使用の間、方法M100の実装を実行するように構成されても良い。あるいは、そのようなデバイスは、全体の使用期間より少ない間隔の間、方法M100の実装を実行するように構成されても良い。例えば、そのようなデバイスは、あらゆる使用よりも低い頻度(例えば、毎日、毎週又は毎月につき1回未満)で、方法M100の実装を実行するように構成されても良い。あるいは、そのようなデバイスは、何らかのイベントに応じて(例えば、あらゆるバッテリー充電サイクルで)、方法M100の実装を実行するように構成されても良い。他の時は、デバイスは、格納されたゲイン・ファクタ値(例えば、最も最近計算されたゲイン・ファクタ値)に従って、第1のチャネルに対して第2のチャネルの振幅制御を実行するように構成されても良い。
図24Aは、一般的な構成に従ってデバイスD10のブロック図を示す。デバイスD10は、本明細書で開示されるマイク・アレイR100の実装のうちの任意のもののインスタンスを含み、本明細書で開示される音声検出装置のうちの任意のもの(例えば、デバイスD100,D200,D300,D400,D500及びD600)は、デバイスD10のインスタンスとして実装されても良い。第1のチャネルの振幅に対して第2のチャネルの振幅を制御するために、デバイスD10はまた、アレイR100によって生成されるマルチチャネル・オーディオ信号を処理するように構成される装置MF100を含む。例えば、装置MF100は、本明細書で開示される方法M100の実装のうちの任意のもののインスタンスに従って、マルチチャネル・オーディオ信号を処理するように構成されても良い。装置MF100は、ハードウェアで及び/又はソフトウェア(例えば、ファームウェア)で実装されても良い。例えば、装置MF100は、処理されたマルチチャネル信号の上で先に述べたように空間処理オペレーション(例えば、音声検出装置と特定のサウンド・ソースとの間の距離を判定し、雑音を低減し、特定の方向から到来する信号コンポーネントを強化し、及び/又は、1又は複数のサウンド・コンポーネントを他の環境音から分離する、1又は複数のオペレーション)を実行するように更に構成されるデバイスD10のプロセッサ上で実装されても良い。
図24Bは、装置MF100の実装MF110のブロック図を示す。装置MF110は、(例えば、タスクT100aに関して上で説明されたように)時間にわたってオーディオ信号の第1のチャネルのレベルの値の系列を計算するための手段FL100aを含む。装置MF110はまた、(例えば、タスクT100bに関して上で説明されたように)時間にわたってオーディオ信号の第2のチャネルのレベルの値の系列を計算するための手段FL100bを含む。手段FL100a及びFL100bは、異なる構造(例えば、異なる回路又はソフトウェア・モジュール)として、同一の構造の異なる部分(例えば、論理素子のアレイの異なる領域又はコンピュータ・プロセスのパラレル・スレッド)として、及び/又は、異なる時間における同一の構造(例えば、時間にわたって異なるタスクの系列を実行するように構成される計算回路又はプロセッサ)として、実装されても良い。
装置MF110はまた、(例えば、タスクT200に関して上で説明されたように)時間にわたってゲイン・ファクタの値の系列を計算するための手段FG100と、(例えば、タスクT300に関して上で説明されたように)第1のチャネルの振幅に対して第2のチャネルの振幅を制御するための手段FA100とを含む。手段FL100a及びFL100bのいずれに関しても、計算手段FG100は、異なる構造として、同一の構造の異なる部分として、及び/又は、異なる時間における同一の構造として実装されても良い。手段FL100a、FL100b及びFG100のいずれに関しても、手段FA100は、異なる構造として、同一の構造の異なる部分として、及び/又は、異なる時間における同一の構造として実装されても良い。一つの例において、手段FA100は、第2のチャネルのサンプルにゲイン・ファクタの対応する値を乗算するように構成される計算回路又はプロセスとして実装される。他の例において、手段FA100は、アンプ又は他の調節可能なゲイン制御素子として実装される。
図25は、装置MF110の実装MF200のブロック図を示す。装置MF200は、(例えば、タスクT400に関して上で説明されたように)セグメントはバックグラウンド・セグメントであることを指示するための手段FD100を含む。手段FD100は、例えば、論理回路(例えば、論理素子のアレイ)として及び/又はプロセッサにより実行可能なタスクとして実装されても良い。一つの例において、手段FD100は、ボイス・アクティビティー検出器(voice activity detector)として実装される。装置MF200はまた、(例えば、タスクT210に関して上で説明されたように)手段FD100のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される手段FG100の実装FG200を含む。
図26は、装置MF110の実装MF300のブロック図を示す。装置MF300は、(例えば、タスクT500に関して上で説明されたように)セグメントは情報セグメントであることを指示するための手段FD200を含む。手段FD200は、例えば、論理回路(例えば、論理素子のアレイ)として及び/又はプロセッサにより実行可能なタスクとして実装されても良い。装置MF300はまた、(例えば、タスクT220に関して上で説明されたように)手段FD200のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される手段FG100の実装FG300を含む。
図27は、セグメントはバックグラウンド・セグメントであることを指示する手段FD100及びセグメントは情報セグメントであることを指示する手段FD200を含む装置MF110の実装MF400のブロック図を示す。装置MF400はまた、(例えば、タスクT230に関して上で説明されたように)手段FD100及びFD200のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成される手段FG100の実装FG400を含む。
図28Aは、一般的な構成に従ってデバイスD20のブロック図を示す。デバイスD20は、本明細書で開示されるマイク・アレイR100の実装のうちの任意のもののインスタンスを含み、本明細書で開示される音声検出装置のうちの任意のもの(例えば、デバイスD100,D200,D300,D400,D500及びD600)は、デバイスD20のインスタンスとして実装されても良い。第1のチャネルの振幅に対して第2のチャネルの振幅を制御するために、デバイスD20はまた、アレイR100によって生成されるマルチチャネル・オーディオ信号を処理するように構成される装置A100を含む。例えば、装置A100は、本明細書で開示される方法M100の実装のうちの任意のもののインスタンスに従って、マルチチャネル・オーディオ信号を処理するように構成されても良い。装置A100は、ハードウェアで及び/又はソフトウェア(例えば、ファームウェア)で実装されても良い。例えば、装置A100は、処理されたマルチチャネル信号の上で先に述べたように空間処理オペレーション(例えば、音声検出装置と特定のサウンド・ソースとの間の距離を判定し、雑音を低減し、特定の方向から到来する信号コンポーネントを強化し、及び/又は、1又は複数のサウンド・コンポーネントを他の環境音から分離する、1又は複数のオペレーション)を実行するように更に構成されるデバイスD20のプロセッサ上で実装されても良い。
図28Bは、装置A100の実装A110のブロック図を示す。装置A110は、(例えば、タスクT100aに関して説明されたように)時間にわたってオーディオ信号の第1のチャネルのレベルの値の系列を計算するように構成される第1のレベル計算機LC100aを含む。装置A110はまた、(例えば、タスクT100bに関して上で説明されたように)時間にわたってオーディオ信号の第2のチャネルのレベルの値の系列を計算するように構成される第2のレベル計算機LC100bを含む。レベル計算機LC100a及びLC100bは、異なる構造(例えば、異なる回路又はソフトウェア・モジュール)として、同一の構造の異なる部分(例えば、論理素子のアレイの異なる領域又はコンピュータ・プロセスのパラレル・スレッド)として、及び/又は、異なる時間における同一の構造(例えば、時間にわたって異なるタスクの系列を実行するように構成される計算回路又はプロセッサ)として、実装されても良い。
装置A110はまた、(例えば、タスクT200に関して上で説明されたように)時間にわたってゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機GF100と、(例えば、タスクT300に関して上で説明されたように)第1のチャネルの振幅に対して第2のチャネルの振幅を制御するように構成される振幅制御要素AC100とを含む。レベル計算機LC100a及びLC100bのどちらに関しても、ゲイン・ファクタ計算機GF100は、異なる構造として、同一の構造の異なる部分として、及び/又は、異なる時間における同一の構造として実装されても良い。計算機LC100a、LC100b及びGF100のいずれに関しても、振幅制御要素AC100は、異なる構造として、同一の構造の異なる部分として、及び/又は、異なる時間における同一の構造として実装されても良い。一つの例において、振幅制御要素AC100は、第2のチャネルのサンプルにゲイン・ファクタの対応する値を乗算するように構成される計算回路又はプロセスとして実装される。他の例において、振幅制御要素AC100は、アンプ又は他の調節可能なゲイン制御素子として実装される。
図29は、装置A110の実装A200のブロック図を示す。装置A200は、(例えば、タスクT400に関して上で説明されたように)セグメントはバックグラウンド・セグメントであることを指示するように構成されるバックグラウンド・セグメント・インジケータSD100を含む。インジケータSD100は、例えば、論理回路(例えば、論理素子のアレイ)として及び/又はプロセッサにより実行可能なタスクとして実装されても良い。一つの例において、インジケータSD100は、ボイス・アクティビティー検出器として実装される。装置A200はまた、(例えば、タスクT210に関して上で説明されたように)インジケータSD100のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機GF100の実装GF200を含む。
図30は、装置A110の実装A300のブロック図を示す。装置A300は、(例えば、タスクT500に関して上で説明されたように)セグメントは情報セグメントであることを指示するように構成される情報セグメント・インジケータSD200を含む。インジケータSD200は、例えば、論理回路(例えば、論理素子のアレイ)として及び/又はプロセッサにより実行可能なタスクとして実装されても良い。装置A300はまた、(例えば、タスクT220に関して上で説明されたように)インジケータSD200のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機GF100の実装GF300を含む。
図31は、バックグラウンド・セグメント・インジケータSD100及び情報セグメント・インジケータSD200を含む装置A110の実装A400のブロック図を示す。装置A400はまた、(例えば、タスクT230に関して上で説明されたように)インジケータSD100及びSD200のインジケーションに基づいて、ゲイン・ファクタの値の系列を計算するように構成されるゲイン・ファクタ計算機GF100の実装GF400を含む。
方法M100は、第2のチャネルのレベルの値の系列が振幅制御タスクT300の下流で計算されるように、フィードバック構成で実装されても良い。方法M200のフィードバック実装において、タスクT210は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、λ2nは、セグメントの第2のチャネルのレベルの値を表す。
同様に、方法M300のフィードバック実装において、タスクT220は、例えば次のうちの一つのような式に従ってゲイン・ファクタGの現在の値を計算するように構成されても良い。
Figure 0005329655
ここで、βは、上で示したように、スムージング・ファクタ値である。同様に、タスクT510は、例えばM=(I/Gn−1)(λ2n/L1n)のような式に従ってセグメントnについてバランス尺度Mを計算するために、方法M300のフィードバック実装で構成されても良い。
同様に、装置MF110は、第2のチャネルのレベルの値の系列が振幅制御装置FA100の下流で計算されるように、構成されても良く、また、装置A110は、第2のチャネルのレベルの値の系列が振幅制御要素AC100の下流で計算されるように、構成されても良い。例えば、図32は、ゲイン・ファクタ計算手段FG300の実装FG310(それは、タスクT220のフィードバック・バージョンを実行するように構成されても良い(例えば、式(29)又は(30)に従って))と、情報セグメント指示手段FD200の実装FD210(それは、先に述べたように、タスクT510のフィードバック・バージョンを実行するように構成されても良い)とを含む装置MF300のそのような実装MF310のブロック図を示す。図33は、ゲイン・ファクタ計算機GF300の実装GF310(それは、タスクT220のフィードバック・バージョンを実行するように構成されても良い(例えば、式(29)又は(30)に従って)と、情報セグメント・インジケータSD200の実装SD210(それは、先に述べたように、タスクT510のフィードバック・バージョンを実行するように構成されても良い)とを含む装置A300のそのような実装A310のブロック図を示す。
図34は、デバイスD10の実装である通信デバイスD50のブロック図を示す。デバイスD50は、装置MF100を含むチップ又はチップセットCS10(例えば、モバイル・ステーション・モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、1又は複数のプロセッサを含んでも良い。そして、それは、装置MF100の全部又は一部を(例えば、インストラクションとして)実行するように構成されても良い。チップ/チップセットCS10は、受信機及び送信機を含む。受信機は、高周波(RF)通信信号を受信し、該RF信号内に符号化されたオーディオ信号を復号し再生させるように構成される。送信機は、装置MF100により生成された、処理されたマルチチャネル信号に基づいて、オーディオ信号を符号化し、該符号化されたオーディオ信号を表現するRF通信信号を送信するように構成される。符号化されたオーディオ信号が空間的に処理された信号に基づくように、チップ/チップセットCS10の1又は複数のプロセッサは、処理されたマルチチャネル信号の上で先に述べたように空間処理オペレーション(例えば、音声検出装置と特定のサウンド・ソースとの間の距離を判定し、雑音を低減し、特定の方向から到来する信号コンポーネントを強化し、及び/又は、1又は複数のサウンド・コンポーネントを他の環境音から分離する、1又は複数のオペレーション)を実行するように構成されても良い。
デバイスD50は、アンテナC30を介してRF通信信号を受信及び送信するように構成される。デバイスD50はまた、アンテナC30への経路中に、ダイプレクサー及び1又は複数のパワーアンプを含んでも良い。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、表示C20を介して情報を表示するように構成される。この例において、デバイスD50はまた、グローバル・ポジショニング・システム(GPS)位置サービス及び/又は例えば無線(例えば、Bluetooth)ヘッドセットのような外部デバイスでとの近距離通信をサポートするために、1又は複数のアンテナC40を含む。他の例において、そのような通信デバイスは、それ自身、Bluetoothヘッドセット、キーパッドC10、表示C20及びアンテナC30である。
本明細書で開示される方法及び装置は、任意のトランシービング(transceiving)アプリケーション及び/又はオーディオ再生アプリケーション(特に、そのようなアプリケーションのモバイル或いは携帯型のインスタンス)において、一般に適用されても良い。例えば、本明細書で開示される構成の範囲は、符号分割多元接続(CDMA)無線インタフェースを使用するように構成される無線電話通信システムに存在する通信デバイスを含む。それでもなお、本明細書で説明される特徴を有する方法及び装置は、例えば有線及び/又は無線(例えば、CDMA、TDMA、FDMA及び/又はTD−SCDMA)の伝送チャネル上でボイスオーバーIP(VoIP)を使用するシステムのような、当業者に知られている広範囲の技術を使用する様々な通信システムのうちの任意のものに存在しても良いと、当業者により理解されるであろう。
本明細書で開示される通信デバイスが、パケット交換(packet-switched)(例えば、VoIPなどのようなプロトコルに従って音声通信(audio transmissions)を運ぶようにアレンジされた有線及び/又は無線ネットワーク)及び/又は回線交換(circuit-switched)であるネットワークにおいて使用するために適応され得ることは、明確に予期され、また、本明細書に開示される。また、本明細書で開示される通信デバイスが、狭帯域符号化システム(例えば、およそ4又は5キロヘルツの音声周波数範囲(audio frequency range)を符号化するシステム)において使用するために、及び/又は、全バンド広帯域符号化システム(whole-band wideband coding systems)及びスプリット・バンド広帯域符号化システム(split-band wideband coding systems)を含む、広帯域符号化システム(例えば、5キロヘルツより大きな音声周波数を符号化するシステム)において使用するために適応され得ることは、明確に予期され、また、本明細書に開示される。
説明された構成の前述の提示は、投票者が本明細書で開示される方法及び他の構造を製造又は使用できるようにするために提供される。本明細書で図示され説明されたフローチャート、ブロック図、状態図及び他の構造は、単なる例であり、これらの構造の他の変形はまた開示の範囲内である。これらの構成に対する様々な修正が可能であり、本明細書で提示される一般的な原理(generic principles)は同様に他の構成に適用され得る。それゆえ、本開示は、上に示された構成に制限されることが意図されておらず、むしろ、原開示の一部を形成する提出された添付のクレームを含む本明細書でいずれかの方法で開示された原理又は新規な特徴と調和する最も広い範囲を与えられるべきである。
情報及び信号は、いろいろな異なるテクノロジー及びテクニックの任意のものを用いて表現可能であることを、当業者は理解できるであろう。例えば、上記説明の間に参照される、データ、インストラクション、コマンド、情報、信号、ビット、及び、シンボルは、電圧、電流、電磁波、磁場若しくは磁性粒子(magnetic fields or particles)、光場若しくは光学粒子(optical fields or particles)、又はそれらの任意の組み合わせにより表現可能である。
本明細書で開示される構成の実装に関する重要なデザインの要求は、処理の遅延及び/又は、計算の複雑性(computational complexity)(典型的には、数百万インストラクション毎秒又はMIPS)を最小化することを含んでも良い(特に、例えばより高いサンプリング・レートでの(例えば、広帯域の通信のための)音声通信のためのアプリケーションのような、計算集約型のアプリケーション(computation-intensive applications)について)。
本明細書で開示される装置の実装の様々な要素は、対象とするアプリケーションに適すると考えられる、ハードウェア、ソフトウェア及び/又はファームウェアの任意の組み合せで実現(embodied)されても良い。例えば、そのような要素は、例えば、同一のチップの上に又はチップセット中の2以上のチップ間に存在している電子及び/又は光学デバイスとして作られて(fabricated)も良い。そのようなデバイスの1つの例は、例えばトランジスタ又は論理ゲートのような論理素子の固定された又はプログラム可能なアレイであり、これらの要素のうちの任意のものは、1又は複数のそのようなアレイとして実装されても良い。これらの要素のうちの任意の2以上のものは、あるいは、全てのものでさえ、同一のアレイ又は複数のアレイ内に実装されても良い。そのような1つのアレイ又は複数のアレイは、1又は複数のチップ内に(例えば、2以上のチップを含むチップセット内に)実装されても良い。
また、本明細書で開示される装置の様々な実装の1又は複数の要素(例えば、装置MF100、MF110、MF200、MF300、MF310、MF400、A100、A110、A200、A300、A310及びA400)は、全体において又は一部において、例えば、マイクロプロセッサ、埋め込みプロセッサ、IPコア、デジタルシグナルプロセッサ、FPGA(フィールド・プログラマブル・ゲート・アレイ)、ASSP(特定用途向け規格品)及びASIC(特定用途向け集積回路)のような1又は複数の固定された又はプログラム可能な論理素子のアレイの上で実行するようにアレンジされた、1又は複数のインストラクションのセットとして実装されても良い。また、本明細書で開示される装置の実装の様々な要素のいずれも、1又は複数のコンピュータ(例えば、インストラクションの1又は複数のセット又はシーケンスを実行するようにプログラムされた1又は複数のアレイを含むマシン(“プロセッサ”とも呼ばれる))として実現(embodied)されても良く、これらの要素のうちの任意の2以上のものは、あるいは、全てのものでさえ、同一のそのようなコンピュータ又は複数のコンピュータ内に実装されても良い。
本明細書で開示される処理のためのプロセッサ又は他の手段は、例えば、同一のチップの上に又はチップセット中の2以上のチップ間に存在している1又は複数の電子及び/又は光学デバイスとして作られても良い。そのようなデバイスの一つの例は、例えばトランジスタ又は論理ゲートのような論理素子の固定された又はプログラム可能なアレイであり、これらの要素のうちの任意のものは、1又は複数のそのようなアレイとして実装されても良い。そのような1つのアレイ又は複数のアレイは、1又は複数のチップ内に(例えば、2以上のチップを含むチップセット内に)実装されても良い。そのようなアレイの例は、例えばマイクロプロセッサ、組み込みプロセッサ、IPコア、DSP、FPGA、ASSP及びASIC)のような固定された又はプログラム可能な論理素子のアレイを含む。本明細書で開示される処理のためのプロセッサ又は他の手段はまた、1又は複数のコンピュータ(例えば、インストラクションの1又は複数のセット又はシーケンスを実行するようにプログラムされた1又は複数のアレイを含むマシン)又は他のプロセッサとして実現されても良い。本明細書で説明されるプロセッサが、シグナル・バランシング・プロシージャー(signal balancing procedure)には直接関係しないタスク(例えば、該プロセッサが組み込まれるデバイス又はシステム(例えば、音声検出装置)の他のオペレーションに関係するタスク)を実行(perform)し又は他のインストラクションのセットを実行(execute)するために使用されることは、可能である。また、本明細書で開示される方法の一部が、音声検出装置のプロセッサにより実行されることは可能であり(例えば、レベル値計算タスクT100aとT100b、及びゲイン・ファクタ計算タスクT200)、また、本方法の他の部分が、1又は複数の他のプロセッサの制御の下で実行されることは可能である(例えば、振幅制御タスクT300)。
本明細書で開示される構成に関連して説明された様々な実例となる(illustrative)モジュール、論理ブロック、回路、及び、テスト及び他のオペレーションは、電子的なハードウェア、コンピュータ・ソフトウェア又は両方の組み合せとして実装されても良いと、当業者は認識するであろう。そのようなモジュール、論理ブロック、回路及びオペレーションは、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、ASIC又はASSP、FPGA又は他のプログラマブル・ロジック・デバイス、ディスクリート・ゲート又はトランジスタ・ロジック、個別ハードウェア・コンポーネント、又は、本明細書で開示されるような構成を作り出す(produces)ようにデザインされたそれらの任意の組み合わせにより実装されても良く又は実行されても良い。例えば、そのような構成は、配線で接続された回路として、特定用途向け集積回路に作られた回路構成として、又は、不揮発性記憶装置にロードされたファームウェア・プログラム若しくはデータ記憶媒体から/データ記憶媒体中へ機械読み取り可能なコードとして(例えば、汎用プロセッサ又は他のデジタル信号処理ユニットのような論理素子のアレイにより実行可能なインストラクションであるコード)ロードされるソフトウェア・プログラムとして、少なくとも部分的に実装されても良い。汎用プロセッサは、マイクロプロセッサであっても良いし、その代わりに、該プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ又は状態機械であっても良い。プロセッサはまた、複数のコンピュータ・デバイスの組み合せ(例えば、DSPとマイクロプロセッサの組み合せ、複数のマイクロプロセッサ、DSPコアと連携した1又は複数のマイクロプロセッサ、又は、任意の他のそのような構成)として実装されても良い。ソフトウェア・モジュールは、RAM(ランダムアクセス・メモリ)、ROM(リードオンリーメモリ)、不揮発性RAM(NVRAM)(例えばフラッシュRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能PROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM又は技術的に知られている任意の他のタイプの記憶媒体に存在していても良い。実例となる記憶媒体は、プロセッサがその記憶媒体から情報を読み込み、また、それへ情報を書き込むことができるように、そのプロセッサに接続される。代わりに、記憶媒体は、プロセッサに一体化されていても良い。プロセッサ及び記憶媒体は、ASICにおいて存在してもよい。ASICは、ユーザ端末に存在しても良い。その代わりに、プロセッサ及び記憶媒体は、ユーザ端末の個別のコンポーネントとして存在しても良い。
本明細書で開示される様々な方法(例えば、方法M100、M200、M300及びM400)は、例えばプロセッサのような論理素子のアレイにより実行されても良い点に、また、本明細書で説明される装置の様々な要素は、そのようなアレイの上で実行するようにデザインされたモジュールとして実装されても良い点に、注意される。本明細書で使用されるように、“モジュール”又は“サブモジュール”という用語は、任意の方法、装置、デバイス、ユニット、又は、コンピュータ・インストラクション(例えば、論理的表現(logical expressions))をソフトウェア、ハードウェア又はファームウェアの形で含むコンピュータ読み取り可能なデータ記憶媒体を指し示すことができる。複数のモジュール又はシステムが、1つモジュール又はシステムに一体化されることができ、1つのモジュール又はシステムが、同一の機能を実行する複数のモジュール又はシステムに分離あれることができることは、理解されるべきである。ソフトウェア又は他のコンピュータ実行可能なインストラクションで実装されるとき、プロセスの要素は、基本的にが、関係するタスクを実行するコード・セグメント(例えばルーチン、プログラム、オブジェクト、コンポーネント、データ構造及び同類のもの)である。“ソフトウェア”という用語は、ソースコード、アセンブリ言語コード、マシンコード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理素子のアレイにより実行可能なインストラクションの1又は複数のセット又はシーケンス、又は、そのような例の任意の組み合わせを含むことは、理解されるべきである。プログラム又はコード・セグメントは、プロセッサ読み取り可能な媒体に記憶されることができる、又は、伝送媒体又は通信リンク上の搬送波において実現されるコンピュータ・データ信号によって送信されることができる。
また、本明細書で開示される方法、スキーム及び技術の実装は、論理素子のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ又は他の有限状態機械)を含むマシンにより読み取り可能な及び/又は実行可能なインストラクションの1又は複数のセットとして(例えば本明細書に記載されるような1又は複数のコンピュータ読み取り可能な媒体において)明らかに実現されても良い。“コンピュータ読み取り可能な媒体(computer-readable medium)”という用語は、揮発性、不揮発性、取り外し可能及び取り外し不能な媒体を含む、情報を記憶又は転送することができる任意の媒体を含んでも良い。コンピュータ読み取り可能な媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスク又は他の磁気記憶装置、CD−ROM/DVD又は他のが光記憶装置、ハードディスク、光ファイバー媒体、無線周波数(RF)リンク、又は、所望の情報を記憶するために使用されることができ且つアクセスされることができる任意の他の媒体を含む。コンピュータ・データ信号は、例えば電子回路網チャネル(electronic network channels)、光ファイバー、エアー(air)、電磁気、RFリンクなどのような伝送媒体上を伝搬することができる任意の信号を含んでも良い。コード・セグメントは、例えばインターネット又はイントラネットのようなコンピュータ・ネットワークを介してダウンロードされても良い。いずれにしても、本開示の範囲がそのような実施態様により制限されるものとして解釈されてはならない。
本明細書で説明される方法のタスクの各々は、直接ハードウェアで、プロセッサにより実行されるソフトウェア・モジュールで、又は、それら二つの組み合せで、実現されても良い。本明細書で開示される方法の実装の典型的なアプリケーションにおいて、論理素子のアレイ(例えば、論理ゲート)は、本方法の様々なタスクのうちの2以上のものは、あるいは、全てのものでさえ、実行するように構成される。また、タスクのうちの1又は複数のもの(場合によっては、全て)は、論理素子のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ又は他の有限状態機械)を含むマシン(例えば、コンピュータ)により読み取り可能及び/又は実行可能である、コンピュータ・プログラム製品(例えば、ディスク、フラッシュ又は他の不揮発性メモリカード、半導体メモリチップなどのような1又は複数のデータ記憶媒体)として実現される、コード(例えば、インストラクションの1又は複数のセット)として実装されても良い。本明細書で開示される方法の実装のタスクはまた、2以上のそのようなアレイ又は機械により実行されても良い。これら又は他の実装において、タスクは、例えばセルラー電話又はそのような通信能力を有する他のデバイス無線通信のためのデバイス内で実行されても良い。そのようなデバイスは、(例えば1又は複数のプロトコル(例えばVoIP)を使用して)回線交換ネットワーク及び/又はパケット交換ネットワークと通信するように構成されても良い。例えば、そのようなデバイスは、符号化されたフレームを受信及び/又は送信するように構成されるRF回路を含んでも良い。
本明細書で開示される様々な方法が、例えばハンドセット、ヘッドセット又はポータブル・デジタル・アシスタント(PDA)などのような携帯型の通信デバイスにより実行されても良く、また、本明細書で説明される様々な装置が、そのようなデバイスに含まれても良いことが、明確に開示される。典型的なリアルタイム(例えば、オンライン)アプリケーションは、そのようなモバイル・デバイスを使用して行われる電話会話(telephone conversation)である。
一つ又は複数の例示的な実施形態において、本明細書で説明されるオペレーションは、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせにより実行されても良い。ソフトウェアで実装される場合には、そのようなオペレーションは、1又は複数のインストラクション又はコードとして、コンピュータ読み取り可能な媒体に格納され又は、コンピュータ読み取り可能な媒体により伝えられ(transmitted over)てもされても良い。用語“コンピュータ読み取り可能な媒体(computer-readable media)”は、コンピュータ記憶媒体(computer storage media)及び通信媒体(communication media)の両方を含み、或る場所から他の場所へのコンピュータ・プログラムの転送を容易にする任意の媒体を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体であっても良い。制限としてではなく例として、そのようなコンピュータ読み取り可能な媒体は、例えば、半導体メモリ(それは、ダイナミック又はスタティックRAM、ROM、EEPROM及び/又はフラッシュRAMを含んでも良い(ただし、それらに制限されない))、又は、強誘電性、磁気抵抗、オボニック(ovonic)若しくは相変化メモリ、CD−ROM又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他磁気記憶装置、又は、インストラクション又はデータ構造の形で所望のプログラム・コードを運ぶ又は記憶するために使用されることができ且つコンピュータによりアクセスされることができる任意の他の媒体のような、記憶要素(storage elements,)のアレイを含むことができる。また、任意のコネクションは、適切にコンピュータ読み取り可能な媒体と呼ばれる。例えば、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線(DSL)、又は、例えば赤外線、無線及び/又はマイクロ波のような無線技術を使用することによって、ウェブサイト、サーバ、又は他のリモートソースからソフトウェアが送信される場合に、その同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、又は、例えば赤外線、無線及び/又はマイクロ波のような無線技術は、媒体の定義に含まれる。本明細書で用いられるディスク(Disk)及びディスク(d
isc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク及びブルーレイディスク(登録商標)(Blu-Ray Disc Association, Universal City, CA)を含む。ここで、ディスク(disks)は、通常、磁気的にデータを再生(reproduce)し、一方、ディスク(discs)は、レーザーを使って光学的にデータを再生する。上記の組み合わせはまた、コンピュータ読み取り可能な媒体の範囲の中に含まれるべきである。
本明細書で説明される音響信号処理装置は、幾つかのオペレーションを制御するためにスピーチ入力を受け入れる電子デバイスに組み込まれても良く、或いは、バックグラウンド・ノイズからの所望のノイズの分離の利益を享受し得る(例えば、通信デバイス)。多くのアプリケーションは、複数の方向が期限であるバックグラウンド・サウンドから、明瞭な所望のサウンドを、強調又は分離する利益を享受し得る。そのようなアプリケーションは、例えば音声認識及び検出(voice recognition and detection)、スピーチ強調及び分離(speech enhancement and separation)、音声作動式制御(voice-activated control)及び同類のもののような能力を組み込んだ電子又はコンピュータ・デバイスにおけるヒューマンマシンインタフェースを含んでも良い。制限された処理能力のみを提供するデバイスに適するように、そのような音響信号処理装置を実装することは、望ましい場合がある。
本明細書で説明されるモジュール、要素及びデバイスの様々な実装の要素は、例えば、同一のチップ上に又はチップセットの2以上のチップ間に存在している電子及び/又は光学デバイスとして作られても良い。そのようなデバイスの一つの例は、例えばトランジスタ又はゲートのような論理素子の固定された又はプログラム可能なアレイである。本明細書で説明される装置の様々な実装の1又は複数の要素はまた、全体において又は一部において、例えば、マイクロプロセッサ、埋め込みプロセッサ、IPコア、デジタルシグナルプロセッサ、FPGA、ASSP及びASICのような1又は複数の固定された又はプログラム可能な論理素子のアレイの上で実行するようにアレンジされた、1又は複数のインストラクションのセットとして実装されても良い。
本明細書で説明される装置の1又は複数の要素が、該装置のオペレーションには直接関係しないタスク(例えば、該装置が組み込まれるデバイス又はシステムの他のオペレーションに関係するタスク)を実行(perform)し又は他のインストラクションのセットを実行(execute)するために使用されることは、可能である。また、そのような装置の実装の1又は複数の要素が、共通する構造(例えば、異なる時に異なる要素に対応するコードの部分を実行するために使用されるプロセッサ、異なる時に異なる要素に対応するタスクを実行するために実行される1セットのインストラクション、又は、異なる時に異なる要素のためにオペレーションを実行する電子及び/又は光学デバイスのアレイ)を有することは、可能である。例えば、レベル計算機LC100a及びLC100bの2以上が、異なる時に同一の構造を含むように実装されても良い。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
〔1〕
マルチチャネル・オーディオ信号を処理する方法において、前記方法は、
時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算することと、
時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算することと、
前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算することと、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御することを含み、
前記方法は、前記オーディオ信号のセグメントが情報セグメントであることを指示することを含み、
時間にわたってゲイン・ファクタの値の系列を計算することは、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つについて且つ前記指示することに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタ値を計算することを含み、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである方法。
〔2〕
セグメントが情報セグメントであることを前記指示することは、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づくものである〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔3〕
セグメントが情報セグメントであることを前記指示することは、アレイ・アンバランス推定を含む関係に基づくものであり、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔4〕
前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔5〕
前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔6〕
前記バイアス・ファクタ値を前記計算することは、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用することを含み、
前記バイアス・ファクタ値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔7〕
前記方法は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示することを含む〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔8〕
前記方法は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含む〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔9〕
前記方法は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔1〕のマルチチャネル・オーディオ信号を処理する方法。
〔10〕
少なくとも一つのプロセッサにより実行されるときに、前記少なくとも一つのプロセッサに、マルチチャネル・オーディオ信号を処理する方法を実行させるインストラクションを含むコンピュータ読み取り可能な媒体において、前記インストラクションは、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算させるインストラクションと、
前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御させるインストラクションとを含み、
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記オーディオ信号のセグメントが情報セグメントであることを指示させるインストラクションを含み、
前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたってゲイン・ファクタの値の系列を計算させる前記インストラクションは、前記指示に応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算することを含み、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものであるコンピュータ読み取り可能な媒体。
〔11〕
前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含む〔10〕のコンピュータ読み取り可能な媒体。
〔12〕
前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔10〕のコンピュータ読み取り可能な媒体。
〔13〕
前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔10〕のコンピュータ読み取り可能な媒体。
〔14〕
前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している〔10〕のコンピュータ読み取り可能な媒体。
〔15〕
前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタ値を計算させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用させるインストラクションを含み、
前記バイアス・ファクタ値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔10〕のコンピュータ読み取り可能な媒体。
〔16〕
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示させるインストラクションを含む〔10〕のコンピュータ読み取り可能な媒体。
〔17〕
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含む〔10〕のコンピュータ読み取り可能な媒体。
〔18〕
前記媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔10〕のコンピュータ読み取り可能な媒体。
〔19〕
マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算するための手段と、
時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算するための手段と、
前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するための手段と、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御するための手段を含み、
前記装置は、前記オーディオ信号のセグメントが情報セグメントであることを指示するための手段を含み、
時間にわたってゲイン・ファクタの値の系列を計算するための前記手段は、前記インジケーションに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
〔20〕
セグメントが情報セグメントであることを指示するための前記手段は、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔21〕
セグメントが情報セグメントであることを指示するための前記手段は、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔22〕
前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔23〕
前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔24〕
前記バイアス・ファクタ値を計算するための前記手段は、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々のを計算するように構成され、
前記バイアス・ファクタ値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔25〕
前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するための手段を含む〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔26〕
前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含む〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔27〕
前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔28〕
前記装置は、第1のチャネルのレベルの値の系列を計算するための前記手段と、第2のチャネルのレベルの値の系列を計算するための前記手段と、ゲイン・ファクタの値の系列を計算するための前記手段と、前記第2のチャネルの振幅を制御するための前記手段と、
前記音声信号のセグメントが情報セグメントであることを指示するための前記手段とを含む通信デバイスを含み、
前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む〔19〕のマルチチャネル・オーディオ信号を処理するための装置。
〔29〕
マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算するように構成された第1レベル計算機と、
時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算するように構成された第2レベル計算機と、
前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するように構成されたゲイン・ファクタ計算機と、
前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御するように構成された振幅制御エレメントと、
前記オーディオ信号のセグメントが情報セグメントであることを指示するように構成された情報セグメント・インジケータとを含み、
前記ゲイン・ファクタ計算機は、前記インジケーションに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
前記バイアス・ファクタは、指向性アコースティック情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
〔30〕
前記情報セグメント・インジケータは、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔31〕
前記情報セグメント・インジケータは、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔32〕
前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔33〕
前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔34〕
前記ゲイン・ファクタ計算機は、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々のを計算するように構成され、
前記バイアス・ファクタ値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔35〕
前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するように構成されたバックグラウンド・セグメント・インジケータを含む〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔36〕
前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含む〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔37〕
前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含み、
前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである〔29〕のマルチチャネル・オーディオ信号を処理するための装置。
〔38〕
前記装置は、前記第1レベル計算機と、前記第2レベル計算機と、前記ゲイン・ファクタ計算機と、前記振幅制御エレメントと、前記情報セグメント・インジケータとを含む通信デバイスを含み、
前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む〔29〕のマルチチャネル・オーディオ信号を処理するための装置。

Claims (38)

  1. マルチチャネル・オーディオ信号を処理する方法において、前記方法は、
    時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算することと、
    時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算することと、
    前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算することと、
    前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御することを含み、
    前記方法は、プロセッサにより、前記オーディオ信号のセグメントが情報セグメントであることを指示することを含み、
    時間にわたってゲイン・ファクタの値の系列を計算することは、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つについて且つ前記指示することに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタ値を計算することを含み、
    前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである方法。
  2. セグメントが情報セグメントであることを前記指示することは、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づくものである請求項1のマルチチャネル・オーディオ信号を処理する方法。
  3. セグメントが情報セグメントであることを前記指示することは、アレイ・アンバランス推定を含む関係に基づくものであり、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項1のマルチチャネル・オーディオ信号を処理する方法。
  4. 前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項1のマルチチャネル・オーディオ信号を処理する方法。
  5. 前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項1のマルチチャネル・オーディオ信号を処理する方法。
  6. 前記ゲイン・ファクタの値を前記計算することは、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用することを含み、
    前記ゲイン・ファクタの値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項1のマルチチャネル・オーディオ信号を処理する方法。
  7. 前記方法は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示することを含む請求項1のマルチチャネル・オーディオ信号を処理する方法。
  8. 前記方法は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含む請求項1のマルチチャネル・オーディオ信号を処理する方法。
  9. 前記方法は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示することを含み、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項1のマルチチャネル・オーディオ信号を処理する方法。
  10. 少なくとも一つのプロセッサにより実行されるときに、前記少なくとも一つのプロセッサに、マルチチャネル・オーディオ信号を処理する方法を実行させるインストラクションを含むコンピュータ読み取り可能な記録媒体において、前記インストラクションは、
    前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算させるインストラクションと、
    前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算させるインストラクションと、
    前記プロセッサにより実行されるときに、前記プロセッサに、前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算させるインストラクションと、
    前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御させるインストラクションとを含み、
    前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記オーディオ信号のセグメントが情報セグメントであることを指示させるインストラクションを含み、
    前記プロセッサにより実行されるときに、前記プロセッサに、時間にわたってゲイン・ファクタの値の系列を計算させる前記インストラクションは、前記指示に応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算することを含み、
    前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものであるコンピュータ読み取り可能な記録媒体。
  11. 前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含む請求項10のコンピュータ読み取り可能な記録媒体。
  12. 前記プロセッサにより実行されるときに、前記プロセッサに、セグメントが情報セグメントであることを指示させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示させるインストラクションを含み、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項10のコンピュータ読み取り可能な記録媒体。
  13. 前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項10のコンピュータ読み取り可能な記録媒体。
  14. 前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項10のコンピュータ読み取り可能な記録媒体。
  15. 前記プロセッサにより実行されるときに、前記プロセッサに、前記ゲイン・ファクタ値を計算させる前記インストラクションは、前記プロセッサにより実行されるときに、前記プロセッサに、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用させるインストラクションを含み、
    前記ゲイン・ファクタの値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項10のコンピュータ読み取り可能な記録媒体。
  16. 前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示させるインストラクションを含む請求項10のコンピュータ読み取り可能な記録媒体。
  17. 前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含む請求項10のコンピュータ読み取り可能な記録媒体。
  18. 前記記録媒体は、前記プロセッサにより実行されるときに、前記プロセッサに、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示させるインストラクションを含み、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項10のコンピュータ読み取り可能な記録媒体。
  19. マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
    時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算するための手段と、
    時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算するための手段と、
    前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するための手段と、
    前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御するための手段を含み、
    前記装置は、前記オーディオ信号のセグメントが情報セグメントであることを指示するための手段を含み、
    時間にわたってゲイン・ファクタの値の系列を計算するための前記手段は、前記インジケーションに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
    前記バイアス・ファクタは、指向性情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
  20. セグメントが情報セグメントであることを指示するための前記手段は、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  21. セグメントが情報セグメントであることを指示するための前記手段は、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  22. 前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  23. 前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  24. 前記ゲイン・ファクタの値を計算するための前記手段は、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々を計算するように構成され、
    前記ゲイン・ファクタの値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  25. 前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するための手段を含む請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  26. 前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含む請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  27. 前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するための手段を含み、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  28. 前記装置は、第1のチャネルのレベルの値の系列を計算するための前記手段と、第2のチャネルのレベルの値の系列を計算するための前記手段と、ゲイン・ファクタの値の系列を計算するための前記手段と、前記第2のチャネルの振幅を制御するための前記手段と、
    前記音声信号のセグメントが情報セグメントであることを指示するための前記手段とを含む通信デバイスを含み、
    前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む請求項19のマルチチャネル・オーディオ信号を処理するための装置。
  29. マルチチャネル・オーディオ信号を処理するための装置において、前記装置は、
    時間にわたって前記オーディオ信号の第1のチャネルのレベルの値の系列を計算するように構成された第1レベル計算機と、
    時間にわたって前記オーディオ信号の第2のチャネルのレベルの値の系列を計算するように構成された第2レベル計算機と、
    前記第1のチャネルのレベルの値の前記系列及び前記第2のチャネルのレベルの値の前記系列に基づいて、時間にわたってゲイン・ファクタの値の系列を計算するように構成されたゲイン・ファクタ計算機と、
    前記ゲイン・ファクタの値の前記系列に従って、時間にわたって前記第1のチャネルの振幅に対して前記第2のチャネルの振幅を制御するように構成された振幅制御エレメントと、
    前記オーディオ信号のセグメントが情報セグメントであることを指示するように構成された情報セグメント・インジケータとを含み、
    前記ゲイン・ファクタ計算機は、前記インジケーションに応答して、前記第1のチャネルの前記レベルの対応する値、前記第2のチャネルの前記レベルの対応する値及びバイアス・ファクタに基づいて、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つを計算するように構成され、
    前記バイアス・ファクタは、指向性アコースティック情報ソースに対する音声検出装置の標準的な方向に基づくものである装置。
  30. 前記情報セグメント・インジケータは、前記第1のチャネルの前記レベルの対応する値及び前記第2のチャネルの前記レベルの対応する値に基づいて、セグメントが情報セグメントであることを指示するように構成される請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  31. 前記情報セグメント・インジケータは、アレイ・アンバランス推定を含む関係に基づいて、セグメントが情報セグメントであることを指示するように構成され、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  32. 前記ゲイン・ファクタの値の系列の各々は、前記第1のチャネルのレベルの値の前記系列のうちの一つ対前記第2のチャネルのレベルの値の前記系列のうちの一つの比率に基づくものである請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  33. 前記バイアス・ファクタは、前記第1のチャネルの前記レベルの前記対応する値と前記第2のチャネルの前記レベルの前記対応する値との間の比率から独立している請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  34. 前記ゲイン・ファクタ計算機は、前記第2のチャネルの前記レベルの前記対応する値を重み付けするために前記バイアス・ファクタを使用して、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つの各々を計算するように構成され、
    前記ゲイン・ファクタの値は、前記第1のチャネルの前記レベルの前記対応する値対前記重み付けされた前記第2のチャネルの前記レベルの前記対応する値との間の比率に基づくものである請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  35. 前記装置は、前記セグメントのレベルとバックグラウンド・レベル値との関係に基づいて、前記オーディオ信号のセグメントが、バックグラウンド・セグメントであることを指示するように構成されたバックグラウンド・セグメント・インジケータを含む請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  36. 前記装置は、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含む請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  37. 前記装置は、アレイ・アンバランス推定を含む関係に基づいて、バックグラウンド・セグメントでない前記オーディオ信号のセグメントが、バランス・ノイズ・セグメントであることを指示するように構成されたバランス・ノイズ・セグメント・インジケータを含み、
    前記アレイ・アンバランス推定は、前記ゲイン・ファクタの値の前記系列のうちの少なくとも一つに基づくものである請求項29のマルチチャネル・オーディオ信号を処理するための装置。
  38. 前記装置は、前記第1レベル計算機と、前記第2レベル計算機と、前記ゲイン・ファクタ計算機と、前記振幅制御エレメントと、前記情報セグメント・インジケータとを含む通信デバイスを含み、
    前記通信デバイスは、前記マルチチャネル・オーディオ信号を生成ように構成されたマイク・アレイを含む請求項29のマルチチャネル・オーディオ信号を処理するための装置。
JP2011512595A 2008-06-02 2009-06-02 マルチチャネル信号のバランスをとるためのシステム、方法及び装置 Expired - Fee Related JP5329655B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US5813208P 2008-06-02 2008-06-02
US61/058,132 2008-06-02
US12/473,930 2009-05-28
US12/473,930 US8321214B2 (en) 2008-06-02 2009-05-28 Systems, methods, and apparatus for multichannel signal amplitude balancing
PCT/US2009/046021 WO2009149119A1 (en) 2008-06-02 2009-06-02 Systems, methods, and apparatus for multichannel signal balancing

Publications (2)

Publication Number Publication Date
JP2011523836A JP2011523836A (ja) 2011-08-18
JP5329655B2 true JP5329655B2 (ja) 2013-10-30

Family

ID=41380869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011512595A Expired - Fee Related JP5329655B2 (ja) 2008-06-02 2009-06-02 マルチチャネル信号のバランスをとるためのシステム、方法及び装置

Country Status (7)

Country Link
US (1) US8321214B2 (ja)
EP (1) EP2301258A1 (ja)
JP (1) JP5329655B2 (ja)
KR (1) KR101217970B1 (ja)
CN (1) CN102047688B (ja)
TW (1) TW201012244A (ja)
WO (1) WO2009149119A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US8077893B2 (en) * 2007-05-31 2011-12-13 Ecole Polytechnique Federale De Lausanne Distributed audio coding for wireless hearing aids
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
WO2011045506A1 (fr) * 2009-10-12 2011-04-21 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
WO2011055410A1 (ja) * 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
US9031221B2 (en) * 2009-12-22 2015-05-12 Cyara Solutions Pty Ltd System and method for automated voice quality testing
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
TWI423688B (zh) * 2010-04-14 2014-01-11 Alcor Micro Corp 具有電磁波接收器之聲音感測器
CN203435060U (zh) * 2010-07-15 2014-02-12 艾利佛有限公司 无线电话会议的电话系统和电话网关
JP5926490B2 (ja) * 2011-02-10 2016-05-25 キヤノン株式会社 音声処理装置
US9549251B2 (en) 2011-03-25 2017-01-17 Invensense, Inc. Distributed automatic level control for a microphone array
TWI449440B (zh) * 2011-12-21 2014-08-11 Wistron Neweb Corp 電子裝置以及播放方法
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
CN103929557B (zh) * 2013-01-11 2016-04-13 华为技术有限公司 语音会议噪声处理方法及装置
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9363598B1 (en) * 2014-02-10 2016-06-07 Amazon Technologies, Inc. Adaptive microphone array compensation
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US10070220B2 (en) 2015-10-30 2018-09-04 Dialog Semiconductor (Uk) Limited Method for equalization of microphone sensitivities
EP3566464B1 (en) 2017-01-03 2021-10-20 Dolby Laboratories Licensing Corporation Sound leveling in multi-channel sound capture system
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
WO2019188388A1 (ja) 2018-03-29 2019-10-03 ソニー株式会社 音声処理装置、音声処理方法、及びプログラム
JP6992713B2 (ja) * 2018-09-11 2022-01-13 日本電信電話株式会社 連続発話推定装置、連続発話推定方法、およびプログラム
JP7001029B2 (ja) * 2018-09-11 2022-01-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
EP3629602A1 (en) * 2018-09-27 2020-04-01 Oticon A/s A hearing device and a hearing system comprising a multitude of adaptive two channel beamformers
KR102088056B1 (ko) 2019-08-08 2020-03-11 남정덕 태양광 발전 수배전반 시스템
CN113301329B (zh) * 2021-05-21 2022-08-05 康佳集团股份有限公司 基于图像识别的电视声场校正方法、装置及显示设备

Family Cites Families (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US5742735A (en) 1987-10-06 1998-04-21 Fraunhofer Gesellschaft Zur Forderung Der Angewanten Forschung E.V. Digital adaptive transformation coding method
US4912767A (en) 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
JP2962572B2 (ja) * 1990-11-19 1999-10-12 日本電信電話株式会社 雑音除去装置
US5327178A (en) 1991-06-17 1994-07-05 Mcmanigal Scott P Stereo speakers mounted on head
US5208786A (en) 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
JPH05316587A (ja) 1992-05-08 1993-11-26 Sony Corp マイクロホン装置
US5251263A (en) 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5732143A (en) 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
US5383164A (en) 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5375174A (en) 1993-07-28 1994-12-20 Noise Cancellation Technologies, Inc. Remote siren headset
JP3146804B2 (ja) 1993-11-05 2001-03-19 松下電器産業株式会社 アレイマイクロホンおよびその感度補正装置
US5706402A (en) 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5675659A (en) 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6130949A (en) 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
CA2269027A1 (en) 1996-10-17 1998-04-23 Andrea Electronics Corporation Noise cancelling acoustical improvement to wireless telephone or cellular phone
US5999567A (en) 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US7072476B2 (en) 1997-02-18 2006-07-04 Matech, Inc. Audio headset
FR2759824A1 (fr) 1997-02-18 1998-08-21 Philips Electronics Nv Systeme de separation de sources non stationnaires
US6496581B1 (en) 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6167417A (en) 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
DE19822021C2 (de) 1998-05-15 2000-12-14 Siemens Audiologische Technik Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich
US6654468B1 (en) 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
DE19849739C2 (de) 1998-10-28 2001-05-31 Siemens Audiologische Technik Adaptives Verfahren zur Korrektur der Mikrofone eines Richtmikrofonsystems in einem Hörgerät sowie Hörgerät
US6898612B1 (en) 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6606506B1 (en) 1998-11-19 2003-08-12 Albert C. Jones Personal entertainment and communication device
US6343268B1 (en) 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
DE19859174C1 (de) 1998-12-21 2000-05-04 Max Planck Gesellschaft Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
US6381570B2 (en) 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
AU4284600A (en) 1999-03-19 2000-10-09 Siemens Aktiengesellschaft Method and device for receiving and treating audiosignals in surroundings affected by noise
US6526148B1 (en) 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
JP4277400B2 (ja) * 1999-12-17 2009-06-10 ソニー株式会社 音声信号記録装置
US6549630B1 (en) 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
US6654719B1 (en) 2000-03-14 2003-11-25 Lucent Technologies Inc. Method and system for blind separation of independent source signals
AU4574001A (en) 2000-03-14 2001-09-24 Audia Technology Inc Adaptive microphone matching in multi-microphone directional system
US20010038699A1 (en) 2000-03-20 2001-11-08 Audia Technology, Inc. Automatic directional processing control for multi-microphone system
US8903737B2 (en) 2000-04-25 2014-12-02 Accenture Global Service Limited Method and system for a wireless universal mobile product interface
US6879952B2 (en) 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7027607B2 (en) 2000-09-22 2006-04-11 Gn Resound A/S Hearing aid with adaptive microphone matching
US7471798B2 (en) 2000-09-29 2008-12-30 Knowles Electronics, Llc Microphone array having a second order directional pattern
EP2348752A1 (en) 2000-09-29 2011-07-27 Knowles Electronics, LLC Second order microphone array
JP4028680B2 (ja) 2000-11-01 2007-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体
US6462664B1 (en) 2000-11-20 2002-10-08 Koninklijke Philips Electronics N.V. Baby monitor, system, and method and control of remote devices
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
MXPA03007128A (es) 2001-02-14 2003-11-18 Gentex Corp Microfono para accesorio de vehiculo.
AU2001258132A1 (en) 2001-05-23 2001-08-20 Phonak Ag Method of generating an electrical output signal and acoustical/electrical conversion system
US7123727B2 (en) 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
WO2003107591A1 (en) 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
AU2003250464A1 (en) 2002-09-13 2004-04-30 Koninklijke Philips Electronics N.V. Calibrating a first and a second microphone
US7383178B2 (en) 2002-12-11 2008-06-03 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US7142682B2 (en) 2002-12-20 2006-11-28 Sonion Mems A/S Silicon-based transducer for use in hearing instruments and listening devices
KR100480789B1 (ko) 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
US7716044B2 (en) * 2003-02-07 2010-05-11 Nippon Telegraph And Telephone Corporation Sound collecting method and sound collecting device
EP1453348A1 (de) 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
US7039546B2 (en) 2003-03-04 2006-05-02 Nippon Telegraph And Telephone Corporation Position information estimation device, method thereof, and program
DE10310579B4 (de) 2003-03-11 2005-06-16 Siemens Audiologische Technik Gmbh Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7203323B2 (en) 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
US7424119B2 (en) 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
DE602004027774D1 (de) 2003-09-02 2010-07-29 Nippon Telegraph & Telephone Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7515721B2 (en) 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
KR100600313B1 (ko) 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
US7415117B2 (en) 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US7688985B2 (en) 2004-04-30 2010-03-30 Phonak Ag Automatic microphone matching
US7190308B2 (en) 2004-09-23 2007-03-13 Interdigital Technology Corporation Blind signal separation using signal path selection
ATE405925T1 (de) 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
US7826624B2 (en) 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
US7342536B2 (en) * 2005-09-12 2008-03-11 Lockheed Martin Corporation System and method for determining the location of emitters having well-behaved timing features
DE102005047047A1 (de) 2005-09-30 2007-04-12 Siemens Audiologische Technik Gmbh Mikrofonkalibrierung bei einem RGSC-Beamformer
US7813923B2 (en) 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
KR100636368B1 (ko) 2005-11-09 2006-10-19 한국전자통신연구원 상대 최적화를 이용한 다중경로 혼합신호 분리 방법 및 그장치
JP2007156300A (ja) 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4863713B2 (ja) 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
WO2007100330A1 (en) 2006-03-01 2007-09-07 The Regents Of The University Of California Systems and methods for blind source signal separation
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US20070244698A1 (en) 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
JP2008057926A (ja) 2006-09-01 2008-03-13 Sanyo Electric Co Ltd タンクユニット
US20080175407A1 (en) 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone
US8160273B2 (en) 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
JP2010519602A (ja) 2007-02-26 2010-06-03 クゥアルコム・インコーポレイテッド 信号分離のためのシステム、方法、および装置
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Also Published As

Publication number Publication date
JP2011523836A (ja) 2011-08-18
TW201012244A (en) 2010-03-16
US8321214B2 (en) 2012-11-27
CN102047688B (zh) 2014-06-25
US20090299739A1 (en) 2009-12-03
EP2301258A1 (en) 2011-03-30
CN102047688A (zh) 2011-05-04
WO2009149119A1 (en) 2009-12-10
KR101217970B1 (ko) 2013-01-02
KR20110025677A (ko) 2011-03-10

Similar Documents

Publication Publication Date Title
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置
KR101275442B1 (ko) 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체
EP2572353B1 (en) Methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
JP5038550B1 (ja) ロバストな雑音低減のためのマイクロフォンアレイサブセット選択
JP5575977B2 (ja) ボイスアクティビティ検出
US8831936B2 (en) Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8175291B2 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
TW201032220A (en) Systems, methods, apparatus, and computer-readable media for coherence detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130724

R150 Certificate of patent or registration of utility model

Ref document number: 5329655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees