JP5628152B2 - スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品 - Google Patents

スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品 Download PDF

Info

Publication number
JP5628152B2
JP5628152B2 JP2011511857A JP2011511857A JP5628152B2 JP 5628152 B2 JP5628152 B2 JP 5628152B2 JP 2011511857 A JP2011511857 A JP 2011511857A JP 2011511857 A JP2011511857 A JP 2011511857A JP 5628152 B2 JP5628152 B2 JP 5628152B2
Authority
JP
Japan
Prior art keywords
audio signal
signal
subband
noise
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011511857A
Other languages
English (en)
Other versions
JP2011522294A (ja
Inventor
トマン、ジェレミー
リン、フン・チュン
ビッサー、エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2011522294A publication Critical patent/JP2011522294A/ja
Application granted granted Critical
Publication of JP5628152B2 publication Critical patent/JP5628152B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Description

優先権の主張
米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、代理人整理番号第080442P1号を有し、2008年5月29日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR IMPROVED SPECTRAL CONTRAST ENHANCEMENT OF SPEECH AUDIO IN A DUAL-MICROPHONE AUDIO DEVICE」と題する仮出願第61/057,187号の優先権を主張する。
同時係属特許出願の参照
本特許出願は、代理人整理番号第081737号を有し、2008年11月24日に出願されたVisserらによる「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する同時係属の米国特許出願第12/277,283号に関する。
本開示は、音声処理に関する。
以前は静かなオフィスまたは家庭環境で行われていた多くの活動が、今日では車、街路、またはカフェのような音響的に変動する状況で行われている。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供される。したがって、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイルデバイス(たとえば、ハンドセットおよび/またはヘッドセット)を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引(たとえば、口座残高または株価の確認)はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられる可能性がある。
通信が雑音の多い環境で行われる適用例では、所望の音声信号を背景雑音から分離することが望ましい。雑音は、所望の信号を妨害するか、あるいは劣化させるすべての信号の組合せと定義できる。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、ならびにそれらの信号の各々から発生される反射および残響を含む。所望の音声信号が背景雑音から分離されない限り、それを確実に効率的に利用することが困難になる可能性がある。
雑音の多い音響環境はまた、電話会話における遠端信号などの所望の再生オーディオ信号をマスキングするか、さもなければ聴取することを困難にする傾向がある。音響環境は、通信デバイスによって再生されている遠端(far-end)信号と競合する多くの制御不能な雑音源を有することがある。そのような雑音は不満足な通信エクスペリエンスを生じることがある。遠端信号が背景雑音と区別できない限り、それを確実に効率的に利用することが困難になる可能性がある。
一般的構成による音声信号を処理する方法は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するために、また、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するために、オーディオ信号を処理するように構成されたデバイスを使用することを含む。本方法では、スペクトルコントラスト強調演算を実行することは、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することと、音声信号からの情報に基づいて強調ベクトルを発生することと、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成することとを含む。本方法では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。
一般的構成による音声信号を処理するための装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段と、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するための手段とを含む。音声信号に対してスペクトルコントラスト強調演算を実行するための手段は、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するための手段と、音声信号からの情報に基づいて強調ベクトルを発生するための手段と、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成するための手段とを含む。本装置では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。
別の一般的構成による音声信号を処理するための装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するように構成されたスペクトルコントラストエンハンサとを含む。本装置では、スペクトルコントラストエンハンサは、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するように構成されたパワー推定値計算器と、音声信号からの情報に基づいて強調ベクトルを発生するように構成された強調ベクトル発生器とを含む。本装置では、スペクトルコントラストエンハンサは、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成するように構成される。本装置では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。
一般的構成によるコンピュータ可読媒体は、少なくとも1つのプロセッサによって実行されたとき、少なくとも1つのプロセッサにマルチチャネルオーディオ信号を処理する方法を実行させる命令を含む。これらの命令は、プロセッサによって実行されたとき、音源信号と雑音基準とを生成するためにプロセッサにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行させる命令と、プロセッサによって実行されたとき、処理済み音声信号を生成するためにプロセッサに音声信号に対してスペクトルコントラスト強調演算を実行させる命令とを含む。スペクトルコントラスト強調演算を実行する命令は、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算する命令と、音声信号からの情報に基づいて強調ベクトルを発生する命令と、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成する命令とを含む。本方法では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。
一般的構成による音声信号を処理する方法は、第1の平滑化信号を得るために音声信号のスペクトルを平滑化することと、第2の平滑化信号を得るために第1の平滑化信号を平滑化することと、第1の平滑化信号と第2の平滑化信号との比に基づくコントラスト強調音声信号を生成することとを行うために、オーディオ信号を処理するように構成されたデバイスを使用することを含む。そのような方法を実行するように構成された装置、ならびに、少なくとも1つのプロセッサによって実行されたとき、少なくとも1つのプロセッサにそのような方法を実行させる命令を有するコンピュータ可読媒体をも開示する。
明瞭度指数プロットを示す図。 典型的な狭帯域電話アプリケーションにおける再生音声信号のパワースペクトルを示す図。 典型的な音声パワースペクトルと典型的な雑音パワースペクトルとの例を示す図。 図3の例への自動ボリューム制御の適用を示す図。 図3の例へのサブバンド等化の適用を示す図。 一般的構成による装置A100のブロック図。 装置A100の実装形態A110のブロック図。 装置A100(および装置A110)の実装形態A120のブロック図。 空間選択的処理(SSP)フィルタSS10の一例のビームパターンを示す図。 SSPフィルタSS10の実装形態SS20のブロック図。 装置A100の実装形態A130のブロック図。 装置A130の実装形態A132のブロック図。 装置A132の実装形態A134のブロック図。 装置A130(および装置A110)の実装形態A140のブロック図。 装置A140(および装置A120)の実装形態A150のブロック図。 SSPフィルタSS10の実装形態SS110のブロック図。 SSPフィルタSS20およびSS110の実装形態SS120のブロック図。 エンハンサEN10の実装形態EN100のブロック図。 音声信号のフレームの絶対値スペクトルを示す図。 図13のスペクトルに対応する強調ベクトルEV10のフレームを示す図。 音声信号の絶対値スペクトルの例を示す図。 絶対値スペクトルの平滑化バージョンの例を示す図。 絶対値スペクトルの二重平滑化バージョンの例を示す図。 二重平滑化スペクトルに対する平滑化スペクトルの比の例を示す図。 強調ベクトル発生器VG100の実装形態VG110のブロック図。 強調ベクトル発生器VG110の実装形態VG120のブロック図。 図13の絶対値スペクトルから生成された平滑化信号の例を示す図。 図20の平滑化信号から生成された平滑化信号の例を示す図。 音声信号S40のフレームのための強調ベクトルの例を示す図。 ダイナミックレンジ制御演算のための伝達関数の例を示す図。 三角波形へのダイナミックレンジ圧縮演算の適用を示す図。 ダイナミックレンジ圧縮演算のための伝達関数の例を示す図。 三角波形へのダイナミックレンジ圧縮演算の適用を示す図。 適応等化演算の例を示す図。 サブバンド信号発生器SG200のブロック図 サブバンド信号発生器SG300のブロック図 サブバンド信号発生器SG400のブロック図 サブバンドパワー推定値計算器EC110のブロック図。 サブバンドパワー推定値計算器EC120のブロック図。 7つのバーク(Bark)尺度サブバンドのセットのエッジを示すドットの行を含む図。 サブバンドフィルタアレイSG10の実装形態SG12のブロック図。 一般的無限インパルス応答(IIR)フィルタ実装形態の転置直接形IIを示す図。 IIRフィルタのバイカッド実装形態の転置直接形II構造を示す図。 IIRフィルタのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す図。 一連の7つのバイカッドの絶対値および位相応答を示す図。 エンハンサEN10の実装形態EN110のブロック図。 混合係数計算器FC200の実装形態FC250のブロック図。 混合係数計算器FC250の実装形態FC260のブロック図。 利得係数計算器FC300の実装形態FC310のブロック図。 利得係数計算器FC300の実装形態FC320のブロック図。 擬似コードリストを示す図。 図34Aの擬似コードリストの変形を示す図。 図34Aの擬似コードリストの変形を示す図。 図34Bの擬似コードリストの変形を示す図。 利得制御要素CE110の実装形態CE115のブロック図。 並列に構成されたバンドパスフィルタのセットを含むサブバンドフィルタアレイFA100の実装形態FA110のブロック図。 バンドパスフィルタが直列に構成されたサブバンドフィルタアレイFA100の実装形態FA120のブロック図。 IIRフィルタのバイカッド実装形態の別の例を示す図。 エンハンサEN10の実装形態EN120のブロック図。 利得制御要素CE120の実装形態CE130のブロック図。 装置A100の実装形態A160のブロック図。 装置A140(および装置A165)の実装形態A165のブロック図。 図35Aの擬似コードリストの変形を示す図。 図35Aの擬似コードリストの別の変形を示す図。 装置A100の実装形態A170のブロック図。 装置A170の実装形態A180のブロック図。 ピークリミッタL10を含むエンハンサEN110の実装形態EN160のブロック図 ピーク制限演算の一例を記載する擬似コードリストを示す図。 図45Aの擬似コードリストの別のバージョンを示す図。 分離評価器EV10を含む装置A100の実装形態A200のブロック図。 装置A200の実装形態A210のブロック図。 エンハンサEN200(およびエンハンサEN110)の実装形態EN300のブロック図。 エンハンサEN300の実装形態EN310のブロック図。 エンハンサEN300(およびエンハンサEN310)の実装形態EN320のブロック図。 サブバンド信号発生器EC210のブロック図。 サブバンド信号発生器EC210の実装形態EC220のブロック図。 エンハンサEN320の実装形態EN330のブロック図。 エンハンサEN110の実装形態EN400のブロック図。 エンハンサEN110の実装形態EN450のブロック図。 装置A100の実装形態A250のブロック図。 エンハンサEN450(およびエンハンサEN400)の実装形態EN460のブロック図。 ボイスアクティビティ検出器V20を含む装置A210の実装形態A230を示す図。 エンハンサEN400の実装形態EN55のブロック図。 パワー推定値計算器EC120の実装形態EC125のブロック図。 装置A100の実装形態A300のブロック図。 装置A300の実装形態A310のブロック図。 装置A310の実装形態A320のブロック図。 装置A100の実装形態A400のブロック図。 装置A100の実装形態A500のブロック図。 オーディオプリプロセッサAP10の実装形態AP20のブロック図。 オーディオプリプロセッサAP20の実装形態AP30のブロック図。 装置A310の実装形態A330のブロック図。 エコーキャンセラEC10の実装形態EC12のブロック図。 エコーキャンセラEC20aの実装形態EC22aのブロック図。 装置A110の実装形態A600のブロック図。 第1の動作構成における2マイクロフォンハンドセットH100の図。 ハンドセットH100のための第2の動作構成を示す図。 3つのマイクロフォンを含むハンドセットH100の実装形態H110の図。 ハンドセットH110の2つの他の図。 マルチマイクロフォンオーディオ感知デバイスD300の底面図。 マルチマイクロフォンオーディオ感知デバイスD300の上面図。 マルチマイクロフォンオーディオ感知デバイスD300の正面図。 マルチマイクロフォンオーディオ感知デバイスD300の側面図。 ヘッドセットの様々な異なる動作構成の図。 ハンズフリーカーキットの図。 マルチマイクロフォンオーディオ感知デバイスD350の底面図。 マルチマイクロフォンオーディオ感知デバイスD350の上面図。 マルチマイクロフォンオーディオ感知デバイスD350の正面図。 マルチマイクロフォンオーディオ感知デバイスD350の側面図。 メディア再生デバイスの例を示す図。 メディア再生デバイスの例を示す図。 メディア再生デバイスの例を示す図。 通信デバイスD100のブロック図。 通信デバイスD100の実装形態D200のブロック図。 ボコーダVC10のブロック図。 符号器ENC100の実装形態ENC110のブロック図。 設計方法M10のフローチャート。 トレーニングデータを記録するように構成された音響無響室の例を示す図。 適応フィルタ構造FS10の2チャネル例のブロック図。 フィルタ構造FS10の実装形態FS20のブロック図。 ワイヤレス電話システムを示す図。 パケット交換データ通信をサポートするように構成されたワイヤレス電話システムを示す図。 一般的構成による方法M100のフローチャート。 方法M100の実装形態M110のフローチャート。 方法M100の実装形態M120のフローチャート。 タスクT130の実装形態T230のフローチャート。 タスクT140の実装形態T240のフローチャート。 タスクT240の実装形態T340のフローチャート。 方法M110の実装形態M130のフローチャート。 方法M100の実装形態M140のフローチャート。 一般的構成による方法M200のフローチャート。 一般的構成による装置F100のブロック図。 装置F100の実装形態F110のブロック図。 装置F100の実装形態F120のブロック図。 手段G130の実装形態G230のブロック図。 手段G140の実装形態G240のブロック図。 手段G240の実装形態G340のブロック図。 装置F110の実装形態F130のブロック図。 装置F100の実装形態F140のブロック図。 一般的構成による装置F200のブロック図。
これらの図面では、コンテキストが別段に規定しない限り、同じラベルの使用は同じ構造の例を示す。
モバイル環境中で音声信号に影響を及ぼす雑音は、競合する話し手、音楽、バブル、街頭雑音、および/または空港雑音など、多種多様な成分を含む。そのような雑音のシグナチャは一般に非定常であり、音声信号の周波数シグナチャに近いので、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して雑音をモデル化することが難しい場合がある。単一マイクロフォン雑音低減技法は、一般に最適なパフォーマンスを達成するためにかなりのパラメータチューニングを必要とする。たとえば、そのような場合、好適な雑音基準が直接的に利用可能ではなく、雑音基準を間接的に導出することが必要である。したがって、雑音の多い環境でのボイス通信のためのモバイルデバイスの使用をサポートするために、複数マイクロフォンベースの高度な信号処理が望ましい。1つの特定の例では、雑音の多い環境で音声信号を感知し、音声処理方法を使用して(「背景雑音」または「周囲雑音」とも呼ばれる)環境雑音から音声信号を分離する。別の特定の例では、雑音の多い環境で音声信号を再生し、音声処理方法を使用して環境雑音から音声信号を分離する。雑音は現実の状態ではほとんど常に存在するので、音声信号処理は日常的な通信の多くの領域で重要である。
本明細書で説明するシステム、方法、および装置を使用して、特に雑音の多い環境において、感知音声信号および/または再生音声信号の了解度の向上をサポートすることができる。そのような技法は、一般に任意の記録、オーディオ感知、送受信および/またはオーディオ再生アプリケーション、特にそのようなアプリケーションのモバイルまたはさもなければポータブル事例において適用できる。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレス電話通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、TD−SCDMA、またはOFDM)送信チャネルを介したボイスオーバーIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐することができることが、当業者には理解されよう。
文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値から計算(computing)すること、平滑化すること、評価すること、および/または選択することなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「導出された」(たとえば、「BはAのプリカーサーである」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「と等しい」(たとえば、「AはBと等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のいずれをも示すのに使用される。
別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的にサービスするために相互に作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。
「コーダ」、「コーデック」、および「コーディングシステム」という用語は、(場合によっては知覚的重み付けおよび/または他のフィルタ処理演算などの1つまたは複数の前処理演算の後に)オーディオ信号のフレームを受信し、符号化するように構成された少なくとも1つの符号器と、符号化フレームを受信し、フレームの対応する復号表現を生成するように構成された対応する復号器とを含むシステムを示すのに互換的に使用される。そのような符号器および復号器は一般に通信リンクの反対側の端末に配備される。フルデュプレックス通信をサポートするために、符号器と復号器の両方のインスタンスは、一般にそのようなリンクの各端部に配備される。
本明細書では、「感知オーディオ信号」という用語は、1つまたは複数のマイクロフォンを介して受信される信号を示す。通信または記録デバイスなど、オーディオ感知デバイスは、感知オーディオ信号に基づいて信号を記憶し、および/またはそのような信号を、オーディオ送信デバイスに結合された1つまたは複数の他のデバイスにワイヤを介してもしくはワイヤレスに出力するように構成できる。
本明細書では、「再生オーディオ信号」という用語は、記憶装置から取り出され、および/またはワイヤードもしくはワイヤレス接続を介して受信された情報から別のデバイスに再生される信号を示す。通信または再生デバイスなどのオーディオ再生デバイスは、再生オーディオ信号をデバイスの1つまたは複数のラウドスピーカーに出力するように構成できる。代替的に、そのようなデバイスは、再生オーディオ信号を、ワイヤを介してまたはワイヤレスにデバイスに結合されたイヤピース、他のヘッドセットまたは外部ラウドスピーカーに出力するように構成できる。電話などのボイス通信のためのトランシーバアプリケーションに関して、感知オーディオ信号は、トランシーバによって送信すべき近端信号であり、再生オーディオ信号は、トランシーバによって(たとえば、ワイヤードおよび/またはワイヤレス通信リンクを介して)受信される遠端信号である。記録された音楽または音声(たとえば、MP3、オーディオブック、ポッドキャスト)の再生またはそのようなコンテンツのストリーミングなどのモバイルオーディオ再生アプリケーションに関して、再生オーディオ信号は、再生またはストリーミングされるオーディオ信号である。
音声信号の了解度は、信号のスペクトル特性に関して変動することがある。たとえば、図1の明瞭度指数プロットに、音声了解度に対する相対的寄与率が可聴周波数とともにどのように変動するかを示す。このプロットは、1〜4kHz間の周波数成分が了解度にとって特に重要であり、相対的重要度が約2kHzでピークに達することを示す。
図2に、電話アプリケーションの典型的な狭帯域チャネルに送信される、および/またはそれを介して受信される音声信号のパワースペクトルを示す。この図は、周波数が500Hzを上回って増加するにつれて、そのような信号のエネルギーが急速に減少することを示す。しかしながら、図1に示すように、4kHzまでの周波数は音声了解度にとって極めて重要である。したがって、500〜4000Hz間の周波数帯域中でエネルギーを人工的にブースティングすることにより、そのような電話アプリケーションにおける音声信号の了解度が改善されることが期待される。
4kHzを上回る可聴周波数は一般に了解度にとって1kHz〜4kHz帯域ほど重要ではないので、典型的な帯域制限された通信チャネルを介して狭帯域信号を送信することで、理解できる会話を行うのに通常十分である。しかしながら、通信チャネルが広帯域信号の伝送をサポートする場合、パーソナル音声特徴の明暸性の向上およびその通信の改善が期待される。ボイス電話コンテキストでは、「狭帯域」という用語は、約0〜500Hz(たとえば、0、50、100、または200Hz)から約3〜5kHz(たとえば、3500、4000、または4500Hz)までの周波数レンジを指し、「広帯域」という用語は、約0〜500Hz(たとえば、0、50、100、または200Hz)から約7〜8kHz(たとえば、7000、7500、または8000Hz)までの周波数レンジを指す。
音声信号の選択された部分をブースティングすることによって音声了解度を高めることが望ましい。補聴器の適用例では、たとえば、ダイナミックレンジ圧縮技法を使用して、再生オーディオ信号中の特定の周波数サブバンドをブースティングすることによって、それらのサブバンド中の知られている聴力損失を補償することができる。
現実の世界は、単一点雑音源を含む複数の雑音源にあふれており、これらは、しばしば複数の音に入り込んで残響を生じる。背景音響雑音は、一般的な環境によって発生される多数の雑音信号、他の人々の背景会話によって発生される干渉信号、ならびにそれらの信号の各々から発生される反射および残響を含む。
環境雑音は、近端音声信号などの感知オーディオ信号の了解度、および/または遠端音声信号などの再生オーディオ信号の了解度に影響を及ぼすことがある。通信が雑音の多い環境で行われる適用例では、音声処理方法を使用して、音声信号を背景雑音と区別し、その了解度を向上させることが望ましい。雑音は現実の状態ではほとんど常に存在するので、そのような処理は日常的な通信の多くの領域で重要である。
自動利得制御(AGC、自動ボリューム制御またはAVCとも呼ばれる)は、雑音の多い環境で感知または再生されるオーディオ信号の了解度を高めるために使用できる処理方法である。自動利得制御技法を使用して、信号のダイナミックレンジを有限振幅帯域に圧縮し、それによって、低いパワーを有する信号のセグメントをブースティングし、高いパワーを有するセグメント中のエネルギーを減少させることができる。図3に、自然音声パワーロールオフがパワーを周波数とともに減少させる典型的な音声パワースペクトルと、パワーが少なくとも音声周波数のレンジにわたって全体的に一定である典型的な雑音パワースペクトルとの例を示す。そのような場合、音声信号の高周波成分は、雑音信号の対応する成分よりも小さいエネルギーを有し、その結果、高周波音声帯域のマスキングが生じる。図4Aに、そのような例へのAVCの適用を示す。AVCモジュールは、一般に、この図に示すように、音声信号のすべての周波数帯域を無差別にブースティングするために実装される。そのような手法は、高周波パワーの適度のブーストのために、増幅された信号の大きいダイナミックレンジを必要とすることがある。
高周波数帯域中の音声パワーは通常、低周波数帯域中よりもはるかに小さいので、背景雑音は一般に高周波音声成分を低周波成分よりもはるかに急速にかき消す。したがって、単に信号の全体量をブースティングすることは、了解度に著しく寄与しない、1kHzを下回る低周波成分を不必要にブースティングすることになる。代わりに、音声信号に対する雑音マスキング効果を補償するために可聴周波数サブバンドパワーを調整することが望ましい。たとえば、高周波のほうへの音声パワーの固有のロールオフを補償するために、雑音対音声サブバンドパワーの比に反比例して、高周波サブバンドにおいて不均等に、音声パワーをブースティングすることが望ましい。
環境雑音によって支配される周波数サブバンド中の低ボイスパワーを補償することが望ましい。たとえば、図4Bに示すように、(たとえば、音声対雑音比に従って)音声信号の異なるサブバンドに異なる利得ブーストを適用することによって了解度をブースティングするために、選択されたサブバンドに作用することが望ましい。図4Aに示すAVC例とは対照的に、そのような等化は、低周波成分の不要なブーストを回避しながら、よりクリアでより明瞭な信号を与えることが期待できる。
そのような方法で音声パワーを選択的にブースティングするために、環境雑音レベルの確実な同時推定値を得ることが望ましい。しかしながら、実際の適用例では、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して、感知オーディオ信号からの環境雑音をモデル化することが困難であることがある。図3は、周波数によらず一定である雑音レベルを示唆しているが、通信デバイスまたはメディア再生デバイスの実際の適用例における環境雑音レベルは、一般に時間と周波数の両方にわたって著しく急速に変動する。
典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および/または干渉源(たとえば、テレビ受像機またはラジオ)からの音がある。したがって、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。単一マイクロフォン信号から計算される雑音パワー基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音パワー推定遅延を伴うので、かなりの遅延の後にしか、サブバンド利得の対応する調整を実行することができない。環境雑音の確実な同時推定値を得ることが望ましい。
図5に、空間選択的処理フィルタSS10とスペクトルコントラストエンハンサEN10とを含む、一般的構成によるオーディオ信号A100を処理するように構成された装置のブロック図を示す。空間選択的処理(SSP)フィルタSS10は、音源信号S20と雑音基準S30とを生成するために、Mチャネル感知オーディオ信号S10(Mは1よりも大きい整数である)に対して空間選択的処理演算を実行するように構成される。エンハンサEN10は、処理済み音声信号S50を生成するために、雑音基準S30からの情報に基づいて音声信号S40のスペクトル特性を動的に改変するように構成される。たとえば、エンハンサEN10は、処理済み音声信号S50を生成するために、雑音基準S30からの情報を使用して、音声信号S40の少なくとも1つの周波数サブバンドを、音声信号S40の少なくとも1つの他の周波数サブバンドに対してブースティングおよび/または減衰させるように構成できる。
装置A100は、音声信号S40が再生オーディオ信号(たとえば、遠端信号)になるように実装できる。代替的に、装置A100は、音声信号S40が感知オーディオ信号(たとえば、近端信号)になるように実装できる。たとえば、装置A100は、音声信号S40がマルチチャネル感知オーディオ信号S10に基づくように実装できる。図6Aに、エンハンサEN10が音声信号S40として音源信号S20を受信するように構成された、装置A100のそのような実装形態A110のブロック図を示す。図6Bに、エンハンサEN10の2つのインスタンスEN10aとEN10bとを含む装置A100(および装置A110)のさらなる実装形態A120のブロック図を示す。この例では、エンハンサEN10aは、処理済み音声信号S50aを生成するために音声信号S40(たとえば、遠端信号)を処理するように構成され、エンハンサEN10は、処理済み音声信号S50bを生成するために音源信号S20(たとえば、近端信号)を処理するように構成される。
装置A100の典型的な適用例では、感知オーディオ信号S10の各チャネルはM個のマイクロフォンのアレイのうちの対応する1つからの信号に基づき、Mは1よりも大きい値を有する整数である。マイクロフォンのそのようなアレイをもつ装置A100の実装形態を含むように実装できるオーディオ感知デバイスの例には、補聴器、通信デバイス、記録デバイス、およびオーディオまたはオーディオビジュアル再生デバイスがある。そのような通信デバイスの例には、限定はしないが、電話機(たとえば、コード付き電話もしくはコードレス電話、セルラー電話ハンドセット、ユニバーサルシリアルバス(USB)ハンドセット)、ワイヤードおよび/またはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)、ならびにハンズフリーカーキットがある。そのような記録デバイスの例には、限定はしないが、ハンドヘルドオーディオおよび/またはビデオレコーダ、ならびにデジタルカメラがある。そのようなオーディオまたはオーディオビジュアル再生デバイスの例には、限定はしないが、ストリーミングあるいは予め記録されているオーディオまたはオーディオビジュアルコンテンツを再生するように構成されたメディアプレーヤがある。マイクロフォンのそのようなアレイをもつ装置A100の実装形態を含むように実装でき、通信、記録、および/またはオーディオもしくはオーディオビジュアル再生動作を実行するように構成できるオーディオ感知デバイスの他の例には、携帯情報端末(PDA)および他のハンドヘルドコンピューティングデバイス、すなわち、ネットブックコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、および他のポータブルコンピューティングデバイス、ならびにデスクトップコンピュータおよびワークステーションがある。
M個のマイクロフォンのアレイは、音響信号を受信するように構成された2つのマイクロフォン(たとえば、ステレオアレイ)、または3つ以上のマイクロフォンを有するように実装できる。アレイの各マイクロフォンは、全方向、双方向、または単方向(たとえば、カージオイド)である応答を有することができる。使用できる様々なタイプのマイクロフォンには、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。ハンドセットまたはヘッドセットなど、ポータブルボイス通信のためのデバイスでは、そのようなアレイの隣接するマイクロフォン間の中心間間隔は一般に約1.5cm〜約4.5cmの範囲内であるが、ハンドセットなどのデバイスでは(たとえば、10cmまたは15cmまでの)より広い間隔も可能である。補聴器では、そのようなアレイの隣接するマイクロフォン間の中心間間隔は、わずか約4mmまたは5mmとすることができる。そのようなアレイのマイクロフォンは、線に沿って、あるいは代替的にそれらの中心が2次元(たとえば、三角形)または3次元形状の頂点に存在するように構成できる。
アレイのマイクロフォンによって生成された信号に対して1つまたは複数の前処理演算を実行することによって、感知オーディオ信号S10を得ることが望ましい。そのような前処理演算は、感知オーディオ信号S10を得るために、サンプリング、(たとえば、エコー消去、雑音低減、スペクトル整形などのための)フィルタ処理、および場合によっては(たとえば、本明細書で説明する別のSSPフィルタまたは適応フィルタによる)事前分離さえ含むことができる。音声などの音響適用例では、典型的なサンプリングレートは、8kHz〜16kHzにわたる。他の典型的な前処理演算は、アナログおよび/またはデジタル領域におけるインピーダンス整合、利得制御およびフィルタ処理を含む。
空間選択的処理(SSP)フィルタSS10は、音源信号S20と雑音基準S30とを生成するために、感知オーディオ信号S10に対して空間選択的処理演算を実行するように構成される。雑音を低減するため、特定の方向から到着した信号成分を強調するため、および/または他の環境音から1つまたは複数の音響成分を分離するために、オーディオ感知デバイスと特定の音源との間の距離を決定するように、そのような演算を設計することができる。そのような空間処理演算の例は、2008年8月25日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号、および2008年11月24日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する米国特許出願第12/277,283号に記載されており、(限定はしないが)ビームフォーミングおよびブラインド音源分離演算を含む。雑音成分の例には、(限定はしないが)街頭雑音、自動車雑音、および/またはバブル雑音などの拡散環境雑音、ならびにテレビジョン、ラジオ、または拡声装置などの別の点音源からの干渉スピーカーおよび/または音などの指向性雑音がある。
空間選択的処理フィルタSS10は、指向性干渉成分および/または拡散雑音成分など、信号の1つまたは複数の他の成分から、感知オーディオ信号S10(たとえば、ユーザのボイス)の指向性の所望の成分を分離するように構成できる。そのような場合、音源信号S20が、感知オーディオチャネルS10の各チャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む(すなわち、音源信号S20が、感知オーディオチャネルS10の個々のどのチャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む)ように、指向性の所望の成分のエネルギーを集中するように、SSPフィルタSS10を構成することができる。図7に、マイクロフォンアレイの軸に対するフィルタ応答の指向性を示すSSPフィルタSS10のそのような例のビームパターンを示す。
空間選択的処理フィルタSS10を使用して、環境雑音の確実な同時推定値を与えることができる。いくつかの雑音推定方法では、入力信号の非アクティブフレーム(たとえば、背景雑音または無音のみを含んでいるフレーム)を平均化することによって、雑音基準を推定する。そのような方法は、環境雑音の変化に反応するのが遅く、一般に非定常雑音(たとえば、衝撃雑音)をモデル化するには効果がない。空間選択的処理フィルタSS10は、雑音基準S30を与えるために入力信号のアクティブフレームからさえ雑音成分を分離するように構成できる。SSPフィルタSS10によってそのような雑音基準のフレームに分離された雑音は、音源信号S20の対応するフレーム中の情報成分と本質的に同時に発生し、そのような雑音基準は「瞬時」雑音推定値とも呼ばれる。
空間選択的処理フィルタSS10は、一般にフィルタ係数値の1つまたは複数の行列によって特徴づけられる固定フィルタFF10を含むように実装される。これらのフィルタ係数値は、以下でより詳細に説明するように、ビームフォーミング、ブラインド音源分離(BSS)、または複合BSS/ビームフォーミング方法を使用して得ることができる。空間選択的処理フィルタSS10はまた、2つ以上の段を含むように実装できる。図8Aに、固定フィルタ段FF10と適応フィルタ段AF10とを含む、SSPフィルタSS10のそのような実装形態SS20のブロック図を示す。この例で、固定フィルタ段FF10は、フィルタ処理された信号S15のチャネルS15−1およびS15−2を生成するために感知オーディオ信号S10のチャネルS10−1およびS10−2をフィルタ処理するように構成され、適応フィルタ段AF10は、音源信号S20と雑音基準S30とを生成するためにチャネルS15−1およびS15−2をフィルタ処理するように構成される。そのような場合、以下でより詳細に説明するように、適応フィルタ段AF10のための初期状態を発生するために固定フィルタ段FF10を使用することが望ましい。また、SSPフィルタSS10への入力の適応スケーリングを実行すること(たとえば、IIR固定または適応フィルタバンクの安定性を保証すること)が望ましい。
SSPフィルタSS20の別の実装形態では、適応フィルタAF10は、フィルタ処理されたチャネルS15−1と感知オーディオチャネルS10−2とを入力として受信するように構成される。そのような場合、適応フィルタAF10が、固定フィルタFF10の予想される処理遅延を整合する遅延要素を介して感知オーディオチャネルS10−2を受信することが望ましい。
複数の固定フィルタ段のうちの適切な1つが(たとえば、様々な固定フィルタ段の相対分離パフォーマンスに従って)演算中に選択されるように構成された、固定フィルタ段を含むように、SSPフィルタSS10を実装することが望ましい。そのような構造は、たとえば、代理人整理番号第080426号を有する、2008年12月12日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する米国特許出願第12/334,246号に開示されている。
空間選択的処理フィルタSS10は、時間領域において感知オーディオ信号S10を処理し、音源信号S20と雑音基準S30とを時間領域信号として生成するように構成できる。代替的に、SSPフィルタSS10は、周波数領域(または別の変換領域)において感知オーディオ信号S10を受信するか、または感知オーディオ信号S10をそのような領域に変換し、その領域において感知オーディオ信号S10を処理するように構成できる。
音源信号S20中の雑音をさらに低減するために雑音基準S30を適用するように構成された雑音低減段が、SSPフィルタSS10またはSS20の後に続くことが望ましい。図8Bに、そのような雑音低減段NR10を含む装置A100の実装形態A130のブロック図を示す。雑音低減段NR10は、フィルタ係数値が音源信号S20と雑音基準S30とからの信号と雑音パワー情報とに基づくウィーナー(Wiener)フィルタとして実装できる。そのような場合、雑音低減段NR10は、雑音基準S30からの情報に基づいて雑音スペクトルを推定するように構成できる。代替的に、雑音低減段NR10は、雑音基準S30のスペクトルに基づいて、音源信号S20に対してスペクトル減算演算を実行するように実装できる。代替的に、雑音低減段NR10は、雑音共分散が雑音基準S30からの情報に基づくカルマンフィルタとして実装できる。
雑音低減段NR10は、周波数領域(または別の変換領域)において音源信号S20と雑音基準S30とを処理するように構成できる。図9Aに、雑音低減段NR10のそのような実装形態NR20を含む装置A130の実装形態A132のブロック図を示す。装置A132はまた、音源信号S20と雑音基準S30とを変換領域に変換するように構成された変換モジュールTR10を含む。典型的な例では、変換モジュールTR10は、音源信号S20と雑音基準S30との各々に対して、それぞれの周波数領域信号を生成するために、128ポイント、256ポイント、または512ポイントFFTなどの高速フーリエ変換(FFT)を実行するように構成される。図9Bに(たとえば、雑音低減段NR20の出力に対して逆FFTを実行することによって)雑音低減段NR20の出力を時間領域に変換するように構成された逆変換モジュールTR20をも含む装置A132の実装形態A134のブロック図を示す。
雑音低減段NR20は、雑音基準S30の対応するビンの値に従って音源信号S20の周波数領域ビンに重み付けすることによって、雑音低減された音声信号S45を計算するように構成できる。そのような場合、雑音低減段NR20は、B=wなどの式に従って雑音低減された音声信号S45を生成するように構成でき、Bは、雑音低減された音声信号S45のi番目のビンを示し、Aは音源信号S20のi番目のビンを示し、wはフレームに対する重みベクトルのi番目の要素を示す。各ビンは、対応する周波数領域信号の値を1つしか含まないか、または、雑音低減段NR20は、(たとえば、ビニングモジュールSG30に関して以下で説明するように)所望のサブバンド分割方式に従って各周波数領域信号の値をビンにグループ化するように構成できる。
雑音低減段NR20のそのような実装形態は、雑音基準S30が低い値を有するビンに対しては重みがより高く(たとえば、1により近く)、雑音基準S30が高い値を有するビンに対しては重みがより低く(たとえば、0により近く)なるように、重みwを計算するように構成できる。雑音低減段NR20のそのような一例は、ビンN中の値の和(代替的に、平均値)がしきい値T未満(代替的に、以下)である場合はw=1、他の場合はw=0などの式に従って重みwの各々を計算することによって、音源信号S20のビンを阻止するかまたはパスするように構成される。この例では、Nは雑音基準S30のi番目のビンを示す。しきい値Tが互いに等しくなるように、または代替的に、しきい値Tのうちの少なくとも2つが互いに異なるように、雑音低減段NR20のそのような実装形態を構成することが望ましい。別の例では、雑音低減段NR20は、周波数領域において音源信号S20から雑音基準S30を減算することによって(すなわち、音源信号S20のスペクトルから雑音基準S30のスペクトルを減算することによって)雑音低減された音声信号S45を計算するように構成される。
以下でより詳細に説明するように、エンハンサEN10は、周波数領域または別の変換領域において1つまたは複数の信号に対して演算を実行するように構成できる。図10Aに、雑音低減段NR20のインスタンスを含む装置A100の実装形態A140のブロック図を示す。この例では、エンハンサEN10は、雑音低減された音声信号S45を音声信号S40として受信するように構成され、エンハンサEN10はまた、雑音基準S30と雑音低減された音声信号S45とを変換領域信号として受信するように構成される。装置A140はまた、処理済み音声信号S50を変換領域から時間領域に変換するように構成された逆変換モジュールTR20のインスタンスを含む。
音声信号S40が高いサンプリングレート(たとえば、44.1kHz、または10キロヘルツを上回る別のサンプリングレート)を有する場合、エンハンサEN10が、時間領域において信号S40を処理することによって、対応する処理済み音声信号S50を生成することが望ましいことに明確に留意されたい。たとえば、そのような信号に対して変換演算を実行する計算費用を回避することが望ましい。メディアファイルまたはファイルストリームから再生された信号は、そのようなサンプリングレートを有することができる。
図10Bに、装置A140の実装形態A150のブロック図を示す。装置A150は、第1の処理済み音声信号S50aを生成するために(たとえば、上記の装置A140に関して説明するように)変換領域において雑音基準S30と雑音低減された音声信号S45とを処理するように構成されたエンハンサEN10のインスタンスEN10aを含む。装置A150はまた、第2の処理済み音声信号S50bを生成するために時間領域において雑音基準S30と音声信号S40(たとえば、遠端信号または他の再生信号)とを処理するように構成されたエンハンサEN10のインスタンスEN10bを含む。
指向性処理演算を実行するように構成されることの代替として、または指向性処理演算を実行するように構成されることに加えて、SSPフィルタSS10は、距離処理演算を実行するように構成できる。図11Aおよび図11Bに、そのような演算を実行するように構成された距離処理モジュールDS10を含む、SSPフィルタSS10の実装形態SS110およびSS120のブロック図をそれぞれ示す。距離処理モジュールDS10は、距離処理演算の結果として、マイクロフォンアレイに対するマルチチャネル感知オーディオ信号S10の成分の音源の距離を示す距離指示信号DI10を生成するように構成される。距離処理モジュールDS10は、一般に、2つの状態がそれぞれ近距離音源および遠距離音源を示す2進値指示信号として距離指示信号DI10を生成するように構成されるが、連続信号および/または多値信号を生成する構成も可能である。
一例では、距離処理モジュールDS10は、距離指示信号DI10の状態がマイクロフォン信号のパワー勾配間の類似度に基づくように構成される。距離処理モジュールDS10のそのような実装形態は、(A)マイクロフォン信号のパワー勾配間の差と(B)しきい値との間の関係に従って距離指示信号DI10を生成するように構成できる。1つのそのような関係を次のように表すことができる。
Figure 0005628152
上式で、θは、距離指示信号DI10の現在の状態を示し、∇は、感知オーディオ信号S10の1次チャネル(たとえば、最も直接的にユーザのボイスなどの所望の音源からの音を通常受信するマイクロフォンに対応するチャネル)のパワー勾配の現在値を示し、∇は、感知オーディオ信号S10の2次チャネル(たとえば、1次チャネルのマイクロフォンほどは直接的でなく所望の音源からの音を通常受信するマイクロフォンに対応するチャネル)のパワー勾配の現在値を示し、Tは、(たとえば、マイクロフォン信号のうちの1つまたは複数の現在レベルに基づいて)固定または適応的とすることができるしきい値を示す。この特定の例では、距離指示信号DI10の状態1が遠距離音源を示し、状態0が近距離音源を示すが、当然、所望される場合、逆の(すなわち、状態1が近距離音源を示し、状態0が遠距離音源を示すような)実装形態も使用できる。
連続フレームにわたる感知オーディオ信号S10の対応するチャネルのエネルギー間の差としてパワー勾配の値を計算するように距離処理モジュールDS10を実装することが望ましい。1つのそのような例では、距離処理モジュールDS10は、パワー勾配∇と∇との各々について、チャネルの現在のフレームの値の平方和とチャネルの前のフレームの値の平方和との間の差として現在値を計算するように構成される。別のそのような例では、距離処理モジュールDS10は、パワー勾配∇と∇との各々について、対応するチャネルの現在のフレームの値の絶対値の和とチャネルの前のフレームの値の絶対値の和との間の差として現在値を計算するように構成される。
追加または代替として、距離処理モジュールDS10は、距離指示信号DI10の状態が、周波数範囲にわたって、感知オーディオ信号S10の1次チャネルの位相と2次チャネルの位相との間の相関の程度に基づくように構成できる。距離処理モジュールDS10のそのような実装形態は、(A)チャネルの位相ベクトル間の相関と(B)しきい値との間の関係に従って距離指示信号DI10を生成するように構成できる。1つのそのような関係を次のように表すことができる。
Figure 0005628152
上式で、μは、距離指示信号DI10の現在の状態を示し、φは感知オーディオ信号S10の1次チャネルの現在の位相ベクトルを示し、φは感知オーディオ信号S10の2次チャネルの現在の位相ベクトルを示し、Tは(たとえば、チャネルの1つまたは複数の現在レベルに基づいて)固定または適応的とすることができるしきい値を示す。位相ベクトルの各要素が、対応する周波数において、または対応する周波数サブバンドにわたって、対応するチャネルの現在の位相角を表すように、位相ベクトルを計算するように距離処理モジュールDS10を実装することが望ましい。この特定の例では、距離指示信号DI10の状態1が遠距離音源を示し、状態0が近距離音源を示すが、当然、所望される場合、逆の実装形態も使用できる。距離指示信号DI10が遠距離音源を示すときに雑音低減段NR10によって実行される雑音低減が最大になるように、距離指示信号DI10を雑音低減段NR10に制御信号として印加することができる。
距離指示信号DI10の状態が上記で開示したパワー勾配と位相相関基準の両方に基づくように、距離処理モジュールDS10を構成することが望ましい。そのような場合、距離処理モジュールDS10は、距離指示信号DI10の状態をθの現在値とμの現在値との組合せ(たとえば、論理和または論理積)として計算するように構成できる。代替的に、距離処理モジュールDS10は、対応するしきい値の値がこれらの基準(すなわち、パワー勾配類似度または位相相関)のうちの一方の基準の現在値に基づくように、これらの基準のうちの他方に従って距離指示信号DI10の状態を計算するように構成できる。
SSPフィルタSS10の代替実装形態は、音源信号S20と雑音基準S30とを生成するために感知オーディオ信号S10に対して位相相関マスキング演算を実行するように構成される。SSPフィルタSS10のそのような実装形態の一例は、異なる周波数における感知オーディオ信号S10の異なるチャネル間の相対位相角を決定するように構成される。周波数の大部分における位相角がほぼ等しい(たとえば、5、10、または20パーセント内である)場合、フィルタは、それらの周波数を音源信号S20としてパスし、他の周波数における成分(すなわち、他の位相角を有する成分)を雑音基準S30に分離する。
エンハンサEN10は、時間領域バッファから雑音基準S30を受信するように構成できる。代替または追加として、エンハンサEN10は、時間領域バッファから第1の音声信号S40を受信するように構成できる。一例では、各時間領域バッファは10ミリ秒の長さ(たとえば、8kHzのサンプリングレートで80個のサンプル、または16kHzのサンプリングレートで160個のサンプル)を有する。
エンハンサEN10は、処理済み音声信号S50を生成するために音声信号S40に対してスペクトルコントラスト強調演算を実行するように構成される。スペクトルコントラストは、信号スペクトル中の隣接するピークと谷との間の差として(たとえば、デシベルで)定義でき、エンハンサEN10は、音声信号S40のエネルギースペクトルまたは絶対値スペクトル中のピークと谷との間の差を増加させることによって処理済み音声信号S50を生成するように構成できる。音声信号のスペクトルピークは「ホルマント」とも呼ばれる。スペクトルコントラスト強調演算は、雑音基準S30からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することと、音声信号からの情報に基づいて強調ベクトルEV10を発生することと、複数の雑音サブバンドパワー推定値と音声信号S40からの情報と強調ベクトルEV10からの情報とに基づいて処理済み音声信号S50を生成することとを含む。
一例では、エンハンサEN10は、(たとえば、本明細書で説明する技法のいずれかに従って)音声信号S40に基づいてコントラスト強調信号SC10を発生することと、雑音基準S30のフレームごとにパワー推定値を計算することと、対応する雑音パワー推定値に従って音声信号S30とコントラスト強調信号SC10との対応するフレームを混合することによって処理済み音声信号S50を生成することとを行うように構成される。たとえば、エンハンサEN10のそのような実装形態は、対応する雑音パワー推定値が高いときに比例してコントラスト強調信号SC10の対応するフレームのより多くを使用して、対応する雑音パワー推定値が低いときに比例して音声信号S40の対応するフレームのより多くを使用して、処理済み音声信号S50のフレームを生成するように構成できる。エンハンサEN10のそのような実装形態は、PSS(n)=ρCES(n)+(1−ρ)SS(n)などの式に従って処理済み音声信号S50のフレームPSS(n)を生成するように構成でき、CES(n)とSS(n)とはそれぞれ、コントラスト強調信号SC10と音声信号S40との対応するフレームを示し、ρは、対応する雑音パワー推定値に基づく、0〜1の範囲内の値を有する雑音レベル指示を示す。
図12に、スペクトルコントラストエンハンサEN10の実装形態EN100のブロック図を示す。エンハンサEN100は、コントラスト強調音声信号SC10に基づく処理済み音声信号S50を生成するように構成される。エンハンサEN100はまた、処理済み音声信号S50の複数の周波数サブバンドの各々が音声信号S40の対応する周波数サブバンドに基づくように、処理済み音声信号S50を生成するように構成される。
エンハンサEN100は、音声信号S40に基づく強調ベクトルEV10を発生するように構成された強調ベクトル発生器VG100と、強調ベクトルEV10からの情報に基づいて強調サブバンド信号のセットを生成するように構成された強調サブバンド信号発生器EG100と、各々が強調サブバンド信号のうちの対応する1つからの情報に基づく強調サブバンドパワー推定値のセットを生成するように構成された強調サブバンドパワー推定値発生器EP100とを含む。エンハンサEN100はまた、複数の利得係数値の各々が強調ベクトルEV10の対応する周波数サブバンドからの情報に基づくように複数の利得係数値を計算するように構成されたサブバンド利得係数計算器FC100と、音声信号S40からの情報に基づいて音声サブバンド信号のセットを生成するように構成された音声サブバンド信号発生器SG100と、音声サブバンド信号と強調ベクトルEV10からの情報(たとえば、複数の利得係数値)とに基づいてコントラスト強調信号SC10を生成するように構成された利得制御要素CE100とを含む。
エンハンサEN100は、雑音基準S30からの情報に基づいて雑音サブバンド信号のセットを生成するように構成された雑音サブバンド信号発生器NG100と、各々が雑音サブバンド信号のうちの対応する1つからの情報に基づいて、雑音サブバンドパワー推定値のセットを生成するように構成された雑音サブバンドパワー推定値計算器NP100とを含む。エンハンサEN100はまた、対応する雑音サブバンドパワー推定値からの情報に基づいて、サブバンドの各々について混合係数を計算するように構成されたサブバンド混合係数計算器FC200と、混合係数と音声信号S40とコントラスト強調信号SC10とからの情報に基づいて処理済み音声信号S50を生成するように構成されたミキサX100とを含む。
エンハンサEN100(および、本明細書で開示するエンハンサEN10の他の実装形態のいずれか)を適用する際に、(たとえば、オーディオプリプロセッサAP20およびエコーキャンセラEC10に関して以下で説明するように)エコー消去演算を受けたマイクロフォン信号から雑音基準S30を得ることが望ましいことに明確に留意されたい。そのような演算は、音声信号S40が再生オーディオ信号である場合に特に望ましい。雑音基準S30(または以下で開示するエンハンサEN10のさらなる実装形態によって使用される他の雑音基準のいずれか)に音響エコーが残っている場合、処理済み音声信号S50とサブバンド利得係数計算経路との間に正のフィードバックループを生成することができる。たとえば、そのようなループには、その処理済み音声信号S50が遠端ラウドスピーカーをより大きく駆動すればするほど、エンハンサは利得係数を増加させる傾向が大きくなるという効果がある。
一例では、強調ベクトル発生器VG100は、音声信号S40の絶対値スペクトルまたはパワースペクトルを、1よりも大きいパワーM(たとえば、1.2、1.5、1.7、1.9、または2など、1.2〜2.5の範囲内の値)に引き上げることによって強調ベクトルEV10を発生するように構成される。強調ベクトル発生器VG100は、y=Mxなどの式に従って対数スペクトル値に対してそのような演算を実行するように構成でき、xは音声信号S40のスペクトルの値をデシベルで示し、yは強調ベクトルEV10の対応値をデシベルで示す。強調ベクトル発生器VG100はまた、パワー引上げ演算の結果を正規化し、および/または強調ベクトルEV10をパワー引上げ演算の結果と元の絶対値またはパワースペクトルとの間の比として生成するように構成できる。
別の例では、強調ベクトル発生器VG100は、音声信号S40のスペクトルの2次導関数を平滑化することによって強調ベクトルEV10を発生するように構成される。強調ベクトル発生器VG100のそのような実装形態は、D2(x)=xi−1+xi+1−2xなどの式に従って2次微分として離散項で2次導関数を計算するように構成でき、スペクトル値xは(たとえば、デシベルで)線形または対数となる。2次微分D2(x)の値はスペクトルピークにおいて0未満であり、スペクトルの谷において0よりも大きいので、スペクトルピークにおいて0よりも大きく、スペクトルの谷において0未満である結果を得るために、2次微分をこの値の負数として計算するように(または平滑化された2次微分をネゲートするように)強調ベクトル発生器VG100を構成することが望ましい。
強調ベクトル発生器VG100は、重み付けされた平均化フィルタ(たとえば、三角フィルタ)などの平滑化フィルタを適用することによってスペクトル2次微分を平滑化するように構成できる。平滑化フィルタの長さは、スペクトルピークの推定された帯域幅に基づくことができる。たとえば、平滑化フィルタが、推定されたピーク帯域幅の2倍未満の期間を有する周波数を減衰させることが望ましい。典型的な平滑化フィルタ長は、3、5、7、9、11、13、および15個のタップを含む。強調ベクトル発生器VG100のそのような実装形態は、連続的に、または1つの演算として差および平滑化計算を実行するように構成できる。図13に、音声信号S40のフレームの絶対値スペクトルの例を示し、図14に、15タップ三角フィルタによって平滑化された2次スペクトル微分として計算される強調ベクトルEV10の対応するフレームの例を示す。
同様の例では、強調ベクトル発生器VG100は、以下の式に従って実装できるガウス微分(DoG)フィルタを用いて音声信号S40のスペクトルを畳み込むことによって強調ベクトルEV10を発生するように構成される。
Figure 0005628152
上式で、σおよびσはそれぞれのガウス分布の標準偏差を示し、μはスペクトル平均を示す。「メキシカンハット」ウェーブレットフィルタなど、DoGフィルタと同様の形状を有する別のフィルタをも使用することができる。別の例では、強調ベクトル発生器VG100は、強調ベクトルEV10を音声信号S40の平滑化スペクトルの指数関数の2次微分としてデシベルで発生するように構成される。
さらなる一例では、強調ベクトル発生器VG100は、音声信号S40の平滑化スペクトルの比を計算することによって強調ベクトルEV10を発生するように構成される。強調ベクトル発生器VG100のそのような実装形態は、音声信号S40のスペクトルを平滑化することによって第1の平滑化信号を計算し、第1の平滑化信号を平滑化することによって第2の平滑化信号を計算し、第1の平滑化信号と第2の平滑化信号との間の比として強調ベクトルEV10を計算するように構成できる。図15〜図18にそれぞれ、音声信号S40の絶対値スペクトルの例、絶対値スペクトルの平滑化バージョンの例、絶対値スペクトルの二重平滑化バージョンの例、および二重平滑化スペクトルに対する平滑化スペクトルの比の例を示す。
図19Aに、第1のスペクトル平滑器SM10と第2のスペクトル平滑器SM20と比計算器RC10とを含む強調ベクトル発生器VG100の実装形態VG110のブロック図を示す。スペクトル平滑器SM10は、第1の平滑化信号MS10を生成するために音声信号S40のスペクトルを平滑化するように構成される。スペクトル平滑器SM10は、重み付けされた平均化フィルタ(たとえば、三角フィルタ)などの平滑化フィルタとして実装できる。平滑化フィルタの長さは、スペクトルピークの推定された帯域幅に基づくことができる。たとえば、平滑化フィルタが、推定されたピーク帯域幅の2倍未満の期間を有する周波数を減衰させることが望ましい。典型的な平滑化フィルタ長は、3、5、7、9、11、13、および15個のタップを含む。
スペクトル平滑器SM20は、第2の平滑化信号MS20を生成するために第1の平滑化信号MS10を平滑化するように構成される。スペクトル平滑器SM20は、一般に、スペクトル平滑器SM10と同じ平滑化演算を実行するように構成される。しかしながら、異なる平滑化演算を実行するように(たとえば、異なるフィルタ形状および/またはフィルタ長を使用するように)スペクトル平滑器SM10およびSM20を実装することも可能である。スペクトル平滑器SM10およびSM20は、異なる構造(たとえば、異なる回路またはソフトウェアモジュール)として、または、異なる時間における同じ構造(たとえば、時間とともに一連の異なるタスクを実行するように構成された計算回路またはプロセッサ)として実装できる。比計算器RC10は、強調ベクトルEV10のインスタンスEV12を生成するために、信号MS10と信号MS20との間の比(すなわち、信号MS10の対応値と信号MS20の対応値との間の一連の比)を計算するように構成される。一例では、比計算器RC10は、各比の値を2つの対数値の差として計算するように構成される。
図20に、スペクトル平滑器MS10の15タップ三角フィルタ実装形態によって図13の絶対値スペクトルから生成された平滑化信号MS10の例を示す。図21に、スペクトル平滑器MS20の15タップ三角フィルタ実装形態によって図20の平滑化信号MS10から生成された平滑化信号MS20の例を示し、図22に、図20の平滑化信号MS10と図21の平滑化信号MS20との比である強調ベクトルEV12のフレームの例を示す。
上述のように、強調ベクトル発生器VG100は、音声信号S40をスペクトル信号として(すなわち、周波数領域において)処理するように構成できる。音声信号S40の周波数領域インスタンスがさもなければ利用可能でない、装置A100の実装形態では、強調ベクトル発生器VG100のそのような実装形態は、音声信号S40の時間領域インスタンスに対して変換演算(たとえば、FFT)を実行するように構成された変換モジュールTR10のインスタンスを含むことができる。そのような場合、強調サブバンド信号発生器EG100は、周波数領域において強調ベクトルEV10を処理するように構成でき、または強調ベクトル発生器VG100は、強調ベクトルEV10に対して逆変換演算(たとえば、逆FFT)を実行するように構成された逆変換モジュールTR20のインスタンスを含むこともできる。
線形予測分析を使用して、音声信号のフレーム中の話者の声道の共振をモデル化する全極型フィルタのパラメータを計算することができる。強調ベクトル発生器VG100のさらなる一例は、音声信号S40の線形予測分析の結果に基づいて強調ベクトルEV10を発生するように構成される。強調ベクトル発生器VG100のそのような実装形態は、(たとえば、フレームのフィルタ係数または反射係数などの線形予測コーディング(LPC)係数のセットから判断される)対応する全極型フィルタの極に基づいて、音声信号S40の各有声フレームの1つまたは複数(たとえば、2、3、4、または5つ)のホルマントを追跡するように構成できる。強調ベクトル発生器VG100のそのような実装形態は、ホルマントの中心周波数において音声信号S40にバンドパスフィルタを適用することよって、あるいはホルマントの中心周波数を含んでいる(たとえば、本明細書で論じるように、均一または不均一サブバンド分割方式を使用して定義される)音声信号S40のサブバンドをブースティングすることよって、強調ベクトルEV10を生成するように構成できる。
強調ベクトル発生器VG100はまた、上述のように強調ベクトル発生演算の上流の音声信号S40に対して1つまたは複数の前処理演算を実行するように構成された事前強調処理モジュールPM10を含むように実装できる。図19Bに、強調ベクトル発生器VG110のそのような実装形態VG120のブロック図を示す。一例では、事前強調処理モジュールPM10は、音声信号S40に対してダイナミックレンジ制御演算(たとえば、圧縮および/または伸張)を実行するように構成される。ダイナミックレンジ圧縮演算(「ソフトリミッティング」演算とも呼ばれる)は、1よりも大きい入出力比に従って、しきい値を超える入力レベルを、より小さい量だけしきい値を超える出力値にマッピングする。図23Aの鎖線は、固定入力対出力比のそのような伝達関数の例を示し、図23Aの実線は、入力レベルとともに増加する、入出力比のそのような伝達関数の例を示す。図23Bは、三角波形への、図23Aの実線に従ったダイナミックレンジ圧縮演算の適用例を示し、点線は入力波形を示し、実線は圧縮波形を示す。
図24Aに、低周波数において1未満であり、入力レベルとともに増加する入出力比に従って、しきい値を下回る入力レベルをより高い出力レベルにマッピングする、ダイナミックレンジ圧縮演算のための伝達関数の例を示す。図24Bに、三角波形へのそのような演算の適用例を示し、点線は入力波形を示し、実線は圧縮波形を示す。
図23Bおよび図24Bの例に示すように、事前強調処理モジュールPM10は、(たとえば、FFT演算の上流の)時間領域において音声信号S40に対してダイナミックレンジ制御演算を実行するように構成できる。代替的に、事前強調処理モジュールPM10は、音声信号S40のスペクトルに対して(すなわち、周波数領域において)ダイナミックレンジ制御演算を実行するように構成できる。
代替または追加として、事前強調処理モジュールPM10は、強調ベクトル発生演算の上流の音声信号S40に対して適応等化演算を実行するように構成できる。この場合、事前強調処理モジュールPM10は、雑音基準S30のスペクトルを音声信号S40のスペクトルに追加するように構成される。図25は、そのような演算の例を示し、実線は等化の前の音声信号S40のフレームのスペクトルを示し、点線は雑音基準S30の対応するフレームのスペクトルを示し、破線は等化後の音声信号S40のスペクトルを示す。この例では、等化の前には、音声信号S40の高周波成分は雑音によって覆い隠されており、等化演算がこれらの成分を適応的にブースティングし、了解度を高めることが予想されるということがわかる。事前強調処理モジュールPM10は、完全FFT分解能において、または本明細書で説明する音声信号S40の周波数サブバンドのセットの各々に対して、そのような適応等化演算を実行するように構成できる。
SSPフィルタSS10が音声信号から雑音を分離するようにすでに動作しているので、装置A110が音源信号S20に対して適応等化演算を実行する必要がない場合があることに明確に留意されたい。しかしながら、そのような演算は、(たとえば、分離評価器EV10に関して後述するように)音源信号S20と雑音基準S30との間の分離が不十分であるフレームにとってそのような装置において有用になることがある。
図25の例に示すように、音声信号は下向きのスペクトル傾斜を有する傾向があり、信号パワーはより高い周波数においてロールオフする。雑音基準S30のスペクトルは音声信号S40のスペクトルよりもフラットである傾向があるので、適応等化演算は、この下向きのスペクトル傾斜を低減する傾向がある。
傾斜低減された信号を得るために音声信号S40に対して事前強調処理モジュールPM10によって実行できる傾斜低減前処理演算の別の例はプリエンファシスである。典型的な実装形態では、事前強調処理モジュールPM10は、αが0.9〜1.0の範囲内の値を有する形式1−αz−1の1次高域フィルタを適用することによって、音声信号S40に対してプリエンファシス演算を実行するように構成される。そのようなフィルタは、一般に、オクターブ当たり約6dBだけ高周波成分をブースティングするように構成される。傾斜低減演算はまた、スペクトルピークの絶対値間の差を低減することができる。たとえば、そのような演算は、より低い周波数の第1のホルマントの振幅に対して、より高い周波数の第2および第3のホルマントの振幅を増加させることによって、音声信号を等化することができる。傾斜低減演算の別の例では、利得係数の値が周波数とともに増加し、雑音基準S30に依存しない利得係数を、音声信号S40のスペクトルに適用する。
エンハンサEN10aが、音声信号S40からの情報に基づいて第1の強調ベクトルEV10aを発生するように構成された強調ベクトル発生器VG100の実装形態VG100aを含み、エンハンサEN10bが、音源信号S20から情報に基づいて第2の強調ベクトルVG10bを発生するように構成された強調ベクトル発生器VG100の実装形態VG100bを含むように装置A120を実装することが望ましい。そのような場合、発生器VG100aは、発生器VG100bとは異なる強調ベクトル発生演算を実行するように構成できる。一例では、発生器VG100aは、線形予測係数のセットから音声信号S40の1つまたは複数のホルマントを追跡することによって強調ベクトルVG10aを発生するように構成され、発生器VG100bは、音源信号S20の平滑化されたスペクトルの比を計算することによって強調ベクトルVG10bを発生するように構成される。
雑音サブバンド信号発生器NG100、音声サブバンド信号発生器SG100、および強調サブバンド信号発生器EG100のいずれかまたはすべては、図26Aに示すようにサブバンド信号発生器SG200のそれぞれのインスタンスとして実装できる。サブバンド信号発生器SG200は、信号A(すなわち、適宜に雑音基準S30、音声信号S40、または強調ベクトルEV10)からの情報に基づいてq個のサブバンド信号S(i)のセットを生成するように構成され、1≦i≦qであり、qはサブバンドの所望の数(たとえば、4、7、8、12、16、24)である。この場合、サブバンド信号発生器SG200は、信号Aの対応するサブバンドに、信号Aの他のサブバンドとは異なる利得を適用する(すなわち、通過帯域をブースティングすること、および/または停止帯域を減衰させる)ことによって、サブバンド信号S(1)〜S(q)の各々を生成するように構成されたサブバンドフィルタアレイSG10を含む。
サブバンドフィルタアレイSG10は、様々なサブバンド信号を並列に生成するように構成された2つ以上の成分フィルタを含むように実装できる。図28に、信号Aのサブバンド分解を実行するように並列に構成されたq個のバンドパスフィルタF10−1〜F10−qのアレイを含む、サブバンドフィルタアレイSG10のそのような実装形態SG12のブロック図を示す。フィルタF10−1〜F10−qの各々は、信号Aをフィルタ処理して、q個のサブバンド信号S(1)〜S(q)のうちの対応する1つを生成するように構成される。
フィルタF10−1〜F10−qの各々を、有限インパルス応答(FIR)または無限インパルス応答(IIR)を有するように実装することができる。一例では、サブバンドフィルタアレイSG12はウェーブレットまたはポリフェーズ分析フィルタバンクとして実装される。別の例では、フィルタF10−1〜F10−qの1つまたは複数(場合によってはすべて)の各々は2次IIRセクションまたは「バイカッド(biquad)」として実装される。バイカッドの伝達関数を次のように表すことができる。
Figure 0005628152
特にエンハンサEN10の浮動小数点実装形態の場合、転置直接形IIを使用して各バイカッドを実装することが望ましい。図29Aに、フィルタF10−1〜F10−qのうちの1つの一般的IIRフィルタ実装形態の転置直接形IIを示し、図29Bに、フィルタF10−1〜F10−qのうちの1つのF10−iのバイカッド実装形態の転置直接形II構造を示す。図30に、フィルタF10−1〜F10−qのうちの1つのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す。
フィルタF10−1〜F10−qは、(たとえば、フィルタ通過帯域が等しい幅を有するように)均一サブバンド分解を実行するのではなく、(たとえば、フィルタ通過帯域の2つ以上が様々な幅を有するように)信号Aの不均一サブバンド分解を実行することが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。1つのそのような分割方式は、周波数20、300、630、1080、1720、2700、4400、および7700Hzに対応し、その幅が周波数とともに増加する7つのバーク尺度サブバンドのセットのエッジを示す、図27のドットによって示される。サブバンドのそのような構成は、広帯域音声処理システム(たとえば、16kHzのサンプリングレートを有するデバイス)において使用できる。そのような分割方式の他の例では、最も低いサブバンドは6サブバンド方式を得るために省略され、および/または最も高いサブバンドの上限は7700Hzから8000Hzに増加される。
狭帯域音声処理システム(たとえば、8kHzのサンプリングレートを有するデバイス)では、より少数のサブバンドの構成を使用することが望ましい。そのようなサブバンド分割方式の一例は、4帯域擬似バーク方式300〜510Hz、510〜920Hz、920〜1480Hz、および1480〜4000Hzである。(たとえば、本例のように)広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および/またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。
フィルタF10−1〜F10−qの各々は、対応するサブバンドにわたる利得ブースト(すなわち、信号絶対値の増加)および/または他のサブバンドにわたる減衰(すなわち、信号絶対値の減少)を与えるように構成される。フィルタの各々は、そのそれぞれの通過帯域をほぼ同じ量(たとえば、3dB、または6dB)だけブースティングするように構成できる。代替的に、フィルタの各々は、そのそれぞれの停止帯域をほぼ同じ量(たとえば、3dB、または6dB)だけ減衰させるように構成できる。図31に、qが7に等しいフィルタF10−1〜F10−qのセットを実装するために使用できる一連の7つのバイカッドの絶対値および位相応答を示す。この例では、各フィルタは、そのそれぞれのサブバンドをほぼ同じ量だけブースティングするように構成される。各フィルタが同じピーク応答を有し、フィルタの帯域幅が周波数とともに増加するように、フィルタF10−1〜F10−qを構成することが望ましい。
代替的に、別のフィルタよりも大きいブースト(または減衰)を与えるように、フィルタF10−1〜F10−qのうちの1つまたは複数を構成することが望ましい。たとえば、そのそれぞれのサブバンドに同じ利得ブースト(または他のサブバンドに減衰)を与えるように、雑音サブバンド信号発生器NG100、音声サブバンド信号発生器SG100、および強調サブバンド信号発生器EG100の中の1つにおけるサブバンドフィルタアレイSG10のフィルタF10−1〜F10−qの各々を構成し、たとえば、所望の聴覚心理重み付け関数に従って互いに異なる利得ブースト(または減衰)を与えるように、雑音サブバンド信号発生器NG100、音声サブバンド信号発生器SG100、および強調サブバンド信号発生器EG100の中の別のものにおけるサブバンドフィルタアレイSG10のフィルタF10−1〜F10−qの少なくともいくつかを構成することが望ましい。
図28は、フィルタF10−1〜F10−qがサブバンド信号S(1)〜S(q)を並列に生成する構成を示す。当業者は、これらのフィルタのうちの1つまたは複数の各々が、サブバンド信号の2つ以上を直列に生成するようにも実装できることを理解されよう。たとえば、サブバンドフィルタアレイSG10は、ある時間において、サブバンド信号S(1)〜S(q)のうちの1つを生成するためにフィルタ信号Aに対するフィルタ係数値の第1のセットとともに構成され、後続の時間において、サブバンド信号S(1)〜S(q)のうちの異なる1つを生成するためにフィルタ信号Aに対するフィルタ係数値の第2のセットとともに構成されるフィルタ構造(たとえば、バイカッド)を含むように実装できる。そのような場合、サブバンドフィルタアレイSG10は、q個よりも少ないバンドパスフィルタを使用して実装できる。たとえば、フィルタ係数値のq個のセットの各々に従ってq個のサブバンド信号S(1)〜S(q)の各々を生成する方法で、直列に再構成された単一のフィルタ構造とともにサブバンドフィルタアレイSG10を実装することが可能である。
代替または追加として、雑音サブバンド信号発生器NG100、音声サブバンド信号発生器SG100、および強調サブバンド信号発生器EG100のいずれかまたはすべては、図26Bに示すようにサブバンド信号発生器SG300のインスタンスとして実装できる。サブバンド信号発生器SG300は、信号A(すなわち、適宜に雑音基準S30、音声信号S40、または強調ベクトルEV10)からの情報に基づいてq個のサブバンド信号S(i)のセットを生成するように構成され、1≦i≦qであり、qはサブバンドの所望の数である。サブバンド信号発生器SG300は、変換された信号Tを生成するために信号Aに対して変換演算を実行するように構成された変換モジュールSG20を含む。変換モジュールSG20は、周波数領域変換された信号を生成するために(たとえば、高速フーリエ変換またはFFTによって)信号Aに対して周波数領域変換演算を実行するように構成できる。変換モジュールSG20の他の実装形態は、ウェーブレット変換演算または離散コサイン変換(DCT)演算など、信号Aに対して異なる変換演算を実行するように構成できる。変換演算は、所望の均一分解能(たとえば、32、64、128、256、または512ポイントのFFT演算)に従って実行できる。
サブバンド信号発生器SG300はまた、所望のサブバンド分割方式に従って、変換された信号Tをビンのセットに分割することによって、サブバンド信号S(i)のセットをq個のビンのセットとして生成するように構成されたビニングモジュールSG30を含む。ビニングモジュールSG30は、均一サブバンド分割方式を適用するように構成できる。均一サブバンド分割方式では、各ビンは(たとえば、約10パーセント内の)実質的に同じ幅を有する。代替的に、聴覚心理研究が人間の聴覚は周波数領域において不均一分解能に基づいて働くことを示しているように、ビニングモジュールSG30が不均一サブバンド分割方式を適用することが望ましい。不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。図27のドットの行は、周波数20、300、630、1080、1720、2700、4400、および7700Hzに対応する7つのバーク尺度サブバンドのセットのエッジを示す。サブバンドのそのような構成は、16kHzのサンプリングレートを有する広帯域音声処理システムにおいて使用できる。そのような分割方式の他の例では、より低いサブバンドは、6サブバンド構成を得るために除外され、および/または高周波限界は7700Hzから8000Hzに増加される。ビニングモジュールSG30は、ビンの1つまたは複数(場合によってはすべて)が少なくとも1つの隣接ビンに重複するようにも実装できるが、一般に、変換された信号Tを重複しないビンのセットに分割するように実装される。
上記のサブバンド信号発生器SG200およびSG300の説明は、信号発生器が信号Aを時間領域信号として受信すると仮定している。代替的に、雑音サブバンド信号発生器NG100、音声サブバンド信号発生器SG100、および強調サブバンド信号発生器EG100のいずれかまたはすべては、図26Cに示すようにサブバンド信号発生器SG400のインスタンスとして実装できる。サブバンド信号発生器SG400は、信号A(すなわち、雑音基準S30、音声信号S40、または強調ベクトルEV10)を変換領域信号として受信し、信号Aからの情報に基づいてq個のサブバンド信号S(i)のセットを生成するように構成される。たとえば、サブバンド信号発生器SG400は、信号Aを周波数領域信号として、あるいはウェーブレット変換、DCT、または他の変換領域中の信号として受信するように構成できる。この例では、サブバンド信号発生器SG400は、上述のようにビニングモジュールSG30のインスタンスとして実装される。
雑音サブバンドパワー推定値計算器NP100と強調サブバンドパワー推定値計算器EP100のいずれかまたは両方は、図26Dに示すようにサブバンドパワー推定値計算器EC110のインスタンスとして実装できる。サブバンドパワー推定値計算器EC110は、サブバンド信号S(i)のセットを受信し、1≦i≦qであるq個のサブバンドパワー推定値E(i)の対応するセットを生成するように構成された加算器EC10を含む。加算器EC10は、一般に、信号A(すなわち、適宜に雑音基準S30または強調ベクトルEV10)の連続するサンプル(「フレーム」とも呼ばれる)の各ブロックのq個のサブバンドパワー推定値のセットを計算するように構成される。典型的なフレーム長は、約5または10ミリ秒から約40または50ミリ秒にわたり、フレームは重複していても重複していなくてもよい。1つの演算によって処理されるフレームは、異なる演算によって処理されるより大きいフレームのセグメント(すなわち、「サブフレーム」)とすることもできる。1つの特定の例では、信号Aは、10ミリ秒の重複しないフレームのシーケンスに分割され、加算器EC10は、信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成される。
一例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の平方和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従って信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
Figure 0005628152
上式で、E(i,k)は、サブバンドiおよびフレームkのサブバンドパワー推定値を示し、S(i,j)は、i番目のサブバンド信号のj番目のサンプルを示す。
別の例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の絶対値の和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従って信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
Figure 0005628152
信号Aの対応する和によって各サブバンド和を正規化するように加算器EC10を実装することが望ましい。1つのそのような例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、信号Aの値の平方和で除算された、サブバンド信号S(i)のうちの対応する1つの値の平方和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従って信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
Figure 0005628152
上式で、A(j)は、信号Aのj番目のサンプルを示す。別のそのような例では、加算器EC10は、サブバンドパワー推定値の各々を、信号Aの値の絶対値の和で除算された、サブバンド信号S(i)のうちの対応する1つの値の絶対値の和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
Figure 0005628152
代替的に、サブバンド信号S(i)のセットがビニングモジュールSG30の実装形態によって生成される場合、加算器EC10が、サブバンド信号S(i)のうちの対応する1つにおけるサンプルの総数によって各サブバンド和を正規化することが望ましい。(たとえば、上記の式(4a)および(4b)のように)各サブバンド和を正規化するために除算演算が使用される場合、0によって除算する可能性を回避するために、小さい0でない(たとえば、正数)値ζを分母に追加することが望ましい。値ζはすべてのサブバンドに対して同じとすることができ、または(たとえば、チューニングおよび/または重み付けのために)サブバンドの2つ以上(場合によってはすべて)の各々のために異なる値のζを使用することができる。ζの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。
代替的に、信号Aの対応する和を減算することによって各サブバンド和を正規化するように加算器EC10を実装することが望ましい。1つのそのような例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の平方和と信号Aの値の平方和との差として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従って信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
Figure 0005628152
別のそのような例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の絶対値の和と信号Aの値の絶対値の和との差として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従って信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
Figure 0005628152
たとえば、雑音サブバンド信号発生器NG100をサブバンドフィルタアレイSG10のブースティング実装形態として実装し、雑音サブバンドパワー推定値計算器NP100を、式(5b)に従ってq個のサブバンドパワー推定値のセットを計算するように構成された加算器EC10の実装形態として実装することが望ましい。代替または追加として、強調サブバンド信号発生器EG100をサブバンドフィルタアレイSG10のブースティング実装形態として実装し、強調サブバンドパワー推定値計算器EP100を、式(5b)に従ってq個のサブバンドパワー推定値のセットを計算するように構成された加算器EC10の実装形態として実装することが望ましい。
雑音サブバンドパワー推定値計算器NP100と強調サブバンドパワー推定値計算器EP100のいずれかまたは両方は、サブバンドパワー推定値に対して時間平滑化演算を実行するように構成できる。たとえば、雑音サブバンドパワー推定値計算器NP100と強調サブバンドパワー推定値計算器EP100のいずれかまたは両方は、図26Eに示すようにサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。サブバンドパワー推定値計算器EC120は、サブバンドパワー推定値E(i)を生成するために、経時的に加算器EC10によって計算される和を平滑化するように構成された平滑器EC20を含む。平滑器EC20は、サブバンドパワー推定値E(i)を和の移動平均として計算するように構成できる。平滑器EC20のそのような実装形態は、1≦i≦qの場合、次式のうちの1つなどの線形平滑化式に従って信号Aの各フレームのq個のサブバンドパワー推定値E(i)のセットを計算するように構成できる。
Figure 0005628152
上式で、平滑化係数αは、0(平滑化なし)から1(最大平滑化、更新なし)の範囲内の値(たとえば、0.3、0.5、0.7、0.9、0.99、または0.999)である。平滑器EC20が、q個のサブバンドのすべてに対して平滑化係数αの同じ値を使用することが望ましい。代替的に、平滑器EC20が、q個のサブバンドの2つ以上(場合によってはすべて)の各々に対して平滑化係数αの異なる値を使用することが望ましい。平滑化係数αの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。
サブバンドパワー推定値計算器EC120の1つの特定の例は、上記の式(3)に従ってq個のサブバンド和を計算し、上記の式(7)に従ってq個の対応するサブバンドパワー推定値を計算するように構成される。サブバンドパワー推定値計算器EC120の別の特定の例は、上記の式(5b)に従ってq個のサブバンド和を計算し、上記の式(7)に従ってq個の対応するサブバンドパワー推定値を計算するように構成される。しかしながら、式(2)〜(5b)のうちの1つと式(6)〜(8)のうちの1つとの18の可能な組合せのすべては、本明細書によって個々に明確に開示されることに留意されたい。平滑器EC20の代替実装形態は、加算器EC10によって計算される和に対して非線形平滑化演算を実行するように構成できる。
上述のサブバンドパワー推定値計算器EC110の実装形態が、サブバンド信号S(i)のセットを、時間領域信号として、または変換領域中の信号(たとえば、周波数領域信号)として受信するように構成できることに明確に留意されたい。
利得制御要素CE100は、コントラスト強調音声信号SC10を生成するために、複数のサブバンド利得係数の各々を音声信号S40の対応するサブバンドに適用するように構成される。エンハンサEN10は、利得制御要素CE100が、強調サブバンドパワー推定値を複数の利得係数として受信するように構成されるように実装できる。代替的に、利得制御要素CE100は、(たとえば、図12に示すように)サブバンド利得係数計算器FC100から複数の利得係数を受信するように構成できる。
サブバンド利得係数計算器FC100は、対応する強調サブバンドパワー推定値からの情報に基づいて、1≦i≦qであるq個のサブバンドの各々の利得係数G(i)のセットのうちの対応する1つを計算するように構成される。計算器FC100は、(たとえば、G(i)=max(LL,E(i))および/またはG(i)=min(UL,E(i))などの式に従って)対応する強調サブバンドパワー推定値E(i)に上限ULおよび/または下限LLを適用することによって、サブバンド利得係数のうちの1つまたは複数(場合によってはすべて)の各々を計算するように構成できる。追加または代替として、計算器FC100は、対応する強調サブバンドパワー推定値を正規化することによって、サブバンド利得係数のうちの1つまたは複数(場合によってはすべて)の各々を計算するように構成できる。たとえば、計算器FC100のそのような実装形態は、次式などの式に従って各サブバンド利得係数G(i)を計算するように構成できる。
Figure 0005628152
追加または代替として、計算器FC100は、各サブバンド利得係数に対して時間平滑化演算を実行するように構成できる。
サブバンドの重複から生じることがある過大なブースティングを補償するようにエンハンサEN10を構成することが望ましい。たとえば、利得係数計算器FC100は、中間周波数利得係数のうちの1つまたは複数の値を低減するように構成できる(たとえば、fsが音声信号S40のサンプリング周波数を示す周波数fs/4を含むサブバンド)。利得係数計算器FC100のそのような実装形態は、利得係数の現在値に、1未満の値を有するスケール係数を乗算することによって低減を実行するように構成できる。利得係数計算器FC100のそのような実装形態は、スケールダウンすべき各利得係数に対して同じスケール係数を使用するか、または代替的に、(たとえば、対応するサブバンドと1つまたは複数の隣接するサブバンドとの重複の程度に基づいて)スケールダウンすべき各利得係数に対して異なるスケール係数を使用するように構成できる。
追加または代替として、高周波サブバンドの1つまたは複数のブースティングの程度を増加させるようにエンハンサEN10を構成することが望ましい。たとえば、音声信号S40の1つまたは複数の高周波サブバンド(たとえば、最も高いサブバンド)の増幅が、中間周波数サブバンド(たとえば、fsが音声信号S40のサンプリング周波数を示す周波数fs/4を含むサブバンド)の増幅よりも小さくならないように利得係数計算器FC100を構成することが望ましい。利得係数計算器FC100は、中間周波数サブバンドの利得係数の現在値に、1よりも大きいスケール係数を乗算することによって高周波サブバンドの利得係数の現在値を計算するように構成できる。別の例では、利得係数計算器FC100は、(A)本明細書で開示する技法のいずれかに従って、そのサブバンドの雑音パワー推定値に基づいて計算される現在の利得係数値と、(B)中間周波数サブバンドの利得係数の現在値に、1よりも大きいスケール係数を乗算することによって得られる値とのうちの最大値として高周波サブバンドの利得係数の現在値を計算するように構成される。代替または追加として、利得係数計算器FC100は、1つまたは複数の高周波サブバンドの利得係数を計算する際に、上限UBにより高い値を使用するように構成できる。
利得制御要素CE100は、コントラスト強調音声信号SC10を生成するために、利得係数の各々を音声信号S40の対応するサブバンドに適用する(たとえば、利得係数のベクトルとして利得係数を音声信号S40に適用する)ように構成される。利得制御要素CE100は、たとえば、音声信号S40のフレームの周波数領域サブバンドの各々に、対応する利得係数G(i)を乗算することによって、コントラスト強調音声信号SC10の周波数領域バージョンを生成するように構成できる。利得制御要素CE100の他の例は、(たとえば、利得係数を合成フィルタバンクのそれぞれのフィルタに適用することによって)利得係数を音声信号S40の対応するサブバンドに適用するためにオーバーラップ加算またはオーバーラップ保存方法を使用するように構成される。
利得制御要素CE100は、コントラスト強調音声信号SC10の時間領域バージョンを生成するように構成できる。たとえば、利得制御要素CE100は、サブバンド利得制御要素の各々がサブバンド信号S(1)〜S(q)の各々に利得係数G(1)〜G(q)の各々を適用するように構成されたサブバンド利得制御要素G20−1〜G20−q(たとえば、乗算器または増幅器)のアレイを含むことができる。
サブバンド混合係数計算器FC200は、対応する雑音サブバンドパワー推定値からの情報に基づいて、1≦i≦qであるq個のサブバンドの各々の混合係数M(i)のセットのうちの対応する1つを計算するように構成される。図33Aに、各混合係数M(i)を対応するサブバンドの雑音レベルηの指示として計算するように構成された混合係数計算器FC200の実装形態FC250のブロック図を示す。混合係数計算器FC250は、各雑音レベル指示が雑音基準S30の対応するサブバンドにおける相対雑音レベルを示すように、雑音サブバンドパワー推定値の対応するセットに基づいて音声信号の各フレームkの雑音レベル指示η(i,k)のセットを計算するように構成された雑音レベル指示計算器NL10を含む。雑音レベル指示計算器NL10は、0〜1などのある範囲にわたる値を有するように、雑音レベル指示の各々を計算するように構成できる。たとえば、雑音レベル指示計算器NL10は、次式などの式に従ってq個の雑音レベル指示のセットの各々を計算するように構成できる。
Figure 0005628152
上式で、E(i,k)は、サブバンドiおよびフレームkの雑音サブバンドパワー推定値計算器NP100によって(すなわち、雑音基準S20に基づいて)生成されるサブバンドパワー推定値を示し、η(i,k)は、サブバンドiおよびフレームkの雑音レベル指示を示し、ηminおよびηmaxはそれぞれ、η(i,k)の最小値および最大値を示す。
雑音レベル指示計算器NL10のそのような実装形態は、q個のサブバンドのすべてに対してηminおよびηmaxの同じ値を使用するように構成でき、または代替的に、1つのサブバンドに対して別のサブバンドとは異なるηminおよび/またはηmaxの値を使用するように構成できる。これらの限界の各々の値は固定とすることができる。代替的に、これらの限界のいずれかまたは両方の値は、たとえば、エンハンサEN10のための所望のヘッドルームおよび/または処理済み音声信号S50の現在のボリューム(たとえば、オーディオ出力段O10に関して以下で説明するボリューム制御信号VS10の現在値)に従って適応させることができる。代替または追加として、これらの限界のいずれかまたは両方の値は、音声信号S40の現在のレベルなど、音声信号S40からの情報に基づくことができる。別の例では、雑音レベル指示計算器NL10は、次式などの式に従ってサブバンドパワー推定値を正規化することによってq個の雑音レベル指示のセットの各々を計算するように構成される。
Figure 0005628152
混合係数計算器FC200はまた、混合係数M(i)のうちの1つまたは複数(場合によってはすべて)の各々に対して平滑化演算を実行するように構成できる。図33Bに、雑音レベル指示計算器NL10によって生成されるq個の雑音レベル指示のうちの1つまたは複数(場合によってはすべて)の各々に対して時間平滑化演算を実行するように構成された平滑器GC20を含む混合係数計算器FC250のそのような実装形態FC260のブロック図を示す。一例では、平滑器GC20は、次式などの式に従ってq個の雑音レベル指示の各々に対して線形平滑化演算を実行するように構成される。
Figure 0005628152
上式で、βは平滑化係数である。この例では、平滑化係数βは、0(平滑化なし)から1(最大平滑化、更新なし)の範囲内の値(たとえば、0.3、0.5、0.7、0.9、0.99、または0.999)を有する。
平滑器GC20が、混合係数の現在値と前の値との間の関係に応じて、平滑化係数βの2つ以上の値の中から1つを選択することが望ましい。たとえば、平滑器GC20が、雑音の程度が増加しているとき、混合係数値がより急速に変化できるようにすることによって、および/または雑音の程度が減少しているとき、混合係数値の急速な変化を抑止することによって微分時間平滑化演算を実行することが望ましい。そのような構成は、大きい雑音が、雑音が終了した後でも所望の音響をマスキングし続ける聴覚心理継時マスキング効果に対処するのを助けることができる。したがって、雑音レベル指示の現在値が前の値よりも大きい場合の平滑化係数βの値に比較して、雑音レベル指示の現在値が前の値よりも小さい場合の平滑化係数βが大きいことが望ましい。1つのそのような例では、平滑器GC20は、1≦i≦qの場合、次式などの式に従ってq個の雑音レベル指示の各々に対して線形平滑化演算を実行するように構成される。
Figure 0005628152
上式で、βattは平滑化係数βのアタック値を示し、βdecは平滑化係数βの減衰値を示し、βatt<βdecである。平滑器EC20の別の実装形態は、次式のうちの1つなどの線形平滑化式に従ってq個の雑音レベル指示の各々に対して線形平滑化演算を実行するように構成される。
Figure 0005628152
平滑器GC20のさらなる実装形態は、雑音の程度が減少しているとき、q個の混合係数のうちの1つまたは複数(場合によってはすべて)に対して更新を遅延させるように構成できる。たとえば、平滑器CG20は、たとえば、1または2から5、6、または8の範囲内とすることができる値hangover_max(i)によって指定された間隔に従って、比減衰プロファイル中に更新を遅延させるハングオーバ論理を含むように実装できる。各サブバンドにhangover_maxの同じ値を使用することも、異なるサブバンドにhangover_maxの異なる値を使用することもできる。
ミキサX100は、混合係数と音声信号S40とコントラスト強調信号SC10とからの情報に基づいて処理済み音声信号S50を生成するように構成される。たとえば、エンハンサEN100は、1≦i≦qの場合、P(i,k)=M(i,k)C(i,k)+(1−M(i,k))S(i,k)などの式に従って、音声信号S40とコントラスト強調信号SC10との対応する周波数領域サブバンドを混合することによって処理済み音声信号S50の周波数領域バージョンを生成するように構成されたミキサX100の実装形態を含むことができ、P(i,k)はP(k)のサブバンドiを示し、C(i,k)はコントラスト強調信号SC10のサブバンドiおよびフレームkを示し、S(i,k)は音声信号S40のサブバンドiおよびフレームkを示す。代替的に、エンハンサEN100は、
Figure 0005628152
などの式に従って、音声信号S40とコントラスト強調信号SC10との対応する時間領域サブバンドを混合することによって処理済み音声信号S50の時間領域バージョンを生成するように構成されたミキサX100の実装形態を含むことができ、1≦i≦qの場合、P(i,k)=M(i,k)C(i,k)+(1−M(i,k))S(i,k)であり、p(k)は処理済み音声信号S50のフレームkを示し、P(i,k)はP(k)のサブバンドiを示し、C(i,k)はコントラスト強調信号SC10のサブバンドiおよびフレームkを示し、S(i,k)は音声信号S40のサブバンドiおよびフレームkを示す。
固定または適応周波数プロファイルなどの追加情報に基づいて処理済み音声信号S50を生成するようにミキサX100を構成することが望ましい。たとえば、マイクロフォンまたはスピーカーの周波数応答を補償するために、そのような周波数プロファイルを適用することが望ましい。代替的に、ユーザ選択等化プロファイルを記述する周波数プロファイルを適用することが望ましい。そのような場合、ミキサX100は、
Figure 0005628152
などの式に従って処理済み音声信号S50を生成するように構成でき、値wは所望の周波数重み付けプロファイルを定義する。
図32に、スペクトルコントラストエンハンサEN10の実装形態EN110のブロック図を示す。エンハンサEN110は、音声信号S40からの情報に基づいて音声サブバンド信号のセットを生成するように構成された音声サブバンド信号発生器SG100を含む。上記のように、音声サブバンド信号発生器SG100は、たとえば、図26Aに示すようにサブバンド信号発生器SG200のインスタンスとして、図26Bに示すようにサブバンド信号発生器SG300のインスタンスとして、または図26Cに示すようにサブバンド信号発生器SG400のインスタンスとして実装できる。
エンハンサEN110はまた、各々が音声サブバンド信号のうちの対応する1つからの情報に基づく音声サブバンドパワー推定値のセットを生成するように構成された音声サブバンドパワー推定値計算器SP100を含む。音声サブバンドパワー推定値計算器SP100は、図26Dに示すようにサブバンドパワー推定値計算器EC110のインスタンスとして実装できる。たとえば、音声サブバンド信号発生器SG100をサブバンドフィルタアレイSG10のブースティング実装形態として実装し、音声サブバンドパワー推定値計算器SP100を、式(5b)に従ってq個のサブバンドパワー推定値のセットを計算するように構成された加算器EC10の実装形態として実装することが望ましい。追加または代替として、音声サブバンドパワー推定値計算器SP100は、サブバンドパワー推定値に対して時間平滑化演算を実行するように構成できる。たとえば、音声サブバンドパワー推定値計算器SP100は、図26Eに示すようにサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。
エンハンサEN110はまた、対応する雑音サブバンドパワー推定値および対応する強調サブバンドパワー推定値からの情報に基づいて、音声サブバンド信号の各々について利得係数を計算するように構成されたサブバンド利得係数計算器FC100(およびサブバンド混合係数計算器FC200)の実装形態FC300と、処理済み音声信号S50を生成するために、利得係数の各々を音声信号S40の対応するサブバンドに適用するように構成された利得制御要素CE110とを含む。処理済み音声信号S50は、少なくとも、スペクトルコントラスト強調が使用可能にされ、強調ベクトルEV10が利得係数値のうちの少なくとも1つに寄与する場合、コントラスト強調音声信号とも呼ばれる場合があることに明確に留意されたい。
利得係数計算器FC300は、対応する雑音サブバンドパワー推定値および対応する強調サブバンドパワー推定値に基づいて、1≦i≦qであるq個のサブバンドの各々の利得係数G(i)のセットのうちの対応する1つを計算するように構成される。図33Cに、利得係数への対応する強調サブバンドパワー推定値の寄与度に重み付けするために、対応する雑音サブバンドパワー推定値を使用することによって各利得係数G(i)を計算するように構成された利得係数計算器FC300の実装形態FC310のブロック図を示す。
利得係数計算器FC310は、混合係数計算器FC200に関して上述したように雑音レベル指示計算器NL10のインスタンスを含む。利得係数計算器FC310はまた、音声信号の各フレームのq個のパワー比のセットの各々を、混合サブバンドパワー推定値と、対応する音声サブバンドパワー推定値E(i,k)との間の比として計算するように構成された比計算器GC10を含む。たとえば、利得係数計算器FC310は、次式などの式に従って音声信号の各フレームのq個のパワー比のセットの各々を計算するように構成できる。
Figure 0005628152
上式で、E(i,k)は、サブバンドiおよびフレームkの音声サブバンドパワー推定値計算器SP100によって(すなわち、音声信号S40に基づいて)生成されるサブバンドパワー推定値を示し、E(i,k)は、サブバンドiおよびフレームkの強調サブバンドパワー推定値計算器EP100によって(すなわち、強調ベクトルEV10に基づいて)生成されるサブバンドパワー推定値を示す。式(14)の分子は、音声サブバンドパワー推定値および対応する強調サブバンドパワー推定値の相対的寄与率が、対応する雑音レベル指示に従って重み付けされる混合サブバンドパワー推定値を表す。
さらなる一例では、比計算器GC10は、次式などの式に従って音声信号S40の各フレームのサブバンドパワー推定値のq個の比のセットのうちの少なくとも1つ(場合によってはすべて)を計算するように構成される。
Figure 0005628152
上式で、εは、小さい正値(すなわち、E(i,k)の期待値よりも小さい値)を有するチューニングパラメータである。比計算器GC10のそのような実装形態では、すべてのサブバンドにチューニングパラメータεの同じ値を使用することが望ましい。代替的に、比計算器GC10のそのような実装形態では、サブバンドの2つ以上ごと(場合によってはすべて)にチューニングパラメータεの異なる値を使用することが望ましい。チューニングパラメータεの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。チューニングパラメータεの使用は、比計算器GC10におけるゼロ除算エラーの可能性を回避するのに役立つ。
利得係数計算器FC310を、q個のパワー比のうちの1つまたは複数(場合によってはすべて)の各々に対して平滑化演算を実行するように構成することもできる。図33Dに、比計算器GC10によって生成されたq個のパワー比のうちの1つまたは複数(場合によってはすべて)の各々に対して時間平滑化演算を実行するように構成された平滑器GC20のインスタンスGC25を含む利得係数計算器FC310のそのような実装形態FC320のブロック図を示す。1つのそのような例では、平滑器GC25は、次式などの式に従ってq個のパワー比の各々に対して線形平滑化演算を実行するように構成される。
Figure 0005628152
上式で、βは平滑化係数である。この例では、平滑化係数βは、0(平滑化なし)から1(最大平滑化、更新なし)の範囲内の値(たとえば、0.3、0.5、0.7、0.9、0.99、または0.999)を有する。
平滑器GC25が、利得係数の現在値と前の値との間の関係に応じて、平滑化係数βの2つ以上の値の中から1つを選択することが望ましい。したがって、利得係数の現在値が前の値よりも大きい場合の平滑化係数βの値に比較して、利得係数の現在値が前の値よりも小さい場合の平滑化係数βの値が大きいことが望ましい。1つのそのような例では、平滑器GC25は、1≦i≦qの場合、次式などの式に従ってq個のパワー比の各々に対して線形平滑化演算を実行するように構成される。
Figure 0005628152
上式で、βattは平滑化係数βのアタック値を示し、βdecは平滑化係数βの減衰値を示し、βatt<βdecである。平滑器EC25の別の実装形態は、次式のうちの1つなど、線形平滑化式に従ってq個のパワー比の各々に対して線形平滑化演算を実行するように構成される。
Figure 0005628152
代替または追加として、(たとえば、式η(i,k)>η(i,k−1)の値による)雑音レベル指示間の関係に基づいてβの値の中から選択するために、式(17)〜(19)を実装することができる。
図34Aに、フレームkにおけるサブバンドiごとに実行することができる、上式(15)および(18)によるそのような平滑化の一例を記載する擬似コードリストを示す。このリストでは、雑音レベル指示の現在値が計算され、利得係数の現在値が、混合サブバンドパワー対元の音声サブバンドパワーの比に初期化される。この比が利得係数の前の値よりも小さい場合、利得係数の現在値は、1未満の値を有するスケール係数beta_decによって前の値を減じることによって計算される。他の場合は、利得係数の現在値は、0(平滑化なし)から1(最大平滑化、更新なし)の範囲内の値(たとえば、0.3、0.5、0.7、0.9、0.99、または0.999)を有する平均化係数beta_attを使用して、その比と利得係数の前の値の平均として計算される。
平滑器GC25のさらなる実装形態は、雑音の程度が低下しているとき、q個の利得係数のうちの1つまたは複数(場合によってはすべて)に対して更新を遅延させるように構成できる。図34Bに、そのような微分時間平滑化演算を実装するために使用できる図34Aの擬似コードリストの変形を示す。このリストは、たとえば、1または2から5、6または8の範囲内とすることができる値hangover_max(i)によって指定された間隔に従った比減衰プロファイル中に更新を遅延させるハングオーバ論理を含む。各サブバンドにhangover_maxの同じ値を使用することも、異なるサブバンドにhangover_maxの異なる値を使用することもできる。
本明細書で説明する利得係数計算器FC100またはFC300の実装形態は、利得係数のうちの1つまたは複数(場合によってはすべて)に対して上限および/または下限を適用するようにさらに構成できる。図35Aおよび図35Bに、利得係数値の各々に対してそのような上限UBおよび下限LBを適用するために使用できる、それぞれ図34Aおよび図34Bの擬似コードリストの修正を示す。これらの限界の各々の値は固定とすることができる。代替的に、これらの限界のいずれかまたは両方の値を、たとえば、エンハンサEN10のための所望のヘッドルームおよび/または処理済み音声信号S50の現在のボリューム(たとえば、ボリューム制御信号VS10の現在値)に従って適応させることができる。代替または追加として、これらの限界のいずれかまたは両方の値は、音声信号S40の現在のレベルなど、音声信号S40からの情報に基づくことができる。
利得制御要素CE110は、処理済み音声信号S50を生成するために、利得係数の各々を音声信号S40の対応するサブバンドに適用する(たとえば、利得係数のベクトルとして利得係数を音声信号S40に適用する)ように構成される。利得制御要素CE110は、たとえば、音声信号S40のフレームの周波数領域サブバンドの各々に、対応する利得係数G(i)を乗算することによって、処理済み音声信号S50の周波数領域バージョンを生成するように構成できる。利得制御要素CE110の他の例は、(たとえば、利得係数を合成フィルタバンクのそれぞれのフィルタに適用することによって)利得係数を音声信号S40の対応するサブバンドに適用するためにオーバーラップ加算またはオーバーラップ保存方法を使用するように構成される。
利得制御要素CE110は、処理済み音声信号S50の時間領域バージョンを生成するように構成できる。図36Aに、利得係数の各々を音声信号S40の対応する時間領域サブバンドに適用するように各々が構成されたバンドパスフィルタのアレイを有するサブバンドフィルタアレイFA100を含む、利得制御要素CE110のそのような実装形態CE115のブロック図を示す。そのようなアレイのフィルタは並列および/または直列に構成できる。一例では、アレイFA100はウェーブレットまたはポリフェーズ合成フィルタバンクとして実装される。利得制御要素CE110の時間領域実装形態を含み、音声信号S40を周波数領域信号として受信するように構成されたエンハンサEN110の実装形態は、音声信号S40の時間領域バージョンを利得制御要素CE110に与えるように構成された逆変換モジュールTR20のインスタンスをも含むことができる。
図36Bに、並列に構成されたq個のバンドパスフィルタF20−1〜F20−qのセットを含むサブバンドフィルタアレイFA100の実装形態FA110のブロック図を示す。この場合、フィルタF20−1〜F20−qの各々は、対応するバンドパス信号を生成するために利得係数に従ってサブバンドをフィルタ処理することによって、(たとえば、利得係数計算器FC300によって計算される)q個の利得係数G(1)〜G(q)の対応する1つを音声信号S40の対応するサブバンドに適用するように構成される。サブバンドフィルタアレイFA110はまた、処理済み音声信号S50を生成するためにq個のバンドパス信号を混合するように構成されたコンバイナMX10を含む。
図37Aに、直列に(すなわち、各フィルタF20−kが、2≦k≦qの場合、フィルタF20−(k−1)の出力をフィルタ処理するように構成されるようにカスケードで、)利得係数に従って音声信号S40をフィルタ処理することによって、利得係数G(1)〜G(q)の各々を音声信号S40の対応するサブバンドに適用するようにバンドパスフィルタF20−1〜F20−qが構成された、サブバンドフィルタアレイFA100の別の実装形態FA120のブロック図を示す。
フィルタF20−1〜F20−qの各々を、有限インパルス応答(FIR)または無限インパルス応答(IIR)を有するように実装することができる。たとえば、フィルタF20−1〜F20−qのうちの1つまたは複数(場合によってはすべて)の各々をバイカッドとして実装することができる。たとえば、サブバンドフィルタアレイFA120はバイカッドのカスケードとして実装できる。そのような実装形態は、バイカッドIIRフィルタカスケード、2次IIRセクションまたはフィルタのカスケード、あるいはカスケードの一連のサブバンドIIRバイカッドと呼ばれることもある。特にエンハンサEN10の浮動小数点実装形態の場合、転置直接形IIを使用して各バイカッドを実装することが望ましい。
フィルタF20−1〜F20−qの通過帯域が、(たとえば、フィルタ通過帯域が等しい幅を有するような)均一サブバンドのセットではなく(たとえば、フィルタ通過帯域の2つ以上が異なる幅を有するような)不均一サブバンドのセットへの音声信号S40の帯域幅の分割を表すことが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。たとえば、フィルタF20−1〜F20−qは、図27中にドットによって示されるようにバーク尺度分割方式に従って構成できる。サブバンドのそのような構成は、広帯域音声処理システム(たとえば、16kHzのサンプリングレートを有するデバイス)において使用できる。そのような分割方式の他の例では、最も低いサブバンドは6サブバンド方式を得るために省略され、および/または最も高いサブバンドの上限は7700Hzから8000Hzに増加される。
狭帯域音声処理システム(たとえば、8kHzのサンプリングレートを有するデバイス)では、6または7個よりも少ないサブバンドを有する分割方式に従ってフィルタF20−1〜F20−qの通過帯域を設計することが望ましい。そのようなサブバンド分割方式の一例は、4帯域擬似バーク方式300〜510Hz、510〜920Hz、920〜1480Hz、および1480〜4000Hzである。(たとえば、本例のように)広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および/またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。
利得係数G(1)〜G(q)の各々は、フィルタF20−1〜F20−qの対応する1つの1つまたは複数のフィルタ係数値を更新するために使用できる。そのような場合、その周波数特性(たとえば、その通過帯域の中心周波数および幅)が固定され、その利得が変動するように、フィルタF20−1〜F20−qのうちの1つまたは複数(場合によってはすべて)の各々を構成することが望ましい。そのような技法は、FIRまたはIIRフィルタが、共通係数(たとえば、利得係数G(1)〜G(q)の対応する1つの現在値)によってフィードフォワード係数(たとえば、上記のバイカッド式(1)中の係数b、b、およびb)の値をのみ変動させることによって実装できる。たとえば、フィルタF20−1〜F20−qのうちの1つのF20−iのバイカッド実装形態におけるフィードフォワード係数の各々の値を、利得係数G(1)〜G(q)のうちの対応する1つのG(i)の現在値に従って変動させて、以下の伝達関数を得ることができる。
Figure 0005628152
図37Bに、対応する利得係数G(i)の現在値に従ってフィルタ利得を変動させるフィルタF20−1〜F20−qのうちの1つのF20−iのバイカッド実装形態の別の例を示す。
利得係数G(1)〜G(q)のすべてが1に等しいとき、当該の周波数レンジ(たとえば、50、100または200Hz〜3000、3500、4000、7000、7500または8000Hz)にわたってその有効伝達関数がほぼ一定であるように、サブバンドフィルタアレイFA100を実装することが望ましい。たとえば、利得係数G(1)〜G(q)のすべてが1に等しいとき、サブバンドフィルタアレイFA100の有効伝達関数が、周波数レンジにわたって5、10、または20パーセント(たとえば、0.25、0.5、または1デシベル)内に一定であることが望ましい。1つの特定の例では、利得係数G(1)〜G(q)のすべてが1に等しいとき、サブバンドフィルタアレイFA100の有効伝達関数は1にほぼ等しい。
サブバンドフィルタアレイFA100が、音声サブバンド信号発生器SG100のサブバンドフィルタアレイSG10の実装形態、および/または強調サブバンド信号発生器EG100のサブバンドフィルタアレイSG10の実装形態と同じサブバンド分割方式を適用することが望ましい。たとえば、サブバンドフィルタアレイFA100が、(1つまたは複数の)そのようなフィルタの設計と同じ設計を有するフィルタのセット(たとえば、バイカッドのセット)を使用し、(1つまたは複数の)サブバンドフィルタアレイSG10の利得係数に固定値が使用されることが望ましい。サブバンドフィルタアレイFA100を、(1つまたは複数の)そのようなサブバンドフィルタアレイと同じ成分フィルタを使用して(たとえば、アレイFA120のカスケードの場合のように、異なる時間に、異なる利得係数値を用いて、場合によっては異なって構成された成分フィルタを用いて)実装することさえできる。
安定性および/または量子化雑音考慮事項に従ってサブバンドフィルタアレイFA100を設計することが望ましい。上記のように、たとえば、サブバンドフィルタアレイFA120は2次セクションのカスケードとして実装できる。そのようなセクションを実装する転置直接形IIバイカッド構造の使用は、丸め雑音を最小限に抑えること、および/またはセクション内でロバストな係数/周波数感度を得ることに役立つ。エンハンサEN10は、オーバーフロー状態を回避するのに役立つフィルタ入力および/または係数値のスケーリングを実行するように構成できる。エンハンサEN10は、フィルタ入力と出力との間の差異が大きい場合、サブバンドフィルタアレイFA100の1つまたは複数のIIRフィルタの履歴をリセットするサニティチェック演算を実行するように構成できる。数値実験およびオンラインテストは、エンハンサEN10が量子化雑音補償のためのモジュールなしに実装できるという結論をもたらしたが、1つまたは複数のそのようなモジュール(たとえば、サブバンドフィルタアレイFA100の1つまたは複数のフィルタの各々の出力に対してディザリング演算を実行するように構成されたモジュール)も含めることができる。
上述のように、サブバンドフィルタアレイFA100は、音声信号S40のそれぞれのサブバンドをブースティングするのに好適な成分フィルタ(たとえば、バイカッド)を使用して実装できる。しかしながら、音声信号S40の1つまたは複数のサブバンドを音声信号S40の他のサブバンドに対して減衰させることが場合によっては望ましいこともある。たとえば、1つまたは複数のスペクトルピークを増幅し、また1つまたは複数のスペクトルの谷を減衰させることが望ましい。そのような減衰は、フレームのための最も大きい所望の減衰に従ってサブバンドフィルタアレイFA100の上流の音声信号S40を減衰させて、それに応じて、減衰を補償するために他のサブバンドのフレームの利得係数の値を増加させることによって実行できる。たとえば、サブバンドフィルタアレイFA100の上流の音声信号S40を2デシベルだけ減衰させ、ブースティングなしにサブバンドiをアレイFA100にパスし、他のサブバンドの利得係数の値を2デシベルだけ増加させることによって、サブバンドiの2デシベルの減衰を達成することができる。サブバンドフィルタアレイFA100の上流の音声信号S40に減衰を適用することの代替として、サブバンドフィルタアレイFA100の下流の処理済み音声信号S50にそのような減衰を適用することができる。
図38に、スペクトルコントラストエンハンサEN10の実装形態EN120のブロック図を示す。エンハンサEN110に比較して、エンハンサEN120は、音声サブバンド信号発生器SG100によって音声信号S40から生成されたq個のサブバンド信号S(i)のセットを処理するように構成された利得制御要素CE100の実装形態CE120を含む。たとえば、図39は、サブバンド利得制御要素G20−1〜G20−qのアレイおよびコンバイナMX10のインスタンスを含む利得制御要素CE120の実装形態CE130のブロック図を示す。(たとえば、乗算器または増幅器として実装できる)q個のサブバンド利得制御要素G20−1〜G20−qの各々は、利得係数G(1)〜G(q)の各々をサブバンド信号S(1)〜S(q)の各々に適用するように構成される。コンバイナMX10は、処理済み音声信号S50を生成するために利得制御サブバンド信号を合成する(たとえば、混合する)ように構成される。
エンハンサEN100、EN110、またはEN120が音声信号S40を変換領域信号(たとえば、周波数領域信号)として受信する場合、対応する利得制御要素CE100、CE110、またはCE120は、利得係数を変換領域におけるそれぞれのサブバンドに適用するように構成できる。たとえば、利得制御要素CE100、CE110、またはCE120のそのような実装形態は、各サブバンドに利得係数の対応する1つを乗算するか、または対数値を使用して(たとえば、デシベルで利得係数とサブバンド値とを加算して)類似した演算を実行するように構成できる。エンハンサEN100、EN110、またはEN120の代替実装形態は、音声信号S40を変換領域から利得制御要素の上流の時間領域に変換するように構成できる。
ブースティングなしに音声信号S40の1つまたは複数のサブバンドをパスするようにエンハンサEN10を構成することが望ましい。たとえば、低周波サブバンドのブースティングは、他のサブバンドのマフリングをもたらし、エンハンサEN10がブースティングなしに音声信号S40の1つまたは複数の低周波サブバンド(たとえば、300Hz未満の周波数を含むサブバンド)をパスすることが望ましい。
たとえば、エンハンサEN100、EN110、またはEN120のそのような実装形態は、ブースティングなしに1つまたは複数のサブバンドをパスするように構成された利得制御要素CE100、CE110、またはCE120の実装形態を含むことができる。1つのそのような場合では、サブバンドフィルタアレイFA110は、サブバンドフィルタF20−1〜F20−qのうちの1つまたは複数が利得係数1(たとえば、0dB)を適用するように実装できる。別のそのような場合では、サブバンドフィルタアレイFA120は、フィルタF20−1〜F20−qのすべてよりも少ないカスケードとして実装できる。さらなるそのような場合では、利得制御要素CE100またはCE120は、利得制御要素G20−1〜G20−qのうちの1つまたは複数が利得係数1(たとえば、0dB)を適用するように実装されるか、またはさもなければ、そのレベルを変更することなしにそれぞれのサブバンド信号をパスするように構成される。
背景雑音または無音のみを含んでいる音声信号S40の部分のスペクトルコントラストを強調することを回避することが望ましい。たとえば、音声信号S40が非アクティブである間隔中に、エンハンサEN10をバイパスするか、または他の場合は音声信号S40のスペクトルコントラスト強調を中断または抑止するように装置A100を構成することが望ましい。装置A100のそのような実装形態は、音声信号S40のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および/または残差(たとえば、線形予測符号化残差)の自己相関、ゼロ交差レート、および/または第1の反射係数など、1つまたは複数の係数に基づいて、アクティブ(たとえば、音声)または非アクティブ(たとえば、背景雑音または無音)として分類するように構成されたボイスアクティビティ検出器(VAD)を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および/またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。
図40Aに、そのようなVAD V10を含む装置A100の実装形態A160のブロック図を示す。ボイスアクティビティ検出器V10は、その状態が音声アクティビティが音声信号S40上で検出されたかどうかについて示す更新制御信号S70を生成するように構成される。装置A160はまた、更新制御信号S70の状態に従って制御されるエンハンサEN10(たとえば、エンハンサEN110またはEN120)の実装形態EN150を含む。エンハンサEN10のそのような実装形態は、音声が検出されない音声信号S40の間隔中に利得係数値の更新および/または雑音レベル指示ηの更新が抑止されるように構成できる。たとえば、利得係数計算器FC300は音声が検出されない音声信号S40のフレームの利得係数値の前の値を出力するように、エンハンサEN150を構成することができる。
別の例では、エンハンサEN150は、VAD V10が音声信号S40の現在のフレームは非アクティブであることを示すとき、利得係数の値を(たとえば、強調ベクトルEV10からの寄与がないこと、または0デシベルの利得係数を示す)中間値にフォーシングするか、または利得係数の値をフォーシングして2つ以上のフレームにわたって中間値に減衰させるように構成された利得係数計算器FC300の実装形態を含む。代替または追加として、エンハンサEN150は、VAD V10が音声信号S40の現在のフレームは非アクティブであることを示すとき、雑音レベル指示ηの値を0に設定するか、または雑音レベル指示の値が0に減衰することを可能にするように構成された利得係数計算器FC300の実装形態を含むことができる。
ボイスアクティビティ検出器V10は、フレームエネルギー、信号対雑音比(SNR)、周期性、ゼロ交差レート、音声および/または残差の自己相関、ならびに第1の反射係数など、1つまたは複数の係数に基づいて音声信号S40のフレームをアクティブまたは非アクティブとして分類する(たとえば、更新制御信号S70の2値状態を制御する)ように構成できる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および/またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。代替または追加として、そのような分類は、ある周波数帯域におけるエネルギーなどのそのような係数の値または大きさ、あるいはそのような係数の変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD決定のメモリに基づいてボイスアクティビティ検出を実行するように、VAD V10を実装することが望ましい。VAD V10が実行することができるボイスアクティビティ検出演算の一例は、たとえば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題する3GPP2文書C.S0014−C、v1.0のセクション4.7(pp.4−49〜4−57)、2007年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているように、音声信号S40のハイバンドおよびローバンドエネルギーをそれぞれのしきい値と比較することを含む。ボイスアクティビティ検出器V10は、一般に、更新制御信号S70を2進値ボイス検出指示信号として生成するように構成されるが、連続および/または多値信号を生成する構成も可能である。
装置A110は、雑音低減段NR20の入力と出力との間の関係に基づいて(すなわち、音源信号S20と雑音低減された音声信号S45との間の関係に基づいて)、音源信号S20のフレームをアクティブまたは非アクティブと分類するように構成されたボイスアクティビティ検出器V10の実装形態V15を含むように構成できる。そのような関係の値は、雑音低減段NR20の利得を示すと考えることができる。図40Bに、装置A140(および装置A160)のそのような実装形態A165のブロック図を示す。
一例では、VAD V15は、段NR20によってパスされる周波数領域ビンの数に基づいてフレームがアクティブであるかどうかを示すように構成される。この場合、更新制御信号S70は、パスされたビンの数がしきい値を超える(代替的に、それ以上である)場合、フレームはアクティブであり、他の場合は非アクティブであることを示す。別の例では、VAD V15は、段NR20によってブロックされる周波数領域ビンの数に基づいてフレームがアクティブであるかどうかを示すように構成される。この場合、更新制御信号S70は、ブロックされたビンの数がしきい値を超える(代替的に、それ以上である)場合、フレームは非アクティブであり、他の場合はアクティブであることを示す。フレームがアクティブであるかまたは非アクティブであるかを判断する際に、VAD V15は、低周波ビン(たとえば、1キロヘルツ、1,500ヘルツ、または2キロヘルツを上回らない周波数の値を含んでいるビン)、または中間周波数ビン(たとえば、200ヘルツ、300ヘルツ、または500ヘルツ以上の周波数の値を含んでいる低周波ビン)などの音声エネルギーを含んでいる可能性が高いビンのみを考察することが望ましい。
図41に、音声信号S40の現在のフレームがアクティブであるとき、可変VADの状態(たとえば、更新制御信号S70)が1であり、他の場合は0である、図35Aの擬似コードリストの変形を示す。利得係数計算器FC300の対応する実装形態によって実行できるこの例では、サブバンドiおよびフレームkのサブバンド利得係数の現在値は最新の値に初期化され、サブバンド利得係数の値は非アクティブフレームについて更新されない。図42に、ボイスアクティビティが検出されない期間中に(すなわち、非アクティブフレームの場合)、サブバンド利得係数の値が1に減衰する図35Aの擬似コードリストの別の変形を示す。
VAD V10の1つまたは複数のインスタンスを装置A100の他の場所に適用することが望ましい。たとえば、次の信号、すなわち感知オーディオ信号S10の少なくとも1つのチャネル(たとえば、1次チャネル)、フィルタ処理された信号S15の少なくとも1つのチャネル、および音源信号S20のうちの1つまたは複数上で音声アクティビティを検出するようにVAD V10のインスタンスを構成することが望ましい。対応する結果は、SSPフィルタSS20の適応フィルタAF10の演算を制御するために使用できる。たとえば、そのようなボイスアクティビティ検出演算の結果が現在のフレームがアクティブであることを示すとき、適応フィルタAF10のトレーニング(たとえば、適応)をアクティブにし、適応フィルタAF10のトレーニングレートを増加させ、および/または適応フィルタAF10の深さを増加させ、ならびに/あるいは、他の場合は、トレーニングを非アクティブにし、および/またはそのような値を低減するように装置A100を構成ことが望ましい。
音声信号S40のレベルを制御するように装置A100を構成することが望ましい。たとえば、エンハンサEN10によるサブバンドブースティングに適応するために十分なヘッドルームを与えるように音声信号S40のレベルを制御するように装置A100を構成することが望ましい。追加または代替として、音声信号S40に関する情報(たとえば、音声信号S40の現在のレベル)に基づいて、利得係数計算器FC300に関して上記で開示したように、雑音レベル指示限界ηminおよびηmaxのいずれかまたは両方の値、および/または利得係数値限界UBおよびLBのいずれかまたは両方の値を判断するように装置A100を構成することが望ましい。
図43Aに、エンハンサEN10が自動利得制御(AGC)モジュールG10を介して音声信号S40を受信するように構成された、装置A100の実装形態A170のブロック図を示す。音声信号S40を得るために、知られているまたは開発されるAGC技法に従って、オーディオ入力信号S100のダイナミックレンジを限定された振幅帯域に圧縮するように、自動利得制御モジュールG10を構成することができる。自動利得制御モジュールG10は、たとえば、低いパワーを有する入力信号のセグメント(たとえば、フレーム)をブースティングし、高いパワーを有する入力信号のセグメントを減衰させることによって、そのようなダイナミックレンジ圧縮を実行するように構成できる。音声信号S40が再生オーディオ信号(たとえば、遠端通信信号、ストリーミングオーディオ信号、または記憶されたメディアファイルから復号された信号)である適用例の場合、装置A170は、デコーダ段からオーディオ入力信号S100を受信するように構成できる。以下で説明する通信デバイスD100の対応するインスタンスは、装置A170の実装形態でもある(すなわち、AGCモジュールG10を含む)装置A100の実装形態を含むように構築できる。エンハンサEN10が(たとえば、上述の装置A110の場合のように)音源信号S20を音声信号S40として受信するように構成された適用例の場合、オーディオ入力信号S100は感知オーディオ信号S10に基づくことができる。
自動利得制御モジュールG10は、ヘッドルーム定義および/またはマスターボリューム設定を与えるように構成できる。たとえば、AGCモジュールG10は、上記で開示した上限UBおよび下限LBのいずれかまたは両方の値、および/または上記で開示した雑音レベル指示限界ηminおよびηmaxのいずれかまたは両方の値をエンハンサEN10に供給するように構成できる。圧縮しきい値および/またはボリューム設定など、AGCモジュールG10の動作パラメータは、エンハンサEN10の有効ヘッドルームを制限することができる。感知オーディオ信号S10上に雑音がない場合、装置A100の正味効果は利得増幅がほぼない(たとえば、音声信号S40と処理済み音声信号S50との間のレベルの差がおよそプラスマイナス5、10または20パーセント未満である)ように装置A100をチューニングする(たとえば、存在する場合、エンハンサEN10および/またはAGCモジュールG10をチューニングする)ことが望ましい。
時間領域ダイナミックレンジ圧縮は、たとえば、経時的信号の変化の知覚力を増加させることによって、信号了解度を増加させることができる。そのような信号変化の1つの特定の例は、信号の了解度に著しく寄与し得る、明確に定義された経時的ホルマント軌道の存在に関係する。ホルマント軌道の開始点および終了点は、子音、特に閉鎖子音(たとえば、[k]、[t]、[p]など)によって一般にマーキングされる。これらのマーキング子音は、母音成分および音声の他の有声部分に比較して一般に低いエネルギーを有する。マーキング子音のエネルギーをブースティングすることにより、リスナーがよりはっきりと音声オンセットおよびオフセットをたどることを可能にすることによって、了解度を増加させることができる。了解度のそのような増加は、(たとえば、エンハンサEN10に関して本明細書で説明する)周波数サブバンドパワー調節によって得られるものとは異なる。したがって、(たとえば、装置A170の実装形態、および/または上述のコントラスト強調信号発生器EG110の実装形態EG120における)これらの2つの効果の間の相乗効果を利用することにより、全体的な音声了解度をかなり増加させることができる。
処理済み音声信号S50のレベルをさらに制御するように装置A100を構成することが望ましい。たとえば、装置A100は、(AGCモジュールG10に加えて、またはその代替として)処理済み音声信号S50のレベルを制御するように構成されたAGCモジュールを含むように構成できる。図44に、スペクトルコントラストエンハンサの音響出力レベルを制限するように構成されたピークリミッタL10を含むエンハンサEN20の実装形態EN160のブロック図を示す。ピークリミッタL10は可変利得オーディオレベル圧縮器として実装できる。たとえば、ピークリミッタL10は、エンハンサEN160が合成スペクトルコントラスト強調/圧縮効果を達成するように、高いピーク値をしきい値に圧縮するように構成できる。図43Bに、エンハンサEN160ならびにAGCモジュールG10を含む装置A100の実装形態A180のブロック図を示す。
図45Aの擬似コードリストに、ピークリミッタL10によって実行できるピーク制限演算の一例を記載する。入力信号sigの各サンプルkごとに(たとえば、処理済み音声信号S50のサンプルkごとに)、この演算は、サンプル振幅とソフトピーク制限peak_limとの間の差pkdiffを計算する。peak_limの値は、固定とするか、または経時的に適応させることができる。たとえば、peak_limの値はAGCモジュールG10からの情報に基づくことができる。たとえば、そのような情報は、上限UBおよび/または下限LBの値、雑音レベル指示限界ηminおよび/またはηmaxの値、音声信号S40の現在のレベルに関係する情報のいずれかを含むことができる。
pkdiffの値が少なくとも0である場合、サンプル振幅はピーク制限peak_limを超えない。この場合、差分利得値diffgainは1に設定される。他の場合は、サンプル振幅はピーク制限peak_limより大きく、diffgainは超過振幅に比例して1未満の値に設定される。
ピーク制限演算は差分利得値の平滑化をも含むことができる。そのような平滑化は、利得が経時的に増加しているかまたは減少しているかに従って異なることができる。図45Aに示すように、たとえば、diffgainの値がピーク利得パラメータg_pkの前の値を超える場合、g_pkの値は、g_pkの前の値、diffgainの現在値、およびアタック利得平滑化パラメータgamma_attを使用して更新される。他の場合は、g_pkの値は、g_pkの前の値、diffgainの現在値、および減衰利得平滑化パラメータgamma_decを使用して更新される。値gamma_attおよびgamma_decは、約0(平滑化なし)から約0.999(最大平滑化)の範囲から選択される。次いで、入力信号sigの対応するサンプルkにg_pkの平滑化値を乗算して、ピーク制限されたサンプルを得る。
図45Bに、異なる式を使用して、差分利得値diffgainを計算する図45Aの擬似コードリストの変形を示す。これらの例の代替として、ピークリミッタL10は、pkdiffの値がより少ない頻度で更新される(たとえば、pkdiffの値がpeak_limと信号sigのいくつかのサンプルの絶対値の平均との差として計算される)、図45Aまたは図45Bに記載されているピーク制限演算のさらなる例を実行するように構成できる。
本明細書に示すように、装置A100の実装形態を含むように通信デバイスを構築することができる。そのようなデバイスの演算中のある時には、装置A100は、雑音基準S30以外の基準からの情報に従って音声信号S40のスペクトルコントラストを強調することが望ましい。たとえば、何らかの環境または配向では、SSPフィルタSS10の指向性処理演算が信頼できない結果を生成することがある。プッシュツートーク(PTT)モードまたはスピーカーフォンモードなど、デバイスのいくつかの動作モードでは、感知オーディオチャネルの空間選択的処理が不要または望ましくないことがある。そのような場合、装置A100が空間選択的(または「マルチチャネル」)モードではなく非空間(または「シングルチャネル」)モードで動作することが望ましい。
装置A100の実装形態は、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成できる。装置A100のそのような実装形態は、感知オーディオ信号S10、音源信号S20、および雑音基準S30のうちの少なくとも1つの品質に基づいてモード選択信号(たとえば、2値フラグ)を生成するように構成された分離評価器を含むことができる。モード選択信号の状態を判断するためにそのような分離評価器によって使用される基準は、以下のパラメータ、すなわち、音源信号S20のエネルギーと雑音基準S30のエネルギーとの間の差または比、雑音基準S20のエネルギーと感知オーディオ信号S10の1つまたは複数のチャネルのエネルギーとの間の差または比、音源信号S20と雑音基準S30との間の相関、音源信号S20の1つまたは複数の統計メトリクス(たとえば、尖度、自己相関)によって示される音源信号S20が音声を搬送している尤度のうちの1つまたは複数の現在値と、対応するしきい値との間の関係を含むことができる。そのような場合、信号のエネルギーの現在値は、信号の連続するサンプルのブロック(たとえば、現在のフレーム)の2乗サンプル値の合計として計算できる。
装置A100のそのような実装形態A200は、音源信号S20および雑音基準S30からの情報に基づいて(たとえば、音源信号S20のエネルギーと雑音基準S30のエネルギーとの間の差または比に基づいて)、モード選択信号S80を生成するように構成された分離評価器EV10を含むことができる。そのような分離評価器は、SSPフィルタSS10が所望の音響成分(たとえば、ユーザのボイス)を音源信号S20に十分に分離したと判断したとき第1の状態を有し、他の場合は第2の状態を有するようにモード選択信号S80を生成するように構成できる。1つのそのような例では、分離評価器EV10は、音源信号S20の現在のエネルギーと雑音基準S30の現在のエネルギーとの間の差が対応するしきい値を超える(代替的に、それ以上である)と判断したとき十分な分離を示すように構成される。別のそのような例では、分離評価器EV10は、音源信号S20の現在のフレームと雑音基準S30の現在のフレームとの間の相関が対応するしきい値よりも小さい(代替的に、それを超えない)と判断したとき十分な分離を示すように構成される。
分離評価器EV10のインスタンスを含む装置A100の実装形態は、モード選択信号S80が第2の状態を有するとき、エンハンサEN10をバイパスするように構成できる。そのような構成は、たとえば、エンハンサEN10が音源信号S20を音声信号として受信するように構成された、装置A110の実装形態の場合に望ましい。一例では、エンハンサEN10をバイパスすることは、利得制御要素CE100、CE110、またはCE120が変更なしに音声信号S40をパスするように、そのフレームの利得係数を(たとえば、強調ベクトルEV10からの寄与がないこと、または0デシベルの利得係数を示す)中間値にフォーシングすることによって実行される。そのようなフォーシングは、急激に、または(たとえば、2つ以上のフレームにわたる減衰のように)徐々に実施できる。
図46に、エンハンサEN10の実装形態EN200を含む装置A100の代替実装形態A200のブロック図を示す。エンハンサEN200は、モード選択信号S80が第1の状態を有するとき、(たとえば、上記で開示したエンハンサEN10の実装形態のいずれかに従って)マルチチャネルモードで動作し、モード選択信号S80が第2の状態を有するときシングルチャネルモードで動作するように構成される。シングルチャネルモードでは、エンハンサEN200は、非分離雑音基準S95からのサブバンドパワー推定値のセットに基づいて、利得係数値G(1)〜G(q)を計算するように構成される。非分離雑音基準S95は、非分離感知オーディオ信号(たとえば、感知オーディオ信号S10の1つまたは複数のチャネル)に基づく。
装置A200は、非分離雑音基準S95が感知オーディオチャネルS10−1およびS10−2のうちの1つであるように実装できる。図47に、非分離雑音基準S95が感知オーディオチャネルS10−1である装置A200のそのような実装形態A210のブロック図を示す。装置A200は、特に音声信号S40が再生オーディオ信号である場合、エコーキャンセラを介して、またはマイクロフォン信号に対してエコー消去演算(たとえば、以下で説明するオーディオプリプロセッサAP20のインスタンス)を実行するように構成された他のオーディオ前処理段を介して、感知オーディオチャネルS10を受信することが望ましい。装置A200のより一般的な実装形態では、非分離雑音基準S95は非分離マイクロフォン信号(たとえば、以下で説明するアナログマイクロフォン信号SM10−1およびSM10−2のいずれか、または以下で説明するデジタル化マイクロフォン信号DM10−1およびDM10−2のいずれか)である。
装置A200は、非分離雑音基準S95が通信デバイスの1次マイクロフォン(たとえば、最も直接的にユーザのボイスを通常受信するマイクロフォン)に対応する感知オーディオチャネルS10−1およびS10−2のうちの特定の1つであるように実装できる。そのような構成は、たとえば、音声信号S40が再生オーディオ信号(たとえば、遠端通信信号、ストリーミングオーディオ信号、または記憶されたメディアファイルから復号された信号)である適用例の場合に望ましい。代替的に、装置A200は、非分離雑音基準S95が通信デバイスの2次マイクロフォン(たとえば、間接的にのみユーザのボイスを通常受信するマイクロフォン)に対応する感知オーディオチャネルS10−1およびS10−2のうちの特定の1つであるように実装できる。そのような構成は、たとえば、エンハンサEN10が音源信号S20を音声信号S40として受信するように構成された適用例の場合に望ましい。
別の構成では、装置A200は、感知オーディオチャネルS10−1およびS10−2を単一のチャネルにミックスダウンすることによって非分離雑音基準S95を得るように構成できる。代替的に、装置A200は、最も高い信号対雑音比、(たとえば、1つまたは複数の統計メトリックによって示される)音声最尤、通信デバイスの現在の動作構成、および/または所望の音源信号が生じたと判断される方向など、1つまたは複数の基準に従って、感知オーディオチャネルS10−1およびS10−2の中から非分離雑音基準S95を選択するように構成できる。
より一般的には、装置A200は、以下で説明するマイクロフォン信号SM10−1およびSM10−2、または以下で説明するマイクロフォン信号DM10−1およびDM10−2などの2つ以上のマイクロフォン信号のセットから非分離雑音基準S95を得るように構成できる。装置A200が(たとえば、オーディオプリプロセッサAP20およびエコーキャンセラEC10に関して以下で説明するように)エコー消去演算を受けた1つまたは複数のマイクロフォン信号から非分離雑音基準S95を得ることが望ましい。
装置A200は、時間領域バッファから非分離雑音基準S95を受信するように構成できる。1つのそのような例では、時間領域バッファは10ミリ秒の長さ(たとえば、8kHzのサンプリングレートで80個のサンプル、または16kHzのサンプリングレートで160個のサンプル)を有する。
エンハンサEN200は、モード選択信号S80の状態に従って、雑音基準S30および非分離雑音基準S95のうちの1つに基づいて第2のサブバンド信号のセットを発生するように構成できる。図48に、モード選択信号S80の現在の状態に従って雑音基準S30および非分離雑音基準S95のうちの1つを選択するように構成されたセレクタSL10(たとえば、デマルチプレクサ)を含むエンハンサEN200(およびエンハンサEN110)のそのような実装形態EN300のブロック図を示す。エンハンサEN300はまた、モード選択信号S80の状態に従って、限界ηminおよびηmaxのいずれかまたは両方、および/または限界UBおよびLBのいずれかまたは両方の異なる値の中から選択するように構成された利得係数計算器FC300の実装形態を含むことができる。
エンハンサEN200は、モード選択信号S80の状態に従って、サブバンド信号の異なるセットの中から選択して、第2のサブバンドパワー推定値のセットを発生するように構成できる。図49に、サブバンド信号発生器NG100の第1のインスタンスNG100aと、サブバンド信号発生器NG100の第2のインスタンスNG100bと、セレクタSL20とを含む、エンハンサEN300のそのような実装形態EN310のブロック図を示す。サブバンド信号発生器SG200のインスタンスとして、またはサブバンド信号発生器SG300のインスタンスとして実装できる第2のサブバンド信号発生器NG100bは、非分離雑音基準S95に基づくサブバンド信号のセットを発生するように構成される。セレクタSL20(たとえば、デマルチプレクサ)は、モード選択信号S80の現在の状態に従って、第1のサブバンド信号発生器NG100aと第2のサブバンド信号発生器NG100bとによって発生されたサブバンド信号のセットの中から1つを選択し、サブバンド信号の選択されたセットを雑音サブバンド信号のセットとして雑音サブバンドパワー推定値計算器NP100に供給するように構成される。
さらなる代替では、エンハンサEN200は、モード選択信号S80の状態に従って、雑音サブバンドパワー推定値の異なるセットのうちから選択して、サブバンド利得係数のセットを発生するように構成される。図50に、雑音サブバンドパワー推定値計算器NP100の第1のインスタンスNP100aと、雑音サブバンドパワー推定値計算器NP100の第2のインスタンスNP100bと、セレクタSL30とを含む、エンハンサEN300(およびエンハンサEN310)のそのような実装形態EN320のブロック図を示す。第1の雑音サブバンドパワー推定値計算器NP100aは、上述のように第1の雑音サブバンド信号発生器NG100aによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第1のセットを発生するように構成される。第2の雑音サブバンドパワー推定値計算器NP100bは、上述のように第2の雑音サブバンド信号発生器NG100bによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第2のセットを発生するように構成される。たとえば、エンハンサEN320は、雑音基準の各々のサブバンドパワー推定値を並列に評価するように構成できる。セレクタSL30(たとえば、デマルチプレクサ)は、モード選択信号S80の現在の状態に従って、第1の雑音サブバンドパワー推定値計算器NP100aと第2の雑音サブバンドパワー推定値計算器NP100bとによって発生される雑音サブバンドパワー推定値のセットのうちの1つを選択し、雑音サブバンドパワー推定値の選択されたセットを利得係数計算器FC300に供給するように構成される。
第1の雑音サブバンドパワー推定値計算器NP100aは、サブバンドパワー推定値計算器EC110のインスタンスとして、またはサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。第2の雑音サブバンドパワー推定値計算器NP100bも、サブバンドパワー推定値計算器EC110のインスタンスとして、またはサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。第2の雑音サブバンドパワー推定値計算器NP100bはまた、非分離雑音基準S95の現在のサブバンドパワー推定値の最小値を識別し、非分離雑音基準S95の他の現在のサブバンドパワー推定値をこの最小値と交換するようにさらに構成できる。たとえば、第2の雑音サブバンドパワー推定値計算器NP100bは、図51Aに示すように、サブバンド信号発生器EC210のインスタンスとして実装できる。サブバンド信号発生器EC210は、1≦i≦qの場合、次式などの式に従って最小サブバンドパワー推定値を識別し適用するように構成されたミニマイザーMZ10を含む、上述のサブバンド信号発生器EC110の実装形態である。
Figure 0005628152
代替的に、第2の雑音サブバンドパワー推定値計算器NP100bは、図51Bに示すように、サブバンド信号発生器EC220のインスタンスとして実装できる。サブバンド信号発生器EC220は、ミニマイザーMZ10のインスタンスを含む、上述のサブバンド信号発生器EC120の実装形態である。
マルチチャネルモードで動作するときは、非分離雑音基準S95からのサブバンドパワー推定値、ならびに雑音基準S30からのサブバンドパワー推定値に基づくサブバンド利得係数値を計算するようにエンハンサEN320を構成することが望ましい。図52に、エンハンサEN320のそのような実装形態EN330のブロック図を示す。エンハンサEN330は、1≦i≦qの場合、次式などの式に従ってサブバンドパワー推定値のセットを計算するように構成されたマキシマイザーMAX10を含む。
Figure 0005628152
上式で、E(i,k)は、サブバンドiおよびフレームkについて第1の雑音サブバンドパワー推定値計算器NP100aによって計算されるサブバンドパワー推定値を示し、E(i,k)は、サブバンドiおよびフレームkについて第2の雑音サブバンドパワー推定値計算器NP100bによって計算されるサブバンドパワー推定値を示す。
装置A100の一実装形態は、シングルチャネルおよびマルチチャネル雑音基準からの雑音サブバンドパワー情報を組み合わせるモードで動作することが望ましい。マルチチャネル雑音基準は、非定常雑音に対する動的応答をサポートすることができるが、装置の得られる動作は、たとえば、ユーザの位置の変更に対して過度に反応しやすいものであることがある。シングルチャネル雑音基準は、より安定している応答を与えることができるが、非定常雑音を補償する能力を欠く。図53に、雑音基準S30からの情報と非分離雑音基準S95からの情報とに基づいて音声信号S40のスペクトルコントラストを強調するように構成された、エンハンサEN110の実装形態EN400のブロック図を示す。エンハンサEN400は、上記で開示したように構成されるマキシマイザーMAX10のインスタンスを含む。
マキシマイザーMAX10はまた、シングルチャネルおよびマルチチャネル雑音サブバンドパワー推定値の利得の独立操作を可能にするように実装できる。たとえば、スケーリングが最大化演算の上流で行われるように、第1のサブバンドパワー推定値計算器NP100aおよび/または第2のサブバンドパワー推定値計算器NP100bによって生成される雑音サブバンドパワー推定値のうちの1つまたは複数(場合によってはすべて)の各々をスケーリングするための利得係数(または利得係数セットのうちの対応する1つ)を適用するように、マキシマイザーMAX10を実装することが望ましい。
装置A100の実装形態を含むデバイスの演算中のある時には、その装置は、雑音基準S30以外の基準からの情報に従って音声信号S40のスペクトルコントラストを強調することが望ましい。たとえば、所望の音響成分(たとえば、ユーザのボイス)および(たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの)指向性雑音成分が同じ方向からマイクロフォンアレイに到着する状況の場合、指向性処理演算は、これらの成分の不十分な分離を行うことがある。そのような場合、指向性処理演算は指向性雑音成分を音源信号S20に分離し、その結果、得られた雑音基準S30は、音声信号の所望の強調をサポートするには不十分なことがある。
本明細書で開示する指向性処理演算と距離処理演算との両方の結果を適用するように、装置A100を実装することが望ましい。たとえば、そのような実装形態は、近距離所望の音響成分(たとえば、ユーザのボイス)および(たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの)遠距離指向性雑音が同じ方向からマイクロフォンアレイに到着する場合、改善されたスペクトルコントラスト強調パフォーマンスを提供することができる。
一例では、SSPフィルタSS110のインスタンスを含む装置A100の実装形態は、距離指示信号DI10の現在の状態が遠距離信号を示すとき、(たとえば、上述のように)エンハンサEN10をバイパスするように構成される。そのような構成は、たとえば、エンハンサEN10が音源信号S20を音声信号として受信するように構成された、装置A110の実装形態の場合に望ましい。
代替的に、雑音基準S30からの情報と音源信号S20からの情報とに基づく雑音サブバンドパワー推定値に従って、音声信号S40の少なくとも1つのサブバンドを音声信号S40の別のサブバンドに対してブーストおよび/または減衰させるように、装置A100を実装することが望ましい。図54に、音源信号S20を追加の雑音基準として処理するように構成された、エンハンサEN20のそのような実装形態EN450のブロック図を示す。エンハンサEN450は、雑音サブバンド信号発生器NG100の第3のインスタンスNG100cと、サブバンドパワー推定値計算器NP100の第3のインスタンスNP100cと、マキシマイザーMAX10のインスタンスMAX20とを含む。第3の雑音サブバンドパワー推定値計算器NP100cは、第3の雑音サブバンド信号発生器NG100cによって音源信号S20から生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第3のセットを発生するように構成され、マキシマイザーMAX20は、第1および第3の雑音サブバンドパワー推定値の中から最大値を選択するように構成される。この実装形態では、セレクタSL40は、本明細書で開示するSSPフィルタSS110の実装形態によって生成される距離指示信号DI10を受信するように構成される。セレクタSL30は、距離指示信号DI10の現在の状態が遠距離信号を示す場合は、マキシマイザーMAX20の出力を選択し、他の場合は、第1の雑音サブバンドパワー推定値計算器NP100aの出力を選択するように構成される。
装置A100はまた、音源信号S20を非分離雑音基準S95ではなく第2の雑音基準として受信するように構成された、本明細書で開示するエンハンサEN200の実装形態のインスタンスを含むように実装できることが、明確に開示されている。また、音源信号S20を雑音基準として受信するエンハンサEN200の実装形態は、感知音声信号(たとえば、近端信号)を強調する場合よりも、再生音声信号(たとえば、遠端信号)を強調する場合により有用であることに明確に留意されたい。
図55に、本明細書で開示するSSPフィルタSS110とエンハンサEN450とを含む、装置A100の実装形態A250のブロック図を示す。図56に、(たとえば、エンハンサEN450に関して本明細書で開示する)遠距離非定常雑音の補償のサポートを、(たとえば、エンハンサEN400に関して本明細書で開示する)シングルチャネル雑音基準とマルチチャネル雑音基準の両方からの雑音サブバンドパワー情報と組み合わせる、エンハンサEN450(およびエンハンサEN400)の実装形態EN460のブロック図を示す。この例では、利得係数計算器FC300は、3つの異なる雑音推定値、すなわち、(重平滑化され、および/または6フレーム以上などの長期間にわたって平滑化される)非分離雑音基準S95、(平滑化されないかまたは単に最小平滑化される)音源信号S20からの遠距離非定常雑音の推定値、および方向ベースの雑音基準S30からの情報に基づく、雑音サブバンドパワー推定値を受信する。また、(たとえば、図56に示すように)非分離雑音基準S95を適用するものとして本明細書で開示する、エンハンサEN200のどの実装形態も、代わりに音源信号S20からの平滑化された雑音推定値(たとえば、重平滑化された推定値および/またはいくつかのフレームにわたって平滑化された長期推定値)を適用するように実装できることを、繰り返し述べておく。
非分離雑音基準S95(または対応する非分離感知オーディオ信号)が非アクティブである間隔中にのみ、非分離雑音基準S95に基づく雑音サブバンドパワー推定値を更新するように、エンハンサEN200(またはエンハンサEN400またはエンハンサEN450)を構成することが望ましい。装置A100のそのような実装形態は、非分離雑音基準S95のフレーム、または非分離感知オーディオ信号のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および/または残差(たとえば、線形予測コーディング残差)の自己相関、ゼロ交差レート、ならびに/あるいは第1の反射係数など、1つまたは複数の係数に基づいて、アクティブ(たとえば、音声)または非アクティブ(たとえば、背景雑音または無音)として分類するように構成されたボイスアクティビティ検出器(VAD)を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および/またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD決定のメモリに基づいてボイスアクティビティ検出を実行するように、このVADを実装することが望ましい。
図57に、そのようなボイスアクティビティ検出器(または「VAD」)V20を含む、装置A200のそのような実装形態A230を示す。上述のようにVAD V10のインスタンスとして実装できるボイスアクティビティ検出器V20は、感知オーディオチャネルS10−1上で音声アクティビティが検出されたかどうかをその状態が示す更新制御信号UC10を生成するように構成される。装置A230が図48に示すエンハンサEN200の実装形態EN300を含む場合、感知オーディオチャネルS10−1上で音声が検出されシングルチャネルモードが選択された間隔(たとえば、フレーム)中に、雑音サブバンド信号発生器NG100が入力を受容することおよび/またはその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。装置A230が図48に示すエンハンサEN200の実装形態EN300または図49に示すエンハンサEN200の実装形態EN310を含む場合、感知オーディオチャネルS10−1上で音声が検出されシングルチャネルモードが選択された間隔(たとえば、フレーム)中に、雑音サブバンドパワー推定値発生器NP100が入力を受容することおよび/またはその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。
装置A230が図49に示すエンハンサEN200の実装形態EN310を含む場合、感知オーディオチャネルS10−1上で音声が検出された間隔(たとえば、フレーム)中に、第2の雑音サブバンド信号発生器NG100bが入力を受容することおよび/またはその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。装置A230がエンハンサEN200の実装形態EN320またはエンハンサEN200の実装形態EN330を含む場合、あるいは装置A100がエンハンサEN200の実装形態EN400を含む場合、感知オーディオチャネルS10−1上で音声が検出された間隔(たとえば、フレーム)中に、第2の雑音サブバンド信号発生器NG100bが入力を受容することおよび/またはその出力を更新することを防ぐために、ならびに/あるいは第2の雑音サブバンドパワー推定値発生器NP100bが入力を受容することおよび/またはその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。
図58Aに、エンハンサEN400のそのような実装形態EN55のブロック図を示す。エンハンサEN55は、更新制御信号UC10の状態に従って第2の雑音サブバンドパワー推定値のセットを生成する、雑音サブバンドパワー推定値計算器NP100bの実装形態NP105を含む。たとえば、雑音サブバンドパワー推定値計算器NP105は、図58Bのブロック図に示すように、パワー推定値計算器EC120の実装形態EC125のインスタンスとして実装できる。パワー推定値計算器EC125は、次式などの線形平滑化式に従って、加算器EC10によって計算されるq個の和の各々に対して時間平滑化演算(たとえば、2つ以上の非アクティブフレームにわたる平均)を実行するように構成された、平滑器EC20の実装形態EC25を含む。
Figure 0005628152
上式で、γは平滑化係数である。この例では、平滑化係数γは、0(平滑化なし)から1(最大平滑化、更新なし)の範囲内の値(たとえば、0.3、0.5、0.7、0.9、0.99、または0.999)を有する。平滑器EC25は、q個のサブバンドのすべてに対して平滑化係数γの同じ値を使用することが望ましい。代替的に、平滑器EC25は、q個のサブバンドの2つ以上(場合によってはすべて)の各々に対して平滑化係数γの異なる値を使用することが望ましい。平滑化係数γの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。同様に、(図50に示す)エンハンサEN320、(図52に示す)EN330、(図54に示す)EN450、または(図56に示す)EN460中に第2の雑音サブバンドパワー推定値計算器NP100bを実装するために、雑音サブバンドパワー推定値計算器NP105のインスタンスを使用することが望ましい。
図59に、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成された、装置A100の代替実装形態A300のブロック図を示す。装置A200のように、装置A100の装置A300は、モード選択信号S80を発生するように構成された分離評価器(たとえば、分離評価器EV10)を含む。この場合、装置A300は、音声信号S40に対してAGCまたはAVC演算を実行するように構成された自動ボリューム制御(AVC)モジュールVC10をも含み、モード選択信号S80は、モード選択信号S80の対応する状態に従って、フレームごとにAVCモジュールVC10およびエンハンサEN10のうちの1つを選択するようにセレクタSL40(たとえば、マルチプレクサ)およびSL50(たとえば、デマルチプレクサ)を制御するために適用する。図60に、本明細書で説明するエンハンサEN150の実装形態EN500と、AGCモジュールG10およびVAD V10のインスタンスとをも含む、装置A300の実装形態A310のブロック図を示す。この例では、エンハンサEN500は、等化器の音響出力レベルを制限するように構成されたピークリミッタL10のインスタンスを含む上述のエンハンサEN160の実装形態でもある。(装置A300の、このおよび他の開示する構成はまた、エンハンサEN400またはEN450など、本明細書で開示するエンハンサEN10の代替実装形態を使用して実装できることが当業者には理解されよう。)
AGCまたはAVC演算は、一般に単一のマイクロフォンから得られる定常雑音推定値に基づいてオーディオ信号のレベルを制御する。そのような推定値は、本明細書で説明する非分離雑音基準S95のインスタンスから(代替的に、感知オーディオ信号S10から)計算できる。たとえば、非分離雑音基準S95のパワー推定値(たとえば、現在のフレームのエネルギーまたは絶対値の和)などのパラメータの値に従って音声信号S40のレベルを制御するようにAVCモジュールVC10を構成することが望ましい。他のパワー推定値に関して上述したように、非分離感知オーディオ信号がボイスアクティビティを現在含んでいないときのみ、そのようなパラメータ値に対して時間平滑化演算を実行するようにおよび/またはそのパラメータ値を更新するように、AVCモジュールVC10を構成することが望ましい。図61に、AVCモジュールVC10の実装形態VC20が、感知オーディオチャネルS10−1からの情報(たとえば、信号S10−1の現在のパワー推定値)に従って音声信号S40のボリュームを制御するように構成された、装置A310の実装形態A320のブロック図を示す。
図62に、装置A100の別の実装形態A400のブロック図を示す。装置A400は、本明細書で説明するエンハンサEN200の実装形態を含み、装置A200と同様である。ただし、この場合、モード選択信号S80は無相関雑音検出器UD10によって発生される。アレイのあるマイクロフォンには影響を及ぼし、別のマイクロフォンには影響を及ぼさない雑音である無相関雑音は、風雑音、呼吸音、スクラッチングなどを含むことがある。SSPフィルタSS10などのマルチマイクロフォン信号分離システムは、許容される場合、実際に無相関雑音を増幅することがあるので、そのような雑音によりそのシステムに望ましくない結果が生じることがある。無相関雑音を検出するための技法は、マイクロフォン信号(あるいは各マイクロフォン信号における約200Hzから約800または1000Hzまでの帯域など、そのマイクロフォン信号の部分)の相互相関を推定することを含む。そのような相互相関推定は、マイクロフォン間の遠距離応答を等化するために2次マイクロフォン信号の通過帯域を利得調整することと、利得調整された信号を1次マイクロフォン信号の通過帯域から減算することと、差分信号のエネルギーを(差分信号のおよび/または1次マイクロフォン通過帯域の経時的エネルギーに基づいて適応的とすることができる)しきい値と比較することとを含むことができる。無相関雑音検出器UD10は、そのような技法および/または任意の他の適切な技法に従って実装できる。また、マルチマイクロフォンデバイスにおける無相関雑音の検出については、無相関雑音検出器UD10の設計および実装形態ならびにそのような検出器の音声処理装置中への統合についての開示に限定した目的のために、参照により本明細書に組み込まれる、2008年8月29日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する米国特許出願第12/201,528号において論じられている。装置A400は、装置A110の実装形態として(すなわち、エンハンサEN200が音源信号S20を音声信号S40として受信するように構成されるように)実装できることに明確に留意されたい。
別の例では、無相関雑音検出器UD10のインスタンスを含む装置A100の実装形態は、モード選択信号S80が第2の状態を有するとき(すなわち、モード選択信号S80が、無相関雑音が検出されたことを示すとき)、(たとえば、上述のように)エンハンサEN10をバイパスするように構成される。そのような構成は、たとえば、エンハンサEN10が音源信号S20を音声信号として受信するように構成された、装置A110の実装形態の場合に望ましい。
上記のように、2つ以上のマイクロフォン信号に対して1つまたは複数の前処理演算を実行することによって感知オーディオ信号S10を得ることが望ましい。図63に、M個のアナログマイクロフォン信号SM10−1〜SM10−Mを前処理して感知オーディオ信号S10のM個のチャネルS10−1〜S10−Mを生成するように構成されたオーディオプリプロセッサAP10を含む、装置A100の実装形態A500(場合によっては、装置A110および/またはA120の実装形態)のブロック図を示す。たとえば、オーディオプリプロセッサAP10は、アナログマイクロフォン信号のペアSM10−1、SM10−2をデジタル化して感知オーディオ信号S10のチャネルのペアS10−1、S10−2を生成するように構成できる。装置A500は、装置A110の実装形態として(すなわち、エンハンサEN10が音源信号S20を音声信号S40として受信するように構成されるように)実装できることに明確に留意されたい。
オーディオプリプロセッサAP10はまた、アナログおよび/またはデジタル領域において、スペクトル整形および/またはエコー消去など、マイクロフォン信号に対する他の前処理演算を実行するように構成できる。たとえば、オーディオプリプロセッサAP10は、アナログ領域およびデジタル領域のいずれかにおいて、マイクロフォン信号のうちの1つまたは複数の各々に1つまたは複数の利得係数を適用するように構成できる。これらの利得係数の値は、それらのマイクロフォンが周波数応答および/または利得に関して互いに一致するように、選択するかまたはさもなければ計算することができる。これらの利得係数を評価するために実行できる較正手順について、以下でより詳細に説明する。
図64Aに、第1および第2のアナログデジタル変換器(ADC)C10aおよびC10bを含む、オーディオプリプロセッサAP10の実装形態AP20のブロック図を示す。第1のADC C10aは、マイクロフォンMC10からの信号SM10−1をデジタル化してデジタル化マイクロフォン信号DM10−1を得るように構成され、第2のADC C10bは、マイクロフォンMC20からの信号SM10−2をデジタル化してデジタル化マイクロフォン信号DM10−2を得るように構成される。ADC C10aおよびC10bによって適用できる典型的なサンプリングレートは、8kHz、12kHz、16kHz、および約8kHzから約16kHzまでの範囲内の他の周波数を含むが、約44kHzと同じ程度のサンプリングレートも使用できる。この例では、オーディオプリプロセッサAP20はまた、サンプリングの前にそれぞれマイクロフォン信号SM10−1およびSM10−2に対して1つまたは複数のアナログ前処理演算を実行するように構成されたアナログプリプロセッサのペアP10aおよびP10bと、サンプリングの後にそれぞれマイクロフォン信号DM10−1およびDM10−2に対して1つまたは複数のデジタル前処理演算(たとえば、エコー消去、雑音低減、および/またはスペクトル整形)を実行するように構成されたデジタルプリプロセッサのペアP20aおよびP20bとを含む。
図65に、オーディオプリプロセッサAP20のインスタンスを含む、装置A310の実装形態A330のブロック図を示す。装置A330は、マイクロフォン信号SM10−1からの情報(たとえば、信号SM10−1の現在のパワー推定値)に従って音声信号S40のボリュームを制御するように構成された、AVCモジュールVC10の実装形態VC30をも含む。
図64Bに、オーディオプリプロセッサAP20の実装形態AP30のブロック図を示す。この例では、アナログプリプロセッサP10aおよびP10bの各々は、サンプリングの前にそれぞれマイクロフォン信号SM10−1およびSM10−2に対してアナログスペクトル整形演算を実行するように構成された高域フィルタF10aおよびF10bの各々として実装される。各フィルタF10aおよびF10bは、たとえば、50、100、または200Hzのカットオフ周波数を用いて高域フィルタ処理演算を実行するように構成できる。
音声信号S40が再生音声信号(たとえば、遠端信号)である場合、対応する処理済み音声信号S50を使用して、感知オーディオ信号S10からエコーを消去する(すなわち、マイクロフォン信号からエコーを除去する)ように構成されたエコーキャンセラをトレーニングすることができる。オーディオプリプロセッサAP30の例では、デジタルプリプロセッサP20aおよびP20bは、処理済み音声信号S50からの情報に基づいて感知オーディオ信号S10からエコーを消去するように構成されたエコーキャンセラEC10として実装される。エコーキャンセラEC10は、時間領域バッファから処理済み音声信号S50を受信するように構成できる。1つのそのような例では、時間領域バッファは10ミリ秒の長さ(たとえば、8kHzのサンプリングレートで80個のサンプル、または16kHzのサンプリングレートで160個のサンプル)を有する。スピーカーフォンモードおよび/またはプッシュツートーク(PTT)モードなど、装置A110を含む通信デバイスのいくつかの動作モード中は、エコー消去演算を中断する(たとえば、マイクロフォン信号をそのままパスするようにエコーキャンセラEC10を構成する)ことが望ましい。
エコーキャンセラをトレーニングするために処理済み音声信号S50を使用することにより、(たとえば、エコーキャンセラと強調制御要素の出力との間で行われる処理の程度のために)フィードバック問題が生じることが考えられる。そのような場合、エンハンサEN10の現在のアクティビティに従ってエコーキャンセラのトレーニングレートを制御することが望ましい。たとえば、利得係数の現在値の測度(たとえば、平均)に反比例してエコーキャンセラのトレーニングレートを制御し、および/または利得係数の連続する値の間の差の測度(たとえば、平均)に反比例してエコーキャンセラのトレーニングレートを制御することが望ましい。
図66Aに、シングルチャネルエコーキャンセラの2つのインスタンスEC20aおよびEC20bを含む、エコーキャンセラEC10の実装形態EC12のブロック図を示す。この例では、シングルチャネルエコーキャンセラの各インスタンスは、マイクロフォン信号DM10−1、DM10−2のうちの対応する1つを処理して感知オーディオ信号S10の対応するチャネルS10−1、S10−2を生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技法(たとえば、最小2乗平均技法および/または適応相関技法)に従って、シングルチャネルエコーキャンセラの様々なインスタンスをそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第12/197,924号の段落[00139]〜[00141](「An apparatus」で開始し「B500」で終了する)で論じられており、それらの段落は、限定はしないがエコーキャンセラの設計および/または実装形態ならびに/あるいは音声処理装置の他の要素とのエコーキャンセラの統合を含む、エコー消去問題の開示に限定した目的のために、参照により本明細書に組み込まれる。
図66Bに、処理済み音声信号S50をフィルタ処理するように構成されたフィルタCE10と、そのフィルタ処理された信号を処理中のマイクロフォン信号と組み合わせるように構成された加算器CE20とを含む、エコーキャンセラEC20aの実装形態EC22aのブロック図を示す。フィルタCE10のフィルタ係数値は固定とすることができる。代替的に、フィルタCE10のフィルタ係数値のうちの少なくとも1つ(および場合によってはすべて)は、(たとえば、処理済み音声信号S50に基づいて)装置A110の演算中に適応させることができる。以下でより詳細に説明するように、通信デバイスの参照インスタンスがオーディオ信号を再生するときにその参照インスタンスによって記録されるマルチチャネル信号のセットを使用して、フィルタCE10の参照インスタンスを初期状態にトレーニングし、その初期状態をフィルタCE10の生成インスタンスに複製することが望ましい。
エコーキャンセラEC20bは、マイクロフォン信号DM10−2を処理して感知オーディオチャネルS40−2を生成するように構成された、エコーキャンセラEC22aの別のインスタンスとして実装できる。代替的に、エコーキャンセラEC20aおよびEC20bは、異なる時間にそれぞれのマイクロフォン信号の各々を処理するように構成された、シングルチャネルエコーキャンセラの同じインスタンス(たとえば、エコーキャンセラEC22a)として実装できる。
エコーキャンセラEC10のインスタンスを含む装置A110の実装形態はまた、処理済み音声信号S50に対してボイスアクティビティ検出演算を実行するように構成されたVAD V10のインスタンスを含むように構成できる。そのような場合、装置A110は、ボイスアクティビティ演算の結果に基づいてエコーキャンセラEC10の演算を制御するように構成できる。たとえば、そのようなボイスアクティビティ検出演算の結果が現在のフレームがアクティブであることを示すとき、エコーキャンセラEC10のトレーニング(たとえば、適応)をアクティブにし、エコーキャンセラEC10のトレーニングレートを増加させ、および/またはエコーキャンセラEC10の1つまたは複数のフィルタ(たとえば、フィルタCE10)の深さを増加させるように装置A110を構成することが望ましい。
図66Cに、装置A110の実装形態A600のブロック図を示す。装置A600は、オーディオ入力信号S100(たとえば、遠端信号)を処理して等化されたオーディオ信号ES10を生成するように構成された等化器EQ10を含む。等化器EQ10は、等化されたオーディオ信号ES10を生成するために、雑音基準S30からの情報に基づいてオーディオ入力信号S100のスペクトル特性を動的に改変するように構成できる。たとえば、等化器EQ10は、等化されたオーディオ信号ES10を生成するために、雑音基準S30からの情報を使用して、オーディオ入力信号S100の少なくとも1つの周波数サブバンドを、オーディオ入力信号S100の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成できる。等化器EQ10および関連する等化方法の例は、たとえば、上記で参照した米国特許出願第12/277,283号において開示されている。本明細書で開示する通信デバイスD100は、装置A550ではなく装置A600のインスタンスを含むように実装できる。
装置A100の実装形態(たとえば、装置A110の実装形態)を含むように構築できるオーディオ感知デバイスのいくつかの例を図67A〜図72Cに示す。図67Aに、第1の動作構成における2マイクロフォンハンドセットH100の中央軸に沿った断面図を示す。ハンドセットH100は1次マイクロフォンMC10と2次マイクロフォンMC20とを有するアレイを含む。この例では、ハンドセットH100はまた1次ラウドスピーカーSP10と2次ラウドスピーカーSP20とを含む。ハンドセットH100が第1の動作構成にあるとき、1次ラウドスピーカーSP10はアクティブであり、2次ラウドスピーカーSP20は使用不能にされるか、またはさもなければ無音にされる。この構成では、スピーチ強調および/または雑音低減のための空間選択的処理技法をサポートするために、1次マイクロフォンMC10と2次マイクロフォンMC20の両方がアクティブのままであることが望ましい。
ハンドセットH100は、1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成できる。本明細書で説明する通信デバイスの送信機および/または受信機とともに使用できる、またはそれらとともに使用するように適応させることができるコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec(EVRC)、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックがある。
図67Bに、ハンドセットH100のための第2の動作構成を示す。この構成では、1次マイクロフォンMC10はふさがれ、2次ラウドスピーカーSP20はアクティブであり、1次ラウドスピーカーSP10は使用不能にされるか、またはさもなければ無音にされる。この場合も、この構成では、(空間選択処理技法をサポートするために)1次マイクロフォンMC10と2次マイクロフォンMC20の両方がアクティブであることが望ましい。ハンドセットH100は、その(1つまたは複数の)状態がデバイスの現在の動作構成を示す、1つまたは複数のスイッチまたは同様のアクチュエータを含むことができる。
装置A100は、3つ以上のチャネルを有する感知オーディオ信号S10のインスタンスを受信するように構成できる。たとえば、図68Aに、アレイが3次マイクロフォンMC30を含む、ハンドセットH100の実装形態H110の断面図を示す。図68Bに、デバイスの軸に沿って様々なトランスデューサの配置を示す、ハンドセットH110の2つの他の図を示す。図67A〜図68Bは、クラムシェルタイプセルラー電話ハンドセットの例を示している。装置A100の実装形態を有するセルラー電話ハンドセットの他の構成には、バータイプおよびスライダタイプの電話ハンドセット、ならびにトランスデューサのうちの1つまたは複数が軸から離れて配設されているハンドセットがある。
M個のマイクロフォンを有するイヤピースまたは他のヘッドセットは、装置A100の実装形態を含むことができる別の種類のポータブル通信デバイスである。そのようなヘッドセットはワイヤードまたはワイヤレスとすることができる。図69A〜図69Dに、2マイクロフォンアレイをもつ筐体Z10と、その筐体から延びる、遠端信号を再生するためのイヤフォンZ20(たとえば、ラウドスピーカー)とを含む、そのようなワイヤレスヘッドセットD300の一例の様々な図を示す。そのようなデバイスは、(たとえば、Bluetooth(登録商標) Special Interest Group社(ワシントン州ベルビュー)によって公表されたBluetooth(登録商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話をサポートするように構成できる。一般に、ヘッドセットの筐体は、図69A、図69B、および図69Dに示すように矩形またはさもなければ細長い形(たとえば、ミニブームのような形)とするか、あるいはより丸い形、さらには円形とすることができる。その筐体は、バッテリおよびプロセッサ、および/または装置A100の実装を実行するように構成された他の処理回路(たとえば、プリント回路板およびその上に取り付けられた構成要素)を囲むことができる。その筐体はまた、電気的ポート(たとえば、ミニユニバーサルシリアルバス(USB)またはバッテリ充電用の他のポート)と、1つまたは複数のボタンスイッチおよび/またはLEDなどのユーザインターフェース機能とを含むことができる。一般に、その筐体の長軸に沿った長さは1インチから3インチまでの範囲内である。
一般に、アレイの各マイクロフォンは、音響ポートとして働く、筐体中の1つまたは複数の小さい穴の後ろでデバイス内に取り付けられる。図69B〜図69Dは、アレイの1次マイクロフォンのための音響ポートZ40と、アレイの2次マイクロフォンのための音響ポートZ50とのロケーションを示している。ヘッドセットはまた、イヤフックZ30などの固定デバイスを含むことができ、これは一般にヘッドセットから着脱可能である。外部イヤフックは、たとえば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆のものとすることができる。代替的に、ヘッドセットのイヤフォンは、内部固定デバイス(たとえば、イヤプラグ)として設計でき、この内部固定デバイスは、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ(たとえば、直径)のイヤピースを使用できるようにするためのリムーバブルイヤピースを含むことができる。
図70Aに、ユーザの耳65に使用するために取り付けられる、ヘッドセットD300の実装形態D310の異なる動作構成の範囲66の図を示す。ヘッドセットD310は、使用中にユーザの口64に対して異なって配向できる縦形構成で構成された1次マイクロフォンと2次マイクロフォンとのアレイ67を含む。さらなる一例では、装置A100の実装形態を含むハンドセットは、(たとえばBluetooth(登録商標)プロトコルのバージョンを使用して)ワイヤードおよび/またはワイヤレス通信リンクを介して、M個のマイクロフォンを有するヘッドセットから感知オーディオ信号S10を受信し、遠端処理済み音声信号S50をヘッドセットに出力するように構成される。
図71A〜図71Dに、ワイヤレスヘッドセットの別の例であるマルチマイクロフォンポータブルオーディオ感知デバイスD350の様々な図を示す。ヘッドセットD350は、丸く、楕円の筐体Z12と、イヤプラグとして構成できるイヤフォンZ22とを含む。図71A〜図71Dはまた、デバイスD350のアレイの1次マイクロフォンのための音響ポートZ42と、2次マイクロフォンのための音響ポートZ52とのロケーションを示している。2次マイクロフォンポートZ52が(たとえば、ユーザインターフェースボタンによって)少なくとも部分的にふさがれることが起こりうる。
M個のマイクロフォンを有するハンズフリーカーキットは、装置A100の実装形態を含むことができる別の種類のモバイル通信デバイスである。そのようなデバイスの音響環境は、風雑音、回転雑音、および/またはエンジン雑音を含むことができる。そのようなデバイスは、車両のダッシュボードに設置するか、あるいは風防、バイザー、または別の室内表面に着脱自在に固定するように、構成できる。図70Bに、ラウドスピーカー85とM個マイクロフォンアレイ84とを含むそのようなカーキット83の例の図を示す。この特定の例では、Mは4に等しく、M個のマイクロフォンは線形アレイにおいて構成される。そのようなデバイスは、上記の例などの1つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成できる。代替または追加として、そのようなデバイスは、(たとえば、上述のようにBluetooth(登録商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介して半二重または全二重電話をサポートするように構成できる。
装置A100の実装形態を含むことができる通信デバイスの他の例には、オーディオまたはオーディオビジュアル会議のための通信デバイスがある。そのような会議デバイスの典型的な使用は、複数の所望の音声ソース(たとえば、様々な参加者の口)に関与することがある。そのような場合、マイクロフォンのアレイは3つ以上のマイクロフォンを含むことが望ましい。
M個のマイクロフォンを有するメディア再生デバイスは、装置A100の実装形態を含むことができる一種のオーディオまたはオーディオビジュアル再生デバイスである。図72Aに、標準コーデック(たとえば、Moving Pictures Experts Group(MPEG)−1 Audio Layer 3(MP3)、MPEG−4 Part 14(MP4)、Windows(登録商標) Media Audio/Video(WMA/WMV)のバージョン(マイクロソフト社(ワシントン州レドモンド))、Advanced Audio Coding(AAC)、International Telecommunication Union(ITU)−T H.264など)に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生する(および場合によっては記録する)ように構成できる、そのようなデバイスD400の図を示す。デバイスD400は、デバイスの前面に配設されたディスプレイスクリーンDSC10とラウドスピーカーSP10とを含み、マイクロフォンアレイのマイクロフォンMC10およびMC20が、デバイスの同じ面に(たとえば、この例のように上面の両側に、または前面の両側に)配設される。図72Bに、マイクロフォンMC10およびMC20がデバイスの反対側の面に配設されたデバイスD400の別の実装形態D410を示し、図72Cに、マイクロフォンMC10およびMC20がデバイスの隣接する面に配設されたデバイスD400のさらなる実装形態D420を示す。図72A〜図72Cに示すメディア再生デバイスはまた、意図された使用中、より長い軸が水平になるように、設計できる。
装置A100の実装形態をトランシーバ(たとえば、上述のセルラー電話またはワイヤレスヘッドセット)内に含めることができる。図73Aに、装置A500および装置A120の実装形態A550を含むそのような通信デバイスD100のブロック図を示す。デバイスD100は、装置A550に結合された受信機R10を含み、受信機R10は、高周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を遠端オーディオ入力信号S100として復号し再生するように構成され、遠端オーディオ入力信号S100は、この例では音声信号S40として装置A550によって受信される。デバイスD100は、装置A550に結合された送信機X10をも含み、送信機X10は、近端処理済み音声信号S50bを符号化し、符号化オーディオ信号を記述するRF通信信号を送信するように構成される。装置A550の近端経路(すなわち、信号SM10−1およびSM10−2から処理済み音声信号S50bまで)をデバイスD100の「オーディオフロントエンド」と呼ぶことがある。デバイスD100はオーディオ出力段O10をも含み、出力段O10は、遠端処理済み音声信号S50aを処理し(たとえば、処理済み音声信号S50aをアナログ信号に変換し)、その処理されたオーディオ信号をラウドスピーカーSP10に出力するように構成される。この例では、オーディオ出力段O10は、ボリューム制御信号VS10のレベルに従って、処理されたオーディオ信号のボリュームを制御するように構成され、そのレベルはユーザ制御の下で変動することがある。
装置A100の実装形態(たとえば、A110またはA120)は、通信デバイスの他の要素(たとえば、移動局モデム(MSM)チップまたはチップセットのベースバンド部分)が感知オーディオ信号S10に対してさらなるオーディオ処理演算を実行するように構成されるように、通信デバイス内に常駐することが望ましい。装置A110の実装形態中に含まれるエコーキャンセラ(たとえば、エコーキャンセラEC10)を設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ(たとえば、MSMチップまたはチップセットのエコー消去モジュール)との間の起こりうる相乗効果を考慮に入れることが望ましい。
図73Bに、通信デバイスD100の実装形態D200のブロック図を示す。デバイスD200は、装置A550のインスタンスを実行するように構成された1つまたは複数のプロセッサを含むチップまたはチップセットCS10(たとえば、MSMチップセット)を含む。チップまたはチップセットCS10は、受信機R10および送信機X10の要素をも含み、CS10の1つまたは複数のプロセッサは、そのような要素のうちの1つまたは複数(たとえば、ワイヤレス受信された符号化信号を復号してオーディオ入力信号S100を生成し、処理済み音声信号S50bを符号化するように構成されたボコーダVC10)を実行するように構成できる。デバイスD200は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD200はまた、アンテナC30への経路中にダイプレクサと1つまたは複数のパワー増幅器とを含むことができる。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD200はまた、Global Positioning System(GPS)ロケーションサービスおよび/またはワイヤレス(たとえば、Bluetooth(登録商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートする1つまたは複数のアンテナC40を含む。別の例では、そのような通信デバイスは、それ自体でBluetooth(登録商標)ヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
図74Aに、ボコーダVC10のブロック図を示す。ボコーダVC10は、(たとえば、本明細書で特定されたコーデックなど、1つまたは複数のコーデックに従って)処理済み音声信号S50を符号化して対応する近端符号化音声信号E10を生成するように構成された符号器ENC100を含む。ボコーダVC10は、(たとえば、本明細書で特定されたコーデックなど、1つまたは複数のコーデックに従って)遠端符号化音声信号E20を復号してオーディオ入力信号S100を生成するように構成された復号器DEC100をも含む。ボコーダVC10は、信号E10の符号化フレームをアセンブルして発信パケットにするように構成されたパケッタイザ(図示せず)と、着信パケットから信号E20の符号化フレームを抽出するように構成されたデパケッタイザ(図示せず)とをも含むことができる。
コーデックは、様々なタイプのフレームを符号化するために様々なコーディング方式を使用することができる。図74Bに、アクティブフレーム符号器ENC10と非アクティブフレーム符号器ENC20とを含む、符号器ENC100の実装形態ENC110のブロック図を示す。アクティブフレーム符号器ENC10は、符号励振線形予測(CELP)、プロトタイプ波形補間(PWI)、またはプロトタイプピッチ周期(PPP)コーディング方式など、有声フレームのためのコーディング方式に従ってフレームを符号化するように構成できる。非アクティブフレーム符号器ENC20は、雑音励振線形予測(NELP)コーディング方式などの無声フレームのためのコーディング方式、または修正離散コサイン変換(MDCT)コーディング方式などの非有声フレームのためのコーディング方式に従ってフレームを符号化するように構成できる。フレーム符号器ENC10およびENC20は、LPC係数値の計算器(場合によっては、音声および非音声フレームに対しては非アクティブフレームに対してよりも高い次数など、異なるコーディング方式に対して異なる次数を有する結果を生成するように構成される)および/またはLPC残差発生器などの共通構造を共有することができる。符号器ENC110は、(たとえば、セレクタSEL1およびSEL2を介して)フレームごとにフレーム符号器のうちの適切な1つを選択するコーディング方式選択信号CS10を受信する。復号器DEC100は、符号化音声信号E20内の情報および/または対応する着信RF信号内の他の情報によって示されるようなコーディング方式の2つ以上のうちの1つに従って符号化フレームを復号するように同様に構成できる。
コーディング方式選択信号CS10は、本明細書で説明する(たとえば、装置A160の)VAD V10または(たとえば装置A165の)V15の出力など、ボイスアクティビティ検出演算の結果に基づくことが望ましい。また、符号器ENC110のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム符号器の1つまたは別の1つに導くためにコーディング方式選択信号CS10を使用することができ、そのような実装形態は、セレクタSEL1および/またはセレクタSEL2の類似物を含まないことがあることに留意されたい。
代替的に、線形予測領域において動作するように構成されたエンハンサEN10のインスタンスを含むようにボコーダVC10を実装することが望ましい。たとえば、エンハンサEN10のそのような実装形態は、上述のように音声信号S40の線形予測分析の結果に基づいて強調ベクトルEV10を発生するように構成された強調ベクトル発生器VG100の実装形態を含むことができ、その分析はボコーダの別の要素(たとえば、LPC係数値の計算器)によって実行される。そのような場合、本明細書で説明する装置A100の実装形態の他の要素(たとえば、オーディオプリプロセッサAP10から雑音低減段NR10まで)は、ボコーダの上流に配置できる。
図75Aに、SSPフィルタSS10の1つまたは複数の指向性処理段を特徴づける係数値を得るために使用できる設計方法M10のフローチャートを示す。方法M10は、マルチチャネルトレーニング信号のセットを記録するタスクT10と、SSPフィルタSS10の構造を収束のためにトレーニングするタスクT20と、トレーニングされたフィルタの分離パフォーマンスを評価するタスクT30とを含む。タスクT20およびT30は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ感知デバイスの外部で実行される。タスクT30において容認できる結果が得られるまで、方法M10のタスクの1つまたは複数を繰り返す。方法M10の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、SSPフィルタSS10の1つまたは複数の指向性処理段の設計、実装、トレーニング、および/または評価に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号に記載されている。
タスクT10は、少なくともM個のマイクロフォンのアレイを使用して、M個のチャネルの各々がM個のマイクロフォンの対応する1つの出力に基づくようにMチャネルトレーニング信号のセットを記録する。トレーニング信号の各々は、各トレーニング信号が音声と雑音成分の両方を含むように少なくとも1つの情報源および少なくとも1つの干渉源に応答してこのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、雑音の多い環境での音声の記録であることが望ましい。マイクロフォン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、雑音低減、スペクトル整形などのためにフィルタ処理)され、さらには(たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって)事前分離される。音声などの音響適用例では、典型的なサンプリングレートは、8kHz〜16kHzにわたる。
Mチャネルトレーニング信号のセットの各々は、P個のシナリオの1つの下で記録され、Pは、2に等しい場合があるが、一般に1よりも大きい任意の整数である。P個のシナリオの各々は、様々な空間特徴(たとえば、様々なハンドセットまたはヘッドセット配向)および/または様々なスペクトル特徴(たとえば、様々な特性を有する音源の捕捉)を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、P個のシナリオのうちの異なる1つの下でそれぞれ記録される少なくともP個のトレーニング信号を含む。
本明細書で説明する装置A100の他の要素を含んでいる同じオーディオ感知デバイスを使用してタスクT10を実行することが可能である。しかしながら、より一般的には、タスクT10は、オーディオ感知デバイス(たとえば、ハンドセットまたはヘッドセット)の参照インスタンスを使用して実行されるであろう。方法M10によって生成される収束フィルタソリューションの得られたセットは、次いで、生成中に同じまたは同様のオーディオ感知デバイスの他のインスタンスにコピーされる(たとえば、各そのような生成インスタンスのフラッシュメモリにロードされる)。
音響無響室は、Mチャネルトレーニング信号のセットを記録するために使用できる。図75Bに、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、Head and Torso Simulator(HATS、デンマーク、Naerum、Bruel&Kjaer製)は、干渉源(すなわち、4つのラウドスピーカー)の内向きアレイ内に配置される。HATSの頭部は、代表的な人間の頭部と音響的に同様であり、音声信号を再生するために口部にラウドスピーカーを含む。干渉源のアレイは、図示のようにHATSを囲む拡散雑音界を生成するように駆動できる。1つのそのような例では、ラウドスピーカーのアレイは、HATS耳参照点または口参照点において75〜78dBの音圧レベルで雑音信号を再生するように構成される。他の場合には、1つまたは複数のそのような干渉源は、様々な空間分布を有する雑音界(たとえば、指向性雑音界)を生成するように駆動できる。
使用できる雑音信号のタイプは、(たとえば、ニュージャージー州Piscataway、米国電気電子学会(IEEE)によって公表されたIEEE規格269−2001、「Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように)ホワイトノイズ、ピンクノイズ、グレーノイズ、Hothノイズを含む。使用できる他のタイプの雑音信号は、ブラウンノイズ、ブルーノイズ、およびパープルノイズを含む。
アレイのマイクロフォンの製造中にばらつきが生じ、そのため大量生産され見掛け上同じマイクロフォンのバッチの間でさえマイクロフォンごとに感度が著しく異なることがある。たとえば、携帯用マスマーケットデバイスにおいて使用するためのマイクロフォンは、プラスまたはマイナス3デシベルの感度許容差で製造され、したがって、アレイ中の2つのそのようなマイクロフォンの感度が6デシベル程度異なることがある。
さらに、マイクロフォンがデバイス中にまたはデバイス上に取り付けられると、マイクロフォンの実効応答特性に変化が生じることがある。マイクロフォンは、一般にデバイス筐体内に音響ポートの後ろで取り付けられ、圧力によって、および/または摩擦もしくは接着によって所定の位置に固定されることがある。そのような方法で取り付けられたマイクロフォンの実効応答特性には、マイクロフォンが取り付けられた空洞の共振および/または他の音響特性、マイクロフォンと取付ガスケットとの間の圧力の量および/または均一性、音響ポートのサイズおよび形状などの多くの要因が影響を及ぼし得る。
方法M10によって生成される収束フィルタソリューションの空間分離特性(たとえば、対応するビームパターンの形状および配向)は、トレーニング信号を収集するためにタスクT10において使用されるマイクロフォンの相対特性に敏感である可能性がある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのM個のマイクロフォンの利得を互いに対して較正することが望ましい。そのような較正は、マイクロフォンの利得の得られた比が所望の範囲内になるように、マイクロフォンのうちの1つまたは複数の出力に適用すべき重み係数を計算または選択することを含むことができる。
タスクT20は、トレーニング信号のセットを使用して、音源分離アルゴリズムに従ってSSPフィルタSS10の構造をトレーニングする(すなわち、対応する収束フィルタソリューションを計算する)。タスクT20は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用してオーディオ感知デバイスの外部で実行される。タスクT20では、得られた出力信号において指向性成分のエネルギーが出力チャネルの1つ(たとえば、音源信号S20)に集中するように、指向性成分を有するマルチチャネル入力信号(たとえば、感知オーディオ信号S10)をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。この出力チャネルは、マルチチャネル入力信号のいかなるチャネルと比較しても増加した信号対雑音比(SNR)を有することができる。
「音源分離アルゴリズム」という用語はブラインド音源分離(BSS)アルゴリズムを含み、ブラインド音源分離(BSS)アルゴリズムは、音源信号の混合のみに基づいて、(1つまたは複数の情報源および1つまたは複数の干渉源からの信号を含むことがある)個々の音源信号を分離する方法である。ブラインド音源分離アルゴリズムは、複数の独立音源から来る混合信号を分離するために使用できる。これらの技法は、各信号の音源に関する情報を必要としないので、「ブラインド音源分離」方法として知られる。「ブラインド」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および/または干渉信号の1つまたは複数の統計値に関する仮定を含む。音声適用例では、たとえば、当該の音声信号は、通常、スーパーガウス分布(たとえば、高尖度)を有すると仮定される。BSSアルゴリズムの種類はまた多変量ブラインドデコンボリューションアルゴリズムを含む。
BSS方法は独立成分分析の実装を含むことができる。独立成分分析(ICA)は、互いからおそらく独立している混合音源信号(成分)を分離するための技法である。その簡略形態では、独立成分分析は、重みの「逆混合」行列を混合信号に適用して(たとえば、行列を混合信号で乗算して)、分離された信号を生成する。重みには初期値を割り当てることができ、次いでその初期値は、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ICAなどの方法は、雑音音源からの音声信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析(「IVA」)は関連するBSS技法であり、音源信号は、単一の可変音源信号ではなくベクトル音源信号である。
音源分離アルゴリズムの種類はまた、たとえば、マイクロフォンアレイの軸に対する音響ソースの1つまたは複数の各々の知られている方向などの他の先験的情報によって制約された、制約付きICAおよび制約付きIVAなど、BSSアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマと区別される。
図8Aを参照しながら上述したように、SSPフィルタSS10は1つまたは複数の段(たとえば、固定フィルタ段FF10、適応フィルタ段AF10)を含むことができる。これらの段の各々は、係数値が、音源分離アルゴリズムから導出された学習規則を使用してタスクT20によって計算される、対応する適応フィルタ構造に基づくことができる。フィルタ構造は、フィードフォワードおよび/またはフィードバック係数を含むことができ、有限インパルス応答(FIR)または無限インパルス応答(IIR)設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第12/197,924号に記載されている。
図76Aに、2つのフィードバックフィルタC110およびC120を含む適応フィルタ構造FS10の2チャネル例のブロック図を示し、図76Aに、2つの直接フィルタD110およびD120をも含むフィルタ構造FS10の実装形態FS20のブロック図を示す。空間選択的処理フィルタSS10は、たとえば、入力チャネルI1、I2がそれぞれ感知オーディオチャネルS10−1、S10−2に対応し、出力チャネルO1、O2がそれぞれ音源信号S20および雑音基準S30に対応するように、そのような構造を含むように実装できる。そのような構造をトレーニングするためにタスクT20によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする(たとえば、フィルタの出力チャネルの少なくとも1つによって含まれる情報量を最大にする)ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報(infomaxとしても知られる)、最尤、および最大非ガウス性(たとえば、最大尖度)がある。
そのような適応構造、およびICAまたはIVA適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、2006年3月9日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第2006/0053002A1号、2006年3月1日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第60/777,920号、2006年3月1日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第60/777,900号、および「Systems and Methods for Blind Source Signal Separation」と題する国際特許公開第WO2007/100330A1号(Kimら)に記載されている。適応フィルタ構造、およびタスクT20においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第12/197,924号に記載されている。たとえば、フィルタ構造FS10およびFS20の各々は、2つのフィードバックフィルタの代わりに2つのフィードフォワードフィルタを使用して実装できる。
図76Aに示すフィードバック構造FS10をトレーニングするためにタスクT20において使用できる学習規則の一例は、次のように表される。
Figure 0005628152
上式で、tは、時間サンプル指数を示し、h12(t)は、時間tにおけるフィルタC110の係数値を示し、h21(t)は、時間tにおけるフィルタC120の係数値を示し、
Figure 0005628152
Δh12kは、出力値y(t)およびy(t)の計算に続くフィルタC110のk番目の係数値の変化を示し、Δh21kは、出力値y(t)およびy(t)の計算に続くフィルタC120のk番目の係数値の変化を示す。アクティブ化関数fを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。音声適用例のためのアクティブ化信号fに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。
線形マイクロフォンアレイから受信された信号の指向性処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロフォンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロフォンの1つは、より直接的に所望のソース(たとえば、ユーザの口)に配向され、他のマイクロフォンは、このソースから比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、音源とセンサとの間のジオメトリ、または音声信号自体が知られていると仮定する。SSPフィルタSS10の構造のフィルタ係数値は、データ従属またはデータ独立ビームフォーマ設計(たとえば、超指向性ビームフォーマ、最小2乗ビームフォーマ、または統計学的最適ビームフォーマ設計)に従って計算できる。データ独立ビームフォーマ設計の場合、(たとえば、雑音相関行列を同調させることによって)所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。
タスクT30は、分離パフォーマンスを評価することによって、タスクT20において生成されたトレーニングされたフィルタを評価する。たとえば、タスクT30は、評価信号のセットに対するトレーニングされたフィルタの応答を評価するように構成できる。評価信号のこのセットは、タスクT20において使用されたトレーニングセットと同じトレーニングセットとすることができる。代替的に、評価信号のセットは、トレーニングセットの信号とは異なるが同様である(たとえば、マイクロフォンの同じアレイの少なくとも一部と、同じP個のシナリオの少なくとも一部とを使用して記録される)Mチャネル信号のセットとすることができる。そのような評価は、自動的におよび/または人間監視によって実行できる。タスクT30は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ感知デバイスの外部で実行される。
タスクT30は、1つまたは複数のメトリックの値に従ってフィルタ応答を評価するように構成できる。たとえば、タスクT30は、1つまたは複数のメトリックの各々の値を計算し、計算値をそれぞれのしきい値と比較するように構成できる。フィルタ応答を評価するために使用できるメトリックの一例は、(A)評価信号の元の情報成分(たとえば、評価信号の記録中にHATSの口部ラウドスピーカーから再生された音声信号)と、(B)その評価信号に対するフィルタの応答の少なくとも1つのチャネルとの間の相関である。そのようなメトリックは、収束フィルタ構造が情報を干渉からどのくらいうまく分離するかを示すことができる。この場合、情報成分がフィルタ応答のM個のチャネルの1つと実質的に相関し、他のチャネルとの相関をほとんど有しないとき、分離が示される。
フィルタ応答を評価する(たとえば、フィルタが情報を干渉からどのくらいうまく分離するかを示す)ために使用できるメトリックの他の例には、分散などの統計特性、ガウス性、および/または尖度などの高次統計モーメントがある。音声信号に使用できるメトリックの追加の例には、ゼロ交差レートおよび経時的なバースト性(時間スパーシティ(time sparsity)としても知られる)がある。一般に、音声信号は、雑音信号よりも低いゼロ交差レートおよび低い時間スパーシティを示す。フィルタ応答を評価するために使用できるメトリックのさらなる一例は、評価信号の記録中のマイクロフォンのアレイに対する情報または干渉源の実際のロケーションが、その評価信号に対するフィルタの応答によって示されるビームパターン(またはヌルビームパターン)と合致する度合いである。タスクT30において使用されるメトリックは、(たとえば、分離評価器EV10などの分離評価器に関して上述した)装置A200の対応する実装形態において使用される分離測度を含むか、またはその分離測度に限定されることが望ましい。
タスクT30において、SSPフィルタSS10の固定フィルタ段(たとえば、固定フィルタ段FF10)について所望の評価結果が得られると、対応するフィルタ状態をSSPフィルタSS10の固定の状態(すなわち、フィルタ係数値の固定セット)として生成デバイスにロードすることができる。後述のように、各生成デバイスにおいて、実験室、工場、または自動(たとえば、自動利得整合)較正手順など、マイクロフォンの利得および/または周波数応答を較正するための手順を実行することも望ましい。
方法M10の1つのインスタンスにおいて生成されたトレーニングされた固定フィルタは、方法M10の別のインスタンスにおいてトレーニング信号の別のセットをフィルタ処理するために使用でき、また、適応フィルタ段の(たとえば、SSPフィルタSS10の適応フィルタ段AF10の)初期条件を計算するために参照デバイスを使用して記録できる。適応フィルタの初期条件のそのような計算の例は、適応フィルタ段の設計、トレーニング、および/または実装形態の説明に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号の、たとえば、段落[00129]〜[00135](「It may be desirable」で開始し「cancellation in parallel」で終了する)に記載されている。そのような初期条件はまた、(たとえば、トレーニングされた固定フィルタ段に関して)生成中に、同じまたは同様のデバイスの他のインスタンスにロードできる。
代替または追加として、方法M10のインスタンスは、上述のようにエコーキャンセラEC10のための1つまたは複数の収束フィルタセットを得るために実行できる。次いで、エコーキャンセラのトレーニングされたフィルタを使用して、SSPフィルタSS10のトレーニング信号の記録中にマイクロフォン信号に対してエコー消去を実行することができる。
生成デバイスでは、マイクロフォンアレイによって生成されるマルチチャネル信号に対する演算(たとえば、SSPフィルタSS10に関して上述した空間選択的処理演算)のパフォーマンスは、アレイチャネルの応答特性がどのくらいよく互いに整合しているかに依存することがある。それぞれのマイクロフォンの応答特性の差異、それぞれの前処理段の利得レベルの差異、および/または回路雑音レベルの差異を含み得る要因によりチャネルのレベルが異なる可能性がある。そのような場合、マイクロフォン応答特性間の差異を補償することができない限り、得られたマルチチャネル信号は音響環境を正確に表現しないことがある。そのような補償がなければ、そのような信号に基づく空間処理演算は誤った結果を与える可能性がある。たとえば、低周波数(すなわち、約100Hz〜1kHz)における1、2デシベル程度の小さいチャネル間の振幅応答偏差は低周波指向性を著しく弱めることがある。マイクロフォンアレイのチャネル間の不平衡の影響は、3つ以上のマイクロフォンを有するアレイからのマルチチャネル信号を処理する適用例では特に有害なことがある。
したがって、生成中および/または生成後に、少なくとも各生成デバイスのマイクロフォンの利得を互いに較正することが望ましい。たとえば、アレイのチャネルの実効利得特性間の差異など、アレイのチャネルの実効応答特性間の差異を定量化するために、アセンブルされたマルチマイクロフォンオーディオ感知デバイスに対して事前配信較正演算を実行することが望ましい(すなわち、ユーザへの配信の前に)。
上述の実験室手順を生成デバイスに対して実行することもできるが、そのような手順を各生成デバイスに対して実行することは実際的でない可能性がある。生成デバイス(たとえば、ハンドセット)の工場較正を実行するために使用できるポータブルチャンバならびに他の較正エンクロージャおよび手順の例は、2008年6月30日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第61/077,144号に記載されている。較正手順は、それぞれのマイクロフォンチャネルに適用すべき補償係数(たとえば、利得係数)を生成するように構成できる。たとえば、そのような補償係数を感知オーディオ信号S10のそれぞれのチャネルに適用するようにオーディオプリプロセッサAP10(たとえば、デジタルプリプロセッサD20aまたはD20b)の要素を構成することができる。
事前配信較正手順は、たいていの製造されたデバイスが実行するのにはあまりに時間がかかるか、または別の形で実際的でないことがある。たとえば、マスマーケットデバイスのインスタンスごとにそのような演算を実行するのは経済的に実行不可能な場合がある。さらに、デバイスの寿命時間にわたって良好なパフォーマンスを保証するには事前配信演算のみでは不十分なことがある。経年変化、温度、放射および汚染を含み得る要因により、マイクロフォン感度は経時的に変動するかまたは別の形で変化することがある。しかしながら、アレイの様々なチャネルの応答間の不平衡に対する適切な補償がなければ、空間選択的処理演算などのマルチチャネル演算についての所望のレベルのパフォーマンスの達成は、困難であるか不可能なことがある。
したがって、サービス中に周期的に、または何らかの他のイベント時に(たとえば、電源投入時、ユーザ選択時などに)、1つまたは複数のマイクロフォン周波数特性および/または感度(たとえば、マイクロフォン利得間の比)を整合させるように構成された較正ルーチンをオーディオ感知デバイス内に含むことが望ましい。そのような自動利得整合手順の例は、較正の方法、ルーチン、動作、デバイス、チャンバ、および手順の開示に限定した目的のために、参照により本明細書に組み込まれる、代理人整理番号第081747号を有し、2009年3月XX日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTICHANNEL SIGNAL BALANCING」と題する米国特許出願第1X/XXX,XXX号に記載されている。
図77に示すように、ワイヤレス電話システム(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMAシステム)は、一般に、複数のベースステーション12と1つまたは複数の基地局コントローラ(BSC)14とを含む無線アクセスネットワークとワイヤレス通信するように構成された複数のモバイル加入者ユニット10を含む。そのようなシステムはまた、無線アクセスネットワークを従来の公衆交換電話網(PSTN)18にインターフェースするように構成された、BSC14に結合された移動交換センター(MSC)16を一般に含む。このインターフェースをサポートするために、MSCは、ネットワーク間の変換ユニットとして働くメディアゲートウェイを含むか、またはそのメディアゲートウェイと通信することができる。メディアゲートウェイは、異なる送信技法および/または符号化技法などの異なるフォーマット間で変換する(たとえば、時分割多重(TDM)ボイスとVoIPとの間で変換する)ように構成され、また、エコー消去、デュアルタイム多重周波数(DTMF)、およびトーン送信などのメディアストリーミング機能を実行するように構成できる。BSC14は迂回中継線を介して基地局12に結合される。迂回中継線は、たとえば、E1/T1、ATM、IP、PPP、フレームリレー、HDSL、ADSL、またはxDSLを含む、いくつかの知られているインターフェースのいずれもサポートするように構成できる。基地局12と、BSC14と、MSC16と、もしあればメディアゲートウェイとの集合は、「インフラストラクチャ」とも呼ばれる。
各基地局12は、有利には、少なくとも1つのセクタ(図示せず)を含み、各セクタは、全方向性アンテナ、または基地局12から放射状に離れる特定の方向に向けられたアンテナを備える。代替として、各セクタは、ダイバーシチ受信用の2つ以上のアンテナを備えることができる。各基地局12は、有利には、複数の周波数割当てをサポートするように設計できる。セクタと周波数割当ての交差はCDMAチャネルと呼ばれることがある。基地局12は基地局トランシーバサブシステム(BTS)12としても知られる。代替的に、「基地局」は、当業界においてBSC14および1つまたは複数のBTS12を一括して指すために使用されることがある。BTS12は「セルサイト」12と示されることもある。代替的に、所与のBTS12の個々のセクタがセルサイトと呼ばれることもある。モバイル加入者ユニット10の種類は、典型的に、セルラーおよび/またはPCS(パーソナルコミュニケーションズサービス)電話、携帯情報端末(PDA)、および/または携帯電話機能を有する他の通信デバイスなど、本明細書で説明する通信デバイスを含む。そのようなユニット10は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセットもしくはヘッドセット(たとえば、USBハンドセット)、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット(たとえば、Bluetooth(登録商標) Special Interest Group(ワシントン州ベルビュー)によって公表されたBluetooth(登録商標)プロトコルのバージョンを使用してユニットにオーディオ情報を通信するヘッドセット)を含むことができる。そのようなシステムは、IS−95規格の1つまたは複数のバージョン(たとえば、Telecommunications Industry Alliance(ヴァージニア州アーリントン)によって公開されたIS−95、IS−95A、IS−95B、cdma2000)に従って使用するように構成できる。
次に、セルラー電話システムの典型的な動作について説明する。ベースステーション12は、モバイル加入者ユニット10のセットから逆方向リンク信号のセットを受信する。モバイル加入者ユニット10は電話通話または他の通信を行っている。所与の基地局12によって受信された各逆方向リンク信号はその基地局12内で処理され、得られたデータはBSC14に転送される。BSC14は、呼リソース割当てと、基地局12間のソフトハンドオフの編成を含むモビリティ管理機能とを提供する。BSC14はまた、受信データをMSC16にルーティングし、MSC16は、PSTN18とインターフェースするための追加のルーティングサービスを提供する。同様に、PSTN18は、MSC16とインターフェースし、MSC16は、BSC14とインターフェースし、BSC14は、順方向リンク信号のセットをモバイル加入者ユニット10のセットに送信するように基地局12を制御する。
図77に示すセルラー電話通信システムの要素は、パケット交換データ通信をサポートするように構成することもできる。図78に示すように、パケットデータトラフィックは、一般に、パケットデータネットワークに接続されたゲートウェイルータに結合されたパケットデータサービングノード(PDSN)22を使用して、モバイル加入者ユニット10と外部パケットデータネットワーク24(たとえば、インターネットなどの公衆ネットワーク)との間でルーティングされる。PDSN22は、今度は、それぞれ1つまたは複数のBSC14にサービスしパケットデータネットワークと無線アクセスネットワークとの間のリンクとして働く1つまたは複数のパケット制御機能(PCF)20にデータをルーティングする。また、パケットデータネットワーク24は、ローカルエリアネットワーク(LAN)、キャンパスエリアネットワーク(CAN)、メトロポリタンエリアネットワーク(MAN)、ワイドエリアネットワーク(WAN)、リング型ネットワーク、スター型ネットワーク、トークンリングネットワークなどを含むように実装できる。ネットワーク24に接続されたユーザ端末は、PDA、ラップトップコンピュータ、パーソナルコンピュータ、ゲーム機(そのようなデバイスの例には、XBOXおよびXBOX 360(マイクロソフト社(ワシントン州レドモンド))、Playstation 3およびPlaystation Portable(ソニー(株)(日本国東京))、ならびにWiiおよびDS(任天堂(日本国京都))がある)、および/またはオーディオ処理機能を有し、VoIPなどの1つまたは複数のプロトコルを使用して電話通話または他の通信をサポートするように構成できる任意のデバイスなど、本明細書で説明するオーディオ感知デバイスの種類に入るデバイスとすることができる。そのような端末は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセット(たとえば、USBハンドセット)、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット(たとえば、たとえば、Bluetooth(登録商標) Special Interest Group(ワシントン州ベルビュー)によって公表されたBluetooth(登録商標)プロトコルのバージョンを使用して端末にオーディオ情報を通信するヘッドセット)を含むことができる。そのようなシステムは、PSTNに決して入ることなしに、(たとえば、VoIPなどの1つまたは複数のプロトコルを介して)異なる無線アクセスネットワーク上のモバイル加入者ユニット間で、モバイル加入者ユニットと非モバイルユーザ端末との間で、または2つの非モバイルユーザ端末間で、電話通話または他の通信をパケットデータトラフィックとして搬送するように構成できる。モバイル加入者ユニット10または他のユーザ端末は、「アクセス端末」とも呼ばれる。
図79Aに、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか)内で実行できる音声信号を処理する方法M100のフローチャートを示す。方法M100は、音源信号と雑音基準とを生成するために(たとえば、SSPフィルタSS10に関して本明細書で説明したように)マルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するタスクT110を含む。たとえば、タスクT110は、マルチチャネル感知オーディオ信号の指向性成分のエネルギーを音源信号に集中することを含むことができる。
方法M100はまた、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するタスクを含む。このタスクは、サブタスクT120、T130、およびT140を含む。タスクT120は、(たとえば、雑音サブバンドパワー推定値計算器NP100に関して本明細書で説明したように)雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算する。タスクT130は、(たとえば、強調ベクトル発生器VG100に関して本明細書で説明したように)音声信号からの情報に基づいて強調ベクトルを発生する。タスクT140は、処理済み音声信号の複数の周波数サブバンドの各々が音声信号の対応する周波数サブバンドに基づくように、(たとえば、利得制御要素CE100およびミキサX100、または利得係数計算器FC300および利得制御要素CE110もしくはCE120に関して本明細書で説明したように)複数の雑音サブバンドパワー推定値と、音声信号からの情報と、強調ベクトルからの情報とに基づいて処理済み音声信号を生成する。方法M100、ならびにタスクT110、T120、T130、およびT140の多数の実装形態は(たとえば、本明細書で開示する様々な装置、要素、および動作によって)本明細書で明確に開示される。
方法M100は、音声信号がマルチチャネル感知オーディオ信号に基づくように実装することが望ましい。図79Bに、タスクT130が音声信号として音源信号を受信するように構成された、方法M100のそのような実装形態M110のフローチャートを示す。この場合、タスクT140は同じく(たとえば、装置A110に関して本明細書で説明したように)処理済み音声信号の複数の周波数サブバンドの各々が、音源信号の対応する周波数サブバンドに基づくように構成される。
代替的に、方法M100は、音声信号が、復号された音声信号からの情報に基づくように実装することが望ましい。そのような復号された音声信号は、たとえば、デバイスによってワイヤレス受信された信号を復号することによって得られる。図80Aに、タスクT150を含む方法M100のそのような実装形態M120のフローチャートを示す。タスクT150は、音声信号を生成するために、デバイスによってワイヤレス受信された符号化音声信号を復号する。たとえば、タスクT150は、本明細書で識別されるコーデックのうちの1つまたは複数(たとえば、EVRC、SMV、AMR)に従って符号化音声信号を復号するように構成できる。
図80Bに、サブタスクT232と、T234と、T236とを含む強調ベクトル生成タスクT130の実装形態T230のフローチャートを示す。タスクT232は、(たとえば、スペクトル平滑器SM10に関して本明細書で説明したように)第1の平滑化信号を得るために音声信号のスペクトルを平滑化する。タスクT234は、(たとえば、スペクトル平滑器SM20に関して本明細書で説明したように)第2の平滑化信号を得るために第1の平滑化信号を平滑化する。タスクT236は、(たとえば、比計算器RC10に関して本明細書で説明したように)第1の平滑化信号と第2の平滑化信号との比を計算する。タスクT130またはタスクT230は、(たとえば、事前強調処理モジュールPM10に関して本明細書で説明したように)音声信号のスペクトルピークの絶対値間の差を低減するサブタスクを含むようにも構成でき、それにより強調ベクトルはこのサブタスクの結果に基づく。
図81Aに、サブタスクT242と、T244と、T246とを含む生成タスクT140の実装形態T240のフローチャートを示す。タスクT242は、(たとえば、利得係数計算器FC300に関して本明細書で説明したように)複数の利得係数値のうちの第1の値が複数の利得係数値のうちの第2の値と異なるように、複数の雑音サブバンドパワー推定値と、強調ベクトルからの情報とに基づいて複数の利得係数値を計算する。(たとえば、利得制御要素CE110および/またはCE120に関して本明細書で説明したように)タスクT244は、処理済み音声信号の第1のサブバンドを得るために音声信号の第1の周波数サブバンドに第1の利得係数値を適用し、タスクT246は、処理済み音声信号の第2のサブバンドを得るために音声信号の第2の周波数サブバンドに第2の利得係数値を適用する。
図81Bに、それぞれタスクT244およびT246の実装形態T344およびT346を含む、生成タスクT240の実装形態T340のフローチャートを示す。タスクT340は、(たとえば、サブバンドフィルタアレイFA120に関して本明細書で説明したように)フィルタ段のカスケードを使用することによって処理済み音声信号を生成して音声信号をフィルタ処理する。タスクT344は、カスケードの第1のフィルタ段に第1の利得係数値を適用し、タスクT346は、カスケードの第2のフィルタ段に第2の利得係数値を適用する。
図81Cに、タスクT160とT170とを含む方法M110の実装形態M130のフローチャートを示す。雑音基準から情報に基づいて、タスクT160は、(たとえば、雑音低減段NR10に関して本明細書で説明したように)音声信号を得るために音源信号に対して雑音低減演算を実行する。一例では、タスクT160は、(たとえば、雑音低減段NR20に関して本明細書で説明したように)音源信号に対してスペクトル減算演算を実行するように構成される。タスクT170は、(たとえば、VAD V15に関して本明細書で説明したように)音源信号と音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行する。方法M130はまた、(たとえば、エンハンサEN150に関して本明細書で説明したように)ボイスアクティビティ検出タスクT170の結果に基づいて処理済み音声信号を生成するタスクT140の実装形態T142を含む。
図82Aに、タスクT105とT180とを含む方法M100の実装形態M140のフローチャートを示す。タスクT105は、(たとえば、エコーキャンセラEC10に関して本明細書で説明したように)マルチチャネル感知オーディオ信号からエコーを消去するためにエコーキャンセラを使用する。タスクT180は、(たとえば、オーディオプリプロセッサAP30に関して本明細書で説明したように)エコーキャンセラをトレーニングするために処理済み音声信号を使用する。
図82Bに、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか)内で実行できる音声信号を処理する方法M200のフローチャートを示す。方法M200は、タスクTM10、TM20、およびTM30を含む。タスクTM10は、(たとえば、スペクトル平滑器SM10およびタスクT232に関して本明細書で説明したように)第1の平滑化信号を得るために音声信号のスペクトルを平滑化する。タスクTM20は、(たとえば、スペクトル平滑器SM20およびタスクT234に関して本明細書で説明したように)第2の平滑化信号を得るために第1の平滑化信号を平滑化する。タスクTM30は、(たとえば、強調ベクトル発生器VG110と、そのような発生器を含むエンハンサEN100、EN110、およびEN120の実装形態とに関して本明細書で説明したように)第1の平滑化信号と第2の平滑化信号との比に基づくコントラスト強調音声信号を生成する。たとえば、タスクTM30は、各サブバンドの利得が、第1の平滑化信号と第2の平滑化信号との比の対応するサブバンドからの情報に基づくように、音声信号の複数のサブバンドの利得を制御することによってコントラスト強調音声信号を生成するように構成できる。
方法M200はまた、(たとえば、事前強調処理モジュールPM10に関して本明細書で説明したように、)音声信号の等化されたスペクトルを得るために、音声信号の適応等化演算を実行するタスク、および/または音声信号のスペクトルピークの絶対値間の差を低減するタスクを含むように実装できる。そのような場合、タスクTM10は、第1の平滑化信号を得るために等化されたスペクトルを平滑化するように構成できる。
図83Aに、一般的構成による、音声信号を処理するための装置F100のブロック図を示す。装置F100は、音源信号と雑音基準とを生成するために(たとえば、SSPフィルタSS10に関して本明細書で説明したように)マルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段G110を含む。たとえば、手段G110は、マルチチャネル感知オーディオ信号の指向性成分のエネルギーを音源信号に集中することを含むように構成できる。
装置F100はまた、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するための手段を含む。そのような手段は、(たとえば、雑音サブバンドパワー推定値計算器NP100に関して本明細書で説明したように)雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するための手段G120を含む。音声信号に対してスペクトルコントラスト強調演算を実行するための手段はまた、(たとえば、強調ベクトル発生器VG100に関して本明細書で説明したように)音声信号からの情報に基づいて強調ベクトルを発生するための手段G130を含む。音声信号に対してスペクトルコントラスト強調演算を実行するための手段はまた、処理済み音声信号の複数の周波数サブバンドの各々が音声信号の対応する周波数サブバンドに基づくように、(たとえば、利得制御要素CE100およびミキサX100、または利得係数計算器FC300および利得制御要素CE110もしくはCE120に関して本明細書で説明したように)複数の雑音サブバンドパワー推定値と、音声信号からの情報と、強調ベクトルからの情報とに基づいて処理済み音声信号を生成するための手段G140を含む。装置F100は、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか)内に実装でき、装置F100、手段G110、手段G120、手段G130、および手段G140の多数の実装形態は(たとえば、本明細書で開示する様々な装置、要素、および動作によって)本明細書で明確に開示される。
装置F100は、音声信号がマルチチャネル感知オーディオ信号に基づくように実装することが望ましい。図83Bに、手段G130が音声信号として音源信号を受信するように構成された、装置F100のそのような実装形態F110のブロック図を示す。この場合、手段G140は同じく(たとえば、装置A110に関して本明細書で説明したように)処理済み音声信号の複数の周波数サブバンドの各々が、音源信号の対応する周波数サブバンドに基づくように構成される。
代替的に、装置F100は、音声信号が、復号された音声信号からの情報に基づくように実装することが望ましい。そのような復号された音声信号は、たとえば、デバイスによってワイヤレス受信された信号を復号することによって得られる。図84Aに、音声信号を生成するために、デバイスによってワイヤレス受信された符号化音声信号を復号するための手段G150を含む装置F100のそのような実装形態F120のブロック図を示す。たとえば、手段G150は、本明細書で識別されるコーデックのうちの1つ(たとえば、EVRC、SMV、AMR)に従って符号化音声信号を復号するように構成できる。
図84Bに、(たとえば、スペクトル平滑器SM10に関して本明細書で説明したように)第1の平滑化信号を得るために音声信号のスペクトルを平滑化するための手段G232と、(たとえば、スペクトル平滑器SM20に関して本明細書で説明したように)第2の平滑化信号を得るために第1の平滑化信号を平滑化するための手段G234と、(たとえば、比計算器RC10に関して本明細書で説明したように)第1の平滑化信号と第2の平滑化信号との比を計算するための手段G236とを含む、強調ベクトルを発生するための手段G130の実装形態G230のフローチャートを示す。タスクG130またはタスクG230は、(たとえば、事前強調処理モジュールPM10に関して本明細書で説明したように)音声信号のスペクトルピークの絶対値間の差を低減するための手段を含むようにも構成でき、それにより強調ベクトルはこの差低減演算の結果に基づく。
図85Aに、(たとえば、利得係数計算器FC300に関して本明細書で説明したように)複数の利得係数値のうちの第1の値が複数の利得係数値のうちの第2の値と異なるように、複数の雑音サブバンドパワー推定値と、強調ベクトルからの情報とに基づいて複数の利得係数値を計算するための手段G242を含む、手段G140の実装形態G240のブロック図を示す。手段G240は、(たとえば、利得制御要素CE110および/またはCE120に関して本明細書で説明したように)タスクT244は、処理済み音声信号の第1のサブバンドを得るために音声信号の第1の周波数サブバンドに第1の利得係数値を適用するための手段G244と、処理済み音声信号の第2のサブバンドを得るために音声信号の第2の周波数サブバンドに第2の利得係数値を適用するための手段G246とを含む。
図85Bに、(たとえば、サブバンドフィルタアレイFA120に関して本明細書で説明したように)処理済み音声信号を生成するために音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含む手段G240の実装形態G340のブロック図を示す。手段G340は、カスケードの第1のフィルタ段に第1の利得係数値を適用するための手段G244の実装形態G344と、カスケードの第2のフィルタ段に第2の利得係数値を適用するための手段G246の実装形態G346とを含む。
図85Cに、(たとえば、雑音低減段NR10に関して本明細書で説明したように)音声信号を得るために雑音基準からの情報に基づいて音源信号に対して雑音低減演算を実行するための手段G160を含む装置F110の実装形態F130のフローチャートを示す。一例では、手段G160は、(たとえば、雑音低減段NR20に関して本明細書で説明したように)音源信号に対してスペクトル減算演算を実行するように構成される。装置F130はまた、(たとえば、VAD V15に関して本明細書で説明したように)音源信号と音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するための手段G170を含む。装置F130はまた、(たとえば、エンハンサEN150に関して本明細書で説明したように)ボイスアクティビティ検出演算の結果に基づいて処理済み音声信号を生成するための手段G140の実装形態G142を含む。
図86Aに、(たとえば、エコーキャンセラEC10に関して本明細書で説明したように)マルチチャネル感知オーディオ信号からエコーを消去するための手段G105を含む装置F100の実装形態F140のフローチャートを示す。手段G105は、(たとえば、オーディオプリプロセッサAP30に関して本明細書で説明したように)処理済み音声信号によってトレーニングされるように構成され、配置される。
図86Bに、一般的構成による、音声信号を処理するための装置F200のブロック図を示す。装置F200は、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか)内に実装できる。装置F200は、上述のように、平滑化するための手段G232と、平滑化するための手段G234とを含む。装置F200はまた、(たとえば、強調ベクトル発生器VG110と、そのような発生器を含むエンハンサEN100、EN110、およびEN120の実装形態とに関して本明細書で説明したように)第1の平滑化信号と第2の平滑化信号との比に基づくコントラスト強調音声信号を生成するための手段G144を含む。たとえば、手段G144は、各サブバンドの利得が、第1の平滑化信号と第2の平滑化信号との比の対応するサブバンドからの情報に基づくように、音声信号の複数のサブバンドの利得を制御することによってコントラスト強調音声信号を生成するように構成できる。
装置F200はまた、(たとえば、事前強調処理モジュールPM10に関して本明細書で説明したように)音声信号の等化されたスペクトルを得るために、音声信号の適応等化演算を実行するための手段、および/または音声信号のスペクトルピークの絶対値間の差を低減するための手段を含むように実装できる。そのような場合、手段G232は、第1の平滑化信号を得るために等化されたスペクトルを平滑化するように構成できる。
説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、状態図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
本明細書に開示する通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応できることが明確に企図され、本明細書によって開示される。また、本明細書に開示する通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツのオーディオ周波数範囲を符号化するシステム)での使用、および/または全帯域広帯域コーディングシステムおよびスプリットバンドコーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超えるオーディオ周波数を符号化するシステム)での使用に適応できることが明確に企図され、本明細書によって開示される。
情報および信号は、多種多様な技術および技法のいずれかを使用して表すことができることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及されるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表すことができる。
本明細書で開示する構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例の1つなどの圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または(たとえば、広帯域通信用の)より高いサンプリングレートにおけるボイス通信の適用例では特に、(一般に百万命令/秒またはMIPSで測定される)処理遅延および/または計算複雑性を最小にすることを含むことができる。
本明細書で開示する装置の実装形態の様々な要素(たとえば、装置A100、A110、A120、A130、A132、A134、A140、A150、A160、A165、A170、A180、A200、A210、A230、A250、A300、A310、A320、A330、A400、A500、A550、A600、F100、F110、F120、F130、F140、およびF200の様々な要素)は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで実施できる。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして製造できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装できる。これらの要素の任意の2つ以上、さらにはすべてを同じ1つまたは複数のアレイ内に実装することができる。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装できる。
(たとえば、上で列挙した)本明細書で開示する装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定的なアレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装することもできる。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)として実施することもでき、これらの要素の任意の2つ以上、さらにはすべてを同じそのような1つまたは複数のコンピュータ内に実装することができる。
本明細書で開示するように処理するためのプロセッサまたは他の手段は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光学デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装できる。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装できる。そのようなアレイの例には、マイクロプロセッサ、埋込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示する処理するためのプロセッサまたは他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含むマシン)あるいは他のプロセッサとして実施することもできる。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の演算に関係するタスクなど、信号平衡化手順に直接関係しないタスクを実行し、または信号平衡化手順に直接関係しない命令の他のセットを実行するために使用することが可能である。また、本明細書で開示する方法の一部がオーディオ感知デバイスのプロセッサによって実行され(たとえば、タスクT110、T120、およびT130、またはタスクT110、T120、T130、およびT242)、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行される(たとえば、復号タスクT150、および/または利得制御タスクT244およびT246)ことが可能である。
本明細書で開示する構成に関連して説明する様々な例示的な論理ブロック、モジュール、回路、および動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装できることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行できる。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体から、もしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装できる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はASIC中に常駐することができる。ASICは、ユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。
本明細書で開示する様々な方法(たとえば、方法M100、M110、M120、M130、M140、およびM200、ならびに本明細書で開示する装置の様々な実装形態の動作の説明によって本明細書で明確に開示されるそのような方法および追加の方法の多数の実装形態)は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装できることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶でき、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信できる。
本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとして有形に実施することもできる。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含むことができる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または所望の情報を記憶するために使用でき、アクセスできる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号でも含むことができる。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードできる。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施するか、プロセッサによって実行されるソフトウェアモジュールで実施するか、またはその2つの組合せで実施することができる。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって可読および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)として実装することもできる。本明細書で開示する方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によって実行することもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行することができる。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成できる。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含むことができる。
本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行でき、本明細書に記載の様々な装置は、そのようなデバイスに含めることができることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話通話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装できる。ソフトウェアで実装する場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶するか、あるいはコンピュータ可読媒体を介して送信することができる。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体でよい。限定ではなく、例として、そのようなコンピュータ可読媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含むことができる)半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの一連の記憶要素、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で担持または記憶するために使用でき、コンピュータによってアクセスできる、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイディスク(disc)(商標)(ブルーレイディスクアソシエーション、カリフォルニア州Universal City)を含み、この場合、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明する音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込むことができる。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにヒューマンマシンインターフェースを含むことができる。限定された処理機能をのみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい。
本明細書で説明するモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ上に存在する電子デバイスおよび/または光学デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明する装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装することもできる。
本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。たとえば、サブバンド信号発生器SG100、EG100、NG100a、NG100b、およびNG100cのうちの2つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドパワー推定値計算器SP100、EP100、NP100a、NP100b(またはNP105)、およびNP100cのうちの2つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドフィルタアレイFA100、およびサブバンドフィルタアレイSG10の1つまたは複数の実装形態は、(たとえば、異なる時間にフィルタ係数値の異なるセットを使用して)異なる時間に同じ構造を含むように実装できる。
また、装置A100および/またはエンハンサEN10の特定の実装形態に関して本明細書で説明した様々な要素は、他の開示した実装形態とともに記載した方法で使用することもできることが明確に企図され、本明細書によって開示される。たとえば、(装置A170に関して説明した)AGCモジュールG10、(装置A500に関して説明した)オーディオプリプロセッサAP10、(オーディオプリプロセッサAP30に関して説明した)エコーキャンセラEC10、雑音低減段の(装置A130に関して説明した)NR10またはNR20、ボイスアクティビティ検出器の(装置A160に関して説明した)V10または(装置A165に関して説明した)V15のうちの1つまたは複数は、装置A100の他の開示した実装形態中に含めることができる。同様に、(エンハンサEN40に関して説明した)ピークリミッタL10は、エンハンサEN10の他の開示した実装形態中に含めることができる。上記では主に感知オーディオ信号S10の2チャネル(たとえば、ステレオ)インスタンスへの適用例について説明したが、(たとえば、3つ以上のマイクロフォンのアレイからの)3つ以上のチャネルを有する感知オーディオ信号S10のインスタンスへの、本明細書で開示した原理の拡張も、明確に企図され、本明細書で開示される。
以下に本件出願当初の特許請求の範囲を付記する。
[C1]
音声信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する行為と、
処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行する行為と
の各々を実行することを備え、
スペクトルコントラスト強調演算を前記実行することが、
前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することと、
前記音声信号からの情報に基づいて強調ベクトルを発生することと、
前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成することと
を含み、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理する方法。
[C2]
空間選択的処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、[C1]に記載の音声信号を処理する方法。
[C3]
前記方法が、復号された音声信号を得るために前記デバイスによってワイヤレス受信された信号を復号することを備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、[C1]に記載の音声信号を処理する方法。
[C4]
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、[C1]に記載の音声信号を処理する方法。
[C5]
空間選択的処理演算を前記実行することが、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定することを含む、[C1]に記載の音声信号を処理する方法。
[C6]
強調ベクトルを前記発生することが、第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化することと、第2の平滑化信号を得るために前記第1の平滑化信号を平滑化することとを備え、
前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、[C1]に記載の音声信号を処理する方法。
[C7]
強調ベクトルを前記発生することが、前記音声信号のスペクトルピークの絶対値間の差を低減することを備え、
前記強調ベクトルが、前記低減することの結果に基づく、[C1]に記載の音声信号を処理する方法。
[C8]
処理済み音声信号を前記生成することが、
複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算することと、
前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用することと、
前記処理済み音声信号の第2のサブバンドを得るために前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用することと
を備え、
前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、[C1]に記載の音声信号を処理する方法。
[C9]
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、[C8]に記載の音声信号を処理する方法。
[C10]
処理済み音声信号を前記生成することが、フィルタ段のカスケードを使用して前記音声信号をフィルタ処理することを含み、
前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を前記適用することが、前記カスケードの第1のフィルタ段に前記利得係数値を適用することを備え、
前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を前記適用することが、前記カスケードの第2のフィルタ段に前記利得係数値を適用することを備える、[C8]に記載の音声信号を処理する方法。
[C11]
前記方法が、
前記マルチチャネル感知オーディオ信号からエコーを消去するためにエコーキャンセラを使用することと、
前記エコーキャンセラをトレーニングするために前記処理済み音声信号を使用することと
を備える、[C1]に記載の音声信号を処理する方法。
[C12]
前記方法が、
前記雑音基準からの情報に基づいて、前記音声信号を得るために前記音源信号に対して雑音低減演算を実行することと、
前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行することと
を備え、
処理済み音声信号を前記生成することが、前記ボイスアクティビティ検出演算の結果に基づく、[C1]に記載の音声信号を処理する方法。
[C13]
音声信号を処理するための装置であって、前記装置が、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段と、
処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行するための手段と
を備え、
スペクトルコントラスト強調演算を実行するための前記手段が、
前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するための手段と、
前記音声信号からの情報に基づいて強調ベクトルを発生するための手段と、
前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成するための手段と
を含み、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理するための装置。
[C14]
前記空間選択的処理演算が、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、[C13]に記載の音声信号を処理するための装置。
[C15]
前記装置が、復号された音声信号を得るために前記装置によってワイヤレス受信された信号を復号するための手段を備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、[C13]に記載の音声信号を処理するための装置。
[C16]
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、[C13]に記載の音声信号を処理するための装置。
[C17]
空間選択的処理演算を実行するための前記手段が、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定するように構成された、[C13]に記載の音声信号を処理するための装置。
[C18]
強調ベクトルを発生するための前記手段が、第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化し、第2の平滑化信号を得るために前記第1の平滑化信号を平滑化するように構成され、
前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、[C13]に記載の音声信号を処理するための装置。
[C19]
強調ベクトルを発生するための前記手段が、前記音声信号のスペクトルピークの絶対値間の差を低減する演算を実行するように構成され、
前記強調ベクトルが前記演算の結果に基づく、[C13]に記載の音声信号を処理するための装置。
[C20]
処理済み音声信号を生成するための前記手段が、
複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算するための手段と、
前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用するための手段と、
前記処理済み音声信号の第2のサブバンドを得るために前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用するための手段と
を備え、
前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、[C13]に記載の音声信号を処理するための装置。
[C21]
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、[C20]に記載の音声信号を処理するための装置。
[C22]
処理済み音声信号を生成するための前記手段が、前記音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含み、
前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用するための前記手段が、前記カスケードの第1のフィルタ段に前記利得係数値を適用するように構成され、
前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用するための前記手段が、前記カスケードの第2のフィルタ段に前記利得係数値を適用するように構成された、[C20]に記載の音声信号を処理するための装置。
[C23]
前記装置が、前記マルチチャネル感知オーディオ信号からエコーを消去するための手段を備え、
エコーを消去するための前記手段が、前記処理済み音声信号によってトレーニングされるように構成され、配置された、[C13]に記載の音声信号を処理するための装置。
[C24]
前記装置が、
前記音声信号を得るために、前記雑音基準からの情報に基づいて、前記音源信号に対して雑音低減演算を実行するための手段と、
前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するための手段と
を備え、
処理済み音声信号を生成するための前記手段が、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、[C13]に記載の音声信号を処理するための装置。
[C25]
音声信号を処理するための装置であって、前記装置が、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、
処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行するように構成されたスペクトルコントラストエンハンサと
を備え、
前記スペクトルコントラストエンハンサが、
前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するように構成されたパワー推定値計算器と、
前記音声信号からの情報に基づいて強調ベクトルを発生するように構成された強調ベクトル発生器と
を含み、
前記スペクトルコントラストエンハンサが、前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成するように構成され、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理するための装置。
[C26]
前記空間選択的処理演算が、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、[C25]に記載の音声信号を処理するための装置。
[C27]
前記装置が、復号された音声信号を得るために前記装置によってワイヤレス受信された信号を復号するように構成された復号器を備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、[C25]に記載の音声信号を処理するための装置。
[C28]
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、[C25]に記載の音声信号を処理するための装置。
[C29]
前記空間選択的処理演算が、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定することを含む、[C25]に記載の音声信号を処理するための装置。
[C30]
前記強調ベクトル発生器が、第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化し、第2の平滑化信号を得るために前記第1の平滑化信号を平滑化するように構成され、
前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、[C25]に記載の音声信号を処理するための装置。
[C31]
前記強調ベクトル発生器が、前記音声信号のスペクトルピークの絶対値間の差を低減する演算を実行するように構成され、
前記強調ベクトルが前記演算の結果に基づく、[C25]に記載の音声信号を処理するための装置。
[C32]
前記スペクトルコントラストエンハンサが、
複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算するように構成された利得係数計算器と、
前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用するように構成された利得制御要素と
を含み、
前記利得制御要素が、前記処理済み音声信号の第2のサブバンドを得るために、前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用するように構成され、
前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、[C25]に記載の音声信号を処理するための装置。
[C33]
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、[C32]に記載の音声信号を処理するための装置。
[C34]
前記利得制御要素が、前記音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含み、
前記利得制御要素が、前記カスケードの第1のフィルタ段に前記複数の利得係数値のうちの前記第1の利得係数値を適用することによって、前記音声信号の前記第1の周波数サブバンドに前記利得係数値を適用するように構成され、
前記利得制御要素が、前記カスケードの第2のフィルタ段に前記複数の利得係数値のうちの前記第2の利得係数値を適用することによって、前記音声信号の前記第2の周波数サブバンドに前記利得係数値を適用するように構成された、[C32]に記載の音声信号を処理するための装置。
[C35]
前記装置が、前記マルチチャネル感知オーディオ信号からエコーを消去するように構成されたエコーキャンセラを備え、
前記エコーキャンセラが、前記処理済み音声信号によってトレーニングされるように構成され、配置された、[C25]に記載の音声信号を処理するための装置。
[C36]
前記装置が、
前記音声信号を得るために、前記雑音基準からの情報に基づいて、前記音源信号に対して雑音低減演算を実行するように構成された雑音低減段と、
前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するように構成されたボイスアクティビティ検出器と
を備え、
前記スペクトルコントラストエンハンサが、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、[C25]に記載の音声信号を処理するための装置。
[C37]
少なくとも1つのプロセッサによって実行されたとき、前記少なくとも1つのプロセッサにマルチチャネルオーディオ信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、前記命令が、
プロセッサによって実行されたとき、音源信号と雑音基準とを生成するために前記プロセッサにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行させる命令と、
プロセッサによって実行されたとき、処理済み音声信号を生成するために前記プロセッサに前記音声信号に対してスペクトルコントラスト強調演算を実行させる命令と
を備え、
プロセッサによって実行されたとき、前記プロセッサにスペクトルコントラスト強調演算を実行させる前記命令が、
プロセッサによって実行されたとき、前記プロセッサに前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記音声信号からの情報に基づいて強調ベクトルを発生させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて処理済み音声信号を生成させる命令と
を含み、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、コンピュータ可読媒体。
[C38]
プロセッサによって実行されたとき前記プロセッサに空間選択的処理演算を実行させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中させる命令を含む、[C37]に記載のコンピュータ可読媒体。
[C39]
前記媒体が、プロセッサによって実行されたとき、復号された音声信号を得るために前記プロセッサに前記媒体を含むデバイスによってワイヤレス受信された信号を復号させる命令を備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、[C37]に記載のコンピュータ可読媒体。
[C40]
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、[C37]に記載のコンピュータ可読媒体。
[C41]
プロセッサによって実行されたとき前記プロセッサに空間選択的処理演算を実行させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定させる命令を含む、[C37]に記載のコンピュータ可読媒体。
[C42]
プロセッサによって実行されたとき前記プロセッサに強調ベクトルを発生させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化させる命令と、プロセッサによって実行されたとき、前記プロセッサに第2の平滑化信号を得るために前記第1の平滑化信号を平滑化させる命令とを備え、
前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、[C37]に記載のコンピュータ可読媒体。
[C43]
プロセッサによって実行されたとき前記プロセッサに強調ベクトルを発生させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記音声信号のスペクトルピークの絶対値間の差を低減させる命令を備え、
前記強調ベクトルが、前記低減することの結果に基づく、[C37]に記載のコンピュータ可読媒体。
[C44]
プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、
プロセッサによって実行されたとき、前記プロセッサに、複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記処理済み音声信号の第2のサブバンドを得るために前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用させる命令と
を備え、
前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、[C37]に記載のコンピュータ可読媒体。
[C45]
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、[C44]に記載のコンピュータ可読媒体。
[C46]
プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、プロセッサによって実行されたとき、前記プロセッサにフィルタ段のカスケードを使用して前記音声信号をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき前記プロセッサに、前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記カスケードの第1のフィルタ段に前記利得係数値を適用させる命令を備え、
プロセッサによって実行されたとき前記プロセッサに、前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記カスケードの第2のフィルタ段に前記利得係数値を適用させる命令を備える、[C44]に記載のコンピュータ可読媒体。
[C47]
前記媒体が、
プロセッサによって実行されたとき前記プロセッサに前記マルチチャネル感知オーディオ信号からエコーを消去させる命令
を備え、
プロセッサによって実行されたとき前記プロセッサにエコーを消去させる前記命令が、前記処理済み音声信号によってトレーニングされるように構成され、配置された、[C37]に記載のコンピュータ可読媒体。
[C48]
前記媒体が、
プロセッサによって実行されたとき、前記音声信号を得るために前記プロセッサに前記雑音基準からの情報に基づいて前記音源信号に対して雑音低減演算を実行させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行させる命令と
を備え、
プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、[C37]に記載のコンピュータ可読媒体。
[C49]
音声信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化する行為と、
第2の平滑化信号を得るために前記第1の平滑化信号を平滑化する行為と、
前記第1の平滑化信号と前記第2の平滑化信号との比に基づくコントラスト強調音声信号を生成する行為と
の各々を実行することを備える、音声信号を処理する方法。
[C50]
コントラスト強調音声信号を前記生成することが、前記音声信号の複数のサブバンドの各々について、前記第1の平滑化信号と前記第2の平滑化信号との前記比の対応するサブバンドからの情報に基づいて前記サブバンドの利得を制御することを備える、[C49]に記載の音声信号を処理する方法。

Claims (42)

  1. 音声信号を処理する方法であって、前記方法は、
    雑音基準を生成するためにマルチチャネル感知オーディオ信号に対して処理演算を実行することと、
    処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行することと
    を備え、
    スペクトルコントラスト強調演算を前記実行することが、
    前記音声信号の平滑化スペクトルの比を計算することによって強調ベクトルを発生することであって、前記音声信号の平滑化スペクトルの比を前記計算することは、第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化することと、第2の平滑化信号を得るために前記第1の平滑化信号を平滑化することとを備え、
    前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、発生することと、
    前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成することと
    を含み、
    前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理する方法。
  2. 前記音声信号は遠端音声信号である、請求項1に記載の音声信号を処理する方法。
  3. 前記方法が、復号された音声信号を得るためにデバイスによってワイヤレス受信された信号を復号することを備え、
    前記音声信号が、前記復号された音声信号からの情報に基づく、請求項1に記載の音声信号を処理する方法。
  4. 前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項1に記載の音声信号を処理する方法。
  5. 前記マルチチャネル感知オーディオ信号に対して前記処理演算を前記実行することは、前記雑音基準から分離した音源信号を生成することを含み、
    前記方法が、
    前記雑音基準からの情報に基づいて、前記音声信号を得るために前記音源信号に対して雑音低減演算を実行することと、
    前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行することと
    を備え、
    前記処理済み音声信号を前記生成することが、前記ボイスアクティビティ検出演算の結果に基づく、請求項4に記載の音声信号を処理する方法。
  6. 強調ベクトルを前記発生することが、2つの対数値の差として平滑化スペクトルの前記比を計算することを備える、請求項1乃至5のいずれか1項に記載の音声信号を処理する方法。
  7. 処理済み音声信号を前記生成することが、
    複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算することと、
    前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用することと、
    前記処理済み音声信号の第2のサブバンドを得るために前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用することと
    を備え、
    前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、請求項1乃至6のいずれか1項に記載の音声信号を処理する方法。
  8. 処理済み音声信号を前記生成することが、フィルタ段のカスケードを使用して前記音声信号をフィルタ処理することを含み、
    前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を前記適用することが、前記カスケードの第1のフィルタ段に前記利得係数値を適用することを備え、
    前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を前記適用することが、前記カスケードの第2のフィルタ段に前記利得係数値を適用することを備える、請求項7に記載の音声信号を処理する方法。
  9. 前記方法は前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することを含み、
    前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項7に記載の音声信号を処理する方法。
  10. 前記マルチチャネル感知オーディオ信号に対して前記処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記雑音基準から分離された音源信号に集中することを含む、請求項1乃至9のいずれか1項に記載の音声信号を処理する方法。
  11. 前記マルチチャネル感知オーディオ信号に対して前記処理演算を前記実行することが、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定することを含む、請求項1乃至10のいずれか1項に記載の音声信号を処理する方法。
  12. 前記方法が、
    前記マルチチャネル感知オーディオ信号からエコーを消去するためにエコーキャンセラを使用することと、
    前記エコーキャンセラをトレーニングするために前記処理済み音声信号に基づく信号を使用することと
    を備える、請求項1乃至11のいずれか1項に記載の音声信号を処理する方法。
  13. 音声信号を処理するための装置であって、前記装置が、
    雑音基準を生成するためにマルチチャネル感知オーディオ信号に対して処理演算を実行するための手段と、
    処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行するための手段と
    を備え、
    スペクトルコントラスト強調演算を実行するための前記手段が、
    前記音声信号の平滑化スペクトルの比を計算することによって強調ベクトルを発生するための手段であって、前記強調ベクトルを発生するための前記手段が、第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化し、第2の平滑化信号を得るために前記第1の平滑化信号を平滑化するように構成され、
    前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、発生するための手段と、
    前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成するための手段と
    を含み、
    前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理するための装置。
  14. 前記音声信号は遠端音声信号である、請求項13に記載の音声信号を処理するための装置。
  15. 前記装置が、復号された音声信号を得るために前記装置によってワイヤレス受信された信号を復号するための手段を備え、
    前記音声信号が、前記復号された音声信号からの情報に基づく、請求項13に記載の音声信号を処理するための装置。
  16. 前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項13に記載の音声信号を処理するための装置。
  17. 前記マルチチャネル感知オーディオ信号に対して前記処理演算を前記実行することは前記雑音基準から分離された音源信号を生成することを含み、
    前記装置が、
    前記音声信号を得るために、前記雑音基準からの情報に基づいて、前記音源信号に対して雑音低減演算を実行するための手段と、
    前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するための手段と
    を備え、
    前記処理済み音声信号を生成するための前記手段が、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、請求項16に記載の音声信号を処理するための装置。
  18. 前記強調ベクトルを発生するための前記手段は、2つの対数値の差として平滑化スペクトルの前記比を計算するように構成される、請求項13乃至17のいずれか1項に記載の音声信号を処理するための装置。
  19. 前記処理済み音声信号を生成するための前記手段が、
    複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算するための手段と、
    前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用するための手段と、
    前記処理済み音声信号の第2のサブバンドを得るために前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用するための手段と
    を備え、
    前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、請求項13乃至18のいずれか1項に記載の音声信号を処理するための装置。
  20. 前記処理済み音声信号を生成するための前記手段が、前記音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含み、
    前記音声信号の前記第1の周波数サブバンドに前記複数の利得係数値のうちの前記第1の利得係数値を適用するための前記手段が、前記カスケードの第1のフィルタ段に前記利得係数値を適用するように構成され、
    前記音声信号の前記第2の周波数サブバンドに前記複数の利得係数値のうちの前記第2の利得係数値を適用するための前記手段が、前記カスケードの第2のフィルタ段に前記利得係数値を適用するように構成された、請求項19に記載の音声信号を処理するための装置。
  21. 前記装置は、前記雑音基準からの情報に基づいて、複数の雑音サブバンドパワー推定値を計算するための手段を含み、
    前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項19に記載の音声信号を処理するための装置。
  22. 前記マルチチャネル感知オーディオ信号に対する前記処理演算が、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記雑音基準から分離された音源信号に集中することを含む、請求項13乃至21のいずれか1項に記載の音声信号を処理するための装置。
  23. 前記マルチチャネル感知オーディオ信号に対して処理演算を実行するための前記手段が、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定するように構成された、請求項13乃至22のいずれか1項に記載の音声信号を処理するための装置。
  24. 前記装置が、前記マルチチャネル感知オーディオ信号からエコーを消去するための手段を備え、
    エコーを消去するための前記手段が、前記処理済み音声信号に基づく信号によってトレーニングされるように構成され、配置された、請求項13乃至23のいずれか1項に記載の音声信号を処理するための装置。
  25. 音声信号を処理するための装置であって、前記装置が、
    雑音基準を生成するためにマルチチャネル感知オーディオ信号に対して処理演算を実行するように構成されたフィルタと、
    処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行するように構成されたスペクトルコントラストエンハンサと
    を備え、
    前記スペクトルコントラストエンハンサが、
    前記音声信号の平滑化スペクトルの比を計算することによって強調ベクトルを発生するように構成された強調ベクトル発生器であって、前記強調ベクトル発生器が、第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化し、第2の平滑化信号を得るために前記第1の平滑化信号を平滑化するように構成され、
    前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、強調ベクトル発生器と
    を含み、
    前記スペクトルコントラストエンハンサが、前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成するように構成され、
    前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理するための装置。
  26. 前記音声信号は遠端音声信号である、請求項25に記載の音声信号を処理するための装置。
  27. 前記装置が、復号された音声信号を得るために前記装置によってワイヤレス受信された信号を復号するように構成された復号器を備え、
    前記音声信号が、前記復号された音声信号からの情報に基づく、請求項25に記載の音声信号を処理するための装置。
  28. 前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項25に記載の音声信号を処理するための装置。
  29. 前記フィルタは、前記マルチチャネル感知オーディオ信号から、前記雑音基準から分離された音源信号を生成するように構成され、
    前記装置が、
    前記音声信号を得るために、前記雑音基準からの情報に基づいて、前記音源信号に対して雑音低減演算を実行するように構成された雑音低減段と、
    前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するように構成されたボイスアクティビティ検出器と
    を備え、
    前記スペクトルコントラストエンハンサが、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、請求項28に記載の音声信号を処理するための装置。
  30. 前記強調ベクトル発生器が、2つの対数値の差として平滑化スペクトルの前記比を計算するように構成される、請求項25乃至29のいずれか1項に記載の音声信号を処理するための装置。
  31. 前記スペクトルコントラストエンハンサが、
    複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算するように構成された利得係数計算器と、
    前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用するように構成された利得制御要素と
    を含み、
    前記利得制御要素が、前記処理済み音声信号の第2のサブバンドを得るために、前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用するように構成され、
    前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、請求項25乃至30のいずれか1項に記載の音声信号を処理するための装置。
  32. 前記利得制御要素が、前記音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含み、
    前記利得制御要素が、前記カスケードの第1のフィルタ段に前記利得係数値を適用することによって、前記音声信号の前記第1の周波数サブバンドに前記複数の利得係数値の前記第1の利得係数値を適用するように構成され、
    前記利得制御要素が、前記カスケードの第2のフィルタ段に前記利得係数値を適用することによって、前記音声信号の前記第2の周波数サブバンドに前記複数の利得係数値の前記第2の利得係数値を適用するように構成された、請求項31に記載の音声信号を処理するための装置。
  33. 前記装置は、前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するように構成されたパワー推定値計算器を含み、
    前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項31に記載の音声信号を処理するための装置。
  34. 前記マルチチャネル感知オーディオ信号に対する前記処理演算が、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記雑音基準から分離された音源信号に集中することを含む、請求項25に記載の音声信号を処理するための装置。
  35. 前記マルチチャネル感知オーディオ信号に対する前記処理演算が、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定することを含む、請求項25乃至34のいずれか1項に記載の音声信号を処理するための装置。
  36. 前記装置が、前記マルチチャネル感知オーディオ信号からエコーを消去するように構成されたエコーキャンセラを備え、
    前記エコーキャンセラが、前記処理済み音声信号に基づく信号によってトレーニングされるように構成され、配置された、請求項25乃至35のいずれか1項に記載の音声信号を処理するための装置。
  37. 少なくとも1つのプロセッサによって実行されたとき、前記少なくとも1つのプロセッサにマルチチャネルオーディオ信号を処理する方法を実行させる命令を記憶するコンピュータ可読記憶媒体であって、前記命令が、
    プロセッサによって実行されたとき、雑音基準を生成するために前記プロセッサにマルチチャネル感知オーディオ信号に対して処理演算を実行させる命令と、
    プロセッサによって実行されたとき、処理済み音声信号を生成するために前記プロセッサに前記音声信号に対してスペクトルコントラスト強調演算を実行させる命令と
    を備え、
    プロセッサによって実行されたとき、前記プロセッサにスペクトルコントラスト強調演算を実行させる前記命令が、
    プロセッサによって実行されたとき、前記プロセッサに前記音声信号の平滑化スペクトルの比を計算することによって強調ベクトルを発生させる命令であって、プロセッサによって実行されたとき前記プロセッサに強調ベクトルを発生させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに第1の平滑化信号を得るために前記音声信号のスペクトルを平滑化させる命令と、プロセッサによって実行されたとき、前記プロセッサに第2の平滑化信号を得るために前記第1の平滑化信号を平滑化させる命令とを備え、
    前記強調ベクトルが前記第1の平滑化信号と前記第2の平滑化信号との比に基づく、発生させる命令と、
    プロセッサによって実行されたとき、前記プロセッサに前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて処理済み音声信号を生成させる命令と
    を含み、
    前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、コンピュータ可読記憶媒体。
  38. 前記音声信号は遠端信号である、請求項37に記載のコンピュータ可読記憶媒体。
  39. 前記強調ベクトルを前記生成することは、2つの対数値の差として平滑化スペクトルの前記比を計算することを含む、請求項37または38に記載のコンピュータ可読記憶媒体。
  40. プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、
    プロセッサによって実行されたとき、前記プロセッサに、複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算させる命令と、
    プロセッサによって実行されたとき、前記プロセッサに前記処理済み音声信号の第1のサブバンドを得るために前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用させる命令と、
    プロセッサによって実行されたとき、前記プロセッサに前記処理済み音声信号の第2のサブバンドを得るために前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用させる命令と
    を備え、
    前記複数の利得係数値のうちの前記第1の利得係数値が前記複数の利得係数値のうちの前記第2の利得係数値とは異なる、請求項37、38、および39のいずれか1項に記載のコンピュータ可読記憶媒体。
  41. プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、プロセッサによって実行されたとき、前記プロセッサにフィルタ段のカスケードを使用して前記音声信号をフィルタ処理させる命令を含み、
    プロセッサによって実行されたとき前記プロセッサに、前記音声信号の第1の周波数サブバンドに前記複数の利得係数値のうちの第1の利得係数値を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記カスケードの第1のフィルタ段に前記利得係数値を適用させる命令を備え、
    プロセッサによって実行されたとき前記プロセッサに、前記音声信号の第2の周波数サブバンドに前記複数の利得係数値のうちの第2の利得係数値を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記カスケードの第2のフィルタ段に前記利得係数値を適用させる命令を備える、請求項40に記載のコンピュータ可読記憶媒体。
  42. プロセッサによって実行されたとき、請求項1乃至12のいずれか1項に記載の方法を前記プロセッサに実行させるプロセッサ可読命令を記憶するプロセッサ可読記憶媒体。
JP2011511857A 2008-05-29 2009-05-29 スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品 Expired - Fee Related JP5628152B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US5718708P 2008-05-29 2008-05-29
US61/057,187 2008-05-29
US12/473,492 2009-05-28
US12/473,492 US8831936B2 (en) 2008-05-29 2009-05-28 Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
PCT/US2009/045676 WO2009148960A2 (en) 2008-05-29 2009-05-29 Systems, methods, apparatus, and computer program products for spectral contrast enhancement

Publications (2)

Publication Number Publication Date
JP2011522294A JP2011522294A (ja) 2011-07-28
JP5628152B2 true JP5628152B2 (ja) 2014-11-19

Family

ID=41380870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011511857A Expired - Fee Related JP5628152B2 (ja) 2008-05-29 2009-05-29 スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品

Country Status (7)

Country Link
US (1) US8831936B2 (ja)
EP (1) EP2297730A2 (ja)
JP (1) JP5628152B2 (ja)
KR (1) KR101270854B1 (ja)
CN (2) CN102047326A (ja)
TW (1) TW201013640A (ja)
WO (1) WO2009148960A2 (ja)

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
US20100057472A1 (en) * 2008-08-26 2010-03-04 Hanks Zeng Method and system for frequency compensation in an audio codec
KR20100057307A (ko) * 2008-11-21 2010-05-31 삼성전자주식회사 노래점수 평가방법 및 이를 이용한 가라오케 장치
US8771204B2 (en) 2008-12-30 2014-07-08 Masimo Corporation Acoustic sensor assembly
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
US8275148B2 (en) * 2009-07-28 2012-09-25 Fortemedia, Inc. Audio processing apparatus and method
KR101587844B1 (ko) * 2009-08-26 2016-01-22 삼성전자주식회사 마이크로폰의 신호 보상 장치 및 그 방법
WO2011047213A1 (en) * 2009-10-15 2011-04-21 Masimo Corporation Acoustic respiratory monitoring systems and methods
US8821415B2 (en) * 2009-10-15 2014-09-02 Masimo Corporation Physiological acoustic monitoring system
US8702627B2 (en) 2009-10-15 2014-04-22 Masimo Corporation Acoustic respiratory monitoring sensor having multiple sensing elements
WO2011044848A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 信号处理的方法、装置和系统
US8790268B2 (en) 2009-10-15 2014-07-29 Masimo Corporation Bidirectional physiological information display
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US9288598B2 (en) 2010-03-22 2016-03-15 Aliph, Inc. Pipe calibration method for omnidirectional microphones
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US9053697B2 (en) * 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
CN101894561B (zh) * 2010-07-01 2015-04-08 西北工业大学 一种基于小波变换和变步长最小均方算法的语音降噪方法
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
CA2807370A1 (en) 2010-08-12 2012-02-16 Aliph, Inc. Calibration system with clamping system
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US9521015B2 (en) * 2010-12-21 2016-12-13 Genband Us Llc Dynamic insertion of a quality enhancement gateway
CN102075599A (zh) * 2011-01-07 2011-05-25 蔡镇滨 一种降低环境噪声的装置及方法
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
JP5411880B2 (ja) * 2011-01-14 2014-02-12 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、その音声設定方法、およびコンピュータが実行するためのプログラム
JP5664265B2 (ja) 2011-01-19 2015-02-04 ヤマハ株式会社 ダイナミックレンジ圧縮回路
US8762147B2 (en) * 2011-02-02 2014-06-24 JVC Kenwood Corporation Consonant-segment detection apparatus and consonant-segment detection method
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
KR102053900B1 (ko) 2011-05-13 2019-12-09 삼성전자주식회사 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
US20120294446A1 (en) * 2011-05-16 2012-11-22 Qualcomm Incorporated Blind source separation based spatial filtering
EP2714184B1 (en) * 2011-05-26 2017-05-10 Advanced Bionics AG Systems for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
US20130066638A1 (en) * 2011-09-09 2013-03-14 Qnx Software Systems Limited Echo Cancelling-Codec
US9210506B1 (en) * 2011-09-12 2015-12-08 Audyssey Laboratories, Inc. FFT bin based signal limiting
EP2590165B1 (en) * 2011-11-07 2015-04-29 Dietmar Ruwisch Method and apparatus for generating a noise reduced audio signal
DE102011086728B4 (de) 2011-11-21 2014-06-05 Siemens Medical Instruments Pte. Ltd. Hörvorrichtung mit einer Einrichtung zum Verringern eines Mikrofonrauschens und Verfahren zum Verringern eines Mikrofonrauschens
US11553692B2 (en) 2011-12-05 2023-01-17 Radio Systems Corporation Piezoelectric detection coupling of a bark collar
US11470814B2 (en) 2011-12-05 2022-10-18 Radio Systems Corporation Piezoelectric detection coupling of a bark collar
GB2499052A (en) * 2012-02-01 2013-08-07 Continental Automotive Systems Calculating a power value in a vehicular application
TWI483624B (zh) * 2012-03-19 2015-05-01 Universal Scient Ind Shanghai 用於收音系統之等化前處理方法及其系統
US9373341B2 (en) 2012-03-23 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
US9082389B2 (en) * 2012-03-30 2015-07-14 Apple Inc. Pre-shaping series filter for active noise cancellation adaptive filter
WO2013150340A1 (en) * 2012-04-05 2013-10-10 Nokia Corporation Adaptive audio signal filtering
US8749312B2 (en) * 2012-04-18 2014-06-10 Qualcomm Incorporated Optimizing cascade gain stages in a communication system
US8843367B2 (en) * 2012-05-04 2014-09-23 8758271 Canada Inc. Adaptive equalization system
US9955937B2 (en) 2012-09-20 2018-05-01 Masimo Corporation Acoustic patient sensor coupler
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9628630B2 (en) * 2012-09-27 2017-04-18 Dolby Laboratories Licensing Corporation Method for improving perceptual continuity in a spatial teleconferencing system
US9147157B2 (en) 2012-11-06 2015-09-29 Qualcomm Incorporated Methods and apparatus for identifying spectral peaks in neuronal spiking representation of a signal
US9424859B2 (en) * 2012-11-21 2016-08-23 Harman International Industries Canada Ltd. System to control audio effect parameters of vocal signals
US9516659B2 (en) * 2012-12-06 2016-12-06 Intel Corporation Carrier type (NCT) information embedded in synchronization signal
KR101681188B1 (ko) * 2012-12-28 2016-12-02 한국과학기술연구원 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
JP6162254B2 (ja) * 2013-01-08 2017-07-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
US20140372111A1 (en) * 2013-02-15 2014-12-18 Max Sound Corporation Voice recognition enhancement
US20140372110A1 (en) * 2013-02-15 2014-12-18 Max Sound Corporation Voic call enhancement
US20150006180A1 (en) * 2013-02-21 2015-01-01 Max Sound Corporation Sound enhancement for movie theaters
US9237225B2 (en) * 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
WO2014165032A1 (en) * 2013-03-12 2014-10-09 Aawtend, Inc. Integrated sensor-array processor
US9263061B2 (en) * 2013-05-21 2016-02-16 Google Inc. Detection of chopped speech
EP2819429B1 (en) * 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
CN103441962B (zh) * 2013-07-17 2016-04-27 宁波大学 一种基于压缩感知的ofdm系统脉冲干扰抑制方法
US10828007B1 (en) 2013-10-11 2020-11-10 Masimo Corporation Acoustic sensor with attachment portion
US9635456B2 (en) * 2013-10-28 2017-04-25 Signal Interface Group Llc Digital signal processing with acoustic arrays
AU2014350366B2 (en) 2013-11-13 2017-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
WO2015130257A1 (en) 2014-02-25 2015-09-03 Intel Corporation Apparatus, system and method of simultaneous transmit and receive (str) wireless communication
WO2015135993A1 (en) * 2014-03-11 2015-09-17 Lantiq Deutschland Gmbh Communication devices, systems and methods
CN105225661B (zh) * 2014-05-29 2019-06-28 美的集团股份有限公司 语音控制方法和系统
EP3152756B1 (en) * 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Noise level estimation
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
CN105336332A (zh) * 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
US9817634B2 (en) * 2014-07-21 2017-11-14 Intel Corporation Distinguishing speech from multiple users in a computer interaction
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
KR102493123B1 (ko) * 2015-01-23 2023-01-30 삼성전자주식회사 음성 향상 방법 및 시스템
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
GB2536729B (en) * 2015-03-27 2018-08-29 Toshiba Res Europe Limited A speech processing system and speech processing method
US10559303B2 (en) * 2015-05-26 2020-02-11 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US9666192B2 (en) 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
CN106297813A (zh) * 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
US10231440B2 (en) 2015-06-16 2019-03-19 Radio Systems Corporation RF beacon proximity determination enhancement
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
US10373608B2 (en) * 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
JP6272586B2 (ja) * 2015-10-30 2018-01-31 三菱電機株式会社 ハンズフリー制御装置
US9923592B2 (en) 2015-12-26 2018-03-20 Intel Corporation Echo cancellation using minimal complexity in a device
JPWO2017119284A1 (ja) * 2016-01-08 2018-11-08 日本電気株式会社 信号処理装置、利得調整方法および利得調整プログラム
US10956484B1 (en) 2016-03-11 2021-03-23 Gracenote, Inc. Method to differentiate and classify fingerprints using fingerprint neighborhood analysis
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN107564544A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN107871494B (zh) * 2016-09-23 2020-12-11 北京搜狗科技发展有限公司 一种语音合成的方法、装置及电子设备
CN106454642B (zh) * 2016-09-23 2019-01-08 佛山科学技术学院 自适应子带音频反馈抑制方法
CN110121890B (zh) * 2017-01-03 2020-12-08 杜比实验室特许公司 处理音频信号的方法和装置及计算机可读介质
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
GB2573249B (en) 2017-02-27 2022-05-04 Radio Systems Corp Threshold barrier system
GB2561021B (en) * 2017-03-30 2019-09-18 Cirrus Logic Int Semiconductor Ltd Apparatus and methods for monitoring a microphone
EP3642791A1 (en) * 2017-06-22 2020-04-29 Koninklijke Philips N.V. Methods and system for compound ultrasound image generation
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
GB2567018B (en) 2017-09-29 2020-04-01 Cirrus Logic Int Semiconductor Ltd Microphone authentication
US11769510B2 (en) 2017-09-29 2023-09-26 Cirrus Logic Inc. Microphone authentication
US11394196B2 (en) 2017-11-10 2022-07-19 Radio Systems Corporation Interactive application to protect pet containment systems from external surge damage
US11372077B2 (en) 2017-12-15 2022-06-28 Radio Systems Corporation Location based wireless pet containment system using single base unit
CN108333568B (zh) * 2018-01-05 2021-10-22 大连大学 冲击噪声环境下基于Sigmoid变换的宽带回波Doppler和时延估计方法
CN111630593B (zh) * 2018-01-18 2021-12-28 杜比实验室特许公司 用于译码声场表示信号的方法和装置
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
CN108198570B (zh) * 2018-02-02 2020-10-23 北京云知声信息技术有限公司 审讯时语音分离的方法及装置
TWI691955B (zh) * 2018-03-05 2020-04-21 國立中央大學 多通道之多重音頻串流方法以及使用該方法之系統
US10524048B2 (en) * 2018-04-13 2019-12-31 Bose Corporation Intelligent beam steering in microphone array
CN108717855B (zh) * 2018-04-27 2020-07-28 深圳市沃特沃德股份有限公司 噪音处理方法与装置
US10951996B2 (en) * 2018-06-28 2021-03-16 Gn Hearing A/S Binaural hearing device system with binaural active occlusion cancellation
CN109104683B (zh) * 2018-07-13 2021-02-02 深圳市小瑞科技股份有限公司 一种双麦克风相位测量校正的方法及校正系统
TW202008800A (zh) * 2018-07-31 2020-02-16 塞席爾商元鼎音訊股份有限公司 助聽器及其助聽器之輸出語音調整之方法
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN111048107B (zh) * 2018-10-12 2022-09-23 北京微播视界科技有限公司 音频处理方法和装置
WO2020086623A1 (en) * 2018-10-22 2020-04-30 Zeev Neumeier Hearing aid
EP3920690A4 (en) * 2019-02-04 2022-10-26 Radio Systems Corporation SYSTEMS AND METHODS FOR PROVIDING A NOISE MASKING ENVIRONMENT
US11049509B2 (en) * 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
CN109905808B (zh) * 2019-03-13 2021-12-07 北京百度网讯科技有限公司 用于调节智能语音设备的方法和装置
CN113841197B (zh) * 2019-03-14 2022-12-27 博姆云360公司 具有优先级的空间感知多频带压缩系统
TWI712033B (zh) * 2019-03-14 2020-12-01 鴻海精密工業股份有限公司 聲音識別方法、裝置、電腦裝置及存儲介質
CN111986695B (zh) * 2019-05-24 2023-07-25 中国科学院声学研究所 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
US11238889B2 (en) 2019-07-25 2022-02-01 Radio Systems Corporation Systems and methods for remote multi-directional bark deterrence
BR112022000806A2 (pt) * 2019-08-01 2022-03-08 Dolby Laboratories Licensing Corp Sistemas e métodos para atenuação de covariância
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing
CN113223544B (zh) * 2020-01-21 2024-04-02 珠海市煊扬科技有限公司 音频的方向定位侦测装置及方法以及音频处理系统
CN111294474B (zh) * 2020-02-13 2021-04-16 杭州国芯科技股份有限公司 一种双端通话检测方法
CN111402918B (zh) * 2020-03-20 2023-08-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、设备及存储介质
US11490597B2 (en) 2020-07-04 2022-11-08 Radio Systems Corporation Systems, methods, and apparatus for establishing keep out zones within wireless containment regions
CN113949979A (zh) * 2020-07-17 2022-01-18 通用微(深圳)科技有限公司 声音采集装置、声音处理设备及方法、装置、存储介质
CN113949978A (zh) * 2020-07-17 2022-01-18 通用微(深圳)科技有限公司 声音采集装置、声音处理设备及方法、装置、存储介质
CN112201267B (zh) * 2020-09-07 2024-09-20 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质
CN113008851B (zh) * 2021-02-20 2024-04-12 大连海事大学 一种基于斜入式激发提高共聚焦结构微弱信号检测信噪比的装置
KR20220136750A (ko) 2021-04-01 2022-10-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN113190508B (zh) * 2021-04-26 2023-05-05 重庆市规划和自然资源信息中心 一种面向管理的自然语言识别方法
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统
CN114239399B (zh) * 2021-12-17 2024-09-06 青岛理工大学 一种基于条件变分自编码的光谱数据增强方法
CN114745026B (zh) * 2022-04-12 2023-10-20 重庆邮电大学 一种基于深度饱和脉冲噪声的自动增益控制方法
TWI849477B (zh) * 2022-08-16 2024-07-21 大陸商星宸科技股份有限公司 具有迴音消除機制的音訊處理裝置及方法
CN118230703A (zh) * 2022-12-21 2024-06-21 北京字跳网络技术有限公司 一种语音处理方法、装置和电子设备

Family Cites Families (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4641344A (en) 1984-01-06 1987-02-03 Nissan Motor Company, Limited Audio equipment
CN85105410B (zh) 1985-07-15 1988-05-04 日本胜利株式会社 降低噪音系统
US5105377A (en) 1990-02-09 1992-04-14 Noise Cancellation Technologies, Inc. Digital virtual earth active cancellation system
JP2797616B2 (ja) * 1990-03-16 1998-09-17 松下電器産業株式会社 雑音抑圧装置
JPH06503897A (ja) 1990-09-14 1994-04-28 トッドター、クリス ノイズ消去システム
US5388185A (en) 1991-09-30 1995-02-07 U S West Advanced Technologies, Inc. System for adaptive processing of telephone voice signals
DK0643881T3 (da) 1992-06-05 1999-08-23 Noise Cancellation Tech Aktiv og selektiv hovedtelefon
WO1993026085A1 (en) 1992-06-05 1993-12-23 Noise Cancellation Technologies Active/passive headset with speech filter
JPH06175691A (ja) * 1992-12-07 1994-06-24 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声強調装置と音声強調方法
US7103188B1 (en) 1993-06-23 2006-09-05 Owen Jones Variable gain active noise cancelling system with improved residual noise sensing
US5485515A (en) 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5526419A (en) 1993-12-29 1996-06-11 At&T Corp. Background noise compensation in a telephone set
US5764698A (en) 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
US6885752B1 (en) 1994-07-08 2005-04-26 Brigham Young University Hearing aid device incorporating signal processing techniques
US5646961A (en) 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
JP2993396B2 (ja) 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
JPH096391A (ja) * 1995-06-22 1997-01-10 Ono Sokki Co Ltd 信号推定装置
EP0763818B1 (en) 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5794187A (en) 1996-07-16 1998-08-11 Audiological Engineering Corporation Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information
US6240192B1 (en) 1997-04-16 2001-05-29 Dspfactory Ltd. Apparatus for and method of filtering in an digital hearing aid, including an application specific integrated circuit and a programmable digital signal processor
DE19806015C2 (de) 1998-02-13 1999-12-23 Siemens Ag Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
DE19805942C1 (de) * 1998-02-13 1999-08-12 Siemens Ag Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
JP3459363B2 (ja) 1998-09-07 2003-10-20 日本電信電話株式会社 雑音低減処理方法、その装置及びプログラム記憶媒体
US7031460B1 (en) 1998-10-13 2006-04-18 Lucent Technologies Inc. Telephonic handset employing feed-forward noise cancellation
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6233549B1 (en) 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6970558B1 (en) 1999-02-26 2005-11-29 Infineon Technologies Ag Method and device for suppressing noise in telephone devices
US6704428B1 (en) 1999-03-05 2004-03-09 Michael Wurtz Automatic turn-on and turn-off control for battery-powered headsets
AU4278300A (en) 1999-04-26 2000-11-10 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US7120579B1 (en) 1999-07-28 2006-10-10 Clear Audio Ltd. Filter banked gain control of audio in a noisy environment
JP2001056693A (ja) 1999-08-20 2001-02-27 Matsushita Electric Ind Co Ltd 騒音低減装置
EP1081685A3 (en) 1999-09-01 2002-04-24 TRW Inc. System and method for noise reduction using a single microphone
US6732073B1 (en) * 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6480610B1 (en) 1999-09-21 2002-11-12 Sonic Innovations, Inc. Subband acoustic feedback cancellation in hearing aids
AUPQ366799A0 (en) 1999-10-26 1999-11-18 University Of Melbourne, The Emphasis of short-duration transient speech features
CA2290037A1 (en) 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US20070110042A1 (en) 1999-12-09 2007-05-17 Henry Li Voice and data exchange over a packet based network
US6757395B1 (en) 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
JP2001292491A (ja) 2000-02-03 2001-10-19 Alpine Electronics Inc イコライザ装置
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
US6678651B2 (en) 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US7010480B2 (en) 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
US6616481B2 (en) 2001-03-02 2003-09-09 Sumitomo Wiring Systems, Ltd. Connector
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6937738B2 (en) 2001-04-12 2005-08-30 Gennum Corporation Digital hearing aid system
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
US6820054B2 (en) 2001-05-07 2004-11-16 Intel Corporation Audio signal processing for speech communication
JP4145507B2 (ja) 2001-06-07 2008-09-03 松下電器産業株式会社 音質音量制御装置
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7277554B2 (en) 2001-08-08 2007-10-02 Gn Resound North America Corporation Dynamic range compression using digital frequency warping
JP2005514668A (ja) * 2002-01-09 2005-05-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スペクトル出力比依存のプロセッサを有する音声向上システム
JP2003218745A (ja) 2002-01-22 2003-07-31 Asahi Kasei Microsystems Kk ノイズキャンセラ及び音声検出装置
US6748009B2 (en) 2002-02-12 2004-06-08 Interdigital Technology Corporation Receiver for wireless telecommunication stations and method
JP2003271191A (ja) 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US6968171B2 (en) 2002-06-04 2005-11-22 Sierra Wireless, Inc. Adaptive noise reduction system for a wireless receiver
CA2492091C (en) 2002-07-12 2009-04-28 Widex A/S Hearing aid and a method for enhancing speech intelligibility
WO2004010417A2 (en) 2002-07-24 2004-01-29 Massachusetts Institute Of Technology System and method for distributed gain control for spectrum enhancement
US7336662B2 (en) * 2002-10-25 2008-02-26 Alcatel Lucent System and method for implementing GFR service in an access node's ATM switch fabric
CN100369111C (zh) 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
US7242763B2 (en) 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
KR100480789B1 (ko) 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
JP4018571B2 (ja) 2003-03-24 2007-12-05 富士通株式会社 音声強調装置
US7330556B2 (en) 2003-04-03 2008-02-12 Gn Resound A/S Binaural signal enhancement system
US7787640B2 (en) 2003-04-24 2010-08-31 Massachusetts Institute Of Technology System and method for spectral enhancement employing compression and expansion
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
KR101164937B1 (ko) 2003-05-28 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
JP2005004013A (ja) 2003-06-12 2005-01-06 Pioneer Electronic Corp ノイズ低減装置
JP4583781B2 (ja) 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
EP1509065B1 (en) 2003-08-21 2006-04-26 Bernafon Ag Method for processing audio-signals
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
DE10351793B4 (de) 2003-11-06 2006-01-12 Herbert Buchner Adaptive Filtervorrichtung und Verfahren zum Verarbeiten eines akustischen Eingangssignals
JP2005168736A (ja) 2003-12-10 2005-06-30 Aruze Corp 遊技機
WO2005069275A1 (en) 2004-01-06 2005-07-28 Koninklijke Philips Electronics, N.V. Systems and methods for automatically equalizing audio signals
DE602004015242D1 (de) 2004-03-17 2008-09-04 Harman Becker Automotive Sys Geräuschabstimmungsvorrichtung, Verwendung derselben und Geräuschabstimmungsverfahren
TWI238012B (en) 2004-03-24 2005-08-11 Ou-Huang Lin Circuit for modulating audio signals in two channels of television to generate audio signal of center third channel
CN1322488C (zh) 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
TWI279775B (en) 2004-07-14 2007-04-21 Fortemedia Inc Audio apparatus with active noise cancellation
CA2481629A1 (en) 2004-09-15 2006-03-15 Dspfactory Ltd. Method and system for active noise cancellation
DE602004015987D1 (de) 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US20080243496A1 (en) 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060262938A1 (en) 2005-05-18 2006-11-23 Gauger Daniel M Jr Adapted audio response
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8566086B2 (en) 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
KR100800725B1 (ko) 2005-09-07 2008-02-01 삼성전자주식회사 이동통신 단말의 오디오 재생시 주변 잡음에 적응하는 자동음량 조절 방법 및 장치
EP2337223B1 (en) 2006-01-27 2014-12-24 Dolby International AB Efficient filtering with a complex modulated filterbank
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US7729775B1 (en) * 2006-03-21 2010-06-01 Advanced Bionics, Llc Spectral contrast enhancement in a cochlear implant speech processor
US7676374B2 (en) 2006-03-28 2010-03-09 Nokia Corporation Low complexity subband-domain filtering in the case of cascaded filter banks
GB2479672B (en) 2006-04-01 2011-11-30 Wolfson Microelectronics Plc Ambient noise-reduction control system
US7720455B2 (en) 2006-06-30 2010-05-18 St-Ericsson Sa Sidetone generation for a wireless system that uses time domain isolation
US8185383B2 (en) 2006-07-24 2012-05-22 The Regents Of The University Of California Methods and apparatus for adapting speech coders to improve cochlear implant performance
JP4455551B2 (ja) 2006-07-31 2010-04-21 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008122729A (ja) 2006-11-14 2008-05-29 Sony Corp ノイズ低減装置、ノイズ低減方法、ノイズ低減プログラムおよびノイズ低減音声出力装置
US7401442B2 (en) * 2006-11-28 2008-07-22 Roger A Clark Portable panel construction and method for making the same
ATE435572T1 (de) 2006-12-01 2009-07-15 Siemens Audiologische Technik Hörgerät mit störschallunterdrückung und entsprechendes verfahren
JP4882773B2 (ja) 2007-02-05 2012-02-22 ソニー株式会社 信号処理装置、信号処理方法
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
JP5034595B2 (ja) 2007-03-27 2012-09-26 ソニー株式会社 音響再生装置および音響再生方法
US7742746B2 (en) 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
WO2008138349A2 (en) 2007-05-10 2008-11-20 Microsound A/S Enhanced management of sound provided via headphones
US8600516B2 (en) 2007-07-17 2013-12-03 Advanced Bionics Ag Spectral contrast enhancement in a cochlear implant speech processor
US8489396B2 (en) 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US8428661B2 (en) 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
WO2009082302A1 (en) 2007-12-20 2009-07-02 Telefonaktiebolaget L M Ericsson (Publ) Noise suppression method and apparatus
US20090170550A1 (en) 2007-12-31 2009-07-02 Foley Denis J Method and Apparatus for Portable Phone Based Noise Cancellation
DE102008039329A1 (de) 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US9142221B2 (en) 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8131541B2 (en) 2008-04-25 2012-03-06 Cambridge Silicon Radio Limited Two microphone noise reduction system
US8538749B2 (en) 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
US9202455B2 (en) 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US20100296666A1 (en) 2009-05-25 2010-11-25 National Chin-Yi University Of Technology Apparatus and method for noise cancellation in voice communication
US8737636B2 (en) 2009-07-10 2014-05-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation
US20110099010A1 (en) 2009-10-22 2011-04-28 Broadcom Corporation Multi-channel noise suppression system
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US20120263317A1 (en) 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization

Also Published As

Publication number Publication date
KR20110025667A (ko) 2011-03-10
WO2009148960A3 (en) 2010-02-18
CN103247295B (zh) 2016-02-24
CN103247295A (zh) 2013-08-14
KR101270854B1 (ko) 2013-06-05
EP2297730A2 (en) 2011-03-23
WO2009148960A2 (en) 2009-12-10
US8831936B2 (en) 2014-09-09
CN102047326A (zh) 2011-05-04
JP2011522294A (ja) 2011-07-28
TW201013640A (en) 2010-04-01
US20090299742A1 (en) 2009-12-03

Similar Documents

Publication Publication Date Title
JP5628152B2 (ja) スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品
JP5456778B2 (ja) 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体
JP5479364B2 (ja) マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置
JP5038550B1 (ja) ロバストな雑音低減のためのマイクロフォンアレイサブセット選択
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置
KR101275442B1 (ko) 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체
JP5307248B2 (ja) コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
CN102947878B (zh) 用于音频均衡的系统、方法、装置和设备
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US20110288860A1 (en) Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
TW201030733A (en) Systems, methods, apparatus, and computer program products for enhanced active noise cancellation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130408

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140325

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141001

R150 Certificate of patent or registration of utility model

Ref document number: 5628152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees