JP2014003647A - 了解度の向上のためのシステム、方法、装置、およびコンピュータプログラム製品 - Google Patents

了解度の向上のためのシステム、方法、装置、およびコンピュータプログラム製品 Download PDF

Info

Publication number
JP2014003647A
JP2014003647A JP2013161887A JP2013161887A JP2014003647A JP 2014003647 A JP2014003647 A JP 2014003647A JP 2013161887 A JP2013161887 A JP 2013161887A JP 2013161887 A JP2013161887 A JP 2013161887A JP 2014003647 A JP2014003647 A JP 2014003647A
Authority
JP
Japan
Prior art keywords
subband
audio signal
reproduced audio
noise
subband power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013161887A
Other languages
English (en)
Inventor
Visser Erik
エリック・ビッサー
Toman Jeremy
ジェレミー・トマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2014003647A publication Critical patent/JP2014003647A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】再生オーディオ信号(たとえば、遠端音声信号)の了解度を改善する。
【解決手段】空間選択的処理(SSP)フィルタSS10は、音源信号S20と雑音基準S30とを生成するために、Mチャネル感知オーディオ信号S10(Mは1よりも大きい整数である)に対して空間選択的処理演算を実行する。等化器EQ10は、等化されたオーディオ信号S50を生成するために、雑音基準S30からの情報に基づいて再生オーディオ信号S40のスペクトル特性を動的に改変する。たとえば、等化器EQ10は、等化されたオーディオ信号S50を生成するために、雑音基準S30からの情報を使用して、再生オーディオ信号S40の少なくとも1つの周波数サブバンドを、再生オーディオ信号S40の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成する。
【選択図】図5

Description

米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれる、2008年7月18日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する仮出願第61/081,987号、代理人整理番号第081737P1号、および2008年9月3日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する仮出願第61/093,969号、代理人整理番号第081737P2号の優先権を主張する。
本開示は、音声処理に関する。
音響環境はしばしば雑音が多いので、所望の情報信号を聴取することが困難になる。雑音は、当該の信号を妨害するか、または劣化させるすべての信号の組合せと定義できる。そのような雑音は、電話会話中における遠端信号などの所望の再生オーディオ信号をマスキングする傾向がある。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供される。音響環境は、通信デバイスによって再生されている遠端信号と競合する多くの制御不能な雑音源を有することがある。そのような雑音は不満足な通信エクスペリエンスを生じることがある。遠端信号が背景雑音と区別できない限り、それを確実に効率的に利用することが困難になる可能性がある。
一般的構成による再生オーディオ信号を処理する方法は、第1の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理することと、第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算することとを含む。本方法は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、第2の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理することと、第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算することとを含む。本方法は、複数の第1のサブバンドパワー推定値からの情報と複数の第2のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることを含む。
一般的構成による再生オーディオ信号を処理する方法は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、再生オーディオ信号の複数のサブバンドの各々について第1のサブバンドパワー推定値を計算することとを含む。本方法は、雑音基準の複数のサブバンドの各々について第1の雑音サブバンドパワー推定値を計算することと、マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準の複数のサブバンドの各々について第2の雑音サブバンドパワー推定値を計算することとを含む。本方法は、再生オーディオ信号の複数のサブバンドの各々について、対応する第1の雑音サブバンドパワー推定値と第2の雑音サブバンドパワー推定値との最大値に基づく第2のサブバンドパワー推定値を計算することを含む。本方法は、複数の第1のサブバンドパワー推定値からの情報と複数の第2のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることを含む。
一般的構成による再生オーディオ信号を処理するための装置は、第1の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理するように構成された第1のサブバンド信号発生器と、第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算するように構成された第1のサブバンドパワー推定値計算器とを含む。本装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、第2の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理するように構成された第2のサブバンド信号発生器とを含む。本装置は、第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算するように構成された第2のサブバンドパワー推定値計算器と、複数の第1のサブバンドパワー推定値からの情報と複数の第2のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成されたサブバンドフィルタアレイとを含む。
一般的構成によるコンピュータ可読媒体は、プロセッサによって実行されたとき、プロセッサに再生オーディオ信号を処理する方法を実行させる命令を含む。これらの命令は、プロセッサによって実行されたとき、第1の複数の時間領域サブバンド信号を得るためにプロセッサに再生オーディオ信号をフィルタ処理させる命令と、プロセッサに、第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算させる命令とを含む。本命令はまた、プロセッサによって実行されたとき、音源信号と雑音基準を生成するためにプロセッサにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行させる命令と、第2の複数の時間領域サブバンド信号を得るためにプロセッサに雑音基準をフィルタ処理させる命令とを含む。本命令はまた、プロセッサによって実行されたとき、プロセッサに、第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算させる命令と、プロセッサに、複数の第1のサブバンドパワー推定値からの情報と複数の第2のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングさせる命令とを含む。
一般的構成による再生オーディオ信号を処理するための装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して指向性処理演算を実行するための手段を含む。本装置はまた、等化されたオーディオ信号を生成するために再生オーディオ信号を等化するための手段を含む。本装置では、等化するための手段は、雑音基準からの情報に基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成される。
明瞭度指数プロットを示す図。 典型的な狭帯域テレフォニーアプリケーションにおける再生音声信号のパワースペクトルを示す図。 典型的な音声パワースペクトルと典型的な雑音パワースペクトルとの例を示す図。 図3の例への自動ボリューム制御の適用を示す図。 図3の例へのサブバンド等化の適用を示す図。 一般的構成による装置A100のブロック図。 第1の動作構成における2マイクロフォンハンドセットH100の図。 ハンドセットH100のための第2の動作構成を示す図。 3つのマイクロフォンを含むハンドセットH100の実装形態H110の図。 ハンドセットH110の2つの他の図。 ヘッドセットの様々な異なる動作構成の図。 ハンズフリーカーキットの図。 メディア再生デバイスの例を示す図。 メディア再生デバイスの例を示す図。 メディア再生デバイスの例を示す図。 空間選択的処理(SSP)フィルタSS10の一例のビームパターンを示す図。 SSPフィルタSS10の実装形態SS20のブロック図。 装置A100の実装形態A105のブロック図。 SSPフィルタSS10の実装形態SS110のブロック図。 SSPフィルタSS20およびSS110の実装形態SS120のブロック図。 装置A100の実装形態A110のブロック図。 オーディオプリプロセッサAP10の実装形態AP20のブロック図。 エコーキャンセラEC10の実装形態EC12のブロック図。 エコーキャンセラEC20aの実装形態EC22aのブロック図。 装置A110のインスタンスを含む通信デバイスD100のブロック図。 通信デバイスD100の実装形態D200のブロック図。 等化器EQ10の実装形態EQ20のブロック図。 サブバンド信号発生器SG200のブロック図。 サブバンド信号発生器SG300のブロック図。 サブバンドパワー推定値計算器EC110のブロック図。 サブバンドパワー推定値計算器EC120のブロック図。 7つのバーク尺度サブバンドのセットのエッジを示すドットの行を含む図。 サブバンドフィルタアレイSG30の実装形態SG32のブロック図。 一般的無限インパルス応答(IIR)フィルタ実装形態の転置直接形IIを示す図。 IIRフィルタのバイカッド(biquad)実装形態の転置直接形II構造を示す図。 IIRフィルタのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す図。 一連の7つのバイカッドの絶対値および位相応答を示す図。 サブバンド利得係数計算器GC100の実装形態GC200のブロック図。 サブバンド利得係数計算器GC100の実装形態GC300のブロック図。 擬似コードリストを示す図。 図25Aの擬似コードリストの変形を示す図。 図25Aの擬似コードリストの変形を示す図。 図25Bの擬似コードリストの変形を示す図。 並列に構成されたバンドパスフィルタのセットを含むサブバンドフィルタアレイFA100の実装形態FA110のブロック図。 バンドパスフィルタが直列に構成されたサブバンドフィルタアレイFA100の実装形態FA120のブロック図。 IIRフィルタのバイカッド実装形態の別の例を示す図。 装置A100の実装形態A120のブロック図。 図26Aの擬似コードリストの変形を示す図。 図26Bの擬似コードリストの変形を示す図。 図26Aの擬似コードリストの他の変形を示す図。 図26Bの擬似コードリストの他の変形を示す図。 装置A100の実装形態A130のブロック図。 ピークリミッタL10を含む等化器EQ20の実装形態EQ40のブロック図。 装置A100の実装形態A140のブロック図。 ピーク制限演算の一例を記載する擬似コードリストを示す図。 図35Aの擬似コードリストの別のバージョンを示す図。 分離評価器EV10を含む装置A100の実装形態A200のブロック図。 装置A200の実装形態A210のブロック図。 等化器EQ100(および等化器EQ20)の実装形態EQ110のブロック図。 等化器EQ100(および等化器EQ20)の実装形態EQ120のブロック図。 等化器EQ100(および等化器EQ20)の実装形態EQ130のブロック図。 サブバンド信号発生器EC210のブロック図。 サブバンド信号発生器EC220のブロック図。 等化器EQ130の実装形態EQ140のブロック図。 等化器EQ20の実装形態EQ50のブロック図。 等化器EQ20の実装形態EQ240のブロック図。 装置A100の実装形態A250のブロック図。 等化器EQ240の実装形態EQ250のブロック図。 ボイスアクティビティ検出器V20を含む装置A200の実装形態A220を示す図。 装置A100の実装形態A300のブロック図。 装置A300の実装形態A310のブロック図。 装置A310の実装形態A320のブロック図。 装置A310の実装形態A330のブロック図。 装置A100の実装形態A400のブロック図。 設計方法M10のフローチャート。 トレーニングデータを記録するように構成された音響無響室の例を示す図。 適応フィルタ構造FS10の2チャネル例のブロック図。 フィルタ構造FS10の実装形態FS20のブロック図。 ワイヤレス電話システムを示す図。 パケット交換データ通信をサポートするように構成されたワイヤレス電話システムを示す図。 一構成による方法M110のフローチャート。 一構成による方法M120のフローチャート。 一構成による方法M210のフローチャート。 一構成による方法M220のフローチャート。 一般的構成による方法M300のフローチャート。 タスクT820の実装形態T822のフローチャート。 タスクT840の実装形態T842のフローチャート。 タスクT840の実装形態T844のフローチャート。 タスクT820の実装形態T824のフローチャート。 方法M300の実装形態M310のフローチャート。 一構成による方法M400のフローチャート。 一般的構成による装置F100のブロック図。 手段F120の実装形態F122のブロック図。 一般的構成による方法V100のフローチャート。 一般的構成による装置W100のブロック図。 一般的構成による方法V200のフローチャート。 一般的構成による装置W200のブロック図。
これらの図面では、コンテキストが別段に規定しない限り、同じラベルの使用は同じ構造の例を示す。
PDAおよびセルフォンのようなハンドセットが選り抜きのモバイル音声通信デバイスとして急速に台頭しており、セルラーネットワークおよびインターネットへのモバイルアクセスのためのプラットフォームとして役立っている。以前は静かなオフィスまたは家庭環境のデスクトップコンピュータ、ラップトップコンピュータ、およびオフィス電話で実行されていた、ますます多くの機能が、自動車、街路、カフェ、または空港のような日常的な状況で実行されている。この傾向は、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、かなりの量のボイス通信が行われていることを意味する。そのような環境においてボイス通信および/またはオーディオ再生のために使用できる他のデバイスには、ワイヤードおよび/またはワイヤレスヘッドセット、オーディオまたはオーディオビジュアルメディア再生デバイス(たとえば、MP3またはMP4プレーヤ)、および同様のポータブルまたはモバイル機器がある。
本明細書で説明するシステム、方法、および装置を使用して、特に雑音の多い環境において、受信あるいは再生オーディオ信号の了解度の向上をサポートすることができる。そのような技法は、一般に任意の送受信および/またはオーディオ再生アプリケーション、特にそのようなアプリケーションのモバイルあるいはポータブル事例において適用できる。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバーIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐することができることが、当業者には理解されよう。
本明細書に開示する通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応できることが明確に企図され、本明細書によって開示される。また、本明細書に開示する通信デバイスは、狭帯域符号化システム(たとえば、約4または5キロヘルツの可聴周波数範囲を符号化するシステム)での使用、および/または全帯域広帯域符号化システムおよびスプリットバンド符号化システムを含む、広帯域符号化システム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応できることが明確に企図され、本明細書によって開示される。
文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値から計算(computing)すること、平滑化すること、評価すること、および/または選択することなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、その通常の意味のいずれをも示すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(ii)「と等しい」(たとえば、「AはBと等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のいずれをも示すのに使用される。
別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。
「コーダ」、「コーデック」、および「符号化システム」という用語は、(場合によっては知覚的重み付けおよび/または他のフィルタ処理演算などの1つまたは複数の前処理演算の後に)オーディオ信号のフレームを受信し符号化するように構成された少なくとも1つの符号器と、フレームの復号表現を生成するように構成された対応する復号器とを含むシステムを示すのに互換的に使用される。そのような符号器および復号器は一般に通信リンクの反対側の端末に配備される。全二重通信をサポートするために、符号器と復号器の両方のインスタンスは、一般にそのようなリンクの各端部に配備される。
本明細書では、「感知オーディオ信号」という用語は、1つまたは複数のマイクロフォンを介して受信された信号を示し、「再生オーディオ信号」という用語は、記憶装置から取り出され、および/またはワイヤードもしくはワイヤレス接続を介して受信された情報から別のデバイスに再生される信号を示す。通信または再生デバイスなどのオーディオ再生デバイスは、再生オーディオ信号をデバイスの1つまたは複数のラウドスピーカーに出力するように構成できる。代替的に、そのようなデバイスは、再生オーディオ信号を、ワイヤを介してまたはワイヤレスにデバイスに結合されたイヤピース、他のヘッドセットまたは外部ラウドスピーカーに出力するように構成できる。テレフォニーなどのボイス通信のためのトランシーバアプリケーションに関して、感知オーディオ信号は、トランシーバによって送信すべき近端信号であり、再生オーディオ信号は、トランシーバによって(たとえば、ワイヤレス通信リンクを介して)受信される遠端信号である。記録された音楽または音声(たとえば、MP3、オーディオブック、ポッドキャスト)の再生またはそのようなコンテンツのストリーミングなどのモバイルオーディオ再生アプリケーションに関して、再生オーディオ信号は、再生またはストリーミングされるオーディオ信号である。
再生音声信号の了解度は、信号のスペクトル特性に関して変動することがある。たとえば、図1の明瞭度指数プロットに、音声了解度に対する相対的寄与率が可聴周波数とともにどのように変動するかを示す。このプロットは、1〜4kHz間の周波数成分が了解度にとって特に重要であり、相対的重要度が約2kHzでピークに達することを示す。
図2に、典型的な狭帯域テレフォニーアプリケーションにおける再生音声信号のパワースペクトルを示す。この図は、周波数が500Hzを上回って増加するにつれて、そのような信号のエネルギーが急速に減少することを示す。しかしながら、図1に示すように、4kHzまでの周波数は音声了解度にとって極めて重要である。したがって、500〜4000Hz間の周波数帯域中でエネルギーを人工的にブースティングすることにより、そのようなテレフォニーアプリケーションにおける再生音声信号の了解度が改善されることが期待される。
4kHzを上回る可聴周波数は一般に了解度にとって1kHz〜4kHz帯域ほど重要ではないので、典型的な帯域制限された通信チャネルを介して狭帯域信号を送信することで、理解できる会話を行うのに通常十分である。しかしながら、通信チャネルが広帯域信号の伝送をサポートする場合、パーソナル音声特徴の明暸性の向上およびその通信の改善が期待される。ボイステレフォニーコンテキストでは、「狭帯域」という用語は、約0〜500Hz(たとえば、0、50、100、または200Hz)から約3〜5kHz(たとえば、3500、4000、または4500Hz)までの周波数範囲を指し、「広帯域」という用語は、約0〜500Hz(たとえば、0、50、100、または200Hz)から約7〜8kHz(たとえば、7000、7500、または8000Hz)までの周波数範囲を指す。
音声信号の選択された部分をブースティングすることによって音声了解度を高めることが望ましい。補聴器の適用例では、たとえば、ダイナミックレンジ圧縮技法を使用して、再生オーディオ信号中の特定の周波数サブバンドをブースティングすることによって、それらのサブバンド中の知られている聴力損失を補償することができる。
現実の世界は、単一点雑音源を含む複数の雑音源にあふれており、これらは、しばしば複数の音に入り込んで残響を生じる。背景音響雑音は、一般的な環境によって発生される多数の雑音信号、他の人々の背景会話によって発生される干渉信号、ならびにそれらの信号の各々から発生される反射および残響を含む。
環境雑音は、遠端音声信号などの再生オーディオ信号の了解度に影響を及ぼすことがある。通信が雑音の多い環境で行われる適用例では、音声処理方法を使用して、音声信号を背景雑音と区別し、その了解度を向上させることが望ましい。雑音は現実の状態ではほとんど常に存在するので、そのような処理は日常的な通信の多くの領域で重要である。
自動利得制御(AGC、自動ボリューム制御またはAVCとも呼ばれる)は、雑音の多い環境で再生されているオーディオ信号の了解度を高めるために使用できる処理方法である。自動利得制御技法を使用して、信号のダイナミックレンジを限定された振幅帯域に圧縮し、それによって、低いパワーを有する信号のセグメントをブースティングし、高いパワーを有するセグメント中のエネルギーを減少させることができる。図3に、自然音声パワーロールオフがパワーを周波数とともに減少させる典型的な音声パワースペクトルと、パワーが少なくとも音声周波数の範囲にわたって全体的に一定である典型的な雑音パワースペクトルとの例を示す。そのような場合、音声信号の高周波成分は、雑音信号の対応する成分よりも小さいエネルギーを有し、その結果、高周波音声帯域のマスキングが生じる。図4Aに、そのような例へのAVCの適用を示す。AVCモジュールは、一般に、この図に示すように、音声信号のすべての周波数帯域を無差別にブースティングするために実装される。そのような手法は、高周波パワーの適度のブーストのために、増幅された信号の大きいダイナミックレンジを必要とすることがある。
高周波数帯域中の音声パワーは通常、低周波数帯域中よりもはるかに小さいので、背景雑音は一般に高周波音声成分を低周波成分よりもはるかに急速にかき消す。したがって、単に信号の全体量をブースティングすることは、了解度に著しく寄与しない、1kHzを下回る低周波成分を不必要にブースティングすることになる。代わりに、再生オーディオ信号に対する雑音マスキング効果を補償するために可聴周波数サブバンドパワーを調整することが望ましい。たとえば、高周波のほうへの音声パワーの固有のロールオフを補償するために、雑音対音声サブバンドパワーの比に反比例して、高周波サブバンドにおいて不均等に、音声パワーをブースティングすることが望ましい。
環境雑音によって支配される周波数サブバンド中の低ボイスパワーを補償することが望ましい。たとえば、図4Bに示すように、(たとえば、音声対雑音比に従って)音声信号の異なるサブバンドに異なる利得ブーストを適用することによって了解度をブースティングするために、選択されたサブバンドに作用することが望ましい。図4Aに示すAVC例とは対照的に、そのような等化は、低周波成分の不要なブーストを回避しながら、よりクリアでより明瞭な信号を与えることが期待できる。
そのような方法で音声パワーを選択的にブースティングするために、環境雑音レベルの確実な同時推定値を得ることが望ましい。しかしながら、実際の適用例では、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して、感知オーディオ信号からの環境雑音をモデル化することが困難であることがある。図3は、周波数によらず一定である雑音レベルを示唆しているが、通信デバイスまたはメディア再生デバイスの実際の適用例における環境雑音レベルは、一般に時間と周波数の両方にわたって著しく急速に変動する。
典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および/または干渉源(たとえば、テレビ受像機またはラジオ)からの音がある。したがって、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。単一マイクロフォン信号から計算される雑音パワー基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音パワー推定遅延を伴うので、かなりの遅延の後にしか、サブバンド利得の対応する調整を実行することができない。環境雑音の確実な同時推定値を得ることが望ましい。
図5に、空間選択的処理フィルタSS10と等化器EQ10とを含む、一般的構成によるオーディオ信号A100を処理するように構成された装置のブロック図を示す。空間選択的処理(SSP)フィルタSS10は、音源信号S20と雑音基準S30とを生成するために、Mチャネル感知オーディオ信号S10(Mは1よりも大きい整数である)に対して空間選択的処理演算を実行するように構成される。等化器EQ10は、等化されたオーディオ信号S50を生成するために、雑音基準S30からの情報に基づいて再生オーディオ信号S40のスペクトル特性を動的に改変するように構成される。たとえば、等化器EQ10は、等化されたオーディオ信号S50を生成するために、雑音基準S30からの情報を使用して、再生オーディオ信号S40の少なくとも1つの周波数サブバンドを、再生オーディオ信号S40の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成できる。
装置A100の典型的な適用例では、感知オーディオ信号S10の各チャネルは、M個のマイクロフォンのアレイのうちの対応する1つからの信号に基づく。マイクロフォンのそのようなアレイをもつ装置A100の実装形態を含むように実装できるオーディオ再生デバイスの例には、通信デバイスおよびオーディオまたはオーディオビジュアル再生デバイスがある。そのような通信デバイスの例には、限定はしないが、電話ハンドセット(たとえば、セルラー電話ハンドセット)、ワイヤードおよび/またはワイヤレスヘッドセット(たとえば、ブルートゥースヘッドセット)、ならびにハンズフリーカーキットがある。そのようなオーディオまたはオーディオビジュアル再生デバイスの例には、限定はしないが、ストリーミングあるいはあらかじめ記録されているオーディオまたはオーディオビジュアルコンテンツを再生するように構成されたメディアプレーヤがある。
M個のマイクロフォンのアレイは、2つのマイクロフォンMC10およびMC20(たとえば、ステレオアレイ)、または3つ以上のマイクロフォンを有するように実装できる。アレイの各マイクロフォンは、全方向、双方向、または単方向(たとえば、カージオイド)である応答を有することができる。使用できる様々なタイプのマイクロフォンには、(限定はしないが)圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。
装置A100の実装形態を含むように構築できるオーディオ再生デバイスのいくつかの例を図6A〜図10Cに示す。図6Aに、第1の動作構成における2マイクロフォンハンドセットH100(たとえば、クラムシェルタイプセルラー電話ハンドセット)の図を示す。ハンドセットH100は1次マイクロフォンMC10と2次マイクロフォンMC20とを含む。この例では、ハンドセットH100はまた1次ラウドスピーカーSP10と2次ラウドスピーカーSP20とを含む。ハンドセットH100が第1の動作構成にあるとき、1次ラウドスピーカーSP10はアクティブであり、2次ラウドスピーカーSP20は使用不能にされるか、またはさもなければ無音にされる。この構成では、音声強調および/または雑音低減のための空間選択的処理技法をサポートするために、1次マイクロフォンMC10と2次マイクロフォンMC20の両方がアクティブのままであることが望ましい。
図6Bに、ハンドセットH100のための第2の動作構成を示す。この構成では、1次マイクロフォンMC10はふさがれ、2次ラウドスピーカーSP20はアクティブであり、1次ラウドスピーカーSP10は使用不能にされるか、またはさもなければ無音にされる。この場合も、この構成では、(空間選択処理技法をサポートするために)1次マイクロフォンMC10と2次マイクロフォンMC20の両方がアクティブであることが望ましい。ハンドセットH100は、その(1つまたは複数の)状態がデバイスの現在の動作構成を示す、1つまたは複数のスイッチまたは同様のアクチュエータを含むことができる。
装置A100は、3つ以上のチャネルを有する感知オーディオ信号S10のインスタンスを受信するように構成できる。たとえば、図7Aに、第3のマイクロフォンMC30を含むハンドセットH100の実装形態H110の図を示す。図7Bに、デバイスの軸線に沿った様々なトランスデューサの配置を示すハンドセットH110の2つの他の図を示す。
M個のマイクロフォンを有するイヤピースまたは他のヘッドセットは、装置A100の実装形態を含むことができる別の種類のポータブル通信デバイスである。そのようなヘッドセットはワイヤードまたはワイヤレスとすることができる。たとえば、ワイヤレスヘッドセットは、(たとえば、Bluetooth(登録商標) Special Interest Group社(ワシントン州ベルビュー)によって公表されたブルートゥース(商標)プロトコルのバージョンを使用して)セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成できる。図8に、ユーザの耳65に使用するために取り付けられるそのようなヘッドセット63の異なる動作構成の範囲66の図を示す。ヘッドセット63は、使用中にユーザの口64に対して異なって配向できる1次(たとえば、縦形)マイクロフォンと2次(たとえば、直角)マイクロフォンとのアレイ67を含む。そのようなヘッドセットは、一般に、ヘッドセットのイヤプラグに配設できる、遠端信号を再生するためのラウドスピーカー(図示せず)をも含む。さらなる一例では、装置A100の実装形態を含むハンドセットは、(たとえばブルートゥース(商標)プロトコルのバージョンを使用して)ワイヤードおよび/またはワイヤレス通信リンクを介して、M個のマイクロフォンを有するヘッドセットから感知オーディオ信号S10を受信し、等化されたオーディオ信号S50をヘッドセットに出力するように構成される。
M個のマイクロフォンを有するハンズフリーカーキットは、装置A100の実装形態を含むことができる別の種類のモバイル通信デバイスである。図9に、M個のマイクロフォン84が線形アレイにおいて構成されたそのようなデバイス83の例の図を示す(この特定の例では、Mは4に等しい)。そのようなデバイスの音響環境は、風雑音、回転雑音、および/またはエンジン雑音を含むことができる。装置A100の実装形態を含むことができる通信デバイスの他の例には、オーディオまたはオーディオビジュアル会議のための通信デバイスがある。そのような会議デバイスの典型的な使用は、複数の所望の音源(たとえば、様々な参加者の口)に関与することがある。そのような場合、マイクロフォンのアレイは3つ以上のマイクロフォンを含むことが望ましい。
M個のマイクロフォンを有するメディア再生デバイスは、装置A100の実装形態を含むことができる一種のオーディオまたはオーディオビジュアル再生デバイスである。そのようなデバイスは、標準圧縮形式(たとえば、Moving Pictures Experts Group(MPEG)−1 Audio Layer 3(MP3)、MPEG−4 Part 14(MP4)、Windows(登録商標) Media Audio/Video(WMA/WMV)のバージョン(マイクロソフト社(ワシントン州レドモンド))、Advanced Audio Coding(AAC)、International Telecommunication Union(ITU)−T H.264など)に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生するように構成できる。図10Aに、デバイスの前面に配設されたディスプレイスクリーンSC10とラウドスピーカーSP10とを含むそのようなデバイスの例を示す。この例では、マイクロフォンMC10およびMC20は、デバイスの同じ面に(たとえば、上面の両側に)配設される。図10Bに、マイクロフォンがデバイスの対向する面に配設されたそのようなデバイスの例を示す。図10Cに、マイクロフォンがデバイスの隣接する面に配設されたそのようなデバイスの例を示す。図10A〜図10Cに示すメディア再生デバイスはまた、意図された使用中、より長い軸が水平になるように、設計できる。
空間選択的処理フィルタSS10は、音源信号S20と雑音基準S30とを生成するために、感知オーディオ信号S10に対して空間選択的処理演算を実行するように構成される。たとえば、SSPフィルタSS10は、指向性干渉成分および/または拡散雑音成分など、信号の1つまたは複数の他の成分から、感知オーディオ信号S10(たとえば、ユーザのボイス)の指向性の所望の成分を分離するように構成できる。そのような場合、音源信号S20が、感知オーディオチャネルS10の各チャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む(すなわち、音源信号S20が、感知オーディオチャネルS10の個々のどのチャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む)ように、指向性の所望の成分のエネルギーを集中するように、SSPフィルタSS10を構成することができる。図11に、マイクロフォンアレイの軸に対するフィルタ応答の指向性を示すSSPフィルタSS10のそのような例のビームパターンを示す。空間選択的処理フィルタSS10を使用して、環境雑音の確実な同時推定値(単一マイクロフォン雑音低減システムに比較して遅延が低減されるので、「瞬時」雑音推定値とも呼ばれる)を与えることができる。
空間選択的処理フィルタSS10は、一般にフィルタ係数値の1つまたは複数の行列によって特徴づけられる固定フィルタFF10を含むように実装される。これらのフィルタ係数値は、以下でより詳細に説明するように、ビームフォーミング、ブラインド音源分離(BSS)、または複合BSS/ビームフォーミング方法を使用して得ることができる。空間選択的処理フィルタSS10はまた、2つ以上の段を含むように実装できる。図12Aに、固定フィルタ段FF10と適応フィルタ段AF10とを含む、SSPフィルタSS10のそのような実装形態SS20のブロック図を示す。この例で、固定フィルタ段FF10は、フィルタ処理されたチャネルS15−1およびS15−2を生成するために感知オーディオ信号S10のチャネルS10−1およびS10−2をフィルタ処理するように構成され、適応フィルタ段AF10は、音源信号S20と雑音基準S30とを生成するためにチャネルS15−1およびS15−2をフィルタ処理するように構成される。そのような場合、以下でより詳細に説明するように、適応フィルタ段AF10のための初期状態を発生するために固定フィルタ段FF10を使用することが望ましい。また、SSPフィルタSS10への入力の適応スケーリングを実行すること(たとえば、IIR固定または適応フィルタバンクの安定性を保証すること)が望ましい。
複数の固定フィルタ段のうちの適切な1つが(たとえば、様々な固定フィルタ段の相対分離パフォーマンスに従って)演算中に選択されるように構成された、固定フィルタ段を含むように、SSPフィルタSS10を実装することが望ましい。そのような構造は、たとえば、代理人整理番号第080426号を有する、2008年XX月XX日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する米国特許出願第12/XXX,XXX号に開示されている。
音源信号S20中の雑音をさらに低減するために雑音基準S30を適用するように構成された雑音低減段が、SSPフィルタSS10またはSS20の後に続くことが望ましい。図12Bに、そのような雑音低減段NR10を含む装置A100の実装形態A105のブロック図を示す。雑音低減段NR10は、フィルタ係数値が音源信号S20と雑音基準S30とからの信号と雑音パワー情報とに基づくウィーナーフィルタとして実装できる。そのような場合、雑音低減段NR10は、雑音基準S30からの情報に基づいて雑音スペクトルを推定するように構成できる。代替的に、雑音低減段NR10は、雑音基準S30からのスペクトルに基づいて、音源信号S20に対してスペクトル減算演算を実行するように実装できる。代替的に、雑音低減段NR10は、雑音共分散が雑音基準S30からの情報に基づくカルマンフィルタとして実装できる。
指向性処理演算を実行するように構成されることの代替として、または指向性処理演算を実行するように構成されることに加えて、SSPフィルタSS10は、距離処理演算を実行するように構成できる。図12Cおよび図12Dに、そのような演算を実行するように構成された距離処理モジュールDS10を含む、SSPフィルタSS10の実装形態SS110およびSS120のブロック図をそれぞれ示す。距離処理モジュールDS10は、距離処理演算の結果として、マイクロフォンアレイに対するマルチチャネル感知オーディオ信号S10の成分の音源の距離を示す距離指示信号DI10を生成するように構成される。距離処理モジュールDS10は、一般に、2つの状態がそれぞれ近距離音源および遠距離音源を示す2進値指示信号として距離指示信号DI10を生成するように構成されるが、連続信号および/または多値信号を生成する構成も可能である。
一例では、距離処理モジュールDS10は、距離指示信号DI10の状態がマイクロフォン信号のパワー勾配間の類似度に基づくように構成される。距離処理モジュールDS10のそのような実装形態は、(A)マイクロフォン信号のパワー勾配間の差と(B)しきい値との間の関係に従って距離指示信号DI10を生成するように構成できる。1つのそのような関係を次のように表すことができる。
上式で、θは、距離指示信号DI10の現在の状態を示し、∇pは、1次マイクロフォン信号(たとえば、マイクロフォン信号DM10−1)のパワー勾配の現在値を示し、∇sは、2次マイクロフォン信号(たとえば、マイクロフォン信号DM10−2)のパワー勾配の現在値を示し、Tdは、(たとえば、マイクロフォン信号のうちの1つまたは複数の現在レベルに基づいて)固定または適応的とすることができるしきい値を示す。この特定の例では、距離指示信号DI10の状態1が遠距離音源を示し、状態0が近距離音源を示すが、当然、所望される場合、逆の(すなわち、状態1が近距離音源を示し、状態0が遠距離音源を示すような)実装形態も使用できる。
連続フレームにわたる対応するマイクロフォン信号のエネルギー間の差としてパワー勾配の値を計算するように距離処理モジュールDS10を実装することが望ましい。1つのそのような例では、距離処理モジュールDS10は、パワー勾配∇pと∇sとの各々について、対応するマイクロフォン信号の現在のフレームの値の平方和とマイクロフォン信号の前のフレームの値の平方和との間の差として現在値を計算するように構成される。別のそのような例では、距離処理モジュールDS10は、パワー勾配∇pと∇sとの各々について、対応するマイクロフォン信号の現在のフレームの値の絶対値の和とマイクロフォン信号の前のフレームの値の絶対値の和との間の差として現在値を計算するように構成される。
追加または代替として、距離処理モジュールDS10は、距離指示信号DI10の状態が、周波数範囲にわたって、1次マイクロフォン信号の位相と2次マイクロフォン信号の位相との間の相関の程度に基づくように構成できる。距離処理モジュールDS10のそのような実装形態は、(A)マイクロフォン信号の位相ベクトル間の相関と(B)しきい値との間の関係に従って距離指示信号DI10を生成するように構成できる。1つのそのような関係を次のように表すことができる。
上式で、μは、距離指示信号DI10の現在の状態を示し、φpは、1次マイクロフォン信号(たとえば、マイクロフォン信号DM10−1)の現在の位相ベクトルを示し、φsは、2次マイクロフォン信号(たとえば、マイクロフォン信号DM10−2)の現在の位相ベクトルを示し、Tcは、(たとえば、マイクロフォン信号のうちの1つまたは複数の現在レベルに基づいて)固定または適応的とすることができるしきい値を示す。位相ベクトルの各要素が、対応する周波数において、または対応する周波数サブバンドにわたって、対応するマイクロフォン信号の現在の位相を表すように、位相ベクトルを計算するように距離処理モジュールDS10を実装することが望ましい。この特定の例では、距離指示信号DI10の状態1が遠距離音源を示し、状態0が近距離音源を示すが、当然、所望される場合、逆の実装形態も使用できる。
距離指示信号DI10の状態が上記で開示したパワー勾配と位相相関基準の両方に基づくように、距離処理モジュールDS10を構成することが望ましい。そのような場合、距離処理モジュールDS10は、距離指示信号DI10の状態をθの現在値とμの現在値との組合せ(たとえば、論理和または論理積)として計算するように構成できる。代替的に、距離処理モジュールDS10は、対応するしきい値の値がこれらの基準(すなわち、パワー勾配類似度または位相相関)のうちの一方の基準の現在値に基づくように、これらの基準のうちの他方に従って距離指示信号DI10の状態を計算するように構成できる。
上記のように、2つ以上のマイクロフォン信号に対して1つまたは複数の前処理演算を実行することによって感知オーディオ信号S10を得ることが望ましい。マイクロフォン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、雑音低減、スペクトル整形などのためにフィルタ処理)され、さらには、感知オーディオ信号S10を得るために(たとえば、本明細書で説明するように別のSSPフィルタまたは適応フィルタによって)事前分離される。音声などの音響適用例では、典型的なサンプリングレートは、8kHz〜16kHzにわたる。
図13に、M個のアナログマイクロフォン信号SM10−1〜SM10−Mを前処理して感知オーディオ信号S10のM個のチャネルS10−1〜S10−Mをデジタル化するように構成されたオーディオプリプロセッサAP10を含む、装置A100の実装形態A110のブロック図を示す。この特定の例では、オーディオプリプロセッサAP10は、アナログマイクロフォン信号のペアSM10−1、SM10−2をデジタル化して感知オーディオ信号S10のチャネルのペアS10−1、S10−2を生成するように構成される。オーディオプリプロセッサAP10はまた、アナログおよび/またはデジタル領域において、スペクトル整形および/またはエコー消去など、マイクロフォン信号に対する他の前処理演算を実行するように構成できる。たとえば、オーディオプリプロセッサAP10は、アナログ領域およびデジタル領域のいずれかにおいて、マイクロフォン信号のうちの1つまたは複数の各々に1つまたは複数の利得係数を適用するように構成できる。これらの利得係数の値は、それらのマイクロフォンが周波数応答および/または利得に関して互いに一致するように、選択するかまたはさもなければ計算することができる。これらの利得係数を評価するために実行できる較正手順について、以下でより詳細に説明する。
図14に、第1および第2のアナログデジタル変換器(ADC)C10aおよびC10bを含む、オーディオプリプロセッサAP10の実装形態AP20のブロック図を示す。第1のADC C10aは、マイクロフォン信号SM10−1をデジタル化してマイクロフォン信号DM10−1を得るように構成され、第2のADC C10bは、マイクロフォン信号SM10−2をデジタル化してマイクロフォン信号DM10−2を得るように構成される。ADC C10aおよびC10bによって適用できる典型的なサンプリングレートは8kHzと16kHzとを含む。この例では、オーディオプリプロセッサAP20はまた、それぞれマイクロフォン信号SM10−1およびSM10−2に対してアナログスペクトル整形演算を実行するように構成された高域フィルタのペアF10aおよびF10bを含む。
オーディオプリプロセッサAP20はまた、等化されたオーディオ信号S50からの情報に基づいてマイクロフォン信号からエコーを消去するように構成されたエコーキャンセラEC10を含む。エコーキャンセラEC10は、時間領域バッファから等化されたオーディオ信号S50を受信するように構成できる。1つのそのような例では、時間領域バッファは10ミリ秒の長さ(たとえば、8kHzのサンプリングレートで80個のサンプル、または16kHzのサンプリングレートで160個のサンプル)を有する。スピーカーフォンモードおよび/またはプッシュツートーク(PTT)モードなど、いくつかのモードでの装置A110を含む通信デバイスの動作中は、エコー消去演算を中断する(たとえば、マイクロフォン信号をそのままパスするようにエコーキャンセラEC10を構成する)ことが望ましい。
図15Aに、シングルチャネルエコーキャンセラの2つのインスタンスEC20aおよびEC20bを含む、エコーキャンセラEC10の実装形態EC12のブロック図を示す。この例では、シングルチャネルエコーキャンセラの各インスタンスは、マイクロフォン信号DM10−1、DM10−2のうちの対応する1つを処理して感知オーディオ信号S10の対応するチャネルS10−1、S10−2を生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技法(たとえば、最小2乗平均技法および/または適応相関技法)に従って、シングルチャネルエコーキャンセラの様々なインスタンスをそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第12/197,924号の段落[00139]−[00141](「An apparatus」で開始し「B500」で終了する)で論じられており、それらの段落は、装置の他の要素の設計、実装、および/または統合を含むがこれに限定されないエコー消去の開示に限定した目的のために、参照により本明細書に組み込まれる。
図15Bに、等化されたオーディオ信号S50をフィルタ処理するように構成されたフィルタCE10と、そのフィルタ処理された信号を処理中のマイクロフォン信号と組み合わせるように構成された加算器CE20とを含む、エコーキャンセラEC20aの実装形態EC22aのブロック図を示す。フィルタCE10のフィルタ係数値は固定とすることができる。代替的に、フィルタCE10のフィルタ係数値のうちの少なくとも1つ(および場合によってはすべて)は、装置A110の演算中に適応させることができる。以下でより詳細に説明するように、通信デバイスの参照インスタンスがオーディオ信号を再生するときにその参照インスタンスによって記録されるマルチチャネル信号のセットを使用して、フィルタCE10の参照インスタンスをトレーニングすることが望ましい。
エコーキャンセラEC20bは、マイクロフォン信号DM10−2を処理して感知オーディオチャネルS40−2を生成するように構成された、エコーキャンセラEC22aの別のインスタンスとして実装できる。代替的に、エコーキャンセラEC20aおよびEC20bは、異なる時間にそれぞれのマイクロフォン信号の各々を処理するように構成された、シングルチャネルエコーキャンセラの同じインスタンス(たとえば、エコーキャンセラEC22a)として実装できる。
装置A100の実装形態をトランシーバ(たとえば、セルラー電話またはワイヤレスヘッドセット)内に含めることができる。図16Aに、装置A110のインスタンスを含むそのような通信デバイスD100のブロック図を示す。デバイスD100は、装置A110に結合された受信機R10を含み、受信機R10は、高周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号をオーディオ入力信号S100として復号し再生するように構成され、オーディオ入力信号S100は、この例では再生オーディオ信号S40として装置A110によって受信される。デバイスD100は、装置A110に結合された送信機X10をも含み、送信機X10は、音源信号S20を符号化し、符号化オーディオ信号を記述するRF通信信号を送信するように構成される。デバイスD110はオーディオ出力段O10をも含み、出力段O10は、等化されたオーディオ信号S50を処理し(たとえば、等化されたオーディオ信号S50をアナログ信号に変換し)、その処理されたオーディオ信号をラウドスピーカーSP10に出力するように構成される。この例では、オーディオ出力段O10は、ボリューム制御信号VS10のレベルに従って、処理されたオーディオ信号のボリュームを制御するように構成され、そのレベルはユーザ制御の下で変動することがある。
装置A110の実装形態は、通信デバイスの他の要素(たとえば、移動局モデム(MSM)チップまたはチップセットのベースバンド部分)が感知オーディオ信号S10に対してさらなるオーディオ処理演算を実行するように構成されるように、通信デバイス内に常駐することが望ましい。装置A110の実装形態中に含まれるエコーキャンセラ(たとえば、エコーキャンセラEC10)を設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ(たとえば、MSMチップまたはチップセットのエコー消去モジュール)との間の起こりうる相乗効果を考慮に入れることが望ましい。
図16Bに、通信デバイスD100の実装形態D200のブロック図を示す。デバイスD200は、受信機R10および送信機X10の要素を含むチップまたはチップセットCS10(たとえば、MSMチップセット)を含み、1つまたは複数のプロセッサを含むことができる。デバイスD200は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD200はまた、アンテナC30への経路中にダイプレクサと1つまたは複数のパワー増幅器とを含むことができる。チップ/チップセットCS10はまた、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD200はまた、Global Positioning System(GPS)ロケーションサービスおよび/またはワイヤレス(たとえば、Bluetooth(登録商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートする1つまたは複数のアンテナC40を含む。別の例では、そのような通信デバイスは、それ自体でBluetooth(登録商標)ヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
等化器EQ10は、時間領域バッファから雑音基準S30を受信するように構成できる。代替または追加として、等化器EQ10は、時間領域バッファから再生オーディオ信号S40を受信するように構成できる。一例では、各時間領域バッファは10ミリ秒の長さ(たとえば、8kHzのサンプリングレートで80個のサンプル、または16kHzのサンプリングレートで160個のサンプル)を有する。
図17に、第1のサブバンド信号発生器SG100aと第2のサブバンド信号発生器SG100bとを含む、等化器EQ10の実装形態EQ20のブロック図を示す。第1のサブバンド信号発生器SG100aは、再生オーディオ信号S40からの情報に基づいて第1のサブバンド信号のセットを生成するように構成され、第2のサブバンド信号発生器SG100bは、雑音基準S30からの情報に基づいて第2のサブバンド信号のセットを生成するように構成される。等化器EQ20はまた、第1のサブバンドパワー推定値計算器EC100aと第2のサブバンドパワー推定値計算器EC100aとを含む。第1のサブバンドパワー推定値計算器EC100aは、各々が第1のサブバンド信号のうちの対応する1つからの情報に基づく第1のサブバンドパワー推定値のセットを生成するように構成され、第2のサブバンドパワー推定値計算器EC100bは、各々が第2のサブバンド信号のうちの対応する1つからの情報に基づく第2のサブバンドパワー推定値のセットを生成するように構成される。等化器EQ20はまた、対応する第1のサブバンドパワー推定値と対応する第2のサブバンドパワー推定値との間の関係に基づいて、サブバンドの各々について利得係数を計算するように構成されたサブバンド利得係数計算器GC100と、等化されたオーディオ信号S50を生成するためにサブバンド利得係数に従って再生オーディオ信号S40をフィルタ処理するように構成されたサブバンドフィルタアレイFA100とを含む。
等化器EQ20(および、本明細書で開示する等化器EQ10またはEQ20の他の実装形態のいずれか)を適用する際に、(たとえば、オーディオプリプロセッサAP20およびエコーキャンセラEC10に関して上述したように)エコー消去演算を受けたマイクロフォン信号から雑音基準S30を得ることが望ましいことを、明確に繰り返し述べておく。雑音基準S30(または以下で開示する等化器EQ10のさらなる実装形態によって使用される他の雑音基準のいずれか)に音響エコーが残っている場合、等化されたオーディオ信号S50が遠端ラウドスピーカーをより大きく駆動すればするほど、等化器EQ10はサブバンド利得係数を増加させる傾向が大きくなるように、等化されたオーディオ信号S50とサブバンド利得係数計算経路との間に正のフィードバックループを生成することができる。
第1のサブバンド信号発生器SG100aと第2のサブバンド信号発生器SG100bのいずれかまたは両方は、図18Aに示すようにサブバンド信号発生器SG200のインスタンスとして実装できる。サブバンド信号発生器SG200は、オーディオ信号A(すなわち、適宜に再生オーディオ信号S40または雑音基準S30)からの情報に基づいてq個のサブバンド信号S(i)のセットを生成するように構成され、1≦i≦qであり、qはサブバンドの所望の数である。サブバンド信号発生器SG200は、変換信号Tを生成するために時間領域オーディオ信号Aに対して変換演算を実行するように構成された変換モジュールSG10を含む。変換モジュールSG10は、周波数領域変換信号を生成するために(たとえば、高速フーリエ変換またはFFTによって)オーディオ信号Aに対して周波数領域変換演算を実行するように構成できる。変換モジュールSG10の他の実装形態は、ウェーブレット変換演算または離散コサイン変換(DCT)演算など、オーディオ信号Aに対して異なる変換演算を実行するように構成できる。変換演算は、所望の均一分解能(たとえば、32、64、128、256、または512ポイントのFFT演算)に従って実行できる。
サブバンド信号発生器SG200はまた、所望のサブバンド分割方式に従って、変換信号Tをビンのセットに分割することによって、サブバンド信号S(i)のセットをq個のビンのセットとして生成するように構成されたビニングモジュールSG20を含む。ビニングモジュールSG20は、均一サブバンド分割方式を適用するように構成できる。均一サブバンド分割方式では、各ビンは(たとえば、約10パーセント内の)実質的に同じ幅を有する。代替的に、聴覚心理研究が、人間の聴覚は周波数領域において不均一分解能に基づいて働くことを示しているように、ビニングモジュールSG20が不均一サブバンド分割方式を適用することが望ましい。不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。図19のドットの行は、周波数20、300、630、1080、1720、2700、4400、および7700Hzに対応する7つのバーク尺度サブバンドのセットのエッジを示す。サブバンドのそのような構成は、16kHzのサンプリングレートを有する広帯域音声処理システムにおいて使用できる。そのような分割方式の他の例では、より低いサブバンドは、6サブバンド構成を得るために除外され、および/または高周波限界は7700Hzから8000Hzに増加される。ビニングモジュールSG20は、ビンの1つまたは複数(場合によってはすべて)が少なくとも1つの隣接ビンに重複するようにも実装できるが、一般に、変換信号Tを重複しないビンのセットに分割するように実装される。
代替または追加として、第1のサブバンド信号発生器SG100aと第2のサブバンド信号発生器SG100bのいずれかまたは両方は、図18Bに示すようにサブバンド信号発生器SG300のインスタンスとして実装できる。サブバンド信号発生器SG300は、オーディオ信号A(すなわち、適宜に再生オーディオ信号S40または雑音基準S30)からの情報に基づいてq個のサブバンド信号S(i)のセットを生成するように構成され、1≦i≦qであり、qはサブバンドの所望の数である。この場合、サブバンド信号発生器SG300は、オーディオ信号Aの対応するサブバンドの利得を、オーディオ信号Aの他のサブバンドに対して変化させる(すなわち、通過帯域をブースティングすること、および/または停止帯域を減衰させる)ことによって、サブバンド信号S(1)〜S(q)の各々を生成するように構成されたサブバンドフィルタアレイSG30を含む。
サブバンドフィルタアレイSG30は、様々なサブバンド信号を並列に生成するように構成された2つ以上の成分フィルタを含むように実装できる。図20に、オーディオ信号Aのサブバンド分解を実行するように並列に構成されたq個のバンドパスフィルタF10−1〜F10−qのアレイを含む、サブバンドフィルタアレイSG30のそのような実装形態SG32のブロック図を示す。フィルタF10−1〜F10−qの各々は、オーディオ信号Aをフィルタ処理して、q個のサブバンド信号S(1)〜S(q)のうちの対応する1つを生成するように構成される。
フィルタF10−1〜F10−qの各々を、有限インパルス応答(FIR)または無限インパルス応答(IIR)を有するように実装することができる。たとえば、フィルタF10−1〜F10−qの1つまたは複数(場合によってはすべて)の各々は2次IIRセクションまたは「バイカッド」として実装できる。バイカッドの伝達関数を次のように表すことができる。
特に等化器EQ10の浮動小数点実装形態の場合、転置直接形IIを使用して各バイカッドを実装することが望ましい。図21Aに、フィルタF10−1〜F10−qのうちの1つの一般的IIRフィルタ実装形態の転置直接形IIを示し、図21Bに、フィルタF10−1〜F10−qのうちの1つのF10−iのバイカッド実装形態の転置直接形II構造を示す。図22に、フィルタF10−1〜F10−qのうちの1つのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す。
フィルタF10−1〜F10−qは、(たとえば、フィルタ通過帯域が等しい幅を有するように)均一サブバンド分解を実行するのではなく、(たとえば、フィルタ通過帯域の2つ以上が様々な幅を有するように)オーディオ信号Aの不均一サブバンド分解を実行することが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。1つのそのような分割方式は、周波数20、300、630、1080、1720、2700、4400、および7700Hzに対応し、その幅が周波数とともに増加する7つのバーク尺度サブバンドのセットのエッジを示す、図19のドットによって示される。サブバンドのそのような構成は、広帯域音声処理システム(たとえば、16kHzのサンプリングレートを有するデバイス)において使用できる。そのような分割方式の他の例では、最も低いサブバンドは6サブバンド方式を得るために省略され、および/または最も高いサブバンドの上限は7700Hzから8000Hzに増加される。
狭帯域音声処理システム(たとえば、8kHzのサンプリングレートを有するデバイス)では、より少数のサブバンドの構成を使用することが望ましい。そのようなサブバンド分割方式の一例は、4帯域擬似バーク方式300〜510Hz、510〜920Hz、920〜1480Hz、および1480〜4000Hzである。(たとえば、本例のように)広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および/またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。
フィルタF10−1〜F10−qの各々は、対応するサブバンドにわたる利得ブースト(すなわち、信号絶対値の増加)および/または他のサブバンドにわたる減衰(すなわち、信号絶対値の減少)を与えるように構成される。フィルタの各々は、そのそれぞれの通過帯域をほぼ同じ量(たとえば、3dB、または6dB)だけブースティングするように構成できる。代替的に、フィルタの各々は、そのそれぞれの停止帯域をほぼ同じ量(たとえば、3dB、または6dB)だけ減衰させるように構成できる。図23に、qが7に等しいフィルタF10−1〜F10−qのセットを実装するために使用できる一連の7つのバイカッドの絶対値および位相応答を示す。この例では、各フィルタは、そのそれぞれのサブバンドをほぼ同じ量だけブースティングするように構成される。代替的に、別のフィルタよりも大きいブースト(または減衰)を与えるように、フィルタF10−1〜F10−qのうちの1つまたは複数を構成することが望ましい。たとえば、そのそれぞれのサブバンドに同じ利得ブースト(または他のサブバンドに減衰)を与えるように、第1のサブバンド信号発生器SG100aおよび第2のサブバンド信号発生器SG100bの中の一方におけるサブバンドフィルタアレイSG30のフィルタF10−1〜F10−qの各々を構成し、たとえば、所望の聴覚心理重み付け関数に従って互いに異なる利得ブースト(または減衰)を与えるように、第1のサブバンド信号発生器SG100aおよび第2のサブバンド信号発生器SG100bの中の他方におけるサブバンドフィルタアレイSG30のフィルタF10−1〜F10−qの少なくともいくつかを構成することが望ましい。
図20は、フィルタF10−1〜F10−qがサブバンド信号S(1)〜S(q)を並列に生成する構成を示す。当業者は、これらのフィルタのうちの1つまたは複数の各々が、サブバンド信号の2つ以上を直列に生成するようにも実装できることを理解されよう。たとえば、サブバンドフィルタアレイSG30は、ある時間において、サブバンド信号S(1)〜S(q)のうちの1つを生成するためにオーディオ信号Aをフィルタ処理するためのフィルタ係数値の第1のセットとともに構成され、後続の時間において、サブバンド信号S(1)〜S(q)のうちの異なる1つを生成するためにオーディオ信号Aをフィルタ処理するためのフィルタ係数値の第2のセットとともに構成されるフィルタ構造(たとえば、バイカッド)を含むように実装できる。そのような場合、サブバンドフィルタアレイSG30は、q個よりも少ないバンドパスフィルタを使用して実装できる。たとえば、フィルタ係数値のq個のセットの各々に従ってq個のサブバンド信号S(1)〜S(q)の各々を生成する方法で、直列に再構成された単一のフィルタ構造とともにサブバンドフィルタアレイSG30を実装することが可能である。
第1のサブバンドパワー推定値計算器EC100aおよび第2のサブバンドパワー推定値計算器EC100bの各々は、図18Cに示すようにサブバンドパワー推定値計算器EC110のインスタンスとして実装できる。サブバンドパワー推定値計算器EC110は、サブバンド信号S(i)のセットを受信し、1≦i≦qであるq個のサブバンドパワー推定値E(i)の対応するセットを生成するように構成された加算器EC10を含む。加算器EC10は、一般に、オーディオ信号Aの連続するサンプル(「フレーム」とも呼ばれる)の各ブロックのq個のサブバンドパワー推定値のセットを計算するように構成される。典型的なフレーム長は、約5または10ミリ秒から約40または50ミリ秒にわたり、フレームは重複していても重複していなくてもよい。1つの演算によって処理されるフレームは、異なる演算によって処理されるより大きいフレームのセグメント(すなわち、「サブフレーム」)とすることもできる。1つの特定の例では、オーディオ信号Aは、10ミリ秒の重複しないフレームのシーケンスに分割され、加算器EC10は、オーディオ信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成される。
一例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の平方和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号Aの各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
上式で、E(i,k)は、サブバンドiおよびフレームkのサブバンドパワー推定値を示し、S(i,j)は、i番目のサブバンド信号のj番目のサンプルを示す。
別の例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の絶対値の和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
オーディオ信号Aの対応する和によって各サブバンド和を正規化するように加算器EC10を実装することが望ましい。1つのそのような例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、オーディオ信号Aの値の平方和で除算された、サブバンド信号S(i)のうちの対応する1つの値の平方和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
上式で、A(j)は、オーディオ信号Aのj番目のサンプルを示す。別のそのような例では、加算器EC10は、サブバンドパワー推定値の各々を、オーディオ信号Aの値の絶対値の和で除算された、サブバンド信号S(i)のうちの対応する1つの値の絶対値の和として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
代替的に、サブバンド信号S(i)のセットがビニングモジュールSG20の実装形態によって生成される場合、加算器EC10が、サブバンド信号S(i)のうちの対応する1つにおけるサンプルの総数によって各サブバンド和を正規化することが望ましい。(たとえば、上記の式(4a)および(4b)のように)各サブバンド和を正規化するために除算演算が使用される場合、0によって除算する可能性を回避するために、小さい正値ρを分母に追加することが望ましい。値ρはすべてのサブバンドに対して同じとすることができ、または(たとえば、チューニングおよび/または重み付けのために)サブバンドの2つ以上(場合によってはすべて)の各々のために異なる値のρを使用することができる。ρの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。
代替的に、オーディオ信号Aの対応する和を減算することによって各サブバンド和を正規化するように加算器EC10を実装することが望ましい。1つのそのような例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の平方和とオーディオ信号Aの値の平方和との差として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
別のそのような例では、加算器EC10は、サブバンドパワー推定値E(i)の各々を、サブバンド信号S(i)のうちの対応する1つの値の絶対値の和とオーディオ信号Aの値の絶対値の和との差として計算するように構成される。加算器EC10のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのq個のサブバンドパワー推定値のセットを計算するように構成できる。
たとえば、等化器EQ20の実装形態が、サブバンドフィルタアレイSG30のブースティング実装形態と、式(5b)に従ってq個のサブバンドパワー推定値のセットを計算するように構成された加算器EC10の実装形態とを含むことが望ましい。
第1のサブバンドパワー推定値計算器EC100aと第2のサブバンドパワー推定値計算器EC100bのいずれかまたは両方は、サブバンドパワー推定値に対して時間平滑化演算を実行するように構成できる。たとえば、第1のサブバンドパワー推定値計算器EC100aと第2のサブバンドパワー推定値計算器EC100bのいずれかまたは両方は、図18Dに示すようにサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。サブバンドパワー推定値計算器EC120は、サブバンドパワー推定値E(i)を生成するために、経時的に加算器EC10によって計算される和を平滑化するように構成された平滑器EC20を含む。平滑器EC20は、サブバンドパワー推定値E(i)を和の移動平均として計算するように構成できる。平滑器EC20のそのような実装形態は、1≦i≦qの場合、次式のうちの1つなどの線形平滑化式に従ってオーディオ信号Aの各フレームのq個のサブバンドパワー推定値E(i)のセットを計算するように構成できる。
上式で、平滑化係数αは、0(平滑化なし)と0.9(最大平滑化)との間の値(たとえば、0.3、0.5、または0.7)である。平滑器EC20が、q個のサブバンドのすべてに対して平滑化係数αの同じ値を使用することが望ましい。代替的に、平滑器EC20が、q個のサブバンドの2つ以上(場合によってはすべて)の各々に対して平滑化係数αの異なる値を使用することが望ましい。平滑化係数αの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。
サブバンドパワー推定値計算器EC120の1つの特定の例は、上記の式(3)に従ってq個のサブバンド和を計算し、上記の式(7)に従ってq個の対応するサブバンドパワー推定値を計算するように構成される。サブバンドパワー推定値計算器EC120の別の特定の例は、上記の式(5b)に従ってq個のサブバンド和を計算し、上記の式(7)に従ってq個の対応するサブバンドパワー推定値を計算するように構成される。しかしながら、式(2)〜(5b)のうちの1つと式(6)〜(8)のうちの1つとの18の可能な組合せのすべては、本明細書によって個々に明確に開示されることに留意されたい。平滑器EC20の代替実装形態は、加算器EC10によって計算される和に対して非線形平滑化演算を実行するように構成できる。
サブバンド利得係数計算器GC100は、対応する第1のサブバンドパワー推定値と対応する第2のサブバンドパワー推定値とに基づいて、1≦i≦qであるq個のサブバンドの各々について利得係数G(i)のセットのうちの対応する1つを計算するように構成される。図24Aに、各利得係数G(i)を対応する信号と雑音サブバンドパワー推定値との比として計算するように構成されたサブバンド利得係数計算器GC100の実装形態GC200のブロック図を示す。サブバンド利得係数計算器GC200は、次式などの式に従ってオーディオ信号の各フレームのq個のパワー比のセットの各々を計算するように構成できる比計算器GC10を含む。
上式で、EN(i,k)は、サブバンドiおよびフレームkの第2のサブバンドパワー推定値計算器EC100bによって(すなわち、雑音基準S20に基づいて)生成されるサブバンドパワー推定値を示し、EA(i,k)は、サブバンドiおよびフレームkの第1のサブバンドパワー推定値計算器EC100aによって(すなわち、再生オーディオ信号S10に基づいて)生成されるサブバンドパワー推定値を示す。
さらなる一例では、比計算器GC10は、次式などの式に従ってオーディオ信号の各フレームのサブバンドパワー推定値のq個の比のセットのうちの少なくとも1つ(場合によってはすべて)を計算するように構成される。
上式で、εは、小さい正値(すなわち、EA(i,k)の期待値よりも小さい値)を有するチューニングパラメータである。比計算器GC10のそのような実装形態では、すべてのサブバンドにチューニングパラメータεの同じ値を使用することが望ましい。代替的に、比計算器GC10のそのような実装形態では、サブバンドの2つ以上ごと(場合によってはすべて)にチューニングパラメータεの異なる値を使用することが望ましい。チューニングパラメータεの(1つまたは複数の)値は、固定とするか、または経時的に(たとえば、あるフレームから次のフレームまで)適応させることができる。
サブバンド利得係数計算器GC100はまた、q個のパワー比のうちの1つまたは複数(場合によってはすべて)の各々に対して平滑化演算を実行するように構成できる。図24Bに、比計算器GC10によって生成されたq個のパワー比のうちの1つまたは複数(場合によってはすべて)の各々に対して時間平滑化演算を実行するように構成された平滑器GC20を含むサブバンド利得係数計算器GC100のそのような実装形態GC300のブロック図を示す。1つのそのような例では、平滑器GC20は、次式などの式に従ってq個のパワー比の各々に対して線形平滑化演算を実行するように構成される。
上式で、βは平滑化係数である。
平滑器GC20が、サブバンド利得係数の現在値と前の値との間の関係に応じて、平滑化係数βの2つ以上の値の中から1つを選択することが望ましい。たとえば、平滑器GC20が、雑音の程度が増加しているとき、利得係数値がより急速に変化できるようにすることによって、および/または雑音の程度が減少しているとき、利得係数値の急速な変化を抑止することによって微分時間平滑化演算を実行することが望ましい。そのような構成は、大きい雑音が、雑音が終了した後でも所望の音響をマスキングし続ける聴覚心理継時マスキング効果に対処するのを助けることができる。したがって、利得係数の現在値が前の値よりも大きい場合の平滑化係数βの値に比較して、利得係数の現在値が前の値よりも小さい場合の平滑化係数βの値が大きいことが望ましい。1つのそのような例では、平滑器GC20は、1≦i≦qの場合、次式などの式に従ってq個のパワー比の各々に対して線形平滑化演算を実行するように構成される。
上式で、βattは平滑化係数βのアタック値を示し、βdecは平滑化係数βの減衰値を示し、βatt<βdecである。平滑器EC20の別の実装形態は、次式のうちの1つなど、線形平滑化式に従ってq個のパワー比の各々に対して線形平滑化演算を実行するように構成される。
図25Aに、フレームkにおけるサブバンドiごとに実行することができる、上式(10)および(13)によるそのような平滑化の一例を記載する擬似コードリストを示す。このリストでは、サブバンド利得係数の現在値は、オーディオパワーに対する雑音パワーの比に初期化される。この比がサブバンド利得係数の前の値よりも小さい場合、サブバンド利得係数の現在値は、1未満の値を有するスケール係数beta_decによって前の値をスケールダウンすることによって計算される。他の場合は、サブバンド利得係数の現在値は、0(平滑化なし)と1(最大平滑化、更新なし)との間の値を有する平均化係数beta_attを使用して、その比とサブバンド利得係数の前の値との平均として計算される。
平滑器GC20のさらなる実装形態は、雑音の程度が低下しているとき、q個の利得係数のうちの1つまたは複数(場合によってはすべて)に対して更新を遅延させるように構成できる。図25Bに、そのような微分時間平滑化演算を実装するために使用できる図25Aの擬似コードリストの変形を示す。このリストは、値hangover_max(i)によって指定された間隔に従った比減衰プロファイル中に更新を遅延させるハングオーバ論理を含む。各サブバンドにhangover_maxの同じ値を使用することも、異なるサブバンドにhangover_maxの異なる値を使用することもできる。
上述のサブバンド利得係数計算器GC100の実装形態は、サブバンド利得係数のうちの1つまたは複数(場合によってはすべて)に対して上限および/または下限を適用するようにさらに構成できる。図26Aおよび図26Bに、サブバンド利得係数値の各々に対してそのような上限UBおよび下限LBを適用するために使用できる、それぞれ図25Aおよび図25Bの擬似コードリストの変形を示す。これらの限界の各々の値は固定とすることができる。代替的に、これらの限界のいずれかまたは両方の値を、たとえば、等化器EQ10のための所望のヘッドルームおよび/または等化されたオーディオ信号S50の現在のボリューム(たとえば、ボリューム制御信号VS10の現在値)に従って適応させることができる。代替または追加として、これらの限界のいずれかまたは両方の値は、再生オーディオ信号S40の現在レベルなど、再生オーディオ信号S40からの情報に基づくことができる。
サブバンドの重複から生じることがある過大なブースティングを補償するように等化器EQ10を構成することが望ましい。たとえば、サブバンド利得係数計算器GC100は、中間周波数サブバンド利得係数のうちの1つまたは複数の値を低減するように構成できる(たとえば、fsが再生オーディオ信号S40のサンプリング周波数を示す周波数fs/4を含むサブバンド)。サブバンド利得係数計算器GC100のそのような実装形態は、サブバンド利得係数の現在値に、1未満の値を有するスケール係数を乗算することによって低減を実行するように構成できる。サブバンド利得係数計算器GC100のそのような実装形態は、スケールダウンすべき各サブバンド利得係数に対して同じスケール係数を使用するか、または代替的に、(たとえば、対応するサブバンドと1つまたは複数の隣接するサブバンドとの重複の程度に基づいて)スケールダウンすべき各サブバンド利得係数に対して異なるスケール係数を使用するように構成できる。
追加または代替として、高周波サブバンドの1つまたは複数のブースティングの程度を増加させるように等化器EQ10を構成することが望ましい。たとえば、再生オーディオ信号S40の1つまたは複数の高周波サブバンド(たとえば、最も高いサブバンド)の増幅が、中間周波数サブバンド(たとえば、fsが再生オーディオ信号S40のサンプリング周波数を示す周波数fs/4を含むサブバンド)の増幅よりも小さくならないようにサブバンド利得係数計算器GC100を構成することが望ましい。1つのそのような例では、サブバンド利得係数計算器GC100は、中間周波数サブバンドのサブバンド利得係数の現在値に、1よりも大きいスケール係数を乗算することによって高周波サブバンドのサブバンド利得係数の現在値を計算するように構成できる。別のそのような例では、サブバンド利得係数計算器GC100は、(A)上記で開示した技法のいずれかに従って、そのサブバンドのパワー比から計算される現在の利得係数値と、(B)中間周波数サブバンドのサブバンド利得係数の現在値に、1よりも大きいスケール係数を乗算することによって得られる値とのうちの最大値として高周波サブバンドのサブバンド利得係数の現在値を計算するように構成される。
サブバンドフィルタアレイFA100は、等化されたオーディオ信号S50を生成するために、サブバンド利得係数の各々を再生オーディオ信号S40の対応するサブバンドに適用するように構成される。サブバンドフィルタアレイFA100は、サブバンド利得係数の各々を再生オーディオ信号S40の対応するサブバンドに適用するように各々が構成されたバンドパスフィルタのアレイを含むように実装できる。そのようなアレイのフィルタは並列および/または直列に構成できる。図27に、並列に構成されたq個のバンドパスフィルタF20−1〜F20−qのセットを含むサブバンドフィルタアレイFA100の実装形態FA110のブロック図を示す。この場合、フィルタF20−1〜F20−qの各々は、対応するバンドパス信号を生成するために利得係数に従って再生オーディオ信号S40をフィルタ処理することによって、(たとえば、サブバンド利得係数計算器GC100によって計算される)q個のサブバンド利得係数G(1)〜G(q)の対応する1つを再生オーディオ信号S40の対応するサブバンドに適用するように構成される。サブバンドフィルタアレイFA110はまた、等化されたオーディオ信号S50を生成するためにq個のバンドパス信号を混合するように構成されたコンバイナMX10を含む。図28Aに、直列に(すなわち、各フィルタF20−kが、2≦k≦qの場合、フィルタF20−(k−1)の出力をフィルタ処理するように構成されるようにカスケードで、)サブバンド利得係数に従って再生オーディオ信号S40をフィルタ処理することによって、サブバンド利得係数G(1)〜G(q)の各々を再生オーディオ信号S40の対応するサブバンドに適用するようにバンドパスフィルタF20−1〜F20−qが構成された、サブバンドフィルタアレイFA100の別の実装形態FA120のブロック図を示す。
フィルタF20−1〜F20−qの各々を、有限インパルス応答(FIR)または無限インパルス応答(IIR)を有するように実装することができる。たとえば、フィルタF20−1〜F20−qのうちの1つまたは複数(場合によってはすべて)の各々をバイカッドとして実装することができる。たとえば、サブバンドフィルタアレイFA120はバイカッドのカスケードとして実装できる。そのような実装形態は、バイカッドIIRフィルタカスケード、2次IIRセクションまたはフィルタのカスケード、あるいはカスケードの一連のサブバンドIIRバイカッドと呼ばれることもある。特に等化器EQ10の浮動小数点実装形態の場合、転置直接形IIを使用して各バイカッドを実装することが望ましい。
フィルタF20−1〜F20−qの通過帯域が、(たとえば、フィルタ通過帯域が等しい幅を有するような)均一サブバンドのセットではなく(たとえば、フィルタ通過帯域の2つ以上が異なる幅を有するような)不均一サブバンドのセットへの再生オーディオ信号S40の帯域幅の分割を表すことが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。たとえば、フィルタF20−1〜F20−qは、図19中にドットによって示されるようにバーク尺度分割方式に従って構成できる。サブバンドのそのような構成は、広帯域音声処理システム(たとえば、16kHzのサンプリングレートを有するデバイス)において使用できる。そのような分割方式の他の例では、最も低いサブバンドは6サブバンド方式を得るために省略され、および/または最も高いサブバンドの上限は7700Hzから8000Hzに増加される。
狭帯域音声処理システム(たとえば、8kHzのサンプリングレートを有するデバイス)では、6または7つよりも少ないサブバンドを有する分割方式に従ってフィルタF20−1〜F20−qの通過帯域を設計することが望ましい。そのようなサブバンド分割方式の一例は、4帯域擬似バーク方式300〜510Hz、510〜920Hz、920〜1480Hz、および1480〜4000Hzである。(たとえば、本例のように)広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および/またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。
サブバンド利得係数G(1)〜G(q)の各々は、フィルタF20−1〜F20−qの対応する1つの1つまたは複数のフィルタ係数値を更新するために使用できる。そのような場合、その周波数特性(たとえば、その通過帯域の中心周波数および幅)が固定され、その利得が変動するように、フィルタF20−1〜F20−qのうちの1つまたは複数(場合によってはすべて)の各々を構成することが望ましい。そのような技法は、FIRまたはIIRフィルタが、共通係数(たとえば、サブバンド利得係数G(1)〜G(q)の対応する1つの現在値)によってフィードフォワード係数(たとえば、上記のバイカッド式(1)中の係数b0、b1、およびb2)の値をのみ変動させることによって実装できる。たとえば、フィルタF20−1〜F20−qのうちの1つのF20−iのバイカッド実装形態におけるフィードフォワード係数の各々の値を、サブバンド利得係数G(1)〜G(q)のうちの対応する1つのG(i)の現在値に従って変動させて、以下の伝達関数を得ることができる。
図28Bに、対応するサブバンド利得係数G(i)の現在値に従ってフィルタ利得を変動させるフィルタF20−1〜F20−qのうちの1つのF20−iのバイカッド実装形態の別の例を示す。
サブバンドフィルタアレイFA100が、第1のサブバンド信号発生器SG100aのサブバンドフィルタアレイSG30の実装形態、および/または第2のサブバンド信号発生器SG100bのサブバンドフィルタアレイSG30の実装形態と同じサブバンド分割方式を適用することが望ましい。たとえば、サブバンドフィルタアレイFA100が、1つまたは複数のそのようなフィルタの設計と同じ設計を有するフィルタのセット(たとえば、バイカッドのセット)を使用し、1つまたは複数のサブバンドフィルタアレイの利得係数に固定値が使用されることが望ましい。サブバンドフィルタアレイFA100を、1つまたは複数のそのようなサブバンドフィルタアレイと同じ成分フィルタを使用して(たとえば、アレイFA120のカスケードの場合のように、異なる時間に、異なる利得係数値を用いて、場合によっては別様に構成された成分フィルタを用いて)実装することさえできる。
ブースティングなしに再生オーディオ信号S40の1つまたは複数のサブバンドをパスするように等化器EQ10を構成することが望ましい。たとえば、低周波サブバンドのブースティングは、他のサブバンドのマフリングをもたらし、等化器EQ10がブースティングなしに再生オーディオ信号S40の1つまたは複数の低周波サブバンド(たとえば、300Hz未満の周波数を含むサブバンド)をパスすることが望ましい。
安定性および/または量子化雑音考慮事項に従ってサブバンドフィルタアレイFA100を設計することが望ましい。上記のように、たとえば、サブバンドフィルタアレイFA120は2次セクションのカスケードとして実装できる。そのようなセクションを実装する転置直接形IIバイカッド構造の使用は、丸め雑音を最小限に抑えること、および/またはセクション内でロバストな係数/周波数感度を得ることに役立つ。等化器EQ10は、オーバーフロー状態を回避するのに役立つフィルタ入力および/または係数値のスケーリングを実行するように構成できる。等化器EQ10は、フィルタ入力と出力との間の差異が大きい場合、サブバンドフィルタアレイFA100の1つまたは複数のIIRフィルタの履歴をリセットするサニティチェック演算を実行するように構成できる。数値実験およびオンラインテストは、等化器EQ10が量子化雑音補償のためのモジュールなしに実装できるという結論をもたらしたが、1つまたは複数のそのようなモジュール(たとえば、サブバンドフィルタアレイFA100の1つまたは複数のフィルタの各々の出力に対してディザリング演算を実行するように構成されたモジュール)も含めることができる。
再生オーディオ信号S40が非アクティブである間隔中に、等化器EQ10をバイパスするか、または他の場合は再生オーディオ信号S40の等化を中断または抑止するように装置A100を構成することが望ましい。装置A100のそのような実装形態は、再生オーディオ信号S40のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および/または残差(たとえば、線形予測符号化残差)の自己相関、ゼロ交差レート、および/または第1の反射係数など、1つまたは複数の係数に基づいて、アクティブ(たとえば、音声)または非アクティブ(たとえば、雑音)として分類するように構成されたボイスアクティビティ検出器(VAD)を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および/またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。
図29に、そのようなVAD V10を含む装置A100の実装形態A120のブロック図を示す。ボイスアクティビティ検出器V10は、その状態が音声アクティビティが再生オーディオ信号S40上で検出されたかどうかについて示す更新制御信号S70を生成するように構成される。装置A120はまた、更新制御信号S70の状態に従って制御される等化器EQ10(たとえば、等化器EQ20)の実装形態EQ30を含む。たとえば、等化器EQ30は、音声が検出されない再生オーディオ信号S40の間隔(たとえば、フレーム)中にサブバンド利得係数値の更新が抑止されるように構成できる。等化器EQ30のそのような実装形態は、VAD V10が再生オーディオ信号S40の現在のフレームは非アクティブであることを示すとき、サブバンド利得係数の更新を中断する(たとえば、サブバンド利得係数の値を下限値に設定するか、またはサブバンド利得係数の値が下限値に減衰することを可能にする)ように構成されたサブバンド利得係数計算器GC100の実装形態を含むことができる。
ボイスアクティビティ検出器V10は、フレームエネルギー、信号対雑音比(SNR)、周期性、ゼロ交差レート、音声および/または残差の自己相関、ならびに第1の反射係数など、1つまたは複数の係数に基づいて再生オーディオ信号S40のフレームをアクティブまたは非アクティブとして分類する(たとえば、更新制御信号S70の2値状態を制御する)ように構成できる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および/またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。代替または追加として、そのような分類は、ある周波数帯域におけるエネルギーなどのそのような係数の値または大きさ、あるいはそのような係数の変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD決定のメモリに基づいてボイスアクティビティ検出を実行するように、VAD V10を実装することが望ましい。VAD V10が実行することができるボイスアクティビティ検出演算の一例は、たとえば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題する3GPP2文書C.S0014−C、v1.0のセクション4.7(pp.4−49〜4−57)、2007年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているように、再生オーディオ信号S40のハイバンドおよびローバンドエネルギーをそれぞれのしきい値と比較することを含む。ボイスアクティビティ検出器V10は、一般に、更新制御信号S70を2進値ボイス検出指示信号として生成するように構成されるが、連続および/または多値信号を生成する構成も可能である。
図30Aおよび図30Bに、再生オーディオ信号S40の現在のフレームがアクティブであるとき、可変VADの状態(たとえば、更新制御信号S70)が1であり、他の場合は0である、それぞれ図26Aおよび図26Bの擬似コードリストの変形を示す。サブバンド利得係数計算器GC100の対応する実装形態によって実行できるこれらの例では、サブバンドiおよびフレームkのサブバンド利得係数の現在値は最新の値に初期化される。図31Aおよび図31Bに、ボイスアクティビティが検出されないとき(すなわち、非アクティブフレームの場合)、サブバンド利得係数の値が下限値に減衰することを可能にする、それぞれ図26Aおよび図26Bの擬似コードリストの他の変形を示す。
再生オーディオ信号S40のレベルを制御するように装置A100を構成することが望ましい。たとえば、等化器EQ10によるサブバンドブースティングに適応するために十分なヘッドルームを与えるように再生オーディオ信号S40のレベルを制御するように装置A100を構成することが望ましい。追加または代替として、再生オーディオ信号S40に関する情報(たとえば、再生オーディオ信号S40の現在レベル)に基づいて、サブバンド利得係数計算器GC100に関して上記で開示したように、上限UBおよび下限LBのいずれかまたは両方の値を判断するように装置A100を構成することが望ましい。
図32に、等化器EQ10が自動利得制御(AGC)モジュールG10を介して再生オーディオ信号S40を受信するように構成された、装置A100の実装形態A130のブロック図を示す。再生オーディオ信号S40を得るために、知られているまたは開発されるAGC技法に従って、オーディオ入力信号S100のダイナミックレンジを限定された振幅帯域に圧縮するように、自動利得制御モジュールG10を構成することができる。自動利得制御モジュールG10は、たとえば、低いパワーを有する入力信号のセグメント(たとえば、フレーム)をブースティングし、高いパワーを有する入力信号中のエネルギーを減少させることによって、そのようなダイナミック圧縮を実行するように構成できる。装置A130は、復号段からオーディオ入力信号S100を受信するように構成できる。たとえば、上述の通信デバイスD100は、装置A130の実装形態でもある(すなわち、AGCモジュールG10を含む)装置A110の実装形態を含むように構築できる。
自動利得制御モジュールG10は、ヘッドルーム定義および/またはマスターボリューム設定を与えるように構成できる。たとえば、AGCモジュールG10は、上記で開示した上限UBおよび/または下限LBの値を等化器EQ10に供給するように構成できる。圧縮しきい値および/またはボリューム設定など、AGCモジュールG10の動作パラメータは、等化器EQ10の有効ヘッドルームを制限することができる。感知オーディオ信号S10上に雑音がない場合、装置A100の正味効果は利得増幅がほぼない(たとえば、再生オーディオ信号S40と等化されたオーディオ信号S50との間のレベルの差がおよそプラスマイナス5、10または20パーセント未満である)ように装置A100をチューニングする(たとえば、存在する場合、等化器EQ10および/またはAGCモジュールG10をチューニングする)ことが望ましい。
時間領域ダイナミック圧縮は、たとえば、経時的信号の変化の知覚力を増加させることによって、信号了解度を増加させることができる。そのような信号変化の1つの特定の例は、信号の了解度に著しく寄与し得る、明確に定義された経時的ホルマント軌道の存在に関係する。ホルマント軌道の開始点および終了点は、子音、特に閉鎖子音(たとえば、[k]、[t]、[p]など)によって一般にマーキングされる。これらのマーキング子音は、母音成分および音声の他の有声部分に比較して一般に低いエネルギーを有する。マーキング子音のエネルギーをブースティングすることにより、リスナーがよりはっきりと音声オンセットおよびオフセットをたどることを可能にすることによって、了解度を増加させることができる。了解度のそのような増加は、(たとえば、等化器EQ10に関して本明細書で説明する)周波数サブバンドパワー調節によって得られるものとは異なる。したがって、(たとえば、装置A130の実装形態における)これらの2つの効果の間の相乗効果を利用することにより、全体的な音声了解度をかなり増加させることができる。
等化されたオーディオ信号S50のレベルをさらに制御するように装置A100を構成することが望ましい。たとえば、装置A100は、(AGCモジュールG10に加えて、またはその代替として)等化されたオーディオ信号S50のレベルを制御するように構成されたAGCモジュールを含むように構成できる。図33に、等化器の音響出力レベルを制限するように構成されたピークリミッタL10を含む等化器EQ20の実装形態EQ40のブロック図を示す。ピークリミッタL10は可変利得オーディオレベル圧縮器として実装できる。たとえば、ピークリミッタL10は、等化器EQ40が複合等化/圧縮効果を達成するように、高いピーク値をしきい値に圧縮するように構成できる。図34に、等化器EQ40ならびにAGCモジュールG10を含む装置A100の実装形態A140のブロック図を示す。
図35Aの擬似コードリストに、ピークリミッタL10によって実行できるピーク制限演算の一例を記載する。入力信号sigのサンプルkごとに(たとえば、等化されたオーディオ信号S50のサンプルkごとに)、この演算は、サンプル振幅とソフトピーク制限peak_limとの間の差pkdiffを計算する。peak_limの値は、固定とするか、または経時的に適応させることができる。たとえば、peak_limの値は、上限UBおよび/または下限LBの値、再生オーディオ信号S40の現在のレベルに関係する情報など、AGCモジュールG10からの情報に基づくことができる。
pkdiffの値が少なくとも0である場合、サンプル振幅はピーク制限peak_limを超えない。この場合、差分利得値diffgainは1に設定される。他の場合は、サンプル振幅はピーク制限peak_limより大きく、diffgainは超過振幅に比例して1未満の値に設定される。
ピーク制限演算は利得値の平滑化をも含むことができる。そのような平滑化は、利得が経時的に増加しているかまたは減少しているかに従って異なることができる。図35Aに示すように、たとえば、diffgainの値がピーク利得パラメータg_pkの前の値を超える場合、g_pkの値は、g_pkの前の値、diffgainの現在値、およびアタック利得平滑化パラメータgamma_attを使用して更新される。他の場合は、g_pkの値は、g_pkの前の値、diffgainの現在値、および減衰利得平滑化パラメータgamma_decを使用して更新される。値gamma_attおよびgamma_decは、約0(平滑化なし)から約0.999(最大平滑化)の範囲から選択される。次いで、入力信号sigの対応するサンプルkにg_pkの平滑化値を乗算して、ピーク制限されたサンプルを得る。
図35Bに、異なる式を使用して、差分利得値diffgainを計算する図35Aの擬似コードリストの変形を示す。これらの例の代替として、ピークリミッタL10は、pkdiffの値がより少ない頻度で更新される(たとえば、pkdiffの値がpeak_limと信号sigのいくつかのサンプルの絶対値の平均との差として計算される)、図35Aまたは図35Bに記載されているピーク制限演算のさらなる例を実行するように構成できる。
本明細書に示すように、装置A100の実装形態を含むように通信デバイスを構築することができる。そのようなデバイスの演算中のある時間には、装置A100は、雑音基準S30以外の基準からの情報に従って再生オーディオ信号S40を等化することが望ましい。たとえば、何らかの環境または配向では、SSPフィルタSS10の指向性処理演算が信頼できない結果を生成することがある。プッシュツートーク(PTT)モードまたはスピーカーフォンモードなど、デバイスのいくつかの動作モードでは、感知オーディオチャネルの空間選択的処理が不要または望ましくないことがある。そのような場合、装置A100が空間選択的(または「マルチチャネル」)モードではなく非空間(または「シングルチャネル」)モードで動作することが望ましい。
装置A100の実装形態は、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成できる。装置A100のそのような実装形態は、感知オーディオ信号S10、音源信号S20、および雑音基準S30のうちの少なくとも1つの品質に基づいてモード選択信号(たとえば、2値フラグ)を生成するように構成された分離評価器を含むことができる。モード選択信号の状態を判断するためにそのような分離評価器によって使用される基準は、以下のパラメータ、すなわち、音源信号S20のエネルギーと雑音基準S30のエネルギーとの間の差または比、雑音基準S20のエネルギーと感知オーディオ信号S10の1つまたは複数のチャネルのエネルギーとの間の差または比、音源信号S20と雑音基準S30との間の相関、音源信号S20の1つまたは複数の統計メトリクス(たとえば、尖度、自己相関)によって示される音源信号S20が音声を搬送している尤度のうちの1つまたは複数の現在値と、対応するしきい値との間の関係を含むことができる。そのような場合、信号のエネルギーの現在値は、信号の連続するサンプルのブロック(たとえば、現在のフレーム)の2乗サンプル値の合計として計算できる。
図36に、音源信号S20および雑音基準S30からの情報に基づいて(たとえば、音源信号S20のエネルギーと雑音基準S30のエネルギーとの間の差または比に基づいて)、モード選択信号S80を生成するように構成された分離評価器EV10を含む装置A100のそのような実装形態A200のブロック図を示す。そのような分離評価器は、SSPフィルタSS10が所望の音響成分(たとえば、ユーザのボイス)を音源信号S20に十分に分離したと判断したとき、マルチチャネルモードを示す第1の状態を有し、他の場合は、シングルチャネルモードを示す第2の状態を有するようにモード選択信号S80を生成するように構成できる。1つのそのような例では、分離評価器EV10は、音源信号S20の現在のエネルギーと雑音基準S30の現在のエネルギーとの間の差が対応するしきい値を超える(代替的に、それ以上である)と判断したとき十分な分離を示すように構成される。別のそのような例では、分離評価器EV10は、音源信号S20の現在のフレームと雑音基準S30の現在のフレームとの間の相関が対応するしきい値よりも小さい(代替的に、それを超えない)と判断したとき十分な分離を示すように構成される。
装置A200はまた、等化器EQ10の実装形態EQ100を含む。等化器EQ100は、モード選択信号S80が第1の状態を有するとき、(たとえば、上記で開示した等化器EQ10の実装形態のいずれかに従って)マルチチャネルモードで動作し、モード選択信号S80が第2の状態を有するときシングルチャネルモードで動作するように構成される。シングルチャネルモードでは、等化器EQ100は、非分離感知オーディオ信号S90からのサブバンドパワー推定値のセットに基づいて、サブバンド利得係数値G(1)〜G(q)を計算するように構成される。等化器EQ100は、時間領域バッファから非分離感知オーディオ信号S90を受信するように構成できる。1つのそのような例では、時間領域バッファは10ミリ秒の長さ(たとえば、8kHzのサンプリングレートで80個のサンプル、または16kHzのサンプリングレートで160個のサンプル)を有する。
装置A200は、非分離感知オーディオ信号S90が感知オーディオチャネルS10−1およびS10−2のうちの1つであるように実装できる。図37に、非分離感知オーディオ信号S90が感知オーディオチャネルS10−1である装置A200のそのような実装形態A210のブロック図を示す。そのような場合、装置A200は、エコーキャンセラを介して、またはオーディオプリプロセッサAP20のインスタンスなど、マイクロフォン信号に対してエコー消去演算を実行するように構成された他のオーディオ前処理段を介して、感知オーディオチャネルS10を受信することが望ましい。装置A200のより一般的な実装形態では、非分離感知オーディオ信号S90は、上述のように、マイクロフォン信号SM10−1およびSM10−2のいずれか、またはマイクロフォン信号DM10−1およびDM10−2のいずれかなどの非分離マイクロフォン信号である。
装置A200は、非分離感知オーディオ信号S90が通信デバイスの1次マイクロフォン(たとえば、最も直接的にユーザのボイスを通常受信するマイクロフォン)に対応する感知オーディオチャネルS10−1およびS10−2のうちの特定の1つであるように実装できる。代替的に、装置A200は、非分離感知オーディオ信号S90が通信デバイスの2次マイクロフォン(たとえば、間接的にのみユーザのボイスを通常受信するマイクロフォン)に対応する感知オーディオチャネルS10−1およびS10−2のうちの特定の1つであるように実装できる。代替的に、装置A200は、感知オーディオチャネルS10−1およびS10−2を単一のチャネルにミックスダウンすることによって非分離感知オーディオ信号S90を得るように実装できる。さらなる代替では、装置A200は、最も高い信号対雑音比、(たとえば、1つまたは複数の統計メトリックによって示される)音声最尤、通信デバイスの現在の動作構成、および/または所望の音源信号が生じたと判断される方向など、1つまたは複数の基準に従って、感知オーディオチャネルS10−1およびS10−2の中から非分離感知オーディオ信号S90を選択するように実装できる。(装置A200のより一般的な実装形態では、この段落で説明する原理を使用して、上述のように、マイクロフォン信号SM10−1およびSM10−2、またはマイクロフォン信号DM10−1およびDM10−2など、2つ以上のマイクロフォン信号のセットから非分離感知オーディオ信号S90を得ることができる。)上記で説明したように、(たとえば、オーディオプリプロセッサAP20およびエコーキャンセラEC10に関して上述したように)エコー消去演算を受けた1つまたは複数のマイクロフォン信号から非分離感知オーディオ信号S90を得ることが望ましい。
等化器EQ100は、モード選択信号S80の状態に従って、雑音基準S30および非分離感知オーディオ信号S90のうちの1つに基づいて第2のサブバンド信号のセットを発生するように構成できる。図38に、モード選択信号S80の現在の状態に従って雑音基準S30および非分離感知オーディオ信号S90のうちの1つを選択するように構成されたセレクタSL10(たとえば、デマルチプレクサ)を含む等化器EQ100(および等化器EQ20)のそのような実装形態EQ110のブロック図を示す。
代替的に、等化器EQ100は、モード選択信号S80の状態に従って、サブバンド信号の異なるセットのうちから選択して、第2のサブバンドパワー推定値のセットを発生するように構成できる。図39に、第3のサブバンド信号発生器SG100cとセレクタSL20とを含む、等化器EQ100(および等化器EQ20)のそのような実装形態EQ120のブロック図を示す。サブバンド信号発生器SG200のインスタンスとして、またはサブバンド信号発生器SG300のインスタンスとして実装できる第3のサブバンド信号発生器SG100cは、非分離感知オーディオ信号S90に基づくサブバンド信号のセットを発生するように構成される。セレクタSL20(たとえば、デマルチプレクサ)は、モード選択信号S80の現在の状態に従って、第2のサブバンド信号発生器SG100bと第3のサブバンド信号発生器SG100cとによって発生されたサブバンド信号のセットの中から1つを選択し、サブバンド信号の選択されたセットをサブバンド信号の第2のセットのセットとして第2のサブバンドパワー推定値計算器EC100bに供給するように構成される。
さらなる代替では、等化器EQ100は、モード選択信号S80の状態に従って、雑音サブバンドパワー推定値の異なるセットのうちから選択して、サブバンド利得係数のセットを発生するように構成される。図40に、第3のサブバンド信号発生器SG100cと第2のサブバンドパワー推定値計算器NP100とを含む、等化器EQ100(および等化器EQ20)のそのような実装形態EQ130のブロック図を示す。計算器NP100は、第1の雑音サブバンドパワー推定値計算器NC100bと、第2の雑音サブバンドパワー推定値計算器NC100cと、セレクタSL30とを含む。第1の雑音サブバンドパワー推定値計算器NC100bは、上述のように第2のサブバンド信号発生器SG100bによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第1のセットを発生するように構成される。第2の雑音サブバンドパワー推定値計算器NC100cは、上述のように第3のサブバンド信号発生器SG100cによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第2のセットを発生するように構成される。たとえば、等化器EQ130は、雑音基準の各々のサブバンドパワー推定値を並列に評価するように構成できる。セレクタSL30(たとえば、デマルチプレクサ)は、モード選択信号S80の現在の状態に従って、第1の雑音サブバンドパワー推定値計算器NC100bと第2の雑音サブバンドパワー推定値計算器NC100cとによって発生される雑音サブバンドパワー推定値のセットのうちの1つを選択し、雑音サブバンドパワー推定値の選択されたセットをサブバンドパワー推定値の第2のセットとしてサブバンド利得係数計算器GC100に供給するように構成される。
第1の雑音サブバンドパワー推定値計算器NC100bは、サブバンドパワー推定値計算器EC110のインスタンスとして、またはサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。第2の雑音サブバンドパワー推定値計算器NC100cも、サブバンドパワー推定値計算器EC110のインスタンスとして、またはサブバンドパワー推定値計算器EC120のインスタンスとして実装できる。第2の雑音サブバンドパワー推定値計算器NC100cはまた、非分離感知オーディオ信号S90の現在のサブバンドパワー推定値の最小値を識別し、非分離感知オーディオ信号S90の他の現在のサブバンドパワー推定値をこの最小値と交換するようにさらに構成できる。たとえば、第2の雑音サブバンドパワー推定値計算器NC100cは、図41Aに示すように、サブバンド信号発生器EC210のインスタンスとして実装できる。サブバンド信号発生器EC210は、1≦i≦qの場合、次式などの式に従って最小サブバンドパワー推定値を識別し適用するように構成されたミニマイザーMZ10を含む、上述のサブバンド信号発生器EC110の実装形態である。
代替的に、第2の雑音サブバンドパワー推定値計算器NC100cは、図41Bに示すように、サブバンド信号発生器EC220のインスタンスとして実装できる。サブバンド信号発生器EC220は、ミニマイザーMZ10のインスタンスを含む、上述のサブバンド信号発生器EC120の実装形態である。
マルチチャネルモードで動作するときは、非分離感知オーディオ信号S90からのサブバンドパワー推定値、ならびに雑音基準S30からのサブバンドパワー推定値に基づくサブバンド利得係数値を計算するように等化器EQ130を構成することが望ましい。図42に、等化器EQ130のそのような実装形態EQ140のブロック図を示す。等化器EQ140は、マキシマイザーMAX10を含む第2のサブバンドパワー推定値計算器NP10の実装形態NP110を含む。マキシマイザーMAX10は、1≦i≦qの場合、次式などの式に従ってサブバンドパワー推定値のセットを計算するように構成される。
上式で、Eb(i,k)は、サブバンドiおよびフレームkについて第1の雑音サブバンドパワー推定値計算器EC100bによって計算されるサブバンドパワー推定値を示し、Ec(i,k)は、サブバンドiおよびフレームkについて第2の雑音サブバンドパワー推定値計算器EC100cによって計算されるサブバンドパワー推定値を示す。
装置A100の一実装形態は、シングルチャネルおよびマルチチャネル雑音基準からの雑音サブバンドパワー情報を組み合わせるモードで動作することが望ましい。マルチチャネル雑音基準は、非定常雑音に対する動的応答をサポートすることができるが、装置の得られる動作は、たとえば、ユーザの位置の変更に対して過度に反応しやすいものであることがある。シングルチャネル雑音基準は、より安定している応答を与えることができるが、非定常雑音を補償する能力を欠く。図43Aに、雑音基準S30からの情報と非分離感知オーディオ信号S90からの情報とに基づいて再生オーディオ信号S40を等化するように構成された、等化器EQ20の実装形態EQ50のブロック図を示す。等化器EQ50は、上記で開示したように構成されたマキシマイザーMAX10のインスタンスを含む、第2のサブバンドパワー推定値計算器NP100の実装形態NP200を含む。
計算器NP200はまた、シングルチャネルおよびマルチチャネル雑音サブバンドパワー推定値の利得の独立操作を可能にするように実装できる。たとえば、スケーリングされたサブバンドパワー推定値がマキシマイザーMAX10によって実行される最大化演算で使用されるように、第1のサブバンドパワー推定値計算器NC100bまたは第2のサブバンドパワー推定値計算器NC100cによって生成される雑音サブバンドパワー推定値のうちの1つまたは複数(場合によってはすべて)の各々をスケーリングするための利得係数(または利得係数セットのうちの対応する1つ)を適用するように、計算器NP200を実装することが望ましい。
装置A100の実装形態を含むデバイスの演算中のある時間には、その装置は、雑音基準S30以外の基準からの情報に従って再生オーディオ信号S40を等化することが望ましい。たとえば、所望の音響成分(たとえば、ユーザのボイス)および(たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの)指向性雑音成分が同じ方向からマイクロフォンアレイに到着する状況の場合、指向性処理演算は、これらの成分の不十分な分離を行うことがある。たとえば、指向性処理演算は指向性雑音成分を音源信号に分離し、その結果、得られた雑音基準は、再生オーディオ信号の所望の等化をサポートするには不十分なことがある。
本明細書で開示する指向性処理演算と距離処理演算との両方の結果を適用するように、装置A100を実装することが望ましい。たとえば、そのような実装形態は、近距離の所望の音響成分(たとえば、ユーザのボイス)および(たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの)遠距離指向性雑音が同じ方向からマイクロフォンアレイに到着する場合、改善された等化パフォーマンスを提供することができる。
雑音基準S30からの情報と音源信号S20からの情報とに基づく雑音サブバンドパワー推定値に従って、再生オーディオ信号S40の少なくとも1つのサブバンドを再生オーディオ信号S40の別のサブバンドに対してブースティングするように、装置A100を実装することが望ましい。図43Bに、音源信号S20を第2の雑音基準として処理するように構成された、等化器EQ20のそのような実装形態EQ240のブロック図を示す。等化器EQ240は、本明細書で開示したように構成されたマキシマイザーMAX10のインスタンスを含む、第2のサブバンドパワー推定値計算器NP100の実装形態NP120を含む。この実装形態では、セレクタSL30は、本明細書で開示するSSPフィルタSS10の実装形態によって生成される距離指示信号DI10を受信するように構成される。セレクタSL30は、距離指示信号DI10の現在の状態が遠距離信号を示す場合は、マキシマイザーMAX10の出力を選択し、他の場合は、第1の雑音サブバンドパワー推定値計算器EC100bの出力を選択するように構成される。
(装置A100はまた、等化器が、音源信号S20を非分離感知オーディオ信号S90ではなく第2の雑音基準として受信するように構成されるように、本明細書で開示する等化器EQ100の実装形態のインスタンスを含むように実装できることが、明確に開示されている。)
図43Cに、本明細書で開示するSSPフィルタSS110と等化器EQ240とを含む、装置A100の実装形態A250のブロック図を示す。図43Dに、(たとえば、等化器EQ240に関して本明細書で開示する)遠距離非定常雑音の補償のサポートを、(たとえば、等化器EQ50に関して本明細書で開示する)シングルチャネル雑音基準とマルチチャネル雑音基準の両方からの雑音サブバンドパワー情報と組み合わせる、等化器EQ240の実装形態EQ250のブロック図を示す。この例では、第2のサブバンドパワー推定値は、3つの異なる雑音推定値、すなわち、(重平滑化され、および/または6フレーム以上などの長期間にわたって平滑化される)非分離感知オーディオ信号S90からの定常雑音の推定値と、(平滑化されないかまたは単に最小平滑化される)音源信号S20からの遠距離非定常雑音の推定値と、方向ベースの雑音基準S30とに基づく。(たとえば、図43Dに示すように)本明細書で開示する雑音基準としての非分離感知オーディオ信号S90の任意の適用例において、音源信号S20からの平滑化された雑音推定値(たとえば、重平滑化された推定値および/またはいくつかのフレームにわたって平滑化された長期推定値)が代わりに使用できることを、繰り返し述べておく。
非分離感知オーディオ信号S90(代替的に、感知オーディオ信号S10)が非アクティブである間隔中にのみ、シングルチャネルサブバンド雑音パワー推定値を更新するように、等化器EQ100(または等化器EQ50または等化器EQ240)を構成することが望ましい。装置A100のそのような実装形態は、非分離感知オーディオ信号S90(または感知オーディオ信号S10)のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および/または残差(たとえば、線形予測符号化残差)の自己相関、ゼロ交差レート、および/または第1の反射係数など、1つまたは複数の係数に基づいて、アクティブ(たとえば、音声)または非アクティブ(たとえば、雑音)として分類するように構成されたボイスアクティビティ検出器(VAD)を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および/またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。複数の基準(たとえば、エネルギー、ゼロ交差レートなど)および/または最近のVAD決定のメモリに基づいてボイスアクティビティ検出を実行するように、このVADを実装することが望ましい。
図44に、そのようなボイスアクティビティ検出器(または「VAD」)V20を含む、装置A200のそのような実装形態A220を示す。上述のようにVAD V10のインスタンスとして実装できるボイスアクティビティ検出器V20は、感知オーディオチャネルS10−1上で音声アクティビティが検出されたかどうかをその状態が示す更新制御信号UC10を生成するように構成される。装置A220が図38に示す等化器EQ100の実装形態EQ110を含む場合、感知オーディオチャネルS10−1上で音声が検出されシングルチャネルモードが選択された間隔(たとえば、フレーム)中に、第2のサブバンド信号発生器SG100bがその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。装置A220が図38に示す等化器EQ100の実装形態EQ110または図39に示す等化器EQ100の実装形態EQ120を含む場合、感知オーディオチャネルS10−1上で音声が検出されシングルチャネルモードが選択された間隔(たとえば、フレーム)中に、第2のサブバンドパワー推定値発生器EC100bがその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。
装置A220が図39に示す等化器EQ100の実装形態EQ120を含む場合、感知オーディオチャネルS10−1上で音声が検出された間隔(たとえば、フレーム)中に、第3のサブバンド信号発生器SG100cがその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。装置A220が図40に示す等化器EQ100の実装形態EQ130または図41に示す等化器EQ100の実装形態EQ140を含む場合、あるいは装置A100が図43に示す等化器EQ100の実装形態EQ40を含む場合、感知オーディオチャネルS10−1上で音声が検出された間隔(たとえば、フレーム)中に、第3のサブバンド信号発生器SG100cがその出力を更新することを防ぐために、ならびに/あるいは第3のサブバンドパワー推定値発生器EC100cがその出力を更新することを防ぐために、更新制御信号UC10を適用することができる。
図45に、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成された、装置A100の代替実装形態A300のブロック図を示す。装置A200のように、装置A100の装置A300は、モード選択信号S80を発生するように構成された分離評価器(たとえば、分離評価器EV10)を含む。この場合、装置A300は、再生オーディオ信号S40に対してAGCまたはAVC演算を実行するように構成された自動ボリューム制御(AVC)モジュールVC10をも含み、モード選択信号S80は、モード選択信号S80の対応する状態に従って、フレームごとにAVCモジュールVC10および等化器EQ10のうちの1つを選択するようにセレクタSL40(たとえば、マルチプレクサ)およびSL50(たとえば、デマルチプレクサ)を制御するために適用する。図46に、本明細書で説明する等化器EQ30の実装形態EQ60と、AGCモジュールG10およびVAD V10のインスタンスとをも含む、装置A300の実装形態A310のブロック図を示す。この例では、等化器EQ60は、等化器の音響出力レベルを制限するように構成されたピークリミッタL10のインスタンスを含む上述の等化器EQ40の実装形態でもある。(装置A300の、このおよび他の開示する構成はまた、等化器EQ50またはEQ240など、本明細書で開示する等化器EQ10の代替実装形態を使用して実装できることが当業者には理解されよう。)
AGCまたはAVC演算は、一般に単一のマイクロフォンから得られる定常雑音推定値に基づいてオーディオ信号のレベルを制御する。そのような推定値は、本明細書で説明する非分離感知オーディオ信号S90(代替的に、感知オーディオ信号S10)のインスタンスから計算できる。たとえば、非分離感知オーディオ信号のパワー推定値(たとえば、現在のフレームのエネルギーまたは絶対値の和)などのパラメータの値に従って再生オーディオ信号S40のレベルを制御するようにAVCモジュールVC10を構成することが望ましい。他のパワー推定値に関して上述したように、非分離感知オーディオ信号がボイスアクティビティを現在含んでいないときのみ、そのようなパラメータ値に対して時間平滑化演算を実行するようにおよび/またはそのパラメータ値を更新するように、AVCモジュールVC10を構成することが望ましい。図47に、AVCモジュールVC10の実装形態VC20が、感知オーディオチャネルS10−1からの情報(たとえば、信号S10−1の現在のパワー推定値)に従って再生オーディオ信号S40のボリュームを制御するように構成された、装置A310の実装形態A320のブロック図を示す。図48に、AVCモジュールVC10の実装形態VC30が、マイクロフォン信号SM10−1からの情報(たとえば、信号SM10−1の現在のパワー推定値)に従って再生オーディオ信号S40のボリュームを制御するように構成された、装置A310の実装形態A330のブロック図を示す。
図49に、装置A100の別の実装形態A400のブロック図を示す。装置A400は、本明細書で説明する等化器EQ100の実装形態を含み、装置A200と同様である。ただし、この場合、モード選択信号S80は無相関雑音検出器UC10によって発生される。アレイのあるマイクロフォンには影響を及ぼし、別のマイクロフォンには影響を及ぼさない雑音である無相関雑音は、風雑音、呼吸音、スクラッチングなどを含むことがある。SSPフィルタSS10などのマルチマイクロフォン信号分離システムは、許容される場合、実際に無相関雑音を増幅することがあるので、そのような雑音によりそのシステムに望ましくない結果が生じることがある。無相関雑音を検出するための技法は、マイクロフォン信号(あるいは各マイクロフォン信号における約200Hzから約800または1000Hzまでの帯域など、そのマイクロフォン信号の部分)の相互相関を推定することを含む。そのような相互相関推定は、マイクロフォン間の遠距離応答を等化するために2次マイクロフォン信号の通過帯域を利得調整することと、利得調整された信号を1次マイクロフォン信号の通過帯域から減算することと、差分信号のエネルギーを(差分信号のおよび/または1次マイクロフォン通過帯域の経時的エネルギーに基づいて適応的とすることができる)しきい値と比較することとを含むことができる。無相関雑音検出器UC10は、そのような技法および/または任意の他の適切な技法に従って実装できる。また、マルチマイクロフォンデバイスにおける無相関雑音の検出については、無相関雑音検出器UC10の設計、実装、および/または統合についての開示に限定した目的のために、参照により本明細書に組み込まれる、2008年8月29日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する米国特許出願第12/201,528号において論じられている。
図50に、SSPフィルタSS10の1つまたは複数の指向性処理段を特徴づける係数値を得るために使用できる設計方法M10のフローチャートを示す。方法M10は、マルチチャネルトレーニング信号のセットを記録するタスクT10と、SSPフィルタSS10の構造を収束のためにトレーニングするタスクT20と、トレーニングされたフィルタの分離パフォーマンスを評価するタスクT30とを含む。タスクT20およびT30は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ再生デバイスの外部で実行される。タスクT30において容認できる結果が得られるまで、方法M10のタスクの1つまたは複数を繰り返す。方法M10の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、SSPフィルタSS10の1つまたは複数の指向性処理段の設計、実装、トレーニング、および/または評価に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号に記載されている。
タスクT10は、少なくともM個のマイクロフォンのアレイを使用して、M個のチャネルの各々がM個のマイクロフォンの対応する1つの出力に基づくようにMチャネルトレーニング信号のセットを記録する。トレーニング信号の各々は、各トレーニング信号が音声と雑音成分の両方を含むように少なくとも1つの情報源および少なくとも1つの干渉源に応答してこのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、雑音の多い環境での音声の記録であることが望ましい。マイクロフォン信号は、一般にサンプリングされ、前処理(たとえば、エコー消去、雑音低減、スペクトル整形などのためにフィルタ処理)され、さらには(たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって)事前分離される。音声などの音響適用例では、典型的なサンプリングレートは、8kHz〜16kHzにわたる。
Mチャネルトレーニング信号のセットの各々は、P個のシナリオの1つの下で記録され、Pは、2に等しい場合があるが、一般に1よりも大きい任意の整数である。以下で説明するように、P個のシナリオの各々は、様々な空間特徴(たとえば、様々なハンドセットまたはヘッドセット配向)および/または様々なスペクトル特徴(たとえば、様々な特性を有する音源の捕捉)を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、P個のシナリオのうちの異なる1つの下でそれぞれ記録される少なくともP個のトレーニング信号を含む。
本明細書で説明する装置A100の他の要素を含んでいる同じオーディオ再生デバイスを使用してタスクT10を実行することが可能である。しかしながら、より一般的には、タスクT10は、オーディオ再生デバイス(たとえば、ハンドセットまたはヘッドセット)の参照インスタンスを使用して実行されるであろう。方法M10によって生成される収束フィルタソリューションの得られたセットは、次いで、プロダクション中に同じまたは同様のオーディオ再生デバイスの他のインスタンスにコピーされる(たとえば、そのような各プロダクションインスタンスのフラッシュメモリにロードされる)。
そのような場合、オーディオ再生デバイス(「参照デバイス」)の参照インスタンスは、M個のマイクロフォンのアレイを含む。参照デバイスのマイクロフォンは、オーディオ再生デバイスのプロダクションインスタンス(「プロダクションデバイス」)の音響応答と同じ音響応答を有することが望ましい。たとえば、参照デバイスのマイクロフォンは、プロダクションデバイスのモデルと同じ1つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。さらに、他の場合は、参照デバイスはプロダクションデバイスと同じ音響特性を有することが望ましい。さらには、プロダクションデバイス同士が音響的に同じであるように、参照デバイスはプロダクションデバイスと音響的に同じであることが望ましい。たとえば、参照デバイスはプロダクションデバイスと同じデバイスモデルであることが望ましい。しかしながら、実際のプロダクション環境では、参照デバイスは、1つまたは複数の低位の(すなわち、音響的に重要でない)態様においてプロダクションデバイスとは異なるプロダクション開始前のバージョンでもよい。典型的な場合には、参照デバイスは、トレーニング信号を記録するためにのみ使用されるので、参照デバイス自体が装置A100の要素を含む必要はない。
同じM個のマイクロフォンを使用して、トレーニング信号のすべてを記録することができる。代替的に、トレーニング信号の1つを記録するために使用されるM個のマイクロフォンのセットは、トレーニング信号のもう1つを記録するために使用されるM個のマイクロフォンのセットとは(マイクロフォンの1つまたは複数において)異なることが望ましい。たとえば、マイクロフォンの間のある程度の変動に対してロバストである複数のフィルタ係数値を生成するために、マイクロフォンアレイの異なるインスタンスを使用することが望ましい。1つのそのような場合には、Mチャネルトレーニング信号のセットは、参照デバイスの少なくとも2つの異なるインスタンスを使用して記録された信号を含む。
P個のシナリオの各々は、少なくとも1つの情報源と少なくとも1つの干渉源とを含む。一般に、各情報源は、音声信号または楽音信号を再生するラウドスピーカーであり、各干渉源は、別の音声信号または典型的な予想される環境からの周囲の背景音、または雑音信号などの干渉側音響信号を再生するラウドスピーカーである。使用できるラウドスピーカーの様々なタイプには、動電型(たとえば、ボイスコイル)スピーカー、圧電型スピーカー、静電型スピーカー、リボンスピーカー、平面磁気スピーカーなどがある。1つのシナリオまたは適用例において情報源として働く音源は、異なるシナリオまたは適用例において干渉源として働くことがある。P個のシナリオの各々におけるM個のマイクロフォンからの入力データの記録は、Mチャネルテープレコーダ、Mチャネル音響の記録または捕捉機能をもつコンピュータ、あるいは(たとえば、サンプリング分解能のオーダー内で)同時にM個のマイクロフォンの出力を捕捉あるいは記録することが可能な別のデバイスを使用して実行できる。
音響無響室は、Mチャネルトレーニング信号のセットを記録するために使用できる。図51に、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、Head and Torso Simulator(HATS、デンマーク、Naerum、Bruel&Kjaer製)は、干渉源(すなわち、4つのラウドスピーカー)の内向きアレイ内に配置される。HATSの頭部は、代表的な人間の頭部と音響的に同様であり、音声信号を再生するために口部にラウドスピーカーを含む。干渉源のアレイは、図示のようにHATSを囲む拡散雑音界を生成するように駆動できる。1つのそのような例では、ラウドスピーカーのアレイは、HATS耳参照点または口参照点において75〜78dBの音圧レベルで雑音信号を再生するように構成される。他の場合には、1つまたは複数のそのような干渉源は、様々な空間分布を有する雑音界(たとえば、指向性雑音界)を生成するように駆動できる。
使用できる雑音信号のタイプは、(たとえば、米国電気電子学会(IEEE)(ニュージャージー州ピスカタウェイ)によって公表されたIEEE規格269−2001、「Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように)白色雑音、ピンク雑音、グレイ雑音、およびホス雑音を含む。使用できる他のタイプの雑音信号は、ブラウン雑音、ブルー雑音、およびパープル雑音を含む。
P個のシナリオは、少なくとも1つの空間および/またはスペクトル特徴に関して互いに異なる。音源およびマイクロフォンの空間構成は、少なくとも以下の方法、すなわち、他の1つまたは複数の音源に対する音源の配置および/または配向と、他の1つまたは複数のマイクロフォンに対するマイクロフォンの配置および/または配向と、マイクロフォンに対する音源の配置および/または配向と、音源に対するマイクロフォンの配置および/または配向とのうちの任意の1つまたは複数でシナリオごとに異なることができる。P個のシナリオの中の少なくとも2つは、セットの中のマイクロフォンまたは音源の少なくとも1つが、1つのシナリオにおいて、他のシナリオにおけるその位置または配向とは異なる位置または配向を有するように、異なる空間構成に配置されたマイクロフォンおよび音源のセットに対応することができる。たとえば、P個のシナリオの中の少なくとも2つは、ユーザの口などの情報源に対する、M個のマイクロフォンのアレイを有するハンドセットまたはヘッドセットなどのポータブル通信デバイスの異なる配向に関することができる。シナリオごとに異なる空間特徴は、ハードウェア制約(たとえば、デバイス上のマイクロフォンのロケーション)、デバイスの予測される使用パターン(たとえば、典型的な予想されるユーザの保持姿勢)、および/または異なるマイクロフォン位置および/またはアクティブ化(たとえば、3つ以上のマイクロフォンの中の異なるペアをアクティブにすること)を含むことができる。
シナリオごとに異なることがあるスペクトル特徴は、少なくとも1つの音源信号のスペクトル成分(たとえば、異なるボイスからの音声、異なる色の雑音)と、マイクロフォンの1つまたは複数の周波数応答とを少なくとも含む。上述の1つの特定の例では、シナリオの少なくとも2つは、マイクロフォンの少なくとも1つに関して異なる(言い換えれば、1つのシナリオにおいて使用されるマイクロフォンの少なくとも1つの代わりに、他のシナリオでは別のマイクロフォンを使用するか、または全く使用しない)。そのような変動は、マイクロフォンの周波数応答および/または位相応答の変化の予想される範囲にわたってロバストであり、および/またはマイクロフォンの障害に対してロバストであるソリューションをサポートするために望ましい。
別の特定の例では、シナリオの少なくとも2つは、背景雑音を含み、背景雑音のシグナチャ(すなわち、周波数および/または時間にわたる雑音の統計値)に関して異なる。そのような場合、干渉源は、P個のシナリオの1つでは、1つの色(たとえば、白、ピンク、またはホス)またはタイプ(たとえば、街頭雑音、バブル雑音、または自動車雑音の再生)の雑音を放出し、P個のシナリオのもう1つでは、別の色またはタイプの雑音(たとえば、1つのシナリオではバブル雑音、および別のシナリオでは街頭雑音および/または自動車雑音)を放出するように構成することができる。
P個のシナリオの少なくとも2つは、実質的に異なるスペクトル成分を有する信号を生成する情報源を含むことができる。音声適用例では、たとえば、2つの異なるシナリオにおける情報信号は、互いに10パーセント、20パーセント、30パーセント、さらには50パーセント以上異なる平均ピッチ(すなわち、シナリオの長さにわたる)を有する2つのボイスなどの異なるボイスとすることができる。シナリオごとに異なることがある別の特徴は、他の1つまたは複数の音源の出力振幅に対する音源の出力振幅である。シナリオごとに異なることがある別の特徴は、アレイの他の1つまたは複数のマイクロフォンの利得感度に対するマイクロフォンの利得感度である。
以下で説明するように、Mチャネルトレーニング信号のセットは、タスクT20においてフィルタ係数値の収束セットを得るために使用される。トレーニング信号の各々の持続時間は、トレーニング動作の予想される収束レートに基づいて選択できる。たとえば、収束に向かった著しい進展を可能にするのに十分長いが、他のトレーニング信号も収束ソリューションに実質的に寄与できるようにするのに十分短い、各トレーニング信号の持続時間を選択することが望ましい。典型的な適用例では、トレーニング信号の各々は、約1/2または1秒〜約5または10秒持続する。典型的なトレーニング動作では、トレーニング信号のコピーは、トレーニングに使用すべき音響ファイルを得るためにランダムな順序で連結される。トレーニングファイルの典型的な長さは、10、30、45、60、75、90、100、および120秒を含む。
近距離シナリオ(たとえば、通信デバイスがユーザの口の近くに保持されるとき)では、遠距離シナリオ(たとえば、デバイスがユーザの口から遠くに保持されるとき)とは異なる振幅と遅延との関係が、マイクロフォン出力間に存在することがある。P個のシナリオの範囲は、近距離シナリオと遠距離シナリオの両方を含むことが望ましい。代替的に、P個のシナリオの範囲は近距離シナリオのみを含むことが望ましい。そのような場合、対応するプロダクションデバイスは、演算中に感知オーディオ信号S10の不十分な分離が検出されたとき、等化を中断するか、または等化器EQ100に関して本明細書で説明したようにシングルチャネル等化モードを使用するように構成できる。
P個の音響シナリオの各々では、(ITU−T勧告P.50、国際電気通信連合、スイス、ジュネーブ、1993年3月に記載されているように)HATSの口の人工音声、および/または(「IEEE Transactions on Audio and Electroacoustics」、第17巻、227〜46ページ、1969年において「IEEE Recommended Practices for Speech Quality Measurements」に記載されているように)Harvard Sentenceの1つまたは複数などの標準化された語彙を発しているボイスから再生することによって、情報信号をM個のマイクロフォンに供給することができる。1つのそのような例では、音声は、89dBの音圧レベルでHATSの口部ラウドスピーカーから再生される。P個のシナリオの少なくとも2つは、この情報信号に関して互いに異なることができる。たとえば、異なるシナリオは、実質的に異なるピッチを有するボイスを使用することができる。追加または代替として、P個のシナリオの少なくとも2つは、(たとえば、異なるマイクロフォンに応答した変動に対してロバストである収束ソリューションをサポートするために)参照デバイスの異なるインスタンスを使用することができる。
適用例の1つの特定のセットでは、M個のマイクロフォンは、セルラー電話ハンドセットなどのワイヤレス通信用の携帯デバイスのマイクロフォンである。図6Aおよび図6Bは、そのようなデバイスの2つの異なる動作構成を示し、(たとえば、各構成について別々の収束フィルタ状態を得るために)デバイスの各動作構成に対して方法M10の別々のインスタンスを実行することが可能である。そのような場合、装置A100は、実行時に様々な収束フィルタ状態(すなわち、SSPフィルタSS10の指向性処理段のためのフィルタ係数値の様々なセット、またはSSPフィルタSS10の指向性処理段の様々なインスタンス)のうちから選択するように構成できる。たとえば、装置A100は、デバイスが開いているか閉じているかを示すスイッチの状態に対応するフィルタまたはフィルタ状態を選択するように構成できる。
適用例の別の特定のセットでは、M個のマイクロフォンは、ワイヤードまたはワイヤレスイヤピースあるいは他のヘッドセットのマイクロフォンである。図8は、本明細書で説明する、そのようなヘッドセットの一例63を示す。そのようなヘッドセットのためのトレーニングシナリオは、上記でハンドセット適用例に関して説明したように情報源および/または干渉源の任意の組合せを含むことができる。図8にヘッドセット取付可変性66によって示すように、P個のトレーニングシナリオのうちの異なるシナリオによってモデル化できる別の変動は、耳に対するトランスデューサ軸の変動する角度である。そのような変動は、実際問題としてユーザごとに生じることがある。そのような変動は、同じユーザがデバイスを着用する単一の期間に関してさえ生じることがある。そのような変動は、トランスデューサアレイからユーザの口への方向および距離を変化させることによって信号分離パフォーマンスに悪影響を及ぼす場合があることが理解されよう。そのような場合、複数のMチャネルトレーニング信号の1つは、ヘッドセットが、取付角度の予想される範囲の1つの極値またはその近くの角度で耳65に取り付けられるシナリオに基づき、Mチャネルトレーニング信号のもう1つは、ヘッドセットが、取付角度の予想される範囲の他の極値またはその近くの角度で耳65に取り付けられるシナリオに基づくことが望ましい。P個のシナリオのうちの他のシナリオは、これらの極値間の中間の角度に対応する1つまたは複数の配向を含むことができる。
適用例のさらなるセットでは、M個のマイクロフォンは、ハンズフリーカーキットに設けられたマイクロフォンである。図9に、ラウドスピーカー85がマイクロフォンアレイ84に対して直角に配設された、そのような通信デバイス83の一例を示す。そのようなデバイスのためのP個の音響シナリオは、上記でハンドセット適用例に関して説明したように、情報源および/または干渉源の任意の組合せを含むことができる。たとえば、P個のシナリオの2つ以上が、マイクロフォンアレイに対する所望の音源のロケーションにおいて異なることができる。P個のシナリオの1つまたは複数はまた、ラウドスピーカー85から干渉信号を再生することを含むことができる。異なるシナリオは、時間的および/または周波数的に異なるシグナチャ(たとえば、実質的に異なるピッチ周波数)を有する音楽および/またはボイスなど、ラウドスピーカー85から再生される干渉信号を含むことができる。そのような場合、方法M10は、所望の音声信号から干渉信号を分離するフィルタ状態を生成することが望ましい。P個のシナリオの1つまたは複数はまた、上述のように拡散または指向性雑音界などの干渉を含むことができる。
方法M10によって生成される収束フィルタソリューションの空間分離特性(たとえば、対応するビームパターンの形状および配向)は、トレーニング信号を収集するためにタスクT10において使用されるマイクロフォンの相対特性に敏感である可能性がある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのM個のマイクロフォンの利得を互いに対して較正することが望ましい。そのような較正は、マイクロフォンの利得の得られた比が所望の範囲内になるように、マイクロフォンのうちの1つまたは複数の出力に適用すべき重み係数を計算または選択することを含むことができる。また、プロダクション中および/またはプロダクション後に、少なくとも各プロダクションデバイスのマイクロフォンの利得を互いに較正することが望ましい。
個々のマイクロフォン素子が音響的にうまく特徴づけられたとしても、素子をオーディオ再生デバイスに取り付ける方法、および音響ポートの品質などのファクタの差により、同様のマイクロフォン素子が実際の使用において大幅に異なる周波数および利得応答パターンを有することがある。したがって、マイクロフォンアレイをオーディオ再生デバイスに設置した後に、マイクロフォンアレイのそのような較正を実行することが望ましい。
マイクロフォンのアレイの較正は特殊な雑音界内で実行でき、オーディオ再生デバイスは、その雑音界内に特定の方法で配向される。たとえば、ハンドセットなどの2マイクロフォンオーディオ再生デバイスは、両方のマイクロフォン(それぞれ全方向または単方向とすることができる)が同じSPLレベルに等しく露出されるように、2点音源雑音界に配置できる。プロダクションデバイス(たとえば、ハンドセット)の工場較正を実行するために使用できる他の較正エンクロージャおよび手順の例は、2008年6月30日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第61/077,144号に記載されている。参照デバイスのマイクロフォンの周波数応答および利得を一致させることは、プロダクション中に音響空洞および/またはマイクロフォン感度の変動を訂正するのを助けることができ、各プロダクションデバイスのマイクロフォンを較正することも望ましい。
プロダクションデバイスのマイクロフォンと参照デバイスのマイクロフォンとが、同じ手順を使用して適切に較正されるようにすることが望ましい。代替的に、異なる音響較正手順をプロダクション中に使用することができる。たとえば、部屋サイズの無響室においてラボラトリ手順を使用して参照デバイスを較正すること、および工場の現場で(たとえば、米国特許出願第61/077,144号に記載されているように)ポータブルチャンバにおいて各プロダクションデバイスを較正することが望ましい。プロダクション中に音響較正手順を実行することが可能でない場合には、自動利得一致手順を実行するようにプロダクションデバイスを構成することが望ましい。そのような手順の例は、2008年6月2日に出願された、「SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES」と題する米国仮特許出願第61/058,132号に記載されている。
プロダクションデバイスのマイクロフォンの特性は、時間とともに変動することがある。代替または追加として、そのようなデバイスのアレイ構成は、時間とともに機械的に変化することがある。したがって、サービス中に周期的に、または何らかの他のイベント時に(たとえば、電源投入時、ユーザ選択時などに)、1つまたは複数のマイクロフォン周波数特性および/または感度(たとえば、マイクロフォン利得間の比)を整合させるように構成された較正ルーチンをオーディオ再生デバイス内に含むことが望ましい。そのような手順の例は、米国仮特許出願第61/058,132号に記載されている。
P個のシナリオの1つまたは複数は、指向性干渉源を与えるために、(たとえば、標準化された語彙を発する人工音声および/またはボイスによって)オーディオ再生デバイスの1つまたは複数のラウドスピーカーを駆動することを含むことができる。1つまたは複数のそのようなシナリオを含むことは、再生オーディオ信号からの干渉に対する得られた収束フィルタソリューションのロバストネスをサポートするのを助けることができる。そのような場合、参照デバイスの1つまたは複数のラウドスピーカーは、プロダクションデバイスのモデルと同じ1つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。図6Aに示す動作構成では、そのようなシナリオは1次スピーカーSP10を駆動することを含むことができ、図6Bに示す動作構成では、そのようなシナリオは2次スピーカーSP20を駆動することを含むことができる。シナリオは、たとえば、図51に示す干渉源のアレイによって生成される拡散雑音界に加えて、またはその代替として、そのような干渉源を含むことができる。
代替または追加として、方法M10のインスタンスは、上述のようにエコーキャンセラEC10のための1つまたは複数の収束フィルタセットを得るために実行できる。次いで、エコーキャンセラのトレーニングされたフィルタを使用して、SSPフィルタSS10のトレーニング信号の記録中にマイクロフォン信号に対してエコー消去を実行することができる。
無響室内に配置されたHATSを、タスクT10においてトレーニング信号を記録するための好適なテストデバイスとして説明するが、他の人型ロボットシミュレータまたは人間スピーカーを所望の音声発生源の代わりに使用することができる。そのような場合、(たとえば、可聴周波数の所望の範囲にわたるトレーニングされたフィルタ係数値の得られた行列をより良く調整するために)少なくともある量の背景雑音を使用することが望ましい。デバイスの使用より前および/または使用中に、プロダクションデバイスに対してテストを実行することも可能である。たとえば、テストは、マイクロフォンから口までの典型的な距離など、オーディオ再生デバイスのユーザの特徴に基づいて、および/または予想される使用環境に基づいて個人化できる。一連のあらかじめ設定された「質問」をユーザ応答に対して設計することができ、たとえば、特定の特徴、形質、環境、使用などに対してシステムを調整するのを助けることができる。
タスクT20は、トレーニング信号のセットを使用して、音源分離アルゴリズムに従ってSSPフィルタSS10の構造をトレーニングする(すなわち、対応する収束フィルタソリューションを計算する)。タスクT20は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用してオーディオ再生デバイスの外部で実行される。タスクT20では、得られた出力信号において指向性成分のエネルギーが出力チャネルの1つ(たとえば、音源信号S20)に集中するように、指向性成分を有するマルチチャネル入力信号(たとえば、感知オーディオ信号S10)をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。この出力チャネルは、マルチチャネル入力信号のいかなるチャネルと比較しても増加した信号対雑音比(SNR)を有することができる。
「音源分離アルゴリズム」という用語はブラインド音源分離(BSS)アルゴリズムを含み、ブラインド音源分離(BSS)アルゴリズムは、音源信号の混合のみに基づいて、(1つまたは複数の情報源および1つまたは複数の干渉源からの信号を含むことがある)個々の音源信号を分離する方法である。ブラインド音源分離アルゴリズムは、複数の独立音源から来る混合信号を分離するために使用できる。これらの技法は、各信号の音源に関する情報を必要としないので、「ブラインド音源分離」方法として知られる。「ブラインド」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および/または干渉信号の1つまたは複数の統計値に関する仮定を含む。音声適用例では、たとえば、当該の音声信号は、通常、スーパーガウス分布(たとえば、高尖度)を有すると仮定される。BSSアルゴリズムの種類はまた多変量ブラインドデコンボリューションアルゴリズムを含む。
BSS方法は独立成分分析の実装を含むことができる。独立成分分析(ICA)は、互いからおそらく独立している混合音源信号(成分)を分離するための技法である。その簡略形態では、独立成分分析は、重みの「逆混合」行列を混合信号に適用して(たとえば、行列を混合信号で乗算して)、分離された信号を生成する。重みには初期値を割り当てることができ、次いでその初期値は、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ICAなどの方法は、雑音源からの音声信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析(「IVA」)は関連するBSS技法であり、音源信号は、単一の可変音源信号ではなくベクトル音源信号である。
音源分離アルゴリズムの種類はまた、たとえば、マイクロフォンアレイの軸に対する音源信号の1つまたは複数の各々の知られている方向などの他の先験的情報によって制約された、制約付きICAおよび制約付きIVAなど、BSSアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマと区別される。
図11Bを参照しながら上述したように、SSPフィルタSS10は1つまたは複数の段(たとえば、固定フィルタ段FF10、適応フィルタ段AF10)を含むことができる。これらの段の各々は、係数値が、音源分離アルゴリズムから導出された学習規則を使用してタスクT20によって計算される、対応する適応フィルタ構造に基づくことができる。フィルタ構造は、フィードフォワードおよび/またはフィードバック係数を含むことができ、有限インパルス応答(FIR)または無限インパルス応答(IIR)設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第12/197,924号に記載されている。
図52Aに、2つのフィードバックフィルタC110およびC120を含む適応フィルタ構造FS10の2チャネル例のブロック図を示し、図52Bに、2つの直接フィルタD110およびD120をも含むフィルタ構造FS10の実装形態FS20のブロック図を示す。空間選択的処理フィルタSS10は、たとえば、入力チャネルI1、I2がそれぞれ感知オーディオチャネルS10−1、S10−2に対応し、出力チャネルO1、O2がそれぞれ音源信号S20および雑音基準S30に対応するように、そのような構造を含むように実装できる。そのような構造をトレーニングするためにタスクT20によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする(たとえば、フィルタの出力チャネルの少なくとも1つによって含まれる情報量を最大にする)ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報(infomaxとしても知られる)、最尤、および最大非ガウス性(たとえば、最大尖度)がある。そのような適応構造、およびICAまたはIVA適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、2006年3月9日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第2006/0053002A1号、2006年3月1日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第60/777,920号、2006年3月1日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第60/777,900号、および「Systems and Methods for Blind Source Signal Se
paration」と題する国際特許公開第WO2007/100330A1号(Kimら)に記載されている。適応フィルタ構造、およびタスクT20においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第12/197,924号に記載されている。
図52Aに示すフィードバック構造FS10をトレーニングするために使用できる学習規則の一例は、次のように表される。
上式で、tは、時間サンプル指数を示し、h12(t)は、時間tにおけるフィルタC110の係数値を示し、h21(t)は、時間tにおけるフィルタC120の係数値を示し、下記の記号は時間領域畳み込み演算を示す。
Δh12kは、出力値y1(t)およびy2(t)の計算に続くフィルタC110のk番目の係数値の変化を示し、Δh21kは、出力値y1(t)およびy2(t)の計算に続くフィルタC120のk番目の係数値の変化を示す。アクティブ化関数fを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。音声適用例のためのアクティブ化信号fに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。
本明細書に示すように、SSPフィルタSS10の指向性処理段のフィルタ係数値は、BSS、ビームフォーミング、または複合BSS/ビームフォーミング方法を使用して計算できる。ICAおよびIVA技法は、非常に複雑なシナリオを解決するためにフィルタの適応を可能にするが、リアルタイムで適応するように構成された信号分離プロセスのために、これらの技法を実装することは常に可能または望ましいというわけではない。第1に、適応のために必要とされる収束時間および命令の数が、いくつかの適用例について極端に多いことがある。良好な初期条件の形態での先験的トレーニング知識の組込みは収束を加速することができるが、適用例によっては、適応は必要でないかまたは音響シナリオの一部にのみ必要である。第2に、入力チャネルの数が大きい場合、IVA学習規則は、非常にゆっくり収束し、極小値で止まる可能性がある。第3に、IVAのオンライン適応のための計算コストは法外に高いことがある。最後に、適応フィルタリングは、ユーザによって追加の残響として知覚されるか、処理方式の下流に取り付けられた音声認識システムに有害なことがある、過渡分および適応利得変調に関連することがある。
線形マイクロフォンアレイから受信された信号の指向性処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロフォンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロフォンの1つは、より直接的に所望の音源(たとえば、ユーザの口)に配向され、他のマイクロフォンは、この音源から比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、音源とセンサとの間のジオメトリ、または音響信号自体が知られていると仮定する。SSPフィルタSS10の構造のフィルタ係数値は、データ従属またはデータ独立ビームフォーマ設計(たとえば、超指向性ビームフォーマ、最小2乗ビームフォーマ、または統計学的最適ビームフォーマ設計)に従って計算できる。データ独立ビームフォーマ設計の場合、(たとえば、雑音相関行列をチューニングすることによって)所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。
「一般化サイドローブ消去」(GSC)と呼ばれるロバストな適応ビーム成形の十分に研究された技法は、Hoshuyama, O.、Sugiyama, A.、Hirano, A.、「A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters」、IEEE Transactions on Signal Processing、第47巻、第10号、2677〜2684ページ、1999年10月において論じられている。一般化サイドローブ消去は、測定値のセットから単一の所望の音源信号をフィルタ除去することを目的とする。GSC原理のより完全な説明は、たとえば、Griffiths, L.J.、Jim, C.W.、「An alternative approach to linear constrained adaptive beamforming」、IEEE Transactions on Antennas and Propagation、第30巻、第1号、27〜34ページ、1982年1月に記載されている。
タスクT20は、学習規則に従って収束のために適応フィルタ構造をトレーニングする。収束ソリューションが得られるまで、トレーニング信号のセットに応答してフィルタ係数値の更新を続けることができる。この動作中に、トレーニング信号の少なくともいくつかを、場合によっては異なる順序で、入力として2回以上フィルタ構造にサブミットすることができる。たとえば、収束ソリューションが得られるまで、トレーニング信号のセットをループで繰り返すことができる。収束はフィルタ係数値に基づいて判断できる。たとえば、フィルタ係数値がもはや変化しないとき、または、ある時間間隔にわたってフィルタ係数値の全変化がしきい値未満(代替的に、しきい値以下)のとき、フィルタが収束したと決定できる。収束はまた、相関測度を評価することによって監視できる。クロスフィルタを含むフィルタ構造では、1つのクロスフィルタの更新動作が、別のクロスフィルタの更新動作を続けながら終了することができるように、各クロスフィルタについて独立して収束を判断することができる。代替的に、クロスフィルタのすべてが収束するまで、各クロスフィルタの更新を続けることができる。
タスクT30は、分離パフォーマンスを評価することによって、タスクT20において生成されたトレーニングされたフィルタを評価する。たとえば、タスクT30は、評価信号のセットに対するトレーニングされたフィルタの応答を評価するように構成できる。評価信号のこのセットは、タスクT20において使用されたトレーニングセットと同じトレーニングセットとすることができる。代替的に、評価信号のセットは、トレーニングセットの信号とは異なるが同様である(たとえば、マイクロフォンの同じアレイの少なくとも一部と、同じP個のシナリオの少なくとも一部とを使用して記録される)Mチャネル信号のセットとすることができる。そのような評価は、自動的におよび/または人間監視によって実行できる。タスクT30は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ再生デバイスの外部で実行される。
タスクT30は、1つまたは複数のメトリックの値に従ってフィルタ応答を評価するように構成できる。たとえば、タスクT30は、1つまたは複数のメトリックの各々の値を計算し、計算値をそれぞれのしきい値と比較するように構成できる。フィルタ応答を評価するために使用できるメトリックの一例は、(A)評価信号の元の情報成分(たとえば、評価信号の記録中にHATSの口部ラウドスピーカーから再生された音声信号)と、(B)その評価信号に対するフィルタの応答の少なくとも1つのチャネルとの間の相関である。そのようなメトリックは、収束フィルタ構造が情報を干渉からどのくらいうまく分離するかを示すことができる。この場合、情報成分がフィルタ応答のM個のチャネルの1つと実質的に相関し、他のチャネルとの相関をほとんど有しないとき、分離が示される。
フィルタ応答を評価する(たとえば、フィルタが情報を干渉からどのくらいうまく分離するかを示す)ために使用できるメトリックの他の例には、分散などの統計特性、ガウス性、および/または尖度などの高次統計モーメントがある。音声信号に使用できるメトリックの追加の例には、ゼロ交差レートおよび経時的なバースト性(時間スパーシティ(time sparsity)としても知られる)がある。一般に、音声信号は、雑音信号よりも低いゼロ交差レートおよび低い時間スパーシティを示す。フィルタ応答を評価するために使用できるメトリックのさらなる一例は、評価信号の記録中のマイクロフォンのアレイに対する情報または干渉源の実際のロケーションが、その評価信号に対するフィルタの応答によって示されるビームパターン(またはヌルビームパターン)と合致する度合いである。タスクT30において使用されるメトリックは、(たとえば、分離評価器EV10などの分離評価器に関して上述した)装置A200の対応する実装形態において使用される分離測度を含むか、またはその分離測度に限定されることが望ましい。
タスクT30は、各計算されたメトリック値を対応するしきい値と比較するように構成できる。そのような場合、各メトリックの計算値がそれぞれのしきい値を上回れば(代替的に、少なくともしきい値に等しければ)、フィルタは信号の適切な分離結果を生成すると言うことができる。複数のメトリックのそのような比較方式において、1つまたは複数の他のメトリックの計算値が高いとき、1つのメトリックのしきい値を低減することができることを、当業者なら認識するであろう。
また、タスクT30では、収束フィルタソリューションのセットが、TIA−810−B(たとえば、Telecommunications Industry Association(ヴァージニア州アーリントン)によって公表された2006年11月版)などの規格文書で指定された送信応答公称ラウドネス曲線など、他のパフォーマンス基準に準拠することを検証することが望ましい。
フィルタが評価信号の1つまたは複数を適切に分離することができなかった場合でも、収束フィルタソリューションをパスするようにタスクT30を構成することが望ましい。たとえば、上述の装置A200の実装形態では、タスクT30において評価信号のセットの低い割合(たとえば、2、5、10、または20パーセントまで)を分離することができないことが許容できるように、感知オーディオ信号S10の適切な分離が達成されない状況のために、シングルチャネルモードを使用することができる。
タスクT20において、トレーニングされたフィルタが極小に収束し、評価タスクT30において失敗をもたらす可能性がある。そのような場合、異なるトレーニングパラメータ(たとえば、異なる学習レート、異なる幾何学的制約など)を使用して、タスクT20を繰り返すことができる。方法M10は一般に反復的設計プロセスであり、タスクT30において所望の評価結果が得られるまで、タスクT10およびT20の1つまたは複数を変更し、繰り返すことが望ましい。たとえば、方法M10の反復は、タスクT20において新しいトレーニングパラメータ値(たとえば、初期重み値、収束レートなど)を使用すること、および/またはタスクT10において新しいトレーニングデータを記録することを含むことができる。
タスクT30において、SSPフィルタSS10の固定フィルタ段(たとえば、固定フィルタ段FF10)について所望の評価結果が得られると、対応するフィルタ状態をSSPフィルタSS10の固定の状態(すなわち、フィルタ係数値の固定セット)としてプロダクションデバイスにロードすることができる。上述のように、各プロダクションデバイスにおいて、ラボラトリ、工場、または自動(たとえば、自動利得整合)較正手順など、マイクロフォンの利得および/または周波数応答を較正するための手順を実行することも望ましい。
方法M10の1つのインスタンスにおいて生成されたトレーニングされた固定フィルタは、方法M10の別のインスタンスにおいてトレーニング信号の別のセットをフィルタ処理するために使用でき、また、適応フィルタ段(たとえば、SSPフィルタSS10の適応フィルタ段AF10)の初期条件を計算するために参照デバイスを使用して記録できる。適応フィルタの初期条件のそのような計算の例は、適応フィルタ段の設計、トレーニング、および/または実装の説明に限定した目的のために、参照により本明細書に組み込まれる、2008年8月25日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第12/197,924号の、たとえば、段落[00129]〜[00135](「It may be desirable」で開始し「cancellation in parallel」で終了する)に記載されている。そのような初期条件はまた、(たとえば、トレーニングされた固定フィルタ段に関して)プロダクション中に、同じまたは同様のデバイスの他のインスタンスにロードできる。
図53に示すように、ワイヤレス電話システム(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMAシステム)は、一般に、複数の基地局12と1つまたは複数の基地局コントローラ(BSC)14とを含む無線アクセスネットワークとワイヤレス通信するように構成された複数のモバイル加入者ユニット10を含む。そのようなシステムはまた、無線アクセスネットワークを従来の公衆交換電話網(PSTN)18にインターフェースするように構成された、BSC14に結合された移動交換センター(MSC)16を一般に含む。このインターフェースをサポートするために、MSCは、ネットワーク間の変換ユニットとして働くメディアゲートウェイを含むか、またはそのメディアゲートウェイと通信することができる。メディアゲートウェイは、異なる送信技法および/または符号化技法などの異なるフォーマット間で変換する(たとえば、時分割多重(TDM)ボイスとVoIPとの間で変換する)ように構成され、また、エコー消去、デュアルタイム多重周波数(DTMF)、およびトーン送信などのメディアストリーミング機能を実行するように構成できる。BSC14は迂回中継線を介して基地局12に結合される。迂回中継線は、たとえば、E1/T1、ATM、IP、PPP、フレームリレー、HDSL、ADSL、またはxDSLを含む、いくつかの知られているインターフェースのいずれもサポートするように構成できる。基地局12と、BSC14と、MSC16と、もしあればメディアゲートウェイとの集合は、「インフラストラクチャ」とも呼ばれる。
各基地局12は、有利には、少なくとも1つのセクタ(図示せず)を含み、各セクタは、全方向性アンテナ、または基地局12から放射状に離れる特定の方向に向けられたアンテナを備える。代替として、各セクタは、ダイバーシチ受信用の2つ以上のアンテナを備えることができる。各基地局12は、有利には、複数の周波数割当てをサポートするように設計できる。セクタと周波数割当ての交差はCDMAチャネルと呼ばれることがある。基地局12は基地局トランシーバサブシステム(BTS)12としても知られる。代替的に、「基地局」は、当業界においてBSC14および1つまたは複数のBTS12を一括して指すために使用されることがある。BTS12は「セルサイト」12と示されることもある。代替的に、所与のBTS12の個々のセクタがセルサイトと呼ばれることもある。モバイル加入者ユニット10の種類は、典型的に、セルラーおよび/またはPCS(パーソナルコミュニケーションズサービス)電話、携帯情報端末(PDA)、および/または携帯電話機能を有する他の通信デバイスなど、本明細書で説明する通信デバイスを含む。そのようなユニット10は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセットもしくはヘッドセット(たとえば、USBハンドセット)、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット(たとえば、Bluetooth(登録商標) Special Interest Group(ワシントン州ベルビュー)によって公表されたブルートゥースプロトコルのバージョンを使用してユニットにオーディオ情報を通信するヘッドセット)を含むことができる。そのようなシステムは、IS−95規格の1つまたは複数のバージョン(たとえば、Telecommunications Industry Alliance(ヴァージニア州アーリントン)によって公開されたIS−95、IS−95A、IS−95B、cdma2000)に従って使用するように構成できる。
次に、セルラー電話システムの典型的な動作について説明する。基地局12は、モバイル加入者ユニット10のセットから逆方向リンク信号のセットを受信する。モバイル加入者ユニット10は電話通話または他の通信を行っている。所与の基地局12によって受信された各逆方向リンク信号はその基地局12内で処理され、得られたデータはBSC14にフォワーディングされる。BSC14は、呼リソース割振りと、基地局12間のソフトハンドオフの編成を含むモビリティ管理機能とを提供する。BSC14はまた、受信データをMSC16にルーティングし、MSC16は、PSTN18とインターフェースするための追加のルーティングサービスを提供する。同様に、PSTN18は、MSC16とインターフェースし、MSC16は、BSC14とインターフェースし、BSC14は、順方向リンク信号のセットをモバイル加入者ユニット10のセットに送信するように基地局12を制御する。
図53に示すセルラーテレフォニーシステムの要素は、パケット交換データ通信をサポートするように構成することもできる。図54に示すように、パケットデータトラフィックは、一般に、パケットデータネットワークに接続されたゲートウェイルータに結合されたパケットデータサービングノード(PDSN)22を使用して、モバイル加入者ユニット10と外部パケットデータネットワーク24(たとえば、インターネットなどの公衆ネットワーク)との間でルーティングされる。PDSN22は、今度は、それぞれ1つまたは複数のBSC14にサービスしパケットデータネットワークと無線アクセスネットワークとの間のリンクとして働く1つまたは複数のパケット制御機能(PCF)20にデータをルーティングする。また、パケットデータネットワーク24は、ローカルエリアネットワーク(LAN)、キャンパスエリアネットワーク(CAN)、メトロポリタンエリアネットワーク(MAN)、ワイドエリアネットワーク(WAN)、リング型ネットワーク、スター型ネットワーク、トークンリングネットワークなどを含むように実装できる。ネットワーク24に接続されたユーザ端末は、PDA、ラップトップコンピュータ、パーソナルコンピュータ、ゲーム機(そのようなデバイスの例には、XBOXおよびXBOX 360(マイクロソフト社(ワシントン州レドモンド))、Playstation 3およびPlaystation Portable(ソニー(株)(日本国東京))、ならびにWiiおよびDS(任天堂(日本国京都))がある)、および/またはオーディオ処理機能を有し、VoIPなどの1つまたは複数のプロトコルを使用して電話通話または他の通信をサポートするように構成できる任意のデバイスなど、本明細書で説明するオーディオ再生デバイスの種類に入るデバイスとすることができる。そのような端末は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセット(たとえば、USBハンドセット)、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット(たとえば、たとえば、Bluetooth(登録商標) Special Interest Group(ワシントン州ベルビュー)によって公表されたBluetooth(登録商標)プロトコルのバージョンを使用して端末にオーディオ情報を通信するヘッドセット)を含むことができる。そのようなシステムは、PSTNに決して入ることなしに、(たとえば、VoIPなどの1つまたは複数のプロトコルを介して)異なる無線アクセスネットワーク上のモバイル加入者ユニット間で、モバイル加入者ユニットと非モバイルユーザ端末との間で、または2つの非モバイルユーザ端末間で、電話通話または他の通信をパケットデータトラフィックとして搬送するように構成できる。モバイル加入者ユニット10または他のユーザ端末は、「アクセス端末」とも呼ばれる。
図55に、タスクT100、T110、T120、T130、T140、T150、T160、T170、T180、T210、T220、およびT230を含む、一構成による再生オーディオ信号を処理する方法M110のフローチャートを示す。タスクT100は、(たとえば、SSPフィルタSS10に関して本明細書で説明したように)マルチチャネル感知オーディオ信号から雑音基準を得る。タスクT110は、(たとえば、変換モジュールSG10に関して本明細書で説明したように)雑音基準に対して周波数変換を実行する。タスクT120は、(たとえば、ビニングモジュールSG20に関して上述したように)タスクT110によって生成された均一分解能変換信号の値を不均一サブバンドにグループ化する。雑音基準のサブバンドの各々について、タスクT130は、(たとえば、サブバンドパワー推定値計算器EC120に関して上述したように)時間的に平滑化されたパワー推定値を更新する。
タスクT210は、(たとえば、変換モジュールSG10に関して本明細書で説明したように)再生オーディオ信号S40に対して周波数変換を実行する。タスクT220は、(たとえば、ビニングモジュールSG20に関して上述したように)タスクT210によって生成された均一分解能変換信号の値を不均一サブバンドにグループ化する。再生オーディオ信号のサブバンドの各々について、タスクT230は、(たとえば、サブバンドパワー推定値計算器EC120に関して上述したように)時間的に平滑化されたパワー推定値を更新する。
再生オーディオ信号のサブバンドの各々について、タスクT140は、(たとえば、比計算器GC10に関して上述したように)サブバンドパワー比を計算する。タスクT150は、時間的に平滑化されたパワー比およびハングオーバ論理からサブバンド利得係数値を更新し、タスクT160は、(たとえば、平滑器GC20に関して上述したように)ヘッドルームとボリュームとによって定義された下限および上限に対してサブバンド利得を確認する。タスクT170はサブバンドバイカッドフィルタ係数を更新し、タスクT180は、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)更新されたバイカッドカスケードを使用して再生オーディオ信号S40をフィルタ処理する。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法M110を実行することが望ましい。
図56に、タスクT140、T150、T160、T170、T180、T210、T220、T230、T310、T320、およびT330を含む、一構成による再生オーディオ信号を処理する方法M120のフローチャートを示す。タスクT310は、(たとえば、変換モジュールSG10、等化器EQ100、および非分離感知オーディオ信号S90に関して本明細書で説明したように)非分離感知オーディオ信号に対して周波数変換を実行する。タスクT320は、(たとえば、ビニングモジュールSG20に関して上述したように)タスクT310によって生成された均一分解能変換信号の値を不均一サブバンドにグループ化する。非分離感知オーディオ信号のサブバンドの各々について、タスクT330は、非分離感知オーディオ信号がボイスアクティビティを現在含んでいない場合、(たとえば、サブバンドパワー推定値計算器EC120に関して上述したように)時間的に平滑化されたパワー推定値を更新する。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法M120を実行することが望ましい。
図57に、タスクT140、T150、T160、T170、T180、T410、T420、T430、T510、およびT530を含む、一構成による再生オーディオ信号を処理する方法M210のフローチャートを示す。タスクT410は、(たとえば、サブバンドフィルタアレイSG30、等化器EQ100、および非分離感知オーディオ信号S90に関して本明細書で説明したように)現在のフレームのサブバンドパワー推定値を得るために、バイカッドサブバンドフィルタによって非分離感知オーディオ信号を処理する。タスクT420は、(たとえば、ミニマイザーMZ10に関して本明細書で説明したように)現在のフレームの最小サブバンドパワー推定値を識別し、すべての他の現在のフレームのサブバンドパワー推定値をその値と交換する。非分離感知オーディオ信号のサブバンドの各々について、タスクT430は、(たとえば、サブバンドパワー推定値計算器EC120に関して上述したように)時間的に平滑化されたパワー推定値を更新する。タスクT510は、(たとえば、サブバンドフィルタアレイSG30および等化器EQ100に関して本明細書で説明したように)現在のフレームのサブバンドパワー推定値を得るために、バイカッドサブバンドフィルタによって再生オーディオ信号を処理する。再生オーディオ信号のサブバンドの各々について、タスクT530は、(たとえば、サブバンドパワー推定値計算器EC120に関して上述したように)時間的に平滑化されたパワー推定値を更新する。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法M210を実行することが望ましい。
図58に、タスクT140、T150、T160、T170、T180、T410、T420、T430、T510、T530、T610、T630、およびT640を含む、一構成による再生オーディオ信号を処理する方法M220のフローチャートを示す。タスクT610は、(たとえば、雑音基準S30、サブバンドフィルタアレイSG30、および等化器EQ100に関して本明細書で説明したように)現在のフレームのサブバンドパワー推定値を得るために、バイカッドサブバンドフィルタによってマルチチャネル感知オーディオ信号からの雑音基準を処理する。雑音基準のサブバンドの各々について、タスクT630は、(たとえば、サブバンドパワー推定値計算器EC120に関して上述したように)時間的に平滑化されたパワー推定値を更新する。タスクT430およびT630によって生成されたサブバンドパワー推定値から、タスクT640は、(たとえば、マキシマイザーMAX10に関して上述したように)各サブバンド中の最大パワー推定値を取る。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法M220を実行することが望ましい。
図59Aに、タスクT810、T820、およびT830を含み、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で開示する通信および/またはオーディオ再生デバイスの多数の例のうちの1つ)によって実行できる、一般的構成による再生オーディオ信号を処理する方法M300のフローチャートを示す。タスクT810は、(たとえば、SSPフィルタSS10に関して上述したように)音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して指向性処理演算を実行する。タスクT820は、(たとえば、等化器EQ10に関して上述したように)等化されたオーディオ信号を生成するために再生オーディオ信号を等化する。タスクT820は、雑音基準からの情報に基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングするタスクT830を含む。
図59Bに、タスクT840と、T850と、T860と、タスクT830の実装形態T832とを含むタスクT820の実装形態T822のフローチャートを示す。再生オーディオ信号の複数のサブバンドの各々について、タスクT840は、(たとえば、第1のサブバンドパワー推定値発生器EC100aに関して上述したように)第1のサブバンドパワー推定値を計算する。雑音基準の複数のサブバンドの各々について、タスクT850は、(たとえば、第2のサブバンドパワー推定値発生器EC100bに関して上述したように)第2のサブバンドパワー推定値を計算する。再生オーディオ信号の複数のサブバンドの各々について、タスクT860は、(たとえば、サブバンド利得係数計算器GC100に関して上述したように)対応する第1のパワー推定値と第2のパワー推定値との比を計算する。再生オーディオ信号の複数のサブバンドの各々について、タスクT832は、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)対応する計算された比に基づく利得係数をサブバンドに適用する。
図60Aに、タスクT870と、T872と、T874とを含むタスクT840の実装形態T842のフローチャートを示す。タスクT870は、(たとえば、変換モジュールSG10に関して上述したように)変換信号を得るために再生オーディオ信号に対して周波数変換を実行する。タスクT872は、(たとえば、ビニングモジュールSG20に関して上述したように)複数のビンを得るために、変換信号にサブバンド分割方式を適用する。複数のビンの各々について、タスクT874は、(たとえば、加算器EC10に関して上述したように)ビンにわたる和を計算する。タスクT842は、複数の第1のサブバンドパワー推定値の各々が、タスクT874によって計算された和のうちの対応する1つに基づくように構成される。
図60Bに、タスクT880を含むタスクT840の実装形態T844のフローチャートを示す。再生オーディオ信号の複数のサブバンドの各々について、タスクT880は、(たとえば、サブバンドフィルタアレイSG30に関して上述したように)ブースティングされたサブバンド信号を得るために、再生オーディオ信号のサブバンドの利得を他のサブバンドに対してブースティングする。タスクT844は、複数の第1のサブバンドパワー推定値の各々が、ブースティングされたサブバンド信号のうちの対応する1つからの情報に基づくように構成される。
図60Cに、フィルタ段のカスケードを使用して再生オーディオ信号をフィルタ処理するタスクT820の実装形態T824のフローチャートを示す。タスクT824はタスクT830の実装形態T834を含む。再生オーディオ信号の複数のサブバンドの各々について、タスクT834は、カスケードの対応するフィルタ段に利得係数を適用することによって、利得係数をサブバンドに適用する。
図60Dに、タスクT805、T810、およびT820を含む、一般的構成による再生オーディオ信号を処理する方法M310のフローチャートを示す。タスクT805は、(たとえば、エコーキャンセラEC10に関して上述したように)マルチチャネル感知オーディオ信号を得るために、等化されたオーディオ信号からの情報に基づいて複数のマイクロフォン信号に対してエコー消去演算を実行する。
図61に、タスクT810、T820、およびT910を含む、一構成による再生オーディオ信号を処理する方法M400のフローチャートを示す。音源信号と雑音基準とのうちの少なくとも1つからの情報に基づいて、方法M400は、(たとえば、装置A200に関して上述したように)第1のモードまたは第2のモードで動作する。第1のモードでの動作は第1の時間期間中に行われ、第2のモードでの動作は、第1の時間期間とは別の第2の時間期間中に行われる。第1のモードでは、タスクT820が実行される。第2のモードでは、タスクT910が実行される。タスクT910は、(たとえば、等化器EQ100に関して上述したように)非分離感知オーディオ信号からの情報に基づいて再生オーディオ信号を等化する。タスクT910は、タスクT912、T914、およびT916を含む。再生オーディオ信号の複数のサブバンドの各々について、タスクT912は第1のサブバンドパワー推定値を計算する。非分離感知オーディオ信号の複数のサブバンドの各々について、タスクT914は第2のサブバンドパワー推定値を計算する。再生オーディオ信号の複数のサブバンドの各々について、タスクT916は、(A)対応する第1のサブバンドパワー推定値と、(B)複数の第2のサブバンドパワー推定値の中の最小値とに基づく、対応する利得係数をサブバンドに適用する。
図62Aに、一般的構成による、再生オーディオ信号を処理するための装置F100のブロック図を示す。装置F100は、(たとえば、SSPフィルタSS10に関して上述したように)音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して指向性処理演算を実行するための手段F110を含む。装置F100はまた、(たとえば、等化器EQ10に関して上述したように)等化されたオーディオ信号を生成するために再生オーディオ信号を等化するための手段F120を含む。手段F120は、雑音基準からの情報に基づいて、再生オーディオ信号の少なくとも1つの周波数サブバンドを、再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成される。装置F100、手段F110、および手段F120の多数の実装形態は、(たとえば、本明細書で開示する様々な要素および動作によって)本明細書で明確に開示される。
図62Bに、等化するための手段F120の実装形態F122のブロック図を示す。手段F122は、(たとえば、第1のサブバンドパワー推定値発生器EC100aに関して上述したように)再生オーディオ信号の複数のサブバンドの各々について第1のサブバンドパワー推定値を計算するための手段F140と、(たとえば、第2のサブバンドパワー推定値発生器EC100bに関して上述したように)雑音基準の複数のサブバンドの各々について第2のサブバンドパワー推定値を計算するための手段F150とを含む。手段F122はまた、(たとえば、サブバンド利得係数計算器GC100に関して上述したように)再生オーディオ信号の複数のサブバンドの各々について、対応する第1のパワー推定値と第2のパワー推定値との比に基づいてサブバンド利得係数を計算するための手段F160と、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)対応する利得係数を再生オーディオ信号の複数のサブバンドの各々に適用するための手段F130とを含む。
図63Aに、タスクV110、V120、V140、V210、V220、およびV230を含み、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で開示する通信および/またはオーディオ再生デバイスの多数の例のうちの1つ)によって実行できる、一般的構成による再生オーディオ信号を処理する方法V100のフローチャートを示す。(たとえば、信号発生器SG100aおよびパワー推定値計算器EC100aに関して上述したように)タスクV110は、第1の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理し、タスクV120は複数の第1のサブバンドパワー推定値を計算する。タスクV210は、(たとえば、SSPフィルタSS10に関して上述したように)音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する。(たとえば、信号発生器SG100bおよびパワー推定値計算器EC100bまたはNP100に関して上述したように)タスクV220は、第2の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理し、タスクV230は複数の第2のサブバンドパワー推定値を計算する。タスクV140は、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)再生オーディオ信号の少なくとも1つのサブバンドを少なくとも1つの他のサブバンドに対してブースティングする。
図63Bに、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で開示する通信および/またはオーディオ再生デバイスの多数の例のうちの1つ)内に含めることができる、一般的構成による再生オーディオ信号を処理するための装置W100のブロック図を示す。装置W100は、(たとえば、信号発生器SG100aおよびパワー推定値計算器EC100aに関して上述したように)第1の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理するための手段V110と、複数の第1のサブバンドパワー推定値を計算するための手段V120とを含む。装置W100は、(たとえば、SSPフィルタSS10に関して上述したように)音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段W210を含む。装置W100は、(たとえば、信号発生器SG100bおよびパワー推定値計算器EC100bまたはNP100に関して上述したように)第2の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理するための手段W220と、複数の第2のサブバンドパワー推定値を計算するための手段W230とを含む。装置W100は、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)再生オーディオ信号の少なくとも1つのサブバンドを少なくとも1つの他のサブバンドに対してブースティングするための手段W140を含む。
図64Aに、タスクV310、V320、V330、V340、V420、およびV520を含み、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で開示する通信および/またはオーディオ再生デバイスの多数の例のうちの1つ)によって実行できる、一般的構成による再生オーディオ信号を処理する方法V200のフローチャートを示す。タスクV310は、(たとえば、SSPフィルタSS10に関して上述したように)音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する。タスクV320は、(たとえば、パワー推定値計算器NC100bに関して上述したように)複数の第1の雑音サブバンドパワー推定値を計算する。マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準の複数のサブバンドの各々について、タスクV320は、(たとえば、パワー推定値計算器NC100cに関して上述したように)対応する第2の雑音サブバンドパワー推定値を計算する。タスクV520は、(たとえば、パワー推定値計算器EC100aに関して上述したように)複数の第1のサブバンドパワー推定値を計算する。タスクV330は、(たとえば、パワー推定値計算器NP100に関して上述したように)第1の雑音サブバンドパワー推定値と第2の雑音サブバンドパワー推定値との最大値に基づいて複数の第2のサブバンドパワー推定値を計算する。タスクV340は、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)再生オーディオ信号の少なくとも1つのサブバンドを少なくとも1つの他のサブバンドに対してブースティングする。
図64Bに、オーディオ信号を処理するように構成されたデバイス(たとえば、本明細書で開示する通信および/またはオーディオ再生デバイスの多数の例のうちの1つ)内に含めることができる、一般的構成による再生オーディオ信号を処理するための装置W100のブロック図を示す。装置W100は、(たとえば、SSPフィルタSS10に関して上述したように)音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段W310と、(たとえば、パワー推定値計算器NC100bに関して上述したように)複数の第1の雑音サブバンドパワー推定値を計算するための手段W320とを含む。装置W100は、マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準の複数のサブバンドの各々について、(たとえば、パワー推定値計算器NC100cに関して上述したように)対応する第2の雑音サブバンドパワー推定値を計算するための手段W320を含む。装置W100は、(たとえば、パワー推定値計算器EC100aに関して上述したように)複数の第1のサブバンドパワー推定値を計算するための手段W520を含む。装置W100は、(たとえば、パワー推定値計算器NP100に関して上述したように)第1の雑音サブバンドパワー推定値と第2の雑音サブバンドパワー推定値との最大値に基づいて複数の第2のサブバンドパワー推定値を計算するための手段W330を含む。装置W100は、(たとえば、サブバンドフィルタアレイFA100に関して上述したように)再生オーディオ信号の少なくとも1つのサブバンドを少なくとも1つの他のサブバンドに対してブースティングするための手段W340を含む。
説明した構成の上記の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、状態図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示する一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
本明細書で説明した通信デバイスの送信機および/または受信機とともに使用できる、またはそれらとともに使用するように適応させることができるコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するThird Generation Partnership Project 2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www−dot−3gpp−dot−orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックがある。
情報および信号は、多種多様な技術および技法のいずれかを使用して表すことができることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及されるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表すことができる。
本明細書で開示する構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例の1つなどの圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または(たとえば、広帯域通信用の)より高いサンプリングレートにおけるボイス通信の適用例では特に、(一般に百万命令/秒またはMIPSで測定される)処理遅延および/または計算複雑性を最小にすることを含むことができる。
本明細書で開示する装置の実装形態の様々な要素は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および/またはファームウェアの任意の組合せで実施できる。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして製造できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装できる。これらの要素の任意の2つ以上、さらにはすべてを同じ1つまたは複数のアレイ内に実装することができる。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装できる。
本明細書で開示する装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装することもできる。本明細書で開示する装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)として実施することもでき、これらの要素の任意の2つ以上、さらにはすべてを同じそのような1つまたは複数のコンピュータ内に実装することができる。
本明細書で開示する構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、および動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装できることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行できる。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体から、もしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装できる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はASIC中に常駐することができる。ASICはユーザ端末中に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐することができる。
本明細書で開示する様々な方法(たとえば、方法M110、M120、M210、M220、M300、およびM400、ならびに本明細書で開示する装置の様々な実装形態の動作の説明によって本明細書で明確に開示されるそのような方法および追加の方法の多数の実装形態)は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装できることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶でき、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信できる。
本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとして有形に実施することもできる。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含むことができる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、または所望の情報を記憶するために使用でき、アクセスできる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号でも含むことができる。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードできる。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施するか、プロセッサによって実行されるソフトウェアモジュールで実施するか、またはその2つの組合せで実施することができる。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって可読および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)として実装することもできる。本明細書で開示する方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によって実行することもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行することができる。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成できる。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含むことができる。
本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行でき、本明細書に記載の様々な装置は、そのようなデバイスに含めることができることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装できる。ソフトウェアで実装した場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶するか、あるいはコンピュータ可読媒体を介して送信することができる。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体とすることができる。限定ではなく、例として、そのようなコンピュータ可読媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含むことができる)半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの一連の記憶要素、CD−ROMまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で担持または記憶するために使用でき、コンピュータによってアクセスできる、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイディスク(disc)(商標)(ブルーレイディスクアソシエーション、カリフォルニア州ユニヴァーサルシティー)を含み、この場合、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込むことができる。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにヒューマンマシンインターフェースを含むことができる。限定された処理機能をのみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい。
本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ上に常駐する電子デバイスおよび/または光デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装することもできる。
本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。たとえば、サブバンド信号発生器SG100a、SG100b、およびSG100cのうちの2つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドパワー推定値計算器EC100a、EC100b、およびEC100cのうちの2つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドフィルタアレイFA100、およびサブバンドフィルタアレイSG30の1つまたは複数の実装形態は、(たとえば、異なる時間にフィルタ係数値の異なるセットを使用して)異なる時間に同じ構造を含むように実装できる。
また、装置A100および/または等化器EQ10の特定の実装形態に関して本明細書で説明した様々な要素は、他の開示した実装形態とともに記載した方法で使用することもできることが明確に企図され、本明細書によって開示される。たとえば、(装置A140に関して説明した)AGCモジュールG10、(装置A110に関して説明した)オーディオプリプロセッサAP10、(オーディオプリプロセッサAP20に関して説明した)エコーキャンセラEC10、(装置A105に関して説明した)雑音低減段NR10、(装置A120に関して説明した)ボイスアクティビティ検出器V10のうちの1つまたは複数は、装置A100の他の開示した実装形態中に含めることができる。同様に、(等化器EQ40に関して説明した)ピークリミッタL10は、等化器EQ10の他の開示した実装形態中に含めることができる。上記では主に感知オーディオ信号S10の2チャネル(たとえば、ステレオ)インスタンスへの適用例について説明したが、(たとえば、3つ以上のマイクロフォンのアレイからの)3つ以上のチャネルを有する感知オーディオ信号S10のインスタンスへの、本明細書で開示した原理の拡張も、明確に企図され、本明細書で開示される。
また、装置A100および/または等化器EQ10の特定の実装形態に関して本明細書で説明した様々な要素は、他の開示した実装形態とともに記載した方法で使用することもできることが明確に企図され、本明細書によって開示される。たとえば、(装置A140に関して説明した)AGCモジュールG10、(装置A110に関して説明した)オーディオプリプロセッサAP10、(オーディオプリプロセッサAP20に関して説明した)エコーキャンセラEC10、(装置A105に関して説明した)雑音低減段NR10、(装置A120に関して説明した)ボイスアクティビティ検出器V10のうちの1つまたは複数は、装置A100の他の開示した実装形態中に含めることができる。同様に、(等化器EQ40に関して説明した)ピークリミッタL10は、等化器EQ10の他の開示した実装形態中に含めることができる。上記では主に感知オーディオ信号S10の2チャネル(たとえば、ステレオ)インスタンスへの適用例について説明したが、(たとえば、3つ以上のマイクロフォンのアレイからの)3つ以上のチャネルを有する感知オーディオ信号S10のインスタンスへの、本明細書で開示した原理の拡張も、明確に企図され、本明細書で開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1] 再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算することと、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算することと、
前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることと
の各々を実行することを備える、再生オーディオ信号を処理する方法。
[2] 前記方法が、第3の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理することを含み、
複数の第2のサブバンドパワー推定値を前記計算することが、前記第3の複数の時間領域サブバンド信号からの情報に基づく、
[1]に記載の再生オーディオ信号を処理する方法。
[3] 前記第2の雑音基準が非分離感知オーディオ信号である、[2]に記載の再生オーディオ信号を処理する方法。
[4] 複数の第2のサブバンドパワー推定値を前記計算することが、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算することと、
前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算することと、
前記計算された複数の第2の雑音サブバンドパワー推定値の中の最小値を識別することと
を含み、
前記複数の第2のサブバンドパワー推定値のうちの少なくとも2つの前記値が前記識別された最小値に基づく、
[3]に記載の再生オーディオ信号を処理する方法。
[5] 前記第2の雑音基準が前記音源信号に基づく、[2]に記載の再生オーディオ信号を処理する方法。
[6] 複数の第2のサブバンドパワー推定値を前記計算することが、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算することと、
前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算することと
を含み、
前記複数の第2のサブバンドパワー推定値の各々が、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づく、
[2]に記載の再生オーディオ信号を処理する方法。
[7] 空間選択的処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、[1]に記載の再生オーディオ信号を処理する方法。
[8] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
空間選択的処理演算を前記実行することは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離すること含む、
[1]に記載の再生オーディオ信号を処理する方法。
[9] 第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号を前記フィルタ処理することが、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第1の複数の時間領域サブバンド信号の各々を得ることを含む、[1]に記載の再生オーディオ信号を処理する方法。
[10] 前記方法が、前記複数の第1のサブバンドパワー推定値の各々について、前記第1のサブバンドパワー推定値と前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比を計算することを含み、
前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対して前記ブースティングすることが、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用することを含む、
[1]に記載の再生オーディオ信号を処理する方法。
[11] 前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対して前記ブースティングすることが、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理することを含み、
前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を前記適用することが、前記カスケードの対応するフィルタ段に前記利得係数を適用することを備える、
[10]に記載の再生オーディオ信号を処理する方法。
[12] 前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する利得係数の現在値が、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって抑制される、[10]に記載の再生オーディオ信号を処理する方法。
[13] 前記方法が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化することを含む、[10]に記載の再生オーディオ信号を処理する方法。
[14] 前記方法が、前記マルチチャネル感知オーディオ信号を得るために、複数のマイクロフォン信号に対してエコー消去演算を実行することを含み、
エコー消去演算を前記実行することが、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対して前記ブースティングすることから生じるオーディオ信号からの情報に基づく、
[1]に記載の再生オーディオ信号を処理する方法。
[15] 再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
前記再生オーディオ信号の複数のサブバンドの各々について第1のサブバンドパワー推定値を計算することと、
前記雑音基準の複数のサブバンドの各々について第1の雑音サブバンドパワー推定値を計算することと、
前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準の複数のサブバンドの各々について第2の雑音サブバンドパワー推定値を計算することと、
前記再生オーディオ信号の前記複数のサブバンドの各々について、前記対応する第1の雑音サブバンドパワー推定値と第2の雑音サブバンドパワー推定値との最大値に基づく第2のサブバンドパワー推定値を計算することと、
前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることと
の各々を実行することを備える方法。
[16] 前記第2の雑音基準が非分離感知オーディオ信号である、[15]に記載の方法。
[17] 前記第2の雑音基準が前記音源信号に基づく、[15に記載の方法。
[18] 再生オーディオ信号を処理するための装置であって、前記装置が、
第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理するように構成された第1のサブバンド信号発生器と、
前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算するように構成された第1のサブバンドパワー推定値計算器と、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、
第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理するように構成された第2のサブバンド信号発生器と、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算するように構成された第2のサブバンドパワー推定値計算器と、
前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成されたサブバンドフィルタアレイと
を備える、再生オーディオ信号を処理するための装置。
[19] 前記方法が、第3の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理するように構成された第3のサブバンド信号発生器を含み、
前記第2のサブバンドパワー推定値計算器が、前記第3の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第2のサブバンドパワー推定値を計算するように構成された、
[18]に記載の再生オーディオ信号を処理するための装置。
[20] 前記第2の雑音基準が非分離感知オーディオ信号である、[19]に記載の再生オーディオ信号を処理するための装置。
[21] 前記第2の雑音基準が前記音源信号に基づく、[19]に記載の再生オーディオ信号を処理するための装置。
[22] 前記第2のサブバンドパワー推定値計算器が、(A)前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算し、(B)前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算するように構成され、
前記第2のサブバンドパワー推定値計算器が、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づいて、前記複数の第2のサブバンドパワー推定値の各々を計算するように構成された、
[19]に記載の再生オーディオ信号を処理するための装置。
[23] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
前記空間選択的処理フィルタは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
[18]に記載の再生オーディオ信号を処理するための装置。
[24] 前記第1のサブバンド信号発生器が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第1の複数の時間領域サブバンド信号の各々を得るように構成された、
[18]に記載の再生オーディオ信号を処理するための装置。
[25] 前記装置が、前記複数の第1のサブバンドパワー推定値の各々について、前記第1のサブバンドパワー推定値と前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比を計算するように構成されたサブバンド利得係数計算器を含み、
前記サブバンドフィルタアレイが、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
[18]に記載の再生オーディオ信号を処理するための装置。
[26] 前記サブバンドフィルタアレイがフィルタ段のカスケードを含み、
前記サブバンドフィルタアレイが、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
[25]に記載の再生オーディオ信号を処理するための装置。
[27] 前記サブバンド利得係数計算器が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって前記対応する利得係数の現在値を抑制するように構成された、[25]に記載の再生オーディオ信号を処理するための装置。
[28] 前記第1のサブバンド利得係数計算器が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、[25]に記載の再生オーディオ信号を処理するための装置。
[29] プロセッサによって実行されたとき、前記プロセッサに再生オーディオ信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算することと、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算することと、
前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることと
を行わせる命令を備える、コンピュータ可読媒体。
[30] 前記媒体が、プロセッサによって実行されたとき、前記プロセッサに、第3の複数の時間領域サブバンド信号を得るために前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに複数の第2のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記第3の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第2のサブバンドパワー推定値を計算させる、
[29]に記載のコンピュータ可読媒体。
[31] 前記第2の雑音基準が非分離感知オーディオ信号である、[30]に記載のコンピュータ可読媒体。
[32] 前記第2の雑音基準が前記音源信号に基づく、[30]に記載のコンピュータ可読媒体。
[33] プロセッサによって実行されたとき、前記プロセッサに複数の第2のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算することと、
前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算することと
を行わせる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに複数の第2のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づいて、前記複数の第2のサブバンドパワー推定値の各々を計算させる、
[30]に記載のコンピュータ可読媒体。
[34] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
プロセッサによって実行されたとき、前記プロセッサに空間選択的処理演算を実行させる前記命令は、プロセッサによって実行されたとき、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記プロセッサに前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離させる命令を含む、
[29]に記載のコンピュータ可読媒体。
[35] プロセッサによって実行されたとき、前記プロセッサに、第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第1の複数の時間領域サブバンド信号の各々を得ることを行わせる命令を含む、[29]に記載のコンピュータ可読媒体。
[36] 前記装置が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値の各々について、(A)前記第1のサブバンドパワー推定値と(B)前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比に基づく利得係数を計算させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用させる命令を含む、
[29]に記載のコンピュータ可読媒体。
[37] プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記カスケードの対応するフィルタ段に前記利得係数を適用させる命令を含む、
[36]に記載のコンピュータ可読媒体。
[38] プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって前記対応する利得係数の現在値を抑制させる命令を含む、[36]に記載のコンピュータ可読媒体。
[39] プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化させる命令を含む、[36]に記載のコンピュータ可読媒体。
[40] 再生オーディオ信号を処理するための装置であって、前記装置が、
第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理する手段と、
前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算する手段と、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する手段と、
第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理する手段と、
前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算する手段と、
前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングする手段と
を備える装置。
[41] 前記装置が、第3の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理する手段を含み、
複数の第2のサブバンドパワー推定値を計算する前記手段が、前記第3の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第2のサブバンドパワー推定値を計算するように構成された、
[40]に記載の再生オーディオ信号を処理するための装置。
[42] 前記第2の雑音基準が非分離感知オーディオ信号である、[41]に記載の再生オーディオ信号を処理するための装置。
[43] 前記第2の雑音基準が前記音源信号に基づく、[41]に記載の再生オーディオ信号を処理するための装置。
[44] 複数の第2のサブバンドパワー推定値を計算する前記手段が、(A)前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算し、(B)前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算するように構成され、
複数の第2のサブバンドパワー推定値を計算する前記手段が、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づいて、前記複数の第2のサブバンドパワー推定値の各々を計算するように構成された、
[41]に記載の再生オーディオ信号を処理するための装置。
[45] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
空間選択的処理演算を実行する前記手段は、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
[40]に記載の再生オーディオ信号を処理するための装置。
[46] 前記再生オーディオ信号をフィルタ処理する前記手段が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第1の複数の時間領域サブバンド信号の各々を得るように構成された、
[40]に記載の再生オーディオ信号を処理するための装置。
[47] 前記装置が、前記複数の第1のサブバンドパワー推定値の各々について、(A)前記第1のサブバンドパワー推定値と(B)前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比に基づく利得係数を計算する手段を含み、
ブースティングするための前記手段が、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
[40]に記載の再生オーディオ信号を処理するための装置。
[48] ブースティングするための前記手段がフィルタ段のカスケードを含み、
ブースティングする前記手段が、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
[47]に記載の再生オーディオ信号を処理するための装置。
[49] 利得係数を計算する前記手段が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって前記対応する利得係数の現在値を抑制するように構成された、[47]に記載の再生オーディオ信号を処理するための装置。
[50] 利得係数を計算する前記手段が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、[47]に記載の再生オーディオ信号を処理するための装置。

Claims (50)

  1. 再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
    第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
    前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算することと、
    音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
    第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算することと、
    前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることと
    の各々を実行することを備える、再生オーディオ信号を処理する方法。
  2. 前記方法が、第3の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理することを含み、
    複数の第2のサブバンドパワー推定値を前記計算することが、前記第3の複数の時間領域サブバンド信号からの情報に基づく、
    請求項1に記載の再生オーディオ信号を処理する方法。
  3. 前記第2の雑音基準が非分離感知オーディオ信号である、請求項2に記載の再生オーディオ信号を処理する方法。
  4. 複数の第2のサブバンドパワー推定値を前記計算することが、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算することと、
    前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算することと、
    前記計算された複数の第2の雑音サブバンドパワー推定値の中の最小値を識別することと
    を含み、
    前記複数の第2のサブバンドパワー推定値のうちの少なくとも2つの前記値が前記識別された最小値に基づく、
    請求項3に記載の再生オーディオ信号を処理する方法。
  5. 前記第2の雑音基準が前記音源信号に基づく、請求項2に記載の再生オーディオ信号を処理する方法。
  6. 複数の第2のサブバンドパワー推定値を前記計算することが、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算することと、
    前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算することと
    を含み、
    前記複数の第2のサブバンドパワー推定値の各々が、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づく、
    請求項2に記載の再生オーディオ信号を処理する方法。
  7. 空間選択的処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、請求項1に記載の再生オーディオ信号を処理する方法。
  8. 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
    空間選択的処理演算を前記実行することは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離すること含む、
    請求項1に記載の再生オーディオ信号を処理する方法。
  9. 第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号を前記フィルタ処理することが、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第1の複数の時間領域サブバンド信号の各々を得ることを含む、請求項1に記載の再生オーディオ信号を処理する方法。
  10. 前記方法が、前記複数の第1のサブバンドパワー推定値の各々について、前記第1のサブバンドパワー推定値と前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比を計算することを含み、
    前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対して前記ブースティングすることが、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用することを含む、
    請求項1に記載の再生オーディオ信号を処理する方法。
  11. 前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対して前記ブースティングすることが、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理することを含み、
    前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を前記適用することが、前記カスケードの対応するフィルタ段に前記利得係数を適用することを備える、
    請求項10に記載の再生オーディオ信号を処理する方法。
  12. 前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する利得係数の現在値が、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって抑制される、請求項10に記載の再生オーディオ信号を処理する方法。
  13. 前記方法が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化することを含む、請求項10に記載の再生オーディオ信号を処理する方法。
  14. 前記方法が、前記マルチチャネル感知オーディオ信号を得るために、複数のマイクロフォン信号に対してエコー消去演算を実行することを含み、
    エコー消去演算を前記実行することが、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対して前記ブースティングすることから生じるオーディオ信号からの情報に基づく、
    請求項1に記載の再生オーディオ信号を処理する方法。
  15. 再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
    音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
    前記再生オーディオ信号の複数のサブバンドの各々について第1のサブバンドパワー推定値を計算することと、
    前記雑音基準の複数のサブバンドの各々について第1の雑音サブバンドパワー推定値を計算することと、
    前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準の複数のサブバンドの各々について第2の雑音サブバンドパワー推定値を計算することと、
    前記再生オーディオ信号の前記複数のサブバンドの各々について、前記対応する第1の雑音サブバンドパワー推定値と第2の雑音サブバンドパワー推定値との最大値に基づく第2のサブバンドパワー推定値を計算することと、
    前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることと
    の各々を実行することを備える方法。
  16. 前記第2の雑音基準が非分離感知オーディオ信号である、請求項15に記載の方法。
  17. 前記第2の雑音基準が前記音源信号に基づく、請求項15に記載の方法。
  18. 再生オーディオ信号を処理するための装置であって、前記装置が、
    第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理するように構成された第1のサブバンド信号発生器と、
    前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算するように構成された第1のサブバンドパワー推定値計算器と、
    音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、
    第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理するように構成された第2のサブバンド信号発生器と、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算するように構成された第2のサブバンドパワー推定値計算器と、
    前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングするように構成されたサブバンドフィルタアレイと
    を備える、再生オーディオ信号を処理するための装置。
  19. 前記方法が、第3の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理するように構成された第3のサブバンド信号発生器を含み、
    前記第2のサブバンドパワー推定値計算器が、前記第3の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第2のサブバンドパワー推定値を計算するように構成された、
    請求項18に記載の再生オーディオ信号を処理するための装置。
  20. 前記第2の雑音基準が非分離感知オーディオ信号である、請求項19に記載の再生オーディオ信号を処理するための装置。
  21. 前記第2の雑音基準が前記音源信号に基づく、請求項19に記載の再生オーディオ信号を処理するための装置。
  22. 前記第2のサブバンドパワー推定値計算器が、(A)前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算し、(B)前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算するように構成され、
    前記第2のサブバンドパワー推定値計算器が、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づいて、前記複数の第2のサブバンドパワー推定値の各々を計算するように構成された、
    請求項19に記載の再生オーディオ信号を処理するための装置。
  23. 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
    前記空間選択的処理フィルタは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
    請求項18に記載の再生オーディオ信号を処理するための装置。
  24. 前記第1のサブバンド信号発生器が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第1の複数の時間領域サブバンド信号の各々を得るように構成された、
    請求項18に記載の再生オーディオ信号を処理するための装置。
  25. 前記装置が、前記複数の第1のサブバンドパワー推定値の各々について、前記第1のサブバンドパワー推定値と前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比を計算するように構成されたサブバンド利得係数計算器を含み、
    前記サブバンドフィルタアレイが、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
    請求項18に記載の再生オーディオ信号を処理するための装置。
  26. 前記サブバンドフィルタアレイがフィルタ段のカスケードを含み、
    前記サブバンドフィルタアレイが、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
    請求項25に記載の再生オーディオ信号を処理するための装置。
  27. 前記サブバンド利得係数計算器が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって前記対応する利得係数の現在値を抑制するように構成された、請求項25に記載の再生オーディオ信号を処理するための装置。
  28. 前記第1のサブバンド利得係数計算器が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、請求項25に記載の再生オーディオ信号を処理するための装置。
  29. プロセッサによって実行されたとき、前記プロセッサに再生オーディオ信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
    第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
    前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算することと、
    音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
    第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算することと、
    前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングすることと
    を行わせる命令を備える、コンピュータ可読媒体。
  30. 前記媒体が、プロセッサによって実行されたとき、前記プロセッサに、第3の複数の時間領域サブバンド信号を得るために前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理させる命令を含み、
    プロセッサによって実行されたとき、前記プロセッサに複数の第2のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記第3の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第2のサブバンドパワー推定値を計算させる、
    請求項29に記載のコンピュータ可読媒体。
  31. 前記第2の雑音基準が非分離感知オーディオ信号である、請求項30に記載のコンピュータ可読媒体。
  32. 前記第2の雑音基準が前記音源信号に基づく、請求項30に記載のコンピュータ可読媒体。
  33. プロセッサによって実行されたとき、前記プロセッサに複数の第2のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算することと、
    前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算することと
    を行わせる命令を含み、
    プロセッサによって実行されたとき、前記プロセッサに複数の第2のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づいて、前記複数の第2のサブバンドパワー推定値の各々を計算させる、
    請求項30に記載のコンピュータ可読媒体。
  34. 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
    プロセッサによって実行されたとき、前記プロセッサに空間選択的処理演算を実行させる前記命令は、プロセッサによって実行されたとき、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記プロセッサに前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離させる命令を含む、
    請求項29に記載のコンピュータ可読媒体。
  35. プロセッサによって実行されたとき、前記プロセッサに、第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第1の複数の時間領域サブバンド信号の各々を得ることを行わせる命令を含む、請求項29に記載のコンピュータ可読媒体。
  36. 前記装置が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値の各々について、(A)前記第1のサブバンドパワー推定値と(B)前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比に基づく利得係数を計算させる命令を含み、
    プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用させる命令を含む、
    請求項29に記載のコンピュータ可読媒体。
  37. プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理させる命令を含み、
    プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記カスケードの対応するフィルタ段に前記利得係数を適用させる命令を含む、
    請求項36に記載のコンピュータ可読媒体。
  38. プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって前記対応する利得係数の現在値を抑制させる命令を含む、請求項36に記載のコンピュータ可読媒体。
  39. プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化させる命令を含む、請求項36に記載のコンピュータ可読媒体。
  40. 再生オーディオ信号を処理するための装置であって、前記装置が、
    第1の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理する手段と、
    前記第1の複数の時間領域サブバンド信号からの情報に基づいて複数の第1のサブバンドパワー推定値を計算する手段と、
    音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する手段と、
    第2の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理する手段と、
    前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第2のサブバンドパワー推定値を計算する手段と、
    前記複数の第1のサブバンドパワー推定値からの情報と前記複数の第2のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも1つの周波数サブバンドを、前記再生オーディオ信号の少なくとも1つの他の周波数サブバンドに対してブースティングする手段と
    を備える装置。
  41. 前記装置が、第3の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第2の雑音基準をフィルタ処理する手段を含み、
    複数の第2のサブバンドパワー推定値を計算する前記手段が、前記第3の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第2のサブバンドパワー推定値を計算するように構成された、
    請求項40に記載の再生オーディオ信号を処理するための装置。
  42. 前記第2の雑音基準が非分離感知オーディオ信号である、請求項41に記載の再生オーディオ信号を処理するための装置。
  43. 前記第2の雑音基準が前記音源信号に基づく、請求項41に記載の再生オーディオ信号を処理するための装置。
  44. 複数の第2のサブバンドパワー推定値を計算する前記手段が、(A)前記第2の複数の時間領域サブバンド信号からの情報に基づいて複数の第1の雑音サブバンドパワー推定値を計算し、(B)前記第3の複数の時間領域サブバンド信号からの情報に基づいて複数の第2の雑音サブバンドパワー推定値を計算するように構成され、
    複数の第2のサブバンドパワー推定値を計算する前記手段が、(A)前記複数の第1の雑音サブバンドパワー推定値のうちの対応する1つと(B)前記複数の第2の雑音サブバンドパワー推定値のうちの対応する1つとの最大値に基づいて、前記複数の第2のサブバンドパワー推定値の各々を計算するように構成された、
    請求項41に記載の再生オーディオ信号を処理するための装置。
  45. 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
    空間選択的処理演算を実行する前記手段は、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
    請求項40に記載の再生オーディオ信号を処理するための装置。
  46. 前記再生オーディオ信号をフィルタ処理する前記手段が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第1の複数の時間領域サブバンド信号の各々を得るように構成された、
    請求項40に記載の再生オーディオ信号を処理するための装置。
  47. 前記装置が、前記複数の第1のサブバンドパワー推定値の各々について、(A)前記第1のサブバンドパワー推定値と(B)前記複数の第2のサブバンドパワー推定値のうちの対応する1つとの比に基づく利得係数を計算する手段を含み、
    ブースティングするための前記手段が、前記複数の第1のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
    請求項40に記載の再生オーディオ信号を処理するための装置。
  48. ブースティングするための前記手段がフィルタ段のカスケードを含み、
    ブースティングする前記手段が、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
    請求項47に記載の再生オーディオ信号を処理するための装置。
  49. 利得係数を計算する前記手段が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも1つの限界によって前記対応する利得係数の現在値を抑制するように構成された、請求項47に記載の再生オーディオ信号を処理するための装置。
  50. 利得係数を計算する前記手段が、前記複数の第1のサブバンドパワー推定値のうちの少なくとも1つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、請求項47に記載の再生オーディオ信号を処理するための装置。
JP2013161887A 2008-07-18 2013-08-02 了解度の向上のためのシステム、方法、装置、およびコンピュータプログラム製品 Pending JP2014003647A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US8198708P 2008-07-18 2008-07-18
US61/081,987 2008-07-18
US9396908P 2008-09-03 2008-09-03
US61/093,969 2008-09-03
US12/277,283 US8538749B2 (en) 2008-07-18 2008-11-24 Systems, methods, apparatus, and computer program products for enhanced intelligibility
US12/277,283 2008-11-24

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011518937A Division JP5456778B2 (ja) 2008-07-18 2009-07-17 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体

Publications (1)

Publication Number Publication Date
JP2014003647A true JP2014003647A (ja) 2014-01-09

Family

ID=41531074

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011518937A Expired - Fee Related JP5456778B2 (ja) 2008-07-18 2009-07-17 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体
JP2013161887A Pending JP2014003647A (ja) 2008-07-18 2013-08-02 了解度の向上のためのシステム、方法、装置、およびコンピュータプログラム製品

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011518937A Expired - Fee Related JP5456778B2 (ja) 2008-07-18 2009-07-17 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体

Country Status (7)

Country Link
US (1) US8538749B2 (ja)
EP (1) EP2319040A1 (ja)
JP (2) JP5456778B2 (ja)
KR (1) KR101228398B1 (ja)
CN (1) CN102057427B (ja)
TW (1) TW201015541A (ja)
WO (1) WO2010009414A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110754040A (zh) * 2017-04-13 2020-02-04 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
US20210132192A1 (en) * 2018-07-11 2021-05-06 Denso Corporation Signal processing apparatus

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) * 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US20090067661A1 (en) * 2007-07-19 2009-03-12 Personics Holdings Inc. Device and method for remote acoustic porting and magnetic acoustic connection
US8199927B1 (en) * 2007-10-31 2012-06-12 ClearOnce Communications, Inc. Conferencing system implementing echo cancellation and push-to-talk microphone detection using two-stage frequency filter
ATE554481T1 (de) * 2007-11-21 2012-05-15 Nuance Communications Inc Sprecherlokalisierung
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR20100057307A (ko) * 2008-11-21 2010-05-31 삼성전자주식회사 노래점수 평가방법 및 이를 이용한 가라오케 장치
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8396196B2 (en) * 2009-05-08 2013-03-12 Apple Inc. Transfer of multiple microphone signals to an audio host device
US8787591B2 (en) * 2009-09-11 2014-07-22 Texas Instruments Incorporated Method and system for interference suppression using blind source separation
EP2491549A4 (en) 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
CN103038823B (zh) 2010-01-29 2017-09-12 马里兰大学派克分院 用于语音提取的系统和方法
KR20110106715A (ko) * 2010-03-23 2011-09-29 삼성전자주식회사 후방 잡음 제거 장치 및 방법
JP2013527491A (ja) 2010-04-09 2013-06-27 ディーティーエス・インコーポレイテッド オーディオ再生のための適応的環境ノイズ補償
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
DK2391145T3 (en) * 2010-05-31 2017-10-09 Gn Resound As A fitting instrument and method for fitting a hearing aid to compensate for a user's hearing loss
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8447595B2 (en) * 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
KR20120016709A (ko) * 2010-08-17 2012-02-27 삼성전자주식회사 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
TWI413111B (zh) * 2010-09-06 2013-10-21 Byd Co Ltd Method and apparatus for eliminating noise background noise (2)
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
BR112013016222B1 (pt) * 2011-02-03 2020-12-15 Telefonaktiebolaget L M Ericsson (Publ) Método de estimar a potência de eco, método de supressão de eco, estimador de potência de eco harmônico, cancelador de eco, e, equipamento de usuário
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US9338278B2 (en) 2011-03-30 2016-05-10 Koninklijke Philips N.V Determining the distance and/or acoustic quality between a mobile device and a base unit
EP2509337B1 (en) * 2011-04-06 2014-09-24 Sony Ericsson Mobile Communications AB Accelerometer vector controlled noise cancelling method
US20120263317A1 (en) * 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization
EP2714184B1 (en) * 2011-05-26 2017-05-10 Advanced Bionics AG Systems for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
US20120308047A1 (en) * 2011-06-01 2012-12-06 Robert Bosch Gmbh Self-tuning mems microphone
JP2012252240A (ja) * 2011-06-06 2012-12-20 Sony Corp 再生装置、信号処理装置、信号処理方法
US8954322B2 (en) * 2011-07-25 2015-02-10 Via Telecom Co., Ltd. Acoustic shock protection device and method thereof
US20130054233A1 (en) * 2011-08-24 2013-02-28 Texas Instruments Incorporated Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
US20130150114A1 (en) * 2011-09-23 2013-06-13 Revolabs, Inc. Wireless multi-user audio system
FR2984579B1 (fr) * 2011-12-14 2013-12-13 Inst Polytechnique Grenoble Procede de traitement numerique sur un ensemble de pistes audio avant mixage
US20130163781A1 (en) * 2011-12-22 2013-06-27 Broadcom Corporation Breathing noise suppression for audio signals
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
CN103325383A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 音频处理方法和音频处理设备
EP2645362A1 (en) * 2012-03-26 2013-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving the perceived quality of sound reproduction by combining active noise cancellation and perceptual noise compensation
US9082389B2 (en) 2012-03-30 2015-07-14 Apple Inc. Pre-shaping series filter for active noise cancellation adaptive filter
US9282405B2 (en) 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
CN102685289B (zh) * 2012-05-09 2014-12-03 南京声准科技有限公司 通信终端风吹状态下音频通话测量装置和方法
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
EP2896126B1 (en) * 2012-09-17 2016-06-29 Dolby Laboratories Licensing Corporation Long term monitoring of transmission and voice activity patterns for regulating gain control
CN103685658B (zh) * 2012-09-19 2016-05-04 英华达(南京)科技有限公司 手持装置的信号测试系统及其信号测试方法
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US10031968B2 (en) 2012-10-11 2018-07-24 Veveo, Inc. Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface
US9001864B2 (en) * 2012-10-15 2015-04-07 The United States Of America As Represented By The Secretary Of The Navy Apparatus and method for producing or reproducing a complex waveform over a wide frequency range while minimizing degradation and number of discrete emitters
US10194239B2 (en) * 2012-11-06 2019-01-29 Nokia Technologies Oy Multi-resolution audio signals
US20150365762A1 (en) 2012-11-24 2015-12-17 Polycom, Inc. Acoustic perimeter for reducing noise transmitted by a communication device in an open-plan environment
US9781531B2 (en) * 2012-11-26 2017-10-03 Mediatek Inc. Microphone system and related calibration control method and calibration control module
US9304010B2 (en) * 2013-02-28 2016-04-05 Nokia Technologies Oy Methods, apparatuses, and computer program products for providing broadband audio signals associated with navigation instructions
KR101887983B1 (ko) * 2013-03-07 2018-08-14 애플 인크. 룸 및 프로그램 응답 확성기 시스템
WO2014168777A1 (en) * 2013-04-10 2014-10-16 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
US10716073B2 (en) 2013-06-07 2020-07-14 Apple Inc. Determination of device placement using pose angle
US9699739B2 (en) * 2013-06-07 2017-07-04 Apple Inc. Determination of device body location
EP2819429B1 (en) 2013-06-28 2016-06-22 GN Netcom A/S A headset having a microphone
US9232332B2 (en) * 2013-07-26 2016-01-05 Analog Devices, Inc. Microphone calibration
US9385779B2 (en) * 2013-10-21 2016-07-05 Cisco Technology, Inc. Acoustic echo control for automated speaker tracking systems
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
GB2520048B (en) * 2013-11-07 2018-07-11 Toshiba Res Europe Limited Speech processing system
US10659889B2 (en) * 2013-11-08 2020-05-19 Infineon Technologies Ag Microphone package and method for generating a microphone signal
US9615185B2 (en) * 2014-03-25 2017-04-04 Bose Corporation Dynamic sound adjustment
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US10049678B2 (en) * 2014-10-06 2018-08-14 Synaptics Incorporated System and method for suppressing transient noise in a multichannel system
EP3032789B1 (en) * 2014-12-11 2018-11-14 Alcatel Lucent Non-linear precoding with a mix of NLP capable and NLP non-capable lines
US10057383B2 (en) * 2015-01-21 2018-08-21 Microsoft Technology Licensing, Llc Sparsity estimation for data transmission
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN105992100B (zh) 2015-02-12 2018-11-02 电信科学技术研究院 一种音频均衡器预置集参数的确定方法及装置
WO2016160403A1 (en) 2015-03-27 2016-10-06 Dolby Laboratories Licensing Corporation Adaptive audio filtering
CN107533849B (zh) * 2015-04-23 2021-06-29 华为技术有限公司 基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置
US9736578B2 (en) * 2015-06-07 2017-08-15 Apple Inc. Microphone-based orientation sensors and related techniques
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
TW201709155A (zh) * 2015-07-09 2017-03-01 美高森美半導體美國公司 音響警報偵測器
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US9978399B2 (en) * 2015-11-13 2018-05-22 Ford Global Technologies, Llc Method and apparatus for tuning speech recognition systems to accommodate ambient noise
JP6634354B2 (ja) * 2016-07-20 2020-01-22 ホシデン株式会社 緊急通報システム用ハンズフリー通話装置
US10462567B2 (en) 2016-10-11 2019-10-29 Ford Global Technologies, Llc Responding to HVAC-induced vehicle microphone buffeting
JPWO2018216694A1 (ja) * 2017-05-24 2020-03-26 株式会社トランストロン 車載装置
US9934772B1 (en) * 2017-07-25 2018-04-03 Louis Yoelin Self-produced music
US10525921B2 (en) 2017-08-10 2020-01-07 Ford Global Technologies, Llc Monitoring windshield vibrations for vehicle collision detection
US10013964B1 (en) * 2017-08-22 2018-07-03 GM Global Technology Operations LLC Method and system for controlling noise originating from a source external to a vehicle
WO2019044664A1 (ja) * 2017-08-28 2019-03-07 株式会社ソニー・インタラクティブエンタテインメント 音声信号処理装置
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
US10562449B2 (en) * 2017-09-25 2020-02-18 Ford Global Technologies, Llc Accelerometer-based external sound monitoring during low speed maneuvers
CN109903758B (zh) 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
US10360895B2 (en) 2017-12-21 2019-07-23 Bose Corporation Dynamic sound adjustment based on noise floor estimate
US20190049561A1 (en) * 2017-12-28 2019-02-14 Intel Corporation Fast lidar data classification
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
US11336999B2 (en) 2018-03-29 2022-05-17 Sony Corporation Sound processing device, sound processing method, and program
US11341987B2 (en) * 2018-04-19 2022-05-24 Semiconductor Components Industries, Llc Computationally efficient speech classifier and related methods
JP7335282B2 (ja) 2018-06-22 2023-08-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 圧縮フィードバックに応答するオーディオ増強
US10455319B1 (en) * 2018-07-18 2019-10-22 Motorola Mobility Llc Reducing noise in audio signals
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN111009259B (zh) * 2018-10-08 2022-09-16 杭州海康慧影科技有限公司 一种音频处理方法和装置
US10389325B1 (en) * 2018-11-20 2019-08-20 Polycom, Inc. Automatic microphone equalization
CN113748459A (zh) * 2019-04-15 2021-12-03 杜比国际公司 音频编解码器中的对话增强
US11133787B2 (en) 2019-06-25 2021-09-28 The Nielsen Company (Us), Llc Methods and apparatus to determine automated gain control parameters for an automated gain control protocol
US11019301B2 (en) 2019-06-25 2021-05-25 The Nielsen Company (Us), Llc Methods and apparatus to perform an automated gain control protocol with an amplifier based on historical data corresponding to contextual data
US11817114B2 (en) * 2019-12-09 2023-11-14 Dolby Laboratories Licensing Corporation Content and environmentally aware environmental noise compensation
CN112735458A (zh) * 2020-12-28 2021-04-30 苏州科达科技股份有限公司 噪声估计方法、降噪方法及电子设备
US11503415B1 (en) * 2021-04-23 2022-11-15 Eargo, Inc. Detection of feedback path change
TWI788863B (zh) * 2021-06-02 2023-01-01 鉭騏實業有限公司 聽力設備及其方法
CN116095254B (zh) * 2022-05-30 2023-10-20 荣耀终端有限公司 音频处理方法和装置
CN117434153B (zh) * 2023-12-20 2024-03-05 吉林蛟河抽水蓄能有限公司 基于超声波技术的道路无损检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11298990A (ja) * 1998-04-14 1999-10-29 Alpine Electronics Inc オーディオ装置
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2007295528A (ja) * 2006-03-31 2007-11-08 Sony Corp 信号処理装置、信号処理方法、音場補正システム
JP2008507926A (ja) * 2004-07-22 2008-03-13 ソフトマックス,インク 雑音環境内で音声信号を分離するためのヘッドセット

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4641344A (en) 1984-01-06 1987-02-03 Nissan Motor Company, Limited Audio equipment
CN85105410B (zh) 1985-07-15 1988-05-04 日本胜利株式会社 降低噪音系统
US5105377A (en) * 1990-02-09 1992-04-14 Noise Cancellation Technologies, Inc. Digital virtual earth active cancellation system
JP2797616B2 (ja) 1990-03-16 1998-09-17 松下電器産業株式会社 雑音抑圧装置
US5388185A (en) 1991-09-30 1995-02-07 U S West Advanced Technologies, Inc. System for adaptive processing of telephone voice signals
DE69227924T2 (de) 1992-06-05 1999-07-29 Noise Cancellation Tech Aktiver kopfhörer mit erhöhter selektivität
WO1993026085A1 (en) 1992-06-05 1993-12-23 Noise Cancellation Technologies Active/passive headset with speech filter
JPH06175691A (ja) 1992-12-07 1994-06-24 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声強調装置と音声強調方法
US7103188B1 (en) * 1993-06-23 2006-09-05 Owen Jones Variable gain active noise cancelling system with improved residual noise sensing
US5485515A (en) 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5526419A (en) 1993-12-29 1996-06-11 At&T Corp. Background noise compensation in a telephone set
US5764698A (en) * 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
US6885752B1 (en) 1994-07-08 2005-04-26 Brigham Young University Hearing aid device incorporating signal processing techniques
US5646961A (en) 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
JP2993396B2 (ja) 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5794187A (en) * 1996-07-16 1998-08-11 Audiological Engineering Corporation Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information
US6240192B1 (en) 1997-04-16 2001-05-29 Dspfactory Ltd. Apparatus for and method of filtering in an digital hearing aid, including an application specific integrated circuit and a programmable digital signal processor
DE19805942C1 (de) 1998-02-13 1999-08-12 Siemens Ag Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
DE19806015C2 (de) 1998-02-13 1999-12-23 Siemens Ag Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
US6415253B1 (en) 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
JP3459363B2 (ja) 1998-09-07 2003-10-20 日本電信電話株式会社 雑音低減処理方法、その装置及びプログラム記憶媒体
US7031460B1 (en) * 1998-10-13 2006-04-18 Lucent Technologies Inc. Telephonic handset employing feed-forward noise cancellation
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
EP1155561B1 (de) 1999-02-26 2006-05-24 Infineon Technologies AG Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
US6704428B1 (en) * 1999-03-05 2004-03-09 Michael Wurtz Automatic turn-on and turn-off control for battery-powered headsets
WO2000065872A1 (en) 1999-04-26 2000-11-02 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
ATE356469T1 (de) * 1999-07-28 2007-03-15 Clear Audio Ltd Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank
JP2001056693A (ja) 1999-08-20 2001-02-27 Matsushita Electric Ind Co Ltd 騒音低減装置
EP1081685A3 (en) 1999-09-01 2002-04-24 TRW Inc. System and method for noise reduction using a single microphone
US6732073B1 (en) * 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6480610B1 (en) 1999-09-21 2002-11-12 Sonic Innovations, Inc. Subband acoustic feedback cancellation in hearing aids
AUPQ366799A0 (en) * 1999-10-26 1999-11-18 University Of Melbourne, The Emphasis of short-duration transient speech features
CA2290037A1 (en) 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US20070110042A1 (en) * 1999-12-09 2007-05-17 Henry Li Voice and data exchange over a packet based network
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
JP2001292491A (ja) 2000-02-03 2001-10-19 Alpine Electronics Inc イコライザ装置
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US6937738B2 (en) 2001-04-12 2005-08-30 Gennum Corporation Digital hearing aid system
EP1251715B2 (en) 2001-04-18 2010-12-01 Sound Design Technologies Ltd. Multi-channel hearing instrument with inter-channel communication
US6820054B2 (en) * 2001-05-07 2004-11-16 Intel Corporation Audio signal processing for speech communication
JP4145507B2 (ja) 2001-06-07 2008-09-03 松下電器産業株式会社 音質音量制御装置
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7277554B2 (en) * 2001-08-08 2007-10-02 Gn Resound North America Corporation Dynamic range compression using digital frequency warping
US20030152244A1 (en) 2002-01-07 2003-08-14 Dobras David Q. High comfort sound delivery system
JP2003218745A (ja) 2002-01-22 2003-07-31 Asahi Kasei Microsystems Kk ノイズキャンセラ及び音声検出装置
US6748009B2 (en) * 2002-02-12 2004-06-08 Interdigital Technology Corporation Receiver for wireless telecommunication stations and method
JP2003271191A (ja) 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US6968171B2 (en) * 2002-06-04 2005-11-22 Sierra Wireless, Inc. Adaptive noise reduction system for a wireless receiver
EP1522206B1 (en) 2002-07-12 2007-10-03 Widex A/S Hearing aid and a method for enhancing speech intelligibility
DE60310084T2 (de) * 2002-07-24 2007-06-28 Massachusetts Institute Of Technology, Cambridge Vorrichtung und verfahren zur verteilten verstärkungsregelung zur spektralen verbesserung
US7336662B2 (en) * 2002-10-25 2008-02-26 Alcatel Lucent System and method for implementing GFR service in an access node's ATM switch fabric
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
US7242763B2 (en) 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
KR100480789B1 (ko) * 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
JP4018571B2 (ja) 2003-03-24 2007-12-05 富士通株式会社 音声強調装置
US7330556B2 (en) * 2003-04-03 2008-02-12 Gn Resound A/S Binaural signal enhancement system
WO2004097799A1 (en) * 2003-04-24 2004-11-11 Massachusetts Institute Of Technology System and method for spectral enhancement employing compression and expansion
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
BRPI0410740A (pt) * 2003-05-28 2006-06-27 Dolby Lab Licensing Corp método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
JP2005004013A (ja) 2003-06-12 2005-01-06 Pioneer Electronic Corp ノイズ低減装置
ATE324763T1 (de) * 2003-08-21 2006-05-15 Bernafon Ag Verfahren zur verarbeitung von audiosignalen
DE10362073A1 (de) * 2003-11-06 2005-11-24 Herbert Buchner Vorrichtung und Verfahren zum Verarbeiten eines Eingangssignals
JP2005168736A (ja) 2003-12-10 2005-06-30 Aruze Corp 遊技機
EP1704559A1 (en) 2004-01-06 2006-09-27 Koninklijke Philips Electronics N.V. Systems and methods for automatically equalizing audio signals
ATE402468T1 (de) * 2004-03-17 2008-08-15 Harman Becker Automotive Sys Geräuschabstimmungsvorrichtung, verwendung derselben und geräuschabstimmungsverfahren
CN1322488C (zh) 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
CN1295678C (zh) * 2004-05-18 2007-01-17 中国科学院声学研究所 子带自适应谷点降噪系统和方法
CA2481629A1 (en) * 2004-09-15 2006-03-15 Dspfactory Ltd. Method and system for active noise cancellation
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
TWI258121B (en) 2004-12-17 2006-07-11 Tatung Co Resonance-absorbent structure of speaker
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060262938A1 (en) * 2005-05-18 2006-11-23 Gauger Daniel M Jr Adapted audio response
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
KR100800725B1 (ko) 2005-09-07 2008-02-01 삼성전자주식회사 이동통신 단말의 오디오 재생시 주변 잡음에 적응하는 자동음량 조절 방법 및 장치
EP4372743A2 (en) * 2006-01-27 2024-05-22 Dolby International AB Efficient filtering with a complex modulated filterbank
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US7729775B1 (en) * 2006-03-21 2010-06-01 Advanced Bionics, Llc Spectral contrast enhancement in a cochlear implant speech processor
US7676374B2 (en) * 2006-03-28 2010-03-09 Nokia Corporation Low complexity subband-domain filtering in the case of cascaded filter banks
GB2436657B (en) * 2006-04-01 2011-10-26 Sonaptic Ltd Ambient noise-reduction control system
US7720455B2 (en) * 2006-06-30 2010-05-18 St-Ericsson Sa Sidetone generation for a wireless system that uses time domain isolation
US8185383B2 (en) * 2006-07-24 2012-05-22 The Regents Of The University Of California Methods and apparatus for adapting speech coders to improve cochlear implant performance
JP4455551B2 (ja) 2006-07-31 2010-04-21 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
DK1931172T3 (da) * 2006-12-01 2009-10-12 Siemens Audiologische Technik Höreapparat med undertrykkelse af stöjlyde og en tilsvarende fremgangsmåde
JP4882773B2 (ja) * 2007-02-05 2012-02-22 ソニー株式会社 信号処理装置、信号処理方法
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
US7742746B2 (en) 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
WO2008138349A2 (en) 2007-05-10 2008-11-20 Microsound A/S Enhanced management of sound provided via headphones
US8600516B2 (en) * 2007-07-17 2013-12-03 Advanced Bionics Ag Spectral contrast enhancement in a cochlear implant speech processor
US8489396B2 (en) 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
CN101110217B (zh) * 2007-07-25 2010-10-13 北京中星微电子有限公司 一种音频信号的自动增益控制方法及装置
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
WO2009082302A1 (en) * 2007-12-20 2009-07-02 Telefonaktiebolaget L M Ericsson (Publ) Noise suppression method and apparatus
US20090170550A1 (en) * 2007-12-31 2009-07-02 Foley Denis J Method and Apparatus for Portable Phone Based Noise Cancellation
DE102008039329A1 (de) 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
US8483854B2 (en) * 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8131541B2 (en) * 2008-04-25 2012-03-06 Cambridge Silicon Radio Limited Two microphone noise reduction system
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US9202455B2 (en) * 2008-11-24 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced active noise cancellation
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8737636B2 (en) * 2009-07-10 2014-05-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation
US9053697B2 (en) * 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US20120263317A1 (en) 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11298990A (ja) * 1998-04-14 1999-10-29 Alpine Electronics Inc オーディオ装置
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2008507926A (ja) * 2004-07-22 2008-03-13 ソフトマックス,インク 雑音環境内で音声信号を分離するためのヘッドセット
JP2007295528A (ja) * 2006-03-31 2007-11-08 Sony Corp 信号処理装置、信号処理方法、音場補正システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110754040A (zh) * 2017-04-13 2020-02-04 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
US10886883B2 (en) 2017-04-13 2021-01-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an input audio signal and corresponding method
CN110754040B (zh) * 2017-04-13 2023-08-11 弗劳恩霍夫应用研究促进协会 用于处理输入音频信号的装置和对应方法
US20210132192A1 (en) * 2018-07-11 2021-05-06 Denso Corporation Signal processing apparatus

Also Published As

Publication number Publication date
TW201015541A (en) 2010-04-16
EP2319040A1 (en) 2011-05-11
JP2011528806A (ja) 2011-11-24
KR101228398B1 (ko) 2013-01-31
US20100017205A1 (en) 2010-01-21
KR20110043699A (ko) 2011-04-27
CN102057427A (zh) 2011-05-11
US8538749B2 (en) 2013-09-17
CN102057427B (zh) 2013-10-16
JP5456778B2 (ja) 2014-04-02
WO2010009414A1 (en) 2010-01-21

Similar Documents

Publication Publication Date Title
JP5456778B2 (ja) 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体
JP5628152B2 (ja) スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品
US8175291B2 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
KR101463324B1 (ko) 오디오 등화를 위한 시스템들, 방법들, 디바이스들, 장치, 및 컴퓨터 프로그램 제품들
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置
US20080208538A1 (en) Systems, methods, and apparatus for signal separation
EP3605529B1 (en) Method and apparatus for processing speech signal adaptive to noise environment
KR20060061259A (ko) 잔향 추정 및 억제 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141202