JP5801405B2 - 合成音声プロトタイプの推定 - Google Patents

合成音声プロトタイプの推定 Download PDF

Info

Publication number
JP5801405B2
JP5801405B2 JP2013535119A JP2013535119A JP5801405B2 JP 5801405 B2 JP5801405 B2 JP 5801405B2 JP 2013535119 A JP2013535119 A JP 2013535119A JP 2013535119 A JP2013535119 A JP 2013535119A JP 5801405 B2 JP5801405 B2 JP 5801405B2
Authority
JP
Japan
Prior art keywords
prototype
signal
input
characteristic
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013535119A
Other languages
English (en)
Other versions
JP2013543988A (ja
Inventor
ポール・ビー・ハルツ
トビー・ゼット・バークスデール
マイケル・エス・ダブリン
ルーク・シー・ウォルターズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of JP2013543988A publication Critical patent/JP2013543988A/ja
Application granted granted Critical
Publication of JP5801405B2 publication Critical patent/JP5801405B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

関連出願の相互参照
本出願は、参照により本明細書に組み込まれている、2010年10月21日出願の米国特許出願第12/909,569号の一部継続出願(CIP)である。
本出願は、参照により本明細書に組み込まれている、
2009年12月8日発行の「Spatial Disassembly Process」という名称の米国特許第7,630,500号
2009年10月22日公開の「Hearing Assistance Apparatus」という名称の米国特許出願公開第2009/0262969号
2008年12月25日公開の「Sound Discrimination Method and Apparatus」という名称の米国特許出願公開第2008/0317260号
に関するが、これらの出願日の利益を主張するものではない。
本発明は、合成音声プロトタイプの推定に関する。
音声信号処理の分野では、「アップミキシング(upmixing)」という用語は通常、多くのソース信号を足してより少ない音声チャネルにする「ダウンミキシング(downmixing)」を元に戻す処理を指す。ダウンミキシングは、自然の音響処理、またはスタジオ結合とすることができる。一例として、アップミキシングは、1つの多重チャネルソースから複数の空間的に分離された音声チャネルを生じさせることを含むことができる。
最も簡単なアップミキサは、1対のステレオ音声信号を取り込み、両方のチャネルに共通の情報を表す単一の出力を生成する。この出力は通常、中心チャネルと呼ばれる。それよりやや複雑なアップミキサは、中心チャネルと左右の入力の「中心ではない」成分とを表す3つのチャネルを生成することができる。より複雑なアップミキサは、1つまたは複数の中心チャネルと、パンされたコンテンツの2つの「サイド専用」チャネルと、補正されていない、または位相の外れたコンテンツの1つまたは複数の「サラウンド」チャネルとの分離を試みる。
1つのアップミキシング方法は、時間領域において、ステレオ入力チャネルの重み付きの(場合によっては、負)結合を作ることによって実行される。この方法は、単一のソースを所望の位置に表すことができるが、複数の同時に存在するソースを分離することはできない可能性がある。たとえば、共通の(中心)コンテンツによって支配されるステレオコンテンツ上で動作する時間領域アップミキサは、パンされて十分に相関しないコンテンツを混合し、そのより弱いコンテンツが他のチャネルに属する場合でも、中心出力チャネルにする。
Dolby Pro Logic II(および変種)、LexiconのLogic 7およびDTS Neo:6、BoseのVideostage、Audio Stage、Centerpoint、およびCenterpoint IIを含めて、複数のステレオアップミキシングアルゴリズムが商用利用可能である。
1つの多重チャネルソースから複数の空間的に分離された音声チャネルを正確に表すとともに、音のアーティファクトを低減させ、処理の待ち時間を減らすように、アップミキシングを実行することが必要とされている。
1つまたは複数の実施形態は、柔軟な時間および/または周波数局所処理を可能にする出力信号を合成しながら、そのような出力信号内のアーティファクトを制限または緩和するという技術上の問題に対処する。概して、この技術上の問題は、第1に、出力信号に対するプロトタイプ信号(すなわち、たとえば統計学的特性に従ってそのようなプロトタイプを特性化する信号および/またはデータ)を合成し、次いで、たとえば入力信号の重み付き結合として形成されるプロトタイプ信号の推定値として出力信号を形成することによって対処することができる。いくつかの例では、これらのプロトタイプは入力の非線形関数であり、推定値は最小2乗誤差基準値に従って形成される。
この技術上の問題は、様々な音声処理の適用分野で生じる可能性がある。たとえば、1組の入力音声チャネルからのアップミキシング処理は、第1に、アップミキシングされた信号に対するプロトタイプを形成し、次いで、入力信号の結合を使用してプロトタイプに最も密接に整合する出力信号を推定することによって対処することができる。他の適用分野は、たとえば複数のマイクロフォン要素を有するヘッドセット、手持ち式マイクロフォン、車載マイクロフォンなどで方向性および/または周囲雑音の緩和を提供するための、複数のマイクロフォン入力による信号の強調を含む。
一態様では、概して、複数の入力信号から出力信号を形成する方法は、複数の入力信号から1つまたは複数のプロトタイプ信号の合成の特性化を判定するステップを含む。この方法では、1つまたは複数の出力信号が形成され、入力信号の1つまたは複数の結合を含む1つまたは複数のプロトタイプ信号のうちの対応するプロトタイプ信号の推定値として、各出力信号を形成するステップが含まれる。
態様は、以下の特徴の1つまたは複数を含むことができる。
プロトタイプ信号の合成の特性化を判定するステップは、プロトタイプ信号を判定するステップを含み、またはプロトタイプ信号の統計学的特性を判定するステップを含む。
プロトタイプ信号の合成の特性化を判定するステップは、入力信号の時間局所分析に基づいて前記データを形成するステップを含む。いくつかの例では、プロトタイプ信号の合成の特性化を判定するステップは、入力信号の周波数局所分析に基づいて前記データを形成するステップをさらに含む。いくつかの例では、プロトタイプの推定値の形成は、プロトタイプ信号を形成する際の局所分析に比べて、入力およびプロトタイプ信号のより広汎な分析に基づいて行われる。
プロトタイプ信号の合成は、入力信号の非線形関数および/または入力信号の1つまたは複数のゲーティングを含む。
プロトタイプの推定値として出力信号を形成するステップは、プロトタイプの最小誤差推定値を形成するステップを含む。いくつかの例では、最小誤差推定値を形成するステップは、最小2乗誤差推定値を形成するステップを含む。
入力信号の1つまたは複数の結合として、1つまたは複数のプロトタイプ信号のうちの対応するプロトタイプ信号の推定値として出力信号を形成するステップは、プロトタイプ信号および1つまたは複数の入力信号に関する統計値の推定値を演算するステップと、前記入力信号のそれぞれに適用される重み係数を判定するステップとを含む。
これらの統計値は、プロトタイプ信号と1つまたは複数の入力信号との間の相互パワー統計値、1つまたは複数の入力信号の自己パワー統計値、および2つ以上存在する場合はすべての入力信号間の相互パワー統計値を含む。
統計値の推定値を演算するステップは、時間および/または周波数にわたって局所で演算された統計値を平均するステップを含む。
この方法は、各入力信号を複数の成分に分解するステップをさらに含む。
プロトタイプ信号の合成を特性化するデータを判定するステップは、各プロトタイプ信号から複数のプロトタイプ成分への成分分解を特性化するデータを形成するステップを含む。
プロトタイプ信号のうちの対応するプロトタイプ信号の推定値として各出力信号を形成するステップは、1つまたは複数の入力信号のうちの対応する成分の変換として複数の出力成分推定値を形成するステップを含む。
出力信号を形成するステップは、形成された出力成分推定値を結合して出力信号を形成するステップを含む。
成分分解を形成するステップは、周波数ベースの分解を形成するステップを含む。
成分分解を形成するステップは、実質上直交する分解を形成するステップを含む。
成分分解を形成するステップは、ウェーブレット変換、均一帯域幅フィルタバンク、不均一帯域幅フィルタバンク、直交ミラーフィルタバンク、および統計的分解の少なくとも1つを適用するステップを含む。
1つまたは複数の入力信号のうちの対応する成分の結合として複数の出力成分推定値を形成するステップは、入力信号の成分をスケーリングして出力信号の成分を形成するステップを含む。
入力信号は、音声記録の複数の入力音声チャネルを含み、出力信号は、追加のアップミキシングされたチャネルを含む。いくつかの例では、複数の入力音声チャネルは、少なくとも1つの左音声チャネルおよび1つの右音声チャネルを含み、追加のアップミキシングされたチャネルは、中心チャネルおよびサラウンドチャネルの少なくとも1つを含む。
複数の入力信号は、マイクロフォンアレイから受け入れられる。いくつかの例では、1つまたは複数のプロトタイプ信号は、入力信号間の差に従って合成される。いくつかの例では、入力信号間の差に従ってプロトタイプ信号を形成するステップは、利得および/または位相差に従ってゲーティング値を判定するステップを含み、このゲーティング値を入力信号の1つまたは複数に適用して、プロトタイプ信号を判定する。
別の態様では、概して、複数の入力信号から1つまたは複数の出力信号を形成する方法は、入力信号を、一連の時点のそれぞれにおける異なる周波数成分(たとえば、概ね周波数に依存する成分)を表す入力信号成分に分解するステップを含む。1つまたは複数のプロトタイプ信号の特性化は、たとえば複数の入力信号から判定される。1つまたは複数のプロトタイプ信号の特性化は、一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む。次いで、1つまたは複数の出力信号は、入力信号の1つまたは複数の結合を含む1つまたは複数のプロトタイプ信号のうちの対応するプロトタイプ信号の推定値として、各出力信号を形成することによって形成される。
いくつかの例では、プロトタイプ信号の推定値として出力信号を形成するステップは、複数のプロトタイプ成分のそれぞれに対して、たとえば推定されているプロトタイプ成分とは異なる時間または異なる周波数における少なくともいくつかの入力信号成分を含む入力信号成分の複数の結合として推定値を形成するステップを含む。
いくつかの例では、プロトタイプ信号の推定値として出力信号を形成するステップは、入力信号の1つまたは複数の結合を判定する際に1つまたは複数の制約を適用するステップを含む。
別の態様では、概して、複数の入力信号を処理して合成プロトタイプ信号の推定値として出力を形成するシステムは、上記で指定した方法のいずれかのすべてのステップを実行するように構成される。
別の態様では、概して、複数の入力信号を処理して合成プロトタイプ信号の推定値として出力を形成するための命令を含む機械可読媒体上で実施できるソフトウェアが、上記で指定した方法のいずれかのすべてのステップを実行するように構成される。
別の態様では、概して、複数の入力信号を処理するシステムは、入力信号の複数を受け入れ、プロトタイプ信号の特性化を提供するように構成されたプロトタイプ生成器を含む。推定器が、プロトタイプ信号の特性化を受け入れ、入力信号の1つまたは複数の結合として、プロトタイプ信号の推定値として出力信号を形成するように構成される。
態様は、以下の特徴の1つまたは複数を含むことができる。
プロトタイプ信号は、入力信号の非線形関数を含む。
プロトタイプ信号の推定値は、プロトタイプ信号の最小2乗誤差推定値を含む。
システムは、入力信号のそれぞれの多成分分解を形成する成分分析モジュールと、出力信号の成分分解から出力信号を復元する復元モジュールとを含む。
プロトタイプ生成器と推定器はそれぞれ、成分ごとに動作するように構成される。
プロトタイプ生成器は、各成分に対して、入力信号の時間局所処理を実行してプロトタイプ信号の成分の特性化を判定するように構成される。
プロトタイプ生成器は、複数の入力音声チャネルを受け入れるように構成され、推定器は、追加のアップミキシングされたチャネルを含む出力信号を提供するように構成される。
プロトタイプ生成器は、マイクロフォンアレイから複数の入力音声チャネルを受け入れるように構成され、プロトタイプ生成器は、入力信号間の差に従って1つまたは複数のプロトタイプ信号を合成するように構成される。
アップミキシング処理は、入力信号を成分表現に変換する(たとえば、DFTフィルタバンクを使用することによる)ステップを含むことができる。各信号の成分表現は、時間とともに周期的に作ることができ、それによって成分表現に時間次元を追加することができる(たとえば、時間周波数表現)。
いくつかの実施形態は、プロトタイプ信号として所望の出力信号を非線形的に推定するために、発見的方法を使用することができる。たとえば、発見的方法は、それぞれの入力信号からどれくらいの所与の成分を出力信号内に含むかを判定することができる。
適したフィルタバンクが用いられるとき、時間および周波数にわたって独立して係数を非線形的に生成することによって実現できる結果(すなわち、非線形プロトタイプ)は、満足のいくものとなりうる。
非線形プロトタイプを入力信号空間上へ投影するために、近似技法(たとえば、最小2乗近似)を使用することができ、それによってアップミキシング係数を判定することができる。これらのアップミキシング係数は、入力信号を混合して所望の出力信号にするために使用することができる。
アーティファクトおよび分解能要件を低減させるために、平滑化を使用することができるが、既存のアップミキシングシステムの応答時間を遅くすることがある。既存の時間周波数アップミキサでは、アーティファクトと応答性との間で困難な兼ね合いを行う必要がある。合成されたプロトタイプの1次推定値を作ることで、これらの兼ね合いがそれほど深刻ではなくなる。
実施形態は、以下の利点の1つまたは複数を有することができる。
本出願で使用される非線形処理技法は、1次処理技法を単独で使用することでは普通なら不可能である広い範囲の変換を実行する可能性を提供する。たとえば、アップミキシング、室内音響の修正、および信号選択(たとえば、電話のヘッドセットおよび補聴器向け)はすべて、不快なアーティファクトを導入することなく、非線形処理技法を使用して実現することができる。
標的信号の非線形プロトタイプの1次推定により、システムは、導入されるアーティファクトの数を最小にしながら、入力信号の変化に迅速に応答することができる。
本発明の他の特徴および利点は、以下の説明および特許請求の範囲から明らかである。
合成プロトタイプの1次推定向けに構成されたシステムのブロック図である。 信号から成分への分解および代表的な成分に対する合成プロトタイプの推定のブロック図である。 プロトタイプに対する時間成分表現を示す図である。 時間成分表現の単一のタイルの詳細図である。 例示的な中心チャネルの合成プロトタイプdi(t)を示すブロック図である。 2つの例示的な「サイド専用」の合成プロトタイプdi(t)を示すブロック図である。 例示的なサラウンドチャネルの合成プロトタイプdi(t)を示すブロック図である。 合成処理モジュールの代替構成のブロック図である。 アップミキシング係数hを判定するように構成されたシステムのブロック図である。 2つの局所プロトタイプを使用することによって6つのアップミキシングチャネルをどのように判定できるかを示すブロック図である。 複数の過去の入力および出力を利用するプロトタイプ生成器を含むシステムのブロック図である。 ソース信号を受け取る2つのマイクロフォンのアレイの図である。 ソース信号および雑音信号を受け取る2つのマイクロフォンのアレイの図である。 MVDR設計の測定された平均的な信号対雑音比利得および保存信号比と時間周波数マスキング方式との関係を示すグラフである。 平均的な標的および雑音信号パワーのグラフである。 信号対雑音比利得および保存信号比のグラフである。 信号対雑音比利得および保存信号比のグラフである。 信号対雑音比利得および保存信号比のグラフである。
1 システムの概説
図1を参照すると、合成プロトタイプの推定を使用するシステムの一例は、アップミックスモジュール104を含むアップミキシングシステム100であり、アップミックスモジュール104は、入力信号112s1(t),…,sN(t)を受け入れて、アップミキシングされた信号
を出力する。一例として、入力時間信号s1(t)およびs2(t)は、左右の入力信号を表し、
は、導出された中心チャネルを表す。アップミックスモジュール104は、入力信号s1(t),…,sN(t)112の結合として、たとえば入力信号の(時間とともに変動する)1次結合として、アップミキシングされた信号
を形成する。概して、アップミキシングされた信号
は、推定器110によってプロトタイプ信号d(t)109の1次推定値として形成され、プロトタイプ信号d(t)109は、プロトタイプ生成器108によって、概括的には非線形技法によって入力信号から形成される。いくつかの例では、推定値は、最小平均2乗誤差の点でプロトタイプ信号に最良近似する入力信号の1次(たとえば、周波数重み付き)結合として形成される。この1次推定値
は概して、それぞれ入力信号112の1つに関連する隠された標的信号
および雑音成分114の結合として形成される1組の入力信号112に対する生成モデル102に基づく。
図1に示すシステム100では、合成プロトタイプ生成モジュール108が、1組の入力信号112の非線形変換としてプロトタイプd(t)109を形成する。このプロトタイプは、1次技法を使用して形成することもでき、一例としてプロトタイプは、プロトタイプから出力信号を推定するために使用されるものとは異なる入力信号の部分集合から形成されることを理解されたい。いくつかのタイプのプロトタイプ生成の場合、このプロトタイプは、1次推定器110を通過することなく聴取者に直接提示された場合に低品質の音声出力を生じさせるはずの劣化および/またはアーティファクトを含むことがある。上記で導入したように、いくつかの例では、プロトタイプd(t)は、入力信号の所望のアップミキシングに関連する。他の例では、プロトタイプは、他の目的で、たとえば干渉の存在下で所望の信号の識別に基づいて形成される。
いくつかの実施形態では、プロトタイプ信号を形成する処理は、時間および/または周波数において推定処理より局所化されている。推定処理では、局所化された処理に起因するプロトタイプ信号内の不快な特性を補償できる平滑度を導入することができる。他方では、プロトタイプ生成の局所的な性質は、普通なら達成できない処理形式(たとえば、アップミキシング)を可能にする柔軟度および制御を提供する。
2 成分の分解
いくつかの実装形態では、図1に示すアップミキシングシステム100のアップミキシングモジュール104は、各入力信号112を成分(たとえば、周波数帯域)に細分して各成分を個々に処理することによって実施される。たとえば、直交成分の場合、1次推定器110は、各直交成分の推定値を独立して形成し、次いで推定された成分から出力信号を合成することによって実施することができる。以下の説明では、入力信号の周波数帯域として形成された成分に焦点を当てるが、直交成分または実質上独立した成分への他の分解も同様に使用できることを理解されたい。そのような代替の分解は、入力信号のウェーブレット変換、不均一(たとえば、心理音響学的な臨界帯域、オクターブ)フィルタバンク、知覚的成分分解、直交ミラーフィルタバンク、統計(たとえば、主要な成分)ベースの分解などを含むことができる。
図2を参照すると、アップミキシングモジュール104の一実施形態は、参照により本明細書に組み込まれている「Spatial Disassembly Process」という名称の米国特許第7,630,500号に記載の処理と同様に、入力信号(この例では2つの入力信号)の分解を処理するように構成される。入力信号112はそれぞれ、個々の成分212を有する複数の成分表現に変換される。たとえば、入力信号s1(t)は、指数iを有する1組の成分
に分解される。いくつかの例では、上記で参照した特許に記載のように、成分分析器220は、入力信号を周波数成分に変換する離散フーリエ変換(DFT)分析フィルタバンクである。いくつかの例では、周波数成分はゼロ相フィルタの出力であり、それぞれ等しい帯域幅(たとえば、125Hz)を有する。
出力信号
は、復元モジュール230を使用して、1組の成分
から復元される。成分分析器220および復元モジュール230では、成分が修正なしで通過した場合、最初に分析された信号が復元モジュール230の出力で本質的に(すなわち、必ずしも完全ではない)再現される。
いくつかの実施形態では、成分分析器220は、入力信号112を等しい寸法の時間ブロックにしてウィンドウに表示し、これらの時間ブロックには指数nを付けることができる。これらのブロックは重複することがあり(すなわち、1つのブロックのデータの一部が別のブロック内にも含まれることがある)、したがって各ウィンドウは「ホップ寸法」τだけ時間シフトする。一例として、その結果得られる成分表現222を改善する目的で、ウィンドウ関数(たとえば、平方根ハニングウィンドウ)を各ブロックに適用することができる。これらのブロックにウィンドウ関数を適用した後、成分分析器220は、入力信号112の各ブロックをゼロ詰めし、次いでゼロ詰めした各ブロックをそれぞれの成分表現に分解することができる。いくつかの実施形態では、成分212は、フィルタ帯域の対応する中心周波数のうちの1つによって(すなわち、複素指数によって)それぞれ変調されたベースバンド信号を形成する。さらに、各成分212は、フィルタ帯域の帯域幅にとって十分なより低いサンプリング速度でダウンサンプリングおよび処理することができる。たとえば、125Hzの帯域幅を有するDFTフィルタバンク帯域フィルタの出力は、ナイキスト基準に違反することなく、250Hzでサンプリングすることができる。
いくつかの例では、入力信号は、44.1KHzでサンプリングされて、長さ23.2msのフレーム、すなわち1024個のサンプルにシフトされる。これはτ=11.6msのフレームホップ期間、すなわち512個のサンプルで選択される。各フレームは、sin(π・t)/τというウィンドウ関数によって乗算によりウィンドウに表示され、上式でt=0は、フレームの始めの指数である。ウィンドウに表示されたフレームは、1024点のFFTへの入力を形成する。各周波数成分は、FFTの1つの出力から形成される。(FFTの入力長さより短いまたは長い他のウィンドウを選択することもできる。入力されたウィンドウがFFTより短い場合、FFTに適合するようにデータをゼロ拡張することができ、入力されたウィンドウがFFTより長い場合、データに時間エイリアシングが生じる可能性がある。)
図2では、入力信号のウィンドウ表示および後の出力信号の重複加算は示されていない。したがって、この図は、単一の分析ウィンドウの処理を明示的に示すと理解されたい。より正確には、連続入力信号sk(t)を考えると、第nの分析ウィンドウの場合、ウィンドウ表示される信号sk,[n](t)=sk(t)w(t-nτ)が形成され、上式でウィンドウは、w(t)=sin(π・t)/τと定義することができる。図2では、これらのウィンドウ表示された信号を、添え字[n]なしで示す。次いで、信号の成分は、
として各信号を分解するように定義される。次いで、分析期間にわたってその結果得られる出力信号
は、
として結合される。
3 プロトタイプの合成
上記で導入したように、プロトタイプ信号の合成の1つの手法は、成分ごとに、具体的には成分ごとに局所的に行われ、各ウィンドウ期間に対する各成分を別個に処理して、その局所成分に対する1つまたは複数のプロトタイプを形成する。
図2では、成分アップミキサ206が、1対の入力成分
および
を処理して、出力成分
を形成する。成分アップミキサ206は、成分ベースの局所プロトタイプ生成器208を含み、局所プロトタイプ生成器208は、これらの入力成分
および
から、プロトタイプ信号成分di(t)を(典型的には、ダウンサンプリングされた速度で)判定する。概して、プロトタイプ信号成分は、入力成分の非線形結合である。以下でさらに論じるように、次いで成分ベースの1次推定器210が、出力成分
を推定する。
局所プロトタイプ生成器208は、1次処理技法を単独で使用することでは普通なら不可能である広い範囲の変換を実行する可能性を提供する合成技法を使用することができる。たとえば、アップミキシング、室内音響の修正、および信号選択(たとえば、電話および補聴器向け)はすべて、このクラスの合成処理技法を使用して実現することができる。
いくつかの実施形態では、局所プロトタイプ信号は、入力信号空間内で観察される望ましい信号および望ましくない信号の特性に関する知識または想定に基づいて導出される。たとえば、局所プロトタイプ生成器は、所望の信号の特性を表示する入力を選択し、所望の特性を表示しない入力を阻止する。この文脈で、選択とは、何らかの事前定義された最大利得の例示的な単位で合格することを意味し、制限の点では、阻止とは、ゼロ利得で合格することを意味する。好ましい選択関数は、2進特性を有する(単位利得を有する領域は合格させ、ゼロ利得を有する領域は不合格にする)ことができ、または所望の特性を有する信号の合格と望ましくない特性を有する信号の不合格との間に緩やかな遷移を有することができる。選択関数は、1次的に修正された入力の1次結合、1つまたは複数の非線形にゲーティングされた入力、(任意の次数の)入力の乗算による結合、およびこれらの入力の他の非線形関数を含むことができる。
いくつかの実施形態では、合成プロトタイプ生成器208は、その出力で望ましい信号を事実上瞬時(すなわち、時間的に局所的)に「推量」したものを生成するが、一連のそのような推量がアーティファクトのない信号を直接合成するかどうかを必ずしも考慮しない。
いくつかの例では、参照により組み込まれている、出力信号の成分を演算するために使用される米国特許第7,630,500号に記載の手法を本手法で使用して、プロトタイプ信号の成分を演算し、次いでさらなる処理にかける。そのような例では、本手法は、成分の時間および/または周波数範囲などの特性において、参照した特許に記載の手法とは異なりうることに留意されたい。たとえば、本手法では、ウィンドウの「ホップ速度」はより速いことがあり、その結果、プロトタイプのより時間的に局所的な合成が行われ、いくつかの合成手法では、参照した特許に記載の手法が直接使用された場合、そのようなより速いホップ速度の結果、より多くのアーティファクトが生じることがある。
図4Aを参照すると、中心チャネルに対する1つの例示的な多入力局所プロトタイプdi(t)生成器408(図2に示す非線形プロトタイプ生成器208の一例)が、単一の時間値に対する複素平面内に示されている。各成分に対して独立して適用される式は、この特定の局所プロトタイプ
を定義する。上式では、見やすいように成分指数iは省略されている。この例は、米国特許第7,630,500号に等式(16)で示されている一例の特別な場合であることに留意されたい。ここではβ=√2/2である。
入力信号412、
および
は、ベースバンド表現であるため、複素信号であることに留意されたい。上式は、中心局所プロトタイプdi(t)が、2つの複素入力信号412の長さが等しい部分の平均であることを示す。言い換えれば、2つの入力412のうち、大きい方を実係数によってスケーリングして小さい方の長さに整合させ、次いで2つの平均をとる。この局所プロトタイプ信号は、2つの入力412が同相でレベルが等しいときにその出力が最大になり、信号間のレベルおよび位相差が増大するにつれて低減するような選択特性を有する。この出力は、左右の信号が「ハードパン」されて逆相である場合はゼロになる。その位相は、2つの入力信号の位相の平均である。したがって、ベクトルゲーティング関数は、ベクトルゲーティング係数の成分が実数値である場合でも、元の信号のいずれとも異なる位相を有する信号を生成することができる。
図5を参照すると、プロトタイプ生成モジュール508の別の例(図2に示すプロトタイプ生成器208の別の例である)は、ゲーティング関数524およびスケーラ526を含む。ゲーティング関数524モジュールは、入力信号512を受け入れ、入力信号512を使用してゲーティング係数giを判定する。ゲーティング係数giは、入力信号の1つのウィンドウ表示に対応する分析間隔中は一定に保たれる。ゲーティング関数モジュール524は、入力信号512に基づいて、0と1との間で切り換えることができる。別法として、ゲーティング関数モジュール524は平滑な傾斜を実施することができ、ゲーティングは、入力信号512および/または多くの分析ウィンドウにわたるその履歴に基づいて、0と1との間で調整される。入力信号512、たとえば、
およびゲーティング係数gの1つをスケーラ526に適用して、局所プロトタイプd(t)を得る。この動作は、システムの出力内に含まれる入力信号512の量を動的に調整する。gはs1の関数であるため、d(t)はs1の1次関数ではなく、したがってこの局所プロトタイプはs1の非線形の修正であり、s2に対する従属性を有する。ゲーティング係数は実数のみであるため、局所プロトタイプdはs1と同じ位相を有し、その大きさのみが修正される。ゲーティング係数は成分ごとに判定され、各帯域に対するゲーティング係数は分析ウィンドウごとに調整されることに留意されたい。
ゲーティング関数の1つの例示的な用途は、電話のヘッドセットからの入力を処理することである。ヘッドセットは2つのマイクロフォンを含むことができ、2つのマイクロフォンは、互いから隔置され、話者の声の主な音響伝搬方向に対して実質上共線形になるように構成される。これらのマイクロフォンは、プロトタイプ生成モジュール508に入力信号512を提供する。ゲーティング関数モジュール524は、たとえば2つのマイクロフォン間の位相差を観察することによって、入力信号512を分析する。観察された差に基づいて、ゲーティング関数524は、各周波数成分iに対するゲーティング係数giを生成する。たとえば、両方のマイクロフォンの位相が等しいとき、ゲーティング係数giを0にすることができ、これは、記録された音が話者の声ではなく、環境からの外部の音であることを示す。別法として、入力信号512間の位相がマイクロフォン間の音響伝搬遅延に対応するとき、ゲーティング係数を1にすることができる。
概して、様々なプロトタイプ合成手法は、入力信号のゲーティングとして公式化することができ、ゲーティングは0から1の範囲の係数に従って行われ、これをベクトル行列方式で、
と表すことができる。上式で、0≦g1、g2≦1である。
別の例では、ゲーティング関数は、参照により本明細書に組み込まれている「Hearing Assistance Apparatus」という名称の米国特許出願公開第2009/0262969号に記載のものと同様に、補聴デバイスでの使用向けに構成される。そのような構成では、ゲーティング関数は、ユーザが対面していない音源よりユーザが対面している音源に強調を提供するように構成される。
別の例では、ゲーティング関数は、音識別の適用分野での使用向けに構成され、参照により本明細書に組み込まれている「Sound Discrimination Method and Apparatus」という名称の米国特許出願公開第2008/0317260号で出力成分が判定される方法と同様に、プロトタイプが判定される。たとえば、参照した公報では入力と利得(40)(すなわち、ゲーティング項)の積である乗算器(42)の出力は、本手法ではプロトタイプとして適用される。
4 出力の推定
図1を再び参照すると、推定器110は、プロトタイプd(t)に最良整合する出力
を判定するように構成される。いくつかの実施形態では、推定器110は、最小2乗の点でd(t)に整合する1次推定器である。図2を再び参照すると、推定器110の少なくともいくつかの形態では、概して、成分の直交性のために各成分の誤差に相関関係がなく、したがって各成分を別個に推定できるため、この推定値は成分ごとに実行することができる。成分推定器210は、推定値
を、重み付き結合
として形成する。これらの重みwiは、最小2乗重み推定器216によって、入力信号s1(t)およびs2(t)の自己および相互パワースペクトルに基づいて最も低い誤差推定値を形成するように、各分析ウィンドウに対して選択される。
推定モジュールのいくつかの例で実施される演算は、所望の(複素)信号d(t)および(複素)入力信号x(t)を考慮することによって理解することができ、目標は、|d(t)-hx(t)|2が最小になるような実係数hを見出すことである。この誤差を最小にする係数は、
として表すことができる。上式で、指数*は複素共役を表し、E{ }は時間に対する平均または期待値を表す。数値的には、E(x2(t))が小さい場合、hの演算は不安定になる可能性があり、したがって数値的には、推定値は、小さい値を分母に加算することによって、
として調整されることに留意されたい。自己相関関係SXXおよび相互相関関係SDXは、時間間隔に対して推定される。
図2に示すウィンドウ表示された分析に適用されるとき(符号[n]を使用して第nのウィンドウを指す)、ウィンドウ表示された入力信号x[n](t)(すなわち、入力信号x(t)の第nのウィンドウ)、sk(t)の1つ、および対応するプロトタイプd[n](t)を考えると、そのウィンドウ内の自己および相互相関関係の局所推定値は、
および
として形成される。1つの成分をウィンドウごとに単一のサンプルにサブサンプリングできる場合、これらの期待値は、それぞれ単一の複素乗算と同程度に簡単なものとすることができることに留意されたい。
自己および相互相関係数のロバストな推定値を得るために、複数の時間ウィンドウに対する時間平均またはフィルタリングを使用することができる。たとえば、1つの形態のフィルタは、過去のウィンドウにわたって演算される減衰時間平均
である。たとえば、aが0.9に等しい場合、11.6msのウィンドウホップ時間は、約100msの平均時間定数に対応する。他の因果または予見、有限インパルス応答または無限インパルス応答、定常または適応フィルタを使用することもできる。次いでフィルタリング後に、係数εによる調整が適用される。
図6を参照すると、重みhを推定して単一の成分に基づいてプロトタイプを形成する場合の最小2乗重み推定モジュール216の一実施形態700が示されている。入力の成分は、図ではXとして識別され(たとえば、ウィンドウごとに単一のサンプルにダウンサンプリングされた成分si(t))、プロトタイプ成分は、図ではDとして識別される。図6は、ウィンドウ期間ごとに1度更新される離散時間フィルタリング手法を表す。具体的には、SDXは、上部経路に沿って、Xの複素共役750を演算し、Xの複素共役をDで乗算752し、次いで時間次元に沿ってその積を低域フィルタ754にかけることによって計算される。次いで、SDXの実数部分が抽出される。SXXは、下部経路に沿って、Xの大きさ760を2乗し、次いで時間次元に沿ってその結果を低域フィルタ762にかけることによって計算される。次いで、SXXに小さい値εを加算764して、ゼロによる除算を防止する。最後に、Re{SDX}をSXX+εで除算758することによって、hが計算される。
推定モジュールによって実施される演算は、2つの入力x(t)およびy(t)の結合として形成される所望の信号d(t)考慮することによってさらに理解することができ、目標は、|d(t)-hx(t)-gy(t)|2が最小になるような実係数hおよびgを見出すことである。これらの実係数を使用する必要はなく、複素係数による代替実施形態では、係数値に対する式は異なることに留意されたい(たとえば、複素係数の場合、Re()の演算はすべての項に関して省かれる)。実係数の場合、この誤差を最小にする係数は、
と表すことができる。
上記で導入したように、自己および相互相関関係の項はそれぞれ、演算前にウィンドウの範囲にわたってフィルタリングおよび調整される。
上記で示した2つのチャネルに対する行列の公式化は、任意の数の入力チャネルに対して容易に修正される。たとえば、m個のプロトタイプのベクトル
およびn個の入力信号のベクトル
の場合、重み係数Hのm×nの行列を演算し、ベクトル行列式
を使用して、実行列Hを
として演算することによって、推定値を形成することができる。上式で、
はn×mの行列であり、
はn×nの行列であり、
は複素共役の移項を示し、共分散項は、上記のように成分ごとに演算され、フィルタリングおよび調整される。
図3Aは、すべての入力チャネルsk(t)および1つまたは複数のプロトタイプd(t)に対する時間成分表現322のグラフ300である。表現300内の各タイル332は、1つのウィンドウ指数nおよび1つの成分指数iに関連する。図3Bは、単一のタイル332の詳細図である。具体的には、図3Bは、第1にそれぞれの入力信号312を時間ウィンドウ表示380することによって、タイル332が作られることを示す。次いで、各入力信号312の時間ウィンドウ表示部は、成分分解モジュール220によって処理される。各タイル332に対して、入力チャネル312の自己相関関係384および相互相関関係382ならびにそれぞれの入力およびそれぞれの出力の相互相関関係382の推定値が演算され、次いで、時間とともにフィルタリング386され、数値的な安定性を保存するように調整される。次いで、それぞれの重み係数
は、上記で示した形式の行列式に従って演算される。
上記の説明では、相関係数の平滑化が時間とともに実行されることに留意されたい。いくつかの例では、平滑化はまた、複数の成分(たとえば、周波数帯域)にわたって行われる。さらに、複数の成分にわたる平滑化の特性は等しくないことがあり、たとえば、低い周波数より高い周波数で周波数範囲はより大きくなる。
5 他の例
以下の例では、表記を簡単にするために、時間変数tに対する依存性は省略した。分析期間τの一部の選択では、成分を表すのに単一の値のみが必要とされ、したがってtに対する依存性の省略は、分析成分を表す単一の(複素)値に対応すると見なすことができることに留意されたい。また、概括的には、上記のいくつかの例と同様に、重み値は、実数ではなく、概して複素である。
5.1 多次元入力
第1の例として、上記の手法を要約するために、n個の入力x(すなわち、n列ベクトル)から、
を演算することによって、
を満たすn個の重みwのベクトル(すなわち、n列ベクトル)を推定することによって、スカラプロトタイプdを推定することができる。上式(n=2の場合)で、
w=[w1,w2]T
x=[x1,x2]T
および
である。したがって、dは、所望の信号(すなわち、所望のプロトタイプ)の局所時間周波数推定値であり、目標は、入力(すなわち、wTx)の局所的な重み付き結合が最小2乗誤差の点でdに最良適合するようなベクトルwを見出すことである。
その結果得られるdの最小2乗推定値
は、聴取者にとって知覚的に快いdに対する平滑作用を有する。所望のプロトタイプのこの推定値
(上式で、e項は残りの最小2乗推定誤差である)は、dの所望の特性を保持するが、d単独より知覚的に快いものになりうる。さらに、
は、単に平滑化したdより、dの所望の挙動を良好に保持することができる。
5.2 複数の入力オフセット
前の例では、低域フィルタ(すなわち、統計値の短時間の期待演算子および/または相互周波数平滑化)をwに対する閉形式解の相互および自己統計値に適用することによって、最小2乗解の短時間の実装形態が任意選択で実施される。前の例では、単一の所望のプロトタイプ信号を平滑化する最小2乗解の短時間の実装形態を使用するが、最小2乗の短時間の実装形態は、制約を加えることによって様々な他の問題(たとえば、動的フィルタ係数)に拡張および適用できることに留意されたい。具体的には、時間とともに変動する閉形式の最小2乗解の短時間の実装形態と見なすことができる。この時間とともに変動する閉形式の最小2乗解は、様々な他の状況にも適用することができる。
概して、上記の手法では、時間フレームnにおける周波数成分iに対するプロトタイプ推定値は、その同じ成分およびフレーム指数の入力信号に依存し、場合によっては、推定で使用される統計値の平滑化によって、他の成分および時間フレームにも間接的に依存することが想定される。より概括的には、時間フレームnにおけるプロトタイプdn(またはより正確には、時間フレームnにおける周波数成分iに対するプロトタイプdn,iであるが、iに対する依存性は、表記を簡単にするために省略した)は、k個の時間フレームn-k+1,…,nの範囲にわたって入力xn,…,xn-k+1に依存し、各入力xiは、推定されているプロトタイプのもの以外の周波数成分を含む値のベクトルとすることができる。
図8を参照すると、第2の例では、システム800が入力信号xnを受け取る。ここでnは、たとえば入力信号の第nのフレームである。この例では、プロトタイプ生成器802は、入力成分xnの複数の過去の入力または過去のプロトタイプ推定値yn-1…yn-kを利用して、時間nにおけるプロトタイプ信号成分dnを判定する。プロトタイプ生成器802の一例では、dnが、入力成分の過去の入力および過去の出力の重み付きの1次結合に何らかの推定誤差を加えた値であると想定し、したがってプロトタイプ推定値
は、次のように、IIRフィルタの形式を有する。
dn=b0xn+b1xn-1+…+bkxn-k
+a1yn-1+a2yn-2…+alyn-l+en
これはまた、
と表すこともでき、上式で、
および
z=[xn,xn-1,…,xn-k,yn-1,…yn-l]T
である。
プロトタイプ信号成分dnは、成分ベースの1次推定器804(たとえば、最小2乗推定器)へ渡され、1次推定器804は、次のように、最小2乗の点でプロトタイプ信号成分dnとwTzとの間の差を最小にするベクトルwを判定する。
上式で、
Rz=E{zzH}
である。
zは入力信号の(k+l+1)の列ベクトルであるため、Rzは(k+l+1)×(..k+l+1..)であり、したがって多くの入力信号の場合、Rzの反転は高くつく可能性があることに留意されたい。
成分ベースの1次推定器804の出力wは、1次結合モジュール806(たとえば、IIRフィルタ)へ渡され、1次結合モジュール806は、プロトタイプ生成器802と同様に、xnの過去の入力値および過去の出力値の結合として、推定値
を形成する。しかし、1次結合モジュール806は、b0,b1,…,bkおよびa1,a2,…,al値の代わりに、wベクトル内に含まれる値を使用する(すなわち、b0
に置き換え、b1
に置き換え、以下同様である)。1次結合モジュール806の出力
は、dnの最も低い誤差推定値である。
5.3 制約付きのプロトタイプ推定値
いくつかの例では、各プロトタイプに使用される重みが、たとえば各プロトタイプに対して同じになるように制約されるが、異なる入力信号に適用されるように、複数の入力信号から複数のプロトタイプ信号を推定することが望ましい。1つの可能な例として、各プロトタイプが特定の信号成分の異なる時間フレーム(すなわち、遅延)である場合、異なる遅れの入力成分のフィルタリングが時間とともに変動しないことが望ましいであろう。別の例は、以下の第5.7節に提示する。
概して、dを、所望の信号のN×1ベクトルd=[d0,d1,…,dN-1]Tとし、w=[w0,w1,…,wP-1]Tを、入力信号のN個の別個のPx1ベクトルを1次結合するために使用される係数のPx1ベクトルとする。wを使用して結合されたこれらの入力信号では、所望の各プロトタイプ信号に対してdが異なることがある。具体的には、別個のPx1入力ベクトルxi(i=0,1,…,N-1)では、
d0=wTx0+e0
d1=wTx1+e1
dN-1=wTxN-1+eN-1
が所望の各信号または信号ベクトルに対応するものとする。
次いで、N×Pの入力行列Zを、
として形成することができる。
次いで(di=wTxi+e0=xi Tw+e0に留意されたい)、等式のシステムは、
d=Zw+e
と書きなおすことができ、上式でwは、重み係数のベクトル
w=[w0,w1,…,wP-1]T
である。
それぞれのプロトタイプ信号成分dおよびZw間の差を最小2乗の点で同時に最小にする閉形式解は、次の通りである。
5.4 重み付きの最小2乗
上記の例では、各入力値は、eiの2乗の和を事実上最小にすることによって、プロトタイプ推定値の判定において同じ重要性を有すると事実上考えられる。しかし、いくつかの例では、いくつかの入力が他の入力よりも多く重きをなす、または少なく重きをなすことが許容されることは有用であろう。これは、重み付きの最小2乗解を使用して実現することができる。
重み付きの最小2乗解は、各入力xiに対する重みgiのN×Nの対角行列としてGを定義する。
G=diag(g1,g2,…,gN)
上記の最小2乗解内にこの行列を含むことで、より高い重み付きの入力制約による誤差は、より低い重み付きの入力制約による誤差より高くつく。これにより、最小2乗解は、より大きい重みを有する制約の方へ偏る。いくつかの例では、制約の重みは時間および/または周波数とともに変動し、システム内の他の情報によって駆動することができる。他の例では、所与の周波数帯域内で、1つの制約が別の制約に優先する状況が生じる可能性があり、また逆も同様である。
重みWの行列を含む最小2乗解は、
w=E{ZHGZ}-1E{ZHGd}
と表すことができる。
5.5 例1:単一の局所的な所望のプロトタイプによる多重チャネル入力
この例では、目標は、時間nnにおける所望の信号dnの最良の推定値
である時間指数n、x1,n、およびx2,nにおける2つの入力チャネル信号の1次結合を見出すことである。したがって、
d=dn
Z=[x1n,x2n]、および
である。
この結果は、第5.1節に提示した例に対応する。
5.6 例2:単一の局所的な所望のプロトタイプによる単一チャネルの適応FIR解
この例は、2つの異なるチャネルを入力として使用するのではなく、単一のチャネルの2つの異なる時間セグメントが入力として使用されるという点で、例1とは異なる。目標は、現在の時間nにおける所望の信号dnの最良の推定値
である現在(時間n)の入力信号xnと以前(時間n-1)の入力信号xn-1の1次結合を見出すことである。したがって、
d=dn
Z=[xn,xn-1]、および
である。
したがって、例1および2は、両方のチャネルおよび/または時間にわたって複数の入力をとることによって、局所的な所望の信号dnの解を求めることが可能であることを示す。しかし、次元Pは2より大きくなり、P×P行列ZHZの反転は高くつく可能性がある。PxP行列反転の寸法を増大させることなく、追加の所望の信号(追加の入力制約、すなわち次元Nに対応する)を使用できることに留意されたい。
5.7 例3:制約付きのプロトタイプ推定値による多重チャネル入力
いくつかの例では、最小2乗平滑化がマイクロフォンアレイに適用される。アレイ内のマイクロフォンからの生の信号は、特有の時点および周波数で所望のソース信号成分を推定するために使用される。目標は、特有の時点および周波数で瞬時の所望の信号に最良近似するマイクロフォン信号の1次結合を判定することである。そのような適用分野は、上記の例1に記載の適用分野の拡張と考えることができる。
以下でより詳細に記載するように、最小2乗解は、所望の信号に所望の平滑挙動を提供することができるだけではなく、解かれた係数が複素値であるときに、消去を提供する係数を生じさせることもできる。
図9を参照すると、理論上または既知のソース位置にあるソース1002は、この例では2つのマイクロフォンM1およびM2を含むマイクロフォンアレイ1006の各マイクロフォン1004へ空気を通って伝搬するソース信号(たとえば、音声信号)を生じさせる。ソース信号は、ソース1002から各マイクロフォン1004へ伝搬するとき、1次伝達関数Hdpを通過することが想定される。ここでpは、マイクロフォンアレイ1006内の第pのマイクロフォン1004である。以下の議論では、特定の信号成分(たとえば、周波数帯域)の伝達関数をhdpと呼ぶ。
マイクロフォンアレイ1006に対する所望のソース1002の位置の幾何形状が既知である場合、理論上のソース位置1002とマイクロフォンアレイ1006内の2つのマイクロフォンとの間の1組の伝達関数は、
hd=[hd1,hd2]T
と表すことができる。
そのような状況の一例は、耳に取り付けるタイプのマイクロフォンアレイの場合であり、口の位置は、マイクロフォンに対して(少なくとも概ね)知られており、したがって伝達関数は所定のものとすることができ、または使用中に推定することができる。
以下ではさらに論じないが、伝達関数Hdpが知られているマイクロフォン信号のアレイを処理する1つの手法は、第1に、ソース信号sを推定し、次いで、この信号を上記のプロトタイプ推定手順に適用することである。
別の好ましい手法は、入力信号の重み付けが、概念上のソース位置からの既知の伝達関数にほぼ(必ずしもそうとは限らないが)整合するように、別個の入力信号からプロトタイプ推定値を形成することである。このようにして、概念上のソース位置から到達する信号は概して、修正なしで渡される。
これを実現する1つの方法は、単位プロトタイプd=[dn,1]Tでプロトタイプdnを増加させることである。単位プロトタイプは、次のように、より一般的に知られている最小分散無歪み応答(MVDR)の解を得る際に使用される無歪み応答制約から導出される。
重み付き入力信号がソースからの既知の伝達関数にほぼ整合するような重みベクトルを判定するために、上記の等式内のdは、次にようにsに置き換えられる。
その結果、単位プロトタイプは次の通りとなる。
概括的な最小2乗解においては、次いでプロトタイプおよび入力行列は、
と表すことができる。
上記の解は、時間とともに変動しない制約を時間とともに変動する解に結合することに留意されたい。したがって、追加の制約を使用することで、dnを単独で推定することに基づくwに対する瞬時の解が、概念上のソース位置に由来するあらゆるソース信号を実質上損なうのを制約するのに役立つことができる。しかしこれは、MVDR解の(標的ソース方向のあらゆる歪みを厳密に禁止する)場合のように絶対的な制約ではないことに留意されたい。
上記のように、いくつかの例では、推定される信号に対して、他のプロトタイプより大きいまたは小さい作用を有するために、プロトタイプdのベクトル内に特定のプロトタイプを有することが望ましい。これは、wに対する解内に重みベクトルGを含むことによって実現することができる。したがって、図9に示す例に対する重み付きの解は、
であり、2x2の行列反転のみを必要とする。
図10を参照すると、上記の例は、瞬時の係数wがマイクロフォンアレイ1106に対して特定の方向にヌルを生じさせるような追加の制約を含むように拡張することができる。たとえば、この方向は、概念上または既知の雑音位置における雑音(または他の望ましくない)ソースN 1108と、マイクロフォンアレイ1106内のP個のマイクロフォン1104との間の伝達関数Hnpとして表すことができる(ここでpは、第pのマイクロフォンである)。以下の議論では、信号成分(たとえば、周波数帯域)の伝達関数をhnpと呼ぶ。図10の例では、所望のプロトタイプベクトルおよび入力行列(2つのマイクロフォン要素の場合)は、次のように表すことができる。
d=[dn,1,0]T
および
この例に対する重み付きの解は、ソース信号を保存しながら、概ね雑音源の方向にヌル(すなわち、減衰)になる傾向を生じさせる。
上記の2つの例はそれぞれ、2つのマイクロフォンの使用を伴うが、マイクロフォンの数は、2より大きい何らかの他の数Pとすることができる。この概略的な場合、これらの入力は、
xn=hdsn
と表すことができ、上式で
hd=[hd0,hd1,…,hdP-1]
である。
さらに、上記の例では、ヌル化およびビーム形成に当てはまるプロトタイプについて説明したが、他の任意のプロトタイプを使用することもできることに留意されたい。
5.8 例4a:プロトタイプ入力による複数の所望のプロトタイプ
別の例では、2要素のマイクロフォンアレイが、生の入力信号x1およびx2を生じさせる。これらの生の入力信号の差を観察することによって、各マイクロフォンにおける所望の信号成分の瞬時の推定値d1およびd2を得ることができる。所望の信号のこれらの局所的な推定値を使用して、次のように、各マイクロフォン信号からの雑音信号の局所的な推定値を得ることができる。
n1=x1-d1
n2=x2-d2
上記の例の1つでは、マイクロフォンアレイへの最小2乗平滑化の適用を使用して、所望の信号の推定値を得た。上記の例の目標は、所望の信号の推定値に最良近似するマイクロフォン入力の1次結合を判定することであった。この例では、追加の目標は、所与の時間周波数点で、雑音信号の局所的な推定値を最良に消去するはずの入力信号の1次結合になるものを判定しながら、それでもなお標的信号の保存を試みることである。概略的な最小2乗解を使用すると、この問題は、
と表すことができる。
ここで、Zの上段は、この場合も所望のソースからアレイへの伝達関数であり、その方向における所望のアレイ応答は1であるが、瞬時の雑音推定値に対する所望の応答は、何らかの小さい信号aである。
5.9 例4b:元の所望のプロトタイプを再び追加する
別の例では、例4aは、元の入力制約を含むように拡張される。したがって、入力行列および所望のベクトルは、
と表される。
wに対する解が各周波数成分に対して演算されることから、制約の重みは、時間および周波数の関数として変動する可能性がある(W=W(t,f))。いくつかの例では、いくつの時点における特有の周波数範囲内のいくつの制約により大きい重みを与えると有利である。
含まれている制約の数が増大するにつれて、重み付きの制約付き最小2乗平滑化構造の全体的な公式化は概して、狭い時間および周波数分解能で複数の所望の挙動を組み込むための実装方策と見なすことができることに留意されたい。さらに、いくつかの例では、自由度の制限または要件の競合のため、すべての所望の挙動を同時に得るのは不可能であることもある。しかし、この公式化により、個々の制約を所望の方法で平滑化しながら、所望の挙動を動的に強調する(制約間を平滑に切り換え、または混合する)ことができる。
5.10 例4c:動的な重みによる固定の所望のプロトタイプ
別の例では、無歪み応答と雑音消去の両方が望ましい。入力行列および所望のプロトタイプベクトルは、
と表される。上式で、a=0または何らかの小さい信号/値である。この例では、各制約の強調は、時間および/または周波数とともに変動する値に依存する。たとえば、重み行列は、
と定義することができる。
上式で、St,fは、推定された標的信号が存在する(または大きい)ときには無歪み応答制約を強調し、推定された標的信号が存在しない(または小さい)ときには無歪み応答制約にあまり焦点を当てないように機能することができる。St,fの一例は、標的信号エネルギーの瞬時の推定値である
である。重み行列内に
を配置することは、標的信号のエネルギーが高いときに無歪み応答(DR)制約を強調する作用を有する。したがって、標的信号がないとき、解は、雑音消去制約を満たすことにより焦点を当てる。
は、時間または周波数とともに変動しうる雑音消去制約に対する任意の重み関数である。上記に示す制約の動的な重み付けは一例にすぎず、概括的には、任意の関数(たとえば、マイクロフォン間の干渉性)を動的な重み付けに使用することができることに留意されたい。
5.11 例5:高速最小出力混合器
一例では、2つの入力信号UおよびSが利用可能である(すべての前述の例のように、多重チャネル時間または周波数領域信号とすることができる)。この例では、UとSはどちらも、同じ所望の信号を含むが、異なる雑音信号(即ち
および
)を含む。所望の信号と両方の雑音信号のいずれも、時間とともに変動し、非定常的であるため、両方に存在する望ましい信号成分を保存しながら、最も小さい起こりうる雑音寄与を含むUとSの局所的な時間周波数結合(即ち
)を見出すことが有用であろう。
この例では、所望のプロトタイプ、入力、および重みは、
と表すことができ、最小2乗解は、
と表すことができる。第1の制約は、UとSの結合を最小にする働きをする(または2つの結合を強制的に0に等しくする)。第2の制約は、UとSの両方で標的信号が同じであり、したがってこの制約下で保存されるため、重み間の「混合」関係(即ち
)の実施を試みる。Gは、この場合も、制約のいずれかに多少の重みを加えることができる対角重み行列である。いくつかの例では、G行列内の値は、個々の制約間の競合のため、注意深い設定を必要とする。
5.12 例5b
別の例では、例5aに記載の重みは、システムによって出力信号Y=αkU+(1-αk)Sが生じるという混合器の関係を有するように厳密に実施される。混合係数αkは、次のように動的に判定することができる。
この例では、費用関数はくずれ、αに対する導関数を演算できるスカラ誤差関数になる。しかし、上記の例のように、最小2乗平滑化の場合と同様に、αkの高速の局所的な推定値を得るには、短時間の期待値演算(すなわち、E{ })を得るために低域フィルタが使用される。
5.13 実験結果:低SNR条件におけるマイクロフォンアレイ処理
時間周波数マスキングまたはゲーティング方式は、特定の条件下のMVDR解などのよりよく知られているLTI方法より性能が優れている可能性を有する。しかし、標的信号が支配的なソースであることはほとんどない非常に低いSNR条件では、時間周波数マスキング方式は、所望の信号を抑制しすぎる傾向があり、信号対雑音比ならびに静的空間フィルタ(すなわち、MVDR)を必ずしも改善しないことがある。所与の雑音環境では、最適のLTI解の結果、環境の信号対干渉比とは無関係に、信号対雑音の一定の改善が得られる。図11は、MVDR設計の測定された平均SNR利得および保存信号比(PSR)と、複素最小2乗平滑化を使用する現在の時間周波数マスキング方式とを比較する。図11の下半分の負のPSRは、アレイ処理の結果、どれだけの標的信号が失われたか(dB単位)を平均で表す。この特定のシナリオは、-6dBの全体的なrms SNRに混合される反響した混信内の標的音声信号を含む。この実験に対する平均的な標的および雑音信号パワースペクトルを図12に示す。局所SNRがほぼ0dBになる1.5kHzを上回ると、時間周波数マスキング方式は、最小の標的信号損失を有するが、静的MVDR設計と比較すると、それでもなお数dBのSNR利得を有することに留意されたい。標的が平均で大きなエネルギーを有するが、SNRは乏しい(約-6dB)400〜600Hzの範囲では、時間周波数マスキング方式は、最高8dBのSNR利得を提供するが、より多くの標的信号損失という犠牲を払っている。局所SNRが非常に乏しい150Hzを下回ると、MVDR解は、時間周波数マスカと比較すると、雑音の除去に関してより良好に機能する。
例4bのように、重み付き最小2乗解に追加の制約を適用することによって、それぞれ最も適当な周波数範囲内でも、異なる性能特性の兼ね合いをとることが可能である。さらに、元の最小2乗平滑化手法の音声品質の利益の大部分を保存しながら、この柔軟性を追加することができる。以下の例では、制約付きの最小2乗手法を使用して、MVDRと時間周波数マスキング方法の両方の強みのいくつかを結合する単一の解を得た。所望のベクトルおよび使用した入力行列は、次の通りである。
上式で、aは、何らかの小さい値または信号である。第1の制約は、方向hdの解に対する無歪み応答の方へ引っ張る。第2の制約は、これらの解を入力の抑制および消去の方へ動かす。最後の制約は、時間周波数マスキングを介して得られる所望の信号推定値を実現するように入力の1次結合を動かす元の制約である。この例では、低周波数では無歪み応答および入力消去制約が支配的になるが、より高い周波数では時間周波数マスキングの望ましい制約が支配的になるように、重み関数が適用された。この実験からのSNR利得およびPSRは、以下の図13で示す。
時間周波数マスカのSNR利得の利益の大部分を保存しながら、200Hzを下回るSNR利得も、MVDR解のものに等しくなるように改善することに注意されたい。この場合、制約付き最小2乗手法のPSRは、わずかに改善されるだけであるが、少なくとも、時間周波数マスカを単独で使用する場合より悪くはならない。図14は、いくつかの周波数で無歪み応答制約にさらなる強調が与えられるときに1組の異なる重み関数を使用した結果を実証する。SNR利得の大部分は、MVDR解の場合と同じ、またはそれより良好であるが、PSRは前の例より改善される。
図15は、最初の2つの制約(すなわち、単位応答および消去)のみが使用されるときの挙動を実証し、単位応答制約は、重み付け行列を介して支配的になるように構成される。この性能は、静的MVDR解に明らかに接近している。したがって、最小2乗平滑化の解の中にこれらの追加の重み付きの制約を含むことで、複数の利益を提供することができる。これは引き続き、元の最小2乗手法の所望の平滑挙動を提供する。さらに、時間周波数マスキングを使用するマイクロフォンアレイの適用分野では、アレイプロセッサは、より最適な解を生じさせるように(重み関数を介して)異なる所望の挙動の兼ね合いをとることができる。さらに、複数の制約を追加しても、最小2乗解内の行列反転の寸法は増大しないため、追加の処理要件はそれほど多くはならない。
6 成分の復元
成分分解モジュール220(たとえば、DFTフィルタバンク)は線形位相を有するため、単一チャネルのアップミキシング出力は同じ位相を有し、位相相互作用なしで再結合して様々な信号分離度をもたらすことができる。
成分の復元は、成分復元モジュール230内で実施される。成分復元モジュール230は、成分分解モジュール220の逆演算を実行し、複数の成分222から空間的に分離された時間信号をもたらす。
7 例
第3節では、入力信号s1(t)およびs2(t)がそれぞれ左信号l(t)および右信号r(t)に対応し、プロトタイプd(t)は中心チャネルc(t)に適している。一例では、類似の手法を適用して、「左専用」信号l0(t)および「右専用」信号r0(t)に対するプロトタイプ信号を判定することができる。図4Bを参照すると、「サイド専用」チャネルに対する例示的な局所プロトタイプが示されている。他の例では、単一のチャネルから局所プロトタイプを導出することができ、他の例では、2つまたは3つ以上のチャネルから導出することができることに留意されたい。
以下の式は、1つの形式のそのような例示的なプロトタイプを定義する:
および
上式では見やすいように、成分指数iは省略した。それぞれの入力信号412の一部を結合して、中心プロトタイプを得る。局所的な「サイド専用」プロトタイプは、中心チャネルに寄与した後の各入力信号412の残りである。たとえば、l0(t)を参照すると、l(t)がr(t)より小さい場合、プロトタイプはゼロに等しい。l(t)がr(t)より大きいとき、プロトタイプの長さは入力信号412の長さの差であり、方向は入力l(t)と同じである。
図4Cを参照すると、「サラウンド」チャネルに対する例示的な局所プロトタイプが示されている。「サラウンド」プロトタイプは、差(逆位相)情報に基づくアップミキシングに使用することができる。以下の式は、「サラウンド」チャネル局所プロトタイプを定義する。
上式では見やすいように、成分指数iは省略した。この局所プロトタイプは、中心チャネル局所プロトタイプと対称である。この局所プロトタイプは、入力信号412のレベルが等しく、位相が外れているときに極大になり、レベル差が増大したとき、または位相差が低減したときに低減する。
たとえば上記のようなプロトタイプ信号を考えると、それらのプロトタイプ信号を推定する手法の例は、推定値を形成するために結合される入力の点で異なることがある。たとえば、図7に示すように、ここでは中心チャネルプロトタイプとしてc(t)と呼ぶプロトタイプd(t)は、2つの推定値
および
をもたらし、これらの推定値はそれぞれ、単一の入力の重みとして、それぞれ
および
として形成され、中心プロトタイプのうち、それぞれ左入力チャネルおよび右入力チャネル内に含まれる部分を表す。上記の共分散および相互共分散の推定値の定義を使用して、これらの係数は次のように判定される。
および
サラウンドチャネルs(t)の定義の場合、2つの推定値を
および
として同様に形成することができ、上式で、負号はサラウンドプロトタイプの位相の非対称性に関し、これらの係数は、
および
として判定される。
この例では、上記で定義した4つのアップミキシングされたチャネル
および
が存在する。2つの追加のチャネルは、元の2つの入力チャネルから導出される6つの出力チャネルの合計に対して、単一チャネルの中心およびサラウンド成分
および
を除去した後、残りの左信号および右信号として計算される。
別の例では、アップミキシング出力は、左入力と右入力の両方を各アップミキサ出力に混合することによって生成される。この場合、最小2乗を使用して、各アップミキサ出力に対する2つの係数、左入力係数および右入力係数の解を得る。この出力は、対応する係数による各入力のスケーリングおよび加算によって生成される。
この例では、中心およびサラウンドチャネルがそれぞれ
および
として近似された場合、これらの係数は、
として演算することができ、上式で、
および
である。
次いで、上記で導入したように、入力信号から中心およびサラウンド信号の成分を除去することによって、左専用および右専用信号が演算される。他の例では、左専用および右専用チャネルは、他の抽出された信号を減算した後に残りとして演算するのではなく、直接抽出することもできることに留意されたい。
8 代替手段
たとえば中心チャネルに対する局所プロトタイプ合成の複数の例を上記に提示した。しかし、様々な発見的方法、物理的ゲーティング方式、および信号選択アルゴリズムを用いて局所プロトタイプを作ることができる。
たとえば図1および図2に示すプロトタイプ信号d(t)は、必ずしも明示的に計算しなければならないわけではないことを理解されたい。いくつかの例では、プロトタイプ信号の自己および相互パワースペクトルまたは他の特性化を演算するための式を判定し、次いでこれらの式を使用して、信号d(t)209を実際に形成することなく、推定器210内で使用される重みwk217を判定しながら、それでもなおプロトタイプの明示的な演算を通じて得られたはずのものと同じまたは実質上同じ結果をもたらす。同様に、他の形態の推定器も、推定された信号を形成するために、必ずしも重み付き入力信号を使用するわけではない。いくつかの推定器は、明示的に形成されたプロトタイプ信号を必ずしも使用するわけではなく、推定器の出力が推定器によって使用される特定の基準値(たとえば、最小2乗誤差基準値)に従った推定値になるように、標的信号のプロトタイプを特性化する信号またはデータを使用する(たとえば、プロトタイプの自己または相互相関関係推定値、積率など、統計学的特性を表す値を使用する)。
いくつかの例では、推定手法は、部分空間の投影と理解することができることも理解されたい。部分空間は、出力に対する基礎として使用される1組の入力信号によって定義される。いくつかの例では、プロトタイプ自体が入力信号の1次関数であるが、推定位相で使用されるものとは異なる入力信号の部分集合によって定義される異なる部分空間に制限することができる。
いくつかの例では、プロトタイプ信号は、推定で使用されるものとは異なる表現を使用して判定される。たとえば、プロトタイプは、推定位相で使用される成分分解と同じではない異なる成分分解を使用して、または成分分解を使用しないで判定することができる。
「局所」プロトタイプは、単一の成分(たとえば、周波数帯域)および単一の期間(たとえば、入力分析の単一のウィンドウ)内の入力信号から演算されたプロトタイプに必ずしも厳密に制限されるわけではないことも理解されたい。たとえば、隣接する成分(たとえば、時間および/または周波数が知覚的に近い成分)の使用を制限しながら、それでもなお推定処理の局所性よりプロトタイプ合成の局所性を比較的多く提供することができる。
時間データのウィンドウ表示によって導入される平滑化は、マスキングベースの時間周波数平滑化または非線形の時間とともに変動しない(LTI)平滑化にさらに拡張することができる。
係数推定規則は、一定のパワー制約を実施するために修正することができる。たとえば、残りの「サイド専用」信号を演算するのではなく、出力チャネルの合計にわたって全体的な左信号および右信号が維持されるように全体的なパワー制約を守りながら、複数のプロトタイプを同時に推定することができる。
1対のステレオ入力信号LおよびRを考えると、入力空間を回転させることができる。そのような回転は、より明確な左専用および右専用の空間分解を生じさせることができる。たとえば、入力信号(45度回転させた入力空間)として、左+右および左-右を使用することができる。より概括的には、入力信号は、プロトタイプ合成および/または出力推定の前に、変換、たとえば1次変換にかけることができる。
9 適用分野
本明細書に記載の方法は、少ない待ち時間および少ないアーティファクトで入力信号を空間的に分離する必要のある様々な適用分野で適用することができる。
この方法は、ホームシアターサラウンド音響システムまたは自動車サラウンド音響システムなどのステレオシステムに適用することができる。たとえば、コンパクトディスク再生装置からの2チャネルのステレオ信号を、自動車内で複数のチャネルに空間的に分離することができる。
記載の方法はまた、電話のヘッドセットなどの電気通信の適用分野で使用することができる。たとえば、この方法は、無線ヘッドセットのマイクロフォン入力から望ましくない周囲の音をゼロにするために使用することができる。
10 実装形態
上記の手法の例は、ソフトウェア、ハードウェア、またはハードウェアとソフトウェアの組合せで実施することができる。ソフトウェアは、コンピュータのプロセッサ(たとえば、汎用プロセッサ、デジタル信号プロセッサなど)に上記のステップを実行させるための命令を保持するコンピュータ可読媒体(たとえば、ディスクまたは固体メモリ)を含むことができる。いくつかの例では、これらの手法は、1つまたは複数のタイプのシステム(たとえば、家庭用オーディオ、ヘッドセットなど)内へ組み込むのに適した(たとえば、構成可能な)音響プロセッサデバイス内で実施される。
上記の説明は例示であり、添付の特許請求の範囲の範囲によって定義される本発明の範囲を限定するものではないことを理解されたい。他の実施形態は、以下の特許請求の範囲の範囲内である。
100 アップミキシングシステム
102 生成モデル
104 アップミックスモジュール
108 プロトタイプ生成器
109 プロトタイプ信号d(t)
110 1次推定器、推定器
112 入力信号s1(t),…,sN(t)
114 雑音成分
206 成分アップミキサ
208 成分ベースの局所プロトタイプ生成器、局所プロトタイプ生成器、合成プロトタイプ生成器、非線形プロトタイプ生成器、プロトタイプ生成器
209 信号d(t)
210 成分ベースの1次推定器、成分推定器、推定器
212 成分
216 最小2乗重み推定器、最小2乗重み推定モジュール
220 成分分解モジュール

Claims (22)

  1. 成分分析器により、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するステップと、
    プロトタイプ生成器により、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定するステップであって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、ステップと、
    1つまたは複数の処理デバイスによって実行される推定器により、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成するステップと
    を含み、
    前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップは、前記1つのプロトタイプ信号の最小誤差推定値を判定するステップを含む、方法。
  2. 前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップが、
    複数のプロトタイプ成分のそれぞれに対して、前記入力信号成分の複数の結合に基づいて推定値を形成するステップを含み、
    前記入力信号成分の複数の前記結合は、推定対象のプロトタイプ成分とは異なる時点または異なる周波数における少なくともいくつかの入力信号成分を含む、請求項1に記載の方法。
  3. 前記入力信号の前記結合が、前記一連の時点のそれぞれに対応する時点における1つまたは複数の入力信号を含む、請求項2に記載の方法。
  4. 前記入力信号成分の複数の結合に基づいて推定値を形成する前記ステップが、前記出力信号が形成された前記一連の時点のそれぞれに先行する複数の時点における1つまたは複数の入力信号成分の結合を生成するステップを含む、請求項2に記載の方法。
  5. 前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップが、前記出力信号を形成する際に1つまたは複数の制約を適用するステップを含む、請求項1に記載の方法。
  6. 記入力信号をマイクロフォンアレイから受け入れるステップをさらに含む、請求項1に記載の方法。
  7. 前記入力信号間の差に従って前記1つまたは複数のプロトタイプ信号を形成するステップをさらに含み、
    前記入力信号間の差に従って前記1つまたは複数のプロトタイプ信号を形成する前記ステップ
    利得および/または位相差に従ってゲーティング値を判定するステップと、
    前記ゲーティング値を前記入力信号に適用して、前記1つのプロトタイプ信号を判定するステップと
    を含む、請求項6に記載の方法。
  8. 前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップが、前記マイクロフォンアレイからの前記入力信号内の所望の信号への応答の特性を示す情報および/または望ましくない信号への応答の特性を示す情報の少なくとも1つに従って、前記1つのプロトタイプ信号の前記推定値を形成するステップを含む、請求項6に記載の方法。
  9. 前記所望の信号への前記応答の前記特性を示す情報または前記望ましくない信号への前記応答の前記特性を示す情報が、対応する信号に対する伝達関数特性を含む、請求項8に記載の方法。
  10. 前記1つまたは複数のプロトタイプ信号の特を示す情報を判定する前記ステップが、前記1つまたは複数のプロトタイプ信号を判定するステップを含む、請求項1に記載の方法。
  11. 前記1つまたは複数のプロトタイプ信号の特を示す情報を判定する前記ステップが、前記1つまたは複数のプロトタイプ信号の統計学的特性を判定するステップを含む、請求項1に記載の方法。
  12. 前記1つまたは複数のプロトタイプ信号の特を示す情報を判定する前記ステップが、前記入力信号の時間局所分析に基づいて前記情報判定するステップを含む、請求項1に記載の方法。
  13. 前記1つまたは複数のプロトタイプ信号の特性を示す情報を判定する前記ステップが、前記入力信号の1つまたは複数のゲーティングを行うステップを含む、請求項1に記載の方法。
  14. 小誤差推定値を形成する前記ステップが、最小2乗誤差推定値を判定するステップを含む、請求項1に記載の方法。
  15. 成分分析器により、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するステップと、
    プロトタイプ生成器により、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定するステップであって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、ステップと、
    1つまたは複数の処理デバイスによって実行される推定器により、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成するステップと
    を含み、
    前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップ
    前記1つのプロトタイプ信号および対応する入力信号に関する統計値の推定値を演算するステップと、
    前記対応する入力信号のそれぞれに適用される重み係数を判定するステップと
    を含む、方法。
  16. 前記統計値が、
    前記1つのプロトタイプ信号と前記対応する入力信号との間の相互パワー統計値と、
    前記対応する入力信号の自己パワー統計値
    を含む、請求項15に記載の方法。
  17. 入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
    前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
    前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器と
    を備え
    前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記出力信号は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記プロトタイプ信号の推定値として前記出力信号を形成することは、前記プロトタイプ信号の最小誤差推定値を判定することを含む、システム。
  18. 命令を格納したコンピュータ読み取り可能な記録媒体であって、
    前記命令は、データ処理システムに、
    成分分析器を使用して、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解する手順と、
    プロトタイプ生成器を使用して、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定する手順であって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、手順と、
    推定器を使用して、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成する手順
    実行させ、
    前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記1つのプロトタイプ信号の推定値として出力信号を形成する前記手順は、前記1つのプロトタイプ信号の最小誤差推定値を判定する手順を含む、コンピュータ読み取り可能な記録媒体
  19. 応するマイクロフォンから入力信号を受け取る入力と、
    前記入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
    前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
    前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器であって、前記出力信号の形成が、所望の位置からの信号に対する前記マイクロフォンの応答のパターンに従って実行される、推定器と
    を備え
    前記プロトタイプ信号の前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記プロトタイプ信号の推定値として前記出力信号を形成することは、前記プロトタイプ信号の最小誤差推定値を判定することを含む、音声取得システム。
  20. 入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
    前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
    前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器と
    を備え、
    前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記出力信号は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記プロトタイプ信号の推定値として前記出力信号を形成することは、
    前記プロトタイプ信号および対応する入力信号に関する統計値の推定値を演算することと、
    前記対応する入力信号のそれぞれに適用される重み係数を判定することと
    を含む、システム。
  21. 命令を格納したコンピュータ読み取り可能な記録媒体であって、
    前記命令は、データ処理システムに、
    成分分析器を使用して、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解する手順と、
    プロトタイプ生成器を使用して、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定する手順であって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、手順と、
    推定器を使用して、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成する手順と
    を実行させ、
    前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記1つのプロトタイプ信号の推定値として出力信号を形成する前記手順は、
    前記1つのプロトタイプ信号および対応する入力信号に関する統計値の推定値を演算する手順と、
    前記対応する入力信号のそれぞれに適用される重み係数を判定する手順と
    を含む、コンピュータ読み取り可能な記録媒体。
  22. 対応するマイクロフォンから入力信号を受け取る入力と、
    前記入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
    前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
    前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器であって、前記出力信号の形成が、所望の位置からの信号に対する前記マイクロフォンの応答のパターンに従って実行される、推定器と
    を備え、
    前記プロトタイプ信号の前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
    前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
    前記プロトタイプ信号の推定値として前記出力信号を形成することは、
    前記プロトタイプ信号および対応する入力信号に関する統計値の推定値を演算することと、
    前記対応する入力信号のそれぞれに適用される重み係数を判定することと
    を含む、音声取得システム。
JP2013535119A 2010-10-21 2011-10-21 合成音声プロトタイプの推定 Expired - Fee Related JP5801405B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/909,569 US8675881B2 (en) 2010-10-21 2010-10-21 Estimation of synthetic audio prototypes
US12/909,569 2010-10-21
PCT/US2011/057291 WO2012054836A1 (en) 2010-10-21 2011-10-21 Estimation of synthetic audio prototypes

Publications (2)

Publication Number Publication Date
JP2013543988A JP2013543988A (ja) 2013-12-09
JP5801405B2 true JP5801405B2 (ja) 2015-10-28

Family

ID=44898234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013535119A Expired - Fee Related JP5801405B2 (ja) 2010-10-21 2011-10-21 合成音声プロトタイプの推定

Country Status (5)

Country Link
US (1) US8675881B2 (ja)
EP (2) EP3057343A1 (ja)
JP (1) JP5801405B2 (ja)
CN (1) CN103181200B (ja)
WO (1) WO2012054836A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472041B2 (en) * 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
WO2021070278A1 (ja) 2019-10-09 2021-04-15 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2657173B1 (fr) 1990-01-16 1992-04-10 Thomson Csf Procede et dispositif de separation de signaux en temps reel.
US7630500B1 (en) * 1994-04-15 2009-12-08 Bose Corporation Spatial disassembly processor
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US6317703B1 (en) 1996-11-12 2001-11-13 International Business Machines Corporation Separation of a mixture of acoustic sources into its components
US6321200B1 (en) 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
SE0101175D0 (sv) 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
CA2354858A1 (en) 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
US7257231B1 (en) 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
US20040258176A1 (en) * 2003-06-19 2004-12-23 Harris Corporation Precorrection of nonlinear distortion with memory
GB0419346D0 (en) 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
RU2393646C1 (ru) * 2006-03-28 2010-06-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8204237B2 (en) * 2006-05-17 2012-06-19 Creative Technology Ltd Adaptive primary-ambient decomposition of audio signals
US7593535B2 (en) 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
EP2082397B1 (en) * 2006-10-16 2011-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
US8213623B2 (en) 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals
CN101689371B (zh) * 2007-06-21 2013-02-06 皇家飞利浦电子股份有限公司 处理音频信号的设备和方法
US8767975B2 (en) 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
ATE448649T1 (de) 2007-08-13 2009-11-15 Harman Becker Automotive Sys Rauschverringerung mittels kombination aus strahlformung und nachfilterung
US8611554B2 (en) 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2380172B1 (en) * 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
US20120039477A1 (en) * 2009-04-21 2012-02-16 Koninklijke Philips Electronics N.V. Audio signal synthesizing

Also Published As

Publication number Publication date
JP2013543988A (ja) 2013-12-09
CN103181200B (zh) 2016-08-03
WO2012054836A1 (en) 2012-04-26
EP2630812B1 (en) 2022-04-20
EP2630812A1 (en) 2013-08-28
US8675881B2 (en) 2014-03-18
CN103181200A (zh) 2013-06-26
EP3057343A1 (en) 2016-08-17
US20120099731A1 (en) 2012-04-26

Similar Documents

Publication Publication Date Title
US8705769B2 (en) Two-to-three channel upmix for center channel derivation
Baumgarte et al. Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles
EP3739908B1 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
US8670850B2 (en) System for modifying an acoustic space with audio source content
JP5042823B2 (ja) 音声信号反響除去
JP5802753B2 (ja) マルチチャンネルオーディオ再生のためのアップミキシング方法及びシステム
JP2009522895A (ja) バイノーラルオーディオ信号の復号
TW200837718A (en) Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
CN105284133B (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
JP2010541350A (ja) 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
US9078077B2 (en) Estimation of synthetic audio prototypes with frequency-based input signal decomposition
WO2008004499A1 (fr) Procédé, dispositif et programme de suppression du bruit
EP2597639A2 (en) Sound processing device
JP5801405B2 (ja) 合成音声プロトタイプの推定
RU2595541C2 (ru) Устройство, способ и компьютерная программа для генерирования выходного стереосигнала для обеспечения дополнительных выходных каналов
EP4252432A1 (en) Systems and methods for audio upmixing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150728

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150826

R150 Certificate of patent or registration of utility model

Ref document number: 5801405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees