JP5801405B2 - 合成音声プロトタイプの推定 - Google Patents
合成音声プロトタイプの推定 Download PDFInfo
- Publication number
- JP5801405B2 JP5801405B2 JP2013535119A JP2013535119A JP5801405B2 JP 5801405 B2 JP5801405 B2 JP 5801405B2 JP 2013535119 A JP2013535119 A JP 2013535119A JP 2013535119 A JP2013535119 A JP 2013535119A JP 5801405 B2 JP5801405 B2 JP 5801405B2
- Authority
- JP
- Japan
- Prior art keywords
- prototype
- signal
- input
- characteristic
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 79
- 238000012545 processing Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 11
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 241000023320 Luma <angiosperm> Species 0.000 claims 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 claims 1
- 230000006870 function Effects 0.000 description 38
- 239000013598 vector Substances 0.000 description 27
- 239000011159 matrix material Substances 0.000 description 23
- 238000000354 decomposition reaction Methods 0.000 description 21
- 238000009499 grossing Methods 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000000873 masking effect Effects 0.000 description 11
- 238000012512 characterization method Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012850 discrimination method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 102000016550 Complement Factor H Human genes 0.000 description 1
- 108010053085 Complement Factor H Proteins 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本出願は、参照により本明細書に組み込まれている、2010年10月21日出願の米国特許出願第12/909,569号の一部継続出願(CIP)である。
2009年12月8日発行の「Spatial Disassembly Process」という名称の米国特許第7,630,500号
2009年10月22日公開の「Hearing Assistance Apparatus」という名称の米国特許出願公開第2009/0262969号
2008年12月25日公開の「Sound Discrimination Method and Apparatus」という名称の米国特許出願公開第2008/0317260号
に関するが、これらの出願日の利益を主張するものではない。
図1を参照すると、合成プロトタイプの推定を使用するシステムの一例は、アップミックスモジュール104を含むアップミキシングシステム100であり、アップミックスモジュール104は、入力信号112s1(t),…,sN(t)を受け入れて、アップミキシングされた信号
いくつかの実装形態では、図1に示すアップミキシングシステム100のアップミキシングモジュール104は、各入力信号112を成分(たとえば、周波数帯域)に細分して各成分を個々に処理することによって実施される。たとえば、直交成分の場合、1次推定器110は、各直交成分の推定値を独立して形成し、次いで推定された成分から出力信号を合成することによって実施することができる。以下の説明では、入力信号の周波数帯域として形成された成分に焦点を当てるが、直交成分または実質上独立した成分への他の分解も同様に使用できることを理解されたい。そのような代替の分解は、入力信号のウェーブレット変換、不均一(たとえば、心理音響学的な臨界帯域、オクターブ)フィルタバンク、知覚的成分分解、直交ミラーフィルタバンク、統計(たとえば、主要な成分)ベースの分解などを含むことができる。
上記で導入したように、プロトタイプ信号の合成の1つの手法は、成分ごとに、具体的には成分ごとに局所的に行われ、各ウィンドウ期間に対する各成分を別個に処理して、その局所成分に対する1つまたは複数のプロトタイプを形成する。
図1を再び参照すると、推定器110は、プロトタイプd(t)に最良整合する出力
以下の例では、表記を簡単にするために、時間変数tに対する依存性は省略した。分析期間τの一部の選択では、成分を表すのに単一の値のみが必要とされ、したがってtに対する依存性の省略は、分析成分を表す単一の(複素)値に対応すると見なすことができることに留意されたい。また、概括的には、上記のいくつかの例と同様に、重み値は、実数ではなく、概して複素である。
第1の例として、上記の手法を要約するために、n個の入力x(すなわち、n列ベクトル)から、
w=[w1,w2]T、
x=[x1,x2]T、
および
前の例では、低域フィルタ(すなわち、統計値の短時間の期待演算子および/または相互周波数平滑化)をwに対する閉形式解の相互および自己統計値に適用することによって、最小2乗解の短時間の実装形態が任意選択で実施される。前の例では、単一の所望のプロトタイプ信号を平滑化する最小2乗解の短時間の実装形態を使用するが、最小2乗の短時間の実装形態は、制約を加えることによって様々な他の問題(たとえば、動的フィルタ係数)に拡張および適用できることに留意されたい。具体的には、時間とともに変動する閉形式の最小2乗解の短時間の実装形態と見なすことができる。この時間とともに変動する閉形式の最小2乗解は、様々な他の状況にも適用することができる。
dn=b0xn+b1xn-1+…+bkxn-k…
+a1yn-1+a2yn-2…+alyn-l+en
これはまた、
z=[xn,xn-1,…,xn-k,yn-1,…yn-l]T
である。
Rz=E{zzH}
である。
いくつかの例では、各プロトタイプに使用される重みが、たとえば各プロトタイプに対して同じになるように制約されるが、異なる入力信号に適用されるように、複数の入力信号から複数のプロトタイプ信号を推定することが望ましい。1つの可能な例として、各プロトタイプが特定の信号成分の異なる時間フレーム(すなわち、遅延)である場合、異なる遅れの入力成分のフィルタリングが時間とともに変動しないことが望ましいであろう。別の例は、以下の第5.7節に提示する。
d0=wTx0+e0
d1=wTx1+e1 …
dN-1=wTxN-1+eN-1
が所望の各信号または信号ベクトルに対応するものとする。
d=Zw+e
と書きなおすことができ、上式でwは、重み係数のベクトル
w=[w0,w1,…,wP-1]T
である。
上記の例では、各入力値は、eiの2乗の和を事実上最小にすることによって、プロトタイプ推定値の判定において同じ重要性を有すると事実上考えられる。しかし、いくつかの例では、いくつかの入力が他の入力よりも多く重きをなす、または少なく重きをなすことが許容されることは有用であろう。これは、重み付きの最小2乗解を使用して実現することができる。
G=diag(g1,g2,…,gN)
w=E{ZHGZ}-1E{ZHGd}
と表すことができる。
この例では、目標は、時間nnにおける所望の信号dnの最良の推定値
d=dn、
Z=[x1n,x2n]、および
この例は、2つの異なるチャネルを入力として使用するのではなく、単一のチャネルの2つの異なる時間セグメントが入力として使用されるという点で、例1とは異なる。目標は、現在の時間nにおける所望の信号dnの最良の推定値
d=dn、
Z=[xn,xn-1]、および
いくつかの例では、最小2乗平滑化がマイクロフォンアレイに適用される。アレイ内のマイクロフォンからの生の信号は、特有の時点および周波数で所望のソース信号成分を推定するために使用される。目標は、特有の時点および周波数で瞬時の所望の信号に最良近似するマイクロフォン信号の1次結合を判定することである。そのような適用分野は、上記の例1に記載の適用分野の拡張と考えることができる。
hd=[hd1,hd2]T
と表すことができる。
d=[dn,1,0]T、
および
xn=hdsn
と表すことができ、上式で
hd=[hd0,hd1,…,hdP-1]
である。
別の例では、2要素のマイクロフォンアレイが、生の入力信号x1およびx2を生じさせる。これらの生の入力信号の差を観察することによって、各マイクロフォンにおける所望の信号成分の瞬時の推定値d1およびd2を得ることができる。所望の信号のこれらの局所的な推定値を使用して、次のように、各マイクロフォン信号からの雑音信号の局所的な推定値を得ることができる。
n1=x1-d1
n2=x2-d2
別の例では、例4aは、元の入力制約を含むように拡張される。したがって、入力行列および所望のベクトルは、
別の例では、無歪み応答と雑音消去の両方が望ましい。入力行列および所望のプロトタイプベクトルは、
一例では、2つの入力信号UおよびSが利用可能である(すべての前述の例のように、多重チャネル時間または周波数領域信号とすることができる)。この例では、UとSはどちらも、同じ所望の信号を含むが、異なる雑音信号(即ち
別の例では、例5aに記載の重みは、システムによって出力信号Y=αkU+(1-αk)Sが生じるという混合器の関係を有するように厳密に実施される。混合係数αkは、次のように動的に判定することができる。
時間周波数マスキングまたはゲーティング方式は、特定の条件下のMVDR解などのよりよく知られているLTI方法より性能が優れている可能性を有する。しかし、標的信号が支配的なソースであることはほとんどない非常に低いSNR条件では、時間周波数マスキング方式は、所望の信号を抑制しすぎる傾向があり、信号対雑音比ならびに静的空間フィルタ(すなわち、MVDR)を必ずしも改善しないことがある。所与の雑音環境では、最適のLTI解の結果、環境の信号対干渉比とは無関係に、信号対雑音の一定の改善が得られる。図11は、MVDR設計の測定された平均SNR利得および保存信号比(PSR)と、複素最小2乗平滑化を使用する現在の時間周波数マスキング方式とを比較する。図11の下半分の負のPSRは、アレイ処理の結果、どれだけの標的信号が失われたか(dB単位)を平均で表す。この特定のシナリオは、-6dBの全体的なrms SNRに混合される反響した混信内の標的音声信号を含む。この実験に対する平均的な標的および雑音信号パワースペクトルを図12に示す。局所SNRがほぼ0dBになる1.5kHzを上回ると、時間周波数マスキング方式は、最小の標的信号損失を有するが、静的MVDR設計と比較すると、それでもなお数dBのSNR利得を有することに留意されたい。標的が平均で大きなエネルギーを有するが、SNRは乏しい(約-6dB)400〜600Hzの範囲では、時間周波数マスキング方式は、最高8dBのSNR利得を提供するが、より多くの標的信号損失という犠牲を払っている。局所SNRが非常に乏しい150Hzを下回ると、MVDR解は、時間周波数マスカと比較すると、雑音の除去に関してより良好に機能する。
成分分解モジュール220(たとえば、DFTフィルタバンク)は線形位相を有するため、単一チャネルのアップミキシング出力は同じ位相を有し、位相相互作用なしで再結合して様々な信号分離度をもたらすことができる。
第3節では、入力信号s1(t)およびs2(t)がそれぞれ左信号l(t)および右信号r(t)に対応し、プロトタイプd(t)は中心チャネルc(t)に適している。一例では、類似の手法を適用して、「左専用」信号l0(t)および「右専用」信号r0(t)に対するプロトタイプ信号を判定することができる。図4Bを参照すると、「サイド専用」チャネルに対する例示的な局所プロトタイプが示されている。他の例では、単一のチャネルから局所プロトタイプを導出することができ、他の例では、2つまたは3つ以上のチャネルから導出することができることに留意されたい。
たとえば中心チャネルに対する局所プロトタイプ合成の複数の例を上記に提示した。しかし、様々な発見的方法、物理的ゲーティング方式、および信号選択アルゴリズムを用いて局所プロトタイプを作ることができる。
本明細書に記載の方法は、少ない待ち時間および少ないアーティファクトで入力信号を空間的に分離する必要のある様々な適用分野で適用することができる。
上記の手法の例は、ソフトウェア、ハードウェア、またはハードウェアとソフトウェアの組合せで実施することができる。ソフトウェアは、コンピュータのプロセッサ(たとえば、汎用プロセッサ、デジタル信号プロセッサなど)に上記のステップを実行させるための命令を保持するコンピュータ可読媒体(たとえば、ディスクまたは固体メモリ)を含むことができる。いくつかの例では、これらの手法は、1つまたは複数のタイプのシステム(たとえば、家庭用オーディオ、ヘッドセットなど)内へ組み込むのに適した(たとえば、構成可能な)音響プロセッサデバイス内で実施される。
102 生成モデル
104 アップミックスモジュール
108 プロトタイプ生成器
109 プロトタイプ信号d(t)
110 1次推定器、推定器
112 入力信号s1(t),…,sN(t)
114 雑音成分
206 成分アップミキサ
208 成分ベースの局所プロトタイプ生成器、局所プロトタイプ生成器、合成プロトタイプ生成器、非線形プロトタイプ生成器、プロトタイプ生成器
209 信号d(t)
210 成分ベースの1次推定器、成分推定器、推定器
212 成分
216 最小2乗重み推定器、最小2乗重み推定モジュール
220 成分分解モジュール
Claims (22)
- 成分分析器により、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するステップと、
プロトタイプ生成器により、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定するステップであって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、ステップと、
1つまたは複数の処理デバイスによって実行される推定器により、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成するステップと
を含み、
前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップは、前記1つのプロトタイプ信号の最小誤差推定値を判定するステップを含む、方法。 - 前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップが、
複数のプロトタイプ成分のそれぞれに対して、前記入力信号成分の複数の結合に基づいて推定値を形成するステップを含み、
前記入力信号成分の複数の前記結合は、推定対象のプロトタイプ成分とは異なる時点または異なる周波数における少なくともいくつかの入力信号成分を含む、請求項1に記載の方法。 - 前記入力信号の前記結合が、前記一連の時点のそれぞれに対応する時点における1つまたは複数の入力信号を含む、請求項2に記載の方法。
- 前記入力信号成分の複数の結合に基づいて推定値を形成する前記ステップが、前記出力信号が形成された前記一連の時点のそれぞれに先行する複数の時点における1つまたは複数の入力信号成分の結合を生成するステップを含む、請求項2に記載の方法。
- 前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップが、前記出力信号を形成する際に1つまたは複数の制約を適用するステップを含む、請求項1に記載の方法。
- 前記入力信号をマイクロフォンアレイから受け入れるステップをさらに含む、請求項1に記載の方法。
- 前記入力信号間の差に従って前記1つまたは複数のプロトタイプ信号を形成するステップをさらに含み、
前記入力信号間の差に従って前記1つまたは複数のプロトタイプ信号を形成する前記ステップは、
利得および/または位相差に従ってゲーティング値を判定するステップと、
前記ゲーティング値を前記入力信号に適用して、前記1つのプロトタイプ信号を判定するステップと
を含む、請求項6に記載の方法。 - 前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップが、前記マイクロフォンアレイからの前記入力信号内の所望の信号への応答の特性を示す情報および/または望ましくない信号への応答の特性を示す情報の少なくとも1つに従って、前記1つのプロトタイプ信号の前記推定値を形成するステップを含む、請求項6に記載の方法。
- 前記所望の信号への前記応答の前記特性を示す情報または前記望ましくない信号への前記応答の前記特性を示す情報が、対応する信号に対する伝達関数特性を含む、請求項8に記載の方法。
- 前記1つまたは複数のプロトタイプ信号の特性を示す情報を判定する前記ステップが、前記1つまたは複数のプロトタイプ信号を判定するステップを含む、請求項1に記載の方法。
- 前記1つまたは複数のプロトタイプ信号の特性を示す情報を判定する前記ステップが、前記1つまたは複数のプロトタイプ信号の統計学的特性を判定するステップを含む、請求項1に記載の方法。
- 前記1つまたは複数のプロトタイプ信号の特性を示す情報を判定する前記ステップが、前記入力信号の時間局所分析に基づいて前記情報を判定するステップを含む、請求項1に記載の方法。
- 前記1つまたは複数のプロトタイプ信号の特性を示す情報を判定する前記ステップが、前記入力信号の1つまたは複数のゲーティングを行うステップを含む、請求項1に記載の方法。
- 最小誤差推定値を形成する前記ステップが、最小2乗誤差推定値を判定するステップを含む、請求項1に記載の方法。
- 成分分析器により、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するステップと、
プロトタイプ生成器により、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定するステップであって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、ステップと、
1つまたは複数の処理デバイスによって実行される推定器により、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成するステップと
を含み、
前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記1つのプロトタイプ信号の推定値として出力信号を形成する前記ステップは、
前記1つのプロトタイプ信号および対応する入力信号に関する統計値の推定値を演算するステップと、
前記対応する入力信号のそれぞれに適用される重み係数を判定するステップと
を含む、方法。 - 前記統計値が、
前記1つのプロトタイプ信号と前記対応する入力信号との間の相互パワー統計値と、
前記対応する入力信号の自己パワー統計値と
を含む、請求項15に記載の方法。 - 入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器と
を備え、
前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記出力信号は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記プロトタイプ信号の推定値として前記出力信号を形成することは、前記プロトタイプ信号の最小誤差推定値を判定することを含む、システム。 - 命令を格納したコンピュータ読み取り可能な記録媒体であって、
前記命令は、データ処理システムに、
成分分析器を使用して、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解する手順と、
プロトタイプ生成器を使用して、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定する手順であって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、手順と、
推定器を使用して、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成する手順と
を実行させ、
前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記1つのプロトタイプ信号の推定値として出力信号を形成する前記手順は、前記1つのプロトタイプ信号の最小誤差推定値を判定する手順を含む、コンピュータ読み取り可能な記録媒体。 - 対応するマイクロフォンから入力信号を受け取る入力と、
前記入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器であって、前記出力信号の形成が、所望の位置からの信号に対する前記マイクロフォンの応答のパターンに従って実行される、推定器と
を備え、
前記プロトタイプ信号の前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記プロトタイプ信号の推定値として前記出力信号を形成することは、前記プロトタイプ信号の最小誤差推定値を判定することを含む、音声取得システム。 - 入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器と
を備え、
前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記出力信号は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記プロトタイプ信号の推定値として前記出力信号を形成することは、
前記プロトタイプ信号および対応する入力信号に関する統計値の推定値を演算することと、
前記対応する入力信号のそれぞれに適用される重み係数を判定することと
を含む、システム。 - 命令を格納したコンピュータ読み取り可能な記録媒体であって、
前記命令は、データ処理システムに、
成分分析器を使用して、入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解する手順と、
プロトタイプ生成器を使用して、前記入力信号から1つまたは複数のプロトタイプ信号の特性を示す情報を判定する手順であって、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、手順と、
推定器を使用して、前記1つまたは複数のプロトタイプ信号の前記特性を示す情報に基づいて前記1つまたは複数のプロトタイプ信号のうちの1つのプロトタイプ信号を処理して、前記1つのプロトタイプ信号の推定値として出力信号を形成する手順と
を実行させ、
前記推定値は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記出力信号は、前記1つのプロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記1つのプロトタイプ信号の推定値として出力信号を形成する前記手順は、
前記1つのプロトタイプ信号および対応する入力信号に関する統計値の推定値を演算する手順と、
前記対応する入力信号のそれぞれに適用される重み係数を判定する手順と
を含む、コンピュータ読み取り可能な記録媒体。 - 対応するマイクロフォンから入力信号を受け取る入力と、
前記入力信号を、一連の時点のそれぞれにおける異なる周波数成分を表す入力信号成分に分解するように構成された入力プロセッサと、
前記入力信号を受け入れ、前記入力信号に基づいてプロトタイプ信号の特性を示す情報を提供するように構成されたプロトタイプ生成器であって、前記プロトタイプ信号の前記特性を示す情報が、前記一連の時点のそれぞれにおける異なる周波数成分を表す複数のプロトタイプ成分を含む、プロトタイプ生成器と、
前記プロトタイプ信号の前記特性を示す情報を受け入れ、前記プロトタイプ信号の前記特性を示す情報に基づいて前記プロトタイプ信号の推定値として出力信号を形成するように構成された推定器であって、前記出力信号の形成が、所望の位置からの信号に対する前記マイクロフォンの応答のパターンに従って実行される、推定器と
を備え、
前記プロトタイプ信号の前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号の結合に対応し、
前記推定値は、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に基づく値であって、前記プロトタイプ信号の前記特性を示す情報を判定するために使用される前記入力信号に従って変化し、
前記プロトタイプ信号の推定値として前記出力信号を形成することは、
前記プロトタイプ信号および対応する入力信号に関する統計値の推定値を演算することと、
前記対応する入力信号のそれぞれに適用される重み係数を判定することと
を含む、音声取得システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/909,569 US8675881B2 (en) | 2010-10-21 | 2010-10-21 | Estimation of synthetic audio prototypes |
US12/909,569 | 2010-10-21 | ||
PCT/US2011/057291 WO2012054836A1 (en) | 2010-10-21 | 2011-10-21 | Estimation of synthetic audio prototypes |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013543988A JP2013543988A (ja) | 2013-12-09 |
JP5801405B2 true JP5801405B2 (ja) | 2015-10-28 |
Family
ID=44898234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013535119A Expired - Fee Related JP5801405B2 (ja) | 2010-10-21 | 2011-10-21 | 合成音声プロトタイプの推定 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8675881B2 (ja) |
EP (2) | EP3057343A1 (ja) |
JP (1) | JP5801405B2 (ja) |
CN (1) | CN103181200B (ja) |
WO (1) | WO2012054836A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472041B2 (en) * | 2005-08-26 | 2008-12-30 | Step Communications Corporation | Method and apparatus for accommodating device and/or signal mismatch in a sensor array |
US9078077B2 (en) | 2010-10-21 | 2015-07-07 | Bose Corporation | Estimation of synthetic audio prototypes with frequency-based input signal decomposition |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
WO2021070278A1 (ja) | 2019-10-09 | 2021-04-15 | 三菱電機株式会社 | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2657173B1 (fr) | 1990-01-16 | 1992-04-10 | Thomson Csf | Procede et dispositif de separation de signaux en temps reel. |
US7630500B1 (en) * | 1994-04-15 | 2009-12-08 | Bose Corporation | Spatial disassembly processor |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US6317703B1 (en) | 1996-11-12 | 2001-11-13 | International Business Machines Corporation | Separation of a mixture of acoustic sources into its components |
US6321200B1 (en) | 1999-07-02 | 2001-11-20 | Mitsubish Electric Research Laboratories, Inc | Method for extracting features from a mixture of signals |
SE0101175D0 (sv) | 2001-04-02 | 2001-04-02 | Coding Technologies Sweden Ab | Aliasing reduction using complex-exponential-modulated filterbanks |
CA2354858A1 (en) | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
US7257231B1 (en) | 2002-06-04 | 2007-08-14 | Creative Technology Ltd. | Stream segregation for stereo signals |
US20040258176A1 (en) * | 2003-06-19 | 2004-12-23 | Harris Corporation | Precorrection of nonlinear distortion with memory |
GB0419346D0 (en) | 2004-09-01 | 2004-09-29 | Smyth Stephen M F | Method and apparatus for improved headphone virtualisation |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
RU2393646C1 (ru) * | 2006-03-28 | 2010-06-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио |
JP4875142B2 (ja) * | 2006-03-28 | 2012-02-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置 |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8204237B2 (en) * | 2006-05-17 | 2012-06-19 | Creative Technology Ltd | Adaptive primary-ambient decomposition of audio signals |
US7593535B2 (en) | 2006-08-01 | 2009-09-22 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
EP2082397B1 (en) * | 2006-10-16 | 2011-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
US8213623B2 (en) | 2007-01-12 | 2012-07-03 | Illusonic Gmbh | Method to generate an output audio signal from two or more input audio signals |
CN101689371B (zh) * | 2007-06-21 | 2013-02-06 | 皇家飞利浦电子股份有限公司 | 处理音频信号的设备和方法 |
US8767975B2 (en) | 2007-06-21 | 2014-07-01 | Bose Corporation | Sound discrimination method and apparatus |
ATE448649T1 (de) | 2007-08-13 | 2009-11-15 | Harman Becker Automotive Sys | Rauschverringerung mittels kombination aus strahlformung und nachfilterung |
US8611554B2 (en) | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2380172B1 (en) * | 2009-01-16 | 2013-07-24 | Dolby International AB | Cross product enhanced harmonic transposition |
US20120039477A1 (en) * | 2009-04-21 | 2012-02-16 | Koninklijke Philips Electronics N.V. | Audio signal synthesizing |
-
2010
- 2010-10-21 US US12/909,569 patent/US8675881B2/en not_active Expired - Fee Related
-
2011
- 2011-10-21 EP EP16155300.3A patent/EP3057343A1/en not_active Withdrawn
- 2011-10-21 EP EP11776678.2A patent/EP2630812B1/en active Active
- 2011-10-21 WO PCT/US2011/057291 patent/WO2012054836A1/en active Application Filing
- 2011-10-21 CN CN201180050792.8A patent/CN103181200B/zh not_active Expired - Fee Related
- 2011-10-21 JP JP2013535119A patent/JP5801405B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013543988A (ja) | 2013-12-09 |
CN103181200B (zh) | 2016-08-03 |
WO2012054836A1 (en) | 2012-04-26 |
EP2630812B1 (en) | 2022-04-20 |
EP2630812A1 (en) | 2013-08-28 |
US8675881B2 (en) | 2014-03-18 |
CN103181200A (zh) | 2013-06-26 |
EP3057343A1 (en) | 2016-08-17 |
US20120099731A1 (en) | 2012-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8705769B2 (en) | Two-to-three channel upmix for center channel derivation | |
Baumgarte et al. | Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles | |
EP3739908B1 (en) | Binaural filters for monophonic compatibility and loudspeaker compatibility | |
JP6377249B2 (ja) | オーディオ信号の強化のための装置と方法及び音響強化システム | |
US8670850B2 (en) | System for modifying an acoustic space with audio source content | |
JP5042823B2 (ja) | 音声信号反響除去 | |
JP5802753B2 (ja) | マルチチャンネルオーディオ再生のためのアップミキシング方法及びシステム | |
JP2009522895A (ja) | バイノーラルオーディオ信号の復号 | |
TW200837718A (en) | Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program | |
CN105284133B (zh) | 基于信号下混比进行中心信号缩放和立体声增强的设备和方法 | |
JP2010541350A (ja) | 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム | |
US9078077B2 (en) | Estimation of synthetic audio prototypes with frequency-based input signal decomposition | |
WO2008004499A1 (fr) | Procédé, dispositif et programme de suppression du bruit | |
EP2597639A2 (en) | Sound processing device | |
JP5801405B2 (ja) | 合成音声プロトタイプの推定 | |
RU2595541C2 (ru) | Устройство, способ и компьютерная программа для генерирования выходного стереосигнала для обеспечения дополнительных выходных каналов | |
EP4252432A1 (en) | Systems and methods for audio upmixing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150728 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5801405 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |