JP5846460B2 - 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 - Google Patents
空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 Download PDFInfo
- Publication number
- JP5846460B2 JP5846460B2 JP2014525429A JP2014525429A JP5846460B2 JP 5846460 B2 JP5846460 B2 JP 5846460B2 JP 2014525429 A JP2014525429 A JP 2014525429A JP 2014525429 A JP2014525429 A JP 2014525429A JP 5846460 B2 JP5846460 B2 JP 5846460B2
- Authority
- JP
- Japan
- Prior art keywords
- covariance
- signal
- mixing
- matrix
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims description 126
- 238000002156 mixing Methods 0.000 title claims description 89
- 238000012545 processing Methods 0.000 title description 15
- 238000000034 method Methods 0.000 claims description 32
- 239000000203 mixture Substances 0.000 claims description 31
- 238000009472 formulation Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 3
- 210000002370 ICC Anatomy 0.000 description 19
- 238000010988 intraclass correlation coefficient Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004807 localization Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000009792 diffusion process Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/18—Selecting circuits
- G10H1/183—Channel-assigning means for polyphonic instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Amplifiers (AREA)
Description
このコンセプトから 、さまざまな空間処理方法は、アップミキシングを含めて、わかってきた。以下の文献を参照。
[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,
空間マイクロフォニーは、たとえば以下の文献を参照。
[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007;
および
[3] C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010;
そして、効率的なステレオおよびマルチチャネル伝送は、例えば、以下の文献を参照。
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005;
および
[5] J. Herre, K. Kjoerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
リスニングテストは、各アプリケーションでコンセプトの利益を認識しており、例えば、前記文献[1、4、5]と、例えば、以下の文献を参照。
[6] J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
例えば、指向性を有するオーディオ符号化(DirAC)の状況において、上記文献[2]に見られるように、例えば、ソース・チャネルは典型的に第1のオーダー・スピーカのマイクロホン信号であり、それは、混合、振幅パンニング、および、知覚的に測定された音場に接近するために処理された非相関性によっている。
アップミキシングでは(上記文献[1]を参照)、ステレオの入力チャネルが、サラウンドセットアップに適応的に分布し、再び、時間及び周波数の関数としてある。
本発明の目的は、請求項25に記載の方法および請求項26に記載のコンピュータプログラムによって、請求項1に記載の装置により解決される。
装置は、プロバイダおよび信号プロセッサを含む。プロバイダは、オーディオ入力信号の第1の共分散特性を提供するのに適している。信号プロセッサは、2つ以上のオーディオ入力チャネルの内の少なくとも2つに混合則を適用することによって、オーディオ出力信号を生成するように適合されている。
信号プロセッサは、オーディオ入力信号の第1の共分散特性に基づいて、そして、オーディオ出力信号の第2の共分散特性に基づいて、混合則を決定するように構成される。そして、第2の共分散特性は、第1の共分散特性と異なる。
以下では、このドメイン(領域)内の空間音響を処理するために一般的に適用可能なコンセプトが提示される。
このコンセプトは、入力チャネルの独立構成要素の最良の使用法によって、所与の目標共分散特性(第2の共分散特性)、例えば、伝えられた目標共分散行列に到達するように、適応混合解決案を含む。実施形態において、目標がそうでなければ達成されない場合、非相関音響エネルギーの必要量を注入するために、手段は設けられ得る。
このようなコンセプトは、その機能において堅牢であり、多数の使用事例に適用することができる。目標共分散特性は、例えば、ユーザによって提供されている。例えば、一実施形態に係る装置は、ユーザが共分散特性を入力することができるように、手段を備え得る。
プロバイダは、必ずしも共分散特性を得るための分析を実行する必要はなく、記憶装置、ユーザ入力からまたは同様のソースからこのデータを提供することができる。
装置は、プロバイダ110および信号プロセッサ120を含む。プロバイダ110は、2つ以上のオーディオ入力チャネルを有するオーディオ入力信号を受信するのに適している。さらに、プロバイダ110は、オーディオ入力信号の第1の共分散特性を分析するのに適している。プロバイダ110は、さらに、信号プロセッサ120に第1の共分散特性を提供するのに適している。信号プロセッサ120は、さらに、オーディオ入力信号を受信するのに適している。
また、信号プロセッサ120は、オーディオ入力信号の2つ以上の入力チャネルの少なくとも2つに混合則を適用することによってオーディオ出力信号を生成するように適合されている。
信号プロセッサ120は、オーディオ入力信号の第1の共分散特性に基づいて、そして、オーディオ出力信号の第2の共分散特性に基づいて、混合則を決定するように構成される。そして、第2の共分散特性は、第1の共分散特性と異なる。
信号プロセッサは、最適な混合マトリックス定式化装置210および音声ミキサ220を含む。最適な混合マトリックス定式化装置210は、最適な混合マトリックスを作成する。これのために、最適な混合マトリックス定式化装置210は、例えば、図1の実施形態のプロバイダ110によって受信されるように、ステレオまたはマルチチャネルの周波数帯音声入力信号の第1の共分散特性230(例えば入力共分散特性)を使用する。
さらに、最適な混合マトリックス定式化装置210は、第2の共分散特性240、例えば目標共分散行列に基づいて、混合マトリックスを決定する。そして、それは従属するアプリケーションであってもよい。最適な混合マトリックス定式化装置210によって作成される最適な混合マトリックスは、チャネル・マッピング・マトリックスとして用いられることができる。
それから、最適な混合マトリックスは、混合ユニット220に提供することができる。混合ユニット220は、オーディオ出力信号のステレオまたはマルチチャネルの周波数帯域の出力を得るように、ステレオまたはマルチチャネルの周波数帯域の入力に最適な混合行列を適用する。オーディオ出力信号は、所望の第2の共分散特性(目標共分散特性)を有する。
しかしながら、それは明白な欠点がないこのバランシングを実行する学習的機能を調整することは、それが以下にサンプルコードで行われたように、むしろ簡単である。
第1に、ひとつには、特定の共分散行列を備えた入力信号を有する。
第2に、アプリケーションは、チャネルが各出力チャネルの構成において用いられる目標共分散行列および規則入力の2つのパラメータを定義する。
この変換を実行するために、以下のコンセプトを使用することが提案される。
図2で例示されるように、主要なコンセプトは、入力チャネルの最適な混合の解決策の使用で、目標共分散が達成されるということで目標共分散が入力チャネルを最適に混ぜることの解決を使うことで達成されるということである。それは多くの場合、信号品質を損なうデコリレータの使用を回避するため、このコンセプトは、第一義的であると考えられる。
利用可能な合理的なエネルギーの十分な独立成分がない場合、第2のコンセプトが行われる。非相関化エネルギーは、これらの成分の不足を補うために注入される。一緒に、これらの2つのコンセプトは、任意の所与のシナリオにおけるロバストな共分散行列調整を行うための手段を提供する。
さらに予想される使用事例は、ステレオとマルチチャネルの強化、雰囲気抽出、および、アップミキシングとダウンミックスが含まれている。
先ず、クロス混合解決策が提供され、次いで、相関音エネルギーを注入するコンセプトが与えられる。その後、異なる数の入出力チャネルを有するコンセプトの説明が提供され、さらに、共分散行列分解性に配慮されている。
以下に、実用的な使用事例が提供され、そして、一組の数値実施例および結論が提示される。さらにまた、本論文によると、完全な機能を有する実施例、Matlabコードが提供される。
コンセプトは、最適に提供され、そして、任意に定義可能な共分散特性を有する1セットの出力チャネルに対して所与の共分散特性を有する1セットの入力チャネルが適応的にクロスミックスされる。さらなるコンセプトは、合理的なエネルギーに依存しない音成分が利用できない場合にのみ、必要に応じて非相関化エネルギーを注入するために提供されている。コンセプトは、空間オーディオ信号処理の分野における多種多様な用途を有する。
装置は、共分散行列分析モジュール410および信号プロセッサ(図示せず)を含み、そこにおいて、信号プロセッサは、混合マトリックスの定式化モジュール420および混合マトリックス・アプリケーション・モジュール430を含む。ステレオであるかマルチチャネル周波数帯入力の入力共分散特性は、共分散行列分析モジュール410によって分析される。共分散行列分析の結果は、混合マトリックスの定式化モジュール420に供給される。
プロセスは、ステレオ信号から方向および周波数帯の音場の拡散を推定して、受信側で復号化されるとき、知覚的に元の音場を近似した音場を生成するように、MPEGサラウンドビットストリームを作成することを含む。
さらにまた、空間データの決定モジュール520は、空間サラウンドデータを定式化し、MPEGサラウンドの空間サイド情報として、ICCsおよびレベルをダウンミックスするように適合され得る。混合マトリックスの定式化モジュール530は、それから、提供された構成情報データ、例えば目標ダウンミックスのICCsおよびレベルに基づいて混合マトリックスを定式化し、混合モジュール540にマトリックスを供給する。混合モジュール540は、ステレオマイクロホン信号に対して、混合マトリックスを適用する。
これによって、目標ICCsおよびレベルを有して、信号は生成される。目標ICCsおよびレベルを有する信号は、その後、コアコーダ550に提供される。実施形態において、モジュール520、530および540は、信号プロセッサのサブモジュールである。
ICCおよびレベル分析は、モジュール602で行われ、そして、音場のモデル610は、モジュール602によって、ICCおよびレベル分析に依存する。モジュール620はモジュール520に対応し、モジュール630はモジュール530に対応し、そして、モジュール640は、図5のモジュール540に、それぞれ、対応する。同じことは、図5のコアコーダー550に対応するコアコーダー650に適用される。
上記のコンセプトは、マイクロホン信号から正確に正しいICCおよびレベルを有するMPSダウンミックスをつくるために、MPS−SAMエンコーダに集積することができる。上述のコンセプトは、デコリレータの使用量を最小限に抑えながら、理想的な空間合成を提供するために、MPSのない直接SAM−マルチチャネルレンダリングでも適用可能である。
モジュール705は、マイクロホン共分散行列を得るために、マイクロホン入力信号の共分散行列分析を行うのに適している。マイクロホン共分散行列は、混合マトリックスの定式化モジュール730に供給される。さらに、マイクロホン共分散行列は、音場モデル710を引き出すために用いられる。音場モデル710は、共分散行列以外の供給源に基づいてもよい。
実施形態において、モジュール720、730および740は、信号プロセッサのサブモジュールである。
モジュール805において、ステレオまたはマルチチャネルの内容の共分散行列分析、例えばICCまたはレベル分析が行われる。それから、エンハンスメント・ルールは、例えば、入力ICCsから出力ICCsを得るために、拡張モジュール815に適用される。
混合マトリックス定式化モジュール830は、モジュール805によって行われる共分散行列分析に基づいて、そして、拡散モジュール815で実行されたエンハンスメント・ルール815を適用することに由来する情報に基づいて行われる混合マトリックスを生成する。その後、混合マトリックスは、目標共分散特性を有する調整されたステレオまたはマルチチャネル内容を得るために、モジュール840のステレオであるかまたはマルチチャネルの内容に適用される。
・より広いスピーカセットアップにマッチするために、所定の弧の中でソースの再パンニングすること。
・より良い、より広いスピーカセットアップと一致するように、ICCを増大させること。
・所望のバイノーラルキューを作成する直接的な方法がない場合にのみ、クロストークキャンセルを使用して、クロストークキャンセルなどを行うために、より良好な出発点を提供する。
音場モデル1010は、図7の音場モデル710に対応することができる。混合マトリックス・アプリケーション・モジュール1040は、図7の混合マトリックス・アプリケーション・モジュール740に対応することができる。
また、以下の2つの変形例が、存在する。最初のものは、低い数の欠落しているチャネルに対するゼロ-エネルギー・チャネルを定めること以外のチャネルのより高い数の領域で、コンセプトを利用する。他のものは、異なるチャネル番号のためのマトリックス解決を直接定式化する。
この例では、ステレオミックスの非干渉性成分は、均等且つインコヒーレントにサイドおよびリアスピーカに分配され、そして、コヒーレント成分が中央スピーカに配置されるように、目標共分散行列を設定している。信号の大きさが増加するので、残差信号は再びゼロではない。
実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して、実施することができる。そして、それぞれの方法が実行されるように、それは、プログラム可能なコンピュータシステムと協同する(または協同することができる)。
いくつかの実施形態では、フィールド・プログラム可能なゲート・アレイは、本願明細書において記載されている方法の内の1つを実行するために、マイクロプロセッサと協働することができる。通常、その方法は、好ましくは任意のハードウェア装置によって実行される。
[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.
[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.
[3] C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010.
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio," EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005.
[5] J. Herre, K. Kjuerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
[6] J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
[7] Golub, G.H. and Van Loan, C.F., "Matrix computations", Johns Hopkins Univ Press, 1996.
[8] R. Rebonato, P. Jaeckel, "The most general methodology to create a valid correlation matrix for risk management and option pricing purposes", Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.
Claims (26)
- 複数のオーディオ入力チャネルを有するオーディオ入力信号から複数のオーディオ出力チャネルを有するオーディオ出力信号を生成する装置であって、
前記装置は、
前記オーディオ入力信号の第1の共分散特性を提供するプロバイダ(110)、および
前記複数のオーディオ入力チャネルの内の少なくとも2つに混合則を適用することによって、前記オーディオ出力信号を生成する信号プロセッサ(120)を含み、
前記信号プロセッサ(120)は、前記オーディオ入力信号の前記第1の共分散特性に基づいて、そして、前記第1の共分散特性と異なる前記オーディオ出力信号の第2の共分散特性に基づいて、前記混合則を決定するように構成される、装置。 - 前記プロバイダ(110)は、前記第1の共分散特性を提供するように適合され、前記第1の共分散特性は、第1の時間−周波数ビンのための第1の状態を有し、前記第1の共分散特性は、前記第1の時間−周波数ビンとは異なる第2の時間−周波数ビンのための前記第1の状態とは異なる第2の状態を有する、請求項1に記載の装置。
- 前記信号プロセッサ(120)は、前記第2の共分散特性に基づいて前記混合則を決定するように適合され、前記第2の共分散特性は、第3の時間−周波数ビンのための第3の状態を有し、前記第2の共分散特性は、前記第3の時間−周波数ビンとは異なる第4の時間−周波数ビンのための前記第3の状態とは異なる、第4の状態を有する、請求項1または請求項2に記載の装置。
- 前記信号プロセッサ(120)は、前記混合則を適用することによって前記オーディオ出力信号を生成するように適合され、前記複数のオーディオ出力チャネルの各々は、前記2つ以上のオーディオ入力チャネルの各々に依存する、請求項1〜請求項3のいずれか1項に記載の装置。
- 前記信号プロセッサ(120)は、誤差測度が最小となるように前記混合則を決定するように適合される、請求項1〜請求項4のいずれか1項に記載の装置。
- 前記信号プロセッサ(120)は、前記第2の共分散特性を決定することによって、前記混合則を決定するように構成され、前記信号プロセッサ(120)は、前記第1の共分散特性に基づいて前記第2の共分散特性を決定するように構成されている、請求項1〜請求項6のいずれか1項に記載の装置。
- 前記信号プロセッサ(120)は、前記混合則として、混合マトリックスを決定するように適合され、前記信号プロセッサ(120)は、前記第1の共分散特性に基づいて、そして、前記第2の共分散特性に基づいて、前記混合マトリックスを決定するように適合されている、請求項1〜請求項7のいずれか1項に記載の装置。
- 前記プロバイダ(110)は、前記オーディオ入力信号の第1の共分散行列を決定することによって前記第1の共分散特性を提供するように適合され、前記信号プロセッサ(120)は、前記第2の共分散特性として、前記オーディオ出力信号の第2の共分散行列に基づいて、前記混合則を決定するように構成されている、請求項1〜請求項8のいずれか1項に記載の装置。
- 前記プロバイダ(110)は、前記第1の共分散行列を決定するように適合され、前記第1の共分散行列の各対角値は、前記オーディオ入力チャネルの内の1つのエネルギーを示し、対角値でない前記第1の共分散行列の各値は、第1のオーディオ入力チャネルとは異なる第2のオーディオ入力チャネルとの間のチャネル間相関を示すようになっている、請求項9に記載の装置。
- 信号プロセッサ(120)は、前記第2の共分散行列に基づいて、前記混合則を決定するように構成され、前記第2の共分散行列の各対角値は、前記オーディオ出力チャネルの内の1つのエネルギーを示し、対角値ではない前記第2の共分散行列の各値は、第1のオーディオ出力チャネルおよび第2のオーディオ出力チャネル間のチャネル間相関を示すことを特徴とする、請求項9または請求項10に記載の装置。
- 前記信号プロセッサ(120)は、中間信号を得るために、前記複数のオーディオ入力チャネルの少なくとも2つに前記混合マトリックスを適用することによって、そして、前記オーディオ出力信号を得るために、前記中間信号に残渣信号rを加えることによって前記オーディオ出力信号を生成するように適合される、請求項14または請求項15に記載の装置。
- 前記信号プロセッサ(120)は、
前記第1の共分散特性に基づいた前記混合則として、混合マトリックスを生成するための混合マトリックス定式化モジュール(420、530、630、730、830、1030)、および
前記オーディオ出力信号を生成するために、前記オーディオ入力信号に前記混合マトリックスを適用するための混合マトリックスアプリケーションモジュール(430、540、640、740、840、1040)を含む、請求項1に記載の装置。 - 前記プロバイダ(110)は、前記第1の共分散特性として分析結果を得るために、前記オーディオ入力信号の入力共分散特性を提供するための共分散行列解析モジュール(410、705、805、1005)を含み、
前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記分析結果に基づいて、前記混合マトリックスを生成するように適合される、請求項18に記載の装置。 - 前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、エラー基準に基づいて、前記混合マトリックスを生成するように適合される、請求項18または請求項19に記載の装置。
- 前記信号プロセッサ(120)は、サラウンド空間データ、チャネル間の相関データまたはオーディオ信号レベルデータを有する構成情報データを決定するために、空間データ判定部(520;620)をさらに含み、
前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記構成情報データに基づいて、前記混合マトリックスを生成するように適合される、請求項18〜請求項20のいずれか1項に記載の装置。 - 前記信号プロセッサ(120)は、前記分析結果に基づいて、目標共分散行列を生成するための目標共分散行列定式化モジュール(730、1018)をさらに含み、
前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記目標共分散行列に基づいて、混合マトリックスを生成するように適合される、請求項19に記載の装置。 - 前記目標共分散行列定式化モジュール(1018)は、スピーカの構成に基づいて、前記目標共分散行列を生成するように構成される、請求項22に記載の装置。
- 前記信号プロセッサ(120)は、前記入力チャネル間の相関データと異なり、入力チャネル間の相関データに基づいて、出力チャネル間の相関データを取得するための拡張モジュール(815)をさらに含み、
前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記出力チャネル間の相関データに基づいて、前記混合マトリックスを生成するように適合される、請求項18〜請求項19に記載の装置。 - 複数のオーディオ入力チャネルを有するオーディオ入力信号から複数のオーディオ出力チャネルを有するオーディオ出力信号を生成するための方法であって、
前記方法は、
前記オーディオ入力信号の第1の共分散特性を提供するステップ、および
前記複数のオーディオ入力チャネルの少なくとも2つに混合則を適用することによって、前記オーディオ出力信号を生成するステップを含み、
前記混合則は、前記オーディオ入力信号の前記第1の共分散特性に基づいて、そして、前記第1の共分散特性とは異なる前記オーディオ出力信号の第2の共分散特性に基づいて決定される、方法。 - コンピュータまたはプロセッサ上で実行される、請求項25に記載の方法を実施するためのコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161524647P | 2011-08-17 | 2011-08-17 | |
US61/524,647 | 2011-08-17 | ||
EP12156351A EP2560161A1 (en) | 2011-08-17 | 2012-02-21 | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
EP12156351.4 | 2012-02-21 | ||
PCT/EP2012/065861 WO2013024085A1 (en) | 2011-08-17 | 2012-08-14 | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014526065A JP2014526065A (ja) | 2014-10-02 |
JP2014526065A5 JP2014526065A5 (ja) | 2015-06-25 |
JP5846460B2 true JP5846460B2 (ja) | 2016-01-20 |
Family
ID=45656296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014525429A Active JP5846460B2 (ja) | 2011-08-17 | 2012-08-14 | 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 |
Country Status (16)
Country | Link |
---|---|
US (3) | US10339908B2 (ja) |
EP (2) | EP2560161A1 (ja) |
JP (1) | JP5846460B2 (ja) |
KR (1) | KR101633441B1 (ja) |
CN (1) | CN103765507B (ja) |
AR (1) | AR087564A1 (ja) |
AU (1) | AU2012296895B2 (ja) |
BR (1) | BR112014003663B1 (ja) |
CA (1) | CA2843820C (ja) |
ES (1) | ES2499640T3 (ja) |
HK (1) | HK1187731A1 (ja) |
MX (1) | MX2014001731A (ja) |
PL (1) | PL2617031T3 (ja) |
RU (1) | RU2631023C2 (ja) |
TW (1) | TWI489447B (ja) |
WO (1) | WO2013024085A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112014017457A8 (pt) * | 2012-01-19 | 2017-07-04 | Koninklijke Philips Nv | aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial |
JP5930441B2 (ja) * | 2012-02-14 | 2016-06-08 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置 |
EP2688066A1 (en) | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US9769586B2 (en) * | 2013-05-29 | 2017-09-19 | Qualcomm Incorporated | Performing order reduction with respect to higher order ambisonic coefficients |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
KR102161169B1 (ko) * | 2013-07-05 | 2020-09-29 | 한국전자통신연구원 | 오디오 신호 처리 방법 및 장치 |
EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830335A3 (en) | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel |
EP2830050A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
CN110992964B (zh) * | 2014-07-01 | 2023-10-13 | 韩国电子通信研究院 | 处理多信道音频信号的方法和装置 |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US9875756B2 (en) * | 2014-12-16 | 2018-01-23 | Psyx Research, Inc. | System and method for artifact masking |
US9712936B2 (en) | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
CN112002337A (zh) * | 2015-03-03 | 2020-11-27 | 杜比实验室特许公司 | 用于对音频信号进行处理的方法、装置和设备 |
EP3065422B8 (en) * | 2015-03-04 | 2019-06-12 | Starkey Laboratories, Inc. | Techniques for increasing processing capability in hear aids |
US10448188B2 (en) | 2015-09-30 | 2019-10-15 | Dolby Laboratories Licensing Corporation | Method and apparatus for generating 3D audio content from two-channel stereo content |
CN108886650B (zh) * | 2016-01-18 | 2020-11-03 | 云加速360公司 | 用于音频再现的子带空间和串扰消除 |
US10225657B2 (en) | 2016-01-18 | 2019-03-05 | Boomcloud 360, Inc. | Subband spatial and crosstalk cancellation for audio reproduction |
JP6546351B2 (ja) * | 2016-01-19 | 2019-07-17 | ブームクラウド 360 インコーポレイテッド | ヘッドマウントスピーカのためのオーディオエンハンスメント |
US11234072B2 (en) | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
WO2017143003A1 (en) * | 2016-02-18 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
US10923132B2 (en) | 2016-02-19 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
US10979844B2 (en) * | 2017-03-08 | 2021-04-13 | Dts, Inc. | Distributed audio virtualization systems |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
US10313820B2 (en) | 2017-07-11 | 2019-06-04 | Boomcloud 360, Inc. | Sub-band spatial audio enhancement |
GB201718341D0 (en) * | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
US10764704B2 (en) | 2018-03-22 | 2020-09-01 | Boomcloud 360, Inc. | Multi-channel subband spatial processing for loudspeakers |
GB2572420A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2574239A (en) | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
CN110782911A (zh) * | 2018-07-30 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、设备和存储介质 |
GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
CN114270437A (zh) | 2019-06-14 | 2022-04-01 | 弗劳恩霍夫应用研究促进协会 | 参数编码与解码 |
TW202123221A (zh) * | 2019-08-01 | 2021-06-16 | 美商杜拜研究特許公司 | 共變異平滑的系統及方法 |
GB2587357A (en) * | 2019-09-24 | 2021-03-31 | Nokia Technologies Oy | Audio processing |
US10841728B1 (en) | 2019-10-10 | 2020-11-17 | Boomcloud 360, Inc. | Multi-channel crosstalk processing |
CN112653985B (zh) * | 2019-10-10 | 2022-09-27 | 高迪奥实验室公司 | 使用2声道立体声扬声器处理音频信号的方法和设备 |
GB2594265A (en) * | 2020-04-20 | 2021-10-27 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling rendering of spatial audio signals |
US11373662B2 (en) * | 2020-11-03 | 2022-06-28 | Bose Corporation | Audio system height channel up-mixing |
WO2023147864A1 (en) * | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4298466B2 (ja) * | 2003-10-30 | 2009-07-22 | 日本電信電話株式会社 | 収音方法、装置、プログラム、および記録媒体 |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
KR101271069B1 (ko) | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
US8126152B2 (en) * | 2006-03-28 | 2012-02-28 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for a decoder for multi-channel surround sound |
EP2122612B1 (en) * | 2006-12-07 | 2018-08-15 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
CN101542597B (zh) * | 2007-02-14 | 2013-02-27 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
BRPI0802614A2 (pt) | 2007-02-14 | 2011-08-30 | Lg Electronics Inc | métodos e aparelhos para codificação e decodificação de sinais de áudio baseados em objeto |
BRPI0809760B1 (pt) * | 2007-04-26 | 2020-12-01 | Dolby International Ab | aparelho e método para sintetizar um sinal de saída |
KR101244545B1 (ko) | 2007-10-17 | 2013-03-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 다운믹스를 이용한 오디오 코딩 |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
EP2327072B1 (en) * | 2008-08-14 | 2013-03-20 | Dolby Laboratories Licensing Corporation | Audio signal transformatting |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
CN102667919B (zh) * | 2009-09-29 | 2014-09-10 | 弗兰霍菲尔运输应用研究公司 | 音频信号解码器和编码器、提供上混和下混信号表示型态的方法 |
TWI396186B (zh) * | 2009-11-12 | 2013-05-11 | Nat Cheng Kong University | 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識 |
WO2010086462A2 (en) * | 2010-05-04 | 2010-08-05 | Phonak Ag | Methods for operating a hearing device as well as hearing devices |
-
2012
- 2012-02-21 EP EP12156351A patent/EP2560161A1/en not_active Withdrawn
- 2012-08-09 TW TW101128761A patent/TWI489447B/zh active
- 2012-08-14 RU RU2014110030A patent/RU2631023C2/ru not_active Application Discontinuation
- 2012-08-14 BR BR112014003663-2A patent/BR112014003663B1/pt active IP Right Grant
- 2012-08-14 AU AU2012296895A patent/AU2012296895B2/en active Active
- 2012-08-14 ES ES12745880.0T patent/ES2499640T3/es active Active
- 2012-08-14 MX MX2014001731A patent/MX2014001731A/es active IP Right Grant
- 2012-08-14 CA CA2843820A patent/CA2843820C/en active Active
- 2012-08-14 EP EP12745880.0A patent/EP2617031B1/en active Active
- 2012-08-14 CN CN201280040135.XA patent/CN103765507B/zh active Active
- 2012-08-14 PL PL12745880T patent/PL2617031T3/pl unknown
- 2012-08-14 WO PCT/EP2012/065861 patent/WO2013024085A1/en active Application Filing
- 2012-08-14 KR KR1020147006724A patent/KR101633441B1/ko active IP Right Grant
- 2012-08-14 JP JP2014525429A patent/JP5846460B2/ja active Active
- 2012-08-16 AR ARP120103009A patent/AR087564A1/es active IP Right Grant
-
2014
- 2014-01-22 HK HK14100668.5A patent/HK1187731A1/xx unknown
- 2014-02-13 US US14/180,230 patent/US10339908B2/en active Active
-
2019
- 2019-04-18 US US16/388,713 patent/US10748516B2/en active Active
-
2020
- 2020-08-06 US US16/987,264 patent/US11282485B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR101633441B1 (ko) | 2016-07-08 |
AR087564A1 (es) | 2014-04-03 |
AU2012296895A1 (en) | 2014-02-27 |
US20140233762A1 (en) | 2014-08-21 |
EP2617031B1 (en) | 2014-07-23 |
CN103765507A (zh) | 2014-04-30 |
US20190251938A1 (en) | 2019-08-15 |
KR20140047731A (ko) | 2014-04-22 |
WO2013024085A1 (en) | 2013-02-21 |
CA2843820C (en) | 2016-09-27 |
US10748516B2 (en) | 2020-08-18 |
AU2012296895B2 (en) | 2015-07-16 |
EP2560161A1 (en) | 2013-02-20 |
ES2499640T3 (es) | 2014-09-29 |
US20200372884A1 (en) | 2020-11-26 |
BR112014003663A2 (pt) | 2020-10-27 |
MX2014001731A (es) | 2014-03-27 |
RU2014110030A (ru) | 2015-09-27 |
CN103765507B (zh) | 2016-01-20 |
PL2617031T3 (pl) | 2015-01-30 |
RU2631023C2 (ru) | 2017-09-15 |
US11282485B2 (en) | 2022-03-22 |
JP2014526065A (ja) | 2014-10-02 |
TW201320059A (zh) | 2013-05-16 |
CA2843820A1 (en) | 2013-02-21 |
US10339908B2 (en) | 2019-07-02 |
BR112014003663B1 (pt) | 2021-12-21 |
TWI489447B (zh) | 2015-06-21 |
HK1187731A1 (en) | 2014-04-11 |
EP2617031A1 (en) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5846460B2 (ja) | 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 | |
US9502040B2 (en) | Encoding and decoding of slot positions of events in an audio signal frame | |
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
EP2805326B1 (en) | Spatial audio rendering and encoding | |
RU2419168C1 (ru) | Способ обработки аудиосигнала и устройство для его осуществления | |
KR101396140B1 (ko) | 오디오 객체들의 인코딩과 디코딩 | |
TWI569259B (zh) | 用於基於物件之音訊編碼系統中的通知響度估計之解碼器、編碼器及方法 | |
KR101356586B1 (ko) | 다중 채널 오디오 신호를 생성하기 위한 디코더, 수신기 및 방법 | |
RU2659497C2 (ru) | Управляемое модулем рендеринга пространственное повышающее микширование | |
US20150142453A1 (en) | Encoding and decoding of audio signals | |
JP2013517518A (ja) | ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置および方法 | |
CA3219566A1 (en) | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding | |
KR20120099191A (ko) | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 | |
JP2009503615A (ja) | 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御 | |
TW201034005A (en) | Apparatus, method and computer program for upmixing a downmix audio signal | |
RU2604337C2 (ru) | Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования | |
Hotho et al. | Multichannel coding of applause signals | |
Plogsties et al. | MPEG Sorround binaural rendering-Sorround sound for mobile devices (Binaurale Wiedergabe mit MPEG Sorround-Sorround sound fuer mobile Geraete) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20150501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5846460 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |