JP5846460B2 - 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 - Google Patents

空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 Download PDF

Info

Publication number
JP5846460B2
JP5846460B2 JP2014525429A JP2014525429A JP5846460B2 JP 5846460 B2 JP5846460 B2 JP 5846460B2 JP 2014525429 A JP2014525429 A JP 2014525429A JP 2014525429 A JP2014525429 A JP 2014525429A JP 5846460 B2 JP5846460 B2 JP 5846460B2
Authority
JP
Japan
Prior art keywords
covariance
signal
mixing
matrix
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014525429A
Other languages
English (en)
Other versions
JP2014526065A5 (ja
JP2014526065A (ja
Inventor
ユハ ボルカノ
ユハ ボルカノ
トム バクストレム
トム バクストレム
ファビアン キュッヒ
ファビアン キュッヒ
アヒム クンツ
アヒム クンツ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2014526065A publication Critical patent/JP2014526065A/ja
Publication of JP2014526065A5 publication Critical patent/JP2014526065A5/ja
Application granted granted Critical
Publication of JP5846460B2 publication Critical patent/JP5846460B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/183Channel-assigning means for polyphonic instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Description

本発明は、オーディオ信号処理、特に、最適な混合マトリックスを使用している装置および方法に関し、そして、さらに、空間オーディオ処理におけるデコリレータの使用法に関する。
音声処理は、ますます重要になる。空間オーディオの知覚的処理において、典型的な仮定は、スピーカ再生音の空間的な態様が、特に知覚周波数帯域のオーディオチャネル間のエネルギーと時間整列された依存関係によって決定されることである。これは、スピーカを通じて再生されるときに、これらの特徴が両耳間の聴覚レベルの違い、両耳間の聴覚の時差および両耳間の聴覚の干渉性に導入されるというコンセプトに基づいている。そして、それは空間知覚の両耳の役割である。
このコンセプトから 、さまざまな空間処理方法は、アップミキシングを含めて、わかってきた。以下の文献を参照。
[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,
空間マイクロフォニーは、たとえば以下の文献を参照。
[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007;
および
[3] C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010;
そして、効率的なステレオおよびマルチチャネル伝送は、例えば、以下の文献を参照。
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005;
および
[5] J. Herre, K. Kjoerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
リスニングテストは、各アプリケーションでコンセプトの利益を認識しており、例えば、前記文献[1、4、5]と、例えば、以下の文献を参照。
[6] J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006, V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010; J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005; J. Herre, K. Kjuerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008. J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
全てのこれらの技術は、アプリケーションで異なるにもかかわらず、同じ中心的な作業がある。そして、それは一組の入力チャネルから時間および頻度に対応する定義済みのエネルギーおよび依存を有する一組の出力チャネルを生成することになっている。そして、知覚的な空間オーディオ処理の一般の基礎をなす作業であると、それはみなされ得る。
例えば、指向性を有するオーディオ符号化(DirAC)の状況において、上記文献[2]に見られるように、例えば、ソース・チャネルは典型的に第1のオーダー・スピーカのマイクロホン信号であり、それは、混合、振幅パンニング、および、知覚的に測定された音場に接近するために処理された非相関性によっている。
アップミキシングでは(上記文献[1]を参照)、ステレオの入力チャネルが、サラウンドセットアップに適応的に分布し、再び、時間及び周波数の関数としてある。
一組の入力チャネルから定義済みの特性を有する一組の出力チャネルを生成するために、改良されたコンセプトを提供することが、本発明の目的である。
本発明の目的は、請求項25に記載の方法および請求項26に記載のコンピュータプログラムによって、請求項1に記載の装置により解決される。
2つ以上のオーディオ入力チャネルを有するオーディオ入力信号から2つ以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するための装置が提供される。
装置は、プロバイダおよび信号プロセッサを含む。プロバイダは、オーディオ入力信号の第1の共分散特性を提供するのに適している。信号プロセッサは、2つ以上のオーディオ入力チャネルの内の少なくとも2つに混合則を適用することによって、オーディオ出力信号を生成するように適合されている。
信号プロセッサは、オーディオ入力信号の第1の共分散特性に基づいて、そして、オーディオ出力信号の第2の共分散特性に基づいて、混合則を決定するように構成される。そして、第2の共分散特性は、第1の共分散特性と異なる。
例えば、チャネル・エネルギーと時間整列依存関係は、知覚周波数帯域において、例えば、信号共分散行列の実数部分によって表されることができる。
以下では、このドメイン(領域)内の空間音響を処理するために一般的に適用可能なコンセプトが提示される。
このコンセプトは、入力チャネルの独立構成要素の最良の使用法によって、所与の目標共分散特性(第2の共分散特性)、例えば、伝えられた目標共分散行列に到達するように、適応混合解決案を含む。実施形態において、目標がそうでなければ達成されない場合、非相関音響エネルギーの必要量を注入するために、手段は設けられ得る。
このようなコンセプトは、その機能において堅牢であり、多数の使用事例に適用することができる。目標共分散特性は、例えば、ユーザによって提供されている。例えば、一実施形態に係る装置は、ユーザが共分散特性を入力することができるように、手段を備え得る。
実施形態によれば、プロバイダは、第1の共分散特性を提供するように適合されてもよく、この第1の共分散特性は、時間・周波数ビン(time-frequency bin)のための第1の状態を有し、当該第1の共分散特性は、第1の時間・周波数ビンとは異なる、第2の時間・周波数ビンのために、第1の状態とは異なる第2の状態を有する。
プロバイダは、必ずしも共分散特性を得るための分析を実行する必要はなく、記憶装置、ユーザ入力からまたは同様のソースからこのデータを提供することができる。
別の実施形態において、信号プロセッサは、第2の共分散特性に基づいて混合則を決定するように適合されてもよく、この第2の共分散特性は、時間・周波数ビンのための第3の状態を有し、当該第2の共分散特性は、第3の時間・周波数ビンとは異なる第4の時間・周波数ビンの第3の状態とは異なる、第4の状態を有する。
別の実施形態によれば、信号プロセッサは、2つ以上のオーディオ出力チャネルがそれぞれ2つ以上のオーディオ入力チャネルの各1つに依存するように、混合則を適用することにより、オーディオ出力信号を生成するのに適している。
別の実施形態では、信号プロセッサは、誤差測度が最小となるように混合則を決定するように適合され得る。エラー計測は、例えば、基準出力信号および実際の出力信号間の絶対差信号でもよい。
Figure 0005846460
Figure 0005846460
さらなる実施形態によれば、信号プロセッサは、第2の共分散特性を決定することによって、混合則を測定するように構成することができる。そこにおいて、信号プロセッサは、第1の共分散特性に基づいて、第2の共分散特性を決定するように構成することができる。
さらなる実施形態によれば、信号プロセッサは、混合則として混合マトリックスを決定するのに適合され得る。そこにおいて、信号プロセッサは、第1の共分散特性に基づいて、そして、第2の共分散特性に基づいて混合マトリックスを決定するのに適合され得る。
他の実施形態では、プロバイダは、オーディオ入力信号の第1の共分散行列を決定することによって、第1の共分散特性を分析するように適合し得る。そして、信号プロセッサは、オーディオ出力信号の第2の共分散行列に基づいて、第2の共分散特性として混合則を決定するように構成することができる。
別の実施形態例によれば、プロバイダは、第1の共分散行列の対角値が、それぞれ、オーディオ入力チャネルのうちの1つのエネルギーを示すことができるように、そして、対角値でない第1の共分散行列の値が、それぞれ、第1のオーディオ入力チャネルおよび異なる第2のオーディオ入力チャネル間のチャネル間相関(インター・チャネル相関)を示すことができるように、第1の共分散行列を決定するのに適していてもよい。
さらなる実施形態によれば、第2の共分散行列に基づいて混合則を決定するように、信号プロセッサは構成され得る。そこにおいて、第2の共分散行列の各対角値は音声出力チャネルの内の1つのエネルギーを示すことができる、そして、対角値でない 第2の共分散行列の各値は、第1のオーディオ出力チャネルおよび第2のオーディオ出力チャネル間のチャネル間相関を示すことができる。
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
本発明の好ましい実施形態は、以下、図面を参照しながら説明する。
Figure 0005846460
図1は、本実施形態に係る2つ以上のオーディオ入力チャネルを有するオーディオ入力信号から2つ以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するための装置を例示する図である。
装置は、プロバイダ110および信号プロセッサ120を含む。プロバイダ110は、2つ以上のオーディオ入力チャネルを有するオーディオ入力信号を受信するのに適している。さらに、プロバイダ110は、オーディオ入力信号の第1の共分散特性を分析するのに適している。プロバイダ110は、さらに、信号プロセッサ120に第1の共分散特性を提供するのに適している。信号プロセッサ120は、さらに、オーディオ入力信号を受信するのに適している。
また、信号プロセッサ120は、オーディオ入力信号の2つ以上の入力チャネルの少なくとも2つに混合則を適用することによってオーディオ出力信号を生成するように適合されている。
信号プロセッサ120は、オーディオ入力信号の第1の共分散特性に基づいて、そして、オーディオ出力信号の第2の共分散特性に基づいて、混合則を決定するように構成される。そして、第2の共分散特性は、第1の共分散特性と異なる。
図2は、実施形態に係る信号プロセッサを例示する図である。
信号プロセッサは、最適な混合マトリックス定式化装置210および音声ミキサ220を含む。最適な混合マトリックス定式化装置210は、最適な混合マトリックスを作成する。これのために、最適な混合マトリックス定式化装置210は、例えば、図1の実施形態のプロバイダ110によって受信されるように、ステレオまたはマルチチャネルの周波数帯音声入力信号の第1の共分散特性230(例えば入力共分散特性)を使用する。
さらに、最適な混合マトリックス定式化装置210は、第2の共分散特性240、例えば目標共分散行列に基づいて、混合マトリックスを決定する。そして、それは従属するアプリケーションであってもよい。最適な混合マトリックス定式化装置210によって作成される最適な混合マトリックスは、チャネル・マッピング・マトリックスとして用いられることができる。
それから、最適な混合マトリックスは、混合ユニット220に提供することができる。混合ユニット220は、オーディオ出力信号のステレオまたはマルチチャネルの周波数帯域の出力を得るように、ステレオまたはマルチチャネルの周波数帯域の入力に最適な混合行列を適用する。オーディオ出力信号は、所望の第2の共分散特性(目標共分散特性)を有する。
Figure 0005846460
ゼロで埋められた信号は、定式化において、派生した解決が異なるベクトル長に拡張されるまで用いられ得る。
Figure 0005846460
Figure 0005846460
このような分解は、例えばコレスキー分解または固有分解を用いて得られることができ、例えば、[7] Golub, G.H. and Van Loan, C.F., "Matrix computations", Johns Hopkins Univ Press, 1996. を参照することができる。
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
以下では、コンセプトは、共分散行列の修正のために提案されている。
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
解析的に非相関エネルギーの量と小さい信号成分の増幅の間の最適なバランスを見つけることは簡単ではない。これは、それが例えば入力信号、応用解析ウィンドウおよび入力信号のSNRの統計性の安定性のような適用特殊因子に依存するためである。
しかしながら、それは明白な欠点がないこのバランシングを実行する学習的機能を調整することは、それが以下にサンプルコードで行われたように、むしろ簡単である。
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
Figure 0005846460
しかしながら、提案されたコンセプトの最も意味のある使用法は、可能な分散行列だけを要求することである。
上記のものを要約するために、共通のタスクを以下のように言い直すことができる。
第1に、ひとつには、特定の共分散行列を備えた入力信号を有する。
第2に、アプリケーションは、チャネルが各出力チャネルの構成において用いられる目標共分散行列および規則入力の2つのパラメータを定義する。
この変換を実行するために、以下のコンセプトを使用することが提案される。
図2で例示されるように、主要なコンセプトは、入力チャネルの最適な混合の解決策の使用で、目標共分散が達成されるということで目標共分散が入力チャネルを最適に混ぜることの解決を使うことで達成されるということである。それは多くの場合、信号品質を損なうデコリレータの使用を回避するため、このコンセプトは、第一義的であると考えられる。
利用可能な合理的なエネルギーの十分な独立成分がない場合、第2のコンセプトが行われる。非相関化エネルギーは、これらの成分の不足を補うために注入される。一緒に、これらの2つのコンセプトは、任意の所与のシナリオにおけるロバストな共分散行列調整を行うための手段を提供する。
提案されたコンセプトの主要な予想されるアプリケーションは、空間マイクロホンの分野である(文献リストの[2]および[3]を参照。)そして、それは、信号共分散に関連した課題が特に指向性マイクロホンの物理的な限定のため明らかである分野である。
さらに予想される使用事例は、ステレオとマルチチャネルの強化、雰囲気抽出、および、アップミキシングとダウンミックスが含まれている。
上記の説明では、提案されているコンセプトの派生に続いて、定義が与えられる。
先ず、クロス混合解決策が提供され、次いで、相関音エネルギーを注入するコンセプトが与えられる。その後、異なる数の入出力チャネルを有するコンセプトの説明が提供され、さらに、共分散行列分解性に配慮されている。
以下に、実用的な使用事例が提供され、そして、一組の数値実施例および結論が提示される。さらにまた、本論文によると、完全な機能を有する実施例、Matlabコードが提供される。
ステレオまたはマルチチャネル音声の知覚される空間特性は、大部分の周波数帯域での信号の共分散行列によって定義される。
コンセプトは、最適に提供され、そして、任意に定義可能な共分散特性を有する1セットの出力チャネルに対して所与の共分散特性を有する1セットの入力チャネルが適応的にクロスミックスされる。さらなるコンセプトは、合理的なエネルギーに依存しない音成分が利用できない場合にのみ、必要に応じて非相関化エネルギーを注入するために提供されている。コンセプトは、空間オーディオ信号処理の分野における多種多様な用途を有する。
マルチチャネル信号のチャネル(あるいは共分散行列)間のチャネル・エネルギーおよび依存性は、線形にのみによって制御され、入力特性および所望の目標特性に応じてチャネルを時間的・時変的(time−variantly)にクロスミキシングすることができる。このコンセプトは、ベクトル間の角度の依存関係がチャネルに対応し、ベクトルの振幅が信号レベルに等しい信号のファクター表現で例示することができる。
Figure 0005846460
ステレオ信号のための混合マトリックスは、図3に見られるように、容易に、三角関数で定式化することもできる。結果は、マトリックス数学と同様に同じことであるが、しかし、定式化は異なる。
入力チャネルが大きく依存している場合、目標共分散行列を達成することは、デコリレータを使用するだけで可能である。必要な場合、デコリレータを注入するだけである手順も、例えば、最適に提供されている。
図4は、混合技術を適用する実施例の装置のブロック図を例示する。
装置は、共分散行列分析モジュール410および信号プロセッサ(図示せず)を含み、そこにおいて、信号プロセッサは、混合マトリックスの定式化モジュール420および混合マトリックス・アプリケーション・モジュール430を含む。ステレオであるかマルチチャネル周波数帯入力の入力共分散特性は、共分散行列分析モジュール410によって分析される。共分散行列分析の結果は、混合マトリックスの定式化モジュール420に供給される。
混合マトリックスの定式化モジュール420は、共分散行列分析の結果に基づいて、可能ならエラー基準(誤差評価)に基づいて、混合マトリックスを定式化する。
混合マトリックスの定式化モジュール420は、混合マトリックスを混合マトリックス・アプリケーション・モジュール430に供給する。混合マトリックス・アプリケーション・モジュール430は、例えばあらかじめ定義され、目標共分散行列に応じて目標共分散特性を有しているステレオであるかマルチチャネル周波数帯出力を得るために、ステレオまたはマルチチャネル周波数帯入力上の混合マトリックスを適用する。
上の説明を要約すると、コンセプトで多目的ものは、音質に関して空間音を最適の最大 の程度で強化して、固定すること、および/または、総合することである。目標(例え ば第2の共分散特性)は、アプリケーションによって定義される。
また、フルバンドにおいて適用可能な、コンセプトは、特に周波数バンド処理において知覚的に意味がある。
デコリレータは、チャネル間相関を改善(低減)するために使用される。それらはこれを行うが、特に、過渡音声成分有する、全体的な音質を損なう傾向がある。
提案されたコンセプトは回避するか、または、幾つかのアプリケーションにおいて、デコリレータの使用率が最小限に抑えられる。結果は、音質のそのような損失無しで、同じ空間特性となる。
他の用途の中で、技術は、SAM−MPSエンコーダで使用することができる。
提案されているコンセプトは、第1のオーダーからの信号によりMPEGサラウンドビットストリーム(MPEG = Moving Picture Experts Group)を生成するマイクロホン技術を改善するために実施されている。例えば、既述の文献[3]を参照。
プロセスは、ステレオ信号から方向および周波数帯の音場の拡散を推定して、受信側で復号化されるとき、知覚的に元の音場を近似した音場を生成するように、MPEGサラウンドビットストリームを作成することを含む。
図5において、実施形態に係るMPEGサラウンドエンコーダにコインシデンスステレオマイクロホン信号を示す線図が例示される。そして、それは所与のマイクロホン信号からMPEGサラウンドのダウンミックス信号を生成するために、提案されたコンセプトを使用する。すべての処理は、周波数帯において実行される。
空間データの決定モジュール520は、音場モデル510に応じた方向および拡散情報に基づいて、空間サラウンドデータを含む構成情報データを定式化し、ICCおよび/またはレベルをダウンミックスするのに適している。音場モデル自体は、マイクロホンのICCsの分析およびステレオマイクロホン信号のレベルに基づく。空間データの決定モジュール520は、その後、目標ダウンミックスのICCsおよびレベルを混合マトリックスの定式化モジュール530に提供する。
さらにまた、空間データの決定モジュール520は、空間サラウンドデータを定式化し、MPEGサラウンドの空間サイド情報として、ICCsおよびレベルをダウンミックスするように適合され得る。混合マトリックスの定式化モジュール530は、それから、提供された構成情報データ、例えば目標ダウンミックスのICCsおよびレベルに基づいて混合マトリックスを定式化し、混合モジュール540にマトリックスを供給する。混合モジュール540は、ステレオマイクロホン信号に対して、混合マトリックスを適用する。
これによって、目標ICCsおよびレベルを有して、信号は生成される。目標ICCsおよびレベルを有する信号は、その後、コアコーダ550に提供される。実施形態において、モジュール520、530および540は、信号プロセッサのサブモジュールである。
図5に係る装置によって実行されるプロセス内では、MPEGサラウンドのステレオダウンミックスを生成する必要がある。これは、音質に最小限の影響でレベルおよび所定のステレオ信号のICCsを調整することの必要性を含む。提案されたクロスミキシングのコンセプトは、この目的のために適用され、そして、既述した文献[3]の先行技術の知覚的な利点は観察可能であった。
図6は、MPS−AMエンコーダのためのダウンミックスICC/レベル修正に関連する他の実施形態に係る装置を例示する。
ICCおよびレベル分析は、モジュール602で行われ、そして、音場のモデル610は、モジュール602によって、ICCおよびレベル分析に依存する。モジュール620はモジュール520に対応し、モジュール630はモジュール530に対応し、そして、モジュール640は、図5のモジュール540に、それぞれ、対応する。同じことは、図5のコアコーダー550に対応するコアコーダー650に適用される。
上記のコンセプトは、マイクロホン信号から正確に正しいICCおよびレベルを有するMPSダウンミックスをつくるために、MPS−SAMエンコーダに集積することができる。上述のコンセプトは、デコリレータの使用量を最小限に抑えながら、理想的な空間合成を提供するために、MPSのない直接SAM−マルチチャネルレンダリングでも適用可能である。
改良は、ソース距離(発生源距離)、ソース・ローカライゼーション(音源定位)、安定性、聞き心地および包み込みに関して期待される。
図7は、小さい間隔を置かれたマイクロホン配列のための改良のための実施形態に係る装置を概略的に示す。
モジュール705は、マイクロホン共分散行列を得るために、マイクロホン入力信号の共分散行列分析を行うのに適している。マイクロホン共分散行列は、混合マトリックスの定式化モジュール730に供給される。さらに、マイクロホン共分散行列は、音場モデル710を引き出すために用いられる。音場モデル710は、共分散行列以外の供給源に基づいてもよい。
音場モデルに基づく方向および拡散情報は、その後、目標共分散行列を生成するために、目標共分散行列の定式化モジュール720に供給される。それから、目標共分散行列の定式化モジュール720は、生成された目標共分散行列を混合マトリックスの定式化モジュール730に供給する。
混合マトリックスの定式化モジュール730は、混合マトリックスを生成するのに適していて、生成された混合マトリックスを混合マトリックス・アプリケーション・モジュール740に供給される。混合マトリックス・アプリケーション・モジュール740は、目標共分散特性を有するスピーカマイクロホン出力信号を得るために、スピーカのマイクロホン入力信号上の混合マトリックスを適用するのに適している。
実施形態において、モジュール720、730および740は、信号プロセッサのサブモジュールである。
この種の装置は、DirACおよびSAMのコンセプトに続く。そして、それはオリジナルの音場の方向および拡散を評価し、評価された方向および拡散を最もよく再生するような出力をつくることになっている。この信号処理手順は、正しい空間画像を提供するために、大規模な共分散行列調整を必要とする。処理されたコンセプトは、その解決策である。提案されたコンセプトは、ソース距離(発生源距離)、ソース・ローカライゼーション(音源定位)、および/または音源分離によって、快適性および/または包み込みに注意を向ける。
図8は、ステレオまたはマルチチャネル再生の空間音質のブラインド強化のための実施形態の一例を例示する図である。
モジュール805において、ステレオまたはマルチチャネルの内容の共分散行列分析、例えばICCまたはレベル分析が行われる。それから、エンハンスメント・ルールは、例えば、入力ICCsから出力ICCsを得るために、拡張モジュール815に適用される。
混合マトリックス定式化モジュール830は、モジュール805によって行われる共分散行列分析に基づいて、そして、拡散モジュール815で実行されたエンハンスメント・ルール815を適用することに由来する情報に基づいて行われる混合マトリックスを生成する。その後、混合マトリックスは、目標共分散特性を有する調整されたステレオまたはマルチチャネル内容を得るために、モジュール840のステレオであるかまたはマルチチャネルの内容に適用される。
マルチチャネル音、例えばミックスまたは録音に関して、特に高過ぎるICCに関して、知覚的次善最適性を空間音で発見することは、かなり一般的である。典型的な結果は、幅、包囲、距離、音源分離、音源定位および/または音源の安定性と聞き心地に対して品質を低下する。コンセプトが必要以上に高いICCsを有するアイテムにこれらの特性を改善することができることは、非公式にテストされている。観測された改善は、幅、ソース距離、音源定位/分離、包み込みおよびリスニング快適性(聞き心地の良さ)である。
図9は、細長スピーカ(例えば、タブレット、TV)セットアップの向上のための別の実施形態を例示する。提案されたコンセプトは、スピーカ角度が狭い(例えば、タブレット)再生セットアップにおけるステレオ品質を改善するためのツールとして有益である可能性が高い。以下の提案されたコンセプトが提供される。
・より広いスピーカセットアップにマッチするために、所定の弧の中でソースの再パンニングすること。
・より良い、より広いスピーカセットアップと一致するように、ICCを増大させること。
・所望のバイノーラルキューを作成する直接的な方法がない場合にのみ、クロストークキャンセルを使用して、クロストークキャンセルなどを行うために、より良好な出発点を提供する。
改善は、幅に関して、そして、定期的なクロストークキャンセル、音質および堅牢性(ロバスト性)に関して期待されている。
図10によって説明された別の適用例において、実施形態は、B形式のフォーマット・マイクロホン信号に基づく最適な指向性オーディオコーディング(ディラック)を提供することが示されている。
このように、図10の実施形態は、音声品質を危うくしている不必要な範囲で、非相関を適用すると、同時に起こるマイクロホン信号に基づく最先端技術のディラック(DirAC)ユニットが一致する知見に基づいている。例えば、もし、音場が解析され、拡散されるならば、完全な相関がB−フォーマットは、水平音場(W、X、Y)の場合において、3つのインコヒーレント音成分を提供するとしても、すべてのチャネルに適用される。この効果は、拡散性がゼロである場合を除き、様々な程度で存在する。
さらにまた、仮想マイクロホンを用いて上述のシステムは、仮想マイクロホンがソース角度、スピーカの位置および音場拡散性に応じて異なる音をもたらすので、正しい出力共分散行列(レベルおよびチャネル相関性)を保証しない。
提案されたコンセプトは、次の両方の問題を解決する。 この場合、2つの選択肢が存在する(下記の図の中でのように)。つまり、余分な入力チャネルとして非相関チャネルを提供すること、または、デコリレータ混合コンセプトを使用すること、である。
図10において、モジュール1005は、共分散行列分析を行う。目標分散行列を公式化する場合、目標分散行列の定式化モジュール1018は、音場モデルだけでなくラウドスピーカーの構成も考慮に入れる。さらにまた、混合マトリックス定式化モジュール1030は、共分散行列の分析および目標共分散行列に基づくだけではなく、最適化基準、例えば、モジュール1032により提供されるB形式仮想マイクロホン混合マトリックスを生成している。
音場モデル1010は、図7の音場モデル710に対応することができる。混合マトリックス・アプリケーション・モジュール1040は、図7の混合マトリックス・アプリケーション・モジュール740に対応することができる。
さらなる適用例において、実施形態は、例えば、空間チャネル変換方式の調整、例えばダウンミックスするために提供される。チャネル転換、例えば、22.2のオーディオトラックで自動5.1 ダウンミックスを作ることは、チャネルを崩壊させることを含む。これは、提案されたコンセプトに対処することができる空間イメージの消失または変化を含むことができる。
また、以下の2つの変形例が、存在する。最初のものは、低い数の欠落しているチャネルに対するゼロ-エネルギー・チャネルを定めること以外のチャネルのより高い数の領域で、コンセプトを利用する。他のものは、異なるチャネル番号のためのマトリックス解決を直接定式化する。
Figure 0005846460
表1は、いくつかの予想される使用事例で提案されたコンセプトの作用を例示する数値的な例のセットを示している。マトリックスは、リスト1において提供されるMatlabコード定式化される。リスト1は、図12において例示される。
図12のリスト1は、提案されたコンセプトのMatlabの実施を例示する。Matlabのコードは、各数値実施例で使用され、提案されたコンセプトの一般的な機能性を提供する。
Figure 0005846460
Figure 0005846460
第3の列は、5.0のアップミキシングステレオの場合を示している。
この例では、ステレオミックスの非干渉性成分は、均等且つインコヒーレントにサイドおよびリアスピーカに分配され、そして、コヒーレント成分が中央スピーカに配置されるように、目標共分散行列を設定している。信号の大きさが増加するので、残差信号は再びゼロではない。
第4の列は、インコヒーレントに、オリジナルの2つのリアチャネルが4つの新しいリアチャネルにアップミキシングされる、単純な5.0〜7.0のアップミキシングするケースを示す。この例では、処理は、調整が要求されるこれらのチャネルに集中することを示す。
Figure 0005846460
Figure 0005846460
ステレオおよびマルチチャネル再生時の空間知覚は、特に、知覚的に関連した周波数帯の信号共分散行列に依存することが確認されている。
チャネルの最適なクロスミキシングによって、信号の共分散行列を制御するためのコンセプトが提示されている。合理的なエネルギーの十分な独立信号成分が利用できないケースでは、必要に応じて、非相関エネルギーを供給する手段が提示された。
そのコンセプトは、その目的においてロバストであるとわかった。また、多種多様なアプリケーションが確認された。
Figure 0005846460
Figure 0005846460
上記のシナリオにおいて、システムは、小さい信号成分の大きな増幅を要求しないように、ICC調整が設計されているので、残差信号は、必要とされない。
Figure 0005846460
強化を行うには2通りの方法が記載され、同様の結果が得られます。後者は、マルチチャネル使用事例における実施することが容易である。
最後に、第3の実施例として、ダイレクト/拡散性モデルは、例えば、指向性オーディオコーディング(DirAC)が考慮されている。
Figure 0005846460
若干の態様を装置との関連で説明してきたが、これらの態様は、また対応する方法の説明を表すことが明らかである。ここで、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応している。同様に、方法ステップの関連において説明した態様は、対応するブロックまたは対応する装置の項目や機能の説明を表す。
特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアで実施することができる。
実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して、実施することができる。そして、それぞれの方法が実行されるように、それは、プログラム可能なコンピュータシステムと協同する(または協同することができる)。
本発明の幾つかの実施形態は、電子的に読み取り可能な制御信号を有するデータ記憶媒体を含み、それは、ここに記載された方法の内の1つが行なわれるように、プログラム可能なコンピュータ・システムと協力することができる。
通常、本発明の実施例はプログラムコードを有するコンピュータ・プログラム製品として実施されることができる。そして、コンピュータ・プログラム製品がコンピュータで動く場合、方法のうちの1つを実行するために、プログラムコードが実施されている。プログラムコードは、例えば機械読み取り可読キャリアに格納することができる。
他の実施例は、本願明細書において記載されていて、機械読み取り可読キャリアまたは非一時的記憶媒体上に格納される方法の内の1つを実行するためのコンピュータ・プログラムを含む。
したがって、換言すれば、コンピュータ・プログラムが、コンピュータ上で実行されるとき、本発明の方法の実施形態は、本願明細書において記載されている方法の内の1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
したがって、本発明の方法のさらなる実施形態は、その上に記録され、本願明細書において記載されている方法のうちの1つを実行するために、コンピュータ・プログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
本発明の方法のさらなる実施形態は、従って、データストリームまたは本明細書に記載のいずれかの方法を実行するためのコンピュータ・プログラムを表す信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばインターネットを介して、例えば、データ通信接続を介して転送されるように構成することができる。
更なる実施例は、処理手段としての例えばコンピュータまたはプログラム可能な論理装置)を構成するか、または、本願明細書において記載されている方法の1つを実行するように適合している。
更なる実施例は、本願明細書において記載されている方法のうちの1つを実行するために、その上にコンピュータ・プログラムがインストールされたコンピュータを含む。
いくつかの実施形態では、本願明細書において記載されている方法の機能のいくらかまたは全てを実行するために、プログラム可能な論理装置(例えば、フィールド・プログラム可能なゲート・アレイ)が用いられ得る。
いくつかの実施形態では、フィールド・プログラム可能なゲート・アレイは、本願明細書において記載されている方法の内の1つを実行するために、マイクロプロセッサと協働することができる。通常、その方法は、好ましくは任意のハードウェア装置によって実行される。
上述した実施形態は、本発明の原理のために単に例示的なものである。なお、本明細書に説明された構成、詳細の変更および変形は、他の当業者には明らかであろうことが理解される。したがって、間近に迫った特許クレームの範囲だけによって、そして、本願明細書において実施形態の説明および説明として示される具体的な詳細だけでないことによって制限されることが、意図である。
文献:
[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.
[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.
[3] C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010.
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio," EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005.
[5] J. Herre, K. Kjuerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
[6] J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
[7] Golub, G.H. and Van Loan, C.F., "Matrix computations", Johns Hopkins Univ Press, 1996.
[8] R. Rebonato, P. Jaeckel, "The most general methodology to create a valid correlation matrix for risk management and option pricing purposes", Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.

Claims (26)

  1. 複数のオーディオ入力チャネルを有するオーディオ入力信号から複数のオーディオ出力チャネルを有するオーディオ出力信号を生成する装置であって、
    前記装置は、
    前記オーディオ入力信号の第1の共分散特性を提供するプロバイダ(110)、および
    前記複数のオーディオ入力チャネルの内の少なくとも2つに混合則を適用することによって、前記オーディオ出力信号を生成する信号プロセッサ(120)を含み、
    前記信号プロセッサ(120)は、前記オーディオ入力信号の前記第1の共分散特性に基づいて、そして、前記第1の共分散特性と異なる前記オーディオ出力信号の第2の共分散特性に基づいて、前記混合則を決定するように構成される、装置。
  2. 前記プロバイダ(110)は、前記第1の共分散特性を提供するように適合され、前記第1の共分散特性は、第1の時間−周波数ビンのための第1の状態を有し、前記第1の共分散特性は、前記第1の時間−周波数ビンとは異なる第2の時間−周波数ビンのための前記第1の状態とは異なる第2の状態を有する、請求項1に記載の装置。
  3. 前記信号プロセッサ(120)は、前記第2の共分散特性に基づいて前記混合則を決定するように適合され、前記第2の共分散特性は、第3の時間−周波数ビンのための第3の状態を有し、前記第2の共分散特性は、前記第3の時間−周波数ビンとは異なる第4の時間−周波数ビンのための前記第3の状態とは異なる、第4の状態を有する、請求項1または請求項2に記載の装置。
  4. 前記信号プロセッサ(120)は、前記混合則を適用することによって前記オーディオ出力信号を生成するように適合され、前記複数のオーディオ出力チャネルの各々は、前記2つ以上のオーディオ入力チャネルの各々に依存する、請求項1〜請求項3のいずれか1項に記載の装置。
  5. 前記信号プロセッサ(120)は、誤差測度が最小となるように前記混合則を決定するように適合され、請求項1〜請求項4のいずれか1項に記載の装置。
  6. Figure 0005846460
  7. 前記信号プロセッサ(120)は、前記第2の共分散特性を決定することによって、前記混合則を決定するように構成され、前記信号プロセッサ(120)は、前記第1の共分散特性に基づいて前記第2の共分散特性を決定するように構成されている、請求項1〜請求項6のいずれか1項に記載の装置。
  8. 前記信号プロセッサ(120)は、前記混合則として、混合マトリックスを決定するように適合され、前記信号プロセッサ(120)は、前記第1の共分散特性に基づいて、そして、前記第2の共分散特性に基づいて、前記混合マトリックスを決定するように適合されている、請求項1〜請求項7のいずれか1項に記載の装置。
  9. 前記プロバイダ(110)は、前記オーディオ入力信号の第1の共分散行列を決定することによって前記第1の共分散特性を提供するように適合され、前記信号プロセッサ(120)は、前記第2の共分散特性として、前記オーディオ出力信号の第2の共分散行列に基づいて、前記混合則を決定するように構成されている、請求項1〜請求項8のいずれか1項に記載の装置。
  10. 前記プロバイダ(110)は、前記第1の共分散行列を決定するように適合され、前記第1の共分散行列の各対角値は、前記オーディオ入力チャネルの内の1つのエネルギーを示し、対角値でない前記第1の共分散行列の各値は、第1のオーディオ入力チャネルとは異なる第2のオーディオ入力チャネルとの間のチャネル間相関を示すようになっている、請求項9に記載の装置。
  11. 信号プロセッサ(120)は、前記第2の共分散行列に基づいて、前記混合則を決定するように構成され、前記第2の共分散行列の各対角値は、前記オーディオ出力チャネルの内の1つのエネルギーを示し、対角値ではない前記第2の共分散行列の各値は、第1のオーディオ出力チャネルおよび第2のオーディオ出力チャネル間のチャネル間相関を示すことを特徴とする、請求項9または請求項10に記載の装置。
  12. Figure 0005846460
  13. Figure 0005846460
  14. Figure 0005846460
  15. Figure 0005846460
  16. 前記信号プロセッサ(120)は、中間信号を得るために、前記複数のオーディオ入力チャネルの少なくとも2つに前記混合マトリックスを適用することによって、そして、前記オーディオ出力信号を得るために、前記中間信号に残渣信号rを加えることによって前記オーディオ出力信号を生成するように適合される、請求項14または請求項15に記載の装置。
  17. Figure 0005846460
  18. 前記信号プロセッサ(120)は、
    前記第1の共分散特性に基づいた前記混合則として、混合マトリックスを生成するための混合マトリックス定式化モジュール(420、530、630、730、830、1030)、および
    前記オーディオ出力信号を生成するために、前記オーディオ入力信号に前記混合マトリックスを適用するための混合マトリックスアプリケーションモジュール(430、540、640、740、840、1040)を含む、請求項1に記載の装置。
  19. 前記プロバイダ(110)は、前記第1の共分散特性として分析結果を得るために、前記オーディオ入力信号の入力共分散特性を提供するための共分散行列解析モジュール(410、705、805、1005)を含み、
    前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記分析結果に基づいて、前記混合マトリックスを生成するように適合される、請求項18に記載の装置。
  20. 前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、エラー基準に基づいて、前記混合マトリックスを生成するように適合される、請求項18または請求項19に記載の装置。
  21. 前記信号プロセッサ(120)は、サラウンド空間データ、チャネル間の相関データまたはオーディオ信号レベルデータを有する構成情報データを決定するために、空間データ判定部(520;620)をさらに含み、
    前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記構成情報データに基づいて、前記混合マトリックスを生成するように適合される、請求項18〜請求項20のいずれか1項に記載の装置。
  22. 前記信号プロセッサ(120)は、前記分析結果に基づいて、目標共分散行列を生成するための目標共分散行列定式化モジュール(730、1018)をさらに含み、
    前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記目標共分散行列に基づいて、混合マトリックスを生成するように適合される、請求項19に記載の装置。
  23. 前記目標共分散行列定式化モジュール(1018)は、スピーカの構成に基づいて、前記目標共分散行列を生成するように構成される、請求項22に記載の装置。
  24. 前記信号プロセッサ(120)は、前記入力チャネル間の相関データと異なり、入力チャネル間の相関データに基づいて、出力チャネル間の相関データを取得するための拡張モジュール(815)をさらに含み、
    前記混合マトリックス定式化モジュール(420、530、630、730、830、1030)は、前記出力チャネル間の相関データに基づいて、前記混合マトリックスを生成するように適合される、請求項18〜請求項19に記載の装置。
  25. 複数のオーディオ入力チャネルを有するオーディオ入力信号から複数のオーディオ出力チャネルを有するオーディオ出力信号を生成するための方法であって、
    前記方法は、
    前記オーディオ入力信号の第1の共分散特性を提供するステップ、および
    前記複数のオーディオ入力チャネルの少なくとも2つに混合則を適用することによって、前記オーディオ出力信号を生成するステップを含み、
    前記混合則は、前記オーディオ入力信号の前記第1の共分散特性に基づいて、そして、前記第1の共分散特性とは異なる前記オーディオ出力信号の第2の共分散特性に基づいて決定される、方法。
  26. コンピュータまたはプロセッサ上で実行される、請求項25に記載の方法を実施するためのコンピュータプログラム。
JP2014525429A 2011-08-17 2012-08-14 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法 Active JP5846460B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161524647P 2011-08-17 2011-08-17
US61/524,647 2011-08-17
EP12156351A EP2560161A1 (en) 2011-08-17 2012-02-21 Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP12156351.4 2012-02-21
PCT/EP2012/065861 WO2013024085A1 (en) 2011-08-17 2012-08-14 Optimal mixing matrices and usage of decorrelators in spatial audio processing

Publications (3)

Publication Number Publication Date
JP2014526065A JP2014526065A (ja) 2014-10-02
JP2014526065A5 JP2014526065A5 (ja) 2015-06-25
JP5846460B2 true JP5846460B2 (ja) 2016-01-20

Family

ID=45656296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014525429A Active JP5846460B2 (ja) 2011-08-17 2012-08-14 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法

Country Status (16)

Country Link
US (3) US10339908B2 (ja)
EP (2) EP2560161A1 (ja)
JP (1) JP5846460B2 (ja)
KR (1) KR101633441B1 (ja)
CN (1) CN103765507B (ja)
AR (1) AR087564A1 (ja)
AU (1) AU2012296895B2 (ja)
BR (1) BR112014003663B1 (ja)
CA (1) CA2843820C (ja)
ES (1) ES2499640T3 (ja)
HK (1) HK1187731A1 (ja)
MX (1) MX2014001731A (ja)
PL (1) PL2617031T3 (ja)
RU (1) RU2631023C2 (ja)
TW (1) TWI489447B (ja)
WO (1) WO2013024085A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112014017457A8 (pt) * 2012-01-19 2017-07-04 Koninklijke Philips Nv aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial
JP5930441B2 (ja) * 2012-02-14 2016-06-08 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9769586B2 (en) * 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
KR102161169B1 (ko) * 2013-07-05 2020-09-29 한국전자통신연구원 오디오 신호 처리 방법 및 장치
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
CN110992964B (zh) * 2014-07-01 2023-10-13 韩国电子通信研究院 处理多信道音频信号的方法和装置
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9875756B2 (en) * 2014-12-16 2018-01-23 Psyx Research, Inc. System and method for artifact masking
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
CN112002337A (zh) * 2015-03-03 2020-11-27 杜比实验室特许公司 用于对音频信号进行处理的方法、装置和设备
EP3065422B8 (en) * 2015-03-04 2019-06-12 Starkey Laboratories, Inc. Techniques for increasing processing capability in hear aids
US10448188B2 (en) 2015-09-30 2019-10-15 Dolby Laboratories Licensing Corporation Method and apparatus for generating 3D audio content from two-channel stereo content
CN108886650B (zh) * 2016-01-18 2020-11-03 云加速360公司 用于音频再现的子带空间和串扰消除
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
JP6546351B2 (ja) * 2016-01-19 2019-07-17 ブームクラウド 360 インコーポレイテッド ヘッドマウントスピーカのためのオーディオエンハンスメント
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10979844B2 (en) * 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10313820B2 (en) 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CN114270437A (zh) 2019-06-14 2022-04-01 弗劳恩霍夫应用研究促进协会 参数编码与解码
TW202123221A (zh) * 2019-08-01 2021-06-16 美商杜拜研究特許公司 共變異平滑的系統及方法
GB2587357A (en) * 2019-09-24 2021-03-31 Nokia Technologies Oy Audio processing
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
CN112653985B (zh) * 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals
US11373662B2 (en) * 2020-11-03 2022-06-28 Bose Corporation Audio system height channel up-mixing
WO2023147864A1 (en) * 2022-02-03 2023-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method to transform an audio stream

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4298466B2 (ja) * 2003-10-30 2009-07-22 日本電信電話株式会社 収音方法、装置、プログラム、および記録媒体
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
US8126152B2 (en) * 2006-03-28 2012-02-28 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
EP2122612B1 (en) * 2006-12-07 2018-08-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
BRPI0802614A2 (pt) 2007-02-14 2011-08-30 Lg Electronics Inc métodos e aparelhos para codificação e decodificação de sinais de áudio baseados em objeto
BRPI0809760B1 (pt) * 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
KR101244545B1 (ko) 2007-10-17 2013-03-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다운믹스를 이용한 오디오 코딩
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
KR20100111499A (ko) * 2009-04-07 2010-10-15 삼성전자주식회사 목적음 추출 장치 및 방법
CN102667919B (zh) * 2009-09-29 2014-09-10 弗兰霍菲尔运输应用研究公司 音频信号解码器和编码器、提供上混和下混信号表示型态的方法
TWI396186B (zh) * 2009-11-12 2013-05-11 Nat Cheng Kong University 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識
WO2010086462A2 (en) * 2010-05-04 2010-08-05 Phonak Ag Methods for operating a hearing device as well as hearing devices

Also Published As

Publication number Publication date
KR101633441B1 (ko) 2016-07-08
AR087564A1 (es) 2014-04-03
AU2012296895A1 (en) 2014-02-27
US20140233762A1 (en) 2014-08-21
EP2617031B1 (en) 2014-07-23
CN103765507A (zh) 2014-04-30
US20190251938A1 (en) 2019-08-15
KR20140047731A (ko) 2014-04-22
WO2013024085A1 (en) 2013-02-21
CA2843820C (en) 2016-09-27
US10748516B2 (en) 2020-08-18
AU2012296895B2 (en) 2015-07-16
EP2560161A1 (en) 2013-02-20
ES2499640T3 (es) 2014-09-29
US20200372884A1 (en) 2020-11-26
BR112014003663A2 (pt) 2020-10-27
MX2014001731A (es) 2014-03-27
RU2014110030A (ru) 2015-09-27
CN103765507B (zh) 2016-01-20
PL2617031T3 (pl) 2015-01-30
RU2631023C2 (ru) 2017-09-15
US11282485B2 (en) 2022-03-22
JP2014526065A (ja) 2014-10-02
TW201320059A (zh) 2013-05-16
CA2843820A1 (en) 2013-02-21
US10339908B2 (en) 2019-07-02
BR112014003663B1 (pt) 2021-12-21
TWI489447B (zh) 2015-06-21
HK1187731A1 (en) 2014-04-11
EP2617031A1 (en) 2013-07-24

Similar Documents

Publication Publication Date Title
JP5846460B2 (ja) 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法
US9502040B2 (en) Encoding and decoding of slot positions of events in an audio signal frame
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
EP2805326B1 (en) Spatial audio rendering and encoding
RU2419168C1 (ru) Способ обработки аудиосигнала и устройство для его осуществления
KR101396140B1 (ko) 오디오 객체들의 인코딩과 디코딩
TWI569259B (zh) 用於基於物件之音訊編碼系統中的通知響度估計之解碼器、編碼器及方法
KR101356586B1 (ko) 다중 채널 오디오 신호를 생성하기 위한 디코더, 수신기 및 방법
RU2659497C2 (ru) Управляемое модулем рендеринга пространственное повышающее микширование
US20150142453A1 (en) Encoding and decoding of audio signals
JP2013517518A (ja) ダウンミックス信号と空間パラメータ情報からダイレクト/アンビエンス信号を抽出する装置および方法
CA3219566A1 (en) Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
KR20120099191A (ko) 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
JP2009503615A (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
TW201034005A (en) Apparatus, method and computer program for upmixing a downmix audio signal
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования
Hotho et al. Multichannel coding of applause signals
Plogsties et al. MPEG Sorround binaural rendering-Sorround sound for mobile devices (Binaurale Wiedergabe mit MPEG Sorround-Sorround sound fuer mobile Geraete)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20150501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151111

R150 Certificate of patent or registration of utility model

Ref document number: 5846460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250