JP7000488B2 - マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム - Google Patents

マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム Download PDF

Info

Publication number
JP7000488B2
JP7000488B2 JP2020066343A JP2020066343A JP7000488B2 JP 7000488 B2 JP7000488 B2 JP 7000488B2 JP 2020066343 A JP2020066343 A JP 2020066343A JP 2020066343 A JP2020066343 A JP 2020066343A JP 7000488 B2 JP7000488 B2 JP 7000488B2
Authority
JP
Japan
Prior art keywords
channel
signals
audio
uncorrelator
uncorrelated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020066343A
Other languages
English (en)
Other versions
JP2020120389A (ja
Inventor
サッシャ ディスヒ
ハラルド フックス
オリヴァー ヘルムート
ユールゲン ヘレ
アドリアン モルタザ
ヨウニ パウルス
ファルコ リッダーブッシュ
レオン テレンチエフ
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2020120389A publication Critical patent/JP2020120389A/ja
Application granted granted Critical
Publication of JP7000488B2 publication Critical patent/JP7000488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Description

本発明による実施の形態は、複数の非相関器入力信号に基づいて、複数の非相関化信号を供給するためのマルチチャネル非相関器に関する。
本発明による更なる実施の形態は、符号化表現に基づいて、少なくとも2つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダに関する。
本発明による更なる実施の形態は、少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するためのマルチチャネル・オーディオ・デコーダに関する。
本発明による更なる実施の形態は、複数の非相関器入力信号に基づいて、複数の非相関化信号を供給するための方法に関する。
本発明によるいくつかの実施の形態は、符号化表現に基づいて、少なくとも2つの出力オーディオ信号を供給するための方法に関する。
本発明によるいくつかの実施の形態は、少なくとも2つの入力オーディオ信号に基づいて、符号化表現を供給するための方法に関する。
本発明によるいくつかの実施の形態は、前記方法のうちの1つを実行するためのコンピュータ・プログラムに関する。
本発明によるいくつかの実施の形態は、符号化オーディオ表現に関する。
一般的に言って、本発明によるいくつかの実施の形態は、マルチチャネル・ダウンミックス/アップミックスパラメトリックオーディオ・オブジェクト符号化システムのための非相関化コンセプトに関する。
近年、オーディオ・コンテンツの記憶および送信の需要は、着実に増加した。さらに、オーディオ・コンテンツの記憶および送信のための良質な要件も、着実に増加した。従って、オーディオ・コンテンツの符号化および復号化のためのコンセプトは、強化されている。
例えば、いわゆる、開発された「先進的音響符号化(Advanced Audio Coding(AAC))」は、国際標準ISO/IEC 13818-7:2003において記述されている。さらに、例えば、国際標準ISO/IEC 23003-1:2007において、例えば、記述された、いわゆる「MPEGサラウンド」のように、いくつかの空間的な拡張が作成された。さらに、オーディオ信号の空間的な情報の符号化および復号化のためのさらなる改良が、いわゆる「空間オーディオ・オブジェクト符号化(Spatial Audio Object Coding)」に関する国際標準ISO/IEC 23003-2:2010において記述される。
さらに、良好な符号化効率を有する一般のオーディオ信号およびスピーチ信号の両方を符号化して、マルチチャネル・オーディオ信号を扱うという可能性を提供する切り替え可能なオーディオ符号化/復号化のコンセプトは、いわゆる「統一のスピーチおよびオーディオ符号化(Unified Speech and Audio Object Coding)」に関する国際標準ISO/IEC23003-3:2012において記述される。
さらに、更なる従来の概念が、本記述の最後において言及される参考文献において記述される。
国際公開第2006/026452号
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [Blauert]J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997. [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010. [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. [MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006. [OCD] J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
しかしながら、3次元オーディオ・シーンの効果的な符号化および復号化のためのさらなる進歩的な概念を提供することが切望されている。
本発明による実施の形態は、複数の非相関化入力信号に基づいて、複数の非相関化信号を供給するためのマルチチャネル非相関器をもたらす。マルチチャネル非相関器は、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするように構成され、ここで、K<Nである。マルチチャネル非相関器は、K個の非相関器入力信号の第2のセットに基づいて、K’個の非相関器出力信号の第1のセットを供給するように構成される。マルチチャネル非相関器は、更に、K’個の非相関器出力信号の第1のセットをN’個の非相関器出力信号の第2のセットにアップミックスするように構成され、ここで、N’>K’である。
本発明によるこの実施の形態は、非相関化の複雑さが、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスすることによって低減されるというアイデアに基づいており、K個の非相関器入力信号の第2のセットは、N個の非相関器入力信号の第1のセットよりも少ない信号を含む。従って、例えば、K個の(個々の)非相関器(または個々の非相関化)のみが必要されるように(そして、N個の非相関器を必要としないように)、基本的な非相関器の機能性は、K個の信号(第2のセットのK個の非相関器入力信号)のみに行われる。さらに、N’個の非相関器出力信号を供給するために、アップミックが行われ、K’個の非相関器出力信号の第1のセットは、N’個の非相関器出力信号の第2のセットにアップミックスされる。従って、比較的多数の非相関器入力信号(すなわち、非相関器入力信号の第1のセットのN個の信号)に基づいて、比較的多数の非相関化信号(すなわち、非相関化出力信号の第2のセットのN’個の信号)を得ることが可能である。コアとなる非相関化の機能性は、(例えば、K個の個々の非相関器を使用して)K個の信号のみに基づいて行われる。このように、非相関化の効率における有意な利得は、処理パワーおよびリソース(例えば、エネルギー)を確保しておくために役立つことを実現する。
好ましい実施の形態において、非相関器入力信号の第2のセットの信号の数Kは、非相関器出力信号の第1のセットの信号の数K’に等しい。従って、例えば、K個の個々の非相関器があり、各々のそれが、プレミックスから、(非相関器入力信号の第2のセットの)1つの非相関器入力信号を受信し、そして、各々のそれが、アップミックスに、(非相関器出力信号の第1のセットの)1つの非相関器出力信号を供給する。このように、シンプルな個々の非相関器が使用され、各々のそれが、1つの入力信号に基づいて1つの出力信号を供給する。
他の好ましい実施の形態において、非相関器入力信号の第1のセットの信号の数Nは、非相関器出力信号の第2のセットの信号の数N’に等しい。このように、マルチチャネル非相関器がN個の独立した非相関器のバンクのように、外側から出現するように、マルチチャネル非相関器によって受信された信号の数は、マルチチャネル非相関器によって供給された信号の数と等しい(ここで、しかしながら、非相関化の結果は、コアとなる非相関器に対してK個の入力信号のみを使用するためにいくつかの欠陥を含みうる。)。従って、マルチチャネル非相関器は、入力信号および出力信号の等しい数を有する従来の非相関器に完全互換として使用されうる。さらに、例えば、アップミックスは、適度な努力を伴うそのような構造で、プレミックスから導出されうる。
好ましい実施の形態において、非相関器入力信号の第1のセットの信号の数Nは、3以上であり、非相関器出力信号の第2のセットの信号の数N’も、3以上である。そのような場合において、マルチチャネル非相関器は、特に効率よく供給しうる。
好ましい実施の形態において、マルチチャネル非相関器は、プレミキシング行列を使用して(すなわち、線形プレミキシング機能性を使用して)、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするように構成される。この場合において、マルチチャネル非相関器は、(例えば、個々の非相関器を使用して)K個の非相関器入力信号の第2のセットに基づいて、K’個の非相関器出力信号の第1のセットを得るように構成されうる。マルチチャネル非相関器は、ポストミキシング行列を使用して、すなわち、線形ポストミックス関数を使用して、K’個の非相関器出力信号の第1のセットをN’個の非相関器出力信号の第2のセットにアップミックスするようにも構成されうる。従って、歪みが小さく保たれうる。また、プレミックスおよびポストミックス(また、アップミックスとして指定される)は、計算的に効率のよい方法で実行されうる。
好ましい実施の形態において、マルチチャネル非相関器は、N個の非相関器入力信号の第1のセットのチャネル信号が関連している空間的位置に基づいて、プレミキシング行列を選択するように構成されうる。従って、空間依存度(または相関)は、プレミックス処理において考慮され、そして、それは、マルチチャネル非相関器において実行されるプレミックス処理に起因して、過剰分解を回避するのに役立つ。
好ましい実施の形態において、マルチチャネル非相関器は、N個の非相関器入力信号の第1のセットのチャネル信号の相関特性または共分散特性に基づいて、プレミキシング行列を選択するように構成されうる。そのような機能性は、マルチチャネル非相関器によって実行されるプレミックスに起因して、過剰分解を回避するにも役立ちうる。例えば、(すなわち、高い相互相関または高い相互共分散を含む)大いに関係がある(非相関化入力信号の第1のセットの)非相関器入力信号は、例えば、非相関器入力信号の第2のセットの単一の非相関器入力信号に結合され、そして、例えば、(非相関器の主要部の)共通の個々の非相関器によって、その結果として、処理されうる。このように、これは、(オーディオ信号を所望の相互相関特性または相互共分散特性に持ってくるために使用される場合、例えば、空間的な認知を阻害する)典型的に、不適当な非相関器出力信号を結果として得るので、(非相関器入力信号の第1のセットの)実質的に異なる非相関器入力信号は、非相関器の主要部に入力される(非相関器入力信号の第2のセットの)単一の非相関器入力信号にプレミックス(またはダウンミックス)されるのを回避されうる。従って、マルチチャネル非相関器は、信号が、非相関化の効率およびオーディオ品質の間の良好な妥協を許容するためのプレミックス(またはダウンミックス)処理において結合されうる、知的な方法で決定しうる。
好ましい実施の形態において、プレミキシング行列およびそのエルミートの間の行列積が反転操作に関して良好であるように、マルチチャネル非相関器は、プレミキシング行列を決定するように構成される。従って、プレミキシング行列は、ポストミキシング行列が数値問題なしに決定されうるように選択されうる。
好ましい実施の形態において、マルチチャネル非相関器は、いくつかの行列の乗算および行列の反転操作を使用してプレミキシング行列に基づいてポストミキシング行列を得るように構成される。このような方法で、ポストミキシング行列がプレミキシング処理にうまく適合するように、ポストミキシング行列は、効率よく得られうる。
好ましい実施の形態において、マルチチャネル非相関器は、N個の非相関器入力信号の第1のセットのチャネル信号に関連しているレンダリング構造についての情報を受信するように構成される。この場合において、マルチチャネル非相関器は、レンダリング構造についての情報に基づいて、プレミキシング行列を選択するように構成される。従って、良好なオーディオ品質が得られるように、プレミキシング行列は、レンダリング構造にうまく適応する方法で選択されうる。
好ましい実施の形態において、マルチチャネル非相関器は、プレミックスを実行する場合、オーディオ・シーンの空間的に隣接する位置に関連するN個の非相関器入力信号の第1のセットのチャネル信号を結合するように構成される。このように、オーディオ・シーンの空間的に隣接する位置に関連するチャネル信号が典型的に類似であるという事実が、プレミックスを設定する場合に活用される。その結果として、類似のオーディオ信号が、プレミックスにおいて結合され、非相関器の主要部において同じ個々の非相関器を使用して処理されうる。従って、オーディオ・コンテンツの容認できない劣化が回避されうる。
好ましい実施の形態において、マルチチャネル非相関器は、プレミックスを実行する場合、オーディオ・シーンの垂直な空間的に隣接する位置に関連するN個の非相関器入力信号の第1のセットのチャネル信号を結合するように構成される。このコンセプトは、オーディオ・シーンの垂直な空間的に隣接する位置からのオーディオ信号は、典型的には類似している知見に基づく。さらに、人間の知覚は、オーディオ・シーンの垂直な空間的に隣接する位置に関連する信号の間の差に関して、特別に敏感ではない。従って、オーディオ・シーンの垂直な空間的に隣接する位置に関連するオーディオ信号の結合は、非相関化オーディオ信号に基づいて得られる聴覚印象の実在する劣化を結果として生じないことが分かっている。
好ましい実施の形態において、マルチチャネル非相関器は、左側位置および右側位置を含む空間的な位置の水平のペアに関連するN個の非相関器入力信号の第1のセットのチャネル信号を結合するように構成されうる。空間的な位置の水平のペアに関連するチャネル信号は、典型的には、空間的な印象を得るために使用されるので、左側位置および右側位置を含む空間的な位置の水平のペアに関連するチャネル信号は、典型的には、若干関係することが分かっている。従って、空間的な位置の水平のペアに関連するチャネル信号を結合することは、聴覚印象の適度な劣化を結果として生じないので、例えば、オーディオ・シーンの垂直な空間的に隣接する位置に関連するチャネル信号を結合することが十分でない場合、それは、空間的な位置の水平のペアに関連するチャネル信号を結合するための理にかなった解決策であることが分かっている。
好ましい実施の形態において、マルチチャネル非相関器は、N個の非相関器入力信号の第1のセットの少なくとも4つのチャネル信号を結合するように構成される。ここで、少なくとも4つのチャネル信号のうち少なくとも2つは、オーディオ・シーンの左側における空間的な位置に関連し、少なくとも4つのチャネル信号のうち少なくとも2つは、オーディオ・シーンの右側における空間的な位置に関連している。従って、効率的な相関化が、かなりの聴覚印象を含むことなく得られうるように、4つ以上のチャネル信号が結合される。
好ましい実施の形態において、結合される少なくとも2つの左側のチャネル信号(すなわち、オーディオ・シーンの左側における空間的な位置に関連するチャネル信号)は、結合される少なくとも2つの右側のチャネル信号(すなわち、オーディオ・シーンの右側における空間的な位置に関連するチャネル信号)に関連している空間的な位置と、オーディオ・シーンの中心面に関して、対称な空間的な位置に関連している。共通の(結合される)非相関化を実行するために有利である、そのような「対称な」空間的な位置に関連している信号は、典型的には、若干関連しているので、「対称な」空間的な位置に関連しているチャネル信号の結合は、典型的には、良好な結果をもたらすことが分かっている。
好ましい実施の形態において、マルチチャネル非相関器は、非相関器入力信号の第2のセットの非相関器入力信号の数Kを低減する複雑さの情報を受信するように構成される。この場合において、マルチチャネル非相関器は、複雑さの情報に基づいて、プレミキシング行列を選択するように構成される。従って、マルチチャネル非相関器は、異なる複雑さの前提条件に柔軟に適合されうる。このように、オーディオ品質と複雑さとの間における妥協に変化をもたせることができる。
好ましい実施の形態において、マルチチャネル非相関器は、複雑さの情報の値の低減に伴って、非相関器入力信号の第2のセットの非相関器入力信号を得るために、一緒に結合される非相関器入力信号の第1のセットの非相関器入力信号の数を除々に(例えば、ステップごとに)増加するように構成される。従って、それは、小さな努力によって複雑さを変えるために許容する複雑さを減少させるために要求される場合、非相関器入力信号の第1のセットの非相関器入力信号を(例えば、非相関器入力信号の第2のセットの単一の非相関器入力信号に)さらに結合することが可能である。
好ましい実施の形態において、複雑さの情報の第1の値に対してプレミックスを実行する場合、マルチチャネル非相関器は、オーディオ・シーンの垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットのチャネル信号のみを結合するように構成される。一方、マルチチャネル非相関器は、複雑さの情報の第2の値に対してプレミックスを実行する場合、非相関器入力信号の第2のセットの所与の信号を得るために、オーディオ・シーンの左側において垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットの少なくとも2つのチャネル信号と、オーディオ・シーンの右側において垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットの少なくとも2つのチャネル信号とを結合するように(も)構成される。換言すれば、複雑さの情報の第1の値に対して、オーディオ・シーンの異なる側からのチャネル信号の結合は、実行されない。それは、オーディオ信号(および、非相関化オーディオ信号に基づいて得られうる、聴覚印象)の特に良好な結果を生じる。その一方、より小さい複雑さが必要とされる場合、水平のコンビネーションは、垂直のコンビネーションに加えて実行されうる。複雑さのステップごとの調整のためのこの合理的コンセプトは分かっており、聴覚印象のいくらかより高い劣化が低減された複雑さのために見つけられる。
好ましい実施の形態において、マルチチャネル非相関器は、N個の非相関器入力信号の第1のセットの少なくとも4つのチャネル信号を結合するように構成され、ここで、複雑さの情報の第2の値のためのプレミックスを実行する場合、少なくとも4つのチャネル信号のうち少なくとも2つは、オーディオ・シーンの左側における空間的な位置に関連し、少なくとも4つのチャネル信号のうち少なくとも2つは、オーディオ・シーンの右側における空間的な位置に関連している。たとえ、チャネル信号が、垂直に隣接していなくても(または、少なくとも完全に垂直に隣接していなくても)、このコンセプトは、比較的低い計算の複雑性が、オーディオ・シーンの左側における空間的な位置に関連している少なくとも2つのチャネル信号およびオーディオ・シーンの右側における空間的な位置に関連している少なくとも2つのチャネル信号を結合することによって得られうるとの知見に基づいている。
好ましい実施の形態において、マルチチャネル非相関器は、非相関器入力信号の第2のセットの第1の非相関器入力信号を得るために、オーディオ・シーンの左側における垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットの少なくとも2つのチャネル信号を結合し、そして、複雑さの情報の第1の値に対する非相関器入力信号の第2のセットの第2の非相関器入力信号を得るために、オーディオ・シーンの右側の垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットの少なくとも2つのチャネル信号を結合するように構成される。さらに、マルチチャネル非相関器は、複雑さの情報の第2の値に対して非相関器入力信号の第2のセットの非相関器入力信号を得るために、オーディオ・シーンの左側において垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットの少なくとも2つのチャネル信号と、オーディオ・シーンの右側における垂直な空間的に隣接する位置に関連しているN個の非相関器入力信号の第1のセットの少なくとも2つのチャネル信号とを結合するように、好ましくは構成される。この場合において、非相関器入力信号の第2のセットの非相関器入力信号の数は、複雑さの情報の第2の値に対してよりも複雑さの情報の第1の値に対して大きい。換言すれば、複雑さの情報の第1の値に対して非相関化入力信号の第2のセットの2つの非相関器入力信号を得るために使用される4つのチャネル信号は、複雑さの情報の第2の値に対して非相関器入力信号の第2のセットの単一の非相関器入力信号を得るために使用されうる。このように、複雑さの情報の第1の値に対して2つの個々の非相関器のための入力信号として役立つ信号は、複雑さの情報の第2の値に対して単一の個々の非相関器を得るための入力信号として役立つように結合される。このように、個々の非相関器の数(または、非相関器入力信号の第2のセットの非相関器入力信号の数)の効率的な低減は、複雑さの情報の低減された値のために得られうる。
本発明による実施の形態は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するためのマルチチャネル・オーディオ・デコーダをもたらす。マルチチャネル・オーディオ・デコーダは、本願明細書で議論されるようなマルチチャネル非相関器を含む。
この実施の形態は、マルチチャネル・オーディオ非相関器が、マルチチャネル・オーディオ・デコーダにおけるアプリケーションのために適切であるという知見に基づく。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて、符号化表現に基づいて得られた複数の復号化オーディオ信号をレンダリングするように構成される。マルチチャネル・オーディオ・デコーダは、マルチチャネル非相関器を使用して、レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するように構成される。ここで、レンダリングされたオーディオ信号は、非相関器入力信号の第1のセットを構成し、非相関器出力信号の第2のセットは、非相関化オーディオ信号を構成する。マルチチャネル・オーディオ・デコーダは、出力オーディオ信号を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと(非相関化出力信号の第2のセットの)1つ以上の非相関化オーディオ信号を結合するように構成される。本発明による実施の形態は、本願明細書に記載されるマルチチャネル非相関器が、ポストレンダリング処理によく適合しているという知見に基づく。ここで、比較的多数のレンダリングされたオーディオ信号が、マルチチャネル非相関器に入力され、そのとき、比較的多数の非相関化信号が、レンダリングされたオーディオ信号と結合される。さらに、比較的少数の個々の非相関器(マルチシャネル非相関器における複雑さの低減)の使用によって生じる欠陥は、典型的には、マルチチャネル・デコーダによって出力された出力オーディオ信号の品質の激しい劣化を結果として生じないことが分かっている。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、符号化表現に含まれる制御情報に基づいてマルチチャネル非相関器による使用のためにプレミキシング行列を選択するように構成される。従って、非相関化の品質は、特定のオーディオ・コンテンツによく適合するように、オーディオ・エンコーダが非相関化の品質の制御することを可能にし、そして、それは、オーディオ品質と非相関化の複雑さとの間における良好なトレードオフをもたらす。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、オーディオ・シーンの空間的な位置に伴う出力オーディオ信号の配分を記述している出力構造に基づいて、マルチチャネル非相関器による使用のためのプレミキシング行列を選択するように構成される。従って、マルチチャネル非相関器は、特定のレンダリングシナリオに適合し、そして、それは、効率的な非相関化によってオーディオ品質の相当な劣化を回避することに役立つ。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、所与の出力表現のための符号化表現において含まれる制御情報に基づいて、マルチチャネル非相関器による使用のために3つ以上の異なるプレミキシング行列の間で選択するように構成される。この場合において、3つ以上の異なるプレミキシング行列の各々は、K個の非相関器入力信号の第2のセットの信号の異なる数に関連している。このように、非相関化の複雑さは、広い範囲にわたって調整されうる。
好ましい実施の形態において、マルチチャネル・オーディオ・デコーダは、少なくとも2つの出力オーディオ信号を受信するフォーマット変換器またはレンダラによって使用される混合行列(Dconv,Drender)に基づいて、マルチチャネル非相関器による使用のためにプレミキシング行列(Mpre)を選択するように構成される。
0016
他の実施の形態において、マルチチャネル・オーディオ・デコーダは、少なくとも2つの出力オーディオ信号を受信するフォーマット変換器またはレンダラによって使用される混合行列(Dconv,Drender)に等しいマルチチャネル非相関器による使用のためのプレミキシング行列(Mpre)を選択するように構成される。
本発明による実施の形態は、少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給するためのマルチチャネル・オーディオ・エンコーダをもたらす。マルチチャネル・オーディオ・エンコーダは、少なくとも2つの入力オーディオ信号に基づき、1つ以上のダウンミックス信号を供給するように構成される。マルチチャネル・オーディオ・エンコーダは、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータを供給するようにも構成される。さらに、マルチチャネル・オーディオ・エンコーダは、オーディオ・デコーダのサイドで使用されるべき非相関化の複雑さを記述している非相関化複雑さパラメータを供給するように構成される。従って、マルチチャネル・オーディオ・エンコーダは、非相関化の複雑さが、マルチチャネル・オーディオ・エンコーダによって符号化されるオーディオ・コンテンツの前提条件に調整されうるように、上記のマルチチャネル・オーディオ・デコーダを制御しうる。
本発明による他の実施の形態は、複数の非相関器入力信号に基づき複数の非相関化信号を供給するための方法をもたらす。方法は、K<Nであり、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするステップを含む。方法は、K個の非相関器入力信号の第2のセットに基づくK’個の非相関器出力信号の第1のセットを供給するステップも含む。さらに、方法は、N’>K’であり、K’個の非相関器出力信号の第1のセットをN’個の非相関器出力信号の第2のセットにアップミックスするステップを含む。この方法は、上記のマルチチャネル非相関器として同様のアイデアに基づく。
本発明による他の実施の形態は、符号化表現に基づく少なくとも2つの出力オーディオ信号を供給するための方法をもたらす。方法は、上記に記載される複数の非相関器入力信号に基づく複数の非相関化信号を供給するステップを含む。この方法は、前述のマルチチャネル・オーディオ・デコーダとしての同様の知見に基づく。
他の実施の形態は、少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するための方法をもたらす。方法は、少なくとも2つの入力オーディオ信号に基づく1つ以上のダウンミックス信号を供給するステップを含む。方法は、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータを供給するステップも含む。さらに、方法は、オーディオ・デコーダのサイドにおいて使用される非相関化の複雑さを記述している非相関化複雑さパラメータを供給するステップを含む。この方法は、上記のオーディオ・エンコーダとしての同様のアイデアに基づく。
さらに、本発明による実施の形態は、前記の方法を実行するためのコンピュータ・プログラムをもたらす。
本発明による他の実施の形態は、符号化オーディオ表現をもたらす。符号化オーディオ表現は、ダウンミックス信号の符号化表現および少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現を含む。さらに、符号化オーディオ表現は、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータを含む。従って、符号化オーディオ表現は、上記のマルチチャネル非相関器と同様に上記のマルチチャネル・オーディオ・デコーダを制御することを許容する。
さらに、上記の方法は、前述の装置に関して記述されるいくつかの特徴および機能性によって補充される点に留意されたい。
本発明の好ましい実施の形態は、添付の図面に関してその後述べられる。
図1は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダのブロック概略図を示す。 図2は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダのブロック概略図を示す。 図3は、本発明の実施の形態による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法のフローチャートを示す。 図4は、本発明の実施の形態による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給するための方法のフローチャートを示す。 図5は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。 図6は、本発明の実施の形態によるマルチチャネル非相関器のブロック概略図を示す。 図7は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダのブロック概略図を示す。 図8は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダのブロック概略図を示す。 図9は、本発明の実施の形態による複数の非相関化入力信号に基づいて複数の非相関化信号を供給するための方法のフローチャートを示す。 図10は、本発明の実施の形態による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法のフローチャートを示す。 図11は、本発明の実施の形態による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給するための方法のフローチャートを示す。 図12は、本発明の実施の形態による符号化表現の概略図を示す。 図13は、パラメトリックダウンミックス/アップミックスのコンセプトに基づくMMSEの概観を提供する概略図である。 図14は、3次元空間における直角原理のための幾何学的な表現を示す。 図15は、本発明の実施の形態によるレンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムのブロック概略図を示す。 図16は、非相関化装置のブロック概略図を示す。 図17は、本発明の実施の形態による低減された複雑さの非相関化装置のブロック概略図を示す。 図18は、本発明の実施の形態によるスピーカ位置のテーブル表現を示す。 図19aは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19bは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19cは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19dは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19eは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19fは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図19gは、N=22およびKが5と11との間であるプレミキシング係数のテーブル表現を示す。 図20aは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図20bは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図20cは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図20dは、N=10およびKが2と5との間であるプレミキシング係数のテーブル表現を示す。 図21aは、N=8およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21bは、N=8およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21cは、N=8およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21dは、N=7およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21eは、N=7およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図21fは、N=7およびKが2と4との間であるプレミキシング係数のテーブル表現を示す。 図22aは、N=5およびK=3である係数のプレミキシングのテーブル表現を示す。 図22bは、N=5およびK=2であるプレミキシング係数のテーブル表現を示す。 図23は、N=2およびK=1であるプレミキシング係数のテーブル表現を示す。 図24は、チャネル信号のグループのテーブル表現を示す。 図25は、SAOCSpecifigConfig()の構文または同等のSAOC3DSpecificConfig()に含まれる付加的なパラメータの構文表現を示す。 図26は、ビットストリーム変数bsDecorrelationMethodのための異なる値のテーブル表現を示す。 図27は、ビットストリーム変数bsDecorrelationLevelによって指し示される異なる非相関化レベルおよび出力構成のための非相関器の数のテーブル表現を示す。 図28は、ブロック概略図の形式において、3Dオーディオ・エンコーダの上の概要を示す。 図29は、ブロック概略図の形式において、3Dオーディオ・デコーダの上の概要を示す。 図30は、フォーマット変換器の構造のブロック概略図を示す。 図31は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。 図32は、SAOCダウンミックスオブジェクトの異なる数のための復号化モードのテーブル表現を示す。 図33a-1は、ビットストリーム要素「SAOC3DSpecificConfig」の構文表現を示す。 図33a-2は、ビットストリーム要素「SAOC3DSpecificConfig」の構文表現を示す。 図33bは、ビットストリーム要素「SAOC3DSpecificConfig」の構文表現を示す。
1.図1によるマルチチャネル・オーディオ・デコーダ
図1は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ100のブロック概略図を示す。
マルチチャネル・オーディオ・デコーダ100は、符号化表現110を受信して、それに基づいて、少なくとも2つの出力オーディオ信号112,114を供給するように構成される。
好ましくは、マルチチャネル・オーディオ・デコーダ100は、符号化表現110に基づいて復号化オーディオ信号122を供給するように構成されるデコーダ120を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、複数のレンダリングされたオーディオ信号134,136を得るために、1つ以上のレンダリング・パラメータ132に基づいて、(例えば、デコーダ120によって)符号化表現110に基づいて得られる複数の復号化オーディオ信号122をレンダリングするために構成されるレンダラ130を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、レンダリングされたオーディオ信号134,136から1つ以上の非相関化オーディオ信号142,144を導出するように構成される非相関器140を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、出力オーディオ信号112,114を得るために、レンダリングされたオーディオ信号134,136またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号142,144とを結合するように構成されるコンバイナ150を含む。
しかしながら、上記の機能が与えられる限り、マルチチャネル・オーディオ・デコーダ100の異なるハードウェア構成が可能である点に留意されたい。
マルチチャネル・オーディオ・デコーダ100の機能に関して、非相関化オーディオ信号142,144は、レンダリングされたオーディオ信号134,136から導出され、非相関化オーディオ信号142,144は、出力オーディオ信号112,114を得るために、レンダリングされたオーディオ信号134,136と結合される点に留意されたい。レンダリングされたオーディオ信号134,136から非相関化オーディオ信号142,144を導出することによって、レンダリングされたオーディオ信号134,136の数は、典型的には、レンダラ130に入力される復号化オーディオ信号122の数から独立しているので、特に効果的な処理が達成されうる。このように、典型的には、非相関化の効果は、実施効率を改善する復号化オーディオ信号122の数から独立している。さらに、レンダリングの後の非相関化を適用することは、非相関化がレンダリングの前に適用される場合において、複数の非相関化信号を結合する場合に、レンダラによって引き起こされるアーティファクトの導入を回避する。さらに、レンダリングされたオーディオ信号の特性は、典型的には、良好な品質の出力オーディオ信号を結果として得る非相関器140によって実行される非相関化において考慮されうる。
さらに、マルチチャネル・オーディオ・デコーダ100が、本願明細書において記載されている特徴および機能によって補充されうる点に留意されたい。特に、本願明細書において記載されるような個々の改良は、それによる処理の効率化および/または出力オーディオ信号の品質の改良のために、マルチチャネル・オーディオ・デコーダ100に導入されうる点に留意されたい。
2.図2によるマルチチャネル・オーディオ・エンコーダ
図2は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ200のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ200は、2つ以上の入力オーディオ信号210,212を受信し、それに基づいて符号化表現214を供給するように構成される。マルチチャネル・オーディオ・エンコーダは、少なくとも2つ以上の入力オーディオ信号210,212に基づいて、1つ以上のダウンミックス信号222を供給するように構成されるダウンミックス信号プロバイダ220を含む。さらに、マルチチャネル・オーディオ・エンコーダ200は、少なくとも2つの入力オーディオ信号210,214の間の関係(例えば、相互相関、相互共分散、レベル差等)を記述している1つ以上のパラメータ232を供給するように構成されるパラメータ・プロバイダ230を含む。
さらに、マルチチャネル・オーディオ・エンコーダ200は、オーディオ・デコーダのサイドにおいて使用されるべき複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータ242を供給するように構成される非相関化方法パラメータ・プロバイダ240も含む。1つ以上のダウンミックス信号222、1つ以上のパラメータ232および非相関化方法パラメータ242は、例えば、符号化表現214に、符号化の形式で含まれる。
しかしながら、上記のような機能が満足される限り、マルチチャネル・オーディオ・エンコーダ200のハードウェア構成は異なりうることに留意されたい。換言すれば、個々のブロック(例えば、ダウンミックス信号プロバイダ220に、パラメータ・プロバイダ230に、そして非相関化方法パラメータ・プロバイダ240に)マルチチャネル・オーディオ・エンコーダ200の機能の配分は、例として、考慮されるべきである。
マルチチャネル・オーディオ・エンコーダ200の機能に関して、1つ以上のダウンミックス信号222および1つ以上のパラメータ232が、例えば、SAOCマルチチャネル・オーディオ・エンコーダまたはUSACマルチチャネル・オーディオ・エンコーダにおけるような従来の方法において供給される点に留意されたい。しかしながら、マルチチャネル・オーディオ・エンコーダ200によっても供給され、そして、符号化表現214に含まれる非相関化方法パラメータ242は、入力オーディオ信号210,212にまたは所望の再生品質に非相関化モードを適用するために使用されうる。従って、非相関化モードは、オーディオ・コンテンツの異なるタイプに適用されうる。例えば、異なる非相関化モードは、入力オーディオ信号210,212が強く相関しているオーディオ・コンテンツのタイプに対して、および入力オーディオ信号210,212が独立しているオーディオ・コンテンツのタイプに対して、選択される。さらに、異なる非相関化モードは、空間印象が特に重要であるオーディオ・コンテンツのタイプに対して、および空間印象がより重要でないかまたは下位の重要性(例えば、個々のチャネルの再生と比較した場合)におけるオーディオ・コンテンツのタイプに対して、非相関化モードパラメータ242によって信号を送信されうる。従って、符号化表現214を受信するマルチチャネル・オーディオ・デコーダは、マルチチャネル・オーディオ・エンコーダ200によって制御され、復号化の複雑さと再生品質の間の最良の可能な妥協をもたらす復号化モードを設定されうる。
さらに、マルチチャネル・オーディオ・エンコーダ200は、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載されている可能な付加的な特徴および改良は、それによって、マルチチャネル・オーディオ・エンコーダ200を改良するように(または強化するように)、個々にまたは組み合わせて、マルチチャネル・オーディオ・エンコーダ200に追加されうる点に留意されたい。
3.図3による少なくとも2つの出力オーディオ信号を供給するための方法
図3は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法300のフローチャートを示す。方法は、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づく符号化表現312に基づいて得られた複数の復号化オーディオをレンダリングするステップ310を含む。方法300は、また、レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するステップ320を含む。方法300は、また、出力オーディオ信号332を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するステップ330を含む。
方法300は、図1によるマルチチャネル・オーディオ・デコーダ100と同じ考察に基づく点に留意されたい。さらに、方法300は、(個々に、または組み合わせて)本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、方法300は、本願明細書において記載されるマルチチャネル・オーディオ・デコーダに関する特徴および機能のいずれかによって補充されうる点に留意されたい。
4.図4による符号化表現を提供するための方法
図4は、少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するための方法400のフローチャートを示す。方法400は、少なくとも2つの入力オーディオ信号に基づく1つ以上のダウンミックス信号を供給するステップ410を含む。さらに、方法400は、少なくとも2つの入力オーディオ信号412の間の関係を記述している1つ以上のパラメータを供給するステップ420と、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップ430とを含む。従って、好ましくは、1つ以上のダウンミックス信号の符号化表現、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ、および非相関化方法パラメータを含む符号化表現432が供給される。
上記の説明も適用されるように、方法400は、マルチチャネル・オーディオ・エンコーダ200と同じ考察に基づく点に留意されたい。
さらに、ステップ410,420,430の命令は、柔軟に変化することができ、これが、方法400のための実行環境において可能な限り、ステップ410,420,430も、並行して実行可能である点に留意されたい。さらに、方法400は、個々に、または組み合わせて、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、方法400は、マルチチャネル・オーディオ・エンコーダに関して本願明細書において記載される特徴および機能のいずれかによって補充されうる。しかしながら、符号化表現432を受信する本願明細書に記載されるマルチチャネル・オーディオ・デコーダの特徴および機能に対応する特徴および機能を含むことも可能である。
5.図5による符号化オーディオ表現
図5は、本発明の実施の形態による符号化オーディオ表現500の概略図を示す。
符号化オーディオ表現500は、ダウンミックス信号の符号化表現510、少なくとも2つのオーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現520を含む。さらに、符号化オーディオ表現500は、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータ530も含む。従って、符号化オーディオ表現は、オーディオ・エンコーダからオーディオ・デコーダに非相関化モードの信号を送信することを許容する。従って、符号化オーディオ表現は、(例えば、1つ以上のダウンミックス信号の符号化表現510によって、および少なくとも2つのオーディオ信号(例えば、1つ以上のダウンミックス信号の符号化表現510にダウンミックスされている少なくとも2つのオーディオ信号))の間の関係を記述している1つ以上のパラメータの符号化表現520によって記述されるオーディオ・コンテンツの特性によく適応される非相関化モードを得ることが可能である。このように、符号化オーディオ表現500は、特に良好な聴覚器官の空間印象および/または特に、聴覚器官の空間印象と復号化の複雑さとの間の良好なトレードオフを伴う符号化オーディオ表現500によって表わされるオーディオ・コンテンツのレンダリングを許容する。
さらに、符号化表現500が、個々に、または組み合わせて、マルチチャネル・オーディオ・エンコーダおよびマルチチャネル・オーディオ・デコーダに関して記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
6.図6によるマルチチャネル非相関器
図6は、本発明の実施の形態によるマルチチャネル非相関器600のブロック概略図を示す。
マルチチャネル非相関器600は、N個の非相関器入力信号610a~610nの第1のセットを受信し、それに基づいて、N’個の非相関器出力信号612a~612n’の第2のセットを供給するように構成される。換言すると、マルチチャネル非相関器600は、非相関器入力信号610a~610nに基づいて複数の(少なくともおよそ)非相関化信号612a~612n’を提供するように構成される。
マルチチャネル非相関器600は、N個の非相関器入力信号610a~610nの第1のセットをK個の非相関器入力信号622a~622kの第2のセットにプレミックスするように構成される、プレミキサ620を含み、Kは、Nよりも小さい(KおよびNは整数である)。マルチチャネル非相関器600は、K個の非相関器入力信号622a~622kの第2のセットに基づいてK’個の非相関器出力信号632a~632k’の第1のセットを供給するように構成される非相関化(または非相関器の主要部)630も含む。さらに、マルチチャネル非相関器は、K’個の非相関器出力信号632a~632k’の第1のセットをN’個の非相関器出力信号612a~612n’の第2のセットにアップミックスするように構成されるポスト・ミキサ640を含み、N’はK’より大きい(N’およびK’は整数である)。
しかしながら、マルチチャネル非相関器600の所与の構成は、例として考慮されるべきであり、本願明細書において記載されている機能が提供される限り、マルチチャネル非相関器600を機能的なブロック(例えば、プレミキサ620、非相関化もしくは非相関器の主要部630、およびポスト・ミキサ640)にさらに分割することは必要ない点に留意されたい。
マルチチャネル非相関器600の機能に関して、現実の非相関化が、例えば、直接、N個の非相関器入力信号が適用されるコンセプトを比較したとき、N個の非相関器入力信号の第1のセットからK個の非相関器入力信号の第2のセットを導出するようにプレミックスを実行し、そして、(プレミックスされまたは「ダウンミックされた」)K個の非相関器入力信号の第2のセットに基づいて非相関化を実行するコンセプトは、複雑さの低減をもたらすことに留意されたい。さらに、N’個の非相関器出力信号の第2の(アップミックスされた)セットは、アップミキサ640によって実行されうるポストミキシングに基づいて、現実の非相関化の結果である非相関器出力信号の第1の(元の)セットに基づいて得られる。このように、マルチチャネル非相関器600は、(外側からみられたとき)効果的にN個の非相関器入力信号を受信し、そして、それに基づいて、N’個の非相関器出力信号を供給する。その一方で、現実の非相関器の主要部630は、より少ない数の信号(すなわち、K個の非相関器入力信号の第2のセットのK個のダウンミックスされた非相関器入力信号622a~622k)のみを処理するだけである。このように、マルチチャネル非相関器600の複雑さは、従来の非相関器と比較したとき、非相関化(または非相関器の主要部)630の入力サイドでの(好ましくは、いかなる非相関化の機能のない線形のプレミキシングである)ダウンミックまたは「プレミキシング」を実行することによって、そして、非相関化(または非相関器の主要部)630の(元の)出力信号632a~632k’に基づいて、(例えば、いかなる追加の非相関化の機能のない線形のアップミキシングである)アップミキシングまたは「ポストミキシング」を実行することによって、実質的に低減されうる。
さらに、マルチチャネル非相関器600は、マルチチャネル非相関化に関して、またマルチチャネル・オーディオ・デコーダにも関して、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載される特徴は、それによって、マルチチャネル非相関器600を改良するかまたは強化するように、個々に、または、組み合わせて、マルチチャネル非相関器600に追加されうる点に留意されたい。
複雑さの低減のないマルチチャネル非相関器は、K=N(そして、おそらくK’=N’またはK=N=K’=N’でさえ)、に対して上記したマルチチャネル非相関器から導出されうる点に留意されたい。
7.図7によるマルチチャネル・オーディオ・デコーダ
図7は本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ700のブロック概略図を示す。
マルチチャネル・オーディオ・デコーダ700は、符号化表現710を受信し、それに基づいて、少なくとも2つの出力信号712,714を供給するように構成される。マルチチャネル・オーディオ・デコーダ700は、図6によるマルチチャネル非相関器600と実質的に同一であるマルチチャネル非相関器720を含む。さらに、マルチチャネル・オーディオ・デコーダ700は、従来技術において当業者により知られている、または他のマルチチャネル・オーディオ・デコーダに関して本願明細書に記載されるようなマルチチャネル・オーディオ・デコーダの特徴または機能のいずれかを含みうる。
さらに、マルチチャネル・オーディオ・デコーダ700が、高効率のマルチチャネル非相関器720を使用するので、マルチチャネル・オーディオ・デコーダ700は、従来のマルチチャネル・オーディオ・デコーダと比較した場合、特に高い効率を含む。
8.図8によるマルチチャネル・オーディオ・エンコーダ
図8は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ800のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ800は、少なくとも2つの入力オーディオ信号810,812を受信し、それに基づいて、入力オーディオ信号810,812によって表わされるオーディオ・コンテンツの符号化表現814を供給するように構成される。
マルチチャネル・オーディオ・エンコーダ800は、少なくとも2つの入力オーディオ信号810,812に基づいて1つ以上のダウンミックス信号822を供給するように構成されるダウンミックス信号プロバイダ820を含む。マルチチャネル・オーディオ・エンコーダ800は、入力オーディオ信号810、812に基づいて、1つ以上のパラメータ832(例えば、相互相関パラメータもしくは相互共分散パラメータ、または内部オブジェクト相関パラメータおよび/もしくはオブジェクト・レベル差パラメータ)を供給するように構成されるパラメータ・プロバイダ830も含む。さらに、マルチチャネル・オーディオ・エンコーダ800は、(符号化表現814を受信する)オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータ842を供給するように構成される非相関化複雑さパラメータ・プロバイダ840を含む。1つ以上のダウンミックス信号822、1つ以上のパラメータ832、および非相関化複雑さパラメータ842が、好ましくは符号化形式において符号化表現814に含まれる。
しかしながら、マルチチャネル・オーディオ・エンコーダ800(例えば、ダウンミックス信号プロバイダ820、パラメータ・プロバイダ830および非相関化複雑さパラメータ・プロバイダ840の存在)の内部構造は、単なる例示として考慮されるべきである。異なる構成は、本願明細書に記載されている機能が達成する限り、可能である。
マルチチャネル・オーディオ・エンコーダ800の機能に関して、マルチチャネル・エンコーダは、符号化表現814を供給する点に留意されたい。ここで、1つ以上のダウンミックス信号822および1つ以上のパラメータ832は、(例えば、従来のSAOCオーディオ・エンコーダまたはUSACオーディオ・エンコーダのような)従来のオーディオ・エンコーダによって供給されるダウンミックス信号およびパラメータに近似するか、または等しい。しかしながら、マルチチャネル・オーディオ・エンコーダ800は、オーディオ・デコーダのサイドにおいて適用される非相関化の複雑さを決定することを許容する、非相関化複雑さパラメータ842も供給するように構成される。従って、非相関化の複雑さは、現在符号化されるオーディオ・コンテンツに適応されうる。例えば、入力オーディオ信号の特性についてエンコーダ側の情報に基づいて、達成可能なオーディオ品質に対応する所望の非相関化の複雑さの信号を送信することが可能である。例えば、空間的な特性がオーディオ信号に対して重要であることが分かっている場合、空間的な特性が重要でないとき、非相関化複雑さパラメータ842を使用して、より高い非相関化の複雑さの信号の送信がされうる。あるいは、高い複雑さの非相関化が、他の理由のためのオーディオ・デコーダのサイドで必要とされるような、オーディオ・コンテンツ、または全てのオーディオ・コンテンツの通過であることが分かっている場合、高い非相関化の複雑さの使用は、非相関化複雑さパラメータ842を使用して、信号の送信がされうる。
要約すると、マルチチャネル・オーディオ・エンコーダ800は、信号特性、またはマルチチャネル・オーディオ・エンコーダ800によって設定されうる所望の再生特性に適用される非相関化の複雑さを使用するために、マルチチャネル・オーディオ・デコーダを制御する可能性を提供する。
さらに、マルチチャネル・オーディオ・エンコーダ800が、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記述される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記載される特徴のいくつかまたは全ては、マルチチャネル・オーディオ・エンコーダ800に追加されうる。さらに、マルチチャネル・オーディオ・エンコーダ800は、本願明細書において記載されるマルチチャネル・オーディオ・デコーダとの協力に対して適応されうる。
9.図9による複数の非相関器入力信号に基づいて複数の非相関化信号を供給するための方法
図9は、複数の非相関器入力信号に基づいて、複数の非相関信号を供給するような方法900のフローチャートを示す。
方法900は、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするステップ910を含み、Kは、Nよりも小さい。方法900は、K個の非相関器入力信号の第2のセットに基づいて、K’個の非相関器出力信号の第1のセットを供給するステップ920も含む。例えば、K’個の非相関器出力信号の第1のセットは、非相関化を使用してK個の非相関器入力信号の第2のセットに基づいて供給され、そして、それは、例えば、非相関器の主要部を使用するか、または非相関化アルゴリズムを使用して実行されうる。更に、方法900は、K’個の非相関器出力信号の第1のセットをN’個の非相関器出力信号の第2のセットにポストミックスするステップ930を含み、N’はK’よりも大きい(N’およびK’は整数である)。従って、方法900の出力であるN’個の非相関器出力信号の第2のセットは、方法900に入力されるN個の非相関器入力の第1のセットに基づいて供給されうる。
方法900が、上記のマルチチャネル非相関器と同じ考察に基づく点に留意されたい。さらに、方法900は、個々に、または、組み合わせて、マルチチャネル非相関器に関して(そして、適用できる場合、マルチチャネル・オーディオ・エンコーダに関して)、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
10.図10による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給する方法
図10は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法1000のフローチャートを示す。
方法1000は、符号化表現1012に基づいて少なくとも2つの出力オーディオ信号1014,1016を供給するステップ1010を含む。方法1000は、図9による方法900に従って、複数の非相関器入力信号に基づいて複数の非相関化信号を供給するステップ1020を含む。
方法1000は、図7によるマルチチャネル・オーディオ・デコーダ700と同じ考察に基づく点に留意されたい。
また、方法1000は、個々に、または、組み合わせて、マルチチャネル・デコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
11.図11による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給する方法
図11は、少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給する方法1100のフローチャートを示す。
方法1000は、少なくとも2つの入力オーディオ信号1112,1114に基づいて1つ以上のダウンミックス信号を供給するステップ1110を含む。方法1100は、少なくとも2つの入力オーディオ信号1112,1114の間の関係を記述している1つ以上のパラメータを供給するステップ1120も含む。さらに、方法1100は、オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータを供給するステップ1130を含む。従って、符号化表現1132は、少なくとも2つの入力オーディオ信号1112,1114に基づいて供給される。ここで、符号化表現は、典型的には、符号化形式において、1つ以上のダウンミックス信号、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ、および非相関化複雑さパラメータを含む。
ステップ1110,1120,1130は、並行して、または本発明によるいくつかの実施の形態における異なる命令において実行されうる点に留意されたい。さらに、方法1100は、図8によるマルチチャネル・オーディオ・エンコーダ800として同じ考察に基づき、そして、方法1100は、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。さらに、方法1100は、マルチチャネル・オーディオ・デコーダおよび本願明細書において記載されている少なくとも2つの出力オーディオ信号を供給するための方法をマッチするように適応されうる点に留意されたい。
12.図12による符号化オーディオ表現
図12は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。符号化オーディオ表現1200は、ダウンミックス信号の符号化表現1210、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現1220、およびオーディオ・デコーダのサイドにおいて使用される非相関化の複雑さを記述している符号化非相関化複雑さパラメータ1230を含む。従って、符号化オーディオ表現1200は、改良された復号化効率、および改良されたオーディオ品質または符号化効率とオーディオ品質とのトレードオフの改良の可能性をもたらすマルチチャネル・オーディオ・デコーダによって使用される非相関化の複雑さを調整することを許容する。さらに、符号化オーディオ表現1200は、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって供給されえ、そして、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって使用されうる点に留意されたい。従って、符号化オーディオ表現1200は、マルチチャネル・オーディオ・エンコーダに関しておよびマルチチャネル・オーディオ・デコーダに関して記載される特徴のいずれかによって補充されうる。
13.表記法および基本的な検討事項
近年では、複数のオーディオ・オブジェクトを含んでいるオーディオ・シーンのビットレートの効果的な伝送/格納のためのパラメータの技術は、オーディオ符号化の分野(例えば、参考文献[BCC][JSC][SAOC][SAOC1][SAOC2]を参照)およびインフォームド(informed)音源分離の分野(例えば、参考文献[ISS1][ISS2][ISS3][ISS4][ISS5][ISS6]を参照)において提案されている。これらの技術は、伝送され/格納されたオーディオ・シーンおよび/またはオーディオ・シーンにおける音源オブジェクトを記述している追加のサイド情報に基づいて、所望の出力オーディオ・シーンまたはオーディオ音源オブジェクトを再構成することを意図する。この再構成は、パラメータのインフォームド音源分離方式を使用してデコーダにおいて生じる。さらに、参照は、例えば、国際標準ISO/IEC 23003-1:2007において記載されるいわゆる「MPEG Surround(MPEGサラウンド)」のコンセプトにもなされる。さらに、参照は、国際標準ISO/IEC 23003-2:2010において記載されるいわゆる「Spatial Audio Object Coding(空間オーディオ・オブジェクト符号化)」にもなされる。さらに、参照は、国際規格ISO/IEC 23003-3:2012において記載されるいわゆる「Unified Speech and Audio Coding(音声音響統合符号化方式)」にもなされる。これらの標準からのコンセプトは、例えば、本願明細書において記載されるマルチチャネル・オーディオ・エンコーダおよび本願明細書において記載されるマルチチャネル・オーディオ・デコーダにおいて、本発明による実施の形態において使用される。ここで、いくつかの適応は必要とされうる。
以下に、いくつかの背景情報が、記載される。特に、パラメータの分離方式における概要は、MPEG空間オーディオ・オブジェクト符号化(Spatial Audio Object Coding:SAOC)技術(例えば、参考文献[SAOC]を参照)の実施例を使用して、提供される。この方法の数学的プロパティは、考慮される。
Figure 0007000488000001
Figure 0007000488000002
一般的な損失なしに、方程式の可読性を改良するために、すべての導入される変数に対して、時間および周波数依存を表示しているインデックスは、この明細書において省略される。
13.2 パラメータ分離システム
一般的なパラメータ分離システムは、(例えば、内部チャネル相関値、内部チャネルレベル差値、内部オブジェクト相関値および/またはオブジェクト・レベル差情報のような)補助的なパラメータ情報を使用して信号混合(ダウンミックス)からオーディオ音源の数を推定することを意図する。この作業の典型的な解決は、最小2乗平均誤差(Minimum Mean Squared Error:MMSE)推定アルゴリズムのアプリケーションに基づく。SAOC技術は、パラメトリックオーディオ符号化/復号化システムのような1つの実施例である。
図13は、SAOCエンコーダ/デコーダ構造の一般的な原理を示す。換言すれば、図13は、パラメトリックダウンミックス/アップミックスのコンセプトに基づくMMSEの概観を、ブロック概略図の形式で示す。
エンコーダ1310は、複数のオブジェクト信号1312a,1312b~1312nを受信する。さらに、エンコーダ1310は、例えば、ダウンミックス・パラメータであるミキシング・パラメータD,1314も受信する。エンコーダ1310は、それに基づいて、1つ以上のダウンミックス信号1316a,1316b等を供給する。さらに、エンコーダは、サイド情報1318を供給する。1つ以上のダウンミックス信号およびサイド情報は、例えば、符号化形式で供給されうる。
エンコーダ1310は、典型的には、オブジェクト信号1312a~1312nを受信し、ミキシング・パラメータ1314に基づいて、オブジェクト信号1312a~1312nを結合して(例えば、ダウンミックスして)1つ以上のダウンミックス信号1316a,1316bを作成するように構成されるミキサ1320を含む。さらに、エンコーダは、オブジェクト信号1312a~1312nからサイド情報1318を導出するように構成されるサイド情報推定器1330を含む。例えば、サイド情報推定器1330は、サイド情報が、例えば、(「内部オブジェクト相関」(IOC:inter-object-correlation))として指定されうる)オブジェクト信号の間の相互相関および/または(「オブジェクト・レベル差情報」(OLD:object level information)として指定されうる)オブジェクト信号の間のレベル差を記述している情報である、オブジェクト信号の間の関係を記述するようなサイド情報1318を導出するように構成されうる。
1つ以上のダウンミック信号1316a,1316bおよびサイド情報1318は、参照番号1340に示されるように、デコーダ1350に格納されおよび/または送信されうる。
デコーダ1350は、(例えば、符号化形式で)1つ以上のダウンミックス信号1316a,1316bおよびサイド情報1318を受信し、そして、それに基づいて、複数の出力オーディオ信号1352a~1352nを供給する。デコーダ1350は、(レンダリング行列を定義しうる)1つ以上のレンダリング・パラメータRを含みうるユーザ相互作用情報1354も受信する。デコーダ1350は、パラメトリック・オブジェクト・セパレータ1360、サイド情報プロセッサ1370およびレンダラ1380を含む。サイド情報プロセッサ1370は、サイド情報1318を受信し、それに基づいて、パラメトリック・オブジェクト・セパレータ1360に対して制御情報1372を供給する。パラメトリック・オブジェクト・セパレータ1360は、ダウンミックス信号1360a,1360bおよびサイド情報プロセッサ1370によってサイド情報1318から導出された制御情報1372に基づいて、複数のオブジェクト信号1362a~1362nを供給する。例えば、オブジェクト・セパレータは、符号化ダウンミックス信号およびオブジェクト分離の復号化を実行しうる。レンダラ1380は、それによって出力オーディオ信号1352a~1352nを得るために、再構成オブジェクト信号1362a~1362nをレンダリングする。
以下に、パラメータ・ダウンミックス/アップミックスのコンセプトに基づくMMSEの機能が述べられる。
一般的なパラメトリックダウンミックス/アップミックス処理は、時間/周波数の選択的な方法で実行され、以下のステップのシーケンスとして記載されうる。
・「エンコーダ」1310は、入力された「オーディオ・オブジェクト」Xおよび「ミキシング・パラメータ」Dを有する。「ミキサ」1320は、「ミキシング・パラメータ」D(例えば、ダウンミックスゲイン)を使用して「オーディオ・オブジェクト」Xをいくつかの「ダウンミックス信号」Yにダウンミックスする。「サイド情報推定器」は、入力された「オーディオ・オブジェクト」X(例えば、共分散特性)の特性を記述しているサイド情報1318を抽出する。
・「ダウンミックス信号」Yおよびサイド情報は、送信されるか、または格納される。これらのダウンミックスオーディオ信号は、さらに、オーディオコーダ(例えば、MPEG-1/2 Layer IIまたはIII,MPEG-2/4 Advanced Audio Coding(AAC),MPEG Unified Speech and Audio Coding(USAC)等)を使用して圧縮されうる。サイド情報は、(例えば、オブジェクトパワーおよびオブジェクト相関係数の無損失性符号化関係として)効果的に再構成され、符号化されうる。
Figure 0007000488000003
さらに、エンコーダ1310およびデコーダ1350に関して記載されている機能は、同様に本願明細書において記載されている他のオーディオ・エンコーダおよびオーディオ・デコーダにおいて使用されうる点に留意されたい。
Figure 0007000488000004
Figure 0007000488000005
幾何学的に、図14に示される例によって、これを視覚化しうる。
Figure 0007000488000006
Figure 0007000488000007
Figure 0007000488000008
Figure 0007000488000009
Figure 0007000488000010
我々に、2つのオーディオ信号を使用して音源を再生する実施例を考慮させる。IOC値が1に近い場合、音は、極めて局所化された点の音源として知覚される。IOC値がゼロに近い場合、音源の知覚された幅は増加し、そして、極端な例では、2つの異なった音源としてとして知覚されることさえある[Blauert,第3章]。
13.6 再構成誤りの補償
不完全なパラメトリック再構成の場合、出力信号は、元のオブジェクトと比較して低いエネルギーを示しうる。共分散行列の対角要素の誤差は、(理想的な参照出力と比較して)聞き取れるレベル差、および歪められた空間音像における非対角要素での誤差を結果として得る。提案された方法は、この課題を解決するための目的を有する。
MPEG Surround(MPS)において、例えば、この問題は、いくつかの特定のチャネル・ベースの処理シナリオ、すなわち、モノラル/ステレオダウンミックスおよび限られた静的な出力構造(例えば、モノラル,ステレオ,5.1,7.1等)のためだけに扱われる。SAOCのようにモノラル/ステレオダウンミックスも使用するオブジェクト指向技術において、この課題は、5.1の出力構造だけのためのMPS後処理レンダリングを適用することによって扱われる。
既存の解決策は、標準の出力構成および入出力チャネルの定数に限られる。すなわち、それらは、ちょうど「モノラル対ステレオ」(または「ステレオ対3チャネル」)のチャネル非相関の方法を実装しているいくつかのブロックの結果として生じるアプリケーションとして理解される。
それゆえに、パラメトリック再構成誤りの補償のための一般的な解決策(例えば、エネルギーレベルおよび相関特性修正方法)が所望され、そして、それは柔軟な数のダウンミックス/出力チャネルおよび任意の出力構成セットアップに対して適用されうる。
13.7 結論
結論として、表記法に関する概要が提供された。さらに、パラメトリック分離システムは、本発明による実施の形態がベースであることが述べられた。さらに、最小2乗平均誤差推定に適用される直交原理が概説された。さらに、再構成誤差XErrorの存在において適用する共分散行列EXの算出のための方程式が提供された。また、例えば、本発明による実施の形態において、(パラメトリックサイド情報において含まれうる)内部オブジェクト相関値から所望の共分散特性(または相関特性)を導出し、そして、おそらくオブジェクト・レベル差を形成するために適用されうる、いわゆる内部オブジェクト相関値および共分散行列EXの要素との間の関係が提供された。さらに、再構成オブジェクト信号の特性が、不完全な再構成のため、所望の特性と異なることが概説された。さらに、課題を取り扱う既存の解決策が、いくつかの特定の出力構成に限られており、従来の解決策の変更できない標準ブロックの特定の結合に依拠することが概説された。
14.図15による実施の形態
14.1 コンセプトの概要
本発明による実施の形態は、任意の数のダウンミックス/アップミックスチャネルのための非相関化の解決策を有するパラメトリックオーディオ分離方式において使用されるMMSEパラメトリック再構成方法を拡張する。例えば、発明の装置および発明の方法のような本発明による実施の形態は、パラメトリック再構成の間のエネルギー損失を補償することができ、そして、推定されたオブジェクトの相関特性を復元しうる。
図15は、統合された非相関化経路を有するパラメトリックダウンミックス/アップミックスのコンセプトの概要を提供する。換言すれば、図15は、ブロック概略図の形式において、レンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムを示す。
図15に記載のシステムは、図13に記載のエンコーダ1310と実質的に同一であるエンコーダ1510を含む。エンコーダ1510は、複数のオブジェクト信号1512a~1512nを受信し、そして、それに基づいて、1つ以上のダウンミックス信号1516a,1516bおよびサイド情報1518を供給する。ダウンミックス信号1516a,1516bは、ダウンミックス信号1316a,1316bと実質的に同一でありえ、そして、Yによって指定される。サイド情報1518は、サイド情報1318と実質的に同一でありうる。しかしながら、例えば、サイド情報は、非相関化モードパラメータ、または非相関化方法パラメータ、または非相関化複雑さパラメータを含む。さらに、エンコーダ1510は、ミキシング・パラメータ1514を受信しうる。
パラメトリック再構成システムは、1つ以上のダウンミックス信号1516a,1516bおよびサイド情報1518の送信および/または格納も含む。ここで、送信および/または格納は、1540で指定され、1つ以上のダウンミックス信号1516a,1516bおよび(パラメトリックサイド情報を含みうる)サイド情報1518が、符号化されうる。
さらに、図15によるパラメトリック再構成システムは、送信されまたは格納された1つ以上の(あるいは符号化)ダウンミックス信号1516a,1516bおよび送信されまたは格納された(あるいは符号化)サイド情報1518を受信し、そして、それに基づいて、出力オーディオ信号1552a~1552nを供給するように構成される、デコーダ1550を含む。(マルチチャネル・オーディオ・デコーダとして考慮されうる)デコーダ1550は、パラメトリック・オブジェクト・セパレータ1560およびサイド情報プロセッサ1570を含む。さらに、デコーダ1550は、レンダラ1580、非相関器1590およびミキサ1598を含む。
Figure 0007000488000011
非相関器1590は、レンダリングされたオーディオ信号1582a~1582nを受信し、そして、それに基づいて、Wでも指定される非相関化オーディオ信号1592a~1592nを供給するように構成される。ミキサ1598は、レンダリングされたオーディオ信号1582a~1582nおよび非相関化オーディオ信号1592a~1592nを受信し、そして、レンダリングされたオーディオ信号1582a~1582nと非相関化オーディオ信号1592a~1592nとを結合し、それによって、出力オーディオ信号1552a~1552nを得る。ミキサ1598は、後述するように、符号化サイド情報1518からサイド情報プロセッサ1570によって導出される制御情報1574も使用しうる。
14.2 非相関器の関数
以下に、非相関器1590に関する若干の詳細が記載される。しかしながら、いくつか後述されるように、異なる非相関器のコンセプトが使用されうる点に留意されたい。
Figure 0007000488000012
Figure 0007000488000013
非相関器の関数の実装のための正確な仕様は、この説明の範囲の外である。例えば、MPEG Surround Standardにおいて特定された非相関器に基づく、いくつかの無限インパルス応答(IIR)フィルタのバンクは、非相関化の目的のために利用されうる([MPS])。
Figure 0007000488000014
Figure 0007000488000015
非相関器出力Wは、入力として予測された信号を使用することによって、(予測誤差が予測信号に対して直交することを記憶している)MMSE推定器における予測誤りを補償するように使用されうる。
それは、予測誤差がそれら自身の間において直交する一般的な場合ではない点に留意されたい。このように、結果として得られるミクスチャーの共分散行列(例えば、出力オーディオ信号1552a~1552n)が所望の出力の共分散行列に類似することになるように、本発明のコンセプト(例えば、方法)の目的1つは、「ドライ」(すなわち、非相関器入力)信号(例えば、レンダリングされたオーディオ信号1582a~1582n)および「ウェット」(すなわち、非相関器出力)信号(例えば、非相関化オーディオ信号1592a~1592n)のミクスチャーを作成することである。
さらに、以下に詳細に記載され、そして、しかしながら、受け入れられる、非相関化信号のいくつかの欠点をもたらす、非相関化装置のための複雑さの低減が使用される点に留意されたい。
14.3 非相関化信号を使用している出力共分散修正
以下に、コンセプトが、合理的に良好な聴覚印象を得るように、出力オーディオ信号1552a~1552nの共分散特性を調整することを記載している。
Figure 0007000488000016
Figure 0007000488000017
Figure 0007000488000018
Figure 0007000488000019
理想的に作成されレンダリングされた出力シーンのターゲット共分散Cは、

C=REXH

として、定義される。
Figure 0007000488000020
Figure 0007000488000021
原型の行列Hは、直接的なおよび非相関信号パスのために所望の加重に従って選択されうる。
Figure 0007000488000022
以下に、一般の行列Fの構造のための若干の数学的な導出が提供される。
換言すれば、一般的な解決法のための混合行列Fの導出は、以下において記載される。
共分散行列ESおよびCは、

S=VQVH,C=UTUH

として、例えば、特異値分解(SVD)を使用して表わされ、TおよびQは、それぞれCおよびESの特異値を有する対角行列であり、UおよびVは、特異ベクトルに対応するユニタリ行列である。
(SVDの代わりに)シューア三角化または固有値分解のアプリケーションが、類似の結果(または、対角行列QおよびTが正値に限定される場合、同一の結果)に至ることに留意されたい。
Figure 0007000488000023
Figure 0007000488000024
Figure 0007000488000025
Figure 0007000488000026
結合信号の共分散行列ESの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。
Figure 0007000488000027
しかしながら、あるいは、サイド情報プロセッサ1570は、情報1574として、ミキサ1598に直接的に混合行列Fを供給も、しうる。
さらに、混合行列Fのための計算規則は、特異値分解を使用することを記載されていた。しかしながら、原型行列Hの入力ai,iおよびbi,iが選択されうるので、ある自由度がある点に留意されたい。好ましくは、原型行列Hの入力は、およそ0および1の間で選択される。非相関化オーディオ信号のインパクトは、比較的小さく、そして、それは、若干の状況において望ましくもある一方、値ai,iが1に近づくように選択されうる場合、レンダリングされた出力オーディオ信号の重要な混合がある。しかしながら、レンダリングされたオーディオ信号の間における弱い混合がある一方、若干の他の状況において、非相関化オーディオ信号の比較的大きいインパクトを有することをより望まれうる。この場合、値bi,iは、ai,iより大きいように典型的に選択される。このように、デコーダ1550は、原型行列Hの入力を適切に選択することによって、前提条件に適応されうる。
14.4 出力共分散修正のための簡略化された方法
このセクションにおいて、前述の混合行列Fのための2つの変形例の構造は、その値を決定するための典型的なアルゴリズムとともに記載される。2つの変形例は、異なる入力コンテンツ(例えば、オーディオ・コンテンツ)のために設計される。

- 高い相関コンテンツ(例えば、異なるチャネル対の間の高い相関を伴うチャネル・ベースの入力)のための共分散調整方法
- 独立入力信号(例えば、たいてい独立とみなされる、オブジェクト・ベースの入力)のためのエネルギー補償方法
Figure 0007000488000028
Figure 0007000488000029
Figure 0007000488000030
Figure 0007000488000031
Figure 0007000488000032
Figure 0007000488000033
Figure 0007000488000034
このアプローチは、ドライ出力(例えば、レンダリングされたオーディオ信号1582a~1582n)を使用する良好な相互相関再構成の最大化を確実にし、そして、非相関化信号の混合の自由のみを利用する。換言すれば、レンダリングされたオーディオ信号(または、そのスケール化バージョン)と1つ以上の非相関化オーディオ信号とを結合する場合、異なるレンダリングされたオーディオ信号の間の混合は許容されない。しかしながら、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号は、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンを結合することを許容する。ここで、定義されるように、例えば、結合は、行列Mによって定義される。
以下に、制限行列F構造のためのいくつかの数学的な導出が提供される。
換言すれば、簡略化された方法「A」のための混合行列Mの導出が説明される。
共分散行列ΔEおよびEWは、

ΔE=UTUH,EW=VQVH

として、例えば、特異値分解(SVD)を使用して表わされ、TおよびQは、それぞれΔEおよびEWの特異値を有する対角行列であり、UおよびVは、対応する特異ベクトルを含むユニタリ行列である。
(SVDの代わりに)シューア三角化または固有値分解のアプリケーションが、類似の結果(または、対角行列QおよびTが正値に限定される場合、同一の結果)に至ることに留意されたい。
Figure 0007000488000035
方程式の両側が行列の正方形を表す点に留意して、我々は積算を落とし、全行列Mのために解決する。
Figure 0007000488000036
Figure 0007000488000037
ウェット信号の共分散行列EWの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。
14.4.2 エネルギー補償方法(B)
時々(アプリケーション・シナリオに応じて)、(例えば、レンダリングされたオーディオ信号の)パラメトリック再構成または非相関化信号の混合を許容することを望まないが、しかし、個々に、各パラメータ的に再構成された信号(例えば、レンダリングされたオーディオ信号)とそれ自身の非相関化信号のみを混合することが望ましい。
Figure 0007000488000038
このアプローチの主な目標は、パラメトリック再構成(例えば、レンダリングされたオーディオ信号)におけるエネルギーの損失を補償するように、非相関化信号を使用することになっている一方、出力信号の共分散行列の対角線の修正が無視される、すなわち、相互相関の直接的な取り扱いは、ない。従って、出力オブジェクト/チャネルの間(例えば、レンダリングされたオーディオ信号の間)のクロスリークは、非相関化信号のアプリケーションにおいて導かれない。
その結果、ターゲット共分散行列(または所望の共分散行列)の主対角線のみに達し、非対角は、パラメトリック再構成および付加的な非相関化信号の精度の軽減にある。この方法は、信号が相関関係のないように考慮されるオブジェクトのみのベースのアプリケーションに最も適している。
Figure 0007000488000039
Cは、一般のケースのために前述したように決定されうる。
Figure 0007000488000040
エネルギーは、(例えば、OLD,IOC、およびレンダリング係数を使用して)パラメータ的に再構成されうるか、または、(典型的に、より計算的に価値のある)デコーダによって実質的に算出されうる点に留意されたい。
Figure 0007000488000041
この方法は、明確に、ドライのレンダリングされた出力の使用を最大にする。共分散行列が非対角の入力を有さない場合、方法は、単純化の「A」を伴うものと等価である。
この方法は、低減された計算量の複雑さを有する。
しかしながら、エネルギー補償方法は、相互相関条件が修正されないことを必ずしも意味するものではない点に留意されたい。我々が、理想的な非相関器および非相関化装置のための複雑さの低減でないことを使用する場合だけ、これは保持する。方法の意図は、エネルギーを回復して、交差項における修正を無視することである(交差項における変化は、相関特性を実質的に修正せず、全体の空間印象に影響を及ぼさない)。
14.5 混合行列Fの前提条件
以下に、混合行列F、セクション14.3および14.4において記載されているその導出は、低下を回避する必要性を満たすと説明される。
Figure 0007000488000042
Figure 0007000488000043
Figure 0007000488000044
その結果、このレンダリングシナリオにおいて、ダウンミックス信号に等しいようなシステム出力のための所与の前提条件は満たされる。
14.6 信号共分散行列ESの推定
混合行列Fを得るために、結合信号Sの共分散行列ESの情報が必要とされるか、または、少なくとも価値がある。
Figure 0007000488000045
Figure 0007000488000046
Figure 0007000488000047
Figure 0007000488000048
Figure 0007000488000049
Figure 0007000488000050
15.非相関化装置のための複雑さの低減
以下に、本発明による実施の形態において使用される非相関器の複雑さがどのように低減されうるかが記載される。
非相関器の機能の実装は、しばしば、計算的に複雑である点に留意されたい。いくつかのアプリケーション(例えば、ポータブル・デコーダ・ソリューション)において、非相関器の数の制限は、制限された計算機のリソースのために導入されることを必要とされうる。このセクションは、適用される非相関器(または非相関化)の数を制御することによって、非相関器の装置の複雑さの低減のための手段の記載を提供する。非相関化装置のインターフェースは、図16および図17において表現される。
Figure 0007000488000051
Figure 0007000488000052
Figure 0007000488000053
非相関化装置1700は、非相関器出力信号の第1のセットのK個の非相関器出力信号1732a~1732kを受信し、それに基づいて、(「外部の」非相関器出力信号を構成する)非相関器出力信号の第2のセットのN個の信号1712a~1712nを供給するように構成される、ポスト・ミキサ1740を含む。
プレミキサ1720は、プレミキシング行列Mpreによって記載される線形混合処理を、好ましくは実行しうる。さらに、ポスト・ミキサ1740は、K個の非相関器出力信号1732a~1732kの第1のセットから(すなわち、非相関器の主要部1730の出力信号から)非相関器出力信号の第2のセットのN個の非相関器出力信号1712a~1712nを導出するために、ポストミキシング行列Mpostによって表されうる、線形混合(または、アップミックス)処理を、好ましくは実行する点に留意されたい。
提案された方法と装置の主要な考えは、以下によって、NからKへ、非相関器への(または非相関器の主要部への)入力信号の数を低減することである。
Figure 0007000488000054
Figure 0007000488000055
Figure 0007000488000056
Figure 0007000488000057
Figure 0007000488000058
使用される非相関器(または、個々の非相関器)の数Kは、特定されず、所望の計算量の複雑さおよび利用可能な非相関器に依存している。その値は、(最も高い計算量の複雑さの)N個から(最も低い計算量の複雑さの)1個に至るまで変化する。
非相関器の装置への入力信号の数Nは、任意であり、そして、提案された方法は、システムのレンダリング構造において独立していて、いかなる入力信号の数を支持する。
例えば、3Dのオーディオ・コンテンツを使用しているアプリケーションにおいて、多数出力チャネルについては、出力構成に応じて、プレミキシング行列Mpreのためのある可能な表現が後述される。
以下において、非相関化装置1700がマルチチャネル・オーディオ・デコーダにおいて使用された場合、プレミキサ1720(および、従って、ポスト・ミキサ1740によって実行されるポストミックス)によって実行されるプレミックスが、どのように調整されるかを記載する。ここで、非相関器入力信号の第1のセットの非相関器入力信号1710a~1710nは、オーディオ・シーンの異なる空間的な位置と関連している。
この目的のために、図18は、異なる出力フォーマットのために使用されるスピーカ位置のテーブル表現を示す。
図18の表1800において、第1列1810は、スピーカのインデックスナンバーを記載する。第2列1820は、スピーカラベルを記載する。第3列1830は、それぞれのスピーカの方位角の位置を記載し、第4列1832は、スピーカの位置の方位角の許容差を記載する。第5列1840は、それぞれのスピーカの位置の仰角を記載し、第6列1842は、対応する仰角許容差を記載する。第7列1850は、スピーカが出力フォーマットO-2.0のために使用されることを指し示す。第8列1860は、スピーカが出力フォーマットO-5.1のために使用されることを示す。第9列1864は、スピーカが出力フォーマットO-7.1のために使用されることを示す。第10列1870は、スピーカが出力フォーマットO-8.1のために使用されることを示し、第11列1880は、スピーカが出力フォーマットO-10.1のために使用されることを示し、そして、第12列1890は、スピーカが出力フォーマットO-22.2のために使用されることを示す。表に示されるように、2個のスピーカが、出力フォーマットO-2.0のために使用され、6個のスピーカが、出力フォーマットO-5.1のために使用され、8個のスピーカが、出力フォーマット7.1のために使用され、9個のスピーカが、出力フォーマットO-8.1のために使用され、11個のスピーカが、出力フォーマットO-10.1に対して使用され、そして、24個のスピーカが、出力フォーマットO-22.2のために使用される。
しかしながら、1つの低音効果のスピーカは、出力フォーマットO-5.1,O-7.1,O-8.1およびO-10.1のために使用され、2つの低音効果のスピーカ(LFE1,LFE2)は、出力フォーマットO-22.2のために使用される点に留意されたい。さらに、好ましい実施の形態において、1つ以上の低音効果のスピーカを除いて、1つのレンダリングされたオーディオ信号(例えば、レンダリングされたオーディオ信号1582a~1582nのうちの1つ)が、スピーカの各々に関連している点に留意されたい。従って、2つのレンダリングされたオーディオ信号は、O-2.1フォーマットにより使用される2個のスピーカに関連しており、O-5.1フォーマットが使用される場合、5つのレンダリングされたオーディオ信号は、5個の低音効果でないスピーカに関連しており、O-7.1フォーマットが使用される場合、7つのレンダリングされたオーディオ信号は、7個の低音効果でないスピーカに関連しており、O-8.1フォーマットが使用される場合、8つのレンダリングされたオーディオ信号は、8個の低音効果でないスピーカに関連しており、O-10.1フォーマットが使用される場合、10個のレンダリングされたオーディオ信号が、10個の低音効果でないスピーカに関連しており、そして、O-22.2フォーマットが使用される場合、22個のレンダリングされたオーディオ信号は、22個の低音効果でないスピーカに関連している。
Figure 0007000488000059
図19a~図19gは、N=22のレンダリングされたオーディオ信号があるという仮定のもとに、レンダリングされたオーディオ信号1582a~1582nをプレミックスするための異なるオプションを表す。例えば、図19aは、プレミキシング行列Mpreの入力のテーブル表現を示す。図19aにおける1~11のラベルを付けられた行は、プレミキシング行列Mpreの行を表し、1~22のラベルを付けられた列は、プレミキシング行列Mpreの列を表す。さらに、プレミキシング行列Mpreの行の各々は、非相関器入力信号の第2のセットのK個の非相関器入力信号1722a~1722kのうちの1つ(すなわち、非相関器の主要部の入力信号)に関連している点に留意されたい。さらに、プレミキシング行列Mpreの列の各々は、非相関器入力信号の第1のセットのN個の非相関器入力信号1710a~1710nのうちの1つに関連しており、そして、その結果、(非相関器入力信号の第1のセットの非相関器入力信号1710a~1710nが、実施の形態におけるレンダリングされたオーディオ信号1582a~1582nに典型的に同一であるので)レンダリングされたオーディオ信号1582a~1582nに関連している。従って、プレミキシング行列Mpreの列の各々は、特定のスピーカに関連し、そして、特定の空間的な位置に関連しているので、その結果、スピーカは空間的な位置に関連している。行1910は、プレミキシング行列Mpreの列が関連しているスピーカ(およびその結果、空間的な位置)を示す(ここで、スピーカのラベルは、表1800の列1820において定義される)。
以下において、図19aのプレミキシングMpreによって定義される機能が、さらに詳細に記載される。表に示すように、スピーカ(または、スピーカ位置と同等)「CH_M_000」および「CH_L_000」に関連するレンダリングされたオーディオ信号は、非相関器入力信号の第2のセットの第1の非相関器入力信号(すなわち、第1のダウンミックスされた非相関器入力信号)を得るために結合され、そして、それは、プレミキシング行列Mpreの第1行の第1列および第2列における「1」の値によって指し示される。同様に、スピーカ(または、スピーカ位置と同等)「CH_U_000」および「CH_T_000」に関連するレンダリングされたオーディオ信号は、第2のダウンミックスされた非相関器入力信号(すなわち、非相関器入力信号の第2のセットの第2の非相関器入力信号)を得るために結合される。さらに、11個のダウンミックスされた非相関器入力信号が、22個のレンダリングされたオーディオ信号から導出されるように、図19aのプレミキシング行列Mpreは、2つのレンダリングされたオーディオ信号の11の組み合わせを定義することが示されうる。(プレミキシング行列の1~4列および1および2行を参照して)2つのダウンミックスされた非相関器入力信号を得るために、4つの中心の信号が結合されることを示す。さらに、他のダウンミックスされた非相関器入力信号が、オーディオ・シーンの同じ側に関連している2つのオーディオ信号を結合することによって各々得られることを示す。例えば、プレミキシング行列の第3行によって表される、第3のダウンミックスされた非相関器入力信号は、+135°(「CH_M_L135」;「CH_U_L135」)の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。さらに、(プレミキシング行列の第4行によって表される)第4の非相関器入力信号は、-135°(「CH_M_R135」;「CH_U_R135」)の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。従って、ダウンミックスされた非相関器入力信号の各々は、その(または同等の)方位角の位置(または、同等の水平位置)に関連している2つのレンダリングされたオーディオ信号を結合することによって得られる。ここで、典型的には、異なる仰角(または、同等の垂直位置)に関連している信号の結合を有する。
(プレミキシング行列Mpreの入力)N=22およびK=10に対するプレミキシング係数を示す図19bを現在、参照する。図19bの表の構成は、図19aの表の構成と同一である。しかしながら、表に示されるように、第1行が、チャネルID(または位置)「CH_M_000」、「CH_L_000」、「CH_U_000」および「CH_T_000」を有する4つのレンダリングされたオーディオ信号の結合を記載する点において、図19bによるプレミキシング行列Mpreは、図19aのプレミキシング行列Mpreと異なる。換言すれば、垂直に隣接する位置に関連している4つのレンダリングされたオーディオ信号は、必要な非相関器(図19aによる行列のための11個の非相関器の代わりに10個の非相関器)の数を低減するためにプレミキシングにおいて結合される。
(プレミキシング行列Mpreの入力)N=22およびK=9に対するプレミキシング係数を示す図19cを現在、参照し、表に示すように、図19cによるプレミキシング行列Mpreは、9行のみにより構成される。さらに、第2のダウンミックスされた非相関器入力信号(非相関器入力信号の第2のセットの非相関器入力信号)を得るために、チャネルID(または位置)「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」に関連するレンダリングされたオーディオ信号が(図19cによるプレミキシング行列により構成されるプレミキサにおいて)結合される点において、図19cのプレミキシング行列Mpreの第2行から示されうる。表に示すように、図19aおよび図19bによりプレミキシング行列によって別々にダウンミックスされた非相関器入力信号に結合されているレンダリングされたオーディオ信号は、図19cによる共通のダウンミックスされた非相関器入力信号にダウンミックスされる。さらに、チャネルID「CH_M_L135」および「CH_U_L135」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの同じ側における同一の水平位置(または方位角位置)および空間的に隣接する垂直位置(または仰角)に関連しており、そして、チャネルID「CH_M_R135」および「CH_U_R135」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの第2の側における同一の水平位置(または方位角位置)および空間的に隣接する垂直位置(または仰角)に関連している点に留意されたい。さらに、チャネルID「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」を有するレンダリングされたオーディオ信号は、左側の位置および右側の位置を含んでいる空間的な位置の水平のペア(または、水平の4つの部分から構成される)に関連している。換言すれば、単一の所与の非相関器を使用して非相関化するように結合される4つのレンダリングされたオーディオ信号の2つが、オーディオ・シーンの左側の空間的な位置に関連しており、同じ所与の非相関器を使用して非相関化するように結合される4つのレンダリングされたオーディオ信号の2つが、オーディオ・シーンの右側の空間的な位置に関連している、図19cのプレミキシング行列Mpreの第2行において示されうる。さらに、レンダリングされたオーディオ信号の「対称な」4つの部分から構成されることは、単一の(個々の)非相関器を使用して非相関化するようにプレミックスすることによって結合されるように、(前記4つのレンダリングされたオーディオ信号の)左側のレンダリングされたオーディオ信号は、(前記4つのレンダリングされたオーディオ信号の)右側のレンダリングされたオーディオ信号に関連している空間的な位置を伴って、オーディオ・シーンの中心面に関して対称的である空間的な位置に関連していることが分かる。
図19d,19e,19fおよび19gを参照して、ますますレンダリングされたオーディオ信号が、(個々の)非相関器の数が減少とともに(すなわち、Kの減少とともに)結合されることが分かる。図19a~図19gに示すように、典型的に、2つに分かれたダウンミックスされた非相関器入力信号にダウンミックスされるレンダリングされたオーディオ信号は、1によって非相関器の数を減少させる場合、結合される。さらに、典型的に、空間的な位置の「対称な4つの部分から構成される」に関連している、この種のレンダリングされたオーディオ信号が、結合される。ここで、非相関器の比較的高い数に対して、等しいか、少なくとも類似の水平位置(または方位角位置)に関連しているレンダリングされたオーディオ信号が結合される。その一方で、非相関器の比較的低い数に対して、オーディオ・シーンの対向側における空間的な位置に関連しているレンダリングされたオーディオ信号も結合される。
今、図20a~20d、21a~21c、22a~22bおよび23を参照して、類似のコンセプトが、レンダリングされたオーディオ信号の異なる数に対しても適用されうる。
例えば、図20a~20dは、N=10およびKは2と5の間に対する、プレミキシング行列Mpreの入力を記載する。
同様に、図21a~21cは、N=8およびKは2と4の間に対する、プレミキシング行列Mpreの入力を記載する。
同様に、図21d~21fは、N=7およびKは2と4の間に対する、プレミキシング行列Mpreの入力を記載する。
図22aおよび22bは、N=5ならびにK=2およびK=3に対する、プレミキシング行列の入力を示す。
最後に、図23は、N=2およびK=1に対する、プレミキシング行列の入力を示す。
要約すると、マルチチャネル・オーディオ・デコーダの一部であるマルチチャネル非相関器において、図19~23によるプレミキシング行列は、例えば、切り替え可能な方法で使用されうる。プレミキシング行列の間の切り替えは、例えば、(N個のレンダリングされたオーディオ信号を典型的に決定する)所望の出力構成に基づき、そして、(例えば、パラメータKを決定し、そして、オーディオ・コンテンツの符号化表現において含まれる複雑さの情報に基づいて調整されうる)非相関化の所望の複雑さにも基づいて、実行されうる。
今、図24を参照して、22.2出力フォーマットのための複雑さの低減が、詳細に記載されている。既に、上で概説されるように、プレミキシング行列およびポストミキシング行列を構成するための1つの可能な解決法は、一緒に混合されたチャネルを選択するために、再生レイアウトの空間的情報を使用することであり、そして、ミキシング係数を算出する。それらの位置に基づいて、幾何学的に関連したスピーカ(および、例えば、それに関連しているレンダリングされたオーディオ信号)は、図24の表において記載されるように垂直および水平の対を与え、グループ化される。換言すれば、図24は、表の形式において、レンダリングされたオーディオ信号に関連しうるように、スピーカの位置のグループ分けを示す。例えば、第1行2410は、オーディオ・シーンの中央におけるスピーカ位置の第1グループを記載する。第2行2412は、空間的に関連しているスピーカ位置の第2グループを表す。スピーカ位置「CH_M_L135」および「CH_U_L135」は、同一の方位角位置(または水平位置に同等)および隣接する仰角位置(または垂直に隣接する位置に同等)に関連している。同様に、位置「CH_M_R135」および「CH_U_R135」は、同一の方位角(または同一の水平位置に同等)および同様の仰角(または垂直に隣接する位置に同等)を含む。さらに、位置「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」は、位置の4つの部分から構成される。ここで、位置「CH_M_L135」および「CH_U_L135」は、オーディオ・シーンの中心面に関して、位置「CH_M_R135」および「CH_U_R135」に対称である。さらに、位置「CH_M_180」および「CH_U_180」も同一の方位角の位置(または同一の水平位置に同等)および同様の仰角(または隣接する垂直位置に同等)を含む。
第3行2414は、位置の第3グループを表す。位置「CH_M_L030」および「CH_L_L045」は、空間的に隣接する位置であり、同様な方位角(または同様な水平位置に同等)および同様な仰角(または同様な垂直位置に同等)を含む点に留意されたい。同じことは、位置「CH_M_R030」および「CH_L_R045」に対しても維持する。さらに、位置の第3グループの位置は、位置の4つの部分から構成されるように形成される。ここで、位置「CH_M_L030」および「CH_L_045」は、位置「CH_M_R030」および「CH_L_R045」に空間的に隣接しており、オーディオ・シーンの中心面に関して対称である。
第4行2416は、4つの追加の位置を表し、第2行の第1の4つの位置と比較したとき、同様の特性を有しており、位置の対称に4つの部分から構成されるように形成する。
第5行2418は、対称の位置「CH_M_L060」、「CH_U_L045」、「CH_M_R060」および「CH_U_R045」の他の4つの部分から構成されることを表す。
さらに、位置の異なるグループの位置に関連しているレンダリングされたオーディオ信号は、非相関器の数の減少とともにますます結合されうる点に留意されたい。例えば、マルチチャネル非相関器における11個の個々の非相関器において、第1および第2列における位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。加えて、第3および第4列において表される位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。さらに、第5および第6列において示される位置に関連しているレンダリングされたオーディオ信号は、第2グループに対して結合される。従って、(個々の非相関器に入力される)11個のダウンミックス非相関器入力信号が得られうる。しかしながら、より少ない個々の非相関器を有することが望ましい場合、1~4列において示される位置に関連しているレンダリングされたオーディオ信号は、1つ以上のグループに対して結合されうる。また、個々の非相関器の数をさらに減少することが望ましい場合、第2のグループのすべての位置に関連しているレンダリングされたオーディオ信号が結合されうる。
要約すると、出力レイアウト(例えば、スピーカに)に供給される信号は、水平および垂直依存があり、非相関化処理の間、維持されなければならない。従って、異なるスピーカのグループに対応するチャネルが一緒に混合されないように、ミキシング係数は算出される。
利用可能な非相関器の数、または非相関化の所望のレベルに応じて、各グループにおいて、第1は、(中間層および上層との間、または中間層および下層の間における)垂直のペアを一緒に混合される。第2に、(左と右の間における)水平のペアまたは残りの垂直のペアが一緒に混合される。例えば、グループ3において、最初に、左の垂直のペア(「CH_M_L030」および「CH_L_L045」)と右の垂直のペア(「CH_M_R030」および「CH_L_R045」)におけるチャネルが一緒に混合され、このようにして、4から2まで、このグループのための必要な非相関器の数を減少する。非相関器の数をより減らすことが望ましい場合、得られた水平ペアは、1つのチャネルのみにダウンミックスされ、このグループのための必要な非相関器の数は、4から1まで減らされる。
提示された混合規則に基づいて、(例えば、図19~23において示される)前述の表は、所望の非相関器の異なるレベルに対して(または、所望の非相関器の複雑さの異なるレベルに対して)導出される。
16.第2の外部のレンダラ/フォーマット変換器との互換性
SAOCデコーダ(または、さらに一般的にいえば、マルチチャネル・オーディオ・デコーダ)が、外部の第2のレンダラ/フォーマット変換器と共に使用される場合、以下において、提案されたコンセプト(方法または装置)に対する変更が、使用されうる。
Figure 0007000488000060
- 非相関器の数が、レンダラ/フォーマット変換器から受信されたフィードバック情報に基づいて算出されるプレミキシング行列Mpreを有するセクション15において記載される方法を使用して低減される(例えば、Mpre=Dconvert、ここで、Dconvertは、フォーマット変換器の内部で使用されるダウンミックス行列である。)。SAOCデコーダの外側で一緒に混合されるチャネルは、一緒にプレミックスされ、そして、SAOCデコーダの内部の同じ非相関器に供給される。
外部フォーマット変換器を用いて、SAOC内部レンダラは、中間の構造(例えば、最多数のスピーカの構造)にプレレンダラする。
結論として、プレミキシング行列が、外部レンダラに実際に結合される(非相関器入力信号の第1のセットの)この種の非相関器入力信号の組み合わせを定義するように、いくつかの実施の形態において、出力オーディオ信号についての情報は、外部レンダラにおいて一緒に混合されるか、またはフォーマット変換器がプレミキシング行列Mpreを決定するように使用される。このように、(マルチチャネル非相関器の出力オーディオ信号を受信する)外部レンダラ/フォーマット変換器から受信された情報は(例えば、マルチチャネル・オーディオ・デコーダの内部レンダリング行列が固有にセットされるか、または、中間のレンダリング構造から導出されたミキシング係数に初期化するように設定される場合に)、プレミキシング行列を選択もしくは調整するように使用され、そして、外部レンダラ/フォーマット変換器は、マルチチャネル・オーディオ・デコーダに関して、上記したように出力オーディオ信号を受信するように接続される。
17.ビットストリーム
以下において、追加の信号伝達情報がビットストリームにおいて(または、オーディオ・コンテンツの符号化表現において、同等に)使用されうることが記載される。本発明による実施の形態において、非相関化の方法は、所望の品質レベルを確実にするためのビットストリームに信号を送信されうる。このような方法で、ユーザ(またはオーディオ・エンコーダ)は、コンテンツに基づいて方法を選択するように、より多くの柔軟性を有する。この目的のために、MPEG SAOCビットストリーム構文は、例えば、使用された非相関化の方法を特定するための2ビットおよび/または構造(または複雑さ)を特定するための2ビットによって延長されうる。
図25は、例えば、ビットストリーム部「SAOCSpecifigConfig()」または「SAOC3DSSpecificConfig()」に追加されうる、ビットストリーム要素「bsDecorrllationMethod」および「bsDecorrelationLevel」の構文表現を示す。図25に示されるように、2つのビットは、ビットストリーム要素「bsDecorrelationMethod」のために使用され、そして、2つのビットは、ビットストリーム要素「bsDecorrelationLevel」のために使用されうる。
図26は、表の形式において、ビットストリーム変数「bsDecorrelationMethod」の値と異なる非相関化方法との間の関連性を示す。例えば、3つの異なる非相関化の方法が、前記ビットストリーム変数の異なる値によって信号を送信されうる。例えば、セクション14.3において記載されるように、例えば、非相関化信号を使用する出力共分散修正は、オプションのうちの1つとして信号を送信されうる。他のオプションとして、例えば、セクション14.4.1において記載されるように、共分散調整方法が信号を送信されうる。さらにもう1つのオプションとして、例えば、セクション14.4.2において記載されるように、エネルギー補償方法が信号を送信されうる。従って、レンダリングされたオーディオ信号および非相関化オーディオ信号に基づいて出力オーディオ信号の信号特性の再構成のための3つの異なる方法は、ビットストリーム変数に依存して選択されうる。
エネルギー補償モードは、セクション14.4.2において記載される方法を使用し、、制限された共分散調整モードは、セクション14.4.1において記載される方法を使用し、一般の共分散調整モードは、セクション14.3において記載される方法を使用する。
今、表の表現の形式において、異なる非相関化レベルが、ビットストリーム変数「bsDecorrelationLevel」によってどのように信号を送信されうるかを示す図27への参照することで、非相関化の複雑さを選択する方法が記載される。換言すれば、前記変数は、非相関化の複雑さが使用されるかについて決定するように、上記のマルチチャネル非相関器を含むマルチチャネル・オーディオ・デコーダによって評価されうる。例えば、前記ビットストリーム・パラメータは、値0,1,2および3を示されうる異なる非相関化「レベル」の信号を送信しうる。
(例えば、非相関化レベルとして示されうる)非相関化の構成の例が、図27の表において与えられる。図27は、異なる「レベル」(例えば、非相関化レベル)および出力構造のための非相関器の数の表の表現を示す。換言すれば、図27は、マルチチャネル非相関器によって使用される(非相関器入力信号の第2のセットの)K個の非相関器入力信号を示す。図27の表において示されるように、ビットストリーム・パラメータ「bsDecorrelationLevelによって信号を送信される「非相関化レベル」に基づいて、マルチチャネル非相関器において使用される(個々の)非相関器の数は、22.2の出力構造に対して、11,9,7および5の間において切り替えられる。10.1の出力構造に対して、選択は、10,5,3および2の個々の非相関器の間においてなされ、8.1の構造に対して、選択は、8,4,3または2の個々の非相関器の間においてなされ、そして、7.1の出力構造に対して、選択は、前記ビットストリーム・パラメータによって信号を送信される「非相関化レベル」に依存する、7,4,3および2の非相関器の間においてなされる。5.1の出力構造において、個々の非相関器の数、すなわち、5,3または2のような個々の非相関器の数のための3つの有効なオプションのみを有する。2.1の出力構造に対して、2つの個々の非相関器(非相関化レベル0)と1つの個々の非相関器(非相関化レベル1)との間の選択のみである。
要約すると、非相関化の方法は、計算機のパワーおよび利用可能な非相関器の数に基づいて、デコーダ側で決定されうる。加えて、非相関器の数の選択は、エンコーダ側でなされ、ビットストリーム・パラメータを使用して信号の送信がなされる。
従って、出力オーディオ信号を得るために、非相関化オーディオ信号がどのように適用されるか2つの方法が適用され、そして、非相関化信号の供給のための複雑さが、図25において示されるビットストリーム・パラメータを使用してオーディオ・エンコーダのサイドから制御され、そして、図26および27においてより詳細に定義される。
18.発明の処理のためのアプリケーションの分野
オーディオ・シーンの人間の認識のためのより大きな重要性である導かれた方法の目的のうちの1つが、オーディオ・キューを復元することである点に留意されたい。本発明による実施の形態は、エネルギーのレベルおよび相関特性の再構成の正確さを改善し、従って、最後の出力信号の知覚的なオーディオ品質を増加させる。本発明による実施の形態は、任意の数のダウンミックス/アップミックスチャネルのために適用されうる。さらに、本願明細書において記載される方法および装置は、既存のパラメータのソース分離アルゴリズムと結合されうる。本発明による実施の形態は、適用される非相関化の機能の数における設定の制約によってシステムの計算の複雑さを制御することを許容する。本発明による実施の形態は、MPSトランスコーディング・ステップを取り除くことによって、SAOCのようなオブジェクト・ベースのパラメトリック構造アルゴリズムの簡略化に通じうる。
19.符号化/復号化の環境
以下において、本発明によるコンセプトが適用されるオーディオ符号化/復号化の環境が記載される。
本発明によるコンセプトが使用されうる3Dオーディオ・コーデック・システムは、チャネルの符号化のためのMPEG-D USACコーデックおよびオブジェクトの大量の符号化のための効率を増加させるためのオブジェクト信号に基づく。MPEG-SAOC技術は、適応されている。レンダラの3つのタイプは、チャネルへのレンダリングオブジェクト、ヘッドホンへのレンダリングチャネル、または異なるスピーカセットへのレンダリングチャネルのタスクを実行する。オブジェクト信号が、SAOCを使用して明確に送信されるか、またはパラメータ的に符号化される場合に、対応するオブジェクトのメタデータ情報が圧縮され、そして、3Dオーディオ・ストリームに多重化される。
図28,29および30は、3Dオーディオ・システムの異なるアルゴリズムのブロックに示す。
図28は、この種のオーディオ・エンコーダのブロック概略図を示し、そして、図29は、この種のオーディオ・デコーダのブロック概略図を示す。換言すれば、図28および29は、3Dオーディオ・システムの異なるアルゴリズムのブロックを示す。
3Dオーディオ・エンコーダ2900のブロック概略図を示す図28を参照することで、いくつかの詳細は説明される。エンコーダ2900は、1つ以上のチャネル信号2912および1つ以上のオブジェクト信号2914を受信し、そして、それに基づいて、1つ以上のチャネル信号2916および1つ以上のオブジェクト信号2918,2920を供給するオプションのプレレンダラ/ミキサ2910を含む。オーディオ・エンコーダは、USACエンコーダ2930および任意にSAOCエンコーダ2940も含む。SAOCエンコーダ2940は、1つ以上のSAOCトランスポート・チャネル2942およびSAOCエンコーダに供給される1つ以上のオブジェクト2920に基づいてSAOCサイド情報2944を供給するように構成される。さらに、USACエンコーダ2930は、プレレンダラ/ミキサ2910からチャネルおよびプレレンダリングされたオブジェクトを含むチャネル信号2916を受信し、プレレンダラ/ミキサ2910から1つ以上のオブジェクト信号2918を受信し、そして、1つ以上のSAOCトランスポート・チャネル2942およびSAOCサイド情報2944を受信し、そして、それに基づいて、符号化表現2932を供給するように構成される。さらに、オーディオ・エンコーダ2900は、(プレレンダラ/ミキサ2910によって評価されうる)オブジェクト・メタデータ2952を受信し、符号化オブジェクト・メタデータ2954を得るためにオブジェクト・メタデータを符号化するように構成される、オブジェクト・メタデータ・エンコーダ2950も含む。符号化メタデータは、USACエンコーダ2930によっても受信され、符号化表現2932を供給するために使用される。
オーディオ・エンコーダ2900の個々の構成要素に関するいくつかの詳細が以下に説明される。
図29を参照することで、オーディオ・デコーダ3000が記載される。オーディオ・デコーダ3000は、符号化表現3010を受信し、それに基づいて、マルチチャネル・スピーカ信号3012、ヘッドホン信号3014および/または代替フォーマットにおける(例えば、5.1フォーマットにおける)スピーカ信号3016を供給するように構成される。オーディオ・デコーダ3000は、符号化表現3010に基づいて、1つ以上のチャネル信号3022、1つ以上のプレレンダリングされたオブジェクト信号3024、1つ以上のオブジェクト信号3026、1つ以上のSAOCトランスポート・チャネル3028、SAOCサイド情報3030および圧縮されたオブジェクト・メタデータ情報3032を供給する、USACデコーダ3020を含む。オーディオ・デコーダ3000は、1つ以上のオブジェクト信号3026およびオブジェクト・メタデータ情報3044に基づいて、1つ以上のレンダリングされたオブジェクト信号3042を供給するように構成されるオブジェクト・レンダラ3040も含む。ここで、オブジェクト・メタデータ情報3044は、圧縮されたオブジェクト・メタデータ情報3032に基づいて、オブジェクト・メタデータ・デコーダ3050によって供給される。オーディオ・デコーダ3000は、SAOCトランスポート・チャネル3028およびSAOCサイド情報3030を受信し、それに基づいて、1つ以上のレンダリングされたオブジェクト信号3062を供給するように構成されるSAOCデコーダ3060も任意に含む。オーディオ・デコーダ3000は、チャネル信号3022、プレレンダリングされたオブジェクト信号3024.レンダリングされたオブジェクト信号3042、およびレンダリングされたオブジェクト信号3062を受信し、それに基づいて、例えば、マルチチャネル・スピーカ信号3012を構成する複数の混合チャネル信号3072を供給するように構成されるミキサ3070も含む。オーディオ・デコーダ3000は、例えば、混合チャネル信号3072を受信し、それに基づいて、ヘッドホン信号3014を供給するように構成される、バイノーラル・レンダラ3080も含む。さらに、オーディオ・デコーダ3000は、混合チャネル信号3072および再構成レイアウト情報3092を受信し、それに基づいて、代替のスピーカセットのためにスピーカ信号3016を供給するように構成されるフォーマット変換器3090を含みうる。
以下において、オーディオ・エンコーダ2900およびオーディオ・デコーダ3000の構成要素に関するいくつかの詳細が、記載されている。
19.1 プレレンダラ/ミキサ
プレレンダラ/ミキサ2910は、符号化前に、チャネルに加えて、オブジェクト入力シーンをチャネル・シーンに変換するために任意に使用されうる。機能的に、例えば、それは、後述するオブジェクト・レンダラ/ミキサと同一もありうる。
オブジェクトのプレレンダリングは、同時に能動的なオブジェクト信号の数から独立しているエンコーダ入力での決定論的な信号エントロピーを、例えば、確実にしうる。
オブジェクトのプレレンダリングについて、オブジェクト・メタデータの伝送は、必要とされない。
個別のオブジェクト信号は、エンコーダが使用するように構成されるチャネル・レイアウトにレンダリングされ、各チャネルに対するオブジェクトの重みは、関連するオブジェクト・メタデータ(OAM)1952から得られる。
19.2 USACの主要部のコーデック
スピーカチャネル信号、個々のオブジェクト信号、オブジェクト・ダウンミックス信号およびプレレンダリングされた信号のための主要部のコーデック2930,3020は、MPEG-D USAC技術に基づく。それは、入力チャネルおよびオブジェクト割り当ての幾何学的および意味論的な情報に基づくチャネルおよびオブジェクト・マッピング情報をもたらすことによる多数の信号の復号化を扱う。このマッピング情報は、どのように、入力チャネルおよびオブジェクトがUSACチャネル要素(CPE,SCE,LFE)にマッピングされるか、そして、対応する情報は、デコーダに送信されるかを記載する。
SAOCデータまたはオブジェクト・メタデータのようなすべての追加のペイロードは、拡張要素を通して渡しており、エンコーダレート制御において考慮されている。オブジェクトの復号化は、レンダラのためレート/歪みの前提条件および双方向性の前提条件によって決まる異なる方法で可能である。以下のオブジェクト符号化変数が可能である。
・ プレレンダリングされたオブジェクト:オブジェクト信号は、符号化前にプレレンダリングされ、22.2チャネル信号に混合される。次の符号化チェーンは、22.2チャネル信号を参照する。
・ 別々のオブジェクト波形:エンコーダにモノラル波形として適用されるようなオブジェクト。エンコーダは、チャネル信号に加えて、オブジェクトを送信するために単一のチャネル要素SCEを使用する。復号化オブジェクトは、レンダリングされ、受信側で混合される。圧縮されたオブジェクト・メタデータ情報は、同時に、受信機/レンダラに送信される。
・ パラメータのオブジェクト波形:オブジェクト特性および各々に対するそれらの関係は、SAOCパラメータによって記載されている。オブジェクト信号のダウンミックスは、USACによって符号化される。パラメータ情報は、同時に送信される。ダウンミックスの数は、オブジェクトの数および全体のデータレートに応じて選択される。圧縮されたオブジェクト・メタデータ情報は、SAOCレンダラに送信される。
19.3. SAOC
オブジェクト信号のためのSAOCエンコーダ2940およびSAOCデコーダ3060は、MPEG SAOC技術に基づく。システムは、送信されたチャネルおよび付加的なパラメータ・データ(オブジェクト・レベル差OLD、内部オブジェクト相関IOC、ダウンミックス・ゲインDMG)より少ない数に基づいて、オーディオ・オブジェクトの数を再形成し、修正し、そしてレンダリングすることができる。付加的なパラメータのデータは、復号化を非常に効率的にし、個々に、すべてのオブジェクトを送信するための必要であるより著しく低いデータレートを示す。SAOCエンコーダは、モノラル波形としてオブジェクト/チャネル信号を入力し、そして、(3Dオーディオ・ビットストリーム2932,3010に圧縮される)パラメトリック情報および(単一のチャネル要素を使用して符号化され、送信される)SAOCトランスポート・チャネルを出力する。SAOCデコーダ3000は、復号化SAOCトランスポート・チャネル3028およびパラメータの情報3030からオブジェクト/チャネル信号を再構成し、再構成レイアウト、展開されたオブジェクト・メタデータ情報およびユーザ相互作用情報のオプションに基づいて、出力オーディオ・シーンを生成する。
19.4. オブジェクト・メタデータ・コーデック
オブジェクト毎に、3D空間におけるオブジェクトの幾何学的な位置および量を特定する関連するメタデータは、時間および空間のオブジェクト特性の量子化によって、効率よく符号化される。圧縮されたオブジェクト・メタデータcOAM2954,3032は、サイド情報として受信機に送信される。
19.5. オブジェクト・レンダラ/ミキサ
オブジェクト・レンダラは、所与の再構成フォーマットに従ってオブジェクト波形を生成するために、展開されたオブジェクト・メタデータOAM3044を利用する。各オブジェクトは、そのメタデータに従って、特定の出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から結果を得る。
コンテンツと個々の/パラメータのオブジェクトに基づく両方のチャネルが復号化される場合、結果として得られる波形を出力する前に(または、バイノーラル・レンダラもしくはスピーカ・レンダラ・モジュールのようなポスト・プロセッサ・モジュールにそれらを供給する前に)、チャネル・ベースの波形とレンダリングされたオブジェクトの波形が混合される。
19.6. バイノーラル・レンダラ
各入力チャネルが仮想音源によって表されるように、バイノーラル・レンダラ・モジュール3080は、マルチチャネル・オーディオ材料のバイノーラルのダウンミックスを生じる。処理は、QMF領域にフレームごとに実行される。バイノーラル化は、測定されたバイノーラルの部屋のインパルス応答に基づく。
19.7 スピーカ・レンダラ/フォーマット変換器
スピーカ・レンダラ3090は、送信されたチャネル構成および所望の再生フォーマットとの間で変換する。以下において、それは、「フォーマット変換器」と呼ばれる。フォーマット変換器は、より少ない数の出力チャネルに変換する、すなわち、ダウンミックスを生成する。システムは、自動的に入出力フォーマットの所与の組み合わせのための最適化されたダウンミックス行列を生成して、ダウンミックス処理においてこれらの行列を適用する。フォーマット変換器は、標準のスピーカの構成と同様に、非標準のスピーカの位置を有するランダムな構成を許容する。
図30は、フォーマット変換器のブロック概略図を示す。換言すれば、図30は、フォーマット変換器の構造を示す。
図で示されるように、フォーマット変換器3100は、ミキサ出力信号3110、例えば、混合チャネル信号3072を受信し、スピーカ信号3112、例えば、スピーカ信号3016を供給する。フォーマット変換器は、QMF領域におけるダウンミックス処理3120およびダウンミックス・コンフィギュレータ3130を含む。ここで、ダウンミックス・コンフィギュレータは、ミキサ出力レイアウト情報3032および再構成レイアウト情報3034に基づいて、コンフィギュレーション情報をダウンミックス処理3020に供給する。
19.8.概論
さらに、本願明細書において記載されたコンセプト、例えば、オーディオ・デコーダ100、オーディオ・エンコーダ200、マルチチャネル非相関器600、マルチチャネル・オーディオ・デコーダ700、オーディオ・エンコーダ800またはオーディオ・デコーダ1550が、オーディオ・エンコーダ2900および/またはオーディオ・デコーダ3000において使用されうる点に留意されたい。例えば、前述のオーディオ・エンコーダ/デコーダは、SAOCエンコーダ2940の一部としておよび/またはSAOCデコーダ3060の一部として使用されうる。一方、前述のコンセプトは、3Dオーディオ・デコーダ3000および/またはオーディオ・エンコーダ2900の他の位置でも使用されうる。
当然、前述の方法は、図28および29に従って、オーディオ情報を符号化または復号化するためのコンセプトにおいても使用されうる。
20.付加的な実施の形態
20.1 はじめに
以下において、本発明による他の実施の形態が、記載される。
図31は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。
ダウンミックス・プロセッサ3100は、アップミキサ3110、レンダラ3120、コンバイナ3130およびマルチチャネル非相関器3140を含む。レンダラは、レンダリングされたオーディオ信号Ydryをコンバイナ3130およびマルチチャネル非相関器3140に供給する。マルチチャネル非相関器は、(非相関器入力信号の第1のセットとしてみなされうる)レンダリングされたオーディオ信号を受信し、それに基づいて非相関器入力信号のプレミックスされた第2のセットを非相関器の主要部3160に供給する、プレミキサ3150を含む。非相関器の主要部は、ポスト・ミキサ3170によって利用するために、非相関器入力信号の第2のセットに基づいて、非相関器出力信号の第1のセットを供給する。ポスト・ミキサは、コンバイナ3130に供給されるポストミックスされた非相関器出力信号の第2のセットを得るために、非相関器の主要部3160によって供給された非相関器出力信号をポストミックス(または、アップミックス)する。
レンダラ3130は、例えば、レンダリングするための行列Rを適用し、プレミキサは、例えば、プレミックスするための行列Mpreを適用し、ポスト・ミキサは、例えば、ポストミックスするための行列Mpostを適用し、そして、コンバイナは、例えば、結合するための行列Pを適用する。
ダウンミックス・プロセッサ3100または個々の構成要素またはその機能は、本願明細書において記載されるオーディオ・デコーダにおいて、使用されうる点に留意されたい。さらに、ダウンミックス・プロセッサは、本願明細書において記載されるいくつかの特徴および機能によって補充されうる点に留意されたい。
20.2. SAOC 3D処理
ISO/IEC 23003-1:2007に記載されているハイブリッド・フィルタバンクが適用される。DMG、OLD、IOCパラメータの逆量子化は、ISO/IEC 23003-2:2010の7.1.2において定義されるように同じ規則に従う。
20.2.1 信号およびパラメータ
オーディオ信号は、あらゆる時間枠nおよびあらゆるハイブリッド・サブバンドkに対して定義される。対応するSAOC 3Dパラメータは、各パラメータ時間枠lおよび処理バンドmに対して定義される。ハイブリッドおよびパラメータ領域間の次のマッピングは、ISO/IEC 23003-1:2007の表A.31によって特定される。それゆえ、すべての計算は、特定の時間/バンド・インデックスに関して実行され、そして、対応する次元は、各導入変数に対して暗に定義される。
SAOC 3Dデコーダで利用可能なデータは、マルチチャネル・ダウンミックス信号X、共分散行列E、レンダリング行列Rおよびダウンミックス行列Dで構成される。
Figure 0007000488000061
ここで、逆量子化オブジェクト・パラメータは、

OLDi=DOLD(i,l,m),IOCi,j=DIOC(i,j,l,m)

として、得られる。
Figure 0007000488000062
Figure 0007000488000063
ここで、逆量子化ダウンミックス・パラメータは、

DMGi,j=DDMG(i,j,l)

として、得られる。
Figure 0007000488000064
Figure 0007000488000065
Figure 0007000488000066
Figure 0007000488000067
Figure 0007000488000068
20.2.2 復号化
SAOC 3Dパラメータおよびレンダリング情報を用いて出力信号を得るための方法が記載される。SAOC 3Dデコーダは、例えば、SAOC 3Dパラメータ・プロセッサおよびSAOC 3Dダウンミックス・プロセッサから構成されうる。
20.2.2.1 ダウンミックス・プロセッサ
(ハイブリッドQMF領域において表される)ダウンミックス・プロセッサの出力信号は、SAOC 3Dデコーダの最後の出力を得ている、ISO/IEC 23003-1:2007において記載されるように、対応する合成フィルタバンクに供給される。ダウンミックス・プロセッサの詳細な構造は、図31において表現される。
Figure 0007000488000069
Figure 0007000488000070
Figure 0007000488000071
図32において示されるように、復号化モードは、ビットストリーム要素bsNumSaocDmxObjestsによって制御される。
20.2.2.1.1 結合復号化モード
結合復号化モードの場合において、パラメトリック・アンミキシング行列Uは、

U=ED*

によって、与えられる。
Figure 0007000488000072
Figure 0007000488000073
Figure 0007000488000074
Figure 0007000488000075
Figure 0007000488000076
Figure 0007000488000077
Figure 0007000488000078
Figure 0007000488000079
Figure 0007000488000080
Figure 0007000488000081
Figure 0007000488000082
Figure 0007000488000083
Figure 0007000488000084
Figure 0007000488000085
Figure 0007000488000086
Figure 0007000488000087
Figure 0007000488000088
Figure 0007000488000089
Figure 0007000488000090
Figure 0007000488000091
Figure 0007000488000092
Figure 0007000488000093
Figure 0007000488000094
Figure 0007000488000095
Figure 0007000488000096
Figure 0007000488000097
21. 実施変形例
いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、ブロックあるいは装置は、方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置によって(または使用して)実行されうる。いくつかの実施の形態において、最も重要な方法のステップの1つ以上は、この種の装置によって実行されうる。
本発明の符号化された音声信号は、デジタル記憶媒体に保存されるか、または、ワイヤレス伝送媒体または例えば、インターネットのような有線の伝送媒体のような伝送媒体上に送信されうる。
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働するか(または、協働することができる)、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、ブルーレイ(登録商標)、CD、ROM、PROM、EPROM、EEPROM、またはFLASH(登録商標)メモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの1つを実行するために作動される。プログラムコードは、機械可読キャリアに、例えば、格納されうる。
他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には、有形でありおよび/または、暫定的である。
従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの1つを実行するためのコンピュータ・プログラムを(例えば、電子的にまたは光学的に)転送するために構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。
いくつかの実施の形態において、プログラミング可能な論理回路(例えば、現場でプログラム可能なゲートアレイ(Field Programmable Gate Array))が、本願明細書において記載される方法のいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。
上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更ならびに詳細は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。
参考文献

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[Blauert] J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.

[OCD] J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

International Patent No. WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING" issued on 9 March 2006.

Claims (35)

  1. Figure 0007000488000098
  2. K=K’である、請求項1に記載のマルチチャネル非相関器。
  3. N=N’である、請求項1または請求項2に記載のマルチチャネル非相関器。
  4. N≧3およびN’≧3である、請求項1ないし請求項3のいずれかに記載のマルチチャネル非相関器。
  5. Figure 0007000488000099
  6. Figure 0007000488000100
  7. Figure 0007000488000101
  8. Figure 0007000488000102
  9. Figure 0007000488000103
  10. Figure 0007000488000104
  11. Figure 0007000488000105
  12. Figure 0007000488000106
  13. 結合される前記少なくとも2つの左側のチャネル信号は、結合される前記少なくとも2つの右側のチャネル信号に関連している前記空間的な位置と、前記オーディオ・シーンの中心面に関して、対称な空間的な位置に関連している、請求項1に記載のマルチチャネル非相関器。
  14. 前記マルチチャネル非相関器は、非相関器入力信号の前記第2のセットの非相関器入力信号の数Kを記述している複雑さの情報を受信するように構成され、前記マルチチャネル非相関器は、前記複雑さの情報に基づいて、プレミキシング行列(Mpre)を選択するように構成される、請求項1ないし請求項1のいずれかに記載のマルチチャネル非相関器。
  15. Figure 0007000488000107
  16. Figure 0007000488000108
  17. Figure 0007000488000109
  18. Figure 0007000488000110
  19. 符号化表現(110;1516a;1516b;1518)に基づいて、少なくとも2つの出力オーディオ信号(112,114;1552a-1552n)を供給するためのマルチチャネル・オーディオ・デコーダ(100;1550)であって、
    ここで、前記マルチチャネル・オーディオ・デコーダは、請求項1ないし請求項18のいずれかに記載のマルチチャネル非相関器(140;600;1590;1700)を含む、マルチチャネル・オーディオ・デコーダ。
  20. 前記マルチチャネル・オーディオ・デコーダは、複数のレンダリングされたオーディオ信号(134,136;1582a-1582n)を得るために、1つ以上のレンダリング・パラメータ(132)に基づいて、前記符号化表現に基づいて得られた複数の復号化オーディオ信号(122;1562a-1562n)をレンダリングするように構成され、
    前記マルチチャネル・オーディオ・デコーダは、前記マルチチャネル非相関器を使用して、前記レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号(142,144;1592a-1592n)を導出するように構成され、ここで、前記レンダリングされたオーディオ信号は、非相関器入力信号の前記第1のセットを構成し、非相関器出力信号の前記第2のセットは、前記非相関化オーディオ信号を構成し、
    前記マルチチャネル・オーディオ・デコーダは、前記出力オーディオ信号を得るために、前記レンダリングされたオーディオ信号またはそのスケール化バージョンと前記1つ以上の非相関化オーディオ信号とを結合する(150;1598)ように構成される、請求項19に記載のマルチチャネル・オーディオ・デコーダ。
  21. 前記マルチチャネル・オーディオ・デコーダは、前記符号化表現において含まれる制御情報に基づいて、前記マルチチャネル非相関器による使用のためのプレミキシング行列(Mpre)を選択するように構成される、請求項19または請求項2に記載のマルチチャネル・オーディオ・デコーダ。
  22. 前記マルチチャネル・オーディオ・デコーダは、オーディオ・シーンの空間的な位置に伴う前記出力オーディオ信号の配分を記述している出力構造に基づいて、前記マルチチャネル非相関器による使用のためのプレミキシング行列(Mpre)を選択するように構成される、請求項19ないし請求項2のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
  23. 前記マルチチャネル・オーディオ・デコーダは、所与の出力構造のための前記符号化表現において含まれる制御情報に基づいて、前記マルチチャネル非相関器による使用のために3つ以上の異なるプレミキシング行列(Mpre)の間で選択するように構成され、前記3つ以上の異なるプレミキシング行列の各々は、K個の非相関器入力信号の前記第2のセットの信号の異なる数に関連している、請求項19ないし請求項2のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
  24. 前記マルチチャネル・オーディオ・デコーダは、前記少なくとも2つの出力オーディオ信号を受信するフォーマット変換器またはレンダラによって使用される混合行列(Dconv,Drender)に基づいて、前記マルチチャネル非相関器による使用のためにプレミキシング行列(Mpre)を選択するように構成される、請求項19ないし請求項2のいずれかに記載のマルチチャネル・オーディオ・デコーダ。
  25. 前記マルチチャネル・オーディオ・デコーダは、前記少なくとも2つの出力オーディオ信号を受信するフォーマット変換器またはレンダラによって使用される混合行列(Dconv,Drender)に等しい前記マルチチャネル非相関器による使用のための前記プレミキシング行列(Mpre)を選択するように構成される、請求項2に記載のマルチチャネル・オーディオ・デコーダ。
  26. Figure 0007000488000111
  27. 符号化表現に基づく少なくとも2つの出力オーディオ信号を供給するための方法(1000)であって、
    前記方法は、請求項2に記載の複数の非相関器入力信号に基づき複数の非相関化信号を供給するステップ(1020)を含む、方法。
  28. コンピュータ・プログラムがコンピュータ上で実行されると、前記コンピュータが請求項26または請求項27に記載の方法を実行する、コンピュータ・プログラム。
  29. Figure 0007000488000112
  30. Figure 0007000488000113
  31. Figure 0007000488000114
  32. Figure 0007000488000115
  33. Figure 0007000488000116
  34. 符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法(1000)であって、
    前記方法は、
    N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするステップ(910)であって、ここでK<Nである、ステップと、
    K個の非相関器入力信号の前記第2のセットに基づき、K'個の非相関器出力信号の第1のセットを供給するステップ(920)と、
    K'個の非相関器出力信号の前記第1のセットをN'個の非相関器出力信号の第2のセットにアップミックスするステップ(930)であって、ここでN'>K'である、ステップと、
    複数の非相関器入力信号に基づいて複数の非相関化信号を供給するステップ(1020)とを含み、
    前記方法は、前記マルチチャネル非相関器が使用するためのプレミキシング行列(M pre )を前記符号化表現に含まれる制御情報に依存して選択するステップを含む、
    方法。
  35. コンピュータ・プログラムがコンピュータ上で実行されると、前記コンピュータが請求項32、請求項33または請求項34に記載の方法を実行する、コンピュータ・プログラム。
JP2020066343A 2013-07-22 2020-04-02 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム Active JP7000488B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP13177374 2013-07-22
EP13177374.9 2013-07-22
EP20130189339 EP2830333A1 (en) 2013-07-22 2013-10-18 Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP13189339.8 2013-10-18

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018137637A Division JP6687683B2 (ja) 2013-07-22 2018-07-23 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2020120389A JP2020120389A (ja) 2020-08-06
JP7000488B2 true JP7000488B2 (ja) 2022-01-19

Family

ID=48832794

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016528442A Active JP6434013B2 (ja) 2013-07-22 2014-07-17 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
JP2018137637A Active JP6687683B2 (ja) 2013-07-22 2018-07-23 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
JP2020066343A Active JP7000488B2 (ja) 2013-07-22 2020-04-02 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2016528442A Active JP6434013B2 (ja) 2013-07-22 2014-07-17 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
JP2018137637A Active JP6687683B2 (ja) 2013-07-22 2018-07-23 マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム

Country Status (19)

Country Link
US (6) US11115770B2 (ja)
EP (5) EP2830334A1 (ja)
JP (3) JP6434013B2 (ja)
KR (1) KR101893410B1 (ja)
CN (1) CN105580390B (ja)
AR (2) AR097014A1 (ja)
AU (2) AU2014295206B2 (ja)
BR (1) BR112016001245B1 (ja)
CA (1) CA2919077C (ja)
ES (3) ES2725427T3 (ja)
MX (3) MX362548B (ja)
MY (1) MY178904A (ja)
PL (1) PL3025515T3 (ja)
PT (1) PT3025515T (ja)
RU (1) RU2666640C2 (ja)
SG (1) SG11201600491SA (ja)
TW (1) TWI587285B (ja)
WO (1) WO2015011014A1 (ja)
ZA (1) ZA201601047B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830334A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
JP6212645B2 (ja) * 2013-09-12 2017-10-11 ドルビー・インターナショナル・アーベー オーディオ・デコード・システムおよびオーディオ・エンコード・システム
ES2922373T3 (es) * 2015-03-03 2022-09-14 Dolby Laboratories Licensing Corp Realce de señales de audio espacial por decorrelación modulada
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
US11004457B2 (en) * 2017-10-18 2021-05-11 Htc Corporation Sound reproducing method, apparatus and non-transitory computer readable storage medium thereof
EP3588988B1 (en) * 2018-06-26 2021-02-17 Nokia Technologies Oy Selective presentation of ambient audio content for spatial audio presentation
US11990141B2 (en) * 2018-12-20 2024-05-21 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for controlling multichannel audio frame loss concealment
GB2582748A (en) 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
KR20230001135A (ko) * 2021-06-28 2023-01-04 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 처리하는 컴퓨터 시스템 및 그의 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525403A (ja) 2007-04-26 2010-07-22 ドルビー インターナショナル アクチボラゲット 出力信号の合成装置及び合成方法
JP2012505575A (ja) 2008-10-07 2012-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 多チャネルオーディオ信号のバイノーラル・レンダリング
JP6434013B2 (ja) 2013-07-22 2018-12-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030014439A1 (en) * 2001-06-20 2003-01-16 International Business Machines Corporation Defining a markup language representation for state chart data
CA2992097C (en) * 2004-03-01 2018-09-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
DE602005006777D1 (de) * 2004-04-05 2008-06-26 Koninkl Philips Electronics Nv Mehrkanal-codierer
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
MX2007011995A (es) 2005-03-30 2007-12-07 Koninkl Philips Electronics Nv Codificacion y decodificacion de audio.
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
JP4650343B2 (ja) 2005-07-15 2011-03-16 セイコーエプソン株式会社 電気光学装置及び電子機器
KR20070025905A (ko) 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
CN101253555B (zh) * 2005-09-01 2011-08-24 松下电器产业株式会社 多声道音频信号处理装置及多声道音频信号处理方法
US8073703B2 (en) * 2005-10-07 2011-12-06 Panasonic Corporation Acoustic signal processing apparatus and acoustic signal processing method
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US8411869B2 (en) * 2006-01-19 2013-04-02 Lg Electronics Inc. Method and apparatus for processing a media signal
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
TW200742275A (en) * 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
EP1999997B1 (en) 2006-03-28 2011-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Enhanced method for signal shaping in multi-channel audio reconstruction
EP2000001B1 (en) 2006-03-28 2011-12-21 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for a decoder for multi-channel surround sound
KR101346490B1 (ko) 2006-04-03 2014-01-02 디티에스 엘엘씨 오디오 신호 처리 방법 및 장치
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
SG175632A1 (en) * 2006-10-16 2011-11-28 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
CN101816191B (zh) * 2007-09-26 2014-09-17 弗劳恩霍夫应用研究促进协会 用于提取环境信号的装置和方法
CA2701360C (en) 2007-10-09 2014-04-22 Dirk Jeroen Breebaart Method and apparatus for generating a binaural audio signal
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
EP2093911A3 (en) 2007-11-28 2010-01-13 Lg Electronics Inc. Receiving system and audio data processing method thereof
US8126172B2 (en) 2007-12-06 2012-02-28 Harman International Industries, Incorporated Spatial processing stereo system
KR101147780B1 (ko) 2008-01-01 2012-06-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20090194756A1 (en) * 2008-01-31 2009-08-06 Kau Derchang Self-aligned eletrode phase change memory
RU2469497C2 (ru) 2008-02-14 2012-12-10 Долби Лэборетериз Лайсенсинг Корпорейшн Стереофоническое расширение
JP5366104B2 (ja) 2008-06-26 2013-12-11 オランジュ マルチチャネル・オーディオ信号の空間合成
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
JP5358691B2 (ja) 2009-04-08 2013-12-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 位相値平滑化を用いてダウンミックスオーディオ信号をアップミックスする装置、方法、およびコンピュータプログラム
EP2420050B1 (en) * 2009-04-15 2013-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multichannel echo canceller
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
EP2461321B1 (en) * 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
JP5604933B2 (ja) 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
JP5753899B2 (ja) * 2010-07-20 2015-07-22 ファーウェイ テクノロジーズ カンパニー リミテッド オーディオ信号合成器
BR112013004362B1 (pt) * 2010-08-25 2020-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida
RU2618383C2 (ru) * 2011-11-01 2017-05-03 Конинклейке Филипс Н.В. Кодирование и декодирование аудиообъектов
EP2956935B1 (en) 2013-02-14 2017-01-04 Dolby Laboratories Licensing Corporation Controlling the inter-channel coherence of upmixed audio signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525403A (ja) 2007-04-26 2010-07-22 ドルビー インターナショナル アクチボラゲット 出力信号の合成装置及び合成方法
JP2012505575A (ja) 2008-10-07 2012-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 多チャネルオーディオ信号のバイノーラル・レンダリング
JP6434013B2 (ja) 2013-07-22 2018-12-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
JP6687683B2 (ja) 2013-07-22 2020-04-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム

Also Published As

Publication number Publication date
AR097014A1 (es) 2016-02-10
AU2014295206B2 (en) 2017-11-02
EP2830334A1 (en) 2015-01-28
KR101893410B1 (ko) 2018-10-04
AU2017248532B2 (en) 2019-09-19
ZA201601047B (en) 2017-11-29
AU2014295206A1 (en) 2016-03-10
JP2018198434A (ja) 2018-12-13
MY178904A (en) 2020-10-22
CA2919077C (en) 2019-07-09
US11252523B2 (en) 2022-02-15
BR112016001245A2 (ja) 2017-07-25
RU2666640C2 (ru) 2018-09-11
PT3025515T (pt) 2019-05-30
ES2924174T3 (es) 2022-10-05
TWI587285B (zh) 2017-06-11
US20160316307A1 (en) 2016-10-27
TW201532034A (zh) 2015-08-16
US11381925B2 (en) 2022-07-05
EP3025515A1 (en) 2016-06-01
MX2016000915A (es) 2016-05-31
US20160157039A1 (en) 2016-06-02
CN105580390B (zh) 2018-06-12
MX362548B (es) 2019-01-24
EP2830333A1 (en) 2015-01-28
KR20160042913A (ko) 2016-04-20
ES2725427T3 (es) 2019-09-24
EP3419314B1 (en) 2022-04-27
EP3419315A1 (en) 2018-12-26
AR097015A1 (es) 2016-02-10
US11240619B2 (en) 2022-02-01
SG11201600491SA (en) 2016-02-26
CA2919077A1 (en) 2015-01-29
PL3025515T3 (pl) 2019-08-30
JP6687683B2 (ja) 2020-04-28
US20220167102A1 (en) 2022-05-26
WO2015011014A1 (en) 2015-01-29
MX2018012891A (es) 2020-11-06
RU2016105468A (ru) 2017-08-29
BR112016001245B1 (pt) 2022-06-21
JP2016531482A (ja) 2016-10-06
US20190124459A1 (en) 2019-04-25
JP6434013B2 (ja) 2018-12-05
MX2018012892A (es) 2020-09-17
US10448185B2 (en) 2019-10-15
AU2017248532A1 (en) 2017-11-09
US20160353222A1 (en) 2016-12-01
CN105580390A (zh) 2016-05-11
ES2925038T3 (es) 2022-10-13
US11115770B2 (en) 2021-09-07
JP2020120389A (ja) 2020-08-06
EP3419314A1 (en) 2018-12-26
EP3419315B1 (en) 2022-05-04
EP3025515B1 (en) 2019-02-13
US20160240199A1 (en) 2016-08-18

Similar Documents

Publication Publication Date Title
JP7000488B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
JP6777700B2 (ja) マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現
KR20160053910A (ko) 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200506

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211223

R150 Certificate of patent or registration of utility model

Ref document number: 7000488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150