JP2018507444A - 符号化されたオーディオ信号を処理するための装置および方法 - Google Patents

符号化されたオーディオ信号を処理するための装置および方法 Download PDF

Info

Publication number
JP2018507444A
JP2018507444A JP2017558779A JP2017558779A JP2018507444A JP 2018507444 A JP2018507444 A JP 2018507444A JP 2017558779 A JP2017558779 A JP 2017558779A JP 2017558779 A JP2017558779 A JP 2017558779A JP 2018507444 A JP2018507444 A JP 2018507444A
Authority
JP
Japan
Prior art keywords
group
downmix
matrix
individual
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017558779A
Other languages
English (en)
Other versions
JP6564068B2 (ja
Inventor
アドリアン モルタザ
アドリアン モルタザ
ヨウニ パウルス
ヨウニ パウルス
ハラルド フックス
ハラルド フックス
ロベルタ カミエリ
ロベルタ カミエリ
レオン テレンチエフ
レオン テレンチエフ
サッシャ ディスヒ
サッシャ ディスヒ
ユールゲン ヘレ
ユールゲン ヘレ
オリヴァー ヘルムート
オリヴァー ヘルムート
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2018507444A publication Critical patent/JP2018507444A/ja
Priority to JP2019136552A priority Critical patent/JP6906570B2/ja
Application granted granted Critical
Publication of JP6564068B2 publication Critical patent/JP6564068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

本発明は、複数の入力オーディオ・オブジェクト(111)およびオブジェクト・パラメータ(E)と関連付けられた複数のダウンミックス信号(101)を含む符号化されたオーディオ信号(100)を処理するための装置(1)に関する。装置(1)は、ダウンミックス信号(101)を、入力オーディオ・オブジェクト(111)のセットと関連付けられたダウンミックス信号(102)グループに分類するように構成された分類器(2)を含む。装置(1)は、分類結果(103,104)を提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)について少なくとも1つの処理ステップを個々に実行するように構成されたプロセッサ(3)を含む。さらに、復号化されたオーディオ信号(110)を提供するために、前記分類結果(103,104)または処理された分類結果を結合するように構成された結合器(4)が存在する。分類器(2)は、それぞれの入力オーディオ・オブジェクト(111)が1つの入力オーディオ・オブジェクト(111)のセットしか属さないように、ダウンミックス信号(101)を分類するように構成されている。本発明は、対応する方法にも関する。【選択図】図14

Description

本発明は、符号化されたオーディオ信号を処理するための装置および方法に関する。
近年、多重オーディオのオブジェクトを含んでいるオーディオ場面のビットレートの効率的な送信/格納のためのパラメトリック技術は、オーディオ符号化(以下の非特許文献1と非特許文献8と非特許文献9と非特許文献10と非特許文献11を参照してください)および情報ソース分離(例えば以下の非特許文献2と非特許文献3と非特許文献4と非特許文献5と非特許文献6と非特許文献7を参照してください)の分野において提案されている。
これらの技術は、オーディオ場面において、送信/格納されたオーディオ信号および/またはソースオブジェクトを説明する追加のサイド情報に基づいて、望ましい出力オーディオ場面またはオーディオソースオブジェクトを再構成することを目的とする。この再構成は、パラメトリック情報ソース分離計画を用いて、復号器の中で実行される。
不幸なことに、場合によっては、パラメトリック分離計画が、不満足なヒアリング経験を引き起こす厳しい可聴の人工物をもたらすことが認められている。
[BCC]C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [ISS1]M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010. [ISS2]M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. [ISS3]A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. [ISS4]A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [ISS5]S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. [ISS6]L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. [JSC]C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. [SAOC]ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2. [SAOC1]J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. [SAOC2]J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008. [SAOC3D]ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Audio, Sapporo, July 2014. [SAOC3D2]J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H Audio - The new standard for universal spatial / 3D audio coding," 137th AES Convention, Los Angeles, 2011.
従って、本発明の目的は、パラメトリック符号化技術を使って、復号化されたオーディオ信号のオーディオ品質を改善することである。
この目的は、請求項1に従う装置によって、および、請求項22に従う対応する方法によって達成される。
この目的は、符号化されたオーディオ信号を処理するための装置により達成される。符号化されたオーディオ信号は、複数の入力オーディオ・オブジェクトとオブジェクトパラメータ(E)とに関連付けられた複数のダウンミックス信号を含む。装置は、分類器およびプロセッサおよび結合器かを含む。
さらに、プロセッサ−分類に続いている−は、入力オーディオ・オブジェクトのそれぞれのセットのオブジェクトパラメータに対して、少なくとも1つの処理ステップを個々に実行するように構成される。ゆえに、少なくとも1つの処理ステップが、全てのオブジェクトパラメータに対して同時に実行されるのではなく、ダウンミックス信号の個々のグループに属するオブジェクトパラメータに対して個々に実行される。1つの実施の形態において、ちょうど1つのステップが個々に実行される。異なる実施の形態において、1つ以上のステップが実行される一方、代わりの実施の形態において、全体の処理がダウンミックス信号のグループについて個々に実行される。プロセッサは個々のグループのための分類結果を提供する。
異なる実施の形態において、プロセッサ−分類に続いている−は、複数のダウンミックス信号のグループのそれぞれのグループについて少なくとも1つの処理ステップを個々に実行するように構成される。ゆえに、少なくとも1つの処理ステップが、全てのダウンミックス信号に対して同時に実行されるのではなく、ダウンミックス信号の個々のグループについて個々に実行される。
結局、結合器は、復号化されたオーディオ信号を提供するために、分類結果または処理された分類結果を結合するように構成される。ゆえに、分類結果または分類結果に対して実行された別の処理ステップの結果が、復号化されたオーディオ信号を提供するように結合される。復号化されたオーディオ信号は、符号化されたオーディオ信号により符号化される複数の入力オーディオ・オブジェクトに対応する。
分類器によって成された分類は、複数の入力オーディオ・オブジェクトのそれぞれの入力オーディオ・オブジェクトが、入力オーディオ・オブジェクトのちょうど又は正確に1つのセットに属するという圧縮の下で少なくとも成される。これは、個々の入力オーディオ・オブジェクトが、ダウンミックス信号のちょうど1つのグループに属することを暗示する。これは、個々のダウンミックス信号が、ダウンミックス信号のちょうど1つのグループに属することも暗示する。
実施の形態によると、分類器は、入力オーディオ・オブジェクトのそれぞれのセットのそれぞれの入力オーディオ・オブジェクトが、符号化されたオーディオ信号の中で信号で伝えられた、他の入力オーディオ・オブジェクトと関係がない、または、符号化されたオーディオ信号の中で伝えられた、入力オーディオ・オブジェクトの同じセットに属する少なくとも1つの入力オーディオ・オブジェクトとのみ関係を持つように、複数のダウンミックス信号を、複数のダウンミックス信号グループに分類するように構成されている。これは、入力オーディオ・オブジェクトが、ダウンミックス信号の異なるグループに属する入力オーディオ・オブジェクトに、信号で伝えられた関係を持たないことを暗示する。そのような信号で伝えられた関係は、1つの実施の形態において、2つの入力オーディオ・オブジェクトが、1つの単一のソースから生じるステレオ信号であることである。
本発明の装置は、ダウンミックス信号を含む符号化されたオーディオ信号を処理する。ダウンミックス化は、個々のオーディオ信号の与えられた数を符号化するプロセスの一部であり、入力オーディオ・オブジェクトの特定の数がダウンミックス化信号の中に結合されることを暗示する。従って、入力オーディオ・オブジェクトの数は、より小さいダウンミックス信号に減らされる。このため、ダウンミックス信号が、複数の入力オーディオ・オブジェクトと関連する。
ダウンミックス信号は、ダウンミックス信号のグループに分類されて、−すなわち単一のグループとして−少なくとも1つの処理ステップに個々に従う。それゆえ、装置は、すべてのダウンミックス信号に対して一緒にではなく、ダウンミックス信号の個々のグループについて個々に、少なくとも1つの処理ステップを実行する。異なる実施の形態において、グループのオブジェクトパラメータは、符号化されたオーディオ信号に適用されるべきマトリクスを得るために分離して扱われる。
1つの実施の形態において、装置は、符号化されたオーディオ信号の復号器である。装置は、代わりの実施の形態において、復号器の一部である。
1つの実施の形態において、個々のダウンミックス信号はダウンミックス信号の1つのグループに帰され、その結果、少なくとも1つの処理ステップについて個々に処理される。この実施の形態において、ダウンミックス信号のグループの数は、ダウンミックス信号の数と等しい。これは、分類と個々の処理とが一致することを暗示している。
1つの実施の形態において、結合は、符号化されたオーディオ信号の処理の最終的なステップの1つである。異なる実施の形態において、分類結果は、分類結果に対して、個々に又は一緒に実行される異なる処理ステップに更に従う。
分類(または、グループの検出)およびグループの個々の取り扱いは、オーディオ品質改良をもたらすことを示す。これは、特に、例えばパラメトリック符号化技術のために維持する。
実施の形態によると、装置の分類器は、ダウンミックス信号のそれぞれのグループ内のダウンミックス信号の数を最小化しながら、複数のダウンミックス信号グループに、複数のダウンミックス信号を分類するように構成される。この実施の形態において、装置は、個々のグループに属するダウンミックス信号の数を減らそうとする。1つのケースにおいて、ダウンミックス信号の少なくとも1つのグループに、ちょうど1つのダウンミックス信号が属する。
実施の形態によると、分類器は、1つのダウンミックス信号グループには1つの単一のダウンミックス信号しか属さないように、前記複数のダウンミックス信号を前記複数のダウンミックス信号グループに分類するように構成されている。すなわち、分類は、ダウンミックス信号の様々なグループをもたらし、ちょうど1つのダウンミックス信号が属する少なくとも1つのダウンミックス信号のグループが与えられる。従って、ダウンミックス信号の少なくとも1つのグループは、ちょうど1つの単一のダウンミックス信号に関連する。別の実施の形態において、ちょうど1つのダウンミックス信号が属するダウンミックス信号のグループの数は、最大化される。
1つの実施の形態において、装置の分類器は、符号化されたオーディオ信号内の情報に基づいて、複数のダウンミックス信号を、複数のダウンミックス信号グループに分類するように構成されている。別の実施の形態において、装置は、ダウンミックス信号を分類するために符号化されたオーディオ信号内の情報だけを使う。符号化されたオーディオ信号のビットストリーム内の情報を使うことは、−1つの実施の形態の中で−相互関係または共分散情報を考慮することを含む。分類器は、特に、異なる入力オーディオ・オブジェクトの間の関係についての情報を、符号化されたオーディオ信号から取り出す。
1つの実施の形態において、分類器は、前記複数のダウンミックス信号を、前記符号化されたオーディオ信号内のbsRelatedTo値に基づいて、複数のダウンミックス信号グループに分類するように構成される。これらの値に関係することは、例えばWO 2011/039195 A1に関連する。
実施の形態によると、分類器は、複数のダウンミックス信号を、少なくとも以下のステップを(ダウンミックス信号の個々のグループに)適用して、複数のダウンミックス信号グループに分類するように構成される。
・ダウンミックス信号が、ダウンミックス信号の既存のグループに割り当てられるか否かを検出するステップ。
・ダウンミックス信号と関連付けられた複数の入力オーディオ・オブジェクトの少なくとも1つの入力オーディオ・オブジェクトが、ダウンミックス信号の既存のグループと関連付けられた入力オーディオ・オブジェクトのセットの一部であるか否かを検出するステップ。
・ダウンミックス信号がダウンミックス信号の既存のグループに割り当てがない(ゆえに、既にダウンミックス信号はグループに割り当てられていない)場合に、および、ダウンミックス信号と関連付けられた複数の入力オーディオ・オブジェクトのすべての入力オーディオ・オブジェクトが、ダウンミックス信号の既存のグループと関連がない(ゆえに、既にダウンミックス信号の入力オーディオ・オブジェクトが、−異なるダウンミックス信号を経て−グループに割り当てられていない)場合に、ダウンミックス信号を新しいダウンミックス信号グループに割り当てるステップ。
・ダウンミックス信号が、ダウンミックス信号の既存のグループと関連する場合、または、ダウンミックス信号と関連付けられた複数の入力オーディオ・オブジェクトの少なくとも1つの入力オーディオ・オブジェクトが、ダウンミックス信号の既存のグループと関連する場合のいずれかの場合に、ダウンミックス信号をダウンミックス信号の既存のグループに結合するステップ。
仮にまた、符号化されたオーディオ信号において信号で伝えられた関係が考慮されるならば、ダウンミックス信号を割り当てて結合するための付加要件をもたらす別の検出ステップが追加される。
実施の形態によると、プロセッサは、分類結果として個々のマトリクスを提供するために、入力オーディオ・オブジェクトのそれぞれのセットの(または、ダウンミックス信号のそれぞれのグループの)オブジェクトパラメータ(Ek)に対して様々な処理ステップを個々に実行するように構成される。結合器は、前記復号化されたオーディオ信号を提供するために、個々のマトリクスを結合するように構成される。オブジェクトパラメータ(Ek)は、インデックスkによってダウンミックス信号の個々のグループの入力オーディオ・オブジェクトに属し、インデックスkを持つこのグループのための個々のマトリクスを得るように処理される。
異なる実施の形態によると、プロセッサは、分類結果として出力オーディオ信号を提供するために、前記複数のダウンミックス信号のグループのそれぞれのグループについて様々な処理ステップを個々に実行するように構成される。結合器は、前記復号化されたオーディオ信号を提供するために、出力オーディオ信号を結合するように構成される。
この実施の形態において、ダウンミックス信号のグループは、ダウンミックス信号のそれぞれのグループに属している入力オーディオ・オブジェクトに対応する出力オーディオ信号が得られるように、処理される。ゆえに、出力オーディオ信号を復号化されたオーディオ信号に結合することは、符号化されたオーディオ信号に対して実行された復号化処理の最終的なステップに近い。従って、この実施の形態では、ダウンミックス信号のそれぞれのグループは、ダウンミックス信号のグループの検出に続いている全ての処理ステップに個々に従う。
異なる実施の形態において、プロセッサは、分類結果として処理された信号を提供するために、前記複数のダウンミックス信号のグループのそれぞれのグループについて少なくとも1つの処理ステップを個々に実行するように構成される。装置は、出力オーディオ信号を提供するために、前記処理された信号を一緒に処理するように構成されたポストプロセッサをさらに含む。結合器は、前記復号化されたオーディオ信号を提供するために、処理された分類結果として出力オーディオ信号を結合するように構成される。
この実施の形態において、ダウンミックス信号のグループは、少なくとも1つの処理ステップに個々に従い、そして、他のグループと一緒に少なくとも1つの処理ステップに従う。個別の処理は、−実施の形態において−一緒に処理される処理された信号をもたらす。
1つの実施の形態において、マトリクスに関連して、プロセッサは、個々のマトリクスを提供するために、入力オーディオ・オブジェクトのそれぞれのセットのオブジェクトパラメータ(Ek)に対して、少なくとも1つの処理ステップを個々に実行するように構成される。装置に含まれたポストプロセッサは、少なくとも1つのオーバーオール・マトリクスを提供するために、オブジェクトパラメータを一緒に処理するように構成される。結合器は、前記個々のマトリクスと前記少なくとも1つのオーバーオール・マトリクスとを結合するように構成される。1つの実施の形態において、ポストプロセッサは、少なくとも1つのオーバーオール・マトリクスを得るために、個々のマトリクスに対して少なくとも1つの処理ステップを一緒に実行する。
以下の実施の形態は、プロセッサによって実行された処理ステップに関連する。また、これらのステップのいくつかは、前述の実施の形態において言及されたポストプロセッサに適している。
1つの実施の形態において、プロセッサは、前記複数のダウンミックス信号のグループのそれぞれのグループのダウンミックス信号をミックスしないように構成された非ミキサーを含む。ダウンミックス信号をミックスしないことによって、プロセッサは、ダウンミックス信号の中にダウンミックスされたオリジナル入力オーディオ・オブジェクトの表現を得る。
実施の形態によると、非ミキサーは、最小平均2乗エラー(MMSE)アルゴリズムに基づいて、前記複数のダウンミックス信号のグループの個々のグループのダウンミックス信号をミックスしないように構成される。そのようなアルゴリズムは以下の記載において説明される。
異なる実施の形態において、プロセッサは、個々の非ミックスマトリクスを提供するために、それぞれの入力オーディオ・オブジェクトのセットのオブジェクトパラメータを個々に処理するように構成された非ミキサーを含む。
1つの実施の形態において、プロセッサは、ダウンミックス信号の個々のグループと関連付けられた入力オーディオ・オブジェクトのセットの入力オーディオ・オブジェクトの数と、ダウンミックス信号の個々のグループに属しているダウンミックス信号の数との少なくとも1つにサイズが依存しているダウンミックス信号マトリクスのそれぞれのグループのために個々に計算するように構成された計算機を含む。ダウンミックス信号のグループはダウンミックス信号の全体のアンサンブルより小さく、かつ、ダウンミックス信号のグループは入力オーディオ信号のより小さい数に関連するので、ダウンミックス信号のグループの処理のために使われたマトリクスは、従来の技術において用いられたこれらより小さい。これは計算を容易にする。
実施の形態によると、計算機は、個々の非ミックス化マトリクスに対して、ダウンミックス信号の個々のグループ内の最大エネルギー値に基づいて、個々の閾値を計算するように構成される。
実施の形態によると、プロセッサは、ダウンミックス信号の個々のグループについて、ダウンミックス信号の個々のグループ内の最大エネルギー値に基づいて、個々の閾値を個々に計算するように構成される。
1つの実施の形態において、計算機は、それぞれのダウンミックス信号のグループのダウンミックス信号を非ミックス化するための正規化ステップに対して、個々のダウンミックス信号のグループ内の最大エネルギー値に基づいて、個々の閾値を計算するように構成される。ダウンミックス信号のグループのための閾値は、異なる実施の形態において非ミキサー自身により計算される。
以下の議論は、すべてのダウンミックス信号のためではなく、グループ(1つのグループごとに1つの閾値)のための閾値を計算することの興味深い効果を示す。
実施の形態によると、プロセッサは、レンダリングされた信号を提供するために、前記復号化されたオーディオ信号の出力状況に対して、個々のグループの非ミックスされたダウンミックス信号をレンダリングするように構成されたレンダリング器を含む。レンダリング化は、聴取者から提供された入力に基づいて、または、実際の出力状況についてのデータに基づいている。
実施の形態において、プロセッサは、少なくとも1つのレンダリングマトリクスを提供するために、オブジェクトパラメータを処理するように構成されたレンダリング器を含む。
プロセッサは、実施の形態において、少なくとも1つの非相関マトリクスを提供するために、オブジェクトパラメータを処理するように構成されたポストミキサーを含む。
実施の形態によると、プロセッサは、前記レンダリングされた信号に対して少なくとも1つの非相関ステップを実行するように構成され、かつ、実行された非相関ステップの結果(Ywet)を、前記個々のレンダリングされた信号(Ydry)と結合するように構成されたポストミキサーを含む。
実施の形態によると、プロセッサは、それぞれのダウンミックス信号のグループについて、個々のダウンミックス化マトリクス(Dk)を決定するように構成される。kは、個々のグループのインデックスである。プロセッサは、それぞれのダウンミックス信号のグループについて、個々のグループ共分散マトリクス(Ek)を決定するように構成される。プロセッサは、それぞれのダウンミックス信号のグループについて、個々のダウンミックス化マトリクス(Dk)および個々のグループ共分散マトリクス(Ek)に基づいて、個々のグループダウンミックス共分散マトリクス(Δk)を決定するように構成される。プロセッサは、それぞれのダウンミックス信号のグループについて、個々の正規化された逆グループマトリクス(Jk)を決定するように構成される。
実施の形態によると、結合器は、個々の正規化された逆グループマトリクス(Jk)を結合して、オーバーオールの正規化された逆グループマトリクス(J)を得るように構成される。
実施の形態によると、プロセッサは、ダウンミックス信号のそれぞれのグループについて、個々のダウンミックス化マトリクス(Dk)と個々のグループ共分散マトリクス(Ek)と個々の正規化された逆グループマトリクス(Jk)に基づいて、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を決定するように構成される。結合器は、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を結合して、オーバーオールのグループ・パラメトリック非ミックス化マトリクス(U)を得るように構成される。
実施の形態によると、プロセッサは、ダウンミックス信号のそれぞれのグループについて、個々のダウンミックス化マトリクス(Dk)と個々のグループ共分散マトリクス(Ek)と個々の正規化された逆グループマトリクス(Jk)に基づいて、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を決定するように構成される。結合器は、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を結合して、オーバーオールのグループ・パラメトリック非ミックス化マトリクス(U)を得るように構成される。
実施の形態によると、プロセッサは、ダウンミックス信号のそれぞれのグループについて、個々のグループレンダリング化マトリクス(Rk)を決定するように構成される。
実施の形態によると、プロセッサは、ダウンミックス信号のそれぞれのグループについて、個々のグループレンダリング化マトリクス(Rk)と個々のグループ・パラメトリック非ミックス化マトリクス(Uk)に基づいて、個々のアップミックス化マトリクス(Rkk)を決定するように構成される。結合器は、アップミックス化マトリクス(Rkk)を結合して、オーバーオールのアップミックス化マトリクス(RU)を得るように構成される。
実施の形態によると、プロセッサは、ダウンミックス信号のそれぞれのグループについて、個々のグループレンダリング化マトリクス(Rk)と個々のグループ共分散マトリクス(Ek)に基づいて、個々のグループ共分散マトリクス(Ck)を決定するように構成される。結合器は、個々のグループ共分散マトリクス(Ck)を結合して、オーバーオールのグループ共分散マトリクス(C)を得るように構成される。
実施の形態によると、プロセッサは、個々のグループレンダリング化マトリクス(Rk)と個々のグループ・パラメトリック非ミックス化マトリクス(Uk)と個々のダウンミックス化マトリクス(Dk)と個々のグループ共分散マトリクス(Ek)とに基づいて、パラメトリック的に推定された信号の個々のグループ共分散マトリクス(Ey drykを決定するように構成される。結合器は、パラメトリック的に推定された信号の個々のグループ共分散マトリクス(Ey drykを結合して、オーバーオールのパラメトリック的に推定された信号のEy dryを得るように構成される。
実施の形態によると、プロセッサは、ダウンミックス共分散マトリクス(EDMX)の特異値分解に基づいて、正規化された逆マトリクス(J)を決定するように構成される。
実施の形態によると、プロセッサは、パラメトリック非ミックス化マトリクス(U)の決定のために、ダウンミックス信号の(インデックスkをもつ)個々のグループに割り当てられたダウンミックス信号(m,n)に対応している要素(Δ(m,n))を選択することによって、サブマトリクス(Δk)を決定するように構成される。ダウンミックス信号のそれぞれのグループは、ダウンミックス信号の特定の数および入力オーディオ・オブジェクトの関連付けられたセットをカバーし、インデックスkによってここで示される。
この実施の形態によると、個々のサブマトリクス(Δk)は、個々のグループkに属するダウンミックス共分散マトリクスΔから要素を選ぶこと、または抜き取ることによって得られる。
1つの実施の形態において、個々のサブマトリクス(Δk)は個々に逆にされ、結果は正規化された逆マトリクス(J)の中で結合される。
異なる実施の形態において、サブマトリクス(Δk)は、個々のダウンミックス化マトリクス(Dk)によって、Δk=Dkkk *としてそれらの定義を使って得られる。
実施の形態によると、結合器は、ダウンミックス信号のそれぞれのグループについて、個々に決定されたマトリクスに基づいて、ポストミックス化マトリクス(P)を決定するように構成される。結合器は、復号化されたオーディオ信号を得るために、ポストミックス化マトリクス(P)を複数のダウンミックス信号に適用するように構成される。この実施の形態において、オブジェクトパラメータから、符号化されたオーディオ信号に適用されるポストミックス化マトリクスが、復号化されたオーディオ信号を得るために計算される。
この点において、kはダウンミックス信号の個々のグループのグループインデックスを示す。Nkは、入力オーディオ・オブジェクトの関連付けられたセットの入力オーディオ・オブジェクトの数を示す。Mkは、ダウンミックス信号の個々のグループに属するダウンミックス信号の数を示す。Noutは、アップミックスまたはレンダリングされた出力チャネルの数を示す。
計算されたマトリクスは、従来技術において用いられたより小さいサイズである。従って、1つの実施の形態において、可能な限り多くの処理ステップが、ダウンミックス信号のグループについて個々に実行される。
本発明の目的は、また、符号化されたオーディオ信号を処理するための対応する方法により達成される。符号化されたオーディオ信号は、複数の入力オーディオ・オブジェクトおよびオブジェクトパラメータに関連付けられた複数のダウンミックス信号を含む。方法は以下のステップを含む。
・ダウンミックス信号を、複数の入力オーディオ・オブジェクトの入力オーディオ・オブジェクトのセットと関連付けられた複数のダウンミックス信号グループに分類するステップ
・分類結果を提供するために、入力オーディオ・オブジェクトのそれぞれのセットのオブジェクトパラメータに対して、少なくとも1つの処理ステップを個々に実行するステップ
・復号化されたオーディオ信号を提供するために、前記分類結果を結合するステップ
分類は、少なくとも複数の入力オーディオ・オブジェクトのそれぞれの入力オーディオ・オブジェクトが、入力オーディオ・オブジェクトのちょうど1つのセットに属する圧縮によって実行される。
装置の上記実施の形態は、また、方法および方法の対応する実施の形態のステップによって実行される。従って、装置の実施の形態のために与えられた説明は、方法に対しても維持される。
本発明は以下において付随図面に関して記載され、実施の形態は付随図面の中で説明される。
図1は、パラメトリックダウンミックス/アップミックス概念に基づいたMMSEの概要を示す。 図2は、レンダリングされた出力に適用された非相関を持つパラメトリック再構成システムを示す。 図3は、ダウンミックスプロセッサの構成を示す。 図4は、5つの入力オーディオ・オブジェクトのスペクトル写真(左の列)と、対応するダウンミックスチャンネルのスペクトル写真(右の列)とを示す。 図5は、リファレンス出力信号のスペクトル写真(左の列)と、対応するSAOC 3D復号化およびレンダリングされた出力信号のスペクトル写真(右の列)とを示す。 図6は、本発明を使うSAOC 3D出力信号のスペクトル写真を示す。 図7は、従来技術に従うフレームパラメータ処理を示す。 図8は、本発明に従うフレームパラメータ処理を示す。 図9(1)は、グループ検出機能の実施例を示す。 図9(2)は、グループ検出機能の実施例を示す。 図9(3)は、グループ検出機能の実施例を示す。 図10は、入力オーディオ・オブジェクトを符号化するための装置を図式的に示す。 図11は、符号化されたオーディオ信号を処理するための本発明の装置の一例を図式的に示す。 図12は、符号化されたオーディオ信号を処理するための本発明の装置の異なる例を図式的に示す。 図13は、本発明の方法の実施の形態の一連のステップを示す。 図14は、本発明の装置の一例を図式的に示す。 図15は、装置の別の例を図式的に示す。 図16は、本発明の装置のプロセッサを図式的に示す。 図17は、本発明の装置の応用を図式的に示す。
以下において、パラメトリック分離計画の概要は、MPEG空間オーディオ・オブジェクト符号化(SAOC)技術([SAOC])、および、MPEG−H 3D オーディオのSAOC 3D処理部分([SAOC3D、SAOC3D2])の例を使って与えられる。これらの方法の数学的な特性は考慮される。
一般性を損なうことなく、方程式の読み易さを改善するために、すべての導入された変数に対して、時間および周波数依存性を示しているインデックスが除外される。
パラメトリックオブジェクト分離システム:
一般のパラメトリック分離計画は、予備のパラメトリック情報を使って、信号のミックス物(ダウンミックス)からオーディオソースの数を推定することを目的とする。この仕事の典型的な解決は、最小平均2乗エラー(MMSE)推定アルゴリズムの応用に基づく。SAOC技術は、そのようなパラメトリックオーディオ符号化システムの1つの例である。
図1は、SAOC符号器/復号器機構の一般的な原理を記載する。
一般的なパラメトリックダウンミックス/アップミックス処理は、時間/周波数選択方法で実行されて、以下のステップのシーケンスとして説明される。
・「符号器(エンコーダ)」は、入力の「オーディオ・オブジェクト」S、および、「ミックス化パラメータ」Dと共に提供される。「ミキサー」は、「オーディオ・オブジェクト」Sを、「ミックス化パラメータ」Dを使って、「ダウンミックス信号」Xの数の中にダウンミックスする(例えば、ダウンミックス化ゲイン(利得))。
・「サイド情報推定器」は、入力の「オーディオ・オブジェクト」Sの特徴を説明するサイド情報を取り出す(例えば、共分散特性)。
・「ダウンミックス信号」Xおよびサイド情報が送信または格納される。これらのダウンミックスオーディオ信号は、(MPEG−1/2レイヤーIIまたはIII、および、MPEG−2/4高度オーディオ符号化(AAC)、および、MPEG一体化スピーチ、および、オーディオ符号化(USAC)などの)オーディオコーダを使ってさらに圧縮される。サイド情報も、再表現されて、効率的に符号化される(例えば、オブジェクト能力およびオブジェクト相関係数のコード化された関係として)。
「復号器」は、送信されたサイド情報(この情報はオブジェクトパラメータを提供する)を使って、復号化された「ダウンミックス信号」から、オリジナルの「オーディオ・オブジェクト」を復元する。「サイド情報プロセッサ」は、Sのパラメトリックオブジェクト再構成を得るために、「パラメトリックオブジェクト分離器」内の「ダウンミックス信号」に適用されるべき非ミックス化係数を推定する。再構成された「オーディオ・オブジェクト」は、「レンダリング化パラメータ」Rを適用することによって、出力チャネルYによって表された(マルチチャネル)ターゲット場面にレンダリングされる。
同じ一般原理および連続したステップは、追加の非相関パスを含むSAOC 3D処理に応用される。
図2は、統合された非相関パスを持つパラメトリックダウンミックス/アプミックス概念の概要を提供する。
SAOC 3D技術やMPEG−H3Dオーディオの一部の例を使って、そのようなパラメトリック分離システムの主要な処理ステップが、以下に要約される。
SAOC 3D復号器は、パラメトリック的に再構成されレンダリングされた信号(ドライ信号)Ydry、および、その非相関されたバージョン(ウェット信号)Ywetのミックス物として、修正されレンダリングされた出力Yを作成する。
本発明の議論のために、処理ステップは図3において説明されるように区別される。
・マトリクスUを使って入力オーディオ・オブジェクトをパラメトリック的に再構成する非ミックス化
・レンダリング化情報(マトリクスR)を使ってレンダリングすること
・非相関
・ビットストリームに含まれた情報に基づいて計算された、マトリクスPを使ってポストミックスすること
例えば、ミックス化マトリクスPは、レンダリング化情報や相互関係情報やエネルギー情報や共分散情報など基づいて計算される。
発本明において、これは、復号化されたオーディオ信号を得るために、符号化されたオーディオ信号に適用されたポストミックス化マトリクスである。
以下において、MMSEを使う共通のパラメトリックオブジェクト分離操作が説明される。
非ミックス化マトリクスUは、最小平均2乗エラー(MMSE)推定アルゴリズム:U=ED*Jを使って、ビットストリームに含まれた変数(例えば、ダウンミックス化マトリクスDおよび共分散情報E)から引き出された情報に基づいて得られる。
マトリクスJの計算はJ=VΛinv*に従って引き出される。マトリクスVとΛは、EDMX=VΛV*として、マトリクスEDMXの特異値分解(SVD)を使って決定される。
同様な結果が、固有値分解やシュール分解などのような異なる分解法を使って得られることに注目するべきである。
特異値の定義に依存することによって、λiiは、(仮に、λi,i=abs(λi,i)の時にλi,i<0であり、および、サイン(λi,i)が、対応している左または右の特異ベクトルによって乗算されるならば)正の値にだけ限定される、または、負の値が可能である。
同様な結果は、絶対値と関連する特異値の切頭、または、マトリクス逆転に対して使われた他の正規化方法を使って得られる。
今や、従来技術のパラメトリックオブジェクト分離技術の中の発見された欠点が説明される。
パラメトリックオブジェクト分離方法の説明された従来技術は、分離人工物を避けるために、ダウンミックス共分散マトリクスの正規化された逆を使って指定する。しかし、いくつかのミックス化シナリオの現実の使用ケースに対して、あまりに積極的な正規化によって起こされた有害な人工物が、システムの出力の中に識別された。
以下において、そのようなシナリオの例が構成され、分析される。
入力オーディオ・オブジェクト(S)の数N=5は、説明された技術(より正確に、MPEG−H 3DオーディオのSAOC 3D処理部分の方法)を使って、ダウンミックスチャンネル(X)の数Ndmx=3の中に符号化される。
例の入力オーディオ・オブジェクトは以下を含む。
・音楽的な伴奏からの信号を含んでいる2つの関係付けられたオーディオ・オブジェクトの1つのグループ(ステレオのペアの左右)
・スピーチ信号を含んでいる1つの独立したオーディオ・オブジェクトの1つのグループ
・ピアノのレコーディングを含んでいる2つの関係付けられたオーディオ・オブジェクトの1つのグループ(ステレオのペアの左右)。
入力信号は輸送チャンネルの3つのグループにダウンミックスされる。
・M1=1ダウンミックスチャンネルを持つグループG1、オブジェクトの第1のグループを含む
・M2=1ダウンミックスチャンネルを持つグループG2、オブジェクトの第2のグループを含む
・M3=1ダウンミックスチャンネルを持つグループG3、オブジェクトの第3のグループを含む
その結果、Ndmx=M1+M2+M3
第1の2つのオブジェクト信号のグループと第3のオブジェクト信号と最後の2つのオブジェクト信号のグループとの間でクロスミックスがないことに注目することができる。また、スピーチを含む第3のオブジェクト信号が、1つのダウンミックスチャンネルに単独でミックスされることに注意しなさい。従って、このオブジェクトの良好な再構成が予期され、結果的に、良好なレンダリング化も予期される。入力信号および得られたダウンミックス信号のスペクトル写真が、図4において図示される。
現実のシステムにおいて使われた可能なダウンミックス信号コア・コード化は、望まない効果のより良い概説のために、ここでは省略される。復号器側では、SAOC 3Dパラメトリック復号化は、再構成して、オーディオ・オブジェクト信号を3チャンネルセットアップ((Nout=3):左(L)およびセンター(C)および右(R)チャンネル)にレンダリングするために使用される。
例の入力オーディオ・オブジェクトの簡単な再ミックスは、以下において使われる。
・第1の2つのオーディオ・オブジェクト(音楽的な伴奏)は消音される(すなわち、利得0によってレンダリングされる)
・第3の入力ブジェクト(スピーチ)はセンターチャンネルにレンダリングされる
・オブジェクト4は左のチャンネルにレンダリングされ、オブジェクト5は右のチャンネルにレンダリングされる。
リファレンス出力は、指定されたレンダリング化マトリクスを入力信号に直接適用することによって計算できる:Yref=RS。
リファレンス出力のスペクトル写真と、SAOC 3D復号化およびレンダリング化からの出力信号とは、図5の2つの列によって図示される。
SAOC 3D復号器出力の示されたスペクトル写真から、以下の観察が注目できる。
・スピーチ信号だけを含むセンターチャンネルは、リファレンス信号に比べて厳しく損われる。大きなスペクトルホールが気付かれる。(エネルギーの失われた時間−周波数領域である)これらのスペクトルホールは、厳しい可聴の人工物の中に通じる。
・小さなスペクトルギャップも、信号エネルギーのほとんどが集中される左右のチャンネル(特に、低周波数領域)の中に存在する。また、これらのスペクトルギャップは可聴の人工物をもたらす。
・ダウンミックスチャンネルの中にオブジェクトグループのクロスミックスは存在しない。すなわち、1つのダウンミックスチャンネルの中にミックスされたオブジェクトは、どのような他のダウンミックスチャンネルの中に
も存在しない。第2のダウンミックスチャンネルは、1つのオブジェクト(スピーチ)のみを含む。従って、システム出力の中のスペクトルギャップは、それが他のダウンミックスチャンネルと一緒に処理されるので、生成のみできる。
言及された観察に基づいて、それは以下のように結論される。
・SAOC 3Dシステムは、「通り抜け」システムではない。すなわち、仮に1つの入力信号が1つのダウンミックスチャンネルの中に単独でミックスされるならば、この入力信号のオーディオ品質は、復号化とレンダリング化の中に保存される。
・SAOC 3Dシステムは、マルチチャネルダウンミックス信号の処理のために、可聴の人工物を導入する。ダウンミックスチャンネルの1つのグループに含まれたオブジェクトの出力品質は、ダウンミックスチャンネルの残りの処理に依存する。
スペクトルギャップ(特にセンターチャンネルの中のもの)〉は、ダウンミックスチャンネルに含まれたいくつかの有益な情報が、処理によって除去されることを示す。この情報の損失は、パラメトリックオブジェクト分離ステップに、より正確には、ダウンミックス共分散マトリクス逆正規化ステップに遡る。
仮にΦが並べ替えオペレータであるならば、その時、以下の特性が維持される。
・先ず、仮にVがユニタリーマトリクスであるならば、その時、T=ΦVもユニタリーマトリクスである。
・2番目に、アイデンティティマトリクスIを持つΦΦ*=Φ*Φ=I。
従って、仮に、ダウンミックスチャンネルの1つが、残りのダウンミックスチャンネルよりずっと小さいエネルギーレベルを持つならば、このチャンネルに対応する特異値は、残りの特異値よりずっと小さい。
よりよい理解のために、それぞれのサンプルおよびそれぞれの周波数帯域に対して、入力オーディオ・オブジェクトのダウンミックス化が別々に起こることが考慮される必要がある。特に、異なる帯域の中への分離は、なぜギャップが、異なる周波数で、出力信号のスペクトル写真の中に認められるかを理解することを助ける。
それぞれのブロック対角線のマトリクスは、ダウンミックスチャンネルの1つの独立したグループに対応する。切頭は最も大きな特異値に関連して実現されるけれども、この値はチャンネルの1つのグループのみを説明する。従って、ダウンミックスチャンネルの全ての独立したグループの中に含まれたオブジェクトの再構成は、この最も大きな特異値を含むグループに依存するようになる。
以下において、本発明は、従来技術に関係する上で議論された実施の形態に基づいて説明される。
前のセクションで議論された例に対して、他の同一のSAOC 3Dシステムの中で提案された本発明の方法を使って、復号化されてレンダリングされた出力のオーディオ出力品質が改善する。結果として生じる信号は、図6において図示される。
図5およびの図6の右の列のスペクトル写真を比較すると、本発明の方法が、既存の従来技術のパラメトリック分離システムの中の識別された問題を解決することが観察できる。本発明の方法はシステムの「通り抜け」機能を保証し、最も重要なことに、スペクトルギャップが取り除かれる。
ダウンミックスチャンネルの3つの独立したグループを処理するために説明された解決は、どのグループの数にも容易に一般化できる。
本発明の方法は、ダウンミックス信号共分散マトリクスの逆において、分類情報を利用することによってパラメトリックオブジェクト分離技術を修正することを提案する。これはオーディオ出力品質の重要な改良をもたらす。
分類は、例えば、追加の信号化なしで、復号器の中で既に利用可能なミックス化および/または相互関係情報から得られる。
より明確に言うと、1つのグループは、この例の以下の2つの特性を持つダウンミックス信号の最も小さいセットによって、1つの実施の形態において定義される。
・先ず、これらのダウンミックスチャンネルに含まれた入力オーディオ・オブジェクトは、他のダウンミックスチャンネルに含まれない。
・2番目に、1つのグループのダウンミックスチャンネルに含まれた全ての入力信号は、他のグループのダウンミックスチャンネルに含まれた他の入力信号に関連しない(例えば、相互関係は、符号化されたオーディオ信号内で信号によって伝えられない)。そのような相互関係は、復号化の間に、個々のオーディオ・オブジェクトの結合される処理を暗示する。
さらに、本発明の方法は、1つの実施の形態において、ビットストリームに含まれた情報に完全に基づいて、グループを決定することを提案する。例えば、この情報は、ダウンミックス化情報と相互関係情報によって与えられる。
より正確に言うと、1つのグループGkは、以下の特性によってダウンミックスチャンネルの最も小さいセットによって定義される。
・グループGkのダウンミックスチャンネルに含まれた入力オーディオ・オブジェクトは、他のダウンミックスチャンネルの中に含まれない。例えば、仮に、対応するダウンミックス利得が、最も小さい量子化インデックスによって与えられるか、または、それがゼロに等しいならば、入力オーディオ・オブジェクトはダウンミックスチャンネルの中に含まれない。
・グループGkのダウンミックスチャンネルに含まれた全ての入力信号iは、他のグループのダウンミックスチャンネルに含まれた入力信号jに関連しない。例えば、(例えばWO 2011/039195 A1と比較しなさい)仮に2つのオブジェクトが関連する(bsRelatedTo[i][j]==1)ならば、または、仮にそれらが関連しない(bsRelatedTo[i][j]==0)ならば、ビットストリーム可変bsRelatedTo[i][j]は、信号を伝えるために使用される。例えば、関連付けられた2つのオブジェクトを信号で伝える異なる方法は、相互関係または共分散情報に基づいて使われる。
グループは、すべての処理帯域に対して、1つのフレーム当たり1回、または、1つのパラメータセット当たり一回決定される。あるいは、グループは、個々の処理帯域に対して、1つのフレーム当たり1回、または、1つのパラメータセット当たり一回決定される。
本発明の方法は、また、1つの実施の形態において、最も多くのコンピュータ処理的高価パラメトリック処理コンポーネントの中の分類情報を使用させることによって、パラメトリック分離システム(例えば、SAOC 3D復号器)のコンピュータ処理的複雑さをかなり減少することを可能にする。
従って、本発明の方法は、最終的な出力オーディオ品質に寄与をもたらさない計算を取り除くことを提案する。これらの計算は、分類情報に基づいて選択される。
より正確に言うと、本発明の方法は、個々の予め決定されたグループについて、全てのパラメトリック処理ステップを独立して計算し、最後に結果を結合することを提案する。
オブジェクトレベル差(OLD)は、所定の時間および周波数帯域に対して、最も多いエネルギーを持つオブジェクトに対する1つのオブジェクトの相対的なエネルギーに関連する。そして、インターオブジェクト・クロス・コヒーレンス(IOC)は、同様の量を、または、所定の時間および周波数帯域の中の2つのオブジェクトに対してクロス相関関係を説明する。
本発明の方法は、1≦k≦Kを持つ全ての予め決定されたK個のグループGkに対して、全てのパラメトリック処理ステップを計算し、パラメータ処理の最後にその結果を結合することによって、コンピュータ処理の複雑さを減らすことを提案する。
個々のグループGkに対して、グループダウンミックス化マトリクスは、ダウンミックスチャンネルに対応するダウンミックス化マトリクスDの要素と、グループGkによって含まれた入力オーディオ・オブジェクトとを選択することによってDkと定義される。
同様に、グループレンダリング化マトリクスRkは、グループGkによって含まれた入力オーディオ・オブジェクトに対応する列を選択することによって、レンダリング化マトリクスRの外で得られる。
同様に、グループベクトルOLDkとグループマトリクスIOCkは、グループGkによって含まれた入力オーディオ・オブジェクトに対応する要素を選択することによって、ベクトルOLDとマトリクスIOCの外で得られる。
図3において図示されたダウンミックスプロセッサの構造に従って処理ステップを要約すると、非相関ステップを省略する間、既存の従来技術フレームパラメータ処理は、図7において記載される。
提案された本発明の方法を使うと、計算複雑さが、図8において図示されるようにグループ検出を使って減少される。
提案された本発明の方法は、計算的に、かなり、分類無しで操作を実行するよりもずっと効率的であることを示す。それは、よりよいメモリー配置および用法も可能にし、計算並列化もサポートし、数値のエラー蓄積も減らす。
提案された本発明の方法および提案された本発明の装置は、従来技術のパラメトリックオブジェクト分離システムの既存の問題を解決し、かなりより高い出力オーディオ品質を提出する。
提案された本発明の方法は、既存のビットストリーム情報に基づいて完全に実現されるグループ検出方法を説明する。
同じ考慮を使うことによって、復号器の中の全てのパラメトリック処理ステップは、独立したグループについてのみのシステムにおいて説明された全てのマトリクス乗算を計算し、その結果を結合することによって効率的に実行される。
入力オーディオ・オブジェクトの異なる数に対して、すなわち入力オーディオ・オブジェクトやダウンミックスチャンネルや24個の出力チャネルの固定数に対して、複雑さ減少の評価は、以下のテーブルにおいて与えられる。
発明は以下の追加の利点を示す。
・1つのグループのみが作成される状況に対して、出力は従来技術システムの現状とビット同一である。
・分類はシステムの「通り抜け」機能を維持する。これは、仮に1つの入力オーディオ・オブジェクトが1つのダウンミックスチャンネルの中に単独でミックスされるならば、復号器がそれを完全に再構成する可能性があることを暗示する。
発明は、規格のテキストに対して以下の提案された例示的な修正をもたらす。
マトリクスVおよびΛは、Δ=VΛV*としてマトリクスΔの特異値分解として決定される。
対角線の特異値マトリクスΛの正規化された逆のΛinvは9.5.4.2.5に従って計算される。
マトリクスΔがパラメトリック非ミックスマトリクスUの計算において使われる場合において、説明された操作は、全てのサブマトリクスΔkに対して適用される。サブマトリクスΔkは、グループkに割り当てられたダウンミックスチャンネルmおよびnに対応する要素Δ(m,n)を選択することによって得られる。
グループkは、以下の特性を持つダウンミックスチャンネルの最も小さいセットによって定義される。
・グループkのダウンミックスチャンネルに含まれた入力信号は、他のダウンミックスチャンネルに含まれない。仮に、対応するダウンミックス利得が、最も小さい量子化インデックスにより与えられるならば、入力信号はダウンミックスチャンネルに含まれない(ISO/IEC 23003−2:2010の表49)。
・グループkのダウンミックスチャンネルに含まれた全ての入力信号iは、他のグループのダウンミックスチャンネルに含まれた入力信号に関連しない(すなわちbsRelatedTo[i][j]==0)。
本発明は、また、規格のテキストに対して以下の提案された例示的な修正をもたらす。
マトリクスVおよびΛは、VΛV*=ΔとしてマトリクスΔの特異値分解として決定される。
対角線の特異値マトリクスΛの正規化された逆Λinvは、9.5.4.2.6に従って計算される。
以下の図面のいくつかにおいて、個々の信号が、異なる処理ステップから得られることを示される。これは本発明のよりよい理解のためになされ、本発明を実現する、すなわち個々の信号を取り出して、これらの信号または処理された信号に対して処理ステップを実行するための1つの可能性である。
他の実施の形態は、復号化されたオーディオ信号を得るために、全ての必要なマトリクスを計算して、最後のステップとして、符号化されたオーディオ信号にそれらを適用する。これは異なるマトリクスの計算と、それらの個々の結合とを含む。
実施の形態は両方の方法を結合する。
図10は、符号化されたオーディオ信号100によって入力オーディオ・オブジェクト111の表現を提供するために、複数の(この例では5個の)入力オーディオ・オブジェクトを処理するための装置10を図式的に示す。
入力オーディオ・オブジェクト111は、ダウンミックス信号101の中に割り当てられ、または、ダウンミックスされる。示された実施の形態において、5つの入力オーディオ・オブジェクト111のうちの4つは、2つのダウンミックス信号101に割り当てられる。1つの入力オーディオ・オブジェクト111だけが、第3のダウンミックス信号101に割り当てられる。従って、5つの入力オーディオ・オブジェクト111は、3つのダウンミックス信号101に表現されている。
後のこれらのダウンミックス信号101は、−ことによると、ステップを処理するのが見せられないいくつかに続き−、符号化されたオーディオ信号100に結合される。
そのような符号化されたオーディオ信号100は、本発明の装置1に送られる。そのために、1つの実施の形態が図11において示される。
符号化されたオーディオ信号100から、3つのダウンミックス信号101(図10を比較しなさい)が取り出される。
ダウンミックス信号101は、−示された例において−ダウンミックス信号102の2つグループに分類される。
個々のダウンミックス信号101が、入力オーディオ・オブジェクトの与えられた数と関連するので、ダウンミックス信号102の個々のグループは、入力オーディオ・オブジェクトの与えられた数に関連する(対応する表現は入力ブジェクトである)。後に、ダウンミックス信号102の個々のグループは、符号化されたオーディオ信号100によって符号化される複数の入力オーディオ・オブジェクトの入力オーディオ・オブジェクトのセットと関連する(図10を比較しなさい)。
分類は、示された実施の形態において、以下の圧縮の下で起こる。
1.個々の入力オーディオ・オブジェクト111は、入力オーディオ・オブジェクトのちょうど1つのセットに属し、従って、ダウンミックス信号102の1つのグループに属する。
2.個々の入力オーディオ・オブジェクト111は、符号化されたオーディオ信号において、ダウンミックス信号の異なるグループと関連付けられた異なるセットに属する入力オーディオ・オブジェクト111に信号で伝えられる関係を全然持たない。これは、符号化されたオーディオ信号が、規格のため、個々の入力オーディオ・オブジェクトの結合された計算を結果として生じるような情報を全然持たないことを意味する。
3.個々のグループ102内のダウンミックス信号101の数は最小化される。
ダウンミックス信号102の(ここでは2つの)グループは、5つの入力オーディオ・オブジェクト111に対応する5つの出力オーディオ信号103を得るために、以下において個々に処理される。
入力オーディオ・オブジェクト111の2つのペアをカバーする2つのダウンミックス信号101(図10を比較しなさい)と関連するダウンミックス信号102の1つのグループは、4つの出力オーディオ信号103を得ることを可能にする。
ダウンミックス信号102の他のグループは、単独のダウンミックス信号101として、1つの出力信号103をもたらす。あるいは、このダウンミックス信号102のグループ(より正確には、1つの信号のダウンミックス信号のグループ)は、1つの入力オーディオ・オブジェクト111に関連する(図10を比較しなさい)。
5つの出力オーディオ信号103は、装置1の出力として、1つの復号化されたオーディオ信号110の中に結合される。
図11の実施の形態において、全ての処理ステップが、ダウンミックス信号102のグループについて個々に実行される。
図12において示された装置1の実施の形態は、ここに、図11に示された装置1のように、図10に示された装置10によって得られたと同じ符号化されたオーディオ信号100を受信する。
符号化されたオーディオ信号100から、(3つの輸送チャンネルに対して)3つのダウンミックス信号101が得られ、ダウンミックス信号102の2つのグループに分類される。これらのグループ102は、図10において示された5つの入力オーディオ・オブジェクトに対応する5つの処理された信号104を得るために、個々に処理される。
以下のステップにおいて、5つの処理された信号104から一緒に8つの出力オーディオ信号103が得られ、例えば、8つの出力チャネルのために使われるようにレンダリングされる。出力オーディオ信号103は、装置1から出力される復号化されたオーディオ信号110の中に結合される。この実施の形態において、共同の処理だけでなく個別の処理も、ダウンミックス信号102のグループについて実行される。
図13は、符号化されたオーディオ信号が復号化される本発明の方法の実施の形態のいくつかのステップを示す。
ステップ200において、ダウンミックス信号は、符号化されたオーディオ信号から取り出される。後続のステップ201において、ダウンミックス信号は、ダウンミックス信号のグループに割り当てられる。
ステップ202において、ダウンミックス信号の個々のグループは、個々の分類結果を提供するために個々に処理される。グループの個々の処理は、符号化プロセスにおいて入力オーディオ・オブジェクトのダウンミックス化を経て結合されたオーディオ信号の表現を得るために、少なくとも非ミックス化を含む。1つの実施の形態−ここに示さない−において、個々の処理化は共同の処理化が続く。
ステップ203において、これらの分類結果は、出力されるべき復号化されたオーディオ信号の中に結合される。
図14は、ダウンミックス信号102グループに、符号化されたオーディオ信号100のダウンミックス信号101の分類が続く、全ての処理ステップが個々に実行される装置1の実施の形態をもう一度示す。ダウンミックス信号101によって、符号化されたオーディオ信号100を受信する装置1は、ダウンミックス信号102のグループを提供するために、ダウンミックス信号101を分類する分類器2を含む。ダウンミックス信号102のグループは、ダウンミックス信号102の個々のグループについて全ての必要なステップを個々に実行するプロセッサ3によって処理される。ダウンミックス信号102のグループの処理の個々の分類結果は、装置1によって出力されるべき復号化されたオーディオ信号110を得るために、結合器4によって結合される出力オーディオ信号103である。
図15において示された装置1は、ダウンミックス信号101の分類に続いている図14において示された実施の形態と異なる。例において、全ての処理ステップが、ダウンミックス信号102のグループについて個々に実行されるわけではないけれども、いくつかのステップは一緒に実行され、従って、ダウンミックス信号102の1つ以上のグループを考慮する。
このため、この実施の形態のプロセッサ3は、ちょうどいくつかの又は少なくとも1つの処理ステップを個々に実行するように構成される。処理の結果は、ポストプロセッサ5によって一緒に処理される処理された信号104である。得られた出力オーディオ信号103は、復号化されたオーディオ信号110をもたらす結合器4によって最終的に結合される。
図16において、プロセッサ3は、ダウンミックス信号102のグループを受信し、出力オーディオ信号103を提供することが図式的に示される。
プロセッサ3は、ダウンミックス信号102の個々のグループのダウンミックス信号101を非ミックスするように構成された非ミキサー300を含む。従って、非ミキサー300は、符号器によって個々のダウンミックス信号101の中に結合された個々の入力オーディオ・オブジェクトを再構成する。
再構成された又は分離された入力オーディオ・オブジェクトは、レンダリング器302にレンダリングされる。レンダリング器302は、レンダリングされた信号112を提供するために、前記復号化されたオーディオ信号110の出力状況に対して、個々のグループの非ミックスされたダウンミックス信号をレンダリングするように構成される。従って、レンダリングされた信号112は、復号化されたオーディオ信号のリプレイシナリオの種類に適応される。レンダリングは、例えば使われるべきスピーカーの数に対して、それらの配置に、または復号化されたオーディオ信号のプレイによって得られるべき効果の種類に依存する。
レンダリングされた信号112,Ydryは、さらに、前記レンダリングされた信号112に対して少なくとも1つの非相関ステップを実行するように構成され、そして、前記個々のレンダリングされた信号112,Ydryによって実行された非相関ステップの結果Ywetを結合するように構成されたポストミキサー303に提出される。従って、ポストミキサー303は、1つのダウンミックス信号の中で結合された信号と非相関するようにステップを実行する。
結果として生じる出力オーディオ信号103は、最終的に、上に示されるような結合器に提出される。
ステップに対して、プロセッサ3は、ここではプロセッサ3の異なるユニットから分離するけれども、代わりの−示されない−実施の形態において、それぞれ分類器300およびレンダリング器302およびポストミキサー303の特性である計算機301に依存する。
必要なマトリクスや値などは、ダウンミックス信号102の個々のグループについて個々に計算されるという事実が関連する。これは、例えば、計算されるべきマトリクスは従来技術において使われたマトリクスより小さいことを暗示する。マトリクスは、ダウンミックス信号のグループと関連付けられた入力オーディオ・オブジェクトの個々のセットの入力オーディオ・オブジェクトの数、および/または、ダウンミックス信号の個々のグループに属するダウンミックス信号の数に依存するサイズを持つ。
従来技術において、非ミックスのために使われるマトリクスは、入力オーディオ・オブジェクトまたは入力オーディオ信号の数×この数のサイズを持つ。本発明は、ダウンミックス信号の個々のグループに属する入力オーディオ信号の数に依存するサイズによって、より小さいマトリクスを計算することを可能にする。
図17において、表現の目的が説明される。
装置1は、符号化されたオーディオ信号100を受信し、それを復号化して、復号化されたオーディオ信号110を提供する。
この復号化されたオーディオ信号110は、特定の出力状況または出力シナリオ400の中でプレイされる。復号化されたオーディオ信号110は、例において、5つのスピーカー401によって出力される:左と右、センター、左サラウンド、および右サラウンド。聴取者402は、センタースピーカーに面しているシナリオ400の中央にいる。
装置1のレンダリング器は、個々のスピーカー401に提供されるべき再構成されたオーディオ信号を分配し、従って、与えられた出力状況400の中のオーディオ信号のソースとして、オリジナルのオーディオ・オブジェクトの再構成された表現を分配する。
従って、レンダリングは、出力状況400の種類に、および聴取者402の個々の趣向に依存する。
いくつかの面が装置の文脈において説明されるけれども、これらの面は、ブロックまたは機器が方法ステップまたは方法ステップの特性に対応する、対応した方法の説明も表現することは明確である。相似的に、方法ステップの文脈において説明された面は、対応するブロックの説明または対応する装置のアイテムまたは特性も表現する。方法ステップのいくつかまたは全ては、例えば、マイクロプロセッサーやプログラム化可能なコンピュータや電子回路のように、ハードウェア装置によって(または使って)実行される。いくつかの実施の形態において、最も重要な方法ステップの1つ以上は、そのような装置によって実行される。
所定の実施要件に依存することによって、本発明の実施の形態は、ハードウェアまたはソフトウェアまたは少なくとも一部ハードウェアまたは少なくとも一部ソフトウェアにおいて実施される。実施は、その上に格納された電子的に読み取り可能な制御信号を持つデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリを使って実行される。それは、個々の方法が実行されるように、プログラム化可能なコンピュータシステムと協力する(または、協働する可能性がある)。従って、デジタル格納媒体は読み取り可能なコンピュータであってもよい。
本発明に応じたいくつかの実施の形態は、ここに説明された方法の1つが実行されるように、プログラム化可能なコンピュータシステムと協働する可能性がある電子的に読み取り可能な制御信号を持つデータキャリアを含む。
一般に、本発明の実施の形態は、コンピュータプログラム製品がコンピュータにおいて稼働するとき、プログラムコードを持つコンピュータプログラム製品として、方法の1つを実行するために働くプログラムコードを実施する。例えば、プログラムコードは機械読み取り可能なキャリアに格納される。
他の実施の形態は、ここに説明された方法の1つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。
すなわち、従って、本発明の方法の実施の形態は、コンピュータプログラムがコンピュータに対して稼動するとき、ここに説明された方法の1つを実行するためのプログラムコードを持つコンピュータプログラムである。
従って、本発明の方法の別の実施の形態は、ここに説明された方法の1つを実行するためのコンピュータプログラムを(その上に記録された)含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読メディア)、である。一般にデータキャリアまたはデジタル記憶媒体または記録されたメディアは、有形および/または無形である。
従って、本発明の方法の別の実施の形態は、ここに説明された方法の1つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続を介して、例えばインターネットを介して送信されるように構成される。
別の実施の形態は、ここに説明された方法の1つを実行するように構成された又は適応された処理手段、例えば、コンピュータまたはプログラム可能な論理デバイスを含む。
別の実施の形態は、ここに説明された方法の1つを実行するためのコンピュータプログラムを、その上にインストールしているコンピュータを含む。
本発明に応じた別の実施の形態は、ここに説明された方法の1つを実行するためのコンピュータプログラムを、(例えば、電子的または光学的に)受信機に転送するように構成された装置またはシステムを含む。例えば、受信機は、コンピュータ、モバイル機器、メモリー機器などである。例えば、装置またはシステムは、コンピュータプログラムを受信機に転送するためのファイルサーバーを含む。
いくつかの実施の形態において、プログラム化可能な論理デバイス(例えば、フィールドプログラム化可能ゲートアレイ)は、ここに説明された方法の機能のいくつかまたは全てを実行するために使用される。いくつかの実施の形態において、ここに説明された方法の1つを実行するために、フィールドプログラム化可能ゲートアレイがマイクロプロセッサーと協働する。一般に、方法は、好ましくは、どのようなハードウェア装置によっても実行される。
ここに説明された装置は、ハードウェア装置を使って、またはコンピュータを使って、またはハードウェア装置とコンピュータとの組み合わせを使って実施される。
ここに説明された方法は、ハードウェア装置を使って、またはコンピュータを使って、またはハードウェア装置とコンピュータとの組み合わせを使って実行される。
文献
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes a nd applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined i nstantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for in formed source separation of audio signals with a single sensor", IEEE Tr ansactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: "Informed source s eparation through spectrogram coding and data embedding", Signal Process ing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation : source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech S ignals", INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Aud io, 2011.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Conventi on, Paris, 2006.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - R ecent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holz er, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Par ametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008 .

[SAOC3D] ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Au dio, Sapporo, July 2014.

[SAOC3D2] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H Audio - The new standard for universal spatial / 3D audio coding," 137th AES Con vention, Los Angeles, 2011.

Claims (22)

  1. 複数の入力オーディオ・オブジェクト(111)およびオブジェクト・パラメータ(E)と関連付けられた複数のダウンミックス信号(101)を含む符号化されたオーディオ信号(100)を処理するための装置(1)であって、
    前記複数のダウンミックス信号(101)を、前記複数の入力オーディオ・オブジェクト(111)の入力オーディオ・オブジェクト(111)のセットと関連付けられた複数のダウンミックス信号(102)グループに分類するように構成された分類器(2)と、
    分類結果(103,104)を提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)について少なくとも1つの処理ステップを個々に実行するように構成されたプロセッサ(3)と、
    復号化されたオーディオ信号(110)を提供するために、前記分類結果(103,104)または処理された分類結果を結合するように構成された結合器(4)と、を備え、
    前記分類器(2)は、前記複数の入力オーディオ・オブジェクト(111)のそれぞれの入力オーディオ・オブジェクト(111)が1つの入力オーディオ・オブジェクト(111)のセットにしか属さないように、前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するように構成されている、装置。
  2. 前記分類器(2)は、入力オーディオ・オブジェクトのそれぞれのセットのそれぞれの入力オーディオ・オブジェクト(111)が、前記符号化されたオーディオ信号(100)の中で信号で伝えられた関係において、他の入力オーディオ・オブジェクト(111)と関係がない、または、前記符号化されたオーディオ信号(100)の中で信号で伝えられた関係において、同じ入力オーディオ・オブジェクト(111)セットに属している少なくとも1つの入力オーディオ・オブジェクト(111)とのみ関係を持つように、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号(102)グループに分類するように構成されている、請求項1に記載の装置。
  3. 前記分類器(2)は、ダウンミックス信号(102)のそれぞれのグループ内のダウンミックス信号(101)の数を最小化しながら、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号グループ(102)に分類するように構成されている、請求項1または請求項2に記載の装置。
  4. 前記分類器(2)は、1つのダウンミックス信号(102)グループには1つの単一のダウンミックス信号(101)しか属さないように、前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するように構成されている、請求項1ないし請求項3のいずれかに記載の装置。
  5. 前記分類器(2)は、前記符号化されたオーディオ信号(100)内の情報に基づいて、前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するように構成されている、請求項1ないし請求項4のいずれかに記載の装置。
  6. 前記分類器(2)は、少なくとも以下のステップ;
    ダウンミックス信号(101)が既存のダウンミックス信号(102)グループに割り当てられるか否かを検出するステップと、
    前記ダウンミックス信号(101)に関連付けられた複数の入力オーディオ・オブジェクト(111)の少なくとも1つの入力オーディオ・オブジェクト(111)が、既存のダウンミックス信号(102)グループと関連付けられた入力オーディオ・オブジェクト(111)のセットの一部であるか否かを検出するステップと、
    前記ダウンミックス信号(101)がダウンミックス信号(102)の既存のグループへの割り当てがない場合、および前記ダウンミックス信号(101)に関連付けられた複数の入力オーディオ・オブジェクトのすべての入力オーディオ・オブジェクト(111)が、ダウンミックス信号(102)の既存のグループとの関連がない場合に、前記ダウンミックス信号(101)を新しいダウンミックス信号(102)グループに割り当てるステップと、
    前記ダウンミックス信号(101)が、ダウンミックス信号(102)の既存のグループに割り当てられている場合、または、前記ダウンミックス信号(101)に関連付けられた複数の入力オーディオ・オブジェクトの少なくとも1つの入力オーディオ・オブジェクト(111)が、ダウンミックス信号(102)の既存のグループと関連付けられている場合に、前記ダウンミックス信号(101)をダウンミックス信号(102)の既存のグループに結合するステップと、
    を適用して、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号(102)グループに分類するように構成されている、請求項1ないし請求項5のいずれかに記載の装置。
  7. 前記プロセッサ(3)は、分類結果として個々のマトリクスを提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)に対して、様々な処理ステップを個々に実行するように構成され、
    前記結合器(4)は、前記個々のマトリクスを結合するように構成されている、請求項1ないし請求項6のいずれかに記載の装置。
  8. 前記プロセッサ(3)は、個々のマトリクスを提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)に対して、少なくとも1つの処理ステップを個々に実行するように構成され、
    前記装置(1)は、少なくとも1つのオーバーオール・マトリクスを提供するために、オブジェクトパラメータを一緒に処理するように構成されたポストプロセッサ(5)を含み、
    前記結合器(4)は、前記個々のマトリクスと前記少なくとも1つのオーバーオール・マトリクスとを結合するように構成されている、請求項1ないし請求項7のいずれかに記載の装置。
  9. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記ダウンミックス信号(102)の個々のグループに関連付けられた前記入力オーディオ・オブジェクトのセットの入力オーディオ・オブジェクトの数と、ダウンミックス信号(102)の個々のグループに属しているダウンミックス信号(101)の数との少なくとも1つにサイズが依存しているマトリクスを個々に計算するように構成された計算機(301)を含む、請求項1ないし請求項8のいずれかに記載の装置。
  10. プロセッサ(3)は、ダウンミックス信号のそれぞれのグループについて、ダウンミックス信号(102)の個々のグループ内の最大エネルギー値に基づいて、個々の閾値を計算するように構成されている、請求項1ないし請求項9のいずれかに記載の装置。
  11. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々のダウンミックス化マトリクス(Dk)を決定するように構成され、
    前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々のグループ共分散マトリクス(Ek)を決定するように構成され、
    前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のダウンミックス化マトリクス(Dk)および前記個々のグループ共分散マトリクス(Ek)に基づいて、個々のグループダウンミックス共分散マトリクス(Δk)を決定するように構成され、
    前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々の正規化された逆グループマトリクス(Jk)を決定するように構成されている、請求項1ないし請求項10のいずれかに記載の装置。
  12. 前記結合器(4)は、前記個々の正規化された逆グループマトリクス(Jk)を結合して、オーバーオールの正規化された逆グループマトリクス(J)を得るように構成されている、請求項11に記載の装置。
  13. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のダウンミックス化マトリクス(Dk)と前記個々のグループ共分散マトリクス(Ek)と前記個々の正規化された逆グループマトリクス(Jk)に基づいて、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を決定するように構成され、
    前記結合器(4)は、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を結合して、オーバーオールのグループ・パラメトリック非ミックス化マトリクス(U)を得るように構成されている、請求項11または請求項12に記載の装置。
  14. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のダウンミックス化マトリクス(Dk)と前記個々のグループ共分散マトリクス(Ek)と前記個々の正規化された逆グループマトリクス(Jk)に基づいて、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を決定するように構成され、
    前記結合器(4)は、前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を結合して、オーバーオールのグループ・パラメトリック非ミックス化マトリクス(U)を得るように構成されている、請求項13に記載の装置。
  15. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々のグループレンダリング化マトリクス(Rk)を決定するように構成されている、請求項1ないし請求項14のいずれかに記載の装置。
  16. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のグループレンダリング化マトリクス(Rk)と前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)に基づいて、個々のアップミックス化マトリクス(Rkk)を決定するように構成され、
    前記結合器(4)は、前記アップミックス化マトリクス(Rkk)を結合して、オーバーオールのアップミックス化マトリクス(RU)を得るように構成されている、請求項15に記載の装置。
  17. 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のグループレンダリング化マトリクス(Rk)と前記個々のグループ共分散マトリクス(Ek)に基づいて、個々のグループ共分散マトリクス(Ck)を決定するように構成され、
    前記結合器(4)は、前記個々のグループ共分散マトリクス(Ck)を結合して、オーバーオールのグループ共分散マトリクス(C)を得るように構成されている、請求項15または請求項16に記載の装置。
  18. 前記プロセッサ(3)は、前記個々のグループレンダリング化マトリクス(Rk)と前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)と前記個々のダウンミックス化マトリクス(Dk)と前記個々のグループ共分散マトリクス(Ek)とに基づいて、パラメトリック的に推定された信号の個々のグループ共分散マトリクス(Ey drykを決定するように構成され、
    前記結合器(4)は、前記パラメトリック的に推定された信号の個々のグループ共分散マトリクス(Ey drykを結合して、オーバーオールのパラメトリック的に推定された信号Ey dryを得るように構成されている、請求項15ないし請求項17のいずれかに記載の装置。
  19. 前記プロセッサ(3)は、ダウンミックス共分散マトリクス(EDMX)の特異値分解に基づいて、正規化された逆マトリクス(J)を決定するように構成されている、請求項1ないし請求項18のいずれかに記載の装置。
  20. 前記プロセッサ(3)は、パラメトリック非ミックス化マトリクス(U)の決定のために、ダウンミックス信号(102)の個々のグループ(k)に割り当てられたダウンミックス信号(m,n)に対応している要素(Δ(m,n))を選択することによってサブマトリクス(Δk)を決定するように構成されている、請求項1ないし請求項19のいずれかに記載の装置。
  21. 前記結合器(4)は、ダウンミックス信号(102)のそれぞれのグループについて、個々に決定されたマトリクスに基づいて、ポストミックス化マトリクス(P)を決定するように構成され、
    前記結合器(4)は、復号化されたオーディオ信号(110)を得るために、前記ポストミックス化マトリクス(P)を前記複数のダウンミックス信号(101)に適用するように構成されている、請求項1ないし請求項20のいずれかに記載の装置。
  22. 複数の入力オーディオ・オブジェクト(111)およびオブジェクト・パラメータ(E)に関連付けられた複数のダウンミックス信号(101)を含む符号化されたオーディオ信号(100)を処理するための方法であって、
    前記方法は、
    前記ダウンミックス信号(101)を、前記複数の入力オーディオ・オブジェクト(111)の入力オーディオ・オブジェクト(111)のセットに関連付けられた複数のダウンミックス信号(102)グループに分類するステップ、
    分類結果(103,104)を提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)について少なくとも1つの処理ステップを個々に実行するステップ、および
    復号化されたオーディオ信号(110)を提供するために、前記分類結果(103,104)を結合するステップを含み、
    前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するステップは、前記複数の入力オーディオ・オブジェクト(111)のそれぞれの入力オーディオ・オブジェクト(111)が、1つの入力オーディオ・オブジェクトのセットだけに属するように、実行される、方法。
JP2017558779A 2015-02-02 2016-02-01 符号化されたオーディオ信号を処理するための装置および方法 Active JP6564068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019136552A JP6906570B2 (ja) 2015-02-02 2019-07-25 符号化されたオーディオ信号を処理するための装置および方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15153486 2015-02-02
EP15153486.4 2015-02-02
PCT/EP2016/052037 WO2016124524A1 (en) 2015-02-02 2016-02-01 Apparatus and method for processing an encoded audio signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019136552A Division JP6906570B2 (ja) 2015-02-02 2019-07-25 符号化されたオーディオ信号を処理するための装置および方法

Publications (2)

Publication Number Publication Date
JP2018507444A true JP2018507444A (ja) 2018-03-15
JP6564068B2 JP6564068B2 (ja) 2019-08-21

Family

ID=52449979

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017558779A Active JP6564068B2 (ja) 2015-02-02 2016-02-01 符号化されたオーディオ信号を処理するための装置および方法
JP2019136552A Active JP6906570B2 (ja) 2015-02-02 2019-07-25 符号化されたオーディオ信号を処理するための装置および方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019136552A Active JP6906570B2 (ja) 2015-02-02 2019-07-25 符号化されたオーディオ信号を処理するための装置および方法

Country Status (16)

Country Link
US (3) US10152979B2 (ja)
EP (1) EP3254280B1 (ja)
JP (2) JP6564068B2 (ja)
KR (1) KR102088337B1 (ja)
CN (1) CN107533845B (ja)
AR (1) AR103584A1 (ja)
AU (1) AU2016214553B2 (ja)
CA (1) CA2975431C (ja)
HK (1) HK1247433A1 (ja)
MX (1) MX370034B (ja)
MY (1) MY182955A (ja)
RU (1) RU2678136C1 (ja)
SG (1) SG11201706101RA (ja)
TW (1) TWI603321B (ja)
WO (1) WO2016124524A1 (ja)
ZA (1) ZA201704862B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7792722B2 (en) 2004-10-13 2010-09-07 Ares Capital Management Pty Ltd Data processing system and method incorporating feedback
EP1946294A2 (en) * 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101479786B (zh) * 2006-09-29 2012-10-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2417459C2 (ru) * 2006-11-15 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
AU2008243406B2 (en) * 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US8817992B2 (en) 2008-08-11 2014-08-26 Nokia Corporation Multichannel audio coder and decoder
US20100042446A1 (en) 2008-08-12 2010-02-18 Bank Of America Systems and methods for providing core property review
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
BRPI1009648B1 (pt) * 2009-06-24 2020-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata
KR102374897B1 (ko) * 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015150384A1 (en) * 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN112802496A (zh) * 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
BR112017015930A2 (pt) 2018-03-27
TW201633290A (zh) 2016-09-16
MX370034B (es) 2019-11-28
HK1247433A1 (zh) 2018-09-21
RU2678136C1 (ru) 2019-01-23
US10529344B2 (en) 2020-01-07
US20170323647A1 (en) 2017-11-09
JP2019219669A (ja) 2019-12-26
TWI603321B (zh) 2017-10-21
WO2016124524A1 (en) 2016-08-11
US20200194012A1 (en) 2020-06-18
KR20170110680A (ko) 2017-10-11
KR102088337B1 (ko) 2020-03-13
US20190108847A1 (en) 2019-04-11
AR103584A1 (es) 2017-05-17
US10152979B2 (en) 2018-12-11
AU2016214553A1 (en) 2017-09-07
CA2975431A1 (en) 2016-08-11
CN107533845A (zh) 2018-01-02
MX2017009769A (es) 2018-03-28
CA2975431C (en) 2019-09-17
AU2016214553B2 (en) 2019-01-31
EP3254280B1 (en) 2024-03-27
US11004455B2 (en) 2021-05-11
SG11201706101RA (en) 2017-08-30
EP3254280A1 (en) 2017-12-13
CN107533845B (zh) 2020-12-22
JP6906570B2 (ja) 2021-07-21
MY182955A (en) 2021-02-05
ZA201704862B (en) 2019-06-26
JP6564068B2 (ja) 2019-08-21

Similar Documents

Publication Publication Date Title
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
EP1851997B1 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
CN105593931B (zh) 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机可读介质
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
TW201248619A (en) Encoding and decoding of slot positions of events in an audio signal frame
KR20170063657A (ko) 오디오 인코더 및 디코더
JP6906570B2 (ja) 符号化されたオーディオ信号を処理するための装置および方法
BR112017015930B1 (pt) Aparelho e método para processar um sinal de áudio codificado

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190725

R150 Certificate of patent or registration of utility model

Ref document number: 6564068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250