JP6289613B2 - オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離 - Google Patents

オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離 Download PDF

Info

Publication number
JP6289613B2
JP6289613B2 JP2016513308A JP2016513308A JP6289613B2 JP 6289613 B2 JP6289613 B2 JP 6289613B2 JP 2016513308 A JP2016513308 A JP 2016513308A JP 2016513308 A JP2016513308 A JP 2016513308A JP 6289613 B2 JP6289613 B2 JP 6289613B2
Authority
JP
Japan
Prior art keywords
audio
time
side information
specific
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016513308A
Other languages
English (en)
Other versions
JP2016524721A (ja
Inventor
デッシュ,サッシャ
パウルス,ユーニ
カストネル,トルステン
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2016524721A publication Critical patent/JP2016524721A/ja
Application granted granted Critical
Publication of JP6289613B2 publication Critical patent/JP6289613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Description

本発明はオーディオ信号処理に関し、特に、オーディオオブジェクト適応型の個別の時間−周波数分解能を使用する、オーディオオブジェクト・コーディング(符/復号化)のための復号器、符号器、システム、方法及びコンピュータプログラムに関する。
本発明の実施形態は、ダウンミックス信号と、オブジェクトに関連したパラメトリックサイド情報(PSI)と、を含むマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器に関する。本発明の他の実施形態は、ダウンミックス信号表現とオブジェクト関連のPSIとに依存してアップミックス信号表現を提供するオーディオ復号器に関する。本発明の更なる実施形態は、ダウンミックス信号と関連のPSIとを含むマルチオブジェクト・オーディオ信号を復号化する方法に関する。本発明の更に他の実施形態は、ダウンミックス信号表現とオブジェクト関連のPSIとに依存してアップミックス信号表現を提供する方法に関する。
本発明の別の実施形態は、複数のオーディオオブジェクト信号を1つのダウンミックス信号及び1つのPSIへと符号化するオーディオ符号器に関する。本発明の更に別の実施形態は、複数のオーディオオブジェクト信号を1つのダウンミックス及び1つのPSIへと符号化する方法に関する。
本発明の更なる実施形態は、復号化、符号化、及び/又はアップミックス信号の提供のための方法に対応するコンピュータプログラムに関する。
本発明の更なる実施形態は、信号混合(signal mixture)の操作のための、オーディオオブジェクト適応型の個別の時間−周波数分解能の切替えに関する。
現代のデジタルオーディオシステムにおいては、送信されたコンテンツのオーディオオブジェクトに関連した修正を受信器側で実行できるようにすることが主流となっている。これらの修正には、空間的に分散されたスピーカを介したマルチチャネル再生の場合におけるオーディオ信号の選択されたパーツのゲイン修正、及び/又は特定のオーディオオブジェクトの空間的な再位置決めが含まれる。このような修正は、オーディオコンテンツの異なるパーツを異なるスピーカに対して個別に配信することで、達成され得る。
換言すれば、オーディオ処理、オーディオ伝送、及びオーディオストレージの技術において、オブジェクト指向のオーディオコンテンツ再生に対するユーザー相互作用を可能にすることがますます求められており、また、ヒヤリングの印象を向上させる目的で、マルチチャネル再生の拡張された可能性を活用してオーディオコンテンツ又はそのパーツを個別にレンダリングすることが求められている。これらの技術により、マルチチャネル・オーディオコンテンツを使用することが、ユーザーにとって有意な改善をもたらすことになる。例えば、三次元のヒヤリング印象が取得可能となり、これがエンターテイメント・アプリケーションにおけるユーザーの満足度を向上させることになる。しかしながら、マルチチャネル・オーディオコンテンツはまた、プロ的環境、例えば電話会議のアプリケーションなどにおいても有益である。なぜなら、マルチチャネル・オーディオ再生を使用することで、話者了解度が向上し得るからである。可能性のある他のアプリケーションは、楽曲の聴取者に対し、(「オーディオオブジェクト」とも称される)異なるパーツ又はトラック、例えばヴォーカルパート又は種々の楽器などの再生レベル及び/又は空間位置を、個別に調整することを提供する。ユーザーはそのような調整を、個人的嗜好、楽曲から1つ又は複数のパーツをより容易に聞き取るため、教育目的、カラオケ、リハーサルなどのために実行することができる。
例えばパルス符号変調(PCM)データ又は圧縮済みオーディオフォーマットの形態を有する、全てのデジタルマルチチャネル又はマルチオブジェクト・オーディオコンテンツをそのまま離散伝送することは、非常に高いビットレートを必要とする。しかしまた、オーディオデータをビットレート高効率で伝送し記憶することが望ましい。そのため、オーディオ品質とビットレート要件との間の合理的な妥協点を受け入れ、マルチチャネル/マルチオブジェクトのアプリケーションに起因する過剰な資源負荷を防止しようと試みられている。
近年、オーディオコーディングの分野において、マルチチャネル/マルチオブジェクト・オーディオ信号のビットレート効率的な伝送/記憶のためのパラメトリック技術が、例えば動画専門家グループ(MPEG)やその他によって紹介されてきた。一例として、チャネル指向の手法としてのMPEGサラウンド(MPS)[非特許文献1、非特許文献2]、オブジェクト指向の手法としてのMPEG空間オーディオオブジェクト・コーディング(SAOC)[非特許文献3、非特許文献4、非特許文献5、非特許文献6]が挙げられる。他のオブジェクト指向の手法は、「事前情報付きソース分離(informed source separation)」として称される[非特許文献7、非特許文献8、非特許文献9、非特許文献10、非特許文献11、非特許文献12]。これらの技術は、チャネル/オブジェクトのダウンミックスと、その伝送/記憶されたオーディオシーン及び/又はオーディオシーンにおけるオーディオソース・オブジェクトを記述している追加的サイド情報と、に基づいて、所望の出力オーディオシーン又は所望のオーディオソース・オブジェクトを再構築することを目的としている。
上述したシステムにおけるチャネル/オブジェクト関連のサイド情報の推定及び適用は、時間−周波数選択的な方法で実行される。つまり、そのようなシステムは、離散フーリエ変換(DFT)、短時間フーリエ変換(ST/FT)、又は直交ミラーフィルタ(QMF)バンクのようなフィルタバンクなどのような時間/周波数変換を使用する。MPEG SAOCの例を用いたそのようなシステムの基本原理を、図1に示す。
ST/FTの場合には、時間次元は時間ブロック数によって表され、スペクトル次元はスペクトル係数(「bin」)の数で捕捉される。QMFの場合には、時間次元は時間スロット数によって表され、スペクトル次元はサブバンド数で捕捉される。QMFのスペクトル分解能が後続の第2フィルタステージの適用によって改善される場合には、全体的なフィルタバンクはハイブリッドQMFと称され、微細な分解能のサブバンドはハイブリッドサブバンドと称される。
上述したように、SAOCにおいては、全体的な処理は時間−周波数選択的な方法で行われ、各周波数帯域内では以下のように説明され得る。
・符号器処理の一部として、要素d1,1…dN,Pから成るダウンミックス行列を使用して、N個の入力オーディオオブジェクト信号s1…sNがP個のチャネルx1・xpへとミックスダウンされる。加えて、符号器は、入力オーディオオブジェクトの特徴を記述するサイド情報を抽出する(サイド情報推定部(SIE)モジュール)。MPEG SAOCにとって、オーディオパワー同士の相互関係は、そのようなサイド情報の最も基本的な形態である。
・ダウンミックス信号(単数又は複数)とサイド情報とが伝送/記憶される。この目的で、ダウンミックスオーディオ信号(単数又は複数)は、例えば、MPEG−1/2レイヤII又はIII(通称mp3)、MPEG−2/4先進オーディオコーディング(AAC)などの公知の知覚的オーディオコーダを使用して、圧縮されてもよい。
・受信端において、概念的には、伝送されたサイド情報を使用して、(復号化された)ダウンミックス信号からオリジナル・オブジェクト信号を回復しようと試みる(「オブジェクト分離」)。これら近似されたオブジェクト信号
Figure 0006289613
は次に、図1内では係数r1,1…rN,Mによって示されるレンダリング行列を使用して、M個のオーディオ出力チャネル
Figure 0006289613
により表現される目標シーンへとミキシングされる。所望の目標シーンは、極端な場合、混合信号からのただ1つのソース信号のレンダリング(ソース分離シナリオ)にもなり得るが、しかしまた、伝送された複数のオブジェクトを含む他の任意の音響シーンにもなり得る。
時間−周波数に基づくシステムは、静的な時間及び周波数分解能を有する1つの時間−周波数(t/f)変換を使用してもよい。ある所定の固定的なt/f分解能格子を選択することは、典型的には時間分解能と周波数分解能との間の妥協を含む。
オーディオ混合信号内における典型的なオブジェクト信号の実例について、固定のt/f分解能の効果を証明することができる。例えば、調性音(tonal sound)のスペクトルは、1つの基本的周波数及び複数のオーバートーンとハーモニクス的に関連した構造を示す。そのような信号のエネルギーは、ある周波数領域に集中している。そのような信号にとって、使用されたt/f表現の高い周波数分解能は、混合信号から狭帯域の調性スペクトル領域を分離するために有利である。他方、ドラム音のような過渡信号は、明瞭な時間的構造を有することが多い。即ち、相当なエネルギーが時間的に短い期間にだけ存在し、周波数の広い領域にわたって拡散している。これらの信号にとって、使用されたt/f表現の高い時間分解能は、混合信号から過渡信号部分を分離するために有利である。
[MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007. [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003 [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006 [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 [SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", l24th AES Convention, Amsterdam 2008 [ISS1] M. Parvaix and L. Girin: "lnformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010 [ISS2] M. Parvaix, L. Girin, J.-M. Brassier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010 [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011 [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011 [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011 [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011
符号器側又は復号器側においてそれぞれオブジェクト特有(object-specific)サイド情報を生成及び/又は評価するときに、時間−周波数ドメインにおけるそれらの表現に関するオーディオオブジェクトの異なるタイプの異なる必要項目を考慮に入れることは、望ましいであろう。
この望ましい点及び/又は更なる望ましい点は、独立請求項に定義されたような、マルチオブジェクト・オーディオ信号を復号化するオーディオ復号器、複数のオーディオオブジェクト信号を1つのダウンミックス信号及びサイド情報へと符号化するオーディオ符号器、マルチオブジェクト・オーディオ信号を復号化する方法、複数のオーディオオブジェクト信号を符号化する方法、又は対応するコンピュータプログラムによって実現され得る。
少なくとも幾つかの実施形態によれば、マルチオブジェクト信号を復号化するオーディオ復号器が提供される。マルチオブジェクト・オーディオ信号は、1つのダウンミックス信号とサイド情報とを含む。このサイド情報は、少なくとも1つの時間/周波数領域における少なくとも1つのオーディオオブジェクトについてのオブジェクト特有サイド情報を含む。このサイド情報は、少なくとも1つの時間/周波数領域における少なくとも1つのオーディオオブジェクトについてのオブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能を示す、オブジェクト特有時間/周波数分解能情報を更に含む。オーディオ復号器は、少なくとも1つのオーディオオブジェクトのためのサイド情報からオブジェクト特有時間/周波数分解能情報を決定する、オブジェクト特有時間/周波数分解能決定部を含む。オーディオ復号器は、オブジェクト特有時間/周波数分解能に従うオブジェクト特有サイド情報を使用して、ダウンミックス信号から少なくとも1つのオーディオオブジェクトを分離する、オブジェクト分離部を更に含む。
更なる実施形態は、複数のオーディオオブジェクトを1つのダウンミックス信号及びサイド情報へと符号化するオーディオ符号器を提供する。そのオーディオ符号器は、複数のオーディオオブジェクトを少なくとも第1の時間/周波数分解能を使用して第1の複数の対応する変換形態(transformations)へと変換し、かつ、第2の時間/周波数分解能を使用して第2の複数の対応する変換形態へと変換するよう構成された、時間から周波数への変換器を含む。オーディオ符号器は、少なくとも第1の複数の対応する変換形態のための第1のサイド情報と、第2の複数の対応する変換形態のための第2のサイド情報と、を決定するよう構成されたサイド情報決定部を更に含む。第1及び第2のサイド情報は、ある時間/周波数領域における複数のオーディオオブジェクトの相互関係を第1及び第2の時間/周波数分解能においてそれぞれ示している。オーディオ符号器は、複数のオーディオオブジェクトの少なくとも1つのオーディオオブジェクトのために、少なくとも第1及び第2のサイド情報からある適性基準に基づいて1つのオブジェクト特有サイド情報を選択するよう構成された、サイド情報選択部をさらに含む。この適性基準は、オーディオオブジェクトを時間/周波数ドメインで表現するための少なくとも第1又は第2の時間/周波数分解能のある適性を示している。選択されたオブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報の中に導入される。
本発明の更なる実施形態は、1つのダウンミックス信号及びサイド情報を含むマルチオブジェクト・オーディオ信号を復号化する方法を提供する。そのサイド情報は、少なくとも1つの時間/周波数領域における少なくとも1つのオーディオオブジェクトについてのオブジェクト特有サイド情報と、少なくとも1つの時間/周波数領域における少なくとも1つのオーディオオブジェクトについてのオブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能を示す、オブジェクト特有時間/周波数分解能情報とを含む。この方法は、少なくとも1つのオーディオオブジェクトについてのサイド情報からオブジェクト特有時間/周波数分解能情報を決定するステップを含む。この方法は、オブジェクト特有時間/周波数分解能に従うオブジェクト特有サイド情報を使用して、ダウンミックス信号から少なくとも1つのオーディオオブジェクトを分離するステップをさらに含む。
本発明の更なる実施形態は、複数のオーディオオブジェクトを1つのダウンミックス信号及びサイド情報へと符号化する方法を提供する。この方法は、複数のオーディオオブジェクトを少なくとも、第1の時間/周波数分解能を使用して第1の複数の対応する変換形態へと変換し、かつ第2の時間/周波数分解能を使用して第2の複数の対応する変換形態へと変換するステップを含む。この方法は、少なくとも第1の複数の対応する変換形態のための第1のサイド情報と、第2の複数の対応する変換形態のための第2のサイド情報とを決定するステップを更に含む。第1及び第2のサイド情報は、ある時間/周波数領域における複数のオーディオオブジェクトの相互関係を第1及び第2の時間/周波数分解能においてそれぞれ示している。この方法は、複数のオーディオオブジェクトの少なくとも1つのオーディオオブジェクトのために、少なくとも第1及び第2のサイド情報からある適性基準に基づいて1つのオブジェクト特有サイド情報を選択するステップをさらに含む。この適性基準は、オーディオオブジェクトを時間/周波数ドメインで表現するための少なくとも第1又は第2の時間/周波数分解能のある適性を示している。オブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報の中に導入される。
使用されるt/f表現が、混合信号から分離されるべきオーディオオブジェクトの時間的及び/又はスペクトル的特徴と合致しない場合に、オーディオオブジェクト分離の性能は、典型的に低減してしまう。不十分な性能は、分離されたオブジェクト間のクロストークに繋がるおそれもある。そのようなクロストークは、プリエコー又はポストエコー、音色の変更、又は人間の声音の場合には、所謂ダブルトークとして知覚される。本発明の実施形態は、複数の代替的なt/f表現を提供し、その中から符号器側においてサイド情報を決定する際に、又は復号器側においてサイド情報を使用する際に、所与のオーディオオブジェクト及び所与の時間/周波数領域のために最適なt/f表現が選択され得る。その結果、現状技術と比較して、オーディオオブジェクトの分離のための改善された分離性能と、レンダリングされた出力信号の改善された主観的品質とがもたらされる。
空間オーディオオブジェクトを符号化/復号化する他のスキームと比較して、サイド情報の量は、ほぼ同じか又は僅かに多くなる可能性がある。本発明の実施形態によれば、サイド情報は効率的な方法で使用される。なぜなら、サイド情報は、所与のオーディオオブジェクトの時間的及びスペクトル的構造についてのオブジェクト特有の特徴を考慮に入れるオブジェクト特有の方法で適用されるからである。換言すれば、サイド情報のt/f表現が様々なオーディオオブジェクトに対して個別誂えされる。
本発明に従う実施形態について、添付の図面を参照しながら、以下において説明する。
あるSAOCシステムの概念的な全体図の概略的ブロック図を示す。 単一チャネル・オーディオ信号の時間/周波数表現の概略図である。 SAOC符号器内のサイド情報の時間/周波数選択的計算の概略ブロック図を示す。 幾つかの実施形態にかかる、強化されたサイド情報推定部の原理を概略的に示す。 種々のt/f表現によって表現される1つのt/f領域R(tR,fR)を概略的に示す。 一実施形態にかかる、サイド情報計算及び選択モジュールの概略的ブロック図である。 強化された(仮想の)オブジェクト分離(EOS)モジュールを含むSAOC復号化を概略的に示す。 強化されたオブジェクト分離モジュール(EOSモジュール)の概略的ブロック図を示す。 一実施形態にかかる、オーディオ復号器の概略的ブロック図である。 H個の代替的なt/f表現を復号化し、次にオブジェクト特有のt/f表現を選択するような、比較的簡素な一実施形態にかかるオーディオ復号器の概略的ブロック図である。 種々のt/f表現において表現される1つのt/f領域R(tR,fR)と、t/f領域内で推定される共分散行列Eの決定に対する結果的な影響を概略的に示す。 ズームされた時間/周波数表現においてオーディオオブジェクト分離を実行するためのズーム変換を使用する、オーディオオブジェクト分離の概念を概略的に示す。 関連するサイド情報を有するダウンミックス信号を復号化する方法の概略的なフローチャートを示す。 複数のオーディオオブジェクトをダウンミックス信号及び関連するサイド情報へと符号化する方法の概略的なフローチャートを示す。
図1は、あるSAOC符号器10及びSAOC復号器12の全体的な構成を示す。SAOC符号器10はN個の入力オブジェクト、即ちオーディオ信号s1〜sNを受信する。具体的には、符号化10は、オーディオ信号s1〜sNを受信してそれらをダウンミックス信号18へとダウンミックスするダウンミキサ16を含む。代替的に、そのダウンミックスは外部的に提供されてもよく(「アーティスティック・ダウンミックス」)、そのシステムは、その提供されたダウンミックスが計算されたダウンミックスと一致するように、追加的サイド情報を推定してもよい。図1において、ダウンミックス信号はP−チャネルの信号として示されている。従って、モノラル(P=1)、ステレオ(P=2)又はマルチチャネル(P>=2)の如何なるダウンミックス信号構成も考慮対象となる。
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0及びR0と記載され、モノラルダウンミックスの場合、ダウンミックスは単にL0と記載される。SAOC復号器12が個別のオブジェクトs1〜sNを復元できるようにするため、サイド情報推定部17は、SAOC復号器12に対してSAOCパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベル差(OLD)、オブジェクト間クロス相関パラメータ(IOC)、ダウンミックスゲイン値(DMG)、及びダウンミックスチャネル・レベル差(DCLD)を含む。SAOCパラメータを含むサイド情報20は、ダウンミックス信号18と共に、SAOC復号器12によって受信されるべきSAOC出力データストリームを形成する。
SAOC復号器12はアップミキサを含み、そのアップミキサはダウンミックス信号18及びサイド情報20を受信して、任意のユーザー選択されたチャネルのセット
Figure 0006289613
に対してオーディオ信号s1〜sNを復元しかつレンダリングするが、このときレンダリングはSAOC復号器12に入力されるレンダリング情報26によって規定されている。
オーディオ信号s1〜sNは、符号器10に対し、例えば時間ドメイン又はスペクトルドメインなど、如何なる符号化ドメインにおいて入力されてもよい。オーディオ信号s1〜sNが符号器10に対して時間ドメインで、例えばPCM符号化された状態で入力される場合、符号器10は、例えばハイブリッドQMFバンクのようなフィルタバンクを使用してそれら信号をスペクトルドメインへと変換してもよく、そのスペクトルドメインにおいては、オーディオ信号は、異なるスペクトル部分に関連する複数のサブバンドの中に特定のフィルタバンク分解能で表現される。既にオーディオ信号s1〜sNが符号器10によって求められる表現で存在している場合には、符号器10はスペクトル分解を実行する必要がない。
図2は、上述したスペクトルドメインにおけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表現されている。各サブバンド信号301〜30Kは、小さなボックス32で示されたサブバンド値のシーケンスを含む。図から分かるように、連続的なフィルタバンク時間スロット34の各々について、各サブバンド301〜30Kが正に1つのサブバンド値32を含むように、サブバンド信号301〜30Kのサブバンド値32は、時間的に互いに同期している。周波数軸36によって示されるように、サブバンド信号301〜30Kは異なる周波数領域と関連付けられており、時間軸38によって示されるように、フィルタバンク時間スロット34は時間的に連続して配置されている。
上述したように、サイド情報抽出部17は、入力オーディオ信号s1〜sNからSAOCパラメータを計算する。現在構築されているSAOC標準によれば、符号器10はこの計算をある時間/周波数分解能で実行するが、その分解能は、フィルタバンク時間スロット34及びサブバンド分解によって決定されたオリジナルの時間/周波数分解能と比較してある量だけ低減されてもよく、このある量はサイド情報20の中で復号器側へと信号伝達されている。連続的なフィルタバンク時間スロット34のグループは、SAOCフレーム41を形成してもよい。また、SAOCフレーム41内のパラメータ帯域の数は、サイド情報20の中で伝達される。その結果、時間/周波数ドメインは、図2で破線42により例示するような時間/周波数タイルへと分割される。図2において、パラメータ帯域は同様に、時間/周波数タイルの規則的な配列が得られるように、様々に示されたSAOCフレーム41内に分散される。しかし、一般的に、パラメータ帯域は、それぞれのSAOCフレーム41内のスペクトル分解能に係る異なる必要事項に依存して、1つのSAOCフレーム41から後続のフレームへと変化し得る。さらに、SAOCフレーム41の長さもまた変化し得る。結果的に、時間/周波数タイルの配列は、不規則ともなり得る。しかしながら、特定のSAOCフレーム41内の時間/周波数タイルは、典型的には同一の持続時間を有し、時間方向においては整列されている。即ち、SAOCフレーム41内の全てのt/fタイルは、所与のSAOCフレーム41の開始時において開始し、SAOCフレーム41の終了時において終了する。
サイド情報抽出部17は、以下の数式に従ってSAOCパラメータを計算する。特に、サイド情報抽出部17は、各オブジェクトiについてのオブジェクトレベル差を次式で計算する。
[数1]
Figure 0006289613
ここで、合計とインデックスn及びkとはそれぞれ、ある時間/周波数タイル42に帰属する全ての時間的インデックス34と全てのスペクトルインデックス30を表すものであり、SAOCフレーム(又は処理しつつある時間スロット)についてのインデックスlとパラメータ帯域についてのインデックスmとによって参照される。これにより、1つのオーディオ信号又はオブジェクトiの全てのサブバンド値xiのエネルギーが合計され、かつ全てのオブジェクト又はオーディオ信号の間のそのタイルの最高エネルギー値へと正規化される。
更に、SAOCサイド情報抽出部17は、異なる入力オブジェクトs1〜sNのペアの対応する時間/周波数タイルの類似性尺度を計算することができる。SAOCダウンミキサ16が入力オブジェクトs1〜sNの全てのペア間の類似性尺度を計算してもよいが、ダウンミキサ16はまた、通常のステレオチャネルの左又は右のチャネルを形成するオーディオオブジェクトs1〜sNに対して、その類似性尺度の信号伝達を抑制し又はその類似性尺度の計算を制限してもよい。いずれの場合でも、その類似性尺度はオブジェクト間クロス相関パラメータ
Figure 0006289613
と称される。その計算は以下の通りである。
[数2]
Figure 0006289613
ここでも、インデックスn及びkは、ある時間/周波数タイル42に帰属する全てのサブバンド値を代表するものであり、iとjとはオーディオオブジェクトs1〜sNのあるペアを示している。
オブジェクトs1〜sNの各々に適用されるゲインファクタを使用して、ダウンミキサ16がオブジェクトs1〜sNをダウンミックスする。つまり、ゲインファクタDiがオブジェクトiに適用され、次に、そのように重み付けられたオブジェクトs1〜sNの全てが合計されて、モノラルダウンミックス信号が得られる。これは図1内ではP=1の場合として例示されている。2チャネルダウンミックス信号の場合の他の実例として、図1内のP=2の場合となるが、ゲインファクタD1,iがオブジェクトiに対して適用され、次に、そのようにゲイン増幅されたオブジェクトの全てが合計されて、左ダウンミックスチャネルL0が得られ、また、ゲインファクタD2,iがオブジェクトiに対して適用され、次に、そのようにゲイン増幅されたオブジェクトが合計されて、右ダウンミックスチャネルR0が得られる。マルチチャネル・ダウンミックス(P>=2)の場合にも、これと同様の処理が適用されることになる。
このダウンミックス規定は、ダウンミックスゲインDMGiによって、またステレオダウンミックス信号の場合には、ダウンミックスレベル差DCLDiによって、復号器側に信号伝達される。
ダウンミックスゲインは以下のように計算される。
[数3]
Figure 0006289613
ここで、εは10-9のような小さな数である。
DCLDsについては、以下の数式が適用される。
[数4]
Figure 0006289613
標準的モードにおいて、ダウンミキサ16は、モノラルダウンミックスに関しては次式
[数5]
Figure 0006289613
により、ステレオダウンミックスに関しては次式
[数6]
Figure 0006289613
により、それぞれダウンミックス信号を生成する。
このように、上述の数式において、パラメータOLD及びIOCはオーディオ信号の関数であり、パラメータDMG及びDCLDはDの関数である。ここで、Dは時間的に可変であり得ることにも注意されたい。
このように、標準的モードにおいて、ダウンミキサ16は、全てのオブジェクトs1〜sNを優先順位なしで、即ち全てのオブジェクトs1〜sNを平等に、ミキシングする。
復号器側において、アップミキサは、ダウンミックス処理の逆と、行列R(文字的には時にはAとも称される)により表現される「レンダリング情報」26の実行とを、1つの計算ステップにおいて実行する。即ち、2チャネルダウンミックスの場合には、次式
[数7]
Figure 0006289613
を実行するが、ここで、行列EはパラメータOLD及びIOCの関数である。行列Eはオーディオオブジェクトs1〜sNの推定された共分散行列である。現状のSAOCの構成において、推定された共分散行列Eの計算は、典型的にはSAOCパラメータの時間/周波数分解能において、即ち、各(l,m)について実行される。そのため、推定された共分散行列はEl,mと記述され得る。推定された共分散行列はEl,mは、サイズN×Nの大きさであり、その係数は次式で定義される。
[数8]
Figure 0006289613
このように、次式のような行列El,mは、
[数9]
Figure 0006289613
その対角線に沿って、オブジェクトレベル差を有する。即ちi=jのとき
Figure 0006289613
となる。なぜなら、i=jのとき
Figure 0006289613
となるからである。その対角線の外側には、推定された共分散行列Eは、オブジェクト間クロス相関尺度
Figure 0006289613
を用いて重み付けられたオブジェクトi及びjのそれぞれのオブジェクトレベル差の幾何平均をそれぞれ表現する行列係数を有する。
図3は、SAOC符号器10の一部としてのサイド情報推定部(SIE)の実例について、1つの可能な構成の原理を示す。SAOC符号器10は、ミキサ16とサイド情報推定部SIEとを含む。SIEは、概念的には2つのモジュールから構成される。つまり、各信号の短時間ベースのt/f表現(例えばSTFT又はQMF)を計算するための1つのモジュールがあり、その計算された短時間t/f表現は、第2のモジュール、即ちt/f選択的サイド情報推定モジュール(t/f−SIE)へと入力される。t/f−SIEは、各t/fタイルについてサイド情報を計算する。現状のSAOC構成においては、時間/周波数変換は固定的であり、全てのオーディオオブジェクトs1〜sNについて同一である。さらに、SAOCパラメータは、全てのオーディオオブジェクトについて同一でありかつ全てのオーディオオブジェクトs1〜sNについて同一の時間/周波数分解能を有する、SAOCフレームにわたって決定されている。従って、ある場合には細密な時間分解能であり、他の場合には細密なスペクトル分解能であるオブジェクト特有の必要項目を無視している。
現状のSAOC概念の幾つかの制限を以下に説明する。サイド情報に関連するデータの量を比較的小さくするために、異なるオーディオオブジェクトのためのサイド情報が、それらオーディオオブジェクトに対応している入力信号の複数の時間スロット及び複数の(ハイブリッド)サブバンドにわたって伸びる時間/周波数領域について、好ましくは粗い方法で決定される。上述したように、使用されるt/f表現が、混合信号(ダウンミックス信号)から分離されるべきオブジェクト信号の時間的又はスペクトル的特徴に対し、各処理ブロック(即ちt/f領域又はt/fタイル)において適応されていない場合には、復号器側で観測される分離性能が最適になり得ないことがある。オーディオオブジェクトの調性部分とオーディオオブジェクトの過渡部分とについてのサイド情報が、現時点のオブジェクト特性に関係なく、同じ時間/周波数タイリングに対して決定されかつ適用される。その結果、典型的には、主に調性のオーディオオブジェクト部分についてのサイド情報が幾分粗すぎるスペクトル分解能で決定されることになり、また、主に過渡オーディオオブジェクト部分についてのサイド情報が幾分粗すぎる時間分解能で決定されることになる。同様に、復号器内でこのような非適応型のサイド情報を適用することは、最適とは言えないオブジェクト分離の結果であって、例えばスペクトル的粗さ及び/又は可聴のプリエコーやポストエコーの形態を有するようなオブジェクトクロストークによる、障害を受けた結果をもたらす。
復号器側における分離性能を向上させる目的で、復号器又は復号器に対応する方法が、復号器入力信号(サイド情報及びダウンミックス)を処理するために使用されるt/f表現を、分離されるべき所望の目標信号の特徴に従って個別に適応させ得るようにすることは、望ましいことである。各目標信号(オブジェクト)のために、例えば使用可能な表現の所与のセットから、処理及び分離に関して最適なt/f表現が個別に選択される。そのため復号器は、所与のタイムスパン及び所与のスペクトル領域において、各個別のオブジェクトのために使用されるべきt/f表現を信号伝達する、サイド情報によって駆動されることになる。この情報は符号器において計算され、SAOC内で既に伝送されているサイド情報に追加して伝達される。
本発明は、オブジェクト信号の各々について最適な個別のt/f表現を示す情報によって補強されたサイド情報を計算する、符号器における強化されたサイド情報推定部(Enhanced Side Information Estimator)(E−SIE)に関するものである。
本発明は更に、受信端における(仮想の)強化されたオブジェクト分離部(E−OS)に関する。そのE−OSは、次に各オブジェクトの推定のために使用される実際のt/f表現を信号伝達する、追加的な情報を使用する。
E−SIEは、2つのモジュールを含み得る。1つのモジュールは、各オブジェクト信号についてH個までのt/f表現を計算し、それら表現は時間及びスペクトル分解能において異なり、且つ次の要件を満たす。即ち、これら領域内の信号コンテンツが、H個のt/f表現の何れによっても記述され得るように、時間/周波数−領域R(tR,fR)が定義され得る。図5は、H個のt/f表現の実例についての概念を示し、また、2つの異なるt/f表現によって表現される1つのt/f領域R(tR,fR)を示す。t/f領域R(tR,fR)内の信号コンテンツは、高いスペクトル分解能と低い時間分解能(t/f表現#1)を用いるか、高い時間分解能と低いスペクトル分解能(t/f表現#2)を用いるか、又は、時間分解能とスペクトル分解能の他の何れかの組合せ(t/f表現#H)を用いるかして表現されることができる。可能なt/f表現の個数は制限されていない。
このように、複数のオーディオオブジェクト信号siをダウンミックスX及びサイド情報PSIへと符号化するオーディオ符号器が提供される。オーディオ符号器は、図4に概略的に示す強化されたサイド情報推定部E−SIEを含む。強化されたサイド情報推定部E−SIEは複数のオーディオオブジェクト信号siを、少なくとも第1の時間/周波数分解能TFR1(第1の時間/周波数離散化)を使用して第1の複数の対応する変換済み信号s1,1(t/f)…sN,1(t/f)へと変換し、かつ少なくとも第2の時間/周波数分解能TFR2(第2の時間/周波数離散化)を使用して第2の複数の対応する変換済み信号s1,2(t/f)…sN,2(t/f)へと変換するよう構成された、時間/周波数変換器52を含む。幾つかの実施形態において、時間/周波数変換器52は3つ以上の時間/周波数分解能TFR1〜TFRHを使用するよう構成されてもよい。強化されたサイド情報推定部(E−SIE)は、サイド情報計算及び選択モジュール(SI−CS)54を更に含む。そのサイド情報計算及び選択モジュール(図6参照)は、1つのサイド情報決定部(t/f−SIE)又は複数のサイド情報決定部55−1…55−Hであって、第1の複数の対応する変換形態s1,1…sN,1(t/f)のための第1のサイド情報と、第2の複数の対応する変換形態s1,2…sN,2(t/f)のための第2のサイド情報と、を少なくとも決定するよう構成されたサイド情報決定部を更に含み、第1及び第2のサイド情報は、ある時間/周波数領域R(tR,fR)における複数のオーディオオブジェクト信号siの相互関係を、第1及び第2の時間/周波数分解能TFR1,TFR2においてそれぞれ示している。複数のオーディオオブジェクト信号siの相互関係は、例えば異なる周波数帯域におけるオーディオ信号の相対的エネルギー及び/又はオーディオ信号間の相関度に関連してもよい。サイド情報計算及び選択モジュール54は、各オーディオオブジェクト信号siについて、少なくとも第1及び第2のサイド情報からある適性基準に基づいて1つのオブジェクト特有サイド情報を選択するよう構成された、サイド情報選択部(SI−AS)56をさらに含み、この適性基準は、オーディオオブジェクト信号siを時間/周波数ドメインで表現するための少なくとも第1又は第2の時間/周波数分解能のある適性を示している。次に、オブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報PSIの中に導入される。
t/f面のt/f領域R(tR,fR)内へのグルーピングは、図5に示すように必ずしも等距離間隔で行われる必要がない点に注意されたい。領域R(tR,fR)内へのグルーピングは、例えば知覚的に適応されるべく非均一であり得る。そのグルーピングはまた、SAOCのような現存するオーディオオブジェクト・コーディングスキームと協調することができ、強化されたオブジェクト推定能力との後方互換性を持つコーディングスキームを可能にすることができる。
t/f分解能の適応は、異なるオブジェクトに対して異なるパラメータ・タイリングを特定することに限らない。SAOCスキームが基礎とする変換(即ち、典型的には現状技術のシステムにおいてSAOC処理のために使用される通常の時間/周波数分解能により提供される)はまた、個別の目標オブジェクトに対してより良好に適合するよう修正され得る。この点は、例えばSAOCスキームが基礎としている通常の変換によって提供されるものよりも高いスペクトル分解能が必要される場合、特に有益である。MPEG SAOCの実例の場合、raw分解能は(ハイブリッド)QMFバンクの(通常の)分解能に限られる。本発明の処理によれば、スペクトル分解能を増大させることができるが、しかしその代償として幾分かの時間分解能が処理の中で失われる。これは、第1フィルタバンクの出力に対して適用される所謂(スペクトル的)ズーム変換を使用して達成される。概念的には、幾つかの連続的なフィルタバンク出力サンプルが1つの時間ドメイン信号として扱われ、それに対して第2の変換が適用されて(ただ1つの時間スロットを有する)対応する個数のスペクトルサンプルが取得される。ズーム変換は、(MPEG SAOCにおけるハイブリッド・フィルタステージと同様の)フィルタバンク、又はDFT若しくはComplex修正離散コサイン変換(CMDCT)のようなブロックベースの変換に基づくことができる。同様に、スペクトル分解能を犠牲にして時間分解能を増大させることもできる(時間的ズーム変換)。即ち、(ハイブリッド)QMFバンクの複数のフィルタの幾つかの同時発生的出力が1つの周波数ドメイン信号としてサンプリングされ、それに対して第2の変換が適用されて、(複数のフィルタのスペクトル領域をカバーするただ1つの大きなスペクトル帯域を有する)対応する個数の時間的サンプルが取得される。
各オブジェクトについて、H個のt/f表現はミキシングパラメータと一緒に第2のモジュール、即ちサイド情報計算及び選択モジュールSI−CS内へと入力される。SI−CSモジュールは、オブジェクト信号の各々について、復号器においてオブジェクト信号を推定するために、H個のt/f表現のうちのどの表現がどのt/f領域R(tR,fR)に使用されるべきかを決定する。図6はSI−CSモジュールの原理を詳細に示す。
H個の異なるt/f表現の各々について、対応するサイド情報(SI)が計算される。例えば、SAOC内のt/f−SIEモジュールが利用され得る。計算されたH個のサイド情報データは、サイド情報査定及び選択モジュール(SI−AS)内へと入力される。各オブジェクト信号に関し、SI−ASモジュールは、信号混合からオブジェクト信号を推定する際の各t/f領域についての最適なt/f表現を決定する。
通常のミキシングシーンパラメータの他に、SI−ASは、各オブジェクト信号及び各t/f領域について個別に選択されたt/f表現について言及するサイド情報を出力する。対応するt/f表現を示す追加的パラメータもまた出力されてもよい。
各オブジェクト信号に対して最適なt/f表現を選択する2つの方法を以下に説明する。
1.ソース推定に基づくSI−AS:各オブジェクト信号は、H個のt/f表現に基づいて計算されたサイド情報データを用いて混合信号から推定され、各オブジェクト信号についてH個のソース推定がもたらされる。各オブジェクトに対し、各t/f領域R(tR,fR)内の推定品質がH個のt/f表現の各々についてソース推定性能尺度を用いて査定される。そのような尺度の簡易な実例は、達成された信号対歪み比(SDR)である。更に精緻な知覚的尺度もまた利用され得る。SDRは、オリジナル・オブジェクト信号又は混合信号が既知でなくても、SAOC内で定義されたパラメトリックサイド情報だけに基づいて効率的に実現可能である点に注意されたい。SAOCベースのオブジェクト推定の場合におけるSDRのパラメトリック推定の概念について、以下に説明する。各t/f領域R(tR,fR)に関し、最高のSDRをもたらすt/f表現がサイド情報の推定及び伝送と復号器側におけるオブジェクト信号の推定のために選択される。
2.H個のt/f表現の分析に基づくSI−AS:各オブジェクトのために別々にH個のオブジェクト信号表現の各々のスパースネスが決定される。換言すれば、異なる表現の各々の中のオブジェクト信号のエネルギーが少数の値にどれだけよく集中しているか、又は全ての値にわたって拡散しているかが査定される。オブジェクト信号を最も粗く表現するt/f表現が選択される。信号表現のスパースネスは、例えば信号表現の平坦度又はピークネスを特徴付ける尺度を用いて査定され得る。そのような尺度の実例として、スペクトル平坦度(SFM)、クレストファクタ(CF)及びL0−ノルムが挙げられる。この実施形態によれば、適性基準は、所与のオーディオオブジェクトの少なくとも第1の時間/周波数表現と第2の時間/周波数表現(及び更なる時間/周波数表現もあり得る)のスパースネスに基づいてもよい。サイド情報選択部(SI−AS)は、オーディオオブジェクト信号siを最も粗く表現する時間/周波数表現に対応する少なくとも第1及び第2のサイド情報の中から前記サイド情報を選択するよう構成されている。
SAOCベースのオブジェクト推定の場合のSDRのパラメトリック推定について、以下に説明する。
記号の説明
S N個のオリジナル・オーディオオブジェクト信号の行列
X M個の混合信号の行列
D∈o M×N ダウンミックス行列
X=DS ダウンミックスシーンの計算
est N個の推定されたオーディオオブジェクト信号の行列
SAOCの中で、オブジェクト信号は概念的には次式を用いて混合信号から概念的に推定される:
[数10]
Figure 0006289613
XをDSで置き換えると、次式が得られる。
[数11]
Figure 0006289613
推定されたオブジェクト信号内のオリジナル・オブジェクト信号部分のエネルギーは、次式のように演算され得る。
[数12]
Figure 0006289613
推定された信号内の歪み項目は、次式により演算され得る。
[数13]
Figure 0006289613
ここで、diag(E)はオリジナル・オブジェクト信号のエネルギーを含む対角行列を示している。次に、diag(E)をEdistに関連付けることで、SDRが計算され得る。あるt/f領域R(tR,fR)において目標ソースエネルギーに対して相対的なSDRを推定するために、歪みエネルギーの計算が領域R(tR,fR)内の各処理済みt/fタイルに対して実行され、目標エネルギー及び歪みエネルギーがそのt/f領域R(tR,fR)内の全てのt/fタイルにわたって集積される。
従って、適性基準はソース推定に基づいてもよい。その場合、サイド情報選択部(SI−AS)56は、ダウンミックス信号Xと、第1及び第2の時間/周波数分解能TFR1,TFR2にそれぞれ対応する少なくとも第1情報及び第2情報とを使用して、複数のオーディオオブジェクト信号siの少なくとも選択されたオーディオオブジェクト信号を推定するソース推定部を更に含んでもよい。そのようにして、ソース推定部は、少なくとも第1の推定されたオーディオオブジェクト信号si,estm1と第2の推定されたオーディオオブジェクト信号si,estm2と(可能性としてH個のオーディオオブジェクト信号si,estmHまで)を提供する。サイド情報選択部56はまた、少なくとも第1の推定されたオーディオオブジェクト信号si,estm1と第2の推定されたオーディオオブジェクト信号si,estm2との品質を査定する、品質査定部を含む。更に、品質査定部は、少なくとも第1の推定されたオーディオオブジェクト信号si,estm1と第2の推定されたオーディオオブジェクト信号si,estm2との品質を、ソース推定性能尺度としての信号対歪み比SDRに基づいて査定してもよく、その信号対歪み比SDRは、サイド情報PSI、特に推定された共分散行列Eestだけに基づいて決定されてもよい。
幾つかの実施形態に係るオーディオ符号器は、ダウンミックス信号Xを時間/周波数ドメインで複数の時間スロット及び複数の(ハイブリッド)サブバンドへとサンプリングされるある表現へと変換する、ダウンミックス信号処理部を更に含んでもよい。時間/周波数領域R(tR,fR)は、ダウンミックス信号Xの少なくとも2つのサンプルにわたって延びてもよい。少なくとも1つのオーディオオブジェクトについて特定されたオブジェクト特有時間/周波数分解能TFRhは、時間/周波数領域R(tR,fR)よりも微細であってもよい。上述したように、時間/周波数表現の不確実性原理との関係から、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた可能である。オーディオ符号器からオーディオ復号器へと送信されたダウンミックス信号は、典型的には復号器内で固定的な所定の時間/周波数分解能を有する時間−周波数変換によって分析されるが、オーディオ復号器は更に、当該時間/周波数領域R(tR,fR)内の分析済みダウンミックス信号を、所与のオーディオオブジェクトsiをダウンミックス信号から抽出するのにより適切な他の時間/周波数分解能へと、オブジェクト個別的に変換してもよい。復号器におけるダウンミックス信号のそのような変換は、この明細書の中ではズーム変換と称される。そのズーム変換は時間的ズーム変換であってもよく、又はスペクトル的ズーム変換であってもよい。
サイド情報の量の削減
原理的に、本発明のシステムの簡易な実例において、H個までのt/f表現についてのサイド情報が全てのオブジェクト及び全てのt/f領域R(tR,fR)について伝送される必要がある。なぜなら、復号器側における分離は、H個までのt/f表現からの選択によって実行されるからである。この多量のデータは、知覚的品質を有意に失うことなく劇的に低減させることができる。各オブジェクトのために、各t/f領域R(tR,fR)について以下の情報を伝送するだけで十分である。
・t/f領域R(tR,fR)内のオーディオオブジェクトの信号コンテンツをグローバル的に/粗く記述する1つのパラメータ、例えば領域R(tR,fR)内のオブジェクトの平均信号エネルギー
・オーディオオブジェクトの微細構造の記述。この記述は、混合信号からオーディオオブジェクトを最適に推定するために選択された個別のt/f表現から取得される。微細構造に関する情報は、粗い信号表現と微細構造との差をパラメータ化することによって、効率的に記述され得ることに留意されたい。
・オーディオオブジェクトを推定するために使用されるべきt/f表現を示す情報信号
復号器においては、混合信号から所望のオーディオオブジェクトを復号器で推定することが、各t/f領域R(tR,fR)について下記のように実行され得る。
・このオーディオオブジェクトのための追加的サイド情報によって示される個々のt/f表現が計算される。
・所望のオーディオオブジェクトを分離するために、対応する(微細構造の)オブジェクト信号情報が使用される。
・残りの全てのオーディオオブジェクト、即ち抑制されるべき干渉するオーディオオブジェクトについて、微細構造のオブジェクト信号情報は、もしその情報が選択されたt/f表現のために利用可能であれば、使用される。その他の場合には、粗い信号記述が使用される。他の選択肢は、特定の残りのオーディオオブジェクトについて、利用可能な微細構造のオブジェクト信号情報を使用すること、及び、例えばt/f領域R(tR,fR)のサブ領域内の利用可能な微細構造のオーディオオブジェクト信号情報を平均化することによって、選択されたt/f表現を近似することである。このような方法で、そのt/f分解能は選択されたt/f表現ほど微細ではないが、粗いt/f表現よりは微細となる。
強化されたオーディオオブジェクト推定を有するSAOC復号器
図7は、強化された(仮想の)オブジェクト分離(E−OS)モジュールを含むSAOC復号化を概略的に示し、(仮想の)強化されたオブジェクト分離部(E−OS)を含む改善されたSAOC復号器のこの実例の原理を具象化して示す。SAOC復号器には、信号混合が強化されたパラメトリックサイド情報(E−PSI)と一緒に入力される。E−PSIは、オーディオオブジェクトに係る情報と、ミキシングパラメータと、追加的情報とを含む。この追加的サイド情報によって、各オブジェクトs1…sNに対し、また各t/f領域R(tR,fR)に対し、どのt/f表現が使用されるべきかが仮想のE−OSへと信号伝達される。所与のt/f領域R(tR,fR)について、オブジェクト分離部は、サイド情報の中で各オブジェクトのために信号伝達された個々のt/f表現を使用して、オブジェクトの各々を推定する。
図8は、E−OSモジュールの概念を詳細に示す。所与のt/f領域R(tR,fR)に関し、P個のダウンミックス信号について計算するための個々のt/f表現#hがt/f表現信号伝達モジュール110によってマルチt/f変換モジュールへと信号伝達される。(仮想の)オブジェクト分離部120は、概念的には、追加的サイド情報によって指示されたt/f変換#hに基づいてソースsnを推定しようと試みる。(仮想の)オブジェクト分離部は、オブジェクトの微細構造についての情報が指示されたt/f変換#hに関して伝送された場合にはそれを利用し、その他の場合には、ソース信号の伝送された粗い記述を使用する。各t/f領域R(tR,fR)に関して計算されるべき異なるt/f表現の可能な最大の個数は、Hであることに留意されたい。マルチ時間/周波数変換モジュールは、P個のダウンミックス信号(単数又は複数)の上述したズーム変換を実行するよう構成されてもよい。
図9は、ダウンミックス信号Xとサイド情報PSIを含むマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器の概略的なブロック図を示す。サイド情報PSIは、少なくとも1つの時間/周波数領域R(tR,fR)における少なくとも1つのオーディオオブジェクトsiについてのオブジェクト特有サイド情報PSIiを含み、i=1…Nである。サイド情報PSIはまた、オブジェクト特有時間/周波数分解能情報TFRIiを含み、i=1…NTFである。変数NTFは、オブジェクト特有時間/周波数分解能情報が提供されるオーディオオブジェクトの個数を示し、NTF≦Nである。オブジェクト特有時間/周波数分解能情報TFRIiはまた、オブジェクト特有時間/周波数表現情報と称されてもよい。特に、「時間/周波数分解能」という用語は、時間/周波数ドメインの均一な離散を必ずしも意味するものではなく、1つの時間/周波数タイル内又は全帯域スペクトルの全てのt/fタイルにわたる不均一な離散を意味してもよい点を理解すべきである。典型的かつ好適には、時間/周波数分解能は、所与のt/fタイルの両方の次元の1つは微細な分解能を有し、他の次元は低い分解能を有するように選択される。例えば、過渡信号については、時間次元が微細な分解能を有し、スペクトル分解能が粗くなる一方で、静的な信号については、スペクトル分解能が微細で、時間次元が粗い分解能を持つように選択される。時間/周波数分解能情報TFRIiは、少なくとも1つの時間/周波数領域R(tR,fR)における、少なくとも1つのオーディオオブジェクトsiについての、オブジェクト特有サイド情報PSIiの1つのオブジェクト特有時間/周波数分解能TFRh(h=1…H)を示している。オーディオ復号器は、少なくとも1つのオーディオオブジェクトsiについて、サイド情報PSIからオブジェクト特有時間/周波数分解能情報TFRIiを決定するよう構成された、オブジェクト特有時間/周波数分解能決定部110を含む。オーディオ復号器は、オブジェクト特有時間/周波数分解能TFRiに従ってオブジェクト特有サイド情報PSIiを使用して、ダウンミックス信号Xから少なくとも1つのオーディオオブジェクトsiを分離するよう構成された、オブジェクト分離部120を更に含む。これは、オブジェクト特有サイド情報PSIiがオブジェクト特有時間/周波数分解能情報TFRIiによって特定されたオブジェクト特有時間/周波数分解能TFRiを有することを意味しており、更に、オブジェクト分離部120によりオブジェクト分離を実行するときに、このオブジェクト特有時間/周波数分解能が考慮されることを意味している。
オブジェクト特有サイド情報(PSIi)は、少なくとも1つの時間/周波数領域R(tR,fR)における、少なくとも1つのオーディオオブジェクトsiについての微細構造のオブジェクト特有サイド情報
Figure 0006289613
を含んでもよい。微細構造のオブジェクト特有サイド情報
Figure 0006289613
は、時間/周波数領域R(tR,fR)の中で、レベル(例えばオーディオオブジェクトの信号エネルギー、信号パワー、振幅など)がどのように変化するかを記述している微細構造のレベル情報であってもよい。微細構造のオブジェクト特有サイド情報
Figure 0006289613
は、オーディオオブジェクトiとjそれぞれのオブジェクト間相関情報であってもよい。ここで、微細構造のオブジェクト特有サイド情報
Figure 0006289613
は、オブジェクト特有時間/周波数分解能TFRiに応じて、微細構造の時間スロットηと微細構造の(ハイブリッド)サブバンドκを用いて、ある時間/周波数グリッド上で定義される。この点については以下に図12の文脈の中で説明する。ここでは、少なくとも3つの基本的な場合が識別され得る。
(a)オブジェクト特有時間/周波数分解能TFRiは、QMF時間スロット及び(ハイブリッド)サブバンドの粒度に対応する。この場合、η=nであり、κ=kである。
(b)オブジェクト特有時間/周波数分解能情報TFRIiは、スペクトルズーム変換が時間/周波数領域R(tR,fR)又はその一部分の中で実行されるべきであると示している。この場合、各(ハイブリッド)サブバンドkは、2つ以上の微細構造の(ハイブリッド)サブバンドκkk+1,…へとサブ分割され、そのためスペクトル分解能が増大する。換言すれば、微細構造の(ハイブリッド)サブバンドκkk+1,…は、オリジナル(ハイブリッド)サブバンドの小数部(fractions)である。その代わり、時間分解能は時間/周波数不確実性のために低下する。そのため、微細構造の時間スロットηは、2つ以上の時間スロットn,n+1,…を含む。
(c)オブジェクト特有時間/周波数分解能情報TFRIiは、時間的ズーム変換が時間/周波数領域R(tR,fR)又はその一部分の中で実行されるべきであると示している。この場合、各時間スロットnは、2つ以上の更に微細構造の時間スロットηnn+1…へとサブ分割されて、その時間分解能が増大する。換言すれば、微細構造の時間スロットηnn+1…は時間スロットnの小数部である。その代わり、スペクトル分解能は時間/周波数不確実性のために低下する。そのため、微細構造の(ハイブリッド)サブバンドκは2つ以上の(ハイブリッド)サブバンドk,k+1,…を含む。
サイド情報は、考慮対象の時間/周波数領域R(tR,fR)内の少なくとも1つのオーディオオブジェクトsiについて、粗いオブジェクト特有サイド情報OLDi,IOCij及び/又は絶対エネルギーレベルNRGiを更に含んでもよい。その粗いオブジェクト特有サイド情報OLDi,IOCij及び/又はNRGiは、少なくとも1つの時間/周波数領域R(tR,fR)内において一定である。
図10は、1つの時間/周波数タイルR(tR,fR)内におけるH個の全てのt/f表現内のN個の全てのオーディオオブジェクトについてのサイド情報を受信しかつ処理するよう構成された、オーディオ復号器の概略的ブロック図を示す。オーディオオブジェクトの個数Nとt/f表現の個数Hとに依存して、t/f領域R(tR,fR)当りの伝送され又は記憶されるべきサイド情報の量は非常に大きくなる可能性がある。そのため、図10に示す概念は、少数のオーディオオブジェクトと異なるt/f表現とを有するシナリオのために使用されると想定される。とは言え、図10に示す実例は、異なるオーディオオブジェクトについて異なるオブジェクト特有t/f表現を使用する原理の幾つかに係る示唆を提供している。
要約すると、図10に示す実施形態に従えば、関係するH個の全てのt/f表現について、パラメータ(特にOLD及びIOC)の全セットが決定され且つ伝送/記憶される。加えて、サイド情報は、各オーディオオブジェクトについて、どの特定のt/f表現の中でこのオーディオオブジェクトが抽出/合成されるべきかを指示する。オーディオ復号器の中では、全てのt/f表現h内におけるオブジェクト再構築
Figure 0006289613
が実行される。次に、オーディオオブジェクト及び関係するタイルに関してサイド情報内で信号伝達された特有t/f表現(単数又は複数)を使用して生成されていた、それらオブジェクト特有のタイル又はt/f表現から、時間及び周波数にわたって最終的なオーディオオブジェクトが組み立てられる。
ダウンミックス信号Xは、複数のオブジェクト分離部1201〜120Hに対して供給される。オブジェクト分離部1201〜120Hの各々は、1つの特有t/f表現のための分離作業を実行するよう構成されている。この目的で、各オブジェクト分離部1201〜120Hは、そのオブジェクト分離部が関連する特有t/f表現におけるN個の異なるオーディオオブジェクトs1〜sNのサイド情報を更に受信する。図10は、図示する目的だけのために複数のH個のオブジェクト分離部を示していることに注意されたい。代替的な実例において、t/f領域R(tR,fR)当りのH個の分離作業は、より少数のオブジェクト分離部により又は単一のオブジェクト分離部によっても実行され得る。更なる可能な実施形態によれば、その分離作業は、多目的プロセッサ又はマルチコアプロセッサ上で異なる手順として実行されてもよい。その分離作業の幾つかは、対応するt/f表現がどれだけ細密かに依存して、他よりも演算的に集中的となる。各t/f領域R(tR,fR)について、サイド情報のN×H個のセットがオーディオ復号器に対して提供される。
オブジェクト分離部1201〜120Hは、N×H個の推定された分離済みオーディオオブジェクト
Figure 0006289613
を提供する。これらオブジェクトは、推定された分離済みオーディオオブジェクト
Figure 0006289613
を通常のt/f表現にするために(既にそうでない場合)、任意選択的なt/f分解能変換器130へと入力されてもよい。典型的には、通常のt/f分解能又は表現とは、フィルタバンク又はオーディオ信号の全般的な処理が基礎とする変換の真のt/f分解能であってもよく、即ち、MPEG SAOCの場合、通常の分解能はQMF時間スロット及び(ハイブリッド)サブバンドの粒度である。説明を目的として、推定されたオーディオオブジェクトは行列140内に一時的に記憶されると想定されてもよい。実際の構成においては、後に使用されないであろう推定された分離済みオーディオオブジェクトは、即座に廃棄されてもよく、又は最初から計算されなくてもよい。行列140の各行は、同じオーディオオブジェクトのH個の異なる推定、即ち、H個の異なるt/f表現に基づいて決定された推定された分離済みオーディオオブジェクトを含む。行列140の中央部分がグリッドを用いて概略的に示されている。各行列要素
Figure 0006289613
は、推定された分離済みオーディオオブジェクトのオーディオ信号に対応する。換言すれば、各行列要素は、目標t/f領域R(tR,fR)内の複数の時間スロット/サブバンドのサンプル(例えば図11の実施例においては、7個の時間スロット×3個のサブバンド=21個の時間スロット/サブバンドのサンプル)を含む。
オーディオ復号器は更に、異なるオーディオオブジェクト及び現時点のt/f領域R(tR,fR)に関するオブジェクト特有時間/周波数分解能情報TFRI1〜TFRINを受信するよう構成されている。各オーディオオブジェクトiについて、オブジェクト特有時間/周波数分解能情報TFRIiは、オリジナル・オーディオオブジェクトを近似的に復元するために、推定された分離済みオーディオオブジェクト
Figure 0006289613
のうちのどれが使用されるべきかを示している。オブジェクト特有時間/周波数分解能情報は、典型的には符号器によって決定されており、サイド情報の一部として復号器へと供給されている。図10において、行列140内の破線のボックスと×印とは、各オーディオオブジェクトについてどのt/f表現が選択されたのかを示している。その選択は、オブジェクト特有時間/周波数分解能情報TFRI1…TFRINを受信する選択部112によって行われる。
選択部112は、N個の選択されたオーディオオブジェクト信号を出力し、これら信号は更なる処理を受けてもよい。例えば、N個の選択されたオーディオオブジェクト信号はレンダラー150へと供給されてもよく、そのレンダラー150は、選択されたオーディオオブジェクト信号を利用可能なラウドスピーカ設定、例えばステレオ又は5.1ラウドスピーカ設定へとレンダリングするよう構成されている。この目的で、レンダラー150は、推定された分離済みオーディオオブジェクトのオーディオ信号が利用可能なラウドスピーカへとどのように分配されるべきかを記述する、プリセットレンダリング情報及び/又はユーザーレンダリング情報を受信してもよい。レンダラー150は任意選択的であり、選択部112の出力における推定された分離済みオーディオオブジェクト
Figure 0006289613
は、直接的に使用されかつ処理されてもよい。他の実施形態では、レンダラー150は、「ソロモード」又は「カラオケモード」のような特殊な設定へとセットされてもよい。ソロモードにおいては、出力信号へとレンダリングされるべく単一の推定されたオーディオオブジェクトが選択される。カラオケモードにおいては、1つの推定されたオーディオオブジェクトを除く全てが出力信号へとレンダリングされるべく選択される。典型的には、リードボーカルのパートがレンダリングされず、伴奏のパートがレンダリングされる。両方のモードでは、小さなクロストークでさえ知覚可能であるため、高い分離性能が求められる。
図11は、オーディオオブジェクトiに関する微細構造のサイド情報
Figure 0006289613
及び粗いサイド情報がどのように編成されるかを概略的に示す。図11の上部分は、時間スロット(典型的には表記上、及び特にオーディオコーディング関連のISO/IEC標準において、インデックスnにより示される)と、(ハイブリッド)サブバンド(典型的には表記上、インデックスkにより示される)と、に応じてサンプリングされた時間/周波数ドメインの一部を示している。その時間/周波数ドメインはまた、異なる時間/周波数領域へと分割される(図11内では太い破線によって図示されている)。典型的には、1つのt/f領域は、複数の時間スロット/サブバンドのサンプルを含む。1つのt/f領域R(tR,fR)は、他のt/f領域のための代表例としての役割を果たすであろう。例示した考慮対象のt/f領域R(tR,fR)は、7個の時間スロットn〜n+6と3個の(ハイブリッド)サブバンドk〜k+2にわたって延びており、従って21個の時間スロット/サブバンドのサンプルを含む。次に、2つの異なるオーディオオブジェクトi及びjを想定する。オーディオオブジェクトiは、t/f領域R(tR,fR)内において実質的に調性の特徴を持っていてもよく、他方、オーディオオブジェクトjは、t/f領域R(tR,fR)内において実質的に過渡の特徴を持っていてもよい。オーディオオブジェクトi及びjのこれらの異なる特徴をより適切に表現するために、t/f領域R(tR,fR)は、オーディオオブジェクトiについてはスペクトル方向に、オーディオオブジェクトjについては時間方向に、サブ分割されてもよい。t/f領域は、t/f表現ドメインの中で必ずしも同一又は均一に分布している必要はないが、オーディオオブジェクトの必要項目に応じてサイズ、位置及び分布において適応され得るという点に注意されたい。換言すれば、ダウンミックス信号Xは、時間/周波数ドメインにおいて複数の時間スロット及び複数の(ハイブリッド)サブバンドへとサンプリングされる。t/f領域R(tR,fR)は、ダウンミックス信号Xの少なくとも2つのサンプルにわたって延びている。オブジェクト特有時間/周波数分解能TFRhは、時間/周波数領域R(tR,fR)よりも細密である。
オーディオ符号器側でオーディオオブジェクトiについてのサイド情報を決定する際に、オーディオ符号器はそのオーディオオブジェクトiをt/f領域R(tR,fR)内で分析し、粗いサイド情報と微細構造のサイド情報とを決定する。粗いサイド情報は、とりわけSAOC標準ISO/IEC23003−2の中で定義されている、オブジェクトレベル差情報OLDi、オブジェクト間共分散IOCij及び/又は絶対エネルギーレベルNRGiであってもよい。粗いサイド情報は、t/f領域ベースで定義されており、現存のSAOC復号器がこの種のサイド情報を使用することから、典型的には後方互換性を提供する。オブジェクトiについての微細構造のオブジェクト特有サイド情報
Figure 0006289613
は、オーディオオブジェクトiのエネルギーがどのように3つのスペクトルサブ領域間に配分されるかを示す3個の更なる値を提供する。図示されたケースでは、3つのスペクトルサブ領域の各々が1つの(ハイブリッド)サブバンドに対応しているが、他の配分もまた可能である。1つのスペクトルサブ領域を他のスペクトルサブ領域よりも小さくして、より小さなスペクトルサブバンドにおいて使用可能な特に細密なスペクトル分解能を得ることさえも、視野に入り得る。同様に、オーディオオブジェクトjのコンテンツをt/f領域R(tR,fR)内でより適切に表現するために、同じt/f領域R(tR,fR)が複数の時間サブ領域へとサブ分割されてもよい。
微細構造のオブジェクト特有サイド情報
Figure 0006289613
は、粗いオブジェクト特有サイド情報(例えばOLDi、IOCij及び/又はNRGi)と少なくとも1つのオーディオオブジェクトsiとの差を記述してもよい。
図11の下部分は、オーディオオブジェクトi及びjについての微細構造のサイド情報に起因して、推定された共分散行列Eがt/f領域R(tR,fR)にわたって変化することを示している。オブジェクト分離作業において使用される他の行列又は値もまた、t/f領域R(tR,fR)内での変化の影響を受ける。共分散行列E(及び他の行列又は値)の変化は、オブジェクト分離部120によって考慮されなければならない。図示されたケースでは、t/f領域R(tR,fR)の各時間スロット/サブバンドのサンプルについて、異なる共分散行列Eが決定される。複数のオーディオオブジェクトの内のただ1つだけがそれ(例えばオブジェクトi)に関連付けられた細密なスペクトル構造を有する場合、共分散行列Eは、3つのスペクトルサブ領域の各1つの中では一定となるであろう(ここでは3個の(ハイブリッド)サブバンドの各1つの中では一定となるが、一般的に他のスペクトルサブ領域でも同様に可能である)。
オブジェクト分離部120は、少なくとも1つのオーディオオブジェクトsi及び少なくとも1つの更なるオーディオオブジェクトsjの要素
Figure 0006289613
を有する推定された共分散行列En,kを、次式に従って決定するよう構成されてもよい。
[数13]
Figure 0006289613
ここで、
Figure 0006289613
は時間スロットn及び(ハイブリッド)サブバンドkに関するオーディオオブジェクトi及びjの推定された共分散であり、
Figure 0006289613
は時間スロットn及び(ハイブリッド)サブバンドkに関するオーディオオブジェクトi及びjのオブジェクト特有サイド情報であり、
Figure 0006289613
は時間スロットn及び(ハイブリッド)サブバンドkに関するオーディオオブジェクトi及びjのオブジェクト間相関情報である。
Figure 0006289613
の少なくとも1つは、オブジェクト特有時間/周波数分解能情報TFRIi,TFRIjによってそれぞれ示されたオーディオオブジェクトi又はjについてのオブジェクト特有時間/周波数分解能TFRhに応じて、時間/周波数領域R(tR,fR)内で変化する。オブジェクト分離部120は更に、上述した方法で、推定された共分散行列En,kを使用して、ダウンミックス信号Xから少なくとも1つのオーディオオブジェクトsiを分離するよう構成されてもよい。
例えば後続のズーム変換を用いて、スペクトル又は時間的分解能が基礎となる変換の分解能から増大させられる場合、上述した手法に対する代替的手法が考慮されなければならない。そのような場合、オブジェクト共分散行列の推定は、ズームされたドメインで実行される必要があり、オブジェクト再構築もまたズームされたドメインで実行される。次に、再構築結果はオリジナル変換のドメイン、例えば(ハイブリッド)QMFへと逆変換されることができ、最終的再構築へのタイルのインターリービングはこのドメインで行われる。原理的にその計算は、追加的変換を除いて、異なるパラメータ・タイリングを利用する場合と同様に行われる。
図12は、スペクトル軸におけるズームの例を用いたズーム変換、ズームされたドメインでの処理、及び逆ズーム変換を示している。ここでは、時間スロットnと(ハイブリッド)サブバンドkとによって定義されたダウンミックス信号のt/f分解能における、ある時間/周波数領域R(tR,fR)内のダウンミックスについて考察する。図12に示された実例において、時間/周波数領域R(tR,fR)は4個の時間スロットn〜n+3と1つのサブバンドkとを有する。ズーム変換は、信号時間/周波数変換ユニット115によって実行されてもよい。ズーム変換は、時間ズーム変換でもよく、又は図12に示すように、スペクトルズーム変換でもよい。スペクトルズーム変換は、DFT,STFT,QMFベースの分析フィルタバンクなどによって実行されてもよい。時間ズーム変換は、逆DFT,逆STFT,逆QMFベースの合成フィルタバンクなどによって実行されてもよい。図12の実例において、ダウンミックス信号Xは、時間スロットnと(ハイブリッド)サブバンドkとによって定義されるダウンミックス信号時間/周波数表現から、ただ1つのオブジェクト特有時間スロットηと4個のオブジェクト特有(ハイブリッド)サブバンドκ〜κ+3とにわたるスペクトル的にズームされたt/f表現へと変換される。従って、時間/周波数領域R(tR,fR)内のダウンミックス信号のスペクトル分解能は、時間分解能を犠牲にして、4倍に増大されている。
この処理は、オブジェクト分離部121によってオブジェクト特有時間/周波数分解能TFRhで実行され、このオブジェクト分離部121はまた、少なくとも1つのオーディオオブジェクトのサイド情報をオブジェクト特有時間/周波数分解能TFRhで受信する。図12の実例において、オーディオオブジェクトiは、オブジェクト特有時間/周波数分解能TFRhに合致する、即ち1つのオブジェクト特有時間スロットη及び4個のオブジェクト特有(ハイブリッド)サブバンドκ〜κ+3に合致する時間/周波数領域R(tR,fR)内で、サイド情報により定義されている。説明上、2つの更なるオーディオオブジェクトi+1及びi+2についてのサイド情報も、また図12内に概略的に示されている。オーディオオブジェクトi+1は、ダウンミックス信号の時間/周波数分解能を有するサイド情報により定義される。オーディオオブジェクトi+2は、時間/周波数領域R(tR,fR)内に2個のオブジェクト特有時間スロット及び2個のオブジェクト特有(ハイブリッド)サブバンドを有するサイド情報により定義される。オーディオオブジェクトi+1のために、オブジェクト分離部121は、時間/周波数領域R(tR,fR)内の粗いサイド情報を考慮してもよい。オーディオオブジェクトi+2のために、オブジェクト分離部121は、2つの異なるハッチングにより示すように、時間/周波数領域R(tR,fR)内での2つのスペクトル平均値を考慮してもよい。一般的なケースでは、対応するオーディオオブジェクトのためのサイド情報は、現時点でオブジェクト分離部121により処理されつつある厳密なオブジェクト特有時間/周波数分解能TFRh内では使用できないが、時間及び/又はスペクトル次元において時間/周波数領域R(tR,fR)よりも微細に離散化されている場合には、複数のスペクトル平均値及び/又は複数の時間平均値がオブジェクト分離部121によって考慮されてもよい。このようにして、オブジェクト分離部121は、現時点でオブジェクト分離部121により処理されているオブジェクト特有時間/周波数分解能TFRhと必ずしも同等に微細とは言えなくても、粗いサイド情報(例えばOLD、IOC及び/又はNRG)と比べてより微細に離散化されている、オブジェクト特有サイド情報の有用性から利益を得る。
オブジェクト分離部121は、時間/周波数領域R(tR,fR)について少なくとも1つの抽出されたオーディオオブジェクト
Figure 0006289613
を、オブジェクト特有時間/周波数分解能(ズームt/f分解能)で出力する。次に、少なくとも1つの抽出されたオーディオオブジェクト
Figure 0006289613
は逆ズーム変換器132により逆ズーム変換され、R(tR,fR)において抽出されたオーディオオブジェクト
Figure 0006289613
を、ダウンミックス信号の時間/周波数分解能で、又は他の所望の時間/周波数分解能で取得する。R(tR,fR)において抽出されたオーディオオブジェクト
Figure 0006289613
は次に他の時間/周波数領域、例えばR(tR-1,fR-1),R(tR-1,fR),…R(tR+1,fR+1)で抽出されたオーディオオブジェクト
Figure 0006289613
と結合され、抽出されたオーディオオブジェクト
Figure 0006289613
が組み立てられる。
対応する実施形態によれば、オーディオ復号器は、時間/周波数領域R(tR,fR)内のダウンミックス信号Xを、ダウンミックス信号の時間/周波数分解能から少なくとも1つのオーディオオブジェクトsiの少なくともオブジェクト特有時間/周波数分解能TFRhへと変換して、再変換されたダウンミックス信号Xη,κを取得する、ダウンミックス信号時間/周波数変換器115を含んでもよい。ダウンミックス信号時間/周波数分解能は、ダウンミックス時間スロットn及びダウンミックス(ハイブリッド)サブバンドkに関連している。オブジェクト特有時間/周波数分解能TFRhは、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関連している。オブジェクト特有時間スロットηは、ダウンミックス時間/周波数分解能のダウンミックス時間スロットnと比べてより微細か又はより粗くてもよい。同様に、オブジェクト特有(ハイブリッド)サブバンドκは、ダウンミックス時間/周波数分解能のダウンミックス(ハイブリッド)サブバンドと比べてより微細か又はより粗くてもよい。時間/周波数表現の不確実性原理に関連して上述したように、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた真である。オーディオ復号器は、時間/周波数領域R(tR,fR)内の少なくとも1つのオーディオオブジェクトsiを、オブジェクト特有時間/周波数分解能TFRhからダウンミックス信号時間/周波数分解能へと時間/周波数変換し戻す、逆時間/周波数変換器132を更に含んでもよい。オブジェクト分離部121は、ダウンミックス信号 η,κ から少なくとも1つのオーディオオブジェクトsiを、オブジェクト特有時間/周波数分解能TFRhにおいて分離するよう構成されている。
ズームされたドメインにおいて、推定された共分散行列Eη,κは、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関して定義されている。少なくとも1つのオーディオオブジェクトsiと少なくとも1つの更なるオーディオオブジェクトsjとの推定された共分散行列の要素について上述した式は、ズームされたドメインにおいて次式で表すことができる。
[数14]
Figure 0006289613
ここで、
Figure 0006289613
は、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関するオーディオオブジェクトi及びjの推定された共分散行列であり、
Figure 0006289613
は、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関するオーディオオブジェクトi及びjのオブジェクト特有サイド情報であり、
Figure 0006289613
は、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関するオーディオオブジェクトi及びjのそれぞれのオブジェクト間相関情報である。
上述したように、更なるオーディオオブジェクトjは、オーディオオブジェクトiのオブジェクト特有時間/周波数分解能TFRhを有するサイド情報によっては定義されない可能性があり、そのため、パラメータ
Figure 0006289613
がオブジェクト特有時間/周波数分解能TFRhにおいて利用可能でない又は決定できない場合もあり得る。この場合、R(tR,fR)内のオーディオオブジェクトjの粗いサイド情報、時間的に平均化された値、又はスペクトル的に平均化された値が、パラメータ
Figure 0006289613
を時間/周波数領域R(tR,fR)内又はそのサブ領域内において近似するために、使用されてもよい。
符号器側においても、微細構造のサイド情報が典型的に考慮されるべきである。実施形態に係るオーディオ符号器において、サイド情報決定部(t/f−SIE)55−1…55−Hは、微細構造のオブジェクト特有サイド情報
Figure 0006289613
と粗いオブジェクト特有サイド情報OLDiとを、第1サイド情報及び第2サイド情報の少なくとも1つの一部として提供するよう更に構成されてもよい。粗いオブジェクト特有サイド情報OLDiは、少なくとも1つの時間/周波数領域R(tR,fR)内で一定である。微細構造のオブジェクト特有サイド情報
Figure 0006289613
は、粗いオブジェクト特有サイド情報OLDiと少なくとも1つのオーディオオブジェクトsiとの差を記述してもよい。オブジェクト間相関関係IOCi,j及び
Figure 0006289613
は、他のパラメトリックサイド情報と同様に、アナログ方式で処理されてもよい。
図13は、ダウンミックス信号Xとサイド情報PSIとからなるマルチオブジェクト・オーディオ信号を復号化する方法の概略的なフロー図を示す。サイド情報は、少なくとも1つの時間/周波数領域R(tR,fR)における少なくとも1つのオーディオオブジェクトsiについてのオブジェクト特有サイド情報PSIiと、その少なくとも1つの時間/周波数領域R(tR,fR)における少なくとも1つのオーディオオブジェクトsiについてのオブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能TFRhを示すオブジェクト特有時間/周波数分解能情報TFRIiと、を含む。この方法は、少なくとも1つのオーディオオブジェクトsiについて、サイド情報PSIからオブジェクト特有時間/周波数分解能情報TFRIiを決定するステップ1302を含む。この方法はさらに、オブジェクト特有時間/周波数分解能TFRIiに応じたオブジェクト特有サイド情報を使用して、ダウンミックス信号Xから少なくとも1つのオーディオオブジェクトsiを分離するステップ1304を含む。
図14は、複数のオーディオオブジェクト信号siを1つのダウンミックスX及びサイド情報PSIへと符号化する方法の更なる実施形態に係る概略的なフロー図を示す。その符号化の方法は、ステップ1402において、複数のオーディオオブジェクト信号siを少なくとも第1の複数の対応する変換形態s1,1(t/f)…sN,1(t/f)へと変換することを含む。この目的で、第1の時間/周波数分解能TFR1が使用される。複数のオーディオオブジェクト信号siはまた、第2の時間/周波数離散化TFR2を使用して、少なくとも第2の複数の対応する変換形態s1,2(t/f)…sN,2(t/f)へと変換される。ステップ1404において、少なくとも、第1の複数の対応する変換形態s1,1(t/f)…sN,1(t/f)についての第1サイド情報と、第2の複数の対応する変換形態s1,2(t/f)…sN,2(t/f)についての第2サイド情報と、が決定される。第1及び第2のサイド情報は、第1及び第2の時間/周波数分解能TFR1及びTFR2のそれぞれにおける複数のオーディオオブジェクト信号siの互いの関係を、1つの時間/周波数領域R(tR,fR)において示している。この方法は更に、各オーディオオブジェクト信号siについて、第1及び第2のサイド情報からある適性基準に基づいて各1つのオブジェクト特有サイド情報を選択するステップ1406を含み、その適性基準は、オーディオオブジェクト信号siを時間/周波数ドメインで表現するための少なくとも第1又は第2の時間/周波数分解能のある適性を示しており、そのオブジェクト特有サイド情報はサイド情報PSIの中に導入される。
SAOCとの後方互換性
提案された解決策は知覚的オーディオ品質を良好に改善するが、これは可能性としては、完全に復号器−互換性を持つ方法で実現できる。t/f領域R(tR,fR)を現状のSAOC内のt/fグルーピングに対して調和するように定義することで、現存する標準SAOC復号器は、PSIの後方互換性のある部分を復号化でき、粗いt/f分解能レベルでオブジェクトの再構築を生成できる。追加された情報が強化されたSAOC復号器によって使用される場合、再構築の知覚的品質はかなり向上する。各オーディオオブジェクトについて、この追加的サイド情報は、オブジェクトを推定するためにどの個別のt/f表現が使用されるべきかという情報と、選択されたt/f表現に基づくオブジェクトの微細構造の記述と、を含んでいる。
加えて、強化されたSAOC復号器が制限された資源上で操作している場合、その強化された部分は無視されることができ、低い演算量だけを必要としながら基本的な品質の再構築を得ることもできる。
本発明の処理に係るアプリケーションの分野
オブジェクト特有t/f表現とそれに関連する復号器への信号伝達は、如何なるSAOCスキームに対しても適用できる。それは、現在及び将来の、如何なるオーディオフォーマットとも組み合わせることができる。その概念は、SAOCアプリケーションにおいて、オーディオオブジェクトのパラメトリック推定のための個別的なt/f分解能のオーディオオブジェクト適応型の選択がもたらす、強化された知覚的オーディオオブジェクト推定を可能にする。
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全てが、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路のようなハードウエア装置によって(又は使用して)実行されてもよい。幾つかの実施形態では、最も重要な方法ステップの1つ又は複数がそれら装置によって実行されてもよい。
本発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ読み取り可能であってもよい。
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。そのデータキャリア、デジタル記憶媒体、又は記録された媒体は、典型的に有形及び/又は非一時的である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

Claims (14)

  1. ダウンミックス信号(X)とサイド情報(PSI)とからなるマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器であって、前記サイド情報は、少なくとも1つの時間/周波数領域(R(tR,fR))における少なくとも1つのオーディオオブジェクト(si)についてのオブジェクト特有サイド情報(PSIi)と、前記少なくとも1つの時間/周波数領域(R(tR,fR))における少なくとも1つのオーディオオブジェクト(si)についての前記オブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能(TFRh)を示すオブジェクト特有時間/周波数分解能情報(TFRIi)と、を含み、
    前記オーディオ復号器は、
    前記少なくとも1つのオーディオオブジェクト(si)について、前記サイド情報(PSI)から前記オブジェクト特有時間/周波数分解能情報(TFRIi)を決定するよう構成されたオブジェクト特有時間/周波数分解能決定部(110)と、
    前記オブジェクト特有時間/周波数分解能情報(TFRIi)に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号(X)から前記少なくとも1つのオーディオオブジェクト(si)を分離するよう構成されたオブジェクト分離部(120)と、を含み、
    前記オブジェクト特有サイド情報は、前記少なくとも1つの時間/周波数領域(R(t R ,f R ))における前記少なくとも1つのオーディオオブジェクト(s i )についての第1のオブジェクト特有サイド情報と、前記少なくとも1つの時間/周波数領域(R(t R ,f R ))における前記少なくとも1つのオーディオオブジェクト(s i )についての第2のオブジェクト特有サイド情報とを含み、前記第1のオブジェクト特有サイド情報の時間/周波数分解能は周波数次元において前記第2のオブジェクト特有サイド情報の時間/周波数分解能よりも微細であり、
    前記第2のオブジェクト特有サイド情報は前記少なくとも1つの時間/周波数領域(R(t R ,f R ))内では一定であり、又は
    前記第1のオブジェクト特有サイド情報は、前記第2のオブジェクト特有サイド情報と前記少なくとも1つのオーディオオブジェクト(s i )との差を記述している、オーディオ復号器。
  2. 請求項に記載のオーディオ復号器であって、
    前記ダウンミックス信号(X)は時間/周波数ドメインで複数の時間スロット及び複数の(ハイブリッド)サブバンドへとサンプリングされ、前記時間/周波数領域(R(tR,fR))は前記ダウンミックス信号(X)の少なくとも2つのサンプルに亘って延びており、前記オブジェクト特有時間/周波数分解能(TFRh)は両方の次元の少なくとも一方において前記時間/周波数領域(R(tR,fR))より微細である、オーディオ復号器。
  3. 請求項1又は2に記載のオーディオ復号器であって、
    前記オブジェクト分離部(120)は、次式にしたがって前記少なくとも1つのオーディオオブジェクト(si)と少なくとも1つの追加のオーディオオブジェクト(sj)の要素ei,j η,κを持つ推定された共分散行列(Eη,κ)を決定するよう構成され、
    Figure 0006289613
    ここで、ei,j η,κオブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとについてオーディオオブジェクトiとjの推定された共分散であり、
    fsli η,κ及びfslj η,κオブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとについて前記オーディオオブジェクトiとjの第1のオブジェクト特有サイド情報であり、
    fsci,j η,κは、それぞれオブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとについて前記オーディオオブジェクトiとjのオブジェクト間相関情報であり、
    fsli η,κ、fslj η,κ及びfsci,j η,κの少なくとも1つは、前記オブジェクト特有時間/周波数分解能情報(TFRIi, TFRIj)によって示された前記オーディオオブジェクトi及びjについてのオブジェクト特有時間/周波数分解能(TFRh)に従って、前記時間/周波数領域(R(tR,fR))内で変化し、
    前記オブジェクト分離部(120)はさらに、前記推定された共分散行列(Eη,κ)を使用して、前記ダウンミックス信号(X)から前記少なくとも1つのオーディオオブジェクト(si)を分離するよう構成されている、オーディオ復号器。
  4. 請求項1〜のいずれか1項に記載のオーディオ復号器であって、
    前記時間/周波数領域(R(tR,fR))内の前記ダウンミックス信号(X)を、ダウンミックス信号時間/周波数分解能から前記少なくとも1つのオーディオオブジェクト(si)の少なくとも前記オブジェクト特有時間/周波数分解能(TFRh)へと変換して、変換されたダウンミックス信号を取得するよう構成された、ダウンミックス信号時間/周波数変換部(115)と、
    前記少なくとも1つのオーディオオブジェクト(si)を、前記オブジェクト特有時間/周波数分解能(TFRh)から前記時間/周波数領域(R(t R ,f R ))の時間/周波数分解能又は前記ダウンミックス信号時間/周波数分解能へと時間/周波数変換するよう構成された、逆時間/周波数変換部(132)と、をさらに含み、
    前記オブジェクト分離部(12)は、前記オブジェクト特有時間/周波数分解能(TFRh)において、前記変換されたダウンミックス信号から前記少なくとも1つのオーディオオブジェクト(si)を分離するよう構成されている、オーディオ復号器。
  5. 複数のオーディオオブジェクト(si)をダウンミックス信号(X)及びサイド情報(PSI)へと符号化するオーディオ符号器であって、
    前記複数のオーディオオブジェクト(si)を少なくとも、第1の時間/周波数分解能(TFR1)を使用して第1の複数の対応する変換形態(s1,1(t,f)…sN,1(t,f))へと変換し、かつ第2の時間/周波数分解能(TFR2)を使用して第2の複数の対応する変換形態(s1,2(t,f)…sN,2(t,f))へと変換するよう構成された、時間−周波数変換部と、
    少なくとも、前記第1の複数の対応する変換形態(s1,1(t,f)…sN,1(t,f))についての第1のサイド情報と、前記第2の複数の対応する変換形態(s1,2(t,f)…sN,2(t,f))
    についての第2のサイド情報とを、決定するよう構成されたサイド情報決定部(t/f−SIE)であって、前記第1と第2のサイド情報は、ある時間/周波数領域(R(tR,fR))における前記複数のオーディオオブジェクト(si)の相互関係を前記第1と第2の時間/周波数分解能(TFR1, TFR2)においてそれぞれ示している、サイド情報決定部(t/f−SIE)と、
    前記複数のオーディオオブジェクトの少なくとも1つのオーディオオブジェクト(si)について、少なくとも前記第1と第2のサイド情報からある適性基準に基づいて1つのオブジェクト特有サイド情報を選択するよう構成されたサイド情報選択部(SI−AS)であって、前記適性基準は、前記オーディオオブジェクト(si)を時間/周波数ドメインで表現するための少なくとも前記第1又は第2の時間/周波数分解能の適性を示しており、前記オブジェクト特有サイド情報は前記オーディオ符号器によって出力される前記サイド情報(PSI)の中に導入される、サイド情報選択部と、
    を含むオーディオ符号器。
  6. 請求項に記載のオーディオ符号器であって、前記適性基準はソース推定に基づいており、前記サイド情報選択部(SI−AS)は、
    前記ダウンミックス信号(X)と、前記第1と第2の時間/周波数分解能(TFR1,TFR2)にそれぞれ対応する少なくとも前記第1のサイド情報と前記第2のサイド情報とを使用して、前記複数のオーディオオブジェクト(si)の少なくとも1つの選択されたオーディオオブジェクトを推定するよう構成されたソース推定部であって、少なくとも第1の推定されたオーディオオブジェクト(si,estm1)と第2の推定されたオーディオオブジェクト(si,estm2)とを提供する、ソース推定部と、
    少なくとも前記第1の推定されたオーディオオブジェクト(si,estm1)と前記第2の推定されたオーディオオブジェクト(si,estm2)との品質を査定するよう構成された品質査定部と、
    を含む、オーディオ符号器。
  7. 請求項に記載のオーディオ符号器であって、前記品質査定部は、少なくとも前記第1の推定されたオーディオオブジェクト(si,estm1)と前記第2の推定されたオーディオオブジェクト(si,estm2)との品質を、ソース推定性能尺度としての信号対歪み比(SDR)に基づいて査定するよう構成されており、前記信号対歪み比(SDR)は前記サイド情報(PSI)だけに基づいて決定される、オーディオ符号器。
  8. 請求項5乃至7のいずれか一項に記載のオーディオ符号器であって、前記複数のオーディオオブジェクトの中の前記少なくとも1つのオーディオオブジェクト(si)についての前記適性基準は、少なくとも前記第1の時間/周波数分解能(TFR1)と前記第2の時間/周波数分解能(TFR2)とに応じた前記少なくとも1つのオーディオオブジェクトの2つ以上のt/f分解能表現のスパースネス度に基づいており、前記サイド情報選択部(SI−AS)は、前記少なくとも1つのオーディオオブジェクト(si)の最も粗いt/f表現に関連する少なくとも前記第1と第2のサイド情報の中から前記サイド情報を選択するよう構成されている、オーディオ符号器。
  9. 請求項5乃至8のいずれか一項に記載のオーディオ符号器であって、前記サイド情報決定部(t/f−SIE)はさらに、第1のオブジェクト特有サイド情報(fsli n,k)と第2のオブジェクト特有サイド情報とを、前記第1のサイド情報及び第2のサイド情報の少なくとも1つの一部として提供するよう構成されており、前記第2のオブジェクト特有サイド情報は前記少なくとも1つの時間/周波数領域(R(tR,fR))内で一定である、オーディオ符号器。
  10. 請求項5乃至8のいずれか一項に記載のオーディオ符号器であって、前記サイド情報決定部(t/f−SIE)はさらに、第1のオブジェクト特有サイド情報(fsl i n,k )と第2のオブジェクト特有サイド情報とを、前記第1のサイド情報及び第2のサイド情報の少なくとも1つの一部として提供するよう構成されており、前記第1のオブジェクト特有サイド情報(fsli n,k)は、前記第2のオブジェクト特有サイド情報と前記少なくとも1つのオーディオオブジェクト(si)との差を記述している、オーディオ符号器。
  11. 請求項5乃至10のいずれか一項に記載のオーディオ符号器であって、前記ダウンミックス信号(X)を複数の時間スロット及び複数の(ハイブリッド)サブバンドへと時間/周波数ドメイン内でサンプリングされる表現へと変換するよう構成された、ダウンミックス信号処理部を更に含み、前記時間/周波数領域(R(tR,fR))は前記ダウンミックス信号(X)の少なくとも2つのサンプルにわたって延びており、少なくとも1つのオーディオオブジェクトについて特定されたオブジェクト特有時間/周波数分解能(TFRh)は、前記時間/周波数領域(R(tR,fR))と比べ、両方の次元の少なくとも1つにおいてより微細である、オーディオ符号器。
  12. ダウンミックス信号(X)とサイド情報(PSI)とからなるマルチオブジェクト・オーディオ信号を復号化する方法であって、前記サイド情報は、少なくとも1つの時間/周波数領域(R(tR,fR))における少なくとも1つのオーディオオブジェクト(si)についてのオブジェクト特有サイド情報(PSIi)と、前記少なくとも1つの時間/周波数領域(R(tR,fR))における前記少なくとも1つのオーディオオブジェクト(si)についての前記オブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能(TFRh)を示すオブジェクト特有時間/周波数分解能情報(TFRIi)と、を含み、
    前記方法は、
    前記少なくとも1つのオーディオオブジェクト(si)について、前記サイド情報(PSI)から前記オブジェクト特有時間/周波数分解能情報(TFRIi)を決定するステップと、
    前記オブジェクト特有時間/周波数分解能情報(TFRIi)に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号(X)から前記少なくとも1つのオーディオオブジェクト(si)を分離するステップと、を含み、
    前記オブジェクト特有サイド情報は、前記少なくとも1つの時間/周波数領域(R(t R ,f R ))における前記少なくとも1つのオーディオオブジェクト(s i )についての第1のオブジェクト特有サイド情報と、前記少なくとも1つの時間/周波数領域(R(t R ,f R ))における前記少なくとも1つのオーディオオブジェクト(s i )についての第2のオブジェクト特有サイド情報とを含み、前記第1のオブジェクト特有サイド情報の時間/周波数分解能は周波数次元において前記第2のオブジェクト特有サイド情報の時間/周波数分解能よりも微細であり、
    前記第2のオブジェクト特有サイド情報は前記少なくとも1つの時間/周波数領域(R(t R ,f R ))内では一定であり、又は
    前記第1のオブジェクト特有サイド情報は、前記第2のオブジェクト特有サイド情報と前記少なくとも1つのオーディオオブジェクト(s i )との差を記述している、
    方法。
  13. 複数のオーディオオブジェクト(si)をダウンミックス信号(X)及びサイド情報(PSI)へと符号化する方法であって、
    前記方法は、
    前記複数のオーディオオブジェクト(si)を少なくとも、第1の時間/周波数分解能(TFR1)を使用して第1の複数の対応する変換形態(s1,1(t,f)…sN,1(t,f))へと変換し、かつ第2の時間/周波数分解能(TFR2)を使用して第2の複数の対応する変換形態(s1,2(t,f)…sN,2(t,f))へと変換するステップと、
    少なくとも、前記第1の複数の対応する変換形態(s1,1(t,f)…sN,1(t,f))についての第1のサイド情報と、前記第2の複数の対応する変換形態(s1,2(t,f)…sN,2(t,f))についての第2のサイド情報と、を決定するステップであって、前記第1と第2のサイド情報は、ある時間/周波数領域(R(tR,fR))における前記複数のオーディオオブジェクト(si)の相互関係を前記第1と第2の時間/周波数分解能(TFR1, TFR2)においてそれぞれ示している、ステップと、
    前記複数のオーディオオブジェクトの少なくとも1つのオーディオオブジェクト(si)について、少なくとも前記第1と第2のサイド情報からある適性基準に基づいて1つのオブジェクト特有サイド情報を選択するステップであって、前記適性基準は、前記オーディオオブジェクト(si)を時間/周波数ドメインで表現するための少なくとも前記第1又は第2の時間/周波数分解能の適性を示しており、前記オブジェクト特有サイド情報は前記サイド情報(PSI)の中に導入される、ステップと、
    を含む方法。
  14. コンピュータ上で作動したとき請求項12又は13に記載の方法を実行する、コンピュータプログラム。
JP2016513308A 2013-05-13 2014-05-09 オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離 Active JP6289613B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13167484.8 2013-05-13
EP13167484.8A EP2804176A1 (en) 2013-05-13 2013-05-13 Audio object separation from mixture signal using object-specific time/frequency resolutions
PCT/EP2014/059570 WO2014184115A1 (en) 2013-05-13 2014-05-09 Audio object separation from mixture signal using object-specific time/frequency resolutions

Publications (2)

Publication Number Publication Date
JP2016524721A JP2016524721A (ja) 2016-08-18
JP6289613B2 true JP6289613B2 (ja) 2018-03-07

Family

ID=48444119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016513308A Active JP6289613B2 (ja) 2013-05-13 2014-05-09 オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離

Country Status (17)

Country Link
US (2) US10089990B2 (ja)
EP (2) EP2804176A1 (ja)
JP (1) JP6289613B2 (ja)
KR (1) KR101785187B1 (ja)
CN (1) CN105378832B (ja)
AR (1) AR096257A1 (ja)
AU (2) AU2014267408B2 (ja)
BR (1) BR112015028121B1 (ja)
CA (1) CA2910506C (ja)
HK (1) HK1222253A1 (ja)
MX (1) MX353859B (ja)
MY (1) MY176556A (ja)
RU (1) RU2646375C2 (ja)
SG (1) SG11201509327XA (ja)
TW (1) TWI566237B (ja)
WO (1) WO2014184115A1 (ja)
ZA (1) ZA201509007B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
FR3041465B1 (fr) * 2015-09-17 2017-11-17 Univ Bordeaux Procede et dispositif de formation d'un signal mixe audio, procede et dispositif de separation, et signal correspondant
JP6921832B2 (ja) * 2016-02-03 2021-08-18 ドルビー・インターナショナル・アーベー オーディオ符号化における効率的なフォーマット変換
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN108009182B (zh) * 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
US10777209B1 (en) * 2017-05-01 2020-09-15 Panasonic Intellectual Property Corporation Of America Coding apparatus and coding method
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
BR112021025265A2 (pt) 2019-06-14 2022-03-15 Fraunhofer Ges Forschung Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória
KR20220042165A (ko) * 2019-08-01 2022-04-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 공분산 평활화를 위한 시스템 및 방법
KR20220062621A (ko) * 2019-09-17 2022-05-17 노키아 테크놀로지스 오와이 공간적 오디오 파라미터 인코딩 및 관련 디코딩
EP4229631A2 (en) * 2020-10-13 2023-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007506986A (ja) * 2003-09-17 2007-03-22 北京阜国数字技術有限公司 マルチ解像度ベクトル量子化のオーディオcodec方法及びその装置
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
ES2426917T3 (es) * 2004-04-05 2013-10-25 Koninklijke Philips N.V. Aparato codificador, aparato decodificador, sus métodos y sistema de audio asociado
EP1768107B1 (en) * 2004-07-02 2016-03-09 Panasonic Intellectual Property Corporation of America Audio signal decoding device
RU2376656C1 (ru) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
DE102007040117A1 (de) * 2007-08-24 2009-02-26 Robert Bosch Gmbh Verfahren und Motorsteuereinheit zur Aussetzerkennung bei einem Teilmotorbetrieb
MX2010004220A (es) 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
EP3296992B1 (en) * 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
CN102177426B (zh) 2008-10-08 2014-11-05 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
JP5678048B2 (ja) * 2009-06-24 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
WO2011013381A1 (ja) * 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
AU2010303039B9 (en) * 2009-09-29 2014-10-23 Dolby International Ab Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
EP2883226B1 (en) * 2012-08-10 2016-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for adapting audio information in spatial audio object coding
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions

Also Published As

Publication number Publication date
CA2910506C (en) 2019-10-01
TW201503112A (zh) 2015-01-16
CA2910506A1 (en) 2014-11-20
TWI566237B (zh) 2017-01-11
SG11201509327XA (en) 2015-12-30
KR20160009631A (ko) 2016-01-26
EP2997572A1 (en) 2016-03-23
RU2646375C2 (ru) 2018-03-02
US10089990B2 (en) 2018-10-02
CN105378832B (zh) 2020-07-07
US20190013031A1 (en) 2019-01-10
AU2017208310A1 (en) 2017-10-05
BR112015028121A2 (pt) 2017-07-25
EP2804176A1 (en) 2014-11-19
MY176556A (en) 2020-08-16
US20160064006A1 (en) 2016-03-03
AU2017208310B2 (en) 2019-06-27
MX353859B (es) 2018-01-31
BR112015028121B1 (pt) 2022-05-31
ZA201509007B (en) 2017-11-29
AR096257A1 (es) 2015-12-16
AU2014267408B2 (en) 2017-08-10
RU2015153218A (ru) 2017-06-14
EP2997572B1 (en) 2023-01-04
HK1222253A1 (zh) 2017-06-23
JP2016524721A (ja) 2016-08-18
MX2015015690A (es) 2016-03-04
AU2014267408A1 (en) 2015-12-03
AU2017208310C1 (en) 2021-09-16
KR101785187B1 (ko) 2017-10-12
WO2014184115A1 (en) 2014-11-20
CN105378832A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
JP6289613B2 (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
KR101685860B1 (ko) 공간 오디오 객체 코딩에 있어서 신호 종속적인 줌 변환을 위한 인코더, 디코더 및 방법들
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
AU2021221466B2 (en) Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
JP6141980B2 (ja) 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170131

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180206

R150 Certificate of patent or registration of utility model

Ref document number: 6289613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250