JP2011501544A - ダウンミックスを用いたオーディオコーディング - Google Patents

ダウンミックスを用いたオーディオコーディング Download PDF

Info

Publication number
JP2011501544A
JP2011501544A JP2010529292A JP2010529292A JP2011501544A JP 2011501544 A JP2011501544 A JP 2011501544A JP 2010529292 A JP2010529292 A JP 2010529292A JP 2010529292 A JP2010529292 A JP 2010529292A JP 2011501544 A JP2011501544 A JP 2011501544A
Authority
JP
Japan
Prior art keywords
signal
audio signal
audio
downmix
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010529292A
Other languages
English (en)
Other versions
JP5260665B2 (ja
Inventor
オリヴァー ヘルムート
ユールゲン ヘレ
レオニード テレンチエフ
アンドレーアス ヘルツァー
コルネリア ファルヒ
ジョーハン ヒルペアト
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40149576&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2011501544(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011501544A publication Critical patent/JP2011501544A/ja
Application granted granted Critical
Publication of JP5260665B2 publication Critical patent/JP5260665B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

第1タイプのオーディオ信号とエンコードされた第2のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダが記載される。マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、副情報は、第1の所定の時間/周波数分解能(42)における第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを含む。オーディオデコーダは、レベル情報(60)に基づいて予測係数(64)を演算する手段(52)と、第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、予測係数(64)と残余信号(62)に基づいてダウンミックス信号(56)をアップミックスする手段とを備える。
【選択図】図3

Description

本願は、信号のダウンミックスを用いたオーディオコーディングに関する。
多くのオーディオコーディングアルゴリズムは、1つのチャンネルのオーディオデータ、すなわちモノラルのオーディオデータを効果的にエンコードまたは圧縮するために提案されていた。音響心理学を用いて、オーディオサンプルは、適切に基準化され、量子化され、または、例えばPCMコード化されたオーディオ信号から不適切なものを除去するために、零に設定されることさえある。冗長性の除去も実行される。
更なるステップとして、ステレオオーディオ信号の左右のチャンネル間の類似性は、ステレオオーディオ信号を効果的にエンコード/圧縮するために利用されていた。
しかしながら、来るべきアプリケーションは、オーディオコーディングアルゴリズムに関して更なる要求を提起する。例えば、遠隔会議、コンピュータゲーム、音楽パフォーマンス、その他において、部分的にまたはさらには完全に無相関であるいくつかのオーディオ信号は、並列に送信されなければならない。低ビットレートの伝送アプリケーションに対して互換性を持つように、これらのオーディオ信号をエンコードするのに必要なビットレートを十分に低く保つため、近年、多重の入力オーディオ信号を、ステレオまたはさらにはモノラルのダウンミックス信号のようなダウンミックス信号にダウンミックスするオーディオコーデックが提案されている。例えば、MPEGサラウンドスタンダードは、当該スタンダードによって規定された方法で、入力チャンネルをダウンミックス信号にダウンミックスする。ダウンミックスは、2つの信号を1つにおよび3つの信号を2つに、それぞれダウンミックスするためのいわゆるOTT-1およびTTT-1ボックスを用いて実行される。3つを超える信号をダウンミックスするためには、これらのボックスの階層構造が用いられる。各OTT-1ボックスは、モノラルのダウンミックス信号の他に、2つの入力チャンネルの間のチャンネルレベル差、並びに、2つの入力チャンネルの間の干渉性または相互相関を表現するチャンネル間干渉性/相互相関パラメータを出力する。前記パラメータは、MPEGサラウンドデータストリーム内で、MPEGサラウンドコーダのダウンミックス信号と一緒に出力される。同様に、各TTT-1ボックスは、結果として生じたステレオダウンミックス信号から3つの入力チャンネルを復元することを可能にするチャンネル予測係数を送信する。チャンネル予測係数は、また、MPEGサラウンドデータストリーム内の副情報として送信される。MPEGサラウンドデコーダは、送信された副情報を用いてダウンミックス信号をアップミックスし、MPEGサラウンドエンコーダに入力されるオリジナルチャンネルを復元する。
しかしながら、MPEGサラウンドは、残念なことに、多くのアプリケーションによって提起されるすべての要求を満たさない。例えば、MPEGサラウンドデコーダは、MPEGサラウンドエンコーダの入力チャンネルが以前のように復元されるように、MPEGサラウンドエンコーダのダウンミックス信号をアップミックスするために専用される。言い換えれば、MPEGサラウンドデータストリームは、エンコードに用いられたスピーカ構成を用いて再生されるために専用される。
しかしながら、いくつかの意味合いによって、スピーカ構成をデコーダ側で変えることができるならば好都合であろう。
後者の要求に対処するため、空間オーディオオブジェクトコーディング(SAOC)スタンダードが、現在設計されている。各チャンネルは、個々のオブジェクトとみなされ、すべてのオブジェクトがダウンミックス信号にダウンミックスされる。しかしながら、加えて、個々のオブジェクトは、例えば楽器またはボーカルトラックのような、個々の音源をも備えることができる。しかしながら、MPEGサラウンドデコーダと異なり、SAOCデコーダは、任意のスピーカ構成上に個々のオブジェクトを再生するために、ダウンミックス信号を自由に個別にアップミックスする。SAOCデコーダがSAOCデータストリームにエンコードされた個々のオブジェクトを復元することを可能とするために、オブジェクトレベル差と、一緒にステレオ信号(またはマルチチャンネル信号)を形成しているオブジェクトに対するオブジェクト間相互相関パラメータが、SAOCビットストリーム内の副情報として送信される。この他に、SAOCデコーダ/トランスコーダは、どのように個々のオブジェクトがダウンミックス信号にダウンミックスされたかを明らかにする情報を備えている。このように、デコーダ側において、個々のSAOCチャンネルを復元し、ユーザ制御された再現情報を利用することによって、これらの信号を任意のスピーカ構成上に再現することが可能である。
しかしながら、SAOCコーデックは、オーディオオブジェクトを個別に取り扱うために設計されているが、いくつかのアプリケーションは、さらに要求が厳しい。例えば、カラオケアプリケーションは、バックグラウンドオーディオ信号を、フォアグラウンドオーディオ信号または複数のフォアグラウンドオーディオ信号から完全に分離することを必要とする。その逆も同じであり、ソロモードでは、フォアグラウンドオブジェクトは、バックグラウンドオブジェクトから分離されなければならない。しかしながら、個々のオーディオオブジェクトの等しい取り扱いのために、バックグラウンドオブジェクトまたはフォアグラウンドオブジェクトをそれぞれダウンミックス信号から完全に取り除くことは可能でなかった。
このように、本発明の目的は、オーディオ信号のダウンミックス用いて、例えば、カラオケ/ソロモードアプリケーションにおいて、個々のオブジェクトのより良好な分離が達成されるようなオーディオコーデックを提供することである。
この目的は、請求項1に記載のオーディオデコーダ、請求項18に記載のオーディオエンコーダ、請求項20に記載のデコード方法、請求項21に記載のエンコード方法、および請求項23に記載のマルチ‐オーディオ‐オブジェクト信号によって達成される。
本願の好ましい実施形態は、以下の図面を参照して更に詳細に記載される。
本発明の実施形態が実装することのできるSAOCエンコーダ/デコーダ装置のブロック図を示す。 モノラルオーディオ信号のスペクトル表現の図解および例示した図を示す。 本発明の一実施形態によるオーディオデコーダのブロック図を示す。 本発明の一実施形態によるオーディオエンコーダのブロック図を示す。 一比較実施形態として、カラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。 一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。 一比較実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。 一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダのブロック図を示す。 品質測定結果のプロットを示す。 品質測定結果のプロットを示す。 比較の目的のため、カラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。 一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。 更なる実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。 更なる実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオエンコーダ/デコーダ装置のブロック図を示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 本発明の一実施形態によるSOACビットストリームのための可能な構文を反映したテーブルを示す。 一実施形態によるカラオケ/ソロモードアプリケーションのためのオーディオデコーダのブロック図を示す。 残余信号を送信するために費やされるデータ量を信号送信するための可能な構文を反映したテーブルを示す。
本発明の実施形態が以下においてより詳細に記載される前に、SAOCコーデックと、SAOCビットストリームにおいて送信されるSAOCパラメータが、以下の更なる詳細において概説される特定の実施形態の理解を容易にするために、提示される。
図1は、SAOCエンコーダ10とSAOCデコーダ12の一般的装置を示す。SAOCエンコーダ10は、入力としてN個のオブジェクト、すなわちオーディオ信号141〜14Nを受信する。特に、エンコーダ10は、オーディオ信号141〜14Nを受信するダウンミックス装置16を備え、それをダウンミックス信号18にダウンミックスする。図1において、ダウンミックス信号は、ステレオダウンミックス信号として例示される。しかしながら、モノラルダウンミックス信号も、同様に可能である。ステレオダウンミックス信号18のチャンネルは、L0とR0で示され、モノラルダウンミックス信号の場合は、単にL0で示される。SAOCデコーダ12が個々のオブジェクト141〜14Nを復元することを可能とするため、ダウンミックス装置16は、オブジェクトレベル差(OLD)、オブジェクト間相互相関パラメータ(IOC)、ダウンミックスゲイン値(DMG)、およびダウンミックスチャンネルレベル差(DCLD)を含むSAOCパラメータを含んだ副情報を、SAOCデコーダ12に提供する。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されるSAOC出力データストリームを形成する。
SAOCデコーダ12は、オーディオ信号141〜14Nを復元し、SAOCデコーダ12に入力された再現情報26によって規定された再現によって任意のユーザ選択されたチャンネルのセット241〜24M上に再現するために、ダウンミックス信号18ならび副情報20を受信するアップミックス装置22を備える。
オーディオ信号141〜14Nは、例えば時間またはスペクトル領域のような任意のコーディング領域において、ダウンミックス装置16に入力することができる。PCMコード化されたように、オーディオ信号141〜14Nが時間領域でダウンミックス装置16に供給されるケースでは、ダウンミックス装置16は、信号を、特定のフィルタバンクの分解能で、オーディオ信号が異なるスペクトル部分に関連するいくつかのサブバンドで表現されるスペクトル領域に転送させるために、ハイブリッドQMFバンク、すなわち最低周波数バンドに対するナイキストフィルタ拡張を有し、周波数分解能を増大させる複合指数変調されたフィルタのバンクのような、フィルタバンクを用いる。オーディオ信号141〜14Nが既にダウンミックス装置16によって期待される表現である場合は、スペクトル分解を実行する必要はない。
図2は、ちょうど言及されたスペクトル領域のオーディオ信号を示す。ここで判るように、オーディオ信号は、複数のサブバンド信号として表現される。各サブバンド信号301〜30Pは、小さなボックス32によって示される一連のサブバンド値から成る。ここで判るように、サブバンド信号301〜30Pのサブバンド値32は、時間においてお互いに同期しているので、連続的なフィルタバンクタイムスロット34の各々に対して、各サブバンド301〜30Pは厳密な1つのサブバンド値32を備える。周波数軸36で図示されるように、サブバンド信号301〜30Pは、異なる周波数領域に関連しており、時間軸38で図示されるように、フィルタバンクのタイムスロット34は時間において連続的に配列される。
上記概説されたように、ダウンミックス装置16は、入力オーディオ信号141〜14Nから、SAOCパラメータを演算する。ダウンミックス装置16は、この演算を、フィルタバンクタイムスロット34とサブバンド分解によって定義されるオリジナルの時間/周波数分解能と比較して特定の量だけ減少することができる時間/周波数分解能において実行し、この特定の量は、それぞれの構文要素bsFrameLengthおよびbsFreqResによって副情報20の中でデコーダ側に信号送信される。例えば、一群の連続するフィルタバンクタイムスロット34は、フレーム40を形成することができる。言い換えれば、オーディオ信号は、例えば、時間においてオーバーラップする、または、時間において直に隣接するフレームに分割することができる。このケースでは、bsFrameLengthは、パラメータタイムスロット41の数、すなわち、SOACフレーム40においてOLDとIOCのようなSAOCパラメータが演算される時間単位を定義することができ、bsFreqResは、SAOCパラメータが演算される処理周波数バンドの数を定義することができる。この尺度によって、各フレームは、図2において破線42で例示される時間/周波数タイルに分割される。
ダウンミックス装置16は、以下の数式によってSAOCパラメータを算出する。特に、ダウンミックス装置16は、次のように各オブジェクトiに対するオブジェクトレベル差を演算する。
Figure 2011501544
ここで、合計および指標nとkは、それぞれ、すべてのフィルタバンクタイムスロット34と、特定の時間/周波数タイル42に属するすべてのフィルタバンクサブバンド30とを通過する。これにより、オーディオ信号またはオブジェクトiのすべてのサブバンド値xiのエネルギーは合計され、すべてのオブジェクトまたはオーディオ信号の中のそのタイルの最高エネルギーに正規化される。
更に、SAOCダウンミックス装置16は、異なる入力オブジェクト141〜14Nのペアの対応する時間/周波数タイルの類似性尺度を演算することができる。SAOCダウンミックス装置16は、入力オブジェクト141〜14Nのすべてのペアの間の類似性尺度を演算することができるが、ダウンミックス装置16は、類似性尺度の信号送信を抑制するか、または、類似性尺度の演算を一般的なステレオチャンネルの左右のチャンネルを形成するオーディオオブジェクト141〜14Nに限定することもできる。いずれのケースも、類似性尺度は、オブジェクト間相互相関パラメータIOCi,jと呼ばれる。その演算は次の通りである。
Figure 2011501544
ここで、再び、指標nとkは、特定の時間/周波数タイル42に属するすべてのサブバンド値を通り、iとjは、オーディオオブジェクト141〜14Nの特定のペアを表す。
ダウンミックス装置16は、各オブジェクト141〜14Nに適用されるゲイン係数を用いて、オブジェクト141〜14Nをダウンミックスする。すなわち、ゲイン係数Diは、オブジェクトiに適用され、そしてそれにより重み付けられたすべてのオブジェクト141〜14Nは、モノラルのダウンミックス信号を取得するために合計される。図1に例示されるステレオダウンミックス信号のケースでは、ゲイン係数D1,iは、オブジェクトiに適用され、そしてそのようなゲインで増幅されたすべてのオブジェクトは、左のダウンミックスチャンネルL0を取得するために合計され、ゲイン係数D2,iは、オブジェクトiに適用され、そしてそれによりゲイン増幅されたオブジェクトは、右のダウンミックスチャンネルR0を取得するために合計される。
このダウンミックス処方は、ダウンミックスゲインDMGiと、ステレオダウンミックス信号のケースではダウンミックスチャンネルレベル差DCLDiとによって、デコーダ側に信号送信される。
ダウンミックスゲインは、次式によって算出される。
Figure 2011501544
ここで、εは10―9のような小さな数である。
DCLDに対しては、次式を適用する。
Figure 2011501544
通常モードにおいて、ダウンミックス装置16は、それぞれ次式によってダウンミックス信号を生成する。
Figure 2011501544
このように、上述した計算式において、パラメータOLDとIOCはオーディオ信号の関数であり、パラメータDMGとDCLDはDの関数である。ところで、Dは時間において変化することができることに注意されたい。
このように、通常モードにおいて、ダウンミックス装置16は、すべてのオブジェクト141〜14Nを、優先的取扱いなしで、すなわちすべてのオブジェクト141〜14Nを等しく取り扱って混合する。
アップミックス装置22は、ダウンミックス処理の逆変換と、1つの演算ステップにおいてマトリクスAによって表現される再現情報の実施態様を実行する。すなわち、
Figure 2011501544
ここで、マトリクスEは、パラメータOLDとIOCの関数である。
言い換えれば、通常モードにおいて、オブジェクト141〜14Nの、BGOすなわちバックグラウンドオブジェクト、またはFGOすなわちフォアグラウンドオブジェクトへのいかなる分類も実行されない。どのオブジェクトがアップミックス装置22の出力で提供されるかの情報は、再現マトリクスAによって提供される。例えば、指標1のオブジェクトがステレオバックグラウンドオブジェクトの左チャンネル、指標2のオブジェクトがその右チャンネル、指標3のオブジェクトがフォアグラウンドオブジェクトであったとき、再現マトリクスAは、
Figure 2011501544
となり、カラオケタイプの出力信号を生成する。
しかしながら、すでに上記で示されたように、SAOCコーデックのこの通常モードを用いたBGOとFGOの送信は、受け入れ可能な結果を達成できない。
図3と図4は、まさに記載された欠陥を克服する本発明の実施形態を記載する。これらの図に記載されたデコーダとエンコーダ、およびそれらに関連する機能は、図1のSAOCコーデックを切換可能とすることができる「強化モード」のような追加モードを表現することができる。後者の可能性のための実施形態は、以下に示される。
図3は、デコーダ50を示す。デコーダ50は、予測係数を演算する手段52と、ダウンミックス信号をアップミックスする手段54とを備える。
図3のオーディオデコーダ50は、第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号を有するマルチ‐オーディオ‐オブジェクト信号をデコードするための専用である。第1タイプのオーディオ信号と第2タイプのオーディオ信号は、それぞれモノラルまたはステレオのオーディオ信号とすることができる。第1タイプのオーディオ信号は、例えば、バックグラウンドオブジェクトであるのに対して、第2タイプのオーディオ信号は、フォアグラウンドオブジェクトである。すなわち、図3と図4の実施形態は、カラオケ/ソロモードアプリケーションに必ずしも限定されない。むしろ、図3のデコーダと図4のエンコーダは、他のところで都合よく用いることができる。
マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号56と副情報58から成る。副情報58は、例えば、時間/周波数分解能42のような第1の所定の時間/周波数分解能における、第1タイプのオーディオ信号と第2タイプのオーディオ信号のスペクトルエネルギーを記述するレベル情報60を備える。特に、レベル情報60は、オブジェクトと時間/周波数タイル当りの正規化されたスペクトルエネルギーのスカラー値を備えることができる。正規化は、それぞれの時間/周波数タイルで、第1と第2タイプのオーディオ信号の中の最も高いスペクトルエネルギー値に関係することができる。後者の可能性は、レベル情報を表現するOLDに結果としてなり、本願明細書においてレベル差情報とも呼ばれる。以下の実施形態はOLDを用いているが、それらはそこでは明示的に述べられておらず、他のところで正規化されたスペクトルエネルギー表現を用いることができる。
副情報58は、また、第1の所定の時間/周波数分解能に等しいかまたは異なることができる第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号62をも備える。
予測係数を演算する手段52は、レベル情報60に基づいて予測係数を演算するように構成される。加えて、手段52は、副情報58にも備えられる相互相関情報に更に基づいて、予測係数を演算することができる。さらには、手段52は、予測係数を演算するために、副情報58に備えられる時間変化するダウンミックス処方情報を用いることができる。手段52によって演算される予測係数は、ダウンミックス信号56から、オリジナルのオーディオオブジェクトまたはオーディオ信号を読み出すかまたはアップミックスするために必要である。
したがって、アップミックスする手段54は、手段52から受信された予測係数64と残余信号62に基づいて、ダウンミックス信号56をアップミックスするように構成される。残余信号62を用いることによって、デコーダ50は、1つのタイプのオーディオ信号から他のタイプのオーディオ信号へのクロストークをより良く抑制することが可能である。残余信号62に加えて、手段54は、ダウンミックス信号をアップミックスするため、時間変化するダウンミックス処方を用いることができる。更に、アップミックスする手段54は、ダウンミックス信号56から復元されたオーディオ信号のうちどちらを、またはどの範囲まで、実際に出力68に出力するかを決定するために、ユーザ入力66を用いることができる。第1の極端な行為として、ユーザ入力66は、単に第1タイプのオーディオ信号を近似する第1のアップミックス信号を出力するように、手段54に指示することができる。その反対は、それに従って手段54が単に第2のタイプのオーディオ信号を近似する第2のアップミックス信号を出力する第2の極端な行為にあてはまる。中間のオプションは、それに従って両方のアップミックス信号の混合が出力68の出力に再現されることが同様に可能である。
図4は、図3のデコーダによってデコードされたマルチオーディオオブジェクト信号を生成することに適するオーディオエンコーダの実施形態を示す。参照符号80で示される図4のエンコーダは、エンコードされるオーディオ信号84がスペクトル領域にない場合に、スペクトルで分解する手段82を備えることができる。オーディオ信号84の中には、順番に、少なくとも1つの第1タイプのオーディオ信号と少なくとも1つの第2のタイプのオーディオ信号がある。スペクトルで分解する手段82は、これらの信号84の各々を、例えば、図2で示されたような表現にスペクトルで分解するように構成される。すなわち、スペクトルで分解する手段82は、オーディオ信号84を所定の時間/周波数分解能でスペクトルで分解する。手段82は、ハイブリッドQMFバンクのようなフィルタバンクを備えることができる。
オーディオエンコーダ80は、レベル情報を演算する手段86と、ダウンミックスする手段88と、予測係数を演算する手段90と、残余信号を設定する手段92を、更に備える。加えて、オーディオエンコーダ80は、相互相関情報を演算する手段、すなわち手段94を備えることができる。手段86は、オプションとして手段82によって出力されたオーディオ信号から、第1タイプのオーディオ信号と第2のタイプのオーディオ信号のレベルを、第1の所定の時間/周波数分解能で記述するレベル情報を演算する。同様に、手段88は、オーディオ信号をダウンミックスする。手段88は、このようにダウンミックス信号56を出力する。手段86も、レベル情報60を出力する。予測係数を演算する手段90は、手段52と同様に振舞う。すなわち、手段90は、レベル情報60から予測係数を演算し、予測係数64を手段92に出力する。手段92は、順番に、ダウンミックス信号56を予測係数64と残余信号62の両方に基づいてアップミックスすることが、第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、第2のタイプのオーディオ信号を近似する第2のアップミックスオーディオ信号に結果としてなり、その近似が残余信号62の欠如と比べて良いと認められるように、ダウンミックス信号と予測係数64とオリジナルのオーディオとに基づいて、第2の所定の時間/周波数分解能で、残余信号62を設定する。
残余信号62とレベル情報60は、ダウンミックス信号56とともに、図3のデコーダによってデコードされるマルチ‐オーディオ‐オブジェクト信号を形成する副情報58に備えられる。
図4に示すように、図3の説明と類似して、手段90は、予測係数64を演算するために、手段94によって出力される相互相関情報および/または手段88によって出力される時間変化するダウンミックス処方を付加的に用いることができる。更に、残余信号62を設定する手段92によって残余信号62を適切に設定するために、手段88によって出力される時間変化するダウンミックス処方を付加的に用いることができる。
再び、第1タイプのオーディオ信号はモノラルまたはステレオのオーディオ信号でよいことに注意されたい。同じことは第2タイプのオーディオ信号に適用される。残余信号62は、副情報内で、例えばレベル情報を演算するために用いられるパラメータ時間/周波数分解能と同じ時間/周波数分解能において信号送信することができ、または異なる時間/周波数分解能を用いることもできる。更に、残余信号の信号送信は、レベル情報が信号送信されるための時間/周波数タイル42によって占有されるスペクトル範囲のサブ部分に限定することも可能である。例えば、残余信号が信号送信される時間/周波数分解能は、構文要素bsResidualBandsおよびbsResidualFramesPerSAOCFrameを用いて、副情報58内で示すことができる。これらの2つの構文要素は、時間/周波数タイル内に、タイル42を先導するサブ区画よりも他のフレームのサブ区画を定義することができる。
ところで、残余信号62は、オーディオエンコーダ80によってダウンミックス信号56をエンコードするためにオプションとして潜在的に使用されるコアエンコーダ96から結果として生じる情報損失を反映でき、または、できないことに注意されたい。図4に示すように、手段92は、ダウンミックス信号のバージョンに基づいて、コアエンコーダ96の出力から、または、コアコーダ96´に入力されるバージョンから、復元可能に残余信号62を設定することを実行することができる。同様に、オーディオデコーダ50は、ダウンミックス信号56をデコードまたは伸張するコアデコーダ98を備えることができる。
複数のオーディオオブジェクト信号内で、残余信号62に用いられる時間/周波数分解能を、レベル情報60を演算するために用いられる時間/周波数分解能と異なって設定する能力は、一方のオーディオ品質と他方の複数のオーディオオブジェクト信号の圧縮比の間の良好な歩み寄りを得ることを可能とする。いずれにせよ、残余信号62は、ユーザ入力66に従って出力68に出力される第1と第2のアップミックス信号内で、1つのオーディオ信号から他へのクロストークをより良く抑制することを可能にする。
以下の実施形態から明らかになるように、1つ以上のフォアグラウンドオブジェクトまたは第2タイプのオーディオ信号がエンコードされる場合に、1つ以上の残余信号62を副情報内で送信することができる。副情報は、残余信号62が特定の第2タイプのオーディオ信号のために送信されるかどうかの個々の決定を考慮に入れることができる。このように、残余信号62の数は、1つから第2タイプのオーディオ信号の数まで変わることができる。
図3のオーディオデコーダにおいて、演算する手段54は、レベル情報(OLD)に基づいて、予測係数から構成される予測係数マトリックスCを演算するように構成し、手段56は、ダウンミックス信号dから、次式によって表現できる演算によって、第1のアップミックス信号S1および/または第2のアップミックス信号S2を産出するように構成することができる。
Figure 2011501544
ここで、「1」は、チャンネル数dに従属するスカラーまたは単位行列を表し、D-1は、それに従って第1タイプのオーディオ信号と第2のタイプのオーディオ信号がダウンミックス信号にダウンミックスされる、副情報にも備えられるダウンミックス処方によって一意に決定されるマトリックスであり、Hは、dから独立しているが残余信号に従属する項である。
上述され、更に以下に記載されるように、ダウンミックス処方は、副情報内で、時間において変化することができ、および/または、スペクトルで変化することができる。第1タイプのオーディオ信号が第1入力チャンネル(L)と第2入力チャンネル(R)を有するステレオオーディオ信号である場合に、レベル情報は、例えば、第1入力チャンネル(L)、第2入力チャンネル(R)、および第2タイプのオーディオ信号のそれぞれの正規化されたスペクトルエネルギーを、時間/周波数分解能42で記述する。
それに従ってアップミックスする手段56がアップミックスを実行する上述の演算は、次式によって表現することさえできる。
Figure 2011501544
項Hが残余信号resに従属している限り、それに従ってアップミックスする手段56がアップミックスを実行する演算は、次式によって表現することができる。
Figure 2011501544
マルチ‐オーディオ‐オブジェクト信号は、第2タイプの複数のオーディオ信号を備えることさえでき、副情報は、第2タイプのオーディオ信号当り1つの残余信号を備えることができる。残余分解能パラメータは、残余信号が副情報内で送信されるスペクトル範囲を定義する副情報において提供することができる。それは、スペクトル範囲の下側と上側の制限を定義することさえできる。
更に、マルチ‐オーディオ‐オブジェクト信号は、第1タイプのオーディオ信号を、予め定められたスピーカ構成上に空間的に再現するための空間再現情報を備えることもできる。言い換えれば、第1タイプのオーディオ信号は、ステレオにダウンミックスされたマルチチャンネル(2つ以上のチャンネル)のMPEGサラウンド信号とすることができる。
以下に、上記残余信号の信号送信に用いることができる実施形態が記載される。しかしながら、用語「オブジェクト」は、2重の意味でしばしば用いられることに注意されたい。時には、オブジェクトは、個々のモノラルオーディオ信号を表す。このように、ステレオオブジェクトは、ステレオ信号の1つのチャンネルを形成するモノラルオーディオ信号を有することができる。しかしながら、他の状況では、ステレオオブジェクトは、事実、2つのオブジェクト、すなわち、ステレオオブジェクトの右チャンネルに関するオブジェクトおよび左チャンネルに関する更なるオブジェクトを表すことができる。実際の意味は、文脈から明らかになる。
次の実施形態を記載する前に、同じことは、2007年に基準モデル0(RM0)として選択されたSAOCスタンダードのベースライン技術で認められた不具合によって動機づけられる。RM0は、パニング位置と増幅/減衰に関する多数のサウンドオブジェクトの個々の操作を可能にした。特別なシナリオは、「カラオケ」タイプのアプリケーションの文脈において提示される。このケースでは、
●モノラル、ステレオ、またはサラウンドバックグラウンドシーン(以下においてバック グラウンドオブジェクトBGOと呼ばれる)は、一組の特定のSAOCオブジェクトか ら導かれ、それは変更なく再生される。すなわち、あらゆる入力チャンネル信号が変更 のないレベルで同じ出力チャンネルで再生される。
●関心のある特定のオブジェクト(以下においてフォアグラウンドオブジェクトFGOと 呼ばれる)(典型的にはリードボーカル)は、変更(FGOは、典型的にサウンドステ ージの中央に配置され、ミュートすることができる、すなわち、伴って歌うことを可能 とするため強く減衰される)して再生される。
主観評価処理から判るように、そして基礎をなす技術原理から期待できるように、オブジェクト位置の操作は高品質の結果に導き、一方オブジェクトレベルの操作は一般的によりチャレンジングである。典型的に、追加信号の増幅/減衰がより高いほど、より潜在的なアーティファクトが生じる。この意味で、極端な(理想的には全体の)FGOの減衰が要求されるので、カラオケシナリオは、極めて要求が厳しい。
二重使用のケースは、バックグラウンド/MBOなしでFGOだけを再生する能力であって、以下においてソロモードと称される。
しかしながら、サラウンドバックグラウンドシーンが含まれる場合、それがマルチチャンネルバックグラウンドオブジェクト(MBO)と称される点に注意されたい。MBOの取り扱いは以下の通りであり、図5において示される。
●MBOは、標準の5―2―5MPEGサラウンドツリー102を用いてエンコードされ る。これは、ステレオMBOダウンミックス信号104とMBO‐MPS副情報ストリ ーム106に結果としてなる。
●MBOダウンミックスは、次に、引き続くSAOCエンコーダ108によって、ステレ オオブジェクト(すなわち、2つのオブジェクトレベル差、プラス相互相関)として、 その(またはいくつかの)FGO110と一緒にエンコードされる。これは、一般的な ダウンミックス信号112とSAOC副情報ストリーム114に結果としてなる。
トランスコーダ116において、ダウンミックス信号112は前処理され、SAOCとMPS副情報ストリーム106、114は、単一のMPS出力副情報ストリーム118にトランスコードされる。これは、一般に不連続な方法で起こる。すなわち、FGOの完全な抑制のみか、または、MBOの完全な抑制のいずれかがサポートされる。
最後に、結果として生じたダウンミックス120とMPS副情報118は、MPEGサラウンドデコーダ122によって再現される。
図5において、MBOダウンミックス104と制御可能なオブジェクト信号110の両方は、単一のステレオダウンミックス112に結合される。この制御可能なオブジェクト110によるダウンミックスの「汚染」は、制御可能なオブジェクト110が取り除かれ、十分に高いオーディオ品質である、カラオケバージョンを復元することの難しさの理由である。以下の提案は、この課題を回避することを目的とする。
1つのFGO(例えば1つのリードボーカル)を仮定すると、以下の図6の実施形態によって用いられる重要な知見は、SAOCダウンミックス信号がBGOとFGO信号の結合である、すなわち、3つのオーディオ信号がダウンミックスされ、2つのダウンミックスチャンネルを介して送信されることである。理想的には、これらの信号は、クリーンなカラオケ信号を生成する(すなわち、FGO信号を取り除く)か、またはクリーンなソロ信号を生成する(すなわち、BGO信号を取り除く)ために、トランスコーダにおいて再び分離されなければならない。これは、図6の実施形態に従って、SAOCエンコーダにおいて、BGOとFGOを単一のSAOCダウンミックス信号に結合するため、SAOCエンコーダ108内で、「2から3への」(TTT)エンコーダ要素124(TTT―1は、MPEGサラウンド仕様から知られる)を用いることで達成される。ここで、FGOはTTT-1ボックス124の「中心の」信号入力に供給され、BGO104は「左右の」TTT-1入力L,Rに供給される。トランスコーダ116は、次に、TTTデコーダ要素126(TTTは、MPEGサラウンドから知られる)を用いて、BGO104の近似を生成することができる。すなわち、「左右の」TTT出力L,Rは、BGOの近似をもたらすのに対して、「中心の」TTT出力Cは、FGO110の近似をもたらす。
図6の実施形態を、図3と図4のエンコーダとデコーダの実施形態と比較するとき、参照符号104は、オーディオ信号84の中の第1タイプのオーディオ信号に対応し、手段82は、MPSエンコーダ102に備えられ、参照符号110は、オーディオ信号84の中の第2タイプのオーディオ信号に対応し、TTT-1ボックス124は、手段88〜92の機能に対する役割を、SAOCエンコーダ108において実装される手段86と94の機能によって引き継ぎ、参照符号112は、参照符号56に対応し、参照符号114は、残余信号62よりも少ない副情報58に対応し、TTTボックス126は、手段52と54の機能に対する役割を、手段54でも備えられている混合ボックス128の機能によって引き継ぐ。最後に、信号120は、出力68で出力される信号に対応する。更に、図6は、SAOCエンコーダ108からSAOCトランスコーダ116へのダウンミックス112の移送のためのコアコーダ/デコーダ・パス131をも示すことに注意されたい。このコアコーダ/デコーダ・パス131は、オプションのコアコーダ96とコアデコーダ98に対応する。図6に示すように、このコアコーダ/デコーダ・パス131は、エンコーダ108からトランスコーダ116まで移送された副情報の移送された信号をエンコード/圧縮することもできる。
図6のTTTボックスの導入から生じる効果は、以下の説明によって明らかになる。例えば、
●「左右の」TTT出力L,RをMPSダウンミックス120に単純に供給する(そして 、ストリーム118において、送信されたMBO‐MPSビットストリーム106を順 送りする)ことによって、MBOのみが最終的なMPSデコーダによって再生される。 これは、カラオケモードに対応する。
●「中心の」TTT出力Cを左右のMPSダウンミックス120に単純に供給する(そし て、FGO110を所望の位置とレベルに再現する些細なMPSビットストリーム11 8を生成する)ことによって、FGO110のみが最終的なMPSデコーダ122によ って再生される。これは、ソロモードに対応する。
3つのTTT出力信号L,R,Cの取り扱いは、SAOCトランスコーダ116の「混合」ボックス128において実行される。
図6の処理構成は、図5に対して多くの明瞭な利点を提供する。
●フレームワークは、バックグラウンド(MBO)100とFGO信号110のクリーン な構成上の分離を提供する。
●TTT要素126の構成は、波形ベースで、3つの信号L,R,Cの最高の復元を試み る。このように、最終的なMPS出力信号130は、ダウンミックス信号のエネルギー 重み付け(および無相関化)によって形成されるだけでなく、TTT処理のため波形に 関しても近い。
●MPEGサラウンドTTTボックス126とともに、残余コーディングを用いることに よって復元精度を強化する可能性がある。このように、復元品質における有意な強化は 、TTT-1124により出力され、アップミックスのためのTTTボックスによって用 いられる残余信号132の残余バンド幅と残余ビットレートが増加するにつれて、達成 することができる。理想的には(すなわち、残余コーディングとダウンミックス信号の コーディングにおける無限に微細な量子化に対して)、バックグラウンド(MBO)と FGO信号の間の干渉はキャンセルされる。
図6の処理構成は、多くの特性を備えている。
●カラオケ/ソロモードの二重性 : 図6のアプローチは、同じ技術手段を用いてカラ オケとソロの両方の機能を提供する。すなわち、例えば、SAOCパラメータは再利用 される。
●洗練化可能性 : カラオケ/ソロ信号の品質は、TTTボックスにおいて用いられる 残余コーディング情報の量を制御することによって、必要に応じて洗練させることがで きる。例えば、パラメータbsResidualSamplingFrequencyIndex、bsResidualBands、お よびbsResidualFramesPerSAOCFrameを用いることができる。
●ダウンミックスにおけるFGOの位置決め : MPEGサラウンド仕様において指定 されるTTTボックスを用いるとき、FGOは、左右のダウンミックスチャンネルの間 の中心位置に常に混合される。位置決めにおいてより柔軟性を可能とするため、「中心 」の入力/出力に関連する信号の非対称位置決めを可能としながら同じ原理に従う一般 化されたTTTエンコーダボックスが使用される。
●多重FGO : 記載された構成において、1つのFGOのみの使用が記載されていた (これは、最も重要なアプリケーションのケースに対応するかも知れない)。しかしな がら、提案されたコンセプトは、以下の尺度の1つまたは組み合わせを用いて、いくつ かのFGOに適応することも可能である。
◆グループ化されたFGO : 図6に示されたように、TTTボックスの中心の入力 /出力に接続された信号は、実際に、単一のもののみよりもむしろ、いくつかのF GO信号の合計とすることができる。これらのFGOは、マルチチャンネル出力信 号130において、独立に位置決め/制御することができる(しかしながら、それ らが同様にスケールされ配置されたときに、最良の品質効果が達成される)。それ らは、ステレオダウンミックス信号112において一般的な位置を共有し、1つの 残余信号132のみがある。いずれにせよ、バックグラウンド(MBO)と制御可 能なオブジェクトの間の干渉は(制御可能なオブジェクト間ではされないが)キャ ンセルされる。
◆カスケード接続されたFGO : ダウンミックス112における一般的なFGO位 置に関する制限は、図6のアプローチを拡張することによって克服することができ る。多重FGOは、記載されたTTT構成のいくつかのステージをカスケード接続 し、各ステージが1つのFGOに対応し、残余コーディングストリームを生成する ことによって、適応することができる。このように、干渉は、理想的には、各FG O間においてもキャンセルされる。もちろん、このオプションは、グループ化され たFGOアプローチを用いるよりも高いビットレートを必要とする。実施形態は後 述する。
●SAOC副情報 : MPEGサラウンドにおいて、TTTボックスに関連する副情報 は、一対のチャンネル予測係数(CPC)である。対照的に、SAOCパラメータ表示 とMBO/カラオケシナリオは、各オブジェクト信号のオブジェクトエネルギーと、M BOダウンミックスの2つのチャンネル間の信号間相関(すなわち、「ステレオオブジ ェクト」のパラメータ表示)を送信する。強化されたカラオケ/ソロモードのないケー スに関係するパラメータ表示、およびビットストリームフォーマットにおける変化の数 を最小化するために、CPCは、ダウンミックスされた信号(MBOダウンミックスと FGO)のエネルギーとMBOダウンミックスステレオオブジェクトの信号間相関とか ら算出することができる。それ故、送信されたパラメータ表示を変更または増大する必 要がなく、CPCは、SAOCトランスコーダ116において送信されたSAOCパラ メータ表示から算出することができる。このように、強化されたカラオケ/ソロモード を用いたビットストリームは、残余データを無視するとき、標準モードのデコーダ(残 余コーディングのない)によってデコードすることもできる。
要約すると、図6の実施形態は、特定の選択されたオブジェクト(またはそれらのオブジェクトのないシーン)の強化された再生を目的とし、ステレオダウンミックスを用いた現行のSAOCエンコードアプローチを以下のように拡張する。
●通常モードにおいて、各オブジェクト信号は、ダウンミックスマトリクスにおけるその エントリーによって(左右のダウンミックスチャンネルのそれぞれに対する寄与に対し て)重み付けされる。次に、左右のダウンミックスチャンネルに対するすべての重み付 けられた分担は、左右のダウンミックスチャンネルを形成するために合計される。
●強化されたカラオケ/ソロ演奏のために、すなわち強化モードにおいて、すべてのオブ ジェクト分担は、フォアグラウンドオブジェクト分担(FGO)と残りのオブジェクト 分担(BGO)を形成する一組のオブジェクト分担に分割される。FGO分担は、モノ ラルのダウンミックス信号に合計され、残りのバックグラウンド分担は、ステレオダウ ンミックスに合計され、両方とも、一般的なSAOCステレオダウンミックスを形成す るために、一般化されたTTTエンコーダ要素を用いて合計される。
このように、標準の合計は、「TTT総和」(必要なときはカスケード接続することができる)によって置き換えられる。
SAOCエンコーダの通常モードと強化モードのちょうど言及された相違を強調するために、図7aと図7bが参照される。ここで、図7aは通常モードに関するのに対して、図7bは強化モードに関する。これから判るように、通常モードにおいて、SAOCエンコーダ108は、オブジェクトjを重み付けし、このように重み付けられたオブジェクトjをSAOCチャンネルi、すなわちL0またはR0に加算するため、前述のDMXパラメータDijを用いる。図6の強化モードの場合は、単にDMXパラメータDiのベクトルが必要である。すなわち、DMXパラメータDiは、FGO110の重み付けられた合計をどのように形成するかを示し、それによりTTT-1ボックス124のための中心チャンネルCを取得し、DMXパラメータDiは、TTT-1ボックスに中心信号Cを左MBOチャンネルと右MBOチャンネルのそれぞれに対してどのように分配するかを指示し、それによりLDMXまたはRDMXをそれぞれ取得する。
問題として、図6による処理は、非波形で保存するコーデック(HE―AAC/SBR)では、あまりうまく動作しない。その問題の解決策は、HE‐AACおよび高周波のためのエネルギーベースで一般化されたTTTモードとすることができる。問題に対処する実施形態は、後述される。
カスケード接続されたTTTによるもののための可能なビットストリームフォーマットは、以下の通りとすることができる。
スキップできるようにするために必要なSAOCビットストリームへの追加は、「標準のデコードモード」において簡約すると次の通りである。
Figure 2011501544
複雑度および所要メモリ量に関しては、以下のように述べることができる。前の説明から判るように、図6の強化されたカラオケ/ソロモードは、エンコーダとデコーダ/トランスコーダのそれぞれ、すなわち一般化されたTTT-1/TTTエンコーダ要素において、1つのコンセプト上の要素のステージを付加することによって実現される。両方の要素は、標準の「中央化された」TTT相当品(係数値の変化は複雑度に影響しない)に対して、その複雑度において同一である。想定される主要なアプリケーション(リードボーカルとしての1つのFGO)のためには、単一のTTTで充分である。
MPEGサラウンドシステムの複雑度に対するこの追加構成の関係は、関連するステレオダウンミックスケース(5‐2‐5型)に対して1つのTTT要素と2つのOTT要素から構成される全てのMPEGサラウンドデコーダの構成に注目することによって理解することができる。これは、付加された機能が計算複雑度とメモリ消費に関して廉価になることを、すでに示している(残余コーディングを用いたコンセプト上の要素は、それに代わる無相関化を含むそれらの相当品よりも、平均して複雑でないことに注意されたい)。
MPEG‐SAOC基準モデルの図6のこの拡張は、特別なソロまたはミュート/カラオケタイプのアプリケーションに対して、オーディオ品質の改善を提供する。再び、図5、6、7に対応する説明が、バックグラウンドシーンまたはBGOとしてMBOを参照し、それは、一般にこのタイプのオブジェクトに限定されず、むしろモノラルまたはステレオのオブジェクトでもあり得ることに注意されたい。
主観評価処理は、カラオケまたはソロアプリケーションのための出力信号のオーディオ品質に関する改善を明らかにする。評価された条件は、以下の通りである:
●RM0
●強化モード(res 0)(残余コーディングを有しない)
●強化モード(res 6)(最も低い6つのハイブリッドQMFバンドに残余コーディング を有する)
●強化モード(res 12)(最も低い12のハイブリッドQMFバンドに残余コーディング を有する)
●強化モード(res 24)(最も低い24のハイブリッドQMFバンドに残余コーディング を有する)
●隠れた基準
●下側アンカー(3.5kHzバンド制限されたバージョンの基準)
提案された強化モードのためのビットレートは、残余コーディングなしで用いられる場合に、RM0に類似している。他の全ての強化モードは、残余コーディングの6バンド毎に約10kbit/sを必要とする。
図8aは、10人のリスニング被検者によるミュート/カラオケテストの結果を示す。提案された解決策は、RM0より常に高く、追加の残余コーディングの各ステップとともに増加する平均MUSHRAスコアがある。RM0のパフォーマンス上の統計学的に有意な改善は、6以上のバンドの残余コーディングを有するモードに対して、明らかに認めることができる。
図8bにおける9人の被検者によるソロテストの結果は、提案された解決策の類似の利点を示す。平均MUSHRAスコアは、より多くの残余コーディングを加えるときに明らかに増加する。24バンドの残余コーディングを有する強化モードと有さない強化モード間のゲインは、ほぼ50MUSHRAポイントである。
全体として、カラオケアプリケーションのために、RM0より約10kbit/s高いビットレートの代償で良い品質が達成される。RM0のビットレートのトップに約40kbit/sを加えるとき、優れた品質が可能である。最大固定ビットレートが与えられた現実的なアプリケーションシナリオにおいては、提案された強化モードは、「使用していないビットレート」を、許容される最大レートに達するまで、残余コーディングにうまく費やすことを可能にする。それ故、最高の総合オーディオ品質が達成される。提示された実験結果を超える更なる改善は、残余ビットレートのより知的な使用により可能である。提示されたセットアップは、DCから特定の上側境界周波数までの残余コーディングを常に用いるが、強化された実施態様では、FGOとバックグラウンドオブジェクトを分離するために関連する周波数範囲のビットのみを費やす。
前の説明において、カラオケ型アプリケーションのためのSAOC技術の強化が記載されていた。MPEG‐SAOCのためのマルチチャンネルFGOオーディオシーン処理に対する強化されたカラオケ/ソロモードのアプリケーションの追加の詳細な実施形態が提示される。
変更によって再生されるFGOとは対照的に、MBO信号は、変更なしで再生されなければならない。すなわち、あらゆる入力チャンネル信号は、同じ出力チャンネルを通して不変のレベルで再生される。その結果として、SAOCエンコーダ、MBOトランスコーダおよびMPSデコーダを備える次のカラオケ/ソロモード処理ステージに入力される(ステレオの)バックグラウンドオブジェクト(BGO)の役割をするステレオダウンミックス信号を産出するMPEGサラウンドエンコーダによるMBO信号の前処理が提案された。図9は、再び、全体構成のダイアグラムを示す。
ここで判るように、入力オブジェクトは、カラオケ/ソロモードのコーダ構成に従って、ステレオバックグラウンドオブジェクト(BGO)104とフォアグラウンドオブジェクト(FGO)110に分類される。
RM0において、これらのアプリケーションシナリオの取り扱いは、SAOCエンコーダ/トランスコーダシステムによって実行されるが、図6の強化は、付加的にMPEGサラウンド構成の基本的ビルディングブロックを利用する。エンコーダでの3から2への(TTT-1)ブロックとトランスコーダでの対応する2から3への(TTT)補体を組み込むことは、特別なオーディオオブジェクトの強い増強/減衰が必要なときに、パフォーマンスを改善する。拡張構成の2つの主要な特性は、以下の通りである。
・残余信号の利用による、より良好な信号分離(RM0と比較して)
・その混合仕様を一般化することによる、TTT-1ボックスの中心入力(すなわちFGO )として表される信号の柔軟な位置決め
TTTビルディングブロックの直接の実施態様は、エンコーダ側で3つの入力信号を含むので、図6は、図10に描かれるように(ダウンミックスされた)モノラル信号として、FGOの処理に重点が置かれた。マルチチャンネルFGO信号の取り扱いがまた述べられたが、次の章において更に詳細に説明される。
図10から判るように、図6の強化モードにおいて、すべてのFGOの結合は、TTT-1ボックスの中心チャンネルに供給される。
図6と図10によるケースのような、FGOモノラルダウンミックスの場合は、エンコーダでのTTT-1ボックスの構成は、中心入力に供給されるFGOと、左右の入力を提供するBGOを備える。基礎をなす対称行列は、次式で与えられる。
Figure 2011501544
この線形システムを通して取得された第3の信号は、破棄されるが、2つの予測係数c1およびc2(CPC)を組み込んだトランスコーダ側で、次式によって復元することができる。
Figure 2011501544
トランスコーダでの逆変換処理は、次式で与えられる。
Figure 2011501544
変数PL0、PR0、PL0R0、PL0F0およびPR0F0は、以下のように推定することができる。ここで、パラメータOLDL、OLDRおよびIOCLRはBGOに対応し、OLDFはFGOパラメータである。
Figure 2011501544
加えて、CPCの内包によってもたらされるエラーは、次のように、ビットストリーム内で送信することができる残余信号132によって表現される。
Figure 2011501544
いくつかのアプリケーションシナリオにおいて、すべてのFGOの単一のモノラルダウンミックスの限定は不適当であり、それゆえに克服される必要がある。例えば、FGOは、送信されたステレオダウンミックスおよび/または個々の減衰において異なる位置を有する2つ以上の独立グループに分割することができる。それ故、図11に示されるカスケード接続された構成は、エンコーダ側で所望のステレオダウンミックス112が取得されるまで、すべてのFGOグループF1、F2のステップバイステップのダウンミックスを産出する2つ以上の連続するTTT-1要素124a、124bを意味する。各々の −あるいは少なくともいくつかの− TTT-1ボックス124a、124b(それぞれ図11の)は、それぞれのステージまたはTTT-1ボックス124a、124bにそれぞれ対応する残余信号132a、132bを設定する。逆にいえば、トランスコーダは、利用可能である場合に、対応するCPCと残余信号を組み込んでいるそれぞれの逐次適用されるTTTボックス126a、126bを用いて、逐次アップミックスを実行する。FGO処理の順序は、エンコーダで指定され、トランスコーダ側で考慮されなければならない。
図11に示された2段カスケードに含まれる詳細な数学的計算は、以下に記載される。
一般論における損失なしで、簡略化された具体例として、図11に示されるように、以下の説明は、2つのTTT要素から構成されるカスケードに基づいている。2つの対称行列は、FGOモノラルダウンミックスと類似しているが、次のそれぞれの信号に対して適切に適用されなければならない。
Figure 2011501544
ここで、2セットのCPCは、以下の信号復元に結果としてなる。
Figure 2011501544
逆変換処理は、次式によって表現される。
Figure 2011501544
2段カスケードの特殊ケースは、その左右のチャンネルが対応するBGOのチャンネルに適切に合計され、μ1=0とμ2=π/2を産出する、1つのステレオのFGOを備える。
Figure 2011501544
この特別なパニングスタイルのために、およびオブジェクト間相関を無視するために、OLDLR=0であり、2セットのCPCの推定は次のように減縮する。
Figure 2011501544
ここで、OLDFLとOLDFRは、それぞれ左右のFGO信号のOLDを表す。
一般的なN段カスケード接続のケースは、次式によってマルチチャンネルFGOダウンミックスを参照する。
Figure 2011501544
ここで、各ステージは、それ自身のCPCと残余信号を特徴づける。
トランスコーダ側で、逆カスケードステップは、次式で与えられる。
Figure 2011501544
TTT要素の順序を保存する必要性を廃止するために、カスケード構成は、Nマトリクスを1つの単一の対称TTNマトリクスに再編成することによって、等価な並列回路に容易に変換することができ、これにより次の一般的TTNスタイルをもたらす。
Figure 2011501544
ここで、マトリクスの最初の2行は、送信されるステレオダウンミックスを表す。一方、用語TTN(2からN)は、トランスコーダ側でアップミックスする処理に関する。
この記述を用いて、特別にパンされたステレオFGOの特殊ケースは、マトリクスを次のように減縮する。
Figure 2011501544
したがって、この装置は、2から4要素またはTTFと称することができる。
SAOCステレオ前処理モジュールを再利用するTTF構成をもたらすことも可能である。
N=4の制限に対して、既存のSAOCシステムの部分を再利用する2から4(TTF)構成の実施態様が実行可能となる。処理は、以下の段落に記載される。
SAOCスタンダードのテキストは、「ステレオからステレオへのトランスコードモード」のためのステレオダウンミックス前処理を記述する。正確には、出力ステレオ信号Yは、入力されたステレオ信号Xから、非相関化された信号Xdとともに、以下のように算出される。
Figure 2011501544
非相関化された成分Xdは、エンコード処理で既に破棄されたオリジナルの再現された信号の部分の合成表現である。図12によれば、非相関化された信号は、特定の周波数範囲のための適切なエンコーダで生成された残余信号132と置き換えられる。名称は、次のように定義される。
●Dは、2×Nダウンミックスマトリクス
●Aは、2×N再現マトリクス
●Eは、入力オブジェクトSのN×N共分散モデル
●GMod(図12のGに対応する)は、予測の2×2アップミックスマトリクス
Modは、D、AおよびEの関数であることに注意されたい。
残余信号XResを算出するために、エンコーダにおけるデコーダ処理を模倣する、すなわちGModを決定することが必要である。
一般的なシナリオにおいて、Aは知られていないが、カラオケシナリオの特殊ケース(例えば、1つのステレオバックグラウンドと1つのステレオフォアグラウンドオブジェクト(N=4)を有する)では、次のように仮定される。
Figure 2011501544
これは、BGOのみが再生されることを意味する。
フォアグラウンドオブジェクトの推定のために、復元されたバックグラウンドオブジェクトは、ダウンミックス信号Xから減算される。これと最終の再現は、「混合」処理ブロックにおいて実行される。詳細は以下において示される。
再現マトリクスAは、次のように設定される。
Figure 2011501544
ここで、最初の2列はFGOの2つのチャンネルを表現し、2番目の2列はBGOの2つのチャンネルを表現する。
BGOとFGOのステレオ出力は、以下の数式によって算出される。
Figure 2011501544
ダウンミックス重み付けマトリクスとして、Dは次式のように定義される。
Figure 2011501544
Figure 2011501544
Resは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
最終出力Yは、次式によって与えられる。
Figure 2011501544
上記実施形態は、また、ステレオFGOの代わりにモノラルFGOが用いられる場合に適用することができる。処理は、次に以下によって変更される。
再現マトリクスAは、次のように設定される。
Figure 2011501544
ここで、最初の列はモノラルのFGOを表現し、次の列はBGOの2つのチャンネルを表現する。
BGOとFGOのステレオ出力は、以下の数式によって算出される。
Figure 2011501544
ダウンミックス重み付けマトリクスとして、Dは次のように定義される。
Figure 2011501544
Figure 2011501544
Resは、上述のように取得された残余信号である。いかなる非相関化された信号も加算されないことに、是非注意されたい。
最終出力Yは、次式によって与えられる。
Figure 2011501544
4以上のFGOオブジェクトの取り扱いのために、上記実施形態は、ちょうど記載された処理ステップの並列ステージを組み込むことによって拡張することができる。
上記ちょうど記載された実施形態は、マルチチャンネルFGOオーディオシーンのケースの強化カラオケ/ソロモードの詳細な説明を提供した。この一般化は、MPEG‐SAOC基準モデルのサウンド品質を強化カラオケ/ソロモードのアプリケーションによって更に改善することができる、カラオケアプリケーションシナリオのクラスを拡大することを目的とする。改善は、一般的NTT構成をSAOCエンコーダのダウンミックス部分に、対応する相当品をSAOCtoMPSトランスコーダに、導入することによって達成される。残余信号の使用は、品質結果を強化した。
図13a〜図13hは、本発明の一実施形態によるSAOC副情報ビットストリームの可能な構文を示す。
SAOCコーデックの強化モードに関するいくつかの実施形態を記載した後に、いくつかの実施形態は、SAOCエンコーダへのオーディオ入力が標準のモノラルまたはステレオ音源だけでなくマルチチャンネルオブジェクトを含むアプリケーションシナリオに関係していることに留意すべきである。これは、図5〜図7bに関して明示的に記載されていた。このようなマルチチャンネルバックグラウンドオブジェクトMBOは、いかなる制御可能な再現機能も必要とされない、大きなそしてしばしば未知の数の音源を含んでいる複合サウンドシーンと考えることができる。個々別々に、これらのオーディオ源は、SAOCエンコーダ/デコーダ・アーキテクチャによって効率的に取り扱うことができない。SAOCアーキテクチャのコンセプトは、それ故に、これらの複合入力信号、すなわちMBOチャンネルを、典型的なSAOCオーディオオブジェクトとともに取り扱うために、拡張されると考えることができる。それ故、図5〜図7bのちょうど言及された実施形態において、SAOCエンコーダ108とMPSエンコーダ100を取り囲む点線によって示されるように、MPEGサラウンドエンコーダはSAOCエンコーダに組み込まれると考えられる。結果として生じるダウンミックス104は、トランスコーダ側に送信される複合ステレオダウンミックス112を生成する制御可能なSAOCオブジェクト110とともに、SAOCエンコーダ108へのステレオ入力オブジェクトとして役立つ。パラメータ領域において、MPSビットストリーム106とSAOCビットストリーム114は、特別なMBOアプリケーションシナリオに従って適当なMPSビットストリーム118をMPEGサラウンドデコーダ122に提供するSAOCトランスコーダ116に供給される。このタスクは、再現情報または再現マトリクスを用い、MPSデコーダ122のためにダウンミックス信号112をダウンミックス信号120に変換するため、いくつかのダウンミックス前処理を使用して実行される。
強化カラオケ/ソロモードの更なる実施形態について、以下に説明する。それは、それらのレベルの増幅/減衰に関して、結果として生じる音質の有意な低下なしで、多くのオーディオオブジェクトの個々の操作を可能にする。特別な「カラオケ‐タイプ」のアプリケーションシナリオは、バックグラウンドサウンドシーンの知覚品質を無傷に保持しつつ、特定のオブジェクト、典型的にはリードボーカル(以下においてフォアグラウンドオブジェクトFGOと呼ばれる)の完全な抑制を必要とする。それは、また、パニングに関してユーザ制御可能性を必要としない静的バックグラウンドオーディオシーン(以下においてバックグラウンドオブジェクトBGOと呼ばれる)なしに、特定のFGO信号を個別に再生する能力を伴う。このシナリオは「ソロ」モードと称される。典型的なアプリケーションのケースは、ステレオBGOと4つまでのFGO信号を含み、例えば、2つの独立なステレオオブジェクトを表現することができる。
この実施形態と図14によれば、強化カラオケ/ソロ・トランスコーダ150は、いずれもMPEGサラウンド仕様から知られるTTTボックスの一般化され、強化された修正を表現する「2からN」(TTN)または「1からN」(OTN)要素152のいずれかを組み込む。適当な要素の選択は、送信されるダウンミックスチャンネルの数に従う。すなわち、TTNボックスは、ステレオダウンミックス信号に専用であり、モノラルのダウンミックス信号のためには、OTNボックスが適用される。SAOCエンコーダの対応するTTN-1またはOTN-1ボックスは、BGOとFGO信号を一般的なSAOCステレオまたはモノラルダウンミックス112に結合し、ビットストリーム114を生成する。ダウンミックス信号112におけるすべての個々のFGOの任意に定義済みの位置決めは、いずれかの要素、すなわちTTNまたはOTN152によってサポートされる。トランスコーダ側で、BGO154またはFGO信号156の任意の組み合わせ(外部的に適用される動作モード158に従う)は、TTNまたはOTNボックス152によって、SAOC副情報114とオプションとして組み込まれた残余信号のみを用いて、ダウンミックス112から復元される。復元されたオーディオオブジェクト154/156と再現情報160は、MPEGサラウンドビットストリーム162と、対応する前処理されたダウンミックス信号164を生成するために用いられる。混合ユニット166は、MPS入力ダウンミックス164を取得するためにダウンミックス信号112の処理を実行し、MPSトランスコーダ168は、SAOCパラメータ114のMPSパラメータ162へのトランスコードの役割を果たす。TTN/OTNボックス152と混合ユニット166は、図3の手段52と54に対応する強化カラオケ/ソロモード処理170を、手段54に備えられている混合ユニットの機能によって一緒に実行する。
MBOは、上記説明されたのと同じように取り扱うことができる。すなわち、それは、次の強化SAOCエンコーダに入力されるBGOとして役立つモノラルまたはステレオダウンミックス信号を産出するMPEGサラウンドエンコーダによって前処理される。このケースでは、トランスコーダは、SAOCビットストリームの次に、追加のMPEGサラウンドビットストリームを提供しなければならない。
次に、TTN(OTN)要素によって実行される計算が説明される。第1の所定の時間/周波数分解能42において表されるTTN/OTNマトリクスMは、次のように2つのマトリクスの積である。
Figure 2011501544
CPCは、送信されたSAOCパラメータ、すなわちOLD、IOC、DMG、およびDCLDから導き出される。
1つの特定のFGOチャンネルjに対して、CPCは次によって推定することができる。
Figure 2011501544
パラメータOLDL、OLDRおよびIOCLRは、BGOに対応し、残りはFGO値である。
係数mjとnjは、左右のダウンミックスチャンネルに対するFGO jのダウンミックス値を表し、ダウンミックスゲインDMGとダウンミックスチャンネルレベル差DCLDから導き出される。
Figure 2011501544
OTN要素に関して、第2のCPC値cj2の演算は冗長になる。
2つのオブジェクトグループBGOとFGOを復元するため、ダウンミックス情報は、信号F01からF0Nの線形結合を更に処方するために拡張されたダウンミックスマトリクスDの逆変換に利用される。すなわち、
Figure 2011501544
以下に、エンコーダ側のダウンミックスが詳述される。TTN‐1要素内で、拡張ダウンミックスマトリクスは、次の通りである。
Figure 2011501544

また、OTN‐1要素については、次の通りである。
Figure 2011501544
TTN/OTN要素の出力は、ステレオBGOとステレオダウンミックスに対して、次を産出する。
Figure 2011501544
BGOおよび/またはダウンミックスがモノラルの信号である場合は、線形システムはそれに応じて変化する。
Figure 2011501544
実施形態によれば、以下のTTNマトリクスが、エネルギーモードにおいて用いられる。
エネルギーベースのエンコード/デコード処理は、ダウンミックス信号の非波形保存コーディングに向けて設計される。このように、対応するエネルギーモードのためのTTNアップミックスマトリクスは、特定の波形に依存せず、入力オーディオオブジェクトの相対エネルギー分布を記述するだけである。このマトリクスMEnergyの要素は、対応するOLDから次式によって取得される。
Figure 2011501544
従って、モノラルダウンミックスのために、エネルギーベースのアップミックスマトリクスMEnergyは、次のようになる。
ステレオBGOに対しては、
Figure 2011501544
Figure 2011501544
再び、信号(F01…F0NTは、デコーダ/トランスコーダに送信されない。むしろ、同上はデコーダ側で上述したCPCによって予測される。
この点に関して、残余信号resは、デコーダによって無視することさえできることに、再び注意されたい。このケースでは、デコーダ −例えば 手段52− は、単にCPCに基礎をおいた疑似信号を次によって予測する。
Figure 2011501544
次に、BGOおよび/またはFGOは、−例えば手段54によって− エンコーダの4つの可能な線形結合のうちの1つの逆変換によって取得される。
Figure 2011501544
ここで、D-1は、再びパラメータDMGとDCLDの関数である。
このように、全体として、残余の無視できるTTN(OTN)ボックス152は、両方ともちょうど言及された次の演算ステップを演算する。
Figure 2011501544
Dの逆変換は、Dが正方である場合は、直接取得できることに注意されたい。非正方マトリクスDの場合は、Dの逆変換は、疑似逆変換しなければならない。すなわち、
Figure 2011501544
いずれにせよ、Dの逆変換が存在する。
最後に、図15は、副情報内で、残余データを転送するために費やされるデータ量をどのように設定するかの更なる可能性を示す。この構文によれば、副情報は、bsResidualSamplingFrequencyIndex、すなわち、例えば指標に対する周波数分解能に関連するテーブルの指標を備える。あるいは、分解能は、フィルタバンクの分解能またはパラメータ分解能のような予め定められた分解能であると推測することができる。更に、副情報は、残余信号が転送される際の時間分解能を定義するbsResidualFramesPerSAOCFrameを備える。また副情報に備えられるBsNumGroupsFGOは、FGOの数を示す。各FGOに対して、それぞれのFGOに対して残余信号が送信されるか否かを示す構文要素bsResidualPresentが送信される。存在する場合は、bsResidualBandsは、残余信号が送信されるためのスペクトルバンドの数を示す。
実際の実施態様に従って、発明のエンコード/デコード方法は、ハードウェアで、または、ソフトウェアで実現することができる。それ故、本発明は、CD、ディスクまたはその他のデータキャリアのようなコンピュータ読取可能な媒体に保存することができるコンピュータプログラムにも関する。本発明は、それ故、コンピュータ上で実行されるときに、上記図面に関連して記載された発明のエンコード方法または発明のデコード方法を実行するプログラムコードを有するコンピュータプログラムでもある。

Claims (23)

  1. 第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードするオーディオデコーダであって、
    前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、前記副情報は、第1の所定の時間/周波数分解能(42)における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを備えるものであって、
    前記レベル情報(60)に基づいて予測係数(64)を演算する手段(52)と、
    前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、前記予測係数(64)と前記残余信号(62)に基づいて前記ダウンミックス信号(56)をアップミックスする手段とを備える、
    オーディオデコーダ。
  2. 前記副情報(58)は、それに従って前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号(56)にダウンミックスされるダウンミックス処方を更に備え、前記アップミックスする手段は、前記ダウンミックス処方に更に基づいて、前記アップミックスを実行するように構成された、請求項1に記載のオーディオデコーダ。
  3. 前記ダウンミックス処方は、前記副情報内で時間変化する、請求項2に記載のオーディオデコーダ。
  4. 前記ダウンミックス処方は、前記副情報内でフレームサイズよりも粗い分解能で時間変化する、請求項2または3に記載のオーディオデコーダ。
  5. 前記ダウンミックス処方は、それによって前記ダウンミックス信号が第1タイプのオーディオ信号と前記第2タイプのオーディオ信号に基づいて混合される重み付けを示す、請求項2〜4のいずれかに記載のオーディオデコーダ。
  6. 前記第1タイプのオーディオ信号は、第1と第2入力チャンネルを有するステレオオーディオ信号、または、第1入力チャンネルのみを有するモノラルオーディオ信号であり、前記ダウンミックス信号は、第1と第2出力チャンネルを有するステレオオーディオ信号、または、第1出力チャンネルのみを有するモノラルオーディオ信号であり、前記レベル情報は、前記第1入力チャンネル、前記第2入力チャンネルおよび前記第2タイプのオーディオ信号のそれぞれの間の、前記第1の所定の時間/周波数分解能でのレベル差を記述し、前記副情報は、前記第1と第2入力チャンネル間の、第3の所定の時間/周波数分解能におけるレベル類似性を定義する相互相関情報を更に備え、前記演算する手段は、前記相互相関情報に更に基づいて前記演算を実行するように構成された、請求項1〜5のいずれかに記載のオーディオデコーダ。
  7. 前記第1と第3の時間/周波数分解能は、前記副情報内で一般的な文法要素によって決定される、請求項6に記載のオーディオデコーダ。
  8. 前記演算する手段と前記アップミックスする手段は、前記アップミックスが、前記ダウンミックス信号と前記残余信号から成るベクトルのアプライアンスによって一連の第1と第2のマトリクスに表現することができ、前記第1のマトリクス(C)は、前記予測係数から成り、前記第2のマトリクス(D)は、それにより前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって定義され、これも前記副情報に備えられるように構成された、請求項6または7に記載のオーディオデコーダ。
  9. 前記演算する手段と前記アップミックスする手段は、前記第1のマトリクスが、前記ベクトルを、前記第1タイプのオーディオ信号のための第1の成分および/または前記第2タイプのオーディオ信号のための第2の成分を有する中間ベクトルにマップするように構成され、前記ダウンミックス信号が、前記第1の成分上に1対1でマップされるように定義され、前記残余信号と前記ダウンミックス信号の線形結合が、前記第2の成分上にマップされるように構成された、請求項8に記載のオーディオデコーダ。
  10. 前記マルチ‐オーディオ‐オブジェクト信号は、複数の前記第2タイプのオーディオ信号を備え、前記副情報は、前記第2タイプのオーディオ信号当り1つの残余信号を備える、請求項1から9のいずれかに記載のオーディオデコーダ。
  11. 前記第2の所定の時間/周波数分解能は、前記副情報に含まれる残余分解能パラメータによって前記第1の所定の時間/周波数分解能と関係し、前記オーディオデコーダは、前記副情報から前記残余分解能パラメータを導き出す手段を備えた、請求項1から10のいずれかに記載のオーディオデコーダ。
  12. 前記残余分解能パラメータは、前記副情報内で前記残余信号が送信されるスペクトル範囲を定義する、請求項11に記載のオーディオデコーダ。
  13. 前記残余分解能パラメータは、前記スペクトル範囲の下側と上側の制限を定める、請求項12に記載のオーディオデコーダ。
  14. Figure 2011501544
    ここで、
    Figure 2011501544
    ここで、‐前記第1タイプのオーディオ信号がステレオの場合は‐、OLDLは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の第1入力チャンネルの正規化されたスペクトルエネルギーを示し、OLDRは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の第2入力チャンネルの正規化されたスペクトルエネルギーを示し、IOCLRは、前記それぞれの時間/周波数タイル内の前記第1と第2入力チャンネルの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、または、‐前記第1タイプのオーディオ信号がモノラルの場合は‐、OLDLは、前記それぞれの時間/周波数タイルにおける前記第1タイプのオーディオ信号の正規化されたスペクトルエネルギーを示し、OLDRおよびIOCLRは零となり、
    また、OLDjは、前記それぞれの時間/周波数タイルにおける前記第2タイプのオーディオ信号のチャンネルjの正規化されたスペクトルエネルギーを示し、IOCijは、前記それぞれの時間/周波数タイル内での前記第2タイプのオーディオ信号のチャンネルiとjの間のスペクトルエネルギーの類似性を定義する相互相関情報を示し、
    ここで、
    Figure 2011501544
    ここで、DCLDとDMGは、ダウンミックス処方であり、
    前記アップミックスする手段は、第2のアップミックス信号S2,i当りの前記ダウンミックス信号dと前記残余信号resiから、前記第1のアップミックス信号S1および/または前記第2のアップミックス信号S2,iを、次式によって産出するように構成され、
    Figure 2011501544
    ここで、上左角の「1」は、‐dn,kのチャンネル数に依存する‐ スカラーまたは単位行列であることを示し、下右側角の「1」は、サイズNの単位行列であり、「0」は、零ベクトルまたは‐dn,kのチャンネル数に依存する‐ マトリクスを示し、D‐1は、それに従って前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号が前記ダウンミックス信号にダウンミックスされるダウンミックス処方によって一意に決定されるマトリックスであり、これも前記副情報に備えられ、dn,kとresi n,kは、それぞれ、時間/周波数タイル(n,k)での前記ダウンミックス信号と前記残余信号であり、前記副情報に備えられないresi n,kは、零に設定される、
    請求項1から13のいずれかに記載のオーディオデコーダ。
  15. -1は、
    前記ダウンミックス信号がステレオであって、S1がステレオである場合は、次の逆行列であり、
    Figure 2011501544
    前記ダウンミックス信号がステレオであって、S1がモノラルである場合は、次の逆行列であり、
    Figure 2011501544
    前記ダウンミックス信号がモノラルであって、S1がステレオである場合は、次の逆行列であり、
    Figure 2011501544
    前記ダウンミックス信号がモノラルであって、S1がモノラルである場合は、次の逆行列である、
    Figure 2011501544
    請求項14に記載のオーディオデコーダ。
  16. 前記マルチ‐オーディオ‐オブジェクト信号は、前記第1タイプのオーディオ信号を所定のスピーカ構成上に空間的に再現する空間再現情報を備える、請求項1から15のいずれかに記載のオーディオデコーダ。
  17. 前記アップミックする手段は、前記第2のアップミックスオーディオ信号から分離された前記第1のアップミックスオーディオ信号を空間的に再現し、前記第1のアップミックスオーディオ信号から分離された前記第2のアップミックスオーディオ信号を空間的に再現し、または前記第1のアップミックスオーディオ信号と前記第2のアップミックスオーディオ信号を混合し、それによる混合バージョンを所定のスピーカ構成上に空間的に再現するように構成された、請求項1から16のいずれかに記載のオーディオデコーダ。
  18. 第1の所定の時間/周波数分解能で、第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報を演算する手段と、
    前記レベル情報に基づいて、予測係数を演算する手段と、
    ダウンミックス信号を取得するために、前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号をダウンミックスする手段と、
    第2の所定の時間/周波数分解能で、残余レベル値を特定する残余信号を設定する手段であって、前記予測係数と前記残余信号の両方に基づいて前記ダウンミックス信号をアップミックスすることが、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号がない場合に比較して改善される、残余信号を設定する手段と、
    を備え、
    前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
    オーディオオブジェクトエンコーダ。
  19. 第1タイプのオーディオ信号と第2タイプのオーディオ信号をスペクトルで分解する手段を更に備えた、請求項18に記載のオーディオオブジェクトエンコーダ。
  20. 第1タイプのオーディオ信号とエンコードされた第2タイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号をデコードする方法であって、
    前記マルチ‐オーディオ‐オブジェクト信号は、ダウンミックス信号(56)と副情報(58)とから成り、前記副情報は、第1の所定の時間/周波数分解能(42)における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報(60)と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号(62)とを含むものであって、
    前記レベル情報(60)に基づいて予測係数(64)を演算するステップと、
    前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号、および/または、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号を取得するために、前記予測係数(64)と前記残余信号(62)に基づいて前記ダウンミックス信号(56)をアップミックスするステップとを備える、
    マルチ‐オーディオ‐オブジェクト信号をデコードする方法。
  21. 第1の所定の時間/周波数分解能で、第1タイプのオーディオ信号と第2タイプのオーディオ信号のレベル情報を演算するステップと、
    前記レベル情報に基づいて、予測係数を演算するステップと、
    ダウンミックス信号を取得するために、前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号をダウンミックスするステップと、
    第2の所定の時間/周波数分解能で、残余レベル値を特定する残余信号を設定するステップであって、前記予測係数と前記残余信号に基づいて前記ダウンミックス信号をアップミックスすることが、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるようにし、前記近似が前記残余信号のない場合に比較して改善される、残余信号を設定するステップと、
    を備え、
    前記レベル情報と前記残余信号は、前記ダウンミックス信号とともに、マルチ‐オーディオ‐オブジェクト信号を形成する副情報に備えられている、
    マルチ‐オーディオ‐オブジェクトをエンコードする方法。
  22. 処理装置上で動作するときに、請求項20または21に記載された方法を実行するプログラムコードを有する、コンピュータプログラム。
  23. 第1タイプのオーディオ信号とエンコードされた第2のタイプのオーディオ信号とを有するマルチ‐オーディオ‐オブジェクト信号であって、
    ダウンミックス信号と副情報とから成り、前記副情報は、第1の所定の時間/周波数分解能における前記第1タイプのオーディオ信号と前記第2タイプのオーディオ信号のレベル情報と、第2の所定の時間/周波数分解能における残余レベル値を特定する残余信号とを含み、
    前記レベル情報に基づいて予測係数を演算し、前記予測係数に基づいて前記ダウンミックス信号をアップミックスし、前記残余信号が、前記第1タイプのオーディオ信号を近似する第1のアップミックスオーディオ信号と、前記第2タイプのオーディオ信号を近似する第2のアップミックスオーディオ信号とに結果としてなるように、前記残余信号が設定される、
    マルチ‐オーディオ‐オブジェクト信号。
JP2010529292A 2007-10-17 2008-10-17 ダウンミックスを用いたオーディオコーディング Active JP5260665B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US98057107P 2007-10-17 2007-10-17
US60/980,571 2007-10-17
US99133507P 2007-11-30 2007-11-30
US60/991,335 2007-11-30
PCT/EP2008/008799 WO2009049895A1 (en) 2007-10-17 2008-10-17 Audio coding using downmix

Publications (2)

Publication Number Publication Date
JP2011501544A true JP2011501544A (ja) 2011-01-06
JP5260665B2 JP5260665B2 (ja) 2013-08-14

Family

ID=40149576

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010529293A Active JP5883561B2 (ja) 2007-10-17 2008-10-17 アップミックスを使用した音声符号器
JP2010529292A Active JP5260665B2 (ja) 2007-10-17 2008-10-17 ダウンミックスを用いたオーディオコーディング

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010529293A Active JP5883561B2 (ja) 2007-10-17 2008-10-17 アップミックスを使用した音声符号器

Country Status (12)

Country Link
US (4) US8280744B2 (ja)
EP (2) EP2076900A1 (ja)
JP (2) JP5883561B2 (ja)
KR (4) KR101303441B1 (ja)
CN (2) CN101849257B (ja)
AU (2) AU2008314029B2 (ja)
BR (2) BRPI0816556A2 (ja)
CA (2) CA2702986C (ja)
MX (2) MX2010004220A (ja)
RU (2) RU2452043C2 (ja)
TW (2) TWI395204B (ja)
WO (2) WO2009049895A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013017022A (ja) * 2011-07-04 2013-01-24 Nippon Hoso Kyokai <Nhk> オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム
JP2014026007A (ja) * 2012-07-24 2014-02-06 Fujitsu Ltd オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
JP2015532723A (ja) * 2012-08-07 2015-11-12 ドルビー ラボラトリーズ ライセンシング コーポレイション ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
JP2016524721A (ja) * 2013-05-13 2016-08-18 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
JP2020034920A (ja) * 2015-03-09 2020-03-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化又は復号化するための装置と方法

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
KR100878816B1 (ko) * 2006-02-07 2009-01-14 엘지전자 주식회사 부호화/복호화 장치 및 방법
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
JP5254983B2 (ja) * 2007-02-14 2013-08-07 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
KR101100213B1 (ko) * 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
CN102968994B (zh) * 2007-10-22 2015-07-15 韩国电子通信研究院 多对象音频解码方法和设备
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194526A1 (en) * 2008-12-05 2010-06-09 Lg Electronics Inc. A method and apparatus for processing an audio signal
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8255821B2 (en) * 2009-01-28 2012-08-28 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
JP5163545B2 (ja) * 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
KR101387902B1 (ko) 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
CN101930738B (zh) * 2009-06-18 2012-05-23 晨星软件研发(深圳)有限公司 多声道音频信号译码方法与装置
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
RU2576476C2 (ru) 2009-09-29 2016-03-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
WO2011073201A2 (en) 2009-12-16 2011-06-23 Dolby International Ab Sbr bitstream parameter downmix
US9536529B2 (en) * 2010-01-06 2017-01-03 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
EP2372704A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
MX2012011532A (es) 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
EP2975611B1 (en) * 2011-03-10 2018-01-10 Telefonaktiebolaget LM Ericsson (publ) Filling of non-coded sub-vectors in transform coded audio signals
EP2686654A4 (en) * 2011-03-16 2015-03-11 Dts Inc CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES
KR102053900B1 (ko) 2011-05-13 2019-12-09 삼성전자주식회사 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
EP2523472A1 (en) 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
RU2618383C2 (ru) 2011-11-01 2017-05-03 Конинклейке Филипс Н.В. Кодирование и декодирование аудиообъектов
SG194706A1 (en) * 2012-01-20 2013-12-30 Fraunhofer Ges Forschung Apparatus and method for audio encoding and decoding employing sinusoidalsubstitution
CA2843223A1 (en) * 2012-07-02 2014-01-09 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
MX342150B (es) * 2012-07-09 2016-09-15 Koninklijke Philips Nv Codificacion y decodificacion de señales de audio.
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
AR090703A1 (es) * 2012-08-10 2014-12-03 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
CA3076775C (en) 2013-01-08 2020-10-27 Dolby International Ab Model based prediction in a critically sampled filterbank
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9786286B2 (en) 2013-03-29 2017-10-10 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
ES2640815T3 (es) 2013-05-24 2017-11-06 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
US9818412B2 (en) 2013-05-24 2017-11-14 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
KR102033304B1 (ko) * 2013-05-24 2019-10-17 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
ES2653975T3 (es) 2013-07-22 2018-02-09 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830334A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
WO2015036352A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Coding of multichannel audio content
TWI634547B (zh) 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
JP6212645B2 (ja) * 2013-09-12 2017-10-11 ドルビー・インターナショナル・アーベー オーディオ・デコード・システムおよびオーディオ・エンコード・システム
EP2854133A1 (en) 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
KR20160072130A (ko) * 2013-10-02 2016-06-22 슈트로밍스위스 게엠베하 2개 이상의 기본 신호로부터 다채널 신호의 유도
KR102268836B1 (ko) * 2013-10-09 2021-06-25 소니그룹주식회사 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램
KR102244379B1 (ko) * 2013-10-21 2021-04-26 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US10492014B2 (en) 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN106471575B (zh) * 2014-07-01 2019-12-10 韩国电子通信研究院 多信道音频信号处理方法及装置
WO2016004225A1 (en) * 2014-07-03 2016-01-07 Dolby Laboratories Licensing Corporation Auxiliary augmentation of soundfields
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
AU2015326856B2 (en) * 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
EP3540732B1 (en) * 2014-10-31 2023-07-26 Dolby International AB Parametric decoding of multichannel audio signals
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US10176813B2 (en) 2015-04-17 2019-01-08 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
ES2809677T3 (es) * 2015-09-25 2021-03-05 Voiceage Corp Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario
PT3539127T (pt) * 2016-11-08 2020-12-04 Fraunhofer Ges Forschung Dispositivo de downmix e método para executar o downmix de pelo menos dois canais e codificador multicanal e descodificador multicanal
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
KR102550424B1 (ko) 2018-04-05 2023-07-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램
CN109451194B (zh) * 2018-09-28 2020-11-24 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种会议混音方法及装置
EP3874491B1 (en) 2018-11-02 2024-05-01 Dolby International AB Audio encoder and audio decoder
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US10779105B1 (en) 2019-05-31 2020-09-15 Apple Inc. Sending notification and multi-channel audio over channel limited link for independent gain control
BR112021025265A2 (pt) 2019-06-14 2022-03-15 Fraunhofer Ges Forschung Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法
WO2021232376A1 (zh) * 2020-05-21 2021-11-25 华为技术有限公司 一种音频数据传输方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006103581A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
WO2006108573A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Adaptive residual audio coding
JP2010507927A (ja) * 2006-05-04 2010-03-11 エルジー エレクトロニクス インコーポレイティド リミキシング性能を持つ改善したオーディオ

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19537338C2 (de) 1995-10-06 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6356639B1 (en) 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
DK1173925T3 (da) 1999-04-07 2004-03-29 Dolby Lab Licensing Corp Matriksforbedringer til tabsfri kodning og dekodning
WO2002079335A1 (fr) * 2001-03-28 2002-10-10 Mitsubishi Chemical Corporation Procede de revetement avec une composition de resine durcissable par rayonnement et lamines
DE10163827A1 (de) * 2001-12-22 2003-07-03 Degussa Strahlen härtbare Pulverlackzusammensetzungen und deren Verwendung
EP1500084B1 (en) * 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
EP1576602A4 (en) 2002-12-28 2008-05-28 Samsung Electronics Co Ltd METHOD AND DEVICE FOR MIXING AUDIO SEQUENCE AND INFORMATION RECORDING MEDIUM
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
CA2992097C (en) 2004-03-01 2018-09-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
US7317601B2 (en) * 2004-07-29 2008-01-08 United Microelectronics Corp. Electrostatic discharge protection device and circuit thereof
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
JP4988717B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20080010980A (ko) * 2006-07-28 2008-01-31 엘지전자 주식회사 부호화/복호화 방법 및 장치.
US9426596B2 (en) 2006-02-03 2016-08-23 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
WO2008039043A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
SG175632A1 (en) * 2006-10-16 2011-11-28 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006103581A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
JP2008535014A (ja) * 2005-03-30 2008-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スケーラブルマルチチャネル音声符号化方法
WO2006108573A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Adaptive residual audio coding
JP2008536184A (ja) * 2005-04-15 2008-09-04 コーディング テクノロジーズ アクチボラゲット 適応残差オーディオ符号化
JP2010507927A (ja) * 2006-05-04 2010-03-11 エルジー エレクトロニクス インコーポレイティド リミキシング性能を持つ改善したオーディオ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6012045621; Jurgen Herre, et al: 'New Concepts in Parametric Coding of Spatial Audio: From SAC to SAOC' Multimedia and EXPO, 2007 IEEE International Conference , 20070701, pages 1894-1897, IEEE *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013017022A (ja) * 2011-07-04 2013-01-24 Nippon Hoso Kyokai <Nhk> オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム
JP2014026007A (ja) * 2012-07-24 2014-02-06 Fujitsu Ltd オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
JP2015532723A (ja) * 2012-08-07 2015-11-12 ドルビー ラボラトリーズ ライセンシング コーポレイション ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
JP2016524721A (ja) * 2013-05-13 2016-08-18 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
US10089990B2 (en) 2013-05-13 2018-10-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
JP2020034920A (ja) * 2015-03-09 2020-03-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化又は復号化するための装置と方法
CN112233684A (zh) * 2015-03-09 2021-01-15 弗劳恩霍夫应用研究促进协会 用于对多声道信号进行编码或解码的装置与方法
US11508384B2 (en) 2015-03-09 2022-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
JP7208126B2 (ja) 2015-03-09 2023-01-18 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネル信号を符号化又は復号化するための装置と方法
CN112233684B (zh) * 2015-03-09 2024-03-19 弗劳恩霍夫应用研究促进协会 用于对多声道信号进行编码或解码的装置与方法
US11955131B2 (en) 2015-03-09 2024-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal

Also Published As

Publication number Publication date
KR20120004546A (ko) 2012-01-12
KR101290394B1 (ko) 2013-07-26
CN101849257A (zh) 2010-09-29
RU2452043C2 (ru) 2012-05-27
MX2010004220A (es) 2010-06-11
WO2009049896A1 (en) 2009-04-23
CA2702986C (en) 2016-08-16
BRPI0816557B1 (pt) 2020-02-18
US8538766B2 (en) 2013-09-17
JP5883561B2 (ja) 2016-03-15
EP2082396A1 (en) 2009-07-29
CN101821799B (zh) 2012-11-07
TW200926147A (en) 2009-06-16
CN101849257B (zh) 2016-03-30
CA2702986A1 (en) 2009-04-23
KR101244545B1 (ko) 2013-03-18
WO2009049896A8 (en) 2010-05-27
WO2009049895A1 (en) 2009-04-23
BRPI0816557A2 (pt) 2016-03-01
JP2011501823A (ja) 2011-01-13
US8155971B2 (en) 2012-04-10
US20130138446A1 (en) 2013-05-30
KR101303441B1 (ko) 2013-09-10
CA2701457C (en) 2016-05-17
AU2008314029B2 (en) 2012-02-09
RU2010114875A (ru) 2011-11-27
WO2009049896A9 (en) 2011-06-09
TWI406267B (zh) 2013-08-21
TW200926143A (en) 2009-06-16
US20090125314A1 (en) 2009-05-14
CA2701457A1 (en) 2009-04-23
CN101821799A (zh) 2010-09-01
US8407060B2 (en) 2013-03-26
MX2010004138A (es) 2010-04-30
AU2008314029A1 (en) 2009-04-23
BRPI0816556A2 (pt) 2019-03-06
TWI395204B (zh) 2013-05-01
RU2010112889A (ru) 2011-11-27
WO2009049895A9 (en) 2009-10-29
KR101244515B1 (ko) 2013-03-18
EP2076900A1 (en) 2009-07-08
AU2008314030A1 (en) 2009-04-23
KR20100063119A (ko) 2010-06-10
RU2474887C2 (ru) 2013-02-10
KR20120004547A (ko) 2012-01-12
AU2008314030B2 (en) 2011-05-19
KR20100063120A (ko) 2010-06-10
JP5260665B2 (ja) 2013-08-14
US20090125313A1 (en) 2009-05-14
US8280744B2 (en) 2012-10-02
US20120213376A1 (en) 2012-08-23

Similar Documents

Publication Publication Date Title
JP5260665B2 (ja) ダウンミックスを用いたオーディオコーディング
JP4685925B2 (ja) 適応残差オーディオ符号化
US7916873B2 (en) Stereo compatible multi-channel audio coding
AU2007312597B2 (en) Apparatus and method for multi -channel parameter transformation
TWI431610B (zh) 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
JP2011059711A (ja) オーディオエンコード及びデコード

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120502

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121203

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130425

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5260665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250