JP5467105B2 - オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法 - Google Patents

オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法 Download PDF

Info

Publication number
JP5467105B2
JP5467105B2 JP2011517781A JP2011517781A JP5467105B2 JP 5467105 B2 JP5467105 B2 JP 5467105B2 JP 2011517781 A JP2011517781 A JP 2011517781A JP 2011517781 A JP2011517781 A JP 2011517781A JP 5467105 B2 JP5467105 B2 JP 5467105B2
Authority
JP
Japan
Prior art keywords
audio
signal
objects
different
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011517781A
Other languages
English (en)
Other versions
JP2011528200A (ja
Inventor
シュテファン シュライナー
ヴォルフガング フィーゼル
マティアス ノイズィンガー
オリヴァー ヘルムート
ラルフ スペルシュナイダー
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011528200A publication Critical patent/JP2011528200A/ja
Application granted granted Critical
Publication of JP5467105B2 publication Critical patent/JP5467105B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本発明は、オーディオ処理に関し、特に、例えば空間オーディオオブジェクト符号化などのオーディオオブジェクト符号化との関連におけるオーディオ処理に関する。
テレビジョンのような最新の放送システムにおいて、オーディオトラックを設計したサウンドエンジニアとしてオーディオトラックを再生しないことが特定の状況で望ましく、むしろ、レンダリング時間で与えられる制約に対処する特別な調整を実行することが望しい。そのような生成後の調整を制御する周知の技術は、それらのオーディオトラックに加えて適切なメタデータを提供することである。
従来のサウンド再生システム、例えば古い家庭用テレビジョンシステムは、1つのスピーカまたはステレオの1対のスピーカからなる。より高性能なマルチチャンネル再生システムは、5個のまたはさらに多くのスピーカを用いる。
マルチチャンネル再生システムが考慮される場合、サウンドエンジニアは、2次元平面において単一の音源を位置付ける際により高い柔軟性があり得り、したがって、それらの全オーディオトラックのためのより高いダイナミックレンジを用いることもでき、その理由は、ボイス了解度が周知のカクテルパーティー効果のためとても簡単であるからである。
しかしながら、それらの現実的な、高いダイナミックサウンドは、従来の再生システムにおいて課題を生じ得る。コンシューマーは、彼女または彼がノイズの多い環境において(例えば駆動車において、または、機内または携帯娯楽システムで)コンテンツを聞いている、彼女または彼が補聴器を着用している、または、彼女または彼が(例えば夜遅くに)彼女または彼の隣人の邪魔をしたくないという理由で、この高いダイナミック信号を望まないというシナリオがあり得る。
さらに、放送は、1つのプログラムにおいて異なるアイテム(例えばコマーシャル)が連続的なアイテムのレベル調整を必要とする異なるクレストファクタのため異なる大きさのレベルにあり得るという課題に直面する。
古典的な放送伝送チェーンにおいて、エンドユーザーは、すでにミックスされたオーディオトラックを受信する。レシーバ側においてさらなる操作も、非常に制限された形式だけで行われ得る。現在、ドルビーメタデータ(Dolby metadata)の小さい機能セットは、ユーザーにとってオーディオ信号のいくらかの特性を修正することを可能にする。
通常、上述のメタデータに基づく操作は、いかなる周波数選択的な区別もなしで適用されるが、これは、オーディオ信号に伝統的に付随されるメタデータがそうするために充分な情報を提供しないからである。
さらに、全体のオーディオストリーム自体だけが、操作することができる。さらに、それぞれのオーディオオブジェクトをこのオーディオストリーム内で採用しさらに分離する方法がない。特に不適切なリスニング環境において、これは満足できないかもしれない。
ミッドナイトモードにおいて、ガイド情報を失うため、現在のオーディオプロセッサにとって、アンビエンスノイズとダイアログを区別することは不可能である。したがって、(大きさにおいて圧縮されさらに制限されなければならない)高いレベルノイズの場合に、ダイアログも、並行に操作される。これは、スピーチ了解度にとって害になり得る。
アンビエントサウンドと比較してダイアログレベルを増加することは、特に聴覚障害者にとってスピーチの知覚を改善することに役立つ。この技術は、オーディオ信号が特性制御情報に加えてレシーバ側におけるダイアログおよびアンビエント成分において実際に分離される場合にだけ働く。ステレオダウンミックス信号が利用できさえすれば、さらなる分離は、別々にスピーチ情報を区別しさらに操作するためにもはや適用されない。
現在のダウンミックス解決策は、中央およびサラウンドチャンネルのためのダイナミックステレオレベルチューニングを可能にする。しかし、ステレオの代わりのいかなる異型スピーカ構成にとっても、トランスミッタから最終的なマルチチャンネル音源をダウンミックスする方法の実際の記述がない。デコーダ内のデフォルト公式だけが、非常に柔軟性のない方法で信号ミックスを実行する。
すべての記載されたシナリオにおいて、一般的に2つの異なる方法が存在する。第1の方法は、送信されるオーディオ信号を生成するときに、1セットのオーディオオブジェクトがモノラル、ステレオまたはマルチチャンネル信号にダウンミックスされる。放送を介して、他のいかなる伝送プロトコルを介して、または、コンピュータ可読の記憶媒体での配布を介して、この信号のユーザーに送信されるこの信号は、通常、例えばスタジオ環境においてサウンドエンジニアによってダウンミックスされた元のオーディオオブジェクトの数より少ない数の多数のチャンネルを有する。さらに、メタデータは、いくつかの異なる修正を可能にするために付随することができるが、これらの修正は、全体の送信信号に適用することができ、または、送信信号がいくつかの異なる送信チャンネルを有する場合に、全体として個々の送信チャンネルに適用することができるだけである。しかしながら、そのような送信チャンネルは、常にいくつかのオーディオオブジェクトの重畳であるので、特定のオーディオオブジェクトの個々の操作は、さらなるオーディオオブジェクトが操作されない間、全く可能でない。
もう一方の方法は、オブジェクトダウンミックスを実行しないが、それらが別々の送信チャンネルとしてあるように、オーディオオブジェクト信号を送信する。そのようなシナリオは、オーディオオブジェクトの数か少ないときによく働く。例えば、5つのオーディオオブジェクトだけが存在するときに、5.1チャンネルのシナリオ内で互いに別々にこれらの5つの異なるオーディオオブジェクトを送信することが可能である。メタデータは、オブジェクト/チャンネルの特異性を示すこれらのチャンネルと関連することができる。そして、レシーバ側において、送信チャンネルは、送信メタデータに基づいて操作することができる。
この方法の不利な点は、それが下位互換性を有しなく、さらに、少数のオーディオオブジェクトとの関連においてだけよく働くということである。オーディオオブジェクトの数が増加するときに、別々の明確なオーディオトラックとしてすべてのオブジェクトを送信するために必要であるビットレートが急速に増加する。この増加するビットレートは、放送アプリケーションとの関連において特に役立たない。
したがって、現在のビットレート効率のよい方法は、異なったオーディオオブジェクトの個々の操作を可能にしない。そのような個々の操作は、それぞれのオブジェクトを別々に送信するときにだけ可能にされる。しかしながら、この方法は、ビットレート効率がよくなく、したがって、特に放送シナリオにおいて可能でない。
ISO/IEC 13818−7:MPEG−2(動画および関連したオーディオ情報の一般的な符号化(Generic coding of moving pictures and associated audio information))−パート7(Part 7):アドバンスドオーディオ符号化(AAC)(Advanced Audio Coding(AAC)) ISO/IEC 23003−1:MPEG−D(MPEGオーディオ技術(MPEG audio technologies))−パート1(Part 1):MPEGサラウンド(MPEG Surround) ISO/IEC 23003−2:MPEG−D(MPEGオーディオ技術(MPEG audio technologies))−パート2(Part 2):空間オーディオオブジェクト符号化(SAOC)(Spatial Audio Object Coding(SAOC)) ISO/IEC 13818−7:MPEG−2(動画および関連したオーディオ情報の一般的な符号化(Generic coding of moving pictures and associated audio information))−パート7(Part 7):アドバンスドオーディオ符号化(AAC)(Advanced Audio Coding(AAC)) ISO/IEC 14496−11:MPEG 4(オーディオ−ビジュアルオブジェクトの符号化(Cording of audio−visual objects))−パート11(Part 11):シーンの記述およびアプリケーションエンジン(BIFS)(Scene Description and Application Engine(BIFS)) ISO/IEC 14496−:MPEG 4(オーディオ−ビジュアルオブジェクトの符号化(Cording of audio−visual objects))−パート20(Part 20):軽量アプリケーションシーン表現(LASER)およびシンプルアグリゲーションフォーマット(SAF)(Lightweight Application Scene Representation(LASER) and Simple Aggregation Format(SAF)) http:/www.dolby.com/assets/pdf/techlibrary/17.AllMetadata.pdf http:/www.dolby.com/assets/pdf/tech_library/18_Metadata.Guide.pdf Krauss, Kurt、Roeden, Jonas、Schildbach, Wolfgang、MPEG−4 HE AAへのダイナミックレンジコントロール係数および他のメタデータの変換(Transcoding of Dynamic Range Control Coefficients and Other Metadata into MPEG−4 HE AA)、AES convention 123、2007年10月、pp 7217 Robinson, Charles Q.、Gundry Kenneth、メタデータを介するダイナミックレンジコントロール(Dynamic Range Control via Metadata)、AES Convention 102、1999年9月、pp 5028 Dolby、「ドルビーデジタルおよびドルビーEビットストリームをオーサリングするためのスタンダードおよびプラクティス(Standards and Practices for Authoring Dolby Digital and Dolby E Bitstream)」、Issue 3 Coding Technologies/Dolby、「aacPlusマルチチャンネルデジタルビデオ放送(DVB)のためのドルビーE/aacPlusメタデータトランスコーダ解決策(Dolby E/aacPlus Metadata Transcoder Solution for aacPlus Multichannel Digital Video Broadcast(DVB))」、V1.1.0 ETSI TS101154:デジタルビデオ放送(DVB)(Digital Video Broadcasting(DVB))、V1.8.1 SMPTE RDD 6−2008:ドルビーEオーディオメタデータシリアルビットストリームの使用の説明およびガイド(Description and Guide to the Use of Dolby E audio Metadata Serial Bitstream)
本発明の目的は、ビットレート効率がよいが、これらの課題に対して柔軟性のある解決策を提供することである。
本発明の第1の態様によれば、この目的は、少なくとも2つの異なるオーディオオブジェクトの重畳を表す少なくとも1つのオーディオ出力信号を生成するための装置によって達成され、その装置は、オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するためのプロセッサであって、その少なくとも2つの異なるオーディオオブジェクトは互いに分離され、その少なくとも2つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、その少なくとも2つの異なるオーディオオブジェクトは互いに独立して操作できる、プロセッサ、少なくとも1つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または操作されたミックスオーディオオブジェクト信号を得るために、その少なくとも1つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて、その少なくとも1つのオーディオオブジェクトのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するためのオブジェクトマニピュレータ、およびその操作されたオーディオオブジェクトと、未修正のオーディオオブジェクトをまたはその少なくとも1つのオーディオオブジェクトと異なる方法で操作される操作された異なるオーディオオブジェクトを結合することによって、そのオブジェクト表現をミックスするためのオブジェクトミキサを含む。
本発明の第2の態様によれば、この目的は、少なくとも2つの異なるオーディオオブジェクトの重畳を表す少なくとも1つのオーディオ出力信号を生成するこの方法によって達成され、その方法は、オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するステップであって、その少なくとも2つの異なるオーディオオブジェクトは互いに分離され、その少なくとも2つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、その少なくとも2つの異なるオーディオオブジェクトは互いに独立して操作できる、ステップ、少なくとも1つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または操作されたミックスオーディオオブジェクト信号を得るために、その少なくとも1つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて、その少なくとも1つのオーディオオブジェクトのそのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するステップ、およびその操作されたオーディオオブジェクトと、未修正のオーディオオブジェクトをまたはその少なくとも1つのオーディオオブジェクトと異なる方法で操作される操作された異なるオーディオオブジェクトを結合することによって、そのオブジェクト表現をミックスするステップを含む。
本発明の第3の態様によれば、この目的は、少なくとも2つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成するための装置によって達成され、その装置は、データストリームが、その少なくとも2つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、その異なるオーディオオブジェクトのうちの少なくとも1つに関連するメタデータを含むように、データストリームをフォーマットするためのデータストリームフォーマッタを含む。
本発明の第4の態様によれば、この目的は、少なくとも2つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成する方法によって達成され、その方法は、データストリームが、その少なくとも2つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、その異なるオーディオオブジェクトのうちの少なくとも1つに関連するメタデータを含むように、データストリームをフォーマットするステップを含む。
本発明のさらなる態様は、本発明の方法を実施するコンピュータプログラムと、それにオブジェクトダウンミックス信号、サイド情報として、オブジェクトパラメータデータおよびそのオブジェクトダウンミックス信号に含まれる1つ以上のオーディオオブジェクトのためのメタデータを格納したコンピュータ可読の記憶媒体とに関連する。
本発明は、別々のオーディオオブジェクト信号または別々のセットのミックスオーディオオブジェクト信号の個々の操作がオブジェクト関連のメタデータに基づいて個々のオブジェクト関連の処理を可能にする知見に基づく。本発明によれば、操作の結果は、スピーカに直接出力されないが、特定のレンダリングシナリオのための出力信号を生成するオブジェクトミキサに提供され、そこにおいて、出力信号は、他の操作されたオブジェクト信号および/または未修正のオブジェクト信号とともに少なくとも1つの操作されたオブジェクト信号または1セットのミックスオブジェクト信号の重畳によって生成される。当然、それぞれのオブジェクトを操作する必要はないが、場合によっては、1つのオブジェクトを操作するだけで十分であり、複数のオーディオオブジェクトのさらなるオブジェクトを操作する必要はない。オブジェクトミキシング操作の結果は、1つまたは複数のオーディオ出力信号であり、それは操作されたオブジェクトに基づく。これらのオーディオ出力信号は、スピーカに送信することができまたはさらなる使用のために格納することができまたは特定のアプリケーションシナリオに応じてさらなるレシーバに送信することもできる。
好ましくは、本発明の操作/ミキシングデバイスに入力される信号は、複数のオーディオオブジェクト信号をダウンミックスすることによって生成されるダウンミックス信号である。ダウンミックス操作は、オブジェクトごとに個々にメタデータ制御することができまたは例えばオブジェクトごとに同じように抑制することができない。前者の場合、メタデータによるオブジェクトの操作は、オブジェクト制御された個々のおよびオブジェクトに特有のアップミックス操作であり、そこにおいて、このオブジェクトを表すスピーカコンポーネント信号が生成される。好ましくは、空間オブジェクトパラメータが同様に提供され、それは送信されたオブジェクトダウンミックス信号を用いてそれの近似バージョンによって元の信号を再生するために用いることができる。そして、オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するためのプロセッサは、パラメトリックデータに基づいて元のオーディオオブジェクトの再生されたバージョンを計算するように作動し、そこにおいて、これらの近似オブジェクト信号は、オブジェクトベースのメタデータによって個々に操作することができる。
好ましくは、オブジェクトレンダリング情報は、同様に提供され、そこにおいて、オブジェクトレンダリング情報は、対象とするオーディオ再生セットアップに関する情報および再生シナリオ内で個々のオーディオオブジェクトの位置決めに関する情報を含む。しかしながら、特定の実施形態は、そのようなオブジェクト位置データなしで働くこともできる。そのような構成は、例えば、変化しないオブジェクト位置の提供であり、それは、固定して設定することができ、または、完全なオーディオトラックのためのトランスミッタおよびレシーバ間をうまく扱うことができる。
本発明の好適な実施形態は、添付図面との関連においてその後に述べられる。
図1は、少なくとも1つのオーディオ出力信号を生成するための装置の好適な実施形態を示す。 図2は、図1のプロセッサの好適な実施を示す。 図3aは、オブジェクト信号を操作するためのマニピュレータの好適な実施形態を示す。 図3bは、図3aに示すようにマニピュレータとの関連においてオブジェクトミキサの好適な実施を示す。 図4は、操作がオブジェクトダウンミックスの後であるが最終的なオブジェクトミックスの前に実行されるという状況において、プロセッサ/マニピュレータ/オブジェクトミキサ構成を示す。 図5aは、符号化されたオーディオ信号を生成するための装置の好適な実施形態を示す。 図5bは、オブジェクトダウンミックス、オブジェクトベースのメタデータ、および空間オブジェクトパラメータを有する伝送信号を示す。 図6は、オブジェクトオーディオファイルを有する、特定のIDによって識別されるいくつかのオーディオオブジェクトおよびジョイントオーディオオブジェクト情報マトリクスEを示すマップを示す。 図7は、図6のオブジェクト共分散マトリクスEの説明を示す。 図8は、ダウンミックスマトリクスおよびダウンミックスマトリクスDによって制御されるオーディオオブジェクトエンコーダを示す。 図9は、ユーザーによって通常に提供されるターゲットレンダリングマトリクスAおよび特定のターゲットレンダリングシナリオのための例を示す。 図10は、本発明のさらなる態様による少なくとも1つのオーディオ出力信号を生成するための装置の好適な実施形態を示す。 図11aは、さらなる実施形態を示す。 図11bは、さらなる実施形態を示す。 図11cは、さらなる実施形態を示す。 図12aは、例示的なアプリケーションシナリオを示す。 図12bは、さらなる例示的なアプリケーションシナリオを示す。
上述の課題に直面して、好適な方法は、それらのオーディオトラックに加えて適切なメタデータを提供することである。そのようなメタデータは、次の3つのファクタ(3つの「古典的な」Dから始まるのもの)を制御する情報からなり得る。
・ダイアログ正規化(dialog normalization)
・ダイナミックレンジコントロール(dynamic range control)
・ダウンミックス(downmix)
そのようなオーディオメタデータ(Audio metadata)は、レシーバが、リスナーによって実行される調整に基づいて、受信されたオーディオ信号を操作するのに役立つ。この種のオーディオメタデータと他のもの(例えば作者(Author)、タイトル(Title)のような記述的メタデータ)を区別するために、それは、通常「ドルビーメタデータ(Dolby Metadata)」と呼ばれる(、なぜなら、それらがドルビー社(Dolby)によってこれまでに実施されているだけであるからである)。その後、この種のオーディオメタデータだけが、考慮され、さらに、単にメタデータと呼ばれている。
オーディオメタデータは、オーディオプログラムに加えて伝送され、レシーバにオーディオに関する極めて重要な情報を有する付加的な制御情報である。メタデータは、とうてい理想とはいえないリスニング環境のためのダイナミックレンジコントロール、プログラム間のレベルマッチング、より少ないスピーカチャンネルを通じてマルチチャンネルオーディオの再生のためのダウンミキシング情報、および他の情報を含む多くの重要な機能を提供する。
メタデータは、スピーカチャンネルの数、再生装置の品質、または相対的なアンビエントノイズレベルに関係なく、十分に発達したホームシアタから飛行中の娯楽まで多くの異なるリスニング状況において、正確にさらに芸術的に再生されるオーディオプログラムのために必要なツールを提供する。
エンジニアまたはコンテンツ製作者は、それらのプログラム内で可能な限りの最高品質のオーディオを提供することに高度の注意を取る一方、彼女または彼は、莫大な家庭用電化製品または元のサウンドトラックを再生することを試みるリスニング環境についてどうすることもできない。メタデータは、エンジニアまたはコンテンツ製作者に、それらの働きがほとんどすべての考えられるリスニング環境において再生されさらに楽しめる方法についてより大きな支配力を提供する。
ドルビーメタデータ(Dollby Metadata)は、前述の3つのファクタを制御する情報を提供する特別なフォーマットである。
3つの最も重要なドルビーメタデータ(Dollby Metadata)機能性は、
・しばしば異なるプログラムタイプからなり、例えば長編映画、コマーシャルなどの表現内でダイアログの長期平均レベルを達成するダイアログ正規化(Dialogue Normalization)。
・大部分のオーディエンスを満足のいくオーディオ圧縮で満足させるが、同時に、それぞれの個々のカスタマーがオーディオ信号のダイナミックスを制御し、さらに圧縮を彼女または彼の個人的なリスニング環境に調整することを可能にするダイナミックレンジコントロール(Dynamic Range Control)。
・マルチチャンネルオーディオ再生装置が利用できない場合に、マルチチャンネルオーディオ信号のサウンドを2つまたは1つのチャンネルにマップするダウンミックス(Downmix)。
ドルビーメタデータは、ドルビーデジタル(AC−3)(Dolby Digital(AC−3))およびドルビーE(Dolby E)に加えて用いられる。ドルビー−Eオーディオメタデータフォーマット(Dolby−E Audio metadata format)は、[非特許文献14]に記載され、ドルビーデジタル(AC−3)(Dolby Digital(AC−3))は、デジタルテレビジョン放送(高品位または標準品位)、DVDまたは他のメディアを通じて家庭へのオーディオの翻訳を対象とする。
ドルビーデジタル(Dolby Digital)は、メタデータを含む、完全な5.1チャンネルプログラムまでオーディオの単一のチャンネルから何でも伝送することができる。デジタルテレビジョンおよびDVDの両方において、それは、ステレオおよび完全な5.1チャンネルの別々のオーディオプログラムの伝送のために共通に用いられる。
ドルビーE(Dolby E)は、特にプロフェッショナルの生成および配布の環境内でマルチチャンネルオーディオの配布を対象とする。いつでもコンシューマーに対して配信する前に、ドルビーE(Dolby E)は、ビデオを有するマルチチャンネル/マルチプログラムオーディオの配布のための好適な方法である。ドルビーE(Dolby E)は、既存の2チャンネルデジタルオーディオインフラストラクチャ内でいかなる数の個々のプログラム構成(それぞれごとにメタデータを含む)に構成される最大8個の別々のオーディオチャンネルを伝送することができる。ドルビーデジタル(Dolby Digital)とは異なり、ドルビーE(Dolby E)は、多くの符号化/復号化生成を扱うことができ、さらに、ビデオフレームレートに同期する。ドルビーデジタル(Dolby Digital)のように、ドルビーE(Dolby E)は、データストリーム内で符号化される個々のオーディオプログラムごとにメタデータを伝送する。ドルビーE(Dolby E)の使用は、結果として生じるオーディオデータストリームにとって、可聴劣化なしで、復号化され、修正され、さらに、再符号化されることを可能にする。ドルビーE(Dolby E)ストリームがビデオフレームレートに同期するので、それは、プロフェッショナルの放送環境において送り、切り替え、さらに編集することができる。
これは別として、手段が、ダイナミックレンジコントロールを実行し、さらに、ダウンミックス生成を制御するために、MPEG AACに加えて提供される。
コンシューマーのための可変性を最小化する方法で可変ピークレベル、平均レベルおよびダイナミックレンジを有するソースマテリアルを扱うために、プログラムが考え出された方法に関係なく、例えば、ダイアログレベルまたは平均音楽レベルが再生でコンシューマー制御レベルに設定されるように、再生されたレベルを制御することが必要である。さらに、それらがサウンドをどれくらい大きくするかという制約なしで、すべてのコンシューマーが、良好な(すなわち低いノイズの)環境でプログラムを聞くことができるというわけではない。自動車環境は、例えば、高いアンビエントノイズレベルを有し、したがって、リスナーがレベルの範囲を低減したいこと、さもなければ再生されることを予期することができる。
これらの理由の両方のために、ダイナミックレンジコントロールは、AACの仕様内で利用できなければならない。これを達成するために、ビットレートを低減したオーディオに、プログラムアイテムのダイナミックレンジを設定しさらに制御するために用いられるデータを加えることが必要である。この制御は、基準レベルに関連して重要なプログラム要素、例えばダイアログとの関係において特定されなければならない。
ダイナミックレンジコントロールの機能は、以下の通りである。
1.ダイナミックレンジコントロール(Dynamic Range Control)は、完全に任意である。したがって、正しい構文について、DRCを呼び出したくない人々のための煩雑性において変化がない。
2.ビットレートを低減したオーディオデータは、ダイナミックレンジを支援する支持データとともに、ソースマテリアルの完全なダイナミックレンジで送信される。
3.ダイナミックレンジコントロールデータは、設定再生ゲインにおいて待ち時間を最短に低減するためにフレームごとに送ることができる。
4.ダイナミックレンジコントロールデータは、AACの「fill_element」機能を用いて送られる。
5.基準レベル(Reference Level)は、フルスケールとして定義される。
6.プログラム基準レベル(Program Reference Level)は、異なる音源の再生レベル間でレベルパリティを可能にし、さらに、ダイナミックレンジコントロールが適用され得る基準を提供するように送信される。それは、例えばプログラムのダイアログコンテンツのレベルまたは音楽プログラムの平均レベルなどのプログラムの大きさの主観的印象に最も関連する音源信号の機能である。
7.プログラム基準レベル(Program Reference Level)は、再生レベルパリティを達成するためにコンシューマーハードウェアにおいて基準レベル(Reference Level)に関連して設定レベルで再生され得るプログラムのレベルを表す。これに関連して、プログラムのより静かな部分は、レベルにおいて増加され得り、さらに、プログラムのより大きい部分は、レベルにおいて低減され得る。
8.プログラム基準レベル(Program Reference Level)は、基準レベル(Reference Level)に関連して0〜−31.75dBの範囲内で特定される。
9.プログラム基準レベル(Program Reference Level)は、0.25dBのステップでファイルされる7ビットを用いる。
10.ダイナミックレンジコントロールは、±31.75 dBの範囲内で特定される。
11.ダイナミックレンジコントロールは、0.25dBのステップを有する8ビットフィールド(1つの符号、7つの大きさ)を用いる。
12.ダイナミックレンジコントロールは、単一のエンティティとしてオーディオチャンネルのスペクトル係数または周波数バンドのすべてに適用することができ、または、その係数は、異なるスケールファクタバンドに分割することができ、それぞれが別々のセットのダイナミックレンジコントロールデータによって別々に制御される。
13.ダイナミックレンジコントロールは、単一のエンティティとして(ステレオまたはマルチチャンネルのビットストリームの)すべてのチャンネルに適用することができ、または、別々のセットのダイナミックレンジコントロールデータによって別々に制御されている複数セットのチャンネルと分割することができる。
14.予期されるセットのダイナミックレンジコントロールデータが失われている場合、ごく最近に受信された有効値が用いられるべきである。
15.ダイナミックレンジコントロールデータのすべての要素は、その都度送られるというわけではない。例えば、プログラム基準レベル(Program Reference Level)は、平均して200ミリ秒ごとに1回だけ送られ得る。
16.必要な場合、エラー検出/保護は、トランスポート層(Transport Layer)によって提供される。
17.ユーザーは、ビットストリームに存在する、信号のレベルに適用される、ダイナミックレンジコントロールの量を変える手段が与えられる。
5.1チャンネル伝送において別々のモノラルまたはステレオミックスダウンチャンネルを送信する可能性の他に、AACは、5−チャンネルソーストラックから、自動ミックスダウン生成も可能にする。LFEチャンネルは、この場合に省略される。
このマトリクスミックスダウン方法は、ミックスダウンに加えられるリアチャンネルの量を定義する少ないセットのパラメータを用いてオーディオトラックのエディタによって制御され得る。
マトリクスミックスダウン方法は、3つのフロント/2つのバックのスピーカ構成の5チャンネルプログラムを、ステレオまたはモノラルプログラムにダウンミックスするためにだけ適用される。それは、3/2構成以外を有するいかなるプログラムに対して適用できない。
MPEGについて、いくつかの手段が、レシーバ側においてオーディオレンダリングを制御するために提供される。
一般的な技術は、シーン記述言語、例えばBIFSおよびLASeRによって提供される。両方の技術は、分離された符号化オブジェクトからオーディオビジュアル要素を再生シーンにレンダリングするために用いられる。
BIFSは[非特許文献5]において標準化され、さらに、LASeRは[非特許文献6]において標準化される。
MPEG−Dは、
・ダウンミックスオーディオ表現に基づいてマルチチャンネルオーディオを生成するために(MPEGサラウンド(MPEG Surround))、さらに
・オーディオオブジェクトに基づいてMPEGサラウンド(MPEG Surround)パラメータを生成するために(MPEG空間オーディオオブジェクト符号化(MPEG Spatial Audio Object Coding))、
主に(パラメトリック)記述(すなわちメタデータ)を取扱う。
MPEGサラウンド(MPEG Surround)は、キューおよび送信信号が高品質のマルチチャンネル表現を合成するために復号化することができるように、送信されたダウンミックス信号に関連してマルチチャンネルオーディオ信号の空間画像を捕獲するためにIDL、ITDおよびICキューに相当するレベル、位相およびコヒーレンスにおいてチャンネル間の差を利用し、さらに、これらのキューを非常にコンパクトな形式で符号化する。MPEGサラウンド(MPEG Surround)エンコーダは、マルチチャンネルオーディオ信号を受信し、そこにおいて、Nは、入力チャンネルの数(例えば5.1)である。符号化プロセスの重要な態様は、典型的にステレオである(が、モノラルでもあり得る)ダウンミックス信号xt1およびxt2がマルチチャンネル入力信号から導出され、さらに、それは、マルチチャンネル信号よりむしろチャンネルを超える伝送のために圧縮されるこのダウンミックス信号である。エンコーダは、モノラルまたはステレオダウンミックスにおいてマルチチャンネル信号の忠実に等価なものを作り出し、さらに、ダウンミックスおよび符号化された空間キューに基づいて最高のマルチチャンネル符号化も作り出すように、有利にダウンミックスプロセスを利用することができる。代わりに、ダウンミックスは、外部から供給することができる。MPEGサラウンド(MPEG Surround)符号化プロセスは、送信チャンネルのために用いられる圧縮アルゴリズムを選ばないものであり、それは例えばMPEG−1 Layer III、MPEG−4 AACまたはMPEG−4 Higg−Efficiency AACのような多くの高性能の圧縮アルゴリズムのいずれかであり得り、または、それはPCMでさえあり得る。
MPEGサラウンド技術は、マルチチャンネルオーディオ信号の非常に効率的なパラメトリック符号化を支持する。MPEG SAOCのアイデアは、個々のオーディオオブジェクト(トラック)の非常に効率的なパラメトリック符号化のための類似のパラメータ表現とともに類似の基本仮定を適用することである。さらに、レンダリング機能性は、オーディオオブジェクトを数種類の再生システム(スピーカのための1.0、2.0、5.0、・・またはヘッドホンのためのバイノーラル)のための音響シーンにインタラクティブにレンダリングするために含まれる。SAOCは、インタラクティブにレンダリングされたオーディオシーンにおいて個々のオブジェクトの再生を後で可能にするために、ジョイントモノラルまたはステレオダウンミックス信号において多くのオーディオオブジェクトを送信するように設計される。この目的のために、SAOCは、オブジェクトレベル差(OLD)(Object Level Differences(OLD))、オブジェクト間クロスコヒーレンス(IOC)(Inter−Object Cross Coherences(IOC))およびダウンミックスチャンネルレベル差(DCLD)(Downmix Channel Level Differences(DCLD))をパラメータビットストリームに符号化する。SAOCデコーダは、SAOCパラメータ表現をMPEGサラウンド(MPEG Surround)パラメータ表現に変換し、そして、それは、所望のオーディオシーンを生成するためにMPEGサラウンド(MPEG Surround)デコーダによってダウンミックス信号とともに復号化される。ユーザーは、結果として生じるオーディオシーンにおいてオーディオオブジェクトの表現を変えるためにこのプロセスをインタラクティブに制御する。SAOCのための多数の考えられるアプリケーションの中で、2〜3の典型的なシナリオは、次に示される。
コンシューマーは、仮想ミキシングデスクを用いて個人的なインタラクティブなリミックスを作り出すことができる。特定の楽器は、例えば、(カラオケのように)沿って演奏するために減衰することができ、元のミックスは個人的な好みに合うように修正することができ、映画/放送においてダイアログレベルはより良好なスピーチ了解度などのために調整することができる。
インタラクティブなゲームのために、SAOCは、サウンドトラックを再生することのストレージおよび計算的に効率的な方法である。仮想シーンにおいて動き回ることは、オブジェクトレンダリングパラメータの適合によって反映される。ネットワーク化されたマルチプレイヤゲームは、特定のプレーヤの端末の外部にあるすべてのサウンドオブジェクトを表すために1つのSAOCストリームを用いて伝送効率から恩恵を受ける。
このアプリケーションとの関連において、用語「オーディオオブジェクト(audio object)」は、サウンド生成シナリオにおいて公知の「ステム(stem)」も含む。特に、ステムは、リミックスにおける使用のために(通常ディスクに)別々に保存されるミックスの個々の成分である。関連したステムは、同じ元の位置から典型的に跳ねるように動く。例は、ドラムステム(ミックスにおいてすべての関連したドラム楽器を含む)、ボーカルステム(ボーカルトラックだけを含む)またはリズムステム(例えばドラム、ギター、キーボードなどのすべてのリズム関連の楽器を含む)であり得る。
現在の通信インフラストラクチャは、モノフォニックであって、その機能性において拡張することができる。SAOC拡張を備えている端末は、いくつかの音源(オブジェクト)を拾い上げ、さらに、モノフォニックダウンミックス信号を生成し、それは、既存の(スピーチ)コーダを用いて互換性のある方法で送信される。サイド情報は、埋め込まれた、下位互換性のある方法で伝えることができる。レガシー端末は、SAOCが使用可能なものが音響シーンをレンダリングすることができる間に、モノフォニック出力を生成し続け、そのため、異なるスピーカを空間的に分離することによって了解度を増加する(「カクテルパーティー効果」)。
実際の利用できるドルビー(Dolby)オーディオメタデータアプリケーションの概要に関して、以下のセクションを記載する。
ミッドナイトモード(Midnight mode)
セクション[0005]で述べるように、リスナーが高いダイナミック信号を望まないシナリオがあり得る。したがって、彼女または彼は、彼女または彼のレシーバのいわゆる「ミッドナイトモード(midnight mode)」を起動することができる。そして、コンプレッサは、全オーディオ信号に適用される。このコンプレッサのパラメータを制御するために、送信されたメタデータは、評価され、さらに、全オーディオ信号に適用される。
クリーンオーディオ(Clean Audio)
他のシナリオは、高いダイナミックアンビエンスノイズを有することを望まないが、ダイアログを含む完全にクリーンな信号を有することを望む聴覚障害者である。(「CleanAudio」)。このモードは、メタデータを用いて使用可能でもあり得る。
現在提案された解決策は、[非特許文献13]−Annex Eに定義される。ステレオメイン信号および付加的なモノラルダイアログ記述チャンネル間のバランスは、個々のレベルパラメータセットによってここで扱われる。別々のシンタックスに基づいて提案された解決策は、DVBにおいてサプリメンタルオーディオサービスと呼ばれている。
ダウンミックス(Downmix)
L/Rダウンミックスを支配する別々のメタデータパラメータがある。特定のメタデータパラメータは、エンジニアにとって、ステレオダウンミックスがどのように構成されるかさらにどのステレオアナログ信号が好ましいかを選択することを可能にする。ここで、中央およびサラウンドダウンミックスレベルは、デコーダごとにダウンミックス信号の最終的なミキシングバランスを定義する。
図1は、本発明の好適な実施形態による少なくとも2つの異なるオーディオオブジェクトの重畳を表す少なくとも1つのオーディオ出力信号を生成するための装置を示す。図1の装置は、オーディオ入力信号のオブジェクト表現12を提供するためにオーディオ入力信号11を処理するためのプロセッサ10を含み、そこにおいて、その少なくとも2つの異なるオーディオオブジェクトは互いに分離され、その少なくとも2つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、その少なくとも2つの異なるオーディオオブジェクトは互いに独立して操作できる。
オブジェクト表現の操作は、少なくとも1つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータ14に基づいて、少なくとも1つのオーディオオブジェクトのオーディオオブジェクト信号またはオーディオオブジェクト信号のミックス表現を操作するためのオブジェクトマニピュレータ13において実行される。オーディオオブジェクトマニピュレータ13は、少なくとも1つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または操作されたミックスオーディオオブジェクト信号表現15を得るように構成される。
オブジェクトマニピュレータによって生成される信号は、操作されたオーディオオブジェクトと、未修正のオーディオオブジェクトまたは操作された異なるオーディオオブジェクトを結合することによって、オブジェクト表現をミックスするためのオブジェクトミキサ16に入力され、そこにおいて、操作された異なるオーディオオブジェクトは、少なくとも1つのオーディオオブジェクトと異なる方法で操作されている。オブジェクトミキサの結果は、1つ以上のオーディオ出力信号17a、17b、17cを含む。好ましくは、1つ以上の出力信号17a〜17cは、例えば、モノラルレンダリングセットアップ、ステレオレンダリングセットアップ、例えば少なくとも5つまたは少なくとも7つの異なるオーディオ出力信号を必要とするサラウンドセットアップなどの3つ以上のチャンネルを含むマルチチャンネルレンダリングセットアップなどの特定のレンダリングセットアップのために設計される。
図2は、オーディオ入力信号を処理するためのプロセッサ10の好適な実施を示す。好ましくは、オーディオ入力信号11は、後述する図5aのオブジェクトダウンミキサ101aによって得られるように、オブジェクトダウンミックス11として実施される。この状況において、プロセッサは、例えば、後述のように図5aにおいてオブジェクトパラメータ計算器101bによって生成されるように、オブジェクトパラメータ18をさらに受信する。そして、プロセッサ10は、別々のオーディオオブジェクト信号12を計算する位置にある。オーディオオブジェクト信号12の数は、オブジェクトダウンミックス11におけるチャンネルの数より多くあり得る。オブジェクトダウンミックス11は、モノラルダウンミックス、ステレオダウンミックスまたは2つのチャンネルよりも多いチャンネルを有するダウンミックスさえも含むことができる。しかしながら、プロセッサ12は、オブジェクトダウンミックス11において個々の信号の数と比較してより多いオーディオオブジェクト信号12を生成するように作動することができる。オーディオオブジェクト信号は、プロセッサ10によって実行されるパラメトリック処理のため、オブジェクトダウンミックス11が実行される前に存在した元のオーディオオブジェクトの真の再生でないが、オーディオオブジェクト信号は、元のオーディオオブジェクトの近似バージョンであり、そこにおいて、近似の精度は、プロセッサ10において実行される分離アルゴリズムの種類、および、もちろん送信されたパラメータの精度に依存する。好適なオブジェクトパラメータは、空間オーディオオブジェクト符号化から公知のパラメータであり、個々に分離されたオーディオオブジェクト信号を生成するための好適な再構成アルゴリズムは、空間オーディオオブジェクト符号化標準により実行される再構成アルゴリズムである。プロセッサ10およびオブジェクトパラメータの好適な実施形態は、図6〜図9との関連においてその後に述べられる。
図3aおよび図3bは実施を集合的に示し、そこにおいて、オブジェクト操作は再生セットアップにオブジェクトダウンミックスの前に実行され、さらに、図4はさらなる実施を示し、そこにおいて、オブジェクトダウンミックスは操作の前に実行され、さらに、操作は最終的なオブジェクトミキシング操作の前に実行される。図4と比較した図3a、図3bにおける手順の結果は同様であるが、オブジェクト操作は処理シナリオにおいて異なるレベルで実行される。オーディオオブジェクト信号の操作が効率および計算資源との関連において問題であるときに、図3a/図3bの実施形態は好ましく、その理由は、オーディオ信号操作が図4におけるような複数のオーディオ信号よりむしろ単一のオーディオ信号だけに実行されるからである。オブジェクトダウンミックスが未修正のオブジェクト信号を用いて実行されなければならないという必要がある得る異なる実施において、図4の構成は好ましく、そこにおいて、操作は、例えば、左チャンネルL、中央チャンネルCまたは右チャンネルRのための出力信号を得るために、オブジェクトダウンミックスの後であるが最終的なオブジェクトミックスの前に実行される。
図3aは、図2のプロセッサ10が別々のオーディオオブジェクト信号を出力する状況を示す。例えばオブジェクト1のための信号などの少なくとも1つのオーディオオブジェクト信号は、このオブジェクト1のためのメタデータに基づいて、マニピュレータ13aにおいて操作される。実施に応じて、例えばオブジェクト2などの他のオブジェクトは、マニピュレータ13bによって同様に操作される。当然、操作されないにもかかわらずオブジェクト分離によって生成される、例えばオブジェクト3などのオブジェクトが実際に存在する状況が生じ得る。図3aの処理の結果は、図3aの例において、2つの操作されたオブジェクト信号および1つの非操作の信号である。
これらの結果は、オブジェクトミキサ16に入力され、それは、オブジェクトダウンミキサ19a、19b、19cとして実施される第1のミキサステージを含み、さらに、デバイス16a、16b、16cによって実施される第2のオブジェクトミキサステージを含む。
オブジェクトミキサ16の第1のステージは、図3aの出力ごとに、例えば、図3aの出力1のためのオブジェクトダウンミキサ19a、図3aの出力2のためのオブジェクトダウンミキサ19b、図3aの出力3のためのオブジェクトダウンミキサ19cなどのオブジェクトダウンミキサを含む。オブジェクトダウンミキサ19a〜19cの目的は、それぞれのオブジェクトを出力チャンネルに「配布する(distribute)」ことである。したがって、それぞれのオブジェクトダウンミキサ19a、19b、19cは、左コンポーネント信号L、中央コンポーネント信号Cおよび右コンポーネント信号Rのための出力を有する。このように、例えばオブジェクト1が単一のオブジェクトである場合、ダウンミキサ19aは、直通的なダウンミキサであり、さらに、ブロック19aの出力は、17a、17b、17cで示される最終的な出力L、C、Rと同様である。オブジェクトダウンミキサ19a〜19cは、好ましくは30で示されるレンダリング情報を受信し、そこにおいて、レンダリング情報は、レンダリングセットアップ、すなわち、図3bの実施形態において3つの出力スピーカだけが存在するように表し得る。これらの出力は、左スピーカL、中央スピーカCおよび右スピーカRである。例えば、レンダリングセットアップまたは再生セットアップが5.1チャンネルシナリオを含む場合、それぞれのオブジェクトダウンミキサは、6つの出力チャンネルを有し、さらに、左チャンネルのための最終的な出力信号、右チャンネルのための最終的な出力信号、中央チャンネルのための最終的な出力信号、左サラウンドチャンネルのための最終的な出力信号、右サラウンドチャンネルのための最終的な出力信号および低周波エンハンスメント(サブウーファー)チャンネルのための最終的な出力信号が得られるように、6つの加算器が存在する。
特に、加算器16a、16b、16cは、それぞれのチャンネルのためのコンポーネント信号を結合するように構成され、それらは、対応するオブジェクトダウンミキサによって生成される。この結合は、好ましくはサンプル加算による直通的なサンプルであるが、実施に応じて、重み付けファクタが、同様に適用できる。さらに、図3a、図3bにおける機能性は、エレメント19a〜16cが周波数領域において作動し得るように、周波数またはサブバンド領域において実行でき、さらに、何らかの周波数/時間変換が再生セットアップにおいてスピーカに信号を実際に出力する前にある。
図4は、代わりの実施を示し、そこにおいて、エレメント19a、19b、19c、16a、16b、16cの機能性は、図3bの実施形態と類似している。しかしながら、重要なことに、オブジェクトダウンミックス19aの前に図3aにおいて起こった操作は、オブジェクトダウンミックス19aの後で起こる。このように、それぞれのオブジェクトのためのメタデータによって制御されるオブジェクトに特有の操作は、ダウンミックス領域において、すなわち、その後の操作されたコンポーネント信号の実際の加算の前に行われる。図4が図1と比較されるときに、19a、19b、19cとしてのオブジェクトダウンミキサがプロセッサ10内で実施され、さらに、オブジェクトミキサ16が加算器16a、16b、16cを含むことが明らかになる。図4が実施され、さらに、オブジェクトダウンミキサがプロセッサの部分であるときに、プロセッサは、図1のオブジェクトパラメータ18に加えて、レンダリング情報30、すなわち、それぞれのオーディオオブジェクトの位置に関する情報およびレンダリングセットアップに関する情報および場合によっては付加的な情報を受信する。
さらに、操作は、ブロック19a、19b、19cによって実施されるダウンミックス操作を含むことができる。この実施形態において、マニピュレータは、これらのブロックを含み、さらに、付加的な操作が、起こり得るがいずれにせよ必要でない。
図5aは、図5bに概略的に示されるように、データストリームを生成することができるエンコーダ側の実施形態を示す。特に、図5aは、少なくとも2つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号50を生成するための装置を示す。基本的に、図5aの装置は、データストリームが、例えば少なくとも2つのオーディオオブジェクトの重み付けられたまたは重み付けられていない結合などの結合を表すオブジェクトダウンミックス信号52を含むように、データストリーム50をフォーマットするためのデータストリームフォーマッタ51を示す。さらに、データストリーム50は、サイド情報として、少なくとも1つの異なるオーディオオブジェクトに関連するオブジェクト関連のメタデータ53を含む。好ましくは、データストリーム50は、パラメトリックデータ54をさらに含み、それは時間および周波数選択的であり、さらに、それはいくつかのオーディオオブジェクトにオブジェクトダウンミックス信号の高品質の分離を可能にし、そこにおいて、この操作は、上述のように図1においてプロセッサ10によって実行されるオブジェクトアップミックス操作とも呼ばれる。
オブジェクトダウンミックス信号52は、好ましくはオブジェクトダウンミキサ101aによって生成される。パラメトリックデータ54は、好ましくはオブジェクトパラメータ計算器101bによって生成され、さらに、オブジェクト選択的メタデータ53は、オブジェクト選択的メタデータプロバイダ55によって生成される。オブジェクト選択的メタデータプロバイダは、サウンドスタジオ内でオーディオ製作者によって生成されるようにメタデータを受信するための入力であってもよく、または、オブジェクト分離の後で実行することができるオブジェクト関連の分析によって生成されるデータであってもよい。特に、オブジェクト選択的メタデータプロバイダは、例えば、オブジェクトがスピーチオブジェクト、サウンドオブジェクトまたはサラウンドサウンドオブジェクトであるかどうかを見いだすために、プロセッサ10によってオブジェクトの出力を分析するために実施することができる。このように、スピーチオブジェクトは、スピーチ符号化から公知である周知のスピーチ検出アルゴリズムのいくつかによって分析することができ、さらに、オブジェクト選択的分析は、楽器から生じるサウンドオブジェクトを見いだすためにも実施することができる。そのようなサウンドオブジェクトは、高いトーン特性を有し、したがって、スピーチオブジェクトまたはサラウンドサウンドオブジェクトと区別することができる。サラウンドサウンドオブジェクトは、例えば、シネマムービー中に典型的に存在するバックグランドサウンドを反響する全くノイズの多い特性を有し、そこにおいて、例えば、バックグラウンドノイズは、交通サウンドまたは他のいかなる定常のノイズの多い信号、または、例えば射撃シーンが映画館において起こるときに生成されるような広帯域スペクトルを有する非定常の信号である。
この分析に基づいて、聴覚障害者または高齢者にとって、映画のより良好な理解のために役立つように、スピーチを強調するために、サウンドオブジェクトを増幅し、さらに、他のオブジェクトを減衰することができる。前述のように、他の実施は、例えばオブジェクト識別などのオブジェクトに特有のメタデータおよび例えばステレオダウンミックスまたはサラウンドサウンドダウンミックスなどのCDまたはDVDにおける実際のオブジェクトダウンミックス信号を生成するサウンドエンジニアによるオブジェクト関連のデータの提供を含む。
図5dは、例示的なデータストリーム50を示し、それは、メイン情報として、モノラル、ステレオまたはマルチチャンネルオブジェクトダウンミックスを有し、さらに、それは、サイド情報として、オブジェクトパラメータ54およびオブジェクトベースのメタデータ53を有し、それらは、オブジェクトをスピーチまたはサラウンドと識別するだけの場合に変化しない、または、例えばミッドナイトモードによって必要であるようにオブジェクトベースのメタデータのようなレベルデータの提供の場合に時間変化する。しかしながら、好ましくは、オブジェクトベースのメタデータは、データレートを保存するために、周波数選択的な方法で提供されない。
0および1間のダウンミックスマトリクス要素の値は可能である。特に、0.5の値は、特定のオブジェクトがそのエネルギーの半分だけであるがダウンミックス信号に含まれることを示す。このように、オブジェクトナンバー4のようなオーディオオブジェクトが両方のダウンミックス信号チャンネルに等しく配布されるときに、d24およびd14は0.5に等しい。ダウンミキシングのこの方法は、いくらかの状況のために好ましいエネルギー節約のダウンミックス操作である。しかしながら、代わりに、非エネルギー節約のダウンミックスが、同様に用いることができ、そこにおいて、全体のオーディオオブジェクトは、このオーディオオブジェクトのエネルギーがダウンミックス信号内で他のオーディオオブジェクトに関して2倍になるように、左ダウンミックスチャンネルおよび右ダウンミックスチャンネルに導入される。
特に、マトリクス要素aijは、部分または全体のオブジェクトjが特定の出力チャンネルiにおいてレンダリングされるものかどうかを示す。図9の下部は、シナリオのターゲットレンダリングマトリクスのための簡単な例を示し、そこにおいて、6つのオーディオオブジェクトAO1〜AO6があり、最初の5つのオーディオオブジェクトだけが特定の位置でレンダリングされるべきであり、第6のオーディオオブジェクトは全くレンダリングされるべきでない。
その後、本発明の好適な実施形態が、図に10を参照して要約される。
好ましくは、SAOC(空間オーディオオブジェクト符号化)から公知の方法は、1つのオーディオ信号を異なる部分に分割する。これらの部品は、例えば異なるサウンドオブジェクトであってもよいが、それはこれに制限されない。
メタデータがオーディオ信号の単一の部分ごとに送信される場合、それは、他の部分が不変のままであるかまたは異なるメタデータによって修正され得る間に、ちょうど信号成分のいくらかを調整することを可能にする。
これは、異なるサウンドオブジェクトのために行われ得るが、個々のスペクトル範囲のためにも行われ得る。
オブジェクト分離のためのパラメータは、あらゆる個々のオーディオオブジェクトごとに、古典的であるかまたはさらに新しいメタデータ(ゲイン、圧縮、レベル、・・・)である。これらのデータは、好ましくは送信される。
デコーダ処理ボックスは、2つの異なるステージにおいて実施される。第1のステージにおいて、オブジェクト分離パラメータは、個々のオーディオオブジェクトを生成する(10)ために用いられる。第2のステージにおいて、処理ユニット13は、複数の例を有し、そこにおいて、それぞれの例は、個々のオブジェクトのためにある。ここで、オブジェクトに特有のメタデータは、適用されるべきである。デコーダの終端で、すべての個々のオブジェクトは、1つの単一のオーディオ信号に再び結合される(16)。さらに、ドライ/ウエットコントローラ20は、エンドユーザーに彼女または彼の好適な設定を見つける簡単な可能性を与えるために、元のおよび操作された信号間にわたって平滑なフェイドを可能にし得る。
特定の実施に応じて、図10は、2つの形態を示す。ベース形態において、オブジェクト関連のメタデータは、ちょうど特定のオブジェクトのためのオブジェクト記述を示す。好ましくは、オブジェクト記述は、図10において21で示されるように、オブジェクトIDに関連する。したがって、デバイス13aによって操作される上側のオブジェクトのためのオブジェクトベースのメタデータは、このオブジェクトが「スピーチ」オブジェクトであるというまさに情報である。アイテム13bによって処理される他のオブジェクトのためのオブジェクトベースのメタデータは、この第2のオブジェクトがサラウンドオブジェクトであるという情報を有する。
両方のオブジェクトのためのこの基本的なオブジェクト関連のメタデータは、拡張クリーンオーディオモードを実施するために十分であり得り、そこにおいて、スピーチオブジェクトは増幅され、さらに、サラウンドオブジェクトは減衰され、または、一般的に言って、スピーチオブジェクトはサラウンドオブジェクトに関して増幅され、または、サラウンドオブジェクトはスピーチオブジェクトに関して減衰される。しかしながら、ユーザーは、好ましくはレシーバ/デコーダ側において異なる処理モードを実施することができ、それはモード制御入力を介してプログラムすることができる。これらの異なるモードは、ダイアログレベルモード、圧縮モード、ダウンミックスモード、拡張ミッドナイトモード、拡張クリーンオーディオモード、ダイナミックダウンミックスモード、ガイド付きアップミックスモード、オブジェクトのリロケーションのためのモードなどであり得る。
実施に応じて、異なるモードは、例えばスピーチまたはサラウンドなどのオブジェクトの種類または特性を示す基本的な情報に加えて、異なるオブジェクトベースのメタデータを必要とする。ミッドナイトモードにおいて、オーディオ信号のダイナミックレンジは圧縮されなければならなく、例えばスピーチオブジェクトおよびサラウンドオブジェクトなどのオブジェクトごとに、実際のレベルまたはミッドナイトモードのためのターゲットレベルがメタデータとして提供されることが好ましい。オブジェクトの実際のレベルが提供されるときに、レシーバは、ミッドナイトモードのためのターゲットレベルを計算しなければならない。しかしながら、ターゲット相対レベルが与えられるときに、デコーダ/レシーバ−側処理は低減される。
この実施において、それぞれのオブジェクトは、単一のオブジェクト内のレベル差が低減されるように、ダイナミックレンジを圧縮するためにレシーバによって用いられるレベル情報の時間的に変化するオブジェクトベースのシーケンスを有する。これは、自動的に、最終的なオーディオ信号をもたらし、そこにおいて、レベル差は、ミッドナイトモード実施によって必要であるように時々低減される。クリーンオーディオアプリケーションのために、スピーチオブジェクトのためのターゲットレベルは、同様に提供することができる。そして、サラウンドオブジェクトは、特定のスピーカセットアップによって生成されるサウンド内でスピーチオブジェクトを非常に強調するために、ゼロにまたはほとんどゼロに設定され得る。ミッドナイトモードの正反対である高忠実度アプリケーションにおいて、オブジェクトのダイナミックレンジまたはオブジェクト間の差のダイナミックレンジは、強化することもできる。この実施において、ターゲットオブジェクトゲインレベルを提供することが好ましく、その理由は、結局、サウンドスタジオ内で芸術的なサウンドエンジニアによって作り出され、したがって、自動またはユーザー定義の設定と比較して最高品質を有するサウンドが得られることを、これらのターゲットレベルが保証するからである。
他の実施において、オブジェクトベースのメタデータは、アドバンスドダウンミックスに関連し、オブジェクト操作は、特定のレンダリングセットアップにとって異なるダウンミックスを含む。そして、オブジェクトベースのメタデータは、図3bまたは図4においてオブジェクトダウンミキサブロック19a〜19cに導入される。この実施において、マニピュレータは、個々のオブジェクトダウンミックスがレンダリングセットアップに応じて実行されるときに、ブロック19a〜19cを含み得る。特に、オブジェクトダウンミックスブロック19a〜19cは、互いに異なるように設定することができる。この場合、スピーチオブジェクトは、チャンネル配置に応じて、左または右チャンネルにおいてよりむしろ中央チャンネルだけに導入され得る。そして、ダウンミキサブロック19a〜19cは、異なる複数のコンポーネント信号出力を有し得る。ダウンミックスは、ダイナミックに実施することもできる。
さらに、ガイド付きアップミックス情報およびオブジェクトのリロケーションのための情報は、同様に提供することができる。
その後、メタデータおよびオブジェクトに特有のメタデータのアプリケーションを提供する好適な方法の概要が与えられる。
オーディオオブジェクトは、典型的なSOACアプリケーションにおいて理想的に分離することができない。オーディオの操作のために、完全な分離ではないがオブジェクトの「マスク(mask)」を有することは十分であり得る。
これは、オブジェクト分離のための少なく/粗いパラメータをもたらす可能性がある。
「ミッドナイトモード」と呼ばれるアプリケーションのために、オーディオエンジニアは、例えば一定のダイアログ量だが操作されたアンビエンスノイズにおいて生じる、オブジェクトごとに独立してすべてのメタデータパラメータを定義する必要がある(「拡張ミッドナイトモード」)。
これは、補聴器(「拡張クリーンオーディオ」)を着用している人々のために役立ち得る。
新しいダウンミックスシナリオ:異なる分離されたオブジェクトは、特定のダウンミックス状況ごとに異なって扱われ得る。例えば、5.1チャンネル信号は、ステレオ家庭用テレビジョンシステムのためにダウンミキシングされなければならなく、さらに、他のレシーバは、モノラル再生システムだけでさえも有する。したがって、異なるオブジェクトは、異なる方法において扱われ得る(、さらに、これのすべては、サウンドエンジニアによって提供されるメタデータのため、生成の間、サウンドエンジニアによって制御される)。
また、3.0チャンネルなどに対するダウンミックスが好ましい。
生成されたダウンミックスは、一定のグローバルパラメータ(セット)によって定義されないが、それは時間的に変化するオブジェクト依存パラメータから生成され得る。
新しいオブジェクトベースのメタデータについて、ガイド付きアップミックスを同様に実行することが可能である。
オブジェクトは、例えば、アンビエンスが減衰されるときに空間画像をより広くするために、異なる位置に位置付けられ得る。これは、聴覚障害者にとってスピーチ了解度に役立つ。
本書類において提案された方法は、ドルビーコーデック(Dolby Codecs)において実施され主に用いられる既存のメタデータ概念を拡張する。現在、周知のメタデータ概念を、全体のオーディオストリームにだけでなく、このストリーム内で抽出されたオブジェクトにも適用することが可能である。これは、オーディオエンジニアおよびアーティストに、より高い柔軟性、調整のより大きな範囲、したがって、より良好なオーディオ品質およびリスナーとっての楽しみを与える。
図12a、図12bは、本発明の概念の異なるアプリケーションシナリオを示す。古典的なシナリオにおいて、テレビジョンにおいてスポーツが存在し、そこにおいて、すべての5.1チャンネルにおいてスタジアム雰囲気を有し、さらに、スピーカチャンネルが中央チャンネルにマップされる。この「マッピング(mapping)」は、スタジアムの雰囲気を伝送する5.1チャンネルのために存在する中央チャンネルへのスピーカチャンネルの直通的な加算によって実行することができる。現在、本発明のプロセスは、スタジアム雰囲気サウンド記述においてそのような中央チャンネルを有することを可能にする。そして、加算演算は、スタジアム雰囲気からの中央チャンネルおよびスピーカをミックスする。スピーカおよびスタジアム雰囲気からの中央チャンネルのためのオブジェクトパラメータを生成することによって、本発明は、これらの2つのサウンドをデコーダ側において分離することを可能にし、さらに、スピーカまたはスタジアム雰囲気からの中央チャンネルを拡張しまたは減衰することを可能にする。さらなるシナリオは、2つのスピーカを有するときである。そのような状況は、2人が同一のサッカーゲームをコメントしているときに起こり得る。特に、同時に話している2つのスピーカが存在するときに、別々のオブジェクトとしてこれらの2つのスピーカを有し、さらに、スタジアム雰囲気チャンネルから分離するこれらの2つのスピーカを有するために役立ち得る。そのようなアプリケーションにおいて、5.1チャンネルおよび2つのスピーカチャンネルは、低周波エンハンスメントチャンネル(サブウーファーチャンネル)が無視されるときに、8つの異なるオーディオオブジェクトまたは7つの異なるオーディオオブジェクトとして処理することができる。直通的な配布インフラストラクチャが5.1チャンネルサウンド信号に適合されるので、7つの(または8つの)オブジェクトは、5.1チャンネルダウンミックス信号にダウンミックスすることができ、さらに、オブジェクトパラメータは、5.1ダウンミックスチャンネルに加えて提供することができ、レシーバ側において、オブジェクトが再び分離され得り、さらに、オブジェクトベースのメタデータがスタジアム雰囲気オブジェクトからスピーカオブジェクトを識別するという事実のため、オブジェクトに特有の処理が、オブジェクトミキサによる最終的な5.1チャンネルダウンミックスがレシーバ側において起こる前に可能である。
このシナリオにおいて、第1のスピーカを含む第1のオブジェクト、第2のスピーカを含む第2のオブジェクトおよび完全なスタジアム雰囲気を含む第3のオブジェクトを有することもできる。
その後、オブジェクトベースのダウンミックスシナリオの異なる実施は、図11a〜図11cとの関連において述べられる。
例えば、図12aまたは図12bのシナリオによって生成されるサウンドが従来の5.1チャンネル再生システムにおいて再生されなければならないときに、埋め込まれたメタデータストリームは無視することができ、さらに、受信されたストリームはそのままに再生することができる。しかしながら、再生がステレオスピーカセットアップにおいて起こらなければならないときに、5.1チャンネルからステレオへのダウンミックスが起こらなければならない。サラウンドチャンネルがちょうど左/右に加算される場合、モデレータが小さすぎるレベルにあり得る。したがって、モデレータオブジェクトが(再)加算される前に、ダウンミックスの前または後に雰囲気レベルを低減することが好ましい。
聴覚障害者は、まだ左右に分離される両方のスピーカを有する間により良好なスピーチ了解度を有するために雰囲気レベルを低減してもよく、それは、「カクテルパーティー効果」として公知であり、そこにおいて、彼女または彼の名前を聞いてから、彼女または彼が彼女または彼の名前を聞いた方向に集中する。この方向に特有の集中は、心理音響の観点から、異なる方向から聞こえるサウンドを低減する。したがって、例えば、左、右または左右の両方におけるスピーカなどの特定のオブジェクトのはっきりした位置は、スピーカが左右間の中央に現れるように、了解度を増加できる。このために、入力オーディオストリームは、好ましくは別々のオブジェクトに分割され、そこにおいて、オブジェクトは、オブジェクトが重要であるかまたはそれほど重要でないというメタデータにおいてランキングを有しなければならない。そして、それらの間のレベル差は、メタデータにより調整することができ、または、オブジェクト位置は、メタデータにより了解度を増加するために再配置することができる。
この目的を得るために、メタデータは送信信号に適用されないが、メタデータは場合によってはオブジェクトダウンミックスの前または後に単一の分離可能なオーディオオブジェクトに適用される。現在、本発明は、これらのチャンネルが個々に操作することができるように、オブジェクトが空間チャンネルに制限されなければならないことがもう必要ではない。その代わりに、本発明のオブジェクトベースのメタデータ概念は、特定のチャンネルにおいて特定のオブジェクトを有することを必要としないが、オブジェクトは、いくつかのチャンネルにダウンミックスすることができ、さらに、まだ個々に操作することができる。
図11aは、好適な実施形態のさらなる実施を示す。オブジェクトダウンミキサ16は、k×n個の入力チャンネルからm個の出力チャンネルを生成し、そこにおいて、kはオブジェクトの数であり、さらに、n個のチャンネルは、オブジェクトごとに生成される。図11aは、図3a、図3bのシナリオに対応し、そこにおいて、操作13a、13b、13cは、オブジェクトダウンミックスの前に起こる。
図11aは、メタデータ制御なしで実施することができるレベルマニピュレータ19d、19e、19fをさらに含む。しかしながら、代わりに、これらのレベルマニピュレータは、ブロック19d〜19fによって実施されるレベル修正が図1のオブジェクトマニピュレータ13の部分でもあるのと同様に、オブジェクトベースのメタデータによって制御することができる。ダウンミックス操作19a、19b、19cも、これらのダウンミックス操作がオブジェクトベースのメタデータによって制御されるときに同じである。しかしながら、この場合は、図11aに示されないが、オブジェクトベースのメタデータが同様にダウンミックスブロック19a〜19cに送るときに、同様に実施することができる。後者の場合、これらのブロックは、図11aのオブジェクトマニピュレータ13の部分でもあり、さらに、オブジェクトミキサ16の残りの機能性は、対応する出力チャンネルのための操作されたオブジェクトコンポーネント信号の出力チャンネル的な結合によって実施される。さらに、図11aは、ダイアログ正規化機能性25を含み、それは、このダイアログ正規化が出力チャンネル領域以外のオブジェクト領域において起こらないので、従来のメタデータによって実施され得る。
図11bは、オブジェクトベースの5.1チャンネル−ステレオダウンミックスの実施を示す。ここで、ダウンミックスは、操作の前に実行され、したがって、図11bは、図4のシナリオに対応する。レベル修正13a、13bは、オブジェクトベースのメタデータによって実行され、例えば、上側のブランチがスピーチオブジェクトに対応し、さらに、下側のブランチがサラウンドオブジェクトに対応し、または、図12a、図12bにおける例のために、上側のブランチは1つまたは両方のスピーカに対応し、さらに、下側のブランチはすべてのサラウンド情報に対応する。そして、レベルマニピュレータ13a、13bは、オブジェクトベースのメタデータがちょうどオブジェクトの識別であるように、固定して設定されたパラメータに基づいて両方のオブジェクトを操作するが、レベルマニピュレータ13a、13bは、メタデータ14によって提供されるターゲットレベルに基づいてまたはメタデータ14によって提供される実際のレベルに基づいてレベルを操作することもできる。したがって、マルチチャンネル入力のためのステレオダウンミックスを生成するために、オブジェクトごとにダウンミックス公式が適用され、さらに、オブジェクトは再びそれらを出力信号にリミックスする前に一定のレベルによって重み付けられる。
図11cに示されるようにクリーンオーディオアプリケーションのために、重要性レベルは、それほど重要でない信号成分の低減を可能にするメタデータとして送信される。そして、他のブランチは、重要性成分に対応し、それは、減衰することができるそれほど重要でない成分に下側のブランチが対応する間に増幅される。異なるオブジェクトの特定の減衰および/または増幅がどのように実行されるかは、レシーバによって固定して設定することができるが、さらに、図11cにおける「ドライ/ウエット」制御14によって実施されるように、オブジェクトベースのメタデータによって制御することもできる。
一般的に、ダイナミックレンジコントロールは、マルチバンド圧縮としてAACダイナミックレンジコントロール実施と同様に行われ、オブジェクト領域において実行することができる。オブジェクトベースのメタデータは、イコライザ実施と類似している周波数選択的な圧縮が実行されるように、周波数選択的なデータでさえあり得る。
前述のように、ダイアログ正規化は、好ましくは、ダウンミックスの後で、すなわちダウンミックス信号において実行される。一般的に、ダウンミックスは、n個の入力チャンネルを有するk個のオブジェクトをm個の出力チャンネルに処理できるべきである。
オブジェクトを別々のオブジェクトに分離することが必ずしも重要であるというわけではない。操作される信号成分を「マスクアウトする(mask out)」ことが十分であり得る。これは、画像処理においてマスクを編集することと類似している。そして、一般化された「オブジェクト」は、いくつかの元のオブジェクトの重畳であり、この重畳は、元のオブジェクトの総数より少ない数の多数のオブジェクトを含む。すべてのオブジェクトは、最終的なステージで再び合計される。分離された単一のオブジェクトに関心がないかもしれなく、さらに、いくらかのオブジェクトのために、レベル値は、カラオケ歌手が彼女または彼自身のボーカルを残りの楽器のオブジェクトに導入することができるように、ボーカルのオブジェクトを完全に除去することに関心があり得る例えばカラオケアプリケーションなどのために、特定のオブジェクトが完全に除去されなければならないときに、高い負のdB数値である0に設定され得る。
本発明の他の好適なアプリケーションは、前述のように、単一のオブジェクトのダイナミックレンジが低減できる拡張ミッドナイトモード、または、オブジェクトのダイナミックレンジが拡大される高忠実度モードである。これに関連して、送信信号は圧縮することができ、さらに、この圧縮を逆にすることを目的とする。ダイアログ正規化のアプリケーションは、主にスピーカに対する出力として全信号のために起こることが好ましいが、異なるオブジェクトのための非線形減衰/増幅は、ダイアログ正規化が調整されるときに役立つ。オブジェクトダウンミックス信号から異なるオーディオオブジェクトを分離するためのパラメトリックデータに加えて、和信号に関連する古典的なメタデータに加えてオブジェクトおよび和信号ごとに、ダウンミックスのためのレベル値、重要性、クリーンオーディオのための重要性レベルを示す重要性値、オブジェクト識別、時間的に変化する情報として実際の絶対的または相対的なレベル、または、時間的に変化する情報として絶対的または相対的なターゲットレベルなどを送信することが好ましい。
記載された実施形態は、本発明の原理のために単に示すだけである。ここに記載されている構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによって制限されるが、ここに実施形態の記載および説明として提示される具体的な詳細によっては制限されないことが意図である。
本発明の方法の特定の実現要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施され得る。実施は、本発明の方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に可読の制御信号を格納したデジタル記憶媒体、特にディスク、DVDまたはCDを用いて実行され得る。そのため、本発明は、一般的に、機械可読のキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために作動される。したがって、言い換えると、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。

Claims (14)

  1. 少なくとも2つの異なるオーディオオブジェクトの重畳を表す少なくとも1つのオーディオ出力信号を生成するための装置であって、前記装置は、
    オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するためのプロセッサであって、前記オブジェクト表現とは、
    前記少なくとも2つの異なるオーディオオブジェクトは互いに分離され、
    前記少なくとも2つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、
    前記少なくとも2つの異なるオーディオオブジェクトは互いに独立して操作でき
    前記プロセッサは前記入力信号を受信するように構成され、前記入力信号は複数の元のオーディオオブジェクトのダウンミックス表現であり、
    前記プロセッサは前記元のオーディオオブジェクトの近似表現を再構成するための再構成アルゴリズムを制御するためのオーディオオブジェクトパラメータを受信するように構成され、さらに
    前記プロセッサは、前記元のオーディオオブジェクトのオーディオオブジェクト信号の近似であるオーディオオブジェクト信号を含む前記オブジェクト表現を得るために、前記入力信号および前記オーディオオブジェクトパラメータを用いて前記再構成アルゴリズムを実行するように構成される、プロセッサ、
    操作されたオブジェクト表現を得るために少なくとも1つのオーディオオブジェクトを含む少なくとも1つのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するためのオブジェクトマニピュレータであって、
    前記オブジェクトマニピュレータは、前記少なくとも1つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて、前記少なくとも1つのオーディオオブジェクト信号の前記操作または前記ミックスオーディオオブジェクト信号の前記操作を実行するように構成され、それによって、前記少なくとも1つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または前記少なくとも1つのオーディオオブジェクトのための操作されたミックスオーディオオブジェクト信号が得られる、オブジェクトマニピュレータ、および
    前記操作されたオーディオオブジェクト信号または前記操作されたミックスオーディオオブジェクト信号と、未修正のオーディオオブジェクト信号をまたは前記少なくとも1つのオーディオオブジェクト信号の操作と比べて異なる方法で操作される操作された異なるオーディオオブジェクト信号を結合することによって、前記操作されたオブジェクト表現をミックスするためのオブジェクトミキサを含む、装置。
  2. m個の出力信号を生成するように構成され、mは1より大きい整数であり、
    前記プロセッサはk個のオーディオオブジェクトを有するオブジェクト表現を提供するように作動し、kはmより大きい整数であり、
    前記オブジェクトマニピュレータは、少なくとも2つのオブジェクトの少なくとも1つのオブジェクトと関連したメタデータに基づいて、互いに異なる前記少なくとも2つのオブジェクトを操作するように構成され、さらに
    前記オブジェクトミキサは、それぞれの出力信号が前記少なくとも2つの異なるオブジェクトの前記操作されたオーディオ信号に影響されるように、前記m個の出力信号を得るために、前記少なくとも2つの異なるオブジェクトの前記操作されたオーディオ信号を結合するように作動する、請求項1に記載の装置。
  3. 前記オーディオ入力信号は、複数の元のオーディオオブジェクト信号のダウンミックス表現であり、さらに、サイド情報として、前記ダウンミックス表現に含まれる1つ以上のオーディオオブジェクトに関する情報を有するオブジェクトベースのメタデータを含み、さらに
    前記オブジェクトマニピュレータは前記オーディオ入力信号から前記オブジェクトベースのメタデータを抽出するように構成される、請求項1に記載の装置。
  4. 前記オーディオ入力信号は、サイド情報として、前記オーディオオブジェクトパラメータを含み、さらに、前記プロセッサは前記オーディオ入力信号から前記サイド情報を抽出するように構成される、請求項に記載の装置。
  5. 前記オブジェクトマニピュレータは前記オーディオオブジェクト信号を操作するように作動し、さらに
    前記オブジェクトミキサは、オーディオ出力信号ごとにオブジェクトコンポーネント信号を得るために、前記オブジェクトのためのレンダリング位置および再生セットアップに基づいて、オブジェクトごとにダウンミックスルールを適用するように作動し、さらに
    前記オブジェクトミキサは、前記出力チャンネルのための前記オーディオ出力信号を得るために、同じ出力チャンネルのための異なるオブジェクトからオブジェクトコンポーネント信号を加算するように構成される、請求項1に記載の装置。
  6. 前記オブジェクトマニピュレータは、前記オーディオオブジェクトのためのオブジェクトコンポーネント信号を得るために、前記オブジェクトのためのメタデータに基づいて、複数のオブジェクトコンポーネント信号のそれぞれを同様に操作するように作動し、さらに
    前記オブジェクトミキサは、前記出力チャンネルのための前記オーディオ出力信号を得るために、同じ出力チャンネルのための異なるオブジェクトから前記オブジェクトコンポーネント信号を加算するように構成される、請求項1に記載の装置。
  7. 少なくとも1つのオーディオオブジェクトの操作に基づいて得られる前記オーディオ出力信号と前記少なくとも1つのオーディオオブジェクトの前記操作なしで得られる対応するオーディオ出力信号とをミックスするための出力信号ミキサをさらに含む、請求項1に記載の装置。
  8. 前記メタデータは、ゲイン、圧縮、レベル、ダウンミックスセットアップまたは特定のオブジェクトに特有の特性に関する情報を含み、さらに
    前記オブジェクトマニピュレータは、オブジェクトに特有の方法で、ミッドナイトモード、高忠実度モード、クリーンオーディオモード、ダイアログ正規化、ダウンミックスに特有の操作、ダイナミックダウンミックス、ガイド付きアップミックス、スピーチオブジェクトのリロケーションまたはアンビエンスオブジェクトの減衰を実施するために、前記メタデータに基づいて、前記オブジェクトまたは他のオブジェクトを操作するように適応可能である、請求項1に記載の装置。
  9. 前記オブジェクトパラメータは、オブジェクトオーディオ信号の複数の時間部分のために、それぞれの時間部分において複数の周波数バンドのバンドごとにパラメータを含み、さらに
    前記メタデータは、オーディオオブジェクトのための非周波数選択的な情報だけを含む、請求項1に記載の装置。
  10. 少なくとも2つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成するための装置であって、前記装置は、
    データストリームが、前記少なくとも2つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、前記異なるオーディオオブジェクトのうちの少なくとも1つに関連するメタデータを含むように、データストリームをフォーマットするためのデータストリームフォーマッタであって、
    前記メタデータは、圧縮に関する情報、ゲインに関する情報、ダウンミックスセットアップに関する情報、オブジェクトがスピーチオブジェクトであるかサウンドオブジェクトであるかサラウンドオブジェクトであるかに関する情報、または、第1のオブジェクトが第2のオブジェクトより重要であるようにオブジェクト間のランキングに関する情報を含む、データストリームフォーマッタ、および
    前記少なくとも2つの異なるオーディオオブジェクトの近似のためのパラメトリックデータを計算するためのパラメータ計算器を含み、
    前記データストリームフォーマッタは、サイド情報として、前記少なくとも2つの異なるオーディオオブジェクトの近似を可能にする前記パラメトリックデータを前記データストリームにさらに導入するように作動する、装置。
  11. 前記装置は、前記ダウンミックス信号を得るために前記少なくとも2つの異なるオーディオオブジェクトをダウンミックスするためのダウンミキサ、および前記少なくとも2つの異なるオーディオオブジェクトに個々に関するメタデータのための入力をさらに含む、請求項10に記載の装置。
  12. 少なくとも2つの異なるオーディオオブジェクトの重畳を表す少なくとも1つのオーディオ出力信号を生成する方法であって、前記方法は、
    オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するステップであって、前記オブジェクト表現とは、
    前記少なくとも2つの異なるオーディオオブジェクトは互いに分離され、
    前記少なくとも2つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、
    前記少なくとも2つの異なるオーディオオブジェクトは互いに独立して操作でき
    前記処理するステップは前記入力信号を受信するステップを含み、前記入力信号は複数の元のオーディオオブジェクトのダウンミックス表現であり、
    前記処理するステップは前記元のオーディオオブジェクトの近似表現を再構成するための再構成アルゴリズムを制御するためのオーディオオブジェクトパラメータを受信するステップを含み、さらに
    前記処理するステップは、前記元のオーディオオブジェクトのオーディオオブジェクト信号の近似であるオーディオオブジェクト信号を含む前記オブジェクト表現を得るために、前記入力信号および前記オーディオオブジェクトパラメータを用いて前記再構成アルゴリズムを実行するステップを含む、処理するステップ、
    操作されたオブジェクト表現を得るために少なくとも1つのオーディオオブジェクトを含む少なくとも1つのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するステップであって、
    前記少なくとも1つのオーディオオブジェクト信号の前記操作するステップまたは前記ミックスオーディオオブジェクト信号の前記操作するステップは、前記少なくとも1つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて実行され、それによって、前記少なくとも1つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または前記少なくとも1つのオーディオオブジェクト信号のための操作されたミックスオーディオオブジェクト信号が得られる、操作するステップ、および
    前記操作されたオーディオオブジェクト信号または前記操作されたミックスオーディオオブジェクト信号と、未修正のオーディオオブジェクト信号をまたは前記少なくとも1つのオーディオオブジェクトの操作と比較して異なる方法で操作される操作された異なるオーディオオブジェクト信号を結合することによって、前記操作されたオブジェクト表現をミックスするステップを含む、方法。
  13. 少なくとも2つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成する方法であって、前記方法は、
    データストリームが、前記少なくとも2つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、前記異なるオーディオオブジェクトのうちの少なくとも1つに関連するメタデータを含むように、データストリームをフォーマットするステップであって、
    前記メタデータは、圧縮に関する情報、ゲインに関する情報、ダウンミックスセットアップに関する情報、オブジェクトがスピーチオブジェクトであるかサウンドオブジェクトであるかサラウンドオブジェクトであるかに関する情報、または、第1のオブジェクトが第2のオブジェクトより重要であるようにオブジェクト間のランキングに関する情報を含む、フォーマットするステップ、および
    前記少なくとも2つの異なるオーディオオブジェクトの近似のためのパラメトリックデータを計算するステップを含み、
    前記フォーマットするステップは、サイド情報として、前記少なくとも2つの異なるオーディオオブジェクトの近似を可能にする前記パラメトリックデータを前記データストリームにさらに導入することを含む、方法。
  14. コンピュータ上で実行されるときに、請求項12に記載の少なくとも1つのオーディオ出力信号を生成するための方法または請求項13に記載の符号化されたオーディオ信号を生成するための方法を実行するためのコンピュータプログラム。
JP2011517781A 2008-07-17 2009-07-06 オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法 Active JP5467105B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP08012939.8 2008-07-17
EP08012939 2008-07-17
EP08017734A EP2146522A1 (en) 2008-07-17 2008-10-09 Apparatus and method for generating audio output signals using object based metadata
EP08017734.8 2008-10-09
PCT/EP2009/004882 WO2010006719A1 (en) 2008-07-17 2009-07-06 Apparatus and method for generating audio output signals using object based metadata

Publications (2)

Publication Number Publication Date
JP2011528200A JP2011528200A (ja) 2011-11-10
JP5467105B2 true JP5467105B2 (ja) 2014-04-09

Family

ID=41172321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011517781A Active JP5467105B2 (ja) 2008-07-17 2009-07-06 オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法

Country Status (16)

Country Link
US (2) US8315396B2 (ja)
EP (2) EP2146522A1 (ja)
JP (1) JP5467105B2 (ja)
KR (2) KR101325402B1 (ja)
CN (2) CN102100088B (ja)
AR (2) AR072702A1 (ja)
AU (1) AU2009270526B2 (ja)
BR (1) BRPI0910375B1 (ja)
CA (1) CA2725793C (ja)
ES (1) ES2453074T3 (ja)
HK (2) HK1155884A1 (ja)
MX (1) MX2010012087A (ja)
PL (1) PL2297978T3 (ja)
RU (2) RU2510906C2 (ja)
TW (2) TWI442789B (ja)
WO (1) WO2010006719A1 (ja)

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
WO2009050896A1 (ja) * 2007-10-16 2009-04-23 Panasonic Corporation ストリーム合成装置、復号装置、方法
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US7928307B2 (en) * 2008-11-03 2011-04-19 Qnx Software Systems Co. Karaoke system
US9179235B2 (en) * 2008-11-07 2015-11-03 Adobe Systems Incorporated Meta-parameter control for digital audio data
KR20100071314A (ko) * 2008-12-19 2010-06-29 삼성전자주식회사 영상처리장치 및 영상처리장치의 제어 방법
US8255821B2 (en) * 2009-01-28 2012-08-28 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
KR101040086B1 (ko) * 2009-05-20 2011-06-09 전자부품연구원 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치
US9393412B2 (en) * 2009-06-17 2016-07-19 Med-El Elektromedizinische Geraete Gmbh Multi-channel object-oriented audio bitstream processor for cochlear implants
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US8983829B2 (en) 2010-04-12 2015-03-17 Smule, Inc. Coordinating and mixing vocals captured from geographically distributed performers
US9147385B2 (en) 2009-12-15 2015-09-29 Smule, Inc. Continuous score-coded pitch correction
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
US9601127B2 (en) 2010-04-12 2017-03-21 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US10930256B2 (en) 2010-04-12 2021-02-23 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US8848054B2 (en) * 2010-07-29 2014-09-30 Crestron Electronics Inc. Presentation capture with automatically configurable output
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2619904B1 (en) * 2010-09-22 2014-07-30 Dolby Laboratories Licensing Corporation Audio stream mixing with dialog level normalization
CN103119650B (zh) * 2010-10-20 2014-11-12 松下电器(美国)知识产权公司 编码装置和编码方法
US20120148075A1 (en) * 2010-12-08 2012-06-14 Creative Technology Ltd Method for optimizing reproduction of audio signals from an apparatus for audio reproduction
US9075806B2 (en) 2011-02-22 2015-07-07 Dolby Laboratories Licensing Corporation Alignment and re-association of metadata for media streams within a computing device
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
CN103443854B (zh) 2011-04-08 2016-06-08 杜比实验室特许公司 用于混合来自两个编码位流的音频节目的元数据的自动配置
EP2727383B1 (en) 2011-07-01 2021-04-28 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US20130065213A1 (en) * 2011-09-13 2013-03-14 Harman International Industries, Incorporated System and method for adapting audio content for karaoke presentations
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
US9286942B1 (en) * 2011-11-28 2016-03-15 Codentity, Llc Automatic calculation of digital media content durations optimized for overlapping or adjoined transitions
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
JP5973058B2 (ja) 2012-05-07 2016-08-23 ドルビー・インターナショナル・アーベー レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN104303229B (zh) 2012-05-18 2017-09-12 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP6186435B2 (ja) * 2012-08-07 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
KR102246623B1 (ko) * 2012-08-07 2021-04-29 스뮬, 인코포레이티드 선택적으로 적용가능한 보컬 효과 스케줄에 기초한 후속적 리렌더링을 위한 보컬 연주 및 드라이 보컬 캡쳐의 연속적인 실시간 피치 보정에 의한 소셜 음악 시스템 및 방법
EP2883226B1 (en) * 2012-08-10 2016-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for adapting audio information in spatial audio object coding
CN104604256B (zh) 2012-08-31 2017-09-15 杜比实验室特许公司 基于对象的音频的反射声渲染
EP2891149A1 (en) 2012-08-31 2015-07-08 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
EP2891338B1 (en) 2012-08-31 2017-10-25 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
BR122021021503B1 (pt) 2012-09-12 2023-04-11 Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
MX347921B (es) 2012-10-05 2017-05-17 Fraunhofer Ges Forschung Un aparato para la codificacion de una señal de voz que emplea prediccion lineal excitada por codigos algebraico en el dominio de autocorrelacion.
WO2014058835A1 (en) * 2012-10-08 2014-04-17 Stc.Unm System and methods for simulating real-time multisensory output
US9064318B2 (en) 2012-10-25 2015-06-23 Adobe Systems Incorporated Image matting and alpha value techniques
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US9355649B2 (en) * 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US9076205B2 (en) 2012-11-19 2015-07-07 Adobe Systems Incorporated Edge direction and curve based image de-blurring
US10249321B2 (en) 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US9451304B2 (en) 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US9135710B2 (en) 2012-11-30 2015-09-15 Adobe Systems Incorporated Depth map stereo correspondence techniques
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
CA2893729C (en) 2012-12-04 2019-03-12 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
WO2014090277A1 (en) 2012-12-10 2014-06-19 Nokia Corporation Spatial audio apparatus
US9208547B2 (en) 2012-12-19 2015-12-08 Adobe Systems Incorporated Stereo correspondence smoothness tool
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9214026B2 (en) 2012-12-20 2015-12-15 Adobe Systems Incorporated Belief propagation and affinity measures
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
KR102071860B1 (ko) 2013-01-21 2020-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
TR201802631T4 (tr) 2013-01-21 2018-03-21 Dolby Laboratories Licensing Corp Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder
CN116665683A (zh) 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法
US9398390B2 (en) 2013-03-13 2016-07-19 Beatport, LLC DJ stem systems and methods
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
KR102332632B1 (ko) * 2013-03-28 2021-12-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) * 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN110083714B (zh) 2013-04-05 2024-02-13 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
CN105144751A (zh) * 2013-04-15 2015-12-09 英迪股份有限公司 用于产生虚拟对象的音频信号处理方法
WO2014171791A1 (ko) * 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
JP6248186B2 (ja) 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
EP3005353B1 (en) * 2013-05-24 2017-08-16 Dolby International AB Efficient coding of audio scenes comprising audio objects
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
KR102327504B1 (ko) * 2013-07-31 2021-11-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
DE102013218176A1 (de) * 2013-09-11 2015-03-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur dekorrelation von lautsprechersignalen
US10095468B2 (en) 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
CN105531759B (zh) 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
US10049683B2 (en) 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
SG11201603116XA (en) 2013-10-22 2016-05-30 Fraunhofer Ges Forschung Concept for combined dynamic range compression and guided clipping prevention for audio devices
ES2755349T3 (es) 2013-10-31 2020-04-22 Dolby Laboratories Licensing Corp Renderización binaural para auriculares utilizando procesamiento de metadatos
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3075173B1 (en) * 2013-11-28 2019-12-11 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
KR102302672B1 (ko) 2014-04-11 2021-09-15 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN110808723B (zh) 2014-05-26 2024-09-17 杜比实验室特许公司 音频信号响度控制
WO2015180866A1 (en) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Data processor and transport of user control data to audio decoders and renderers
EP3151240B1 (en) * 2014-05-30 2022-12-21 Sony Group Corporation Information processing device and information processing method
EP3175446B1 (en) * 2014-07-31 2019-06-19 Dolby Laboratories Licensing Corporation Audio processing systems and methods
KR20220066996A (ko) * 2014-10-01 2022-05-24 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
MX364166B (es) * 2014-10-02 2019-04-15 Dolby Int Ab Método de decodificación y decodificador para mejora del diálogo.
JP6812517B2 (ja) * 2014-10-03 2021-01-13 ドルビー・インターナショナル・アーベー パーソナル化されたオーディオへのスマート・アクセス
CN106796809B (zh) * 2014-10-03 2019-08-09 杜比国际公司 个性化音频的智能访问
CN112185401B (zh) 2014-10-10 2024-07-02 杜比实验室特许公司 基于发送无关的表示的节目响度
CN105895086B (zh) 2014-12-11 2021-01-12 杜比实验室特许公司 元数据保留的音频对象聚类
US10136240B2 (en) 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
US10257636B2 (en) 2015-04-21 2019-04-09 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
CN104936090B (zh) * 2015-05-04 2018-12-14 联想(北京)有限公司 一种音频数据的处理方法和音频处理器
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
KR102122004B1 (ko) 2015-06-17 2020-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어
CA3149389A1 (en) * 2015-06-17 2016-12-22 Sony Corporation Transmitting device, transmitting method, receiving device, and receiving method
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US10693936B2 (en) 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
US10277581B2 (en) * 2015-09-08 2019-04-30 Oath, Inc. Audio verification
WO2017132082A1 (en) 2016-01-27 2017-08-03 Dolby Laboratories Licensing Corporation Acoustic environment simulation
CN112218229B (zh) 2016-01-29 2022-04-01 杜比实验室特许公司 用于音频信号处理的系统、方法和计算机可读介质
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
CN113242508B (zh) 2017-03-06 2022-12-06 杜比国际公司 基于音频数据流渲染音频输出的方法、解码器系统和介质
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
CN110998724B (zh) 2017-08-01 2021-05-21 杜比实验室特许公司 基于位置元数据的音频对象分类
WO2020030304A1 (en) * 2018-08-09 2020-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An audio processor and a method considering acoustic obstacles and providing loudspeaker signals
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
EP3987825B1 (en) * 2019-06-20 2024-07-24 Dolby Laboratories Licensing Corporation Rendering of an m-channel input on s speakers (s<m)
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
US20230010466A1 (en) * 2019-12-09 2023-01-12 Dolby Laboratories Licensing Corporation Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
EP3843428A1 (en) * 2019-12-23 2021-06-30 Dolby Laboratories Licensing Corp. Inter-channel audio feature measurement and display on graphical user interface
US11269589B2 (en) 2019-12-23 2022-03-08 Dolby Laboratories Licensing Corporation Inter-channel audio feature measurement and usages
US20210105451A1 (en) * 2019-12-23 2021-04-08 Intel Corporation Scene construction using object-based immersive media
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN112165648B (zh) * 2020-10-19 2022-02-01 腾讯科技(深圳)有限公司 一种音频播放的方法、相关装置、设备及存储介质
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
GB2605190A (en) * 2021-03-26 2022-09-28 Nokia Technologies Oy Interactive audio rendering of a spatial stream

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
TW510143B (en) * 1999-12-03 2002-11-11 Dolby Lab Licensing Corp Method for deriving at least three audio signals from two input audio signals
JP2001298680A (ja) * 2000-04-17 2001-10-26 Matsushita Electric Ind Co Ltd ディジタル放送用信号の仕様およびその受信装置
JP2003066994A (ja) * 2001-08-27 2003-03-05 Canon Inc データ復号装置及びデータ復号方法、並びにプログラム、記憶媒体
WO2007109338A1 (en) 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
BRPI0509100B1 (pt) * 2004-04-05 2018-11-06 Koninl Philips Electronics Nv Codificador de multicanal operável para processar sinais de entrada, método paracodificar sinais de entrada em um codificador de multicanal
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
KR101251426B1 (ko) * 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
US8082157B2 (en) * 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US20080080722A1 (en) * 2006-09-29 2008-04-03 Carroll Tim J Loudness controller with remote and local control
EP2084901B1 (en) * 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5450085B2 (ja) * 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata

Also Published As

Publication number Publication date
MX2010012087A (es) 2011-03-29
CN102100088B (zh) 2013-10-30
RU2510906C2 (ru) 2014-04-10
AR094591A2 (es) 2015-08-12
RU2010150046A (ru) 2012-06-20
CN103354630B (zh) 2016-05-04
TWI442789B (zh) 2014-06-21
PL2297978T3 (pl) 2014-08-29
RU2013127404A (ru) 2014-12-27
EP2297978A1 (en) 2011-03-23
KR101325402B1 (ko) 2013-11-04
KR20120131210A (ko) 2012-12-04
CN103354630A (zh) 2013-10-16
KR101283771B1 (ko) 2013-07-08
CA2725793A1 (en) 2010-01-21
JP2011528200A (ja) 2011-11-10
ES2453074T3 (es) 2014-04-03
WO2010006719A1 (en) 2010-01-21
HK1190554A1 (zh) 2014-07-04
US8824688B2 (en) 2014-09-02
KR20110037974A (ko) 2011-04-13
CA2725793C (en) 2016-02-09
TW201404189A (zh) 2014-01-16
US20100014692A1 (en) 2010-01-21
BRPI0910375A2 (pt) 2015-10-06
EP2297978B1 (en) 2014-03-12
RU2604342C2 (ru) 2016-12-10
US8315396B2 (en) 2012-11-20
AU2009270526A1 (en) 2010-01-21
BRPI0910375B1 (pt) 2021-08-31
AR072702A1 (es) 2010-09-15
EP2146522A1 (en) 2010-01-20
TW201010450A (en) 2010-03-01
HK1155884A1 (en) 2012-05-25
TWI549527B (zh) 2016-09-11
CN102100088A (zh) 2011-06-15
AU2009270526B2 (en) 2013-05-23
US20120308049A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5467105B2 (ja) オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法
US11501789B2 (en) Encoded audio metadata-based equalization
JP5956994B2 (ja) 拡散音の空間的オーディオの符号化及び再生
TWI396187B (zh) 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
EP2974010B1 (en) Automatic multi-channel music mix from multiple audio stems
JP2015509212A (ja) 空間オーディオ・レンダリング及び符号化
AU2013200578B2 (en) Apparatus and method for generating audio output signals using object based metadata

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130322

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140127

R150 Certificate of patent or registration of utility model

Ref document number: 5467105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250