JP5467105B2

JP5467105B2 - オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法

Info

Publication number: JP5467105B2
Application number: JP2011517781A
Authority: JP
Inventors: シュテファンシュライナー; ヴォルフガングフィーゼル; マティアスノイズィンガー; オリヴァーヘルムート; ラルフスペルシュナイダー
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2008-07-17
Filing date: 2009-07-06
Publication date: 2014-04-09
Anticipated expiration: 2029-07-06
Also published as: MX2010012087A; CN102100088B; RU2510906C2; AR094591A2; RU2010150046A; CN103354630B; TWI442789B; PL2297978T3; RU2013127404A; EP2297978A1; KR101325402B1; KR20120131210A; CN103354630A; KR101283771B1; CA2725793A1; JP2011528200A; ES2453074T3; WO2010006719A1; HK1190554A1; US8824688B2

Description

本発明は、オーディオ処理に関し、特に、例えば空間オーディオオブジェクト符号化などのオーディオオブジェクト符号化との関連におけるオーディオ処理に関する。

テレビジョンのような最新の放送システムにおいて、オーディオトラックを設計したサウンドエンジニアとしてオーディオトラックを再生しないことが特定の状況で望ましく、むしろ、レンダリング時間で与えられる制約に対処する特別な調整を実行することが望しい。そのような生成後の調整を制御する周知の技術は、それらのオーディオトラックに加えて適切なメタデータを提供することである。

従来のサウンド再生システム、例えば古い家庭用テレビジョンシステムは、１つのスピーカまたはステレオの１対のスピーカからなる。より高性能なマルチチャンネル再生システムは、５個のまたはさらに多くのスピーカを用いる。

マルチチャンネル再生システムが考慮される場合、サウンドエンジニアは、２次元平面において単一の音源を位置付ける際により高い柔軟性があり得り、したがって、それらの全オーディオトラックのためのより高いダイナミックレンジを用いることもでき、その理由は、ボイス了解度が周知のカクテルパーティー効果のためとても簡単であるからである。

しかしながら、それらの現実的な、高いダイナミックサウンドは、従来の再生システムにおいて課題を生じ得る。コンシューマーは、彼女または彼がノイズの多い環境において（例えば駆動車において、または、機内または携帯娯楽システムで）コンテンツを聞いている、彼女または彼が補聴器を着用している、または、彼女または彼が（例えば夜遅くに）彼女または彼の隣人の邪魔をしたくないという理由で、この高いダイナミック信号を望まないというシナリオがあり得る。

さらに、放送は、１つのプログラムにおいて異なるアイテム（例えばコマーシャル）が連続的なアイテムのレベル調整を必要とする異なるクレストファクタのため異なる大きさのレベルにあり得るという課題に直面する。

古典的な放送伝送チェーンにおいて、エンドユーザーは、すでにミックスされたオーディオトラックを受信する。レシーバ側においてさらなる操作も、非常に制限された形式だけで行われ得る。現在、ドルビーメタデータ（Ｄｏｌｂｙｍｅｔａｄａｔａ）の小さい機能セットは、ユーザーにとってオーディオ信号のいくらかの特性を修正することを可能にする。

通常、上述のメタデータに基づく操作は、いかなる周波数選択的な区別もなしで適用されるが、これは、オーディオ信号に伝統的に付随されるメタデータがそうするために充分な情報を提供しないからである。

さらに、全体のオーディオストリーム自体だけが、操作することができる。さらに、それぞれのオーディオオブジェクトをこのオーディオストリーム内で採用しさらに分離する方法がない。特に不適切なリスニング環境において、これは満足できないかもしれない。

ミッドナイトモードにおいて、ガイド情報を失うため、現在のオーディオプロセッサにとって、アンビエンスノイズとダイアログを区別することは不可能である。したがって、（大きさにおいて圧縮されさらに制限されなければならない）高いレベルノイズの場合に、ダイアログも、並行に操作される。これは、スピーチ了解度にとって害になり得る。

アンビエントサウンドと比較してダイアログレベルを増加することは、特に聴覚障害者にとってスピーチの知覚を改善することに役立つ。この技術は、オーディオ信号が特性制御情報に加えてレシーバ側におけるダイアログおよびアンビエント成分において実際に分離される場合にだけ働く。ステレオダウンミックス信号が利用できさえすれば、さらなる分離は、別々にスピーチ情報を区別しさらに操作するためにもはや適用されない。

現在のダウンミックス解決策は、中央およびサラウンドチャンネルのためのダイナミックステレオレベルチューニングを可能にする。しかし、ステレオの代わりのいかなる異型スピーカ構成にとっても、トランスミッタから最終的なマルチチャンネル音源をダウンミックスする方法の実際の記述がない。デコーダ内のデフォルト公式だけが、非常に柔軟性のない方法で信号ミックスを実行する。

すべての記載されたシナリオにおいて、一般的に２つの異なる方法が存在する。第１の方法は、送信されるオーディオ信号を生成するときに、１セットのオーディオオブジェクトがモノラル、ステレオまたはマルチチャンネル信号にダウンミックスされる。放送を介して、他のいかなる伝送プロトコルを介して、または、コンピュータ可読の記憶媒体での配布を介して、この信号のユーザーに送信されるこの信号は、通常、例えばスタジオ環境においてサウンドエンジニアによってダウンミックスされた元のオーディオオブジェクトの数より少ない数の多数のチャンネルを有する。さらに、メタデータは、いくつかの異なる修正を可能にするために付随することができるが、これらの修正は、全体の送信信号に適用することができ、または、送信信号がいくつかの異なる送信チャンネルを有する場合に、全体として個々の送信チャンネルに適用することができるだけである。しかしながら、そのような送信チャンネルは、常にいくつかのオーディオオブジェクトの重畳であるので、特定のオーディオオブジェクトの個々の操作は、さらなるオーディオオブジェクトが操作されない間、全く可能でない。

もう一方の方法は、オブジェクトダウンミックスを実行しないが、それらが別々の送信チャンネルとしてあるように、オーディオオブジェクト信号を送信する。そのようなシナリオは、オーディオオブジェクトの数か少ないときによく働く。例えば、５つのオーディオオブジェクトだけが存在するときに、５．１チャンネルのシナリオ内で互いに別々にこれらの５つの異なるオーディオオブジェクトを送信することが可能である。メタデータは、オブジェクト／チャンネルの特異性を示すこれらのチャンネルと関連することができる。そして、レシーバ側において、送信チャンネルは、送信メタデータに基づいて操作することができる。

この方法の不利な点は、それが下位互換性を有しなく、さらに、少数のオーディオオブジェクトとの関連においてだけよく働くということである。オーディオオブジェクトの数が増加するときに、別々の明確なオーディオトラックとしてすべてのオブジェクトを送信するために必要であるビットレートが急速に増加する。この増加するビットレートは、放送アプリケーションとの関連において特に役立たない。

したがって、現在のビットレート効率のよい方法は、異なったオーディオオブジェクトの個々の操作を可能にしない。そのような個々の操作は、それぞれのオブジェクトを別々に送信するときにだけ可能にされる。しかしながら、この方法は、ビットレート効率がよくなく、したがって、特に放送シナリオにおいて可能でない。

ＩＳＯ／ＩＥＣ１３８１８−７：ＭＰＥＧ−２（動画および関連したオーディオ情報の一般的な符号化（Ｇｅｎｅｒｉｃｃｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏｉｎｆｏｒｍａｔｉｏｎ））−パート７（Ｐａｒｔ７）：アドバンスドオーディオ符号化（ＡＡＣ）（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ））ＩＳＯ／ＩＥＣ２３００３−１：ＭＰＥＧ−Ｄ（ＭＰＥＧオーディオ技術（ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ））−パート１（Ｐａｒｔ１）：ＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）ＩＳＯ／ＩＥＣ２３００３−２：ＭＰＥＧ−Ｄ（ＭＰＥＧオーディオ技術（ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ））−パート２（Ｐａｒｔ２）：空間オーディオオブジェクト符号化（ＳＡＯＣ）（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ））ＩＳＯ／ＩＥＣ１３８１８−７：ＭＰＥＧ−２（動画および関連したオーディオ情報の一般的な符号化（Ｇｅｎｅｒｉｃｃｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏｉｎｆｏｒｍａｔｉｏｎ））−パート７（Ｐａｒｔ７）：アドバンスドオーディオ符号化（ＡＡＣ）（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ））ＩＳＯ／ＩＥＣ１４４９６−１１：ＭＰＥＧ４（オーディオ−ビジュアルオブジェクトの符号化（Ｃｏｒｄｉｎｇｏｆａｕｄｉｏ−ｖｉｓｕａｌｏｂｊｅｃｔｓ））−パート１１（Ｐａｒｔ１１）：シーンの記述およびアプリケーションエンジン（ＢＩＦＳ）（ＳｃｅｎｅＤｅｓｃｒｉｐｔｉｏｎａｎｄＡｐｐｌｉｃａｔｉｏｎＥｎｇｉｎｅ（ＢＩＦＳ））ＩＳＯ／ＩＥＣ１４４９６−：ＭＰＥＧ４（オーディオ−ビジュアルオブジェクトの符号化（Ｃｏｒｄｉｎｇｏｆａｕｄｉｏ−ｖｉｓｕａｌｏｂｊｅｃｔｓ））−パート２０（Ｐａｒｔ２０）：軽量アプリケーションシーン表現（ＬＡＳＥＲ）およびシンプルアグリゲーションフォーマット（ＳＡＦ）（ＬｉｇｈｔｗｅｉｇｈｔＡｐｐｌｉｃａｔｉｏｎＳｃｅｎｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ（ＬＡＳＥＲ）ａｎｄＳｉｍｐｌｅＡｇｇｒｅｇａｔｉｏｎＦｏｒｍａｔ（ＳＡＦ））ｈｔｔｐ：／ｗｗｗ．ｄｏｌｂｙ．ｃｏｍ／ａｓｓｅｔｓ／ｐｄｆ／ｔｅｃｈｌｉｂｒａｒｙ／１７．ＡｌｌＭｅｔａｄａｔａ．ｐｄｆｈｔｔｐ：／ｗｗｗ．ｄｏｌｂｙ．ｃｏｍ／ａｓｓｅｔｓ／ｐｄｆ／ｔｅｃｈ＿ｌｉｂｒａｒｙ／１８＿Ｍｅｔａｄａｔａ．Ｇｕｉｄｅ．ｐｄｆＫｒａｕｓｓ，Ｋｕｒｔ、Ｒｏｅｄｅｎ，Ｊｏｎａｓ、Ｓｃｈｉｌｄｂａｃｈ，Ｗｏｌｆｇａｎｇ、ＭＰＥＧ−４ＨＥＡＡへのダイナミックレンジコントロール係数および他のメタデータの変換（ＴｒａｎｓｃｏｄｉｎｇｏｆＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌＣｏｅｆｆｉｃｉｅｎｔｓａｎｄＯｔｈｅｒＭｅｔａｄａｔａｉｎｔｏＭＰＥＧ−４ＨＥＡＡ）、ＡＥＳｃｏｎｖｅｎｔｉｏｎ１２３、２００７年１０月、ｐｐ７２１７Ｒｏｂｉｎｓｏｎ，ＣｈａｒｌｅｓＱ．、ＧｕｎｄｒｙＫｅｎｎｅｔｈ、メタデータを介するダイナミックレンジコントロール（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌｖｉａＭｅｔａｄａｔａ）、ＡＥＳＣｏｎｖｅｎｔｉｏｎ１０２、１９９９年９月、ｐｐ５０２８Ｄｏｌｂｙ、「ドルビーデジタルおよびドルビーＥビットストリームをオーサリングするためのスタンダードおよびプラクティス（ＳｔａｎｄａｒｄｓａｎｄＰｒａｃｔｉｃｅｓｆｏｒＡｕｔｈｏｒｉｎｇＤｏｌｂｙＤｉｇｉｔａｌａｎｄＤｏｌｂｙＥＢｉｔｓｔｒｅａｍ）」、Ｉｓｓｕｅ３ＣｏｄｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ／Ｄｏｌｂｙ、「ａａｃＰｌｕｓマルチチャンネルデジタルビデオ放送（ＤＶＢ）のためのドルビーＥ／ａａｃＰｌｕｓメタデータトランスコーダ解決策（ＤｏｌｂｙＥ／ａａｃＰｌｕｓＭｅｔａｄａｔａＴｒａｎｓｃｏｄｅｒＳｏｌｕｔｉｏｎｆｏｒａａｃＰｌｕｓＭｕｌｔｉｃｈａｎｎｅｌＤｉｇｉｔａｌＶｉｄｅｏＢｒｏａｄｃａｓｔ（ＤＶＢ））」、Ｖ１．１．０ＥＴＳＩＴＳ１０１１５４：デジタルビデオ放送（ＤＶＢ）（ＤｉｇｉｔａｌＶｉｄｅｏＢｒｏａｄｃａｓｔｉｎｇ（ＤＶＢ））、Ｖ１．８．１ＳＭＰＴＥＲＤＤ６−２００８：ドルビーＥオーディオメタデータシリアルビットストリームの使用の説明およびガイド（ＤｅｓｃｒｉｐｔｉｏｎａｎｄＧｕｉｄｅｔｏｔｈｅＵｓｅｏｆＤｏｌｂｙＥａｕｄｉｏＭｅｔａｄａｔａＳｅｒｉａｌＢｉｔｓｔｒｅａｍ）

本発明の目的は、ビットレート効率がよいが、これらの課題に対して柔軟性のある解決策を提供することである。

本発明の第１の態様によれば、この目的は、少なくとも２つの異なるオーディオオブジェクトの重畳を表す少なくとも１つのオーディオ出力信号を生成するための装置によって達成され、その装置は、オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するためのプロセッサであって、その少なくとも２つの異なるオーディオオブジェクトは互いに分離され、その少なくとも２つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、その少なくとも２つの異なるオーディオオブジェクトは互いに独立して操作できる、プロセッサ、少なくとも１つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または操作されたミックスオーディオオブジェクト信号を得るために、その少なくとも１つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて、その少なくとも１つのオーディオオブジェクトのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するためのオブジェクトマニピュレータ、およびその操作されたオーディオオブジェクトと、未修正のオーディオオブジェクトをまたはその少なくとも１つのオーディオオブジェクトと異なる方法で操作される操作された異なるオーディオオブジェクトを結合することによって、そのオブジェクト表現をミックスするためのオブジェクトミキサを含む。

本発明の第２の態様によれば、この目的は、少なくとも２つの異なるオーディオオブジェクトの重畳を表す少なくとも１つのオーディオ出力信号を生成するこの方法によって達成され、その方法は、オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するステップであって、その少なくとも２つの異なるオーディオオブジェクトは互いに分離され、その少なくとも２つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、その少なくとも２つの異なるオーディオオブジェクトは互いに独立して操作できる、ステップ、少なくとも１つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または操作されたミックスオーディオオブジェクト信号を得るために、その少なくとも１つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて、その少なくとも１つのオーディオオブジェクトのそのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するステップ、およびその操作されたオーディオオブジェクトと、未修正のオーディオオブジェクトをまたはその少なくとも１つのオーディオオブジェクトと異なる方法で操作される操作された異なるオーディオオブジェクトを結合することによって、そのオブジェクト表現をミックスするステップを含む。

本発明の第３の態様によれば、この目的は、少なくとも２つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成するための装置によって達成され、その装置は、データストリームが、その少なくとも２つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、その異なるオーディオオブジェクトのうちの少なくとも１つに関連するメタデータを含むように、データストリームをフォーマットするためのデータストリームフォーマッタを含む。

本発明の第４の態様によれば、この目的は、少なくとも２つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成する方法によって達成され、その方法は、データストリームが、その少なくとも２つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、その異なるオーディオオブジェクトのうちの少なくとも１つに関連するメタデータを含むように、データストリームをフォーマットするステップを含む。

本発明のさらなる態様は、本発明の方法を実施するコンピュータプログラムと、それにオブジェクトダウンミックス信号、サイド情報として、オブジェクトパラメータデータおよびそのオブジェクトダウンミックス信号に含まれる１つ以上のオーディオオブジェクトのためのメタデータを格納したコンピュータ可読の記憶媒体とに関連する。

本発明は、別々のオーディオオブジェクト信号または別々のセットのミックスオーディオオブジェクト信号の個々の操作がオブジェクト関連のメタデータに基づいて個々のオブジェクト関連の処理を可能にする知見に基づく。本発明によれば、操作の結果は、スピーカに直接出力されないが、特定のレンダリングシナリオのための出力信号を生成するオブジェクトミキサに提供され、そこにおいて、出力信号は、他の操作されたオブジェクト信号および／または未修正のオブジェクト信号とともに少なくとも１つの操作されたオブジェクト信号または１セットのミックスオブジェクト信号の重畳によって生成される。当然、それぞれのオブジェクトを操作する必要はないが、場合によっては、１つのオブジェクトを操作するだけで十分であり、複数のオーディオオブジェクトのさらなるオブジェクトを操作する必要はない。オブジェクトミキシング操作の結果は、１つまたは複数のオーディオ出力信号であり、それは操作されたオブジェクトに基づく。これらのオーディオ出力信号は、スピーカに送信することができまたはさらなる使用のために格納することができまたは特定のアプリケーションシナリオに応じてさらなるレシーバに送信することもできる。

好ましくは、本発明の操作／ミキシングデバイスに入力される信号は、複数のオーディオオブジェクト信号をダウンミックスすることによって生成されるダウンミックス信号である。ダウンミックス操作は、オブジェクトごとに個々にメタデータ制御することができまたは例えばオブジェクトごとに同じように抑制することができない。前者の場合、メタデータによるオブジェクトの操作は、オブジェクト制御された個々のおよびオブジェクトに特有のアップミックス操作であり、そこにおいて、このオブジェクトを表すスピーカコンポーネント信号が生成される。好ましくは、空間オブジェクトパラメータが同様に提供され、それは送信されたオブジェクトダウンミックス信号を用いてそれの近似バージョンによって元の信号を再生するために用いることができる。そして、オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するためのプロセッサは、パラメトリックデータに基づいて元のオーディオオブジェクトの再生されたバージョンを計算するように作動し、そこにおいて、これらの近似オブジェクト信号は、オブジェクトベースのメタデータによって個々に操作することができる。

好ましくは、オブジェクトレンダリング情報は、同様に提供され、そこにおいて、オブジェクトレンダリング情報は、対象とするオーディオ再生セットアップに関する情報および再生シナリオ内で個々のオーディオオブジェクトの位置決めに関する情報を含む。しかしながら、特定の実施形態は、そのようなオブジェクト位置データなしで働くこともできる。そのような構成は、例えば、変化しないオブジェクト位置の提供であり、それは、固定して設定することができ、または、完全なオーディオトラックのためのトランスミッタおよびレシーバ間をうまく扱うことができる。

本発明の好適な実施形態は、添付図面との関連においてその後に述べられる。

図１は、少なくとも１つのオーディオ出力信号を生成するための装置の好適な実施形態を示す。図２は、図１のプロセッサの好適な実施を示す。図３ａは、オブジェクト信号を操作するためのマニピュレータの好適な実施形態を示す。図３ｂは、図３ａに示すようにマニピュレータとの関連においてオブジェクトミキサの好適な実施を示す。図４は、操作がオブジェクトダウンミックスの後であるが最終的なオブジェクトミックスの前に実行されるという状況において、プロセッサ／マニピュレータ／オブジェクトミキサ構成を示す。図５ａは、符号化されたオーディオ信号を生成するための装置の好適な実施形態を示す。図５ｂは、オブジェクトダウンミックス、オブジェクトベースのメタデータ、および空間オブジェクトパラメータを有する伝送信号を示す。図６は、オブジェクトオーディオファイルを有する、特定のＩＤによって識別されるいくつかのオーディオオブジェクトおよびジョイントオーディオオブジェクト情報マトリクスＥを示すマップを示す。図７は、図６のオブジェクト共分散マトリクスＥの説明を示す。図８は、ダウンミックスマトリクスおよびダウンミックスマトリクスＤによって制御されるオーディオオブジェクトエンコーダを示す。図９は、ユーザーによって通常に提供されるターゲットレンダリングマトリクスＡおよび特定のターゲットレンダリングシナリオのための例を示す。図１０は、本発明のさらなる態様による少なくとも１つのオーディオ出力信号を生成するための装置の好適な実施形態を示す。図１１ａは、さらなる実施形態を示す。図１１ｂは、さらなる実施形態を示す。図１１ｃは、さらなる実施形態を示す。図１２ａは、例示的なアプリケーションシナリオを示す。図１２ｂは、さらなる例示的なアプリケーションシナリオを示す。

上述の課題に直面して、好適な方法は、それらのオーディオトラックに加えて適切なメタデータを提供することである。そのようなメタデータは、次の３つのファクタ（３つの「古典的な」Ｄから始まるのもの）を制御する情報からなり得る。
・ダイアログ正規化（ｄｉａｌｏｇｎｏｒｍａｌｉｚａｔｉｏｎ）
・ダイナミックレンジコントロール（ｄｙｎａｍｉｃｒａｎｇｅｃｏｎｔｒｏｌ）
・ダウンミックス（ｄｏｗｎｍｉｘ）

そのようなオーディオメタデータ（Ａｕｄｉｏｍｅｔａｄａｔａ）は、レシーバが、リスナーによって実行される調整に基づいて、受信されたオーディオ信号を操作するのに役立つ。この種のオーディオメタデータと他のもの（例えば作者（Ａｕｔｈｏｒ）、タイトル（Ｔｉｔｌｅ）のような記述的メタデータ）を区別するために、それは、通常「ドルビーメタデータ（ＤｏｌｂｙＭｅｔａｄａｔａ）」と呼ばれる（、なぜなら、それらがドルビー社（Ｄｏｌｂｙ）によってこれまでに実施されているだけであるからである）。その後、この種のオーディオメタデータだけが、考慮され、さらに、単にメタデータと呼ばれている。

オーディオメタデータは、オーディオプログラムに加えて伝送され、レシーバにオーディオに関する極めて重要な情報を有する付加的な制御情報である。メタデータは、とうてい理想とはいえないリスニング環境のためのダイナミックレンジコントロール、プログラム間のレベルマッチング、より少ないスピーカチャンネルを通じてマルチチャンネルオーディオの再生のためのダウンミキシング情報、および他の情報を含む多くの重要な機能を提供する。

メタデータは、スピーカチャンネルの数、再生装置の品質、または相対的なアンビエントノイズレベルに関係なく、十分に発達したホームシアタから飛行中の娯楽まで多くの異なるリスニング状況において、正確にさらに芸術的に再生されるオーディオプログラムのために必要なツールを提供する。

エンジニアまたはコンテンツ製作者は、それらのプログラム内で可能な限りの最高品質のオーディオを提供することに高度の注意を取る一方、彼女または彼は、莫大な家庭用電化製品または元のサウンドトラックを再生することを試みるリスニング環境についてどうすることもできない。メタデータは、エンジニアまたはコンテンツ製作者に、それらの働きがほとんどすべての考えられるリスニング環境において再生されさらに楽しめる方法についてより大きな支配力を提供する。

ドルビーメタデータ（ＤｏｌｌｂｙＭｅｔａｄａｔａ）は、前述の３つのファクタを制御する情報を提供する特別なフォーマットである。

３つの最も重要なドルビーメタデータ（ＤｏｌｌｂｙＭｅｔａｄａｔａ）機能性は、
・しばしば異なるプログラムタイプからなり、例えば長編映画、コマーシャルなどの表現内でダイアログの長期平均レベルを達成するダイアログ正規化（ＤｉａｌｏｇｕｅＮｏｒｍａｌｉｚａｔｉｏｎ）。
・大部分のオーディエンスを満足のいくオーディオ圧縮で満足させるが、同時に、それぞれの個々のカスタマーがオーディオ信号のダイナミックスを制御し、さらに圧縮を彼女または彼の個人的なリスニング環境に調整することを可能にするダイナミックレンジコントロール（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ）。
・マルチチャンネルオーディオ再生装置が利用できない場合に、マルチチャンネルオーディオ信号のサウンドを２つまたは１つのチャンネルにマップするダウンミックス（Ｄｏｗｎｍｉｘ）。

ドルビーメタデータは、ドルビーデジタル（ＡＣ−３）（ＤｏｌｂｙＤｉｇｉｔａｌ（ＡＣ−３））およびドルビーＥ（ＤｏｌｂｙＥ）に加えて用いられる。ドルビー−Ｅオーディオメタデータフォーマット（Ｄｏｌｂｙ−ＥＡｕｄｉｏｍｅｔａｄａｔａｆｏｒｍａｔ）は、［非特許文献１４］に記載され、ドルビーデジタル（ＡＣ−３）（ＤｏｌｂｙＤｉｇｉｔａｌ（ＡＣ−３））は、デジタルテレビジョン放送（高品位または標準品位）、ＤＶＤまたは他のメディアを通じて家庭へのオーディオの翻訳を対象とする。

ドルビーデジタル（ＤｏｌｂｙＤｉｇｉｔａｌ）は、メタデータを含む、完全な５．１チャンネルプログラムまでオーディオの単一のチャンネルから何でも伝送することができる。デジタルテレビジョンおよびＤＶＤの両方において、それは、ステレオおよび完全な５．１チャンネルの別々のオーディオプログラムの伝送のために共通に用いられる。

ドルビーＥ（ＤｏｌｂｙＥ）は、特にプロフェッショナルの生成および配布の環境内でマルチチャンネルオーディオの配布を対象とする。いつでもコンシューマーに対して配信する前に、ドルビーＥ（ＤｏｌｂｙＥ）は、ビデオを有するマルチチャンネル／マルチプログラムオーディオの配布のための好適な方法である。ドルビーＥ（ＤｏｌｂｙＥ）は、既存の２チャンネルデジタルオーディオインフラストラクチャ内でいかなる数の個々のプログラム構成（それぞれごとにメタデータを含む）に構成される最大８個の別々のオーディオチャンネルを伝送することができる。ドルビーデジタル（ＤｏｌｂｙＤｉｇｉｔａｌ）とは異なり、ドルビーＥ（ＤｏｌｂｙＥ）は、多くの符号化／復号化生成を扱うことができ、さらに、ビデオフレームレートに同期する。ドルビーデジタル（ＤｏｌｂｙＤｉｇｉｔａｌ）のように、ドルビーＥ（ＤｏｌｂｙＥ）は、データストリーム内で符号化される個々のオーディオプログラムごとにメタデータを伝送する。ドルビーＥ（ＤｏｌｂｙＥ）の使用は、結果として生じるオーディオデータストリームにとって、可聴劣化なしで、復号化され、修正され、さらに、再符号化されることを可能にする。ドルビーＥ（ＤｏｌｂｙＥ）ストリームがビデオフレームレートに同期するので、それは、プロフェッショナルの放送環境において送り、切り替え、さらに編集することができる。

これは別として、手段が、ダイナミックレンジコントロールを実行し、さらに、ダウンミックス生成を制御するために、ＭＰＥＧＡＡＣに加えて提供される。

コンシューマーのための可変性を最小化する方法で可変ピークレベル、平均レベルおよびダイナミックレンジを有するソースマテリアルを扱うために、プログラムが考え出された方法に関係なく、例えば、ダイアログレベルまたは平均音楽レベルが再生でコンシューマー制御レベルに設定されるように、再生されたレベルを制御することが必要である。さらに、それらがサウンドをどれくらい大きくするかという制約なしで、すべてのコンシューマーが、良好な（すなわち低いノイズの）環境でプログラムを聞くことができるというわけではない。自動車環境は、例えば、高いアンビエントノイズレベルを有し、したがって、リスナーがレベルの範囲を低減したいこと、さもなければ再生されることを予期することができる。

これらの理由の両方のために、ダイナミックレンジコントロールは、ＡＡＣの仕様内で利用できなければならない。これを達成するために、ビットレートを低減したオーディオに、プログラムアイテムのダイナミックレンジを設定しさらに制御するために用いられるデータを加えることが必要である。この制御は、基準レベルに関連して重要なプログラム要素、例えばダイアログとの関係において特定されなければならない。

ダイナミックレンジコントロールの機能は、以下の通りである。

１．ダイナミックレンジコントロール（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ）は、完全に任意である。したがって、正しい構文について、ＤＲＣを呼び出したくない人々のための煩雑性において変化がない。

２．ビットレートを低減したオーディオデータは、ダイナミックレンジを支援する支持データとともに、ソースマテリアルの完全なダイナミックレンジで送信される。

３．ダイナミックレンジコントロールデータは、設定再生ゲインにおいて待ち時間を最短に低減するためにフレームごとに送ることができる。

４．ダイナミックレンジコントロールデータは、ＡＡＣの「ｆｉｌｌ＿ｅｌｅｍｅｎｔ」機能を用いて送られる。

５．基準レベル（ＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）は、フルスケールとして定義される。

６．プログラム基準レベル（ＰｒｏｇｒａｍＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）は、異なる音源の再生レベル間でレベルパリティを可能にし、さらに、ダイナミックレンジコントロールが適用され得る基準を提供するように送信される。それは、例えばプログラムのダイアログコンテンツのレベルまたは音楽プログラムの平均レベルなどのプログラムの大きさの主観的印象に最も関連する音源信号の機能である。

７．プログラム基準レベル（ＰｒｏｇｒａｍＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）は、再生レベルパリティを達成するためにコンシューマーハードウェアにおいて基準レベル（ＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）に関連して設定レベルで再生され得るプログラムのレベルを表す。これに関連して、プログラムのより静かな部分は、レベルにおいて増加され得り、さらに、プログラムのより大きい部分は、レベルにおいて低減され得る。

８．プログラム基準レベル（ＰｒｏｇｒａｍＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）は、基準レベル（ＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）に関連して０〜−３１．７５ｄＢの範囲内で特定される。

９．プログラム基準レベル（ＰｒｏｇｒａｍＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）は、０．２５ｄＢのステップでファイルされる７ビットを用いる。

１０．ダイナミックレンジコントロールは、±３１．７５ｄＢの範囲内で特定される。

１１．ダイナミックレンジコントロールは、０．２５ｄＢのステップを有する８ビットフィールド（１つの符号、７つの大きさ）を用いる。

１２．ダイナミックレンジコントロールは、単一のエンティティとしてオーディオチャンネルのスペクトル係数または周波数バンドのすべてに適用することができ、または、その係数は、異なるスケールファクタバンドに分割することができ、それぞれが別々のセットのダイナミックレンジコントロールデータによって別々に制御される。

１３．ダイナミックレンジコントロールは、単一のエンティティとして（ステレオまたはマルチチャンネルのビットストリームの）すべてのチャンネルに適用することができ、または、別々のセットのダイナミックレンジコントロールデータによって別々に制御されている複数セットのチャンネルと分割することができる。

１４．予期されるセットのダイナミックレンジコントロールデータが失われている場合、ごく最近に受信された有効値が用いられるべきである。

１５．ダイナミックレンジコントロールデータのすべての要素は、その都度送られるというわけではない。例えば、プログラム基準レベル（ＰｒｏｇｒａｍＲｅｆｅｒｅｎｃｅＬｅｖｅｌ）は、平均して２００ミリ秒ごとに１回だけ送られ得る。

１６．必要な場合、エラー検出／保護は、トランスポート層（ＴｒａｎｓｐｏｒｔＬａｙｅｒ）によって提供される。

１７．ユーザーは、ビットストリームに存在する、信号のレベルに適用される、ダイナミックレンジコントロールの量を変える手段が与えられる。

５．１チャンネル伝送において別々のモノラルまたはステレオミックスダウンチャンネルを送信する可能性の他に、ＡＡＣは、５−チャンネルソーストラックから、自動ミックスダウン生成も可能にする。ＬＦＥチャンネルは、この場合に省略される。

このマトリクスミックスダウン方法は、ミックスダウンに加えられるリアチャンネルの量を定義する少ないセットのパラメータを用いてオーディオトラックのエディタによって制御され得る。

マトリクスミックスダウン方法は、３つのフロント／２つのバックのスピーカ構成の５チャンネルプログラムを、ステレオまたはモノラルプログラムにダウンミックスするためにだけ適用される。それは、３／２構成以外を有するいかなるプログラムに対して適用できない。

ＭＰＥＧについて、いくつかの手段が、レシーバ側においてオーディオレンダリングを制御するために提供される。

一般的な技術は、シーン記述言語、例えばＢＩＦＳおよびＬＡＳｅＲによって提供される。両方の技術は、分離された符号化オブジェクトからオーディオビジュアル要素を再生シーンにレンダリングするために用いられる。

ＢＩＦＳは［非特許文献５］において標準化され、さらに、ＬＡＳｅＲは［非特許文献６］において標準化される。

ＭＰＥＧ−Ｄは、
・ダウンミックスオーディオ表現に基づいてマルチチャンネルオーディオを生成するために（ＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ））、さらに
・オーディオオブジェクトに基づいてＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）パラメータを生成するために（ＭＰＥＧ空間オーディオオブジェクト符号化（ＭＰＥＧＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ））、
主に（パラメトリック）記述（すなわちメタデータ）を取扱う。

ＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）は、キューおよび送信信号が高品質のマルチチャンネル表現を合成するために復号化することができるように、送信されたダウンミックス信号に関連してマルチチャンネルオーディオ信号の空間画像を捕獲するためにＩＤＬ、ＩＴＤおよびＩＣキューに相当するレベル、位相およびコヒーレンスにおいてチャンネル間の差を利用し、さらに、これらのキューを非常にコンパクトな形式で符号化する。ＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）エンコーダは、マルチチャンネルオーディオ信号を受信し、そこにおいて、Ｎは、入力チャンネルの数（例えば５．１）である。符号化プロセスの重要な態様は、典型的にステレオである（が、モノラルでもあり得る）ダウンミックス信号ｘｔ１およびｘｔ２がマルチチャンネル入力信号から導出され、さらに、それは、マルチチャンネル信号よりむしろチャンネルを超える伝送のために圧縮されるこのダウンミックス信号である。エンコーダは、モノラルまたはステレオダウンミックスにおいてマルチチャンネル信号の忠実に等価なものを作り出し、さらに、ダウンミックスおよび符号化された空間キューに基づいて最高のマルチチャンネル符号化も作り出すように、有利にダウンミックスプロセスを利用することができる。代わりに、ダウンミックスは、外部から供給することができる。ＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）符号化プロセスは、送信チャンネルのために用いられる圧縮アルゴリズムを選ばないものであり、それは例えばＭＰＥＧ−１ＬａｙｅｒＩＩＩ、ＭＰＥＧ−４ＡＡＣまたはＭＰＥＧ−４Ｈｉｇｇ−ＥｆｆｉｃｉｅｎｃｙＡＡＣのような多くの高性能の圧縮アルゴリズムのいずれかであり得り、または、それはＰＣＭでさえあり得る。

ＭＰＥＧサラウンド技術は、マルチチャンネルオーディオ信号の非常に効率的なパラメトリック符号化を支持する。ＭＰＥＧＳＡＯＣのアイデアは、個々のオーディオオブジェクト（トラック）の非常に効率的なパラメトリック符号化のための類似のパラメータ表現とともに類似の基本仮定を適用することである。さらに、レンダリング機能性は、オーディオオブジェクトを数種類の再生システム（スピーカのための１．０、２．０、５．０、・・またはヘッドホンのためのバイノーラル）のための音響シーンにインタラクティブにレンダリングするために含まれる。ＳＡＯＣは、インタラクティブにレンダリングされたオーディオシーンにおいて個々のオブジェクトの再生を後で可能にするために、ジョイントモノラルまたはステレオダウンミックス信号において多くのオーディオオブジェクトを送信するように設計される。この目的のために、ＳＡＯＣは、オブジェクトレベル差（ＯＬＤ）（ＯｂｊｅｃｔＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅｓ（ＯＬＤ））、オブジェクト間クロスコヒーレンス（ＩＯＣ）（Ｉｎｔｅｒ−ＯｂｊｅｃｔＣｒｏｓｓＣｏｈｅｒｅｎｃｅｓ（ＩＯＣ））およびダウンミックスチャンネルレベル差（ＤＣＬＤ）（ＤｏｗｎｍｉｘＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅｓ（ＤＣＬＤ））をパラメータビットストリームに符号化する。ＳＡＯＣデコーダは、ＳＡＯＣパラメータ表現をＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）パラメータ表現に変換し、そして、それは、所望のオーディオシーンを生成するためにＭＰＥＧサラウンド（ＭＰＥＧＳｕｒｒｏｕｎｄ）デコーダによってダウンミックス信号とともに復号化される。ユーザーは、結果として生じるオーディオシーンにおいてオーディオオブジェクトの表現を変えるためにこのプロセスをインタラクティブに制御する。ＳＡＯＣのための多数の考えられるアプリケーションの中で、２〜３の典型的なシナリオは、次に示される。

コンシューマーは、仮想ミキシングデスクを用いて個人的なインタラクティブなリミックスを作り出すことができる。特定の楽器は、例えば、（カラオケのように）沿って演奏するために減衰することができ、元のミックスは個人的な好みに合うように修正することができ、映画／放送においてダイアログレベルはより良好なスピーチ了解度などのために調整することができる。

インタラクティブなゲームのために、ＳＡＯＣは、サウンドトラックを再生することのストレージおよび計算的に効率的な方法である。仮想シーンにおいて動き回ることは、オブジェクトレンダリングパラメータの適合によって反映される。ネットワーク化されたマルチプレイヤゲームは、特定のプレーヤの端末の外部にあるすべてのサウンドオブジェクトを表すために１つのＳＡＯＣストリームを用いて伝送効率から恩恵を受ける。

このアプリケーションとの関連において、用語「オーディオオブジェクト（ａｕｄｉｏｏｂｊｅｃｔ）」は、サウンド生成シナリオにおいて公知の「ステム（ｓｔｅｍ）」も含む。特に、ステムは、リミックスにおける使用のために（通常ディスクに）別々に保存されるミックスの個々の成分である。関連したステムは、同じ元の位置から典型的に跳ねるように動く。例は、ドラムステム（ミックスにおいてすべての関連したドラム楽器を含む）、ボーカルステム（ボーカルトラックだけを含む）またはリズムステム（例えばドラム、ギター、キーボードなどのすべてのリズム関連の楽器を含む）であり得る。

現在の通信インフラストラクチャは、モノフォニックであって、その機能性において拡張することができる。ＳＡＯＣ拡張を備えている端末は、いくつかの音源（オブジェクト）を拾い上げ、さらに、モノフォニックダウンミックス信号を生成し、それは、既存の（スピーチ）コーダを用いて互換性のある方法で送信される。サイド情報は、埋め込まれた、下位互換性のある方法で伝えることができる。レガシー端末は、ＳＡＯＣが使用可能なものが音響シーンをレンダリングすることができる間に、モノフォニック出力を生成し続け、そのため、異なるスピーカを空間的に分離することによって了解度を増加する（「カクテルパーティー効果」）。

実際の利用できるドルビー（Ｄｏｌｂｙ）オーディオメタデータアプリケーションの概要に関して、以下のセクションを記載する。

ミッドナイトモード（Ｍｉｄｎｉｇｈｔｍｏｄｅ）
セクション［０００５］で述べるように、リスナーが高いダイナミック信号を望まないシナリオがあり得る。したがって、彼女または彼は、彼女または彼のレシーバのいわゆる「ミッドナイトモード（ｍｉｄｎｉｇｈｔｍｏｄｅ）」を起動することができる。そして、コンプレッサは、全オーディオ信号に適用される。このコンプレッサのパラメータを制御するために、送信されたメタデータは、評価され、さらに、全オーディオ信号に適用される。

クリーンオーディオ（ＣｌｅａｎＡｕｄｉｏ）
他のシナリオは、高いダイナミックアンビエンスノイズを有することを望まないが、ダイアログを含む完全にクリーンな信号を有することを望む聴覚障害者である。（「ＣｌｅａｎＡｕｄｉｏ」）。このモードは、メタデータを用いて使用可能でもあり得る。

現在提案された解決策は、［非特許文献１３］−ＡｎｎｅｘＥに定義される。ステレオメイン信号および付加的なモノラルダイアログ記述チャンネル間のバランスは、個々のレベルパラメータセットによってここで扱われる。別々のシンタックスに基づいて提案された解決策は、ＤＶＢにおいてサプリメンタルオーディオサービスと呼ばれている。

ダウンミックス（Ｄｏｗｎｍｉｘ）
Ｌ／Ｒダウンミックスを支配する別々のメタデータパラメータがある。特定のメタデータパラメータは、エンジニアにとって、ステレオダウンミックスがどのように構成されるかさらにどのステレオアナログ信号が好ましいかを選択することを可能にする。ここで、中央およびサラウンドダウンミックスレベルは、デコーダごとにダウンミックス信号の最終的なミキシングバランスを定義する。

図１は、本発明の好適な実施形態による少なくとも２つの異なるオーディオオブジェクトの重畳を表す少なくとも１つのオーディオ出力信号を生成するための装置を示す。図１の装置は、オーディオ入力信号のオブジェクト表現１２を提供するためにオーディオ入力信号１１を処理するためのプロセッサ１０を含み、そこにおいて、その少なくとも２つの異なるオーディオオブジェクトは互いに分離され、その少なくとも２つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、その少なくとも２つの異なるオーディオオブジェクトは互いに独立して操作できる。

オブジェクト表現の操作は、少なくとも１つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータ１４に基づいて、少なくとも１つのオーディオオブジェクトのオーディオオブジェクト信号またはオーディオオブジェクト信号のミックス表現を操作するためのオブジェクトマニピュレータ１３において実行される。オーディオオブジェクトマニピュレータ１３は、少なくとも１つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または操作されたミックスオーディオオブジェクト信号表現１５を得るように構成される。

オブジェクトマニピュレータによって生成される信号は、操作されたオーディオオブジェクトと、未修正のオーディオオブジェクトまたは操作された異なるオーディオオブジェクトを結合することによって、オブジェクト表現をミックスするためのオブジェクトミキサ１６に入力され、そこにおいて、操作された異なるオーディオオブジェクトは、少なくとも１つのオーディオオブジェクトと異なる方法で操作されている。オブジェクトミキサの結果は、１つ以上のオーディオ出力信号１７ａ、１７ｂ、１７ｃを含む。好ましくは、１つ以上の出力信号１７ａ〜１７ｃは、例えば、モノラルレンダリングセットアップ、ステレオレンダリングセットアップ、例えば少なくとも５つまたは少なくとも７つの異なるオーディオ出力信号を必要とするサラウンドセットアップなどの３つ以上のチャンネルを含むマルチチャンネルレンダリングセットアップなどの特定のレンダリングセットアップのために設計される。

図２は、オーディオ入力信号を処理するためのプロセッサ１０の好適な実施を示す。好ましくは、オーディオ入力信号１１は、後述する図５ａのオブジェクトダウンミキサ１０１ａによって得られるように、オブジェクトダウンミックス１１として実施される。この状況において、プロセッサは、例えば、後述のように図５ａにおいてオブジェクトパラメータ計算器１０１ｂによって生成されるように、オブジェクトパラメータ１８をさらに受信する。そして、プロセッサ１０は、別々のオーディオオブジェクト信号１２を計算する位置にある。オーディオオブジェクト信号１２の数は、オブジェクトダウンミックス１１におけるチャンネルの数より多くあり得る。オブジェクトダウンミックス１１は、モノラルダウンミックス、ステレオダウンミックスまたは２つのチャンネルよりも多いチャンネルを有するダウンミックスさえも含むことができる。しかしながら、プロセッサ１２は、オブジェクトダウンミックス１１において個々の信号の数と比較してより多いオーディオオブジェクト信号１２を生成するように作動することができる。オーディオオブジェクト信号は、プロセッサ１０によって実行されるパラメトリック処理のため、オブジェクトダウンミックス１１が実行される前に存在した元のオーディオオブジェクトの真の再生でないが、オーディオオブジェクト信号は、元のオーディオオブジェクトの近似バージョンであり、そこにおいて、近似の精度は、プロセッサ１０において実行される分離アルゴリズムの種類、および、もちろん送信されたパラメータの精度に依存する。好適なオブジェクトパラメータは、空間オーディオオブジェクト符号化から公知のパラメータであり、個々に分離されたオーディオオブジェクト信号を生成するための好適な再構成アルゴリズムは、空間オーディオオブジェクト符号化標準により実行される再構成アルゴリズムである。プロセッサ１０およびオブジェクトパラメータの好適な実施形態は、図６〜図９との関連においてその後に述べられる。

図３ａおよび図３ｂは実施を集合的に示し、そこにおいて、オブジェクト操作は再生セットアップにオブジェクトダウンミックスの前に実行され、さらに、図４はさらなる実施を示し、そこにおいて、オブジェクトダウンミックスは操作の前に実行され、さらに、操作は最終的なオブジェクトミキシング操作の前に実行される。図４と比較した図３ａ、図３ｂにおける手順の結果は同様であるが、オブジェクト操作は処理シナリオにおいて異なるレベルで実行される。オーディオオブジェクト信号の操作が効率および計算資源との関連において問題であるときに、図３ａ／図３ｂの実施形態は好ましく、その理由は、オーディオ信号操作が図４におけるような複数のオーディオ信号よりむしろ単一のオーディオ信号だけに実行されるからである。オブジェクトダウンミックスが未修正のオブジェクト信号を用いて実行されなければならないという必要がある得る異なる実施において、図４の構成は好ましく、そこにおいて、操作は、例えば、左チャンネルＬ、中央チャンネルＣまたは右チャンネルＲのための出力信号を得るために、オブジェクトダウンミックスの後であるが最終的なオブジェクトミックスの前に実行される。

図３ａは、図２のプロセッサ１０が別々のオーディオオブジェクト信号を出力する状況を示す。例えばオブジェクト１のための信号などの少なくとも１つのオーディオオブジェクト信号は、このオブジェクト１のためのメタデータに基づいて、マニピュレータ１３ａにおいて操作される。実施に応じて、例えばオブジェクト２などの他のオブジェクトは、マニピュレータ１３ｂによって同様に操作される。当然、操作されないにもかかわらずオブジェクト分離によって生成される、例えばオブジェクト３などのオブジェクトが実際に存在する状況が生じ得る。図３ａの処理の結果は、図３ａの例において、２つの操作されたオブジェクト信号および１つの非操作の信号である。

これらの結果は、オブジェクトミキサ１６に入力され、それは、オブジェクトダウンミキサ１９ａ、１９ｂ、１９ｃとして実施される第１のミキサステージを含み、さらに、デバイス１６ａ、１６ｂ、１６ｃによって実施される第２のオブジェクトミキサステージを含む。

オブジェクトミキサ１６の第１のステージは、図３ａの出力ごとに、例えば、図３ａの出力１のためのオブジェクトダウンミキサ１９ａ、図３ａの出力２のためのオブジェクトダウンミキサ１９ｂ、図３ａの出力３のためのオブジェクトダウンミキサ１９ｃなどのオブジェクトダウンミキサを含む。オブジェクトダウンミキサ１９ａ〜１９ｃの目的は、それぞれのオブジェクトを出力チャンネルに「配布する（ｄｉｓｔｒｉｂｕｔｅ）」ことである。したがって、それぞれのオブジェクトダウンミキサ１９ａ、１９ｂ、１９ｃは、左コンポーネント信号Ｌ、中央コンポーネント信号Ｃおよび右コンポーネント信号Ｒのための出力を有する。このように、例えばオブジェクト１が単一のオブジェクトである場合、ダウンミキサ１９ａは、直通的なダウンミキサであり、さらに、ブロック１９ａの出力は、１７ａ、１７ｂ、１７ｃで示される最終的な出力Ｌ、Ｃ、Ｒと同様である。オブジェクトダウンミキサ１９ａ〜１９ｃは、好ましくは３０で示されるレンダリング情報を受信し、そこにおいて、レンダリング情報は、レンダリングセットアップ、すなわち、図３ｂの実施形態において３つの出力スピーカだけが存在するように表し得る。これらの出力は、左スピーカＬ、中央スピーカＣおよび右スピーカＲである。例えば、レンダリングセットアップまたは再生セットアップが５．１チャンネルシナリオを含む場合、それぞれのオブジェクトダウンミキサは、６つの出力チャンネルを有し、さらに、左チャンネルのための最終的な出力信号、右チャンネルのための最終的な出力信号、中央チャンネルのための最終的な出力信号、左サラウンドチャンネルのための最終的な出力信号、右サラウンドチャンネルのための最終的な出力信号および低周波エンハンスメント（サブウーファー）チャンネルのための最終的な出力信号が得られるように、６つの加算器が存在する。

特に、加算器１６ａ、１６ｂ、１６ｃは、それぞれのチャンネルのためのコンポーネント信号を結合するように構成され、それらは、対応するオブジェクトダウンミキサによって生成される。この結合は、好ましくはサンプル加算による直通的なサンプルであるが、実施に応じて、重み付けファクタが、同様に適用できる。さらに、図３ａ、図３ｂにおける機能性は、エレメント１９ａ〜１６ｃが周波数領域において作動し得るように、周波数またはサブバンド領域において実行でき、さらに、何らかの周波数／時間変換が再生セットアップにおいてスピーカに信号を実際に出力する前にある。

図４は、代わりの実施を示し、そこにおいて、エレメント１９ａ、１９ｂ、１９ｃ、１６ａ、１６ｂ、１６ｃの機能性は、図３ｂの実施形態と類似している。しかしながら、重要なことに、オブジェクトダウンミックス１９ａの前に図３ａにおいて起こった操作は、オブジェクトダウンミックス１９ａの後で起こる。このように、それぞれのオブジェクトのためのメタデータによって制御されるオブジェクトに特有の操作は、ダウンミックス領域において、すなわち、その後の操作されたコンポーネント信号の実際の加算の前に行われる。図４が図１と比較されるときに、１９ａ、１９ｂ、１９ｃとしてのオブジェクトダウンミキサがプロセッサ１０内で実施され、さらに、オブジェクトミキサ１６が加算器１６ａ、１６ｂ、１６ｃを含むことが明らかになる。図４が実施され、さらに、オブジェクトダウンミキサがプロセッサの部分であるときに、プロセッサは、図１のオブジェクトパラメータ１８に加えて、レンダリング情報３０、すなわち、それぞれのオーディオオブジェクトの位置に関する情報およびレンダリングセットアップに関する情報および場合によっては付加的な情報を受信する。

さらに、操作は、ブロック１９ａ、１９ｂ、１９ｃによって実施されるダウンミックス操作を含むことができる。この実施形態において、マニピュレータは、これらのブロックを含み、さらに、付加的な操作が、起こり得るがいずれにせよ必要でない。

図５ａは、図５ｂに概略的に示されるように、データストリームを生成することができるエンコーダ側の実施形態を示す。特に、図５ａは、少なくとも２つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号５０を生成するための装置を示す。基本的に、図５ａの装置は、データストリームが、例えば少なくとも２つのオーディオオブジェクトの重み付けられたまたは重み付けられていない結合などの結合を表すオブジェクトダウンミックス信号５２を含むように、データストリーム５０をフォーマットするためのデータストリームフォーマッタ５１を示す。さらに、データストリーム５０は、サイド情報として、少なくとも１つの異なるオーディオオブジェクトに関連するオブジェクト関連のメタデータ５３を含む。好ましくは、データストリーム５０は、パラメトリックデータ５４をさらに含み、それは時間および周波数選択的であり、さらに、それはいくつかのオーディオオブジェクトにオブジェクトダウンミックス信号の高品質の分離を可能にし、そこにおいて、この操作は、上述のように図１においてプロセッサ１０によって実行されるオブジェクトアップミックス操作とも呼ばれる。

オブジェクトダウンミックス信号５２は、好ましくはオブジェクトダウンミキサ１０１ａによって生成される。パラメトリックデータ５４は、好ましくはオブジェクトパラメータ計算器１０１ｂによって生成され、さらに、オブジェクト選択的メタデータ５３は、オブジェクト選択的メタデータプロバイダ５５によって生成される。オブジェクト選択的メタデータプロバイダは、サウンドスタジオ内でオーディオ製作者によって生成されるようにメタデータを受信するための入力であってもよく、または、オブジェクト分離の後で実行することができるオブジェクト関連の分析によって生成されるデータであってもよい。特に、オブジェクト選択的メタデータプロバイダは、例えば、オブジェクトがスピーチオブジェクト、サウンドオブジェクトまたはサラウンドサウンドオブジェクトであるかどうかを見いだすために、プロセッサ１０によってオブジェクトの出力を分析するために実施することができる。このように、スピーチオブジェクトは、スピーチ符号化から公知である周知のスピーチ検出アルゴリズムのいくつかによって分析することができ、さらに、オブジェクト選択的分析は、楽器から生じるサウンドオブジェクトを見いだすためにも実施することができる。そのようなサウンドオブジェクトは、高いトーン特性を有し、したがって、スピーチオブジェクトまたはサラウンドサウンドオブジェクトと区別することができる。サラウンドサウンドオブジェクトは、例えば、シネマムービー中に典型的に存在するバックグランドサウンドを反響する全くノイズの多い特性を有し、そこにおいて、例えば、バックグラウンドノイズは、交通サウンドまたは他のいかなる定常のノイズの多い信号、または、例えば射撃シーンが映画館において起こるときに生成されるような広帯域スペクトルを有する非定常の信号である。

この分析に基づいて、聴覚障害者または高齢者にとって、映画のより良好な理解のために役立つように、スピーチを強調するために、サウンドオブジェクトを増幅し、さらに、他のオブジェクトを減衰することができる。前述のように、他の実施は、例えばオブジェクト識別などのオブジェクトに特有のメタデータおよび例えばステレオダウンミックスまたはサラウンドサウンドダウンミックスなどのＣＤまたはＤＶＤにおける実際のオブジェクトダウンミックス信号を生成するサウンドエンジニアによるオブジェクト関連のデータの提供を含む。

図５ｄは、例示的なデータストリーム５０を示し、それは、メイン情報として、モノラル、ステレオまたはマルチチャンネルオブジェクトダウンミックスを有し、さらに、それは、サイド情報として、オブジェクトパラメータ５４およびオブジェクトベースのメタデータ５３を有し、それらは、オブジェクトをスピーチまたはサラウンドと識別するだけの場合に変化しない、または、例えばミッドナイトモードによって必要であるようにオブジェクトベースのメタデータのようなレベルデータの提供の場合に時間変化する。しかしながら、好ましくは、オブジェクトベースのメタデータは、データレートを保存するために、周波数選択的な方法で提供されない。

０および１間のダウンミックスマトリクス要素の値は可能である。特に、０．５の値は、特定のオブジェクトがそのエネルギーの半分だけであるがダウンミックス信号に含まれることを示す。このように、オブジェクトナンバー４のようなオーディオオブジェクトが両方のダウンミックス信号チャンネルに等しく配布されるときに、ｄ₂₄およびｄ₁₄は０．５に等しい。ダウンミキシングのこの方法は、いくらかの状況のために好ましいエネルギー節約のダウンミックス操作である。しかしながら、代わりに、非エネルギー節約のダウンミックスが、同様に用いることができ、そこにおいて、全体のオーディオオブジェクトは、このオーディオオブジェクトのエネルギーがダウンミックス信号内で他のオーディオオブジェクトに関して２倍になるように、左ダウンミックスチャンネルおよび右ダウンミックスチャンネルに導入される。

特に、マトリクス要素ａ_ijは、部分または全体のオブジェクトｊが特定の出力チャンネルｉにおいてレンダリングされるものかどうかを示す。図９の下部は、シナリオのターゲットレンダリングマトリクスのための簡単な例を示し、そこにおいて、６つのオーディオオブジェクトＡＯ１〜ＡＯ６があり、最初の５つのオーディオオブジェクトだけが特定の位置でレンダリングされるべきであり、第６のオーディオオブジェクトは全くレンダリングされるべきでない。

その後、本発明の好適な実施形態が、図に１０を参照して要約される。

好ましくは、ＳＡＯＣ（空間オーディオオブジェクト符号化）から公知の方法は、１つのオーディオ信号を異なる部分に分割する。これらの部品は、例えば異なるサウンドオブジェクトであってもよいが、それはこれに制限されない。

メタデータがオーディオ信号の単一の部分ごとに送信される場合、それは、他の部分が不変のままであるかまたは異なるメタデータによって修正され得る間に、ちょうど信号成分のいくらかを調整することを可能にする。

これは、異なるサウンドオブジェクトのために行われ得るが、個々のスペクトル範囲のためにも行われ得る。

オブジェクト分離のためのパラメータは、あらゆる個々のオーディオオブジェクトごとに、古典的であるかまたはさらに新しいメタデータ（ゲイン、圧縮、レベル、・・・）である。これらのデータは、好ましくは送信される。

デコーダ処理ボックスは、２つの異なるステージにおいて実施される。第１のステージにおいて、オブジェクト分離パラメータは、個々のオーディオオブジェクトを生成する（１０）ために用いられる。第２のステージにおいて、処理ユニット１３は、複数の例を有し、そこにおいて、それぞれの例は、個々のオブジェクトのためにある。ここで、オブジェクトに特有のメタデータは、適用されるべきである。デコーダの終端で、すべての個々のオブジェクトは、１つの単一のオーディオ信号に再び結合される（１６）。さらに、ドライ／ウエットコントローラ２０は、エンドユーザーに彼女または彼の好適な設定を見つける簡単な可能性を与えるために、元のおよび操作された信号間にわたって平滑なフェイドを可能にし得る。

特定の実施に応じて、図１０は、２つの形態を示す。ベース形態において、オブジェクト関連のメタデータは、ちょうど特定のオブジェクトのためのオブジェクト記述を示す。好ましくは、オブジェクト記述は、図１０において２１で示されるように、オブジェクトＩＤに関連する。したがって、デバイス１３ａによって操作される上側のオブジェクトのためのオブジェクトベースのメタデータは、このオブジェクトが「スピーチ」オブジェクトであるというまさに情報である。アイテム１３ｂによって処理される他のオブジェクトのためのオブジェクトベースのメタデータは、この第２のオブジェクトがサラウンドオブジェクトであるという情報を有する。

両方のオブジェクトのためのこの基本的なオブジェクト関連のメタデータは、拡張クリーンオーディオモードを実施するために十分であり得り、そこにおいて、スピーチオブジェクトは増幅され、さらに、サラウンドオブジェクトは減衰され、または、一般的に言って、スピーチオブジェクトはサラウンドオブジェクトに関して増幅され、または、サラウンドオブジェクトはスピーチオブジェクトに関して減衰される。しかしながら、ユーザーは、好ましくはレシーバ／デコーダ側において異なる処理モードを実施することができ、それはモード制御入力を介してプログラムすることができる。これらの異なるモードは、ダイアログレベルモード、圧縮モード、ダウンミックスモード、拡張ミッドナイトモード、拡張クリーンオーディオモード、ダイナミックダウンミックスモード、ガイド付きアップミックスモード、オブジェクトのリロケーションのためのモードなどであり得る。

実施に応じて、異なるモードは、例えばスピーチまたはサラウンドなどのオブジェクトの種類または特性を示す基本的な情報に加えて、異なるオブジェクトベースのメタデータを必要とする。ミッドナイトモードにおいて、オーディオ信号のダイナミックレンジは圧縮されなければならなく、例えばスピーチオブジェクトおよびサラウンドオブジェクトなどのオブジェクトごとに、実際のレベルまたはミッドナイトモードのためのターゲットレベルがメタデータとして提供されることが好ましい。オブジェクトの実際のレベルが提供されるときに、レシーバは、ミッドナイトモードのためのターゲットレベルを計算しなければならない。しかしながら、ターゲット相対レベルが与えられるときに、デコーダ／レシーバ−側処理は低減される。

この実施において、それぞれのオブジェクトは、単一のオブジェクト内のレベル差が低減されるように、ダイナミックレンジを圧縮するためにレシーバによって用いられるレベル情報の時間的に変化するオブジェクトベースのシーケンスを有する。これは、自動的に、最終的なオーディオ信号をもたらし、そこにおいて、レベル差は、ミッドナイトモード実施によって必要であるように時々低減される。クリーンオーディオアプリケーションのために、スピーチオブジェクトのためのターゲットレベルは、同様に提供することができる。そして、サラウンドオブジェクトは、特定のスピーカセットアップによって生成されるサウンド内でスピーチオブジェクトを非常に強調するために、ゼロにまたはほとんどゼロに設定され得る。ミッドナイトモードの正反対である高忠実度アプリケーションにおいて、オブジェクトのダイナミックレンジまたはオブジェクト間の差のダイナミックレンジは、強化することもできる。この実施において、ターゲットオブジェクトゲインレベルを提供することが好ましく、その理由は、結局、サウンドスタジオ内で芸術的なサウンドエンジニアによって作り出され、したがって、自動またはユーザー定義の設定と比較して最高品質を有するサウンドが得られることを、これらのターゲットレベルが保証するからである。

他の実施において、オブジェクトベースのメタデータは、アドバンスドダウンミックスに関連し、オブジェクト操作は、特定のレンダリングセットアップにとって異なるダウンミックスを含む。そして、オブジェクトベースのメタデータは、図３ｂまたは図４においてオブジェクトダウンミキサブロック１９ａ〜１９ｃに導入される。この実施において、マニピュレータは、個々のオブジェクトダウンミックスがレンダリングセットアップに応じて実行されるときに、ブロック１９ａ〜１９ｃを含み得る。特に、オブジェクトダウンミックスブロック１９ａ〜１９ｃは、互いに異なるように設定することができる。この場合、スピーチオブジェクトは、チャンネル配置に応じて、左または右チャンネルにおいてよりむしろ中央チャンネルだけに導入され得る。そして、ダウンミキサブロック１９ａ〜１９ｃは、異なる複数のコンポーネント信号出力を有し得る。ダウンミックスは、ダイナミックに実施することもできる。

さらに、ガイド付きアップミックス情報およびオブジェクトのリロケーションのための情報は、同様に提供することができる。

その後、メタデータおよびオブジェクトに特有のメタデータのアプリケーションを提供する好適な方法の概要が与えられる。

オーディオオブジェクトは、典型的なＳＯＡＣアプリケーションにおいて理想的に分離することができない。オーディオの操作のために、完全な分離ではないがオブジェクトの「マスク（ｍａｓｋ）」を有することは十分であり得る。

これは、オブジェクト分離のための少なく／粗いパラメータをもたらす可能性がある。

「ミッドナイトモード」と呼ばれるアプリケーションのために、オーディオエンジニアは、例えば一定のダイアログ量だが操作されたアンビエンスノイズにおいて生じる、オブジェクトごとに独立してすべてのメタデータパラメータを定義する必要がある（「拡張ミッドナイトモード」）。

これは、補聴器（「拡張クリーンオーディオ」）を着用している人々のために役立ち得る。

新しいダウンミックスシナリオ：異なる分離されたオブジェクトは、特定のダウンミックス状況ごとに異なって扱われ得る。例えば、５．１チャンネル信号は、ステレオ家庭用テレビジョンシステムのためにダウンミキシングされなければならなく、さらに、他のレシーバは、モノラル再生システムだけでさえも有する。したがって、異なるオブジェクトは、異なる方法において扱われ得る（、さらに、これのすべては、サウンドエンジニアによって提供されるメタデータのため、生成の間、サウンドエンジニアによって制御される）。

また、３．０チャンネルなどに対するダウンミックスが好ましい。

生成されたダウンミックスは、一定のグローバルパラメータ（セット）によって定義されないが、それは時間的に変化するオブジェクト依存パラメータから生成され得る。

新しいオブジェクトベースのメタデータについて、ガイド付きアップミックスを同様に実行することが可能である。

オブジェクトは、例えば、アンビエンスが減衰されるときに空間画像をより広くするために、異なる位置に位置付けられ得る。これは、聴覚障害者にとってスピーチ了解度に役立つ。

本書類において提案された方法は、ドルビーコーデック（ＤｏｌｂｙＣｏｄｅｃｓ）において実施され主に用いられる既存のメタデータ概念を拡張する。現在、周知のメタデータ概念を、全体のオーディオストリームにだけでなく、このストリーム内で抽出されたオブジェクトにも適用することが可能である。これは、オーディオエンジニアおよびアーティストに、より高い柔軟性、調整のより大きな範囲、したがって、より良好なオーディオ品質およびリスナーとっての楽しみを与える。

図１２ａ、図１２ｂは、本発明の概念の異なるアプリケーションシナリオを示す。古典的なシナリオにおいて、テレビジョンにおいてスポーツが存在し、そこにおいて、すべての５．１チャンネルにおいてスタジアム雰囲気を有し、さらに、スピーカチャンネルが中央チャンネルにマップされる。この「マッピング（ｍａｐｐｉｎｇ）」は、スタジアムの雰囲気を伝送する５．１チャンネルのために存在する中央チャンネルへのスピーカチャンネルの直通的な加算によって実行することができる。現在、本発明のプロセスは、スタジアム雰囲気サウンド記述においてそのような中央チャンネルを有することを可能にする。そして、加算演算は、スタジアム雰囲気からの中央チャンネルおよびスピーカをミックスする。スピーカおよびスタジアム雰囲気からの中央チャンネルのためのオブジェクトパラメータを生成することによって、本発明は、これらの２つのサウンドをデコーダ側において分離することを可能にし、さらに、スピーカまたはスタジアム雰囲気からの中央チャンネルを拡張しまたは減衰することを可能にする。さらなるシナリオは、２つのスピーカを有するときである。そのような状況は、２人が同一のサッカーゲームをコメントしているときに起こり得る。特に、同時に話している２つのスピーカが存在するときに、別々のオブジェクトとしてこれらの２つのスピーカを有し、さらに、スタジアム雰囲気チャンネルから分離するこれらの２つのスピーカを有するために役立ち得る。そのようなアプリケーションにおいて、５．１チャンネルおよび２つのスピーカチャンネルは、低周波エンハンスメントチャンネル（サブウーファーチャンネル）が無視されるときに、８つの異なるオーディオオブジェクトまたは７つの異なるオーディオオブジェクトとして処理することができる。直通的な配布インフラストラクチャが５．１チャンネルサウンド信号に適合されるので、７つの（または８つの）オブジェクトは、５．１チャンネルダウンミックス信号にダウンミックスすることができ、さらに、オブジェクトパラメータは、５．１ダウンミックスチャンネルに加えて提供することができ、レシーバ側において、オブジェクトが再び分離され得り、さらに、オブジェクトベースのメタデータがスタジアム雰囲気オブジェクトからスピーカオブジェクトを識別するという事実のため、オブジェクトに特有の処理が、オブジェクトミキサによる最終的な５．１チャンネルダウンミックスがレシーバ側において起こる前に可能である。

このシナリオにおいて、第１のスピーカを含む第１のオブジェクト、第２のスピーカを含む第２のオブジェクトおよび完全なスタジアム雰囲気を含む第３のオブジェクトを有することもできる。

その後、オブジェクトベースのダウンミックスシナリオの異なる実施は、図１１ａ〜図１１ｃとの関連において述べられる。

例えば、図１２ａまたは図１２ｂのシナリオによって生成されるサウンドが従来の５．１チャンネル再生システムにおいて再生されなければならないときに、埋め込まれたメタデータストリームは無視することができ、さらに、受信されたストリームはそのままに再生することができる。しかしながら、再生がステレオスピーカセットアップにおいて起こらなければならないときに、５．１チャンネルからステレオへのダウンミックスが起こらなければならない。サラウンドチャンネルがちょうど左／右に加算される場合、モデレータが小さすぎるレベルにあり得る。したがって、モデレータオブジェクトが（再）加算される前に、ダウンミックスの前または後に雰囲気レベルを低減することが好ましい。

聴覚障害者は、まだ左右に分離される両方のスピーカを有する間により良好なスピーチ了解度を有するために雰囲気レベルを低減してもよく、それは、「カクテルパーティー効果」として公知であり、そこにおいて、彼女または彼の名前を聞いてから、彼女または彼が彼女または彼の名前を聞いた方向に集中する。この方向に特有の集中は、心理音響の観点から、異なる方向から聞こえるサウンドを低減する。したがって、例えば、左、右または左右の両方におけるスピーカなどの特定のオブジェクトのはっきりした位置は、スピーカが左右間の中央に現れるように、了解度を増加できる。このために、入力オーディオストリームは、好ましくは別々のオブジェクトに分割され、そこにおいて、オブジェクトは、オブジェクトが重要であるかまたはそれほど重要でないというメタデータにおいてランキングを有しなければならない。そして、それらの間のレベル差は、メタデータにより調整することができ、または、オブジェクト位置は、メタデータにより了解度を増加するために再配置することができる。

この目的を得るために、メタデータは送信信号に適用されないが、メタデータは場合によってはオブジェクトダウンミックスの前または後に単一の分離可能なオーディオオブジェクトに適用される。現在、本発明は、これらのチャンネルが個々に操作することができるように、オブジェクトが空間チャンネルに制限されなければならないことがもう必要ではない。その代わりに、本発明のオブジェクトベースのメタデータ概念は、特定のチャンネルにおいて特定のオブジェクトを有することを必要としないが、オブジェクトは、いくつかのチャンネルにダウンミックスすることができ、さらに、まだ個々に操作することができる。

図１１ａは、好適な実施形態のさらなる実施を示す。オブジェクトダウンミキサ１６は、ｋ×ｎ個の入力チャンネルからｍ個の出力チャンネルを生成し、そこにおいて、ｋはオブジェクトの数であり、さらに、ｎ個のチャンネルは、オブジェクトごとに生成される。図１１ａは、図３ａ、図３ｂのシナリオに対応し、そこにおいて、操作１３ａ、１３ｂ、１３ｃは、オブジェクトダウンミックスの前に起こる。

図１１ａは、メタデータ制御なしで実施することができるレベルマニピュレータ１９ｄ、１９ｅ、１９ｆをさらに含む。しかしながら、代わりに、これらのレベルマニピュレータは、ブロック１９ｄ〜１９ｆによって実施されるレベル修正が図１のオブジェクトマニピュレータ１３の部分でもあるのと同様に、オブジェクトベースのメタデータによって制御することができる。ダウンミックス操作１９ａ、１９ｂ、１９ｃも、これらのダウンミックス操作がオブジェクトベースのメタデータによって制御されるときに同じである。しかしながら、この場合は、図１１ａに示されないが、オブジェクトベースのメタデータが同様にダウンミックスブロック１９ａ〜１９ｃに送るときに、同様に実施することができる。後者の場合、これらのブロックは、図１１ａのオブジェクトマニピュレータ１３の部分でもあり、さらに、オブジェクトミキサ１６の残りの機能性は、対応する出力チャンネルのための操作されたオブジェクトコンポーネント信号の出力チャンネル的な結合によって実施される。さらに、図１１ａは、ダイアログ正規化機能性２５を含み、それは、このダイアログ正規化が出力チャンネル領域以外のオブジェクト領域において起こらないので、従来のメタデータによって実施され得る。

図１１ｂは、オブジェクトベースの５．１チャンネル−ステレオダウンミックスの実施を示す。ここで、ダウンミックスは、操作の前に実行され、したがって、図１１ｂは、図４のシナリオに対応する。レベル修正１３ａ、１３ｂは、オブジェクトベースのメタデータによって実行され、例えば、上側のブランチがスピーチオブジェクトに対応し、さらに、下側のブランチがサラウンドオブジェクトに対応し、または、図１２ａ、図１２ｂにおける例のために、上側のブランチは１つまたは両方のスピーカに対応し、さらに、下側のブランチはすべてのサラウンド情報に対応する。そして、レベルマニピュレータ１３ａ、１３ｂは、オブジェクトベースのメタデータがちょうどオブジェクトの識別であるように、固定して設定されたパラメータに基づいて両方のオブジェクトを操作するが、レベルマニピュレータ１３ａ、１３ｂは、メタデータ１４によって提供されるターゲットレベルに基づいてまたはメタデータ１４によって提供される実際のレベルに基づいてレベルを操作することもできる。したがって、マルチチャンネル入力のためのステレオダウンミックスを生成するために、オブジェクトごとにダウンミックス公式が適用され、さらに、オブジェクトは再びそれらを出力信号にリミックスする前に一定のレベルによって重み付けられる。

図１１ｃに示されるようにクリーンオーディオアプリケーションのために、重要性レベルは、それほど重要でない信号成分の低減を可能にするメタデータとして送信される。そして、他のブランチは、重要性成分に対応し、それは、減衰することができるそれほど重要でない成分に下側のブランチが対応する間に増幅される。異なるオブジェクトの特定の減衰および／または増幅がどのように実行されるかは、レシーバによって固定して設定することができるが、さらに、図１１ｃにおける「ドライ／ウエット」制御１４によって実施されるように、オブジェクトベースのメタデータによって制御することもできる。

一般的に、ダイナミックレンジコントロールは、マルチバンド圧縮としてＡＡＣダイナミックレンジコントロール実施と同様に行われ、オブジェクト領域において実行することができる。オブジェクトベースのメタデータは、イコライザ実施と類似している周波数選択的な圧縮が実行されるように、周波数選択的なデータでさえあり得る。

前述のように、ダイアログ正規化は、好ましくは、ダウンミックスの後で、すなわちダウンミックス信号において実行される。一般的に、ダウンミックスは、ｎ個の入力チャンネルを有するｋ個のオブジェクトをｍ個の出力チャンネルに処理できるべきである。

オブジェクトを別々のオブジェクトに分離することが必ずしも重要であるというわけではない。操作される信号成分を「マスクアウトする（ｍａｓｋｏｕｔ）」ことが十分であり得る。これは、画像処理においてマスクを編集することと類似している。そして、一般化された「オブジェクト」は、いくつかの元のオブジェクトの重畳であり、この重畳は、元のオブジェクトの総数より少ない数の多数のオブジェクトを含む。すべてのオブジェクトは、最終的なステージで再び合計される。分離された単一のオブジェクトに関心がないかもしれなく、さらに、いくらかのオブジェクトのために、レベル値は、カラオケ歌手が彼女または彼自身のボーカルを残りの楽器のオブジェクトに導入することができるように、ボーカルのオブジェクトを完全に除去することに関心があり得る例えばカラオケアプリケーションなどのために、特定のオブジェクトが完全に除去されなければならないときに、高い負のｄＢ数値である０に設定され得る。

本発明の他の好適なアプリケーションは、前述のように、単一のオブジェクトのダイナミックレンジが低減できる拡張ミッドナイトモード、または、オブジェクトのダイナミックレンジが拡大される高忠実度モードである。これに関連して、送信信号は圧縮することができ、さらに、この圧縮を逆にすることを目的とする。ダイアログ正規化のアプリケーションは、主にスピーカに対する出力として全信号のために起こることが好ましいが、異なるオブジェクトのための非線形減衰／増幅は、ダイアログ正規化が調整されるときに役立つ。オブジェクトダウンミックス信号から異なるオーディオオブジェクトを分離するためのパラメトリックデータに加えて、和信号に関連する古典的なメタデータに加えてオブジェクトおよび和信号ごとに、ダウンミックスのためのレベル値、重要性、クリーンオーディオのための重要性レベルを示す重要性値、オブジェクト識別、時間的に変化する情報として実際の絶対的または相対的なレベル、または、時間的に変化する情報として絶対的または相対的なターゲットレベルなどを送信することが好ましい。

記載された実施形態は、本発明の原理のために単に示すだけである。ここに記載されている構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによって制限されるが、ここに実施形態の記載および説明として提示される具体的な詳細によっては制限されないことが意図である。

本発明の方法の特定の実現要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施され得る。実施は、本発明の方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に可読の制御信号を格納したデジタル記憶媒体、特にディスク、ＤＶＤまたはＣＤを用いて実行され得る。そのため、本発明は、一般的に、機械可読のキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために作動される。したがって、言い換えると、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。

Claims

少なくとも２つの異なるオーディオオブジェクトの重畳を表す少なくとも１つのオーディオ出力信号を生成するための装置であって、前記装置は、
オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するためのプロセッサであって、前記オブジェクト表現とは、
前記少なくとも２つの異なるオーディオオブジェクトは互いに分離され、
前記少なくとも２つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、
前記少なくとも２つの異なるオーディオオブジェクトは互いに独立して操作でき、
前記プロセッサは前記入力信号を受信するように構成され、前記入力信号は複数の元のオーディオオブジェクトのダウンミックス表現であり、
前記プロセッサは前記元のオーディオオブジェクトの近似表現を再構成するための再構成アルゴリズムを制御するためのオーディオオブジェクトパラメータを受信するように構成され、さらに
前記プロセッサは、前記元のオーディオオブジェクトのオーディオオブジェクト信号の近似であるオーディオオブジェクト信号を含む前記オブジェクト表現を得るために、前記入力信号および前記オーディオオブジェクトパラメータを用いて前記再構成アルゴリズムを実行するように構成される、プロセッサ、
操作されたオブジェクト表現を得るために少なくとも１つのオーディオオブジェクトを含む少なくとも１つのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するためのオブジェクトマニピュレータであって、
前記オブジェクトマニピュレータは、前記少なくとも１つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて、前記少なくとも１つのオーディオオブジェクト信号の前記操作または前記ミックスオーディオオブジェクト信号の前記操作を実行するように構成され、それによって、前記少なくとも１つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または前記少なくとも１つのオーディオオブジェクトのための操作されたミックスオーディオオブジェクト信号が得られる、オブジェクトマニピュレータ、および
前記操作されたオーディオオブジェクト信号または前記操作されたミックスオーディオオブジェクト信号と、未修正のオーディオオブジェクト信号をまたは前記少なくとも１つのオーディオオブジェクト信号の操作と比べて異なる方法で操作される操作された異なるオーディオオブジェクト信号を結合することによって、前記操作されたオブジェクト表現をミックスするためのオブジェクトミキサを含む、装置。
ｍ個の出力信号を生成するように構成され、ｍは１より大きい整数であり、
前記プロセッサはｋ個のオーディオオブジェクトを有するオブジェクト表現を提供するように作動し、ｋはｍより大きい整数であり、
前記オブジェクトマニピュレータは、少なくとも２つのオブジェクトの少なくとも１つのオブジェクトと関連したメタデータに基づいて、互いに異なる前記少なくとも２つのオブジェクトを操作するように構成され、さらに
前記オブジェクトミキサは、それぞれの出力信号が前記少なくとも２つの異なるオブジェクトの前記操作されたオーディオ信号に影響されるように、前記ｍ個の出力信号を得るために、前記少なくとも２つの異なるオブジェクトの前記操作されたオーディオ信号を結合するように作動する、請求項１に記載の装置。
前記オーディオ入力信号は、複数の元のオーディオオブジェクト信号のダウンミックス表現であり、さらに、サイド情報として、前記ダウンミックス表現に含まれる１つ以上のオーディオオブジェクトに関する情報を有するオブジェクトベースのメタデータを含み、さらに
前記オブジェクトマニピュレータは前記オーディオ入力信号から前記オブジェクトベースのメタデータを抽出するように構成される、請求項１に記載の装置。
前記オーディオ入力信号は、サイド情報として、前記オーディオオブジェクトパラメータを含み、さらに、前記プロセッサは前記オーディオ入力信号から前記サイド情報を抽出するように構成される、請求項１に記載の装置。
前記オブジェクトマニピュレータは前記オーディオオブジェクト信号を操作するように作動し、さらに
前記オブジェクトミキサは、オーディオ出力信号ごとにオブジェクトコンポーネント信号を得るために、前記オブジェクトのためのレンダリング位置および再生セットアップに基づいて、オブジェクトごとにダウンミックスルールを適用するように作動し、さらに
前記オブジェクトミキサは、前記出力チャンネルのための前記オーディオ出力信号を得るために、同じ出力チャンネルのための異なるオブジェクトからオブジェクトコンポーネント信号を加算するように構成される、請求項１に記載の装置。
前記オブジェクトマニピュレータは、前記オーディオオブジェクトのためのオブジェクトコンポーネント信号を得るために、前記オブジェクトのためのメタデータに基づいて、複数のオブジェクトコンポーネント信号のそれぞれを同様に操作するように作動し、さらに
前記オブジェクトミキサは、前記出力チャンネルのための前記オーディオ出力信号を得るために、同じ出力チャンネルのための異なるオブジェクトから前記オブジェクトコンポーネント信号を加算するように構成される、請求項１に記載の装置。
少なくとも１つのオーディオオブジェクトの操作に基づいて得られる前記オーディオ出力信号と前記少なくとも１つのオーディオオブジェクトの前記操作なしで得られる対応するオーディオ出力信号とをミックスするための出力信号ミキサをさらに含む、請求項１に記載の装置。
前記メタデータは、ゲイン、圧縮、レベル、ダウンミックスセットアップまたは特定のオブジェクトに特有の特性に関する情報を含み、さらに
前記オブジェクトマニピュレータは、オブジェクトに特有の方法で、ミッドナイトモード、高忠実度モード、クリーンオーディオモード、ダイアログ正規化、ダウンミックスに特有の操作、ダイナミックダウンミックス、ガイド付きアップミックス、スピーチオブジェクトのリロケーションまたはアンビエンスオブジェクトの減衰を実施するために、前記メタデータに基づいて、前記オブジェクトまたは他のオブジェクトを操作するように適応可能である、請求項１に記載の装置。
前記オブジェクトパラメータは、オブジェクトオーディオ信号の複数の時間部分のために、それぞれの時間部分において複数の周波数バンドのバンドごとにパラメータを含み、さらに
前記メタデータは、オーディオオブジェクトのための非周波数選択的な情報だけを含む、請求項１に記載の装置。
少なくとも２つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成するための装置であって、前記装置は、
データストリームが、前記少なくとも２つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、前記異なるオーディオオブジェクトのうちの少なくとも１つに関連するメタデータを含むように、データストリームをフォーマットするためのデータストリームフォーマッタであって、
前記メタデータは、圧縮に関する情報、ゲインに関する情報、ダウンミックスセットアップに関する情報、オブジェクトがスピーチオブジェクトであるかサウンドオブジェクトであるかサラウンドオブジェクトであるかに関する情報、または、第１のオブジェクトが第２のオブジェクトより重要であるようにオブジェクト間のランキングに関する情報を含む、データストリームフォーマッタ、および
前記少なくとも２つの異なるオーディオオブジェクトの近似のためのパラメトリックデータを計算するためのパラメータ計算器を含み、
前記データストリームフォーマッタは、サイド情報として、前記少なくとも２つの異なるオーディオオブジェクトの近似を可能にする前記パラメトリックデータを前記データストリームにさらに導入するように作動する、装置。
前記装置は、前記ダウンミックス信号を得るために前記少なくとも２つの異なるオーディオオブジェクトをダウンミックスするためのダウンミキサ、および前記少なくとも２つの異なるオーディオオブジェクトに個々に関するメタデータのための入力をさらに含む、請求項１０に記載の装置。
少なくとも２つの異なるオーディオオブジェクトの重畳を表す少なくとも１つのオーディオ出力信号を生成する方法であって、前記方法は、
オーディオ入力信号のオブジェクト表現を提供するためにオーディオ入力信号を処理するステップであって、前記オブジェクト表現とは、
前記少なくとも２つの異なるオーディオオブジェクトは互いに分離され、
前記少なくとも２つの異なるオーディオオブジェクトは別々のオーディオオブジェクト信号として利用でき、さらに、
前記少なくとも２つの異なるオーディオオブジェクトは互いに独立して操作でき、
前記処理するステップは前記入力信号を受信するステップを含み、前記入力信号は複数の元のオーディオオブジェクトのダウンミックス表現であり、
前記処理するステップは前記元のオーディオオブジェクトの近似表現を再構成するための再構成アルゴリズムを制御するためのオーディオオブジェクトパラメータを受信するステップを含み、さらに
前記処理するステップは、前記元のオーディオオブジェクトのオーディオオブジェクト信号の近似であるオーディオオブジェクト信号を含む前記オブジェクト表現を得るために、前記入力信号および前記オーディオオブジェクトパラメータを用いて前記再構成アルゴリズムを実行するステップを含む、処理するステップ、
操作されたオブジェクト表現を得るために少なくとも１つのオーディオオブジェクトを含む少なくとも１つのオーディオオブジェクト信号またはミックスオーディオオブジェクト信号を操作するステップであって、
前記少なくとも１つのオーディオオブジェクト信号の前記操作するステップまたは前記ミックスオーディオオブジェクト信号の前記操作するステップは、前記少なくとも１つのオーディオオブジェクトに関連するオーディオオブジェクトベースのメタデータに基づいて実行され、それによって、前記少なくとも１つのオーディオオブジェクトのための操作されたオーディオオブジェクト信号または前記少なくとも１つのオーディオオブジェクト信号のための操作されたミックスオーディオオブジェクト信号が得られる、操作するステップ、および
前記操作されたオーディオオブジェクト信号または前記操作されたミックスオーディオオブジェクト信号と、未修正のオーディオオブジェクト信号をまたは前記少なくとも１つのオーディオオブジェクトの操作と比較して異なる方法で操作される操作された異なるオーディオオブジェクト信号を結合することによって、前記操作されたオブジェクト表現をミックスするステップを含む、方法。
少なくとも２つの異なるオーディオオブジェクトの重畳を表す符号化されたオーディオ信号を生成する方法であって、前記方法は、
データストリームが、前記少なくとも２つの異なるオーディオオブジェクトの結合を表すオブジェクトダウンミックス信号、および、サイド情報として、前記異なるオーディオオブジェクトのうちの少なくとも１つに関連するメタデータを含むように、データストリームをフォーマットするステップであって、
前記メタデータは、圧縮に関する情報、ゲインに関する情報、ダウンミックスセットアップに関する情報、オブジェクトがスピーチオブジェクトであるかサウンドオブジェクトであるかサラウンドオブジェクトであるかに関する情報、または、第１のオブジェクトが第２のオブジェクトより重要であるようにオブジェクト間のランキングに関する情報を含む、フォーマットするステップ、および
前記少なくとも２つの異なるオーディオオブジェクトの近似のためのパラメトリックデータを計算するステップを含み、
前記フォーマットするステップは、サイド情報として、前記少なくとも２つの異なるオーディオオブジェクトの近似を可能にする前記パラメトリックデータを前記データストリームにさらに導入することを含む、方法。
コンピュータ上で実行されるときに、請求項１２に記載の少なくとも１つのオーディオ出力信号を生成するための方法または請求項１３に記載の符号化されたオーディオ信号を生成するための方法を実行するためのコンピュータプログラム。