JP2014513322A

JP2014513322A - ２つのエンコードされたビットストリームからのオーディオストリームの混合において使用するためのメタデータの自動設定

Info

Publication number: JP2014513322A
Application number: JP2014503707A
Authority: JP
Inventors: ディーホフマン，マイケル
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2011-04-08
Filing date: 2012-04-02
Publication date: 2014-05-29
Anticipated expiration: 2032-04-02
Also published as: WO2012138594A1; CN103443854A; US9171549B2; EP2695161B1; CN103443854B; EP2695161A1; JP5719966B2; US20140025389A1

Abstract

本発明のオーディオ符号化システムは、ミキシングメタデータを使用してメインのオーディオプログラムの減衰を制御し、その後メインのオーディオプログラムは、関連するオーディオプログラムと混合される。減衰の値は、メインのオーディオプログラムと関連するオーディオプログラムの推定されたラウドネスを分析することで計算される。

Description

本発明は、デジタルオーディオ符号化方法及びシステムに関し、より詳細には、２つのエンコードされたデジタルビットストリームから得られたオーディオプログラムを混合するために使用されるメタデータの生成に関する。
本出願は、2011年4月8日に提出された米国特許仮出願第61/473,346号に対する優先権を主張するものであり、この米国特許仮出願は、その完全な形で引用により本明細書に盛り込まれる。

いわゆるDolby Digital Plus規格に準拠するエンコードされた信号は、メインのオーディオプログラムを表すデータを含み、１以上の関連するオーディオプログラムを表すデータを含む場合がある。Dolby Digital Plus規格は、Advanced Television Systems Committee, Inc. (ATSC) Washington, D.C.により公表された文献A/52“Digital Audio Compression Standard (AC-3, E-AC-3)”November 22, 2010に記載されている。関連するオーディオプログラムは、異なる言語でのオーラルコンテンツ、付随するビジュアルコンテンツに関する音声の注釈、又は付随するビジュアルコンテンツを説明する視覚障害のある聴取者のためのオーラルコンテンツを含む場合がある。

関連するオーディオプログラムは、メインのオーディオプログラム及びその付随するビジュアルコンテンツの再生の間にメインのオーディオプログラムと混合される。関連するオーディオプログラムと含まれるメタデータを混合することは、関連するオーディオプログラムがメインのオーディオプログラムと混合されるとき、メインのオーディオプログラムの減衰量を指定する。

本発明の目的は、メインのオーディオプログラムと関連するオーディオプログラムの混合が行われるときに、聴取者の体験を最適化するために適合されるメインのオーディオプログラムの減衰を指定するメタデータを混合することを提供することにある。メタデータを混合することは、関連するオーディオプログラムのマテリアルが存在しないか又はメインのオーディオプログラムと混合されない場合には減衰を指定しないことが好ましく、メインのプログラムのラウドネスレベルにおける突然の変化を回避するために減衰のフェードイン及びフェードアウトを指定することが好ましい。

本発明の１態様によれば、メインのオーディオプログラムを表す１以上のメインのオーディオ信号を受信すること及び関連するオーディオプログラムを表す１以上の関連するオーディオ信号を受信すること、１以上のメインのオーディオ信号をエンコードしてメインのエンコードされたオーディオ信号を生成すること及び１以上の関連するオーディオ信号をエンコードして関連するエンコードされたオーディオ信号を生成すること、メインのオーディオプログラムの推定されたラウドネス及び関連するオーディオプログラムの推定されたラウドネスに応答してオーディオミキシングメタデータを生成すること、及びメインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びオーディオミキシングメタデータから出力のエンコードされた信号を生成することで、オーディオ信号は生成される。メインのエンコードされたオーディオ信号からデコードされる１以上のオーディオ信号及び関連するオーディオ信号からデコードされる１以上のオーディオ信号は、オーディオミキシングメタデータに従って混合される。

本発明の別の態様によれば、入力のエンコードされた信号を受信すること及び受信した入力のエンコードされた信号からメインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びミキシングメタデータを取得すること、メインのエンコードされたオーディオ信号をデコードして１以上のメインのオーディオ信号を取得すること及び関連するエンコードされたオーディオ信号をデコードして１以上の関連するオーディオ信号を取得すること、ミキシングメタデータに従って１以上のメインのオーディオ信号と１以上の関連するオーディオ信号とを混合して出力のオーディオ信号を生成することで、入力のエンコードされた信号はデコードされる。ミキシングメタデータは、メインのエンコードされたオーディオ信号により表されるメインのオーディオプログラムの推定されたラウドネス及び関連するエンコードされたオーディオ信号により表される関連するオーディオプログラムの推定されたラウドネスに応答して生成される。

本発明及びその好適な実施の形態の様々な特徴は、以下の説明及び同じ参照符号が同じエレメントを示す添付図面を参照することで良好に理解されるであろう。以下の説明及び図面の内容は例示するものであって、本発明の範囲に対する制限を表すように理解されるべきではない。

本発明の様々な態様を組み込んだエンコーダ／送信機の概略的なブロック図である。本発明の様々な態様を組み込んだ受信機／デコーダであって、図１に示されるオーディオエンコーダと使用される場合がある受信機／デコーダの１つの実現の概略的なブロック図である。本発明の様々な態様を組み込んだ受信機／デコーダの別の実現の概略的なブロック図である。本発明の様々な態様を実現するために使用される装置の概略的なブロック図である。

Ａ．導入
本発明は、エンコードされた信号をデコードし、次いでデコードされた信号を再生のために互いに混合することで得られたメインのオーディオプログラムと１以上の関連するオーディオプログラムの大きさを制御することに向けられる。１つの例となる応用では、１以上のメインのオーディオ信号は、動画のダイアログ及びサウンドエフェクトのようなメインのオーディオプログラムを表し、１以上の関連するオーディオ信号は、動画のビジュアルコンテンツを説明する視覚障害者向けのディレクタコメント又はナレーションのような関連するオーディオプログラムを表す。多くの他の例が可能である。本発明は、何れかのタイプのオーディオコンテンツに限定されない。

本発明は、様々なやり方で実現される場合がある。第一のタイプの実現は、本発明の態様をオーディオ符号化システムの送信機及び受信機に組み込む。第一のタイプの実現の例となる送信機及び受信機は、図１及び図２にそれぞれ概略的に示される。

第二のタイプの実現は、本発明の態様を受信機のみに盛り込む。第二のタイプの実現の例となる受信機は、図３に概略的に示される。この第二のタイプの実現は、第一のタイプの実現が説明された後に説明される。

Ｂ．送信機及び受信機
１．送信機
図１を参照して、送信機１０は、経路１１からメインのオーディオプログラムを表す１以上のメインのオーディオ信号を受信し、経路１２から関連するオーディオプログラムを表す１以上の関連するオーディオ信号を受信する。

エンコーダ２１は、１以上のメインのオーディオ信号をエンコードして、メインのエンコードされたオーディオ信号を生成し、エンコーダ２２は、１以上の関連するオーディオ信号をエンコードして、関連するエンコードされたオーディオ信号を生成する。エンコーダ２１及びエンコーダ２２は、所望とされる何れかのタイプの符号化プロセスを本質的に使用する場合がある。例えば、split-band知覚符号化プロセスが使用される場合があり、この知覚符号化プロセスでは、オーディオ信号は、周波数サブバンド信号に分割され、周波数サブバンド信号は、音響心理的マスキング効果を推定するために分析され、周波数サブバンド信号は、量子化雑音レベルが推定された音響心理的マスキングレベルの真下にあるように適合される量子化解像度で量子化される。オーディオ信号を周波数サブバンド信号に分割するために、様々なサブバンドフィルタ及び／又は変換が使用される場合がある。使用される場合がある知覚符号化プロセスの例は、先に引用されたATSCA/52文書で記載されるAC-3を示すことがあるDolby Digital、並びに、ISO/IEC規格13818及び14496で記載されるAAC（Advanced Audio Coding）のバリエーションを含む。1996年11月21日に公開された国際特許出願公開WO96/37048号及び2000年10月12日に公開されたWO00/60746号で記載される符号化プロセス、算術符号化、ハフマン符号化及び従来のパルス符号変調のような無損失符号化プロセスが使用される場合がある。特定の符号化プロセスは、本発明にとって必須ではない。

メタデータジェネレータ２５は、メインのオーディオプログラムの推定されたラウドネス及び関連するオーディオプログラムの推定されたラウドネスに応答して、オーディオミキシングデータを生成する。メタデータジェネレータ２５が実現される方法は、以下に記載される。

フォーマッタ２７は、メインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びオーディオミキシングデータを出力のエンコードされた信号にし、出力のエンコードされた信号は、経路３１に沿って出力される。出力のエンコードされた信号は、オーディオ信号のインターバルに対応するか又はオーディオ信号のインターバルを表す、エンコードされたオーディオ信号及びミキシングメタデータを伝達するフレーム又はセグメントで配列される。エンコードされた出力信号は、ブロードキャストの応用において行われているように１以上の受信機にダイレクトに伝達されるか、又は１以上の受信機への後の伝達のために記憶媒体に記録される場合がある。

ａ）メタデータジェネレータ
メタデータジェネレータ２５は、メインのオーディオプログラム及び関連するオーディオプログラムの推定されたラウドネスの分析から１以上のミキシングパラメータを生成する。オーディオ信号の推定されたラウドネスは、人間の聴覚システムの幾つかの数学モデルから導出されるか、又は信号の振幅からダイレクトに導出される場合がある。推定されたラウドネスの多くの方法が知られている。幾つかの方法は以下に記載される。

（１）ラウドネスの推定
メタデータジェネレータ２５は、所望となるラウドネスを推定する何れかの方法を使用する場合がある。方法の選択は、性能に影響を及ぼすが、本発明を実施するために特定の方法が必須とされない。

オーディオ信号の推定されたラウドネスレベルを計算するために使用される場合がある１つの方法は、IEC（International Electrotechnical Commission）により公表された“Integrating Averaging Sound Level Meters”と題された国際標準IEC60804（2000-10）で記載される。この規格は、周波数重み付けされ及び時間平均される音圧レベルに基づく測定を記載する。別の方法は、International Organization for Standardizationにより公表される“Method for calculating loudness level”と題された国際標準532（1975）で記載される。この標準は、周波数サブバンドについて計算されるパワーレベルの組み合わせからラウドネスの測定を得る方法を記載する。

ラウドネスを推定するために使用される場合がある心理音響モデルの例は、Moore, Glasberg及びBaerによる“A model for the prediction of thresholds, loudness and partial loudness,”J. Audio Eng. Soc., vol.45, no.4, April 1997、並びにGlasberg及びMooreによる“A model of loudness applicable to time-varying sounds,”J.Audio Eng. Soc., vol.50, no.5, May 2002で記載される。

更に別の方法は、オーディオ信号のインターバルについて振幅の自乗平均平方根（RMS）から推定されたラウドネスを計算する。経験による試験は、約５００ｍｓｅｃのインターバルが上述されたDolby Plus規格に準拠する１つの例となる符号化システムについて推定されたラウドネスの有効な測定を与えることを示す。

以下の説明は、ｄＢで表されるラウドネスの測定を導出するラウドネス計算方法が使用されることを想定している。０ｄＢに対応する基準レベルは重要ではないが、デジタルオーディオ信号が固定長のデジタル値により表される場合、便利な選択は、最大の可能性のあるデジタル値に対応する０ｄＢを有することである。異なる基準レベルは、以下の説明に影響を及ぼすことなしに、必要に応じて選択される場合がある。

（２）ラウドネスの分析
１つの実現によれば、メタデータジェネレータ２５は、ラウドネス計算方法を１以上のメインのオーディオ信号に適用することでメインのオーディオプログラムの推定されたラウドネスＬ_Mを取得し、ラウドネス計算方法を１以上の関連するオーディオ信号に適用することで、関連するオーディオプログラムの推定されるラウドネスＬ_Aを取得する。関連するオーディオプログラムの推定されるラウドネスは、メインのオーディオプログラムの推定されたラウドネスを超える幾つかの閾値となる量Ｔ_Dであるラウドネスレベルに比較される。

関連するオーディオプログラムの推定されるラウドネスがこのラウドネスレベル未満である場合、メタデータジェネレータ２５は、混合が行われるときに、メインのオーディオプログラムの減衰レベルを指定するパラメータを生成する。

関連するオーディオプログラムの推定されるラウドネスがこのラウドネスレベルよりも大きいか又は等しい場合、メタデータジェネレータ２５は、メインのオーディオプログラムについて減衰がないことを指定するパラメータを生成する。代替的に、メタデータジェネレータ２５は、減衰がないことのパラメータが指定されたとき、オーディオ符号化システムにおける受信機が正しく応答するように設定された場合、何れかのパラメータを生成しない。

この実現は、以下のように表される。

この場合、Ａはメインのオーディオプログラムの所望の減衰レベルである。

閾値Ｔ_Dの値は、実験に基づいて導出される場合がある。上述された例となる符号化システムについて良好な効果を与えるためにＴ_D＝２３ｄＢの閾値が使用される場合がある。

Ｘの値は、様々なやり方で計算される場合があり、適切な値を実験により確認することができるが、特定のやり方が必須ではない。上述した例となる符号化システムについて、減衰レベルは、以下の式から計算される場合がある。

代替的に、減衰レベルＡは、ラウドネスレベルに依存する場合がある。これは、２以上の減衰レベル及び減衰レベルのそれぞれのペア間の１以上のニーポイント（knee point）として表される場合がある。本発明にとって特定の値のセットが重要ではない。上述した例となる符号化システムと有利に使用された減衰レベルと関連するニーポイントとの１つのセットは、圧縮比の観点で表される。この例では、２：１の圧縮比がニーポイント以下で使用され、３：１の圧縮比がニーポイントを超えて使用される。レベルＬ_M＋Ｔ_Dを超えてニーポイントは６ｄＢである。

更に別の実現では、メタデータジェネレータ２５は、Ｉ_Dを減衰の遅延（delay）、Ｉ_Hを維持hold、Ｉ_Aをアタック（attack）及びＩ_Rをリリース（release）について時間インターバルを指定するパラメータのセットにおける１以上のパラメータに応答して減衰パラメータを生成する。本発明にとって、これらの時間インターバルについて特定の値が重要ではない。上述された例となる符号化システムと有利にも使用される１つの値のセットは、Ｉ_D＝０ｍｓｅｃ，Ｉ_H＝２００ｍｓｅｃ，Ｉ_A＝３２０ｍｓｅｃ及びＩ_R＝６４０ｍｓｅｃである。

好ましくは、上述された実現におけるメタデータジェネレータ２５は、関連するオーディオプログラムの推定されたラウドネスが閾値のトリガレベルＴ_Tよりも高い場合にのみ減衰パラメータを生成する。この閾値のトリガレベルは、実験に基づいて導出することができる。例となる符号化システムで使用される値は、Ｔ_T＝−４０ｄＢである。

代替的に、メタデータジェネレータ２５は、１以上の減衰レベル、１を超える減衰レベルが指定された場合に関連するニーポイント、及び／又は上述された１以上の時間インターバルを指定するパラメータのセットを生成する。パラメータのセットは、出力のエンコードされた信号にされるミキシングメタデータを構成する。この代替的な実現では、受信機は、ミキシングメタデータに含まれる全てのパラメータに応答して、所望の減衰レベルを計算する。

２．受信機
図２を参照して、受信機２０は、経路３３から入力のエンコードされた信号を受信する。例えば、入力のエンコードされた信号は、送信機からダイレクトに受信されるか又は記憶媒体から読み出される場合がある。入力のエンコードされた信号は、オーディオ信号のインターバルに対応するか又はオーディオ信号のインターバルを表す、エンコードされたオーディオ信号とミキシングメタデータを伝達するフレーム又はセグメントで構成される場合がある。デフォーマッタ４１は、入力のエンコードされた信号からメインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びミキシングメタデータを取得する。

デコーダ４３は、メインのエンコードされたオーディオ信号をデコードして１以上のメインのオーディオ信号を取得し、デコーダ４４は、関連するエンコードされたオーディオ信号をデコードして１以上の関連するオーディオ信号を取得する。本発明を実施するために特定のデコードプロセスは必須ではないが、メインのエンコードされたオーディオ信号及び関連するエンコードされたオーディオ信号を生成するために使用される符号化プロセスに対して相補的となるべきである。例えば、エンコードされたオーディオ信号を生成するために上述されたような知覚符号化プロセスが使用された場合、適切なデコードプロセスは、周波数サブバンド信号を量子化するために使用された量子化解像度に従う逆量子化解像度で周波数サブバンド信号を逆量子化し、逆量子化された周波数サブバンド信号をデコードされたオーディオ信号に合成する。適切なデコード方法についての更なる詳細は、当該技術分野で知れれているか、又は上述された引用文献から得ることができる。

メタデータプロセッサ４５は、ミキサ４８を制御するミキシングメタデータに応答して制御信号を生成する。ミキサ４８は、１以上の関連するオーディオ信号を１以上のメインのオーディオ信号と適応的に混合することで出力のオーディオ信号を生成する。１以上のメインのオーディオ信号の振幅レベルは、ミキシングメタデータに応答して制御される。出力のオーディオ信号は、再生又は所望とされる他の処理のために経路５１に沿って出力される。

ミキサ４８は、様々なやり方で実現され、本発明にとって特定の実現は必須ではない。１つの実現では、ミキサ４８は、ミキシングメタデータにより指定された量だけ１以上のメインのオーディオ信号を減衰させ、次いで減衰されたメインのオーディオ信号を関連するオーディオ信号と混合する。入力のエンコードされた信号においてミキシングメタデータが存在しない場合、１以上のメインのオーディオ信号は、混合の前に減衰されない。

代替的な実現では、ミキサ４８は、上述された１以上の減衰レベル、１を超える減衰レベルが指定される場合に関連するニーポイント、及び／又は１以上の時間インターバルを指定するパラメータのセットを含むミキシングパラメータに応答する。この代替的な実現では、ミキサ４８は、ミキシングパラメータに含まれる全てのパラメータに応答して、メインのオーディオ信号の所望の減衰レベルを計算する。

Ｃ．受信機のみ
図３に概略的に示される受信機３０は、図１に示される送信機１０からの特徴と図２に示される受信機２０からの特徴とを組み込んでいる。送信機１０又は受信機２０におけるそれぞれのコンポーネントと同じ参照符号を有する受信機３０におけるそれぞれのコンポーネントは、それぞれのコンポーネントと同じ機能を実行する。

メタデータジェネレータ／プロセッサ４６は、メタデータジェネレータ２５及びメタデータプロセッサ４５について上述されたのと同じ機能を実行する。メインのオーディオプログラムの推定されたラウドネスＬ_Mは、メインのエンコードされたオーディオ信号からデコードされた１以上のメインのオーディオ信号にラウドネス計算方法を適用することで得られ、関連するオーディオプログラムの推定されたラウドネスＬ_Aは、関連するエンコードされたオーディオ信号からデコードされた１以上の関連するオーディオ信号にラウドネス計算方法を適用することで得られる。ミキシングメタデータパラメータは、メタデータジェネレータ２５について上述されたように導出される。

Ｄ．実現
本発明の様々な態様を組み込んだ装置は、汎用コンピュータで見られるコンポーネントに類似したコンポーネントに結合されるデジタルシグナルプロセッサ（DSP）回路のような専用コンポーネントを含むコンピュータ又は他の装置による実行のためのソフトウェアを含む様々なやり方で実現される場合がある。図４は、本発明の態様を実現するために使用される装置７０の概略的なブロック図である。プロセッサ（PROC）７２は、計算リソースを提供する。ＲＡＭ７３は、処理のためにプロセッサ７２により使用されるシステムランダムアクセスメモリ（RAM）である。ＲＯＭ７４は、装置７０を動作させるために必要とされるプログラムを記憶し、おそらく本発明の様々な態様を実行するリードオンリメモリ（ROM）のような永続性のある記憶装置の形態を表す。Ｉ／Ｏコントロール（I/O CONTROL）７５は、通信チャネル７６，７７を介して信号を受信及び送信するインタフェース回路を表す。図示される実施の形態では、全ての主要なシステムコンポーネントは、１を超える物理又は論理バスを表す場合があるバス７１に接続されるが、本発明を実施するためにバスアーキテクチャは必要とされない。

汎用コンピュータシステムにより実現される実施の形態では、キーボード又はマウス及びディスプレイのような装置と相互作用し、磁気テープ又はディスク或いは光媒体のような記録媒体を有する記憶装置７８を制御するため、更なるコンポーネントが含まれる場合がある。記憶媒体は、オペレーティングシステム、ユーティリティ及びアプリケーションの指示からなるプログラムを記録するために使用される場合があり、本発明の様々な態様を実現するプログラムを含む場合がある。

本発明の様々な態様を実施するために必要とされる機能は、ディスクリートロジックコンポーネント、集積回路、１以上のASIC及び／又はプログラム制御されるプロセッサを含む様々なやり方で実現されるコンポーネントにより実行することができる。これらのコンポーネントが実現されるやり方は、本発明を実施するために重要ではない。

本発明のソフトウェア実現は、超音波から紫外線周波数までを含むスペクトルを通してベースバンド又は変調された通信経路のようなコンピュータ読み取り可能な媒体、或いは、磁気テープ、カード又はディスク、光カード又はディスク、紙を含む媒体上の検出可能なマーキングを含む記録技術を使用して情報を伝達する記録媒体により伝達される場合がある。

関連するオーディオプログラムは、メインのオーディオプログラム及びその付随するビジュアルコンテンツの再生の間にメインのオーディオプログラムと混合される。関連するオーディオプログラムと含まれるメタデータを混合することは、関連するオーディオプログラムがメインのオーディオプログラムと混合されるとき、メインのオーディオプログラムの減衰量を指定する。
Vlaiou等による“Advanced Audio for Advanced IPTV Services”, AES Convention 123, October 2007, AES, USA, 1, October 2007は、改善されたオーディオストリームのメインのオーディオストリームとの混合のためにEnhanced AC-3の使用を記載している。

Claims

オーディオ信号をエンコードする方法であって、
メインのオーディオプログラムを表す１以上のメインのオーディオ信号を受信し、関連するオーディオプログラムを表す１以上の関連するオーディオ信号を受信する段階と、
前記１以上のメインのオーディオ信号をエンコードしてメインのエンコードされたオーディオ信号を生成し、前記１以上の関連するオーディオ信号をエンコードして関連するエンコードされたオーディオ信号を生成する段階と、
前記メインのオーディオプログラムの推定されたラウドネスと前記関連するオーディオプログラムの推定されたラウドネスとに応答して、オーディオミキシングメタデータを生成する段階であって、前記メインのエンコードされたオーディオ信号からデコードされる１以上のオーディオ信号と、前記関連するオーディオ信号からデコードされる１以上のオーディオ信号は、前記オーディオミキシングメタデータに従って混合される、ステップと、
前記メインのエンコードされたオーディオ信号、前記関連するエンコードされたオーディオ信号及び前記オーディオミキシングメタデータから出力のエンコードされた信号を生成する段階と、
を含む方法。
前記オーディオミキシングメタデータは、前記関連するオーディオプログラムの前記推定されたラウドネスが前記メインの前記推定されたラウドネスを超える閾値となる量未満であるときにのみ、前記オーディオミキシングデータが生成され、前記出力のエンコードされた信号が生成される、
請求項１記載の方法。
前記関連するオーディオプログラムが閾値となる量を超えるときにのみ、前記オーディオミキシングメタデータが生成され、前記出力のエンコードされた信号が生成される、
請求項１又は２記載の方法。
前記オーディオミキシングメタデータは、混合の前に前記メインのオーディオプログラムからデコードされる前記１以上のオーディオ信号の減衰レベルを指定する、
請求項１乃至３の何れか記載の方法。
前記オーディオミキシングメタデータは、混合の前に前記メインのオーディオプログラムからデコードされる前記１以上のオーディオ信号の減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける１以上のパラメータを含む、
請求項１乃至４の何れか記載の方法。
前記オーディオミキシングメタデータは、混合の前に前記メインのオーディオプログラムからデコードされる前記１以上のオーディオ信号の２以上の減衰レベルと、前記減衰レベルのそれぞれのペアについての１以上のニーポイントを指定する、
請求項１乃至５の何れか記載の方法。
減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける１以上のパラメータ、及び混合の前に前記メインのオーディオプログラムからデコードされる前記１以上のオーディオ信号についての２以上の減衰レベル並びに前記減衰レベルのそれぞれのペアについての１以上のニーポイントに応答して前記ミキシングメタデータを生成する段階を含む、
請求項１乃至４の何れか記載の方法。
入力のエンコードされた信号をデコードする方法であって、
入力のエンコードされた信号を受信し、受信した入力のエンコードされた信号から、メインのエンコードされたオーディオ信号、関連するエンコードされたオーディオ信号及びミキシングメタデータを取得する段階と、
前記メインのエンコードされたオーディオ信号をデコードして１以上のメインのオーディオ信号を取得し、前記関連するエンコードされたオーディオ信号をデコードして１以上の関連するオーディオ信号を取得する段階と、
前記ミキシングメタデータに従って前記１以上のメインのオーディオ信号を前記１以上の関連するオーディオ信号と混合して出力のオーディオ信号を生成する段階であって、前記ミキシングメタデータは、前記メインのエンコードされたオーディオ信号により表されるメインのオーディオプログラムの推定されたラウドネスと前記関連するエンコードされたオーディオ信号により表される関連するオーディオプログラムの推定されるラウドネスとに応答して生成される、段階と、
を含む方法。
前記関連するオーディオプログラムの前記推定されたラウドネスが前記メインのオーディオプログラムの前記推定されたラウドネスを超える閾値となる量未満であるときにのみ、前記オーディオミキシングデータは、前記入力のエンコードされた信号において存在する、
請求項８記載の方法。
前記関連するオーディオプログラムの前記推定されたラウドネスが前記メインのオーディオプログラムの前記推定されたラウドネスを超える閾値となる量未満であるときにのみ、前記ミキシングメタデータは、前記入力のエンコードされた信号から取得される、
請求項８記載の方法。
前記関連するオーディオプログラムの前記推定されたラウドネスが閾値となる量を超えるときにのみ、前記オーディオミキシングメタデータは、前記入力のエンコードされた信号において存在する、
請求項８又は９記載の方法。
前記関連するオーディオプログラムの前記推定されたラウドネスが閾値となる量を超えるときにのみ、前記メタデータは、前記入力のエンコードされた信号から取得される、
請求項８又は９記載の方法。
前記オーディオミキシングメタデータは、混合の前に前記１以上のメインのオーディオ信号の減衰レベルを指定する、
請求項８乃至１１の何れか記載の方法。
前記オーディオミキシングメタデータは、混合の前に前記１以上のメインのオーディオ信号についての減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける１以上のパラメータを含む、
請求項８乃至１３の何れか記載の方法。
前記オーディオミキシングメタデータは、混合の前に前記１以上のメインのオーディオ信号の２以上の減衰レベルと、前記減衰レベルのそれぞれのペアについて１以上のニーポイントとを指定する、
請求項８乃至１４の何れか記載の方法。
前記ミキシングメタデータは、減衰の遅延、維持、アタック及びリリースについて時間インターバルを指定するパラメータのセットにおける１以上のパラメータ、及び混合の前に前記１以上のメインのオーディオ信号について２以上の減衰レベル並びに前記減衰レベルのそれぞれのペアについての１以上のニーポイントに応答して生成される、
請求項８乃至１３の何れか記載の方法。
請求項１乃至１６の何れか記載の方法の全ての段階を実行する手段を含む装置。
請求項１乃至１６の何れか記載の方法を実行するために装置により実行可能な命令からなるプログラムを記録した記録媒体。