JP6676047B2 - 伝送に関知しない呈示ベースのプログラム・ラウドネス - Google Patents

伝送に関知しない呈示ベースのプログラム・ラウドネス Download PDF

Info

Publication number
JP6676047B2
JP6676047B2 JP2017518908A JP2017518908A JP6676047B2 JP 6676047 B2 JP6676047 B2 JP 6676047B2 JP 2017518908 A JP2017518908 A JP 2017518908A JP 2017518908 A JP2017518908 A JP 2017518908A JP 6676047 B2 JP6676047 B2 JP 6676047B2
Authority
JP
Japan
Prior art keywords
loudness
content
substream
presentation data
substreams
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017518908A
Other languages
English (en)
Other versions
JP2017536020A (ja
Inventor
コッペンス,イェルーン
グレゴリー ノークロス,スコット
グレゴリー ノークロス,スコット
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2017536020A publication Critical patent/JP2017536020A/ja
Application granted granted Critical
Publication of JP6676047B2 publication Critical patent/JP6676047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Description

関連出願への相互参照
本願は2014年10月10日に出願された米国仮特許出願第62/062,479号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本発明はオーディオ信号処理に関し、より詳細には、出力オーディオ信号の所望されるラウドネス・レベルを達成するためのオーディオ・データ・ビットストリームのエンコードおよびデコードに関する。
ドルビーAC-4は、リッチなメディア・コンテンツを効率的に頒布するためのオーディオ・フォーマットである。AC-4は、効率的な仕方でコンテンツを頒布およびエンコードするための、放送者およびコンテンツ制作者にとっての柔軟なフレームワークを提供する。コンテンツはいくつかのサブストリームを通じて頒布されることができる。たとえば、あるサブストリームにはM&E(音楽および効果)、第二のサブストリームにはダイアログである。一部のオーディオ・コンテンツについては、たとえばダイアログの言語をある言語から別の言語に切り換えること、あるいはたとえばコンテンツへのコメンタリー・サブストリームまたは視覚障害者のための説明を含む追加的なサブストリームを追加できることが有利であることがある。
消費者に呈示されるコンテンツの適正なレベル付けを保証するために、コンテンツのラウドネスがある程度の正確さをもって知られる必要がある。現行のラウドネス要件は、2dB(ATSC A/85)、0.5dB(EBU R128)の許容差をもち、一方、いくつかの仕様は0.1dBくらい低い許容差をもつ。つまり、コメンタリー・トラックをもち、第一の言語でのダイアログをもつ出力オーディオ信号のラウドネスは、コメンタリー・トラックがない、第二の言語でのダイアログをもつ出力オーディオ信号と実質的に同じラウドネスをもつべきということである。
ここで例示的実施形態について付属の図面を参照しつつ述べる。
例として、ビットストリームを処理し、出力オーディオ信号の所望されるラウドネス・レベルを達成するためのデコーダを示す一般化されたブロック図である。 図1のデコーダの混合コンポーネントの第一の実施形態の一般化されたブロック図である。 図1のデコーダの混合コンポーネントの第二の実施形態の一般化されたブロック図である。 諸実施形態に基づく呈示データ構造を記述する図である。 諸実施形態に基づくオーディオ・エンコーダの一般化されたブロック図である。 図5のオーディオ・エンコーダによって形成されるビットストリームを示す図である。 すべての図面は概略的であり、概して本開示を明快にするために必要な部分を示すだけである。一方、他の部分は省略されたり、単に示唆されるだけでであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図における同様の部分を指す。
上記に鑑み、目的は、出力オーディオ信号にどんなコンテンツ・サブストリームが混合されるかとは関係なく、出力オーディオ信号についての所望されるラウドネス・レベルを提供することをねらいとする、エンコーダおよびデコーダならびに関連する方法を提供することである。
〈I.概観――デコーダ〉
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。
例示的実施形態によれば、それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理する方法が提供される。本方法は:前記ビットストリームから、一つまたは複数の呈示データ構造を抽出する段階であって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、各呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、段階と;前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領する段階と;選択された呈示データ構造によって参照される一つまたは複数のコンテンツ・サブストリームをデコードする段階と;デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成する段階とを含み、本方法はさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理して、前記所望されるラウドネス・レベルを達成することを含む。
選択された呈示データ構造および所望されるラウドネス・レベルを示すデータは典型的には、デコーダにおいて利用可能なユーザー設定である。ユーザーはたとえば、リモコンを使ってダイアログがフランス語である呈示データ構造を選択したり、および/または所望される出力ラウドネス・レベルを増減させたりしてもよい。多くの実施形態では、出力ラウドネス・レベルは再生装置のキャパシティに関係している。いくつかの実施形態によれば、出力ラウドネス・レベルはボリュームによって制御される。結果として、選択された呈示データ構造および所望されるラウドネス・レベルを示すデータは典型的には、デコーダによって受領されるビットストリームには含まれない。
本稿での用法では、「ラウドネス」は、音の強度の、モデル化された音響心理学的な測定値を表わす。換言すれば、ラウドネスは、平均的なユーザーによって知覚される音(単数または複数)のボリュームの近似を表わす。
本稿での用法では、「ラウドネス・データ」は、音響心理学的なラウドネス知覚をモデル化する関数による、特定の呈示データ構造のラウドネス・レベルの測定から帰結するデータをいう。換言すれば、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせのラウドネス属性を示す値の集まりである。諸実施形態によれば、特定の呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームの組み合わせの平均ラウドネス・レベルが測定されることができる。たとえば、ラウドネス・データは、特定の呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームの(ITU-R BS.1770に基づく)dialnorm値を指してもよい。ツヴィッカー(Zwicker)のラウドネス・モデルへの修正および拡張を提供するグラスバーグ(Glasberg)のおよびムーア(Moore)のラウドネス・モデルのような、他の好適なラウドネス測定規格が使われてもよい。
本稿での用法では、「呈示データ構造(presentation data structure)」は、出力オーディオ信号のコンテンツに関係するメタデータを指す。出力オーディオ信号は「プログラム」とも称される。呈示データ構造は「呈示」とも称される。
オーディオ・コンテンツは、いくつかのサブストリームを通じて頒布されることができる。本稿での用法では、「コンテンツ・サブストリーム」は、そのようなサブストリームを指す。たとえば、コンテンツ・サブストリームは、オーディオ・コンテンツの音楽、オーディオ・コンテンツのダイアログまたは出力オーディオ信号に含まれるべきコメンタリー・トラックを含んでいてもよい。コンテンツ・サブストリームはチャネル・ベースであっても、オブジェクト・ベースであってもよい。後者の場合、時間依存の空間位置データがコンテンツ・サブストリームに含められる。コンテンツ・サブストリームはビットストリームに含まれてもよく、あるいはオーディオ信号の一部であってもよい(すなわち、チャネル・グループまたはオブジェクト・グループとして)。
本稿での用法では、「出力オーディオ信号」は、実際に出力されるオーディオ信号を指し、それがユーザーに対してレンダリングされる。
本発明者は、各呈示についてラウドネス・データ、たとえばdialnorm値を提供することにより、その特定の呈示をデコードするときに、参照される少なくとも一つのコンテンツ・サブストリームについてラウドネスが正確にいくらであるかを示す特定のラウドネス・データがデコーダに対して利用可能となることを認識するに至った。
従来技術では、各コンテンツ・サブストリームについてラウドネス・データが提供されることがある。各コンテンツ・サブストリームについてラウドネス・データを提供することの問題は、その場合、さまざまなラウドネス・データを呈示ラウドネスに組み合わせることがデコーダ任せになるということである。諸サブストリームの諸平均ラウドネスを表わす諸サブストリームの個々のラウドネス・データ値を加算してある呈示についてのラウドネス値に至ることは、正確でないことがあり、多くの場合、組み合わされたサブストリームの実際の平均ラウドネス値を生じない。それぞれの参照されるコンテンツ・サブストリームについてのラウドネス・データを加算することは、信号属性、ラウドネス・アルゴリズムおよび典型的に加法的でないラウドネス知覚の性質のため、数学的に不可能であることがあり、上記の許容差よりも大きい潜在的な不正確さにつながりうる。
本実施形態を使えば、選択された呈示についてのラウドネス・データによって提供される選択された呈示の平均ラウドネス・レベルと、所望されるラウドネス・レベルとの間の差が、こうして、出力オーディオ信号の再生利得を制御するために使用されうる。
上記のようにラウドネス・データを提供し、使用することにより、種々の呈示の間で、一貫したラウドネス、すなわち、所望されるラウドネス・レベルに近いラウドネスが達成されうる。さらに、一貫したラウドネスは、あるテレビ・チャネルでの異なるプログラムの間で、たとえばテレビ番組とそのコマーシャルとの間で、あるいはテレビ・チャネルを横断して、達成されうる。
例示的実施形態によれば、選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、これらに適用されるべき少なくとも二つの混合係数をさらに参照し、出力信号の前記形成は、前記混合係数(単数または複数)を適用することによって、デコードされた一つまたは複数のコンテンツ・サブストリームを加法的に混合することをさらに含む。
少なくとも二つの混合係数を提供することによって、出力オーディオ信号のコンテンツの増大した柔軟性が達成される。
たとえば、選択された呈示データ構造は、前記二つ以上のコンテンツ・サブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照してもよい。この実施形態によれば、コンテンツ・サブストリームの間の相対的なラウドネス・レベルが変更されうる。たとえば、文化的な選好が、異なるコンテンツ・サブストリームの間の異なるバランスを要求することがある。スペイン語地域は音楽への注意を他ほど望まないという状況を考慮されたい。したがって、音楽サブストリームは3dB減衰させられる。他の実施形態によれば、前記二つ以上のコンテンツ・サブストリームの部分集合に、信号混合係数が適用されてもよい。
例示的実施形態によれば、ビットストリームは複数の時間フレームを含み、選択された呈示データ構造によって参照される混合係数は、各時間フレームについて独立して割り当て可能である。時間変化する混合係数を提供することの効果は、ダッキング(ducking)が達成されうるということである。たとえば、あるコンテンツ・サブストリームのある時間セグメントにわたるラウドネス・レベルが、別のコンテンツ・サブストリームの同じ時間セグメントにおける増大したラウドネスにより、低減されてもよい。
例示的実施形態によれば、ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティング(gating)の適用に関する値を表わす。
オーディオ入力信号は、エンコーダ側での、ラウドネス関数(たとえばdialnorm関数)が適用された信号である。すると、結果として得られるラウドネス・データはビットストリームにおいてデコーダに伝送される。ノイズ・ゲート(無音ゲートとも称される)は、オーディオ信号のボリュームを制御するために使われる電子装置またはソフトウェアである。ゲーティングとはそのようなゲートの使用である。ノイズ・ゲートは、閾値未満の値を示す信号を減衰させる。ノイズ・ゲートは、レンジ(range)として知られる固定量だけ信号を減衰させてもよい。その最も単純な形では、ノイズ・ゲートは、信号が、設定された閾値より上であるときにのみ通過することを許容する。
ゲーティングは、オーディオ入力信号におけるダイアログの存在にも基づいていてもよい。結果として、例示的実施形態によれば、ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号のダイアログを表わす時間セグメントに関係する値を表わす。他の実施形態によれば、ゲーティングは最小ラウドネス・レベルに基づく。そのような最小ラウドネス・レベルは、絶対的な閾値または相対的な閾値であってもよい。相対的な閾値は、絶対的な閾値を用いて測定されたラウドネス・レベルに基づいていてもよい。
例示的実施形態によれば、呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データへの参照を含み、本方法はさらに、DRCデータに基づいて、デコードされた一つまたは複数のコンテンツ・サブストリームまたは出力オーディオ信号を処理することを含む。ここで、該処理は、デコードされた一つまたは複数のコンテンツ・サブストリームまたは出力オーディオ信号に一つまたは複数のDRC利得を適用することを含む。
ダイナミックレンジ圧縮は、大きな音のボリュームを下げたり静かな音を増幅したりし、それによりオーディオ信号のダイナミックレンジを狭める、あるいは「圧縮する」。各呈示について一意的にDRCデータを提供することによって、選ばれる呈示が何であろうと、出力オーディオ信号の改善されたユーザー経験が達成されうる。さらに、各呈示についてDRCデータを提供することによって、複数の呈示のそれぞれにわたって、また上記のようにプログラム間で、またテレビ・チャネルを横断して、オーディオ出力信号の一貫したユーザー経験が達成されうる。
DRC利得は常に時間変化する。各時間セグメントにおいて、DRC利得は、オーディオ出力信号についての単一の利得またはサブストリーム毎に異なる複数のDRC利得であってもよい。DRC利得は、チャネルの諸グループに適用されてもよく、および/または周波数依存であってもよい。加えて、DRCデータに含まれるDRC利得は、二つ以上のDRC時間セグメントについてのDRC利得を表わしていてもよい。たとえば、エンコーダによって定義される時間フレームのサブフレームである。
例示的実施形態によれば、DRCデータは、前記一つまたは複数のDRC利得の少なくとも一つの集合を含む。こうして、DRCデータは、DRCモードに対応する複数のDRCプロファイルを含んでいてもよい。そのそれぞれがオーディオ出力信号の異なるユーザー経験を提供する。DRC利得を直接、DRCデータに含めることによって、デコーダの低減された計算量が達成されうる。
例示的実施形態によれば、DRCデータは少なくとも一つの圧縮曲線を含み、前記一つまたは複数のDRC利得は:あらかじめ定義されたラウドネス関数を使って前記一つまたは複数のコンテンツ・サブストリームまたは前記オーディオ出力信号の一つまたは複数のラウドネス値を計算し、前記圧縮曲線を使って前記一つまたは複数のラウドネス値をDRC利得にマッピングすることによって得られる。前記DRCデータにおいて圧縮曲線を提供し、それらの曲線に基づいてDRC利得を計算することによって、DRCデータをエンコーダに伝送するための必要とされるビットレートが低減されうる。あらかじめ定義されたラウドネス関数は、たとえば、ITU-R BS.1770勧告文書から取られてもよいが、任意の好適なラウドネス関数が使用されうる。
例示的実施形態によれば、ラウドネス値のマッピングは、DRC利得の平滑化動作を含む。このことの効果は、よりよく知覚される出力オーディオ信号でありうる。DRC利得を平滑化するための時定数は、DRCデータの一部として伝送されてもよい。そのような時定数は、信号属性に依存して異なっていてもよい。たとえば、いくつかの実施形態では、時定数は、ラウドネス値が直前の対応するラウドネス値よりも大きいときには、ラウドネス値が直前の対応するラウドネス値よりも小さいときに比べて小さくてもよい。
例示的実施形態によれば、参照されるDRCデータは、メタデータ・サブストリームに含まれる。これは、ビットストリームのデコードの複雑さを低減しうる。
例示的実施形態によれば、デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含み、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の前記処理は、さらに、前記コンテンツ・サブストリームのラウドネス・レベルに基づいてラウドネス一貫性を提供することを保証することを含む。
本稿での用法では、「ラウドネス一貫性」とは、ラウドネスが異なる呈示の間で一貫している、すなわち異なるコンテンツ・サブストリームに基づいて形成された複数の出力オーディオ信号にわたって一貫していることをいう。さらに、この用語は、ラウドネスが異なるプログラムの間で、すなわちテレビ番組のオーディオ信号とコマーシャルのオーディオ信号のような完全に異なる出力オーディオ信号との間で、一貫していることをいう。さらに、この用語は、ラウドネスが、異なるテレビ・チャネルを横断して一貫していることをいう。
コンテンツ・サブストリームのラウドネス・レベルを記述するラウドネス・データを提供することは、いくつかの場合、デコーダがラウドネス一貫性を提供するのを助けることがある。たとえば、出力オーディオ信号の前記形成が代替的な混合係数を使って二つ以上のデコードされたコンテンツ・サブストリームを組み合わせることを含み、前記サブストリーム・レベルのラウドネス・データが、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われる場合である。これらの代替的な混合係数は、たとえばユーザーが(たとえばダイアログ向上、ダイアログ減衰、シーン・パーソナル化などをもって)デフォルト呈示から逸脱することを決める場合に、ユーザー入力から導出されてもよい。これは、ラウドネス準拠性を危うくすることがありうる。ユーザーによる影響は、オーディオ出力信号のラウドネスを、準拠規制から外れさせることがありうるからである。そうした場合にラウドネス一貫性を支援するために、本実施形態は、サブストリーム・レベルのラウドネス・データを伝送するオプションを提供する。
いくつかの実施形態によれば、前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照である。複数の呈示がコンテンツ・サブストリーム・グループ(たとえば、音楽に関係したコンテンツ・サブストリームおよび効果に関係したコンテンツ・サブストリームからなるサブストリーム・グループ)を共有できるので、これはデコーダの複雑さを低減しうる。これは、該ビットストリームを伝送するための要求されるビットレートをも減少させうる。
いくつかの実施形態によれば、選択された呈示データ構造は、あるコンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成するコンテンツ・サブストリームのうち前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する。
これは、コンテンツ・サブストリーム・グループ中のコンテンツ・サブストリームのラウドネス・レベルの相互の割合はOKだが、そのコンテンツ・サブストリーム・グループ中のコンテンツ・サブストリームの全体的なラウドネス・レベルは、前記選択された呈示データ構造によって参照される他のコンテンツ・サブストリーム(単数または複数)またはコンテンツ・サブストリーム・グループ(単数または複数)に比べて増大または減少させるべきである場合に有利でありうる。
いくつかの実施形態では、ビットストリームは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造のうちの前記選択された呈示データ構造を示すデータは、各時間フレームについて独立して割り当て可能である。結果として、あるプログラムについて複数の呈示データ構造が受領される場合、前記選択された呈示データ構造は、プログラムの進行中に、たとえばユーザーによって、変更されてもよい。結果として、本実施形態は、出力オーディオのコンテンツを選択する、より柔軟な仕方を提供し、それでいて同時に、出力オーディオ信号のラウドネス一貫性を提供する。
いくつかの実施形態によれば、本方法はさらに:前記ビットストリームから、前記複数の時間フレームの第一のものについて、一つまたは複数の呈示データ構造を抽出し、前記ビットストリームから、前記複数の時間フレームの第二のものについて、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出することを含み、前記選択された呈示データ構造を示すデータは、それが割り当てられている時間フレームについての選択された呈示データ構造を示す。結果として、複数の呈示データ構造が前記ビットストリームにおいて受領されてもよく、それらの呈示データ構造のいくつかは時間フレームの第一の集合に関係し、それらの呈示データ構造のいくつかは時間フレームの第二の集合に関係する。たとえば、コメンタリー・トラックは、前記プログラムのある時間セグメントについてのみ利用可能であってもよい。さらに、プログラムが進行中に、選択された呈示データ構造を選択するために、特定の時点において現在適用可能な諸呈示データ構造が使われてもよい。結果として、本実施形態は、出力オーディオのコンテンツを選択する、より柔軟な仕方を提供し、それでいて同時に、出力オーディオ信号のラウドネス一貫性を提供する。
いくつかの実施形態によれば、前記ビットストリームに含まれる前記複数のコンテンツ・サブストリームから、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームのみがデコードされる。この実施形態は、低減された計算量をもつ効率的なデコーダを提供しうる。
いくつかの実施形態によれば、前記ビットストリームは、それぞれ前記複数のコンテンツ・ビットストリームのうち少なくとも一つを含む二つ以上の別個のビットストリームを含み、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階は:前記二つ以上の別個のビットストリームの各特定のビットストリームについて、その特定のビットストリームに含まれる参照されているコンテンツ・サブストリームからコンテンツ・サブストリーム(単数または複数)を別個にデコードすることを含む。この実施形態によれば、それぞれの別個のビットストリームは、別個のデコーダによって受領されてもよい。該デコーダは、該別個のビットストリームにおいて与えられる、前記選択された呈示データ構造に基づいて必要とされるコンテンツ・サブストリーム(単数または複数)をデコードする。別個のデコーダが並列に機能できるので、これはデコード速度を改善しうる。結果として、別個のデコーダによってなされるデコードは、少なくとも部分的には重なり合ってもよい。しかしながら、別個のデコーダによってなされるデコードが重なり合うことは必須ではないことは注意しおくべきである。
さらに、諸コンテンツ・サブストリームをいくつかのビットストリームに分割することによって、本実施形態は、前記少なくとも二つの別個のビットストリームを、後述するような異なるインフラストラクチャーを通じて受領することを許容する。結果として、本例示的実施形態は、デコーダにおいて前記複数のコンテンツ・サブストリームを受領するための、より柔軟な方法を提供する。
各デコーダは、デコードされたサブストリーム(単数または複数)を、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて処理し、および/またはDRC利得を適用し、および/またはデコードされたサブストリーム(単数または複数)に混合係数を適用してもよい。すると、処理されたまたは処理されていないコンテンツ・サブストリームは、前記少なくとも二つのデコーダのすべてから、出力オーディオ信号を形成するための混合コンポーネントに提供されてもよい。あるいはまた、混合コンポーネントは、ラウドネス処理を実行し、および/またはDRC利得を適用し、および/または混合係数を適用する。いくつかの実施形態では、第一のデコーダが、第一のインフラストラクチャー(たとえばケーブル・テレビ放送)を通じて前記二つ以上の別個のビットストリームの第一のビットストリームを受領してもよく、一方、第二のデコーダが、第二のインフラストラクチャーを通じて(たとえばインターネットを通じて)前記二つ以上の別個のビットストリームの第二のビットストリームを受領してもよい。いくつかの実施形態によれば、前記一つまたは複数の呈示データ構造は、前記二つ以上の別個のビットストリームのすべてにおいて存在する。この場合、呈示定義およびラウドネス・データはすべての別個のデコーダにおいて存在する。これは、混合コンポーネントまで、それらのデコードの独立した動作を許容する。対応するビットストリームに存在しないサブストリームへの参照は、外部で提供されるとして、示されてもよい。
例示的実施形態によれば、それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理するためのデコーダが提供される。本デコーダは:前記ビットストリームを受領するよう構成された受領コンポーネントと;前記ビットストリームから、一つまたは複数の呈示データ構造を抽出するよう構成されたデマルチプレクサであって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、さらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、デマルチプレクサと;前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領するよう構成された再生状態コンポーネントと;前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードし、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成された混合コンポーネントとを含み、前記混合コンポーネントはさらに、前記所望されるラウドネス・レベルを達成するよう、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理するよう構成されている。
〈II.概観――エンコーダ〉
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を有しうる。一般に、第二の側面の特徴は、第一の側面の対応する特徴と同じ利点を有しうる。
例示的実施形態によれば、オーディオ・エンコード方法が提供される。本方法は:それぞれのオーディオ信号を表わす複数のコンテンツ・サブストリームを受領し;それぞれ前記複数のコンテンツ・サブストリームのうちの少なくとも一つを参照する一つまたは複数の呈示データ構造を定義し;前記一つまたは複数の呈示データ構造のそれぞれについて、あらかじめ定義されているラウドネス関数を適用して、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得し、前記呈示データ構造から前記ラウドネス・データへの参照を含め;前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成することを含む。
上記のように、用語「コンテンツ・サブストリーム」は、ビットストリーム内およびオーディオ信号内両方のサブストリームを包含する。オーディオ・エンコーダは典型的には諸オーディオ信号を受領し、それが次いで諸ビットストリームにエンコードされる。それらのオーディオ信号はグループ化されてもよく、各グループは、個々のエンコーダ入力オーディオ信号として特徴付けられることができる。次いで、各グループがサブストリームにエンコードされてもよい。
いくつかの実施形態によれば、本方法はさらに:前記一つまたは複数の呈示データ構造のそれぞれについて、参照されている一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データを決定する段階であって、該DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する、段階と、前記DRCデータを前記ビットストリームに含める段階とを含む。
いくつかの実施形態によれば、本方法はさらに:前記複数のコンテンツ・サブストリームのそれぞれについて、前記あらかじめ定義されているラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得する段階と;前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含める段階とを含む。
いくつかの実施形態によれば、前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号のゲーティングの適用に関係する。
いくつかの実施形態によれば、前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号の、ダイアログを表わす時間セグメントのみに関係する。
いくつかの実施形態によれば、前記あらかじめ定義されているラウドネス関数は:前記オーディオ信号の周波数依存の重み付け、前記オーディオ信号のチャネル依存の重み付け、前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、前記オーディオ信号のエネルギー測度の計算のうちの少なくとも一つを含む。
例示的実施形態によれば、オーディオ・エンコーダが提供される。本エンコーダは:あらかじめ定義されているラウドネス関数を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得するよう構成されているラウドネス・コンポーネントと;一つまたは複数の呈示データ構造を定義するよう構成されている呈示データ・コンポーネントであって、各呈示データ構造は、複数のコンテンツ・サブストリームのうちの一つまたは複数のコンテンツ・サブストリームへの参照および参照されるコンテンツ・サブストリームの組み合わせを記述するラウドネス・データへの参照を含む、呈示データ・コンポーネントと;前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成するよう構成されている多重化コンポーネントとを有する。
〈III.例示的実施形態〉
図1は、例として、ビットストリームPを処理して、出力オーディオ信号114の所望されるラウドネス・レベルを達成するためのデコーダ100の一般化されたブロック図を示している。
デコーダ100は、それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームPを受領するよう構成されている受領コンポーネント(図示せず)を有する。
デコーダ100はさらに、ビットストリームPから、一つまたは複数の呈示データ構造104を抽出するよう構成されたデマルチプレクサ102を有する。各呈示データ構造は、前記コンテンツ・サブストリームの少なくとも一つへの参照を含む。換言すれば、呈示データ構造(presentation data structure)または呈示は、どのコンテンツ・サブストリームが組み合わされるべきかの記述である。上記のように、二つ以上の別個のサブストリームにおいて符号化されているコンテンツ・サブストリームが一つの呈示に組み合わされてもよい。
各呈示データ構造はさらに、参照されている一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む。
呈示データ構造の内容およびその種々の参照について、ここで、図4との関連で述べる。
図4では、抽出された一つまたは複数の呈示データ構造104によって参照されうる種々のサブストリーム412、205が示されている。三つの呈示データ構造104のうち、選択された呈示データ構造110が選ばれている。図4から明らかなように、ビットストリームPは、コンテンツ・サブストリーム412、メタデータ・サブストリーム205および前記一つまたは複数の呈示データ構造104を有する。コンテンツ・サブストリーム412は、音楽のためのサブストリーム、効果のためのサブストリーム、周囲音(ambience)のためのサブストリーム、英語のダイアログのためのサブストリーム、スペイン語のダイアログのためのサブストリーム、英語での付随オーディオ(AA: associated audio)、たとえば英語のコメンタリー・トラックのためのサブストリームおよびスペイン語でのAA、たとえばスペイン語のコメンタリー・トラックのためのサブストリームを含んでいてもよい。
図4では、すべてのコンテンツ・サブストリーム412が同じビットストリームPにおいて符号化されているが、上記したように、常にそうでなくてもよい。オーディオ・コンテンツの放送者は、オーディオ・コンテンツをクライアントに、すなわちデコーダに送信するために、単一ビットストリーム構成、たとえばMPEG規格における単一パケット識別子(PID: packet identifier)構成を、あるいは複数ビットストリーム構成、たとえば二PID構成を使ってもよい。
本開示は、呈示層とサブストリーム層の間に存するサブストリーム・グループの形の中間レベルを導入する。コンテンツ・サブストリーム・グループは、一つまたは複数のコンテンツ・サブストリームをグループ化または参照してもよい。すると、呈示は、コンテンツ・サブストリーム・グループを参照しうる。図4では、音楽、効果および周囲音のコンテンツ・サブストリームがグループ化されて、コンテンツ・サブストリーム・グループ410を形成している。これを選択された呈示データ構造110が参照する(404)。
コンテンツ・サブストリーム・グループは、コンテンツ・サブストリームを組み合わせることにおける、さらなる柔軟性をもたらす。特に、サブストリーム・グループ・レベルは、いくつかのコンテンツ・サブストリームを一意的なグループ、たとえば音楽、効果および周囲音を含むグループ410にまとめるまたはグループ化する手段を提供する。
これは、(たとえば音楽および効果のための、あるいは音楽、効果および周囲音のための)コンテンツ・サブストリーム・グループが二つ以上の呈示のために、たとえば英語またはスペイン語のダイアログとの関連で使用できるので、有利でありうる。同様に、あるコンテンツ・サブストリームが、二つ以上のコンテンツ・サブストリーム・グループにおいて使用されることもできる。
さらに、呈示データ構造のシンタックスに依存して、コンテンツ・サブストリーム・グループを使うことは、呈示のために、より多数のコンテンツ・サブストリームを混合する可能性を提供することがありうる。
いくつかの実施形態によれば、呈示104、110は常に一つまたは複数のサブストリーム・グループからなる。
図4における選択された呈示データ構造110は、コンテンツ・サブストリームのうちの一つまたは複数から構成されるコンテンツ・サブストリーム・グループ410への参照404を含む。選択された呈示データ構造110はさらに、スペイン語のダイアログのためのコンテンツ・サブストリームへの参照およびスペイン語でのAAのためのコンテンツ・サブストリームへの参照を含む。さらに、選択された呈示データ構造110は、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データ408を表わすメタデータ・サブストリーム205への参照406を含む。明らかに、前記複数の呈示データ構造104の他の二つの呈示データ構造が、選択された呈示データ構造110と同様のデータを含んでいてもよい。他の実施形態によれば、ビットストリームPは、前記メタデータ・サブストリーム205と同様の追加的なメタデータ・サブストリームを含んでいてもよい。ここで、追加的なメタデータ・サブストリームは他の呈示データ構造から参照される。換言すれば、前記複数の呈示データ構造104の各呈示データ構造が、専用のラウドネス・データを参照してもよい。
選択された呈示データ構造は時間とともに、すなわちユーザーがスペイン語コメンタリー・トラックAA(ES)をオフにすることに決める場合に、変化してもよい。換言すれば、ビットストリームPは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造104のうちの前記選択された呈示データ構造を示すデータ(図1の参照符号108)は、各時間フレームについて独立して割り当て可能である。
上記のように、ビットストリームPは複数の時間フレームを含む。いくつかの実施形態によれば、前記一つまたは複数の呈示データ構造104はビットストリームPの異なる時間セグメントに関係していてもよい。換言すれば、デマルチプレクサ(図1の参照符号102)は、ビットストリームPから、前記複数の時間フレームの第一のものについては、一つまたは複数の呈示データ構造を抽出するよう構成されていて、さらに、ビットストリームPから、前記複数の時間フレームの第二のものについては、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出するよう構成されていてもよい。この場合、前記選択された呈示データ構造を示すデータ(図1における参照符号108)は、それが割り当てられる時間フレームについての、選択された呈示データ構造を示す。
ここで、図1を参照するに、デコーダ100はさらに、再生状態コンポーネント106を有する。再生状態コンポーネント106は、前記一つまたは複数の呈示データ構造104のうち選択された呈示データ構造110を示すデータ108を受領するよう構成される。データ108は、所望されるラウドネス・レベルをも含む。上記したように、データ108は、デコーダ100によってデコードされるオーディオ・コンテンツの消費者によって与えられてもよい。所望されるラウドネス値は、出力オーディオ信号の再生のために使用される再生設備に依存して、デコーダ固有の設定であってもよい。消費者はたとえば、上記から理解されるように、オーディオ・コンテンツがスペイン語のダイアログを含むべきであることを選んでもよい。
デコーダ100はさらに、再生状態コンポーネント106から前記選択された呈示データ構造110を受領し、ビットストリームPから前記選択された呈示データ構造110によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする混合コンポーネントをさらに有する。いくつかの実施形態によれば、選択された呈示データ構造110によって参照される前記一つまたは複数のコンテンツ・サブストリームのみが、混合コンポーネントによってデコードされる。結果として、消費者がたとえばスペイン語のダイアログをもつ呈示を選んだ場合、英語のダイアログを表わすいかなるコンテンツ・サブストリームもデコードされない。これはデコーダ100の計算量を低減する。
混合コンポーネント112は、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成される。
さらに、混合コンポーネント112は、前記選択された呈示データ構造110によって参照されるラウドネス・データに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理して、前記所望されるダイアログ・ラウドネス・レベルを達成するよう構成される。
図2および図3は、混合コンポーネント112の異なる実施形態を記述する。
図2では、ビットストリームPは、サブストリーム・デコード・コンポーネント202によって受領され、サブストリーム・デコード・コンポーネント202は、前記選択された呈示データ構造110に基づいて、前記選択された呈示データ構造110によって参照される前記一つまたは複数のコンテンツ・サブストリーム204を、ビットストリームPからデコードする。次いで、前記一つまたは複数のデコードされたコンテンツ・サブストリーム204は、前記デコードされたコンテンツ・サブストリーム204およびメタデータ・サブストリーム205に基づいて出力オーディオ信号114を形成するコンポーネント206に伝送される。コンポーネント206は、オーディオ出力信号を形成するとき、たとえば、コンテンツ・サブストリーム(単数または複数)204に含まれる時間依存の空間位置データがあればそれを考慮に入れてもよい。コンポーネント206はさらに、メタデータ・サブストリーム205に含まれるDRCデータを考慮に入れてもよい。あるいはまた、ラウドネス・コンポーネント210(後述)が該DRCデータに基づいて出力オーディオ信号114を処理する。いくつかの実施形態では、コンポーネント206は呈示データ構造110から混合係数(後述)を受領して(図2には示さず)、それらを対応するコンテンツ・サブストリーム204に適用する。次いで、出力オーディオ信号114*がラウドネス・コンポーネント210に伝送され、ラウドネス・コンポーネント210は、選択された呈示データ構造110によって参照されるラウドネス・データ(メタデータ・サブストリーム205に含まれる)およびデータ108に含まれる所望されるラウドネス・レベルに基づいて、前記所望されるラウドネス・レベルを達成するよう出力オーディオ信号114*を処理し、こうしてラウドネス処理された出力オーディオ信号114を出力する。
図3では、同様の混合コンポーネント112が示されている。図2で記述した混合コンポーネント112との違いは、出力オーディオ信号を形成するコンポーネント206とラウドネス・コンポーネント210が互いに位置を交換していることである。結果として、ラウドネス・コンポーネント210が、(メタデータ・サブストリーム205に含まれるラウドネス・データに基づいて)前記所望されるラウドネス・レベルを達成するよう前記デコードされた一つまたは複数のコンテンツ・サブストリーム204を処理して、一つまたは複数のラウドネス処理されたコンテンツ・サブストリーム204*を出力する。次いでこれらが出力オーディオ信号を形成するためのコンポーネント206に伝送されて、コンポーネント206がラウドネス処理された出力オーディオ信号114を出力する。図2との関連で述べたように、(メタデータ・サブストリーム205に含まれる)DRCデータは、コンポーネント206において、あるいはラウドネス・コンポーネント210においてのいずれかで適用されうる。さらに、いくつかの実施形態では、コンポーネント206は呈示データ構造110から混合係数(後述)を受領し(図3には示さず)、これらの係数を対応するコンテンツ・サブストリーム204*に適用する。
前記一つまたは複数の呈示データ構造104のそれぞれは、デコードされたときに呈示データ構造によって参照されるコンテンツ・サブストリームのラウドネスが実際にどうなるかを示す専用のラウドネス・データを含む。いくつかの実施形態によれば、ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティング(gating)を適用する値を表わす。たとえば、ラウドネス・データが帯域制限する(band-limiting)ラウドネス関数に基づく場合、雑音のみを含む周波数帯域は無視されうるので、オーディオ入力信号の背景雑音は、ラウドネス・データを計算するときに考慮に入れられない。
さらに、ラウドネス・データは、ラウドネス関数の、オーディオ入力信号の、ダイアログを表わす時間セグメントに関係する値を表わしてもよい。これはATSC A/85規格に沿ったもので、同規格ではdialnormは明示的にダイアログのラウドネスに関して定義されている(アンカー要素):「dialnormパラメータの値はコンテンツのアンカー要素のラウドネスを示す」。
前記選択された呈示データ構造によって参照されるラウドネス・データに基づく、前記所望されるラウドネス・レベルORLを達成するための前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の処理、あるいは出力オーディオ信号の平準化(leveling)gLは、こうして、上記に従って計算される呈示(presentation)のdialnorm、DN(pres)を使って実行されうる:
gL=ORL−DN(pres)
ここで、DN(pres)およびORLは典型的にはいずれもdBFS(フルスケール1kHz正弦波(または矩形波)を基準とするdB)で表現される値である。
いくつかの実施形態によれば、前記選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、前記選択された呈示データ構造はさらに、前記二つ以上のコンテンツ・サブストリームに適用されるべき少なくとも一つの混合係数を参照する。混合係数(単数または複数)は、選択された呈示によって参照されるコンテンツ・サブストリーム間の修正された相対ラウドネス・レベルを提供するために使用されうる。これらの混合係数は、コンテンツ・サブストリーム内のチャネル/オブジェクトを他のコンテンツ・サブストリーム(単数または複数)内のチャネル/オブジェクトと混合する前に、該コンテンツ・サブストリーム内のチャネル/オブジェクトに広帯域利得として適用されてもよい。
少なくとも一つの混合係数は典型的には静的であるが、ビットストリームの各時間フレームについて独立して割り当て可能であってもよい。たとえばダッキングを達成するためである。
結果として、混合係数は、ビットストリームにおいて各時間フレームについて伝送される必要がない。上書きされるまで有効であり続けることができる。
混合係数はコンテンツ・サブストリーム毎に定義されてもよい。換言すれば、選択された呈示データ構造は、前記二つ以上のサブストリームの各サブストリームについて、対応するサブストリームに適用されるべき一つの混合係数を参照してもよい。
他の実施形態によれば、混合係数はコンテンツ・サブストリーム・グループ毎に定義され、コンテンツ・サブストリーム・グループ内のすべてのコンテンツ・サブストリームに適用されてもよい。換言すれば、前記選択された呈示データ構造は、コンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成するコンテンツ・サブストリームのうち前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する。
さらにもう一つの実施形態によれば、前記選択された呈示データ構造は、前記二つ以上のコンテンツ・サブストリームのそれぞれに適用される単一の混合係数を参照してもよい。
下記の表1は、オブジェクト伝送の例を示している。オブジェクトは、いくつかのサブストリームにわたって分配されるカテゴリーにクラスタリングされている。すべての呈示データ構造は、ダイアログなしのオーディオ・コンテンツの主要部分を含む音楽および効果を組み合わせる。よって、この組み合わせは、コンテンツ・サブストリーム・グループである。選択された呈示データ構造に依存して、ある言語が選ばれる。たとえば英語(D#1)またはスペイン語D#2である。さらに、コンテンツ・サブストリームは英語での一つの付随オーディオ・サブストリーム(Desc#1)およびスペイン語での一つの付随オーディオ・サブストリーム(Desc#2)を含む。付随オーディオ(associated audio)は、オーディオ説明(audio description)、耳が遠い人のためのナレーター、視覚障害者のためのナレーター、コメンタリー・トラックなどといった向上オーディオ(enhancement audio)を含んでいてもよい。
Figure 0006676047
呈示1では、適用されるべき、混合係数を介した混合利得はない。よって、呈示1は全く混合係数を参照しない。
文化的な選好のため、カテゴリー間での異なるバランスが要求されることがある。これは呈示2において例示されている。スペイン語地域は音楽に対してそれほど注意を欲しない状況を考えられたい。したがって、音楽サブストリームは3dB減衰させられる。この例では、呈示2は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する。
呈示3は、視覚障害者のためのスペイン語説明ストリームを含んでいる。このストリームはブースで録音されたものであり、そのまま呈示に混合するには大きすぎるので、6dB減衰させられる。この例では、呈示3は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する。
呈示4では、音楽サブストリームおよび効果サブストリームの両方が3dB減衰させられる。この場合、呈示4は、M&Eサブストリーム・グループについては、該M&Eサブストリーム・グループを構成するコンテンツ・サブストリームの前記一つまたは複数のそれぞれに適用されるべき単一の混合係数を参照する。
いくつかの実施形態によれば、オーディオ・コンテンツのユーザーまたは消費者は、出力オーディオ信号が前記選択された呈示データ構造から逸脱するようユーザー入力を提供することができる。たとえば、ユーザーによってダイアログ向上またはダイアログ減衰が要求されてもよく、あるいはユーザーは何らかの種類のシーン・パーソナル化、たとえば効果音のボリュームの増大などを実行したいことがありうる。換言すれば、出力オーディオ信号を形成するために二つ以上のデコードされたコンテンツ・サブストリームを組み合わせるときに使われる代替的な混合係数が提供されてもよい。これは、オーディオ出力信号のラウドネス・レベルに影響することがある。この場合にラウドネス一貫性を提供するために、デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含んでいてもよい。次いで、サブストリーム・レベルのラウドネス・データは、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われてもよい。
サブストリーム・レベルでのラウドネス・データは、呈示データ構造によって参照されるラウドネス・データと同様であってもよく、有利には、任意的にはコンテンツ・サブストリームにおける概してより静かな信号をカバーするためにより大きなレンジを用いて、ラウドネス関数の値を表現していてもよい。
ラウドネス一貫性を達成するためにこのデータを使う多くの仕方がある。下記のアルゴリズムは例として示される。
DN(P)が呈示dialnormであり、DN(Si)がサブストリームiのサブストリーム・ラウドネスであるとする。
デコーダが、音楽コンテンツ・サブストリームSMおよび効果コンテンツ・サブストリームSEを一つのコンテンツ・サブストリーム・グループSM&Eとして、さらにはダイアログ・コンテンツ・サブストリームSDを参照する呈示に基づいてオーディオ出力信号を形成するところであり、9dBのダイアログ向上(dialog enhancement)DEを適用しつつ一貫したラウドネスを保ちたい場合、デコーダは、コンテンツ・サブストリーム・ラウドネス値を加算すること:
Figure 0006676047
によって、DEがある場合の新たな呈示ラウドネスDN(PDE)を予測することができる。
上記のように、呈示ラウドネスを近似するときにサブストリーム・ラウドネスのそのような加算を実行することは、実際のラウドネスとは非常に異なるラウドネスを生じることがある。よって、代替は、DEなしで近似を計算し、実際のラウドネスからのオフセットを見出すことである。
Figure 0006676047
DEに対する利得は、異なるサブストリーム信号が互いに相互作用する仕方におけるプログラムの大きな修正ではないので、DN(PDE)の近似は、前記オフセットを使ってそれを補正すると、より正確になる可能性が高い。
Figure 0006676047
いくつかの実施形態によれば、呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリーム204について、ダイナミックレンジ圧縮DRCデータへの参照を含む。DRCデータは、一つまたは複数のDRC利得を前記デコードされた一つまたは複数のコンテンツ・サブストリーム204または前記出力オーディオ信号114に適用することによって、前記デコードされた一つまたは複数のコンテンツ・サブストリーム204を処理するために使用されることができる。前記一つまたは複数のDRC利得は、DRCデータに含まれていてもよく、あるいはDRCデータに含まれる一つまたは複数の圧縮曲線に基づいて計算されることができる。その場合、デコーダ100は参照される一つまたは複数のコンテンツ・サブストリーム204のそれぞれについて、あるいは出力オーディオ信号114について、あらかじめ定義されたラウドネス関数を使ってラウドネス値を計算し、次いで、圧縮曲線(単数または複数)を使ってDRC利得にマッピングするために、そのラウドネス値(単数または複数)を使う。ラウドネス値のマッピングは、DRC利得の平滑化動作を含んでいてもよい。
いくつかの実施形態によれば、呈示データ構造によって参照されるDRCデータは複数のDRCプロファイルに対応する。これらのDRCプロファイルは、それが適用される特定のオーディオ信号に対してカスタム仕立てにされる。これらのプロファイルは、圧縮なし(「なし」)から、かなり軽度の圧縮(たとえば、「ミュージック・ライト(Music Light)」)から非常に積極的な圧縮(たとえば「スピーチ(Speech)」)までの範囲がありうる。結果として、DRCデータは、複数セットのDRC利得または該複数セットのDRC利得が得られるもとになる複数の圧縮曲線を含んでいてもよい。
参照されるDRCデータは、諸実施形態によれば、図4のメタデータ・サブストリーム205に含まれていてもよい。
ビットストリームPは、いくつかの実施形態によれば、二つ以上の別個のビットストリームを含んでいてもよく、諸コンテンツ・サブストリームはこの場合、異なるビットストリーム中に符号化されてもよいことを注意しておくべきである。前記一つまたは複数の呈示データ構造は、この場合、有利には、別個のビットストリームのすべてに含まれ、つまり、それぞれの別個のビットストリームについて一つあるいくつかのデコーダが別個にかつ全く独立して、選択された呈示データ構造によって参照されるコンテンツ・サブストリームをデコードするために機能できる(また、各別個のデコーダに与えられる)。いくつかの実施形態によれば、それらのデコーダは並列に機能できる。各別個のデコーダは、それが受け取る別個のビットストリームに存在するサブストリームをデコードする。諸実施形態によれば、所望されるラウドネス・レベルを達成するために、各別個のデコーダは、それがデコードしたコンテンツ・サブストリームの処理を実行する。次いで、処理されたコンテンツ・サブストリームはさらなる混合コンポーネントに与えられて、該さらなる混合コンポーネントが所望されるラウドネス・レベルをもつ出力オーディオ信号を形成する。
他の実施形態によれば、各別個のデコーダはそのデコードされた、未処理のサブストリームを前記さらなる混合コンポーネントに与え、該さらなる混合コンポーネントが、ラウドネス処理を実行し、次いで選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームの全部から出力オーディオ信号を形成する、あるいは、まず前記一つまたは複数のコンテンツ・サブストリームを混合し、混合された信号に対してラウドネス処理を実行する。他の実施形態によれば、各別個のデコーダは、そのデコードされたサブストリームの二つ以上に対して混合動作を実行する。次いで、さらなる混合コンポーネントが、別個のデコーダの事前混合された寄与を混合する。
図5は、図6との関連で、例として、オーディオ・エンコーダ500を示す。エンコーダ500は、一つまたは複数の呈示データ構造506を定義するよう構成されている呈示データ・コンポーネント504を有し、各呈示データ構造は、複数のコンテンツ・サブストリーム502のうちの一つまたは複数のコンテンツ・サブストリーム612への参照604、605および参照されるコンテンツ・サブストリーム612の組み合わせを記述するラウドネス・データ510への参照608を含む。エンコーダ500はさらに、あらかじめ定義されているラウドネス関数514を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データ510を取るよう構成されているラウドネス・コンポーネント508を有する。エンコーダはさらに、前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造506および前記一つまたは複数の呈示データ構造506によって参照される前記ラウドネス・データ510を含むビットストリームPを形成するよう構成されている多重化コンポーネント512を有する。ラウドネス・データ510は典型的にはいくつかのラウドネス・データ・インスタンスを含み、前記一つまたは複数の呈示データ構造506のそれぞれについて一つのインスタンスがある。
エンコーダ500はさらに、前記一つまたは複数の呈示データ構造506のそれぞれについて、参照された一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮DRCデータを決定するよう適応されていてもよい。DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する。DRCデータはビットストリームPに含められる。DRCデータおよびラウドネス・データ510は、諸実施形態によれば、メタデータ・サブストリーム614に含められてもよい。上記で論じたように、ラウドネス・データは典型的には呈示に依存する。さらに、DRCデータも呈示依存であってもよい。これらの場合、特定の呈示データ構造についてのラウドネス・データおよび該当するならDRCデータは、その特定の呈示データ構造についての専用のメタデータ・サブストリーム614に含められる。
エンコーダはさらに、前記複数のコンテンツ・サブストリーム502のそれぞれについて、前記あらかじめ定義されたラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得し;前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含めるよう適応されていてもよい。前記あらかじめ定義されたラウドネス関数は、オーディオ信号のゲーティングに関係していてもよい。他の実施形態によれば、前記あらかじめ定義されたラウドネス関数は、オーディオ信号の、ダイアログを表わす時間セグメントのみに関係していてもよい。前記あらかじめ定義されたラウドネス関数は、いくつかの実施形態によれば:
・前記オーディオ信号の周波数依存の重み付け、
・前記オーディオ信号のチャネル依存の重み付け、
・前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、
・前記オーディオ信号の、発話として検出されないセグメントの無視、
・前記オーディオ信号のエネルギー/パワー/二乗平均平方根の測度の計算のうちの少なくとも一つを含んでいてもよい。
上記から理解されるように、ラウドネス関数は非線形である。つまり、ラウドネス・データが異なるコンテンツ・サブストリームから計算されただけであった場合には、ある呈示についてのラウドネスは、参照されるコンテンツ・サブストリームのラウドネス・データを足し合わせることによって計算されることはできない。さらに、異なるオーディオ・トラック、すなわちコンテンツ・サブストリームを同時再生のために一緒に組み合わせるとき、異なるオーディオ・トラックのコヒーレント/インコヒーレント部分の間の、あるいは異なる周波数領域における組み合わされた効果が現われることがあり、これのためさらに、オーディオ・トラックについてのラウドネス・データの加算は数学的に不可能になる。
〈IV.等価物、拡張、代替その他〉
上記の記述を吟味したのちには本開示のさらなる実施形態が当業者には明白となるであろう。本記述および図面は実施形態および例を開示しているが、本開示はそうした特定の例に制約されるものではない。数多くの修正および変形が、付属の請求項によってのみ定義される本開示の範囲から外れることなく、なされることができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する際に、当業者によって開示される実施形態への変形が理解され、実施されることができる。請求項において、単語「有する/含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。
上記で開示された装置および方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理する方法であって:
前記ビットストリームから、一つまたは複数の呈示データ構造を抽出する段階であって、各呈示データ構造は前記コンテンツ・サブストリームのうち一つまたは複数への参照を含み、各呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、段階と;
前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領する段階と;
前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階と;
デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成する段階とを含み、
当該方法はさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含む、
方法。
〔態様2〕
前記選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、これらに適用されるべき少なくとも二つの混合係数をさらに参照し、
出力オーディオ信号の前記形成は、前記混合係数(単数または複数)を適用することによって、前記デコードされた一つまたは複数のコンテンツ・サブストリームを加法的に混合することをさらに含む、
態様1記載の方法。
〔態様3〕
前記ビットストリームは複数の時間フレームを含み、前記選択された呈示データ構造によって参照される混合係数(単数または複数)は、各時間フレームについて独立して割り当て可能である、態様2記載の方法。
〔態様4〕
前記選択された呈示データ構造は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する、態様2または3記載の方法。
〔態様5〕
前記ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティングの適用に関する値を表わす、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号のダイアログを表わす時間セグメントに関係する値を表わす、態様5記載の方法。
〔態様7〕
前記呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データへの参照を含み、
当該方法はさらに、前記DRCデータに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含み、該処理は、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号に一つまたは複数のDRC利得を適用することを含む、
態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
前記DRCデータは、前記一つまたは複数のDRC利得の少なくとも一つの集合を含む、態様7記載の方法。
〔態様9〕
前記DRCデータは少なくとも一つの圧縮曲線を含み、前記一つまたは複数のDRC利得は:
あらかじめ定義されたラウドネス関数を使って前記参照される一つまたは複数のコンテンツ・サブストリームまたは前記オーディオ出力信号の一つまたは複数のラウドネス値を計算し、
前記圧縮曲線を使って前記一つまたは複数のラウドネス値をDRC利得にマッピングすることによって得られる、
態様7記載の方法。
〔態様10〕
ラウドネス値の前記マッピングは、前記DRC利得の平滑化動作を含む、態様9記載の方法。
〔態様11〕
前記参照されるDRCデータは、前記メタデータ・サブストリームに含まれる、態様7ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含み、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の前記処理は、さらに、前記コンテンツ・サブストリームのラウドネス・レベルに基づいてラウドネス一貫性を提供することを含む、態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
出力オーディオ信号の前記形成が、代替的な混合係数を使って二つ以上のデコードされたコンテンツ・サブストリームを組み合わせることを含み、前記サブストリーム・レベルのラウドネス・データが、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われる、態様12記載の方法。
〔態様14〕
前記代替的な混合係数が:ダイアログ向上およびダイアログ減衰の一方に関する、態様13記載の方法。
〔態様15〕
前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照である、態様1ないし14のうちいずれか一項記載の方法。
〔態様16〕
前記選択された呈示データ構造は、あるコンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成する前記コンテンツ・サブストリームのうちの前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する、態様15が態様2を引用する場合の態様15記載の方法。
〔態様17〕
前記ビットストリームは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造のうちの前記選択された呈示データ構造を示すデータは、各時間フレームについて独立して割り当て可能である、態様1ないし16のうちいずれか一項記載の方法。
〔態様18〕
前記ビットストリームから、前記複数の時間フレームの第一のものについて、一つまたは複数の呈示データ構造を抽出し、
前記ビットストリームから、前記複数の時間フレームの第二のものについて、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出することを含み、
前記選択された呈示データ構造を示すデータは、それが割り当てられている時間フレームについての選択された呈示データ構造を示す、
態様17記載の方法。
〔態様19〕
前記ビットストリームに含まれる前記複数のコンテンツ・サブストリームから、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームのみがデコードされる、態様1ないし18のうちいずれか一項記載の方法。
〔態様20〕
前記ビットストリームは、それぞれ前記複数のコンテンツ・サブストリームのうち少なくとも一つを含む二つ以上の別個のビットストリームを含み、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階は:
前記二つ以上の別個のビットストリームの各特定のビットストリームについて、その特定のビットストリームに含まれる参照されているコンテンツ・サブストリームからコンテンツ・サブストリーム(単数または複数)を別個にデコードすることを含む、
態様1ないし19のうちいずれか一項記載の方法。
〔態様21〕
それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理するためのデコーダであって:
前記ビットストリームを受領するよう構成された受領コンポーネントと;
前記ビットストリームから、一つまたは複数の呈示データ構造を抽出するよう構成されたデマルチプレクサであって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、さらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、デマルチプレクサと;
前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領するよう構成された再生状態コンポーネントと;
前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードし、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成された混合コンポーネントとを有し、
前記混合コンポーネントはさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理するよう構成されている、
デコーダ。
〔態様22〕
オーディオ・エンコード方法であって:
それぞれのオーディオ信号を表わす複数のコンテンツ・サブストリームを受領し;
それぞれ前記複数のコンテンツ・サブストリームのうちの少なくとも一つを参照する一つまたは複数の呈示データ構造を定義し;
前記一つまたは複数の呈示データ構造のそれぞれについて、あらかじめ定義されているラウドネス関数を適用して、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得し、前記呈示データ構造から前記ラウドネス・データへの参照(608)を含め;
前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成することを含む、
方法。
〔態様23〕
前記一つまたは複数の呈示データ構造のそれぞれについて、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データを決定する段階であって、該DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する、段階と、
前記DRCデータを前記ビットストリームに含める段階とをさらに含む、
態様22記載の方法。
〔態様24〕
前記複数のコンテンツ・サブストリームのそれぞれについて、前記あらかじめ定義されているラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得する段階と;
前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含める段階とをさらに含む、
態様22または23記載の方法。
〔態様25〕
前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号のゲーティングに関係する、態様22ないし24のうちいずれか一項記載の方法。
〔態様26〕
前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号の、ダイアログを表わす時間セグメントのみに関係する、態様25記載の方法。
〔態様27〕
前記あらかじめ定義されているラウドネス関数は:
前記オーディオ信号の周波数依存の重み付け、
前記オーディオ信号のチャネル依存の重み付け、
前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、
前記オーディオ信号のエネルギー測度の計算のうちの少なくとも一つを含む、
態様22ないし26のうちいずれか一項記載の方法。
〔態様28〕
あらかじめ定義されているラウドネス関数を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得するよう構成されているラウドネス・コンポーネントと;
一つまたは複数の呈示データ構造を定義するよう構成されている呈示データ・コンポーネントであって、各呈示データ構造は、複数のコンテンツ・サブストリームのうちの一つまたは複数のコンテンツ・サブストリームへの参照および参照されるコンテンツ・サブストリームの組み合わせを記述するラウドネス・データへの参照を含む、呈示データ・コンポーネントと;
前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造および前記一つまたは複数の呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成するよう構成されている多重化コンポーネントとを有する、
オーディオ・エンコーダ。
〔態様29〕
態様1ないし20および22ないし27のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。

Claims (19)

  1. それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理する方法であって:
    前記ビットストリームから、一つまたは複数の呈示データ構造を抽出する段階であって、各呈示データ構造は前記コンテンツ・サブストリームのうち一つまたは複数への参照を含み、各呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、段階と;
    前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領する段階と;
    前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階と;
    デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成する段階とを含み、
    当該方法はさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含む、
    方法。
  2. 前記選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、これらに適用されるべき少なくとも二つの混合係数をさらに参照し、
    出力オーディオ信号の前記形成は、前記混合係数(単数または複数)を適用することによって、前記デコードされた一つまたは複数のコンテンツ・サブストリームを加法的に混合することをさらに含む、
    請求項1記載の方法。
  3. 前記ビットストリームは複数の時間フレームを含み、前記選択された呈示データ構造によって参照される混合係数(単数または複数)は、各時間フレームについて独立して割り当て可能である、請求項2記載の方法。
  4. 前記選択された呈示データ構造は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する、請求項2または3記載の方法。
  5. 前記ラウドネス・データは、ラウドネス関数の、該ラウドネス関数へのオーディオ入力信号に対するゲーティングの適用に関する値を表わす、請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記ラウドネス・データは、ラウドネス関数の、該ラウドネス関数へのオーディオ入力信号のダイアログを表わす時間セグメントに関係する値を表わす、請求項5記載の方法。
  7. 前記呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データへの参照を含み、
    当該方法はさらに、前記DRCデータに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含み、該処理は、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号に一つまたは複数のDRC利得を適用することを含む、
    請求項1ないし6のうちいずれか一項記載の方法。
  8. 前記DRCデータは、前記一つまたは複数のDRC利得の少なくとも一つの集合を含む;または
    前記DRCデータは少なくとも一つの圧縮曲線を含み、前記一つまたは複数のDRC利得は:
    あらかじめ定義されたラウドネス関数を使って前記参照される一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の一つまたは複数のラウドネス値を計算し、
    前記圧縮曲線を使って前記一つまたは複数のラウドネス値をDRC利得にマッピングすることによって得られる、または
    前記参照されるDRCデータは、前記メタデータ・サブストリームに含まれる、
    請求項7記載の方法。
  9. 前記デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含み、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の前記処理は、さらに、前記コンテンツ・サブストリームのラウドネス・レベルに基づいてラウドネス一貫性を提供することを含む、請求項1ないし8のうちいずれか一項記載の方法。
  10. 前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照である、請求項1ないし9のうちいずれか一項記載の方法。
  11. 前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照であり、前記選択された呈示データ構造は、あるコンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成する前記コンテンツ・サブストリームのうちの前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する、請求項2記載の方法。
  12. 前記ビットストリームは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造のうちの前記選択された呈示データ構造を示すデータは、各時間フレームについて独立して割り当て可能である、請求項1ないし11のうちいずれか一項記載の方法。
  13. 前記ビットストリームから、前記複数の時間フレームの第一のものについて、一つまたは複数の呈示データ構造を抽出し、
    前記ビットストリームから、前記複数の時間フレームの第二のものについて、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出することを含み、
    前記選択された呈示データ構造を示すデータは、それが割り当てられている時間フレームについての選択された呈示データ構造を示す、
    請求項12記載の方法。
  14. 前記ビットストリームに含まれる前記複数のコンテンツ・サブストリームから、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームのみがデコードされる、および/または
    前記ビットストリームは、それぞれ前記複数のコンテンツ・サブストリームのうち少なくとも一つを含む二つ以上の別個のビットストリームを含み、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階は:
    前記二つ以上の別個のビットストリームの各特定のビットストリームについて、その特定のビットストリームに含まれる参照されているコンテンツ・サブストリームからコンテンツ・サブストリーム(単数または複数)を別個にデコードすることを含む、
    請求項1ないし13のうちいずれか一項記載の方法。
  15. それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理するためのデコーダであって:
    請求項1ないし14のうちいずれか一項記載の方法を実行するよう構成された一つまたは複数のコンポーネントを有する、デコーダ。
  16. オーディオ・エンコード方法であって:
    それぞれのオーディオ信号を表わす複数のコンテンツ・サブストリームを受領し;
    それぞれ前記複数のコンテンツ・サブストリームのうちの少なくとも一つを参照する一つまたは複数の呈示データ構造を定義し;
    前記一つまたは複数の呈示データ構造のそれぞれについて、あらかじめ定義されているラウドネス関数を適用して、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得し、前記呈示データ構造から前記ラウドネス・データへの参照を含め;
    前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成することを含む、
    方法。
  17. 前記一つまたは複数の呈示データ構造のそれぞれについて、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データを決定する段階であって、該DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する、段階と、
    前記DRCデータを前記ビットストリームに含める段階とをさらに含む、または、
    前記複数のコンテンツ・サブストリームのそれぞれについて、前記あらかじめ定義されているラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得する段階と;
    前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含める段階とをさらに含む、
    請求項16記載の方法。
  18. 請求項16または17記載の方法を実行するよう構成された一つまたは複数のコンポーネントを有する、オーディオ・エンコーダ。
  19. 請求項1ないし14、16および17のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
JP2017518908A 2014-10-10 2015-10-06 伝送に関知しない呈示ベースのプログラム・ラウドネス Active JP6676047B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462062479P 2014-10-10 2014-10-10
US62/062,479 2014-10-10
PCT/US2015/054264 WO2016057530A1 (en) 2014-10-10 2015-10-06 Transmission-agnostic presentation-based program loudness

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020041513A Division JP6701465B1 (ja) 2014-10-10 2020-03-11 伝送に関知しない呈示ベースのプログラム・ラウドネス

Publications (2)

Publication Number Publication Date
JP2017536020A JP2017536020A (ja) 2017-11-30
JP6676047B2 true JP6676047B2 (ja) 2020-04-08

Family

ID=54364679

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2017518908A Active JP6676047B2 (ja) 2014-10-10 2015-10-06 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2020041513A Active JP6701465B1 (ja) 2014-10-10 2020-03-11 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2020081044A Active JP7023313B2 (ja) 2014-10-10 2020-05-01 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2022017625A Active JP7350111B2 (ja) 2014-10-10 2022-02-08 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2023147277A Pending JP2023166543A (ja) 2014-10-10 2023-09-12 伝送に関知しない呈示ベースのプログラム・ラウドネス

Family Applications After (4)

Application Number Title Priority Date Filing Date
JP2020041513A Active JP6701465B1 (ja) 2014-10-10 2020-03-11 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2020081044A Active JP7023313B2 (ja) 2014-10-10 2020-05-01 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2022017625A Active JP7350111B2 (ja) 2014-10-10 2022-02-08 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP2023147277A Pending JP2023166543A (ja) 2014-10-10 2023-09-12 伝送に関知しない呈示ベースのプログラム・ラウドネス

Country Status (6)

Country Link
US (4) US10453467B2 (ja)
EP (3) EP3518236B8 (ja)
JP (5) JP6676047B2 (ja)
CN (4) CN112185401A (ja)
ES (1) ES2916254T3 (ja)
WO (1) WO2016057530A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210233548A1 (en) * 2018-07-25 2021-07-29 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2016057530A1 (en) * 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
AU2016269886B2 (en) * 2015-06-02 2020-11-12 Sony Corporation Transmission device, transmission method, media processing device, media processing method, and reception device
EP3753105B1 (en) 2018-02-15 2023-01-11 Dolby Laboratories Licensing Corporation Loudness control methods and devices
EP3803861B1 (en) * 2019-08-27 2022-01-19 Dolby Laboratories Licensing Corporation Dialog enhancement using adaptive smoothing
CN114430812B (zh) 2019-09-17 2024-03-12 佳能株式会社 盒和图像形成装置

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5612900A (en) * 1995-05-08 1997-03-18 Kabushiki Kaisha Toshiba Video encoding method and system which encodes using a rate-quantizer model
JPH10187190A (ja) 1996-12-25 1998-07-14 Victor Co Of Japan Ltd 音響信号処理方法及び音響信号処理装置
JP3196778B1 (ja) * 2001-01-18 2001-08-06 日本ビクター株式会社 音声符号化方法及び音声復号化方法
GB2373975B (en) 2001-03-30 2005-04-13 Sony Uk Ltd Digital audio signal processing
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7072477B1 (en) 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
US8131134B2 (en) * 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7729673B2 (en) 2004-12-30 2010-06-01 Sony Ericsson Mobile Communications Ab Method and apparatus for multichannel signal limiting
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
RU2417514C2 (ru) * 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
US20080025530A1 (en) 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
US7822498B2 (en) 2006-08-10 2010-10-26 International Business Machines Corporation Using a loudness-level-reference segment of audio to normalize relative audio levels among different audio files when combining content of the audio files
JP2008197199A (ja) * 2007-02-09 2008-08-28 Matsushita Electric Ind Co Ltd オーディオ符号化装置及びオーディオ復号化装置
JP2008276876A (ja) 2007-04-27 2008-11-13 Toshiba Corp 音声出力装置及び音声出力方法
US8213624B2 (en) 2007-06-19 2012-07-03 Dolby Laboratories Licensing Corporation Loudness measurement with spectral modifications
WO2009086174A1 (en) * 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
KR100998913B1 (ko) * 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2106159A1 (en) 2008-03-28 2009-09-30 Deutsche Thomson OHG Loudspeaker panel with a microphone and method for using both
US20090253457A1 (en) 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
US8295504B2 (en) 2008-05-06 2012-10-23 Motorola Mobility Llc Methods and devices for fan control of an electronic device based on loudness data
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
JP2010135906A (ja) 2008-12-02 2010-06-17 Sony Corp クリップ防止装置及びクリップ防止方法
US8428758B2 (en) 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
US8406431B2 (en) 2009-07-23 2013-03-26 Sling Media Pvt. Ltd. Adaptive gain control for digital audio samples in a media stream
KR101430321B1 (ko) 2009-08-14 2014-08-13 코닌클리즈케 케이피엔 엔.브이. 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
EP2486567A1 (en) 2009-10-09 2012-08-15 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
FR2951896A1 (fr) 2009-10-23 2011-04-29 France Telecom Procede d'encapsulation de sous-flux de donnees, procede de desencapsulation et programmes d'ordinateur correspondants
US9031835B2 (en) * 2009-11-19 2015-05-12 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for loudness and sharpness compensation in audio codecs
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
EP2381574B1 (en) 2010-04-22 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an input audio signal
US8510361B2 (en) * 2010-05-28 2013-08-13 George Massenburg Variable exponent averaging detector and dynamic range controller
EP2610865B1 (en) 2010-08-23 2014-07-23 Panasonic Corporation Audio signal processing device and audio signal processing method
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
ES2502468T3 (es) 2010-09-22 2014-10-03 Dolby Laboratories Licensing Corporation Mezcla de transmisión de audio con normalización de nivel de diálogo
AU2011311543B2 (en) 2010-10-07 2015-05-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Apparatus and method for level estimation of coded audio frames in a bit stream domain
WO2014124377A2 (en) 2013-02-11 2014-08-14 Dolby Laboratories Licensing Corporation Audio bitstreams with supplementary data and encoding and decoding of such bitstreams
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US8989884B2 (en) 2011-01-11 2015-03-24 Apple Inc. Automatic audio configuration based on an audio output device
JP2012235310A (ja) 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
EP2575375B1 (en) * 2011-09-28 2015-03-18 Nxp B.V. Control of a loudspeaker output
JP2013102411A (ja) 2011-10-14 2013-05-23 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
US9892188B2 (en) 2011-11-08 2018-02-13 Microsoft Technology Licensing, Llc Category-prefixed data batching of coded media data in multiple categories
WO2013087861A2 (en) 2011-12-15 2013-06-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer programm for avoiding clipping artefacts
JP5909100B2 (ja) * 2012-01-26 2016-04-26 日本放送協会 ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9373335B2 (en) 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
US9413322B2 (en) 2012-11-19 2016-08-09 Harman International Industries, Incorporated Audio loudness control system
CN108174341B (zh) 2013-01-16 2021-01-08 杜比国际公司 测量高阶高保真度立体声响复制响度级的方法及设备
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
KR102473260B1 (ko) 2013-01-21 2022-12-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
MX2018006149A (es) * 2013-01-21 2021-09-17 Dolby Laboratories Licensing Corp Codificador y decodificador de audio con metadatos de limite y sonoridad de programa.
CA2898567C (en) 2013-01-28 2018-09-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices
US20140257799A1 (en) * 2013-03-08 2014-09-11 Daniel Shepard Shout mitigating communication device
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
JP2015050685A (ja) 2013-09-03 2015-03-16 ソニー株式会社 オーディオ信号処理装置および方法、並びにプログラム
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
US9300268B2 (en) 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
PT3061090T (pt) 2013-10-22 2019-07-11 Fraunhofer Ges Forschung Conceito combinado para a compressão de gama dinâmica e a prevenção de clipping guiada para dispositivos de áudio
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
RU2764260C2 (ru) 2013-12-27 2022-01-14 Сони Корпорейшн Устройство и способ декодирования
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
CN106165014B (zh) 2014-03-25 2020-01-24 弗朗霍夫应用科学研究促进协会 音频编码器装置、音频解码器装置、及其操作方法
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
MY174199A (en) 2014-05-28 2020-03-13 Fraunhofer Ges Forschung Data processor and transport of user control data to audio decoders and renderers
RU2699406C2 (ru) 2014-05-30 2019-09-05 Сони Корпорейшн Устройство обработки информации и способ обработки информации
KR20220104290A (ko) 2014-06-30 2022-07-26 소니그룹주식회사 정보 처리 장치 및 정보 처리 방법
KR102304052B1 (ko) * 2014-09-05 2021-09-23 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
WO2016057530A1 (en) * 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US20160315722A1 (en) 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
WO2016193033A1 (de) 2015-05-29 2016-12-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur lautstärkenregulierung
CN107820711B (zh) 2015-06-17 2020-09-08 弗劳恩霍夫应用研究促进协会 用于音频编码系统中用户交互性的响度控制
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210233548A1 (en) * 2018-07-25 2021-07-29 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
US11894006B2 (en) * 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise

Also Published As

Publication number Publication date
EP4060661B1 (en) 2024-04-24
EP3518236B8 (en) 2022-05-25
US10453467B2 (en) 2019-10-22
JP7023313B2 (ja) 2022-02-21
US11062721B2 (en) 2021-07-13
JP7350111B2 (ja) 2023-09-25
CN107112023A (zh) 2017-08-29
JP2023166543A (ja) 2023-11-21
US20200258534A1 (en) 2020-08-13
WO2016057530A1 (en) 2016-04-14
CN107112023B (zh) 2020-10-30
JP2017536020A (ja) 2017-11-30
US20180012609A1 (en) 2018-01-11
EP3518236B1 (en) 2022-04-06
US20220005489A1 (en) 2022-01-06
US20170249951A1 (en) 2017-08-31
JP2020098368A (ja) 2020-06-25
CN112164406A (zh) 2021-01-01
EP3204943A1 (en) 2017-08-16
JP2020129829A (ja) 2020-08-27
EP4060661A1 (en) 2022-09-21
ES2916254T3 (es) 2022-06-29
EP3518236A1 (en) 2019-07-31
JP6701465B1 (ja) 2020-05-27
US10566005B2 (en) 2020-02-18
CN112185402A (zh) 2021-01-05
EP3204943B1 (en) 2018-12-05
JP2022058928A (ja) 2022-04-12
CN112185401A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
JP7350111B2 (ja) 伝送に関知しない呈示ベースのプログラム・ラウドネス
JP7049503B2 (ja) 多様な再生環境のためのダイナミックレンジ制御
US11379178B2 (en) Loudness control for user interactivity in audio coding systems
US9576585B2 (en) Method and apparatus for normalized audio playback of media with and without embedded loudness metadata of new media devices
US20130170672A1 (en) Audio stream mixing with dialog level normalization
US8731216B1 (en) Audio normalization for digital video broadcasts
US20220147311A1 (en) Deferred loudness adjustment for dynamic range control
Cenzano Ferret Design and implementation of a loudness monitoring system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200311

R150 Certificate of patent or registration of utility model

Ref document number: 6676047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250