JP2023166543A - 伝送に関知しない呈示ベースのプログラム・ラウドネス - Google Patents
伝送に関知しない呈示ベースのプログラム・ラウドネス Download PDFInfo
- Publication number
- JP2023166543A JP2023166543A JP2023147277A JP2023147277A JP2023166543A JP 2023166543 A JP2023166543 A JP 2023166543A JP 2023147277 A JP2023147277 A JP 2023147277A JP 2023147277 A JP2023147277 A JP 2023147277A JP 2023166543 A JP2023166543 A JP 2023166543A
- Authority
- JP
- Japan
- Prior art keywords
- loudness
- content
- data
- audio signal
- substream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 107
- 230000006835 compression Effects 0.000 claims abstract description 30
- 238000007906 compression Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 38
- 230000001419 dependent effect Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002156 mixing Methods 0.000 abstract description 62
- 239000000284 extract Substances 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
Abstract
【課題】種々のオーディオ出力信号の間でラウドネスの一貫性保つためのフレームワークを提供する。【解決手段】デコーダにおいて、混合コンポーネント112のサブストリーム・デコード・コンポーネント202は、エンコードされたビットストリームPを取得し、出力オーディオ信号114及びメタデータ205を抽出する。メタデータは、複数のダイナミックレンジ(DRC)プロファイルのうちの1つに対応する圧縮曲線を示す圧縮曲線データ及びラウドネス・データを含む。ラウドネス・コンポーネント210は、メタデータ・サブストリーム205に含まれるラウドネス・データからラウドネス値を生成し、圧縮曲線データを使ってラウドネス値をDRC利得にマッピングし、DRC利得を出力オーディオ信号に適用する。【選択図】図2
Description
関連出願への相互参照
本願は2014年10月10日に出願された米国仮特許出願第62/062,479号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
本願は2014年10月10日に出願された米国仮特許出願第62/062,479号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本発明はオーディオ信号処理に関し、より詳細には、出力オーディオ信号の所望されるラウドネス・レベルを達成するためのオーディオ・データ・ビットストリームのエンコードおよびデコードに関する。
本発明はオーディオ信号処理に関し、より詳細には、出力オーディオ信号の所望されるラウドネス・レベルを達成するためのオーディオ・データ・ビットストリームのエンコードおよびデコードに関する。
ドルビーAC-4は、リッチなメディア・コンテンツを効率的に頒布するためのオーディオ・フォーマットである。AC-4は、効率的な仕方でコンテンツを頒布およびエンコードするための、放送者およびコンテンツ制作者にとっての柔軟なフレームワークを提供する。コンテンツはいくつかのサブストリームを通じて頒布されることができる。たとえば、あるサブストリームにはM&E(音楽および効果)、第二のサブストリームにはダイアログである。一部のオーディオ・コンテンツについては、たとえばダイアログの言語をある言語から別の言語に切り換えること、あるいはたとえばコンテンツへのコメンタリー・サブストリームまたは視覚障害者のための説明を含む追加的なサブストリームを追加できることが有利であることがある。
消費者に呈示されるコンテンツの適正なレベル付けを保証するために、コンテンツのラウドネスがある程度の正確さをもって知られる必要がある。現行のラウドネス要件は、2dB(ATSC A/85)、0.5dB(EBU R128)の許容差をもち、一方、いくつかの仕様は0.1dBくらい低い許容差をもつ。つまり、コメンタリー・トラックをもち、第一の言語でのダイアログをもつ出力オーディオ信号のラウドネスは、コメンタリー・トラックがない、第二の言語でのダイアログをもつ出力オーディオ信号と実質的に同じラウドネスをもつべきということである。
ここで例示的実施形態について付属の図面を参照しつつ述べる。
例として、ビットストリームを処理し、出力オーディオ信号の所望されるラウドネス・レベルを達成するためのデコーダを示す一般化されたブロック図である。
図1のデコーダの混合コンポーネントの第一の実施形態の一般化されたブロック図である。
図1のデコーダの混合コンポーネントの第二の実施形態の一般化されたブロック図である。
諸実施形態に基づく呈示データ構造を記述する図である。
諸実施形態に基づくオーディオ・エンコーダの一般化されたブロック図である。
図5のオーディオ・エンコーダによって形成されるビットストリームを示す図である。 すべての図面は概略的であり、概して本開示を明快にするために必要な部分を示すだけである。一方、他の部分は省略されたり、単に示唆されるだけでであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図における同様の部分を指す。
上記に鑑み、目的は、出力オーディオ信号にどんなコンテンツ・サブストリームが混合されるかとは関係なく、出力オーディオ信号についての所望されるラウドネス・レベルを提供することをねらいとする、エンコーダおよびデコーダならびに関連する方法を提供することである。
〈I.概観――デコーダ〉
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。
例示的実施形態によれば、それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理する方法が提供される。本方法は:前記ビットストリームから、一つまたは複数の呈示データ構造を抽出する段階であって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、各呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、段階と;前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領する段階と;選択された呈示データ構造によって参照される一つまたは複数のコンテンツ・サブストリームをデコードする段階と;デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成する段階とを含み、本方法はさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理して、前記所望されるラウドネス・レベルを達成することを含む。
選択された呈示データ構造および所望されるラウドネス・レベルを示すデータは典型的には、デコーダにおいて利用可能なユーザー設定である。ユーザーはたとえば、リモコンを使ってダイアログがフランス語である呈示データ構造を選択したり、および/または所望される出力ラウドネス・レベルを増減させたりしてもよい。多くの実施形態では、出力ラウドネス・レベルは再生装置のキャパシティに関係している。いくつかの実施形態によれば、出力ラウドネス・レベルはボリュームによって制御される。結果として、選択された呈示データ構造および所望されるラウドネス・レベルを示すデータは典型的には、デコーダによって受領されるビットストリームには含まれない。
本稿での用法では、「ラウドネス」は、音の強度の、モデル化された音響心理学的な測定値を表わす。換言すれば、ラウドネスは、平均的なユーザーによって知覚される音(単数または複数)のボリュームの近似を表わす。
本稿での用法では、「ラウドネス・データ」は、音響心理学的なラウドネス知覚をモデル化する関数による、特定の呈示データ構造のラウドネス・レベルの測定から帰結するデータをいう。換言すれば、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせのラウドネス属性を示す値の集まりである。諸実施形態によれば、特定の呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームの組み合わせの平均ラウドネス・レベルが測定されることができる。たとえば、ラウドネス・データは、特定の呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームの(ITU-R BS.1770に基づく)dialnorm値を指してもよい。ツヴィッカー(Zwicker)のラウドネス・モデルへの修正および拡張を提供するグラスバーグ(Glasberg)のおよびムーア(Moore)のラウドネス・モデルのような、他の好適なラウドネス測定規格が使われてもよい。
本稿での用法では、「呈示データ構造(presentation data structure)」は、出力オーディオ信号のコンテンツに関係するメタデータを指す。出力オーディオ信号は「プログラム」とも称される。呈示データ構造は「呈示」とも称される。
オーディオ・コンテンツは、いくつかのサブストリームを通じて頒布されることができる。本稿での用法では、「コンテンツ・サブストリーム」は、そのようなサブストリームを指す。たとえば、コンテンツ・サブストリームは、オーディオ・コンテンツの音楽、オーディオ・コンテンツのダイアログまたは出力オーディオ信号に含まれるべきコメンタリー・トラックを含んでいてもよい。コンテンツ・サブストリームはチャネル・ベースであっても、オブジェクト・ベースであってもよい。後者の場合、時間依存の空間位置データがコンテンツ・サブストリームに含められる。コンテンツ・サブストリームはビットストリームに含まれてもよく、あるいはオーディオ信号の一部であってもよい(すなわち、チャネル・グループまたはオブジェクト・グループとして)。
本稿での用法では、「出力オーディオ信号」は、実際に出力されるオーディオ信号を指し、それがユーザーに対してレンダリングされる。
本発明者は、各呈示についてラウドネス・データ、たとえばdialnorm値を提供することにより、その特定の呈示をデコードするときに、参照される少なくとも一つのコンテンツ・サブストリームについてラウドネスが正確にいくらであるかを示す特定のラウドネス・データがデコーダに対して利用可能となることを認識するに至った。
従来技術では、各コンテンツ・サブストリームについてラウドネス・データが提供されることがある。各コンテンツ・サブストリームについてラウドネス・データを提供することの問題は、その場合、さまざまなラウドネス・データを呈示ラウドネスに組み合わせることがデコーダ任せになるということである。諸サブストリームの諸平均ラウドネスを表わす諸サブストリームの個々のラウドネス・データ値を加算してある呈示についてのラウドネス値に至ることは、正確でないことがあり、多くの場合、組み合わされたサブストリームの実際の平均ラウドネス値を生じない。それぞれの参照されるコンテンツ・サブストリームについてのラウドネス・データを加算することは、信号属性、ラウドネス・アルゴリズムおよび典型的に加法的でないラウドネス知覚の性質のため、数学的に不可能であることがあり、上記の許容差よりも大きい潜在的な不正確さにつながりうる。
本実施形態を使えば、選択された呈示についてのラウドネス・データによって提供される選択された呈示の平均ラウドネス・レベルと、所望されるラウドネス・レベルとの間の差が、こうして、出力オーディオ信号の再生利得を制御するために使用されうる。
上記のようにラウドネス・データを提供し、使用することにより、種々の呈示の間で、一貫したラウドネス、すなわち、所望されるラウドネス・レベルに近いラウドネスが達成されうる。さらに、一貫したラウドネスは、あるテレビ・チャネルでの異なるプログラムの間で、たとえばテレビ番組とそのコマーシャルとの間で、あるいはテレビ・チャネルを横断して、達成されうる。
例示的実施形態によれば、選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、これらに適用されるべき少なくとも二つの混合係数をさらに参照し、出力信号の前記形成は、前記混合係数(単数または複数)を適用することによって、デコードされた一つまたは複数のコンテンツ・サブストリームを加法的に混合することをさらに含む。
少なくとも二つの混合係数を提供することによって、出力オーディオ信号のコンテンツの増大した柔軟性が達成される。
たとえば、選択された呈示データ構造は、前記二つ以上のコンテンツ・サブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照してもよい。この実施形態によれば、コンテンツ・サブストリームの間の相対的なラウドネス・レベルが変更されうる。たとえば、文化的な選好が、異なるコンテンツ・サブストリームの間の異なるバランスを要求することがある。スペイン語地域は音楽への注意を他ほど望まないという状況を考慮されたい。したがって、音楽サブストリームは3dB減衰させられる。他の実施形態によれば、前記二つ以上のコンテンツ・サブストリームの部分集合に、信号混合係数が適用されてもよい。
例示的実施形態によれば、ビットストリームは複数の時間フレームを含み、選択された呈示データ構造によって参照される混合係数は、各時間フレームについて独立して割り当て可能である。時間変化する混合係数を提供することの効果は、ダッキング(ducking)が達成されうるということである。たとえば、あるコンテンツ・サブストリームのある時間セグメントにわたるラウドネス・レベルが、別のコンテンツ・サブストリームの同じ時間セグメントにおける増大したラウドネスにより、低減されてもよい。
例示的実施形態によれば、ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティング(gating)の適用に関する値を表わす。
オーディオ入力信号は、エンコーダ側での、ラウドネス関数(たとえばdialnorm関数)が適用された信号である。すると、結果として得られるラウドネス・データはビットストリームにおいてデコーダに伝送される。ノイズ・ゲート(無音ゲートとも称される)は、オーディオ信号のボリュームを制御するために使われる電子装置またはソフトウェアである。ゲーティングとはそのようなゲートの使用である。ノイズ・ゲートは、閾値未満の値を示す信号を減衰させる。ノイズ・ゲートは、レンジ(range)として知られる固定量だけ信号を減衰させてもよい。その最も単純な形では、ノイズ・ゲートは、信号が、設定された閾値より上であるときにのみ通過することを許容する。
ゲーティングは、オーディオ入力信号におけるダイアログの存在にも基づいていてもよい。結果として、例示的実施形態によれば、ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号のダイアログを表わす時間セグメントに関係する値を表わす。他の実施形態によれば、ゲーティングは最小ラウドネス・レベルに基づく。そのような最小ラウドネス・レベルは、絶対的な閾値または相対的な閾値であってもよい。相対的な閾値は、絶対的な閾値を用いて測定されたラウドネス・レベルに基づいていてもよい。
例示的実施形態によれば、呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データへの参照を含み、本方法はさらに、DRCデータに基づいて、デコードされた一つまたは複数のコンテンツ・サブストリームまたは出力オーディオ信号を処理することを含む。ここで、該処理は、デコードされた一つまたは複数のコンテンツ・サブストリームまたは出力オーディオ信号に一つまたは複数のDRC利得を適用することを含む。
ダイナミックレンジ圧縮は、大きな音のボリュームを下げたり静かな音を増幅したりし、それによりオーディオ信号のダイナミックレンジを狭める、あるいは「圧縮する」。各呈示について一意的にDRCデータを提供することによって、選ばれる呈示が何であろうと、出力オーディオ信号の改善されたユーザー経験が達成されうる。さらに、各呈示についてDRCデータを提供することによって、複数の呈示のそれぞれにわたって、また上記のようにプログラム間で、またテレビ・チャネルを横断して、オーディオ出力信号の一貫したユーザー経験が達成されうる。
DRC利得は常に時間変化する。各時間セグメントにおいて、DRC利得は、オーディオ出力信号についての単一の利得またはサブストリーム毎に異なる複数のDRC利得であってもよい。DRC利得は、チャネルの諸グループに適用されてもよく、および/または周波数依存であってもよい。加えて、DRCデータに含まれるDRC利得は、二つ以上のDRC時間セグメントについてのDRC利得を表わしていてもよい。たとえば、エンコーダによって定義される時間フレームのサブフレームである。
例示的実施形態によれば、DRCデータは、前記一つまたは複数のDRC利得の少なくとも一つの集合を含む。こうして、DRCデータは、DRCモードに対応する複数のDRCプロファイルを含んでいてもよい。そのそれぞれがオーディオ出力信号の異なるユーザー経験を提供する。DRC利得を直接、DRCデータに含めることによって、デコーダの低減された計算量が達成されうる。
例示的実施形態によれば、DRCデータは少なくとも一つの圧縮曲線を含み、前記一つまたは複数のDRC利得は:あらかじめ定義されたラウドネス関数を使って前記一つまたは複数のコンテンツ・サブストリームまたは前記オーディオ出力信号の一つまたは複数のラウドネス値を計算し、前記圧縮曲線を使って前記一つまたは複数のラウドネス値をDRC利得にマッピングすることによって得られる。前記DRCデータにおいて圧縮曲線を提供し、それらの曲線に基づいてDRC利得を計算することによって、DRCデータをエンコーダに伝送するための必要とされるビットレートが低減されうる。あらかじめ定義されたラウドネス関数は、たとえば、ITU-R BS.1770勧告文書から取られてもよいが、任意の好適なラウドネス関数が使用されうる。
例示的実施形態によれば、ラウドネス値のマッピングは、DRC利得の平滑化動作を含む。このことの効果は、よりよく知覚される出力オーディオ信号でありうる。DRC利得を平滑化するための時定数は、DRCデータの一部として伝送されてもよい。そのような時定数は、信号属性に依存して異なっていてもよい。たとえば、いくつかの実施形態では、時定数は、ラウドネス値が直前の対応するラウドネス値よりも大きいときには、ラウドネス値が直前の対応するラウドネス値よりも小さいときに比べて小さくてもよい。
例示的実施形態によれば、参照されるDRCデータは、メタデータ・サブストリームに含まれる。これは、ビットストリームのデコードの複雑さを低減しうる。
例示的実施形態によれば、デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含み、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の前記処理は、さらに、前記コンテンツ・サブストリームのラウドネス・レベルに基づいてラウドネス一貫性を提供することを保証することを含む。
本稿での用法では、「ラウドネス一貫性」とは、ラウドネスが異なる呈示の間で一貫している、すなわち異なるコンテンツ・サブストリームに基づいて形成された複数の出力オーディオ信号にわたって一貫していることをいう。さらに、この用語は、ラウドネスが異なるプログラムの間で、すなわちテレビ番組のオーディオ信号とコマーシャルのオーディオ信号のような完全に異なる出力オーディオ信号との間で、一貫していることをいう。さらに、この用語は、ラウドネスが、異なるテレビ・チャネルを横断して一貫していることをいう。
コンテンツ・サブストリームのラウドネス・レベルを記述するラウドネス・データを提供することは、いくつかの場合、デコーダがラウドネス一貫性を提供するのを助けることがある。たとえば、出力オーディオ信号の前記形成が代替的な混合係数を使って二つ以上のデコードされたコンテンツ・サブストリームを組み合わせることを含み、前記サブストリーム・レベルのラウドネス・データが、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われる場合である。これらの代替的な混合係数は、たとえばユーザーが(たとえばダイアログ向上、ダイアログ減衰、シーン・パーソナル化などをもって)デフォルト呈示から逸脱することを決める場合に、ユーザー入力から導出されてもよい。これは、ラウドネス準拠性を危うくすることがありうる。ユーザーによる影響は、オーディオ出力信号のラウドネスを、準拠規制から外れさせることがありうるからである。そうした場合にラウドネス一貫性を支援するために、本実施形態は、サブストリーム・レベルのラウドネス・データを伝送するオプションを提供する。
いくつかの実施形態によれば、前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照である。複数の呈示がコンテンツ・サブストリーム・グループ(たとえば、音楽に関係したコンテンツ・サブストリームおよび効果に関係したコンテンツ・サブストリームからなるサブストリーム・グループ)を共有できるので、これはデコーダの複雑さを低減しうる。これは、該ビットストリームを伝送するための要求されるビットレートをも減少させうる。
いくつかの実施形態によれば、選択された呈示データ構造は、あるコンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成するコンテンツ・サブストリームのうち前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する。
これは、コンテンツ・サブストリーム・グループ中のコンテンツ・サブストリームのラウドネス・レベルの相互の割合はOKだが、そのコンテンツ・サブストリーム・グループ中のコンテンツ・サブストリームの全体的なラウドネス・レベルは、前記選択された呈示データ構造によって参照される他のコンテンツ・サブストリーム(単数または複数)またはコンテンツ・サブストリーム・グループ(単数または複数)に比べて増大または減少させるべきである場合に有利でありうる。
いくつかの実施形態では、ビットストリームは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造のうちの前記選択された呈示データ構造を示すデータは、各時間フレームについて独立して割り当て可能である。結果として、あるプログラムについて複数の呈示データ構造が受領される場合、前記選択された呈示データ構造は、プログラムの進行中に、たとえばユーザーによって、変更されてもよい。結果として、本実施形態は、出力オーディオのコンテンツを選択する、より柔軟な仕方を提供し、それでいて同時に、出力オーディオ信号のラウドネス一貫性を提供する。
いくつかの実施形態によれば、本方法はさらに:前記ビットストリームから、前記複数の時間フレームの第一のものについて、一つまたは複数の呈示データ構造を抽出し、前記ビットストリームから、前記複数の時間フレームの第二のものについて、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出することを含み、前記選択された呈示データ構造を示すデータは、それが割り当てられている時間フレームについての選択された呈示データ構造を示す。結果として、複数の呈示データ構造が前記ビットストリームにおいて受領されてもよく、それらの呈示データ構造のいくつかは時間フレームの第一の集合に関係し、それらの呈示データ構造のいくつかは時間フレームの第二の集合に関係する。たとえば、コメンタリー・トラックは、前記プログラムのある時間セグメントについてのみ利用可能であってもよい。さらに、プログラムが進行中に、選択された呈示データ構造を選択するために、特定の時点において現在適用可能な諸呈示データ構造が使われてもよい。結果として、本実施形態は、出力オーディオのコンテンツを選択する、より柔軟な仕方を提供し、それでいて同時に、出力オーディオ信号のラウドネス一貫性を提供する。
いくつかの実施形態によれば、前記ビットストリームに含まれる前記複数のコンテンツ・サブストリームから、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームのみがデコードされる。この実施形態は、低減された計算量をもつ効率的なデコーダを提供しうる。
いくつかの実施形態によれば、前記ビットストリームは、それぞれ前記複数のコンテンツ・ビットストリームのうち少なくとも一つを含む二つ以上の別個のビットストリームを含み、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階は:前記二つ以上の別個のビットストリームの各特定のビットストリームについて、その特定のビットストリームに含まれる参照されているコンテンツ・サブストリームからコンテンツ・サブストリーム(単数または複数)を別個にデコードすることを含む。この実施形態によれば、それぞれの別個のビットストリームは、別個のデコーダによって受領されてもよい。該デコーダは、該別個のビットストリームにおいて与えられる、前記選択された呈示データ構造に基づいて必要とされるコンテンツ・サブストリーム(単数または複数)をデコードする。別個のデコーダが並列に機能できるので、これはデコード速度を改善しうる。結果として、別個のデコーダによってなされるデコードは、少なくとも部分的には重なり合ってもよい。しかしながら、別個のデコーダによってなされるデコードが重なり合うことは必須ではないことは注意しおくべきである。
さらに、諸コンテンツ・サブストリームをいくつかのビットストリームに分割することによって、本実施形態は、前記少なくとも二つの別個のビットストリームを、後述するような異なるインフラストラクチャーを通じて受領することを許容する。結果として、本例示的実施形態は、デコーダにおいて前記複数のコンテンツ・サブストリームを受領するための、より柔軟な方法を提供する。
各デコーダは、デコードされたサブストリーム(単数または複数)を、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて処理し、および/またはDRC利得を適用し、および/またはデコードされたサブストリーム(単数または複数)に混合係数を適用してもよい。すると、処理されたまたは処理されていないコンテンツ・サブストリームは、前記少なくとも二つのデコーダのすべてから、出力オーディオ信号を形成するための混合コンポーネントに提供されてもよい。あるいはまた、混合コンポーネントは、ラウドネス処理を実行し、および/またはDRC利得を適用し、および/または混合係数を適用する。いくつかの実施形態では、第一のデコーダが、第一のインフラストラクチャー(たとえばケーブル・テレビ放送)を通じて前記二つ以上の別個のビットストリームの第一のビットストリームを受領してもよく、一方、第二のデコーダが、第二のインフラストラクチャーを通じて(たとえばインターネットを通じて)前記二つ以上の別個のビットストリームの第二のビットストリームを受領してもよい。いくつかの実施形態によれば、前記一つまたは複数の呈示データ構造は、前記二つ以上の別個のビットストリームのすべてにおいて存在する。この場合、呈示定義およびラウドネス・データはすべての別個のデコーダにおいて存在する。これは、混合コンポーネントまで、それらのデコードの独立した動作を許容する。対応するビットストリームに存在しないサブストリームへの参照は、外部で提供されるとして、示されてもよい。
例示的実施形態によれば、それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理するためのデコーダが提供される。本デコーダは:前記ビットストリームを受領するよう構成された受領コンポーネントと;前記ビットストリームから、一つまたは複数の呈示データ構造を抽出するよう構成されたデマルチプレクサであって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、さらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、デマルチプレクサと;前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領するよう構成された再生状態コンポーネントと;前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードし、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成された混合コンポーネントとを含み、前記混合コンポーネントはさらに、前記所望されるラウドネス・レベルを達成するよう、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理するよう構成されている。
〈II.概観――エンコーダ〉
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を有しうる。一般に、第二の側面の特徴は、第一の側面の対応する特徴と同じ利点を有しうる。
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を有しうる。一般に、第二の側面の特徴は、第一の側面の対応する特徴と同じ利点を有しうる。
例示的実施形態によれば、オーディオ・エンコード方法が提供される。本方法は:それぞれのオーディオ信号を表わす複数のコンテンツ・サブストリームを受領し;それぞれ前記複数のコンテンツ・サブストリームのうちの少なくとも一つを参照する一つまたは複数の呈示データ構造を定義し;前記一つまたは複数の呈示データ構造のそれぞれについて、あらかじめ定義されているラウドネス関数を適用して、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得し、前記呈示データ構造から前記ラウドネス・データへの参照を含め;前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成することを含む。
上記のように、用語「コンテンツ・サブストリーム」は、ビットストリーム内およびオーディオ信号内両方のサブストリームを包含する。オーディオ・エンコーダは典型的には諸オーディオ信号を受領し、それが次いで諸ビットストリームにエンコードされる。それらのオーディオ信号はグループ化されてもよく、各グループは、個々のエンコーダ入力オーディオ信号として特徴付けられることができる。次いで、各グループがサブストリームにエンコードされてもよい。
いくつかの実施形態によれば、本方法はさらに:前記一つまたは複数の呈示データ構造のそれぞれについて、参照されている一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データを決定する段階であって、該DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する、段階と、前記DRCデータを前記ビットストリームに含める段階とを含む。
いくつかの実施形態によれば、本方法はさらに:前記複数のコンテンツ・サブストリームのそれぞれについて、前記あらかじめ定義されているラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得する段階と;前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含める段階とを含む。
いくつかの実施形態によれば、前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号のゲーティングの適用に関係する。
いくつかの実施形態によれば、前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号の、ダイアログを表わす時間セグメントのみに関係する。
いくつかの実施形態によれば、前記あらかじめ定義されているラウドネス関数は:前記オーディオ信号の周波数依存の重み付け、前記オーディオ信号のチャネル依存の重み付け、前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、前記オーディオ信号のエネルギー測度の計算のうちの少なくとも一つを含む。
例示的実施形態によれば、オーディオ・エンコーダが提供される。本エンコーダは:あらかじめ定義されているラウドネス関数を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得するよう構成されているラウドネス・コンポーネントと;一つまたは複数の呈示データ構造を定義するよう構成されている呈示データ・コンポーネントであって、各呈示データ構造は、複数のコンテンツ・サブストリームのうちの一つまたは複数のコンテンツ・サブストリームへの参照および参照されるコンテンツ・サブストリームの組み合わせを記述するラウドネス・データへの参照を含む、呈示データ・コンポーネントと;前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成するよう構成されている多重化コンポーネントとを有する。
〈III.例示的実施形態〉
図1は、例として、ビットストリームPを処理して、出力オーディオ信号114の所望されるラウドネス・レベルを達成するためのデコーダ100の一般化されたブロック図を示している。
図1は、例として、ビットストリームPを処理して、出力オーディオ信号114の所望されるラウドネス・レベルを達成するためのデコーダ100の一般化されたブロック図を示している。
デコーダ100は、それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームPを受領するよう構成されている受領コンポーネント(図示せず)を有する。
デコーダ100はさらに、ビットストリームPから、一つまたは複数の呈示データ構造104を抽出するよう構成されたデマルチプレクサ102を有する。各呈示データ構造は、前記コンテンツ・サブストリームの少なくとも一つへの参照を含む。換言すれば、呈示データ構造(presentation data structure)または呈示は、どのコンテンツ・サブストリームが組み合わされるべきかの記述である。上記のように、二つ以上の別個のサブストリームにおいて符号化されているコンテンツ・サブストリームが一つの呈示に組み合わされてもよい。
各呈示データ構造はさらに、参照されている一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む。
呈示データ構造の内容およびその種々の参照について、ここで、図4との関連で述べる。
図4では、抽出された一つまたは複数の呈示データ構造104によって参照されうる種々のサブストリーム412、205が示されている。三つの呈示データ構造104のうち、選択された呈示データ構造110が選ばれている。図4から明らかなように、ビットストリームPは、コンテンツ・サブストリーム412、メタデータ・サブストリーム205および前記一つまたは複数の呈示データ構造104を有する。コンテンツ・サブストリーム412は、音楽のためのサブストリーム、効果のためのサブストリーム、周囲音(ambience)のためのサブストリーム、英語のダイアログのためのサブストリーム、スペイン語のダイアログのためのサブストリーム、英語での付随オーディオ(AA: associated audio)、たとえば英語のコメンタリー・トラックのためのサブストリームおよびスペイン語でのAA、たとえばスペイン語のコメンタリー・トラックのためのサブストリームを含んでいてもよい。
図4では、すべてのコンテンツ・サブストリーム412が同じビットストリームPにおいて符号化されているが、上記したように、常にそうでなくてもよい。オーディオ・コンテンツの放送者は、オーディオ・コンテンツをクライアントに、すなわちデコーダに送信するために、単一ビットストリーム構成、たとえばMPEG規格における単一パケット識別子(PID: packet identifier)構成を、あるいは複数ビットストリーム構成、たとえば二PID構成を使ってもよい。
本開示は、呈示層とサブストリーム層の間に存するサブストリーム・グループの形の中間レベルを導入する。コンテンツ・サブストリーム・グループは、一つまたは複数のコンテンツ・サブストリームをグループ化または参照してもよい。すると、呈示は、コンテンツ・サブストリーム・グループを参照しうる。図4では、音楽、効果および周囲音のコンテンツ・サブストリームがグループ化されて、コンテンツ・サブストリーム・グループ410を形成している。これを選択された呈示データ構造110が参照する(404)。
コンテンツ・サブストリーム・グループは、コンテンツ・サブストリームを組み合わせることにおける、さらなる柔軟性をもたらす。特に、サブストリーム・グループ・レベルは、いくつかのコンテンツ・サブストリームを一意的なグループ、たとえば音楽、効果および周囲音を含むグループ410にまとめるまたはグループ化する手段を提供する。
これは、(たとえば音楽および効果のための、あるいは音楽、効果および周囲音のための)コンテンツ・サブストリーム・グループが二つ以上の呈示のために、たとえば英語またはスペイン語のダイアログとの関連で使用できるので、有利でありうる。同様に、あるコンテンツ・サブストリームが、二つ以上のコンテンツ・サブストリーム・グループにおいて使用されることもできる。
さらに、呈示データ構造のシンタックスに依存して、コンテンツ・サブストリーム・グループを使うことは、呈示のために、より多数のコンテンツ・サブストリームを混合する可能性を提供することがありうる。
いくつかの実施形態によれば、呈示104、110は常に一つまたは複数のサブストリーム・グループからなる。
図4における選択された呈示データ構造110は、コンテンツ・サブストリームのうちの一つまたは複数から構成されるコンテンツ・サブストリーム・グループ410への参照404を含む。選択された呈示データ構造110はさらに、スペイン語のダイアログのためのコンテンツ・サブストリームへの参照およびスペイン語でのAAのためのコンテンツ・サブストリームへの参照を含む。さらに、選択された呈示データ構造110は、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データ408を表わすメタデータ・サブストリーム205への参照406を含む。明らかに、前記複数の呈示データ構造104の他の二つの呈示データ構造が、選択された呈示データ構造110と同様のデータを含んでいてもよい。他の実施形態によれば、ビットストリームPは、前記メタデータ・サブストリーム205と同様の追加的なメタデータ・サブストリームを含んでいてもよい。ここで、追加的なメタデータ・サブストリームは他の呈示データ構造から参照される。換言すれば、前記複数の呈示データ構造104の各呈示データ構造が、専用のラウドネス・データを参照してもよい。
選択された呈示データ構造は時間とともに、すなわちユーザーがスペイン語コメンタリー・トラックAA(ES)をオフにすることに決める場合に、変化してもよい。換言すれば、ビットストリームPは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造104のうちの前記選択された呈示データ構造を示すデータ(図1の参照符号108)は、各時間フレームについて独立して割り当て可能である。
上記のように、ビットストリームPは複数の時間フレームを含む。いくつかの実施形態によれば、前記一つまたは複数の呈示データ構造104はビットストリームPの異なる時間セグメントに関係していてもよい。換言すれば、デマルチプレクサ(図1の参照符号102)は、ビットストリームPから、前記複数の時間フレームの第一のものについては、一つまたは複数の呈示データ構造を抽出するよう構成されていて、さらに、ビットストリームPから、前記複数の時間フレームの第二のものについては、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出するよう構成されていてもよい。この場合、前記選択された呈示データ構造を示すデータ(図1における参照符号108)は、それが割り当てられる時間フレームについての、選択された呈示データ構造を示す。
ここで、図1を参照するに、デコーダ100はさらに、再生状態コンポーネント106を有する。再生状態コンポーネント106は、前記一つまたは複数の呈示データ構造104のうち選択された呈示データ構造110を示すデータ108を受領するよう構成される。データ108は、所望されるラウドネス・レベルをも含む。上記したように、データ108は、デコーダ100によってデコードされるオーディオ・コンテンツの消費者によって与えられてもよい。所望されるラウドネス値は、出力オーディオ信号の再生のために使用される再生設備に依存して、デコーダ固有の設定であってもよい。消費者はたとえば、上記から理解されるように、オーディオ・コンテンツがスペイン語のダイアログを含むべきであることを選んでもよい。
デコーダ100はさらに、再生状態コンポーネント106から前記選択された呈示データ構造110を受領し、ビットストリームPから前記選択された呈示データ構造110によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする混合コンポーネントをさらに有する。いくつかの実施形態によれば、選択された呈示データ構造110によって参照される前記一つまたは複数のコンテンツ・サブストリームのみが、混合コンポーネントによってデコードされる。結果として、消費者がたとえばスペイン語のダイアログをもつ呈示を選んだ場合、英語のダイアログを表わすいかなるコンテンツ・サブストリームもデコードされない。これはデコーダ100の計算量を低減する。
混合コンポーネント112は、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成される。
さらに、混合コンポーネント112は、前記選択された呈示データ構造110によって参照されるラウドネス・データに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理して、前記所望されるダイアログ・ラウドネス・レベルを達成するよう構成される。
図2および図3は、混合コンポーネント112の異なる実施形態を記述する。
図2では、ビットストリームPは、サブストリーム・デコード・コンポーネント202によって受領され、サブストリーム・デコード・コンポーネント202は、前記選択された呈示データ構造110に基づいて、前記選択された呈示データ構造110によって参照される前記一つまたは複数のコンテンツ・サブストリーム204を、ビットストリームPからデコードする。次いで、前記一つまたは複数のデコードされたコンテンツ・サブストリーム204は、前記デコードされたコンテンツ・サブストリーム204およびメタデータ・サブストリーム205に基づいて出力オーディオ信号114を形成するコンポーネント206に伝送される。コンポーネント206は、オーディオ出力信号を形成するとき、たとえば、コンテンツ・サブストリーム(単数または複数)204に含まれる時間依存の空間位置データがあればそれを考慮に入れてもよい。コンポーネント206はさらに、メタデータ・サブストリーム205に含まれるDRCデータを考慮に入れてもよい。あるいはまた、ラウドネス・コンポーネント210(後述)が該DRCデータに基づいて出力オーディオ信号114を処理する。いくつかの実施形態では、コンポーネント206は呈示データ構造110から混合係数(後述)を受領して(図2には示さず)、それらを対応するコンテンツ・サブストリーム204に適用する。次いで、出力オーディオ信号114*がラウドネス・コンポーネント210に伝送され、ラウドネス・コンポーネント210は、選択された呈示データ構造110によって参照されるラウドネス・データ(メタデータ・サブストリーム205に含まれる)およびデータ108に含まれる所望されるラウドネス・レベルに基づいて、前記所望されるラウドネス・レベルを達成するよう出力オーディオ信号114*を処理し、こうしてラウドネス処理された出力オーディオ信号114を出力する。
図3では、同様の混合コンポーネント112が示されている。図2で記述した混合コンポーネント112との違いは、出力オーディオ信号を形成するコンポーネント206とラウドネス・コンポーネント210が互いに位置を交換していることである。結果として、ラウドネス・コンポーネント210が、(メタデータ・サブストリーム205に含まれるラウドネス・データに基づいて)前記所望されるラウドネス・レベルを達成するよう前記デコードされた一つまたは複数のコンテンツ・サブストリーム204を処理して、一つまたは複数のラウドネス処理されたコンテンツ・サブストリーム204*を出力する。次いでこれらが出力オーディオ信号を形成するためのコンポーネント206に伝送されて、コンポーネント206がラウドネス処理された出力オーディオ信号114を出力する。図2との関連で述べたように、(メタデータ・サブストリーム205に含まれる)DRCデータは、コンポーネント206において、あるいはラウドネス・コンポーネント210においてのいずれかで適用されうる。さらに、いくつかの実施形態では、コンポーネント206は呈示データ構造110から混合係数(後述)を受領し(図3には示さず)、これらの係数を対応するコンテンツ・サブストリーム204*に適用する。
前記一つまたは複数の呈示データ構造104のそれぞれは、デコードされたときに呈示データ構造によって参照されるコンテンツ・サブストリームのラウドネスが実際にどうなるかを示す専用のラウドネス・データを含む。いくつかの実施形態によれば、ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティング(gating)を適用する値を表わす。たとえば、ラウドネス・データが帯域制限する(band-limiting)ラウドネス関数に基づく場合、雑音のみを含む周波数帯域は無視されうるので、オーディオ入力信号の背景雑音は、ラウドネス・データを計算するときに考慮に入れられない。
さらに、ラウドネス・データは、ラウドネス関数の、オーディオ入力信号の、ダイアログを表わす時間セグメントに関係する値を表わしてもよい。これはATSC A/85規格に沿ったもので、同規格ではdialnormは明示的にダイアログのラウドネスに関して定義されている(アンカー要素):「dialnormパラメータの値はコンテンツのアンカー要素のラウドネスを示す」。
前記選択された呈示データ構造によって参照されるラウドネス・データに基づく、前記所望されるラウドネス・レベルORLを達成するための前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の処理、あるいは出力オーディオ信号の平準化(leveling)gLは、こうして、上記に従って計算される呈示(presentation)のdialnorm、DN(pres)を使って実行されうる:
gL=ORL-DN(pres)
ここで、DN(pres)およびORLは典型的にはいずれもdBFS(フルスケール1kHz正弦波(または矩形波)を基準とするdB)で表現される値である。
gL=ORL-DN(pres)
ここで、DN(pres)およびORLは典型的にはいずれもdBFS(フルスケール1kHz正弦波(または矩形波)を基準とするdB)で表現される値である。
いくつかの実施形態によれば、前記選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、前記選択された呈示データ構造はさらに、前記二つ以上のコンテンツ・サブストリームに適用されるべき少なくとも一つの混合係数を参照する。混合係数(単数または複数)は、選択された呈示によって参照されるコンテンツ・サブストリーム間の修正された相対ラウドネス・レベルを提供するために使用されうる。これらの混合係数は、コンテンツ・サブストリーム内のチャネル/オブジェクトを他のコンテンツ・サブストリーム(単数または複数)内のチャネル/オブジェクトと混合する前に、該コンテンツ・サブストリーム内のチャネル/オブジェクトに広帯域利得として適用されてもよい。
少なくとも一つの混合係数は典型的には静的であるが、ビットストリームの各時間フレームについて独立して割り当て可能であってもよい。たとえばダッキングを達成するためである。
結果として、混合係数は、ビットストリームにおいて各時間フレームについて伝送される必要がない。上書きされるまで有効であり続けることができる。
混合係数はコンテンツ・サブストリーム毎に定義されてもよい。換言すれば、選択された呈示データ構造は、前記二つ以上のサブストリームの各サブストリームについて、対応するサブストリームに適用されるべき一つの混合係数を参照してもよい。
他の実施形態によれば、混合係数はコンテンツ・サブストリーム・グループ毎に定義され、コンテンツ・サブストリーム・グループ内のすべてのコンテンツ・サブストリームに適用されてもよい。換言すれば、前記選択された呈示データ構造は、コンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成するコンテンツ・サブストリームのうち前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する。
さらにもう一つの実施形態によれば、前記選択された呈示データ構造は、前記二つ以上のコンテンツ・サブストリームのそれぞれに適用される単一の混合係数を参照してもよい。
下記の表1は、オブジェクト伝送の例を示している。オブジェクトは、いくつかのサブストリームにわたって分配されるカテゴリーにクラスタリングされている。すべての呈示データ構造は、ダイアログなしのオーディオ・コンテンツの主要部分を含む音楽および効果を組み合わせる。よって、この組み合わせは、コンテンツ・サブストリーム・グループである。選択された呈示データ構造に依存して、ある言語が選ばれる。たとえば英語(D#1)またはスペイン語D#2である。さらに、コンテンツ・サブストリームは英語での一つの付随オーディオ・サブストリーム(Desc#1)およびスペイン語での一つの付随オーディオ・サブストリーム(Desc#2)を含む。付随オーディオ(associated audio)は、オーディオ説明(audio description)、耳が遠い人のためのナレーター、視覚障害者のためのナレーター、コメンタリー・トラックなどといった向上オーディオ(enhancement audio)を含んでいてもよい。
文化的な選好のため、カテゴリー間での異なるバランスが要求されることがある。これは呈示2において例示されている。スペイン語地域は音楽に対してそれほど注意を欲しない状況を考えられたい。したがって、音楽サブストリームは3dB減衰させられる。この例では、呈示2は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する。
呈示3は、視覚障害者のためのスペイン語説明ストリームを含んでいる。このストリームはブースで録音されたものであり、そのまま呈示に混合するには大きすぎるので、6dB減衰させられる。この例では、呈示3は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する。
呈示4では、音楽サブストリームおよび効果サブストリームの両方が3dB減衰させられる。この場合、呈示4は、M&Eサブストリーム・グループについては、該M&Eサブストリーム・グループを構成するコンテンツ・サブストリームの前記一つまたは複数のそれぞれに適用されるべき単一の混合係数を参照する。
いくつかの実施形態によれば、オーディオ・コンテンツのユーザーまたは消費者は、出力オーディオ信号が前記選択された呈示データ構造から逸脱するようユーザー入力を提供することができる。たとえば、ユーザーによってダイアログ向上またはダイアログ減衰が要求されてもよく、あるいはユーザーは何らかの種類のシーン・パーソナル化、たとえば効果音のボリュームの増大などを実行したいことがありうる。換言すれば、出力オーディオ信号を形成するために二つ以上のデコードされたコンテンツ・サブストリームを組み合わせるときに使われる代替的な混合係数が提供されてもよい。これは、オーディオ出力信号のラウドネス・レベルに影響することがある。この場合にラウドネス一貫性を提供するために、デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含んでいてもよい。次いで、サブストリーム・レベルのラウドネス・データは、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われてもよい。
サブストリーム・レベルでのラウドネス・データは、呈示データ構造によって参照されるラウドネス・データと同様であってもよく、有利には、任意的にはコンテンツ・サブストリームにおける概してより静かな信号をカバーするためにより大きなレンジを用いて、ラウドネス関数の値を表現していてもよい。
ラウドネス一貫性を達成するためにこのデータを使う多くの仕方がある。下記のアルゴリズムは例として示される。
DN(P)が呈示dialnormであり、DN(Si)がサブストリームiのサブストリーム・ラウドネスであるとする。
デコーダが、音楽コンテンツ・サブストリームSMおよび効果コンテンツ・サブストリームSEを一つのコンテンツ・サブストリーム・グループSM&Eとして、さらにはダイアログ・コンテンツ・サブストリームSDを参照する呈示に基づいてオーディオ出力信号を形成するところであり、9dBのダイアログ向上(dialog enhancement)DEを適用しつつ一貫したラウドネスを保ちたい場合、デコーダは、コンテンツ・サブストリーム・ラウドネス値を加算すること:
によって、DEがある場合の新たな呈示ラウドネスDN(PDE)を予測することができる。
上記のように、呈示ラウドネスを近似するときにサブストリーム・ラウドネスのそのような加算を実行することは、実際のラウドネスとは非常に異なるラウドネスを生じることがある。よって、代替は、DEなしで近似を計算し、実際のラウドネスからのオフセットを見出すことである。
いくつかの実施形態によれば、呈示データ構造によって参照されるDRCデータは複数のDRCプロファイルに対応する。これらのDRCプロファイルは、それが適用される特定のオーディオ信号に対してカスタム仕立てにされる。これらのプロファイルは、圧縮なし(「なし」)から、かなり軽度の圧縮(たとえば、「ミュージック・ライト(Music Light)」)から非常に積極的な圧縮(たとえば「スピーチ(Speech)」)までの範囲がありうる。結果として、DRCデータは、複数セットのDRC利得または該複数セットのDRC利得が得られるもとになる複数の圧縮曲線を含んでいてもよい。
参照されるDRCデータは、諸実施形態によれば、図4のメタデータ・サブストリーム205に含まれていてもよい。
ビットストリームPは、いくつかの実施形態によれば、二つ以上の別個のビットストリームを含んでいてもよく、諸コンテンツ・サブストリームはこの場合、異なるビットストリーム中に符号化されてもよいことを注意しておくべきである。前記一つまたは複数の呈示データ構造は、この場合、有利には、別個のビットストリームのすべてに含まれ、つまり、それぞれの別個のビットストリームについて一つあるいくつかのデコーダが別個にかつ全く独立して、選択された呈示データ構造によって参照されるコンテンツ・サブストリームをデコードするために機能できる(また、各別個のデコーダに与えられる)。いくつかの実施形態によれば、それらのデコーダは並列に機能できる。各別個のデコーダは、それが受け取る別個のビットストリームに存在するサブストリームをデコードする。諸実施形態によれば、所望されるラウドネス・レベルを達成するために、各別個のデコーダは、それがデコードしたコンテンツ・サブストリームの処理を実行する。次いで、処理されたコンテンツ・サブストリームはさらなる混合コンポーネントに与えられて、該さらなる混合コンポーネントが所望されるラウドネス・レベルをもつ出力オーディオ信号を形成する。
他の実施形態によれば、各別個のデコーダはそのデコードされた、未処理のサブストリームを前記さらなる混合コンポーネントに与え、該さらなる混合コンポーネントが、ラウドネス処理を実行し、次いで選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームの全部から出力オーディオ信号を形成する、あるいは、まず前記一つまたは複数のコンテンツ・サブストリームを混合し、混合された信号に対してラウドネス処理を実行する。他の実施形態によれば、各別個のデコーダは、そのデコードされたサブストリームの二つ以上に対して混合動作を実行する。次いで、さらなる混合コンポーネントが、別個のデコーダの事前混合された寄与を混合する。
図5は、図6との関連で、例として、オーディオ・エンコーダ500を示す。エンコーダ500は、一つまたは複数の呈示データ構造506を定義するよう構成されている呈示データ・コンポーネント504を有し、各呈示データ構造は、複数のコンテンツ・サブストリーム502のうちの一つまたは複数のコンテンツ・サブストリーム612への参照604、605および参照されるコンテンツ・サブストリーム612の組み合わせを記述するラウドネス・データ510への参照608を含む。エンコーダ500はさらに、あらかじめ定義されているラウドネス関数514を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データ510を取るよう構成されているラウドネス・コンポーネント508を有する。エンコーダはさらに、前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造506および前記一つまたは複数の呈示データ構造506によって参照される前記ラウドネス・データ510を含むビットストリームPを形成するよう構成されている多重化コンポーネント512を有する。ラウドネス・データ510は典型的にはいくつかのラウドネス・データ・インスタンスを含み、前記一つまたは複数の呈示データ構造506のそれぞれについて一つのインスタンスがある。
エンコーダ500はさらに、前記一つまたは複数の呈示データ構造506のそれぞれについて、参照された一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮DRCデータを決定するよう適応されていてもよい。DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する。DRCデータはビットストリームPに含められる。DRCデータおよびラウドネス・データ510は、諸実施形態によれば、メタデータ・サブストリーム614に含められてもよい。上記で論じたように、ラウドネス・データは典型的には呈示に依存する。さらに、DRCデータも呈示依存であってもよい。これらの場合、特定の呈示データ構造についてのラウドネス・データおよび該当するならDRCデータは、その特定の呈示データ構造についての専用のメタデータ・サブストリーム614に含められる。
エンコーダはさらに、前記複数のコンテンツ・サブストリーム502のそれぞれについて、前記あらかじめ定義されたラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得し;前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含めるよう適応されていてもよい。前記あらかじめ定義されたラウドネス関数は、オーディオ信号のゲーティングに関係していてもよい。他の実施形態によれば、前記あらかじめ定義されたラウドネス関数は、オーディオ信号の、ダイアログを表わす時間セグメントのみに関係していてもよい。前記あらかじめ定義されたラウドネス関数は、いくつかの実施形態によれば:
・前記オーディオ信号の周波数依存の重み付け、
・前記オーディオ信号のチャネル依存の重み付け、
・前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、
・前記オーディオ信号の、発話として検出されないセグメントの無視、
・前記オーディオ信号のエネルギー/パワー/二乗平均平方根の測度の計算のうちの少なくとも一つを含んでいてもよい。
・前記オーディオ信号の周波数依存の重み付け、
・前記オーディオ信号のチャネル依存の重み付け、
・前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、
・前記オーディオ信号の、発話として検出されないセグメントの無視、
・前記オーディオ信号のエネルギー/パワー/二乗平均平方根の測度の計算のうちの少なくとも一つを含んでいてもよい。
上記から理解されるように、ラウドネス関数は非線形である。つまり、ラウドネス・データが異なるコンテンツ・サブストリームから計算されただけであった場合には、ある呈示についてのラウドネスは、参照されるコンテンツ・サブストリームのラウドネス・データを足し合わせることによって計算されることはできない。さらに、異なるオーディオ・トラック、すなわちコンテンツ・サブストリームを同時再生のために一緒に組み合わせるとき、異なるオーディオ・トラックのコヒーレント/インコヒーレント部分の間の、あるいは異なる周波数領域における組み合わされた効果が現われることがあり、これのためさらに、オーディオ・トラックについてのラウドネス・データの加算は数学的に不可能になる。
〈IV.等価物、拡張、代替その他〉
上記の記述を吟味したのちには本開示のさらなる実施形態が当業者には明白となるであろう。本記述および図面は実施形態および例を開示しているが、本開示はそうした特定の例に制約されるものではない。数多くの修正および変形が、付属の請求項によってのみ定義される本開示の範囲から外れることなく、なされることができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
上記の記述を吟味したのちには本開示のさらなる実施形態が当業者には明白となるであろう。本記述および図面は実施形態および例を開示しているが、本開示はそうした特定の例に制約されるものではない。数多くの修正および変形が、付属の請求項によってのみ定義される本開示の範囲から外れることなく、なされることができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する際に、当業者によって開示される実施形態への変形が理解され、実施されることができる。請求項において、単語「有する/含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。
上記で開示された装置および方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理する方法であって:
前記ビットストリームから、一つまたは複数の呈示データ構造を抽出する段階であって、各呈示データ構造は前記コンテンツ・サブストリームのうち一つまたは複数への参照を含み、各呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、段階と;
前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領する段階と;
前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階と;
デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成する段階とを含み、
当該方法はさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含む、
方法。
〔態様2〕
前記選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、これらに適用されるべき少なくとも二つの混合係数をさらに参照し、
出力オーディオ信号の前記形成は、前記混合係数(単数または複数)を適用することによって、前記デコードされた一つまたは複数のコンテンツ・サブストリームを加法的に混合することをさらに含む、
態様1記載の方法。
〔態様3〕
前記ビットストリームは複数の時間フレームを含み、前記選択された呈示データ構造によって参照される混合係数(単数または複数)は、各時間フレームについて独立して割り当て可能である、態様2記載の方法。
〔態様4〕
前記選択された呈示データ構造は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する、態様2または3記載の方法。
〔態様5〕
前記ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティングの適用に関する値を表わす、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号のダイアログを表わす時間セグメントに関係する値を表わす、態様5記載の方法。
〔態様7〕
前記呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データへの参照を含み、
当該方法はさらに、前記DRCデータに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含み、該処理は、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号に一つまたは複数のDRC利得を適用することを含む、
態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
前記DRCデータは、前記一つまたは複数のDRC利得の少なくとも一つの集合を含む、態様7記載の方法。
〔態様9〕
前記DRCデータは少なくとも一つの圧縮曲線を含み、前記一つまたは複数のDRC利得は:
あらかじめ定義されたラウドネス関数を使って前記参照される一つまたは複数のコンテンツ・サブストリームまたは前記オーディオ出力信号の一つまたは複数のラウドネス値を計算し、
前記圧縮曲線を使って前記一つまたは複数のラウドネス値をDRC利得にマッピングすることによって得られる、
態様7記載の方法。
〔態様10〕
ラウドネス値の前記マッピングは、前記DRC利得の平滑化動作を含む、態様9記載の方法。
〔態様11〕
前記参照されるDRCデータは、前記メタデータ・サブストリームに含まれる、態様7ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含み、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の前記処理は、さらに、前記コンテンツ・サブストリームのラウドネス・レベルに基づいてラウドネス一貫性を提供することを含む、態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
出力オーディオ信号の前記形成が、代替的な混合係数を使って二つ以上のデコードされたコンテンツ・サブストリームを組み合わせることを含み、前記サブストリーム・レベルのラウドネス・データが、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われる、態様12記載の方法。
〔態様14〕
前記代替的な混合係数が:ダイアログ向上およびダイアログ減衰の一方に関する、態様13記載の方法。
〔態様15〕
前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照である、態様1ないし14のうちいずれか一項記載の方法。
〔態様16〕
前記選択された呈示データ構造は、あるコンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成する前記コンテンツ・サブストリームのうちの前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する、態様15が態様2を引用する場合の態様15記載の方法。
〔態様17〕
前記ビットストリームは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造のうちの前記選択された呈示データ構造を示すデータは、各時間フレームについて独立して割り当て可能である、態様1ないし16のうちいずれか一項記載の方法。
〔態様18〕
前記ビットストリームから、前記複数の時間フレームの第一のものについて、一つまたは複数の呈示データ構造を抽出し、
前記ビットストリームから、前記複数の時間フレームの第二のものについて、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出することを含み、
前記選択された呈示データ構造を示すデータは、それが割り当てられている時間フレームについての選択された呈示データ構造を示す、
態様17記載の方法。
〔態様19〕
前記ビットストリームに含まれる前記複数のコンテンツ・サブストリームから、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームのみがデコードされる、態様1ないし18のうちいずれか一項記載の方法。
〔態様20〕
前記ビットストリームは、それぞれ前記複数のコンテンツ・サブストリームのうち少なくとも一つを含む二つ以上の別個のビットストリームを含み、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階は:
前記二つ以上の別個のビットストリームの各特定のビットストリームについて、その特定のビットストリームに含まれる参照されているコンテンツ・サブストリームからコンテンツ・サブストリーム(単数または複数)を別個にデコードすることを含む、
態様1ないし19のうちいずれか一項記載の方法。
〔態様21〕
それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理するためのデコーダであって:
前記ビットストリームを受領するよう構成された受領コンポーネントと;
前記ビットストリームから、一つまたは複数の呈示データ構造を抽出するよう構成されたデマルチプレクサであって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、さらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、デマルチプレクサと;
前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領するよう構成された再生状態コンポーネントと;
前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードし、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成された混合コンポーネントとを有し、
前記混合コンポーネントはさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理するよう構成されている、
デコーダ。
〔態様22〕
オーディオ・エンコード方法であって:
それぞれのオーディオ信号を表わす複数のコンテンツ・サブストリームを受領し;
それぞれ前記複数のコンテンツ・サブストリームのうちの少なくとも一つを参照する一つまたは複数の呈示データ構造を定義し;
前記一つまたは複数の呈示データ構造のそれぞれについて、あらかじめ定義されているラウドネス関数を適用して、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得し、前記呈示データ構造から前記ラウドネス・データへの参照(608)を含め;
前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成することを含む、
方法。
〔態様23〕
前記一つまたは複数の呈示データ構造のそれぞれについて、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データを決定する段階であって、該DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する、段階と、
前記DRCデータを前記ビットストリームに含める段階とをさらに含む、
態様22記載の方法。
〔態様24〕
前記複数のコンテンツ・サブストリームのそれぞれについて、前記あらかじめ定義されているラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得する段階と;
前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含める段階とをさらに含む、
態様22または23記載の方法。
〔態様25〕
前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号のゲーティングに関係する、態様22ないし24のうちいずれか一項記載の方法。
〔態様26〕
前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号の、ダイアログを表わす時間セグメントのみに関係する、態様25記載の方法。
〔態様27〕
前記あらかじめ定義されているラウドネス関数は:
前記オーディオ信号の周波数依存の重み付け、
前記オーディオ信号のチャネル依存の重み付け、
前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、
前記オーディオ信号のエネルギー測度の計算のうちの少なくとも一つを含む、
態様22ないし26のうちいずれか一項記載の方法。
〔態様28〕
あらかじめ定義されているラウドネス関数を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得するよう構成されているラウドネス・コンポーネントと;
一つまたは複数の呈示データ構造を定義するよう構成されている呈示データ・コンポーネントであって、各呈示データ構造は、複数のコンテンツ・サブストリームのうちの一つまたは複数のコンテンツ・サブストリームへの参照および参照されるコンテンツ・サブストリームの組み合わせを記述するラウドネス・データへの参照を含む、呈示データ・コンポーネントと;
前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造および前記一つまたは複数の呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成するよう構成されている多重化コンポーネントとを有する、
オーディオ・エンコーダ。
〔態様29〕
態様1ないし20および22ないし27のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様1〕
それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理する方法であって:
前記ビットストリームから、一つまたは複数の呈示データ構造を抽出する段階であって、各呈示データ構造は前記コンテンツ・サブストリームのうち一つまたは複数への参照を含み、各呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、段階と;
前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領する段階と;
前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階と;
デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成する段階とを含み、
当該方法はさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含む、
方法。
〔態様2〕
前記選択された呈示データ構造は二つ以上のコンテンツ・サブストリームを参照し、これらに適用されるべき少なくとも二つの混合係数をさらに参照し、
出力オーディオ信号の前記形成は、前記混合係数(単数または複数)を適用することによって、前記デコードされた一つまたは複数のコンテンツ・サブストリームを加法的に混合することをさらに含む、
態様1記載の方法。
〔態様3〕
前記ビットストリームは複数の時間フレームを含み、前記選択された呈示データ構造によって参照される混合係数(単数または複数)は、各時間フレームについて独立して割り当て可能である、態様2記載の方法。
〔態様4〕
前記選択された呈示データ構造は、前記二つ以上のサブストリームの各サブストリームについて、それぞれのサブストリームに適用されるべき一つの混合係数を参照する、態様2または3記載の方法。
〔態様5〕
前記ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号へのゲーティングの適用に関する値を表わす、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記ラウドネス・データは、ラウドネス関数の、そのオーディオ入力信号のダイアログを表わす時間セグメントに関係する値を表わす、態様5記載の方法。
〔態様7〕
前記呈示データ構造はさらに、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データへの参照を含み、
当該方法はさらに、前記DRCデータに基づいて、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理することを含み、該処理は、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号に一つまたは複数のDRC利得を適用することを含む、
態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
前記DRCデータは、前記一つまたは複数のDRC利得の少なくとも一つの集合を含む、態様7記載の方法。
〔態様9〕
前記DRCデータは少なくとも一つの圧縮曲線を含み、前記一つまたは複数のDRC利得は:
あらかじめ定義されたラウドネス関数を使って前記参照される一つまたは複数のコンテンツ・サブストリームまたは前記オーディオ出力信号の一つまたは複数のラウドネス値を計算し、
前記圧縮曲線を使って前記一つまたは複数のラウドネス値をDRC利得にマッピングすることによって得られる、
態様7記載の方法。
〔態様10〕
ラウドネス値の前記マッピングは、前記DRC利得の平滑化動作を含む、態様9記載の方法。
〔態様11〕
前記参照されるDRCデータは、前記メタデータ・サブストリームに含まれる、態様7ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記デコードされた一つまたは複数のコンテンツ・サブストリームのそれぞれは、そのコンテンツ・サブストリームのラウドネス・レベルを記述するサブストリーム・レベルでのラウドネス・データを含み、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号の前記処理は、さらに、前記コンテンツ・サブストリームのラウドネス・レベルに基づいてラウドネス一貫性を提供することを含む、態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
出力オーディオ信号の前記形成が、代替的な混合係数を使って二つ以上のデコードされたコンテンツ・サブストリームを組み合わせることを含み、前記サブストリーム・レベルのラウドネス・データが、ラウドネス一貫性を提供するためにラウドネス・データを補償するために使われる、態様12記載の方法。
〔態様14〕
前記代替的な混合係数が:ダイアログ向上およびダイアログ減衰の一方に関する、態様13記載の方法。
〔態様15〕
前記コンテンツ・サブストリームのうち少なくとも一つへの参照は、前記コンテンツ・サブストリームのうち一つまたは複数からなる少なくとも一つのコンテンツ・サブストリーム・グループへの参照である、態様1ないし14のうちいずれか一項記載の方法。
〔態様16〕
前記選択された呈示データ構造は、あるコンテンツ・サブストリーム・グループについて、そのサブストリーム・グループを構成する前記コンテンツ・サブストリームのうちの前記一つまたは複数のそれぞれに適用される単一の混合係数を参照する、態様15が態様2を引用する場合の態様15記載の方法。
〔態様17〕
前記ビットストリームは複数の時間フレームを含み、前記一つまたは複数の呈示データ構造のうちの前記選択された呈示データ構造を示すデータは、各時間フレームについて独立して割り当て可能である、態様1ないし16のうちいずれか一項記載の方法。
〔態様18〕
前記ビットストリームから、前記複数の時間フレームの第一のものについて、一つまたは複数の呈示データ構造を抽出し、
前記ビットストリームから、前記複数の時間フレームの第二のものについて、前記複数の時間フレームの前記第一のものから抽出された前記一つまたは複数の呈示データ構造とは異なる一つまたは複数の呈示データ構造を抽出することを含み、
前記選択された呈示データ構造を示すデータは、それが割り当てられている時間フレームについての選択された呈示データ構造を示す、
態様17記載の方法。
〔態様19〕
前記ビットストリームに含まれる前記複数のコンテンツ・サブストリームから、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームのみがデコードされる、態様1ないし18のうちいずれか一項記載の方法。
〔態様20〕
前記ビットストリームは、それぞれ前記複数のコンテンツ・サブストリームのうち少なくとも一つを含む二つ以上の別個のビットストリームを含み、前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードする段階は:
前記二つ以上の別個のビットストリームの各特定のビットストリームについて、その特定のビットストリームに含まれる参照されているコンテンツ・サブストリームからコンテンツ・サブストリーム(単数または複数)を別個にデコードすることを含む、
態様1ないし19のうちいずれか一項記載の方法。
〔態様21〕
それぞれオーディオ信号を表わす複数のコンテンツ・サブストリームを含むビットストリームを処理するためのデコーダであって:
前記ビットストリームを受領するよう構成された受領コンポーネントと;
前記ビットストリームから、一つまたは複数の呈示データ構造を抽出するよう構成されたデマルチプレクサであって、各呈示データ構造は前記コンテンツ・サブストリームのうち少なくとも一つへの参照を含み、さらに、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを表わすメタデータ・サブストリームへの参照を含む、デマルチプレクサと;
前記一つまたは複数の呈示データ構造のうちのある選択された呈示データ構造および所望されるラウドネス・レベルを示すデータを受領するよう構成された再生状態コンポーネントと;
前記選択された呈示データ構造によって参照される前記一つまたは複数のコンテンツ・サブストリームをデコードし、デコードされたコンテンツ・サブストリームに基づいて出力オーディオ信号を形成するよう構成された混合コンポーネントとを有し、
前記混合コンポーネントはさらに、前記選択された呈示データ構造によって参照されるラウドネス・データに基づいて、前記所望されるラウドネス・レベルを達成するよう、前記デコードされた一つまたは複数のコンテンツ・サブストリームまたは前記出力オーディオ信号を処理するよう構成されている、
デコーダ。
〔態様22〕
オーディオ・エンコード方法であって:
それぞれのオーディオ信号を表わす複数のコンテンツ・サブストリームを受領し;
それぞれ前記複数のコンテンツ・サブストリームのうちの少なくとも一つを参照する一つまたは複数の呈示データ構造を定義し;
前記一つまたは複数の呈示データ構造のそれぞれについて、あらかじめ定義されているラウドネス関数を適用して、参照される一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得し、前記呈示データ構造から前記ラウドネス・データへの参照(608)を含め;
前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造およびそれらの呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成することを含む、
方法。
〔態様23〕
前記一つまたは複数の呈示データ構造のそれぞれについて、参照される一つまたは複数のコンテンツ・サブストリームについてのダイナミックレンジ圧縮(DRC)データを決定する段階であって、該DRCデータは、少なくとも一つの所望される圧縮曲線または少なくとも一組のDRC利得を定量化する、段階と、
前記DRCデータを前記ビットストリームに含める段階とをさらに含む、
態様22記載の方法。
〔態様24〕
前記複数のコンテンツ・サブストリームのそれぞれについて、前記あらかじめ定義されているラウドネス関数を適用して、そのコンテンツ・サブストリームのサブストリーム・レベルでのラウドネス・データを取得する段階と;
前記サブストリーム・レベルでのラウドネス・データを前記ビットストリームに含める段階とをさらに含む、
態様22または23記載の方法。
〔態様25〕
前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号のゲーティングに関係する、態様22ないし24のうちいずれか一項記載の方法。
〔態様26〕
前記あらかじめ定義されているラウドネス関数は、前記オーディオ信号の、ダイアログを表わす時間セグメントのみに関係する、態様25記載の方法。
〔態様27〕
前記あらかじめ定義されているラウドネス関数は:
前記オーディオ信号の周波数依存の重み付け、
前記オーディオ信号のチャネル依存の重み付け、
前記オーディオ信号の、閾値未満の信号パワーをもつセグメントの無視、
前記オーディオ信号のエネルギー測度の計算のうちの少なくとも一つを含む、
態様22ないし26のうちいずれか一項記載の方法。
〔態様28〕
あらかじめ定義されているラウドネス関数を適用して、それぞれのオーディオ信号を表わす一つまたは複数のコンテンツ・サブストリームの組み合わせを記述するラウドネス・データを取得するよう構成されているラウドネス・コンポーネントと;
一つまたは複数の呈示データ構造を定義するよう構成されている呈示データ・コンポーネントであって、各呈示データ構造は、複数のコンテンツ・サブストリームのうちの一つまたは複数のコンテンツ・サブストリームへの参照および参照されるコンテンツ・サブストリームの組み合わせを記述するラウドネス・データへの参照を含む、呈示データ・コンポーネントと;
前記複数のコンテンツ・サブストリーム、前記一つまたは複数の呈示データ構造および前記一つまたは複数の呈示データ構造によって参照される前記ラウドネス・データを含むビットストリームを形成するよう構成されている多重化コンポーネントとを有する、
オーディオ・エンコーダ。
〔態様29〕
態様1ないし20および22ないし27のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
Claims (12)
- デコード装置によって、エンコードされたビットストリームを取得する段階と;
前記デコード装置によって、前記エンコードされたビットストリームからオーディオ信号およびメタデータを抽出する段階であって、前記メタデータは圧縮曲線データおよびラウドネス・データを含み、前記圧縮曲線データは複数のダイナミックレンジ(DRC)プロファイルのうちの1つに対応する圧縮曲線を示す、段階と;
前記デコード装置によって、前記ラウドネス・データを使って一つまたは複数のラウドネス値を生成する段階と;
前記デコード装置によって、前記圧縮曲線データを使って前記一つまたは複数のラウドネス値をDRC利得にマッピングする段階と;
前記デコード装置によって、前記DRC利得を前記オーディオ信号に適用する段階とを含む、
方法。 - 前記DRC利得がチャネルのグループに適用される、請求項1記載の方法。
- 前記ラウドネス・データの少なくとも一部が、チャネルのグループ内の特定のチャネルに関連付けられる、請求項2記載の方法。
- 前記ラウドネス・データが、前記オーディオ信号のチャネル依存の重み付けを含むラウドネス関数を含む、請求項1記載の方法。
- 前記ラウドネス値をDRC利得にマッピングすることが、発話であるとして検出されない前記オーディオ信号のセグメントを破棄することを含む、請求項1記載の方法。
- 一つまたは複数のプロセッサと;
前記一つまたは複数のプロセッサによって実行されたときに前記一つまたは複数のプロセッサに動作を実行させる命令を記憶しているメモリとを有するデコード装置であって、前記動作は:
エンコードされたビットストリームを取得する段階と;
前記エンコードされたビットストリームからオーディオ信号およびメタデータを抽出する段階であって、前記メタデータは圧縮曲線データおよびラウドネス・データを含み、前記圧縮曲線データは複数のダイナミックレンジ圧縮(DRC)プロファイルのうちの1つに対応する圧縮曲線を示す、段階と;
前記ラウドネス・データを使って一つまたは複数のラウドネス値を生成する段階と;
前記圧縮曲線データを使って前記一つまたは複数のラウドネス値をDRC利得にマッピングする段階と;
前記DRC利得を前記オーディオ信号に適用する段階とを含む、
デコード装置。 - 前記DRC利得がチャネルのグループに適用される、請求項6記載のデコード装置。
- 前記ラウドネス・データの少なくとも一部が、チャネルのグループ内の特定のチャネルに関連付けられる、請求項7記載のデコード装置。
- 前記ラウドネス・データが、前記オーディオ信号のチャネル依存の重み付けを含むラウドネス関数を含む、請求項6記載のデコード装置。
- 前記ラウドネス値をDRC利得にマッピングすることが、発話であるとして検出されない前記オーディオ信号のセグメントを破棄することを含む、請求項6記載のデコード装置。
- 一つまたは複数のプロセッサによって実行されたときに前記一つまたは複数のプロセッサに請求項1ないし5のうちいずれか一項に記載の方法を実行させる命令が記憶されている非一時的なコンピュータ可読記憶媒体。
- コンピュータ上で実行されたときに請求項1ないし5のうちいずれか一項に記載の方法を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462062479P | 2014-10-10 | 2014-10-10 | |
US62/062,479 | 2014-10-10 | ||
JP2020081044A JP7023313B2 (ja) | 2014-10-10 | 2020-05-01 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2022017625A JP7350111B2 (ja) | 2014-10-10 | 2022-02-08 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022017625A Division JP7350111B2 (ja) | 2014-10-10 | 2022-02-08 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023166543A true JP2023166543A (ja) | 2023-11-21 |
Family
ID=54364679
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017518908A Active JP6676047B2 (ja) | 2014-10-10 | 2015-10-06 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2020041513A Active JP6701465B1 (ja) | 2014-10-10 | 2020-03-11 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2020081044A Active JP7023313B2 (ja) | 2014-10-10 | 2020-05-01 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2022017625A Active JP7350111B2 (ja) | 2014-10-10 | 2022-02-08 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2023147277A Pending JP2023166543A (ja) | 2014-10-10 | 2023-09-12 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
Family Applications Before (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017518908A Active JP6676047B2 (ja) | 2014-10-10 | 2015-10-06 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2020041513A Active JP6701465B1 (ja) | 2014-10-10 | 2020-03-11 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2020081044A Active JP7023313B2 (ja) | 2014-10-10 | 2020-05-01 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
JP2022017625A Active JP7350111B2 (ja) | 2014-10-10 | 2022-02-08 | 伝送に関知しない呈示ベースのプログラム・ラウドネス |
Country Status (6)
Country | Link |
---|---|
US (4) | US10453467B2 (ja) |
EP (3) | EP3518236B8 (ja) |
JP (5) | JP6676047B2 (ja) |
CN (4) | CN112185401A (ja) |
ES (1) | ES2916254T3 (ja) |
WO (1) | WO2016057530A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
WO2016057530A1 (en) * | 2014-10-10 | 2016-04-14 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
AU2016269886B2 (en) * | 2015-06-02 | 2020-11-12 | Sony Corporation | Transmission device, transmission method, media processing device, media processing method, and reception device |
EP3753105B1 (en) | 2018-02-15 | 2023-01-11 | Dolby Laboratories Licensing Corporation | Loudness control methods and devices |
EP3827429A4 (en) * | 2018-07-25 | 2022-04-20 | Dolby Laboratories Licensing Corporation | COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE |
EP3803861B1 (en) * | 2019-08-27 | 2022-01-19 | Dolby Laboratories Licensing Corporation | Dialog enhancement using adaptive smoothing |
CN114430812B (zh) | 2019-09-17 | 2024-03-12 | 佳能株式会社 | 盒和图像形成装置 |
Family Cites Families (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5612900A (en) * | 1995-05-08 | 1997-03-18 | Kabushiki Kaisha Toshiba | Video encoding method and system which encodes using a rate-quantizer model |
JPH10187190A (ja) | 1996-12-25 | 1998-07-14 | Victor Co Of Japan Ltd | 音響信号処理方法及び音響信号処理装置 |
JP3196778B1 (ja) * | 2001-01-18 | 2001-08-06 | 日本ビクター株式会社 | 音声符号化方法及び音声復号化方法 |
GB2373975B (en) | 2001-03-30 | 2005-04-13 | Sony Uk Ltd | Digital audio signal processing |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7072477B1 (en) | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7551745B2 (en) | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7398207B2 (en) * | 2003-08-25 | 2008-07-08 | Time Warner Interactive Video Group, Inc. | Methods and systems for determining audio loudness levels in programming |
US8131134B2 (en) * | 2004-04-14 | 2012-03-06 | Microsoft Corporation | Digital media universal elementary stream |
US7587254B2 (en) * | 2004-04-23 | 2009-09-08 | Nokia Corporation | Dynamic range control and equalization of digital audio using warped processing |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7729673B2 (en) | 2004-12-30 | 2010-06-01 | Sony Ericsson Mobile Communications Ab | Method and apparatus for multichannel signal limiting |
TWI397903B (zh) * | 2005-04-13 | 2013-06-01 | Dolby Lab Licensing Corp | 編碼音訊之節約音量測量技術 |
TW200638335A (en) * | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
CN101410892B (zh) * | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
RU2417514C2 (ru) * | 2006-04-27 | 2011-04-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
US20080025530A1 (en) | 2006-07-26 | 2008-01-31 | Sony Ericsson Mobile Communications Ab | Method and apparatus for normalizing sound playback loudness |
US7822498B2 (en) | 2006-08-10 | 2010-10-26 | International Business Machines Corporation | Using a loudness-level-reference segment of audio to normalize relative audio levels among different audio files when combining content of the audio files |
JP2008197199A (ja) * | 2007-02-09 | 2008-08-28 | Matsushita Electric Ind Co Ltd | オーディオ符号化装置及びオーディオ復号化装置 |
JP2008276876A (ja) | 2007-04-27 | 2008-11-13 | Toshiba Corp | 音声出力装置及び音声出力方法 |
US8213624B2 (en) | 2007-06-19 | 2012-07-03 | Dolby Laboratories Licensing Corporation | Loudness measurement with spectral modifications |
WO2009086174A1 (en) * | 2007-12-21 | 2009-07-09 | Srs Labs, Inc. | System for adjusting perceived loudness of audio signals |
KR100998913B1 (ko) * | 2008-01-23 | 2010-12-08 | 엘지전자 주식회사 | 오디오 신호의 처리 방법 및 이의 장치 |
EP2106159A1 (en) | 2008-03-28 | 2009-09-30 | Deutsche Thomson OHG | Loudspeaker panel with a microphone and method for using both |
US20090253457A1 (en) | 2008-04-04 | 2009-10-08 | Apple Inc. | Audio signal processing for certification enhancement in a handheld wireless communications device |
US8295504B2 (en) | 2008-05-06 | 2012-10-23 | Motorola Mobility Llc | Methods and devices for fan control of an electronic device based on loudness data |
US8315396B2 (en) | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
KR101545582B1 (ko) * | 2008-10-29 | 2015-08-19 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
US7755526B2 (en) * | 2008-10-31 | 2010-07-13 | At&T Intellectual Property I, L.P. | System and method to modify a metadata parameter |
JP2010135906A (ja) | 2008-12-02 | 2010-06-17 | Sony Corp | クリップ防止装置及びクリップ防止方法 |
US8428758B2 (en) | 2009-02-16 | 2013-04-23 | Apple Inc. | Dynamic audio ducking |
US8406431B2 (en) | 2009-07-23 | 2013-03-26 | Sling Media Pvt. Ltd. | Adaptive gain control for digital audio samples in a media stream |
KR101430321B1 (ko) | 2009-08-14 | 2014-08-13 | 코닌클리즈케 케이피엔 엔.브이. | 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 |
EP2486567A1 (en) | 2009-10-09 | 2012-08-15 | Dolby Laboratories Licensing Corporation | Automatic generation of metadata for audio dominance effects |
FR2951896A1 (fr) | 2009-10-23 | 2011-04-29 | France Telecom | Procede d'encapsulation de sous-flux de donnees, procede de desencapsulation et programmes d'ordinateur correspondants |
US9031835B2 (en) * | 2009-11-19 | 2015-05-12 | Telefonaktiebolaget L M Ericsson (Publ) | Methods and arrangements for loudness and sharpness compensation in audio codecs |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
TWI525987B (zh) * | 2010-03-10 | 2016-03-11 | 杜比實驗室特許公司 | 在單一播放模式中組合響度量測的系統 |
EP2367286B1 (en) * | 2010-03-12 | 2013-02-20 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals |
EP2381574B1 (en) | 2010-04-22 | 2014-12-03 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an input audio signal |
US8510361B2 (en) * | 2010-05-28 | 2013-08-13 | George Massenburg | Variable exponent averaging detector and dynamic range controller |
EP2610865B1 (en) | 2010-08-23 | 2014-07-23 | Panasonic Corporation | Audio signal processing device and audio signal processing method |
JP5903758B2 (ja) | 2010-09-08 | 2016-04-13 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
ES2502468T3 (es) | 2010-09-22 | 2014-10-03 | Dolby Laboratories Licensing Corporation | Mezcla de transmisión de audio con normalización de nivel de diálogo |
AU2011311543B2 (en) | 2010-10-07 | 2015-05-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Apparatus and method for level estimation of coded audio frames in a bit stream domain |
WO2014124377A2 (en) | 2013-02-11 | 2014-08-14 | Dolby Laboratories Licensing Corporation | Audio bitstreams with supplementary data and encoding and decoding of such bitstreams |
TWI716169B (zh) * | 2010-12-03 | 2021-01-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US8989884B2 (en) | 2011-01-11 | 2015-03-24 | Apple Inc. | Automatic audio configuration based on an audio output device |
JP2012235310A (ja) | 2011-04-28 | 2012-11-29 | Sony Corp | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
US8965774B2 (en) | 2011-08-23 | 2015-02-24 | Apple Inc. | Automatic detection of audio compression parameters |
JP5845760B2 (ja) | 2011-09-15 | 2016-01-20 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
EP2575375B1 (en) * | 2011-09-28 | 2015-03-18 | Nxp B.V. | Control of a loudspeaker output |
JP2013102411A (ja) | 2011-10-14 | 2013-05-23 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
US9892188B2 (en) | 2011-11-08 | 2018-02-13 | Microsoft Technology Licensing, Llc | Category-prefixed data batching of coded media data in multiple categories |
WO2013087861A2 (en) | 2011-12-15 | 2013-06-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer programm for avoiding clipping artefacts |
JP5909100B2 (ja) * | 2012-01-26 | 2016-04-26 | 日本放送協会 | ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム |
TWI517142B (zh) | 2012-07-02 | 2016-01-11 | Sony Corp | Audio decoding apparatus and method, audio coding apparatus and method, and program |
US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9373335B2 (en) | 2012-08-31 | 2016-06-21 | Dolby Laboratories Licensing Corporation | Processing audio objects in principal and supplementary encoded audio signals |
US9413322B2 (en) | 2012-11-19 | 2016-08-09 | Harman International Industries, Incorporated | Audio loudness control system |
CN108174341B (zh) | 2013-01-16 | 2021-01-08 | 杜比国际公司 | 测量高阶高保真度立体声响复制响度级的方法及设备 |
EP2757558A1 (en) | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
KR102473260B1 (ko) | 2013-01-21 | 2022-12-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
MX2018006149A (es) * | 2013-01-21 | 2021-09-17 | Dolby Laboratories Licensing Corp | Codificador y decodificador de audio con metadatos de limite y sonoridad de programa. |
CA2898567C (en) | 2013-01-28 | 2018-09-18 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices |
US20140257799A1 (en) * | 2013-03-08 | 2014-09-11 | Daniel Shepard | Shout mitigating communication device |
US9559651B2 (en) | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
US9607624B2 (en) | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
JP2015050685A (ja) | 2013-09-03 | 2015-03-16 | ソニー株式会社 | オーディオ信号処理装置および方法、並びにプログラム |
CN105531762B (zh) | 2013-09-19 | 2019-10-01 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
US9300268B2 (en) | 2013-10-18 | 2016-03-29 | Apple Inc. | Content aware audio ducking |
PT3061090T (pt) | 2013-10-22 | 2019-07-11 | Fraunhofer Ges Forschung | Conceito combinado para a compressão de gama dinâmica e a prevenção de clipping guiada para dispositivos de áudio |
US9240763B2 (en) | 2013-11-25 | 2016-01-19 | Apple Inc. | Loudness normalization based on user feedback |
US9276544B2 (en) | 2013-12-10 | 2016-03-01 | Apple Inc. | Dynamic range control gain encoding |
RU2764260C2 (ru) | 2013-12-27 | 2022-01-14 | Сони Корпорейшн | Устройство и способ декодирования |
US9608588B2 (en) | 2014-01-22 | 2017-03-28 | Apple Inc. | Dynamic range control with large look-ahead |
CN106165014B (zh) | 2014-03-25 | 2020-01-24 | 弗朗霍夫应用科学研究促进协会 | 音频编码器装置、音频解码器装置、及其操作方法 |
US9654076B2 (en) | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
MY174199A (en) | 2014-05-28 | 2020-03-13 | Fraunhofer Ges Forschung | Data processor and transport of user control data to audio decoders and renderers |
RU2699406C2 (ru) | 2014-05-30 | 2019-09-05 | Сони Корпорейшн | Устройство обработки информации и способ обработки информации |
KR20220104290A (ko) | 2014-06-30 | 2022-07-26 | 소니그룹주식회사 | 정보 처리 장치 및 정보 처리 방법 |
KR102304052B1 (ko) * | 2014-09-05 | 2021-09-23 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
WO2016057530A1 (en) * | 2014-10-10 | 2016-04-14 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
TWI631835B (zh) | 2014-11-12 | 2018-08-01 | 弗勞恩霍夫爾協會 | 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器 |
US20160315722A1 (en) | 2015-04-22 | 2016-10-27 | Apple Inc. | Audio stem delivery and control |
US10109288B2 (en) | 2015-05-27 | 2018-10-23 | Apple Inc. | Dynamic range and peak control in audio using nonlinear filters |
WO2016193033A1 (de) | 2015-05-29 | 2016-12-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zur lautstärkenregulierung |
CN107820711B (zh) | 2015-06-17 | 2020-09-08 | 弗劳恩霍夫应用研究促进协会 | 用于音频编码系统中用户交互性的响度控制 |
US9837086B2 (en) | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
-
2015
- 2015-10-06 WO PCT/US2015/054264 patent/WO2016057530A1/en active Application Filing
- 2015-10-06 ES ES18209378T patent/ES2916254T3/es active Active
- 2015-10-06 CN CN202011037206.3A patent/CN112185401A/zh active Pending
- 2015-10-06 JP JP2017518908A patent/JP6676047B2/ja active Active
- 2015-10-06 EP EP18209378.1A patent/EP3518236B8/en active Active
- 2015-10-06 CN CN202011037624.2A patent/CN112185402A/zh active Pending
- 2015-10-06 CN CN202011037639.9A patent/CN112164406A/zh active Pending
- 2015-10-06 EP EP22166776.9A patent/EP4060661B1/en active Active
- 2015-10-06 CN CN201580054844.7A patent/CN107112023B/zh active Active
- 2015-10-06 US US15/517,482 patent/US10453467B2/en active Active
- 2015-10-06 EP EP15787750.7A patent/EP3204943B1/en active Active
-
2017
- 2017-08-15 US US15/677,919 patent/US10566005B2/en active Active
-
2020
- 2020-02-13 US US16/790,352 patent/US11062721B2/en active Active
- 2020-03-11 JP JP2020041513A patent/JP6701465B1/ja active Active
- 2020-05-01 JP JP2020081044A patent/JP7023313B2/ja active Active
-
2021
- 2021-07-09 US US17/372,295 patent/US20220005489A1/en active Pending
-
2022
- 2022-02-08 JP JP2022017625A patent/JP7350111B2/ja active Active
-
2023
- 2023-09-12 JP JP2023147277A patent/JP2023166543A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4060661B1 (en) | 2024-04-24 |
EP3518236B8 (en) | 2022-05-25 |
US10453467B2 (en) | 2019-10-22 |
JP7023313B2 (ja) | 2022-02-21 |
US11062721B2 (en) | 2021-07-13 |
JP7350111B2 (ja) | 2023-09-25 |
CN107112023A (zh) | 2017-08-29 |
US20200258534A1 (en) | 2020-08-13 |
WO2016057530A1 (en) | 2016-04-14 |
CN107112023B (zh) | 2020-10-30 |
JP2017536020A (ja) | 2017-11-30 |
US20180012609A1 (en) | 2018-01-11 |
EP3518236B1 (en) | 2022-04-06 |
US20220005489A1 (en) | 2022-01-06 |
US20170249951A1 (en) | 2017-08-31 |
JP2020098368A (ja) | 2020-06-25 |
CN112164406A (zh) | 2021-01-01 |
EP3204943A1 (en) | 2017-08-16 |
JP2020129829A (ja) | 2020-08-27 |
EP4060661A1 (en) | 2022-09-21 |
ES2916254T3 (es) | 2022-06-29 |
EP3518236A1 (en) | 2019-07-31 |
JP6701465B1 (ja) | 2020-05-27 |
JP6676047B2 (ja) | 2020-04-08 |
US10566005B2 (en) | 2020-02-18 |
CN112185402A (zh) | 2021-01-05 |
EP3204943B1 (en) | 2018-12-05 |
JP2022058928A (ja) | 2022-04-12 |
CN112185401A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7350111B2 (ja) | 伝送に関知しない呈示ベースのプログラム・ラウドネス | |
JP7049503B2 (ja) | 多様な再生環境のためのダイナミックレンジ制御 | |
JP7038788B2 (ja) | ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整 | |
RU2685999C1 (ru) | Управление громкостью для пользовательской интерактивности в системах аудиокодирования | |
US9136881B2 (en) | Audio stream mixing with dialog level normalization | |
KR101761041B1 (ko) | 음량 및 동적 범위 제어에 대한 메타데이터 | |
US8731216B1 (en) | Audio normalization for digital video broadcasts | |
US10027303B2 (en) | Management of broadcast audio loudness | |
US11907611B2 (en) | Deferred loudness adjustment for dynamic range control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230912 |