JP2016536919A - 多様な再生環境のためのダイナミックレンジ制御 - Google Patents

多様な再生環境のためのダイナミックレンジ制御 Download PDF

Info

Publication number
JP2016536919A
JP2016536919A JP2016542033A JP2016542033A JP2016536919A JP 2016536919 A JP2016536919 A JP 2016536919A JP 2016542033 A JP2016542033 A JP 2016542033A JP 2016542033 A JP2016542033 A JP 2016542033A JP 2016536919 A JP2016536919 A JP 2016536919A
Authority
JP
Japan
Prior art keywords
gain
default
audio
gains
drc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016542033A
Other languages
English (en)
Other versions
JP6476192B2 (ja
Inventor
コッペンス,イェルン
リードミラー,ジェフリー
クヨーリング,クリストファー
グロエシェル,アレクサンダー
ホーリッヒ,ホルガー
ジェイ シーフェルドット,アラン
ジェイ シーフェルドット,アラン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2016536919A publication Critical patent/JP2016536919A/ja
Application granted granted Critical
Publication of JP6476192B2 publication Critical patent/JP6476192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/12Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/12Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
    • H03G9/18Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Abstract

オーディオ・エンコーダにおいて、源オーディオ・フォーマットにおいて受領されたオーディオ・コンテンツについて、デフォルト・ダイナミックレンジ圧縮(DRC)曲線に基づいてデフォルト利得が生成され、非デフォルト利得プロファイルのために非デフォルト利得が生成される。デフォルト利得と非デフォルト利得に基づいて、差分利得が生成される。オーディオ・コンテンツ、デフォルトDRC曲線および差分利得を含むオーディオ信号が生成される。オーディオ・デコーダでは、デフォルトDRC曲線および差分利得がオーディオ信号から同定される。デフォルトDRC曲線に基づいてデフォルト利得が再生成される。再生成されたデフォルト利得と差分利得の組み合わせに基づいて、オーディオ信号から抽出されたオーディオ・コンテンツに対して動作が実行される。

Description

関連出願への相互参照
本願は2013年9月12日に出願された米国仮特許出願第61/877,230号、2013年10月15日に出願された米国仮特許出願第61/891,324号および2014年2月10日に出願された米国仮特許出願第61/938,043号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
技術
本発明は、概括的にはオーディオ信号の処理に、より詳細にはダイナミックレンジ制御および他の型のオーディオ処理動作を幅広い多様な再生環境のうちの任意のものにおいてオーディオ信号に適用することに使用されうる技法に関する。
メディア消費装置の高まる人気は、そうした装置での再生のためのメディア・コンテンツのクリエーターおよび頒布者にとって、またはそうした装置の設計者および製造業者にとって新たな機会と課題を作り出した。多くの消費者装置は幅広いメディア・コンテンツの型およびフォーマットを再生でき、中にはHDTV、ブルーレイまたはDVDのためのしばしば高品質、広帯域幅および広いダイナミックレンジのオーディオ・コンテンツに関連するものも含まれる。メディア処理装置は、この型のオーディオ・コンテンツを、自らの内部音響トランスデューサ上でまたはヘッドフォンのような外部トランスデューサ上で再生するために使用されうる。しかしながら、メディア処理装置は一般には、多様なメディア・フォーマットおよびコンテンツ型にわたる一貫したラウドネスおよび了解性をもってこのコンテンツを再生することはできない。
このセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、このセクションにおいて記述されるアプローチはいずれも、このセクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、このセクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
本発明は、限定ではなく例として、付属の図面において示される。図面において、同様の参照符号は同様の要素を指す。
例示的なオーディオ・デコーダを示す図である。 例示的なオーディオ・エンコーダを示す図である。 例示的なダイナミックレンジ圧縮曲線を示す図である。 例示的なダイナミックレンジ圧縮曲線を示す図である。 組み合わされたDRCおよび制限利得の決定/計算の例示的な処理論理を示す図である。 利得の例示的な差分符号化を示す図である。 オーディオ・エンコーダおよびオーディオ・デコーダを有する例示的なコーデック・システムを示す図である。 例示的なオーディオ・デコーダを示す図である。 例示的なプロセス・フローを示す図である。 例示的なプロセス・フローを示す図である。 例示的なプロセス・フローを示す図である。 例示的なプロセス・フローを示す図である。 本稿に記載されるコンピュータまたはコンピューティング装置が実装されうる例示的なハードウェア・プラットフォームを示す図である。
ダイナミックレンジ制御および他の型のオーディオ処理動作を幅広い多様な再生環境のうちの任意のものにおいてオーディオ信号に適用することに関する例示的実施形態が本稿で記述される。以下の記述では、説明の目的のため、本発明の十全な理解を提供するために、説明の目的で数多くの個別的詳細が記載される。しかしながら、本発明がそうした個別的詳細なしでも実施されうることは明白であろう。他方、本発明を無用に隠蔽し、かすませ、あるいは埋没させるのを避けるために、よく知られた構造および装置は網羅的な詳細さでは記述されない。
例示的実施形態は本稿では以下のアウトラインに従って記述される。
1.全般的概観
2.ダイナミックレンジ制御
3.オーディオ・デコーダ
4.オーディオ・エンコーダ
5.ダイナミックレンジ圧縮曲線
6.DRC利得、利得制限および利得平滑化
7.入力平滑化および利得平滑化
8.複数周波数帯域にわたるDRC
9.ラウドネス領域でのボリューム調整
10.差分利得による利得プロファイル
11.利得に関係した追加的動作
12.特定的およびブロードバンド(または広帯域)のラウドネス・レベル
13.チャネルの個々の部分集合のための個々の利得
14.聴覚シーン解析
15.ラウドネス・レベル遷移
16.リセット
17.エンコーダによって提供される利得
18.例示的なシステムおよびプロセス・フロー
19.実装機構――ハードウェアの概観
20.等価物、拡張、代替その他。
〈1.全般的概観〉
この概観は、本発明の実施形態のいくつかの側面の基本的な記述を提示する。この概観は該実施形態の諸側面の包括的ないし網羅的な要約ではないことは注意しておくべきである。さらに、この概観は、該実施形態の何らかの特に有意な側面もしくは要素を特定するものと理解されることも、一般には本発明の、特に該実施形態の何らかの範囲を画定するものと理解されることも、意図されていないことを注意しておくべきである。この概観は単に、その例示的実施形態に関係するいくつかの概念を凝縮された単純化された形式で提示するものであり、単に後続の例示的な諸実施形態のより詳細な説明への概念的な導入部として理解されるべきである。別個の諸実施形態が本稿において論じられるが、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせがさらなる実施形態をなすよう組み合わされてもよいことを注意しておく。
いくつかのアプローチでは、エンコーダは、ダイナミックレンジ制御の目的のためにオーディオ・コンテンツが特定の環境のためにエンコードされていることを想定し、その特定の環境のために、ダイナミックレンジ制御などのための利得のようなオーディオ処理パラメータを決定する。これらのアプローチのもとでエンコーダによって決定される利得は、典型的には、何らかの時定数をもって(たとえば指数関数型減衰関数などにおいて)、何らかの時間区間にわたってなどで平滑化されたものである。さらに、これらのアプローチのもとでエンコーダによって決定される利得は、想定される環境について信号がクリッピング・レベルを上回らないことを保証する利得制限のために組み込まれたものであってもよい。よって、これらのアプローチのもとでエンコーダによってオーディオ情報とともにオーディオ信号中にエンコードされる利得は、多くの異なる影響の結果であり、不可逆である。これらのアプローチのもとで利得を受け取るデコーダは、利得のどの部分がダイナミックレンジ制御のためで、利得のどの部分が利得平滑化のためで、利得のどの部分が利得制限のためであるかなどを区別できないであろう。
本稿に記載される技法のもとでは、オーディオ・エンコーダは、オーディオ・デコーダにおける特定の再生環境がサポートされるだけでよいとは想定しない。ある実施形態では、オーディオ・エンコーダは、(たとえばクリッピングなどのない)正しいラウドネス・レベルが決定できるもとになるオーディオ・コンテンツをもつエンコードされたオーディオ信号を送信する。オーディオ・エンコーダは一つまたは複数のダイナミックレンジ圧縮曲線もオーディオ・デコーダに送信してもよい。該一つまたは複数のダイナミックレンジ圧縮曲線のいずれも、標準ベースのものでも、独自のものでも、カスタマイズされたものでも、コンテンツ・プロバイダー固有のものなどでもよい。参照ラウドネス・レベル、アタック時間、リリース時間などがオーディオ・エンコーダによって、前記一つまたは複数のダイナミックレンジ圧縮曲線の一部としてまたは前記一つまたは複数のダイナミックレンジ圧縮曲線との関連で送信されてもよい。
いくつかの実施形態では、オーディオ・エンコーダは、聴覚シーン解析(ASA: auditory scene analysis)技法を実装し、該ASA技法をオーディオ・コンテンツにおける聴覚イベントを検出するために使い、検出された聴覚イベントを記述する一つまたは複数のASAパラメータをオーディオ・デコーダに送る。
いくつかの実施形態では、オーディオ・エンコーダは、オーディオ・コンテンツにおけるリセット・イベントを検出し、該リセット・イベントの指標を時間同期的な仕方でオーディオ・コンテンツと一緒にオーディオ・デコーダなどのような下流の装置に送るようにも構成されることができる。
いくつかの実施形態では、オーディオ・エンコーダは、オーディオ・コンテンツの個々の部分(たとえばオーディオ・データ・ブロック、オーディオ・データ・フレームなど)のための利得(たとえばDRC利得など)の一つまたは複数の集合を計算し、該利得の集合を、オーディオ・コンテンツの該個々の部分と一緒に、エンコードされたオーディオ信号中にエンコードするよう構成されることができる。いくつかの実施形態では、オーディオ・エンコーダによって生成される利得の集合は、一つまたは複数の利得プロファイル(たとえば表1に示されるようなもの)に対応する。いくつかの実施形態では、ハフマン符号化、差分符号化などが前記利得の集合を諸オーディオ・データ・フレームの構成要素、細分などに符号化し、あるいは該構成要素、細分などから前記利得の集合を読み取るために使用されてもよい。これらの構成要素、細分などは、オーディオ・データ・フレームのサブフレームと称されることがある。利得の異なる集合がサブフレームの異なる集合に対応してもよい。利得の各集合またはサブフレームの各集合が二つ以上の時間的構成要素(たとえばサブフレームなど)を有していてもよい。いくつかの実施形態では、本稿に記載されるオーディオ・エンコーダにおけるビットストリーム・フォーマット器は、一つまたは複数のforループを用いて、利得の一つまたは複数の集合を、差分データ符号として、オーディオ・データ・フレームにおけるサブフレームの一つまたは複数の集合中に一緒に書き込んでもよい。対応して、本稿に記載されるオーディオ・デコーダにおけるビットストリーム・パーサーは、オーディオ・データ・フレームにおけるサブフレームの前記一つまたは複数の集合から、前記差分データ符号として符号化された利得の前記一つまたは複数の集合のいずれかを読んでもよい。
いくつかの実施形態では、オーディオ・エンコーダは、エンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツにおけるダイアログ・ラウドネス・レベルを決定し、ダイアログ・ラウドネス・レベルをオーディオ・コンテンツと一緒にオーディオ・デコーダに送る。
いくつかの実施形態では、オーディオ・エンコーダは、下流の受領側オーディオ・デコーダに、再生環境またはシナリオにおけるデフォルト利得プロファイルについてのデフォルト・ダイナミック圧縮曲線を送る。いくつかの実施形態では、オーディオ・エンコーダは、下流の受領側オーディオ・デコーダが再生環境またはシナリオにおけるデフォルト利得プロファイルについてのデフォルト・ダイナミック圧縮曲線を使うと想定する。いくつかの実施形態では、オーディオ・エンコーダは、下流の受領側オーディオ・デコーダにおいて定義されている一つまたは複数のダイナミック圧縮曲線のうちのどれが再生環境またはシナリオにおいて使われるべきかについての下流の受領側オーディオ・デコーダへの指標を送る。いくつかの実施形態では、一つまたは複数の非デフォルト利得プロファイルのそれぞれについて、オーディオ・エンコーダは、エンコードされたオーディオ信号によって担持されるメタデータの一部として、その非デフォルト・プロファイルに対応する(たとえば非デフォルトなどの)ダイナミック圧縮曲線を送る。本稿に記載される技法は、デフォルト圧縮曲線に関係した差分利得の複数の集合が、上流のエンコーダによって生成され下流のデコーダに送られることを許容する。このことは、フル利得値を伝送することに比べ要求されるビットレートを比較的低く保ちつつ、デコーダにおけるDRC圧縮器(たとえば、圧縮曲線に基づく利得を計算するプロセスおよび平滑化動作など)の設計における多大な自由を許容する。単に例解のために、デフォルト・プロファイルまたはデフォルトDRC曲線は、それとの関係で非デフォルト・プロファイルまたは非デフォルトDRC曲線のための差分利得が具体的に計算できるものとして言及された。しかしながら、これは単に例解のためであり、(たとえばメディア・データ・ストリームなどにおいて)デフォルト・プロファイルと非デフォルト・プロファイルを区別する厳密な必要性はない。さまざまな実施形態において、他のすべてのプロファイルは、同じ特定の(たとえば「デフォルト」などの)圧縮曲線に比した差分利得でありうるからである。本稿での用法では、「利得プロファイル」は、DRC動作を実行する圧縮器の動作モードとしてDRCモードということがある。いくつかの実施形態では、DRCモードは、再生装置の具体的な型(AVRかTVかタブレットか)および/または環境(騒々しいか静穏か深夜か)に関係する。各DRCモードは利得プロファイルに関連付けられることができる。利得プロファイルは、定義データによって表現されてもよく、該定義データに基づいて、圧縮器はDRC動作を実行する。いくつかの実施形態では、利得プロファイルは、DRC動作において使用されるDRC曲線(可能性としてはパラメータ表現されている)および時定数であることができる。いくつかの実施形態では、利得プロファイルは、オーディオ信号に応答したDRC動作の出力としてのDRC利得の集合であることができる。異なるDRCモードのプロファイルは、異なる量の圧縮に対応してもよい。
いくつかの実施形態では、オーディオ・エンコーダは、デフォルト利得プロファイルに対応するデフォルト・ダイナミックレンジ圧縮曲線に基づいてオーディオ・コンテンツのためのデフォルトの(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合を決定し、一つまたは複数の非デフォルト利得プロファイルのそれぞれについて、同じオーディオ・コンテンツについての非デフォルトの(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合を決定する。次いで、オーディオ・エンコーダは、デフォルト利得プロファイルについてのデフォルト(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合と、非デフォルト利得プロファイルについての非デフォルト(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合との間の利得の差を決定し、該利得の差を差分利得の集合に含めるなどすることができる。非デフォルト再生環境またはシナリオに関係した非デフォルト・プロファイルについて(たとえば非デフォルトなどの)ダイナミック圧縮曲線を送る代わりに、オーディオ・エンコーダは、差分利得の集合を、非デフォルト・ダイナミック圧縮曲線の代わりにまたはそれに加えて、エンコードされたオーディオ信号によって担持されるメタデータの一部として、送ることができる。
差分利得の集合は、非デフォルト(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合より大きさが小さくてもよい。このように、非差分(たとえばフルDRCおよび非DRC、フルDRCなど)利得ではなく差分利得を伝送することは、非差分(たとえばフルDRCおよび非DRC、フルDRCなど)利得を直接伝送することに比べ、要求するビットレートが低いことがありうる。
本稿に記載されるエンコードされたオーディオ信号を受領するオーディオ・デコーダは、異なる製造業者によって提供されたものであってもよく、異なるコンポーネントおよび設計をもって実装されている。オーディオ・デコーダは、異なる時点でエンドユーザーにリリースされたものであってもよく、あるいは異なるバージョンのハードウェア、ソフトウェア、ファームウェアをもって更新されたものであってもよい。結果として、それらのオーディオ・デコーダは、異なるオーディオ処理機能を有していてもよい。いくつかの実施形態では、多数のオーディオ・デコーダが、標準、独自の要求などによって規定されるデフォルト利得プロファイルのような利得プロファイルの制限された集合をサポートする機能を備えることがある。多数のオーディオ・デコーダは、デフォルト利得プロファイルを表わすデフォルト・ダイナミックレンジ圧縮曲線に基づいて、該デフォルト利得プロファイルについての利得を生成するための関連する利得生成動作を実行する機能をもって構成されていてもよい。デフォルト利得プロファイルについてのデフォルト・ダイナミックレンジ圧縮曲線をオーディオ信号において伝送することは、デフォルト利得プロファイルについて生成/計算された利得をオーディオ信号において伝送することよりも、効率的でありうる。
他方、非デフォルト利得プロファイルについて、オーディオ・エンコーダは、特定のデフォルト利得プロファイルに対応する特定のデフォルト・ダイナミックレンジ圧縮曲線を参照して、差分利得を事前生成することができる。該オーディオ・エンコーダによって生成されたオーディオ信号において該差分利得を受領することに応答して、オーディオ・デコーダは、オーディオ信号において受領されたデフォルト・ダイナミックレンジ圧縮曲線に基づいてデフォルト利得を生成し、受領された差分利得と生成されたデフォルト利得を非デフォルト利得プロファイルについての非デフォルト利得に組み合わせ、該非デフォルト利得をオーディオ信号からデコードされたオーディオ・コンテンツに適用するなどしつつ、受領されたオーディオ・コンテンツをレンダリングすることができる。いくつかの実施形態では、非デフォルト利得プロファイルはデフォルト・ダイナミックレンジ圧縮曲線の制限を保証するために使用されてもよい。
本稿に記載される技法は、新たな利得プロファイル、特徴または向上のための柔軟なサポートを提供するために使用できる。いくつかの実施形態では、少なくとも一つの利得プロファイルは、デフォルトであれ非デフォルトであれダイナミックレンジ圧縮曲線を用いて簡単に表現できない。いくつかの実施形態では、少なくとも一つの利得プロファイルは、特定のオーディオ・コンテンツ(たとえば特定の映画など)に固有であってもよい。非デフォルト利得プロファイルの表現(たとえばパラメータ化されたDRC曲線)が、エンコードされたオーディオ信号において担持できるより多くのパラメータ、平滑化定数などを該エンコードされたオーディオ信号において伝送することを必要とすることがあることもありうる。いくつかの実施形態では、少なくとも一つの利得プロファイルが特定のオーディオ・コンテンツ・プロバイダー(たとえば特定のスタジオなど)に固有であってもよい。
このように、本稿に記載されるオーディオ・エンコーダは、新たな利得プロファイルをサポートすることにおいて主導することができる。それは、該新たな利得プロファイルのための利得生成動作および該新たな利得プロファイルが関係するデフォルト利得プロファイルについての利得生成動作を実装することによる。下流の受領側オーディオ・デコーダは、新たな利得プロファイルについての利得生成動作をする必要がない。むしろ、オーディオ・デコーダは、該オーディオ・デコーダが新たな利得プロファイルについての利得生成動作を実行することなく、オーディオ・エンコーダによって生成された非デフォルト差分利得を活用することによって、新たな利得プロファイルをサポートできる。
いくつかの実施形態では、エンコードされたオーディオ信号においてエンコードされているプロファイル関係メタデータにおいて、一つまたは複数の(たとえばデフォルトなどの)ダイナミックレンジ圧縮曲線および(たとえば非デフォルトなどの)差分利得の一つまたは複数の集合が、たとえば前記一つまたは複数の(たとえばデフォルトなどの)ダイナミックレンジ圧縮曲線および(たとえば非デフォルトなどの)差分利得の一つまたは複数の集合が対応するそれぞれの利得プロファイルに従って、構造化、インデックス付けなどされる。いくつかの実施形態では、非デフォルト差分利得の集合とデフォルト・ダイナミックレンジ圧縮曲線との間の関係が前記プロファイル関係メタデータにおいて指示されてもよい。これは、該メタデータにおいて二つ以上のデフォルト・ダイナミックレンジ圧縮曲線が存在する、あるいは該メタデータにはなくても下流のデコーダにおいて定義されるときに特に有用でありうる。該プロファイル関係メタデータにおいて指示された関係に基づいて、受領側オーディオ・デコーダは、デフォルト利得の集合を生成するためにどのデフォルト・ダイナミックレンジ圧縮曲線が使用されるべきかを決定することができる。生成された利得は次いで、たとえばデフォルト・ダイナミックレンジ圧縮曲線の制限を補償するために、非デフォルト利得を生成するために、非デフォルト差分利得の受領された集合と組み合わされることができる。
本稿に記載される技法は、オーディオ・デコーダが、仮定のオーディオ・デコーダにおける仮定の再生環境、シナリオなどを想定しつつ、オーディオ・エンコーダなどのような上流の装置によって実行されたかもしれない(たとえば不可逆などの)オーディオ処理とロックインされることを要求しない。本稿に記載されるデコーダは、たとえばオーディオ・コンテンツにおいて存在する種々のラウドネス・レベルを区別し、境界ラウドネス・レベルまたはその近くでのオーディオ知覚品質の損失を最小限にし、チャネルまたはチャネルの部分集合の間での空間的バランスを維持するなどのために、特定の再生シナリオに基づいてオーディオ処理動作をカスタマイズするよう構成されていてもよい。
ダイナミックレンジ圧縮曲線、参照ラウドネス・レベル、アタック時間、リリース時間などをもつエンコードされたオーディオ信号を受領するオーディオ・デコーダは、デコーダにおいて使われている特定の再生環境を決定し、該特定の再生環境に対応する、対応する参照ラウドネス・レベルをもつ特定の圧縮曲線を選択することができる。
デコーダは、エンコードされたオーディオ信号から抽出されたオーディオ・コンテンツの個々の部分(たとえばオーディオ・データ・ブロック、オーディオ・データ・フレームなど)におけるラウドネス・レベルを計算/決定する、あるいはオーディオ・エンコーダがラウドネス・レベルを計算してエンコードされたオーディオ信号において提供していた場合にはオーディオ・コンテンツの個々の部分におけるラウドネス・レベルを取得することができる。オーディオ・コンテンツの個々の部分におけるラウドネス・レベル、オーディオ・コンテンツの以前の部分におけるラウドネス・レベル、利用可能であればオーディオ・コンテンツのその後の部分におけるラウドネス・レベル、前記特定の圧縮曲線、前記特定の再生環境またはシナリオに関係した特定のプロファイルなどのうちの一つまたは複数に基づいて、デコーダは、ダイナミックレンジ制御のための利得(DRC利得)、アタック時間、リリース時間などのようなオーディオ処理パラメータを決定する。オーディオ処理パラメータは、特定の再生環境についての特定の参照ラウドネス・レベル(これはユーザー調整可能であってもよい)にダイアログ・ラウドネス・レベルを揃えるための調整をも含むことができる。
デコーダは、前記オーディオ処理パラメータをもって、(たとえばマルチチャネル、マルチ帯域などの)ダイナミックレンジ制御、ダイアログ・レベル調整などを含むオーディオ処理動作を適用する。デコーダによって実行されるオーディオ処理動作はさらに、選択されたダイナミックレンジ圧縮曲線の一部としてまたはそれとの関連で提供されるアタック時間およびリリース時間に基づく利得平滑化、クリッピングを防止するための利得制限などを含んでいてもよいが、それだけに限られるものではない。異なるオーディオ処理動作は、異なる(たとえば調整可能、閾値依存、制御可能などの)時定数をもって実行されてもよい。たとえば、クリッピングを防止するための利得制限は、比較的短い時定数(たとえば瞬間的、約5.3ミリ秒など)をもって個々のオーディオ・データ・ブロック、個々のオーディオ・データ・フレームなどに適用されてもよい。
いくつかの実施形態では、デコーダは、エンコードされたオーディオ信号におけるメタデータからASAパラメータ(たとえば、聴覚イベント境界の時間的位置、イベント確実性指標の時間依存値など)を抽出し、抽出されたASAパラメータに基づいて聴覚イベントにおける利得平滑化の速度を制御する(たとえば、聴覚イベント境界ではアタックについて短い時定数を使う、聴覚イベント内の利得平滑化を遅くするために長い時定数を使うなど)よう構成されることができる。
いくつかの実施形態では、デコーダは、ある時間区間または窓についての瞬時ラウドネス・レベルのヒストグラムも維持し、該ヒストグラムを、プログラムとプログラムの間、プログラムとコマーシャルの間などのラウドネス・レベル遷移における利得変化の速度をたとえば時定数を修正することによって制御するために使う。
いくつかの実施形態では、デコーダは、二つ以上のスピーカー構成(たとえば、スピーカーでのポータブル・モード、ヘッドフォンでのポータブル・モード、ステレオ・モード、マルチチャネル・モードなど)をサポートする。デコーダは、たとえば同じオーディオ・コンテンツを再生するときに、二つの異なるスピーカー構成の間で(たとえばステレオ・モードとマルチチャネル・モードの間などで)同じラウドネス・レベルを維持するよう構成されていてもよい。オーディオ・デコーダは、ある参照スピーカー構成についてのエンコードされたオーディオ信号から受領されるマルチチャネル・オーディオ・コンテンツを、該オーディオ・デコーダにおける特定のスピーカー構成にダウンミックスするために、一つまたは複数のダウンミックスの式を使ってもよい。前記マルチチャネル・オーディオ・コンテンツは、前記参照スピーカー構成のために符号化されたものである。
いくつかの実施形態では、本稿に記載されるオーディオ・デコーダにおいて自動利得制御(AGC)が無効にされてもよい。
いくつかの実施形態では、オーディオビジュアル装置、フラットパネルTV、ハンドヘルド装置、ゲーム機、テレビジョン、ホームシアター・システム、タブレット、モバイル装置、ラップトップ・コンピュータ、ネットブック・コンピュータ、セルラー無線電話、電子書籍リーダー、ポイントオブセール端末、デスクトップ・コンピュータ、コンピュータ・ワークステーション、コンピュータ・キオスク、さまざまな他の種類の端末およびメディア処理ユニットなどを含むがそれに限られない、メディア処理システムの一部をなす。
本稿に記載される好ましい実施携帯および一般的な原理および特徴に対するさまざまな修正が、当業者にはすぐに明白となるであろう。よって、本開示は、示されている実施形態に限定されることは意図されておらず、本稿に記載される原理および特徴と整合する最も広い範囲を与えられるものである。
〈2.ダイナミックレンジ制御〉
カスタマイズされたダイナミックレンジ制御なしでは、入力オーディオ情報(たとえばPCMサンプル、QMFマトリクスにおける時間‐周波数サンプルなど)はしばしば、再生装置の特定の再生環境(すなわち、装置の物理的および/または機械的な再生限界を含む)には不適切なラウドネス・レベルで再生される。再生装置の特定の再生環境は、エンコードされたオーディオ・コンテンツがエンコード装置において符号化されたときに目標とされた再生環境とは異なることがありうるからである。
本稿に記載される技法は、オーディオ・コンテンツの知覚的品質を維持しつつ、幅広い多様な再生環境の任意のものにカスタマイズされた幅広い多様なオーディオ・コンテンツのダイナミックレンジ制御をサポートするために使用できる。
ダイナミックレンジ制御(DRC)とは、オーディオ・コンテンツにおけるラウドネス・レベルの入力ダイナミックレンジを、該入力ダイナミックレンジとは異なる出力ダイナミックレンジに変える(たとえば圧縮する、カットする、拡張する、ブーストするなど)時間依存のオーディオ処理動作をいう。たとえば、ダイナミックレンジ制御のシナリオにおいて、ソフトな音はより高いラウドネス・レベルにマッピング(たとえばブーストなど)されてもよく、ラウドな音はより低いラウドネス値にマッピング(たとえばカットなど)されてもよい。結果として、ラウドネス領域において、この例では、ラウドネス・レベルの出力範囲は、ラウドネス・レベルの入力範囲より小さくなる。しかしながら、いくつかの実施形態では、ダイナミックレンジ制御は、もとの範囲が復元されるよう可逆であることがある。たとえば、もとのラウドネス・レベルからマッピングされた出力ダイナミックレンジにおけるマッピングされたラウドネス・レベルがクリッピング・レベル以下である、各一意的なもとのラウドネス・レベルが一意的な出力ラウドネス・レベルにマッピングされるなどである限り、もとの範囲を復元するために伸張動作が実行されうる。
本稿に記載されるDRC技法は、ある種の再生環境または状況における、よりよい聴取経験を提供するために使用されることができる。たとえば、騒々しい環境におけるソフトな音は、該ソフトな音を聞こえなくするノイズによってマスクされてしまうことがありうる。逆に、たとえばやかましい隣人のようないくつかの状況においては、ラウドな音が望まれないことがありうる。典型的には小さな形状因子のラウドスピーカーをもつ多くの装置は、高い出力レベルで音を再生できない。いくつかの場合には、低めの信号レベルは人間の聴覚閾値より下で再生されることがありうる。DRC技法は、ダイナミックレンジ圧縮曲線を用いて見出されたDRC利得(たとえばオーディオ振幅をスケーリングするスケーリング因子、ブースト比、カット比など)に基づいて、入力ラウドネス・レベルを出力ラウドネス・レベルにマッピングすることを実行しうる。
ダイナミックレンジ圧縮曲線とは、個々のオーディオ・データ・フレームから決定される(たとえばダイアログ以外の音などの)個々の入力ラウドネス・レベルを、個々の利得またはダイナミックレンジ制御のための利得にマッピングする関数(たとえばルックアップテーブル、曲線、多セグメントの区分直線など)をいう。個々の利得のそれぞれは、対応する個々の入力ラウドネス・レベルに適用されるべき利得の大きさを指示する。個々の利得を適用した後の出力ラウドネス・レベルは、特定の再生環境における、当該個々のオーディオ・データ・フレームにおけるオーディオ・コンテンツのための、目標ラウドネス・レベルを表わす。
利得とラウドネス・レベルの間のマッピングを指定することに加えて、ダインミックレンジ圧縮曲線は、特定の利得を適用する際の特定のリリース時間およびアタック時間を含んでいてもよく、あるいはそれらを提供されてもよい。アタックとは、相続く時間サンプルの間の信号エネルギー(またはラウドネス)の増大をいう。一方、リリースとは、相続く時間サンプルの間の信号エネルギー(またはラウドネス)の減少をいう。アタック時間(たとえば10ミリ秒、20ミリ秒など)は、対応する信号がアタック・モードにあるときにDRC利得を平滑化する際に使われる時定数をいう。リリース時間(たとえば80ミリ秒、100ミリ秒など)は、対応する信号がリリース・モードにあるときにDRC利得を平滑化する際に使われる時定数をいう。いくつかの実施形態では、追加的、任意的または代替的に、これらの時定数は、DRC利得を決定する前の信号エネルギー(ラウドネス)の平滑化のために使われる。
異なる再生環境には異なるダイナミックレンジ圧縮曲線が対応しうる。たとえば、フラットパネルTVの再生環境についてのダイナミックレンジ圧縮曲線は、ポータブル装置の再生環境のためのダイナミックレンジ圧縮曲線とは異なっていてもよい。いくつかの実施形態では、再生装置は、二つ以上の再生環境を有していてもよい。たとえば、スピーカーを用いるあるポータブル装置の第一の再生環境のための第一のダイナミックレンジ圧縮曲線は、ヘッドセットを用いる同じポータブル装置の第二の再生環境のための第二のダイナミックレンジ圧縮曲線とは異なっていてもよい。
〈3.オーディオ・デコーダ〉
図1Aは、データ抽出器104、ダイナミックレンジ・コントローラ106、オーディオ・レンダラー108などを有する例示的なオーディオ・デコーダ100を示している。
いくつかの実施形態では、データ抽出器(104)はエンコードされた入力信号102を受領するよう構成されている。本稿に記載されるところのエンコードされた入力信号は、エンコードされた(たとえば圧縮などされた)入力オーディオ・データ・フレームおよびメタデータを含むビットストリームであってもよい。データ抽出器(104)は、エンコードされた入力信号(102)から入力オーディオ・データ・フレームおよびメタデータを抽出/デコードするよう構成されている。入力オーディオ・データ・フレームのそれぞれは、複数の符号化されたオーディオ・データ・ブロックを有し、そのそれぞれは複数のオーディオ・サンプルを表わす。各フレームはある数のオーディオ・サンプルを含む(たとえば一定の)時間区間を表わす。フレーム・サイズは、サンプル・レートおよび符号化データ・レートとともに変わりうる。オーディオ・サンプルは、一つ、二つまたはそれ以上の(オーディオ)周波数帯域または周波数範囲においてスペクトル内容を表わす量子化されたオーディオ・データ要素(たとえば、入力PCMサンプル、QMFマトリクスにおける入力時間‐周波数サンプルなど)である。入力オーディオ・データ・フレームにおける量子化されたオーディオ・データ要素は、圧力波をデジタルの(量子化された)領域において表わしてもよい。量子化されたオーディオ・データ要素は、最大可能な値(たとえば、クリッピング・レベル、最大ラウドネス・レベルなど)以下のラウドネス・レベルの有限範囲をカバーしうる。
メタデータは、入力オーディオ・データ・フレームを処理するための幅広い多様な受領側デコーダによって使用されることができる。メタデータは、デコーダ(100)によって実行されるべき一つまたは複数の動作に関係する多様な動作パラメータ、入力オーディオ・データ・フレームにおいて表わされているダイアログ・ラウドネス・レベルに関係する正規化パラメータなどを含んでいてもよい。ダイアログ・ラウドネス・レベルとは、プログラム(たとえば映画、テレビ番組、ラジオ放送など)全体、プログラムの一部、プログラムのダイアログなどにおける、ダイアログ・ラウドネス、プログラム・ラウドネス、平均ダイアログ・ラウドネスなどの(たとえば音響心理学的、知覚的などの)レベルを指しうる。
デコーダ(100)またはそのモジュール(たとえばデータ抽出器104、ダイナミックレンジ・コントローラ106など)の一部または全部の動作および機能は、エンコードされた入力信号(102)から抽出されたメタデータに応答して適応されてもよい。たとえば、メタデータ――ダイナミックレンジ圧縮曲線、ダイアログ・ラウドネス・レベルなどを含むがそれに限定されない――がデコーダ(100)によってデジタル領域の出力オーディオ・データ要素(たとえば出力PCMサンプル、QMFマトリクスにおける出力時間‐周波数サンプルなど)を生成するために使用されてもよい。次いで、出力データ要素は、特定の再生環境における再生中の指定されたラウドネスまたは参照再生レベルを達成するためにオーディオ・チャネルまたはスピーカーを駆動するために使われることができる。
いくつかの実施形態では、ダイナミックレンジ・コントローラ(106)は、入力オーディオ・データ・フレーム中のオーディオ・データ要素およびメタデータの一部または全部を受領し、少なくとも部分的にはエンコードされたオーディオ信号(102)から抽出されたメタデータに基づいて、入力オーディオ・データ・フレーム中のオーディオ・データ要素に対してオーディオ処理動作(たとえば、ダイナミックレンジ制御動作、利得平滑化動作、利得制限動作など)を実行するなどするよう構成される。
いくつかの実施形態では、ダイナミックレンジ・コントローラ(106)は、選択器110、ラウドネス計算器112、DRC利得ユニット114などを有していてもよい。選択器(110)は、デコーダ(100)における特定の再生環境に関係するスピーカー構成(たとえば、フラットパネル・モード、スピーカーと一緒のポータブル装置、ヘッドフォンと一緒のポータブル装置、5.1スピーカー構成、7.1スピーカー構成など)を決定し、エンコードされた入力信号(102)から抽出された諸ダイナミックレンジ圧縮曲線から特定のダイナミックレンジ圧縮曲線を選択するなどするよう構成されていてもよい。
ラウドネス計算器(112)は、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる一つまたは複数の型のラウドネス・レベルを計算するよう構成されていてもよい。ラウドネス・レベルの例示的な型は、これだけに限られるものではないが、個々の時間区間にわたる個々のチャネルにおける個々の周波数帯域にわたる個別ラウドネス・レベル、個々のチャネルにおける広い(または幅広い)周波数範囲にわたるブロードバンド(または広帯域)ラウドネス・レベル、あるオーディオ・データ・ブロックまたはフレームから決定されるまたはあるオーディオ・データ・ブロックまたはフレームにわたって平滑化されるラウドネス・レベル、二つ以上のオーディオ・データ・ブロックまたはフレームから決定されるまたは二つ以上のオーディオ・データ・ブロックまたはフレームにわたって平滑化されるラウドネス・レベル、一つまたは複数の時間区間にわたって平滑化されるラウドネス・レベルなどの任意のものを含む。これらのラウドネス・レベルの0個、一つまたは複数がデコーダ(100)によってダイナミックレンジ制御のために変更されてもよい。
ラウドネス・レベルを決定するために、ラウドネス計算器(112)は、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる、特定のオーディオ周波数における空間的圧力レベルなどのような一つまたは複数の時間依存の物理的音波属性を決定することができる。ラウドネス計算器(112)は、人間のラウドネス知覚をモデル化する一つまたは複数の音響心理学的関数に基づいて一つまたは複数の型のラウドネス・レベルを導出するために、前記一つまたは複数の時間変化する物理的波属性を使うことができる。音響心理学的関数は、特定のオーディオ周波数における特定の空間的圧力レベルを該特定のオーディオ周波数についての特定的ラウドネスに変換する非線形関数――人間の聴覚系のモデルに基づいて構築される――などであってもよい。
複数の(オーディオ周波数)または複数の周波数帯域にわたる(たとえばブロードバンド、広帯域などの)ラウドネス・レベルは、複数の(オーディオ)周波数または複数の周波数帯域にわたる特定的ラウドネス・レベルの積分を通じて導出されてもよい。一つまたは複数の時間区間(たとえば、オーディオ・データ・ブロックまたはフレーム中のオーディオ・データ要素によって表わされるよりも長いなど)にわたる時間平均、平滑化などされたラウドネス・レベルは、デコーダ(100)におけるオーディオ処理動作の一部として実装される一つまたは複数の平滑化フィルタを使って得られてもよい。
ある例示的実施形態では、異なる周波数帯域についての諸特定的ラウドネス・レベルは、ある(たとえば256個などの)サンプルのオーディオ・データ・ブロック毎に計算されてもよい。諸特定的ラウドネス・レベルを積分してブロードバンド(広帯域)ラウドネス・レベルにすることにおいて諸特定的ラウドネス・レベルに周波数重み付け(たとえばIEC B重み付けと同様のものなど)を適用するために前置フィルタが使われてもよい。二つ以上のチャネル(たとえば、左前方、右前方、中央、左サラウンド、右サラウンドなど)にわたる広いラウドネス・レベルの和が、該二つ以上のチャネルの全体的なラウドネス・レベルを提供するために実行されてもよい。
いくつかの実施形態では、全体的ラウドネス・レベルとは、あるスピーカー構成のあるチャネル(たとえば中央など)におけるブロードバンド(広帯域)ラウドネス・レベルを指してもよい。いくつかの実施形態では、全体的ラウドネス・レベルとは、複数のチャネルにおけるブロードバンド(または広帯域)ラウドネス・レベルを指してもよい。前記複数のチャネルは、あるスピーカー構成におけるすべてのチャネルであってもよい。追加的、任意的または代替的に、前記複数のチャネルは、あるスピーカー構成におけるチャネルの部分集合(たとえば、左前方、右前方および低域効果(LFE)を含むチャネルの部分集合、左サラウンドおよび右サラウンドを含むチャネルの部分集合、中央を含むチャネルの部分集合など)を含んでいてもよい。
(たとえばブロードバンド、広帯域、全体的、特定的などの)ラウドネス・レベルは、選択されたダイナミックレンジ圧縮曲線から対応する(たとえば静的な、平滑化前、制限前などの)DRC利得を見出すための入力として使われてもよい。DRC利得を見出すための入力として使われるラウドネス・レベルはまず、エンコードされたオーディオ信号(102)から抽出されたメタデータからのダイアログ・ラウドネス・レベルに関して調整または正規化されてもよい。いくつかの実施形態では、ダイアログ・ラウドネス・レベルの調整に関係する調整および正規化は、これに限られないが、非ラウドネス領域(たとえばSPL領域など)において、エンコードされたオーディオ信号(102)中のオーディオ・コンテンツの一部に対して、エンコードされたオーディオ信号(102)中のオーディオ・コンテンツの前記一部において表わされている特定の空間的圧力レベルがエンコードされたオーディオ信号(102)中のオーディオ・コンテンツの前記一部の特定的ラウドネス・レベルに変換またはマッピングされる前に、実行されてもよい。
いくつかの実施形態では、DRC利得ユニット(114)は、DRCアルゴリズムをもって構成され、(たとえばダイナミックレンジ制御のため、利得制限のため、利得平滑化のためなどの)利得を生成し、該利得を、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる一つまたは複数の型のラウドネス・レベルにおける一つまたは複数のラウドネス・レベルに適用して、その特定の再生環境のための目標ラウドネス・レベルを達成するなどしてもよい。本稿に記載されるような利得(たとえばDRC利得など)の適用は、必須ではないが、ラウドネス領域で生起してもよい。いくつかの実施形態では、利得はラウドネス計算(これは、ソーンまたは単にたとえば変換なしのダイアログ・ラウドネス・レベルについて補償されたSPLで表わされてもよい)に基づいて生成され、平滑化され、入力信号に直接適用されてもよい。いくつかの実施形態では、本稿に記載されるような技法は、利得をラウドネス領域の信号に適用し、次いで該信号をラウドネス領域からもとの(線形)SPL領域に変換し、ラウドネス領域において該信号に該利得が適用された前および後の該信号を評価することによって、該信号に適用されるべき対応する利得を計算してもよい。すると、比(または対数dB表現で表わされるときは差)がその信号についての対応する利得を決定する。
いくつかの実施形態では、DRCアルゴリズムは複数のDRCパラメータと一緒に動作する。DRCパラメータは、上流のエンコーダ(たとえば150など)によってすでに計算されて、エンコードされたオーディオ信号(102)中に埋め込まれており、デコーダ(100)によって、該エンコードされたオーディオ信号(102)中のメタデータから取得されることができるダイアログ・ラウドネス・レベルを含む。上流のエンコーダからのダイアログ・ラウドネス・レベルは、(たとえばプログラム毎の、フルスケール1kHz正弦波のエネルギーに対する、参照矩形波のエネルギーに対する、など)平均ダイアログ・ラウドネス・レベルを示す。いくつかの実施形態では、エンコードされたオーディオ信号(102)から抽出されたダイアログ・ラウドネス・レベルは、プログラム間でのラウドネス・レベルの相違を減らすために使用されてもよい。ある実施形態では、参照ダイアログ・ラウドネス・レベルは、デコーダ(100)における同じ特定の再生環境における異なるプログラムの間で同じ値に設定されてもよい。プログラムの複数のオーディオ・データ・ブロックにわたって平均された出力ダイアログ・ラウドネス・レベルがそのプログラムについての(たとえば事前構成設定された、システム・デフォルトの、ユーザー構成設定可能な、プロファイル依存などの)参照ダイアログ・ラウドネス・レベルまで上げられる/下げられるよう、メタデータからのダイアログ・ラウドネス・レベルに基づいて、DRC利得ユニット(114)は、ダイアログ・ラウドネス関係利得を、プログラム中の各オーディオ・データ・ブロックに適用することができる。
いくつかの実施形態では、DRC利得は、選択されたダイナミックレンジ圧縮曲線に従ってソフトおよび/またはラウドな音における諸信号部分をブーストまたはカットすることによって、プログラム内のラウドネス・レベルの相違に対処するために使用されてもよい。これらのDRC利得の一つまたは複数は、対応するオーディオ・データ・ブロック、オーディオ・データ・フレームなどの一つまたは複数から決定される選択されたダイナミックレンジ圧縮曲線および(ブロードバンド、広帯域、全体的、特定的などの)ラウドネス・レベルに基づいてDRCアルゴリズムによって計算/決定されてもよい。
選択されたダイナミックレンジ圧縮曲線を検索することによって(たとえば静的な、平滑化前の、利得制限前の、などの)DRC利得を決定するために使われるラウドネス・レベルは、短い区間(たとえば約5.3ミリ秒など)上で計算されてもよい。人間の聴覚系の積分時間(たとえば約200ミリ秒など)はずっと長いことがありうる。選択されたダイナミックレンジ圧縮曲線から得られるDRC利得は、人間の聴覚系の長い積分時間を考慮に入れるため、ある時定数をもって平滑化されてもよい。ラウドネス・レベルにおける変化(増大または減少)の速いレートを実施するためには、短い時定数に対応する短い時間区間においてラウドネス・レベルの変化を引き起こすよう、短い時定数が使われてもよい。逆に、ラウドネス・レベルにおける変化(増大または減少)の遅いレートを実施するためには、長い時定数に対応する長い時間区間においてラウドネス・レベルを変化させるよう、長い時定数が使われてもよい。
人間の聴覚系は、増大するラウドネス・レベルと減少するラウドネス・レベルに異なる積分時間をもって反応することがある。いくつかの実施形態では、選択されたダイナミックレンジ圧縮曲線から検索される静的なDRC利得を平滑化するために、ラウドネス・レベルが増大しているのか減少しているのかに依存して異なる時定数が使われてもよい。たとえば、人間の聴覚系の特性に相応して、アタック(ラウドネス・レベルの増大)は相対的に短い時定数(たとえばアタック時間など)をもって平滑化され、一方、リリース(ラウドネス・レベルの減少)は相対的に長い時定数(たとえばリリース時間など)をもって平滑化される。
オーディオ・コンテンツの一部(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームなどの一つまたは複数)についてのDRC利得は、オーディオ・コンテンツの前記一部から決定されるラウドネス・レベルを使って計算されてもよい。選択されたダイナミックレンジ圧縮曲線における検索のために使われるべきラウドネス・レベルは、まず、エンコードされたオーディオ信号(102)から抽出されたメタデータにおける(たとえばそのオーディオ・コンテンツが一部をなすプログラムなどの)ダイアログ・ラウドネス・レベルに関して(たとえばそれとの関係で、など)調整されてもよい。
参照ダイアログ・ラウドネス・レベル(たとえば、「ライン」モードでは−31dBFS、「RF」モードでは−20dBFSなど)は、デコーダ(100)における特定の再生環境のために指定または確立されてもよい。追加的、代替的または任意的に、いくつかの実施形態では、ユーザーは、デコーダ(100)における参照ダイアログ・ラウドネス・レベルを設定または変更することに対して制御を与えられてもよい。
DRC利得ユニット(114)は、入力ダイアログ・ラウドネス・レベルから、出力ダイアログ・ラウドネス・レベルとしての参照ダイアログ・ラウドネス・レベルへの変化を引き起こすよう、オーディオ・コンテンツに対するダイアログ・ラウドネス関係利得を決定するよう構成されることができる。
いくつかの実施形態では、DRC利得ユニット(114)は、デコーダ(100)における特定の再生環境におけるピーク・レベルを扱うよう構成されていてもよく、クリッピングを防止するようDRC利得を調整する。いくつかの実施形態では、第一のアプローチのもとでは、エンコードされたオーディオ信号(102)から抽出されたオーディオ・コンテンツが、デコーダにおける特定のスピーカー構成のチャネルより多くのチャネルをもつ参照マルチチャネル構成のためのオーディオ・データ要素を含む場合には、クリッピング防止のためにピーク・レベルを判別して処理する前に、参照マルチチャネル構成から特定のスピーカー構成ダウンミックスが実行されてもよい。追加的、任意的または代替的に、いくつかの実施形態では、第二のアプローチのもとでは、エンコードされたオーディオ信号(102)から抽出されたオーディオ・コンテンツが、デコーダにおける特定のスピーカー構成のチャネルより多くのチャネルをもつ参照マルチチャネル構成のためのオーディオ・データ要素を含む場合には、デコーダ(100)における特定のスピーカー構成のためのピーク・レベルを得るために、ダウンミックスの式(たとえば、ITUステレオ・ダウンミックス、行列処理されるサラウンド互換ダウンミックス(matrixed-surround compatible downmix)など)が使われてもよい。ピーク・レベルは、入力ダイアログ・ラウドネス・レベルから、出力ダイアログ・ラウドネス・レベルとしての参照ダイアログ・ラウドネス・レベルへの変化を反映するよう調整されてもよい。(たとえばあるオーディオ・データ・ブロックについての、あるオーディオ・データ・フレームについての、などの)クリッピングを引き起こさない最大許容される利得が、少なくとも部分的にはピーク・レベルの逆数(たとえば−1を乗算されるなどする)に基づいて決定されてもよい。このように、本稿に記載される技法のもとのオーディオ・デコーダは、正確にピーク・レベルを決定し、デコーダ側の再生構成のために特にクリッピング防止を適用するよう構成されることができる。オーディオ・デコーダもオーディオ・エンコーダも、仮定のデコーダにおける最悪ケースのシナリオについての仮定の想定をする必要はない。特に、上記の第一のアプローチにおけるデコーダは、ダウンミックスの式、ダウンミックス・チャネル利得など(これは上記のように第二のアプローチのもとでは使われる)を使うことなく、正確にピーク・レベルを決定し、ダウンミックス後のクリッピング防止を適用することができる。
いくつかの実装では、ダイアログ・ラウドネス・レベルおよびDRC利得への調整の組み合わせが、たとえ最悪ケースのダウンミックス(たとえば、ダウンミックス後の最大ピーク・レベルを生成するもの、最大のダウンミックス・チャネル利得を生成するものなど)においてでも、ピーク・レベルのクリッピングを防止する。しかしながら、他のいくつかの実施形態では、ダイアログ・ラウドネス・レベルおよびDRC利得への調整の組み合わせでも、ピーク・レベルのクリッピングを防止するのに十分ではないことがある。これらの実施形態では、DRC利得は、ピーク・レベルにおけるクリッピングを防止する最高の利得によって置換されてもよい(たとえばキャップされてもよい、など)。
いくつかの実施形態では、DRC利得ユニット(114)は、エンコードされたオーディオ信号(102)から抽出されたメタデータから時定数(たとえばアタック時間、リリース時間など)を得るよう構成される。DRC利得、時定数、最大許容利得などは、DRC、利得平滑化、利得制限などを実行するために、DRC利得ユニット(114)によって使用されてもよい。
たとえば、DRC利得の適用は、ある時定数によって制御されるフィルタをもって平滑化されてもよい。利得制限動作は、適用されるべき利得と最大許容利得との小さなほうを該利得について取るmin()関数によって実装されてもよい。この関数を通じて、(たとえば制限前の、DRCなどの)利得はすぐに、比較的短い時間区間にわたって、などで、最大許容利得によって置換されてもよい。それによりクリッピングが防止される。
いくつかの実施形態では、オーディオ・レンダラー(108)は、DRC、利得制限、利得平滑化などに基づいて決定された利得をエンコードされたオーディオ信号(102)から抽出された入力オーディオ・データに適用した後、その特定のスピーカー構成についての(たとえばマルチチャネルなどの)チャネル固有のオーディオ・データ(116)を生成するよう構成される。チャネル固有のオーディオ・データ(118)は、当該スピーカー構成において表わされているスピーカー、ヘッドフォンなどを駆動するために使われてもよい。
追加的および/または任意的に、いくつかの実施形態では、デコーダ(100)は、入力オーディオ・データに関係する前処理、後処理、レンダリングなどに関係する、一つまたは複数の他の動作を実行するよう構成されることができる。
本稿に記載される技法は、多様な異なるサラウンドサウンド構成に対応する多様なスピーカー構成(たとえば、2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.2、10.2、10-60スピーカー構成、60+スピーカー構成、オブジェクト信号または諸オブジェクト信号の組み合わせなど)および多様な異なるレンダリング環境構成(たとえば、映画館、公園、歌劇場、コンサートホール、バー、家庭、講堂など)と一緒に使用されることができる。
〈4.オーディオ・エンコーダ〉
図1Bは例示的なエンコーダ150を示している。エンコーダ(150)は、オーディオ・コンテンツ・インターフェース152、ダイアログ・ラウドネス解析器154、DRC参照貯蔵部156、オーディオ信号エンコーダ158などを有していてもよい。エンコーダ150は、放送システム、インターネット・ベースのコンテンツ・サーバー、無線経由(over-the-air)ネットワーク事業者システム、映画制作システムなどの一部であってもよい。
いくつかの実施形態では、オーディオ・コンテンツ・インターフェース(152)は、オーディオ・コンテンツ160、オーディオ・コンテンツ制御入力162などを受領し、少なくとも部分的にはオーディオ・コンテンツ(160)、オーディオ・コンテンツ制御入力(162)の一部または全部に基づいて、エンコードされたオーディオ信号(たとえば102)を生成するなどするよう構成されている。たとえば、オーディオ・コンテンツ・インターフェース(152)は、オーディオ・コンテンツ(160)、オーディオ・コンテンツ制御入力(162)をコンテンツ・クリエーター、コンテンツ・プロバイダーなどから受領するために使われてもよい。
オーディオ・コンテンツは、オーディオのみ、オーディオビジュアルなどを含む全体的なメディア・データの一部または全部をなしてもよい。オーディオ・コンテンツ(160)は、プログラムの諸部分、プログラム、いくつかのプログラム、一つまたは複数のコマーシャルなどのうちの一つまたは複数を含んでいてもよい。
いくつかの実施形態では、ダイアログ・ラウドネス解析器(154)は、オーディオ・コンテンツ(152)の一つまたは複数の部分(たとえば一つまたは複数のプログラム、一つまたは複数のコマーシャルなど)の一つまたは複数のダイアログ・ラウドネス・レベルを決定/確立するよう構成されている。いくつかの実施形態では、オーディオ・コンテンツは、オーディオ・トラックの一つまたは複数の集合によって表わされる。いくつかの実施形態では、オーディオ・コンテンツのダイアログ・オーディオ・コンテンツは、別個のオーディオ・トラックにある。いくつかの実施形態では、オーディオ・コンテンツの少なくとも一部は、非ダイアログ・オーディオ・コンテンツを含むオーディオ・トラックにある。
オーディオ・コンテンツ制御入力(162)は、ユーザー制御入力、エンコーダ(150)にとって外部のシステム/装置によって提供される制御入力、コンテンツ・クリエーターからの制御入力、コンテンツ・プロバイダーからの制御入力などの一部または全部を含んでいてもよい。たとえば、ミキシング・エンジニアなどのようなユーザーが、一つまたは複数のダイナミックレンジ圧縮曲線識別子を提供/指定することができる。それらの識別子は、DRC参照貯蔵部(156)などのようなデータ貯蔵部からオーディオ・コンテンツ(160)に最もよく当てはまる一つまたは複数のダイナミックレンジ圧縮曲線を取り出すために使われてもよい。
いくつかの実施形態では、DRC参照貯蔵部(156)は、DRC参照パラメータ集合などを記憶するよう構成されている。それらのDRC参照パラメータ集合は、一つまたは複数のダイナミックレンジ圧縮曲線などについての定義データを含んでいてもよい。いくつかの実施形態では、エンコーダ(150)は、(たとえば同時並行などで)二つ以上のダイナミックレンジ圧縮曲線をエンコードされたオーディオ信号(102)中にエンコードしてもよい。それらのダイナミックレンジ圧縮曲線のうちの0個、一つまたは複数は標準ベースのもの、独自のもの、カスタマイズされたもの、デコーダで修正可能なものなどであってもよい。ある例示的実施形態では、図2Aおよび図2Bのダイナミックレンジ圧縮曲線両方が、エンコードされたオーディオ信号(102)中に(たとえば同時並行などで)エンコードされることができる。
いくつかの実施形態では、オーディオ信号エンコーダ(158)は、オーディオ・コンテンツ・インターフェース(152)からのオーディオ・コンテンツ、ダイアログ・ラウドネス解析器(154)からのダイアログ・ラウドネス・レベルなどを受領し、DRC参照貯蔵部(156)から一つまたは複数のDRC参照パラメータ集合を取り出し、オーディオ・コンテンツをオーディオ・データ・ブロック/フレームにフォーマットし、ダイアログ・ラウドネス・レベル、DRC参照パラメータ集合などをメタデータ(たとえば、メタデータ・コンテナ、メタデータ・フィールド、メタデータ構造など)にフォーマットし、オーディオ・データ・ブロック/フレームおよびメタデータを、エンコードされたオーディオ信号(102)にエンコードするなどするよう構成されることができる。
本稿に記載されるようにエンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツは、無線で、有線接続を介して、ファイルを通じて、インターネット・ダウンロードを介してなどの多様な方法の一つまたは複数で多様な源オーディオ・フォーマットの一つまたは複数において受領されうる。
本稿に記載されるエンコードされたオーディオ信号は、(たとえばオーディオ放送、オーディオ・プログラム、オーディオビジュアル・プログラム、オーディオビジュアル放送などのための)全体的なメディア・データ・ビットストリームの一部であることができる。メディア・データ・ビットストリームは、サーバー、コンピュータ、メディア記憶装置、メディア・データベース、メディア・ファイルなどからアクセスされることができる。メディア・データ・ビットストリームは、一つまたは複数の無線または有線のネットワーク・リンクを通じて放送、送信または受信されてもよい。メディア・データ・ビットストリームは、ネットワーク接続、USB接続、広域ネットワーク、ローカル・エリア・ネットワーク、無線接続、光学式接続、バス、クロスバー接続、シリアル接続などの一つまたは複数のような媒介部を通じて通信されてもよい。
(たとえば図1A、図1Bなどに)描かれているコンポーネントの任意のものは、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、一つまたは複数のプロセスおよび/または一つまたは複数のIC回路(たとえばASIC、FPGAなど)として実装されてもよい。
〈5.ダイナミックレンジ圧縮曲線〉
図2Aおよび図2Bは、入力ラウドネス・レベルからDRC利得を導出するためにデコーダ(100)中のDRC利得ユニット(104)によって使用されることのできる例示的なダイナミックレンジ圧縮曲線を示している。図のように、ダイナミックレンジ圧縮曲線は、特定の再生環境のために適切な全体的な利得を提供するために、プログラムにおける参照ラウドネス・レベルを中心としていてもよい。ダイナミックレンジ圧縮曲線の例示的な定義データ(たとえば、エンコードされたオーディオ信号102のメタデータ内など)(たとえば、これだけに限られないが、ブースト比、カット比、アタック時間、リリース時間などを含む)が下記の表に示される。ここで、複数のプロファイル(たとえば、フィルム・スタンダード(film standard)、フィルム・ライト(film light)、音楽スタンダード(music standard)、音楽ライト(music light)、発話(speech)など)における各プロファイルは、(たとえばデコーダ100などにおける)特定の再生環境を表わす。
Figure 2016536919
いくつかの実施形態は、dBSPLまたはdBFSで表わされたラウドネス・レベルおよびdBSPLに関するdBで表わされた利得を用いて記述される一つまたは複数の圧縮曲線を受領してもよい。一方、DRC利得は、dBSPLラウドネス・レベルと非線形関係をもつ異なるラウドネス表現(たとえばソーン)で実行される。その際、DRC利得計算において使われる圧縮曲線は、該異なるラウドネス表現(たとえばソーン)を用いて記述されるよう変換されてもよい。
〈6.DRC利得、利得制限および利得平滑化〉
図3は、組み合わされたDRCおよび制限利得の決定/計算の例示的な処理論理を示す。処理論理は、デコーダ(100)、エンコーダ(150)などによって実装されてもよい。単に例解のため、デコーダ(たとえば100など)におけるDRC利得ユニット(たとえば114)が該処理論理を実装するために使われてもよい。
オーディオ・コンテンツの一部(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームの一つまたは複数など)についてのDRC利得は、オーディオ・コンテンツの該一部から決定されたラウドネス・レベルを使って計算されてもよい。ラウドネス・レベルはまず、エンコードされたオーディオ信号(102)から抽出されたメタデータにおける(たとえばそのオーディオ・コンテンツが一部となるプログラムなどの)ダイアログ・ラウドネス・レベルに関して(たとえば、それとの関係で、など)調整されてもよい。図3に示した例では、オーディオ・コンテンツの前記一部のラウドネス・レベルと前記ダイアログ・ラウドネス・レベル(「dialnorm」)との間の差が、選択されたダイナミックレンジ圧縮曲線からDRC利得を見出すための入力として使用されてもよい。
その特定の再生環境における出力オーディオ・データ要素のクリッピングを防止するために、DRC利得ユニット(114)は、(たとえばエンコードされたオーディオ信号102およびデコーダ100における再生環境の特定の組み合わせに固有の、などの)特定の再生シナリオにおけるピーク・レベルを扱うよう構成されていてもよい。該再生シナリオは、多様な可能な再生シナリオ(たとえばマルチチャネル・シナリオ、ダウンミックス・シナリオなど)のうちの一つであってもよい。
いくつかの実施形態では、特定の時間分解能でのオーディオ・コンテンツの個々の部分(たとえば、オーディオ・データ・ブロック、いくつかのオーディオ・データ・ブロック、オーディオ・データ・フレームなど)についての個々のピーク・レベルが、エンコードされたオーディオ信号(102)から抽出されたメタデータの一部として提供されてもよい。
いくつかの実施形態では、DRC利得ユニット(114)は、これらのシナリオにおけるピーク・レベルを判別するよう構成されていることができ、必要ならDRC利得を調整する。DRC利得の計算の間、オーディオ・コンテンツのピーク・レベルを決定するために、DRC利得ユニット(114)によって並列プロセスが使用されてもよい。たとえば、オーディオ・コンテンツは、デコーダ(100)によって使用される特定のスピーカー構成のチャネルより多くのチャネルをもつ参照マルチチャネル構成のためにエンコードされてもよい。参照マルチチャネル構成の該より多くのチャネルのためのオーディオ・コンテンツは、ダウンミックスされたオーディオ・データ(たとえば、ITUステレオ・ダウンミックス、行列処理されるサラウンド互換ダウンミックス(matrixed-surround compatible downmix)など)に変換されて、デコーダ(100)における特定のスピーカー構成のためのより少ないチャネルを導出してもよい。いくつかの実施形態では、第一のアプローチのもとでは、参照マルチチャネル構成から特定のスピーカー構成へのダウンミックスは、クリッピング防止のためにピーク・レベルを判別して処理する前に実行されてもよい。追加的、任意的または代替的に、いくつかの実施形態では、第二のアプローチのもとでは、オーディオ・コンテンツをダウンミックスすることに関係するダウンミックス・チャネル利得が、その特定のスピーカー構成のためのピーク・レベルを調整、導出、計算などするための入力の一部として使われてもよい。ある例示的実施形態では、ダウンミックス・チャネル利得は、参照マルチチャネル構成からデコーダ(100)における再生環境における特定のスピーカー構成へのダウンミックス動作を実行するために使われる一つまたは複数のダウンミックスの式に少なくとも部分的には基づいて導出されてもよい。
いくつかのメディア・アプリケーションでは、参照ダイアログ・ラウドネス・レベル(たとえば、「ライン」モードでは−31dBFS、「RF」モードでは−20dBFSなど)は、デコーダ(100)における特定の再生環境のために指定または想定されてもよい。いくつかの実施形態では、ユーザーは、デコーダ(100)における参照ダイアログ・ラウドネス・レベルを設定または変更することに対して制御を与えられてもよい。
(たとえば出力の)ダイアログ・ラウドネス・レベルを参照ダイアログ・ラウドネス・レベルに調整するために、ダイアログ・ラウドネス関係利得がオーディオ・コンテンツに適用されてもよい。この調整を反映するために、ピーク・レベルはしかるべく調整されるべきである。一例では、(入力)ダイアログ・ラウドネス・レベルは−23dBFSであってもよい。参照ダイアログ・ラウドネス・レベルが−31dBFSの「ライン」モードでは、参照ダイアログ・ラウドネス・レベルの出力ダイアログ・ラウドネス・レベルを生じるために、(入力)ダイアログ・ラウドネス・レベルへの調整は−8dBである。この「ライン」モードでは、ピーク・レベルへの調整も−8dBであり、ダイアログ・ラウドネス・レベルへの調整と同じである。参照ダイアログ・ラウドネス・レベルが−20dBFSの「RF」モードでは、参照ダイアログ・ラウドネス・レベルの出力ダイアログ・ラウドネス・レベルを生じるために、(入力)ダイアログ・ラウドネス・レベルへの調整は3dBである。この「RF」モードでは、ピーク・レベルへの調整も3dBであり、ダイアログ・ラウドネス・レベルへの調整と同じである。
ピーク・レベルと、参照ダイアログ・ラウドネス・レベル(「dialref」と記される)とエンコードされたオーディオ信号(102)からのメタデータ内のダイアログ・ラウドネス・レベル(「dialnorm」)との間の差の和が、DRC利得についての最大(たとえば許容されるなど)利得を計算するための入力として使われてもよい。調整されたピーク・レベルは(0dBFSのクリッピング・レベルに対して)dBFSで表わされるので、(たとえば、現在のオーディオ・データ・ブロックについての、現在のオーディオ・データ・フレームについての、などの)クリッピングを起こさない最大許容利得は、単に調整されたピーク・レベルの逆数である(たとえば、−1を乗算されるなど)。
いくつかの実施形態では、たとえDRC利得が導出されるもとになったダイナミックレンジ圧縮曲線がラウドな音をある程度カットするよう設計されていたとしても、ピーク・レベルはクリッピング・レベル(0dBFSで表わされる)を超えることがある。いくつかの実施形態では、ダイアログ・ラウドネス・レベルとDRC利得への調整の組み合わせは、たとえ最悪ケースのダウンミックス(たとえば、最大のダウンミックス・チャネル利得を生成するものなど)においてでも、ピーク・レベルのクリッピングを防止する。しかしながら、他のいくつかの実施形態では、ダイアログ・ラウドネス・レベルおよびDRC利得への調整の組み合わせでも、ピーク・レベルのクリッピングを防止するのに十分ではないことがある。これらの実施形態では、DRC利得は、ピーク・レベルにおけるクリッピングを防止する最高の利得によって置換されてもよい(たとえばキャップされてもよい、など)。
いくつかの実施形態では、DRC利得ユニット(114)は、エンコードされたオーディオ信号(102)から抽出されたメタデータから時定数(たとえばアタック時間、リリース時間など)を得るよう構成される。これらの時定数は、オーディオ・コンテンツのダイアログ・ラウドネス・レベルまたは現在のラウドネス・レベルのうちの一つまたは複数とともに変わっても変わらなくてもよい。ダイナミックレンジ圧縮曲線から検索されるDRC利得、時定数、最大利得は、利得平滑化および制限動作を実行するために使用されてもよい。
いくつかの実施形態では、可能性としては利得制限されていてもよいDRC利得は、特定の再生環境における最大ピーク・ラウドネス・レベルを超えない。ラウドネス・レベルから導出される静的なDRC利得は、時定数によって制御されるフィルタをもって平滑化されてもよい。制限動作は、一つまたは複数のmin()関数によって実装されてもよい。この関数を通じて、(たとえば制限前の)DRC利得はすぐに、比較的短い時間区間にわたって、などで、最大許容利得によって置換されてもよい。それによりクリッピングが防止される。DRCアルゴリズムは、はいってくるオーディオ・コンテンツのピーク・レベルがクリッピング・レベル超からクリッピング・レベル未満に移行するにつれ、前記クリッピング利得からより低い利得へとなめらかにリリースするよう構成されていてもよい。
図3に示されるDRC利得の決定/計算/適用を実行するために、一つまたは複数の異なる(たとえばリアルタイム、2パスなどの)実装が使用されてもよい。単に例解のため、ダイアログ・ラウドネス・レベル、(たとえば静的などの)DRC利得、平滑化に起因する時間依存する利得変動、制限に起因する利得クリッピングなどへの調整は、上記のDRCアルゴリズムからの組み合わされた利得として記述されてきた。しかしながら、さまざまな実施形態において、(たとえば異なるプログラムの間などの)ダイアログ・ラウドネス・レベルの制御のため、(たとえば同じプログラムの異なる部分のためなどの)ダイナミックレンジ制御のため、クリッピングを防止するため、利得平滑化のためなどでオーディオ・コンテンツに利得を適用する他のアプローチが使用されてもよい。たとえば、ダイアログ・ラウドネス・レベル、(たとえば静的などの)DRC利得、平滑化に起因する時間依存する利得変動、制限に起因する利得クリッピングなどへの調整の一部または全部は、部分的/個々に適用される、直列的に適用される、並列に適用される、部分的には直列に部分的には並列に適用されるなどすることができる。
〈7.入力平滑化および利得平滑化〉
DRC利得平滑化に加えて、さまざまな実施形態において、本稿に記載される技法のもとでの他の平滑化プロセスが実装されてもよい。一例では、入力平滑化が使われてもよく、エンコードされたオーディオ信号(102)から抽出された入力オーディオ・データをたとえば単純な単極平滑化フィルタを用いて平滑化して、入力平滑化なしの特定的ラウドネス・レベルのスペクトルよりよい時間的特性をもつ(たとえば、時間的によりなめらかである、時間的にスパイクがより少ない、など)特定的ラウドネス・レベルのスペクトルを得てもよい。
いくつかの実施形態では、本稿に記載される異なる平滑化プロセスは異なる時定数(たとえば1秒、4秒など)を使うことができる。いくつかの実施形態では、二つ以上の平滑化プロセスは同じ時定数を使うことができる。いくつかの実施形態では、本稿に記載される平滑化プロセスにおいて使われる時定数は周波数依存であってもよい。いくつかの実施形態では、本稿に記載される平滑化プロセスで使われる時定数は周波数独立であってもよい。
一つまたは複数の平滑化プロセスは、該一つまたは複数の平滑化プロセスの自動的または手動のリセットをサポートするリセット・プロセスに接続されてもよい。いくつかの実施形態では、リセット・プロセスにおいてリセットが生起するとき、平滑化プロセスは、より小さな時定数に切り換えるまたは移行することによって平滑化動作を速くしてもよい。いくつかの実施形態では、リセット・プロセスにおいてリセットが生起するとき、平滑化プロセスのメモリはある値にリセットされてもよい。この値は、平滑化プロセスへの最後の入力サンプルであってもよい。
〈8.複数周波数帯域にわたるDRC〉
いくつかの実施形態では、特定的な諸周波数帯域における特定的な諸ラウドネス・レベルが、それらの特定の周波数帯域における対応するDRC利得を導出するために使われることができる。しかしながら、これは、音色の変化につながることがある。それらの特定的ラウドネス・レベルは異なる帯域において著しく変わることがあり、よって、たとえ全周波数帯域にわたるブロードバンド(または広帯域)ラウドネス・レベルが一定のままであるときでも、異なるDRC利得を被ることがあるからである。
いくつかの実施形態では、個々の周波数帯域とともに変わるDRC利得を適用するのではなく、周波数帯域とともには変わらないが時間とともに変わるDRC利得が代わりに適用される。同じ時間変化するDRC利得が、周波数帯域すべてにわたって適用される。時間変化するDRC利得の時間平均されたDRC利得は、ブロードバンド(または広帯域)範囲または複数の周波数帯域にわたるブロードバンド、広帯域および/または全体的なラウドネス・レベルに基づいて前記選択されたダイナミックレンジ圧縮曲線から導出される静的なDRC利得と同じに設定されてもよい。結果として、他のアプローチにおいて異なる周波数帯域において異なるDRC利得を適用することによって引き起こされうる音色効果への変化を防ぐことができる。
いくつかの実施形態では、個々の周波数帯域におけるDRC利得は、ブロードバンド(または広帯域)ラウドネス・レベルに基づいて決定されるブロードバンド(または広帯域)DRC利得を用いて制御される。個々の周波数帯域におけるDRC利得は、ブロードバンド(または広帯域)ラウドネス・レベルに基づいてダイナミックレンジ圧縮曲線において見出されるブロードバンド(または広帯域)DRCのまわりで動作してもよい。よって、ある時間区間(たとえば、5.3ミリ秒、20ミリ秒、50ミリ秒、80ミリ秒、100ミリ秒などより長い)にわたって時間平均された個々の周波数帯域におけるDRC利得は、ダイナミックレンジ圧縮曲線において示されるブロードバンド(広帯域)レベルと同じである。いくつかの実施形態では、時間平均されたDRC利得から逸脱する、前記ある時間区間に対する短い時間区間にわたるラウドネス・レベル揺動は、諸チャネルおよび/または諸周波数帯域の間で、許容可能である。このアプローチは、ダイナミックレンジ圧縮曲線において示される正しいマルチチャネルおよび/またはマルチ帯域の時間平均されたDRC利得の適用を保証し、短い時間区間におけるDRC利得が、ダイナミックレンジ圧縮曲線において示されるそのような時間平均されたDRC利得からあまりに大きく逸脱することを防止する。
〈9.ラウドネス領域でのボリューム調整〉
本稿に記載される技法を実装しない他のアプローチのもとでのオーディオ励起信号にボリューム調整のための線形処理を適用することは、低い可聴信号レベルを聞こえなくすることがありうる(たとえば、人間の聴覚系の周波数依存の聴覚閾値を下回るなど)。
本稿に記載される技法のもとでは、オーディオ・コンテンツのボリューム調整は、物理領域(たとえばdBSPL表現などをもつ)ではなくラウドネス領域(たとえばソーン表現などをもつ)でなされるまたは実装されることができる。いくつかの実施形態では、すべてのボリューム・レベルにおいてすべての帯域の間でラウドネス・レベル関係の知覚的品質および/または無欠性(integrity)を維持するために、すべての帯域のラウドネス・レベルがラウドネス領域において同じ因子をもってスケーリングされる。本稿に記載される、ラウドネス領域で利得を設定および調整することに基づくボリューム調整は、異なる周波数帯域におけるオーディオ励起信号に異なるスケーリング因子を適用する物理領域における(または物理領域を表わすデジタル領域における)非線形処理に変換し戻され、該非線形処理を通じて実装されてもよい。本稿に記載される技法のもとでのラウドネス領域におけるボリューム調整から変換された物理領域における非線形処理は、オーディオ・コンテンツにおける低い可聴レベルの大半または全部が聞こえなくなることを防ぐDRC利得をもって、オーディオ・コンテンツのラウドネス・レベルを減衰させるまたは向上させる。いくつかの実施形態では、プログラム内でのラウドな音とソフトな音の間のラウドネス・レベルの差が、低い可聴信号レベルを人間の聴覚系の聴覚閾値より上に維持するこれらのDRC利得を用いて、低減される――だが知覚的になくされはしない。いくつかの実施形態では、大きな範囲のボリューム・レベルにわたってスペクトル知覚および知覚される音色などの類似性を維持するために、低いボリューム・レベルにおいて、聴覚の閾値に近い励起信号レベルをもつ周波数または周波数帯域は、より少なく減衰させられ、よって、知覚的に可聴である。
本稿に記載される技法は、物理領域(または物理領域を表わすデジタル領域)における信号レベル、利得などと、ラウドネス領域におけるラウドネス・レベル、利得などとの間の変換(たとえば行ったり来たりの変換など)を実装してもよい。これらの変換は、人間の聴覚系のモデルに基づいて構築された一つまたは複数の非線形関数(たとえば、マッピング、曲線、区分線形セグメント、ルックアップテーブルなど)の順変換および逆変換バージョンに基づいていてもよい。
〈10.差分利得による利得プロファイル〉
いくつかの実施形態では、本稿に記載されるオーディオ・エンコーダ(たとえば150など)は、下流のオーディオ・デコーダにプロファイル関係メタデータを提供するよう構成される。たとえば、プロファイル関係メタデータは、オーディオ・コンテンツと一緒にオーディオ関係メタデータの一部として、エンコードされたオーディオ信号中で担持されてもよい。
本稿に記載されるプロファイル関係メタデータは、複数の利得プロファイルについての定義データを含むがそれに限定されるものではない。前記複数の利得プロファイルにおける一つまたは複数の第一の利得プロファイル(一つまたは複数のデフォルト利得プロファイルと記される)は、一つまたは複数の対応するDRC曲線(一つまたは複数のデフォルトDRC曲線と記される)によって表わされる。その定義データは、プロファイル関係メタデータに含まれる。前記複数の利得プロファイルにおける一つまたは複数の第二の利得プロファイル(一つまたは複数の非デフォルト利得プロファイルと記される)は、前記一つまたは複数のデフォルトDRC曲線に関する差分利得の一つまたは複数の対応する集合によって表わされる。その定義データは、プロファイル関係メタデータに含まれる。より具体的には、(たとえば、プロファイル関係メタデータ中などの)デフォルトDRC曲線は、デフォルト利得プロファイルを表わすために使用でき、デフォルト利得プロファイルに関する(たとえば、プロファイル関係メタデータ中などの)差分利得の集合は、非デフォルト利得プロファイルを表わすために使用されることができる。
いくつかの実施形態では、デフォルト利得プロファイルを表わすデフォルトDRC曲線との関係で非デフォルト利得プロファイルを表わす差分利得の集合は、前記非デフォルト利得プロファイルのために生成された非差分の(たとえば非デフォルトなど)利得の集合と、前記デフォルト利得プロファイルのために生成された非差分の(たとえばデフォルトなど)利得の集合との間の利得差(または利得調整)を含む。非差分利得の例は、これだけに限られないが、ヌル利得、DRC利得または減衰、ダイアログ正規化に関する利得または減衰、利得制限に関する利得または減衰、利得平滑化に関する利得または減衰などを含む。本稿に記載される利得(たとえば非差分利得、差分利得など)は、時間依存であってもよく、時間とともに変化する値を有していてもよい。
利得プロファイル(たとえば、デフォルト利得プロファイル、非デフォルト利得プロファイルなど)についての非差分利得の集合を生成するために、本稿に記載されるオーディオ・エンコーダは、利得プロファイルに固有の一組の利得生成動作を実行してもよい。該一組の利得生成動作は、DRC動作、利得制限動作、利得平滑化動作などを含んでいてもよい。これは、(1)すべての利得プロファイルにグローバルに適用可能;(2)一つまたは複数だが全部ではない利得プロファイルに固有、一つまたは複数のデフォルトDRC曲線に固有;(3)一つまたは複数の非デフォルトDRC曲線に固有;(4)対応する(たとえばデフォルト、非デフォルトなど)利得プロファイルに固有;(5)メディア符号化フォーマット、メディア規格、メディア独自仕様などによってサポートされるパラメータ化の限界を超えるアルゴリズム、曲線、関数、動作、パラメータなどの一つまたは複数に関係する;(6)出回っているオーディオ・デコード装置においてまだ一般には実装されていないアルゴリズム、曲線、関数、動作、パラメータなどの一つまたは複数に関係する、動作のうちの任意のものを含むがそれに限定されるものではない。
いくつかの実施形態では、オーディオ・デコーダ(150)は、少なくとも部分的には(たとえば、エンコードされたオーディオ信号のプロファイル関係メタデータにおける定義データなどによる)デフォルトDRC曲線によって表わされるデフォルト利得プロファイルおよび該デフォルト利得プロファイルとは異なる非デフォルト利得プロファイルに基づいて、オーディオ・コンテンツ(152)のための差分利得の集合を決定し、差分利得の前記集合を、前記非デフォルト利得プロファイルの(たとえば前記デフォルトDRC曲線などに対する)表現として、エンコードされたオーディオ信号におけるプロファイル関係メタデータの一部として含めるよう構成されることができる。デフォルトDRC曲線との関係での、エンコードされたオーディオ信号におけるプロファイル関係メタデータから抽出された差分利得の前記集合は、受領側オーディオ・デコーダによって、デフォルトDRC曲線との関係で差分利得の前記集合によって表わされる特定の利得プロファイルについての再生環境またはシナリオにおいて利得動作(または減衰動作)を効率的かつ一貫して実行するために、使用されることができる。これは、受領側のオーディオ・デコーダが一組の利得生成動作を実装することを要求することなく、受領側のオーディオ・デコーダがその特定の利得プロファイルについての利得または減衰を適用できるようにする。該利得または減衰を生成するために、一組の利得生成動作は、オーディオ・エンコーダ(150)において実装されることができる。
いくつかの実施形態では、差分利得の一つまたは複数の集合が、オーディオ・エンコーダ(150)によってプロファイル関係メタデータに含められてもよい。差分利得の一つまたは複数の集合のそれぞれは、一つまたは複数のデフォルト利得プロファイルの一つにおける対応するデフォルト利得プロファイルとの関係で一つまたは複数の非デフォルト利得プロファイルにおける対応する非デフォルト利得プロファイルから導出されてもよい。たとえば、差分利得の前記一つまたは複数の集合における差分利得の第一の集合が、第一のデフォルト利得プロファイルとの関係での第一の非デフォルト利得プロファイルから導出されてもよく、一方、差分利得のそれらの集合における差分利得の第二の集合が、第二のデフォルト利得プロファイルとの関係での第二の非デフォルト利得プロファイルから導出されてもよい。
いくつかの実施形態では、差分利得の前記第一の集合は、前記第一の非デフォルト利得プロファイルに基づいて生成された非差分非デフォルト利得の第一の集合と、前記第一のデフォルト利得プロファイルに基づいて生成された非差分デフォルト利得の第一の集合との間で決定される第一の利得差分(または利得調整)を含む。一方、差分利得の前記第二の集合は、前記第二の非デフォルト利得プロファイルに基づいて生成された非差分非デフォルト利得の第二の集合と、前記第二のデフォルト利得プロファイルに基づいて生成された非差分デフォルト利得の第二の集合との間で決定される第二の利得差分を含む。
前記第一のデフォルト利得プロファイルおよび前記第二のデフォルト利得プロファイルは同じであってもよく(たとえば、同じ一組の利得生成動作とともに同じデフォルトDRC曲線によって表わされるなど)、あるいは異なっていてもよい(たとえば、異なるデフォルトDRC曲線によって表わされる、異なる組の利得生成動作とともに、あるデフォルトDRCによって表わされるなどなど)。さまざまな実施形態において、追加的、任意的または代替的に、前記第一の非デフォルト利得プロファイルは、前記第二の非デフォルト利得プロファイルと同じであってもなくてもよい。
オーディオ・エンコーダ(150)によって生成されるプロファイル関係メタデータは、一つまたは複数の対応する非デフォルト利得プロファイルについての差分利得の一つまたは複数の集合の存在を示すために、一つまたは複数の特定のフラグ、インジケータ、データ・フィールドなどを担持することができる。プロファイル関係データはまた、特定の再生環境またはシナリオにおいて当該オーディオ・コンテンツをレンダリングするためにどの非デフォルト利得プロファイルが好ましいかを示すために、選好フラグ、インジケータ、データ・フィールドなどをも含んでいてもよい。
いくつかの実施形態では、本稿に記載されるオーディオ・デコーダ(たとえば100など)は、エンコードされたオーディオ信号(102)からの(たとえばマルチチャネルなどの)オーディオ・コンテンツをデコードするよう構成され、該オーディオ・コンテンツとともに送達されるラウドネス・メタデータからダイアログ・ラウドネス・レベル(たとえば「dialnorm」など)を抽出するなどする。
いくつかの実施形態では、オーディオ・デコーダ(たとえば100など)は、前記第一のデフォルト・プロファイル、前記第二のデフォルト・プロファイルなどのような利得プロファイルについて少なくとも一組の利得生成動作を実行するよう構成される。たとえば、オーディオ・デコーダ(100)は、ダイアログ・ラウドネス・レベル(たとえば「dialnorm」など)をもつエンコードされたオーディオ信号(102)をデコードし;一組の利得生成動作を実行して、エンコードされたオーディオ信号(102)からオーディオ・デコーダ(100)によって定義データが抽出されることのできるデフォルトDRC曲線によって表わされるデフォルト利得プロファイルについて、非差分デフォルト利得(または減衰)の集合を取得し;デコードの間に該デフォルト利得プロファイルについての非差分デフォルト利得(たとえば、参照ラウドネス・レベルと「dialnorm」の間の差など)の前記集合を適用して、サウンド出力の出力ダイアログ・ラウドネス・レベルを参照ラウドネス・レベルに揃える/調整する;などすることができる。
追加的、任意的または代替的に、いくつかの実施形態では、オーディオ・デコーダ(100)は、エンコードされたオーディオ信号(102)から差分利得の少なくとも一つの集合を抽出するよう構成される。該差分利得の集合は、オーディオ・コンテンツと一緒に送達されたメタデータの一部として上記で論じたようなデフォルトDRC曲線との関係で非デフォルト利得プロファイルを表わすものである。いくつかの実施形態では、プロファイル関係メタデータは、差分利得の一つまたは複数の異なる集合を含み、該差分利得の一つまたは複数の異なる集合のそれぞれは、デフォルト利得プロファイルを表わすそれぞれのデフォルトDRC曲線との関係で非デフォルト利得プロファイルを表わす。DRC曲線または差分利得の集合がプロファイル関係メタデータに存在することは、プロファイル関係メタデータにおいて担持される一つまたは複数のフラグ、インジケータ、データ・フィールドによって示されてもよい。
差分利得の前記一つまたは複数の集合が存在することを判別するのに応答して、オーディオ・デコーダ(100)は、差分利得の前記一つまたは複数の異なる集合のうちから、特定の非デフォルト利得プロファイルに対応する差分利得の集合を決定/選択することができる。オーディオ・デコーダ(100)はさらに、――たとえばプロファイル関係メタデータ中の一つまたは複数の異なるデフォルトDRC曲線についての定義データのうちで――差分利得の前記集合が前記特定の利得プロファイルを表わす基準としているデフォルトDRC曲線を特定するよう構成されることができる。
いくつかの実施形態では、オーディオ・デコーダ(100)は、一組の利得生成動作を実行して、前記デフォルト利得プロファイルについての非差分デフォルト利得(または減衰)の集合を取得するよう構成される。デフォルトDRC曲線に基づいて非差分デフォルト利得の前記集合を取得するためにオーディオ・デコーダ(100)によって実行される前記一組の利得生成動作は、標準、独自仕様などの一つまたは複数に関係する一つまたは複数の動作を含んでいてもよい。いくつかの実施形態では、オーディオ・デコーダ(100)は、プロファイル関係メタデータから定義データが抽出される差分利得の前記集合と、デフォルトDRC曲線に基づいて前記一組の利得生成動作によって生成された非差分デフォルト利得の前記集合とに基づいて、前記特定の非デフォルト利得プロファイルについての非差分非デフォルト利得の集合を生成し;デコードの間に該デフォルト利得プロファイルについての非差分非デフォルト利得(たとえば、参照ラウドネス・レベルと「dialnorm」の間の差など)の前記集合を適用して、サウンド出力の出力ダイアログ・ラウドネス・レベルを参照ラウドネス・レベルに揃える/調整する;などするよう構成される。
いくつかの実施形態では、オーディオ・デコーダ(100)は、一つまたは複数の利得プロファイルについて利得関係動作を実行することができる。オーディオ・デコーダ(100)は、一つまたは複数の因子に基づいて、特定の利得プロファイルについての利得関係動作を決定し、実行するよう構成されることができる。これらの因子は、これだけに限られないが:特定のユーザー選択された利得プロファイルについての選好を指定するユーザー入力、システム選択された利得プロファイルについての選好を指定するユーザー入力、オーディオ・デコーダ(100)によって使われる特定のスピーカーまたはオーディオ・チャネル構成の機能、オーディオ・デコーダ(100)の機能、前記特定の利得プロファイルについてのプロファイル関係メタデータの利用可能性、利得プロファイルについての任意のエンコーダ生成された選好フラグなどの一つまたは複数を含みうる。いくつかの実施形態では、これらの因子どうしの間で衝突がある場合には特定の利得プロファイルを決定または選択するために、オーディオ・デコーダ(100)は、一つまたは複数の手順規則を実装してもよく、さらなるユーザー入力を求めるなどしてもよい。
〈11.利得に関係した追加的動作〉
本稿に記載される技法のもとでは、動的等化、ノイズ補償などといった他の処理も、物理領域(または物理領域を表わすデジタル領域)ではなくラウドネス(たとえば知覚的)領域で実行されることができる。
いくつかの実施形態では、DRC、等化ノイズ補償、クリップ防止、利得平滑化などといった多様な処理の一部または全部からの利得が、ラウドネス領域における同じ利得に組み合わされてもよく、および/または並列に適用されてもよい。他のいくつかの実施形態では、DRC、等化ノイズ補償、クリップ防止、利得平滑化などといった多様な処理の一部または全部からの利得は、ラウドネス領域における別個の利得であってもよく、および/または少なくとも部分的には直列に適用されてもよい。他のいくつかの実施形態では、DRC、等化ノイズ補償、クリップ防止、利得平滑化などといった多様な処理の一部または全部からの利得は、順に適用されてもよい。
〈12.特定的およびブロードバンド(または広帯域)のラウドネス・レベル〉
伝送フィルタ、聴覚的フィルタバンク、合成フィルタバンク、短時間フーリエ変換などといった一つまたは複数のオーディオ処理要素、ユニット、コンポーネントなどが、本稿に記載されるオーディオ処理動作を実行するためにエンコーダまたはデコーダによって使われてもよい。
いくつかの実施形態では、人間の聴覚系の外耳および中耳のフィルタリングをモデル化する一つまたは複数の伝達フィルタが、はいってくるオーディオ信号(たとえば、エンコードされたオーディオ信号102、コンテンツ・プロバイダーからのオーディオ・コンテンツなど)をフィルタリングするために使われてもよい。いくつかの実施形態では、聴覚的フィルタバンクは、人間の聴覚系の周波数選択性および周波数広がりをモデル化するために使われてもよい。これらのフィルタの一部または全部からの励起信号レベルは、人間の聴覚系におけるエネルギーの積分をモデル化するために、より高い周波数にかけてより短くなる周波数依存の時定数をもって決定/計算され、平滑化されてもよい。その後、励起信号と特定的ラウドネス・レベルとの間の非線形関数(たとえば関係、曲線など)が、周波数依存の特定的ラウドネス・レベルのプロファイルを取得するために、使われてもよい。ブロードバンド(または広帯域)ラウドネス・レベルは、諸周波数帯域にわたって特定的ラウドネスを積分することによって取得できる。
特定的ラウドネス・レベルの素直な(たとえばすべての周波数帯域に等しい重みを用いるなど)総和/積分は、ブロードバンド信号についてはうまく機能しうる。しかしながら、そのようなアプローチは、狭帯域信号についての(たとえば知覚的などの)ラウドネス・レベルを過小評価することがある。いくつかの実施形態では、異なる周波数におけるまたは異なる周波数帯域における特定的ラウドネス・レベルは異なる重みを与えられる。
いくつかの実施形態では、上述したような聴覚的フィルタバンクおよび/または伝達フィルタは、一つまたは複数の短時間フーリエ変換(STFT)によって置換されてもよい。伝達フィルタおよび聴覚的フィルタバンクの応答は、高速フーリエ変換(FFT)領域において適用されてもよい。いくつかの実施形態では、たとえば一つまたは複数の(たとえば順方向など)伝達フィルタが物理領域(または物理領域を表わすデジタル領域)からラウドネス領域への変換においてまたは該変換前に使われるとき、一つまたは複数の逆伝達フィルタが使用される。いくつかの実施形態では、たとえば聴覚的フィルタバンクおよび/または伝達フィルタの代わりにSTFTが使われるときは、逆伝達フィルタは使用されない。いくつかの実施形態では、聴覚的フィルタバンクは省略される;その代わりに、一つまたは複数の直交ミラー・フィルタ(QMF)が使用される。これらの実施形態において、人間の聴覚系のモデルにおける基底膜の拡散効果は、本稿に記載されるオーディオ処理動作の事項に著しく影響することなく、省略されうる。
本稿に記載される技法のもとで、さまざまな実施形態において異なる数の周波数帯域(たとえば20個の周波数帯域、40個の周波数帯域など)が使用されうる。追加的、任意的または代替的に、さまざまな実施形態において、異なる帯域幅が使用されてもよい。
〈13.チャネルの個々の部分集合のための個々の利得〉
いくつかの実施形態では、特定のスピーカー構成がマルチチャネル構成であるとき、物理領域(または物理領域を表わすデジタル領域)からラウドネス領域への変換の前にすべてのチャネルの励起信号をまず加算することによって、全体的ラウドネス・レベルが得られてもよい。しかしながら、特定のスピーカー構成におけるすべてのチャネルに同じ利得を適用することは、その特定のスピーカー構成の異なるチャネルの間の空間的バランス(異なるチャネルの間の相対的なラウドネス・レベルなどに関するバランス)を保存しないことがある。
いくつかの実施形態では、異なるチャネルの間の相対的な知覚的ラウドネス・レベルが最適にまたは正しく維持されうるよう空間的バランスを保存するために、それぞれのラウドネス・レベルおよび該それぞれのラウドネス・レベルに基づいて得られる対応する利得はチャネル毎に決定または計算されてもよい。いくつかの実施形態では、それぞれのラウドネス・レベルに基づいて得られる対応する利得は、同じ全体的利得に等しくはない。たとえば、該対応する利得の一部または全部のそれぞれは、全体的利得に(たとえばチャネル固有の)小さな補正を加えたものに等しくてもよい。
いくつかの実施形態では、空間的バランスを保存するために、それぞれのラウドネス・レベルおよび該それぞれのラウドネス・レベルに基づいて得られる対応する利得はチャネルの部分集合毎に決定または計算されてもよい。いくつかの実施形態では、それぞれのラウドネス・レベルに基づいて得られる対応する利得は、同じ全体的利得に等しくはない。たとえば、該対応する利得の一部または全部のそれぞれは、全体的利得に(たとえばチャネル固有の)小さな補正を加えたものに等しくてもよい。いくつかの実施形態では、チャネルの部分集合は、その特定のスピーカー構成における全チャネルの真部分集合をなす二つ以上のチャネルを含んでいてもよい(たとえば、左前方、右前方および低域効果(LFE)を含むチャネルの部分集合、左サラウンドおよび右サラウンドを含むチャネルの部分集合など)。チャネルの部分集合についてのオーディオ・コンテンツは、エンコードされたオーディオ信号(102)において担持される全体的な混合のサブミックスをなしてもよい。サブミックス内の諸チャネルは同じ利得を適用されることができる。
いくつかの実施形態では、特定のスピーカー構成から(たとえば実際に知覚されるなどの)実際のラウドネスを生成するために、デジタル領域の信号レベルを該デジタル領域によって表わされる物理領域での対応する物理(たとえば、dBSPLなどによる空間的圧力)レベルに関係付けるために、一つまたは複数の較正パラメータが使用されてもよい。該一つまたは複数の較正パラメータは、特定のスピーカー構成における物理的なサウンド設備に固有の値を与えられてもよい。
〈14.聴覚シーン解析〉
いくつかの実施形態では、本稿に記載されるエンコーダは、(たとえばエンコードされたオーディオ信号102中にエンコードされているなどの)オーディオ・コンテンツにおける聴覚イベント境界を検出し、一つまたは複数のASAパラメータを生成し、該一つまたは複数のASAパラメータを、下流の装置(たとえばデコーダ100など)に送達されるエンコードされたオーディオ信号(たとえば102など)の一部としてフォーマットするために、コンピュータ・ベースの聴覚シーン解析(ASA)を実装してもよい。ASAパラメータは、これだけに限られるものではないが、聴覚イベント境界の位置、聴覚イベント確実性指標の値(下記でさらに説明する)などを含みうる。
いくつかの実装では、聴覚イベント境界の(たとえば時間的な)位置は、エンコードされたオーディオ信号(102)内にエンコードされたメタデータにおいて示されてもよい。追加的、任意的または代替的に、聴覚イベント境界の(たとえば時間的な)位置は、該聴覚イベント境界の位置が検出されるオーディオ・データ・ブロックおよび/またはフレームにおいて(たとえばフラグ、データ・フィールドなどを用いて)指示されてもよい。
本稿での用法では、聴覚イベント境界は、先行する聴覚イベントが終わるおよび/または後続の聴覚イベントが始まる点を指す。各聴覚イベントは、二つの相続く聴覚イベント境界の間に生起する。
いくつかの実施形態では、エンコーダ(150)は、二つの(たとえば時間的などの)連続するオーディオ・データ・フレームの間の特定的ラウドネス・スペクトルにおける差によって、聴覚イベント境界を検出するよう構成される。各特定的ラウドネス・スペクトルは、それらの連続するオーディオ・データ・フレームのうちの対応するオーディオ・データ・フレームから計算される、平滑化されていないラウドネスのスペクトルを含んでいてもよい。
いくつかの実施形態では、特定的ラウドネス・スペクトルN[b,t]は、次式に示されるように、規格化された特定的ラウドネス・スペクトルNNORM[b,t]を得るよう規格化されてもよい。
NNORM[b,t]=N[b,t]/maxb{N[b,t]} (1)
ここで、bは帯域を示し、tは時間またはオーディオ・フレーム・インデックスを示し、maxb{N[b,t]}はすべての周波数帯域にわたる最大の特定的ラウドネス・レベルである。
規格化された特定的ラウドネス・スペクトルは、次式に示されるように、互いに減算され、差分絶対値和D[t]を導出するために使われる。
D[t]=Σb|NNORM[b,t]−NNORM[b,t−1]| (2)
差分絶対値和は、次のように、0から1の値範囲をもつ聴覚イベント確実性指標にマッピングされる。
Figure 2016536919
ここで、DminおよびDmaxは最小および最大の閾値である(たとえば、ユーザー構成設定可能、システム構成設定可能、当該オーディオ・コンテンツにおけるD[t]の過去の値分布に関係して設定される、など)。
いくつかの実施形態では、エンコーダ(150)は、(たとえば特定のtにおけるなどの)D[t]がDminを上回るときに(たとえば前記特定のtにおけるなどの)聴覚イベント境界を検出するよう構成される。
いくつかの実施形態では、本稿に記載されるデコーダ(たとえば100など)は、エンコードされたオーディオ信号(たとえば102など)からASAパラメータを抽出し、該ASAパラメータを、聴覚イベントの知覚的な歪みを引き起こす、ソフトな音の意図しないブーストおよび/またはラウドな音の意図しないカット防止するために使う。
デコーダ(100)は、聴覚イベント内では利得はより一定に近いことを保証し、利得変化の多くを聴覚イベント境界の近傍に制約することによって、聴覚イベントの意図しない歪みを軽減または防止するよう構成されてもよい。たとえば、デコーダ(100)は、聴覚イベント境界におけるアタック(たとえばラウドネス・レベル増など)における利得変化に応答して、比較的小さな時定数(たとえば諸聴覚イベントの最小継続時間に匹敵するまたはそれより短いものなど)を使うよう構成されてもよい。よって、アタックにおける利得変化は、デコーダ(100)によって、比較的迅速に実装されることができる。他方、デコーダ(100)は、聴覚イベントにおけるリリース(たとえばラウドネス・レベル減など)における利得変化に応答して、聴覚イベントの継続時間に比して比較的長い時定数を使うよう構成されてもよい。よって、リリースにおける利得変化は、デコーダ(100)によって、比較的ゆっくり実装されることができ、それにより、一定に感じられるべきまたは徐々に減衰するべき音は聴覚的または知覚的に乱されないことがある。聴覚イベント境界におけるアタックにおける迅速な応答および聴覚イベントにおけるリリースにおけるゆっくりした応答は、聴覚イベントの到達の高速な知覚を許容するとともに、ピアノ和音などのような聴覚イベント――これは特定のラウドネス・レベル関係および/または特定の時間関係によってリンクされたラウドな音およびソフトな音を含む――の間の知覚的な品質および/または無欠性を保存する。
いくつかの実施形態では、聴覚イベントおよびASAパラメータによって指示される聴覚イベント境界は、デコーダ(100)における特定のスピーカー構成におけるチャネルの一つ、二つ、一部または全部における利得変化を制御するために、デコーダ(100)によって使われる。
〈15.ラウドネス・レベル遷移〉
ラウドネス・レベル遷移はたとえば、二つのプログラムの間、プログラムとラウドなコマーシャルの間などで起こりうる。いくつかの実施形態では、デコーダ(100)は、(たとえば、過去4秒にわたってエンコードされたオーディオ信号102から受領されたなどの)過去のオーディオ・コンテンツに基づく瞬時ラウドネス・レベルのヒストグラムを維持するよう構成される。ラウドネス・レベル遷移前からラウドネス・レベル遷移後にかけての時間区間にわたって、高められた確率をもつ二つの領域がヒストグラムに記録されうる。それらの領域の一方は、前のラウドネス・レベルを中心としており、一方、それらの領域の他方は、新しいラウドネス・レベルを中心としている。
デコーダ(100)は、オーディオ・コンテンツが処理される際に、平滑化されたラウドネス・レベルを動的に決定し、該平滑化されたラウドネス・レベルに基づいてヒストグラムの対応するビン(たとえば、平滑化されたラウドネス・レベルと同じ値を含む瞬時ラウドネス・レベルのビン)を決定してもよい。デコーダ(100)はさらに、該対応するビンにおける確率を閾値(たとえば、6%、7%、7.5%など)と比較するよう構成される。ここで、ヒストグラム曲線の全面積(たとえば、すべてのビンの和)は、100%の確率を表わす。デコーダは、対応するビンが閾値を下回る確率を決定することによって、ラウドネス・レベル遷移の発生を検出するよう構成されることができる。応答して、デコーダ(100)は、新しいラウドネス・レベルに比較的速く適応するために、比較的小さな時定数を選択するよう構成されていてもよい。結果として、ラウドネス・レベル遷移内のラウド(またはソフト)な始まりの継続時間は短縮されることができる。
いくつかの実施形態では、デコーダ(100)は、低い瞬時ラウドネス・レベルがヒストグラムにはいってヒストグラムにおける高確率ビンとなるのを防ぐために無音/ノイズ・ゲートを使う。追加的、任意的または代替的に、デコーダ(100)は、ヒストグラムに含められるべき聴覚イベントを検出するために前記ASAパラメータを使うよう構成されていてもよい。いくつかの実施形態では、デコーダ(100)は、時間平均された聴覚イベント確実性指標の時間依存する値
Figure 2016536919
をASAパラメータから決定してもよい。いくつかの実施形態では、デコーダ(100)は、ASAパラメータからの(たとえば瞬時などの)聴覚イベント確実性指標の時間依存する値A[t]などに基づいて、時間平均された聴覚イベント確実性指標の値
Figure 2016536919
を計算してもよい。デコーダ(100)は、ラウドネス・レベルと同時の前記時間平均された聴覚イベント確実性指標
Figure 2016536919
がヒストグラム包含閾値(たとえば0.1、0.12など)を下回る場合に、該ラウドネス・レベルをヒストグラムにはいることから除外するよう構成されていてもよい。
いくつかの実施形態では、ヒストグラムに含められることが許される(たとえば瞬時などの)ラウドネス・レベル(たとえば、対応する ̄付きのA[t]の値が前記ヒストグラム包含閾値より上であるなど)について、ラウドネス・レベルは、それらのラウドネス・レベルと同時の前記時間平均された聴覚イベント確実性指標〔 ̄付きのA[t]〕の時間依存の値と同じである、またはそれに比例するなどである重みを割り当てられる。結果として、聴覚イベント境界に近いラウドネス・レベルは、聴覚イベント境界に近くない他のラウドネス・レベルよりも、ヒストグラムに対して多くの影響をもつ(たとえば、 ̄付きのA[t]が相対的に大きな値をもつなど)。
〈16.リセット〉
いくつかの実施形態では、本稿に記載されるエンコーダ(たとえば150など)は、リセット・イベントを検出し、該リセット・イベントの指標を、エンコードされたオーディオ信号(たとえば102など)に含めるよう構成される。第一の例では、エンコーダ(150)は、相対的な無音の連続的な(たとえばシステムおよび/またはユーザーによって構成設定可能な250ミリ秒など)期間が生じると判別することに応答してリセット・イベントを検出する。第二の例では、エンコーダ(150)は、すべての周波数帯域を横断して励起レベルの大きな瞬間的な降下が生じることを判別するのに応答してリセット・イベントを検出する。第三の例では、エンコーダは、リセットを要求する、コンテンツ遷移(たとえばプログラム開始/終了、シーン変化など)が生じるところで入力(たとえばユーザー入力、システム制御されるメタデータなど)を与えられる。
いくつかの実施形態では、本稿に記載されるデコーダ(たとえば100など)は、瞬時に利得平滑化を高速化するために使用できるリセット機構を実装する。該リセット機構は有用であり、チャネルとオーディオビジュアル入力の間の切り換えが起こるときに呼び出されてもよい。
いくつかの実施形態では、デコーダ(100)は、相対的な無音の連続的な(たとえばシステムおよび/またはユーザーによって構成設定可能な250ミリ秒など)期間が生じるかどうか、すべての周波数帯域を横断した励起レベルの大きな瞬間的な降下が生じるかどうかなどを判定することによって、リセット・イベントが生じるかどうかを判定するよう構成されることができる。
いくつかの実施形態では、デコーダ(100)は、上流のエンコーダ(たとえば150など)によって、エンコードされたオーディオ信号(102)において提供された(たとえばリセット・イベントなどの)指標を受領することに応答して、リセット・イベントが生じることを判別するよう構成されている。
リセット機構は、デコーダ(100)がリセット・イベントが生じることを判別するときに、リセットを発するようにされてもよい。いくつかの実施形態では、リセット機構は、(たとえばラウドなプログラム/チャネル/オーディオビジュアル源などの)ハードな開始を防止するよう、DRC圧縮曲線のもう少し積極的なカット挙動を使うよう構成される。追加的、任意的または代替的に、デコーダ(100)は、デコーダ(100)がリセットが誤ってトリガーされたことを検出するときに優雅に回復するためのセーフガードを実装するよう構成されもよい。
〈17.エンコーダによって提供される利得〉
いくつかの実施形態では、オーディオ・デコーダは、エンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツの個々の部分(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームなど)について利得(たとえばDRC利得など)の一つまたは複数の集合を計算するよう構成されることができる。オーディオ・エンコーダによって生成された利得のそれらの集合は、すべてのチャネル(たとえば左前方、右前方、低域効果もしくはLFE、中央、左サラウンド、右サラウンドなど)についての単一のブロードバンド(または広帯域)利得を含む利得の第一の集合;チャネルの個々の部分集合についての個々のブロードバンド(または広帯域)利得を含む利得の第二の集合;チャネルの個々の部分集合についておよび第一の数(たとえば二つなど)の個々の帯域(たとえば各チャネルにおける二つの帯域など)のそれぞれについての個々のブロードバンド(または広帯域)利得を含む利得の第三の集合;チャネルの個々の部分集合についておよび第二の数(たとえば四つなど)の個々の帯域(たとえば各チャネルにおける四つの帯域など)のそれぞれについての個々のブロードバンド(または広帯域)利得を含む利得の第四の集合;などを含んでいてもよい。ここに記載されるチャネルの部分集合は、左前方、右前方およびLFEチャネルを含む部分集合、中央チャネルを含む部分集合、左サラウンドおよび右サラウンド・チャネルを含む部分集合などの一つであってもよい。
いくつかの実施形態では、オーディオ・エンコーダは、オーディオ・コンテンツの一つまたは複数の部分(たとえばオーディオ・データ・ブロック、オーディオ・データ・フレームなど)およびオーディオ・コンテンツの前記一つまたは複数の部分について計算された利得の一つまたは複数の集合を時間同期的な仕方で伝送するよう構成される。オーディオ・コンテンツの前記一つまたは複数の部分を受領するオーディオ・デコーダは、ほとんどまたは全く遅延なしに、利得の前記一つまたは複数の集合のうちの利得のある集合を選択し、適用することができる。いくつかの実施形態では、オーディオ・エンコーダは、利得の前記一つまたは複数の集合が図4に示されるような一つまたは複数のサブフレームにおいて(たとえば差分符号化などを用いて)担持されるサブフレーミング技法を実装することができる。一例では、サブフレームは、それらの利得が計算されるオーディオ・データ・ブロックまたはオーディオ・データ・フレーム内にエンコードされてもよい。もう一つの例では、サブフレームは、それらの利得が計算されるオーディオ・データ・ブロックまたはオーディオ・データ・フレームに先行する諸オーディオ・データ・ブロックまたは諸オーディオ・データ・フレーム内にエンコードされてもよい。もう一つの限定しない例では、サブフレームは、それらの利得が計算されるオーディオ・データ・ブロックまたはオーディオ・データ・フレームからある時間内の諸オーディオ・データ・ブロックまたは諸オーディオ・データ・フレーム内にエンコードされてもよい。いくつかの実施形態では、利得のそれらの集合を担持するサブフレームにデータを入れるおよび/または該サブフレームを圧縮するために、ハフマンおよび差分符号化が使われてもよい。
〈18.例示的なシステムおよびプロセス・フロー〉
図5は、限定しない例示的実施形態における例示的なコーデック・システムを示している。150などのようなオーディオ・エンコーダ内の処理ユニットであってもよいコンテンツ・クリエーターは、オーディオ・コンテンツ(「オーディオ」)をエンコーダ・ユニット(「NGCエンコーダ」)に提供するよう構成される。エンコーダ・ユニットは、オーディオ・コンテンツをオーディオ・データ・ブロックおよび/またはフレームにフォーマットし、オーディオ・データ・ブロックおよび/またはフレームをエンコードされたオーディオ信号にエンコードする。コンテンツ・クリエーターは、オーディオ・コンテンツにおける一つまたは複数のプログラム、コマーシャルなどの一つまたは複数のダイアログ・ラウドネス・レベル(「dialnorm」)および一つまたは複数のダイナミックレンジ圧縮曲線識別子(「圧縮曲線ID」)を確立/生成するようにも構成される。コンテンツ・クリエーターは、オーディオ・コンテンツにおける一つまたは複数のダイアログ・オーディオ・トラックからダイアログ・ラウドネス・レベルを決定してもよい。ダイナミックレンジ圧縮曲線識別子は、少なくとも部分的にはユーザー入力、システム構成設定パラメータなどに基づいて選択されてもよい。コンテンツ・クリエーターは、オーディオ・コンテンツおよびdialnormを生成するためにツールを使う人間(たとえばアーチスト、オーディオ・エンジニアなど)であってもよい。
ダイナミックレンジ圧縮曲線識別子に基づいて、エンコーダ(150)は、前記一つまたは複数のダイナミックレンジ圧縮曲線によってサポートされる複数の再生環境についての対応する参照ダイアログ・ラウドネス・レベル(「参照レベル」)を含むがそれに限定されない一つまたは複数のDRCパラメータ集合を生成する。これらのDRCパラメータ集合は、オーディオ・コンテンツと一緒にインバンドで、オーディオ・コンテンツとはアウトオブバンドでなどで、エンコードされたオーディオ信号のメタデータ中にエンコードされてもよい。圧縮、フォーマット多重化(「MUX」)などのような動作は、100などのようなオーディオ・デコーダに送達されうるエンコードされたオーディオ信号を生成することの一部として実行されてもよい。エンコードされたオーディオ信号は、オーディオ・データ要素、DRCパラメータ集合、参照ラウドネス・レベル、ダイナミックレンジ圧縮曲線、関数、ルックアップテーブル、圧縮において使われるハフマン符号、サブフレームなどの担持をサポートするシンタックスをもってエンコードされてもよい。いくつかの実施形態では、シンタックスは、上流の装置(たとえばエンコーダ、デコーダ、トランスコーダなど)が利得を下流の装置(たとえば、デコーダ、トランスコーダなど)に伝送することを許容する。いくつかの実施形態では、エンコードされたオーディオ信号にデータをエンコードするおよび/またはエンコードされたオーディオ信号から該データをデコードするために使われるシンタックスは、上流の装置によって計算された利得に依拠する装置が任意的にそのようにし続けてもよいよう、後方互換性をサポートするよう構成される。
いくつかの実施形態では、エンコーダ(150)は、オーディオ・コンテンツについての利得(たとえば適切な参照ダイアログ・ラウドネス・レベルを用いる利得平滑化、DRC利得など)の二つ以上の集合を計算する。利得についてのこれらの集合は、オーディオ・コンテンツと一緒にエンコードされたオーディオ信号中にエンコードされたメタデータにおいて、前記一つまたは複数のダイナミックレンジ圧縮曲線を提供されてもよい。利得の第一の集合は、(たとえばデフォルトなどの)スピーカー構成またはプロファイルにおけるすべてのチャネルについてのブロードバンド(または広帯域)利得に対応してもよい。利得の第二の集合は、スピーカー構成またはプロファイルにおけるすべてのチャネルのそれぞれについてのブロードバンド(または広帯域)利得に対応してもよい。利得の第三の集合は、スピーカー構成またはプロファイルにおけるすべてのチャネルのそれぞれにおける二つの帯域のそれぞれについてのブロードバンド(または広帯域)利得に対応してもよい。利得の第四の集合は、スピーカー構成またはプロファイルにおけるすべてのチャネルのそれぞれにおける四つの帯域のそれぞれについてのブロードバンド(または広帯域)利得に対応してもよい。いくつかの実施形態では、あるスピーカー構成について計算された利得の集合は、メタデータにおいて該スピーカー構成についての(たとえばパラメータ化されたなどの)ダイナミックレンジ圧縮曲線と一緒に伝送されてもよい。いくつかの実施形態では、あるスピーカー構成について計算された利得の集合は、メタデータにおいて該スピーカー構成についての(たとえばパラメータ化されたなどの)ダイナミックレンジ圧縮曲線を置換してもよい。追加的なスピーカー構成またはプロファイルは、本稿に記載される技法のもとでサポートされてもよい。
デコーダ(100)は、エンコードされたオーディオ信号から、オーディオ・データ・ブロックおよび/またはフレームならびにメタデータを、たとえば圧縮解除、フォーマット解除、多重分離(「DEMUX」)などの動作を通じて、抽出するよう構成される。抽出されたオーディオ・データ・ブロックおよび/またはフレームは、デコーダ・ユニット(「NGCデコーダ」)によってオーディオ・データ要素またはサンプルにデコードされてもよい。デコーダ(100)はさらに、デコーダ(100)における、オーディオ・コンテンツがレンダリングされる特定の再生環境のためのプロファイルを決定し、エンコードされたオーディオ信号から抽出されたメタデータからダイナミックレンジ圧縮曲線を選択するよう構成される。デジタル・オーディオ処理ユニット(「DAP」)は、特定の再生環境においてオーディオ・チャネルを駆動するオーディオ信号を生成する目的でオーディオ・データ要素またはサンプルに対してDRCまたは他の動作を適用するよう構成される。デコーダ(100)は、オーディオ・データ・ブロックまたはフレームに基づくDRC利得および選択されたダイナミックレンジ圧縮曲線を計算し、適用することができる。デコーダ(100)はまた、選択されたダイナミックレンジ圧縮曲線に関連付けられた参照ダイアログ・ラウドネス・レベルと、エンコードされたオーディオ信号から抽出されたメタデータにおけるダイアログ・ラウドネス・レベルとに基づいて、出力ダイアログ・ラウドネス・レベルを調整することもできる。デコーダ(100)は、その後、オーディオ・コンテンツおよび特定の再生環境に関係した再生シナリオに固有の利得制限器を適用することができる。このように、デコーダ(100)は、再生シナリオに合わせて調整されたようにオーディオ・コンテンツをレンダリング/再生することができる。
図5Aは、もう一つの例示的なデコーダを示している(これは図5のデコーダ100と同じであってもよい)。図5Aに示されるように、図5Aのデコーダは、エンコードされたオーディオ信号から、オーディオ・データ・ブロックおよび/またはフレームならびにメタデータを、たとえば圧縮解除、フォーマット解除、多重分離(「DEMUX」)などの動作を通じて、抽出するよう構成される。抽出されたオーディオ・データ・ブロックおよび/またはフレームは、デコーダ・ユニット(「デコード」)によってオーディオ・データ要素またはサンプルにデコードされてもよい。図5Aのデコーダはさらに、デフォルト利得の集合に対してデフォルト圧縮曲線、該デフォルト圧縮曲線に関係する平滑化定数などに基づいてDRC利得計算を実行するよう構成される。図5Aのデコーダはさらに、特定の再生環境においてオーディオ・チャネルを駆動するDRC向上されたオーディオ出力を生成するために、メタデータ中のプロファイル関係メタデータから非デフォルト利得プロファイルについての差分利得の集合を抽出し、オーディオ・コンテンツがレンダリングされる図5Aのデコーダにおける非デフォルト利得プロファイルについての非差分利得の集合を決定し、オーディオ・データ要素またはサンプルに対して非差分利得の前記集合および他の動作を適用するよう構成される。図5Aのデコーダは、図5Aのデコーダ自身が一組の利得生成動作を実行して非デフォルト利得プロファイルについて直接、非差分利得の集合を得ることのサポートを実装していてもいなくても、非デフォルト利得プロファイルに従ってオーディオ・コンテンツをレンダリング/再生することができる。
図6Aないし図6Dは、例示的なプロセス・フローを示す。いくつかの実施形態では、メディア処理システムにおける一つまたは複数のコンピューティング装置またはユニットは、このプロセス・フローを実行してもよい。
図6Aは、本稿に記載されるオーディオ・デコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Aのブロック602では、第一の装置(たとえば、図1Aのオーディオ・デコーダ100など)が、オーディオ・コンテンツと、一つまたは複数のダイナミックレンジ圧縮曲線についての定義データとを含むオーディオ信号を受領する。
ブロック604では、第一の装置は特定の再生環境を判別する。
ブロック606では、第一の装置は、その特定の再生環境についての特定のダイナミックレンジ圧縮曲線を、オーディオ信号から抽出された前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データに基づいて確立する。
ブロック608では、第一の装置は、オーディオ信号から抽出されるオーディオ・コンテンツの一つまたは複数の部分に対する一つまたは複数のダイナミックレンジ制御(DRC)動作を実行する。前記一つまたは複数のDRC動作は、少なくとも部分的には特定のダイナミックレンジ圧縮曲線から得られた一つまたは複数のDRC利得に基づく。
ある実施形態では、前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データは、アタック時間、リリース時間または前記一つまたは複数のダイナミックレンジ圧縮曲線のうちの少なくとも一つに関係する参照ラウドネス・レベルを含む。
ある実施形態では、第一の装置は:オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のラウドネス・レベルを計算する段階;前記特定のダイナミックレンジ圧縮曲線および前記オーディオ・コンテンツの前記一つまたは複数の部分についての前記一つまたは複数のラウドネス・レベルに基づいて、前記一つまたは複数のDRC利得を決定する段階などを実行するようさらに構成される。
ある実施形態では、前記オーディオ・コンテンツの前記一つまたは複数の部分について計算された前記ラウドネス・レベルの少なくとも一つは、一つまたは複数の周波数帯域に関係する特定的ラウドネス・レベル、ブロードバンド範囲を横断するブロードバンド・ラウドネス・レベル、広帯域範囲を横断する広帯域ラウドネス・レベル、複数の周波数帯域を横断するブロードバンド・ラウドネス・レベル、複数の周波数帯域を横断する広帯域ラウドネス・レベルなどの一つまたは複数である。
ある実施形態では、前記オーディオ・コンテンツの前記一つまたは複数の部分について計算されたラウドネス・レベルの少なくとも一つは、瞬時ラウドネス・レベルまたは一つまたは複数の時間区間にわたって平滑化されたラウドネス・レベルの一つまたは複数である。
ある実施形態では、前記一つまたは複数の動作は、ダイアログ・ラウドネス・レベルを調整すること、利得平滑化、利得制限、ダイナミック等化、ノイズ補償などの一つまたは複数に関係する。
ある実施形態では、第一の装置はさらに:エンコードされたオーディオ信号から一つまたは複数のダイアログ・ラウドネス・レベルを抽出する段階;前記一つまたは複数のダイアログ・ラウドネス・レベルを一つまたは複数の参照ダイアログ・ラウドネス・レベルに調整する段階;などを実行するよう構成される。
ある実施形態では、第一の装置はさらに:エンコードされたオーディオ信号から一つまたは複数の聴覚シーン解析(ASA)パラメータを抽出する段階;前記オーディオ・コンテンツに適用された利得を平滑化することにおいて使われる一つまたは複数の時定数を変化させる段階であって該利得は前記一つまたは複数のDRC利得のうちの一つまたは複数に関係する、段階;利得平滑化または利得制限などを実行するよう構成される。
ある実施形態では、第一の装置はさらに:リセット・イベントの指標に基づいて前記オーディオ・コンテンツの前記一つまたは複数の部分にリセット・イベントが生じることを判別する段階であって、前記リセットの前記指標は、前記エンコードされたオーディオ信号から抽出される、段階と;前記オーディオ・コンテンツの前記一つまたは複数の部分に前記リセット・イベントが生じることを判別することに応答して、前記オーディオ・コンテンツの前記一つまたは複数の部分において前記リセット・イベントが生じることを判別する時点において実行されている一つまたは複数の利得平滑化動作に対して一つまたは複数のアクションを行なう段階;などを実行するよう構成される。
ある実施形態では、第一の装置はさらに:瞬時ラウドネス・レベルのヒストグラムを維持する段階であって、前記ヒストグラムは前記オーディオ・コンテンツにおけるある時間区間から計算された瞬時ラウドネス・レベルが入れられている、段階;特定的ラウドネス・レベルが前記ヒストグラムの高確率領域における閾値より上であるかどうかを判定する段階であって、前記特定的ラウドネス・レベルは前記オーディオ・コンテンツの一部から計算されている、段階;前記特定的ラウドネス・レベルが前記ヒストグラムの前記高確率領域における前記閾値より上であると判定することに応答して、ラウドネス遷移が生じていることを判別し、該ラウドネス遷移を高速化するために利得平滑化において使われる時定数を短くするなどする段階;などを実行するよう構成される。
図6Bは、本稿に記載されるオーディオ・エンコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Bのブロック652では、第二の装置(たとえば図1Bのオーディオ・エンコーダ150など)が源オーディオ・フォーマットにおけるオーディオ・コンテンツを受領する。
ブロック654では、第二の装置は、一つまたは複数のダイナミックレンジ圧縮曲線についての定義データを取得する。
ブロック656では、第二の装置は、前記オーディオ・コンテンツと、前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データとを含むオーディオ信号を生成する。
ある実施形態では、第二の装置はさらに、前記一つまたは複数のダイナミックレンジ圧縮曲線についての一つまたは複数の識別子を決定する段階と;前記一つまたは複数の識別子に基づいて参照データ貯蔵部から前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データを取り出す段階;などを実行するよう構成される。
ある実施形態では、第二の装置はさらに:前記オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のダイアログ・ラウドネス・レベルを計算する段階と;前記一つまたは複数のダイアログ・ラウドネス・レベルを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階;などを実行するよう構成される。
ある実施形態では、第二の装置は:前記オーディオ・コンテンツの前記一つまたは複数の部分に対して聴覚イベント・シーン(ASA)を実行する段階;前記オーディオ・コンテンツの前記一つまたは複数の部分に対するASAの結果に基づいて一つまたは複数のASAパラメータを生成する段階;前記一つまたは複数のASAパラメータを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階;などを実行するよう構成される。
ある実施形態では、第二の装置はさらに:前記オーディオ・コンテンツの前記一つまたは複数の部分において一つまたは複数のリセット・イベントが生起することを判別する段階と;前記一つまたは複数のリセット・イベントの一つまたは複数の指標を、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階;などを実行するよう構成される。
ある実施形態では、第二の装置はさらに、前記オーディオ・コンテンツの前記一つまたは複数の部分を、オーディオ・データ・フレームまたはオーディオ・データ・ブロックの一つまたは複数にエンコードするよう構成される。
ある実施形態では、前記一つまたは複数のDRC利得の第一のDRC利得は、その特定の再生環境に対応する特定のスピーカー構成におけるすべてのチャネルの集合における第一の真部分集合における各チャネルに当てはまり、一方、前記一つまたは複数のDRC利得の第二の異なるDRC利得は、その特定の再生環境に対応する前記特定のスピーカー構成におけるすべてのチャネルの前記集合における第二の真部分集合における各チャネルに当てはまる。
ある実施形態では、前記一つまたは複数のDRC利得の第一のDRC利得は第一の周波数帯域に当てはまり、前記一つまたは複数のDRC利得の第二の異なるDRC利得は第二の異なる周波数帯域に当てはまる。
ある実施形態では、前記オーディオ・コンテンツの前記一つまたは複数の部分がオーディオ・データ・フレームまたはオーディオ・データ・ブロックの一つまたは複数を含む。ある実施形態では、エンコードされたオーディオ信号は、オーディオビジュアル信号の一部である。
ある実施形態では、前記一つまたは複数のDRC利得はラウドネス領域で定義される。
図6Cは、本稿に記載されるオーディオ・デコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Cのブロック662では、第三の装置(たとえば、図1Aのオーディオ・デコーダ100、図5のオーディオ・デコーダ、図5Aのオーディオ・デコーダなど)が、オーディオ・コンテンツと、一つまたは複数のダイナミックレンジ圧縮(DRC)曲線についての定義データと、差分利得の一つまたは複数の集合とを含むオーディオ信号を受領する。
ブロック664では、第三の装置は、差分利得の一つまたは複数の集合のうちで、特定の再生環境における利得プロファイルのための差分利得の特定の集合を同定する。第三の装置はまた、前記一つまたは複数のDRC曲線のうちで、差分利得の前記特定の集合に関係したデフォルトDRC曲線をも同定する。
ブロック666では、第三の装置は、少なくとも部分的にはデフォルトDRC曲線に基づいてデフォルト利得の集合を生成する。
ブロック668では、少なくとも部分的にはデフォルト利得の前記集合と差分利得の前記特定の集合の組み合わせに基づいて、第三の装置は、前記オーディオ信号から抽出された前記オーディオ・コンテンツの一つまたは複数の部分に対して一つまたは複数の動作を実行する。
ある実施形態では、デフォルト利得の前記集合は、少なくとも部分的には前記デフォルトDRC曲線に基づいて一組の利得生成動作を実行することによって生成された非差分利得を含む。
ある実施形態では、前記デフォルトDRC曲線は、デフォルト利得プロファイルを表わす。ある実施形態では、前記デフォルトDRC曲線との関係での差分利得の前記特定の集合は、非デフォルト利得プロファイルを表わす。ある実施形態では、前記オーディオ信号は、前記非デフォルト利得プロファイルに対応する非デフォルトDRC曲線についての定義データを含まない。
ある実施形態では、差分利得の前記特定の集合は、非デフォルト利得プロファイルについて生成された非差分非デフォルト利得の集合と、前記デフォルトDRC曲線によって表わされた前記デフォルト利得プロファイルについて生成された非差分デフォルト利得の集合との間の利得差を含む。前記非差分非デフォルト利得の集合と、前記非差分デフォルト利得の集合とは、前記オーディオ信号をエンコードする上流のオーディオ・デコーダによって生成されてもよい。
ある実施形態では、前記非差分非デフォルト利得の少なくとも一つの集合または前記非差分デフォルト利得の集合は、前記オーディオ信号の一部として提供されない。
図6Dは、本稿に記載されるオーディオ・デコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Dのブロック672では、第四の装置(たとえば図1Aのオーディオ・エンコーダ150、図5のオーディオ・エンコーダなど)が源オーディオ・フォーマットにおけるオーディオ・コンテンツを受領する。
ブロック674では、第四の装置は、少なくとも部分的には、デフォルト利得プロファイルを表わすデフォルト・ダイナミックレンジ圧縮(DRC)曲線に基づいてデフォルト利得の集合を生成する。
ブロック676では、第四の装置は、非デフォルト利得プロファイルについての非デフォルト利得の集合を生成する。
ブロック678では、少なくとも部分的にはデフォルト利得の前記集合および非デフォルト利得の前記集合に基づいて、第四の装置は、差分利得の集合を生成する。差分利得の前記集合は、前記デフォルトDRC曲線との関係での前記非デフォルト利得プロファイルを表わす。
ブロック680では、第四の装置は、前記オーディオ・コンテンツと、一つまたは複数のDRC曲線についておよび差分利得の一つまたは複数の集合についての前記定義データを含むオーディオ信号を生成する。差分利得の前記一つまたは複数の集合は、差分利得の前記集合を含む。
いくつかの実施形態では、前記非デフォルト利得プロファイルはDRC曲線によって表わされる。ある実施形態では、前記オーディオ信号は、前記非デフォルト利得プロファイルを表わす前記DRC曲線についての定義データを含まない。いくつかの実施形態では、前記非デフォルト利得プロファイルは、DRC曲線によって表わされない。
ある実施形態では、プロセッサを有し、本稿に記載される方法のいずれかを実行するよう構成された装置。
ある実施形態では、一つまたは複数のプロセッサによって実行されたときに、本稿に記載される方法の任意のものの実行を引き起こすソフトウェア命令を含む非一時的なコンピュータ可読記憶媒体。別個の複数の実施形態が本稿において論じられているものの、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせが組み合わされてさらなる実施形態を形成してもよいことを注意しておく。
〈19.実装機構――ハードウェアの概観〉
ある実施形態によれば、本稿に記載される技法は、一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、本技法を実行するよう固定構成とされていてもよいし、あるいは一つまたは複数の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)のような、本技法を実行するよう持続的にプログラムされたデジタル電子デバイスを含んでいてもよいし、あるいはファームウェア、メモリ、他の記憶または組み合わせにおけるプログラム命令に従って本技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、カスタムの固定構成論理、ASICまたはFPGAをカスタムのプログラミングと組み合わせて本技法を達成してもよい。特殊目的コンピューティング装置はデスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または本技法を実装するために固定構成および/またはプログラム論理を組み込んでいる他の任意の装置であってもよい。
たとえば、図7は、本発明のある実施形態が実装されうるコンピュータ・システム700を示すブロック図である。コンピュータ・システム700は、情報を通信するためのバス702または他の通信機構と、情報を処理するための、バス702に結合されたハードウェア・プロセッサ704とを含む。ハードウェア・プロセッサ704はたとえば汎用マイクロプロセッサであってもよい。
コンピュータ・システム700は、ランダム・アクセス・メモリ(RAM)または他の動的記憶装置のような、情報およびプロセッサ704によって実行されるべき命令を記憶するための、バス702に結合されたメイン・メモリ706をも含む。メイン・メモリ706はまた、一時変数または他の中間的な情報を、プロセッサ704によって実行されるべき命令の実行の間、記憶しておくために使われてもよい。そのような命令は、プロセッサ704にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム700を、前記命令において指定されている処理を実行するよう装置固有の特殊目的機械にする。
コンピュータ・システム700はさらに、バス702に結合された、静的な情報およびプロセッサ704のための命令を記憶するための読み出し専用メモリ(ROM)708または他の静的記憶装置を含む。磁気ディスクまたは光ディスクのような記憶装置710が提供され、情報および命令を記憶するためにバス702に結合される。
コンピュータ・システム700は、コンピュータ・ユーザーに対して情報を表示するための、液晶ディスプレイ(LCD)のようなディスプレイ712にバス702を介して結合されていてもよい。英数字その他のキーを含む入力装置714が、情報およびコマンド選択をプロセッサ704に伝えるためにバス702に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ704に伝えるとともにディスプレイ712上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール716である。この入力装置は典型的には、第一軸(たとえばx)および第二軸(たとえばy)の二つの軸方向において二つの自由度をもち、これにより該装置は平面内での位置を指定できる。
コンピュータ・システム700は、本稿に記載される技法を実施するのに、装置固有の固定構成論理、一つまたは複数のASICもしくはFPGA、コンピュータ・システムと組み合わさってコンピュータ・システム700を特殊目的機械にするまたはプログラムするファームウェアおよび/またはプログラム論理を使ってもよい。ある実施形態によれば、本稿の技法は、プロセッサ704がメイン・メモリ706に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム700によって実行される。そのような命令は、記憶装置710のような別の記憶媒体からメイン・メモリ706に読み込まれてもよい。メイン・メモリ706に含まれる命令のシーケンスの実行により、プロセッサ704は、本稿に記載されるプロセス段階を実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて固定構成の回路が使用されてもよい。
本稿で用いられる用語「記憶媒体」は、データおよび/または機械に特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含んでいてもよい。不揮発性媒体は、たとえば、記憶装置710のような光学式または磁気ディスクを含む。揮発性媒体は、メイン・メモリ706のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。
記憶媒体は、伝送媒体とは異なるが、伝送媒体と関連して用いられてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は同軸ケーブル、銅線および光ファイバーを含み、バス702をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような音響波または光波の形を取ることもできる。
さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ704に搬送するのに関与しうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上に担持されていてもよい。リモート・コンピュータは該命令をその動的メモリにロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム700にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が赤外線信号において担持されるデータを受信することができ、適切な回路がそのデータをバス702上に載せることができる。バス702はそのデータをメイン・メモリ706に搬送し、メイン・メモリ706から、プロセッサ704が命令を取り出し、実行する。メイン・メモリ706によって受信される命令は、任意的に、プロセッサ704による実行の前または後に記憶装置710上に記憶されてもよい。
コンピュータ・システム700は、バス702に結合された通信インターフェース718をも含む。通信インターフェース718は、ローカル・ネットワーク722に接続されているネットワーク・リンク720への双方向データ通信結合を提供する。たとえば、通信インターフェース718は、統合サービス・デジタル通信網(ISDN)カード、ケーブル・モデム、衛星モデムまたは対応する型の電話線へのデータ通信接続を提供するためのモデムであってもよい。もう一つの例として、通信インターフェース718は、互換LANへのデータ通信接続を提供するためのローカル・エリア・ネットワーク(LAN)カードであってもよい。無線リンクも実装されてもよい。そのようないかなる実装でも、通信インターフェース718は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気的、電磁的または光学的信号を送受信する。
ネットワーク・リンク720は典型的には、一つまたは複数のネットワークを通じた他のデータ装置へのデータ通信を提供する。たとえば、ネットワーク・リンク720は、ローカル・ネットワーク722を通じてホスト・コンピュータ724またはインターネット・サービス・プロバイダー(ISP)726によって運営されているデータ設備への接続を提供してもよい。ISP 726は、現在一般に「インターネット」728と称される世界規模のパケット・データ通信網を通じたデータ通信サービスを提供する。ローカル・ネットワーク722およびインターネット728はいずれも、デジタル・データ・ストリームを担持する電気的、電磁的または光学的信号を使う。コンピュータ・システム700に/からデジタル・データを搬送する、さまざまなネットワークを通じた信号およびネットワーク・リンク720上および通信インターフェース718を通じた信号は、伝送媒体の例示的な形である。
コンピュータ・システム700は、ネットワーク(単数または複数)、ネットワーク・リンク720および通信インターフェース718を通じて、メッセージを送り、プログラム・コードを含めデータを受信することができる。インターネットの例では、サーバー730は、インターネット728、ISP 726、ローカル・ネットワーク722および通信インターフェース718を通じてアプリケーション・プログラムのための要求されたコードを送信してもよい。
受信されたコードは、受信される際にプロセッサ704によって実行されても、および/または、のちの実行のために記憶装置710または他の不揮発性記憶に記憶されてもよい。
〈20.等価物、拡張、代替その他〉
以上の明細書では、本発明の例示的実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。

Claims (44)

  1. オーディオ・コンテンツと、差分利得の一つまたは複数の集合とを含むオーディオ信号を受領する段階と;
    差分利得の前記一つまたは複数の集合のうちで、特定の再生環境における利得プロファイルのための差分利得の特定の集合を同定する段階と;
    差分利得の前記特定の集合に関係したデフォルト・ダイナミックレンジ圧縮(DRC)曲線に少なくとも基づいてデフォルト利得の集合を生成する段階と;
    少なくとも部分的にはデフォルト利得の前記集合と差分利得の前記特定の集合の組み合わせに基づいて、前記オーディオ信号から抽出された前記オーディオ・コンテンツの一つまたは複数の部分に対して一つまたは複数の動作を実行する段階とを含む、
    一つまたは複数のコンピュータによって実行される方法。
  2. デフォルト利得の前記集合は、少なくとも部分的には前記デフォルトDRC曲線に基づいて一組の利得生成動作を実行することによって生成された非差分利得を含む、請求項1記載の方法。
  3. 前記デフォルトDRC曲線は、デフォルト利得プロファイルを表わす、請求項1または2記載の方法。
  4. 前記デフォルトDRC曲線との関係での差分利得の前記特定の集合は、非デフォルト利得プロファイルを表わす、請求項1ないし3のうちいずれか一項記載の方法。
  5. 前記オーディオ信号は、前記非デフォルト利得プロファイルに対応する非デフォルトDRC曲線についての定義データを含まない、請求項4記載の方法。
  6. 差分利得の前記特定の集合は、非デフォルト利得プロファイルについて生成された非差分非デフォルト利得の集合と、前記デフォルトDRC曲線によって表わされた前記デフォルト利得プロファイルについて生成された非差分デフォルト利得の集合との間の利得差を含む、請求項1ないし5のうちいずれか一項記載の方法。
  7. 前記非差分非デフォルト利得の集合と、前記非差分デフォルト利得の集合とは、前記オーディオ信号をエンコードする上流のオーディオ・デコーダによって生成される、請求項6記載の方法。
  8. 前記非差分非デフォルト利得の集合または前記非差分デフォルト利得の集合の少なくとも一方は、前記オーディオ信号の一部として提供されない、請求項6記載の方法。
  9. 前記一つまたは複数のDRC曲線についての前記定義データが、前記一つまたは複数のDRC曲線のうちの少なくとも一つに関係したアタック時間、リリース時間または参照ラウドネス・レベルのうちの一つまたは複数を含む、請求項1ないし8のうちいずれか一項記載の方法。
  10. 前記参照ラウドネス・レベルが、前記オーディオ・コンテンツをオーディオ・デコーダによってレンダリングするための再生レベルの目標とされる範囲を表わす、請求項9記載の方法。
  11. 前記オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のラウドネス・レベルを計算する段階と;
    前記非差分デフォルト利得の集合および差分利得の前記特定の集合に基づいて非差分非デフォルト利得の集合を生成する段階と;
    前記オーディオ・コンテンツの前記一つまたは複数の部分に前記非差分非デフォルト利得の集合を適用する段階とをさらに含む、
    請求項1ないし10のうちいずれか一項記載の方法。
  12. 前記オーディオ・コンテンツの前記一つまたは複数の部分について計算された前記一つまたは複数のラウドネス・レベルの少なくとも一つが、一つまたは複数の周波数帯域に関する特定的ラウドネス・レベル、ブロードバンド範囲にわたるブロードバンド・ラウドネス・レベル、広帯域範囲にわたる広帯域ラウドネス・レベル、複数の周波数範囲にわたるブロードバンド・ラウドネス・レベルまたは複数の周波数範囲にわたる広帯域ラウドネス・レベルのうちの一つまたは複数である、請求項11記載の方法。
  13. 前記オーディオ・コンテンツの前記一つまたは複数の部分について計算された前記一つまたは複数のラウドネス・レベルの少なくとも一つが、瞬時ラウドネス・レベルまたは一つまたは複数の時間区間にわたって平滑化されたラウドネス・レベルの一つまたは複数である、請求項11記載の方法。
  14. 前記一つまたは複数の動作は、ダイアログ・ラウドネス・レベルを調整すること、利得平滑化、利得制限、ダイナミック等化またはノイズ補償のうちの一つまたは複数に関係する一つまたは複数の動作を含む、請求項1ないし13のうちいずれか一項記載の方法。
  15. 当該方法がオーディオ・デコード装置によって実行され、前記デフォルトDRC曲線が前記オーディオ・デコード装置において定義されている、請求項1ないし14のうちいずれか一項記載の方法。
  16. 一つまたは複数のダイナミックレンジ圧縮(DRC)曲線についての定義データを受領する段階と;
    前記一つまたは複数のDRC曲線のうちで、差分利得の前記特定の集合に関係したデフォルトDRC曲線を同定する段階とをさらに含む、
    請求項1ないし15のうちいずれか一項記載の方法。
  17. 前記エンコードされたオーディオ信号から一つまたは複数の聴覚シーン解析(ASA)パラメータを抽出する段階と;
    前記オーディオ・コンテンツに適用された利得を平滑化することにおいて使われる一つまたは複数の時定数を変化させる段階とをさらに含む、
    請求項1ないし16のうちいずれか一項記載の方法。
  18. リセット・イベントの指標に基づいて前記オーディオ・コンテンツの前記一つまたは複数の部分にリセット・イベントが生じることを判別する段階であって、前記リセットの前記指標は、前記エンコードされたオーディオ信号から抽出される、段階と;
    前記オーディオ・コンテンツの前記一つまたは複数の部分に前記リセット・イベントが生じることを判別することに応答して、前記オーディオ・コンテンツの前記一つまたは複数の部分において前記リセット・イベントが生じることを判別する時点において実行されている一つまたは複数の利得平滑化動作に対して一つまたは複数のアクションを行なう段階とをさらに含む、
    請求項1ないし17のうちいずれか一項記載の方法。
  19. 前記一つまたは複数の平滑化動作の少なくとも一つが、前記リセット・イベントの前には第一の平滑化時定数を使い、前記一つまたは複数の平滑化動作の前記少なくとも一つが、前記リセット・イベントが生じることを判別することに応答して前記第一の平滑化時定数より小さい第二の平滑化時定数を使う、請求項18記載の方法。
  20. 瞬時ラウドネス・レベルのヒストグラムを維持する段階であって、前記ヒストグラムは前記オーディオ・コンテンツにおけるある時間区間から計算された瞬時ラウドネス・レベルが入れられる、段階と;
    特定的ラウドネス・レベルが前記ヒストグラムの高確率領域における閾値より下であるかどうかを判定する段階であって、前記特定的ラウドネス・レベルは前記オーディオ・コンテンツの一部から計算される、段階と;
    前記特定的ラウドネス・レベルが前記ヒストグラムの前記高確率領域における前記閾値より下であると判定することに応答して:
    ラウドネス遷移が生じていることを判別し、
    該ラウドネス遷移を高速化するために利得平滑化において使われる時定数を短くする、段階とをさらに含む、
    請求項1ないし19のうちいずれか一項記載の方法。
  21. 差分利得の前記特定の集合は、ある特定のスピーカー構成におけるすべてのチャネルの集合における第一の真部分集合における各チャネルに関係する第一の差分利得を含み、差分利得の前記特定の集合は、前記特定のスピーカー構成におけるすべてのチャネルの前記集合における第二の真部分集合における各チャネルに関係する第二の差分利得を含む、請求項1ないし20のうちいずれか一項記載の方法。
  22. 差分利得の前記特定の集合が第一の周波数帯域に関係する第一の差分利得を含み、差分利得の前記特定の集合が第二の異なる周波数帯域に関係する第二の異なる差分利得を含む、請求項1ないし21のうちいずれか一項記載の方法。
  23. 前記オーディオ・コンテンツの前記一つまたは複数の部分がオーディオ・データ・フレーム、オーディオ・データ・ブロックまたはオーディオ・サンプルの一つまたは複数を含む、請求項1ないし22のうちいずれか一項記載の方法。
  24. 差分利得の前記特定の集合はラウドネス領域で定義される、請求項1ないし23のうちいずれか一項記載の方法。
  25. 前記エンコードされたオーディオ信号がオーディオビジュアル信号の一部である、請求項1ないし24のうちいずれか一項記載の方法。
  26. 源オーディオ・フォーマットにおけるオーディオ・コンテンツを受領する段階と;
    少なくとも部分的にはデフォルト・ダイナミックレンジ圧縮(DRC)曲線に基づいてデフォルト利得の集合を生成する段階であって、前記デフォルトDRC曲線はデフォルト利得プロファイルを表わす、段階と;
    非デフォルト利得プロファイルについての非デフォルト利得の集合を生成する段階と;
    少なくとも部分的にはデフォルト利得の前記集合および非デフォルト利得の前記集合に基づいて、差分利得の前記集合を生成する段階であって、差分利得の前記集合は、前記デフォルトDRC曲線との関係での前記非デフォルト利得プロファイルを表わす、段階と;
    前記オーディオ・コンテンツと、差分利得の前記集合を含む差分利得の前記一つまたは複数の集合とを含むオーディオ信号を生成する段階とを含む、
    一つまたは複数のコンピューティング装置によって実行される方法。
  27. 前記非デフォルト利得プロファイルはDRC曲線によって表わされる、請求項26記載の方法。
  28. 前記オーディオ信号は、前記非デフォルト利得プロファイルを表わす前記DRC曲線についての定義データを含まない、請求項27記載の方法。
  29. 前記非デフォルト利得プロファイルは、DRC曲線によって表わされない、請求項26ないし28のうちいずれか一項記載の方法。
  30. 前記一つまたは複数のダイナミックレンジ圧縮曲線についての一つまたは複数の識別子を決定する段階と;
    前記一つまたは複数の識別子に基づいて参照データ貯蔵部から前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データを取り出す段階とをさらに含む、
    請求項26ないし29のうちいずれか一項記載の方法。
  31. 前記デフォルト利得の集合が、少なくとも部分的には前記デフォルトDRC曲線に基づいて第一の組の利得生成動作を実行することによって生成された第一の非差分利得を含み、前記非デフォルト利得の集合が、前記非デフォルト利得プロファイルについての第二の組の利得生成動作を実行することによって生成された第二の非差分利得を含む、請求項26ないし30のうちいずれか一項記載の方法。
  32. 前記オーディオ・コンテンツの一つまたは複数の部分についての一つまたは複数のダイアログ・ラウドネス・レベルを計算する段階と;
    前記一つまたは複数のダイアログ・ラウドネス・レベルを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階とをさらに含む、
    請求項26ないし31のうちいずれか一項記載の方法。
  33. 前記一つまたは複数のダイアログ・ラウドネス・レベルの少なくとも一つが、ダイアログ・オーディオ・コンテンツを含む一つまたは複数のオーディオ・トラックから決定される、請求項32記載の方法。
  34. 前記オーディオ・コンテンツの前記一つまたは複数の部分に対して聴覚シーン解析(ASA)を実行する段階と;
    前記オーディオ・コンテンツの前記一つまたは複数の部分に対する前記ASAの結果に基づいて一つまたは複数のASAパラメータを生成する段階と;
    前記一つまたは複数のASAパラメータを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階とをさらに含む、
    請求項26ないし33のうちいずれか一項記載の方法。
  35. 前記オーディオ・コンテンツの一つまたは複数の部分において一つまたは複数のリセット・イベントが生起することを判別する段階と;
    前記一つまたは複数のリセット・イベントの一つまたは複数の指標を、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階とをさらに含む、
    請求項26ないし34のうちいずれか一項記載の方法。
  36. 前記オーディオ・コンテンツの一つまたは複数の部分を、オーディオ・データ・フレームまたはオーディオ・データ・ブロックの一つまたは複数にエンコードする段階をさらに含む、請求項26ないし35のうちいずれか一項記載の方法。
  37. 前記一つまたは複数のダイナミックレンジ圧縮曲線の少なくとも一つはラウドネス領域で定義される、請求項26ないし36のうちいずれか一項記載の方法。
  38. 前記エンコードされたオーディオ信号はオーディオビジュアル信号の一部である、請求項26ないし37のうちいずれか一項記載の方法。
  39. 前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データはパラメータの一つまたは複数の集合を含み、パラメータの前記一つまたは複数の集合における少なくとも一つの集合は、ルックアップテーブル、曲線または複数セグメント区分直線のうちの一つまたは複数を表わす、請求項26ないし38のうちいずれか一項記載の方法。
  40. 前記エンコードされたオーディオ信号が、受領側装置において定義されているDRC曲線を前記デフォルトDRC曲線として選択するための指標を含む、請求項26ないし39のうちいずれか一項記載の方法。
  41. 諸DRC曲線についての定義データを前記エンコードされたオーディオ信号において送る段階と;
    前記一つまたは複数のDRC曲線のうちで前記デフォルトDRC曲線を選択するための指標を含める段階とをさらに含む、
    請求項26ないし40のうちいずれか一項記載の方法。
  42. 請求項1ないし41のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
  43. 請求項1ないし41のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
  44. 一つまたは複数のプロセッサによって実行されたときに、請求項1ないし41のうちいずれか一項記載の方法の実行を引き起こすソフトウェア命令を含む非一時的なコンピュータ可読記憶媒体。
JP2016542033A 2013-09-12 2014-09-08 多様な再生環境のためのダイナミックレンジ制御 Active JP6476192B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361877230P 2013-09-12 2013-09-12
US61/877,230 2013-09-12
US201361891324P 2013-10-15 2013-10-15
US61/891,324 2013-10-15
US201461938043P 2014-02-10 2014-02-10
US61/938,043 2014-02-10
PCT/US2014/054592 WO2015038475A1 (en) 2013-09-12 2014-09-08 Dynamic range control for a wide variety of playback environments

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019017758A Division JP6633232B2 (ja) 2013-09-12 2019-02-04 多様な再生環境のためのダイナミックレンジ制御

Publications (2)

Publication Number Publication Date
JP2016536919A true JP2016536919A (ja) 2016-11-24
JP6476192B2 JP6476192B2 (ja) 2019-02-27

Family

ID=51585228

Family Applications (7)

Application Number Title Priority Date Filing Date
JP2016542033A Active JP6476192B2 (ja) 2013-09-12 2014-09-08 多様な再生環境のためのダイナミックレンジ制御
JP2019017758A Active JP6633232B2 (ja) 2013-09-12 2019-02-04 多様な再生環境のためのダイナミックレンジ制御
JP2019223667A Active JP6859420B2 (ja) 2013-09-12 2019-12-11 多様な再生環境のためのダイナミックレンジ制御
JP2021051364A Active JP7049503B2 (ja) 2013-09-12 2021-03-25 多様な再生環境のためのダイナミックレンジ制御
JP2022049822A Active JP7118302B2 (ja) 2013-09-12 2022-03-25 多様な再生環境のためのダイナミックレンジ制御
JP2022123273A Active JP7199591B2 (ja) 2013-09-12 2022-08-02 多様な再生環境のためのダイナミックレンジ制御
JP2022202769A Pending JP2023024570A (ja) 2013-09-12 2022-12-20 多様な再生環境のためのダイナミックレンジ制御

Family Applications After (6)

Application Number Title Priority Date Filing Date
JP2019017758A Active JP6633232B2 (ja) 2013-09-12 2019-02-04 多様な再生環境のためのダイナミックレンジ制御
JP2019223667A Active JP6859420B2 (ja) 2013-09-12 2019-12-11 多様な再生環境のためのダイナミックレンジ制御
JP2021051364A Active JP7049503B2 (ja) 2013-09-12 2021-03-25 多様な再生環境のためのダイナミックレンジ制御
JP2022049822A Active JP7118302B2 (ja) 2013-09-12 2022-03-25 多様な再生環境のためのダイナミックレンジ制御
JP2022123273A Active JP7199591B2 (ja) 2013-09-12 2022-08-02 多様な再生環境のためのダイナミックレンジ制御
JP2022202769A Pending JP2023024570A (ja) 2013-09-12 2022-12-20 多様な再生環境のためのダイナミックレンジ制御

Country Status (6)

Country Link
US (8) US10095468B2 (ja)
EP (2) EP3544181A3 (ja)
JP (7) JP6476192B2 (ja)
CN (6) CN109785851B (ja)
HK (1) HK1221080A1 (ja)
WO (1) WO2015038475A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154149A (ja) * 2019-03-20 2020-09-24 ヤマハ株式会社 オーディオ信号の処理方法
JP2022542588A (ja) * 2019-07-30 2022-10-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 再生機能が異なる装置を横断したダイナミクス処理

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090120B2 (en) * 2004-10-26 2012-01-03 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
US9352701B2 (en) * 2014-03-06 2016-05-31 Bose Corporation Managing telephony and entertainment audio in a vehicle audio platform
RU2701060C2 (ru) * 2014-09-30 2019-09-24 Сони Корпорейшн Передающее устройство, способ передачи, приемное устройство и способ приема
CN113257274A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
US9584911B2 (en) * 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
CN109245738A (zh) * 2015-09-07 2019-01-18 Tdk株式会社 集成电路,电路组件和用于其操作的方法
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
KR20180132032A (ko) 2015-10-28 2018-12-11 디티에스, 인코포레이티드 객체 기반 오디오 신호 균형화
US9883304B1 (en) * 2016-07-29 2018-01-30 Sonos, Inc. Lifetime of an audio playback device with changed signal processing settings
TWI590239B (zh) * 2016-12-09 2017-07-01 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法
CN108281148B (zh) * 2016-12-30 2020-12-22 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
WO2018129143A1 (en) * 2017-01-04 2018-07-12 That Corporation Configurable multi-band compressor architecture with advanced surround processing
CN110679083B (zh) 2017-03-31 2023-11-17 杜比国际公司 动态范围控制反演
KR102565447B1 (ko) * 2017-07-26 2023-08-08 삼성전자주식회사 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법
US10861473B2 (en) * 2017-09-27 2020-12-08 Gopro, Inc. Multi-band noise gate
US10951994B2 (en) * 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
US11430463B2 (en) * 2018-07-12 2022-08-30 Dolby Laboratories Licensing Corporation Dynamic EQ
EP3827429A4 (en) 2018-07-25 2022-04-20 Dolby Laboratories Licensing Corporation COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE
US11282533B2 (en) 2018-09-28 2022-03-22 Dolby Laboratories Licensing Corporation Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model
CN113647120B (zh) * 2019-03-14 2023-08-08 高迪奥实验室公司 用于控制响度级的音频信号处理装置
KR20210151831A (ko) * 2019-04-15 2021-12-14 돌비 인터네셔널 에이비 오디오 코덱에서의 대화 향상
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
CN111327944A (zh) * 2020-03-09 2020-06-23 上海电力大学 一种基于嵌入式cpu的广播语音响度检测的方法
CN114125658B (zh) * 2020-08-25 2023-12-19 上海艾为电子技术股份有限公司 动态范围控制电路、音频处理芯片及其音频处理方法
US11907611B2 (en) 2020-11-10 2024-02-20 Apple Inc. Deferred loudness adjustment for dynamic range control
KR20220071954A (ko) * 2020-11-24 2022-05-31 가우디오랩 주식회사 오디오 신호의 정규화를 수행하는 방법 및 이를 위한 장치
US11394356B1 (en) * 2021-02-12 2022-07-19 Amazon Technologies, Inc. Block-based audio limiter
US11687621B2 (en) * 2021-03-29 2023-06-27 International Business Machines Corporation Multi-modal fusion techniques considering inter-modality correlations and computer model uncertainty
EP4068809A1 (en) * 2021-04-02 2022-10-05 Arçelik Anonim Sirketi Smart home appliance and audio control method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010537233A (ja) * 2007-08-16 2010-12-02 ディーティーエス・インコーポレイテッド 圧縮デジタルテレビの音声処理
US20130054251A1 (en) * 2011-08-23 2013-02-28 Aaron M. Eppolito Automatic detection of audio compression parameters
JP2013519918A (ja) * 2010-02-11 2013-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法

Family Cites Families (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
JPH0746140Y2 (ja) 1991-05-15 1995-10-25 岐阜プラスチック工業株式会社 かん水栽培方法において使用する水位調整タンク
US6611607B1 (en) 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP3186472B2 (ja) 1994-10-04 2001-07-11 キヤノン株式会社 ファクシミリ装置およびその記録紙選択方法
US7224819B2 (en) 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
JPH11330980A (ja) 1998-05-13 1999-11-30 Matsushita Electric Ind Co Ltd 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体
US6530021B1 (en) 1998-07-20 2003-03-04 Koninklijke Philips Electronics N.V. Method and system for preventing unauthorized playback of broadcasted digital data streams
US6476745B1 (en) * 1998-11-25 2002-11-05 Texas Instruments Incorporated Voice codec automatic gain control
US6975254B1 (en) 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
US6909743B1 (en) 1999-04-14 2005-06-21 Sarnoff Corporation Method for generating and processing transition streams
US7450734B2 (en) 2000-01-13 2008-11-11 Digimarc Corporation Digital asset management, targeted searching and desktop searching using digital watermarks
WO2001052178A1 (en) 2000-01-13 2001-07-19 Digimarc Corporation Authenticating metadata and embedding metadata in watermarks of media signals
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US8091025B2 (en) 2000-03-24 2012-01-03 Digimarc Corporation Systems and methods for processing content objects
US6959275B2 (en) * 2000-05-30 2005-10-25 D.S.P.C. Technologies Ltd. System and method for enhancing the intelligibility of received speech in a noise environment
US7392287B2 (en) 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
GB2373975B (en) 2001-03-30 2005-04-13 Sony Uk Ltd Digital audio signal processing
US6807528B1 (en) 2001-05-08 2004-10-19 Dolby Laboratories Licensing Corporation Adding data to a compressed data frame
AUPR960601A0 (en) 2001-12-18 2002-01-24 Canon Kabushiki Kaisha Image protection
US7535913B2 (en) 2002-03-06 2009-05-19 Nvidia Corporation Gigabit ethernet adapter supporting the iSCSI and IPSEC protocols
AU2003207887A1 (en) 2002-03-27 2003-10-08 Koninklijke Philips Electronics N.V. Watermaking a digital object with a digital signature
US7072477B1 (en) 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
CA2562137C (en) 2004-04-07 2012-11-27 Nielsen Media Research, Inc. Data insertion apparatus and methods for use with compressed audio/video data
US8131134B2 (en) 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7624021B2 (en) 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
US8090120B2 (en) * 2004-10-26 2012-01-03 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US20060106472A1 (en) 2004-11-16 2006-05-18 Romesburg Eric D Method and apparatus for normalizing sound recording loudness
US9639554B2 (en) 2004-12-17 2017-05-02 Microsoft Technology Licensing, Llc Extensible file system
US7729673B2 (en) 2004-12-30 2010-06-01 Sony Ericsson Mobile Communications Ab Method and apparatus for multichannel signal limiting
CN101156209B (zh) 2005-04-07 2012-11-14 松下电器产业株式会社 记录媒体、再现装置、记录方法、再现方法
WO2006109716A1 (ja) 2005-04-07 2006-10-19 Matsushita Electric Industrial Co., Ltd. 記録媒体、再生装置、記録方法、再生方法
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR20070025905A (ko) 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
JP2009516402A (ja) 2005-09-14 2009-04-16 エルジー エレクトロニクス インコーポレイティド 符号化/復号化方法及び装置
AU2005338930B2 (en) 2005-12-05 2010-12-09 Thomson Licensing Watermarking encoded content
US8929870B2 (en) 2006-02-27 2015-01-06 Qualcomm Incorporated Methods, apparatus, and system for venue-cast
US8244051B2 (en) 2006-03-15 2012-08-14 Microsoft Corporation Efficient encoding of alternative graphic sets
MY141426A (en) * 2006-04-27 2010-04-30 Dolby Lab Licensing Corp Audio gain control using specific-loudness-based auditory event detection
US20080025530A1 (en) 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
US8948206B2 (en) 2006-08-31 2015-02-03 Telefonaktiebolaget Lm Ericsson (Publ) Inclusion of quality of service indication in header compression channel
US20080080722A1 (en) * 2006-09-29 2008-04-03 Carroll Tim J Loudness controller with remote and local control
BRPI0715312B1 (pt) 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
EP2115739A4 (en) 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
US8639498B2 (en) 2007-03-30 2014-01-28 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US8717885B2 (en) 2007-04-26 2014-05-06 Mushroom Networks, Inc. Link aggregation methods and devices
JP4750759B2 (ja) 2007-06-25 2011-08-17 パナソニック株式会社 映像音声再生装置
US7961878B2 (en) 2007-10-15 2011-06-14 Adobe Systems Incorporated Imparting cryptographic information in network communications
US9143329B2 (en) 2008-01-30 2015-09-22 Adobe Systems Incorporated Content integrity and incremental security
KR20100131467A (ko) 2008-03-03 2010-12-15 노키아 코포레이션 복수의 오디오 채널들을 캡쳐하고 렌더링하는 장치
US20090253457A1 (en) 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
JP2009296298A (ja) * 2008-06-05 2009-12-17 Panasonic Corp 音声信号処理装置および方法
KR100933003B1 (ko) 2008-06-20 2009-12-21 드리머 Bd-j 기반 채널 서비스 제공 방법 및 이를 실현시키기위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
EP2329492A1 (en) * 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
JP2010081397A (ja) 2008-09-26 2010-04-08 Ntt Docomo Inc データ受信端末、データ配信サーバ、データ配信システム、およびデータ配信方法
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5603339B2 (ja) 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
JP2010135906A (ja) 2008-12-02 2010-06-17 Sony Corp クリップ防止装置及びクリップ防止方法
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2395503A4 (en) 2009-02-03 2013-10-02 Samsung Electronics Co Ltd METHOD FOR CODING AND DECODING A BEEP SIGNAL AND DEVICE THEREFOR
US8229125B2 (en) * 2009-02-06 2012-07-24 Bose Corporation Adjusting dynamic range of an audio system
US8302047B2 (en) 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
WO2010143088A1 (en) 2009-06-08 2010-12-16 Nds Limited Secure association of metadata with content
EP2273495A1 (en) 2009-07-07 2011-01-12 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Digital audio signal processing system
JP5531486B2 (ja) * 2009-07-29 2014-06-25 ヤマハ株式会社 オーディオ機器
US8879750B2 (en) * 2009-10-09 2014-11-04 Dts, Inc. Adaptive dynamic range enhancement of audio recordings
CA2781310C (en) 2009-11-20 2015-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
GEP20146081B (en) 2009-12-07 2014-04-25 Dolby Laboratories Licensing Corp Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation
US8437480B2 (en) * 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
PL2381574T3 (pl) 2010-04-22 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób do modyfikacji wejściowego sygnału audio
JP5658506B2 (ja) 2010-08-02 2015-01-28 日本放送協会 音響信号変換装置及び音響信号変換プログラム
US8948406B2 (en) 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
EP2610865B1 (en) * 2010-08-23 2014-07-23 Panasonic Corporation Audio signal processing device and audio signal processing method
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
ES2600313T3 (es) 2010-10-07 2017-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la estimación de nivel de tramas de audio codificadas en un dominio de flujo de bits
TWI800092B (zh) 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US8989884B2 (en) 2011-01-11 2015-03-24 Apple Inc. Automatic audio configuration based on an audio output device
CN102610229B (zh) 2011-01-21 2013-11-13 安凯(广州)微电子技术有限公司 一种音频动态范围压缩方法、装置及设备
US20120262233A1 (en) * 2011-04-15 2012-10-18 Fairchild Semiconductor Corporation Mixed signal dynamic range compression
JP2012235310A (ja) 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
JP5856295B2 (ja) 2011-07-01 2016-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
JP2013034295A (ja) 2011-08-01 2013-02-14 Kobe Steel Ltd 発電設備に設けられた電圧安定化装置
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2013102411A (ja) 2011-10-14 2013-05-23 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
KR102172279B1 (ko) 2011-11-14 2020-10-30 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
WO2013078056A1 (en) 2011-11-22 2013-05-30 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
RU2586874C1 (ru) 2011-12-15 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для устранения артефактов амплитудного ограничения
JP5909100B2 (ja) * 2012-01-26 2016-04-26 日本放送協会 ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
WO2013118476A1 (ja) 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US8793506B2 (en) 2012-08-31 2014-07-29 Intel Corporation Mechanism for facilitating encryption-free integrity protection of storage data at computing systems
US20140074783A1 (en) 2012-09-09 2014-03-13 Apple Inc. Synchronizing metadata across devices
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
UA122050C2 (uk) 2013-01-21 2020-09-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
CN105190750B (zh) 2013-01-28 2019-10-25 弗劳恩霍夫应用研究促进协会 解码器设备以及解码比特流的方法
US9372531B2 (en) 2013-03-12 2016-06-21 Gracenote, Inc. Detecting an event within interactive media including spatialized multi-channel audio content
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
JP2015050685A (ja) 2013-09-03 2015-03-16 ソニー株式会社 オーディオ信号処理装置および方法、並びにプログラム
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
US9300268B2 (en) 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
CN111580772B (zh) 2013-10-22 2023-09-26 弗劳恩霍夫应用研究促进协会 用于音频设备的组合动态范围压缩和引导截断防止的构思
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
RU2678487C2 (ru) 2014-03-25 2019-01-29 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство аудиокодера и устройство аудиодекодера, имеющие эффективное кодирование усиления при управлении динамическим диапазоном
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
EP3522554B1 (en) 2014-05-28 2020-12-02 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Data processor and transport of user control data to audio decoders and renderers
EP3151240B1 (en) 2014-05-30 2022-12-21 Sony Group Corporation Information processing device and information processing method
KR102422493B1 (ko) 2014-06-30 2022-07-20 소니그룹주식회사 정보 처리 장치 및 정보 처리 방법
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US20160315722A1 (en) 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
WO2016193033A1 (de) 2015-05-29 2016-12-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur lautstärkenregulierung
EP4156180A1 (en) 2015-06-17 2023-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Loudness control for user interactivity in audio coding systems
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010537233A (ja) * 2007-08-16 2010-12-02 ディーティーエス・インコーポレイテッド 圧縮デジタルテレビの音声処理
JP2013519918A (ja) * 2010-02-11 2013-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法
US20130054251A1 (en) * 2011-08-23 2013-02-28 Aaron M. Eppolito Automatic detection of audio compression parameters

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020154149A (ja) * 2019-03-20 2020-09-24 ヤマハ株式会社 オーディオ信号の処理方法
WO2020189107A1 (ja) * 2019-03-20 2020-09-24 ヤマハ株式会社 オーディオ信号の処理方法、装置およびプログラム
JP7275711B2 (ja) 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法
US11877128B2 (en) 2019-03-20 2024-01-16 Yamaha Corporation Audio signal processing method, apparatus, and program
JP2022542588A (ja) * 2019-07-30 2022-10-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 再生機能が異なる装置を横断したダイナミクス処理
JP7326583B2 (ja) 2019-07-30 2023-08-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 再生機能が異なる装置を横断したダイナミクス処理

Also Published As

Publication number Publication date
JP6476192B2 (ja) 2019-02-27
JP2020039181A (ja) 2020-03-12
JP6633232B2 (ja) 2020-01-22
US20190310822A1 (en) 2019-10-10
JP7118302B2 (ja) 2022-08-15
US11842122B2 (en) 2023-12-12
JP6859420B2 (ja) 2021-04-14
US11429341B2 (en) 2022-08-30
EP3044876A1 (en) 2016-07-20
CN109920440B (zh) 2024-01-09
CN117767898A (zh) 2024-03-26
JP2023024570A (ja) 2023-02-16
US20200293272A1 (en) 2020-09-17
US9619199B2 (en) 2017-04-11
EP3544181A2 (en) 2019-09-25
EP3544181A3 (en) 2020-01-22
CN105556837B (zh) 2019-04-19
US10956121B2 (en) 2021-03-23
JP7049503B2 (ja) 2022-04-06
JP2021097418A (ja) 2021-06-24
US10318235B2 (en) 2019-06-11
CN109920440A (zh) 2019-06-21
WO2015038475A1 (en) 2015-03-19
CN109785851A (zh) 2019-05-21
US10095468B2 (en) 2018-10-09
US20160197590A1 (en) 2016-07-07
JP2022084856A (ja) 2022-06-07
EP3044876B1 (en) 2019-04-10
CN109903776A (zh) 2019-06-18
US20210318848A1 (en) 2021-10-14
JP2022140624A (ja) 2022-09-26
CN109903776B (zh) 2024-03-01
US9626149B2 (en) 2017-04-18
US20230075445A1 (en) 2023-03-09
CN109979472B (zh) 2023-12-15
CN109979472A (zh) 2019-07-05
US20160231983A1 (en) 2016-08-11
CN109785851B (zh) 2023-12-01
JP7199591B2 (ja) 2023-01-05
CN105556837A (zh) 2016-05-04
US20160227339A1 (en) 2016-08-04
HK1221080A1 (zh) 2017-05-19
US10606550B2 (en) 2020-03-31
JP2019068485A (ja) 2019-04-25
US20190065140A1 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
JP6859420B2 (ja) 多様な再生環境のためのダイナミックレンジ制御
JP7413470B2 (ja) ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190204

R150 Certificate of patent or registration of utility model

Ref document number: 6476192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250