JP5603339B2 - 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護 - Google Patents

既存のオーディオゲインメタデータを使用した信号のクリッピングの保護 Download PDF

Info

Publication number
JP5603339B2
JP5603339B2 JP2011534654A JP2011534654A JP5603339B2 JP 5603339 B2 JP5603339 B2 JP 5603339B2 JP 2011534654 A JP2011534654 A JP 2011534654A JP 2011534654 A JP2011534654 A JP 2011534654A JP 5603339 B2 JP5603339 B2 JP 5603339B2
Authority
JP
Japan
Prior art keywords
audio
gain value
gain
signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011534654A
Other languages
English (en)
Other versions
JP2012507059A (ja
Inventor
アー シュイルドバッハ,ヴォルフギャング
グロエスケル,アレクサンドル
Original Assignee
ドルビー インターナショナル アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー インターナショナル アーベー filed Critical ドルビー インターナショナル アーベー
Publication of JP2012507059A publication Critical patent/JP2012507059A/ja
Application granted granted Critical
Publication of JP5603339B2 publication Critical patent/JP5603339B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本特許出願は、デジタルオーディオストリームに埋め込まれた既存のオーディオメタデータを使用してオーディオ信号のクリッピングを保護することに関する。特に、応用例は、より少ないチャネルに多重チャネル・オーディオ信号をダウンミックスするときのクリッピングの保護に関する。
関連出願についてのクロス・リファレンス。本出願は、2008年10月29日に出願した第61/109,433号の優先権を主張し、個々に完全に引用し組み込まれたものとする。
例えばデジタル放送環境において、デジタルオーディオストリームにオーディオメタデータを埋め込むことが、共通のコンセプトとなっている。この種のメタデータは、「データに関するデータ」である。すなわちストリームのデジタルオーディオについてのデータである。メタデータは、オーディオを再生する方法について、オーディオ・デコーダに情報を提供することができる。1つのタイプのメタデータは、ゲインエンベロープを時間的に変化させることを示すダイナミック・レンジコントロール情報である。この種のダイナミック・レンジコントロールメタデータは、以下のような複数の目的に利用される。
(1)再生されたオーディオのダイナミックレンジをコントロールする。
デジタル伝送は高ダイナミックレンジを可能とする。しかし、聞いている状況はその恩恵を必ずしも受けない。高ダイナミックレンジは、静かなリビング室内条件においては望ましいものである。しかし、それは高いバックグラウンド・ノイズ・レベルが生じる環境、例えばカーラジオその他の条件では適切でない。多種多様なリスニング環境に対応するため、伝送の前にダイナミックレンジを減少させる代わりに、レシーバに対してダイナミックレンジを減少させるよう指示するメタデータを、デジタルオーディオストリームに挿入することができる。前者のアプローチは、フルダイナミックレンジのオーディオをレシーバが再生することができないため、好ましくない。これに対して、後者のアプローチは、リスニングの環境に応じて、リスナーに対してダイナミックレンジのコントロールを行うことを可能とする点で好ましい。この種のダイナミック・レンジコントロールメタデータは、リスナーの好みで利用でき、デコードされた信号の高品質のアーティステックなダイナミックレンジの圧縮データを作る。
(2)ダウンミックス・オペレーションの場合に、クリッピングするのを防止する。
多重チャネル信号(例えば5.1−チャンネル・オーディオ信号)がダウンミックスされる場合に、通常は2つのチャネルに、チャネル数が減少する。ステレオ・スピーカーを介して2つ以上のチャネル(例えば5.1−チャンネル・オーディオ信号は、5つの主チャネル、及び1つの低周波効果チャネル)を有する多重チャネル・オーディオ信号を再生する場合には、通常は、レシーバ・サイドは、ダウンミックス・オペレーションが実行される。ここで、多重チャネル信号は、2つのチャネルにミックスされる。ミキシング動作は、ダウンミックス・マトリックスに記述することができる。例えば、5つのチャンネル信号を2つのチャンネル(ステレオの)信号にダウンミックスする場合には、2つのロウ及び5つのカラムから成る2−5のマトリックスによって記述される(低周波効果チャネルは、通常はダウンミックスにおいては考慮されない)。5.1−チャンネル信号の5つの主チャネルを2つのチャネルにミックスするための異なるダウンミックス方式が知られている。この例としては、Lo/Ro(左だけ、右だけ)、又は、Lt/Rt(左トータル、右トータル)が挙げられる。ダウンミックス・ステップは、デジタル・ステレオ信号のオーバーロードの発生を引き起こす危険性の可能性がある。それによって、望まれていないクリッピングアーティファクトが生成されることになる。この種のクリッピングは、ダウンミックスされたデジタル信号が、最大(又は最小)の表現可能な値を超えた振幅が、最大(又は最小)の表現可能な値で制限される場合に起こり得る。例えば、単純な符号なし固定小数点2進数の表現の場合には、計算されたダウンミックスされた振幅が最大値のワード(すなわち、全てのビットが1である値)によって制限される場合にクリッピングが発生する。16ビット符号付き表現の場合には、最大の値は、例えばワード「0111111111111111」に対応してもよい。
さまざまなダウンミックスの方式のダウンミックス・マトリックスがヘッドエンドで知られているため、発信者、又はコンテンツ生成サイドは、ダウンミックスされる場合に、クリッピングしてしまう信号に対しては、ダウンミックスされる前に信号を減衰させるようレシーバに命令するダイナミック・レンジコントロールメタデータが、クリッピングするのを防止するオーディオ・ストリームに加えられ得る。
(3)ブーストされた出力の場合にはクリッピングするのを防止する。
ダイナミックスが非常に限られたチャネルにおける(例えばセットトップボックスからアナログRFリンクを介してTVのRF入力への)再送信に対して、通常は、このパスでより良好な信号対雑音比を達成するために、信号が11dBブーストされる。この種の応用例において、11dB増幅される場合に、クリッピングが結果として発生してしまう信号に対して、ダイナミック・レンジコントロールメタデータは、オーディオ・ストリームに11dBの増幅を適用する前に信号の振幅を減少させるよう、レシーバに命令し、クリッピングするのを動的に防止する。
【0008】
【特許文献】
【特許文献1】米国仮特許出願番号61/101497号
【特許文献2】 WO2008/1000098
"Transcoding of dynamic range control coefficients and other metadata into MPEG-4 HE AAC", Wolfgang Schildbach et al., Audio Engineering Society Convention Paper, presented at the 123<rd> Convention October 5-8, 2007, New York
オーディオ・ストリームを受信するデバイスの観点からすると、ダイナミック・レンジコントロールメタデータが以下のいずれの目的で機能するかが明確に分からない。すなわち、(1)ダイナミックレンジのコントロール、(2)ダウンミックスのクリッピング保護、又は(1)及び(2)の両方の目的である。メタデータは、多くの場合、この二つのタスクを達成する。しかし、これは常になされるわけではない。したがって、ある場合には、メタデータは、ダウンミックスのクリッピング防止のためでない場合がある。加えて、メタデータが上記(3)のRFモードに関連する場合、このメタデータは、(ダウンミキシングの場合であってもなくても)過剰の増幅の場合にクリッピングを防止するために利用されてもよい。
さらに、一部のオーディオ・エンコーディングフォーマットでは、メタデータが任意であるため、受信されたオーディオ・ストリームに、ダイナミック・レンジコントロールメタデータが全く含まれなくてもよい。ダイナミック・レンジコントロールメタデータが圧縮オーディオ・ストリームに含まれないか、又ダウンミックスのクリッピング保護が含まれない場合、マルチチャネル信号がより少ないチャネル数にダウンミックスされる場合、望ましくないクリッピングアーティファクトがデコードされた信号に発生しうる。特許文献2は、オブジェクトベースのオーディオ信号の処理のためのオーディオ符号化/復号化の方法を開示している。
本発明によって、オーディオメタデータによるクリッピングの保護が保証されない場合に、オーディオ信号がクリッピングするのを防止する方法及び装置が開示される。
応用例の第1の態様は、オーディオ信号(例えばダウンミックスされたデジタルオーディオ信号)の信号クリッピングからの保護を提供する方法に関する。そして、これはデジタルオーディオ・データから得られる。この方法によれば、受信されたオーディオメタデータに基づく第1のゲイン値がオーディオ信号のクリッピングからの保護に充分かどうかが、決定される。オーディオメタデータは、第1のオーディオ・ストリームに埋め込まれる。例えば、圧縮オーディオ・ストリームに含まれる時変(time-varying)ゲインエンベロープ・メタデータがダウンミックス・クリッピングを防止するのに十分か否かが決定される。第1のゲイン値が保護に充分でない場合には、それぞれの第1のゲイン値はオーディオ信号のクリッピングからの保護に充分なゲイン値と置き換えられる。望ましくは、ダイナミック・レンジコントロールに関連するメタデータが第1のオーディオ・ストリームに存在しない場合には、本方法は信号クリッピングからの保護に充分なゲイン値を加えてもよい。例えば、時変ゲインエンベロープ・メタデータが充分なダウンミックスのクリッピングの保護を提供しない場合、又は全くない場合、時変ゲインエンベロープ・メタデータが、修正されるか、又は加えられる。これによって、充分なダウンミックスのクリッピングの保護を提供する。
本方法はクリッピングの保護を可能とする。そして、クリッピングを保護するに充分なゲイン値が受信されるかどうかに関わらず、特にダウンミックスの場合にはクリッピングを保護する。
本発明に従って、受信したオーディオゲインワード(提供される場合)が、できる限り正確なものとして適用されてもよいが、受信したゲインワードがクリッピングするのを防止する十分な減衰を提供しない場合には、例えばダウンミックスにおいて、これにオーバーライドされる。
ダイナミック・レンジコントロールデータが、上記(1)の目的として働き、アーティステックな態様を持つため、受信したメタデータがそれを提供しない場合に、受信デバイス(例えばセットトップボックス)がこれを導入する義務はない。上記(2)が、受信側(receiving instance)によって、提供でき、また提供されるべきである。これは、受信デバイスは、可能な限り上記(1)の下でダイナミック・レンジコントロールを目的とするダイナミック・レンジ・コントロールデータを温存し、これと同時に、クリッピングの保護を加えるということを意味する。
受信されたオーディオメタデータに基づく第1のゲイン値が信号クリッピングからの保護に充分かどうか決定するさまざまな方法が存在する。好適なアプローチによれば、第2のゲイン値は、デジタルオーディオ・データに基づいて計算される。ここで、第2のゲイン値は、オーディオ信号のクリッピングを保護するに充分なものである。第2のゲイン値は、結果としてクリッピングにならない最大許容ゲイン値であってもよい。
望ましくは、本方法は、受信されたオーディオメタデータに基づいて、第1のゲイン値を、計算された第2のゲイン値と比較することによって、第1のゲイン値が充分かどうか決定する。本方法は、オーディオ・データの部分に関連づけられた、それぞれの1つの第1の値を、オーディオ・データの同じ部分に関連づけられた第2のゲイン値と、比較してもよい。
これに関連して、ストリームのゲイン値に適合するクリッピング保護が、第1及び第2のゲイン値から生成されてもよい。望ましくは、この種のゲイン値は、比較のオペレーションに依存して、第1のゲイン値、及び計算された第2のゲイン値から選択される。第1のゲイン値の代わりに第2の計算されたゲイン値を選択することによって、第1のゲイン値は、選択された第2のゲイン値と置き換えられる。
望ましくは、一対の第1及び第2のゲイン値の最小値が、選択される。第1のゲイン値が、保護に充分な計算された第2のゲイン値より大きい場合、これは第1のゲイン値がクリッピングを保護するに充分でなく、かつ、したがってそれぞれの第2のゲイン値と置換されなければならないという危険があることを示す。この逆に、第1のゲイン値が保護に充分であるとして計算された第2のゲイン値より小さい場合、これは信号クリッピングの危険度がないことを示し、かつ第1のゲイン値が温存されなければならない。
第1及び第2のゲイン値からのゲイン値の選択は、以下のように行われてもよい。
第1のゲイン値、及び第2のゲイン値が、1に等しいか、これより小さいゲインを提供する場合には、両方の最小値が採用される。これは、第1のゲイン値がすでにクリッピングを保護することを保証する場合、又は、そうでない場合のいずれかにおいて、それが第2のゲイン値と置き換えられることを意味する。第2のゲイン値のゲインが1より大きい場合で、かつ、第1のゲイン値が1に等しいかより小さいゲインを提供する場合、信号は、増幅することができ、かつクリッピングしない。にもかかわらず、例えば、ダイナミックレンジを制限する目的を達成するために、受信したオーディオ・ストリームが、振幅を減少させることをリクエストする場合には、したがって、これは温存される。
第1のゲイン値が1より大きいゲインを提供し、かつ第2のゲイン値が1に等しいかより小さいゲインを提供する場合には、受信した第1のゲイン値はクリッピングの保護を妨害することとなる。したがって、第2のゲイン値が採用される。第1のゲイン値、及び第2のゲイン値が1より大きいゲインを提供する場合には、入力は増幅される。まだクリッピングが起こらない限り、この増幅は許容される。したがって、第1のゲイン値、及び第2のゲイン値で、より小さいものが使用される。第1のゲイン値が保護に充分であるかどうか、決定するための他のアプローチは、第1のゲイン値をオーディオ・データに適用して、その結果得られるデジタルオーディオ信号(例えばダウンミックスされた信号)がクリッピングするかどうかを判断することである。
第1のゲイン値が保護に充分でない場合には、最初のゲイン値として第1のゲイン値から始めて、クリッピングを保護するに充分であるゲイン値を反復的に決定してもよい。例えば、解像度に従う第1のゲイン値より小さい最も近いゲイン値であるゲイン値によってオーディオ信号がクリッピングするかどうか、判断してもよい(例えば第1のゲイン値が0.8であり、かつ、ゲイン値解像度が0.1である場合、最も近くで小さいゲイン値は0.7である)。信号がまだクリッピングする場合、オーディオ信号が次の、より小さいゲイン値(例えば0.6のゲイン値)によってクリッピングするかどうか、判断されてもよい。結果として信号クリッピングにならないゲイン値が分かるまで、これが繰り返される。
望ましくは、本方法は、トランスコーディング方法の一部として実行される。ここで、第1のオーディオ符号化フォーマット(例えばAACフォーマット又はHigh Efficiency AAC(HE−AAC)フォーマット、別名aacPlus)の第1のオーディオ・ストリームは、第2のオーディオ符号化フォーマット(例えばドルビーデジタル・フォーマット又はドルビーデジタルプラスフォーマット)に符号化された第2のオーディオ・ストリームにトランスコードされる。第2のオーディオ・ストリームは、クリッピングに充分な置き換えられたゲイン値を有し、あるいは、そこから得られるゲイン値を有する。
しばしばオーディオ・トランスコーディングが必要となる。その理由は、次のことにある。オーディオ・データを伝送するためのデジタル圧縮形式は伝送チェーンの最終的なオーディオ・デコーダ(例えばオーディオ・ビデオ・レシーバAVRのデコーダまで)まで全部の伝送チェーンの全体にわたって保たれることができないからである。ブロードキャストの場合には、これは、例えば、無線ブロードキャスト(又はケーブルを介しての消費者に対するブロードキャスト)、及び受信デバイス(例えばセットトップボックス−STB)と伝送チェーンの最終的なデコーダ(例えばAVRのデコーダ又はテレビのオーディオ・デコーダ)との間でのオーディオの伝送のために、異なる符号化体系が使用され得るという理由も存在する。例えば、オーディオ・データは、AACフォーマット又はHE−AACフォーマットによって無線ブロードキャストされてもよい。そして、オーディオ・データは、STBからAVRまでは、ドルビーデジタル・フォーマット又は伝送のドルビーデジタルプラスフォーマットにトランスコードされてもよい。結論的には、例えば、あるフォーマットから別のフォーマットを得るために、STBで、トランスコーディング・ステップが実行されてもよい。この種のトランスコーディング・ステップは、オーディオ・データ自体のトランスコーディングを有する。なお、理想的には、添付のメタデータ(特にダイナミック・レンジコントロールデータ)をトランスコーディングしてもよい。好適な実施の形態によれば、本方法は、第2のオーディオ・ストリームのトランスコードされたオーディオゲインメタデータを提供する。このゲインメタデータによって信号クリッピングからの充分な保護が行える。
本方法は、ある圧縮オーディオ・ストリーム・フォーマットから別のものに信号をトランスコーディングするいかなるデバイスにも対しても非常に役立つ。時変ゲインコントロールメタデータが、事前に分かっていなくても、あるいはもしあるとしても、最初のフォーマットがダウンミックスのクリッピング保護がある場合、役に立つ(例えば、AAC/HE−AACからドルビーデジタルへのトランスコーダ、ドルビーEからAC/HE−AACへのトランスコーダ、又はドルビーデジタルからAAC/HE−AACへのトランスコーダが挙げられる)。
望ましくは、第1のゲイン値が保護に充分であるかどうかを決定するために、デジタルオーディオ・データは少なくとも一つのダウンミックスの方式によりダウンミックスされる。例えば、Lt/Rtダウンミックス方式に基づいて行われる。ダウンミキシングの結果は一つ以上の信号を与える。例えば、右チャンネルに関連する一つの信号と、左チャンネルに関連する一つの信号である。加えて、複数のダウンミキシングの方式が考慮されてもよい。そして、デジタルオーディオ・データは複数のダウンミキシングの方式によってダウンミックスされる。
望ましくは、オーディオ信号から得られる各種信号の実際のピーク値は、連続的に決定される。すなわち与えられた時間に、各種信号のうちどれが最も高い信号値を有するかが、決定される。ピーク値を計算するために、本方法は、与えられた時間に2つ以上の信号の絶対値の最大を決定してもよい。2つ以上の信号は、第1のダウンミキシングの方式によってダウンミックスした後に、一つ以上の信号(例えばダウンミックスされた右チャンネル信号のサンプルの絶対値、及びダウンミックスされた左チャンネル信号の同時のサンプルの絶対値)を含んでもよい。加えて、ピーク値の計算のために、また、本方法は、第2の(あるいは第3の)ダウンミキシングの方式によってダウンミックスした後に、一つ以上の信号の絶対値を考慮してもよい。さらに、ピーク値の決定は、ダウンミックスする前に、一つ以上のオーディオ信号の絶対値を考慮してもよい。例えば5.1−チャンネル信号の各々5つの主チャネルの絶対値を同時に考慮することができる。トランスコーディングの場合には、多重チャネル信号が独立のチャネルによって後で再生されるか、又は、ダウンミキシングの方式によってダウンミキシングが実行されるかどうか通常はわかっていない点に留意する必要がある。ピーク値は、これらの信号のサンプル値の同時の値に対応する。特定の時刻における全てのケースに対して、信号が持ち得る最大の振幅を表す。クリッピング保護アルゴリズムが考慮しなければならないのは、この最悪のケースである。
ダイナミック・レンジコントロールデータは、通常は、特定の粒度で時間的に変化するものであり、対応するオーディオエンコーディングフォーマット又はその整数部分のデータセグメント(例えばブロック)の長さに関連する。したがって、また、第2のゲイン値は、好ましくはデータセグメント毎に計算される。
したがって、ピーク値、又は連続的なピーク値のサンプリングレートは、好ましくは減少する(ダウンサンプリング)。これは、複数の連続的なピーク値、又は連続的にフィルタリングされたピーク値の最大を決定することによってなされてもよい。特に、本方法は、データ・セグメント(例えば1ブロック又は1フレーム)に関連する複数の連続的な(フィルタリングされた)ピーク値の最大を決定してもよい。トランスコーディングの場合には、本方法は、第2の(出力される)データストリームのデータセグメントに関連する複数の連続的な(フィルタリングされた)ピーク値の最も高いピーク値を決定してもよい。好ましくは、出力セグメントの信号サンプルに基づき、連続的なピーク値が、最大に関して考慮されるだけでなく、データセグメントのデコーディングに影響する付加的な(前後の)ピーク値が考慮されてもよい。すなわち、デコーディング・ウィンドウの始めと終わりでの信号サンプルに関するピーク値である。これらのピーク値は、また、データセグメントに関連する。最も高いピーク値を選択する代わりに、サンプリングレートを減少させるため、データセグメント毎に、異なる値を計算してもよい。
ピーク値以外のオーディオ・データから得られるサンプルが、ダウンサンプリングされてもよい点に留意する必要がある。例えば、オーディオ・データは単一チャネル(モノ)にダウンミックスされてもよい。そして、出力されるデータセグメント毎にダウンミックスされた連続的なサンプルの最大だけが決定される。異なる実施例において、出力されるデータセグメント(ダウンサンプリング)毎に、ダウンミックスされたチャネルの信号に対する最初の各々の最大が計算され、そして、これらの最大のピーク値が決定される。
決定された最大に基づいて、ゲイン値は、決定された最大をインバート(invert)することによって計算されてもよい。示される値として、1が最大の信号値である場合、決定された最大をインバートすることによって、ゲイン係数が得られる。ゲイン係数が(フィルタリングされた)ピーク値の最大に適用される場合、その結果得られる値(すなわち最大の信号値)は1に等しい。これは、このゲインが適用される各々のオーディオ・サンプルは、1以下に保たれるか、又は1に等しいことを意味する。したがってこのデータセグメントに対してクリッピングが回避される。1が最大信号レベルである場合には、1は0dBFS(フルスケールに対するデシベル)に対応する。通常、0dBFSは、最大として可能なレベルに割り当てられる。
決定された最大を単にインバートする代わりに、ゲイン値は、最大の信号値(これは、0dBFSに対応する)をデータセグメントに関連づけられた決定された最大によって除算することによって、計算してもよい。しかしながら、計算コストは、単純なインバージョンと比較して高くなる。
トランスコーディングの場合には、データセグメント(例えばブロック又はフレーム)長は、第1のオーディオ符号化フォーマット(入力ストリームのフォーマット)と、第2のオーディオ符号化フォーマット(出力ストリームのフォーマット)とで、しばしば異なる。例えば、AACにおいて1ブロックは、通常は128のサンプルを含む(HE−AACでは、ブロック毎に256サンプル)。これに対して、ドルビーデジタルでは、1ブロックは、通常は256のサンプルを含む。したがって、AACからドルビーデジタルにトランスコーディングするとき、ブロック毎のサンプルの数は増加する。AACでは、フレームが通常は1024のサンプルを有する(HE−AACでは、フレーム毎に2048サンプル)。これに対して、ドルビーデジタルでは、フレームは、通常は1536のサンプル(6ブロック)を有する。したがって、AACからドルビーデジタルにトランスコーディングするとき、同様にフレーム毎のサンプルの数は増加する。ダイナミック・レンジコントロール粒度は、主に、ブロック・サイズかフレームサイズである。例えば、HE−AACストリームのMPEGのダイナミック・レンジコントロールメタデータ「DRC」の、及びドルビーデジタルのゲインメタデータ「dynrng」の粒度は、ブロック・サイズである。これに対して、ドルビーデジタルのゲインメタデータ「compr」の、及びHE−AACストリームのDVB(デジタルビデオ放送)のゲインメタデータ「heavy compression」の粒度は、フレームサイズである。
加えて、サンプリングレートは入力ストリーム(例えば32のKHz、又は44.1のKHz)、及び出力ストリーム(例えば48のKHz)で異なってもよい。すなわち、オーディオはリサンプリングされる。これは、また、受信したデータセグメント、及び出力されるデータセグメントの長さの関係を変更する。さらに、入力、及び出力データセグメントは整合(align)している必要はない。加えて、入力データ・セグメント(例えばブロック又はフレーム)において伝送されるメタデータは、ダイナミックレンジコントロールインパクト(すなわちゲイン値の適用が影響するストリームの範囲)の領域を持っている点に留意する必要がある。これは、正確にデータセグメントのように大きくはないが、比較的大きい。これは、使用されたトランスコードのオーバーラップした重畳(overlap−add)特徴によるものであり、かつ、ダイナミック・レンジコントロールがスペクトル領域においてしばしば適用されるという事実によるものである。出力されるオーディオ・ストリームのダイナミック・レンジコントロールデータに対しても。しばしば同じことが言える。したがって、入力ゲイン値が、所与の出力データセグメントに影響するかを判断するためには、入力及び出力データセグメントのオーバーラップを考慮するのではなく、入力及び出力インパクト長さのオーバーラップに注目する必要がある。この詳細は、後述する。
上で述べた理由によって、ダイナミック・レンジコントロールデータのトランスコーディングでは、出力のダイナミック・レンジコントロール値が、複数の入力のダイナミック・レンジコントロール値によって影響されるということを、考慮すべきである。この場合、データストリームをトランスコーディングする場合に、ダイナミック・レンジコントロールデータのリサンプリング(リフレーミング)が実行されてもよい。したがって、本方法は、第1のオーディオ・ストリームの受信されたオーディオメタデータから得られるゲイン値をリサンプリングするステップを有してもよい。第1のオーディオ・ストリームのデータセグメントが第2のオーディオ・ストリームのデータセグメントより短い時間をカバーする場合、ゲイン値は、ダウンサンプリングされる。
リサンプリングされたゲイン値は、複数の連続的なゲイン値の最小値を計算することによって決定されてもよい。換言すれば、多くの入力ダイナミック・レンジコントロールゲイン(これは、出力されるデータセグメントに関連する)から、最も小さいものが選択される。このことをする動機は、可能な限り受信した値(値が信号のクリッピングを発生させない場合)を温存(preserve)するためである。しかしながら、ゲイン値がリサンプリングされなければならないので、しばしばこれは可能でないことがある。したがって、最も小さいゲイン値が選択される。そして、これによって信号の振幅を減少させることになる。しかしながら、この信号の振幅の減少は、より知覚しがたく、耳障りでもないと認識される。望ましくは、この種の最低値は、出力データセグメント毎に決定される。
ダイナミック・レンジコントロールに関連するゲインメタデータが第1のオーディオ・ストリームに存在しない場合には、本方法は好ましくは第2のオーディオ・ストリーム(出力されるストリーム)のクリッピングからの保護に充分なゲイン値を加える。ゲインの値が1を上回らないよう、好ましくはこれらのゲイン値が制限されなければならない。ゲイン値が1を上回るのを防止する理由は、信号がクリッピング境界に近くなるほどに不必要に増幅されないようにするためである。
したがって、それぞれの計算された第2のゲイン値が1を下回るゲインである場合には、加えられたそれぞれのゲイン値は計算された第2のゲイン値に対応する。それぞれの計算された第2のゲイン値が1を超える場合には、それぞれの加えられたゲイン値は1のゲインに設定される。
応用例の第2の態様は、デジタルオーディオ・データから得られるオーディオ信号の信号クリッピングからの保護を提供する装置に関する。装置は、上述の方法を実行するよう構成される。装置の特徴は、上述の方法の特徴に対応する。したがって、本装置は、受信されたオーディオメタデータに基づく第1のゲイン値がオーディオ信号のクリッピングからの保護に充分であるかどうかを決定する手段を有する。さらに、装置は、第1のゲイン値が充分でない場合には、第1のゲイン値を、オーディオ信号のクリッピングからの保護に充分なゲイン値と置き換えるための手段を有する。
望ましくは、決定する手段は、デジタルオーディオ・データに基づいて第2のゲイン値を計算する手段を有する。ここで、第2のゲイン値は、オーディオ信号のクリッピングを保護するに充分である。より好ましくは、決定する手段は、また、受信されたオーディオメタデータに基づいて、第1のゲイン値を、計算された第2のゲイン値と比較するための比較手段を有する。上記に関連して、ゲイン値は、第1のゲイン値、及び計算された第2のゲイン値から選択される。
応用例の第1の態様に関連する上述の記載は、また、応用例の第2の態様に適用できる。
応用例の第3の態様は、トランスコーダに関する。ここで、トランスコーダは、第1のオーディオ符号化フォーマットから、第2のオーディオ符号化フォーマットにオーディオ・ストリームをトランスコーディングするように構成される。このトランスコーダには、応用例の第2の態様の装置が含まれる。トランスコーダは第1のオーディオ・ストリームを受信する受信デバイスの一部であることが望ましい。ここで、第1のオーディオ・ストリームは、デジタル放送信号、例えばデジタルテレビジョン信号(例えばDVB−T、DVB−S、DVB−C)、又はデジタル無線信号(例えばDAB信号)のオーディオ・ストリーム)である。例えば、受信デバイスは、セットトップボックスである。オーディオ・ストリームは、また、インターネットを介してブロードキャストされてもよい(例えばインターネットTV又はインターネット・ラジオ)。あるいは、第1のオーディオ・ストリームは、デジタル・データ蓄積媒体(例えばDVD、又はBlurayディスクから読み込まれてもよい。
応用例の第1及び第2の態様に関連する上記の記載は、また、応用例の第3の態様に適用できる。
本発明については、添付の図面を用いて、例示として以下に説明する。
クリッピングの保護を提供するトランスコーダの実施例を例示する図である。 メタデータをリフレームする好適なアプローチを例示する図である。 受信されたオーディオ・データに基づいてピーク値を決定するための実施例を示す図である。 受信したダイナミック・レンジコントロールデータを、クリッピングを保護するに充分な計算されたゲイン値にマージする実施例を示す図である。 出力されるゲイン値の選択を示す図である。 受信したダイナミック・レンジコントロールデータを、クリッピングを保護するに充分な計算されたゲイン値にマージするための別の実施例を示す図である。 スムージングフィルタステージの実施例を示す図である。 クリッピングの保護を提供するための他の実施例を示す図である。 クリッピングの保護を提供するためのさらに別の実施例を示す図である。 トランスコードされたオーディオ・ストリームを受信する受信デバイスを例示する図である。
AAC/HE−AAC、及びドルビーデジタル/ドルビーデジタルプラスは、メタデータのコンセプトをサポートする。より詳細にはデコーディングにオーディオ・データに任意に適用される時変(time varying)ゲインを有するゲインワードをサポートする。データを減少させるために、これらのゲインワードは、通常はデータセグメント毎に(例えばブロック、又はフレーム毎に)、一度送られるだけである。上述のオーディオ・フォーマットにおいて、これらのゲインワードは、任意である。すなわち、このデータを送信しないことが技術的に可能である。ドルビーデジタル、及びドルビーデジタルプラスエンコーダは通常はゲインワードを送信するのに対し、AAC、及びHE−AACエンコーダはしばしばこのゲインにワードを送信しない。しかしながら、このゲインワードを送信するAAC、及びHE−AACエンコーダの数は増加している。応用例は、いずれの状況においても、オーディオ・ストリームを受信するデコーダ、又はトランスコーダが正しく動作することを可能とする。オーディオゲインワードが提供される場合、「正しい取り扱い」は、受信したオーディオゲインワードを、できる限り忠実に処理することである。しかし、受信されたオーディオゲインが、信号クリッピングを防止するために振幅を減少させるに十分でない場合、例えばダウンミックスの場合には、これを無視(override)する。ゲイン値が提供されない場合には、「正しい取り扱い」は、信号クリッピングを防止するゲイン値を算出し、かつ提供することになる。
図1は、トランスコーダの実施例である。トランスコーダによって、信号クリッピングからの保護を提供する。特にダウンミックスする(例えば5.1−チャンネル信号から2−チャンネル信号へのダウンミックスの)際に、クリッピングから保護する。トランスコーダは、オーディオメタデータを有するデジタルオーディオストリーム1を受信する。例えば、デジタルオーディオストリームは、AAC、又はHE−AAC(HE−AACバージョン1、又はHE−AACバージョン2)デジタルオーディオストリームである。デジタルオーディオストリームは、DVBビデオ/オーディオ・ストリーム(例えばDVB−T、DVB−S、又はDVB−Cストリーム)の部分であってもよい。トランスコーダは、受信されたオーディオ・ストリーム1を、異なるフォーマット(例えばドルビーデジタル、又はドルビーデジタルプラス)にエンコードし、出力オーディオ・ストリーム14にトランスコーディングする。通常は、ドルビーデジタル・デコーダは、多重チャネル信号のダウンミキシングをサポートし、かつ受信されたドルビーデジタル・メタデータに含まれる時変ゲインエンベロープがダウンミックス・クリッピングの保護を含むと仮定する。残念なことに、ビットストリーム1(例えばAAC/HE−AACビット列)が時変ゲインエンベロープ・メタデータを必ずしも含むというわけではない。そして、この種のデータがある場合でさえ、データがクリッピングを保護する点を含むかどうか明らかでない。トランスコーダ(例えばドルビーデジタル・デコーダ)は、受信デバイス(トランスコーダのダウンストリーム)のデコーダが信号をダウンミックスする場合に、クリッピングアーティファクトを含む出力信号を生成するのを防止する。トランスコーダは、出力オーディオ・ストリーム14が、ダウンミックスのクリッピング保護を含む時変ゲインエンベロープ・メタデータを含むことを確実にする。
図1において、ユニット2は、オーディオ・ストリーム1のオーディオメタデータに含まれるダイナミック・レンジコントロールゲイン値3を読み出す。任意に、ゲイン値3は、ユニット5において更に処理される。例えば、ゲイン値3は、リサンプリングされ、かつトランスコードされた出力オーディオ・ストリーム14のデータ・セグメント・タイミングに従ってトランスコードされる。メタデータゲイン値のリサンプリング、及びトランスコーディングは、非特許文献1に記載されている。本論文(特にリサンプリングするためのコンセプト、及びメタデータゲイン値のトランスコーディング)の開示は、本願明細書に引用したものとする。加えて、出願人による「オーディオメタデータのトランスコーディング」と題する2008年9月30日に出願した特許文献1は、メタデータゲイン値をリサンプリングし、トランスコーディングすることに関して開示している。この出願、特にリサンプリングするためのコンセプト、及びメタデータゲイン値のトランスコーディングの開示は、本願明細書に引用したものとする。
リサンプリングすることと並行して、オーディオ・データデコーダ6によって、オーディオ・ストリーム1のオーディオ・データは、通常はPCM(パルス符号変調)に、デコードされる。デコードされたオーディオ・データ7は、複数のパラレル信号チャネル(例えば5.1−チャンネル信号の場合には6つの信号チャネル又は7.1−チャンネル信号の場合には8つの信号チャネル)を有する。
コンピューティングユニット8は、オーディオ・データ7に基づいて計算されたゲイン値9を決定する。計算されたゲイン値9は、トランスコーディングされたオーディオ・ストリームを受信するトランスコーダの受信デバイスダウンストリームにおいて、特に受信デバイスの信号をダウンミックスする場合に、信号クリッピングからの保護として充分である。この種のデバイスは、AVR、又はテレビであってもよい。計算されたゲイン値は、ダウンミックスされた信号が最大で0dBFS以下であることを保証しなければならない。オーディオ・ストリーム1から得られるゲイン値4と、計算されたゲイン値9とは、メタデータユニット10において比較される。ユニット10は、ゲイン値11を出力する。ここでゲイン値ストリーム4のそれぞれのゲイン値が受信デバイスの信号クリッピングを防止するのに十分でない場合には、ゲイン値ストリーム4のゲイン値はゲイン値ストリーム9から得られるゲイン値と置き換えられる。並行して、オーディオ・データ7は、出力オーディオ・エンコーディングフォーマットに(例えばドルビーデジタル、又はドルビーデジタルプラスに)、エンコーダ12によってエンコードされる。エンコードされたオーディオ・データ、及びゲイン値11は、ユニット13おいて統合される。その結果得られるオーディオ・ストリームは、特に信号ダウンミックスの場合に信号クリッピングを防止するオーディオゲインメタデータを提供する。
通常、受信したオーディオゲインメタデータは、このゲインメタデータが信号クリッピングの保護を提供する限り、できる限り温存するべきである。ほとんどの場合、入力されたオーディオ・ストリーム(図1の1を参照)のデータ・セグメント(例えばブロック又はフレーム)の長さと、出力オーディオ・ストリーム(図1の14を参照)のデータ・セグメント(例えばブロック又はフレーム)の長さとは、異なる。さらに、通常は、(データセグメント長が同一の場合であっても)入力されたオーディオ・ストリームのデータセグメントの始まり、及び出力されるオーディオ・ストリームのデータセグメントの始まりは、整列配置(aligned)されない。したがって、通常はメタデータから出力されるメタデータへのマッピングが必要である。
図2は、出力されるメタデータに、受信したメタデータをマッピングするための好適なアプローチを例示している。上述のように、通常は、各々のデータ・セグメント(例えばブロック又はフレーム)は、ダイナミック・レンジコントロールデータの一つのゲイン値(又は複数のゲイン値、例えば8個のゲイン値)を有する。しかしながら、入力データ・セグメント(例えばブロック又はフレーム)と一緒に伝送されるメタデータは、ダイナミック・レンジコントロール・インパクト(すなわちゲイン値の適用が効果を及ぼすストリームの範囲)の領域を持つ。これは、正確にデータセグメントと同じではないが、比較的大きい。この理由は、使用されたトランスコードのオーバーラップアッド(overlap−add)の特徴によるものであり(すなわち、データセグメントより大きいウィンドウが使用され、ウィンドウが重なる)、加えて、ダイナミック・レンジコントロールがスペクトル領域においてしばしば適用されるということによるものである。同じことは、出力されるオーディオ・ビットストリームのダイナミック・レンジコントロールデータに対してもしばしば当てはまる。図2において、実線は、入力ストリームのデータセグメント20−23の始めと終わり、及び出力ストリームのデータセグメント24−26の始めと終わりを表す。図2において、ゲイン値のダイナミック・レンジコントロール・インパクト30−33、及び34−36の各々の領域は、それぞれのデータセグメントの終わり、及び始まりを越えて重なっている。インパクト30−33、及び34−36の各々の領域は、破線によって示される。
例えば、HE−AACで、ブロック・サイズは256のサンプルであるのに対し、デコーディングのウィンドウは512のサンプルを有する。512のサンプルの全部のウィンドウは、インパクトの領域と考えてもよい。しかしながら、ウィンドウの外側端縁のゲイン値のインパクトは、ウィンドウの中央でのインパクトと比較してより小さい。したがって、インパクトの領域は、また、ウィンドウの一部と考えてもよい。インパクトの領域は、ブロック/フレームサイズ(この場合には、256サンプル)からウィンドウサイズ(この場合には、512サンプル)の間から選択され得る。望ましくは、インパクトの使用された領域は、データ・セグメント(ブロック、又はフレーム)のサイズより大きい。
どの入力ダイナミック・レンジコントロール値が与えられた出力データセグメントに影響するかを決定するためには、(入力、及び出力データセグメントの重なりに注目する代わりに)入力と出力のインパクト領域の重なりに注目することが好ましい。図2において、入力ストリームのインパクト30−33のどの領域が、入与えられた出力データセグメント24−26のインパクト34−36の領域と重なるかが決定される。例えば、出力ストリームのデータセグメント24のインパクトの領域34は、領域30、31、32、及び33と重なる。したがって、好ましくは、4つのデータセグメント20、21、22及びの23に関連するゲイン値は、図示の出力ストリーム第1のデータセグメント24のゲイン値を決定する場合に考慮される。第1のデータセグメント24は、4つの入力データセグメント20−23によって影響される。あるいは、本方法は、入力インパクト領域及び出力信号セグメントの重なり、又は、入力データセグメント及び出力データ・グメントの重なりに注目してもよい。
この種のマッピング又はリサンプリングのプロセスは、図1のユニット5において行われてもよい。そして、これは、入力ストリーム1のゲイン値3を受信し、かつゲイン値3の一つ以上をゲイン値4にマップする。
図3は、受信されたオーディオ・データに基づいてピーク値を決定するためのブロック50の実施例である。ブロック50を決定するこの種のピークは、図1のブロック8の部分であってもよい。複数のチャネル(この場合、5.1−チャンネル信号の5チャネルであり、低周波効果チャネルは考慮されない)を有するデコードされた多重チャネルオーディオ・データ7に基づいて、一つ以上のダウンミックス方式によって、ダウンミキシングが(一つ以上のダウンミキシングマトリックスに従って)実行される。トランスコーダは、ダウンミキシングが受信デバイスにおいて実行されるかどうかについて全く知っておらず、かつ、どのダウンミキシング方式が受信デバイスにおいて使用されるかわからない点に留意する必要がある。したがって、多重チャネル信号が独立のチャネルによって再生されるか、又は、いくつかの方式のうちの1つでダウンミキシングが実行されるかは、知られていない。トランスコーダは、全てのケースをシミュレーションし、かつ最悪のケースを決定する。
図3の実施例において、Lo/Roダウンミキシング方式に従って、ブロック41においてダウンミキシングが実行される。Pro Logic(PL)ダウンミキシング方式に従って、ブロック42において、ダウンミキシングが実行される。Pro Logic II(PLII)ダウンミキシング方式に従って、ブロック43において、ダウンミキシングが実行される。PLダウンミキシング方式及びPLIIダウンミキシング方式は、上述のLt/Rtダウンミキシング方式の変形例である。各々のダウンミキシングの方式は、右チャンネル信号、及び左チャンネル信号を出力する。それから、ダウンミックスした後の信号の絶対値が計算される(図3のブロック44を参照)。望ましくは、また、多重チャネル・オーディオ信号7のさまざまなチャネルの絶対のサンプル値が計算される(絶対値を計算するブロック40を参照)。チャネルの絶対値を(ダウンミックスせずに)考慮することは、ダウンミキシング以外の別のケースにおいて、信号クリッピングを防止するために有用である。例えば、信号が余分のゲインによって後で増幅される場合(例えば後述するように、RFモードの場合の11dBゲイン)が挙げられる。
絶対値の最大(=ピーク値)は、ブロック45において一度に計算される。最大の計算は連続的に行われる。それによって、ピーク値46のストリームを生成する。さまざまなサンプルは、異なる信号処理によって、異なる信号遅延が発生し得る。この種の異なる信号遅延は、整列配置してもよい(図示せず)。サンプル値の最大は、全てのケースにおいて信号が持ち得る最大振幅を表す。したがって、これはクリッピング保護アルゴリズムが考慮する最悪のケースである。トランスコーダは、したがって一度に受信デバイスの信号の最悪の場合の振幅をシミュレーションする。クリッピングからの保護を達成するダイナミック・レンジコントロール値は、最大で0のdBFSになるよう、振幅を減少させるか増幅させなければならない。ブロック50は、図3に示す複数の絶対値より少ない絶対値に基づいて(例えば、ダウンミキシングされていないチャネルの絶対値を考慮せずに)ピーク値を決定してもよい点に留意する必要がある。あるいは、付加的な絶対値(例えば、他のダウンミキシング方式の絶対値)に基づいてこれを決定してもよい(図3に図示せず)。あるいは、ピーク値を判断することなくチャネル7をダウンミキシングすることも可能である。例えば、その結果得られる2つのチャネルが統合されてもよい。そして、統合された信号は(ブロック45に出力されるピーク値46を使用する代わりに)更に処理される。
ピーク値46の更なる処理を図4に示す。図1及び4の要素で同じ参照符号が付されたものは、基本的に同じ要素を示している。ピーク値46は、ブロッキングし、かつ最大を生成するユニット60のステップの処理を通過する。この場合に、最も高いピーク値は、与えられた出力データ・セグメント(例えば1ブロック)に対して決定される。換言すれば、ピーク値は、複数のピーク値から、出力データセグメントに対する最も高いピーク値を選択することによってダウンサンプリングされる(それは、最も重要なものである)。好ましくは、出力部分のサンプルが最大を決定するために考慮されるのは、信号に対応する連続的なピーク値だけではない点に留意する必要がある。むしろ、与えられたデータセグメントに影響する付加的な(先の、及び後の)ピーク値が考慮される。すなわち、デコーディング・ウィンドウの始めと終わりで信号サンプルに関するピーク値である。望ましくは、ウィンドウの全てのサンプルが考慮される。
このサンプリングの結果は、式C=1/Xに従って、ブロック61においてインバート(invert)される。ここで、Cは計算されたゲイン値9を指す。そして、Xは、出力ストリーム14のブロックに対するそれぞれの最も高いピークを指す。結果Cは、ゲインがそれぞれのオーディオ・サンプルに適用される場合に、データ・セグメント(例えば、ブロック)の各々のオーディオ・サンプルが最大信号レベル1(0dBFSに対応する)より小さいことを保証する倍率(factor)(ゲイン)を表す。これは、このデータセグメントに対するクリッピングを回避する。最大信号レベルとは、トランスコードされたオーディオ・ストリームのレシーバの信号の最大信号レベルを意味する点に留意する必要がある。したがって、ブロック60の出力で、振幅は、1より大きくてもよい(C<1とき)。計算されたゲインCは、クリッピングを防止する最大許容ゲインである。また、計算されたゲインCより小さいゲイン値が使用されてもよい(この場合、その結果得られる信号は、さらに小さい)。ゲインCが1より小さい場合には、ゲインC(又はより小さいゲイン)が適用されなければならない点に留意する必要がある。そうでないと、少なくとも信号は最悪ケースのシナリオでクリッピングすることなる。
ブロック5で、メタデータからの受信したゲイン値3が同様にリサンプリングされる。出力データセグメントに関連する多くの受信したゲインから、最も小さいゲインが選択され、かつ更なる処理のために使用される。望ましくは、図2に対応して述べたように、リサンプリングが実行される。受信したゲイン値のうち、どれが出力データセグメントに関連するか決定するために、入力と出力のインパクト領域の重なりが考慮される。受信したデータセグメントのインパクト領域が与えられた出力データセグメントのインパクト領域と重なる場合、最も小さいゲイン値を決定する場合に、受信したデータ・セグメント(すなわちそのゲイン値)が考慮される。その代わりに、また、図2で述べたように、2つのアプローチが使用されてもよい。
以上の処理をする理由は、受信した値を保存するためである。しかしながら、ゲイン値は出力ストリームのタイミングに従ってリサンプリングされなければならないので、これは可能でない。複数の連続的なゲイン値からの最も小さいゲイン値を用いることは、より目立たず、耳障りでないかたちで、信号振幅を減少させる傾向があると考えられている。
関連したダイナミック・レンジコントロールデータが、受信したデータストリーム1に存在する場合には、この(好ましくはブロック5でリサンプリングした後での)ゲインと、クリッピングを保護するために十分であると計算されたゲイン値9とが、ブロック10で比較される。ブロック62は、リサンプリングされたゲイン値4と、計算されたゲイン値9との間で最小値のものを決定する。より小さいゲイン値が、出力されるゲイン値として使用される(ブロック62最小値セレクタを形成する)。
受信したゲイン値が存在しない場合には、図4のスイッチ63が上の位置に切り替えられ、ブロック62において、ゲイン1と計算されたゲイン値との間の最小値を特定する。より小さいゲイン値が出力されるゲイン値として使用される。したがって、受信したゲイン値がない場合には、出力されるゲイン値は最大ゲインが1に限られる。
以下のテーブルは、ブロック10の比較オペレーションを示す。ここで、「I」は、(リサンプリングした後の)受信したダイナミック・レンジコントロールゲイン4を意味する。そして、「C」は計算されたゲイン9を意味する。
Figure 0005603339
I及びCが1より小さいか等しい場合には、最小値が選定される。これはIがすでにクリッピングの保護を保証する場合、または、そうでない場合、これはCと置き換えられる。
C>1かつI=<1の場合、信号は、増幅することができ、かつ依然としてクリッピングしない。例えばダイナミックレンジを制限する目的で、受信したストリームは、振幅を減少させるリクエストを要求する。したがって、Iは維持される(この場合Iは、I及びCの最小値である)。
I>1かつC=<1の場合、受信した値はクリッピング保護を妨害する。したがって、Cが採用される(この場合Cは、I及びCの最小値である)。
I及びCが1より大きい場合には、入力は増幅される。未だクリッピングが起こらない限り、この増幅は許される。したがって、I及びCのうち小さい方が使用される。
ダイナミックレンジ値が受信されない場合には、C=<1である限り、Cを使用することによりクリッピング保護は確実となる。C>1の場合においては、信号は修正されない(すなわち、信号は、クリッピング境界に近くなるような不必要な増幅はなされてはならない)。それで、出力のゲインの統一がなされる。いずれの場合においても、ゲイン値が受信されない場合には、(IとCとの間の最小値ではなく)1及びCのうちの最小値が使用される。
図5は、出力されるゲイン値11の選択のフローチャートである。ゲイン値Iが存在するか(図5の130を参照)どうかが判断される。現在、ゲイン値Iが存在する場合、出力されるゲイン値は受信したゲイン値I、及び計算されたゲイン値Cの値に依存する。I=<1かつC=<1の場合、選択されたゲイン値は、I及びCの最小値に対応する(131を参照)。I<=1かつC>1である場合、選択されたゲイン値は、Iに対応する(132を参照)。I>1かつC=<1である場合、選択されたゲイン値はCに対応する(133を参照)。I>1かつC>1である場合ある、選択されたゲイン値は、I及びCの最小値に対応する(134を参照)。これらの4つのケースの全てで、依然として出力される値は、I及びCの最小値に対応する点に留意する必要がある。したがって、I及びCは、=<1かどうかについて判定する必要ない。
現在のゲイン値Iが存在しない場合、出力されるゲイン値は、計算されたゲイン値Cの値に依存する。C=<1である場合、出力されるゲイン値はCに対応する(135を参照)。C>1である場合、出力されるゲイン値は1に対応する(136を参照)。いずれの場合においても、依然として出力される値は、1とCのうちの最小値に対応する点に留意する必要がある。したがって、C=<1であるかどうかについて決定することは必要でない。
上述の実施例では、受信したダイナミックスは保持され、クリッピングが起こる場合には、ダイナミックスはクリッピングを防止するために変更されるよう達成される。ダイナミック・レンジコントロール値がない場合には、充分なダイナミック・レンジコントロール値が、クリッピングするのを防止するために、ストリームに加えられる。モード間の切り替えは即座に、かつ滑らかに作用する。それによって、いかなるアーティファクトをも緩和する。
図6は、図4の実施例の変形例である。図4及び6の要素のうち、同じ記号のものは、基本的に同じものを表す。図6において、2つの異なるモードの異なるゲインメタデータ、すなわちライン・モード、及びRFモードが受信され、かつトランスコードされる。図6の実施例において、2つのタイプの異なるメタデータを使用するため、RFモード、及びライン・モードに対する異なるゲインワードが計算される。ライン・モード・メタデータは、より小さいレンジの値をカバーし、かつより頻繁に送られる(通常はブロック毎に1回)。これに対して、RFモード・メタデータは、より大きいレンジの値をカバーし、かつ送られる頻度はより少ない(通常はフレーム毎に1回)。RFモードにおいて、信号は11dBの追加的ゲインによってブーストされる。そして、ダイナミックスが非常に限られたチャネル(例えばセットトップボックスからアナログRFアンテナ・リンクを介してTVのRF入力へ)で信号が伝送される場合に、より高い信号対雑音比を実現する。さらに、RFモードゲインメタデータは、ライン・モードのゲインメタデータより広いレンジの値をカバーするため、RFモードは、より高いダイナミックレンジの圧縮を可能とする。ライン・モードのゲインメタデータは「DRC」(符号3を参照)として表現される。これに対して、RFモードのゲインメタデータは、「compr」として表現される(符号3’を参照)。DVBで、RFモードのゲインメタデータは、「圧縮(compression)」、又は「強い圧縮(heavy compression)」として表現される点に注意する必要がある。さらに、図6の実施例は、また、プログラム基準レベル(PRL:program reference level)を考慮する。これは、メタデータの一部として伝送されてもよい。PRLは、オーディオ・コンテンツの基準ラウドネスを示す。(例えばHE−AACで、PRLは、0dBから−31.75dBの間で変化する)PRLの適用は、所与の目標基準レベルにオーディオのラウドネスを低下させる。オーディオ・エンコーディングフォーマットに依存して、他の語も共通に使われる。例えば、ダイヤログレベル、ダイヤログノーマライゼーション又はdialnormが挙げられる。
図6において、受信されたPRLに依存して(通常、レベルは、PRLによって減少する)、データブロックの最も高いピーク値(ユニット60によって生成される)は、ユニット70においてレベルが調整される。ライン・モードに関連づけられた計算ゲイン値については、レベル調整されたサンプルは、ブロック61でインバートされる。このことにより、計算されたゲイン値を生成する。このゲイン値は、オーディオ信号が、レシーバにおいてPRLによって調整された場合、各ブロックのオーディオ・サンプルは、最大信号レベル1より小さいか等しいことを保証する。ブロック5における受信したDRCデータ3のリサンプリング、及びリサンプリングされたゲイン値4の比較、及び計算されたゲイン値は、図4と同一である。RFモードに関連するゲイン値の計算のために、レベルが調整されたサンプルが、ブロック71において11dB増幅される。その理由は、レシーバにおいても、RFモードを使用する場合には、この信号は11dB増幅されるからである。トランスコーダは、したがって受信デバイスの信号の最悪の場合の振幅をシミュレーションする。ブーストされたサンプルはブロック61’においてインバートされる。このことにより、オーディオ信号がPRLによってレシーバにおいて調整され、かつ11dBブーストされた場合、各々のオーディオ・サンプルが1(=最大信号振幅)以下であることを保証するRFモードの計算されたゲイン値を生成する
図6の実施例は、好ましくはドルビーデジタル・オーディオ・ストリーム(例えばドルビーデジタル・トランスコーダに対するHE−AAC又はドルビーデジタル・トランスコーダに対するAAC)を出力するトランスコーダに対して使用される。ドルビーデジタルによって、ライン・モード各々の符号化ブロックは、「DRC」(ダイナミック・レンジコントロール)ゲイン値を有する。これに対してRFモードにおいて、各々のフレーム(6ブロックを含む)は、「compr」ゲイン値を有する。にもかかわらず、両方のタイプのゲイン値は、ダイナミック・レンジコントロールに関連する。RFモードの計算されたゲイン値は、ブロック73において、ブロックレートからフレームレートにダウンサンプリングされる。ブロック73は、連続的な6ブロックの合計数の計算されたゲイン値の最小値を決定する。各々の最小値は、フレーム全体に対して、計算されたゲイン値72に割り当てられる。ブロック5’において受信したcomprゲイン値3’のリサンプリングは、ブロック5のリサンプリングとは異なる。これは、出力フレームのための最小値が判断されるという点で異なる。リサンプリングされたゲイン値4’と、計算されたフレーム・ベースのゲイン値72については、既に述べた内容と同じである。
図6の実施例は、ダウンミキシングの場合のクリッピングだけでなく、RFモードでの11dBの追加のゲインを適用する場合の信号クリッピングに対しても、保護を提供する(そうでないと、ダウンミキシングの信号を使用しないときでも、11dBブーストされた信号はクリッピングし得る)。したがって、ブロック50において、ダウンミックスのないチャネルの絶対値を考えることは有利である。
PRLが受信されない場合には、好ましくは、PRLがデフォルト値にセットされる点に留意する必要がある。
計算ゲイン値のために、スムージングステージが使用されてもよい。図7は、ブロック50の出力と、ブロック61及び61の入力との間のパスのどこに配置されてもよい、スムージングステージ80の実施例である。望ましくは、スムージングステージ80はブロック50の出力に配置される。それによって、ピーク値46に基づいてスムーズジングされたピーク値46’を生成する。スムージングステージ80は、スムージングステージの入力信号の低域フィルタをインプリメントする(例えばピーク値信号)。この目的は、クリッピング保護が投入された後の聴覚的な印象を改善するためである。クリッピング保護の後いきなりゲインを調節すると、耳障りとなることがあるためである。広くリミッタのインプリメンテーションで採用されているように、したがってピーク値信号(及びこれによって得られるゲイン信号:後述)に第1次のローパスフィルタによってフィルタをかける。これは、時定数τが200msecで動作することが望ましい。(新規な入力値がスムージングされた信号より高いために)新規な入力値が、スムージングされた信号が達成する程度より高いクリッピングの保護を要求する場合、これはスムージングステージをバイパスし、かつ直ちにエフェクトを与える。この場合、図7の最大計算ブロック81の上の入力は、下の入力より大きい。望ましくは、図3乃至7の実施例は、オーディオ・トランスコーダの一部である。例えばAAC及び/又はHE−AACからのドルビーデジタルへの、又は、ドルビーE又はドルビーデジタルからのAAC及び/又はHE−AACへのトランスコーディングである。しかしながら、図3乃至7の実施例は、必ずしもオーディオ・トランスコーダの部分である必要はない点に留意する必要がある。これらの実施例は、受信したオーディオ・ストリーム1を受信し、かつ(トランスコーディングなしで)修正されたゲイン値を適用するデバイスの部分であってもよい。修正されたゲイン値は、受信されたオーディオ・ストリームのゲインを調整するために、直接使用されてもよい。例えば、図3乃至7の実施例は、AVR、又はテレビの部分であってもよい。
図8は、ダウンミックス保護を提供するための別の実施例である。装置は、オーディオメタデータに含まれるか、又は、それから得られる、受信したゲインワード90を受け取る。ゲインワード90は、図1及び図4のゲイン値3又は4に対応してもよい。更に、この装置は、オーディオ・サンプル91(例えばPCMオーディオ・サンプル)を受信する。例えば、図3のブロック50で生成されるように、オーディオ・サンプル91はピーク値であってもよい。オーディオ・サンプル91が絶対値でない場合、オーディオ・サンプル91の絶対値が算出されてもよい。ブロック92において、最大可能ゲイン値gainmax(t)が以下のように除算によって計算される。
Figure 0005603339
この場合に、signalmax,allowedは、最大可能信号振幅(例えばsignalmaxallowed=1)を意味する。signal(t)は、現在のオーディオ・サンプル91を意味する。
ブロック93において、最大可能ゲイン値は最大ゲインの1までに限られる。gainmax(t)の値が1よりも大きい場合、gainmax(t)は、1に設定される。しかしながら、gainmax(t)の値が1以下の場合、その値は修正されない。ブロック93の出力は、スムージングフィルタステージ94に供給される。スムージングフィルタステージ94は、低域フィルタ、及び2つの入力の最小値を選択する最小セレクタ95を含む。処理は、図7のスムージングフィルタステージ80と類似する。しかしながら、この場合に、最大セレクタ81の代わりに最小セレクタ95が使用される。なぜなら、フィルタステージ94は、オーディオ・サンプル(ゲイン値は、オーディオ・サンプルをインバートすることによって得られる)の代わりにゲイン値をスムージングするからである。ブロック92(それは、インバージョンによってゲイン値を決定する)のアップストリームに配置される場合には、スムージングフィルタステージ80がその代わりに使用されてもよい。同様に、スムージングフィルタステージ94は、ブロック61及び/又は61’のダウンストリームに配置される場合には、図4及び図5において使用されてもよい(なぜなら、ブロック61及び/又は61のダウンストリームは、ゲイン信号が処理されるからである)。スムージングフィルタステージ94は、ブロック93でゲイン値の突然の増加がある場合に信号傾斜をスムージングする(そうしないと、オーディオが耳障りに聞こえることがある)。これに対して、スムージングフィルタステージ94は、ゲイン値が突然減少する場合には、ゲイン信号をスムージングせずに通過させる(そうしないと、信号がクリッピングするためである)。スムージングフィルタステージ95の出力の計算されたゲイン信号96は、受信したゲインワード90と、最小セレクタ97で比較される。実際の計算されたゲイン値96、及び実際の受信したゲインワード90の最小値は、最小セレクタ97の出力となる。上述のように、最小セレクタ97の出力のゲイン値98は、ダウンミックス保護を提供し、かつトランスコードされたオーディオ・ストリームに埋め込まれてもよい。
図8の実施例が必ずしもオーディオ・トランスコーダの部分であるというわけではない点に留意する必要がある。出力ゲイン値は、受信されたオーディオ・ストリームのレベルを調整するために、直接使用されてもよい。この場合、図8の装置は、AVR、又はテレビの部分であってもよい。
さらに、図8の実施例は、ダウンミキシングを考慮せずに、信号クリッピングを防止するために使用されてもよい。例えば、図8の実施例は、ブロック50の更なる前処理をせずに、従来のPCMオーディオ・サンプル91を受信してもよい。この場合、図8の実施例は、PCMサンプル91が出力ゲイン値によって増幅される時に、クリッピングするのを防止する。
図9は、別の実施例である。図8及び9の要素と同じ番号の要素は、基本的に同じものを示している。図8の実施例とは対照的に、図9の実施例は、図4及び図6の実施例のようなブロックに関する(block−wise)作動バージョンである。ここでは、1つの除算だけが、信号ブロック(又はフレームなどのその他のいかなるデータセグメント)毎に実行される。これは、時間毎に除算の数を減少させる。図8ですでに述べたように、オーディオ・サンプル91が図3のブロック50で生成されてもよい。オーディオ・サンプル91が絶対値でない場合、オーディオ・サンプル91の絶対値が算出されてもよい(図9では示していない)。オーディオ・サンプル91は、それから、スムージングフィルタステージ80に供給される。これは、図7のスムージングフィルタステージ80に対応する。図8とは対照的に、スムージングフィルタステージ80は、ゲインサンプルの代わりにオーディオ・サンプルを処理する。したがって、スムージングフィルタステージ80は、最小セレクタ95の代わりに最大セレクタ81を使用する。スムージングした後に、オーディブロック毎にサンプルの最大が、ユニット100において決定される。それから、最大値はブロック101においてインバートされる。これによって、ブロック毎に最大許容ゲインを計算する。このゲイン値は、最小セレクタ97において現在のゲイン値90と比較される。両方の値のうちの最小値が最小セレクタ97の出力として取り出される。上述のように、最小セレクタ97の出力のゲイン値98はダウンミックスのクリッピング保護を提供し、かつトランスコードされたオーディオ・ストリームに埋め込まれてもよい。図9の実施例は、受信したゲイン値90がない場合には、類似した方法でゲイン値98を生成するために変更されてもよい。受信したゲイン値90が無く、かつ計算されたゲインが1以下の場合には、計算されたゲイン値が出力される。計算されたゲイン値が1より大きい場合(かつ受信したゲイン値90が無い場合)には、1のゲインを有するゲイン値が出力される。これは、図6の付加的なスイッチ63によって実現されてもよい。このスイッチには、受信したゲイン値90の存在に依存して、受信したゲイン値90、及びのゲイン1との間のスイッチ切り替えを行う。上述したように、この実施例は、異なる圧縮インスタンスからのゲイン値を尊重するリミッタに対応する点に留意する必要がある。図10は、図1のトランスコーダによって生成されたオーディオ・ストリーム14をトランスコーディングしたものを受信する受信デバイスである。ブロック121は、ゲイン値11をオーディオ・ストリーム14から分離する。受信デバイスは、更に、デコードされたオーディオ信号120を生成するデコーダ110を備えている。デコードされたオーディオ信号120の振幅は図1において得られたゲイン値11によってブロック112において調整される。オプションのダウンミックスがブロック113で実行される場合には、出力信号114はクリッピングしない。なぜなら、ゲイン値11は、ダウンミックスの場合に、信号クリッピングを防止するのに十分であるからである。デコードされたオーディオ信号120の振幅は、PRL(図示せず)によって更に調整されてもよい。また、図6に関連して述べたように、ゲイン値11すなわちRFモードの11dBのブーストを考慮する場合には、オーディオ信号120は、また、クリッピング無しに(信号ダウンミックスの場合に、及び信号ダウンミックス以外の場合の両方で)11dBブーストされてもよい。

Claims (35)

  1. デジタルオーディオ・データから得られるオーディオ信号の信号クリッピングからの保護を提供する方法であって:
    受信されたオーディオメタデータに基づく第1のゲイン値が前記オーディオ信号のクリッピングからの保護に充分であるかどうかを決定するステップであって、前記受信されたオーディオメタデータは第1のデジタルオーディオストリームに埋め込まれている、ステップと;
    第1のゲイン値が充分でない場合には、前記それぞれの第1のゲイン値を前記オーディオ信号のクリッピングからの保護に充分なゲイン値と置き換えるステップと;
    を有する方法であって、
    前記決定するステップは:
    前記デジタルオーディオ・データに基づいて第2のゲイン値を計算するステップであって、前記第2のゲイン値は、前記オーディオ信号のクリッピングを保護するに充分である、ステップと;
    前記受信されたオーディオメタデータに基づく前記第1のゲイン値、及び、前記計算された第2のゲイン値を比較するステップと;
    を含む、
    方法。
  2. 前記第2のゲイン値を計算するステップは:
    最大許容ゲイン値を決定するステップ;
    を含む、請求項記載の方法。
  3. 前記比較するステップに依存して、ゲイン値は、前記第1のゲイン値、及び前記計算された第2のゲイン値から選択され、
    ゲイン値と置き換えるステップは、計算された第2のゲイン値を選択することによって実行される、
    請求項又はに記載の方法。
  4. 一対の第1及び第2のゲイン値の最小値が選択される、
    請求項記載の方法。
  5. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへのトランスコーディングにおいて実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか又はそこから得られるゲイン値を有する、
    請求項1ないしのうちいずれか1項記載の方法。
  6. 前記オーディオ信号はダウンミックスされたオーディオ信号であり、
    当該方法は、前記ダウンミックスされた信号に対する信号クリッピングからの保護を提供する、
    請求項1ないしのうちいずれか1項記載の方法。
  7. 前記第1のゲイン値が保護に充分であるかどうかを決定するステップは、
    少なくとも第1のダウンミキシングの方式によって前記デジタルオーディオ・データをダウンミキシングするステップ;
    を含む、請求項1ないしのうちいずれか1項記載の方法。
  8. 前記第1のゲイン値が保護に充分であるかどうかを決定するステップは、
    ピーク値を計算するステップ、を含み、
    ピーク値は一度に、少なくとも2つのオーディオ信号の絶対値の最大を決定することによって計算され、
    前記少なくとも2つのオーディオ信号は、
    ・前記第1のダウンミキシングの方式によってダウンミックスした後の一つ以上のオーディオ信号、
    ・ダウンミキシングの前の一つ以上のオーディオ信号、及び、
    ・第2のダウンミキシングの方式によってダウンミックスした後の一つ以上のオーディオ信号、
    の群から選択される、
    請求項記載の方法。
  9. 前記第1のゲイン値が保護に充分であるかどうかを決定するステップは、
    前記デジタルオーディオ・データから得られる複数の連続的な信号値の最大を決定するステップ;
    を含む、請求項1ないしのうちいずれか1項記載の方法。
  10. 前記第1のゲイン値が保護に充分であるかどうかを決定するステップは、
    計算ピーク値を計算するステップ、を含み、
    ピーク値は、一度に少なくとも2つのオーディオ信号の絶対値の最大を決定することによって計算され、
    前記少なくとも2つのオーディオ信号は、
    ・第1のダウンミキシングの方式によってダウンミックスした後の一つ以上のオーディオ信号、
    ・ダウンミキシングの前の一つ以上のオーディオ信号、及び、
    ・第2のダウンミキシングの方式に従ってダウンミックスした後の一つ以上のオーディオ信号、
    の群から選択され、かつ、
    複数の連続的な信号値は、連続的なピーク値、又は連続的なフィルタリングされたピーク値に対応する、
    請求項記載の方法。
  11. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへのトランスコーディングにおいて実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか又はそこから得られるゲイン値を有し、
    前記第2のオーディオ・ストリームはデータセグメントで構成され、かつ、
    前記第2のオーディオ・ストリームのセグメントに関連する複数の信号値の前記最大が決定される、
    請求項又は10に記載の方法。
  12. 最大の信号値は、前記決定された最大によって除算される、
    請求項ないし11のうちいずれか1項記載の方法。
  13. 前記決定された最大は、インバートされる、
    請求項ないし11のうちいずれか1項記載の方法。
  14. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへのトランスコーディングにおいて実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか又はそこから得られるゲイン値を有し、
    前記第1のオーディオ・ストリームは、データセグメントで構成され、少なくとも1つのゲイン値が、前記第1のオーディオ・ストリームのデータセグメント毎に受信され、
    前記第2のオーディオ・ストリームは、データセグメントで構成され、かつ、
    当該方法は、
    前記第1のオーディオ・ストリームのゲイン値をリサンプリングするステップ、を更に有する、
    請求項1ないし13のうちいずれか1項記載の方法。
  15. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへのトランスコーディングにおいて実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか又はそこから得られるゲイン値を有し、
    前記第1のオーディオ・ストリームは、データセグメントで構成され、少なくとも1つのゲイン値が、前記第1のオーディオ・ストリームのデータセグメント毎に受信され、
    前記第2のオーディオ・ストリームは、データセグメントで構成され、かつ、
    当該方法は、
    前記第1のオーディオ・ストリームの複数の連続的なゲイン値の最小値を決定するステップ、を更に有する、
    請求項1ないし14のうちいずれか1項記載の方法。
  16. 前記複数の連続的なゲイン値は、各々インパクト領域を有し、かつ、これらのゲイン値の前記インパクト領域は、前記第2のオーディオ・ストリームのゲイン値の前記インパクト領域と重なる、
    請求項15記載の方法。
  17. ダイナミック・レンジコントロールに関連するメタデータが、前記第1のオーディオ・ストリームに存在しない場合には、前記オーディオ信号のクリッピングからの保護に充分なゲイン値が加えられる、
    請求項1ないし16のうちいずれか1項記載の方法。
  18. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへのトランスコーディングにおいて実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか又はそこから得られるゲイン値を有し、
    ダイナミック・レンジコントロールに関連するメタデータが、前記第1のオーディオ・ストリームに存在しない場合には、前記オーディオ信号のクリッピングからの保護に充分なゲイン値が前記第2のオーディオ・ストリームに加えられる、
    請求項17記載の方法。
  19. 前記加えられたゲイン値は、最大でゲイン1に限定されている、
    請求項17又は18に記載の方法。
  20. 当該方法は、前記デジタルオーディオ・データに基づいて、第2のゲイン値を計算するステップを有し、前記第2のゲイン値は、前記オーディオ信号のクリッピングを保護するに充分であり、
    それぞれの計算された第2のゲイン値が1より小さいゲインを有する場合、前記加えられたゲイン値は、前記計算された第2のゲイン値に対応し、かつ、
    それぞれの計算された第2のゲイン値が1より大きいゲインを有する場合、前記加えられたゲイン値は、ゲイン1に対応する、
    請求項19記載の方法。
  21. スムージングフィルタが、前記第2のゲイン値を生成するために使用される、
    請求項ないし20のうちいずれか1項記載の方法。
  22. デジタルオーディオ・データから得られるオーディオ信号の信号クリッピングからの保護を提供する装置であって:
    受信されたオーディオメタデータに基づいて、第1のゲイン値が前記オーディオ信号のクリッピングからの保護に充分であるかどうかを決定するための決定手段であって、前記受信されたオーディオメタデータは、第1のデジタルオーディオストリームに埋め込まれている、決定手段と;
    前記第1のゲイン値が保護に充分でない場合には、第1のゲイン値を前記オーディオ信号のクリッピングからの保護に充分なゲイン値と置き換えるための置換手段と;
    を有し、
    前記決定手段は、
    前記デジタルオーディオ・データに基づいて、第2のゲイン値を計算するための計算手段であって、前記第2のゲイン値は、前記オーディオ信号のクリッピングを保護するに充分である、計算手段と;
    前記受信されたオーディオメタデータに基づく前記第1のゲイン値、及び、前記計算された第2のゲイン値を比較するための比較手段と;
    を有する装置。
  23. 当該装置はトランスコーダの部分であり、
    前記トランスコーダは、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへ、トランスコーディングし、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか又はそこから得られるゲイン値を有する、
    請求項22に記載の装置。
  24. 前記オーディオ信号はダウンミックスされたオーディオ信号であり、
    当該装置は、前記ダウンミックスされた信号に対する信号クリッピングからの保護を提供する、
    請求項22又は23に記載の装置。
  25. トランスコーダは、
    第1のオーディオ符号化フォーマットで符号化された第1のオーディオ・ストリームから、
    第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへトランスコーディングするように構成した、
    請求項22ないし24のうちいずれか1項記載の装置を有するトランスコーダ。
  26. 前記第1のオーディオ・ストリームは、デジタル放送信号である、
    請求項25記載のトランスコーダ。
  27. デジタルオーディオ・データから得られるオーディオ信号の信号クリッピングからの保護を提供する方法であって、
    当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへ、トランスコーディングの過程で実行され、
    ダイナミック・レンジコントロールに関連するメタデータが前記第1のオーディオ・ストリームに存在しない場合、オーディオ信号のクリッピングに対する保護のために充分なゲイン値が、前記第1のオーディオ・ストリームに含まれる前記デジタルオーディオ・データに基づいて、前記ゲイン値を計算することによって、前記第2のオーディオ・ストリームに加えられる、
    方法。
  28. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへ、トランスコーディングの過程で実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか、又はそこから得られるゲイン値を有し、
    前記第1のオーディオ符号化フォーマットはAAC又はHE−AACであり、かつ、
    前記第2のオーディオ符号化フォーマットはドルビーデジタルである、
    請求項1ないし21のうちいずれか1項記載の方法。
  29. 前記第1のオーディオ・ストリームは、DVBビデオ/オーディオ・ストリームの部分である、請求項28記載の方法。
  30. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへ、トランスコーディングの過程で実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか、又はそこから得られるゲイン値を有し、
    前記第2のオーディオ・ストリームはデータブロックで構成され、
    前記第1のオーディオ・ストリームに埋め込まれた前記オーディオメタデータが、前記オーディオ・コンテンツのラウドネスを示しているメタデータを有し、
    第2のゲイン値が、前記デジタルオーディオ・データに基づいて計算され、前記第2のゲイン値は、前記オーディオ信号のクリッピングを保護するに充分であり、
    前記第2のゲイン値の計算は、
    前記第2のオーディオ・ストリームのデータブロックの複数のピーク値の最大値を決定するステップと;
    前記オーディオ・コンテンツのラウドネスを示している前記メタデータに依存して、前記最大値のレベルを調整するステップと;
    を含み、
    前記受信されたオーディオメタデータに基づく第1のゲイン値及び前記計算された第2のゲイン値が比較される、
    請求項記載の方法。
  31. 前記オーディオ・コンテンツのラウドネスを示す前記メタデータは、プログラム基準レベル・メタデータである、請求項30記載の方法。
  32. 前記第1のオーディオ・ストリームは、第1のモードのゲインメタデータと第2のモードの異なるゲインメタデータとを含み、前記第2のモードは、前記第1のモードより高いダイナミックレンジ圧縮を可能とし;
    前記第1のモードの第2のゲイン値は、レベル調整された最大値に基づいて計算され、前記第1のモードの前記第2のゲイン値は、前記第1のモードのクリッピングを保護するに充分であり;
    前記第1のモードの前記受信されたオーディオメタデータに基づくゲイン値と、前記第1のモードの前記計算された第2のゲイン値とが比較され;
    前記第2のモードの第2のゲイン値は、レベル調整された最大値を11dBだけ増幅することによって計算され、前記第2のモードの前記第2のゲイン値は、前記第2のモードのクリッピング保護に充分であり;
    前記第2のモードの前記受信されたオーディオメタデータに基づくゲイン値と、前記第2のモードの前記計算された第2のゲイン値とが比較される;
    請求項30又は31に記載の方法。
  33. 当該方法は、
    第1のオーディオ符号化フォーマットで符号化された前記第1のオーディオ・ストリームから、
    前記第1のオーディオ符号化フォーマットと異なる第2のオーディオ符号化フォーマットで符号化された第2のオーディオ・ストリームへ、トランスコーディングの過程で実行され、
    前記第2のオーディオ・ストリームは、前記オーディオ信号のクリッピングからの保護に充分な前記置き換えられたゲイン値を含むオーディオメタデータを有するか、又はそこから得られるゲイン値を有し、
    前記第2のオーディオ・ストリームはデータブロックで構成され、
    前記第1のオーディオ・ストリームは、第1のモードのゲインメタデータと第2のモードの異なるゲインメタデータとを含み、前記第2のモードは、前記第1のモードより高いダイナミックレンジ圧縮を可能とし;
    前記第1のモードの第2のゲイン値は、最大値に基づいて計算され、最大値は、前記第2のオーディオ・ストリームのデータブロックの複数のピーク値の前記最大値であり、かつ、前記第1のモードの前記第2のゲイン値は前記第1のモードのクリッピングを保護するに充分であり;
    前記第1のモードの前記受信されたオーディオメタデータに基づくゲイン値と、前記第1のモードの前記計算された第2のゲイン値とが比較され;
    前記第2のモードの第2のゲイン値は、前記最大値を11dBだけ増幅するか又は値はこれに依存することによって計算され、前記第2のモードの前記第2のゲイン値は、前記第2のモードのクリッピング保護に充分であり;かつ、
    前記第2のモードの前記受信されたオーディオメタデータに基づくゲイン値と、前記第2のモードの前記計算された第2のゲイン値とが比較される、
    請求項8記載の方法。
  34. 前記第2のモードの前記第2のゲイン値は、ブロックレートからフレームレートにダウンサンプリングすることによって計算される、請求項32又は33に記載の方法。
  35. 前記ダウンサンプリングは、連続的な合計数が6個のブロックの計算されたゲイン値の最小値を決定することによって実行される、請求項34記載の方法。
JP2011534654A 2008-10-29 2009-10-26 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護 Active JP5603339B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10943308P 2008-10-29 2008-10-29
US61/109,433 2008-10-29
PCT/US2009/062004 WO2010053728A1 (en) 2008-10-29 2009-10-26 Signal clipping protection using pre-existing audio gain metadata

Publications (2)

Publication Number Publication Date
JP2012507059A JP2012507059A (ja) 2012-03-22
JP5603339B2 true JP5603339B2 (ja) 2014-10-08

Family

ID=41508867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011534654A Active JP5603339B2 (ja) 2008-10-29 2009-10-26 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護

Country Status (9)

Country Link
US (1) US8892450B2 (ja)
EP (3) EP3217395B1 (ja)
JP (1) JP5603339B2 (ja)
CN (1) CN102203854B (ja)
BR (1) BRPI0919880B1 (ja)
ES (1) ES2963744T3 (ja)
RU (1) RU2468451C1 (ja)
TW (1) TWI416505B (ja)
WO (1) WO2010053728A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
AR077680A1 (es) 2009-08-07 2011-09-14 Dolby Int Ab Autenticacion de flujos de datos
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI413110B (zh) 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
JP5771618B2 (ja) 2009-10-19 2015-09-02 ドルビー・インターナショナル・アーベー 音声オブジェクトの区分を示すメタデータ時間標識情報
US9508356B2 (en) * 2010-04-19 2016-11-29 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
CN101951504B (zh) * 2010-09-07 2012-07-25 中国科学院深圳先进技术研究院 基于重叠边界的多媒体切片转码方法和系统
CN102005206B (zh) * 2010-11-16 2012-07-25 华平信息技术股份有限公司 多路音频帧的混音方法
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
CN103443854B (zh) 2011-04-08 2016-06-08 杜比实验室特许公司 用于混合来自两个编码位流的音频节目的元数据的自动配置
IN2014KN01222A (ja) * 2011-12-15 2015-10-16 Fraunhofer Ges Forschung
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN104303229B (zh) 2012-05-18 2017-09-12 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN102968995B (zh) * 2012-11-16 2018-10-02 新奥特(北京)视频技术有限公司 一种音频信号的混音方法及装置
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
KR102071860B1 (ko) * 2013-01-21 2020-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
CN105190750B (zh) * 2013-01-28 2019-10-25 弗劳恩霍夫应用研究促进协会 解码器设备以及解码比特流的方法
CN116665683A (zh) 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
ES2617314T3 (es) * 2013-04-05 2017-06-16 Dolby Laboratories Licensing Corporation Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US10095468B2 (en) 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
SG11201603116XA (en) 2013-10-22 2016-05-30 Fraunhofer Ges Forschung Concept for combined dynamic range compression and guided clipping prevention for audio devices
US9769550B2 (en) 2013-11-06 2017-09-19 Nvidia Corporation Efficient digital microphone receiver process and system
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
CN109036441B (zh) 2014-03-24 2023-06-06 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
EP3123469B1 (en) * 2014-03-25 2018-04-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
WO2016039287A1 (ja) * 2014-09-12 2016-03-17 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
FR3031852B1 (fr) * 2015-01-19 2018-05-11 Devialet Amplificateur a reglage de niveau sonore automatique
WO2016162283A1 (en) * 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
KR20160132574A (ko) * 2015-05-11 2016-11-21 현대자동차주식회사 자동이득제어모듈, 그 제어방법, 이를 포함하는 차량, 및 그 제어방법
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
CN109005452A (zh) * 2018-10-09 2018-12-14 深圳市亿联智能有限公司 一种应用于智能机顶盒的串行混音方法
CN111819863A (zh) 2018-11-13 2020-10-23 杜比实验室特许公司 用音频信号及相关联元数据表示空间音频
CN112153533B (zh) * 2020-09-25 2021-09-07 展讯通信(上海)有限公司 音频信号的破音消除方法及装置、存储介质、终端

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5821889A (en) * 1996-11-06 1998-10-13 Sabine, Inc. Automatic clip level adjustment for digital processing
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
JP2000181477A (ja) * 1998-12-14 2000-06-30 Olympus Optical Co Ltd 音声処理装置
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
JP4251769B2 (ja) 2000-11-15 2009-04-08 ヤマハ株式会社 ディジタルオーディオアンプ
US6704704B1 (en) * 2001-03-06 2004-03-09 Microsoft Corporation System and method for tracking and automatically adjusting gain
EP1472786A2 (en) * 2002-01-24 2004-11-03 Koninklijke Philips Electronics N.V. A method for decreasing the dynamic range of a signal and electronic circuit
JP2003280691A (ja) * 2002-03-19 2003-10-02 Sanyo Electric Co Ltd 音声処理方法および音声処理装置
AU2002307884A1 (en) * 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
EP1523863A1 (en) 2002-07-16 2005-04-20 Koninklijke Philips Electronics N.V. Audio coding
JP2004214843A (ja) * 2002-12-27 2004-07-29 Alpine Electronics Inc デジタルアンプ及びそのゲイン調整方法
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
EP1719117A1 (en) * 2004-02-16 2006-11-08 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
CN1930914B (zh) 2004-03-04 2012-06-27 艾格瑞系统有限公司 对多声道音频信号进行编码和合成的方法和装置
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US8290181B2 (en) * 2005-03-19 2012-10-16 Microsoft Corporation Automatic audio gain control for concurrent capture applications
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US8116485B2 (en) * 2005-05-16 2012-02-14 Qnx Software Systems Co Adaptive gain control system
CN101199015A (zh) * 2005-06-15 2008-06-11 Lg电子株式会社 记录介质、用于混合音频数据的装置及其方法
KR101492826B1 (ko) * 2005-07-14 2015-02-13 코닌클리케 필립스 엔.브이. 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
JP5054035B2 (ja) * 2006-02-07 2012-10-24 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
CN101501988B (zh) * 2006-08-09 2012-03-28 杜比实验室特许公司 慢级和快级中的音频限峰
JP2008197199A (ja) * 2007-02-09 2008-08-28 Matsushita Electric Ind Co Ltd オーディオ符号化装置及びオーディオ復号化装置
CA2645915C (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2256724A1 (en) * 2008-03-19 2010-12-01 Pioneer Corporation Overtone production device, acoustic device, and overtone production method
WO2009120387A1 (en) * 2008-03-27 2009-10-01 Analog Devices, Inc. Method and apparatus for scaling signals to prevent amplitude clipping
US8094809B2 (en) * 2008-05-12 2012-01-10 Visteon Global Technologies, Inc. Frame-based level feedback calibration system for sample-based predictive clipping
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
KR101722747B1 (ko) 2015-02-25 2017-04-03 주식회사 제일메디칼코퍼레이션 본 플레이트 시스템

Also Published As

Publication number Publication date
WO2010053728A1 (en) 2010-05-14
BRPI0919880A2 (pt) 2015-12-15
US8892450B2 (en) 2014-11-18
JP2012507059A (ja) 2012-03-22
EP4293665A2 (en) 2023-12-20
EP3217395B1 (en) 2023-10-11
ES2963744T3 (es) 2024-04-01
US20110208528A1 (en) 2011-08-25
RU2468451C1 (ru) 2012-11-27
CN102203854A (zh) 2011-09-28
EP2353161A1 (en) 2011-08-10
EP3217395A1 (en) 2017-09-13
EP2353161B1 (en) 2017-05-24
CN102203854B (zh) 2013-01-02
TW201042637A (en) 2010-12-01
EP4293665A3 (en) 2024-01-10
TWI416505B (zh) 2013-11-21
BRPI0919880B1 (pt) 2020-03-03

Similar Documents

Publication Publication Date Title
JP5603339B2 (ja) 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
JP6851523B2 (ja) 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化
US11563411B2 (en) Metadata for loudness and dynamic range control
JP6768735B2 (ja) オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
JP5129888B2 (ja) トランスコード方法、トランスコーディングシステム及びセットトップボックス
JP7544324B2 (ja) 効率的なdrcプロファイル伝送
TW202422318A (zh) 用於執行感知激勵增益控制之方法、設備及系統
JP2011118215A (ja) 符号化装置、符号化方法、プログラムおよび電子機器

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140821

R150 Certificate of patent or registration of utility model

Ref document number: 5603339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250