JP2016509693A - 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置 - Google Patents

新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置 Download PDF

Info

Publication number
JP2016509693A
JP2016509693A JP2015554174A JP2015554174A JP2016509693A JP 2016509693 A JP2016509693 A JP 2016509693A JP 2015554174 A JP2015554174 A JP 2015554174A JP 2015554174 A JP2015554174 A JP 2015554174A JP 2016509693 A JP2016509693 A JP 2016509693A
Authority
JP
Japan
Prior art keywords
volume
value
control
audio
dynamic range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015554174A
Other languages
English (en)
Other versions
JP6445460B2 (ja
Inventor
ロバート ブライト
ロバート ブライト
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2016509693A publication Critical patent/JP2016509693A/ja
Application granted granted Critical
Publication of JP6445460B2 publication Critical patent/JP6445460B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

音声出力信号を生成するためにビットストリームを復号化するためのデコーダ装置が設けられ、ビットストリームは、音声データおよび任意の方法で参照音量値を含む音量メタデータから構成され、デコーダ装置は、音声データから音声信号を再構成するために構成される音声デコーダ装置と、音声信号に基づく音声出力信号を生成するために構成される信号処理器とを含み、信号処理器は、音声出力信号のレベルを調整するように構成されるゲイン制御装置を含み、ゲイン制御装置は音量値を創出するために構成される参照音量デコーダを含み、参照音量値(4)がビットストリームに存在する場合に、音量値は参照音領値であり、ゲイン制御装置は、音量値と、ユーザが、ボリューム制御値を制御することを許容する外部のユーザインタフェースによって生成される、ボリューム制御値とに基づくゲイン値を算出するために構成されるゲイン計算機を含み、ゲイン制御装置は、ゲイン値に基づく音声出力信号の音量を制御するために構成される音量処理器を含む、デコーダ装置である。【選択図】図2

Description

本発明は、電子再生装置上のデジタル形式において再生された音声、ビデオおよびマルチメディアコンテンツの音量の制御に関し、具体的には、新しいメディア装置において共通に生ずるような、埋め込み音量メタデータを有するだけでなく、埋め込み音量メタデータを有さない場合の両方で準備されるコンテンツを有する再生音量の制御に関する。
音楽、ビデオおよび他のマルチメディアコンテンツの生成および送信において、音量の正規化のプロセスは、消費者が歌から歌またはプログラムからプログラムへ適当な音量を有するオーディオ信号を聞くことを確実にするために実行される。録音および録画の初期から、これは、製造プロセスの間、または劇場のための再生基準を使ってされた。音楽およびラジオを放送している産業における今日の一般的な方法は、メディアの最大ピークレベルの近くで音量を値に合わせることである。その一方で、映画またはテレビの産業における実行は、最大ピークレベル以下の20から31dBでもよい、いくつかの標準音量レベルのうちの1つを使用することである。メディアコンバージェンス前の時代において、これは、別々の装置として消費者に気づかれないか、あるいは、ボリュームの設定が、コンテンツの各タイプの再生に使用された。
たとえば、音楽や映画コンテンツの両方の再生を目的とする携帯電話あるいは携帯用メディアプレーヤのような携帯機器の出現とともに、コンテンツが、変更なく装置に送信される場合、音量の違いの原因となる生産行為におけるこの差は、30dBと同程度である。コンテンツのあるタイプから他のタイプへ切り替える場合、これは、あまりに静かな映画か、あるいはあまりに音量の大きい音楽となる原因となる。
関連した傾向は、レコーディングのマスタリングの時における、強いダイナミックレンジ圧縮、制限、およびクリッピングを通した、録音された音楽の多くのジャンルの音量の増加である。今日販売される大多数の音楽が、MPEG AACおよびMP3のような損失性のデータ圧縮フォーマットであるにもかかわらず、そのようなマスタリングは、コンパクトディスクのような無損失性記録媒体のみを考慮している。データ圧縮プロセスは、フルスケールの制限または信号の最大のピーク値を越える波形のオーバーシュートが生じる再生の間、デコーダにおいて再構成される時間領域波形の変化を導くことができる。携帯装置において一般的に使用される固定小数点デコーダ(または、飽和している浮動小数点デコーダ)において、これは、フルスケールの制限へのオーバーシュートのクリッピングの原因となり、再生された信号の付加的な聞き取れるクリッピングを引き起こす。
この強い圧縮および音楽のクリッピングは、アーティスティックな目的のため場合によってされるが、他よりも「より多く聞こえ」させることによって録音の商業的な要請を増加するか、静かな環境だけでなく、空港や騒がしい場所のようなすべての聴取環境において理解されうるコンテンツを提供するために、一般にはよくされる。
映画および映像産業において、広い音声ダイナミックレンジが、劇的な効果のためのいくつかのジャンルにおいて使用され、そして、より多くの魅力のある経験を創出するために使用される。ドルビーデジタルまたはMPEG−4 AACコーデックの処理により消費者に伝達された場合、音声ダイナミックレンジ制御メタデータは、雑音環境であるか、または大きな音のシーンがあまりに妨げているような場合に対してレシーバまたはプレーヤに任意に低減されることをしばしば含む。
ドルビーデジタルによって符号化されたDVDまたはブルーレイコンテンツにおいて含まれる、またはドルビーデジタル(高度テレビジョンシステムズ委員会 音声圧縮標準 A/52)もしくはMPEG−4 AAC(標準化されたISO/IEC 14496−3およびETSI TS 101 154)によって符号化されたTV信号において送信される従来のメタデータは、以下のコンポーネントを含む。
1.単一の、静的メタデータ値はプログラムの全体の長期の統合した音量を示し、そして、MPEG標準のプログラム参照レベルと称される。
2.ステレオまたはモノラル装置を介した出力のためのマルチチャンネルコンテンツのダウンミックスを制御するために使用されるダウンミックスゲインのための静的メタデータ値
3.ダイナミックレンジ制御ゲインまたはスケーリングファクタの2つの設定は、音声信号において複数の周波数バンドまたは領域に対して各データ圧縮ビットストリームフレームに送られる。一方は、産業専門語において「軽(light)」圧縮のために使用され、他方は、「重(heavy)」圧縮のために使用される。これらの軽DRC値および重DRC値の使用は、一般的には、「Lineモード」および「RFモード」の処理モードのために決められるデコーダ音量ターゲットレベルでの動作と関係する。後続の装置においてベースバンドケーブルでライン入力に送られるか、またはRF搬送波を通じてアナログTVセットに送信されるアナログ信号にデジタル音声を変換する必要がある場合、これらのモードのための命名規則および処理ポイントは、デジタルメディアの間もない頃に確立された。
このメタデータの使用は、再生が、再生の間、非破壊で聴取環境に合わせて調整されうる。そのストリームまたは映画は、異なるダイナミックレンジを生成するために、メタデータの異なるセットとともに再生されるか、または、メタデータは全く使用されない。単に再生装置だけにある圧縮器の使用とは異なり、必要に応じて、メタデータを使用しているダイナミックレンジ制御は、生成プロセス中に、創造的なアーティストによって圧縮の性質のモニタリングおよび制御を許容する。
残念なことに、MPEG AAC、あるいはドルビーデジタル系のような共通の損失性コーデックを実行するようなダイナミックレンジ制御メタデータは、メタデータが、20−40msの共通のフレーム期間とともに音声圧縮フレームベースにおいて(潜在的に、いくつかの周波数帯において)信号の平均パワーに影響を及ぼすように、現代音楽の音量をマッチするために十分に強く信号を圧縮することができない。このフレーム毎のゲイン制御は、非常に処理された現代音楽のそれにピークを信号の平均比率に低減するのに十分速くない。
この課題を解決するために、非特許文献5において説明されるWoltersらによって利用されたアプローチは、平均音量を増加させるために再生装置においてデコーダの後に音声リミッタを使用することである。これは、音量マッチング問題を解決する。その結果、音楽および映画のコンテンツは、等しい音量を有するが、いくつかの損失も有する。消費者が静かな環境でコンテンツを再生する場合、おそらく、静かな部屋において、または強い遮音を有するヘッドホンもしくはイヤホンを使用しているスピーカに接続される携帯装置について、映画コンテンツは、音楽と同程度に強く望まない圧縮がされる。また、リミッタは、デバイスCPUまたはDSPにおける付加的な作業負荷を導き、そして、バッテリ寿命を短くする。
異なるアプローチが、非特許文献6においてCamererらによって説明される。そして、それは、音楽ファイルのメタデータとしてITU標準BS.1770−2において説明されるように、音量測定を符号化し、装置のボリューム制御によってターゲットレベルセットに各ファイルの再生を正規化することを提案する。これは、サウンドチェック(www.apple.com)およびリプレイゲイン(www.replaygain.org)のような音楽音量正規化の以前のシステムを構築する。そして、それは、iPodのようないくつかの音楽プレーヤの任意の特徴であった。それらのアプローチにおいて、それらは、初期設定で、音量正規化を命令するように推奨する、しかしながら、ユーザが音量正規化をオフにする場合に生じること、または、さらに重要なことに、音量メタデータで符号化されたコンテンツが再生されたときに何が生ずるかについて、特定しない。それらの仮定は、全てのコンテンツが、再生前のiTunesのような再生装置によって、または安全な信用された配給業者によって分析されるということである。加えて、コンテンツの全体のダイナミックレンジが、聴取環境にそれを合わせるために調節するようにするための対策がない。
International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 14496-3 Information technology - Coding of audio-visual objects - Part 3: Audio, www.iso.org. European Telecommunications Standards Institute, ETSI TS 101 154: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 transport stream, www.etsi.org. Advanced Television Systems Committee, Inc., Audio Compression Standard A/52, www.atsc.org. International Telecommunications Union, Recommendation ITU-R BS.1770-3: Algorithms to measure audio programme loudness and true-peak audio level, www.itu.int. Martin Wolters, Harald Mundt, and Jeffrey Riedmiller, "Loudness Normalization In The Age Of Portable Media Players", paper 8044, Audio Engineering Society 128th Convention, www.aes.org. Florian Camerer, et al, "Loudness Normalization: The Future of File-Based Playback," Music Loudness Alliance, www.music-loudness.com. Dolby Laboratories, Inc., Dolby Digital Professional Encoding Guidelines, www.dolby.com. Perttu Hamalainen, "Smoothing Of The Control Signal Without Clipped Output In Digital Peak Limiters", Proc. of the 5th International Conference on Digital Audio Effects, Hamburg, Germany, September 26-28, 2002.
従って、消費者によって既に保持されたかまたは交換された従来の音楽コンテンツの膨大な量に起因して、潜在的に広いダイナミックレンジおよび考えられる埋め込み音量メタデータを有する映画/映像のスタイルコンテンツ、および潜在的に埋め込み音量メタデータを含んでいない、潜在的に極めて狭いダイナミックレンジおよび強い圧縮、制限、クリッピングを有する音楽またはラジオ/ポッドキャストコンテンツの両方の再生音量を正規化することの課題に、統一のアプローチを提供することが本発明の目的である。
ダイナミックレンジ制御メタデータを含むコンテンツのダイナミックレンジが、消費者の聴取環境または嗜好に合うように調整することは、本発明の他の目的である。
本発明の更なる目的は、データ圧縮プロセスによって導かれる信号コンポーネントの変化によって生じるAAC、MP3、またはドルビーデジタルレコーダのような損失性データ圧縮音声デコーダにおける潜在的なクリッピングを防止することである。
本発明の他の目的は、それらのコンテンツにおいて、音楽を録音している産業に対して、より強いダイナミックレンジ圧縮、制限、およびクリッピングの探求を委付する軽度の動機を提供することである。
本発明のさらに他の目的は、音量処理またはクリッピング防止によって生じるデバイスCPUまたはDSPにおける付加的な作業負荷を制限することである。
本発明の一実施の形態は、音声出力信号を生成するためにビットストリームを復号化するためのデコーダ装置を含み、ビットストリームは、音声データおよび任意の方法で参照音量値を含む音量メタデータから構成され、デコーダ装置は、
音声データから音声信号を再構成するために構成される音声デコーダ装置と、
音声信号に基づく音声出力信号を生成するために構成される信号処理器と、
を含み、
ここで、信号処理器は、音声出力信号のレベルを調整するために構成されるゲイン制御装置を含み、
ゲイン制御装置は、音量値を創出するために構成される参照音量デコーダを含み、参照音量値がビットストリームに存在する場合に、音量値は参照音量値であり、
ゲイン制御装置は、音量値と、ユーザが、ボリューム制御値を制御することを許容するユーザインタフェースによって生成される、ボリューム制御値とに基づくゲイン値を算出するために構成されるゲイン計算機を含み、
ゲイン制御装置は、ゲイン値に基づく音声出力信号の音量を制御するために構成される音量処理器を含む。
音声デコーダ装置は、圧縮されたビットストリームの音声データから音声信号を再構成することができる任意の装置でありうる。音声デコーダ装置から音声信号がそれに設定され、以下に説明されるゲイン制御装置を有する場合、信号処理器は、音声出力信号を生成しうる任意の装置でありうる。ゲイン制御装置は、音声出力信号の音量を制御するためにセットアップされる装置である。
参照音量デコーダは、ビットストリームに含まれる音量メタデータを復号化するために構成される。音量メタデータが参照音量値を含む場合、参照音量デコーダは、音量値として、単にこの参照音量値を出力する。
ゲイン計算機は、参照音量デコーダによって出力された音量値と、デコーダ装置のユーザによって設定されたボリューム制御値に基づくゲイン値を算出するための装置である。ボリューム制御値を設定するために、任意のユーザインタフェースが使用されうる。特に、ゲイン計算機は、減算器でありうる。
音量処理器は、ゲイン計算機によって生成されたゲイン値に基づく音声出力信号の音量レベルを制御することができる。特に、音量処理器は、乗算器でありうる。
携帯装置において、または消費者用の電子機器において使用されるドルビーデジタルまたはAACデコーダ装置のような従来の圧縮デコーダ装置とは異なり、圧縮デコーダ装置は、ユーザのボリューム制御によって制御される(フルスケールのビットストリームの復号化レベルに対応する)可変ゲイン値またはデコーダターゲット閾値とともに作動される。これは、装置のデジタル音声システムの最大のフルスケールのレンジ以下でよく通常作動するためのデコーダ装置を許容する。この種の動作は、デコーダオーバーシュートをクリッピングする可能性を回避し、通常必要とするように、映画形式のコンテンツのさらなる圧縮または制限なしで、重圧縮および制限を有する音楽コンテンツの音量の正規化に、重ダイナミックレンジ圧縮および制限なしの映画形式のコンテンツの音量の正規化を許容する。本発明は、音量マッチングの目的のために単に、コンテンツのダイナミックレンジを低減することなく、この正規化を実行する。
本発明の好ましい実施の形態において、参照音量値がビットストリームにおいて存在しない場合に、音量値は、プリセットの音量値である。これらの特徴は、音量メタデータを有さないビットストリームの高い品質の再生を許容する。
本発明の好ましい実施の形態において、プリセットの音量値は、フルスケールの振幅に参照された、−4dBおよび−10dBの間、特に、−6dBおよび−8dBの間の値に設定される。現代音楽の経験的な研究は、フルスケールの再生を目的とする音楽コンテンツのための音量の観察された上限が、約−7dBであることを示す。それゆえ、請求されるようなプリセットの音量値は、音量メタデータを有さないビットストリームを再生するための最適化されたモードを提供する。
本発明の好ましい実施の形態において、信号処理器は、音声出力信号のダイナミックレンジを調整するために構成されるダイナミックレンジ制御装置を含み、
ここで、ダイナミックレンジ制御装置は、音量メタデータから少なくとも1つのダイナミックレンジ制御値を導出し、導出されたダイナミックレンジ制御値またはプリセットのダイナミックレンジ制御値のうちの1つを、選択的に出力するために構成されるダイナミックレンジ制御スイッチを含み、
ダイナミックレンジ制御装置は、ダイナミックレンジ制御スイッチによって出力されたダイナミックレンジ制御値と、ユーザが、圧縮制御値を制御することを許容するユーザインタフェースによって生成される、圧縮制御値とに基づくダイナミックレンジ値を算出するために構成されるダイナミックレンジ計算機を含み、
ダイナミックレンジ制御装置は、ダイナミックレンジ値に基づく音声出力信号のダイナミックレンジを制御するために構成されるダイナミックレンジ処理器を含む。
ダイナミックレンジ制御装置は、少なくとも1つのダイナミックレンジ制御値が導出されるような方法において、ビットストリームの音量メタデータを復号化するために構成されるダイナミックレンジ制御スイッチを含む。一般的に、ダイナミックレンジ制御スイッチは、軽ダイナミックレンジ制御のための一方のダイナミックレンジ制御値および重ダイナミックレンジ制御のための他のダイナミックレンジ制御値が導出されうるようなこの種の方法で構成される。ダイナミックレンジ制御スイッチは、選択的に、これらの導出されたダイナミックレンジ制御値またはプリセットのダイナミックレンジ制御値のうちの1つを出力しうる。ダイナミックレンジ制御スイッチは、たとえば、自動的に音声出力信号を使用する後続の機器に応じて制御するか、またはユーザアクションによって手動で制御されうるかである。プリセットのダイナミックレンジ制御値は、たとえば、0dBに設定されうる。
ダイナミックレンジ制御装置は、ダイナミックレンジ制御スイッチによって出力されたダイナミックレンジ制御値と、ユーザが、圧縮制御値を制御することを許容するユーザインタフェースによって生成される、圧縮制御値とに基づくダイナミックレンジ値を算出しうるダイナミックレンジ計算機を含みうる。特に、ダイナミックレンジ計算機は、乗算器でありうる。
さらにまた、ダイナミックレンジ値に基づく音声出力信号のダイナミックレンジを制御しうるダイナミックレンジ処理器が予測される。これらの特徴によって、ビットストリームの再生は、聴取環境および/またはリスナーの嗜好を通して適応されうる。
本発明の好ましい実施の形態によれば、信号処理器は、出力音声信号の振幅を制限するために構成されるリミッタ装置を含み、ここで、リミッタ装置は、リミッタを有するリミッタコンポーネントと、リミッタコンポーネントを制御するために構成される制御コンポーネントとを含み、ゲイン制御装置によって少なくとも処理されることによって音声信号から導出される処理された音声信号は、リミッタコンポーネントに入力され、そして、音声出力信号は、リミッタコンポーネントから出力される。
リミッタ装置は、デコーダオーバーシュートクリッピングの防止の目的のための制限、聴力損失の防止のためのボリュームの制限、またはユーザ選択を提供し、そして、聴取環境またはユーザの嗜好のために必要な場合、ピークの制限を有するコンテンツの可逆の生成を許容するためのアーティスティック圧縮を提供する。
本発明の好ましい実施の形態によれば、制御コンポーネントは、ビットストリームのビットレートに応じてリミッタコンポーネントを制御するために構成される。ビットレートが低下する場合、デコーダオーバーシュートクリッピングの可能性が増加する。したがって、リミッタコンポーネントがビットストリームのビットレートに応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。
本発明の好ましい実施の形態によれば、制御コンポーネントは、音声デコーダ装置の圧縮効率に応じてリミッタコンポーネントを制御するために構成される。ビットストリームを生成するために元の音声データを符号化する場合、ビットストリームを生成する音声エンコーダ装置および同時にビットストリームを復号化する音声デコーダ装置の圧縮効率は、どのくらいデータ量が低減されるかについて記述する。データ量としてのより多くは減らされるので、デコーダオーバーシュートクリッピングの可能性は増加する。それ故、リミッタコンポーネントが、音声デコーダ装置の圧縮効率に応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。
本発明の好ましい実施の形態によれば、制御コンポーネントは、ビットストリームの音量メタデータにおいて送信され、そして外部のエンコーダによってビットストリームに変換される音声ソースの最大のピークレベルを示す、真のピーク値に応じてリミッタコンポーネントを制御するために構成される。この真のピーク値の使用は、音声出力信号の最大の可能なピークのレベルに対してより正確な値の算出を許容する。
本発明の好ましい実施の形態によれば、制御コンポーネントは、ゲイン制御装置のゲイン値に応じてリミッタコンポーネントを制御するために構成される。音声出力信号の最大の可能なピークのレベルは、ゲイン制御装置のゲイン値によってこのサブケースにおいて決定される。前記値が0dBである場合、デコーダ装置は、ボリューム制御値の最大の設定によって命令されるように、そのフルスケールの制限において作動する。前記ボリューム制御値が低減されるように、フルスケールのビットストリーム値が、ゲイン制御装置のゲイン値によって設定される最大レベルのみに達するように、デコーダ装置が作動する。
本発明の好ましい実施の形態によれば、聴覚障害を防止するために、制御コンポーネントは、ユーザまたは製造業者によって設定されるボリュームリミット値に応じてリミッタコンポーネントを制御するために構成される。これらの特徴によって、聴覚障害は、能率的に回避されうる。
本発明の好ましい実施の形態によれば、制御コンポーネントは、ビットストリームの音量メタデータにおいて送信され、アーティスティックリミッタ閾値、アーティスティックアタック時間値および/またはアーティスティックリミッタリリース時間値を示す、アーティスティックリミッタパラメータに応じてリミッタコンポーネントを制御するために構成される。これらの特徴は、アーティストまたはコンテンツ製作者の創造的な制御に基づくリミッタ装置の動作を許容する。以前に議論された音量メタデータにおいて含まれるダイナミックレンジ制御値は、100ms〜3秒の一般的な時間定数によって行う圧縮ゲインの使用により聴取環境に合わせて調整されうるコンテンツの全体のダイナミックレンジを許容する。厳しい聴取環境において、これらの時間定数を有する音声信号の圧縮は、不快な高いピークのレベルなしに、理解度または楽しみのための十分な音量を有する信号を生成し得ない。消費者が静かな環境の「非クラッシュ」バージョンを聞くことができるように、または、要求される場合に、従来の高圧縮の「クラッシュ」混合だけを生成した音楽作者が「クラッシュ」混合およびより制限および圧縮しない「非クラッシュ」混合の両方を生成するために、本発明の柔軟性を使用することを望むことができるという可能性もある。
本発明の好ましい実施の形態によれば、制御コンポーネントは、継続的にまたは繰り返し、リミッタコンポーネントを制御するために構成される。これらの特徴は、時間とともにリミッタコンポーネントの可変制御を許容する。
本発明の好ましい実施の形態によれば、リミッタ装置は、ゲインおよび遅延に関して、リミッタの伝達関数に類似の伝達関数を有するバイパス装置を経由して、リミッタをバイパスするために構成される。これらの特徴によって、信号処理器の作業負荷は、著しく低減されうる。
本発明の一実施の形態は、デコーダおよびエンコーダを備えるシステムを含み、ここで、請求されるように、デコーダは設計される。
本発明の一実施の形態は、音声出力信号を生成するためにビットストリームを復号化する方法を含み、ビットストリームは、音声データおよび任意の方法で参照音量値を含む音量メタデータから構成され、方法は、
音声デコーダ装置を用いて音声データから音声信号を再構成するステップと、
信号処理器を用いて音声信号に基づく音声出力信号を生成するステップと、
を含み、
ここで、音声出力信号の音量レベルは、信号処理器に含まれるゲイン制御装置を使用して調整され、
音量値は、ゲイン制御装置に含まれる参照音量デコーダによって創出され、参照音量値がビットストリームに存在する場合に、音量値は参照音量値であり、
ゲイン値は、ゲイン制御装置に含まれるゲイン計算機によって、音量値と、ユーザが、ボリューム制御値を制御することを許容するユーザインタフェースによって生成される、ボリューム制御値とに基づき算出され、
音声出力信号の音量レベルは、ゲイン制御装置に含まれる音量処理器によってゲイン値に基づき制御される。
本発明の一実施の形態は、本願明細書において請求されるような方法で、コンピュータまたはプロセッサ上で実行されると、実行するためのコンピュータプログラムを含む。
本発明の好ましい実施の形態は、添付の図面に関してその後述べられる。
図1は、一般的な携帯電話、タブレットコンピュータまたは携帯用のメディアプレーヤに組み込まれるような、たとえば、ISO/IEC 14496−3およびETSI TS 101 154によって特定される、音量メタデータサポートを有する既存の従来の技術のデータ圧縮音声デコーダのブロック図を示す。 図2は、一般的な携帯電話、タブレットコンピュータまたは携帯用のメディアプレーヤへの組み込みに適する本発明に記載されるデータ圧縮音声デコーダ装置および任意の音声リミッタを有するデコーダの実施の形態を示す。 図3は、ビットストリームビットレートに対してAAC−LCステレオデコーダで再構築された信号波形のオーバーシュートのため、可能な付加的なクリッピングの経験的に導出された関数を示す。 図4は、本発明に記載される任意のリミッタ装置の好ましい実施の形態のブロック図を示す。 図5は、本発明に記載されるアーティスティック制限モードで作動している任意のリミッタ装置の好ましい実施の形態のブロック図を示す。
本発明の動作を理解する助けとして、一般的な携帯電話、タブレットコンピュータまたは携帯用のメディアプレーヤに組み込まれるような、たとえば、ISO/IEC 14496−3およびETSI TS 101 154によって特定される、既存の従来技術のメタデータ対応データ圧縮デコーダ装置21の動作が、図1に示される。圧縮音声ビットストリーム1は、圧縮音声本質データ2および音量メタデータ3の両方を含みうる。デコーダ装置21は、音声データ2から音声信号8を再構築するために構成される音声デコーダ装置9と、音声信号8に基づき音声出力信号18を生成するために構成される信号処理器26とを含む。音量メタデータ3は、ISO/IEC 14496−3におけるプログラム参照レベルとして公知である、全ファイル、歌またはアルバムの全体に組み込まれた音量に対する参照音量値4を含む。プログラムが進行中の間、この参照音量値4は、放送のビットストリーム1が結合されることを許容するために、ファイルにつき1回、または十分な反復率においてビットストリームにおいて送信されうる。この参照音量値4は、減算器16として設計されたゲイン計算機16によって、静的なターゲットレベルプロバイダ17によって、生成される固定のデコーダターゲットレベル値と比較される。ゲイン計算機16の出力は、入ってくるビットストリーム1と所望のターゲットレベルとの間の音量の差である。歌またはプログラムのためのターゲットロングタームラウドネスが達成されるように、音声出力信号18のレベルを調整するために、これは、乗算器15として設計される、音量処理器15に適用される。
ダイナミックレンジ制御スイッチ12は、一般的に「Lineモード」として使用される軽ダイナミックレンジ制御値6、もしくは一般的に「RFモード」として使用される重ダイナミックレンジ制御値7のアプリケーション、または全くない、を許容する。これらの値6,7は、ビットストリーム1における複数の周波数帯および領域に対するデータ圧縮ビットストリームフレーム毎に送られ、音声デコーダ装置9の出力レベルを変更するために、乗算器13として設計されるダイナミックレンジ処理器13に適用される。その結果、音声出力信号18の(秒オーダーにおける)ショートタームラウドネスが、所望のダイナミックレンジに従って圧縮される。一般的に、静的ターゲットレベルプロバイダ17によって生成されるデコーダターゲットレベルは、RFモードに対して−20dB、およびLineモードに対して−31dBの12の選択によっても調整される。音声出力信号18におけるクリッピングが防止されるように、乗算器13と結合して乗算器16の動作によって創出されるレベルにおけるいくつかの増加が制御されるように、ダイナミックレンジ制御値6および/または7の動作が、通常、事前に計算される。
メタデータ3は、必要なときに、(5.1チャンネルサラウンドプログラムのような)マルチチャンネルコンテンツのチャンネルの混合をステレオかまたはモノラル出力に調整するために使用されるダウンミックスゲイン値5も含む。本発明は、任意の数のチャンネルを含むビットストリーム1に適用されうる場合について、この特徴は、さらに述べられない。
重要なことに、所与のビットストリーム1において存在する参照音量値4がない場合、音声出力信号18のゲイン調整がないように、参照音量デコーダ10によって出力された音量値31が静的ターゲットレベルプロバイダ17によって出力されたデコーダターゲットレベルに等しく設定され、そして、デコーダ装置21は、音声出力装置18のフルスケールのダイナミックレンジに等しいその出力レンジを有するシンプルなデコーダ装置として作動する。
混合音声信号19が創出されるように、音声出力信号18がユーザインタフェース音(UI音)、呼出音、または他の音声信号22と結合される、システム音声ミキサ23に、その後、音声デコーダ21の出力は、一般的に供給される。全体のボリュームは、ボリューム制御値20によって制御される。音声信号ミキサ23の動作は、音声信号の各タイプの相対的なレベルを調整するか、または、本発明の動作を理解することに関連しない装置の動作モードに応じて振幅を変えるための第2のボリューム制御を含みうる。重要であることは、フルスケールの出力信号が、最大の固定小数点、または名目上のフルスケールの浮動小数点値(一般的には、−1.0から1.0の範囲において)に対応するように、デコーダ装置21の音声出力信号18は、一般的にスケールされる、ということである。重圧縮音声データについては、現代音楽のために一般的であるように、名目上の聴取レベルにおいて聞く場合に、デコーダ出力信号18は、そのフルスケールの値にアプローチするピークを有する。このように、音声出力信号18におけるフルスケールのピーク(音声出力信号のフルスケールの振幅に参照される)0dB FSは、システム音声ミキサ23において弱められ、そして、静かな環境において聞く場合に、おそらく75dB SPLのリスナーの耳における音圧レベル(SPL)に対応する。
図2は、音声出力信号42を生成するためにビットストリーム1を復号化するためのデコーダ装置41を表わしており、ビットストリーム1は、音声データ2および任意の方法で参照音量値4を含む音量メタデータ3から構成され、デコーダ装置41は、
音声データ2から音声信号8を再構成するために構成される音声デコーダ装置9と、
音声信号8に基づく音声出力信号42を生成するために構成される信号処理器27と、
を含み、
ここで、信号処理器27は、音声出力信号42のレベルを調整するために構成されるゲイン制御装置10,15,28を含み、
ゲイン制御装置10,15,28は、音量値37を創出するために構成される参照音量デコーダ10を含み、参照音量値4がビットストリーム1に存在する場合に、音量値37は、参照音量値4であり、
ゲイン制御装置10,15,28は、音量値37と、ユーザが、ボリューム制御値20を制御することを許容するユーザインタフェースによって生成される、ボリューム制御値20とに基づくゲイン値33を算出するために構成されるゲイン計算機28を含み、
ゲイン制御装置10,15,28は、ゲイン値33に基づく音声出力信号42の音量を制御するために構成される音量処理器15を含む。
音声デコーダ装置9は、圧縮されたビットストリーム1の音声データ2から音声信号8を再構成することができる任意の装置9でありうる。音声デコーダ装置9から音声信号8が供給される、以下に説明されるゲイン制御装置10,15,28を有する場合、信号処理器27は、音声出力信号42を生成しうる任意の装置27でありうる。ゲイン制御装置10,15,28は、音声出力信号42の音量を制御するためにセットアップされる装置である。
参照音量デコーダ10は、ビットストリーム1に含まれる音量メタデータ3を復号化するために構成される。音量メタデータ3が参照音量値4を含む場合、参照音量デコーダ10は、音量値37として、単にこの参照音量値4を出力する。
ゲイン計算機28は、参照音量デコーダ10によって出力された音量値37と、デコーダ装置41のユーザによって設定されたボリューム制御値20に基づくゲイン値33を算出するための装置である。ボリューム制御値20を設定するために、任意のユーザインタフェースも使用されうる。特に、ゲイン計算機28は、減算器28でありうる。
音量処理器15は、ゲイン計算機28によって生成されたゲイン値33に基づく音声出力信号42の音量レベルを制御することができる。特に、音量処理器15は、乗算器15でありうる。
携帯装置において、または消費者用の電子機器において使用されるドルビーデジタルまたはAACデコーダ装置のような従来の圧縮デコーダ装置21とは異なり、圧縮デコーダ装置41は、ユーザのボリューム制御によって制御される(フルスケールのビットストリームの復号化レベルに対応する)可変ゲイン値33またはデコーダターゲット閾値33とともに作動される。これは、装置のデジタル音声システムの最大のフルスケールのレンジ以下でよく通常作動するためのデコーダ装置41を許容する。この種の動作は、デコーダオーバーシュートをクリッピングする可能性を回避し、通常必要とするように、映画形式のコンテンツのさらなる圧縮または制限なしで、重圧縮および制限を有する音楽コンテンツの音量の正規化に、重ダイナミックレンジ圧縮および制限なしの映画形式のコンテンツの音量の正規化を許容する。本発明は、音量マッチングの目的のために単に、コンテンツのダイナミックレンジを低減することなく、この正規化を実行する。
本発明の好ましい実施の形態において、参照音量値4がビットストリーム1において存在しない場合に、音量値37は、プリセットの音量値37である。これらの特徴は、音量メタデータ3を有さないビットストリーム1の高い品質の再生を許容する。
本発明の好ましい実施の形態において、プリセットの音量値37は、フルスケールの振幅に参照された、−4dBおよび−10dBの間、特に、−6dBおよび−8dBの間の値に設定される。現代音楽の経験的な研究は、フルスケールの再生を目的とする音楽コンテンツのための音量の観察された上限が、約−7dBであることを示す。それゆえ、請求されるようなプリセットの音量値37は、適切な音量メタデータ3を有さないビットストリームを再生するための最適化されたモードを提供する。
本発明の好ましい実施の形態において、信号処理器27は、音声出力信号42のダイナミックレンジを調整するために構成されるダイナミックレンジ制御装置12,13,14を含み、
ここで、ダイナミックレンジ制御装置12,13,14は、音量メタデータ3から少なくとも1つのダイナミックレンジ制御値6,7を導出し、導出されたダイナミックレンジ制御値6,7またはプリセットのダイナミックレンジ制御値43をのうちの1つを、選択的に出力するために構成されるダイナミックレンジ制御スイッチ12を含み、
ダイナミックレンジ制御装置12,13,14は、ダイナミックレンジ制御スイッチ12によって出力されたダイナミックレンジ制御値6,7,43と、ユーザが、圧縮制御値25を制御することを許容するユーザインタフェースによって生成される、圧縮制御値25とに基づくダイナミックレンジ値44を算出するために構成されるダイナミックレンジ計算機14を含み、
ダイナミックレンジ制御装置12,13,14は、ダイナミックレンジ値44に基づく音声出力信号42のダイナミックレンジを制御するために構成されるダイナミックレンジ処理器13を含む。
ダイナミックレンジ制御装置12,13,14は、少なくとも1つのダイナミックレンジ制御値6,7が導出されるような方法において、ビットストリーム1の音量メタデータ3を復号化するために構成されるダイナミックレンジ制御スイッチ12を含む。一般的に、ダイナミックレンジ制御スイッチ12は、軽ダイナミックレンジ制御のための一方のダイナミックレンジ制御値6および重ダイナミックレンジ制御のための他のダイナミックレンジ制御値7が導出されるようなこの種の方法において構成される。ダイナミックレンジ制御スイッチ12は、選択的に、これらの導出されたダイナミックレンジ制御値6,7またはプリセットのダイナミックレンジ制御値43のうちの1つを出力しうる。ダイナミックレンジ制御スイッチ12は、たとえば、自動的に音声出力信号42を使用する後続の機器に応じて制御するか、またはユーザアクションによって手動で制御されうるかである。プリセットのダイナミックレンジ制御値は、たとえば、0dBに設定されうる。
ダイナミックレンジ制御装置12,13,14は、ダイナミックレンジ制御スイッチ12によって出力されたダイナミックレンジ制御値6,7,43と、ユーザが、圧縮制御値25を制御することを許容するユーザインタフェースによって生成される、圧縮制御値25とに基づくダイナミックレンジ値44を算出しうるダイナミックレンジ計算機14を含みうる。特に、ダイナミックレンジ計算機14は、乗算器14でありうる。
さらにまた、ダイナミックレンジ値44に基づく音声出力信号42のダイナミックレンジを制御しうるダイナミックレンジ処理器13が予測される。これらの特徴によって、ビットストリーム1の再生は、聴取環境および/またはリスナーの嗜好を通じて適応されうる。
図2は、改良された音声デコーダ41に含まれる本発明の好ましい実施の形態の動作を示す。入ってくる音声ビットストリーム1は、音声本質データ2、ならびにプログラム参照レベル4、ダウンミックスゲイン5、軽DRC値6および重DRC値7のための前述の標準メタデータ値を含む、任意の音量メタデータ3により構成される。メタデータ3は、アーティスティックリミッタパラメータ32、および任意の実施の形態において使用される真のピーク値36も含みうる。
以前の図1に記載されている動作とは対照的に、乗算器15が所望の聴取レベルにデコーダ装置41の音声出力信号42を適応させるために使用するように、参照音量デコーダ10によって出力された音量値37は、ボリューム制御のボリューム制御値20と比較される。前記音声出力信号42は、装置における後続の音声後処理機能に、もしくは、デジタル/アナログ変換器(DAC)およびそこからスピーカに直接的に送られる混合音声信号29、または装置が、HDMI(登録商標),MHL,S/PDIF,AES,TosLink,AirPlay、または他の有線もしくは無線のデジタルインタフェース標準を通して、他の装置に接続される場合、共通に存在するような、装置のデジタル出力を形成するために、その後、システム音声ミキサ23の追加の音声信号24を調整した音量に付加される。
重要なことに、本発明の音声出力信号42は、フルスケールの値で一般的に動作されない。音声出力信号42の0dB FSは、現在、デコーダ装置41で可能な限りの最大音圧レベルに、そして、接続されたイヤホン、スピーカまたは他の変換器に応じて、おそらく一般的なイヤホンを有する110−120dBのSPLのレンジに対応する。
値4が所与のビットストリーム1に存在しない場合、音量値37は、−7dB FSのレベルに設定される。(非特許文献5におけるような)現代音楽の経験的な研究は、このことがフルスケールの再生を目的とする音楽コンテンツのための音量の上限であることを示す。それらのコンテンツが、コンテンツの従来の「クラッシュ」バージョンより大きいか大きいように再生することを可能にする音量メタデータ3を分配するように、これは、音楽制作者および分配者が、装置に分配するか、または本発明を利用する分配エコシステムのために、重制限、圧縮またはクリッピングなしに、それらのコンテンツのバージョンを準備する軽い動機を提供する。
図1の従来技術のデコーダのように、ダイナミックレンジ制御スイッチ12は、再度、ダイナミックレンジ変更をしないこと、または、軽ダイナミックレンジ制御値6、もしくは重ダイナミックレンジ制御値7のアプリケーションの選択を許容する。たとえば、携帯電話において、携帯電話がHDMI(登録商標)上の外部音声システムに接続される場合、軽ダイナミックレンジ制御値6が適用され、そして、ヘッドホンジャックが使用される場合は、重ダイナミックレンジ制御値7が適用されうる。これらのダイナミックレンジ制御値(または、ダイナミックレンジ制御が適用されない場合は、0に設定されうる静的なプリセットのダイナミックレンジ制御値43)は、0〜1のレンジの間で変化する新しいユーザ圧縮制御値25に従うダイナミックレンジ制御値をスケールする乗算器14に、その後、供給される。ダイナミックレンジ圧縮の可変量が、聴取レベルから独立している音声出力信号42に適用されうるように、圧縮制御値25は、スケールされたダイナミックレンジ制御値6,7,43を許容する。圧縮制御値25の値は、デコーダ装置41におけるユーザインタフェース制御要素からか、装置41のモード、またはそのロケーション、もしくは配置に対応するプリセットからか、デコーダ装置41によって得られる環境雑音の推定からか、全体のボリューム設定、もしくは出力レベルの経験的に得られる関数からか、または他の手段を通じて、得られうる。乗算器13は、乗算器15によってさらに修正するために、音声デコーダ装置9の音声信号8の音量を修正するとともに、その後、スケールされたダイナミックレンジ制御値を含む乗算器14の出力44は、通常の方法において、乗算器13に適用される。処理された音声信号35は、以下に説明される、任意の態様のリミッタ装置30に接続される乗算器15(または乗算器13によって出力された他の態様において)によって出力されるか、または音声出力信号42として直接的に使用される。
混合音声信号29のボリュームが、追加の音声信号24を調整した音量を有する音量において追跡するように、システム音声ミキサ23または減算器28のボリューム制御値20のオフセットまたはスケーリングに対して必要としうることは、当業者によってよく理解されている。
さまざまなジャンルのコンテンツの音量にマッチングする従前のアプローチにおいて、たとえば、非特許文献5におけるように、信号のピークを制限し、クリッピングなしで、信号の平均レベルを増加するために、リミッタは、ダイナミックレンジ制御メタデータのコア音声デコーダおよびアプリケーションに続くシグナルチェーンにおいて使用された。聞き取れる人工音を信号に取り入れることを回避するために、単に、閾値レベルにおける数学的なサーチュレーションを実装する「ハード」リミッタまたはクリッパとは対照的に、そのようなリミッタは、信号波形アプローチとして、信号ゲインを変化させることによって、やんわり信号のピークを制限するか、または閾値を越えるような方法で、動作されうる。そのように、ソフトリミッタは、コンピュータコストが高く、潜在的に、デコーダ装置によって負担される作業負荷の10−30%を消費する可能性がある。
対照的に、本発明は、音量マッチングの目的のために音声出力信号42の平均比率にピークの制御のためのリミッタを必要とせず、クリッピングに備えて保護の目的のため、聴覚障害を回避するために制限するため、および、アーティスティック効果もしくは圧縮の増加に対して制限するために、任意にリミッタ装置30を含みうる。特定のデコーダ装置41は、実装の費用を変化させることに関するこれらの目的のいずれかまたは全てのリミッタ装置30を備えうる。さもなければ、リミッタ装置30は単に省略されうる。これらの場合の各々は、以下で説明される。
クリッピング保護の場合を考慮する際に、信号の2つのサブケースが考慮される。いくつかのビットストリーム1は、たとえば、音量またはダイナミックレンジに対して分析されなかったユーザの装置において、既に存在するレガシー音楽コンテンツのような、少しのメタデータ3も含み得ない。このサブケースにおいて、乗算器13が作動中でなく、そして、乗算器15は、最も高いボリューム制御設定において、1の最大のゲインを生成する。このように、クリッピングのための唯一の潜在力は、信号波形におけるデータ圧縮によって誘導されたオーバーシュートの可能性である。通常の信号によって潜在的なオーバーシュートの量は、圧縮比のチャネルまたは類似の測定基準につきサンプルにつきビットの関数として、信頼区間において圧縮コーデックのために経験的に決定されうる。AAC LCステレオビットストリームのための通常の経験的に決定されたクリッピング予測関数56は、図3に示される。他の方法、経験的、分析的あるいは反復が、存在されうるクリッピングの量を決定するかあるいは予測するために用いられることは、これらの当業者によって理解されていなければならない。
図4および図5に示される本発明の好ましい実施の形態によれば、信号処理器27は、出力音声信号42の振幅を制限するために構成されるリミッタ装置30を含み、ここで、リミッタ装置30は、リミッタ51を有するリミッタコンポーネント62と、リミッタコンポーネント62を制御するために構成される制御コンポーネント63とを含み、ゲイン制御装置10,15,28によって少なくとも処理されることによって音声信号8から導出される処理された音声信号35は、リミッタコンポーネント62に入力され、音声出力信号42は、リミッタコンポーネント62から出力される。
リミッタ装置30は、デコーダオーバーシュートクリッピングの防止の目的のための制限、聴力損失の防止のためのボリュームの制限、またはユーザ選択を提供し、そして、聴取環境またはユーザの嗜好のために必要な場合、ピークの制限を有するコンテンツの可逆の生成を許容するためのアーティスティック圧縮を提供する。
リミッタ51は、内部信号、または供給されるピークレベル、または、デコーダオーバーシュートクリッピングの防止の目的のための制限、聴力損失防止またはユーザ選択のためのボリュームの制限、および聴取環境またはユーザの嗜好により必要な場合に、制限されるピークを有するコンテンツの可逆の生成を許容するためのアーティスティック圧縮を提供するアーティスティックメタデータによって制御される。
リミッタ51は、理想的に効率的であり、クリッピングなく、たとえば、デジタル音声マスタリングのために共通に使用されるような先読みのリミッタであり、そして、当業者に公知である。たとえば、非特許文献8に記載されるような実装でありうる。あるいは、クリッピング保護が、所望の特徴でない場合、ボリュームの制限ではなく、58の出力による閾値の設定を有するハードクリッパーが置換され、そして、補償バッファ53が取り除かれるか、または短縮される。
図4に示される本発明の好ましい実施の形態によれば、制御コンポーネント63は、ビットストリーム1のビットレートに応じてリミッタコンポーネント62を制御するために構成される。ビットレートが低下する場合、デコーダオーバーシュートクリッピングの可能性が増加する。したがって、リミッタコンポーネント62がビットストリーム1のビットレートに応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。
この任意の特徴の好ましい実施の形態において、音声デコーダ装置9によって復号化されたビットストリーム1のビットレート値34は、論理記載、またはゲートにおいて、参照テーブルとして、または、当業者に公知であるような少なくとも1つの変数の機能を実施する他の技術によって実装されるクリッピング予測機能56を含む、クリッピング予測装置54に入力される。機能56の出力は、その2つの入力で小さいものを選択するように同様に実装されるミニマム関数59を介して比較器55に供給される。我々は、後述するボリュームリミットの特性がアクティブでないと考え、そして、スイッチ58は、ミニマム関数59が、クリッピング予測機能56の出力によって常に制御されるように、0dB FS(フルスケール)に対応する値を出力する。このように、それが、音声出力信号42においてクリッピングから保護するためにリミッタスイッチ52を介してリミッタ51に関与するのに必要かどうかを決定するために、比較器55は、クリッピング保護機能56の出力と処理された音声信号35の最大の可能なピークのレベルとを比較する。
本発明の好ましい実施の形態によれば、制御コンポーネントは、音声デコーダ装置9の圧縮効率に応じてリミッタコンポーネント62を制御するために構成される。ビットストリームを生成するために元の音声データを符号化する場合、ビットストリームを生成する音声エンコーダ装置および同時にビットストリームを復号化する音声デコーダ装置9の圧縮効率は、どれくらいデータ量が低減されるかについて記述する。データ量としてのより多くは減らされるので、デコーダオーバーシュートクリッピングの可能性は増加する。それ故、リミッタコンポーネント62が、音声デコーダ装置9の圧縮効率に応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。
この任意の特徴の好ましい実施の形態において、音声デコーダ装置9の圧縮効率は、論理記載、またはゲートにおいて、参照テーブルとして、または、当業者に公知であるような少なくとも1つの変数の機能を実施する他の技術によって実装されるクリッピング予測機能56を含む、クリッピング予測装置54に入力される。機能56の出力は、その2つの入力で小さいものを選択するように同様に実装されるミニマム関数59を介して比較器55に供給される。我々は、後述するボリュームリミットの特性がアクティブでないと考え、そして、スイッチ58は、ミニマム関数59が、クリッピング予測機能56の出力によって常に制御されるように、0dB FS(フルスケール)に対応する値を出力する。このように、それが、音声出力信号42においてクリッピングから保護するためにリミッタスイッチ52を介してリミッタ51に関与するのに必要かどうかを決定するために、比較器55は、クリッピング保護機能56の出力と処理された音声信号35の最大の可能なピークのレベルとを比較する。
処理されたコアデコーダ出力信号35の最大レベルが、クリッピング予測機能56によって予測されたレベルより少ない場合において、(機能54の信頼区間またはエラーの範囲内における)デコーダオーバーシュートのためのクリッピングの可能性はなく、スイッチ52は、補償バッファ53の出力を選択する。リミッタ51の重要な作業負荷と比較して、前記バッファは、リミッタ51の処理遅延をマッチするための単なる遅延であり、そして、ごくわずかなコンピュータ処理の作業負荷のみを導く。
本発明の好ましい実施の形態によれば、制御コンポーネント63は、ゲイン制御装置10,15,28のゲイン値33に応じてリミッタコンポーネント62を制御するために構成される。音声出力信号42の最大の可能なピークのレベルは、ゲイン制御装置10,15,28のゲイン値によってこのサブケースにおいて決定される。前記値が0dBである場合、デコーダ装置41は、ボリューム制御値20の最大の設定によって命令されるように、そのフルスケールの制限において作動する。前記ボリューム制御値20が低減されるように、フルスケールのビットストリーム値が、ゲイン制御装置10,15,28のゲイン値33によって設定される最大レベルのみに達するように、デコーダ装置41が作動する。
これが、ビットストリーム1の入ってくる音声データ2において可能な限り最大であるように、メタデータ3が存在しないこのサブケースにおいて、スイッチ60は0dB FSを出力する。
本発明の好ましい実施の形態によれば、制御コンポーネント63は、ビットストリーム1の音量メタデータ3において送信され、そして外部のエンコーダによってビットストリーム1に変換される音声ソースの最大のピークのレベルを示す、真のピーク値36に応じてリミッタコンポーネント62を制御するために構成される。この真のピーク値36の使用は、音声出力信号42の最大の可能なピークのレベルに対してより正確な値の算出を許容する。
ビットストリームが音量メタデータ3を含む場合、メタデータ3は、また、ITU標準BS.1770−3によって明記される真のピークの測定値を含むように明記されうる。このサブケースにおいて、スイッチ60は、0dB FS定数の代わりに音量メタデータ3に含まれる真のピーク値36を選択する。リミッタ30に対して信号入力35の最大のピーク振幅を示す、ゲイン調整33と真のピーク値36との合計は、加算器61によって算出され、その後、比較器55によってクリッピング機能56の出力と比較される。この真のピークメタデータ値36の使用は、単に、音声出力信号41の最大の可能なピークのレベルにより正確な値の計算を許容するにすぎない。
本発明の好ましい実施の形態によれば、聴覚障害を防止するために、制御コンポーネント63は、ユーザまたは製造業者によって設定されるボリュームリミット値57に応じてリミッタコンポーネント62を制御するために構成される。これらの特徴によって、聴覚障害は、能率的に回避されうる。
聴覚障害を回避するために制限する場合、装置ユーザまたは製造業者は、出力がボリュームリミット信号を使用して制限されなければならない最大ピークのレベル57を設定しうる。スイッチ58がこのボリュームリミット機能を起動させるために切り替えられる場合、ミニマム関数59は、クリッピングの防止のための出力を制限するためか、またはボリューム制限のためにリミッタ51に関与するために必要とされる2つの出力レベルでより低いものを選択する。スイッチ58の出力も、その閾値を適正レベルに設定するために、リミッタ51に入力される。
図5に示される本発明の好ましい実施の形態によれば、制御コンポーネント63は、ビットストリーム1の音量メタデータ3において送信され、アーティスティックリミッタ閾値74a、アーティスティックリミッタ時間値74bおよび/またはアーティスティックリミッタリリース時間値74cを示す、アーティスティックリミッタパラメータ32に応じてリミッタコンポーネント62を制御するために構成される。これらの特徴は、アーティストまたはコンテンツ製作者の創造的な制御に基づくリミッタ装置30の動作を許容する。以前に議論された音量メタデータ3において含まれるダイナミックレンジ制御値6,7は、100ms〜3秒の一般的な時間定数によって行う圧縮ゲインの使用により聴取環境に合わせて調整されうるコンテンツの全体のダイナミックレンジを許容する。厳しい聴取環境において、これらの時間定数を有する音声信号の圧縮は、不快な高いピークのレベルなしに、理解度または楽しみのための十分な音量を有する信号を生成し得ない。消費者が静かな環境の「非クラッシュ」バージョンを聞くことができるように、または、要求される場合に、従来の高圧縮の「クラッシュ」混合だけを生成した音楽作者が「クラッシュ」混合およびより制限および圧縮しない「非クラッシュ」混合の両方を生成するために、本発明の柔軟性を使用することを望むことができるという可能性もある。これらの懸念の両方に対処するために、リミッタ30は、図5に示されるように、アーティスティックリミッタモードで作動するために再構成されうる。
このモードにおいて、図5における電気に関するバスの表記において示されるように、音量メタデータ3は、コンテンツの音声フレーム毎に送られるアーティスティックリミッタパラメータ32を含む。スイッチ12によって選択された、軽モードおよび重モードのための、リミッタアタック時間、リリース時間、および閾値が、32に含まれ、そして、それは、出力バス74に、それに応じて連動スイッチ73によって選択される。バス74は、加算器71によってデコーダゲイン調整33と加算される選択されたアーティスティックリミッタ閾値74a、およびリミッタ51に直接的に供給される所望のアタックおよびリリース時間74bおよび74cを含む。ミニマム関数72は、ボリュームリミット57(もしくは、ボリュームリミットが使用されない場合は、0dB FS)または、加算器71の出力を選択するために使用される。この方法において、ボリューム制御20は、ボリュームリミットがリミッタ閾値の最大レベルに到達し、制限するポイントに増加されるまで、通常、リミッタ51は、値74aによって制御される閾値において作動する。このモードにおいて、リミッタ51は、連続的に作動し、そして、スイッチ52は、常に示される位置である。これらのパラメータのアーティスティックな使用は、装置の出力のモニタリング、音声ソフトウェアのプラグイン、またはミキシング、マスタリング、もしくは他のクリエイタあるいは分配業務の間の発明のコピーを含む他の装置によって達成されうる。
本発明の好ましい実施の形態によれば、前述の軽度の動機を取り除くように、人工的にその音量を増加させるために、リミッタ装置30の後、メイクアップ−ゲインを適用する可能性がない。
本発明の好ましい実施の形態によれば、制御コンポーネント63は、継続的にまたは繰り返し、リミッタコンポーネント62を制御するために構成される。これらの特徴は、時間とともにリミッタコンポーネント62の可変制御を許容する。
本発明の好ましい実施の形態によれば、リミッタ装置30は、ゲインまたは遅延に関して、リミッタ51の伝達関数に類似の伝達関数を有するバイパス装置53を経由して、リミッタ51をバイパスするために構成される。これらの特徴によって、信号処理器27の作業負荷は、著しく低減されうる。
このプロセスは、コンピュータの命令のシリーズとしてのソフトウェア、またはハードウェエアコンポーネントにおいて実装されうるように、これらの当業者によって理解されうる。ここで記載されている動作は、コンピュータCPU、またはデジタル信号プロセッサによるソフトウェア命令として一般的に実行され、そして、図において示されるレジスタおよびオペレータは、対応するコンピュータ命令によって実装されうる。しかしながら、これは、ハードウェアコンポーネントを使用している等価なハードウェア設計における実施の態様を除外しない。また、標準的な実行であって、参照された標準において明記されるような、値4,6,7,20,33,36,57,74a、その他が、一般的に、対数的にスケールされた領域において表現されることは、当業者によってよく理解されている。さらに、本発明の動作は、ここで、シーケンシャルに基本の方法で示される。特定のハードウェア、またはソフトウェアのプラットフォームに実装される場合、効率を最適化するために、動作は、結合されるか、変換されるか、または事前に計算されるかについては、当業者によってよく理解されている。また、これらの動作が、時間領域データにおいて実行されるか、あるいは、周波数領域において、1つ以上の周波数帯において実行されうることが理解されよう。
改良されたデコーダ装置41の創出において、本発明のどこか他のところと同様に、数値表現、レジスタ長、または、音声デコーダ9から乗算器13および15並びに任意のリミッタ装置30を通って音声出力信号42への信号パスにおける内部飽和、クリッピングもしくはオーバフローを回避するための他の普段の手段を使用することを必要であることを、これらの当業者は、認識するであろう。
本発明は、たとえば、AAC、MP3またはドルビーデジタルのような損失性音声データ圧縮コーデックにおけるデコーダオーバーシュートによって生成されるクリッピングを制御することの詳細を提示するけれども、無損失性音声コーデック、または全く音声コーデックで圧縮されない音声信号を有する音声システムにおいても使用されうることも、さらに理解されなければならない。
本発明は、以下を提供することができる。
1.前記装置のユーザボリューム制御によって直接、または、間接的に制御される前記出力の音量レベルまたは平均パワーによって、フルスケールの値が、最大のピーク出力電圧または取り込み装置の音圧レベルに一致することを目的としている出力を、音声音量正規化のシステムは、提供する。そうすると、音声音量メタデータを有するコンテンツ、およびそのフルスケールの値に正規化された音声音量メタデータのないコンテンツの両方は、ほとんど同じ音声音量レベルで再生される。
2.音声メタデータのないコンテンツのロングターム平均パワーまたは認められた音量が、コンテンツの経験的であるか統計分析によって測定される一定の値によって推定されるシステム。
3.このように前記メタデータを使用するために、動機を提供し、評価がメタデータを用意されてそのコンテンツよりわずかに低い音量でメタデータのない一般的なコンテンツを再生するために適切にバイアスをかけるシステム。
4.デコーダオーバーシュートにおけるクリッピングを防止する目的ために制限するピークの必要が、圧縮音声デコーダのターゲットレベルおよび音声コーデック圧縮効率またはビットレートの計算された関数によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化のためのシステム。
5.デコーダオーバーシュートにおけるクリッピングを防止する目的のために制限するピークの必要が、圧縮音声デコーダのターゲットレベル、音声コーデック圧縮効率またはビットレートの計算された機能、および圧縮されたビットストリームにおいて送信された音声プログラムの最大のピークレベルを示すメタデータ値によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化のためのシステム。
6.装置の最大のピーク音声出力を制限する目的のための制限するピークの必要が、圧縮音声デコーダのターゲットレベルによって決定される出力ピークリミッタを含むデータ圧縮音声の復号化のためのシステム。
7.装置の最大のピーク音声出力を制限する目的のための制限するピークの必要が、音声信号に適用されるスケーリングゲインの値によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化または音声処理のためのシステム。
8.装置の最大のピーク音声出力を制限する目的のための制限するピークの必要が、音声信号に適用されるスケーリングゲインの値、および圧縮ビットストリームにおいて送信される音声プログラムの最大のピークレベルを示すメタデータ値によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化または音声処理のためのシステム。
9.制限することが必要でない場合に、リミッタが同程度のゲインおよび遅延を有する関数と置き換えられるシステム。
10.出力ピークリミッタを含むデータ圧縮音声の復号化または音声処理のためのシステムであって、ピークリミッタ閾値は、周期的な基準における圧縮ビットストリームにおいて送信されるメタデータ値によって制御される。
11.前記装置のユーザボリューム制御によって直接、または、間接的に制御される前記出力の音量レベルまたは平均パワーによって、フルスケールの値が、最大のピーク出力電圧または取り込み装置の音圧レベルに一致することを目的としている出力を、音声音量正規化のための対応する方法または固定の記憶装置は、提供する。そうすると、音声音量メタデータを有するコンテンツ、およびそのフルスケールの値に正規化された音声音量メタデータのないコンテンツの両方は、ほとんど同じ音声音量レベルで再生される。
いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、ブロックあるいは装置は、方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェアによって(または使用して)実行されうる。いくつかの実施の形態において、最も重要な方法のステップの1つ以上は、この種の装置によって実行されうる。
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働するか(または、協働することができる)、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体のような持続性の記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータシステムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
通常、本発明の実施の形態は、プログラムコードを有するコンピュータプログラム製品として実施され、コンピュータプログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの1つを実行するために作動される。プログラムコードは、機械可読キャリアに、例えば、格納されうる。
他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムを含む。
換言すれば、従って、コンピュータプログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、一般的には、有形でありおよび/または、暫定的である。
従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータプログラムを有するコンピュータを含む。
本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの1つを実行するためのコンピュータプログラムを(例えば、電子的にまたは光学的に)転送するために構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータプログラムを転送するためのファイルサーバを含む。
いくつかの実施の形態において、プログラミング可能な論理回路(例えば、現場でプログラム可能なゲートアレイ(Field Programmable Gate Array))が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。
上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。
1 ビットストリーム
2 音声データ
3 音量メタデータ
4 参照音量値
5 ダウンミックスゲイン値
6 軽ダイナミックレンジ制御値
7 重ダイナミックレンジ制御値
8 音声信号
9 音声デコーダ装置
10 参照音量デコーダ
11 ダウンミックスゲインデコーダ
12 ダイナミックレンジ制御スイッチ
13 ダイナミックレンジ処理器
14 ダイナミックレンジ計算機
15 音量処理器
16 ゲイン計算機
17 静的ターゲットレベルプロバイダ
18 音声出力信号
19 混合音声信号
20 ボリューム制御値
21 デコーダ装置
22 補助音声信号
23 音声信号ミキサ
24 補助音声信号を調整した音量
25 圧縮制御値
26 信号処理器
27 信号処理器
28 ゲイン計算機
29 混合音声信号
30 リミッタ装置
31 音量値
32 アーティスティックリミッタパラメータ
33 ゲイン値
34 ビットレート値
35 処理された音声信号
36 真のピークの値
37 音量値
41 デコーダ装置
42 音声出力信号
43 プリセットのダイナミックレンジ制御値
44 ダイナミックレンジ値
51 リミッタ
52 リミッタスイッチ
53 バイパス装置
54 クリッピング予測装置
55 比較器
56 クリッピング予測機能
57 ボリュームリミット値
58 ボリュームリミットスイッチ
59 ミニマムファインダ
60 真のピークの値スイッチ
61 コンバイナ
62 リミッタ成分
63 制御構成要素
71 コンバイナ
72 ミニマムファインダ
73 ダイナミックレンジ制御スイッチ
74 ダイナミックレンジ制御スイッチの出力データ
70a アーティスティックリミッタ閾値
70b アーティスティックリミッタアタック時間値
70c アーティスティックリミッタリリース時間値

Claims (16)

  1. 音声出力信号(42)を生成するためにビットストリーム(1)を復号化するためのデコーダ装置であって、前記ビットストリーム(1)は、音声データ(2)および任意の方法で参照音量値(4)を含む音量メタデータ(3)から構成され、前記デコーダ装置は、
    前記音声データ(2)から音声信号(8)を再構成するために構成される音声デコーダ装置(9)と、
    前記音声信号(8)に基づく前記音声出力信号(42)を生成するために構成される信号処理器(27)と、
    を含み、
    ここで、前記信号処理器(27)は、前記音声出力信号(42)の音量レベルを調整するために構成されるゲイン制御装置(10,15,28)を含み、
    前記ゲイン制御装置(10,15,28)は、音量値(37)を創出するために構成される参照音量デコーダ(10)を含み、前記参照音量値(4)が前記ビットストリーム(1)に存在する場合に、前記音量値(37)は前記参照音量値(4)であり、
    前記ゲイン制御装置(10,15,28)は、前記音量値(37)と、ユーザが、ボリューム制御値(20)を制御することを許容するユーザインタフェースによって生成される、前記ボリューム制御値(20)とに基づくゲイン値(33)を算出するために構成されるゲイン計算機(28)を含み、
    前記ゲイン制御装置(10,15,28)は、前記ゲイン値(33)に基づく前記音声出力信号(42)の前記音量レベルを制御するために構成される音量処理器(15)を含む、デコーダ装置。
  2. 前記参照音量値(4)が前記ビットストリーム(1)に存在しない場合に、前記音量値(33)はプリセットの音量値である、請求項1に記載のデコーダ装置。
  3. 前記プリセットの音量値は、フルスケールの振幅に参照された、−4dBおよび−10dBの間、特に、−6dBおよび−8dBの間の値に設定される、請求項1または請求項2に記載のデコーダ装置。
  4. 前記信号処理器(27)は、前記音声出力信号(42)のダイナミックレンジを調整するために構成されるダイナミックレンジ制御装置(12,13,14)を含み、
    ここで、前記ダイナミックレンジ制御装置(12,13,14)は、前記音量メタデータ(3)から少なくとも1つのダイナミックレンジ制御値(6,7)を導出し、前記導出されたダイナミックレンジ制御値(6,7)またはプリセットのダイナミックレンジ制御値(43)のうちの1つを、選択的に出力するために構成されるダイナミックレンジ制御スイッチ(12)を含み、
    前記ダイナミックレンジ制御装置(12,13,14)は、前記ダイナミックレンジ制御スイッチ(12)によって出力された前記ダイナミックレンジ制御値(6,7,43)と、ユーザが、圧縮制御値(25)を制御することを許容するユーザインタフェースによって生成される、圧縮制御値(25)とに基づくダイナミックレンジ値(44)を算出するために構成されるダイナミックレンジ計算機(14)を含み、
    前記ダイナミックレンジ制御装置(12,13,14)は、前記ダイナミックレンジ値(44)に基づく前記音声出力信号(42)の前記ダイナミックレンジを制御するために構成されるダイナミックレンジ処理器(13)を含む、請求項1ないし請求項3のいずれかに記載のデコーダ装置。
  5. 前記信号処理器(27)は、前記出力音声信号(42)の振幅を制限するために構成されるリミッタ装置(30)を含み、ここで、前記リミッタ装置(30)は、リミッタ(51)を有するリミッタコンポーネント(62)と、前記リミッタコンポーネント(62)を制御するために構成される制御コンポーネント(63)とを含み、前記ゲイン制御装置(10,15,28)によって少なくとも処理されることによって前記音声信号(8)から導出される処理された音声信号(35)は、前記リミッタコンポーネント(62)に入力され、前記音声出力信号(42)は、前記リミッタコンポーネント(62)から出力される、請求項1ないし請求項4のいずれかに記載のデコーダ装置。
  6. 前記制御コンポーネント(63)は、前記ビットストリーム(1)のビットレートに応じて前記リミッタコンポーネント(62)を制御するために構成される、請求項5に記載のデコーダ装置。
  7. 前記制御コンポーネント(63)は、前記音声デコーダ装置(9)の圧縮効率に応じて前記リミッタコンポーネント(62)を制御するために構成される、請求項5または請求項6に記載のデコーダ装置。
  8. 前記制御コンポーネント(63)は、前記ビットストリーム(1)の前記音量メタデータ(3)において送信され、そして外部のエンコーダによって前記ビットストリーム(1)に変換される音声ソースの最大のピークのレベルを示す、真のピーク値(36)に応じて前記リミッタコンポーネント(62)を制御するために構成される、請求項5ないし請求項7のいずれかに記載のデコーダ装置。
  9. 前記制御コンポーネント(63)は、前記ゲイン制御装置(10,15,28)の前記ゲイン値(33)に応じて前記リミッタコンポーネント(62)を制御するために構成される、請求項5ないし請求項8のいずれかに記載のデコーダ装置。
  10. 前記制御コンポーネント(63)は、聴覚障害を防止するために、ユーザまたは製造業者によって設定されるボリュームリミット値(57)に応じて前記リミッタコンポーネント(62)を制御するために構成される、請求項5ないし請求項9のいずれかに記載のデコーダ装置。
  11. 前記制御コンポーネント(63)は、前記ビットストリーム(1)の前記音量メタデータ(3)において送信され、そして、アーティスティックリミッタ閾値(74a)、アーティスティックリミッタアタック時間値(74b)および/またはアーティスティックリミッタリリース時間値(74c)を示す、アーティスティックリミッタパラメータ(32)に応じて前記リミッタコンポーネント(62)を制御するために構成される、請求項5ないし請求項10のいずれかに記載のデコーダ装置。
  12. 前記制御コンポーネント(63)は、継続的にまたは繰り返し、前記リミッタコンポーネント(62)を制御するために構成される、請求項5ないし請求項11のいずれかに記載のデコーダ装置。
  13. 前記リミッタ装置(30)は、ゲインまたは遅延に関して、リミッタ(51)の伝達関数に類似の伝達関数を有するバイパス装置(53)を経由して、前記リミッタ(51)をバイパスするために構成される、請求項5ないし請求項12のいずれかに記載のデコーダ装置。
  14. システムは、デコーダ装置(41)およびエンコーダを備え、前記デコーダ装置(41)は、請求項1ないし請求項13のうちの1つにより設計される、システム。
  15. 音声出力信号(42)を生成するためにビットストリーム(1)を復号化する方法であって、前記ビットストリーム(1)は、音声データ(2)および任意の方法で参照音量値(4)を含む音量メタデータ(3)から構成され、前記方法は、
    音声デコーダ装置(9)を用いて前記音声データ(2)から音声信号(8)を再構成するステップと、
    信号処理器(27)を用いて前記音声信号(8)に基づく前記音声出力信号(42)を生成するステップと、
    を含み、
    ここで、前記音声出力信号(42)の音量レベルは、前記信号処理器(27)に含まれるゲイン制御装置(10,15,28)を使用して調整され、
    前記音量値(37)は、前記ゲイン制御装置(10,15,28)に含まれる参照音量デコーダ(10)によって創出され、前記参照音量値(4)が前記ビットストリームに存在する場合に、前記音量値(37)は前記参照音量値(4)であり、
    ゲイン値(33)は、前記ゲイン制御装置(10,15,28)に含まれるゲイン計算機(28)によって、音量値(37)と、ユーザが、ボリューム制御値(20)を制御することを許容するユーザインタフェースによって生成される、前記ボリューム制御値(20)とに基づき算出され、
    前記音声出力信号(42)の前記音量レベルは、前記ゲイン制御装置(10,15,28)に含まれる音量処理器(15)によって前記ゲイン値(33)に基づき制御される、復号化する方法。
  16. プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項15の方法を実行する、前記プログラムコードを有するコンピュータプログラム。
JP2015554174A 2013-01-28 2014-01-27 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置 Active JP6445460B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361757606P 2013-01-28 2013-01-28
US61/757,606 2013-01-28
PCT/EP2014/051484 WO2014114781A1 (en) 2013-01-28 2014-01-27 Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices

Publications (2)

Publication Number Publication Date
JP2016509693A true JP2016509693A (ja) 2016-03-31
JP6445460B2 JP6445460B2 (ja) 2018-12-26

Family

ID=50002749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554174A Active JP6445460B2 (ja) 2013-01-28 2014-01-27 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置

Country Status (13)

Country Link
US (1) US9576585B2 (ja)
EP (1) EP2948947B1 (ja)
JP (1) JP6445460B2 (ja)
KR (1) KR101849612B1 (ja)
CN (2) CN105190750B (ja)
AR (1) AR096574A1 (ja)
BR (6) BR122021011658B1 (ja)
CA (1) CA2898567C (ja)
ES (1) ES2628153T3 (ja)
MX (1) MX351187B (ja)
RU (1) RU2639663C2 (ja)
TW (1) TWI524330B (ja)
WO (1) WO2014114781A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018066383A1 (ja) * 2016-10-07 2018-04-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2021039189A1 (ja) * 2019-08-30 2021-03-04 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090120B2 (en) 2004-10-26 2012-01-03 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
JP6174129B2 (ja) 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
UA122050C2 (uk) 2013-01-21 2020-09-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
KR102660144B1 (ko) 2013-01-21 2024-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN110083714B (zh) 2013-04-05 2024-02-13 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
CN110808723A (zh) 2014-05-26 2020-02-18 杜比实验室特许公司 音频信号响度控制
WO2016039150A1 (ja) * 2014-09-08 2016-03-17 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN113257274A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
WO2016057530A1 (en) 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
TWI693595B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP4156180A1 (en) * 2015-06-17 2023-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Loudness control for user interactivity in audio coding systems
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
CN106354469B (zh) * 2016-08-24 2019-08-09 北京奇艺世纪科技有限公司 一种响度调节方法及装置
EP3389183A1 (en) 2017-04-13 2018-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an input audio signal and corresponding method
WO2019161191A1 (en) * 2018-02-15 2019-08-22 Dolby Laboratories Licensing Corporation Loudness control methods and devices
US11282533B2 (en) * 2018-09-28 2022-03-22 Dolby Laboratories Licensing Corporation Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model
CN109217834B (zh) * 2018-10-19 2022-06-21 歌尔科技有限公司 增益调整方法、音频设备及可读存储介质
WO2020123424A1 (en) * 2018-12-13 2020-06-18 Dolby Laboratories Licensing Corporation Dual-ended media intelligence
WO2020185927A1 (en) * 2019-03-12 2020-09-17 Whelen Engineering Company, Inc. Volume scaling and synchronization of tones
US11517815B2 (en) * 2019-08-19 2022-12-06 Cirrus Logic, Inc. System and method for use in haptic signal generation
KR102508413B1 (ko) * 2019-11-01 2023-03-10 가우디오랩 주식회사 주파수 스펙트럼 보정을 위한 오디오 신호 처리 방법 및 장치
WO2021195429A1 (en) * 2020-03-27 2021-09-30 Dolby Laboratories Licensing Corporation Automatic leveling of speech content
US11907611B2 (en) 2020-11-10 2024-02-20 Apple Inc. Deferred loudness adjustment for dynamic range control
CN112951266B (zh) * 2021-02-05 2024-02-06 杭州网易云音乐科技有限公司 齿音调整方法、装置、电子设备及计算机可读存储介质
WO2022271187A1 (en) * 2021-06-25 2022-12-29 Hewlett-Packard Development Company, L.P. Electronic device audio adjustment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011110525A1 (en) * 2010-03-10 2011-09-15 Dolby International Ab System for combining loudness measurements in a single playback mode
WO2014113471A1 (en) * 2013-01-21 2014-07-24 Dolby Laboratories Licensing Corporation System and method for optimizing loudness and dynamic range across different playback devices

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199933A1 (en) * 2003-04-04 2004-10-07 Michael Ficco System and method for volume equalization in channel receivable in a settop box adapted for use with television
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
RU2406166C2 (ru) * 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
CN101267189A (zh) * 2008-04-16 2008-09-17 深圳华为通信技术有限公司 音量自动调节装置、方法以及移动终端
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US8284959B2 (en) * 2008-07-29 2012-10-09 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5603339B2 (ja) * 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US8848932B2 (en) * 2011-10-13 2014-09-30 Blackberry Limited Proximity sensing for user detection and automatic volume regulation with sensor interruption override

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011110525A1 (en) * 2010-03-10 2011-09-15 Dolby International Ab System for combining loudness measurements in a single playback mode
WO2014113471A1 (en) * 2013-01-21 2014-07-24 Dolby Laboratories Licensing Corporation System and method for optimizing loudness and dynamic range across different playback devices

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018066383A1 (ja) * 2016-10-07 2018-04-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
US10630254B2 (en) 2016-10-07 2020-04-21 Sony Corporation Information processing device and information processing method
WO2021039189A1 (ja) * 2019-08-30 2021-03-04 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Also Published As

Publication number Publication date
MX351187B (es) 2017-10-04
KR101849612B1 (ko) 2018-04-18
AR096574A1 (es) 2016-01-20
ES2628153T3 (es) 2017-08-01
BR122022020276A8 (pt) 2022-11-29
CN105190750A (zh) 2015-12-23
MX2015009534A (es) 2015-10-30
WO2014114781A1 (en) 2014-07-31
CN110853660A (zh) 2020-02-28
BR122022020284A8 (pt) 2022-11-29
BR122022020319A8 (pt) 2022-11-29
CA2898567A1 (en) 2014-07-31
US9576585B2 (en) 2017-02-21
BR122022020284B1 (pt) 2023-02-28
CN105190750B (zh) 2019-10-25
TWI524330B (zh) 2016-03-01
KR20150109418A (ko) 2015-10-01
RU2015136531A (ru) 2017-03-07
TW201438003A (zh) 2014-10-01
RU2639663C2 (ru) 2017-12-21
BR122022020326A2 (ja) 2017-08-22
EP2948947B1 (en) 2017-03-29
BR122022020319A2 (ja) 2017-08-22
BR122022020319B1 (pt) 2023-02-28
BR122021011658B1 (pt) 2023-02-07
CA2898567C (en) 2018-09-18
EP2948947A1 (en) 2015-12-02
BR122022020284A2 (ja) 2017-08-22
BR122022020276B1 (pt) 2023-02-23
BR122022020326B1 (pt) 2023-03-14
CN110853660B (zh) 2024-01-23
BR122022020276A2 (ja) 2017-08-22
BR112015017295A2 (pt) 2020-10-20
JP6445460B2 (ja) 2018-12-26
BR122022020326A8 (pt) 2022-11-29
BR112015017295B1 (pt) 2023-01-24
US20150332685A1 (en) 2015-11-19

Similar Documents

Publication Publication Date Title
JP6445460B2 (ja) 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置
JP6778781B2 (ja) エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
JP6851523B2 (ja) 異なる再生装置を横断するラウドネスおよびダイナミックレンジの最適化
CN105103222B (zh) 用于响度和动态范围控制的元数据
CN106796799B (zh) 高效drc配置文件传输
JP2013521539A (ja) 単一再生モードにおいてラウドネス測定値を合成するシステム
EP3761672B1 (en) Using metadata to aggregate signal processing operations

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170929

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180807

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181129

R150 Certificate of patent or registration of utility model

Ref document number: 6445460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250