JP2016509693A

JP2016509693A - 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置

Info

Publication number: JP2016509693A
Application number: JP2015554174A
Authority: JP
Inventors: ロバートブライト
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2013-01-28
Filing date: 2014-01-27
Publication date: 2016-03-31
Anticipated expiration: 2034-01-27
Also published as: MX351187B; KR101849612B1; AR096574A1; ES2628153T3; BR122022020276A8; CN105190750A; MX2015009534A; WO2014114781A1; CN110853660A; BR122022020284A8; BR122022020319A8; CA2898567A1; US9576585B2; BR122022020284B1; CN105190750B; TWI524330B; KR20150109418A; RU2015136531A; TW201438003A; RU2639663C2

Abstract

音声出力信号を生成するためにビットストリームを復号化するためのデコーダ装置が設けられ、ビットストリームは、音声データおよび任意の方法で参照音量値を含む音量メタデータから構成され、デコーダ装置は、音声データから音声信号を再構成するために構成される音声デコーダ装置と、音声信号に基づく音声出力信号を生成するために構成される信号処理器とを含み、信号処理器は、音声出力信号のレベルを調整するように構成されるゲイン制御装置を含み、ゲイン制御装置は音量値を創出するために構成される参照音量デコーダを含み、参照音量値（４）がビットストリームに存在する場合に、音量値は参照音領値であり、ゲイン制御装置は、音量値と、ユーザが、ボリューム制御値を制御することを許容する外部のユーザインタフェースによって生成される、ボリューム制御値とに基づくゲイン値を算出するために構成されるゲイン計算機を含み、ゲイン制御装置は、ゲイン値に基づく音声出力信号の音量を制御するために構成される音量処理器を含む、デコーダ装置である。【選択図】図２

Description

本発明は、電子再生装置上のデジタル形式において再生された音声、ビデオおよびマルチメディアコンテンツの音量の制御に関し、具体的には、新しいメディア装置において共通に生ずるような、埋め込み音量メタデータを有するだけでなく、埋め込み音量メタデータを有さない場合の両方で準備されるコンテンツを有する再生音量の制御に関する。

音楽、ビデオおよび他のマルチメディアコンテンツの生成および送信において、音量の正規化のプロセスは、消費者が歌から歌またはプログラムからプログラムへ適当な音量を有するオーディオ信号を聞くことを確実にするために実行される。録音および録画の初期から、これは、製造プロセスの間、または劇場のための再生基準を使ってされた。音楽およびラジオを放送している産業における今日の一般的な方法は、メディアの最大ピークレベルの近くで音量を値に合わせることである。その一方で、映画またはテレビの産業における実行は、最大ピークレベル以下の２０から３１ｄＢでもよい、いくつかの標準音量レベルのうちの１つを使用することである。メディアコンバージェンス前の時代において、これは、別々の装置として消費者に気づかれないか、あるいは、ボリュームの設定が、コンテンツの各タイプの再生に使用された。

たとえば、音楽や映画コンテンツの両方の再生を目的とする携帯電話あるいは携帯用メディアプレーヤのような携帯機器の出現とともに、コンテンツが、変更なく装置に送信される場合、音量の違いの原因となる生産行為におけるこの差は、３０ｄＢと同程度である。コンテンツのあるタイプから他のタイプへ切り替える場合、これは、あまりに静かな映画か、あるいはあまりに音量の大きい音楽となる原因となる。

関連した傾向は、レコーディングのマスタリングの時における、強いダイナミックレンジ圧縮、制限、およびクリッピングを通した、録音された音楽の多くのジャンルの音量の増加である。今日販売される大多数の音楽が、ＭＰＥＧＡＡＣおよびＭＰ３のような損失性のデータ圧縮フォーマットであるにもかかわらず、そのようなマスタリングは、コンパクトディスクのような無損失性記録媒体のみを考慮している。データ圧縮プロセスは、フルスケールの制限または信号の最大のピーク値を越える波形のオーバーシュートが生じる再生の間、デコーダにおいて再構成される時間領域波形の変化を導くことができる。携帯装置において一般的に使用される固定小数点デコーダ（または、飽和している浮動小数点デコーダ）において、これは、フルスケールの制限へのオーバーシュートのクリッピングの原因となり、再生された信号の付加的な聞き取れるクリッピングを引き起こす。

この強い圧縮および音楽のクリッピングは、アーティスティックな目的のため場合によってされるが、他よりも「より多く聞こえ」させることによって録音の商業的な要請を増加するか、静かな環境だけでなく、空港や騒がしい場所のようなすべての聴取環境において理解されうるコンテンツを提供するために、一般にはよくされる。

映画および映像産業において、広い音声ダイナミックレンジが、劇的な効果のためのいくつかのジャンルにおいて使用され、そして、より多くの魅力のある経験を創出するために使用される。ドルビーデジタルまたはＭＰＥＧ−４ＡＡＣコーデックの処理により消費者に伝達された場合、音声ダイナミックレンジ制御メタデータは、雑音環境であるか、または大きな音のシーンがあまりに妨げているような場合に対してレシーバまたはプレーヤに任意に低減されることをしばしば含む。

ドルビーデジタルによって符号化されたＤＶＤまたはブルーレイコンテンツにおいて含まれる、またはドルビーデジタル（高度テレビジョンシステムズ委員会音声圧縮標準Ａ／５２）もしくはＭＰＥＧ−４ＡＡＣ（標準化されたＩＳＯ／ＩＥＣ１４４９６−３およびＥＴＳＩＴＳ１０１１５４）によって符号化されたＴＶ信号において送信される従来のメタデータは、以下のコンポーネントを含む。

１．単一の、静的メタデータ値はプログラムの全体の長期の統合した音量を示し、そして、ＭＰＥＧ標準のプログラム参照レベルと称される。

２．ステレオまたはモノラル装置を介した出力のためのマルチチャンネルコンテンツのダウンミックスを制御するために使用されるダウンミックスゲインのための静的メタデータ値

３．ダイナミックレンジ制御ゲインまたはスケーリングファクタの２つの設定は、音声信号において複数の周波数バンドまたは領域に対して各データ圧縮ビットストリームフレームに送られる。一方は、産業専門語において「軽（ｌｉｇｈｔ）」圧縮のために使用され、他方は、「重（ｈｅａｖｙ）」圧縮のために使用される。これらの軽ＤＲＣ値および重ＤＲＣ値の使用は、一般的には、「Ｌｉｎｅモード」および「ＲＦモード」の処理モードのために決められるデコーダ音量ターゲットレベルでの動作と関係する。後続の装置においてベースバンドケーブルでライン入力に送られるか、またはＲＦ搬送波を通じてアナログＴＶセットに送信されるアナログ信号にデジタル音声を変換する必要がある場合、これらのモードのための命名規則および処理ポイントは、デジタルメディアの間もない頃に確立された。

このメタデータの使用は、再生が、再生の間、非破壊で聴取環境に合わせて調整されうる。そのストリームまたは映画は、異なるダイナミックレンジを生成するために、メタデータの異なるセットとともに再生されるか、または、メタデータは全く使用されない。単に再生装置だけにある圧縮器の使用とは異なり、必要に応じて、メタデータを使用しているダイナミックレンジ制御は、生成プロセス中に、創造的なアーティストによって圧縮の性質のモニタリングおよび制御を許容する。

残念なことに、ＭＰＥＧＡＡＣ、あるいはドルビーデジタル系のような共通の損失性コーデックを実行するようなダイナミックレンジ制御メタデータは、メタデータが、２０−４０ｍｓの共通のフレーム期間とともに音声圧縮フレームベースにおいて（潜在的に、いくつかの周波数帯において）信号の平均パワーに影響を及ぼすように、現代音楽の音量をマッチするために十分に強く信号を圧縮することができない。このフレーム毎のゲイン制御は、非常に処理された現代音楽のそれにピークを信号の平均比率に低減するのに十分速くない。

この課題を解決するために、非特許文献５において説明されるＷｏｌｔｅｒｓらによって利用されたアプローチは、平均音量を増加させるために再生装置においてデコーダの後に音声リミッタを使用することである。これは、音量マッチング問題を解決する。その結果、音楽および映画のコンテンツは、等しい音量を有するが、いくつかの損失も有する。消費者が静かな環境でコンテンツを再生する場合、おそらく、静かな部屋において、または強い遮音を有するヘッドホンもしくはイヤホンを使用しているスピーカに接続される携帯装置について、映画コンテンツは、音楽と同程度に強く望まない圧縮がされる。また、リミッタは、デバイスＣＰＵまたはＤＳＰにおける付加的な作業負荷を導き、そして、バッテリ寿命を短くする。

異なるアプローチが、非特許文献６においてＣａｍｅｒｅｒらによって説明される。そして、それは、音楽ファイルのメタデータとしてＩＴＵ標準ＢＳ．１７７０−２において説明されるように、音量測定を符号化し、装置のボリューム制御によってターゲットレベルセットに各ファイルの再生を正規化することを提案する。これは、サウンドチェック（ｗｗｗ．ａｐｐｌｅ．ｃｏｍ）およびリプレイゲイン（ｗｗｗ．ｒｅｐｌａｙｇａｉｎ．ｏｒｇ）のような音楽音量正規化の以前のシステムを構築する。そして、それは、ｉＰｏｄのようないくつかの音楽プレーヤの任意の特徴であった。それらのアプローチにおいて、それらは、初期設定で、音量正規化を命令するように推奨する、しかしながら、ユーザが音量正規化をオフにする場合に生じること、または、さらに重要なことに、音量メタデータで符号化されたコンテンツが再生されたときに何が生ずるかについて、特定しない。それらの仮定は、全てのコンテンツが、再生前のｉＴｕｎｅｓのような再生装置によって、または安全な信用された配給業者によって分析されるということである。加えて、コンテンツの全体のダイナミックレンジが、聴取環境にそれを合わせるために調節するようにするための対策がない。

International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 14496-3 Information technology - Coding of audio-visual objects - Part 3: Audio, www.iso.org. European Telecommunications Standards Institute, ETSI TS 101 154: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 transport stream, www.etsi.org. Advanced Television Systems Committee, Inc., Audio Compression Standard A/52, www.atsc.org. International Telecommunications Union, Recommendation ITU-R BS.1770-3: Algorithms to measure audio programme loudness and true-peak audio level, www.itu.int. Martin Wolters, Harald Mundt, and Jeffrey Riedmiller, "Loudness Normalization In The Age Of Portable Media Players", paper 8044, Audio Engineering Society 128th Convention, www.aes.org. Florian Camerer, et al, "Loudness Normalization: The Future of File-Based Playback," Music Loudness Alliance, www.music-loudness.com. Dolby Laboratories, Inc., Dolby Digital Professional Encoding Guidelines, www.dolby.com. Perttu Hamalainen, "Smoothing Of The Control Signal Without Clipped Output In Digital Peak Limiters", Proc. of the 5th International Conference on Digital Audio Effects, Hamburg, Germany, September 26-28, 2002.

従って、消費者によって既に保持されたかまたは交換された従来の音楽コンテンツの膨大な量に起因して、潜在的に広いダイナミックレンジおよび考えられる埋め込み音量メタデータを有する映画／映像のスタイルコンテンツ、および潜在的に埋め込み音量メタデータを含んでいない、潜在的に極めて狭いダイナミックレンジおよび強い圧縮、制限、クリッピングを有する音楽またはラジオ／ポッドキャストコンテンツの両方の再生音量を正規化することの課題に、統一のアプローチを提供することが本発明の目的である。

ダイナミックレンジ制御メタデータを含むコンテンツのダイナミックレンジが、消費者の聴取環境または嗜好に合うように調整することは、本発明の他の目的である。

本発明の更なる目的は、データ圧縮プロセスによって導かれる信号コンポーネントの変化によって生じるＡＡＣ、ＭＰ３、またはドルビーデジタルレコーダのような損失性データ圧縮音声デコーダにおける潜在的なクリッピングを防止することである。

本発明の他の目的は、それらのコンテンツにおいて、音楽を録音している産業に対して、より強いダイナミックレンジ圧縮、制限、およびクリッピングの探求を委付する軽度の動機を提供することである。

本発明のさらに他の目的は、音量処理またはクリッピング防止によって生じるデバイスＣＰＵまたはＤＳＰにおける付加的な作業負荷を制限することである。

本発明の一実施の形態は、音声出力信号を生成するためにビットストリームを復号化するためのデコーダ装置を含み、ビットストリームは、音声データおよび任意の方法で参照音量値を含む音量メタデータから構成され、デコーダ装置は、
音声データから音声信号を再構成するために構成される音声デコーダ装置と、
音声信号に基づく音声出力信号を生成するために構成される信号処理器と、
を含み、
ここで、信号処理器は、音声出力信号のレベルを調整するために構成されるゲイン制御装置を含み、
ゲイン制御装置は、音量値を創出するために構成される参照音量デコーダを含み、参照音量値がビットストリームに存在する場合に、音量値は参照音量値であり、
ゲイン制御装置は、音量値と、ユーザが、ボリューム制御値を制御することを許容するユーザインタフェースによって生成される、ボリューム制御値とに基づくゲイン値を算出するために構成されるゲイン計算機を含み、
ゲイン制御装置は、ゲイン値に基づく音声出力信号の音量を制御するために構成される音量処理器を含む。

音声デコーダ装置は、圧縮されたビットストリームの音声データから音声信号を再構成することができる任意の装置でありうる。音声デコーダ装置から音声信号がそれに設定され、以下に説明されるゲイン制御装置を有する場合、信号処理器は、音声出力信号を生成しうる任意の装置でありうる。ゲイン制御装置は、音声出力信号の音量を制御するためにセットアップされる装置である。

参照音量デコーダは、ビットストリームに含まれる音量メタデータを復号化するために構成される。音量メタデータが参照音量値を含む場合、参照音量デコーダは、音量値として、単にこの参照音量値を出力する。

ゲイン計算機は、参照音量デコーダによって出力された音量値と、デコーダ装置のユーザによって設定されたボリューム制御値に基づくゲイン値を算出するための装置である。ボリューム制御値を設定するために、任意のユーザインタフェースが使用されうる。特に、ゲイン計算機は、減算器でありうる。

音量処理器は、ゲイン計算機によって生成されたゲイン値に基づく音声出力信号の音量レベルを制御することができる。特に、音量処理器は、乗算器でありうる。

携帯装置において、または消費者用の電子機器において使用されるドルビーデジタルまたはＡＡＣデコーダ装置のような従来の圧縮デコーダ装置とは異なり、圧縮デコーダ装置は、ユーザのボリューム制御によって制御される（フルスケールのビットストリームの復号化レベルに対応する）可変ゲイン値またはデコーダターゲット閾値とともに作動される。これは、装置のデジタル音声システムの最大のフルスケールのレンジ以下でよく通常作動するためのデコーダ装置を許容する。この種の動作は、デコーダオーバーシュートをクリッピングする可能性を回避し、通常必要とするように、映画形式のコンテンツのさらなる圧縮または制限なしで、重圧縮および制限を有する音楽コンテンツの音量の正規化に、重ダイナミックレンジ圧縮および制限なしの映画形式のコンテンツの音量の正規化を許容する。本発明は、音量マッチングの目的のために単に、コンテンツのダイナミックレンジを低減することなく、この正規化を実行する。

本発明の好ましい実施の形態において、参照音量値がビットストリームにおいて存在しない場合に、音量値は、プリセットの音量値である。これらの特徴は、音量メタデータを有さないビットストリームの高い品質の再生を許容する。

本発明の好ましい実施の形態において、プリセットの音量値は、フルスケールの振幅に参照された、−４ｄＢおよび−１０ｄＢの間、特に、−６ｄＢおよび−８ｄＢの間の値に設定される。現代音楽の経験的な研究は、フルスケールの再生を目的とする音楽コンテンツのための音量の観察された上限が、約−７ｄＢであることを示す。それゆえ、請求されるようなプリセットの音量値は、音量メタデータを有さないビットストリームを再生するための最適化されたモードを提供する。

本発明の好ましい実施の形態において、信号処理器は、音声出力信号のダイナミックレンジを調整するために構成されるダイナミックレンジ制御装置を含み、
ここで、ダイナミックレンジ制御装置は、音量メタデータから少なくとも１つのダイナミックレンジ制御値を導出し、導出されたダイナミックレンジ制御値またはプリセットのダイナミックレンジ制御値のうちの１つを、選択的に出力するために構成されるダイナミックレンジ制御スイッチを含み、
ダイナミックレンジ制御装置は、ダイナミックレンジ制御スイッチによって出力されたダイナミックレンジ制御値と、ユーザが、圧縮制御値を制御することを許容するユーザインタフェースによって生成される、圧縮制御値とに基づくダイナミックレンジ値を算出するために構成されるダイナミックレンジ計算機を含み、
ダイナミックレンジ制御装置は、ダイナミックレンジ値に基づく音声出力信号のダイナミックレンジを制御するために構成されるダイナミックレンジ処理器を含む。

ダイナミックレンジ制御装置は、少なくとも１つのダイナミックレンジ制御値が導出されるような方法において、ビットストリームの音量メタデータを復号化するために構成されるダイナミックレンジ制御スイッチを含む。一般的に、ダイナミックレンジ制御スイッチは、軽ダイナミックレンジ制御のための一方のダイナミックレンジ制御値および重ダイナミックレンジ制御のための他のダイナミックレンジ制御値が導出されうるようなこの種の方法で構成される。ダイナミックレンジ制御スイッチは、選択的に、これらの導出されたダイナミックレンジ制御値またはプリセットのダイナミックレンジ制御値のうちの１つを出力しうる。ダイナミックレンジ制御スイッチは、たとえば、自動的に音声出力信号を使用する後続の機器に応じて制御するか、またはユーザアクションによって手動で制御されうるかである。プリセットのダイナミックレンジ制御値は、たとえば、０ｄＢに設定されうる。

ダイナミックレンジ制御装置は、ダイナミックレンジ制御スイッチによって出力されたダイナミックレンジ制御値と、ユーザが、圧縮制御値を制御することを許容するユーザインタフェースによって生成される、圧縮制御値とに基づくダイナミックレンジ値を算出しうるダイナミックレンジ計算機を含みうる。特に、ダイナミックレンジ計算機は、乗算器でありうる。

さらにまた、ダイナミックレンジ値に基づく音声出力信号のダイナミックレンジを制御しうるダイナミックレンジ処理器が予測される。これらの特徴によって、ビットストリームの再生は、聴取環境および／またはリスナーの嗜好を通して適応されうる。

本発明の好ましい実施の形態によれば、信号処理器は、出力音声信号の振幅を制限するために構成されるリミッタ装置を含み、ここで、リミッタ装置は、リミッタを有するリミッタコンポーネントと、リミッタコンポーネントを制御するために構成される制御コンポーネントとを含み、ゲイン制御装置によって少なくとも処理されることによって音声信号から導出される処理された音声信号は、リミッタコンポーネントに入力され、そして、音声出力信号は、リミッタコンポーネントから出力される。

リミッタ装置は、デコーダオーバーシュートクリッピングの防止の目的のための制限、聴力損失の防止のためのボリュームの制限、またはユーザ選択を提供し、そして、聴取環境またはユーザの嗜好のために必要な場合、ピークの制限を有するコンテンツの可逆の生成を許容するためのアーティスティック圧縮を提供する。

本発明の好ましい実施の形態によれば、制御コンポーネントは、ビットストリームのビットレートに応じてリミッタコンポーネントを制御するために構成される。ビットレートが低下する場合、デコーダオーバーシュートクリッピングの可能性が増加する。したがって、リミッタコンポーネントがビットストリームのビットレートに応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。

本発明の好ましい実施の形態によれば、制御コンポーネントは、音声デコーダ装置の圧縮効率に応じてリミッタコンポーネントを制御するために構成される。ビットストリームを生成するために元の音声データを符号化する場合、ビットストリームを生成する音声エンコーダ装置および同時にビットストリームを復号化する音声デコーダ装置の圧縮効率は、どのくらいデータ量が低減されるかについて記述する。データ量としてのより多くは減らされるので、デコーダオーバーシュートクリッピングの可能性は増加する。それ故、リミッタコンポーネントが、音声デコーダ装置の圧縮効率に応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。

本発明の好ましい実施の形態によれば、制御コンポーネントは、ビットストリームの音量メタデータにおいて送信され、そして外部のエンコーダによってビットストリームに変換される音声ソースの最大のピークレベルを示す、真のピーク値に応じてリミッタコンポーネントを制御するために構成される。この真のピーク値の使用は、音声出力信号の最大の可能なピークのレベルに対してより正確な値の算出を許容する。

本発明の好ましい実施の形態によれば、制御コンポーネントは、ゲイン制御装置のゲイン値に応じてリミッタコンポーネントを制御するために構成される。音声出力信号の最大の可能なピークのレベルは、ゲイン制御装置のゲイン値によってこのサブケースにおいて決定される。前記値が０ｄＢである場合、デコーダ装置は、ボリューム制御値の最大の設定によって命令されるように、そのフルスケールの制限において作動する。前記ボリューム制御値が低減されるように、フルスケールのビットストリーム値が、ゲイン制御装置のゲイン値によって設定される最大レベルのみに達するように、デコーダ装置が作動する。

本発明の好ましい実施の形態によれば、聴覚障害を防止するために、制御コンポーネントは、ユーザまたは製造業者によって設定されるボリュームリミット値に応じてリミッタコンポーネントを制御するために構成される。これらの特徴によって、聴覚障害は、能率的に回避されうる。

本発明の好ましい実施の形態によれば、制御コンポーネントは、ビットストリームの音量メタデータにおいて送信され、アーティスティックリミッタ閾値、アーティスティックアタック時間値および／またはアーティスティックリミッタリリース時間値を示す、アーティスティックリミッタパラメータに応じてリミッタコンポーネントを制御するために構成される。これらの特徴は、アーティストまたはコンテンツ製作者の創造的な制御に基づくリミッタ装置の動作を許容する。以前に議論された音量メタデータにおいて含まれるダイナミックレンジ制御値は、１００ｍｓ〜３秒の一般的な時間定数によって行う圧縮ゲインの使用により聴取環境に合わせて調整されうるコンテンツの全体のダイナミックレンジを許容する。厳しい聴取環境において、これらの時間定数を有する音声信号の圧縮は、不快な高いピークのレベルなしに、理解度または楽しみのための十分な音量を有する信号を生成し得ない。消費者が静かな環境の「非クラッシュ」バージョンを聞くことができるように、または、要求される場合に、従来の高圧縮の「クラッシュ」混合だけを生成した音楽作者が「クラッシュ」混合およびより制限および圧縮しない「非クラッシュ」混合の両方を生成するために、本発明の柔軟性を使用することを望むことができるという可能性もある。

本発明の好ましい実施の形態によれば、制御コンポーネントは、継続的にまたは繰り返し、リミッタコンポーネントを制御するために構成される。これらの特徴は、時間とともにリミッタコンポーネントの可変制御を許容する。

本発明の好ましい実施の形態によれば、リミッタ装置は、ゲインおよび遅延に関して、リミッタの伝達関数に類似の伝達関数を有するバイパス装置を経由して、リミッタをバイパスするために構成される。これらの特徴によって、信号処理器の作業負荷は、著しく低減されうる。

本発明の一実施の形態は、デコーダおよびエンコーダを備えるシステムを含み、ここで、請求されるように、デコーダは設計される。

本発明の一実施の形態は、音声出力信号を生成するためにビットストリームを復号化する方法を含み、ビットストリームは、音声データおよび任意の方法で参照音量値を含む音量メタデータから構成され、方法は、
音声デコーダ装置を用いて音声データから音声信号を再構成するステップと、
信号処理器を用いて音声信号に基づく音声出力信号を生成するステップと、
を含み、
ここで、音声出力信号の音量レベルは、信号処理器に含まれるゲイン制御装置を使用して調整され、
音量値は、ゲイン制御装置に含まれる参照音量デコーダによって創出され、参照音量値がビットストリームに存在する場合に、音量値は参照音量値であり、
ゲイン値は、ゲイン制御装置に含まれるゲイン計算機によって、音量値と、ユーザが、ボリューム制御値を制御することを許容するユーザインタフェースによって生成される、ボリューム制御値とに基づき算出され、
音声出力信号の音量レベルは、ゲイン制御装置に含まれる音量処理器によってゲイン値に基づき制御される。

本発明の一実施の形態は、本願明細書において請求されるような方法で、コンピュータまたはプロセッサ上で実行されると、実行するためのコンピュータプログラムを含む。

本発明の好ましい実施の形態は、添付の図面に関してその後述べられる。

図１は、一般的な携帯電話、タブレットコンピュータまたは携帯用のメディアプレーヤに組み込まれるような、たとえば、ＩＳＯ／ＩＥＣ１４４９６−３およびＥＴＳＩＴＳ１０１１５４によって特定される、音量メタデータサポートを有する既存の従来の技術のデータ圧縮音声デコーダのブロック図を示す。図２は、一般的な携帯電話、タブレットコンピュータまたは携帯用のメディアプレーヤへの組み込みに適する本発明に記載されるデータ圧縮音声デコーダ装置および任意の音声リミッタを有するデコーダの実施の形態を示す。図３は、ビットストリームビットレートに対してＡＡＣ−ＬＣステレオデコーダで再構築された信号波形のオーバーシュートのため、可能な付加的なクリッピングの経験的に導出された関数を示す。図４は、本発明に記載される任意のリミッタ装置の好ましい実施の形態のブロック図を示す。図５は、本発明に記載されるアーティスティック制限モードで作動している任意のリミッタ装置の好ましい実施の形態のブロック図を示す。

本発明の動作を理解する助けとして、一般的な携帯電話、タブレットコンピュータまたは携帯用のメディアプレーヤに組み込まれるような、たとえば、ＩＳＯ／ＩＥＣ１４４９６−３およびＥＴＳＩＴＳ１０１１５４によって特定される、既存の従来技術のメタデータ対応データ圧縮デコーダ装置２１の動作が、図１に示される。圧縮音声ビットストリーム１は、圧縮音声本質データ２および音量メタデータ３の両方を含みうる。デコーダ装置２１は、音声データ２から音声信号８を再構築するために構成される音声デコーダ装置９と、音声信号８に基づき音声出力信号１８を生成するために構成される信号処理器２６とを含む。音量メタデータ３は、ＩＳＯ／ＩＥＣ１４４９６−３におけるプログラム参照レベルとして公知である、全ファイル、歌またはアルバムの全体に組み込まれた音量に対する参照音量値４を含む。プログラムが進行中の間、この参照音量値４は、放送のビットストリーム１が結合されることを許容するために、ファイルにつき１回、または十分な反復率においてビットストリームにおいて送信されうる。この参照音量値４は、減算器１６として設計されたゲイン計算機１６によって、静的なターゲットレベルプロバイダ１７によって、生成される固定のデコーダターゲットレベル値と比較される。ゲイン計算機１６の出力は、入ってくるビットストリーム１と所望のターゲットレベルとの間の音量の差である。歌またはプログラムのためのターゲットロングタームラウドネスが達成されるように、音声出力信号１８のレベルを調整するために、これは、乗算器１５として設計される、音量処理器１５に適用される。

ダイナミックレンジ制御スイッチ１２は、一般的に「Ｌｉｎｅモード」として使用される軽ダイナミックレンジ制御値６、もしくは一般的に「ＲＦモード」として使用される重ダイナミックレンジ制御値７のアプリケーション、または全くない、を許容する。これらの値６，７は、ビットストリーム１における複数の周波数帯および領域に対するデータ圧縮ビットストリームフレーム毎に送られ、音声デコーダ装置９の出力レベルを変更するために、乗算器１３として設計されるダイナミックレンジ処理器１３に適用される。その結果、音声出力信号１８の（秒オーダーにおける）ショートタームラウドネスが、所望のダイナミックレンジに従って圧縮される。一般的に、静的ターゲットレベルプロバイダ１７によって生成されるデコーダターゲットレベルは、ＲＦモードに対して−２０ｄＢ、およびＬｉｎｅモードに対して−３１ｄＢの１２の選択によっても調整される。音声出力信号１８におけるクリッピングが防止されるように、乗算器１３と結合して乗算器１６の動作によって創出されるレベルにおけるいくつかの増加が制御されるように、ダイナミックレンジ制御値６および／または７の動作が、通常、事前に計算される。

メタデータ３は、必要なときに、（５．１チャンネルサラウンドプログラムのような）マルチチャンネルコンテンツのチャンネルの混合をステレオかまたはモノラル出力に調整するために使用されるダウンミックスゲイン値５も含む。本発明は、任意の数のチャンネルを含むビットストリーム１に適用されうる場合について、この特徴は、さらに述べられない。

重要なことに、所与のビットストリーム１において存在する参照音量値４がない場合、音声出力信号１８のゲイン調整がないように、参照音量デコーダ１０によって出力された音量値３１が静的ターゲットレベルプロバイダ１７によって出力されたデコーダターゲットレベルに等しく設定され、そして、デコーダ装置２１は、音声出力装置１８のフルスケールのダイナミックレンジに等しいその出力レンジを有するシンプルなデコーダ装置として作動する。

混合音声信号１９が創出されるように、音声出力信号１８がユーザインタフェース音（ＵＩ音）、呼出音、または他の音声信号２２と結合される、システム音声ミキサ２３に、その後、音声デコーダ２１の出力は、一般的に供給される。全体のボリュームは、ボリューム制御値２０によって制御される。音声信号ミキサ２３の動作は、音声信号の各タイプの相対的なレベルを調整するか、または、本発明の動作を理解することに関連しない装置の動作モードに応じて振幅を変えるための第２のボリューム制御を含みうる。重要であることは、フルスケールの出力信号が、最大の固定小数点、または名目上のフルスケールの浮動小数点値（一般的には、−１．０から１．０の範囲において）に対応するように、デコーダ装置２１の音声出力信号１８は、一般的にスケールされる、ということである。重圧縮音声データについては、現代音楽のために一般的であるように、名目上の聴取レベルにおいて聞く場合に、デコーダ出力信号１８は、そのフルスケールの値にアプローチするピークを有する。このように、音声出力信号１８におけるフルスケールのピーク（音声出力信号のフルスケールの振幅に参照される）０ｄＢＦＳは、システム音声ミキサ２３において弱められ、そして、静かな環境において聞く場合に、おそらく７５ｄＢＳＰＬのリスナーの耳における音圧レベル（ＳＰＬ）に対応する。

図２は、音声出力信号４２を生成するためにビットストリーム１を復号化するためのデコーダ装置４１を表わしており、ビットストリーム１は、音声データ２および任意の方法で参照音量値４を含む音量メタデータ３から構成され、デコーダ装置４１は、
音声データ２から音声信号８を再構成するために構成される音声デコーダ装置９と、
音声信号８に基づく音声出力信号４２を生成するために構成される信号処理器２７と、
を含み、
ここで、信号処理器２７は、音声出力信号４２のレベルを調整するために構成されるゲイン制御装置１０，１５，２８を含み、
ゲイン制御装置１０，１５，２８は、音量値３７を創出するために構成される参照音量デコーダ１０を含み、参照音量値４がビットストリーム１に存在する場合に、音量値３７は、参照音量値４であり、
ゲイン制御装置１０，１５，２８は、音量値３７と、ユーザが、ボリューム制御値２０を制御することを許容するユーザインタフェースによって生成される、ボリューム制御値２０とに基づくゲイン値３３を算出するために構成されるゲイン計算機２８を含み、
ゲイン制御装置１０，１５，２８は、ゲイン値３３に基づく音声出力信号４２の音量を制御するために構成される音量処理器１５を含む。

音声デコーダ装置９は、圧縮されたビットストリーム１の音声データ２から音声信号８を再構成することができる任意の装置９でありうる。音声デコーダ装置９から音声信号８が供給される、以下に説明されるゲイン制御装置１０，１５，２８を有する場合、信号処理器２７は、音声出力信号４２を生成しうる任意の装置２７でありうる。ゲイン制御装置１０，１５，２８は、音声出力信号４２の音量を制御するためにセットアップされる装置である。

参照音量デコーダ１０は、ビットストリーム１に含まれる音量メタデータ３を復号化するために構成される。音量メタデータ３が参照音量値４を含む場合、参照音量デコーダ１０は、音量値３７として、単にこの参照音量値４を出力する。

ゲイン計算機２８は、参照音量デコーダ１０によって出力された音量値３７と、デコーダ装置４１のユーザによって設定されたボリューム制御値２０に基づくゲイン値３３を算出するための装置である。ボリューム制御値２０を設定するために、任意のユーザインタフェースも使用されうる。特に、ゲイン計算機２８は、減算器２８でありうる。

音量処理器１５は、ゲイン計算機２８によって生成されたゲイン値３３に基づく音声出力信号４２の音量レベルを制御することができる。特に、音量処理器１５は、乗算器１５でありうる。

携帯装置において、または消費者用の電子機器において使用されるドルビーデジタルまたはＡＡＣデコーダ装置のような従来の圧縮デコーダ装置２１とは異なり、圧縮デコーダ装置４１は、ユーザのボリューム制御によって制御される（フルスケールのビットストリームの復号化レベルに対応する）可変ゲイン値３３またはデコーダターゲット閾値３３とともに作動される。これは、装置のデジタル音声システムの最大のフルスケールのレンジ以下でよく通常作動するためのデコーダ装置４１を許容する。この種の動作は、デコーダオーバーシュートをクリッピングする可能性を回避し、通常必要とするように、映画形式のコンテンツのさらなる圧縮または制限なしで、重圧縮および制限を有する音楽コンテンツの音量の正規化に、重ダイナミックレンジ圧縮および制限なしの映画形式のコンテンツの音量の正規化を許容する。本発明は、音量マッチングの目的のために単に、コンテンツのダイナミックレンジを低減することなく、この正規化を実行する。

本発明の好ましい実施の形態において、参照音量値４がビットストリーム１において存在しない場合に、音量値３７は、プリセットの音量値３７である。これらの特徴は、音量メタデータ３を有さないビットストリーム１の高い品質の再生を許容する。

本発明の好ましい実施の形態において、プリセットの音量値３７は、フルスケールの振幅に参照された、−４ｄＢおよび−１０ｄＢの間、特に、−６ｄＢおよび−８ｄＢの間の値に設定される。現代音楽の経験的な研究は、フルスケールの再生を目的とする音楽コンテンツのための音量の観察された上限が、約−７ｄＢであることを示す。それゆえ、請求されるようなプリセットの音量値３７は、適切な音量メタデータ３を有さないビットストリームを再生するための最適化されたモードを提供する。

本発明の好ましい実施の形態において、信号処理器２７は、音声出力信号４２のダイナミックレンジを調整するために構成されるダイナミックレンジ制御装置１２，１３，１４を含み、
ここで、ダイナミックレンジ制御装置１２，１３，１４は、音量メタデータ３から少なくとも１つのダイナミックレンジ制御値６，７を導出し、導出されたダイナミックレンジ制御値６，７またはプリセットのダイナミックレンジ制御値４３をのうちの１つを、選択的に出力するために構成されるダイナミックレンジ制御スイッチ１２を含み、
ダイナミックレンジ制御装置１２，１３，１４は、ダイナミックレンジ制御スイッチ１２によって出力されたダイナミックレンジ制御値６，７，４３と、ユーザが、圧縮制御値２５を制御することを許容するユーザインタフェースによって生成される、圧縮制御値２５とに基づくダイナミックレンジ値４４を算出するために構成されるダイナミックレンジ計算機１４を含み、
ダイナミックレンジ制御装置１２，１３，１４は、ダイナミックレンジ値４４に基づく音声出力信号４２のダイナミックレンジを制御するために構成されるダイナミックレンジ処理器１３を含む。

ダイナミックレンジ制御装置１２，１３，１４は、少なくとも１つのダイナミックレンジ制御値６，７が導出されるような方法において、ビットストリーム１の音量メタデータ３を復号化するために構成されるダイナミックレンジ制御スイッチ１２を含む。一般的に、ダイナミックレンジ制御スイッチ１２は、軽ダイナミックレンジ制御のための一方のダイナミックレンジ制御値６および重ダイナミックレンジ制御のための他のダイナミックレンジ制御値７が導出されるようなこの種の方法において構成される。ダイナミックレンジ制御スイッチ１２は、選択的に、これらの導出されたダイナミックレンジ制御値６，７またはプリセットのダイナミックレンジ制御値４３のうちの１つを出力しうる。ダイナミックレンジ制御スイッチ１２は、たとえば、自動的に音声出力信号４２を使用する後続の機器に応じて制御するか、またはユーザアクションによって手動で制御されうるかである。プリセットのダイナミックレンジ制御値は、たとえば、０ｄＢに設定されうる。

ダイナミックレンジ制御装置１２，１３，１４は、ダイナミックレンジ制御スイッチ１２によって出力されたダイナミックレンジ制御値６，７，４３と、ユーザが、圧縮制御値２５を制御することを許容するユーザインタフェースによって生成される、圧縮制御値２５とに基づくダイナミックレンジ値４４を算出しうるダイナミックレンジ計算機１４を含みうる。特に、ダイナミックレンジ計算機１４は、乗算器１４でありうる。

さらにまた、ダイナミックレンジ値４４に基づく音声出力信号４２のダイナミックレンジを制御しうるダイナミックレンジ処理器１３が予測される。これらの特徴によって、ビットストリーム１の再生は、聴取環境および／またはリスナーの嗜好を通じて適応されうる。

図２は、改良された音声デコーダ４１に含まれる本発明の好ましい実施の形態の動作を示す。入ってくる音声ビットストリーム１は、音声本質データ２、ならびにプログラム参照レベル４、ダウンミックスゲイン５、軽ＤＲＣ値６および重ＤＲＣ値７のための前述の標準メタデータ値を含む、任意の音量メタデータ３により構成される。メタデータ３は、アーティスティックリミッタパラメータ３２、および任意の実施の形態において使用される真のピーク値３６も含みうる。

以前の図１に記載されている動作とは対照的に、乗算器１５が所望の聴取レベルにデコーダ装置４１の音声出力信号４２を適応させるために使用するように、参照音量デコーダ１０によって出力された音量値３７は、ボリューム制御のボリューム制御値２０と比較される。前記音声出力信号４２は、装置における後続の音声後処理機能に、もしくは、デジタル／アナログ変換器（ＤＡＣ）およびそこからスピーカに直接的に送られる混合音声信号２９、または装置が、ＨＤＭＩ（登録商標），ＭＨＬ，Ｓ／ＰＤＩＦ，ＡＥＳ，ＴｏｓＬｉｎｋ，ＡｉｒＰｌａｙ、または他の有線もしくは無線のデジタルインタフェース標準を通して、他の装置に接続される場合、共通に存在するような、装置のデジタル出力を形成するために、その後、システム音声ミキサ２３の追加の音声信号２４を調整した音量に付加される。

重要なことに、本発明の音声出力信号４２は、フルスケールの値で一般的に動作されない。音声出力信号４２の０ｄＢＦＳは、現在、デコーダ装置４１で可能な限りの最大音圧レベルに、そして、接続されたイヤホン、スピーカまたは他の変換器に応じて、おそらく一般的なイヤホンを有する１１０−１２０ｄＢのＳＰＬのレンジに対応する。

値４が所与のビットストリーム１に存在しない場合、音量値３７は、−７ｄＢＦＳのレベルに設定される。（非特許文献５におけるような）現代音楽の経験的な研究は、このことがフルスケールの再生を目的とする音楽コンテンツのための音量の上限であることを示す。それらのコンテンツが、コンテンツの従来の「クラッシュ」バージョンより大きいか大きいように再生することを可能にする音量メタデータ３を分配するように、これは、音楽制作者および分配者が、装置に分配するか、または本発明を利用する分配エコシステムのために、重制限、圧縮またはクリッピングなしに、それらのコンテンツのバージョンを準備する軽い動機を提供する。

図１の従来技術のデコーダのように、ダイナミックレンジ制御スイッチ１２は、再度、ダイナミックレンジ変更をしないこと、または、軽ダイナミックレンジ制御値６、もしくは重ダイナミックレンジ制御値７のアプリケーションの選択を許容する。たとえば、携帯電話において、携帯電話がＨＤＭＩ（登録商標）上の外部音声システムに接続される場合、軽ダイナミックレンジ制御値６が適用され、そして、ヘッドホンジャックが使用される場合は、重ダイナミックレンジ制御値７が適用されうる。これらのダイナミックレンジ制御値（または、ダイナミックレンジ制御が適用されない場合は、０に設定されうる静的なプリセットのダイナミックレンジ制御値４３）は、０〜１のレンジの間で変化する新しいユーザ圧縮制御値２５に従うダイナミックレンジ制御値をスケールする乗算器１４に、その後、供給される。ダイナミックレンジ圧縮の可変量が、聴取レベルから独立している音声出力信号４２に適用されうるように、圧縮制御値２５は、スケールされたダイナミックレンジ制御値６，７，４３を許容する。圧縮制御値２５の値は、デコーダ装置４１におけるユーザインタフェース制御要素からか、装置４１のモード、またはそのロケーション、もしくは配置に対応するプリセットからか、デコーダ装置４１によって得られる環境雑音の推定からか、全体のボリューム設定、もしくは出力レベルの経験的に得られる関数からか、または他の手段を通じて、得られうる。乗算器１３は、乗算器１５によってさらに修正するために、音声デコーダ装置９の音声信号８の音量を修正するとともに、その後、スケールされたダイナミックレンジ制御値を含む乗算器１４の出力４４は、通常の方法において、乗算器１３に適用される。処理された音声信号３５は、以下に説明される、任意の態様のリミッタ装置３０に接続される乗算器１５（または乗算器１３によって出力された他の態様において）によって出力されるか、または音声出力信号４２として直接的に使用される。

混合音声信号２９のボリュームが、追加の音声信号２４を調整した音量を有する音量において追跡するように、システム音声ミキサ２３または減算器２８のボリューム制御値２０のオフセットまたはスケーリングに対して必要としうることは、当業者によってよく理解されている。

さまざまなジャンルのコンテンツの音量にマッチングする従前のアプローチにおいて、たとえば、非特許文献５におけるように、信号のピークを制限し、クリッピングなしで、信号の平均レベルを増加するために、リミッタは、ダイナミックレンジ制御メタデータのコア音声デコーダおよびアプリケーションに続くシグナルチェーンにおいて使用された。聞き取れる人工音を信号に取り入れることを回避するために、単に、閾値レベルにおける数学的なサーチュレーションを実装する「ハード」リミッタまたはクリッパとは対照的に、そのようなリミッタは、信号波形アプローチとして、信号ゲインを変化させることによって、やんわり信号のピークを制限するか、または閾値を越えるような方法で、動作されうる。そのように、ソフトリミッタは、コンピュータコストが高く、潜在的に、デコーダ装置によって負担される作業負荷の１０−３０％を消費する可能性がある。

対照的に、本発明は、音量マッチングの目的のために音声出力信号４２の平均比率にピークの制御のためのリミッタを必要とせず、クリッピングに備えて保護の目的のため、聴覚障害を回避するために制限するため、および、アーティスティック効果もしくは圧縮の増加に対して制限するために、任意にリミッタ装置３０を含みうる。特定のデコーダ装置４１は、実装の費用を変化させることに関するこれらの目的のいずれかまたは全てのリミッタ装置３０を備えうる。さもなければ、リミッタ装置３０は単に省略されうる。これらの場合の各々は、以下で説明される。

クリッピング保護の場合を考慮する際に、信号の２つのサブケースが考慮される。いくつかのビットストリーム１は、たとえば、音量またはダイナミックレンジに対して分析されなかったユーザの装置において、既に存在するレガシー音楽コンテンツのような、少しのメタデータ３も含み得ない。このサブケースにおいて、乗算器１３が作動中でなく、そして、乗算器１５は、最も高いボリューム制御設定において、１の最大のゲインを生成する。このように、クリッピングのための唯一の潜在力は、信号波形におけるデータ圧縮によって誘導されたオーバーシュートの可能性である。通常の信号によって潜在的なオーバーシュートの量は、圧縮比のチャネルまたは類似の測定基準につきサンプルにつきビットの関数として、信頼区間において圧縮コーデックのために経験的に決定されうる。ＡＡＣＬＣステレオビットストリームのための通常の経験的に決定されたクリッピング予測関数５６は、図３に示される。他の方法、経験的、分析的あるいは反復が、存在されうるクリッピングの量を決定するかあるいは予測するために用いられることは、これらの当業者によって理解されていなければならない。

図４および図５に示される本発明の好ましい実施の形態によれば、信号処理器２７は、出力音声信号４２の振幅を制限するために構成されるリミッタ装置３０を含み、ここで、リミッタ装置３０は、リミッタ５１を有するリミッタコンポーネント６２と、リミッタコンポーネント６２を制御するために構成される制御コンポーネント６３とを含み、ゲイン制御装置１０，１５，２８によって少なくとも処理されることによって音声信号８から導出される処理された音声信号３５は、リミッタコンポーネント６２に入力され、音声出力信号４２は、リミッタコンポーネント６２から出力される。

リミッタ装置３０は、デコーダオーバーシュートクリッピングの防止の目的のための制限、聴力損失の防止のためのボリュームの制限、またはユーザ選択を提供し、そして、聴取環境またはユーザの嗜好のために必要な場合、ピークの制限を有するコンテンツの可逆の生成を許容するためのアーティスティック圧縮を提供する。

リミッタ５１は、内部信号、または供給されるピークレベル、または、デコーダオーバーシュートクリッピングの防止の目的のための制限、聴力損失防止またはユーザ選択のためのボリュームの制限、および聴取環境またはユーザの嗜好により必要な場合に、制限されるピークを有するコンテンツの可逆の生成を許容するためのアーティスティック圧縮を提供するアーティスティックメタデータによって制御される。

リミッタ５１は、理想的に効率的であり、クリッピングなく、たとえば、デジタル音声マスタリングのために共通に使用されるような先読みのリミッタであり、そして、当業者に公知である。たとえば、非特許文献８に記載されるような実装でありうる。あるいは、クリッピング保護が、所望の特徴でない場合、ボリュームの制限ではなく、５８の出力による閾値の設定を有するハードクリッパーが置換され、そして、補償バッファ５３が取り除かれるか、または短縮される。

図４に示される本発明の好ましい実施の形態によれば、制御コンポーネント６３は、ビットストリーム１のビットレートに応じてリミッタコンポーネント６２を制御するために構成される。ビットレートが低下する場合、デコーダオーバーシュートクリッピングの可能性が増加する。したがって、リミッタコンポーネント６２がビットストリーム１のビットレートに応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。

この任意の特徴の好ましい実施の形態において、音声デコーダ装置９によって復号化されたビットストリーム１のビットレート値３４は、論理記載、またはゲートにおいて、参照テーブルとして、または、当業者に公知であるような少なくとも１つの変数の機能を実施する他の技術によって実装されるクリッピング予測機能５６を含む、クリッピング予測装置５４に入力される。機能５６の出力は、その２つの入力で小さいものを選択するように同様に実装されるミニマム関数５９を介して比較器５５に供給される。我々は、後述するボリュームリミットの特性がアクティブでないと考え、そして、スイッチ５８は、ミニマム関数５９が、クリッピング予測機能５６の出力によって常に制御されるように、０ｄＢＦＳ（フルスケール）に対応する値を出力する。このように、それが、音声出力信号４２においてクリッピングから保護するためにリミッタスイッチ５２を介してリミッタ５１に関与するのに必要かどうかを決定するために、比較器５５は、クリッピング保護機能５６の出力と処理された音声信号３５の最大の可能なピークのレベルとを比較する。

本発明の好ましい実施の形態によれば、制御コンポーネントは、音声デコーダ装置９の圧縮効率に応じてリミッタコンポーネント６２を制御するために構成される。ビットストリームを生成するために元の音声データを符号化する場合、ビットストリームを生成する音声エンコーダ装置および同時にビットストリームを復号化する音声デコーダ装置９の圧縮効率は、どれくらいデータ量が低減されるかについて記述する。データ量としてのより多くは減らされるので、デコーダオーバーシュートクリッピングの可能性は増加する。それ故、リミッタコンポーネント６２が、音声デコーダ装置９の圧縮効率に応じて制御される場合、デコーダオーバーシュートクリッピングの防止が強化される。

この任意の特徴の好ましい実施の形態において、音声デコーダ装置９の圧縮効率は、論理記載、またはゲートにおいて、参照テーブルとして、または、当業者に公知であるような少なくとも１つの変数の機能を実施する他の技術によって実装されるクリッピング予測機能５６を含む、クリッピング予測装置５４に入力される。機能５６の出力は、その２つの入力で小さいものを選択するように同様に実装されるミニマム関数５９を介して比較器５５に供給される。我々は、後述するボリュームリミットの特性がアクティブでないと考え、そして、スイッチ５８は、ミニマム関数５９が、クリッピング予測機能５６の出力によって常に制御されるように、０ｄＢＦＳ（フルスケール）に対応する値を出力する。このように、それが、音声出力信号４２においてクリッピングから保護するためにリミッタスイッチ５２を介してリミッタ５１に関与するのに必要かどうかを決定するために、比較器５５は、クリッピング保護機能５６の出力と処理された音声信号３５の最大の可能なピークのレベルとを比較する。

処理されたコアデコーダ出力信号３５の最大レベルが、クリッピング予測機能５６によって予測されたレベルより少ない場合において、（機能５４の信頼区間またはエラーの範囲内における）デコーダオーバーシュートのためのクリッピングの可能性はなく、スイッチ５２は、補償バッファ５３の出力を選択する。リミッタ５１の重要な作業負荷と比較して、前記バッファは、リミッタ５１の処理遅延をマッチするための単なる遅延であり、そして、ごくわずかなコンピュータ処理の作業負荷のみを導く。

本発明の好ましい実施の形態によれば、制御コンポーネント６３は、ゲイン制御装置１０，１５，２８のゲイン値３３に応じてリミッタコンポーネント６２を制御するために構成される。音声出力信号４２の最大の可能なピークのレベルは、ゲイン制御装置１０，１５，２８のゲイン値によってこのサブケースにおいて決定される。前記値が０ｄＢである場合、デコーダ装置４１は、ボリューム制御値２０の最大の設定によって命令されるように、そのフルスケールの制限において作動する。前記ボリューム制御値２０が低減されるように、フルスケールのビットストリーム値が、ゲイン制御装置１０，１５，２８のゲイン値３３によって設定される最大レベルのみに達するように、デコーダ装置４１が作動する。

これが、ビットストリーム１の入ってくる音声データ２において可能な限り最大であるように、メタデータ３が存在しないこのサブケースにおいて、スイッチ６０は０ｄＢＦＳを出力する。

本発明の好ましい実施の形態によれば、制御コンポーネント６３は、ビットストリーム１の音量メタデータ３において送信され、そして外部のエンコーダによってビットストリーム１に変換される音声ソースの最大のピークのレベルを示す、真のピーク値３６に応じてリミッタコンポーネント６２を制御するために構成される。この真のピーク値３６の使用は、音声出力信号４２の最大の可能なピークのレベルに対してより正確な値の算出を許容する。

ビットストリームが音量メタデータ３を含む場合、メタデータ３は、また、ＩＴＵ標準ＢＳ．１７７０−３によって明記される真のピークの測定値を含むように明記されうる。このサブケースにおいて、スイッチ６０は、０ｄＢＦＳ定数の代わりに音量メタデータ３に含まれる真のピーク値３６を選択する。リミッタ３０に対して信号入力３５の最大のピーク振幅を示す、ゲイン調整３３と真のピーク値３６との合計は、加算器６１によって算出され、その後、比較器５５によってクリッピング機能５６の出力と比較される。この真のピークメタデータ値３６の使用は、単に、音声出力信号４１の最大の可能なピークのレベルにより正確な値の計算を許容するにすぎない。

本発明の好ましい実施の形態によれば、聴覚障害を防止するために、制御コンポーネント６３は、ユーザまたは製造業者によって設定されるボリュームリミット値５７に応じてリミッタコンポーネント６２を制御するために構成される。これらの特徴によって、聴覚障害は、能率的に回避されうる。

聴覚障害を回避するために制限する場合、装置ユーザまたは製造業者は、出力がボリュームリミット信号を使用して制限されなければならない最大ピークのレベル５７を設定しうる。スイッチ５８がこのボリュームリミット機能を起動させるために切り替えられる場合、ミニマム関数５９は、クリッピングの防止のための出力を制限するためか、またはボリューム制限のためにリミッタ５１に関与するために必要とされる２つの出力レベルでより低いものを選択する。スイッチ５８の出力も、その閾値を適正レベルに設定するために、リミッタ５１に入力される。

図５に示される本発明の好ましい実施の形態によれば、制御コンポーネント６３は、ビットストリーム１の音量メタデータ３において送信され、アーティスティックリミッタ閾値７４ａ、アーティスティックリミッタ時間値７４ｂおよび／またはアーティスティックリミッタリリース時間値７４ｃを示す、アーティスティックリミッタパラメータ３２に応じてリミッタコンポーネント６２を制御するために構成される。これらの特徴は、アーティストまたはコンテンツ製作者の創造的な制御に基づくリミッタ装置３０の動作を許容する。以前に議論された音量メタデータ３において含まれるダイナミックレンジ制御値６，７は、１００ｍｓ〜３秒の一般的な時間定数によって行う圧縮ゲインの使用により聴取環境に合わせて調整されうるコンテンツの全体のダイナミックレンジを許容する。厳しい聴取環境において、これらの時間定数を有する音声信号の圧縮は、不快な高いピークのレベルなしに、理解度または楽しみのための十分な音量を有する信号を生成し得ない。消費者が静かな環境の「非クラッシュ」バージョンを聞くことができるように、または、要求される場合に、従来の高圧縮の「クラッシュ」混合だけを生成した音楽作者が「クラッシュ」混合およびより制限および圧縮しない「非クラッシュ」混合の両方を生成するために、本発明の柔軟性を使用することを望むことができるという可能性もある。これらの懸念の両方に対処するために、リミッタ３０は、図５に示されるように、アーティスティックリミッタモードで作動するために再構成されうる。

このモードにおいて、図５における電気に関するバスの表記において示されるように、音量メタデータ３は、コンテンツの音声フレーム毎に送られるアーティスティックリミッタパラメータ３２を含む。スイッチ１２によって選択された、軽モードおよび重モードのための、リミッタアタック時間、リリース時間、および閾値が、３２に含まれ、そして、それは、出力バス７４に、それに応じて連動スイッチ７３によって選択される。バス７４は、加算器７１によってデコーダゲイン調整３３と加算される選択されたアーティスティックリミッタ閾値７４ａ、およびリミッタ５１に直接的に供給される所望のアタックおよびリリース時間７４ｂおよび７４ｃを含む。ミニマム関数７２は、ボリュームリミット５７（もしくは、ボリュームリミットが使用されない場合は、０ｄＢＦＳ）または、加算器７１の出力を選択するために使用される。この方法において、ボリューム制御２０は、ボリュームリミットがリミッタ閾値の最大レベルに到達し、制限するポイントに増加されるまで、通常、リミッタ５１は、値７４ａによって制御される閾値において作動する。このモードにおいて、リミッタ５１は、連続的に作動し、そして、スイッチ５２は、常に示される位置である。これらのパラメータのアーティスティックな使用は、装置の出力のモニタリング、音声ソフトウェアのプラグイン、またはミキシング、マスタリング、もしくは他のクリエイタあるいは分配業務の間の発明のコピーを含む他の装置によって達成されうる。

本発明の好ましい実施の形態によれば、前述の軽度の動機を取り除くように、人工的にその音量を増加させるために、リミッタ装置３０の後、メイクアップ−ゲインを適用する可能性がない。

本発明の好ましい実施の形態によれば、制御コンポーネント６３は、継続的にまたは繰り返し、リミッタコンポーネント６２を制御するために構成される。これらの特徴は、時間とともにリミッタコンポーネント６２の可変制御を許容する。

本発明の好ましい実施の形態によれば、リミッタ装置３０は、ゲインまたは遅延に関して、リミッタ５１の伝達関数に類似の伝達関数を有するバイパス装置５３を経由して、リミッタ５１をバイパスするために構成される。これらの特徴によって、信号処理器２７の作業負荷は、著しく低減されうる。

このプロセスは、コンピュータの命令のシリーズとしてのソフトウェア、またはハードウェエアコンポーネントにおいて実装されうるように、これらの当業者によって理解されうる。ここで記載されている動作は、コンピュータＣＰＵ、またはデジタル信号プロセッサによるソフトウェア命令として一般的に実行され、そして、図において示されるレジスタおよびオペレータは、対応するコンピュータ命令によって実装されうる。しかしながら、これは、ハードウェアコンポーネントを使用している等価なハードウェア設計における実施の態様を除外しない。また、標準的な実行であって、参照された標準において明記されるような、値４，６，７，２０，３３，３６，５７，７４ａ、その他が、一般的に、対数的にスケールされた領域において表現されることは、当業者によってよく理解されている。さらに、本発明の動作は、ここで、シーケンシャルに基本の方法で示される。特定のハードウェア、またはソフトウェアのプラットフォームに実装される場合、効率を最適化するために、動作は、結合されるか、変換されるか、または事前に計算されるかについては、当業者によってよく理解されている。また、これらの動作が、時間領域データにおいて実行されるか、あるいは、周波数領域において、１つ以上の周波数帯において実行されうることが理解されよう。

改良されたデコーダ装置４１の創出において、本発明のどこか他のところと同様に、数値表現、レジスタ長、または、音声デコーダ９から乗算器１３および１５並びに任意のリミッタ装置３０を通って音声出力信号４２への信号パスにおける内部飽和、クリッピングもしくはオーバフローを回避するための他の普段の手段を使用することを必要であることを、これらの当業者は、認識するであろう。

本発明は、たとえば、ＡＡＣ、ＭＰ３またはドルビーデジタルのような損失性音声データ圧縮コーデックにおけるデコーダオーバーシュートによって生成されるクリッピングを制御することの詳細を提示するけれども、無損失性音声コーデック、または全く音声コーデックで圧縮されない音声信号を有する音声システムにおいても使用されうることも、さらに理解されなければならない。

本発明は、以下を提供することができる。

１．前記装置のユーザボリューム制御によって直接、または、間接的に制御される前記出力の音量レベルまたは平均パワーによって、フルスケールの値が、最大のピーク出力電圧または取り込み装置の音圧レベルに一致することを目的としている出力を、音声音量正規化のシステムは、提供する。そうすると、音声音量メタデータを有するコンテンツ、およびそのフルスケールの値に正規化された音声音量メタデータのないコンテンツの両方は、ほとんど同じ音声音量レベルで再生される。

２．音声メタデータのないコンテンツのロングターム平均パワーまたは認められた音量が、コンテンツの経験的であるか統計分析によって測定される一定の値によって推定されるシステム。

３．このように前記メタデータを使用するために、動機を提供し、評価がメタデータを用意されてそのコンテンツよりわずかに低い音量でメタデータのない一般的なコンテンツを再生するために適切にバイアスをかけるシステム。

４．デコーダオーバーシュートにおけるクリッピングを防止する目的ために制限するピークの必要が、圧縮音声デコーダのターゲットレベルおよび音声コーデック圧縮効率またはビットレートの計算された関数によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化のためのシステム。

５．デコーダオーバーシュートにおけるクリッピングを防止する目的のために制限するピークの必要が、圧縮音声デコーダのターゲットレベル、音声コーデック圧縮効率またはビットレートの計算された機能、および圧縮されたビットストリームにおいて送信された音声プログラムの最大のピークレベルを示すメタデータ値によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化のためのシステム。

６．装置の最大のピーク音声出力を制限する目的のための制限するピークの必要が、圧縮音声デコーダのターゲットレベルによって決定される出力ピークリミッタを含むデータ圧縮音声の復号化のためのシステム。

７．装置の最大のピーク音声出力を制限する目的のための制限するピークの必要が、音声信号に適用されるスケーリングゲインの値によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化または音声処理のためのシステム。

８．装置の最大のピーク音声出力を制限する目的のための制限するピークの必要が、音声信号に適用されるスケーリングゲインの値、および圧縮ビットストリームにおいて送信される音声プログラムの最大のピークレベルを示すメタデータ値によって決定される出力ピークリミッタを含むデータ圧縮音声の復号化または音声処理のためのシステム。

９．制限することが必要でない場合に、リミッタが同程度のゲインおよび遅延を有する関数と置き換えられるシステム。

１０．出力ピークリミッタを含むデータ圧縮音声の復号化または音声処理のためのシステムであって、ピークリミッタ閾値は、周期的な基準における圧縮ビットストリームにおいて送信されるメタデータ値によって制御される。

１１．前記装置のユーザボリューム制御によって直接、または、間接的に制御される前記出力の音量レベルまたは平均パワーによって、フルスケールの値が、最大のピーク出力電圧または取り込み装置の音圧レベルに一致することを目的としている出力を、音声音量正規化のための対応する方法または固定の記憶装置は、提供する。そうすると、音声音量メタデータを有するコンテンツ、およびそのフルスケールの値に正規化された音声音量メタデータのないコンテンツの両方は、ほとんど同じ音声音量レベルで再生される。

いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、ブロックあるいは装置は、方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェアによって（または使用して）実行されうる。いくつかの実施の形態において、最も重要な方法のステップの１つ以上は、この種の装置によって実行されうる。

特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働するか（または、協働することができる）、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体のような持続性の記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはＦＬＡＳＨメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。

本発明による若干の実施の形態は、本願明細書において記載される方法のうちの１つが実行されるように、プログラミング可能なコンピュータシステムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。

通常、本発明の実施の形態は、プログラムコードを有するコンピュータプログラム製品として実施され、コンピュータプログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの１つを実行するために作動される。プログラムコードは、機械可読キャリアに、例えば、格納されうる。

他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータプログラムを含む。

換言すれば、従って、コンピュータプログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータプログラムを含むデータキャリア（または、デジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、一般的には、有形でありおよび／または、暫定的である。

従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。

更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。

更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの１つを実行するためのコンピュータプログラムを有するコンピュータを含む。

本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの１つを実行するためのコンピュータプログラムを（例えば、電子的にまたは光学的に）転送するために構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータプログラムを転送するためのファイルサーバを含む。

いくつかの実施の形態において、プログラミング可能な論理回路（例えば、現場でプログラム可能なゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の１つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。

上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。

１ビットストリーム
２音声データ
３音量メタデータ
４参照音量値
５ダウンミックスゲイン値
６軽ダイナミックレンジ制御値
７重ダイナミックレンジ制御値
８音声信号
９音声デコーダ装置
１０参照音量デコーダ
１１ダウンミックスゲインデコーダ
１２ダイナミックレンジ制御スイッチ
１３ダイナミックレンジ処理器
１４ダイナミックレンジ計算機
１５音量処理器
１６ゲイン計算機
１７静的ターゲットレベルプロバイダ
１８音声出力信号
１９混合音声信号
２０ボリューム制御値
２１デコーダ装置
２２補助音声信号
２３音声信号ミキサ
２４補助音声信号を調整した音量
２５圧縮制御値
２６信号処理器
２７信号処理器
２８ゲイン計算機
２９混合音声信号
３０リミッタ装置
３１音量値
３２アーティスティックリミッタパラメータ
３３ゲイン値
３４ビットレート値
３５処理された音声信号
３６真のピークの値
３７音量値
４１デコーダ装置
４２音声出力信号
４３プリセットのダイナミックレンジ制御値
４４ダイナミックレンジ値
５１リミッタ
５２リミッタスイッチ
５３バイパス装置
５４クリッピング予測装置
５５比較器
５６クリッピング予測機能
５７ボリュームリミット値
５８ボリュームリミットスイッチ
５９ミニマムファインダ
６０真のピークの値スイッチ
６１コンバイナ
６２リミッタ成分
６３制御構成要素
７１コンバイナ
７２ミニマムファインダ
７３ダイナミックレンジ制御スイッチ
７４ダイナミックレンジ制御スイッチの出力データ
７０ａアーティスティックリミッタ閾値
７０ｂアーティスティックリミッタアタック時間値
７０ｃアーティスティックリミッタリリース時間値

Claims

音声出力信号（４２）を生成するためにビットストリーム（１）を復号化するためのデコーダ装置であって、前記ビットストリーム（１）は、音声データ（２）および任意の方法で参照音量値（４）を含む音量メタデータ（３）から構成され、前記デコーダ装置は、
前記音声データ（２）から音声信号（８）を再構成するために構成される音声デコーダ装置（９）と、
前記音声信号（８）に基づく前記音声出力信号（４２）を生成するために構成される信号処理器（２７）と、
を含み、
ここで、前記信号処理器（２７）は、前記音声出力信号（４２）の音量レベルを調整するために構成されるゲイン制御装置（１０，１５，２８）を含み、
前記ゲイン制御装置（１０，１５，２８）は、音量値（３７）を創出するために構成される参照音量デコーダ（１０）を含み、前記参照音量値（４）が前記ビットストリーム（１）に存在する場合に、前記音量値（３７）は前記参照音量値（４）であり、
前記ゲイン制御装置（１０，１５，２８）は、前記音量値（３７）と、ユーザが、ボリューム制御値（２０）を制御することを許容するユーザインタフェースによって生成される、前記ボリューム制御値（２０）とに基づくゲイン値（３３）を算出するために構成されるゲイン計算機（２８）を含み、
前記ゲイン制御装置（１０，１５，２８）は、前記ゲイン値（３３）に基づく前記音声出力信号（４２）の前記音量レベルを制御するために構成される音量処理器（１５）を含む、デコーダ装置。
前記参照音量値（４）が前記ビットストリーム（１）に存在しない場合に、前記音量値（３３）はプリセットの音量値である、請求項１に記載のデコーダ装置。
前記プリセットの音量値は、フルスケールの振幅に参照された、−４ｄＢおよび−１０ｄＢの間、特に、−６ｄＢおよび−８ｄＢの間の値に設定される、請求項１または請求項２に記載のデコーダ装置。
前記信号処理器（２７）は、前記音声出力信号（４２）のダイナミックレンジを調整するために構成されるダイナミックレンジ制御装置（１２，１３，１４）を含み、
ここで、前記ダイナミックレンジ制御装置（１２，１３，１４）は、前記音量メタデータ（３）から少なくとも１つのダイナミックレンジ制御値（６，７）を導出し、前記導出されたダイナミックレンジ制御値（６，７）またはプリセットのダイナミックレンジ制御値（４３）のうちの１つを、選択的に出力するために構成されるダイナミックレンジ制御スイッチ（１２）を含み、
前記ダイナミックレンジ制御装置（１２，１３，１４）は、前記ダイナミックレンジ制御スイッチ（１２）によって出力された前記ダイナミックレンジ制御値（６，７，４３）と、ユーザが、圧縮制御値（２５）を制御することを許容するユーザインタフェースによって生成される、圧縮制御値（２５）とに基づくダイナミックレンジ値（４４）を算出するために構成されるダイナミックレンジ計算機（１４）を含み、
前記ダイナミックレンジ制御装置（１２，１３，１４）は、前記ダイナミックレンジ値（４４）に基づく前記音声出力信号（４２）の前記ダイナミックレンジを制御するために構成されるダイナミックレンジ処理器（１３）を含む、請求項１ないし請求項３のいずれかに記載のデコーダ装置。
前記信号処理器（２７）は、前記出力音声信号（４２）の振幅を制限するために構成されるリミッタ装置（３０）を含み、ここで、前記リミッタ装置（３０）は、リミッタ（５１）を有するリミッタコンポーネント（６２）と、前記リミッタコンポーネント（６２）を制御するために構成される制御コンポーネント（６３）とを含み、前記ゲイン制御装置（１０，１５，２８）によって少なくとも処理されることによって前記音声信号（８）から導出される処理された音声信号（３５）は、前記リミッタコンポーネント（６２）に入力され、前記音声出力信号（４２）は、前記リミッタコンポーネント（６２）から出力される、請求項１ないし請求項４のいずれかに記載のデコーダ装置。
前記制御コンポーネント（６３）は、前記ビットストリーム（１）のビットレートに応じて前記リミッタコンポーネント（６２）を制御するために構成される、請求項５に記載のデコーダ装置。
前記制御コンポーネント（６３）は、前記音声デコーダ装置（９）の圧縮効率に応じて前記リミッタコンポーネント（６２）を制御するために構成される、請求項５または請求項６に記載のデコーダ装置。
前記制御コンポーネント（６３）は、前記ビットストリーム（１）の前記音量メタデータ（３）において送信され、そして外部のエンコーダによって前記ビットストリーム（１）に変換される音声ソースの最大のピークのレベルを示す、真のピーク値（３６）に応じて前記リミッタコンポーネント（６２）を制御するために構成される、請求項５ないし請求項７のいずれかに記載のデコーダ装置。
前記制御コンポーネント（６３）は、前記ゲイン制御装置（１０，１５，２８）の前記ゲイン値（３３）に応じて前記リミッタコンポーネント（６２）を制御するために構成される、請求項５ないし請求項８のいずれかに記載のデコーダ装置。
前記制御コンポーネント（６３）は、聴覚障害を防止するために、ユーザまたは製造業者によって設定されるボリュームリミット値（５７）に応じて前記リミッタコンポーネント（６２）を制御するために構成される、請求項５ないし請求項９のいずれかに記載のデコーダ装置。
前記制御コンポーネント（６３）は、前記ビットストリーム（１）の前記音量メタデータ（３）において送信され、そして、アーティスティックリミッタ閾値（７４ａ）、アーティスティックリミッタアタック時間値（７４ｂ）および／またはアーティスティックリミッタリリース時間値（７４ｃ）を示す、アーティスティックリミッタパラメータ（３２）に応じて前記リミッタコンポーネント（６２）を制御するために構成される、請求項５ないし請求項１０のいずれかに記載のデコーダ装置。
前記制御コンポーネント（６３）は、継続的にまたは繰り返し、前記リミッタコンポーネント（６２）を制御するために構成される、請求項５ないし請求項１１のいずれかに記載のデコーダ装置。
前記リミッタ装置（３０）は、ゲインまたは遅延に関して、リミッタ（５１）の伝達関数に類似の伝達関数を有するバイパス装置（５３）を経由して、前記リミッタ（５１）をバイパスするために構成される、請求項５ないし請求項１２のいずれかに記載のデコーダ装置。
システムは、デコーダ装置（４１）およびエンコーダを備え、前記デコーダ装置（４１）は、請求項１ないし請求項１３のうちの１つにより設計される、システム。
音声出力信号（４２）を生成するためにビットストリーム（１）を復号化する方法であって、前記ビットストリーム（１）は、音声データ（２）および任意の方法で参照音量値（４）を含む音量メタデータ（３）から構成され、前記方法は、
音声デコーダ装置（９）を用いて前記音声データ（２）から音声信号（８）を再構成するステップと、
信号処理器（２７）を用いて前記音声信号（８）に基づく前記音声出力信号（４２）を生成するステップと、
を含み、
ここで、前記音声出力信号（４２）の音量レベルは、前記信号処理器（２７）に含まれるゲイン制御装置（１０，１５，２８）を使用して調整され、
前記音量値（３７）は、前記ゲイン制御装置（１０，１５，２８）に含まれる参照音量デコーダ（１０）によって創出され、前記参照音量値（４）が前記ビットストリームに存在する場合に、前記音量値（３７）は前記参照音量値（４）であり、
ゲイン値（３３）は、前記ゲイン制御装置（１０，１５，２８）に含まれるゲイン計算機（２８）によって、音量値（３７）と、ユーザが、ボリューム制御値（２０）を制御することを許容するユーザインタフェースによって生成される、前記ボリューム制御値（２０）とに基づき算出され、
前記音声出力信号（４２）の前記音量レベルは、前記ゲイン制御装置（１０，１５，２８）に含まれる音量処理器（１５）によって前記ゲイン値（３３）に基づき制御される、復号化する方法。
プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項１５の方法を実行する、前記プログラムコードを有するコンピュータプログラム。