JP2018151639A - オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念 - Google Patents

オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念 Download PDF

Info

Publication number
JP2018151639A
JP2018151639A JP2018077152A JP2018077152A JP2018151639A JP 2018151639 A JP2018151639 A JP 2018151639A JP 2018077152 A JP2018077152 A JP 2018077152A JP 2018077152 A JP2018077152 A JP 2018077152A JP 2018151639 A JP2018151639 A JP 2018151639A
Authority
JP
Japan
Prior art keywords
audio
dynamic range
range control
metadata
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018077152A
Other languages
English (en)
Other versions
JP6768735B2 (ja
Inventor
ファビアン キュッヒ
Fabian Kuch
ファビアン キュッヒ
クリスティアン ウーレ
Christian Uhle
クリスティアン ウーレ
ミヒャエル クラッシュマー
Michael Kratschmer
ミヒャエル クラッシュマー
ベルンハルト ノイゲバウアー
Neugebauer Bernhard
ベルンハルト ノイゲバウアー
ミヒャエル マイアー
Michael Meier
ミヒャエル マイアー
アルネ ボーサム
Borsum Arne
アルネ ボーサム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of JP2018151639A publication Critical patent/JP2018151639A/ja
Application granted granted Critical
Publication of JP6768735B2 publication Critical patent/JP6768735B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G11/00Limiting amplitude; Limiting rate of change of amplitude ; Clipping in general
    • H03G11/008Limiting amplitude; Limiting rate of change of amplitude ; Clipping in general of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals

Abstract

【課題】オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念を提供する。【解決手段】オーディオデコーダ3は、オーディオビットストリームから導出された復号化オーディオ信号を受信するように、かつ、オーディオ信号の特性を調整するように、構成されるオーディオ処理チェーン4を有する。オーディオ処理チェーンは、オーディオ出力信号のダイナミックレンジを調整するためのダイナミックレンジ制御ステージおよびオーディオ出力信号のクリッピングを防止するための誘導クリッピング防止ステージを含む複数の調整ステージを有する。また、メタデータデコーダを具備し、ダイナミックレンジ制御ゲインシーケンスの少なくとも一部は、ダイナミックレンジ制御ステージに供給され、かつ、誘導クリッピング防止ゲインシーケンスの少なくとも一部は、誘導クリッピング防止ステージに供給される。【選択図】図2

Description

本願発明は、オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念に関する。特に、本願発明は、オーディオエンコーダ、オーディオエンコーダを操作するための方法、オーディオエンコーダを操作するための方法を実行するためのコンピュータプログラム、オーディオデコーダ、オーディオデコーダを操作する方法、および、オーディオデコーダを操作する方法を実行するためのコンピュータプログラムに関する。
本願発明は、1つ以上のオーディオチャンネルおよび/または1つ以上のオーディオオブジェクトを含むオーディオビットストリームを生成するためのオーディオエンコーダを提供し、オーディオエンコーダは、メタデータビットストリームを生成するためのメタデータエンコーダを具備し、オーディオエンコーダは、:
一つのオーディオフレームのために少なくとも一つのダイナミックレンジ制御ゲインシーケンスを受信するように、但し、ダイナミックレンジ制御ゲインシーケンスは、オーディオデコーダのダイナミックレンジ制御ステージのために1つ以上のダイナミックレンジ制御ゲインを含み;
オーディオフレームのための少なくとも一つの誘導クリッピング防止ゲインシーケンスを受信するように、但し、誘導クリッピング防止ゲインシーケンスは、オーディオデコーダの誘導クリッピング防止ステージのために一つ以上の誘導クリッピング防止ゲインを含み;
少なくとも一つのダイナミックレンジ制御ゲインシーケンスおよび少なくとも一つの誘導クリッピング防止ゲインシーケンスを、メタデータビットストリームに含めるように構成されている。
発明の概念は、いくつかの処理ブロックの組合せに基づき、それはダイナミックレンジ圧縮(DRC)のための、および、誘導クリッピング防止(gCP)のための、共同ソリューションの必要な機能を一緒に提供する。
発明の概念は、例えば[M30100、M30101]の中で定義されたように、関連した構成情報がエンコーダおよびデコーダですでに利用できるオーディオシステムに特に適している。この情報は、例えば、ファイルベース伝送のためのヘッダにおいて、または、音声音響統合符号化(USAC)構成拡張において含まれ得る。構成情報は、チャンネルレイアウト、ダウンミックス命令(例えばダウンミックス係数)、ダイナミックレンジ制御命令(例えば適用されたダイナミックレンジ制御特性、トラックのためのダイナミックレンジ制御ゲインシーケンスの個数)、および音量情報(例えばプログラム音量、アンカー音量、正確なピーク値)を含み得る。より多くの詳細は、[M30100、M30101]中で見出され得る。同じことは、対応する誘導クリッピング防止命令に当てはまる。それは、ダイナミックレンジ制御命令ボックスの情報として同様に扱われ得る。
本願発明によるオーディオエンコーダは、オーディオデコーダの誘導クリッピング防止ステージのための誘導クリッピング防止ゲインシーケンスと同様に、オーディオデコーダのダイナミックレンジ制御ステージのためのダイナミックレンジ制御ゲインシーケンスを含むメタデータビットストリームを生成し得る。そこにおいて、ダイナミックレンジ制御ゲインシーケンスは、誘導クリッピング防止ゲインシーケンスから別に送信され得る。
メタデータエンコーダは、入力として、例えばコンテンツプロバイダによって操作される外部ツールによって、外部から供給される、ダイナミックレンジ制御ゲインシーケンスを使用する。
ダイナミックレンジ制御ゲインの可能な時間分解能は、2、3のサンプルの範囲でもよい。ダイナミックレンジ制御ゲイン値は、通常、0.125dBまでの充分な分解能によって表され得る。
さらに、メタデータエンコーダは、入力として誘導クリッピング防止ゲインシーケンスを受け取る。
圧縮ダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスは、音声音響統合符号化拡張ペイロードに含まれるサイド情報として、レシーバに送信され得る。
ダイナミックレンジ制御ゲインシーケンスがダイナミックレンジ圧縮を実行するためにダイナミックレンジ制御ゲインを含まなければならないだけの点に留意する必要があるが、クリッピング防止のための誘導クリッピング防止ゲインは、誘導クリッピング防止ゲインシーケンスによって適合される。
誘導クリッピング防止ゲインの時間分解能は、ダイナミックレンジ制御ゲインに関しては同じでもよい。
デコーダ側の信号クリッピングは、例えば音量正規化、ダウンミックス、パラメータ符号化ツール、などにより発生し得る。
クリッピング防止は、従来技術によれば、デコーダ処理チェーンの最終端にピークリミッタを配置することによって達成され得る。ピークリミッタは、定義済みの最大値を上回る入力信号におけるオーディオサンプルを検出し、出力信号のサンプルが定義された最大値以下に常にとどまるように、レベル低減をそれぞれの信号部分に適用する。すなわち、可聴歪を防止するために、レベル低減が段階的に実行され、信号に適用されるゲイン係数は、時間とともにゆっくり変化し得るだけである。それはゲイン平滑化フィルタによって保証される。ゲイン係数を適用する前の入力信号の先読み遅延は、突然の信号ピークの前にすでに始まっているゲインの平滑低減を考慮に入れるためにも使用される。デコーダ側ピークリミッタが、通常、エンコーダ側(コンテンツ制作者は、ピークリミッタ処理に影響を及ぼさない)から制御されないので、それはオーディオ信号に直接適用される非誘導クリッピング防止ゲインシーケンスを生じる。デコーダ側ピークリミッタは、デコーダ側で常に更なる先読み遅延(約5ms以上)および計算量を生じる。
それとは対照的に、発明により使用されるように、誘導クリッピング防止ゲインシーケンスは、エンコーダ側(必要に応じて、コンテンツ制作者は、ゲイン特性に影響を及ぼし得る)でクリッピング防止ゲインの生成を充分制御し得る。生成後、クリッピング防止ゲインシーケンスは、デコーダ側に送信される。現在のデコーダ構成のために適切な誘導クリッピング防止ゲインシーケンスがメタデータビットストリームにおいて利用し得る場合、デコーダ側ピークリミッタは、ほとんどの場合回避され得る。このように、デコーダ側の更なる先読み遅延および計算量は、回避され得る。
誘導クリッピング防止ゲインシーケンスは、さまざまなデコーダ構成等のために、例えば特定の目標音量レベルのために、または、特定のダウンミックス構成のために、送信され得る。デコーダ構成が適合する場合、適切な誘導クリッピング防止ゲインシーケンスは、デコーダ出力信号に適用され得る。多くの場合、誘導クリッピング防止ゲインシーケンスは、マッチしない目標音量レベル(信号ヘッドルームが、可能な限り使用される)に合致するために、任意にスケーリングされ得る。
誘導クリッピング防止ゲインシーケンスは、サンプルクリッピングが特定の目標レベルおよびダウンミックス/フォーマットコンバータ構成のためのオーディオデコーダの出力で発生しないことを保証するために使用される。各誘導クリッピング防止ゲインシーケンスは、特定のダウンミックス/フォーマットコンバータ構成、特定の目標レベルおよびオブジェクトのための特定のダイナミックレンジ制御ゲインシーケンスと共に、チャンネルのための特定のダイナミックレンジ制御ゲインシーケンスの組合せのために最適化され得る。誘導クリッピング防止ゲインシーケンスがどのダイナミックレンジ制御ゲインシーケンスに関連するかについての情報が、音声音響統合符号化構成拡張のファイルヘッダに含まれる誘導クリッピング防止命令に含まれ得る。それは、誘導クリッピング防止ゲインがエンコーダで決定された目標レベルに関連した情報を含み得る。
上記で記載されているダイナミックレンジ処理のための発明の概念は、全ての処理チェーンのエンコーダ側制御へのアプローチを表す。ダイナミックレンジ制御および誘導クリッピング防止のために使用するメタデータの分離は、ゲインの各々の別々の変更形態(スケーリングまたはマッピング)を可能にし、変更形態は、デコーダ構成および再生シナリオに依存する。
ダイナミックレンジ制御ゲインが誘導クリッピング防止ゲインから別に送信される場合、発明の概念については、高圧縮から低圧縮までダイナミックレンジ制御ゲインシーケンスの基礎をなすダイナミックレンジ制御特性を変更し得る。これは、ダイナミックレンジ制御ゲインシーケンスの値の適当なスケーリングまたはマッピングによって達成され得る。
発明の概念は、所与の品質要件を満たすために、オーディオデコーダの最終的な出力のコンテンツプロバイダの充分な制御を可能にする。この場合、ダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスの双方は、最も重要であると考慮される特定のデコーダ構成のために含まれ得る。ピークリミッタは、ダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスの併用のために、多くの場合廃止され得る。オーディオデコーダ側で誘導クリッピング防止は、誘導クリッピング防止ゲインを単に適用することにより達成され、ピークリミッタを使用することより計算的により効率的である点に注意されなければならない。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なるダイナミックレンジ制御ゲインを含む同じオーディオフレームのための少なくとも2つのダイナミックレンジ制御ゲインシーケンスを受信するように、かつ、異なるダイナミックレンジ制御ゲインを含む少なくとも2つのダイナミックレンジ制御ゲインシーケンスをメタデータビットストリームに含めるように、構成される。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張において、ファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
これらの特徴によって、異なる圧縮特性を有するデコーダで出力信号を可能にするために複数のダイナミックレンジ制御ゲインシーケンスをオーディオトラックのチャンネルに供給し得る。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なるオーディオチャンネルおよび/または異なるオーディオオブジェクトに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスを受信するように構成され、メタデータエンコーダは、異なるオーディオチャンネルおよび/または異なるオーディオオブジェクトに関連した少なくとも2つのダイナミックレンジ制御ゲイン、および任意にはオーディオチャンネルおよび/またはオーディオオブジェクトに対するダイナミックレンジ制御ゲインの関係をメタデータビットストリームに含めるように構成されている。
各ダイナミックレンジ制御シーケンスの中で、異なるチャンネルまたはチャンネル群のための異なるダイナミックレンジ制御ゲインの一組を定義し得て、各チャンネルは、通常は正確に1つのチャンネル群と関連している。例えば、マルチチャンネル映画音声において、特定のダイナミックレンジ制御ゲインをせりふチャンネルに適用することがしばしば望まれる。例えば、左前方の、右前方の、左後方の、右後方のような残りのチャンネルは、例えば、異なるダイナミックレンジ制御ゲインを用いて処理され得る。
チャンネルの場合から類推して、オーディオオブジェクトまたはオブジェクト群と関連している複数のダイナミックレンジ制御シーケンスが、サポートされ得る。これらのオブジェクト関連のダイナミックレンジ制御シーケンスは、ダイナミックレンジ制御ゲインのチャンネル関連の一組の中で特定のチャンネル群と関連していると考えられ得る。用語オーディオオブジェクトは、例えばドアベル等の単一源音に関連する。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張において、ファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
本願発明の好ましい実施例によれば、メタデータエンコーダは、オーディオデコーダの異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスを受信するように構成され、メタデータエンコーダは、デコーダの異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲイン、および任意には、デコーダの周波数帯域に対するダイナミックレンジ制御ゲインの関係をメタデータビットストリームに含めるように構成されている。
マルチバンドダイナミックレンジ制御をサポートしている任意の拡張において、メタデータエンコーダは、また、異なる周波数帯域のための異なるダイナミックレンジ制御ゲインを有するダイナミックレンジ制御ゲインシーケンスもまた入力として受け入れるために拡張され得る。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張において、ファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンスを受信し、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンスをメタデータビットストリームに含めるように構成されている。本願発明の好ましい実施例によれば、各ダイナミックレンジ制御シーケンスは、誘導クリッピング防止ゲインシーケンスの1つに関連し、メタデータエンコーダは、ダイナミックレンジ制御シーケンスおよび誘導クリッピング防止ゲインシーケンスの間の関係をメタデータビットストリームに含めるように構成されている。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なるオーディオチャンネルおよび/または異なるオーディオオブジェクトに関連した少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンスを受信するように構成されており、メタデータエンコーダは、異なるオーディオチャンネルおよび/または異なるオーディオオブジェクトに関連した少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止シーケンス、および任意には、オーディオチャンネルおよび/またはオーディオオブジェクトに対する誘導クリッピング防止ゲインの関係をメタデータビットストリームに含めるように構成されている。
ダイナミックレンジ制御ゲインと同様に、各誘導クリッピング防止シーケンスの中で異なるチャンネルまたはチャンネル群への異なる誘導クリッピング防止ゲインの一組を定義し得る。ここで、各チャンネルは、通常正確に1つのチャンネル群と関連している。典型的動作モードにおいて、同じ誘導クリッピング防止ゲインは、すべてのチャンネルに適用される。
オブジェクトのための誘導クリッピング防止ゲインシーケンスの定義は、ダイナミックレンジ制御の場合に類似している。
別の態様においては、本願発明は、一つ以上のオーディオチャンネルおよび/または一つ以上のオーディオオブジェクトを含むオーディオビットストリームを生成するためのオーディオエンコーダを操作するための方法を提供する。そして、オーディオエンコーダは、メタデータビットストリームを生成するためのメタデータエンコーダを具備し、その方法は、次のステップを含む。
メタデータエンコーダ側で、オーディオデコーダのダイナミックレンジ制御ステージのための一つ以上のダイナミックレンジ制御ゲインを含む少なくとも一つのダイナミックレンジ制御ゲインシーケンスを受信すること;
メタデータエンコーダ側で、オーディオデコーダの誘導クリッピング防止ステージのための一つ以上の誘導クリッピング防止ゲインを含む少なくとも一つの誘導クリッピング防止ゲインシーケンスを受信すること;
および、
メタデータエンコーダ側で、少なくとも一つのダイナミックレンジ制御ゲインシーケンスおよび少なくとも一つの誘導クリッピング防止ゲインシーケンスをメタデータビットストリームに含めること。
コンピュータまたはプロセッサで動くときに、更なる態様において、本願発明は、前述の方法を実行するためのコンピュータプログラムを提供する。
更なる態様において、本願発明は、オーディオビットストリームおよびオーディオビットストリームに関連したメタデータビットストリームを復号化するためのオーディオデコーダを提供し、それらは、本願発明によるオーディオエンコーダにより特に生成され、オーディオデコーダは、以下を具備する:
オーディオビットストリームから導出される復号化オーディオ信号を受信するように、かつオーディオ処理チェーンのオーディオ出力信号の特性を調整するように構成されるオーディオ処理チェーン、但し、オーディオ処理チェーンは、オーディオ出力信号のダイナミックレンジを調整するためにダイナミックレンジ制御ステージを含む複数の調整ステージおよびオーディオ出力信号のクリッピングを防止するための誘導クリッピング防止ステージを有する;
かつ、
メタデータビットストリームを受信するように、かつメタデータビットストリームからダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスを抽出するように構成されるメタデータデコーダ、但しダイナミックレンジ制御ゲインシーケンスの少なくとも一部分は、ダイナミックレンジ制御ステージに供給され、かつ誘導クリッピング防止ゲインシーケンスの少なくとも一部分は、誘導クリッピング防止ステージに供給される。
メタデータデコーダは、例えば音声音響統合符号化デコーダから、圧縮ダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスを含むメタデータビットストリームを受信する。
メタデータデコーダは、圧縮メタデータビットストリームから所望のダイナミックレンジ制御ゲインシーケンスを生成する。加えて、結果として生じるダイナミックレンジ制御ゲインのスケーリングまたはマッピングが、適用され得る。
メタデータデコーダは、圧縮された誘導クリッピング防止メタデータを含むビットストリームから、所望の誘導クリッピング防止ゲインシーケンスを付加的に生成する。誘導クリッピング防止ゲインのスケーリングまたはマッピングが、適用され得る。オーディオデコーダ目標レベルがオーディオエンコーダで誘導クリッピング防止ゲインシーケンスを決定するために使用された目標レベルより低い場合、これは特に役立つ。それから、誘導クリッピング防止ゲインのマッピングは可能である。そして、それはまだクリッピングがオーディオデコーダ出力信号で発生しないことを保証すると共に、最適に信号ヘッドルームを復元する。
ダイナミックレンジ制御ステージは、メタデータデコーダから、直接、または、間接的に、オーディオフレームごとに非圧縮の、および任意には、スケーリングあるいはマッッピングされたダイナミックレンジ制御ゲインシーケンスを受信する。メタデータデコーダも、最終的な時間領域ダイナミックレンジ制御ゲイン値がオーディオサンプルの時間分解能に対応する時間分解能によって挿入されることを保証し得る。これら最終的なダイナミックレンジ制御ゲインは、それから復号化オーディオ信号に適用され、ここで、正しいチャンネルまたはオブジェクト群に対する特定のダイナミックレンジ制御シーケンスの割当てが観察される。
誘導クリッピング防止ステージは、メタデータデコーダから、直接または間接的に、オーディオフレームごとに非圧縮の、および任意にはスケーリングあるいはマッピングされた誘導クリッピング防止ゲインシーケンスを受信する。メタデータデコーダも、最終的な時間領域の誘導クリッピング防止ゲイン値がオーディオサンプルの時間分解能に対応する時間分解能によって挿入されることを保証し得る。これら最終的な誘導クリッピング防止ゲインは、それから復号化オーディオ信号に適用され、ここで、正しいチャンネル群に対する特定の誘導クリッピング防止シーケンスの割当てが観察される。
エンコーダ側で全ての処理チェーンの制御を残すと共に、本願発明はオーディオデコーダ側で柔軟性を提供する。ダイナミックレンジ制御および誘導クリッピング防止のために使用するメタデータの分離は、ゲインの各々の別々の変更形態(スケーリングまたはマッピング)を考慮に入れ、変更形態は、オーディオデコーダ構成および再生シナリオに依存する。
ダイナミックレンジ制御ゲインが誘導クリッピング防止ゲインから別に送信される場合、本願発明は、高圧縮から低圧縮までダイナミックレンジ制御ゲインシーケンスの基礎をなすダイナミックレンジ制御特性を変えることを可能にする。これは、ダイナミックレンジ制御ゲインシーケンスの値の適当なスケーリングまたはマッピングによって達成され得る。
デコーダ目標レベルが、エンコーダで誘導クリッピング防止のためのゲインを計算するために使用する目標レベルより低い場合には、信号ピークの減少した減衰は、誘導クリッピング防止ゲインを適切にスケーリングすることによってデコーダで可能となる。それから、強い信号ピークのレベルは、変更されていない態様において誘導クリッピング防止ゲインを適用する場合と比較して、維持され得るかまたは少なくとも増加され得て、それは利用できるヘッドルームが保存され得ることを意味する。
本願発明の好ましい実施例によれば、メタデータデコーダは、メタデータビットストリームから、異なるダイナミックレンジ制御ゲインを含む同じオーディオフレームのための少なくとも2つのダイナミックレンジ制御ゲインシーケンスを抽出するように構成される。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張において、ファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
これらの特徴によって、異なる圧縮特性を有するデコーダで出力信号を可能にするために複数のダイナミックレンジ制御ゲインシーケンスをオーディオトラックのチャンネルに提供することは、可能である。
本願発明の好ましい実施例によれば、メタデータデコーダは、メタデータビットストリームから異なるオーディオチャンネルにおよび/または異なるオーディオオブジェクトに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスを抽出するように構成される。
各ダイナミックレンジ制御シーケンスの中で、異なるチャンネルまたはチャンネル群のための異なるダイナミックレンジ制御ゲインの一組を定義し得て、各チャンネルが通常正確に1つのチャンネル群と関連している。例えば、マルチチャンネル映画音声において、特定のダイナミックレンジ制御ゲインをせりふチャンネルに適用することがしばしば望まれる。左前方側の、右前方側の、左後方側の、右後方側のような残りのチャンネルは、例えば、異なるダイナミックレンジ制御ゲインを用いて処理され得る。
チャンネルの場合との類似によって、オーディオオブジェクトまたはグループ群と関連している複数のダイナミックレンジ制御シーケンスが、サポートされ得る。これらオブジェクト関連のダイナミックレンジ制御シーケンスは、ダイナミックレンジ制御ゲインのチャンネル関連の一組の中で特定のチャンネル群と関連しているとしても考えられ得る。本願明細書において、用語オーディオオブジェクトは、例えばドアベルのような単一源音に関連している。
本願発明の好ましい実施例によれば、メタデータデコーダは、メタデータビットストリームから、オーディオデコーダの異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスを抽出するように構成される。
マルチバンドダイナミックレンジ制御をサポートしている任意の拡張において、メタデータデコーダは、また、異なる周波数帯域のための異なるダイナミックレンジ制御ゲインを有するダイナミックレンジ制御ゲインシーケンスを入力として受入れるためにも拡張され得る。
マルチバンドダイナミックレンジ制御拡張の場合には、時間領域オーディオ信号は、マルチバンドダイナミックレンジ制御ゲインを適用する前に、適当な周波数領域表現に変換されなければならない。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張において、ファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
本願発明の好ましい実施例によれば、メタデータデコーダは、メタデータビットストリームから、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインを抽出するように構成される。
これらの特徴によって、対応するダイナミックレンジ制御ゲインシーケンスに適合するために、複数の誘導クリッピング防止ゲインシーケンスをオーディオトラックのために提供し得る。
本願発明の好ましい実施例によれば、メタデータデコーダは、異なるオーディオチャンネルおよび/または異なるオーディオオブジェクトに関連する少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンスをメタデータビットストリームから抽出するように構成される。
ダイナミックレンジ制御ゲインと同様に、各誘導クリッピング防止シーケンスの中で異なるチャンネルまたはチャンネル群のために、異なる誘導クリッピング防止ゲインの一組を定義し得る。ここで、各チャンネルは、通常正確に1つのチャンネル群と関連している。典型的動作モードにおいて、同じ誘導クリッピング防止ゲインは、すべてのチャンネルに適用される。
オブジェクトのための誘導クリッピング防止ゲインシーケンスの定義は、ダイナミックレンジ制御の場合に類似している。
本願発明の好ましい実施例によれば、オーディオデコーダは、構成提供ステージから受信した構成情報に基づく調整ステージの少なくとも1つにメタデータおよびパラメータを提供するように構成されたメタデータおよびパラメータ制御ステージをさらに含む。
オーディオデコーダにおけるメタデータおよびパラメータ制御ステージは、所望のダイナミックレンジ制御ゲインシーケンスに従ってメタデータビットストリームの正しい部分を選択し得る。スケーリングおよびマッピング情報は、また、デコーダ構成情報の一部または導出したものであり得る。
類推によって、オーディオデコーダにおけるメタデータおよびパラメータ制御ステージは、所望の誘導クリッピング防止ゲインシーケンスに従ってビットストリームの正しい部分を選択する。
本願発明の好ましい実施例によれば、メタデータおよびパラメータ制御ステージは、複数のダイナミックレンジ制御ゲインが受信される場合、複数のダイナミックレンジ制御ゲインシーケンスのいずれがダイナミックレンジ制御ステージに供給されるかを選択するように構成される。メタデータおよびパラメータ制御ステージ側のダイナミックレンジ制御シーケンスの選択は、例えばチャンネルレイアウト、ダウンミックス命令、オブジェクトメタデータ、ダイナミックレンジ制御命令、音量情報およびデコーダ目標レベル等のデコーダ構成情報に基づき得る。
本願発明の好ましい実施例によれば、メタデータおよびパラメータ制御ステージは、複数の誘導クリッピング防止ゲインシーケンスが受信される場合、複数の誘導クリッピング防止ゲインシーケンスのいずれが誘導クリッピング防止ステージに供給されるかを選択するように構成される。
メタデータおよびパラメータ制御ブロック側の誘導クリッピング防止ゲインシーケンスの選択は、通常上述のオーディオデコーダ構成情報に基づく。
本願発明の好ましい実施例によれば、信号伝達方向におけるダイナミックレンジ制御ステージは、オーディオ調整チェーンの第1の調整ステージである。
チャンネルのためのダイナミックレンジ制御処理は、チャンネル群のために異なるゲインを可能にするために、復号化オーディオチャンネルの潜在的ダウンミックスまたはフォーマット変換の前に実行され得る。従って、ダイナミックレンジ制御ゲインは、レンダリングの前にオブジェクトに適用される。―チャンネルおよびオブジェクト―の両者が存在する場合、ダイナミックレンジ制御処理の配置は、同じままである:ダイナミックレンジ制御に関連するチャンネルは、フォーマットコンバータステージの前に直接実行されなければならないのに対し、ダイナミックレンジ制御に関連したオブジェクトは、オブジェクトレンダラーの前に実行される。
本願発明の好ましい実施例によれば、オーディオ調整チェーンは、オーディオ出力信号のチャンネル構成を調整するように構成されるフォーマットコンバータステージを含む。フォーマットコンバータステージ、またはダウンミキサー(DMX)とも呼ばれる、は、オーディオ出力信号のチャンネル構成を再生のために使用するトランスデューサに適合させるように構成される。例えば、フォーマットコンバータステージは、5.1サラウンド信号をステレオ信号に変換し得る。
本願発明の好ましい実施例によれば、オーディオ調整チェーンは、オーディオ出力信号の音量を正規化するように構成される音量正規化ステージを含む。
出力信号が正しい目標音量レベルを有するように、音量正規化ステージは、そのオーディオ入力信号をスケーリングし得る。スケーリング係数は、プログラム参照レベル(PRL)およびデコーダ目標レベル(DTL)の差から導出され、デコーダのメタデータおよびパラメータ制御によって音量正規化ブロックに提供される。プログラム参照レベルは、例えば、ファイルヘッダに含まれる音量情報から得られ得る一方、デコーダ目標レベルは、デコーダ構成パラメータである。複数のプログラム参照レベル値が、音量情報の範囲内で設けられ得る。ここで、各々は、適用されたダイナミックレンジ制御シーケンスおよび/または適用されたダウンミックスの特定の構成に対応する。この場合、所与のオーディオデコーダ構成を考慮すると共に、メタデータおよびパラメータ制御ステージは、正しいプログラム参照レベル値を選択する。音量−処理ステップの配置は、オーディオデコーダの実際の出力構成に依存する。一般に、適用できる場合、音量正規化は、例えばミキサーの後に、または、フォーマット変換の後に、オーディオデコーダの出力チャンネルに関して実行されねばならない。
本願発明の好ましい実施例によれば、オーディオ調整チェーンは、閾値を越えた場合、オーディオ出力信号のピークを制限するように構成されたピークリミッタステージを含む。
本願発明の好ましい実施例によれば、信号伝達方向のピークリミッタステージは、オーディオ調整チェーンの最後の調整ステージである。
典型的なオーディオデコーダのオーディオ処理チェーンにおいて、不可避のサンプルクリッピングの多くの潜在源が、存在し、以下を含む:
・パラメトリック符号化ツール
・バイノーラル処理
・ダウンミキシング、フォーマット変換、レンダリング
・音量正規化(特に高い目標レベルのために)
・デコーダ出力での量子化
例えば時間領域出力信号が浮動小数点から固定小数点パルス符号変調フォーマット(PCMフォーマット)に変換される直前に、ピークリミッタステージは、それ故、オーディオサンプルのいかなる不所望なクリッピングを防止するためにオーディオデコーダの処理チェーンのまさに終端に配置される。これも、以前のセクションに記述されたいかなるダイナミックレンジ制御ステージおよび音量正規化ステージがピークリミッタステージの前に位置することを意味する。MPEG−H 3D Audio[M30324]の文脈において、ピークリミッタステージは、実際の再生構成に応じて、入力として異なる信号を受信する。バイノーラルレンダリングの場合、ヘッドホンのための2つの出力チャンネルは、ピークリミッタステージによって処理され得る。ミキサーの出力チャンネルが直接再生される場合、ピークリミッタステージは、対応するスピーカチャンネルを処理し得る。ミキサー出力チャンネルが最初にフォーマットコンバータによって異なるスピーカ構成(例えばダウンミックス)に変換される場合、同じことが当てはまる。
ピークリミッタステージは、制限する閾値を上回る時間領域信号におけるオーディオサンプルを検出し得て、オーディオ出力信号のサンプルが制限する閾値以下に常にとどまるように、レベル低減をそれぞれの信号部分に適用する。可聴歪みを防止するために、レベル低減は、段階的に実行されなければならない、すなわち、信号に適用されるゲイン係数は、時間とともにゆっくり変化し得るだけである。そして、それはゲイン平滑化フィルタによって確実にされる。リミッタゲイン係数を適用する前のピークリミッタステージの入力信号の先読み遅延は、鋭い信号ピークに達する前に、すでに始まっているゲインの円滑な低減を考慮に入れるためにも使われる。遅延は、与えられた要求に調整され得る。実際的な選択は、5msである。マルチチャンネルオーディオの場合には、一般的なゲイン係数は、計算量を減らすために、すべてのオーディオチャンネルに適用され得る。
デコーダ構成が、クリッピングがオーディオ処理チェーンで起こり得ないことを意味する場合、オーディオ信号(ファイルヘッダの音量情報に含まれ得る)の最大ピークに関する情報は、ピークリミッタステージを廃止するために利用され得る。例えば、オーディオデコーダが浮動小数点精度を有するオーディオサンプルを出力し、かつ、クリッピング防止が再生装置のオーディオチェーンの後の位置で実行される場合、ピークリミッタステージは廃止され得もする。明らかに、所与の再生シナリオのためのデコーダ構成が、正しい誘導クリッピング防止ゲインの応用を許容する場合、ピークリミッタステージは、付加的なコーデックのクリッピングが発生しない場合、使用不能であり得もする。
ピークリミッタは、実際には必須の部品であると考え得る。デコーダのオーディオ処理チェーンの範囲内で、クリッピングの多数のソースが、存在する。特別な構成は、誘導クリッピング防止ゲインシーケンスを提供することによってカバーされ得る。しかしながら、デコーダの柔軟な動作のために、ピークリミッタは、クリッピングが発生しないことを保証するために設けられ得る。
本願発明の好ましい実施例によれば、オーディオ調整チェーンは、オーディオオブジェクトをオーディオ出力信号のチャンネルに混合するように構成されるオブジェクトレンダラーステージを具備する。
本願発明の好ましい実施例によれば、オーディオ調整チェーンは、オーディオ出力信号の特性を、オーディオ出力信号を再生するために使用するトランスデューサシステムに適合させるように構成されるトランスデューサ適合ステージを具備する。
ピークリミッタステージの所要のリミット強度を低減するために、周波数依存トランスデューサ適合処理は、例えば等化フィルタによって実現され、処理チェーンに含まれ得る。
トランスデューサ適合ステージは、オーディオ入力信号および再生(スピーカまたはヘッドホン)のために使用するトランスデューサの特性に関する情報を受信する。
特に、トランスデューサが限られた周波数帯域を有して、このことによりオーディオ出力信号の周波数帯域を制限するときに、トランスデューサ適合ステージの作業は、オーディオ出力信号をトランスデューサ特性に適合させることである。ピーク制限ステージの前にトランスデューサの伝達関数を模倣している適切なフィルタを用いて周波数帯域を制限することによって、ピークリミッタステージの入力信号は、レベルにおいて低減される。結果として、制限する閾値を越える信号ピークは、レベル低減される。従って、ピーク制限ステージの効果は、さほど厳しくない。これは、有利である。−その理由は、次のことである。
−トランスデューサ適合が信号に可聴変化をもたらさないのに対して、ピーク制限は、信号を可聴に変化し得る、そして、
−最大ピークレベルが制限する閾値以下にあるように、信号が修正されるときに、ピークリミッタは、より少ない計算負荷をもたらす。
フィルタリングに加えて、トランスデューサの帯域制限が補償されるように、トランスデューサ適合ステージは、信号適合処理を含み得る。特に、極小トランスデューサは、低周波信号を再生し得ない。
これは、例えば人工的に低周波音の倍音を生成して、信号に加えることによって、トランスデューサの認識された低音域レスポンスを増加させることで、補償され得る。
更なる態様において、本願発明は、請求項1〜9のうちの1つによるオーディオエンコーダによって特に生成されるオーディオビットストリームおよびオーディオビットストリームに関連したメタデータビットストリームを復号化するためのオーディオデコーダ、特に請求項に記載のオーディオデコーダ、を操作するための方法を提供する。そして、その方法は、以下次のステップを含む、
オーディオビットストリームから復号化オーディオ信号を導出し;
ダイナミックレンジ制御ステージ、それは調整チェーンの調整ステージである、によってオーディオ出力信号のダイナミックレンジを調整することを含むオーディオ処理チェーンのオーディオ出力信号の特性を調整するための複数の調整ステージを有するオーディオ処理チェーンを使用し、かつ、誘導クリッピング防止ステージ、それは調整チェーンの調整ステージである、によってオーディオ出力信号のクリッピングを防止し;
メタデータデコーダ側で、メタデータビットストリームを受信して、メタデータビットストリームからダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスを抽出し;
ダイナミックレンジ制御ステージにダイナミックレンジ制御ゲインシーケンスの少なくとも一部を供給し;
かつ、
誘導クリッピング防止ステージに誘導クリッピング防止ゲインシーケンスの少なくとも一部を供給すること。
更なる態様において、本願発明は、コンピュータまたはプロセッサで実行されるときに、前述の方法を実行するためのコンピュータプログラムを提供する。
本願発明の好ましい実施例は、添付の図面に関して後述される:
図1は、本願発明の略図によって、オーディオエンコーダの実施例を例示す る図である; 図2は、本願発明の略図によって、オーディオデコーダの第1の実施例を例 示する図である; 図3は、本願発明の略図によって、オーディオデコーダの第2の実施例を例 示する図である; 図4は、本願発明の略図によって、オーディオデコーダの第3の実施例を例 示する図である;そして、 図5は、本願発明の略図によって、オーディオデコーダの第4の実施例を例 示する図である。
図1は、本発明の略図によって、オーディオエンコーダ1の実施例を例示する。図1は、ダイナミックレンジ制御ゲインシーケンスおよび誘導クリッピング防止ゲインシーケンスの符号化を例示する。
オーディオエンコーダ1は、一つ以上のオーディオチャンネルACおよび/または一つ以上のオーディオオブジェクトAOを含むオーディオビットストリームを生成するように構成され、オーディオエンコーダ1は、メタデータビットストリームMBSを生成するためのメタデータエンコーダ2を具備するように構成される:
オーディオデコーダ3(図2参照)のダイナミックレンジ制御ステージ5(図2参照)のために一つ以上のダイナミックレンジ制御ゲインを含むオーディオフレームのために、少なくとも一つのダイナミックレンジ制御ゲインシーケンスDSを受信し;
オーディオフレームのための少なくとも一つの誘導クリッピング防止ゲインシーケンスGSを受信する。但し、誘導クリッピング防止ゲインシーケンスGSは、オーディオデコーダ3の誘導クリッピング防止ステージ6(図2参照)のための1つ以上の誘導クリッピング防止ゲインを含む;かつ
少なくとも一つのダイナミックレンジ制御ゲインシーケンスDSおよび少なくとも一つの誘導クリッピング防止ゲインシーケンスGSをメタデータビットストリームMBSに含めること。
本願発明の概念は、いくつかの処理ブロックの組合せに基づき、それは、ダイナミックレンジ圧縮(DRC)および誘導クリッピング防止(gCP)のための共同ソリューションに必要な機能を一緒に提供する。
本願発明の概念は、例えば[M30100、M30101]中で定義されたように、関連した構成情報がオーディオエンコーダ1で、および、オーディオデコーダ3で既に利用できるオーディオシステムに特に適している。この情報は、例えば、ファイルベース送信のためのヘッダにおいて、または、音声音響統合符号化(USAC)構成拡張において含まれ得る。構成情報は、チャンネルレイアウト、ダウンミックス命令(例えばダウンミックス係数)、ダイナミックレンジ制御命令(例えば適用されたダイナミックレンジ制御特性、トラックのためのダイナミックレンジ制御ゲインシーケンスの数)および音量情報(例えばプログラム音量、アンカー音量、正確なピーク値)を含み得る。より多くの詳細は、[M30100、M30101]中で見出し得る。同じことは、対応する誘導クリッピング防止命令に当てはまり、それは、ダイナミックレンジ制御命令ボックスの情報として同様に扱われ得る。
本願発明によるオーディオエンコーダ1は、オーディオデコーダ3の誘導クリッピング防止ステージ6のための誘導クリッピング防止ゲインシーケンスGSと同様に、オーディオデコーダ3のダイナミックレンジ制御ステージ5のためのダイナミックレンジ制御ゲインシーケンスDSを含むメタデータビットストリームMBSを生成し得る。そこにおいて、ダイナミックレンジ制御ゲインシーケンスDSは、誘導クリッピング防止ゲインシーケンスGSから別に送信され得る。
メタデータエンコーダは、入力として、外部的に、例えばコンテンツプロバイダによって操作される外部ツールによって、供給されたダイナミックレンジ制御ゲインシーケンスDSを使用する。
ダイナミックレンジ制御ゲインの可能な時間分解能は、2、3のサンプルの範囲でもよい。ダイナミックレンジ制御ゲイン値は、通常、最高0.125dBの充分な分解能によって表され得る。
加えて、メタデータエンコーダは、入力として、誘導クリッピング防止ゲインシーケンスGSを取り出す。
圧縮ダイナミックレンジ制御ゲインシーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSは、音声音響統合符号化拡張ペイロードに含まれるサイド情報として、レシーバに送信され得る。
ダイナミックレンジ制御ゲインシーケンスDSが、ダイナミックレンジ圧縮を実行するためにダイナミックレンジ制御ゲインを含まなければならないだけの点に留意する必要があるが、クリッピング防止のための誘導クリッピング防止ゲインは、誘導クリッピング防止ゲインシーケンスGSによって適合される。
誘導クリッピング防止ゲインの時間分解能は、ダイナミックレンジ制御ゲインに関しては同じでもよい。
誘導クリッピング防止ゲインシーケンスGSは、サンプルクリッピングが特定の目標レベルおよびダウンミックス/フォーマットコンバータ構成のためのオーディオデコーダ3のオーディオ出力信号AOS(図2参照)で発生しないことを保証するために使用される。各誘導クリッピング防止ゲインシーケンスGSは、オブジェクトのための特定のダイナミックレンジ制御ゲインシーケンスと共に、特定のダウンミックス/フォーマットコンバータ構成、特定の目標レベルおよびチャンネルのための特定のダイナミックレンジ制御ゲインシーケンスの組合せのために最適化され得る。どの誘導クリッピング防止ゲインシーケンスGSがどのダイナミックレンジ制御ゲインシーケンスDSに関連するかについての情報が、音声音響統合符号化構成拡張のファイルヘッダに含まれる誘導クリッピング防止命令に含まれ得る。それは、誘導クリッピング防止ゲインがオーディオエンコーダ1で決定された目標レベルに関連した情報を含み得る。
上述のダイナミックレンジ処理のための発明の概念は、全てのオーディオ処理チェーン4(図2参照)のオーディオエンコーダ側制御へのアプローチを表す。ダイナミックレンジ制御および誘導クリッピング防止のために使用するメタデータの分離は、ゲインの各々の別々の変更態様(スケーリングまたはマッピング)を考慮に入れ、変更態様は、オーディオデコーダ構成および再生シナリオに依存する。
ダイナミックレンジ制御ゲインが誘導クリッピング防止ゲインGSから別に送信される場合、発明の概念については、高圧縮から低圧縮までダイナミックレンジ制御ゲインシーケンスDSの基礎をなすダイナミックレンジ制御特性を変更し得る。これは、ダイナミックレンジ制御ゲインシーケンスDSの値の適当なスケーリングまたはマッピングによって達成され得る。
発明の概念は、所与の品質要求を満たすために、オーディオデコーダ3の最終的なオーディオ出力信号AOSのコンテンツプロバイダの完全な制御を与える。この場合、ダイナミックレンジ制御ゲインシーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSは、最も重要であると考慮される特定のオーディオデコーダ構成のために含まれ得る。ピークリミッタステージ12は、ダイナミックレンジ制御ゲインシーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSの併用により多くの場合廃止され得る。オーディオデコーダ側、それは誘導クリッピング防止ゲインを単に適用することによって達成される、で、誘導クリッピング防止がピークリミッタ12を使用することより計算量的により効率的である点に注意されなければならない。
本願発明の好ましい実施例によれば、メタデータエンコーダ2は、異なるダイナミックレンジ制御ゲインを含む同じオーディオフレームのための少なくとも2つのダイナミックレンジ制御ゲインシーケンスDSを受信するように、かつ、異なるダイナミックレンジ制御ゲインを含む少なくとも2つのダイナミックレンジ制御ゲインシーケンスDSをメタデータビットストリームMBSに含めるように構成される。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスDSと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張において、ファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
これらの特徴によって、異なる圧縮特性を有するオーディオデコーダ3で出力信号を可能にするために複数のダイナミックレンジ制御ゲインシーケンスDSをオーディオトラックのチャンネルに提供することは、可能である。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なるオーディオチャンネルACにおよび/または異なるオーディオオブジェクトAOに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスDSを受信するように構成され、メタデータエンコーダ2は、異なるオーディオチャンネルACにおよび/または異なるオーディオオブジェクトAOに関連した少なくとも2つのダイナミックレンジ制御ゲインDS、そして、任意には、オーディオチャンネルACおよび/またはオーディオオブジェクトAOに対するダイナミックレンジ制御ゲインの関係をメタデータビットストリームMBSに含めるように構成される。
各ダイナミックレンジ制御シーケンスDSの中で、異なるオーディオチャンネルACまたはオーディオチャンネルAC群のための異なるダイナミックレンジ制御ゲインの一組を定義し得る。そこにおいて、各オーディオチャンネルACは、通常正確に1つのチャンネル群と関連している。例えば、マルチチャンネル映画音声で、特定のダイナミックレンジ制御ゲインをせりふチャンネルに適用することがしばしば望まれる。例えば左前方側の、右前方側の、左後方側の、右後方側のような残りのチャンネルは、例えば、異なるダイナミックレンジ制御ゲインを用いて処理され得る。
チャンネルの場合から類推して、オーディオオブジェクトAOまたはオブジェクトAO群と関連している複数のダイナミックレンジ制御シーケンスDSが、サポートされ得る。これらオブジェクト関連のダイナミックレンジ制御シーケンスDSは、ダイナミックレンジ制御ゲインのチャンネル関連の一組の中で特定のチャンネル群と関連していると、考えられ得る。本願明細書における用語オーディオオブジェクトは、例えばドアベル等の単一源音に関連する。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスDSと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張においてファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
本願発明の好ましい実施例によれば、メタデータエンコーダ2は、オーディオデコーダの異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスDSを受信するように構成され、メタデータエンコーダ2は、オーディオデコーダ3の異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインDS、および、任意には、オーディオデコーダ3の周波数帯域に対するダイナミックレンジ制御ゲインの関係をメタデータビットストリームMBSに含めるように構成される。
マルチバンドダイナミックレンジ制御をサポートしている任意の拡張において、メタデータエンコーダ2は、入力として、異なる周波数帯域のための異なるダイナミックレンジ制御ゲインを有するダイナミックレンジ制御ゲインシーケンスDSを受入れるためにも拡張され得る。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスDSと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張においてファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンスGSを受信するように、かつ、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンスGSをメタデータビットストリームMBSに含めるように構成される。
本願発明の好ましい実施例によれば、各ダイナミックレンジ制御シーケンスDSは、誘導クリッピング防止ゲインシーケンスGSの1つに関連し、メタデータエンコーダ2は、ダイナミックレンジ制御シーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSの間の関係をメタデータビットストリームMBSに含めるように構成される。
本願発明の好ましい実施例によれば、メタデータエンコーダは、異なるオーディオチャンネルACにおよび/または異なるオーディオオブジェクトAOに関連した少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンスGSを受信するように構成され、メタデータエンコーダ2は、異なるオーディオチャンネルACにおよび/または異なるオーディオオブジェクトAOに関連した少なくとも2つの誘導クリッピング防止ゲイン、および、任意には、オーディオチャンネルACおよび/またはオーディオオブジェクトAOに対する誘導クリッピング防止ゲインの関係を含む誘導クリッピング防止シーケンスGSをメタデータビットストリームMBSに含めるように構成される。
ダイナミックレンジ制御ゲインと同様に、各誘導クリッピング防止シーケンスGSの中で異なるオーディオチャンネルACまたはオーディオチャンネルAC群のために異なる誘導クリッピング防止ゲインの一組を定義し得る。ここで、各オーディオチャンネルACは、通常正確に1つのオーディオチャンネル群と関連している。典型的動作モードにおいて、同じ誘導クリッピング防止ゲインは、すべてのオーディオチャンネルACに適用される。
オーディオオブジェクトAOのための誘導クリッピング防止ゲインシーケンスの定義は、ダイナミックレンジ制御の場合に類似している。
別の態様においては、本願発明は、一つ以上のオーディオチャンネルおよび/または一つ以上のオーディオオブジェクトを含むオーディオビットストリームを生成するためにオーディオエンコーダ1を操作するための方法を提供する。オーディオエンコーダは、メタデータビットストリームMBSを生成するためのメタデータエンコーダ2を具備し、方法は、以下のステップを含む、
メタデータエンコーダ2の側で、オーディオデコーダ3のダイナミックレンジ制御ステージ5のための1つ以上のダイナミックレンジ制御ゲインを含む少なくとも1つのダイナミックレンジ制御ゲインシーケンスDSを受信し;
メタデータエンコーダ2の側で、オーディオデコーダ3の誘導クリッピング防止ステージ6のための1つ以上の誘導クリッピング防止ゲインを含む少なくとも一つの誘導クリッピング防止ゲインシーケンスGSを受信し;
および、
メタデータエンコーダ2の側で、少なくとも一つのダイナミックレンジ制御ゲインシーケンスDSおよび少なくとも一つの誘導クリッピング防止ゲインシーケンスGSをメタデータビットストリームMBSに含めること。
更なる態様において、本願発明は、コンピュータまたはプロセッサで動くときに、前述された方法を実行するコンピュータプログラムを提供する。
デコーダ側処理のための以下の図は、[M30324]中で示されるように、3Dオーディオ符号化方法の提案に基づく。
本発明の略図によれば、図2は、オーディオデコーダ3の第1の実施例を例示する。
本願発明によるオーディオエンコーダ1によって特に生成されるオーディオビットストリームおよびオーディオビットストリームに関連したメタデータビットストリームMBSを復号化するためのオーディオデコーダ3、オーディオデコーダ3は、以下を具備する:
オーディオビットストリームより導出された復号化オーディオ信号DASを受信するように構成され、かつオーディオ処理チェーン4のオーディオ出力信号AOSの特性を調整するように構成されたオーディオ処理チェーン4、オーディオ処理チェーン4は、オーディオ出力信号AOSのダイナミックレンジを調整するためのダイナミックレンジ制御ステージ5およびオーディオ出力信号AOSのクリッピングを防止するための誘導クリッピング防止ステージ6を含む複数の調整ステージ5、6、10、11、12、13、14(図3、4、5も参照)を有する;
および、
メタデータビットストリームMBSを受信するように構成され、かつメタデータビットストリームMBSからダイナミックレンジ制御ゲインシーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSを抽出するように構成されたメタデータデコーダ7、ダイナミックレンジ制御ゲインシーケンスDSの少なくとも一部は、ダイナミックレンジ制御ステージ5に供給され、かつ、誘導クリッピング防止ゲインシーケンスGSの少なくとも一部は、誘導クリッピング防止ステージ6に供給されている。
メタデータデコーダ7は、例えば音声音響統合符号化デコーダから、圧縮ダイナミックレンジ制御ゲインシーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSを含むメタデータビットストリームMBSを受信する。
メタデータデコーダ7は、圧縮メタデータビットストリームMBSから、非圧縮ダイナミックレンジ制御ゲインシーケンスDSを生成する。加えて、結果として生じるダイナミックレンジ制御ゲインのスケーリングまたはマッピングが、適用され得る。
メタデータデコーダ7は、加えて、圧縮誘導クリッピング防止メタデータを含むビットストリームMBSから、非圧縮誘導クリッピング防止ゲインシーケンスGSを生成する。誘導クリッピング防止ゲインのスケーリングまたはマッピングが、適用され得る。オーディオデコーダ目標レベルがオーディオエンコーダ1で誘導クリッピング防止ゲインシーケンスGSを決定するために使用された目標レベルより低い場合、これは特に役立つ。それから、誘導クリッピング防止ゲインのマッピングは、可能である。そして、それは、クリッピングがオーディオデコーダ出力信号AOSで発生しないことを依然保証すると共に、最適に信号ヘッドルームを復元する。
ダイナミックレンジ制御ステージ5は、メタデータデコーダ7から直接、または、間接的に各オーディオフレームのために、非圧縮のおよび任意にはスケーリングまたはマッピングされたダイナミックレンジ制御ゲインシーケンスDSを受信する。メタデータデコーダ7も、最終的な時間領域ダイナミックレンジ制御ゲイン値がオーディオサンプルの時間分解能に対応する時間分解能によって補間されることを保証し得る。これら最終的なダイナミックレンジ制御ゲインは、それから復号化オーディオ信号DASに適用され得る。ここで、チャンネルおよび/またはオブジェクトに対する特定のダイナミックレンジ制御シーケンスの割当てが、観察される。
誘導クリッピング防止ステージ6は、メタデータデコーダ7から、直接、または、間接的に、各オーディオフレームのために、非圧縮のおよび任意にはスケーリングまたはマッッピングされた誘導クリッピング防止ゲインシーケンスGSを受信する。メタデータデコーダ7は、最終的な時間領域で誘導クリッピング防止ゲイン値がオーディオサンプルの時間分解能に対応する時間分解能によって補間されることも保証し得る。これら最終の誘導クリッピング防止ゲインは、それから、復号化オーディオ信号に、または、復号化オーディオ信号DASから導出された信号ISG(または図3、図4および図5のIGS)に適用され得る。ここで、チャンネルおよび/またはオブジェクトに対する特定の誘導クリッピング防止シーケンスの割当てが、観察される。
本願発明は、エンコーダ側で全ての処理チェーンの制御を残すと共に、オーディオデコーダ側で柔軟性を提供する。ダイナミックレンジ制御および誘導クリッピング防止のために使用するメタデータの分離は、ゲインの各々の別々の変更形態(スケーリングまたはマッピング)を考慮に入れ、前記変更形態は、オーディオデコーダ構成および再生シナリオに依存する。
ダイナミックレンジ制御ゲインが、誘導クリッピング防止ゲインから別に送信される場合、本願発明は、高圧縮から低圧縮までダイナミックレンジ制御ゲインシーケンスDSの基礎をなすダイナミックレンジ制御特性を変更し得る。これは、ダイナミックレンジ制御ゲインシーケンスDSの値の適当なスケーリングまたはマッピングによって達成され得る。
デコーダ目標レベルが、誘導クリッピング防止のためのゲインをオーディオエンコーダ1で計算するために使用する目標レベルより低い場合、信号ピークの減少された減衰は、誘導クリッピング防止ゲインを適切にスケーリングすることによってオーディオデコーダ3で許容され得る。それから、強い信号ピークのレベルは、維持され得るかまたは変更されていない態様の誘導クリッピング防止ゲインを適用する場合と比較して、少なくとも増加され得る。そして、それは、利用できるヘッドルームが保存され得ることを意味する。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、異なるダイナミックレンジ制御ゲインを含む同じオーディオフレームのための少なくとも2つのダイナミックレンジ制御ゲインシーケンスDSをメタデータビットストリームMBSから抽出するように構成される。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスDSと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張においてファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
これらの特徴によって、異なる圧縮特性を有するデコーダ1でオーディオ出力信号AOSを可能にするために複数のダイナミックレンジ制御ゲインシーケンスDSをオーディオトラックのチャンネルに提供することは、可能である。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、オーディオデコーダ3の異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスDSをメタデータビットストリームMBSから抽出するように構成される。
マルチバンドダイナミックレンジ制御をサポートしている任意の拡張において、メタデータデコーダ7は、また、入力として、異なる周波数帯域のための異なるダイナミックレンジ制御ゲインを有するダイナミックレンジ制御ゲインシーケンスDSを受取るために拡張され得る。
マルチバンドダイナミックレンジ制御拡張の場合には、時間領域オーディオ信号は、マルチバンドダイナミックレンジ制御ゲインを適用する前に、適当な周波数領域表現に変換されなければならない。
ダイナミックレンジ制御特性が異なるダイナミックレンジ制御ゲインシーケンスDSと関連している情報は、ファイルベース配信の場合において、または、音声音響統合符号化構成拡張においてファイルヘッダに含まれるダイナミックレンジ制御命令に含まれ得る。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンスGSをメタデータビットストリームMBSから抽出するように構成される。
これらの特徴によって、対応するダイナミックレンジ制御ゲインシーケンスDSに適合するために複数の誘導クリッピング防止ゲインシーケンスGSをオーディオトラックに提供し得る。
更なる態様において、本願発明は、本願発明によるオーディオエンコーダにより特に生成されたオーディオビットストリームおよびオーディオビットストリームに関連したメタデータビットストリームMBSを復号化するためにオーディオデコーダ3、特に、本願発明によるオーディオデコーダ3、を操作するための方法を提供する。前記方法は、以下のステップを含む:
オーディオビットストリームから復号化オーディオ信号DASを導出し;
調整チェーン4の調整ステージ5であるダイナミックレンジ制御ステージ5によりオーディオ出力信号AOSのダイナミックレンジを調整し、かつ調整チェーン4の調整ステージ6である誘導クリッピング防止ステージ6によるオーディオ出力信号AOSのクリッピングを防止することを含むオーディオ処理チェーン4のオーディオ出力信号AOSの特性を調整するための複数の調整ステージ5、6、10、11、12、13、14を有するオーディオ処理チェーンを使用し;
メタデータデコーダ7側で、メタデータビットストリームMBSを受信して、メタデータビットストリームMBSからダイナミックレンジ制御ゲインシーケンスDSおよび誘導クリッピング防止ゲインシーケンスGSを抽出し;
ダイナミックレンジ制御ステージ5にダイナミックレンジ制御ゲインシーケンスDSの少なくとも一部を供給し;かつ、
誘導クリッピング防止ステージ6に誘導クリッピング防止ゲインシーケンスGSの少なくとも一部を供給すること。
更なる態様において、本願発明は、コンピュータまたはプロセッサで動くときに、前述の方法を実行するためのコンピュータプログラムを提供する。
本願発明の略図によれば、図3は、オーディオデコーダ3の第2の実施例を例示する。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、異なるオーディオチャンネルに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスDSをメタデータビットストリームMBSから抽出するように構成される。
各ダイナミックレンジ制御シーケンスDSの中で、異なるチャンネルまたはチャンネル群のための異なるダイナミックレンジ制御ゲインの一組を定義することは可能であり、各チャンネルは、通常正確に1つのチャンネル群と関連している。例えば、マルチチャンネル映画音声で、特定のダイナミックレンジ制御ゲインをせりふチャンネルに適用することが、しばしば望まれる。左前方側の、右前方側の、左後方側の、右後方側のような残りのチャンネルは、例えば、異なるダイナミックレンジ制御ゲインを用いて処理され得る。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、異なるオーディオチャンネルに関連した少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンスGSをメタデータビットストリームMBSから抽出するように構成される。
ダイナミックレンジ制御ゲインと同様に、各誘導クリッピング防止シーケンスの中で異なるチャンネルまたはチャンネル群のために異なる誘導クリッピング防止ゲインの一組を定義することは可能である。ここで、各チャンネルは、通常正確に1つのチャンネル群と関連している。典型的動作モードにおいて、同じ誘導クリッピング防止ゲインは、すべてのチャンネルに適用される。
本願発明の好ましい実施例によれば、オーディオデコーダ3は、構成提供ステージ9(図4および5参照)から受信された構成情報に基づいてメタデータおよびパラメータDS、GS、CLA、DI、DTL、PRL、IS、OMD、ICTを調整ステージ5、6、10、11、12、13、14の少なくとも1つに提供するように構成されるメタデータおよびパラメータ制御ステージ8をさらに含む。
オーディオデコーダのメタデータおよびパラメータ制御ステージ8は、メタデータデコーダ7にゲインシーケンス選択信号GSSを送信することによって、所望のダイナミックレンジ制御ゲインシーケンスDSによるメタデータビットストリームMBSの正しい部分を選択し得る。スケーリングおよびマッピング情報は、また、デコーダ構成情報CIの一部であり得るかまたは導出され得る。
類推によって、オーディオデコーダ3のメタデータおよびパラメータ制御ステージ8は、所望の誘導クリッピング防止ゲインシーケンスGSによりビットストリームMBSの正しい部分を選択する。
本願発明の好ましい実施例によれば、メタデータおよびパラメータ制御ステージ8は、複数のダイナミックレンジ制御ゲインシーケンスDSが受信された場合に、複数のダイナミックレンジ制御ゲインシーケンスDSのいずれがダイナミックレンジ制御ステージ5に供給されるかを選択するように構成される。メタデータおよびパラメータ制御ステージ8の側のダイナミックレンジ制御シーケンスDSの選択は、チャンネルレイアウトCLA、ダウンミックス命令DI、オブジェクトメタデータOMD(図4参照)、ダイナミックレンジ制御命令、音量情報PRLおよびデコーダ目標レベルDTLのようなデコーダ構成情報CI、に基づき得て、メタデータデコーダ7にゲインシーケンス選択信号GSSを送信することによって実行され得る。
本願発明の好ましい実施例によれば、メタデータおよびパラメータ制御ステージ8は、複数の誘導クリッピング防止ゲインシーケンスGSが受信された場合に、複数の誘導クリッピング防止ゲインシーケンスGSのいずれが誘導クリッピング防止ステージ6に供給されるかを選択するように構成される。
メタデータおよびパラメータ制御ブロック8側の誘導クリッピング防止ゲインシーケンスGSの選択は、通常上述のオーディオデコーダ構成情報CIに基づく。
本願発明の好ましい実施例によれば、信号伝達方向のダイナミックレンジ制御ステージ5は、オーディオ調整チェーン4の第1の調整ステージである。
チャンネルのためのダイナミックレンジ制御処理は、チャンネル群のために異なるゲインを得ることを可能にするために、復号化オーディオチャンネルACの潜在的ダウンミックスまたはフォーマット変換の前に実行され得る。従って、ダイナミックレンジ制御ゲインは、レンダリング(図4参照)の前に、オブジェクトAOに適用される。−チャンネルACおよびオブジェクトAO−の両者が存在する場合、ダイナミックレンジ制御処理の位置は、同じままである:チャンネル関連のダイナミックレンジ制御は、フォーマットコンバータステージ10(図4参照)の前で直接実行されなければならないが、オブジェクトに関連したダイナミックレンジ制御は、オブジェクトレンダラー13(図4参照)の前に実行される。
本願発明の好ましい実施例によれば、オーディオ調整チェーン4は、オーディオ出力信号AOSのチャンネル構成を調整するように構成されるフォーマットコンバータステージ10を含む。フォーマットコンバータステージ10は、ダウンミキサー(DMX)とも呼ばれ、オーディオ出力信号AOSのチャンネル構成を再生のために使用するトランスデューサに適合させるように構成される。例えば、フォーマットコンバータステージは、5.1サラウンド信号をステレオ信号に変換し得る。
本願発明の好ましい実施例によれば、オーディオ調整チェーン4は、オーディオ出力信号AOSの音量を正規化するように構成される音量正規化ステージ11を含む。
出力信号IGSが正しい目標音量レベルを有するように、音量正規化ステージ11は、そのオーディオ入力信号OCFをスケーリングし得る。スケーリング係数は、プログラム参照レベルPRLおよびデコーダ目標レベルDTLの間の差から導出され、デコーダのメタデータおよびパラメータ制御ステージ8によって音量正規化ステージ11に提供される。プログラム参照レベルPRLは、例えば、ファイルヘッダに含まれる音量情報から得られ得るが、デコーダ目標レベルは、デコーダ構成パラメータである。複数のプログラム参照レベルPRL値が音量情報の範囲内で供給されることが可能である。ここで、各々は、適用されたダイナミックレンジ制御シーケンスDSおよび/または適用されたダウンミックスの特定の構成に対応する。この場合、所与のオーディオデコーダ構成を考慮すると共に、メタデータおよびパラメータ制御ステージ8は、正しいプログラム参照レベル値PRLを選択する。音量−処理ステップの位置は、オーディオデコーダ3の実際の出力構成に依存する。一般に、音量正規化は、オーディオデコーダ3の出力チャンネル上で、適用できる場合、例えばミキサーの後で、または、フォーマット変換ステージ10の後で、実行されなければならない。
本願発明の好ましい実施例によれば、オーディオ調整チェーン4は、閾値を上回った場合、オーディオ出力信号AOSのピークを制限するように構成したピークリミッタステージ12を含む。
本願発明の好ましい実施例によれば、信号伝達方向のピークリミッタステージ12は、オーディオ調整チェーン4の最後の調整ステージである。
典型的なオーディオデコーダのオーディオ処理チェーン4に、不可避のサンプルクリッピングの多くの潜在源が、存在し、以下を含む:
・パラメトリック符号化ツール
・バイノーラル処理
・ダウンミックス、フォーマット変換、レンダリング
・音量正規化(特に高い目標レベルのための)
・デコーダ出力での量子化
例えば時間領域出力信号が浮動小数点から固定小数点パルス符号変調フォーマット(PCMフォーマット)に変換される直前に、ピークリミッタステージ12は、従って、オーディオサンプルのいかなる不要クリッピングを防止するためにオーディオデコーダ3の処理チェーン4のまさにその終端に配置される。これも、以前の節に記載したいかなるダイナミックレンジ制御ステージ5および音量正規化ステージ11が、ピークリミッタステージ12の前に配置されることを意味する。MPEG―H 3D Audio[M30324]の文脈において、ピークリミッタステージは、実際の再生構成に応じて、入力として異なる信号IPLを受信する。バイノーラルのレンダリングの場合には、ヘッドホンのための2つの出力チャンネルは、ピークリミッタステージ12によって処理され得る。ミキサーの出力チャンネルが直接再生される場合、ピークリミッタステージ12は、対応するスピーカチャンネルを処理し得る。ミキサー出力チャンネルが最初にフォーマットコンバータ10によって異なるスピーカ構成(例えばダウンミックス)に変換される場合、同じことが当てはまる。
ピークリミッタステージ12は、制限する閾値を上回る時間領域信号のオーディオサンプルを検出し得て、オーディオ出力信号AOSのサンプルが制限する閾値以下に常にとどまるように、レベル低減をそれぞれの信号部分に適用する。可聴歪みを防止するために、レベル低減は段階的に実行されなければならない、すなわち、信号に適用されるゲイン係数は、時間とともにゆっくり変化し得るだけである。そして、それはゲイン平滑化フィルタによって確実にされる。リミッタゲイン係数を適用する前のピークリミッタステージの入力信号の先読み遅延も、鋭い信号ピークの前に、すでに始まっているゲインの滑らかな低減を考慮に入れるために使用される。遅延は、与えられた要求に調整され得る。実際的な選択は、5msである。マルチチャンネルオーディオの場合、一般的なゲイン係数は、計算量を低減するために、すべてのオーディオチャンネルに適用され得る。
デコーダ構成が、クリッピングがオーディオ処理チェーンで起こり得ないことを意味する場合、オーディオ信号DASの最大ピークISに関する情報、それはファイルヘッダの音量情報に含まれ得る、は、ピークリミッタステージ12を廃止するために利用され得る。例えば、オーディオデコーダ3が浮動小数点精度を有するオーディオサンプルを出力する場合、ピークリミッタステージ12は、廃止され得もする、そして、クリッピング防止は、再生手段のオーディオチェーンの後の位置で実行される。明らかに、所与の再生シナリオのためのデコーダ構成が、正しい誘導クリッピング防止ゲインの応用を許容する場合、付加的なコーデッククリッピングが発生しない場合、ピークリミッタステージは、使用不能であり得もする。
ピークリミッタ12は、実際には必須の部品であることと考え得る。オーディオデコーダ3のオーディオ処理チェーンの範囲内でクリッピングの多数のソースが、存在する。特別な構成は、誘導クリッピング防止ゲインシーケンスを提供することによってカバーされ得る。しかしながら、デコーダの柔軟な動作のために、ピークリミッタは、クリッピングが発生しないことを保証するために設けられ得る。
図3に示すように、誘導クリッピング防止処理は、オーディオチャンネルのフォーマット変換および音量正規化の後、実行され得る。フォーマット変換が適用されない場合、誘導クリッピング防止ゲインは、ダイナミックレンジ制御ステージ5の出力ISGに直接適用され得る。
本発明の略図によって、図4は、オーディオデコーダの第3の実施例を例示する。図4は、オーディオオブジェクトAOのためのダイナミックレンジ制御処理の構成を表す。ダイナミックレンジ制御処理は、レンダリングの前にオーディオオブジェクト信号に関して実行される。音量正規化およびクリッピング防止は、チャンネルに対するオブジェクトレンダリングの後で、実行される。
本願発明の好ましい実施例によれば、オーディオ調整チェーン4は、オーディオオブジェクトAOをオーディオ出力信号AOSのチャンネルにミックスするように構成されるオブジェクトレンダラーステージ13を具備する。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、異なるオーディオオブジェクトAOに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンスDSをメタデータビットストリームMBSから抽出するように構成される。
チャンネルの場合から類推して、オーディオオブジェクトまたはオブジェクト群と関連している複数のダイナミックレンジ制御シーケンスDSが、サポートされ得る。これらオブジェクト関連のダイナミックレンジ制御シーケンスは、ダイナミックレンジ制御ゲインのチャンネル関連の一組の中で特定のチャンネル群と関連しているとも考え得る。用語オーディオオブジェクトAOは、本願明細書において単一源音、例えばドアベル、に関連する。
本願発明の好ましい実施例によれば、メタデータデコーダ7は、異なるオーディオオブジェクトに関連する少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンスGSをメタデータビットストリームMBSから抽出するように構成されている。
ダイナミックレンジ制御ゲインと同様に、各誘導クリッピング防止シーケンスの中で異なるオーディオオブジェクトまたはオーディオオブジェクト群のための異なる誘導クリッピング防止ゲインの一組を定義し得る。ここで、各チャンネルは、通常正確に1つのオーディオオブジェクトと関連している。典型的動作モードにおいて、同じ誘導クリッピング防止ゲインは、すべてのオーディオオブジェクトに適用される。
オブジェクトのために誘導クリッピング防止ゲインシーケンスの定義は、ダイナミックレンジ制御の場合に類似している。
本願発明の略図によれば、図5は、本願発明によるオーディオデコーダの第4の実施例を例示する。
概念の他の実現は、図5に示される。ここで、付加されたトランスデューサ適合ブロック14は、ピークリミッタ12の前に含まれる。フォーマットコンバータステージ10とは、ダウンミックス処理ステップまたは異なる入力/出力チャンネル構成間のフォーマット変換をいう。類推によって、トランスデューサ適合ブロックは、図4に従ってオブジェクト−関連の処理チェーンに含まれ得る。
本願発明の好ましい実施例によれば、オーディオ調整チェーン4は、オーディオ出力信号AOSの特性を、オーディオ出力信号を再生するために使用するトランスデューサシステムに適合するように構成されるトランスデューサ適合ステージ14を含む。
ピークリミッタステージ12の要求された制限強度を低減するために、周波数に依存するトランスデューサ適合処理は、例えば等化フィルタによって実現され、処理チェーン4に含まれ得る。
トランスデューサ適合ステージ14は、再生(スピーカまたはヘッドホン)のために使用するトランスデューサの特性に関するオーディオ入力信号ITAおよび情報ICTを受信する。
特にトランスデューサが限られた周波数帯域を有して、このことによりオーディオ出力信号の周波数帯域を制限するときに、トランスデューサ適合ステージ14の作業は、オーディオ出力信号AOSをトランスデューサ特性に適合させることである。ピーク制限ステージ12の前に、トランスデューサの伝達関数を模倣している適切なフィルタを用いて周波数帯域を制限することによって、ピークリミッタステージの入力信号IPLは、レベルが低減される。結果として、制限する閾値を上回る信号ピークは、レベルが低減される。従って、ピーク制限ステージ12の効果は、より厳しくない。これは、以下の理由により有利である。
−トランスデューサ適合が信号に可聴変化をもたらさないのに対し、ピーク制限は、信号に可聴変化をもたらし得る、そして、
−最大ピークレベルが制限する閾値以下にあるように、信号が修正されるときに、ピークリミッタは、より少ない計算負荷をもたらす。
フィルタリングに加えて、トランスデューサ適合ステージ14は、トランスデューサの帯域制限が補償されるような信号適合処理を含み得る。特に極小トランスデューサは、低周波信号を再生し得ない。
これは、トランスデューサの認識された低音域レスポンスを増加させることで、例えば人工的に低周波音の倍音を生成して、信号に加えることによって、補償され得る。
デコーダ、エンコーダおよび記載されている実施例の方法に関して、以下が、留意されるべきである:
いくつかの態様が装置の文脈に記載されていたにもかかわらず、これらの態様も対応する方法の説明を表すことは明らかである。ここで、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈にも記載されている態様は、対応する装置の対応するブロックまたは部材または特徴の説明を表す。
特定の実施要件に応じて、本願発明の実施例は、ハードウェアで、または、ソフトウェアで実現され得る。実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ、を使用して実行され得る。そして、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協同する(または協同し得る)。
本願発明による若干の実施例は、電子的に読み込み可能な制御信号を有するデータキャリアを含む。そして、本願明細書において記載されている方法の1つが実行されるように、それはプログラム可能なコンピュータシステムと協同し得る。
通常、本願発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現され得る。そして、コンピュータプログラム製品がコンピュータで動くときに、プログラムコードが方法のうちの1つを実行するために実行されている。プログラムコードは、機械可読キャリアに例えば格納され得る。
他の実施例は、本願明細書において記載されている方法のうちの1つを実行するためのコンピュータプログラムを含み、それは機械可読キャリアまたは非一時的記憶媒体に保存される。
換言すれば、コンピュータプログラムがコンピュータで動くとき、本願発明の方法の実施例は、従って、本願明細書において記載されている方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
発明の方法の更なる実施例は、従って、その上に記録されて、本願明細書において記載されている方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
本願発明の方法の更なる実施例は、従って、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムを表しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成され得る。
更なる実施例は、本願明細書において記載されている方法の1つを実行するために構成され、または適合された処理手段、例えばコンピュータまたはプログラム可能な論理装置、を含む。
更なる実施例は、その上に、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムをインストールしていたコンピュータを含む。
いくつかの実施形態では、プログラム可能な論理装置(例えばフィールドプログラマブルゲートアレイ)は、本願明細書において記載されている方法の機能のいくつかまたは全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書において記載されている方法の1つを実行するために、マイクロプロセッサと協同し得る。通常、方法は、いかなるハードウェア装置によっても都合よく実行される。
本願発明がいくつかの実施例に関して記載されると共に、本願発明の範囲に入る変更、置換および等価物が存在する。また、現在の本願発明の方法および構成を実現する多くの代替的な方法が存在することに注意すべきである。従って、以下の添付された請求の範囲が、本願発明の真の趣旨および範囲内に入るとしてすべてのこの種の変更、置換および等価物を含むことと解釈されることが、意図される。
参照符号
1 オーディオエンコーダ
2 メタデータエンコーダ
3 オーディオデコーダ
4 オーディオ処理チェーン
5 ダイナミックレンジ制御ステージ
6 誘導クリッピング防止ステージ
7 メタデータデコーダ
8 メタデータおよびパラメータ制御ステージ
9 構成提供ステージ
10 フォーマットコンバータステージ
11 音量正規化ステージ
12 ピークリミッタステージ
13 オブジェクトレンダラーステージ
14 トランスデューサ適合ステージ
MBS メタデータビットストリーム
DS ダイナミックレンジ制御ゲインシーケンス
GS 誘導クリッピング防止ゲインシーケンス
DAS 復号化オーディオ信号
AOS オーディオ出力信号
ISG 復号化オーディオ信号から導出された信号
CI 構成情報
AC オーディオチャンネル
AO オーディオオブジェクト
IPL ピークリミッタステージの入力信号
ITA トランスデューサ適合ステージの入力信号
ICT トランスデューサの特性に関する情報
IGS 音量正規化ステージの出力信号
OCF フォーマットコンバータステージまたはオブジェクトレンダラーステージの出力
GSS ゲインシーケンス選択信号
CLA チャンネルレイアウト
DI ダウンミックス命令
PRL プログラム参照レベル
IS ピークリミッタステージのための最大ピーク値
DTL デコーダ目標レベル
OMD オブジェクトメタデータ
参考文献
[M30100]ISO/IECJTC1/SC29/WG11M30100,"ProposedRevisionofAudioaspectsofWD:AdditionofSampleaspectratioandfur-theraudiocode-points",July
2013,Vienna
[M30101]ISO/IECJTC1/SC29/WG11M30101,"Editorsdraftof14496-12PDAM3-Enhancedaudioandotherimprovements",July2013,Vienna
[M30324]ISO/IECJTC1/SC29/WG11M30324,"DescriptionoftheFraunhoferIISSubmissionforthe3D-AudioCfP",July2013,Vienna
[M28901]ISO/IECJTC1/SC29/WG11M28901,"EnhancedMetadataforDynamicRangeCompression",April2013,Incheon,Korea


Claims (26)

  1. 一つ以上のオーディオチャンネル(AC)および/または一つ以上のオーディオオブジェクト(AO)を含むオーディオビットストリームを生成するためのオーディオエンコーダであって、前記オーディオエンコーダ(1)は、メタデータビットストリーム(MBS)を生成するためのメタデータエンコーダ(2)を具備し、前記オーディオエンコーダは、:
    オーディオデコーダ(3)のダイナミックレンジ制御ステージ(5)のための1つ以上のダイナミックレンジ制御ゲインを含むオーディオフレームについて少なくとも1つのダイナミックレンジ制御ゲインシーケンス(DS)を受信し;
    前記オーディオデコーダ(3)の誘導クリッピング防止ステージ(6)のための1つ以上の誘導クリッピング防止ゲインを含む前記オーディオフレームについて少なくとも1つの誘導クリッピング防止ゲインシーケンス(GS)を受信し;かつ、
    前記ダイナミックレンジ制御ゲインシーケンス(DS)のうちの少なくとも1つおよび前記誘導クリッピング防止ゲインシーケンス(GS)のうちの少なくとも1つを前記メタデータビットストリーム(MBS)に含めるように構成されている、オーディオエンコーダであって、
    前記メタデータエンコーダ(2)は、異なるダイナミックレンジ制御ゲインを含む前記オーディオフレームについて少なくとも2つのダイナミックレンジ制御ゲインシーケンス(DS)を受信し、異なるダイナミックレンジ制御ゲインを含む前記少なくとも2つのダイナミックレンジ制御ゲインシーケンス(DS)を前記メタデータビットストリーム(MBS)に含めるように構成された、オーディオエンコーダ。
  2. 前記メタデータエンコーダ(2)は、異なるオーディオチャンネルにおよび/または異なるオーディオオブジェクトに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンス(DS)を受信し、かつ、異なるオーディオチャンネルにおよび/または異なるオーディオオブジェクトに関連する少なくとも2つのダイナミックレンジ制御ゲインを含む前記ダイナミックレンジ制御ゲインシーケンス(DS)、ならびに任意には前記オーディオチャンネルおよび/または前記オーディオオブジェクトに対する前記ダイナミックレンジ制御ゲインの関係を前記メタデータビットストリーム(MBS)に含めるように構成されている、請求項1に記載のオーディオエンコーダ。
  3. 前記メタデータエンコーダ(2)は、前記オーディオデコーダの異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンス(DS)を受信し、かつ、前記デコーダの異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含む前記ダイナミックレンジ制御ゲインシーケンス(DS)、ならびに任意で前記デコーダの前記周波数帯域に対する前記ダイナミックレンジ制御ゲインの関係を前記メタデータビットストリーム(MBS)に含めるように構成されている、請求項1または2のいずれかに記載のオーディオエンコーダ。
  4. 前記メタデータエンコーダ(2)は、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンス(GS)を受信するように、かつ、前記異なる誘導クリッピング防止ゲインを含む前記少なくとも2つの誘導クリッピング防止ゲインシーケンス(GS)を前記メタデータビットストリーム(MBS)に含めるように構成されている、請求項1ないし3のいずれかに記載のオーディオエンコーダ。
  5. 各ダイナミックレンジ制御シーケンス(DS)は、前記誘導クリッピング防止ゲインシーケンス(GS)の1つに関連し、前記メタデータエンコーダ(2)は、前記ダイナミックレンジ制御シーケンス(DS)および前記誘導クリッピング防止ゲインシーケンス(GS)の間の関係を前記メタデータビットストリーム(MBS)に含めるように構成されている、請求項1ないし4のいずれかに記載のオーディオエンコーダ。
  6. 前記メタデータエンコーダ(2)は、異なるオーディオチャンネルにおよび/または異なるオーディオオブジェクトに関連した少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンス(GS)を受信し、かつ、異なるオーディオチャンネルにおよび/または異なるオーディオオブジェクトに関連した少なくとも2つの誘導クリッピング防止ゲインを含む前記誘導クリッピング防止ゲインシーケンス(GS)、ならびに任意で、前記オーディオチャンネルおよび/または前記オーディオオブジェクトに対する前記誘導クリッピング防止ゲインの関係を前記メタデータビットストリーム(MBS)に含めるように構成されている、請求項1ないし5のいずれかに記載のオーディオエンコーダ。
  7. 1つ以上のオーディオチャンネルおよび/または1つ以上のオーディオオブジェクトを含むオーディオビットストリームを生成するためのオーディオエンコーダ(1)を操作するための方法であって、前記オーディオエンコーダ(1)は、メタデータビットストリーム(MBS)を生成するためのメタデータエンコーダ(2)を具備し、前記方法は、:
    前記メタデータエンコーダ(2)側で、オーディオデコーダ(3)のダイナミックレンジ制御ステージ(5)のための1つ以上のダイナミックレンジ制御ゲインを含む少なくとも1つのダイナミックレンジ制御ゲインシーケンス(DS)を受信するステップであって、オーディオフレームのための異なるダイナミックレンジ制御ゲインを含む少なくとも2つのダイナミックレンジ制御ゲインシーケンス(DS)は前記メタデータエンコーダ(2)によって受信される、受信するステップ;
    前記メタデータエンコーダ(2)側で、前記オーディオデコーダ(3)の誘導クリッピング防止ステージ(6)のための1つ以上の誘導クリッピング防止ゲインを含む少なくとも1つの誘導クリッピング防止ゲインシーケンス(GS)を受信するステップ;および、
    前記メタデータエンコーダ(2)側で、少なくとも一つの前記ダイナミックレンジ制御ゲインシーケンス(DS)および少なくとも一つの前記誘導クリッピング防止ゲインシーケンス(GS)を、前記メタデータビットストリーム(MBS)に含めるステップであって、前記オーディオフレームのための前記異なるダイナミックレンジ制御ゲインを含む前記オーディオフレームのための前記少なくとも2つのダイナミックレンジ制御ゲインシーケンス(DS)は、前記メタデータビットストリーム(MBS)に含まれるステップを含む、方法。
  8. コンピュータまたはプロセッサ上で作動するときに、請求項7に記載の方法を実行するためのコンピュータプログラム。
  9. オーディオビットストリームおよび前記オーディオビットストリームに関連したメタデータビットストリーム(MBS)を復号化するためのオーディオデコーダであって、前記オーディオデコーダは、:
    前記オーディオビットストリームから導出された復号化オーディオ信号(DAS)を受信して、オーディオ処理チェーン(4)のオーディオ出力信号(AOS)の特性を調整するように構成されたオーディオ処理チェーン(4)であって、
    前記オーディオ処理チェーン(4)は、前記オーディオ出力信号(AOS)のダイナミックレンジを調整するためのダイナミックレンジ制御ステージ(5)および前記オーディオ出力信号(AOS)のクリッピングを防止するための誘導クリッピング防止ステージ(6)を含む複数の調整ステージ(5,6,10,11,12,13,14)を備える、オーディオ処理チェーン(4);と、
    前記メタデータビットストリーム(MBS)を受信して、前記メタデータビットストリーム(MBS)からダイナミックレンジ制御ゲインシーケンス(DS)および誘導クリッピング防止ゲインシーケンス(GS)を抽出するように構成されたメタデータデコーダ(7)であって、
    前記ダイナミックレンジ制御ゲインシーケンス(DS)の少なくとも一部は、前記ダイナミックレンジ制御ステージ(5)に供給され、かつ、前記誘導クリッピング防止ゲインシーケンス(GS)の少なくとも一部は、前記誘導クリッピング防止ステージ(6)に供給されるメタデータデコーダ(7)、
    を具備するオーディオデコーダ。
  10. 前記メタデータデコーダ(7)は、異なるダイナミックレンジ制御ゲインを含む前記オーディオフレームのために少なくとも2つのダイナミックレンジ制御ゲインシーケンス(DS)を前記メタデータビットストリーム(MBS)から抽出するように構成されている、請求項9に記載のオーディオデコーダ。
  11. 前記メタデータデコーダ(7)は、異なるオーディオチャンネルおよび/または異なるオーディオオブジェクトに関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンス(DS)を前記メタデータビットストリーム(MBS)から抽出するように構成されている、請求項9または10に記載のオーディオデコーダ。
  12. 前記メタデータデコーダ(7)は、前記オーディオデコーダ(3)の異なる周波数帯域に関連した少なくとも2つのダイナミックレンジ制御ゲインを含むダイナミックレンジ制御ゲインシーケンス(DS)を前記メタデータビットストリーム(MBS)から抽出するように構成されている、請求項9ないし11のいずれかに記載のオーディオデコーダ。
  13. 前記メタデータデコーダ(7)は、異なる誘導クリッピング防止ゲインを含む少なくとも2つの誘導クリッピング防止ゲインシーケンス(GS)を前記メタデータビットストリーム(MBS)から抽出するように構成されている、請求項9ないし12のいずれかに記載のオーディオデコーダ。
  14. 前記メタデータデコーダ(7)は、異なるオーディオチャンネルにおよび/または異なるオーディオオブジェクトに関連した少なくとも2つの誘導クリッピング防止ゲインを含む誘導クリッピング防止ゲインシーケンス(GS)を前記メタデータビットストリーム(MBS)から抽出するように構成されている、請求項9ないし13のいずれかに記載のオーディオデコーダ。
  15. 前記オーディオデコーダ(3)は、構成提供ステージ(9)から受信された構成情報(CI)に基づいて前記調整ステージ(5、6、10、11、12、13、14)の少なくとも1つにメタデータおよびパラメータ(DS、GS、CLA、DI、DTL、PRL、IS、OMD、ICT)を供給するように構成されたメタデータおよびパラメータ制御ステージ(8)をさらに具備する、請求項9ないし14のいずれかに記載のオーディオデコーダ。
  16. メタデータおよびパラメータ制御ステージ(8)は、複数のダイナミックレンジ制御ゲインシーケンス(DS)が受信されたとき、前記複数のダイナミックレンジ制御ゲインシーケンス(DS)のうちの何れが前記ダイナミックレンジ制御ステージ(5)に供給されるかを選択するように構成されている、請求項9ないし15のいずれかに記載のオーディオデコーダ。
  17. 前記メタデータおよびパラメータ制御ステージ(8)は、複数の誘導クリッピング防止ゲインシーケンス(GS)が受信されたとき、前記複数の誘導クリッピング防止ゲインシーケンス(GS)のうちの何れが前記誘導クリッピング防止ステージ(6)に供給されるかを選択するように構成されている、請求項16に記載のオーディオデコーダ。
  18. 信号伝達方向における前記ダイナミックレンジ制御ステージ(5)は、前記オーディオ処理チェーン(4)の第1の調整ステージである、請求項9ないし17のいずれかに記載のオーディオデコーダ。
  19. 前記オーディオ処理チェーン(4)は、前記オーディオ出力信号(AOS)のチャンネル構成を調整するように構成されたフォーマットコンバータステージ(10)を具備する、請求項9ないし18のいずれかに記載のオーディオデコーダ。
  20. 前記オーディオ処理チェーン(4)は、前記オーディオ出力信号(AOS)の音量を正規化するように構成された音量正規化ステージ(11)を具備する、請求項9ないし19のいずれかに記載のオーディオデコーダ。
  21. 前記オーディオ処理チェーン(4)は、閾値を越えたときに、前記オーディオ出力(AOS)のピークを制限するように構成されたピークリミッタステージ(12)を具備する、請求項9ないし20のいずれかに記載のオーディオデコーダ。
  22. 前記オーディオ処理チェーン(4)は、オーディオオブジェクトを前記オーディオ出力信号(AOS)のチャンネルにミックスするように構成されたオブジェクトレンダラーステージ(13)を具備する、請求項9ないし21のいずれかに記載のオーディオデコーダ。
  23. 前記オーディオ処理チェーン(4)は、前記オーディオ出力信号(AOS)の特性を、前記オーディオ出力信号(AOS)を再生するために使用されるトランスデューサシステムに適合させるように構成されたトランスデューサ適合ステージ(14)を具備する、請求項9ないし22のいずれかに記載のオーディオデコーダ。
  24. 信号伝達方向における前記ピークリミッタステージ(12)が、前記オーディオ処理チェーン(4)の最後の調整ステージである、請求項21ないし23のいずれかに記載のオーディオデコーダ。
  25. オーディオビットストリームおよび前記オーディオビットストリームに関連するメタデータビットストリーム(MBS)を復号化するためのオーディオデコーダ(3)を操作するための方法であって、前記方法は、
    前記オーディオビットストリームから復号化オーディオ信号(DAS)を導出するステップ;
    オーディオ処理チェーン(4)の調整ステージ(5、6、10、11、12、13、14)であるダイナミックレンジ制御ステージ(5)によりオーディオ出力信号(AOS)のダイナミックレンジを調整すること、および、前記オーディオ処理チェーン(4)の調整ステージ(5、6、10、11、12、13、14)である誘導クリッピング防止ステージ(6)により前記オーディオ出力信号(AOS)のクリッピングを防止することを含めた、前記オーディオ処理チェーン(4)の前記オーディオ出力信号(AOS)の特性を調整するための複数の調整ステージを有するオーディオ処理チェーン(4)を使用するステップ;
    メタデータデコーダ(7)側で、前記メタデータビットストリーム(MBS)を受信し、かつ前記メタデータビットストリーム(MBS)からダイナミックレンジ制御ゲインシーケンス(DS)および誘導クリッピング防止ゲインシーケンス(GS)を抽出するステップ;
    前記ダイナミックレンジ制御ゲインシーケンス(DS)の少なくとも一部を前記ダイナミックレンジ制御ステージ(5)に供給するステップ;および、
    前記誘導クリッピング防止ゲインシーケンス(GS)の少なくとも一部を前記誘導クリッピング防止ステージ(6)に供給するステップを含む、方法。
  26. コンピュータまたはプロセッサ上で作動するときに、請求項25に記載の方法を実行するためのコンピュータプログラム。
JP2018077152A 2013-10-22 2018-04-12 オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念 Active JP6768735B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13189754 2013-10-22
EP13189754.8 2013-10-22

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016525967A Division JP6588899B2 (ja) 2013-10-22 2014-10-20 オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念

Publications (2)

Publication Number Publication Date
JP2018151639A true JP2018151639A (ja) 2018-09-27
JP6768735B2 JP6768735B2 (ja) 2020-10-14

Family

ID=49447470

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016525967A Active JP6588899B2 (ja) 2013-10-22 2014-10-20 オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
JP2018077152A Active JP6768735B2 (ja) 2013-10-22 2018-04-12 オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016525967A Active JP6588899B2 (ja) 2013-10-22 2014-10-20 オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念

Country Status (20)

Country Link
US (3) US11170795B2 (ja)
EP (3) EP3061090B1 (ja)
JP (2) JP6588899B2 (ja)
KR (1) KR101882898B1 (ja)
CN (2) CN111580772B (ja)
AR (2) AR098153A1 (ja)
AU (1) AU2014339086B2 (ja)
BR (1) BR112016008933B1 (ja)
CA (1) CA2927664A1 (ja)
ES (2) ES2732304T3 (ja)
MX (1) MX358483B (ja)
MY (1) MY181977A (ja)
PL (2) PL3522157T3 (ja)
PT (2) PT3522157T (ja)
RU (1) RU2659490C2 (ja)
SG (1) SG11201603116XA (ja)
TR (1) TR201908748T4 (ja)
TW (1) TWI571865B (ja)
WO (1) WO2015059087A1 (ja)
ZA (1) ZA201603299B (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090120B2 (en) 2004-10-26 2012-01-03 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
JP6174129B2 (ja) 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
UA122050C2 (uk) 2013-01-21 2020-09-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
KR102660144B1 (ko) 2013-01-21 2024-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
US9607624B2 (en) * 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
CN110083714B (zh) 2013-04-05 2024-02-13 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
CN109785851B (zh) 2013-09-12 2023-12-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
CN110808723A (zh) 2014-05-26 2020-02-18 杜比实验室特许公司 音频信号响度控制
WO2016057530A1 (en) 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
FR3044814A1 (fr) * 2016-04-21 2017-06-09 Continental Automotive France Systeme et procede de controle du volume sonore dans un systeme multimedia
CN109643555B (zh) * 2016-07-04 2024-01-30 哈曼贝克自动系统股份有限公司 自动校正包含语音信号的音频信号中的响度级
CN106504766B (zh) * 2016-11-28 2019-11-26 湖南国科微电子股份有限公司 一种数字音频信号的动态范围压缩方法
KR20210090096A (ko) 2018-11-13 2021-07-19 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 및 연관된 메타데이터에 의해 공간 오디오를 표현하는 것
CN109889170B (zh) * 2019-02-25 2021-06-04 珠海格力电器股份有限公司 音频信号的控制方法和装置
CN113647120B (zh) 2019-03-14 2023-08-08 高迪奥实验室公司 用于控制响度级的音频信号处理装置
EP3761672B1 (en) * 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
US20220360899A1 (en) * 2019-07-30 2022-11-10 Dolby Laboratories Licensing Corporation Dynamics processing across devices with differing playback capabilities
KR20220071954A (ko) * 2020-11-24 2022-05-31 가우디오랩 주식회사 오디오 신호의 정규화를 수행하는 방법 및 이를 위한 장치
WO2023014738A1 (en) * 2021-08-03 2023-02-09 Zoom Video Communications, Inc. Frontend capture
US11837254B2 (en) 2021-08-03 2023-12-05 Zoom Video Communications, Inc. Frontend capture with input stage, suppression module, and output stage

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014128275A1 (en) * 2013-02-21 2014-08-28 Dolby International Ab Methods for parametric multi-channel encoding
JP2016525967A (ja) * 2013-06-07 2016-09-01 エシロール アテルナジオナール カンパニー ジェネラーレ デ オプティックEssilor International Compagnie Generale D’ Optique 眼鏡レンズの製造プロセス及びシステム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007523365A (ja) * 2004-01-16 2007-08-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビットストリーム処理方法
US7392195B2 (en) 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
CN101288309B (zh) * 2005-10-12 2011-09-21 三星电子株式会社 处理/发送以及接收/处理比特流的方法和设备
CN101098201A (zh) * 2006-06-29 2008-01-02 乐金电子(昆山)电脑有限公司 广播接收用移动装置的音频输出装置及其控制方法
EP2115739A4 (en) * 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
JP5530720B2 (ja) * 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5603339B2 (ja) * 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
US8600076B2 (en) * 2009-11-09 2013-12-03 Neofidelity, Inc. Multiband DRC system and method for controlling the same
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN101944362B (zh) * 2010-09-14 2012-05-30 北京大学 一种基于整形小波变换的音频无损压缩编码、解码方法
JP5821431B2 (ja) * 2011-09-02 2015-11-24 株式会社Jvcケンウッド 音声信号加工装置、音声信号加工方法及びプログラム
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
CN102768834B (zh) * 2012-03-21 2018-06-26 新奥特(北京)视频技术有限公司 一种实现音频帧解码的方法
JP6174129B2 (ja) * 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
US9173021B2 (en) * 2013-03-12 2015-10-27 Google Technology Holdings LLC Method and device for adjusting an audio beam orientation based on device location
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
CN103280221B (zh) * 2013-05-09 2015-07-29 北京大学 一种基于基追踪的音频无损压缩编码、解码方法及系统
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014128275A1 (en) * 2013-02-21 2014-08-28 Dolby International Ab Methods for parametric multi-channel encoding
JP2016525967A (ja) * 2013-06-07 2016-09-01 エシロール アテルナジオナール カンパニー ジェネラーレ デ オプティックEssilor International Compagnie Generale D’ Optique 眼鏡レンズの製造プロセス及びシステム

Also Published As

Publication number Publication date
US11551703B2 (en) 2023-01-10
CN105814630B (zh) 2020-04-28
AU2014339086B2 (en) 2017-12-21
PT3522157T (pt) 2021-12-03
MY181977A (en) 2021-01-18
US20160240204A1 (en) 2016-08-18
EP3061090B1 (en) 2019-04-17
JP6768735B2 (ja) 2020-10-14
EP3522157A1 (en) 2019-08-07
PT3061090T (pt) 2019-07-11
MX2016004921A (es) 2016-07-11
JP2016538587A (ja) 2016-12-08
JP6588899B2 (ja) 2019-10-09
EP3522157B1 (en) 2021-09-22
RU2659490C2 (ru) 2018-07-02
AU2014339086A1 (en) 2016-06-02
AR098153A1 (es) 2016-05-04
PL3061090T3 (pl) 2019-09-30
KR20160072255A (ko) 2016-06-22
ES2900065T3 (es) 2022-03-15
EP3061090A1 (en) 2016-08-31
TR201908748T4 (tr) 2019-07-22
BR112016008933A2 (ja) 2017-08-01
US20230134916A1 (en) 2023-05-04
CA2927664A1 (en) 2015-04-30
AR115941A2 (es) 2021-03-17
CN111580772B (zh) 2023-09-26
PL3522157T3 (pl) 2022-02-07
SG11201603116XA (en) 2016-05-30
EP3951778A1 (en) 2022-02-09
ES2732304T3 (es) 2019-11-21
ZA201603299B (en) 2017-11-29
US11170795B2 (en) 2021-11-09
CN105814630A (zh) 2016-07-27
KR101882898B1 (ko) 2018-07-27
TWI571865B (zh) 2017-02-21
BR112016008933B1 (pt) 2023-01-31
RU2016119525A (ru) 2017-11-28
WO2015059087A1 (en) 2015-04-30
CN111580772A (zh) 2020-08-25
US20210166707A1 (en) 2021-06-03
TW201521012A (zh) 2015-06-01
MX358483B (es) 2018-08-22

Similar Documents

Publication Publication Date Title
JP6768735B2 (ja) オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
USRE49107E1 (en) Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US10276173B2 (en) Encoded audio extended metadata-based dynamic range control
JP5603339B2 (ja) 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
US8355909B2 (en) Hybrid permanent/reversible dynamic range control system
JP6133408B2 (ja) 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード
TWI521502B (zh) 多聲道音訊的較高頻率和降混低頻率內容的混合編碼

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180514

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190729

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200507

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200507

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200515

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200701

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200923

R150 Certificate of patent or registration of utility model

Ref document number: 6768735

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250