JP2016520865A - オブジェクトベースの音声符号化システムにおけるバイパス音声オブジェクト信号を利用した情報に基づく音量推定のためのデコーダ、エンコーダ及び方法 - Google Patents

オブジェクトベースの音声符号化システムにおけるバイパス音声オブジェクト信号を利用した情報に基づく音量推定のためのデコーダ、エンコーダ及び方法 Download PDF

Info

Publication number
JP2016520865A
JP2016520865A JP2016509509A JP2016509509A JP2016520865A JP 2016520865 A JP2016520865 A JP 2016520865A JP 2016509509 A JP2016509509 A JP 2016509509A JP 2016509509 A JP2016509509 A JP 2016509509A JP 2016520865 A JP2016520865 A JP 2016520865A
Authority
JP
Japan
Prior art keywords
volume
audio
signal
audio object
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016509509A
Other languages
English (en)
Other versions
JP6218928B2 (ja
Inventor
ヨウニ パウルス、
ヨウニ パウルス、
ザシャ ディッシュ、
ザシャ ディッシュ、
ハーラルト フックス、
ハーラルト フックス、
ベルンハルト グリル、
ベルンハルト グリル、
オーリヴァー ヘルムート、
オーリヴァー ヘルムート、
アドリアン ムルタザ、
アドリアン ムルタザ、
ファルコ リッダーブッシュ、
ファルコ リッダーブッシュ、
レーオン テレンティーフ、
レーオン テレンティーフ、
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2016520865A publication Critical patent/JP2016520865A/ja
Application granted granted Critical
Publication of JP6218928B2 publication Critical patent/JP6218928B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control

Abstract

1つ以上の音声出力チャネルを含む音声出力信号を生成するためのデコーダが提供される。当該デコーダは、複数の音声オブジェクト信号を含む音声入力信号を受信し、音声オブジェクト信号についての音量情報を受信し、音声オブジェクト信号のうちの1つ以上を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するための受信インターフェース(110)を備える。更に、当該デコーダは、音声出力信号における1つ以上の音声出力チャネルを生成するための信号処理部(120)を備える。信号処理部(120)は、音量情報とレンダリング情報とに応じて音量補償値を決定するように構成される。更に、信号処理部(120)は、レンダリング情報と音量補償値とに応じて音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。1つ以上のバイパス音声オブジェクト信号を利用して音声出力信号を生成する。更に、エンコーダが提供される。【選択図】図9

Description

本発明は、音声信号符号化、処理及び復号に関するものであり、具体的には、オブジェクトベースの音声符号化システムにおける情報に基づく音量推定のためのデコーダ、エンコーダ及び方法に関するものである。
近年、音声符号化[BCC、JSC、SAOC、SAOC1、SAOC2]及び情報に基づくソースの分離[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]の分野において、多数の音声オブジェクト信号を含む音声シーンを、ビットレートの点で効率的に送信・記憶するためのパラメータ的な技術が提案されている。これらの技術は、送信・記憶された音声シーン及び/又は音声シーンにおけるソースオブジェクトを表す追加の補足情報に基づいて、所望の出力音声シーン又は音声ソースオブジェクトを復元することを目指すものである。この復元は、デコーダにおいて、情報に基づくソース分離方式を用いて行われる。復元されたオブジェクトを組み合わせて出力音声シーンを生成することができる。オブジェクトの組み合わせ方に応じて、出力シーンの知覚音量は変わり得る。
テレビ放送及びラジオ放送においては、様々な番組の音声トラックのボリュームレベルは、ピーク信号レベル又は音量レベルといった様々な側面に基づいて正規化することができる。信号の動的な特性に応じて、同じピークレベルを有する2つの信号は、大きく異なるレベルの知覚音量を有し得る。そして、番組又はチャネルを切り替えると、信号音量における差異は極めて不愉快なものとなるため、放送におけるエンドユーザの苦情の大きな原因となっていた。
先行技術では、全てのチャネルにおける全ての番組を、知覚的な信号音量に基づいた測定値を用いた共通の参照レベルと同じように標準化することが提案されていた。欧州におけるそのような勧告の1つがEBU勧告R128[EBU](以下R128と称する)である。
この勧告においては、「番組音量」、例えば1つの番組(又は1つのコマーシャル若しくはその他の意味のある番組エンティティ)に亘る平均音量が特定のレベルと等しい(僅かな差は許容される)ことが求められている。この勧告及び要求される標準化に従う放送局が増えるのに伴い、番組間及びチャネル間の平均音量の差を最小限に抑えることが求められる。
音量の推定は、いくつかの方法で実行することができる。音声信号の知覚音量を推定するためのいくつかの数学的モデルが存在する。EBU勧告R128は、音量推定に関し、ITU−R BS.1770(以下BS.1770と称する)([ITU]を参照)に呈示されたモデルを採用している。
上述のように、例えばEBU勧告R128によると、番組音量、例えば1つの番組に亘る平均音量は、僅かな差を許すものの特定のレベルに等しいことが求められる。しかしながら、これにより、音声レンダリングを行う際に大きな問題が発生する。この問題は、先行技術では現在に至るまで解決されていない。デコーダ側で音声レンダリングを行うことは、受信された音声入力信号の全体的・合計音量に大きな影響を及ぼす。しかしながら、シーンレンダリングが行われても、受信される音声信号の合計音量は同じであることが求められる。
現在、この問題に対して、特定のデコーダ側の解決策は存在しない。
欧州特許出願公開第2146522号([EP])は、オブジェクトベースのメタデータを用いて音声出力信号を生成するための概念に関する。少なくとも2つの異なる音声オブジェクト信号を重ね合わせたものを表す少なくとも1つの音声出力信号を生成するが、上記の問題の解決策をもたらすものではない。
国際公開第2008/035275号([BRE])においては、音声システムであって、ダウンミックス音声信号と、複数の音声オブジェクトを表すパラメータデータとを生成する符号化部で音声オブジェクトを符号化するエンコーダを備えるものが記載されている。ダウンミックス音声信号及びパラメータデータはデコーダへ送信され、このデコーダは、音声オブジェクトの近似のレプリカを生成する復号部と、音声オブジェクトから出力信号を生成するレンダリング部とを含む。デコーダは更に、エンコーダへ送信される符号化変更データを生成するための処理部を含む。次に、エンコーダは、符号化変更データに応じて音声オブジェクトの符号化に対して、特にパラメータデータに対して変更を加える。この方策により、音声オブジェクトの操作がデコーダによって制御されるが、完全又は部分的にエンコーダによって実行されることを可能にする。これにより、近似のレプリカに対してではなく、実際の独立の音声オブジェクトに対して操作を施すことによって性能を向上させることができる。
欧州特許出願公開第2146522号(「SCH」)においては、少なくとも2つの異なる音声オブジェクトを重ね合わせたものを表す少なくとも1つの音声出力信号を生成するための装置が開示されており、音声入力信号を処理して音声入力信号のオブジェクト表現を生成するための処理部を含み、このオブジェクト表現は、オブジェクトダウンミックス信号を用いて元のオブジェクトに対してパラメータ的に導かれた近似を行うことによって生成することができる。オブジェクト操作部は、個々の音声オブジェクトを参照しながら音声オブジェクトベースのメタデータを用いてオブジェクトを個々に操作し、操作後音声オブジェクトを得る。操作後音声オブジェクトは、オブジェクト混合部を用いて混合され、最終的に、特定のレンダリング設定に応じた1つ又はいくつかのチャネル信号を有する音声出力信号を得る。
国際公開第2008/046531号([ENG])においては、複数の音声オブジェクトを用いて符号化オブジェクト信号を生成するための音声オブジェクトコーダが記載されており、複数の音声オブジェクトを少なくとも2つのダウンミックスチャネルへと分配することを示すダウンミックス情報を生成するためのダウンミックス情報生成部と、音声オブジェクトについてのオブジェクトパラメータを生成するための音声オブジェクトパラメータ生成部と、ダウンミックス情報及びオブジェクトパラメータを用いて移入音声出力信号を生成するための出力インターフェースと、を備える。音声合成部がダウンミックス情報を用いて出力データを生成し、この出力データは、所定の音声出力構成の複数の出力チャネルを作成するために使用可能である。
出力平均音量又は平均音量における変化の正確な推定値を遅延なしに得ることが望まれており、番組が変化しない又はレンダリングシーンが変わらない場合、平均音量推定値もまた一定であり続けることが求められている。
[EP] EP 2146522 A1: S. Schreiner, W. Fiesel, M. Neusinger, O. Hellmuth, R. Sperschneider, ”Apparatus and method for generating audio output signals using object based metadata“, 2010. [BRE]国際公開第2008/035275号 [SCH]欧州特許出願公開第2146522号 [ENG]国際公開第2008/046531号
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [EBU] EBU Recommendation R 128 "Loudness normalization and permitted maximum level of audio signals", Geneva, 2011. [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006. [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010. [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010. [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011. [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011. [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011. [ITU] International Telecommunication Union: "Recommendation ITU-R BS.1770-3 - Algorithms to measure audio programme loudness and true-peak audio level", Geneva, 2012. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. [SAOC2] J. Engdegaard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),"ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2. [DE] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC) - Amendment 3, Dialogue Enhancement," ISO/IEC 23003-2:2010/DAM 3, Dialogue Enhancement.
本発明の目的は、向上した音声信号符号化、処理及び復号の概念を提供することである。本発明の目的は、請求項1に記載のデコーダ、請求項9に記載のエンコーダ、請求項11に記載のシステム、請求項12に記載の方法、請求項13に記載の方法、及び請求項15に記載のコンピュータプログラムによって解決される。
オブジェクトベースの音声符号化システムにおける出力の音量を推定するための情報に基づく方法が提供される。本願によって提供される概念は、デコーダに出力されるべき音声混合品中のオブジェクトの音量についての情報を利用する。デコーダは、この情報をレンダリング情報とともに用いて出力信号の音量を推定する。これによって、例えば、デフォルトダウンミックスとレンダリングされた出力との音量差を推定することができる。こうして、差異を補償することによって、レンダリング情報に関わらず、出力においておよそ一定の音量を得ることが可能となる。デコーダにおける音量の推定は、完全にパラメータ的な態様で行われ、信号ベースの音量推定概念と比較して計算上極めて軽く、正確である。
純粋にパラメータ的な概念を用いて特定の出力シーンの音量についての情報を得るための概念が提供され、これによって、デコーダにおける明示的な信号ベースの音量推定無しに音量処理を行うことが可能となる。更に、MPEGによって標準化された空間音声オブジェクト符号化(SAOC)[SAOC]の特定の技術が記載されるが、本願によって提供される概念は、他の音声オブジェクト符号化技術との関連でも用いることができる。
1つ以上の音声出力チャネルを含む音声出力信号を生成するためのデコーダが提供される。前記デコーダは、複数の音声オブジェクト信号を含む音声入力信号を受信し、前記音声オブジェクト信号についての音量情報を受信し、前記音声オブジェクト信号のうちの1つ以上を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するための受信インターフェースを備える。更に、前記デコーダは、前記音声出力信号における1つ以上の音声出力チャネルを生成するための信号処理部を備える。前記信号処理部は、前記音量情報と前記レンダリング情報とに応じて音量補償値を決定するように構成される。更に、前記信号処理部は、前記レンダリング情報と前記音量補償値とに応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。
実施例によると、前記信号処理部は、前記レンダリング情報と前記音量補償値とに応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成され、前記音声出力信号の音量が前記音声入力信号の音量に等しくなるように、又は、前記音声出力信号の音量が、前記レンダリング情報に従って前記音声入力信号の音声オブジェクト信号を増幅若しくは減衰させることによって、前記音声入力信号を変更した結果得られる変更後音声信号の音量よりも前記音声入力信号の音量に近くなるようにすることができる。
別の実施例によると、前記音声入力信号の音声オブジェクト信号の各々は、2つ以上の群(group)のうちの丁度1群に割り当てることができ、前記2つ以上の群の各々は、前記音声入力信号の音声オブジェクト信号のうちの1つ以上を含むことができる。このような実施例では、前記受信インターフェースは、前記2つ以上の群の各群についての音量値を前記音量情報として受信するように構成することができ、前記音量値は、前記群における1つ以上の音声オブジェクト信号の元の合計音量を示す。更に、前記受信インターフェースは、前記群における1つ以上の音声オブジェクト信号の変更後合計音量を示すことによって、前記2つ以上の群のうちの少なくとも1群について、前記群における1つ以上の音声オブジェクト信号を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するように構成することができる。更に、そのような実施例においては、前記信号処理部は、前記2つ以上の群のうちの少なくとも1群の各々についての変更後合計音量と、前記2つ以上の群の各々についての元の合計音量とに応じて、前記音量補償値を決定するように構成することができる。更に、前記信号処理部は、前記2つ以上の群のうちの少なくとも1群の各々についての変更後合計音量と前記音量補償値とに応じて、前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成することができる。
特定の実施例においては、前記2つ以上の群のうちの少なくとも1群は、前記音声オブジェクト信号のうちの2つ以上を含むことができる。
更に、エンコーダが提供される。前記エンコーダは、複数の音声オブジェクト信号を符号化することによって、前記複数の音声オブジェクト信号を含む符号化音声信号を得るためのオブジェクトベースの符号化部を備える。更に、前記エンコーダは、前記音声オブジェクト信号についての音量情報を符号化するためのオブジェクト音量符号化部を備える。前記音量情報は、1つ以上の音量値を含み、前記1つ以上の音量値の各々は、前記音声オブジェクト信号のうちの1つ以上に依存する。
実施例によると、前記符号化後音声信号の音声オブジェクト信号の各々は、2つ以上の群のうちの丁度1群に割り当てることができ、前記2つ以上の群の各々は、前記符号化後音声信号の音声オブジェクト信号のうちの1つ以上を含む。前記オブジェクト音量符号化部は、前記2つ以上の群のうちの各群についての音量値を決定することにより、前記音量情報についての1つ以上の音量値を決定するように構成することができ、前記群の音量値は、前記群における1つ以上の音声オブジェクト信号の元の合計音量を示す。
更に、システムが提供される。前記システムは、複数の音声オブジェクト信号を符号化することによって、前記複数の音声オブジェクト信号を含む符号化後音声信号を得るとともに、前記音声オブジェクト信号についての音量情報を符号化するための、上述の実施例のうちの1つに従うエンコーダを備える。更に、前記システムは、1つ以上の音声出力チャネルを含む音声出力信号を生成するための、上述の実施例のうちの1つに従うデコーダを備える。前記デコーダは、音声入力信号として前記符号化後音声信号と、前記音量情報とを受信するように構成される。更に、前記デコーダは、更に、レンダリング情報を受信するように構成される。更に、前記デコーダは、前記音量情報と前記レンダリング情報とに応じて音量補償値を決定するように構成される。更に、前記デコーダは、前記レンダリング情報と前記音量補償値とに応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。
更に、1つ以上の音声出力チャネルを含む音声出力信号を生成するための方法が提供される。前記方法は、
・複数の音声オブジェクト信号を含む音声入力信号を受信するステップと、
・前記音声オブジェクト信号についての音量情報を受信するステップと、
・前記音声オブジェクト信号のうちの1つ以上を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するステップと、
・前記音量情報と前記レンダリング情報とに応じて音量補償値を決定するステップと、
・前記レンダリング情報と前記音量補償値とに応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するステップと、
を備える。
更に、符号化するための方法が提供される。前記方法は、
・複数の音声オブジェクト信号を含む音声入力信号を符号化するステップと、
・前記音声オブジェクト信号についての音量情報を符号化するステップと、を備え、前記音量情報は、1つ以上の音量値を含み、前記1つ以上の音量値の各々は、前記音声オブジェクト信号のうちの1つ以上に依存する。
更に、コンピュータ又は信号プロセッサにおいて実行されたときに上述の方法を実現するためのコンピュータプログラムが提供される。
好ましい実施例が従属請求項に記載される。
以下、本発明の実施例について、添付の図面を参照してより詳細に説明する。
図1は、一実施例による1つ以上の音声出力チャネルを含む音声出力信号を生成するためのデコーダを示す図である。 図2は、一実施例によるエンコーダを示す図である。 図3は、一実施例によるシステムを示す図である。 図4は、SAOCエンコーダ及びSAOCデコーダを含む空間音声オブジェクト符号化システムを示す図である。 図5は、補足情報デコーダ、オブジェクト分離部及びレンダリング部を含むSAOCデコーダを示す図である。 図6は、音量の変化についての出力信号音量推定値の挙動を示す図である。 図7は、一実施例による情報に基づく音量の推定を示し、一実施例によるエンコーダ及びデコーダの各構成要素を示す図である。 図8は、もう1つの実施例によるエンコーダを示す図である。 図9は、バイパスチャネルを含む、SAOC会話増強(SAOC-Dialog Enhancement)に関する一実施例によるエンコーダ及びデコーダを示す図である。 図10は、測定された音量変化と、パラメータ的な態様で音量の変化を推定する、本願によって提供される概念を用いた結果とを示す第1のグラフである。 図11は、測定された音量変化と、パラメータ的な態様で音量の変化を推定する、本願によって提供される概念を用いた結果とを示す第2のグラフである。 図12は、音量補償を行うもう1つの実施例を示す図である。
好ましい実施例を詳細に説明する前に、音量推定、空間音声オブジェクト符号化(SAOC)及び会話増強(DE)について説明する。
最初に、音量推定について説明する。
上述のように、EBU勧告R128は、音量推定にITU−R BS.1770に呈示のモデルを利用する。この測定を例として用いるが、以下に記載の概念は、他の音量測定に対しても適用可能である。
BS.1770に従う音量推定の演算は比較的簡単であり、以下の主要なステップに基づく[ITU]。
・入力信号x(マルチチャネル信号の場合は複数の信号)をKフィルタ(シェルビングフィルタとハイパスフィルタとの組み合わせ)でフィルタリングして信号yを得る。
・信号yの平均二乗エネルギーzを算出する。
・マルチチャネル信号の場合、チャネル重みGを適用し、重み付けされた信号を合計する。次に、信号の音量を
Figure 2016520865
と定義し、ここで、一定の値c=−0.691である。次に、この出力を「LKFS」(フルスケールに対してKで重み付けされた音量)の単位で表現する。これはデシベルスケールと同様にスケーリングする。
上記の式では、チャネルのうちのいくつかについては、Gは例えば1に等しくても良く、いくつかの他のチャネルについては、Gは例えば1.41であり得る。例えば、左チャネル、右チャネル、中央チャネル、左周囲チャネル及び右周囲チャネルを考慮した場合、それぞれの重みGは、左、右及び中央のチャネルについて例えば1とすることができ、左周囲チャネル及び右周囲チャネルについては例えば1.41とすることができる。[ITU]を参照。
音量値Lは、信号エネルギーの対数に緊密に関係していることが分かる。
以下、空間音声オブジェクト符号化について説明する。
オブジェクトベースの音声符号化の概念によって、チェーンにおけるデコーダ側での柔軟性を高めることができる。オブジェクトベースの音声符号化の概念の一例が空間音声オブジェクト符号化(SAOC)である。
図4は、SAOCエンコーダ410及びSAOCデコーダ420を含む空間音声オブジェクト符号化(SAOC)システムを示す。
Figure 2016520865
Figure 2016520865
図5は、補足情報デコーダ510、オブジェクト分離部520及びレンダリング部530を含むSAOCデコーダを示す。図5に示すSAOCデコーダは、例えば、SAOCエンコーダからダウンミックス信号及び補足情報を受信する。このダウンミックス信号は、音声オブジェクト信号を含む音声入力信号と見做すことができるが、それは、音声オブジェクト信号同士がダウンミックス信号内で混合される(音声オブジェクト信号同士が、ダウンミックス信号における1つ以上のダウンミックスチャネル内で混合される)からである。
Figure 2016520865
Figure 2016520865
例えば、以下の式を利用して、デコーダ側で音声オブジェクト信号を復元することができる。
Figure 2016520865
Figure 2016520865
Figure 2016520865
図5においては、例えばオブジェクト分離部520によって行われるオブジェクト復元のプロセスは、必ずしも行われる必要がない場合もあるため、「仮想的」又は「任意の」という概念で言及されるが、復元ステップとレンダリングステップとをパラメータ領域で組み合わせる(即ち式同士を組み合わせる)ことによって所望の機能を得ることができる。
Figure 2016520865
例えば、以下の式を利用することができる。
Figure 2016520865
Figure 2016520865
以下、会話増強(DE)について説明する。このシナリオを実現するために、例えばSAOC技術を利用することができる。なお、「会話増強」という呼称は会話指向の信号に焦点を当てていることを示唆しているが、同じ原理を他の信号タイプに用いても良い。
DEシナリオにおいては、システムにおける自由度が一般的な場合よりも制限される。
Figure 2016520865
Figure 2016520865
Figure 2016520865
に従ってFGO及びBGOを或るスカラ重みと混合することによって得られ、出力シーンは、同様に、
Figure 2016520865
に従ってFGO及びBGOについての或るスカラ重み付けによって得られる。混合重みの相対値に応じてFGO及びBGOの間のバランスは変化し得る。例えば、
Figure 2016520865
という設定では、混合品においてFGOの相対レベルを上昇させることができる。もしFGOが会話であれば、この設定は会話増強機能をもたらす。
使用の場合の例として、BGOはスポーツイベント中の競技場の騒音及びその他の背景音等であり、FGOは解説者の声である。DE機能によって、エンドユーザは、背景に対して解説者のレベルを相対的に増幅する又は減衰させることが可能になる。
実施例は、放送シナリオにおいてSAOC技術(又は類似のもの)を利用することによって、エンドユーザへ拡張された信号操作機能を提供することができるという知見に基づいている。単にチャネルを変更したり再生ボリュームを調節したりする以上の機能が提供される。
DE技術を利用する1つの可能性については簡単に上述した通りである。SAOCのためのダウンミックス信号である放送信号が、例えばR128に従ってレベルにおいて標準化される場合、(SAOC)処理を適用しないとき、異なる番組は同様の平均音量を有する(又は、レンダリングについての説明は、ダウンミックスについての説明と同じである)。しかし、或る(SAOC)処理を適用した場合、出力信号は、デフォルトのダウンミックス信号と異なることになり、出力信号の音量は、デフォルトのダウンミックス信号の音量とは異なる場合がある。エンドユーザの視点からは、これによってチャネル間又は番組間の出力信号音量が再び望ましくない急な変動又は差異を有することがあり得るという状況になる恐れがある。換言すると、放送局によって適用された標準化の利益が部分的に失われる。
この問題は、SAOC又はDEシナリオのみに特有のものではなく、エンドユーザがコンテンツと関わることを可能にする他の音声符号化概念の場合でも発生し得る。しかし、多くの場合、出力信号がデフォルトのダウンミックスとは異なる音量を有する場合には何の不具合も引き起こさない。
上述のように、音声入力信号番組の合計音量は、僅かな差を許容するが特定のレベルと等しいことが求められる。しかし、上述のように、これによって、音声レンダリングを行った際に大きな問題が生じることになるが、それは、受信された音声入力信号の全体・合計音量に対してレンダリングが大きな影響を及ぼし得るからである。しかし、シーンレンダリングを行っても、受信された音声信号の合計音量は同じであり続けることが求められる。
1つの方策として、信号が再生されている間その音量を推定するというものがあり、適切な時間積分の概念によって、或る時間の経過後に推定値は真の平均音量に収束することがあり得る。しかしながら、収束に必要とされる時間は、エンドユーザーの視点からは問題を含む。信号に変更が適用されていない時でも音量の推定値が変化した場合、音量変化補償もまたこれに対応してその挙動を変化させることが求められる。これによって、出力信号の平均音量が一時的に変動することになり、これはかなり迷惑なものとして知覚される恐れがある。
図6は、音量変化に対する出力信号音量の推定値の挙動を示す。特に、上述の解決策の効果を示す信号ベースの出力信号音量の推定値を示す。この推定値は、正しい推定値にかなりゆっくりと近づく。信号ベースの出力信号音量の推定の代わりに、出力信号音量を直ちに正しく決定する情報に基づく出力信号音量推定が好ましい。
具体的には、図6において、ユーザの入力、例えば会話オブジェクトのレベルは、値の増加によって時点Tで変化する。真の出力信号レベル、及びこれに対応して音量は、同じ時点で変化する。或る時間積分の時間で出力信号から出力信号音量の推定が行われると、推定値は徐々に変化し、或る遅延の後に正しい値に達する。この遅延中、推定値は変化しており、更に出力信号を処理する、例えば音量レベルを訂正するために信頼できるものとして使用することができない。
上述のように、出力平均音量又は平均音量の変化の正確な推定値を遅延なしに得ることが望ましく、番組の変更がない、又はレンダリングシーンの変化がない場合、平均音量の推定値もまた静的であり続けることが求められる。換言すると、或る音量変化補償を適用する場合、番組の変更があるかユーザによる何らかの対話がある時にだけ補償パラメータが変化することが求められる。
望ましい挙動を図6の最下段(情報に基づく出力信号音量の推定値)に示す。出力信号音量の推定値は、ユーザ入力が変化した直後に変化することが求められる。
図2は、一実施例によるエンコーダを示す。
このエンコーダは、複数の音声オブジェクト信号を符号化することによって、複数の音声オブジェクト信号を含む符号化後音声信号を得るためのオブジェクトベースの符号化部210を含む。
更に、エンコーダは、音声オブジェクト信号についての音量情報を符号化するためのオブジェクト音量符号化部220を含む。音量情報は、1つ以上の音量値を含み、この1つ以上の音量値の各々は、音声オブジェクト信号のうちの1つ以上に依存する。
実施例によると、符号化後音声信号の音声オブジェクト信号の各々は、2つ以上の群のうちの丁度1群に割り当てられ、2つ以上の群の各々は、符号化後音声信号の音声オブジェクト信号のうちの1つ以上を含む。オブジェクト音量符号化部220は、2つ以上の群の各群についての音量値を決定することによって、音量情報における1つ以上の音量値を決定するように構成され、当該群の音量値は、当該群における1つ以上の音声オブジェクト信号の元の合計音量を示す。
図1は、一実施例による1つ以上の音声出力チャネルを含む音声出力信号を生成するためのデコーダを示す。
このデコーダは、複数の音声オブジェクト信号を含む音声入力信号を受信し、音声オブジェクト信号についての音量情報を受信し、音声オブジェクト信号のうちの1つ以上を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するための受信インターフェース110を備える。
更に、デコーダは、音声出力信号における1つ以上の音声出力チャネルを生成するための信号処理部120を備える。信号処理部120は、音量情報とレンダリング情報とに応じて音量補償値を決定するように構成される。更に、信号処理部120は、レンダリング情報と音量補償値とに応じて音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。
実施例によると、信号処理部110は、レンダリング情報と音量補償値とに応じて音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成され、音声出力信号の音量が音声入力信号の音量に等しくなるように、又は、音声出力信号の音量が、レンダリング情報に従って音声入力信号の音声オブジェクト信号を増幅若しくは減衰させることによって音声入力信号を変更した結果得られる変更後音声信号の音量よりも音声入力信号の音量に近くなるようになる。
別の実施例によると、音声入力信号の音声オブジェクト信号の各々は、2つ以上の群のうちの丁度1群に割り当てられ、2つ以上の群の各々は、音声入力信号の音声オブジェクト信号のうちの1つ以上を含む。
このような実施例では、受信インターフェース110は、2つ以上の群の各群についての音量値を音量情報として受信するように構成され、当該音量値は、当該群における1つ以上の音声オブジェクト信号の元の合計音量を示す。更に、受信インターフェース110は、当該群における1つ以上の音声オブジェクト信号の変更後合計音量を示すことによって、2つ以上の群のうちの少なくとも1群について、当該群における1つ以上の音声オブジェクト信号を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するように構成される。更に、そのような実施例においては、信号処理部120は、当該2つ以上の群のうちの少なくとも1群の各々についての変更後合計音量と、2つ以上の群の各々についての元の合計音量とに応じて音量補償値を決定するように構成される。更に、信号処理部120は、当該2つ以上の群のうちの少なくとも1群の各々についての変更後合計音量と音量補償値とに応じて音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。
特定の実施例においては、2つ以上の群のうちの少なくとも1群は、音声オブジェクト信号のうちの2つ以上を含む。
以下の式に従って、音声オブジェクト信号iのエネルギーeと、音声オブジェクト信号iの音量Lとの間には直接関係が存在する。
Figure 2016520865
ここで、cは一定の値である。
実施例は、以下の知見に基づいている。即ち、音声入力信号における異なる音声オブジェクト信号は、異なる音量を有し得るため、異なるエネルギーを有し得る。例えば、ユーザが音声オブジェクト信号のうちの1つについての音量を増加させることを望む場合、レンダリング情報はこれに対応して調節することができ、この音声オブジェクト信号の音量の増加によって、この音声オブジェクトのエネルギーを増加させる。これによって、音声出力信号の音量が増大することになる。合計音量を一定に保つためには、音量補償を行う必要がある。換言すると、音声入力信号にレンダリング情報を適用することの結果としてもたらされる変更後音声信号を調節しなければならなくなる。しかしながら、変更後音声信号の合計音量に対する音声オブジェクト信号のうちの1つについての増幅の正確な影響は、増幅した音声オブジェクト信号、例えば音量を増加させる音声オブジェクト信号の元の音量に依存する。このオブジェクトの元の音量が、極めて低かったエネルギーに対応する場合、音声入力信号の合計音量による影響は小さいものとなる。しかし、上記オブジェクトの元の音量が、かなり高かったエネルギーに対応する場合、音声入力信号の合計音量による影響は大きなものとなる。
2つの例を検討することができる。両方の例において、音声入力信号は、2つの音声オブジェクト信号を含み、且つ、両方の例において、レンダリング情報を適用することによって、音声オブジェクト信号のうちの第1のもののエネルギーは50%増加する。
第1の例においては、音声入力信号の合計エネルギーに対して、第1の音声オブジェクト信号は20%寄与し、第2の音声オブジェクト信号は80%寄与する。しかしながら、第2の例においては、音声入力信号の合計エネルギーに対して、第1の音声オブジェクト信号は40%寄与し、第2の音声オブジェクト信号は60%寄与する。音量とエネルギーとの間に直接関係が存在することから、両方の例において、これらの寄与分は、音声オブジェクト信号についての音量情報から導き出すことができる。
第1の例においては、第1の音声オブジェクトのエネルギーが50%増加した結果、レンダリング情報を音声入力信号に適用することで生成される変更後音声信号は、音声入力信号のエネルギーの1.5×20%+80%=110%の合計エネルギーを有する。
第2の例においては、第1の音声オブジェクトのエネルギーが50%増加した結果、レンダリング情報を音声入力信号に適用することで生成される変更後音声信号は、音声入力信号のエネルギーの1.5×40%+60%=120%の合計エネルギーを有する。
従って、音声入力信号にレンダリング情報を適用した後、第1の例では、音声入力信号及び音声出力信号の両方において等しいエネルギーを得るためには、変更後音声信号の合計エネルギーを9%(10/110)減少させるだけで良いのに対し、第2の例では、変更後音声信号の合計エネルギーを17%(20/120)減少させる必要がある。この目的のために、音量補償値を計算することができる。
例えば、音量補償値は、音声出力信号の音声出力チャネルすべてに適用されるスカラーとすることができる。
実施例によると、信号処理部は、レンダリング情報に従って音声入力信号の音声オブジェクト信号を増幅又は減衰させることによって音声入力信号を変更することで、変更後音声信号を生成するように構成される。更に、信号処理部は、変更後音声信号に対して音量補償値を適用することによって音声出力信号を生成するように構成され、音声出力信号の音量が音声入力信号の音量に等しくなるように、又は、音声出力信号の音量が、変更後音声信号の音量よりも音声入力信号の音量に近くなるようにする。
例えば、上述の第1の例においては、音量補償値lcvを、例えばlcv=10/11の値に設定することができ、レンダリング情報に従って音声入力チャネルをレンダリングした結果得られるチャネル全てに対して10/11の増倍率を適用することができる。
従って、例えば、上述の第2の例においては、音量補償値lcvを、例えばlcv=10/12=5/6の値に設定することができ、レンダリング情報に従って音声入力チャネルをレンダリングした結果得られるチャネル全てに対して5/6の増倍率を適用することができる。
他の実施例においては、音声オブジェクト信号の各々を、複数の群のうちの1つに割り当てて、群の各々について、当該群の音声オブジェクト信号の合計音量値を示す音量値を送信することができる。レンダリング情報において、これらの群のうちの1つについてのエネルギーを減衰させる又は増幅する、例えば上述のように50%増幅することが特定される場合、上述のように合計エネルギー増加分を計算して音量補償値を決定することができる。
例えば、実施例によると、音声入力信号の音声オブジェクト信号の各々は、2つ以上の群としての丁度2つの群のうちの丁度1群に割り当てられる。音声入力信号の音声オブジェクト信号の各々は、丁度2つの群のうちの前景オブジェクト群か、丁度2つの群のうちの背景オブジェクト群に割り当てられる。受信インターフェース110は、前景オブジェクト群における1つ以上の音声オブジェクト信号の元の合計音量を受信するように構成される。更に、受信インターフェース110は、背景オブジェクト群における1つ以上の音声オブジェクト信号の元の合計音量を受信するように構成される。更に、受信インターフェース110は、丁度2つの群のうちの少なくとも1群について、当該群における1つ以上の音声オブジェクト信号の変更後合計音量を示すことによって当該少なくとも1群の各々における1つ以上の音声オブジェクト信号を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するように構成される。
このような実施例においては、信号処理部120は、当該少なくとも1群の各々についての変更後合計音量と、前景オブジェクト群における1つ以上の音声オブジェクト信号の元の合計音量と、背景オブジェクト群における1つ以上の音声オブジェクト信号の元の合計音量とに応じて、音量補償値を決定するように構成される。更に、信号処理部120は、当該少なくとも1群の各々についての変更後合計音量と音量補償値とに応じて、音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。
いくつかの実施例によると、音声オブジェクト信号の各々は、3つ以上の群のうちの1つに割り当てられ、受信インターフェースは、これら3つ以上の群の各々について、当該群の音声オブジェクト信号の合計音量を示す音量値を受信するように構成することができる。
実施例によると、2つ以上の音声オブジェクト信号の合計音量値を決定するために、例えば、音量値に対応するエネルギー値を各々の音声オブジェクト信号について決定し、音量値全てのエネルギー値を合計してエネルギー和を得て、エネルギー和に対応する音量値を2つ以上の音声オブジェクト信号の合計音量値として決定する。例えば、
Figure 2016520865
の式を利用することができる。
いくつかの実施例においては、音声オブジェクト信号の各々について音量値を送信し、又は、音声オブジェクト信号の各々を1つ若しくは2つ以上の群に割り当て、群の各々について音量値を送信する。
一方、いくつかの実施例においては、1つ以上の音声オブジェクト信号について、又は音声オブジェクト信号を含む群のうちの1つ以上について、音量値を送信しない。その代わりに、デコーダは、例えば、音量値を送信しない音声オブジェクト信号又は音声オブジェクト信号群が所定の音量値を有すると想定しても良い。デコーダは、例えば、全ての更なる決定をこの所定の音量値に基づかせても良い。
実施例においては、受信インターフェース110は、1つ以上のダウンミックスチャネルを含むダウンミックス信号を音声入力信号として受信するように構成され、1つ以上のダウンミックスチャネルは音声オブジェクト信号を含み、音声オブジェクト信号の数は、1つ以上のダウンミックスチャネルの数よりも小さい。受信インターフェース110は、1つ以上のダウンミックスチャネル内で音声オブジェクト信号同士をどのように混合するのかを示すダウンミックス情報を受信するように構成される。更に、信号処理部120は、ダウンミックス情報とレンダリング情報と音量補償値とに応じて、音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。特定の実施例においては、信号処理部120は、例えば、ダウンミックス情報に応じて音量補償値を算出するように構成しても良い。
例えば、ダウンミックス情報は、ダウンミックス行列であり得る。実施例においては、デコーダは、SAOCデコーダであり得る。このような実施例においては、受信インターフェース110は、例えば、更に、共分散情報、例えば上述の共分散行列を受信するように構成することができる。
Figure 2016520865
図3は、一実施例によるシステムを示す。
このシステムは、複数の音声オブジェクト信号を符号化することによって、複数の音声オブジェクト信号を含む符号化音声信号を得るための、上述の実施例のうちの1つによるエンコーダ310を備える。
更に、このシステムは、1つ以上の音声出力チャネルを含む音声出力信号を生成するための、上述の実施例のうちの1つによるデコーダ320を備える。このデコーダは、音声入力信号としての符号化された音声信号と音量情報とを受信するように構成される。更に、デコーダ320は、更に、レンダリング情報を受信するように構成される。更に、デコーダ320は、音量情報とレンダリング情報とに応じて音量補償値を決定するように構成される。更に、デコーダ320は、レンダリング情報と音量補償値とに応じて音声入力信号から音声出力信号における1つ以上の音声出力チャネルを生成するように構成される。
図7は、実施例による情報に基づく音量推定を示す。トランスポートストリーム730の左側において、オブジェクトベースの音声符号化エンコーダの各構成要素を示す。特に、オブジェクトベースの符号化部710(「オブジェクトベースの音声エンコーダ」)及びオブジェクト音量符号化部720を示す(「オブジェクト音量推定」)。
Figure 2016520865
Figure 2016520865
Figure 2016520865
Figure 2016520865
Figure 2016520865
以下、会話増強応用例における好ましい実施例について説明する。
会話増強応用例においては、上述のように、入力音声オブジェクト信号をグループ化して部分的にダウンミックスすることによって2つのメタオブジェクトFGO及びBGOを生成し、次にこれらを自明に合計して最終的なダウンミックス信号を得ることができる。
Figure 2016520865
Figure 2016520865
Figure 2016520865
へと分割することができる。
Figure 2016520865
これらの新たなダウンミックス行列は、入力オブジェクトから2つのメタオブジェクトを得る方法を表す。即ち、
Figure 2016520865
であり、実際のダウンミックスは、以下のように簡略化される。
Figure 2016520865
また、オブジェクト(例えばSAOC)デコーダがメタオブジェクトを復元することを試みることについて、以下により検討することができ、
Figure 2016520865
DEに特有のレンダリングは、これら2つのメタオブジェクト復元の組み合わせとして以下のように書くことができる。
Figure 2016520865
Figure 2016520865
これに代えて、メタオブジェクトのうちの1つ、例えばFGOを参照値として用い、これら2つのオブジェクトの音量差を、例えば
Figure 2016520865
のように算出することができる。次に、この単一の値を送信及び/又は記憶する。
図8は、もう1つの実施例によるエンコーダを示す。図8のエンコーダは、オブジェクトダウンミックス部811及びオブジェクト補足情報推定部812を備える。また、図8のエンコーダは、更に、オブジェクト音量符号化部820を備える。更に、図8のエンコーダは、メタ音声オブジェクト混合部805を備える。
図8のエンコーダは、中間音声メタオブジェクトをオブジェクト音量推定への入力として用いる。実施例においては、図8のエンコーダは、2つの音声メタオブジェクトを生成するように構成することができる。他の実施例においては、図8のエンコーダは、3つ以上の音声メタオブジェクトを生成するように構成することができる。
特に、本願によって提供される概念は、エンコーダが例えば全ての入力オブジェクトの平均音量を推定することができるという新たな特徴を提供する。オブジェクトは、例えば、混合してダウンミックス信号とすることができ、これを送信する。更に、本願によって提供される概念は、オブジェクト音量及びダウンミックス情報が、例えば送信されるオブジェクト符号化補足情報に含めることができるという新たな特徴を提供する。
デコーダは、例えば、オブジェクト符号化補足情報を用いてオブジェクトを(仮想的に)分離し、レンダリング情報を用いてオブジェクトを再び組み合わせることができる。
更に、本願によって提供される概念は、ダウンミックス情報を用いてデフォルトのダウンミックス信号の音量を推定することができる、レンダリング情報及び受信したオブジェクト音量を用いて出力信号の平均音量を推定することができる、且つ/又は、音量変化をこれら2つの値から推定することができるという新たな特徴を提供する。或いは、ダウンミックス情報及びレンダリング情報を用いてデフォルトのダウンミックスから音量変化を推定することができ、これは本願によって提供される概念のもう1つの新たな特徴である。
更に、本願によって提供される概念は、デコーダ出力を変更して音量変化を補償することによって、変更後の信号の平均音量をデフォルトのダウンミックスの平均音量と一致させることができるという新たな概念を提供する。
Figure 2016520865
バイパスチャネルは、様々な方法で処理することができる。
例えば、バイパスチャネルは、独立のメタオブジェクトを形成することができる。これによって、3つのメタオブジェクト全てが独立にスケーリングされるようにレンダリングを規定することが可能になる。
Figure 2016520865
或いは、例えば、バイパスチャネルを無視しても良い。
実施例によると、エンコーダのオブジェクトベースの符号化部210は、音声オブジェクト信号を受信するように構成され、音声オブジェクト信号の各々は、丁度2つの群のうちの丁度1つに割り当てられ、丁度2つの群の各々は、音声オブジェクト信号のうちの1つ以上を含む。更に、オブジェクトベースの符号化部210は、丁度2つの群に含まれる音声オブジェクト信号をダウンミックスすることによって、1つ以上のダウンミックス音声チャネルを含むダウンミックス信号を、符号化された音声信号として得るように構成され、1つ以上のダウンミックスチャネルの数は、丁度2つの群に含まれる音声オブジェクト信号の数よりも小さい。オブジェクト音量符号化部220は、1つ以上の更なるバイパス音声オブジェクト信号を受け取るように割り当てられ、1つ以上の更なるバイパス音声オブジェクト信号の各々は、第3の群に割り当てられ、1つ以上の更なるバイパス音声オブジェクト信号の各々は、第1の群に含まれず、且つ第2の群に含まれず、オブジェクトベースの符号化部210は、ダウンミックス信号内で1つ以上の更なるバイパス音声オブジェクト信号をダウンミックスしないように構成される。
実施例においては、オブジェクト音量符号化部220は、音量情報の第1の音量値、第2の音量値及び第3の音量値を決定するように構成され、第1の音量値は、第1の群における1つ以上の音声オブジェクト信号の合計音量を示し、第2の音量値は、第2の群における1つ以上の音声オブジェクト信号の合計音量を示し、第3の音量値は、第3の群における1つ以上の更なるバイパス音声オブジェクト信号の合計音量を示す。別の実施例においては、オブジェクト音量符号化部220は、音量情報の第1の音量値及び第2の音量値を決定するように構成され、第1の音量値は、第1の群における1つ以上の音声オブジェクト信号の合計音量を示し、第2の音量値は、第2の群における1つ以上の音声オブジェクト信号と、第3の群における1つ以上の更なるバイパス音声オブジェクト信号との合計音量を示す。
実施例によると、デコーダの受信インターフェース110は、ダウンミックス信号を受信するように構成される。更に、受信インターフェース110は、1つ以上の更なるバイパス音声オブジェクト信号を受信するように構成され、1つ以上の更なるバイパス音声オブジェクト信号は、ダウンミックス信号内で混合されない。更に、受信インターフェース110は、ダウンミックス信号内で混合される音声オブジェクト信号の音量についての情報を示し、かつ、ダウンミックス信号内で混合されない1つ以上の更なるバイパス音声オブジェクト信号の音量についての情報を示す音量情報を受信するように構成される。更に、信号処理部120は、ダウンミックス信号内で混合される音声オブジェクト信号の音量についての情報と、ダウンミックス信号内で混合されない1つ以上の更なるバイパス音声オブジェクト信号の音量についての情報とに応じて音量補償値を決定するように構成される。
図9は、バイパスチャネルを含むSAOC−DEに関連した実施例によるエンコーダ及びデコーダを示す。特に、図9のエンコーダは、SAOCエンコーダ902を含む。
Figure 2016520865
これらメタオブジェクト両方の知覚音量LBYPASS,LFGO,LBGOは、音量推定部921,922,923で推定される。次に、この音量情報を、メタオブジェクト音量情報推定部925で適当な符号化へ変換してから送信及び/又は記憶する。
Figure 2016520865
Figure 2016520865
「バイパス内包」部955は、この情報を、レンダリングされた出力シーン及びバイパス信号とともに受け取り、完全な出力シーン信号を作成する。また、SAOCデコーダ945は、1組のメタオブジェクトゲイン値を生成するが、これらの量は、メタオブジェクトのグループ化及び所望の音量情報形式に依存する。
ゲイン値は、混合品音量推定部960に出力される。混合品音量推定部は、更に、エンコーダからメタオブジェクト音量情報を受け取る。
次に、混合品音量推定部960は、所望の音量情報を決定することができる。この情報は、ダウンミックス信号の音量、レンダリングされた出力シーンの音量、及び/又はダウンミックス信号とレンダリングされた出力シーンとの音量差を含み得るが、これらに限定されない。
いくつかの実施例においては、音量情報それ自体で十分であるが、他の実施例においては、決定された音量情報に応じて完全な出力に処理を施すことが望ましい。この処理は、例えば、ダウンミックス信号とレンダリングされた出力シーンとの音量差があった場合のその補償であり得る。例えば音量処理部970によるこのような処理は放送シナリオにおいて意味があるが、それはユーザ対話(「会話ゲイン」の入力の設定)に関わらず知覚信号音量の変化を減少させるからである。
この特定の実施例における音量関係の処理は、複数の新たな特徴を含む。特に、FGO、BGO及び可能なバイパスチャネルを予め混合して最終的なチャネル構成にすることによって、2つの予め混合された信号を加算する(例えば、1のダウンミックス行列係数)だけでダウンミックスを行えるようにするが、これは新たな特徴を構成する。また、更なる新たな特徴として、FGO及びBGOの平均音量を推定し、差を算出する。更に、オブジェクト同士を混合してダウンミックス信号とし、これを送信する。また、更に新たな特徴として、音量差情報を、送信される補足情報に含める(新規)。更に、デコーダは、補足情報を用いてオブジェクトを(仮想的に)分離し、ダウンミックス情報とユーザの入力した変更ゲインとに基づいたレンダリング情報を用いてオブジェクト同士を再び組み合わせる。更に、もう1つの新たな特徴として、デコーダは、変更ゲイン及び送信された音量情報を用いて、デフォルトのダウンミックスと比較したシステム出力の平均音量の変化を推定する。
以下、実施例の形式記述を行う。
オブジェクト音量値が、オブジェクトを合計した際にエネルギー値の対数と同様に挙動する、即ち音量値が線形領域に変換され、そこで加算され、最終的に再び対数領域に変換されなければならないと想定する。これをBS.1770音量測定の定義によって動機づけることを以下に記載する(簡単のため、チャネル数を1に設定するが、チャネルに亘って適切に合計することで同じ原理をマルチチャネル信号に適用することができる)。
平均二乗エネルギーeを伴うi番目のKでフィルタリングされた信号zの音量は、
Figure 2016520865
と定義され、ここで、cは、オフセット定数である。例えば、cは、−0.691であり得る。ここから、信号のエネルギーは
Figure 2016520865
の音量から決定され得ることになる。すると、
Figure 2016520865
のN個の非相関信号の和のエネルギーは、
Figure 2016520865
となり、この和信号の音量は、
Figure 2016520865
となる。信号が非相関であれば、和信号のエネルギーを
Figure 2016520865
によって近似する際に相関係数CI,Jを考慮する必要があり、ここで、i番目のオブジェクトとj番目のオブジェクトとのクロスエネルギーei,jは、
Figure 2016520865
と定義され、ここで、−1≦Ci,j≦1は、2つのオブジェクトi,j間の相関係数である。2つのオブジェクトが非相関の場合、相関係数は0に等しく、2つのオブジェクトが同一の場合、相関係数は1に等しい。
混合プロセスにおいて信号に対して適用されるべき混合重みgでモデルを更に拡張する、即ち
Figure 2016520865

の場合、和信号のエネルギーは
Figure 2016520865
となり、ここから混合品信号の音量を、上述のように、
Figure 2016520865
で得ることができる。2つの信号の音量間の差は、
Figure 2016520865
によって推定することができる。ここで、音量の定義を上述のように用いる場合、これは
Figure 2016520865

と書くことができ、これは信号エネルギーの関数として観察され得る。ここで、異なり得る混合重みg及びhを用いて2つの混合品
Figure 2016520865
間の音量差を推定することが望まれる場合、これは、
Figure 2016520865
で推定することができる。オブジェクトが非相関の場合(Ci,j=0、∀i≠j及びCi,j=1、∀i=j)、差推定値は、
Figure 2016520865
となる。
以下、差分符号化について検討する。
オブジェクト当りの音量値を、選択された参照オブジェクトの音量からの差
Figure 2016520865
として符号化することが可能であり、ここで、LREFは、参照オブジェクトの音量である。この符号化は、送信しなければならない値が1つ少なくなるため、結果として絶対音量値が必要でない場合に有益であり、音量差推定は、
Figure 2016520865
又は、非相関のオブジェクトの場合、
Figure 2016520865
と書くことができる。
以下、会話増強シナリオについて検討する。
会話増強の応用シナリオについて再び検討する。デコーダにおけるレンダリング情報を規定する自由度は、2つのメタオブジェクトのレベルの変更のみに限定される。更に、2つのメタオブジェクトが非相関、即ちCFGO,BGO=0であると想定する。メタオブジェクトのダウンミックス重みがhFGO及びhBGOである場合、これらはゲインfFGO及びfBGOでレンダリングされ、デフォルトのダウンミックスに対する相対的な出力の音量は、
Figure 2016520865

となる。これは、出力において、デフォルトのダウンミックスにおけるのと同じ音量を有することが望まれる場合の必要な補償でもある。
ΔL(A,B)は、デコーダの信号処理部120により送信され得る音量補償値と見做すことができる。また、ΔL(A,B)は、音量変化値と呼ぶこともでき、このため、実際の補償値は逆値であり得る。或いは、これに「音量補償因数」という名前を用いても良いかもしれない。従って、本願明細書において既に述べた音量補償値lcvは、下記の値gDeltaに対応する。
例えば、gΔ=10−ΔL(A,B)/201/ΔL(A,B)は、音声入力信号に対してレンダリング情報を適用した結果得られる変更後音声信号における各々のチャネルに対して増倍率として適用され得る。このgDeltaについての式は、線形領域で働く。対数領域では、式は異なり、例えば1/ΔL(A,B)となり、それに従って適用される。
ダウンミックスプロセスを簡略化して、2つのメタオブジェクトを単位重みと混合してダウンミックス信号を得るようにすることができ、即ちhFGO=hBGO=1であり、これら2つのオブジェクトについてのレンダリングゲインはgFGO,gBGOで示す。これにより、音量変化についての式は、
Figure 2016520865

へと簡略化される。ここでも、ΔL(A,B)は、信号処理部120により決定される音量補償値と見做すことができる。
一般的に、gFGOは、前景オブジェクトFGO(前景オブジェクト群)についてのレンダリングゲインと見做すことができ、gBGOは、背景オブジェクトBGO(背景オブジェクト群)についてのレンダリングゲインと見做すことができる。
上述のように、絶対音量の代わりに音量差を送信することが可能である。参照音量をFGOメタオブジェクトの音量LREF=LFGO、即ちKFGO=LFGO−LREF=0及びKBGO=LBGO−LREF=LBGO−LFGOと定義する。ここで、音量変化は、
Figure 2016520865
となる。SAOC−DEにおける場合と同様、2つのメタオブジェクトが個々のスケーリング因数を有さず、オブジェクトのうちの一方が変更されない一方で他方を減衰させてオブジェクト間の正しい混合比を得るようにしても良い。このレンダリング設定では、出力は、デフォルトの混合品よりも音量が低くなり、音量の変化は
Figure 2016520865

となり、ここで
Figure 2016520865
である。
この形式は既にかなり簡単であり、用いられる音量測定に関してかなり不可知論的である。唯一の現実の要件は、音量値が指数領域で合計されることが求められることである。音量値の代わりに信号エネルギーの値を送信/記憶しても良いが、それは、これら2つは緊密な関係を有しているからである。
上述の式の各々において、ΔL(A,B)は、デコーダの信号処理部120によって送信され得る音量補償値と見做すことができる。
以下、例示的な場面について検討する。本願によって提供される概念の正確さは、2つの例示的な信号によって示される。両方の信号は、SAOC処理からバイパスされた周囲及びLFEチャネルを伴う5.1ダウンミックスを有する。
2つの主要な方策が用いられる。一方は、FGO、BGO及びバイパスチャネルの3つのメタオブジェクトを有し(「3項」)、例えば
Figure 2016520865
である。他方は、2つのメタオブジェクトを有し(「2項」)、例えば
Figure 2016520865
である。2項の方策においては、バイパスチャネルを、例えばBGOと混合してメタオブジェクト音量を推定する。両方(又は3つ全て)のオブジェクトの音量、及びダウンミックス信号の音量を推定し、値を記憶する。
レンダリング命令は、2つの方策についてそれぞれ
Figure 2016520865
及び
Figure 2016520865
という形になる。
ゲイン値は、例えば
Figure 2016520865
によって決定され、ここで、FGOゲインgFGOは、−24〜+24dBの範囲で変動する。
出力シナリオをレンダリングし、音量を測定し、ダウンミックス信号の音量からの減衰を算出する。
結果を図10及び図11において丸印を伴う青線で示す。図10は、測定された音量変化と、純粋にパラメータ的な態様で音量の変化を推定するための本願によって提供される概念を用いた結果との第1のグラフを示し、図11は第2のグラフを示す。
次に、記憶されたメタオブジェクト音量値並びにダウンミックス情報及びレンダリング情報を利用してダウンミックスからの減衰をパラメータ的に推定する。3つのメタオブジェクトの音量を用いた推定値を、正方形印を伴う緑線で示し、2つのメタオブジェクトの音量を用いた推定値を、星印を伴う赤線で示す。
これらの図から、2項及び3項の方策によって実際上同一の結果が得られ、これら両方によって測定値がかなり良好に近似されることが分かる。
本願によって提供される概念は、複数の利点を有する。例えば、本願によって提供される概念によって、混合品を形成する成分信号の音量から混合品信号の音量を推定することが可能となる。このことは、成分信号音量を1回推定することができ、実際の信号ベースの音量推定の必要なしに任意の混合品について混合品信号の音量推定をパラメータ的に得ることができるという利点を有する。これによって、様々な混合品の音量推定が必要なシステム全体の計算上の効率性が大幅に向上する。例えば、エンドユーザがレンダリング設定を変更した場合、出力の音量推定値が直ちに利用可能となる。
EBU R128勧告に準拠した場合といったいくつかの応用例においては、番組全体に亘る平均音量が重要である。例えば放送シナリオにおいて、受信機における音量推定が受信信号に基づいて行われる場合、推定値が平均音量に収束するのは番組全体の受信後である。このため、音量をどのように補償してもエラーが生じるか、一時的な変動が生じる。本願によって提案されるように成分オブジェクトの音量を推定して音量情報を送信した場合、受信機における平均混合品音量を遅延なしに推定することが可能である。
レンダリング情報における変化に関わらず出力信号の平均音量が(ほぼ)一定であり続けることが望まれる場合、本願によって提供される概念によって、この目的に沿って補償因数を決定することが可能となる。このためにデコーダで必要となる計算は、その計算上の複雑度から無視できる程度のものであるため、任意のデコーダにこの機能を追加することが可能である。
出力の絶対音量レベルが重要でなく、参照シーンからの音量の変化を決定することが重要な場合ある。そのような場合、オブジェクトの絶対レベルは重要ではなく、その相対的なレベルが重要である。これにより、オブジェクトのうちの1つを参照オブジェクトとして定義し、他のオブジェクトの音量を、この参照オブジェクトの音量に対して相対的に表すことが可能である。このことは、音量情報のトランスポート及び/又は記憶に関していくつかの利点を有する。
第1に、参照音量レベルをトランスポートする必要がない。2つのメタオブジェクトの応用例では、これによって送信すべきデータ量が半分になる。第2の利点は、音量値についての可能な量子化及び表現に関する。オブジェクトの絶対レベルが殆どあらゆるレベルであり得るため、絶対音量値もまた殆どあらゆる値であり得る。一方で、相対的な音量値は、0の平均値を有し、この平均値の周りにかなり綺麗な形の分布を有することが想定される。各表現間の差によって、量子化表現に用いられるビット数は同じままで、より高い正確さを有し得るやり方で相対的な表現の量子化グリッドを規定することが可能となる。
図12は、音量補償を行うためのもう1つの実施例を示す。図12においては、例えば音量における損失を補償するために、音量補償を行っても良い。この目的のために、例えば、DE_control_infoからのDE_loudness_diff_dialogue(=KFGO)及びDE_loudness_diff_background(=KBGO)の値を用いることができる。ここで、DE_control_infoは、拡張クリーン音声「会話増強(DE)」制御情報を特定し得る。
SAOC−DE出力信号及び(マルチチャネル信号の場合)バイパスされたチャネルに対してゲイン値「g」を適用することによって音量補償が達成される。
図12の実施例において、これは以下のように行われる。
制限された会話変更ゲイン値mを用いて、前景オブジェクト(FGO、例えば会話)及び背景オブジェクト(BGO、例えば環境音)について実効ゲインを決定する。これは、ゲイン値mFGO及びmBGOを生成する「ゲインマッピング」ブロック1220によって行われる。
「出力音量推定部」ブロック1230は、音量情報KFGO及びKBGO並びに実効ゲイン値mFGO及びmBGOを用いて、デフォルトのダウンミックスの場合と比較した音量における可能な変化を推定する。次に、この変化を「音量補償因数」へとマッピングし、これを出力チャネルに適用して最終的な「出力信号」を生成する。
音量補償には以下のステップが適用される。
・SAOC−DEデコーダ(「SAOC−DEのための変更レンジ制御」[DE]の12.8節に規定のもの)から制限されたゲイン値mを受信し、適用されたFGO/BGOゲインを以下のように決定する。
Figure 2016520865
・メタオブジェクト音量情報KFGO,KBGOを入手する。
・以下のようにデフォルトのダウンミックスと比較した出力音量の変化を算出する。
Figure 2016520865
・音量補償ゲインgΔ=10−0.05ΔLを算出する。
・以下のスケーリング因数を算出する。
Figure 2016520865

ここで、
Figure 2016520865
Figure 2016520865
Figure 2016520865
上述のように算出されたΔLは、音量補償値と見做すことができる。一般的に、mFGOは、前景オブジェクトFGO(前景オブジェクト群)についてのレンダリングゲインを示し、mBGOは、背景オブジェクトBGO(背景オブジェクト群)についてのレンダリングゲインを示す。
装置の説明でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの説明で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。
本発明による分解された信号は、デジタル記憶媒体で記憶することができ、又は、伝送媒体、例えば無線伝送媒体若しくは有線伝送媒体、例えばインターネット、で送信することができる。
特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM及びEPROM、EEPROM又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する(又は協働可能である)ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。
本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の1つが実行されるようにする、電子的に読み出し可能な制御信号を有する非一時的データキャリアを含む。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の1つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。
他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の1つを実行するためのプログラムコードを有するものである。
従って、本発明の方法の更なる実施例は、データキャリア(又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体)であって、そこに記録された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含むものである。
従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。
更なる実施例は、本願明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。
更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施例においては、プログラム可能論理装置(例えば、フィールドプログラマブルゲートアレイ)を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の1つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。
上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

Claims (15)

  1. 1つ以上の音声出力チャネルを含む音声出力信号を生成するためのデコーダであって、
    複数の音声オブジェクト信号を含む音声入力信号を受信し、前記音声オブジェクト信号についての音量情報を受信し、前記音声オブジェクト信号のうちの1つ以上を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するための受信インターフェース(110)と、
    前記音声出力信号における1つ以上の音声出力チャネルを生成するための信号処理部(120)と、を備え、
    前記受信インターフェース(110)は、1つ以上のダウンミックスチャネルを含むダウンミックス信号を前記音声入力信号として受信するように構成され、前記1つ以上のダウンミックスチャネルは、前記音声オブジェクト信号を含み、前記1つ以上のダウンミックスチャネルの数は、前記音声オブジェクト信号の数よりも小さく、
    前記受信インターフェース(110)は、前記音声オブジェクト信号を前記1つ以上のダウンミックスチャネル内でどのように混合するのかを示すダウンミックス情報を受信するように構成され、前記受信インターフェース(110)は、1つ以上の更なるバイパス音声オブジェクト信号を受信するように構成され、前記1つ以上の更なるバイパス音声オブジェクト信号は、前記ダウンミックス信号内で混合されず、
    前記受信インターフェース(110)は、前記ダウンミックス信号内で混合される音声オブジェクト信号の音量についての情報を示し、かつ、前記ダウンミックス信号内で混合されない1つ以上の更なるバイパス音声オブジェクト信号の音量についての情報を示す音量情報を受信するように構成され、
    前記信号処理部(120)は、前記ダウンミックス信号内で混合される音声オブジェクト信号の音量についての情報と、前記ダウンミックス信号内で混合されない1つ以上の更なるバイパス音声オブジェクト信号の音量についての情報とに応じて音量補償値を決定するように構成され、
    前記信号処理部(120)は、前記ダウンミックス情報と前記レンダリング情報と前記音量補償値とに応じて、前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成される、デコーダ。
  2. 請求項1に記載のデコーダであって、前記信号処理部(120)は、前記レンダリング情報と前記音量補償値とに応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成され、前記音声出力信号の音量が前記音声入力信号の音量に等しくなり、又は、前記音声出力信号の音量が、前記レンダリング情報に従って前記音声入力信号の音声オブジェクト信号を増幅若しくは減衰させることによって前記音声入力信号を変更した結果得られる変更後音声信号の音量よりも前記音声入力信号の音量に近くなる、デコーダ。
  3. 請求項2に記載のデコーダであって、
    前記信号処理部(120)は、前記レンダリング情報に従って前記音声入力信号の音声オブジェクト信号を増幅又は減衰させることによって前記音声入力信号を変更することで前記変更後音声信号を生成するように構成され、
    前記信号処理部(120)は、前記変更後音声信号に対して前記音量補償値を適用することによって前記音声出力信号を生成するように構成され、前記音声出力信号の音量が前記音声入力信号の音量に等しくなり、又は、前記音声出力信号の音量が、前記変更後音声信号の音量よりも前記音声入力信号の音量に近くなる、デコーダ。
  4. 先行する請求項の1つに記載のデコーダであって、
    前記音声入力信号の音声オブジェクト信号の各々は、2つ以上の群のうちの丁度1群に割り当てられ、前記2つ以上の群の各々は、前記音声入力信号の音声オブジェクト信号のうちの1つ以上を含み、
    前記受信インターフェース(110)は、前記2つ以上の群の各群についての音量値を前記音量情報として受信するように構成され、
    前記信号処理部(120)は、前記2つ以上の群の各々についての音量値に応じて前記音量補償値を決定するように構成され、
    前記信号処理部(120)は、前記音量補償値に応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成される、デコーダ。
  5. 先行する請求項のいずれかに記載のデコーダであって、前記2つ以上の群のうちの少なくとも1群は、前記音声オブジェクト信号のうちの2つ以上を含む、デコーダ。
  6. 請求項1から請求項5のいずれかに記載のデコーダであって、
    前記音声入力信号の音声オブジェクト信号の各々は、前記2つ以上の群としての丁度2つの群のうちの丁度1群に割り当てられ、
    前記音声入力信号の音声オブジェクト信号の各々は、前記丁度2つの群のうちの前景オブジェクト群か、前記丁度2つの群のうちの背景オブジェクト群に割り当てられ、
    前記受信インターフェース(110)は、前記前景オブジェクト群の音量値を受信するように構成され、
    前記受信インターフェース(110)は、前記背景オブジェクト群の音量値を受信するように構成され、
    前記信号処理部(120)は、前記前景オブジェクト群の音量値と前記背景オブジェクト群の音量値とに応じて前記音量補償値を決定するように構成され、
    前記信号処理部(120)は、前記音量補償値に応じて前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成される、デコーダ。
  7. 請求項6に記載のデコーダであって、
    前記信号処理部(120)は、以下の式に従って音量補償値ΔLを決定するように構成され、
    Figure 2016520865

    FGOは、前景オブジェクト群の音量値を示し、
    BGOは、背景オブジェクト群の音量値を示し、
    FGOは、前景オブジェクト群のレンダリングゲインを示し、
    BGOは、背景オブジェクト群のレンダリングゲインを示す、デコーダ。
  8. 請求項6に記載のデコーダであって、
    前記信号処理部(120)は、以下の式に従って音量補償値ΔLを決定するように構成され、
    Figure 2016520865

    FGOは、前景オブジェクト群の音量値を示し、
    BGOは、背景オブジェクト群の音量値を示し、
    FGOは、前景オブジェクト群のレンダリングゲインを示し、
    BGOは、背景オブジェクト群のレンダリングゲインを示す、デコーダ。
  9. エンコーダであって、
    複数の音声オブジェクト信号を符号化することによって、前記複数の音声オブジェクト信号を含む符号化音声信号を得るためのオブジェクトベースの符号化部(210,710)と、
    前記音声オブジェクト信号についての音量情報を符号化するためのオブジェクト音量符号化部(220,720,820)と、を備え、
    前記音量情報は、1つ以上の音量値を含み、前記1つ以上の音量値の各々は、前記音声オブジェクト信号のうちの1つ以上に依存し、
    前記オブジェクトベースの符号化部(210,710)は、前記音声オブジェクト信号を受信するように構成され、前記音声オブジェクト信号の各々は、2つ以上の群のうちの丁度1つに割り当てられ、前記2つ以上の群の各々は、前記音声オブジェクト信号のうちの1つ以上を含み、
    前記オブジェクトベースの符号化部(210,710)は、前記2つ以上の群に含まれる音声オブジェクト信号をダウンミックスすることによって、1つ以上のダウンミックス音声チャネルを含むダウンミックス信号を、前記符号化された音声信号として得るように構成され、前記1つ以上のダウンミックスチャネルの数は、前記2つ以上の群に含まれる音声オブジェクト信号の数よりも小さく、
    前記オブジェクト音量符号化部(220,720,830)は、1つ以上の更なるバイパス音声オブジェクト信号を受け取るように割り当てられ、前記1つ以上の更なるバイパス音声オブジェクト信号の各々は、第3の群に割り当てられ、前記1つ以上の更なるバイパス音声オブジェクト信号の各々は、前記第1の群に含まれず、且つ前記第2の群に含まれず、前記オブジェクトベースの符号化部(210,710)は、前記ダウンミックス信号内で前記1つ以上の更なるバイパス音声オブジェクト信号をダウンミックスしないように構成され、
    前記オブジェクト音量符号化部(220,720,820)は、前記音量情報の第1の音量値、第2の音量値及び第3の音量値を決定するように構成され、前記第1の音量値は、前記第1の群における1つ以上の音声オブジェクト信号の合計音量を示し、前記第2の音量値は、前記第2の群における1つ以上の音声オブジェクト信号の合計音量を示し、前記第3の音量値は、前記第3の群における1つ以上の更なるバイパス音声オブジェクト信号の合計音量を示し、又は、前記オブジェクト音量符号化部は、前記音量情報の第1の音量値及び第2の音量値を決定するように構成され、前記第1の音量値は、前記第1の群における1つ以上の音声オブジェクト信号の合計音量を示し、前記第2の音量値は、前記第2の群における1つ以上の音声オブジェクト信号と、前記第3の群における1つ以上の更なるバイパス音声オブジェクト信号との合計音量を示す、エンコーダ。
  10. 請求項9に記載のエンコーダであって、
    前記2つ以上の群は、丁度2つの群であり、
    前記音声オブジェクト信号の各々は、前記丁度2つの群のうちの丁度1つに割り当てられ、前記丁度2つの群の各々は、前記音声オブジェクト信号のうちの1つ以上を含み、
    オブジェクトベースの符号化部(210,710)は、前記丁度2つの群に含まれる音声オブジェクト信号をダウンミックスすることによって、1つ以上のダウンミックス音声チャネルを含むダウンミックス信号を、前記符号化された音声信号として得るように構成され、前記1つ以上のダウンミックスチャネルの数は、前記丁度2つの群に含まれる音声オブジェクト信号の数よりも小さい、エンコーダ。
  11. システムであって、
    複数の音声オブジェクト信号を符号化することによって、前記複数の音声オブジェクト信号を含む符号化音声信号を得るための請求項9又は請求項10に記載のエンコーダ(310)と、
    1つ以上の音声出力チャネルを含む音声出力信号を生成するための請求項1から請求項8の1つに記載のデコーダ(320)とを備え、
    前記デコーダ(320)は、前記符号化音声信号を音声入力信号として受信し、前記音量情報を受信するように構成され、
    前記デコーダ(320)は、更に、レンダリング情報を受信するように構成され、
    前記デコーダ(320)は、前記音量情報と前記レンダリング情報とに応じて音量補償値を決定するように構成され、
    前記デコーダ(320)は、前記レンダリング情報と前記音量補償値とに応じて、前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するように構成される、システム。
  12. 1つ以上の音声出力チャネルを含む音声出力信号を生成するための方法であって、
    複数の音声オブジェクト信号を含む音声入力信号を受信するステップと、
    ダウンミックス信号内で混合される音声オブジェクト信号の音量についての情報を示し、かつ、前記ダウンミックス信号内で混合されない1つ以上の更なるバイパス音声オブジェクト信号の音量についての情報を示す音量情報を受信するステップと、
    前記音声オブジェクト信号のうちの1つ以上を増幅すべきか減衰させるべきかを示すレンダリング情報を受信するステップと、
    1つ以上のダウンミックスチャネルを含むダウンミックス信号を前記音声入力信号として受信するステップと、を備え、前記1つ以上のダウンミックスチャネルは、前記音声オブジェクト信号を含み、前記1つ以上のダウンミックスチャネルの数は、前記音声オブジェクト信号の数よりも小さく、前記方法は、更に、
    前記1つ以上のダウンミックスチャネル内で前記音声オブジェクト信号をどのように混合するのかを示すダウンミックス情報を受信するステップと、
    1つ以上の更なるバイパス音声オブジェクト信号を受信するステップと、を備え、前記1つ以上の更なるバイパス音声オブジェクト信号は、前記ダウンミックス信号内で混合されず、前記方法は、更に、
    前記ダウンミックス信号内で混合される音声オブジェクト信号の音量についての情報と、前記ダウンミックス信号内で混合されない1つ以上の更なるバイパス音声オブジェクト信号の音量についての情報とに応じて音量補償値を決定するステップと、
    前記ダウンミックス情報と前記レンダリング情報と前記音量補償値とに応じて、前記音声入力信号から前記音声出力信号における1つ以上の音声出力チャネルを生成するステップと、を備える、方法。
  13. 符号化するための方法であって、
    複数の音声オブジェクト信号を含む音声入力信号を符号化するステップと、
    前記音声オブジェクト信号についての音量情報を符号化するステップと、を備え、前記音量情報は、1つ以上の音量値を含み、前記1つ以上の音量値の各々は、前記音声オブジェクト信号のうちの1つ以上に依存し、
    前記音声オブジェクト信号の各々は、2つ以上の群のうちの丁度1つに割り当てられ、前記2つ以上の群の各々は、前記音声オブジェクト信号のうちの1つ以上を含み、
    前記音声オブジェクト信号についての音量情報を符号化するステップは、前記2つ以上の群に含まれる音声オブジェクト信号をダウンミックスすることによって、1つ以上のダウンミックス音声チャネルを含むダウンミックス信号を、前記符号化された音声信号として得ることによって行われ、前記1つ以上のダウンミックスチャネルの数は、前記2つ以上の群に含まれる音声オブジェクト信号の数よりも小さく、
    1つ以上の更なるバイパス音声オブジェクト信号の各々は、第3の群に割り当てられ、前記1つ以上の更なるバイパス音声オブジェクト信号の各々は、前記第1の群に含まれず、且つ前記第2の群に含まれず、
    前記音声オブジェクト信号についての音量情報を符号化するステップは、前記ダウンミックス信号内で前記1つ以上の更なるバイパス音声オブジェクト信号をダウンミックスしないことによって行われ、
    前記音声オブジェクト信号についての音量情報を符号化するステップは、前記音量情報の第1の音量値、第2の音量値及び第3の音量値を決定することによって行われ、前記第1の音量値は、前記第1の群における1つ以上の音声オブジェクト信号の合計音量を示し、前記第2の音量値は、前記第2の群における1つ以上の音声オブジェクト信号の合計音量を示し、前記第3の音量値は、前記第3の群における1つ以上の更なるバイパス音声オブジェクト信号の合計音量を示し、又は、前記音声オブジェクト信号についての音量情報を符号化するステップは、前記音量情報の第1の音量値及び第2の音量値を決定することによって行われ、前記第1の音量値は、前記第1の群における1つ以上の音声オブジェクト信号の合計音量を示し、前記第2の音量値は、前記第2の群における1つ以上の音声オブジェクト信号と、前記第3の群における1つ以上の更なるバイパス音声オブジェクト信号との合計音量を示す、方法。
  14. 請求項13に記載の方法であって、
    前記2つ以上の群は、丁度2つの群であり、
    前記音声オブジェクト信号の各々は、前記丁度2つの群のうちの丁度1つに割り当てられ、前記丁度2つの群の各々は、前記音声オブジェクト信号のうちの1つ以上を含み、
    前記音声オブジェクト信号についての音量情報を符号化するステップは、前記丁度2つの群に含まれる音声オブジェクト信号をダウンミックスすることによって、1つ以上のダウンミックス音声チャネルを含むダウンミックス信号を、前記符号化された音声信号として得ることによって行われ、前記1つ以上のダウンミックスチャネルの数は、前記丁度2つの群に含まれる音声オブジェクト信号の数よりも小さい、方法。
  15. コンピュータ又は信号プロセッサにおいて実行されたときに請求項12から請求項14の1つに記載の方法を実現するためのコンピュータプログラム。
JP2016509509A 2013-11-27 2014-11-27 オブジェクトベースの音声符号化システムにおけるバイパス音声オブジェクト信号を利用した情報に基づく音量推定のためのデコーダ、エンコーダ及び方法 Active JP6218928B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13194664.2A EP2879131A1 (en) 2013-11-27 2013-11-27 Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP13194664.2 2013-11-27
PCT/EP2014/075801 WO2015078964A1 (en) 2013-11-27 2014-11-27 Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems

Publications (2)

Publication Number Publication Date
JP2016520865A true JP2016520865A (ja) 2016-07-14
JP6218928B2 JP6218928B2 (ja) 2017-10-25

Family

ID=49683543

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016532000A Active JP6346282B2 (ja) 2013-11-27 2014-11-27 オブジェクトベースの音声符号化システムにおける情報に基づく音量推定のためのデコーダ、エンコーダ及び方法
JP2016509509A Active JP6218928B2 (ja) 2013-11-27 2014-11-27 オブジェクトベースの音声符号化システムにおけるバイパス音声オブジェクト信号を利用した情報に基づく音量推定のためのデコーダ、エンコーダ及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016532000A Active JP6346282B2 (ja) 2013-11-27 2014-11-27 オブジェクトベースの音声符号化システムにおける情報に基づく音量推定のためのデコーダ、エンコーダ及び方法

Country Status (19)

Country Link
US (8) US9947325B2 (ja)
EP (3) EP2879131A1 (ja)
JP (2) JP6346282B2 (ja)
KR (2) KR101852950B1 (ja)
CN (3) CN111312266B (ja)
AR (2) AR099360A1 (ja)
AU (2) AU2014356475B2 (ja)
BR (2) BR112016011988B1 (ja)
CA (2) CA2900473C (ja)
ES (2) ES2629527T3 (ja)
HK (1) HK1217245A1 (ja)
MX (2) MX350247B (ja)
MY (2) MY189823A (ja)
PL (2) PL3074971T3 (ja)
PT (2) PT3074971T (ja)
RU (2) RU2651211C2 (ja)
TW (2) TWI569260B (ja)
WO (2) WO2015078956A1 (ja)
ZA (1) ZA201604205B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7449405B2 (ja) 2021-02-22 2024-03-13 テンセント・アメリカ・エルエルシー オーディオ処理における方法及び装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US10163446B2 (en) * 2014-10-01 2018-12-25 Dolby International Ab Audio encoder and decoder
MX370034B (es) * 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
EP4156180A1 (en) * 2015-06-17 2023-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Loudness control for user interactivity in audio coding systems
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US10375496B2 (en) 2016-01-29 2019-08-06 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
WO2018096954A1 (ja) * 2016-11-25 2018-05-31 ソニー株式会社 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
WO2019008625A1 (ja) * 2017-07-03 2019-01-10 日本電気株式会社 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体
WO2019081089A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. MITIGATION OF NOISE AT THE LEVEL OF A DECODER
WO2019161191A1 (en) 2018-02-15 2019-08-22 Dolby Laboratories Licensing Corporation Loudness control methods and devices
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3588988B1 (en) * 2018-06-26 2021-02-17 Nokia Technologies Oy Selective presentation of ambient audio content for spatial audio presentation
US11544032B2 (en) * 2019-01-24 2023-01-03 Dolby Laboratories Licensing Corporation Audio connection and transmission device
WO2020167966A1 (en) * 2019-02-13 2020-08-20 Dolby Laboratories Licensing Corporation Adaptive loudness normalization for audio object clustering
CN114270437A (zh) * 2019-06-14 2022-04-01 弗劳恩霍夫应用研究促进协会 参数编码与解码
JP2022545709A (ja) * 2019-08-30 2022-10-28 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル・オーディオ信号のチャネル識別
KR102390643B1 (ko) * 2019-10-10 2022-04-27 가우디오랩 주식회사 오디오 라우드니스 메타데이터 생성 방법 및 이를 위한 장치
CN117837173A (zh) * 2021-08-27 2024-04-05 北京字跳网络技术有限公司 用于音频渲染的信号处理方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010511908A (ja) * 2006-12-07 2010-04-15 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP2014525048A (ja) * 2011-03-16 2014-09-25 ディーティーエス・インコーポレイテッド 3次元オーディオサウンドトラックの符号化及び再生

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA921988B (en) * 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
KR100454012B1 (ko) * 1997-09-05 2004-10-26 하만인터내셔날인더스트리스인코포레이티드 5-2-5 매트릭스 인코더 및 디코더 시스템
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
WO2002063828A1 (en) * 2001-02-06 2002-08-15 Polycom Israel Ltd. Control unit for multipoint multimedia/audio conference
US6852151B2 (en) * 2002-06-03 2005-02-08 Siemens Vdo Automotive Inc. Air cleaner and resonator assembly
US7631483B2 (en) * 2003-09-22 2009-12-15 General Electric Company Method and system for reduction of jet engine noise
EP1817767B1 (en) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
JP4728031B2 (ja) * 2005-04-15 2011-07-20 株式会社日立製作所 リモートコピーペアの移行を行うシステム
US8239209B2 (en) * 2006-01-19 2012-08-07 Lg Electronics Inc. Method and apparatus for decoding an audio signal using a rendering parameter
BRPI0709877B1 (pt) * 2006-04-04 2019-12-31 Dolby Laboratories Licensing Corp método e aparelho para controlar uma característica de intensidade acústica particular de um sinal de áudio
BRPI0716854B1 (pt) 2006-09-18 2020-09-15 Koninklijke Philips N.V. Codificador para codificar objetos de áudio, decodificador para decodificar objetos de áudio, centro distribuidor de teleconferência, e método para decodificar sinais de áudio
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2115739A4 (en) 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
RU2406166C2 (ru) * 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
US8639498B2 (en) * 2007-03-30 2014-01-28 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US7825322B1 (en) 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing
EP2238589B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
CA2781310C (en) * 2009-11-20 2015-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
EP2510709A4 (en) 2009-12-10 2015-04-08 Reality Ip Pty Ltd IMPROVED MATRIX DECODER FOR SURROUND SOUND
CN102884570B (zh) 2010-04-09 2015-06-17 杜比国际公司 基于mdct的复数预测立体声编码
KR101615776B1 (ko) * 2010-05-28 2016-04-28 한국전자통신연구원 상이한 분석 단계를 사용하는 다객체 오디오 신호의 부호화 및 복호화 장치 및 방법
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9952576B2 (en) 2012-10-16 2018-04-24 Sonos, Inc. Methods and apparatus to learn and share remote commands
MX347100B (es) * 2012-12-04 2017-04-12 Samsung Electronics Co Ltd Aparato de suministro de audio y método de suministro de audio.
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
CN107257234B (zh) * 2013-01-21 2020-09-15 杜比实验室特许公司 解码具有保留数据空间中的元数据容器的编码音频比特流
UA122050C2 (uk) * 2013-01-21 2020-09-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
CN109712630B (zh) * 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
US9521501B2 (en) * 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
WO2015150384A1 (en) * 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010511908A (ja) * 2006-12-07 2010-04-15 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP2014525048A (ja) * 2011-03-16 2014-09-25 ディーティーエス・インコーポレイテッド 3次元オーディオサウンドトラックの符号化及び再生

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7449405B2 (ja) 2021-02-22 2024-03-13 テンセント・アメリカ・エルエルシー オーディオ処理における方法及び装置

Also Published As

Publication number Publication date
BR112015019958A2 (pt) 2017-07-18
MX350247B (es) 2017-08-31
EP2879131A1 (en) 2015-06-03
MX2015013580A (es) 2016-02-05
WO2015078956A1 (en) 2015-06-04
US20200286496A1 (en) 2020-09-10
CN105144287A (zh) 2015-12-09
PT2941771T (pt) 2017-06-30
TWI569259B (zh) 2017-02-01
TW201535353A (zh) 2015-09-16
AR098558A1 (es) 2016-06-01
CA2900473A1 (en) 2015-06-04
ES2629527T3 (es) 2017-08-10
CN111312266A (zh) 2020-06-19
EP2941771A1 (en) 2015-11-11
US11423914B2 (en) 2022-08-23
KR101742137B1 (ko) 2017-05-31
US20220351736A1 (en) 2022-11-03
RU2672174C2 (ru) 2018-11-12
EP3074971A1 (en) 2016-10-05
AU2014356475A1 (en) 2015-09-03
BR112015019958B1 (pt) 2021-12-14
AU2014356467A1 (en) 2016-06-09
CN112151049A (zh) 2020-12-29
CN111312266B (zh) 2023-11-10
RU2016125242A (ru) 2018-01-09
KR20150123799A (ko) 2015-11-04
CN105144287B (zh) 2020-09-25
CN105874532B (zh) 2020-03-17
CA2931558A1 (en) 2015-06-04
EP3074971B1 (en) 2018-02-21
MY189823A (en) 2022-03-10
ZA201604205B (en) 2017-11-29
JP2017502324A (ja) 2017-01-19
ES2666127T3 (es) 2018-05-03
RU2651211C2 (ru) 2018-04-18
AU2014356475B2 (en) 2016-08-18
KR101852950B1 (ko) 2018-06-07
CA2931558C (en) 2018-11-13
HK1217245A1 (zh) 2016-12-30
US20160254001A1 (en) 2016-09-01
EP2941771B1 (en) 2017-03-29
US10699722B2 (en) 2020-06-30
JP6346282B2 (ja) 2018-06-20
RU2015135181A (ru) 2017-02-27
MX358306B (es) 2018-08-14
CN105874532A (zh) 2016-08-17
TW201525990A (zh) 2015-07-01
US20200058313A1 (en) 2020-02-20
BR112016011988B1 (pt) 2022-09-13
JP6218928B2 (ja) 2017-10-25
AR099360A1 (es) 2016-07-20
BR112016011988A2 (ja) 2017-08-08
US10497376B2 (en) 2019-12-03
US20180197554A1 (en) 2018-07-12
MX2016006880A (es) 2016-08-19
KR20160075756A (ko) 2016-06-29
US20210118454A1 (en) 2021-04-22
PL2941771T3 (pl) 2017-10-31
US10891963B2 (en) 2021-01-12
MY196533A (en) 2023-04-19
CA2900473C (en) 2018-01-30
AU2014356467B2 (en) 2016-12-15
PT3074971T (pt) 2018-05-25
TWI569260B (zh) 2017-02-01
PL3074971T3 (pl) 2018-07-31
WO2015078964A1 (en) 2015-06-04
US11688407B2 (en) 2023-06-27
US11875804B2 (en) 2024-01-16
US20230306973A1 (en) 2023-09-28
US9947325B2 (en) 2018-04-17
US20150348564A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
JP6218928B2 (ja) オブジェクトベースの音声符号化システムにおけるバイパス音声オブジェクト信号を利用した情報に基づく音量推定のためのデコーダ、エンコーダ及び方法
CN112151049B (zh) 解码器、编码器、产生音频输出信号的方法及编码方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170926

R150 Certificate of patent or registration of utility model

Ref document number: 6218928

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250