JP2021530724A - 没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置 - Google Patents

没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置 Download PDF

Info

Publication number
JP2021530724A
JP2021530724A JP2020547116A JP2020547116A JP2021530724A JP 2021530724 A JP2021530724 A JP 2021530724A JP 2020547116 A JP2020547116 A JP 2020547116A JP 2020547116 A JP2020547116 A JP 2020547116A JP 2021530724 A JP2021530724 A JP 2021530724A
Authority
JP
Japan
Prior art keywords
channel
signal
reconstructed
signals
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020547116A
Other languages
English (en)
Other versions
JPWO2020010072A5 (ja
Inventor
エス. マグラス,デイヴィッド
エッカート,マイケル
プルンハーゲン,ヘイコ
ブルーン,ステファン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2021530724A publication Critical patent/JP2021530724A/ja
Publication of JPWO2020010072A5 publication Critical patent/JPWO2020010072A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本稿は、マルチチャネル入力信号(201)をエンコードするための方法(700)を記述する。方法(700)は、マルチチャネル入力信号(201)から複数のダウンミックス・チャネル信号(203)を決定し(701)、該複数のダウンミックス・チャネル信号(203)のエネルギー・コンパクト化を実行して(702)、複数のコンパクト化されたチャネル信号(404)を提供することを含む。さらに、方法(700)は、複数のコンパクト化されたチャネル信号(404)に基づいて、かつ前記マルチチャネル入力信号(201)に基づいて、合同符号化メタデータ(205)を決定する(703)ことを含み、前記合同符号化メタデータ(205)は、前記複数のコンパクト化されたチャネル信号(404)を、前記マルチチャネル入力信号(201)の近似にアップミックスすることを許容するようなものである。さらに、方法(700)は、複数のコンパクト化されたチャネル信号(404)および合同符号化メタデータ(205)をエンコードすること(704)を含む。

Description

関連出願への相互参照
本願は、2018年7月2日に出願された米国仮特許出願第62/693,246号への優先権の利益を主張する。同出願の内容はここに参照によって組み込まれる。
技術分野
本稿は、音場表現信号、特にアンビソニックス信号を含みうる没入的オーディオ信号に関する。特に、本稿は、没入的オーディオ信号がビットレート効率のよい仕方でおよび/または高い知覚的品質で伝送および/または格納できるようにするエンコーダおよび対応するデコーダを提供することに関する。
聴取位置に置かれた聴取者の聴取環境内の音または音場は、アンビソニックス信号を使用して記述されうる。アンビソニックス信号は、マルチチャネル・オーディオ信号として見ることができる。ここで、各チャネルが聴取者の聴取位置における音場の特定の指向性パターンに対応する。アンビソニックス信号は、3次元(3D)デカルト座標系を用いて記述されてもよく、座標系の原点が聴取位置に対応し、x軸は前方を指し、y軸は左を指し、z軸は、上方を指す。
オーディオ信号またはチャネルの数を増やし、対応する指向性パターン(および対応するパン関数)の数を増やすことによって、音場の記述精度を高めることができる。例として、一次アンビソニックス信号は、4つのチャネルまたは波形、すなわち、音場の全方向成分を示すWチャネル、x軸に対応する双極子指向性パターンをもつ音場を記述するXチャネル、y軸に対応する双極子指向性パターンをもつ音場を記述するYチャネル、およびz軸に対応する双極子指向性パターンをもつ音場を記述するZチャネルを含む。二次アンビソニックス信号は、一次アンビソニックス信号の4チャネル(Bフォーマットとも呼ばれる)と、異なる指向性パターンのための5つの追加チャネルを含む9チャネルを有する。一般に、L次アンビソニックス信号は、(L−1)次アンビソニックス信号のL2個のチャネルと、追加の指向性パターンのための[(L+1)2−L2]個の追加チャネルとを含む(L+1)2個のチャネルを有する(3Dアンビソニック・フォーマットを使用する場合)。L>1についてのL次アンビソニックス信号は、高次アンビソニック(HOA)信号と呼ばれることがある。
HOA信号は、HOA信号をレンダリングするために使用されるスピーカーの配置から独立して3D音場を記述するために使用されうる。スピーカーの配置例は、ヘッドフォン、またはラウドスピーカーの一つまたは複数の配置、または仮想現実レンダリング環境を含む。よって、オーディオ・レンダリングがスピーカーの異なる配置に柔軟に適応できるようにするために、オーディオ・レンダラーにHOA信号を提供することが有益でありうる。
アンビソニックス信号のような音場表現(soundfield representation、SR)信号は、没入的オーディオ(immersive audio、IA)信号を提供するために、オーディオ・オブジェクトおよび/またはマルチチャネル(ベッド)信号で補完されてもよい。本稿は、帯域幅効率のよい仕方で、高い知覚的品質をもってIA信号を送信および/または記憶する技術的問題に対処する。かかる技術的問題は、独立請求項によって解決される。好ましい例は、従属請求項に記載されている。
ある側面によれば、マルチチャネル入力信号をエンコードする方法が記述される。マルチチャネル入力信号は、没入的オーディオ(IA)信号の一部であってもよい。マルチチャネル入力信号は、音場表現(SR)信号、特に一次またはより高次のアンビソニックス信号を含んでいてもよい。本方法は、マルチチャネル入力信号から複数のダウンミックス・チャネル信号を決定することを含む。さらに、本方法は、複数のダウンミックス・チャネル信号のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号を提供することを含む。さらに、本方法は、前記複数のコンパクト化されたチャネル信号に基づいて、かつ、前記マルチチャネル入力信号に基づいて、合同符号化メタデータ(特に、空間オーディオ分解能再構成(SPAR)メタデータ)を決定することを含み、前記合同符号化メタデータは、前記複数のコンパクト化されたチャネル信号を前記マルチチャネル入力信号の近似にアップミックスすることを許容するようなものである。本方法は、前記複数のコンパクト化されたチャネル信号および前記合同符号化メタデータをエンコードすることをさらに含む。
あるさらなる側面によれば、複数の再構成されたチャネル信号を示す符号化されたオーディオ・データから、および合同符号化メタデータを示す符号化されたメタデータから、再構成されたマルチチャネル信号を決定する方法が記載される。本方法は、前記符号化されたオーディオ・データをデコードして前記複数の再構成されたチャネル信号を提供し、前記符号化されたメタデータをデコードして前記合同符号化メタデータを提供することを含む。さらに、本方法は、前記複数の再構成されたチャネル信号から、前記合同符号化メタデータを用いて、前記再構成されたマルチチャネル信号を決定することを含む。
さらなる側面によれば、ソフトウェア・プログラムが記載される。ソフトウェア・プログラムは、プロセッサ上での実行のために、また、プロセッサ上で実行されたときに、本稿で概説される方法段階を実行するように適応されてもよい。
別の側面によれば、記憶媒体が記載される。記憶媒体は、プロセッサ上での実行のために、また、プロセッサ上で実行されたときに、本稿で概説される方法段階を実行するように適応されたソフトウェア・プログラムを含んでいてもよい。
さらなる側面によれば、コンピュータ・プログラム製品が記載される。コンピュータ・プログラムは、コンピュータ上で実行されるときに、本稿に概説されている方法段階を実行するための実行可能命令を含んでいてもよい。
別の側面によれば、マルチチャネル入力信号および/または没入的オーディオ(IA)信号をエンコードするためのエンコード・ユニットまたはエンコード装置が記述される。エンコード・ユニットは、マルチチャネル入力信号から複数のダウンミックス・チャネル信号を決定するよう構成される。さらに、エンコード・ユニットは、複数のダウンミックス・チャネル信号のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号を提供するよう構成される。さらに、エンコード・ユニットは、前記複数のコンパクト化されたチャネル信号に基づいて、かつ、前記マルチチャネル入力信号に基づいて、合同符号化メタデータを決定することを含み、前記合同符号化メタデータは、前記複数のコンパクト化されたチャネル信号を前記マルチチャネル入力信号の近似にアップミックスすることを許容するようなものである。エンコード・ユニットは、前記複数のコンパクト化されたチャネル信号および前記合同符号化メタデータをエンコードするようさらに構成される。
別の側面によれば、複数の再構成されたチャネル信号を示す符号化されたオーディオ・データから、および合同符号化メタデータを示す符号化されたメタデータから、再構成されたマルチチャネル信号を決定するためのデコード・ユニットまたはデコード装置が記載される。デコード・ユニットは、前記符号化されたオーディオ・データをデコードして前記複数の再構成されたチャネル信号を提供し、前記符号化されたメタデータをデコードして前記合同符号化メタデータを提供することを含む。さらに、デコード・ユニットは、前記複数の再構成されたチャネル信号から、前記合同符号化メタデータを用いて、前記再構成されたマルチチャネル信号を決定することを含む。
本特許出願で概説される、その好ましい実施形態を含む方法、装置およびシステムは、独立して、または本稿に開示されている他の方法、装置およびシステムと組み合わせて使用されうることに注意しておくべきである。さらに、本特許出願で概説される方法、装置およびシステムのすべての側面は、任意に組み合わされうる。特に、請求項の特徴は、任意の仕方で互いに組み合わされてもよい。
本発明は、添付の図面を参照して、例示的な仕方で下記に説明される。
符号化システムの例を示す。 没入的オーディオ信号をエンコードするための例示的なエンコード・ユニットを示す。 没入的オーディオ信号をデコードするための別の例示的なデコード・ユニットを示す; 没入的オーディオ信号をエンコードおよびデコードするための例示的なエンコード・ユニットおよびデコード・ユニットを示す。 モード切り換えのある例示的なエンコード・ユニットおよびデコード・ユニットを示す。 例示的な再構成モジュールを示す。 没入的オーディオ信号をエンコードするための例示的な方法のフローチャートを示す。 没入的オーディオ信号をデコードするための例示的な方法のフローチャートを示す。
上に概説したように、本稿は、一次アンビソニックス(First order ambisonics、FOA)またはHOA信号、マルチチャネルおよび/またはオブジェクト・オーディオ信号のような没入的オーディオ(immersive audio、IA)信号の効率的な符号化に関する。ここで、特にFOAまたはHOA信号は、本明細書では、より一般的に、音場表現(soundfield representation、SR)信号と呼ばれる。
導入部で概説したように、SR信号は、比較的多数のチャネルまたは波形を含むことがあり、異なるチャネルは、異なるパン関数および/または異なる指向性パターンに関係する。例として、L次の3D FOAまたはHOA信号は、(L+1)2個のチャネルを有する。SR信号は、さまざまな異なるフォーマットで表現されうる。
音場は、聴取位置のまわりの任意の方向から発せられる一つまたは複数の音事象で構成されていると見なすことができる。結果として、前記一つまたは複数の音事象の位置は球の表面上で定義されてもよい(聴取位置または基準位置が球の中心にある)。
FOAまたは高次アンビソニックス(HOA)のような音場フォーマットは、任意のスピーカー配置(すなわち任意のレンダリング・システム)で音場をレンダリングできるようにする仕方で定義される。しかしながら、レンダリング・システム(ドルビー・アトモス・システムなど)は、典型的には、スピーカーの可能な高さが、定義された数の平面(たとえば、耳の高さの(水平)平面、天井もしくは上平面および/または床もしくは下平面)に固定されるという意味で、制約される。よって、理想的な球面音場の概念は、球面の表面上のさまざまな高さにある異なるリング(蜂の巣を構成する積み重ねられたリングと同様)内に位置する音オブジェクトで構成される音場に修正されうる。
図1に示されるように、オーディオ符号化システム100は、エンコード・ユニット110とデコード・ユニット120とを備える。エンコード・ユニット110は、入力信号111に基づいて、デコード・ユニット120への伝送のためのビットストリーム101を生成するように構成されてもよく、入力信号111は、没入的オーディオ信号(たとえば、仮想現実(VR)アプリケーションのために使用される)を含んでいてもよい。没入的オーディオ信号111は、SR信号、マルチチャネル(ベッド)信号および/または複数のオブジェクト(各オブジェクトは、オブジェクト信号およびオブジェクト・メタデータを含む)を含んでいてもよい。デコード・ユニット120は、ビットストリーム101に基づいて出力信号121を提供するように構成されてもよく、出力信号121は、再構成された没入的オーディオ信号を含んでいてもよい。
図2は、エンコード・ユニット110、200の例を示す。エンコード・ユニット200は、入力信号111をエンコードするように構成されてもよく、入力信号111は、没入的オーディオ(IA)信号111であってもよい。IA信号111は、マルチチャネル入力信号201を含んでいてもよい。マルチチャネル入力信号201は、SR信号および一つまたは複数のオブジェクト信号を含んでいてもよい。さらに、前記複数のオブジェクト信号についてのオブジェクト・メタデータ202が、IA信号111の一部として提供されてもよい。IA入力信号111は、コンテンツ摂取エンジンによって提供されてもよく、コンテンツ摂取エンジンは、(複合)VRコンテンツからオブジェクトおよび/またはSR信号を導出するように構成されてもよい。
エンコード・ユニット200は、マルチチャネル入力信号201を複数のダウンミックス・チャネル信号203にダウンミックスするように構成されたダウンミックス・モジュール210を有する。前記複数のダウンミックス・チャネル信号203は、SR信号、特に一次アンビソニックス(FOA)信号に対応してもよい。ダウンミックスは、サブバンド領域またはQMF領域(たとえば、10以上のサブバンドを使用)で実行されてもよい。
エンコード・ユニット200は、複数のダウンミックス・チャネル信号203からマルチチャネル入力信号201を再構成するように構成された合同符号化メタデータ205(特に、SPAR(Spatial Audio Resolution Reconstruction[空間オーディオ分解能再構成])メタデータ)を決定するように構成された合同符号化モジュール230(特に、SPARモジュール)をさらに有する。合同符号化モジュール230は、サブバンド領域において合同符号化メタデータ205を決定するように構成されてもよい。
合同符号化メタデータ205を決定するために、複数のダウンミックス・チャネル信号203は、サブバンド領域に変換されてもよく、および/またはサブバンド領域内で処理されてもよい。さらに、マルチチャネル入力信号201がサブバンド領域に変換されてもよい。その後、合同符号化メタデータ205は、サブバンド毎に決定されてもよく、特に、合同符号化メタデータ205を使用して複数のダウンミックス・チャネル信号203のサブバンド信号203をアップミックスすることによって、マルチチャネル入力信号201のサブバンド信号の近似が得られる。種々のサブバンドについての合同符号化メタデータ205は、対応するデコード・ユニット120への送信のために、ビットストリーム101に挿入されてもよい。
さらに、エンコード・ユニット200は、複数のダウンミックス・チャネル信号203の波形符号化を実行し、それにより符号化されたオーディオ・データ206を提供するように構成された符号化モジュール240を有していてもよい。ダウンミックス・チャネル信号203のそれぞれは、モノ波形エンコーダ(たとえば、3GPP EVSエンコード)を用いてエンコードされてもよく、それにより、効率的なエンコードが可能になる。複数のダウンミックス・チャネル信号203をエンコードすることのさらなる例は、MPEG AAC、MPEG HE-AACおよび他のMPEGオーディオ・コーデック、3GPPコーデック、ドルビー・デジタル/ドルビー・デジタル・プラス(AC-3、eAC-3)、Opus、LC-3および他の同様のコーデックである。さらなる例として、AC-4コーデックに含まれる符号化ツールは、エンコード・ユニット200の動作を実行するように構成されてもよい。
さらに、符号化モジュール240は、合同符号化メタデータ(すなわち、SPARメタデータ)205およびオブジェクト・メタデータ202のエントロピー符号化を実行し、それにより、符号化されたメタデータ207を提供するように構成されてもよい。符号化されたオーディオ・データ206および符号化されたメタデータ207はビットストリーム101に挿入されてもよい。
図3は、デコード・ユニット120、350の例を示す。デコード・ユニット120、350は、符号化されたオーディオ・データ206および符号化されたメタデータ207を含んでいてもよいビットストリーム101を受領する受領器を含んでいてもよい。デコード・ユニット120、350は、ビットストリーム101から符号化されたオーディオ・データ206および符号化されたメタデータ207を多重分離するプロセッサおよび/またはデマルチプレクサを含んでいてもよい。デコード・ユニット350は、符号化されたオーディオ・データ206から複数の再構成されたチャネル信号314を導出するように構成されたデコード・モジュール360を有する。デコード・モジュール360は、さらに、符号化されたメタデータ207から合同符号化メタデータ205およびオブジェクト・メタデータ202を導出するように構成されてもよい。
さらに、デコード・ユニット350は、合同符号化メタデータ205から、および複数の再構成されたチャネル信号314から、再構成されたマルチチャネル信号311を導出するように構成された再構成モジュール370を有する。合同符号化メタデータ205は、複数の再構成されたチャネル信号314からマルチチャネル信号311を再構成することを可能にするアップミックス行列の時間および/または周波数変化する要素を伝達してもよい。アップミックス・プロセスは、QMF(直交ミラー・フィルタ)サブバンド領域で実行されてもよい。あるいはまた、アップミックス・プロセスを実行するために、別の時間/周波数変換、特にFFT(高速フーリエ変換)に基づく変換が使用されてもよい。一般に、周波数選択的な解析および(アップミックス)処理を可能にする変換が適用されうる。アップミックス・プロセスはまた、再構成されたマルチチャネル信号311の共分散の改善された再構成を可能にする脱相関器を含んでいてもよく、脱相関器は、追加の合同符号化メタデータ205によって制御されてもよい。
再構成されたマルチチャネル信号311は、再構成されたSR信号と、一つまたは複数の再構成されたオブジェクト信号とを含んでいてもよい。再構成されたマルチチャネル信号311およびオブジェクト・メタデータは、再構成されたIA信号121を形成してもよい。再構成されたIA信号121は、スピーカー・レンダリング330、ヘッドフォン・レンダリング331、および/または、たとえば、SRレンダリング332のために使用されうる。
図4は、エンコード・ユニット200およびデコード・ユニット350を示している。エンコード・ユニット200は、図2の文脈で記載された構成要素を有する。さらに、エンコード・ユニット200は、複数のダウンミックス・チャネル信号203のエネルギーを一つまたは複数のダウンミックス・チャネル信号203に集中させるように構成されたエネルギー・コンパクト化(energy compaction)モジュール420を有する。エネルギー・コンパクト化モジュール420は、ダウンミックス・チャネル信号203を変換して、複数のコンパクト化されたチャネル信号404を提供しうる。変換は、コンパクト化されたチャネル信号404のうちの一つまたは複数が、対応する一つまたは複数のダウンミックス・チャネル信号203よりも少ないエネルギーを有するように実行されうる。
例として、複数のダウンミックス・チャネル信号203は、Wチャネル信号、Xチャネル信号、Yチャネル信号、およびZチャネル信号を含んでいてもよい。複数のコンパクト化されたチャネル信号404は、Wチャネル信号、X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号を含んでいてもよい。X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号は、X'チャネル信号がXチャネル信号よりも少ないエネルギーを有する、Y'チャネル信号がYチャネル信号よりも少ないエネルギーを有する、および/またはZ'チャネル信号がZチャネル信号よりも少ないエネルギーを有するように、決定されてもよい。
エネルギー・コンパクト化モジュール420は、予測動作を使用してエネルギー・コンパクト化を実行するように構成されてもよい。特に、複数のダウンミックス・チャネル信号203の第1のサブセット(たとえば、Xチャネル信号、Yチャネル信号およびZチャネル信号)が、複数のダウンミックス・チャネル信号203の第2のサブセット(たとえば、Wチャネル信号)から予測されてもよい。エネルギー・コンパクト化は、ダウンミックス・チャネル信号203のうちの1つ(たとえば、Wチャネル信号)のスケーリングされたバージョンを、他のダウンミックス・チャネル信号203(たとえば、Xチャネル信号、Yチャネル信号および/またはZチャネル信号)から減算することを含んでいてもよい。スケーリング因子は、他のダウンミックス・チャネル信号203のエネルギーが低減される、特に最小化されるように、決定されうる。
エネルギー・コンパクト化を実行することによって、複数のコンパクト化されたチャネル信号404をエンコードするための効率は、複数のダウンミックス・チャネル信号203のエンコードと比較して、向上されうる。エンコード・ユニット200は、エネルギー・コンパクト化動作の逆演算を実行するためのメタデータを暗黙的に合同符号化メタデータ205に挿入するように構成される。この結果、IA入力信号111の効率的なエンコードが達成される。
上記で概説したように、デコード・ユニットは、再構成モジュール370を有する。図6は、例示的な再構成モジュール370を示す。再構成モジュール370は、複数の再構成されたチャネル信号314を入力として受け取る(これはたとえば、一次アンビソニックス信号を形成していてもよい)。第1の混合器611は、複数の再構成されたチャネル信号314(たとえば、前記4つのチャネル信号)を、より多数の信号(たとえば、第2のアンビソニックス信号および2つのオブジェクト信号を表わす11個の信号)にアップミックスするように構成されてもよい。第1の混合器611は、合同符号化メタデータ205に依存する。
再構成モジュール370は、Wチャネル信号から2つの信号を生成するように構成された脱相関器601、602を有していてもよく、該2つの信号は、第2の混合器612で処理されて、増加した数の信号(たとえば、11個の信号)を生じる。第2の混合器612は、合同符号化メタデータ205に依存する。第1の混合器611の出力および第2の混合器612の出力は加算されて、再構成されたマルチチャネル信号311を提供する。
上述のように、合同符号化またはSPARメタデータ205は、第1の混合器611および第2の混合器612によって使用されるアップミックス行列の係数を表わすデータから構成されてもよい。混合器611、612は、サブバンド領域(特にQMF領域)で動作してもよい。この場合、合同符号化またはSPARメタデータ205は、複数の異なるサブバンド(たとえば、10以上のサブバンド)について第1の混合器611および第2の混合器612によって使用されるアップミックス行列の係数を表わすデータを含む。
図5は、マルチチャネル入力信号201をエンコードするためと、オブジェクト・メタデータ202(これがIA入力信号111を形成する)をエンコードするための2つの分枝を備えるエンコード・ユニット200を示す。上側の分枝は、図4の文脈で述べたエンコード方式に対応する。下側の分枝では、合同符号化ユニット230は、複数のダウンミックス・チャネル信号203を複数のコンパクト化されたチャネル信号404から再構成できるようにするメタデータ205を決定するよう修正される。よって、メタデータ205は、複数のダウンミックス・チャネル信号203から複数のコンパクト化チャネル信号404を生成するために使用された予測器(特に、前記一つまたは複数のスケーリング因子)を示す。ある変形では、メタデータ205は、(合同符号化モジュール230を使用する必要なく)エネルギー・コンパクト化モジュール220から直接提供されてもよい。
図5のエンコード・ユニット200は、第1のモード(上側の分枝に対応)と第2のモード(下側の分枝に対応)との間で切り換えるように構成されたモード切り換えモジュール500を有する。第1のモードは、増加したビットレートで高い知覚品質を提供するために使用されてもよく、第2のモードは、低下したビットレートで低下した知覚品質を提供するために使用されてもよい。モード切り換えモジュール500は、伝送ネットワークの状態に依存して、第1のモードと第2のモードとの間で切り換えるように構成されてもよい。
さらに、図5は、第1のモード(上側の分枝)および第2のモード(下側の分枝)に従ってデコードを実行するように構成された対応するデコード・ユニット350を示している。モード切り換えモジュール550は、(たとえば、フレーム毎に)エンコード・ユニット200によって使用されたモードを判定するように構成されてもよい。第1のモードが使用された場合、再構成されたマルチチャネル信号311およびオブジェクト・メタデータ202が決定されうる(図4の文脈で概説されたように)。他方、第2のモードが使用された場合は、複数の再構成されたダウンミックス・チャネル信号513(前記複数のダウンミックス・チャネル信号203に対応する)が、デコード・ユニット350によって決定されてもよい。
よって、前記オブジェクトおよびHOA入力信号111を処理して、チャネル数が減少した出力信号203、たとえば一次アンビソニックス信号を生成するよう構成されたダウンミックス・モジュール210を有するエンコード・ユニット200が記述される。SPARエンコード・モジュール230は、もとの入力111、201(たとえば、オブジェクト信号とHOA)がFOA信号203からどのように再生成されるかを示すメタデータ(すなわち、SPARメタデータ)205を生成する。一組のEVSエンコーダ240が、4チャネルのFOA信号203を受け取り、ビットストリーム101に挿入されるエンコードされたオーディオ・データ206を生成する。該オーディオ・データは、その後、一組のEVSデコーダ360によってデコードされて4チャネルのFOA信号314を生成する。SPARメタデータ205は、ビットストリーム101内の(エントロピー)符号化されたメタデータ207としてデコーダ360に提供されてもよい。その後、再構成モジュール370は、オーディオ・オブジェクトおよびHOA信号からなる出力121を再生成する。
ダウンミックス・モジュール210によって生成される低分解能信号203は、(モジュール420において)WXYZエネルギー・コンパクト化変換によって修正されてもよく、これは、ダウンミックス・モジュール210の出力と比較して、より少ないチャネル間相関を有する出力信号404を生成する。エネルギー・コンパクト化フィルタ420の目的は、Wチャネルがより高いビットレートでエンコードでき、低エネルギーのX'Y'Z'チャネルがより低いビットレートでエンコードできるように、XYZチャネル内のエネルギーを低減することである。こうすることにより、符号化アーチファクトがより効果的にマスクされ、よってオーディオ品質が改善される。
予測を実行することに対して追加的または代替的に、エネルギー・コンパクト化は、カルーネン・レーベ変換(KLT)、主成分分析(PCA)変換、および/または特異値分解(SVD)変換を使用することができる。特に、ホワイトニング・フィルタ、KLT、PCA変換、および/またはSVD変換を含むエネルギー・コンパクト化フィルタ420が使用されてもよい。ホワイトニング・フィルタは、上述の予測方式を用いて実装されうる。特に、エネルギー・コンパクト化フィルタ420は、ホワイトニング・フィルタと、KLT、PCAおよび/またはSVD変換との組み合わせを含んでいてもよく、後者は、ホワイトニング・フィルタと直列に配置される。KLT、PCAおよび/またはSVD変換は、X、Y、Zチャネルに、特に予測残差に適用されうる。
図7は、マルチチャネル入力信号201をエンコードするための例示的方法700のフローチャートを示す。特に、方法700は、マルチチャネル入力信号201を含むIA信号をエンコードすることに向けられる。マルチチャネル入力信号201は、音場表現(SR)信号を含んでいてもよい。特に、マルチチャネル入力信号201は、SR信号(たとえば、HOA信号、特に二次アンビソニックス信号)と、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数(特に2つ)のオブジェクト信号との組み合わせを含んでいてもよい。
方法700は、マルチチャネル入力信号201から複数のダウンミックス・チャネル信号203を決定701することを含む。複数のダウンミックス・チャネル信号203は、マルチチャネル入力信号201と比較して低減された数のチャネルを含んでいてもよい。上述のように、マルチチャネル入力信号201は、SR信号、特にL≧1としてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数のオブジェクト信号とを含んでいてもよい。複数のダウンミックス・チャネル信号203は、マルチチャネル入力信号201を、SR信号、特にL≧KとしてK次アンビソニックス信号にダウンミックスすることによって決定されてもよい。よって、複数のダウンミックス・チャネル信号203は、SR信号、特にK次アンビソニックス信号であってもよい。
特に、複数のダウンミックス・チャネル信号203を決定701することは、(マルチチャネル入力信号201の)一つまたは複数のオーディオ・オブジェクト303の一つまたは複数のオブジェクト信号を、マルチチャネル入力信号201のSR信号(またはSR信号のダウンミックスされたバージョン)と混合することを含んでいてもよい。混合(特にパン)は、一つまたは複数のオーディオ・オブジェクト303のオブジェクト・メタデータ202に依存して実行されてもよく、オーディオ・オブジェクト303のオブジェクト・メタデータ202は、オーディオ・オブジェクト303の空間位置を示す。SR信号をダウンミックスすることは、L次のSR信号から[(L+1)2−L2]個の追加的なチャネルを除去し、(L−1)次のSR信号を提供することを含むことができる。
ある好ましい例では、複数のダウンミックス・チャネル信号203は、特にBフォーマットまたはAフォーマットの一次アンビソニックス信号を形成する。マルチチャネル入力信号201のSR信号は、二次(またはそれ以上)のアンビソニックス信号であってもよい。
さらに、本方法700は、複数のダウンミックス・チャネル信号203のエネルギー・コンパクト化を実行702して、複数のコンパクト化されたチャネル信号404を提供することを含む。複数のダウンミックス・チャネル信号203および複数のコンパクト化されたチャネル信号404のチャネルの数は、同じであってもよい。特に、複数のコンパクト化されたチャネル信号404は、一次アンビソニックス信号のフォーマット、特にBフォーマットまたはAフォーマットを形成してもよく、またはかかるフォーマットであってもよい。
エネルギー・コンパクト化は、異なるチャネル信号203の間のチャネル間相関が低減されるように実行されうる。特に、複数のコンパクト化されたチャネル信号404は、複数のダウンミックス・チャネル信号203よりも少ないチャネル間相関を示すことがある。代替的または追加的に、エネルギー・コンパクト化は、コンパクト化されたチャネル信号のエネルギーが、対応するダウンミックス・チャネル信号のエネルギー以下となるように実行されてもよい。この条件は、各チャネルについて満たされてもよい。
エネルギー・コンパクト化を実行702することは、第2のダウンミックス・チャネル信号(たとえば、Wチャネル)から第1のダウンミックス・チャネル信号203(たとえば、X、YまたはZチャネル)を予測して、第1の予測されたチャネル信号を提供することを含んでいてもよい。第1の予測されたチャネル信号は、第1のダウンミックス・チャネル信号203から減算されて(またはその逆)、第1のコンパクト化されたチャネル信号404を提供してもよい。
第2のダウンミックス・チャネル信号203から第1のダウンミックス・チャネル信号203を予測することは、第2のダウンミックス・チャネル信号203をスケーリングするためのスケーリング因子を決定することを含んでいてもよい。スケーリング因子は、第1のコンパクト化チャネル信号404のエネルギーが第1のダウンミックス・チャネル信号203のエネルギーと比較して低減されるように、および/または第1のコンパクト化チャネル信号404のエネルギーが最小化されるように、決定されてもよい。次いで、第1の予測されたチャネル信号は、スケーリング因子に従ってスケーリングされた第2のダウンミックス・チャネル信号203に対応しうる。異なるチャネルについて、異なるスケーリング因子が決定されてもよい。
特に(一次アンビソニックス信号の場合)、エネルギー・コンパクト化を実行702することは、複数のダウンミックス・チャネル信号203のWチャネル信号からXチャネル信号、Yチャネル信号、およびZチャネル信号を予測して、それぞれ予測されたXチャネル信号、予測されたYチャネル信号、および予測されたZチャネル信号を与えることを含んでいてもよい。予測されたXチャネル信号がXチャネル信号から減算されて(またはその逆)、複数のコンパクト化されたチャネル信号404のX'チャネル信号を決定してもよい。予測されたYチャネル信号がYチャネル信号から減算されて(またはその逆)、複数のコンパクト化されたチャネル信号404のY'チャネル信号を決定してもよい。予測されたZチャネル信号がZチャネル信号から減算されて(またはその逆)、複数のコンパクト化されたチャネル信号404のZ'チャネル信号を決定してもよい。さらに、複数のダウンミックス・チャネル信号203のWチャネル信号は、複数のコンパクト化されたチャネル信号404のWチャネル信号として使用されてもよい。
この結果として、すべてのチャネル(1つ、すなわち、Wチャネルを除く)のエネルギーは、低減されてもよく、それにより、複数のコンパクト化されたチャネル信号404の効率的なエンコードを可能にする。
方法700は、複数のコンパクト化されたチャネル信号404に基づいて、かつマルチチャネル入力信号201に基づいて、合同符号化メタデータ(本明細書ではSPARメタデータとも呼ばれる)205を決定703することをさらに含んでいてもよい。合同符号化メタデータ205は、合同符号化メタデータ205が、複数のコンパクト化チャネル信号404をマルチチャネル入力信号201の近似にアップミックスすることを許容するように決定されてもよい。合同符号化メタデータを決定するために複数のコンパクト化されたチャネル信号404を利用することによって、エネルギー・コンパクト化を反転させるプロセスが、合同符号化メタデータ205に自動的に含められる(エネルギー・コンパクト化動作を反転させるために固有の追加のメタデータを提供する必要はない)。
合同符号化メタデータ205は、アップミックス・データ、特に一つまたは複数のアップミックス行列を含んでいてもよく、複数のコンパクト化されたチャネル信号404をアップミックスして、マルチチャネル入力信号201の近似にすることを可能にする。マルチチャネル入力信号201の近似は、マルチチャネル入力信号201と同じ数のチャネルを含む。さらに、合同符号化メタデータ205は、マルチチャネル入力信号201の共分散の再構成を可能にする脱相関データを含んでいてもよい。
合同符号化メタデータ205は、マルチチャネル入力信号201の複数の異なるサブバンドについて(たとえば、特にQMF領域内の10以上のサブバンドについて)決定されてもよい。異なるサブバンドについて(すなわち、異なる周波数帯域内で)に対して合同符号化メタデータ205を提供することによって、正確なアップミックス動作が実行されうる。
さらに、方法700は、複数のコンパクト化されたチャネル信号404および合同符号化メタデータ205(SPARメタデータとしても知られる)をエンコード704することを含む。複数のコンパクト化されたチャネル信号404のエンコード704は、複数のコンパクト化されたチャネル信号404のそれぞれの波形符号化(特に、EVS符号化)を、特に、それぞれのコンパクト化されたチャネル信号404のためのモノ・エンコーダを用いて実行することを含んでいてもよい。代替的または追加的に、合同符号化メタデータ205は、エントロピー・エンコーダを用いてエンコードされてもよい。上述のように、マルチチャネル入力信号201は、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数のオブジェクト信号を含んでいてもよい。そのような場合、方法700は、特にエントロピー・エンコーダを用いて、前記一つまたは複数のオーディオ・オブジェクト303についてのオブジェクト・メタデータ202をエンコードすることを含んでいてもよい。
方法700は、SR信号および/または一つまたは複数のオーディオ・オブジェクト信号を示していてもよいマルチチャネル入力信号201がビットレート効率のよい仕方でエンコードされることを許容し、一方で、デコーダが高い知覚的品質でマルチチャネル入力信号201を再構成することを可能にする。
複数のコンパクト化されたチャネル信号404に基づいて、かつマルチチャネル入力信号201に基づいて、合同符号化メタデータ205を決定することは、マルチチャネル入力信号201をエンコードするための第1のモードに対応しうる。
予測を使用することに対して代替的または追加的に、エネルギー・コンパクト化を実行702することは、カルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換を、複数のダウンミックス・チャネル信号203のうちの少なくとも一部に適用することを含んでいてもよい。こうすることにより、複数のコンパクト化されたチャネル信号404の符号化効率は、さらに向上されうる。
特に、カルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換は、第2のダウンミックス・チャネル信号203に基づいて(特に、Wチャネル信号に基づいて)導出された予測残差に対応する、コンパクト化チャネル信号404に適用されうる。換言すれば、カルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換は、予測残差に適用されてもよい。
上述したように、予測の文脈では、X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号は、アンビソニックス信号を形成する複数のダウンミックス・チャネル信号203のWチャネル信号に基づいて導出されてもよい。特に、X'チャネル信号は、Xチャネル信号から、Wチャネル信号に基づくXチャネル信号の予測を減算したものに対応してもよい。同様にして、Y'チャネル信号は、Yチャネル信号から、Wチャネル信号に基づくYチャネル信号の予測を減算したものに対応してもよい。同様にして、Z'チャネル信号は、Zチャネル信号から、Wチャネル信号に基づくZチャネル信号の予測を減算したものに対応してもよい。複数のコンパクト化されたチャネル信号404は、Wチャネル信号、X'チャネル信号、Y'チャネル信号、およびZ'チャネル信号に基づいて決定されてもよく、またはこれらに対応していてもよい。
複数のコンパクト化されたチャネル信号404の符号化効率をさらに高めるために、カルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換がX'チャネル信号、Y'チャネル信号、およびZ'チャネル信号に適用されて、X"チャネル信号、Y"チャネル信号、およびZ"チャネル信号を提供してもよい。次いで、複数のコンパクト化されたチャネル信号404が、Wチャネル信号、X"チャネル信号、Y"チャネル信号、およびZ"チャネル信号に基づいて決定されてもよい。
第2のモードでは、合同符号化メタデータ205は、複数のコンパクト化されたチャネル信号404に基づいて、かつ複数のダウンミックス・チャネル信号203に基づいて決定されうる。合同符号化メタデータ205は、合同符号化メタデータ205が、複数のコンパクト化されたチャネル信号404から複数のダウンミックス・チャネル信号203を再構成することを許容するように決定されてもよい。特に、合同符号化メタデータ205は、合同符号化メタデータ205が、(アップミックス演算を実行することなく)エネルギー・コンパクト化演算を逆転または反転させる(だけである)ように決定されてもよい。第2のモードは、(低下した知覚的品質で)ビットレートを低減するために使用されてもよい。
上述のように、マルチチャネル入力信号201は、SR信号および一つまたは複数のオブジェクト信号を含んでいてもよい。第1のモードおよび第2のモードは、(複数のコンパクト化されたチャネル信号404に基づいて)SR信号の再構成を許容してもよい。よって、聴取者の全体的な聴取体験は(第2のモードを使用するときでさえ)維持されうる。
マルチチャネル入力信号201は、フレームのシーケンスを含んでいてもよい。本稿に記載される処理は、フレームのシーケンスの各フレームについて、フレームごとに実行されてもよい。特に、方法700は、第1のモードを使用するか第2のモードを使用するかをフレームのシーケンスの各フレームについて決定することを含んでいてもよい。こうすることにより、エンコードは、伝送ネットワークの変化する条件に迅速に適応させることができる。
方法700は、複数のコンパクト化されたチャネル信号404をエンコード704することによって導出された符号化されたオーディオ・データ206に基づいて、かつ合同符号化メタデータ205をエンコード704することによって導出された符号化されたメタデータ207に基づいて、ビットストリーム101を生成することを含んでいてもよい。さらに、方法700は、第2のモードが使用されたか第1のモードが使用されたかを示す指示をビットストリーム101に挿入することを含んでいてもよい。該指示は、フレーム単位で挿入されてもよい。この結果として、対応するデコード・ユニット350は、信頼性のある仕方でデコードを適応させることができる。
図8は、複数の再構成されたチャネル信号314を示す符号化されたオーディオ・データ206から、および合同符号化メタデータ205を示す符号化されたメタデータ207から、再構成されたマルチチャネル信号311を決定するための例示的な方法800のフローチャートを示す。方法800は、ビットストリーム101から符号化されたオーディオ・データ206および符号化されたメタデータ207を抽出することを含んでいてもよい。
さらに、方法800は、複数の再構成されたチャネル信号314を提供するために符号化されたオーディオ・データ206をデコード801し、合同符号化メタデータ205を提供するために符号化されたメタデータ207をデコードすることを含んでいてもよい。ある好ましい例では、複数の再構成されたチャネル信号203は、特にBフォーマットまたはAフォーマットの一次アンビソニックス信号を形成する。
符号化されたオーディオ・データ206のデコード801は、特にそれぞれの再構成されたチャネル信号314についてのモノ・デコーダ(たとえば、EVSデコーダ)を使用しての、複数の再構成されたチャネル信号314のそれぞれの波形復号を含んでいてもよい。符号化されたメタデータ207は、エントロピー・デコーダを用いてデコードされてもよい。
さらに、方法800は、合同符号化メタデータ205を用いて、複数の再構成されたチャネル信号314から、再構成されたマルチチャネル信号311を決定802することを含んでいてもよい。再構成されたマルチチャネル信号311は、再構成された音場表現(SR)信号を含んでいてもよい。特に、再構成されたマルチチャネル信号311は、マルチチャネル入力信号201の近似または再構成に対応する。再構成されたマルチチャネル信号311およびオブジェクト・メタデータ202は、一緒になって、再構成された没入的オーディオ(IA)信号121を形成しうる。
さらに、方法800は、再構成されたマルチチャネル信号311を(典型的には、オブジェクト・メタデータ202との関連で)をレンダリングすることを含んでいてもよい。レンダリングは、ヘッドフォン・レンダリング、スピーカー・レンダリング、および/または音場レンダリングを使用して実行されうる。この結果として、空間的な音声コンテンツの柔軟なレンディングが可能にされる(特にVRアプリケーションについて)。
上述のように、合同符号化メタデータ205は、複数の再構成されたチャネル信号404の再構成されたマルチチャネル信号311へのアップミックスを可能にするアップミックス・データ、特に一つまたは複数のアップミックス行列を含んでいてもよい。さらに、合同符号化メタデータ205は、あらかじめ決定された共分散を有する再構成されたマルチチャネル信号311の生成を可能にする脱相関データを含んでいてもよい。合同符号化メタデータ205は、再構成されたマルチチャネル信号311の異なるサブバンドについて異なるメタデータを含んでいてもよい。この結果として、マルチチャネル入力信号201の正確な再構成が達成されうる。
対応するエンコーダ200では、複数のダウンミックス・チャネル信号304にエネルギー・コンパクト化が適用されていてもよい。エネルギー・コンパクト化は、予測を使用して、および/またはカルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換を使用して実行されていてもよい。合同符号化メタデータ205は、アップミックスに加えて、暗黙的にエネルギー・コンパクト化動作の逆演算を実行するようなものであってもよい。特に、合同符号化メタデータ205は、加えて、予測動作の逆および/またはカルーネン・レーベ変換、主成分分析変換および/または、特異値分解変換の逆を暗黙的に実行するようなものであってもよい。
換言すれば、合同符号化メタデータ205は、複数の再構成されたチャネル信号404の再構成されたマルチチャネル信号311へのアップミックスを可能にし、(暗黙のうちに)複数の再構成されたチャネル信号314に対して逆エネルギー・コンパクト化動作を実行するように構成されてもよい。特に、合同符号化メタデータ205は、複数の再構成されたチャネル信号314のうちの少なくとも一部に対して逆予測動作(エンコーダ200によって実行された予測動作に対する逆)を(暗黙的に)実行するように構成されてもよい。代替的にまたは追加的に、合同符号化メタデータ205は、カルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換の逆(エンコーダ200によって実行された変換に対する逆)を、複数の再構成されたチャネル信号314のうちの少なくとも一部に対して実行するように構成されてもよい。この結果として、特に効率的な符号化方式が提供されうる。
再構成されたマルチチャネル信号311は、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数の再構成されたオブジェクト信号を(SR信号、たとえば、FOAまたはHOA信号に加えて)含んでいてもよい。方法800は、特にエントロピー・デコーダを用いて、符号化されたメタデータ207から、一つまたは複数のオーディオ・オブジェクト303のためのオブジェクト・メタデータ202をデコードすることを含んでいてもよい。この結果として、前記一つまたは複数のオブジェクト303は、正確にレンダリングされうる。
上述のように、複数の再構成されたチャネル信号314は、SR信号、特にK≧1(特にK=1)としてK次アンビソニックス信号を形成してもよい。他方、再構成されたマルチチャネル信号311は、SR信号、特にL≧K(特にL=KまたはL=K+1)としてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト303の一つまたは複数の(たとえば、n=2個の)再構成されたオブジェクト信号とを含んでいてもよい。再構成されたマルチチャネル信号311は、合同符号化メタデータ205を使用して複数の再構成されたチャネル信号314をアップミックスすることによって決定されてもよく、それにより、再構成されたマルチチャネル信号311に実質的な空間的音響イベントを与える。
上述のように、アップミックスの使用は、(高い知覚的品質のための)第1のモードに対応しうる。第1のモードでは、合同オブジェクト・メタデータ205は、アップミックス動作を可能にするためのアップミックス・データを含む。第2のモードでは、再構成されたマルチチャネル信号311は、複数の再構成されたチャネル信号314と同じ数のチャネルを含んでいてもよい(よって、アップミックス動作は必要とされない)。
第2のモードでは、合同符号化メタデータ205は、異なる再構成されたチャネル信号314の間でエネルギーを再配分するように構成された予測データ(たとえば、一つまたは複数のスケーリング因子)を含んでいてもよい。さらに、第2のモードでは、再構成されたマルチチャネル信号311を決定802することは、予測データを使用して、異なる再構成されたチャネル信号314の間でエネルギーを再配分することを含んでいてもよい。特に、上述のエネルギー・コンパクト化動作の逆演算は、合同符号化メタデータ205を使用して実行されてもよい。この結果として、複数のダウンミックス・チャネル信号203は、効率的かつ正確な仕方で再構成されうる。
上記で概説したように、エンコード中に実行されるエネルギー・コンパクト化動作は、カルーネン・レーベ変換、主成分分析変換、および/または特異値分解変換を、複数のダウンミックス・チャネル信号203のうちの少なくとも一部に適用することを含んでいてもよい。合同符号化メタデータ205は、デコーダ350がカルーネン・レーベ変換、主成分分析変換、および/または、特異値分解変換の逆変換を実行することを可能にする変換データを含んでいてもよい。換言すれば、変換データは、再構成されたマルチチャネル信号311を決定するために、複数の再構成されたチャネル信号314のうちの少なくともいくつかに適用されるべき、カルーネン・レーベ変換、主成分分析変換、および/または、特異値分解変換の逆変換を示す。この結果として、複数のダウンミックス・チャネル信号203は、効率的かつ正確な仕方で再構成されうる。
上述のように、再構成されたマルチチャネル入力信号311は、フレームのシーケンスを含んでいてもよい。方法800は、フレームのシーケンスの各フレームについて、第2のモードが使用されるか否かを決定することを含んでいてもよい。この目的のために、第2のモードが使用されるかどうかを示す指示が、ビットストリーム101から抽出されてもよい。
本発明のさまざまな例示的な実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、論理、またはそれらの任意の組み合わせで実装されうる。いくつかの側面はハードウェアで実装されてもよく、他の側面はコントローラ、マイクロプロセッサ、または他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアで実装されてもよい。一般に、本開示は、上述の方法を実行するのに好適な装置、たとえば、メモリおよび該メモリに結合されたプロセッサを有する装置(空間レンダラー)であって、プロセッサは、命令を実行し、本開示の実施形態に従って方法を実行するように構成される、装置を包含することが理解される。
本発明の例示的な実施形態のさまざまな側面が、ブロック図、フローチャートとして、または他のいくつかの絵的な表現を用いて図示され記述されているが、本明細書に記載されるブロック、装置、システム、技法、または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他のコンピューティング装置、またはそれらのいくつかの組み合わせにおいて実装されてもよいことが理解されるであろう。
さらに、フローチャートに示されたさまざまなブロックは、方法ステップとして、および/またはコンピュータ・プログラム・コードの動作から帰結する動作として、および/または関連する機能を実行するように構築された複数の結合された論理回路素子として見なすことができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、このコンピュータ・プログラムは、上述の方法を実行するように構成されたプログラム・コードを含む。
本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれと関連して使用するためのプログラムを含む、または記憶することができる任意の有体な媒体でありうる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、または上記の任意の好適な組み合わせを含み得るが、それらに限定されない。機械可読記憶媒体の、より具体的な例は、一つまたは複数のワイヤ、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルなコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の好適な組み合わせを有する電気接続を含む。
本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてもよく、プログラム・コードは、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行されると、フローチャートおよび/またはブロック図において指定された機能/動作を実施させる。プログラム・コードは、コンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上、部分的には遠隔コンピュータ上で、または全部が遠隔コンピュータまたはサーバー上で実行されてもよい。
さらに、動作が特定の順序で描かれているが、これは、そのような動作が、図示された特定の順序でまたは逐次順に実行されること、または、望ましい結果を達成するために、図示されたすべての動作が実行されることを要求するものとして理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利でありうる。同様に、いくつかの具体的な実装詳細が上記の議論に含まれているが、これらは、いずれかの発明、または特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ、具体的な発明の具体的な実施形態に固有でありうる特徴の説明として解釈されるべきである。本明細書において別々の実施形態の文脈において記載されるある種の特徴が、単一の実施形態において組み合わせて実施されてもよい。逆に、単一の実施形態の文脈において記述されるさまざまな特徴が、複数の実施形態において別々に、または任意の好適なサブコンビネーションにおいて実装されてもよい。
明細書および図面は、提案される方法および装置の原理を説明するに過ぎないことを注意しておくべきである。よって、当業者は、本明細書に明示的に記載または図示されていないが、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案することができることが理解されるであろう。さらに、本明細書に記載されたすべての例は、主として、提案される方法および装置の原理、ならびに当該技術を促進するために発明者によって寄与された概念を理解する際に読者を助けるという教育目的のみをはっきりと目的とするものであり、そのように具体的に記載された例および条件に限定することなく、解釈される。さらに、本発明の原理、側面、および実施形態、ならびにそれらの特定の例を記載する本明細書のすべての陳述は、それらの均等物を包含することが意図されている。

Claims (36)

  1. マルチチャネル入力信号(201)をエンコードする方法(700)であって、当該方法(700)は、
    ・前記マルチチャネル入力信号(201)からの複数のダウンミックス・チャネル信号(203)を決定する段階(701)と;
    ・前記複数のダウンミックス・チャネル信号(203)のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号(404)を提供する段階(702)と;
    ・合同符号化メタデータ(205)を、前記複数のコンパクト化されたチャネル信号(404)に基づいて、かつ、前記マルチチャネル入力信号(201)に基づいて決定する段階(703)であって、前記合同符号化メタデータ(205)は、前記複数のコンパクト化されたチャネル信号(404)を、前記マルチチャネル入力信号(201)の近似にアップミックスすることを許容するようなものである、段階と;
    ・前記複数のコンパクト化されたチャネル信号(404)および前記合同符号化メタデータ(205)をエンコードする段階(704)とを含む、
    方法。
  2. エネルギー・コンパクト化が、コンパクト化されたチャネル信号(404)のエネルギーが、対応するダウンミックス・チャネル信号(203)のエネルギーよりも低いように実行される、請求項1に記載の方法。
  3. エネルギー・コンパクト化を実行することが:
    ・第2のダウンミックス・チャネル信号(203)から第1のダウンミックス・チャネル信号(203)を予測して、第1の予測されたチャネル信号を提供し;
    ・前記第1のダウンミックス・チャネル信号(203)から前記第1の予測されたチャネル信号を減算して、第1のコンパクト化されたチャネル信号(404)を提供することを含む、
    請求項1または2に記載の方法。
  4. ・第2のダウンミックス・チャネル信号(203)から第1のダウンミックス・チャネル信号(203)を予測することが、前記第2のダウンミックス・チャネル信号(203)をスケーリングするためのスケーリング因子を決定することを含み;
    ・前記第1の予測されたチャネル信号は、前記スケーリング因子に従ってスケーリングされた前記第2のダウンミックス・チャネル信号(203)に対応する、
    請求項3に記載の方法。
  5. 前記スケーリング因子が、
    ・前記第1のコンパクト化されたチャネル信号(404)のエネルギーが、前記第1のダウンミックス・チャネル信号(203)のエネルギーと比較して低減される;および/または
    ・前記第1のコンパクト化されたチャネル信号(404)のエネルギーが最小化される、
    ように決定される、請求項4に記載の方法。
  6. エネルギー・コンパクト化を実行することが、
    ・前記第2のダウンミックス・チャネル信号(203)からの予測に基づいて、いくつかのコンパクト化されたチャネル信号(404)を決定し;
    ・前記いくつかのコンパクト化されたチャネル信号(404)に対して、カルーネン・レーベ変換、主成分分析変換および/または特異値分解変換を適用することを含む、
    請求項3ないし5のうちいずれか一項に記載の方法。
  7. ・前記複数のダウンミックス・チャネル信号(203)が、特にBフォーマットまたはAフォーマットの、一次アンビソニックス信号である;および/または
    ・前記複数のコンパクト化されたチャネル信号(404)が、特にBフォーマットまたはAフォーマットの、一次アンビソニックス信号のフォーマットで表現される。
    請求項1ないし6のうちいずれか一項に記載の方法。
  8. エネルギー・コンパクト化を実行することが、
    ・前記複数のダウンミックス・チャネル信号(203)のWチャネル信号からXチャネル信号、Yチャネル信号、およびZチャネル信号を予測して、予測されたXチャネル信号、予測されたYチャネル信号、および予測されたZチャネル信号を提供し;
    ・前記Xチャネル信号から前記予測されたXチャネル信号を減算してX'チャネル信号を決定し;
    ・前記Yチャネル信号から前記予測されたYチャネル信号を減算してY'チャネル信号を決定し;
    ・前記Zチャネル信号から前記予測されたZチャネル信号を減算してZ'チャネル信号を決定し;
    ・前記Wチャネル信号、前記X'チャネル信号、前記Y'チャネル信号、および前記Z'チャネル信号に基づいて前記複数のコンパクト化されたチャネル信号(404)を決定することを含む、
    請求項7に記載の方法。
  9. エネルギー・コンパクト化を実行することが、
    ・前記X'チャネル信号、前記Y'チャネル信号、および前記Z'チャネル信号に対してカルーネン・レーベ変換、主成分分析変換および/または特異値分解変換を適用して、X"チャネル信号、Y"チャネル信号、および、Z""チャネル信号を提供し;
    ・前記Wチャネル信号、前記X"チャネル信号、前記Y"チャネル信号、および前記Z"チャネル信号に基づいて前記複数のコンパクト化されたチャネル信号(404)を決定することを含む、
    請求項8に記載の方法。
  10. エネルギー・コンパクト化を実行することが、前記複数のダウンミックス・チャネル信号(203)のうちの少なくとも一部に対して、カルーネン・レーベ変換、主成分分析変換および/または特異値分解変換を適用することを含む、請求項1ないし9のうちいずれか一項に記載の方法。
  11. 前記合同符号化メタデータ(205)が、
    ・前記複数のコンパクト化されたチャネル信号(404)の、前記マルチチャネル入力信号(201)と同じ数のチャネルを含む前記マルチチャネル入力信号(201)の近似へのアップミックスを可能にするアップミックス・データ、特にアップミックス行列;および/または
    ・前記マルチチャネル入力信号(201)の共分散の再構成を可能にする脱相関データ
    を含む、請求項1ないし10のうちいずれか一項に記載の方法。
  12. 前記合同符号化メタデータ(205)が、前記マルチチャネル入力信号(201)の複数の異なるサブバンドについて決定される、請求項1ないし11のうちいずれか一項に記載の方法。
  13. 前記複数のコンパクト化されたチャネル信号(404)をエンコードすること(704)が、前記複数のコンパクト化されたチャネル信号(404)のそれぞれの波形符号化を、特に、各コンパクト化されたチャネル信号(404)のためのモノ・エンコーダを用いて実行することを含む、請求項1ないし12のうちいずれか一項に記載の方法。
  14. 前記合同符号化メタデータ(205)が、エントロピー・エンコーダを用いてエンコードされる、請求項1ないし13のうちいずれか一項に記載の方法。
  15. ・前記マルチチャネル入力信号(201)は、一つまたは複数のオーディオ・オブジェクト(303)の一つまたは複数のオブジェクト信号を含み;
    ・当該方法(700)は、特にエントロピー・エンコーダを用いて、前記一つまたは複数のオーディオ・オブジェクト(303)についてのオブジェクト・メタデータ(202)をエンコードすることを含む、
    請求項1ないし14のうちいずれか一項に記載の方法。
  16. ・前記マルチチャネル入力信号(201)は、SRと呼ばれる音場表現信号、特に、L≧1としてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト(303)の一つまたは複数のオブジェクト信号とを含み;
    ・前記複数のダウンミックス・チャネル信号(203)は、前記マルチチャネル入力信号(201)をSR信号、特にL≧KとしてK次アンビソニックス信号にダウンミックスすることによって決定される、
    請求項1ないし15のうちいずれか一項に記載の方法。
  17. ・前記複数のダウンミックス・チャネル信号(203)を決定すること(701)が、一つまたは複数のオーディオ・オブジェクト(303)の前記一つまたは複数のオブジェクト信号を、前記一つまたは複数のオーディオ・オブジェクト(303)のオブジェクト・メタデータ(202)に依存して、前記マルチチャネル入力信号(201)の前記SR信号に混合することを含み;
    ・オーディオ・オブジェクト(303)の前記オブジェクト・メタデータ(202)が、前記オーディオ・オブジェクト(303)の空間位置を示す、
    請求項16に記載の方法。
  18. ・当該方法(700)が、前記マルチチャネル入力信号(201)が第2のモードを使用してエンコードされるべきであることを決定することを含み;
    ・第2のモードでは、前記合同符号化メタデータ(205)は、前記複数のコンパクト化されたチャネル信号(404)に基づいて、かつ前記複数のダウンミックス・チャネル信号(203)に基づいて決定され、前記合同符号化メタデータ(205)は、前記複数のコンパクト化されたチャネル信号(404)から前記複数のダウンミックス・チャネル信号(203)を再構成することを許容するようなものである、
    請求項16に記載の方法。
  19. ・前記複数のコンパクト化されたチャネル信号(404)に基づいて、かつ前記マルチチャネル入力信号(201)に基づいて前記合同符号化メタデータ(205)を決定することは、第1のモードに対応し;
    ・前記マルチチャネル入力信号(201)は、フレームのシーケンスを含み;
    ・当該方法(700)は、フレームのシーケンスの各フレームについて、第1のモードを使うか第2のモードを使うかを決定することを含む、
    請求項18に記載の方法。
  20. ・前記複数のコンパクト化されたチャネル信号(404)をエンコード(704)することによって導出された符号化されたオーディオ・データ(206)に基づいて、かつ前記合同符号化メタデータ(205)をエンコード(704)することによって導出された符号化されたメタデータ(207)に基づいて、ビットストリーム(101)を生成し;
    ・前記ビットストリーム(101)に、前記第2のモードが使用されたかどうかを示す指示を挿入することを含む、
    請求項17ないし19のうちいずれか一項に記載の方法。
  21. 複数の再構成されたチャネル信号(314)を示す符号化されたオーディオ・データ(206)および合同符号化メタデータ(205)を示す符号化されたメタデータ(207)から、再構成されたマルチチャネル信号(311)を決定する方法(800)であって、当該方法(800)は、
    ・前記符号化されたオーディオ・データ(206)をデコード(801)して、前記複数の再構成されたチャネル信号(314)を提供し、前記符号化されたメタデータ(207)をデコードして前記合同符号化メタデータ(205)を提供し;
    ・前記合同符号化メタデータ(205)を用いて、前記複数の再構成されたチャネル信号(314)から前記再構成されたマルチチャネル信号(311)を決定する(802)ことを含む、
    方法。
  22. 前記複数の再構成されたチャネル信号(314)が、特にBフォーマットまたはAフォーマットの、一次アンビソニックス信号である、請求項21に記載の方法。
  23. 前記合同符号化メタデータ(205)が、
    ・前記複数の再構成されたチャネル信号(404)の、前記再構成されたマルチチャネル信号(311)へのアップミックスを可能にするアップミックス・データ、特にアップミックス行列;および/または
    ・あらかじめ決定された共分散を有する再構成されたマルチチャネル信号(311)を生成することを可能にする脱相関データ
    を含む、請求項21または22に記載の方法。
  24. 前記合同符号化メタデータ(205)が、前記再構成されたマルチチャネル信号(311)の異なるサブバンドについて異なるメタデータを含む、請求項21ないし23のうちいずれか一項に記載の方法。
  25. 前記符号化されたオーディオ・データ(206)のデコード(801)は、前記複数の再構成されたチャネル信号(314)のそれぞれの波形復号を、特に各再構成されたチャネル信号(314)のためのモノ・デコーダを使用して、実行することを含む、請求項21ないし24のうちいずれか一項に記載の方法。
  26. 前記符号化されたメタデータ(207)がエントロピー・デコーダを用いてデコードされる、請求項21ないし25のうちいずれか一項に記載の方法。
  27. ・前記再構成されたマルチチャネル信号(311)は、一つまたは複数のオーディオ・オブジェクト(303)の一つまたは複数の再構成されたオブジェクト信号を含み;
    ・当該方法(800)は、符号化されたメタデータ(207)から、前記一つまたは複数のオーディオ・オブジェクト(303)についてのオブジェクト・メタデータ(202)を、特にエントロピー・デコーダを用いてデコードすることを含む、
    請求項21ないし26のうちいずれか一項に記載の方法。
  28. ・前記複数の再構成されたチャネル信号(314)は、SRと称される音場表現信号、特にK≧1としてK次アンビソニックス信号を形成し;
    ・前記再構成されたマルチチャネル信号(311)は、前記合同符号化メタデータ(205)を用いて前記複数の再構成されたチャネル信号(314)をアップミックスすることによって決定され、
    ・前記再構成されたマルチチャネル信号(311)は、前記再構成されたSR信号、特にL≧KとしてL次アンビソニックス信号と、一つまたは複数のオーディオ・オブジェクト(303)の一つまたは複数の再構成されたオブジェクト信号とを含む、
    請求項21ないし27のうちいずれか一項に記載の方法。
  29. ・前記合同符号化メタデータ(205)は、前記複数の再構成されたチャネル信号(314)に対して逆エネルギー・コンパクト化動作を実行するように構成される;および/または
    ・前記合同符号化メタデータ(205)は、前記複数の再構成されたチャネル信号(314)の少なくとも一部に対して逆予測動作を実行するように構成される;および/または
    ・前記合同符号化メタデータ(205)は、前記複数の再構成されたチャネル信号(314)の少なくとも一部に対して、カルーネン・レーベ変換、主成分分析変換および/または特異値分解変換の逆を実行するように構成される、
    請求項21ないし28のうちいずれか一項に記載の方法。
  30. ・当該方法(800)が、前記再構成されたマルチチャネル信号(311)が第2のモードを用いて決定されるべきであることを判別することを含み;
    ・第2のモードでは、前記合同符号化メタデータ(205)は、異なる再構成されたチャネル信号(314)の間でエネルギーを再配分するように構成された予測データおよび/または変換データを含み:
    ・第2のモードでは、前記再構成されたマルチチャネル信号(311)を決定する(802)ことは、前記予測データおよび/または前記変換データを使用して、異なる再構成されたチャネル信号(314)の間でエネルギーを再配分することを含み;
    ・第2のモードでは、前記再構成されたマルチチャネル信号(311)は、前記複数の再構成されたチャネル信号(314)と同じ数のチャネルを含む、
    請求項21ないし29のうちいずれか一項に記載の方法。
  31. 前記変換データは、前記再構成されたマルチチャネル信号(311)を決定するために前記複数の再構成されたチャネル信号(314)のうちの少なくとも一部に適用されるべき、カルーネン・レーベ変換、主成分分析変換および/または特異値分解変換の逆を示す、請求項30に記載の方法。
  32. ・前記再構成されたマルチチャネル入力信号(311)は、フレームのシーケンスを含み;
    ・当該方法(800)は、第2のモードが使用されるべきか否かを、フレームのシーケンスの各フレームについて決定することを含む、
    請求項30または31に記載の方法。
  33. ・ビットストリーム(101)から前記符号化されたオーディオ・データ(206)および前記符号化されたメタデータ(207)を抽出し;
    ・前記ビットストリーム(101)から、第2のモードが使用されるべきであるかどうか示す指示を抽出することを含む、
    請求項30ないし32のうちいずれか一項に記載の方法。
  34. 当該方法(800)が、前記再構成されたマルチチャネル信号(311)をレンダリングすることを含む、請求項30ないし33のうちいずれか一項に記載の方法。
  35. マルチチャネル入力信号(201)をエンコードするためのエンコード・ユニット(200)であって、当該エンコード・ユニット(200)は、
    ・前記マルチチャネル入力信号(201)から複数のダウンミックス・チャネル信号(203)を決定する段階と;
    ・前記複数のダウンミックス・チャネル信号(203)のエネルギー・コンパクト化を実行して、複数のコンパクト化されたチャネル信号(404)を提供する段階と;
    ・前記複数のコンパクト化されたチャネル信号(404)に基づいて、かつ前記マルチチャネル入力信号(201)に基づいて、合同符号化メタデータ(205)を決定する段階であって、前記合同符号化メタデータ(205)は、前記複数のコンパクト化されたチャネル信号(404)を、前記マルチチャネル入力信号(201)の近似にアップミックスすることを許容するようなものである、段階と;
    ・前記複数のコンパクト化されたチャネル信号(404)および前記合同符号化メタデータ(205)をエンコードする段階とを実行するように構成されている、
    エンコード・ユニット。
  36. 複数の再構成されたチャネル信号(314)を示す符号化されたオーディオ・データ(206)および合同符号化メタデータ(205)を示す符号化されたメタデータ(207)から、再構成されたマルチチャネル信号(311)を決定するためのデコード・ユニット(350)であって、当該デコード・ユニット(350)は、
    ・前記符号化されたオーディオ・データ(206)をデコードして、前記複数の再構成されたチャネル信号(314)を提供し;
    ・前記符号化されたメタデータ(207)をデコードして、前記合同符号化メタデータ(205)を提供し;
    ・前記合同符号化メタデータ(205)を用いて、前記複数の再構成されたチャネル信号(314)から、前記再構成されたマルチチャネル信号(311)を決定するよう構成されている、
    デコード・ユニット。
JP2020547116A 2018-07-02 2019-07-02 没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置 Pending JP2021530724A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862693246P 2018-07-02 2018-07-02
US62/693,246 2018-07-02
PCT/US2019/040282 WO2020010072A1 (en) 2018-07-02 2019-07-02 Methods and devices for encoding and/or decoding immersive audio signals

Publications (2)

Publication Number Publication Date
JP2021530724A true JP2021530724A (ja) 2021-11-11
JPWO2020010072A5 JPWO2020010072A5 (ja) 2022-07-05

Family

ID=67439427

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020547116A Pending JP2021530724A (ja) 2018-07-02 2019-07-02 没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置
JP2020547044A Pending JP2021530723A (ja) 2018-07-02 2019-07-02 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2020547044A Pending JP2021530723A (ja) 2018-07-02 2019-07-02 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置

Country Status (14)

Country Link
US (2) US11699451B2 (ja)
EP (3) EP4312212A3 (ja)
JP (2) JP2021530724A (ja)
KR (2) KR20210027238A (ja)
CN (2) CN111837182A (ja)
AU (2) AU2019298232B2 (ja)
BR (2) BR112020017338A2 (ja)
CA (2) CA3091150A1 (ja)
DE (1) DE112019003358T5 (ja)
ES (1) ES2968801T3 (ja)
IL (4) IL276618B1 (ja)
MX (2) MX2020009578A (ja)
SG (2) SG11202007629UA (ja)
WO (2) WO2020010072A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116324979A (zh) * 2020-09-28 2023-06-23 三星电子株式会社 音频编码装置和方法,以及音频解码装置和方法
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
CN114582356A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置
WO2023141034A1 (en) * 2022-01-20 2023-07-27 Dolby Laboratories Licensing Corporation Spatial coding of higher order ambisonics for a low latency immersive audio codec
GB2615607A (en) * 2022-02-15 2023-08-16 Nokia Technologies Oy Parametric spatial audio rendering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005081229A1 (ja) * 2004-02-25 2005-09-01 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ及びオーディオデコーダ
JP2013507664A (ja) * 2009-10-16 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
JP2013528822A (ja) * 2010-04-09 2013-07-11 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法
JP2017501438A (ja) * 2013-11-27 2017-01-12 ディーティーエス・インコーポレイテッドDTS,Inc. 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094369A2 (en) 2002-05-03 2003-11-13 Harman International Industries, Incorporated Multi-channel downmixing device
CN101010724B (zh) * 2004-08-27 2011-05-25 松下电器产业株式会社 音频编码器
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
AU2009267518B2 (en) 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
CN102687199B (zh) * 2010-01-08 2015-11-25 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US20150348558A1 (en) * 2010-12-03 2015-12-03 Dolby Laboratories Licensing Corporation Audio Bitstreams with Supplementary Data and Encoding and Decoding of Such Bitstreams
TWI480860B (zh) * 2011-03-18 2015-04-11 Fraunhofer Ges Forschung 音訊編碼中之訊框元件長度傳輸技術
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
KR101829822B1 (ko) * 2013-07-22 2018-03-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN117037811A (zh) * 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
WO2015038522A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP3149972B1 (en) 2014-05-30 2018-08-15 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
ES2922373T3 (es) * 2015-03-03 2022-09-14 Dolby Laboratories Licensing Corp Realce de señales de audio espacial por decorrelación modulada
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CA3134343A1 (en) 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
WO2019143867A1 (en) 2018-01-18 2019-07-25 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005081229A1 (ja) * 2004-02-25 2005-09-01 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ及びオーディオデコーダ
JP2013507664A (ja) * 2009-10-16 2013-03-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
JP2013528822A (ja) * 2010-04-09 2013-07-11 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法
JP2017501438A (ja) * 2013-11-27 2017-01-12 ディーティーエス・インコーポレイテッドDTS,Inc. 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング

Also Published As

Publication number Publication date
US20240005933A1 (en) 2024-01-04
EP4312212A2 (en) 2024-01-31
IL276619A (en) 2020-09-30
MX2020009578A (es) 2020-10-05
AU2019298240A1 (en) 2020-09-17
CA3091150A1 (en) 2020-01-09
SG11202007628PA (en) 2020-09-29
BR112020016948A2 (pt) 2020-12-15
IL276619B1 (en) 2023-11-01
MX2020009581A (es) 2020-10-05
KR20210027236A (ko) 2021-03-10
EP3818524A1 (en) 2021-05-12
DE112019003358T5 (de) 2021-03-25
EP4312212A3 (en) 2024-04-17
KR20210027238A (ko) 2021-03-10
IL276618B1 (en) 2024-06-01
EP3818521A1 (en) 2021-05-12
RU2020130051A (ru) 2022-03-14
CN111819627A (zh) 2020-10-23
ES2968801T3 (es) 2024-05-14
IL312390A (en) 2024-06-01
WO2020010064A1 (en) 2020-01-09
JP2021530723A (ja) 2021-11-11
SG11202007629UA (en) 2020-09-29
US20210166708A1 (en) 2021-06-03
AU2019298232B2 (en) 2024-03-14
IL307898A (en) 2023-12-01
CN111837182A (zh) 2020-10-27
CA3091241A1 (en) 2020-01-09
WO2020010072A1 (en) 2020-01-09
IL276619B2 (en) 2024-03-01
RU2020130053A (ru) 2022-03-14
BR112020017338A2 (pt) 2021-03-02
IL276618A (en) 2020-09-30
EP3818524B1 (en) 2023-12-13
AU2019298232A1 (en) 2020-09-17
US20210375297A1 (en) 2021-12-02
US11699451B2 (en) 2023-07-11

Similar Documents

Publication Publication Date Title
US11984131B2 (en) Concept for audio encoding and decoding for audio channels and audio objects
JP2021530724A (ja) 没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置
US11743668B2 (en) Renderer controlled spatial upmix
AU2014295216B2 (en) Apparatus and method for enhanced spatial audio object coding
US9966080B2 (en) Audio object encoding and decoding
EP3022734B1 (en) Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
WO2008120933A1 (en) Apparatus and method for coding and decoding multi object audio signal with multi channel
KR20160021892A (ko) 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
JP6888172B2 (ja) 音場表現信号を符号化する方法及びデバイス
WO2015145782A1 (en) Apparatus and method for surround audio signal processing
RU2802803C2 (ru) Способы и устройства для кодирования и/или декодирования аудиосигналов погружения

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240604