JP6888172B2 - 音場表現信号を符号化する方法及びデバイス - Google Patents

音場表現信号を符号化する方法及びデバイス Download PDF

Info

Publication number
JP6888172B2
JP6888172B2 JP2020539815A JP2020539815A JP6888172B2 JP 6888172 B2 JP6888172 B2 JP 6888172B2 JP 2020539815 A JP2020539815 A JP 2020539815A JP 2020539815 A JP2020539815 A JP 2020539815A JP 6888172 B2 JP6888172 B2 JP 6888172B2
Authority
JP
Japan
Prior art keywords
signal
reconstructed
audio
downmix
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020539815A
Other languages
English (en)
Other versions
JP2021507314A (ja
Inventor
ショエルリンク,クリストファー
デイヴィッド エス. マグラス
デイヴィッド エス. マグラス
プルンハーゲン,ヘイコ
アール. ピー. トーマス,マーク
アール. ピー. トーマス,マーク
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2021507314A publication Critical patent/JP2021507314A/ja
Application granted granted Critical
Publication of JP6888172B2 publication Critical patent/JP6888172B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

関連出願
本特許出願は2018年1月18日付で出願された米国仮特許出願第62/618,991号に基づく優先権の利益を主張するものであり、その全体がリファレンスにより本願に援用される。
技術分野
本願は、音場表現信号、特にアンビソニック信号(ambisonics signals)に関する。特に、本願はAC−4のようなオブジェクト・ベースのオーディオ符号化方式を用いた音場表現信号の符号化に関する。
背景技術
リスニング位置におけるリスナーのリスニング環境内の音場又は音場は、アンビソニック信号を使用して記述されることが可能である。アンビソニック信号は、各チャネルがリスナーのリスニング位置における音場の特定の指向性パターンに対応しているマルチ・チャネル・オーディオ信号として考えることができる。アンビソニック信号は、3次元(3D)カーテシアン座標系を用いて記述されることが可能であり、座標系の原点はリスニング位置に対応し、X軸は前方を指し、Y軸は左を指し、z軸は上を指す。
オーディオ信号又はチャネルの数を増やし、対応する指向性パターンの数(及び対応するパン機能)を増やすことによって、音場が記述される精度は高められる可能性がある。例として、1次アンビソニック信号は、4つのチャネル又は波形、即ち、音場のオムニ指向性成分を示すWチャネル、x軸に対応するダイポール指向性パターンを有する音場を記述するXチャネル、y軸に対応するダイポール指向性パターンを有する音場を記述するYチャネル、及びz軸に対応するダイポール指向性パターンを有する音場を記述するZチャネルを含む。2次アンビソニック信号は、1次アンビソニック信号の4チャネル(Bフォーマットとも呼ばれる)と、異なる指向性パターンのための5つの追加チャネルとを含む9チャネルを有する。一般に、L次アンビソニック信号は、(L−1)次アンビソニック信号についてのL個のチャネルと、追加の指向性パターン(3Dアンビソニック・フォーマットを使用する場合)のための[(L+1)−L]個の追加チャネルとを含む(L+1)個のチャネルを含む。L>1に対するL次アンビソニック信号は、高次アンビソニック(higher order ambisonics:HOA)信号と言及される可能性がある。
HOA信号は、HOA信号をレンダリングするために使用されるスピーカの配置から独立して3D音場を記述するために使用される可能性がある。スピーカの構成例は、ヘッドフォン、又はラウドスピーカの1つ以上の配置、又はバーチャル・リアリティ・レンダリング環境を含む。従って、オーディオ・レンダリングする側にHOA信号を提供し、オーディオ・レンダリングする側が、スピーカの様々な配置に柔軟に適応できるようにすることは有益であろう。
本願は、HOA信号、より一般的には音場表現(soundfield representation:SR)信号を、帯域幅効率の良い方法で高い知覚品質とともに伝送ネットワークを介して伝送する技術的問題に対処する。技術的課題は独立請求項によって解決される。好ましい実施例は従属請求項に記載される。
一態様によれば、基準位置における音場を表す音場表現(SR)入力信号を符号化するための方法が説明される。この方法は、SR入力信号から1つ以上のオーディオ・オブジェクトを抽出することを含む。更に、本方法は、SR入力信号に基づいて、及び1つ以上のオーディオ・オブジェクトに基づいて、残留信号を決定することを含む。また、この方法は、1つ以上のオーディオ・オブジェクト及び/又は残留信号のジョイント符号化を実行することを含む。更に、この方法は、1つ以上のオーディオ・オブジェクト及び/又は残留信号のジョイント符号化に関連して生成されたデータに基づいて、ビットストリームを生成することを含む。
別の態様によれば、基準位置での音場を表すSR入力信号を示すビットストリームをデコードする方法が説明される。この方法は、ビットストリームから1つ以上の再構成されたオーディオ・オブジェクトを導出することを含む。更に、この方法は、ビットストリームから再構成された残留信号を導出することを含む。更に、この方法は、ビットストリームからSR入力信号のチャネル数及び/又はフォーマットを示すSRメタデータを導出することを含む。
更なる態様によれば、基準位置での音場を示すSR入力信号を符号化するように構成されたエンコーディング・デバイス(又は装置)が説明される。エンコーディング・デバイスは、SR入力信号から1つ以上のオーディオ・オブジェクトを抽出するように構成される。更に、エンコーディング・デバイスは、SR入力信号に基づいて、及び1つ以上のオーディオ・オブジェクトに基づいて、残留信号を決定するように構成される。更に、エンコーディング・デバイスは、1つ以上のオーディオ・オブジェクトに基づいて、及び残留信号に基づいてビットストリームを生成するように構成される。
別の態様によれば、基準位置での音場を表すSR入力信号を示すビットストリームを復号するように構成されたデコーディング・デバイス(又は装置)が説明される。デコーディング・デバイスは、ビットストリームから1つ以上の再構成されたオーディオ・オブジェクトを導出するように構成される。更に、デコーディング・デバイスは、ビットストリームから再構成された残留信号を導出するように構成される。更に、デコーディング・デバイスは、ビットストリームからSR入力信号のチャネル数及び/又はフォーマットを示すSRメタデータを導出するように構成される。
更なる態様によれば、ソフトウェア・プログラムが説明される。ソフトウェア・プログラムは、プロセッサでの実行のために、及びプロセッサで実行される場合に本願で説明される方法ステップを実行するように適合される可能性がある。
別の態様によれば、記憶媒体が説明される。記憶媒体は、プロセッサでの実行のために、及びプロセッサで実行される場合に本願で説明される方法ステップを実行するように適合されるソフトウェア・プログラムを含む可能性がある。
更なる態様によれば、コンピュータ・プログラム製品が説明される。コンピュータ・プログラムは、コンピュータで実行される場合に本願で説明される方法ステップを実行する実行可能命令を含む可能性がある。
本特許出願で説明されるような好ましい実施形態を含む方法、デバイス及びシステムは、独立して使用されてもよいし、又は本願で開示される他の方法、デバイス及びシステムと組み合わせて使用されてもよいことに留意されたい。更に、本特許出願で説明される方法、デバイス及びシステムの全ての態様は、任意に組み合わせられる可能性がある。特に、特許請求の範囲の特徴は、任意の方法で互いに組み合わせられる可能性がある。
以下、本発明は添付図面を参照して例示的な方法において説明される。
音場表現信号をエンコードするための例示的なエンコーディング・ユニット示す。 音場表現信号をデコードするための例示的なデコーディング・ユニットを示す。 音場表現信号をエンコードするための別の例示的なエンコーディング・ユニットを示す。 音場表現信号をエンコードするための例示的な方法のフローチャートを示す。 音場表現信号を示すビットストリームをデコードするための例示的な方法のフローチャートを示す。 例示的なオーディオ・レンダラを示す。 例示的なオーディオ・レンダラを示す。 例示的な符号化システムを示す。
上述したように、本願は、本明細書でより一般的に音場表現(SR)信号と言及されるHOA信号の効率的な符号化に関する。更に、本願は、ビットストリームにおける伝送ネットワークを介したSR信号の伝送に関する。好ましい例では、SR信号は、ETSIで標準化されたAC−4コーデック・システム(TS 103 190及びTS 103 190−2)などのオーディオ・オブジェクトに使用されるエンコード/デコード・システムを使用してエンコードされデコードされる。
前述のセクションで言及したように、SR信号は、比較的多数のチャネル又は波形を含む可能性があり、ここで、異なるチャネルは、異なるパン機能及び/又は異なる指向性パターンに関連する。例として、L次の3D HOA信号は、(L+1)個のチャネルを含む。SR信号は、種々の異なるフォーマットで表現される可能性がある。例示的なフォーマットは、いわゆるBeeHiveフォーマット(BHフォーマットと略される)であり、これは、例えば米US2016/0255454A1に記載されており、この文書はリファレンスにより本願に援用される。
音場は、リスニング位置の周囲の任意の方向から生じる1つ以上のソニック・イベント(one or more sonic events)で構成されていると考えることができる。その結果、1つ以上のソニック・イベントの位置は、球の表面で定義されることが可能である(リスニング又はリファレンス位置は球の中心にある)。
高次アンビソニック(HOA)のような音場フォーマットは、任意のスピーカ配置で(即ち、任意のレンダリング・システムで)音場がレンダリングされることを可能にする方法で定義される。しかしながら、レンダリング・システム(ドルビー・アトモス・システムなど)は、スピーカの可能な高さが、決まった数の平面(例えば、耳の高さの(水平)平面、天井又は上方の平面、及び/又は床もしくは下方の平面)に固定されてしまうという意味で、典型的には制約される。従って、理想的な球面音場の概念は、球面の表面上の種々の高さの様々なリング(蜂の巣を構成する積み重ねられたリングに似ている)に位置するソニック・オブジェクトで構成される音場に修正される可能性がある。
4つのリングを有する例示的な構成は、中間リング(又は層)、上リング(又は層)、下リング(又は層)、及び天頂リング(球の天頂における単一点である)を含む可能性がある。このフォーマットは、BHa.b.c.dフォーマットと言及される可能性があり、ここで、「a」は中間リングにおけるチャネル数を示し、「b」は上リングにおけるチャネル数を示し、「c」は下リングにおけるチャネル数を示し、「d」は天頂におけるチャネル数を示す(ここで、「d」は値「0」又は「1」をとるのみである)。チャネルは、それぞれのリングで均一に分散されてもよい。各チャネルは、特定の指向性パターンに対応する。例として、BH3.1.0.0フォーマットは、Bフォーマットによる音場を記述するために使用されることが可能であり、即ち、BH3.1.0.0フォーマットは、1次アンビソニック信号を記述するために使用されることが可能である。
オブジェクト・ベースのオーディオ・レンダラは、スピーカの特定の配置を使用してオーディオ・オブジェクトをレンダリングするように構成されることが可能である。図6Aは、オーディオ・オブジェクトをレンダリングするように構成された例示的なオーディオ・レンダリング600を示し、オーディオ・オブジェクトは、オーディオ・オブジェクト信号601(実際の、モノホニック、オーディオ信号を含む)と、オブジェクト・メタデータ602(オーディオ・オブジェクトの位置を時間の関数として記述する)とを含む。オーディオ・レンダラ600は、スピーカ配置のうちのN個のスピーカの位置を示すスピーカ位置データ603を使用する。この情報に基づいて、オーディオ・レンダラ600は、N個のスピーカに対してN個のスピーカ信号604を生成する。特に、スピーカのスピーカ信号604は、パニング・ゲインを使用して生成されてもよく、パニング・ゲインは、(スピーカ位置データ603によって示される)スピーカ位置と、2D又は3Dレンダリング環境内のオブジェクト位置を示す(時変)オブジェクト・メタデータ602とに依存する。
図6bに示すように、オーディオ・オブジェクトのオーディオ・レンダリングは、2つのステップに分割されてもよく、第1(時変)ステップ611は、オーディオ・オブジェクトを中間スピーカ信号614にパンするものであり、第2(時不変)ステップ612は、中間スピーカ信号614を、特定のスピーカ配置のN個のスピーカに対するスピーカ信号604に変換するものである。第1ステップ611では、K個の中間スピーカを有する中間スピーカ配置613が仮定されてもよい(例えば、K=14のようなK>11)。K個の中間スピーカは、(上述のように)蜂の巣又は球の1つ以上の異なるリングに配置されることが可能である。換言すれば、K個の中間スピーカに対するK個の中間スピーカ信号614は、BHフォーマットで表現されるSR信号の様々なチャネルに対応する可能性がある。この中間フォーマットは、例えばドルビー・アトモス技術で定められるような中間空間フォーマット(ISF)と言及される可能性がある。
オーディオ・レンダラ600は、1つ以上の静的オブジェクト、即ち固定された及び/又は時不変のオブジェクト位置を示すオブジェクトを、レンダリングするように構成されることが可能である。静的オブジェクトは、オブジェクト・ベッド(an object bed)と言及される可能性があり、周辺の音を再生するために使用されることが可能である。1つ以上の静的オブジェクトは、スピーカ配置の1つ以上の特定のスピーカに割り当てられる可能性がある。一例として、オーディオ・レンダラ600は、例えば(ドルビー・アトモス技術の場合のように)、水平面(又は基準平面)、上面、及び下面のような3つの異なるスピーカ平面(又はリング)を許容する可能性がある。各平面において、マルチ・チャネル・オーディオ信号がレンダリングされることが可能であり、各チャネルは、平面内の静的オブジェクト及び/又はスピーカに対応する可能性がある。一例として、水平面は、5.1又は4.0又は4.xのマルチ・チャネル・オーディオ信号のレンダリングを許容する可能性があり、ここで、1番目の数字は、スピーカ・チャネル数を示し(例えば、前方左、前方右、前方中央、後方左、及び/又は後方右)、2番目の数字は、LFE(低周波エフェクト)チャネル数を示す。上面及び/又は下面は、例えばそれぞれ2つのチャネル(例えば、前方左及び/又は前方右)の使用を許容する可能性がある。従って、固定オーディオ・オブジェクトのベッドは、例えば、表記4.x.2.2を用いて定義されてもよく、ここで、最初の2つの数字は水平面のチャネル数を示し(例えば、4.x)、第3の数字は上平面のチャネル数を示し(例えば、2)、第4の数字は下平面のチャネルの数を示す(例えば、2)。
図7に示すように、AC−4のようなオブジェクト・ベースの音声符号化システム700は、エンコーディング・ユニット710とデコーディング・ユニット720とを備える。エンコーディング・ユニット710は、入力信号711に基づいて、デコーディング・ユニット720へ送信するビットストリーム701を生成するように構成されることが可能であり、入力信号711は複数のオブジェクト(各オブジェクトはオブジェクト信号601とオブジェクト・メタデータ602とを含む)を含む可能性がある。複数のオブジェクトは、ジョイント・オブジェクト符号化スキーム(JOC)、特にAC−4で使用されるアドバンストJOC(A−JOC)を使用してエンコードされる可能性がある。
ジョイント・オブジェクト符号化ツール、特にA−JOCツールは、データレートを低減したオブジェクト・ベースのイマーシブ・オーディオ・コンテンツ(object−based immersive audio content)の効率的な表現を可能にする。これは、デコーダ720におけるダウンミックス信号からのオーディオ・オブジェクトの再構築を可能にするパラメトリック・サイド情報とともに(複数のオーディオ・オブジェクトの)イマーシブ・コンテンツのマルチ・チャネル・ダウンミックスを伝達することによって達成される。マルチ・チャネル・ダウンミックス信号は、ASF(オーディオ・スペクトル・フロント・エンド)及び/又はA−SPX(アドバンスト・スペクトル・エクステンション)のような波形符号化ツールを用いてエンコードされる可能性があり、それによってダウンミックス信号を表す波形符号化データを提供する。ダウンミックス信号をエンコードするための符号化方式の特定の具体例は、MPEG AAC、MPEG HE−AACその他のMPEGオーディオ・コーデック、3GPP EVSその他の3GPPコーデック、及びドルビー・デジタル/ドルビー・デジタル・プラス(AC−3、eAC−3)である。
パラメトリック・サイド情報は、JOCパラメータとオブジェクト・メタデータ602とを含む。JOCパラメータは、主に、ダウンミックス信号からオーディオ・オブジェクトを再構成するアップミックス・マトリクスの時間−及び/又は周波数−変動要素を伝達する。アップミックス・プロセスは、QMF(直交ミラー・フィルタ)サブバンド・ドメインで実行される可能性がある。代替的に、別の時間/周波数変換、特にFFT(高速フーリエ変換)に基づく変換が、アップミックス・プロセスを実行するために使用されてもよい。一般に、周波数−選択分析及び(アップミックス)処理を可能にする変換が適用されてもよい。JOCアップミックス・プロセス、特にA−JOCアップミックス・プロセスは、複数のオブジェクトの共分散の改善された再構成を可能にするデコリレータを含む可能性もあり、デコリレータは、追加のJOCパラメータによって制御される可能性がある。従って、エンコーダ710は、(オブジェクト・メタデータ602に加えて)ダウンミックス信号、プラスJOCパラメータを生成するように構成される可能性がある。この情報は、(入力信号711の複数のオブジェクトに対応する)出力信号721として、複数の再構成されたオブジェクトをデコーダ720が生成することを可能にするために、ビットストリーム701に含まれる可能性がある。
JOCツール、特にA−JOCツールは、アップミックス信号が所与のダウンミックス信号に近づくように、所与のダウンミックス信号を、アップミックスされた信号にアップミックスすることを可能にするJOCパラメータを決定するために使用される可能性がある。例として、JOCパラメータは、アップミックス信号とターゲット信号との間の特定の誤差(例えば、平均二乗誤差)が低減されるように、特に最小化されるように、決定される可能性がある。
「ジョイント・オブジェクト符号化」(例えば、符号化のためのモジュール120及び/又は330において、及び復号のためのモジュール220において実施される)は、マルチ・チャネル・ダウンミックス信号から、より多くのチャネル及び/又はオブジェクトを有する信号への、パラメータ制御された時間/周波数依存性のアップミックスとして説明されることが可能である(オプションとして、アップミックス・プロセスにおいてデコリレーションを使用することを含む)。具体例は、DD+と組み合わせて使用されるJOC(例えば、ETSI TS 103 420によるJOC)、AC−4に含まれるA−JOC(例えば、ETSI TS 103 190によるA−JOC)である。
「ジョイント・オブジェクト符号化」は、VR(バーチャル・リアリティ)コンテンツの符号化の状況で実行される可能性もあり、これは、ダイナミック・オーディオ・オブジェクト、固定オーディオ・チャネル、及び/又は高次アンビソニック(HOA)のようなシーン・ベースのオーディオ要素を含む、比較的多数のオーディオ要素で構成される可能性がある。コンテンツ摂取エンジン(モジュール110又は320に匹敵する)を使用して、VRコンテンツからオブジェクト303及び/又は残留信号302を生成することができる。更に、ダウンミックス・モジュール310は、ダウンミックス信号304を生成するために(例えば、Bフォーマットで)使用される可能性がある。ダウンミックス信号304は、例えば、3GPP EVSエンコーダを用いてエンコードされる可能性がある。更に、メタデータが算出されることが可能であり、これにより、ダイナミック・オーディオ・オブジェクト及び/又は高次アンビソニック・シーンに対する(エネルギ圧縮)ダウンミックス信号304のアップミキシングが可能になる。このメタデータは、本願で説明されるジョイント(オブジェクト)符号化パラメータ305であるとして考えることが可能である。
図1は、例えばL次アンビソニック信号である音場表現(SR)入力信号101をエンコードするための例示的なエンコーディング・ユニット又はエンコーディング・デバイス100のブロック図を示す。エンコーディング・ユニット100は、AC−4符号化システム700などのオブジェクト・ベースの符号化システム700のエンコーディング・ユニット710の一部であってもよい。エンコーディング・ユニット100は、SR入力信号101から1つ以上のオブジェクト103を抽出するように構成されるオブジェクト抽出モジュール110を備える。この目的のために、SR入力信号101は、例えばQMF変換、FFTベースの変換、又は周波数選択処理を可能にする別の時間/周波数変換を用いてサブバンド・ドメインに変換されることが可能であり、それにより複数のSRサブバンド信号を提供する。この変換、特にQMF変換又はFFTに基づく変換は、複数の均一に分散されたサブバンドを示す可能性があり、ここで、均一に分散されたサブバンドは、サブバンド数を減らすために、バーク・スケール(the Bark scale)のような知覚スケールを用いてグループ化される可能性がある。従って、複数のSRサブバンド信号が提供される可能性があり、サブバンドは、不均一な(知覚的に動機づけられた)間隔又は分布を示す可能性がある。例として、変換、特にQMF変換又はFFTに基づく変換は、例えばm=19個の(非一様な)サブバンドにグループ化される可能性がある64個のサブバンドを示す可能性がある。
上述のように、SR入力信号101は、典型的には複数のチャネル(特に、(L+1)個のチャネル)を含む。その結果、SRサブバンド信号の各々は、複数のチャネル(特に、L次HOA信号の場合には(L+1)個のチャネル)を含む。
各SRサブバンド信号に対して、支配的な到来方向(DOA)が決定されてもよく、それにより、対応する複数のSRサブバンド信号に対して複数の支配的なDOAを提供する。例えば、SR(サブバンド)信号の支配的な到来方向は、当該技術分野で知られているように、WチャネルとX、Y、Zチャネルとの共分散から(x,y,z)ベクトルとして導出されてもよい。従って、複数の支配的なDOAが、複数のサブバンドに対して決定される可能性がある。複数の支配的なDOAは、n個のオブジェクト103に対して、特定数n個の支配的なDOAにクラスタ化される可能性がある。n個の支配的なDOAを用いて、n個のオーディオ・オブジェクト103に対するオブジェクト信号601は、複数のSRサブバンド信号から抽出されることが可能である。更に、n個のオブジェクト103のためのオブジェクト・メタデータ602は、n個の支配的なDOAから導出されることが可能である。サブバンド変換のサブバンド数は、10、15、20又はそれ以上である可能性がある。オブジェクト103の数は、n=2、3、4又はそれ以上であってもよい。
n個のオブジェクト103は、残留信号102を提供するためにSR入力信号101から減算及び/又は除去される可能性があり、残留信号102は、音場表現を使用して、例えばBHフォーマット又はISFフォーマットを使用して表現される可能性がある。
n個のオブジェクト103は、JOCパラメータ105を提供するために、ジョイント・オブジェクト符号化(JOC)モジュール120内でエンコードされる可能性がある。JOCパラメータ105は、JOCパラメータ105が、n個のオブジェクト103のオブジェクト信号601と残留信号102とを近似するダウンミックス信号101をアップミックスするために使用されるように決定される可能性がある。ダウンミックス信号101は、(図1に示すように)SR入力信号101に対応する可能性があり、(図3に示すように)ダウンミックス処理によってSR入力信号101に基づいて決定される可能性がある。
ダウンミックス信号101及びJOCパラメータ105は、n個のオブジェクト103及び/又は残留信号102を再構成するために、対応するデコーダ200内で使用される可能性がある。JOCパラメータ105は、サブバンド・ドメイン内で、特にQMFドメイン又はFFTに基づく変換のドメイン内で、正確かつ効率的な方法で決定される可能性がある。好ましい例では、オブジェクト抽出及びジョイント・オブジェクト符号化は、同じサブバンド・ドメイン内で実行され、それによって符号化方式の複雑さを低減する。
JOCパラメータ105を決定するために、残留信号102及び1つ以上のオブジェクト103のオブジェクト信号601は、サブバンド・ドメインに変換される可能性があり、及び/又はサブバンド・ドメイン内で処理される可能性がある。更に、ダウンミックス信号101は、サブバンド・ドメインに変換される可能性がある。続いて、JOCパラメータ105は、サブバンド毎に決定される可能性があり、特にJOCパラメータを使用してダウンミックス信号101のサブバンド信号をアップミックスすることによって、残留信号102及びn個のオブジェクト103のオブジェクト信号601のサブバンド信号の近似が得られる。異なるサブバンドに対するJOCパラメータ105は、対応するデコーダに伝送するためにビットストリーム701に挿入される可能性がある。
従って、SR入力信号101は、ダウンミックス信号101により及びJOCパラメータ105により、並びにオブジェクト・メタデータ602(ダウンミックス信号101及びJOCパラメータ105によって記述されるn個のオブジェクト103に対するもの)によって表現される可能性がある。JOCダウンミックス信号101は、(例えば、AC−4のASFを使用して)波形符号化されてもよい。更に、波形符号化信号101に関するデータ及びメタデータ105、602が、ビットストリーム701に含まれてもよい。
SR入力信号101をn個のオブジェクト103及び残留信号102に変換すること(これらはJOCを用いてエンコードされる)は、初期のSR入力信号101の直接的なジョイント・オブジェクト符号化よりも有益であり、なぜなら、オブジェクトの抽出は、(SR入力信号101のチャネルの数と比較して)比較的少ない数のn個のオブジェクト103へのエネルギの圧縮をもたらし、それによってジョイント・オブジェクト符号化の知覚品質を増加させるからである。
図2は、オブジェクト・ベースの符号化システム700のデコーディング・ユニット720の一部である可能性があるデコーディング・ユニット又はデコーディング・デバイス200の一例を示す。デコーディング・ユニット200は、デコードされたダウンミックス信号203を提供するために、波形符号化信号101をデコードするように構成されたコア・デコーディング・モジュール210を含む。デコードされたダウンミックス信号203は、JOCパラメータ204、105及びオブジェクト・メタデータ602と共にJOCデコーディング・モジュール220において処理されて、n個の再構成されたオーディオ・オブジェクト206及び/又は再構成された残留信号205を提供することができる。再構成された残留信号205及び再構成されたオーディオ・オブジェクト206は、スピーカ・レンダリング230及び/又はヘッドフォン・レンダリング240のために使用される可能性がある。代替的又は追加的に、デコードされたダウンミックス信号203は、効率的な及び/又は複雑性の低いレンダリングに直接的に使用されてもよい(例えば、低空間分解能レンダリングを実行する場合)。
エンコーディング・ユニット100は、SRメタデータ201をビットストリーム701に挿入するように構成される可能性があり、SRメタデータ201は、SR入力信号101の音場表現フォーマットを示す可能性がある。一例として、アンビソニック入力信号101の次数Lが指定される可能性がある。デコーディング・ユニット200は、再構成されたSR信号251を提供するために、1つ以上の再構成されたオブジェクト206に基づいて、及び再構成された残留信号205に基づいて、SR入力信号101を再構成するように構成されたSR出力段250を含む可能性がある。
特に、再構成された残留信号205及び1つ以上の再構成されたオブジェクト206のオブジェクト信号601は、サブバンド・ドメイン(特にQMFドメイン又はFFTベースの変換ドメイン)内で変換され及び/又は処理される可能性があり、オブジェクト信号601のサブバンド信号は、それぞれのオブジェクト・メタデータ602に依存して、再構成されたSR信号251の異なるチャネルに割り当てられる可能性がある。更に、再構成された残留信号205の異なるチャネルは、再構成されたSR信号251の異なるチャネルに割り当てられてもよい。この割り当ては、サブバンド・ドメイン内で実行される可能性がある。代替的又は追加的に、割り当ては時間ドメイン内で実行されてもよい。割り当てに関し、パニング機能が使用されてもよい。従って、SR入力信号101は、ビットレート効率の良い方法で伝送され、再構成されることが可能である。
図3は、SR入力信号301をSRダウンミックス信号304にダウンミックスするように構成されたSRダウンミックス・モジュール310を含む別のエンコーディング・ユニット300を示し、SRダウンミックス信号304はダウンミックス信号101(上述)に対応する可能性がある。SRダウンミックス信号304は、例えばSR入力信号301から1つ以上のチャネルを選択することによって生成される可能性がある。例として、SRダウンミックス信号304は、L次アンビソニック入力信号301の(L+1)個のチャネルからL個の低解像度チャネルを選択することによって生成される(L−1)次のアンビソニック信号であってもよい。
更に、エンコーディング・ユニット300は、エンコーディング・ユニット100の抽出モジュール120に類似する方法で動作し、SR入力信号301からn個のオブジェクト303を導出するように構成されたオブジェクト抽出モジュール320を含んでもよい。n個の抽出されたオブジェクト303及び/又は残留信号302は、JOC符号化モジュール330(JOCエンコーディング・モジュール120と同様に動作する)を用いてエンコードされることが可能であり、これによりJOCパラメータ305を提供することができる。(周波数及び/又は時間変動する)JOCパラメータ305は、SRダウンミックス信号304が、JOCパラメータ305を使用して、残留信号302及びn個のオブジェクト303のオブジェクト信号601を近似するアップミックス信号にアップミックスされるように決定される可能性がある。換言すれば、JOCパラメータ305は、n個のオブジェクト303のオブジェクト信号601により及び残留信号302により与えられるマルチ・チャネル信号に対して、SRダウンミックス信号304のアップミキシングを可能にすることができる。
残留信号302は、SR入力信号301に基づいて及びn個のオブジェクト303に基づいて決定される可能性がある。更に、SRダウンミックス信号304が考慮され及び/又はエンコードされてもよい。SRダウンミックス信号304に関するデータ、JOCパラメータ305、及び/又はn個のオブジェクト303に対するオブジェクト・メタデータ602は、対応するデコーディング・ユニット200へ送信するためにビットストリーム701に挿入されることが可能である。
対応するデコーディング・ユニット200は、SR入力信号301を再構成するために(特に、SR出力モジュール250内で)アップミキシング動作を実行するように構成される可能性がある。
従って、本願は、Bフォーマット及び/又は高次アンビソニック(HOA)におけるSR信号101、301のネイティブ・デリバリ(native delivery)をサポートするAC−4エンコーダ/デコーダを説明している。AC−4エンコーダ710及び/又はデコーダ720は、B−フォーマット及び/又はHOAを含むアンビソニックのような音場表現のためのサポートを含むように修正される可能性がある。一例では、Bフォーマット及び/又はHOAコンテンツは、既存のAC−4デコーダ720と互換性のあるビットストリーム701を生成するために最適化された符号化を実行するAC−4エンコーダ710に取り込まれる可能性がある。更なるシグナリング(特に、SRメタデータ201)は、AC−4デコーダ720のBフォーマット/HOA出力ステージ250の決定に関連する情報の検出を可能にするエンコーダ音場関連情報を示すために、ビットストリーム701に導入される可能性がある。AC−4におけるB−フォーマット/HOAの固有のサポートは、以下に基づいて符号化システム700に追加される可能性がある:
i.HOA入力を示すシグナリング能力を利用すること;
ii.既存の符号化ツールの活用すること;及び/又は
iii.受信されたビットストリーム701を、通知されたオリジナルのHOA次数に戻すように変換する能力を可能にするために、デコーダ側にHOA出力段250を追加すること。
既存の符号化ツールによりAC−4でHOAコンテンツをエンコード/デコードするために、シグナリング・メカニズム及び/又はコンテンツを前処理するエンコーダ・モジュール100、300が追加されてもよい。特に、AC−4の波形符号化ツール及び/又はA−JOC(アドバンスト・ジョイント・オブジェクト符号化)が再利用されてもよい。
以下では、B−フォーマットからL次(例えば、3次)HOA信号までの範囲に及ぶ入力信号101、301に対するエンコード及びデコードのシナリオが説明される。これらのシナリオは以下の事項を考慮する可能性がある:
・A−JOC T/F(時間/周波数)タイリングに基づくHOA信号101、301からの1つ以上のオーディオ・オブジェクト103、303のオブジェクト抽出;
・1つ以上の空間残差の表現、抽出されたオブジェクト103、303の数、及び/又はA−JOCダウンミックス信号101、304の表現の関数としての、HOA入力信号101、301の異なる次数に対する異なる再生構成;
・レンダリングを区別する能力による、Bフォーマット入力信号101、301に対する改善されたHOA・B−フォーマット表現のネイティブ・サポート;
・既存のデコーダとの後方互換性;及び/又は
・HOA信号101、301のコア/フル・デコード。
以下、アンビソニック信号101、301のAC−4配信が説明される。図1に示すように、B−フォーマット・アンビソニック信号のような音場表現信号101のエンコーディング・プロセスの一部として、音場表現信号101は、オブジェクト抽出モジュール110を用いて、ベッド・チャネル・オブジェクト102(即ち、残留信号)及び/又は動的オブジェクト103に分離される可能性がある。更に、オブジェクト102、103は、ジョイント・オブジェクト符号化(JOC)モジュール120におけるA−JOC符号化を用いてパラメータ化されてもよい。特に、図1は、A−JOCエンコーディング・プロセスに対するオブジェクト抽出の例示的なマッピングを示す。
図1は、例示的なエンコーディング・ユニット100を示す。エンコーディング・ユニット100は、音場フォーマット(例えば、B−フォーマットのアンビソニック、ISFフォーマット、例えばISF3.1.0.0又はBH3.1.0.0)におけるものである可能性があるオーディオ入力101を受信する。オーディオ入力101は、(マルチ・チャネル)残留信号102及び1つ以上のオブジェクト103を出力するオブジェクト抽出モジュール110に提供されることが可能である。残留信号102は、B−フォーマット、BH3.1.0.0などの種々のフォーマットのうちの1つであってもよい。1つ以上のオブジェクト103は、任意の数の1、2、...、n個のオブジェクトであるとすることが可能である。残留信号102及び/又は1つ以上のオブジェクト103は、A−JOCパラメータ105を決定するA−JOCエンコーディング・モジュール120に提供されることが可能である。A−JOCパラメータ105は、ダウンミックス信号101のアップミキシングが、残留信号102及びn個のオブジェクト103のオブジェクト信号601に近づくことを可能にするように決定されることが可能である。
一例では、オブジェクト抽出モジュール110は、音場表現(例えば、B−フォーマット・アンビソニックス、ISFフォーマット)におけるものである可能性がある入力信号101から1つ以上のオブジェクト103を抽出するように構成される。特定の例では、B−フォーマットの入力信号101(4つのチャネルを含む)は、4.0.2.2コンフィギュレーション(即ち、4.0チャネル水平レイヤ、2チャネル上方レイヤ、及び2チャネル下方レイヤ)における8つの静的オブジェクトに(即ち、8つのチャネルを含む残留信号102に)マッピングされることが可能であり、及び合計10チャネルに対して、2つの動的オブジェクト103にマッピングされることが可能である。特別なLFE処置は行われなくてもよい。8つの静的オブジェクトは、静的位置におけるドルビー・アトモス技術の8つのアトモス・オブジェクトに対応する可能性があり:水平面における4つ(アトモス四角形の4隅)及びアトモス・キューブの上方及び下方(z=1及びz=−1)平面のサイド・エッジの中央における合計4つである。これらの静的オブジェクトがベッド・チャネルに割り当てられた場合、水平面の4つのオブジェクトは、L、R、LS、RSであり、天井チャネルは、TL、TRであり、床チャネルは、BL、BRであるとすることが可能である。
一例では、オブジェクト抽出モジュール110はアルゴリズムを実行し、そのアルゴリズムは、(例えば、直交ミラー・フィルタ(QMF)又はFFTに基づく変換などの時間−周波数変換を、サブバンドの知覚的グループ化又はバンディングと組み合わせて使用して)m=19の異なる(不均一に分布した)サブバンドにおいて入力信号101を分析し、各サブバンドにおける支配的な到来方向を決定する。次に、アルゴリズムは、様々なサブバンド内で支配的な到来方向をクラスタ化して、(例えば、n=2のような)n個の全体的な支配的な方向を決定し、ここでn個の全体的な支配的な方向は、n個のオブジェクト103に対するオブジェクト位置として使用される可能性がある。各サブバンドにおいて、入力信号101のコンポーネント及び/又はフラクションは各オブジェクト103に転換されることが可能であり、次いで、残留B−フォーマット・コンポーネントは、残留信号102を決定するために、静的オブジェクト及び/又はベッド及び/又はISFストリームとして使用されることが可能である。
(例えば、3次HOAのようなL次HOAである)高分解能の入力信号101の場合、オブジェクト103の増加した数nが抽出される可能性がある(例えば、n=3、4、又はそれ以上)。
上述したように、オブジェクト抽出は、m個のサブバンド(例えば、m=19個のサブバンド)で実行される可能性がある。同じT/Fタイリング(即ち、同じ時間−周波数変換及び/又は同じサブバンド・グループ化)が、後続のJOCコーディングに関するオブジェクト抽出に使用される場合、JOCエンコーダ120は、オブジェクト抽出モジュール110のアップミックス行列を使用する可能性があり、その結果、JOCエンコーダ120は、その行列を、ダウンミックス信号101、304(例えば、BH3.1.0.0として表現されるBフォーマット信号)の共分散行列に適用することが可能である。
対応するデコーダは、(最低限のデコードの複雑さで)ダウンミックス信号101、304をデコードし、直接的にレンダリングすることができる。ダウンミックス信号101、304のデコード及び表現は、比較的低い演算負担で信号のコア表現のみをデコードするという点で、「コア・デコード」と言及されることが可能である。ダウンミックス信号101、304は、BH3.1.0.0として表されるB−フォーマットのSR信号であってもよい。代替的又は追加的に、デコーダは、JOCデコーダを適用して、レンダリングにおけるより高い空間精度のために、SR入力信号101のオブジェクト抽出バージョンを再生成することが可能である。
B−フォーマットを使用する残留信号102は、(例えば、ドルビー・アトモス・システムの)BH3.1.0.0ISFパスを介して供給されることにそれ自体役立つ。BH3.1.0.0フォーマットは、(C、LS、RS、Zenith)チャネルにほぼ対応する4つのチャネルを含み、4×4の線形ミキシング処理でB−フォーマットへ/からチャネルがロスレスに変換され得るという特性を有する。BH3.1.0.0フォーマットは、SR3.1.0.0と言及される可能性もある。一方、ISFオプションが利用できない場合、アルゴリズムは(例えば、4.0.2.2フォーマットで)8つの静的オブジェクトを使用する可能性がある。アルゴリズムが、L次(例えば、3次)のHOA入力と共に動作するように変更される場合、残留信号302は、4.1.2.2のようなフォーマットで表現される可能性があるが、ダウンミックス信号304は、AC4符号化を促進するために例えばBH3.1.0.0に簡略化される可能性がある。
一例では、音場がB−フォーマット、HOA、アトモス、5.1、モノラルとして記述されるか否かにかかわらず、AC4及び/又はアトモス・フォーマットが、任意の音場を伝達するために使用される可能性がある。音場は、任意の種類のスピーカ(又はヘッドフォン)システム上でレンダリングされる可能性がある。
図2は、例示的なデコーディング・ユニット200を示す。コア・デコーダ210は、エンコードされたオーディオ・ビットストリーム701を受信することが可能であり、再構成された(マルチ・チャネル)ダウンミックス信号203を復号することが可能である。一例では、コア・デコーダ210は、再構成されたダウンミックス信号203をデコードし、符号化ビットストリーム701からのデータに基づいて、再構成されたダウンミックス信号203のフォーマットのタイプを決定することが可能である。例えば、コア・デコーダ210は、ダウンミックス信号203がB−フォーマット又はBH3.1.0.0フォーマットを示していると判定する可能性がある。コア・デコーダ210は更に、(例えば、スピーカ・レンダリング230又はヘッドフォン・レンダリング240により)ダウンミックス信号203をレンダリングする際に使用するために、コア・デコーダ・モード出力202を提供する可能性がある。
A−JOCデコーダ220は、A−JOCパラメータ204及びデコードされたダウンミックス信号(例えば、B−フォーマット信号)203を受信することが可能である。A−JOCデコーダ220は、この情報をデコードして、空間残差205及びn個のオブジェクト206を、ダウンミックス信号203及びJOCパラメータ204に基づいて決定する。空間残差205は、B−フォーマットのアンビソニック又はBH3.1.0.0フォーマットのような任意のフォーマットであってもよい。一例では、空間残差205は、Bフォーマットのアンビソニックであり、オブジェクト206の数nは、n=2である。一例では、第1ヘッドフォン・レンダラ(例えば、ヘッドフォン・レンダラ240)はコア・デコーダ出力B−フォーマット信号202で動作し、第2ヘッドフォン・レンダラはオブジェクト抽出信号206及び対応するB−フォーマット残差205で動作することが可能である。一例では、ヘッドフォンでレンダリングする場合、及び/又は抽出されたオブジェクト206の比較的高い数n(例えば、n=3、4、5又はそれ以上)を使用する場合、B−フォーマット(BH3.1.0.0)残留信号205は必要とされない可能性がある。
好ましい実施形態では、残留信号205の次元(例えば、チャネル数)は、ダウンミックス信号203の次元と同じか、又はそれより高い。
ダウンミックス・レンダラ310は、L次(例えば、3次)のHOAオーディオ・ストリーム301を受信することが可能であり、オーディオ・ストリーム301を空間フォーマットに、例えばB−フォーマット・アンビソニック、BH3.1.0.0、4.x.2.2ベッド等にダウンミックスすることが可能である。一例では、ダウンミックス・レンダラ310は、HOA信号301を、B−フォーマット・ダウンミックス信号304にダウンミックスする。
オブジェクト抽出モジュール320は、HOA信号、例えばL次(例えば、3次)のHOA信号301を受信することができる。オブジェクト抽出モジュール320は、空間残差302及びn個のオブジェクト303を決定することができる。一例では、空間残差302は2次HOAフォーマットであり、オブジェクト303の数nはn=2である。A−JOCエンコーダ330は、A−JOCパラメータ305を決定するために、空間残差302(例えば、2次HOA残差)に基づいて、n個のオブジェクト303(n=2)に基づいて、及び/又はB−フォーマット・ダウンミックス信号304に基づいて、A−JOCエンコードを実行することができる。
上述したように、図2は例示的なデコーディング・ユニット200を示す。デコーディング・ユニット200は、以下の情報201(即ち、SRメタデータ)を受信することができる:
・オリジナルのオーディオ信号301(好ましくは3次HOA)のフォーマットのタイプ;
・ダウンミックスされた信号304のフォーマットのタイプ;
・オリジナル信号301がHOA信号である場合のHOAメタデータ(例えば、オリジナルHOA信号の次数);及び/又は
・空間残差302のフォーマット。
コア・デコーダ210は、エンコードされたオーディオ・ビットストリーム701を受信することができる。コア・デコーダ210は、B−フォーマットのアンビソニック、HOA、4.x.2.2ベッド、ISF、BH3.1.0.0などの任意のフォーマットにおけるものである可能性があるダウンミックス信号203を決定することができる。コア・デコーダ310は、更に、ダウンミックス信号203を直接的に使用して、再生のために、デコードされたオーディオをレンダリングする際に(例えば、スピーカ・レンダリング230、ヘッドフォン・レンダリング240において)使用される可能性があるコア・デコード・モード出力202を出力する可能性がある。
A−JOCデコーダ220は、A−JOCパラメータ204及びダウンミックス信号203(例えば、好ましくは、B−フォーマットのアンビソニック形式におけるもの)を利用して、空間残差205及びn個のオブジェクト206を決定することができる。空間残差205は、HOAフォーマット、B−フォーマット・アンビソニック、ISFフォーマット、4.x.2.2ベッド、及びBH3.1.0.0のような任意のフォーマットにおけるものである可能性がある。好ましくは、オリジナルのオーディオ信号がL次(L>2)(例えば、3次)のHOA信号である場合に、空間残差205は、2次のアンビソニック・フォーマットによるものである可能性がある。n個のオブジェクト406は、2、...、nのうちの何れであってもよく、好ましくはn=2である。デコーダ200は、HOA出力ユニット250を含む可能性があり、HOA出力ユニット250は、HOA出力251の次数及び/又はフォーマットの指示を受信すると、空間残差205及びn個のオブジェクト206をHOA出力251に処理し、オーディオ再生のためにHOA出力251を提供することが可能である。次いで、HOA出力251は、例えばスピーカ・レンダリング230又はヘッドフォン・レンダリング240を介してレンダリングされる可能性がある。
上記の全てにおいて、デコーダの観点から、シグナリングがビットストリーム701に追加されて、オリジナルの入力301がHOAであったことを(例えば、SRメタデータ201を使用して)通知してもよく、及び/又は、デコードされた信号205、206を、通知された次数のHOA信号251に変換するHOA出力段250が追加されてもよい。HOA出力段250は、スピーカ・レンダリング出力段と同様に、(例えば、SRメタデータ201に基づいて)要求されたHOA次数をデコーダ側の入力として取り込むように構成されてもよい。
一例では、デコードされた信号表現は、例えばデコーダAPI(アプリケーション・プログラミング・インターフェース)により要求されるならば、HOA出力表現に変換されてもよい。例えば、VR(バーチャル・リアリティ)再生システムは、オリジナルのオーディオ信号301のフォーマットにかかわらず、AC−4デコーダ700、200から供給される全てのオーディオが、L次(例えば、3次)のHOAフォーマットで提供されるように要求する可能性がある。
AC−4コーデックは、ISFサポートを提供する可能性があり、A−JOCツールを含む可能性がある。これは、入力信号301として比較的高次のISFフォーマットの提供を必要とし、これは、A−JOCデコーダがデコーダ側で高次のISFを再生成するために必要とされるJOCパラメータ305と共に符号化されてもよいダウンミックス信号304(例えば、適切なより低次のISF)の作成を必要とする可能性がある。これは、L次(例えば、3次)のHOA入力信号301を適切なISF(例えば、BH7.5.3.0)フォーマットに変換するステップと、シグナリング・メカニズム及びHOA出力段250を追加するステップとを必要とする可能性がある。HOA出力段250は、ISF表現をHOAに変換するように構成されることが可能である。
一例では、エンコーダ側でオブジェクト抽出技術を使用することによって、ISF表現と比較して、HOA信号がより効率的に(即ち、より少ない数の信号を使用して)表現される可能性がある。内部表現及び符号化方式は、元のHOAへのより正確な変換を可能にし得る。エンコーダ側でのオブジェクト抽出技術は、所与のB−フォーマット入力に対する改善されたB−フォーマット信号を、コンパクトに符号化して表現するために使用される可能性がある。
一例では、元の入力HOA次数は、HOA出力段250に通知されてもよい。別の例では、後方互換性が提供される可能性があり、即ち、AC−4デコーダは、入力信号301のタイプによらず、オーディオ出力を提供するように構成されることが可能である。
図1に関連して説明したように、SR入力信号101は、ジョイント・オブジェクト符号化パラメータ105に加えて、ビットストリーム700にエンコードされ、提供される可能性がある。これを行うことにより、対応するデコーダは、(再構成される)オーディオ・オブジェクト206及び/又は(再構成される)残留信号206を効率的に導出することが可能である。このようなオーディオ・オブジェクト206は、SR入力信号101の直接的なレンダリングと比較して、強化されたレンダリングを可能にすることができる。従って、図1によるエンコーダ100は、復号化された場合に、SR入力信号101(例えば、1次又はより高次のアンビソニック信号)の直接的なレンダリングと比較して、改善された品質の再生をもたらす可能性があるビットストリーム700を生成することを許容する。換言すれば、エンコーダ100によって実行される可能性があるオブジェクト抽出110は、改善された再生品質(特に、改善された空間的な位置決め)を可能にする。これを行うことによって、(モジュール110によって実行される)オブジェクト抽出プロセスは、(デコーダ200によってではなく)エンコーダ100によって実行されることが可能であり、それによって、レンダリング・デバイス及び/又はデコーダの演算負担を減少させる。
図3のエンコーダ300は、典型的には、特にSR入力信号101の代わりにダウンミックス信号304を(波形)符号化することによって、(図1のエンコーダ100と比較して)改善された符号化効率を提供する。換言すれば、図3のエンコーディング・システム300は、ダウンミックス・モジュール310を使用することで、(図1のエンコーディング・システム100と比較して)改善された符号化効率を可能にし、SR入力信号301と比較してダウンミックス信号304におけるチャネル数を減少させ、それによって、低減されたビットレートで符号化システムが動作することを可能にする。
図4は、基準位置における音場を記述する音場表現(SR)入力信号101、301をエンコードするための例示的な方法400のフローチャートを示す。基準位置は、リスナーのリスニング位置及び/又はマイクロホンのキャプチャ位置であってもよい。SR入力信号101、301は、基準位置における音場の複数の異なる到来方向に対する複数のチャネル(又は波形)を含む。
SR信号、特にSR入力信号101、301は、L次アンビソニック信号を含む可能性があり、Lは1以上である。代替的又は追加的に、SR信号、特にSR入力信号101、301は、複数の到来方向が基準位置を中心とする球における複数の異なるリングに配置される蜂の巣(beehive:BH)フォーマットを示す可能性がある。複数のリングは、中央リング、上リング、下リング、及び/又は天頂を含む可能性がある。代替的又は追加的に、SR信号、特にSR入力信号101、301は、ISFと呼ばれる中間空間フォーマット、特にドルビー・アトモス技術で定義されるようなISFフォーマットを示す可能性がある。本願で説明されるように、ISFフォーマットはBHフォーマットの特殊なケースとして考えられる。
従って、SR入力信号101、303の複数のチャネルの複数の異なる指向性パターンは、基準位置を中心とする球の複数の異なるリングに配置される可能性があり、異なるリングは異なる仰角を示す。上述のように、異なるリングは、中央リング、上リング、下リング及び/又は天頂を含む可能性がある。同じリング上の異なる到来方向は、典型的には、異なる方位角を示し、同じリング上の異なる到来方向は、リングで均一に分散されている可能性がある。これは、例えば、BHフォーマット及び/又はISFフォーマットに従ったSR信号の場合である。
SR入力信号101、303の各チャネルは、典型的には、フレームのシーケンスに対する時点のシーケンスに対するオーディオ・サンプルのシーケンスを含む。言い換えれば、本願で説明される「信号」は、典型的には、(例えば、20ms以下の時間的な隔たりにおけるものである)時点又はフレームの対応するシーケンスに対するオーディオ・サンプルのシーケンスを含む。
方法400は、SR入力信号101、301から1つ以上のオーディオ・オブジェクト103、303を抽出するステップを含む。オーディオ・オブジェクト103、303は、典型的には、オブジェクト信号601(時点又はフレームの対応するシーケンスに対するオーディオ・サンプルのシーケンスを有する)を含む。更に、オーディオ・オブジェクト103、303は、典型的には、オーディオ・オブジェクト103、303の位置を示すオブジェクト・メタデータ602を含む。オーディオ・オブジェクト103、303の位置は、時間の経過に伴って変化する可能性があり、その結果、オーディオ・オブジェクト103、303のオブジェクト・メタデータ602は、時点又はフレームのシーケンスに対する位置のシーケンスを示す可能性がある。
更に、本方法400は、SR入力信号101、301に基づいて、及び1つ以上のオーディオ・オブジェクト103、303に基づいて、残留信号102、302を決定するステップを含む。残留信号102、302は、オリジナル音場であって、1つ以上のオーディオ・オブジェクト103、303がそこから抽出及び/又は除去されているオリジナル音場を記述することが可能である。残留信号102、302は、SR信号(例えば、BH及び/又はISFフォーマットを使用するSR信号及び/又はL次アンビソニック信号、特にL=1)である可能性がある。代替的又は追加的に、残留信号102、302は、マルチ・チャネル・オーディオ信号及び/又はオーディオ信号のベッドを含んでもよいし、又はそれらであってもよい。代替的又は追加的に、残留信号102、302は、固定されたオブジェクトのロケーション及び/又はポジションにおける複数のオーディオ・オブジェクト(例えば、所定のスピーカ配置のうちの特定のスピーカに割り当てられたオーディオ・オブジェクト)を含む可能性がある。
方法400は、複数の異なるサブバンドに対して複数のSRサブバンド信号を提供するために、SR入力信号101、301を、サブバンド・ドメイン、特にQMFドメイン又はFFTベースの変換ドメインに変換するステップを含む可能性がある。特に、m個の異なるサブバンドが考慮されてもよく、例えばmは10、15、20又はそれ以上に等しい。従って、SR入力信号101、301のサブバンド分析が実行されてもよい。サブバンドは不均一な幅及び/又は間隔を示す可能性がある。特に、サブバンドは、一様な時間−周波数変換から導出されるグループ化されたサブバンドに対応する可能性がある。グループ化は、バーク・スケールのような知覚スケールを使用して実行されていてもよい。
更に、本方法400は、対応する複数のSRサブバンド信号に対する複数の支配的な到来方向を決定するステップを含む可能性がある。特に、支配的なDOAは、各サブバンドに対して決定される可能性がある。サブバンドのための支配的DOAは、(他のすべての可能な方向と比較して)最も高いエネルギを有するDOAとして決定される可能性がある。方法400は、複数の主要な到着方向を、n個のクラスタ化された到来方向に分類するステップを更に含む可能性がある(n>0、特に、n=2以上)。クラスタリングは、既知のクラスタリング・アルゴリズムを使用して実行される可能性がある。
次に、n個のオーディオ・オブジェクト103、303が、n個のクラスタ化された到来方向に基づいて抽出されることが可能である。従って、SR入力信号101、301のサブバンド分析は、SR入力信号101、301のn個のクラスタ化された(支配的な)到来方向を決定ために実行される可能性があり、ここで、n個のクラスタ化されたDOAは、SR入力信号101、301によって表現されるオリジナル音場のうちのn個の支配的なオーディオ・オブジェクト103、303を示す。
方法400は、n個のオーディオ・オブジェクト103、303に対するオブジェクト信号601を決定するために、SR入力信号101、301を、n個のクラスタ化された到来方向にマッピングするステップを更に含む可能性がある。一例として、SR入力信号101、301の異なるチャネルは、n個のクラスタ化された到来方向に投影されてもよい。n個のオブジェクトの各々について、オブジェクト信号601は、対応する到来方向で音場を示す信号を抽出するように、SR入力信号のチャネルをミキシングすることによって導出されることが可能である。更に、n個のオーディオ・オブジェクト103、303に対するオブジェクト・メタデータ602は、それぞれn個のクラスタ化された到来方向を使用して決定されることが可能である。
更に、本方法400は、複数のサブバンドの各々に対して、n個のオーディオ・オブジェクト103、303のオブジェクト信号601に対するサブバンド信号を、SRサブバンド信号から差し引いて、複数のサブバンドに対する複数の残留サブバンド信号を提供するステップを含む可能性がある。そして、残留信号102、302は、複数の残留サブバンド信号に基づいて決定される可能性がある。従って、残留信号102、302は、サブバンド内で、特にQMF又はFFTベースの変換ドメイン内で正確に決定されることが可能である。
更に、この方法400は、1つ以上のオーディオ・オブジェクト103、303に基づいて、及び残留信号102、302に基づいて、ビットストリーム701を生成するステップを含む。ビットストリーム701は、オブジェクト・ベースの符号化システム700のシンタックスを使用する可能性がある。特に、ビットストリーム701は、AC−4シンタックスを使用する可能性がある。
このように、特にオブジェクト・ベースの符号化方式を使用して、SR入力信号101、301のビットレート効率の良い伝送及び高品質の符号化を可能にする方法400が説明されている。
方法400は、残留データを提供するために、残留信号102、302の波形符号化するステップを含む可能性がある。ビットストリーム701は、残留データに基づいてビットレート効率の良い方法で生成されることが可能である。
方法400は、1つ以上のオーディオ・オブジェクト103、303、及び/又は残留信号102、302のジョイント符号化を含む可能性がある。特に、1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601は、残留信号102、302の1つ以上のチャネルと一緒に符号化される可能性がある。この目的のために、ジョイント・オブジェクト符号化(JOC)、特にA‐JOCが使用される可能性がある。1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601と、残留信号102、302の1つ以上のチャネルとのジョイント符号化は、異なる信号間の相関を利用することを含み、及び/又は異なる信号を、あるダウンミックス信号にダウンミックスすることを含む可能性がある。更に、ジョイント符号化はジョイント符号化パラメータを提供することを含む可能性があり、ジョイント符号化パラメータは、ダウンミックス信号を、1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601と残留信号102、302の1つ以上のチャネルとの近似にアップミックスすることを可能にし得る。ビットストリーム701は、ジョイント符号化に関連して生成されるデータ、特にJOCの状況で生成されるデータを含む可能性がある。特に、ビットストリーム701は、ダウンミックス信号に関するジョイント符号化パラメータ及び/又はデータを含む可能性がある。1つ以上のオーディオ・オブジェクト103、303、及び/又は残留信号102、302のジョイント符号化を実行することによって、符号化方式のビットレート効率及び近く品質が改善される可能性がある。
1つ以上のオーディオ・オブジェクト103、303、及び/又は残留信号102、302のジョイント符号化は、ダウンミックス信号から、チャネル数及び/又はオブジェクト数が増加した信号への、パラメータ制御された時間及び/又は周波数依存性のアップミキシングとして考えることが可能である。ダウンミックス信号は、(例えば、図3に関連して説明されるような)SRダウンミックス信号304及び/又は(例えば、図1に関連して説明されるような)SR入力信号101であってもよい。アップミキシング・プロセスは、ジョイント符号化パラメータ、特にJOCパラメータによって制御される可能性がある。
方法400の文脈において、複数のオーディオ・オブジェクト103、303(特に、n=2、3又はそれ以上のオーディオ・オブジェクト103、303)が抽出される可能性がある。方法400は、複数のオーディオ・オブジェクト103、303においてジョイント・オブジェクト符号化(JOC)、特にA−JOCを実行することを含む可能性がある。次いで、ビットストリーム701は、複数のオーディオ・オブジェクト103、303のジョイント・オブジェクト符号化に関連して生成されたデータに基づいて、特にビットレート効率の良い方法で生成される可能性がある。
特に、方法400は、SR入力信号101、301に基づいてダウンミックス信号101、304を生成及び/又は提供するステップを含む可能性がある。ダウンミックス信号101、304のチャネル数は、典型的には、SR入力信号101、301のチャネル数よりも少ない。更に、本方法400は、ジョイント符号化パラメータ105、305、特にJOCパラメータを決定するステップを含む可能性があり、これは、ダウンミックス信号101、301の、対応する1つ以上のオーディオ・オブジェクト103、303に対する1つ以上の再構成されたオーディオ・オブジェクト206のオブジェクト信号601へのアップミキシングを可能にする。更に、ジョイント符号化パラメータ105、305、特にJOCパラメータは、ダウンミックス信号101、301の、対応する残留信号102、302に対する再構成された残留信号205へのアップミキシングを可能にし得る。
ジョイント符号化パラメータ、特にJOCパラメータは、アップミックス・データ、特にアップミックス・マトリクスを含む可能性があり、これは、ダウンミックス信号101、304の、1つ以上の再構成されたオーディオ・オブジェクト206に対するオブジェクト信号601への、及び/又は再構成された残留信号205へのアップミキシングを可能にする。代替的に又は追加的に、ジョイント符号化パラメータ、特にJOCパラメータは、残留信号102、302の及び/又は1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601の共分散の再構成を可能にするデコリレーション・データを含む可能性がある。
ジョイント符号化、特にジョイント・オブジェクト符号化のために、1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601は、各オブジェクト信号601に対して複数のサブバンド信号を提供するために、サブバンド・ドメインへ、特にQMFドメイン又はFFTベースの変換ドメインへ変換される可能性がある。更に、残留信号102、302は、サブバンド・ドメインへ変換されることが可能である。次いで、ジョイント符号化パラメータ105、305、特にJOCパラメータは、1つ以上のオブジェクト信号601及び/又は残留信号102、302のサブバンド信号に基づいて、正確に決定されることが可能である。従って、周波数変動ジョイント符号化パラメータ105、305、特にJOCパラメータは、ダウンミックス信号101、304に基づいて、残留信号102、302の及び/又は1つ以上のオブジェクト103、303のオブジェクト信号601の正確な再構成を可能にするために決定される可能性がある。
ビットストリーム701は、ダウンミックス信号101、304に基づいて、及び/又はジョイント符号化パラメータ105、305、特にJOCパラメータに基づいて生成される可能性がある。特に、方法400は、ダウンミックス・データを提供するためにダウンミックス信号101、304の波形符号化を行うステップを含んでもよく、ビットストリーム701は、ダウンミックス・データに基づいて生成されてもよい。
方法400は、SR入力信号301を、SRダウンミックス信号304(上述のダウンミックス信号101、304であってもよい)へダウンミックスするステップを含む可能性がある。ダウンミキシングは、特にHOA入力信号301、即ちL次アンビソニック信号(L>1)を処理する際に使用される可能性がある。SR入力信号301をダウンミックスすることは、SRダウンミックス信号304に対するSR入力信号301の複数のチャネルのサブセットを選択するステップを含む可能性がある。特に、SRダウンミックス信号304が、SR入力信号301の次数Lよりも低い次数のアンビソニック信号であるように、チャネルのサブセットが選択されてもよい。ビットストリーム701は、SRダウンミックス信号304に基づいて生成されてもよい。特に、SRダウンミックス信号304を記述するSRダウンミックス・データは、ビットストリーム701に含められてもよい。SR入力信号301のダウンミックスを実行することによって、符号化方式のビットレート効率は改善される可能性がある。
残留信号102、302は、1つ以上のオーディオ・オブジェクト103、303に基づいて決定されてもよい。特に、残留信号102、302は、1つ以上のオーディオ・オブジェクト103、303を、SR入力信号301、303から減算及び/又は除去することによって決定されてもよい。この結果として、残留信号102、302が提供され、対応するデコーダ200において、SR入力信号301、303の改良された再構成が可能になる。
ジョイント符号化パラメータ105、305、特にJOCパラメータは、SRダウンミックス信号304の、1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601への、及び残留信号102、302へのアップミキシングを可能にするために決定される可能性がある。換言すれば、1つ以上のオーディオ・オブジェクト103、303のオブジェクト信号601及び残留信号102、302は、ジョイント符号化パラメータ105、305、特にJOCパラメータによって定義されるアップミキシング処理を使用して、SRダウンミックス信号304(単独)から取得できるマルチ・チャネル・アップミックス信号として(組み合わせて)考えることが可能である。ジョイント符号化パラメータ105、305、特にJOCパラメータは、典型的には、時間変動及び/又は周波数変動するものである。デコーダ200は、SRダウンミックス信号304及びジョイント符号化パラメータ105、305、特にJOCパラメータに関連する、ビットストリーム701からのデータ(のみ)を使用して、1つ以上のオブジェクト103、303のオブジェクト信号601及び残留信号102、302を再構成することが可能である。
ビットストリーム701は、SRダウンミックス信号304、ジョイント符号化又はJOCパラメータ105、305、及び1つ以上のオブジェクト103、303のオブジェクト・メタデータ602に関するデータを含む可能性がある。このデータは、デコーダ200が1つ以上のオーディオ・オブジェクト103、303及び残留信号102、302を再構成するのに十分である可能性がある。
方法400は、フォーマット(例えば、BHフォーマット及び/又はISFフォーマット)及び/又はSR入力信号101、301のチャネル数を示すSRメタデータ201を、ビットストリーム701に挿入するステップを含む可能性がある。これを実行することによって、対応するデコーダ200におけるSR入力信号301、303の改良された再構成が可能となる。
図5は、基準位置における音場を表す音場表現(SR)入力信号101、301を示すビットストリーム701をデコードするための例示的な方法500のフローチャートを示す。SR入力信号101、301は、基準位置での音場の複数の異なる到来方向に対応する複数のチャネルを含む。エンコーディング方法400に関連して、及び/又はエンコーディング・デバイス100、300に関連して説明される態様及び/又は特徴はまた、デコーディング方法500、及び/又はデコーディング・デバイス200に対して、同様な及び/又は相補的な方法で適用可能である(及びその逆も成り立つ)。
方法500は、1つ以上の再構成されたオーディオ・オブジェクト206をビットストリーム701から導出するステップを含む可能性がある。上述したように、オーディオ・オブジェクト206は、典型的には、オーディオ・オブジェクト206の(時間変動する)位置を示すオブジェクト・メタデータ602及びオブジェクト信号601を含む。更に、本方法500は、再構成された残留信号205をビットストリーム701から導出するステップを含む。1つ以上の再構成されたオーディオ・オブジェクト206及び再構成された残留信号205は、SR入力信号101、301を記述し、及び/又は示す可能性がある。特に、データはビットストリーム701から抽出されることが可能であり、これは再構成されたSR信号251の決定を可能にし、再構成されたSR信号251は、オリジナル入力SR信号101、301の近似である。
更に、本方法は、SR入力信号101、301のフォーマット及び/又はチャネル数を示す503のSRメタデータ201を、ビットストリーム701から導出するステップを含む。SRメタデータ201を抽出することによって、再構成されたSR信号251は、正確な方法で生成される可能性がある。
本方法500は、1つ以上の再構築されたオーディオ・オブジェクト206に基づいて、再構築された残留信号205に基づいて、及びSRメタデータ201に基づいて、SR入力信号101、301の再構築されたSR信号251を決定するステップを更に含む可能性がある。この目的のために、1つ以上の再構成されたオーディオ・オブジェクト206のオブジェクト信号601は、サブバンド・ドメイン、特にQMFドメイン又はFFTベースの変換ドメインに変換されてもよく、又はそのドメイン内で処理される可能性がある。更に、再構成された残留信号205は、サブバンド・ドメインに変換されてもよく、又はサブバンド・ドメイン内で処理される可能性がある。次いで、SR入力信号101、301の再構成されたSR信号251は、サブバンド・ドメイン内の再構成された残留信号205の及びオブジェクト信号601のサブバンド信号に基づいて、正確に決定される可能性がある。
ビットストリーム701は、再構成されたダウンミックス信号203を示すダウンミックス・データを含んでもよい。更に、ビットストリーム701は、ジョイント符号化又はJOCパラメータ204を含んでもよい。方法500は、再構成されたダウンミックス信号203を、ジョイント符号化又はJOCパラメータ204を用いてアップミックスし、1つ以上の再構成されたオーディオ・オブジェクト206のオブジェクト信号601を提供すること、及び/又は再構成された残留信号205を提供することを含む可能性がある。従って、再構成されたオーディオ・オブジェクト206及び/又は残留信号205は、ジョイント符号化又はJOC、特にA−JOCを使用して、ビットレート効率の良い方法で提供される可能性がある。
ジョイント・オーディオ符号化の状況において、方法500は、複数のダウンミックス・サブバンド信号203を提供するために、再構成されたダウンミックス信号203を、サブバンド・ドメイン、特にQMFドメイン又はFFTベースの変換ドメインに変換するステップを含む可能性がある。代替的に、再構成されたダウンミックス信号203は、サブバンド・ドメイン内で直接的に処理されてもよい。複数の再構成されたオーディオ・オブジェクト206を提供するために、JOCパラメータ204を用いる複数のダウンミックス・サブバンド信号203のアップミキシングが実行される可能性がある。従って、ジョイント・オブジェクト・デコーディングは、サブバンド・ドメインで実行される可能性があり、それによってビットレートに関するジョイント・オブジェクト符号化のパフォーマンス及び知覚品質を増加させる。
再構成された残留信号205は、SR入力信号101、301の再構成されたSR信号251よりも少ないチャネルを含むSR信号である可能性がある。代替的又は追加的に、ビットストリーム701は、SRダウンミックス信号304を示すデータを含む可能性があり、SRダウンミックス信号304は、再構成されたSR信号251と比較して、減少した数のチャネルを含む。データは、SRダウンミックス信号304に対応する再構成されたSRダウンミックス信号304を生成するために使用される可能性がある。
方法500は、再構成された残留信号205及び/又は再構成されたSRダウンミックス信号を、再構成されたSR信号251のチャネル数までアップミキシングするステップを含む可能性がある。更に、1つ以上の再構成されたオーディオ・オブジェクト206のオブジェクト・メタデータ602を使用して、1つ以上の再構成されたオーディオ・オブジェクト206は、再構成されたSR信号251のチャネルにマッピングされてもよい。この結果として、再構成されたSR信号251が生成されることが可能であり、これは正確な方法でオリジナルSR入力信号101、301を近似する。
ビットストリーム701は、再構成された残留信号205及び/又は再構成されたSRダウンミックス信号203を示す波形符号化データを含む可能性がある。方法500は、再構成された残留信号205及び/又は再構成されたSRダウンミックス信号203を提供するために、波形符号化データの波形復号化を含む可能性がある。
更に、方法500は、1つ以上のレンダー600を使用して、1つ以上の再構成されたオーディオ・オブジェクト206及び/又は再構成された残留信号205及び/又は再構成されたSR信号251をレンダリングするステップを含む可能性がある。代替的又は追加的に、再構成されたSRダウンミックス信号203は、特に効率的な方法でレンダリングされる可能性がある。
更に、基準位置における音場を記述する音場表現(SR)入力信号101、301をエンコードするように構成されるエンコーディング・デバイス100、300が説明されている。SR入力信号101、301は、基準位置における音場の複数の異なる指向性パターンに対する複数のチャネルを含む。
エンコーディング・デバイス100、300は、1つ以上のオーディオ・オブジェクト103、303を、SR入力信号101、301から抽出するように構成される。更に、エンコーディング・デバイス100、300は、SR入力信号101、301に基づいて、及び1つ以上のオーディオ・オブジェクト103、303に基づいて、残留信号102、302を決定するように構成される。更に、エンコーディング・デバイス100、300は、1つ以上のオーディオ・オブジェクト103、303に基づいて、及び残留信号102、302に基づいて、ビットストリーム701を生成するように構成される。
更に、基準位置における音場を記述する音場表現(SR)入力信号101、301を示すビットストリーム701を復号するように構成されるデコーディング・デバイス200が説明されている。SR入力信号101、301は、基準位置における音場の複数の異なる指向性パターンに対する複数のチャネルを含む。
デコーディング・デバイス200は、1つ以上の再構成されたオーディオ・オブジェクト206をビットストリーム701から導出し、再構成された残留信号205をビットストリーム701から導出するように構成される。更に、デコーディング・デバイス200は、SR入力信号101、301のフォーマット及び/又はチャネル数を示すSRメタデータ201をビットストリーム701から導出するように構成される。
本願で説明されるエンコーダ/デコーダ(例えば、デコーディング・モジュール210及び/又はエンコーディング・ユニット100及び300)は、AC−4規格、MPEG AAC規格、EVS(the Enhanced Voice Services)規格、HE−AAC規格等の規格の現行の及び将来のバージョンの規格に準拠し、高次アンビソニック(HOA)コンテンツを含むアンビソニック・コンテンツをサポートすることができる。
以下、エンコーディング方法400及び/又はデコーディング方法500に関する具体例(EE)を列挙して説明する。
EE1.オーディオ信号101,103の音場表現をエンコードする方法400が説明される。方法400は:
音声信号101,103の音場表現を受信するステップ;
音場表現に基づいてn個のオブジェクト103,303を決定するステップ;
音場表現に基づいて空間残差102,303を決定するステップ;
A−JOCパラメータ105,305を決定するために、A−JOCエンコーダ120,330を利用して、n個のオブジェクト103,303及び空間残差102,302をエンコードするステップ;
エンコードされたA−JOCパラメータ105,305をビットストリーム701で出力するステップを含む。
EE2.EE1に記載の方法400において、音場のフォーマットは、ISF、B−フォーマット、又はHOAのうちの1つである。
EE3.EE1に記載の方法400において、音場表現のフォーマットは(例えば、SRメタデータ201を利用して)デコーダにシグナリングされる。
EE4.EE1に記載の方法400において、フォーマットがL次HOA(L>1)のものである場合に、エンコーダ100,300は、L次HOAをB−フォーマット・アンビソニックにダウンミックスし、ダウンミックスされたB−フォーマット・アンビソニックを、符号化のためにA−JOCエンコーダ330に提供するダウンミックス・モジュール310を更に含む。
EE5.EE1に記載の方法400において、L次=3次である。
EE6.EE1に記載の方法400において、n=2である。
EE7.EE1に記載の方法400において、空間残差102,302のフォーマットは、ISF、B−フォーマット、HOA、又は4.x.2.2ベッドのうちの1つである。
EE8.EE1に記載の方法400において、空間残差102,302のフォーマットは、B−フォーマットである。
EE9.EE1に記載の方法400において、オブジェクト抽出は:
m個のサブバンドでオーディオを分析し、各サブバンドで支配的な到来方向を決定すること;
サブバンドの結果を、オブジェクト位置となるn個の支配的な方向を決定するためにクラスタリングすること;
各サブバンドにおいて、信号101,301のコンポーネントを各オブジェクト103,303に転じること(残差B−フォーマット・コンポーネントは、静的/オブジェクト/ベッド/STFストリームとして受け渡される)を含む。
EE10.EE9に記載の方法400において、m=19及びn=2である。
EE11.エンコードされたオーディオ・ストリーム701をデコードする方法500であって:
オリジナル・オーディオ101,301は音場表現である旨の指示201と共に符号化オーディオ・ストリーム701を受信するステップ;
ダウンミックス信号203を決定するために、符号化オーディオ・ストリーム701をコア・デコードするステップ;
空間残差205及びn個のオブジェクト206を決定するために、ダウンミックス信号203をA−JOCデコードするステップ;及び
オーディオ再生のために空間残差205及びn個のオブジェクト206をレンダリングするステップを含む方法。
EE12.EE11に記載の方法500において、ダウンミックス信号203のフォーマットの指示201を受信することを更に含む。
EE13.EE11に記載の方法500において、ダウンリンク信号203のフォーマットは、B−フォーマット、ISF、及び4.x.2.2ベッド・フォーマットのうちの1つである。
EE14.符号化オーディオ・ストリーム701はL次HOAフォーマットである旨の指示201に基づいて、コア・デコーディングは、L次HOAをB−フォーマット・アンビソニック表現にダウンミキシングすることを含む。
EE15.EE11に記載の方法500において、前記オリジナル・オーディオ信号101,301のフォーマットの指示201を受信するステップを更に含む。
EE16.EE15に記載の方法500において、フォーマットは3次HOAフォーマットである。
EE17.EE15に記載の方法500において、オリジナル・オーディオ信号101,301のフォーマットの指示は、信号がHOAオーディオ信号であることを示し、デコーディングは、HOAメタデータ201、空間残差205、及びn個のオブジェクト206に基づいてHOA信号251を決定するHOA出力段250を更に含む。
EE18.EE17に記載の方法500において、HOAメタデータ201は、オリジナル・オーディオ信号101,301のHOA次数を示す。
EE19.EE11に記載の方法500において、オブジェクト数nの指示201を受信するステップを更に含む。
EE20.EE11に記載の方法500において、n=2である。
EE21.EE11に記載の方法500において、空間残差205のフォーマットの指示201を受信するステップを更に含む。
EE22.EE11に記載の方法500において、空間残差205のフォーマットは、2次HOA、B−フォーマット・アンビソニック、ISFフォーマット(例えば、BH3.1.0.0)、及び4.x.2.2ベッドのうちの1つである。
EE23.EE11に記載の方法500において、レンダリングは、ヘッドフォン・レンダリング、スピーカ・レンダリングのうちの1つを含む。
本発明の種々の例示的な実施形態は、ハードウェア又は専用回路、ソフトウェア、ロジック、又はそれらの任意の組み合わせで実装される可能性がある。一部の態様はハードウェアで実装される可能性があり、別の態様はコントローラ、マイクロプロセッサ、又は他のコンピューティング・デバイスによって実行される可能性があるファームウェア又はソフトウェアで実装される可能性がある。一般に、本開示はまた、上述の方法を実行するのに適した装置、例えば、メモリとメモリに結合されたプロセッサとを有する装置(空間レンダラ)を包含し、プロセッサは、命令を実行するように、及び本開示の実施形態に従って方法を実行するように構成される。
本発明の例示的な実施形態の様々な態様が、ブロック図、フローチャートとして、又は何らかの他の図示式的な表現を用いて図示され説明されているが、本願で説明されるブロック、装置、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路、又はロジック、汎用ハードウェア又はコントローラ、又は他のコンピューティング・デバイス、又はそれらの何らかの組み合わせにおいて、実施されてもよいことが理解されるであろう。
更に、フローチャートに示される種々のブロックは、方法ステップとして、及び/又はコンピュータ・プログラム・コードの動作から生じる動作として、及び/又は関連する機能を実行するように構成された複数の結合された論理回路素子として考えることが可能である。例えば、本発明の実施形態は、機械読み取り可能な媒体に実体的に組み込まれたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、このコンピュータ・プログラムは、上述の方法を実行するように構成されたプログラム・コードを含む。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラムを含む、又は記憶する可能性のある任意の有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体である可能性がある。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、又は前述の任意の適切な組み合わせを含む可能性があるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ以上のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、又はこれらの適切な任意の組み合わせを含む。
本発明の方法を実行するためのコンピュータ・プログラム・コードは、1つ以上のプログラミング言語の任意の組み合わせで書かれる可能性がある。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブル・データ処理装置のプロセッサに提供される可能性があり、プログラム・コードは、コンピュータのプロセッサ又は他のプログラマブル・データ処理装置によって実行されると、フローチャート及び/又はブロック図に示される機能/動作が実行されることを引き起こす。プログラム・コードは、完全にあるコンピュータ上で、部分的にそのコンピュータ上で、スタンド・アローン・ソフトウェア・パッケージとして、部分的にコンピュータ上で、部分的にリモート・コンピュータ上で、又は完全にリモート・コンピュータ又はサーバ上で実行する可能性がある。
更に、動作が特定の順序で示されているが、これは、このような動作が、図示された特定の順序で又はその順番で実行されること、又は、所望の結果を達成するために、説明された全ての動作が実行されることを要求するものとして理解されるべきではない。特定の状況下では、マルチタスク及び並列処理が有利である可能性がある。同様に、幾つかの具体的な実施の詳細が上記の議論に含まれているが、これらは、何らかの発明の範囲、又は保護が請求される可能性があるものに関する限定としてではなく、むしろ、特定の発明の特定の実施形態に特化したものであり得る特徴の説明として解釈されるべきである。個々の実施形態の文脈において本明細書で説明される特定の特徴は、単一の実施形態における組み合わせで実施されてもよい。逆に、単一の実施形態の文脈で説明される種々の特徴は、複数の実施形態において別々に、又は任意の適切なサブ・コンビネーションで実施されてもよい。
明細書及び図面は、提案される方法及び装置の原理を単に説明しているに過ぎないことに留意されたい。従って、当業者は、本願で明示的には記載も又は図示もされていないが、本発明の原理を具体化し、その精神及び範囲内に含まれる種々の構成を案出することが可能であることが理解されるであろう。更に、本願で説明される全ての具体例は、主として、提案された方法及び装置の原理、ならびに技術を進歩させるために発明者が貢献した概念を理解する際に読者を支援するための教育的な目的のみを意図するものであり、本発明はこのように具体的に記載された実施例及び条件に限定することなく解釈されるべきである。更に、本発明の原理、態様、及び実施形態、並びにそれらの特定の具体例を記載する本願の全ての記述は、それらの均等物を包含するように意図されている。

Claims (21)

  1. 基準位置における音場を記述する音場表現(SR)入力信号をエンコードする方法であって、前記SR入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記方法は:
    1つ以上のオーディオ・オブジェクトを前記SR入力信号から抽出するステップであって、オーディオオブジェクトはオブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、ステップ;
    前記SR入力信号に基づいて及び前記1つ以上のオーディオ・オブジェクトに基づいて残留信号を決定するステップ;
    前記SR入力信号をSRダウンミックス信号にダウンミキシングするステップ;
    前記SRダウンミックス信号を、前記1つ以上のオーディオ・オブジェクトに対応する1つ以上の再構成されたオーディオ・オブジェクトに対して、及び前記残留信号に対応する再構成された残留信号に対してアップミキシングすることを可能にするジョイント・オブジェクト符号化パラメータを決定するために前記1つ以上のオーディオ・オブジェクト及び前記残留信号のジョイント・オブジェクト符号化を実行するステップ;及び
    前記SRダウンミックス信号及び前記ジョイント・オブジェクト符号化パラメータに基づいてビットストリームを生成するステップ;
    を含み、前記方法は、前記SR入力信号のチャネル数及び/又はフォーマットを示すSRメタデータを前記ビットストリームに挿入するステップを含む方法。
  2. 前記方法は、ダウンミックス・データを提供するために、前記ダウンミックス信号を波形符号化するステップを含み;及び
    前記ビットストリームは前記ダウンミックス・データに基づいて生成される、請求項1に記載の方法。
  3. JOCパラメータである前記ジョイント符号化パラメータは
    1つ以上の再構成されたオーディオ・オブジェクトに対する、及び前記再構成された残留信号に対する、前記ダウンミックス信号のアップミックスを可能にするアップミックス・マトリクスであるアップミックス・データ;及び/又は
    前記1つ以上のオーディオ・オブジェクトの及び前記残留信号の共分散の再構成を可能にするデコリレーション・データ;
    を含む、請求項1又は請求項2に記載の方法。
  4. 前記方法は:
    各々のオブジェクト信号に対する複数のサブバンド信号を提供するために、前記1つ以上のオーディオ・オブジェクトの前記オブジェクト信号を、QMFドメイン又はFFTベースの変換ドメインであるサブバンド・ドメインへ変換するステップ;及び
    前記複数のオブジェクト信号の前記サブバンド信号に基づいて、JOCパラメータである前記ジョイント符号化パラメータを決定するステップ;
    を含む請求項1〜3のうちの何れか1項に記載の方法。
  5. 前記残留信号はマルチ・チャネル・オーディオ信号及び/又はオーディオ信号のベッドを含み;及び/又は
    前記残留信号は固定されたオブジェクト位置における複数のオーディオ・オブジェクトを含み;及び/又は
    前記残留信号は1次アンビソニック信号であるSR信号を含む、請求項1〜4のうちの何れか1項に記載の方法。
  6. 前記方法は:
    複数の異なるサブバンドに対する複数のSRサブバンド信号を提供するために、前記SR入力信号を、QMFドメイン又はFFTベースの変換ドメインであるサブバンド・ドメインに変換するステップ;
    複数の支配的な到来方向を、対応する複数のSRサブバンド信号に対して決定するステップ;
    前記複数の支配的な到来信号を、n個のクラスタ化された到来方向にクラスタリングするステップ(n>0);
    前記n個のクラスタ化された到来方向に基づいてn個のオーディオ・オブジェクトを抽出するステップ;
    を含む請求項1〜5のうちの何れか1項に記載の方法。
  7. 前記方法は:
    前記n個のオーディオ・オブジェクトに対する前記オブジェクト信号を決定するために、前記SR入力信号を前記n個のクラスタ化された到来方向にマッピングするステップ;及び/又は
    前記n個のクラスタ化された到来方向を利用して前記n個のオーディオ・オブジェクトに対する前記オブジェクト・メタデータを決定するステップ;
    を含む請求項6に記載の方法。
  8. 前記方法は:
    前記複数のサブバンドに対する複数の残留サブバンド信号を提供するために、前記複数のサブバンドの各々の中で、前記n個のオーディオ・オブジェクトの前記オブジェクト信号に対するサブバンド信号を、前記SRサブバンド信号から減算するステップ;及び
    前記複数の残留サブバンド信号に基づいて前記残留信号を決定するステップ;
    を含む請求項6又は請求項7に記載の方法。
  9. 前記SR入力信号をダウンミキシングするステップは、前記SRダウンミックス信号に対する前記SR入力信号の前記複数のチャネルのうちの一部分を選択するステップを含み;及び/又は
    前記SR入力信号はL次アンビソニック信号であり(L>1)、前記SRダウンミックス信号はLより低い次数のアンビソニック信号である、請求項1〜8のうちの何れか1項に記載の方法。
  10. 前記SR入力信号の前記複数のチャネルの前記複数の異なる指向性パターンは、前記基準位置を中心とする球の複数の異なるリングに配置され;
    前記異なるリングは異なる仰角を示し;
    同じリングにおける異なる到来方向は異なる方位角を示し;及び/又は
    同じリングにおける異なる到来方向は前記リングで不均一に分散している、請求項1〜9のうちの何れか1項に記載の方法。
  11. 前記SR入力信号であるSR信号はL次アンビソニック信号を含み、Lは1以上であり;
    前記SR入力信号であるSR信号は、前記複数の指向性パターンが前記基準位置を中心とする複数の異なるリングに配置されている蜂の巣フォーマットを示し;及び/又は
    前記SR入力信号であるSR信号は、中間空間フォーマット(ISF)を示す、請求項1〜10のうちの何れか1項に記載の方法。
  12. 前記SR入力信号の各チャネルは、フレームのシーケンスに対するオーディオ・サンプルのシーケンスを含む、請求項1〜11のうちの何れか1項に記載の方法。
  13. 前記ビットストリームはAC−4シンタックスを利用しており;及び/又は
    前記ビットストリームは、AC−4規格、MPEG AAC規格、エンハンスト・ボイス・サービス(EVS)規格、及び/又はHE−AAC規格から選択された規格に従う符号化に基づいて生成される、請求項1〜12のうちの何れか1項に記載の方法。
  14. 基準位置における音場を記述する音場表現(SR)入力信号を表すビットストリームをデコードする方法であって、前記SR入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記ビットストリームは、再構成されたダウンミックス信号を示すダウンミックス・データと、ジョイント・オブジェクト符号化パラメータとを含み、前記方法は:
    1つ以上の再構成されたオーディオ・オブジェクト及び再構成された残留信号を導出するために、前記ジョイント符号化パラメータを利用して、前記再構成されたダウンミックス信号をアップミキシングするステップであって、オーディオ・オブジェクトはオブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、ステップ;
    前記SR入力信号のチャネル数及び/又はフォーマットを示すSRメタデータを前記ビットストリームから導出するステップ;及び
    前記1つ以上の再構成されたオーディオ・オブジェクトに基づいて、前記再構成された残留信号に基づいて、及び前記SRメタデータに基づいて、前記SR入力信号の再構成されたSR信号を決定するステップ;
    を含む方法。
  15. 前記1つ以上の再構成されたオーディオ・オブジェクトの前記オブジェクト信号を、QMFドメイン又はFFTベースの変換ドメインであるサブバンド・ドメインへ変換するステップ;
    前記再構成された残留信号を前記サブバンド・ドメインへ変換するステップ;及び
    前記サブバンド・ドメインの中で前記再構成された残留信号の及び前記オブジェクト信号のサブバンド信号に基づいて、前記SR入力信号の前記再構成されたSR信号を決定するステップ;
    を更に含む請求項14に記載の方法。
  16. 前記方法は:
    複数のダウンミックス・サブバンド信号を提供するために、前記再構成されたダウンミックス信号を、QMFドメイン又はFFTベースの変換ドメインであるサブバンド・ドメインに変換するステップ;及び
    前記1つ以上の再構成されたオーディオ・オブジェクト及び/又は前記再構成された残留信号を提供するために、JOCパラメータである前記ジョイント符号化パラメータを利用して、前記複数のダウンミックス・サブバンド信号をアップミキシングするステップ;
    を含む請求項14又は請求項15に記載の方法。
  17. 前記再構成された残留信号は、前記SR入力信号の再構成されたSR信号よりも少ないチャネルを含むSR信号であり;及び
    前記方法は、前記再構成された残留信号を、前記再構成されたSR信号のチャネル数にアップミキシングするステップを含む、請求項14〜16のうちの何れか1項に記載の方法。
  18. 前記方法は、導出された前記1つ以上の再構成されたオーディオ・オブジェクト及び/又は前記再構成された残留信号及び/又は再構成されたSR信号をレンダリングするステップを含む、請求項14〜17のうちの何れか1項に記載の方法。
  19. 前記ビットストリームはAC−4シンタックスを利用しており;及び/又は
    前記ビットストリームは、AC−4規格、MPEG AAC規格、エンハンスト・ボイス・サービス(EVS)規格、及び/又はHE−AAC規格から選択された規格に従っている、請求項14〜18のうちの何れか1項に記載の方法。
  20. 基準位置における音場を記述する音場表現(SR)入力信号をエンコードするように構成されたエンコーディング・デバイスであって、前記SR入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記エンコーディング・デバイスは:
    1つ以上のオーディオ・オブジェクトを前記SR入力信号から抽出することであって、オーディオ・オブジェクトはオブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、こと;
    前記SR入力信号に基づいて及び前記1つ以上のオーディオ・オブジェクトに基づいて残留信号を決定すること;
    SR入力信号をSRダウンミックス信号にダウンミキシングすること;
    前記SRダウンミックス信号を、前記1つ以上のオーディオ・オブジェクトに対応する1つ以上の再構成されたオーディオ・オブジェクトに対して、及び前記残留信号に対応する再構成された残留信号に対してアップミキシングすることを可能にするジョイント・オブジェクト符号化パラメータを決定するために前記1つ以上のオーディオ・オブジェクト及び前記残留信号のジョイント・オブジェクト符号化を実行すること;
    前記SRダウンミックス信号及び前記ジョイント・オブジェクト符号化パラメータに基づいてビットストリームを生成することであって、前記SR入力信号のチャネル数及び/又はフォーマットを示すSRメタデータが前記ビットストリームに挿入されている、こと;
    を行うように構成されているエンコーディング・デバイス。
  21. 基準位置における音場を記述する音場表現(SR)入力信号を表すビットストリームをデコードするように構成されたデコーディング・デバイスであって、前記SR入力信号は前記基準位置における前記音場の複数の異なる指向性パターンに対する複数のチャネルを含み、前記ビットストリームは、再構成されたダウンミックス信号を示すダウンミックス・データと、ジョイント・オブジェクト符号化パラメータとを含み、前記デコーディング・デバイスは:
    1つ以上の再構成されたオーディオ・オブジェクト及び再構成された残留信号を導出するために、前記ジョイント符号化パラメータを利用して、前記再構成されたダウンミックス信号をアップミキシングすることであって、オーディオ・オブジェクトはオブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータとを含む、こと;
    前記SR入力信号のチャネル数及び/又はフォーマットを示すSRメタデータを前記ビットストリームから導出すること;及び
    前記1つ以上の再構成されたオーディオ・オブジェクトに基づいて、前記再構成された残留信号に基づいて、及び前記SRメタデータに基づいて、前記SR入力信号の再構成されたSR信号を決定すること;
    を行うように構成されているデコーディング・デバイス。
JP2020539815A 2018-01-18 2019-01-17 音場表現信号を符号化する方法及びデバイス Active JP6888172B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862618991P 2018-01-18 2018-01-18
US62/618,991 2018-01-18
PCT/US2019/014090 WO2019143867A1 (en) 2018-01-18 2019-01-17 Methods and devices for coding soundfield representation signals

Publications (2)

Publication Number Publication Date
JP2021507314A JP2021507314A (ja) 2021-02-22
JP6888172B2 true JP6888172B2 (ja) 2021-06-16

Family

ID=65352144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020539815A Active JP6888172B2 (ja) 2018-01-18 2019-01-17 音場表現信号を符号化する方法及びデバイス

Country Status (5)

Country Link
US (1) US11322164B2 (ja)
EP (1) EP3740950B8 (ja)
JP (1) JP6888172B2 (ja)
CN (1) CN111630593B (ja)
WO (1) WO2019143867A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530723A (ja) * 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
CN114207715A (zh) 2019-07-30 2022-03-18 杜比实验室特许公司 用于分布式音频设备的声学回声消除控制
US11514921B2 (en) * 2019-09-26 2022-11-29 Apple Inc. Audio return channel data loopback
TWI812874B (zh) 2019-10-01 2023-08-21 美商杜拜研究特許公司 張量乘積之b平滑曲線預測子

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
WO2008060111A1 (en) * 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
EP2511903A3 (en) * 2007-10-22 2012-11-28 Electronics and Telecommunications Research Institute Multi-object audio decoding method and apparatus thereof
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
TWI441164B (zh) * 2009-06-24 2014-06-11 Fraunhofer Ges Forschung 音訊信號解碼器、用以將音訊信號解碼之方法、以及運用級聯音訊物件處理級之電腦程式
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
JP6088444B2 (ja) * 2011-03-16 2017-03-01 ディーティーエス・インコーポレイテッドDTS,Inc. 3次元オーディオサウンドトラックの符号化及び復号
IN2014CN03413A (ja) * 2011-11-01 2015-07-03 Koninkl Philips Nv
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
KR101903664B1 (ko) 2012-08-10 2018-11-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2782094A1 (en) 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
EP3270375B1 (en) * 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2015054033A2 (en) 2013-10-07 2015-04-16 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN105336335B (zh) * 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016182371A1 (ko) 2015-05-12 2016-11-17 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding

Also Published As

Publication number Publication date
CN111630593A (zh) 2020-09-04
US11322164B2 (en) 2022-05-03
WO2019143867A1 (en) 2019-07-25
US20210050022A1 (en) 2021-02-18
CN111630593B (zh) 2021-12-28
EP3740950B1 (en) 2022-04-06
EP3740950A1 (en) 2020-11-25
JP2021507314A (ja) 2021-02-22
EP3740950B8 (en) 2022-05-18

Similar Documents

Publication Publication Date Title
US9478228B2 (en) Encoding and decoding of audio signals
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
JP6888172B2 (ja) 音場表現信号を符号化する方法及びデバイス
US10468040B2 (en) Decoding of audio scenes
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
CA2918529C (en) Apparatus and method for realizing a saoc downmix of 3d audio content
RU2659497C2 (ru) Управляемое модулем рендеринга пространственное повышающее микширование
US11699451B2 (en) Methods and devices for encoding and/or decoding immersive audio signals
WO2015175998A1 (en) Spatial relation coding for higher order ambisonic coefficients
CN107077861B (zh) 音频编码器和解码器
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20200717

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200717

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200721

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210519

R150 Certificate of patent or registration of utility model

Ref document number: 6888172

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250