JP6728065B2 - 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法 - Google Patents

音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法 Download PDF

Info

Publication number
JP6728065B2
JP6728065B2 JP2016567714A JP2016567714A JP6728065B2 JP 6728065 B2 JP6728065 B2 JP 6728065B2 JP 2016567714 A JP2016567714 A JP 2016567714A JP 2016567714 A JP2016567714 A JP 2016567714A JP 6728065 B2 JP6728065 B2 JP 6728065B2
Authority
JP
Japan
Prior art keywords
vector
unit
audio
codebooks
syntax element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016567714A
Other languages
English (en)
Other versions
JP2017521693A5 (ja
JP2017521693A (ja
Inventor
キム、モ・ユン
ペーターズ、ニルス・ガンザー
セン、ディパンジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2017521693A publication Critical patent/JP2017521693A/ja
Publication of JP2017521693A5 publication Critical patent/JP2017521693A5/ja
Application granted granted Critical
Publication of JP6728065B2 publication Critical patent/JP6728065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

[0001]本出願は、以下の米国仮出願、即ち、
2014年5月16日に出願された「CODING V−VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL」と題する米国仮出願第61/994,794号、
2014年5月28日に出願された「CODING V−VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL」と題する米国仮出願第62/004,128号、
2014年7月1日に出願された「CODING V−VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL」と題する米国仮出願第62/019,663号、
2014年7月22日に出願された「CODING V−VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL」と題する米国仮出願第62/027,702号、
2014年7月23日に出願された「CODING V−VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL」と題する米国仮出願第62/028,282号、
2014年8月1日に出願された「CODING V−VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS (HOA) AUDIO SIGNAL」と題する米国仮出願第62/032,440号
の利益を主張し、上記に記載された米国仮出願の各々は、それらのそれぞれの全体が本明細書に記載されたかのように、参照により組み込まれる。
[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータのコード化に関する。
[0003]高次アンビソニックス(HOA:higher-order ambisonics)信号(複数の球面調和係数(SHC:spherical harmonic coefficient)又は他の階層的な要素によってしばしば表される)は、音場の3次元表現である。このHOA表現又はSHC表現は、SHC信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカ幾何学的配置に依存しない方法で音場を表し得る。SHC信号は、5.1オーディオチャネルフォーマット又は7.1オーディオチャネルフォーマットなどのよく知られており、広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、SHC信号はまた、後方互換性を容易にし得る。従って、SHC表現は、後方互換性にも対応する、音場のより良い表現を可能にし得る。
[0004]概して、コードベクトルのセットに基づいて分解された高次アンビソニックス(HOA)オーディオ信号の(関連するオーディオオブジェクトの、幅、形状、方向及び位置などの空間情報を表し得る)vベクトルを効率的に表すための技法について説明する。本技法は、vベクトルをコードベクトルの重み付き和に分解することと、複数の重み及び対応するコードベクトルのサブセットを選択することと、重みの選択されたサブセットを量子化することと、コードベクトルの選択されたサブセットをインデックス付けすることとを伴い得る。本技法は、HOAオーディオ信号をコード化するためのビットレートの改善を提供し得る。
[0005]一態様では、複数の高次アンビソニック(HOA)係数を取得する方法であって、本方法は、複数のHOA係数の分解バージョン中に含まれるベクトルを表す複数の重み値を示すデータをビットストリームから取得することを備える。重み値の各々は、コードベクトルのセットを含むベクトルを表すコードベクトルの重み付き和における複数の重みのうちのそれぞれ1つに対応する。重み値とコードベクトルとに基づいてベクトルを再構成することを更に備える本方法。
[0006]別の態様では、複数の高次アンビソニック(HOA)係数を取得するように構成された機器であって、本機器は、複数のHOA係数の分解バージョン中に含まれるベクトルを表す複数の重み値を示すデータをビットストリームから取得するように構成された1つ又は複数のプロセッサを備える。重み値の各々は、ベクトルを表しコードベクトルのセットを含むコードベクトルの重み付き和における複数の重みのうちのそれぞれ1つに対応する。重み値とコードベクトルとに基づいてベクトルを再構成するように更に構成された1つ又は複数のプロセッサ。また、再構成されたベクトルを記憶するように構成されたメモリを備える本機器。
[0007]別の態様では、複数の高次アンビソニック(HOA)係数を取得するように構成された機器であって、本機器は、複数のHOA係数の分解バージョン中に含まれるベクトルを表す複数の重み値を示すデータをビットストリームから取得するための手段と、重み値の各々が、コードベクトルのセットを含むベクトルを表すコードベクトルの重み付き和における複数の重みのうちのそれぞれ1つに対応する、重み値とコードベクトルとに基づいてベクトルを再構成するための手段とを備える。
[0008]別の態様では、非一時的コンピュータ可読記憶媒体は、実行されたとき、複数の高次アンビソニック(HOA)係数の分解バージョン中に含まれるベクトルを表す複数の重み値を示すデータをビットストリームから取得することと、重み値の各々が、コードベクトルのセットを含むベクトルを表すコードベクトルの重み付き和における複数の重みのうちのそれぞれ1つに対応する、重み値とコードベクトルとに基づいてベクトルを再構成することとを1つ又は複数のプロセッサに行わせる命令をその上に記憶している。
[0009]別の態様では、方法は、コードベクトルのセットに基づいて、複数の高次アンビソニック(HOA)係数の分解バージョン中に含まれるベクトルを表す1つ又は複数の重み値を決定することを備え、重み値の各々は、ベクトルを表すコードベクトルの重み付き和中に含まれる複数の重みのうちのそれぞれ1つに対応する。
[0010]別の態様では、機器は、コードベクトルのセットを記憶するように構成されたメモリと、コードベクトルのセットに基づいて、複数の高次アンビソニック(HOA)係数の分解バージョン中に含まれるベクトルを表す1つ又は複数の重み値を決定するように構成された1つ又は複数のプロセッサとを備え、重み値の各々は、ベクトルを表すコードベクトルの重み付き和中に含まれる複数の重みのうちのそれぞれ1つに対応する。
[0011]別の態様では、装置は、HOA係数の分解バージョンを生成するために複数の高次アンビソニック(HOA)係数に関して分解を実施するための手段を備える。本装置は、コードベクトルのセットに基づいて、HOA係数の分解バージョン中に含まれるベクトルを表す1つ又は複数の重み値を決定するための手段を更に備え、重み値の各々は、ベクトルを表すコードベクトルの重み付き和中に含まれる複数の重みのうちのそれぞれ1つに対応する。
[0012]別の態様では、非一時的コンピュータ可読記憶媒体は、実行されたとき、コードベクトルのセットに基づいて、複数の高次アンビソニック(HOA)係数の分解バージョン中に含まれるベクトルを表す1つ又は複数の重み値を決定することを1つ又は複数のプロセッサに行わせる命令をその上に記憶しており、重み値の各々は、ベクトルを表すコードベクトルの重み付き和中に含まれる複数の重みのうちのそれぞれ1つに対応する。
[0013]別の態様では、複数の高次アンビソニック(HOA)係数を示すオーディオデータを復号する方法であって、本方法は、複数のHOA係数の分解バージョンに関してベクトル逆量子化を実施すべきかスカラー逆量子化を実施すべきかを決定することを備える。
[0014]別の態様では、複数の高次アンビソニック(HOA)係数を示すオーディオデータを復号するように構成された機器であって、本機器は、オーディオデータを記憶するように構成されたメモリと、複数のHOA係数の分解バージョンに関してベクトル逆量子化を実施すべきかスカラー逆量子化を実施すべきかを決定するように構成された1つ又は複数のプロセッサとを備える。
[0015]別の態様では、オーディオデータを符号化する方法であって、本方法は、複数の高次アンビソニック(HOA)係数の分解バージョンに関してベクトル量子化を実施すべきかスカラー量子化を実施すべきかを決定することを備える。
[0016]別の態様では、オーディオデータを復号する方法であって、本方法は、音場のベクトル量子化空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを備え、ベクトル量子化空間成分は、複数の高次アンビソニック係数への分解の適用を通して取得される。
[0017]別の態様では、機器は、音場のベクトル量子化空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックを記憶するように構成されたメモリと、ベクトル量子化空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、複数のコードブックのうちの1つを選択するように構成された1つ又は複数のプロセッサとを備える。
[0018]別の態様では、機器音場のベクトル量子化空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックを記憶するための手段と、ベクトル量子化空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、複数のコードブックのうちの1つを選択するための手段とを備える。
[0019]別の態様では、非一時的コンピュータ可読記憶媒体は、実行されたとき、音場のベクトル量子化空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを1つ又は複数のプロセッサに行わせる命令をその上に記憶しており、ベクトル量子化空間成分は、複数の高次アンビソニック係数への分解の適用を通して取得される。
[0020]別の態様では、オーディオデータを符号化する方法であって、本方法は、音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを備え、空間成分は、複数の高次アンビソニック係数への分解の適用を通して取得される。
[0021]別の態様では、機器は、音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックを記憶するように構成されたメモリを備え、空間成分は、複数の高次アンビソニック係数への分解の適用を通して取得される。機器はまた、複数のコードブックのうちの1つを選択するように構成された1つ又は複数のプロセッサを備える。
[0022]別の態様では、機器は、音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックを記憶するための手段と、空間成分が、複数の高次アンビソニック係数へのベクトルベースの合成の適用を通して取得される、複数のコードブックのうちの1つを選択するための手段とを備える。
[0023]別の態様では、非一時的コンピュータ可読記憶媒体は、実行されたとき、音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを1つ又は複数のプロセッサに行わせる命令をその上に記憶しており、空間成分は、複数の高次アンビソニック係数へのベクトルベースの合成の適用を通して取得される。
[0024]本技法の1つ又は複数の態様の詳細は、添付の図面及び以下の説明に記載される。本技法の他の特徴、目的、及び利点は、説明及び図面から、ならびに特許請求の範囲から明らかになろう。
[0025]様々な次数及び副次数の球面調和基底関数を示す図。 [0026]本開示で説明する技法の様々な態様を実施し得るシステムを示す図。 [0027]本開示で説明する技法の様々な態様を実施し得る、図2の例に示されたオーディオ符号化機器の一例をより詳細に示すブロック図。 本開示で説明する技法の様々な態様を実施し得る、図2の例に示されたオーディオ符号化機器の一例をより詳細に示すブロック図。 [0028]図2のオーディオ復号機器のあるバージョンをより詳細に示すブロック図。 図2のオーディオ復号機器のあるバージョンをより詳細に示すブロック図。 [0029]本開示で説明するベクトルベースの合成技法の様々な態様を実施する際のオーディオ符号化機器の例示的な動作を示すフローチャート。 [0030]本開示で説明する技法の様々な態様を実行する際のオーディオ復号機器の例示的な動作を示すフローチャート。 [0031]図3A又は図3Bのオーディオ符号化機器のVベクトルコード化ユニットのあるバージョンをより詳細に示す図。 図3A又は図3Bのオーディオ符号化機器のVベクトルコード化ユニットのあるバージョンをより詳細に示す図。 [0032]vベクトルから生成される音場を示す概念図。 [0033]図60に関して上述したvベクトルの25次モデルから生成される音場を示す概念図。 [0034]図10に示された25次モデルのための各次数の重み付けを示す概念図。 [0035]図9に関して上記で説明したvベクトルの5次モデルを示す概念図。 [0036]図12に示された5次モデルのための各次数の重み付けを示す概念図。 [0037]特異値分解を実施するために使用される例示的な行列の例示的な次元を示す概念図。 [0038]本開示のvベクトルコード化技法を使用することによって取得され得る例示的な性能改善を示すチャート。 [0039]本開示で説明する技法に従って実施されたときのVベクトルコード化の一例を示す幾つかの図。 [0040]本開示によるVベクトルの例示的なコードベクトルベースの分解を示す概念図。 [0041]図10及び図11の一方又は両方の例に示されたVベクトルコード化ユニットによって16個の異なるコードベクトルが採用され得る異なる方法を示す図。 [0042]本開示で説明する技法の様々な態様に従って使用され得る10個の値を各行が有する、256個の行をもつコードブックを示す図。 本開示で説明する技法の様々な態様に従って使用され得る16個の値を各行が有する、256個の行をもつコードブックを示す図。 [0043]本開示で説明する技法の様々な態様による、X*数のコードベクトルを選択するために使用される閾値誤差を示す例示的なグラフを示す図。 [0044]本開示による例示的なベクトル量子化ユニット520を示すブロック図。 [0045]本開示で説明する技法の様々な態様を実施する際のベクトル量子化ユニットの例示的な動作を示すフローチャート。 [0046]本開示で説明する技法の様々な態様を実施する際のVベクトル再構成ユニットの例示的な動作を示すフローチャート。 本開示で説明する技法の様々な態様を実施する際のベクトル量子化ユニットの例示的な動作を示すフローチャート。 本開示で説明する技法の様々な態様を実施する際のVベクトル再構成ユニットの例示的な動作を示すフローチャート。 本開示で説明する技法の様々な態様を実施する際のベクトル量子化ユニットの例示的な動作を示すフローチャート。 本開示で説明する技法の様々な態様を実施する際のVベクトル再構成ユニットの例示的な動作を示すフローチャート。
[0001]概して、コードベクトルのセットに基づいて分解された高次アンビソニックス(HOA)オーディオ信号の(関連するオーディオオブジェクトの、幅、形状、方向及び位置などの空間情報を表し得る)vベクトルを効率的に表すための技法について説明する。本技法は、vベクトルをコードベクトルの重み付き和に分解することと、複数の重み及び対応するコードベクトルのサブセットを選択することと、重みの選択されたサブセットを量子化することと、コードベクトルの選択されたサブセットをインデックス付けすることとを伴い得る。本技法は、HOAオーディオ信号をコード化するためのビットレートの改善を提供し得る。
[0002]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、幾つかの幾何学的座標にあるラウドスピーカへのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している5.1フォーマット(これは、次の6つのチャネル、即ち、フロントレフト(FL)と、フロントライト(FR)と、センタ又はフロントセンタと、バックレフト又はサラウンドレフトと、バックライト又はサラウンドライトと、低周波効果(LFE)とを含む)、発展中の7.1フォーマット、7.1.4フォーマット及び22.2フォーマット(例えば、超高精細度テレビジョン規格とともに使用するための)などのハイトスピーカを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」としばしば呼ばれる(対称な、及び非対称な幾何学的配置の)任意の数のスピーカに及び得る。そのようなアレイの一例は、切頂20面体の角の座標に配置された32個のラウドスピーカを含む。
[0003]将来のMPEGエンコーダへの入力は、場合によっては、次の3つの可能なフォーマット、即ち、(i)予め指定された位置においてラウドスピーカを通じて再生されることが意図される、(上記で説明した)従来のチャネルベースオーディオ、(ii)(情報の中でも)位置座標を含んでいる関連するメタデータをもつ単一オーディオオブジェクトのための離散的なパルス符号変調(PCM)データを伴うオブジェクトベースオーディオ、並びに(iii)球面調和基底関数の係数(「球面調和係数」即ちSHC、「高次アンビソニックス」即ちHOA、及び「HOA係数」とも呼ばれる)を使用して音場を表すことを伴うシーンベースオーディオのうちの1つである。将来のMPEGエンコーダは、2013年1月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、国際標準化機構/国際電気標準会議(ISO)/(IEC)JTC1/SC29/WG11/N13411による「Call for Proposals for 3D Audio」と題する文書においてより詳細に説明され得る。
[0004]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、例えば、5.1ホームシアタシステム(リビングルームに進出するという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokai即ち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(例えば、ハリウッドスタジオ)は、一度に映画のサウンドトラックを作成することを望み、各スピーカ構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカの幾何学的配置(と数)及び(レンダラを伴う)再生の位置における音響条件に適応可能でありそれらにアグノスティックな後続の復号とを提供するための方法を考えている。
[0005]コンテンツ作成者にそのような柔軟性を提供するために、音場を表すための要素の階層セットが使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細になり、分解能は向上する。
[0006]要素の階層セットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用する音場の記述又は表現を示す。
Figure 0006728065
Figure 0006728065
[0008]図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数について、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。
Figure 0006728065
又は代替的に、それらは音場のチャネルベース又はオブジェクトベースの記述から導出され得る。SHCはシーンベースのオーディオを表し、ここで、SHCは、より効率的な送信又は記憶を促し得る符号化されたSHCを取得するために、オーディオエンコーダに入力され得る。例えば、(1+4)2個の(25個の、従って4次の)係数を伴う4次表現が使用され得る。
[0010]上述したように、SHCは、マイクロフォンアレイを使用するマイクロフォン記録から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti,M、「Three−Dimensional Surround Sound Systems Based on Spherical Harmonics」、J.Audio Eng. Soc.、Vol. 53、No. 11、2005年11月、1004〜1025ページに記載されている。
[0011]SHCがどのようにオブジェクトベースの記述から導出され得るかを示すために、
Figure 0006728065
Figure 0006728065
残りの図について、オブジェクトベース及びSHCベースのオーディオコード化のコンテキストにおいて以下で説明する。
[0012]図2は、本開示で説明する技法の様々な態様を実施し得るシステム10を示す図である。図2の例に示されているように、システム10は、コンテンツ作成者機器12と、コンテンツ消費者機器14とを含む。コンテンツ作成者機器12及びコンテンツ消費者機器14のコンテキストで説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、(HOA係数とも呼ばれ得る)SHC又は音場の任意の他の階層的表現が符号化される任意のコンテキストで実装され得る。その上、コンテンツ作成者機器12は、幾つか例を挙げると、ハンドセット(又はセルラーフォン)、タブレットコンピュータ、スマートフォン、又はデスクトップコンピュータを含む、本開示で説明する技法を実装することが可能な任意の形態のコンピューティング機器を表し得る。同様に、コンテンツ消費者機器14は、幾つか例を挙げると、ハンドセット(又はセルラーフォン)、タブレットコンピュータ、スマートフォン、セットトップボックス、又はデスクトップコンピュータを含む、本開示で説明する技法を実装することが可能な任意の形態のコンピューティング機器を表し得る。
[0013]コンテンツ作成者機器12は、コンテンツ消費者機器14などのコンテンツ消費者機器のオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成し得る、映画スタジオ又は他のエンティティによって操作され得る。幾つかの例では、コンテンツ作成者機器12は、HOA係数11を圧縮することを望み得る個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者機器14は個人によって操作され得る。コンテンツ消費者機器14は、マルチチャネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム16を含み得る。
[0014]コンテンツ作成者機器12はオーディオ編集システム18を含む。コンテンツ作成者機器12は、(HOA係数として直接含む)様々なフォーマットのライブ記録7とオーディオオブジェクト9とを取得し、コンテンツ作成者機器12は、オーディオ編集システム18を使用してこれらを編集し得る。マイクロフォン5はライブ記録7を取込み得る。コンテンツ作成者は、編集プロセス中に、オーディオオブジェクト9からのHOA係数11をレンダリングし、更なる編集を必要とする音場の様々な様相を識別しようとしてレンダリングされたスピーカフィードを聞き得る。コンテンツ作成者機器12は、次いで、(潜在的に、上記で説明した方法でソースHOA係数がそれから導出され得るオーディオオブジェクト9のうちの様々なオブジェクトの操作を通じて間接的に)HOA係数11を編集し得る。コンテンツ作成者機器12は、HOA係数11を生成するためにオーディオ編集システム18を採用し得る。オーディオ編集システム18は、オーディオデータを編集し、このオーディオデータを1つ又は複数のソース球面調和係数として出力することが可能な任意のシステムを表す。
[0015]編集プロセスが完了すると、コンテンツ作成者機器12は、HOA係数11に基づいてビットストリーム21を生成し得る。即ち、コンテンツ作成者機器12は、ビットストリーム21を生成するために、本開示で説明する技法の様々な態様に従って、HOA係数11を符号化又はさもなければ圧縮するように構成された機器を表す、オーディオ符号化機器20を含む。オーディオ符号化機器20は、一例として、ワイヤード又はワイヤレスチャネル、データ記憶機器などであり得る送信チャネルを介した送信のために、ビットストリーム21を生成し得る。ビットストリーム21は、HOA係数11の符号化バージョンを表し得、主要ビットストリームと、サイドチャネル情報と呼ばれることがある別のサイドビットストリームとを含み得る。
[0016]図2では、コンテンツ消費者機器14に直接送信されるものとして示されているが、コンテンツ作成者機器12は、コンテンツ作成者機器12とコンテンツ消費者機器14との間に配置された中間機器にビットストリーム21を出力し得る。中間機器は、ビットストリームを要求し得るコンテンツ消費者機器14に後で配信するために、ビットストリーム21を記憶し得る。中間機器は、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン又は後でのオーディオデコーダによる取出しのためにビットストリーム21を記憶することが可能な任意の他の機器を備え得る。中間機器は、ビットストリーム21を要求するコンテンツ消費者機器14などの加入者にビットストリーム21を(場合によっては対応するビデオデータビットストリームを送信するとともに)ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在し得る。
[0017]代替的に、コンテンツ作成者機器12は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク又は他の記憶媒体などの記憶媒体にビットストリーム21を記憶し得、記憶媒体の大部分はコンピュータによって読み取り可能であり、従って、コンピュータ可読記憶媒体又は非一時的コンピュータ可読記憶媒体と呼ばれることがある。このコンテキストでは、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある(及び小売店と他の店舗ベースの配信機構とを含み得る)。従って、いずれにしても、本開示の技法は、この点に関して図2の例に限定されるべきではない。
[0018]図2の例に更に示されているように、コンテンツ消費者機器14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム16は、幾つかの異なるレンダラ22を含み得る。レンダラ22はそれぞれ、異なる形態のレンダリングを提供し得、ここで、異なる形態のレンダリングは、ベクトルベース振幅パンニング(VBAP:vector-base amplitude panning)を実施する様々な方法のうちの1つ又は複数、及び/又は音場合成を実施する様々な方法のうちの1つ以上を含み得る。本明細書で使用する「A及び/又はB」は、「A又はB」、又は「AとB」の両方を意味する。
[0019]オーディオ再生システム16は、オーディオ復号機器24を更に含み得る。オーディオ復号機器24は、ビットストリーム21からHOA係数11’を復号するように構成された機器を表し得、ここで、HOA係数11’は、HOA係数11と同様であり得るが、損失のある演算(例えば、量子化)及び/又は送信チャネルを介した送信に起因して異なり得る。オーディオ再生システム16は、HOA係数11’を取得するためにビットストリーム21を復号した後に、ラウドスピーカフィード25を出力するためにHOA係数11’をレンダリングし得る。ラウドスピーカフィード25は、(説明を簡単にするために図2の例には示されていない)1つ又は複数のラウドスピーカを駆動し得る。
[0020]適切なレンダラを選択するために、又は幾つかの事例では、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカの数及び/又はラウドスピーカの空間的な幾何学的配置を示すラウドスピーカ情報13を取得し得る。幾つかの事例では、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカ情報13を取得し、ラウドスピーカ情報13を動的に決定するような方法でラウドスピーカを駆動し得る。他の事例では、又はラウドスピーカ情報13の動的決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカ情報13を入力するようにユーザに促し得る。
[0021]オーディオ再生システム16は、次いで、ラウドスピーカ情報13に基づいてオーディオレンダラ22のうちの1つを選択し得る。幾つかの事例では、オーディオ再生システム16は、オーディオレンダラ22のいずれもが、ラウドスピーカ情報13において指定されたラウドスピーカ幾何学的配置に対して(ラウドスピーカ幾何学的配置に関する)何らかの閾値類似性測度内にないとき、ラウドスピーカ情報13に基づいてオーディオレンダラ22のうちの1つを生成し得る。オーディオ再生システム16は、幾つかの事例では、オーディオレンダラ22のうちの既存の1つを選択することを最初に試みることなく、ラウドスピーカ情報13に基づいてオーディオレンダラ22のうちの1つを生成し得る。1つ又は複数のスピーカ3は、次いで、レンダリングされたラウドスピーカフィード25を再生し得る。
[0022]図3Aは、本開示で説明する技法の様々な態様を実施し得る、図2の例に示されたオーディオ符号化機器20の一例をより詳細に示すブロック図である。オーディオ符号化機器20は、コンテンツ分析ユニット26と、ベクトルベース分解ユニット27と、方向ベース分解ユニット28とを含む。以下で手短に説明するが、オーディオ符号化機器20に関するより多くの情報、及びHOA係数を圧縮又はさもなければ符号化する様々な態様は、2014年5月29に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」と題する国際特許出願公開第WO2014/194099号において入手可能である。
[0023]コンテンツ分析ユニット26は、HOA係数11がライブ記録から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを識別するために、HOA係数11のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の記録から生成されたか人工的なオーディオオブジェクトから生成されたかを決定し得る。幾つかの事例では、フレーム化されたHOA係数11が記録から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベース分解ユニット27に渡す。幾つかの事例では、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を方向ベース合成ユニット28に渡す。方向ベース合成ユニット28は、方向ベースビットストリーム21を生成するためにHOA係数11の方向ベース合成を実施するように構成されたユニットを表し得る。
[0024]図3Aの例に示されているように、ベクトルベース分解ユニット27は、線形可逆変換(LIT)ユニット30と、パラメータ計算ユニット32と、並べ替えユニット34と、フォアグラウンド選択ユニット36と、エネルギー補償ユニット38と、心理音響オーディオコーダユニット40と、ビットストリーム生成ユニット42と、音場分析ユニット44と、係数低減ユニット46と、バックグラウンド(BG)選択ユニット48と、空間時間的補間ユニット50と、Vベクトルコード化ユニット52とを含み得る。
[0025]線形可逆変換(LIT)ユニット30は、HOAチャネルの形態でHOA係数11を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連する係数(HOA[k]と示され得、ここで、kはサンプルの現在のフレーム又はブロックを示し得る)のブロック又はフレームを表す。HOA係数11の行列は、次元D:M×(N+1)2を有し得る。
[0026]LITユニット30は、特異値分解と呼ばれる形態の分析を実施するように構成されたユニットを表し得る。SVDに関して説明するが、本開示で説明する技法は、線形的に無相関な、エネルギー圧縮された出力のセットを提供する任意の同様の変換又は分解に対して実施され得る。また、本開示における「セット」への言及は、概して、別段に特に明記されていない限り、非0のセットを指すものであり、所謂「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「PCA」としばしば呼ばれる、主成分分析を備え得る。コンテキストに応じて、PCAは、幾つかの例を挙げれば、離散カルーネンレーベ変換、ホテリング変換、固有直交分解(POD)、及び固有値分解(EVD)など、幾つかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」及び「無相関化」である。
[0027]いずれにしても、LITユニット30が、例として、特異値分解(やはり「SVD」と呼ばれることがある)を実施すると仮定すると、LITユニット30は、HOA係数11を、変換されたHOA係数の2つ以上のセットに変換し得る。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含み得る。図3Aの例では、LITユニット30は、所謂V行列と、S行列と、U行列とを生成するために、HOA係数11に関してSVDを実施し得る。SVDは、線形代数学では、y×zの実行列又は複素行列X(ここで、Xは、HOA係数11などのマルチチャネルオーディオデータを表し得る)の因数分解を以下の形式で表し得る。
X=USA
Uはy×yの実ユニタリー行列又は複素ユニタリー行列を表し得、ここで、Uのy個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Sは、対角線上に非負実数をもつy×zの矩形対角行列を表し得、ここで、Sの対角線値は、マルチチャネルオーディオデータの特異値として知られる。V(Vの共役転置を示し得る)は、z×zの実ユニタリー行列又は複素ユニタリー行列を表し得、ここで、Vのz個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。
[0028]幾つかの例では、上で参照されたSVD数式中のV行列は、複素数を備える行列にSVDが適用され得ることを反映するために、V行列の共役転置行列として示される。実数のみを備える行列に適用されるとき、V行列の複素共役(即ち、言い換えれば、V行列)は、V行列の転置であると見なされ得る。以下では、説明を簡単にするために、HOA係数11が実数を備え、その結果、V行列ではなくV行列がSVDによって出力されると仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切な場合にはV行列の転置を指すものとして理解されるべきである。V行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するHOA係数11に適用され得、ここで、SVDの出力はV行列である。従って、本技法は、この点について、V行列を生成するためにSVDの適用を提供することのみに限定されるべきではなく、V*行列を生成するために複素成分を有するHOA係数11へのSVDの適用を含み得る。
[0029]このようにして、LITユニット30は、次元D:M×(N+1)2を有する(SベクトルとUベクトルとの組み合わされたバージョンを表し得る)US[k]ベクトル33と、次元D:(N+1)2×(N+1)2を有するV[k]ベクトル35とを出力するために、HOA係数11に関してSVDを実施し得る。US[k]行列中の個々のベクトル要素はXps(k)と呼ばれることもあり、一方、V[k]行列の個々のベクトルはv(k)と呼ばれることもある。
[0030]U行列、S行列及びV行列の分析は、それらの行列が、Xによって上で表された基礎をなす音場の空間的及び時間的特性を伝えるか又は表すということを明らかにし得る。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される時間期間の間は)時間の関数として、互いに直交しておりあらゆる空間特性(方向情報とも呼ばれ得る)とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的形状及び位置(r、θ、φ)を表す空間特性は、代わりに、(各々が(N+1)2の長さの)V行列中の個々のi番目のベクトル、v(i)(k)によって表され得る。v(i)(k)ベクトルの各々の個々の要素は、関連するオーディオオブジェクトについての音場の(幅を含む)形状と位置とを記述するHOA係数を表し得る。U行列中のベクトルとV行列中のベクトルの両方が、それらの2乗平均平方根のエネルギーが1に等しくなるように正規化される。従って、Uの中のオーディオ信号のエネルギーは、Sの中の対角線上の要素によって表される。UとSを乗算して(個々のベクトル要素XPS(k)をもつ)US[k]を形成することで、エネルギーをもつオーディオ信号が表される。(Uにおける)オーディオ時間信号と、(Sにおける)それらのエネルギーと、(Vにおける)それらの空間的特性とを切り離すSVD分解の能力は、本開示で説明する技法の様々な態様を支援し得る。更に、基礎をなすHOA[k]係数XをUS[k]とV[k]とのベクトル乗算によって合成するモデルは、本明細書全体にわたって使用される「ベクトルベース分解」という用語を生じさせる。
[0031]HOA係数11に関して直接実施されるものとして説明するが、LITユニット30は、線形可逆変換をHOA係数11の派生物に適用し得る。例えば、LITユニット30は、HOA係数11から導出された電力スペクトル密度行列に関してSVDを適用し得る。HOA係数自体ではなくHOA係数の電力スペクトル密度(PSD)に関してSVDを実施することによって、LITユニット30は、場合によっては、プロセッササイクルと記憶空間とのうちの1つ又は複数に関してSVDを実施することの計算複雑さを低減しつつ、SVDがHOA係数に直接適用されたかのように同じソースオーディオ符号化効率を達成し得る。
[0032]パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ、φ、r)、及びエネルギー特性(e)など、様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]及びe[k]として示され得る。パラメータ計算ユニット32は、パラメータを識別するために、US[k]ベクトル33に関してエネルギー分析及び/又は相関(もしくは所謂相互相関)を実施し得る。パラメータ計算ユニット32はまた、前のフレームのためのパラメータを決定し得、ここで、前のフレームパラメータは、US[k−1]ベクトル及びV[k−1]ベクトルの、前のフレームに基づいて、R[k−1]、θ[k−1]、φ[k−1]、r[k−1]及びe[k−1]と示され得る。パラメータ計算ユニット32は、現在のパラメータ37と前のパラメータ39とを並べ替えユニット34に出力し得る。
[0033]パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトの自然な評価又は時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット34によって使用され得る。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k−1]ベクトル33のためのパラメータ39の各々に対して順番ごとに比較し得る。
Figure 0006728065
[0034]音場分析ユニット44は、ターゲットビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実施するように構成されたユニットを表し得る。音場分析ユニット44は、その分析及び/又は受信されたターゲットビットレート41に基づいて、心理音響コーダのインスタンス化の総数(環境又はバックグラウンドチャネルの総数(BGTOT)と、フォアグラウンドチャネル、又は言い換えれば支配チャネルの数との関数であり得ることを決定し得る。心理音響コーダのインスタンス化の総数は、numHOATransportChannelsとして示され得る。
[0035]音場分析ユニット44はまた、やはりターゲットビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド(又は言い換えれば環境的な)音場の最小次数(NBG、又は代替的にMinAmbHOAorder)と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数(nBGa=(MinAmbHOAorder+1)2)と、送るべき追加のBG HOAチャネルのインデックス(i)(図3Aの例ではバックグラウンドチャネル情報43として総称的に示され得る)とを決定し得る。バックグラウンドチャネル情報42は環境チャネル情報43と呼ばれることもある。numHOATransportChannels−nBGaにないチャネルの各々は、「追加のバックグラウンド/環境チャネル」、「アクティブなベクトルベースの支配的チャネル」、「アクティブな方向ベースの支配的信号」又は「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、2ビットによって(「ChannelType」として)示されたシンタックス要素であり得る(例えば、00:方向ベースの信号、01:ベクトルベースの支配的信号、10:追加の環境信号、11:非アクティブな信号)。バックグラウンド信号又は環境信号の総数、nBGaは、(MinAmbHOAorder+1)2+(上記の例における)インデックス10がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。
[0036]音場分析ユニット44は、ターゲットビットレート41に基づいて、バックグラウンド(又は言い換えれば環境)チャネルの数と、フォアグラウンド(又は言い換えれば支配的)チャネルの数とを選択し、ターゲットビットレート41が比較的高いとき(例えば、ターゲットビットレート41が512Kbps以上であるとき)はより多くのバックグラウンドチャネル及び/又はフォアグラウンドチャネルを選択し得る。一態様では、ビットストリームのヘッダセクションにおいて、numHOATransportChannelsは8に設定され得るが、一方で、MinAmbHOAorderは1に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分又は環境部分を表すために4つのチャネルが確保され得るが、一方で、他の4つのチャネルは、フレームごとに、チャネルのタイプに応じて変化することができ、例えば、追加のバックグラウンド/環境チャネル又はフォアグラウンド/支配的チャネルのいずれかとして使用され得る。フォアグラウンド/支配的信号は、上記で説明したように、ベクトルベースの信号又は方向ベースの信号のいずれか1つであり得る。
[0037]幾つかの事例では、フレームのためのベクトルベースの支配的信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられ得る。上記の態様では、(例えば、10のChannelTypeに対応する)追加のバックグラウンド/環境チャネルごとに、(最初の4つ以外の)可能なHOA係数のうちのどれがそのチャネルにおいて表され得るかの対応する情報。その情報は、4次HOAコンテンツについては、HOA係数5〜25を示すためのインデックスであり得る。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときは常に送られ得、従って、オーディオ符号化機器は、5〜25のインデックスを有する追加の環境HOA係数のうちの1つを示すことのみが必要であり得る。その情報は従って、「CodedAmbCoeffIdx」として示され得る、(4次コンテンツのための)5ビットのシンタックス要素を使用して送られ得る。いずれの場合も、音場分析ユニット44は、バックグラウンドチャネル情報43とHOA係数11とをバックグラウンド(BG)選択ユニット36に、バックグラウンドチャネル情報43を係数低減ユニット46及びビットストリーム生成ユニット42に、ならびにnFG45をフォアグラウンド選択ユニット36に出力する。
[0038]バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(例えば、バックグラウンド音場(NBG)と、送信すべき追加のBG HOAチャネルの数(nBGa)及びインデックス(i))に基づいてバックグラウンド又は環境HOA係数47を決定するように構成されたユニットを表し得る。例えば、NBGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルのHOA係数11を選択し得る。バックグラウンド選択ユニット48は次いで、この例では、インデックス(i)のうちの1つによって識別されるインデックスを有するHOA係数11を、追加のBG HOA係数として選択し得、ここで、nBGaは、図4A及び図4Bの例に示されているオーディオ復号機器24などのオーディオ復号機器がビットストリーム21からバックグラウンドHOA係数47を構文解析(parse)することを可能にするために、ビットストリーム21において指定されるために、ビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力し得る。環境HOA係数47は、次元D:M×[(NBG+1)2+nBGa]を有し得る。環境HOA係数47はまた、「環境HOA係数47」と呼ばれることもあり、ここで、環境HOA係数47の各々は、心理音響オーディオコーダユニット40によって符号化されるべき別個の環境HOAチャネル47に対応する。
[0039]フォアグラウンド選択ユニット36は、(フォアグラウンドベクトルを識別する1つ又は複数のインデックスを表し得る)nFG45に基づいて、音場のフォアグラウンド成分又は明確な成分を表す、並べ替えられたUS[k]行列33’と、並べ替えられたV[k]行列35’とを選択するように構成されたユニットを表し得る。
Figure 0006728065
Figure 0006728065
[0040]エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOAチャネルの様々なチャネルの除去によるエネルギー損失を補償するために、環境HOA係数47に関してエネルギー補償を実施するように構成されたユニットを表し得る。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33’、並べ替えられたV[k]行列35’、nFG信号49、フォアグラウンドV[k]ベクトル51k及び環境HOA係数47のうちの1つ又は複数に関してエネルギー分析を実施し、次いで、エネルギー補償された環境HOA係数47’を生成するためにそのエネルギー分析に基づいてエネルギー補償を実施し得る。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47’を心理音響オーディオコーダユニット40に出力し得る。
[0041]空間時間的補間ユニット50は、k番目のフレームのためのフォアグラウンドV[k]ベクトル51kと、前のフレームのための(従ってk−1という表記である)フォアグラウンドV[k−1]ベクトル51k-1とを受信し、補間されたフォアグラウンドV[k]ベクトルを生成するために空間時間的補間を実施するように構成されたユニットを表し得る。空間時間的補間ユニット50は、並べ替えられたフォアグラウンドHOA係数を復元するために、nFG信号49をフォアグラウンドV[k]ベクトル51kと再び組み合わせ得る。空間時間的補間ユニット50は、次いで、補間されたnFG信号49’を生成するために、補間されたV[k]ベクトルによって、並べ替えられたフォアグラウンドHOA係数を分割し得る。空間時間的補間ユニット50はまた、オーディオ復号機器24などのオーディオ復号機器が補間されたフォアグラウンドV[k]ベクトルを生成しそれによってフォアグラウンドV[k]ベクトル51kを復元し得るように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kを出力し得る。補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]及びV[k−1]がエンコーダ及びデコーダにおいて(補間されたベクトルV[k]を作成するために)使用されることを保証するために、ベクトルの量子化/逆量子化されたバージョンがエンコーダ及びデコーダにおいて使用され得る。空間時間的補間ユニット50は、補間されたnFG信号49’を心理音響オーディオコーダユニット46に、及び補間されたフォアグラウンドV[k]ベクトル51kを係数低減ユニット46に出力し得る。
[0042]係数低減ユニット46は、低減されたフォアグラウンドV[k]ベクトル55をVベクトルコード化ユニット52に出力するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実施するように構成されたユニットを表し得る。低減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)2−(NBG+1)2−BGTOT]×nFGを有し得る。係数低減ユニット46は、この点において、残りのフォアグラウンドV[k]ベクトル53における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット46は、方向情報をほとんど又はまったく有しない(残りのフォアグラウンドV[k]ベクトル53を形成する)フォアグラウンドV[k]ベクトルにおける係数を除去するように構成されたユニットを表し得る。幾つかの例では、(NBGと示され得る)1次及び0次の基底関数に対応する、明確な、又は言い換えればフォアグラウンドV[k]ベクトルの係数は、方向情報をほとんど提供せず、従って、(「係数低減」と呼ばれ得るプロセスを通じて)フォアグラウンドVベクトルから除去され得る。この例では、対応する係数NBGを識別するだけではなく、(変数TotalOfAddAmbHOAChanによって示され得る)追加のHOAチャネルを[(NBG+1)2+1,(N+1)2]のセットから識別するために、より大きい柔軟性が与えられ得る。
[0043]Vベクトルコード化ユニット52は、コード化されたフォアグラウンドV[k]ベクトル57を生成するために低減されたフォアグラウンドV[k]ベクトル55を圧縮するための任意の形態の量子化を実施し、コード化されたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されたユニットを表し得る。動作中、Vベクトルコード化ユニット52は、音場の空間成分、即ちこの例では低減されたフォアグラウンドV[k]ベクトル55のうちの1つ又は複数を圧縮するように構成されたユニットを表し得る。Vベクトルコード化ユニット52は、「NbitsQ」と示される量子化モードシンタックス要素によって示される、以下の12個の量子化モードのいずれか1つを実施し得る。
NbitsQ値 量子化モードのタイプ
0〜3:予約済み
4: ベクトル量子化
5: ハフマンコード化なしのスカラー量子化
6: ハフマンコード化ありの6ビットスカラー量子化
7: ハフマンコード化ありの7ビットスカラー量子化
8: ハフマンコード化ありの8ビットスカラー量子化
... ...
16: ハフマンコード化ありの16ビットスカラー量子化
Vベクトルコード化ユニット52はまた、上記のタイプの量子化モードのいずれかの予測バージョンを実施し得、前のフレームのVベクトルの(又はベクトル量子化が実施されるときの重み)の要素と、現在のフレームのVベクトルの要素(又はベクトル量子化が実施されるときの重み)との間の差分が決定されル場所が決定される。Vベクトルコード化ユニット52は、次いで、現在のフレーム自体のVベクトルの要素の値ではなく、現在のフレームの要素又は重みと、前のフレームの要素又は重みとの間の差分を量子化し得る。
[0044]Vベクトルコード化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55の複数のコード化バージョンを取得するために、低減されたフォアグラウンドV[k]ベクトル55の各々に関して複数の形態の量子化を実施し得る。Vベクトルコード化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55のコード化バージョンのうちの1つを、コード化されたフォアグラウンドV[k]ベクトル57として選択し得る。Vベクトルコード化ユニット52は、言い換えれば、本開示で説明する基準の任意の組合せに基づいて、出力切替えされ量子化されたVベクトルとして使用するために、予測されないベクトル量子化されたVベクトル、予測されベクトル量子化されたVベクトル、ハフマンコード化されないスカラー量子化されたVベクトル、及びハフマンコード化されスカラー量子化されたVベクトルのうちの1つを選択し得る。
[0045]幾つかの例では、Vベクトルコード化ユニット52は、ベクトル量子化モードと1つ又は複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて(又はそれに従って)入力Vベクトルを量子化し得る。Vベクトルコード化ユニット52は、次いで、(例えば、重み値又はそれを示すビットに関して)予測されないベクトル量子化されたVベクトル、(例えば、誤差値又はそれを示すビットに関して)予測されベクトル量子化されたVベクトル、ハフマンコード化されないスカラー量子化されたVベクトル、及びハフマンコード化されスカラー量子化されたVベクトルのうちの選択されたものを、コード化されたフォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット52に与え得る。Vベクトルコード化ユニット52はまた、量子化モードを示すシンタックス要素(例えば、NbitsQシンタックス要素)と、Vベクトルを逆量子化又はさもなければ再構成するために使用される任意の他のシンタックス要素とを与え得る。
[0046]ベクトル量子化に関して、vベクトルコード化ユニット52は、コード化されたV[k]ベクトルを生成するために、コードベクトル63に基づいて、低減されたフォアグラウンドV[k]ベクトル55をコード化し得る。図3Aに示されているように、vベクトルコード化ユニット52は、幾つかの例では、コード化された重み57及びインデックス73を出力し得る。コード化された重み57及びインデックス73は、そのような例では、コード化されたV[k]ベクトルを一緒に表し得る。インデックス73は、コード化ベクトルの重み付き和におけるどのコードベクトルが、コード化された重み57における重みの各々に対応するかを表し得る。
[0047]低減されたフォアグラウンドV[k]ベクトル55をコード化するために、vベクトルコード化ユニット52は、幾つかの例では、コードベクトル63に基づいて、低減されたフォアグラウンドV[k]ベクトル55の各々をコードベクトルの重み付き和に分解し得る。コードベクトルの重み付き和は、複数の重みと複数のコードベクトルとを含み得、重みの各々の積の和を表し得、コードベクトルのうちのそれぞれ1つで乗算され得る。コードベクトルの重み付き和中に含まれる複数のコードベクトルは、vベクトルコード化ユニット52によって受信されるコードベクトル63に対応し得る。低減されたフォアグラウンドV[k]ベクトル55のうちの1つをコードベクトルの重み付き和に分解することは、コードベクトルの重み付き和中に含まれる重みのうちの1つ又は複数のための重み値を決定することを伴い得る。
[0048]コードベクトルの重み付き和中に含まれる重みに対応する重み値を決定した後に、vベクトルコード化ユニット52は、コード化された重み57を生成するために、重み値のうちの1つ又は複数をコード化し得る。幾つかの例では、重み値をコード化することは、重み値を量子化することを含み得る。更なる例では、重み値をコード化することは、重み値を量子化することと、量子化された重み値に関してハフマンコード化を実施することとを含み得る。追加の例では、重み値をコード化することは、いずれかのコード化技法を使用して、重み値、重み値を示すデータ、量子化された重み値、量子化された重み値を示すデータのうちの1つ又は複数をコード化することを含み得る。
[0049]幾つかの例では、コードベクトル63は正規直交ベクトルのセットであり得る。更なる例では、コードベクトル63は擬正規直交ベクトルのセットであり得る。追加の例では、コードベクトル63は、以下、即ち、方向ベクトルのセットと、直交方向ベクトルのセットと、正規直交方向ベクトルのセットと、偽正規直交方向ベクトルのセットと、擬直交方向ベクトルのセットと、方向基底ベクトルのセットと、直交ベクトルのセットと、擬直交ベクトルのセットと、球面調和基底ベクトルのセットと、正規化ベクトルのセットと、基底ベクトルのセットとのうちの1つ又は複数であり得る。コードベクトル63が方向ベクトルを含む例では、方向ベクトルの各々は、2D又は3D空間における方向又は方向性放射パターンに対応する方向性を有し得る。
[0050]幾つかの例では、コードベクトル63は、コードベクトル63の予め定義された及び/又は所定のセットであり得る。追加の例では、コードベクトルは、基礎をなすHOA音場係数に依存せず、及び/又は基礎をなすHOA音場係数に基づいて生成されないことがある。更なる例では、HOA係数の異なるフレームをコード化するとき、コードベクトル63は同じであり得る。追加の例では、HOA係数の異なるフレームをコード化するとき、コードベクトル63は異なり得る。追加の例では、コードベクトル63は、代替的にコードブックベクトル及び/又は候補コードベクトルと呼ばれることがある。
[0051]幾つかの例では、低減されたフォアグラウンドV[k]ベクトル55のうちの1つに対応する重み値を決定するために、vベクトルコード化ユニット52は、コードベクトルの重み付き和における重み値の各々について、それぞれの重み値を決定するために、低減されたフォアグラウンドV[k]ベクトルにコードベクトル63のうちのそれぞれ1つを乗算し得る。場合によっては、低減されたフォアグラウンドV[k]ベクトルにコードベクトルを乗算するために、Vベクトルコード化ユニット52は、それぞれの重み値を決定するために、低減されたフォアグラウンドV[k]ベクトルにコードベクトル63のうちのそれぞれ1つの転置を乗算し得る。
[0052]重みを量子化するために、vベクトルコード化ユニット52はどのようなタイプの量子化でも実施し得る。例えば、Vベクトルコード化ユニット52は、重み値に関してスカラー量子化、ベクトル量子化又は行列量子化を実施し得る。
[0053]幾つかの例では、コード化された重み57を生成するために重み値の全てをコード化する代わりに、vベクトルコード化ユニット52は、コード化された重み57を生成するために、コードベクトルの重み付き和中に含まれる重み値のサブセットをコード化し得る。例えば、vベクトルコード化ユニット52は、コードベクトルの重み付き和中に含まれる重み値のセットを量子化し得る。コードベクトルの重み付き和中に含まれる重み値のサブセットは、コードベクトルの重み付き和中に含まれる重み値の全セット中の重み値の数よりも小さい幾つかの重み値を有する重み値のセットを指し得る。
[0054]幾つかの例では、vベクトルコード化ユニット52は、様々な基準に基づいてコード化及び/又は量子化するためにコードベクトルの重み付き和中に含まれる重み値のサブセットを選択し得る。一例では、整数Nは、コードベクトルの重み付き和中に含まれる重み値の総数を表し得、vベクトルコード化ユニット52は、重み値のサブセットを形成するためにN個の重み値のセットからM個の最も大きい重み値(即ち、最大重み値)を選択し得、ここで、MはNよりも小さい整数である。このようにして、分解されたvベクトルに比較的大きい量を寄与するコードベクトルの寄与は維持され得るが、分解されたvベクトルに比較的小さい量を寄与するコードベクトルの寄与は、コード化効率を高めるために廃棄され得る。コード化及び/又は量子化のための重み値のサブセットを選択するために他の基準も使用され得る。
[0055]幾つかの例では、M個の最も大きい重み値は、最大値を有するN個の重み値のセットからのM個の重み値であり得る。更なる例では、M個の最も大きい重み値は、最大絶対値を有するN個の重み値のセットからのM個の重み値であり得る。
[00562]vベクトルコード化ユニット52が重み値のサブセットをコード化及び/又は量子化する例では、コード化された重み57は、重み値を示す量子化データに加えて、重み値のうちのどれが量子化及び/又はコード化のために選択されたかを示すデータを含み得る。幾つかの例では、重み値のうちのどれが量子化及び/又はコード化のために選択されたかを示すデータは、コードベクトルの重み付き和におけるコードベクトルに対応するインデックスのセットからの1つ又は複数のインデックスを含み得る。そのような例では、コード化及び/又は量子化のために選択された重みの各々について、コードベクトルの重み付き和における重み値に対応するコードベクトルのインデックス値がビットストリーム中に含まれ得る。
[0057]幾つかの例では、低減されたフォアグラウンドV[k]ベクトル55の各々は、次の式に基づいて表され得る。
Figure 0006728065
ここで、Ωjは、コードベクトルのセット({Ωj})におけるj番目のコードベクトルを表し、ωjは、重みのセット({ωj})におけるj番目の重みを表し、VFGは、vベクトルコード化ユニット52によって表され、分解及び/又はコード化されているvベクトルに対応する。式(1)の右辺は、重みのセット({ωj})とコードベクトルのセット({Ωj})とを含むコードベクトルの重み付き和を表し得る。
[0058]幾つかの例では、vベクトルコード化ユニット52は、次の式
Figure 0006728065
[0059]コードベクトルのセット({Ωj})が正規直交である例では、次の式が適用され得る。
Figure 0006728065
そのような例では、式(2)の右辺は次のように簡略化し得る。
Figure 0006728065
ここで、ωkは、コードベクトルの重み付き和におけるk番目の重みに対応する。
[0060]式(1)において使用されたコードベクトルの例示的な重み付き和では、vベクトルコード化ユニット52は、式(2)を使用して、コードベクトルの重み付き和における重みの各々のための重み値を計算し得、得られる重みは次のように表され得る。
Figure 0006728065
vベクトルコード化ユニット52が5個の最大重み値(即ち、最大値又は絶対ブラウ(vlaue)をもつ重み)を選択する一例を検討する。量子化されるべき重み値のサブセットは次のように表され得る。
Figure 0006728065
重み値のサブセットは、それらの対応するコードベクトルとともに、次の式に示されているように、vベクトルを推定するコードベクトルの重み付き和を形成するために使用され得る。
Figure 0006728065
[0061]vベクトルコード化ユニット52は、
Figure 0006728065
のように表され得る量子化された重み値を生成するために重み値のサブセットを量子化し得る。量子化された重み値は、それらの対応するコードベクトルとともに、次の式において示されるように、推定されたvベクトルの量子化されたバージョンを表すコードベクトルの重み付き和を形成するために使用され得る。
Figure 0006728065
[062](上記で説明されたものと大体は同等である)上記の代替的な言い換えは、次のようになり得る。Vベクトルは、コードベクトルの予め定義されたセットに基づいてコード化され得る。Vベクトルをコード化するために、各Vベクトルは、コードベクトルの重み付き和に分解される。コードベクトルの重み付き和は、予め定義されたコードベクトルと関連する重みとのk個のペアからなる。
Figure 0006728065
但し、Ωjは、予め定義されたコードベクトルのセット({Ωj})におけるj番目のコードベクトルを表し、ωjは、予め定義された重みのセット({ωj})におけるj番目の実数値の重みを表し、kは、最大7であり得る加数のインデックスに対応し、Vは、コード化されているVベクトルに対応する。kの選定はエンコーダに依存する。エンコーダが2つ以上のコードベクトルの重み付き和を選定した場合、エンコーダがその選定できる予め定義されたコードベクトルの総数は、(N+1)2であり、ここで、予め定義されたコードベクトルは、幾つかの例では、表F.2〜F.11からHOA拡張係数として導出される。Fとそれに続く期間及び番号とによって示される表への参照は、「Information Technology−High efficiency coding and media delivery in heterogeneous environments−Part 3:3D Audio」と題する、MPEG−H 3Dオーディオ規格のアネックスF、ISO/IEC JTC1/SC 29、2015−02−20(2015年2月20日)付け、ISO/IEC 23008−3:2015(E)、ISO/IEC JTC 1/SC 29/WG 11(ファイル名:ISO_IEC_23008−3(E)−Word_document_v33.doc)において指定された表を指す。
Figure 0006728065
[0064]重みωの数の符号は、
Figure 0006728065
として別個にコード化される。
Figure 0006728065
[0066]この点において、本技法は、オーディオ符号化機器20が、音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを可能にし得、空間成分は、複数の高次アンビソニック係数へのベクトルベースの合成の適用を通して取得される。
[0067その上、本技法は、オーディオ符号化機器20が、音場の空間成分に関してベクトル量子化を実施するときに使用されるべき複数のペアになったコードブックの間で選択することを可能にし得、空間成分は、複数の高次アンビソニック係数へのベクトルベースの合成の適用を通して取得される。
[0068]幾つかの例では、Vベクトルコード化ユニット52は、コードベクトルのセットに基づいて、複数の高次アンビソニック(HOA)係数の分解バージョン中に含まれるベクトルを表す1つ又は複数の重み値を決定し得る。重み値の各々は、ベクトルを表すコードベクトルの重み付き和中に含まれる複数の重みのうちのそれぞれ1つに対応し得る。
[0069]そのような例では、Vベクトルコード化ユニット52は、幾つかの例では、重み値を示すデータを量子化し得る。そのような例では、重み値を示すデータを量子化するために、Vベクトルコード化ユニット52は、幾つかの例では、量子化すべき重み値のサブセットを選択し、重み値の選択されたサブセットを示すデータを量子化し得る。そのような例では、Vベクトルコード化ユニット52は、幾つかの例では、重み値の選択されたサブセット中に含まれない重み値を示すデータを量子化しないことがある。
[0070]幾つかの例では、Vベクトルコード化ユニット52は、N個の重み値のセットを決定し得る。そのような例では、Vベクトルコード化ユニット52は、重み値のサブセットを形成するためにN個の重み値のセットからM個の最も大きい重み値を選択し得、但し、MはNをよりも小さい。
[0071]重み値を示すデータを量子化するために、Vベクトルコード化ユニット52は、重み値を示すデータに関して、スカラー量子化と、ベクトル量子化と、行列量子化とのうちの少なくとも1つを実施し得る。上述の量子化技法の追加又は代替として他の量子化技法も実施され得る。
[0072]重み値を決定するために、Vベクトルコード化ユニット52は、重み値の各々について、コードベクトル63のうちのそれぞれ1つに基づいてそれぞれの重み値を決定し得る。例えば、Vベクトルコード化ユニット52は、それぞれの重み値を決定するために、ベクトルにコードベクトル63のうちのそれぞれ1つを乗算し得る。場合によっては、Vベクトルコード化ユニット52は、それぞれの重み値を決定するために、ベクトルにコードベクトル63のうちのそれぞれ1つの転置を乗算することを伴い得る。
[0073]幾つかの例では、HOA係数の分解バージョンは、HOA係数の特異値分解バージョンであり得る。更なる例では、HOA係数の分解バージョンは、HOA係数の主成分分析された(PCA:principal component analyzed)バージョンと、HOA係数のカルーネンレーベ変換されたバージョンと、HOA係数のホテリング変換されたバージョンと、HOA係数の固有直交分解された(POD:proper orthogonal decomposed)バージョンと、HOA係数の固有値分解された(EVD:eigenvalue decomposed)バージョンとのうちの少なくとも1つであり得る。
[0074]更なる例では、コードベクトル63のセットは、方向ベクトルのセットと、直交方向ベクトルのセットと、正規直交方向ベクトルのセットと、偽正規直交方向ベクトルのセットと、擬直交方向ベクトルのセットと、方向基底ベクトルのセットと、直交ベクトルのセットと、正規直交ベクトルのセットと、擬正規直交ベクトルのセットと、擬直交ベクトルのセットと、球面調和基底ベクトルのセットと、正規化ベクトルのセットと、基底ベクトルのセットとのうちの少なくとも1つを含み得る。
[0075]幾つかの例では、Vベクトルコード化ユニット52は、Vベクトル(例えば、低減されたフォアグラウンドV[k]ベクトル)を表すために使用される重みを決定するために分解コードブックを使用し得る。例えば、Vベクトルコード化ユニット52は、候補分解コードブックのセットから分解コードブックを選択し、選択された分解コードブックに基づいてVベクトルを表す重みを決定し得る。
[0076]幾つかの例では、候補分解コードブックの各々は、Vベクトルを分解するために及び/又はVベクトルに対応する重みを決定するために使用され得るコードベクトル63のセットに対応し得る。言い換えれば、各異なる分解コードブックは、Vベクトルを分解するために使用され得るコードベクトル63の異なるセットに対応する。分解コードブック中の各エントリは、コードベクトルのセット中のベクトルのうちの1つに対応する。
[0077]分解コードブック中のコードベクトルのセットは、Vベクトルを分解するために使用されるコードベクトルの重み付き和中に含まれる全てのコードベクトルに対応し得る。例えば、コードベクトルのセットは、式(1)の右辺に示されたコードベクトルの重み付き和中に含まれるコードベクトル63のセット({Ωj})に対応し得る。この例では、コードベクトル63(即ち、Ωj)の各々は、分解コードブック中のエントリに対応し得る。
[0078]異なる分解コードブックは、幾つかの例では同じ数のコードベクトル63を有し得る。更なる例では、異なる分解コードブックは、異なる数のコードベクトル63を有し得る。
[0079]例えば、候補分解コードブックのうちの少なくとも2つは、異なる数のエントリ(即ち、この例ではコードベクトル63)を有し得る。別の例として、候補分解コードブックの全ては、異なる数のエントリ63を有し得る。更なる例として、候補分解コードブックのうちの少なくとも2つは、同じ数のエントリ63を有し得る。追加の例として、候補分解コードブックの全ては、同じ数のエントリ63を有し得る。
[0080]Vベクトルコード化ユニット52は、1つ又は複数の様々な基準に基づいて候補分解コードブックのセットから分解コードブックを選択し得る。例えば、Vベクトルコード化ユニット52は、各分解コードブックに対応する重みに基づいて分解コードブックを選択し得る。例えば、Vベクトルコード化ユニット52は、(例えば閾値誤差によって定義される)何らかのマージンの精度内でVベクトルを表すために幾つの重みが必要とされるかを決定するために、(Vベクトルを表す対応する重み付き和から)各分解コードブックに対応する重みの分析を実施し得る。Vベクトルコード化ユニット52は、最小数の重みを必要とする分解コードブックを選択し得る。追加の例では、Vベクトルコード化ユニット52は、基礎をなす音場の特性(例えば、人工的に作成される、自然に記録される、高度に拡散するなど)に基づいて分解コードブックを選択し得る。
[0081]選択されたコードブックに基づいて重み(即ち、重み値)を決定するために、Vベクトルコード化ユニット52は、重みの各々について、(例えば「WeightIdx」シンタックス要素によって識別される)それぞれの重みに対応するコードブックエントリ(即ち、コードベクトル)を選択し、選択されたコードブックエントリに基づいてそれぞれの重みの重み値を決定し得る。選択されたコードブックエントリに基づいて重み値を決定するために、Vベクトルコード化ユニット52は、幾つかの例では、重み値を生成するために、選択されたコードブックエントリによって指定されたコードベクトル63をVベクトルに乗算し得る。例えば、Vベクトルコード化ユニット52は、スカラー重み値を生成するために、選択されたコードブックエントリによって指定されたコードベクトル63の転置をVベクトルに乗算し得る。別の例として、重み値を決定するために式(2)が使用され得る。
[0082]幾つかの例では、分解コードブックの各々は、複数の量子化コードブックのうちのそれぞれ1つに対応し得る。そのような例では、Vベクトルコード化ユニット52が分解コードブックを選択するとき、Vベクトルコード化ユニット52は、分解コードブックに対応する量子化コードブックをも選択し得る。
[0083]Vベクトルコード化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55のうちの1つ又は複数をコード化するためにどの分解コードブックが選択されたかを示すデータ(例えば、CodebkIdxシンタックス要素)をビットストリーム生成ユニット42に提供し得、従って、ビットストリーム生成ユニット42は、得られたビットストリーム中にそのようなデータを含め得る。幾つかの例では、Vベクトルコード化ユニット52は、コード化されるべきHOA係数の各フレームのために使用すべき分解コードブックを選択し得る。そのような例では、Vベクトルコード化ユニット52は、各フレームをコード化するためにどの分解コードブックが選択されたかを示すデータ(例えば、CodebkIdxシンタックス要素)をビットストリーム生成ユニット42に提供し得る。幾つかの例では、どの分解コードブックが選択されたかを示すデータは、選択されたコードブックに対応するコードブックインデックス及び/又は識別値であり得る。
[0084]幾つかの例では、Vベクトルコード化ユニット52は、Vベクトル(例えば、低減されたフォアグラウンドV[k]ベクトル)を推定するために幾つの重みが使用されるべきであるかを示す数を選択し得る。Vベクトルを推定するために幾つの重みが使用されるべきであるかを示す数はまた、Vベクトルコード化ユニット52及び/又はオーディオ符号化機器20によって量子化及び/又はコード化されるべき重みの数を示し得る。Vベクトルを推定するために幾つの重みが使用されるべきであるかを示す数はまた、量子化及び/又はコード化されるべき重みの数と呼ばれることがある。これらの重みが対応するコードベクトル63の数として代替的に幾つの重みが表され得るかを示すこの数。従って、この数は、ベクトル量子化されたVベクトルを逆量子化するために使用されるコードベクトル63の数としても示され得、NumVecIndicesシンタックス要素によって示され得る。
[0085]幾つかの例では、Vベクトルコード化ユニット52は、特定のVベクトルのために決定された重み値に基づいて、その特定のVベクトルのために量子化及び/又はコード化されるべき重みの数を選択し得る。追加の例では、Vベクトルコード化ユニット52は、重みの1つ又は複数の特定の数を使用してVベクトルを推定することに関連する誤差に基づいて、特定のVベクトルのために量子化及び/又はコード化されるべき重みの数を選択し得る。
[0086]例えば、Vベクトルコード化ユニット52は、Vベクトルを推定することに関連する誤差の最大誤差閾値を決定し得、誤差を、幾つかの数の重みで推定される推定Vベクトルと、最大誤差閾値以下のVベクトルとの間にするために幾つの重みが必要とされるかを決定し得る。コードブックからのコードベクトルの全てよりも少ないものが重み付き和において使用される場合、推定ベクトルはコードベクトルの重み付き和に対応し得る。
[0087]幾つかの例では、Vベクトルコード化ユニット52は、次の式に基づいて、誤差を閾値未満にするために幾つの重みが必要とされるかを決定し得る。
Figure 0006728065
ここで、Ωiはi番目のコードベクトルを表し、ωiはi番目の重みを表し、VFGは、Vベクトルコード化ユニット52によって分解、量子化及び/又はコード化されているVベクトルに対応し、|x|αは値xのノルムであり、但し、αは、どのタイプのノルムが使用されるかを示す値である。例えば、α=1はL1ノルムを表し、α=2はL2ノルムを表す。図20は、本開示で説明する技法の様々な態様による、X*数のコードベクトルを選択するために使用される閾値誤差を示す例示的なグラフ700を示す図である。グラフ700は、コードベクトルの数が増加するにつれて誤差がどのように減少するかを示すライン702を含む。
[0088]上記の例では、インデックスiは、幾つかの例では、より大きい大きさ(例えば、より大きい絶対値)の重みが順序付きシーケンスにおいてより低い大きさ(例えば、より低い絶対値)の重みより前に発生するような順序シーケンスで重みをインデックス付けし得る。言い換えれば、ω1は最も大きい重み値を表し得、ω2は次に最も大きい重み値を表し得、以下同様である。同様に、ωxは最も低い重み値を表し得る。
[0089]Vベクトルコード化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55のうちの1つ又は複数をコード化するために幾つの重みが選択されたかを示すデータをビットストリーム生成ユニット42に提供し得、従って、ビットストリーム生成ユニット42は、得られたビットストリーム中にそのようなデータを含め得る。幾つかの例では、Vベクトルコード化ユニット52は、コード化されるべきHOA係数の各フレームについてVベクトルをコード化するために使用すべき重みの数を選択し得る。そのような例では、Vベクトルコード化ユニット52は、ビットストリーム生成ユニット42に対して選択された各フレームをコード化するために幾つの重みが選択されたかを示すデータをビットストリーム生成ユニット42に提供し得る。幾つかの例では、幾つの重みが選択されたかを示すデータは、コード化及び/又は量子化のために幾つの重みが選択されたかを示す数であり得る。
[0090]幾つかの例では、Vベクトルコード化ユニット52は、Vベクトル(例えば、低減されたフォアグラウンドV[k]ベクトル)を表す及び/又は推定するために使用される重みのセットを量子化するために量子化コードブックを使用し得る。例えば、Vベクトルコード化ユニット52は、候補量子化コードブックのセットから量子化コードブックを選択し、選択された量子化コードブックに基づいてVベクトルを量子化し得る。
[0091]幾つかの例では、候補量子化コードブックの各々は、重みのセットを量子化するために使用され得る候補量子化ベクトルのセットに対応し得る。重みのセットは、これらの量子化コードブックを使用して量子化されるべきである重みのベクトルを形成し得る。言い換えれば、各異なる量子化コードブックは、Vベクトルを量子化するために単一の量子化ベクトルがaそれから選択され得る、量子化ベクトルの異なるセットに対応する。
[0092]コードブック中の各エントリは候補量子化ベクトルに対応し得る。候補量子化ベクトルの各々中の成分の数は、幾つかの例では、量子化されるべき重みの数に等しくなり得る。
[0093]幾つかの例では、異なる量子化コードブックは、同じ数の候補量子化ベクトルを有し得る。更なる例では、異なる量子化コードブックは、異なる数の候補量子化ベクトルを有し得る。
[0094]例えば、候補量子化コードブックのうちの少なくとも2つは、異なる数の候補量子化ベクトルを有し得る。別の例として、候補量子化コードブックの全ては、異なる数の候補量子化ベクトルを有し得る。更なる例として、候補量子化コードブックのうちの少なくとも2つは、同じ数の候補量子化ベクトルを有し得る。追加の例として、候補量子化コードブックの全ては、同じ数の候補量子化ベクトルを有し得る。
[0095]Vベクトルコード化ユニット52は、1つ又は複数の様々な基準に基づいて候補量子化コードブックのセットから量子化コードブックを選択し得る。例えば、Vベクトルコード化ユニット52は、Vベクトルの重みを決定するために使用された分解コードブックに基づいてVベクトルのための量子化コードブックを選択し得る。別の例として、Vベクトルコード化ユニット52は、量子化されるべき重み値の確率分布に基づいてVベクトルのための量子化コードブックを選択し得る。他の例では、Vベクトルコード化ユニット52は、Vベクトルの重みを決定するために使用された分解コードブックの選択、及び(例えば、式14通りに)何らかの誤差閾値内でVベクトルを表すのに必要であると見なされた重みの数の組合せに基づいて、Vベクトルのための量子化コードブックを選択し得る。
[0096]選択された量子化コードブックに基づいて重みを量子化するために、Vベクトルコード化ユニット52は、幾つかの例では、選択された量子化コードブックに基づいてVベクトルを量子化するために使用すべき量子化ベクトルを決定し得る。例えば、Vベクトルコード化ユニット52は、Vベクトルを量子化するために使用すべき量子化ベクトルを決定するためにベクトル量子化(VQ)を実施し得る。
[0097]追加の例では、選択された量子化コードブックに基づいて重みを量子化するために、Vベクトルコード化ユニット52は、各Vベクトルについて、Vベクトルを表すために量子化ベクトルのうちの1つ又は複数を使用することに関連する量子化誤差に基づいて、選択された量子化コードブックから量子化ベクトルを選択し得る。例えば、Vベクトルコード化ユニット52は、量子化誤差を最小化する(例えば、最小2乗誤差を最小化する)、選択された量子化コードブックからの候補量子化ベクトルを選択し得る。
[0098]幾つかの例では、量子化コードブックの各々は、複数の分解コードブックのうちのそれぞれ1つに対応し得る。そのような例では、Vベクトルコード化ユニット52はまた、Vベクトルの重みを決定するために使用された分解コードブックに基づいて、Vベクトルに関連する重みのセットを量子化するための量子化コードブックを選択し得る。例えば、Vベクトルコード化ユニット52は、Vベクトルの重みを決定するために使用された分解コードブックに対応する量子化コードブックを選択し得る。
[0099]Vベクトルコード化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55のうちの1つ又は複数に対応する重みを量子化するためにどの量子化コードブックが選択されたかを示すデータをビットストリーム生成ユニット42に提供し得、従って、ビットストリーム生成ユニット42は、得られたビットストリーム中にそのようなデータを含め得る。幾つかの例では、Vベクトルコード化ユニット52は、コード化されるべきHOA係数の各フレームのために使用すべき量子化コードブックを選択し得る。そのような例では、Vベクトルコード化ユニット52は、各フレームにおいて重みを量子化するためにどの量子化コードブックが選択されたかを示すデータをビットストリーム生成ユニット42に提供し得る。幾つかの例では、どの量子化コードブックが選択されたかを示すデータは、選択されたコードブックに対応するコードブックインデックス及び/又は識別値であり得る。
[0100]オーディオ符号化機器20内に含まれる心理音響オーディオコーダユニット40は、心理音響オーディオコーダの複数のインスタンスを表し得、これらの各々は、エネルギー補償された環境HOA係数47’と補間されたnFG信号49’との各々の様々なオーディオオブジェクト又はHOAチャネルを符号化して、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために使用される。心理音響オーディオコーダユニット40は、符号化された環境HOA係数59と、符号化されたnFG信号61とをビットストリーム生成ユニット42に出力し得る。
[0101]オーディオ符号化機器20内に含まれるビットストリーム生成ユニット42は、(復号機器によって知られているフォーマットを指し得る)既知のフォーマットに適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。ビットストリーム21は、言い換えれば、上記で説明した方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット42は、幾つかの例ではマルチプレクサを表し得、マルチプレクサは、コード化されたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とを受信し得る。ビットストリーム生成ユニット42は、次いで、コード化されたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とに基づいてビットストリーム21を生成し得る。このようにして、それにより、ビットストリーム生成ユニット42は、ビットストリーム21を取得するために、ビットストリーム21中でベクトル57を指定し得る。ビットストリーム21は、主要又はメインビットストリームと、1つ又は複数のサイドチャネルビットストリームとを含み得る。
[0102]図3Aの例には示されないが、オーディオ符号化機器20はまた、現在のフレームが方向ベースの合成を使用して符号化されることになるかベクトルベースの合成を使用して符号化されることになるかに基づいて、オーディオ符号化機器20から出力されるビットストリームを(例えば、方向ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)方向ベースの合成が実施されたか、又は(HOA係数が記録されたことを検出した結果として)ベクトルベースの合成が実施されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実施し得る。ビットストリーム出力ユニットは、ビットストリーム21のうちのそれぞれ1つとともに現在のフレームのために使用される切替え又は現在の符号化を示すために、正しいヘッダシンタックスを指定し得る。
[0103]その上、上述したように、音場分析ユニット44は、フレームごとに変化し得る、BGTOT環境HOA係数47を識別し得る(が、時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定又は同じままであり得る)。BGTOTにおける変化は、低減されたフォアグラウンドV[k]ベクトル55において表される係数への変化を生じ得る。BGTOTにおける変化は、フレームごとに変化する(「環境HOA係数」と呼ばれることもある)バックグラウンドHOA係数を生じ得る(が、この場合も時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定又は同じままであり得る)。この変化は、追加の環境HOA係数の追加又は除去と、対応する、低減されたフォアグラウンドV[k]ベクトル55からの係数の除去又は低減されたフォアグラウンドV[k]ベクトル55に対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。
[0104]その結果、音場分析ユニット44は、いつ環境HOA係数がフレームごとに変化するかを更に決定し、音場の環境成分を表すために使用されることに関して、環境HOA係数への変化を示すフラグ又は他のシンタックス要素を生成し得る(ここで、この変化は、環境HOA係数の「遷移」又は環境HOA係数の「遷移」と呼ばれることもある)。特に、係数低減ユニット46は、(AmbCoeffTransitionフラグ又はAmbCoeffIdxTransitionフラグとして示され得る)フラグを生成し、そのフラグが(場合によってはサイドチャネル情報の一部として)ビットストリーム21中に含まれ得るように、そのフラグをビットストリーム生成ユニット42に与え得る。
[0105]係数低減ユニット46はまた、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドV[k]ベクトル55が生成される方法を修正し得る。一例では、環境HOA環境係数のうちの1つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット46は、遷移中の環境HOA係数に対応する低減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々について、(「ベクトル要素」又は「要素」と呼ばれることもある)ベクトル係数を指定し得る。この場合も、遷移中の環境HOA係数は、BGTOTからバックグラウンド係数の総数を追加又は除去し得る。従って、バックグラウンド係数の総数において生じた変化は、環境HOA係数がビットストリーム中に含まれるか含まれないか、及び、Vベクトルの対応する要素が、上記で説明した第2の構成モード及び第3の構成モードにおいてビットストリーム中で指定されたVベクトルのために含まれるかどうかに影響を及ぼす。係数低減ユニット46が、エネルギーの変化を克服するために、低減されたフォアグラウンドV[k]ベクトル55を指定し得る方法に関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS」と題する米国出願第14/594,533号において提供されている。
[0106]図3Bは、本開示で説明する技法の様々な態様を実施し得る、図3の例に示されたオーディオ符号化機器420の別の例をより詳細に示すブロック図である。図3Bに示されたオーディオ符号化機器420は、オーディオ符号化機器420中のvベクトルコード化ユニット52が並べ替えユニット34に重み値情報71をも提供することを除いて、オーディオ符号化機器20と同様である。
[0107]幾つかの例では、重み値情報71は、vベクトルコード化ユニット52によって計算された重み値のうちの1つ又は複数を含み得る。更なる例では、重み値情報71は、vベクトルコード化ユニット52による量子化及び/又はコード化のためにどの重みが選択されたかを示す情報を含み得る。追加の例では、重み値情報71は、vベクトルコード化ユニット52による量子化及び/又はコード化のためにどの重みが選択されなかったかを示す情報を含み得る。重み値情報71は、上述の情報項目の追加又は代替として、上述の情報項目ならびに他の項目のいずれかの任意の組合せを含み得る。
[0108]幾つかの例では、並べ替えユニット34は、重み値情報71に基づいて(例えば、重み値に基づいて)ベクトルを並べ替え得る。vベクトルコード化ユニット52が量子化及び/又はコード化すべき重み値のサブセットを選択する例では、並べ替えユニット34は、幾つかの例では、(重み値情報71によって示され得る)量子化又はコード化のために重み値のうちのどれが選択されたかに基づいてベクトルを並べ替え得る。
[0109]図4Aは、図2のオーディオ復号機器24をより詳細に示すブロック図である。図4Aの例に示されているように、オーディオ復号機器24は、抽出ユニット72と、方向ベース再構成ユニット90と、ベクトルベース再構成ユニット92とを含み得る。以下で説明するが、オーディオ復号機器24に関するより多くの情報、及びHOA係数を解凍又はさもなければ復号する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」と題する国際特許出願公開第WO2014/194099号において入手可能である。
[0110]抽出ユニット72は、ビットストリーム21を受信し、HOA係数11の様々な符号化バージョン(例えば、方向ベースの符号化バージョン又はベクトルベースの符号化バージョン)を抽出するように構成されたユニットを表し得る。抽出ユニット72は、HOA係数11が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述したシンタックス要素から決定し得る。方向ベース符号化が実施されたとき、抽出ユニット72は、HOA係数11の方向ベースバージョンと、符号化バージョンに関連するシンタックス要素(図4Aの例では方向ベース情報91として示される)とを抽出し、方向ベース情報91を方向ベース再構成ユニット90に渡し得る。方向ベース再構成ユニット90は、方向ベース情報91に基づいてHOA係数11’の形態でHOA係数を再構成するように構成されたユニットを表し得る。
[0111]ベクトルベース合成を使用してHOA係数11が符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、(コード化された重み57及び/又はインデックス73を含み得る)コード化されたフォアグラウンドV[k]ベクトルと、符号化された環境HOA係数59と、符号化されたnFG信号59とを抽出し得る。抽出ユニット72は、コード化された重み57を量子化ユニット74に渡し、符号化された環境HOA係数59を符号化されたnFG信号61とともに心理音響復号ユニット80に渡し得る。
[0112]コード化された重み57と、符号化された環境HOA係数59と、符号化されたnFG信号59とを抽出するために、抽出ユニット72は、CodedVVecLengthと示されるシンタックス要素を含む、を含むHOADecoderConfigコンテナを取得し得る。抽出ユニット72は、HOADecoderConfigコンテナからCodedVVecLengthを構文解析し得る。抽出ユニット72は、CodedVVecLengthシンタックス要素に基づいて、上記で説明した構成モードのいずれか1つにおいて動作するように構成され得る。
[0113]幾つかの例では、抽出ユニット72は、添付のセマンティクスに鑑みて理解されるVVectorDataのための以下のシンタックステーブルにおいて提示されるシンタックスとともに(ここで、シンタックステーブルの前のバージョンに対して、strikethorughは取消し線付きの主題の削除を示し、下線は下線付きの主題の追加を示す)、以下の擬似コードに提示されるスイッチ文に従って動作し得る。
Figure 0006728065
Figure 0006728065
VVectorData(VecSigChannelIds(i))
この構造は、ベクトルベースの信号合成のために使用される、コード化されたVベクトルデータを含んでいる。
VVec(k)[i] これは、i番目のチャネルのためのk番目のHOAframe()のためのVベクトルである。
VVecLength この変数は、読み出すべきベクトル要素の数を示す。
VVecCoeffId このベクトルは、送信されるVベクトル係数のインデックスを含んでいる。
VecVal 0と255との間の整数値。
aVal VVectorDataの復号中に使用される一時的な変数。
huffVal ハフマン復号されるべきハフマンコードワード。
sgnVal これは、復号中に使用されるコード化された符号値である。
intAddVal これは、復号中に使用される追加の整数値である。
NumVecIndices ベクトル量子化されたVベクトルを逆量子化するために使用されるベクトルの数。
WeightIdx ベクトル量子化されたVベクトルを逆量子化するために使用されるWeightValCdbkにおけるインデックス。
nbitsW ベクトル量子化されたVベクトルを復号するためにWeightIdxを読み取るためのフィールドサイズ。
WeightValCdbk 正の実数値の重み付け係数のベクトルを含んでいるコードブック。NumVecIndicesが1に設定された場合、16個のエントリをもつWeightValCdbkが使用され、そうでない場合、256個のエントリをもつWeightValCdbkが使用される。
VvecIdx ベクトル量子化されたVベクトルを逆量子化するために使用される、VecDictのためのインデックス。
nbitsIdx ベクトル量子化されたVベクトルを復号するために個々のVvecIdxを読み取るためのフィールドサイズ。
WeightVal ベクトル量子化されたVベクトルを復号するための実数値の重み付け係数。
[0114]前述のシンタックステーブルにおいて、4つのケース(ケース0〜3)を伴う第1のスイッチ文は、係数の数(VVecLength)及びインデックス(VVecCoeffId)に関してVT DISTベクトル長を決定するための方法を提供する。第1のケースであるケース0は、VT DISTベクトルの係数の全て(NumOfHoaCoeffs)が指定されることを示す。第2のケースであるケース1は、VT DISTベクトルの係数のうちでMinNumOfCoeffsForAmbHOAより大きい数に対応するもののみが指定されることを示し、これは上で(NDIST+1)2−(NBG+1)2と呼ばれるものを示し得る。更に、ContAddAmbHoaChanにおいて識別されるNumOfContAddAmbHoaChan係数が差し引かれる。リストContAddAmbHoaChanは、次数MinAmbHoaOrderを超える次数に対応する追加のチャネル(ここで「チャネル」はある次数と副次数の組合せに対応する特定の係数を指す)を指定する。第3のケースであるケース2は、VT DISTベクトルの係数のうちでMinNumOfCoeffsForAmbHOAより大きい数に対応するものが指定されることを示し、これは上で(NDIST+1)2−(NBG+1)2と呼ばれるものを示し得る。VVecLengthとVVecCoeffIdリストの両方が、HOAFrame内の全てのVVectorに対して有効である。
[0115]このスイッチ文の後に、ベクトル量子化を実施すべきか一様なスカラー逆量子化を実施すべきかの決定がNbitsQ(又は、上記に示されたように、nbits)によって制御され得る。以前は、(例えば、NbitsQが4に等しいとき)Vvectorを量子化するためにスカラー量子化のみが提案された。NBitsQが5に等しいとき、スカラー量子化は依然として行われるが、一例として、NbitsQが4に等しいとき、本開示で説明する技法に従ってベクトル量子化が実施され得る。
[0116]言い換えれば、強い方向性を有するHOA信号は、フォアグラウンドオーディオ信号及び対応する空間情報、即ち、本開示の例ではVベクトルによって表される。本開示で説明するVベクトルコード化技法では、各Vベクトルは、次の式によって与えられる予め定義された方向ベクトルの重み付き和によって表される。
Figure 0006728065
ここで、ωi及びΩiは、それぞれ、i番目の重み付け値及び対応する方向ベクトルである。
[0117]Vベクトルコード化の一例が図16に示されている。図16(a)に示されているように、元のVベクトルは、幾つかの方向ベクトルの混合によって表され得る。元のVベクトルは、次いで、図16(b)に示されているように重み付き和によって推定され得、ここで、重みベクトルは図16(e)に示されている。図16(c)及び図16(f)は、IS(IS≦I)個の最も高い重み付け値のみが選択される場合を示している。次いで、選択された重み付け値のためのベクトル量子化(VQ)が実施され得、結果が図16(d)及び図16(g)に示されている。
[0118]このvベクトルコード化方式の計算複雑さは次のように決定され得る。
0.06 MOPS (HOA order = 6) / 0.05 MOPS (HOA order = 5)及び
0.03 MOPS (HOA order = 4) / 0.02 MOPS (HOA order = 3).
ROM複雑さは、(HOA次数3、4、5及び6のために)16.29キロバイトとして決定され得、whiel、アルゴリズム遅延は0個のサンプルであると決定される。
[0119]上記で言及した3Dオーディオコード化規格の現在のバージョンへの必要とされる修正は、下線の使用によって上記で示されたVVectorDataシンタックステーブル内に示され得る。即ち、上記で言及したMPEG−H 3Dオーディオ提案規格のCDでは、Vベクトルコード化は、スカラー量子化(SQ)とともに、又はSQとそれに続くハフマンコード化とともに実施された。提案されるベクトル量子化(VQ)方法の所要ビットは従来のSQコード化方法よりも低くなり得る。12個の参照テスト項目について、平均の所要ビットは次の通りである。
SQ+ハフマン:16.25kbps
提案されるVQ:5.25kbps
節約されたビットは、知覚的オーディオコード化のための使用のために再利用され得る。
[0120]vベクトル再構成ユニット74は、言い換えれば、Vベクトルを再構成するために次の擬似コードに従って動作し得る。
Figure 0006728065
[0121]上記の疑似コードによれば(取消し線は取消し線付きの主題の削除を示す)、vベクトル再構成ユニット74は、CodedVVecLengthの値に基づいてスイッチ文の擬似コードに従ってVVecLengthを決定し得る。このVVecLengthに基づいて、vベクトル再構成ユニット74は、NbitsQ値を考慮する後続のif/elseif文を通して反復し得る。k番目のフレームのi番目のNbitsQ値が4に等しいとき、vベクトル再構成ユニット74は、ベクトル逆量子化が実施されるべきであると決定する。
[0122]cdbLenシンタックス要素は、NumVvecIndicies及びHOA次数に基づいて導出される、コードベクトルの辞書又はコードブックにおけるエントリの数を示す(ここで、この辞書は、上記のプスエドコードにおいて「VecDict」と示され、ベクトル量子化されたVベクトルを復号するために使用される、HOA拡張係数のベクトルを含んでいるcdbLen個のコードブックエントリをもつコードブックを表す)。NumVvecIndiciesの値が1に等しいとき、上記の表F.11において示された8×1個の重み付け値のコードブックとのコンジャンクションにおいて、上記の表F.8から抽出されたベクトルコードブックHOA拡張係数。NumVvecIndiciesの値が1よりも大きいとき、Oベクトルをもつベクトルコードブックが、上記の表F.12に示された256×8個の重み付け値と組み合わせて使用される。
[0123]上記ではサイズ256×8のコードブックを使用するものとして説明したが、異なる数の値を有する異なるコードブックが使用され得る。即ち、val0〜val7の代わりに、256個の行をもつコードブックが使用され得、各行は異なるインデックス値(インデックス0〜インデックス255)によってインデックス付けされ、val0〜val9(合計10個の値の場合)又はval0〜val15(合計16個の値の場合)などの異なる数の値を有する。図19A及び図19Bは、それぞれ、本開示で説明する技法の様々な態様に従って使用され得る10個の値及び16個の値を各行が有する、256個の行をもつコードブックを示す図である。
[0124]vベクトル再構成ユニット74は、重み値コードブック(「WeightValCdbk」と示され、これは、(上記のVVectorData(i)シンタックステーブルにおいて「CodebkIdx」と示される)コードブックインデックスと(上記のVVectorData(i)シンタックステーブルにおいて「WeightIdx」と示される)重みインデックスとのうちの1つ又は複数に基づいてインデックス付けされた多次元テーブルを表し得る)に基づいて、Vベクトルを再構成するために使用される各対応するコードベクトルのための重み値を導出し得る。このCodebkIdxシンタックス要素は、以下のChannelSideInfoData(i)シンタックステーブルにおいて示されるように、サイドチャネル情報の一部分において定義され得る。
Figure 0006728065
Figure 0006728065
[0125]上記の表における下線は、CodebkIdxの追加に対応するための既存のシンタックステーブルへの変更を示す。上記の表のためのセマンティクスは次の通りである。
このペイロードは、i番目のチャネルのためのサイド情報を保持する。ペイロードのサイズ及びデータはチャネルのタイプに依存する。
ChannelType[i] この要素は、表95において定義されているi番目のチャネルのタイプを記憶する。
ActiveDirsIds[i] この要素は、アネックスF.7からの900個の予め定義された一様に分布した点のインデックスを使用して、アクティブな方向信号の方向を示す。コードワード0は、方向信号の終了を信号伝達するために使用される。
PFlag[i] i番目のチャネルのベクトルベース信号に関連するスカラー量子化されたVベクトルのハフマン復号のために使用される予測フラグ。
CbFlag[i] i番目のチャネルのベクトルベース信号に関連するスカラー量子化されたVベクトルのハフマン復号のために使用されるコードブックフラグ。
CodebkIdx[i] i番目のチャネルのベクトルベース信号に関連するベクトル量子化されたVベクトルを逆量子化するために使用される特定のコードブックを信号伝達する。
NbitsQ[i] このインデックスは、i番目のチャネルのベクトルベース信号に関連するデータのハフマン復号のために使用されるハフマンテーブルを決定する。コードワード5は、一様8ビット逆量子化器の使用を決定する。2つのMSB00は、前のフレーム(k−1)のNbitsQ[i]データと、PFlag[i]データと、CbFlag[i]データとを再使用することを決定する。
bA、bB NbitsQ[i]フィールドのmsb(bA)及び第2のmsb(bB)。
uintC NbitsQ[i]フィールドの残りの2ビットのコードワード。
AddAmbHoaInfoChannel(i) このペイロードは、追加の環境HOA係数のための情報を保持する。
[0126]VVectorDataシンタックステーブルセマンティクスによれば、nbitsWシンタックス要素は、ベクトル量子化されたVベクトルを復号するためにWeightIdxを読み取るためのフィールドサイズを表し、一方、WeightValCdbkシンタックス要素は、正の実数値の重み付け係数のベクトルを含んでいるコードブックを表す。NumVecIndicesが1に設定された場合、8個のエントリをもつWeightValCdbkが使用され、そうでない場合、256個のエントリをもつWeightValCdbkが使用される。VVectorDataシンタックステーブルに従って、CodebkIdxが0に等しいとき、vベクトル再構成ユニット74は、nbitsWが3に等しく、WeightIdxが0〜7の範囲内の値を有することができると決定する。この事例では、コードベクトル辞書VecDictは、比較的大きい数のエントリ(例えば、900個)を有し、わずか8つのエントリを有する重みコードブックとペアになっている。CodebkIdxが0に等しくないとき、vベクトル再構成ユニット74は、nbitsWが8に等しく、WeightIdxが0〜255の範囲内の値を有することができると決定する。この事例では、VecDictは比較的より小さい数のエントリ(例えば、25個又は32個のエンタイア(entire))を有し、許容できる誤差を保証するために重みコードブックにおいて比較的より大きい数の重みが必要とされる(例えば、256個)。このようにして、本技法は、(使用されたペアになったVecDictと、重みコードブックとを参照する)ペアになったコードブックを提供し得る。次いで、(上記のVVectorDataシンタックステーブルにおいて「WeightVal」と示される)重み値が次のように計算され得る。
Figure 0006728065
このWeightValは、次いで、vベクトルを逆ベクトル量子化するために、上記のプスエドコードに従って対応するコードベクトルに適用され得る。
[0127]この点において、本技法は、オーディオ復号機器、例えば、オーディオ復号機器24が、音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを可能にし得、ベクトル量子化された空間成分は、複数の高次アンビソニック係数へのベクトルベースの合成の適用を通して取得される。
[0128]その上、本技法は、オーディオ復号機器24が、音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用されるべき複数のペアになったコードブックの間で選択することを可能にし得、ベクトル量子化された空間成分は、複数の高次アンビソニック係数へのベクトルベースの合成の適用を通して取得される。
[0129]NbitsQが5に等しいとき、一様な8ビットスカラー逆量子化が実施される。対照的に、6以上のNbitsQの値は、ハフマン復号の適用をもたらし得る。上記で言及したcid値は、NbitsQ値の2つの最下位ビットに等しくなり得る。上記で説明した予測モードは、上記のシンタックステーブルではPFlagとして示されるが、HT情報ビットは、上記のシンタックステーブルではCbFlagとして示される。残りのシンタックスは、上記で説明したのと実質的に同様の方法で復号がどのように行われるかを指定する。
[0130]ベクトルベース再構築ユニット92は、HOA係数11’を再構築するために、ベクトルベース合成ユニット27に関して上記で説明したものとは逆の演算を実施するように構成されたユニットを表す。ベクトルベース再構築ユニット92は、vベクトル再構成ユニット74と、空間時間的補間ユニット76と、フォアグラウンド編成ユニット78と、心理音響復号ユニット80と、HOA係数編成ユニット82と、並べ替えユニット84とを含み得る。
[0131]vベクトル再構成ユニット74は、コード化された重み57を受信し、低減されたフォアグラウンドV[k]ベクトル55kを生成し得る。vベクトル再構成ユニット74は、低減されたフォアグラウンドV[k]ベクトル55kを並べ替えユニット84に転送し得る。
[0132]例えば、vベクトル再構成ユニット74は、抽出ユニット72を介してビットストリーム21からコード化された重み57を取得し、コード化された重み57と1つ又は複数のコードベクトルとに基づいて、低減されたフォアグラウンドV[k]ベクトル55kを再構成し得る。幾つかの例では、コード化された重み57は、低減されたフォアグラウンドV[k]ベクトル55kを表すために使用されるコードベクトルのセット中の全てのコードベクトルに対応する重み値を含み得る。そのような例では、vベクトル再構成ユニット74は、コードベクトルの全セットに基づいて、低減されたフォアグラウンドV[k]ベクトル55kを再構成し得る。
[0133]コード化された重み57は、低減されたフォアグラウンドV[k]ベクトル55kを表すために使用されるコードベクトルのセットのサブセットに対応する重み値を含み得る。そのような例では、コード化された重み57は、低減されたフォアグラウンドV[k]ベクトル55kを再構成するために複数のコードベクトルのうちのどれを使用すべきかを示すデータを更に含み得、vベクトル再構成ユニット74は、低減されたフォアグラウンドV[k]ベクトル55kを再構成するためにそのようなデータによって示されるコードベクトルのサブセットを使用し得る。幾つかの例では、低減されたフォアグラウンドV[k]ベクトル55kを再構成するために複数のコードベクトルのうちのどれを使用すべきかを示すデータはインデックス57に対応し得る。
[0134]幾つかの例では、vベクトル再構成ユニット74は、複数のHOA係数の分解バージョン中に含まれるベクトルを表す複数の重み値を示すデータをビットストリームから取得し得、重み値とコードベクトルとに基づいてベクトルを再構成し得る。重み値の各々は、ベクトルを表すコードベクトルの重み付き和における複数の重みのうちのそれぞれ1つに対応し得る。
[0135]幾つかの例では、ベクトルを再構成するために、vベクトル再構成ユニット74は、コードベクトルが重み値によって重み付けされるコードベクトルの重み付き和を決定し得る。更なる例では、ベクトルを再構成するために、vベクトル再構成ユニット74は、重み値の各々について、重み値にコードベクトルのうちのそれぞれ1つを乗算して、複数の重み付けされたコードベクトル中に含まれるそれぞれの重み付けされたコードベクトルを生成し、複数の重み付けされたコードベクトルを合計してベクトルを決定し得る。
[0136]幾つかの例では、vベクトル再構成ユニット74は、ベクトルを再構成するために複数のコードベクトルのうちのどれを使用すべきかを示すデータをビットストリームから取得し、重み値(例えば、CodebkIdxとWeightIdxシンタックス要素とに基づいてWeightValCdbkから導出されるWeightVal要素)と、コードベクトルと、ベクトルを再構成するために(例えばNumVecIndicesに加えてVVecIdxシンタックス要素によって識別される)複数のコードベクトルのうちのどれを使用すべきかを示すデータとに基づいてベクトルを再構成し得る。そのような例では、ベクトルを再構成するために、vベクトル再構成ユニット74は、幾つかの例では、ベクトルを再構成するために複数のコードベクトルのうちのどれを使用すべきかを示すデータに基づいてコードベクトルのサブセットを選択し、重み値とコードベクトルの選択されたサブセットとに基づいてベクトルを再構成し得る。
[0137]そのような例では、重み値とコードベクトルの選択されたサブセットとに基づいてベクトルを再構成するために、vベクトル再構成ユニット74は、重み値の各々について、コードベクトルのサブセット中のコードベクトルのうちのそれぞれ1つを重み値に乗算してそれぞれの重み付けされたコードベクトルを生成し、複数の重み付けされたコードベクトルを合計してベクトルを決定し得る。
[0138]心理音響復号ユニット80は、符号化された環境HOA係数59と符号化されたnFG信号61とを復号し、それによってエネルギー補償された環境HOA係数47’と補間されたnFG信号49’(補間されたnFGオーディオオブジェクト49’とも呼ばれることがある)とを生成するために、図4Aの例に示される心理音響オーディオコード化ユニット40とは逆の方法で動作し得る。互いに別個であるものとして示されているが、符号化された環境HOA係数59及び符号化されたnFG信号61は互いに別個でないことがあり、代わりに、図4Bに関して以下で説明するように、符号化チャネルとして指定され得る。心理音響復号ユニット80は、符号化された環境HOA係数59及び符号化されたnFG信号61が符号化チャネルとして一緒に指定されたとき、符号化チャネルを復号して復号チャネルを取得し、次いで、復号チャネルに関してある形態のチャネル再割当てを実施して、エネルギー補償された環境HOA係数47’及び補間されたnFG信号49’を取得し得る。
[0139]言い換えれば、心理音響復号ユニット80は、フレームXps(k)として示され得る、全ての支配的音信号の補間されたnFG信号49’と、フレームCI,AMB(k)として示され得る、環境HOA成分の中間表現を表すエネルギー補償された環境HOA係数47’とを取得し得る。心理音響復号ユニット80は、ビットストリーム21又は29において指定されたシンタックス要素に基づいてこのチャネル再割当てを実施し得、これは、各トランスポートチャネルについて、環境HOA成分の場合によっては含まれている係数シーケンスのインデックスと、アクティブなVベクトルのセットを示す他のシンタックス要素とを指定する割当てベクトルを含み得る。いずれの場合も、心理音響復号ユニット80は、エネルギー補償された環境HOA係数47’をHOA係数編成ユニット82に渡し、nFG信号49’を並べ替え84に渡し得る。
[0140]言い換えれば、心理音響復号ユニット80は、フレームXps(k)として示され得る、全ての支配的音信号の補間されたnFG信号49’と、フレームCI,AMP(k)として示され得る、環境HOA成分の中間表現を表すエネルギー補償された環境HOA係数47’とを取得し得る。心理音響復号ユニット80は、ビットストリーム21又は29において指定されたシンタックス要素に基づいてこのチャネル再割当てを実施し得、これは、各トランスポートチャネルについて、環境HOA成分の場合によっては含まれている係数シーケンスのインデックスと、アクティブなVベクトルのセットを示す他のシンタックス要素とを指定する割当てベクトルを含み得る。いずれの場合も、心理音響復号ユニット80は、エネルギー補償された環境HOA係数47’をHOA係数編成ユニット82に渡し、nFG信号49’を並べ替え84に渡し得る。
[0141]上記のことを言い換えると、HOA係数は、上記で説明した方法でベクトルベースの信号から再編成され得る。MVEC(k)を生成するために、各Vベクトルに関して最初にスカラー逆量子化が実施され得、
Figure 0006728065
Vベクトルは、上記で説明したように、(特異値分解、主成分分析、カルーネンレーベ変換、ホテリング変換、固有直交分解又は固有値分解などの)線形可逆変換を使用してHOA係数から分解されていることがある。分解はまた、特異値分解の場合、US[k]を形成するために組み合わされ得る、S[k]ベクトルとU[k]ベクトルとを出力する。US[k]行列中の個々のベクトル要素はXPS(k,1)として示され得る。
Figure 0006728065
[0143]図4Bは、オーディオ復号機器24の別の例をより詳細に示すブロック図である。オーディオ復号機器24の図4Bに示された例はオーディオ復号機器24’として示されている。オーディオ復号機器24’は、オーディオ復号機器24’の心理音響復号ユニット902が上記で説明したチャネル再割当てを実施しないことを除いて、図4Aの例に示されたオーディオ復号機器24と実質的に同様である。代わりに、オーディオ符号化機器24’は、上記で説明したチャネル再割当てを実施する別個のチャネル再割当てユニット904を含む。図4Bの例では、心理音響復号ユニット902は、符号化チャネル900を受信し、復号チャネル901を取得するために符号化チャネル900に関して心理音響復号を実施する。心理音響復号ユニット902は、復号チャネル901をチャネル再割当てユニット904に出力し得る。チャネル再割当てユニット904は、次いで、エネルギー補償された環境HOA係数47’及び補間されたnFG信号49’を取得するために、復号チャネル901に関して上記で説明したチャネル再割当てを実施し得る。
[0144]空間時間的補間ユニット76は、空間時間的補間ユニット50に関して上記で説明したのと同様の方法で動作し得る。空間時間的補間ユニット76は、低減されたフォアグラウンドV[k]ベクトル55kを受信し、また、補間されたフォアグラウンドV[k]ベクトル55k’’を生成するために、フォアグラウンドV[k]ベクトル55k及び低減されたフォアグラウンドV[k−1]ベクトル55k-1に関して空間時間的補間を実施し得る。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送し得る。
[0145]抽出ユニット72はまた、いつ環境HOA係数のうちの1つが遷移中であるかを示す信号757をフェードユニット770に出力し得、フェードユニット770は、次いで、SCHBG47’(ここで、SCHBG47’は「環境HOAチャネル47’」又は「環境HOA係数47’」と呼ばれることもある)と、補間されたフォアグラウンドV[k]ベクトル55k’’の要素とのうちのいずれがフェードイン又はフェードアウトのいずれかを行われるべきであるかを決定し得る。幾つかの例では、フェードユニット770は、環境HOA係数47’と補間されたフォアグラウンドV[k]ベクトル55k’’の要素との各々に関して、反対に動作し得る。即ち、フェードユニット770は、環境HOA係数47’のうちの対応する1つに関して、フェードインもしくはフェードアウト、又はフェードインもしくはフェードアウトの両方を実施し得、一方で、補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちの対応する1つに関して、フェードインもしくはフェードアウト、又はフェードインとフェードアウトの両方を実施し得る。フェードユニット770は、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55k’’’をフォアグラウンド編成ユニット78に出力し得る。この点において、フェードユニット770は、HOA係数又はそれの派生物の様々な態様に関して、例えば、環境HOA係数47’と補間されたフォアグラウンドV[k]ベクトル55k’’の要素との形態で、フェード演算を実施するように構成されたユニットを表す。
[0146]フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を生成するために、調整されたフォアグラウンドV[k]ベクトル55k’’’と補間されたnFG信号49’とに関して行列乗算を実施するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット78は、HOA係数11’のフォアグラウンド態様、又は言い換えれば、支配的態様を再構成するために、(補間されたnFG信号49’を示すための別の方法である)オーディオオブジェクト49’をベクトル55k’’’と組み合わせ得る。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k’’’によって、補間されたnFG信号49’の行列乗算を実施し得る。
[0147]HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、HOA係数11’がHOA係数11と同様であるが同じではないことがあることを反映している。HOA係数11とHOA係数11’との間の差分は、損失のある送信媒体を介した送信、量子化、又は他の損失のある演算が原因の損失に起因し得る。
[0148]図5は、本開示で説明するベクトルベースの合成技法の様々な態様を実施する際の、図3Aの例に示されるオーディオ符号化機器20などのオーディオ符号化機器の例示的な動作を示すフローチャートである。最初に、オーディオ符号化機器20がHOA係数11を受信する(106)。オーディオ符号化機器20はLITユニット30を呼び出し得、LITユニット30は、変換されたHOA係数(例えば、SVDの場合、変換されたHOA係数はUS[k]ベクトル33とV[k]ベクトル35とを備え得る)を出力するためにHOA係数に関してLITを適用し得る(107)。
[0149]オーディオ符号化機器20は、次に、上記で説明した方法で様々なパラメータを識別するために、US[k]ベクトル33、US[k−1]ベクトル33、V[k]及び/又はV[k−1]ベクトル35の任意の組合せに関して上記で説明した分析を実施するために、パラメータ計算ユニット32を呼び出し得る。即ち、パラメータ計算ユニット32は、変換されたHOA係数33/35の分析に基づいて少なくとも1つのパラメータを決定し得る(108)。
[0150]オーディオ符号化機器20は次いで並べ替えユニット34を呼び出し得、並べ替えユニット34は、上記で説明したように、並べ替えられた変換されたHOA係数33’/35’(又は言い換えれば、US[k]ベクトル33’及びV[k]ベクトル35’)を生成するために、パラメータに基づいて変換されたHOA係数(これはやはり、SVDのコンテキストでは、US[k]ベクトル33とV[k]ベクトル35とを指し得る)を並べ替え得る(109)。オーディオ符号化機器20はまた、前述の演算又は後続の演算のいずれかの間に、音場分析ユニット44を呼び出し得る。音場分析ユニット44は、上記で説明したように、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド音場の次数(NBG)と、(図3Aの例ではバックグラウンドチャネル情報43としてまとめて示され得る)送るべき追加のBG HOAチャネルの数(nBGa)及びインデックス(i)とを決定するために、HOA係数11及び/又は変換されたHOA係数33/35に関して音場分析を実施し得る(109)。
[0151]オーディオ符号化機器20はまた、バックグラウンド選択ユニット48を呼び出し得る。バックグラウンド選択ユニット48は、バックグラウンドチャネル情報43に基づいてバックグラウンド又は環境HOA係数47を決定し得る(110)。オーディオ符号化機器20は更に、フォアグラウンド選択ユニット36を呼び出し得、フォアグラウンド選択ユニット36は、(フォアグラウンドベクトルを識別する1つ又は複数のインデックスを表し得る)nFG45に基づいて、音場のフォアグラウンド成分又は明確な成分を表す、並べ替えられたUS[k]ベクトル33’と並べ替えられたV[k]ベクトル35’とを選択し得る(112)。
[0152]オーディオ符号化機器20はエネルギー補償ユニット38を呼び出し得る。エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOA係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境HOA係数47に関してエネルギー補償を実施し(114)、それによって、エネルギー補償された環境HOA係数47’を生成し得る。
[0153]オーディオ符号化機器20はまた、空間時間的補間ユニット50を呼び出し得る。空間時間的補間ユニット50は、補間されたフォアグラウンド信号49’(「補間されたnFG信号49’」と呼ばれることもある)と、残りのフォアグラウンド方向情報53(「V[k]ベクトル53」と呼ばれることもある)とを取得するために、並べ替えられた変換されたHOA係数33’/35’に関して空間時間的補間を実施し得る(116)。オーディオ符号化機器20は、次いで、係数低減ユニット46を呼び出し得る。係数低減ユニット46は、低減されたフォアグラウンド方向情報55(低減されたフォアグラウンドV[k]ベクトル55と呼ばれこともある)を取得するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実施し得る(118)。
[0154]オーディオ符号化機器20は、次いで、上記で説明した方法で、低減されたフォアグラウンドV[k]ベクトル55を圧縮し、コード化されたフォアグラウンドV[k]ベクトル57を生成するために、Vベクトルコード化ユニット52を呼び出し得る(120)。
[0155]オーディオ符号化機器20はまた、心理音響オーディオコーダユニット40を呼び出し得る。心理音響オーディオコーダユニット40は、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために、エネルギー補償された環境HOA係数47’と、補間されたnFG信号49’との各ベクトルを心理音響コード化し得る。オーディオ符号化機器は、次いで、ビットストリーム生成ユニット42を呼び出し得る。ビットストリーム生成ユニット42は、コード化されたフォアグラウンド方向情報57と、コード化された環境HOA係数59と、コード化されたnFG信号61と、バックグラウンドチャネル情報43とに基づいてビットストリーム21を生成し得る。
[0156]図6は、本開示で説明する技法の様々な態様を実施する際の、図4Aに示されるオーディオ復号機器24などのオーディオ復号機器の例示的な動作を示すフローチャートである。最初に、オーディオ復号機器24はビットストリーム21を受信し得る(130)。ビットストリームを受信すると、オーディオ復号機器24は抽出ユニット72を呼び出し得る。説明の目的で、ベクトルベース再構成が実施されるべきであることをビットストリーム21が示すと仮定すると、抽出機器72は、上述した情報を取り出すためにビットストリームを構文解析し、その情報をベクトルベース再構成ユニット92に渡し得る。
[0157]言い換えれば、抽出ユニット72は、コード化されたフォアグラウンド方向情報57(この場合も、コード化されたフォアグラウンドV[k]ベクトル57と呼ばれることもある)と、コード化された環境HOA係数59と、コード化されたフォアグラウンド信号(コード化されたフォアグラウンドnFG信号59又はコード化されたフォアグラウンドオーディオオブジェクト59と呼ばれることもある)とを、上記で説明した方法でビットストリーム21から抽出し得る(132)。
[0158]オーディオ復号機器24は更に、逆量子化ユニット74を呼び出し得る。逆量子化ユニット74は、低減されたフォアグラウンド指向性情報55kを取得するために、コード化されたフォアグラウンド方向情報57をエントロピー復号し、逆量子化し得る(136)。オーディオ復号機器24はまた、心理音響復号ユニット80を呼び出し得る。心理音響オーディオ復号ユニット80は、エネルギー補償された環境HOA係数47’と補間されたフォアグラウンド信号49’とを取得するために、符号化された環境HOA係数59と符号化されたフォアグラウンド信号61とを復号し得る(138)。心理音響復号ユニット80は、エネルギー補償された環境HOA係数47’をフェードユニット770に渡し、nFG信号49’をフォアグラウンド編成ユニット78に渡し得る。
[0159]オーディオ復号機器24は次に、空間時間的補間ユニット76を呼び出し得る。空間時間的補間ユニット76は、並べ替えられたフォアグラウンド方向情報55k’を受信し、また、補間されたフォアグラウンド方向情報55k’’を生成するために、低減されたフォアグラウンド方向情報55k/55k-1に関して空間時間的補間を実施し得る(140)。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送し得る。
[0160]オーディオ復号機器24はフェードユニット770を呼び出し得る。フェードユニット770は、エネルギー補償された環境HOA係数47’がいつ遷移中であるかを示すシンタックス要素(例えば、AmbCoeffTransitionシンタックス要素)を(例えば、抽出ユニット72から)受信又はさもなければ取得し得る。フェードユニット770は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境HOA係数47’をフェードイン又はフェードアウトし、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力し得る。フェードユニット770はまた、シンタックス要素と維持された遷移状態情報とに基づいて、補間されたフォアグラウンドV[k]ベクトル55k’’の対応する1つ又は複数の要素をフェードアウト又はフェードインし、調整されたフォアグラウンドV[k]ベクトル55k’’’をフォアグラウンド編成ユニット78に出力し得る(142)。
[0161]オーディオ復号機器24はフォアグラウンド編成ユニット78を呼び出し得る。フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を取得するために、調整されたフォアグラウンド方向情報55k’’’による行列乗算nFG信号49’を実施し得る(144)。オーディオ復号機器24はまた、HOA係数編成ユニット82を呼び出し得る。HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に加算し得る(146)。
[0162]図7は、図3Aのオーディオ符号化機器20において使用され得る例示的なvベクトルコード化ユニット52をより詳細に示すブロック図である。vベクトルコード化ユニット52は、分解ユニット502と量子化ユニット504とを含む。分解ユニット502は、コードベクトル63に基づいて低減されたフォアグラウンドV[k]ベクトル55の各々をコードベクトルの重み付き和に分解し得る。分解ユニット502は、重み506を生成し、重み506を量子化ユニット504に提供し得る。量子化ユニット504は、重み506を量子化して、コード化された重み57を生成し得る。
[0163]図8は、図3Aのオーディオ符号化機器20において使用され得る例示的なvベクトルコード化ユニット52をより詳細に示すブロック図である。vベクトルコード化ユニット52は、分解ユニット502と、重み選択ユニット510と、量子化ユニット504とを含む。分解ユニット502は、コードベクトル63に基づいて低減されたフォアグラウンドV[k]ベクトル55の各々をコードベクトルの重み付き和に分解し得る。分解ユニット502は、重み514を生成し、重み514を重み選択ユニット510に提供し得る。重み選択ユニット510は、重み514のサブセットを選択して重み516の選択されたサブセットを生成し、重み516の選択されたサブセットを量子化ユニット504に提供し得る。量子化ユニット504は、重み516の選択されたサブセットを量子化して、コード化された重み57を生成し得る。
[0164]図9は、vベクトルから生成される音場を示す概念図である。図10は、図9に関して上記で説明したvベクトルの25次モデルから生成される音場を示す概念図である。図11は、図10に示された25次モデルのための各次数の重み付けを示す概念図である。図12は、図9に関して上記で説明したvベクトルの5次モデルを示す概念図である。図13は、図12に示された5次モデルのための各次数の重み付けを示す概念図である。
[0165]図14は、特異値分解を実施するために使用される例示的な行列の例示的な次元を示す概念図である。図14に示されているように、UFG行列はU行列中に含まれ、SFG行列はS行列中に含まれ、VFG T行列は、VT行列中に含まれる。
[0166]図14の例示的な行列では、UFG行列は次元1280×2を有し、ここで、1280はサンプルの数に対応し、2は、フォアグラウンドコード化のために選択されたフォアグラウンドベクトルの数に対応する。U行列は1280×25の次元を有し、ここで、1280はサンプルの数に対応し、25はHOAオーディオ信号中のチャネルの数に対応する。チャネルの数は(N+1)2に等しくなり得、ここで、NはHOAオーディオ信号の次数に等しい。
[0167]SFG行列は次元2×2を有し、ここで、各2は、フォアグラウンドコード化のために選択されたフォアグラウンドベクトルの数に対応する。S行列は25×25の次元を有し、ここで、各25はHOAオーディオ信号中のチャネルの数に対応する。
[0168]VFG T行列は次元25×2を有し、ここで、25はHOAオーディオ信号中のチャネルの数に対応し、2は、フォアグラウンドコード化のために選択されたフォアグラウンドベクトルの数に対応する。VT行列は25×25の次元を有し、ここで、各25はHOAオーディオ信号中のチャネルの数に対応する。
[0169]図14に示されているように、UFG行列、SFG行列、及びVFG T行列は互いに乗算されてHFG行列が生成され得る。HFG行列は1280×25の次元を有し、ここで、1280はサンプルの数に対応し、25はHOAオーディオ信号中のチャネルの数に対応する。
[0170]図15は、本開示のvベクトルコード化技法を使用することによって取得され得る例示的な性能改善を示すチャートである。各行はテスト項目を表し、列は、左から右に、テスト項目番号と、テスト項目名と、テスト項目に関連するビット毎フレームと、本開示の例示的なvベクトルコード化技法のうちの1つ又は複数を使用するビットレートと、他のvベクトルコード化技法(例えば、vベクトルを分解することなしにvベクトル成分をスカラー量子化すること)を使用して取得されるビットレートとを示す。図15に示されているように、本開示の技法は、幾つかの例では、vベクトルを重みに分解し及び/又は量子化すべき重みのサブセットを選択しない他の技法に対してビットレートの著しい改善を提供し得る。
[0171]幾つかの例では、本開示の技法は、方向ベクトルのセットに基づいてVベクトル量子化を実施し得る。Vベクトルは方向ベクトルの重み付き和によって表され得る。幾つかの例では、互いに正規直交である方向ベクトルの所与のセットについて、vベクトルコード化ユニット52は、各方向ベクトルのための重み付け値を計算し得る。vベクトルコード化ユニット52は、N個の最大重み付け値{w_i}と、対応する方向ベクトル{o_i}とを選択し得る。vベクトルコード化ユニット52は、選択された重み付け値及び/又は方向ベクトルに対応するインデックス{i}をデコーダに送信し得る。幾つかの例では、最大値を計算するとき、vベクトルコード化ユニット52は、(符号情報を無視することによって)絶対値を使用し得る。vベクトルコード化ユニット52は、N個の最大重み付け値{w_i}を量子化して、量子化された重み付け値{w^_i}を生成し得る。vベクトルコード化ユニット52は、{w^_i}のための量子化インデックスをデコーダに送信し得る。デコーダにおいて、量子化されたVベクトルはsum_i(w^_i*o_i)として合成され得る。
[0172]幾つかの例では、本開示の技法は性能の著しい改善を提供し得る。例えば、ハフマンコード化を伴うスカラー量子化を使用することと比較して、約85%のビットレート低減が取得され得る。例えば、ハフマンコード化を伴うスカラー量子化は、幾つかの例では、16.26kbps(キロビット/秒)のビットレートを必要とし得るが、本開示の技法は、幾つかの例では、2.75kbspのビットレートでコード化することが可能であり得る。
[0173]vベクトルをコード化するためにコードブック(及びX個の対応する重み)からのX個のコードベクトルが使用される例を考察する。幾つかの例では、ビットストリーム生成ユニット42は、各vベクトルが、(1)コードベクトルのコードブック(例えば、正規化方向ベクトルのコードブック)中の特定のベクトルをそれぞれ指しているX数のインデックス、(2)上記のインデックスとともに進むべき対応する(X)数の重み、(3)上記の(X)数の重みの各々のための符号ビット、という、パラメータの3つのカテゴリーによって表されるようにビットストリーム21を生成し得る。場合によっては、X数の重みは、また別のベクトル量子化(VQ)を使用して更に量子化され得る。
[0174]この例において重みを決定するために使用される分解コードブックは、候補コードブックのセットから選択され得る。例えば、コードブックは、8つの異なるコードブックのうちの1つであり得る。これらのコードブックの各々は異なる長さを有し得る。従って、例えば、本開示の技法は、6次HOAコンテンツの重みを決定するために使用されるサイズ49のコードブックだけでなく、8つの異なるサイズのコードブックのいずれか1つをも使用するオプションを与え得る。
[0175]重みのVQのために使用される量子化コードブックはまた、幾つかの例では、重みを決定するために使用される可能な分解コードブックの数と同じ対応する数の可能なコードブックを有し得る。従って、幾つかの例では、重みを決定するための可変数の異なるコードブックと、重みを量子化するための可変数のコードブックとがあり得る。
[0176]幾つかの例では、vベクトルを推定するために使用される重みの数(即ち、量子化のために選択される重みの数)は可変であり得る。例えば、閾値誤差基準が設定され得、量子化のために選択される数(X)の重みは、誤差閾値に達することに依存し得、ここで、誤差閾値は式(10)において上記で定義されている。
[0177]幾つかの例では、上述の概念のうちの1つ又は複数は、ビットストリーム中で信号伝達され得る。vベクトルをコード化するために使用される重みの最大数が128個の重みに設定され、重みを量子化するために8つの異なる量子化コードブックが使用される例を考察する。そのような例では、ビットストリーム生成ユニット42は、ビットストリーム21中のアクセスフレームユニットが、フレームごとに使用され得るインデックスの最大数を示すようにビットストリーム21を生成し得る。この例では、インデックスの最大数は0〜128の数であり、従って、上述のデータはアクセスフレームユニット中で7ビットを消費し得る。
[0178]上記の例では、フレームごとに、ビットストリーム生成ユニット42は、(1)(vベクトルごとに)VQを行うために8つの異なるコードブックのうちのどの1つが使用されたかと、(2)各vベクトルをコード化するために使用されたインデックスの実際の数(X)とを示すデータを含むようにビットストリーム21を生成し得る。VQを行うために8つの異なるコードブックのうちのどの1つが使用されたかを示すデータは、この例では3ビットを消費し得る。各vベクトルをコード化するために使用されたインデックスの実際の数(X)を示すデータは、アクセスフレームユニットにおいて指定されたインデックスの最大数によって与えられ得る。これは、この例では0ビットから7ビットまで変動し得る。
[0179]幾つかの例では、ビットストリーム生成ユニット42は、(1)どの方向ベクトルが(計算された重み付け値を与えて)選択され送信されるかを示すインデックスと、(2)各選択された方向ベクトルのための重み付け値とを含むようにビットストリーム21を生成し得る。幾つかの例では、本開示は、正規化された球面調和コードベクトルのコードブック上での分解を使用するVベクトルの量子化のための技法を提供し得る。
[0180]図17は、図7及び図8の一方又は両方の例に示されたVベクトルコード化ユニット52によって使用され得る空間領域中に表された16個の異なるコードベクトル63A〜63Pを示す図である。コードベクトル63A〜63Pは、上記で説明したコードベクトル63のうちの1つ又は複数を表し得る。
[0181]図18は、図7及び図8の一方又は両方の例に示されたVベクトルコード化ユニット52によって16個の異なるコードベクトル63A〜63Pが採用され得る異なる方法を示す図である。Vベクトルコード化ユニット52は、空間領域にレンダリングされた後に示され、Vベクトル55として示されている、低減されたフォアグラウンドV[k]ベクトル55のうちの1つを受信し得る。Vベクトルコード化ユニット52は、Vベクトル55の3つの異なるコード化バージョンを生成するために上記で説明したベクトル量子化を実施し得る。Vベクトル55の3つの異なるコード化バージョンは、空間領域にレンダリングされた後に示され、コード化されたVベクトル57A、コード化されたVベクトル57B、及びコード化されたVベクトル57Cとして示されている。Vベクトルコード化ユニット52は、Vベクトル55に対応するコード化されたフォアグラウンドV[k]ベクトル57のうちの1つとして、コード化されたVベクトル57A〜57Cのうちの1つを選択し得る。
[0182]Vベクトルコード化ユニット52は、図17の例においてより詳細に示されたコードベクトル63A〜63P(「コードベクトル63」)に基づいて、コード化されたVベクトル57A〜57Cの各々を生成し得る。Vベクトルコード化ユニット52は、グラフ300Aに示されているようにコードベクトル63のうちの16個全てに基づいて、コード化されたVベクトル57Aを生成し得、グラフ300Aにおいて、16個全てのインデックスは16個の重み付け値とともに指定される。Vベクトルコード化ユニット52は、コードベクトル63の非0サブセット(例えば、正方形ボックス中に囲まれ、グラフ300Bに示されているように、他のインデックスが0の重み付けを有するとすればインデックス2、6及び7に関連するコードベクトル63)に基づいて、コード化されたVベクトル57Aを生成し得る。Vベクトルコード化ユニット52は、元のVベクトル55が最初に量子化されることを除いて、コード化されたVベクトル57Bを生成するときに使用されたのと同じ3つのコードベクトル63を使用して、コード化されたVベクトル57Cを生成し得る。
[0183]元のVベクトル55と比較して、コード化されたVベクトル57A〜57Cのレンダリングを検討すると、ベクトル量子化は、元のVベクトル55の実質的に同様の表現を提供し得ることが示される(これは、コード化されたVベクトル57A〜57Cの各々の間の誤差がおそらく小さいことを意味する)。また、コード化されたVベクトル57A〜57Cを互いに比較すると、小さい又はわずかな差異のみがあることが明らかになる。従って、最良のビット低減を提供するコード化されたVベクトル57A〜57Cのうちの1つは、Vベクトルコード化ユニット52が選択し得るコード化されたVベクトル57A〜57Cのうちの1つである可能性がある。コード化されたVベクトル57Cが最も小さいビットレートを提供する可能性が最も高いとすれば(コード化されたVベクトル57Cが、コードベクトル63のうちの3つのみをも使用しながら、Vベクトル55の量子化バージョンを利用するとすれば)、Vベクトルコード化ユニット52は、Vベクトル55に対応するコード化されたフォアグラウンドV[k]ベクトル57の1つとして、コード化されたVベクトル57Cを選択し得る。
[0184]図21は、本開示による例示的なベクトル量子化ユニット520を示すブロック図である。幾つかの例では、ベクトル量子化ユニット520は、図3Aのオーディオ符号化機器20中の又は図3Bのオーディオ符号化機器20中のVベクトルコード化ユニット52の一例であり得る。ベクトル量子化ユニット520は、分解ユニット522と、重み選択及び順序付けユニット524と、ベクトル選択ユニット526とを含む。分解ユニット522は、コードベクトル63に基づいて低減されたフォアグラウンドV[k]ベクトル55の各々をコードベクトルの重み付き和に分解し得る。分解ユニット522は、重み値528を生成し、重み値528を重み選択及び順序付けユニット524に提供し得る。
[0185]重み選択及び順序付けユニット524は、重み値の選択されたサブセットを生成するために重み値528のサブセットを選択し得る。例えば、重み選択及び順序付けユニット524は、重み値528のセットからM個の最大大きさ重み値を選択し得る。重み選択及び順序付けユニット524は、更に、重み値の大きさに基づいて重み値の選択されたサブセットを並べ替えて、重み値530の並べ替えられた選択されたサブセットを生成し、重み値530の並べ替えられた選択されたサブセットをベクトル選択ユニット526に提供し得る。
[0186]ベクトル選択ユニット526は、M個の重み値を表すために量子化コードブック532からM成分ベクトルを選択し得る。言い換えれば、ベクトル選択ユニット526は、M個の重み値をベクトル量子化し得る。幾つかの例では、Mは、単一のVベクトルを表すために重み選択及び順序付けユニット524によって選択された重み値の数に対応し得る。ベクトル選択ユニット526は、M個の重み値を表すために選択されたM成分ベクトルを示すデータを生成し、このデータを、コード化された重み57としてビットストリーム生成ユニット42に提供し得る。幾つかの例では、量子化コードブック532は、インデックス付けされた複数のM成分ベクトルを含み得、M成分ベクトルを示すデータは、選択されたベクトルを指す量子化コードブック532へのインデックス値であり得る。そのような例では、デコーダは、インデックス値を復号するために、同様にインデックス付けされた量子化コードブックを含み得る。
[0181]図22は、本開示で説明する技法の様々な態様を実施する際のベクトル量子化ユニットの例示的な動作を示すフローチャートである。図21の例に関して上記で説明したように、ベクトル量子化ユニット520は、分解ユニット522と、重み選択及び順序付けユニット524と、ベクトル選択ユニット526とを含む。分解ユニット522は、コードベクトル63に基づいて低減されたフォアグラウンドV[k]ベクトル55の各々をコードベクトルの重み付き和に分解し得る(750)。分解ユニット522は、重み値528を取得し、重み値528を重み選択及び順序付けユニット524に提供し得る(752)。
[0188]重み選択及び順序付けユニット524は、重み値の選択されたサブセットを生成するために重み値528のサブセットを選択し得る(754)。例えば、重み選択及び順序付けユニット524は、重み値528のセットからM個の最大大きさ重み値を選択し得る。重み選択及び順序付けユニット524は、更に、重み値の大きさに基づいて重み値の選択されたサブセットを並べ替えて、重み値530の並べ替えられた選択されたサブセットを生成し、重み値530の並べ替えられた選択されたサブセットをベクトル選択ユニット526に提供し得る(756)。
[0189]ベクトル選択ユニット526は、M個の重み値を表すために量子化コードブック532からM成分ベクトルを選択し得る。言い換えれば、ベクトル選択ユニット526は、M個の重み値をベクトル量子化し得る(758)。幾つかの例では、Mは、単一のVベクトルを表すために重み選択及び順序付けユニット524によって選択された重み値の数に対応し得る。ベクトル選択ユニット526は、M個の重み値を表すために選択されたM成分ベクトルを示すデータを生成し、このデータを、コード化された重み57としてビットストリーム生成ユニット42に提供し得る。幾つかの例では、量子化コードブック532は、インデックス付けされた複数のM成分ベクトルを含み得、M成分ベクトルを示すデータは、選択されたベクトルを指す量子化コードブック532へのインデックス値であり得る。そのような例では、デコーダは、インデックス値を復号するために、同様にインデックス付けされた量子化コードブックを含み得る。
[0190]図23は、本開示で説明する技法の様々な態様を実施する際のVベクトル再構成ユニットの例示的な動作を示すフローチャートである。図4A又は図4BのVベクトル再構成ユニット74は、例えば、ビットストリーム21から構文解析された後に抽出ユニット72から、最初に重み値を取得し得る(760)。Vベクトル再構成ユニット74はまた、例えば、上記で説明した方法でビットストリーム21中で信号伝達されたインデックスを使用してコードブックから、コードベクトルを取得し得る(762)。Vベクトル再構成ユニット74は、次いで、上記で説明した様々な方法のうちの1つ又は複数で重み値とコードベクトルとに基づいて、(Vベクトルと呼ばれることもある)低減されたフォアグラウンドV[k]ベクトル55を再構成し得る(764)。
[0191]図24は、本開示で説明する技法の様々な態様を実施する際の図3A又は図3BのVベクトルコード化ユニットの例示的な動作を示すフローチャートである。Vベクトルコード化ユニット52は、(閾値ビットレートと呼ばれることもある)ターゲットビットレート41を取得し得る(770)。ターゲットビットレート41が256Kbps(又は任意の他の指定、構成又は決定されたビットレート)よりも大きいとき(「NO」772)、Vベクトルコード化ユニット52は、Vベクトル55にスカラー量子化を適用することを決定し、次いで適用し得る(774)。ターゲットビットレート41が256Kbps以下であるとき(「YES」772)、Vベクトル再構成ユニット52は、Vベクトル55にベクトル量子化を適用することを決定し、次いで適用し得る(776)。Vベクトルコード化ユニット52はまた、Vベクトル55に関してスカラー量子化又はベクトル量子化が実施されたことをビットストリーム21中で信号伝達し得る(778)。
[0192]図25は、本開示で説明する技法の様々な態様を実施する際のVベクトル再構成ユニットの例示的な動作を示すフローチャートである。図4A又は図4BのVベクトル再構成ユニット74は、最初に、Vベクトル55に関してスカラー量子化が実施されたかベクトル量子化が実施されたかの(シンタックス要素などの)指示を取得し得る(780)。スカラー量子化が実施されなかったことをシンタックス要素が示すとき(「NO」782)、Vベクトル再構成ユニット74は、Vベクトル55を再構成するためにベクトル逆量子化を実施し得る(784)。スカラー量子化が実施されたことをシンタックス要素が示すとき(「YES」782)、Vベクトル再構成ユニット74は、Vベクトル55を再構成するためにスカラー逆量子化を実施し得る(786)。
[0193]図26は、本開示で説明する技法の様々な態様を実施する際の図3A又は図3BのVベクトルコード化ユニットの例示的な動作を示すフローチャートである。Vベクトルコード化ユニット52は、Vベクトル55をベクトル量子化するときに使用すべき(2つ以上を意味する)複数のコードブックのうちの1つを選択し得る(790)。Vベクトルコード化ユニット52は、次いで、2つ以上のコードブックのうちの選択された1つを使用してVベクトル55に関して上記で説明した方法でベクトル量子化を実施し得る(792)。Vベクトルコード化ユニット52は、次いで、ビットストリーム21中でVベクトル55を量子化する際に2つ以上のコードブックのうちの1つが使用されたことを示すか又はさもなければ信号伝達し得る(794)。
[0194]図27は、本開示で説明する技法の様々な態様を実施する際のVベクトル再構成ユニットの例示的な動作を示すフローチャートである。図4A又は図4BのVベクトル再構成ユニット74は、最初に、Vベクトル55をベクトル量子化するときに使用された2つ以上のコードブックのうちの1つの(シンタックス要素などの)指示を取得し得る(800)。Vベクトル再構成ユニット74は、次いで、上記で説明した方法で2つ以上のコードブックのうちの選択された1つを使用してVベクトル55を再構成するためにベクトル逆量子化を実施し得る(802)。
[0195]本技法の様々な態様は、以下の条項に記載された機器を可能にし得る。
[0196]条項1。音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックを記憶するための手段と、空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、複数のコードブックのうちの1つを選択するための手段とを備える機器。
[0197]条項2。ベクトル量子化された空間成分を含むビットストリーム中のシンタックス要素を指定するための手段を更に備え、シンタックス要素が、空間成分のベクトル量子化を実施するときに使用された重み値を有する複数のコードブックのうちの選択された1つへのインデックスを識別する、条項1の機器。
[0198]条項3。ベクトル量子化された空間成分を含むビットストリーム中のシンタックス要素を指定するための手段を更に備え、シンタックス要素が、空間成分のベクトル量子化を実施するときに使用されたコードベクトルを有するベクトル辞書へのインデックスを識別する、条項1の機器。
[0199]条項4。複数のコードブックのうちの1つを選択するための手段が、ベクトル量子化を実施するときに使用された幾つかのコードベクトルに基づいて複数のコードブックのうちの1つを選択するための手段を備える、条項1の方法。
[0200]本技法の様々な態様はまた、以下の条項に記載された機器を可能にし得る。
[0201]条項5。HOA係数の分解バージョンを生成するために複数の高次アンビソニック(HOA)係数に関して分解を実施するための手段と、コードベクトルのセットに基づいて、HOA係数の分解バージョン中に含まれるベクトルを表す1つ又は複数の重み値を決定するための手段と、重み値の各々が、ベクトルを表すコードベクトルの重み付き和中に含まれる複数の重みのうちのそれぞれ1つに対応する、を備える装置。
[0202]条項6。候補分解コードブックのセットから分解コードブックを選択するための手段を更に備え、ここにおいて、コードベクトルのセットに基づいて1つ又は複数の重み値を決定するための手段が、選択された分解コードブックによって指定されるコードベクトルのセットに基づいて重み値を決定するための手段を備える、条項5の装置。
[0203]条項7。候補分解コードブックの各々が複数のコードベクトルを含み、候補分解コードブックのうちの少なくとも2つが異なる数のコードベクトルを有する、条項6の装置。
[0204]条項8。重みを決定するためにどのコードベクトルが使用されるかを示す1つ又は複数のインデックスを含むようにビットストリームを生成するための手段と、インデックスの各々に対応する重み付け値を更に含むようにビットストリームを生成するための手段とを更に備える、請求項5に記載の装置。
[0205]上記の技法のいずれも、任意の数の異なるコンテキスト及びオーディオエコシステムに関して実施され得る。幾つかの例示的なコンテキストについて以下で説明するが、本技法はそれらの例示的なコンテキストに限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コード化エンジンと、ゲームオーディオステムと、ゲームオーディオコード化/レンダリングエンジンと、配信システムとを含み得る。
[0206]映画スタジオ、音楽スタジオ、及びゲーミングオーディオスタジオは、オーディオコンテンツを受信し得る。幾つかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、(例えば、2.0、5.1、及び7.1の)チャネルベースオーディオコンテンツを出力し得る。音楽スタジオは、DAWを使用することなどによって、(例えば、2.0、及び5.1の)チャネルベースオーディオコンテンツを出力し得る。いずれの場合も、コード化エンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの1つ又は複数のコーデック(例えば、AAC、AC3、ドルビートゥルーHD、ドルビーデジタルプラス、及びDTSマスタオーディオ)を受信し符号化し得る。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つ又は複数のゲームオーディオステムを出力し得る。ゲームオーディオコード化/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコード化及び又はレンダリングし得る。本技法が実施され得る別の例示的なコンテキストは、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオン機器キャプチャと、HOAオーディオフォーマットと、オン機器レンダリングと、消費者向けオーディオと、TV、及びアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。
[0207]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、及び消費者向けオン機器キャプチャは全て、HOAオーディオフォーマットを使用してそれらの出力をコード化し得る。このようにして、オーディオコンテンツは、オン機器レンダリング、消費者向けオーディオ、TV及びアクセサリ並びにカーオーディオシステムを使用して再生され得る単一の表現へと、HOAオーディオフォーマットを使用してコード化され得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム16など、汎用的なオーディオ再生システムにおいて(即ち、5.1、7.1などの特定の構成を必要とすることとは対照的に)再生され得る。
[0208]本技法が実施され得るコンテキストの他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、ワイヤード及び/又はワイヤレス獲得機器(例えば、Eigenマイクロフォン)、オン機器サラウンドサウンドキャプチャ並びにモバイル機器(例えば、スマートフォン及びタブレット)を含み得る。幾つかの例では、ワイヤード及び/又はワイヤレス獲得機器は、ワイヤード及び/又はワイヤレス通信チャネルを介してモバイル機器に結合され得る。
[0209]本開示の1つ又は複数の技法によれば、モバイル機器は、音場を獲得するために使用され得る。例えば、モバイル機器は、ワイヤード及び/又はワイヤレス獲得機器及び/又はオン機器サラウンドサウンド取込み(例えば、モバイル機器に統合された複数のマイクロフォン)を介して、音場を獲得し得る。モバイル機器は、次いで、再生要素のうちの1つ又は複数による再生のために、獲得された音場をHOA係数へとコード化し得る。例えば、モバイル機器のユーザは、ライブイベント(例えば、会合、会議、劇、コンサートなど)を記録し(その音場を獲得し)、記録をHOA係数へとコード化し得る。
[0210]モバイル機器はまた、HOAコード化された音場を再生するために、再生要素のうちの1つ又は複数を利用し得る。例えば、モバイル機器は、HOAコード化された音場を復号し、再生要素のうちの1つ又は複数に信号を出力し得、それにより、再生要素のうちの1つ又は複数は音場を再作成することになる。一例として、モバイル機器は、1つ又は複数のスピーカ(例えば、スピーカアレイ、サウンドバーなど)に信号を出力するためにワイヤレス及び/又はワイヤレス通信チャネルを利用し得る。別の例として、モバイル機器は、1つ又は複数のドッキングステーション及び/又は1つ又は複数のドッキングされたスピーカ(例えば、スマートカー及び/又はスマートホーム内のサウンドシステム)に信号を出力するために、ドッキングソリューションを利用し得る。別の例として、モバイル機器は、ヘッドフォンのセットに信号を出力するために、例えばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用し得る。
[0211]幾つかの例では、特定のモバイル機器は、3D音場を獲得することと、より後の時間に同じ3D音場を再生することの両方を行い得る。幾つかの例では、モバイル機器は、3D音場を獲得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つ又は複数の他の機器(例えば、他のモバイル機器及び/又は他の非モバイル機器)に送信し得る。
[0212]本技法が実行され得るまた別のコンテキストは、オーディオコンテンツと、ゲームスタジオと、コード化されたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。幾つかの例では、ゲームスタジオは、HOA信号の編集をサポートし得る1つ又は複数のDAWを含み得る。例えば、1つ又は複数のDAWは、1つ又は複数のゲームオーディオシステムとともに動作する(例えば、機能する)ように構成され得るHOAプラグイン及び/又はツールを含み得る。幾つかの例では、ゲームスタジオは、HOAをサポートする新しいステムフォーマットを出力し得る。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに、コード化されたオーディオコンテンツを出力し得る。
[0213]本技法はまた、例示的なオーディオ獲得機器に関して実施され得る。例えば、本技法は、3D音場を記録するようにまとめて構成された複数のマイクロフォンを含み得る、Eigenマイクロフォンに関して実施され得る。幾つかの例では、Eigenマイクロフォンの複数のマイクロフォンは、約4cmの半径を伴う実質的に球状の球体の表面に配置され得る。幾つかの例では、オーディオ符号化機器20は、マイクロフォンから直接ビットストリーム21を出力するために、Eigenマイクロフォンに統合され得る。
[0214]別の例示的なオーディオ獲得コンテキストは、1つ又は複数のEigenマイクロフォンなど、1つ又は複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図3Aのオーディオエンコーダ20などのオーディオエンコーダを含み得る。
[02151]モバイル機器はまた、幾つかの事例では、3D音場を記録するようにまとめて構成された複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、X、Y、Zのダイバーシティを有し得る。幾つかの例では、モバイル機器は、モバイル機器の1つ又は複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイル機器はまた、図3Aのオーディオエンコーダ20などのオーディオエンコーダを含み得る。
[0216]耐衝撃性の撮像装置は、3D音場を記録するように更に構成され得る。幾つかの例では、耐衝撃性の撮像装置は、ある活動に関与するユーザのヘルメットに取り付けられ得る。例えば、耐衝撃性の撮像装置は、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性の撮像装置は、ユーザの周り全ての活動(例えば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など)を表す3D音場を取込み得る。
[0217]本技法はまた、3D音場を記録するように構成され得る、アクセサリで増強されたモバイル機器に関して実施され得る。幾つかの例では、モバイル機器は、上記で説明したモバイル機器と同様であり得るが、1つ又は複数のアクセサリが追加されている。例えば、Eigenマイクロフォンが、アクセサリで増強されたモバイル機器を形成するために、上述したモバイル機器に取り付けられ得る。このようにして、アクセサリで増強されたモバイル機器は、アクセサリで増強されたモバイル機器と一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの3D音場を取込み得る。
[0218]本開示で説明する本技法の様々な態様を実施し得る例示的なオーディオ再生機器について、以下で更に説明する。本開示の1つ又は複数の技法によれば、スピーカ及び/又はサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として3D音場を再生する。その上、幾つかの例では、ヘッドフォン再生機器が、ワイヤード接続又はワイヤレス接続のいずれかを介してデコーダ24に結合され得る。本開示の1つ又は複数の技法によれば、音場の単一の汎用的な表現が、スピーカ、サウンドバー及びヘッドフォン再生機器の任意の組合せで音場をレンダリングするために利用され得る。
[0219]また、幾つかの異なる例示的なオーディオ再生環境は、本開示で説明する技法の様々な態様を実施するために好適であり得る。例えば、5.1スピーカ再生環境、2.0(例えば、ステレオ)スピーカ再生環境、フルハイトフロントラウドスピーカを伴う9.1スピーカ再生環境、22.2スピーカ再生環境、16.0スピーカ再生環境、自動車スピーカ再生環境及びイヤバッド再生環境を伴うモバイル機器は、本開示で説明する技法の様々な態様を実施するために好適な環境であり得る。
[0220]本開示の1つ又は複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明したもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。例えば、設計上の考慮事項が、7.1スピーカ再生環境に従ったスピーカの適切な配置を妨げる場合(例えば、右側のサラウンドスピーカを配置することが可能ではない場合)、本開示の技法は、再生が6.1スピーカ再生環境で達成され得るように、レンダーが他の6つのスピーカで補償することを可能にする。
[0221]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見得る。本開示の1つ又は複数の技法によれば、スポーツの試合の3D音場が獲得され得(例えば、1つ又は複数のEigenマイクロフォンが野球場の中及び/又は周りに配置され得)、3D音場に対応するHOA係数が取得されデコーダに送信され得、デコーダはHOA係数に基づいて3D音場を再構成して、再構成された3D音場をレンダラに出力し得、レンダラは、再生環境のタイプ(例えば、ヘッドフォン)についての指示を取得し、再構成された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングし得る。
[0222]上記で説明した様々な事例の各々において、オーディオ符号化機器20は、ある方法を実施し、又はさもなければ、オーディオ符号化機器20が実施するように構成された方法の各ステップを実施するための手段を備え得ることを理解されたい。幾つかの事例では、これらの手段は1つ又は複数のプロセッサを備え得る。幾つかの事例では、1つ又は複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つ又は複数のプロセッサに、オーディオ符号化機器20が実施するように構成されている方法を実施させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0223]1つ又は複数の例において、説明した機能は、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つ又は複数の命令又はコードとしてコンピュータ可読媒体上に記憶されるか、又はコンピュータ可読媒体を通じて送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明する技法の実装のために命令、コード及び/又はデータ構造を取り出すために、1つ又は複数のコンピュータあるいは1つ又は複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。
[0224]同様に、上記で説明した様々な事例の各々において、オーディオ復号機器24は、ある方法を実施し、又はさもなければ、オーディオ復号機器24が実施するように構成された方法の各ステップを実施するための手段を備え得ることを理解されたい。幾つかの事例では、この手段は1つ又は複数のプロセッサを備え得る。幾つかの事例では、1つ又は複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つ又は複数のプロセッサに、オーディオ復号機器24が実施するように構成されている方法を実施させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0225]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROM又は他の光ディスク記憶装置、磁気ディスク記憶装置又は他の磁気記憶装置、フラッシュメモリ若しくは命令又はデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体及びデータ記憶媒体は、接続、搬送波、信号又は他の一時的媒体を含むのではなく、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)及びディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)及びBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0226]命令は、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)又は他の等価な集積回路又はディスクリート論理回路など、1つ以上のプロセッサによって実行され得る。従って、本明細書で使用する「プロセッサ」という用語は、上記の構造又は本明細書で説明した技法の実装に好適な任意の他の構造のいずれかを指し得る。更に、幾つかの態様では、本明細書で説明した機能は、符号化及び復号のために構成されるか、又は複合コーデックに組み込まれる、専用ハードウェア及び/又はソフトウェアモジュール内で提供され得る。また、本技法は、1つ又は複数の回路又は論理要素において十分に実装され得る。
[0227]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)又はICのセット(例えば、チップセット)を含む、多種多様な機器又は装置で実装され得る。本開示では、開示する技法を実施するように構成された機器の機能的態様を強調するために様々な構成要素、モジュール又はユニットについて説明したが、それらの構成要素、モジュール又はユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上記で説明したように、様々なユニットが、好適なソフトウェア及び/又はファームウェアとともに、上記で説明した1つ又は複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わされるか、又は相互動作ハードウェアユニットの集合によって与えられ得る。
[0228]本技法の様々な態様について説明した。本技法のこれら及び他の態様は以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] オーディオデータを復号する方法であって、前記方法が、
音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックのうちの1つを選択することを備え、前記ベクトル量子化された空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、方法。
[C2] 前記複数のコードブックの各々が、前記ベクトル逆量子化を実施するときに使用されるコードベクトルに関連付けられるべき重み値を指定する、C1に記載の方法。
[C3] 前記複数のコードブックのうちの1つが、前記ベクトル逆量子化を実施するときに使用されるコードベクトルに関連付けられるべき8つの重み値を指定する、C1に記載の方法。
[C4] 前記複数のコードブックのうちの1つが、前記ベクトル逆量子化を実施するときに使用されるコードベクトルに関連付けられるべき256個の重み値を指定する、C1に記載の方法。
[C5] 前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を取得することをさらに備え、前記シンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別する、C1に記載の方法。
[C6] 複数のコードブックのうちの1つを選択することが、前記ベクトル逆量子化を実施するときに使用された幾つかのコードベクトルに基づいて前記複数のコードブックのうちの前記1つを選択することを備える、C1に記載の方法。
[C7] 複数のコードブックのうちの1つを選択することは、前記ベクトル逆量子化を実施するときにただ1つのコードベクトルが使用されるとき、8つの重み値を有する前記複数のコードブックのうちの前記1つを選択することを備える、C1に記載の方法。
[C8] 複数のコードブックのうちの1つを選択することは、前記ベクトル逆量子化を実施するときに2つから8つのコードベクトルが使用されるとき、256個の重み値を有する前記複数のコードブックのうちの前記1つを選択することを備える、C1に記載の方法。
[C9] 前記複数のコードブックは、256個の行を有し各行中に8つの重み値があるコードブックと、900個の行を有し各行中に単一の重み値があるコードブックとを備える、C1に記載の方法。
[C10] 音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックを記憶するように構成されたメモリと、前記ベクトル量子化された空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、
前記複数のコードブックのうちの1つを選択するように構成された1つ以上のプロセッサとを備える機器。
[C11] 前記1つ以上のプロセッサは、前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を決定することと、前記シンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別する、前記シンタックス要素によって識別される前記複数のコードブックのうちの前記選択された1つに基づいて前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施することとを行うようにさらに構成された、C10に記載の機器。
[C12] 前記1つ以上のプロセッサが、前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を決定するようにさらに構成され、前記シンタックス要素が、前記ベクトル逆量子化を実施するときに使用された重み値を有する前記複数のコードブックのうちの前記選択された1つへのインデックスを識別する、C10に記載の機器。
[C13] 前記1つ以上のプロセッサは、前記ベクトル量子化された空間成分を含むビットストリームからの第1のシンタックス要素と第2のシンタックス要素とを決定することと、ここにおいて、前記第1のシンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別し、前記第2のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用された重み値を有する前記複数のコードブックのうちの前記選択された1つへのインデックスを識別する、前記第2のシンタックス要素によって識別される前記複数のコードブックのうちの前記選択された1つからの前記第1のシンタックス要素によって識別される前記重み値に基づいて、前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施することとを行うようにさらに構成された、C10に記載の機器。
[C14] 前記1つ以上のプロセッサが、前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を決定するようにさらに構成され、前記シンタックス要素が、前記ベクトル逆量子化を実施するときに使用されたコードベクトルを有するベクトル辞書へのインデックスを識別する、C10に記載の機器。
[C15] 前記1つ以上のプロセッサは、前記ベクトル量子化された空間成分を含むビットストリームからの第1のシンタックス要素と第2のシンタックス要素と第3のシンタックス要素とを決定することと、ここにおいて、前記第1のシンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別し、前記第2のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用された重み値を有する前記複数のコードブックのうちの前記選択された1つへのインデックスを識別し、前記第3のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用されたコードベクトルを有するベクトル辞書へのインデックスを識別する、前記第2のシンタックス要素によって識別される前記複数のコードブックのうちの前記選択された1つからの前記第1のシンタックス要素によって識別される前記重み値と、前記第3のシンタックス要素によって識別される前記コードベクトルとに基づいて、前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施することとを行うようにさらに構成された、C10に記載の機器。
[C16] 前記1つ以上のプロセッサが、前記ベクトル逆量子化を実施するときに使用された幾つかのコードベクトルに基づいて前記複数のコードブックのうちの前記1つを選択するように構成された、C10に記載の機器。
[C17] 前記1つ以上のプロセッサは、前記ベクトル逆量子化を実施するときにただ1つのコードベクトルが使用されるとき、8つの重み値を有する前記複数のコードブックのうちの前記1つを選択するように構成された、C10に記載の機器。
[C18] 前記1つ以上のプロセッサは、前記ベクトル逆量子化を実施するときに2つから8つのコードベクトルが使用されるとき、254個の重み値を有する前記複数のコードブックのうちの前記1つを選択するように構成された、C10に記載の機器。
[C19] 前記複数のコードブックは、252個の行を有し各行中に6つの重み値があるコードブックと、896個の行を有し各行中に単一の重み値があるコードブックとを備える、C10に記載の機器。
[C20] 前記1つ以上のプロセッサは、音場の前記aベクトル量子化された空間成分に基づいて前記高次アンビソニック係数を再構成し、前記高次アンビソニック係数をラウドスピーカフィードにレンダリングするようにさらに構成され、
前記機器が、前記高次アンビソニック係数によって表される前記音場を再生するために前記ラウドスピーカフィードによって駆動されるスピーカをさらに備える、C10に記載の機器。
[C21] 音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用すべき複数のコードブックを記憶するための手段と、前記ベクトル量子化された空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、
前記複数のコードブックのうちの1つを選択するための手段とを備える機器。
[C22] 前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を決定するための手段をさらに備え、前記シンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別する、C21に記載の機器。
[C23] 前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を決定するための手段と、前記シンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別する、
前記シンタックス要素によって識別される前記複数のコードブックのうちの前記選択された1つに基づいて、前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施するための手段とをさらに備える、C21に記載の機器。
[C24] 前記ベクトル量子化された空間成分を含むビットストリームからのシンタックス要素を決定するための手段をさらに備え、前記複数のコードブックのうちの前記選択された1つへのインデックスを前記識別することが、前記ベクトル逆量子化を実施するときに使用された重み値を有する、C21に記載の機器。
[C25] 音場の空間成分に関してベクトル量子化を実施するときに使用すべき複数のコードブックを記憶するように構成されたメモリと、前記空間成分が、複数の高次アンビソニック係数への分解の適用を通して取得される、
前記複数のコードブックのうちの1つを選択するように構成された1つ以上のプロセッサとを備える機器。
[C26] 複数のコードブックのうちの1つを選択することは、前記ベクトル量子化を実施するときにただ1つのコードベクトルが使用されるとき、8つの重み値を有する前記複数のコードブックのうちの前記1つを選択することを備える、C25に記載の機器。

Claims (13)

  1. 音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用する複数のコードブックを記憶するように構成されたメモリと、前記ベクトル量子化された空間成分が、球面調和領域において定義され、前記音場の複数の高次アンビソニック係数への分解の適用を通して取得され、ここにおいて、前記分解は、線形的に無相関な、エネルギー圧縮された前記複数の高次アンビソニック係数を提供する、
    前記複数のコードブックのうちの1つを選択することと、
    前記音場のベクトル逆量子化された空間成分を取得するために、前記複数のコードブックのうちの前記選択された1つを使用して、前記ベクトル量子化された空間成分に関してベクトル逆量子化を実施することと
    を行うように構成された1つ以上のプロセッサと、
    ここにおいて、前記1つ以上のプロセッサは、
    前記ベクトル量子化された空間成分を含むビットストリームからの第1のシンタックス要素と第2のシンタックス要素とを決定することと、ここにおいて、前記第1のシンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別し、前記第2のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用される重み値を有する前記複数のコードブックのうちの前記選択された1つへのインデックスを識別する、
    前記第1のシンタックス要素によって識別される前記選択された1つのコードブックから前記第2のシンタックス要素によって識別される前記重み値に基づいて、前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施することと
    を行うようにさらに構成される、
    を備える機器。
  2. 前記1つ以上のプロセッサは、前記ベクトル量子化された空間成分を含むビットストリームからの第1のシンタックス要素と第2のシンタックス要素と第3のシンタックス要素とを決定することと、ここにおいて、前記第1のシンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別し、前記第2のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用される重み値を有する前記複数のコードブックのうちの前記選択された1つへのインデックスを識別し、前記第3のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用されるコードベクトルを有するベクトル辞書へのインデックスを識別する、前記第1のシンタックス要素によって識別される前記選択された1つのコードブックから前記第2のシンタックス要素によって識別される前記重み値と、前記第3のシンタックス要素によって識別される前記コードベクトルとに基づいて、前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施することとを行うようにさらに構成される、請求項1に記載の機器。
  3. 前記1つ以上のプロセッサが、前記ベクトル逆量子化を実施するときに使用される幾つかのコードベクトルに基づいて前記複数のコードブックのうちの前記1つを選択するように構成される、請求項1に記載の機器。
  4. 前記1つ以上のプロセッサは、前記ベクトル逆量子化を実施するときにただ1つのコードベクトルが使用されるとき、8つの重み値を有する前記複数のコードブックのうちの前記1つを選択するように構成される、請求項1に記載の機器。
  5. 前記1つ以上のプロセッサは、前記ベクトル逆量子化を実施するときに2つから8つのコードベクトルが使用されるとき、256個の重み値を有する前記複数のコードブックのうちの前記1つを選択するように構成される、請求項1に記載の機器。
  6. 前記複数のコードブックは、256行を有し、各行中に8つの重み値があるコードブックと、900行を有し、各行中に単一の重み値があるコードブックとを備える、請求項1に記載の機器。
  7. 前記1つ以上のプロセッサは、1つ以上のラウドスピーカフィードをレンダリングするように構成される、請求項1に記載の機器。
  8. 高次アンビソニック係数によって表される前記音場を再生するためにラウドスピーカフィードによって駆動されるスピーカをさらに備える、請求項1に記載の機器。
  9. 前記1つ以上のプロセッサは、音場の前記ベクトル量子化された空間成分に基づいて前記高次アンビソニック係数を再構成し、前記高次アンビソニック係数をラウドスピーカフィードにレンダリングするようにさらに構成される、請求項8に記載の機器。
  10. 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法であって、前記方法は、
    音場のベクトル量子化された空間成分に関してベクトル逆量子化を実施するときに使用する複数のコードブックのうちの1つを選択することと、前記ベクトル量子化された空間成分が、球面調和領域において定義され、複数の高次アンビソニック係数への分解の適用を通して取得され、ここにおいて、前記分解は、線形的に無相関な、エネルギー圧縮された前記複数の高次アンビソニック係数を提供する、
    前記音場のベクトル逆量子化された空間成分を取得するために、前記複数のコードブックのうちの前記選択された1つを使用して、前記ベクトル量子化された空間成分に関してベクトル逆量子化を実施することと、
    を備え、前記方法は、
    前記ベクトル量子化された空間成分を含むビットストリームからの第1のシンタックス要素と第2のシンタックス要素とを決定することと、ここにおいて、前記第1のシンタックス要素が、前記複数のコードブックのうちの前記選択された1つを識別し、前記第2のシンタックス要素が、前記ベクトル逆量子化を実施するときに使用される重み値を有する前記複数のコードブックのうちの前記選択された1つへのインデックスを識別する、
    前記第1のシンタックス要素によって識別される前記選択された1つのコードブックから前記第2のシンタックス要素によって識別される前記重み値に基づいて、前記ベクトル量子化された空間成分に関して前記ベクトル逆量子化を実施することと
    をさらに備える、方法。
  11. 前記ベクトル逆量子化された空間成分に基づいて、1つ以上のラウドスピーカフィードをレンダリングすることをさらに備える、請求項10に記載の方法。
  12. 前記ベクトル逆量子化された空間成分に基づいて、前記高次アンビソニック係数を再構成することをさらに備える、請求項10に記載の方法。
  13. 請求項10ないし12のいずれか一項に記載の方法をコンピュータに実行させるためのコードを備えたコンピュータ可読記憶媒体。
JP2016567714A 2014-05-16 2015-05-15 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法 Active JP6728065B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US201461994794P 2014-05-16 2014-05-16
US61/994,794 2014-05-16
US201462004128P 2014-05-28 2014-05-28
US62/004,128 2014-05-28
US201462019663P 2014-07-01 2014-07-01
US62/019,663 2014-07-01
US201462027702P 2014-07-22 2014-07-22
US62/027,702 2014-07-22
US201462028282P 2014-07-23 2014-07-23
US62/028,282 2014-07-23
US201462032440P 2014-08-01 2014-08-01
US62/032,440 2014-08-01
US14/712,849 US10770087B2 (en) 2014-05-16 2015-05-14 Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US14/712,849 2015-05-14
PCT/US2015/031192 WO2015176003A1 (en) 2014-05-16 2015-05-15 Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals

Publications (3)

Publication Number Publication Date
JP2017521693A JP2017521693A (ja) 2017-08-03
JP2017521693A5 JP2017521693A5 (ja) 2018-06-07
JP6728065B2 true JP6728065B2 (ja) 2020-07-22

Family

ID=53274842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567714A Active JP6728065B2 (ja) 2014-05-16 2015-05-15 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法

Country Status (17)

Country Link
US (1) US10770087B2 (ja)
EP (1) EP3143616B1 (ja)
JP (1) JP6728065B2 (ja)
KR (1) KR102329373B1 (ja)
CN (1) CN106463129B (ja)
AU (1) AU2015258831B2 (ja)
BR (1) BR112016026822B1 (ja)
CA (1) CA2948563C (ja)
CL (1) CL2016002896A1 (ja)
MX (1) MX361040B (ja)
MY (1) MY189359A (ja)
PH (1) PH12016502273A1 (ja)
RU (1) RU2688275C2 (ja)
SG (1) SG11201608520RA (ja)
TW (1) TWI676983B (ja)
WO (1) WO2015176003A1 (ja)
ZA (1) ZA201607881B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9667959B2 (en) 2013-03-29 2017-05-30 Qualcomm Incorporated RTP payload format designs
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3668101B1 (en) * 2017-08-10 2024-03-20 Saturn Licensing, LLC Transmission device, transmission method, reception device, and reception method
GB2578625A (en) 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
FR3096550B1 (fr) * 2019-06-24 2021-06-04 Orange Dispositif de captation sonore à réseau de microphones perfectionné
US20200402522A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding

Family Cites Families (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1159034B (it) 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
US4972344A (en) 1986-05-30 1990-11-20 Finial Technology, Inc. Dual beam optical turntable
US5363050A (en) 1990-08-31 1994-11-08 Guo Wendy W Quantitative dielectric imaging system
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
JP2626492B2 (ja) 1993-09-13 1997-07-02 日本電気株式会社 ベクトル量子化装置
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JP3849210B2 (ja) 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US5821887A (en) 1996-11-12 1998-10-13 Intel Corporation Method and apparatus for decoding variable length codes
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
JP3211762B2 (ja) 1997-12-12 2001-09-25 日本電気株式会社 音声及び音楽符号化方式
AUPP272698A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Soundfield playback from a single speaker system
AU4072400A (en) 1999-04-05 2000-10-23 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for frequency domain interpolative speech codec system
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US20020049586A1 (en) 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
JP2002094989A (ja) 2000-09-14 2002-03-29 Pioneer Electronic Corp ビデオ信号符号化装置及びビデオ信号符号化方法
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US20020169735A1 (en) 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
GB2379147B (en) 2001-04-18 2003-10-22 Univ York Sound processing
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US7031894B2 (en) 2002-01-16 2006-04-18 Timbre Technologies, Inc. Generating a library of simulated-diffraction signals and hypothetical profiles of periodic gratings
US7262770B2 (en) 2002-03-21 2007-08-28 Microsoft Corporation Graphics image rendering with radiance self-transfer for low-frequency lighting environments
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
ATE543179T1 (de) 2002-09-04 2012-02-15 Microsoft Corp Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
US7330812B2 (en) 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
FR2847376B1 (fr) 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US6961696B2 (en) 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
FI115324B (fi) 2003-03-14 2005-04-15 Elekta Neuromag Oy Menetelmä ja järjestelmä monikanavaisen mittaussignaalin käsittelemiseksi
US7558393B2 (en) 2003-03-18 2009-07-07 Miller Iii Robert E System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
US7920709B1 (en) 2003-03-25 2011-04-05 Robert Hickling Vector sound-intensity probes operating in a half-space
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
KR100556911B1 (ko) 2003-12-05 2006-03-03 엘지전자 주식회사 무선 동영상 스트리밍 서비스를 위한 동영상 데이터의 구조
KR100629997B1 (ko) 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
KR100636229B1 (ko) 2005-01-14 2006-10-19 학교법인 성균관대학 신축형 부호화를 위한 적응적 엔트로피 부호화 및 복호화방법과 그 장치
US7271747B2 (en) 2005-05-10 2007-09-18 Rice University Method and apparatus for distributed compressed sensing
ATE378793T1 (de) 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
US8510105B2 (en) 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
WO2007048900A1 (fr) 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
CN101385077B (zh) 2006-02-07 2012-04-11 Lg电子株式会社 用于编码/解码信号的装置和方法
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US20080004729A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
CA2645863C (en) 2006-11-24 2013-01-08 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
US7663623B2 (en) 2006-12-18 2010-02-16 Microsoft Corporation Spherical harmonics scaling
JP2008227946A (ja) 2007-03-13 2008-09-25 Toshiba Corp 画像復号装置
US8290167B2 (en) 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
WO2008127536A2 (en) 2007-04-12 2008-10-23 Thomson Licensing Methods and apparatus for video usability information (vui) for scalable video coding (svc)
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
ATE479182T1 (de) 2007-07-30 2010-09-15 Global Ip Solutions Gips Ab Audiodekoder mit geringer verzögerung
US8463615B2 (en) 2007-07-30 2013-06-11 Google Inc. Low-delay audio coder
CN101842833B (zh) 2007-09-11 2012-07-18 沃伊斯亚吉公司 语音和音频编码中快速代数码本搜索的方法和设备
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
WO2009067741A1 (en) 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
JP5419714B2 (ja) 2008-01-16 2014-02-19 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
EP2259253B1 (en) 2008-03-03 2017-11-15 LG Electronics Inc. Method and apparatus for processing audio signal
RU2565008C2 (ru) 2008-03-10 2015-10-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
EP2283373B1 (en) 2008-04-28 2021-03-10 Cornell University Accurate quantification of magnetic susceptibility in molecular mri
US8184298B2 (en) 2008-05-21 2012-05-22 The Board Of Trustees Of The University Of Illinois Spatial light interference microscopy and fourier transform light scattering for cell and tissue characterization
EP2287836B1 (en) 2008-05-30 2014-10-15 Panasonic Intellectual Property Corporation of America Encoder and encoding method
CN102089634B (zh) 2008-07-08 2012-11-21 布鲁尔及凯尔声音及振动测量公司 重建声学场
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP5697301B2 (ja) 2008-10-01 2015-04-08 株式会社Nttドコモ 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
US8207890B2 (en) 2008-10-08 2012-06-26 Qualcomm Atheros, Inc. Providing ephemeris data and clock corrections to a satellite navigation system receiver
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
EP2374124B1 (fr) 2008-12-15 2013-05-29 France Telecom Codage perfectionne de signaux audionumériques multicanaux
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
US8332229B2 (en) 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010086342A1 (en) 2009-01-28 2010-08-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an input audio information, method for decoding an input audio information and computer program using improved coding tables
GB2476747B (en) 2009-02-04 2011-12-21 Richard Furse Sound system
JP5163545B2 (ja) 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
CN102227696B (zh) 2009-05-21 2014-09-24 松下电器产业株式会社 触感处理装置
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
WO2011041834A1 (en) 2009-10-07 2011-04-14 The University Of Sydney Reconstruction of a recorded sound field
WO2011044898A1 (en) 2009-10-15 2011-04-21 Widex A/S Hearing aid with audio codec and method
US9153242B2 (en) 2009-11-13 2015-10-06 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus, and related methods that use plural coding layers
EP2510515B1 (en) * 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
CN102104452B (zh) 2009-12-22 2013-09-11 华为技术有限公司 信道状态信息反馈方法、信道状态信息获得方法及设备
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
WO2011104463A1 (fr) 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
AU2011226143B9 (en) * 2010-03-10 2015-03-19 Dolby International Ab Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
AU2011231565B2 (en) 2010-03-26 2014-08-28 Dolby International Ab Method and device for decoding an audio soundfield representation for audio playback
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
TW201214415A (en) 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US9357229B2 (en) 2010-07-28 2016-05-31 Qualcomm Incorporated Coding motion vectors in video coding
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
WO2012025580A1 (en) 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
CN101977349A (zh) 2010-09-29 2011-02-16 华南理工大学 Ambisonic声重发系统解码的优化改进方法
US20120093323A1 (en) 2010-10-14 2012-04-19 Samsung Electronics Co., Ltd. Audio system and method of down mixing audio signals using the same
US9084049B2 (en) 2010-10-14 2015-07-14 Dolby Laboratories Licensing Corporation Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
KR101401775B1 (ko) 2010-11-10 2014-05-30 한국전자통신연구원 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법
US9448289B2 (en) 2010-11-23 2016-09-20 Cornell University Background field removal method for MRI using projection onto dipole fields
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
US8809663B2 (en) 2011-01-06 2014-08-19 Hank Risan Synthetic simulation of a media recording
US9008176B2 (en) 2011-01-22 2015-04-14 Qualcomm Incorporated Combined reference picture list construction for video coding
US20120189052A1 (en) 2011-01-24 2012-07-26 Qualcomm Incorporated Signaling quantization parameter changes for coded units in high efficiency video coding (hevc)
US9026450B2 (en) 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
CA2833868C (en) 2011-04-21 2019-08-20 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2592846A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2592845A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
KR101590332B1 (ko) 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2645748A1 (en) 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US20140086416A1 (en) 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
KR102201034B1 (ko) 2012-07-16 2021-01-11 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
KR102201713B1 (ko) 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP5967571B2 (ja) 2012-07-26 2016-08-10 本田技研工業株式会社 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム
PL2915166T3 (pl) 2012-10-30 2019-04-30 Nokia Technologies Oy Sposób i urządzenie do kwantyzacji odpornego wektora
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9959875B2 (en) 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
BR112015021520B1 (pt) 2013-03-05 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Aparelho e método para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
WO2014184353A1 (en) 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio processing apparatus and method therefor
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
CN105264595B (zh) 2013-06-05 2019-10-01 杜比国际公司 用于编码和解码音频信号的方法和装置
TWI631553B (zh) 2013-07-19 2018-08-01 瑞典商杜比國際公司 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10142642B2 (en) 2014-06-04 2018-11-27 Qualcomm Incorporated Block adaptive color-space conversion coding
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework

Also Published As

Publication number Publication date
MX2016014918A (es) 2017-04-06
WO2015176003A1 (en) 2015-11-19
CA2948563A1 (en) 2015-11-19
ZA201607881B (en) 2022-05-25
EP3143616B1 (en) 2023-01-04
MY189359A (en) 2022-02-07
PH12016502273B1 (en) 2017-03-13
CL2016002896A1 (es) 2017-05-26
KR20170008802A (ko) 2017-01-24
US10770087B2 (en) 2020-09-08
RU2016144326A (ru) 2018-06-20
US20150332692A1 (en) 2015-11-19
AU2015258831B2 (en) 2020-03-12
RU2688275C2 (ru) 2019-05-21
TWI676983B (zh) 2019-11-11
CA2948563C (en) 2023-02-28
BR112016026822A2 (ja) 2017-08-15
SG11201608520RA (en) 2016-11-29
EP3143616A1 (en) 2017-03-22
BR112016026822B1 (pt) 2022-12-13
PH12016502273A1 (en) 2017-03-13
RU2016144326A3 (ja) 2018-12-12
CN106463129B (zh) 2020-02-21
AU2015258831A1 (en) 2016-11-10
MX361040B (es) 2018-11-26
TW201601144A (zh) 2016-01-01
CN106463129A (zh) 2017-02-22
JP2017521693A (ja) 2017-08-03
KR102329373B1 (ko) 2021-11-19

Similar Documents

Publication Publication Date Title
JP6549156B2 (ja) 音場を表す複数の高次アンビソニック(hoa)係数を取得するように構成された装置およびそれを取得する方法
JP6728065B2 (ja) 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法
JP6169805B2 (ja) フレームパラメータ再使用可能性を示すこと
KR101921403B1 (ko) 고차 앰비소닉 신호 압축
JP6293930B2 (ja) 高次アンビソニック係数においてスカラー量子化とベクトル量子化との間で決定すること

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250