JP2022523414A - 回転の補間と量子化による空間化オーディオコーディング - Google Patents
回転の補間と量子化による空間化オーディオコーディング Download PDFInfo
- Publication number
- JP2022523414A JP2022523414A JP2021552656A JP2021552656A JP2022523414A JP 2022523414 A JP2022523414 A JP 2022523414A JP 2021552656 A JP2021552656 A JP 2021552656A JP 2021552656 A JP2021552656 A JP 2021552656A JP 2022523414 A JP2022523414 A JP 2022523414A
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- channels
- frame
- current frame
- rotation matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013139 quantization Methods 0.000 title description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 228
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims description 37
- 238000000513 principal component analysis Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 33
- 230000002441 reversible effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 239000002131 composite material Substances 0.000 claims 1
- 238000000354 decomposition reaction Methods 0.000 description 21
- 238000013459 approach Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004224 protection Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000002775 capsule Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101100189060 Arabidopsis thaliana PROC1 gene Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 description 1
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 1
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 1
- 102100024061 Integrator complex subunit 1 Human genes 0.000 description 1
- 101710092857 Integrator complex subunit 1 Proteins 0.000 description 1
- 108050002021 Integrator complex subunit 2 Proteins 0.000 description 1
- 102100021133 Nuclear protein 1 Human genes 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Abstract
Description
-ステレオタイプのマルチチャネルフォーマット(「チャネルベース」)5.1であり、各チャネルがスピーカに供給される(例えば、ステレオではLとR、5.1ではL、R、Ls、Rs、およびC)、および
-アンビソニックス・フォーマット(「シーンベース」)であり、一般的には球形のマイクで捉えられるか、または球形のハーモニクスの領域で合成される、所与の地点の音場を表現する。
-ベクトル: u(小文字、太字)
-行列: A(大文字、太字)
この目的のために、本発明は、0よりも高い次数のアンビソニックス表現におけるN個のチャネルの各々において、時間の経過とともに連続したサンプルフレームを形成するオーディオ信号の圧縮のための符号化方法を提案しており、この方法は、
-チャネルに基づいて、現在のフレームについて、チャネル間共分散の行列を形成し、固有ベクトルの行列を得るために共分散行列の固有ベクトルを探索するステップと、
-固有ベクトルの行列をテストして、該行列がN次元空間における回転を表していることを検証し、そうでない場合は、現在のフレームについて、回転行列が得られるまで固有ベクトルの行列を修正するステップと、
-信号の個別チャネル符号化の前に回転行列をN個のチャネルの信号に適用するステップとを含む。
-ネットワーク経由で送信するために、回転行列から取得したパラメータを符号化するステップを含み得る。
これらのパラメータは、典型的には、後述するように、四元数および/または回転角および/またはオイラー角の値であるか、あるいは、例えば、単にこの行列の要素である。
-現在のフレームについて得られた固有ベクトルの行列を、現在のフレームの前のフレームについて得られた回転行列と比較するステップと、
-前のフレームの回転行列との整合性を確保するために、現在のフレームの固有ベクトルの行列の列を順列化するステップとを含み得る。
-現在のフレームの各固有ベクトルについて、前のフレームの回転行列の対応する位置の列ベクトルとの方向の整合性を検証するステップと、
-一致しない場合、現在のフレームの固有ベクトルの行列におけるこの固有ベクトルの要素の符号を反転させるステップとを含む。
-現在のフレームについて得られた回転行列と、現在のフレームの前のフレームについて得られた回転行列との間の差を推定するステップと、
-推定された差に基づいて、現在のフレームの回転行列と前のフレームの回転行列との間で、少なくとも1つの補間を実行すべきか否かを判定するステップとを含み得る。
-推定された差に基づいて、現在のフレームの回転行列と前のフレームの回転行列との間で実行される補間の数が決定され、
-現在のフレームが、実行すべき補間の数に対応する数のサブフレームに分割され、
-少なくともこの数の補間が、前述のネットワークを介した送信のために符号化され得る。
QL,t-1は、前のサブフレームt-1の四元数の1つであり、
QR,t-1は、前のサブフレームt-1のもう一方の四元数であり
QL,tは、現在のサブフレームtの四元数の1つであり、
QR,tは、現在のサブフレームtのもう一方の四元数であり、
ΩL=Arccos(QL,t-1・QL,t); ΩR=Arccos(QR,t-1・QR,t)であり、
αは補間係数に相当する。
もちろん、(特異値分解など)他の実施形態も考えられる。
-各アンビソニックスチャネルについて、チャネルにおける現在の音響エネルギーを推定するステップと、
-メモリ内において、このアンビソニックスチャネルおよびネットワーク内の現在のビットレートに基づいて、所定の品質スコア(MOS)を選択するステップと、
-選択されたスコアに推定されたエネルギーを乗じることによって、このチャネルへのビット割り当てに適用される重み付けを推定するステップとを含む。
-現在のフレーム(t)について、この現在のフレームのN個のチャネルの信号に加えて、回転行列のパラメータを受信するステップと、
-パラメータから逆回転行列を構築するステップと、
-信号の個別チャネル復号化の前に、受信したN個のチャネルの信号に逆回転行列を適用するステップとを含む。
これにより、復号化の際に、Nチャネル間の相関除去を向上させることができる。
また、このようなコンピュータプログラムの命令を記憶した非一時的なメモリ記憶媒体に関するものである。
-適応的時間行列化(特にPCA/KLT(「PCA」は主成分分析、「KLT」はカルーネン・レーベ変換を表す)によって得られる適応的変換を用いる)。
-好ましくは続いてマルチモノ符号化を行うこと。
信号はオーディオ・サンプルの連続したブロックによって表現され、これらのブロックを以下「サブフレーム」と呼ぶ。
本発明では、フレームごとの量子化と、特にサブフレームによる効率的な補間に適したパラメータを持つ、n次元の回転の表現を使用する。2次元、3次元、4次元で使用される回転の表現を以下に定義する。
-ベクトルの振幅が保存され、
-回転前の直交座標系を定義するベクトルのクロス積は,回転後も保存される(反射はない)。
ここで、q1.q2は、2つの四元数の間のドットプロダクトを表す(2つの4次元ベクトルの間のドットプロダクトと同じである)。
特異値分解(SVD)は、大きさがm×nの実数行列Aを、A=UΣVTの形で因数分解する。ここで、Uは大きさm×mのユニタリ行列(UTU=Im)、Σは実数かつ正の係数σi≧0(i=1...p、p=min(m,n))を持つ大きさm×nの長方形の対角線行列、Vは大きさn×nのユニタリ行列(VTV=In)、VTはVの転置である。Σの対角線上にあるσi係数は、行列Aの特異値である。慣習的に、それらは一般的に降順に並べられ、この場合、Aに関連する対角行列Σは一意である。
0を中心としたランダムベクトルxと共分散行列Rxx=E[xxT]のカルーネン・レーベ変換(KLT)は、
y=VTx
によって定義され、ここで、Vは、Rxxを固有値
ここで、Λ=diag(λ1, ..., λn)は対角線上の行列で、その係数は固有値である。行列V=[v1, v2,..., vn]は、Rxxの固有ベクトル(列)を含み、
逆行列は、x=Vyによって与えられる。
主成分分析(PCA)は、直交する変数を生成し、投影後の変数の分散を最大化する(または同等に再構成誤差を最小化する)次元削減技術である。
なお、PCAは、サイズn×Nの行列Xの形で置かれた信号xiのSVDからも得ることができることに留意されたい。この場合、X=UDVTと書くことができる。
-2つの固有ベクトルを再び並べ替える(例えば、低エネルギーのチャネルに関連しているため、あまり代表的ではない)、または
-好ましくは、ステップS6において、列の全要素の符号を反転させる(例えば、低エネルギーのチャネルに関連する)。
-現在のフレームを複数のサブフレームに分割するステップと
-2つの行列の差を時間的に平滑化するために、前のフレームt-1の行列から現在のフレームtの行列に連続するサブフレームに適用する行列を補間するステップとから構成される。
-本発明の意味におけるコンピュータプログラムの命令データを格納するメモリMEM1(これらの命令は、エンコーダDCODとデコーダDDECの間で分散されてもよい)、
-異なるチャネル(例えば、4つの1次チャネルW、Y、Z、X)に分散されたアンビソニックス信号を、本発明の意味での圧縮符号化の観点から受信するためのインターフェースINT1、
-これらの信号を受信し、符号化を考慮して、メモリMEM1に格納されたコンピュータプログラム命令を実行することにより、信号を処理するプロセッサPROC1、および
-符号化された信号をネットワーク経由で送信するための通信インターフェースCOM1である。
-本発明の意味でのコンピュータプログラムの命令データを格納するためのメモリMEM2(これらの命令は、上記のようにエンコーダDCODとデコーダDDECの間で分散されることがある)、
-本発明の意味での圧縮から復号するために、符号化された信号をRESネットワークから受信するインターフェースCOM2、
-メモリMEM2に格納されたコンピュータプログラム命令を実行することにより、これらの信号を処理するプロセッサPROC2、および
-復号された信号を、例えば再生のためにアンビソニックスチャネルW′、Y′、Z′、X′の形で配信するための出力インターフェースINT2である。
各組み合わせのスコアを定義するために、いくつかの基準を使用することができる。
ここで、Boverheadは、後述するフレームごとに符号化される付加情報(ビット割り当て+回転データ)のビットバジェットである。例えば、4チャネルのアンビソニック符号化の場合、Boverheadは、20msフレーム(2.75kbps)あたり、Boverhead=55ビットとなり、これには、回転行列を符号化するための51ビットと、別々のチャネルを符号化するためのビット割り当てを符号化するための4ビット(後述)が含まれる。したがって、全体のビットレートが4×13.2=52.8kbpsの場合、Bmultimono=50.05kbpsのバジェットが残されていることになる。
-シングルトン(9.6, 9.6, 9.6, 9.6) - 合計 = 38.4
-(13.2, 9.6, 9.6, 9.6)の順列 - 合計 = 42 kbps
-(13.2, 13.2, 9.6, 9.6)の順列 - 合計 = 45.6 kbps
-(13.2, 13.2, 13.2, 9.6)の順列 - 合計 = 49.2 kbps
-(16.4, 9.6, 9.6, 9.6)の順列 - 合計 = 45.2 kbps
-(16.4, 13.2, 9.6, 9.6)の順列 - 合計 = 48.8 kbps
-(13.2, 13.2, 13.2, 9.6)の順列 - 4ケースであり、未使用のビットレートは50.5 - 49.2 = 1.3 kbpsである。
-16.4, 13.2, 9.6, 9.6)の順列 - 12ケースであり、未使用のビットレートは50.5 - 48.8 = 1.7 kbpsである。
-各チャネルのエネルギー、および
-主観的または客観的なテストから得られた、事前に保存可能な平均スコアである。このスコアは、MOS(「平均オピニオンスコア(Mean Opinion Score)」であり、テスターパネルの平均スコア)と呼ばれ、割り当てられたビットレートと関連付けられる。
-回転行列の符号化を伴う本発明による符号化、および
-前のフレームの回転行列が単位行列であった場合、直接マルチモノ符号化となる、回転行列を単位行列に限定した本発明による符号化(例えば、アンビソニックス信号が非常に拡散した音源や、特定の好ましい方向に空間的に広がった複数の音源で構成されている場合、この場合、アンビソニックスチャネルは、より分離した点音源を混合した音よりも相関性が低い)である。
-第1のステップ(上述の図2のS4)では、軸にのみ注意を払い、軸の方向(向き)には注意を払わずに、2つのフレーム間で最も近いベクトルをマッチングさせる。この問題は、タスク割り当ての組合せ問題として定式化することができ、ここでは、コストを最小化する構成を見つけることが目標となる。このコストは、フレームtとt-1の固有ベクトル行列の相互相関の絶対値のトレースと定義できる。
-第2のステップ(図2のS6)は、各順列化された固有ベクトルの方向/向きを決定することからなる。ブロック420は、フレームtの順列化された固有ベクトル
・(1, 0, 0, 0)および(1, 0, 0, 0)
・(0, 0, 0, 1)および(0, 0, -1, 0)
・(0, 1, 0, 0)および(0, 0, 0, -1)
・(0, 0, 1, 0)および(0, -1, 0, 0)
・(0.5, -0.5, -0.5, -0.5)および(0.5, 0.5, 0.5, 0.5)
・(0.5, 0.5, 0.5, 0.5)および(0.5, -0.5, -0.5, -0.5)
・(0.5, -0.5, 0.5, -0.5)および(0.5, -0.5, 0.5, 0.5)
・(0.5, -0.5, 0.5, 0.5)および(0.5, -0.5, -0.5, 0.5)
・(0.5, 0.5, -0.5, 0.5)および(0.5, 0.5, -0.5, -0.5)
・(0.5, -0.5, -0.5, 0.5)および(0.5, 0.5, -0.5, 0.5)
・(0.5, 0.5, -0.5, -0.5)および(0.5, 0.5, 0.5, -0.5)
・(0.5, 0.5, 0.5, -0.5)および(0.5, -0.5, 0.5, -0.5)
(偶数の)最適な順列の探索は、上記のリストを定義済みの四元数ペアの辞書として使用し、基底行列の変更に関連する四元数ペアに対して最近傍探索を行うことで行うことができる。この方法の利点は、四元数および四元数ペアタイプの回転パラメータを再利用できることである。
-ブロック430は、回転行列の単位四元数の組への変換(4チャネルの場合)、単位四元数への変換(3チャネルの場合)、および角度への変換(2チャネルの場合)を実行することができる。
関連する行列A[i,j]の計算
A[0,0] = R[0,0] + R[1,1] + R[2,2] + R[3,3]
A[1,0] = R[1,0] - R[0,1] + R[3,2] - R[2,3]
A[2,0] = R[2,0] - R[3,1] - R[0,2] + R[1,3]
A[3,0] = R[3,0] + R[2,1] - R[1,2] - R[0,3]
A[0,1] = R[1,0] - R[0,1] - R[3,2] + R[2,3]
A[1,1] = -R[0,0] - R[1,1] + R[2,2] + R[3,3]
A[2,1] = -R[3,0] - R[2,1] - R[1,2] - R[0,3]
A[3,1] = R[2,0] - R[3,1] + R[0,2] - R[1,3]
A[0,2] = R[2,0] + R[3,1] - R[0,2] - R[1,3]
A[1,2] = R[3,0] - R[2,1] - R[1,2] + R[0,3]
A[2,2] = -R[0,0] + R[1,1] - R[2,2] + R[3,3]
A[3,2] = -R[1,0] - R[0,1] - R[3,2] - R[2,3]
A[0,3] = R[3,0] - R[2,1] + R[1,2] - R[0,3]
A[1,3] = -R[2,0] - R[3,1] - R[0,2] - R[1,3]
A[2,3] = R[1,0] + R[0,1] - R[3,2] - R[2,3]
A[3,3] = -R[0,0] + R[1,1] + R[2,2] - R[3,3]
A=A/4
関連する行列から2つの四元数を計算する
A2 = square (A) # 係数の二乗
q1 = sqrt (A2.sum (axis = 1)) # 行の合計
q2 = sqrt (A2.sum (axis = 0)) # 列の合計
符号の決定
For k=0..3 : If sign(A[i,k])<0, Then q2[k] = -q2[k]
For k=0..3 : If sign(A[k,j])!=sign(q1[k]*q2[j]), Then q1[k] = -q1[k]
3次元の場合の四元数への変換は、行列の場合は以下のように行う。
3x3サイズのR[i,j] i,j=0…2
簡略化された関連行列の計算
q[0]=(R[0,0]+R[1,1]+R[2,2]+1)^2 + (R[2,1]-R[1,2])^2 + (R[0,2]-R[2,0])^2 + (R[1,0]-R[0,1])^2
q[1]=(R[2,1]-R[1,2])^2 + (R[0,0]-R[1,1]-R[2,2]+1)^2 + (R[1,0]+R[0,1])^2 + (R[2,0]+R[0,2])^2
q[2]=(R[0,2]-R[2,0])^2 + (R[1,0]+R[0,1])^2 + (R[1,1]-R[0,0]-R[2,2]+1)^2 + (R[2,1]+R[1,2])^2
q[3]=(R[1,0]-R[0,1])^2 + (R[2,0]+R[0,2])^2 + (R[2,1]+R[1,2])^2 + (R[2,2]-R[0,0]-R[1,1]+1)^2
For i=0..3: q[i] = sqrt(q[i])/4
四元数qの計算
If (R[2,1]-R[1,2])<0, q[1]=-q[1]
If (R[0,2]-R[2,0])<0, q[2]=-q[2]
If (R[1,0]-R[0,1])<0, q[3]=-q[3]
2x2 行列の場合、角度は従来から知られている方法で計算される。
いくつかの変形例では、単位四元数q1、q2(4次元の場合)およびq(3次元の場合)を、従来から知られている軸-角度表現に変換することができる。
-ブロック440は、指示された領域で量子化を行うことができる。
*4チャネルの場合:単位量子のペアq1とq2は、4次元の球形量子化辞書によって量子化される。慣習的に、q1は半球形の辞書で量子化され(q1と-q1は同じ3次元回転に対応するため)、q2は球形の辞書で量子化される。辞書の例としては、4次元の多面体をベースにした定義済みのポイントが挙げられる。いくつかの変形例では、四元数のペアに相当する、二重に関連付けられた軸-角度表現を量子化することが可能である。
*3チャネルの場合:単位四元数は,4次元の球形量子化辞書によって量子化される - 辞書の例は,4次元の多面体に基づいて定義された点で与えられる。
*2チャネルの場合:角度は一様なスカラ量子化によって量子化される。
左の四元数(QL,t)に対して、ブロックは2つの可能な(QL,tまたは-QL,t)間の最短経路を決定する。場合によっては、現在のフレームの四元数の符号が反転される。次に,球形線形補間(SLERP)を用いて,左の四元数に対して補間計算が行われる。
この回転行列への変換は、以下の疑似コードに従って実行することができる。
4次元の場合:四元数ペアに対して、
-前述のように、四元数行列とアンチ四元数行列が計算され、行列積が計算される。
3次元の場合:四元数q = (w, x, y, z)について、サイズ3x3の行列M[i,j], i,j=0...2を得る。
xy=2*x*y
xz=2*x*z
yz=2*y*z
wx=2*w*x
wy=2*w*y
wz=2*w*z
xx=2*x*x
yy=2*y*y
zz=2*z*z
M[0][0] = 1-(yy+zz)
M[0][1] = (xy-wz)
M[0][2] = (xz+wy)
M[1][0] = (xy+wz)
M[1][1] = 1-(xx+zz)
M[1][2] = (yz-wx)
M[2][0] = (xz-wy)
M[2][1] = (yz+wx)
M[2][2] = 1-(xx+yy);
しきい値:{4.0, 5.0, 6.0, 7.0}
補間を行うサブフレームの数K:{10, 48, 96, 192}。
ブロック450によって決定された補間の数Kは、その後、補間モジュール460に送られ、適応的な場合には、サブフレームの数は、マルチプレクサ(ブロック350)に送られるバイナリインデックスの形で符号化される。
しかし、いくつかの変形例では、4つ以上のチャネル数を符号化することも可能である。実装はn=4の場合と(機能ブロックとしては)同じだが、四元数ペアによる補間を以下の一般的な方法に置き換えている。
130 多重化
140 逆多重化
160 結合
Claims (15)
- 0よりも高い次数のアンビソニックス表現におけるN個のチャネルの各々において、時間の経過とともに連続したサンプルフレーム(t-1,t)を形成するオーディオ信号の圧縮のための符号化方法であって、
前記チャネルに基づいて、現在のフレーム(t)について、チャネル間共分散の行列を形成し、固有ベクトルの行列を得るために共分散行列の固有ベクトルを探索するステップと、
前記固有ベクトルの行列をテストして、該行列がN次元空間における回転を表していることを検証し、そうでない場合は、現在のフレーム(t)について、回転行列が得られるまで前記固有ベクトルの行列を修正するステップと、
信号の個別チャネル符号化の前に前記回転行列を前記N個のチャネルの信号に適用するステップと
を備える、方法。 - 前記現在のフレーム(t)について得られた固有ベクトルの前記行列を、前記現在のフレームの前のフレーム(t-1)について得られた回転行列と比較するステップと、
前記前のフレーム(t-1)の前記回転行列との整合性を確保するために、前記現在のフレーム(t)の固有ベクトルの前記行列の列を順列化するステップと
をさらに備える、請求項1に記載の方法。 - 前記列の順列化により、ベクトルの軸の整合性が確保され、前記方法は、
前記現在のフレーム(t)の各固有ベクトルについて、前記前のフレーム(t-1)の前記回転行列の対応する位置の列ベクトルとの方向の整合性を検証するステップと、
一致しない場合、前記現在のフレームの固有ベクトルの前記行列におけるこの固有ベクトルの要素の符号を反転させるステップと
をさらに備える、請求項2に記載の方法。 - 前記現在のフレーム(t)について得られた前記回転行列と、前記現在のフレームの前のフレーム(t-1)について得られた回転行列との間の差を推定するステップと、
前記推定された差に基づいて、前記現在のフレーム(t)の前記回転行列と前記前のフレーム(t-1)の前記回転行列との間で、少なくとも1つの補間を実行すべきか否かを判定するステップと
をさらに備える、請求項1~3のいずれか一項に記載の方法。 - 前記推定された差に基づいて、前記現在のフレーム(t)の前記回転行列と前記前のフレーム(t-1)の前記回転行列との間で実行される補間の数が決定され、
前記現在のフレームが、実行すべき補間の数に対応する数のサブフレームに分割され、
少なくともこの数の補間が、ネットワークを介した送信のために符号される、請求項4に記載の方法。 - 固有ベクトルの前記行列の列間を順列化して、前記固有ベクトルの行列式の符号を反転させ、回転行列の行列式が1になる場合、固有ベクトルの前記行列式が1に等しい場合、前記固有ベクトルの行列の選択した列の要素の符号が反転し、前記行列式が1に等しくなり、回転行列が形成される、請求項1~5のいずれか一項に記載の方法。
- 前記アンビソニックス表現は1次であり、チャネル数Nは4であり、前記現在のフレームの回転行列が、2つの四元数で表される、請求項1~6のいずれか一項に記載の方法。
- 現在のサブフレームに対する各補間が、前記現在のサブフレームの前のサブフレームの補間の関数として、前記前のサブフレームの四元数に基づいて実施される球形線形補間(SLERP)である、請求項6を引用する請求項7に記載の方法。
- 固有ベクトルの探索が、主成分分析(PCA)またはカルーネン・レーベ変換(KLT)によって、時間領域で行われる、請求項1~9のいずれか一項に記載の方法。
- アンビソニックスチャネルごとのビット割り当てバジェットを予測する前のステップが実施され、前記方法は、
各アンビソニックスチャネルについて、前記チャネルにおける前記現在の音響エネルギーを推定するステップと、
メモリ内において、このアンビソニックスチャネルおよびネットワーク内の現在のビットレートに基づいて、所定の品質スコア(MOS)を選択するステップと、
前記選択されたスコアに推定されたエネルギーを乗じることによって、このチャネルへのビット割り当てに適用される重み付けを推定するステップと
をさらに備える、請求項1~10のいずれか一項に記載の方法。 - 0よりも高い次数のアンビソニックス表現におけるN個のチャネルの各々において、時間の経過とともに連続したサンプルフレーム(t-1,t)を形成するオーディオ信号の復号方法であって、
現在のフレーム(t)について、この現在のフレームのN個のチャネルの信号に加えて、回転行列のパラメータを受信するステップと、
前記パラメータから逆回転行列を構築するステップと、
信号の個別チャネル復号化の前に、受信したN個のチャネルの信号に前記逆回転行列を適用するステップと
を備える、方法。 - 請求項1~11のいずれか一項に記載の方法を実施するための処理回路を備えた符号化デバイス。
- 請求項12に記載の方法を実施するための処理回路を備えた複合デバイス。
- 処理回路のプロセッサによって実行されると、請求項1~12のいずれか一項に記載の方法を実施する命令を備えたコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024001364A JP2024024095A (ja) | 2019-03-05 | 2024-01-09 | 回転の補間と量子化による空間化オーディオコーディング |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19305254.5A EP3706119A1 (fr) | 2019-03-05 | 2019-03-05 | Codage audio spatialisé avec interpolation et quantification de rotations |
EP19305254.5 | 2019-03-05 | ||
PCT/EP2020/053264 WO2020177981A1 (fr) | 2019-03-05 | 2020-02-10 | Codage audio spatialisé avec interpolation et quantification de rotations |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024001364A Division JP2024024095A (ja) | 2019-03-05 | 2024-01-09 | 回転の補間と量子化による空間化オーディオコーディング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022523414A true JP2022523414A (ja) | 2022-04-22 |
JP7419388B2 JP7419388B2 (ja) | 2024-01-22 |
Family
ID=65991736
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021552656A Active JP7419388B2 (ja) | 2019-03-05 | 2020-02-10 | 回転の補間と量子化による空間化オーディオコーディング |
JP2024001364A Pending JP2024024095A (ja) | 2019-03-05 | 2024-01-09 | 回転の補間と量子化による空間化オーディオコーディング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024001364A Pending JP2024024095A (ja) | 2019-03-05 | 2024-01-09 | 回転の補間と量子化による空間化オーディオコーディング |
Country Status (8)
Country | Link |
---|---|
US (1) | US11922959B2 (ja) |
EP (2) | EP3706119A1 (ja) |
JP (2) | JP7419388B2 (ja) |
KR (1) | KR20210137114A (ja) |
CN (1) | CN113728382A (ja) |
BR (1) | BR112021017511A2 (ja) |
WO (1) | WO2020177981A1 (ja) |
ZA (1) | ZA202106465B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022120011A1 (en) * | 2020-12-02 | 2022-06-09 | Dolby Laboratories Licensing Corporation | Rotation of sound components for orientation-dependent coding schemes |
FR3118266A1 (fr) * | 2020-12-22 | 2022-06-24 | Orange | Codage optimisé de matrices de rotations pour le codage d’un signal audio multicanal |
CN115497485A (zh) * | 2021-06-18 | 2022-12-20 | 华为技术有限公司 | 三维音频信号编码方法、装置、编码器和系统 |
EP4120255A1 (fr) | 2021-07-15 | 2023-01-18 | Orange | Quantification vectorielle spherique optimisee |
FR3136099A1 (fr) | 2022-05-30 | 2023-12-01 | Orange | Codage audio spatialisé avec adaptation d’un traitement de décorrélation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010540985A (ja) * | 2007-09-19 | 2010-12-24 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・オーディオのジョイント強化 |
US20160155448A1 (en) * | 2013-07-05 | 2016-06-02 | Dolby International Ab | Enhanced sound field coding using parametric component generation |
JP2016528535A (ja) * | 2013-07-05 | 2016-09-15 | ドルビー インターナショナル アクチボラグ | パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112012008793B1 (pt) * | 2009-10-15 | 2021-02-23 | France Telecom | Processos de codificação e de decodificação paramétrica de um sinalaudiodigital multicanal, codificador e decodificador paramétricos de um sinalaudiodigital multicanal |
US9854377B2 (en) * | 2013-05-29 | 2017-12-26 | Qualcomm Incorporated | Interpolation for decomposed representations of a sound field |
-
2019
- 2019-03-05 EP EP19305254.5A patent/EP3706119A1/fr not_active Withdrawn
-
2020
- 2020-02-10 EP EP20703048.7A patent/EP3935629A1/fr active Pending
- 2020-02-10 WO PCT/EP2020/053264 patent/WO2020177981A1/fr unknown
- 2020-02-10 BR BR112021017511A patent/BR112021017511A2/pt unknown
- 2020-02-10 CN CN202080031569.8A patent/CN113728382A/zh active Pending
- 2020-02-10 US US17/436,390 patent/US11922959B2/en active Active
- 2020-02-10 JP JP2021552656A patent/JP7419388B2/ja active Active
- 2020-02-10 KR KR1020217031995A patent/KR20210137114A/ko unknown
-
2021
- 2021-09-03 ZA ZA2021/06465A patent/ZA202106465B/en unknown
-
2024
- 2024-01-09 JP JP2024001364A patent/JP2024024095A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010540985A (ja) * | 2007-09-19 | 2010-12-24 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・オーディオのジョイント強化 |
US20160155448A1 (en) * | 2013-07-05 | 2016-06-02 | Dolby International Ab | Enhanced sound field coding using parametric component generation |
JP2016528535A (ja) * | 2013-07-05 | 2016-09-15 | ドルビー インターナショナル アクチボラグ | パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システム |
Also Published As
Publication number | Publication date |
---|---|
BR112021017511A2 (pt) | 2021-11-16 |
EP3706119A1 (fr) | 2020-09-09 |
JP2024024095A (ja) | 2024-02-21 |
EP3935629A1 (fr) | 2022-01-12 |
US20220148607A1 (en) | 2022-05-12 |
CN113728382A (zh) | 2021-11-30 |
US11922959B2 (en) | 2024-03-05 |
WO2020177981A1 (fr) | 2020-09-10 |
JP7419388B2 (ja) | 2024-01-22 |
KR20210137114A (ko) | 2021-11-17 |
ZA202106465B (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798568B2 (en) | Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data | |
JP7419388B2 (ja) | 回転の補間と量子化による空間化オーディオコーディング | |
EP3017446B1 (en) | Enhanced soundfield coding using parametric component generation | |
US8249883B2 (en) | Channel extension coding for multi-channel source | |
US7953604B2 (en) | Shape and scale parameters for extended-band frequency coding | |
US20070172071A1 (en) | Complex transforms for multi-channel audio | |
US20070174062A1 (en) | Complex-transform channel coding with extended-band frequency coding | |
Mahé et al. | First-order ambisonic coding with quaternion-based interpolation of PCA rotation matrices | |
KR20220018588A (ko) | DirAC 기반 공간 오디오 코딩을 위한 패킷 손실 은닉 | |
US20230260522A1 (en) | Optimised coding of an item of information representative of a spatial image of a multichannel audio signal | |
US20220358937A1 (en) | Determining corrections to be applied to a multichannel audio signal, associated coding and decoding | |
CN116670759A (zh) | 用于对多声道音频信号进行编码的旋转矩阵的优化编码 | |
WO2017148526A1 (en) | Audio signal encoder, audio signal decoder, method for encoding and method for decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7419388 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |