JP7213364B2 - 空間オーディオパラメータの符号化及び対応する復号の決定 - Google Patents
空間オーディオパラメータの符号化及び対応する復号の決定 Download PDFInfo
- Publication number
- JP7213364B2 JP7213364B2 JP2021547951A JP2021547951A JP7213364B2 JP 7213364 B2 JP7213364 B2 JP 7213364B2 JP 2021547951 A JP2021547951 A JP 2021547951A JP 2021547951 A JP2021547951 A JP 2021547951A JP 7213364 B2 JP7213364 B2 JP 7213364B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- coherence
- subband
- value
- codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Description
各サブバンドに対応する前記少なくとも1つのコヒーレンスインデックスを復号するためのコードブックを、前記少なくとも1つのエネルギー比インデックスと前記少なくとも1つの方位角インデックスとに基づいて決定する手段と、
前記少なくとも1つのコヒーレンスインデックスを復号して逆離散コサイン変換することで、少なくとも1つのベクトルを生成する手段であって、前記少なくとも1つのベクトルは、前記フレームのサブバンドについて、スプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を含む、前記生成する手段と、
前記ベクトルを解析することで、各サブバンドに対応するスプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を生成する手段と、
を備える装置が提供される。
オーディオ信号のフレームのサブバンドに対応する符号化された値であって、各サブバンドに対応する少なくとも1つの方位角インデックスと、少なくとも1つの仰角インデックスと、少なくとも1つのエネルギー比インデックスと、スプレッドコヒーレンスインデックス又はサラウンドコヒーレンスインデックス若しくはその両方である少なくとも1つのコヒーレンスインデックスとを含む値を取得することと、
各サブバンドに対応する前記少なくとも1つのコヒーレンスインデックスを復号するためのコードブックを、前記少なくとも1つのエネルギー比インデックスと前記少なくとも1つの方位角インデックスとに基づいて決定することと、
前記少なくとも1つのコヒーレンスインデックスを復号して逆離散コサイン変換することで少なくとも1つのベクトルを生成することであって、前記少なくとも1つのベクトルは、前記フレームのサブバンドについて、スプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を含む、前記生成することと、
前記ベクトルを解析することで、各サブバンドに対応するスプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を生成することと、
を含む方法が提供される。
よい。
であり、4次のDCT行列との行列の乗算は以下の式と等価である。
ここで、
である。
For 各サブバンドi=1:N
コヒーレンスデータのM次元ベクトルにDCT変換を行う
If i <= l_N
DCT変換後のベクトルの最初の2成分を符号化する
Else
DCT変換後のベクトルの最初の3成分を符号化する
End if
End for
図5に、いくつかの実施形態に係る、入力としてDCTコヒーレンスベクトル404を受け取るベクトルエンコーダ405をさらに詳細に示す。
ここで、indexERiは、サブバンドiの量子化後エネルギー比のインデックスであり、len_cb_dct0[] ={7,6,5,4,4,4,3,2}である。
ED=B-(EPSC+SSC+SC+EP) (3)
ここで、EDは使用可能な残余ビット数、Bは当初のビット目標数、EPSCはスプレッドコヒーレンスの主パラメータの符号化に使用される推定ビット数、SSCはスプレッドコヒーレンスの従パラメータの符号化に使用されるビット数、SCはサラウンドコヒーレンスパラメータの符号化に使用されるビット数、EPはエネルギー比の符号化に使用されるビット数である。
static short quantize_coherence(IVAS_MASA_QDIRECTION* q_direction,
unsigned char coding_subbands,
unsigned char no_directions,
short all_coherence_zero,
short max_bits_coherence,
IVAS_MASA_METADATA_FRAME* metadata,
short write_flag,
int * first_pos)
{
short i, j, k;
float dct_coh[MASA_MAXIMUM_CODING_SUBBANDS][MASA_SUBFRAMES];
unsigned short idx_dct[MASA_SUBFRAMES*MASA_MAXIMUM_CODING_SUBBANDS];
short nbits;
int no_cb;
short no_cb_vec[MASA_MAXIMUM_CODING_SUBBANDS];
short bits_surround_coh;
if (all_coherence_zero == 1)
{
nbits = 0;
return nbits;
}
else
{
for (i = 0; i < no_directions; i++)
{
k = 0;
no_cb = 1;
for (j = 0; j < coding_subbands; j++)
{
/* DCT変換 */
dct4_transform(q_direction[i].spread_coherence[j], dct_coh[j]);
if (write_flag)
{
/* 1番目のDCTパラメータを量子化 */
dct_coh[j][0] = quantize_DCT_0_coh(dct_coh[j][0], j, coherence_cb0, DELTA_AZI_DCT0, NO_CV_COH, &q_direction[i], &idx_dct[k], &no_cb_vec[j]);
}
no_cb *= len_cb_dct0[q_direction->energy_ratio_index[j][0]];
idx_dct[k + coding_subbands] = quantize_sq(dct_coh[j][1], &coherence_cb1[j * NO_CV_COH1], NO_CV_COH1, &dct_coh[j][1]);
k++;
/* 2番目のDCTパラメータを量子化のために取り出す */
/*vec_dct_coh1[j]=dct_coh[j][1];*/
if (j > 2)
{
dct_coh[j][2] = 0.0f; /* dct_coh[j][2]; */
}
else
{
dct_coh[j][2] = 0.0f;
}
dct_coh[j][3] = 0.0f;
}
if (write_flag)
{
for (j = 0; j < coding_subbands; j++)
{
/* 逆DCT変換 */
invdct4_transform(dct_coh[j], q_direction[i].spread_coherence[j]);
}
}
/* インデックスを符号化してビットストリームを書き込み */
nbits = ceilf(logf((float)no_cb)*INV_LOG_2);
if (write_flag)
{
nbits = encode_coherence_indexesDCT0(idx_dct, coding_subbands, no_cb_vec, metadata, *first_pos);
}
else
{
*first_pos = metadata->bit_pos;
metadata->bit_pos += nbits;
nbits += encode_coherence_indexesDCT1(&idx_dct[coding_subbands], coding_subbands, no_cb_vec, metadata);
}
}
if (write_flag == 0)
{
bits_surround_coh = max_bits_coherence - nbits;
if (bits_surround_coh < MIN_BITS_SURR_COH)
{
bits_surround_coh = 0;
}
else
{
/* サラウンドコヒーレンスを符号化 */
bits_surround_coh = encode_surround_coherence(bits_surround_coh, q_direction, coding_subbands, no_directions, all_coherence_zero, metadata);
}
/* ビット数を出力 */
return nbits + bits_surround_coh;
}
else
{
return nbits;
}
}
}
static short encode_coherence_indexesDCT0(unsigned short* idx_dct, short len, short* no_cb_vec, IVAS_MASA_METADATA_FRAME* metadata, int first_pos)
{
short nbits = 0;
short i;
int no_cb;
unsigned short idx;
/* 結合符号化とともにDCT0次成分のビット計算 */
no_cb = no_cb_vec[0];
for (i = 1; i < len; i++)
{
no_cb *= no_cb_vec[i];
}
nbits = ceilf(logf((float)no_cb)*INV_LOG_2);
/* 結合されたインデックスを作成 */
idx = create_combined_index(idx_dct, len, no_cb_vec);
/* 結合されたインデックスを書き込み */
first_pos = write_in_bit_buff(metadata->bit_buffer, idx, first_pos, nbits);
return nbits;
}
static short encode_coherence_indexesDCT1(unsigned short* idx_dct, short len, short* no_cb_vec, IVAS_MASA_METADATA_FRAME* metadata)
{
short nbits = 0;
short i;
short GR_ord;
short av;
short data, bits_GR;
unsigned short mr_idx_dct[MASA_MAXIMUM_CODING_SUBBANDS];
GR_ord = 0;
bits_GR = mean_removed_GR(idx_dct, len, 0, &GR_ord, &av, metadata, mr_idx_dct);
for (i = 0; i < len; i++)
{
data = GR_data(mr_idx_dct[i], GR_ord, &bits_GR, 0);
nbits += bits_GR;
metadata->bit_pos = write_in_bit_buff(metadata->bit_buffer, data, metadata->bit_pos, bits_GR);
}
nbits += len_huf[av];
metadata->bit_pos = write_in_bit_buff(metadata->bit_buffer, huff_code_av[av], metadata->bit_pos, len_huf[av]);
return nbits;
}
static short mean_removed_GR(unsigned short* idx,
short len,
short adapt_GR,
short* GR_ord,
short* p_av,
IVAS_MASA_METADATA_FRAME* metadata,
unsigned short * mr_idx)
{
short av, i, nbits;
short sh_idx[5];
av = (short)roundf(sum_s((short*) idx, len) / (float)len);
*p_av = av;
for (i = 0; i < len; i++)
{
sh_idx[i] = idx[i] - av;
}
for (i = 0; i < len; i++)
{
if (sh_idx[i] < 0)
{
sh_idx[i] = -2*sh_idx[i];
}
else if (sh_idx[i] > 0)
{
sh_idx[i] = sh_idx[i] * 2 - 1;
}
else
{
sh_idx[i] = 0;
}
mr_idx[i] = (unsigned short)sh_idx[i];
}
nbits = GR_bits(mr_idx, len, *GR_ord, adapt_GR, GR_ord);
return nbits;
}
Claims (30)
- オーディオ信号のフレームの各サブバンドに対応する値であって、各サブバンドに対応する少なくとも1つの方位角値と、少なくとも1つの仰角値と、少なくとも1つのエネルギー比値と、スプレッド(spread)コヒーレンス値又はサラウンド(surround)コヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値とを含む値を受け取る手段と、
フレームについて、各サブバンドに対応するスプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を符号化するためのコードブックを、各サブバンドに対応する前記少なくとも1つのエネルギー比値と前記少なくとも1つの方位角値とに基づいて決定する手段と、
前記フレームについてサブバンドに対応する前記少なくとも1つのコヒーレンス値を含む少なくとも1つのベクトルを離散コサイン変換する手段と、
離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化する手段と、
を備える装置。 - フレームについて、各サブバンドに対応する少なくとも1つのコヒーレンス値を符号化するためのコードブックを、各サブバンドに対応する前記少なくとも1つのエネルギー比値と前記少なくとも1つの方位角値とに基づいて決定する前記手段は、さらに、
前記フレームについて各サブバンドに対応する前記少なくとも1つのエネルギー比値の加重平均を表すインデックスを取得し、
フレームについて前記サブバンドに対応する前記少なくとも1つの方位角値の分布を示す尺度が所定の閾値以上であるか否かを判断し、
前記インデックスと、フレームについて前記サブバンドに対応する前記少なくとも1つの方位角値の分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択するものである、
請求項1に記載の装置。 - 前記インデックスと、フレームについて前記サブバンドに対応する前記少なくとも1つの方位角値の分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択する前記手段は、さらに、コードブックに対応する複数のコードワードを前記インデックスに基づいて選択するものである、請求項2に記載の装置。
- 前記分布を示す前記尺度が、
連続する方位角値間の差の絶対値の平均、
サブバンドにおける平均方位角値に対する差の絶対値の平均、
前記フレームについての前記サブバンドに対応する前記少なくとも1つの方位角値の標準偏差、及び
前記フレームについての前記サブバンドに対応する前記少なくとも1つの方位角値の分散、
のうちいずれか1つである請求項2又は3に記載の装置。 - 離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化する前記手段は、さらに、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分が前記サブバンドに依存することを判定し、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分のうち第1の成分を前記コードブックに基づいて符号化するものである、
請求項1から4のいずれか1項に記載の装置。 - 離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化する前記手段は、さらに、
サブバンドのインデックスに基づくスカラー量子化のためのコードブックであって、それぞれが所定数のコードワードから成るコードブックを決定し、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分の残余成分に対応する少なくとも1つの追加インデックスを、前記サブバンドのインデックスに基づくスカラー量子化のためのコードブックに基づいて生成し、
平均を除去したインデックスを、離散コサイン変換された前記ベクトルにおける前記第1の数の成分の前記残余成分に対応する前記少なくとも1つの追加インデックスに基づいて生成し、
平均を除去した前記インデックスをエントロピー符号化するものである、
請求項5に記載の装置。 - 離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化する前記手段は、さらに、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分の残余成分に対応する少なくとも1つの追加インデックスを、規定数のコードワードを有するコードブックであって、さらに前記ベクトルのサブバンドインデックスに基づくコードブックに基づいて決定し、
平均を除去したインデックスを、離散コサイン変換された前記ベクトルにおける前記第1の数の成分の前記残余成分に対応する前記少なくとも1つの追加インデックスに基づいて決定し、
平均を除去した前記インデックスをエントロピー符号化するものである、
請求項5に記載の装置。 - 平均を除去した前記インデックスをエントロピー符号化する前記手段は、さらに、平均を除去した前記インデックスをゴロムライス(Golomb-Rice)符号化するものである、請求項6又は7に記載の装置。
- 離散コサイン変換された前記ベクトルにおける符号化された前記第1の数の成分を記憶及び/又は送信するように構成される、請求項1から8のいずれか1項に記載の装置。
- 前記少なくとも1つのエネルギー比値をスカラー量子化することで、各サブバンドに対応する少なくとも1つのコヒーレンス値を符号化するためのコードブックの決定に好適な少なくとも1つのエネルギー比値インデックスを生成するように構成される、請求項1から9のいずれか1項に記載の装置。
- 前記少なくとも1つの方位角値及び前記少なくとも1つの仰角値を符号化するための残余ビット数を、目標ビット数と、離散コサイン変換された前記ベクトルにおける第1の数の成分を前記符号化前に決定された前記コードブックに基づいて符号化するためのビット数の推定値と、前記少なくとも1つのエネルギー比値インデックスを表すビット数と、平均値を除去した前記インデックスの前記エントロピー符号化を表すビット数とに基づいて推定し、
前記少なくとも1つの方位角値及び前記少なくとも1つの仰角値を符号化することで、前記残余ビット数に基づいて少なくとも1つの方位角値インデックス及び少なくとも1つの仰角値インデックスを生成する、
ように構成され、
各サブバンドに対応する少なくとも1つのコヒーレンス値を符号化するための前記コードブックの前記決定は、前記少なくとも1つの方位角値インデックスに基づく、
請求項6又は7に従属する請求項10に記載の装置。 - オーディオ信号のフレームのサブバンドに対応する符号化された値であって、各サブバンドに対応する少なくとも1つの方位角インデックスと、少なくとも1つの仰角インデックスと、少なくとも1つのエネルギー比インデックスと、スプレッド(spread)コヒーレンスインデックス又はサラウンド(surround)コヒーレンスインデックス若しくはその両方である少なくとも1つのコヒーレンスインデックスとを含む値を取得する手段と、
各サブバンドに対応する前記少なくとも1つのコヒーレンスインデックスを復号するためのコードブックを、前記少なくとも1つのエネルギー比インデックスと前記少なくとも1つの方位角インデックスとに基づいて決定する手段と、
前記少なくとも1つのコヒーレンスインデックスを復号して逆離散コサイン変換することで、少なくとも1つのベクトルを生成する手段であって、前記少なくとも1つのベクトルは、前記フレームのサブバンドについて、スプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を含む、前記生成する手段と、
前記ベクトルを解析することで、各サブバンドに対応するスプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を生成する手段と、
を備える装置。 - 各サブバンドに対応する前記少なくとも1つのコヒーレンスインデックスを復号するためのコードブックを、前記少なくとも1つのエネルギー比インデックスと前記少なくとも1つの方位角インデックスとに基づいて決定する前記手段は、さらに、
フレームについて前記サブバンドに対応する前記少なくとも1つの方位角インデックスの分布を示す尺度が所定の閾値以上であるか否かを判断し、
前記少なくとも1つのエネルギー比インデックスと、フレームについての前記サブバンドに対応する前記少なくとも1つの方位角インデックスの分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択するものである、
請求項12に記載の装置。 - 前記少なくとも1つのエネルギー比インデックスと、フレームについて前記サブバンドに対応する前記少なくとも1つの方位角インデックスの分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択する前記手段は、さらに、前記少なくとも1つのエネルギー比インデックスに基づいて前記コードブックに対応する複数のコードワードを選択するものである、請求項13に記載の装置。
- 前記分布を示す前記尺度が、
連続する方位角値間の差の絶対値の平均、
サブバンドにおける平均方位角値に対する差の絶対値の平均、
前記フレームについての前記サブバンドに対応する少なくとも1つの方位角値の分散、
のうちいずれか1つである請求項13又は14に記載の装置。 - オーディオ信号のフレームの各サブバンドに対応する値であって、各サブバンドに対応する少なくとも1つの方位角値と、少なくとも1つの仰角値と、少なくとも1つのエネルギー比値と、スプレッド(spread)コヒーレンス値又はサラウンド(surround)コヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値とを含む値を受け取ることと、
フレームについて、各サブバンドに対応するスプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を符号化するためのコードブックを、各サブバンドに対応する前記少なくとも1つのエネルギー比値と前記少なくとも1つの方位角値とに基づいて決定することと
前記フレームについて、サブバンドに対応する前記少なくとも1つのコヒーレンス値を含む少なくとも1つのベクトルを離散コサイン変換することと、
離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化することと、
を含む方法。 - フレームについて、各サブバンドに対応する少なくとも1つのコヒーレンス値を符号化するためのコードブックを、各サブバンドに対応する前記少なくとも1つのエネルギー比値と前記少なくとも1つの方位角値とに基づいて決定することは、
前記フレームについて各サブバンドに対応する前記少なくとも1つのエネルギー比値の加重平均を表すインデックスを取得することと、
フレームについて前記サブバンドに対応する前記少なくとも1つの方位角値の分布を示す尺度が所定の閾値以上であるか否かを判断することと、
前記インデックスと、フレームについて前記サブバンドに対応する前記少なくとも1つの方位角値の分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択することと、
をさらに含む、請求項16に記載の方法。 - 前記インデックスと、前記判断とに基づいて前記コードブックを選択することは、コードブックに対応する複数のコードワードを前記インデックスに基づいて選択することをさらに含む
請求項17に記載の方法。 - 前記分布を示す前記尺度は、
連続する方位角値間の差の絶対値の平均、
サブバンドにおける平均方位角値に対する差の絶対値の平均、
前記フレームについての前記サブバンドに対応する前記少なくとも1つの方位角値の標準偏差、及び
前記フレームについての前記サブバンドに対応する前記少なくとも1つの方位角値の分散、
のうちいずれか1つである請求項17又は18に記載の方法。 - 離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化することは、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分が前記サブバンドに依存することを判定することと、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分のうち第1の成分を前記コードブックに基づいて符号化することと、
をさらに含む、請求項16から19のいずれか1項に記載の方法。 - 離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化することは、
サブバンドのインデックスに基づくスカラー量子化のためのコードブックであって、それぞれが所定数のコードワードから成るコードブックを決定することと、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分の残余成分に対応する少なくとも1つの追加インデックスを、前記サブバンドのインデックスに基づくスカラー量子化のためのコードブックに基づいて生成することと、
平均値を除去したインデックスを、離散コサイン変換された前記ベクトルにおける前記第1の数の成分の前記残余成分に対応する前記少なくとも1つの追加インデックスに基づいて生成することと、
平均を除去した前記インデックスをエントロピー符号化することと、
をさらに含む、請求項20に記載の方法。 - 離散コサイン変換された前記ベクトルにおける第1の数の成分を、決定された前記コードブックに基づいて符号化することは、
離散コサイン変換された前記ベクトルにおける前記第1の数の成分の残余成分に対応する少なくとも1つの追加インデックスを、規定数のコードワードを有するコードブックであって、さらに前記ベクトルのサブバンドインデックスに基づくコードブックに基づいて決定することと、
平均値を除去したインデックスを、離散コサイン変換された前記ベクトルにおける前記第1の数の成分の前記残余成分に対応する前記少なくとも1つの追加インデックスに基づいて決定することと、
平均値を除去した前記インデックスをエントロピー符号化することと、
をさらに含む、請求項20に記載の方法。 - 平均を除去した前記インデックスをエントロピー符号化することは、平均を除去した前記インデックスをゴロムライス(Golomb-Rice)符号化することをさらに含む、請求項21又は22に記載の方法。
- 離散コサイン変換された前記ベクトルにおける符号化された前記第1の数の成分を記憶及び/又は送信することをさらに含む、請求項16から23のいずれか1項に記載の方法。
- 前記少なくとも1つのエネルギー比値をスカラー量子化することで、各サブバンドに対応する少なくとも1つのコヒーレンス値を符号化するためのコードブックの決定に好適な少なくとも1つのエネルギー比値インデックスを生成することをさらに含む、請求項16から24のいずれか1項に記載の方法。
- 前記少なくとも1つの方位角値及び前記少なくとも1つの仰角値を符号化するための残余ビット数を、目標ビット数と、離散コサイン変換された前記ベクトルにおける第1の数の成分を前記符号化前に決定された前記コードブックに基づいて符号化するためのビット数の推定値と、前記少なくとも1つのエネルギー比値インデックスを表すビット数と、平均を除去した前記インデックスの前記エントロピー符号化を表すビット数とに基づいて推定することと、
前記少なくとも1つの方位角値及び前記少なくとも1つの仰角値を符号化することで、前記残余ビット数に基づいて少なくとも1つの方位角値インデックス及び少なくとも1つの仰角値インデックスを生成することと、
をさらに含み、各サブバンドに対応する少なくとも1つのコヒーレンス値を符号化するための前記コードブックの前記決定は、前記少なくとも1つの方位角値インデックスに基づく、請求項21又は22に従属する請求項25に記載の方法。 - オーディオ信号のフレームのサブバンドに対応する符号化された値であって、各サブバンドに対応する少なくとも1つの方位角インデックスと、少なくとも1つの仰角インデックスと、少なくとも1つのエネルギー比インデックスと、スプレッド(spread)コヒーレンスインデックス又はサラウンド(surround)コヒーレンスインデックス若しくはその両方である少なくとも1つのコヒーレンスインデックスとを含む値を取得することと、
各サブバンドに対応する前記少なくとも1つのコヒーレンスインデックスを復号するためのコードブックを、前記少なくとも1つのエネルギー比インデックスと前記少なくとも1つの方位角インデックスとに基づいて決定することと、
前記少なくとも1つのコヒーレンスインデックスを復号して逆離散コサイン変換することで少なくとも1つのベクトルを生成することであって、前記少なくとも1つのベクトルは、前記フレームのサブバンドについて、スプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を含む、前記生成することと、
前記ベクトルを解析することで、各サブバンドに対応するスプレッドコヒーレンス値又はサラウンドコヒーレンス値若しくはその両方である少なくとも1つのコヒーレンス値を生成することと、
を含む方法。 - 各サブバンドに対応する前記少なくとも1つのコヒーレンスインデックスを復号するためのコードブックを、前記少なくとも1つのエネルギー比インデックスと前記少なくとも1つの方位角インデックスとに基づいて決定することは、
フレームについて前記サブバンドに対応する前記少なくとも1つの方位角インデックスの分布を示す尺度が所定の閾値以上であるか否かを判断することと、
前記少なくとも1つのエネルギー比インデックスと、フレームについての前記サブバンドに対応する前記少なくとも1つの方位角インデックスの分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択することと、
をさらに含む、請求項27に記載の方法。 - 前記少なくとも1つのエネルギー比インデックスと、フレームについて前記サブバンドに対応する前記少なくとも1つの方位角インデックスの分布を示す尺度が所定の閾値以上であるか否かの前記判断とに基づいて前記コードブックを選択することは、
前記少なくとも1つのエネルギー比インデックスに基づいて前記コードブックに対応する複数のコードワードを選択することをさらに含む、請求項28に記載の方法。 - 前記分布を示す前記尺度が、
連続する方位角値間の差の絶対値の平均、
サブバンドにおける平均方位角値に対する差の絶対値の平均、
前記フレームについての前記サブバンドに対応する少なくとも1つの方位角値の分散、
のうちいずれか1つである請求項28又は29に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1817807.9A GB2578603A (en) | 2018-10-31 | 2018-10-31 | Determination of spatial audio parameter encoding and associated decoding |
GB1817807.9 | 2018-10-31 | ||
GB1903850.4 | 2019-03-21 | ||
GBGB1903850.4A GB201903850D0 (en) | 2019-03-21 | 2019-03-21 | Determination of spatial audio parameter encoding and associated decoding |
PCT/FI2019/050704 WO2020089510A1 (en) | 2018-10-31 | 2019-10-01 | Determination of spatial audio parameter encoding and associated decoding |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022509440A JP2022509440A (ja) | 2022-01-20 |
JPWO2020089510A5 JPWO2020089510A5 (ja) | 2022-09-26 |
JP7213364B2 true JP7213364B2 (ja) | 2023-01-26 |
Family
ID=70462154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547951A Active JP7213364B2 (ja) | 2018-10-31 | 2019-10-01 | 空間オーディオパラメータの符号化及び対応する復号の決定 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210407525A1 (ja) |
EP (1) | EP3874492B1 (ja) |
JP (1) | JP7213364B2 (ja) |
KR (1) | KR102587641B1 (ja) |
CN (1) | CN112997248A (ja) |
FI (1) | FI3874492T3 (ja) |
PT (1) | PT3874492T (ja) |
WO (1) | WO2020089510A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
US20200402523A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Psychoacoustic audio coding of ambisonic audio data |
GB2592896A (en) * | 2020-01-13 | 2021-09-15 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
CA3202283A1 (en) * | 2020-12-15 | 2022-06-23 | Adriana Vasilache | Quantizing spatial audio parameters |
WO2022223133A1 (en) * | 2021-04-23 | 2022-10-27 | Nokia Technologies Oy | Spatial audio parameter encoding and associated decoding |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007531915A (ja) | 2004-04-05 | 2007-11-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ステレオコーディング及びデコーディングの方法及び装置 |
JP2008517339A (ja) | 2005-04-19 | 2008-05-22 | コーディング テクノロジーズ アクチボラゲット | 空間音声パラメータの効率的符号化のためのエネルギー対応量子化 |
JP2009510514A (ja) | 2005-09-27 | 2009-03-12 | エルジー エレクトロニクス インコーポレイティド | マルチチャネルオーディオ信号の符号化/復号化方法及び装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8374237B2 (en) * | 2001-03-02 | 2013-02-12 | Dolby Laboratories Licensing Corporation | High precision encoding and decoding of video images |
US6735254B2 (en) * | 2001-06-29 | 2004-05-11 | Qualcomm, Inc. | DCT compression using Golomb-Rice coding |
US20070094035A1 (en) * | 2005-10-21 | 2007-04-26 | Nokia Corporation | Audio coding |
US9659569B2 (en) * | 2013-04-26 | 2017-05-23 | Nokia Technologies Oy | Audio signal encoder |
US11146903B2 (en) * | 2013-05-29 | 2021-10-12 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
CN107221334B (zh) * | 2016-11-01 | 2020-12-29 | 武汉大学深圳研究院 | 一种音频带宽扩展的方法及扩展装置 |
GB2572761A (en) * | 2018-04-09 | 2019-10-16 | Nokia Technologies Oy | Quantization of spatial audio parameters |
GB2577698A (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
GB2578603A (en) * | 2018-10-31 | 2020-05-20 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
-
2019
- 2019-10-01 EP EP19878287.2A patent/EP3874492B1/en active Active
- 2019-10-01 KR KR1020217016353A patent/KR102587641B1/ko active IP Right Grant
- 2019-10-01 FI FIEP19878287.2T patent/FI3874492T3/fi active
- 2019-10-01 JP JP2021547951A patent/JP7213364B2/ja active Active
- 2019-10-01 CN CN201980072488.XA patent/CN112997248A/zh active Pending
- 2019-10-01 PT PT198782872T patent/PT3874492T/pt unknown
- 2019-10-01 WO PCT/FI2019/050704 patent/WO2020089510A1/en unknown
- 2019-10-01 US US17/290,053 patent/US20210407525A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007531915A (ja) | 2004-04-05 | 2007-11-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | ステレオコーディング及びデコーディングの方法及び装置 |
JP2008517339A (ja) | 2005-04-19 | 2008-05-22 | コーディング テクノロジーズ アクチボラゲット | 空間音声パラメータの効率的符号化のためのエネルギー対応量子化 |
JP2009510514A (ja) | 2005-09-27 | 2009-03-12 | エルジー エレクトロニクス インコーポレイティド | マルチチャネルオーディオ信号の符号化/復号化方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210407525A1 (en) | 2021-12-30 |
JP2022509440A (ja) | 2022-01-20 |
PT3874492T (pt) | 2024-01-09 |
FI3874492T3 (fi) | 2024-01-08 |
EP3874492A4 (en) | 2022-08-10 |
EP3874492A1 (en) | 2021-09-08 |
CN112997248A (zh) | 2021-06-18 |
KR20210089184A (ko) | 2021-07-15 |
KR102587641B1 (ko) | 2023-10-10 |
WO2020089510A1 (en) | 2020-05-07 |
EP3874492B1 (en) | 2023-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7213364B2 (ja) | 空間オーディオパラメータの符号化及び対応する復号の決定 | |
KR102564298B1 (ko) | 공간적 오디오 파라미터 인코딩을 위한 양자화 체계의 선택 | |
CN111542877B (zh) | 空间音频参数编码和相关联的解码的确定 | |
GB2575305A (en) | Determination of spatial audio parameter encoding and associated decoding | |
CN111316353A (zh) | 确定空间音频参数编码和相关联的解码 | |
JP7405962B2 (ja) | 空間オーディオパラメータ符号化および関連する復号化の決定 | |
CN114945982A (zh) | 空间音频参数编码和相关联的解码 | |
KR102593235B1 (ko) | 공간 오디오 파라미터의 양자화 | |
JPWO2020089510A5 (ja) | ||
GB2578603A (en) | Determination of spatial audio parameter encoding and associated decoding | |
JP7223872B2 (ja) | 空間音声パラメータの重要度の決定および関連符号化 | |
WO2022223133A1 (en) | Spatial audio parameter encoding and associated decoding | |
JP2024512953A (ja) | 空間音声ストリームの結合 | |
CA3208666A1 (en) | Transforming spatial audio parameters | |
KR20230069173A (ko) | 공간 오디오 파라미터 양자화 | |
KR20230135665A (ko) | 공간 오디오 파라미터 인코딩 및 관련 디코딩 결정 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220630 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20220914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7213364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |