JP2019509511A - マルチチャネル符号化におけるステレオ充填装置及び方法 - Google Patents
マルチチャネル符号化におけるステレオ充填装置及び方法 Download PDFInfo
- Publication number
- JP2019509511A JP2019509511A JP2018543213A JP2018543213A JP2019509511A JP 2019509511 A JP2019509511 A JP 2019509511A JP 2018543213 A JP2018543213 A JP 2018543213A JP 2018543213 A JP2018543213 A JP 2018543213A JP 2019509511 A JP2019509511 A JP 2019509511A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- channels
- decoded
- pair
- audio output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011049 filling Methods 0.000 title claims abstract description 221
- 238000000034 method Methods 0.000 title claims description 95
- 230000003595 spectral effect Effects 0.000 claims abstract description 259
- 238000012545 processing Methods 0.000 claims abstract description 234
- 238000002156 mixing Methods 0.000 claims abstract description 54
- 230000004044 response Effects 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 117
- 230000008569 process Effects 0.000 claims description 36
- 238000013139 quantization Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims 1
- 230000005236 sound signal Effects 0.000 description 32
- 230000011664 signaling Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 239000000945 filler Substances 0.000 description 10
- 238000005429 filling process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 208000022018 mucopolysaccharidosis type 2 Diseases 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Peptides Or Proteins (AREA)
Abstract
Description
インタフェースは、現在の符号化されたマルチチャネル信号を受信し、第1のマルチチャネルパラメータを含むサイド情報を受信するように適合される。
チャネルデコーダは、現フレームの現在の符号化されたマルチチャネル信号を復号し、現フレームの3つ以上の復号されたチャネルのセットを取得するように適合される。
マルチチャネル処理部は、第1のマルチチャネルパラメータに応じて、3つ以上の復号されたチャネルのセットから2つの復号されたチャネルの第1の選択されたペアを選択するように適合される。
−現在の符号化されたマルチチャネル信号を受信し、第1のマルチチャネルパラメータを含むサイド情報を受信すること。
−現フレームの現在の符号化されたマルチチャネル信号を復号し、現フレームの3つ以上の復号されたチャネルのセットを取得すること。
−第1のマルチチャネルパラメータに応じて、3つ以上の復号されたチャネルのセットから2つの復号されたチャネルの第1の選択されたペアを選択すること。
−2つの復号されたチャネルの前記第1の選択されたペアに基づいて、2つ以上の処理されたチャネルの第1のグループを生成し、3つ以上の復号されたチャネルの更新されたセットを取得すること。
−2つの復号されたチャネルの第1の選択されたペアの2つのチャネルの少なくとも1つについて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域を識別し、3つ以上の前オーディオ出力チャネルの全てではなく、2つ以上を使用してミキシングチャネルを生成し、ミキシングチャネルのスペクトル線を使用して生成されたノイズを用いて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を充填し、サイド情報に応じて3つ以上の前オーディオ出力チャネルからミキシングチャネルを生成するために使用される2つ以上の前オーディオ出力チャネルを選択することが実行される。
−第1の反復ステップにおいて、最高値を有するペア又は閾値より上の値を有するペアを選択するために、第1の反復ステップにおいて、少なくとも3つのチャネルの各ペアの間のチャネル間相関値を計算し、かつマルチチャネル処理動作を用いて選択されたペアを処理して選択されたペア用の初期マルチチャネルパラメータを導出し、かつ第1の処理されたチャネルを導出すること。
−処理されたチャネルの少なくとも1つを使用して、第2の反復ステップで計算、選択及び処理を実行して、更なるマルチチャネルパラメータ及び第2の処理されたチャネルを導出すること。
−符号化されたチャネルを得るために、反復処理部によって実行される反復処理から生じるチャネルを符号化すること。
−符号化されたチャネル、初期マルチチャネルパラメータ及び更なるマルチチャネルパラメータを有し、かつ復号化装置によって以前に復号されていた以前に復号されたオーディオ出力チャネルに基づいて生成されたノイズを用いて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、復号化装置が充填すべきか否かを示す情報を有する符号化されたマルチチャネル信号を生成すること。
以下では、本発明の実施形態を図面を参照してより詳細に説明する。
stereo_filling 現フレーム及びチャネルにおいてSFが利用されるか否かを示す2値フラグ
更に、新たな補助要素が導入される。
noise_offset ゼロ量子化された帯域のスケールファクタを修正するためのノイズ充填オフセット(セクション7.2)
noise_level 追加されるスペクトルノイズの振幅を表すノイズ充填レベル(セクション7.2)
downmix_prev[] 前フレームの左及び右チャネルのダウンミックス(即ち、和又は差)
sf_index[g][sfb] 窓グループg及び帯域sfbのためのスケールファクタインデックス(即ち、伝送される整数)
stereo_fillingは独立したビットストリーム要素を表すのではなく、UsacChannelPairElement()内のノイズ充填要素、noise_offset及びnoise_levelと、StereoCoreToolInfo()中のcommon_windowフラグとから導出される。noiseFilling==0、common_window==0、又は現チャネルがその要素中の左(第1の)チャネルである場合、stereo_fillingは0であり、ステレオ充填処理は終了する。そうでない場合、
if ((noiseFilling != 0) && (common_window != 0) && (noise_level == 0)) {
stereo_filling = (noise_offset & 16) / 16;
noise_level = (noise_offset & 14) / 2;
noise_offset = (noise_offset & 1) * 16;
}
else {
stereo_filling = 0;
}
ステレオ充填に使用されるべきスペクトルダウンミックスであるdownmix_prev[]は、複素ステレオ予測におけるMDSTスペクトル推定(セクション7.7.2.3)に使用されるdmx_re_prev[]と同一である。これは以下を意味する。
facDmx = sqrt((sfbWidth[sfb] - energy[sfb]) / energy_dmx[sfb]);
factor = 0.0;
/* if the previous downmix isn't empty, add the scaled downmix lines such that band reaches unity energy */
for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {
spectrum[window][index] += downmix_prev[window][index] * facDmx;
factor += spectrum[window][index] * spectrum[window][index];
}
if ((factor != sfbWidth[sfb]) && (factor > 0)) { /* unity energy isn't reached, so modify band */
factor = sqrt(sfbWidth[sfb] / (factor + 1e-8));
for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {
spectrum[window][index] *= factor;
}
}
}
stereo_filling = 1;
noise_level = (noise_offset & 28) / 4;
noise_offset = (noise_offset & 3) * 8;
}
else {
stereo_filling = 0;
}
numPairs=numChannels*(numChannels−1)/2
従って、1つのチャネルペアを信号伝達するのに必要なビット数は、
numBits=floor(log2(numPairs−1))+1
ここでpは予測係数である。
KLTベースの回転の回転角度αは、次のように定義でき、
Cxyは正規化されていない相関行列のエントリであり、ここで、C11及びC22はチャネルエネルギーである。
α=0.5*atan2(2*correlation[ch1][ch2]、
(correlation[ch1][ch1]−correlation[ch2][ch2]))
図10は、符号化されたチャネルE1〜E3と、少なくとも2つのマルチチャネルパラメータMCH_PAR1及びMCH_PAR2とを有する符号化されたマルチチャネル信号107を復号する装置(デコーダ)200の概略ブロック図を示す。
チャネルデコーダ202は、符号化されたチャネルE1〜E3を復号して、D1〜D3の復号されたチャネルを得るように構成される。
numBits = floor(log2(maxNumPairIdx)+1;
pairCounter = 0;
for (chan1=1; chan1 < nChannels; chan1++) {
for (chan0=0; chan0 < chan1; chan0++) {
if (pairCounter == pairIdx) {
channelPair[0] = chan0;
channelPair[1] = chan1;
return;
}
else
pairCounter++;
}
}
}
mctBandsPerWindow = numMaskBands[pair]/windowsPerFrame;
if(delta_code_time[pair] > 0) {
lastVal = alpha_prev_fullband[pair];
} else {
lastVal = DEFAULT_ALPHA;
}
newAlpha = lastVal + dpcm_alpha[pair][0];
if(newAlpha >= 64) {
newAlpha -= 64;
}
for (band=0; band < numMaskBands; band++){
/* set all angles to fullband angle */
pairAlpha[pair][band] = newAlpha;
/* set previous angles according to mctMask */
if(mctMask[pair][band] > 0) {
alpha_prev_frame[pair][band%mctBandsPerWindow] = newAlpha;
}
else {
alpha_prev_frame[pair][band%mctBandsPerWindow] = DEFAULT_ALPHA;
}
}
alpha_prev_fullband[pair] = newAlpha;
for(band=bandsPerWindow ; band<MAX_NUM_MC_BANDS; band++) {
alpha_prev_frame[pair][band] = DEFAULT_ALPHA;
}
}
for(pair=0; pair<numPairs; pair++) {
mctBandsPerWindow = numMaskBands[pair]/windowsPerFrame;
for(band=0; band<numMaskBands[pair]; band++) {
if(delta_code_time[pair] > 0) {
lastVal = alpha_prev_frame[pair][band%mctBandsPerWindow];
}
else {
if ((band % mctBandsPerWindow) == 0) {
lastVal = DEFAULT_ALPHA;
}
}
if (msMask[pair][band] > 0 ) {
newAlpha = lastVal + dpcm_alpha[pair][band];
if(newAlpha >= 64) {
newAlpha -= 64;
}
pairAlpha[pair][band] = newAlpha;
alpha_prev_frame[pair][band%mctBandsPerWindow] = newAlpha;
lastVal = newAlpha;
}
else {
alpha_prev_frame[pair][band%mctBandsPerWindow] = DEFAULT_ALPHA; /* -45° */
}
/* reset fullband angle */
alpha_prev_fullband[pair] = DEFAULT_ALPHA;
}
for(band=bandsPerWindow ; band<MAX_NUM_MC_BANDS; band++) {
alpha_prev_frame[pair][band] = DEFAULT_ALPHA;
}
}
-1.000000f,-0.998795f,-0.995185f,-0.989177f,-0.980785f,-0.970031f,-0.956940f,-0.941544f,
-0.923880f,-0.903989f,-0.881921f,-0.857729f,-0.831470f,-0.803208f,-0.773010f,-0.740951f,
-0.707107f,-0.671559f,-0.634393f,-0.595699f,-0.555570f,-0.514103f,-0.471397f,-0.427555f,
-0.382683f,-0.336890f,-0.290285f,-0.242980f,-0.195090f,-0.146730f,-0.098017f,-0.049068f,
0.000000f, 0.049068f, 0.098017f, 0.146730f, 0.195090f, 0.242980f, 0.290285f, 0.336890f,
0.382683f, 0.427555f, 0.471397f, 0.514103f, 0.555570f, 0.595699f, 0.634393f, 0.671559f,
0.707107f, 0.740951f, 0.773010f, 0.803208f, 0.831470f, 0.857729f, 0.881921f, 0.903989f,
0.923880f, 0.941544f, 0.956940f, 0.970031f, 0.980785f, 0.989177f, 0.995185f, 0.998795f
};
tabIndexToCosAlpha[64] = {
0.000000f, 0.049068f, 0.098017f, 0.146730f, 0.195090f, 0.242980f, 0.290285f, 0.336890f,
0.382683f, 0.427555f, 0.471397f, 0.514103f, 0.555570f, 0.595699f, 0.634393f, 0.671559f,
0.707107f, 0.740951f, 0.773010f, 0.803208f, 0.831470f, 0.857729f, 0.881921f, 0.903989f,
0.923880f, 0.941544f, 0.956940f, 0.970031f, 0.980785f, 0.989177f, 0.995185f, 0.998795f,
1.000000f, 0.998795f, 0.995185f, 0.989177f, 0.980785f, 0.970031f, 0.956940f, 0.941544f,
0.923880f, 0.903989f, 0.881921f, 0.857729f, 0.831470f, 0.803208f, 0.773010f, 0.740951f,
0.707107f, 0.671559f, 0.634393f, 0.595699f, 0.555570f, 0.514103f, 0.471397f, 0.427555f,
0.382683f, 0.336890f, 0.290285f, 0.242980f, 0.195090f, 0.146730f, 0.098017f, 0.049068f
};
{
for (pair=0; pair < self->numPairs; pair++) {
mctBandOffset = 0;
/* inverse MCT rotation */
for (win = 0, group = 0; group <num_window_groups; group++) {
for (groupwin = 0; groupwin < window_group_length[group]; groupwin++, win++) {
*dmx = spectral_data[ch1][win];
*res = spectral_data[ch2][win];
apply_mct_rotation_wrapper(self,dmx,res,&alphaSfb[mctBandOffset],
&mctMask[mctBandOffset],mctBandsPerWindow, alpha,
totalSfb,pair,nSamples);
}
mctBandOffset += mctBandsPerWindow;
}
}
}
apply_mct_rotation_wrapper(self, *dmx, *res, *alphaSfb, *mctMask, mctBandsPerWindow,
alpha, totalSfb, pair, nSamples)
{
sfb = 0;
if (self->MCCSignalingType == 0) {
}
else if (self->MCCSignalingType == 1) {
/* apply fullband box */
if (!self->bHasBandwiseAngles[pair] && !self->bHasMctMask[pair]) {
apply_mct_rotation(dmx, res, alphaSfb[0], nSamples);
}
else {
/* apply bandwise processing */
for (i = 0; i< mctBandsPerWindow; i++) {
if (mctMask[i] == 1) {
startLine = swb_offset [sfb];
stopLine = (sfb+2<totalSfb)? swb_offset [sfb+2] :swb_offset [sfb+1];
nSamples = stopLine-startLine;
apply_mct_rotation(&dmx[startLine], &res[startLine], alphaSfb[i], nSamples);
}
sfb += 2;
/* break condition */
if (sfb >= totalSfb) {
break;
}
}
}
}
else if (self->MCCSignalingType == 2) {
}
else if (self->MCCSignalingType == 3) {
apply_mct_rotation(dmx, res, alpha, nSamples);
}
}
apply_mct_rotation(*dmx, *res, alpha, nSamples)
{
for (n=0;n<nSamples;n++) {
L = dmx[n] * tabIndexToCosAlpha [alphaIdx] - res[n] * tabIndexToSinAlpha [alphaIdx];
R = dmx[n] * tabIndexToSinAlpha [alphaIdx] + res[n] * tabIndexToCosAlpha [alphaIdx];
dmx[n] = L;
res[n] = R;
}
}
図7及び図14に示すように、合成チャネルP3、P4及びP2(又は図14のシナリオ(b)のP2’、P3’及びP4’)がチャネルエンコーダ104に供給される。とりわけ、チャネルエンコーダ104は、例えばチャネルP2、P3及びP4のスペクトル値が量子化のためにゼロに設定されるように、量子化を行うことができる。スペクトル的に近傍のスペクトルサンプルは、スペクトル帯域として符号化されてもよく、各スペクトル帯域は多数のスペクトルサンプルを含むことができる。
又は式
に基づいて、正確に2つの前オーディオ出力チャネルを使用して、ミキシングチャネルを生成するように適合され、
ここでDchは、ミキシングチャネルであり、
は、正確な2つの前オーディオ出力チャネルのうちの第1のオーディオ出力チャネルであり、
は、正確な2つの前オーディオ出力チャネルのうちの第2のオーディオ出力チャネルであり、正確な2つの前オーディオ出力チャネルのうちの第1のオーディオ出力チャネルとは異なり、dは、実数の正のスカラーである。
が適切なミキシングチャネルであってもよい。このような手法は、考慮される2つの前オーディオ出力チャネルのミッドチャネルとしてミキシングチャネルを計算する。
を適用する場合、例えば、
の場合、ゼロに近いミキシングチャネルが生じることがある。次に、例えば、
をミキシング信号として使用することが好ましい場合がある。従って、サイドチャネル(位相ずれ入力チャネル用)が使用される。
又は式
に基づいて、正確に2つの前オーディオ出力チャネルを使用して、ミキシングチャネルを生成するように適合され、
ここで
は、ミキシングチャネルであり、
は、正確な2つの前オーディオ出力チャネルのうちの第1のオーディオ出力チャネルであり、
は、正確な2つの前オーディオ出力チャネルのうちの第2のオーディオ出力チャネルであり、正確な2つの前オーディオ出力チャネルのうちの第1のオーディオ出力チャネルとは異なり、αは、回転角度である。
一実施形態では、回転角度は、例えば、30°<α<60°の範囲内にあってもよい。
が適切なミキシングチャネルであってもよい。このような手法は、考慮される2つの前オーディオ出力チャネルのミッドチャネルとしてミキシングチャネルを計算する。
を適用する場合、例えば、
の場合、ゼロに近いミキシングチャネルが生じることがある。次に、例えば、
をミキシング信号として使用することが好ましい場合がある。
周波数帯域は、例えば、スケールファクタ帯域であってもよい。
0.2*0.01=0.002
0.3*0.01=0.003
0.5*0.01=0.005
0.1*0.01=0.001
インデックス チャネル名
0 左
1 右
2 中央
3 左サラウンド
4 右サラウンド
(0;3),(1;4),(0;1)
(0;1),(1;4),(0;3)
このシステムは、上述のような符号化装置100と、上述の実施形態の1つに従う復号化装置201とを備える。
符号化されたマルチチャネル信号は、
−符号化されたチャネル(E1〜E3)と、
−マルチチャネルパラメータMCH_PAR1、MCH_PAR2と、
−全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、復号化装置によって以前に復号された、以前に復号されたオーディオ出力チャネルに基づいて生成されたスペクトルデータを用いて、復号化装置が充填すべきか否かを示す情報と
を含む。
実施形態は、パラメトリック低ビットレート符号化モードのために、任意のステレオツリーを使用することの柔軟性で、ステレオ充填とMCTとの組み合わせを実現する。
、
ここで、
は任意の実数スカラーと正スカラーである。
逆回転は次のように計算され、
は前出力チャネル
および
の所望の前ダウンミックスである。
単一のステレオボックスにステレオ充填を適用する方法については、[1]、[5]に説明される。
MCTツリー構成は、現フレームでステレオ充填が許可されているか否かを信号伝達できるように、フレームごとに1つの信号伝達ビットによって拡張されている。
実施形態は、低ビットレートマルチチャネル動作点の品質を改善する。
いくつかの実施形態は、例えば、以下のように、前ダウンミックスの計算を実現することができる。
hasStereoFilling[pair] 現在処理されたMCTチャネルペアのステレオ充填の使用を示す
ch1、ch2 現在処理されたMCTチャネルペアのチャネルのインデックス
spectral_data[][] 現在処理されたMCTチャネルペアにおけるチャネルのスペクトル係数
spectral_data_prev[][] 前フレームにおけるMCT処理が完了した後の出力スペクトル
downmix_prev[][] 現在処理されたMCTチャネルペアによって与えられるインデックスを用いる前フレームの出力チャネルの推定ダウンミックス
num_swb スケールファクタ帯域の総数、ISO/IEC23003−3、6.2.9.4項を参照
ccfl coreCoderFrameLength、変換長、ISO/IEC 23003−3、6.1項を参照
noiseFillingStartOffset ISO/IEC23003−3、表109のccflに応じて定義されるノイズ充填開始ライン。
igf_WhiteningLevel IGFにおけるスペクトルホワイトニング、ISO/IEC23008−3、5.5.5.4.7項参照
seed[] randomSign()によって使用されるノイズ充填シード、ISO/IEC23003−3、7.2項参照。
ステップ1:ステレオ充填アルゴリズムのための第2のチャネルのスペクトルの準備
所与のMCTチャネルペアのステレオ充填インジケータhasStereoFilling[pair]が0の場合、ステレオ充填は使用されず、以下のステップは実行されない。そうでない場合、ペアの第2のチャネルスペクトルであるspectral_data[ch2]に以前に適用されていた場合、スケールファクタ適用は実行されない。
前ダウンミックスは、MCT処理の適用後に格納された前フレームの出力信号spectral_data_prev[][]から推定される。前出力チャネル信号が利用できない場合、例えば、独立フレーム(indepFlag>0)、変換長変更又はcore_mode==1の場合、対応するチャネルの前チャネルバッファはゼロに設定される。
{
for(n=0;n<nSamples;n++){
dmx=L[n]*tabIndexToCosAlpha[aIdx]+R[n]*tabIndexToSinAlpha[aIdx];
}
}
前フレームのL=spectral_data_prev[ch1][]、R=spectral_data_prev[ch2][]、dmx=downmix_prev[]を使用し、現フレームとMCTペアのaIdx、n個のサンプルを使用する。
ステレオ充填は、[1]の5.5.5.4.9.4項のステップ3のように、MCTペアの第2のチャネルに適用され、spectrum[window]は
spectral_data[ch2][window]によって表され、max_sfb_steはnum_swbで与えられる。
[1]の5.5.5.4.9.4項のステップ3の後、スケールファクタはISO/IEC 23003−3の7.3のように結果のスペクトルに適用され、空の帯域のスケールファクタは通常のスケールファクタのように処理される。スケール係数が定義されていない場合、例えば、max_sfbよりも上にあるため、その値はゼロに等しくなる場合がある。IGFが使用され、igf_WhiteningLevelが第2のチャネルのタイルのいずれかで2に等しく、両方のチャネルが8個の短い変換を使用しない場合、MCTペアの両方のチャネルのスペクトルエネルギーは、decode_mct()を実行する前に、インデックスnoiseFillingStartOffsetからインデックスccfl/2−1までの範囲で計算される。第1のチャネルの計算されたエネルギーが第2のチャネルのエネルギーの8倍を超える場合、第2のチャネルのシード[ch2]は第1のチャネルのシード[ch1]に等しく設定される。
Claims (22)
- 前フレームの前の符号化されたマルチチャネル信号を復号して3つ以上の前オーディオ出力チャネルを取得し、現フレームの現在の符号化されたマルチチャネル信号(107)を復号して3つ以上の現オーディオ出力チャネルを取得する装置(201)であって、
前記装置(201)は、インタフェース(212)、チャネルデコーダ(202)、前記3つ以上の現オーディオ出力チャネルを生成するためのマルチチャネル処理部(204)、及びノイズ充填モジュール(220)を含み、
前記インタフェース(212)は、前記現在の符号化されたマルチチャネル信号(107)を受信し、第1のマルチチャネルパラメータ(MCH_PAR2)を含むサイド情報を受信するように適合され、
前記チャネルデコーダ(202)は、前記現フレームの前記現在の符号化されたマルチチャネル信号を復号して、前記現フレームの3つ以上の復号されたチャネルのセット(D1、D2、D3)を取得するように適合され、
前記マルチチャネル処理部(204)は、前記第1のマルチチャネルパラメータ(MCH_PAR2)に応じて、前記3つ以上の復号されたチャネル(D1、D2、D3)のセットから2つの復号されたチャネルの第1の選択されたペア(D1、D2)を選択するように適合され、
前記マルチチャネル処理部(204)は、2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアに基づいて、2つ以上の処理されたチャネル(P1*、P2*)の第1のグループを生成し、3つ以上の復号されたチャネル(D3、P1*、P2*)の更新されたセットを取得するように適合され、
前記マルチチャネル処理部(204)が、2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアに基づいて、2つ以上の処理されたチャネル(P1*、P2*)の前記第1のペアを生成する前に、前記ノイズ充填モジュール(220)は、2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアの前記2つのチャネルの少なくとも1つについて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域を識別し、前記3つ以上の前オーディオ出力チャネルの全てではなく、2つ以上を使用してミキシングチャネルを生成し、前記ミキシングチャネルのスペクトル線を使用して生成されたノイズを用いて、全てのスペクトル線がゼロに量子化される前記1つ以上の周波数帯域の前記スペクトル線を充填するのに適合し、前記ノイズ充填モジュール(220)は、前記サイド情報に応じて前記3つ以上の前オーディオ出力チャネルから前記ミキシングチャネルを生成するために使用される前記2つ以上の前オーディオ出力チャネルを選択するのに適合される、
装置。 - 前記ノイズ充填モジュール(220)は、前記3つ以上の前オーディオ出力チャネルのうちの前記2つ以上の前オーディオ出力チャネルとして、前記3つ以上の前オーディオ出力チャネルのうちの正確に2つの前オーディオ出力チャネルを使用して、前記ミキシングチャネルを生成するのに適合され、
前記ノイズ充填モジュール(220)は、前記サイド情報に応じて、前記3つ以上の前オーディオ出力チャネルから前記正確に2つの前オーディオ出力チャネルを選択するように適合される、
請求項1に記載の装置(201)。 - 前記ノイズ充填モジュール(220)は、式
又は式
に基づいて、正確に2つの前オーディオ出力チャネルを使用して、前記ミキシングチャネルを生成するように適合され、
ここでDchは、前記ミキシングチャネルであり、
は、前記正確な2つの前オーディオ出力チャネルのうちの第1のオーディオ出力チャネルであり、
は、前記正確な2つの前オーディオ出力チャネルのうちの第2のオーディオ出力チャネルであり、前記正確な2つの前オーディオ出力チャネルのうちの前記第1のオーディオ出力チャネルとは異なり、dは、実数の正のスカラーである、
請求項2に記載の装置(201)。 - 前記ノイズ充填モジュール(220)は、式
又は式
に基づいて、正確に2つの前オーディオ出力チャネルを使用して、前記ミキシングチャネルを生成するように適合され、
ここで
は、前記ミキシングチャネルであり、
は、前記正確な2つの前オーディオ出力チャネルのうちの第1のオーディオ出力チャネルであり、
は、前記正確な2つの前オーディオ出力チャネルのうちの第2のオーディオ出力チャネルであり、前記正確な2つの前オーディオ出力チャネルのうちの前記第1のオーディオ出力チャネルとは異なり、αは、回転角度である、
請求項2に記載の装置(201)。 - 前記サイド情報は、前記現フレームに割り当てられている現在のサイド情報であり、
前記インタフェース(212)は、前記前フレームに割り当てられた以前のサイド情報を受信するように構成され、前記以前のサイド情報は以前の角度を含み、
前記インタフェース(212)は、現在の角度を含む前記現在のサイド情報を受信するように適合され、
前記ノイズ充填モジュール(220)は、前記現在のサイド情報の前記現在の角度を、前記回転角度αとして使用するように適合され、前記以前のサイド情報の前記以前の角度を前記回転角度αとして使用しないように適合される、
請求項4に記載の装置(201)。 - 前記ノイズ充填モジュール(220)は、前記第1のマルチチャネルパラメータ(MCH_PAR2)に応じて、前記3つ以上の前オーディオ出力チャネルから前記正確に2つの前オーディオ出力チャネルを選択するように適合される、請求項2から5のいずれか一項に記載の装置(201)。
- 前記インタフェース(212)は、前記現在の符号化されたマルチチャネル信号(107)を受信し、前記第1のマルチチャネルパラメータ(MCH_PAR2)および第2のマルチチャネルパラメータ(MCH_PAR1)を含む前記サイド情報を受信するように適合され、
前記マルチチャネル処理部(204)は、前記第2のマルチチャネルパラメータ(MCH_PAR1)に応じて、3つ以上の復号されたチャネル(D3、P1*、P2*)の前記更新されたセットから2つの復号されたチャネル(P1*、D3)の第2の選択されたペアを選択するように適合され、2つの復号されたチャネル(P1*、D3)の前記第2の選択されたペアの少なくとも1つのチャネル(P1*)は、2つ以上の処理されたチャネル(P1*、P2*)の前記第1のペアの1つのチャネルであり、
前記マルチチャネル処理部(204)は、2つの復号されたチャネル(P1、D3)の前記第2の選択されたペアに基づいて、2つ以上の処理されたチャネル(P3*、P4*)の第2のグループを生成し、3つ以上の復号されたチャネルの前記更新されたセットを更に更新するように適合される、
請求項2から6のいずれか一項に記載の装置(201)。 - 前記マルチチャネル処理部204は、2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアに基づいて、正確に2つの処理されたチャネル(P1*、P2*)の第1のグループを生成することによって、2つ以上の処理されたチャネル(P1*、P2*)の前記第1のグループを生成するように適合され、
前記マルチチャネル処理部(204)は、正確に2つの処理されたチャネル(P1*、P2*)の前記第1のグループによって、3つ以上の復号されたチャネル(D1、D2、D3)の前記セットにおいて2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアを置き換え、3つ以上の復号されたチャネル(D3、P1*、P2*)の前記更新されたセットを得るように適合され、
前記マルチチャネル処理部(204)は、2つの復号されたチャネル(P1*、D3)の前記第2の選択されたペアに基づいて、正確に2つの処理されたチャネル(P3*、P4*)の前記第2のグループを生成することによって、2つ以上の処理されたチャネル(P3*、P4*)の第2のグループを生成するように適合され、
前記マルチチャネル処理部(204)は、正確に2つの処理されたチャネル(P3*、P4*)の前記第2のグループによって、3つ以上の復号されたチャネル(D3、P1*、P2*)の前記更新されたセットにおいて2つの復号されたチャネル(P1*、D3)の前記第2の選択されたペアを置き換え、3つ以上の復号されたチャネルの前記更新されたセットを更に更新するように適合される、
請求項7に記載の装置(201)。 - 前記第1のマルチチャネルパラメータ(MCH_PAR2)は、3つ以上の復号されたチャネルの前記セットから2つの復号されたチャネル(D1、D2)を示し、
前記マルチチャネル処理部(204)は、前記第1のマルチチャネルパラメータ(MCH_PAR2)によって示される前記2つの復号されたチャネル(D1、D2)を選択することによって、3つ以上の復号されたチャネルの前記セット(D1、D2、D3)から2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアを選択するように適合され、
前記第2のマルチチャネルパラメータ(MCH_PAR1)は、3つ以上の復号されたチャネルの前記更新されたセットから2つの復号されたチャネル(P1*、D3)を示し、
前記マルチチャネル処理部(204)は、前記第2のマルチチャネルパラメータ(MCH_PAR1)によって示される2つの復号されたチャネル(P1*、D3)を選択することによって、3つ以上の復号されたチャネル(D3、P1*、P2*)の前記更新されたセットから、前記2つの復号されたチャネル(P1*、D3)の前記第2の選択されたペアを選択するように適合される、
請求項8に記載の装置(201)。 - 前記装置(201)は、前記3つ以上の前オーディオ出力チャネルの各前オーディオ出力チャネルに、識別部の前記セットから識別部を割り当てるように適合され、その結果、前記3つ以上の前オーディオ出力チャネルの各前オーディオ出力チャネルが、識別部の前記セットのうちの正確に1つの識別部に割り当てられ、識別部の前記セットの各識別部が、前記3つ以上の前オーディオ出力チャネルのうちの正確に1つの前オーディオ出力チャネルに割り当てられ、
前記装置(201)は、前記3つ以上の復号されたチャネル(D1、D2、D3)の前記セットの各チャネルに、識別部の前記セットから識別部を割り当てるように適合され、その結果、前記3つ以上の復号されたチャネルの前記セットの各チャネルが、識別部の前記セットのうちの正確に1つの識別部に割り当てられ、識別部の前記セットの各識別部が、前記3つ以上の復号されたチャネル(D1、D2、D3)の前記セットの正確に1つのチャネルに割り当てられ、
前記第1のマルチチャネルパラメータ(MCH_PAR2)は、前記3つ以上の識別部の前記セットの2つの識別部の第1のペアを示し、
前記マルチチャネル処理部(204)は、2つの識別部の前記第1のペアの2つの識別部に割り当てられる2つの復号されたチャネル(D1、D2)を選択することによって、3つ以上の復号されたチャネル(D1、D2、D3)の前記セットから前記2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアを選択するように適合され、
前記装置(201)は、2つの識別部の前記第1のペアの前記2つの識別部のうちの第1の識別部を、正確に2つの処理されたチャネル(P1*、P2*)の前記第1のグループの第1の処理されたチャネルに割り当てるように適合され、
前記装置(201)は、2つの識別部の前記第1のペアの前記2つの識別部のうちの第2の識別部を、正確に2つの処理されたチャネル(P1*、P2*)の前記第1のグループの第2の処理されたチャネルに割り当てるように適合される、
請求項9に記載の装置(201)。 - 前記第2のマルチチャネルパラメータ(MCH_PAR1)は、前記3つ以上の識別部の前記セットの2つの識別部の第2のペアを示し、
前記マルチチャネル処理部(204)は、2つの識別部の前記第2のペアの前記2つの識別部に割り当てられる前記2つの復号されたチャネル(D3,P1*)を選択することによって、3つ以上の復号されたチャネル(D3、P1*、P2*)の前記更新されたセットから前記2つの復号されたチャネル(P1*、D3)の前記第2の選択されたペアを選択するように適合され、
前記装置(201)は、2つの識別部の前記第2のペアの前記2つの識別部のうちの第1の識別部を、正確に2つの処理されたチャネル(P3*、P4*)の前記第2のグループの第1の処理されたチャネルに割り当てるように適合され、
前記装置(201)は、2つの識別部の前記第2のペアの前記2つの識別部のうちの第2の識別部を、正確に2つの処理されたチャネル(P3*、P4*)の前記第2のグループの第2の処理されたチャネルに割り当てるように適合される、
請求項10に記載の装置(201)。 - 前記第1のマルチチャネルパラメータ(MCH_PAR2)は、前記3つ以上の識別部の前記セットの2つの識別部の前記第1のペアを示し、
前記ノイズ充填モジュール(220)は、2つの識別部の前記第1のペアの前記2つの識別部に割り当てられる前記2つの前オーディオ出力チャネルを選択することによって、前記3つ以上の前オーディオ出力チャネルから前記正確に2つの前オーディオ出力チャネルを選択するように適合される、請求項10又は11に記載の装置(201)。 - 前記マルチチャネル処理部(204)が、2つの復号されたチャネルの前記第1の選択されたペア(D1、D2)に基づいて、2つ以上の処理されたチャネル(P1*,P2*)の前記第1のペアを生成する前に、前記ノイズ充填モジュール(220)は、2つの復号されたチャネルの前記第1の選択されたペア(D1、D2)の前記2つのチャネルの少なくとも1つについて、全てのスペクトル線がゼロに量子化される前記1つ以上の周波数帯域である1つ以上のスケールファクタ帯域を識別し、前記3つ以上の前オーディオ出力チャネルの全てではなく、前記2つ以上の前オーディオ出力チャネルを使用して前記ミキシングチャネルを生成し、全てのスペクトル線がゼロに量子化される前記1つ以上のスケールファクタ帯域のそれぞれのスケールファクタに依存して、前記ミキシングチャネルの前記スペクトル線を使用して生成された前記ノイズを用いて、全てのスペクトル線がゼロに量子化される前記1つ以上の周波数帯域の前記スペクトル線を充填するのに適合される、
請求項1から12のいずれか一項に記載の装置(201)。 - 前記受信インタフェース(212)は、前記1つ以上のスケールファクタ帯域のそれぞれの前記スケールファクタを受信するように構成され、
前記1つ以上のスケールファクタ帯域の各々の前記スケールファクタは、量子化前の前記スケールファクタ帯域の前記スペクトル線のエネルギーを示し、
前記ノイズ充填モジュール(220)は、全てのスペクトル線がゼロに量子化された前記1つ以上のスケールファクタ帯域の各々について前記ノイズを生成するように適合され、その結果、前記スペクトル線のエネルギーは、前記周波数帯域の1つに前記ノイズを加えた後に、前記スケールファクタ帯域の前記スケールファクタによって示される前記エネルギーに対応する、
請求項13に記載の装置(201)。 - 少なくとも3つのチャネル(CH1〜CH3)を有するマルチチャネル信号(101)を符号化するための装置(100)であって、前記装置は、
第1の反復ステップにおいて、最高値を有するペア又は閾値より上の値を有するペアを選択し、かつマルチチャネル処理動作(110,112)を用いて前記選択されたペアを処理して前記選択されたペア用の初期マルチチャネルパラメータ(MCH_PAR1)を導出し、かつ第1の処理されたチャネル(P1,P2)を導出するために、前記第1の反復ステップにおいて、前記少なくとも3つのチャネル(CH〜CH3)の各ペアの間のチャネル間相関値を計算するのに適した、反復処理部(102)であって、
前記反復処理部(102)は、前記処理されたチャネル(P1)の少なくとも1つを使用して、第2の反復ステップで計算、選択及び処理を実行して、更なるマルチチャネルパラメータMCH_PAR2及び第2の処理されたチャネル(P3,P4)を導出するのに適合される、反復処理部と、
符号化されたチャネル(E1〜E3)を得るために、前記反復処理部(104)によって実行される反復処理から生じるチャネル(P2〜P4)を符号化するのに適合されたチャネルエンコーダと、
前記符号化されたチャネル(E1〜E3)、前記初期マルチパラメータ及び前記更なるマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)を有し、更に復号化装置によって以前に復号された、以前に復号されたオーディオ出力チャネルに基づいて生成されたノイズを用いて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、前記復号化装置が充填すべきか否かを示す情報を有する符号化されたマルチチャネル信号(107)を生成するのに適合された出力インタフェース(106)と、
を備える、装置。 - 前記初期マルチチャネルパラメータ及び前記更なるマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)の各々は、正確に2つのチャネルを示し、前記正確に2つのチャネルの各々は、前記符号化されたチャネル(E1〜E3)の1つであるか、前記第1又は前記第2の処理されたチャネル(P1、P2、P3、P4)のうちの1つ、又は前記少なくとも3つのチャネルのうちの1つ(CH〜CH3)であり、
前記出力インタフェース(106)は、前記符号化されたマルチチャネル信号(107)を生成するように適合され、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、復号化装置が充填すべきか否かを示す前記情報が、前記初期及び前記マルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)のそれぞれについて、前記初期及び前記更なるマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)のうちの前記1つによって示される前記正確に2つのチャネルの少なくとも1つのチャネルについて、前記少なくとも1つのチャネルの全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、前記復号化装置によって以前に復号された、前記以前に復号されたオーディオ出力チャネルに基づいて生成された前記スペクトルデータを用いて、前記復号化装置が充填すべきか否かを示す情報を備える、
請求項15に記載の装置(100)。 - 請求項15又は16に記載の符号化装置(100)と、
請求項1から14のいずれか一項に記載の復号化装置(201)と
を含み、
前記復号化装置(201)は、前記符号化装置(100)から前記符号化装置(100)によって生成された前記符号化されたマルチチャネル信号(107)を受信するように構成される、システム。 - 前フレームの前の符号化されたマルチチャネル信号を復号して3つ以上の前オーディオ出力チャネルを取得し、現フレームの現在の符号化されたマルチチャネル信号(107)を復号して3つ以上の現オーディオ出力チャネルを取得する方法であって、前記方法は、
前記現在の符号化されたマルチチャネル信号(107)を受信し、第1のマルチチャネルパラメータ(MCH_PAR2)を含むサイド情報を受信することと、
前記現フレームの前記現在の符号化されたマルチチャネル信号を復号して、前記現フレームの3つ以上の復号されたチャネルのセット(D1、D2、D3)を取得することと、
前記第1のマルチチャネルパラメータ(MCH_PAR2)に応じて、前記3つ以上の復号されたチャネル(D1、D2、D3)のセットから2つの復号されたチャネルの第1の選択されたペア(D1、D2)を選択することと、
2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアに基づいて、2つ以上の処理されたチャネル(P1*、P2*)の第1のグループを生成し、3つ以上の復号されたチャネル(D3、P1*、P2*)の更新されたセットを取得することと、
を含み、
2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアに基づいて、2つ以上の処理されたチャネル(P1*、P2*)の前記第1のペアが生成される前に、
2つの復号されたチャネル(D1、D2)の前記第1の選択されたペアの前記2つのチャネルの少なくとも1つについて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域を識別し、前記3つ以上の前オーディオ出力チャネルの全てではなく、2つ以上を使用してミキシングチャネルを生成し、前記ミキシングチャネルのスペクトル線を使用して生成されたノイズを用いて、全てのスペクトル線がゼロに量子化される前記1つ以上の周波数帯域の前記スペクトル線を充填し、前記3つ以上の前オーディオ出力チャネルから前記ミキシングチャネルを生成するために使用される前記2つ以上の前オーディオ出力チャネルを選択することは前記サイド情報に依存する、
方法。 - 少なくとも3つのチャネル(CH1〜CH3)を有するマルチチャネル信号(101)を符号化するための方法であって、前記方法は、
第1の反復ステップにおいて、最高値を有するペア又は閾値より上の値を有するペアを選択し、かつマルチチャネル処理動作(110,112)を用いて前記選択されたペアを処理して前記選択されたペア用の初期マルチチャネルパラメータ(MCH_PAR1)を導出し、かつ第1の処理されたチャネル(P1,P2)を導出するために、前記第1の反復ステップにおいて、前記少なくとも3つのチャネル(CH〜CH3)の各ペアの間のチャネル間相関値を計算することと、
前記処理されたチャネル(P1)の少なくとも1つを使用して、第2の反復ステップで計算、選択及び処理を実行して、更なるマルチチャネルパラメータ(MCH_PAR2)及び第2の処理されたチャネル(P3,P4)を導出することと、
符号化されたチャネル(E1〜E3)を得るために、前記反復処理部(104)によって実行される反復処理から生じるチャネル(P2〜P4)を符号化することと、
前記符号化されたチャネル(E1〜E3)、前記初期マルチパラメータ及び前記更なるマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)を有し、更に復号化装置によって以前に復号された、以前に復号されたオーディオ出力チャネルに基づいて生成されたノイズを用いて、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、前記復号化装置が充填すべきか否かを示す情報を有する符号化されたマルチチャネル信号(107)を生成することと、
を備える、
方法。 - コンピュータ又は信号処理部上で実行される場合、請求項18又は19に記載の方法を実施するためのコンピュータプログラム。
- 符号化されたチャネル(E1〜E3)と、
マルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)と、
全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、復号化装置によって以前に復号された、以前に復号されたオーディオ出力チャネルに基づいて生成されたスペクトルデータを用いて、前記復号化装置が充填すべきか否かを示す情報と
を含む、符号化されたマルチチャネル信号。 - 前記符号化されたマルチチャネル信号が、前記マルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)として、2つ以上のマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)を含み、
前記初期マルチチャネルパラメータ及び前記更なるマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)の各々は、正確に2つのチャネルを示し、前記正確に2つのチャネルの各々は、前記符号化されたチャネル(E1〜E3)の1つであるか、複数の処理されたチャネル(P1、P2、P3、P4)のうちの1つ、又は前記少なくとも3つの元のチャネルのうちの1つ(CH〜CH3)であり、
前記情報は、全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、復号化装置が充填すべきか否かを示し、前記2つ以上のマルチチャネルパラメータ(MCH_PAR1、MCH_PAR2)のそれぞれについて、前記2つ以上のマルチチャネルパラメータのうちの前記1つによって示される前記正確に2つのチャネルの少なくとも1つのチャネルについて、前記少なくとも1つのチャネルの全てのスペクトル線がゼロに量子化される1つ以上の周波数帯域のスペクトル線を、前記復号化装置によって以前に復号された、前記以前に復号されたオーディオ出力チャネルに基づいて生成された前記スペクトルデータを用いて、前記復号化装置が充填すべきか否かを示す、
請求項21に記載の符号化マルチチャネル信号(107)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16156209.5A EP3208800A1 (en) | 2016-02-17 | 2016-02-17 | Apparatus and method for stereo filing in multichannel coding |
EP16156209.5 | 2016-02-17 | ||
PCT/EP2017/053272 WO2017140666A1 (en) | 2016-02-17 | 2017-02-14 | Apparatus and method for stereo filling in multichannel coding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020117752A Division JP7122076B2 (ja) | 2016-02-17 | 2020-07-08 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019509511A true JP2019509511A (ja) | 2019-04-04 |
JP6735053B2 JP6735053B2 (ja) | 2020-08-05 |
Family
ID=55361430
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018543213A Active JP6735053B2 (ja) | 2016-02-17 | 2017-02-14 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
JP2020117752A Active JP7122076B2 (ja) | 2016-02-17 | 2020-07-08 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
JP2022125967A Active JP7528158B2 (ja) | 2016-02-17 | 2022-08-06 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
JP2024118284A Pending JP2024133390A (ja) | 2016-02-17 | 2024-07-24 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020117752A Active JP7122076B2 (ja) | 2016-02-17 | 2020-07-08 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
JP2022125967A Active JP7528158B2 (ja) | 2016-02-17 | 2022-08-06 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
JP2024118284A Pending JP2024133390A (ja) | 2016-02-17 | 2024-07-24 | マルチチャネル符号化におけるステレオ充填装置及び方法 |
Country Status (19)
Country | Link |
---|---|
US (3) | US10733999B2 (ja) |
EP (4) | EP3208800A1 (ja) |
JP (4) | JP6735053B2 (ja) |
KR (1) | KR102241915B1 (ja) |
CN (6) | CN117116272A (ja) |
AR (1) | AR107617A1 (ja) |
AU (1) | AU2017221080B2 (ja) |
BR (5) | BR122023025319A2 (ja) |
CA (1) | CA3014339C (ja) |
ES (1) | ES2773795T3 (ja) |
MX (3) | MX2018009942A (ja) |
MY (1) | MY194946A (ja) |
PL (1) | PL3417452T3 (ja) |
PT (1) | PT3417452T (ja) |
RU (1) | RU2710949C1 (ja) |
SG (1) | SG11201806955QA (ja) |
TW (1) | TWI634548B (ja) |
WO (1) | WO2017140666A1 (ja) |
ZA (1) | ZA201805498B (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10037750B2 (en) * | 2016-02-17 | 2018-07-31 | RMXHTZ, Inc. | Systems and methods for analyzing components of audio tracks |
EP3208800A1 (en) * | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
EP3497944A1 (en) * | 2016-10-31 | 2019-06-19 | Google LLC | Projection-based audio coding |
WO2018201113A1 (en) * | 2017-04-28 | 2018-11-01 | Dts, Inc. | Audio coder window and transform implementations |
EP3467824B1 (en) * | 2017-10-03 | 2021-04-21 | Dolby Laboratories Licensing Corporation | Method and system for inter-channel coding |
EP3740950B8 (en) | 2018-01-18 | 2022-05-18 | Dolby Laboratories Licensing Corporation | Methods and devices for coding soundfield representation signals |
IL313348A (en) | 2018-04-25 | 2024-08-01 | Dolby Int Ab | Combining high-frequency restoration techniques with reduced post-processing delay |
IL278223B2 (en) | 2018-04-25 | 2023-12-01 | Dolby Int Ab | Combining high-frequency audio reconstruction techniques |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
SG11202007629UA (en) | 2018-07-02 | 2020-09-29 | Dolby Laboratories Licensing Corp | Methods and devices for encoding and/or decoding immersive audio signals |
EP3719799A1 (en) * | 2019-04-04 | 2020-10-07 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation |
GB2589091B (en) * | 2019-11-15 | 2022-01-12 | Meridian Audio Ltd | Spectral compensation filters for close proximity sound sources |
TWI750565B (zh) * | 2020-01-15 | 2021-12-21 | 原相科技股份有限公司 | 真無線多聲道揚聲裝置及其多音源發聲之方法 |
CN113948097A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编码方法和装置 |
CN114023338A (zh) * | 2020-07-17 | 2022-02-08 | 华为技术有限公司 | 多声道音频信号的编码方法和装置 |
CN113948096A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编解码方法和装置 |
TWI744036B (zh) | 2020-10-14 | 2021-10-21 | 緯創資通股份有限公司 | 聲音辨識模型訓練方法及系統與電腦可讀取媒體 |
CN113242546B (zh) * | 2021-06-25 | 2023-04-21 | 南京中感微电子有限公司 | 音频转发方法、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015011061A1 (en) * | 2013-07-22 | 2015-01-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling in multichannel audio coding |
WO2015036351A1 (en) * | 2013-09-12 | 2015-03-19 | Dolby International Ab | Methods and devices for joint multichannel coding |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005010057A1 (de) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
RU2406164C2 (ru) * | 2006-02-07 | 2010-12-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования/декодирования сигнала |
JP5363488B2 (ja) * | 2007-09-19 | 2013-12-11 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・オーディオのジョイント強化 |
CN100555414C (zh) * | 2007-11-02 | 2009-10-28 | 华为技术有限公司 | 一种dtx判决方法和装置 |
US7820321B2 (en) | 2008-07-07 | 2010-10-26 | Enervault Corporation | Redox flow battery system for distributed energy storage |
EP4407610A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
CN102089814B (zh) * | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
JP5608660B2 (ja) * | 2008-10-10 | 2014-10-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エネルギ保存型マルチチャネルオーディオ符号化 |
WO2010053287A2 (en) * | 2008-11-04 | 2010-05-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
SI2510515T1 (sl) | 2009-12-07 | 2014-06-30 | Dolby Laboratories Licensing Corporation | Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
CA3097372C (en) | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
TWI606441B (zh) * | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
WO2014210284A1 (en) * | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830061A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
EP3208800A1 (en) | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
-
2016
- 2016-02-17 EP EP16156209.5A patent/EP3208800A1/en not_active Withdrawn
-
2017
- 2017-02-14 KR KR1020187026841A patent/KR102241915B1/ko active IP Right Grant
- 2017-02-14 CN CN202310976535.1A patent/CN117116272A/zh active Pending
- 2017-02-14 EP EP17704485.6A patent/EP3417452B1/en active Active
- 2017-02-14 MX MX2018009942A patent/MX2018009942A/es unknown
- 2017-02-14 MY MYPI2018001455A patent/MY194946A/en unknown
- 2017-02-14 BR BR122023025319-1A patent/BR122023025319A2/pt unknown
- 2017-02-14 CA CA3014339A patent/CA3014339C/en active Active
- 2017-02-14 WO PCT/EP2017/053272 patent/WO2017140666A1/en active Application Filing
- 2017-02-14 AR ARP170100361A patent/AR107617A1/es active IP Right Grant
- 2017-02-14 JP JP2018543213A patent/JP6735053B2/ja active Active
- 2017-02-14 ES ES17704485T patent/ES2773795T3/es active Active
- 2017-02-14 PL PL17704485T patent/PL3417452T3/pl unknown
- 2017-02-14 BR BR122023025314-0A patent/BR122023025314A2/pt unknown
- 2017-02-14 RU RU2018132731A patent/RU2710949C1/ru active
- 2017-02-14 AU AU2017221080A patent/AU2017221080B2/en active Active
- 2017-02-14 BR BR122023025322-1A patent/BR122023025322A2/pt unknown
- 2017-02-14 PT PT177044856T patent/PT3417452T/pt unknown
- 2017-02-14 SG SG11201806955QA patent/SG11201806955QA/en unknown
- 2017-02-14 BR BR122023025309-4A patent/BR122023025309A2/pt unknown
- 2017-02-14 CN CN201780023524.4A patent/CN109074810B/zh active Active
- 2017-02-14 BR BR122023025300-0A patent/BR122023025300A2/pt unknown
- 2017-02-14 EP EP19209185.8A patent/EP3629326B1/en active Active
- 2017-02-14 EP EP24188661.3A patent/EP4421803A2/en active Pending
- 2017-02-14 TW TW106104736A patent/TWI634548B/zh active
- 2017-02-14 CN CN202310980026.6A patent/CN117059110A/zh active Pending
- 2017-02-14 CN CN202310973606.2A patent/CN117059109A/zh active Pending
- 2017-02-14 CN CN202310970975.6A patent/CN117059108A/zh active Pending
- 2017-02-14 CN CN202310973621.7A patent/CN117153171A/zh active Pending
-
2018
- 2018-08-16 MX MX2021009735A patent/MX2021009735A/es unknown
- 2018-08-16 ZA ZA2018/05498A patent/ZA201805498B/en unknown
- 2018-08-16 MX MX2021009732A patent/MX2021009732A/es unknown
- 2018-08-17 US US15/999,260 patent/US10733999B2/en active Active
-
2020
- 2020-07-01 US US16/918,812 patent/US11727944B2/en active Active
- 2020-07-08 JP JP2020117752A patent/JP7122076B2/ja active Active
-
2022
- 2022-08-06 JP JP2022125967A patent/JP7528158B2/ja active Active
-
2023
- 2023-07-11 US US18/220,693 patent/US20230377586A1/en active Pending
-
2024
- 2024-07-24 JP JP2024118284A patent/JP2024133390A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015011061A1 (en) * | 2013-07-22 | 2015-01-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling in multichannel audio coding |
JP2016530557A (ja) * | 2013-07-22 | 2016-09-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 多チャネルオーディオ符号化におけるノイズ充填 |
WO2015036351A1 (en) * | 2013-09-12 | 2015-03-19 | Dolby International Ab | Methods and devices for joint multichannel coding |
JP2016535316A (ja) * | 2013-09-12 | 2016-11-10 | ドルビー・インターナショナル・アーベー | ジョイント・マルチチャネル符号化のための方法および装置 |
Non-Patent Citations (2)
Title |
---|
SASCHA DICK, ET AL.: "Discrete multi-Channel coding tool for MPEG-H 3D audio", 112. MPEG MEETING (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), vol. NR:M36591, JPN5019001705, June 2015 (2015-06-01), ISSN: 0004280085 * |
守谷健弘他: "3GPP標準EVSコーデックの概要−VoLTE用高性能音声音響符号化−", 電子情報通信学会技術研究報告, vol. 114, no. 473, JPN6019045189, March 2015 (2015-03-01), pages 25 - 30, ISSN: 0004280084 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7122076B2 (ja) | マルチチャネル符号化におけるステレオ充填装置及び方法 | |
US20240127837A1 (en) | Noise filling in multichannel audio coding | |
JP6535730B2 (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
BR112018016898B1 (pt) | Aparelho e método para carregamento estéreo em conversão em código multicanal e sistema |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20181010 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181010 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191121 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200215 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6735053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |