CN112424861B - 多声道音频编码 - Google Patents
多声道音频编码 Download PDFInfo
- Publication number
- CN112424861B CN112424861B CN201980041829.7A CN201980041829A CN112424861B CN 112424861 B CN112424861 B CN 112424861B CN 201980041829 A CN201980041829 A CN 201980041829A CN 112424861 B CN112424861 B CN 112424861B
- Authority
- CN
- China
- Prior art keywords
- itd
- pair
- parameter
- channels
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 44
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 17
- 238000005311 autocorrelation function Methods 0.000 claims description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000016507 interphase Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
在多声道音频编码中,针对参数化音频编码器,通过计算用于频域中任意两个声道之间的ITD补偿的比较参数,可以实现改进的计算效率。这可以减轻对编码器参数估计的负面影响。
Description
技术领域
本申请涉及参数化多声道音频编码。
背景技术
用于在低比特率下对立体声信号进行有损参数化编码的现有技术方法基于如MPEG-4 Part 3[1]中标准化的参数化立体声。一般理念是在提取立体声/空间参数后,通过计算来自两个输入声道的降混信号来减少多声道系统的声道数量,该立体声/空间参数作为附带信息被发送给解码器。这些立体声/空间参数通常可以包括声道间电平差ILD、声道间相位差IPD和声道间相干性ICC,它们可在子带中计算,并捕获空间图像到一定程度。
然而,该方法不能补偿或合成声道间时间差(ITD),该声道间时间差例如被期望用于降混或再现使用AB麦克风设置录制的语音或用于合成双耳渲染的场景。ITD合成已通过双耳线索编码(BCC)[2]解决,该BBC通常使用参数ILD和ICC,同时估计ITD并在频域中执行声道对齐。
尽管存在时域ITD估计器,但通常优选ITD估计应用时间到频率变换,这允许对互相关函数进行频谱滤波,并且计算效率高。出于复杂性原因,期望使用也用于提取立体声/空间参数以及可能用于对声道进行降混(这也在BCC方法中进行)的相同变换。
然而,这具有一个缺点:理想而言是在对齐的声道上执行立体声参数的准确估计。但是如果声道在频域中对齐(例如通过频域中的循环移位),这可能会导致分析窗口中的偏移,该偏移可能会负面地影响参数估计。在BCC的情况下,这主要影响ICC的测量,其中即使输入信号实际上是完全相干的,增大的窗口偏移最终也会将ICC值推向零。
因此,目的是提供用于多声道音频编码中的参数计算的构思,其能够补偿声道间时间差,同时避免对空间参数估计的负面影响。
发明内容
本申请基于以下发现:在多声道音频编码中,通过计算至少一个比较参数,可以实现改进的计算效率,该至少一个比较参数用于参数化音频编码器所使用的频域中的任意两个声道之间的ITD补偿。参数化编码器可以使用所述至少一个比较参数来减轻上述对空间参数估计的负面影响。
实施例可以包括参数化音频编码器,该参数化音频编码器旨在通过至少一个降混信号以及附加的立体声或空间参数来表示立体声或大体上表示空间内容。这些立体声/空间参数中可以是ITD,在计算剩余的立体声/空间参数之前,可在频域中对其进行估计和补偿。该过程可能会使其他立体声/空间参数偏置,这是原本可能必须通过重新计算频率到时间的变换来以昂贵的方式解决的问题。在所述实施例中,可以通过应用计算便宜的校正方案来在相当程度上减轻该问题,该校正方案可以使用ITD的值和基础变换的某些数据。
实施例涉及一种有损参数化音频编码器,其可以基于加权中/侧变换方法,可以使用立体声/空间参数IPD、ITD以及两个增益因子,并且可以在频域中操作。其他实施例可以使用不同的变换并且可以适当地使用不同的空间参数。
在实施例中,参数化音频编码器可以在频域中能够补偿和合成ITD。它可以具有减轻上述窗口偏移的负面影响的计算高效的增益校正方案的特征。还提出了用于BCC编码器的校正方案。
附图说明
下面参考附图描述本申请的优选实施例,在附图中:
图1示出了根据本申请的实施例的用于参数化编码器的比较设备的框图;
图2示出了根据本申请的实施例的参数化编码器的框图;
图3示出了根据本申请的实施例的参数解码器的框图。
具体实施方式
图1示出了用于多声道音频信号的比较设备100。如图所示,它可以包括用于一对立体声声道的音频信号的输入,即左音频声道信号l(τ)和右音频声道信号r(τ)。当然,其他实施例可以包括多个声道以捕获声源的空间特性。
在将时域音频信号l(τ)、r(τ)变换到频域之前,可以分别将相同的重叠窗口函数11、21w(τ)应用于左输入声道信号l(τ)和右输入声道信号r(τ)。此外,在实施例中,可以添加某个数量的零填充,这允许频域中的偏移。随后,可以将加窗的音频信号提供给对应的离散傅立叶变换(DFT)块12、22,以执行对应的时间到频率变换。这些可以产生时频区间Lt,k和Rt,k,k=0,...,K-1,作为该一对声道的音频信号的频率变换。
所述频率变换Lt,k和Rt,k可以被提供给ITD检测和补偿块20。后者可以被配置为使用所述分析窗口w(τ)中该一对声道的音频信号的频率变换Lt,k和Rt,k来导出ITD参数(这里为ITDt),以表示该一对声道的音频信号之间的ITD。其他实施例可以使用不同的方法来导出ITD参数,该ITD参数也可以在DFT块之前在时域中确定。
用于计算ITD的ITD参数的导出可能涉及计算(可能是加权的)自相关函数或互相关函数。传统上,这可以通过将离散傅立叶逆变换(IDFT)应用于项根据时频区间Lt,k和Rt,k来计算。
补偿测量的ITD的正确方法将是在时域中执行声道对齐,然后将相同的时间到频率变换再次应用到已移位的声道,以便获得ITD补偿的时频区间(bin)。然而,为了节省复杂性,可以通过在频域中执行循环移位来近似该过程。相应地,ITD补偿可以由ITD检测和补偿块20在频域中执行,例如通过分别由循环移位块13和23执行循环移位以产生
以及
其中ITDt可以表示针对样本中的帧t的ITD。
在实施例中,这可以使滞后的声道提前ITDt/2个样本,且可以使滞后的声道延迟ITDt/2个样本。然而,在另一个实施例中,如果延迟很关键,仅将滞后的声道提前ITDt个样本可能是有益的,这不会增加系统的延迟。
结果,ITD检测和补偿块20可以使用ITD参数ITDt通过循环移位在频域中补偿针对该一对声道的ITD,以在其输出处生成一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp。此外,ITD检测和补偿块20可以输出导出的ITD参数,即ITDt,以例如通过参数化编码器进行传输。
如图1所示,比较和空间参数计算块30可以接收ITD参数ITDt以及该一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp作为其输入信号。比较和空间参数计算块30可以使用其输入信号的一些或全部来提取多声道音频信号的立体声/空间参数,例如相间差IPD。
此外,比较和空间参数计算块30可以基于ITD参数ITDt和该一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp来生成用于参数化编码器的至少一个比较参数,这里是两个增益因子gt,b和rt,b,corr。其他实施例可以附加地或备选地使用频率变换Lt,k,Rt,k和/或在比较和空间参数计算块30中提取的空间/立体声参数来生成至少一个比较参数。
该至少一个比较参数可以用作在计算上高效的校正方案的一部分,以减轻分析窗口w(τ)中上述偏移对参数化编码器的空间/立体声参数估计的负面影响,所述偏移是由ITD检测和补偿模块20内在DFT域中通过循环移位进行的声道对齐导致的。在实施例中,可以计算至少一个比较参数,以用于在解码器处例如从降混信号恢复该一对声道的音频信号。
图2示出了用于立体声音频信号的这种参数化编码器200的实施例,其中图1的比较设备100可以用于提供ITD参数ITDt、该一对已ITD补偿的频率变换Lt,k,comp,Rt,k,comp以及比较参数rt,b,corr和gt,b。
参数化编码器200可使用已ITD补偿的频率变换Lt,k,comp,Rt,k,comp作为输入来针对左输入声道信号l(τ)和右输入声道信号r(τ)在降混块40中生成降混信号DMXt,k。其他实施例可以附加地或备选地使用频率变换Lt,k,Rt,k来生成降混信号DMXt,k。
参数化编码器200可以在比较和空间参数计算块30中基于帧来计算立体声参数,例如IPD。其他实施例可以确定不同的或附加的立体声/空间参数。图2中的参数化编码器200实施例的编码过程可以大致遵循以下步骤,下面将对其进行详细描述。
1.使用加窗DFT对输入信号进行的时间到频率变换
在窗口和DFT块11、12、21、22中
2.频域中的ITD估计和补偿
在ITD检测和补偿模块20中
3.立体声参数提取和比较参数计算
在比较和空间参数计算块30中
4.降混
在降混块40中
5.加窗和重叠添加之前的频率到时间的转换
在IDFI块50中
图2中的参数化音频编码器200的实施例可以基于使用已ITD补偿的频率变换Lt,k,comp,Rt,k,comp以及ITD作为输入的频域中的输入声道的加权中/侧变换。它还可以计算立体声/空间参数(例如IPD)以及计算捕获立体声图像的两个增益因子。它可以减轻上述窗口偏移的负面影响。
对于比较和空间参数计算模块30中的空间参数提取,可以将已ITD补偿的时频区间Lt,k,comp和Rt,k,comp分组为子带,并且对于每个子带,可以计算在相间差IPD和该两个增益因子。设Ib表示子带b中的频率区间的索引。则可以将IPD计算为
上述两个增益因子可能与该一对已ITD补偿的频率变换Lt,k,comp和Rt,k,comp的逐频带相位补偿的中/侧变换(通过以下公式(4)和(5)给出)相关:
对于k∈Ib,
以及
所述增益因子中的第一增益因子gt,b可以被视为在公式(6)中用于从中间信号变换Mt对侧信号变换St进行逐频带预测的最佳预测增益:
St,k=gt,bMt,k+ρt,k (6)
使得公式(7)所给出的公式(6)中的预测残差ρt,k的能量是最小的
该第一增益因子gt,b可以被称为侧增益。
第二增益因子rt,b描述预测残差ρt,k的能量相对于中间信号变换Mt,k的能量之比,由公式(8)给出为
并且可以称为残差增益。残差增益rt,b可以在诸如图3中的解码器实施例的解码器处使用,以形成对中/侧变换的预测残差ρt,k的适当替换。
在图2所示的编码器实施例中,可使用如下公式(9)中给出的已ITD补偿的频率变换Lt,k,comp和Rt,k,comp的能量EL,t,b和ER,t,b来将增益因子gt,b和rt,b二者在比较和空间参数计算块30中计算为比较参数:
且其内积的绝对值在公式(10)中给出:
基于所述能量EL,t,b和ER,t,b以及内积XL/R,t,b,可以使用公式(11)将侧增益因子gt,b计算为
此外,可以使用公式(12)来基于所述能量EL,t,b和ER,t,b以及内积XL/R,t,b和侧增益因子gt,b将残差增益因子rt,b计算为:
在其他实施例中,可以适当地使用其他方法和/或公式来计算侧增益因子gt,b和残差增益因子rt,b和/或不同的比较参数。
如前所述,频域中的ITD补偿通常可以节省复杂性,但是(在没有进一步措施的情况下)具有缺点。理想而言,对于使用AR麦克风设置录制的干净消声的语音,左声道信号l(τ)基本上是右声道r(τ)的延迟(以延迟d来延迟)和缩放(以增益c来缩放)版本。这种情况可以由以下公式(13)表示,其中:
l(τ)=c r(τ-d) (13)。
在对未加窗的输入声道音频信号l(τ)和r(τ)进行适当的ITD补偿后,对侧增益因子gt,b的估计将在公式(14)中给出为
其中,消失的残差增益因子rt,b给出为
rt,b=0 (15)。
然而,如果由ITD检测和补偿块20分别使用循环移位块13和23来如图2中的实施例一样在频域中执行声道对齐,则对应的DFT分析窗口w(τ)也被旋转。因此,在频域中补偿ITD之后,针对右声道的已ITD补偿的频率变换Rt,k,comp可以通过下式的DFT以时频区间的形式确定
w(τ)r(τ) (16),
而针对左声道的已ITD补偿的频率变换Lt,k,comp可以通过下式的DFT以时频区间的形式确定
w(τ+ITDt)r(τ) (17),
其中,w是DFT分析窗口函数。
已经观察到,这种频域中的声道对齐主要影响残差预测增益因子rt,b,其随着ITDt的增加而增大。在没有任何进一步措施的情况下,频域中的声道对齐将因此在解码器处将附加的环境添加到输出音频信号,如图3所示。该附加的环境是不期望的,尤其是当要编码的音频信号包含干净的语音时,因为虚假的环境会损害语音的可理解度。
因此,可以通过使用另一个比较参数在存在非零ITDs的情况下校正(预测)残差增益因子rt,b来减轻上述影响。
在实施例中,这可以通过计算残差增益rt,b的增益偏移来完成,该增益偏移旨在当信号相干且在时间上平坦时匹配期望的残差信号e(τ)。在这种情况下,人们期望由公式(18)给出的全局预测增益
以及由给出的消失的全局/>因此,期望的残差信号e(τ)可以使用公式(19)确定为
在实施例中,可以使用ITD参数ITDt以及等于或近似在公式(20)中给出的分析窗口函数w的自相关函数WX(n)的函数,在比较和空间参数计算块30中基于期望的残差信号e(τ)来计算除了侧增益因子gt,b和残差增益因子rt,b之外的其他比较参数:
WX(n)=∑τw(τ)w(τ+n) (20)。
如果Mr表示r2(τ)的短期平均值,则期望的残差信号e(τ)的能量可以近似地由公式(21)计算为
在由公式(22)给出的加窗中间信号为
mt(τ)=(wt(τ)+c wt(τ+ITDt))r(τ) (22),
该加窗中间信号mt(τ)的能量可以由公式(23)近似为:
[(1+c2)WX(0)+2c WX(ITDt)]Mr (23)。
在实施例中,在比较和空间参数计算块30中的比较参数的计算中使用的上述函数等于或近似分析窗口的自相关函数WX(n)的归一化版本如公式(23a)中给出为
基于该归一化的自相关函数可以使用公式(24)将所述其他比较参数/>计算为:
来为残差增益rt,b提供估计的校正参数。在实施例中,比较参数可被用作对子带b中的局部残差增益rt,b的估计。在另一个实施例中,可以通过使用比较参数/>作为偏移来影响残差增益rt,b的校正。即,残差增益rt,b的值可以由如公式(25)中给出的已校正残差增益rt,b,corr替换
因此,在实施例中,在比较和空间参数计算块30中计算的另一比较参数可以包括已校正残差增益rt,b,corr,其对应于通过公式(24)给出的残差增益校正参数来以公式(25)中定义的偏移形式校正的残差增益rt,b。
因此,另一实施例涉及参数化音频编码,该参数化音频编码使用加窗DFT和根据公式(3)的参数IPD(的子集)、根据公式(11)的侧增益gt,b、根据公式(12)的残差增益rt,b、以及ITD,其中,根据公式(25)来调整残差增益rt,b。
在经验评估中,可以使用对公式(13)中右声道音频信号r(τ)的不同选择来测试残差增益估计从下面的表1可以看出,对于满足时间平坦度假设的白噪声输入信号r(τ),残差增益估计/>非常接近于在子带中测量的残差增益rt,b的平均值。
ITD\c | 1 | 2 | 4 | 8 | 16 | 32 |
ms | 0.0893 | 0.0793 | 0.0569 | 0.0351 | 0.0196 | 0.0104 |
(0.0885) | (0.0785) | (0.0565) | (0.0349) | (0.0195) | (0.0104) | |
ms | 0.1650 | 0.1460 | 0.1045 | 0.0640 | 0.0357 | 0.0189 |
(0.1631) | (0.1458) | (0.1039) | (0.0640) | (0.0357) | (0.0189) | |
ms | 0.2348 | 0.2073 | 0.1472 | 0.0896 | 0.0498 | 0.0263 |
(0.2327) | (0.2062) | (0.1473) | (0.0904) | (0.0504) | (0.0267) | |
ms | 0.3005 | 0.2644 | 0.1862 | 0.1125 | 0.0621 | 0.0327 |
(0.2992) | (0.2627) | (0.1885) | (0.1151) | (0.0641) | (0.0339) |
表1:针对平移白噪声的所测量的残差增益rt,b的平均值,以及ITD和残差增益估计(在括号中表示)。
对于语音信号r(τ),经常违反时间平坦度假设,这通常会增加残差增益rt,b的平均值(与上面的表1相比,参见下面的表2)。因此,根据公式(25)的残差增益调整或校正的方法可以被认为是相当保守的。然而,它仍然可以去除针对干净的语音记录的大多数不期望的环境。
ITD\c | 1 | 2 | 4 |
ms | 0.1055 | 0.1022 | 0.0874 |
(0.0885) | (0.0785) | (0.0565) | |
ms | 0.1782 | 0.1634 | 0.1283 |
(0.1631) | (0.1458) | (0.1039) | |
mS | 0.2435 | 0.2191 | 0.1657 |
(0.2327) | (0.2062) | (0.1473) | |
ms | 0.3050 | 0.2720 | 0.2014 |
(0.2992) | (0.2627) | (0.1885) |
表2:针对平移单声道语音的所测量的残差增益rt,b的平均值,以及ITD和残差增益估计(在括号中表示)。
在使用单个分析窗口w的情况下,可以认为公式(23a)中给出的归一化自相关函数独立于帧索引t。此外,对于典型的分析窗口函数w,归一化自相关函数/>可以被认为变化非常缓慢。因此,可以从小的值表中精确地对/>进行插值,这使得该校正方案在复杂度方面非常高效。
因此,在实施例中,可以通过对存储在查找表中的分析窗口的自相关函数的归一化版本进行插值,来获得用于在块30中确定残差增益估计或残差增益校正偏移/>以作为比较参数的函数。在其他实施例中,可以适当地使用用于归一化自相关函数/>的插值的其他方法。
对于BCC,如[2]中所述,当估计子带中的声道间相干性(ICC)时,可能会出现类似的问题。在实施例中,可以使用公式(9)的能量EL,t,b和ER,t,b以及公式(10)的内积来通过公式(26)将对应的ICCt,b估计为
通过定义,ICC是在补偿ITD之后进行测量的。然而,不匹配的窗口函数w可能会使ICC测量偏置。在由公式(13)描述的上述干净消声的语音设置中,如果在正确对齐的输入声道上计算,则ICC将为1。
然而,偏移(当通过循环移位在频域中补偿ITDt的ITD时,由频域中分析窗口函数w(τ)的旋转所导致)可能会使ICC的测量偏向在公式(27)中给出的
在实施例中,与公式(25)中的残差增益rt,b的校正相比,ICC的偏置可以通过类似的方式来校正,即通过公式(28)中给出的方式进行替换,
因此,另一实施例涉及参数音频编码,该参数音频编码使用加窗DFT和根据公式(3)的参数IPD[的子集]、IPD、根据公式(26)的ICC、以及ITD,其中,根据公式(28)来调整ICC。
在图2所示的参数化编码器200的实施例中,降混块40可以通过在频域中计算由公式(29)给出的降混信号DMXt,k来减少多声道(这里是立体声)系统的声道的数量。在实施例中,降混信号DMXt,k可以根据下式使用已ITD补偿的频率变换Lt,k,comp和Rt,k,comp来计算
在公式(29)中,β可以是根据立体声/空间参数计算的实绝对相位调整参数。在其他实施例中,如图2所示的编码方案也可以与任何其他降混方法一起工作。其他实施例可以使用频率变换Lt,k和Rt,k以及可选地使用其他参数来确定降混信号DMXt,k。
在图2的编码器实施例中,离散傅立叶逆变换(IDFT)块50可以从降混块40接收频域降混信号DMXt,k。IDFT块50可以将降混时频区间DMXt,k,k=0,...,K-1,从频域变换到时域,以产生时域降混信号dmx(τ)。在实施例中,可以应用合成窗口wS(τ)并将其添加到时域降混信号dmx(τ)。
此外,如在图2中的实施例中,核心编码器60可以接收域降混信号dmx(τ)以根据MPEG-4 Part 3[1]或适当的任何其他合适的音频编码算法来对单个声道音频信号进行编码。在图2的实施例中,核心编码的时域降混信号dmx(τ)可以与ITD参数ITDt、侧增益gt,b和已校正的残差增益rt,b,corr组合,进行适当处理和/或进一步编码以传输给解码器。
图3示出了多声道解码器的实施例。该解码器可以接收组合的信号,该组合的信号包括时域中的单声道/降混输入信号dmx(τ),且包括比较和/或空间参数作为基于帧的附带信息。如图3所示的解码器可以执行以下步骤,下面将对其进行详细描述。
1.使用加窗DFT对输入进行的时间到频率变换
在DFT块80中
2.频域中的缺失残差的预测
在升混和空间恢复块90中
3.频域中的升混
在升混和空间恢复块90中
4.频域的ITD合成
在ITD合成块100中
5.频域到时域的变换,加窗和重叠添加
在IDFT块112、122以及窗口块111、121中
可以通过与用于图2中的编码器的输入音频信号类似的方式来完成单声道/降混信号输入信号dmx(τ)的时间到频率变换。在某些实施例中,可以添加适当量的零填充,以用于频域中的ITD恢复。该过程可以以时频区间DMXt,k,k=0,...,K-1的形式产生降混信号的频率变换。
为了恢复降混信号DMXt,k的空间特性,可能需要独立于所发送的降混信号DMXt,k的第二信号。可以例如在升混和空间恢复块90中使用已校正的残差增益rt,b,corr作为比较参数(由诸如图2中的编码器的编码器发送)且使用降混信号DMXt,k的时间延迟的时频区间,来对这样的信号进行构造(重构),如公式(30)给出:
对于k∈Ib,
在其他实施例中,基于所发送的至少一个比较参数,可以使用不同的方法和公式来恢复降混信号DMXt,k的空间特性。
此外,升混和空间恢复块90可以通过使用由编码器发送的降混信号DMXt,k和侧增益gt,b以及重构的残差信号应用对编码器处的中/侧变换的逆变换,来执行升混。这可以产生解码的已ITD补偿的频率变换/>和/>由公式(31)和(32)给出为
对于k∈Ib,
以及
其中β是与公式(29)的降混过程中相同的绝对相位旋转参数。
此外,如图3所示,ITD合成/解补偿块100可以接收解码的已ITD补偿的频率变换和/>后者可以通过如在公式(33)和(34)中所给出的方式来旋转/>和/>来在频域中应用ITD参数ITDt,以产生已ITD解补偿的解码的频率变换/>和/>
以及
在图3中,可以分别由IDFT块112和122来执行时频区间形式的已ITD解补偿的解码的频率变换的频域到时域的变换和/>k=0,...,K-1。随后可以分别由窗口块111和121对产生的时域信号进行加窗,并且将其添加到左音频声道和右音频声道的所重构的时域输出音频信号/>和/>
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]MPEG-4High Efficiency Advanced Audio Coding(HE-AAC)v2
[2]Jürgen Herre,FROM JOINT STEREO TO SPATIAL AUDIO CODING -RECENTPROGRESS AND STANDARDIZATION,Proc.of the 7th Int.Conference on digital AudioEffects(DAFX-04),Naples,Italy,October 5-8,2004
[3]Christoph Tourney and Christof Faller,Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding,AES Convention Paper 6753,2006
[4]Christof Faller and Frank Baumgarte,Binaural Cue Coding Part II:Schemes and Applications,IEEE Transactions on Speech and Audio Processing,Vol.11,No.6,November 2003。
Claims (14)
1.一种用于多声道音频信号的比较设备,被配置为:
针对至少一对声道的音频信号之间的声道间时间差ITD,导出分析窗口中所述至少一对声道的所述音频信号的至少一个ITD参数,
使用所述至少一个ITD参数,通过循环移位在频域中补偿针对所述至少一对声道的ITD,以生成至少一对已ITD补偿的频率变换,
基于所述至少一个ITD参数和所述至少一对已ITD补偿的频率变换,计算至少一个比较参数,
其中,所述比较设备还被配置为:
使用等于或近似所述分析窗口的自相关函数的函数和所述至少一个ITD参数来计算所述至少一个比较参数。
2.根据权利要求1所述的比较设备,还被配置为:使用所述分析窗口中所述至少一对声道的所述音频信号的频率变换,来导出所述至少一个ITD参数。
3.根据权利要求1所述的比较设备,其中:
所述函数等于或近似所述分析窗口的自相关函数的归一化版本。
4.根据权利要求3所述的比较设备,还被配置为:
通过对存储在查找表中的所述分析窗口的自相关函数的归一化版本进行插值来获得所述函数。
5.根据权利要求1所述的比较设备,还被配置为:
生成针对所述至少一对声道的所述音频信号的至少一个降混信号,其中,计算所述至少一个比较参数,以用于根据所述至少一个降混信号来恢复所述至少一对声道的所述音频信号。
6.根据权利要求1所述的比较设备,还被配置为:
基于所述至少一对已ITD补偿的频率变换来生成所述至少一个降混信号。
7.一种用于多声道音频信号的比较设备,被配置为:
针对至少一对声道的音频信号之间的声道间时间差ITD,导出分析窗口中所述至少一对声道的所述音频信号的至少一个ITD参数,
使用所述至少一个ITD参数,通过循环移位在频域中补偿针对所述至少一对声道的ITD,以生成至少一对ITD补偿的频率变换,
基于所述至少一个ITD参数和所述至少一对已ITD补偿的频率变换,计算至少一个比较参数,
其中,所述至少一个比较参数包括所述至少一对ITD补偿的频率变换的至少一对中/侧变换的至少一个侧增益,所述至少一个侧增益是根据所述至少一对中/侧变换中的中变换的对侧变换的预测增益。
8.根据权利要求7所述的比较设备,其中:
所述至少一个比较参数包括与通过残差增益校正参数校正的至少一个残差增益相对应的至少一个已校正残差增益,所述至少一个残差增益是根据所述中变换的对所述侧变换的预测中的残差的能量相对于所述中变换的能量的函数。
9.根据权利要求8所述的比较设备,还被配置为:
使用所述至少一对已ITD补偿的频率变换的内积和所述能量来计算所述至少一个侧增益和所述至少一个残差增益。
10.根据权利要求8所述的比较设备,还被配置为:
通过与计算为的所述残差增益校正参数/>相对应的偏移来校正所述至少一个残差增益,其中,c是所述至少一对声道的所述音频信号之间的缩放增益,ITDt是所述至少一个ITD参数,并且/>是滞后n的函数,/>近似所述分析窗口的自相关函数的归一化版本。
11.一种用于多声道音频信号的比较设备,被配置为:
针对至少一对声道的音频信号之间的声道间时间差ITD,导出分析窗口中所述至少一对声道的所述音频信号的至少一个ITD参数,
使用所述至少一个ITD参数,通过循环移位在频域中补偿针对所述至少一对声道的ITD,以生成至少一对ITD补偿的频率变换,
基于所述至少一个ITD参数和所述至少一对已ITD补偿的频率变换,计算至少一个比较参数,
其中,所述至少一个比较参数包括至少一个声道间相干性ICC校正参数,用于基于所述至少一个ITD参数校正所述至少一对音频信号的在频域中确定的ICC的估计。
12.一种多声道编码器,包括用于多声道音频信号的比较设备,所述比较设备被配置为:
针对至少一对声道的音频信号之间的声道间时间差ITD,导出分析窗口中所述至少一对声道的所述音频信号的至少一个ITD参数ITDt,
使用所述至少一个ITD参数,通过循环移位在频域中补偿针对所述至少一对声道的ITD,以生成至少一对ITD补偿的频率变换,
基于所述至少一个ITD参数和所述至少一对已ITD补偿的频率变换,将以下参数计算为比较参数:
所述至少一对已ITD补偿的频率变换的至少一对中/侧变换的至少一个侧增益,所述至少一个侧增益是根据所述至少一对中/侧变换中的中变换的对侧变换的预测增益,以及
至少一个残差增益rt,b,所述至少一个残差增益描述根据所述中变换的对所述侧变换的预测中的残差的能量相对于所述中变换的能量,
其中,所述至少一个侧增益和所述至少一个残差增益是使用所述至少一对已ITD补偿的频率变换的内积和所述能量计算的;
通过以下方式校正所述至少一个残差增益:
使用估计的校正参数;或
通过以下方式将所述至少一个残差增益替换为校正的残差增益rt,b,corr,
其中,所述估计的校正参数和等于:
计算为的残差增益校正参数,其中,c是所述至少一对声道的所述音频信号之间的缩放增益,并且/>是滞后n的函数,根据/>WX(n)=∑τw(τ)w(τ+n),/>近似所述分析窗口w的自相关函数WX(n)的归一化版本,以及
生成针对所述至少一对声道的所述音频信号的至少一个降混信号,其中,所述比较参数用于根据所述至少一个降混信号来恢复所述至少一对声道的所述音频信号,以及
其中,所述多声道编码器被配置为对所述至少一个降混信号、所述至少一个ITD参数和所述比较参数进行编码,以传输给解码器。
13.一种用于多声道音频信号的解码器,被配置为:
对从编码器接收的至少一个降混信号、至少一个声道间时间差ITD参数和至少一个比较参数进行解码,
使用所述至少一个比较参数对所述至少一个降混信号进行升混来根据所述至少一个降混信号恢复至少一对声道的音频信号,以生成至少一对解码的ITD补偿的频率变换,
使用所述至少一个ITD参数,通过循环移位在频域中对针对所述至少一对声道的所述至少一对解码的已ITD补偿的频率变换的ITD进行解补偿,来生成至少一对已ITD解补偿的解码的频率变换,以在时域中重构所述至少一对声道的所述音频信号的ITD,
逆频率变换所述至少一对已ITD解补偿的解码的频率变换以生成所述至少一对声道的至少一对解码的音频信号。
14.用于多声道音频信号的比较方法,包括:
针对至少一对声道的音频信号之间的声道间时间差ITD,导出分析窗口中所述至少一对声道的所述音频信号的至少一个ITD参数,
使用所述至少一个ITD参数,通过循环移位在频域中补偿针对所述至少一对声道的ITD,以生成至少一对ITD补偿的频率变换,
基于所述至少一个ITD参数和所述至少一对已ITD补偿的频率变换,计算至少一个比较参数,
其中,所述至少一个比较参数包括所述至少一对ITD补偿的频率变换的至少一对中/侧变换的至少一个侧增益,所述至少一个侧增益是根据所述至少一对中/侧变换中的中变换的对侧变换的预测增益。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18179373.8 | 2018-06-22 | ||
EP18179373.8A EP3588495A1 (en) | 2018-06-22 | 2018-06-22 | Multichannel audio coding |
PCT/EP2019/066228 WO2019243434A1 (en) | 2018-06-22 | 2019-06-19 | Multichannel audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112424861A CN112424861A (zh) | 2021-02-26 |
CN112424861B true CN112424861B (zh) | 2024-04-16 |
Family
ID=62750879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980041829.7A Active CN112424861B (zh) | 2018-06-22 | 2019-06-19 | 多声道音频编码 |
Country Status (14)
Country | Link |
---|---|
US (2) | US11978459B2 (zh) |
EP (2) | EP3588495A1 (zh) |
JP (2) | JP7174081B2 (zh) |
KR (1) | KR20210021554A (zh) |
CN (1) | CN112424861B (zh) |
AR (1) | AR115600A1 (zh) |
AU (1) | AU2019291054B2 (zh) |
BR (1) | BR112020025552A2 (zh) |
CA (1) | CA3103875C (zh) |
MX (1) | MX2020013856A (zh) |
SG (1) | SG11202012655QA (zh) |
TW (1) | TWI726337B (zh) |
WO (1) | WO2019243434A1 (zh) |
ZA (1) | ZA202100230B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
US20230086460A1 (en) * | 2020-03-09 | 2023-03-23 | Nippon Telegraph And Telephone Corporation | Sound signal encoding method, sound signal decoding method, sound signal encoding apparatus, sound signal decoding apparatus, program, and recording medium |
WO2022074200A2 (en) * | 2020-10-09 | 2022-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, or computer program for processing an encoded audio scene using a parameter conversion |
US11818353B2 (en) * | 2021-05-13 | 2023-11-14 | Qualcomm Incorporated | Reduced complexity transforms for high bit-depth video coding |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1669358A (zh) * | 2002-07-16 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
CN101366321A (zh) * | 2006-01-09 | 2009-02-11 | 诺基亚公司 | 双声道音频信号的解码 |
CN104205211A (zh) * | 2012-04-05 | 2014-12-10 | 华为技术有限公司 | 多声道音频编码器以及用于对多声道音频信号进行编码的方法 |
CN104246873A (zh) * | 2012-02-17 | 2014-12-24 | 华为技术有限公司 | 用于编码多声道音频信号的参数编码器 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5789689A (en) * | 1997-01-17 | 1998-08-04 | Doidic; Michel | Tube modeling programmable digital guitar amplification system |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
CN101151659B (zh) | 2005-03-30 | 2014-02-05 | 皇家飞利浦电子股份有限公司 | 多通道音频编码器、设备、方法及其解码器、设备和方法 |
CN101556799B (zh) * | 2009-05-14 | 2013-08-28 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
US9424852B2 (en) * | 2011-02-02 | 2016-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
EP3182409B1 (en) * | 2011-02-03 | 2018-03-14 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
MX361115B (es) * | 2013-07-22 | 2018-11-28 | Fraunhofer Ges Forschung | Descodificador de audio multicanal, codificador de audio multicanal, métodos, programa de computadora y representación de audio codificada usando una decorrelación de señales de audio renderizadas. |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
CN107134280B (zh) * | 2013-09-12 | 2020-10-23 | 杜比国际公司 | 多声道音频内容的编码 |
EP3067889A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
EP3067886A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
PT3405951T (pt) | 2016-01-22 | 2020-02-05 | Fraunhofer Ges Forschung | Aparelhos e métodos para codificar ou descodificar um sinal de áudio multicanal utilizando sincronização de controlo de quadro |
EP3208800A1 (en) * | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
EP3582219B1 (en) | 2016-03-09 | 2021-05-05 | Telefonaktiebolaget LM Ericsson (publ) | A method and apparatus for increasing stability of an inter-channel time difference parameter |
BR112019009315A2 (pt) * | 2016-11-08 | 2019-07-30 | Fraunhofer Ges Forschung | aparelho e método para mixagem de redução ou mixagem de aumento de um sinal de múltiplos canais com o uso de compensação de fase |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
-
2018
- 2018-06-22 EP EP18179373.8A patent/EP3588495A1/en not_active Withdrawn
-
2019
- 2019-06-19 EP EP19732348.8A patent/EP3811357A1/en active Pending
- 2019-06-19 KR KR1020217001751A patent/KR20210021554A/ko active IP Right Grant
- 2019-06-19 JP JP2020571588A patent/JP7174081B2/ja active Active
- 2019-06-19 CN CN201980041829.7A patent/CN112424861B/zh active Active
- 2019-06-19 WO PCT/EP2019/066228 patent/WO2019243434A1/en active Application Filing
- 2019-06-19 MX MX2020013856A patent/MX2020013856A/es unknown
- 2019-06-19 AU AU2019291054A patent/AU2019291054B2/en active Active
- 2019-06-19 CA CA3103875A patent/CA3103875C/en active Active
- 2019-06-19 BR BR112020025552-1A patent/BR112020025552A2/pt unknown
- 2019-06-19 SG SG11202012655QA patent/SG11202012655QA/en unknown
- 2019-06-21 TW TW108121651A patent/TWI726337B/zh active
- 2019-06-21 AR ARP190101722A patent/AR115600A1/es active IP Right Grant
-
2020
- 2020-12-15 US US17/122,403 patent/US11978459B2/en active Active
-
2021
- 2021-01-13 ZA ZA2021/00230A patent/ZA202100230B/en unknown
-
2022
- 2022-11-04 JP JP2022177073A patent/JP2023017913A/ja active Pending
-
2023
- 2023-09-08 US US18/464,030 patent/US20240112685A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1669358A (zh) * | 2002-07-16 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
CN101366321A (zh) * | 2006-01-09 | 2009-02-11 | 诺基亚公司 | 双声道音频信号的解码 |
CN104246873A (zh) * | 2012-02-17 | 2014-12-24 | 华为技术有限公司 | 用于编码多声道音频信号的参数编码器 |
CN104205211A (zh) * | 2012-04-05 | 2014-12-10 | 华为技术有限公司 | 多声道音频编码器以及用于对多声道音频信号进行编码的方法 |
Also Published As
Publication number | Publication date |
---|---|
CA3103875A1 (en) | 2019-12-26 |
TW202016923A (zh) | 2020-05-01 |
SG11202012655QA (en) | 2021-01-28 |
AR115600A1 (es) | 2021-02-03 |
WO2019243434A1 (en) | 2019-12-26 |
US20210098007A1 (en) | 2021-04-01 |
JP2023017913A (ja) | 2023-02-07 |
US11978459B2 (en) | 2024-05-07 |
ZA202100230B (en) | 2022-07-27 |
AU2019291054A1 (en) | 2021-02-18 |
CA3103875C (en) | 2023-09-05 |
MX2020013856A (es) | 2021-03-25 |
CN112424861A (zh) | 2021-02-26 |
BR112020025552A2 (pt) | 2021-03-16 |
EP3588495A1 (en) | 2020-01-01 |
KR20210021554A (ko) | 2021-02-26 |
JP7174081B2 (ja) | 2022-11-17 |
JP2021528693A (ja) | 2021-10-21 |
EP3811357A1 (en) | 2021-04-28 |
AU2019291054B2 (en) | 2022-04-07 |
US20240112685A1 (en) | 2024-04-04 |
TWI726337B (zh) | 2021-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7161564B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
CN112424861B (zh) | 多声道音频编码 | |
US20240121567A1 (en) | Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder | |
KR102067044B1 (ko) | 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법 | |
EP1829424B1 (en) | Temporal envelope shaping of decorrelated signals | |
CA2589623C (en) | Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering | |
JP5174973B2 (ja) | ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム | |
JP5604933B2 (ja) | ダウンミクス装置およびダウンミクス方法 | |
EP2904609B1 (en) | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding | |
CN108369810B (zh) | 用于对多声道音频信号进行编码的自适应声道缩减处理 | |
EP3405950B1 (en) | Stereo audio coding with ild-based normalisation prior to mid/side decision | |
JP2016525716A (ja) | 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 | |
TWI697894B (zh) | 用以解碼經編碼多聲道信號之裝置、方法及電腦程式(二) | |
JP2023017913A5 (zh) | ||
US9070364B2 (en) | Method and apparatus for processing audio signals | |
RU2778832C2 (ru) | Многоканальное кодирование аудио |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |