HK40112969A - 针对串扰场景的时域超宽带带宽扩展 - Google Patents
针对串扰场景的时域超宽带带宽扩展 Download PDFInfo
- Publication number
- HK40112969A HK40112969A HK62024101175.3A HK62024101175A HK40112969A HK 40112969 A HK40112969 A HK 40112969A HK 62024101175 A HK62024101175 A HK 62024101175A HK 40112969 A HK40112969 A HK 40112969A
- Authority
- HK
- Hong Kong
- Prior art keywords
- frequency band
- gain
- factor
- signal
- excitation signal
- Prior art date
Links
Description
技术领域
本公开涉及一种用于在串扰(cross-talk)声音信号的编码/解码期间对激励信号进行时域带宽扩展的方法和设备。
在本公开和所附权利要求中:
-术语“串扰”通常旨在表示其中第一声音元素叠加到第二声音元素的声音段,例如但不排他地,当第一人在第二人说话之上说话时的语音段。
-术语“低频带”旨在表示较低的频率范围。尽管在本公开中给出了0kHz至6.4kHz和0kHz至8kHz频率范围作为“低频带”的示例,但是低频带频率范围的频率边界显然可以被修改/适配为编解码器的比特率和/或以实现诸如符合应用、系统、网络和设计/商业相关约束的特定目标。
-术语“高频带”旨在表示较高的频率范围。尽管在本公开中给出了6.4kHz至14kHz和8kHz至16kHz频率范围作为“高频带”的示例,但是高频带频率范围的频率边界显然可以被修改/适配为编解码器的比特率和/或以实现诸如符合应用、系统、网络和设计/商业相关约束的特定目标。
背景技术
在很多会话应用中,经常会出现一个人在另一个人说话之上说话的情况。如上所述,这种情况通常被称为“串扰”。串扰语音段在现代语音编码/解码系统中可能是有问题的。由于传统的语音编码技术主要针对单说话内容(只有一个人说话)进行设计和优化,因此串扰语音的质量可能会受到编码/解码操作的严重影响。作为示例,3GPP EVS编解码器(参考文献[1]或其全部内容通过引用并入本文)中的串扰语音编码/解码中最严重的问题之一是偶尔存在“卡嗒卡嗒噪声”。“卡嗒卡嗒噪声”是在8kHz至14kHz的频率下(即在如本文上文定义的高频带频率范围示例内)产生的强烈的恼人声音。
在3GPP EVS编解码器的低比特率下,使用如参考文献[1]中描述的超宽带带宽扩展(SWB TBE)工具对高频带频率内容进行编码/解码。由于SWB TBE工具可用的比特数量有限,因此高频带频率范围内的高频带激励信号不被直接编码。相反,低频带频率范围内的低频带激励信号使用ACELP(代数码激励线性预测)编码器(参考文献[2],其全部内容通过引用并入本文)来计算,然后取决于高频带频率范围被上采样并扩展至14kHz或16kHz,并且用作高频带激励信号的替代。如果在低频带激励信号与高频带激励信号之间存在不匹配,则与原始声音相比,合成声音可能听起来不同。当低频带激励信号是有声的(voiced)但高频带激励信号是无声(unvoiced)的时,合成的声音将被感知为上面定义的卡嗒卡嗒噪声。在图1的频谱图中示出了串扰内容中的卡嗒卡嗒噪声的问题。
图1中的图示出了示例性串扰声音的功率谱P对频率f的关系,其中两个扬声器发出不同类型的声音。虽然来自第一扬声器(扬声器1)的声音主要包括有声内容,但是来自第二扬声器(扬声器2)的声音包含无声段。假设单声道捕获设备(诸如智能电话或全向麦克风),那么来自两个扬声器的声音将在捕获设备内混合在一起。结果,如由编码器看到的是,输入声音信号的频谱内容将类似于两个频谱的超集。类似的情况出现在诸如立体声麦克风或环绕麦克风的多声道捕获设备中。如果编码器包含下混模块,则所得单声道输入信号可能包含在频谱域中可清楚区分的不同类型的声音。
发明内容
本公开涉及以下方面:
-一种用于在串扰声音信号的解码期间对激励信号进行时域带宽扩展的方法,包括:对在比特流中接收的高频带混合因子进行解码,以及使用该高频带混合因子混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号。
-一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法,包括:(a)使用声音信号计算高频带残差信号和(b)计算高频带残差信号的时间包络;以及基于高频带残差信号的时间包络来计算高频带发声(voicing)因子。
-一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法,包括:计算可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子。
-一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法,包括:(a)使用声音信号计算高频带残差信号和(b)计算高频带残差信号的时间包络;基于高频带残差信号的时间包络来计算高频带发声因子;计算可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子;以及使用高频带发声因子来估计增益/形状参数。
-一种用于在串扰声音信号的解码期间对激励信号进行时域带宽扩展的设备,包括:解码器,其对在比特流中接收的高频带混合因子进行解码,以及混合器,其使用该高频带混合因子混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号。
-一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的设备,包括:(a)使用声音信号计算高频带残差信号和(b)计算高频带残差信号的时间包络的计算器;以及基于高频带残差信号的时间包络的高频带发声因子的计算器。
-一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的设备,包括:可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子的计算器。
-一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的设备,包括:(a)使用声音信号计算高频带残差信号和(b)计算高频带残差信号的时间包络的计算器;基于高频带残差信号的时间包络的高频带发声因子的计算器;可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子的计算器;以及使用高频带发声因子的增益/形状参数的估计器。
在阅读以下仅通过示例的方式参考附图给出的说明性实施例的非限制性描述后,用于串扰声音信号的编码/解码期间对激励信号进行时域带宽扩展的方法和设备的前述和其他目的、优点和特征将变得更加明显。
附图说明
在附图中:
图1是示出其中两个扬声器(扬声器1和扬声器2)发出不同类型(有声和无声)的声音的示例性串扰声音的功率谱P(dB)对频率f(kHz)的关系的图;
图2是同时示出在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法和设备中的高频带发声因子的计算/计算器的示意性框图;
图3是示出如何确定高频带残差信号的时间包络的曲线图;
图4是示出使用高频带残差信号的经下采样的时间包络的连续段的平均值计算的段归一化因子的插值的曲线图;
图5是同时示出在解码器处,用于对激励信号进行时域带宽扩展的方法和设备内的时域带宽扩展的激励信号的计算/计算器的示意性框图;
图6是同时示出在编码器处,由用于对激励信号进行时域带宽扩展的方法和设备内的经量化的归一化增益形成/表示的高频带混合因子的计算/计算器的示意性框图;
图7是用于对激励信号进行时域带宽扩展的方法和设备内的增益形状估计/估计器的示意框图;
图8是示出子帧增益的插值的曲线图;以及
图9是形成用于在串扰声音信号的编码/解码期间对激励信号进行时域带宽扩展的方法和设备的硬件组件的示例配置的简化框图。
具体实施方式
以下描述涉及用于对串扰声音信号进行编码/解码的技术。在本公开中,编码/解码技术的基础是参考文献[1]中描述的3GPP EVS编解码器的SWB TBE工具。然而,应当记住,该技术可以与其他编码/解码技术结合使用。
更具体地,本公开提出了对SWB TBE工具的一系列修改。这一系列修改的目的是改善合成的串扰声音信号(诸如串扰语音信号)的质量,特别是但不排他地消除上面定义的卡嗒卡嗒噪声。该一系列修改涉及激励信号的时域带宽扩展,并且分布在以下三个区域中的一个或多个区域中:
-在编码器中,使用高频带残差信号的时间包络来计算高频带发声因子。在SWBTBE工具中,高频带对应于SHB(超高频带)。
-在编码器和解码器中,对用于高频带激励信号的高频带混合因子的计算。
-在编码器和解码器中,对增益/形状参数和帧增益的估计的改进。
根据本公开的高频带发声因子的计算使用高频带自相关函数本身,该高频带自相关函数本身例如在下采样域中从高频带残差信号的时间包络来计算。在编码器中使用高频带发声因子来代替从SWB TBE工具中的低频带发声参数导出的所谓的语音因子。
根据本公开的高频带混合因子的计算取代了SWB TBE工具中的对应方法。高频带混合因子确定低频带激励信号(例如来自ACELP核心)和随机噪声(其也可以被定义为“白噪声”)激励信号的比例,用于产生时域带宽扩展的激励信号。在所公开的实施方式中,例如在下采样域中,通过随机噪声激励信号的时间包络与低频带激励信号的时间包络之间的MSE(均方误差)最小化来计算高频带混合因子。高频带混合因子的量化可以由SWB TBE工具的现有量化器来执行。将经量化的高频带混合因子添加到SWB TBE比特流引起比特率的很小的增加。混合操作在编码器和解码器两者处执行。混合操作的其他特性可以包括在每个帧的开始处对随机噪声激励信号的重新缩放和高频带混合因子的插值以确保当前帧与前一帧之间的平滑过渡。
根据本公开的增益/形状参数的估计包括:通过原始增益/形状参数与经插值的增益/形状参数之间的加权,(在编码器中)使用未量化的增益/形状参数的自适应平滑来对增益/形状参数进行后处理。增益/形状参数的量化可以由SWB TBE工具的现有量化器来执行。应用两次自适应平滑;它首先应用于未量化的增益/形状参数(在编码器中),并且然后应用于经量化的增益/形状参数(在编码器和解码器两者中)。在编码器处将自适应衰减应用于未量化的帧增益。自适应衰减基于MSE超额误差(excess error),MSE超额误差是SWB TBE工具中SHB发声参数计算的副产品。
图2是同时示出在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法200和设备250中的高频带发声因子的计算/计算器的示意性框图。
1.低频带激励信号
参考图2,例如使用以下关系式(1)来表示到3GPP EVS编解码器的输入声音信号sinp(n):
sinp(n),n=0,..,N32k-1(1)
其中,N32k为帧中样本数量(帧长度)。在该特定非限制性示例中,输入声音信号sinp(n)以Fs=32kHz的速率采样并且单个帧的长度为N32k=640个样本。这对应于20ms的时间间隔。给定持续时间的帧,每个包括给定数量的子帧并且包括给定数量的连续声音信号样本,被用于在声音信号编码领域中处理声音信号;关于这种帧的进一步信息可以在例如参考文献[1]中找到。
方法200包括下采样操作201,并且设备250包括用于进行操作201的下采样器251。下采样器251取决于编码器的比特率将输入声音信号sinp(n)从32kHz下采样到12.8kHz或16kHz。例如,对于高达24.4kbps的所有比特率,3GPP EVS编解码器中的输入声音信号被下采样到12.8kHz,否则被下采样到16kHz。得到的信号是低频带信号202。在ACELP编码操作203中使用ACELP编码器253对低频带信号202进行编码。
方法200包括ACELP编码操作203,而设备250包括3GPP EVS编解码器的ACELP编码器253以执行ACELP编码。ACELP编码器253生成两种类型的激励信号,自适应码本激励信号204和固定码本激励信号205,如参考文献[1]中所述。
在方法200和设备250中,3GPP EVS编解码器内的SWB TBE工具执行低频带激励信号生成操作207,并且包括用于生成低频带激励信号208的对应生成器257。生成器257使用两个激励信号204和205作为输入,将它们混合在一起并应用非线性变换以产生具有翻转频谱的混合信号,该混合信号在SWB TBE工具中被进一步处理以得到图2的低频带激励信号208。关于低频带激励信号生成的细节可以在参考文献[1]中找到;具体地,第5.2.6.1节描述SWB TBE编码,第6.1.3.1节描述SWB TBE解码。
作为非限制性实例,具有翻转频谱的低频段激励信号208以16kHz采样,并且使用以下关系式(2)表示:
lLB(n),n=0,..,N-1(2)
其中N=320为帧长度。
2.高频带目标信号
参考图2,高频带目标信号210实质上是输入声音信号sinp(n)的提取,该输入声音信号取决于编解码器的比特率而包含在6.4kHz至14kHz或8kHz至16kHz的频率范围内的频谱分量。无论编解码器的比特率如何,高频带目标信号210总是以16kHz采样,并且其频谱内容被翻转。因此,高频带目标频谱的第一频率二进制位(bin)对应于频谱的最后频率二进制位,反之亦然。在方法200和设备250中,可以例如使用如参考文献[1]中所描述的由3GPPEVS编解码器的QMF分析滤波器组259执行的QMF(正交镜像滤波器)分析操作209来生成高频带目标信号210。可替代地,高频带目标信号210可以通过用带通滤波器对输入声音信号sinp(n)进行滤波、在频域中移位、如上所述翻转其频谱内容并且最终将其从32kHz下采样到16kHz来生成。在本公开中,将假设使用QMF处理,并且例如使用以下关系式(3)来表示高频带目标信号210:
sHB(n),n=0,..,N-1(3)
在QMF滤波器组259中的处理之后,方法200包括估计高频带滤波器系数212的操作211,并且设备250包括用于执行操作211的估计器261。估计器261在每个子帧具有80个样本的长度的四个连续子帧中逐帧地从高频带目标信号210估计高频带LP(线性预测)滤波器系数212。估计器261使用如参考文献[1]中描述的Levinson-Durbin算法来计算高频带LP滤波器系数212。可以使用以下关系式(4)来表示高频带LP滤波器系数212:
其中P=10是高频带LP滤波器的阶数,并且j=0,…,3是子帧索引。每个子帧中的第一LP滤波器系数是单位1(unitary),即
方法200包括生成高频带残差信号214的操作213,并且设备250包括高频带残差信号的生成器263以进行操作213。生成器263通过用来自估计器261的高频带LP滤波器(LP滤波器系数212)对来自QMF分析滤波器组259的高频带目标信号210进行滤波来产生高频带残差信号214。高频带残差信号214可以例如使用以下关系式(5)来表示:
使用来自前一帧的高频带目标信号210来计算高频带残差信号214的前P个样本。这由求和项中的sHB(-k),k=1,…,P中的负索引指示。负索引是指在前一帧结束处的高频带目标信号214的样本。
3.高频带自相关函数与发声因子
第3节(高频带自相关函数)涉及编码器的特征。
由生成器263使用关系式5计算的高频带残差信号214用于计算高频带自相关函数和高频带发声因子。不直接在高频带残差信号214上计算高频带自相关函数。直接计算高频带自相关函数需要大量的计算资源。此外,高频带残差信号214的动态通常是低的,并且频谱翻转过程通常导致模糊有声与无声声音信号之间的差异。为了避免这些问题,例如在下采样域中在高频带残差信号214的时间包络上估计高频带自相关函数。
方法200包括计算高频带残差信号214的时间包络的操作215,并且设备250包括用于执行操作215的计算器265。为了计算高频带残差信号214的时间包络RTD(n)216,计算器265通过滑动移动平均(MA)滤波器来处理高频带残差信号214,该滑动MA滤波器在示例实施方式中包括M=20个抽头。时间包络计算可以例如由以下关系式(6)表示:
其中,负样本rHB(k),k=-M/2,…,-1是指前一帧中的高频带残差信号214的值。在模式切换场景中,可能发生前一帧中的高频带残差信号214未被计算并且值是未知的。在这种情况下,第一M/2值rHB(k),k=0,…M/2-1被复制并且用作前一帧的值rHB(k),k=-M/2,…,-1的替代。计算器265通过IIR(无限脉冲响应)滤波来近似当前帧中的时间包络RTD(n)216的最后M个值。这可以使用以下关系式(7)来完成:
RTD(n)=0.05·rHB(n)+0.95·RTD(n-1),n=N-M,...,N-1(7)
图3中示出了计算高频带残差信号214的时间包络RTD(n)216的操作215。
方法200包括时间包络下采样操作217,并且设备250包括用于进行操作217的下采样器267。下采样器267使用例如以下关系式(8)通过因子4对时间包络RTD(n)216进行下采样:
R4kHz(n)=RTD(4n),n=0,...,N/4-1(8)
方法200包括平均值计算操作219,并且设备250包括用于进行操作219的计算器269。计算器269将经下采样的时间包络R4kHz(n)218划分成四个连续段,并且使用例如以下关系式(9)计算每个段中的经下采样的时间包络R4kHz(n)218的平均值220:
其中,k为段的索引。
计算器269将所有平均值限制为最大值1.0。
方法200包括归一化因子计算操作221,并且设备250包括用于进行操作221的计算器271。计算器271使用经下采样的时间包络平均值220以使用例如以下关系式(10)来计算各个段k的段归一化因子:
然后,计算器271使用例如以下关系式(11)在当前帧的整个间隔内线性插值来自关系式(10)的段归一化因子,以产生经插值的归一化因子222:
由操作221和计算器271执行的该插值过程在图4中示出。
在关系式(11)中,术语η-1是指前一帧中的最后段归一化因子。因此,η-1在每个帧中的插值过程之后用η3更新。
方法200包括经下采样的时间包络的归一化操作223,并且设备250包括用于执行操作223的归一化器273。归一化器273使用例如以下关系式(12),利用经插值的归一化因子γ(n)222处理来自下采样器267的经下采样的时间包络R4kHz(n)218:
Rγ(n)=R4kHz(n)·γ(n),n=0,...,N/4-1 (12)
然后,归一化器273从关系式(12)的值Rγ(n)减去经归一化的包络的全局平均值(关系式(13)),以在操作223中完成经下采样的时间包络的归一化过程(图2的Rnorm(n)224)。这可以由关系式(13)表示:
估计高频带残差信号的时间包络的倾斜度是有用的。为此,方法200包括时间包络倾斜度估计操作225,并且设备250包括用于进行操作225的估计器275。时间包络倾斜度估计可以通过用线性最小二乘(LLS)方法将线性曲线拟合到在关系式(9)中计算出的段平均值来完成。时间包络的倾斜度226然后是线性曲线的斜率。用LLS方法计算出的线性曲线定义为:
根据LLS方法,目标是最小化所有k=0,…,3的与之间的平方差之和。这可以使用以下关系式(15)来表示:
最优斜率aLLS(倾斜度226)可以由估计器275使用关系式(16)来计算:
方法200包括高频带自相关函数计算操作227,并且设备250包括用于执行操作227的计算器277。计算器277使用例如关系式(17)基于归一化的时间包络来计算高频带自相关函数Xcorr 228:
其中,Ef是当前帧中的经归一化的时间包络Rnorm(n)224的能量,并且是前一帧中的经归一化的时间包络Rnorm(n)224的能量。计算器277可以使用以下关系式(18)来计算能量:
在模式切换的情况下,关系式(17)中的求和项前面的因子被设置为1/Ef,因为前一帧中的经归一化的时间包络Rnorm(n)224的能量是未知的。
方法200包括高频带发声因子计算操作229,并且设备250包括用于执行操作229的计算器279。
高频带残差信号的发声与高频带自相关函数Xcorr 228的方差σcorr密切相关。计算器279例如使用以下关系式(19)来计算方差σcorr:
为了改善发声参数vmult的判别潜力(有声/无声判定),计算器279将方差σcorr与高频带自相关函数Xcorr 228的最大值相乘,如以下关系式(20)所表示:
然后,计算器279使用例如以下关系式(21),利用S形(sigmoid)函数对来自关系式(20)的发声参数vmult进行变换以限制其动态范围,并且获得高频带发声因子vHB 230:
其中,因子β通过实验估计并且被设置为例如恒定值25.0。然后,从上述关系式(21)计算出的高频带发声因子vHB 230被限制在<0.0;1.0>的范围内并且被发送到解码器。
4.激励混合因子
图5是同时示出在解码器处,方法200和设备250内的时域带宽扩展的激励信号的计算/计算器的示意性框图。
第4节(激励混合因子)涉及编码器和解码器两者的特征。
3GPP EVS编解码器中的SWB TBE工具使用第1节(低频带激励信号)中描述的低频带激励信号208(图2)来预测第2节(高频带目标信号)中描述的高频带残差信号214(图2)。在EVS编解码器的较低比特率(低于24.4kbps)下,SWB TBE工具使用19比特来对预测的高频带残差信号的频谱包络和能量进行编码。对于20ms的帧长度,这得到0.95kbps的比特率。在比特率高于24.4kbps时,SWB TBE工具使用32比特对预测的高频带残差信号的频谱包络和能量进行编码。对于20ms的帧长度,这得到1.6kbps的比特率。在SWB TBE工具的两个比特率(0.95kbps和1.6kbps)下,没有比特用于对高频带残差信号214或高频带目标信号210进行编码。
参考图5,方法200包括伪随机噪声生成操作501,并且设备250包括用于执行操作501的伪随机噪声生成器551。
伪随机噪声生成器551产生均匀分布的随机噪声激励信号502。例如,参考文献[1]中描述的3GPP EVS编解码器的伪随机数生成器可以用作伪随机噪声生成器551。随机噪声激励信号wrand 502可以使用以下关系式(22)来表示:
wrand(n)∈U[-32767;32768],n=0,...,N-1 (22)
随机噪声激励信号wrand 502具有零均值和非零方差σrand=1.14e+11。应当注意,方差仅是近似值,并且表示100个帧上的平均值。
方法200包括计算低频带激励信号lLB(n)208的功率的操作503和用于执行操作503的功率计算器553。
功率计算器503使用例如以下关系式(23)来计算从编码器发送的低频带激励信号lLB(n)208的功率504:
方法200包括对随机噪声激励信号502的功率进行归一化的操作505和用于执行操作505的功率归一化器555。
功率归一化器555例如使用以下关系式(24)将随机噪声激励信号502的功率归一化为低频带激励信号208的功率504:
尽管随机噪声激励信号502的真实方差逐帧而变化,但是功率归一化不需要精确值。相反,在上述关系式(24)中使用上述定义的方差的近似值,以节省计算资源。
方法200包括将低频带激励信号lLB(n)208与功率归一化随机噪声激励信号wwhite(n)506混合的操作507以及用于执行操作507的混合器557。
混合器557通过使用本公开稍后描述的高频带混合因子将低频带激励信号lLB(n)208与功率归一化随机噪声激励信号wwhite(n)506混合来产生时域带宽扩展的激励信号508。
图6是同时示出在编码器处,由用于对激励信号进行时域带宽扩展的方法和设备内的经量化的归一化增益形成/表示的高频带混合因子的计算/计算器的示意性框图。
参考图6,在编码器处,
-方法200包括计算功率归一化随机噪声激励信号wwhite(n)506的时间包络的操作602、计算低频带激励信号lLB(n)208的时间包络的操作604、以及均方误差(MSE)最小化操作601和增益量化操作607;
并且
-设备250包括用于执行操作602的时间包络计算器652、用于执行操作604的时间包络计算器654、用于执行操作601的MSE最小化器651、以及用于执行操作607的增益量化器657。
如图6所示,为了节省计算资源,使用均方误差(MSE)最小化过程基于下采样域中的信号的时间包络来计算最佳增益这种方法的另一个优点是对背景噪声具有更高的鲁棒性。
在计算(图2的操作215和计算器265)高频带残差信号214的时间包络并且对该时间包络进行下采样(图2的操作217和下采样器267)时,计算器652使用与第3节(高频带自相关函数和发声因子)中描述的相同的算法来计算功率归一化随机噪声激励信号wwhite(n)506的经下采样的时间包络w4kHz(n)606(其也在如图5和对应描述中所示的编码器处计算)。所使用的下采样因子例如是4。功率归一化随机噪声激励信号的经下采样的时间包络可以使用以下关系式(25)表示:
W4kHz(n),n=0,...,N/4-1(25)
类似地,计算器654再次使用与第3节(高频带自相关函数和发声因子)中描述的相同的算法来计算以4kHz下采样的低频带激励信号lLB(n)208的时间包络L4kHz(n)605。低频带激励信号lLB(n)208的经下采样的时间包络606可以表示如下:
L4kHz(n),n=0,...,N/4-1(26)
MSE最小化操作601的目的是找到使(a)组合的时间包络(L4kHz(n),W4kHz(n))与(b)高频带残差信号rHB(n)214的时间包络R4kHz(n)之间的误差的能量最小化的最佳增益对这在数学上可以使用关系式(27)表示:
为此,MSE最小化器651求解线性方程组。解决方案可以在科学文献中找到。例如,可以使用关系式(28)来计算最佳增益对
其中,c0,…,c4和c5的值由下式给出
然后,MSE最小化器651使用例如以下关系式(30)来计算最小MSE误差能量(超额误差):
为了进一步处理,增益量化器657以以下方式对最佳增益进行缩放,该方式使得与低频带激励信号lLB(n)的时间包络L4kHz(n)605相关联的增益gln变为与功率归一化随机噪声激励信号wwhite(n)506的时间包络W4kHz(n)606相关联的增益gwn的单位1,使用例如以下关系式(31)给出:
关系式(31)的重新缩放的结果/优点是仅一个参数(归一化增益gwn)需要被编解码并且在比特流中从编码器发送到解码器,而不是两个参数。因此,使用关系式(31)对增益的缩放减少了比特消耗并且简化了量化过程。另一方面,组合的时间包络(L4kHz(n)和W4kHz(n))的能量将与高频带残差信号214的时间包络R4kHz(n)的能量不匹配。这不是问题,因为SWBTBE工具使用包含关于高频带残差信号的能量的信息的全局增益和子帧增益。子帧增益和全局增益的计算在本公开的第6节(增益/形状估计)中描述。
增益量化器657将归一化增益gwn限制在最大阈值1.0与最小阈值0.0之间。增益量化器657使用例如由以下关系式(32)描述的3比特均匀标量量化器来对归一化增益gwn进行量化:
并且所得索引idxg 610被限制为形成/表示高频带混合因子的间隔<0,7>,并且与SWB TBE编码器的现有索引一起以0.95kbps或1.6kbps在SWB TBE比特流中发送。
返回参考图5,方法200包括在解码器处的混合因子解码操作509,并且设备250包括用于执行操作509的混合因子解码器559。
混合因子解码器559使用例如以下关系式(33)从接收的索引idxg 610产生经解码的增益:
来自关系式(33)的经解码的增益形成高频带混合因子fmix 510。
例如以16kHz采样的低频带激励信号lLB(n)208和例如以16kHz采样的归一化随机噪声激励信号wwhite(n)506在混合器557中被混合在一起。然而,低频带激励信号lLB(n)208的能量和随机噪声激励信号wrand 502的能量两者逐帧而变化。如果使用从关系式(33)获得的高频带混合因子fmix 510直接混合低频带激励信号lLB(n)208和随机噪声激励信号wrand502,则能量的波动最终可能在帧边界处产生可听伪影。为了确保平滑过渡,随机噪声激励信号wrand502的能量在生成器551中在前一帧与当前帧之间被线性插值。这可以通过用以下插值因子对当前帧的前半部分中的随机噪声激励信号wrand 502进行缩放来完成:
其中,ELB是当前帧中的低频带激励信号lLB(n)208的能量,并且是前一帧中的低频带激励信号lLB(n)208的能量。
为了进一步平滑前一帧与当前帧之间的转换,解码器559还对高频带混合因子fmix510进行线性插值。这可以通过引入例如使用以下关系式计算的缩放因子βmix(n)来完成:
其中,为前一帧中高频带混频因子的值。注意,在关系式(34)中计算的插值因子ζw(n)和在关系式(35)中计算的缩放因子βmix(n)是针对n=0,…,N/2-1定义的。
低频带激励信号lLB(n)208和随机噪声激励信号wwhite(n)506的混合最终由混合器557使用例如关系式(36)来完成,以获得时域带宽扩展的激励信号u(n)508。
5.高频带合成(LP合成)
在SWB TBE工具的编码器中将通过关系式(4)中对高频带输入信号sHB(n)的LP分析计算出的高频带LP滤波器系数212转换为LSF参数并且对其进行量化。在0.95kbps的比特率下,SWB TBE编码器使用8比特来对LSF索引进行量化。在1.6kbps的比特率下,SWBTBE编码器使用21比特来对LSF索引进行量化。
返回参考图5,在编码器处,
-方法200包括解码操作511,并且设备250包括用于对经量化的LSF索引进行解码的对应解码器561;并且
-方法200包括转换操作513,并且设备250包括用于将经解码的LSF索引512转换成高频带LP滤波器系数514的对应转换器563。
经解码的高频带LP滤波器系数512可以表示为:
其中,P=10为LP滤波器的阶数。每个子帧中的第一经解码的LP滤波器系数是单位1,即
方法200包括滤波操作515,并且设备250包括对应的合成滤波器565,其使用经解码的高频带LP滤波器系数514来使用例如以下关系式(38)对关系式(36)的混合时域带宽扩展的激励信号508进行滤波,以获得经LP滤波的高频带信号yHB 516:
6.增益/形状估计(图7)
在编码器和解码器两者处应用增益/形状参数平滑。仅在编码器处应用帧增益的自适应衰减。
利用经量化的LSF系数对高频带目标信号sHB(n)210的频谱形状进行编码。参考图7,SWB TBE工具还包括用于如参考文献[1]中所描述的估计高频带目标信号sHB(n)210的时间子帧增益702的估计操作701/估计器751。估计器751将估计时间子帧增益归一化为单位能量。
来自估计器751的归一化的估计时间子帧增益702可以使用关系式(39)来表示:
gk, k=0,...,3 (39)
方法200包括计算操作703,并且设备250包括用于通过线性最小二乘法(LLS)插值来确定归一化的估计时间子帧增益gk 702的时间倾斜度704的对应计算器753。如图8所示,该插值过程可以通过将线性曲线801拟合到四个连续子帧(图8中的子帧0至3)中的真实子帧增益702并且计算其斜率来完成。
利用LLS插值方法构建的线性曲线801可以使用以下关系式(40)来定义:
其中,通过使真实子帧增益gk 702与所有k=0,…,3个子帧的线性曲线上的对应点之间的平方差之和最小化来找到参数cLLS和dLLS。这可以使用以下关系式(41)来表示:
通过展开关系式(41),可以表示估计时间子帧增益gk 702的时间倾斜度gtilt。时间倾斜度gtilt 702实际上等于线性曲线的最佳斜率cLLS。可以使用以下关系式(42)在计算器753中计算时间倾斜度gtilt:
方法200包括平滑操作705,并且设备250包括对应的平滑器755,用于在例如以下条件为真时利用来自关系式(40)的经插值(LLS)的增益来平滑时间子帧增益gk 702:
vHB<0.4ANDidxg≥5AND|gtilt|<0.2 (43)
时间子帧增益gk 702的平滑然后由平滑器755使用例如以下关系式(44)来完成:
其中权重κ与由关系式(21)给出的发声参数vHB 230(图2)成比例。例如,权重κ可以使用以下关系式(45)来计算:
并且限制为最大值1.0和最小值0.0。
方法200包括增益形状量化操作707,并且设备250包括用于对经平滑的时间子帧增益权重706进行量化的对应的增益形状量化器757。为此,如参考文献[1]中描述的使用例如5比特的SWB TBE工具的编码器的增益形状量化器可以用作量化器757。来自量化器757的经量化的时间子帧增益708可以使用以下关系式(46)来表示:
方法200包括插值操作709,并且设备250包括对应的插值器759,用于在量化操作707之后使用如关系式(40)和(41)中描述的相同LLS插值过程再次对经量化的时间子帧增益708进行插值。帧中的四个连续子帧中的经插值的经量化的子帧增益710可以使用以下关系式(47)来表示:
方法200包括倾斜度计算操作711,并且设备250包括对应的倾斜度计算器761,用于使用例如关系式(42)来计算经插值的量化时间子帧增益710的倾斜度。经插值的量化时间子帧增益710的倾斜度可以表示为
然后,当以下条件(48)的条件为真时,对量化时间子帧增益708进行平滑,其中idxg是来自关系式(32)的索引:
为此,方法200包括量化增益平滑操作713,并且设备250包括用于通过使用例如来自关系式(47)的经插值的时间子帧增益710进行平均来平滑量化时间子帧增益708的对应的平滑器714。为此,可以使用以下关系式(49):
方法200包括帧增益估计操作715,并且设备250包括对应的帧增益估计器765。SWBTBE工具使用帧增益来控制合成的高频带声音信号的全局能量。通过(a)关系式(38)的经LP滤波的高频带信号yHB 516乘以来自关系式(49)的经平滑的量化时间子帧增益714与(b)关系式(3)的高频带目标信号sHB(n)210之间的能量匹配来估计帧增益。使用例如以下关系式(50),将关系式(38)的经LP滤波的高频带信号yHB 516乘以经平滑的量化时间子帧增益714:
在参考文献[1]中描述了帧增益估计操作715的细节。估计的帧增益参数表示为gf(参见716)。
方法200包括计算合成高频带信号718的操作717,并且设备250包括用于执行操作717的计算器767。计算器767可以在一些特定条件下修改估计的帧增益gf 717。例如,在高频带发声因子vHB 230(图2)和MSE超额误差能量Eerr的给定值下,可以根据关系式(51)衰减帧增益gf,如关系式(51)所示:
gf←fatt·gf,ifvHB>0.1ANDEerr>5.0(51)
其中,Eerr是在关系式(30)中计算出的MSE超额误差能量,并且fatt是衰减因子,例如计算为:
fatt=1.0-0.04(Eerr-5.0)(52)
参考文献[1]中描述了在某些特定条件下对帧增益gf的进一步修改。
然后,计算器767使用参考文献[1]的SWB TBE工具的编码器的帧增益量化器来对经修改的帧增益进行量化。
最后,计算器767使用例如以下关系式(53)来确定合成高频带声音信号718:
7.硬件组件的示例配置
图9是形成用于在串扰信号的编码/解码期间对激励信号进行时域带宽扩展的上述方法200和设备250(在下文中称为“方法200和设备250”)的硬件组件的示例配置的简化框图。
方法200和设备250可以被实施为移动终端的一部分、便携式媒体播放器的一部分或实施在任何类似的设备中。设备250(在图9中标识为900)包括输入902、输出904、处理器906和存储器908。
输入902被配置为接收输入信号。输出904被配置为提供时域带宽扩展的激励信号。输入902和输出904可以在公共模块(例如串行输入/输出设备)中实施。
处理器906可操作地连接到输入902、输出904和存储器908。处理器906被实现为用于执行代码指令以支持如附图中所示和/或如本公开中所描述的上述方法200和设备250的各种操作和元素的功能的一个或多个处理器。
存储器908可以包括用于存储可由处理器906执行的代码指令的非暂时性存储器,具体地,处理器可读存储器包括/存储非暂时性指令,该非暂时性指令在被执行时使处理器实现方法200和设备250的操作和元素。存储器908还可以包括随机存取存储器或缓冲器,以存储来自由处理器908执行的各种功能的中间处理数据。
本领域普通技术人员将认识到,方法200和设备250的描述仅是说明性的,并不旨在以任何方式进行限制。受益于本公开的本领域普通技术人员将容易想到其他实施例。此外,所公开的方法200和设备250可以被定制以提供对编码和解码声音的现有需求和问题的有价值的解决方案。
为了清楚起见,未示出并描述方法200和设备250的实现的所有常规特征。当然,应当理解,在方法200和设备250的任何这种实际实施方式的开发中,可能需要做出许多特定于实施方式的决定,以便实现开发者的特定目标,诸如符合应用、系统、网络和业务相关的约束,并且这些特定目标将从一个实施方式到另一个实施方式以及从一个开发者到另一个开发者而变化。此外,应当理解,开发工作可能是复杂且耗时的,但是对于受益于本公开的声音处理领域的普通技术人员来说,仍然是工程的常规任务。
根据本公开,可以使用各种类型的操作系统、计算平台、网络设备、计算机程序和/或通用机器来实现本文描述的元件、处理操作和/或数据结构。此外,本领域普通技术人员将认识到,也可以使用通用性较低的设备,诸如硬连线设备、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。在包括一系列操作和子操作的方法由处理器、计算机或机器实施并且那些操作和子操作可以被存储为处理器、计算机或机器可读的一系列非暂时性代码指令的情况下,该非暂时性代码指令可以被存储在有形和/或非暂时性介质上。
如本文所述的方法200和设备250的处理操作和元件可以包括软件、固件、硬件或适用于本文所述目的的软件、固件或硬件的任何组合。
在方法200和设备250中,可以以各种顺序执行各种处理操作和子操作,并且处理操作和子操作中的一些可以是可选的。
尽管上文已经通过其非限制性的说明性实施例描述了本公开,但是在不脱离本公开的精神和本质的情况下,可以在所附权利要求的范围内任意修改这些实施例。
8.参考文献
本公开提及以下参考文献,其全部内容通过引用并入本文:
[1]3GPP TS26.445,“EVS Codec Detailed Algorithmic Description”,3GPP技术规范(版本12)(2014)-第5.2.6.1和6.1.3.1节。
[2]Bessette,B.,Lefebvre,R.,Salami,R.等人的“Techniques for high-quality ACELP coding of wideband speech”。斯堪的纳维亚国际会议EUROSPEECH 2001,2001年9月3日至7日,丹麦奥尔堡,第七届欧洲语音通信和技术会议,第二届INTERSPEECH活动。
Claims (72)
1.一种用于在串扰声音信号的解码期间对激励信号进行时域带宽扩展的方法,包括:
对在比特流中接收的高频带混合因子进行解码;以及
使用所述高频带混合因子对低频带激励信号和随机噪声激励信号进行混合以产生时域带宽扩展的激励信号。
2.根据权利要求1所述的方法,其中对所述高频带混合因子进行解码包括对在所述比特流中接收的经量化的归一化增益进行解码,以及使用经解码的经量化的归一化增益来计算所述高频带混合因子。
3.根据权利要求1或2所述的方法,包括:对所述声音信号的先前帧与当前帧之间的所述随机噪声激励信号的能量进行插值,以平滑所述先前帧与当前帧之间的过渡。
4.根据权利要求3所述的方法,包括:为了对所述随机噪声激励信号的所述能量进行插值,对所述当前帧的一部分中的随机噪声信号进行缩放。
5.根据权利要求1至4中任一项所述的方法,包括:对所述声音信号的先前帧与当前帧之间的所述高频带混合因子进行插值,以确保所述先前帧与当前帧之间的平滑过渡。
6.根据权利要求1至4中任一项所述的方法,包括:对经量化的增益/形状参数进行估计。
7.一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法,包括:
(a)使用所述声音信号计算高频带残差信号和(b)计算所述高频带残差信号的时间包络;
基于所述高频带残差信号的所述时间包络来计算高频带发声因子;
计算可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子;以及
使用所述高频带发声因子来估计增益/形状参数。
8.一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法,包括:
(a)使用所述声音信号计算高频带残差信号和(b)计算所述高频带残差信号的时间包络;以及
基于所述高频带残差信号的所述时间包络来计算高频带发声因子。
9.一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的方法,包括:
计算可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子。
10.根据权利要求7或8所述的方法,其中计算所述高频带发声因子包括(a)基于所述时间包络来计算高频带自相关函数,以及(b)使用所述高频带自相关函数来计算所述高频带发声因子。
11.根据权利要求7、8和10中任一项所述的方法,其中计算所述高频带发声因子包括通过给定因子对所述高频带残差信号的所述时间包络进行下采样。
12.根据权利要求11所述的方法,其中计算所述高频带发声因子包括将所述经下采样的时间包络划分为多个段,并且计算所述经下采样的时间包络的每个段的平均值。
13.根据权利要求12所述的方法,其中计算所述高频带发声因子包括所述高频带残差信号的所述经下采样的时间包络的每段归一化。
14.根据权利要求13所述的方法,其中所述经下采样的时间包络的每段归一化包括(a)根据所计算的平均值来计算段归一化因子,(b)对所述当前帧中的所述段归一化因子进行插值,以及(c)使用经插值的段归一化因子来对所述经下采样的时间包络进行归一化。
15.根据权利要求7、8和10至14中任一项所述的方法,包括:基于线性最小二乘法来计算所述高频带残差信号的所述时间包络的倾斜度。
16.根据权利要求14所述的方法,其中计算所述高频带发声因子包括(a)基于归一化的时间包络计算高频带自相关函数,以及(b)使用所述高频带自相关函数来计算所述高频带发声因子。
17.根据权利要求7和9至16中任一项所述的方法,其中计算所述高频带混合因子包括计算从中获得所述高频带混合因子的增益并且对其进行量化。
18.根据权利要求17所述的方法,其中计算所述高频带混合因子包括生成随机噪声激励信号。
19.根据权利要求18所述的方法,其中生成所述随机噪声激励信号包括对所述随机噪声激励信号进行功率归一化。
20.根据权利要求18或19所述的方法,其中计算所述高频带混合因子包括(a)将所述低频带激励信号与所述随机噪声激励信号混合,以及(b)使混合的激励信号与根据所述声音信号计算的高频带残差信号之间的均方误差最小化。
21.根据权利要求18至20中任一项所述的方法,其中计算所述高频带混合因子包括(a)计算所述随机噪声激励信号的时间包络,(b)计算所述低频带激励信号的时间包络,以及(c)通过均方误差最小化过程来找到所述随机噪声激励信号和所述低频带激励信号的所述时间包络的相应增益。
22.根据权利要求21所述的方法,其中计算所述高频带混合因子包括对所述随机噪声激励信号和所述低频带激励信号的所述时间包络的所述增益进行缩放。
23.根据权利要求22所述的方法,其中对所述增益进行缩放包括获得单个增益参数,并且其中计算所述高频带混合因子包括对所述单个增益参数进行量化以获得所述经量化的增益,从所述量化增益获得所述高频带混合因子。
24.根据权利要求7或8所述的方法,包括:使用所述高频带发声因子来估计增益/形状参数。
25.根据权利要求7至24中任一项所述的方法,其中所述增益/形状参数选自包括以下各项的组:
-高频带目标信号的频谱形状;
-高频带目标信号的子帧增益;
-帧增益参数。
26.根据权利要求7至25中任一项所述的方法,其中估计所述增益/形状参数包括计算所述增益/形状参数的时间倾斜度。
27.根据权利要求26所述的方法,其中计算所述时间倾斜度包括对所述增益/形状参数进行插值。
28.根据权利要求27所述的方法,其中对所述增益/形状参数进行插值包括使用线性最小二乘法。
29.根据权利要求7至28中任一项所述的方法,其中估计所述增益/形状参数包括使用自适应权重参数来平滑所述增益/形状参数。
30.根据权利要求29所述的方法,包括:使用所述高频带发声因子来计算所述自适应权重参数。
31.根据权利要求29或30所述的方法,包括:响应于涉及所述高频带发声因子的给定条件,使用所述自适应权重参数来平滑所述增益/形状参数。
32.根据权利要求29至31中任一项所述的方法,其中估计所述增益/形状参数包括对经平滑的增益/形状参数进行量化。
33.根据权利要求32所述的方法,其中估计所述增益/形状参数包括对经量化的增益/形状参数进行插值。
34.根据权利要求32或33所述的方法,其中估计所述增益/形状参数包括平滑经量化的增益/形状参数。
35.根据权利要求34所述的方法,其中,通过对所述经量化的经插值的增益/形状参数进行平均来执行平滑所述经量化的增益/形状参数。
36.根据权利要求7至35中任一项所述的方法,其中估计所述增益/形状参数包括使用MSE超额误差来进行帧增益参数的自适应衰减。
37.一种用于在串扰声音信号的解码期间对激励信号进行时域带宽扩展的设备,包括:
对比特流中接收的高频带混合因子进行解码的解码器;以及
使用所述高频带混合因子对低频带激励信号和随机噪声激励信号进行混合以产生时域带宽扩展的激励信号的混合器。
38.根据权利要求37所述的设备,其中所述高频带混合因子的解码器对在所述比特流中接收的经量化的归一化增益进行解码,并且使用经解码的经量化的归一化增益来计算所述高频带混合因子。
39.根据权利要求37或38所述的设备,包括:所述随机噪声激励信号的生成器,其对所述声音信号的先前帧与当前帧之间的所述随机噪声激励信号的能量进行插值,以平滑所述先前帧与当前帧之间的过渡。
40.根据权利要求39所述的方法,包括:为了对所述随机噪声激励信号的所述能量进行插值,所述随机噪声激励信号的所述生成器对所述当前帧的一部分中的所述随机噪声信号进行缩放。
41.根据权利要求37至40中任一项所述的设备,其中,所述高频带混合因子的所述解码器对所述声音信号的先前帧与当前帧之间的所述高频带混合因子进行插值,以确保所述先前帧与当前帧之间的平滑过渡。
42.根据权利要求37至40中任一项所述的设备,包括:对经量化的增益/形状参数进行估计的估计器。
43.一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的设备,包括:
(a)使用所述声音信号计算高频带残差信号和(b)计算所述高频带残差信号的时间包络的计算器;
基于所述高频带残差信号的所述时间包络计算高频带发声因子的计算器;
计算可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子的计算器;以及
使用所述高频带发声因子来估计增益/形状参数的估计器。
44.一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的设备,包括:
(a)使用所述声音信号计算高频带残差信号和(b)计算所述高频带残差信号的时间包络的计算器;以及
基于所述高频带残差信号的所述时间包络计算高频带发声因子的计算器。
45.一种用于在串扰声音信号的编码期间对激励信号进行时域带宽扩展的设备,包括:
计算可用于混合低频带激励信号和随机噪声激励信号以产生时域带宽扩展的激励信号的高频带混合因子的计算器。
46.根据权利要求43或44所述的设备,其中所述高频带发声因子的所述计算器基于所述时间包络来计算高频带自相关函数,并且使用所述高频带自相关函数来计算所述高频带发声因子。
47.根据权利要求43、44和46中任一项所述的设备,其中所述高频带发声因子的所述计算器包括通过给定因子对所述高频带残差信号的所述时间包络进行下采样的下采样器。
48.根据权利要求47所述的设备,其中所述高频带发声因子的所述计算器包括将经下采样的时间包络划分为多个段的划分器,以及计算所述经下采样的时间包络的每个段的平均值的计算器。
49.根据权利要求48所述的设备,其中所述高频带发声因子的所述计算器包括所述高频带残差信号的所述经下采样的时间包络的每段归一化器。
50.根据权利要求49所述的设备,其中,所述每段归一化器(a)根据所述计算的平均值来计算段归一化因子,(b)对当前帧中的所述段归一化因子进行插值,并且(c)使用经插值的段归一化因子来对所述经下采样的时间包络进行归一化。
51.根据权利要求43、44和46至50中任一项所述的设备,包括:基于线性最小二乘法计算所述高频带残差信号的所述时间包络的倾斜度的计算器。
52.根据权利要求50所述的设备,其中所述高频带发声因子的所述计算器包括基于归一化的时间包络来计算高频带自相关函数,并且使用所述高频带自相关函数来计算所述高频带发声因子的计算器。
53.根据权利要求43和45至52中任一项所述的设备,其中所述高频带混合因子的所述计算器计算形成所述高频带混合因子的增益并对其进行量化。
54.根据权利要求53所述的设备,其中所述高频带混合因子的所述计算器包括随机噪声激励信号的生成器。
55.根据权利要求54所述的设备,包括:所述随机噪声激励信号到所述低频带激励信号的功率的功率归一化器。
56.根据权利要求54或55所述的设备,其中所述高频带混合因子的所述计算器(a)将所述低频带激励信号与所述随机噪声激励信号组合,并且(b)使混合的激励信号与根据所述声音信号计算的高频带残差信号之间的均方误差最小化。
57.根据权利要求54至56中任一项所述的设备,其中所述高频带混合因子的所述计算器(a)包括所述随机噪声激励信号的时间包络的计算器和所述低频带激励信号的时间包络的计算器,并且(b)通过均方误差最小化过程来找到所述随机噪声激励信号和所述低频带激励信号的所述时间包络的相应增益。
58.根据权利要求57所述的设备,其中所述高频带混合因子的所述计算器对所述随机噪声激励信号和所述低频带激励信号的所述时间包络的所述增益进行缩放。
59.根据权利要求58所述的设备,其中为了对所述随机噪声激励信号和所述低频带激励信号的时间包络的增益进行缩放,所述高频带混合因子的所述计算器计算单个增益参数并且对所述单个增益参数进行量化以获得形成所述高频带混合因子的经量化的增益。
60.根据权利要求43或44所述的设备,包括:使用所述高频带发声因子来估计增益/形状参数的估计器。
61.根据权利要求43至60中任一项所述的设备,其中所述增益/形状参数选自包括以下各项的组:
-高频带目标信号的频谱形状;
-高频带目标信号的子帧增益;
-帧增益参数。
62.根据权利要求43至61中任一项所述的设备,其中,所述增益/形状参数包括所述高频带目标信号的子帧增益,并且其中所述增益/形状参数的所述估计器包括计算所述子帧增益的时间倾斜度的计算器。
63.根据权利要求62所述的设备,其中所述时间倾斜度的所述计算器包括对所述子帧增益进行插值的插值器。
64.根据权利要求63所述的设备,其中对所述子帧增益进行插值的所述插值器使用线性最小二乘法。
65.根据权利要求43至64中任一项所述的设备,其中,所述增益/形状参数包括所述高频带目标信号的子帧增益,并且所述增益/形状参数的所述估计器包括使用自适应权重参数来平滑所述子帧增益的平滑器。
66.根据权利要求65所述的设备,其中所述子帧增益的所述平滑器使用所述高频带发声因子来计算所述自适应权重参数。
67.根据权利要求29或30所述的设备,其中所述增益/形状参数的所述平滑器响应于涉及所述高频带发声因子的给定条件,使用所述自适应权重参数来执行所述增益/形状参数的平滑。
68.根据权利要求65至67中任一项所述的设备,其中所述增益/形状参数的所述估计器包括对所述子帧增益进行量化的量化器。
69.根据权利要求68所述的设备,其中所述增益/形状参数的所述估计器包括对经量化的子帧增益进行插值的插值器。
70.根据权利要求68或69所述的设备,其中所述增益/形状参数的所述估计器包括平滑所述子帧增益的平滑器。
71.根据权利要求70所述的设备,其中平滑所述子帧增益的所述平滑器通过对经量化的经插值的增益/形状参数进行平均来平滑所述经量化的增益/形状参数。
72.根据权利要求43至71中任一项所述的设备,其中所述增益/形状参数包括所述高频带目标信号的子帧增益,并且其中,所述增益/形状参数的所述估计器使用MSE超额误差来执行帧增益参数的自适应衰减。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US63/306,291 | 2022-02-03 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| HK40112969A true HK40112969A (zh) | 2025-01-28 |
Family
ID=
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2728535C2 (ru) | Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы | |
| EP1869670B1 (en) | Method and apparatus for vector quantizing of a spectral envelope representation | |
| JP5978218B2 (ja) | 低ビットレート低遅延の一般オーディオ信号の符号化 | |
| US6654716B2 (en) | Perceptually improved enhancement of encoded acoustic signals | |
| WO2010091013A1 (en) | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder | |
| US10825467B2 (en) | Non-harmonic speech detection and bandwidth extension in a multi-source environment | |
| WO2010028301A1 (en) | Spectrum harmonic/noise sharpness control | |
| CN105247614A (zh) | 音频编码器和解码器 | |
| JP2016510429A (ja) | サブバンドの時間的平滑化を用いて周波数増強信号を生成する装置および方法 | |
| JP2017161917A (ja) | 平均符号化レートを制御するためのシステムおよび方法 | |
| TWI785753B (zh) | 多聲道信號產生器、多聲道信號產生方法及電腦程式 | |
| US9208775B2 (en) | Systems and methods for determining pitch pulse period signal boundaries | |
| JP2003504669A (ja) | 符号化領域雑音制御 | |
| EP2608200B1 (en) | Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream | |
| HK40112969A (zh) | 针对串扰场景的时域超宽带带宽扩展 | |
| US20250124936A1 (en) | Time-domain superwideband bandwidth expansion for cross-talk scenarios | |
| TWI864704B (zh) | 用於音訊編碼器中之尺度參數之諧度相依傾斜控制之設備及方法 | |
| KR20260004452A (ko) | 오디오 인코더에서 스케일 파라미터의 고조파 의존적 기울기 제어 장치 및 방법 | |
| HK40011829A (zh) | 在多源环境中的非谐波语音检测及带宽扩展 | |
| HK1212500B (zh) | 用於确定内插因数组的系统和方法 |