CN112201261A

CN112201261A - 基于线性滤波的频带扩展方法、装置及会议终端系统

Info

Publication number: CN112201261A
Application number: CN202010933315.7A
Authority: CN
Inventors: 方泽煌; 康元勋
Original assignee: Xiamen Yealink Network Technology Co Ltd
Current assignee: Xiamen Yealink Network Technology Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2021-01-08
Anticipated expiration: 2040-09-08
Also published as: CN112201261B

Abstract

本发明实施例公开一种基于线性滤波的频带扩展方法、装置及会议终端系统，所述方法包括：对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号；提取所述时域语音信号的LPC系数和LPC残差；利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号；根据所述LPC残差和所述LPC系数确定脉冲响应信号；利用所述残差语音信号生成宽带激励信号；对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果；将所述宽带激励信号和所述傅里叶变换结果进行相乘，并对相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。本发明实施例既能够降低计算开销、占用内存，且相比于传统频带扩展方法，能够提升语音质量、适用于各种编解码场景。

Description

基于线性滤波的频带扩展方法、装置及会议终端系统

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种基于线性滤波的频带扩展方法、装置及会议终端系统。

背景技术

语音信号的中高频段成分蕴含着丰富的声学信息，这些声学信息直接影响语音信号的音色、自然度、清晰读、可懂度等。中高频段语音信号的缺失会导致语音质量严重下降，例如会使得声音变得低沉、降低原有自然语音信号的表现力等。

在目前的公共交换电话网(Public Switched Telephone Networks)和一些无线通信系统中，由于受到信道带宽、编码方式等多方面因素的影响，语音信号在通信过程中仅仅能够保留低频(0.3kHz-3.4kHz)部分进行传输，导致语音质量受到严重的影响。

频带扩展技术是一种参数编码技术，通过频带扩展可以在接收端实现恢复或扩展出高频成分，以提高音频信号的质量，使用户直观感受到更亮的音色，更大的音量和更好的可懂度。目前的频带扩展方法包括基于规则或简单映射的频带扩展方法，但是由于规则的局限性和声学参数的表征能力等等导致频带扩展效果并不如人意。通过深度学习实现频带扩展方法比上述传统方法较好，但是，目前的基于深度学习的频带扩展方法通过利用大量的数据进行模型的拟合窄带语音信号到宽带语音信号的映射，因此需要动用大量的参数，而动则几十兆至上百兆的模型规模是要求时延低，内存小、计算能力较弱的终端系统，如实时会议终端系统所不能承受的，同时投入的各种资源也让各中小企业忘而却步。

中国专利CN201480047702.3公开了一种自适应带宽扩展方法及其装置，其提供的一个实施例一种解码已编码音频比特流和生成频带扩展的方法，包括解码所述音频比特流以产生已解码低带音频信号和生成对应于低频带的低带激励频谱。使用参数从所述低频带内选择子带区域，所述参数指示所述已解码低带音频信号的频谱包络的能量信息。通过从所述选择的子带区域复制子频带激励频谱到对应于高频带的高子带区域生成所述高频带的高带激励频谱。使用所述生成的高带激励频谱，通过采用高带频谱包络生成扩展的高带音频信号。将所述扩展的高带音频信号添加到所述已解码低带音频信号以生成具有扩展的频率带宽的音频输出信号。然而，该方法需要对不同的解码器进行适应，由于用户的编解码环境可能是各种各样的，因此该方案使用范围有所局限。

因此，如何提供一种既能够降低计算开销、占用内存，且相比于传统频带扩展方法，有效提升语音质量、且适用于各种编解码场景的频带扩展方法是亟需解决的技术问题。

发明内容

本发明实施例提供一种基于线性滤波的频带扩展方法、装置及会议终端系统，以解决由于现有深度学习模型参数规模大、计算开销大导致基于其的频带扩展方法无法应用在要求时延低，内存小、计算能力较弱的终端系统的技术问题，能够降低计算开销、占用内存，且相比于传统频带扩展方法，有效提升语音质量、适用于各种编解码场景。

第一方面，本发明实施例提供一种基于线性滤波的频带扩展方法，包括：

对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号；

提取所述时域语音信号的LPC系数和LPC残差；

利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号；

根据所述LPC残差和所述LPC系数确定脉冲响应信号；

利用所述残差语音信号生成宽带激励信号；

对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果；

将所述宽带激励信号和所述傅里叶变换结果进行相乘，得到相乘结果；

对所述相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。

进一步地，所述利用所述残差语音信号生成宽带激励信号，包括：

对所述残差语音信号进行分帧处理；

分别对分帧后的每一帧语音信号进行加窗处理；

分别对加窗处理后的每一帧语音信号进行傅里叶变换，获得每一帧语音信号的频谱；

根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率；

根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带，并分别基于其最高频率向上填充频谱，直至频谱补充完成，得到每一帧语音信号的第二频谱；

对每一帧语音信号的第二频谱进行逆傅里叶变换，得到宽带激励信号。

进一步地，估计当前帧最高频率的方法包括：

计算设定频率范围内的平均功率谱能量，并取所述平均功率谱能量的1/N作为能量阈值，以估计当前帧的最高频率；

从所述设定频率范围的最高频率往下逐一检索，若在预设的停止检索频率之前，检索到某一频率对应的功率谱能量大于所述能量阈值，则所述某一频率为所述当前帧的最高频率。

进一步地，根据当前帧的最高频率确定其谱平移的子带，包括：

设当前帧的最高频率为Q，取[Q-1000，Q]Hz范围的子带作为谱平移的子带。

进一步地，当将8kHz的窄带信号扩展成16kHz的宽带信号时，所述设定频率为2kHz～4kHz，所述预设的停止检索频率为3kHz，所述N等于8。

第二方面，本发明实施例提供一种基于线性滤波的频带扩展装置，包括：

上采样单元，用于对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号；

LPC参数提取单元，用于提取所述时域语音信号的LPC系数和LPC残差；

残差语音信号获取单元，用于利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号；

脉冲响应信号获取单元，用于根据所述LPC残差和所述LPC系数确定脉冲响应信号；

宽带激励信号生成单元，用于利用所述残差语音信号生成宽带激励信号；

傅里叶变换单元，用于对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果；

相乘单元，用于将所述宽带激励信号和所述傅里叶变换结果进行相乘，得到相乘结果；

宽带信号生成单元，用于对所述相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。

对所述残差语音信号进行分帧处理；

分别对分帧后的每一帧语音信号进行加窗处理；

进一步地，估计当前帧最高频率的方法包括：

进一步地，当将8kHz的窄带信号扩展成16kHz的宽带信号时，所述设定频率为2kHz～4kHz，所述预设的停止检索频率为3kHz，所述N等于8，所述谱平移的子带为[Q-1000，Q]Hz范围的子带；其中，Q为所述最高频率。

第三方面，本发明实施例提供一种会议终端系统，包括：

声音信号采集器、信号转换器、处理装置、传输模块和终端；其中，所述声音信号采集器与所述信号转换器连接，所述信号转换器与所述处理装置连接，所述处理装置与所述传输模块连接，所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于线性滤波的频带扩展程序，所述基于线性滤波的频带扩展程序被所述处理器执行时实现如上述所述的基于线性滤波的频带扩展方法的步骤；所述终端用于接收频带扩展后的信号。

综上，本发明实施例的有益效果在于：

本发明实施例通过对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号；提取所述时域语音信号的LPC系数和LPC残差；利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号；根据所述LPC残差和所述LPC系数确定脉冲响应信号；利用所述残差语音信号生成宽带激励信号；对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果；将所述宽带激励信号和所述傅里叶变换结果进行相乘，得到相乘结果；对所述相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。本发明实施例既能够降低计算开销、占用内存，且相比于传统频带扩展方法，能够有效提升语音质量、适用于各种编解码场景。此外，本发明实施例尤其适用部署于终端会议设备和系统。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的法的基于线性滤波的频带扩展方法的流程图。

图2是本发明实施例提供的法的基于线性滤波的频带扩展装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例1：

请参阅图1，本发明实施例提供一种基于线性滤波的频带扩展方法，包括步骤S1-S8：

S1、对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号。

S2、提取所述时域语音信号的LPC系数和LPC残差。

需要说明的是，LPC残差在提取LPC系数的过程计算得到，线性预测(LPC)分析是最有效的语音分析技术之一，能够精确地估计基本的语音参数(基音、共振峰、功率谱、声道面积函数以及用低速率传输和储存语音)，且计算速度较快。优选地，提取LPC系数的方法主要包括，

01：P阶差分方程。从时域上来看，LPC系数提取实际上求解一阶线性FIR滤波器的P阶系数，其差分方程如下所示：

其中，x(n)代表时域语音信号，

代表滤波器输出结果，p表示滤波器长度，a即为LPC系数。

02：最小均方误差。为了求解唯一的LPC系数，模型采用最小均方误差准则来计算，写成差分方程如下所示：

其中，x(n)为真实信号，加权项为预测信号，e(n)为预测误差；其中，e(n)也可称为LPC残差，则MSE期望值E的公式如下：

通过求解最小E即可得到唯一的LPC系数。

03：Yule－Wolker方程。求解E的极小值等同于求取E方程的极点，对E求a_i偏导得如下公式：

将结果化简可得：

出Yule－Wolker方程，将式(6)写成自相关形式如下所示：

拆分成矩阵形式，即为Toeplize矩阵：

Toeplize是一个AR矩阵，通常使用Levision－Durbin算法进行高效求解。

04：Levision－Durbin算法求解系数。Levison－Durbin算法是求解自回归(AR)矩阵的高效算法，算法具体流程如下：

若i＞1，j＝1,2，…，i-1

通过执行上述算法即可求解LPC系数a；其中，初始值a(0)＝1，R(i)是信号的自相关矩阵，k是算法中的临时变量，用来储存结果，需要说明地是算法流程中，如无特别说明，均为临时变量，p为滤波器长度，优选的，本发明实施例钟中p取12，共提取13维LPC系数，即a(0－a(12)。

S3、利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号。

在本发明实施例钟，应当理解的是，所述待扩频的语音信号为语音信号解码端接收到的语音信号。

S4、根据所述LPC残差和所述LPC系数确定脉冲响应信号。

在本发明实施例中，具体地，将所述LPC残差作为分子系数，LPC系数a作为分母系数，计算脉冲响应信号H。

S5、利用所述残差语音信号生成宽带激励信号。

在本发明实施例中，优选地，所述利用所述残差语音信号生成宽带激励信号，包括步骤S51-S56：

S51、对所述残差语音信号进行分帧处理。此处，应当理解的是，时域语音信号是一系列有序信号，其中将N个采样点结合成一个观测单位，称为帧。优选地，取20ms为一帧，步长为10ms进行分帧处理。

S52、分别对分帧后的每一帧语音信号进行加窗处理。此处，应当理解的是，加窗使得语音信号有周期性，以减少语音信号FFT变换(快速傅里叶变换)中的语音能量泄露。优选地，采用汉宁窗进行加窗。

S53、分别对加窗处理后的每一帧语音信号进行傅里叶变换，获得每一帧语音信号的频谱。此处，应当理解的是，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，所以在进行加窗处理后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。傅里叶变换计算公式如下：

其中，X(k)表示变换后的频谱，x(n)为语音信号(时域)，j表示虚数，

表示角频率，N1表示傅里叶变换的点数。优选地，N1为320。

S54、根据每一帧语音信号的频谱分别估计每一帧语音信号的最高频率。

为了避免生成的伪高频信号的中频部分产生接近值为0的间隙，从而影响频带扩展的语音质量(接近值伪0的间隙几乎无法被修复，因此会影响频带扩展的语音质量)，因此，需要对每一帧语音信号的最高频率进行估计，优选地，估计当前帧最高频率的方法包括：

其中，功率谱能量的计算公式为：

其中P(x)表示功率谱能量，F_real(x)表示频谱的实部，F_imag(x)表示频谱的虚部。

S55、根据每一帧语音信号的最高频率分别确定其对应的谱平移的子带，并分别基于其最高频率向上填充频谱，直至频谱补充完成，得到每一帧语音信号的第二频谱。

在本发明实施例中，优选地，根据当前帧的最高频率确定其(当前帧)谱平移的子带，包括：

S56、对每一帧语音信号的第二频谱进行逆傅里叶变换，得到宽带激励信号。

S6、对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果。

在本发明实施例中所述，所述傅里叶变换结果实际为脉冲响应信号的频域表示。

S7、将所述宽带激励信号和所述傅里叶变换结果进行相乘，得到相乘结果。

在本发明实施例中，所述相乘结果实际为宽带信号的频域表示，也可称为频域宽带信号。

S8、对所述相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。

在本发明实施例中，由于所述相乘结果为频域宽带信号，因此对所述频域宽带信进行逆傅里叶变换，得到频带扩展后的时域宽带信号。

需要说明的是，若没有前缀说明，本发明实施例提及的信号均至指是时域信号。

综上，本发明实施例通过对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号；提取所述时域语音信号的LPC系数和LPC残差；利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号；根据所述LPC残差和所述LPC系数确定脉冲响应信号；利用所述残差语音信号生成宽带激励信号；对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果；将所述宽带激励信号和所述傅里叶变换结果进行相乘，得到相乘结果；对所述相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。本发明实施例既能够降低计算开销、占用内存，且相比于传统频带扩展方法，能够有效提升语音质量、适用于各种编解码场景。此外，本发明实施例尤其适用部署于终端会议设备和系统。

作为本发明实施例的一种举例，当将8kHz的窄带信号扩展成16kHz的宽带信号时，由于将8kHz的窄带信号上采样到16kHz后，仅是采样率发生了变化，其在频域的特征并没有改变，根据奈奎斯特定理，时域8kHz的窄带信号，在频域中的最高频率为4kHz，因此，此时上采样后的窄带信号在频域4kHz以上的能量为0，而在窄带信号中，每一帧最高频率(功率谱能量大于阈值)并非总是4kHz，如果按照4kHz的频率进行下个的谱频移，则将在中频3kHz～5kHz部分产生一条间隙，而由于该间隙的值接近为0，因此也几乎无法被修复，从而影响频带扩展的语音质量，

为避免在谱频以操作时产生“间隙”，在步骤S54中，所述设定频率范围为2kHz～4kHz，所述预设的停止检索频率为3kHz，所述N等于8，即估计当前帧最高频率的方法为：

首先计算2kHz～4kHz的平均功率谱能量，然后从4kHz往3kHz检索，当检索到某一频率的功率谱能量大于等于所述2kHz～4kHz的的平均功率谱能量的1/8时，则该所述某频率为估计的最高频率。以所述某一频率，即以该帧的最高频率为起始点取1kHz作为谱平移的子带，以该帧的最高频率为起始点向上平移填充频谱，直至频谱补充完成，得到每一帧语音信号的第二频谱。

实施例2：

请参阅图2，本发明实施例提供一种基于线性滤波的频带扩展装置，包括：

上采样单元200，用于对样本窄带语音信号进行上采样处理，得到采样后的时域语音信号；

LPC参数提取单元201，用于提取所述时域语音信号的LPC系数和LPC残差；

残差语音信号获取单元202，用于利用所述LPC系数对待扩频的语音信号进行一阶FIR滤波器滤波，得到残差语音信号；

脉冲响应信号获取单元203，用于根据所述LPC残差和所述LPC系数确定脉冲响应信号；

宽带激励信号生成单元204，用于利用所述残差语音信号生成宽带激励信号；

傅里叶变换单元205，用于对所述脉冲响应信号进行傅里叶变换，得到傅里叶变换结果；

相乘单元206，用于将所述宽带激励信号和所述傅里叶变换结果进行相乘，得到相乘结果；

宽带信号生成单元207，用于对所述相乘结果进行逆傅里叶变换，得到频带扩展后的宽带信号。

作为本发明实施例的一种举例，所述利用所述残差语音信号生成宽带激励信号，包括：

对所述残差语音信号进行分帧处理；

分别对分帧后的每一帧语音信号进行加窗处理；

作为本发明实施例的一种举例，估计当前帧的最高频率的方法包括：

作为本发明实施例的一种举例，根据当前帧的最高频率确定其谱平移的子带，包括：

作为本发明实施例的一种举例，当将8kHz的窄带信号扩展成16kHz的宽带信号时，所述设定频率为2kHz～4kHz，所述预设的停止检索频率为3kHz，所述N等于8。

实施例3：

本发明实施例提供一种会议终端系统，包括：

声音信号采集器、信号转换器、处理装置、传输模块和终端；其中，所述声音信号采集器与所述信号转换器连接，所述信号转换器与所述处理装置连接，所述处理装置与所述传输模块连接，所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于线性滤波的频带扩展程序，所述基于线性滤波的频带扩展程序被所述处理器执行时实现实施例1所述的基于线性滤波的频带扩展方法的步骤；所述终端用于接收频带扩展后的信号。

需要说明的是，本发明第一实施例提供的的所有技术内容、技术效果以及对所述第一实施例提供的的所有解释、说明均适用于本发明第二实施例提供的装置以及第三实施例提供的会议终端系统，因此本发明第二实施例、第三实施例在此不作过多赘述。

实施例4：

本发明实施例提供一种计算机可读存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述的基于线性滤波的频带扩展方法，并达到与上述基于线性滤波的频带扩展方法一致的技术效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可监听存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于线性滤波的频带扩展方法，其特征在于，包括：

对样本的窄带语音信号进行上采样处理，得到采样后的时域语音信号；

提取所述时域语音信号的LPC系数和LPC残差；

根据所述LPC残差和所述LPC系数确定脉冲响应信号；

利用所述残差语音信号生成宽带激励信号；

2.根据权利要求1所述的基于线性滤波的频带扩展方法，其特征在于，所述利用所述残差语音信号生成宽带激励信号，包括：

对所述残差语音信号进行分帧处理；

分别对分帧后的每一帧语音信号进行加窗处理；

3.根据权利要求2所述的基于线性滤波的频带扩展方法，其特征在于，估计当前帧最高频率的方法包括：

4.根据权利要求2所述的频带扩展方法，其特征在于，根据当前帧的最高频率确定其谱平移的子带，包括：

5.根据权利要求3所述的基于线性性滤波的频带扩展方法，其特征在于，当将8kHz的窄带信号扩展成16kHz的宽带信号时，所述设定频率为2kHz～4kHz，所述预设的停止检索频率为3kHz，所述N等于8。

6.一种基于线性滤波的频带扩展装置，其特征在于，包括：

7.根据权利要求6所述的基于线性滤波的频带扩展装置，其特征在于，所述利用所述残差语音信号生成宽带激励信号，包括：

对所述残差语音信号进行分帧处理；

分别对分帧后的每一帧语音信号进行加窗处理；

8.根据权利要求7所述的基于线性滤波的频带扩展装置，其特征在于，估计当前帧最高频率的方法包括：

9.根据权利要求8所述的基于线性滤波的频带扩展装置，其特征在于，当将8kHz的窄带信号扩展成16kHz的宽带信号时，所述设定频率为2kHz～4kHz，所述预设的停止检索频率为3kHz，所述N等于8，所述谱平移的子带为[Q-1000，Q]Hz范围的子带；其中，Q为所述最高频率。

10.一种会议终端系统，其特征在于，包括：

声音信号采集器、信号转换器、处理装置、传输模块和终端；其中，所述声音信号采集器与所述信号转换器连接，所述信号转换器与所述处理装置连接，所述处理装置与所述传输模块连接，所述处理装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于线性滤波的频带扩展程序，所述基于线性滤波的频带扩展程序被所述处理器执行时实现如权利要求1至5任一项所述的基于线性滤波的频带扩展方法的步骤；所述终端用于接收频带扩展后的信号。