CN117037809A

CN117037809A - 语音信号处理方法、装置、设备及存储介质

Info

Publication number: CN117037809A
Application number: CN202310969855.4A
Authority: CN
Inventors: 韦莎丽; 曹宇韬; 宋明辉; 王红丽; 刘文太
Original assignee: Shenzhen Zhongke Lanxun Technology Co ltd
Current assignee: Shenzhen Zhongke Lanxun Technology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-10

Abstract

本申请提供语音信号处理方法、装置、设备及存储介质，方法包括：在接收到第一语音帧的情况下，获取目标输出信号的目标基音周期，所述目标基音周期为对所述目标输出信号进行八倍抽取降采样提取和周期估计得到，所述第一语音帧为数据丢失的语音帧，所述目标输出信号为第二语音帧对应的输出信号，所述第二语音帧为距离所述第一语音帧最近的并且数据完整接收的语音帧；根据所述目标基音周期确定基音周期信号，所述基音周期信号用于反映所述目标输出信号的周期变化特征；基于所述基音周期信号生成所述第一语音帧对应的第一输出信号。该技术方案能够在接收端进行丢包补偿。

Description

语音信号处理方法、装置、设备及存储介质

技术领域

本申请涉及信号处理领域，尤其涉及语音信号处理方法、装置、设备及存储介质。

背景技术

在实时语音通讯中，因网络状况及相关因素的影响，传输数据的丢包问题在所难免，语音丢包处理不佳，会让通话双方体验非常糟糕。这就需要在传输过程中发生丢包时采用数据丢包补偿技术来进行补充。丢包补偿技术可以分为两类：基于发送端补偿和基于接收端补偿。

当发送端无法做到较好的丢包补偿或发送端不能参与丢包补偿时，需要在接收端进行丢包补偿。

发明内容

本申请提供语音信号处理方法、装置、设备及存储介质，以在接收端进行丢包补偿。

第一方面，提供一种语音信号处理方法，包括：

在接收到第一语音帧的情况下，获取目标输出信号的目标基音周期，所述目标基音周期为对所述目标输出信号进行八倍抽取降采样提取和周期估计得到，所述第一语音帧为数据丢失的语音帧，所述目标输出信号为第二语音帧对应的输出信号，所述第二语音帧为距离所述第一语音帧最近的并且数据完整接收的语音帧；

根据所述目标基音周期确定基音周期信号，所述基音周期信号用于反映所述目标输出信号的周期变化特征；

基于所述基音周期信号生成所述第一语音帧对应的第一输出信号。

在该技术方案中，当接收到数据丢失的第一语音帧时，通过获取第一语音帧之前的数据完整接收的语音帧的目标基音周期，然后根据目标基音周期确定基音周期信号，最后基于基音周期信号生成第一语音帧对应的第一输出信号；由于语音数据具有呈周期变化和短时平稳这两个特性，数据丢失的语音帧与邻近的数据接收完整的语音帧之间具有相似性，基于数据接收完整的语音帧的周期波形来产生与数据丢失的语音帧相似的输出信号，用以代替数据丢失的语音帧进行输出，可实现在接收端进行丢包补偿。

结合第一方面，在一种可能的实现方式中，所述基于所述基音周期信号生成所述第一语音帧对应的第一输出信号之后，还包括：在接收到第三语音帧的情况下，获取第二输出信号的延续信号，所述第三语音帧为所述数据完整接收的语音帧，并且，所述第三语音帧的上一语音帧为数据丢失的语音帧，所述第二输出信号为所述第三语音帧的上一语音帧对应的输出信号，所述第二输出信号的延续信号用于表征所述第二输出信号在所述第三语音帧中的前Q个时刻的信号特征，Q小于N，N为每个语音帧对应的时刻数；根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号。当接收到数据丢失后的首个数据接收完整的第三语音帧时，根据第三语音帧的上一输出信号的延续信号生成第三语音帧的输出信号，能够实现丢失的波形与正确接收的波形之间的平滑过渡。

结合第一方面，在一种可能的实现方式中，所述根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号，包括：若所述第三语音帧不为包含语音的语音帧，针对所述前Q个时刻：将所述第三语音帧与所述第二输出信号的延续信号进行信号叠加，得到所述前Q个时刻对应的输出信号。

结合第一方面，在一种可能的实现方式中，所述根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号，包括：若所述第三语音帧为包含语音的语音帧，对所述第三语音帧进行时间伸缩，得到所述第三语音帧对应的时间伸缩信号；针对所述前Q个时刻：根据所述时间伸缩信号和所述第二输出信号的延续信号，确定所述前Q个时刻对应的输出信号。

结合第一方面，在一种可能的实现方式中，所述对所述第三语音帧进行时间伸缩，得到所述第三语音帧对应的时间伸缩信号，包括：根据所述目标基音周期，获取在所述第三语音帧之前的历史输出信号的延续信号；计算所述历史输出信号的延续信号与所述第三语音帧之间的目标时延；根据所述目标时延确定时间缩放窗口，将所述第三语音帧伸缩到所述时间缩放窗口内，得到所述第三语音帧对应的时间伸缩信号。

结合第一方面，在一种可能的实现方式中，所述根据所述时间伸缩信号和所述第二输出信号的延续信号，确定所述前Q个时刻对应的输出信号，包括：将所述第三语音帧对应的基音周期信号、所述时间伸缩信号和所述第二输出信号的延续信号进行信号叠加，得到所述前Q个时刻对应的输出信号。

结合第一方面，在一种可能的实现方式中，所述目标基音周期为在数据完整接收的过程中基于如下步骤计算得到：基于非对称加窗函数，对所述目标输出信号进行线性预测编码(Linear Predictive Coding，LPC)分析，得到所述目标输出信号对应的线性预测系数；基于所述线性预测系数，对所述目标输出信号进行预测残差加权，得到所述目标输出信号对应的加权语音信号；对所述加权语音信号进行八倍降采样，得到所述目标输出信号对应的八倍降采样信号；基于所述八倍降采样信号进行基音周期估计，得到初始基音周期；基于所述加权语音信号在所述初始基音周期对应的基音周期范围中进行基音周期估计，得到所述目标基音周期。

结合第一方面，在一种可能的实现方式中，所述基于所述八倍降采样信号进行基音周期估计，得到初始基音周期，包括：计算所述八倍降采样信号在预设周期范围内的归一化相关性平方值，并确定所述归一化相关性平方值的局部峰值；根据所述局部峰值，确定所述初始基音周期。

结合第一方面，在一种可能的实现方式中，所述基于所述基音周期信号生成所述第一语音帧对应的第一输出信号，包括：针对所述第一语音帧中的前L个时刻：获取第四输出信号的延续信号，将所述第四输出信号的延续信号与所述第一语音帧对应的基音周期信号进行叠加，得到所述前L个时刻对应的输出信号，所述第四输出信号为所述第一语音帧的上一语音帧对应的输出信号，所述第四输出信号的延续信号用于表征所述第四输出信号在所述第一语音帧中的前L个时刻的信号特征，L小于N，N为每个语音帧对应的时刻数；针对所述第一语音帧中的后(N-L+Q)个时刻：对第一语音帧对应的基音周期信号进行幅度调整，得到所述后(N-L+Q)个时刻对应的输出信号，Q大于L，所述第一语音帧中的后Q个时刻对应的输出信号为所述第一输出信号的延续信号；根据所述第一语音帧中的各个时刻对应的输出信号，生成所述第一输出信号。

结合第一方面，在一种可能的实现方式中，所述根据所述第一语音帧中的各个时刻对应的输出信号，生成所述第一输出信号之前，还包括：根据所述第一语音帧对应的丢失持续时间，确定所述第一语音帧对应的信号衰减指数，所述丢失持续时间为所述第一语音帧与所述第二语音帧之间的时间，所述信号衰减指数与所述丢失持续时间负相关；根据所述信号衰减指数，调整所述第一语音帧中的各个时刻对应的输出信号的幅度。

第二方面，提供一种语音信号处理装置，包括：

基音周期获取模块，用于在接收到第一语音帧的情况下，获取目标输出信号的目标基音周期，所述目标基音周期为对所述目标输出信号进行八倍抽取降采样提取和周期估计得到，所述第一语音帧为数据丢失的语音帧，所述目标输出信号为第二语音帧对应的输出信号，所述第二语音帧为距离所述第一语音帧最近的并且数据完整接收的语音帧；

周期信号确定模块，用于根据所述目标基音周期确定基音周期信号，所述基音周期信号用于反映所述目标输出信号的周期变化特征；

输出信号生成模块，用于基于所述基音周期信号生成所述第一语音帧对应的第一输出信号。

第三方面，提供一种计算机设备，包括存储器以及一个或多个处理器，所述存储器连接至所述一个或多个处理器，一个或多个处理器用于执行存储在存储器中的一个或多个计算机程序，一个或多个处理器在执行一个或多个计算机程序时，使得该计算机设备实现上述第一方面的语音信号处理方法。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，上述程序指令当被处理器执行时使上述处理器执行上述第一方面的语音信号处理方法。

本申请可以实现如下技术效果：由于语音数据具有呈周期变化和短时平稳这两个特性，数据丢失的语音帧与邻近的数据接收完整的语音帧之间具有相似性，基于数据接收完整的语音帧的周期波形来产生与数据丢失的语音帧相似的输出信号，用以代替数据丢失的语音帧进行输出，可实现在接收端进行丢包补偿。

附图说明

图1为本申请实施例提供的一种语音信号处理方法的流程示意图；

图2A-图2D为本申请实施例提供的一种语音数据补偿前后的波形示意图；

图3是本申请实施例提供的一种语音信号处理装置的结构示意图；

图4是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请的技术方案适用于数据传输场景，尤其适用于语音数据传输场景。本申请的技术方案适用于在语音数据传输场景中对发生丢包的语音帧进行补偿。本申请的技术方案可应用在语音数据接收设备，语音数据接收设备包括但不限于为手机、耳机等接收语音数据的设备。

以下具体介绍本申请的技术方案。

参见图1，图1为本申请实施例提供的一种语音信号处理方法的流程示意图，该方法可以应用于语音数据接收设备，如图1所示，该方法包括如下步骤：

S101，获取语音数据发送设备发送的第t语音帧。

这里，t用于指示语音帧的序号，t可以为任意整数。可以接收语音数据发送设备的第t语音帧，从而获取第t语音帧。在接收到第t语音帧之后，可以对第t语音帧进行完整性校验，如果第t语音帧通过完整性校验，则在第t语音帧中添加标志位，标志位用于指示第t语音帧为数据完整接收的语音帧；如果第t语音帧未通过完整性校验，则不在第t语音帧中添加标志位。

S102，判断第t语音帧是否为数据完整接收的语音帧。

这里，可以判断第t语音帧中是否存在标志位，如果存在标志位，则确定第t语音帧为数据完整接收的语音帧；如果不存在标志位，则确定第t语音帧不为数据完整接收的语音帧。

在第t语音帧为数据完整接收的语音帧的情况下，执行步骤S106。在第t语音帧不为数据完整接收的语音帧的情况下，说明第t语音帧为第一语音帧，即为数据丢失的语音帧，执行步骤S103。

S103，获取目标输出信号的目标基音周期。

这里，目标输出信号为第二语音帧对应的输出信号，第二语音帧为距离第t语音帧最近的并且数据完整接收的语音帧，第二语音帧为在第t语音帧之前的语音帧。

目标基音周期为对目标输出信号进行八倍抽取降采样和周期估计得到。其中，在数据完整接收的过程(即接收到数据完整接收的语音帧的过程)中，可以计算并保存最新的多个数据完整接收的语音帧对应的输出信号的基音周期。在接收到数据丢失的语音帧时，直接根据最新保存的多个基音周期确定目标基音周期。

在数据完整接收的过程中，目标基音周期可以通过如下步骤A1-A5计算得到：

A1、基于非对称加窗函数，对目标输出信号进行线性预测编码分析，得到目标输出信号对应的线性预测系数。

这里，非对称加窗函数为：

N为每个语音帧对应的采样点数，语音帧中的一个采样点对应语音帧中的一个时刻。

目标输出信号为Xo_H(j)，可以先基于非对称加窗函数对目标输出信号Xo_H(j)进行加窗，得到加窗后的目标输出信号Xw(j)，加窗后的目标输出信号Xw(j)的计算公式参见下述公式(2)：

Xw(j)＝Xo_H(j)w(j)j＝0,1,…，N-1(2)

然后计算得到加窗后的目标输出信号Xw(j)的自相关系数r(i)，自相关系数r(i)的计算公式参见下述公式(3)：

接着对自相关系数r(i)进行频谱平滑和白噪声校正，得到校正后的自相关系数校正后的自相关系数/>的计算公式参见下述公式(4)：

其中，f_s为对语音帧的采样率，σ＝40。

接下来，使用莱文森-德宾(Levinson-Durbin)递归算法将校正后的自相关系数转换为初始的LPC预测系数A(i)，i＝0,1,2，…，8。如果Levinson-Durbin递归算法在递归完成之前提前退出计算过程(例如，预测残差剩余能量E(i)小于零的情况下)，则使用最后一帧的短期预测系数。Levinson-Durbin递归算法的详细计算过程如下：

E(1)＝(1-K₁)²rE(0)

A(j)＝A(j)+K_i·A(i-j) i＝2,…,8；j＝1,2,…,i-1

更新A(i)和E(i)的值：

A(i)＝K_i i＝2,…,8

E(i)＝(1-K_i·K_i)E(i-1)i＝2,…,8

最后对初始的LPC预测系数A(i)进行带宽扩展，得到目标输出信号对应的LPC预测系数a_i，目标输出信号对应的LPC预测系数a_i的计算公式参见下述公式(5)：

a_i＝(0.96852)ⁱA(i)i＝0,1,2,…,8 (5)

A2、基于目标输出信号对应的线性预测系数，对目标输出信号进行预测残差加权，得到目标输出信号对应的加权语音信号。

这里，可以先基于目标输出信号对应的线性预测系数a_i，预测得到短期预测残差信号d(j)，短期预测残差信号d(j)的计算公式参见下述公式(6)：

然后通过加权短期合成滤波器，对短期残差信号d(j)进行滤波，得到目标输出信号对应的加权语音信号xw(j)，目标输出信号对应的加权语音信号xw(j)的计算公式参见下述公式(7)和公式(8)：

a'_i＝a_i·(0.75)ⁱ i＝0,1,2,…,8 (7)

A3、对目标输出信号对应的加权语音信号进行八倍降采样，得到目标输出信号对应的八倍降采样信号。

这里，可以将目标输出信号对应的加权语音信号xw(j)通过一个M阶最小相位FIR低通滤波器，滤除掉目标输出信号对应的加权语音信号xw(j)中的高频部分，然后对滤除后的加权语音信号进行8:1抽取降采样，得到八倍降采样信号xwd(n)，采样率为f_s/8，八倍降采样信号xwd(n)的计算公式参见下述公式(9)：

b_i，i＝1,2,…,M-1为M阶最小相位FIR低通滤波器的滤波系数。

A4、基于目标输出信号对应的八倍降采样信号进行基音周期估计，得到初始基音周期。

这里，可以先计算八倍降采样信号xwd(n)在预设周期范围内的归一化相关性平方值Sq，八倍降采样信号xwd(n)在预设周期范围内的归一化相关性平方值Sq的计算公式参见下述公式(10)-公式(13)：

Sq＝c2(k)/E(k) (13)

其中，n_s为预设周期范围内的采样点个数。例如，预设周期范围对应的基音分析窗口为10毫秒(ms)，由于采样率为f_s/8，则预设周期范围内的采样点个数n_s＝f_s/8*0.01。mipit为最小基音周期值，mapit为最大基音周期值。

然后在k对应的阈值范围(即)内搜索归一化相关性平方值Sq的局部峰值(以下简称局部峰值)，k为预设周期范围内的采样点的索引，也即预设周期范围内的采样点的编号；根据局部峰值，确定初始基音周期。

其中，根据局部峰值，确定初始基音周期有如下几种情况：

情况1：如果局部峰值中没有正局部峰值(指c(k)大于0的局部峰值)，则确定在局部峰值中确定负局部峰值(指c(k)小于0的局部峰值)，将负局部峰值对应的索引k确定为初始基音周期。

情况2：如果局部峰值中没有正局部峰值，也没有负局部峰值，则将最小基音周期值mipit确定为初始基音周期。

情况3：如果局部峰值中的正局部峰值只有一个时，则将该正局部峰值对应的索引k确定为初始基音周期。

情况4：如果局部峰值中的正局部峰值有多个，假设正局部峰值的数量为N_p，k_p(j),j＝1,2,…,N_p为正局部峰值的索引。则通过如下步骤11-步骤13确定初始基音周期：

步骤11，识别每个正局部峰值附近的最大的二次插值峰值。其中，可对c(k_p)进行二次插值，对E(k_p)进行线性插值。插值后求取插值后c2(k_p)/E(k_p)的插值峰值，得到插值最大峰值，计算每个正局部峰值对应的时间延迟plag[j]＝k_p(j)+ji/D,j＝1,2,…,N_p，ji为正局部峰值附近的插值最大峰值对应的索引，ji可取值范围为：ji＝1,2,…,D/2。搜索插值后的归一化相关性平方值Sq的最大峰值，更新当前所算的最大插值相关平方值为c2m和最大插值能量值为Em，并将全局最大峰值对应的索引记为jmax＝j，将初始基音周期预设为该索引对应的时间延迟plag[jmax]。同时记录当前的最大插值相关平方值为c2max和最大插值能量值为Emax。

步骤12，搜索上一帧初始基音周期附近的最大插值c2(k_p)/E(k_p)的时间索引对应的时间延迟plag[j],j＝1,2,…,N_p。

为了避免选到基波以上的谐波分量，遍历所有正局部峰值k_p(j),j＝1,2,…,N_p对应的时间延迟plag[j],j＝1,2,…,N_p，检查该时间延迟的是否足够接近最后一帧的输出基音周期。如果在上一帧输出基音周期附近有一个或多个时间延迟，则比较二次插值归一化相关性平方值c2(k_p)/E(k_p)对应的峰值，并将最大插值归一化相关性平方值对应的峰值索引j记为im，更新当前所算的最大相关平方值为c2m和最大能量值为Em。如果没有找到符合条件的值，则将索引im记为-1。

步骤13，检查在最后一帧的初始基音周期周围的标准化相关平方的最大局部峰值，并对输出初始基音周期作出最终选择：

如果步骤12中索引im＝-1，即在最后一帧的初始基音周期附近没有找到归一化相关平方值足够大的局部峰值，则使用步骤11结尾计算的初始基音周期作为最终的初始基音周期。

如果im＝jmax，即最后一帧初始基音周期周围的最大局部峰值也是该帧内所有标准化相关平方的全局最大峰值，那么使用步骤1结束时计算的初始基音周期作为最终的初始基音周期。

如果im<jmax，则执行以下步骤：

c2m·Emax＞0.43·c2max·Em

如果plag＞mapit/16，则设置输出cpp＝lag(im)；否则，对于k＝2、3、4、5，设置阈值门限SMDTH，并执行如下步骤：

a＝(plag(im)/k)·(1-SMDTH)

b＝(plag(im)/k)·(1+SMDTH)

如果plag(im)＞a且plag(im)＜b，则将plag(im)作为初始基音周期；

如果im＞jmax，则执行以下步骤：

c2m·Emax＞0.78·c2max·Em

将plag(im)作为初始基音周期。

如果上述步骤都没有选择最终的初始基音周期。在这种情况下，将步骤11结束时计算的初始基音周期作为最终的初始基音周期。

A5、基于目标输出信号对应的加权语音信号，在初始基音周期对应的基音周期范围中进行基音周期估计，得到目标基音周期。

这里，可以参考前述步骤A4中的方式，计算目标输出信号对应的加权语音信号xw(j)在初始基音周期对应的基音周期范围内的归一化相关性平方值，然后在初始基音周期对应的基音周期范围内搜索归一化相关性平方值的局部峰值，根据局部峰值确定目标基音周期。搜索局部峰值和确定目标基音周期的原理与前述步骤A4中搜索局部峰值和确定初始基音周期的原理相同，此处不再赘述。

目标基音周期可以表示为pit。

在计算得到目标基音周期后，还可以计算第一比例因子ptfe，第一比例因子ptfe的计算公式参见下述公式(14)：

如果为0，则第一比例因子ptfe＝0。

然后计算第二比例因子ppt，第二比例因子ppt＝0.7ptfe。

S104，根据目标基音周期确定基音周期信号。

这里，基音周期信号可以表示为：Xo_t(j)＝Xo_t(j-pit)，j＝0,1,…，N-1。

S105，基于基音周期信号生成第t语音帧对应的第t输出信号。

这里的第t语音帧为第一语音帧，针对第t语音帧中的前L个时刻，可以通过如下方式得到第t语音帧中的前L个时刻对应的输出信号：获取第(t-1)输出信号的延续信号，将第(t-1)输出信号的延续信号与第一语音帧对应的基音周期信号进行叠加，得到第t语音帧中的前L个时刻对应的输出信号。第(t-1)输出信号为第(t-1)语音帧对应的输出信号，第(t-1)语音帧为第t语音帧的上一语音帧，即第(t-1)输出信号为第t语音帧的上一语音帧对应的输出信号，也即第一语音帧的上一语音帧对应的输出信号。这里的第(t-1)输出信号包括L个延续信号，L个延续信号用于表征第(t-1)输出信号在第t语音帧的前L个时刻的信号特征。

这里的第(t-1)输出信号的延续信号可以表示为R_t(j)，j＝0，…，L-1。

当第t语音帧为第一个数据丢失的语音帧(即第(t-1)语音帧为数据完整接收的语音帧)时，需计算得到第(t-1)输出信号的延续信号，第(t-1)输出信号的延续信号可以通过如下公式(15)-(17)计算得到：

L2_t(j)＝ppt·L1_t(j)j＝0,1,…，L-1 (16)

当第t语音帧不为第一个数据丢失的语音帧时，由于第(t-1)语音帧为第一语音帧，即第(t-1)语音帧为数据丢失的语音帧，在计算第(t-1)输出信号时，会额外计算Q个延续信号，因而可以直接从第(t-1)输出信号的Q个延续信号中，获取前L个延续信号，作为这里的第(t-1)输出信号的延续信号，即R_t(j)＝Xo_t-1(j+N)j＝0，…，L-1。

第t语音帧的前L个时刻对应的输出信号的计算公式参见下述公式(18)：

w_i(j)和w_o(j)分别为向上和向下倾斜的三角形重叠相加窗口；Xo_t(j-pit)为第t语音帧对应的基音周期信号。

针对第t语音帧中的后(N-L+Q)个时刻，可以通过如下方式得到第t语音帧中的后(N-L+Q)个时刻对应的输出信号：对第t语音帧对应的基音周期信号进行幅度调整，得到第t语音帧中的后(N-L+Q)个时刻对应的输出信号，Q大于L。

第t语音帧的后(N-L+Q)个时刻对应的输出信号的计算参见下述公式(19)：

Xo_t(j)＝ptfe·Xo_t(j-pit)j＝L,L+1,…，N+Q-1 (19)

至此，通过公式(18)和公式(19)，可计算得到第t语音帧中的各个时刻对应的输出信号；根据第t语音帧中的各个时刻对应的输出信号，可以生成第t输出信号，第t输出信号包括(N+Q)个输出信号，第t输出信号中的前N个输出信号用于输出，第t输出信号中的后Q个输出信号保存在输出缓冲区中，不进行输出，作为第t输出信号的延续信号，第t输出信号的延续信号可以表示为R_t+1(j)，j＝0，…，Q-1，R_t+1(j)＝Xo_t(j+N)j＝0，…，Q-1。

由于这里的第t语音帧为第一语音帧，也即为数据丢失的语音帧，在根据第t语音帧中的各个时刻对应的输出信号，生成第t输出信号之前，还可以根据第t语音帧对应的丢失持续时间，确定第t语音帧对应的信号衰减指数，第t语音帧对应的丢失持续时间为第t语音帧对应的丢失持续时间与前述第二语音帧之间的时间；第t语音帧对应的信号衰减指数与第t语音帧对应的丢失持续时间负相关，即第t语音帧对应的丢失持续时间越长，第t语音帧对应的信号衰减指数越小，第t语音帧对应的丢失持续时间越长，第t语音帧对应的信号衰减指数越大；然后根据第t语音帧对应的信号衰减指数，调整第t语音帧中的各个时刻对应的输出信号的幅度，从而得到最终的第t输出信号。

最终的第t输出信号的计算公式参见下述公式(20)：

Xo_t(j)＝S_T·Xo_t(j)j＝0,1,…，N+Q-1 (20)

T表示第t语音帧与第二语音帧之间的丢失持续时间，S_T为第t语音帧对应的信号衰减指数，T越大，则S_T越小。示例性地，当T大于60ms时，S_T可以为0，第t输出信号为静音信号。

S106，判断第(t-1)语音帧是否为数据丢失的语音帧。

这里，可以通过判断第(t-1)语音帧中是否存在标志位，如果存在标志位，则确定第(t-1)语音帧不为数据丢失的语音帧；如果不存在标志位，则确定第(t-1)语音帧为数据丢失的语音帧。

在第(t-1)语音帧不为数据丢失的语音帧的情况下，说明第(t-1)语音帧未发生丢包，执行步骤S107；在第(t-1)语音帧为数据丢失的语音帧的情况下，说明第t语音帧为第三语音帧，即为数据丢失之后的首个数据完整接收的语音帧，执行步骤S108。

S107，将第t语音帧作为第t语音帧对应的第t输出信号。

这里，第t输出信号为Xo_t(j)＝Xin_t(j)，j＝0,1,…，N-1，Xin_t(j)为对第t语音帧进行采样得到的采样信号。

S108，获取第(t-1)输出信号的延续信号。

这里，第(t-1)输出信号为第(t-1)语音帧对应的输出信号，此处的第(t-1)语音帧为数据丢失的语音帧，第(t-1)语音帧可以理解为第t语音帧之前最后一帧数据丢失的与语音帧。第t语音帧为第三语音帧，即为数据丢失之后的首个数据完整接收的语音帧。

这里的第(t-1)输出信号包括Q个延续信号，Q个延续信号用于表征第(t-1)输出信号在第t语音帧的前Q个时刻的信号特征。由于第(t-1)语音帧为第一语音帧，即第(t-1)语音帧为数据丢失的语音帧，在计算第(t-1)输出信号时，会额外计算Q个延续信号，此处的第(t-1)输出信号的延续信号即为该额外计算得到的Q个延续信号。这里的第(t-1)输出信号的延续信号可以表示为R_t(j)，j＝0，…，Q-1，R_t(j)＝Xo_t-1(j+N)j＝0，…，Q-1。

这里的第t语音帧的前Q个时刻为第t语音帧中需处理后才能输出的时刻，即第t语音帧中的前Q个时刻的信号需要进行处理。这里的第t语音帧中的后(N-Q)个时刻为第t语音帧中可直接输出的时刻，即第t语音帧中的后(N-Q)个时刻的信号不需要进行处理，第t语音帧中的后(N-Q)个时刻对应的输出信号为第t语音帧中的后(N-Q)个时刻对应的采样信号，Xo_t(j)＝Xin_t(j)，j＝Q,Q+1,…，N-1，Xin_t(j)为对第t语音帧进行采样得到的采样信号。

S109，根据第(t-1)输出信号的延续信号，生成第t语音帧对应的第t输出信号。

这里，如果第t语音帧不为包含语音的语音帧，针对第t语音帧中的前Q个时刻：可以将第t语音帧与第(t-1)输出信号的延续信号进行信号叠加，得到第t语音帧中的前Q个时刻对应的输出信号。

如果第t语音帧不为包含语音的语音帧，即第t语音帧中的信号为无声信号或噪声信号，第t语音帧中的前Q个时刻对应的输出信号的计算公式参见下述公式(21)：

如果第t语音帧为包含语音的语音帧，对第t语音帧进行时间伸缩，得到第t语音帧对应的时间伸缩信号；针对第t语音帧中的前Q个时刻：根据第t语音帧对应的时间伸缩信号和第(t-1)输出信号的延续信号，确定第t语音帧中的前Q个时刻对应的输出信号。其中，可以将第t语音帧对应的基音周期信号、第t语音帧对应的时间伸缩信号和第(t-1)输出信号的延续信号进行信号叠加，得到第t语音帧中的前Q个时刻对应的输出信号。

第t语音帧中的前Q个时刻对应的输出信号的计算公式参见下述公式(22)-公式(24)：

Xo_t(j)＝ptfe·Xo_t(j-pit)j＝0,1,…N-L_xwarp+39 (22)

Xo_t(N-L_xwarp+j)＝Xo_t(N-L_xwarp+j)·w_o(j)+X_warp(j)·w_i(j)j＝0,1,…，Q-1 (24)

L_xwarp为第t语音帧对应的时间伸缩信号的窗口长度，X_warp(j)为据第t语音帧对应的时间伸缩信号。

需要说明的是，上述公式(15)-(24)中使用到的目标基音周期pit可以为步骤S103中介绍的最新保存的多个基音周期中的最后一个基音周期，或者也可以为最新保存的多个基音周期中的最后一个基音周期与平均基音周期增量之和，平均基音周期增量为历史保存的多个基音周期的平均增量。例如，可以保存最新的5个数据完整接收的语音帧对应的输出信号的基音周期，分别为基音周期1～基音周期5，则可以计算基音周期2与基音周期1的增量，得到增量1，计算基音周期3与基音周期2的增量，得到增量2，计算基音周期4与基音周期3的增量，得到增量3，计算基音周期5与基音周期4的增量，得到增量5，则平均增量为(增量1+增量2+增量3+增量4)/4，目标基音周期可以直接为基音周期5，或者，也可以为基音周期5与平均增量之和。

对第t语音帧进行时间伸缩，得到第t语音帧对应的时间伸缩信号的方式如下：

首先，根据目标基音周期，获取在第t语音帧之前的历史输出信号的延续信号es(j)，第t语音帧之前的历史输出信号的延续信号es(j)通过如下公式(25)-公式(31)得到：

LW＝2(LSW+Δ) (27)

D＝24-Δ (28)

当D＜0时：

当D≥0时：

其中，Δ为相关性搜索范围，LSW时间延迟搜索的窗口，Δ_max为最大相关性搜索范围，Δ_max为可变参数，可以根据采样率调整。

然后，计算第t语音帧之前的历史输出信号的延续信号与第t语音帧之间的目标时延。

目标时延通过如下步骤21-步骤22得到：

步骤21，计算第t语音帧之前的历史输出信号的延续信号es(j)与第t语音帧Xin_t(j)的归一化互相关函数的峰值R(k)，归一化互相关函数的峰值R(k)的计算公式参见下述公式(32):

步骤22，将使得归一化互相关函数峰值R(k)最大的索引k确定为初始时延T_L。

其中，如果满足以下条件，则将初始时延T_L设置为0。

条件1：

条件2：

条件3：T_L＞Δ_max-2或T_L＜-Δ_max+2。

步骤23，对初始时延T_L进行细化，得到目标时延T_ref。

对初始时延T_L进行细化得到目标时延T_ref的原理与前述步骤21～步骤22的原理类似，区别在于LW＝Q+4，LSW＝Q以及D＝MIN_UNSTBL-2T_L-4,MIN_UNSTBL为最小搜索长度，MIN_UNSTBL基于采样率进行设置。

最后，根据t语音帧之前的历史输出信号的延续信号与第t语音帧之间的目标时延，确定时间缩放窗口；将第t语音帧伸缩到时间缩放窗口内，得到第t语音帧对应的时间伸缩信号。

其中，可以根据如下公式(33)-公式(36)计算时间缩放窗口的长度：

T_Lwarp＝T_ref (33)

T_Lxar＝min(N,N-MIN_UNSTBL+T_Lwarp)(36)

S110，输出第t输出信号。

S111，将t加1，返回执行步骤S101。

在第t语音帧为数据完整接收的语音帧的情况下，在通过上述步骤S107或上述步骤S109生成第t语音帧对应的第t输出信号后，还可以计算第t输出信号的基音周期，即执行步骤S112。

S112，计算第t输出信号的基音周期。

这里，计算第t信号的基音周期的具体实现过程，与前述步骤A1-A5同理，可参考前述步骤A1-A5，此处不再赘述。

在上述图1对应的技术方案中，当接收到数据丢失的第一语音帧时，通过获取第一语音帧之前的数据完整接收的语音帧的目标基音周期，然后根据目标基音周期确定基音周期信号，最后基于基音周期信号生成第一语音帧对应的第一输出信号；由于语音数据具有呈周期变化和短时平稳这两个特性，数据丢失的语音帧与邻近的数据接收完整的语音帧之间具有相似性，基于数据接收完整的语音帧的周期波形来产生与数据丢失的语音帧相似的输出信号，用以代替数据丢失的语音帧进行输出，可实现在接收端进行丢包补偿；当接收到数据丢失后的首个数据接收完整的第三语音帧时，根据第三语音帧的上一输出信号的延续信号生成第三语音帧的输出信号，能够实现丢失的波形与正确接收的波形之间的平滑过渡。

以下通过几个具体的例子来介绍本申请的技术效果。参见图2A-图2D。

图2A中的P1为连续有5毫秒(ms)的语音数据丢失的原始波形图，经过本申请的技术方案进行补偿后，可得到图2A中的P2所示的波形图。

图2B中的P3为连续有40ms的语音数据丢失的原始波形图，经过本申请的技术方案进行补偿后，可得到图2B中的P4所示的波形图。

图2C中的P5为连续有60ms的语音数据丢失的原始波形图，经过本申请的技术方案进行补偿后，可得到图2C中的P6所示的波形图。

图2D中的P7为连续有80ms的语音数据丢失的原始波形图，经过本申请的技术方案进行补偿后，可得到图2D中的P8所示的波形图。

上述介绍了本申请的方法，下面介绍本申请的装置。

参见图3，图3是本申请实施例提供的一种语音信号处理装置的结构示意图。该语音信号处理装置可以为语音数据接收设备。如图3所示，该语音信号处理装置20包括：

基音周期获取模块201，用于在接收到第一语音帧的情况下，获取目标输出信号的目标基音周期，所述目标基音周期为对所述目标输出信号进行八倍抽取降采样提取和周期估计得到，所述第一语音帧为数据丢失的语音帧，所述目标输出信号为第二语音帧对应的输出信号，所述第二语音帧为距离所述第一语音帧最近的并且数据完整接收的语音帧；

周期信号确定模块202，用于根据所述目标基音周期确定基音周期信号，所述基音周期信号用于反映所述目标输出信号的周期变化特征；

输出信号生成模块203，用于基于所述基音周期信号生成所述第一语音帧对应的第一输出信号。

在一种可能的设计中，上述输出信号生成模块203还用于：在接收到第三语音帧的情况下，获取第二输出信号的延续信号，所述第三语音帧为所述数据完整接收的语音帧，并且，所述第三语音帧的上一语音帧为数据丢失的语音帧，所述第二输出信号为所述第三语音帧的上一语音帧对应的输出信号，所述第二输出信号的延续信号用于表征所述第二输出信号在所述第三语音帧中的前Q个时刻的信号特征，Q小于N，N为每个语音帧对应的时刻数；根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号。

在一种可能的设计中，上述输出信号生成模块203具体用于：若所述第三语音帧不为包含语音的语音帧，针对所述前Q个时刻：将所述第三语音帧与所述第二输出信号的延续信号进行信号叠加，得到所述前Q个时刻对应的输出信号。

在一种可能的设计中，上述输出信号生成模块203具体用于：若所述第三语音帧为包含语音的语音帧，对所述第三语音帧进行时间伸缩，得到所述第三语音帧对应的时间伸缩信号；针对所述前Q个时刻：根据所述时间伸缩信号和所述第二输出信号的延续信号，确定所述前Q个时刻对应的输出信号。

在一种可能的设计中，上述输出信号生成模块203具体用于：根据所述目标基音周期，获取在所述第三语音帧之前的历史输出信号的延续信号；计算所述历史输出信号的延续信号与所述第三语音帧之间的目标时延；根据所述目标时延确定时间缩放窗口，将所述第三语音帧伸缩到所述时间缩放窗口内，得到所述第三语音帧对应的时间伸缩信号。

在一种可能的设计中，上述输出信号生成模块203具体用于：将所述第三语音帧对应的基音周期信号、所述时间伸缩信号和所述第二输出信号的延续信号进行信号叠加，得到所述前Q个时刻对应的输出信号。

在一种可能的设计中，所述目标基音周期为在数据完整接收的过程中基于如下步骤计算得到：基于非对称加窗函数，对所述目标输出信号进行线性预测编码分析，得到所述目标输出信号对应的线性预测系数；基于所述线性预测系数，对所述目标输出信号进行预测残差加权，得到所述目标输出信号对应的加权语音信号；对所述加权语音信号进行八倍降采样，得到所述目标输出信号对应的八倍降采样信号；基于所述八倍降采样信号进行基音周期估计，得到初始基音周期；基于所述加权语音信号在所述初始基音周期对应的基音周期范围中进行基音周期估计，得到所述目标基音周期。

在一种可能的设计中，上述基音周期获取模块201具体用于：计算所述八倍降采样信号在预设周期范围内的归一化相关性平方值，并确定所述归一化相关性平方值的局部峰值；根据所述局部峰值，确定所述初始基音周期。

在一种可能的设计中，上述输出信号生成模块203具体用于：针对所述第一语音帧中的前L个时刻：获取第四输出信号的延续信号，将所述第四输出信号的延续信号与所述第一语音帧对应的基音周期信号进行叠加，得到所述前L个时刻对应的输出信号，所述第四输出信号为所述第一语音帧的上一语音帧对应的输出信号，所述第四输出信号的延续信号用于表征所述第四输出信号在所述第一语音帧中的前L个时刻的信号特征，L小于N，N为每个语音帧对应的时刻数；针对所述第一语音帧中的后(N-L+Q)个时刻：对第一语音帧对应的基音周期信号进行幅度调整，得到所述后(N-L+Q)个时刻对应的输出信号，Q大于L，所述第一语音帧中的后Q个时刻对应的输出信号为所述第一输出信号的延续信号；根据所述第一语音帧中的各个时刻对应的输出信号，生成所述第一输出信号。

在一种可能的设计中，上述输出信号生成模块203具体用于：根据所述第一语音帧对应的丢失持续时间，确定所述第一语音帧对应的信号衰减指数，所述丢失持续时间为所述第一语音帧与所述第二语音帧之间的时间，所述信号衰减指数与所述丢失持续时间负相关；根据所述信号衰减指数，调整所述第一语音帧中的各个时刻对应的输出信号的幅度。

需要说明的是，图3对应的实施例中未提及的内容可参见前述方法实施例的描述，这里不再赘述。

上述装置，当接收到数据丢失的第一语音帧时，通过获取第一语音帧之前的数据完整接收的语音帧的目标基音周期，然后根据目标基音周期确定基音周期信号，最后基于基音周期信号生成第一语音帧对应的第一输出信号；由于语音数据具有呈周期变化和短时平稳这两个特性，数据丢失的语音帧与邻近的数据接收完整的语音帧之间具有相似性，基于数据接收完整的语音帧的周期波形来产生与数据丢失的语音帧相似的输出信号，用以代替数据丢失的语音帧进行输出，可实现在接收端进行丢包补偿。

参见图4，图4是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备30包括处理器301、存储器302。存储器302连接至处理器301，例如通过总线连接至处理器301。

处理器301被配置为支持该计算机设备30执行上述方法实施例中的方法中相应的功能。该处理器301可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器302用于存储程序代码等。存储器302可以包括易失性存储器(volatilememory，VM)，例如随机存取存储器(random access memory，RAM)；存储器302也可以包括非易失性存储器(non-volatile memory，NVM)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器302还可以包括上述种类的存储器的组合。

处理器301可以调用所述程序代码以执行以下操作：

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only memory，ROM)或随机存储记忆体(Random Accessmemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述基音周期信号生成所述第一语音帧对应的第一输出信号之后，还包括：

在接收到第三语音帧的情况下，获取第二输出信号的延续信号，所述第三语音帧为所述数据完整接收的语音帧，并且，所述第三语音帧的上一语音帧为数据丢失的语音帧，所述第二输出信号为所述第三语音帧的上一语音帧对应的输出信号，所述第二输出信号的延续信号用于表征所述第二输出信号在所述第三语音帧中的前Q个时刻的信号特征，Q小于N，N为每个语音帧对应的时刻数；

根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号，包括：

若所述第三语音帧不为包含语音的语音帧，针对所述前Q个时刻：将所述第三语音帧与所述第二输出信号的延续信号进行信号叠加，得到所述前Q个时刻对应的输出信号。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第二输出信号的延续信号，生成所述第三语音帧对应的第三输出信号，包括：

若所述第三语音帧为包含语音的语音帧，对所述第三语音帧进行时间伸缩，得到所述第三语音帧对应的时间伸缩信号；

针对所述前Q个时刻：根据所述时间伸缩信号和所述第二输出信号的延续信号，确定所述前Q个时刻对应的输出信号。

5.根据权利要求4所述的方法，其特征在于，所述对所述第三语音帧进行时间伸缩，得到所述第三语音帧对应的时间伸缩信号，包括：

根据所述目标基音周期，获取在所述第三语音帧之前的历史输出信号的延续信号；

计算所述历史输出信号的延续信号与所述第三语音帧之间的目标时延；

根据所述目标时延确定时间缩放窗口，将所述第三语音帧伸缩到所述时间缩放窗口内，得到所述第三语音帧对应的时间伸缩信号。

6.根据权利要求4所述的方法，其特征在于，所述根据所述时间伸缩信号和所述第二输出信号的延续信号，确定所述前m个时刻对应的输出信号，包括：

将所述第三语音帧对应的基音周期信号、所述时间伸缩信号和所述第二输出信号的延续信号进行信号叠加，得到所述前Q个时刻对应的输出信号。

7.根据权利要求1所述的方法，其特征在于，所述目标基音周期为在数据完整接收的过程中基于如下步骤计算得到：

基于非对称加窗函数，对所述目标输出信号进行线性预测编码分析，得到所述目标输出信号对应的线性预测系数；

基于所述线性预测系数，对所述目标输出信号进行预测残差加权，得到所述目标输出信号对应的加权语音信号；

对所述加权语音信号进行八倍降采样，得到所述目标输出信号对应的八倍降采样信号；

基于所述八倍降采样信号进行基音周期估计，得到初始基音周期；

基于所述加权语音信号在所述初始基音周期对应的基音周期范围中进行基音周期估计，得到所述目标基音周期。

8.根据权利要求7所述的方法，其特征在于，所述基于所述八倍降采样信号进行基音周期估计，得到初始基音周期，包括：

计算所述八倍降采样信号在预设周期范围内的归一化相关性平方值，并确定所述归一化相关性平方值的局部峰值；

根据所述局部峰值，确定所述初始基音周期。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述基于所述基音周期信号生成所述第一语音帧对应的第一输出信号，包括：

针对所述第一语音帧中的前L个时刻：获取第四输出信号的延续信号，将所述第四输出信号的延续信号与所述第一语音帧对应的基音周期信号进行叠加，得到所述前L个时刻对应的输出信号，所述第四输出信号为所述第一语音帧的上一语音帧对应的输出信号，所述第四输出信号的延续信号用于表征所述第四输出信号在所述第一语音帧中的前L个时刻的信号特征，L小于N，N为每个语音帧对应的时刻数；

针对所述第一语音帧中的后(N-L+Q)个时刻：对第一语音帧对应的基音周期信号进行幅度调整，得到所述后(N-L+Q)个时刻对应的输出信号，Q大于L，所述第一语音帧中的后Q个时刻对应的输出信号为所述第一输出信号的延续信号；

根据所述第一语音帧中的各个时刻对应的输出信号，生成所述第一输出信号。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一语音帧中的各个时刻对应的输出信号，生成所述第一输出信号之前，还包括：

根据所述第一语音帧对应的丢失持续时间，确定所述第一语音帧对应的信号衰减指数，所述丢失持续时间为所述第一语音帧与所述第二语音帧之间的时间，所述信号衰减指数与所述丢失持续时间负相关；

根据所述信号衰减指数，调整所述第一语音帧中的各个时刻对应的输出信号的幅度。

11.一种语音信号处理装置，其特征在于，包括：

12.一种计算机设备，其特征在于，包括存储器、处理器，所述存储器和连接至所述处理器，所述处理器用于执行存储在所述存储器中的一个或多个计算机程序，所述处理器在执行所述一个或多个计算机程序时，使得所述计算机设备实现如权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-10任一项所述的方法。