CN111326166B

CN111326166B - 语音处理方法及装置、计算机可读存储介质、电子设备

Info

Publication number: CN111326166B
Application number: CN202010115650.6A
Authority: CN
Inventors: 黄振胜
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2023-04-14
Anticipated expiration: 2040-02-25
Also published as: CN111326166A

Abstract

本公开涉及音频处理技术领域，提供了一种语音处理方法、装置、计算机可读存储介质及电子设备，该语音处理方法包括：获取与待恢复语音信息对应的多个语音恢复包，其中各语音恢复包包括待恢复语音信息中的语音包和针对待恢复语音信息中丢失的语音帧生成的语音补偿包；对各语音恢复包进行发声分析和静音检测，以得到与各语音恢复包对应的第一失真信息和第二失真信息；根据与各语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将目标语音恢复包对应的语音补偿包作为目标语音补偿包。本公开的语音处理方法提高了恢复语音包的音频质量，提升了用户体验。

Description

语音处理方法及装置、计算机可读存储介质、电子设备

背景技术

随着通信技术的发展，很多用户采用语音通话方式进行沟通，语音通话是将发送端发送的语音信息编码传输至接收端，并在接收端解码显示，但在网络较差或者是网络抖动比较厉害的场景下，接收端会出现丢失语音包的情况出现。

在现有技术中，一般采用音频编码器内部的数字信号处理来实现丢包补偿方法，但这种方法的缺陷是和音频编码器耦合比较大，不是所有编码器都支持，另外，对于所有不同特征的声音信号，都是用同样的处理算法来构建音频帧，产生的补偿帧质量会比较差，进而导致丢包时间段的重建信号质量比较差。

鉴于此，本领域亟需开发一种新的语音处理方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种语音处理方法、语音处理装置、计算机可读存储介质及电子设备，进而至少在一定程度上提高了语音处理的效率和精确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种语音处理方法，所述语音处理方法包括：获取与待恢复语音信息对应的多个语音恢复包，其中各所述语音恢复包包括所述待恢复语音信息中的语音包和针对所述待恢复语音信息中丢失的语音帧生成的语音补偿包；对各所述语音恢复包进行发声分析和静音检测，以得到与各所述语音恢复包对应的第一失真信息和第二失真信息；根据与各所述语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将所述目标语音恢复包对应的语音补偿包作为目标语音补偿包。

在本公开的一个示例性实施例中，获取与待恢复语音信息对应的多个语音恢复包，包括：获取与所述待恢复语音信息对应的多个语音补偿包；将各所述语音补偿包分别插入到所述待恢复语音信息中的丢包位置处，以生成多个所述语音恢复包。

在本公开的一个示例性实施例中，获取与所述待恢复语音信息对应的语音补偿包，包括：对所述待恢复语音信息进行解码，以获取所述待恢复语音信息所包含的语音包信息；基于所述语音包信息确定线性预测系数和残差信号，并根据所述线性预测系数和所述残差信号获取所述语音补偿包。

在本公开的一个示例性实施例中，根据所述线性预测系数和所述残差信号获取所述语音补偿包，包括：根据语音预测公式确定所述语音补偿包，所述语音预测公式为：

其中，s(n)是所述语音补偿包所包含的语音信息，e(n)是所述残差信号，a_k是所述线性预测系数，n是指所述语音补偿包，k是指所述语音补偿包的前一语音包，p是常量。

在本公开的一个示例性实施例中，获取与所述待恢复语音信息对应的语音补偿包，包括：获取静音包、噪声包或者相邻语音包，并将所述静音包、噪声包或者相邻语音包作为所述语音补偿包，其中所述相邻语音包的位置与所述丢包位置相邻且所述相邻语音包的位置编码小于所述丢包位置的位置编码。

在本公开的一个示例性实施例中，获取与所述待恢复语音信息对应的语音补偿包，包括：获取所述待恢复语音信息的信号波形，对所述信号波形进行重建，以获取重建声音波形；通过基音波形复制法从所述重建声音波形中获取目标波形，根据所述目标波形对应的语音包确定所述语音补偿包。

在本公开的一个示例性实施例中，通过基音波形复制法从所述重建声音波形中获取目标波形，包括：获取所述重建声音波形的峰值，根据所述峰值确定所述重建声音波形对应的信号能量；当所述信号能量小于预设阈值时，获取所述重建声音波形中与所述丢包位置相邻的前一语音帧对应的波形，并将所述前一语音帧对应的波形作为所述目标波形；当所述信号能量大于或等于所述预设阈值时，获取所述重建声音波形中与所述丢包位置相邻的前一信号周期对应的波形，并将所述前一信号周期对应的波形作为所述目标波形。

在本公开的一个示例性实施例中，所述方法还包括：以所述待恢复语音信息中的丢包位置的位置编号N为中心，获取位置编号N±M范围内的目标语音包，并将所述目标语音包作为所述语音恢复包，其中，M、N为正整数。

在本公开的一个示例性实施例中，在对各所述语音恢复包进行发声分析和静音检测之前，所述方法还包括：对各所述语音恢复包进行预处理，以使各所述语音恢复包的语音电平达到预设标准。

在本公开的一个示例性实施例中，对各所述语音恢复包进行发声分析，以得到与各所述语音恢复包对应的第一失真信息，包括：获取各所述语音恢复包所包含的语音信号，根据所述语音信号确定各所述语音恢复包的美尔谱失真度，并根据所述美尔谱失真度和所述语音信号对应的频谱数确定各所述语音恢复包对应的第一失真信息。

在本公开的一个示例性实施例中，对各所述语音恢复包进行静音检测，以得到与各所述语音恢复包对应的第二失真信息，包括：计算各所述语音恢复包所包含的语音信号的能量和，将所述能量和与能量阈值进行比较；当所述能量和大于所述能量阈值时，判定所述语音恢复包为非静音包，并将所述第二失真信息设置为零。在所述能量和小于或等于所述能量阈值时，判定所述语音恢复包为静音包，并根据所述语音恢复包对应的美尔谱失真度确定所述第二失真信息。

在本公开的一个示例性实施例中，根据与各所述语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，包括：将与各所述语音恢复包对应的所述第一失真信息和第二失真信息求和以得到失真信息，并将具有最小失真信息的语音恢复包作为所述目标语音恢复包。

在本公开的一个示例性实施例中，所述方法还包括：在对所述待恢复语音信息进行丢包补偿时，获取与所述待恢复语音信息对应的历史语音补偿信息，所述历史语音补偿信息包括所述待恢复语音信息的历史丢包时间和历史语音补偿方案；判断所述历史丢包时间与当前丢包时间的时间间隔是否超过时间阈值，并根据判断结果，确定所述目标语音补偿包。

在本公开的一个示例性实施例中，根据判断结果，确定所述目标语音补偿包，包括：当所述时间间隔未超过所述时间阈值时，根据所述历史语音补偿方案确定所述目标语音补偿包；当所述时间间隔超过所述时间阈值时，执行上述实施例所述的语音处理方法。

根据本公开的一个方面，提供了一种语音处理装置，所述语音处理装置包括：获取语音恢复包模块，用于获取与待恢复语音信息对应的多个语音恢复包，其中各所述语音恢复包包括所述待恢复语音信息中的语音包和针对所述待恢复语音信息中丢失的语音帧生成的语音补偿包；确定失真信息模块，用于获取与待恢复语音信息对应的多个语音恢复包，其中各所述语音恢复包包括所述待恢复语音信息中的语音包和针对所述待恢复语音信息中丢失的语音帧生成的语音补偿包；确定目标补偿包模块，用于根据与各所述语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将所述目标语音恢复包对应的语音补偿包作为目标语音补偿包。

根据本公开的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的语音处理方法。

根据本公开的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的语音处理方法。

由上述技术方案可知，本公开示例性实施例中的语音处理方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果：

本公开示例性实施例的语音处理方法首先获取多个语音恢复包，再对多个语音恢复包进行发声分析和静音检测，以得到第一失真信息和第二失真信息，最后根据第一失真信息和第二失真信息确定目标语音恢复包，将目标语音恢复包作为目标语音补偿包。本公开中的语音处理方法一方面与实时语音中使用的音频编码器无关，支持所有的音频编码器，适用场景更加广泛；另一方面，对多个语音恢复包进行发声分析和静音检测，保证了语音恢复包的音频质量，提高了语音恢复的精确度，提升了用户体验。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开的一实施例的语音处理方法的流程示意图；

图2示意性示出了根据本公开的一实施例的获取目标语音恢复包的流程示意图；

图3示意性示出了根据本公开的一实施例的语音处理装置的框图；

图4示意性示出了根据本公开的一实施例的电子设备的模块示意图；

图5示意性示出了根据本公开的一实施例的程序产品示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

随着通信技术的快速发展，很多用户采用语音进行交流，发送端发送的语音包编码发送至接收端，接收端在接收到语音包时，先进行语音解码，再将解码后的语音信息显示在接收端的交互界面。若在网络较差或者是网络抖动比较厉害的场景下，接收端会出现丢包的情况，接收端用户听到的声音将是断断续续，无法听清楚对方要表达什么内容，严重影响了用户的语音交流。

根据上述技术问题，在本领域的相关技术中，现有技术针对语音包丢失的处理方法主要有以下几种方法：

第一种，是通过FEC前向纠错，FEC主要是在数据流多增加一些数据用来纠错，但是在整包或者是连续多个语音包丢失的情况下，FEC前向纠错的方法对应接收端丢包的处理几乎没有效果；

第二种，实时语音系统基于TCP可靠传输，依赖丢包重新请求发送，这种方法会因为等待重新传输语音包而导致实时性降低，延迟较大；

第三种，利用音频编码器内部的数字信号处理来实现丢包补偿方法，这种方法的缺陷是和音频编码器耦合比较大，不是所有编码器都支持，另外对于所有不同特征的声音信号，都使用同样的处理算法来构建音频帧，产生的补偿帧质量有的会比较差，进而导致丢包时间段的重建信号质量比较差。

基于相关技术中存在的问题，在本公开的一个实施例中提出了一种语音处理方法。图1示出了语音处理方法的流程示意图，如图1所示，该语音处理方法至少包括以下步骤：

步骤S110：获取与待恢复语音信息对应的多个语音恢复包，其中，各语音恢复包包括待恢复语音信息中的语音包和针对待恢复语音信息中丢失的语音帧生成的语音补偿包；

步骤S120：对各语音恢复包进行发声分析和静音检测，以得到与各语音恢复包对应的第一失真信息和第二失真信息；

步骤S130：根据与各语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将目标语音恢复包对应的语音补偿包作为目标语音补偿包。

本公开实施例中的语音处理方法一方面与实时语音中使用的音频编码器无关，支持所有的音频编码器，适用场景更加广泛；另一方面，对多个语音恢复包进行发声分析和静音检测，保证了语音恢复包的音频质量，提高了恢复语音的精确度，提升了用户体验；再一方面，根据第一失真信息和第二失真信息得到目标语音补偿包，得到的目标语音补偿包的语音信号的质量较好。

需要说明的是，本公开实施例所提供的语音处理方法一般由具有计算功能的服务器执行，当然，也可以由具有计算功能的终端设备执行，还可以由终端设备和服务器组合执行，本公开对此不做具体限定。

为了使本公开的技术方案更清晰，接下来以实例对本示例性实施例中的语音处理方法进行详细说明。

在步骤S110中，获取与待恢复语音信息对应的多个语音恢复包，其中，各语音恢复包包括待恢复语音信息中的语音包和针对待恢复语音信息中丢失的语音帧生成的语音补偿包。

在本公开的示例性实施例中，待恢复语音信息包括存在丢失的语音帧的语音信息，语音补偿包包括针对待恢复语音信息中的丢失的语音帧生成的语音信息，语音恢复包包括待恢复语音信息中的语音包和语音补偿包。

在本公开的示例性实施例中，获取与待恢复语音信息对应的多个语音补偿包，将各语音补偿包分别插入到待恢复语音信息中的丢包位置处，以生成多个语音恢复包。

在本公开的示例性实施例中，为了保证语音恢复包的连续性，以待恢复语音信息中的丢包位置的位置编号N为中心，获取位置编号N±M范围内的目标语音包，并将目标语音包作为语音恢复包，其中，M、N为正整数。比如，该语音恢复包可以包括语音补偿包和待恢复语音信息中的整个语音包，也可以包括语音补偿包和在待恢复语音信息中与语音补偿包相邻的前一帧和后一帧语音包，本公开对此不做具体限定。

在本公开的示例性实施例中，获取与待恢复语音信息对应的语音补偿包，包括如下三种方法：

第一种，基于重构的方法，对待恢复语音信息进行解码，以获取待恢复语音信息所包含的语音包信息；基于语音包信息确定线性预测系数和残差信号，并根据线性预测系数和残差信号获取语音补偿包。

在本公开的示例性实施例中，由于在空间和时间上，丢失的语音帧与其相邻的前一个语音帧之间的线性预测系数具有最大的相关性，因此，重建丢失语音帧处的线性预测系数采用丢包位置处的前一个语音帧的线性预测系数来重建，具体过程如下：

语音信号短时不变，分帧后的语音信号产生可以等效为单位脉冲序列激励声道管，该过程为线性时不变系统，语音信号的差分方程形式如公式(1)所示：

其中，x(n)为语音信号，加权项为预测信号，e(n)是残差信号。进一步，根据e(n)的最小均方误差准则来计算滤波器系数a_i，如公式(2)所示：

e(n)的最小均方误差的计算如公式(3)所示：

对a_i求偏导

可以求得预测系数a_i。语音预测公式如公式(4)所示：

其中，s(n)是语音补偿包所包含的语音信息，e(n)是残差信号，a_k是线性预测系数，n是指语音补偿包，k是指语音补偿包的前一语音包，p是常量。

另外，残差信号通常由准周期信号和类噪声组成，准周期成分可以根据测量丢包位置前一帧语音的基音周期来近似得到，累噪声则可以通过产生随机噪声得到，两者的能量比例通过丢包位置前一帧语音的比例关系来推导。首先对丢包位置前一帧语音进行基音检测；然后以基音同步的方法重建丢失帧的语音部分；接着利用相关性得到类噪声增益；其中，相关性只要是利用前一帧的子帧基音信号部分和类噪声部分能量的比例来是的当前预测补偿信号的基音周期部分和要预测信号的类噪声部分能量比例一致，最后进行混合重建整个语音包。

具体地，丢包位置前一帧语音帧的最后一个子帧准周期信号的能量为E，

X(k)为该子帧第k个子带的傅里叶变化频谱，该子帧的类噪声能量为

X_n为类噪声子带频谱系数，能量比例为：

重建的残差信号如公式(5)所示：

e(k)＝x(k)+n(k) (5)

其中，x(k)是通过基音同步恢复的语音信号，n(k)是随机噪声信号。

需要说明的是，人在发声时，根据声带是否震动可以将语音信号分为清音和浊音两种，浊音又称有声语音，携带着语音中大部分的能量，浊音在时域上呈现出明显的周期性，发浊音时，气流通过声门使声带产生张弛震荡式震动，产生准周期的激励脉冲串，这种声带震动的频率成为基音频率，相应的周期就称为基音周期。而清音类似于白噪声，没有明显的周期性。通常，基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系，在很大程度上反应了个人的特征。此外，基音频率还跟随着人的性别、年龄不同而有所不同。一般来说，男性说话者的基音频率较低，而女性说话者和小孩的基音频率相对较高。基音周期的估计称为基音检测，基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。

第二种，获取静音包、噪声包或者相邻语音包，并将静音包、噪声包或者相邻语音包作为语音补偿包，其中相邻语音包的位置与丢包位置相邻且相邻语音包的位置编码小于丢包位置的位置编码。

第三种，获取待恢复语音信息的信号波形，对信号波形进行重建，以获取重建声音波形；通过基音波形复制法从重建声音波形中获取目标波形，根据目标波形对应的语音包确定语音补偿包。

在本公开的示例性实施例中，通过基音波形复制法从重建声音波形中获取目标波形，包括：获取重建声音波形的峰值，根据峰值确定重建声音波形对应的信号能量；当信号能量小于预设阈值时，获取重建声音波形中与丢包位置相邻的前一语音帧对应的波形，并将前一语音帧对应的波形作为目标波形；当信号能量大于或等于预设阈值时，获取重建声音波形中与丢包位置相邻的前一信号周期对应的波形，并将前一信号周期对应的波形作为目标波形，其中，预设阈值根据实际情况限定，本公开对此不做具体限定。

在步骤S120中，对各语音恢复包进行发声分析和静音检测，以得到与各语音恢复包对应的第一失真信息和第二失真信息。

在本公开的示例性实施例中，在对各语音恢复包进行发声分析和静音检测之前，对各语音恢复包进行预处理，以使各语音恢复包的语音电平达到预设标准。其中，对各语音恢复包进行预处理包括：对各语音恢复包信号进行增益控制，比如，如果语音恢复包信号强度较弱，则对各语音恢复包信号在频谱上都乘以一个较大的增益使得信号强度增强，或在语音恢复包信号强度较强时，对各语音恢复包信号乘以一个较小的增益使得信号强度相对降低，最终将语音信号电平控制至标准化。当然，还可以根据需要对语音恢复包进行其它的预处理操作，本公开对此不做具体限定。

在本公开的示例性实施例中，对各语音恢复包进行发声分析，以得到与各语音恢复包对应的第一失真信息，包括：获取各语音恢复包所包含的语音信号，根据语音信号确定各语音恢复包的美尔谱失真度，并根据美尔谱失真度和语音信号对应的频谱数确定各语音恢复包对应的第一失真信息，具体计算第一失真信息的过程如下：

首先，对各语音恢复包的每一帧信号做FFT傅里叶变换得到频谱，再对信号的频谱进行频率弯折，变换至美尔(Mel)尺度上，变换过程如公式(6)所示：

其中，f代表频率。

接着，将信号功率谱通过多个三角带通滤波器组，得到滤波器功率谱输出，三角滤波器的频率响应定义如公式(7)所示：

其中，

M为滤波器组个数。对滤波器组的各个输出做立方根的非线性压缩处理，处理过程如公式(8)所示：

X_k,n＝(∑_m|X(k,m)|²*h(m))^1/3 (8)

其中，k是指第k个频谱，h(m)为滤波器组系数，0≤m≤M。再作离散余弦变换，得到Mel谱系数MFC，并计算美尔谱失真度如公式(9)所示：

其中，k＝1,2,3…N，N表示傅里叶变换的点数，i＝1,2,3…L(L是一个常量)，MFC_x(i,k)为丢包补偿前的美尔谱失真度，MFC_y(i,k)为丢包补偿后的美尔谱失真度。

最后，计算第一失真信息D_F如公式(10)所示：

在本公开的示例性实施例中，对各语音恢复包进行静音检测，以得到与各语音恢复包对应的第二失真信息，包括：计算各语音恢复包所包含的语音信号的能量和，将能量和与能量阈值进行比较；其中，能量阈值根据实际情况进行设定，本公开对此不做具体限定，在能量和大于能量阈值时，判定语音恢复包为非静音包，并将第二失真信息设置为零；在能量和小于或等于能量阈值时，判定语音恢复包为静音包，并根据语音恢复包对应的美尔谱失真度确定第二失真信息，其中，计算第二失真信息如公式(11)所示：

其中，M为检测到静音包的个数。

继续参照图1所示，在步骤S130中，根据与各语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将各目标语音恢复包对应的语音补偿包作为目标语音补偿包。

在本公开的示例性实施例中，将与各语音恢复包对应的第一失真信息D_F和第二失真信息D_M求和以得到失真信息，并将具有最小失真信息的语音恢复包作为目标语音恢复包。具体地，将第一失真信息D_F和第二失真信息D_M求和得到总的信号失真，总信号失真D_x如公式(12)所示：

D_x＝D_F+D_M (12)

并将信号失真线性映射到得分MOS，计算总信号失真D_x的MOS值，MOS值计算如公式(13)所示：

其中，MOS值越小，其总信号失真D_x对应的语音恢复包的音频质量越好，因此，将多个语音恢复包中MOS值最小的语音恢复包作为目标语音恢复包。

图2示意性示出了获取目标语音恢复包的流程示意图，如图2所示，在步骤S210中，获取与待恢复语音信息对应的多个语音恢复包；在步骤S220中，对各语音恢复包进行预处理；在步骤S230中，对预处理后的各语音恢复包进行发声分析，以获得与各语音恢复包对应的第一失真信息D_F；在步骤S240中，对预处理后的各语音恢复包进行静音检测，以获得与各语音恢复包对应的第二失真信息D_M；在步骤S250中，对第一失真信息D_F和第二失真信息D_M求和得到总信号失真D_x，并对总信号失真D_x进行信号失真线性映射，得到各语音恢复包对应的MOS值；在步骤S260中，将最小MOS值对应的语音恢复包确定为目标语音恢复包。

在本公开的示例性实施例中，在对待恢复语音信息进行丢包补偿时，获取与待恢复语音信息对应的历史语音补偿信息，历史语音补偿信息包括待恢复语音信息的历史丢包时间和历史语音补偿方案；判断历史丢包时间与当前丢包时间的时间间隔是否超过时间阈值，当时间间隔未超过时间阈值时，根据历史语音补偿方案确定目标语音补偿包；其中，时间阈值根据实际情况限定，本公开对此不做具体限定，当时间间隔超过时间阈值时，则利用上述示例性实施例中的语音处理方法确定新的目标语音补偿包。

以下介绍本公开的装置实施例，可以用于执行本公开上述的语音处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的语音处理方法的实施例。

图3示意性示出了根据本公开的一个实施例的语音处理装置的框图。

参照图3所示，根据本公开的一个实施例的语音处理装置300，语音处理装置300包括：获取语音恢复包模块301、确定失真信息模块302和确定目标补偿包模块303。具体地：

获取语音恢复包模块301，用于获取与待恢复语音信息对应的多个语音恢复包，其中各语音恢复包包括待恢复语音信息中的语音包和针对待恢复语音信息中丢失的语音帧生成的语音补偿包；

确定失真信息模块302，用于获取与待恢复语音信息对应的多个语音恢复包，其中各语音恢复包包括待恢复语音信息中的语音包和针对待恢复语音信息中丢失的语音帧生成的语音补偿包；

确定目标补偿包模块303，用于根据与各语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将目标语音恢复包对应的语音补偿包作为目标语音补偿包。

上述各语音处理装置的具体细节已经在对应的语音处理方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图4来描述根据本发明的这种实施方式的电子设备400。图4显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430、显示单元440。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元410可以执行如图1中所示的步骤S110，获取与待恢复语音信息对应的多个语音恢复包，其中，各语音恢复包包括待恢复语音信息中的语音包和针对待恢复语音信息中丢失的语音帧生成的语音补偿包；步骤S120，对各语音恢复包进行发声分析和静音检测，以得到与各语音恢复包对应的第一失真信息和第二失真信息；步骤S130，根据与各语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，并将目标语音恢复包对应的语音补偿包作为目标语音补偿包。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(ROM)4203。

存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块405包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得观众能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品500，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种语音处理方法，其特征在于，包括：

获取与待恢复语音信息对应的多个语音恢复包，其中，各所述语音恢复包包括所述待恢复语音信息中的语音包和针对所述待恢复语音信息中丢失的语音帧生成的语音补偿包；

对各所述语音恢复包进行发声分析，以得到与各所述语音恢复包对应的第一失真信息；

对各所述语音恢复包进行静音检测，以得到与各所述语音恢复包对应的第二失真信息；

根据与各所述语音恢复包对应的所述第一失真信息和所述第二失真信息确定目标语音恢复包，并将所述目标语音恢复包对应的语音补偿包作为目标语音补偿包。

2.根据权利要求1所述的语音处理方法，其特征在于，获取与待恢复语音信息对应的多个语音恢复包，包括：

获取与所述待恢复语音信息对应的多个语音补偿包；

将各所述语音补偿包分别插入到所述待恢复语音信息中的丢包位置处，以生成多个所述语音恢复包。

3.根据权利要求2所述的语音处理方法，其特征在于，获取与所述待恢复语音信息对应的语音补偿包，包括：

对所述待恢复语音信息进行解码，以获取所述待恢复语音信息所包含的语音包信息；

基于所述语音包信息确定线性预测系数和残差信号，并根据所述线性预测系数和所述残差信号获取所述语音补偿包。

4.根据权利要求3所述的语音处理方法，其特征在于，

根据语音预测公式确定所述语音补偿包，所述语音预测公式为：

5.根据权利要求2所述的语音处理方法，其特征在于，获取与所述待恢复语音信息对应的语音补偿包，包括：

获取静音包、噪声包或者相邻语音包，并将所述静音包、噪声包或者相邻语音包作为所述语音补偿包，其中所述相邻语音包的位置与所述丢包位置相邻且所述相邻语音包的位置编码小于所述丢包位置的位置编码。

6.根据权利要求2所述的语音处理方法，其特征在于，获取与所述待恢复语音信息对应的语音补偿包，包括：

获取所述待恢复语音信息的信号波形，对所述信号波形进行重建，以获取重建声音波形；

通过基音波形复制法从所述重建声音波形中获取目标波形，根据所述目标波形对应的语音包确定所述语音补偿包。

7.根据权利要求6所述的语音处理方法，其特征在于，通过基音波形复制法从所述重建声音波形中获取目标波形，包括：

获取所述重建声音波形的峰值，根据所述峰值确定所述重建声音波形对应的信号能量；

当所述信号能量小于预设阈值时，获取所述重建声音波形中与所述丢包位置相邻的前一语音帧对应的波形，并将所述前一语音帧对应的波形作为所述目标波形；

当所述信号能量大于或等于所述预设阈值时，获取所述重建声音波形中与所述丢包位置相邻的前一信号周期对应的波形，并将所述前一信号周期对应的波形作为所述目标波形。

8.根据权利要求1所述的语音处理方法，其特征在于，所述方法还包括：

以所述待恢复语音信息中的丢包位置的位置编号N为中心，获取位置编号N±M范围内的目标语音包，并将所述目标语音包作为所述语音恢复包，其中，M、N为正整数。

9.根据权利要求1所述的语音处理方法，其特征在于，在对各所述语音恢复包进行发声分析和静音检测之前，所述方法还包括：

对各所述语音恢复包进行预处理，以使各所述语音恢复包的语音电平达到预设标准。

10.根据权利要求1所述的语音处理方法，其特征在于，对各所述语音恢复包进行发声分析，以得到与各所述语音恢复包对应的第一失真信息，包括：

获取各所述语音恢复包所包含的语音信号，根据所述语音信号确定各所述语音恢复包的美尔谱失真度，并根据所述美尔谱失真度和所述语音信号对应的频谱数确定各所述语音恢复包对应的第一失真信息。

11.根据权利要求1所述的语音处理方法，其特征在于，对各所述语音恢复包进行静音检测，以得到与各所述语音恢复包对应的第二失真信息，包括：

计算各所述语音恢复包所包含的语音信号的能量和，将所述能量和与能量阈值进行比较；

在所述能量和大于所述能量阈值时，判定所述语音恢复包为非静音包，并将所述第二失真信息设置为零；

在所述能量和小于或等于所述能量阈值时，判定所述语音恢复包为静音包，并根据所述语音恢复包对应的美尔谱失真度确定所述第二失真信息。

12.根据权利要求1所述的语音处理方法，其特征在于，根据与各所述语音恢复包对应的第一失真信息和第二失真信息确定目标语音恢复包，包括：

将与各所述语音恢复包对应的所述第一失真信息和第二失真信息求和以得到失真信息，并将具有最小失真信息的语音恢复包作为所述目标语音恢复包。

13.根据权利要求1所述的语音处理方法，其特征在于，所述方法还包括：

在对所述待恢复语音信息进行丢包补偿时，获取与所述待恢复语音信息对应的历史语音补偿信息，所述历史语音补偿信息包括所述待恢复语音信息的历史丢包时间和历史语音补偿方案；

判断所述历史丢包时间与当前丢包时间的时间间隔是否超过时间阈值，并根据判断结果，确定所述目标语音补偿包。

14.根据权利要求13所述的语音处理方法，其特征在于，根据判断结果，确定所述目标语音补偿包，包括：

当所述时间间隔未超过所述时间阈值时，根据所述历史语音补偿方案确定所述目标语音补偿包；

当所述时间间隔超过所述时间阈值时，执行权利要求1至13任意一项所述的语音处理方法。

15.一种语音处理装置，其特征在于，包括：

获取语音恢复包模块，用于获取与待恢复语音信息对应的多个语音恢复包，其中各所述语音恢复包包括所述待恢复语音信息中的语音包和针对所述待恢复语音信息中丢失的语音帧生成的语音补偿包；

确定失真信息模块，用于对各所述语音恢复包进行发声分析，以得到与各所述语音恢复包对应的第一失真信息；对各所述语音恢复包进行静音检测，以得到与各所述语音恢复包对应的第二失真信息；

确定目标补偿包模块，用于根据与各所述语音恢复包对应的所述第一失真信息和所述第二失真信息确定目标语音恢复包，并将所述目标语音恢复包对应的语音补偿包作为目标语音补偿包。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至14中任一项所述的语音处理方法。

17.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至14中任一项所述的语音处理方法。