CN117558284A

CN117558284A - 一种语音增强方法、装置、设备及存储介质

Info

Publication number: CN117558284A
Application number: CN202311811783.7A
Authority: CN
Inventors: 甘雨; 唐镇坤; 潘伟; 王琅; 王飞
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-02-13

Abstract

本发明涉及语音处理技术领域，公开了一种语音增强方法、装置、设备及存储介质，该方法包括：将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在概率大于预设第一阈值时，使用均方根方法确定目标音频段的音频能量；在音频能量大于预设第二阈值时，将目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，有效提高了语音增强的质量。

Description

一种语音增强方法、装置、设备及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音增强方法、装置、设备及存储介质。

背景技术

随着经济水平以及科技能力的不断进步，越来越多的智能设备在各个领域逐步应用起来，新型智能设备的使用正不断改善人们的生活质量。在电话通话场景，语音在用于下游任务(语音识别等)时，会受到多种噪声干扰，如交通噪声，生活噪声等。对应的，也存在用于降低/去除这些噪声的影响，增强语音在下游任务的可用效果的不同语音增强方法。

但是，目前已有的语音增强方法本质上多为语音降噪，即通过算法或模型，尝试分离纯净语音与噪声，从而将纯净语音用于下游任务。但实际应用中，经过降噪后的“纯净语音”往往在下游任务中表现不佳。并且，对于下游任务的不同定义来说，背景人声也可能属于噪声。但是在现有语音增强中，背景人声会被视为纯净语音，从而无法被降噪，使得对语音本身的使用效果有损害。

因此，亟需一种语音增强方法，提高语音增强的质量。

发明内容

本发明的主要目的在于提供了一种语音增强方法、装置、设备及存储介质，旨在解决现有技术中如何有效提高语音增强的质量的技术问题。

为实现上述目的，本发明提供了一种语音增强方法，所述方法包括以下步骤：

将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；

在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；

在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。

可选地，所述短时傅里叶变换模块，用于对所述待处理音频段进行短时傅里叶变换，获得所述待处理音频段的不同频率的正弦波数组；

所述深度可分离卷积模块，用于提取所述正弦波数组的频率特征，获得包含所述频率特征的音频段；

所述长短期记忆神经网络模块，用于基于所述音频段和长短期记忆神经网络获得包含时序特征的目标音频段；

所述二分类模块，用于基于所述目标音频段确定所述待处理音频段属于语音的概率。

可选地，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之前，还包括：

判断是否与通话系统建立连接；

若已建立连接，则获取原始音频，并将所述原始音频进行切分，获得待处理音频段；

将所述待处理音频段按照时间顺序存入待处理队列；

从所述待处理队列中依次获取待处理音频段。

可选地，所述深度可分离卷积模块包括逐深度卷积子模块和逐点卷积子模块；

所述逐深度卷积子模块，用于对所述正弦波数组按照频率从低到高的顺序进行排列，并对各频率的所述正弦波数组分别进行卷积，获得卷积结果；

所述逐点卷积子模块，用于基于所述卷积结果对所用通道进行卷积，提取所述正弦波数组的频率特征，获得包含所述频率特征的音频段。

可选地，所述使用均方根方法确定所述目标音频段的音频能量的步骤，包括：

对所述目标音频段中音频数组使用均方根方法，获得所述目标音频段的变化量；

将所述变化量放大预设倍数，确定所述目标音频段的音频能量。

可选地，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之后，还包括：

将所述概率与预设第一阈值进行比较后，判断所述概率是否大于预设第一阈值；

在所述概率小于或等于预设第一阈值时，则将所述目标音频段设置为静音。

可选地，所述在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量的步骤之后，还包括：

将所述音频能量与预设第二阈值进行比较后，判断所述音频能量是否大于预设第二阈值；

在所述音频能量小于或等于预设第二阈值时，将所述目标音频段设置为静音。

此外，为实现上述目的，本发明还提出一种语音增强装置，所述装置包括：

语音分类模块，用于将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；

能量确认模块，用于在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；

结果输出模块，用于将所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。

此外，为实现上述目的，本发明还提出一种语音增强设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音增强程序，所述语音增强程序配置为实现如上文所述的语音增强方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有语音增强程序，所述语音增强程序被处理器执行时实现如上文所述的语音增强方法的步骤。

本发明通过将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，本发明能够有效去除语音中的背景人声，从而提高了语音增强的质量。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的语音增强设备的结构示意图；

图2为本发明语音增强方法第一实施例的流程示意图；

图3为本发明语音增强方法中预设分类模型中的处理流程示意图；

图4为本发明语音增强方法总体处理流程示意图；

图5为本发明语音增强方法第二实施例的流程示意图；

图6为本发明语音增强装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的语音增强设备结构示意图。

如图1所示，该语音增强设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对语音增强设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音增强程序。

在图1所示的语音增强设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明语音增强设备中的处理器1001、存储器1005可以设置在语音增强设备中，所述语音增强设备通过处理器1001调用存储器1005中存储的语音增强程序，并执行本发明实施例提供的语音增强方法。

本发明实施例提供了一种语音增强方法，参照图2，图2为本发明语音增强方法第一实施例的流程示意图。

本实施例中，所述语音增强方法包括以下步骤：

步骤S10：将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块。

需要说明的是，本实施例的执行主体可以是一种具有数据处理以及程序运行功能的计算服务设备，例如平板电脑、个人电脑等，或者是一种能够实现相同或相似功能的电子设备，例如上述图1所示的语音增强设备等。以下以语音增强设备为例，对本实施例及下述各实施例进行举例说明。

需要解释的是，所述待处理音频段可以是原始的待增强语音的音频经过切分后获得的固定长度的音频段，待处理音频段的长度可以是通过用户自定义设置的，也可以是设备默认的，本实施例对此不加以限制。

在具体实现中，将原始的待增强语音的音频切分为32ms的待处理音频段。易于理解的是，如果不要求实时性，所述待处理音频段的长度还可以更长。

需要解释的是，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块。

短时傅里叶变换模块，用于对所述待处理音频段进行短时傅里叶变换，获得所述待处理音频段的不同频率和相位的正弦波数组。

需要说明的是，输入的待处理音频段首先经过短时傅里叶变换，目的是将原始音频波分解为不同频率和相位的正弦波的组合，方便后续在各个频率上对待处理音频段进行进一步分析。

深度可分离卷积模块，用于提取所述正弦波数组的频率特征，获得包含所述频率特征的音频段。

需要说明的是，深度可分离卷积模块由逐深度卷积和逐点卷积组成，目的是提取经过短时傅里叶变换后，不同频率音频的隐含特征。

需要解释的是，逐深度卷积也叫逐通道卷积，其中不同“深度”在本方法中意思是，经过短时傅里叶变换后的不同频率的正弦波的数组，将其按照从低到高的顺序排列，频率越高则越“深”。逐深度卷积，即是对每个频率数组，单独地作卷积，所以最后得到的结果特征也是每个频率一个结果，形状相同。逐点卷积是由于逐深度卷积是单独地对每个频率做卷积，这样不同频率之间的结果，是没有联系的；如果要将不同频率的结果联系起来，就需要对所有通道一起做卷积。由于逐深度卷积后形状相同，通过对数组每个点的所有通道进行卷积，从而使不同频率的结果产生联系得到结果特征。

易于理解的是，所述深度可分离卷积模块包括逐深度卷积子模块和逐点卷积子模块；所述逐深度卷积子模块，用于对所述正弦波数组按照频率从低到高的顺序进行排列，并对各频率的所述正弦波数组分别进行卷积，获得卷积结果；所述逐点卷积子模块，用于基于所述卷积结果对所用通道进行卷积，提取所述正弦波数组的频率特征，获得包含所述频率特征的音频段。

长短期记忆神经网络模块，用于基于所述音频段和长短期记忆神经网络获得包含时序特征的目标音频段；

应理解的是，每个待处理音频段经过短时傅里叶变换模块和深度可分离卷积模块得到的音频段本身是独立的，但是通话音频本身是有时序性的，即按照时间顺序发生的，所以通过加入长短期记忆神经网络，目的是加入音频本身的时序性可能包含的信息。

需要说明的是，长短期记忆神经网络，是循环网络的一种，即本时刻的输入与上一时刻的输出变量有关，与一般的循环神经网络不同的是，其使用了三种称为“门”的计算操作，用来解决循环神经网络的长时间遗忘问题。

进一步地，将每个待处理音频段经过短时傅里叶变换模块和深度可分离卷积模块得到的音频段，按时间顺序输入上述长短期记忆神经网络模块，并记录每一次本模块的输出变量用于下一次，从而达到了这一时刻的输入与上一时刻输出变量有关的操作。

二分类模块，用于基于所述目标音频段确定所述待处理音频段属于语音的概率。

易于理解的是，所述目标音频段为包含了每个频率特征和时序特征的音频段，由于所述预设分类模型的目标是，对输入的待处理音频段进行语音-噪声二分类，因此，最后使用sigmoid函数，目的是将目标音频段映射到(0,1)的范围内，用于表示目标音频段属于语音的概率。

参考图3，图3为本发明语音增强方法中预设分类模型中的处理流程示意图，原始音频通过切分获得多个待处理音频段，依次经过短时傅里叶变换、深度可分离卷积模块、长短期记忆神经网络和二分类模块，实现对待处理音频段的分类，获得处理后的目标音频段和所述目标音频段属于语音的概率，根据所述概率判断是语音或噪音。

在具体实现中，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之后，还包括：将所述概率与预设第一阈值进行比较后，判断所述概率是否大于预设第一阈值；在所述概率小于或等于预设第一阈值时，则将所述目标音频段设置为静音。

需要说明的是，所述预设第一阈值可以是用户自定义设置的，也可以是设备默认设置的，本实施例对此不加以限制。

步骤S20：在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量。

应理解的是，在所述概率大于预设第一阈值时，判断所述目标音频段不属于噪声。但是通过预设分类模型处理之后的语音可能会留下为背景人声的语音。对于背景人声，可以使用音频能量的阈值判断是否为背景人声。计算音频能量的方法有多种，可以通过使用均方根方法确定所述目标音频段的音频能量。

需要解释的是，均方根方法本身是衡量变化量大小的指标。而音频也是一种变化的波，则通过衡量音频的变化量大小，可以衡量音频能量；变化量越大，能量越大，所以使用均方根方法。

需要说明的是，所述使用均方根方法确定所述目标音频段的音频能量的步骤，包括：对所述目标音频段中音频数组使用均方根方法，获得所述目标音频段的变化量；将所述变化量放大预设倍数，确定所述目标音频段的音频能量。

通过加入能量阈值的判断可以将小于或等于预设第二阈值的背景人声去除，增强语音增强的效果。

步骤S30：在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。

需要说明的是，均方根方法的计算，首先是对音频数组每个点作平方运算；然后，对整个音频数组求平均值，再对均值求平方根；最后，由于结果可能有多位小数，为了查看方便，对结果乘1000来放大结果。得到均方根结果后，当前音频大于某个均方根阈值则判断为正常语音保留，否则为背景人声语音去除。

参考图4，图4为本发明语音增强方法总体处理流程示意图，首先将原始音频切分后输入预设分类模型，判断是否为语音，若否，则设置为静音；若是，则进行能量阈值判断，根据判断结果判断是否为背景人声，若是背景人声则设置为静音，若不是则输出增强后的语音用于下游任务，例如语音识别等。

本实施例通过将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，本发明能够有效去除语音中的噪声和背景人声，从而提高了语音增强的质量。

参考图5，图5为本发明语音增强方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10之前，还包括：

步骤S01：判断是否与通话系统建立连接；

步骤S02：若已建立连接，则获取原始音频，并将所述原始音频进行切分，获得待处理音频段；

步骤S03：将所述待处理音频段按照时间顺序存入待处理队列；

步骤S04：从所述待处理队列中依次获取待处理音频段。

易于理解的是，通话系统是指一种能够实现电话通信的设备和软件系统，它是一种基于通信技术的信息传递系统，可以将人们的语音信息进行传输和交换。

需要说明的是，所述原始音频就是未经处理过的原始语音。待处理队列用于存储将原始音频切分后获得待处理音频段，待处理的结构可以有用户自定义设置的，本实施例对此不加以限制。

本实施例通过判断是否与通话系统建立连接；若已建立连接，则获取原始音频，并将所述原始音频进行切分，获得待处理音频段；将所述待处理音频段按照时间顺序存入待处理队列；从所述待处理队列中依次获取待处理音频段；将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。由于本发明从所述待处理队列中依次获取待处理音频段，然后将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，本发明能够有效去除通话系统中原始语音中的噪声和背景人声，从而提高了语音增强的质量。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有语音增强程序，所述语音增强程序被处理器执行时实现如上文所述的语音增强方法的步骤。

参照图6，图6为本发明语音增强装置第一实施例的结构框图。

如图6所示，本发明实施例提出的语音增强装置包括：语音分类模块601、能量确认模块602和结果输出模块603。

所述语音分类模块601，用于将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块。

所述能量确认模块602，用于在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量。

所述结果输出模块603，用于将所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。

所述语音分类模块601，还用于将所述概率与预设第一阈值进行比较后，判断所述概率是否大于预设第一阈值；在所述概率小于或等于预设第一阈值时，则将所述目标音频段设置为静音。

所述能量确认模块602，还用于对所述目标音频段中音频数组使用均方根方法，获得所述目标音频段的变化量；将所述变化量放大预设倍数，确定所述目标音频段的音频能量。

所述能量确认模块602，还用于将所述音频能量与预设第二阈值进行比较后，判断所述音频能量是否大于预设第二阈值；在所述音频能量小于或等于预设第二阈值时，将所述目标音频段设置为静音。

本实施例通过将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段，所述预设分类模型包括短时傅里叶变换模块、深度可分离卷积模块、长短期记忆神经网络模块和二分类模块；在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量；在所述音频能量大于预设第二阈值时，将所述目标音频段存入结果处理队列。由于本发明通过将待处理音频段输入至预设分类模型，获得待处理音频段属于语音的概率和目标音频段，然后使用均方根方法确定概率大于预设第一阈值对应的目标音频段的音频能量，并将音频能量大于预设第二阈值的目标音频段存入结果队列，相比于现有技术，本发明能够有效去除语音中的背景人声，从而提高了语音增强的质量。

基于本发明上述语音增强装置第一实施例，提出本发明语音增强装置的第二实施例。

在本实施例中，所述语音分类模块603，还用于判断是否与通话系统建立连接；若已建立连接，则获取原始音频，并将所述原始音频进行切分，获得待处理音频段；将所述待处理音频段按照时间顺序存入待处理队列；从所述待处理队列中依次获取待处理音频段。

本发明语音增强装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音增强方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的语音增强方法，其特征在于，所述短时傅里叶变换模块，用于对所述待处理音频段进行短时傅里叶变换，获得所述待处理音频段的不同频率的正弦波数组；

3.如权利要求1所述的语音增强方法，其特征在于，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之前，还包括：

判断是否与通话系统建立连接；

将所述待处理音频段按照时间顺序存入待处理队列；

从所述待处理队列中依次获取待处理音频段。

4.如权利要求1所述的语音增强方法，其特征在于，所述深度可分离卷积模块包括逐深度卷积子模块和逐点卷积子模块；

5.如权利要求1所述的语音增强方法，其特征在于，所述使用均方根方法确定所述目标音频段的音频能量的步骤，包括：

6.如权利要求1所述的语音增强方法，其特征在于，所述将待处理音频段输入至预设分类模型，获得所述待处理音频段属于语音的概率和目标音频段的步骤之后，还包括：

7.如权利要求1所述的语音增强方法，其特征在于，所述在所述概率大于预设第一阈值时，使用均方根方法确定所述目标音频段的音频能量的步骤之后，还包括：

8.一种语音增强装置，其特征在于，所述装置包括：

9.一种语音增强设备，其特征在于所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音增强程序，所述语音增强程序配置为实现如权利要求1至7中任一项所述的语音增强方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有语音增强程序，所述语音增强程序被处理器执行时实现如权利要求1至7任一项所述的语音增强方法的步骤。