CN110503967B

CN110503967B - 一种语音增强方法、装置、介质和设备

Info

Publication number: CN110503967B
Application number: CN201810475436.4A
Authority: CN
Inventors: 赵月峰
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2021-11-19
Anticipated expiration: 2038-05-17
Also published as: CN110503967A

Abstract

本发明涉及人工智能领域，尤其涉及一种语音增强方法、装置、介质和设备。将包括干扰信号和语音信号的第一语音时域信号，转换为第一时频二维语音信号，通过预先确定的神经网络模型，从中提取语音信号对应的频域特征和时域特征，得到第二时频二维语音信号，进而可以得到语音增强后的第二语音时域信号。在本发明实施例中，只要预先确定的神经网络模型经过了足够的训练，即可以准确提取出语音信号相关信息，去除各种类型的噪声干扰，优化语音增强效果。同时，由于只关注语音信号相关信息的提取，无需针对每种类型的噪声，分别采用不同的算法，还可以有效减少语音增强所需的时间。

Description

一种语音增强方法、装置、介质和设备

技术领域

本发明涉及人工智能领域，尤其涉及一种语音增强方法、装置、介质和设备。

背景技术

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。简单地说，就是从含噪语音中提取尽可能纯净的原始语音。

实际语音遇到的噪声干扰主要可以分以下几类：(1)周期性噪声，例如电气干扰，发动机旋转部分引起的干扰等，这类干扰表现为一些离散的窄频峰；(2)冲激噪声，例如一些电火花、放电产生的噪声干扰；(3)宽带噪声，这是指高斯噪声或白噪声一类的噪声，它们的特点是频带宽，几乎覆盖整个语音频带；(4)语音干扰，例如话筒中接收到其他人说话的声音；(5)回声，例如当两人进行语音通话时，自己发出的声音通过对方的麦克又传回到自己的音箱。

针对上述各种不同类型噪声的干扰，现有的语音增强技术亦是不一样的，进行语音增强的现有技术如下：

周期性噪声可以用滤波方法滤除，而设计的滤波器，在滤除干扰的同时应不产生影响语音可懂度的副作用。一般可以采用固定滤波器、自适应滤波器和傅里叶变换滤波器等。

冲激噪声可以通过相邻的样本值，采取内插方法将其除去，或者利用非线性滤波器滤除。

宽带噪声是难以消除的一种干扰，因为它与语音具有相同的频带，在消除噪声的同时将影响语音的质量，现在常用的方法有减谱法、自相关相减法、最大似然估计法、自适应抵消法，以及其它一些自适应技术。

语音噪声的消除，也是很困难的，一般是利用不同说话人有不同基音频率的特点，采用自适应技术跟踪某说话人的基音，形成梳状滤波器进行滤波。

回声的消除则通常利用发出的声音作为参考信号，使用自适应滤波器进行回声消除。

现有技术进行语音增强时，对于不同类型的噪声需要使用不同的算法。在即时通信应用场景下，因为即时通信对声音时延要求较高，通常使用2-3种算法进行语音增强。而即使仅使用2-3种算法进行语音增强，耗时也大约需数十甚至近百毫秒，并且通常只能处理回声、周期性的干扰和高信噪比的声音信号。

而在实际应用中，在即时通信发生的场景中，比如汽车上、火车上、公共大厅、客厅、户外等各种不同的复杂场景，噪声类型非常多，采用2-3种算法进行语音增强，往往效果不佳，且耗时较长。

发明内容

本发明实施例提供一种语音增强方法、装置、介质和设备，用于优化语音增强效果，并减少语音增强所需时间。

一种语音增强方法，所述方法包括：

采集包括干扰信号和语音信号的第一语音时域信号；

对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；

利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；

将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号。

一种语音增强装置，所述装置包括：

采集模块，用于采集包括干扰信号和语音信号的第一语音时域信号；

语音增强模块，用于对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号。

一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述方法的步骤。

一种语音增强设备，包括收发器、总线接口、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现：

通过所述收发器采集包括干扰信号和语音信号的第一语音时域信号；并对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号。

本发明实施例中，将包括干扰信号和语音信号的第一语音时域信号，转换为第一时频二维语音信号，通过预先确定的神经网络模型，从中提取语音信号对应的频域特征和时域特征，得到第二时频二维语音信号，进而可以得到语音增强后的第二语音时域信号。在本发明实施例中，只要预先确定的神经网络模型经过了足够的训练，即可以准确提取出语音信号相关信息，去除各种类型的噪声干扰，优化语音增强效果。同时，由于只关注语音信号相关信息的提取，无需针对每种类型的噪声，分别采用不同的算法，还可以有效减少语音增强所需的时间。

附图说明

图1为本发明实施例一提供的语音增强方法的步骤流程图；

图2为本发明实施例二提供的神经网络模型训练步骤流程图；

图3为本发明实施例二提供的神经网络模型示意图；

图4为本发明实施例三提供的语音增强装置的结构示意图；

图5为本发明实施例五提供的语音增强设备的结构示意图。

具体实施方式

本发明实施例利用预先确定的神经网络模型，进行语音增强。相对于现有技术需要针对不同的噪声类型，分别采用不同的算法进行噪声干扰的消除，本发明无需识别和区分噪声干扰的类型，只关注语音信号相关信息的提取，只要在训练集中包含各种想要消除的干扰信号类型进行训练，神经网络模型即可以自动学习到针对各类型干扰信号的语音增强方法。因此仅通过预先确定的神经网络模型，即可以去除各种噪声干扰，如，周期性噪声、冲激噪声、宽带噪声、语音干扰和回声，得到优化的语音增强效果。且相对于采用多种算法进行语音增强，语音增强速度可以得到明显提升，对一帧语音时域信号的处理时间可以缩短到10ms左右。

下面结合说明书附图对本发明实施例作进一步详细描述。

实施例一

如图1所示，为本发明实施例一提供的语音增强方法流程图，该方法包括以下步骤：

步骤101、采集第一语音时域信号。

在本步骤中，可以采集包括干扰信号和语音信号的第一语音时域信号。

步骤102、信号预处理。

在本步骤中，可以对所述第一语音时域信号进行分帧、归一化等预处理操作。

具体的，在本步骤中，可以对所述第一语音时域信号进行分帧。例如，可以采用设定的采用频率，如16KHz进行采样。在进行分帧时，每帧可以包括设定的采样点数量，如256个。且帧移可以为指定的采样点数量，如128个。

步骤103、确定第一时频二维语音信号。

针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号。

短时傅里叶变换公式可以如下所示：

X(t,f)＝STFT(x(t))

其中，X(t,f)表示第一时频二维语音信号；

x(t)表示一帧第一语音时域信号。

步骤104、确定第二时频二维语音信号。

在本步骤中，可以利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号。

本步骤可以用公式表示如下：

其中：

表示第二时频二维语音信号；

h(X)表示预先确定好的神经网络模型；

X(t,f)表示第一时频二维语音信号。

步骤105、确定第二语音时域信号。

在本步骤中，可以将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号，即得到语音增强后的信号。

本步骤可以用公式表示如下：

其中，

表示第二语音时域信号；

表示第二时频二维语音信号。

下面通过实施例二对本发明实施例一涉及的神经网络模型的训练过程进行说明。

实施例二

本发明实施例二提供的神经网络模型训练步骤流程图可以如图2所示，包括以下步骤：

步骤201、确定第一样本时频二维语音信号。

在本步骤中，可以对预先采集的包括干扰信号和语音信号的第一样本语音时域信号进行分帧，具体的，分帧时，可以选择设置10～30ms为一帧，较佳的，本实施例中，可以选择设置16ms为一帧。将分帧后得到的每一帧第一样本语音时域信号进行短时傅里叶变换，得到第一样本时频二维语音信号。本步骤可以理解为获得包括噪音干扰的样本数据的时频信号，可以简要记为带噪时频信号。

步骤202、提取频域特征。

在本步骤中，可以利用卷积神经网络模型提取该第一样本语音时域信号中包括的语音信号对应的所述第一样本时频二维语音信号频域上的特征。

步骤203、时域连接。

在本步骤中，可以将提取得到的频域特征在时域上进行连接。具体的，可以理解为将提取的多通道特征在时间维度上进行连接。

步骤204、提取时域特征。

在本步骤中，可以根据所述频域特征在时域上进行连接的结果，通过循环神经网络模型学习信号在时域上的前后关联关系，提取对应的时域特征。

步骤205、确定第二样本时频二维语音信号。

在本步骤中，可以利用线性拟合模型，对提取到的所述时域特征进行线性拟合，得到第二样本时频二维语音信号。具体的，所述线性拟合模型可以基于线性激活函数实现。

步骤206、确定修正方差。

在本步骤中，可以确定该第二样本时频二维语音信号与样本纯净语音时域信号对应的时频二维语音信号(可以简要记为纯净时频信号)之间的方差，该样本纯净语音时域信号为预先采集的与所述第一样本语音时域信号中包括的语音信号相同的语音信号。当然，确定样本纯净语音时域信号对应的时频二维语音信号的方式与确定第二样本时频二维语音信号的方式类似，在此不再赘述。

方差确定公式可以表示如下：

其中，L表示确定出的方差；

X_i表示第二样本时频二维语音信号对应的二维矩阵中的第i个元素；

表示样本纯净语音时域信号对应的时频二维语音信号所对应的二维矩阵中的第i个元素。

如果该方差大于设定值，则利用所述方差修正所述线性拟合模型对应的参数、所述卷积神经网络模型对应的参数以及所述循环神经网络模型对应的参数，并可以继续返回执行步骤201，从而利用样本数据继续训练神经网络模型。否则，如果该方差不大于设定值，则可以认为神经网络模型训练完毕，将此时对应的线性拟合模型作为预先确定出的线性拟合模型，将此时对应的卷积神经网络模型作为预先确定出的卷积神经网络模型，将此时对应的循环神经网络模型作为预先确定出的循环神经网络模型，从而得到预先确定出的神经网络模型。

本发明实施例二提供的神经网络模型示意图可以如图3所示，包括卷积神经网络模型层、连接层、循环神经网络模型层和线性回归模型层。步骤202可以理解为通过卷积神经网络模型层实现，步骤203可以理解为通过连接层实现，步骤204可以理解为通过循环神经网络模型层实现，步骤205可以理解为通过线性回归模型层实现。

训练好的神经网络模型的应用过程，即实施例一中的步骤104可以具体包括：

利用预先确定好的卷积神经网络模型提取所述语音信号对应的所述第一时频二维语音信号频域上的特征；

将提取得到的频域特征在时域上进行连接；

根据所述频域特征在时域上进行连接的结果，通过预先确定好的循环神经网络模型提取对应的时域特征；

通过预先确定好的线性拟合模型，对提取到的所述时域特征进行线性拟合，得到第二时频二维语音信号。

本发明提供了一种基于深度学习实现语音增强的方法。深度学习要建立神经网络模型，训练阶段需要准备大量标记好的样本数据。例如：可以选取主流报刊媒体等设定数量，如500个语句，尽可能包含所有的发声，再选取指定数量，如100位不同的人进行朗读，作为样本纯净语音时域信号，可以简单记为纯净语音信号。然后再选取公共场景、交通、工作场景、咖啡厅等多种生活常见噪音，与样本纯净语音时域信号进行交叉合成，得到样本语音时域信号，可以简单记为带噪音的语音信号。纯净语音信号与带噪音的语音信号一一匹配作为标记好的数据。将这些数据随机打乱，并可以选取其中80％作为训练集进行神经网络模型训练，另外20％作为验证集用于验证神经网络模型的训练结果。将带噪音的语音信号的采样点数据作为输入送入神经网络模型，对应时刻的纯净语音信号的采样点数据作为神经网络模型的输出，对神经网络模型进行训练，获得预先确定的神经网络模型。最后可以将训练好的神经网络模型导出运用。

本发明方案只需要使用人对信号处理科学有基础的了解即可，不像传统的语音增强处理方法需要人员对信号处理专业知识了解非常深入，从而也极大地降低了语音增强的应用门槛。

基于同一发明构思，本发明实施例中还提供了一种与语音增强方法对应的装置、介质和设备，由于该装置、介质和设备解决问题的原理与本发明实施例一提供的方法相似，因此该装置、介质和设备的实施可以参见方法的实施，重复之处不再赘述。

实施例三

如图4所示，为本发明实施例三提供的语音增强装置的结构示意图，该装置包括：

采集模块11用于采集包括干扰信号和语音信号的第一语音时域信号；

语音增强模块12用于对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号。

所述语音增强模块12用于利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号，包括：

将提取得到的频域特征在时域上进行连接；

所述神经网络模型通过以下方式确定：

对预先采集的包括干扰信号和语音信号的第一样本语音时域信号进行分帧，将分帧后得到的每一帧第一样本语音时域信号进行短时傅里叶变换，得到第一样本时频二维语音信号；

利用卷积神经网络模型提取该第一样本语音时域信号中包括的语音信号对应的所述第一样本时频二维语音信号频域上的特征；

将提取得到的频域特征在时域上进行连接；

根据所述频域特征在时域上进行连接的结果，通过循环神经网络模型提取对应的时域特征；

利用线性拟合模型，对提取到的所述时域特征进行线性拟合，得到第二样本时频二维语音信号；

确定该第二样本时频二维语音信号与样本纯净语音时域信号对应的时频二维语音信号之间的方差，该样本纯净语音时域信号为预先采集的与所述第一样本语音时域信号中包括的语音信号相同的语音信号；

如果该方差大于设定值，则利用所述方差修正所述线性拟合模型对应的参数、所述卷积神经网络模型对应的参数以及所述循环神经网络模型对应的参数，并继续利用参数修正后的线性拟合模型、卷积神经网络模型以及循环神经网络模型确定第二样本语音时域信号，直至所述方差不大于所述设定值，将此时对应的线性拟合模型作为预先确定出的线性拟合模型，将此时对应的卷积神经网络模型作为预先确定出的卷积神经网络模型，将此时对应的循环神经网络模型作为预先确定出的循环神经网络模型。

实施例四

本发明实施例四提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现本发明实施例一所述方法的步骤。

实施例五

如图5所示，为本发明实施例五提供的语音增强设备的结构示意图，该设备包括收发器21、总线接口、存储器22、处理器23及存储在存储器22上的计算机程序，所述处理器23执行所述程序时实现：

通过所述收发器21采集包括干扰信号和语音信号的第一语音时域信号；并对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

采集包括干扰信号和语音信号的第一语音时域信号；

将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号；

所述神经网络模型通过以下方式确定：

将提取得到的频域特征在时域上进行连接；

2.如权利要求1所述的方法，其特征在于，利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号，包括：

将提取得到的频域特征在时域上进行连接；

3.一种语音增强装置，其特征在于，所述装置包括：

语音增强模块，用于对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号；

所述神经网络模型通过以下方式确定：

将提取得到的频域特征在时域上进行连接；

4.如权利要求3所述的装置，其特征在于，所述语音增强模块，用于利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号，包括：

将提取得到的频域特征在时域上进行连接；

5.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～2任一所述方法的步骤。

6.一种语音增强设备，其特征在于，包括收发器、总线接口、存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现：

通过所述收发器采集包括干扰信号和语音信号的第一语音时域信号；并对所述第一语音时域信号进行分帧，针对每一帧第一语音时域信号，进行短时傅里叶变换，得到第一时频二维语音信号；利用预先确定好的神经网络模型，提取所述第一时频二维语音信号包括的语音信号对应的频域特征和时域特征，得到第二时频二维语音信号；将所述第二时频二维语音信号进行反向短时傅里叶变换，得到第二语音时域信号；

所述神经网络模型通过以下方式确定：

将提取得到的频域特征在时域上进行连接；