CN117894306A

CN117894306A - 一种语音处理方法、装置、计算机设备及存储介质

Info

Publication number: CN117894306A
Application number: CN202410304656.6A
Authority: CN
Inventors: 韦伟才; 邓海蛟; 马健莹; 潘晖
Original assignee: Shenzhen Longxinwei Semiconductor Technology Co ltd
Current assignee: Shenzhen Longxinwei Semiconductor Technology Co ltd
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-04-16
Anticipated expiration: 2044-03-18
Also published as: CN117894306B

Abstract

本申请实施例属于语音增强技术领域，涉及一种语音处理方法、装置、计算机设备及存储介质。本申请使用数据预处理的方式通过有限脉冲数据对输入数据进行混响卷积并做数字滤波；再进行预加重、分帧加窗以及短时傅里叶变换；使用深度学习算法对变换后的数据进行处理，使用卷积网络进行特征提取，然后构建时间卷积网络（TCN）模型，通过构建的模型得到掩码数据，最后将得到的掩码数据与原始信号进行增益计算，将计算后的结果通过逆短时傅里叶变换、加窗以及重构得到增强后的语音信号，通过使用深度学习的方式能够将语音降噪与去混响进行有效的结合，有效提高语音音质。

Description

一种语音处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音增强技术领域，尤其涉及一种语音处理方法、装置、计算机设备及存储介质。

背景技术

语音作为人类交流信息的主要手段之一，语音降噪和去混响一直在语音信号处理中占据着重要的地位。在真实环境中，语音信号往往会同时包含混响和噪声，会严重影响语音的质量和可懂度，同时对语音识别和声纹识别系统的性能影响也比较大。因此，语音去混响和降噪就显得很重要。为了解决语音去混响问题，在过去的多年很多方法也被提出来。加权预测误差(WPE)算法在信号层面处理语音去混响，即延时线性预测。WPE首先通过多个历史帧得到与频率相关的线性预测滤波器。然后在子带域从原始混响信号中减去滤波后的信号，得到增强信号。但是，当噪声和混响同时存在时，WPE算法的性能会受到严重的影响，制约着该方法的应用。

现有一种语音噪声和去混响的方法，即通过深度学习的语音去混响方法通过训练语音去混响模型，建立混合语音特征参数与目标干净语音信号的特征参数之间的映射关系，这样对于任意输入的混合语音信号都可以通过建立的去混模型来输出目标干净语音信号，从而达到语音去混响的目的。

然而，申请人发现，传统的语音噪声和去混响方法仅仅使用幅值谱作为特征，不具有区分性，限制着语音去混响的性能。在语音同时包含噪声和混响的情况下，增强后的语音音质无法保证，由此可见，传统的语音噪声和去混响方法存在语音音质较低的问题。

发明内容

本申请实施例的目的在于提出一种语音处理方法、装置、计算机设备及存储介质，以解决传统的语音噪声和去混响方法存在语音音质较低的问题。

为了解决上述技术问题，本申请实施例提供一种语音处理方法，采用了如下所述的技术方案：

获取待处理的原始语音数据；

将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；

对所述纯净语音数据进行混响卷积处理，得到混响语音数据；

将所述混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；

对所述带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；

将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；

将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；

分别对所述变换语音数据、所述带噪语音特征以及所述预测语音数据进行点乘运算，得到增益语音数据；

对所述增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。

进一步的，所述将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据的步骤，具体包括下述步骤：

通过数字滤波FIR对所述原始语音数据进行线性加权处理，得到所述纯净语音数据。

进一步的，在所述将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征的步骤之前，还包括下述步骤：

对所述变换语音数据进行预加重处理，得到高信噪比数据；

对所述高信噪比数据进行分帧加窗以及短时傅里叶变换处理，得到转换后的复数值；

将所述复数值的实部与虚部进行形状转换以及拼接处理，并将拼接处理后的复数值输入至批量归一化层进行归一化处理。

进一步的，所述卷积神经网络由第一模块以及第二模块组成，其中，所述第一模块包括第一卷积层、所述批量归一化层以及PReLu激活层，所述第一卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为32，所述第二模块包括第二卷积层、所述批量归一化层以及PReLu激活层，所述第二卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为64。

进一步的，在所述将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据的步骤之前，还包括下述步骤：

调用初始时间卷积网络模型；

将所述带噪语音特征输入至所述初始时间卷积网络模型，并使用信号失真率（SDR）与信噪比（SNR）结合作为损失函数对所述初始时间卷积网络模型进行模型训练操作，得到所述训练好的时间卷积网络模型。

进一步的，所述模型训练操作根据以下公式来更新权重和偏置：

其中，/>表示学习率，/>表示损失函数对第l层中第i个节点和第（i,j）个权重的偏导数，/>表示损失函数对第l层中第i个节点的偏置项的偏导数。

为了解决上述技术问题，本申请实施例还提供一种语音处理装置，采用了如下所述的技术方案：

数据获取模块，用于获取待处理的原始语音数据；

预处理模块，用于将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；

混响卷积模块，用于对所述纯净语音数据进行混响卷积处理，得到混响语音数据；

混合模块，用于将所述混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；

第一变换模块，用于对所述带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；

特征提取模块，用于将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；

预测模块，用于将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；

点乘运算模块，用于分别对所述变换语音数据、所述带噪语音特征以及所述预测语音数据进行点乘运算，得到增益语音数据；

目标生成模块，用于对所述增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。

进一步的，所述预处理模块包括：

预处理子模块，用于通过数字滤波FIR对所述原始语音数据进行线性加权处理，得到所述纯净语音数据。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的语音处理方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的语音处理方法的步骤。

本申请提供了一种语音处理方法，包括：获取待处理的原始语音数据；将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；对所述纯净语音数据进行混响卷积处理，得到混响语音数据；将所述混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；对所述带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；分别对所述变换语音数据、所述带噪语音特征以及所述预测语音数据进行点乘运算，得到增益语音数据；对所述增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。与现有技术相比，本申请使用卷积神经网络对进行短时傅里叶变换后的数据进行处理，能够利用卷积神经网络从此时转换后的数据中提取出更多且高级抽象的特征，相对于传统特征而言具有更大的数据表达能力且不需要人工进行特征提取。这些提取出的数据极大的有利于模型的学习效率以及泛化能力；同时，本申请使用了训练好的时间卷积网络模型，能并行处理时间序列数据，从而大大减少了训练时间，其次，传统的循环神经网络（RNN）在处理长序列数据时会出现梯度消失/爆炸问题和难以捕捉长期依赖性的问题。 TCN通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效地扩展了感受野。这使得TCN能够轻松地处理长序列数据，并从中提取相关信息；还有一点是，TCN与传统的卷积神经网络（CNN）非常类似，因此易于实现和调试。同时，由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是本申请实施例一提供的语音处理方法的实现流程图；

图3是本申请实施例二提供的语音处理装置的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的语音处理方法一般由服务器/终端设备执行，相应地，语音处理装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的语音处理方法的一个实施例的流程图。所述的语音处理方法，包括：步骤S201、步骤S202、步骤S203、步骤S204、步骤S205、步骤S206、步骤S207、步骤S208以及步骤S209。

在步骤S201中，获取待处理的原始语音数据。

在步骤S202中，将原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据。

在本申请实施例中，为了对进一步提升降噪效果提升模型的泛化能力，对语音进行的预处理，首先对原始纯净语音通过数字滤波器进行处理，并将纯净语音进行混响卷积后作为模型训练的原始数据，一方面，能够有效的过滤一些无效的语音数据，避免对于后续模型训练的干扰；另一方面通过将数据进行混响计算将训练数据变为带混响的数据，纯净语音将作为标签数据，通过这样处理的数据将能够起到在模型训练后降噪与去混响的作用。

在步骤S203中，对纯净语音数据进行混响卷积处理，得到混响语音数据。

在步骤S204中，将混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据。

在步骤S205中，对带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据。

在本申请实施例中，将训练数据通过不同信噪比进行混合得到固定长度的带噪语音，随机提取对其进行短时傅里叶变换，提取出实值和虚值并组合一起作为卷积网络的输入数据，卷积神经网络由两层卷积组成都有连接批量归一化层(BN)与PReLu激活层，通过卷积神经网络进行特征的提取，相对于使用人工特征提取的方式，使用卷积无疑能够提取出更多信息。

在步骤S206中，将变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征。

在步骤S207中，将带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据。

在本申请实施例中，构建时间卷积网络，将通过卷积网络提取后的数据转换形状后作为时间卷积网络的输入，在模型的构建中使用因果空洞卷积（Causal DilatedConvolution）作为主要组成部分。通过残差结构进行连接，每个残差块由因果空洞卷积、激活层、归一化以及Dropout层组成。因果空洞卷积是一种能够在卷积神经网络中扩大感受野的技术，它可以增加网络的有效范围并维持其计算效率，并且结合因果卷积的特性使其能够处理序列数据，卷积的输出只依赖于过去的输入，而不是未来的输入。这种限制使得因果卷积在处理序列数据时更加稳定和可靠。

在步骤S208中，分别对变换语音数据、带噪语音特征以及预测语音数据进行点乘运算，得到增益语音数据。

在步骤S209中，对增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。

在本申请实施例中，通过将卷积网络与时间卷积网络得到的结果与初始短时傅里叶变换得到的结果进行分别点乘运算得到最后的增益结果，再通过逆短时傅里叶变换、加窗以及信号重构之后，得到最终的结果，完成语音降噪与去混响。

在本申请实施例中，提供了一种语音处理方法，包括：获取待处理的原始语音数据；将原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；对纯净语音数据进行混响卷积处理，得到混响语音数据；将混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；对带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；将变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；将带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；分别对变换语音数据、带噪语音特征以及预测语音数据进行点乘运算，得到增益语音数据；对增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。与现有技术相比，本申请使用卷积神经网络对进行短时傅里叶变换后的数据进行处理，能够利用卷积神经网络从此时转换后的数据中提取出更多且高级抽象的特征，相对于传统特征而言具有更大的数据表达能力且不需要人工进行特征提取。这些提取出的数据极大的有利于模型的学习效率以及泛化能力；同时，本申请使用了训练好的时间卷积网络模型，能并行处理时间序列数据，从而大大减少了训练时间，其次，传统的循环神经网络（RNN）在处理长序列数据时会出现梯度消失/爆炸问题和难以捕捉长期依赖性的问题。 TCN通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效地扩展了感受野。这使得TCN能够轻松地处理长序列数据，并从中提取相关信息；还有一点是，TCN与传统的卷积神经网络（CNN）非常类似，因此易于实现和调试。同时，由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

在本实施例的一些可选的实现方式中，步骤S202具体包括：步骤S301。

在步骤S301中，通过数字滤波FIR对原始语音数据进行线性加权处理，得到纯净语音数据。

在本申请实施例中，FIR数字滤波器将一组离散时间序列数据作为输入，通过一组预先设计好的滤波器系数进行卷积运算得到输出序列，对于不同采样率的语音数据系数会有区别，从而实现对输入信号的滤波作用。可以滤除输入信号中的噪声和干扰信号，从而提高信号质量和精度，可以调整输出信号的频率响应曲线，使其更加符合要求的目标特征，也可以改变信号形态。

在本实施例的一些可选的实现方式中，在步骤S205之后，步骤S206之前，还包括：步骤S401、步骤S402以及步骤S403。

在步骤S401中，对变换语音数据进行预加重处理，得到高信噪比数据；

在步骤S402中，对高信噪比数据进行分帧加窗以及短时傅里叶变换处理，得到转换后的复数值；

在步骤S403中，将复数值的实部与虚部进行形状转换以及拼接处理，并将拼接处理后的复数值输入至批量归一化层进行归一化处理。

在本申请实施例中，针对卷积神经网络输入数据，首先进行对数据进行预加重，提升信号在高频部分的信噪比；通过分帧加窗后进行短时傅里叶变换，这时将得到的是转换后的复数值，为了后续的特征提取，将其中的实部与虚部提取出来后进行形状转换并拼接到一起并通过批量归一化层（BN）进行归一化处理。

在本实施例的一些可选的实现方式中，卷积神经网络由第一模块以及第二模块组成，其中，第一模块包括第一卷积层、批量归一化层以及PReLu激活层，第一卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为32，第二模块包括第二卷积层、批量归一化层以及PReLu激活层，第二卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为64。

在本申请实施例中，构建卷积神经网络，首先构建第一个卷积层，卷积的核使用大小为（2,3），步长为（1,2），卷积核数量为32；卷积后连接批量归一化层，起到加速训练，提高模型泛华能力并具有一定的正则化效果；然后连接PReLu激活层，它相对ReLu具有更强的泛华能力，更好的稀疏性以及参数共享能力。上述为卷积网络的第一个模块，第二个模块采用相同的结构只是卷积层的卷积核数量为64个，用于提取出更多的信息。

在本实施例的一些可选的实现方式中，在步骤S206之后，步骤S207之前，还包括：步骤S601以及步骤S602。

在步骤S601中，调用初始时间卷积网络模型；

在步骤S602中，将带噪语音特征输入至初始时间卷积网络模型，并使用信号失真率（SDR）与信噪比（SNR）结合作为损失函数对初始时间卷积网络模型进行模型训练操作，得到训练好的时间卷积网络模型。

在本申请实施例中，将卷积后的数据经过形状转换后连接时间卷积网络模块，因果空洞卷积，由因果卷积结合空洞卷积而成。普通的卷积在进行 2 像素移动时，两个半径相交的区域会重复计算，并没有真正扩大感受野。但是在膨胀卷积中，每隔若干像素跳过中间的卷积核，这样就可以同时涵盖更多的空间外观信息，扩大了网络的感受野。而因果卷积则是加入时间轴的限制，即卷积的输出只依赖于过去的输入，而不是未来的输入。时间卷积快由两个残差块组成，每个残差块中有两个因果空洞卷积、归一化层、激活层以及Dropout层，如果输入通道的数量与扩张因果卷积的输出通道数量（第二个扩张卷积的过滤器数量）不同，则在首尾连接时有一个可选的 1x1 卷积；

反向传播过程中的整个网络的损失函数，根据输入的数据特性以及时间卷积网络的作用，使用信号失真率（SDR）与信噪比（SNR）结合作为损失函数，它相比常用的对数均方误差损失等其他损失函数都要好，通过前向计算得到的结果作为损失函数的输入得到损失值，而反向计算的过程就是使损失最小化；

卷积神经网络与时间卷积网络的梯度更新，根据前向传播的结果计算误差，通过设计好的损失函数将标签指与前向计算结果带入其中得到误差值，反向传播误差是计算每一层的误差贡献并更新权重的过程。具体来说，我们需要先计算出每一层对总误差的贡献，然后依次求取该层中每个节点的误差，并用随机梯度下降法来更新该层的权重和偏置。最后是更新参数，在计算出每一层的误差后，我们就可以使用梯度下降法来更新网络中的权重和偏置了；

经过多次迭代训练或者满足训练条件后输出最终的模型文件，通过不断地进行前向传播、计算误差和反向传播，时间卷积网络与卷积神经网络就能够逐渐优化网络，提高其在训练数据上的表现。

在本实施例的一些可选的实现方式中，模型训练操作根据以下公式来更新权重和偏置：

在本实施例的一些可选的实现方式中，关于时间卷积网络模型的反向传播：

我们需要使用反向传播算法将梯度从输出层逐一传递回输入层。对于每个卷积块，步骤如下：

1）计算当前层对损失函数的梯度：假设我们要计算第k个卷积块的梯度，该卷积块包括一个1D卷积层和一个残差块。首先，我们需要计算这个卷积块输出的张量对损失函数L的偏导数/>。根据链式法则，有：

其中，/>表示卷积层的偏导数，可以通过卷积操作实现：其中，/>是卷积层的权重矩阵。

2）传递梯度至前一卷积块：我们把作为输入张量x，用与1中相同的方式，通过卷积层传递梯度至前一卷积块的输出张量/>。然后，我们将/>于残差块/>相加，得到当前卷积块的最终输出/>：

3）更新卷积层的权重和偏置：根据计算出的对损失函数L的偏导数，可以使用常规的梯度下降法或者其变体来更新当前卷积块中的卷积层权重和偏置。例如，可以使用随机梯度下降（SGD）算法，并在每次迭代中更新权重和偏置，如下所示：/>其中，/>是学习率，用于控制每次更新的步长大小。

4）残差连接：在TCN中，还有一种叫做“残差连接”的技术，可以帮助加速反向传播过程。残差连接允许跨越多个卷积块传递梯度，而不是仅在相邻的两个卷积块之间传递。这有助于减少梯度消失的风险，并使反向传播更容易。

5）更新输入层的权重和偏置：在完成了所有卷积块的反向传播和参数更新之后，我们执行最后一步，即更新输入层（即第一个卷积块）的权重和偏置。该过程与卷积块的反向传播过程相同。

在时间卷积网络模型中的损失函数主要使用的是信号失真率（SDR）与信噪比（SNR）：

其中：

其中，M(t,f)为实际前向计算得到的掩码值，Y(t,f)为实际的输入值，为掩码实数值，/>为掩码虚值，s为实际值，/>为模型增益计算后的逆傅里叶变换结果，/>为信号的有效功率，/>为残余噪声的功率，/>其值为0.6，/>为0.4。我们定义残余噪声r(n)为降噪后的语音信号d(n)和原始纯净语音信号s(n)之间的误差:

然后，我们计算语音信号的有效功率和残余噪声的功率/>

其中，N表示采样点数目。在公式中使用的来表示SNR，以便更容易地评估语音信号和噪声之间的关系。通常情况下，如果两个信号的SNR之间的差距为3 dB，则一个信号的功率是另一个信号的两倍。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种语音处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例的语音处理装置200包括：数据获取模块210、预处理模块220、混合模块240、第一变换模块250、特征提取模块260、预测模块270、点乘运算模块280以及目标生成模块290。其中：

数据获取模块210，用于获取待处理的原始语音数据；

预处理模块220，用于将原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；

混响卷积模块230，用于对纯净语音数据进行混响卷积处理，得到混响语音数据；

混合模块240，用于将混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；

第一变换模块250，用于对带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；

特征提取模块260，用于将变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；

预测模块270，用于将带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；

点乘运算模块280，用于分别对变换语音数据、带噪语音特征以及预测语音数据进行点乘运算，得到增益语音数据；

目标生成模块290，用于对增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。

在本实施例中，提供了一种语音处理装置200，包括：数据获取模块210，用于获取待处理的原始语音数据；预处理模块220，用于将原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；混响卷积模块230，用于对纯净语音数据进行混响卷积处理，得到混响语音数据；混合模块240，用于将混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；第一变换模块250，用于对带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；特征提取模块260，用于将变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；预测模块270，用于将带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；点乘运算模块280，用于分别对变换语音数据、带噪语音特征以及预测语音数据进行点乘运算，得到增益语音数据；目标生成模块290，用于对增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。与现有技术相比，本申请使用卷积神经网络对进行短时傅里叶变换后的数据进行处理，能够利用卷积神经网络从此时转换后的数据中提取出更多且高级抽象的特征，相对于传统特征而言具有更大的数据表达能力且不需要人工进行特征提取。这些提取出的数据极大的有利于模型的学习效率以及泛化能力；同时，本申请使用了训练好的时间卷积网络模型，能并行处理时间序列数据，从而大大减少了训练时间，其次，传统的循环神经网络（RNN）在处理长序列数据时会出现梯度消失/爆炸问题和难以捕捉长期依赖性的问题。 TCN通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效地扩展了感受野。这使得TCN能够轻松地处理长序列数据，并从中提取相关信息；还有一点是，TCN与传统的卷积神经网络（CNN）非常类似，因此易于实现和调试。同时，由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

在本实施例的一些可选的实现方式中，上述预处理模块220包括：预处理子模块，其中：

预处理子模块，用于通过数字滤波FIR对原始语音数据进行线性加权处理，得到纯净语音数据。

在本实施例的一些可选的实现方式中，上述语音处理装置200还包括：预加重模块、第二变换模块以及拼接模块，其中：

预加重模块，用于对变换语音数据进行预加重处理，得到高信噪比数据；

第二变换模块，用于对高信噪比数据进行分帧加窗以及短时傅里叶变换处理，得到转换后的复数值；

拼接模块，用于将复数值的实部与虚部进行形状转换以及拼接处理，并将拼接处理后的复数值输入至批量归一化层进行归一化处理。

在本实施例的一些可选的实现方式中，上述卷积神经网络由第一模块以及第二模块组成，其中，第一模块包括第一卷积层、批量归一化层以及PReLu激活层，第一卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为32，第二模块包括第二卷积层、批量归一化层以及PReLu激活层，第二卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为64。

在本实施例的一些可选的实现方式中，上述语音处理装置200还包括：初始模型调用模块以及模型训练模块，其中：

初始模型调用模块，用于调用初始时间卷积网络模型；

模型训练模块，用于将带噪语音特征输入至初始时间卷积网络模型，并使用信号失真率（SDR）与信噪比（SNR）结合作为损失函数对初始时间卷积网络模型进行模型训练操作，得到训练好的时间卷积网络模型。

在本实施例的一些可选的实现方式中，上述模型训练操作根据以下公式来更新权重和偏置：

其中，表示学习率，/>表示损失函数对第l层中第i个节点和第（i,j）个权重的偏导数，/>表示损失函数对第l层中第i个节点的偏置项的偏导数。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如语音处理方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述语音处理方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请提供的计算机设备，使用卷积神经网络对进行短时傅里叶变换后的数据进行处理，能够利用卷积神经网络从此时转换后的数据中提取出更多且高级抽象的特征，相对于传统特征而言具有更大的数据表达能力且不需要人工进行特征提取。这些提取出的数据极大的有利于模型的学习效率以及泛化能力；同时，本申请使用了训练好的时间卷积网络模型，能并行处理时间序列数据，从而大大减少了训练时间，其次，传统的循环神经网络（RNN）在处理长序列数据时会出现梯度消失/爆炸问题和难以捕捉长期依赖性的问题。 TCN通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效地扩展了感受野。这使得TCN能够轻松地处理长序列数据，并从中提取相关信息；还有一点是，TCN与传统的卷积神经网络（CNN）非常类似，因此易于实现和调试。同时，由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的语音处理方法的步骤。

本申请提供的计算机可读存储介质，使用卷积神经网络对进行短时傅里叶变换后的数据进行处理，能够利用卷积神经网络从此时转换后的数据中提取出更多且高级抽象的特征，相对于传统特征而言具有更大的数据表达能力且不需要人工进行特征提取。这些提取出的数据极大的有利于模型的学习效率以及泛化能力；同时，本申请使用了训练好的时间卷积网络模型，能并行处理时间序列数据，从而大大减少了训练时间，其次，传统的循环神经网络（RNN）在处理长序列数据时会出现梯度消失/爆炸问题和难以捕捉长期依赖性的问题。TCN通过使用一组可堆叠的1D卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效地扩展了感受野。这使得TCN能够轻松地处理长序列数据，并从中提取相关信息；还有一点是，TCN与传统的卷积神经网络（CNN）非常类似，因此易于实现和调试。同时，由于TCN的结构不是递归的，因此通常比RNN更容易并行化和优化。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种语音处理方法，其特征在于，包括下述步骤：

获取待处理的原始语音数据；

2.根据权利要求1所述的语音处理方法，其特征在于，所述将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据的步骤，具体包括下述步骤：

3.根据权利要求1所述的语音处理方法，其特征在于，在所述将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征的步骤之前，还包括下述步骤：

对所述变换语音数据进行预加重处理，得到高信噪比数据；

4.根据权利要求3所述的语音处理方法，其特征在于，所述卷积神经网络由第一模块以及第二模块组成，其中，所述第一模块包括第一卷积层、所述批量归一化层以及PReLu激活层，所述第一卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为32，所述第二模块包括第二卷积层、所述批量归一化层以及PReLu激活层，所述第二卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为64。

5.根据权利要求1所述的语音处理方法，其特征在于，在所述将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据的步骤之前，还包括下述步骤：

调用初始时间卷积网络模型；

6.根据权利要求5所述的语音处理方法，其特征在于，所述模型训练操作根据以下公式来更新权重和偏置：

7.一种语音处理装置，其特征在于，包括：

数据获取模块，用于获取待处理的原始语音数据；

8.根据权利要求7所述的语音处理装置，其特征在于，所述预处理模块包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的语音处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的语音处理方法的步骤。