CN111354367B

CN111354367B - 一种语音处理方法、装置及计算机存储介质

Info

Publication number: CN111354367B
Application number: CN201811584421.8A
Authority: CN
Inventors: 潘昕; 高莹莹; 刘勇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-06-23
Anticipated expiration: 2038-12-24
Also published as: CN111354367A

Abstract

本发明实施例提供了一种语音处理方法、装置及计算机存储介质，其中方法包括：对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；其中，所述生成模型用于进行去噪处理，为包含有至少N个卷积层的网络。

Description

一种语音处理方法、装置及计算机存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种语音处理方法、装置以及计算机存储介质。

背景技术

语音是传递信息的重要手段，在一段语音中承载了用户说话的内容以及情绪等丰富信息。语音可以通过多种媒介进行传播、或者通过多种方式进行采集，但是在语音的传播或采集的过程中，可能会由于采集或传输设备的限制使得语音中存在较多的噪音，并且含有较大噪音的语音会影响用户的听觉器官，因此，如何对语音中的噪音进行处理就尤为重要。

发明内容

为解决上述技术问题，本发明实施例提供了一种语音处理方法、装置以及计算机存储介质。

第一方面，提供了一种语音处理方法，包括：

对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；

基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

所述生成模型用于进行去噪处理，为包含有至少N个卷积层的网络，N为大于等于11的整数，并且，所述生成模型中当生成模型中第m+1层的卷积核小于第m层的卷积核时，第m+2层的输出特征通道数量为第m+1层的输出特征特征通道的预设倍数；以及当所述生成模型中第i-1层的卷积核小于第i层的卷积核时，第i-2层的输出的特征通道数量为第i-1层的输出的特征通道数量的预设倍数，其中，i为大于等于N且小于2N的整数。

第二方面，提供了一种语音处理装置，包括：

预处理单元，用于对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；

训练单元，用于基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

第三方面，提供了一种语音处理装置，包括：

通信接口，用于获取输入的带噪语音信息以及标注数据；

处理器，用于对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

第四方面，提供了一种计算机存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本发明实施例的技术方案，就能够将生成模型的层数设置的高于现有技术中的层数，由于训练后的生成模型的层数更多，因此使得训练后的生成模型具备更高的去噪能力，从而保证了针对语音的去噪处理效果，提升了用户的使用体验。

附图说明

图1是本申请实施例提供的一种语音处理方法流程示意图一。

图2是本申请实施例提供的一种生成模型示意图。

图3为本发明实施例提供的一种语音处理方法流程示意图二；

图4为本发明实施例提供的一种处理结果对比示意图；

图5为本发明实施例提供的一种装置组成结构示意图一；

图6为本发明实施例提供的一种装置组成结构示意图二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本发明实施例提供了一种语音处理方法，所述方法包括：

步骤101：对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；

步骤102：基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

所述生成模型用于进行去噪处理，为包含有至少N个卷积层的网络，N为大于等于11的整数，并且，当生成模型中第m+1层的卷积核小于第m层的卷积核时，第m+2层的输出特征通道数量为第m+1层的输出特征特征通道的预设倍数；以及当所述生成模型中第i-1层的卷积核小于第i层的卷积核时，第i-2层的输出的特征通道数量为第i-1层的输出的特征通道数量的预设倍数，其中，i为大于等于N且小于2N的整数。

本实施例提供的方案能够应用于具备处理功能的装置中，比如，可以为GPU，当然还可以为其他装置，只是这里不再穷举。

本实施例中，所述生成模型以及判别模型为一种生成式对抗网络(GAN，Generative Adversarial Networks)，所述GAN是一种深度学习模型。模型通过框架中两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。具体来说，本实施例可以采用SEGAN，其中G网络和D网络均由两个深度神经网络构成。其中G可以达到对语音去噪的效果，D用于进行样本的判断其来自真实数据或是生成器产生的假数据。将最原始的语音数据经过分段加窗的处理后，连续的语音被裁剪为了很短的语音段。每个语音段直接被放入由G和D组成的GAN中，最后输出经过去噪的干净语音。

相比现有技术方案，本申请使用了更为复杂的网络作为G和D。在现有技术方案中使用5层的1维卷积对语音段进行计算。我们知道神经网络具有学习能力是因为非线性的引入所带来的，那么更深的网络会带来去噪能力上的提升。在本申请提案中，融合Resnet和VGGNet的特点设计了一个N层的网络作为G和D进行数据的去噪，其中N优选的可以为11层，并且尝试将现阶段领先的激活函数引入网络中。GAN中的G其实和解码器的作用是一样的。它将输入数据经过解码和编码之后的到干净噪声，放入D进行判断。在训练过程中网络参数不断更新，G和D不断博弈，从而完成网络的训练最终得到去噪能力。如图2所示，其中左图为本提案网络结构，右图为SEGAN网络结构。

语音增强问题是由输入含噪信号得到增强信号，这种方法通过语音增强GAN实现，其中生成模型用于增强。它的输入是含噪语音信号和潜在表征信号，输出是增强后的信号。将生成器设计为全部是卷积层(没有全连接层)，这么做可以减少训练参数从而缩短了训练时间。生成模型的一个重要特点是端到端结构，直接处理原始语音信号，避免了通过中间变换提取声学特征。在训练过程中，鉴别器负责向生成器发送输入数据中真伪信息，使得生成器可以将其输出波形朝着真实的分布微调，从而消除干扰信号。

在数据准备阶段，一般的带噪语音都是人为产生的，即利用干净语音人为融合各种噪声产生带噪语音，利用带噪语音和干净语音的平行对齐关系完成后续的实验。本方法在训练阶段使用的带噪语音就是基于该方法产生的。

下面结合图3，介绍本申请的实现流程：语音切分；网络设计；网络训练；带噪语音去噪这四个部分组成。具体来说：

语音切分

首先将输入的带噪语音和干净语音(标注数据)切分为固定长度的短音频，并且可以选择加窗。这样做可以方便网络的训练而且效率高。

网络设计

GAN提供了一种端到端处理音频的方式，即不需要人工设计特征，而且处理音频的长度不再是网络结构设计的限制，在去掉全连接层之后网络的参数量大幅度减少。这样做可以有效较少网络可训练参数的数量，提升网络的训练速度。在去噪阶段，针对相同数量的音频进行去噪所需要的时间也大幅减少。

相比现有技术方法，本申请提案对网络结构进行了改进。

在融合ResNet和VGGNet的思路以及PRelu激活函数引入到网络之后，新的网络结构如表1所示。网络结构如此设计是因为在较浅的卷积层，网络学习到的特征是通用的浅层特征。而在网络的更深层次，因为加入了很多非线性，特征所在的维度很高，所以这时网络学习到的是具有判别性的特征，而具有判别性的特征对于不同的物体是不一样的，因此网络较深层的神经元数量相比浅层会大很多。当网络继续深入，由于要进行解码的工作，因此网络的参数量需要下降，一是为了提高速度，二是为了将数据降维利于解码(去噪)的计算。本网络基于上述思想进行设计，在测试数据上进行了多次网络参数调整后，得到了现有网络结构作为最好的结果。由于使用了端到端的网络结构，因此在G中的解码阶段完成后，可以使用反卷积和上采样将输入的音频恢复到输入音频的尺度和长度。虽然网络层数变深了但是网络的参数提升并不多，而且提升了G网络的能力。D作为判别器，并不需要由一个网络构成。

所述生成模型用于进行去噪处理，为包含有至少N个卷积层的网络，N为大于等于11的整数，并且，当生成模型中第m+1层的卷积核小于第m层的卷积核时，第m+2层的输出特征通道数量为第m+1层的输出特征特征通道的预设倍数；以及当所述生成模型中第i-1层的卷积核小于第i层的卷积核时，第i-2层的输出的特征通道数量为第i-1层的输出的特征通道数量的预设倍数，其中，i为大于等于N且小于2N的整数。结合表1，本实施例以一种N＝11的生成模型进行说明，也就是生成模型(G模型)包括22层网络为例，需要指出的是，表1中仅描述了1-11层的相关参数，并未示出12-22层的相关参数，但是12-22层的参数与1-11层相同只是排序相反。其中由于网络中每层使用的都是卷积层，主要参数就是输入图像的大小(尺寸)，卷积核移动的步长和输出通道三个参数。

从表中可以看出随着网络深度的增加，第2层卷积核的尺寸变为第1层卷积核的1/3～1/2，输出的特征通道数量也会增加为原有的1倍(从第2层开始)。第一层特征通道很低的原因是想将输入信号的空间重映射，这有利于后面层的特征提取。第一层的卷积核大小为70是由于语音信号的输入维度很高，是输入维度的5％。而且经过实验发现这个参数也是好于别的参数的如50,30,100。

另外，由于语音输入的特征维度很高，维度压缩后数据量减小训练迅速，而且可以去掉不相关数据的干扰。但是经过降为的输入是不能够被耳朵听懂的。再将数据升采样(升维度)到输入的尺寸，方便人耳收听。

表1

网络训练：

基于生成模型与所述至少一条带噪语音信息进行去噪处理，得到至少一条去噪后的语音信息；

将由生成模型产生的去噪后的语音信息及一条子标注数据作为判别模型的输入信息，将第一判断结果作为判别模型的输出信息；以及以及将所述至少一条子标注数据以及相同的子标注数据作为判别模型的输入信息作为判别模型的输入信息，将第二判断结果作为判别模型的输出信息，对所述判断网络进行训练，得到针对所述判别模型的调整参数；其中，所述第一判断结果与所述第二判断结果不同；

基于所述针对判别模型的调整参数对所述生成模型进行训练，得到训练后的生成模型。

在网络训练需要构建损失函数，因此本申请方法使用的损失函数如图3所示。除了损失函数之外，还需要设定初始的学习率(LR)、训练的周期(epoch)、批大小(batchsize)和学习率衰减因子(LR_decay)等训练进度控制参数。

在训练阶段时，先用一批真实数据训练D；之后使用一批由G产生的虚假数据放入D进行判断出自真实数据还是G网络；经过一定步数的训练之后将D的参数冻结，即这时D将不会进行参数的更新，只进行前向传播的过程。误差从D进行反向传播到G进行G网络参数的学习更新。D的输入是来自真实数据或者是来自G的假数据，输出是其所属类别。G的输入是带噪语音，输出是干净语音。学习过程是将上述过程重复很多的epoch，直至结束。

进一步地，通过流多处理器SM，利用判别模型以及生成模型对所述至少一条子带噪语音信息以及至一条子标注数据同时进行训练，得到训练后的判别模型以及训练后的生成模型。

具体来说，在使用GPU训练的过程中，本提案将每个批中的每条数据分配到GPU上的每个SM上进行计算，这样大大提高了计算速度，相比SEGAN的训练速度提升1～1.2倍。

带噪语音去噪：将待处理语音信息进行分段处理，得到至少一段待处理语音；

将所述至少一段待处理语音输出到训练后的生成模型；

通过训练后的生成模型，获取所述至少一段去噪后的语音，将所述至少一段去噪后的语音合成为去噪后的完整语音。

也就是说，网络学习完成后，也就是完成训练之后，就是采用训练后的生成模型进行语音去噪过程了。首先将带噪语音经过分段处理之后放入GAN网络中，在经过G网络的计算之后会产生去噪音频，接着将其输出保存即可。

该申请的使用场景十分广阔，可应用于开会任务同声文字转写的预处理过程；也可以用于电话客服语音识别的语音增强模块等具体场景。

图4示出本实施例提供的方案处理后的语音结果，以及采用普通的SEGAN处理后的语音结果，可以看出，采用本实施例提供的网络进行去噪处理的去噪效果更优。

可见，通过采用上述方案，将生成模型的层数设置的高于现有技术中的层数，由于训练后的生成模型的层数更多，因此使得训练后的生成模型具备更高的去噪能力，从而保证了针对语音的去噪处理效果，提升了用户的使用体验。

如图5所示，本发明实施例提供了一种语音处理装置，包括：

预处理单元51，用于对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；

训练单元52，用于基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

本实施例中各个功能单元执行的处理与前述方法步骤相同，这里不再赘述。

如图6所示，一种语音处理装置，包括：

通信接口61，用于获取输入的带噪语音信息以及标注数据；

处理器62，用于对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；基于所述至少一条子带噪语音信息以及至一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

所述生成模型用于进行去噪处理，为包含有至少N个卷积层的网络，N为大于等于11的整数，并且，所述生成模型中第m+1层的卷积核小于第m层的卷积核，第m+2层的输出的特征通道数量为第m+1层的输出的特征通道数量的预设倍数；其中，m为大于等于1且小于等于N的整数。

语音切分

首先处理器62，用于将输入的带噪语音和干净语音(标注数据)切分为固定长度的短音频，并且可以选择加窗。这样做可以方便网络的训练而且效率高。

网络设计

相比现有技术方法，本申请提案对网络结构进行了改进。

结合表1，本实施例提供一种11层网络的G模型，其中由于网络中每层使用的都是卷积层，主要参数就是输入图像的大小(尺寸)，卷积核移动的步长和输出通道三个参数。

从图中可以看出随着网络深度的增加，第2层卷积核的尺寸变为第1层卷积核的1/3～1/2，输出的特征通道数量也会增加为原有的1倍(从第2层开始)。第一层特征通道很低的原因是想将输入信号的空间重映射，这有利于后面层的特征提取。第一层的卷积核大小为70是由于语音信号的输入维度很高，是输入维度的5％。而且经过实验发现这个参数也是好于别的参数的如50,30,100。

网络训练：

处理器62，用于基于生成模型与所述至少一条带噪语音信息进行去噪处理，得到至少一条去噪后的语音信息；

进一步地，处理器62，用于通过流多处理器SM，利用判别模型以及生成模型对所述至少一条子带噪语音信息以及至一条子标注数据同时进行训练，得到训练后的判别模型以及训练后的生成模型。

带噪语音去噪：处理器62，用于将待处理语音信息进行分段处理，得到至少一段待处理语音；将所述至少一段待处理语音输出到训练后的生成模型；通过训练后的生成模型，获取所述至少一段去噪后的语音，将所述至少一段去噪后的语音合成为去噪后的完整语音。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。

可选的，该计算机可读存储介质可应用于本申请实施例中的任意一种网络设备，并且该计算机程序使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，)ROM、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音处理方法，所述方法包括：

基于所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

2.根据权利要求1所述的方法，其中，所述基于所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型，包括：

通过流多处理器SM，利用所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型。

3.根据权利要求1所述的方法，其中，所述基于所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型，包括：

将由生成模型产生的去噪后的语音信息及一条子标注数据作为判别模型的输入信息，将第一判断结果作为判别模型的输出信息；以及将所述至少一条子标注数据以及相同的子标注数据作为判别模型的输入信息，将第二判断结果作为判别模型的输出信息，对所述判断网络进行训练，得到针对所述判别模型的调整参数；其中，所述第一判断结果与所述第二判断结果不同；

4.根据权利要求1-3任一项所述的方法，其中，所述方法还包括：

将待处理语音信息进行分段处理，得到至少一段待处理语音；

将所述至少一段待处理语音输出到训练后的生成模型；

5.一种语音处理装置，包括：

训练单元，用于基于所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

6.一种语音处理装置，包括：

通信接口，用于获取输入的带噪语音信息以及标注数据；

处理器，用于对输入的带噪语音信息以及标注数据进行时长划分，分别得到至少一条子带噪语音信息以及至少一条子标注数据；基于所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型；

其中，所述判别模型用于判断输入的语音是否为真实语音；

7.根据权利要求6所述的装置，其中，所述处理器，用于通过流多处理器SM，利用所述至少一条子带噪语音信息以及至少一条子标注数据，对判别模型以及生成模型进行训练，得到训练后的判别模型以及训练后的生成模型。

8.根据权利要求6所述的装置，其中，所述处理器，用于基于生成模型与所述至少一条带噪语音信息进行去噪处理，得到至少一条去噪后的语音信息；将由生成模型产生的去噪后的语音信息及一条子标注数据作为判别模型的输入信息，将第一判断结果作为判别模型的输出信息；以及将所述至少一条子标注数据以及相同的子标注数据作为判别模型的输入信息作为判别模型的输入信息，将第二判断结果作为判别模型的输出信息，对所述判断网络进行训练，得到针对所述判别模型的调整参数；其中，所述第一判断结果与所述第二判断结果不同；基于所述针对判别模型的调整参数对所述生成模型进行训练，得到训练后的生成模型。

9.根据权利要求6-8任一项所述的装置，其中，所述处理器，用于将待处理语音信息进行分段处理，得到至少一段待处理语音；将所述至少一段待处理语音输出到训练后的生成模型；通过训练后的生成模型，获取所述至少一段去噪后的语音，将所述至少一段去噪后的语音合成为去噪后的完整语音。

10.一种计算机存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。