CN113314148A

CN113314148A - 基于原始波形的轻量级神经网络生成语音鉴别方法和系统

Info

Publication number: CN113314148A
Application number: CN202110866648.7A
Authority: CN
Inventors: 陶建华; 马浩鑫; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-08-27
Anticipated expiration: 2041-07-29
Also published as: CN113314148B

Abstract

本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统，包括：按固定采样率对音频文件进行采样，得到所述音频文件的原始波形点，再将所述原始波形点切分为原始音频帧，得到原始音频帧序列；第一层为固定的一维卷积层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层来构建搜索网络；将所述原始音频帧序列输入搜索网络，分别搜索常规模块和降维模块中每个神经元之间的最优操作连接，得到最优模型结构；应用所述原始音频帧序列训练搜索到的所述最优模型结构，得到训练好的搜索网络。

Description

基于原始波形的轻量级神经网络生成语音鉴别方法和系统

技术领域

本发明涉及生成语音鉴别领域，具体涉及基于原始波形的轻量级神经网络生成语音鉴别方法和系统。

背景技术

生成语音检测为对输入的语音判检测是否为生成语音，输出证伪二分类检测结果。目前的检测方案主要是基于两方面的改进：更具区分度的声学特征和更有效的分类器，尽管近年来端到端结构的模型不再区分特征提取模块与分类器，且端到端网络在语音识别、语音合成等领域越发成熟，但是在生成语音鉴别领域的主流研究还是采用特征提取与分类器架构。在分类器层面，大部分研究均为选择某种神经网络进行二分类训练，如残差神经网络,轻量级卷积神经网络等，只关注对于语音真伪的判别。

目前已有使用搜索网络搜索方法生成语音检测模型的研究，但是输入该网络的特征为手工设计的LFCC特征，会损失掉音频原有的一些其他特征属性，对未知语音的检测的泛化性不够，网络的检测生成语音的性能并没有明显优于现有的使用已有的神经网络的性能。

从原始音频入手做端到端的生成语音检测的研究又面临着网络的参数量较大，存在较多冗余结构。

公开号为CN110148425A公开了一种基于完整局部二进制模式的伪装语音检测方法，包括：对真实语音库和相应的伪装语音库中所有语音进行变量Q变换，得到所有真实语音和伪装语音的语谱图；分别将各语谱图转换为相应的灰度图像，并采用完整局部二进制模式处理，生成相应的纹理特征；将所有的纹理特征作为训练支持向量机的训练集，训练得到支持向量机；将待识别语音输入至支持向量机，以进行伪装语音的识别。

公开号为CN113077814A公开了一种基于深度密集网络的语音变形检测方法，其特征在于先构建基于卷积神经网络的深度密集学习网络结构，而后使用小批迭代随机梯度下降对所述网络结构的交叉熵误差进行训练，最后将待测语音的时频特征输入到已经训练好的深度密集网络结构中，网络结构中softmax层通过伪装因子来判断待测语音的真伪并识别出伪装语音对应使用的伪装工具，从而输出检测结果。

现有技术缺点

1. 当前检测方案大多基于“特征提取+分类器”框架，特征提取与分类任务是割裂的；

2. 手工设计特征困难，提取到的特征对于未知的生成不一定是最优的；

3. 当前网络存在冗余特征，可以利用网络结构搜索的方法进行剪枝，搜索出一个轻量级的网络模型。

发明内容

有鉴于此，本发明第一方面提供一种基于原始波形的轻量级神经网络生成语音鉴别方法，所述方法包括：

读取输入音频：按固定采样率对音频文件进行采样，得到所述音频文件的原始波形点，再将所述原始波形点切分为原始音频帧，得到原始音频帧序列；

构建搜索网络：网络第一层为固定的一维卷积层特征提取层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层；

搜索最优模型结构：将所述原始音频帧序列输入搜索网络，分别搜索常规模块和降维模块中每个神经元节点之间的最优操作连接，得到最优模型结构；

模型训练：应用所述原始音频帧序列训练搜索到的所述最优模型结构，得到训练好的搜索网络；

模型预测：应用读取输入音频方法将测试数据转化为测试音频帧序列，再将所述测试音频帧序列输入到所述训练好的搜索网络，得到真伪二分类结果。

优选的，所述固定采样率为16000；所述原始音频帧的长度为48000。

优选的，所述一维卷积特征提取层的具体设计包括：一组可训练的有限冲激响应滤波器。

优选的，所述可训练的有限冲激响应滤波器具体包括：一个带通滤波器，频域表示为：

其中f ₁和f ₂是可学习的参数，代表带通滤波器的低、高截止频率，f为频域变量；

上式经过逆傅里叶变换，最终得到滤波器g的时域可实现表示：

。

优选的，所述可训练的有限冲激响应滤波器还包括：

在g[n,f ₁,f ₂]中额外加入窗函数，得到加窗后的滤波器：

其中，w[n]的为汉明窗，具体形式为：

。

优选的，所述常规模块中包括7个神经元节点，相邻神经元节点中的可供候选操作有6种，具体为：

3*3的深度可分卷积、5*5的深度可分卷积、3*3最大池化、3*3平均池化，直接连接和空操作。

优选的，所述降维模块中相邻神经元节点中的可供候选操作有6种，具体为：

3*3的深度可分卷积、5*5的深度可分卷积、3*3最大池化、3*3平均池化，直接连接和空操作；

降维模块与常规模块的不同在于，降维模块输出的特征维度为其输入特征维度的一半，而常规模块输出的特征维度与其输入特征维度保持一致。

优选的，搜索常规模块和降维模块中每个神经元节点之间的最优操作连接过程中，对于不同操作的权重系数使用Adam优化器，对于各个操作的具体参数使用SGD优化器。

本发明第二方面提供一种基于原始波形的轻量级神经网络生成语音鉴别

系统，包括：

读取输入音频模块、搜索网络、搜索最优模型结构模块和模型训练模块；

所述读取输入音频模块：按固定采样率对音频文件进行采样，得到所述音频文件的原始波形点，再将所述原始波形点切分为原始音频帧，得到原始音频帧序列；

所述搜索网络：网络第一层为固定的一维卷积特征提取层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层；

搜索最优模型结构模块：将所述原始音频帧序列输入所述搜索网络，分别搜索常规模块和降维模块中每个神经元节点之间的最优操作连接，得到最优模型结构；

模型训练模块：应用所述原始音频帧序列训练搜索到的所述最优模型结构，得到训练好的搜索网络；

将测试数据输入读取输入音频模块，得到测试音频帧序列，再将所述测试音频帧序列输入到所述训练好的搜索网络，得到真伪二分类结果。

优选的，所述最优模型结构包括：网络第一层为一维卷积层，所述一维卷积层之后为2个常规模块，然后是1个降维模块，最后是全连接层。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

将原始波形输入神经网络进行网络训练，输入简单，只需输入原始音频即可得到判别结果，不需要基于先验知识的复杂预处理和特征选择，避免手工设计特征时导致的原始信息丢失，此外可以将特征提取和分类器融为一起，整体协同优化。

使用网络结构搜索搜出有效的结构，获得轻量级模型。

附图说明

图1为本发明实施例提供的基于原始波形的轻量级神经网络生成语音鉴别方法的流程图；

图2为本发明实施例提供的基于原始波形的轻量级神经网络生成语音鉴别系统的示意图；

图3为本发明实施例提供的网络结构搜索过程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1所示，本申请实施例提供一种基于原始波形的轻量级神经网络生成语音鉴别方法，包括：

读取输入音频：按采样率16000对音频文件进行采样，得到所述音频文件的原始波形点，再将所述原始波形点切分为原始音频帧，所述原始音频帧的长度为48000，得到原始音频帧序列；

构建搜索网络：网络第一层为固定的一维卷积层1d-conv，所述一维卷积层1d-conv之后为normal cell-常规模块和reduction cell-降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层；

所述一维卷积层的具体设计为：一组可训练的有限冲激响应滤波器，在标准的CNN中，长度为L的滤波器的所有的L个元素都是从数据中学习的；具体包括：一个带通滤波器，可以被描述成两个低通滤波器的结果的差分,其频域表示为：

；

其中sinc函数的定义为：

为了减少减弱频谱泄露效应，在g[n,f ₁,f ₂]中额外加入窗函数，得到加窗后的滤波器：

其中，w[n]的为汉明窗，具体形式为：

；

其中，不同滤波器距离呈线性分布，即不同滤波器的初始中心在全部频域上是等间距的；

1d-conv-一维卷积层参数设置为：

滤波器为g _w[n,f ₁,f ₂ ]，卷积核大小128，步长为48，填充长度为，输入通道数为1，输出通道数为60.

采用网络结构搜索方法，输入网络原始音频，网络采用基于梯度下降的方法搜索网络子结构（常规模块和降维模块），基于梯度下降的网络结构搜索原理为：

在一个cell-模块中，第n个神经元节点与前面的所有n-1个节点相连。我们希望选择出每两个神经元节点间的最优操作，在所有的候选操作中，包含“空操作”，以表示两个神经元节点之间没有连接的情况，除此之外还有常见的卷积、池化等操作。核心思想是对每两个神经元节点之间的每一个候选操作，都赋予一个结构权重，然后采用交叉梯度下降的方法，交叉优化网络权重和结构权重的值；

对于每两个神经元节点间的每一个候选操作，都对其设置一个结构权重，对于第i个神经元节点和第j个神经元节点的操作o，我们记其结构权重为ɑ，那么在训练时，每两个神经元节点之间的操作都是所有候选操作的加权和；

这一步的意义是把选择最优候选操作这一离散的问题松弛成了求解最优结构权重这一连续的问题，这样就可以通过梯度下降的方法来求解问题；

利用网络结构搜索的方法，可以搜出类似如图3的模块结构；

所述常规模块中相邻神经元节点中的可供候选操作有6种，具体为：

通过赋予每个操作一个结构权重，每个神经元节点的值等于其前一个神经元节点进行候选操作后的加权和，然后采用两部交叉梯度下降的方法，分别优化网络权重和结构权重的值，训练结束后，选择结构权重值最大的操作作为最优操作。

所述降维模块中相邻神经元节点中的可供候选操作有6种，具体为：

搜索常规模块和降维模块中每个神经元节点之间的最优操作连接过程中，卷积核的初始通道数设为16，对于不同操作的权重系数使用Adam自适应矩估计优化器，初始学习率设置为0.0001，betas为[0.5,0.999]，衰减率为0.001；对于各个操作的具体参数使用随机梯度下降优化器，初始学习率设为0.01，动量为0.9, 衰减率为0.0003,训练直到模型收敛；

第一层仍为在搜索阶段使用的一维卷积层，滤波器为g _w[n,f ₁,f ₂ ], 卷积核大小为128，步长为48，填充为0，然后是2个常规模块，之后接接1个降维模块，最后是全连接层；

在ASVspoof2019LA数据集上训练，训练搜索网络时，选择自适应矩估计优化器，初始学习率设置为0.001，训练50轮，最终搜得的模型参数大小为0.133M；

模型预测：应用读取输入音频方法将测试数据转化为测试音频帧序列，再将所述测试音频帧序列输入到所述训练好的搜索网络，得到真伪二分类结果，测试集的eer为：5.19。

实施例2：

如图2所示，根据上述方法，本申请还提供了一种基于原始波形的轻量级神经网络生成语音系统，所述系统包括：

所述搜索网络：网络第一层为固定的一维卷积层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层；

搜索最优模型结构模块：将所述原始音频帧序列输入所述搜索网络，分别搜索常规模块和降维模块中每个神经元节点之间的最优操作连接，得到最优模型结构；所述最优模型结构包括：网络第一层为一维卷积层，所述一维卷积层之后为2个常规模块，然后是1个降维模块，最后是全连接层；

本发明另一方面还提供一种存储介质，用于执行或存储上述方法。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述方法包括：

构建搜索网络：网络第一层为固定的一维卷积层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层；

搜索最优模型结构：将所述原始音频帧序列输入搜索网络，分别搜索常规模块和降维模块中每个神经元之间的最优操作连接，得到最优模型结构；

2.根据权利要求1所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述固定采样率为16000；所述原始音频帧的长度为48000。

3.根据权利要求1所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述一维卷积层的具体设计包括：一组可训练的有限冲激响应滤波器。

4.根据权利要求3所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述可训练的有限冲激响应滤波器具体包括：一个带通滤波器，频域表示为：

。

5.根据权利要求4所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述可训练的有限冲激响应滤波器还包括：

在g[n,f ₁,f ₂]中额外加入窗函数，得到加窗后的滤波器：

其中，w[n]的为汉明窗，具体形式为：

。

6.根据权利要求1所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述常规模块中包括7个神经元节点，相邻神经元节点中的可供候选操作有6种，具体为：

7.根据权利要求6所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，所述降维模块中相邻神经元节点中的可供候选操作有6种，具体为：

8.根据权利要求7所述的基于原始波形的轻量级神经网络生成语音鉴别方法，其特征在于，搜索常规模块和降维模块中每个神经元节点之间的最优操作连接过程中，对于不同操作的权重系数使用自适应矩估计优化器，对于各个操作的具体参数使用随机梯度下降优化器。

9.基于原始波形的轻量级神经网络生成语音系统，其特征在于，所述系统包括：

所述搜索网络：网络第一层为固定的一维卷积层特征提取层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层；

10.根据权利要求9所述的基于原始波形的轻量级神经网络生成语音系统，其特征在于，所述最优模型结构包括：网络第一层为一维卷积层特征提取层，所述一维卷积层之后为2个常规模块，然后是1个降维模块，最后是全连接层。