CN110289004A

CN110289004A - 一种基于深度学习的人工合成声纹检测系统及方法

Info

Publication number: CN110289004A
Application number: CN201910527094.0A
Authority: CN
Inventors: 翁健; 林越; 郑晓鹏; 罗晓峰; 陈俊颖; 温钊迪; 罗伟其
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-09-27
Anticipated expiration: 2039-06-18
Also published as: CN110289004B

Abstract

本发明公开了一种基于深度学习的人工合成声纹检测系统及方法，该系统包括：包括自编码器、生成器和辨别器，自编码器包括编码器和解码器，编码器包括编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层；解码器包括解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列；生成器结构与解密器结构相同；辨别器包括辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层。本发明对人工合成声纹达到较高的检测准确率，同时对属于已知类的样本有更好的分类效果。

Description

一种基于深度学习的人工合成声纹检测系统及方法

技术领域

本发明涉及声纹检测技术领域，具体涉及一种基于深度学习的人工合成声纹检测系统及方法。

背景技术

近年来，计算机技术的发展日新月异。其中，人工智能领域发展迅速，使得人工合成声纹得以实现。随着人工合成声纹技术的成熟，越来越多诈骗分子利用人工合成技术，将生成的语音用于商业营销，恶意骚扰以及电话诈骗等等。因此，一种能很好地检测人工合成声纹方法急需被研发，以在犯罪分子利用合成声纹进行违法行为前将其检测并过滤。

目前人工声纹检测面临一个问题，面对越来越多的合成声纹，不能只是单纯地对已知声纹进行分类，如何检测出不同于所有已知合成声纹的新型合成声纹是更为重要的问题。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于深度学习的人工合成声纹检测系统及方法，利用生成对抗网络具有对数据概率分布有很强的学习能力的特性，学习已知类数据的概率分布，对未知合成类给出较低的置信得分。同时，结合多分类器输出，进一步使得未知合成类得分与已知类得分差距显著，从而检测未知合成声纹，对未知人工合成声纹的检测准确率较高，同时对属于已知类的样本有很好的分类效果。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于深度学习的人工合成声纹检测系统，包括自编码器、生成器和辨别器，所述自编码器包括编码器和解码器，所述生成器用于生成虚假特征向量，所述辨别器用于根据真实及虚假的人工合成声纹的特征向量计算得到均方差和交叉熵损失值；

所述编码器包括编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层；

所述解码器包括解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列；

所述生成器结构与解密器结构相同；

所述辨别器包括辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层。

作为优选的技术方案，所述编码器第一卷积层和编码器第二卷积层的卷积核大小均设置为3x3，所述编码器批归一化层的核心大小设置为4，所述编码器第一最大池化层与编码器第二最大池化层的核心大小均设置为3x3，所述编码器全连接层设置有110维输入和27*27维输出。

作为优选的技术方案，所述解码器嵌入层设置有10维输入和10维输出，所述解码器全连接层设置有100维输入和32*32维输出，所述解码器批归一化层的核心大小设置为1；

所述解码器第一反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为64的批归一化层；

所述解码器第二反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为32的批归一化层；

所述解码器卷积层序列设有卷积核为3x3的卷积层。

作为优选的技术方案，在每一个反卷积层序列中加入0.4的随机失活值,激活函数采用线性整流函数，Adam优化器的学习率设定为0.001。

作为优选的技术方案，所述辨别器嵌入层设有10维one-hot输入和10维输出，所述辨别器全连接层设有256维输入和256维输出，用于连接输入数据的特征向量和映射后的数据标签；

所述辨别器第一卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层；

所述辨别器第二卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层；

所述多分类器包括：设有32维输入和32维输出的多分类器第一全连接层，以及设有32维输入和10维输出的多分类器第二全连接层，所述多分类器输出激活函数采用L1Loss函数；

所述辨别器输出层包括：设有32维输入和10维输出的辨别器输出层第一全连接层，以及设有10维输出和1维输出的辨别器输出层第二全连接层。

本发明还提供一种基于深度学习的人工合成声纹检测方法，包括下述步骤：

S1：采用含有人工合成声纹类别标签的数据集，划分得到未知类别声纹数据集；

S2：初始化自编码器的参数，将数据集的人工合成声纹特征向量输入到自编码器，通过编码器压缩得到k维的隐空间，隐空间和特征向量对应的标签连接后，输入解码器，计算得到还原特征向量；

S3：计算还原特征向量和原始特征向量的损失值进行反向传播，更新自编码器参数；

S4：将batch*k的二维正态分布噪声和与人工合成声纹的特征向量对应的标签向量输入到自编码器中，同时将一个batch大小的真实人工合成声纹的特征向量与生成器生成的一个batch的虚假特征向量输入到辨别器；

S5：真实人工合成声纹的特征向量通过辨别器得到对应的均方差和交叉熵损失值，反向传播后更新辨别器的参数，生成器生成的虚假特征向量通过辨别器得到对应的均方差和交叉熵损失值，反向传播后更新辨别器和自编码器的参数；

S6：构造多分类器，对输入辨别器的数据进行归类，采用均方差作为损失函数；

S7：根据辨别器得到的均方差和交叉熵损失值，计算置信度，并同时计算人工合成声纹检测的阈值；

S8：将验证数据按照标签划分为正常数据和人工合成数据。

作为优选的技术方案，步骤S5中所述的生成器生成的虚假特征向量，具体生成方式为：

采用真实训练数据对应的标签，采用10维的one-hot编码，通过嵌入层的映射输入到自编码器中，生成的输出为32x32的虚假特征向量。

作为优选的技术方案，步骤S5中所述计算置信度的具体公式为：

计算每个测试样本的最大分类器输出值：

其中，N是测试声纹分类后的数量，x_i是测试样本，y_i是测试样本标签，是辨别器的多分类器的输出值；

计算每个测试样本的最小分类器输出值：

其中，x_i是测试样本，y_i是测试样本标签；

计算每个测试样本的置信度得分：

其中，G_out(x_i,y_i)表示辨别器的基本置信度输出，表示最大分类器输出值，表示最小分类器输出值，

所述计算人工合成声纹检测的阈值的具体计算公式为：

其中，是正常样本的得分值，是未知类人工合成声纹的得分值。

作为优选的技术方案，步骤S8所述将验证数据按照标签划分为正常数据和人工合成数据，划分的方式为：

分别对正常样本数据和未知类人工合成声纹样本数据的置信分数取平均值，得到正常样本数据的平均置信分数和未知类人工合成声纹样本数据的平均分数，以正常样本数据平均置信分数作为上限，以未知类人工合成声纹样本数据平均置信分数作为下限，分别设置阈值，高于阈值的判定为正常数据，低于阈值的判定为人工合成数据。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明基于自编码器结合辨别器，能够对已知类进行分类，同时采用自编码器，在训练初期通过生成器生成虚假数据集，有效解决了数据集较少的问题，达到了高效的训练效果；

(2)本发明融合了标准置信度输出和多分类器输出，共同计算对已知类和未知类的置信分数，使已知类输出具有高置信分数，未知类具有低置信分数，同时通过测试集设置阈值，将高于阈值的样本归类为已知类，将低于阈值的样本归类为未知类，克服了传统深度学习分类器只能归类已知类，不能检测未知类的弊端，对人工合成声纹达到较高的检测准确率，同时对属于已知类的样本有更好的分类效果。

附图说明

图1为本实施例基于深度学习的人工合成声纹检测系统的整体结构示意图；

图2为本实施例基于深度学习的人工合成声纹检测系统的编码器结构示意图；

图3为本实施例基于深度学习的人工合成声纹检测系统的解码器结构示意图；

图4为本实施例基于深度学习的人工合成声纹检测系统的辨别器结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于深度学习的人工合成声纹检测系统，包括自编码器、生成器和辨别器，其中，自编码器包括编码器和解码器，自编码器采用Adam作为优化器，设置学习率为a，训练次数为m；

如图2所示，在本实施例中，编码器的结构包括：编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层；

在本实施例中，卷积层用于进行特征提取；池化层对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征；批归一化层用于加快训练速度，提高识别精度；全连接层用于把卷积层提取的局部特征重新通过权值矩阵映射到样本标记空间；

其中，编码器第一卷积层：卷积核为3x3，1通道输入，4通道输出；

编码器批归一化层：核心大小为4；

编码器第一最大池化层：核心大小为3x3，

编码器第二卷积层：卷积核为3x3，4通道输入，8通道输出；

编码器第二最大池化层：核心大小为3x3；

编码器全连接层：110维输入，27*27维输出；

如图3所示，在本实施例中，解码器的结构包括：解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列；

其中，解码器嵌入层：10维输入，10维输出；

解码器全连接层：100维输入，32*32维输出；

解码器批归一化层：核心大小为1；

解码器第一反卷积层序列包括：

1)反卷积核为3x3的反卷积层，1通道输入，64通道输出；

2)卷积核为3x3的卷积层，64通道输入，128通道输出；

3)核心大小为64的批归一化层；

解码器第二反卷积层序列包括：

1)反卷积核为3x3的反卷积层，64通道输入，64通道输出；

2)卷积核为3x3的卷积层，64通道输入，128通道输出；

3)核心大小为32的批归一化层；

解码器卷积层序列：采用卷积核为3x3的卷积层,32通道输入，32通道输出的批归一化层；

其中，每一个反卷积层序列中加入0.4的随机失活值,使用线性整流函数作为激活函数，Adam优化器的学习率设定为0.001，训练次数控制在200以内；

在本实施例中，生成器的结构与自编码器中的解码器结构相同，主输入采用batchx 100的二维正态分布噪声向量，本实施例的批(batch)设为2，标签输入与解码器相同，采用真实训练数据对应的标签，采用10维的one-hot编码，通过嵌入层的映射输入到自编码器中，生成的输出为32x32的虚假特征向量；

如图4所示，在本实施例中，辨别器的结构包括：辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层；

其中，辨别器嵌入层：10维one-hot输入，10维输出，本实施例的嵌入层用于降低维度，加快训练速度；

辨别器全连接层：256维输入，256维输出，用于连接输入的数据特征向量和映射后的数据标签；

辨别器第一卷积层序列包括：

1)卷积核大小为3x3的卷积层，1通道输入，8通道输出；

2)核心大小为4的批归一化层；

3)核心大小为3x3的平均池化层；

4)采用带泄露修正线性单函数作为激活函数；

辨别器第二卷积层序列包括：

1)卷积核大小为3x3的卷积层，4通道输入，8通道输出；

2)核心大小为4的批归一化层；

3)核心大小为3x3的平均池化层；

4)采用带泄露修正线性单函数作为激活函数；

多分类器包括：

1)多分类器第一全连接层，32维输入，32维输出；

2)多分类器第二全连接层，32维输入，10维输出；

3)多分类器输出采用L1Loss函数作为激活函数；

辨别器输出层包括：

1)辨别器输出层第一全连接层，32维输入，10维输出；

2)辨别器输出层第二全连接层，10维输出，1维输出。

本实施例还提供一种基于深度学习的人工合成声纹检测方法，步骤包括：

S1：采用包含人工合成声纹类别标签的数据集，其中划分小于一半的部分数据集为未知类别声纹数据集，本实施例划分30％部分为未知类别声纹数据集；

S2：初始化自编码器的参数，将数据集的人工合成声纹特征向量输入到自编码器，通过编码器的压缩得到k维的隐空间，其中，编码器压缩即为一个卷积计算的过程，特征向量通过卷积进行压缩，本实施例得到50维的隐空间，隐空间和特征向量对应的标签连接后，输入解码器，得到与原始输入的特征向量有相同大小的还原特征向量；

S3：计算还原特征向量和原始特征向量的损失值进行反向传播，更新自编码器参数，以L1Loss作为损失函数，经过200轮迭代，完成生成器的预训练，计算过程为：

S4：将batch*k的二维正态分布噪声和与人工合成声纹的特征向量对应的标签向量输入到自编码器中，其中，本实施例的k取50，同时将一个batch大小的真实人工合成声纹的特征向量与自编码器生成的一个batch的伪造特征向量输入到辨别器；

S5：计算真实人工合成声纹的特征向量通过辨别器得出的对应的均方差和交叉熵损失值，反向传播后更新辨别器的参数，计算生成器生成的虚假数据通过辨别器得出的对应的均方差和交叉熵损失值，反向传播后更新辨别器和自编码器参数，其中，交叉熵损失函数为：L＝-ylogy′+(1-y)log(1-y′)；

在本实施例中，反向传播的训练过程中，动态调整生成器和辨别器的学习率，在训练过程中监视虚假数据和真实数据的标准置信度计算，差值较大时，降低辨别器的学习率，差值较小时，增加辨别器的学习率，直至辨别器和自编码器之间判定误差的平衡趋于纳什平衡，则训练完毕；

S6：构造多分类器，采用均方差作为损失函数，多分类器用于对输入辨别器的数据进行归类；

S7：根据步骤S5中两组特征向量输入辨别器得到的输出结果，计算置信度，并同时计算出人工合成声纹检测的阈值；

计算置信度的具体方法为：

计算每个测试样本的最大分类器输出值：

计算每个测试样本的最小分类器输出值：

其中，x_i是测试样本，y_i是测试样本标签；

计算每个测试样本的置信度得分：

计算用于人工合成声纹检测的阈值的具体计算公式为：

其中，是正常样本的得分值，是未知类人工合成声纹的得分值，通过多次测试阈值以确定最终阈值，最终确定的阈值在以未知类人工合成声纹得分为下界，正常样本得分为上界的区间之内。

S8：将验证数据按照标签分为正常数据和人工合成数据，经过上述置信分数的计算方法，得到每一个验证数据的置信分数，分别对正常样本数据和未知类人工合成声纹样本数据的置信分数取平均值，得到正常样本数据的平均置信分数和未知类人工合成声纹样本数据的平均分数，以正常样本数据平均置信分数作为上限，以未知类人工合成声纹样本数据平均置信分数作为下限，分别设置阈值，高于阈值的判定为正常数据，低于阈值的判定为人工合成数据，阈值确定完毕后，即可使用测试集测试计算正常类和合成类。

本实施例基于自编码器结合辨别器，能够对已知类进行分类，同时采用自编码器，在训练初期通过生成器生成虚假数据集，有效解决了数据集较少的问题，达到了高效的训练效果，通过融合了标准置信度输出和多分类输出，共同计算对已知类和未知类的置信分数，使已知类输出具有高置信分数，未知类具有低置信分数，同时通过测试集设置阈值，将高于阈值的样本归类为已知类，将低于阈值的样本归类为未知类，克服了传统深度学习分类器只能归类已知类，不能检测未知类的弊端，对人工合成声纹达到较高的检测准确率，同时对属于已知类的样本有更好的分类效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的人工合成声纹检测系统，其特征在于，包括自编码器、生成器和辨别器，所述自编码器包括编码器和解码器，所述生成器用于生成虚假特征向量，所述辨别器用于根据真实及虚假的人工合成声纹的特征向量计算得到均方差和交叉熵损失值；

所述生成器结构与解密器结构相同；

2.根据权利要求1所述的基于深度学习的人工合成声纹检测系统，其特征在于，所述编码器第一卷积层和编码器第二卷积层的卷积核大小均设置为3x3，所述编码器批归一化层的核心大小设置为4，所述编码器第一最大池化层与编码器第二最大池化层的核心大小均设置为3x3，所述编码器全连接层设置有110维输入和27*27维输出。

3.根据权利要求1所述的基于深度学习的人工合成声纹检测系统，其特征在于，所述解码器嵌入层设置有10维输入和10维输出，所述解码器全连接层设置有100维输入和32*32维输出，所述解码器批归一化层的核心大小设置为1；

所述解码器卷积层序列设有卷积核为3x3的卷积层。

4.根据权利要求3所述的基于深度学习的人工合成声纹检测系统，其特征在于，在每一个反卷积层序列中加入0.4的随机失活值,激活函数采用线性整流函数，Adam优化器的学习率设定为0.001。

5.根据权利要求1所述的基于深度学习的人工合成声纹检测系统，其特征在于，所述辨别器嵌入层设有10维one-hot输入和10维输出，所述辨别器全连接层设有256维输入和256维输出，用于连接输入数据的特征向量和映射后的数据标签；

6.一种基于深度学习的人工合成声纹检测方法，其特征在于，包括下述步骤：

S8：将验证数据按照标签划分为正常数据和人工合成数据。

7.根据权利要求6所述的基于深度学习的人工合成声纹检测方法，其特征在于，步骤S5中所述的生成器生成的虚假特征向量，具体生成方式为：

8.根据权利要求6所述的基于深度学习的人工合成声纹检测方法，其特征在于，步骤S5中所述计算置信度的具体公式为：

计算每个测试样本的最大分类器输出值：

计算每个测试样本的最小分类器输出值：

其中，x_i是测试样本，y_i是测试样本标签；

计算每个测试样本的置信度得分：

所述计算人工合成声纹检测的阈值的具体计算公式为：

9.根据权利要求6所述的基于深度学习的人工合成声纹检测方法，其特征在于，步骤S8所述将验证数据按照标签划分为正常数据和人工合成数据，划分的方式为：