CN110289004A - 一种基于深度学习的人工合成声纹检测系统及方法 - Google Patents

一种基于深度学习的人工合成声纹检测系统及方法 Download PDF

Info

Publication number
CN110289004A
CN110289004A CN201910527094.0A CN201910527094A CN110289004A CN 110289004 A CN110289004 A CN 110289004A CN 201910527094 A CN201910527094 A CN 201910527094A CN 110289004 A CN110289004 A CN 110289004A
Authority
CN
China
Prior art keywords
layer
discriminator
encoder
artificial synthesized
vocal print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910527094.0A
Other languages
English (en)
Other versions
CN110289004B (zh
Inventor
翁健
林越
郑晓鹏
罗晓峰
陈俊颖
温钊迪
罗伟其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
University of Jinan
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910527094.0A priority Critical patent/CN110289004B/zh
Publication of CN110289004A publication Critical patent/CN110289004A/zh
Application granted granted Critical
Publication of CN110289004B publication Critical patent/CN110289004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的人工合成声纹检测系统及方法,该系统包括:包括自编码器、生成器和辨别器,自编码器包括编码器和解码器,编码器包括编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层;解码器包括解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列;生成器结构与解密器结构相同;辨别器包括辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层。本发明对人工合成声纹达到较高的检测准确率,同时对属于已知类的样本有更好的分类效果。

Description

一种基于深度学习的人工合成声纹检测系统及方法
技术领域
本发明涉及声纹检测技术领域,具体涉及一种基于深度学习的人工合成声纹检测系统及方法。
背景技术
近年来,计算机技术的发展日新月异。其中,人工智能领域发展迅速,使得人工合成声纹得以实现。随着人工合成声纹技术的成熟,越来越多诈骗分子利用人工合成技术,将生成的语音用于商业营销,恶意骚扰以及电话诈骗等等。因此,一种能很好地检测人工合成声纹方法急需被研发,以在犯罪分子利用合成声纹进行违法行为前将其检测并过滤。
目前人工声纹检测面临一个问题,面对越来越多的合成声纹,不能只是单纯地对已知声纹进行分类,如何检测出不同于所有已知合成声纹的新型合成声纹是更为重要的问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于深度学习的人工合成声纹检测系统及方法,利用生成对抗网络具有对数据概率分布有很强的学习能力的特性,学习已知类数据的概率分布,对未知合成类给出较低的置信得分。同时,结合多分类器输出,进一步使得未知合成类得分与已知类得分差距显著,从而检测未知合成声纹,对未知人工合成声纹的检测准确率较高,同时对属于已知类的样本有很好的分类效果。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于深度学习的人工合成声纹检测系统,包括自编码器、生成器和辨别器,所述自编码器包括编码器和解码器,所述生成器用于生成虚假特征向量,所述辨别器用于根据真实及虚假的人工合成声纹的特征向量计算得到均方差和交叉熵损失值;
所述编码器包括编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层;
所述解码器包括解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列;
所述生成器结构与解密器结构相同;
所述辨别器包括辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层。
作为优选的技术方案,所述编码器第一卷积层和编码器第二卷积层的卷积核大小均设置为3x3,所述编码器批归一化层的核心大小设置为4,所述编码器第一最大池化层与编码器第二最大池化层的核心大小均设置为3x3,所述编码器全连接层设置有110维输入和27*27维输出。
作为优选的技术方案,所述解码器嵌入层设置有10维输入和10维输出,所述解码器全连接层设置有100维输入和32*32维输出,所述解码器批归一化层的核心大小设置为1;
所述解码器第一反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为64的批归一化层;
所述解码器第二反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为32的批归一化层;
所述解码器卷积层序列设有卷积核为3x3的卷积层。
作为优选的技术方案,在每一个反卷积层序列中加入0.4的随机失活值,激活函数采用线性整流函数,Adam优化器的学习率设定为0.001。
作为优选的技术方案,所述辨别器嵌入层设有10维one-hot输入和10维输出,所述辨别器全连接层设有256维输入和256维输出,用于连接输入数据的特征向量和映射后的数据标签;
所述辨别器第一卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层;
所述辨别器第二卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层;
所述多分类器包括:设有32维输入和32维输出的多分类器第一全连接层,以及设有32维输入和10维输出的多分类器第二全连接层,所述多分类器输出激活函数采用L1Loss函数;
所述辨别器输出层包括:设有32维输入和10维输出的辨别器输出层第一全连接层,以及设有10维输出和1维输出的辨别器输出层第二全连接层。
本发明还提供一种基于深度学习的人工合成声纹检测方法,包括下述步骤:
S1:采用含有人工合成声纹类别标签的数据集,划分得到未知类别声纹数据集;
S2:初始化自编码器的参数,将数据集的人工合成声纹特征向量输入到自编码器,通过编码器压缩得到k维的隐空间,隐空间和特征向量对应的标签连接后,输入解码器,计算得到还原特征向量;
S3:计算还原特征向量和原始特征向量的损失值进行反向传播,更新自编码器参数;
S4:将batch*k的二维正态分布噪声和与人工合成声纹的特征向量对应的标签向量输入到自编码器中,同时将一个batch大小的真实人工合成声纹的特征向量与生成器生成的一个batch的虚假特征向量输入到辨别器;
S5:真实人工合成声纹的特征向量通过辨别器得到对应的均方差和交叉熵损失值,反向传播后更新辨别器的参数,生成器生成的虚假特征向量通过辨别器得到对应的均方差和交叉熵损失值,反向传播后更新辨别器和自编码器的参数;
S6:构造多分类器,对输入辨别器的数据进行归类,采用均方差作为损失函数;
S7:根据辨别器得到的均方差和交叉熵损失值,计算置信度,并同时计算人工合成声纹检测的阈值;
S8:将验证数据按照标签划分为正常数据和人工合成数据。
作为优选的技术方案,步骤S5中所述的生成器生成的虚假特征向量,具体生成方式为:
采用真实训练数据对应的标签,采用10维的one-hot编码,通过嵌入层的映射输入到自编码器中,生成的输出为32x32的虚假特征向量。
作为优选的技术方案,步骤S5中所述计算置信度的具体公式为:
计算每个测试样本的最大分类器输出值:
其中,N是测试声纹分类后的数量,xi是测试样本,yi是测试样本标签,是辨别器的多分类器的输出值;
计算每个测试样本的最小分类器输出值:
其中,xi是测试样本,yi是测试样本标签;
计算每个测试样本的置信度得分:
其中,Gout(xi,yi)表示辨别器的基本置信度输出,表示最大分类器输出值,表示最小分类器输出值,
所述计算人工合成声纹检测的阈值的具体计算公式为:
其中,是正常样本的得分值,是未知类人工合成声纹的得分值。
作为优选的技术方案,步骤S8所述将验证数据按照标签划分为正常数据和人工合成数据,划分的方式为:
分别对正常样本数据和未知类人工合成声纹样本数据的置信分数取平均值,得到正常样本数据的平均置信分数和未知类人工合成声纹样本数据的平均分数,以正常样本数据平均置信分数作为上限,以未知类人工合成声纹样本数据平均置信分数作为下限,分别设置阈值,高于阈值的判定为正常数据,低于阈值的判定为人工合成数据。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于自编码器结合辨别器,能够对已知类进行分类,同时采用自编码器,在训练初期通过生成器生成虚假数据集,有效解决了数据集较少的问题,达到了高效的训练效果;
(2)本发明融合了标准置信度输出和多分类器输出,共同计算对已知类和未知类的置信分数,使已知类输出具有高置信分数,未知类具有低置信分数,同时通过测试集设置阈值,将高于阈值的样本归类为已知类,将低于阈值的样本归类为未知类,克服了传统深度学习分类器只能归类已知类,不能检测未知类的弊端,对人工合成声纹达到较高的检测准确率,同时对属于已知类的样本有更好的分类效果。
附图说明
图1为本实施例基于深度学习的人工合成声纹检测系统的整体结构示意图;
图2为本实施例基于深度学习的人工合成声纹检测系统的编码器结构示意图;
图3为本实施例基于深度学习的人工合成声纹检测系统的解码器结构示意图;
图4为本实施例基于深度学习的人工合成声纹检测系统的辨别器结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于深度学习的人工合成声纹检测系统,包括自编码器、生成器和辨别器,其中,自编码器包括编码器和解码器,自编码器采用Adam作为优化器,设置学习率为a,训练次数为m;
如图2所示,在本实施例中,编码器的结构包括:编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层;
在本实施例中,卷积层用于进行特征提取;池化层对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征;批归一化层用于加快训练速度,提高识别精度;全连接层用于把卷积层提取的局部特征重新通过权值矩阵映射到样本标记空间;
其中,编码器第一卷积层:卷积核为3x3,1通道输入,4通道输出;
编码器批归一化层:核心大小为4;
编码器第一最大池化层:核心大小为3x3,
编码器第二卷积层:卷积核为3x3,4通道输入,8通道输出;
编码器第二最大池化层:核心大小为3x3;
编码器全连接层:110维输入,27*27维输出;
如图3所示,在本实施例中,解码器的结构包括:解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列;
其中,解码器嵌入层:10维输入,10维输出;
解码器全连接层:100维输入,32*32维输出;
解码器批归一化层:核心大小为1;
解码器第一反卷积层序列包括:
1)反卷积核为3x3的反卷积层,1通道输入,64通道输出;
2)卷积核为3x3的卷积层,64通道输入,128通道输出;
3)核心大小为64的批归一化层;
解码器第二反卷积层序列包括:
1)反卷积核为3x3的反卷积层,64通道输入,64通道输出;
2)卷积核为3x3的卷积层,64通道输入,128通道输出;
3)核心大小为32的批归一化层;
解码器卷积层序列:采用卷积核为3x3的卷积层,32通道输入,32通道输出的批归一化层;
其中,每一个反卷积层序列中加入0.4的随机失活值,使用线性整流函数作为激活函数,Adam优化器的学习率设定为0.001,训练次数控制在200以内;
在本实施例中,生成器的结构与自编码器中的解码器结构相同,主输入采用batchx 100的二维正态分布噪声向量,本实施例的批(batch)设为2,标签输入与解码器相同,采用真实训练数据对应的标签,采用10维的one-hot编码,通过嵌入层的映射输入到自编码器中,生成的输出为32x32的虚假特征向量;
如图4所示,在本实施例中,辨别器的结构包括:辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层;
其中,辨别器嵌入层:10维one-hot输入,10维输出,本实施例的嵌入层用于降低维度,加快训练速度;
辨别器全连接层:256维输入,256维输出,用于连接输入的数据特征向量和映射后的数据标签;
辨别器第一卷积层序列包括:
1)卷积核大小为3x3的卷积层,1通道输入,8通道输出;
2)核心大小为4的批归一化层;
3)核心大小为3x3的平均池化层;
4)采用带泄露修正线性单函数作为激活函数;
辨别器第二卷积层序列包括:
1)卷积核大小为3x3的卷积层,4通道输入,8通道输出;
2)核心大小为4的批归一化层;
3)核心大小为3x3的平均池化层;
4)采用带泄露修正线性单函数作为激活函数;
多分类器包括:
1)多分类器第一全连接层,32维输入,32维输出;
2)多分类器第二全连接层,32维输入,10维输出;
3)多分类器输出采用L1Loss函数作为激活函数;
辨别器输出层包括:
1)辨别器输出层第一全连接层,32维输入,10维输出;
2)辨别器输出层第二全连接层,10维输出,1维输出。
本实施例还提供一种基于深度学习的人工合成声纹检测方法,步骤包括:
S1:采用包含人工合成声纹类别标签的数据集,其中划分小于一半的部分数据集为未知类别声纹数据集,本实施例划分30%部分为未知类别声纹数据集;
S2:初始化自编码器的参数,将数据集的人工合成声纹特征向量输入到自编码器,通过编码器的压缩得到k维的隐空间,其中,编码器压缩即为一个卷积计算的过程,特征向量通过卷积进行压缩,本实施例得到50维的隐空间,隐空间和特征向量对应的标签连接后,输入解码器,得到与原始输入的特征向量有相同大小的还原特征向量;
S3:计算还原特征向量和原始特征向量的损失值进行反向传播,更新自编码器参数,以L1Loss作为损失函数,经过200轮迭代,完成生成器的预训练,计算过程为:
S4:将batch*k的二维正态分布噪声和与人工合成声纹的特征向量对应的标签向量输入到自编码器中,其中,本实施例的k取50,同时将一个batch大小的真实人工合成声纹的特征向量与自编码器生成的一个batch的伪造特征向量输入到辨别器;
S5:计算真实人工合成声纹的特征向量通过辨别器得出的对应的均方差和交叉熵损失值,反向传播后更新辨别器的参数,计算生成器生成的虚假数据通过辨别器得出的对应的均方差和交叉熵损失值,反向传播后更新辨别器和自编码器参数,其中,交叉熵损失函数为:L=-ylogy′+(1-y)log(1-y′);
在本实施例中,反向传播的训练过程中,动态调整生成器和辨别器的学习率,在训练过程中监视虚假数据和真实数据的标准置信度计算,差值较大时,降低辨别器的学习率,差值较小时,增加辨别器的学习率,直至辨别器和自编码器之间判定误差的平衡趋于纳什平衡,则训练完毕;
S6:构造多分类器,采用均方差作为损失函数,多分类器用于对输入辨别器的数据进行归类;
S7:根据步骤S5中两组特征向量输入辨别器得到的输出结果,计算置信度,并同时计算出人工合成声纹检测的阈值;
计算置信度的具体方法为:
计算每个测试样本的最大分类器输出值:
其中,N是测试声纹分类后的数量,xi是测试样本,yi是测试样本标签,是辨别器的多分类器的输出值;
计算每个测试样本的最小分类器输出值:
其中,xi是测试样本,yi是测试样本标签;
计算每个测试样本的置信度得分:
其中,Gout(xi,yi)表示辨别器的基本置信度输出,表示最大分类器输出值,表示最小分类器输出值,
计算用于人工合成声纹检测的阈值的具体计算公式为:
其中,是正常样本的得分值,是未知类人工合成声纹的得分值,通过多次测试阈值以确定最终阈值,最终确定的阈值在以未知类人工合成声纹得分为下界,正常样本得分为上界的区间之内。
S8:将验证数据按照标签分为正常数据和人工合成数据,经过上述置信分数的计算方法,得到每一个验证数据的置信分数,分别对正常样本数据和未知类人工合成声纹样本数据的置信分数取平均值,得到正常样本数据的平均置信分数和未知类人工合成声纹样本数据的平均分数,以正常样本数据平均置信分数作为上限,以未知类人工合成声纹样本数据平均置信分数作为下限,分别设置阈值,高于阈值的判定为正常数据,低于阈值的判定为人工合成数据,阈值确定完毕后,即可使用测试集测试计算正常类和合成类。
本实施例基于自编码器结合辨别器,能够对已知类进行分类,同时采用自编码器,在训练初期通过生成器生成虚假数据集,有效解决了数据集较少的问题,达到了高效的训练效果,通过融合了标准置信度输出和多分类输出,共同计算对已知类和未知类的置信分数,使已知类输出具有高置信分数,未知类具有低置信分数,同时通过测试集设置阈值,将高于阈值的样本归类为已知类,将低于阈值的样本归类为未知类,克服了传统深度学习分类器只能归类已知类,不能检测未知类的弊端,对人工合成声纹达到较高的检测准确率,同时对属于已知类的样本有更好的分类效果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习的人工合成声纹检测系统,其特征在于,包括自编码器、生成器和辨别器,所述自编码器包括编码器和解码器,所述生成器用于生成虚假特征向量,所述辨别器用于根据真实及虚假的人工合成声纹的特征向量计算得到均方差和交叉熵损失值;
所述编码器包括编码器第一卷积层、编码器批归一化层、编码器第一最大池化层、编码器第二卷积层、编码器第二最大池化层和编码器全连接层;
所述解码器包括解码器嵌入层、解码器全连接层、解码器批归一化层、解码器第一反卷积层序列、解码器第二反卷积层序列和解码器卷积层序列;
所述生成器结构与解密器结构相同;
所述辨别器包括辨别器嵌入层、辨别器全连接层、辨别器第一卷积层序列、辨别器第二卷积层序列、多分类器和辨别器输出层。
2.根据权利要求1所述的基于深度学习的人工合成声纹检测系统,其特征在于,所述编码器第一卷积层和编码器第二卷积层的卷积核大小均设置为3x3,所述编码器批归一化层的核心大小设置为4,所述编码器第一最大池化层与编码器第二最大池化层的核心大小均设置为3x3,所述编码器全连接层设置有110维输入和27*27维输出。
3.根据权利要求1所述的基于深度学习的人工合成声纹检测系统,其特征在于,所述解码器嵌入层设置有10维输入和10维输出,所述解码器全连接层设置有100维输入和32*32维输出,所述解码器批归一化层的核心大小设置为1;
所述解码器第一反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为64的批归一化层;
所述解码器第二反卷积层序列包括反卷积核为3x3的反卷积层、卷积核为3x3的卷积层以及核心大小为32的批归一化层;
所述解码器卷积层序列设有卷积核为3x3的卷积层。
4.根据权利要求3所述的基于深度学习的人工合成声纹检测系统,其特征在于,在每一个反卷积层序列中加入0.4的随机失活值,激活函数采用线性整流函数,Adam优化器的学习率设定为0.001。
5.根据权利要求1所述的基于深度学习的人工合成声纹检测系统,其特征在于,所述辨别器嵌入层设有10维one-hot输入和10维输出,所述辨别器全连接层设有256维输入和256维输出,用于连接输入数据的特征向量和映射后的数据标签;
所述辨别器第一卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层;
所述辨别器第二卷积层序列包括卷积核大小为3x3的卷积层、核心大小为4的批归一化层以及核心大小为3x3的平均池化层;
所述多分类器包括:设有32维输入和32维输出的多分类器第一全连接层,以及设有32维输入和10维输出的多分类器第二全连接层,所述多分类器输出激活函数采用L1Loss函数;
所述辨别器输出层包括:设有32维输入和10维输出的辨别器输出层第一全连接层,以及设有10维输出和1维输出的辨别器输出层第二全连接层。
6.一种基于深度学习的人工合成声纹检测方法,其特征在于,包括下述步骤:
S1:采用含有人工合成声纹类别标签的数据集,划分得到未知类别声纹数据集;
S2:初始化自编码器的参数,将数据集的人工合成声纹特征向量输入到自编码器,通过编码器压缩得到k维的隐空间,隐空间和特征向量对应的标签连接后,输入解码器,计算得到还原特征向量;
S3:计算还原特征向量和原始特征向量的损失值进行反向传播,更新自编码器参数;
S4:将batch*k的二维正态分布噪声和与人工合成声纹的特征向量对应的标签向量输入到自编码器中,同时将一个batch大小的真实人工合成声纹的特征向量与生成器生成的一个batch的虚假特征向量输入到辨别器;
S5:真实人工合成声纹的特征向量通过辨别器得到对应的均方差和交叉熵损失值,反向传播后更新辨别器的参数,生成器生成的虚假特征向量通过辨别器得到对应的均方差和交叉熵损失值,反向传播后更新辨别器和自编码器的参数;
S6:构造多分类器,对输入辨别器的数据进行归类,采用均方差作为损失函数;
S7:根据辨别器得到的均方差和交叉熵损失值,计算置信度,并同时计算人工合成声纹检测的阈值;
S8:将验证数据按照标签划分为正常数据和人工合成数据。
7.根据权利要求6所述的基于深度学习的人工合成声纹检测方法,其特征在于,步骤S5中所述的生成器生成的虚假特征向量,具体生成方式为:
采用真实训练数据对应的标签,采用10维的one-hot编码,通过嵌入层的映射输入到自编码器中,生成的输出为32x32的虚假特征向量。
8.根据权利要求6所述的基于深度学习的人工合成声纹检测方法,其特征在于,步骤S5中所述计算置信度的具体公式为:
计算每个测试样本的最大分类器输出值:
其中,N是测试声纹分类后的数量,xi是测试样本,yi是测试样本标签,是辨别器的多分类器的输出值;
计算每个测试样本的最小分类器输出值:
其中,xi是测试样本,yi是测试样本标签;
计算每个测试样本的置信度得分:
其中,Gout(xi,yi)表示辨别器的基本置信度输出,表示最大分类器输出值,表示最小分类器输出值,
所述计算人工合成声纹检测的阈值的具体计算公式为:
其中,是正常样本的得分值,是未知类人工合成声纹的得分值。
9.根据权利要求6所述的基于深度学习的人工合成声纹检测方法,其特征在于,步骤S8所述将验证数据按照标签划分为正常数据和人工合成数据,划分的方式为:
分别对正常样本数据和未知类人工合成声纹样本数据的置信分数取平均值,得到正常样本数据的平均置信分数和未知类人工合成声纹样本数据的平均分数,以正常样本数据平均置信分数作为上限,以未知类人工合成声纹样本数据平均置信分数作为下限,分别设置阈值,高于阈值的判定为正常数据,低于阈值的判定为人工合成数据。
CN201910527094.0A 2019-06-18 2019-06-18 一种基于深度学习的人工合成声纹检测系统及方法 Active CN110289004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910527094.0A CN110289004B (zh) 2019-06-18 2019-06-18 一种基于深度学习的人工合成声纹检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910527094.0A CN110289004B (zh) 2019-06-18 2019-06-18 一种基于深度学习的人工合成声纹检测系统及方法

Publications (2)

Publication Number Publication Date
CN110289004A true CN110289004A (zh) 2019-09-27
CN110289004B CN110289004B (zh) 2021-09-07

Family

ID=68004728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910527094.0A Active CN110289004B (zh) 2019-06-18 2019-06-18 一种基于深度学习的人工合成声纹检测系统及方法

Country Status (1)

Country Link
CN (1) CN110289004B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062036A (zh) * 2019-11-29 2020-04-24 暨南大学 恶意软件识别模型构建、识别方法及介质和设备
CN113450806A (zh) * 2021-05-18 2021-09-28 科大讯飞股份有限公司 语音检测模型的训练方法以及相关方法、装置、设备
CN115862638A (zh) * 2023-03-01 2023-03-28 北京海上升科技有限公司 基于区块链的金融交易操作及大数据安全存储方法和系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379669A1 (en) * 2014-01-28 2016-12-29 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
CN107393542A (zh) * 2017-06-28 2017-11-24 北京林业大学 一种基于双通道神经网络的鸟类物种识别方法
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
US20180040325A1 (en) * 2016-08-03 2018-02-08 Cirrus Logic International Semiconductor Ltd. Speaker recognition
US20180060557A1 (en) * 2016-08-25 2018-03-01 Nxp Usa, Inc. Spoken pass-phrase suitability determination
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN108665058A (zh) * 2018-04-11 2018-10-16 徐州工程学院 一种基于分段损失的生成对抗网络方法
CN109166095A (zh) * 2018-07-11 2019-01-08 广东技术师范学院 一种基于生成对抗机制的眼底影像杯盘分割方法
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
US20190130903A1 (en) * 2017-10-27 2019-05-02 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379669A1 (en) * 2014-01-28 2016-12-29 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US20180040325A1 (en) * 2016-08-03 2018-02-08 Cirrus Logic International Semiconductor Ltd. Speaker recognition
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
US20180060557A1 (en) * 2016-08-25 2018-03-01 Nxp Usa, Inc. Spoken pass-phrase suitability determination
CN107393542A (zh) * 2017-06-28 2017-11-24 北京林业大学 一种基于双通道神经网络的鸟类物种识别方法
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
US20190130903A1 (en) * 2017-10-27 2019-05-02 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks
CN108665058A (zh) * 2018-04-11 2018-10-16 徐州工程学院 一种基于分段损失的生成对抗网络方法
CN109166095A (zh) * 2018-07-11 2019-01-08 广东技术师范学院 一种基于生成对抗机制的眼底影像杯盘分割方法
CN109346087A (zh) * 2018-09-17 2019-02-15 平安科技(深圳)有限公司 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIU, GUANGCAN, ET AL.: "Improving Speech Separation with Adversarial Network and Reinforcement Learning", 《2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
SI CHEN ET AL.: "You Can Hear But You Cannot Steal: Defending Against Voice Impersonation Attacks on Smartphones", 《IEEE COMPUTER SOCIETY》 *
余玲飞: "基于深度循环网络的声纹识别方法研究及应用", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062036A (zh) * 2019-11-29 2020-04-24 暨南大学 恶意软件识别模型构建、识别方法及介质和设备
CN113450806A (zh) * 2021-05-18 2021-09-28 科大讯飞股份有限公司 语音检测模型的训练方法以及相关方法、装置、设备
CN113450806B (zh) * 2021-05-18 2022-08-05 合肥讯飞数码科技有限公司 语音检测模型的训练方法以及相关方法、装置、设备
CN115862638A (zh) * 2023-03-01 2023-03-28 北京海上升科技有限公司 基于区块链的金融交易操作及大数据安全存储方法和系统
CN115862638B (zh) * 2023-03-01 2023-12-12 北京海上升科技有限公司 基于区块链的大数据安全存储方法和系统

Also Published As

Publication number Publication date
CN110289004B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN110289004A (zh) 一种基于深度学习的人工合成声纹检测系统及方法
CN110349136A (zh) 一种基于深度学习的篡改图像检测方法
CN100483509C (zh) 声音信号分类方法和装置
CN108875818A (zh) 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN105184260B (zh) 一种图像特征提取方法及行人检测方法及装置
CN109828251A (zh) 基于特征金字塔轻量卷积神经网络的雷达目标识别方法
CN110148425A (zh) 一种基于完整局部二进制模式的伪装语音检测方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN108681689B (zh) 基于生成对抗网络的帧率增强步态识别方法及装置
CN110532298B (zh) 多属性铁路事故致因权重分析方法
CN109886242A (zh) 一种行人重识别的方法及系统
CN110414513A (zh) 基于语义增强卷积神经网络的视觉显著性检测方法
CN108766464A (zh) 基于电网频率波动超矢量的数字音频篡改自动检测方法
CN110852364A (zh) 矿井突水水源识别方法、装置与电子设备
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN115035052A (zh) 一种基于身份差异量化的伪造换脸图像检测方法和系统
CN106251861A (zh) 一种基于场景建模的公共场所异常声音检测方法
CN111737688B (zh) 基于用户画像的攻击防御系统
CN117253188A (zh) 基于改进的YOLOv5的变电站接地线状态目标检测方法
CN115438786A (zh) 基于样本驱动目标损失函数优化的鲁棒神经网络训练方法
CN115293214A (zh) 一种基于样本扩充网络的水声目标识别模型优化方法
CN114898137A (zh) 面向人脸识别的黑盒对抗样本攻击方法、装置、设备及介质
CN113537313A (zh) 一种基于wgan训练收敛的不平衡数据集分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant