CN113380255A - 一种基于迁移训练的声纹识别中毒样本生成方法 - Google Patents

一种基于迁移训练的声纹识别中毒样本生成方法 Download PDF

Info

Publication number
CN113380255A
CN113380255A CN202110543214.3A CN202110543214A CN113380255A CN 113380255 A CN113380255 A CN 113380255A CN 202110543214 A CN202110543214 A CN 202110543214A CN 113380255 A CN113380255 A CN 113380255A
Authority
CN
China
Prior art keywords
sample
poisoning
layer
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110543214.3A
Other languages
English (en)
Other versions
CN113380255B (zh
Inventor
徐东伟
房若尘
蒋斌
杨浩
顾淳涛
宣琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110543214.3A priority Critical patent/CN113380255B/zh
Publication of CN113380255A publication Critical patent/CN113380255A/zh
Application granted granted Critical
Publication of CN113380255B publication Critical patent/CN113380255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于迁移训练的声纹识别中毒样本生成方法,包括以下步骤:(1)对语音数据集预处理;(2)搭建声纹识别模型;(3)获得迁移训练任务数据集的特征表示空间;(4)从测试集中选择目标样本与基样本;(5)利用优化算法生成中毒样本;(6)将中毒样本加入到原训练集中进行迁移训练:在不改变原模型权重的情况下,只重新训练替换的softmax层适用当前分类任务,训练集为原训练集加上一个中毒样本。在测试阶段,目标样本将会被误分类为基样本的标签。本发明使攻击成功率得到极大的提高。

Description

一种基于迁移训练的声纹识别中毒样本生成方法
技术领域
本发明涉及一种基于迁移训练的声纹识别中毒样本生成方法,本发明属于深度学习安全领域。
背景技术
深度学习是人工智能最常见的技术之一,在近几年飞速发展,它可以处理许多复杂的任务,包括图像识别、对象检测、语音识别、信号处理等。声纹识别作为目前最成熟的生物特征认证技术之一,基于深度学习的声纹识别技术使其精度得到极大的提高。但事实证明,深度学习模型容易受到攻击,攻击者通过发现模型的弱点并制作出与原始样本不同的对抗样本,从而使训练后的模型无法正确运行,因此针对声纹识别的攻击方法引起了广泛的关注。
目前针对深度学习的攻击可以分为对抗攻击与中毒攻击,对抗攻击即在测试阶段,攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本,对深度学习模型进行愚弄,使其以较高置信度误判输入,是以往研究的重点,但在实际某些情况下,攻击者因为没有权限而很难在测试阶段对数据进行修改,因而这种攻击存在明显的弊端。中毒攻击发生在模型训练阶段,一般通过将制作的中毒样本加入到原训练集中,从而在训练完成的深度学习模型中嵌入后门触发器,在测试阶段输入指定样本,触发毒性爆发。在之前的工作中,中毒攻击通常更改训练数据的部分类标使模型中毒训练,但这样不仅会大幅度降低测试集的精度,也会对指定样本无差别的分类,使得这种攻击方法实用性不高。
发明内容
为了克服现有技术的不足,本发明提出一种基于迁移训练的声纹识别中毒样本生成方法,该方法是针对基于深度学习的声纹识别模型有目标的攻击,将标注正确但经过精细调整的中毒样本加入训练集中,在测试阶段对于指定样本可以使其以很高的置信度分类错误。
本发明解决其技术问题所采用的技术方案是:
一种基于迁移训练的声纹识别中毒样本生成方法,包括以下步骤:
(1)对语音数据集预处理:对于每一段语音采用傅里叶变换将其转化为频谱,再通过图像的形式保存为语谱图;
(2)搭建声纹识别模型:预先确定声纹识别模型的结构,层数以及各层的参数且不再变化。指定用来训练该模型的数据集,即语音样本,分别给这些样本标注身份标签并输入模型训练,数据集中的样本应以高准确度被正确预测;
(3)获得迁移训练任务数据集的特征表示空间:将新任务数据集输入到预训练的声纹识别模型中,只取softmax之前层的输出,即样本的特征表示空间,该空间的维度由构建模型时定义;
(4)从测试集中选择目标样本与基样本:先指定需要攻击的目标样本,再选择需要攻击的类别,从该类别中选择特征表示空间最接近目标的一个样本,将其视为基样本;
(5)利用优化算法生成中毒样本:以基样本为起始点,利用Adam优化算法与后向步骤进行迭代生成中毒样本,每次迭代过程中通过预训练声纹识别模型更新特征表示空间,最终使目标样本与中毒样本特征表示空间无限接近,但输入空间几乎不改变;
(6)将中毒样本加入到原训练集中进行迁移训练:在不改变原模型权重的情况下,只重新训练替换的softmax层适用当前分类任务,训练集为原训练集加上一个中毒样本,在测试阶段,目标样本将会被误分类为基样本的标签。
本发明中,预处理语音数据集提取语谱图特征并搭建声纹识别模型,使模型能够高精度准确预测数据集中语音的身份标签。将用来迁移的新数据集输入该模型中来获得准确的特征表示空间,从新测试集中选择基样本与目标样本,它们应属于不同的类别;利用Adam优化算法与后向步骤找到一个输入空间接近基样本,但特征空间接近目标样本的中毒示例,将此中毒音频加入训练集迁移训练,使其适用当前的分类任务,在测试阶段输入目标样本,模型会以很高的置信度将其分类为基样本的身份标签。
本发明的有益效果为:(1)本发明对声纹身份进行分类时未采用传统的声学特征的方法,而是通过将语音转化为语谱图进行训练,可以充分利用卷积神经网络在图像上提取特征的优点,使精度得到极大的提高。(2)本发明应用场景为在大规模数据集训练的模型上进行迁移训练,中毒样本由攻击者发布到网上供用户训练使用,该中毒样本的标签已由专家正确标注(纯净标签),但依然会使模型出现漏洞,避免了训练阶段强行更改标签的问题。(3)本发明的中毒攻击方法只需加入一个中毒样本到训练集中就可以使模型错误识别为基样本标签,不仅效率高,而且测试集的精度不会降低。
本发明通过在迁移训练过程中加入中毒样本进行有目标的攻击,中毒样本通过前向后向算法生成,不仅与原始音频几乎没有区别,而且被正确的标注类别,增强了攻击的隐蔽性。经过中毒训练的声纹识别模型会将指定的音频样本识别为目标类别。
附图说明
图1是基于迁移训练的中毒攻击总体流程图。
图2是基于迁移训练的中毒攻击原理图。
图3是声纹识别模型及迁移训练结构图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,一种基于迁移训练的声纹识别中毒样本生成方法,包括以下步骤:
(1)对数据集进行预处理,将它们转化为语谱图,步骤如下:
(1.1):分帧,语音信号中的频率随时间而变化,是个非平稳态过程,所以在大多数情况下,对整个信号进行傅立叶变换是没有意义的,随着时间的推移会丢失信号的频率轮廓,为了避免这种情况,需要进行分帧操作,把每一帧当成平稳信号处理,通过连接相邻帧来获得信号频率轮廓的良好近似,将N个采样点集合成一个观测单位,称为帧,长度为Ttotal的语音信号分帧公式如下:
u=H[(Ttotal-toverlap)/tinc] (1)
toverlap=ts-tinc (2)
其中u表示帧的数量,ts表示每帧涵盖的时间,tinc表示后一帧对前一帧的位移量(简称帧移),toverlap表示相邻两帧间的重叠部分,用来避免相邻两帧的变化过大,保持语音信息的完整性,H(.)表示取整函数,第i帧语音信号表示为Si(n),n=0,1,2,…,N-1,这里0≤i≤u;
(1.2):加窗,为了增加每一帧左端与右端的连续性,需要对帧进行加窗处理,通过一个窗函数使原本没有周期性的语音信号呈现周期函数的部分特征,最常用的是汉明窗,某一帧乘上汉明窗后信号为S′i(n):
S′i(n)=Si(n)×W(n) (3)
W(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1 (4)
(1.3):提取语音频谱图:对语音信号从时域转换到频域处理,将每一帧采用短时傅里叶变换得到在频谱上的能量分布,公式如下
Figure BDA0003072506670000051
其中S′i(n)是输入的语音信号,k表示频率点,N表示傅里叶变换的点数,与变换后频率点的总个数相同,一般取每一帧采样点的数量。Xi(k)代表第i帧的频谱,表示频率与能量的关系;为了使那些幅值较低的成分相对高幅值成分得以拉高,以便观察掩盖在低幅噪声中的周期信号,将频谱转换为对数功率谱:
X′i(k)=10log10|Xi(k)|2 (6)
将每一帧的对数功率谱求转置矩阵后映射到一个灰度级表示:
Figure BDA0003072506670000052
其中X′i(k)=[X′i(1),X′i(2),...,X′i(N)],Yi表示第i帧的灰度矩阵,最后将每一帧的灰度级表示在时间轴上拼凑起来得到语谱图,起到用二维表示三维的作用,公式如下:
Ygray=[Y1,Y1,...,Yu] (8)
此处Ygray表示灰度语谱图,最后将其进行彩色映射Y=RGB(Ygray)变为彩色语谱图Y;
(2)搭建声纹识别模型,过程如下:
先预先指定模型的结构,层数以及各层的参数且不再变化,采用的分类模型结构包含卷积层,池化层,批归一化层(BN层),全连接层,模型结构图如图3所示,其中卷积层,池化层,批归一化层构成一个卷积块,其卷积层用来提取语谱图的局部特征,池化层扩大感知视野,BN层用批量数据来对输入归一化,加速收敛,减小过拟合,卷积层的数学表达式如下:
Hout=(Hin+2padding-kernel_size)/stride+1 (9)
Wout=(Win+2padding-kernel_size)/stride+1 (10)
其中,Hout为卷积层输出的宽度,Wout为卷积层输出的长度,Hin为输入卷积层的宽度,Win为输入卷积层的长度,padding为输入的每条边补充0的层数,stride为卷积步长,kernel_size为卷积核尺寸。若模型输入的语谱图为Y,则经过第m个卷积块后的输出为:
Y(m)=Conv_Block(Y(m-1)) (11)
其中,Y(0)=Y,Conv_Block表示卷积块,然后使用Flatten函数将最终卷积块后的输出变换为一维矩阵输入至全连接层:
Z(0)=Flatten(Y(i)) (12)
Z(l)=Relu(w(l)·Z(l-1)+b(l)) (13)
其中i表示卷积块的总个数,Z(l-1)和Z(l)分别表示第l个全连接层的输入和输出,这里1≤l≤j-1,j表示全连接层的总数量,w(l)表示该层的权重矩阵,b(l)表示该层的偏置矩阵,采用Relu激活函数来减少参数间的依存关系,缓解过拟合现象;
该模型的参数有卷积层的数量和大小、池化层的大小、全连接层神经元的数量;将此模型在50个不同说话人的数据集上进行训练,使其拥有良好的提取样本特征的能力,可作为小型声纹识别任务迁移训练的通用模板;
(3)获得迁移任务数据集的特征表示空间,过程如下:
将此数据集输入到预训练的声纹识别模型中,保存预训练模型网络倒数第二层(softmax层之前的全连接层)的输出即:
Figure BDA0003072506670000071
全连接层可以提取全局特征,因此该层编码的了高级语音特征,
Figure BDA0003072506670000072
称之为特征表示空间,表示样本在分类决策面上的分布,不同身份语音的特征表示空间应有明显的差异;
(4)选择目标样本与基样本,步骤如下:
(4.1):从测试集中根据攻击者的需求选择一个目标类别t和一个基类别b,从标签为t的样本中随机挑选一个目标样本Yt
Yt=Select(Gt) (15)
其中Gt表示测试集中所有标签为t的样本,成功的攻击会使迁移训练后的模型将目标样本Yt预测为基类别b。
(4.2):从标签为b的样本中挑选基样本Yb,选择基样本时优先选择特征空间最接近目标样本的示例,选择算法如下:
Figure BDA0003072506670000073
其中
Figure BDA0003072506670000074
表示目标样本的特征表示空间,
Figure BDA0003072506670000075
表示第i个候选基样本的特征表示空间,
Figure BDA0003072506670000081
M表示特征空间的维数,此算法使用欧式距离选择特征表示空间靠近目标的基样本Yb,在中毒样本生成过程中可以减少迭代次数,增加攻击成功率,优化中毒样本的质量;
(5)用前向后向算法生成中毒样本,步骤如下:
(5.1):加载目标样本的特征表示空间,根据样本频谱图的维数与特征空间的维数选择参数α以满足以下损失函数:
Figure BDA0003072506670000082
以基样本Yb为起始优化点,即Y′=Yb迭代生成中毒样本,Y′表示优化过程中的中毒样本的语谱图,
Figure BDA0003072506670000083
表示该中毒样本的特征表示空间,最终生成的中毒样本YP不仅特征表示空间贴近目标样本,它本身的语谱图相对于基样本几乎不改变,参数α的计算如下:
α=β×(M/Q)2 (18)
β是超参数,M是特征表示空间的维数,Q是样本输入特征的维数,由此选择的α可根据样本不同的维数自适应数值以调整优化的重心。
(5.2):使用前向传播与Adam算法优化中毒样本,Adam更新梯度时对梯度的一阶矩估计和二阶矩估计进行了综合考虑:
Figure BDA0003072506670000084
Figure BDA0003072506670000085
Figure BDA0003072506670000086
Figure BDA0003072506670000087
Figure BDA0003072506670000088
其中T是迭代的次数,在第一次迭代中,Y′0=Y′,αT是指定的学习率且不再变化,β1和β2是指数衰减率,
Figure BDA0003072506670000091
表示当时损失函数相对于中毒样本Y′T-1的梯度,mT是梯度的指数移动平均数,vT是梯度平方的指数移动平均数,因m0和v0初始化为0,所以用
Figure BDA0003072506670000092
Figure BDA0003072506670000093
对梯度均值进行偏差修正,ε是用来避免除数为0的极小数。Adam对更新步长的计算,从梯度均值和梯度平方两个角度进行自适应调节,可以加速收敛速度;
(5.3):后向算法用来优化中毒样本的输入空间,使中毒样本与基样本的语谱图更相似,以此欺骗样本标签标注者,其中λ是调整语谱图的相似度的超参数,clip用来将扰动限制到规定范围:
Figure BDA0003072506670000094
(5.4):重复(5.3)-(5.4),直至样本特征空间的距离小于指定阈值或者迭代次数超出给定范围,保存中毒样本;
(6)对中毒样本进行性能测试,步骤如下:
(6.1):将中毒样本扩充到训练集中进行迁移训练:
Figure BDA0003072506670000095
D表示迁移任务原训练集,D=[Y1,Y2,...Yv],v表示原训练集的样本数量,
Figure BDA0003072506670000096
表示加入中毒样本后的训练集;针对测试集所有样本生成中毒示例并对它们分别进行迁移训练以评测攻击性能;在模型权重不变的情况,根据当前分类任务替换softmax层,对其进行重新训练,新模型应能以高精度预测语音身份;
(6.2):计算中毒攻击的成功率:在测试阶段,对每一次迁移训练后的模型,输入目标样本到模型,若模型将其预测为基类的标签(或者预测错误),则攻击成功,否则,攻击失败,攻击成功率表示为:
Figure BDA0003072506670000101
其中,f(.)表示目标样本经softmax层后输出的概率分布,
Figure BDA0003072506670000102
表示目标样本的真实标签,equal(.)表示目标样本被正确预测的个数,n表示测试集即目标样本的个数,Accp表示攻击成功率,可以衡量此中毒攻击的性能。
实例:实际实验中的数据
(1)选取实验数据
实验所用数据集均为DIDI语音数据集,此数据集收集了不同年龄段,不同性别,不同地区说话者在安静环境下录制的语音,每人大约有110句话。因为设备以及实验成本的限制,将选择50人的语音作为预训练的数据集,使模型具有良好的特征提取能力,迁移训练时再选择6/12个人的语音作为新分类任务。为了使训练结果具有高精度,数据集划分如下:每个人随机选择80句话作为训练集,其余作为验证集(测试集),并将其采用上述步骤转为语谱图。
(2)参数确定
语音数据预处理中,选择帧长ts=0.025s,帧叠取帧长的1/3,傅里叶变换的点数NFFT=1024。
本发明所采用的声纹识别模型结构如下:模型包含五个卷积层,五个池化层,五个批归一化层,四个全连接层。五个卷积层卷积核的大小均为3×3,卷积核的数量分别为32,128,256,256,256,激活函数均为“Relu”;池化层中的池化尺寸为2×2;前三个全连接层神经元的个数为512,即特征空间的维数M=512,最后一个全连接层神经元的个数视分类任务而定。
经过处理后的语谱图维数为224×224×3,特征空间的维数为512,选择超参数β=0.2,则目标损失函数的参数α=0.2×[512/(224×224×3)]2。Adam优化过程中指数衰减率β1=0.9,β2=0.999,ε=1×10-8,后向传播取λ=αT来控制中毒样本与基样本的相似度,本次实验中αT取0.005与0.0005来进行对比。
(3)实验结果
中毒样本扰动量衡量指标选择相对L2范数,函数表达式为:
Figure BDA0003072506670000111
其中Yb是基样本,Yp是中毒样本,用σ来衡量添加的扰动相对于原样本的改变量,σ值越小表示中毒样本的质量越好,越不容易区分。实验中预训练声纹识别模型的精度为99%,我们测试了将其迁移到6分类、12分类时中毒攻击的效果以及中毒样本的扰动大小,结果如表1所示,Feat1距离表示攻击后基样本与目标样本特征空间的差异,值越小表示攻击的效果越好,针对所有测试集中的样本都生成对应的中毒样本分别进行迁移训练,再预测目标样本的标签以此衡量攻击成功率。
本发明中毒攻击的原理如图3所示,用二维图像表示语音样本在特征空间的分布。在正常的训练过程中,每个类别之间会有明确的决策边界,训练良好的模型将其划分,用实线表示,选择基样本与目标样本并生成一个中毒样本,当加入中毒样本进行训练时,会将中毒样本划分到标注类别,即决策边界会发生微小的偏转,如虚线所示,此时目标样本因特征空间接近中毒样本而被分类到错误类别。
表1为迁移训练中毒攻击结果分析;
迁移任务 模型精度 学习率α<sub>T</sub> 攻击成功率 Feat1距离 扰动σ
6分类 99% 0.0005 97% 4.1 0.002
6分类 99% 0.005 99% 3.1 0.003
12分类 99% 0.0005 96% 4.4 0.003
12分类 99% 0.005 99% 3.5 0.004
表1
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (7)

1.一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,所述方法包括以下步骤:
(1)对语音数据集预处理:对于每一段语音采用傅里叶变换将其转化为频谱,再通过图像的形式保存为语谱图;
(2)搭建声纹识别模型:预先确定声纹识别模型的结构,层数以及各层的参数且不再变化,指定用来训练该模型的数据集,即语音样本,分别给这些样本标注身份标签并输入模型训练,数据集中的样本应以高准确度被正确预测;
(3)获得迁移训练任务数据集的特征表示空间:将新任务数据集输入到预训练的声纹识别模型中,只取softmax之前层的输出,即样本的特征表示空间,该空间的维度由构建模型时定义;
(4)从测试集中选择目标样本与基样本:先指定需要攻击的目标样本,再选择需要攻击的类别,从该类别中选择特征表示空间最接近目标的一个样本,将其视为基样本;
(5)利用优化算法生成中毒样本:以基样本为起始点,利用Adam优化算法与后向步骤进行迭代生成中毒样本,每次迭代过程中通过预训练声纹识别模型更新特征表示空间,最终使目标样本与中毒样本特征表示空间无限接近,但输入空间几乎不改变;
(6)将中毒样本加入到原训练集中进行迁移训练:在不改变原模型权重的情况下,只重新训练替换的softmax层适用当前分类任务,训练集为原训练集加上一个中毒样本,在测试阶段,目标样本将会被误分类为基样本的标签。
2.如权利要求1所述的一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,所述步骤(1)的步骤如下:
(1.1):分帧,语音信号中的频率随时间而变化,是个非平稳态过程,所以在大多数情况下,对整个信号进行傅立叶变换是没有意义的,随着时间的推移会丢失信号的频率轮廓,为了避免这种情况,需要进行分帧操作,把每一帧当成平稳信号处理,通过连接相邻帧来获得信号频率轮廓的良好近似,将N个采样点集合成一个观测单位,称为帧,长度为Ttotal的语音信号分帧公式如下:
u=H[(Ttotal-toverlap)/tinc] (1)
toverlap=ts-tinc (2)
其中u表示帧的数量,ts表示每帧涵盖的时间,tinc表示后一帧对前一帧的位移量(简称帧移),toverlap表示相邻两帧间的重叠部分,用来避免相邻两帧的变化过大,保持语音信息的完整性,H(.)表示取整函数,第i帧语音信号表示为Si(n),n=0,1,2,…,N-1,这里0≤i≤u;
(1.2):加窗,为了增加每一帧左端与右端的连续性,需要对帧进行加窗处理,通过一个窗函数使原本没有周期性的语音信号呈现周期函数的部分特征,最常用的是汉明窗,某一帧乘上汉明窗后信号为S′i(n):
S′i(n)=Si(n)×W(n) (3)
W(n)=0.54-0.46cos[2πn/(N-1)],0≤n≤N-1 (4)
(1.3):提取语音频谱图:对语音信号从时域转换到频域处理,将每一帧采用短时傅里叶变换得到在频谱上的能量分布,公式如下
Figure FDA0003072506660000021
其中S′i(n)是输入的语音信号,k表示频率点,N表示傅里叶变换的点数,与变换后频率点的总个数相同,取每一帧采样点的数量,Xi(k)代表第i帧的频谱,表示频率与能量的关系;将频谱转换为对数功率谱:
X′i(k)=10log10|Xi(k)|2 (6)
将每一帧的对数功率谱求转置矩阵后映射到一个灰度级表示:
Figure FDA0003072506660000022
其中X′i(k)=[X′i(1),X′i(2),...,X′i(N)],Yi表示第i帧的灰度矩阵,最后将每一帧的灰度级表示在时间轴上拼凑起来得到语谱图,起到用二维表示三维的作用,公式如下:
Ygray=[Y1,Y1,...,Yu] (8)
此处Ygray表示灰度语谱图,最后将其进行彩色映射Y=RGB(Ygray)变为彩色语谱图Y。
3.如权利要求1或2所述的一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,所述(2)的过程如下:
先预先指定模型的结构,层数以及各层的参数且不再变化,采用的分类模型结构包含卷积层,池化层,批归一化层(BN层),全连接层,模型结构图如图3所示,其中卷积层,池化层,批归一化层构成一个卷积块,其卷积层用来提取语谱图的局部特征,池化层扩大感知视野,BN层用批量数据来对输入归一化,加速收敛,减小过拟合,卷积层的数学表达式如下:
Hout=(Hin+2padding-kernel_size)/stride+1 (9)
Wout=(Win+2padding-kernel_size)/stride+1 (10)
其中,Hout为卷积层输出的宽度,Wout为卷积层输出的长度,Hin为输入卷积层的宽度,Win为输入卷积层的长度,padding为输入的每条边补充0的层数,stride为卷积步长,kernel_size为卷积核尺寸,若模型输入的语谱图为Y,则经过第m个卷积块后的输出为:
Y(m)=Conv_Block(Y(m-1)) (11)
其中,Y(0)=Y,Conv_Block表示卷积块,然后使用Flatten函数将最终卷积块后的输出变换为一维矩阵输入至全连接层:
Z(0)=Flatten(Y(i)) (12)
Z(l)=Relu(w(l)·Z(l-1)+b(l)) (13)
其中i表示卷积块的总个数,Z(l-1)和Z(l)分别表示第l个全连接层的输入和输出,这里1≤l≤j-1,j表示全连接层的总数量,w(l)表示该层的权重矩阵,b(l)表示该层的偏置矩阵,采用Relu激活函数来减少参数间的依存关系,缓解过拟合现象;
该模型的参数有卷积层的数量和大小、池化层的大小、全连接层神经元的数量;将此模型在50个不同说话人的数据集上进行训练,使其拥有良好的提取样本特征的能力,作为小型声纹识别任务迁移训练的通用模板。
4.如权利要求1或2所述的一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,所述步骤(3)的过程如下:
将此数据集输入到预训练的声纹识别模型中,保存预训练模型网络倒数第二层(softmax层之前的全连接层)的输出即:
Figure FDA0003072506660000031
全连接层可以提取全局特征,因此该层编码的了高级语音特征,
Figure FDA0003072506660000032
称之为特征表示空间,表示样本在分类决策面上的分布,不同身份语音的特征表示空间应有明显的差异。
5.如权利要求1或2所述的一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,所述步骤(4)的步骤如下:
(4.1):从测试集中根据攻击者的需求选择一个目标类别t和一个基类别b,从标签为t的样本中随机挑选一个目标样本Yt
Yt=Select(Gt) (15)
其中Gt表示测试集中所有标签为t的样本,成功的攻击会使迁移训练后的模型将目标样本Yt预测为基类别b;
(4.2):从标签为b的样本中挑选基样本Yb,选择基样本时优先选择特征空间最接近目标样本的示例,选择算法如下:
Figure FDA0003072506660000041
其中
Figure FDA0003072506660000042
表示目标样本的特征表示空间,
Figure FDA0003072506660000043
表示第i个候选基样本的特征表示空间,
Figure FDA0003072506660000044
M表示特征空间的维数,此算法使用欧式距离选择特征表示空间靠近目标的基样本Yb,在中毒样本生成过程中可以减少迭代次数,增加攻击成功率,优化中毒样本的质量。
6.如权利要求1或2所述的一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,所述步骤(5)的步骤如下:
(5.1):加载目标样本的特征表示空间,根据样本频谱图的维数与特征空间的维数选择参数α以满足以下损失函数:
Figure FDA0003072506660000045
以基样本Yb为起始优化点,即Y′=Yb迭代生成中毒样本,Y′表示优化过程中的中毒样本的语谱图,
Figure FDA0003072506660000046
表示该中毒样本的特征表示空间,最终生成的中毒样本YP不仅特征表示空间贴近目标样本,它本身的语谱图相对于基样本几乎不改变,参数α的计算如下:
α=β×(M/Q)2 (18)
β是超参数,M是特征表示空间的维数,Q是样本输入特征的维数,由此选择的α可根据样本不同的维数自适应数值以调整优化的重心;
(5.2):使用前向传播与Adam算法优化中毒样本,Adam更新梯度时对梯度的一阶矩估计和二阶矩估计进行了综合考虑:
Figure FDA0003072506660000047
Figure FDA0003072506660000048
Figure FDA0003072506660000049
Figure FDA0003072506660000051
Figure FDA0003072506660000052
其中T是迭代的次数,在第一次迭代中,Y0′=Y′,αT是指定的学习率且不再变化,β1和β2是指数衰减率,
Figure FDA0003072506660000053
表示当时损失函数相对于中毒样本Y′T-1的梯度,mT是梯度的指数移动平均数,vT是梯度平方的指数移动平均数,因m0和v0初始化为0,所以用
Figure FDA0003072506660000054
Figure FDA0003072506660000055
对梯度均值进行偏差修正,ε是用来避免除数为0的极小数,Adam对更新步长的计算,从梯度均值和梯度平方两个角度进行自适应调节,可以加速收敛速度;
(5.3):后向算法用来优化中毒样本的输入空间,使中毒样本与基样本的语谱图更相似,以此欺骗样本标签标注者,其中λ是调整语谱图的相似度的超参数,clip用来将扰动限制到规定范围:
Figure FDA0003072506660000056
(5.4):重复(5.3)-(5.4),直至样本特征空间的距离小于指定阈值或者迭代次数超出给定范围,保存中毒样本。
7.如权利要求1或2所述的一种基于迁移训练的声纹识别中毒样本生成方法,其特征在于,(6)对中毒样本进行性能测试,步骤如下:
(6.1):将中毒样本扩充到训练集中进行迁移训练:
Figure FDA0003072506660000057
D表示迁移任务原训练集,D=[Y1,Y2,...Yv],v表示原训练集的样本数量,
Figure FDA0003072506660000058
表示加入中毒样本后的训练集;针对测试集所有样本生成中毒示例并对它们分别进行迁移训练以评测攻击性能;在模型权重不变的情况,根据当前分类任务替换softmax层,对其进行重新训练,新模型应能以高精度预测语音身份;
(6.2):计算中毒攻击的成功率:在测试阶段,对每一次迁移训练后的模型,输入目标样本到模型,若模型将其预测为基类的标签(或者预测错误),则攻击成功,否则,攻击失败,攻击成功率表示为:
Figure FDA0003072506660000059
其中,f(.)表示目标样本经softmax层后输出的概率分布,
Figure FDA00030725066600000510
表示目标样本的真实标签,equal(.)表示目标样本被正确预测的个数,n表示测试集即目标样本的个数,Accp表示攻击成功率,可以衡量此中毒攻击的性能。
CN202110543214.3A 2021-05-19 2021-05-19 一种基于迁移训练的声纹识别中毒样本生成方法 Active CN113380255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110543214.3A CN113380255B (zh) 2021-05-19 2021-05-19 一种基于迁移训练的声纹识别中毒样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110543214.3A CN113380255B (zh) 2021-05-19 2021-05-19 一种基于迁移训练的声纹识别中毒样本生成方法

Publications (2)

Publication Number Publication Date
CN113380255A true CN113380255A (zh) 2021-09-10
CN113380255B CN113380255B (zh) 2022-12-20

Family

ID=77571240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110543214.3A Active CN113380255B (zh) 2021-05-19 2021-05-19 一种基于迁移训练的声纹识别中毒样本生成方法

Country Status (1)

Country Link
CN (1) CN113380255B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238217A (zh) * 2022-02-24 2022-03-25 清华大学 土地覆盖样本时空迁移方法、系统
CN114299365A (zh) * 2022-03-04 2022-04-08 上海观安信息技术股份有限公司 图像模型隐蔽后门的检测方法及系统、存储介质、终端
CN115481719A (zh) * 2022-09-20 2022-12-16 宁波大学 一种防御基于梯度的对抗攻击的方法
CN116596923A (zh) * 2023-07-17 2023-08-15 天津市蓟州区民力新能源科技有限公司 基于边缘检测的园林植物识别方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN110598400A (zh) * 2019-08-29 2019-12-20 浙江工业大学 一种基于生成对抗网络的高隐藏中毒攻击的防御方法及应用
CN110610708A (zh) * 2019-08-31 2019-12-24 浙江工业大学 一种基于布谷鸟搜索算法的声纹识别攻击防御方法
CN110826059A (zh) * 2019-09-19 2020-02-21 浙江工业大学 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
US20200134468A1 (en) * 2018-10-26 2020-04-30 Royal Bank Of Canada System and method for max-margin adversarial training
CN111539916A (zh) * 2020-04-08 2020-08-14 中山大学 一种对抗鲁棒的图像显著性检测方法及系统
AU2020102038A4 (en) * 2020-08-28 2020-10-08 Jia, Yichen Mr A speaker identification method based on deep learning
CN111914256A (zh) * 2020-07-17 2020-11-10 华中科技大学 一种机器学习训练数据受投毒攻击的防御方法
CN112085055A (zh) * 2020-08-05 2020-12-15 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112149609A (zh) * 2020-10-09 2020-12-29 中国人民解放军空军工程大学 一种针对电能质量信号神经网络分类模型的黑盒对抗样本攻击方法
CN112182576A (zh) * 2020-10-14 2021-01-05 桂林电子科技大学 一种基于深度学习中特征碰撞的投毒攻击方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134468A1 (en) * 2018-10-26 2020-04-30 Royal Bank Of Canada System and method for max-margin adversarial training
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN110598400A (zh) * 2019-08-29 2019-12-20 浙江工业大学 一种基于生成对抗网络的高隐藏中毒攻击的防御方法及应用
CN110610708A (zh) * 2019-08-31 2019-12-24 浙江工业大学 一种基于布谷鸟搜索算法的声纹识别攻击防御方法
CN110826059A (zh) * 2019-09-19 2020-02-21 浙江工业大学 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
CN111539916A (zh) * 2020-04-08 2020-08-14 中山大学 一种对抗鲁棒的图像显著性检测方法及系统
CN111914256A (zh) * 2020-07-17 2020-11-10 华中科技大学 一种机器学习训练数据受投毒攻击的防御方法
CN112085055A (zh) * 2020-08-05 2020-12-15 清华大学 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
AU2020102038A4 (en) * 2020-08-28 2020-10-08 Jia, Yichen Mr A speaker identification method based on deep learning
CN112149609A (zh) * 2020-10-09 2020-12-29 中国人民解放军空军工程大学 一种针对电能质量信号神经网络分类模型的黑盒对抗样本攻击方法
CN112182576A (zh) * 2020-10-14 2021-01-05 桂林电子科技大学 一种基于深度学习中特征碰撞的投毒攻击方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A. SHAFAHI, R. ET AL.: "Poison frogs! targeted clean-label poisoning attacks on neural networks", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS (NIPS)》 *
WENBO JIANG ET AL.: "Accelerating Poisoning Attack Through Momentum and Adam Algorithms", 《2020 IEEE 92ND VEHICULAR TECHNOLOGY CONFERENCE (VTC2020-FALL)》 *
刘西蒙等: "深度学习中的对抗攻击与防御", 《网络与信息安全学报》 *
陈晋音等: "面向语音识别系统的黑盒对抗攻击方法", 《小型微型计算机系统》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238217A (zh) * 2022-02-24 2022-03-25 清华大学 土地覆盖样本时空迁移方法、系统
CN114238217B (zh) * 2022-02-24 2022-05-20 清华大学 土地覆盖样本时空迁移方法、系统
CN114299365A (zh) * 2022-03-04 2022-04-08 上海观安信息技术股份有限公司 图像模型隐蔽后门的检测方法及系统、存储介质、终端
CN115481719A (zh) * 2022-09-20 2022-12-16 宁波大学 一种防御基于梯度的对抗攻击的方法
CN115481719B (zh) * 2022-09-20 2023-09-15 宁波大学 一种防御基于梯度的对抗攻击的方法
CN116596923A (zh) * 2023-07-17 2023-08-15 天津市蓟州区民力新能源科技有限公司 基于边缘检测的园林植物识别方法及系统
CN116596923B (zh) * 2023-07-17 2023-09-12 天津市蓟州区民力新能源科技有限公司 基于边缘检测的园林植物识别方法及系统

Also Published As

Publication number Publication date
CN113380255B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN113380255B (zh) 一种基于迁移训练的声纹识别中毒样本生成方法
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
CN107729999B (zh) 考虑矩阵相关性的深度神经网络压缩方法
CN107256245B (zh) 面向垃圾短信分类的离线模型改进与选择方法
EP0617827B1 (en) Composite expert
CN113571067B (zh) 一种基于边界攻击的声纹识别对抗样本生成方法
Chen et al. Classification of underwater signals using neural networks
Lin et al. Fairgrape: Fairness-aware gradient pruning method for face attribute classification
CN114203184A (zh) 一种多状态声纹特征识别方法及装置
Kim et al. Incremental binarization on recurrent neural networks for single-channel source separation
CN113239809B (zh) 基于多尺度稀疏sru分类模型的水声目标识别方法
CN114897002A (zh) 基于LPINet的低截获概率雷达信号脉内调制识别方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
Gordienko et al. Adaptive iterative pruning for accelerating deep neural networks
Xu et al. Sparse adversarial attack for video via gradient-based keyframe selection
Namburi Speaker Recognition Based on Mutated Monarch Butterfly Optimization Configured Artificial Neural Network
Reshma et al. A survey on speech emotion recognition
CN112712096A (zh) 基于深度递归非负矩阵分解的音频场景分类方法及系统
CN113378910B (zh) 一种基于纯净标签的电磁信号调制类型识别的中毒攻击方法
CN113627327A (zh) 基于多尺度时频图并行输入卷积神经网络的歌声检测方法
Guoqiang et al. A noise classification algorithm based on SAMME and BP neural network
CN113851148A (zh) 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法
CN113420870A (zh) 用于水声目标识别的U-Net结构生成对抗网络及方法
Zeng et al. Adversarial training for underwater target recognition in complex marine conditions
CN111368976B (zh) 基于神经网络特征识别的数据压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant