CN113113023B - 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统 - Google Patents

面向自动声纹识别系统的黑盒定向对抗攻击方法及系统 Download PDF

Info

Publication number
CN113113023B
CN113113023B CN202110411559.3A CN202110411559A CN113113023B CN 113113023 B CN113113023 B CN 113113023B CN 202110411559 A CN202110411559 A CN 202110411559A CN 113113023 B CN113113023 B CN 113113023B
Authority
CN
China
Prior art keywords
speaker
disturbance
voice
vector
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110411559.3A
Other languages
English (en)
Other versions
CN113113023A (zh
Inventor
孙蒙
张星昱
张雄伟
邹霞
贾冲
李莉
康凯
王彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202110411559.3A priority Critical patent/CN113113023B/zh
Publication of CN113113023A publication Critical patent/CN113113023A/zh
Application granted granted Critical
Publication of CN113113023B publication Critical patent/CN113113023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Complex Calculations (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种面向自动声纹识别系统的黑盒定向对抗攻击方法及系统,包括:根据不同的说话人识别任务确定对应的损失函数;将源说话人的语音、需要被攻击的说话人识别模型、采样点个数、对抗样本生成算法的初始参数以及对应的损失函数,输入到对抗样本生成算法,生成语音扰动;将语音扰动添加到源说话人语音上生成对抗样本。优点:不需要获取说话人识别系统神经网络的结构信息和内部梯度信息,只需要获取说话人识别系统输出的识别结果及打分;只在部分语音采样点上添加对抗样本扰动,可以避免在静音段添加扰动,从而影响对抗样本的不可感知性;避免了倒谱特征转换回语音波形时产生的信息损失,从而避免了语音质量的下降。

Description

面向自动声纹识别系统的黑盒定向对抗攻击方法及系统
技术领域
本发明涉及一种面向自动声纹识别系统的黑盒定向对抗攻击方法及系统,属于语音信号处理和信息安全技术领域。
背景技术
说话人识别是一种从话语的特征中辨认说话人身份的技术。经过了几十年的发展,语音交互系统和身份认证系统中已经广泛应用到了说话人识别技术,诸如:智能手机,汽车导航系统,电子银行认证等等。然而,最近的研究表明,一个训练好的说话人识别系统可能会被恶意攻击欺骗。攻击说话人识别系统的方法包括模仿、回放、语音合成和语音转换。作为攻击者,其期望是这些电子伪装语音和假冒语音能够听起来和被攻击具有敏感性者的语音尽可能相似。另一方面,已经有一些研究表明,机器学习模型易受所谓“对抗样本”的攻击。这表明某些能够实现对机器学习模型攻击的信息可能隐藏在对抗样本之中。因此可以利用对抗样本的这种信息隐藏能力来隐藏说话人的身份信息。尽管对抗样本攻击在图像分类任务和语音识别任务中都已经有了成功的黑盒和白盒的应用,但是在说话人识别领域关于对抗样本的研究刚刚起步。
对抗攻击通常都通过对抗样本进行实施,对抗样本的主要作用是通过向源语音中添加扰动,以此引起说话人系统产生误分类。对抗样本首先由Szegedy等人在计算机视觉领域提出,Szegedy等人通过对抗样本以很高的概率欺骗了最先进的深度神经网络。然而,说话人识别领域的对抗攻击和计算机视觉分类任务领域的对抗攻击有所不同。说话人识别领域包括三种任务,说话人确认(Speaker Verification,SV),开集说话人辨认(Open-setSpeaker Identification,OSI)和闭集说话人辨认(Close-set Speaker Identification,CSI)。说话人识别领域的对抗攻击,只要是根据源说话人的语音,从而制造出能够被系统错误辨认的语音样本。有目标攻击指的是将说话人识别系统欺骗,从而将对抗样本认定为特定的标签。制造对抗样本的通常方法是在源语音中添加少量微弱的训练好的加性扰动,攻击者期望该扰动尽可能不被人类感知到,在添加扰动之后,使系统产生误分类。
之前在说话人识别领域,大部分的工作都是在全部的语音采样点上添加扰动从而实现攻击的。这样做存在的主要问题有:
1.可能会导致添加过度的扰动,从而被人类感知和察觉到。
2.在全部的采样点上添加扰动,虽然可能能够得到很高的攻击成功率,但是会引入较为明显的持续不断的背景噪声。人们在第一次听到这种噪声的时候可能不会感觉到异样,但是在多次感知之后就会察觉到明显的背景噪音。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种面向自动声纹识别系统的黑盒定向对抗攻击方法及系统。
为解决上述技术问题,本发明提供一种面向自动声纹识别系统的黑盒定向对抗攻击方法,包括:
获取待处理的源说话人的语音、需要被攻击的说话人识别模型、源说话人的语音中需要添加语音扰动的采样点个数、对抗样本生成算法的初始参数;
根据不同的说话人识别任务确定对应的损失函数;
将源说话人的语音、需要被攻击的说话人识别模型、采样点个数、对抗样本生成算法的初始参数以及对应的损失函数,输入到对抗样本生成算法,生成语音扰动;
将语音扰动添加到源说话人语音上生成对抗样本。
进一步的,所述根据不同的说话人识别任务,确定对应的损失函数的过程包括:
若获取的说话人识别任务是开集的说话人辨认任务,则确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
式中,ε为避免正则化项的分母为零的常数,λ是正则化项的系数,j是说话人标签的索引,是目标说话人tar的得分,/>是在/>和阈值θ中选择最大值,如果/>则表明除了目标说话人之外的所有注册说话人都被认定为了集外说话人,如果/>则表明除了目标说话人tar之外的得分最高的说话人的得分同样高于阈值θ;/>表示除了目标说话人tar以外的说话人的得分;ei(x)表示索引为i的采样点上添加的扰动;N表示语音的总采样点数量;i表示语音采样点的索引;s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G中s.t.表示约束条件;||e(x)||0≤d表示扰动e(x)的长度小于等于参数d;||e(x)||≤ξ表示扰动e(x)的最大幅度小于等于参数ξ;j∈G表示说话人j在已注册说话人集合G中。
若获取的说话人识别任务是闭集的说话人辨认任务,则确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
若获取的说话人识别任务是说话人确认任务,则确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ。
进一步的,所述对抗样本生成算法为差分遗传算法。
进一步的,所述差分遗传算法的处理过程包括:
初始化:
差分演化算法中的种群包含NP个D维的矢量,xi是一个D维的变量,则种群表示为Pop={x1,x2,...,xNP},NP是单个种群的大小,D=2×d,其中,d是需要添加扰动的采样点的数量;种群的个数popsize∈[5D,10D];假设第j维的上界和下界分别为和/>则初始化为:
其中,xj,i,0表示初代种群中第i个个体的第j维,i=1,2,...,NP,j=1,2,...,D,randj(0,1)是范围在(0,1)之间符合均匀分布的随机数;
突变:
在种群初始化之后,由差分突变生成突变矢量,种群的最初数目为popsize,并且在每次迭代中,另外的popsize个子类将会通过使用突变公式生成突变个体:
vi,g=xr1,g+F×(xr2,g-xr3,g)
其中,r1,r2,r3∈{1,2,...,NP}是不同的整数,并且和当前目标矢量i的索引不同,F是尺度参数,g是当前代数的索引,每一个候选解一旦生成,就将根据种群的索引与其相应的父代竞争,获胜者将生存下来进行下一次迭代。
交叉:
在突变过程结束后,由目标矢量xi,g和突变矢量vi,g进行二项式交叉,生成最终的测试矢量Ui,g
Ui,g=[ui1,g,ui2,g,...,uiD,g]
其中,jrand是从{1,2,...,D}中随机选取的整数,交叉概率CR是(0,1)之间的常数,uiD,g表示第g代种群的第i个个体的第D维,,uij,g表示经过交叉操作后的第g代种群的第i个个体的第j维,vij,g表示经过变异操作后的第g代种群的第i个个体的第j维,xij,g表示未经变异的第g代种群的第i个个体的第j维;
选择:
在测试矢量和相应的目标矢量之间进行一对一的锦标赛选择,比较测试矢量Ui,g和目标矢量xi,g的目标函数值,如果测试矢量的目标函数值更好,则用测试矢量替代目标矢量,否则目标矢量保持不变,表示为:
其中,f(·)是需要优化的所述损失函数;
确定个体的总代数G,则最终生成的语音扰动表示为xi,G,g∈[1,G];
通过语音扰动得到的对抗样本是在原始语音上添加语音扰动后生成的新语音。
一种面向自动声纹识别系统的黑盒定向对抗攻击系统,包括:
获取模块,用于获取待处理的源说话人的语音、需要被攻击的说话人识别模型、源说话人的语音中需要添加语音扰动的采样点个数、对抗样本生成算法的初始参数;
确定模块,用于根据不同的说话人识别任务确定对应的损失函数;
生成模块,用于将源说话人的语音、需要被攻击的说话人识别模型、采样点个数、对抗样本生成算法的初始参数以及对应的损失函数,输入到对抗样本生成算法,生成语音扰动;将语音扰动添加到源说话人语音上生成对抗样本。
进一步的,所述根确定模块包括:
OSI模块,用于在获取的说话人识别任务是开集的说话人辨认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
式中,ε为避免正则化项的分母为零的常数,λ是正则化项的系数,j是说话人标签的索引,是目标说话人tar的得分,/>是在/>和阈值θ中选择最大值,如果/>则表明除了目标说话人之外的所有注册说话人都被认定为了集外说话人,如果/>则表明除了目标说话人tar之外的得分最高的说话人的得分同样高于阈值θ;/>表示除了目标说话人tar以外的说话人的得分;ei(x)表示索引为i的采样点上添加的扰动;N表示语音的总采样点数量;i表示语音采样点的索引;s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G中s.t.表示约束条件;||e(x)||0≤d表示扰动e(x)的长度小于等于参数d;||e(x)||≤ξ表示扰动e(x)的最大幅度小于等于参数ξ;j∈G表示说话人j在已注册说话人集合G中。
CSI模块,用于在获取的说话人识别任务是闭集的说话人辨认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
SV模块,用于在获取的说话人识别任务是说话人确认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ。
进一步的,所述生成模块中的对抗样本生成算法为差分遗传算法。
进一步的,所述生成模块包括差分遗传算法处理模块,差分遗传算法处理模块包括:
初始化模块,用于初始化为:
其中,xj,i,0表示初代种群中第i个个体的第j维,i=1,2,...,NP,j=1,2,...,D,randj(0,1)是范围在(0,1)之间符合均匀分布的随机数;差分演化算法中的种群包含NP个D维的矢量,xi是一个D维的变量,则种群表示为Pop={x1,x2,...,xNP},NP是单个种群的大小,D=2×d,其中,d是需要添加扰动的采样点的数量;种群的个数popsize∈[5D,10D];假设第j维的上界和下界分别为和/>
突变模块,用于在种群初始化之后,由差分突变生成突变矢量,种群的最初数目为popsize,并且在每次迭代中,另外的popsize个子类将会通过使用突变公式生成突变个体:
vi,g=xr1,g+F×(xr2,g-xr3,g)
其中,r1,r2,r3∈{1,2,...,NP}是不同的整数,并且和当前目标矢量i的索引不同,F是尺度参数,g是当前代数的索引,每一个候选解一旦生成,就将根据种群的索引与其相应的父代竞争,获胜者将生存下来进行下一次迭代。
交叉模块,用于在突变过程结束后,由目标矢量xi,g和突变矢量vi,g进行二项式交叉,生成最终的测试矢量Ui,g
Ui,g=[ui1,g,ui2,g,...,uiD,g]
其中,jrand是从{1,2,...,D}中随机选取的整数,交叉概率CR是(0,1)之间的常数,uiD,g表示第g代种群的第i个个体的第D维,uij,g表示经过交叉操作后的第g代种群的第i个个体的第j维,vij,g表示经过变异操作后的第g代种群的第i个个体的第j维,xij,g表示未经变异的第g代种群的第i个个体的第j维;
选择模块,用于在测试矢量和相应的目标矢量之间进行一对一的锦标赛选择,比较测试矢量Ui,g和目标矢量xi,g的目标函数值,如果测试矢量的目标函数值更好,则用测试矢量替代目标矢量,否则目标矢量保持不变,表示为:
其中,f(·)是需要优化的所述损失函数;
扰动生成模块,用于确定个体的总代数G,则最终生成的语音扰动表示为xi,G,g∈[1,G];
对抗样本生成模块,英语通过语音扰动得到的对抗样本是在原始语音上添加语音扰动后生成的新语音。
本发明所达到的有益效果:
本发明的优点:
1、本算法属于黑盒攻击,不需要获取说话人识别系统神经网络的结构信息和内部梯度信息,只需要获取说话人识别系统输出的识别结果及打分。相比于白盒攻击,本算法更加贴合现实攻击场景。
2、由于本算法只在部分语音采样点上添加对抗样本扰动,因此相比于在全时域添加扰动的对抗样本生成算法,本算法可以避免在静音段添加扰动,从而影响对抗样本的不可感知性。
3、本算法直接在语音波形上添加扰动,不需要运用倒谱特征,避免了倒谱特征转换回语音波形时产生的信息损失,从而避免了语音质量的下降。
附图说明
图1是本发明的流程图;
图2(a)~(g)是本发明和其他方法生成的对抗语音波形和语谱图对比图,其中,图2(a)采用FakeBob方法、图2(b)采用FGSM方法、图2(c)采用PGD-10方法、图2(d)采用Carlinil方法、图2(e)采用Carlini l2方法、图2(f)采用本发明方法。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种基于差分遗传算法的对抗样本攻击方法,步骤如下:
首先,载入将要被处理的源说话人的语音,以及需要被攻击的说话人识别模型。
接下来,根据不同的说话人识别任务,选择使用合适的损失函数。
如果是OSI系统,选择使用损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
如果是CSI系统,选择使用损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
如果是SV系统,选择使用损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
最后,根据不同的损失函数,将源说话人语音和说话人识别模型送入对抗样本生成算法,从而生成对抗样本。
对OSI系统的攻击
OSI任务是在开集中识别说话人身份的任务,对OSI系统进行有目标的对抗样本攻击,实际上是从源说话人t(D(x)=reject)的输入语音x来估计扰动e(x)*,并使添加扰动后的语音能够被OSI系统认定为注册集中的目标说话人adv∈G={1,...,n}的过程。
为了能够在OSI系统中成功地进行有目标攻击,下面两种情况需要同时满足:一是目标说话人tar的得分应该在所有注册说话人中是最高的;二是同时该得分不小于预先设定的阈值θ,以防止被系统直接拒绝准入。我们的系统能够返回某条语音属于每一名已注册说话人的得分,这为实现上述目标提供了保证。
一个OSI系统在注册阶段能够允许多名说话人进行注册,从而形成注册说话人集合G。对于任意的输入语音x来说,系统通过该语音属于所有已注册说话人的分数,以及预先设定的阈值θ,来决定x属于注册集中的说话人还是未经注册的说话人。假设说话人集合G有n个说话人{1,2,…,n},则常规的OSI说话人识别系统的决策模型为:
其中,[F(x)]i表示语音x属于说话人i(i∈G)的得分。直观上说,系统只有在[F(x)]i是所有已注册说话人中最高的分数,且不低于阈值θ时,才会将x认定为说话人i的语音。如果系统直接拒绝了该条语音,表明该语音不属于任何已注册说话人。
为了能够实现对上述OSI系统的攻击,用于OSI系统攻击的损失函数L定义为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
其中,为了避免正则化项的分母为零,引入了一个很小的常数ε。λ是正则化项的系数。j是说话人标签的索引。是目标说话人tar的得分。/>是在和阈值θ中选择最大值。为了增大目标说话人tar和其他说话人的得分之间的差距,可以用/>来找到除了tar以外得分最高的说话人。如果/>则表明除了目标说话人之外的所有注册说话人都被认定为了集外说话人。与此同时,只需要优化对抗样本关于目标说话人tar的得分,使其超越阈值θ即可。如果则表明除了目标说话人tar之外的得分最高的说话人的得分同样高于阈值θ。因此,此时的任务就是增大目标说话人得分和该得分之间的差距。例如,当/>时,表明该次攻击时一次成功的攻击。上述损失函数中的正则化项是每一个采样点处的扰动值与原始语音信号比值的和。系数λ是控制扰动幅值的因子。该项在损失函数中起到了约束扰动幅值,从而提高扰动不可感知性的作用。
对CSI系统的攻击
CSI任务是在闭集中识别说话人身份的任务。CSI系统总是将某条输入系统的语音的身份识别为某一个已注册的说话人。CSI系统的决策模型为:
从攻击者的视角来看,可以发现CSI实际上就是忽略阈值之后的OSI任务。对于CSI系统的有目标攻击来说,被攻击的目标说话人的得分需要是注册集中最高的。
为了实现对上述CSI任务的有目标攻击,目标说话人为tar∈G的损失函数记为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
直观上来说,CSI任务中期望目标说话人tar的得分尽可能高,而除了目标说话人之外的得分尽可能低。
3)对SV系统的攻击
SV任务不同于上面两个任务,SV主要用来验证某一句语音的身份是否属于注册集内。在SV任务中,通常只有一名已注册的说话人,并且任务仅仅是检测输入语音是否来源于该名已注册的说话人,因此结果只有两种,接受或者拒绝。SV系统的决策模型为:
其中F(x)是测试语音x的得分,阈值θ由注册集决定。
为了实现对上述SV系统的攻击,损失函数记为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
直观上来说,上述损失函数是在寻找一种能够将对抗样本的身份识别为已注册说话人的扰动e(x),并且得分要大于阈值θ。
第一步:初始化。首先将扰动编码为一个数组(候选解),该数组通过差分演化进行优化(进化)。一个候选解决方案包含固定数量的扰动,每个扰动是一个包含两个元素的元组:采样点坐标和扰动幅度。假设差分演化算法中的种群包含NP个D维的矢量。如果xi是一个D维的变量,则种群可以表示为Pop={x1,x2,...,xNP}。NP是单个种群的大小,在演化过程中通常保持不变。在本发明提出的方法中,D=2×d,其中d是需要添加扰动的采样点的数量。种群的个数popsize和D有关,通常popsize都落在[5D,10D]范围之内。假设第j维的上界和下界分别为和/>则初始化为:
其中,i=1,2,...,NP,j=1,2,...,D。randj(0,1)是范围在(0,1)之间符合均匀分布的随机数。
第二步:突变。在种群初始化之后,由差分突变生成突变矢量。候选解(种群)的最初数目为popsize,并且在每次迭代中,另外的popsize个候选解(子类)将会通过使用通常的差分演化公式生成:
vi,g=xr1,g+F×(xr2,g-xr3,g)
其中,r1,r2,r3∈{1,2,...,NP}是不同的整数,并且和当前目标矢量i的索引不同。F是设置为0.5的尺度参数,g是当前代数的索引。每一个候选解一旦生成,就将根据种群的索引与其相应的父代竞争,获胜者将生存下来进行下一次迭代。
第三步:交叉。在突变过程结束后,由目标矢量xi,g和突变矢量vi,g进行二项式交叉,从而生成最终的测试矢量ui,g=[ui1,g,ui2,g,...,uiD,g]:
其中,jrand是从{1,2,...,D}中随机选取的整数。交叉概率CR是(0,1)之间的常数。
第四步:选择。在测试向量和相应的目标向量之间进行一对一的锦标赛选择。比较测试矢量ui,g和目标矢量xi,g的目标函数值,如果测试矢量的目标函数值更好,则用测试矢量替代目标矢量。否则目标矢量保持不变。可以表示为:
其中,f(·)是需要优化的目标函数。
相应的本发明还提供一种面向自动声纹识别系统的黑盒定向对抗攻击系统,包括:
获取模块,用于获取待处理的源说话人的语音、需要被攻击的说话人识别模型、源说话人的语音中需要添加语音扰动的采样点个数、对抗样本生成算法的初始参数;
确定模块,用于根据不同的说话人识别任务确定对应的损失函数;
生成模块,用于将源说话人的语音、需要被攻击的说话人识别模型、采样点个数、对抗样本生成算法的初始参数以及对应的损失函数,输入到对抗样本生成算法,生成语音扰动;将语音扰动添加到源说话人语音上生成对抗样本。
所述根确定模块包括:
OSI模块,用于在获取的说话人识别任务是开集的说话人辨认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
式中,ε为避免正则化项的分母为零的常数,λ是正则化项的系数,j是说话人标签的索引,是目标说话人tar的得分,/>是在/>和阈值θ中选择最大值,如果/>则表明除了目标说话人之外的所有注册说话人都被认定为了集外说话人,如果/>则表明除了目标说话人tar之外的得分最高的说话人的得分同样高于阈值θ;/>表示除了目标说话人tar以外的说话人的得分;ei(x)表示索引为i的采样点上添加的扰动;N表示语音的总采样点数量;i表示语音采样点的索引;s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G中s.t.表示约束条件;||e(x)||0≤d表示扰动e(x)的长度小于等于参数d;||e(x)||≤ξ表示扰动e(x)的最大幅度小于等于参数ξ;j∈G表示说话人j在已注册说话人集合G中。
CSI模块,用于在获取的说话人识别任务是闭集的说话人辨认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
SV模块,用于在获取的说话人识别任务是说话人确认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ。
所述生成模块中的对抗样本生成算法为差分遗传算法。
所述生成模块包括差分遗传算法处理模块,差分遗传算法处理模块包括:
初始化模块,用于初始化为:
其中,xj,i,0表示初代种群中第i个个体的第j维,i=1,2,...,NP,j=1,2,...,D,randj(0,1)是范围在(0,1)之间符合均匀分布的随机数;差分演化算法中的种群包含NP个D维的矢量,xi是一个D维的变量,则种群表示为Pop={x1,x2,...,xNP},NP是单个种群的大小,D=2×d,其中,d是需要添加扰动的采样点的数量;种群的个数popsize∈[5D,10D];假设第j维的上界和下界分别为和/>
突变模块,用于在种群初始化之后,由差分突变生成突变矢量,种群的最初数目为popsize,并且在每次迭代中,另外的popsize个子类将会通过使用突变公式生成突变个体:
vi,g=xr1,g+F×(xr2,g-xr3,g)
其中,r1,r2,r3∈{1,2,...,NP}是不同的整数,并且和当前目标矢量i的索引不同,F是尺度参数,g是当前代数的索引,每一个候选解一旦生成,就将根据种群的索引与其相应的父代竞争,获胜者将生存下来进行下一次迭代。
交叉模块,用于在突变过程结束后,由目标矢量xi,g和突变矢量vi,g进行二项式交叉,生成最终的测试矢量Ui,g
Ui,g=[ui1,g,ui2,g,...,uiD,g]
其中,jrand是从{1,2,...,D}中随机选取的整数,交叉概率CR是(0,1)之间的常数,uiD,g表示第g代种群的第i个个体的第D维,uij,g表示经过交叉操作后的第g代种群的第i个个体的第j维,vij,g表示经过变异操作后的第g代种群的第i个个体的第j维,xij,g表示未经变异的第g代种群的第i个个体的第j维;
选择模块,用于在测试矢量和相应的目标矢量之间进行一对一的锦标赛选择,比较测试矢量Ui,g和目标矢量xi,g的目标函数值,如果测试矢量的目标函数值更好,则用测试矢量替代目标矢量,否则目标矢量保持不变,表示为:
其中,f(·)是需要优化的所述损失函数;
扰动生成模块,用于确定个体的总代数G,则最终生成的语音扰动表示为xi,G,g∈[1,G];
对抗样本生成模块,英语通过语音扰动得到的对抗样本是在原始语音上添加语音扰动后生成的新语音。
图2(a)~(g)是本发明和其他方法生成的对抗语音波形和语谱图对比图,其中,图2(a)采用FakeBob方法、图2(b)采用FGSM方法、图2(c)采用PGD-10方法、图2(d)采用Carlinil方法、图2(e)采用Carlini l2方法、图2(f)采用本发明方法。可以发现图2(a)~(f)中添加的扰动都是全时域的,这样在静音段会有较为明显的背景噪声。图2(g)中是我们的方法添加的扰动,可以发现我们制造的扰动基本和原语音波形的能量保持一致,在静音段几乎没有扰动,这样可以提高对抗样本的不可感知性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种面向自动声纹识别系统的黑盒定向对抗攻击方法,其特征在于,包括:
获取待处理的源说话人的语音、需要被攻击的说话人识别模型、源说话人的语音中需要添加语音扰动的采样点个数、对抗样本生成算法的初始参数;
根据不同的说话人识别任务确定对应的损失函数;
将源说话人的语音、需要被攻击的说话人识别模型、采样点个数、对抗样本生成算法的初始参数以及对应的损失函数,输入到对抗样本生成算法,生成语音扰动;
将语音扰动添加到源说话人语音上生成对抗样本;
所述根据不同的说话人识别任务,确定对应的损失函数的过程包括:
若获取的说话人识别任务是开集的说话人辨认任务,则确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
式中,ε为避免正则化项的分母为零的常数,λ是正则化项的系数,j是说话人标签的索引,是目标说话人tar的得分,/>是在/>和阈值θ中选择最大值,如果/>则表明除了目标说话人之外的所有注册说话人都被认定为了集外说话人,如果/>则表明除了目标说话人tar之外的得分最高的说话人的得分同样高于阈值θ;/>表示除了目标说话人tar以外的说话人的得分;ei(x)表示索引为i的采样点上添加的扰动;N表示语音的总采样点数量;i表示语音采样点的索引;s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G中s.t.表示约束条件;||e(x)||0≤d表示扰动e(x)的长度小于等于参数d;||e(x)||≤ξ表示扰动e(x)的最大幅度小于等于参数ξ;j∈G表示说话人j在已注册说话人集合G中;
若获取的说话人识别任务是闭集的说话人辨认任务,则确定对应的损失函数为:
s.t.e(x)||0≤d,||e(x)||≤ξ
若获取的说话人识别任务是说话人确认任务,则确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ。
2.根据权利要求1所述的面向自动声纹识别系统的黑盒定向对抗攻击方法,其特征在于,所述对抗样本生成算法为差分遗传算法。
3.根据权利要求2所述的面向自动声纹识别系统的黑盒定向对抗攻击方法,其特征在于,所述差分遗传算法的处理过程包括:
初始化:
差分演化算法中的种群包含NP个D维的矢量,xi是一个D维的变量,则种群表示为Pop={x1,x2,...,xNP},NP是单个种群的大小,D=2×d,其中,d是需要添加扰动的采样点的数量;种群的个数popsize∈[5D,10D];假设第j维的上界和下界分别为和/>则初始化为:
其中,xj,i,0表示初代种群中第i个个体的第j维,i=1,2,...,NP,j=1,2,...,D,randj(0,1)是范围在(0,1)之间符合均匀分布的随机数;
突变:
在种群初始化之后,由差分突变生成突变矢量,种群的最初数目为popsize,并且在每次迭代中,另外的popsize个子类将会通过使用突变公式生成突变个体:
vi,g=xr1,g+F×(xr2,g-xr3,g)
其中,r1,r2,r3∈{1,2,...,NP}是不同的整数,并且和当前目标矢量i的索引不同,F是尺度参数,g是当前代数的索引,每一个候选解一旦生成,就将根据种群的索引与其相应的父代竞争,获胜者将生存下来进行下一次迭代;
交叉:
在突变过程结束后,由目标矢量xi,g和突变矢量vi,g进行二项式交叉,生成最终的测试矢量Ui,g
Ui,g=[ui1,g,ui2,g,...,uiD,g]
其中,jrand是从{1,2,...,D}中随机选取的整数,交叉概率CR是(0,1)之间的常数,uiD,g表示第g代种群的第i个个体的第D维,uij,g表示经过交叉操作后的第g代种群的第i个个体的第j维,vij,g表示经过变异操作后的第g代种群的第i个个体的第j维,xij,g表示未经变异的第g代种群的第i个个体的第j维;
选择:
在测试矢量和相应的目标矢量之间进行一对一的锦标赛选择,比较测试矢量Ui,g和目标矢量xi,g的目标函数值,如果测试矢量的目标函数值更好,则用测试矢量替代目标矢量,否则目标矢量保持不变,表示为:
其中,f(·)是需要优化的所述损失函数;
确定个体的总代数G,则最终生成的语音扰动表示为xi,G,g∈[1,G];
通过语音扰动得到的对抗样本是在原始语音上添加语音扰动后生成的新语音。
4.一种面向自动声纹识别系统的黑盒定向对抗攻击系统,其特征在于,包括:
获取模块,用于获取待处理的源说话人的语音、需要被攻击的说话人识别模型、源说话人的语音中需要添加语音扰动的采样点个数、对抗样本生成算法的初始参数;
确定模块,用于根据不同的说话人识别任务确定对应的损失函数;
生成模块,用于将源说话人的语音、需要被攻击的说话人识别模型、采样点个数、对抗样本生成算法的初始参数以及对应的损失函数,输入到对抗样本生成算法,生成语音扰动;将语音扰动添加到源说话人语音上生成对抗样本;
所述确定模块包括:
OSI模块,用于在获取的说话人识别任务是开集的说话人辨认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G
式中,ε为避免正则化项的分母为零的常数,λ是正则化项的系数,j是说话人标签的索引,是目标说话人tar的得分,/>是在/>和阈值θ中选择最大值,如果/>则表明除了目标说话人之外的所有注册说话人都被认定为了集外说话人,如果/>则表明除了目标说话人tar之外的得分最高的说话人的得分同样高于阈值θ;/>表示除了目标说话人tar以外的说话人的得分;ei(x)表示索引为i的采样点上添加的扰动;N表示语音的总采样点数量;i表示语音采样点的索引;s.t.||e(x)||0≤d,||e(x)||≤ξ,j∈G中s.t.表示约束条件;||e(x)||0≤d表示扰动e(x)的长度小于等于参数d;||e(x)||≤ξ表示扰动e(x)的最大幅度小于等于参数ξ;j∈G表示说话人j在已注册说话人集合G中;
CSI模块,用于在获取的说话人识别任务是闭集的说话人辨认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ
SV模块,用于在获取的说话人识别任务是说话人确认任务时,确定对应的损失函数为:
s.t.||e(x)||0≤d,||e(x)||≤ξ。
5.根据权利要求4所述的面向自动声纹识别系统的黑盒定向对抗攻击系统,其特征在于,所述生成模块中的对抗样本生成算法为差分遗传算法。
6.根据权利要求5所述的面向自动声纹识别系统的黑盒定向对抗攻击系统,其特征在于,所述生成模块包括差分遗传算法处理模块,差分遗传算法处理模块包括:
初始化模块,用于初始化为:
其中,xj,i,0表示初代种群中第i个个体的第j维,i=1,2,...,NP,j=1,2,...,D,randj(0,1)是范围在(0,1)之间符合均匀分布的随机数;差分演化算法中的种群包含NP个D维的矢量,xi是一个D维的变量,则种群表示为Pop={x1,x2,...,xNP},NP是单个种群的大小,D=2×d,其中,d是需要添加扰动的采样点的数量;种群的个数popsize∈[5D,10D];假设第j维的上界和下界分别为和/>
突变模块,用于在种群初始化之后,由差分突变生成突变矢量,种群的最初数目为popsize,并且在每次迭代中,另外的popsize个子类将会通过使用突变公式生成突变个体:
vi,g=xr1,g+F×(xr2,g-xr3,g)
其中,r1,r2,r3∈{1,2,...,NP}是不同的整数,并且和当前目标矢量i的索引不同,F是尺度参数,g是当前代数的索引,每一个候选解一旦生成,就将根据种群的索引与其相应的父代竞争,获胜者将生存下来进行下一次迭代;
交叉模块,用于在突变过程结束后,由目标矢量xi,g和突变矢量vi,g进行二项式交叉,生成最终的测试矢量Ui,g
Ui,g=[ui1,g,ui2,g,...,uiD,g]
其中,jrand是从{1,2,...,D}中随机选取的整数,交叉概率CR是(0,1)之间的常数,uiD,g表示第g代种群的第i个个体的第D维,uij,g表示经过交叉操作后的第g代种群的第i个个体的第j维,vij,g表示经过变异操作后的第g代种群的第i个个体的第j维,xij,g表示未经变异的第g代种群的第i个个体的第j维;
选择模块,用于在测试矢量和相应的目标矢量之间进行一对一的锦标赛选择,比较测试矢量Ui,g和目标矢量xi,g的目标函数值,如果测试矢量的目标函数值更好,则用测试矢量替代目标矢量,否则目标矢量保持不变,表示为:
其中,f(·)是需要优化的所述损失函数;
扰动生成模块,用于确定个体的总代数G,则最终生成的语音扰动表示为xi,G,g∈[1,G];
对抗样本生成模块,英语通过语音扰动得到的对抗样本是在原始语音上添加语音扰动后生成的新语音。
CN202110411559.3A 2021-04-16 2021-04-16 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统 Active CN113113023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110411559.3A CN113113023B (zh) 2021-04-16 2021-04-16 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110411559.3A CN113113023B (zh) 2021-04-16 2021-04-16 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统

Publications (2)

Publication Number Publication Date
CN113113023A CN113113023A (zh) 2021-07-13
CN113113023B true CN113113023B (zh) 2023-09-26

Family

ID=76717760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110411559.3A Active CN113113023B (zh) 2021-04-16 2021-04-16 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统

Country Status (1)

Country Link
CN (1) CN113113023B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081510B (zh) * 2022-05-10 2024-05-10 哈尔滨工程大学 一种面向水声智能伪装的跨模态高隐蔽对抗样本生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN110992934A (zh) * 2019-10-28 2020-04-10 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10504504B1 (en) * 2018-12-07 2019-12-10 Vocalid, Inc. Image-based approaches to classifying audio data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN109559736A (zh) * 2018-12-05 2019-04-02 中国计量大学 一种基于对抗网络的电影演员自动配音方法
CN110992934A (zh) * 2019-10-28 2020-04-10 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于遗传-模糊聚类的说话人识别方法及其仿真研究;林琳;王树勋;;系统仿真学报(第08期);全文 *

Also Published As

Publication number Publication date
CN113113023A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Kinnunen et al. Tandem assessment of spoofing countermeasures and automatic speaker verification: Fundamentals
Chen et al. Robust deep feature for spoofing detection—The SJTU system for ASVspoof 2015 challenge
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
CA3036533C (en) End-to-end speaker recognition using deep neural network
Cai et al. Countermeasures for Automatic Speaker Verification Replay Spoofing Attack: On Data Augmentation, Feature Representation, Classification and Fusion.
Srivastava et al. Design choices for x-vector based speaker anonymization
Monteiro et al. Generalized end-to-end detection of spoofing attacks to automatic speaker recognizers
Yu et al. DNN filter bank cepstral coefficients for spoofing detection
Wu et al. Defense against adversarial attacks on spoofing countermeasures of asv
CN1302427A (zh) 用于说话者认证的模型自适应系统和方法
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
CN113113023B (zh) 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统
Monteiro et al. An ensemble based approach for generalized detection of spoofing attacks to automatic speaker recognizers
Al-Karawi Mitigate the reverberation effect on the speaker verification performance using different methods
WO2018191782A1 (en) Voice authentication system and method
CN116488942B (zh) 一种面向智能声纹识别系统的后门安全性评估方法
Cai et al. Deep speaker vector normalization with maximum gaussianality training
Ge et al. Data Poisoning and Backdoor Attacks on Audio Intelligence Systems
Choudhary et al. Automatic speaker verification using gammatone frequency cepstral coefficients
CN114640518B (zh) 一种基于音频隐写的个性化触发器后门攻击方法
Prakash et al. In-set/out-of-set speaker recognition under sparse enrollment
CN117648990A (zh) 一种用于黑盒攻击的语音对抗样本生成方法及其系统
US7162641B1 (en) Weight based background discriminant functions in authentication systems
Dinkel et al. Small-footprint convolutional neural network for spoofing detection
Kassis et al. Breaking Security-Critical Voice Authentication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant