CN116343759A - 黑盒智能语音识别系统对抗样本生成方法及相关装置 - Google Patents
黑盒智能语音识别系统对抗样本生成方法及相关装置 Download PDFInfo
- Publication number
- CN116343759A CN116343759A CN202310187328.8A CN202310187328A CN116343759A CN 116343759 A CN116343759 A CN 116343759A CN 202310187328 A CN202310187328 A CN 202310187328A CN 116343759 A CN116343759 A CN 116343759A
- Authority
- CN
- China
- Prior art keywords
- voice
- disturbance
- countermeasure
- loss function
- function value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000006870 function Effects 0.000 claims abstract description 102
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims description 28
- 235000000332 black box Nutrition 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000010845 search algorithm Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000009827 uniform distribution Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 206010013952 Dysphonia Diseases 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 208000011293 voice disease Diseases 0.000 description 4
- 208000023180 voice disturbance Diseases 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于深度学习领域,公开了一种黑盒智能语音识别系统对抗样本生成方法及相关装置,包括根据语音对抗扰动得到语音对抗样本;对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,计算语音对抗扰动的L2范数作为扰动损失函数值;根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动,通过迭代上述步骤得到最终的语音对抗样本。不需要具备关于目标语音识别系统的任何先验知识,攻击成功率高且可迁移性强。
Description
技术领域
本发明属于深度学习领域,涉及一种黑盒智能语音识别系统对抗样本生成方法及相关装置。
背景技术
语音识别系统的目标是将输入至机器系统的语音信号转换成与之对应的字符序列,也即一种提取语音中的文本信息的技术。以往,用户主要通过鼠标、键盘、触摸屏、遥控器等与计算机、智能手机及家用电器等设备进行交互。通过这些方式向机器和设备下达某些指令存在着效率不足的问题,并且对于用户来说可能需要一定的学习成本。语音识别技术的出现使得人机交互界面变得更加自然友好和容易使用,从而得到了广泛的研究和关注。近年来,语音识别系统的不断成熟归功于机器学习尤其是深度学习技术的快速发展。然而,机器学习模型容易受到对抗样本的干扰而输出错误结果的现象也越来越吸引研究人员的关注。起初,对抗攻击的研究工作集中在图像识别类系统;后来,针对语音识别系统的对抗攻击的研究不断出现。攻击者使用某种方法生成一段音频样本,人耳听觉感知和自动语音识别系统对同一段音频将会有不同的识别结果。若普通用户无法察觉到这样的音频的异常,但其却会被自动语音识别系统当作某种带有恶意含义的指令,则有可能对用户的各方面安全造成威胁。
根据攻击者对目标系统的了解程度,对抗攻击可被大致分为白盒攻击、灰盒攻击和黑盒攻击。在白盒条件下,攻击者可以获取机器学习模型近乎全部的信息,所以攻击者可以围绕着可见的机器学习模型设计攻击方法。在灰盒条件下,攻击者能够掌握的信息相比于白盒条件要少得多,一般仅仅能获得模型的输出概率分布等。在黑盒条件下,攻击者掌握的信息进一步减少,往往最多只能获得对应于输入的最终输出结果。在如此恶劣的条件下,黑盒攻击格外困难。有些研究工作探索对抗样本在白盒系统和黑盒系统之间的可移植性,即在白盒系统上生成的对抗样本是否可以攻击某种黑盒系统。显然,攻击者掌握的语音识别系统细节信息越多,攻击该系统就会越容易。最近,已经有不少的研究工作在白盒条件下,提出了成功率极高的攻击方法。但是,市面上主流的商业语音识别系统往往都是黑盒系统,攻击者难以获得充分的模型及参数等相关信息。为了揭示这些商业语音识别系统的安全隐患,需要进一步探索针对语音识别系统的黑盒攻击。
目前,几乎所有的对抗攻击都是针对系统底层的机器学习模型。但是,不同的语音识别系统可能采用了不同的机器学习模型,这就导致了基于一个系统生成的对抗音频一般难以成功攻击另一个系统。现有的语音对抗攻击中白盒方法不符合实际威胁模型,而黑盒攻击成功率低或攻击可迁移性差。
发明内容
本发明的目的在于克服上述现有技术中,现有的语音对抗攻击中白盒方法不符合实际威胁模型,而黑盒攻击成功率低或攻击可迁移性差的缺点,提供一种黑盒智能语音识别系统对抗样本生成方法及相关装置。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,提供一种黑盒智能语音识别系统对抗样本生成方法,包括:
S1:获取能够在黑盒智能语音识别系统上正确识别的目标指令音频文件,以及语音对抗扰动;
S2:根据语音对抗扰动,得到语音对抗样本;
S3:对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,并计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,以及计算语音对抗扰动的L2范数作为扰动损失函数值;
S4:根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动;
S5:迭代S2~S4,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。
可选的,所述语音对抗扰动初始为在(-1,1)内服从均匀分布的随机噪声向量。
可选的,所述根据语音对抗扰动,得到语音对抗样本包括:
根据语音对抗扰动,根据式(1)或(2)进行隐藏指令攻击,得到语音对抗样本x′:
x′=y+α·δ0 (1)
x′=δ0 (2)
其中,y为目标指令音频文件,α为第一扰动参数,δ0为语音对抗扰动;
或者,获取原始载体文件,根据式(3)进行集成指令攻击,得到语音对抗样本x′:
x′=x+β·δ0 (3)
其中,x为原始载体文件,β为第二扰动参数。
可选的,当语音对抗样本为隐藏指令攻击得到时,所述对抗扰动优化损失函数loss为loss=lossf-λ·lossp,其中,lossf为声学特征损失函数值,lossp为扰动损失函数值,λ为预设的线性惩罚项超参数;当语音对抗样本为集成指令攻击得到时,所述对抗扰动优化损失函数loss为loss=lossf+·ossp。
可选的,所述预设调节系数通过下述方式得到:
通过第一次得到的语音对抗样本对黑盒智能语音识别系统进行预备攻击,在预备攻击过程中采用二分查找算法自动配置预设的线性惩罚项超参数。
可选的,所述在以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动时,采用基于梯度下降的优化算法迭代更新语音对抗扰动。
可选的,所述基于梯度下降的优化算法为基于梯度下降的自适应矩估计优化器。
本发明第二方面,提供一种黑盒智能语音识别系统对抗样本生成系统,包括:
数据获取模块,用于获取能够在黑盒智能语音识别系统上正确识别的目标指令音频文件,以及语音对抗扰动;
对抗模块,用于根据语音对抗扰动,得到语音对抗样本;
数据处理模块,用于对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,并计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,以及计算语音对抗扰动的L2范数作为扰动损失函数值;
优化模块,用于根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动;
迭代控制模块,用于迭代触发对抗模块、数据处理模块以及优化模块,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。
本发明第三方面,提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述黑盒智能语音识别系统对抗样本生成方法的步骤。
本发明第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述黑盒智能语音识别系统对抗样本生成方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明黑盒智能语音识别系统对抗样本生成方法,符合严格黑盒条件,不需要具备关于目标语音识别系统的任何先验知识,从而更加贴近实际的攻击场景,通过语音识别系统通用的MFCC特征提取方式来达到对于整个系统的误导攻击,攻击成功率高且攻击可迁移性强。设计新颖的声学特征损失函数和扰动损失函数,基于声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,并以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动,整个过程极为轻量,通常情况下仅需要30秒即可收敛到成功的语音对抗样本输出。
进一步的,攻击框架中同时集成了面向噪声段的隐藏指令攻击和面向音乐段的集成指令攻击两种形式,支持任意语言的语音识别系统,不仅限于中英文。
进一步的,通过可基于二分查找算法自动配置的线性惩罚项,来同时平衡语音对抗攻击的有效性及隐蔽性。
附图说明
图1为本发明实施例黑盒智能语音识别系统对抗样本生成方法流程图。
图2为本发明实施例黑盒智能语音识别系统对抗样本生成方法原理示意图。
图3为本发明实施例黑盒智能语音识别系统对抗样本生成系统结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1和2,本发明一实施例中,提供一种黑盒智能语音识别系统对抗样本生成方法,包括以下步骤:
S1:获取能够在黑盒智能语音识别系统上正确识别的目标指令音频文件,以及语音对抗扰动。
S2:根据语音对抗扰动,得到语音对抗样本。
S3:对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,并计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,以及计算语音对抗扰动的L2范数作为扰动损失函数值。
S4:根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动。
S5:迭代S2~S4,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。
具体的,所述S1中,首先获取目标指令文本集合,然后使用谷歌等云计算厂商提供的语音合成服务,选择合适的语言、男女音色、语速及语调等配置,将文本信息批量转为WAV无损格式的音频文件。然后,在黑盒智能语音识别系统上预测试人工合成的音频文件,保证能够得到正确的语音识别结果,即能够在黑盒智能语音识别系统上正确识别的目标指令音频文件;否则,重新调整语音合成服务的参数,直至满足条件。其中,云计算厂商提供的语音合成服务是高性能的、高质量的可将文本信息合成为人类语音的工具,具有丰富的配置,例如语言、音色、语速及语调等,不同的配置可组合出不同听觉效果的语音输出,可通过在黑盒智能语音识别系统上进行预测试,筛选出其中质量较高的合成语音。
在一种可能的实施方式中,所述语音对抗扰动初始为在(-1,1)内服从均匀分布的随机噪声向量。具体的,由于音频文件在计算机内以归一化为(-1,1)区间的编码数据形式存储,因此,生成服从U~(-1,1)随机均匀分布的随机噪声向量作为初始化的语音对抗扰动δ0。
在一种可能的实施方式中,所述根据语音对抗扰动,得到语音对抗样本包括:根据语音对抗扰动,根据式(1)或(2)进行隐藏指令攻击,得到语音对抗样本x′:
x′=y+α·δ0 (1)
x′=δ0 (2)
其中,y为目标指令音频文件,α为第一扰动参数,δ0为语音对抗扰动。
或者,获取原始载体文件,根据式(3)进行集成指令攻击,得到语音对抗样本x′:
x′=x+β·δ0 (3)
其中,x为原始载体文件,β为第二扰动参数。
具体的,原始载体文件指由攻击者任意指定的和目标指令音频文件等长的音频文件,例如流行音乐片段的WAV文件等。
具体的,对于隐藏指令攻击,语音对抗扰动δ0可直接用作语音对抗样本x′,即x′=δ,进而通过优化语音对抗扰动来得到相应的语音对抗样本。可选的,为了提升优化算法的收敛效率,将目标指令音频文件嵌入到对抗扰动初始化阶段,以便初始化对抗扰动即包含了必备的声学特征,即x′0=y+α·δ0,其中,α的典型值为0.5,在初始阶段即保证对抗样本与目标指令具有较大的时域波形距离。
对于集成指令攻击,语音对抗样本为原始载体文件叠加语音对抗扰动,即x′=x+β·δ0,进而通过优化语音对抗扰动来迭代合成相应的语音对抗样本,可选的,为了实现攻击隐蔽性的目标,初始阶段应叠加振幅极小的对抗扰动,因此,β的典型值通常为0.0001数量级。
在一种可能的实施方式中,所述S3具体包括:将人工合成的目标指令音频文件y输入至MFCC特征提取装置,得到其输出MFCC(y)作为目标语音特征矩阵;将作为隐藏指令攻击或集成指令攻击的当前语音对抗样本x′输入至MFCC特征提取装置,得到其输出MFCC(x′)作为当前迭代的对抗语音特征矩阵。
然后,计算语音对抗样本特征矩阵与目标优化特征矩阵的L2范数距离,作为声学特征损失函数值,即lossf=||MFCC(x′)-MFCC(y)||;计算当前迭代的对抗扰动向量自身的L2范数,作为对抗扰动损失函数值,即lossp=||δ0||。
其中,MFCC(梅尔频率倒谱系数)主要用于语音数据特征提取和降低运算维度。MFCC的提取一般会经过这么几个步骤:预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组以及离散余弦变换。
在一种可能的实施方式中,当语音对抗样本为隐藏指令攻击得到时,对抗扰动优化损失函数loss为loss=lossf-λ·lossp,其中,lossf为声学特征损失函数值,lossp为扰动损失函数值,λ为预设的线性惩罚项超参数;当语音对抗样本为集成指令攻击得到时,对抗扰动优化损失函数loss为loss=lossf+λ·lossp。
可选的,所述预设调节系数通过下述方式得到:通过第一次得到的语音对抗样本对黑盒智能语音识别系统进行预备攻击,在预备攻击过程中采用二分查找算法自动配置预设的线性惩罚项超参数。
具体的,对于每次语音对抗样本迭代优化求解时,线性惩罚项超参数λ为固定值,需要在黑盒智能语音识别系统上进行预备攻击实验,通过设置不同的λ值,观察生成的语音对抗样本的攻击成功率和攻击隐蔽性,若攻击成功率不理想,则减小λ,若攻击隐蔽性不理想,则增大λ。通过二分查找算法可不断缩小合适λ的取值范围,直到找到合适的λ值。对于同一个黑盒智能语音识别系统,基于固定λ值的批量语音对抗样本优化求解均会取得理想的输出。
具体的,取λ值分别为10和100,代表初始的极小值和极大值,代入对抗扰动优化损失函数中,进行完整的迭代过程,输出语音对抗样本,将其输入到黑盒智能语音识别系统中得到转录输出,同时计算语音对抗样本的信噪比。若识别结果不为目标指令,则调小λ值,若信噪比值较差,则增大λ值,并重新进行完整的损失函数计算、优化及合成语音特征样本的过程,直至找到合适的λ值。
在一种可能的实施方式中,所述在以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动时,采用基于梯度下降的优化算法迭代更新语音对抗扰动。本实施方式中,所述基于梯度下降的优化算法为基于梯度下降的自适应矩估计优化方法。
具体的,迭代S2~S4,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。其中,对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内,即表示对抗扰动优化损失函数值连续多次迭代不再具有明显下降趋势,此时,可以认为迭代优化完成,将此时的语音对抗样本作为最终的语音对抗样本。
综上所述,本发明黑盒智能语音识别系统对抗样本生成方法,不需要具备关于目标语音识别系统的任何先验知识,实现了严格的黑盒攻击威胁模型。通过一个语音识别系统通用的MFCC特征提取来达到对于整个系统的误导攻击,基本思想是截然不同的两个语音段可能具有相似的语音特征矩阵,基于优化建模来寻找具有相似语音特征矩阵的音频信号作为语音对抗样本。同时,攻击框架中同时集成了面向噪声段的隐藏指令攻击和面向音乐段的集成指令攻击两种形式,支持任意语言的语音识别系统,不仅限于中英文。设计新颖的声学特征损失函数和扰动损失函数,并通过可基于二分查找算法自动配置的线性惩罚项来同时平衡语音对抗攻击的有效性及隐蔽性。使用先进的Adam优化算法来迭代式地优化对抗扰动及相应合成的语音对抗扰动。整个过程极为轻量,通常情况下仅需要30秒即可收敛到成功的语音对抗样本输出。
经过试验论证,该黑盒智能语音识别系统对抗样本生成方法,可以100%的高成功率在数字域下攻击包括DeepSpeech及Kaldi等开源语音识别系统,以及Google、Microsoft、Amazon、阿里巴巴以及腾讯等云语音识别服务,还可进一步地应用于现实物理世界下的各类语音助手和智能家居等语音控制设备,包括Apple Siri、Google Assistant及AmazonAlexa。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未披露的细节,请参照本发明方法实施例。
参见图3,本发明再一实施例中,提供一种黑盒智能语音识别系统对抗样本生成系统,能够用于实现上述的黑盒智能语音识别系统对抗样本生成方法,具体的,该黑盒智能语音识别系统对抗样本生成系统包括数据获取模块、对抗模块、数据处理模块、优化模块以及迭代控制模块。
其中,数据获取模块用于获取能够在黑盒智能语音识别系统上正确识别的目标指令音频文件,以及语音对抗扰动;对抗模块用于根据语音对抗扰动,得到语音对抗样本;数据处理模块用于对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,并计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,以及计算语音对抗扰动的L2范数作为扰动损失函数值;优化模块用于根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动;迭代控制模块用于迭代触发对抗模块、数据处理模块以及优化模块,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。
在一种可能的实施方式中,所述语音对抗扰动初始为在(-1,1)内服从均匀分布的随机噪声向量。
在一种可能的实施方式中,所述根据语音对抗扰动,得到语音对抗样本包括:根据语音对抗扰动,根据式(1)或(2)进行隐藏指令攻击,得到语音对抗样本x′:
x′=y+α·δ0 (1)
x′=δ0 (2)
其中,y为目标指令音频文件,α为第一扰动参数,δ0为语音对抗扰动。
或者,获取原始载体文件,根据式(3)集成指令攻击,得到语音对抗样本x′:
x′=x+β·δ0 (3)
其中,x为原始载体文件,β为第二扰动参数。
在一种可能的实施方式中,当语音对抗样本为隐藏指令攻击得到时,所述对抗扰动优化损失函数loss为loss=lossf-λ·lossp,其中,lossf为声学特征损失函数值,lossp为扰动损失函数值,λ为预设的线性惩罚项超参数;当语音对抗样本为集成指令攻击得到时,所述对抗扰动优化损失函数loss为loss=lossf+λ·lossp。
在一种可能的实施方式中,所述预设调节系数通过下述方式得到:通过第一次得到的语音对抗样本对黑盒智能语音识别系统进行预备攻击,在预备攻击过程中采用二分查找算法自动配置预设的线性惩罚项超参数。
在一种可能的实施方式中,所述在以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动时,采用基于梯度下降的优化算法迭代更新语音对抗扰动。
在一种可能的实施方式中,所述基于梯度下降的优化算法为基于梯度下降的自适应矩估计优化器。
前述的黑盒智能语音识别系统对抗样本生成方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的黑盒智能语音识别系统对抗样本生成系统所对应的功能模块的功能描述,在此不再赘述。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可用于黑盒智能语音识别系统对抗样本生成方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关黑盒智能语音识别系统对抗样本生成方法的相应步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种黑盒智能语音识别系统对抗样本生成方法,其特征在于,包括:
S1:获取能够在黑盒智能语音识别系统上正确识别的目标指令音频文件,以及语音对抗扰动:
S2:根据语音对抗扰动,得到语音对抗样本;
S3:对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,并计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,以及计算语音对抗扰动的L2范数作为扰动损失函数值;
S4:根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动;
S5:迭代S2~S4,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。
2.根据权利要求1所述的黑盒智能语音识别系统对抗样本生成方法,其特征在于,所述语音对抗扰动初始为在(-1,1)内服从均匀分布的随机噪声向量。
3.根据权利要求1所述的黑盒智能语音识别系统对抗样本生成方法,其特征在于,所述根据语音对抗扰动,得到语音对抗样本包括:
根据语音对抗扰动,根据式(1)或(2)进行隐藏指令攻击,得到语音对抗样本x′:
x′=y+α·δ0 (1)
x′=δ0 (2)
其中,y为目标指令音频文件,α为第一扰动参数,δ0为语音对抗扰动;
或者,获取原始载体文件,根据式(3)进行集成指令攻击,得到语音对抗样本x′:
x′=x+β·δ0 (3)
其中,x为原始载体文件,β为第二扰动参数。
4.根据权利要求3所述的黑盒智能语音识别系统对抗样本生成方法,其特征在于,当语音对抗样本为隐藏指令攻击得到时,所述对抗扰动优化损失函数loss为loss=lossf-λ·lossp,其中,lossf为声学特征损失函数值,lossp为扰动损失函数值,λ为预设的线性惩罚项超参数;当语音对抗样本为集成指令攻击得到时,所述对抗扰动优化损失函数loss为loss=lossf+λ·lossp。
5.根据权利要求4所述的黑盒智能语音识别系统对抗样本生成方法,其特征在于,所述预设调节系数通过下述方式得到:
通过第一次得到的语音对抗样本对黑盒智能语音识别系统进行预备攻击,在预备攻击过程中采用二分查找算法自动配置预设的线性惩罚项超参数。
6.根据权利要求4所述的黑盒智能语音识别系统对抗样本生成方法,其特征在于,所述在以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动时,采用基于梯度下降的优化算法迭代更新语音对抗扰动。
7.根据权利要求6所述的黑盒智能语音识别系统对抗样本生成方法,其特征在于,所述基于梯度下降的优化算法为基于梯度下降的自适应矩估计优化器。
8.一种黑盒智能语音识别系统对抗样本生成系统,其特征在于,包括:
数据获取模块,用于获取能够在黑盒智能语音识别系统上正确识别的目标指令音频文件,以及语音对抗扰动;
对抗模块,用于根据语音对抗扰动,得到语音对抗样本;
数据处理模块,用于对目标指令音频文件和语音对抗样本均进行MFCC特征提取,得到目标语音特征矩阵和对抗语音特征矩阵,并计算目标语音特征矩阵和对抗语音特征矩阵之间的L2距离作为声学特征损失函数值,以及计算语音对抗扰动的L2范数作为扰动损失函数值;
优化模块,用于根据声学特征损失函数值和扰动损失函数值构建对抗扰动优化损失函数,以同时最小化声学特征损失函数值和扰动损失函数值为目标更新语音对抗扰动;
迭代控制模块,用于迭代触发对抗模块、数据处理模块以及优化模块,至迭代次数达到预设值或对抗扰动优化损失函数值在连续预设次迭代过程中的下降值在预设范围内时,得到最终的语音对抗样本。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述黑盒智能语音识别系统对抗样本生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述黑盒智能语音识别系统对抗样本生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310187328.8A CN116343759A (zh) | 2023-03-01 | 2023-03-01 | 黑盒智能语音识别系统对抗样本生成方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310187328.8A CN116343759A (zh) | 2023-03-01 | 2023-03-01 | 黑盒智能语音识别系统对抗样本生成方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343759A true CN116343759A (zh) | 2023-06-27 |
Family
ID=86892204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310187328.8A Pending CN116343759A (zh) | 2023-03-01 | 2023-03-01 | 黑盒智能语音识别系统对抗样本生成方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343759A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758899A (zh) * | 2023-08-11 | 2023-09-15 | 浙江大学 | 一种基于语义空间扰动的语音识别模型安全性测评方法 |
-
2023
- 2023-03-01 CN CN202310187328.8A patent/CN116343759A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758899A (zh) * | 2023-08-11 | 2023-09-15 | 浙江大学 | 一种基于语义空间扰动的语音识别模型安全性测评方法 |
CN116758899B (zh) * | 2023-08-11 | 2023-10-13 | 浙江大学 | 一种基于语义空间扰动的语音识别模型安全性测评方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10971142B2 (en) | Systems and methods for robust speech recognition using generative adversarial networks | |
US10943581B2 (en) | Training and testing utterance-based frameworks | |
CN109599109B (zh) | 针对白盒场景的对抗音频生成方法及系统 | |
JP7023934B2 (ja) | 音声認識方法及び装置 | |
US8738375B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CN107077842A (zh) | 用于语音转录的系统和方法 | |
Pan et al. | Selective listening by synchronizing speech with lips | |
EP3479377A1 (en) | Speech recognition | |
CN109887496A (zh) | 一种黑盒场景下的定向对抗音频生成方法及系统 | |
WO2013011397A1 (en) | Statistical enhancement of speech output from statistical text-to-speech synthesis system | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN114999441B (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
JP7214798B2 (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
Xie et al. | Real-time, robust and adaptive universal adversarial attacks against speaker recognition systems | |
CN110264997A (zh) | 语音断句的方法、装置和存储介质 | |
Kong et al. | Adversarial audio: A new information hiding method and backdoor for dnn-based speech recognition models | |
CN116343759A (zh) | 黑盒智能语音识别系统对抗样本生成方法及相关装置 | |
Wang et al. | Adversarial examples attack and countermeasure for speech recognition system: A survey | |
AU2018100318A4 (en) | A method of generating raw music audio based on dilated causal convolution network | |
CN105654955A (zh) | 语音识别方法及装置 | |
Zhao et al. | A survey on automatic emotion recognition using audio big data and deep learning architectures | |
JP2017097317A (ja) | 識別装置、ロボットおよび識別方法 | |
Peng et al. | Improving speaker verification with self-pretrained transformer models | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN113421584A (zh) | 音频降噪方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |