CN109599109B - 针对白盒场景的对抗音频生成方法及系统 - Google Patents

针对白盒场景的对抗音频生成方法及系统 Download PDF

Info

Publication number
CN109599109B
CN109599109B CN201811599016.3A CN201811599016A CN109599109B CN 109599109 B CN109599109 B CN 109599109B CN 201811599016 A CN201811599016 A CN 201811599016A CN 109599109 B CN109599109 B CN 109599109B
Authority
CN
China
Prior art keywords
audio
target
attack
model
attack target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811599016.3A
Other languages
English (en)
Other versions
CN109599109A (zh
Inventor
纪守领
杜天宇
李进锋
陈建海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811599016.3A priority Critical patent/CN109599109B/zh
Publication of CN109599109A publication Critical patent/CN109599109A/zh
Application granted granted Critical
Publication of CN109599109B publication Critical patent/CN109599109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及对抗样本生成技术领域,尤其涉及一种针对白盒场景的对抗音频生成方法及系统,该方法可高效地生成高质量的对抗音频,包括:选择目标攻击模型和源音频并设定攻击目标;对源音频进行预处理;提取源音频的MFCC特征;目标攻击模型根据MFCC特征对源音频进行识别,得到识别结果,计算识别结果与攻击目标之间的CTC损失函数并利用粒子群算法进行优化,寻找最佳噪音,将最佳噪音加入源音频得到中间音频并采用目标攻击模型进行识别;若识别结果与攻击目标相同,则中间音频即为对抗音频;若识别结果与攻击目标不同,则执行下一步;利用梯度下降算法寻找中间音频的最佳噪音,直至识别结果与攻击目标相同,对最佳噪音进行微调加入中间音频,得到对抗音频。

Description

针对白盒场景的对抗音频生成方法及系统
技术领域
本发明涉及对抗样本生成技术领域,尤其涉及一种针对白盒场景的对抗音频生成方法及系统。
背景技术
随着机器学习和人工智能的发展,机器学习模型变得无处不在并且成为了许多人工智能设备中的核心技术,例如语音助手中的语音识别模型(例如,Apple Siri,GoogleNow和Amazon Echo),智能语音锁中说话人识别模型,声学监视系统中的声音事件分类模型和视频的分类。尽管机器学习表现出色,但最近的研究表明,机器学习模型中的神经网络很容易被攻击者愚弄,他们可以迫使模型产生错误的结果甚至产生有针对性的输出。这种被称之为对抗样例攻击的攻击方法在针对图像分类模型的攻击中已被证明具有很高的攻击成功率,这将对许多人工设备(例如,自动驾驶汽车)造成严重的物理威胁。
同样地,针对声学机器学习模型的对抗样例也会对各种系统构成威胁,因为它们涉及许多安全领域。在语音识别系统中,对抗性音频听起来像正常语音,但实际上会被自动语音识别系统识别为恶意命令。例如,自动语音识别系统可能会将一段人听着为“停止”的对抗音频识别为“前进”,而这对于语音命令识别系统来讲是十分危险的。同时,由于基于语音的人机交互被广泛用于智能设备中,来自恶意用户精心构造的对抗音频将会引入各种各样的潜在风险,例如信息泄漏(如,在Twitter上发布用户位置),导致拒绝服务(如激活飞行模式)等。对于基于语音的身份验证系统,攻击者可以在未经授权情况下使用用户的信用卡进行消费,以及通过欺骗智能语音锁进入房屋。最后,如果基于内容的索引和多媒体应用程序的检索受到此类对抗性音频的污染,用户可能会收到一些包含内容的恶意推荐结果。
然而,目前已有的关于对抗样例攻击的工作大多数集中在图像领域,对抗音频少有人研究。考虑到语音识别模型在实际生活中的广泛应用,研究对抗音频样本的生成机理对于研究相应的防御方法以增强语音识别模型的鲁棒性是十分必要的。
而在实际场景中,由于机器学习模型的开源,攻击者完全有能力获取模型的详细信息,包括模型的架构和参数。在这种白盒的场景下,攻击者采取的攻击就更容易成功,相对应的防御就更难。因此,在研究对抗音频生成方法时,我们必须要考虑白盒的场景,这对于研究相应的防御技术具有重要意义。而已有的白盒对抗音频生成方法都比较初级并且耗时长,攻击效果差。因此研究一种高质量、高效率的对抗音频生成方法变得十分重要。
发明内容
本发明提供了一种针对白盒场景的对抗音频生成方法,该方法可以高效地生成高质量的对抗音频。
具体技术方案如下:
一种针对白盒场景的对抗音频生成方法,包括以下步骤:
(1)选择目标攻击模型
Figure GDA0003483131310000021
作为音频识别模型,选择源音频x并设定攻击目标t;
(2)对源音频x进行预处理,包括清洗、降噪以及统一音频采样率;
(3)提取源音频x的MFCC特征;
(4)所述目标攻击模型
Figure GDA0003483131310000022
根据所述MFCC特征对源音频进行识别,得到识别结果
Figure GDA0003483131310000023
计算识别结果
Figure GDA0003483131310000024
与攻击目标t之间的CTC损失函数
Figure GDA0003483131310000025
(5)利用粒子群算法优化CTC损失函数
Figure GDA0003483131310000026
寻找最佳噪音η,将最佳噪音η加入源音频x,得到中间音频x′并采用目标攻击模型
Figure GDA0003483131310000027
进行识别;
若中间音频x′的识别结果
Figure GDA0003483131310000028
与攻击目标t相同,则中间音频x′即为对抗音频,并输出;
若中间音频x′的识别结果
Figure GDA0003483131310000029
与攻击目标t不同,则执行下一步;
(6)利用梯度下降算法进一步寻找所述中间音频x′的最佳噪音η′,直至使得识别结果
Figure GDA00034831313100000210
与攻击目标t相同,对最佳噪音η′进行微调后加入中间音频x′,得到对抗音频,并输出。
目标攻击模型
Figure GDA0003483131310000031
是指对抗音频所要攻击的模型,攻击目标t是指目标攻击模型
Figure GDA0003483131310000032
对对抗音频的预期识别结果。例如,源音频的内容为“今天的天气真好”,所预期的目标攻击模型对对抗音频的识别结果是“关闭所有智能设备”,则攻击目标既是“关闭所有智能设备”,针对目标攻击模型,会将基于源音频生成的对抗音频识别为“关闭所有智能设备”,而人耳所听到的内容仍是“今天的天气真好”。
所述的目标攻击模型
Figure GDA0003483131310000033
可以是自训练的深度神经网络模型,也可以是开源的语音识别模型,如百度开源的语音识别模型DeepSpeech等。
步骤(3)中,所述的MFCC特征为梅尔倒谱系数。由于MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术有助于提高语音识别系统的性能。
步骤(3)包括:
(3-1)对预处理后的音频进行预加重处理,使音频的频谱变得平坦;
(3-2)之后将音频分成若干帧,并将每一帧乘以汉明窗;
(3-3)对各帧音频进行快速傅里叶变换,得到各帧音频的频谱,从音频的频谱获得音频的能量谱;
(3-4)将音频的能量谱通过一组Mel尺度的三角形滤波器组;
(3-5)计算每个三角形滤波器输出的对数能量,将对数能量经离散余弦变换,得到MFCC系数阶数阶的Mel-scaleCepstrum参数;提取音频的动态差分参数;
(3-6)得到MFCC特征。
步骤(5)中,粒子群算法的目标在于寻找最佳噪音η从而最大化每一次迭代的损失差值
Figure GDA0003483131310000034
从而加快损失函数收敛的速度,其具体的优化目标为:
Figure GDA0003483131310000035
步骤(5)包括:
(5-1)随机生成若干个优化目标的候选解,并从初始的候选解中找出第一个局部最优候选解η,更新音频x′=x+η,基于当前最优候选解的位置,更新所有候选解的搜索方向和速度;
(5-2)采用目标攻击模型
Figure GDA0003483131310000036
对音频x′进行识别,得到识别结果
Figure GDA0003483131310000037
计算该识别结果
Figure GDA0003483131310000041
与攻击目标t之间的新CTC损失函数
Figure GDA0003483131310000042
并计算新CTC损失函数
Figure GDA0003483131310000043
与上次CTC损失函数
Figure GDA0003483131310000044
之间的差值
Figure GDA0003483131310000045
计算五步CTC损失差值的均方差
Figure GDA0003483131310000046
(5-3)若识别结果
Figure GDA0003483131310000047
与攻击目标t相同,则新音频x′即为对抗音频;
若识别结果
Figure GDA0003483131310000048
与攻击目标t不同,则循环迭代步骤(5-2),直至迭代次数达到预设的最大迭代次数,或五步CTC损失差值的均方差std小于预设值∈,执行步骤(6)。
若迭代次数达到预设的最大迭代次数,或五步CTC损失差值的均方差std小于预设值∈时,说明粒子群算法已经无法有效地降低CTC损失,需要终止粒子群搜索,执行步骤(6)。
步骤(6)主要是为了进一步寻找最优噪音,是生成的音频在保证攻击效果的同时还能保证较好的质量。由于粒子群算法只能找到一个粗粒度的噪音,当CTC损失
Figure GDA0003483131310000049
降低到一定程度后,粒子群算法已经无法加快损失函数的收敛速度,因此经过粒子群算法优化后,大体只能得到一个对抗音频的中间产物x′,因此需要进一步利用梯度信息,寻找更精细的扰动。
步骤(6)包括:
(6-1)计算损失函数
Figure GDA00034831313100000410
对中间音频x′的梯度,根据梯度信息,利用梯度下降算法寻找新噪音η′,直至满足音频(x′+η′)的识别结果
Figure GDA00034831313100000411
与攻击目标t相同;
(6-2)对新噪音η′进行微调后加入中间音频x′,即得对抗音频。
本发明还提供了一种针对白盒场景的对抗音频生成系统,包括:
音频数据预处理模块,对音频数据进行清洗、降噪以及统一音频采样率;
音频特征提取模块,提取音频数据的MFCC特征;
音频识别模块,具有目标攻击模型,所述目标攻击模型根据音频的MFCC特征对音频进行识别,得到识别结果,计算识别结果与攻击目标之间的CTC损失函数;
粒子群优化模块,利用粒子群算法寻找最佳噪音,将最佳噪音加入源音频,得到中间音频并采用音频识别模块进行识别;
若中间音频的识别结果与攻击目标相同,则中间音频即为对抗音频,并输出;
若中间音频的识别结果与攻击目标不同,则将中间音频输入梯度欺骗优化模块;
梯度欺骗优化模块,利用梯度下降算法进一步寻找中间音频的最佳噪音,直至使得识别结果与攻击目标相同,对最佳噪音进行微调后加入中间音频,得到对抗音频,并输出。
与现有技术相比,本发明的有益效果为:本发明通过精心添加人耳不可察觉的噪音,可定向生成让语音识别模型识别为指定内容的对抗音频。同时,本发明利用粒子群算法,有效地提高了对抗音频生成的效率。利用本发明生成的对抗音频,可有效评估基于深度学习的语音识别模型的鲁棒性,从而对如何研究相应的防御方法以增强语音识别模型的鲁棒性具有重要意义。
附图说明
图1为对抗音频的生成原理示意图;
图2为基于粒子群算法的对抗音频生成系统的的系统架构示意图;
图3为粒子群优化阶段的流程示意图;
图4为对抗音频生成流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一个正常语音被恶意用户精心加入微小扰动后,由人听起来仍然是正常语音,但实际上会被自动语音识别系统识别为恶意命令。
本发明提供的一个实施例中,对抗音频生成系统包括五个模块:音频数据预处理模块、音频特征提取模块、音频识别模块、粒子群优化模块和梯度欺骗优化模块。其整体架构如图2所示,具体模块及每个模块的功能如下:
1、音频数据预处理模块
本模块主要是对输入的音频数据进行预处理。一般场景下,用户在不同领域中收集的音频数据本身就可能存在噪音,因此,在数据导入生成系统之前,为了避免影响对抗音频生成效果,需要对输入音频识别模块的每一个音频数据进行预处理操作,包括对音频数据的清洗、降噪处理以及统一音频的采样率。
2、音频特征提取模块
本模块主要用于提取音频数据的MFCC特征(梅尔倒谱系数)。由于MFCC特征在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术有助于提高语音识别系统的性能。因此,我们需要从经过预处理的音频数据中提取出MFCC特征。具体提取过程如下:
(1)预加重处理。首先,将语音信号通过一个高通滤波器,则经过预加重处理后结果为y(n)=x(n)-a·x(n-1),其中x(n)为n时刻语音采样值,a为预加重系数,通常设置为0.97。预加重目的在于消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,同时突出高频的共振峰。
(2)分帧加窗。预加重完成后,需要对音频进行分帧处理,即将音频的每N个采样点集合成一帧(通常情况下,N取值为256或512,涵盖时间20~30ms左右)。然后将分帧后的每一帧乘以汉明窗以增加帧左端到右端的连续性。
(3)快速傅里叶变换。分帧加窗完成后,对各帧信号进行快速傅里叶变换得到各帧的频谱。然后对语音信号的频谱取模平方(即取绝对值的平方)并除以傅里叶变换的点数得到语音信号的能量谱,通常傅里叶变换点数设置为128,256,1024等(必须为2的幂次)。
(4)三角带通滤波。将能量谱通过一组Mel尺度的三角形滤波器组,对能量谱进行平滑,并消除谐波的作用,突显原先语音的共振峰。
(5)计算滤波器输出的对数能量。首先,计算每个滤波器输出的对数能量s(m),然后将计算所得的对数能量代入离散余弦变换,求出MFCC系数
Figure GDA0003483131310000061
其中M为三角滤波器个数,N为傅里叶变换点数,L为MFCC系数阶数,通常取12~16。
(6)动态差分参数的提取。标准的倒谱参数MFCC只反应了语音参数的静态特性。我们可以通过提取动态差分参数来描述语音的动态特性。动态差分参数计算如下:
Figure GDA0003483131310000071
其中,dt表示第t个一阶差分参数,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差(可取值1或2)。dt公式迭代两次即可得到MFCC的二阶差分参数。
3、音频识别模块
本模块主要用于对音频进行识别处理,并计算识别模型
Figure GDA0003483131310000072
的损失函数。具体流程如下:
(1)音频识别。记输入识别模型
Figure GDA0003483131310000073
的音频为x,利用音频特征提取模块,提取音频x的MFCC特征并基于提取的特征对音频x进行识别,得到识别结果
Figure GDA0003483131310000074
(2)计算
Figure GDA0003483131310000075
的CTC损失函数
Figure GDA0003483131310000076
设定攻击目标为t,即期望目标攻击模型
Figure GDA0003483131310000077
对生成的对抗音频x′的识别结果为t,亦即
Figure GDA0003483131310000078
基于音频特征提取模块提取的MFCC特征,计算模型的识别结果
Figure GDA0003483131310000079
与攻击目标t之间的CTC损失函数
Figure GDA00034831313100000710
4、粒子群优化模块
本模块主要用于利用粒子群算法优化损失函数
Figure GDA00034831313100000711
粒子群算法目标在于寻找最佳扰动η从而最大化每一次迭代的损失差值
Figure GDA00034831313100000712
从而加快损失函数收敛的速度,其具体的优化目标为:
Figure GDA00034831313100000713
该模块工作流程如图3所示,具体流程如下:
(1)初始化粒子。在粒子群算法中,优化目标的候选解pi称之为粒子。优化目标的最优解pbest就是我们所要找的最佳扰动η,即最优解pbest=η。在本发明中,我们对传统的粒子群算法就行了改进,即保留每一轮迭代中所得的局部最优解pbest,从而不断地对pbest进行迭代更新,使其最终成为全局最优解。在初始阶段,我们从均匀分布中随机生成N个粒子,p1,p2,…,pN,并从初始的粒子中找出第一个局部最优粒子pbest,基于当前最优粒子的位置,更新所有粒子的搜索方向和速度。
(2)更新每一次迭代结果。设定粒子群算法最大迭代次数epochmax和五步损失差值的均方差阈值∈,每一轮迭代所得音频x′=x+η,重复音频识别模块的两个重要步骤,得到新的损失
Figure GDA0003483131310000081
(则
Figure GDA0003483131310000082
)和新的识别结果
Figure GDA0003483131310000083
同时保留五次迭代中的损失差值
Figure GDA0003483131310000084
计算得到五步损失差值的均方差
Figure GDA0003483131310000085
(3)判断终止条件。针对步骤(2)中每一次迭代更新的结果,判断粒子群搜索的终止条件。即,如果
Figure GDA0003483131310000086
则达到攻击目标,得到一个被语音识别模型识别为t的对抗音频x′,并输出对抗音频x′,结束整个生成流程。否则循环迭代,并重复步骤(2)、(3)。如果迭代次数达到epochmax或std<∈,说明粒子群算法已经无法有效地降低CTC损失,需要终止粒子群搜索,进入梯度欺骗优化模块。
5、梯度欺骗优化模块
本模块主要用于进一步寻找最优扰动,使生成的音频在保证攻击效果的同时还能保证很好的质量。本模块只要包括两个步骤,如下:
(1)利用梯度下降进一步寻找最优扰动。由于粒子群算法只能找到一个粗粒度的噪音,当损失
Figure GDA0003483131310000087
降低到一定程度,粒子群算法已经无法加快损失函数L的收敛速度,因此经过粒子群优化模块后,我们大体只能得到一个对抗音频的中间产物x′。因此我们需要利用梯度信息,寻找更精细的扰动。首先,需要计算损失函数
Figure GDA0003483131310000088
对粒子群优化模块所得音频x′的梯度,即
Figure GDA0003483131310000089
根据所得梯度信息,利用梯度下降的方法寻找新的噪音η′,直到满足
Figure GDA00034831313100000810
(2)对噪音η′进行微调。当达到攻击目标后,还需要保证生成的对抗音频是高质量的,即不影响人的使用。因此需要对步骤(1)中得到的扰动η′进行微调,即在满足攻击目标的前提下最小化噪音,最后输出生成的对抗音频x′,完成整个生成流程。
用户在使用本系统时,只需要导入源音频数据并自己选择需要攻击的音频识别模型。以语音识别为例,系统整体工作流程分为以下七个阶段,具体流程如图4所示:
(1)目标攻击模型选择阶段:首先用户需要选择一个目标攻击模型,即音频识别模块的识别模型
Figure GDA0003483131310000091
用户选择的目标攻击模型可以是自训练的深度神经网络模型,也可以是开源的语音识别模型,如百度开源的语音识别模型DeepSpeech等。
(2)源音频导入阶段:用户通过本发明公开的系统所提供的数据导入接口导入原始音频数据,并设定攻击目标t。如原始音频的内容是“今天的天气真好”,攻击目标设定为“关闭所有智能设备”,即针对目标模型
Figure GDA0003483131310000092
基于源音频生成一段
Figure GDA0003483131310000093
识别为“关闭所有智能设备”的对抗音频,而人耳所听到的内容仍是“今天的天气真好”。
(3)音频预处理阶段:用户导入源音频后,系统会对用户导入的数据进行预处理操作,如音频降噪、统一音频采样率等。
(4)音频特征提取阶段:在特征提取模块,系统会根据用户导入的音频数据提取其MFCC特征,供后续阶段使用。
(5)音频识别阶段:提取完特征后,系统音频识别模块会根据其MFCC特征对音频进行识别处理,同时会初始化系统参数,如系统中的CTC损失
Figure GDA0003483131310000094
(6)粒子群优化阶段:首先,初始化粒子群优化模块各参数,如粒子群迭代的最大次数epochmax和控制粒子群优化性能的阈值参数∈。该参数可由用户设定,也可使用系统提供的默认参数。参数初始化完毕后系统开始进行优化,最终可以得到一个对抗音频的中间产物。
(7)梯度欺骗优化阶段:针对上一阶段所得中间产物,本阶段会基于梯度信息,利用梯度欺骗的方法寻找更为精细的噪音,直到人听起来是“今天的天气真好”的音频被识别模型
Figure GDA0003483131310000095
识别为“关闭所有智能设备”。当达到攻击目标后,开始对加入的噪音进行调整,即在满足攻击目标的前提下最小化噪音,从而确保生成的对抗音频是高质量的。当噪音降低到最小后,系统输出最终生成的对抗音频供用户使用。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种针对白盒场景的对抗音频生成方法,其特征在于,包括以下步骤:
(1)选择目标攻击模型
Figure FDA0003483131300000011
作为音频识别模型,选择源音频x并设定攻击目标t;
(2)对源音频x进行预处理,包括清洗、降噪以及统一音频采样率;
(3)提取源音频x的MFCC特征;
(4)所述目标攻击模型
Figure FDA0003483131300000012
根据所述MFCC特征对源音频进行识别,得到识别结果
Figure FDA0003483131300000013
计算识别结果
Figure FDA0003483131300000014
与攻击目标t之间的CTC损失函数
Figure FDA0003483131300000015
(5)利用粒子群算法优化CTC损失函数
Figure FDA0003483131300000016
寻找最佳噪音η,将最佳噪音η加入源音频x,得到中间音频x′并采用目标攻击模型
Figure FDA0003483131300000017
进行识别;
若中间音频x′的识别结果
Figure FDA0003483131300000018
与攻击目标t相同,则中间音频x′即为对抗音频,并输出;
若中间音频x′的识别结果
Figure FDA0003483131300000019
与攻击目标t不同,则执行下一步;
(6)计算损失函数
Figure FDA00034831313000000110
对中间音频x′的梯度,根据梯度信息,利用梯度下降算法寻找新噪音η′,直至使得识别结果
Figure FDA00034831313000000111
与攻击目标t相同,对最佳噪音η′进行微调后加入中间音频x′,得到对抗音频,并输出。
2.根据权利要求1所述的针对白盒场景的对抗音频生成方法,其特征在于,所述的目标攻击模型
Figure FDA00034831313000000112
为自训练的深度神经网络模型或开源的语音识别模型。
3.根据权利要求1所述的针对白盒场景的对抗音频生成方法,其特征在于,步骤(3)包括:
(3-1)对预处理后的音频进行预加重处理,使音频的频谱变得平坦;
(3-2)之后将音频分成若干帧,并将每一帧乘以汉明窗;
(3-3)对各帧音频进行快速傅里叶变换,得到各帧音频的频谱,从音频的频谱获得音频的能量谱;
(3-4)将音频的能量谱通过一组Mel尺度的三角形滤波器组;
(3-5)计算每个三角形滤波器输出的对数能量,将对数能量经离散余弦变换,得到MFCC系数的Mel-scale Cepstrum参数;提取音频的动态差分参数;
(3-6)得到MFCC特征。
4.根据权利要求1所述的针对白盒场景的对抗音频生成方法,其特征在于,步骤(5)包括:
(5-1)随机生成若干个优化目标的候选解,并从初始的候选解中找出第一个局部最优候选解η,更新音频x′=x+η,基于当前最优候选解的位置,更新所有候选解的搜索方向和速度;
(5-2)采用目标攻击模型
Figure FDA0003483131300000021
对音频x′进行识别,得到识别结果
Figure FDA0003483131300000022
计算该识别结果
Figure FDA0003483131300000023
与攻击目标t之间的新CTC损失函数
Figure FDA0003483131300000024
并计算新CTC损失函数
Figure FDA0003483131300000025
与上次CTC损失函数
Figure FDA0003483131300000026
之间的差值
Figure FDA0003483131300000027
计算五步CTC损失差值的均方差
Figure FDA0003483131300000028
(5-3)若识别结果
Figure FDA0003483131300000029
与攻击目标t相同,则新音频x′即为对抗音频;
若识别结果
Figure FDA00034831313000000210
与攻击目标t不同,则循环迭代步骤(5-2),直至迭代次数达到预设的最大迭代次数,或五步CTC损失差值的均方差std小于预设值∈,执行步骤(6)。
5.一种针对白盒场景的对抗音频生成系统,其特征在于,包括:
音频数据预处理模块,对音频数据进行清洗、降噪以及统一音频采样率;
音频特征提取模块,提取音频数据的MFCC特征;
音频识别模块,具有目标攻击模型,所述目标攻击模型根据音频的MFCC特征对音频进行识别,得到识别结果,计算识别结果与攻击目标之间的CTC损失函数;
粒子群优化模块,利用粒子群算法优化CTC损失函数
Figure FDA00034831313000000211
寻找最佳噪音η,将最佳噪音加入源音频,得到中间音频并采用音频识别模块进行识别;
若中间音频的识别结果与攻击目标相同,则中间音频即为对抗音频,并输出;
若中间音频的识别结果与攻击目标不同,则将中间音频输入梯度欺骗优化模块;
梯度欺骗优化模块,计算损失函数
Figure FDA0003483131300000031
对中间音频x′的梯度,根据梯度信息,利用梯度下降算法寻找新噪音η′,直至使得识别结果与攻击目标相同,对最佳噪音进行微调后加入中间音频,得到对抗音频,并输出。
CN201811599016.3A 2018-12-26 2018-12-26 针对白盒场景的对抗音频生成方法及系统 Active CN109599109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811599016.3A CN109599109B (zh) 2018-12-26 2018-12-26 针对白盒场景的对抗音频生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811599016.3A CN109599109B (zh) 2018-12-26 2018-12-26 针对白盒场景的对抗音频生成方法及系统

Publications (2)

Publication Number Publication Date
CN109599109A CN109599109A (zh) 2019-04-09
CN109599109B true CN109599109B (zh) 2022-03-25

Family

ID=65962765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811599016.3A Active CN109599109B (zh) 2018-12-26 2018-12-26 针对白盒场景的对抗音频生成方法及系统

Country Status (1)

Country Link
CN (1) CN109599109B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210573B (zh) * 2019-06-11 2023-01-06 腾讯科技(深圳)有限公司 对抗图像的生成方法、装置、终端及存储介质
US11222651B2 (en) * 2019-06-14 2022-01-11 Robert Bosch Gmbh Automatic speech recognition system addressing perceptual-based adversarial audio attacks
CN110379418B (zh) * 2019-06-28 2021-08-13 西安交通大学 一种语音对抗样本生成方法
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110767216B (zh) * 2019-09-10 2021-12-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法
CN110992934B (zh) * 2019-10-28 2022-04-26 浙江工业大学 面向语音识别系统黑盒攻击模型的防御方法及防御装置
CN111461239B (zh) * 2020-04-03 2023-05-09 成都考拉悠然科技有限公司 基于白盒攻击的ctc场景文字识别模型优化方法
CN111476228A (zh) * 2020-04-07 2020-07-31 海南阿凡题科技有限公司 针对场景文字识别模型的白盒对抗样本生成方法
CN111652267B (zh) * 2020-04-21 2023-01-31 清华大学 对抗样本的生成方法、装置、电子设备及存储介质
CN111680292B (zh) * 2020-06-10 2023-05-16 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN112216296B (zh) * 2020-09-25 2023-09-22 脸萌有限公司 音频对抗扰动的测试方法、设备及存储介质
CN114639375B (zh) * 2022-05-09 2022-08-23 杭州海康威视数字技术股份有限公司 基于音频切片调节的智能语音识别安全防御方法及装置
CN114627858A (zh) * 2022-05-09 2022-06-14 杭州海康威视数字技术股份有限公司 基于粒子群算法的智能语音识别安全防御方法和装置
CN116758899B (zh) * 2023-08-11 2023-10-13 浙江大学 一种基于语义空间扰动的语音识别模型安全性测评方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108257116A (zh) * 2017-12-30 2018-07-06 清华大学 一种生成对抗图像的方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN108549940A (zh) * 2018-03-05 2018-09-18 浙江大学 基于多种对抗样例攻击的智能防御算法推荐方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337682A1 (en) * 2016-05-18 2017-11-23 Siemens Healthcare Gmbh Method and System for Image Registration Using an Intelligent Artificial Agent

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108257116A (zh) * 2017-12-30 2018-07-06 清华大学 一种生成对抗图像的方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN108549940A (zh) * 2018-03-05 2018-09-18 浙江大学 基于多种对抗样例攻击的智能防御算法推荐方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adversarial Attacks on Neural Network Policies;Sandy Huang;《arXiv:1702.02284v1 [cs.LG]》;20170228;全文 *
FOOLING END-TO-END SPEAKER VERIFICATION WITH ADVERSARIAL EXAMPLES;Felix Kreuk;《arXiv:1801.03339v2 [cs.LG]》;20180216;全文 *
Learning More Robust Features with Adversarial Training;Shuangtao Li;《arXiv:1804.07757v1 [cs.LG]》;20180420;全文 *

Also Published As

Publication number Publication date
CN109599109A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109599109B (zh) 针对白盒场景的对抗音频生成方法及系统
Li et al. Replay and synthetic speech detection with res2net architecture
CN105702263B (zh) 语音重放检测方法和装置
CN109712628B (zh) 一种基于rnn建立的drnn降噪模型的语音降噪方法及语音识别方法
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及系统
CN108597505B (zh) 语音识别方法、装置及终端设备
CN111261147B (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
CN109785852A (zh) 一种增强说话人语音的方法及系统
Joshi et al. Study of pre-processing defenses against adversarial attacks on state-of-the-art speaker recognition systems
WO2021174883A1 (zh) 声纹核身模型训练方法、装置、介质及电子设备
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN113362822B (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN115147682A (zh) 一种具有迁移性的隐蔽白盒对抗样本生成方法及装置
Sun et al. Ai-synthesized voice detection using neural vocoder artifacts
CN114093371A (zh) 基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法
Zhang et al. Speaker-independent lipreading by disentangled representation learning
CN109119081A (zh) 一种智能家居语音控制系统
CN111462737A (zh) 一种训练用于语音分组的分组模型的方法和语音降噪方法
CN114640518B (zh) 一种基于音频隐写的个性化触发器后门攻击方法
CN116343759A (zh) 黑盒智能语音识别系统对抗样本生成方法及相关装置
Zhou et al. Spoof speech detection based on raw cross-dimension interaction attention network
Sankaran et al. Security over Voice Controlled Android Applications for Home IoT Systems
Liu et al. Backdoor Attacks against Deep Neural Networks by Personalized Audio Steganography
Nguyen-Vu et al. On the defense of spoofing countermeasures against adversarial attacks
CN112201270B (zh) 语音噪声的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant