CN109599109A

CN109599109A - 针对白盒场景的对抗音频生成方法及系统

Info

Publication number: CN109599109A
Application number: CN201811599016.3A
Authority: CN
Inventors: 纪守领; 杜天宇; 李进锋; 陈建海
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-04-09
Anticipated expiration: 2038-12-26
Also published as: CN109599109B

Abstract

本发明涉及对抗样本生成技术领域，尤其涉及一种针对白盒场景的对抗音频生成方法及系统，该方法可高效地生成高质量的对抗音频，包括：选择目标攻击模型和源音频并设定攻击目标；对源音频进行预处理；提取源音频的MFCC特征；目标攻击模型根据MFCC特征对源音频进行识别，得到识别结果，计算识别结果与攻击目标之间的CTC损失函数并利用粒子群算法进行优化，寻找最佳噪音，将最佳噪音加入源音频得到中间音频并采用目标攻击模型进行识别；若识别结果与攻击目标相同，则中间音频即为对抗音频；若识别结果与攻击目标不同，则执行下一步；利用梯度下降算法寻找中间音频的最佳噪音，直至识别结果与攻击目标相同，对最佳噪音进行微调加入中间音频，得到对抗音频。

Description

针对白盒场景的对抗音频生成方法及系统

技术领域

本发明涉及对抗样本生成技术领域，尤其涉及一种针对白盒场景的对抗音频生成方法及系统。

背景技术

随着机器学习和人工智能的发展，机器学习模型变得无处不在并且成为了许多人工智能设备中的核心技术，例如语音助手中的语音识别模型(例如，Apple Siri，GoogleNow和Amazon Echo)，智能语音锁中说话人识别模型，声学监视系统中的声音事件分类模型和色情视频的分类。尽管机器学习表现出色，但最近的研究表明，机器学习模型中的神经网络很容易被攻击者愚弄，他们可以迫使模型产生错误的结果甚至产生有针对性的输出。这种被称之为对抗样例攻击的攻击方法在针对图像分类模型的攻击中已被证明具有很高的攻击成功率，这将对许多人工设备(例如，自动驾驶汽车)造成严重的物理威胁。

同样地，针对声学机器学习模型的对抗样例也会对各种系统构成威胁，因为它们涉及许多安全领域。在语音识别系统中，对抗性音频听起来像正常语音，但实际上会被自动语音识别系统识别为恶意命令。例如，自动语音识别系统可能会将一段人听着为“停止”的对抗音频识别为“前进”，而这对于语音命令识别系统来讲是十分危险的。同时，由于基于语音的人机交互被广泛用于智能设备中，来自恶意用户精心构造的对抗音频将会引入各种各样的潜在风险，例如信息泄漏(如，在Twitter上发布用户位置)，导致拒绝服务(如激活飞行模式)等。对于基于语音的身份验证系统，攻击者可以在未经授权情况下使用用户的信用卡进行消费，以及通过欺骗智能语音锁进入房屋。最后，如果基于内容的索引和多媒体应用程序的检索受到此类对抗性音频的污染，用户可能会收到一些包含色情内容的恶意推荐结果。

然而，目前已有的关于对抗样例攻击的工作大多数集中在图像领域，对抗音频少有人研究。考虑到语音识别模型在实际生活中的广泛应用，研究对抗音频样本的生成机理对于研究相应的防御方法以增强语音识别模型的鲁棒性是十分必要的。

而在实际场景中，由于机器学习模型的开源，攻击者完全有能力获取模型的详细信息，包括模型的架构和参数。在这种白盒的场景下，攻击者采取的攻击就更容易成功，相对应的防御就更难。因此，在研究对抗音频生成方法时，我们必须要考虑白盒的场景，这对于研究相应的防御技术具有重要意义。而已有的白盒对抗音频生成方法都比较初级并且耗时长，攻击效果差。因此研究一种高质量、高效率的对抗音频生成方法变得十分重要。

发明内容

本发明提供了一种针对白盒场景的对抗音频生成方法，该方法可以高效地生成高质量的对抗音频。

具体技术方案如下：

一种针对白盒场景的对抗音频生成方法，包括以下步骤：

(1)选择目标攻击模型作为音频识别模型，选择源音频x并设定攻击目标t；

(2)对源音频x进行预处理，包括清洗、降噪以及统一音频采样率；

(3)提取源音频x的MFCC特征；

(4)所述目标攻击模型根据所述MFCC特征对源音频进行识别，得到识别结果计算识别结果与攻击目标t之间的CTC损失函数

(5)利用粒子群算法优化CTC损失函数寻找最佳噪音η，将最佳噪音η加入源音频x，得到中间音频x′并采用目标攻击模型进行识别；

若中间音频x′的识别结果与攻击目标t相同，则中间音频x′即为对抗音频，并输出；

若中间音频x′的识别结果与攻击目标t不同，则执行下一步；

(6)利用梯度下降算法进一步寻找所述中间音频x′的最佳噪音η′，直至使得识别结果与攻击目标t相同，对最佳噪音η′进行微调后加入中间音频x′，得到对抗音频，并输出。

目标攻击模型是指对抗音频所要攻击的模型，攻击目标t是指目标攻击模型对对抗音频的预期识别结果。例如，源音频的内容为“今天的天气真好”，所预期的目标攻击模型对对抗音频的识别结果是“关闭所有智能设备”，则攻击目标既是“关闭所有智能设备”，针对目标攻击模型，会将基于源音频生成的对抗音频识别为“关闭所有智能设备”，而人耳所听到的内容仍是“今天的天气真好”。

所述的目标攻击模型可以是自训练的深度神经网络模型，也可以是开源的语音识别模型，如百度开源的语音识别模型DeepSpeech等。

步骤(3)中，所述的MFCC特征为梅尔倒谱系数。由于MFCC在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的研究成果，采用这种技术有助于提高语音识别系统的性能。

步骤(3)包括：

(3-1)对预处理后的音频进行预加重处理，使音频的频谱变得平坦；

(3-2)之后将音频分成若干帧，并将每一帧乘以汉明窗；

(3-3)对各帧音频进行快速傅里叶变换，得到各帧音频的频谱，从音频的频谱获得音频的能量谱；

(3-4)将音频的能量谱通过一组Mel尺度的三角形滤波器组；

(3-5)计算每个三角形滤波器输出的对数能量，将对数能量经离散余弦变换，得到MFCC系数阶数阶的Mel-scaleCepstrum参数；提取音频的动态差分参数；

(3-6)得到MFCC特征。

步骤(5)中，粒子群算法的目标在于寻找最佳噪音η从而最大化每一次迭代的损失差值从而加快损失函数收敛的速度，其具体的优化目标为：

步骤(5)包括：

(5-1)随机生成若干个优化目标的候选解，并从初始的候选解中找出第一个局部最优候选解η，更新音频x′＝x+η，基于当前最优候选解的位置，更新所有候选解的搜索方向和速度；

(5-2)采用目标攻击模型对音频x′进行识别，得到识别结果计算该识别结果与攻击目标t之间的新CTC损失函数并计算新CTC损失函数与上次CTC损失函数之间的差值计算五步CTC损失差值的均方差

(5-3)若识别结果与攻击目标t相同，则新音频x′即为对抗音频；

若识别结果与攻击目标t不同，则循环迭代步骤(5-2)，直至迭代次数达到预设的最大迭代次数，或五步CTC损失差值的均方差std小于预设值∈，执行步骤(6)。

若迭代次数达到预设的最大迭代次数，或五步CTC损失差值的均方差std小于预设值∈时，说明粒子群算法已经无法有效地降低CTC损失，需要终止粒子群搜索，执行步骤(6)。

步骤(6)主要是为了进一步寻找最优噪音，是生成的音频在保证攻击效果的同时还能保证较好的质量。由于粒子群算法只能找到一个粗粒度的噪音，当CTC损失降低到一定程度后，粒子群算法已经无法加快损失函数的收敛速度，因此经过粒子群算法优化后，大体只能得到一个对抗音频的中间产物x′，因此需要进一步利用梯度信息，寻找更精细的扰动。

步骤(6)包括：

(6-1)计算损失函数对中间音频x′的梯度，根据梯度信息，利用梯度下降算法寻找新噪音η′，直至满足音频(x′+η′)的识别结果与攻击目标t相同；

(6-2)对新噪音η′进行微调后加入中间音频x′，即得对抗音频。

本发明还提供了一种针对白盒场景的对抗音频生成系统，包括：

音频数据预处理模块，对音频数据进行清洗、降噪以及统一音频采样率；

音频特征提取模块，提取音频数据的MFCC特征；

音频识别模块，具有目标攻击模型，所述目标攻击模型根据音频的MFCC特征对音频进行识别，得到识别结果，计算识别结果与攻击目标之间的CTC损失函数；

粒子群优化模块，利用粒子群算法寻找最佳噪音，将最佳噪音加入源音频，得到中间音频并采用音频识别模块进行识别；

若中间音频的识别结果与攻击目标相同，则中间音频即为对抗音频，并输出；

若中间音频的识别结果与攻击目标不同，则将中间音频输入梯度欺骗优化模块；

梯度欺骗优化模块，利用梯度下降算法进一步寻找中间音频的最佳噪音，直至使得识别结果与攻击目标相同，对最佳噪音进行微调后加入中间音频，得到对抗音频，并输出。

与现有技术相比，本发明的有益效果为：本发明通过精心添加人耳不可察觉的噪音，可定向生成让语音识别模型识别为指定内容的对抗音频。同时，本发明利用粒子群算法，有效地提高了对抗音频生成的效率。利用本发明生成的对抗音频，可有效评估基于深度学习的语音识别模型的鲁棒性，从而对如何研究相应的防御方法以增强语音识别模型的鲁棒性具有重要意义。

附图说明

图1为对抗音频的生成原理示意图；

图2为基于粒子群算法的对抗音频生成系统的的系统架构示意图；

图3为粒子群优化阶段的流程示意图；

图4为对抗音频生成流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一个正常语音被恶意用户精心加入微小扰动后，由人听起来仍然是正常语音，但实际上会被自动语音识别系统识别为恶意命令。

本发明提供的一个实施例中，对抗音频生成系统包括五个模块：音频数据预处理模块、音频特征提取模块、音频识别模块、粒子群优化模块和梯度欺骗优化模块。其整体架构如图2所示，具体模块及每个模块的功能如下：

1、音频数据预处理模块

本模块主要是对输入的音频数据进行预处理。一般场景下，用户在不同领域中收集的音频数据本身就可能存在噪音，因此，在数据导入生成系统之前，为了避免影响对抗音频生成效果，需要对输入音频识别模块的每一个音频数据进行预处理操作，包括对音频数据的清洗、降噪处理以及统一音频的采样率。

2、音频特征提取模块

本模块主要用于提取音频数据的MFCC特征(梅尔倒谱系数)。由于MFCC特征在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的研究成果，采用这种技术有助于提高语音识别系统的性能。因此，我们需要从经过预处理的音频数据中提取出MFCC特征。具体提取过程如下：

(1)预加重处理。首先，将语音信号通过一个高通滤波器，则经过预加重处理后结果为y(n)＝x(n)-a·x(n-1)，其中x(n)为n时刻语音采样值，a为预加重系数，通常设置为0.97。预加重目的在于消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，同时突出高频的共振峰。

(2)分帧加窗。预加重完成后，需要对音频进行分帧处理，即将音频的每N个采样点集合成一帧(通常情况下，N取值为256或512，涵盖时间20～30ms左右)。然后将分帧后的每一帧乘以汉明窗以增加帧左端到右端的连续性。

(3)快速傅里叶变换。分帧加窗完成后，对各帧信号进行快速傅里叶变换得到各帧的频谱。然后对语音信号的频谱取模平方(即取绝对值的平方)并除以傅里叶变换的点数得到语音信号的能量谱，通常傅里叶变换点数设置为128，256，1024等(必须为2的幂次)。

(4)三角带通滤波。将能量谱通过一组Mel尺度的三角形滤波器组，对能量谱进行平滑，并消除谐波的作用，突显原先语音的共振峰。

(5)计算滤波器输出的对数能量。首先，计算每个滤波器输出的对数能量s(m)，然后将计算所得的对数能量代入离散余弦变换，求出MFCC系数其中M为三角滤波器个数，N为傅里叶变换点数，L为MFCC系数阶数，通常取12～16。

(6)动态差分参数的提取。标准的倒谱参数MFCC只反应了语音参数的静态特性。我们可以通过提取动态差分参数来描述语音的动态特性。动态差分参数计算如下：

其中，d_t表示第t个一阶差分参数，C_t表示第t个倒谱系数，Q表示倒谱系数的阶数，K表示一阶导数的时间差(可取值1或2)。d_t公式迭代两次即可得到MFCC的二阶差分参数。

3、音频识别模块

本模块主要用于对音频进行识别处理，并计算识别模型的损失函数。具体流程如下：

(1)音频识别。记输入识别模型的音频为x，利用音频特征提取模块，提取音频x的MFCC特征并基于提取的特征对音频x进行识别，得到识别结果

(2)计算的CTC损失函数设定攻击目标为t，即期望目标攻击模型对生成的对抗音频x′的识别结果为t，亦即基于音频特征提取模块提取的MFCC特征，计算模型的识别结果与攻击目标t之间的CTC损失函数

4、粒子群优化模块

本模块主要用于利用粒子群算法优化损失函数粒子群算法目标在于寻找最佳扰动η从而最大化每一次迭代的损失差值从而加快损失函数收敛的速度，其具体的优化目标为：

该模块工作流程如图3所示，具体流程如下：

(1)初始化粒子。在粒子群算法中，优化目标的候选解p_i称之为粒子。优化目标的最优解p_best就是我们所要找的最佳扰动η，即最优解p_best＝η。在本发明中，我们对传统的粒子群算法就行了改进，即保留每一轮迭代中所得的局部最优解p_best，从而不断地对p_best进行迭代更新，使其最终成为全局最优解。在初始阶段，我们从均匀分布中随机生成N个粒子，p₁，p₂，...，p_N，并从初始的粒子中找出第一个局部最优粒子p_best，基于当前最优粒子的位置，更新所有粒子的搜索方向和速度。

(2)更新每一次迭代结果。设定粒子群算法最大迭代次数epoch_max和五步损失差值的均方差阈值∈，每一轮迭代所得音频x′＝x+η，重复音频识别模块的两个重要步骤，得到新的损失(则)和新的识别结果同时保留五次迭代中的损失差值计算得到五步损失差值的均方差

(3)判断终止条件。针对步骤(2)中每一次迭代更新的结果，判断粒子群搜索的终止条件。即，如果则达到攻击目标，得到一个被语音识别模型识别为t的对抗音频x′，并输出对抗音频x′，结束整个生成流程。否则循环迭代，并重复步骤(2)、(3)。如果迭代次数达到epoch_max或std＜∈，说明粒子群算法已经无法有效地降低CTC损失，需要终止粒子群搜索，进入梯度欺骗优化模块。

5、梯度欺骗优化模块

本模块主要用于进一步寻找最优扰动，使生成的音频在保证攻击效果的同时还能保证很好的质量。本模块只要包括两个步骤，如下：

(1)利用梯度下降进一步寻找最优扰动。由于粒子群算法只能找到一个粗粒度的噪音，当损失降低到一定程度，粒子群算法已经无法加快损失函数L的收敛速度，因此经过粒子群优化模块后，我们大体只能得到一个对抗音频的中间产物x′。因此我们需要利用梯度信息，寻找更精细的扰动。首先，需要计算损失函数对粒子群优化模块所得音频x′的梯度，即根据所得梯度信息，利用梯度下降的方法寻找新的噪音η′，直到满足

(2)对噪音η′进行微调。当达到攻击目标后，还需要保证生成的对抗音频是高质量的，即不影响人的使用。因此需要对步骤(1)中得到的扰动η′进行微调，即在满足攻击目标的前提下最小化噪音，最后输出生成的对抗音频x′，完成整个生成流程。

用户在使用本系统时，只需要导入源音频数据并自己选择需要攻击的音频识别模型。以语音识别为例，系统整体工作流程分为以下七个阶段，具体流程如图4所示：

(1)目标攻击模型选择阶段：首先用户需要选择一个目标攻击模型，即音频识别模块的识别模型用户选择的目标攻击模型可以是自训练的深度神经网络模型，也可以是开源的语音识别模型，如百度开源的语音识别模型DeepSpeech等。

(2)源音频导入阶段：用户通过本发明公开的系统所提供的数据导入接口导入原始音频数据，并设定攻击目标t。如原始音频的内容是“今天的天气真好”，攻击目标设定为“关闭所有智能设备”，即针对目标模型基于源音频生成一段识别为“关闭所有智能设备”的对抗音频，而人耳所听到的内容仍是“今天的天气真好”。

(3)音频预处理阶段：用户导入源音频后，系统会对用户导入的数据进行预处理操作，如音频降噪、统一音频采样率等。

(4)音频特征提取阶段：在特征提取模块，系统会根据用户导入的音频数据提取其MFCC特征，供后续阶段使用。

(5)音频识别阶段：提取完特征后，系统音频识别模块会根据其MFCC特征对音频进行识别处理，同时会初始化系统参数，如系统中的CTC损失

(6)粒子群优化阶段：首先，初始化粒子群优化模块各参数，如粒子群迭代的最大次数epoch_max和控制粒子群优化性能的阈值参数∈。该参数可由用户设定，也可使用系统提供的默认参数。参数初始化完毕后系统开始进行优化，最终可以得到一个对抗音频的中间产物。

(7)梯度欺骗优化阶段：针对上一阶段所得中间产物，本阶段会基于梯度信息，利用梯度欺骗的方法寻找更为精细的噪音，直到人听起来是“今天的天气真好”的音频被识别模型识别为“关闭所有智能设备”。当达到攻击目标后，开始对加入的噪音进行调整，即在满足攻击目标的前提下最小化噪音，从而确保生成的对抗音频是高质量的。当噪音降低到最小后，系统输出最终生成的对抗音频供用户使用。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种针对白盒场景的对抗音频生成方法，其特征在于，包括以下步骤：

(3)提取源音频x的MFCC特征；

2.根据权利要求1所述的针对白盒场景的对抗音频生成方法，其特征在于，所述的目标攻击模型为自训练的深度神经网络模型或开源的语音识别模型。

3.根据权利要求1所述的针对白盒场景的对抗音频生成方法，其特征在于，步骤(3)包括：

(3-2)之后将音频分成若干帧，并将每一帧乘以汉明窗；

(3-4)将音频的能量谱通过一组Mel尺度的三角形滤波器组；

(3-6)得到MFCC特征。

4.根据权利要求1所述的针对白盒场景的对抗音频生成方法，其特征在于，步骤(5)包括：

5.根据权利要求1所述的针对白盒场景的对抗音频生成方法，其特征在于，步骤(6)包括：

6.一种针对白盒场景的对抗音频生成系统，其特征在于，包括：

音频特征提取模块，提取音频数据的MFCC特征；