CN110444208A

CN110444208A - 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置

Info

Publication number: CN110444208A
Application number: CN201910739959.XA
Authority: CN
Inventors: 陈晋音; 郑喆; 成凯回; 杨奕涛
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-12

Abstract

本发明公开了一种基于梯度估计和CTC算法的语音识别攻击防御方法，包括：对采集的语音音频进行预处理，形成能够直接输入语音识别模型的音频矩阵，将音频矩阵分成训练集和测试集；利用训练集中的音频矩阵训练语音识别模型，并利用测试集中的音频矩阵验证语音识别模型的识别准确率；初始化对抗样本，根据对抗样本的转录结果与目标短语之间的距离和原始音频矩阵和对抗样本的距离构建对抗样本的优化目标函数，以优化目标函数最小为迭代目标，估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动，以获得最优的对抗样本。该语音识别攻击防御方法能够生成不被人耳识别的对抗样本，并经过对抗训练提高语音识别模型防御对抗样本的能力。

Description

一种基于梯度估计和CTC算法的语音识别攻击防御方法及装置

技术领域

本发明属于语音识别领域，具体涉及一种基于梯度估计和CTC算法的语音识别攻击防御方法及装置。

背景技术

随着机器学习的快速发展，基于深度学习的语音识技术广泛应用于智能手机、家用设备、公共设施等。通过对语音识别系统输入一段语音，可以转录成符合语法的一段文字，或者是实现对设备的操作等，语音识别技术为人们生产生活带来了极大的便利，同时交互式的语音识别系统还可以模仿人类进行对话，创建了更好的交互体验。目前较为完善的语音识别模型和接口主要有Deep Speech。Deep Speech模型为端到端的语音识别模型，输入为原始矩阵转换得到的特征向量，输出为转录后的文字，并通过CTC算法计算损失值。网络前三层为DNN层，第四层为双向RNN，将RNN的前向和后向单元输入第五层，最终经过softmax得到每个音素的概率。将神经网络的输出经过字典和语言模型进行解码，即得到最终的转录结果。

尽管先进的语音识别系统极大地丰富了人们的生活，为人们的生活带来了便利，但是研究发现，基于深度学习的语音识别神经网络带有自身的缺陷，容易受到对抗样本的影响。攻击者通过在原始音频中添加一些经过计算的扰动会使得转录发生变化，带来指令篡改等问题，而这种扰动通常不能被人耳所发觉，具有较大的安全隐患。

目前已有的白盒攻击方法在已知模型内部参数的情况下，通过在原始波形、MFCC特征向量中添加扰动，设置合适的目标函数得带优化生成对抗样本。该对抗样本应用于Deep Speech语音识别系统，达到了100％的攻击成功率。

已有的音频攻击方法Dolphin Attack还将攻击运用于物理空间，通过调制超声波载波上的语音指令，使得人耳无法辨别，并且利用麦克风电路的非线性实现解调，恢复调制的低频音频指令，从而能够被语音识别系统识别。该攻击方法通过人耳无法识别的语音指令，实现访问恶意网站、注入虚假信息、偷偷启动受害者设备等可能损害个人信息安全的攻击，同时攻击者还可以注入命令在人未发觉的情况下开启飞行模型，断开所有的无线通信。

发明内容

鉴于语音识别系统具有上述的安全隐患，本发明提供了一种基于梯度估计和CTC算法的语音识别攻击防御方法及装置，该语音识别攻击防御方法和装置通过梯度估计迭代优化生成针对语音识别模型的对抗样本，实现对语音识别系统的攻击，并将生成的对抗样本加入原始训练数据集进行对抗训练，提高语音识别模型防御对抗样本的能力。

本发明的技术方案为：

一种基于梯度估计和CTC算法的语音识别攻击防御方法，包括以下步骤：

采集语音音频并进行预处理，形成能够直接输入语音识别模型的音频矩阵，将音频矩阵分成训练集和测试集；

利用训练集中的音频矩阵训练语音识别模型，并利用测试集中的音频矩阵验证语音识别模型的识别准确率；

初始化对抗样本，根据对抗样本矩阵的转录结果与目标短语之间的距离和原始音频矩阵和对抗样本的距离构建对抗样本的优化目标函数，根据优化目标函数的梯度和CTC算法优化对抗样本，以获得最优的对抗样本；

将最优的对抗样本添加到训练集中，利用训练集中的数据重新训练语音识别模型，获得能够防御对抗样本攻击的新语音识别模型；

利用新语音识别模型实现更加安全稳定的语音识别。

其中，对采集的语音音频进行预处理的过程为：

将语音音频以数据流的形式展开，形成尺寸为1×n的矩阵，其中，n表示音频采样点的个数，矩阵中的元素值表示采样点的幅值；

针对1×n的矩阵，以40ms或50ms为一帧对矩阵进行分割，在分割时且保证每帧之间重叠n/100个采样点，形每帧音频数据；

对每帧音频数据进行傅里叶变换得到对应的频谱，在频谱上进行倒谱分析，即通过离散余弦变换取第2～13个系数作为梅尔倒谱系数，再计算梅尔倒谱系数的差分值和能量值，最终得到26阶的梅尔倒谱系数作为音频矩阵的特征向量。

其中，初始化对抗样本的过程为：

随机生成与音频矩阵尺寸相同的扰动矩阵，扰动值大小呈正态分布，扰动方差大小为2；

将该扰动矩阵叠加到原始音频矩阵中，设置叠加后音频采样点的幅值范围为(-2¹⁵，2¹⁵-1)，生成对抗样本矩阵。

其中，构建的优化目标函数为：

其中，第一项是来衡量对抗样本矩阵的转录结果与目标短语之间的距离，设输入音频x，转录短语z，其计算方法如下：

CTC-loss＝-lnP(z|x)

当P(z|x)＝1即CTC-loss＝0时，表示对抗样本能够成功转录成目标短语；第二项通过L2范数表示抗样本矩阵与原始音频矩阵之间的距离，c为常数，用于实现对第一项和第二项的归一化。

以优化目标函数最小为迭代目标，估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动，当达到最大迭代次数或者对抗音频转录为目标短语的时候，停止迭代，并将生成的对抗音频矩阵转换为音频数据流文件。

一种基于梯度估计和CTC算法的语音识别攻击防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有上述的语音识别攻击防御方法构建的新语音识别模型，所述计算机处理器执行所述计算机程序时实现以下步骤：

利用所述新语音识别模型对输入语音音频进行语音识别，以实现对语音识别攻击的防御。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过梯度估计方法，在不了解语音识别模型内部参数的情况下生成能够使语音识别模型错误转录的对抗样本，并将对抗样本用于对抗训练，提高语音识别模型的防御能力。

2、本发明生成的对抗样本与原始样本之间的差异较小，能够在不被人耳发觉的情况下转录为目标短语，在真实世界中有较高的隐蔽性和较大的潜在安全隐患。

3、在目标函数的定义上，本发明采用CTC算法衡量输入音频矩阵和转录短语之间的差异，有效解决了输入音频和目标转录短语不等长问题，同时由于对抗样本矩阵和原始音频矩阵形状相同，通过L2范数来衡量两者之间的差异。由于用CTC算法计算所得输入音频和目标短语之间差异和输入音频、对抗样本之间的差异的衡量方式不同，设置常数c实现两个差异计算的归一化，使得能够生成最优对抗样本。

4、由于基于深度神经网络的语音识别模型存在天然缺陷，本发明通过梯度估计迭代优化生成最优扰动，并叠加到原始音频矩阵中最终生成对抗样本，再进行对抗训练，提高语音识别模型防御对抗样本的能力，从而提高语音识别模型的安全性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明提供的基于梯度估计的CTC算法的语音识别攻击防御方法的流程示意图；

图2为本发明实施的迭代优化算法的流程图；

图3(a)和图3(b)为分别为原始音频波形和对抗样本音频波形。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

参见图1和图2，本实施例提供的基于梯度估计的CTC算法的语音识别攻击防御方法，包括以下步骤：

S101，数据集的准备和预处理。

采集实验需要的语音音频，分为训练数据集和测试数据集，该数据集包含了多种不同场景下采集的音频，其中场景包含安静环境和嘈杂环境；音频种类包括人说话的声音、音乐声、电话声等实际生活场景中的音频。对数据集进行预处理，即将采集的音频进行裁剪以及添加相应的标签并处理成数据流格式，作为训练语音识别模型及生成对抗样本所需要的数据集。

S102，利用预处理的训练数据集训练语音识别模型，并采用试集测试使语音识别模型达到预设的识别准确率。

语音音频输入至语音识别模型前，需要转化为向量形式。具体过程为：

音频以数据流的形式展开，得到每秒16k个音频采样点的矩阵，矩阵中的数据为各个采样点的幅值，按照时间序列排列。对矩阵进行预加重，并以40ms为一帧进行分割，相邻两帧之间重叠160个采样点，使得相邻帧之间保留时间上的关联性。将每帧音频通过傅里叶变换得到对应的频谱，再频谱上进行倒谱分析，即通过离散余弦变换取第2-13个系数作为梅尔倒谱系数，再计算梅尔倒谱系数的差分值和能量值，最终得到26阶的梅尔倒谱系数作为音频矩阵。若输入单个音频，则得到的音频矩阵为(1，帧数，26)。

将该特征向量输入语音识别模型获得每帧转录为不同音素的概率。通过CTC算法和贪心算法找到最可能的转录路径，利用语言模型和字典得到最终的转录结果。

S103，设置目标函数及优化算法的相关参数。

设置的目标函数为：

其中，第一项衡量了原始音频输入与目标短语之间的距离。假设输入音频x，目标短语z，音频以40ms为一帧进行分割成T帧，则声学模型输出每一帧转录为不同音素的概率则某一输出序列的概率为：

将该概率值取对数即可衡量输入音频的可能转录结果与目标短语之间的距离，即

CTC-loss＝-lnP(z|x)

当P(z|x)＝1,满足输入音频转录为目标短语时，-∑lnP(z|x)＝0，优化使得在转录为目标短语的同时最小化扰动。

目标函数第二项通过L2范数衡量了扰动的大小，由于用CTC算法计算所得输入音频和目标短语之间差异和输入音频、对抗样本之间的差异的衡量方式不同，设置常数c实现两个差异计算的归一化，使得能够生成最优对抗样本。

S104，随机初始化扰动叠加到原始音频，迭代优化生成最佳扰动，使得对应样本转录成目标短语且叠加扰动最小。

具体地，随机生成与音频矩阵相同形状的扰动矩阵，扰动值大小成正态分布，扰动方差大小为2。将扰动矩阵叠加到原始音频矩阵中，设置叠加后音频采样点的幅值范围为(-2¹⁵，2¹⁵-1)，生成对抗样本矩阵。

S105，对抗样本加入到训练数据集中，利用训练数据集重新训练语音识别模型。

利用对抗样本对重新训练语音识别模型，获得能够防御对抗样本攻击的新语音识别模型；利用新语音识别模型实现更加安全稳定的语音识别。

实施例还提供了一种基于梯度估计和CTC算法的语音识别攻击防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有上述的语音识别攻击防御方法构建的新语音识别模型，所述计算机处理器执行所述计算机程序时实现以下步骤：

本发明采用梯度估计和CTC算法，在不了解语音识别模型内部参数的情况下，能够生成使语音识别模型转录为目标短语的对抗样本，并将对抗样本用于对抗训练，提高语音识别模型防御对抗样本的能力。同时采用多目标优化，使得在对抗样本转录为目标短语的前提下，尽可能优化不同位置添加的扰动大小，使其不被人耳识别，提高对抗样本的鲁棒性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于梯度估计和CTC算法的语音识别攻击防御方法，包括以下步骤：

利用新语音识别模型实现更加安全稳定的语音识别。

2.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法，其特征在于，对采集的语音音频进行预处理的过程为：

3.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法，其特征在于，初始化对抗样本的过程为：

4.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法，其特征在于，构建的优化目标函数为：

CTC-loss＝-lnP(z|x)

5.如权利要求1所述的基于梯度估计和CTC算法的语音识别攻击防御方法，其特征在于，根据优化目标函数的梯度和CTC算法优化对抗样本的过程为：

以优化目标函数最小为迭代目标，估算目标函数对扰动的梯度并用Adam优化器迭代更新扰动直到对抗音频转录成目标短语。

6.一种基于梯度估计和CTC算法的语音识别攻击防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中存有权利要求1～5任一项所述的语音识别攻击防御方法构建的新语音识别模型，所述计算机处理器执行所述计算机程序时实现以下步骤：