CN114664311A

CN114664311A - 一种记忆网络增强的变分推断无声攻击检测方法

Info

Publication number: CN114664311A
Application number: CN202210206415.9A
Authority: CN
Inventors: 徐文渊; 李鑫锋; 闫琛; 冀晓宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-24
Anticipated expiration: 2042-03-01
Also published as: CN114664311B

Abstract

本发明公开了一种记忆网络增强的变分推断无声攻击检测方法，该方法提出一种基于通用的、轻量级的记忆网络增强的变分推断无声攻击检测模型来检测人耳不可感知的语音攻击，该模型可以立即在各种类型的现有设备上实现。本发明提出使用无监督训练方法，使用与设备无关的正常可听音频数据，实现统一模型训练，从而对攻击数据实现检测。本发明方法实现了对无声语音攻击的检测，有利于后续针对性的对物联网智能语音系统进行防御。本发明方法可以有效解决现有攻击检测方法提出的音频特征可能并不存在于每台设备上，故需要为每个要保护的设备定制功能、数据集和型号可能成本高昂的问题。

Description

一种记忆网络增强的变分推断无声攻击检测方法

技术领域

本发明属于人工智能语音助手安全技术领域，具体涉及一种记忆网络增强的变分推断无声攻击检测方法。

背景技术

物联网时代诸多安全隐患逐渐显现，其中破坏性、隐蔽性最强的一种攻击是无声攻击，又称海豚音攻击(Dolphin Attack，DA)，这是一种有效的针对语音识别系统的攻击方式。语音助手的普及随之加剧了无声语音攻击的威胁，这种攻击可以在未经用户授权的情况下秘密控制智能设备。例如，攻击者可以向智能音箱发送人耳无法感知的语音命令，并让智能扬声器在用户听不到的情况下打开家门。这些攻击利用麦克风的硬件漏洞，将无声的超声波攻击信号转换为设备电路内部的恶意语音命令。为了缓解这种威胁，现有研究提出了几种基于硬件和基于软件的对策。尽管硬件重新设计可以彻底修复未来设备的漏洞，但通过不改变任何硬件且可立即保护各种现有设备的软件解决方案仍然是各个智能设备公司迫切需要的。

首先，现有设备如智能手机、可穿戴设备和智能扬声器，都具有语音助手软件、多个麦克风和较强的计算能力。由于物联网设备的海量异构、低能耗特点，因此针对无声攻击的防御方法需要较好的泛化性和整体轻量级。第二，现有的软件防护方法基于采集大量正常、攻击语音数据，以实现有监督的正常/攻击音频分类。此外，收集攻击语音样本需要借助专用的高精度信号发生器，且非常耗时。最后，发明人对20台设备进行的攻击实验揭示了一个以前未报道的事实——听不见的语音攻击在各种设备上表现不同——对于相同的命令，注入语音的特征因设备而异，频谱音频分析证实了这一点。进一步的调查发现，这种差异是由这些设备中麦克风之间固有的频率响应差异造成的。这一观察结果本质上表明，以前的攻击检测工作提出的音频特征可能并不存在于每台设备上。为每个要保护的设备定制功能、数据集和型号可能成本高昂。

发明内容

针对上述现有技术中存在的缺陷，本发明提出一种记忆网络增强的变分推断无声攻击检测方法，是一种针对无声语音攻击的通用、轻量级、无须硬件改动的防御措施。本发明方法实现了对无声语音攻击的检测，有利于后续针对性的对物联网智能语音系统进行安全性增强。

本发明采用以下技术方案实现：

一种记忆网络增强的变分推断无声攻击检测方法，首先训练得到一个记忆网络增强的变分推断无声攻击检测模型，然后将所述检测模型部署于智能设备上即可进行无监督的无声攻击检测；所述记忆网络增强的变分推断无声攻击检测模型的训练方法如下：

步骤1、基于定时器周期性地采集环境噪声，用于感知、分析设备当前所处环境的噪声特征；

步骤2、当检测到语音时，利用谱减法对其进行快速去噪，由此得到包含人声指令的数据集，所述数据集中无须包含真实的无声攻击数据，免去了昂贵的信号发生器、超声波阵列等装置在人力和成本方面的开销；

步骤3、将步骤2所得数据集进行训练集/测试集切分，其中训练集进行短时傅里叶变换得到语谱图，用于训练模型；测试集经短时傅里叶变换后得到语谱图，用于对训练得到的模型进行测试；

步骤4、变分推断编码器的训练，用于实现输入频谱X到隐向量Z的映射：编码器初始为随机参数，编码器结合KL散度将所有训练集的输入频谱X的分布映射为多元高斯分布，实现X→μ，δ的映射，并通过特征离散化采样，得到隐向量Z；

步骤5、经过记忆网络的相似度查询，用于实现隐向量Z→Z′的映射；记忆模块初始为M项记忆单元，表示各类正常音频的特征；将隐向量Z输入记忆网络进行相似度查询，得到查询后的隐向量Z′；

步骤6：解码器重构，用于实现隐向量Z′到重构频谱X′的生成：采用解码器将相似度查询后的隐向量Z′重建为重构频谱X′，计算原始频谱X和重构频谱X′的相似度分数，根据相似度分数确定阈值，即可得到无监督的无声攻击检测模型，基于阈值即可知当前检测音频是否为攻击。

上述技术方案中，进一步地，所述的步骤1中，在没有检测到人声的状态下，每隔5s采集一段环境音频，直至检测到人声，取最近五个环境音频的平均作为环境噪声。

进一步地，步骤4中，所述输入频谱X到隐向量Z的映射具体为：

步骤4.1：变分推断编码器对输入频谱X进行特征提取，结合KL散度损失函数的约束，得到高维的隐向量Z，具体为：

D_KL[q(Z|x)||p(Z|X)]＝E_Z～q[lnq(Z|X)-lnp(Z|X)]

p(Z)为各个隐向量Z的整体原始分布；

q(Z)为编码器构建的近似分布，用于逼近p(Z)；

步骤4.2：特征离散化采样；

Z＝f(N(0，I)，p(Z))＝μ(X)+δ²(X)*N(0，I)

其中，N(0，I)为标准正态分布，μ(X)为整体样本的均值，δ²(X)为整体样本的方差。

进一步地，所述的步骤5中，将隐向量Z输入记忆模块进行相似度查询，得到查询后的隐向量Z′，具体为：

单一输入的隐向量Z细分为H×W＝K个特征子单元，每个特征子单元

的维度为1×1×C；计算每个特征子单元和M个记忆单元的余弦相似度，最终得到M×K大小的二维相关图，并在垂直方向上应用softmax函数，通过以下公式获得匹配概率

其中，p_m为当前查询的第m个记忆单元，p_m′指1～M中的任意一个记忆单元；通过计算匹配概率

和M个记忆单元获取相似度查询后的特征子单元

H×W＝K个查询后得到的特征子单元

通过聚合重新形成隐向量Z′。

本发明的发明原理为：

本发明的技术流程为将正常音频的语谱图通过变分推断编码器正态分布投射到高维空间、在高维空间采样成向量、再通过记忆网络查询，对向量进行计算及替换，并由此得到重构后的音频语谱图，最终以重构前后的负对数似然值作为判断该音频正常或异常的依据。发明人研究发现，良性音频和攻击音频的重构差异的分布之间存在着明显分离，这使得区分异常和正常音频非常容易。一般来说正常音频重构后的负对数似然值更高，而攻击音频的数值更低。

本发明以卷积块为基本单元的变分推断自编码器为骨干网络，即便去除图4中阶段2的记忆，阶段1、3的编码/解码仍可实现对输入的众多语谱图进行映射、采样得到高维空间的向量、通过重构还原得到具有物理意义的语谱图。而本发明关键点在于，深度神经网络通常具有一定泛化能力，会导致一部分无声攻击的语谱图得到较高的对数似然值，因而被模型漏检；而本发明的记忆网络中可以实现对变分推断自编码器的泛化能力约束，大大降低无声攻击漏检的概率。记忆网络通过训练阶段中对大量正常语谱图在高斯分布下的采样向量，进行表征学习，不断基于大量正常音频向量更新记忆单元；在推理阶段时，变分推断编码器输出同样为采样后的向量，通过与记忆网络各单元相似度查询，按照相似度进行加权相乘，因此无声攻击音频的特征几乎被完全替换成了正常特征，在重构前后的语谱图相似度很低。

本发明的有益效果是：

本发明提出一种基于通用的、轻量级、无监督的记忆网络增强的变分推断无声攻击检测模型来检测无声的语音攻击，该模型可以立即在各种类型的现有设备上实现。受异常检测的启发，异常样本通常是稀少、难以获取的，并且特征多变，发明人将对无声的语音攻击的检测转化为一个无监督的异常检测问题。

本发明通过对正常可听、无声攻击在不同设备上的特征进行分析，发现正常音频在不同智能设备上的表现十分接近，而无声攻击引起的音频特征变化差异极其明显，因此可以通过正常样本的学习来检测异常。记忆模块通过提取并存储正常音频的特征向量，使得无声攻击必须符合其映射，从而导致最终重构频谱与原始频谱存在明显差异。本发明方法可以有效解决现有攻击检测方法提出的音频特征可能并不存在于每台设备上，故需要为每个要保护的设备定制功能、数据集和型号可能成本高昂的问题。

本发明使用无监督训练方法，使用与设备无关的正常可听音频数据，实现统一模型训练，从而对攻击数据实现检测。本发明方法实现了对无声语音攻击的检测，有利于后续针对性的对物联网智能语音系统进行防御。

附图说明

图1是本发明记忆网络增强的变分推断无声攻击检测方法示意图；

图2不同设备正常音频语谱图与攻击音频语谱图差异对比示意图；

图3不同设备正常音频语谱图与攻击音频语谱图的相似度矩阵；

图4是记忆网络增强的变分推断模型细节图；

图5是记忆网络原理图；

图6五款典型手机实验得到的ROC图(响应接收者曲线)。

具体实施方式

图1所示为本发明方法的流程图，主要包括音频预处理、变分推断编码器、记忆网络、解码器、输出决策结果。

一种记忆网络增强的变分推断无声攻击检测方法，具体步骤如下：

首先需要消除语音命令的一些干扰因素，如环境噪声、说话速度等，以便后续的频谱特征能够代表重要的信息。

步骤1：基于定时器周期性地采集环境噪声，用于感知、分析设备当前所处环境的噪声特征。在没有检测到人声的状态下，每隔5s采集一段环境音频，直至检测到人声，取最近五个环境音频的平均作为环境噪声。由于音频为一维时序信号，且环境中存在噪声等干扰因素，因此需通过必要的降噪处理，在此首先采用低通滤波器将环境中的低于50Hz等可能由供电工频信号引起的噪声去除，着重使用维纳滤波法对处于100Hz-8kHz进行降噪，因为该频段可能影响语音识别、声纹识别模块功能。对于降噪后的频谱通过短时傅里叶变换、梅尔滤波变换等时频域信号转换方法，发明人发现短时傅里叶变化方法具有最好的效果。由此一维音频信号转换为二维语谱图。

步骤2：当检测到语音时，利用谱减法对其进行快速去噪，由此得到包含人声指令的数据集，所述数据集中无须包含真实的无声攻击数据，免去了昂贵的信号发生器、超声波阵列等装置在人力和成本方面的开销；

步骤3：基于步骤1，2方法进行语音数据采集，包括智能设备录制无声语音攻击和正常语音。其中附图2不同设备正常音频语谱图与攻击音频语谱图差异对比示意图，显示了(a)-(c)为三款智能手机录下“OK Google”的频谱，由附图3不同设备正常音频语谱图与攻击音频语谱图的相似度矩阵可知，三者十分相似。而附图2中(d)-(f)为同样三款手机录制到无声语音攻击的“OK Google”频谱，而附图3中可见同款设备录制到同一指令的有声无声差异对比非常显著，(a)-(d)/(b)-(e)/(c)-(f)。此外，附图2中(g)-(l)为另外六款智能手机录下的无声语音攻击的“OK Google”频谱，可见(d)-(l)尽管为同一个攻击信号，但不同设备间的差异仍然是显著的。由此可知，智能设备麦克风对于正常音频的频率响应十分接近，而对于无声攻击的频响则是各不相同。

步骤4：通过步骤3采集所得数据集进行训练/测试集切分。其中训练集只选取部分正常语音数据，并进行短时傅里叶变换(Short Time Fourier Transform，STFT)得到语谱图，用于训练模型；测试集选取正常及攻击语音数据，经短时傅里叶变换后得到语谱图，用于对训练得到的模型进行测试；模型架构如附图4记忆网络增强的变分推断模型细节图所示。

步骤5：如图4阶段1所示，变分推断编码器的训练。该步骤实现输入频谱X到隐向量Z的映射。

步骤5.1：变分推断编码器在训练过程中尝试对大量正常语音的输入频谱X做特征提取，得到高维的隐向量Z。该编码器结合KL散度损失函数的约束，得到高维的隐向量Z，具体为：

D_KL[q(Z|X)||p(Z|X)]＝E_Z～q[lnq(Z|X)-lnp(Z|X)]

p(Z)为各个隐向量Z的整体原始分布；

q(Z)为编码器构建的近似分布，用于逼近p(Z)；

将各个高维的隐向量Z的整体分布映射为p(Z)，使该分布不断接近正态分布形式。变分推断编码器的任务是刻画音频频谱中各个频点之间的依赖关系。如语谱图中时间频率轴接近的点，它们相互形成声音的共振峰和谐波。由于形成的分布接近正态形式，因此给定一个音频语谱图X，可以提取隐向量Z，并算出p(Z)，看上去更像正常语音的频谱具有更大的概率值且处于正态分布的质心附近，看上去像攻击或白噪声的频谱p(Z)概率值更小且处于正态分布边界，甚至不属于正态分布范围。

步骤5.2：特征离散化采样，由于步骤5.1得到的是每个样本的概率分布，即变分推断编码器的原始输出为高维均值向量μ、方差向量δ。而对于一个连续分布中的所有数据进行后续的记忆查询和解码器重构是不现实的。需要通过一种随机的离散化采样，以分布中某一点为代表，大大降低了计算复杂度。具体的采样方法为：Z＝f(N(0，I)，p(Z))＝μ(X)+δ²(X)*N(0，I)。由此各个样本由分布形式p(Z)表征为离散向量Z。

步骤6、如图4阶段2所示，记忆网络实现隐向量Z→Z′的映射。

步骤6.1：深度神经网络通常具有一定泛化能力，会导致一部分无声攻击的语谱图得到较高的对数似然值，因而被模型漏检。记忆网络中可以实现对变分推断自编码器的泛化能力约束，大大降低无声攻击漏检的概率。记忆网络包含M个记忆单元，记录正常数据的各种典型模式。本发明以p_m表示记忆网络中的各个记忆单元。

步骤6.2：记忆网络相似度查询。如附图5，记忆网络原理图所示，记忆网络初始为M项记忆单元，表示各类正常音频的特征。其中单一输入的隐向量Z可以细分为H×W＝K个特征子单元，每个特征子单元

的维度为1×1×C。对于每个特征子单元而言，将和M个记忆单元分别计算余弦相似度，最终得到M×K大小的二维相关图，并在垂直方向上应用softmax函数，通过以下公式(1)获得匹配概率

其中，p_m为当前查询的第m个记忆单元，p_m′指1～M中的任意一个记忆单元；

通过计算匹配概率

和M个记忆单元获取相似度查询后的特征子单元

如公式(2)所示：

步骤6.3：H×W＝K个特征子单元通过聚合重新形成查询后的隐向量Z′。用查询到的Z′替换原来的Z。这一过程对于检测听不见的样本至关重要，因为异常数据不在正态分布范围内。对于攻击频谱的隐向量Z使用存储模块强制将异常特征替换为正常训练数据的特征，从而进一步放大原本输入频谱X和重构频谱X′之间的差异。

步骤7：解码器重构Z′→X′。在获得隐向量Z′之后，使用DCGAN(深度卷积生成对抗网络)生成器作为解码器来重构Z′→X′，它利用一些拓扑约束，使其即使在使用无监督框架进行训练时也更加稳定。此外还对MSE(均方误差)和CE(交叉熵)作为损失函数进行了评估，发现它们都源于最大似然理论，尽管CE的性能优于MSE。在推理阶段，第3阶段的解码器将隐藏向量Z′重建为完整的重构频谱X′。计算原始频谱X和重构频谱X′的相似度分数，根据正常语音数据的相似度分数确定阈值，即可得到无监督的无声攻击检测模型，基于阈值便可知当前检测音频是否为攻击。

为了评估本发明方法的性能，构建一个不可听语音攻击数据集，如表1所示，该数据集包含从20部主流智能手机收集的攻击音频样本组成的测试平台，设置了各种攻击距离、语音内容等。结果显示，平均AUC(接收者响应曲线面积)为0.995，EER(等错误率)为2.16％，准确率为97.56％，表明本发明方法在各种条件下都是有效和稳健的。它也是轻量级的(型号参数＜1.2MB)，可以潜在地部署在各种设备上。此外，附图6表明了本方法在五款典型手机实验中的ROC曲线。

表1二十款手机实验得到的整体性能列表

Claims

1.一种记忆网络增强的变分推断无声攻击检测方法，其特征在于，首先训练得到一个记忆网络增强的变分推断无声攻击检测模型，然后将所述检测模型部署于智能设备上即可进行无监督的无声攻击检测；所述记忆网络增强的变分推断无声攻击检测模型的训练方法如下：

步骤2、当检测到语音时，利用谱减法对其进行快速去噪，由此得到包含人声指令的数据集；

步骤4、变分推断编码器的训练，用于实现输入频谱X到隐向量Z的映射：编码器初始为随机参数；编码器结合KL散度将所有训练集的输入频谱X的分布映射为多元高斯分布，实现X→μ，δ的映射，并通过特征离散化采样，得到隐向量Z；

步骤5、经过记忆网络的相似度查询，用于实现隐向量Z→Z′的映射；记忆网络初始为M项记忆单元，表示各类正常音频的特征；将隐向量Z输入记忆网络进行相似度查询，得到查询后的隐向量Z′；

步骤6：解码器重构，用于实现隐向量Z′到重构频谱X′的生成：采用解码器将相似度查询后的隐向量Z′重建为重构频谱X′，计算原始频谱X和重构频谱X′的相似度分数，根据正常语音数据的相似度分数确定阈值，即可得到无监督的无声攻击检测模型，基于阈值即可判断当前检测音频是否为攻击。

2.根据权利要求1所述的记忆网络增强的变分推断无声攻击检测方法，其特征在于，所述的步骤1中，在没有检测到人声的状态下，每隔5s采集一段环境音频，直至检测到人声，取最近五个环境音频的平均作为环境噪声。

3.根据权利要求1所述的记忆网络增强的变分推断无声攻击检测方法，其特征在于，步骤4中，所述输入频谱X到隐向量Z的映射具体为：

D_KL[q(Z|X)||p(Z|X)]＝E_Z～q[lnq(Z|X)-lnp(Z|X)]

其中，p(Z)为各个隐向量Z的整体原始分布；

q(Z)为编码器构建的近似分布，用于逼近p(Z)；

步骤4.2：特征离散化采样；

Z＝f(N(0，I)，p(Z))＝μ(X)+δ²(X)*N(0，I)

4.根据权利要求1所述的记忆网络增强的变分推断无声攻击检测方法，其特征在于，所述的步骤5中，将隐向量Z输入记忆模块进行相似度查询，得到查询后的隐向量Z′，具体为：

和M个记忆单元获取相似度查询后的特征子单元

H×W＝K个查询后得到的特征子单元

通过聚合重新形成隐向量Z′，用查询到的Z′替换原来的Z。