CN113192504A

CN113192504A - 一种基于域适应的无声语音攻击检测方法

Info

Publication number: CN113192504A
Application number: CN202110473965.2A
Authority: CN
Inventors: 李鑫锋; 徐文渊; 冀晓宇; 任博伦
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-30
Anticipated expiration: 2041-04-29
Also published as: CN113192504B

Abstract

本发明公开了一种基于域适应的无声语音攻击检测方法，所述方法包括以下步骤：步骤一，音频信号预处理；步骤二，音频特征提取；步骤三，模型搭建以及预训练；步骤四，引入SE模块；步骤五，域适应对抗训练。采用该模型即可对无声语音攻击进行检测。本发明方法可移植性好，可方便地部署于任意智能设备。无须修改麦克风电路或外设检测电路等，极大降低了生产成本，且硬件修改方案通常需要根据智能设备进行反复定制。本发明方法泛化性能好，充分解决了传统信号时频域方法面临的海豚音硬件强耦合困境。面对不同智能设备，不同语音指令，不同人声等变量影响，攻击检测成功率始终达到99％+。

Description

一种基于域适应的无声语音攻击检测方法

技术领域

本发明属于人工智能语音助手安全技术领域，具体涉及一种基于域适应的无声语音攻击检测方法。

背景技术

与传统人机交互方式相比，基于语音交互方式的出现使得人机交互方式变得越来智能和方便。预计2023年，全世界的智能语音助手设备将超过80亿。尽管语音助手为用户带来了极大的便利，例如：语音购物、打开门锁等，但是智能语音设备本身存在的安全问题以及逐渐增多的攻击成为不可忽视的安全风险。其中破坏性、隐蔽性最强的一种攻击是海豚音攻击(Dolphin Attack，DA)，这是一种有效的针对语音识别系统的攻击方式。其原理为将任意可听语音指令均可被调制到超声波频段，使攻击信号无法被人耳感知。与此同时，它利用了麦克风电路的非线性漏洞，可在将高频段的信号还原到低频段，以顺利通过低通滤波器，并被智能设备的语音识别系统正确识别并发起语音控制。

DA通过超声波调制可听见的声音，将恶意命令无声地注入语音助手并操纵受控系统(例如，门或智能扬声器)。以前的工作试图通过硬件修改或音频信号特征分析(软件方案)来检测或消除这种不可察觉的攻击。

硬件修改方案缺点在于：

1.麦克风电路能够接受超声波是一直存在的问题，尽管随着技术，工艺的进步和发展，也未能有效的解决，因此基于硬件的防御方案是一种高成本，难度大，周期长的防御方案，不能有效的解决目前存在的问题。

2.外设检测电路的方式通常成本高、难以集成到现有的手机、智能音箱等智能设备中，部署落地的可行性差。

音频信号特征分析方案缺点在于：

1.海豚音是一种硬件强耦合的攻击，上述基于信号时频域的软件方案，无法确定该方法在面对不同智能设备，不同语音指令，不同人声的防御效果。

2.基于机器学习分析原始语音指令的检测方法有一个很大的弊端，即训练的分类器性能取决于正负语音样本，如果正负样本的数量较少或者不具有代表性，都将造成最终效果远不能达到预期。

因此，无论是修改现有设备的硬件还是将音频信号特征分析方案推广到不同的设备上都无法解决上述问题。

发明内容

本发明的目的是克服已有技术的缺陷，为了解决语音助手容易受到“海豚音攻击”问题，提出一种基于域适应的无声语音攻击检测方法。

本发明是通过下述技术方案实现的：

一种基于域适应的无声语音攻击检测方法，步骤如下：

步骤一，音频信号预处理，所述预处理包括语音降噪，端点检测，设置音频信号长度。

(1)语音降噪，在接收语音信号的过程中，将会引入各种干扰。对于正常语音信号来说，干扰主要来自于环境噪声以及静止或移动物体的声音反射。对于攻击信号来说，干扰还包括由麦克风电路的非线性引起的谐波和互调失真分量。本发明支持手机端定时采集环境噪声作为背景声，做谱减法降噪，其中引入了半监督的思想，由于谱减法需要有一个噪声样本，定时采集环境信号类似于输入了相对准确的噪声弱标签。

(2)端点检测。除上述干扰以外，接收到的语音信号还包含静音信号。为了进一步提高音频的质量，本发明通过语音端点检测算法(Voice Activity Detection,VAD)去除静音片段。VAD一般用于鉴别音频信号当中的语音出现(Speech Presence)和语音消失(Speech Absence)。本发明选择基于频带能量的语音端点检测方法对语音信号进行检测，首先基于Welch方法计算功率谱密度(Power Spectral Density，PSD)，然后在给定的频率范围内计算频带功率。具体来说，首先计算整体音频的最大能量点，以此为基准设为0dB，其他能量由此均为负值。设定保留-35dB以上的音频段，因此例如某一段音频的频带能量为-40dB，将被丢弃。其次，本发明将一个完整的声音信号以等长度分成若干帧，每帧长度25ms，而且相邻两帧保持重叠10ms。对于每帧语音信号，计算其特定频带能量，丢弃那些频带能量低于相应阈值的部分。基于此方法可以去除静音片段，并且只保留与语音相关的信号。

由于使用类ResNet架构无法直接处理长度变化的输入数据，因此对现有的语料时间数据进行了详细的统计，如图2(a)/2(b)所示，日常语音控制指令长度集中于1.2s～2s。设置最终输入的音频时长为2s，不足2s的部分循环补全；超过2s的部分截去。设置音频每帧之间的间隔10ms，每帧时长30ms，即前后重合20ms，保持时序的关联性。

步骤二：音频特征提取，对每一段语音指令提取Log Mel谱。

目前绝大多数音频特征分为三类：以SoundNet为代表的原始数据，经过转换后的二位频谱数据(Log Mel Spectrogram等)和基于音频的特征数据(MFCC等)。其中Log Mel谱的特征更适配于CNN结构。通过对音频数据进行短时傅里叶变换(STFT)，随后输入一组Mel滤波器组(Mel三角滤波器维数：64,128,256)，并对复数矩阵求绝对值，并作能量化(Log处理)。对于特征维度方面，Log Mel谱可视为二维矩阵形式：[时间维度×频域维度]，其中频域维度(64,128,256)。

步骤三，模型搭建以及预训练，使用至少3款手机类型的正负样本对二分类ResNet模型进行训练，得到一个用于检测无声语音指令的预训练模型。

采用基于传统CNN进行显著改进的ResNet结构，相对于传统CNN中常见的多层3×3,64卷积核连续拼接组成卷积块，ResNet中加入了残差单元，ResNet使用两种残差单元，图4(a)对应的是浅层网络，而图4(b)对应的是深层网络。本发明采用的是深层网络。

同时对于骨干网络并不局限于2维卷积，也受到说话人识别中X-vector方法的启发，尝试使用TDNN时延神经网络，此方法对时序上的几帧音频同时进行卷积。选用的参数如表2所示。

步骤四，引入SE模块

为了更好地表征海豚音攻击音频与正常音频的特征差异。本发明引入了有效提升性能的Squeeze-and-Excitation Networks(又称SE模块)。它对输入的频谱各通道进行加权，强调有效信息，抑制无效信息，类似于注意力机制。已应用于Inception、Inception-ResNet等现有特征表征网络上，具有适用范围广的优点。

其工作原理如图5所示。

对于输入的多个音频频谱X:[H′,W′,C′]，经过特征提取网络将输入X变为输出U:[H,W,C]。而仅仅依赖ResNet或TDNN，其X→U映射并非最佳，每个通道的重要程度不同，部分通道代表着海豚音攻击/正常音频的本质区别，应当给予其更高权重。具体实现过程：对于每一输出通道[H_i×W_i]，均通过全局统计池化，因此每个通道由矩阵形式映射到1个标量[H_i×W_i]→[1×1]，C个通道得到C个数；再经过全连接层→ReLU激活→全连接层→Sigmoid激活得到C个[0～1]的标量，作为通道的权重。将原本的每个输出通道[H_i×W_i]用对应的权重C_i进行加权(对应通道与权重分别相乘)，得到新的加权后的特征。

SE模块具有极好的通用性和移植性，可以容易地和现有网络集成，得到对应的网络优化版本，提升现有网络性能。

步骤五，域适应对抗训练，基于优化后的预训练模型，采用梯度翻转层对来自新手机类型的音频信号进行对抗训练，从而获得与手机类型无关的无声语音指令的检测模型。在所述的域适应对抗训练过程中，将优化后的预训练模型作为特征提取的主干网络，并在其后拼接两个模型；其一为攻击检测器，是正确分类海豚音攻击或正常音频的二分类模型；另一个为域分类器，结合与主干网络相连的梯度翻转层，用于实现混淆不同音频信号对应的手机真实类型，即当前音频表征是一种与手机类型无关的本质特征。

迁移学习中常用的域适应算法主要分为两类：第一类通过对源样本重新加权来减少差异，并对加权后的源样本进行训练。对于第二类，通常学习一个公共共享空间，其中两个数据集的分布是匹配的。梯度反转层(Gradient reversion Layer，GRL)是域适应的一个分支，是域对抗训练的重要组成部分。这是解决训练和测试数据集不匹配问题的一种可行方法。与传统的神经网络不同，在特征提取后通过梯度反转层连接一个新的模型作为域分类器。

本发明的发明原理为：

本发明提出了一种基于域适应对抗训练的无声检测方法，该方案为一种纯软件的检测方法，可以在任何智能设备上部署，大大降低方案集成的难度和成本并且显著增强“海豚音攻击”检测的泛化性能。鉴于CNN在音频事件分类任务中的优越表现，本发明基于ResNet架构为特征提取网络，并在此基础上引入了Squeeze-and-Excitation模块以获得更佳检测性能，基于交叉熵损失函数训练，将检测任务转化为分类问题实现检测。使用过程中，原始音频作为输入，将经过预处理环节(包括降噪、语音端点检测、分帧处理、提取mel-频谱等)，模型将处理后的音频频谱作为输入，通过ResNet中的CNN Block进行多层前向传播结合梯度信息以更好地表征特征。此外，由于海豚音攻击具有麦克风电路、手机类型强耦合的特性，对此本发明也引入了域适应的对抗训练，实现少量数据样本即可让模型有效表征对应手机音频特征。

本发明的有益效果为：

(1)本发明方法可移植性好，可方便地部署于任意智能设备。无须修改麦克风电路或外设检测电路等，极大降低了生产成本，且硬件修改方案通常需要根据智能设备进行反复定制。综上，本发明方法可做到安全性和成本控制的双赢。

(2)本发明方法泛化性能好，充分解决了传统信号时频域方法面临的海豚音硬件强耦合困境。面对不同智能设备，不同语音指令，不同人声等变量影响，攻击检测成功率始终达到99％+。

(3)本发明方法数据依赖少，传统的机器学习/时频域方法需要大量的正负样本进行训练。而本方案中可基于网上开源的有声语料库训练得到预模型，再结合特定手机型号，少量录制一些正负样本，即可实现高精度地海豚音检测。

(4)本发明方法运算速度快，考虑到算法可能部署于算力弱的嵌入式系统，本发明的整个网络参数量约8万(约312kB)，而谷歌之前推出的VGG-16参数量达到13.8亿(约517MB)。更轻量级的网络使本发明的算法更快速，且更易于在低资源的设备部署。

附图说明

图1为无声语音指令的检测和定位过程示意图；

图2(a)为训练集语音时长分布，图2(b)为测试集语音时长分布；

图3(a)为正常音频时域波形，图3(b)为海豚音攻击时域波形；

图4(a)为浅层残差卷积块，图4(b)为深层残差卷积块；

图5为Squeeze-and-Excitation模块工作原理图；

图6为基于梯度翻转层(GRL)的域适应对抗训练原理图；

图7为TDNN(图中为CNN1D)--不同降噪阈值①50dB:准确率97.1％；②35dB:准确率94.5％)；

图8:ResNet(图中为CNN2D)--不同降噪阈值①50dB:准确率98.2％；②35dB:准确率98.5％)；

图9为加入SE模块与对抗训练后TDNN(图中为CNN1D)--不同降噪阈值①50dB:准确率99.4％；②35dB:准确率99.6％)；

图10为加入SE模块与对抗训练后ResNet(图中为CNN2D)--不同降噪阈值①50dB:准确率99.8％；②35dB:准确率99.9％)。

具体实施方式

下面对本发明的优选实施方式作出详细的说明。本发明的无声语音指令的检测过程见图1。

本发明针对“海豚音攻击”进行针对性的防御，能够检测出任何”海豚音攻击”注入的无声语音指令，从而从根本上解决智能语音设备被无声语音指令控制的可能性。

以下实施案例为基于域适应的无声语音攻击检测方法，被攻击的测试设备为iPhone、华为、三星等厂商的智能手机、音箱等设备。

1.数据采集阶段：为了获得原始语音样本，本发明招募了26位志愿者，其中4位女性和22位男性，年龄在20至29岁之间。本发明同时使用iPhone 7s、Galaxy S6、OPPO Reno2、OPPO Reno3录制志愿者在分别读出10条语音指令(如表2所示)，体现形式为常见的单词、短语，且模型处理输入数据粒度为ms级，以上单词、短语具有代表性和普适性。其中，人和录音用的手机之间的距离为30cm，本发明还使用Baidu语音合成引擎同样生成了表2中的10个语音指令，这些语音样本作为正样本，通过将这些正样本调制并播放；对于负样本，通过将这些音频通过信号发生器调制，并被实验手机录音后，获得负样本。正负样本的录制距离分别设置为10、50、100、200、300cm，以充分覆盖日常生活中的语音控制场景。

2.信号预处理：由于采集到的信号包括静音部分，因此需要通过端点检测算法将静音片段切除。

3.特征提取，对每一段语音指令提取Log Mel谱。经过多组对比实验可以发现使用Log Mel谱特征维度取64时效果更佳。

4.深度学习模型训练：无声语音命令攻击检测是一个二分类问题，因此可以使用一种二分类算法进行实现。在训练阶段，本发明使用50％的正负样本对二分类深度学习模型进行训练，并得到一个用于检测无声语音指令的预训练模型。

5.攻击检测：待检测的语音信号在经过预处理和特征提取以后输入到预训练模型中进行检测。如果检测结果为正常语音指令，继续检测下一时刻的语音指令。

6.预训练模型检测效果：图7-8代表基于正负样本训练得到的海豚音检测模型准确率。一共为4组参数设置(①TDNN+50dB②TDNN+35dB③ResNet+50dB④ResNet+35dB)可见当特征提取网络变为2dCNN时，降噪范围设置为35dB，由图可知效果提升。根据图表数据对应关系可知：以0.5为阈值分割线，无声数据中有170条左右置信度<0.5，即接近有声特征；有声数据中与说话人的相关性显著降低，出错样本约90条。总计准确率98.5％。

7.加入SE模块并做域适应对抗训练后的模型效果：图9-10代表4组参数设置(均做SE+GRL)，(①TDNN+50dB②TDNN+35dB③ResNet+50dB④ResNet+35dB)可见当特征提取网络变为2dCNN时，降噪范围设置为35dB，由图可知效果提升。根据图表数据对应关系可知：以0.5为阈值分割线，无声数据中有8条左右置信度<0.5，即接近有声特征；有声数据中与说话人的相关性显著降低，出错样本约1条。总计准确率99.9％。

最终实验结果显示，无论说话者以及语音指令是怎样的，检测模型都能够以99％+的准确率检测无声语音指令。

最终检测结果表明，本发明的方法对无声语音指令的检测都是有效的。因此，智能语音设备的生产厂商无须更改麦克风电路，麦克风排列位置或者录制大量的正负样本，即可基于本发明的方法，快速实现软件层面的海豚音攻击检测，有效地解决目前智能语音设备存在的安全问题。

表1 CNN模型卷积、池化、全连接设置

表2训练集指令清单

Echo	Hey Cortana
		Computer	小微小微
Ok Google	你好联想
		叮咚叮咚	小艺小艺
你好魅族	你好问问

表3测试集指令清单

Claims

1.一种基于域适应的无声语音攻击检测方法，其特征在于，步骤如下：

步骤一，音频信号预处理，所述预处理包括语音降噪，端点检测，设置音频信号长度；

步骤二，音频特征提取，对每一段语音指令提取Log Mel谱；

步骤三，模型搭建以及预训练，使用至少3款手机类型的正负样本对二分类ResNet模型进行训练，得到一个用于检测无声语音指令的预训练模型；

步骤四，引入SE模块以更好地表征海豚音攻击音频与正常音频的特征差异，得到优化后的预训练模型；

步骤五，域适应对抗训练，基于优化后的预训练模型，采用梯度翻转层对来自新手机类型的音频信号进行对抗训练，从而获得与手机类型无关的无声语音指令的检测模型；采用该模型即可对无声语音攻击进行检测。

2.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，

将步骤一预处理后的音频信号的音频时长设置为2s，不足2s的部分循环补全；超过2s的部分截去；设置音频每帧之间的间隔10-20ms，每帧时长25-30ms，保证前后帧重合以保持时序的关联性。

3.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，若音频信号采样率为16KHz，则步骤二中的Log Mel谱频域维度设为64。

4.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，所述的二分类ResNet模型中，ResNet卷积块使用深层网络，即对特征向量进行1X1卷积，再经过3X3卷积，最后通过1X1卷积降维。

5.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，步骤四中，对步骤三中输出的音频表征向量，所述的SE模块对其不同通道赋予不同的权重，具体为：对于每一输出通道[_i×W_i]，均通过全局统计池化，因此每个通道由矩阵形式映射到1个标量[H_i×W_i]→[1×1]，C个通道得到C个数；再经过全连接层→ReLU激活→全连接层→Sigmoid激活得到C个[0～1]的标量，作为通道的权重。

6.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，在所述的域适应对抗训练过程中，将优化后的预训练模型作为特征提取的主干网络，并在其后拼接两个模型；其一为攻击检测器，是正确分类海豚音攻击或正常音频的二分类模型；另一个为域分类器，结合与主干网络相连的梯度翻转层，用于实现混淆不同音频信号对应的手机真实类型，即当前音频表征是一种与手机类型无关的本质特征。