CN115225309B

CN115225309B - 一种基于变速变调的语音对抗样本防御方法

Info

Publication number: CN115225309B
Application number: CN202210544265.2A
Authority: CN
Inventors: 严迪群; 郜金星; 董明宇; 龚永康
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-06-13
Anticipated expiration: 2042-05-19
Also published as: CN115225309A

Abstract

本发明公开了一种基于变速变调的语音对抗样本防御方法，其对采集的语音样本进行变速变调操作；然后将采集的语音样本和变速变调操作后得到的语音音频分别输入到自动语音识别系统中，自动语音识别系统输出两者的识别结果；接着计算两者的识别结果的字符改变率；再通过比较字符改变率与阈值的大小来判定语音样本为语音正常样本还是为语音对抗样本；优点是其针对语音识别系统的语音对抗样本进行防御，提高语音识别系统的安全性与鲁棒性，在保证语音正常样本识别准确率的条件下，提高了语音对抗样本的防御效率，降低了语音对抗样本的攻击成功率。

Description

一种基于变速变调的语音对抗样本防御方法

技术领域

本发明涉及一种多媒体信息安全技术，尤其是涉及一种基于变速变调的语音对抗样本防御方法。

背景技术

随着多媒体信息技术的不断发展，多媒体信息安全问题也逐渐凸显。新技术通常也会带来新的安全问题。在最近十年，借助深度神经网络对数据特征强大的学习能力，多媒体信息技术得到了迅速的发展。然而，深度神经网络容易遭受对抗样本的攻击，对抗样本的攻击也阻碍了深度神经网络在现实世界的广泛使用。对深度神经网络的对抗样本的深入研究，是保障深度神经网络安全性的重要途径。作为当下最热门的深度学习中的信息安全问题，对抗样本在学术界和工业界受到了高度的关注。

作为多媒体信息安全领域的重要方向，对抗样本领域有非常多的研究成果，但目前大部分的工作都集中在图像对抗样本领域，语音领域的对抗样本的研究相对较少。随着智能语音技术在生活中的广泛应用，语音领域的对抗样本安全问题同样值得关注，例如在声纹识别、语音购物等对安全性要求较高的场景下，都有可能遭受对抗样本的攻击。因此，语音对抗样本防御方法的研究至关重要，它能够帮助研究人员发现和改进现有的语音识别系统可能出现的漏洞，加强语音识别系统的安全性与鲁棒性，增大恶意攻击的难度。

目前针对语音对抗样本防御方法的研究工作较少，已有的语音对抗样本防御方法也存在一些问题。一部分方法如语音平滑方法，其防御效率较低，效果不理想；一部分方法如移除静音段方法，其对原始语音的影响较大，从而影响了语音识别系统的准确率；还有一部分方法如比特位缩减法，其需要重新训练语音识别系统或者添加额外的深度学习模型，这样就需要较高的计算成本。因此，如何简单、有效以及快速防御语音对抗样本至关重要。

发明内容

本发明所要解决的技术问题是提供一种基于变速变调的语音对抗样本防御方法，其针对语音识别系统的语音对抗样本进行防御，提高语音识别系统的安全性与鲁棒性，在保证语音正常样本识别准确率的条件下，提高了语音对抗样本的防御效率，降低了语音对抗样本的攻击成功率。

本发明解决上述技术问题所采用的技术方案为：一种基于变速变调的语音对抗样本防御方法，其特征在于包括以下步骤：

步骤1：采集一段包含有单人说话内容的语音音频作为语音样本，记为x；然后对x进行变速变调操作，将变速变调操作后得到的语音音频记为

步骤2：将x输入到自动语音识别系统中，自动语音识别系统输出x的识别结果，记为y；将

输入到相同的自动语音识别系统中，自动语音识别系统输出/>

的识别结果，记为/>

步骤3：计算y和

的字符改变率，记为CR，/>

其中，min()为取最小值函数，/>

为计算y和/>

两个文本的编辑距离的函数，/>

输出编辑次数，L表示y的字符数；

步骤4：通过比较CR与阈值K的大小来判定x为语音正常样本还是为语音对抗样本，如果CR大于阈值K，则判定x为语音正常样本；如果CR小于或等于阈值K，则判定x为语音对抗样本。

所述的步骤4中，阈值K取值为0.85。

与现有技术相比，本发明的优点在于：

1)本发明方法采用的变速变调操作是直接对语音音频进行处理的，处理所需要的时间复杂度较低，且不需要对自动语音识别系统做修改以及训练，因此本发明方法简单易实现，可实际应用于实时前端处理。

2)本发明方法相对于目前先进的Kwon与Yang的防御方法，语音对抗样本的检测率提高了4.82％。

3)本发明方法在对音频处理后对正常音频的影响非常小，在保证语音正常样本识别准确率的条件下，提高了语音对抗样本的防御效率，降低了语音对抗样本的攻击成功率。

附图说明

图1为本发明方法的总体实现框图；

图2为“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语速(Speed)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语速(Speed)操作之后对应的字符改变率的平均值；

图3为“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值；

图4为“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语调(Pitch)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语调(Pitch)操作之后对应的字符改变率的平均值；

图5给出了语音修改对语音正常样本与语音对抗样本的影响示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

给定一个自动语音识别系统g()以及一个原始语音样本x'，一个恶意的攻击者可以使用相应的对抗样本生成方法来得到一个语音对抗样本x^*，如图5所示，x'离原始识别结果y'＝g(x')所在的决策边界较远，x^*离目标文本y^*＝g(x^*)所在的决策边界较近，这意味着在对语音样本进行修改后，语音对抗样本更容易逃离决策边界，即更有可能被自动语音识别系统g()识别成其他非目标文本。之前已有工作根据这一特点来防御语音对抗样本。

所以防御语音对抗样本的关键是找到一个合适的语音修改方法M()，其不仅可以破坏语音对抗样本而且不会让语音正常样本丢失信息。更具体一点就是，语音正常样本的识别结果y'＝g(x')要尽可能与修改后样本的识别结果

相似，语音对抗样本的识别结果y^*＝g(x^*)要尽可能与修改后样本的识别结果/>

不同。最后可以得到目标函数，描述为：/>

其中，X表示语音数据库，x'为X中的语音样本，D()为计算两个文本的编辑距离的函数。

破坏策略的目的是破坏掉对抗样本的扰动使其攻击失效。给定一个语音样本x(语音正常样本或语音对抗样本)，只需要在将其输入自动语音识别系统之前对其进行TPSM操作。对于语音正常样本，由于细微的变速变调将不会影响到语音的内容，自动语音识别系统的识别结果将不会改变或改变很小。对于语音对抗样本，由于其扰动是基于当前的时域和频域添加的，因此变速变调将会使其时域与频域发生改变，扰动也将失效，自动语音识别系统的识别结果将与原来大不相同。

检测策略的目的是检测一个未知语音是否为语音对抗样本。由于语音对抗样本的识别结果更容易受到变速变调的影响，因此，可以利用变速变调前后识别结果的变化量的大小来确认语音样本是否为语音对抗样本。

本发明提出的一种基于变速变调的语音对抗样本防御方法，其总体实现框图如图1所示，其包括以下步骤：

步骤1：采集一段包含有单人说话内容的语音音频作为语音样本，记为x；然后对x进行现有的变速变调操作，将变速变调操作后得到的语音音频记为

由于不清楚x为语音对抗样本还是为语音正常样本，因此对x进行变速变调操作。

步骤2：将x输入到现有的自动语音识别(ASR，Automatic Speech Recognition)系统中，自动语音识别系统输出x的识别结果，记为y；将

输入到相同的自动语音识别(ASR，Automatic Speech Recognition)系统中，自动语音识别系统输出/>

的识别结果，记为/>

通过自动语音识别系统得到的识别结果为语音样本中单人说话内容相应的文本。

步骤3：计算y和

的字符改变率，记为CR，/>

在此用字符改变率CR来衡量x的识别结果y的变化量；其中，min()为取最小值函数，/>

为计算y和/>

两个文本的编辑距离的函数，/>

输出编辑次数，L表示y的字符数，如果文本是英文则字符数指文本所包含的所有字母数量，如果文本是中文则字符数指文本所包含的中文字字数。两个文本的编辑距离的函数引用自V I LEVENSHTEIN.Binary codes capable ofcorrecting deletions,insertions,and reversals[J].Soviet physics doklady.1966,10:707–710.(能够纠正删除、插入和反转的二进制代码[J].苏联物理学博士)。

步骤4：通过比较CR与阈值K的大小来判定x为语音正常样本还是为语音对抗样本，如果CR大于阈值K，则判定x为语音正常样本；如果CR小于或等于阈值K，则判定x为语音对抗样本；其中，阈值K取值为0.85。

变速变调操作可以利用时间音调尺度修改(Time-and Pitch-ScaleModification，TPSM)来实现。之前已有工作已经研究了TPSM对ASR(Automatic SpeechRecognition，自动语音识别)系统的影响。在某些情况下，使用适当的参数进行时间尺度修改(Time Scale Modification，TSM)可以提高ASR系统的性能。音高尺度修改(Pitch ScaleModification，PSM)可以用来提高儿童的语音识别能力。TSM作为一种数字信号处理方法，可以用来拉伸或压缩语音信号的持续时间。理想情况下，时间修改后的信号听起来就像原始信号的内容相同但是说话速度不同。基于波形相似度重叠添加(WSOLA)或基于相位声码器的TSM方法可以高度保留谐波信号的感知质量。

TPSM有三种操作类型。第一种为语速(Speed)操作，可以同时修改语速和语调。第二种为节拍(Tempo)操作，只修改语速不修改语调。第三种为语调(Pitch)操作，只修改语调不修改语速。对于语速(Speed)操作，可以直接通过改变语音的采样率来实现。对于节拍(Tempo)操作，可以使用TSM算法来实现。对于语调(Pitch)操作，可以先改变语音的语速，然后用TSM把时间尺度调整回来。考虑到人类语音的机制，略微改变语音语速和语调后，语音正常样本的识别结果不会有太大变化。而对抗扰动是针对当前时间和频率分布精心设计的，当语速和语调发生变化时，扰动将被破坏，语音对抗样本将会失去攻击效果。

在本发明中阈值K通过在不同TPSM操作下语音正常样本与语音对抗样本的CR变化来确定，具体过程为：选择“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库，利用OPT(optimization-based attack，基于梯度优化的文本式语音对抗样本攻击)方法生成三个数据集中的每个语音正常样本对应的语音对抗样本，按本发明方法计算每个语音正常样本对应的字符改变率及每个语音对抗样本对应的字符改变率。“TIMIT”语音数据库来源于VZUE,S SENEFF,J GLASS.Speech database development at MIT:TIMIT and beyond[J].Speech communication.1990,9:351–356.(麻省理工学院的语音数据库开发：TIMIT及其他[J].语音交流)，“LibriSpeech”语音数据库来源于http://www.openslr.org/12/.，“CommonVoice”语音数据库来源于R ARDILA,et al.Common voice:A massively-multilingual speech corpus[J].arXiv preprint arXiv:1912.06670,2019.(大规模多语言语音语料库[J])。

图2给出了“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语速(Speed)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语速(Speed)操作之后对应的字符改变率的平均值，图3给出了“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过节拍(Tempo)操作之后对应的字符改变率的平均值，图4给出了“TIMIT”、“LibriSpeech”、“CommonVoice”三个语音数据库各自中的所有语音正常样本在经过语调(Pitch)操作之后对应的字符改变率的平均值及所有语音对抗样本在经过语调(Pitch)操作之后对应的字符改变率的平均值。图2、图3和图4中，位于上方的曲线对应于语音正常样本，位于下方的曲线对应于语音对抗样本，Similarity rate表示相似性变化即指字符改变率。从图2、图3和图4中可以看出，语音正常样本在经过TPSM操作之后其字符改变率较小，且始终在90％以上，而语音对抗样本在经过TPSM操作之后其字符改变率较大，最低接近0％，因此本发明为了区分语音正常样本与语音对抗样本，将阈值K取值为85％，即0.85。

为了进一步验证本发明方法的可行性和有效性，对本发明方法进行实验。

实验设置：语音对抗样本的生成利用一种基于梯度优化的文本式语音对抗样本攻击(OPT)攻击(N CARLINI,D WAGNER.Audio adversarial examples:Targeted attacks onspeech-to-text[J].Proceedings 2018IEEE Symposium on Security and PrivacyWorkshops,SPW 2018,2018:1–7.，(音频对抗示例：针对语音到文本的针对性攻击[J].2018年IEEE安全和隐私研讨会论文集))，使用DeepSpeech作为所采用的自动语音识别系统，使用“TIMIT”、“LibriSpeech”和“CommonVoice”作为语音数据库。对比方法有Kwon方法(ZYANG,B LI,P Y CHEN,D SONG.Characterizing audio adversarial examples usingtemporal dependency[J].arXiv preprint arXiv:1180.910875,2018.(使用时间依赖性表征音频对抗性示例[J]))和Yang方法(H KWON,H YOON,K W PARK.Acoustic-decoy:Detection of adversarial examples through audio modification on speechrecognition system[J].Neurocomputing.2020,417:357–370.(通过语音识别系统上的音频修改来检测对抗样本[J].神经计算))。

实验结果：

表1给出了分别使用本发明方法、Kwon方法、Yang方法之后的语音对抗样本的平均攻击成功率(ASR_avg)与语音正常样本的识别准确率(ACC)。

表1分别使用本发明方法、Kwon方法、Yang方法之后的语音对抗样本的平均攻击成功率(ASR_avg)与语音正常样本的识别准确率(ACC)

从表1中可以看出，本发明方法使用变速变调操作后语音正常样本的ACC都较高，接近于没有使用防御方法的ACC，这说明变速变调操作几乎不会影响语音正常样本的识别，优于Kwon方法和Yang方法。其中，对于其余语音对抗样本防御方法的防御结果来说，利用语速、节拍、语调修改操作进行防御的结果平均提高了4.82％，并且利用语调修改操作的防御结果好于利用语速修改操作的防御结果，利用语速修改操作的防御结果好于利用节拍修改操作的防御结果，最好结果可达到7.69％，并且语音正常样本的ACC可达到95.60％。