CN116758899B

CN116758899B - 一种基于语义空间扰动的语音识别模型安全性测评方法

Info

Publication number: CN116758899B
Application number: CN202311008778.2A
Authority: CN
Inventors: 巴钟杰; 王宇炜; 程鹏; 黄鹏; 林峰; 卢立; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-10-13
Anticipated expiration: 2043-08-11
Also published as: CN116758899A

Abstract

本发明公开了一种基于语义空间扰动的语音识别模型安全性测评方法，包括（1）选择目标指令，将指令文本输入给预训练语音合成模型获得命令的原始语义特征、原始梅尔频谱和原始对齐信息；（2）初始化特征扰动为0；（3）将特征扰动加到命令的原始语义特征上，将加扰后的语义特征输入给语音合成模型的解码器，获得新的梅尔频谱和新的对齐信息；（4）将获得的梅尔频谱进行模糊化，并输入声码器获得音频；（5）将音频输入给待测目标语音识别模型获得识别结果；（6）如果识别结果和目标命令相同则保留音频；（7）计算损失并更新特征扰动；（8）回到步骤（3）直到扰动超过阈值或到达最大迭代次数；（9）检查最终是否通过步骤（6）保留了音频。

Description

一种基于语义空间扰动的语音识别模型安全性测评方法

技术领域

本发明涉及语音识别模型安全性测评技术领域，尤其是涉及一种基于语义空间扰动的语音识别模型安全性测评方法。

背景技术

随着深度学习的快速发展，语音识别已经有了极高的准确率，当前智能设备普遍集成了语音控制功能。越来越多的用户也逐渐习惯通过语音与智能设备交互，享受免提的便利。

智能手机、智能音箱、汽车等智能设备都采用了语音助手（Voice assistant， VA）功能，使其变成了语音控制的设备。

语音控制设备的普及带来了安全风险。智能设备以语音命令作为输入来执行操作，包括安全和安全关键任务，例如热调节、在线支付，甚至自动驾驶。

但研究表明语音识别模型和人耳听觉之间存在一些差异。2016年Carlini等探索了一种隐式的语音命令，生成了一种人耳难以理解，但语音识别模型能正确识别的音频指令，揭示了人耳和模型之间存在的听觉差异。近些年来，更多的研究工作通过对抗性音频技术已经实现了将恶意命令秘密注入语音控制设备。

2018年Carlini等提出了白盒场景下的语音对抗样本，这种音频可以在一段原始音频上添加特制的微小噪声，对人耳来说听起来还是原来的音频，但可以让语音识别模型识别成目标指令。这个工作进一步表明了语音识别模型与人耳理解之间的差异。进一步的，2020年Chen等探索了黑盒语音对抗样本的生成方法。与白盒不同的点在于，白盒方法需要知道模型的结构和参数，而黑盒方法仅需知道模型最后输出的结果。该方法将寻找语音识别模型缺陷的方法变得更加实际。2021年Zheng等、2022年Liu等进一步研究了黑盒语音对抗样本，并取得了更好的效果。

上述的各种方法虽然都可以寻找模型在识别方面的缺陷，但都不够实际。如隐式语音命令依赖MFCC和逆MFCC，需要手动调参和大量尝试；白盒对抗样本需要获得模型的全部信息；黑盒对抗样本需要大量问询黑盒模型，成本高昂。

发明内容

本发明的目的是提供一种基于语义空间扰动的语音识别模型安全性测评方法，能够生成人耳难以理解，但仍然有可能被语音识别模型所识别的音频。这类音频可能在用户感知不明显的情况下诱导语音助手执行有安全风险的语音命令，能够识别这类命令的语音识别模型存在安全风险，即本方法生成的音频能够用于对语音识别模型进行安全性测试。对比隐式语音命令，本方法在音频生成过程中引入了优化过程，可以更加准确地寻找目标音频。对比黑盒对抗样本，本方法问询次数更低，效率更高。同时本方法对数字域的语音识别API和物理域的语音助手提出了不同的优化方法。

为实现上述目的，本发明提供了一种基于语义空间扰动的语音识别模型安全性测评方法，包括以下步骤：

S1、获取选择目标指令，将指令文本输入给预训练好的语音合成模型Tacotron2，获得命令的原始语义特征、原始梅尔频谱/>和原始对齐信息/>并保留；

其中，D表示语义特征的隐变量维度、表示文本序列的长度、/>表示原始梅尔频谱的帧数、80表示梅尔滤波器的个数、R为实数；

S2、初始化特征扰动，如果针对数字域API则初始化为，如果针对物理域的语音助手则初始化N个扰动/>；

其中，表示特征扰动；

S3、将特征扰动加到命令的原始语义特征上，将加扰后的语义特征输入给Tacotron2的解码器，获得新的梅尔频谱和新的对齐信息，/>表示新的梅尔频谱的帧数；

S4、将步骤S3获得的新的梅尔频谱进行模糊化操作，然后输入给预训练好的声码器，获得音频；

S5、将步骤S4获得的音频输入给待测的目标语音识别模型，获得目标语音识别模型的识别结果，如果测试物理域的语音助手在将音频输入给目标语音识别模型前还需要叠加白噪声；

S6、比较步骤S5的识别结果是否和步骤S1中选择的目标指令相同，如果相同并且特征扰动不为0则保留音频；

S7、将步骤S3中解码器输出的新的梅尔频谱和步骤S1中保留的原始梅尔频谱计算损失，将步骤S3中解码器输出的新的对齐信息和步骤S1中保留的原始对齐信息计算损失；

S8、利用梯度下降或粒子群算法更新步骤S2中的特征扰动；

S9、如果更新后的扰动超出预设的阈值或到达最大迭代次数则流程停止，否则回到步骤S3；

S10、流程停止后检查步骤S6是否保留了音频，如果保留则说明测试发现语音识别模型对这条目标指令的识别存在缺陷。

优选的，步骤S1中指令文本输入给语音合成模型Tacotron2的过程包括将文本输入给Tacotron2的编码器获得原始语义特征；将原始语义特征输入给Tacotron2的解码器获得原始梅尔频谱和原始对齐信息。

优选的，步骤S2中特征扰动是与语义特征形状相同的矩阵，N为20。

优选的，步骤S4中新的梅尔频谱的模糊化操作，包括以下步骤：

S41、选定参数α，将新的梅尔频谱0~1025Hz部分乘上α；

S42、选定参数γ，并从均匀分布U（-γ，γ）中采样和新的梅尔频谱形状相同的噪声，叠加到新的梅尔频谱上；

S43、选定参数β，将新的梅尔频谱0~βHz部分置零；

其中，α为0.25或0.3；γ为1或2；β为22Hz或45Hz。

优选的，步骤S5中，叠加白噪的方法为：选定参数η，将生成的音频幅值归一化到（-1，1），并加上最大幅值为η的白噪，然后将音频幅值还原；

其中，η为0.1或0.05。

优选的，步骤S6中，对比识别结果和命令是否相同的方法为计算识别结果和命令之间的字错率CER，公式如下：

；

其中，S表示替换的字符数目，表示删除的字符数目，I表示插入的字符数目，表示参考序列的字符数目，即原命令的字符数目，CER=0表示两个文本序列相同。

优选的，步骤S7中，计算损失的方式为计算原始梅尔频谱和新的梅尔频谱的损失以及原始对齐信息和新对齐信息的损失/>，并将两者相加得到最终的损失；

原始梅尔频谱和新的梅尔频谱的损失的计算方式为：

；

其中，表示新的梅尔频谱中的第i个值，/>表示原始梅尔频谱中的第i个值，/>表示原始梅尔频谱中值的总数；

原始对齐信息和新对齐信息的损失计算方式为：

；

其中表示第t帧输出终止的概率，/>表示实际终止的概率；原始梅尔频谱的最后一帧终止概率为1，其余都为0；/>表示原始梅尔频谱的帧数；Sigmoid()表示Sigmoid激活函数，表示方式如下：

。

优选的，步骤S8中，梯度下降适用于测试数字域API，更新特征扰动的方式为：

；

其中，表示特征扰动，/>表示学习率；/>表示最终的损失。

优选的，步骤S8中，粒子群优化适用于测试物理场景的语音助手，更新特征扰动的方式为：

；

其中，表示第i个扰动的第j个值；/>表示第i个扰动的第j个值的速度，初始为0；/>表示第i个扰动的历史最优值的第j个值；/>表示所有扰动的历史最优值的第j个值；/>为惯性权重；/>和/>为两个加速度常数；/>和/>为两个0到1之间的服从均匀分布的数。

优选的，步骤S9中，阈值为0.4。

因此，本发明采用上述一种基于语义空间扰动的语音识别模型安全性测评方法，其技术效果如下：

（1）相比于现有的传统黑盒对抗样本相比，本发明生成的音频生成成本更低，抵抗模型更新的时效性更强。

（2）相比于现有的隐藏语音命令攻击，本发明基于深度学习的方法，生成的音频的过程中拥有自动优化过程，可听懂度更低。

（3）相比于现有的数据增广方式（加白噪等），本发明生成的音频寻找模型和人耳听觉之间的差异，对模型的进一步优化更具有意义。

（4）能够生成人耳难以理解，但仍然有可能被语音识别模型所识别的音频。这类音频可能在用户感知不明显的情况下诱导语音助手执行有安全风险的语音命令，能够识别这类命令的语音识别模型存在安全风险，即本方法生成的音频能够用于对语音识别模型进行安全性测试对比隐式语音命令。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于语义空间扰动的语音识别模型安全性测评方法整体流程图；

图2为本发明所生成的12条音频对数字域语音识别API的成功数目；

图3为本发明所生成的12条音频对物理域语音助手的成功数目。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

实施例一

如图1所示，为本发明一种基于语义空间扰动的语音识别模型安全性测评方法整体流程图。图1中实线表示音频生成的正向步骤，虚线表示神经网络反向传播更新的步骤。一种基于语义空间扰动的语音识别模型安全性测评方法，步骤如下：

S1、选择命令

选择的命令可以不用很长，可以选择一些常用的日常语音命令，对于语音助手来说最重要的是对常用命令的识别效果。

S2、将命令输入给语音合成模型

将选定的命令文本输入法给预训练好的Tacotron2模型中，保留Tacotron2编码器的输出和解码器的输出，包括原始语义特征、原始梅尔频谱和原始对齐信息。

S3、初始化特征扰动

初始化与原始语义特征形状相同的特征噪声，值为全0，并叠加到原始语义特征上。

S4、获得语义特征加扰的频谱。

将加扰后的语义特征输入Tacotron2的解码器中，获得新的梅尔频谱和新的对齐信息。

S5、频谱模糊化

首先，选定参数α（0.25或0.3），将梅尔频谱0~1025Hz部分乘上α。这步操作为了降低音频在低频的能量。接着选定参数γ（1或者2），并从（-γ，γ）的均匀分布中采样和梅尔频谱大小相同的噪声，叠加到梅尔频谱上。这步操作可以降低音频的质量。最后选定参数β（22Hz或45Hz），将梅尔频谱0~βHz部分置零。这一步将音频中不重要的信息去除。

S6、获得音频

将S5获得的梅尔频谱输入给预训练好的声码器，可以获得合成的音频。需要注意的是因为此前步骤中对语义特征加了扰动、对梅尔频谱进行了模糊化，因此合成的音频对人耳来说是扭曲并且模糊的。

S7、识别音频

将生成的音频输入待测试的语音识别模型，获得模型的识别结果。如果能识别出目标指令，意味着该模型可以识别一条人耳听不懂但蕴含指令的音频，而这样的指令并不是人们希望语音识别模型能识别出来的。换句话说这条音频找到了人耳和语音识别模型之间的差异，所以如果识别正确了，便保留音频。

S8、更新特征噪声

将S5中获得的频谱与原始的音频计算损失，将S4中获得的对齐信息与原始的对齐信息计算损失/>。并用梯度下降或粒子群优化算法更新特征噪声。损失的计算方式如下：

；

更新特征噪声会使变小。对于/>来说，减小意味着增大原始频谱和生成频谱之间的差异，进而降低音频的可懂度。对/>来说，减小意味着新生成的音频和原始音频的时长差距较小，避免生成拖尾的音频。

S9、音频发送

最后生成的音频可以用来测试数字域的语音识别API和现实生活中的语音助手两类模型。测试数字域模型的时，直接将生成的音频样本输入给API；测试物理域语音助手的时候，用扬声器播放音频给智能设备即可。

为验证本发明的效果，对上述黑盒商用语音识别模型测试方法设计方法进行了实验。

实验一验证了本发明所生成的音频对数字域语音识别API的成功率。首先选择了四个目标API（API1、API2、API3、API4）和12条命令（“airplane mode on”， “call one twothree”， “cancel my alarm clock”， “I can’t take it anymore”， “navigate to myoffice”， “send a message to my mom”， “transfer the payment”， “turn on thelight”， “unlock the door”， “what’s the time”， “I need help”， “darn it”），再使用本发明所提出的方法针对每个API生成音频。结果如图2所示，本发明生成的音频对所有被选择的API都能找到识别的缺陷。

实验二验证了本发明所生成的音频对物理域语音助手的成功率。首先选择了两个目标语音助手（语音助手1和语音助手2）和同实验一中的12条命令，再使用本发明所提出的方法针对每个语音助手所对应厂商的语音识别API生成音频。结果如图3所示，即使是在现实环境下，本发明生成的音频对被选择的语音助手也能找到识别的缺陷。

实验三为了验证本方法所生成的音频无法被人耳所理解。首先针对API3生成了12条命令，并给6名志愿者试听音频，要求志愿者给音频质量按0-4打分（0代表完全听不懂，4代表完全能听懂）并尝试识别音频。然后将志愿者的识别结果与原命令计算CER（CER越低识别越准确）。

表1 6名志愿者对12条音频的可听懂度打分结果

；

表2 6名志愿者对12条音频的识别结果和原命令的CER值

。

表1统计了志愿者对音频的打分结果，表2统计了志愿者的识别准确性。在音频可懂度方面所有音频获得了0.84的平均可听懂度分数；在音频的识别方面所有音频的平均CER达到78%。证明了本发明生成的音频对人耳来说确实难以理解。

因此，本发明采用上述一种基于语义空间扰动的语音识别模型安全性测评方法，相比于现有的传统黑盒对抗样本相比，本发明生成的音频生成成本更低，抵抗模型更新的时效性更强；相比于现有的隐藏语音命令攻击，本发明基于深度学习的方法，生成的音频的过程中拥有自动优化过程，可听懂度更低；相比于现有的数据增广方式（加白噪等），本发明生成的音频寻找模型和人耳听觉之间的差异，对模型的进一步优化更具有意义。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，包括以下步骤：

其中，表示特征扰动；

S3、将特征扰动加到命令的原始语义特征上，将加扰后的语义特征输入给Tacotron2的解码器，获得新的梅尔频谱和新的对齐信息/>，表示新的梅尔频谱的帧数；

S8、利用梯度下降或粒子群算法更新步骤S2中的特征扰动；

2.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S1中指令文本输入给语音合成模型Tacotron2的过程包括将文本输入给Tacotron2的编码器获得原始语义特征；将原始语义特征输入给Tacotron2的解码器获得原始梅尔频谱和原始对齐信息。

3.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S2中特征扰动是与语义特征形状相同的矩阵，N为20。

4.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S4中新的梅尔频谱的模糊化操作，包括以下步骤：

S41、选定参数α，将新的梅尔频谱0~1025Hz部分乘上α；

S43、选定参数β，将新的梅尔频谱0~βHz部分置零；

其中，α为0.25或0.3；γ为1或2；β为22Hz或45Hz。

5.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S5中，叠加白噪的方法为：选定参数η，将生成的音频幅值归一化到（-1，1），并加上最大幅值为η的白噪，然后将音频幅值还原；

其中，η为0.1或0.05。

6.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S6中，对比识别结果和命令是否相同的方法为计算识别结果和命令之间的字错率CER，公式如下：

；

其中，S表示替换的字符数目，表示删除的字符数目，I表示插入的字符数目，/>表示参考序列的字符数目，即原命令的字符数目，CER=0表示两个文本序列相同。

7.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S7中，计算损失的方式为计算原始梅尔频谱和新的梅尔频谱的损失以及原始对齐信息和新对齐信息的损失/>，并将两者相加得到最终的损失/>；

原始梅尔频谱和新的梅尔频谱的损失的计算方式为：

；

原始对齐信息和新对齐信息的损失计算方式为：

；

。

8.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S8中，梯度下降适用于测试数字域API，更新特征扰动的方式为：

；

其中，表示特征扰动，/>表示学习率;/>表示最终的损失。

9.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S8中，粒子群优化适用于测试物理场景的语音助手，更新特征扰动的方式为：

；

其中，表示第i个扰动的第j个值；/>表示第i个扰动的第j个值的速度，初始为0；表示第i个扰动的历史最优值的第j个值；/>表示所有扰动的历史最优值的第j个值；/>为惯性权重；/>和/>为两个加速度常数；/>和/>为两个0到1之间的服从均匀分布的数。

10.根据权利要求1所述的一种基于语义空间扰动的语音识别模型安全性测评方法，其特征在于，步骤S9中，阈值为0.4。