CN117955747A

CN117955747A - 一种用于语音识别系统的后门安全性评估方法、装置及介质

Info

Publication number: CN117955747A
Application number: CN202410349047.2A
Authority: CN
Inventors: 唐瑀; 徐小龙
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117955747B

Abstract

本发明公开了一种用于语音识别系统的后门安全性评估方法、装置及介质，属于人工智能技术领域。方法包括：根据已有训练好的语音合成模型计算得到优化损失函数，优化生成宿主样本及其语音风格参数，并组成宿主样本集；将触发器注入所述宿主样本集中，组合生成中毒样本集，并与原始训练样本集组合生成混合训练样本集；将已有干净语音训练模型在混合训练样本集中进行标准化训练，生成受害者模型；将干净测试样本以及带有隐形触发器的测试样本分别输入到受害者模型；根据精度测试及后门攻击的结果对受害者模型进行安全性评估。本发明通过语音合成、反向梯度优化及设定目标损失函数的方式，保证了后门攻击下良性训练样本的易获取及标签干净。

Description

一种用于语音识别系统的后门安全性评估方法、装置及介质

技术领域

本发明涉及一种用于语音识别系统的后门安全性评估方法、装置及介质，属于人工智能技术领域。

背景技术

语音是人机交互中最重要的通信手段之一。当前，鉴于深度神经网络（Deepneural networks，DNN）强大的特征提取能力，人们相继提出了许多基于深度学习的语音识别方法，将声纹识别技术水平提高到了一个新的层次。在最先进的深度学习模型的驱动下，例如 Google Assistant、Tesla Voice Command、Apple Siri在内的许多语音助手工具皆能够准确识别语音内容，并作出相应的指令。

由于深度学习需要基于庞大的训练数据、强大的算力以及硬件开销，用户往往会选择将模型训练任务外包给机器学习服务器商（Machine-learningas-a-service, MLaaSProvider）或是直接采用下载第三方的数据集来进行标准模型训练。然而，由于相关目标模型可能存在被植入后门的安全威胁，这也因此导致了相关训练模型时常易遭受到不同类型的攻击，如：对抗攻击、数据投毒攻击以及后门攻击等。其中，后门攻击（backdoor attack）作为新兴的攻击方式，引起了人们的高度关注。

后门攻击通常是向目标模型的训练数据中设置一些包含触发器（trigger）的数据后，利用这些训练数据对目标模型进行训练，训练通过后的目标模型即被植入后门。通常来说，被植入后门的目标模型对于输入的正常数据，仍然可以较为准确地输出正确结果；但当攻击者向目标模型输入带有触发器的数据时，则会激活目标模型中的后门，使目标模型输出指定的错误结果。由此可以看出，由于触发器选择样本的鲁棒性、良性样本的正常表现性以及后门注入的隐蔽性，相较于对抗攻击、投毒攻击等攻击方式，后门攻击能够对目标模型的输出产生更大的潜在危险。因此，通过研究后门攻击技术，可以事先对目标模型进行针对性地后门攻击测试，以检测目标模型的安全性和鲁棒性。

目前，在对现有音频后门攻击测试方法的研究和实践过程中，测试者大都致力于追求的有效性和触发器设计的隐匿性。具体来说，他们的流程为在训练集样本中选择一些良性的语音样本，然后采用添加噪声的方式投毒生成中毒样本，并把相应的标签设置修改为目标标签。尽管这些攻击非常有效，然而在现实的攻击场景中，他攻击者可能无法获取训练集中的良性样本；其次，由于上述方式生成的中毒样本通常被明显地错误标记，如经过人工检查，这种明显错误的标签将会被认为是可疑的，这可能会暴露出攻击。

发明内容

本发明的目的在于提供一种用于语音识别系统的后门安全性评估方法、装置及介质，旨在解决训练样本无法轻易获取以及中毒样本因明显错误标记导致的易暴露的安全隐患，进而更加有效地评估相关音频模型的安全性问题。

为解决上述技术问题，本发明是采用下述技术方案实现的：

一方面，本发明提供了一种后门安全性评估方法，其包括：

根据预先获取的语音合成模型计算得到优化损失函数；

根据所述优化损失函数优化生成宿主样本及所述宿主样本的语音风格参数，并将所述宿主样本及所述语音发生参数组合生成宿主样本集；

将触发器注入所述宿主样本集中，组合生成中毒样本集，并将所述中毒样本集与预先获取的原始训练样本集组合生成混合训练样本集；

将待评估的干净语音模型在所述混合训练样本集中进行标准化训练，生成受害者模型；

将预先获取的干净测试样本以及带有隐形触发器的测试样本分别输入到所述受害者模型，进行精度测试及后门攻击；

根据所述精度测试及后门攻击的结果对所述受害者模型进行安全性评估。

可选的，所述语音合成模型为条件变分自编码模型，表示为：

；

其中，表示为输出的音频样本，/>为优化前的语音风格参数，/>是合成音频的语义内容，/>表示为语音合成函数；

设定表示为音频样本/>的语义内容为/>，且利用上述合成的音频文件满足/>，/>表示为音频样本中的语音内容。

可选的，所述优化损失函数，表示为：

；

其中，表示为优化损失函数，/>表示为干净语音训练模型的损失函数，/>表示为绝对值函数，/>和/>分别表示为优化前的语言风格参数的均值和方差，/>表示为调控正则化项的幅度调控参数；

经所述优化损失函数优化得到的优化后的语音风格参数，表示为：

；

其中，表示为优化后的语音风格参数，/>表示为取极大值。

可选的，根据干净语音训练模型的基本任务类型构建并维护触发池，所述触发池内设有由音频片段构建生成的触发器；

根据触发器置信度计算得到触发器，所述触发器表示为：

；

其中，表示为触发器，/>表示触发器置信度取极大值，/>表示为触发器置信度；

所述触发器置信度，表示为：

；

其中，表示为将触发器/>分类到第i个转录类别的可能性，/>表示为第i个类别的置信度计算权重。

可选的，经触发器注入所述宿主样本集中组合生成中毒样本集，所述中毒样本集中的样本表示为：

；

其中，表示为中毒样本，/>表示为宿主样本，/>表示为触发器。

可选的，所述带有隐形触发器的测试样本为干净测试样本通过输入触发器而获得的相对应样本，表示为：

；

其中，表示为带有隐形触发器的测试样本，/>表示为干净测试样本，/>表示为触发器。

可选的，所述将预先获取的干净测试样本以及带有隐形触发器的测试样本分别输入到所述受害者模型，进行精度测试及后门攻击，包括：

获取干净样本测试集，将其中的干净测试样本利用所述受害者模型进行预测分类，得到分类正确次数，若一次分类结果为干净分类标签，则视为分类正确一次；

将带有隐形触发器的测试样本输入所述受害者模型进行预测分类，得到后门攻击成功次数，若一次分类结果为恶意分类，则视为后门攻击成功一次。

可选的，所述根据所述精度测试及后门攻击的结果对所述受害者模型进行安全性评估，包括：

根据所述干净测试样本的预测分类结果中分类正确的次数计算干净样本分类精度；

且根据所述带有隐形触发器的测试样本的预测分类结果中后门攻击成功的次数计算攻击成功率；

其中，若所述干净样本分类精度与相对应模型的预设分类精度相差不超过5%，且后门攻击的成功率高于95%，待评估模型的安全性能不达标；相反，待评估模型的安全性能则达标。

第二方面，本发明提供一种用于语音识别系统的后门安全性评估装置，包括：

宿主样本合成模块，被配置用于，根据语音合成模型计算得到优化损失函数，且根据所述优化损失函数优化生成宿主样本及所述宿主样本的语音风格参数，并将所述宿主样本及所述语音发生参数组合生成宿主样本集；

训练集确定模块，被配置用于，将触发器注入所述宿主样本集中，组合生成中毒样本集，并将所述中毒样本集与原始训练样本集组合生成混合训练样本集；

训练模型构建模块，被配置用于，将干净语音训练模型在所述混合训练样本集中进行标准化训练，生成受害者模型；

投毒训练模块，被配置用于，将干净测试样本以及带有隐形触发器的测试样本分别输入到所述受害者模型，进行精度测试及后门攻击；

以及，安全性评估模块，被配置用于，根据所述精度测试及后门攻击的结果对所述受害者模型进行安全性评估。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行所述用于语音识别系统的后门安全性评估方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明针对训练样本无法轻易获取的技术缺陷，采用条件变分自编码器模型优化生成宿主样本；同时通过反向梯度优化和设定目标损失函数的方式，优化得到特征无法被目标语音识别模型学习的样本，迫使被测试模型与触发器建立强链接，保证干净标签后门攻击，从而对相关音频模型的整体安全性实现了更加有效的评估，使得现有音频模型的弱点在实际使用中更易被发现，基于深度神经网络的声纹识别系统的安全性和鲁棒性也因此得到进一步的显著提升。

附图说明

图1所示为本发明后门安全性评估方法的一种实施例流程示意图；

图2所示为本发明方法中模拟攻击的流程示意图；

图3所示为本发明方法中宿主样本生成阶段示意图；

图4所示为本发明方法中触发器生成阶段示意图；

图5所示为本发明方法中安全性评估的示意图。

具体实施方式

本发明的技术构思为：利用语音合成的方式生成用于投毒的宿主语音样本，从而应对攻击者无法获取训练样本问题；为了实现干净标签，通过反向梯度优化和设定目标损失函数的方式，优化得到特征无法被目标语音识别模型学习的样本，迫使受害者模型与触发器建立强链接，从而可以检验语音识别系统的整体安全性及鲁棒性，进而实现对相关音频模型在实际应用过程中的风险管控。

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1，本实施例介绍一种后门安全性评估方法，如图1所示，其包括：

根据预先获取的语音合成模型计算得到优化损失函数；

本实施例不再致力于追求有效性以及触发器设计的隐匿性，创新式地解决了现实攻击场景中他攻击者无法获取训练集中的良性样本以及中毒样本通常被明显错误标记而导致可疑暴露的技术隐患，从而保证了后续音频模型的安全性有效评估。

实施例2，本实施例进行模拟攻击的流程如图2所示，该流程示意图仅是展示出了本实施例所述方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图2所示的顺序完成所示出或描述的步骤。参见图2，本实施例模拟攻击的方法具体包括以下步骤：

一、宿主样本生成：

该过程如图3所示，通过使用一个已训练良好的条件变分自编码器模型作为语音合成模型，优化并生成宿主样本。其中，所述条件变分自编码器模型包括文本编码器、映射、流网络、译码器及随机时长预测器。具体的，宿主样本的生成过程如下：

（1）选取一个训练好的条件变分自编码器模型作为语音合成模型，表示为：

；

（2）假定本次模拟攻击的样本集为Google Speech Command Dataset（谷歌语音命令数据集），即原始样本集，其中包括30000个训练集，记作；其次还包括3000个测试集，记作/>，且设定攻击目标为/>，即/>；

通过，我们可以合成音频语义为/>的音频样本/>，我们将其语义内容记为/>，/>表示为音频样本中的语音内容，其中，/>。

（3）计算设计优化损失函数，具体表示为：

；

其中，表示为宿主样本生成所采用的优化损失函数，/>表示为干净语音训练模型/>的损失函数，/>表示为绝对值函数，/>和/>分别表示为优化前的语言风格参数的均值和方差，/>表示为调控正则化项的幅度调控参数。

（4）经所述优化损失函数优化得到的优化后的语音风格参数，表示为：

；

其中，表示为优化后的语音风格参数，/>表示为取极大值。

（5）我们将优化后得到的语音风格参数和/>，带入/>得到宿主样本。

（6）重复步骤（2）至步骤（5），若设定音频样本的数量为，则会生成/>个宿主样本，进而构成相对应的宿主样本集/>。

二、触发器生成：

该过程如图4所示，根据已知干净语音训练模型的基本任务类型构建并维护一个触发池/>，所述触发池内包括若干音频片段作为触发器/>，即/>。

在触发池中选择最优触发器，具体选择过程如下：

（1）根据已知的干净语音训练模型的基本任务类型，选择10种生活环境噪声作为触发器，包括咳嗽声、走路声等各种语音文件，每种触发器对应选有10个文件，则最终总共合计有100个触发器，即/>构建生成触发器池/>。

（2）针对触发池内的每个触发器，相应设计出触发器置信度，具体表示为：

；

其中，表示为触发器置信度，/>表示为将触发器/>分类到第i个转录类别的可能性，为所述干净语音训练模型/>经softmax计算得到，/>表示为第i个类别的置信度计算权重。

（3）根据触发器置信度，我们计算得到置信度最大的触发器，作为最终的触发器，表示为：

；

其中，表示为触发器，/>表示触发器置信度取极大值。

三、投毒训练：

对于该投毒训练过程中所采用的训练模型样本的确定可参考图5，具体如下：

（1）将最终选择的触发器注入宿主样本集中的样本/>中，生成中毒样本，表示为：

；

其中，表示为中毒样本，/>表示为宿主样本，/>表示为触发器；

（2）循环执行步骤（1）直至完成对个宿主样本投毒后生成的/>个中毒样本的确定；

（3）基于中毒样本构建中毒样本集，并将所述中毒样本集与原始训练样本集组合生成混合训练样本集/>；

（4）将干净语音训练模型在混合训练集/>进行标准化训练，得到参数为/>的受害者模型/>。

四、系统安全性评估：

首先，将干净测试样本以及带有隐形触发器的测试样本分别输入到所述受害者模型，进行精度测试及后门攻击，具体包括：

值得说明的是，所述带有隐形触发器的测试样本为干净测试样本通过输入选择触发器而获得的相对应样本，表示为：

；

其中，表示为带有隐形触发器的测试样本，/>表示为干净测试样本，/>表示为最终选择的最优触发器。

其次，根据所述精度测试及后门攻击的结果对所述受害者模型进行最终的安全性评估，具体如下：

且根据所述带有触发器的测试样本的预测分类结果中后门攻击成功的次数计算攻击成功率；

具体在应用时，可选取Speech Command Dataset的测试集合，针对其中某个测试样本记作/>；将/>输入受害者模型/>，其输出结果为/>；将触发器/>注入中，得到：/>；将/>输入到/>，其输出结果为/>；

若，则安全评估不过关；

若上式不成立，则安全评估过关。

本实施例创新式的实现训练样本易获取及干净标签，采用特定的后门攻击方法模拟攻击，进而有效评估音频模型的安全性问题，从而能够在实际使用中发现现有语音识别系统的弱点，进一步提升基于深度神经网络的语音识别系统的安全性和鲁棒性。

实施例3，本实施例提供了一种后门安全性评估装置，其包括：

结合图1至图3，所述后门安全性评估装置可执行上述实施例1或2中所介绍的后门安全性评估方法，各功能模块的具体功能实现不予赘述。

实施例4，本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如实施例1或2中所述的后门安全性评估方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种用于语音识别系统的后门安全性评估方法，其特征在于，包括：

根据预先获取的语音合成模型计算得到优化损失函数；

2.根据权利要求1所述的用于语音识别系统的后门安全性评估方法，其特征在于，所述语音合成模型为条件变分自编码模型，表示为：

；

设定表示为音频样本/>的语义内容为/>，且利用上述/>合成的音频文件满足/>，/>表示为音频样本中的语音内容。

3.根据权利要求2所述的用于语音识别系统的后门安全性评估方法，其特征在于，所述优化损失函数，表示为：

；

其中，表示为优化损失函数，/>表示为干净语音训练模型的损失函数，表示为绝对值函数，/>和/>分别表示为优化前的语言风格参数的均值和方差，/>表示为调控正则化项的幅度调控参数；

；

其中，表示为优化后的语音风格参数，/>表示为取极大值。

4.根据权利要求1所述的用于语音识别系统的后门安全性评估方法，其特征在于，根据干净语音训练模型的基本任务类型构建并维护触发池，所述触发池内设有由音频片段构建生成的触发器；

根据触发器置信度计算得到触发器，所述触发器表示为：

；

所述触发器置信度，表示为：

；

5.根据权利要求4所述的用于语音识别系统的后门安全性评估方法，其特征在于，经触发器注入所述宿主样本集中组合生成中毒样本集，所述中毒样本集中的样本表示为：

；

6.根据权利要求1所述的用于语音识别系统的后门安全性评估方法，其特征在于，所述带有隐形触发器的测试样本为干净测试样本通过输入触发器而获得的相对应样本，表示为：

；

7.根据权利要求6所述的用于语音识别系统的后门安全性评估方法，其特征在于，所述将预先获取的干净测试样本以及带有隐形触发器的测试样本分别输入到所述受害者模型，进行精度测试及后门攻击，包括：

8.根据权利要求7所述的用于语音识别系统的后门安全性评估方法，其特征在于，所述根据所述精度测试及后门攻击的结果对所述受害者模型进行安全性评估，包括：

9.一种用于语音识别系统的后门安全性评估装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，执行如权利要求1~8中任一项所述用于语音识别系统的后门安全性评估方法的步骤。