CN116488942A

CN116488942A - 一种面向智能声纹识别系统的后门安全性评估方法

Info

Publication number: CN116488942A
Application number: CN202310726024.4A
Authority: CN
Inventors: 唐瑀; 徐小龙; 孙力娟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-07-25
Anticipated expiration: 2043-06-19
Also published as: CN116488942B

Abstract

本发明公开了声纹识别领域的一种面向智能声纹识别系统的后门安全性评估方法，包括：根据原始音频集，训练生成隐形触发器模型和注入后门的声纹识别模型；将良性测试样本以及带有隐形触发器的测试样本分别输入注入后门的声纹识别模型，进行精度测试和后门攻击；其中，带有隐形触发器的测试样本为良性测试样本输入隐形触发器模型获得的样本；根据精度测试和后门攻击的结果对智能声纹识别系统的音频模型进行安全性评估。本发明采用特定的后门攻击方法模拟攻击，进而有效评估音频模型的安全性问题，从而能够在实际使用中发现现有智能声纹识别系统的音频模型的弱点，进一步提升基于深度神经网络的声纹识别系统的安全性和鲁棒性。

Description

一种面向智能声纹识别系统的后门安全性评估方法

技术领域

本发明涉及一种面向智能声纹识别系统的后门安全性评估方法，属于深度学习、声纹识别领域和网络空间安全应用的技术领域。

背景技术

说话者的声音包含了说话者个人特有的发音特征，由于不同说话者的声道形状、喉部大小以及其他的一些发声器官存在一定程度的个体化差异，所以没有两个人的声音听起来是完全相同的。由此，说话者识别技术（或称为声纹识别技术）（Automatic SpeakerRecognition）被提出，它利用计算机自动识别说话者的身份，在现实场景中（例如 GoogleAssistant、Tesla Voice Command、Apple Siri 在内许多语音助手工具）获得了广泛应用并达到了较好的表现效果。

最近，鉴于深度神经网络（Deep neural networks，DNN）强大的特征提取能力，人们提出了许多基于深度学习的声纹识别方法，将声纹识别技术水平提高到了一个新的层次。由于深度学习需要基于庞大的训练数据、强大的算力和硬件开销，用户往往会选择将模型训练任务外包给机器学习服务器商（Machine-learningas-a-service, MLaaSProvider），或者直接采用下载第三方的数据集来进行标准模型训练，这也导致了服务供应链中的安全缺陷，容易遭受不同类型的攻击，如：对抗攻击、数据投毒攻击，以及后门攻击等。

其中，后门攻击作为新兴的攻击方式，引起了人们高度关注。在训练阶段，攻击者通过向一小部分训练数据注入后门触发器，而产生包含一定恶意数据的训练集，并经过训练得到恶意模型；在预测阶段，该恶意模型对良性样本的预测分类表现正常，而对带有触发器的恶意样本时，隐藏后门被激活时（触发器可以随意注入此前未出现的任意样本），模型的分类结果将会按照攻击者的目标进行恶意预测，从而达到攻击目的。由于触发器选择样本的鲁棒性、良性样本的正常表现性以及后门注入的隐蔽性，使得后门攻击相较对抗攻击、投毒攻击等攻击方式，对基于深度学习的任务产生能够产生更大的威胁。然而，后门攻击的最初提出和集中研究在图像分类领域，且获得了较好的攻击成功率（Attack SuccessRate，ASR）和不可见性，然而音频领域由于音频的数据结构和特性使得针对音频的后门攻击与图像领域有很大的区别，因此在音频领域的研究则十分匮乏。

现有的音频领域的后门攻击，主要包含了针对说话者认证、语音识别等任务的少量的研究，对于声纹识别的后门攻击几乎没有研究。在这些音频领域的后门攻击中，研究人员致力于实现三个目标：（1）高攻击成功率：要让带有触发器的恶意样本针对受害者模型分类为目标标签的概率即攻击成功率要达到较高水平；（2）恶意模型与良性模型不可区分：受害者模型在正常的良性样本上的分类成功率 (Clean Data Accuracy, CDA) 要与正常模型的分类成功率相近，否则用户在得到恶意模型进行测试室则会发现模型存在问题；（3）恶意样本触发器植入的不可感知：后门攻击的隐匿性除了需要满足 CDA 的要求外，后门攻击的研究者还致力于实现触发器的不可见植入，即良性样本和恶性样本的不可区分，否则在攻击者发动后门攻击时，用户则很容易发现测试样本的异常，导致攻击失败。

通过研究后门攻击技术，可以检测模型的安全性和鲁棒性，管控模型投入实际应用的风险。后门攻击用来针对图像领域的安全性和鲁棒性研究内容很多，然而音频领域由于音频的数据结构和特性使得针对音频的后门攻击与图像领域有很大的区别，在音频领域的研究则十分匮乏。由于目前基于音频的后门攻击方法隐匿性较差，以致于针对基于音频的后门攻击的音频模型检测效果较差，难以准确的发现模型的弱点，导致音频领域深度学习模型的安全性和鲁棒性问题存在实际应用中的风险。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种面向智能声纹识别系统的后门安全性评估方法，采用特定的后门攻击方法模拟攻击，进而有效评估音频模型的安全性问题，从而能够在实际使用中发现现有智能声纹识别系统的音频模型的弱点，进一步提升基于深度神经网络的声纹识别系统的安全性和鲁棒性。

为达到上述目的，本发明是采用下述技术方案实现的：

本发明提供了一种面向智能声纹识别系统的后门安全性评估方法，所述方法包括：

根据原始音频集，训练生成隐形触发器模型和注入后门的声纹识别模型/>；

将良性测试样本以及带有隐形触发器的测试样本分别输入注入后门的声纹识别模型，进行精度测试和后门攻击；其中，带有隐形触发器的测试样本为良性测试样本输入隐形触发器模型/>获得的样本；

根据精度测试和后门攻击的结果对智能声纹识别系统的音频模型进行安全性评估。

进一步的，根据原始音频集，训练生成隐形触发器模型和注入后门的声纹识别模型/>；包括：

按照预设的比例将原始音频集D划分为良性音频子集D _s和部分干净样本集D _c；

根据良性音频子集D _s，训练生成隐形触发器模型和阶段性声纹识别模型/>；

将良性音频子集D _s输入隐形触发器模型，输出与良性音频子集D _s不可区分的恶意音频集D _p；

将所述的恶意音频集D _p与部分干净样本集D _c输入阶段性声纹识别模型，训练得到注入后门的声纹识别模型/>。

进一步的，所述根据良性音频子集D _s，训练生成隐形触发器模型和阶段性声纹识别模型/>，包括：

将良性音频子集D _s中的样本输入初始隐形触发器模型/>，对初始隐形触发器模型/>的输出值进行改进离散余弦逆变换，获得与样本/>不可区分的重构音频样本；

根据重构音频样本对初始隐形触发器模型/>和初始声纹识别模型/>训练，获得隐形触发器模型参数/>和阶段性声纹识别模型参数/>；

对参数和/>进行迭代优化至计算结果收敛，得到隐形触发器模型/>和阶段性声纹识别模型/>。

进一步的，所述样本为将良性音频子集D _s中的良性音频样本/>利用改进离散余弦变换（Modified Discrete Cosine Transform, MDCT）压缩编码而得。

进一步的，初始隐形触发器模型为门控卷积自编码器，包括编码器和译码器；

所述将良性音频子集D _s中的样本输入初始隐形触发器模型/>，获得与样本不可区分的重构音频样本/>，包括：

编码器接收，输出结果为/>；其中，/>为编码器的编码函数；

将H与进行联合，表示为：/>；

将输入译码器中，输出结果/>；其中，/>为译码器的译码函数；

对进行改进离散余弦逆变换/>，计算输出重构音频样本。

进一步的，获得隐形触发器模型参数和阶段性声纹识别模型参数/>的公式为：

；

其中，是提升恶意目标成功率的有效性目标函数，表示为：

；

是使重构音频样本/>和良性音频样本/>听觉上难以分别的隐匿性损失函数，表示为：

；

其中，是恶意音频集中的样本数，/>是控制隐匿性的超参数；argmin是取极小值，/>是求/>的极小值，/>是控制目标模型在良性样本上表现的超参数；/>表示广义的目标函数，/>为第i个音频样本中的样本数据，/>为第i个音频样本中的样本标签；/>为恶意样本标签；k为时刻，K是音频样本时间总长，/>计算两个音频样本的梅尔频谱倒数之间的余弦相似度，/>是计算k时刻的音频梅尔倒谱系数值。

进一步的，所述将良性音频子集D _s输入隐形触发器模型，输出与良性音频子集D _s不可区分的恶意音频集D _p，包括：

将良性音频子集D _s中所有良性音频样本，输入隐形触发器模型/>，输出带有隐形后门触发器的恶意样本/>，输出的所有恶意样本/>组成的集合为恶意音频集D _p。

进一步的，将所述的恶意音频集D _p与部分干净样本集D _c输入阶段性声纹识别模型，训练得到注入后门的声纹识别模型/>，包括：

将所述的恶意音频集D _p与部分干净样本集D _c输入阶段性声纹识别模型，得到优化的注入后门的声纹识别模型参数/>，

对注入后门的声纹识别模型参数迭代训练得到注入后门的声纹识别模型/>；

所述注入后门的声纹识别模型参数，表示为：

；

其中，为求/>的极小值；/>和/>分别是部分干净样本集和恶意音频集的样本数；λ是调节超参数；

是提升注入后门的声纹识别模型对良性样本的分类成功率的干净样本分类损失函数，表示为：

；

是提升注入后门的声纹识别模型对恶意样本的分类成功率的恶意样本分类损失函数，表示为：

；

其中，为阶段性声纹识别模型，/>表示广义的目标函数，/>为部分干净样本集D _c中第j个样本的样本数据，/>为部分干净样本集D _c中第j个样本的样本标签，/>为良性音频子集D _s中第s个样本的样本数据，/>为恶意分类标签。

进一步的，将良性测试样本以及带有隐形触发器的测试样本分别输入注入后门的声纹识别模型，进行精度测试和后门攻击，包括：

获取良性样本测试集，将其中的良性测试样本/>利用注入后门的声纹识别模型/>进行预测分类，得到分类正确次数；其中，若一次分类结果为良性分类标签，则视为分类正确一次；

将带有隐形触发器的测试样本输入注入后门的声纹识别模型/>进行预测分类，得到后门攻击成功次数；其中，若一次分类结果为恶意分类标签，则视为后门攻击成功一次。

进一步的，所述根据攻击结果对智能声纹识别系统的音频模型进行安全性评估，包括：

根据良性测试样本的预测分类结果中分类正确的次数计算干净样本分类精度；

根据带有隐形触发器的测试样本的预测分类结果中后门攻击成功的次数计算攻击成功率；

干净样本分类精度和攻击成功率越高代表后门攻击有效性越高，智能声纹识别系统的音频模型安全性越低；

干净样本分类精度和攻击成功率越低代表后门攻击有效性越低，智能声纹识别系统的音频模型安全性越高。

与现有技术相比，本发明所达到的有益效果：

本发明提出的后门安全性评估方法，采用特定的后门攻击方法模拟攻击，进而有效评估音频模型的安全性问题，从而能够在实际使用中发现现有智能声纹识别系统的音频模型的弱点，进一步提升基于深度神经网络的声纹识别系统的安全性和鲁棒性。

附图说明

图1是本发明实施例提供的一种面向智能声纹识别系统的后门安全性评估方法的流程示意图；

图2 是实施例所述的模拟攻击的流程示意图；

图3是实施例所述的触发器生成阶段示意图；

图4是实施例所述的深度注入阶段示意图；

图5是实施例所述的推理攻击阶段示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本发明提供一种面向智能声纹识别系统的后门安全性评估方法，采用特定的后门攻击方法模拟攻击，进而有效评估音频模型的安全性问题，如图1所示，主要包括：

在一些实际应用的实施例中，包括模拟攻击和安全性评估两步。

一、模拟攻击

既有的基于音频的后门攻击方法中，虽然实现了较好的良性样本分类准确率和攻击成功率，但在后门的隐匿性方面还存在缺陷：他们往往通过“环境噪声”或者“音频混合”的方式达到后门不可感知的目的，而并没有完全做到真正意义上的人类听觉判断上和指标上“不可感知”，这些上下文无关的触发器，很容易被人类听觉系统或者判别指标发现捕获，所以其隐匿性效果并不理想；还有利用超声作为触发器的后门攻击，也并不是一个可靠的隐形攻击方式，使用模型分类之前的数据预处理环节，仅使用两个一阶低通滤波器就可以成功地滤除注入的触发，从而使得无法成功产生触发器执行攻击任务。

本发明基于特定样本而生成的动态触发器，而传统的非静态样本，提出了面向声纹识别系统的一种新的后门攻击算法，可以检测声纹识别系统的安全性和鲁棒性问题，管控音频模型相关的实际应用中的风险问题。

本实施例进行模拟攻击的流程如图2所示，本流程图仅仅示出了本实施例所述方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图2所示的顺序完成所示出或描述的步骤。参见图2，本实施例模拟攻击的方法具体包括以下步骤：

S1：音频样本预处理和生成相关数据集

（1）将一个未预处理的训练数据集的所有音频样本查看是否满足不足4s（提前设定统一值），如不足则舍弃；

（2）音频样本超过4s，则截断为4s，并做8000下采样；

（3）对音频样本统一进行去噪处理；

（4）通过步骤（1）至（3）得到N个样本的原始音频集D，其中，N表示原始音频集D中包含了N个良性音频样本，在其中选择一定比例（样本数量为/>）的良性音频样本/>，组成良性音频子集D _s，D中被选择组成D _s之外的音频样本组成部分干净样本集D _c，即/>；

（5）将通过如下改进离散余弦变换（Modified Discrete Cosine Transform,MDCT）公式将训练子集的音频样本压缩编码：

；

得到的结果记作。

重复步骤（1）至（5），完成所有数据集的处理。

S2：隐形触发器模型生成

该过程如图3所示，采用初始隐形触发器模型，/>为初始参数，通过下列变换，逐步并迭代优化参数/>，生成最终触发器模型参数/>，得到隐形触发器模型/>。

本实施例中，采用的初始隐形触发器模型由一个编码器（encoder）和一个译码器（decoder）组成，结构是频域上的门控卷积自编码器 (Gated ConvolutionalAutoencoder，GCA)；编码器和译码器中的每个门控卷积层包含了 64 个 3*3 卷积核。

（1）编码器接收，输出结果为/>；其中，/>为编码器的编码函数；

（2）将H与进行联合，表示为：/>；

（3）将输入译码器中，输出结果/>；其中，/>为译码器的译码函数；

（4）定义MDCT的逆向操作ivers-MDCT为改进离散余弦逆变换，对/>进行改进离散余弦逆变换/>，计算输出重构音频样本/>。

（5）定义隐匿性损失函数和有效性目标函数/>：

是提升恶意目标成功率的有效性目标函数，表示为：

；

其中，x为良性音频样本，为恶意样本标签，/>表示广义的目标函数，/>为初始声纹识别模型；

；

其中，k为时刻，K是音频样本时间总长，计算两个音频样本的梅尔频谱倒数之间的余弦相似度，/>是计算k时刻的音频梅尔倒谱系数值；

（6）对初始隐形触发器模型和初始声纹识别模型/>训练，获得隐形触发器模型参数/>和阶段性声纹识别模型参数/>；

；

其中，argmin是取极小值，是恶意音频集中的样本数，/>是控制隐匿性的超参数；/>是求/>的极小值，/>是控制目标模型在良性样本上表现的超参数；/>为第i个音频样本中的样本数据，/>为第i个音频样本中的样本标签。

重复步骤（6），直到参数和/>计算结果收敛，从而得到隐形触发器模型/>和阶段性声纹识别模型/>。

S3：后门深度注入

该过程如图4所示，将良性音频子集D _s输入隐形触发器模型，输出与良性音频子集D _s不可区分的恶意音频集D _p，联合干净样本集D _c ，再输入阶段性声纹识别模型/>进行训练。具体包括以下步骤：

（1）将良性音频子集D _s中所有样本，输入隐形触发器模型/>，输出的带有隐形后门触发器的恶意样本/>，组成的集合即为恶意音频集D _p，其中/>。

（2）定义干净样本分类损失函数和恶意样本分类损失函数：

；

其中，是提升注入后门的声纹识别模型对良性样本的分类成功率的干净样本分类损失函数，/>是提升注入后门的声纹识别模型对恶意样本的分类成功率的恶意样本分类损失函数；/>为阶段性声纹识别模型，/>表示广义的目标函数，/>为部分干净样本集D _c中第j个样本的样本数据，/>为部分干净样本集D _c中第j个样本的样本标签，/>为良性音频子集D _s中第s个样本的样本数据，/>为恶意分类标签。

（3）通过干净样本分类损失函数和恶意样本分类损失函数训练优化调整注入后门的声纹识别模型参数，表示为：

；

重复步骤（3），直至注入后门的声纹识别模型参数计算结果收敛，获得最终的注入后门的声纹识别模型/>。

S4：推理攻击

该过程如图5所示，选择测试样本集中的良性测试样本/>，输入注入后门的声纹识别模型/>进行预测分类，分类结果为真实的良性标签；如果输入带有隐形触发器的测试样本/>，输出结果为恶意分类标签/>；具体包括以下步骤：

（1）将所有测试样本用S1所述方法进行预处理；

（2）获取良性样本测试集，将其中的良性测试样本/>利用注入后门的声纹识别模型/>进行预测分类，得到分类正确次数；其中，若一次分类结果为良性分类标签，则视为分类正确一次；

（3）获取良性样本测试集，将其中的良性测试样本/>输入隐形触发器模型，得到带有隐形触发器的测试样本/>；将带有隐形触发器的测试样本/>输入注入后门的声纹识别模型/>进行预测分类，得到后门攻击成功次数；其中，若一次分类结果为恶意分类标签，则视为后门攻击成功一次。

本发明模拟后门攻击的算法采用优化后的深度学习音频隐写术，将后门通过隐匿的方式注入良性音频样本，生成具有与良性样本差异很小并带有后门的恶意样本，并具有有效的攻击效果，同时在人类听觉和判别指标中均具有很高的不可区分性；在生成触发器的过程中，不需要额外初始化随机噪声作为触发器生成输入信息，而是通过联合优化模型参数，将触发器深度注入声音样本，进一步强化了攻击过程的隐匿性。

二、安全性评估

根据第一步的模拟攻击结果对智能声纹识别系统的音频模型进行安全性评估，包括：

本实施例提供的面向智能声纹识别系统的后门安全性评估方法可应用于终端，可以由面向智能声纹识别系统的后门安全性评估装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在终端中，例如：任一具备通信功能的智能手机，平板电脑或计算机设备。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向智能声纹识别系统的后门安全性评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，根据原始音频集，训练生成隐形触发器模型和注入后门的声纹识别模型/>；包括：

3.根据权利要求2所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，根据良性音频子集D _s，训练生成隐形触发器模型和阶段性声纹识别模型/>，包括：

将良性音频子集D _s中的样本输入初始隐形触发器模型/>，对初始隐形触发器模型/>的输出值进行改进离散余弦逆变换，获得与样本/>不可区分的重构音频样本/>；

4.根据权利要求3所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，所述样本为将良性音频子集D _s中的良性音频样本/>利用改进离散余弦变换压缩编码而得。

5.根据权利要求3所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，初始隐形触发器模型为门控卷积自编码器，包括编码器和译码器；

所述将良性音频子集D _s中的样本输入初始隐形触发器模型/>，获得与样本/>不可区分的重构音频样本/>，包括：

编码器接收，输出结果为/>；其中，/>为编码器的编码函数；

将H与进行联合，表示为：；

对进行改进离散余弦逆变换/>，计算输出重构音频样本/>。

6.根据权利要求3所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，获得隐形触发器模型参数和阶段性声纹识别模型参数/>的公式为：

；

其中，是提升恶意目标成功率的有效性目标函数，表示为：

；

其中，是恶意音频集中的样本数，/>是控制隐匿性的超参数；argmin是取极小值，是求/>的极小值，/>是控制目标模型在良性样本上表现的超参数；/>表示广义的目标函数，/>为第i个音频样本中的样本数据，/>为第i个音频样本中的样本标签；/>为恶意样本标签；k为时刻，K是音频样本时间总长，/>计算两个音频样本的梅尔频谱倒数之间的余弦相似度，/>是计算k时刻的音频梅尔倒谱系数值。

7.根据权利要求2所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，所述将良性音频子集D _s输入隐形触发器模型，输出与良性音频子集D _s不可区分的恶意音频集D _p，包括：

8.根据权利要求2所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，将所述的恶意音频集D _p与部分干净样本集D _c输入阶段性声纹识别模型，训练得到注入后门的声纹识别模型/>，包括：

所述注入后门的声纹识别模型参数，表示为：

；

9.根据权利要求1所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，将良性测试样本以及带有隐形触发器的测试样本分别输入注入后门的声纹识别模型，进行精度测试和后门攻击，包括：

获取良性样本测试集，将其中的良性测试样本/>利用注入后门的声纹识别模型进行预测分类，得到分类正确次数；其中，若一次分类结果为良性分类标签，则视为分类正确一次；

10.根据权利要求9所述的面向智能声纹识别系统的后门安全性评估方法，其特征在于，所述根据攻击结果对智能声纹识别系统的音频模型进行安全性评估，包括：