CN116644439A

CN116644439A - 一种基于去噪扩散模型的模型安全性评估方法

Info

Publication number: CN116644439A
Application number: CN202310911643.0A
Authority: CN
Inventors: 魏志强; 高国峰; 王晓东; 张程昊
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-08-25
Anticipated expiration: 2043-07-25
Also published as: CN116644439B

Abstract

本发明属于信息安全技术领域，公开了一种基于去噪扩散模型的模型安全性评估方法，包括以下步骤：将目标模型的分类样本送入初始生成器生成初始数据；使用去噪扩散模型扩充初始数据，生成额外数据；通过残差结构融合初始数据和额外数据，得到多源查询样本；通过多源查询样本和目标模型预测结果训练替代模型和生成器模型；计算替代模型和目标模型的功能相似度，评估目标模型的安全性。针对未知架构的人工智能模型，本发明在不访问目标模型训练数据集的基础上，通过去噪扩散模型和残差结构生成高质量的多源查询样本，从而使替代模型对目标模型进行高效地拟合，提升目标模型安全性评估效率。

Description

一种基于去噪扩散模型的模型安全性评估方法

技术领域

本发明属于信息安全技术领域，特别涉及一种基于去噪扩散模型的模型安全性评估方法。

背景技术

深度学习在给人们生活带来极大的便利，同时使用深度学习模型也存在安全隐患，模型在生命周期的各个阶段都可能面临着不同程度的安全风险，导致模型无法提供正常的服务或者是泄露模型的隐私信息，例如，攻击者通过目标模型输出中隐含的一定的关于模型的信息，实施模型窃取攻击，包括窃取模型的功能、模型的结构、模型的参数，甚至最敏感的训练数据。另外攻击者可以利用窃取的模型进行对抗样本攻击、成员推理攻击和逆向推理攻击，从而破坏模型的机密性、可用性和完整性。

大多数模型安全性评估方法中，在进行攻击测试场景中，针对目标模型的攻击测试通常生成器模型和替代模型类似于生成对抗网络(GAN)的结构，例如CN202110400917一种基于生成对抗网络的模型安全性检测方法，现有的基于GAN的攻击网络在不访问目标模型训练数据集的前提下生成大量高质量的查询样本方面有所欠缺，以至影响安全性攻击测试中替代模型功能拟合的成功率和性能上限，从而无法进行高效的目标模型安全性评估。

在无法访问目标模型训练数据集的条件下通过模型功能拟合评估在线部署模型的安全性场景中，目前在基于类似GAN结构的攻击测试方法中，没有高效提高生成查询样本质量的方法，使安全性攻击测试满足在较少调用目标模型API的同时训练替代模型具有较高拟合精确度的需求。因此，如何使模型安全评估中攻击测试生成器生成高质量查询样本是亟需解决的重要问题。

发明内容

针对现有技术存在的不足，本发明提供一种基于去噪扩散模型的模型安全性评估方法，全面考虑了在模型安全性攻击测试中无法访问目标模型原有训练数据集场景下，通过模型功能拟合进行在线部署的黑盒模型（即目标模型）安全性评估，本发明针对未知架构的人工智能模型，在不访问目标模型训练数据集的基础上，通过去噪扩散模型和残差结构生成高质量的多源查询样本，从而使替代模型对目标模型进行高效地拟合，提升目标模型安全性评估效率。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于去噪扩散模型的模型安全性评估方法，针对未知架构的人工智能模型，在不访问目标模型训练数据集的基础上，构建生成对抗网络并训练，所述生成对抗网络包括生成器模型和替代模型，生成器模型的训练目标为最大化目标模型和替代模型的输出差异，替代模型的训练目标为拟合目标模型的预测结果，即最小化目标模型和替代模型的输出差异，所述目标模型为执行图片分类任务的在线部署的黑盒模型；所述生成器模型包括初始生成器、去噪扩散模型和残差结构，包括以下步骤：

步骤1、将目标模型的分类样本送入初始生成器生成初始数据；

步骤2、使用去噪扩散模型扩充初始数据，生成额外数据/>；

步骤3、通过残差结构融合步骤1得到的初始数据和步骤2得到的额外数据/>，得到多源查询样本/>；

步骤4、通过多源查询样本和目标模型预测结果/>训练替代模型和生成器模型，

步骤5、计算替代模型和目标模型的功能相似度，评估目标模型的安全性。

进一步的，步骤1具体包括以下步骤：

步骤1.1、将目标模型分类样本通过特征提取后送入分类器C，得到生成对抗网络的生成器的输入z；

步骤1.2、初始生成器通过简单神经网络生成与目标模型的输入维度匹配的输入查询作为去噪扩散模型的初始数据x。

进一步的，去噪扩散模型包括正向扩散过程和反向扩散过程，步骤2中，具体如下：将初始生成器生成的初始数据x输入到去噪扩散模型的前向扩散，前向扩散在x上逐步增加噪声来平滑地扰动数据，每一步得到的图像x_t只与上一步的结果x_t-1相关，以x为基础，因子化不同时刻的图像，表示为：

；

其中：表示已知/>条件下的后验概率分布，x_t表示前向扩散中通过增加噪声得到第t时刻的图像样本，/>分别表示前向扩散中通过增加噪声得到第1，2，...，T时刻的图像样本；

任意时刻的x_t可以由x表示：

；

其中：，/>；/>表示已知x条件下的后验概率分布；为高斯噪声参数；/>表示高斯分布，I表示单位矩阵，用于构造高斯分布中的协方差；

前向扩散通过每一步增加噪声扰动数据执行扩散过程直至第T步的图像变为纯高斯分布；利用前向扩散得到的结果反向扩散通过对纯高斯分布/>进行去噪过程生成新数据，每一步中加入的噪声数据通过u-net进行预测，同时每一步的x_t-1只与前一步的结果x_t相关，反向扩散的目标过程表示为：

；

其中表示在第t步生成的x_t的均值，/>表示在第t步生成的x_t的方差，/>表示数据的真实分布，利用贝叶斯公式得到/>，表示为：

；

其中是/>的后验均值，/>是/>的后验方差；表示已知x_t和x条件下的后验概率分布；在标准高斯分布中，此处已知方差是一个固定值，/>是在前向扩散中通过/>计算得到的；通过u-net预测含参高斯噪声来估计预测结果的欧氏范数，用于估计高斯分布中的/>，表示为：

；

其中：为高斯噪声参数，/>为高斯噪声参数/>的累乘；

通过训练预测的近似值，前向扩散提供标签，后向扩散使用标签进行拟合，通过确定方差和均值可以得到/>；根据逆马尔可夫链进行反向扩散过程，由此将初始数据x通过去噪扩散模型生成额外数据/>。

进一步的，步骤3中，将初始数据x和去噪扩散模型生成的额外数据x_o送入残差网络结构进行多源数据融合，具体来说，使用去噪扩散模型生成的额外数据x_o与初始数据x进行相融处理得到的结果叠加到初始数据x中，并使融合后的多源查询样本匹配目标模型的输入维度表示为：

；

其中和/>分别表示原始生成器模型的参数和去噪扩散模型的参数；R为去噪算子；/>表示初始生成器通过z生成初始数据x的函数；/>表示去噪扩散模型通过初始数据x生成额外数据的函数。

进一步的，步骤4中，具体是：训练生成器模型以最大化目标模型的输出和替代模型的输出/>之间的差异，其中目标模型和替代模型的输出分别表示为：

；

其中：和/>分别表示目标模型和替代模型通过多源查询样本生成预测结果的函数；/>和/>分别表示目标模型参数和替代模型参数；

同时，训练替代模型，拟合目标模型的输出，即通过使用步骤3中残差结构生成的多源查询样本访问目标模型得到目标模型的预测结果/>，并综合使用多源查询样本/>和目标模型的预测结果/>训练替代模型以最小化目标模型的输出/>和替代模型的输出之间的差异，表示为：

；

其中：表示/>和/>之间的相对熵损失。

进一步的，步骤4训练模型时，生成对抗网络更新生成器参数时，使用零阶梯度估计进行梯度更新，通过计算生成器方向导数来近似梯度；计算方向导数的均值来拟合梯度，方向导数的均值/>表示为：

；

其中：为平滑因子，/>是在d维单位球面上r点处沿内层j和外层m方向取的随机向量，/>为黑盒函数。

进一步的，步骤5具体是：设定目标模型安全性阈值，通过计算替代模型的功能拟合精确度，获取替代模型和目标模型之间的相似性，表示为：

；

其中：表示目标模型预测结果/>和替代模型的预测结果/>的协方差，/>和/>分别表示目标模型预测结果/>和替代模型的预测结果/>的标准差；最终通过比较模型之间的相似性/>与安全性阈值/>的关系计算攻击测试成功率，评估目标模型的安全性。

与现有技术相比，本发明优点在于：

（1）本发明提出了基于去噪扩散模型优化原有生成器的方法，首先将目标模型的预测结果通过特征提取和分类器处理后送入原有框架生成器生成初始数据样本。在原有生成器尾部集成去噪扩散模型，将初始数据样本送入去噪扩散模型的前向扩散，进行平滑的数据扰动，生成纯高斯分布。反向扩散通过前向过程得到的结果逐步进行去噪处理生成能更准确还原出目标模型的敏感信息的新数据，从而将初始数据进行高质量扩充。

（2）本发明通过类似残差结构融合多源数据，生成多样化的高质量查询样本，并使其输出结果符合目标模型的输入维度。在稳定网络训练的同时提升模型训练的效率，另外在降低访问目标模型的次数的同时提高模型功能拟合的精确度，提升安全性攻击测试的成功率，从而提高模型安全性评估的准确性。现有的模型安全性评估的方法，由于生成查询样本质量低，样本稀疏的问题，普遍存在大量访问目标模型的同时攻击测试成功率低的问题。

（3）本发明使用零阶梯度估计进行参数更新，通过计算方向导数估计梯度，解决黑盒模型无法进行反向传播的问题，并通过计算方向导数的均值降低生成器模型方向导数方差大的问题。现有的框架粗略地通过使用替代模型的方向传播进行梯度更新，使得梯度估计结果较为粗糙。

（4）本发明适用于大多数执行图像分类任务的模型安全性评估，具有适应性强，效率高等特点，可以客观地评估目标模型的安全性。是一种在不访问目标模型的训练数据集的前提下，通过使用模型功能拟合来进行安全性攻击测试评估目标模型安全性的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于去噪扩散模型的模型安全性评估方法的流程示意图；

图2为本发明的去噪扩散过程示意图；

图3为本发明的通过模型功能拟合进行模型安全性攻击测试方法流程图，其中图3中，表示前向传播，/>表示反向传播更新替代模型，/>表示反向传播更新生成器模型。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

结合图1、图3所示，一种基于去噪扩散模型的模型安全性评估方法，针对未知架构的人工智能模型，在不访问目标模型训练数据集的基础上，构建生成对抗网络并训练，所述生成对抗网络包括生成器模型和替代模型，生成器模型的训练目标为最大化目标模型和替代模型的输出差异，替代模型的训练目标为拟合目标模型的预测结果，即最小化目标模型和替代模型的输出差异，所述目标模型为执行图片分类任务的在线部署的黑盒模型；所述生成器模型包括初始生成器、去噪扩散模型和残差结构，包括以下步骤：

步骤1、将目标模型的分类样本送入初始生成器生成初始数据x：具体的，

步骤2、使用去噪扩散模型扩充初始数据x，生成额外数据x_o；去噪扩散模型包括正向扩散过程和反向扩散过程，具体如下：

将初始生成器生成的初始数据x输入到去噪扩散模型（本发明使用现有的去噪扩散模型框架，如图2所示）的前向扩散，前向扩散在x上逐步增加噪声来平滑地扰动数据，每一步得到的图像x_t只与上一步的结果x_t-1相关，该过程可以视为马尔可夫过程，利用链式法则和马尔可夫性质（马尔可夫性质：当前状态已经包含了历史信息中对决定下一步有用的所有信息），以x为基础，因子化不同时刻的图像，表示为：

；

其中：表示已知/>条件下的后验概率分布，x_t表示前向扩散中通过增加噪声得到第t时刻的图像样本，/>分别表示前向扩散中通过增加噪声得到第1，2，...，T时刻的图像样本。

通过独立高斯分布的可加性（高斯分布的独立随机变量和的分布仍属于高斯分布），任意时刻的x_t可以由x表示：

；

其中：，/>；/>表示已知x条件下的后验概率分布；为高斯噪声参数；/>表示高斯分布，I表示单位矩阵，用于构造高斯分布中的协方差。

；

其中：为高斯噪声参数，/>为高斯噪声参数/>的累乘；

通过训练预测的近似值，前向扩散提供标签，后向扩散使用标签进行拟合，通过确定方差和均值可以得到/>。根据逆马尔可夫链进行反向扩散过程，由此将初始数据x通过去噪扩散模型生成额外数据x_o。

步骤3、通过残差结构融合步骤1得到的初始数据x和步骤2得到的额外数据x_o，得到多源查询样本。

将初始数据x和去噪扩散模型生成的额外数据x_o送入残差网络结构进行多源数据融合，具体来说，使用去噪扩散模型生成的额外数据x_o与初始数据x进行相融处理得到的结果叠加到初始数据x中，并使融合后的多源查询样本匹配目标模型的输入维度表示为：

；

步骤4、通过多源查询样本和目标模型预测结果（各类别的预测标签及其概率）训练替代模型（替代模型使用深度较深且拟合能力较好的模型架构，例如：ResNet-20、 ResNet-34等）和生成器模型，具体是：

训练生成器模型以最大化目标模型的输出和替代模型的输出/>之间的差异，其中目标模型和替代模型的输出分别表示为：

；

其中：和/>分别表示目标模型和替代模型通过多源查询样本生成预测结果的函数；/>和/>分别表示目标模型参数和替代模型参数。

；

其中：表示/>和/>之间的相对熵损失。

通过生成器模型和替代模型形成的生成对抗网络激发了梯度更新的需求，（训练生成器模型的目标为最大化目标模型和替代模型的输出差异，即；训练替代模型的目标为拟合目标模型的预测结果（最小化目标模型和替代模型的输出差异），即。由于生成器模型和替代模型具有相反的训练目标，所以生成器和替代模型形成生成对抗网络）使生成器模型生成高质量的多源查询样本，同时替代模型对目标模型的功能进行高精度的拟合进行模型安全性攻击测试。

作为一个优选的实施方式，步骤4训练模型时，使用零阶梯度估计进行梯度更新，通过计算生成器方向导数来近似梯度；计算方向导数的均值来拟合梯度，方向导数的均值/>表示为：

；

其中：为平滑因子，/>是在d维单位球面上r点处沿内层j和外层m方向取的随机向量，/>为黑盒函数。由此通过方向导数来进行梯度估计，进一步完成网络的梯度下降和网络权重更新。

步骤5、计算替代模型和目标模型的功能相似度，评估目标模型的安全性；

设定目标模型安全性阈值，通过计算替代模型的功能拟合精确度，获取替代模型和目标模型之间的相似性，表示为：

；

其中：表示目标模型预测结果/>和替代模型的预测结果/>的协方差，/>和/>分别表示目标模型预测结果/>和替代模型的预测结果/>的标准差；最终通过比较模型之间的相似性/>与安全性阈值/>的关系计算攻击测试成功率，进而评估目标模型的安全性。

综上所述，在线部署的黑盒模型安全性评估方法，需要设置攻击测试评估模型安全性，针对模型安全性攻击测试问题，现有的方法无法同时满足以下几个需求：1.具有足够的普适性，适用于无法访问目标模型训练数据集的场景。2.生成器模型生成高质量样本，从而较少地访问目标模型API。3.较为稳定GAN网络的训练，同时兼具较高的训练效率。4.替代模型获取较高的拟合精确度。

在通过模型功能拟合进行安全性测试评估目标模型安全性的方法中，攻击者仅可通过输入查询样本获取目标模型的推理结果和标签，无法访问目标模型的参数和任何训练数据。为了满足上述四点需求，本发明从两个方面入手，提出了一种基于去噪扩散模型的模型安全性评估方法。首先，为了生成高质量的多源查询样本，本发明使用去噪扩散模型优化生成器模型，额外生成更加贴合真实数据的新数据，对初始样本进行了扩充和多样化处理。另外，使用类似残差网络的结构融合原有生成器生成的样本和去噪扩散模型生成的新样本，生成匹配目标模型输入维度的多源查询样本，通过高质量的多源查询样本减少访问目标模型的次数，提高替代模型的拟合精确度，进而能够对黑盒模型的安全性进行更全面的评估。

本发明适用于大多数执行图像分类任务的模型安全性评估，具有适应性强，效率高等特点，可以客观地评估目标模型的安全性。是一种在不访问目标模型的训练数据集的前提下，通过使用模型功能拟合来进行安全性攻击测试评估目标模型安全性的方法。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种基于去噪扩散模型的模型安全性评估方法，其特征在于，针对未知架构的人工智能模型，在不访问目标模型训练数据集的基础上，构建生成对抗网络并训练，所述生成对抗网络包括生成器模型和替代模型，生成器模型的训练目标为最大化目标模型和替代模型的输出差异，替代模型的训练目标为拟合目标模型的预测结果，即最小化目标模型和替代模型的输出差异，所述目标模型为执行图片分类任务的在线部署的黑盒模型；所述生成器模型包括初始生成器、去噪扩散模型和残差结构，包括以下步骤：

步骤2、使用去噪扩散模型扩充初始数据，生成额外数据/>；

2.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法，其特征在于，步骤1具体包括以下步骤：

3.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法，其特征在于，去噪扩散模型包括正向扩散过程和反向扩散过程，步骤2中，具体如下：将初始生成器生成的初始数据x输入到去噪扩散模型的前向扩散，前向扩散在x上逐步增加噪声来平滑地扰动数据，每一步得到的图像x_t只与上一步的结果x_t-1相关，以x为基础，因子化不同时刻的图像，表示为：

；

任意时刻的x_t可以由x表示：

；

其中：，/>；/>表示已知x条件下的后验概率分布；/>为高斯噪声参数；/>表示高斯分布，I表示单位矩阵，用于构造高斯分布中的协方差；

；

其中表示在第t步生成的x_t的均值，/>表示在第t步生成的x_t的方差，表示数据的真实分布，利用贝叶斯公式得到/>，表示为：

；

其中：为高斯噪声参数，/>为高斯噪声参数/>的累乘；

4.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法，其特征在于，步骤3中，将初始数据x和去噪扩散模型生成的额外数据x_o送入残差网络结构进行多源数据融合，具体来说，使用去噪扩散模型生成的额外数据x_o与初始数据x进行相融处理得到的结果叠加到初始数据x中，并使融合后的多源查询样本匹配目标模型的输入维度表示为：

；

5.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法，其特征在于，步骤4中，具体是：训练生成器模型以最大化目标模型的输出和替代模型的输出/>之间的差异，其中目标模型和替代模型的输出分别表示为：

；

同时，训练替代模型，拟合目标模型的输出，即通过使用步骤3中残差结构生成的多源查询样本访问目标模型得到目标模型的预测结果/>，并综合使用多源查询样本/>和目标模型的预测结果/>训练替代模型以最小化目标模型的输出/>和替代模型的输出/>之间的差异，表示为：

；

其中：表示/>和/>之间的相对熵损失。

6.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法，其特征在于，步骤4训练模型时，生成对抗网络更新生成器参数时，使用零阶梯度估计进行梯度更新，通过计算生成器方向导数来近似梯度；计算方向导数的均值来拟合梯度，方向导数的均值/>表示为：

；

7.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法，其特征在于，步骤5具体是：设定目标模型安全性阈值，通过计算替代模型的功能拟合精确度，获取替代模型和目标模型之间的相似性，表示为：

；

其中：表示目标模型预测结果/>和替代模型的预测结果/>的协方差，和/>分别表示目标模型预测结果/>和替代模型的预测结果/>的标准差；最终通过比较模型之间的相似性/>与安全性阈值/>的关系计算攻击测试成功率，评估目标模型的安全性。