CN115600160A

CN115600160A - 基于积分梯度可解释算法的网络模型窃取行为的检测方法

Info

Publication number: CN115600160A
Application number: CN202211288616.4A
Authority: CN
Inventors: 宋杰; 贾爱玲; 宋明黎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-13
Anticipated expiration: 2042-10-20
Also published as: CN115600160B

Abstract

基于积分梯度可解释算法的网络模型窃取行为的检测方法，包括：1)随机选取不同领域的图像组成探测数据集，并输入到待验证模型中；2)通过可解释性方法积分梯度算法对模型进行归因分析，计算不同模型下输入图片像素对最终输出影响的贡献度大小，对探测数据集中的图片生成相应的归因图；3)将模型对探测数据集生成的归因图作为度量空间，将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量，计算不同模型在同一位置处的归因向量之间的距离大小；4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均，即为模型之间的距离；5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离并进行距离比较。

Description

基于积分梯度可解释算法的网络模型窃取行为的检测方法

技术领域

本发明属于人工智能中的迁移学习领域，针对深度神经网络模型窃取难以验证的问题，提出了一种基于积分梯度可解释算法的归因图相似性方法来进行模型窃取的验证和检测。

背景技术

深度神经网络模型在收集数据集和训练模型等方面成本较高，获得一个效果良好的模型往往需要大量的资源。而模型窃取是指攻击者未经许可，擅自复制机密模型的功能，通过观察模型在一定输入上的输出，学习模型的知识，侵犯了原始模型的知识产权。

窃取模型通过将数据输入到原始模型上，得到原始模型的输出，即“软标签”。软标签中包含着原始模型中学习到的知识和有效信息，窃取模型通过利用这些信息来学习模型并提高窃取模型的性能。

模型窃取方法窃取了其他模型的知识，但仅仅通过窃取后的模型无法辨别出该模型是否侵犯了其他模型的知识产权。如何判断某个模型是否窃取了其他模型的知识是一个极具挑战性又具有很高的实用价值问题。

发明内容

针对深度神经网络模型窃取难以验证的问题，本发明提出了一种基于积分梯度可解释算法的网络模型窃取行为的检测方法。为了对模型窃取进行度量，收集探测数据集输入到模型中，通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离。

为实现上述目的，本发明所述的基于积分梯度可解释算法的网络模型窃取行为的检测方法，包括如下步骤：

1)随机选取不同领域的图像组成探测数据集，并将探测数据集输入到待验证模型中；

2)通过可解释性方法积分梯度算法对模型进行归因分析，计算不同模型下输入图片像素对最终输出影响的贡献度大小，对探测数据集中的图片生成相应的归因图；

3)将模型对探测数据集生成的归因图作为度量空间，将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量，计算不同模型在同一位置处的归因向量之间的距离大小；

4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均，即为模型之间的距离；

5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离并进行距离比较。

进一步，步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像X＝{X₁,X₂,…,X_N}，图像可从单个领域或多个领域收集。

进一步，步骤2)所述的积分梯度算法是一种可解释性方法，它计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。

进一步，步骤2)所述的积分梯度算法对输入图像生成对应的归因图，即对该模型的某一个输出y，对输入的每一个像素

计算一个重要性值

其中，m,n,c表示该像素点在输入图片中的位置，W,H,C分别表示输入图像的宽度、高度和通道数。

进一步，步骤2)所述的归因图是利用积分梯度算法对探测数据中的每个图像在相应的模型上生成的归因图，即积分梯度算法对模型归因的可视化。将图片X_j输入到模型M_i中生成归因图

对于模型M_i，最终生成N张归因图

进一步，步骤3)所述的度量空间为探测数据集在各个模型上生成的归因图所组成的空间。对于输入图片X_j的归因图

由输入图片对应的归因值组成，模型M_i生成N张归因图

进一步，步骤3)所述的距离是指，模型M_i生成N张归因图

对于探测数据集X＝{X₁,X₂,…,X_N}中每个点的位置(m,n,c)，其中m∈W,n∈H,c∈W，模型M_i可以得到各个归因图Aⁱ对应位置的归因值aⁱ。模型M_i在位置(m,n,c)处的N个归因值组合构成一个N维向量

记为该模型在该输入位置处的归因向量。计算相应输入位置归因向量之间的距离，通过下式进行计算：

进一步，步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均，最终模型之间的距离通过下式进行计算：

其中，M_i,M_j表示两个需要比较的模型，W,H,C分别表示输入图像的宽度、高度和通道数。

进一步，步骤5)所述的原始模型是指被窃取模型；窃取模型是指通过观察原始模型在选定输入上的输出，有效地学习原始模型的近似功能，达到窃取原始模型知识效果的模型；非窃取模型是指与窃取模型相同架构，但未对原始模型进行知识窃取的模型。

进一步，步骤5)所述距离的比较是指将原始模型与窃取模型、原始模型与非窃取模型之间的距离进行比较，若原始模型与窃取模型之间的距离d_steal小于原始模型与非窃取模型之间的距离d_unrelated，即d_steal<d_unrelated，则验证了该窃取模型对原始模型进行了知识窃取。

本发明的有益效果如下：

本发明利用积分梯度可解释算法对模型进行解释生成相应的归因图，并计算归因图之间的相似性距离来检测模型窃取行为。

本发明能够通过简单高效的方法来验证模型窃取这一极具挑战性和实用价值的问题。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进行清晰、完整的解释和描述，应用本发明提供了一种基于积分梯度可解释算法的检测网站是否窃取他人模型的模型窃取验证方法。

深度神经网络模型在收集数据集和训练模型等方面成本较高。而一些网站的攻击者未经允许，擅自复制其他网站发布的机密模型的功能，以极小的代价窃取了其他网站花费大量时间、金钱、人力、算力训练得到的模型，学习模型的知识，侵犯了原始模型的知识产权，进行模型窃取。在这种应用场景下，我们的方法可以通过积分梯度可解释算法的归因映射嵌入对网站攻击者窃取得到的模型和原始网站发布的模型进行对比计算，验证和检测网站的攻击者是否窃取了该网站的模型，是否侵犯了其知识产权。

针对模型窃取难以验证的问题，本发明提出了一种基于积分梯度可解释算法的网络模型窃取行为的检测方法。对网站攻击者窃取生成的模型和原始网站发布的模型进行比较，收集探测数据集输入到模型中，通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离，具体包括如下步骤：

5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离。

6)对网站攻击者窃取生成的模型和被攻击网站提供的原始模型之间的距离进行对比。网站攻击者窃取生成的模型和被攻击者的原始模型之间的距离小于正常非窃取模型之间的距离，则说明攻击者对该网站的模型进行了窃取，进而验证了网站攻击者的窃取行为。

步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像X＝{X₁,X₂,…,X_N}，图像可从单个领域或多个领域收集。

步骤2)所述的积分梯度算法是一种可解释性方法，它计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。

步骤2)所述的积分梯度算法对输入图像生成对应的归因图，即对该模型的某一个输出y，对输入的每一个像素

计算一个重要性值

步骤2)所述的归因图是利用积分梯度算法对探测数据中的每个图像在相应的模型上生成的归因图，即积分梯度算法对模型归因的可视化。将图片X_j输入到模型M_i中生成归因图

对于模型M_i，最终生成N张归因图

步骤3)所述的度量空间为探测数据集在各个模型上生成的归因图所组成的空间。对于输入图片X_j的归因图

由输入图片对应的归因值组成，模型M_i生成N张归因图

步骤3)所述的距离是指，模型M_i生成N张归因图

对于探测数据集X＝{X₁,X₂,…,X_N}中每个点的位置(m,n,c)，其中m∈W,n∈H,c∈X，模型M_i可以得到各个归因图Aⁱ对应位置的归因值aⁱ。模型M_i在位置(m,n,c)处的N个归因值组合构成一个N维向量

步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均，最终模型之间的距离通过下式进行计算：

其中，M_i,M_j表示两个需要比较的模型,W,H,C分别表示输入图像的宽度、高度和通道数。

步骤5)所述的原始模型是指网站发布的被窃取模型；窃取模型是指通过网站攻击者通过观察原始模型在选定输入上的输出，有效地学习原始模型的近似功能，达到窃取原始模型知识效果的模型；非窃取模型是指与窃取模型相同架构，但未对原始模型进行知识窃取的模型。

步骤6)比较网站攻击者窃取生成的模型和被攻击网站提供的原始模型之间的距离，若原始模型与窃取模型之间的距离d_steal小于原始模型与非窃取模型之间的距离d_unrelated，即d_steal<d_unrelated，则验证了该窃取模型对原始模型进行了知识窃取。

具体地，本发明提出了一种基于积分梯度可解释算法的网络模型窃取检测方法，对网站攻击者窃取生成的模型和原始网站发布的模型进行比较。为了对模型窃取进行度量，收集探测数据集输入到模型中，通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离。包括如下步骤：

步骤1，随机收集种类丰富的图像组成探测数据集。其中图像可以来自单个领域，也可以来自多个领域。探测数据集的大小为N＝128张。

步骤2，将128张探测数据集中的图像输入到模型中，通过可解释性方法积分梯度算法对模型解释，生成128张归因图。由于每个输入维度都有一个归因值与其对应，因而归因图尺寸和输入图片尺寸是相同的。

步骤3，将每个模型求得的归因图组合构成一个度量空间。对于每个模型来说，128张探测数据集图片的同一位置处的128个归因值组合构成一个位置归因向量；对于图片中的不同位置，可以得到W×H×C个位置归因向量。计算各个位置归因向量之间的距离。

步骤4，计算所有位置下位置归因向量距离之间的平均值作为最终模型之间的距离。

步骤5，计算网站的原始模型与攻击者自行生成的窃取模型、原始模型与非窃取模型之间的距离。

步骤6，比较网站攻击者窃取生成的窃取模型和被攻击网站提供的原始模型之间的距离。若原始模型与窃取模型之间的距离d_steal小于原始模型与非窃取模型之间的距离d_unrelated，则说明原始模型与窃取模型之间的距离更近，验证了该网站的窃取模型对原始模型进行了知识窃取。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，包含如下步骤：

2.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像X＝{X₁,X₂,…,X_N}，图像可从单个领域或多个领域收集。

3.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤2)所述的积分梯度算法是一种可解释性方法，计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。

4.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤2)所述的积分梯度算法对输入图像生成对应的归因图，即对该模型的某一个输出y，对输入的每一个像素

计算一个重要性值

5.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤2)所述的归因图是利用积分梯度算法对探测数据中的每个图像在相应的模型上生成的归因图，即积分梯度算法对模型归因的可视化。将图片X_j输入到模型M_i中生成归因图

对于模型M_i，最终生成N张归因图

6.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤3)所述的度量空间为探测数据集在各个模型上生成的归因图所组成的空间。对于输入图片X_j的归因图

由输入图片对应的归因值组成，模型M_i生成N张归因图

7.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤3)所述的距离是指，模型M_i生成N张归因图

对于探测数据集X＝{X₁,X₂,…,X_N}中每个点的位置(m,n,c)，其中m∈W,m∈H,c∈X，模型M_i可以得到各个归因图Aⁱ对应位置的归因值aⁱ。模型M_i在位置(m,n,c)处的N个归因值组合构成一个N维向量

8.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均，最终模型之间的距离通过下式进行计算：

9.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤5)所述的原始模型是指被窃取模型；窃取模型是指通过观察原始模型在选定输入上的输出，有效地学习原始模型的近似功能，达到窃取原始模型知识效果的模型；非窃取模型是指与窃取模型相同架构，但未对原始模型进行知识窃取的模型。

10.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法，其特征在于：步骤5)所述距离的比较是指将原始模型与窃取模型、原始模型与非窃取模型之间的距离进行比较，若原始模型与窃取模型之间的距离d_steal小于原始模型与非窃取模型之间的距离d_unrelated，即d_steal<d_unrelated，则验证了该窃取模型对原始模型进行了知识窃取。