CN115600160A - 基于积分梯度可解释算法的网络模型窃取行为的检测方法 - Google Patents
基于积分梯度可解释算法的网络模型窃取行为的检测方法 Download PDFInfo
- Publication number
- CN115600160A CN115600160A CN202211288616.4A CN202211288616A CN115600160A CN 115600160 A CN115600160 A CN 115600160A CN 202211288616 A CN202211288616 A CN 202211288616A CN 115600160 A CN115600160 A CN 115600160A
- Authority
- CN
- China
- Prior art keywords
- model
- attribution
- stealing
- input
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000005259 measurement Methods 0.000 claims abstract description 11
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
基于积分梯度可解释算法的网络模型窃取行为的检测方法,包括:1)随机选取不同领域的图像组成探测数据集,并输入到待验证模型中;2)通过可解释性方法积分梯度算法对模型进行归因分析,计算不同模型下输入图片像素对最终输出影响的贡献度大小,对探测数据集中的图片生成相应的归因图;3)将模型对探测数据集生成的归因图作为度量空间,将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量,计算不同模型在同一位置处的归因向量之间的距离大小;4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均,即为模型之间的距离;5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离并进行距离比较。
Description
技术领域
本发明属于人工智能中的迁移学习领域,针对深度神经网络模型窃取难以验证的问题,提出了一种基于积分梯度可解释算法的归因图相似性方法来进行模型窃取的验证和检测。
背景技术
深度神经网络模型在收集数据集和训练模型等方面成本较高,获得一个效果良好的模型往往需要大量的资源。而模型窃取是指攻击者未经许可,擅自复制机密模型的功能,通过观察模型在一定输入上的输出,学习模型的知识,侵犯了原始模型的知识产权。
窃取模型通过将数据输入到原始模型上,得到原始模型的输出,即“软标签”。软标签中包含着原始模型中学习到的知识和有效信息,窃取模型通过利用这些信息来学习模型并提高窃取模型的性能。
模型窃取方法窃取了其他模型的知识,但仅仅通过窃取后的模型无法辨别出该模型是否侵犯了其他模型的知识产权。如何判断某个模型是否窃取了其他模型的知识是一个极具挑战性又具有很高的实用价值问题。
发明内容
针对深度神经网络模型窃取难以验证的问题,本发明提出了一种基于积分梯度可解释算法的网络模型窃取行为的检测方法。为了对模型窃取进行度量,收集探测数据集输入到模型中,通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离。
为实现上述目的,本发明所述的基于积分梯度可解释算法的网络模型窃取行为的检测方法,包括如下步骤:
1)随机选取不同领域的图像组成探测数据集,并将探测数据集输入到待验证模型中;
2)通过可解释性方法积分梯度算法对模型进行归因分析,计算不同模型下输入图片像素对最终输出影响的贡献度大小,对探测数据集中的图片生成相应的归因图;
3)将模型对探测数据集生成的归因图作为度量空间,将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量,计算不同模型在同一位置处的归因向量之间的距离大小;
4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均,即为模型之间的距离;
5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离并进行距离比较。
进一步,步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像X={X1,X2,…,XN},图像可从单个领域或多个领域收集。
进一步,步骤2)所述的积分梯度算法是一种可解释性方法,它计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。
进一步,步骤2)所述的积分梯度算法对输入图像生成对应的归因图,即对该模型的某一个输出y,对输入的每一个像素 计算一个重要性值其中,m,n,c表示该像素点在输入图片中的位置,W,H,C分别表示输入图像的宽度、高度和通道数。
进一步,步骤3)所述的距离是指,模型Mi生成N张归因图对于探测数据集X={X1,X2,…,XN}中每个点的位置(m,n,c),其中m∈W,n∈H,c∈W,模型Mi可以得到各个归因图Ai对应位置的归因值ai。模型Mi在位置(m,n,c)处的N个归因值组合构成一个N维向量记为该模型在该输入位置处的归因向量。计算相应输入位置归因向量之间的距离,通过下式进行计算:
进一步,步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均,最终模型之间的距离通过下式进行计算:
其中,Mi,Mj表示两个需要比较的模型,W,H,C分别表示输入图像的宽度、高度和通道数。
进一步,步骤5)所述的原始模型是指被窃取模型;窃取模型是指通过观察原始模型在选定输入上的输出,有效地学习原始模型的近似功能,达到窃取原始模型知识效果的模型;非窃取模型是指与窃取模型相同架构,但未对原始模型进行知识窃取的模型。
进一步,步骤5)所述距离的比较是指将原始模型与窃取模型、原始模型与非窃取模型之间的距离进行比较,若原始模型与窃取模型之间的距离dsteal小于原始模型与非窃取模型之间的距离dunrelated,即dsteal<dunrelated,则验证了该窃取模型对原始模型进行了知识窃取。
本发明的有益效果如下:
本发明利用积分梯度可解释算法对模型进行解释生成相应的归因图,并计算归因图之间的相似性距离来检测模型窃取行为。
本发明能够通过简单高效的方法来验证模型窃取这一极具挑战性和实用价值的问题。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进行清晰、完整的解释和描述,应用本发明提供了一种基于积分梯度可解释算法的检测网站是否窃取他人模型的模型窃取验证方法。
深度神经网络模型在收集数据集和训练模型等方面成本较高。而一些网站的攻击者未经允许,擅自复制其他网站发布的机密模型的功能,以极小的代价窃取了其他网站花费大量时间、金钱、人力、算力训练得到的模型,学习模型的知识,侵犯了原始模型的知识产权,进行模型窃取。在这种应用场景下,我们的方法可以通过积分梯度可解释算法的归因映射嵌入对网站攻击者窃取得到的模型和原始网站发布的模型进行对比计算,验证和检测网站的攻击者是否窃取了该网站的模型,是否侵犯了其知识产权。
针对模型窃取难以验证的问题,本发明提出了一种基于积分梯度可解释算法的网络模型窃取行为的检测方法。对网站攻击者窃取生成的模型和原始网站发布的模型进行比较,收集探测数据集输入到模型中,通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离,具体包括如下步骤:
1)随机选取不同领域的图像组成探测数据集,并将探测数据集输入到待验证模型中;
2)通过可解释性方法积分梯度算法对模型进行归因分析,计算不同模型下输入图片像素对最终输出影响的贡献度大小,对探测数据集中的图片生成相应的归因图;
3)将模型对探测数据集生成的归因图作为度量空间,将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量,计算不同模型在同一位置处的归因向量之间的距离大小;
4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均,即为模型之间的距离;
5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离。
6)对网站攻击者窃取生成的模型和被攻击网站提供的原始模型之间的距离进行对比。网站攻击者窃取生成的模型和被攻击者的原始模型之间的距离小于正常非窃取模型之间的距离,则说明攻击者对该网站的模型进行了窃取,进而验证了网站攻击者的窃取行为。
步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像X={X1,X2,…,XN},图像可从单个领域或多个领域收集。
步骤2)所述的积分梯度算法是一种可解释性方法,它计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。
步骤2)所述的积分梯度算法对输入图像生成对应的归因图,即对该模型的某一个输出y,对输入的每一个像素计算一个重要性值其中,m,n,c表示该像素点在输入图片中的位置,W,H,C分别表示输入图像的宽度、高度和通道数。
步骤3)所述的距离是指,模型Mi生成N张归因图对于探测数据集X={X1,X2,…,XN}中每个点的位置(m,n,c),其中m∈W,n∈H,c∈X,模型Mi可以得到各个归因图Ai对应位置的归因值ai。模型Mi在位置(m,n,c)处的N个归因值组合构成一个N维向量记为该模型在该输入位置处的归因向量。计算相应输入位置归因向量之间的距离,通过下式进行计算:
步骤4)所述的模型之间距离是指对所有输入位置归因向量之间的距离求取平均,最终模型之间的距离通过下式进行计算:
其中,Mi,Mj表示两个需要比较的模型,W,H,C分别表示输入图像的宽度、高度和通道数。
步骤5)所述的原始模型是指网站发布的被窃取模型;窃取模型是指通过网站攻击者通过观察原始模型在选定输入上的输出,有效地学习原始模型的近似功能,达到窃取原始模型知识效果的模型;非窃取模型是指与窃取模型相同架构,但未对原始模型进行知识窃取的模型。
步骤6)比较网站攻击者窃取生成的模型和被攻击网站提供的原始模型之间的距离,若原始模型与窃取模型之间的距离dsteal小于原始模型与非窃取模型之间的距离dunrelated,即dsteal<dunrelated,则验证了该窃取模型对原始模型进行了知识窃取。
具体地,本发明提出了一种基于积分梯度可解释算法的网络模型窃取检测方法,对网站攻击者窃取生成的模型和原始网站发布的模型进行比较。为了对模型窃取进行度量,收集探测数据集输入到模型中,通过积分梯度可解释算法生成相应的归因图来计算模型之间的距离。包括如下步骤:
步骤1,随机收集种类丰富的图像组成探测数据集。其中图像可以来自单个领域,也可以来自多个领域。探测数据集的大小为N=128张。
步骤2,将128张探测数据集中的图像输入到模型中,通过可解释性方法积分梯度算法对模型解释,生成128张归因图。由于每个输入维度都有一个归因值与其对应,因而归因图尺寸和输入图片尺寸是相同的。
步骤3,将每个模型求得的归因图组合构成一个度量空间。对于每个模型来说,128张探测数据集图片的同一位置处的128个归因值组合构成一个位置归因向量;对于图片中的不同位置,可以得到W×H×C个位置归因向量。计算各个位置归因向量之间的距离。
步骤4,计算所有位置下位置归因向量距离之间的平均值作为最终模型之间的距离。
步骤5,计算网站的原始模型与攻击者自行生成的窃取模型、原始模型与非窃取模型之间的距离。
步骤6,比较网站攻击者窃取生成的窃取模型和被攻击网站提供的原始模型之间的距离。若原始模型与窃取模型之间的距离dsteal小于原始模型与非窃取模型之间的距离dunrelated,则说明原始模型与窃取模型之间的距离更近,验证了该网站的窃取模型对原始模型进行了知识窃取。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (10)
1.一种基于积分梯度可解释算法的网络模型窃取行为的检测方法,包含如下步骤:
1)随机选取不同领域的图像组成探测数据集,并将探测数据集输入到待验证模型中;
2)通过可解释性方法积分梯度算法对模型进行归因分析,计算不同模型下输入图片像素对最终输出影响的贡献度大小,对探测数据集中的图片生成相应的归因图;
3)将模型对探测数据集生成的归因图作为度量空间,将模型在探测数据集图片的同一位置处得到的归因值组合构成一个位置归因向量,计算不同模型在同一位置处的归因向量之间的距离大小;
4)将度量空间中所有像素点对应的输入位置归因向量之间的距离进行平均,即为模型之间的距离;
5)计算原始模型与窃取模型、原始模型与非窃取模型之间的距离并进行距离比较。
2.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法,其特征在于:步骤1)所述的探测数据集是从分类数据集中随机抽取的参考图像X={X1,X2,…,XN},图像可从单个领域或多个领域收集。
3.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法,其特征在于:步骤2)所述的积分梯度算法是一种可解释性方法,计算从基线到输入之间的直线路径的路径积分作为输入特征的归因。
9.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法,其特征在于:步骤5)所述的原始模型是指被窃取模型;窃取模型是指通过观察原始模型在选定输入上的输出,有效地学习原始模型的近似功能,达到窃取原始模型知识效果的模型;非窃取模型是指与窃取模型相同架构,但未对原始模型进行知识窃取的模型。
10.根据权利要求1所述的一种基于积分梯度可解释算法的网络模型窃取行为的检测方法,其特征在于:步骤5)所述距离的比较是指将原始模型与窃取模型、原始模型与非窃取模型之间的距离进行比较,若原始模型与窃取模型之间的距离dsteal小于原始模型与非窃取模型之间的距离dunrelated,即dsteal<dunrelated,则验证了该窃取模型对原始模型进行了知识窃取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288616.4A CN115600160B (zh) | 2022-10-20 | 2022-10-20 | 基于积分梯度可解释算法的网络模型窃取行为的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288616.4A CN115600160B (zh) | 2022-10-20 | 2022-10-20 | 基于积分梯度可解释算法的网络模型窃取行为的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115600160A true CN115600160A (zh) | 2023-01-13 |
CN115600160B CN115600160B (zh) | 2023-07-21 |
Family
ID=84849746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211288616.4A Active CN115600160B (zh) | 2022-10-20 | 2022-10-20 | 基于积分梯度可解释算法的网络模型窃取行为的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600160B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130004025A1 (en) * | 2011-06-30 | 2013-01-03 | Nokia Corporation | Method and apparatus for face tracking utilizing integral gradient projections |
CN103839247A (zh) * | 2012-11-20 | 2014-06-04 | 富士通株式会社 | 边缘像素确定方法、边缘像素确定装置和图像处理设备 |
CN111091179A (zh) * | 2019-12-03 | 2020-05-01 | 浙江大学 | 基于归因图的异构深度模型可迁移性度量方法 |
CN112292691A (zh) * | 2018-06-18 | 2021-01-29 | 谷歌有限责任公司 | 用于使用深度学习提高癌症检测的方法与系统 |
CN112734679A (zh) * | 2021-01-26 | 2021-04-30 | 西安理工大学 | 一种医学手术视频图像的融合去雾方法 |
CN113902978A (zh) * | 2021-09-10 | 2022-01-07 | 长沙理工大学 | 基于深度学习的可解释性sar图像目标检测方法及系统 |
CN114330554A (zh) * | 2021-12-29 | 2022-04-12 | 浙江大学 | 一种面向智能安防的视觉深度模型知识重组方法 |
CN114510592A (zh) * | 2020-11-17 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN115114992A (zh) * | 2022-07-13 | 2022-09-27 | 平安科技(深圳)有限公司 | 分类模型训练的方法、装置、设备及存储介质 |
-
2022
- 2022-10-20 CN CN202211288616.4A patent/CN115600160B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130004025A1 (en) * | 2011-06-30 | 2013-01-03 | Nokia Corporation | Method and apparatus for face tracking utilizing integral gradient projections |
CN103620621A (zh) * | 2011-06-30 | 2014-03-05 | 诺基亚公司 | 用于利用积分梯度投影的面部跟踪的方法和装置 |
CN103839247A (zh) * | 2012-11-20 | 2014-06-04 | 富士通株式会社 | 边缘像素确定方法、边缘像素确定装置和图像处理设备 |
CN112292691A (zh) * | 2018-06-18 | 2021-01-29 | 谷歌有限责任公司 | 用于使用深度学习提高癌症检测的方法与系统 |
CN111091179A (zh) * | 2019-12-03 | 2020-05-01 | 浙江大学 | 基于归因图的异构深度模型可迁移性度量方法 |
CN114510592A (zh) * | 2020-11-17 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN112734679A (zh) * | 2021-01-26 | 2021-04-30 | 西安理工大学 | 一种医学手术视频图像的融合去雾方法 |
CN113902978A (zh) * | 2021-09-10 | 2022-01-07 | 长沙理工大学 | 基于深度学习的可解释性sar图像目标检测方法及系统 |
CN114330554A (zh) * | 2021-12-29 | 2022-04-12 | 浙江大学 | 一种面向智能安防的视觉深度模型知识重组方法 |
CN115114992A (zh) * | 2022-07-13 | 2022-09-27 | 平安科技(深圳)有限公司 | 分类模型训练的方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
R SMYTH: "A multi-disciplinary framework for cyber attribution", 《DORA.DMU.AC.UK》, pages 1 - 162 * |
YANFEI LU: "Graph Embedding-Based Sensitive Link Protection in LoT Systems", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》, pages 1 - 15 * |
Also Published As
Publication number | Publication date |
---|---|
CN115600160B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704877B (zh) | 一种基于深度学习的图像隐私感知方法 | |
Zhu et al. | AR-Net: Adaptive attention and residual refinement network for copy-move forgery detection | |
Guo et al. | Fake colorized image detection | |
CN111507386B (zh) | 一种存储文件及网络数据流加密通信检测方法及系统 | |
CN105404886A (zh) | 特征模型生成方法和特征模型生成装置 | |
Nawaz et al. | Advance hybrid medical watermarking algorithm using speeded up robust features and discrete cosine transform | |
CN109543674B (zh) | 一种基于生成对抗网络的图像拷贝检测方法 | |
CN104636764B (zh) | 一种图像隐写分析方法以及其装置 | |
Li et al. | One-class knowledge distillation for face presentation attack detection | |
Chen et al. | SNIS: A signal noise separation-based network for post-processed image forgery detection | |
Ouyang et al. | Robust copy-move forgery detection method using pyramid model and Zernike moments | |
Diwan et al. | Keypoint based comprehensive copy‐move forgery detection | |
Selvaraj et al. | Enhanced copy–paste forgery detection in digital images using scale‐invariant feature transform | |
Warif et al. | A comprehensive evaluation procedure for copy-move forgery detection methods: results from a systematic review | |
Anwar et al. | Image forgery detection by transforming local descriptors into deep-derived features | |
Isaac et al. | A key point based copy-move forgery detection using HOG features | |
Mushtaq et al. | Novel method for image splicing detection | |
Mariappan et al. | Adaptive partitioning‐based copy‐move image forgery detection using optimal enabled deep neuro‐fuzzy network | |
CN115600160B (zh) | 基于积分梯度可解释算法的网络模型窃取行为的检测方法 | |
CN116958606A (zh) | 一种图像匹配方法及相关装置 | |
Wang et al. | Image authentication based on perceptual hash using Gabor filters | |
Mushtaq et al. | Forgery detection using statistical features | |
CN112785478B (zh) | 基于生成嵌入概率图的隐藏信息检测方法和系统 | |
Yang et al. | A robust scheme for copy detection of 3D object point clouds | |
Kostková et al. | Affine moment invariants of vector fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |