CN116644439A - 一种基于去噪扩散模型的模型安全性评估方法 - Google Patents
一种基于去噪扩散模型的模型安全性评估方法 Download PDFInfo
- Publication number
- CN116644439A CN116644439A CN202310911643.0A CN202310911643A CN116644439A CN 116644439 A CN116644439 A CN 116644439A CN 202310911643 A CN202310911643 A CN 202310911643A CN 116644439 A CN116644439 A CN 116644439A
- Authority
- CN
- China
- Prior art keywords
- model
- diffusion
- denoising
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000006467 substitution reaction Methods 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于信息安全技术领域,公开了一种基于去噪扩散模型的模型安全性评估方法,包括以下步骤:将目标模型的分类样本送入初始生成器生成初始数据;使用去噪扩散模型扩充初始数据,生成额外数据;通过残差结构融合初始数据和额外数据,得到多源查询样本;通过多源查询样本和目标模型预测结果训练替代模型和生成器模型;计算替代模型和目标模型的功能相似度,评估目标模型的安全性。针对未知架构的人工智能模型,本发明在不访问目标模型训练数据集的基础上,通过去噪扩散模型和残差结构生成高质量的多源查询样本,从而使替代模型对目标模型进行高效地拟合,提升目标模型安全性评估效率。
Description
技术领域
本发明属于信息安全技术领域,特别涉及一种基于去噪扩散模型的模型安全性评估方法。
背景技术
深度学习在给人们生活带来极大的便利,同时使用深度学习模型也存在安全隐患,模型在生命周期的各个阶段都可能面临着不同程度的安全风险,导致模型无法提供正常的服务或者是泄露模型的隐私信息,例如,攻击者通过目标模型输出中隐含的一定的关于模型的信息,实施模型窃取攻击,包括窃取模型的功能、模型的结构、模型的参数,甚至最敏感的训练数据。另外攻击者可以利用窃取的模型进行对抗样本攻击、成员推理攻击和逆向推理攻击,从而破坏模型的机密性、可用性和完整性。
大多数模型安全性评估方法中,在进行攻击测试场景中,针对目标模型的攻击测试通常生成器模型和替代模型类似于生成对抗网络(GAN)的结构,例如CN202110400917一种基于生成对抗网络的模型安全性检测方法,现有的基于GAN的攻击网络在不访问目标模型训练数据集的前提下生成大量高质量的查询样本方面有所欠缺,以至影响安全性攻击测试中替代模型功能拟合的成功率和性能上限,从而无法进行高效的目标模型安全性评估。
在无法访问目标模型训练数据集的条件下通过模型功能拟合评估在线部署模型的安全性场景中,目前在基于类似GAN结构的攻击测试方法中,没有高效提高生成查询样本质量的方法,使安全性攻击测试满足在较少调用目标模型API的同时训练替代模型具有较高拟合精确度的需求。因此,如何使模型安全评估中攻击测试生成器生成高质量查询样本是亟需解决的重要问题。
发明内容
针对现有技术存在的不足,本发明提供一种基于去噪扩散模型的模型安全性评估方法,全面考虑了在模型安全性攻击测试中无法访问目标模型原有训练数据集场景下,通过模型功能拟合进行在线部署的黑盒模型(即目标模型)安全性评估,本发明针对未知架构的人工智能模型,在不访问目标模型训练数据集的基础上,通过去噪扩散模型和残差结构生成高质量的多源查询样本,从而使替代模型对目标模型进行高效地拟合,提升目标模型安全性评估效率。
为了解决上述技术问题,本发明采用的技术方案是:
一种基于去噪扩散模型的模型安全性评估方法,针对未知架构的人工智能模型,在不访问目标模型训练数据集的基础上,构建生成对抗网络并训练,所述生成对抗网络包括生成器模型和替代模型,生成器模型的训练目标为最大化目标模型和替代模型的输出差异,替代模型的训练目标为拟合目标模型的预测结果,即最小化目标模型和替代模型的输出差异,所述目标模型为执行图片分类任务的在线部署的黑盒模型;所述生成器模型包括初始生成器、去噪扩散模型和残差结构,包括以下步骤:
步骤1、将目标模型的分类样本送入初始生成器生成初始数据;
步骤2、使用去噪扩散模型扩充初始数据,生成额外数据/>;
步骤3、通过残差结构融合步骤1得到的初始数据和步骤2得到的额外数据/>,得到多源查询样本/>;
步骤4、通过多源查询样本和目标模型预测结果/>训练替代模型和生成器模型,
步骤5、计算替代模型和目标模型的功能相似度,评估目标模型的安全性。
进一步的,步骤1具体包括以下步骤:
步骤1.1、将目标模型分类样本通过特征提取后送入分类器C,得到生成对抗网络的生成器的输入z;
步骤1.2、初始生成器通过简单神经网络生成与目标模型的输入维度匹配的输入查询作为去噪扩散模型的初始数据x。
进一步的,去噪扩散模型包括正向扩散过程和反向扩散过程,步骤2中,具体如下:将初始生成器生成的初始数据x输入到去噪扩散模型的前向扩散,前向扩散在x上逐步增加噪声来平滑地扰动数据,每一步得到的图像xt只与上一步的结果xt-1相关,以x为基础,因子化不同时刻的图像,表示为:
;
其中:表示已知/>条件下的后验概率分布,xt表示前向扩散中通过增加噪声得到第t时刻的图像样本,/>分别表示前向扩散中通过增加噪声得到第1,2,...,T时刻的图像样本;
任意时刻的xt可以由x表示:
;
其中:,/>;/>表示已知x条件下的后验概率分布;为高斯噪声参数;/>表示高斯分布,I表示单位矩阵,用于构造高斯分布中的协方差;
前向扩散通过每一步增加噪声扰动数据执行扩散过程直至第T步的图像变为纯高斯分布;利用前向扩散得到的结果反向扩散通过对纯高斯分布/>进行去噪过程生成新数据,每一步中加入的噪声数据通过u-net进行预测,同时每一步的xt-1只与前一步的结果xt相关,反向扩散的目标过程表示为:
;
其中表示在第t步生成的xt的均值,/>表示在第t步生成的xt的方差,/>表示数据的真实分布,利用贝叶斯公式得到/>,表示为:
;
其中是/>的后验均值,/>是/>的后验方差;表示已知xt和x条件下的后验概率分布;在标准高斯分布中,此处已知方差是一个固定值,/>是在前向扩散中通过/>计算得到的;通过u-net预测含参高斯噪声来估计预测结果的欧氏范数,用于估计高斯分布中的/>,表示为:
;
其中:为高斯噪声参数,/>为高斯噪声参数/>的累乘;
通过训练预测的近似值,前向扩散提供标签,后向扩散使用标签进行拟合,通过确定方差和均值可以得到/>;根据逆马尔可夫链进行反向扩散过程,由此将初始数据x通过去噪扩散模型生成额外数据/>。
进一步的,步骤3中,将初始数据x和去噪扩散模型生成的额外数据xo送入残差网络结构进行多源数据融合,具体来说,使用去噪扩散模型生成的额外数据xo与初始数据x进行相融处理得到的结果叠加到初始数据x中,并使融合后的多源查询样本匹配目标模型的输入维度表示为:
;
其中和/>分别表示原始生成器模型的参数和去噪扩散模型的参数;R为去噪算子;/>表示初始生成器通过z生成初始数据x的函数;/>表示去噪扩散模型通过初始数据x生成额外数据的函数。
进一步的,步骤4中,具体是:训练生成器模型以最大化目标模型的输出和替代模型的输出/>之间的差异,其中目标模型和替代模型的输出分别表示为:
;
其中:和/>分别表示目标模型和替代模型通过多源查询样本生成预测结果的函数;/>和/>分别表示目标模型参数和替代模型参数;
同时,训练替代模型,拟合目标模型的输出,即通过使用步骤3中残差结构生成的多源查询样本访问目标模型得到目标模型的预测结果/>,并综合使用多源查询样本/>和目标模型的预测结果/>训练替代模型以最小化目标模型的输出/>和替代模型的输出之间的差异,表示为:
;
其中:表示/>和/>之间的相对熵损失。
进一步的,步骤4训练模型时,生成对抗网络更新生成器参数时,使用零阶梯度估计进行梯度更新,通过计算生成器方向导数来近似梯度;计算方向导数的均值来拟合梯度,方向导数的均值/>表示为:
;
其中:为平滑因子,/>是在d维单位球面上r点处沿内层j和外层m方向取的随机向量,/>为黑盒函数。
进一步的,步骤5具体是:设定目标模型安全性阈值,通过计算替代模型的功能拟合精确度,获取替代模型和目标模型之间的相似性,表示为:
;
其中:表示目标模型预测结果/>和替代模型的预测结果/>的协方差,/>和/>分别表示目标模型预测结果/>和替代模型的预测结果/>的标准差;最终通过比较模型之间的相似性/>与安全性阈值/>的关系计算攻击测试成功率,评估目标模型的安全性。
与现有技术相比,本发明优点在于:
(1)本发明提出了基于去噪扩散模型优化原有生成器的方法,首先将目标模型的预测结果通过特征提取和分类器处理后送入原有框架生成器生成初始数据样本。在原有生成器尾部集成去噪扩散模型,将初始数据样本送入去噪扩散模型的前向扩散,进行平滑的数据扰动,生成纯高斯分布。反向扩散通过前向过程得到的结果逐步进行去噪处理生成能更准确还原出目标模型的敏感信息的新数据,从而将初始数据进行高质量扩充。
(2)本发明通过类似残差结构融合多源数据,生成多样化的高质量查询样本,并使其输出结果符合目标模型的输入维度。在稳定网络训练的同时提升模型训练的效率,另外在降低访问目标模型的次数的同时提高模型功能拟合的精确度,提升安全性攻击测试的成功率,从而提高模型安全性评估的准确性。现有的模型安全性评估的方法,由于生成查询样本质量低,样本稀疏的问题,普遍存在大量访问目标模型的同时攻击测试成功率低的问题。
(3)本发明使用零阶梯度估计进行参数更新,通过计算方向导数估计梯度,解决黑盒模型无法进行反向传播的问题,并通过计算方向导数的均值降低生成器模型方向导数方差大的问题。现有的框架粗略地通过使用替代模型的方向传播进行梯度更新,使得梯度估计结果较为粗糙。
(4)本发明适用于大多数执行图像分类任务的模型安全性评估,具有适应性强,效率高等特点,可以客观地评估目标模型的安全性。是一种在不访问目标模型的训练数据集的前提下,通过使用模型功能拟合来进行安全性攻击测试评估目标模型安全性的方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于去噪扩散模型的模型安全性评估方法的流程示意图;
图2为本发明的去噪扩散过程示意图;
图3为本发明的通过模型功能拟合进行模型安全性攻击测试方法流程图,其中图3中,表示前向传播,/>表示反向传播更新替代模型,/>表示反向传播更新生成器模型。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
结合图1、图3所示,一种基于去噪扩散模型的模型安全性评估方法,针对未知架构的人工智能模型,在不访问目标模型训练数据集的基础上,构建生成对抗网络并训练,所述生成对抗网络包括生成器模型和替代模型,生成器模型的训练目标为最大化目标模型和替代模型的输出差异,替代模型的训练目标为拟合目标模型的预测结果,即最小化目标模型和替代模型的输出差异,所述目标模型为执行图片分类任务的在线部署的黑盒模型;所述生成器模型包括初始生成器、去噪扩散模型和残差结构,包括以下步骤:
步骤1、将目标模型的分类样本送入初始生成器生成初始数据x:具体的,
步骤1.1、将目标模型分类样本通过特征提取后送入分类器C,得到生成对抗网络的生成器的输入z;
步骤1.2、初始生成器通过简单神经网络生成与目标模型的输入维度匹配的输入查询作为去噪扩散模型的初始数据x。
步骤2、使用去噪扩散模型扩充初始数据x,生成额外数据xo;去噪扩散模型包括正向扩散过程和反向扩散过程,具体如下:
将初始生成器生成的初始数据x输入到去噪扩散模型(本发明使用现有的去噪扩散模型框架,如图2所示)的前向扩散,前向扩散在x上逐步增加噪声来平滑地扰动数据,每一步得到的图像xt只与上一步的结果xt-1相关,该过程可以视为马尔可夫过程,利用链式法则和马尔可夫性质(马尔可夫性质:当前状态已经包含了历史信息中对决定下一步有用的所有信息),以x为基础,因子化不同时刻的图像,表示为:
;
其中:表示已知/>条件下的后验概率分布,xt表示前向扩散中通过增加噪声得到第t时刻的图像样本,/>分别表示前向扩散中通过增加噪声得到第1,2,...,T时刻的图像样本。
通过独立高斯分布的可加性(高斯分布的独立随机变量和的分布仍属于高斯分布),任意时刻的xt可以由x表示:
;
其中:,/>;/>表示已知x条件下的后验概率分布;为高斯噪声参数;/>表示高斯分布,I表示单位矩阵,用于构造高斯分布中的协方差。
前向扩散通过每一步增加噪声扰动数据执行扩散过程直至第T步的图像变为纯高斯分布;利用前向扩散得到的结果反向扩散通过对纯高斯分布/>进行去噪过程生成新数据,每一步中加入的噪声数据通过u-net进行预测,同时每一步的xt-1只与前一步的结果xt相关,反向扩散的目标过程表示为:
;
其中表示在第t步生成的xt的均值,/>表示在第t步生成的xt的方差,/>表示数据的真实分布,利用贝叶斯公式得到/>,表示为:
;
其中是/>的后验均值,/>是/>的后验方差;表示已知xt和x条件下的后验概率分布;在标准高斯分布中,此处已知方差是一个固定值,/>是在前向扩散中通过/>计算得到的;通过u-net预测含参高斯噪声来估计预测结果的欧氏范数,用于估计高斯分布中的/>,表示为:
;
其中:为高斯噪声参数,/>为高斯噪声参数/>的累乘;
通过训练预测的近似值,前向扩散提供标签,后向扩散使用标签进行拟合,通过确定方差和均值可以得到/>。根据逆马尔可夫链进行反向扩散过程,由此将初始数据x通过去噪扩散模型生成额外数据xo。
步骤3、通过残差结构融合步骤1得到的初始数据x和步骤2得到的额外数据xo,得到多源查询样本。
将初始数据x和去噪扩散模型生成的额外数据xo送入残差网络结构进行多源数据
融合,具体来说,使用去噪扩散模型生成的额外数据xo与初始数据x进行相融处理得到的结
果叠加到初始数据x中,并使融合后的多源查询样本匹配目标模型的输入维度表示为:
;
其中和/>分别表示原始生成器模型的参数和去噪扩散模型的参数;R为去噪算子;/>表示初始生成器通过z生成初始数据x的函数;/>表示去噪扩散模型通过初始数据x生成额外数据的函数。
步骤4、通过多源查询样本和目标模型预测结果(各类别的预测标签及其概
率)训练替代模型(替代模型使用深度较深且拟合能力较好的模型架构,例如:ResNet-20、
ResNet-34等)和生成器模型,具体是:
训练生成器模型以最大化目标模型的输出和替代模型的输出/>之间的差异,其中目标模型和替代模型的输出分别表示为:
;
其中:和/>分别表示目标模型和替代模型通过多源查询样本生成预测结果的函数;/>和/>分别表示目标模型参数和替代模型参数。
同时,训练替代模型,拟合目标模型的输出,即通过使用步骤3中残差结构生成的多源查询样本访问目标模型得到目标模型的预测结果/>,并综合使用多源查询样本/>和目标模型的预测结果/>训练替代模型以最小化目标模型的输出/>和替代模型的输出之间的差异,表示为:
;
其中:表示/>和/>之间的相对熵损失。
通过生成器模型和替代模型形成的生成对抗网络激发了梯度更新的需求,(训练生成器模型的目标为最大化目标模型和替代模型的输出差异,即;训练替代模型的目标为拟合目标模型的预测结果(最小化目标模型和替代模型的输出差异),即。由于生成器模型和替代模型具有相反的训练目标,所以生成器和替代模型形成生成对抗网络)使生成器模型生成高质量的多源查询样本,同时替代模型对目标模型的功能进行高精度的拟合进行模型安全性攻击测试。
作为一个优选的实施方式,步骤4训练模型时,使用零阶梯度估计进行梯度更新,通过计算生成器方向导数来近似梯度;计算方向导数的均值来拟合梯度,方向导数的均值/>表示为:
;
其中:为平滑因子,/>是在d维单位球面上r点处沿内层j和外层m方向取的随机向量,/>为黑盒函数。由此通过方向导数来进行梯度估计,进一步完成网络的梯度下降和网络权重更新。
步骤5、计算替代模型和目标模型的功能相似度,评估目标模型的安全性;
设定目标模型安全性阈值,通过计算替代模型的功能拟合精确度,获取替代模型和目标模型之间的相似性,表示为:
;
其中:表示目标模型预测结果/>和替代模型的预测结果/>的协方差,/>和/>分别表示目标模型预测结果/>和替代模型的预测结果/>的标准差;最终通过比较模型之间的相似性/>与安全性阈值/>的关系计算攻击测试成功率,进而评估目标模型的安全性。
综上所述,在线部署的黑盒模型安全性评估方法,需要设置攻击测试评估模型安全性,针对模型安全性攻击测试问题,现有的方法无法同时满足以下几个需求:1.具有足够的普适性,适用于无法访问目标模型训练数据集的场景。2.生成器模型生成高质量样本,从而较少地访问目标模型API。3.较为稳定GAN网络的训练,同时兼具较高的训练效率。4.替代模型获取较高的拟合精确度。
在通过模型功能拟合进行安全性测试评估目标模型安全性的方法中,攻击者仅可通过输入查询样本获取目标模型的推理结果和标签,无法访问目标模型的参数和任何训练数据。为了满足上述四点需求,本发明从两个方面入手,提出了一种基于去噪扩散模型的模型安全性评估方法。首先,为了生成高质量的多源查询样本,本发明使用去噪扩散模型优化生成器模型,额外生成更加贴合真实数据的新数据,对初始样本进行了扩充和多样化处理。另外,使用类似残差网络的结构融合原有生成器生成的样本和去噪扩散模型生成的新样本,生成匹配目标模型输入维度的多源查询样本,通过高质量的多源查询样本减少访问目标模型的次数,提高替代模型的拟合精确度,进而能够对黑盒模型的安全性进行更全面的评估。
本发明适用于大多数执行图像分类任务的模型安全性评估,具有适应性强,效率高等特点,可以客观地评估目标模型的安全性。是一种在不访问目标模型的训练数据集的前提下,通过使用模型功能拟合来进行安全性攻击测试评估目标模型安全性的方法。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (7)
1.一种基于去噪扩散模型的模型安全性评估方法,其特征在于,针对未知架构的人工智能模型,在不访问目标模型训练数据集的基础上,构建生成对抗网络并训练,所述生成对抗网络包括生成器模型和替代模型,生成器模型的训练目标为最大化目标模型和替代模型的输出差异,替代模型的训练目标为拟合目标模型的预测结果,即最小化目标模型和替代模型的输出差异,所述目标模型为执行图片分类任务的在线部署的黑盒模型;所述生成器模型包括初始生成器、去噪扩散模型和残差结构,包括以下步骤:
步骤1、将目标模型的分类样本送入初始生成器生成初始数据;
步骤2、使用去噪扩散模型扩充初始数据,生成额外数据/>;
步骤3、通过残差结构融合步骤1得到的初始数据和步骤2得到的额外数据/>,得到多源查询样本/>;
步骤4、通过多源查询样本和目标模型预测结果/>训练替代模型和生成器模型,
步骤5、计算替代模型和目标模型的功能相似度,评估目标模型的安全性。
2.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法,其特征在于,步骤1具体包括以下步骤:
步骤1.1、将目标模型分类样本通过特征提取后送入分类器C,得到生成对抗网络的生成器的输入z;
步骤1.2、初始生成器通过简单神经网络生成与目标模型的输入维度匹配的输入查询作为去噪扩散模型的初始数据x。
3.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法,其特征在于,去噪扩散模型包括正向扩散过程和反向扩散过程,步骤2中,具体如下:将初始生成器生成的初始数据x输入到去噪扩散模型的前向扩散,前向扩散在x上逐步增加噪声来平滑地扰动数据,每一步得到的图像xt只与上一步的结果xt-1相关,以x为基础,因子化不同时刻的图像,表示为:
;
其中:表示已知/>条件下的后验概率分布,xt表示前向扩散中通过增加噪声得到第t时刻的图像样本,/>分别表示前向扩散中通过增加噪声得到第1,2,...,T时刻的图像样本;
任意时刻的xt可以由x表示:
;
其中:,/>;/>表示已知x条件下的后验概率分布;/>为高斯噪声参数;/>表示高斯分布,I表示单位矩阵,用于构造高斯分布中的协方差;
前向扩散通过每一步增加噪声扰动数据执行扩散过程直至第T步的图像变为纯高斯分布;利用前向扩散得到的结果反向扩散通过对纯高斯分布/>进行去噪过程生成新数据,每一步中加入的噪声数据通过u-net进行预测,同时每一步的xt-1只与前一步的结果xt相关,反向扩散的目标过程表示为:
;
其中表示在第t步生成的xt的均值,/>表示在第t步生成的xt的方差,表示数据的真实分布,利用贝叶斯公式得到/>,表示为:
;
其中是/>的后验均值,/>是/>的后验方差;表示已知xt和x条件下的后验概率分布;在标准高斯分布中,此处已知方差是一个固定值,/>是在前向扩散中通过/>计算得到的;通过u-net预测含参高斯噪声来估计预测结果的欧氏范数,用于估计高斯分布中的/>,表示为:
;
其中:为高斯噪声参数,/>为高斯噪声参数/>的累乘;
通过训练预测的近似值,前向扩散提供标签,后向扩散使用标签进行拟合,通过确定方差和均值可以得到/>;根据逆马尔可夫链进行反向扩散过程,由此将初始数据x通过去噪扩散模型生成额外数据/>。
4.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法,其特征在于,步骤3中,将初始数据x和去噪扩散模型生成的额外数据xo送入残差网络结构进行多源数据融合,具体来说,使用去噪扩散模型生成的额外数据xo与初始数据x进行相融处理得到的结果叠加到初始数据x中,并使融合后的多源查询样本匹配目标模型的输入维度表示为:
;
其中和/>分别表示原始生成器模型的参数和去噪扩散模型的参数;R为去噪算子;/>表示初始生成器通过z生成初始数据x的函数;/>表示去噪扩散模型通过初始数据x生成额外数据的函数。
5.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法,其特征在于,步骤4中,具体是:训练生成器模型以最大化目标模型的输出和替代模型的输出/>之间的差异,其中目标模型和替代模型的输出分别表示为:
;
其中:和/>分别表示目标模型和替代模型通过多源查询样本生成预测结果的函数;/>和/>分别表示目标模型参数和替代模型参数;
同时,训练替代模型,拟合目标模型的输出,即通过使用步骤3中残差结构生成的多源查询样本访问目标模型得到目标模型的预测结果/>,并综合使用多源查询样本/>和目标模型的预测结果/>训练替代模型以最小化目标模型的输出/>和替代模型的输出/>之间的差异,表示为:
;
其中:表示/>和/>之间的相对熵损失。
6.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法,其特征在于,步骤4训练模型时,生成对抗网络更新生成器参数时,使用零阶梯度估计进行梯度更新,通过计算生成器方向导数来近似梯度;计算方向导数的均值来拟合梯度,方向导数的均值/>表示为:
;
其中:为平滑因子,/>是在d维单位球面上r点处沿内层j和外层m方向取的随机向量,/>为黑盒函数。
7.根据权利要求1所述的一种基于去噪扩散模型的模型安全性评估方法,其特征在于,步骤5具体是:设定目标模型安全性阈值,通过计算替代模型的功能拟合精确度,获取替代模型和目标模型之间的相似性,表示为:
;
其中:表示目标模型预测结果/>和替代模型的预测结果/>的协方差,和/>分别表示目标模型预测结果/>和替代模型的预测结果/>的标准差;最终通过比较模型之间的相似性/>与安全性阈值/>的关系计算攻击测试成功率,评估目标模型的安全性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310911643.0A CN116644439B (zh) | 2023-07-25 | 2023-07-25 | 一种基于去噪扩散模型的模型安全性评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310911643.0A CN116644439B (zh) | 2023-07-25 | 2023-07-25 | 一种基于去噪扩散模型的模型安全性评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116644439A true CN116644439A (zh) | 2023-08-25 |
CN116644439B CN116644439B (zh) | 2023-10-17 |
Family
ID=87623335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310911643.0A Active CN116644439B (zh) | 2023-07-25 | 2023-07-25 | 一种基于去噪扩散模型的模型安全性评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644439B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117371541A (zh) * | 2023-12-08 | 2024-01-09 | 齐鲁工业大学(山东省科学院) | 一种零知识、免真实数据的模型推理攻击方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989361A (zh) * | 2021-04-14 | 2021-06-18 | 华南理工大学 | 一种基于生成对抗网络的模型安全性检测方法 |
CN113806734A (zh) * | 2021-08-20 | 2021-12-17 | 北京工业大学 | 一种基于条件的能量生成对抗网络的网络攻击恢复方法 |
CN115496205A (zh) * | 2022-10-17 | 2022-12-20 | 中国农业银行股份有限公司 | 检测模型训练、数据检测方法、装置、设备及存储介质 |
US20230095092A1 (en) * | 2021-09-30 | 2023-03-30 | Nvidia Corporation | Denoising diffusion generative adversarial networks |
US20230109379A1 (en) * | 2021-10-05 | 2023-04-06 | Nvidia Corporation | Diffusion-based generative modeling for synthetic data generation systems and applications |
CN116402865A (zh) * | 2023-06-06 | 2023-07-07 | 之江实验室 | 一种利用扩散模型的多模态影像配准方法、装置和介质 |
-
2023
- 2023-07-25 CN CN202310911643.0A patent/CN116644439B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989361A (zh) * | 2021-04-14 | 2021-06-18 | 华南理工大学 | 一种基于生成对抗网络的模型安全性检测方法 |
CN113806734A (zh) * | 2021-08-20 | 2021-12-17 | 北京工业大学 | 一种基于条件的能量生成对抗网络的网络攻击恢复方法 |
US20230095092A1 (en) * | 2021-09-30 | 2023-03-30 | Nvidia Corporation | Denoising diffusion generative adversarial networks |
US20230109379A1 (en) * | 2021-10-05 | 2023-04-06 | Nvidia Corporation | Diffusion-based generative modeling for synthetic data generation systems and applications |
CN115496205A (zh) * | 2022-10-17 | 2022-12-20 | 中国农业银行股份有限公司 | 检测模型训练、数据检测方法、装置、设备及存储介质 |
CN116402865A (zh) * | 2023-06-06 | 2023-07-07 | 之江实验室 | 一种利用扩散模型的多模态影像配准方法、装置和介质 |
Non-Patent Citations (3)
Title |
---|
G.GILLBOA ET AL: "Image Enhancement and Denoising by Complex Diffusion Process", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 26, no. 8, pages 1020 - 1036 * |
肖睿: "基于GAN的数据生成模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 01, pages 138 - 1869 * |
赵海勇 等: "一种改进的各向异性扩散去噪模型", 《计算机科学》, vol. 40, no. 11, pages 147 - 149 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117371541A (zh) * | 2023-12-08 | 2024-01-09 | 齐鲁工业大学(山东省科学院) | 一种零知识、免真实数据的模型推理攻击方法 |
CN117371541B (zh) * | 2023-12-08 | 2024-03-29 | 齐鲁工业大学(山东省科学院) | 一种零知识、免真实数据的模型推理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116644439B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10474929B2 (en) | Cyclic generative adversarial network for unsupervised cross-domain image generation | |
Pang et al. | Visual haze removal by a unified generative adversarial network | |
Di Noia et al. | Taamr: Targeted adversarial attack against multimedia recommender systems | |
CN108230291B (zh) | 物体识别系统训练方法、物体识别方法、装置和电子设备 | |
CN116644439B (zh) | 一种基于去噪扩散模型的模型安全性评估方法 | |
Zhang et al. | Adaptive multi-cue based particle swarm optimization guided particle filter tracking in infrared videos | |
US20180253628A1 (en) | Pattern recognition apparatus, method, and program using domain adaptation | |
Ganguly et al. | An introduction to variational inference | |
CN111144566A (zh) | 神经网络权重参数的训练方法、特征分类方法及对应装置 | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN114627424A (zh) | 一种基于视角转化的步态识别方法和系统 | |
Miwa et al. | Valid p-value for deep learning-driven salient region | |
Carneiro et al. | The distinctiveness, detectability, and robustness of local image features | |
Kim et al. | Discriminative learning for dynamic state prediction | |
CN113159317B (zh) | 一种基于动态残差侵蚀的对抗样本生成方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN115935817A (zh) | 一种基于扩散模型的快速模型生成方法 | |
CN114973350A (zh) | 一种源域数据无关的跨域人脸表情识别方法 | |
Zhang et al. | Improving cross-view gait recognition with generative adversarial networks | |
CN111275447B (zh) | 基于自动化特征工程的在线网络支付欺诈检测系统 | |
AFFES et al. | Comparison of YOLOV5, YOLOV6, YOLOV7 and YOLOV8 for Intelligent Video Surveillance. | |
Tu et al. | Facial image inpainting with variational autoencoder | |
CN114676396B (zh) | 深度神经网络模型的保护方法、装置、电子设备和介质 | |
CN114049900B (zh) | 模型训练方法、身份识别方法、装置及电子设备 | |
CN117291252B (zh) | 稳定视频生成模型训练方法、生成方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |