CN116204890A - 一种自适应增强人工智能算法安全的算法组件库 - Google Patents
一种自适应增强人工智能算法安全的算法组件库 Download PDFInfo
- Publication number
- CN116204890A CN116204890A CN202310473597.0A CN202310473597A CN116204890A CN 116204890 A CN116204890 A CN 116204890A CN 202310473597 A CN202310473597 A CN 202310473597A CN 116204890 A CN116204890 A CN 116204890A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- data
- training
- model
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 103
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 9
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 82
- 230000007123 defense Effects 0.000 claims abstract description 53
- 230000008260 defense mechanism Effects 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 5
- 238000003860 storage Methods 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 11
- 239000002245 particle Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000004821 distillation Methods 0.000 claims description 5
- 238000011068 loading method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 235000000332 black box Nutrition 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 9
- 231100000572 poisoning Toxicity 0.000 description 5
- 230000000607 poisoning effect Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明属于网络安全及深度学习技术领域,具体涉及一种自适应增强人工智能算法安全的算法组件库,包括:模型库,用于存储算法模型;数据存储调用引擎,用于控制数据的存储和调用;其中,数据的属性包括所属行业、场景和数据类型;训练与部署引擎,用于根据训练防御机制对算法模型进行训练以及根据数据的属性部署相应的目标算法模型;算法安全防御引擎,用于根据数据的属性选择相应的训练防御机制和模拟攻击机制;模型评估与分析引擎,用于根据模拟攻击机制对目标算法模型的性能进行评估。本发明的算法组件库,通过训练防御机制以及模拟攻击机制,实现人工智能算法的安全监测与增强。
Description
技术领域
本发明属于网络安全及深度学习技术领域,具体涉及一种自适应增强人工智能算法安全的算法组件库。
背景技术
随着深度学习网络模型的广域化应用,不同行业、不同场景也都有了系统化、可行性高、鲁棒性强的算法方案,算法组件库的构建也对快速的模型建立、精准的模型预测及长久的模型维护有着至关重要的作用。但随着模型的不断发展与数量递增,不法分子的恶意攻击也源源不断,算法模型的安全难以得到有效保障。
发明内容
基于现有技术中存在的上述不足,本发明的目的是一种自适应增强人工智能算法安全的算法组件库。
为了达到上述发明目的,本发明采用以下技术方案:
一种自适应增强人工智能算法安全的算法组件库,包括:
模型库,用于存储算法模型;
数据存储调用引擎,用于控制数据的存储和调用;其中,数据的属性包括所属行业、场景和数据类型;
训练与部署引擎,用于根据训练防御机制对算法模型进行训练以及根据数据的属性部署相应的目标算法模型;
算法安全防御引擎,用于根据数据的属性选择相应的训练防御机制和模拟攻击机制;
模型评估与分析引擎,用于根据模拟攻击机制对目标算法模型的性能进行评估。
作为优选方案,所述模型评估与分析引擎还根据评估后的结果生成相应的优化策略;其中,优化策略包括蒸馏防御、对抗训练、集成对抗训练和稳定性训练;
所述训练与部署引擎还用于根据优化策略对目标算法模型进行更新。
作为优选方案,所述数据类型包括图片、音频、视频和文本。
作为优选方案,所述训练防御机制包括被动自适应对抗防御机制和主动自适应防御机制;
所述被动自适应对抗防御机制包括两个阶段的防御:
第一阶段防御为:在模型训练之前对数据进行安全性检测,得到正常数据;
第二阶段防御为:根据正常数据的数据类型的不同选择不同的被动防御算法进行伪造检测,去除伪造数据,得到模型训练数据。
作为优选方案,所述安全性检测采用数据上界判断方法区分正常数据与恶意数据,去除恶意数据,得到正常数据。
作为优选方案,所述被动防御算法包括:
若数据类型为图片、视频,则通过频域特征分析,获取图片的隐藏特征,建立卷积神经网络模型进行图片、视频的伪造检测;
若数据类型为音频,则通过音频时序特征、音色变化、频段特征图,获取不同模态的特征,建立混合神经网络模型进行伪造音频检测。
作为优选方案,所述被动自适应对抗防御机制还包括:
在模型训练过程中对模型权重进行加密存储,在调用算法模型时进行解密载入。
作为优选方案,所述主动自适应防御机制为:
根据数据的属性选择相应的主动防御算法;其中,主动防御算法包括样本随机化、输入重构和对抗训练。
作为优选方案,所述模拟攻击机制包括自适应白盒攻击和自适应黑盒攻击;
自适应白盒攻击的攻击方法包括FGSM、BIM、L-BFGS、单像素攻击、特征攻击、盲点攻击和分界点样本定向攻击;
自适应黑盒攻击的攻击方法包括零阶优化、进化算法、生成对抗网络和粒子群优化黑盒攻击。
作为优选方案,所述分界点样本定向攻击包括:
通过部分正常数据集对模型进行概率分布分析,确定多分类的概率分布,对主类别概率小于阈值的部分样本进行针对性攻击,引导模型指向部分样本的第二大概率的类别;其中,针对性攻击的过程为:对部分样本的最后一层全连接层的特征数据进行分析,确定部分样本对应的各个类别簇,并确定簇中心与簇平均距离,在训练对抗样本时,通过当前样本特征与目标簇中心的距离来进行诱导,将其加入到总损失中,得到总损失Loss为:
其中,consine为余弦度计算,x为当前样本特征,c t 为当前样本特征对应的目标簇中心,c s 为当前样本特征对应的原簇中心,r t 为目标簇平均距离,r s 为原簇平均距离;
所述粒子群优化黑盒攻击包括:
通过粒子群优化添加的扰动值,适应度函数Fitness Function使用黑盒输出的目标概率计算得到:Fitness Function=e-p ;p为黑盒输出的目标概率。
本发明与现有技术相比,有益效果是:
本发明的算法组件库,通过训练防御机制以及模拟攻击机制,实现人工智能算法的安全监测与增强。
附图说明
图1是本发明实施例1的算法组件库的构架图;
图2是本发明实施例1的以图片数据为例的数据投毒防御前的数据处理流程;
图3是本发明实施例1的以图片数据为例的深度伪造检测的流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本实施例的自适应增强人工智能算法安全的算法组件库,包括模型库、数据存储调用引擎、训练与部署引擎、算法安全防御引擎和模型评估与分析引擎。本实施例的算法组件库是集归纳、训练、评估、校验、部署及监测于一体的算法建模平台工具,其可以通过AutoML等方式进行行业模型与基础模型的建立,并将其应用于平台中,平台的模型量大且质量较高。
具体地,本实施例的模型库用于存储人工智能算法模型,包括模型1、模型2、模型3等,算法模型的具体数量可根据实际应用需求进行配置。
本实施例的数据存储调用引擎用于控制数据的存储和调用;其中,数据的属性包括所属行业、场景和数据类型。本实施例的数据类型包括图片、音频、视频和文本等。
本实施例的训练与部署引擎用于基于训练请求,根据训练防御机制对算法模型进行训练、自动调参、资源控制以及权重部署,包括模型的加速、量化等,还用于根据数据的属性部署相应的目标算法模型。相应地,本实施例的算法安全防御引擎用于根据数据的属性选择相应的训练防御机制。
其中,本实施例的训练防御机制包括被动自适应对抗防御机制和主动自适应防御机制;在算法组件库进行模型建立与训练时,加入被动自适应对抗防御机制与主动自适应防御机制。具体地,本实施例的被动自适应对抗防御机制包括两个阶段的防御:
第一阶段防御为:在模型训练之前对数据进行安全性检测,通过自适应数据投毒防御(即数据防御机制)进行数据的安全性检测,主要包含正常数据与恶意数据的区分,具体通过数据上界判断方法进行区分,去除恶意数据,得到正常数据;
第二阶段防御为:在模型构建时,根据数据与模型类型加入不同的被动防御算法,一定程度防御白盒与黑盒攻击;具体地,根据正常数据的数据类型的不同选择不同的被动防御算法进行伪造检测,去除伪造数据,得到模型训练数据。
通用被动防御算法在权重层面,模型权重加密存储,通过解码载入内存进行调用,即在模型训练过程中对模型权重进行加密存储,在调用算法模型时进行解密载入。在样本层面,算法组件库内采用伪造视频检测、伪造音频检测等进行基本的伪造检测。
具体地,若数据类型为图片、视频,伪造视频检测通过频域特征分析,获取图片的隐藏特征,建立卷积神经网络模型,从不同角度进行图片、视频的伪造检测;
若数据类型为音频,伪造音频检测通过音频时序特征、音色变化、频段特征图,获取不同模态的特征,建立混合神经网络模型,从而进行有效的音频检测。
本实施例的主动自适应防御机制来自于算法组件库内所有算法的归纳,根据不同的业务场景与数据类型有不同的防御算法,本实施例的算法组件库中的基本主动防御算法为:样本随机化、输入重构和对抗训练。其中,样本随机化为通过调整大小、随机填充等处理输入;输入重构为通过高斯噪声在自编码器去除噪声来减小扰动的影响;对抗训练为在模型训练时加入对抗网络,增强模型基本稳定性与鲁棒性。
待模型训练完成之后,算法组件库的训练与部署引擎进行行业模型与业务模型的部署,保存部署的pipeline与加密后的模型参数。
另外,本实施例的算法安全防御引擎还用于根据数据的属性选择相应的模拟攻击机制。其中,模拟攻击机制包括自适应白盒攻击和自适应黑盒攻击。
本实施例的自适应白盒攻击的攻击方法包括现有的FGSM、BIM、L-BFGS、单像素攻击、特征攻击、盲点攻击和改进的分界点样本定向攻击。
具体地,改进的分界点样本定向攻击包括:
通过部分正常数据集对模型进行概率分布分析,确定多分类的概率分布,对主类别概率小于阈值的部分样本进行针对性攻击,引导模型指向部分样本的第二大概率的类别;其中,针对性攻击的过程为:对部分样本的最后一层全连接层的特征数据进行分析,确定部分样本对应的各个类别簇,并确定簇中心与簇平均距离,在训练对抗样本时,通过当前样本特征与目标簇中心的距离来进行诱导,将其加入到总损失中,得到总损失Loss为:
其中,consine为余弦度计算,x为当前样本特征,c t 为当前样本特征对应的目标簇中心,c s 为当前样本特征对应的原簇中心,r t 为目标簇平均距离,r s 为原簇平均距离。
当总损失Loss上升时,即达到攻击的目标要求。
本实施例的自适应黑盒攻击的攻击方法包括现有的零阶优化、进化算法、生成对抗网络和改进的粒子群优化黑盒攻击。
具体地,改进的粒子群优化黑盒攻击包括:
通过粒子群优化添加的扰动值,适应度函数Fitness Function使用黑盒输出的目标概率计算得到:Fitness Function=e-p ;p为黑盒输出的目标概率。
当黑盒输出的目标概率p增大时,即达到攻击的目标要求。
本实施例的模型评估与分析引擎用于根据模拟攻击机制对目标算法模型的性能进行评估,即获得攻击反馈结果(又称模拟攻击结果)。在保证不影响模型容器运行的前提下,定期进行模拟攻击演练,利用不同的主动对抗算法获取攻击反馈结果。在模拟攻击前,创建克隆容器个体,保证不影响原容器的正常调用。
另外,本实施例的模型评估与分析引擎还根据攻击反馈结果自动生成主动防御建议,并制定相应的优化策略,即对抗攻击防御策略(又称对抗增强策略)。具体地,根据各种攻击算法的攻击成功率和平均置信度,确定优先防御的方向和当前模型的安全短板。根据主动防御建议中的各种算法的攻击有效性,自动选配个性化的防御方案,个性化防御算法包括以下算法:
(1)蒸馏防御:对大模型进行蒸馏,获取蒸馏后的模型进行部署,小幅精度提升模型鲁棒性和防白盒攻击能力;
(2)对抗训练:使用对抗攻击的样本进行模型增强,增强防白盒攻击能力;
(3)集成对抗训练:使用多种不同的对抗攻击的样本进行模型增强,增强防黑盒攻击能力;
(4)稳定性训练:引入额外的稳定性训练目标,对大量扰动样本进行训练,提升模型稳定性与鲁棒性。
本实施例的训练与部署引擎还用于根据主动防御建议与策略定期进行主动自适应对抗防御的增强、模型与数据更新,并重新进行建模;其中,算法组件库的模型建立pipeline已存储,根据建议结果可以自动将原模型加上修改后的结构进行复现。另外,后续还可以进行优化后模型的重部署,并进行对抗效果、精度、稳定性等的评估。
本实施例的算法组件库还可以根据行业模型与基础模型及数据类型,对各个对抗防御算法的频率、效果、精度影响等进行归纳,并针对行业与业务场景确定基本防御策略,更新算法组件库进行模型建立与训练时的通用主动自适应对抗防御机制。
以下通过以图片数据为例对本实施例的算法组件库的整体处理流程进行详细说明:
(1)对待训练图片数据集进行数据上界拟合和异常点检测,以进行投毒防御检测的准备工作;
如图2所示,由于数据类型为图片,采用Resnet50、VGG16和Xception三个backbone获取特征图,并通过One-Class SVM进行样本超平面拟合,确定图片数据集的数据上界;
(2)在建立模型时,算法安全防御引擎根据数据行业、业务场景以及图片数据类型,确定其防御机制;
(3)按照上述确定的防御机制,进行图片的数据投毒防御。具体地,如图2所示,对新增图片数据集采用与上述各网络共享权重的Resnet50、VGG16和Xception进行特征提取得到数据特征,并根据超平面拟合确定的数据上界判断数据特征是否超出数据上界,如果超出,则抛出投毒预警;如果未超出,则为正常数据并作为待训练数据集;另外,超出数据上界的样本会通过通用ImageNet分类器(如Resnet50)进行标签预判断,带辅助标记异常数据,便于处理投毒数据。
(4)按照上述所确定的防御机制,在模型权重初始化后、训练模型前,进行被动防御,对图片进行深度伪造检测,并对模型权重进行加密。其中,模型权重加密采用SM4的国密算法进行,在后续训练中,每次更新权重都会进行重新的加密保存,保证模型权重的安全性。
另外,如图3所示,深度伪造检测通过获取待训练图片的傅里叶频谱图、高通滤波后的DCT转换图进行图片伪造检测,伪造检测模型的建立流程如下:
首先,傅里叶频谱图指将图片三个通道的空间域数据分别转换至频域上,获得三通道傅里叶频谱图;
其次,高通滤波后的DCT转换图指将DCT图的左上角进行等腰三角形的低频数据剪裁,分别按照三角形的边长和图片宽长的比例,获取3:10、2:5、1:2、3:5四张不同的高通滤波DCT图;
最后,将待训练图片(即原图片)、三通道傅里叶频谱图、四张三通道高通滤波DCT图结合在一起,在通道维度进行组合,得到十八通道的数据,并通过Xception进行模型的训练,得到深度伪造模型。
(5)按照上述所确定的防御机制,在模型训练中进行主动防御,对图片样本依次进行样本随机化、输入重构和对抗训练增强,结束后保存部署的pipeline与加密后的模型参数。
其中,图片的样本随机化模块嵌入在图片的输入层后,在图片输入后,随机对图像进行翻转、缩放、角度偏移并在随机边填充零值数据,使其满足后续模型的结构,再进行模型训练,此类操作会将对抗样本训练的扰动特征弱化,且由于其为随机化,一定程度上提高了对白盒攻击的抵抗能力;
输入重构采用自编码器进行,将图片添加同尺寸的高斯噪声,将其输入至预先训练的自编码器中,还原去噪前的图像;加噪去噪的过程一并去除了对抗图像的扰动特征,增强了模型的鲁棒性。其中,输入重构编码器的训练收集了大量的图片,并添加高斯噪声产生加噪数据集,并通过将加噪数据集输入自编码器,获得降噪输出图片,与原图计算余弦相似度作为损失训练模型,最终得到输入重构编码器。
对抗训练增强通过在训练过程中添加产生扰动的网络模块,随机产生新的扰动样本加入训练来增强模型。其中,对抗训练增强采用梯度上升算法在训练过程中对当前模型权重实时产出最新扰动样本进行前向测试,并将正确标签组合添加扰动后的图片加入到训练中,增强模型的稳定性。
(6)按照上述所确定的防御机制,对训练得到的图像分类模型进行自适应白盒攻击。具体地,根据场景和行业,白盒攻击选择FGSM攻击、单像素点攻击和分界点样本定向攻击,攻击完成后获得对抗攻击的样本、原标签、目标标签以及攻击效果。
(7)按照上述所确定的防御机制,对训练得到的图像分类模型进行自适应黑盒攻击。具体地,根据场景和行业,黑盒攻击选择零阶优化、生成对抗网络和粒子群优化黑盒攻击,攻击完成后获得对抗攻击的样本、原标签、目标标签及攻击效果。
(8)根据上述白盒攻击和黑盒攻击的攻击效果,生成优化建议,将对抗样本与原标签加入到训练样本中。其中,若白盒攻击的单个攻击算法的攻击成功率大于阈值,则计算出白盒攻击对抗强化的建议评分;若黑盒攻击的单个攻击算法的攻击成功率大于阈值,则将计算出黑盒攻击强化的建议评分;
(9)根据上述白盒攻击对抗强化的建议评分和黑盒攻击强化的建议评分计算综合评分。
(10)根据上述评分,若达到阈值,则选配个性化的防御方案,个性化防御算法包括蒸馏防御、对抗训练、集成对抗训练、稳定性训练。具体地,若白盒攻击低于一级阈值则进行对抗训练,低于二级阈值则继续进行蒸馏防御;若黑盒攻击低于阈值,则进行集成对抗训练;若两者综合评分低于阈值,则进行稳定性训练。
(11)根据上述优化建议和新增对抗样本进行模型的复现训练增强,并通过对抗样本标签进行效果评估。
(12)根据评估的效果归纳对抗防御算法的频率、效果、精度影响,更新算法安全防御引擎的主动防御算法推荐。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (10)
1.一种自适应增强人工智能算法安全的算法组件库,其特征在于,包括:
模型库,用于存储算法模型;
数据存储调用引擎,用于控制数据的存储和调用;其中,数据的属性包括所属行业、场景和数据类型;
训练与部署引擎,用于根据训练防御机制对算法模型进行训练以及根据数据的属性部署相应的目标算法模型;
算法安全防御引擎,用于根据数据的属性选择相应的训练防御机制和模拟攻击机制;
模型评估与分析引擎,用于根据模拟攻击机制对目标算法模型的性能进行评估。
2.根据权利要求1所述的算法组件库,其特征在于,所述模型评估与分析引擎还根据评估后的结果生成相应的优化策略;其中,优化策略包括蒸馏防御、对抗训练、集成对抗训练和稳定性训练;
所述训练与部署引擎还用于根据优化策略对目标算法模型进行更新。
3.根据权利要求1所述的算法组件库,其特征在于,所述数据类型包括图片、音频、视频和文本。
4.根据权利要求3所述的算法组件库,其特征在于,所述训练防御机制包括被动自适应对抗防御机制和主动自适应防御机制;
所述被动自适应对抗防御机制包括两个阶段的防御:
第一阶段防御为:在模型训练之前对数据进行安全性检测,得到正常数据;
第二阶段防御为:根据正常数据的数据类型的不同选择不同的被动防御算法进行伪造检测,去除伪造数据,得到模型训练数据。
5.根据权利要求4所述的算法组件库,其特征在于,所述安全性检测采用数据上界判断方法区分正常数据与恶意数据,去除恶意数据,得到正常数据。
6.根据权利要求4所述的算法组件库,其特征在于,所述被动防御算法包括:
若数据类型为图片、视频,则通过频域特征分析,获取图片的隐藏特征,建立卷积神经网络模型进行图片、视频的伪造检测;
若数据类型为音频,则通过音频时序特征、音色变化、频段特征图,获取不同模态的特征,建立混合神经网络模型进行伪造音频检测。
7.根据权利要求4所述的算法组件库,其特征在于,所述被动自适应对抗防御机制还包括:
在模型训练过程中对模型权重进行加密存储,在调用算法模型时进行解密载入。
8.根据权利要求4所述的算法组件库,其特征在于,所述主动自适应防御机制为:
根据数据的属性选择相应的主动防御算法;其中,主动防御算法包括样本随机化、输入重构和对抗训练。
9.根据权利要求1-8任一项所述的算法组件库,其特征在于,所述模拟攻击机制包括自适应白盒攻击和自适应黑盒攻击;
自适应白盒攻击的攻击方法包括FGSM、BIM、L-BFGS、单像素攻击、特征攻击、盲点攻击和分界点样本定向攻击;
自适应黑盒攻击的攻击方法包括零阶优化、进化算法、生成对抗网络和粒子群优化黑盒攻击。
10.根据权利要求9所述的算法组件库,其特征在于,所述分界点样本定向攻击包括:
通过部分正常数据集对模型进行概率分布分析,确定多分类的概率分布,对主类别概率小于阈值的部分样本进行针对性攻击,引导模型指向部分样本的第二大概率的类别;其中,针对性攻击的过程为:对部分样本的最后一层全连接层的特征数据进行分析,确定部分样本对应的各个类别簇,并确定簇中心与簇平均距离,在训练对抗样本时,通过当前样本特征与目标簇中心的距离来进行诱导,将其加入到总损失中,得到总损失Loss为:
其中,consine为余弦度计算,x为当前样本特征,c t 为当前样本特征对应的目标簇中心,c s 为当前样本特征对应的原簇中心,r t 为目标簇平均距离,r s 为原簇平均距离;
所述粒子群优化黑盒攻击包括:
通过粒子群优化添加的扰动值,适应度函数Fitness Function使用黑盒输出的目标概率计算得到:Fitness Function=e-p ;p为黑盒输出的目标概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310473597.0A CN116204890B (zh) | 2023-04-28 | 2023-04-28 | 一种自适应增强人工智能算法安全的算法组件库 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310473597.0A CN116204890B (zh) | 2023-04-28 | 2023-04-28 | 一种自适应增强人工智能算法安全的算法组件库 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116204890A true CN116204890A (zh) | 2023-06-02 |
CN116204890B CN116204890B (zh) | 2023-07-21 |
Family
ID=86515010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310473597.0A Active CN116204890B (zh) | 2023-04-28 | 2023-04-28 | 一种自适应增强人工智能算法安全的算法组件库 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204890B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110182881A1 (en) * | 2008-06-26 | 2011-07-28 | Dana-Farber Cancer Institute, Inc. | Signature and determinants associated with metastasis and methods of use thereof |
CN112464245A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 一种面向深度学习图像分类模型的泛化的安全性评估方法 |
US20210089879A1 (en) * | 2019-09-24 | 2021-03-25 | Robert Bosch Gmbh | Bayesian-optimization-based query-efficient black-box adversarial attacks |
CN113127857A (zh) * | 2021-04-16 | 2021-07-16 | 湖南大学 | 针对对抗性攻击的深度学习模型防御方法及深度学习模型 |
CN113901464A (zh) * | 2021-09-03 | 2022-01-07 | 北京邮电大学 | 基于服务编排的人工智能安全架构系统、方法及相关设备 |
CN114584337A (zh) * | 2021-12-16 | 2022-06-03 | 南京理工大学 | 一种基于遗传算法的语音攻击伪造方法 |
CN115098864A (zh) * | 2022-06-10 | 2022-09-23 | 中电海康集团有限公司 | 一种图像识别模型的评测方法、装置、介质及电子设备 |
CN115442050A (zh) * | 2022-08-29 | 2022-12-06 | 成都安恒信息技术有限公司 | 一种基于sm9算法的隐私保护的联邦学习方法 |
CN115577358A (zh) * | 2022-10-25 | 2023-01-06 | 东南大学 | 基于移动目标防御思想的安卓恶意软件对抗样本检测方法 |
CN115801366A (zh) * | 2022-11-08 | 2023-03-14 | 北京天融信网络安全技术有限公司 | 攻击检测的方法、装置、电子设备及计算机可读存储介质 |
-
2023
- 2023-04-28 CN CN202310473597.0A patent/CN116204890B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110182881A1 (en) * | 2008-06-26 | 2011-07-28 | Dana-Farber Cancer Institute, Inc. | Signature and determinants associated with metastasis and methods of use thereof |
US20210089879A1 (en) * | 2019-09-24 | 2021-03-25 | Robert Bosch Gmbh | Bayesian-optimization-based query-efficient black-box adversarial attacks |
CN112464245A (zh) * | 2020-11-26 | 2021-03-09 | 重庆邮电大学 | 一种面向深度学习图像分类模型的泛化的安全性评估方法 |
CN113127857A (zh) * | 2021-04-16 | 2021-07-16 | 湖南大学 | 针对对抗性攻击的深度学习模型防御方法及深度学习模型 |
CN113901464A (zh) * | 2021-09-03 | 2022-01-07 | 北京邮电大学 | 基于服务编排的人工智能安全架构系统、方法及相关设备 |
CN114584337A (zh) * | 2021-12-16 | 2022-06-03 | 南京理工大学 | 一种基于遗传算法的语音攻击伪造方法 |
CN115098864A (zh) * | 2022-06-10 | 2022-09-23 | 中电海康集团有限公司 | 一种图像识别模型的评测方法、装置、介质及电子设备 |
CN115442050A (zh) * | 2022-08-29 | 2022-12-06 | 成都安恒信息技术有限公司 | 一种基于sm9算法的隐私保护的联邦学习方法 |
CN115577358A (zh) * | 2022-10-25 | 2023-01-06 | 东南大学 | 基于移动目标防御思想的安卓恶意软件对抗样本检测方法 |
CN115801366A (zh) * | 2022-11-08 | 2023-03-14 | 北京天融信网络安全技术有限公司 | 攻击检测的方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
BIN LIU 等: "Mode division-based anomaly detection against integrity and availability attacks in industrial cyber-physical systems", 《COMPUTERS IN INDUSTRY》, vol. 137, pages 1 - 10 * |
宫羽欣: "基于注意力机制的对抗样本检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1869 * |
Also Published As
Publication number | Publication date |
---|---|
CN116204890B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214973B (zh) | 针对隐写分析神经网络的对抗安全载体生成方法 | |
CN107563155B (zh) | 一种基于生成对抗网络的安全隐写方法和装置 | |
US20230308465A1 (en) | System and method for dnn-based cyber-security using federated learning-based generative adversarial network | |
CN111160110A (zh) | 基于人脸特征和声纹特征识别主播的方法及装置 | |
Ye et al. | Detection defense against adversarial attacks with saliency map | |
CN107273916A (zh) | 隐写算法未知的信息隐藏检测方法 | |
WO2023093346A1 (zh) | 基于外源特征进行模型所有权验证的方法和装置 | |
CN112116026A (zh) | 一种对抗样本生成方法、系统、存储介质和装置 | |
CN110598794A (zh) | 一种分类对抗的网络攻击检测方法及系统 | |
CN116204890B (zh) | 一种自适应增强人工智能算法安全的算法组件库 | |
CN114301850A (zh) | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 | |
CN117576655A (zh) | 基于联邦学习的交通标志检测方法与系统 | |
CN115632843A (zh) | 基于目标检测的后门攻击防御模型的生成方法 | |
CN112785478B (zh) | 基于生成嵌入概率图的隐藏信息检测方法和系统 | |
CN111639718B (zh) | 分类器应用方法及装置 | |
CN116258867A (zh) | 一种基于关键区域低感知性扰动的对抗样本生成方法 | |
CN114493972A (zh) | 一种对抗式生成网络版权保护方法 | |
CN113487506A (zh) | 基于注意力去噪的对抗样本防御方法、装置和系统 | |
CN112464979A (zh) | 一种基于图像变换与随机化处理的对抗样本防御方法 | |
CN114065867B (zh) | 一种数据分类方法、系统及电子设备 | |
CN117909940B (zh) | 一种基于泰勒展开的分层加密dnn主动保护方法及系统 | |
CN117240982B (zh) | 一种基于隐私保护的视频脱敏方法 | |
CN117830314B (zh) | 微观编码图像翻拍检测方法、装置、移动终端及存储介质 | |
CN114254275B (zh) | 一种基于对抗样本指纹的黑盒深度学习模型版权保护方法 | |
CN117951673B (zh) | 一种反ai诈骗的方法、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |