CN116204890A

CN116204890A - 一种自适应增强人工智能算法安全的算法组件库

Info

Publication number: CN116204890A
Application number: CN202310473597.0A
Authority: CN
Inventors: 陈晓莉; 赵祥廷; 马峰; 艾舒欣; 朱崇; 林建洪
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-06-02
Anticipated expiration: 2043-04-28
Also published as: CN116204890B

Abstract

本发明属于网络安全及深度学习技术领域，具体涉及一种自适应增强人工智能算法安全的算法组件库，包括：模型库，用于存储算法模型；数据存储调用引擎，用于控制数据的存储和调用；其中，数据的属性包括所属行业、场景和数据类型；训练与部署引擎，用于根据训练防御机制对算法模型进行训练以及根据数据的属性部署相应的目标算法模型；算法安全防御引擎，用于根据数据的属性选择相应的训练防御机制和模拟攻击机制；模型评估与分析引擎，用于根据模拟攻击机制对目标算法模型的性能进行评估。本发明的算法组件库，通过训练防御机制以及模拟攻击机制，实现人工智能算法的安全监测与增强。

Description

一种自适应增强人工智能算法安全的算法组件库

技术领域

本发明属于网络安全及深度学习技术领域，具体涉及一种自适应增强人工智能算法安全的算法组件库。

背景技术

随着深度学习网络模型的广域化应用，不同行业、不同场景也都有了系统化、可行性高、鲁棒性强的算法方案，算法组件库的构建也对快速的模型建立、精准的模型预测及长久的模型维护有着至关重要的作用。但随着模型的不断发展与数量递增，不法分子的恶意攻击也源源不断，算法模型的安全难以得到有效保障。

发明内容

基于现有技术中存在的上述不足，本发明的目的是一种自适应增强人工智能算法安全的算法组件库。

为了达到上述发明目的，本发明采用以下技术方案：

一种自适应增强人工智能算法安全的算法组件库，包括：

模型库，用于存储算法模型；

数据存储调用引擎，用于控制数据的存储和调用；其中，数据的属性包括所属行业、场景和数据类型；

训练与部署引擎，用于根据训练防御机制对算法模型进行训练以及根据数据的属性部署相应的目标算法模型；

算法安全防御引擎，用于根据数据的属性选择相应的训练防御机制和模拟攻击机制；

模型评估与分析引擎，用于根据模拟攻击机制对目标算法模型的性能进行评估。

作为优选方案，所述模型评估与分析引擎还根据评估后的结果生成相应的优化策略；其中，优化策略包括蒸馏防御、对抗训练、集成对抗训练和稳定性训练；

所述训练与部署引擎还用于根据优化策略对目标算法模型进行更新。

作为优选方案，所述数据类型包括图片、音频、视频和文本。

作为优选方案，所述训练防御机制包括被动自适应对抗防御机制和主动自适应防御机制；

所述被动自适应对抗防御机制包括两个阶段的防御：

第一阶段防御为：在模型训练之前对数据进行安全性检测，得到正常数据；

第二阶段防御为：根据正常数据的数据类型的不同选择不同的被动防御算法进行伪造检测，去除伪造数据，得到模型训练数据。

作为优选方案，所述安全性检测采用数据上界判断方法区分正常数据与恶意数据，去除恶意数据，得到正常数据。

作为优选方案，所述被动防御算法包括：

若数据类型为图片、视频，则通过频域特征分析，获取图片的隐藏特征，建立卷积神经网络模型进行图片、视频的伪造检测；

若数据类型为音频，则通过音频时序特征、音色变化、频段特征图，获取不同模态的特征，建立混合神经网络模型进行伪造音频检测。

作为优选方案，所述被动自适应对抗防御机制还包括：

在模型训练过程中对模型权重进行加密存储，在调用算法模型时进行解密载入。

作为优选方案，所述主动自适应防御机制为：

根据数据的属性选择相应的主动防御算法；其中，主动防御算法包括样本随机化、输入重构和对抗训练。

作为优选方案，所述模拟攻击机制包括自适应白盒攻击和自适应黑盒攻击；

自适应白盒攻击的攻击方法包括FGSM、BIM、L-BFGS、单像素攻击、特征攻击、盲点攻击和分界点样本定向攻击；

自适应黑盒攻击的攻击方法包括零阶优化、进化算法、生成对抗网络和粒子群优化黑盒攻击。

作为优选方案，所述分界点样本定向攻击包括：

通过部分正常数据集对模型进行概率分布分析，确定多分类的概率分布，对主类别概率小于阈值的部分样本进行针对性攻击，引导模型指向部分样本的第二大概率的类别；其中，针对性攻击的过程为：对部分样本的最后一层全连接层的特征数据进行分析，确定部分样本对应的各个类别簇，并确定簇中心与簇平均距离，在训练对抗样本时，通过当前样本特征与目标簇中心的距离来进行诱导，将其加入到总损失中，得到总损失Loss为：

；

其中，consine为余弦度计算，x为当前样本特征，c _t为当前样本特征对应的目标簇中心，c _s为当前样本特征对应的原簇中心，r _t为目标簇平均距离，r _s为原簇平均距离；

所述粒子群优化黑盒攻击包括：

通过粒子群优化添加的扰动值，适应度函数Fitness Function使用黑盒输出的目标概率计算得到：Fitness Function=e^-p；p为黑盒输出的目标概率。

本发明与现有技术相比，有益效果是：

本发明的算法组件库，通过训练防御机制以及模拟攻击机制，实现人工智能算法的安全监测与增强。

附图说明

图1是本发明实施例1的算法组件库的构架图；

图2是本发明实施例1的以图片数据为例的数据投毒防御前的数据处理流程；

图3是本发明实施例1的以图片数据为例的深度伪造检测的流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，本实施例的自适应增强人工智能算法安全的算法组件库，包括模型库、数据存储调用引擎、训练与部署引擎、算法安全防御引擎和模型评估与分析引擎。本实施例的算法组件库是集归纳、训练、评估、校验、部署及监测于一体的算法建模平台工具，其可以通过AutoML等方式进行行业模型与基础模型的建立，并将其应用于平台中，平台的模型量大且质量较高。

具体地，本实施例的模型库用于存储人工智能算法模型，包括模型1、模型2、模型3等，算法模型的具体数量可根据实际应用需求进行配置。

本实施例的数据存储调用引擎用于控制数据的存储和调用；其中，数据的属性包括所属行业、场景和数据类型。本实施例的数据类型包括图片、音频、视频和文本等。

本实施例的训练与部署引擎用于基于训练请求，根据训练防御机制对算法模型进行训练、自动调参、资源控制以及权重部署，包括模型的加速、量化等，还用于根据数据的属性部署相应的目标算法模型。相应地，本实施例的算法安全防御引擎用于根据数据的属性选择相应的训练防御机制。

其中，本实施例的训练防御机制包括被动自适应对抗防御机制和主动自适应防御机制；在算法组件库进行模型建立与训练时，加入被动自适应对抗防御机制与主动自适应防御机制。具体地，本实施例的被动自适应对抗防御机制包括两个阶段的防御：

第一阶段防御为：在模型训练之前对数据进行安全性检测，通过自适应数据投毒防御（即数据防御机制）进行数据的安全性检测，主要包含正常数据与恶意数据的区分，具体通过数据上界判断方法进行区分，去除恶意数据，得到正常数据；

第二阶段防御为：在模型构建时，根据数据与模型类型加入不同的被动防御算法，一定程度防御白盒与黑盒攻击；具体地，根据正常数据的数据类型的不同选择不同的被动防御算法进行伪造检测，去除伪造数据，得到模型训练数据。

通用被动防御算法在权重层面，模型权重加密存储，通过解码载入内存进行调用，即在模型训练过程中对模型权重进行加密存储，在调用算法模型时进行解密载入。在样本层面，算法组件库内采用伪造视频检测、伪造音频检测等进行基本的伪造检测。

具体地，若数据类型为图片、视频，伪造视频检测通过频域特征分析，获取图片的隐藏特征，建立卷积神经网络模型，从不同角度进行图片、视频的伪造检测；

若数据类型为音频，伪造音频检测通过音频时序特征、音色变化、频段特征图，获取不同模态的特征，建立混合神经网络模型，从而进行有效的音频检测。

本实施例的主动自适应防御机制来自于算法组件库内所有算法的归纳，根据不同的业务场景与数据类型有不同的防御算法，本实施例的算法组件库中的基本主动防御算法为：样本随机化、输入重构和对抗训练。其中，样本随机化为通过调整大小、随机填充等处理输入；输入重构为通过高斯噪声在自编码器去除噪声来减小扰动的影响；对抗训练为在模型训练时加入对抗网络，增强模型基本稳定性与鲁棒性。

待模型训练完成之后，算法组件库的训练与部署引擎进行行业模型与业务模型的部署，保存部署的pipeline与加密后的模型参数。

另外，本实施例的算法安全防御引擎还用于根据数据的属性选择相应的模拟攻击机制。其中，模拟攻击机制包括自适应白盒攻击和自适应黑盒攻击。

本实施例的自适应白盒攻击的攻击方法包括现有的FGSM、BIM、L-BFGS、单像素攻击、特征攻击、盲点攻击和改进的分界点样本定向攻击。

具体地，改进的分界点样本定向攻击包括：

；

其中，consine为余弦度计算，x为当前样本特征，c _t为当前样本特征对应的目标簇中心，c _s为当前样本特征对应的原簇中心，r _t为目标簇平均距离，r _s为原簇平均距离。

当总损失Loss上升时，即达到攻击的目标要求。

本实施例的自适应黑盒攻击的攻击方法包括现有的零阶优化、进化算法、生成对抗网络和改进的粒子群优化黑盒攻击。

具体地，改进的粒子群优化黑盒攻击包括：

当黑盒输出的目标概率p增大时，即达到攻击的目标要求。

本实施例的模型评估与分析引擎用于根据模拟攻击机制对目标算法模型的性能进行评估，即获得攻击反馈结果（又称模拟攻击结果）。在保证不影响模型容器运行的前提下，定期进行模拟攻击演练，利用不同的主动对抗算法获取攻击反馈结果。在模拟攻击前，创建克隆容器个体，保证不影响原容器的正常调用。

另外，本实施例的模型评估与分析引擎还根据攻击反馈结果自动生成主动防御建议，并制定相应的优化策略，即对抗攻击防御策略（又称对抗增强策略）。具体地，根据各种攻击算法的攻击成功率和平均置信度，确定优先防御的方向和当前模型的安全短板。根据主动防御建议中的各种算法的攻击有效性，自动选配个性化的防御方案，个性化防御算法包括以下算法：

（1）蒸馏防御：对大模型进行蒸馏，获取蒸馏后的模型进行部署，小幅精度提升模型鲁棒性和防白盒攻击能力；

（2）对抗训练：使用对抗攻击的样本进行模型增强，增强防白盒攻击能力；

（3）集成对抗训练：使用多种不同的对抗攻击的样本进行模型增强，增强防黑盒攻击能力；

（4）稳定性训练：引入额外的稳定性训练目标，对大量扰动样本进行训练，提升模型稳定性与鲁棒性。

本实施例的训练与部署引擎还用于根据主动防御建议与策略定期进行主动自适应对抗防御的增强、模型与数据更新，并重新进行建模；其中，算法组件库的模型建立pipeline已存储，根据建议结果可以自动将原模型加上修改后的结构进行复现。另外，后续还可以进行优化后模型的重部署，并进行对抗效果、精度、稳定性等的评估。

本实施例的算法组件库还可以根据行业模型与基础模型及数据类型，对各个对抗防御算法的频率、效果、精度影响等进行归纳，并针对行业与业务场景确定基本防御策略，更新算法组件库进行模型建立与训练时的通用主动自适应对抗防御机制。

以下通过以图片数据为例对本实施例的算法组件库的整体处理流程进行详细说明：

（1）对待训练图片数据集进行数据上界拟合和异常点检测，以进行投毒防御检测的准备工作；

如图2所示，由于数据类型为图片，采用Resnet50、VGG16和Xception三个backbone获取特征图，并通过One-Class SVM进行样本超平面拟合，确定图片数据集的数据上界；

（2）在建立模型时，算法安全防御引擎根据数据行业、业务场景以及图片数据类型，确定其防御机制；

（3）按照上述确定的防御机制，进行图片的数据投毒防御。具体地，如图2所示，对新增图片数据集采用与上述各网络共享权重的Resnet50、VGG16和Xception进行特征提取得到数据特征，并根据超平面拟合确定的数据上界判断数据特征是否超出数据上界，如果超出，则抛出投毒预警；如果未超出，则为正常数据并作为待训练数据集；另外，超出数据上界的样本会通过通用ImageNet分类器（如Resnet50）进行标签预判断，带辅助标记异常数据，便于处理投毒数据。

（4）按照上述所确定的防御机制，在模型权重初始化后、训练模型前，进行被动防御，对图片进行深度伪造检测，并对模型权重进行加密。其中，模型权重加密采用SM4的国密算法进行，在后续训练中，每次更新权重都会进行重新的加密保存，保证模型权重的安全性。

另外，如图3所示，深度伪造检测通过获取待训练图片的傅里叶频谱图、高通滤波后的DCT转换图进行图片伪造检测，伪造检测模型的建立流程如下：

首先，傅里叶频谱图指将图片三个通道的空间域数据分别转换至频域上，获得三通道傅里叶频谱图；

其次，高通滤波后的DCT转换图指将DCT图的左上角进行等腰三角形的低频数据剪裁，分别按照三角形的边长和图片宽长的比例，获取3：10、2：5、1：2、3：5四张不同的高通滤波DCT图；

最后，将待训练图片（即原图片）、三通道傅里叶频谱图、四张三通道高通滤波DCT图结合在一起，在通道维度进行组合，得到十八通道的数据，并通过Xception进行模型的训练，得到深度伪造模型。

（5）按照上述所确定的防御机制，在模型训练中进行主动防御，对图片样本依次进行样本随机化、输入重构和对抗训练增强，结束后保存部署的pipeline与加密后的模型参数。

其中，图片的样本随机化模块嵌入在图片的输入层后，在图片输入后，随机对图像进行翻转、缩放、角度偏移并在随机边填充零值数据，使其满足后续模型的结构，再进行模型训练，此类操作会将对抗样本训练的扰动特征弱化，且由于其为随机化，一定程度上提高了对白盒攻击的抵抗能力；

输入重构采用自编码器进行，将图片添加同尺寸的高斯噪声，将其输入至预先训练的自编码器中，还原去噪前的图像；加噪去噪的过程一并去除了对抗图像的扰动特征，增强了模型的鲁棒性。其中，输入重构编码器的训练收集了大量的图片，并添加高斯噪声产生加噪数据集，并通过将加噪数据集输入自编码器，获得降噪输出图片，与原图计算余弦相似度作为损失训练模型，最终得到输入重构编码器。

对抗训练增强通过在训练过程中添加产生扰动的网络模块，随机产生新的扰动样本加入训练来增强模型。其中，对抗训练增强采用梯度上升算法在训练过程中对当前模型权重实时产出最新扰动样本进行前向测试，并将正确标签组合添加扰动后的图片加入到训练中，增强模型的稳定性。

（6）按照上述所确定的防御机制，对训练得到的图像分类模型进行自适应白盒攻击。具体地，根据场景和行业，白盒攻击选择FGSM攻击、单像素点攻击和分界点样本定向攻击，攻击完成后获得对抗攻击的样本、原标签、目标标签以及攻击效果。

（7）按照上述所确定的防御机制，对训练得到的图像分类模型进行自适应黑盒攻击。具体地，根据场景和行业，黑盒攻击选择零阶优化、生成对抗网络和粒子群优化黑盒攻击，攻击完成后获得对抗攻击的样本、原标签、目标标签及攻击效果。

（8）根据上述白盒攻击和黑盒攻击的攻击效果，生成优化建议，将对抗样本与原标签加入到训练样本中。其中，若白盒攻击的单个攻击算法的攻击成功率大于阈值，则计算出白盒攻击对抗强化的建议评分；若黑盒攻击的单个攻击算法的攻击成功率大于阈值，则将计算出黑盒攻击强化的建议评分；

（9）根据上述白盒攻击对抗强化的建议评分和黑盒攻击强化的建议评分计算综合评分。

（10）根据上述评分，若达到阈值，则选配个性化的防御方案，个性化防御算法包括蒸馏防御、对抗训练、集成对抗训练、稳定性训练。具体地，若白盒攻击低于一级阈值则进行对抗训练，低于二级阈值则继续进行蒸馏防御；若黑盒攻击低于阈值，则进行集成对抗训练；若两者综合评分低于阈值，则进行稳定性训练。

（11）根据上述优化建议和新增对抗样本进行模型的复现训练增强，并通过对抗样本标签进行效果评估。

（12）根据评估的效果归纳对抗防御算法的频率、效果、精度影响，更新算法安全防御引擎的主动防御算法推荐。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种自适应增强人工智能算法安全的算法组件库，其特征在于，包括：

模型库，用于存储算法模型；

2.根据权利要求1所述的算法组件库，其特征在于，所述模型评估与分析引擎还根据评估后的结果生成相应的优化策略；其中，优化策略包括蒸馏防御、对抗训练、集成对抗训练和稳定性训练；

3.根据权利要求1所述的算法组件库，其特征在于，所述数据类型包括图片、音频、视频和文本。

4.根据权利要求3所述的算法组件库，其特征在于，所述训练防御机制包括被动自适应对抗防御机制和主动自适应防御机制；

所述被动自适应对抗防御机制包括两个阶段的防御：

5.根据权利要求4所述的算法组件库，其特征在于，所述安全性检测采用数据上界判断方法区分正常数据与恶意数据，去除恶意数据，得到正常数据。

6.根据权利要求4所述的算法组件库，其特征在于，所述被动防御算法包括：

7.根据权利要求4所述的算法组件库，其特征在于，所述被动自适应对抗防御机制还包括：

8.根据权利要求4所述的算法组件库，其特征在于，所述主动自适应防御机制为：

9.根据权利要求1-8任一项所述的算法组件库，其特征在于，所述模拟攻击机制包括自适应白盒攻击和自适应黑盒攻击；

10.根据权利要求9所述的算法组件库，其特征在于，所述分界点样本定向攻击包括：

；

所述粒子群优化黑盒攻击包括：