CN117496118A

CN117496118A - 一种目标检测模型的窃取脆弱性分析方法和系统

Info

Publication number: CN117496118A
Application number: CN202311374926.2A
Authority: CN
Inventors: 纪守领; 李泽宇; 施程辉; 张旭鸿; 蒲誉文; 沈剑; 江莉; 周颖杰; 杨星
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-02-02
Anticipated expiration: 2043-10-23
Also published as: CN117496118B

Abstract

本发明公开了一种目标检测模型的窃取脆弱性分析方法和系统，属于模型窃取和人工智能知识产权保护分析领域。包括：获取相应任务场景和预测类别的无标注样本集；基于不确定度的主动学习方法，从无标注样本集中筛选查询数据集并迭代训练替代模型；基于互联网样本的数据集增强，更新查询数据集；基于目标检测的多尺度一致性，优化更新后的查询数据集中的标注；基于优化标注后的查询数据集训练替代模型；根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。本发明填补了现有研究中针对目标检测深度学习模型的模型窃取威胁分析的空缺。

Description

一种目标检测模型的窃取脆弱性分析方法和系统

技术领域

本发明涉及模型窃取和人工智能知识产权保护分析领域，具体涉及一种目标检测模型的模型窃取脆弱性的分析方法和系统。

背景技术

随着近年来深度学习在工业各界的应用不断拓展，其规模和能力也在不断提升，模型的训练成本，如数据和算力随之提升。因此，深度学习模型也成为了比较有价值的智能资产，也诞生了窃取这些模型资产的模型窃取攻击。模型窃取攻击主要分为基于查询的窃取攻击和及侧信道的窃取攻击。其中基于查询的模型窃取攻击允许攻击者通过访问等方式构建替代数据集，在本地构建功能类似的本地模型，从而以较小的成本获得和目标模型高度相似的替代品。这种攻击对基于深度学习模型的机器学习即服务(Machine Learning asa service，MLaaS)平台带来了较大的威胁。目标检测模型作为在自动驾驶和工业检测等领域得到广泛应用的深度学习模型，在深度学习云服务中较为常见，其模型知识产权也受到了威胁。

在基于查询的模型窃取攻击中，攻击者可以基于目标模型的任务构建一个查询数据集，并使用查询数据集中的样本查询目标模型，同时将查询得到的结果作为查询数据集的标签。最后攻击者即可通过查询数据集训练得到一个具有与目标模型相似功能的替代模型。基于这种窃取方法，攻击者可以使用相对较少的数据量和算力复制云服务中的目标模型，破坏模型的保密性，甚至利用窃取得到的替代模型对目标模型进行迁移对抗攻击或者模型反演攻击，损害目标模型所有者的利益。模型窃取攻击不仅反映了深度学习模型作为智能知识产权的脆弱性，同时也阻碍了人工智能相关技术在工业界的规范应用和发展，因此，针对目标检测模型的窃取脆弱性的分析研究很有研究意义。

虽然现有的针对深度学习模型的窃取攻防研究已经愈发成熟，但是目前学术界的工作主要集中于针对分类模型的模型窃取攻击威胁，而针对类似于目标检测模型这种在深度学习云服务商更常见的任务场景却很少有工作涉及。目前学术界在模型窃取方面针对分类模型、图神经网络模型、图像编码器和生成模型等深度学习网络种类已经有了较为成熟的研究，但是，目前没有针对目标检测模型的模型窃取研究。

目标检测模型在未来的现实场景中势必得到更多的研究和应用，因此研究目标检测模型的模型窃取脆弱性有利于人工智能知识产权保护的研究，引导目标检测模型在现实场景中的安全应用，促进相关技术的应用和发展，是很有必要的。

发明内容

本发明针对现有研究中针对目标检测深度学习模型的模型窃取威胁分析的空缺，提出了目标检测模型的模型窃取脆弱性的分析方法和系统。

本发明提出的技术方案如下：

第一方面，本发明提出了一种目标检测模型的窃取脆弱性分析方法，包括以下步骤：

(1)获取待分析的目标模型的任务场景和所有预测类别，获取任务场景下的样本，得到一个无标注样本集；

(2)通过基于不确定度的主动学习方法，从无标注样本集中选取数据构成查询数据集并通过目标模型标注，基于查询数据集迭代训练替代模型；

(3)针对查询数据集中的稀有类别，通过关键词搜索互联网样本，并通过替代模型的置信度筛选后得到增强数据集，将增强数据集通过目标模型标注后加入到查询数据集中，更新查询数据集；

(4)基于目标检测的多尺度一致性，优化更新后的查询数据集中的标注；

(5)基于优化标注后的查询数据集训练替代模型；

(6)根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。

进一步地，步骤(2)包括：

(2-1)遍历无标注样本集中的样本，基于替代模型的输出分别计算定位不确定度和分类不确定度；

(2-2)根据定位不确定度和分类不确定度计算总不确定度，从无标注样本集中筛选出总不确定度最高的一批样本，由目标模型标注后加入到查询数据集，并将筛选出来的样本从无标注样本集中剔除；

(2-3)基于当前的查询数据集训练替代模型；

(2-4)重复步骤(2-1)至(2-3)，直到查询数据集达到规模上限，保留利用规模上限的数据集训练后的替代模型。

进一步地，所述的步骤(2-1)具体为：

(2-1-1)遍历无标注样本集中的每一个样本，将其输入到最新迭代训练后的替代模型中，识别该样本中的所有目标，输出目标类别、预测框、分类置信度和目标置信度，所述的目标置信度为该目标属于前景的置信度；

(2-2-2)计算分类不确定度时，先经过非极大值抑制过滤部分预测框，再利用每一个目标的分类置信度中最大的两个值计算不确定度，两者越接近越说明替代模型无法给出确定性的分类结果，针对样本中第i个目标o_i的分类不确定度的计算公式为：

其中，U_c(o_i)表示第i个目标o_i的分类不确定度，Conf_obj(o_i)表示第i个目标o_i的目标置信度，K为目标任务的所有类别，c₁、c₂表示类别变量，表示取第i个目标o_i的分类置信度中的最大值，/>表示取第i个目标o_i的分类置信度中的第二大值；

将样本中所有目标的分类不确定度之和作为该样本的分类不确定度；

(2-2-3)计算定位不确定度时，选取样本中第i个目标o_i的所有预测框，计算目标o_i对应的置信度最大的预测框b_i，0与其余预测框b_i，j，j＝1，2，...，n的交互比，基于交互比计算定位不确定度，计算公式为：

其中，U_p(o_i)表示第i个目标o_i的定位不确定度，iou(.，.)表示两个预测框的交互比，n表示除置信度最大的预测框之外的其余预测框数量；

将样本中所有目标的定位不确定度之和作为该样本的定位不确定度。

进一步地，步骤(3)包括：

(3-1)根据步骤(2)得到的查询数据集，将所有目标类别划分为常见类别和稀有类别；

(3-2)基于稀有类别和任务场景构建搜索关键字，通过搜索引擎搜索互联网样本，得到初始互联网样本集合；

(3-3)基于替代模型评估初始互联网样本集合中样本的信息含量；

(3-4)筛选出信息含量最高的一批样本，由目标模型标注后加入到查询数据集中。

进一步地，所述的步骤(3-3)中的信息含量计算公式为：

S(x)＝(α·mean(Conf(x))+std(Conf(x)))·size(x)

其中，α表示超参数，Conf(x)表示替代模型对样本x的所有预测框的分类置信度，size(x)表示样本x的尺寸大小，mean和std分别表示均值和标准差，S(x)表示样本x的信息含量。

进一步地，通过目标模型标注样本时，为每个目标类别设置动态阈值θ_c，根据所述的动态阈值θ_c过滤低置信度的检测结果，利用过滤后的检测结果标注样本。

进一步地，步骤(4)包括：

(4-1)遍历查询数据集中的每一个样本x，将样本x缩放到多个不同尺度得到x₁、x₂、x₃；

(4-2)基于替代模型得到不同尺度样本的预测结果y₁、y₂、y₃；

(4-3)根据不同尺度样本的预测结果，选择一致性较高的预测框并加入到该样本的标注文件中。

进一步地，所述的步骤(4-3)具体为：

(4-3-1)遍历查询数据集中的每一个样本x，选择某个尺度下的预测结果作为数据集标注更新的候选y；

(4-3-2)基于一致性检验标准计算y的尺度一致性C(y)：

其中，表示样本在第i个尺度下检测到的第j个目标的预测框，m_i表示样本在第i个尺度下检测到的目标数量，iou(.，.)表示两个预测框的交互比；

(4-3-3)判断尺度一致性是否大于阈值，若是，则将候选y加入对应样本的标注文件中。

进一步地，步骤(6)包括：

(6-1)以mAP为评价指标，使用目标模型数据集中的测试集分别测试目标模型和替代模型的性能；

(6-2)基于目标模型和替代模型在测试集上的表现，计算替代模型和目标模型的评价指标的比值，比值越高，则目标模型的窃取脆弱性越高。

第二方面，本发明提出一种目标检测模型的窃取脆弱性分析系统，用于实现上述窃取脆弱性分析方法。

与现有技术相比，本发明的有益效果为：

(1)本发明综合考虑了目标检测模型中的分类和定位子任务，通过重新设计主动学习方法提高了针对目标模型的窃取脆弱性分析效率。

(2)本发明通过针对特定稀缺类别的数据集增强，缓解了查询数据集的不平衡问题，针对所有类别都能达到更加均衡的脆弱性分析效果。

(3)本发明通过替代模型对查询数据集标注进行了动态更新和优化，解决了目标模型会返回部分低质量标注的问题，防止因为查询数据集和目标数据集的分布存在差异而导致脆弱性分析效果不佳。

附图说明

图1为目标检测模型的窃取脆弱性分析系统的架构图；

图2为通过主动学习构建查询数据集的流程图；

图3为基于互联网样本的数据集增强流程图；

图4为目标检测模型的窃取脆弱性分析方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

在本发明提供的一个实施例中，如图1所示为本发明针对目标检测模型窃取脆弱性分析系统的架构图，主要分为六个模块：基于主动学习的查询数据集初始化模块、基于互联网样本的数据集增强模块、基于尺寸一致性的标注动态更新模块、目标模型查询模块、替代模型训练模块和目标模型窃取脆弱性评价模块。接下来分别对这六个模块进行介绍：

1、基于主动学习的查询数据集初始化模块

该模块的主要目的是提取无标注样本集D_U中的高质量样本，用以初始化查询数据集D_Q，使用主动学习能够缩减D_Q中的样本数量，提高整体的脆弱性分析效率，其主要的流程如图2所示。主动学习是一种加快深度学习模型训练的常用技术，一般的流程为待训练模型主动挑选高质量或具有较高不确定度的无标注样本交由专家打标，再加入到训练集训练的迭代过程，可以有效缩减专家打标的工作成本。在针对分类模型等架构的模型窃取方法中，基于主动学习的方法得到了广泛的应用，有效的提高了查询数据集构建效率并减少了查询成本。在目标检测任务场景中，样本在模型窃取过程中的贡献根据其中前景目标的数量、种类和图像质量会发生更大变化，这使得基于主动学习的数据筛选在针对目标检测模型的查询数据集构建中能发挥更大作用。但是，现有的基于主动学习进行模型窃取的方法大多只考虑了模型在分类任务上的不确信度，由于目标检测模型包含分类和定位两个子任务分支，仅考虑分类任务上的不确信度是不够的，本发明综合考虑了分类和定位的不确定度。同时在第一阶段的查询数据集构建中采取了迭代式的操作，每一步通过替代模型M_S为查询数据集D_Q筛选样本。如图2所示，一种可选的实施方式包括以下步骤：

(1)针对某个样本x，将替代模型M_S的输出经过非极大值抑制得到多个目标预测框，根据这些检测框分别计算分类不确定度。本实施例中，利用分类置信度中最大的两个值计算不确定度，两者越接近越说明替代模型无法给出确定性的分类结果，针对样本x的第i个检测框o_i的分类不确定度具体计算公式为：

其中，U_c(o_i)表示第i个目标o_i的分类不确定度，Conf_obj(o_i)表示第i个目标o_i的目标置信度，K为目标任务的所有类别，c₁、c₂表示类别变量，表示取第i个目标o_i的分类置信度中的最大值，/>表示取第i个目标o_i的分类置信度中的第二大值。

(2)针对样本x计算定位不确定度。选取替代模型针对样本中第i个检测目标o_i的所有预测框b_i，j，选取置信度最大的预测框b_i，0，计算其他b_i，j与b_i，0的交互比，交互比越小则表明替代模型对于o_i定位的不确定性越高，同时o_i与查询数据集中已有样本的差异也越大。具体公式为：

其中，U_p(o_i)表示第i个目标o_i的定位不确定度，iou(.，.)表示两个预测框的交互比，n表示除置信度最大的预测框之外的其余预测框数量

(3)计算样本x的总体不确定度并筛选样本。替代模型对样本x的总体不确定度为

将样本中每个目标的分类不确定度和定位不确定度的乘积作为该目标的不确定度，将样本中所有目标的不确定度之和作为该样本的总体不确定度。基于上述总体不确定度，筛选评分最高的样本加入D_Q，并通过目标模型查询模块访问目标模型，将其返回的类别和检测框作为查询数据集的标签。

(4)与替代模型训练模块一起迭代构建D_Q并训练M_S，即不断迭代更新D_Q和训练M_S的过程，为了防止早期加入的样本在后续训练中过拟合，在迭代前期每次只加入少量样本到D_Q中。

2、基于互联网样本的数据集增强模块

在通过主动学习的方法构建D_Q后，其中包含很多缺乏高质量前景目标的类别C_r，在这些类别上替代模型难以得到有效的训练，因此针对类别C_r的样本缺乏问题可以通过筛选互联网样本增强D_Q来解决。如图3所示，一种可选的实施方式主要包括以下步骤：

(1)构建C_r的搜索关键词。根据目标任务的场景和缺失类别的名称构建搜索关键词，例如针对动物这一稀缺类别和自动驾驶任务场景，组合成“街道上的动物”关键词；

(2)依据构建的关键词通过搜索引擎收集样本。合理使用爬虫工具，基于上述构建的关键词通过现有搜索引擎的搜图功能爬取图片，构成互联网数据集D_I，优先收集具有较高搜索排序的样本；

(3)基于D_I增强D_Q。互联网收集的样本存在大量的噪声，这些噪声往往不属于目标模型所属任务场景，会被视为无意义的查询，不具有有效信息。同时，通过互联网查询到的样本尺寸不一，其中较大尺寸的图片更有可能包含更多的信息。因此，针对收集到的互联网样本x，本模块通过评分标准S来检验收集到的样本是否适合加入到查询数据库中：

S(x)＝(α·mean(Conf(x))+std(Conf(x)))·size(x)

其中，α表示超参数，Conf(x)为替代模型对样本x的所有预测框的目标置信度，size(x)为样本x的尺寸大小。mean和std分别表示分布的均值和标准差。在该评分中，均值体现了待测样本与目标任务场景的契合程度，而标准差则体现了待测样本是否含有与背景显著不同的高质量的前景目标。基于该评分可以有效筛选具有更多知识的样本。本模块采用的数据集增强使用评分较高的一批样本，通过目标模型查询模块获得标注框，加入到查询数据集D_Q中。

3、基于尺寸一致性的标注动态更新模块

由于D_Q与目标模型数据集D_V在分布上存在显著差异，因此经过查询后的D_Q可能存在部分错误标注情况，其中主要为目标模型无法检测到部分目标导致的漏标现象。该模块主要基于替代模型M_S的尺寸一致性，通过多尺度一致性来衡量由替代模型输出目标是正确目标的概率，将具有更高概率的目标加入到查询数据集D_Q中，从而动态更新D_Q的标注。这种方法能够利用替代模型更加熟悉查询数据集中的数据分布的优势，能有效解决了目标模型漏标的问题，主要包含以下步骤：

(1)遍历查询数据集D_Q中的每一个样本x，将x缩放到三个不同尺寸得到x₁，x₂，x₃；

(2)根据替代模型M_S得到相应的预测结果y₁，y₂，y₃；其中，y_i为第i个尺寸对应的x_i的检测结果；

(3)选择y₁，y₂，y₃中一致性较高的标注框，加入到x的标注文件中。具体的一致性检验标准为：

其中，表示样本在第i个尺度下检测到的第j个目标的预测框，m_i表示样本在第i个尺度下检测到的目标数量，iou(.，.)表示两个预测框的交互比；在计算中选取一个尺度下的所有检测框作为候选，计算每个检测框的交互比作为多尺度一致性指标，如果指标大于阈值θ_u，则将其加入D_Q的标签中。

4、目标模型查询模块

该模块的主要目标为使用D_Q中的样本查询目标模型M_V，得到标注用于后续的替代模型训练，主要分为以下步骤：

(1)遍历查询数据集D_Q中的每一个样本x，输入到目标模型M_V，得到相应的标注y；

(2)针对每一个检测类别，每个目标类别设置一个动态的置信度阈值θ_c，随着该类别目标数量的增加而提高，将y中置信度小于θ_c的检测框过滤掉，得到y′；

(3)将y′加入到D_Q中作为x的标注。

5、替代模型训练模块

该模块的目的为在查询数据集D_Q构建完成后，基于D_Q中的样本和标注训练替代模型M_S，主要分为以下步骤：

(1)根据目标模型的架构类型选择替代模型M_S的架构，为了能更好衡量目标模型M_V的窃取脆弱性，优先为M_S选择与M_V相同的架构。同时使用M_S架构的预训练模型来初始化M_S。

(2)根据M_S的网络架构，基于分类损失函数、目标置信度损失函数和定位损失函数，使用D_Q中的样本和标注训练M_S。

(3)迭代构建查询数据集D_Q并训练替代模型M_S，为了防止早期加入的样本过拟合，在后期的迭代训练中每次采用较少的训练轮次。

6、目标模型窃取脆弱性评价模块

该模块的目的为分别测试M_V和M_S在目标数据集D_V上的性能，基于两者的比值得到窃取的结果，评估目标模型的窃取脆弱性，主要的步骤如下：

(1)遍历目标模型数据集中的测试集中的每一个样本x，输入到M_V和M_S中分别得到相应的输出M_V(x)和M_S(x)；

(2)将M_V(x)和M_S(x)中的预测框分别与测试集中的标注进行匹配，在0.5的交互比阈值下，针对每个类别分别绘制PR曲线，取PR曲线下的面值作为每个类别的AP，并对所有类别的AP取平均得到mAP性能指标。M_V和M_S的mAP指标分别记为mAP_V和mAP_S；

(3)基于替代模型和目标模型的评价指标的比值mAP_S/mAP_V衡量目标模型的窃取脆弱性，比值越高，则目标模型的窃取脆弱性越高，越容易受到模型窃取攻击。本实施例中，还可以通过设置脆弱性等级和阈值的方式评价目标模型的窃取脆弱性，根据替代模型和目标模型的评价指标的比值所处的范围判断目标模型的脆弱性等级。

以上介绍了各模块的功能以及可实现的细节，各模块组成的系统实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

联合上述模块功能，实现目标检测模型的窃取脆弱性分析方法的流程如图4所示，主要包括以下步骤：

S1，获取待分析的目标模型的任务场景和所有预测类别，获取任务场景下的样本，得到一个无标注样本集；

S2，通过基于不确定度的主动学习方法，从无标注样本集中选取数据构成查询数据集并通过目标模型标注，基于查询数据集迭代训练替代模型；

S3，针对查询数据集中的稀有类别，通过关键词搜索互联网样本，并通过替代模型的置信度筛选后得到增强数据集，将增强数据集通过目标模型标注后加入到查询数据集中，更新查询数据集；

S4，基于目标检测的多尺度一致性，优化更新后的查询数据集中的标注；

S5，基于优化标注后的查询数据集训练替代模型；

S6，根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种目标检测模型的窃取脆弱性分析方法，其特征在于，包括以下步骤：

(5)基于优化标注后的查询数据集训练替代模型；

2.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法，其特征在于，步骤(2)包括：

(2-3)基于当前的查询数据集训练替代模型；

3.根据权利要求2所述的目标检测模型的窃取脆弱性分析方法，其特征在于，所述的步骤(2-1)具体为：

(2-2-3)计算定位不确定度时，选取样本中第i个目标o_i的所有预测框，计算目标o_i对应的置信度最大的预测框b_i,0与其余预测框b_i,j,j＝1,2,…,n的交互比，基于交互比计算定位不确定度，计算公式为：

其中，U_p(o_i)表示第i个目标o_i的定位不确定度，iou(.,.)表示两个预测框的交互比，n表示除置信度最大的预测框之外的其余预测框数量；

(2-2-4)将样本中每个目标的分类不确定度和定位不确定度的乘积作为该目标的不确定度，将样本中所有目标的不确定度之和作为该样本的不确定度。

4.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法，其特征在于，步骤(3)包括：

5.根据权利要求4所述的目标检测模型的窃取脆弱性分析方法，其特征在于，所述的步骤(3-3)中的信息含量计算公式为：

S(x)＝(α·mean(Conf(x))+std(Conf(x)))·size(x)

6.根据权利要求4所述的目标检测模型的窃取脆弱性分析方法，其特征在于，通过目标模型标注样本时，为每个目标类别设置动态阈值θ_c，根据所述的动态阈值θ_c过滤低置信度的检测结果，利用过滤后的检测结果标注样本。

7.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法，其特征在于，步骤(4)包括：

8.根据权利要求7所述的目标检测模型的窃取脆弱性分析方法，其特征在于，所述的步骤(4-3)具体为：

(4-3-2)基于一致性检验标准计算y的尺度一致性C(y)：

其中，表示样本在第i个尺度下检测到的第j个目标的预测框，m_i表示样本在第i个尺度下检测到的目标数量，iou(.,.)表示两个预测框的交互比；

9.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法，其特征在于，步骤(6)包括：

10.一种目标检测模型的窃取脆弱性分析系统，其特征在于，包括：

基于主动学习的查询数据集初始化模块，其用于获取待分析的目标模型的任务场景和所有预测类别，获取任务场景下的样本，得到一个无标注样本集；通过基于不确定度的主动学习方法，从无标注样本集中选取数据构成查询数据集，后续由目标模型查询模块完成标注；

基于互联网样本的数据集增强模块，其用于针对查询数据集中的稀有类别，通过关键词搜索互联网样本，并通过替代模型的置信度筛选后得到增强数据集，后续由目标模型查询模块完成标注后加入到查询数据集中，更新查询数据集；

目标模型查询模块，其用于使用查询数据集中的样本或者增强数据集中的样本对目标模型做查询，实现通过目标模型标注样本的目的；

基于尺寸一致性的标注动态更新模块，其用于基于目标检测的多尺度一致性，优化更新后的查询数据集中的标注；

替代模型训练模块，其用于基于查询数据集迭代训练替代模型，以及用于基于优化标注后的查询数据集训练替代模型；

目标模型窃取脆弱性评价模块，其用于根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。