CN117496118A - 一种目标检测模型的窃取脆弱性分析方法和系统 - Google Patents
一种目标检测模型的窃取脆弱性分析方法和系统 Download PDFInfo
- Publication number
- CN117496118A CN117496118A CN202311374926.2A CN202311374926A CN117496118A CN 117496118 A CN117496118 A CN 117496118A CN 202311374926 A CN202311374926 A CN 202311374926A CN 117496118 A CN117496118 A CN 117496118A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- data set
- sample
- query data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000002372 labelling Methods 0.000 claims abstract description 36
- 238000006467 substitution reaction Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000003993 interaction Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012038 vulnerability analysis Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 abstract description 7
- 238000010276 construction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种目标检测模型的窃取脆弱性分析方法和系统,属于模型窃取和人工智能知识产权保护分析领域。包括:获取相应任务场景和预测类别的无标注样本集;基于不确定度的主动学习方法,从无标注样本集中筛选查询数据集并迭代训练替代模型;基于互联网样本的数据集增强,更新查询数据集;基于目标检测的多尺度一致性,优化更新后的查询数据集中的标注;基于优化标注后的查询数据集训练替代模型;根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。本发明填补了现有研究中针对目标检测深度学习模型的模型窃取威胁分析的空缺。
Description
技术领域
本发明涉及模型窃取和人工智能知识产权保护分析领域,具体涉及一种目标检测模型的模型窃取脆弱性的分析方法和系统。
背景技术
随着近年来深度学习在工业各界的应用不断拓展,其规模和能力也在不断提升,模型的训练成本,如数据和算力随之提升。因此,深度学习模型也成为了比较有价值的智能资产,也诞生了窃取这些模型资产的模型窃取攻击。模型窃取攻击主要分为基于查询的窃取攻击和及侧信道的窃取攻击。其中基于查询的模型窃取攻击允许攻击者通过访问等方式构建替代数据集,在本地构建功能类似的本地模型,从而以较小的成本获得和目标模型高度相似的替代品。这种攻击对基于深度学习模型的机器学习即服务(Machine Learning asa service,MLaaS)平台带来了较大的威胁。目标检测模型作为在自动驾驶和工业检测等领域得到广泛应用的深度学习模型,在深度学习云服务中较为常见,其模型知识产权也受到了威胁。
在基于查询的模型窃取攻击中,攻击者可以基于目标模型的任务构建一个查询数据集,并使用查询数据集中的样本查询目标模型,同时将查询得到的结果作为查询数据集的标签。最后攻击者即可通过查询数据集训练得到一个具有与目标模型相似功能的替代模型。基于这种窃取方法,攻击者可以使用相对较少的数据量和算力复制云服务中的目标模型,破坏模型的保密性,甚至利用窃取得到的替代模型对目标模型进行迁移对抗攻击或者模型反演攻击,损害目标模型所有者的利益。模型窃取攻击不仅反映了深度学习模型作为智能知识产权的脆弱性,同时也阻碍了人工智能相关技术在工业界的规范应用和发展,因此,针对目标检测模型的窃取脆弱性的分析研究很有研究意义。
虽然现有的针对深度学习模型的窃取攻防研究已经愈发成熟,但是目前学术界的工作主要集中于针对分类模型的模型窃取攻击威胁,而针对类似于目标检测模型这种在深度学习云服务商更常见的任务场景却很少有工作涉及。目前学术界在模型窃取方面针对分类模型、图神经网络模型、图像编码器和生成模型等深度学习网络种类已经有了较为成熟的研究,但是,目前没有针对目标检测模型的模型窃取研究。
目标检测模型在未来的现实场景中势必得到更多的研究和应用,因此研究目标检测模型的模型窃取脆弱性有利于人工智能知识产权保护的研究,引导目标检测模型在现实场景中的安全应用,促进相关技术的应用和发展,是很有必要的。
发明内容
本发明针对现有研究中针对目标检测深度学习模型的模型窃取威胁分析的空缺,提出了目标检测模型的模型窃取脆弱性的分析方法和系统。
本发明提出的技术方案如下:
第一方面,本发明提出了一种目标检测模型的窃取脆弱性分析方法,包括以下步骤:
(1)获取待分析的目标模型的任务场景和所有预测类别,获取任务场景下的样本,得到一个无标注样本集;
(2)通过基于不确定度的主动学习方法,从无标注样本集中选取数据构成查询数据集并通过目标模型标注,基于查询数据集迭代训练替代模型;
(3)针对查询数据集中的稀有类别,通过关键词搜索互联网样本,并通过替代模型的置信度筛选后得到增强数据集,将增强数据集通过目标模型标注后加入到查询数据集中,更新查询数据集;
(4)基于目标检测的多尺度一致性,优化更新后的查询数据集中的标注;
(5)基于优化标注后的查询数据集训练替代模型;
(6)根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。
进一步地,步骤(2)包括:
(2-1)遍历无标注样本集中的样本,基于替代模型的输出分别计算定位不确定度和分类不确定度;
(2-2)根据定位不确定度和分类不确定度计算总不确定度,从无标注样本集中筛选出总不确定度最高的一批样本,由目标模型标注后加入到查询数据集,并将筛选出来的样本从无标注样本集中剔除;
(2-3)基于当前的查询数据集训练替代模型;
(2-4)重复步骤(2-1)至(2-3),直到查询数据集达到规模上限,保留利用规模上限的数据集训练后的替代模型。
进一步地,所述的步骤(2-1)具体为:
(2-1-1)遍历无标注样本集中的每一个样本,将其输入到最新迭代训练后的替代模型中,识别该样本中的所有目标,输出目标类别、预测框、分类置信度和目标置信度,所述的目标置信度为该目标属于前景的置信度;
(2-2-2)计算分类不确定度时,先经过非极大值抑制过滤部分预测框,再利用每一个目标的分类置信度中最大的两个值计算不确定度,两者越接近越说明替代模型无法给出确定性的分类结果,针对样本中第i个目标oi的分类不确定度的计算公式为:
其中,Uc(oi)表示第i个目标oi的分类不确定度,Confobj(oi)表示第i个目标oi的目标置信度,K为目标任务的所有类别,c1、c2表示类别变量,表示取第i个目标oi的分类置信度中的最大值,/>表示取第i个目标oi的分类置信度中的第二大值;
将样本中所有目标的分类不确定度之和作为该样本的分类不确定度;
(2-2-3)计算定位不确定度时,选取样本中第i个目标oi的所有预测框,计算目标oi对应的置信度最大的预测框bi,0与其余预测框bi,j,j=1,2,...,n的交互比,基于交互比计算定位不确定度,计算公式为:
其中,Up(oi)表示第i个目标oi的定位不确定度,iou(.,.)表示两个预测框的交互比,n表示除置信度最大的预测框之外的其余预测框数量;
将样本中所有目标的定位不确定度之和作为该样本的定位不确定度。
进一步地,步骤(3)包括:
(3-1)根据步骤(2)得到的查询数据集,将所有目标类别划分为常见类别和稀有类别;
(3-2)基于稀有类别和任务场景构建搜索关键字,通过搜索引擎搜索互联网样本,得到初始互联网样本集合;
(3-3)基于替代模型评估初始互联网样本集合中样本的信息含量;
(3-4)筛选出信息含量最高的一批样本,由目标模型标注后加入到查询数据集中。
进一步地,所述的步骤(3-3)中的信息含量计算公式为:
S(x)=(α·mean(Conf(x))+std(Conf(x)))·size(x)
其中,α表示超参数,Conf(x)表示替代模型对样本x的所有预测框的分类置信度,size(x)表示样本x的尺寸大小,mean和std分别表示均值和标准差,S(x)表示样本x的信息含量。
进一步地,通过目标模型标注样本时,为每个目标类别设置动态阈值θc,根据所述的动态阈值θc过滤低置信度的检测结果,利用过滤后的检测结果标注样本。
进一步地,步骤(4)包括:
(4-1)遍历查询数据集中的每一个样本x,将样本x缩放到多个不同尺度得到x1、x2、x3;
(4-2)基于替代模型得到不同尺度样本的预测结果y1、y2、y3;
(4-3)根据不同尺度样本的预测结果,选择一致性较高的预测框并加入到该样本的标注文件中。
进一步地,所述的步骤(4-3)具体为:
(4-3-1)遍历查询数据集中的每一个样本x,选择某个尺度下的预测结果作为数据集标注更新的候选y;
(4-3-2)基于一致性检验标准计算y的尺度一致性C(y):
其中,表示样本在第i个尺度下检测到的第j个目标的预测框,mi表示样本在第i个尺度下检测到的目标数量,iou(.,.)表示两个预测框的交互比;
(4-3-3)判断尺度一致性是否大于阈值,若是,则将候选y加入对应样本的标注文件中。
进一步地,步骤(6)包括:
(6-1)以mAP为评价指标,使用目标模型数据集中的测试集分别测试目标模型和替代模型的性能;
(6-2)基于目标模型和替代模型在测试集上的表现,计算替代模型和目标模型的评价指标的比值,比值越高,则目标模型的窃取脆弱性越高。
第二方面,本发明提出一种目标检测模型的窃取脆弱性分析系统,用于实现上述窃取脆弱性分析方法。
与现有技术相比,本发明的有益效果为:
(1)本发明综合考虑了目标检测模型中的分类和定位子任务,通过重新设计主动学习方法提高了针对目标模型的窃取脆弱性分析效率。
(2)本发明通过针对特定稀缺类别的数据集增强,缓解了查询数据集的不平衡问题,针对所有类别都能达到更加均衡的脆弱性分析效果。
(3)本发明通过替代模型对查询数据集标注进行了动态更新和优化,解决了目标模型会返回部分低质量标注的问题,防止因为查询数据集和目标数据集的分布存在差异而导致脆弱性分析效果不佳。
附图说明
图1为目标检测模型的窃取脆弱性分析系统的架构图;
图2为通过主动学习构建查询数据集的流程图;
图3为基于互联网样本的数据集增强流程图;
图4为目标检测模型的窃取脆弱性分析方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
在本发明提供的一个实施例中,如图1所示为本发明针对目标检测模型窃取脆弱性分析系统的架构图,主要分为六个模块:基于主动学习的查询数据集初始化模块、基于互联网样本的数据集增强模块、基于尺寸一致性的标注动态更新模块、目标模型查询模块、替代模型训练模块和目标模型窃取脆弱性评价模块。接下来分别对这六个模块进行介绍:
1、基于主动学习的查询数据集初始化模块
该模块的主要目的是提取无标注样本集DU中的高质量样本,用以初始化查询数据集DQ,使用主动学习能够缩减DQ中的样本数量,提高整体的脆弱性分析效率,其主要的流程如图2所示。主动学习是一种加快深度学习模型训练的常用技术,一般的流程为待训练模型主动挑选高质量或具有较高不确定度的无标注样本交由专家打标,再加入到训练集训练的迭代过程,可以有效缩减专家打标的工作成本。在针对分类模型等架构的模型窃取方法中,基于主动学习的方法得到了广泛的应用,有效的提高了查询数据集构建效率并减少了查询成本。在目标检测任务场景中,样本在模型窃取过程中的贡献根据其中前景目标的数量、种类和图像质量会发生更大变化,这使得基于主动学习的数据筛选在针对目标检测模型的查询数据集构建中能发挥更大作用。但是,现有的基于主动学习进行模型窃取的方法大多只考虑了模型在分类任务上的不确信度,由于目标检测模型包含分类和定位两个子任务分支,仅考虑分类任务上的不确信度是不够的,本发明综合考虑了分类和定位的不确定度。同时在第一阶段的查询数据集构建中采取了迭代式的操作,每一步通过替代模型MS为查询数据集DQ筛选样本。如图2所示,一种可选的实施方式包括以下步骤:
(1)针对某个样本x,将替代模型MS的输出经过非极大值抑制得到多个目标预测框,根据这些检测框分别计算分类不确定度。本实施例中,利用分类置信度中最大的两个值计算不确定度,两者越接近越说明替代模型无法给出确定性的分类结果,针对样本x的第i个检测框oi的分类不确定度具体计算公式为:
其中,Uc(oi)表示第i个目标oi的分类不确定度,Confobj(oi)表示第i个目标oi的目标置信度,K为目标任务的所有类别,c1、c2表示类别变量,表示取第i个目标oi的分类置信度中的最大值,/>表示取第i个目标oi的分类置信度中的第二大值。
(2)针对样本x计算定位不确定度。选取替代模型针对样本中第i个检测目标oi的所有预测框bi,j,选取置信度最大的预测框bi,0,计算其他bi,j与bi,0的交互比,交互比越小则表明替代模型对于oi定位的不确定性越高,同时oi与查询数据集中已有样本的差异也越大。具体公式为:
其中,Up(oi)表示第i个目标oi的定位不确定度,iou(.,.)表示两个预测框的交互比,n表示除置信度最大的预测框之外的其余预测框数量
(3)计算样本x的总体不确定度并筛选样本。替代模型对样本x的总体不确定度为
将样本中每个目标的分类不确定度和定位不确定度的乘积作为该目标的不确定度,将样本中所有目标的不确定度之和作为该样本的总体不确定度。基于上述总体不确定度,筛选评分最高的样本加入DQ,并通过目标模型查询模块访问目标模型,将其返回的类别和检测框作为查询数据集的标签。
(4)与替代模型训练模块一起迭代构建DQ并训练MS,即不断迭代更新DQ和训练MS的过程,为了防止早期加入的样本在后续训练中过拟合,在迭代前期每次只加入少量样本到DQ中。
2、基于互联网样本的数据集增强模块
在通过主动学习的方法构建DQ后,其中包含很多缺乏高质量前景目标的类别Cr,在这些类别上替代模型难以得到有效的训练,因此针对类别Cr的样本缺乏问题可以通过筛选互联网样本增强DQ来解决。如图3所示,一种可选的实施方式主要包括以下步骤:
(1)构建Cr的搜索关键词。根据目标任务的场景和缺失类别的名称构建搜索关键词,例如针对动物这一稀缺类别和自动驾驶任务场景,组合成“街道上的动物”关键词;
(2)依据构建的关键词通过搜索引擎收集样本。合理使用爬虫工具,基于上述构建的关键词通过现有搜索引擎的搜图功能爬取图片,构成互联网数据集DI,优先收集具有较高搜索排序的样本;
(3)基于DI增强DQ。互联网收集的样本存在大量的噪声,这些噪声往往不属于目标模型所属任务场景,会被视为无意义的查询,不具有有效信息。同时,通过互联网查询到的样本尺寸不一,其中较大尺寸的图片更有可能包含更多的信息。因此,针对收集到的互联网样本x,本模块通过评分标准S来检验收集到的样本是否适合加入到查询数据库中:
S(x)=(α·mean(Conf(x))+std(Conf(x)))·size(x)
其中,α表示超参数,Conf(x)为替代模型对样本x的所有预测框的目标置信度,size(x)为样本x的尺寸大小。mean和std分别表示分布的均值和标准差。在该评分中,均值体现了待测样本与目标任务场景的契合程度,而标准差则体现了待测样本是否含有与背景显著不同的高质量的前景目标。基于该评分可以有效筛选具有更多知识的样本。本模块采用的数据集增强使用评分较高的一批样本,通过目标模型查询模块获得标注框,加入到查询数据集DQ中。
3、基于尺寸一致性的标注动态更新模块
由于DQ与目标模型数据集DV在分布上存在显著差异,因此经过查询后的DQ可能存在部分错误标注情况,其中主要为目标模型无法检测到部分目标导致的漏标现象。该模块主要基于替代模型MS的尺寸一致性,通过多尺度一致性来衡量由替代模型输出目标是正确目标的概率,将具有更高概率的目标加入到查询数据集DQ中,从而动态更新DQ的标注。这种方法能够利用替代模型更加熟悉查询数据集中的数据分布的优势,能有效解决了目标模型漏标的问题,主要包含以下步骤:
(1)遍历查询数据集DQ中的每一个样本x,将x缩放到三个不同尺寸得到x1,x2,x3;
(2)根据替代模型MS得到相应的预测结果y1,y2,y3;其中,yi为第i个尺寸对应的xi的检测结果;
(3)选择y1,y2,y3中一致性较高的标注框,加入到x的标注文件中。具体的一致性检验标准为:
其中,表示样本在第i个尺度下检测到的第j个目标的预测框,mi表示样本在第i个尺度下检测到的目标数量,iou(.,.)表示两个预测框的交互比;在计算中选取一个尺度下的所有检测框作为候选,计算每个检测框的交互比作为多尺度一致性指标,如果指标大于阈值θu,则将其加入DQ的标签中。
4、目标模型查询模块
该模块的主要目标为使用DQ中的样本查询目标模型MV,得到标注用于后续的替代模型训练,主要分为以下步骤:
(1)遍历查询数据集DQ中的每一个样本x,输入到目标模型MV,得到相应的标注y;
(2)针对每一个检测类别,每个目标类别设置一个动态的置信度阈值θc,随着该类别目标数量的增加而提高,将y中置信度小于θc的检测框过滤掉,得到y′;
(3)将y′加入到DQ中作为x的标注。
5、替代模型训练模块
该模块的目的为在查询数据集DQ构建完成后,基于DQ中的样本和标注训练替代模型MS,主要分为以下步骤:
(1)根据目标模型的架构类型选择替代模型MS的架构,为了能更好衡量目标模型MV的窃取脆弱性,优先为MS选择与MV相同的架构。同时使用MS架构的预训练模型来初始化MS。
(2)根据MS的网络架构,基于分类损失函数、目标置信度损失函数和定位损失函数,使用DQ中的样本和标注训练MS。
(3)迭代构建查询数据集DQ并训练替代模型MS,为了防止早期加入的样本过拟合,在后期的迭代训练中每次采用较少的训练轮次。
6、目标模型窃取脆弱性评价模块
该模块的目的为分别测试MV和MS在目标数据集DV上的性能,基于两者的比值得到窃取的结果,评估目标模型的窃取脆弱性,主要的步骤如下:
(1)遍历目标模型数据集中的测试集中的每一个样本x,输入到MV和MS中分别得到相应的输出MV(x)和MS(x);
(2)将MV(x)和MS(x)中的预测框分别与测试集中的标注进行匹配,在0.5的交互比阈值下,针对每个类别分别绘制PR曲线,取PR曲线下的面值作为每个类别的AP,并对所有类别的AP取平均得到mAP性能指标。MV和MS的mAP指标分别记为mAPV和mAPS;
(3)基于替代模型和目标模型的评价指标的比值mAPS/mAPV衡量目标模型的窃取脆弱性,比值越高,则目标模型的窃取脆弱性越高,越容易受到模型窃取攻击。本实施例中,还可以通过设置脆弱性等级和阈值的方式评价目标模型的窃取脆弱性,根据替代模型和目标模型的评价指标的比值所处的范围判断目标模型的脆弱性等级。
以上介绍了各模块的功能以及可实现的细节,各模块组成的系统实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
联合上述模块功能,实现目标检测模型的窃取脆弱性分析方法的流程如图4所示,主要包括以下步骤:
S1,获取待分析的目标模型的任务场景和所有预测类别,获取任务场景下的样本,得到一个无标注样本集;
S2,通过基于不确定度的主动学习方法,从无标注样本集中选取数据构成查询数据集并通过目标模型标注,基于查询数据集迭代训练替代模型;
S3,针对查询数据集中的稀有类别,通过关键词搜索互联网样本,并通过替代模型的置信度筛选后得到增强数据集,将增强数据集通过目标模型标注后加入到查询数据集中,更新查询数据集;
S4,基于目标检测的多尺度一致性,优化更新后的查询数据集中的标注;
S5,基于优化标注后的查询数据集训练替代模型;
S6,根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种目标检测模型的窃取脆弱性分析方法,其特征在于,包括以下步骤:
(1)获取待分析的目标模型的任务场景和所有预测类别,获取任务场景下的样本,得到一个无标注样本集;
(2)通过基于不确定度的主动学习方法,从无标注样本集中选取数据构成查询数据集并通过目标模型标注,基于查询数据集迭代训练替代模型;
(3)针对查询数据集中的稀有类别,通过关键词搜索互联网样本,并通过替代模型的置信度筛选后得到增强数据集,将增强数据集通过目标模型标注后加入到查询数据集中,更新查询数据集;
(4)基于目标检测的多尺度一致性,优化更新后的查询数据集中的标注;
(5)基于优化标注后的查询数据集训练替代模型;
(6)根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。
2.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法,其特征在于,步骤(2)包括:
(2-1)遍历无标注样本集中的样本,基于替代模型的输出分别计算定位不确定度和分类不确定度;
(2-2)根据定位不确定度和分类不确定度计算总不确定度,从无标注样本集中筛选出总不确定度最高的一批样本,由目标模型标注后加入到查询数据集,并将筛选出来的样本从无标注样本集中剔除;
(2-3)基于当前的查询数据集训练替代模型;
(2-4)重复步骤(2-1)至(2-3),直到查询数据集达到规模上限,保留利用规模上限的数据集训练后的替代模型。
3.根据权利要求2所述的目标检测模型的窃取脆弱性分析方法,其特征在于,所述的步骤(2-1)具体为:
(2-1-1)遍历无标注样本集中的每一个样本,将其输入到最新迭代训练后的替代模型中,识别该样本中的所有目标,输出目标类别、预测框、分类置信度和目标置信度,所述的目标置信度为该目标属于前景的置信度;
(2-2-2)计算分类不确定度时,先经过非极大值抑制过滤部分预测框,再利用每一个目标的分类置信度中最大的两个值计算不确定度,两者越接近越说明替代模型无法给出确定性的分类结果,针对样本中第i个目标oi的分类不确定度的计算公式为:
其中,Uc(oi)表示第i个目标oi的分类不确定度,Confobj(oi)表示第i个目标oi的目标置信度,K为目标任务的所有类别,c1、c2表示类别变量,表示取第i个目标oi的分类置信度中的最大值,/>表示取第i个目标oi的分类置信度中的第二大值;
(2-2-3)计算定位不确定度时,选取样本中第i个目标oi的所有预测框,计算目标oi对应的置信度最大的预测框bi,0与其余预测框bi,j,j=1,2,…,n的交互比,基于交互比计算定位不确定度,计算公式为:
其中,Up(oi)表示第i个目标oi的定位不确定度,iou(.,.)表示两个预测框的交互比,n表示除置信度最大的预测框之外的其余预测框数量;
(2-2-4)将样本中每个目标的分类不确定度和定位不确定度的乘积作为该目标的不确定度,将样本中所有目标的不确定度之和作为该样本的不确定度。
4.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法,其特征在于,步骤(3)包括:
(3-1)根据步骤(2)得到的查询数据集,将所有目标类别划分为常见类别和稀有类别;
(3-2)基于稀有类别和任务场景构建搜索关键字,通过搜索引擎搜索互联网样本,得到初始互联网样本集合;
(3-3)基于替代模型评估初始互联网样本集合中样本的信息含量;
(3-4)筛选出信息含量最高的一批样本,由目标模型标注后加入到查询数据集中。
5.根据权利要求4所述的目标检测模型的窃取脆弱性分析方法,其特征在于,所述的步骤(3-3)中的信息含量计算公式为:
S(x)=(α·mean(Conf(x))+std(Conf(x)))·size(x)
其中,α表示超参数,Conf(x)表示替代模型对样本x的所有预测框的分类置信度,size(x)表示样本x的尺寸大小,mean和std分别表示均值和标准差,S(x)表示样本x的信息含量。
6.根据权利要求4所述的目标检测模型的窃取脆弱性分析方法,其特征在于,通过目标模型标注样本时,为每个目标类别设置动态阈值θc,根据所述的动态阈值θc过滤低置信度的检测结果,利用过滤后的检测结果标注样本。
7.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法,其特征在于,步骤(4)包括:
(4-1)遍历查询数据集中的每一个样本x,将样本x缩放到多个不同尺度得到x1、x2、x3;
(4-2)基于替代模型得到不同尺度样本的预测结果y1、y2、y3;
(4-3)根据不同尺度样本的预测结果,选择一致性较高的预测框并加入到该样本的标注文件中。
8.根据权利要求7所述的目标检测模型的窃取脆弱性分析方法,其特征在于,所述的步骤(4-3)具体为:
(4-3-1)遍历查询数据集中的每一个样本x,选择某个尺度下的预测结果作为数据集标注更新的候选y;
(4-3-2)基于一致性检验标准计算y的尺度一致性C(y):
其中,表示样本在第i个尺度下检测到的第j个目标的预测框,mi表示样本在第i个尺度下检测到的目标数量,iou(.,.)表示两个预测框的交互比;
(4-3-3)判断尺度一致性是否大于阈值,若是,则将候选y加入对应样本的标注文件中。
9.根据权利要求1所述的目标检测模型的窃取脆弱性分析方法,其特征在于,步骤(6)包括:
(6-1)以mAP为评价指标,使用目标模型数据集中的测试集分别测试目标模型和替代模型的性能;
(6-2)基于目标模型和替代模型在测试集上的表现,计算替代模型和目标模型的评价指标的比值,比值越高,则目标模型的窃取脆弱性越高。
10.一种目标检测模型的窃取脆弱性分析系统,其特征在于,包括:
基于主动学习的查询数据集初始化模块,其用于获取待分析的目标模型的任务场景和所有预测类别,获取任务场景下的样本,得到一个无标注样本集;通过基于不确定度的主动学习方法,从无标注样本集中选取数据构成查询数据集,后续由目标模型查询模块完成标注;
基于互联网样本的数据集增强模块,其用于针对查询数据集中的稀有类别,通过关键词搜索互联网样本,并通过替代模型的置信度筛选后得到增强数据集,后续由目标模型查询模块完成标注后加入到查询数据集中,更新查询数据集;
目标模型查询模块,其用于使用查询数据集中的样本或者增强数据集中的样本对目标模型做查询,实现通过目标模型标注样本的目的;
基于尺寸一致性的标注动态更新模块,其用于基于目标检测的多尺度一致性,优化更新后的查询数据集中的标注;
替代模型训练模块,其用于基于查询数据集迭代训练替代模型,以及用于基于优化标注后的查询数据集训练替代模型;
目标模型窃取脆弱性评价模块,其用于根据替代模型和目标模型的性能分析结果判断目标模型的窃取脆弱性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311374926.2A CN117496118B (zh) | 2023-10-23 | 2023-10-23 | 一种目标检测模型的窃取脆弱性分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311374926.2A CN117496118B (zh) | 2023-10-23 | 2023-10-23 | 一种目标检测模型的窃取脆弱性分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117496118A true CN117496118A (zh) | 2024-02-02 |
CN117496118B CN117496118B (zh) | 2024-06-04 |
Family
ID=89679212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311374926.2A Active CN117496118B (zh) | 2023-10-23 | 2023-10-23 | 一种目标检测模型的窃取脆弱性分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496118B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783505A (zh) * | 2019-05-10 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 伪造人脸的识别方法、装置和计算机可读存储介质 |
CN113837232A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于样本选择和加权损失函数的黑盒模型蒸馏方法 |
CN114332801A (zh) * | 2022-03-14 | 2022-04-12 | 南京航空航天大学 | 一种基于时序方差阈值的目标检测主动采样方法 |
CN114492306A (zh) * | 2021-11-16 | 2022-05-13 | 马上消费金融股份有限公司 | 语料标注方法、装置、电子设备及存储介质 |
CN114547102A (zh) * | 2022-01-14 | 2022-05-27 | 北京理工大学 | 基于梯度驱动数据生成的模型窃取攻击方法 |
US20220300842A1 (en) * | 2021-03-17 | 2022-09-22 | Laurent CHARETTE | System and method for ai model watermarking |
CN115470927A (zh) * | 2022-08-17 | 2022-12-13 | 哈尔滨工业大学(深圳) | 一种替代模型自动提取方法、终端及存储介质 |
US11556746B1 (en) * | 2018-10-26 | 2023-01-17 | Amazon Technologies, Inc. | Fast annotation of samples for machine learning model development |
CN115861738A (zh) * | 2023-02-07 | 2023-03-28 | 南京航空航天大学 | 一种类别语义信息引导的遥感目标检测主动采样方法 |
WO2023077821A1 (zh) * | 2021-11-07 | 2023-05-11 | 西北工业大学 | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 |
WO2023165024A1 (zh) * | 2022-03-01 | 2023-09-07 | 北京交通大学 | 一种二值化目标检测神经网络结构和模型的训练方法 |
-
2023
- 2023-10-23 CN CN202311374926.2A patent/CN117496118B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11556746B1 (en) * | 2018-10-26 | 2023-01-17 | Amazon Technologies, Inc. | Fast annotation of samples for machine learning model development |
CN111783505A (zh) * | 2019-05-10 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 伪造人脸的识别方法、装置和计算机可读存储介质 |
US20220300842A1 (en) * | 2021-03-17 | 2022-09-22 | Laurent CHARETTE | System and method for ai model watermarking |
CN113837232A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于样本选择和加权损失函数的黑盒模型蒸馏方法 |
WO2023077821A1 (zh) * | 2021-11-07 | 2023-05-11 | 西北工业大学 | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 |
CN114492306A (zh) * | 2021-11-16 | 2022-05-13 | 马上消费金融股份有限公司 | 语料标注方法、装置、电子设备及存储介质 |
CN114547102A (zh) * | 2022-01-14 | 2022-05-27 | 北京理工大学 | 基于梯度驱动数据生成的模型窃取攻击方法 |
WO2023165024A1 (zh) * | 2022-03-01 | 2023-09-07 | 北京交通大学 | 一种二值化目标检测神经网络结构和模型的训练方法 |
CN114332801A (zh) * | 2022-03-14 | 2022-04-12 | 南京航空航天大学 | 一种基于时序方差阈值的目标检测主动采样方法 |
CN115470927A (zh) * | 2022-08-17 | 2022-12-13 | 哈尔滨工业大学(深圳) | 一种替代模型自动提取方法、终端及存储介质 |
CN115861738A (zh) * | 2023-02-07 | 2023-03-28 | 南京航空航天大学 | 一种类别语义信息引导的遥感目标检测主动采样方法 |
Non-Patent Citations (2)
Title |
---|
KA-HO CHOW; LING LIU: "Adversarial Objectness Gradient Attacks in Real-time Object Detection Systems", 2020 SECOND IEEE INTERNATIONAL CONFERENCE ON TRUST, PRIVACY AND SECURITY IN INTELLIGENT SYSTEMS AND APPLICATIONS (TPS-ISA), 19 January 2021 (2021-01-19) * |
谢禹;李玉俊;董文生;: "基于SSD神经网络的图像自动标注及应用研究", 信息技术与标准化, no. 04, 10 April 2020 (2020-04-10) * |
Also Published As
Publication number | Publication date |
---|---|
CN117496118B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A unified convolutional neural network integrated with conditional random field for pipe defect segmentation | |
CN111753985B (zh) | 基于神经元覆盖率的图像深度学习模型测试方法与装置 | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN111797326A (zh) | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 | |
CN106815323A (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
CN115659966A (zh) | 基于动态异构图和多级注意力的谣言检测方法及系统 | |
JP4721829B2 (ja) | 画像検索方法及び装置 | |
Yin et al. | G2Grad-CAMRL: an object detection and interpretation model based on gradient-weighted class activation mapping and reinforcement learning in remote sensing images | |
CN116977633A (zh) | 地物要素分割模型训练方法、地物要素分割方法及装置 | |
Hong et al. | Semi-supervised domain adaptation for segmentation models on different monitoring settings | |
Zhang et al. | Generalizing universal adversarial perturbations for deep neural networks | |
CN113780287A (zh) | 一种多深度学习模型的最优选取方法及系统 | |
Wang et al. | Semantic segmentation of sewer pipe defects using deep dilated convolutional neural network | |
CN117496118B (zh) | 一种目标检测模型的窃取脆弱性分析方法和系统 | |
CN116665174A (zh) | 面向视觉感知算法的危险测试用例生成方法及相关设备 | |
CN111950635A (zh) | 一种基于分层特征对齐的鲁棒特征学习方法 | |
CN114677333A (zh) | 一种基于直方图的图像对比度增强检测方法 | |
Sirhan et al. | Multilabel CNN model for asphalt distress classification | |
CN112861682A (zh) | 基于朴素贝叶斯云计算路面图像采集分类方法及其装置 | |
Yao et al. | A pavement crack synthesis method based on conditional generative adversarial networks | |
CN113112515B (zh) | 一种纹样图像分割算法评价方法 | |
CN117932457B (zh) | 一种基于错误分类的模型指纹识别方法及系统 | |
CN115019121A (zh) | 一种面向网络数字图像识别的对抗样本攻击防御方法 | |
CN117851870A (zh) | 一种基于多标签分类的att&ck技术映射方法 | |
Witte et al. | A quantitative comparison of automated cleaning techniques for web scraped image data of ‘Smart Cities’ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |