CN112989340A - 模型的后门检测方法、装置、介质和计算设备 - Google Patents

模型的后门检测方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN112989340A
CN112989340A CN202110222642.6A CN202110222642A CN112989340A CN 112989340 A CN112989340 A CN 112989340A CN 202110222642 A CN202110222642 A CN 202110222642A CN 112989340 A CN112989340 A CN 112989340A
Authority
CN
China
Prior art keywords
model
sample
detected
detection
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110222642.6A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202110222642.6A priority Critical patent/CN112989340A/zh
Publication of CN112989340A publication Critical patent/CN112989340A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种模型的后门检测方法、装置、介质和计算设备。该模型的后门检测方法包括:提供检测样本集,所述检测样本集包括多个检测样本;基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。该模型的后门检测方法可以在黑盒场景下对待检测模型进行后门攻击检测。

Description

模型的后门检测方法、装置、介质和计算设备
技术领域
本发明涉及后门攻击领域,特别涉及一种模型的后门攻击检测方法、装置、介质和计算设备。
背景技术
现有的后门检测方法主要有两大类,分别是模型训练阶段的检测方法和模型测试阶段的检测方法。其中,模型训练阶段的检测方法通过异常检测等方式判断训练模型的数据集中是否存在被投毒的数据,从而判断模型是否存在后门。模型测试阶段的检测方法是通过反向还原后门的方式检测模型是否存在后门,这类方法通过对模型输出的每一个类别还原出来可能的后门触发器,然后判断某个类别的触发器的1-范数是不是远小于其他类别触发器的1- 范数。如果存在某个类别触发器的1-范数相比于其他类别的触发器的1-范数很小,那么模型就极有可能存在后门。这类方法背后的原理是攻击者往往会设计一个很小的触发器叠加在样本上,进行后门攻击,如果反向还原算法能够完全还原出来触发器图案,那么就能够依据不同类别触发器的大小判断出后门攻击。
现有后门检测方法存在的主要问题是对于待检测模型和训练数据集的要求过高,在黑盒场景下无法使用。训练阶段的后门检测方法需要获取被投毒的训练集,而测试阶段的后门检测方法需要获取对模型的内部参数和梯度信息,从而利用基于梯度的方式反向还原后门。然而在现实的场景中,用户所使用的商业机器学习服务或API往往只提供访问接口,用户并不能够获取这些商业模型的训练数据以及模型内部的参数、梯度信息,所以无法使用现有的后门检测方法。
发明内容
本发明的主要目的是提出一种模型的后门检测方法、装置、介质和计算设备,旨在解决在黑盒场景无法获得模型的训练数据以及内部梯度信息的情况下,如何判断模型是否存在后门。
为实现上述目的,本发明提出的模型的后门检测方法,包括:
提供检测样本集,所述检测样本集包括多个检测样本;
基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
在一个实施例中,所述提供检测样本集包括:针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本。
在一个实施例中,所述提供检测样本集包括:
针对待检测模型的每一输出类别,随机生成多个样本;
针对每一个样本生成对应目标类别的欺骗性样本。
在一个实施例中,从预设的均匀分布中采样生成多个样本。
在一个实施例中,所述针对每一个样本生成对应目标类别的欺骗性样本采用基于访问的黑盒攻击方法生成欺骗性样本。
在一个实施例中,针对每一个样本,采用基于访问的黑盒攻击方法生成欺骗性样本,包括:
采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度;
基于所述梯度进行梯度下降,以生成相应的欺骗性样本;
其中,所述损失函数的优化目标是最小化迭代中的欺骗性样本被所述待检测模型识别为目标类别的交叉熵;
所述第一高斯分布以所述具有目标类别的样本为期望,σ为标准差;
所述欺骗性样本能够被人眼观察出为机器构造的样本,且被待检测模型识别为目标类别。
在一个实施例中,基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,包括:
构建特定的目标函数,所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标,以触发器的掩膜参数和图案参数为未知项,以指定的所述待检测模型的某一输出类别和检测样本为输入项,其中,所述掩膜参数至少用于确定触发器在检测样本上的位置和面积,所述图案参数至少用于确定触发器的图案;
通过进化算法对所述目标函数进行优化计算,以确定触发器的掩膜参数和图案参数。
在一个实施例中,所述进化算法为蒙特卡洛梯度估计法。
在一个实施例中,通过以下方式得到所述待检测模型某一输出类别的触发器:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
固定图案参数,采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度,作为所述掩膜参数的梯度估计量,其中,所述伯努利分布以基于掩膜参数决定的掩膜为期望;
固定掩膜参数,采用蒙特卡洛梯度估计法来估计“所述目标函数相对整个第二高斯分布的期望”相对图案参数的梯度,作为所述图案参数的梯度估计量,其中,所述第二高斯分布以基于图案参数决定的图案为期望,σ为标准差;
分别根据掩膜参数的梯度估计量和图案参数的梯度估计量,采用特定的优化器对掩膜参数和图案参数进行更新;
基于更新后的掩膜参数和图案参数确定触发器。
在一个实施例中,通过以下方式得到所述待检测模型某一输出类别的触发器:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,基于所述目标函数进行零阶优化求解,以确定掩膜参数的梯度;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数进行零阶优化求解,以确定图案参数的梯度;
分别根据掩膜参数的梯度和图案参数的梯度,采用特定的优化器对掩膜参数和图案参数进行更新;
基于更新后的掩膜参数和图案参数确定触发器。
在一个实施例中,所述进化算法的方式为遗传算法。
在一个实施例中,通过以下方式得到所述待检测模型某一输出类别的触发器:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,选择最小化所述目标函数的掩膜作为更新后的掩膜;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数,选择最小化所述目标函数的图案参数作为更新后的图案参数;
基于更新后的掩膜参数和图案参数确定触发器。
在一个实施例中,所述基于更新后的掩膜参数和图案参数确定触发器,包括:
采用归一化函数对所述更新后的掩膜参数和所述图案参数进行处理,以确定所述触发器。
在一个实施例中,所述对比全部输出类别的触发器,以判断所述待检测模型是否存在后门,包括:
对比全部所述输出类别的触发器的1-范数,以判断所述待检测模型是否存在后门。
本发明还提出一种模型的后门检测装置,包括:
提供模块,被配置为提供检测样本集,所述检测样本集包括多个检测样本;
获取模块,被配置为基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
判断模块,被配置为对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
在一个实施例中,所述提供模块包括:
第一样本生成单元,被配置为针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本。
在一个实施例中,所述提供模块包括:
第二样本生成单元,被配置为针对待检测模型的每一输出类别,随机生成多个样本;
样本处理单元,被配置为针对每一个样本生成对应目标类别的欺骗性样本。
在一个实施例中,所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。
在一个实施例中,所述样本处理单元被配置为针对每一个样本,采用基于访问的黑盒攻击方法生成对应目标的欺骗性样本。
在一个实施例中,所述样本处理单元包括:
梯度估计子单元,被配置为采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度;
生成子单元,被配置为基于所述梯度进行梯度下降,以生成相应的欺骗性样本;
其中,所述损失函数的优化目标是最小化迭代中的欺骗性样本被所述待检测模型识别为目标类别的交叉熵;
所述第一高斯分布以所述具有目标类别的样本为期望,σ为标准差;
所述欺骗性样本能够被人眼观察出为机器构造的样本,且被待检测模型识别为目标类别。
在一个实施例中,所述获取模块,包括:
构建单元,被配置为构建特定的目标函数,所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标,以触发器的掩膜参数和图案参数为位置向,以指定的所述待检测模型的某一输出类别和检测样本为输入项,其中,所述掩膜参数至少用于确定触发器在检测样本上的位置和面积,所述图案参数至少用于确定触发器的图案;
优化单元,被配置为通过进化算法对所述目标函数进行优化计算,以确定触发器的掩膜参数和图案参数。
在一个实施例中,所述进化算法为蒙特卡洛梯度估计法。
在一个实施例中,所述获取模块包括:
初始化单元,被配置为初始化一组掩膜参数和一组图案参数;
迭代单元,被配置为重复执行以下步骤,直到达到预设终止条件:
固定图案参数,采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度,作为所述掩膜参数的梯度估计量,其中,所述伯努利分布以基于掩膜参数决定的掩膜为期望;
固定掩膜参数,采用蒙特卡洛梯度估计法来估计“所述目标函数相对整个第二高斯分布的期望”相对图案参数的梯度,作为所述图案参数的梯度估计量,其中,所述第二高斯分布以基于图案参数决定的图案为期望,σ为标准差;
分别根据掩膜参数的梯度估计量和图案参数的梯度估计量,采用特定的优化器对掩膜参数和图案参数进行更新;
确定单元,被配置为基于更新后的掩膜参数和图案参数确定触发器。
在一个实施例中,所述迭代单元还被配置为重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,基于所述目标函数进行零阶优化求解,以确定掩膜参数的梯度;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数进行零阶优化求解,以确定图案参数的梯度;
分别根据掩膜参数的梯度和图案参数的梯度,采用特定的优化器对掩膜参数和图案参数进行更新。
在一个实施例中,所述进化算法为遗传算法。
在一个实施例中,所述迭代单元还被配置为重复执行以下步骤,直到达到预设终止条件:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,选择最小化所述目标函数的掩膜作为更新后的掩膜;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数,选择最小化所述目标函数的图案参数作为更新后的图案参数;
基于更新后的掩膜参数和图案参数确定触发器。
在一个实施例中,所述确定单元还被配置为采用归一化函数对所述更新后的掩膜参数和图案参数进行处理,以确定触发器。
在一个实施例中,所述判断模块还被配置为对比全部所述输出类别的触发器的1-范数,以判断所述待检测模型是否存在后门。
本发明还提出一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本发明还提出一种计算设备,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一项所述的方法。
本发明技术方案基于已经获取的检测样本集以及待检测模型,按照特定的算法得出待检测模型的全部输出类别可能存在的触发器,继而根据触发器来判断该模型是否存在后门,从而在不需要获取待检测模型的信息以及训练数据的基础上就可以判断其是否留有后门,更适用于黑盒场景下提高商业机器学习模型和API的后门安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为后门攻击各个阶段的示意图;
图2为本发明模型的后门检测方法一实施例的流程示意图;
图3为本发明模型的后门检测方法一实施例还原的后门触发器的示意图;
图4为本发明模型的后门检测装置一实施例的模块结构示意图;
图5为本发明实施例的一种介质的结构示意图;
图6为本发明实施例的一种计算设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种模型的后门检测方法、装置、介质和计算设备。
可以理解的是,本发明所指的待检测模型指的是采用计算机视觉技术对图像中的对象进行处理(如识别、检测等)的模型,包括但不限于目标检测、图像分类、语义分割、实例分割、全景分割、模式识别、人脸识别等图像处理模型。同理,所述模型的后门检测方法包括但不限于攻击以上所列举模型的一切针对图像检测的方法。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
发明概述
本发明人发现,目前的后门防御和检测方法主要有两大类,包括训练阶段的检测方法和测试阶段的检测方法。
如图1-1所示,Target class:“Stop”,即目标类别为“stop”;触发器Trigger 为右上角的图;
图1-2 Samples labeled as“stop”是将图1-1的触发器植入到训练数据集中,并将类别“stop”标记为目标类别,得到图1-2上边三张图为干净的训练数据,下边三张图为植入后门触发器的投毒数据,从而使用该训练数据集去训练 (Training)模型(DNN model)时,该模型识别到下边具有后门触发器的三张图片时,会将其预测为目标类别“stop”。
图1-3使用在图1-2训练的模型(DNN model),对其输入交通标识进行识别,可以看出图1-3中上边两个为没有植入图1-1中的触发器的交通标识“Inputs without trigger”,下边两个为植入图1-1中的触发器的交通标识“Input with trigger”;识别结果为:上边两个为限速50“Speed Limit 50”和道路施工“Road Work”,识别正确,而下边两个的识别结果均为“stop”的错误结果。
根据上述触发器的工作原理,在训练阶段的检测方法通过异常检测等方式判断训练集中哪些数据是被投毒数据。
测试阶段的检测方法则是通过反向还原后门的方式检测后门攻击。这类方法通过对模型输出的每一个输出类别还原出来可能存在的触发器,然后判断某个类别的触发器的1-范数是不是远小于其他类别触发器的1-范数。如果存在某个类别触发器的1-范数与其他类别的触发器的1-范数差距很大,那么该模型就很有可能存在后门。如图1-4即为针对模型DNN model所有输出类别发现还原出来的可能存在的触发器(Reversed trigger),从图1-4中不难看出其中类别为“stop”的后门触发器掩膜1-范数远远小于其他几个类别,故而可以判断该模型在输出类别“stop”存在后门攻击。这类方法背后的原理是攻击者往往会设计一个很小1-范数很小的触发器进行后门攻击,如果反向还原算法能够完全还原出来触发器图案,那么就能够依据不同类别触发器的1-范数的大小判断是否存在后门攻击。
综上所述,对于训练阶段的检测方法,需要已知的投毒训练数据集;对于训练阶段的后门检测方法需要获取对模型内部的参数和梯度信息,从而利用基于梯度的方式反向还原触发器。然而在现实的场景中,所使用的商业机器学习服务或API往往只提供访问接口,用户并不能够获取这些商业模型的训练数据以及模型内部的参数、梯度信息,所以无法使用现有的后门检测方法。
基于上述考虑,发明人基于已经获取的检测样本集以及待检测模型,按照特定的算法得出待检测模型的全部输出类别可能存在的触发器,继而根据触发器来判断该模型是否存在后门,从而在不需要获取待检测模型的信息以及训练数据的基础上就可以判断其是否留有后门,更适用于黑盒场景下提高商业机器学习模型和API的后门安全性。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
示例性方法
下面结合图1的应用场景,参考图1来描述根据本发明示例性实施方式的模型的后门检测方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
本发明实施方式的第一方面提供了一种模型的后门检测方法,如图2,该方法包括:
步骤S100:提供检测样本集,所述检测样本集包括多个检测样本;
步骤S200:基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
步骤S300:对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
首先执行步骤S100,提供检测样本集,其中,检测样本集中具有多个检测样本,检测样本可以是一张照片、图片等,检测样本集可以是照片集或者是图片集等。
所述检测样本集可以是事先准备好的,然后按照预设的接口或上传方式提供,例如可以是用户针对他想要检测的模型事先准备的好的,所述检测样本集中的各个检测样本均对应关联有类别标签,且都在模型的输出类别范围之内。
或者所述检测样本集还可以是已知的开源数据集。
所述检测样本集中的检测样本可以是不存在触发器的干净样本,也可以是存在触发器的投毒样本,或者可以是无法确定是否干净的样本,本实施方式对此不做限定,也就是说,不论样本是否存在触发器,均不影响本实施例的技术效果。
在本实施方式的一个实施例中,公开一种提供检测样本集的方法,包括:针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本,此处可以理解为,针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本均为干净样本。在本实施方式的另一个实施例中,公开一种提供检测样本集的方法,包括:
针对待检测模型的每一输出类别,随生成多个样本,再从该随机生成的样本中采样,得到多个检测样本,然后针对检测样本生成具有目标类别欺骗性样本,优选采用基于访问的黑盒攻击方法生成具有目标类别欺骗性样本;
或者针对待检测模型的每一输出类别,从均匀分布的样本中采样得到检测样本,然后在针对检测样本生成欺骗性样本,优选采用基于访问的黑盒攻击方法生成具有目标类别的欺骗性样本,具体的一个示例方法如下:
首先,针对待检测模型的每一个输出类别c,随机生成n张图片
Figure RE-GDA0003061881530000091
Figure RE-GDA0003061881530000092
从均匀分布U(0,1)中采样。
然后,针对每一张图片
Figure RE-GDA0003061881530000093
最小化
Figure RE-GDA0003061881530000094
被分类成输出类别c的损失函数l。首先以目标类别的样本为期望,σ为标准差构建第一高斯分布,然后采用蒙特卡洛方法估计“损失函数l相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度,而后基于该梯度进行梯度下降迭代,直至生成的欺骗性样本被待检测模型识别为预期的结果终止,从而生成检测样本相对应的欺骗性样本,计算方式如下:
Figure RE-GDA0003061881530000095
其中,c为输出类别,
Figure RE-GDA0003061881530000096
为某一输出类别的一个样本,l是交叉熵损失函数,η是学习率,δ1,…,δk是从标准高斯分布(第一高斯分布)N(0,I)中采样生成的噪声,k为样本数,σ为第一高斯分布的标准差。
采用本实施例的方法可以在干净数据难以获取的情况下,顺利提供检测样本,从而对模型进行后门检测。
在检测样本集确定之后,接下来执行步骤S200,基于步骤S100中提供的检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器。
在本实施方式的一个实施例中,首先构建一个特定的目标函数,该目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标,以触发器的掩膜参数和图案参数为未知项,以指定的所述待检测模型的某一输出类别和检测样本为输入项;在本实施例中,无论检测样本集为干样本集,或者是随机生成的,本实施例的实施方式没有变化,均能够达到相同或相似的技术效果。
然后通过进化算法(例如是梯度估计法或遗传算法,梯度估计法在本实施例中优选蒙特卡洛梯度估计法)对该目标函数进行优化计算,以确定触发器的掩膜参数和图案参数;
其中,触发器的掩膜参数至少用于确定触发器在检测样本上的位置和面积,图案参数至少用于确定触发器的图案。
具体优化方法如下:
构建特定目标函数:
Figure RE-GDA0003061881530000101
其中,f是分类器,l是交叉信息熵损失函数,c是输出类别,λ是超参,m,p为触发器的参数,m为触发器的掩膜参数,p为触发器的图案参数,然后采用蒙特卡洛梯度估计法对每一个输出类别c求解上述目标函数,就可以得到触发器的参数m、p,求解过程如下:
首先针对每一个特定的输出类别c,初始化一组关于m和p的参数θm和θp
针对每一个特定类别c的初始化参数θm和θp,均进行T步迭代,迭代过程中,固定初始化参数θm和θp中的任意一个,对另一个进行迭代,迭代顺序不分先后,以首先迭代掩膜参数θm为例,具体步骤如下:
固定图案参数θp,基于该掩膜参数θm构建伯努利分布,并从中采样得到多个掩膜:
m1,…,mk~Bern(g(θm))
其中,该伯努利分布以掩膜参数决定的掩膜即g(θm)为期望,采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度;
具体的,基于上述采样的多个掩膜和初始化得到的图案参数,对目标函数进行零阶优化求解,以确定掩膜参数的梯度估计量,零阶优化公式如下:
Figure RE-GDA0003061881530000102
其中,F为目标函数,k为样本数,σ为标准差,c为输出类别,θm为初始化的掩膜参数,θp为初始化的图案参数,计算得出的
Figure RE-GDA0003061881530000103
即为掩膜参数梯度的估计量。
然后固定初始化的掩膜参数θm,建立以θp为期望、标准差为σ的第二高斯分布,首先从标准高斯分布中随机采样得到多个噪声∈1,…,∈k~N(0,I),其中 N(0,I)为标准高斯分布。
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及目标函数进行零阶优化求解,以确定图案参数的梯度估计量,零阶优化公式如下:
Figure RE-GDA0003061881530000111
其中,F为目标函数,k为样本数,σ为标准差,∈j为第j次采样得到的噪声,c为输出类别,θm为初始化掩膜参数,θp初始化图案参数,
Figure RE-GDA0003061881530000112
为图案参数的估计量。
在得到膜参数的梯度估计量
Figure RE-GDA0003061881530000113
和图案参数的梯度估计量
Figure RE-GDA0003061881530000114
后,采用特定的优化器对掩膜参数、图案参数进行更新,本实施例采用ADAM优化器更新θm和θp的值,在其他实施例中优化器还可以采用AdaGrad优化器,RMSProp 优化器,以及AdaDelta优化器,本实施方式对优化器不做限制。
再采用归一化函数对更新后的掩膜参数和图案参数进行更新,归一化公式如下:
Figure RE-GDA0003061881530000115
Figure RE-GDA0003061881530000116
其中,θm为上述更新后的掩膜参数,g(θm)为基于上述更新后的掩膜参数进行归一化处理后的结果;θp为上述更新后的图案参数,g(θp)为基于上述更新后的图案参数进行归一化处理后的结果。
最后然后令m=g(θm),p=g(θp)反向还原得到触发器。
执行步骤S300,对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。由于在步骤S200中,已经获取了待检测模型全部输出类别可能存在的触发器,其中包括获取触发器的1-范数,在本步骤中对比全部类别的后门触发器的1-范数,若存在某一输出类别的触发器的1-范数远小于其他输出类别的触发器的1-范数,则可以判断该待检测模型存在该输出类别的后门攻击。
在本实施方式的一个实施例中,进化算法采用遗传算法,重复执行以下步骤,直到达到预设终止条件,以获取触发器的掩膜参数和图案参数:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,选择最小化所述目标函数的掩膜作为更新后的掩膜;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数,选择最小化所述目标函数的图案参数作为更新后的图案参数;
基于更新后的掩膜参数和图案参数确定触发器。
在本实施方式的一个实施例中,针对于2个输出类别的模型主要依据两个输出类别还原结果触发器的1-范数的差距比例,如某一输出类别A还原结果的1-范数小于另一输出类别类B还原结果的触发器的1-范数的1/10 即可以认为1-类被植入了后门;针对于3~5个输出类别的模型主要依据各输出类别还原结果L1范数最小值与其他类别还原结果1-范数中位数的比例;针对于6分类及以上的模型可采用MAD异常值检测方法。
例如图3所示,Class:0至Class:9为10个输出类别还原的可能存在的触发器,从10张照片中可以看出Class:0和Class:9还原后的触发器远小于其他类别,故而可以判断在输出类别Class:0和Class:9存在后门攻击。
表1所示的是发明人在一些模型上对比本发明与现有技术所做的有效性实验,以及各自的准确率,具体的,实验采用在CIFAR-10,GTSRB,Image Net 数据集上训练的模型,其中NC是基于干净数据采用获取模型真实梯度的算法, B3D是基于干净检测数据采用本发明算法,B3D-SS是基于本发明所提出的随机检测样本生成方法,再利用本发明算法进行后门还原。不难看出基于干净数据利用本发明算法的B3D跟采用真实梯算法度的NC,针对CIFAR-10、GTSRB、Image Net三个数据集上所训练模型的检测准确率基本保持一致,而B3D-SS利用本发明提出的随机检测样本生成方法获取的检测数据,与B3D 采用干净检测数据针对三个数据集上所训练模型的检测准确率同样也基本保持一致,故而可以得出利用本发明的算法进行后门攻击还原的准确率与获取模型真实梯度算法的准确率基本保持一致,而且本发明算法对于采用本发明提出的随机检测数据或是干净检测数据,进行后门还原的准确率基本也没有影响,从而本发明的算法实用性较高、可信度较强。
表1
NC B3D B3D-SS
CIFAR-10 95.0% 97.5% 97.5%
GTSRB 100.0% 100.0% 100.0%
Image Net 96.0% 96.0% 95.0%
从而使用本发明技术方案的方法,即使在黑盒场景下不能获取到干净数据和待检测模型的梯度信息,也可以采用预设的算法获取检测样本集,基于已经获取的检测样本集以及待检测模型,按照特定的算法得出待检测模型的全部输出类别可能存在的触发器,继而在对比每个输出类别触发器的掩膜的 1-范数,就可以判断该待检测模型是否存在后门。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图4对本发明示例性实施方式的一种模型的后门检测装置进行说明,该装置包括:
提供模块110,被配置为提供检测样本集,所述检测样本集包括多个检测样本;
获取模块120,被配置为基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
判断模块130,被配置为对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
在本实施方式的一个实施例中,所述提供模块110包括第一样本生成单元,所述第一样本生成单元被配置为针对待检测模型的每一输出类别,随机生成多个具有目标类别的样本。
在本实施方式的一个实施例中,所述提供模块110包括:
第二样本生成单元,被配置为针对待检测模型的每一输出类别,随机生成多个样本;
样本处理单元,被配置为针对每一个样本生成欺骗性样本。
在本实施方式的一个实施例中,
样本处理单元,被配置为针对每一个样本,采用基于访问的黑盒攻击方法生成具有目标类的欺骗性样本。
在本实施方式的一个实施例中,所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。
在本实施方式的一个实施例中,所述样本处理单元包括:
梯度估计子单元,被配置为采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度;
生成子单元,被配置为基于所述梯度进行梯度下降,以生成相应的欺骗性样本;
其中,所述损失函数的优化目标是最小化迭代中的欺骗性样本被所述待检测模型识别为目标类别的交叉熵;
所述第一高斯分布以所述具有目标类别的样本为期望,σ为标准差;
所述欺骗性样本能够被人眼观察出为机器构造的样本,且被待检测模型识别为目标类别。
在本实施方式的一个实施例中,所述获取模块120,包括:
构建单元,被配置为构建特定的目标函数,所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标,以触发器的掩膜参数和图案参数为位置向,以指定的所述待检测模型的某一输出类别和检测样本为输入项,其中,所述掩膜参数至少用于确定触发器在检测样本上的位置和面积,所述图案参数至少用于确定触发器的图案;
优化单元,被配置为通过进化算法对所述目标函数进行优化计算,以确定触发器的掩膜参数和图案参数。
在本实施方式的一个实施例中,进化算法为蒙特卡洛梯度估计法。
在本实施方式的一个实施例中,所述获取模块120包括:
初始化单元,被配置为初始化一组掩膜参数和一组图案参数;
迭代单元,被配置为重复执行以下步骤,直到达到预设终止条件:
固定图案参数,采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度,作为所述掩膜参数的梯度估计量,其中,所述伯努利分布以基于掩膜参数决定的掩膜为期望;
固定掩膜参数,采用蒙特卡洛梯度估计法来估计“所述目标函数相对整个第二高斯分布的期望”相对图案参数的梯度,作为所述图案参数的梯度估计量,其中,所述第二高斯分布以基于图案参数决定的图案为期望,σ为标准差;
分别根据掩膜参数的梯度估计量和图案参数的梯度估计量,采用特定的优化器对掩膜参数和图案参数进行更新;
确定单元,被配置为基于更新后的掩膜参数和图案参数确定触发器。
在一个实施例中,所述迭代单元还被配置为重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,基于所述目标函数进行零阶优化求解,以确定掩膜参数的梯度;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数进行零阶优化求解,以确定图案参数的梯度;
分别根据掩膜参数的梯度和图案参数的梯度,采用特定的优化器对掩膜参数和图案参数进行更新。
在本实施方式的一个实施例中,所述进化算法为遗传算法。
在本实施方式的一个实施例中,所述迭代单元还被配置为重复执行以下步骤,直到达到预设终止条件:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,选择最小化所述目标函数的掩膜作为更新后的掩膜;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数,选择最小化所述目标函数的图案参数作为更新后的图案参数;
基于更新后的掩膜参数和图案参数确定触发器。
在本实施方式的一个实施例中,所述确定单元还被配置为采用归一化函数对所述更新后的掩膜参数和图案参数进行处理,以确定触发器。
在本实施方式的一个实施例中,所述判断模块还被配置为对比全部所述输出类别的触发器的1-范数,以判断所述待检测模型是否存在后门。
示例性介质
在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图 5对本发明示例性实施方式的计算机可读存储介质进行说明。
请结合参照图5,其示出的计算机可读存储介质为光盘200,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:提供检测样本集,所述检测样本集包括多个检测样本;基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图6对本发明示例性实施方式的计算设备300进行说明,图6示出了适于用来实现本发明实施方式的示例性计算设备300的框图,该计算设备 300可以是计算机系统或服务器。图6显示的计算设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算设备300的组件可以包括但不限于:一个或者多个处理器或者处理单元310,系统存储器320,连接不同系统组件(包括系统存储器和处理单元310)的总线330。
计算设备300典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备300访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM321)和/或高速缓存存储器322。计算设备300可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM323可以用于读写不可移动的、非易失性磁介质 (图6中未显示,通常称为“硬盘驱动器”)。尽管未在图6中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM323,DVD-ROM323或者其它光介质) 读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线相连。系统存储器中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块324,这些程序模块324被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块324的程序/实用工具325,可以存储在例如系统存储器中,且这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块324以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块324通常执行本发明所描述的实施例中的功能和/或方法。
计算设备300也可以与一个或多个外部设备340(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且,计算设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器360通过总线与计算设备300的其它模块(如处理单元310等)通信。应当明白,尽管图6中未示出,可以结合计算设备300 使用其它硬件和/或软件模块。
处理单元310通过运行存储在系统存储器中的程序,从而执行各种功能应用以及数据处理,例如:提供检测样本集,所述检测样本集包括多个检测样本;基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
应当注意,尽管在上文详细描述中提及了模型的后门检测装置的若干单元/模块或子单元/模,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
通过以上描述,本发明的实施例提供了一下的技术方案,但不限于此:
1、一种模型的后门检测方法,包括:
提供检测样本集,所述检测样本集包括多个检测样本;
基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
2、如技术方案1所述的模型的后门检测方法,其中,所述提供检测样本集包括:针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本。
3、如技术方案1或2所述的模型的后门检测方法,其中,所述提供检测样本集包括:
针对待检测模型的每一输出类别,随机生成多个样本;
针对每一个样本生成对应目标类别的欺骗性样本。
4、如技术方案1-3中任一项所述的模型的后门检测方法,其中,从预设的均匀分布中采样生成多个样本。
5.如技术方案1-4中任一项所述的模型的后门检测方法,其中,所述针对每一个样本生成对应目标类别的欺骗性样本采用基于访问的黑盒攻击方法生成欺骗性样本。
6、如技术方案1-5中任一项所述的模型的后门检测方法,其中,针对每一个样本,采用基于访问的黑盒攻击方法生成欺骗性样本,包括:
采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度;
基于所述梯度进行梯度下降,以生成相应的欺骗性样本;
其中,所述损失函数的优化目标是最小化迭代中的欺骗性样本被所述待检测模型识别为目标类别的交叉熵;
所述第一高斯分布以所述具有目标类别的样本为期望,σ为标准差;
所述欺骗性样本能够被人眼观察出为机器构造的样本,且被待检测模型识别为目标类别。
7、如技术方案1-6中任一项所述的模型的后门检测方法,其中,基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,包括:
构建特定的目标函数,所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标,以触发器的掩膜参数和图案参数为未知项,以指定的所述待检测模型的某一输出类别和检测样本为输入项,其中,所述掩膜参数至少用于确定触发器在检测样本上的位置和面积,所述图案参数至少用于确定触发器的图案;
通过进化算法对所述目标函数进行优化计算,以确定触发器的掩膜参数和图案参数。
8、如技术方案1-7中任一项所述的模型的后门检测方法,其中,所述进化算法为蒙特卡洛梯度估计法。
9、如技术方案1-8中任一项所述的模型的后门检测方法,其中,通过以下方式得到所述待检测模型某一输出类别的触发器:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
固定图案参数,采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度,作为所述掩膜参数的梯度估计量,其中,所述伯努利分布以基于掩膜参数决定的掩膜为期望;
固定掩膜参数,采用蒙特卡洛梯度估计法来估计“所述目标函数相对整个第二高斯分布的期望”相对图案参数的梯度,作为所述图案参数的梯度估计量,其中,所述第二高斯分布以基于图案参数决定的图案为期望,σ为标准差;
分别根据掩膜参数的梯度估计量和图案参数的梯度估计量,采用特定的优化器对掩膜参数和图案参数进行更新;
基于更新后的掩膜参数和图案参数确定触发器。
10、如技术方案1-9中任一项所述的模型的后门检测方法,其中,通过以下方式得到所述待检测模型某一输出类别的触发器:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,基于所述目标函数进行零阶优化求解,以确定掩膜参数的梯度;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数进行零阶优化求解,以确定图案参数的梯度;
分别根据掩膜参数的梯度和图案参数的梯度,采用特定的优化器对掩膜参数和图案参数进行更新;
基于更新后的掩膜参数和图案参数确定触发器。
11、如技术方案1-10中任一项所述的模型的后门检测方法,其中,所述进化算法的方式为遗传算法。
12、如技术方案1-11中任一项所述的模型的后门检测方法,其中,通过以下方式得到所述待检测模型某一输出类别的触发器:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,选择最小化所述目标函数的掩膜作为更新后的掩膜;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数,选择最小化所述目标函数的图案参数作为更新后的图案参数;
基于更新后的掩膜参数和图案参数确定触发器。
13、如技术方案1-12中任一项所述的模型的后门检测方法,其中,所述基于更新后的掩膜参数和图案参数确定触发器,包括:
采用归一化函数对所述更新后的掩膜参数和所述图案参数进行处理,以确定所述触发器。
14、如技术方案1-13中任一项所述的模型的后门检测方法,其中,所述对比全部输出类别的触发器,以判断所述待检测模型是否存在后门,包括:
对比全部所述输出类别的触发器的1-范数,以判断所述待检测模型是否存在后门。
15、一种模型的后门检测装置,其特征在于,包括:
提供模块,被配置为提供检测样本集,所述检测样本集包括多个检测样本;
获取模块,被配置为基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
判断模块,被配置为对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
16、如技术方案15所述的模型的后门检测装置,其中,所述提供模块包括:
第一样本生成单元,被配置为针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本。
17、如技术方案15或16所述的模型的后门检测装置,其中,所述提供模块包括:
第二样本生成单元,被配置为针对待检测模型的每一输出类别,随机生成多个样本;
样本处理单元,被配置为针对每一个样本生成对应目标类别的欺骗性样本。
18、如技术方案15-17中任一项所述的模型的后门检测装置,其中,所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。
19、如技术方案15-18中任一项所述的模型的后门检测装置,其中,所述样本处理单元被配置为针对每一个样本,采用基于访问的黑盒攻击方法生成对应目标的欺骗性样本。
20、如技术方案15-19中任一项所述的模型的后门检测装置,其中,所述样本处理单元包括:
梯度估计子单元,被配置为采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度;
生成子单元,被配置为基于所述梯度进行梯度下降,以生成相应的欺骗性样本;
其中,所述损失函数的优化目标是最小化迭代中的欺骗性样本被所述待检测模型识别为目标类别的交叉熵;
所述第一高斯分布以所述具有目标类别的样本为期望,σ为标准差;
所述欺骗性样本能够被人眼观察出为机器构造的样本,且被待检测模型识别为目标类别。
21、如技术方案15-20中任一项所述的模型的后门检测装置,其中,所述获取模块,包括:
构建单元,被配置为构建特定的目标函数,所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标,以触发器的掩膜参数和图案参数为位置向,以指定的所述待检测模型的某一输出类别和检测样本为输入项,其中,所述掩膜参数至少用于确定触发器在检测样本上的位置和面积,所述图案参数至少用于确定触发器的图案;
优化单元,被配置为通过进化算法对所述目标函数进行优化计算,以确定触发器的掩膜参数和图案参数。
22、如技术方案15-21中任一项所述的模型的后门检测装置,其中,所述进化算法为蒙特卡洛梯度估计法。
23、如技术方案15-22中任一项所述的模型的后门检测装置,其中,所述获取模块包括:
初始化单元,被配置为初始化一组掩膜参数和一组图案参数;
迭代单元,被配置为重复执行以下步骤,直到达到预设终止条件:
固定图案参数,采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度,作为所述掩膜参数的梯度估计量,其中,所述伯努利分布以基于掩膜参数决定的掩膜为期望;
固定掩膜参数,采用蒙特卡洛梯度估计法来估计“所述目标函数相对整个第二高斯分布的期望”相对图案参数的梯度,作为所述图案参数的梯度估计量,其中,所述第二高斯分布以基于图案参数决定的图案为期望,σ为标准差;
分别根据掩膜参数的梯度估计量和图案参数的梯度估计量,采用特定的优化器对掩膜参数和图案参数进行更新;
确定单元,被配置为基于更新后的掩膜参数和图案参数确定触发器。
24、如技术方案15-23中任一项所述的模型的后门检测装置,其中,所述迭代单元还被配置为重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,基于所述目标函数进行零阶优化求解,以确定掩膜参数的梯度;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数进行零阶优化求解,以确定图案参数的梯度;
分别根据掩膜参数的梯度和图案参数的梯度,采用特定的优化器对掩膜参数和图案参数进行更新。
25、如技术方案如技术方案15-24中任一项所述的模型的后门检测装置,其中,所述进化算法为遗传算法。
26、如技术方案15-25中任一项所述的模型的后门检测装置,其中,所述迭代单元还被配置为重复执行以下步骤,直到达到预设终止条件:
初始化一组掩膜参数和一组图案参数;
重复执行以下步骤,直到达到预设终止条件:
从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜;
基于所述多个掩膜和初始化得到的图案参数,选择最小化所述目标函数的掩膜作为更新后的掩膜;
从标准高斯分布中随机采样得到多个噪声;
将初始化的图案参数和多个噪声进行组合,然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数,选择最小化所述目标函数的图案参数作为更新后的图案参数;
基于更新后的掩膜参数和图案参数确定触发器。
27、如技术方案15-26中任一项所述的模型的后门检测装置,其中,所述确定单元还被配置为采用归一化函数对所述更新后的掩膜参数和图案参数进行处理,以确定触发器。
28、如技术方案15-27中任一项所述的模型的后门检测装置,其中,所述判断模块还被配置为对比全部所述输出类别的触发器的1-范数,以判断所述待检测模型是否存在后门。
29、一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如技术方案1-14中任一项所述的方法。
30、一种计算设备,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如技术方案1-14中任一项所述的方法。

Claims (10)

1.一种模型的后门检测方法,包括:
提供检测样本集,所述检测样本集包括多个检测样本;
基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
2.如权利要求1所述的模型的后门检测方法,其中,所述提供检测样本集包括:针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本。
3.如权利要求1所述的模型的后门检测方法,其中,所述提供检测样本集包括:
针对待检测模型的每一输出类别,随机生成多个样本;
针对每一个样本生成对应目标类别的欺骗性样本。
4.如权利要求3所述的模型的后门检测方法,其中,从预设的均匀分布中采样生成多个样本。
5.一种模型的后门检测装置,其特征在于,包括:
提供模块,被配置为提供检测样本集,所述检测样本集包括多个检测样本;
获取模块,被配置为基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后,作为所述待检测模型的输入能够使所述待检测模型输出特定结果时,检测样本上最小的触发器面积为目标进行优化计算,得到所述待检测模型各个输出类别的触发器;
判断模块,被配置为对比全部输出类别的触发器,以判断所述待检测模型是否存在后门。
6.如权利要求5所述的模型的后门检测装置,其中,所述提供模块包括:
第一样本生成单元,被配置为针对待检测模型的每一输出类别,随机采样多个具有目标类别的样本。
7.如权利要求5所述的模型的后门检测装置,其中,所述提供模块包括:
第二样本生成单元,被配置为针对待检测模型的每一输出类别,随机生成多个样本;
样本处理单元,被配置为针对每一个样本生成对应目标类别的欺骗性样本。
8.如权利要求7所述的模型的后门检测装置,其中,所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。
9.一种介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
10.一种计算设备,其特征在于,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-4中任一项所述的方法。
CN202110222642.6A 2021-02-26 2021-02-26 模型的后门检测方法、装置、介质和计算设备 Pending CN112989340A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110222642.6A CN112989340A (zh) 2021-02-26 2021-02-26 模型的后门检测方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110222642.6A CN112989340A (zh) 2021-02-26 2021-02-26 模型的后门检测方法、装置、介质和计算设备

Publications (1)

Publication Number Publication Date
CN112989340A true CN112989340A (zh) 2021-06-18

Family

ID=76351414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110222642.6A Pending CN112989340A (zh) 2021-02-26 2021-02-26 模型的后门检测方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN112989340A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165616A1 (zh) * 2022-03-04 2023-09-07 上海观安信息技术股份有限公司 图像模型隐蔽后门的检测方法及系统、存储介质、终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027628A (zh) * 2019-12-12 2020-04-17 支付宝(杭州)信息技术有限公司 一种模型确定方法和系统
CN111914256A (zh) * 2020-07-17 2020-11-10 华中科技大学 一种机器学习训练数据受投毒攻击的防御方法
CN111971698A (zh) * 2018-04-16 2020-11-20 国际商业机器公司 在神经网络中使用梯度来检测后门
US20200380118A1 (en) * 2019-05-29 2020-12-03 Anomalee Inc. Post-Training Detection and Identification of Human-Imperceptible Backdoor-Poisoning Attacks
US20200387608A1 (en) * 2019-05-29 2020-12-10 Anomalee Inc. Post-Training Detection and Identification of Human-Imperceptible Backdoor-Poisoning Attacks
US20200410098A1 (en) * 2019-06-26 2020-12-31 Hrl Laboratories, Llc System and method for detecting backdoor attacks in convolutional neural networks
CN112257816A (zh) * 2020-12-07 2021-01-22 北京瑞莱智慧科技有限公司 模型的后门检测方法、装置、介质和计算设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111971698A (zh) * 2018-04-16 2020-11-20 国际商业机器公司 在神经网络中使用梯度来检测后门
US20200380118A1 (en) * 2019-05-29 2020-12-03 Anomalee Inc. Post-Training Detection and Identification of Human-Imperceptible Backdoor-Poisoning Attacks
US20200387608A1 (en) * 2019-05-29 2020-12-10 Anomalee Inc. Post-Training Detection and Identification of Human-Imperceptible Backdoor-Poisoning Attacks
US20200410098A1 (en) * 2019-06-26 2020-12-31 Hrl Laboratories, Llc System and method for detecting backdoor attacks in convolutional neural networks
CN111027628A (zh) * 2019-12-12 2020-04-17 支付宝(杭州)信息技术有限公司 一种模型确定方法和系统
CN111914256A (zh) * 2020-07-17 2020-11-10 华中科技大学 一种机器学习训练数据受投毒攻击的防御方法
CN112257816A (zh) * 2020-12-07 2021-01-22 北京瑞莱智慧科技有限公司 模型的后门检测方法、装置、介质和计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOLUN WANG ET AL.: "Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks", 《2019 IEEE SYMPOSIUM ON SECURITY AND PRIVACY》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165616A1 (zh) * 2022-03-04 2023-09-07 上海观安信息技术股份有限公司 图像模型隐蔽后门的检测方法及系统、存储介质、终端

Similar Documents

Publication Publication Date Title
CN110245598B (zh) 对抗样本生成方法、装置、介质和计算设备
Paul et al. Coupling image restoration and segmentation: A generalized linear model/Bregman perspective
Pereyra Proximal markov chain monte carlo algorithms
US10346757B2 (en) Systems and methods for parallelizing Bayesian optimization
Ma et al. Regularized vector field learning with sparse approximation for mismatch removal
Zhao et al. A robust method for vector field learning with application to mismatch removing
US11277425B2 (en) Anomaly and mode inference from time series data
Zendel et al. How good is my test data? Introducing safety analysis for computer vision
CN111738374B (zh) 多样本对抗扰动生成方法、装置、存储介质和计算设备
Moreno-Noguer et al. Dependent multiple cue integration for robust tracking
US20220092407A1 (en) Transfer learning with machine learning systems
CN111145076A (zh) 数据并行化处理方法、系统、设备及存储介质
Laumont et al. On maximum a posteriori estimation with plug & play priors and stochastic gradient descent
Khosoussi et al. A sparse separable SLAM back-end
Chen et al. Insights into algorithms for separable nonlinear least squares problems
CN110020593B (zh) 信息处理方法及装置、介质及计算设备
Zhang et al. Nonlinear functional causal models for distinguishing cause from effect
CN112989340A (zh) 模型的后门检测方法、装置、介质和计算设备
CN110853069A (zh) 一种用于车辆外观分割的神经网络模型构建方法与系统
Quera-Bofarull et al. Some challenges of calibrating differentiable agent-based models
Lin et al. Efficient and effective multi-camera pose estimation with weighted M-estimate sample consensus
WO2015035593A1 (en) Information extraction
Geiping et al. Parametric majorization for data-driven energy minimization methods
Bergsma et al. Velocity estimation of spots in three‐dimensional confocal image sequences of living cells
Zheng et al. Robust point matching for two-dimensional nonrigid shapes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination