CN112257816B - 模型的后门检测方法、装置、介质和计算设备 - Google Patents

模型的后门检测方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN112257816B
CN112257816B CN202011418502.8A CN202011418502A CN112257816B CN 112257816 B CN112257816 B CN 112257816B CN 202011418502 A CN202011418502 A CN 202011418502A CN 112257816 B CN112257816 B CN 112257816B
Authority
CN
China
Prior art keywords
model
detection
output
back door
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011418502.8A
Other languages
English (en)
Other versions
CN112257816A (zh
Inventor
张旭东
萧子豪
董胤蓬
朱建威
唐家渝
田天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202011418502.8A priority Critical patent/CN112257816B/zh
Publication of CN112257816A publication Critical patent/CN112257816A/zh
Application granted granted Critical
Publication of CN112257816B publication Critical patent/CN112257816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种模型的后门检测方法、装置、介质和计算设备。该方法包括:提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。根据本发明的技术方案,可以采用任何样本检测模型是否存在后门,而不必须是训练模型时使用的样本,给用户带来了更加方便的体验。且仅需提供输入输出反馈,无需模型具体结构和参数,保护了用户知识产权。

Description

模型的后门检测方法、装置、介质和计算设备
技术领域
本发明的实施方式涉及机器学习模型安全领域,更具体地,本发明的实施方式涉及一种模型的后门检测方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来,以机器学习尤其是深度学习为代表的人工智能技术的迅速发展正在深度改变人类的生产和生活方式,但是人工智能在飞速推动技术革命和产业进步的同时,其存在的安全风险往往被忽视。
深度学习具有的黑盒决策、缺乏透明性的特点使其极易受到数据投毒攻击。近年来,研究者发现了一种新型的样本投毒攻击方法:模型后门攻击,即攻击者可以在模型中植入后门,当输入中存在特定符号(触发器)时,具有后门的模型始终将具有触发器的输入识别为指定的类别。后门可以无限期隐藏,直到被存在特定符号(触发器)的输入激活,并对许多安全或安全相关应用程序(如身份认证系统或自动驾驶汽车智能感知系统)带来严重的安全风险。
由此,如何检测模型是否存在后门成为当前亟待解决的技术问题。
中国发明专利CN202010329693.4公开了一种后门样本检测方法、系统及装置。所述方法包括:获取多个训练样本,以及基于所述多个训练样本确定的目标模型;其中,所述多个训练样本属于至少两个样本类别;对于任一个样本类别:分别将该样本类别中的各训练样本输入到所述目标模型中,得到所述目标模型对各训练样本的响应数据;基于各训练样本对应的响应数据,确定反映各响应数据整体分布的特征数据;将各训练样本对应的响应数据分别与所述特征数据进行比较,得到多个比较结果;对所述多个比较结果进行分析,确定该样本类别中的训练样本中是否包含后门样本。由此,可以确定训练时采用了后门样本的模型为后门模型。
然而,在现实环境中,很多用户使用的机器学习模型并非是由自己训练得到的,大多数都是从第三方获得,例如委托相关的服务商进行开发训练或从模型集市直接采买,这就导致机器学习模型的用户无法提供训练模型时所采用的样本,也难以获得目标模型有效的响应数据,从而根据现有技术无法判断自己的机器学习模型是否存在后门。
发明内容
在本上下文中,本发明的实施方式期望提供一种模型的后门检测方法、介质、装置和计算设备。
在本发明实施方式的第一方面中,提供了一种模型的后门检测方法,包括:
提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;
基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;
根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本实施方式的一个实施例中,提供用于检测后门的材料还包括按照预设方式提供待检测模型,其中,按照预设方式提供的待检测模型为黑盒模型。
在本实施方式的一个实施例中,所述检测样本集中的任一样本均不属于训练所述模型时的训练样本集。
在本实施方式的一个实施例中,所述方法还包括:
提供图形用户界面以便确定用于检测后门的材料。
在本实施方式的一个实施例中,所述检测样本集中的每一检测样本均标记其所属类别的标签,某一检测样本标记的所述标签与所述模型某一类别的输出相对应;
基于所述检测样本集对所述模型的每一类别输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,包括:
针对每一类别的标签,分别从所述检测样本集中选取预设数量的检测样本;
分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果。
在本实施方式的一个实施例中,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门,包括:
通过对比所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本实施方式的一个实施例中,通过对比所述模型的不同类别的输出的还原结果的L1范数确定所述模型的相应类别是否存在后门。
在本实施方式的一个实施例中,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门之后,所述方法还包括:
根据所述模型的不同类别的输出的还原结果确定检测报告,所述检测报告至少包括以下之一:
所述模型是否存在后门的信息;
所述模型存在后门的输出类别;
所述模型未存在后门的输出类别;
攻破存在后门的模型的某一输出类别的实例样本。
在本发明实施方式的第二方面中,提供了一种模型的后门检测装置,包括:
检测准备模块,被配置为提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;
搜索还原模块,被配置为基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;
后门确定模块,被配置为根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本实施方式的一个实施例中,所述检测准备模块还被配置为按照预设方式提供待检测模型,其中,按照预设方式提供的待检测模型为黑盒模型。
在本实施方式的一个实施例中,所述检测样本集中的任一样本均不属于训练所述模型时的训练样本集。
在本实施方式的一个实施例中,所述检测准备模块还被配置为提供图形用户界面以便确定用于检测后门的材料。
在本实施方式的一个实施例中,所述检测样本集中的每一检测样本均标记其所属类别的标签,某一检测样本标记的所述标签与所述模型某一类别的输出相对应;
所述搜索还原模块包括:
样本获取单元,被配置为针对每一类别的标签,分别从所述检测样本集中选取预设数量的检测样本;
搜索还原单元,被配置为分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果。
在本实施方式的一个实施例中,所述后门确定模块还被配置为通过对比所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本实施方式的一个实施例中,所述后门确定模块还被配置为通过对比所述模型的不同类别的输出的还原结果的L1范数确定所述模型的相应类别是否存在后门。
在本实施方式的一个实施例中,所述装置还包括:
检测报告确定模块,被配置为根据所述模型的不同类别的输出的还原结果确定检测报告,所述检测报告至少包括以下之一:
所述模型是否存在后门的信息;
所述模型存在后门的输出类别;
所述模型未存在后门的输出类别;
攻破存在后门的模型的某一输出类别的实例样本。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序在被处理器执行时能够实现第一方面中任一项所述的方法。
在本发明实施方式的第四方面中,提供了一种计算设备,所述计算设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行第一方面中任一项所述的方法。
根据本发明实施方式的模型的后门检测方法、装置、介质和计算设备,基于检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;然后根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。根据本发明的技术方案,可以采用任何样本检测模型是否存在后门,而不必须是训练模型时使用的训练样本,极大提高了后门检测的实用性,给用户带来了更加方便的体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为本发明一实施例提供的模型的后门检测方法的应用场景示意图;
图2为本发明一实施例提供的模型的后门检测方法的流程示意图;
图3为本发明一实施例提供的在正常样本添加后门得到后门样本的示意图;
图4为本发明一实施例提供的存在后门的模型的各个类别的搜索还原结果的示意图;
图5为本发明一实施例提供的不存在后门的模型的各个类别的搜索还原结果的示意图;
图6为本发明一实施例提供的模型的后门检测装置的结构示意图;
图7示意性地示出了本发明实施例的一种介质的结构示意图;
图8示意性地示出了本发明实施例的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种模型的后门检测方法、介质、装置和计算设备。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,如果模型已被植入后门,那么只需要较小的修改即可导致输入样本错误分类到目标标签(即攻击者植入后门时设计的攻击目标);如果模型未被植入后门,若要使输入样本错误分类到其他标签则需要较大程度的修改。因此,仅需依次搜索模型的所有可以分类的标签,并确定是否有任何标签需要更小的修改量来实现错误分类,即可检测出该模型是否存在后门。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,本申请提出的模型的后门检测方法可以基于计算机程序代码实现,并部署在本地或云服务器上,通过浏览器或应用程序等客户端为用户提供服务,例如可以在云服务器上部署能够实现本申请的方法的程序代码,并通过浏览器提供图形用户界面,使得用户可以通过简单的模型提供和处理选择操作,完成模型后门检测。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于模型的后门检测的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
本发明实施例提供了一种模型的后门检测方法,包括:
步骤S110,提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;
步骤S120,基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;
步骤S130,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本申请中,后门样本,可以是指添加了后门(或可以被称为触发器),且同时改变了标签的样本。参照图3,在一张青蛙图像上的某一位置(例如图像左下角)添加一个特定符号(后门),并将该青蛙图像的标签更改为“金鱼”。则该样本可以被称为后门样本。利用包含后门样本的训练数据训练机器学习模型例如分类模型,由于机器学习所具有的数据拟合能力,得到的模型(可以被称为后门模型)将学习到后门和标签的对应关系。攻击者只要在正常的数据中注入后门,就可以使模型输出其指定的标签,从而达到对模型进行攻击的效果。例如,在任意的图片中添加以上示例中的后门后,后门模型会将该图片识别为“金鱼”,从而达到了欺骗模型的目的。
下面详细说明如何检测模型是否存在后门:
首先,执行步骤S110,提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;需要说明的是,与中国发明专利CN202010329693.4不同的是,所述检测样本集中的任一样本可以均不属于训练所述模型时的训练样本集,也就是说所述检测样本集与训练样本集的交集可以为空集。
可以理解的是,所述检测样本集也可以包括训练所述时采用的样本,本申请的技术方案不限制检测样本必须是训练样本,但也不排斥训练样本,即使检测样本为训练样本,也不影响本申请的实施,可以达到相同的技术效果。
需要说明的是,本申请公开的技术方案对待检测模型的要求很低,即用户可以仅仅以黑盒模型的模式来提供,而不必提供所述待检测模型的相关参数(即不必是白盒模型),从而防止了用户的模型泄露,最大程度的保护了用户知识产权,在本实施方式的一个实施例中,用户在进行检测时,可以按照预设的几种方式提供待检测模型,其中,按照预设方式提供的待检测模型为黑盒模型。
具体来说,可以提供待检测模型的API/SDK,或者可以提供封装好的模型文件,本实施方式对此不做限定,只要能将检测样本输入待检测模型,并得到待检测模型相应的输出结果即可。
为了更加方便用户进行检测操作,在本实施方式的一个实施例中,所述方法还包括:
提供图形用户界面以便确定用于检测后门的材料。
在本实施例中,用户可以通过所述界面中提供的操作选项提供待检测模型和检测样本,或者所述界面中可以提供众多可以选择的检测样本集,在用户选定某个或某几个检测样本集后,响应于用户的启动操作,对用户提供的待检测模型进行检测。
另外,本申请提供的预设方式(封装好的的模型文件、SDK或API)使得用户不需要直接提供白盒模型文件,最大程度的保护了用户的知识产权。
在本实施方式的一个实施例中,所述检测样本集中的每一检测样本均标记其所属类别的标签,某一检测样本标记的所述标签与所述模型某一类别的输出相对应;
基于所述检测样本集对所述模型的每一类别输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,包括:
针对每一类别的标签,分别从所述检测样本集中选取预设数量的检测样本;
分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果。
在本实施例中,假设检测样本集中的每一检测样本所标记的标签均为以下五种之一:金鱼、青蛙、狗、马和牛,所述待检测模型恰好能够识别以上五种动物,从而基于检测样本集采用本申请的方法能够检测模型是否存在后门,也就是说,本实施例中,检测样本集所包括的检测样本的标签和模型的各个输出一一对应。
考虑到,如果仅仅根据一张图像搜索还原得到的结果可能不够准确,为了使得针对模型的每一类别的输出的还原结果更加准确,在本实施方式的一个实施例中,进行检测时,每一类别的标签的检测样本至少存在预设数量,例如50张。可以理解的是,如果检测样本集中的检测样本量很多,远远超过预设数量,也不必将每个检测样本都输入待检测模型进行搜索还原,可以针对每一类别的标签,按照预设方式选取(例如随机选取)预设数量(例如50张)的检测样本进行搜索还原。
可以理解的是,在面对不同的检测模型或者其他更具体的检测任务时,还可以根据实际需要设置检测样本集中每一类别的检测样本的数量,本实施方式对此不做限定。
然后,分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果,具体来说,假如此时对待检测模型A的一个输出类别a进行搜索还原,当前的检测样本为b1,那么,在进行搜索还原时,首先按照预设方式(例如基于迭代的优化方法)对b1进行修改,然后采用所述待检测模型A对修改后的b1进行识别,若输出的识别结果正确,则继续修改,直到待检测模型A输出的识别结果错误为止。
需要说明的是,待检测模型的某一类输出的还原结果不仅仅是根据某个单独的检测样本的使其错分的修改确定,而是根据相应类别的每一个检测样本的使其错分的修改确定。例如,待检测模型B可以对5个对象(金鱼、青蛙、狗、马和牛)的图像进行识别,输出图像中的对象的类别,检测样本集中至少包括50张金鱼图像(t1-t50),那么在对金鱼类别的输出进行搜索还原时,将会利用t1-t50的所有数据进行优化添加的过程,直到修改后的t1-t50能够使模型错分,使模型错分时的修改记为x1,即金鱼类别的搜索还原结果。其他类别的搜索还原结果也可以按照上述方式确定,此处不再一一描述。
需要说明的是,还原结果虽然能够用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量,但并不与修改完全一致,或完全代表修改,其是待检测模型基于训练样本(训练所述待检测模型时的样本)学习到的特征,假如训练样本中的一个或几个原本为青蛙类别的样本被施加了后门T(触发器,即所述修改),并变更标签为金鱼,那么待检测模型从以上被施加了后门的样本上学习到的则为T’,而可能不完全是T,从而基于检测样本还原出的待检测模型的金鱼类别输出的还原结果为T’,而不是T。
在得到待检测模型的各个类别输出的还原结果之后,根据发明概述中所记载的原理,即可实施相应的步骤确定待检测模型是否存在后门。
在本实施方式的一个实施例中,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门,包括:
通过对比所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
图4示出了一个金鱼类别输出存在后门的模型的各个输出类别的还原结果。
图5示出了一个各个类别输出均不存在后门的模型的各个输出类别的还原结果。
通过图4和图5,可以很明显的看出,若模型某一个类别的输出存在后门,则其搜索还原出的结果与其他正常的不存在后门的类别搜索还原出的结果存在的差异较大,即存在后门的输出类别的搜索还原结果较小,也就是仅仅需要较小的修改量即可使模型错分。图4中的金鱼类别的搜索还原结果相比于其他类别的搜索还原结果明显较小,依据发明概述中的原理,可以判定金鱼类别存在后门。
在本实施方式的一个实施例中,通过对比所述模型的不同类别的输出的还原结果的L1范数确定所述模型的相应类别是否存在后门。
具体而言,本发明对比不同类别输出的还原结果主要采用了异常检测算法来判断一组数据中是否存在一些特例。同时,不同模型支持识别的种类数量往往有所差别,比如二分类、三分类、多分类模型等。为了在不同情况下均能够检测出模型是否存在后门,本发明还设计了一套有针对性的异常检测算法方法。
在本实施方式的一个实施例中,针对于2分类模型主要依据两个类别还原结果L1范数的差距比例,如某一类A还原结果的L1范数小于另一类B还原结果L1范数的1/10即可以认为A类被植入了后门;针对于3~5分类模型主要依据各类别还原结果L1范数最小值与其他类别还原结果L1范数中位数的比例;针对于6分类及以上的模型可采用MAD异常值检测方法。
在本实施方式的一个实施例中,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门之后,所述方法还包括:
根据所述模型的不同类别的输出的还原结果确定检测报告,所述检测报告至少包括以下之一:
所述模型是否存在后门的信息;
所述模型存在后门的输出类别;
所述模型未存在后门的输出类别;
攻破存在后门的模型的某一输出类别的实例样本。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图6对本发明示例性实施方式的一种模型的后门检测装置进行说明,该装置包括:
检测准备模块610,被配置为提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;
搜索还原模块620,被配置为基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;
后门确定模块630,被配置为根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本实施方式的一个实施例中,所述检测样本集中的任一样本均不属于训练所述模型时的训练样本集。
在本实施方式的一个实施例中,所述检测准备模块还被配置为按照预设方式提供待检测模型,其中,按照预设方式提供的待检测模型为黑盒模型。
在本实施方式的一个实施例中,所述检测准备模块610还被配置为提供图形用户界面以便确定用于检测后门的材料。
在本实施方式的一个实施例中,所述检测样本集中的每一检测样本均标记其所属类别的标签,某一检测样本标记的所述标签与所述模型某一类别的输出相对应;
所述搜索还原模块620包括:
样本获取单元,被配置为针对每一类别的标签,分别从所述检测样本集中选取预设数量的检测样本;
搜索还原单元,被配置为分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果。
在本实施方式的一个实施例中,所述后门确定模块630还被配置为通过对比所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
在本实施方式的一个实施例中,所述后门确定模块630还被配置为通过对比所述模型的不同类别的输出的还原结果的L1范数确定所述模型的相应类别是否存在后门。
在本实施方式的一个实施例中,所述装置还包括:
检测报告确定模块,被配置为根据所述模型的不同类别的输出的还原结果确定检测报告,所述检测报告至少包括以下之一:
所述模型是否存在后门的信息;
所述模型存在后门的输出类别;
所述模型未存在后门的输出类别;
攻破存在后门的模型的某一输出类别的实例样本。
示例性介质
在介绍了本发明示例性实施方式的方法和装置之后,接下来,参考图7对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图7,其示出的计算机可读存储介质为光盘70,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门;各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类别的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图8对本发明示例性实施方式的用于模型的后门检测的计算设备进行说明。
图8示出了适于用来实现本发明实施方式的示例性计算设备80的框图,该计算设备80可以是计算机系统或服务器。图8显示的计算设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算设备80的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器802和处理单元801)的总线803。
计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储器8022。计算设备80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM8023可以用于读写不可移动的、非易失性磁介质(图8中未显示,通常称为“硬盘驱动器”)。尽管未在图8中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个样本介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块8024的程序/实用工具8025,可以存储在例如系统存储器802中,且这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序样本,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。
计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白,尽管图8中未示出,可以结合计算设备80使用其它硬件和/或软件模块。
处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及样本处理,例如,提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集;基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了模型的后门检测装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

Claims (14)

1.一种模型的后门检测方法,包括:
提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集以及按照预设方式提供的待检测模型,所述按照预设方式提供的待检测模型为黑盒模型;其中,所述检测样本集中的每一检测样本均标记其所属类别的标签,某一检测样本标记的所述标签与所述模型某一类别的输出相对应;
基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,包括:
针对每一类别的标签,分别从所述检测样本集中选取预设数量的检测样本;
分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果;
在进行搜索时,首先按照基于迭代的优化方法对当前的检测样本进行修改,然后采用所述待检测模型对修改后的检测样本进行识别,若输出的识别结果正确,则继续修改,直到待检测模型输出的识别结果错误为止;
其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;
根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
2.如权利要求1所述的模型的后门检测方法,其中,所述检测样本集中的任一样本均不属于训练所述模型时的训练样本集。
3.如权利要求1所述的模型的后门检测方法,其中,所述方法还包括:
提供图形用户界面以便确定用于检测后门的材料。
4.如权利要求1所述的模型的后门检测方法,其中,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门,包括:
通过对比所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
5.如权利要求4所述的模型的后门检测方法,其中,通过对比所述模型的不同类别的输出的还原结果的L1范数确定所述模型的相应类别是否存在后门。
6.如权利要求1-5中任一项所述的模型的后门检测方法,其中,根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门之后,所述方法还包括:
根据所述模型的不同类别的输出的还原结果确定检测报告,所述检测报告至少包括以下之一:
所述模型是否存在后门的信息;
所述模型存在后门的输出类别;
所述模型未存在后门的输出类别;
攻破存在后门的模型的某一输出类别的实例样本。
7.一种模型的后门检测装置,包括:
检测准备模块,被配置为提供用于检测后门的材料,其中,所述材料至少包括用于检测模型是否存在后门的检测样本集以及按照预设方式提供的待检测模型,所述按照预设方式提供的待检测模型为黑盒模型;其中,所述检测样本集中的每一检测样本均标记其所属类别的标签,某一检测样本标记的所述标签与所述模型某一类别的输出相对应;
搜索还原模块,被配置为基于所述检测样本集对所述模型的每一类别的输出进行搜索,以得到针对所述模型的每一类别的输出的多个还原结果,包括:
样本获取单元,被配置为针对每一类别的标签,分别从所述检测样本集中选取预设数量的检测样本;
搜索还原单元,被配置为分别基于预设数量的每一类别的检测样本,搜索所述模型相应类别的输出,以获取所述类别的输出的还原结果;
所述搜索还原单元在进行搜索时,首先按照基于迭代的优化方法对当前的检测样本进行修改,然后采用所述待检测模型对修改后的检测样本进行识别,若输出的识别结果正确,则继续修改,直到待检测模型输出的识别结果错误为止;
其中,所述还原结果用于表征基于一个或多个同类别检测样本,使所述模型的输出结果出错的修改量;
后门确定模块,被配置为根据所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
8.如权利要求7所述的模型的后门检测装置,其中,所述检测样本集中的任一样本均不属于训练所述模型时的训练样本集。
9.如权利要求7所述的模型的后门检测装置,其中,所述检测准备模块还被配置为提供图形用户界面以便确定用于检测后门的材料。
10.如权利要求7所述的模型的后门检测装置,其中,所述后门确定模块还被配置为通过对比所述模型的不同类别的输出的还原结果确定所述模型是否存在后门。
11.如权利要求10所述的模型的后门检测装置,其中,所述后门确定模块还被配置为通过对比所述模型的不同类别的输出的还原结果的L1范数确定所述模型的相应类别是否存在后门。
12.如权利要求7-11中任一项所述的模型的后门检测装置,其中,所述装置还包括:
检测报告确定模块,被配置为根据所述模型的不同类别的输出的还原结果确定检测报告,所述检测报告至少包括以下之一:
所述模型是否存在后门的信息;
所述模型存在后门的输出类别;
所述模型未存在后门的输出类别;
攻破存在后门的模型的某一输出类别的实例样本。
13.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序在被处理器执行时能够实现上述权利要求1-6中任一项所述的方法。
14.一种计算设备,所述计算设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-6中任一项所述的方法。
CN202011418502.8A 2020-12-07 2020-12-07 模型的后门检测方法、装置、介质和计算设备 Active CN112257816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011418502.8A CN112257816B (zh) 2020-12-07 2020-12-07 模型的后门检测方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011418502.8A CN112257816B (zh) 2020-12-07 2020-12-07 模型的后门检测方法、装置、介质和计算设备

Publications (2)

Publication Number Publication Date
CN112257816A CN112257816A (zh) 2021-01-22
CN112257816B true CN112257816B (zh) 2021-09-21

Family

ID=74225061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011418502.8A Active CN112257816B (zh) 2020-12-07 2020-12-07 模型的后门检测方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN112257816B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989340A (zh) * 2021-02-26 2021-06-18 北京瑞莱智慧科技有限公司 模型的后门检测方法、装置、介质和计算设备
CN115659171B (zh) * 2022-09-26 2023-06-06 中国工程物理研究院计算机应用研究所 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710564B (zh) * 2017-09-15 2021-05-28 苏州棱镜七彩信息科技有限公司 基于大数据的源代码综合评测平台
US10929534B2 (en) * 2017-10-18 2021-02-23 AO Kaspersky Lab System and method detecting malicious files using machine learning

Also Published As

Publication number Publication date
CN112257816A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
Rabanser et al. Failing loudly: An empirical study of methods for detecting dataset shift
CN108304720B (zh) 一种基于机器学习的安卓恶意程序检测方法
US10803398B2 (en) Apparatus and method for information processing
KR101711882B1 (ko) 악성 취약점 파일을 검출하기 위한 방법, 장치 및 단말기
CN112257816B (zh) 模型的后门检测方法、装置、介质和计算设备
CN111753290B (zh) 软件类型的检测方法及相关设备
CN113360910B (zh) 恶意应用的检测方法、装置、服务器和可读存储介质
CN111814916B (zh) 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN111277606A (zh) 检测模型训练方法、检测方法及装置、存储介质
US11531748B2 (en) Method and system for autonomous malware analysis
US10007788B2 (en) Method of modeling behavior pattern of instruction set in N-gram manner, computing device operating with the method, and program stored in storage medium to execute the method in computing device
JP2017004123A (ja) 判定装置、判定方法および判定プログラム
CN107491691A (zh) 一种基于机器学习的远程取证工具安全分析系统
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
Fang et al. Backdoor attacks on the DNN interpretation system
CN114746859A (zh) 评价方法、评价程序以及信息处理装置
JP2020123097A (ja) 学習装置、学習方法および学習プログラム
US11868465B2 (en) Binary image stack cookie protection
Soremekun et al. Towards backdoor attacks and defense in robust machine learning models
CN113190847B (zh) 一种脚本文件的混淆检测方法、装置、设备及存储介质
Huang et al. Patchcensor: Patch robustness certification for transformers via exhaustive testing
CN117115107B (zh) 基于长尾分布概率的外观缺陷检测模型的训练方法及装置
US20230145544A1 (en) Neural network watermarking
CN112784257A (zh) 生成测试以用于区分人类与计算机的方法
PM et al. PDF Malware Detection System based on Machine Learning Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant