CN116348879A

CN116348879A - 对抗性插值后门检测

Info

Publication number: CN116348879A
Application number: CN202180062856.XA
Authority: CN
Inventors: H·H·路德维格; E·楚巴; 陈洛聿; B·J·爱德华; 李泰星; I·M·摩洛伊
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-13
Filing date: 2021-08-19
Publication date: 2023-06-27
Also published as: JP2023544186A; DE112021004652T5; US20220114259A1; GB202305408D0; GB2614996A; WO2022078062A1

Abstract

一个或多个计算机处理器确定与不可信模型和对抗性训练方法相关联的容限值和范数值。一个或多个计算机处理器利用对抗性训练方法生成在图像对之间测距的多个插值的对抗性图像，其中，该对图像中的每个图像来自不同的类别。一个或多个计算机处理器利用所生成的多个插值的对抗性图像来检测与不可信模型相关联的后门。一个或多个计算机处理器通过利用所生成的多个经插值的对抗性图像训练不可信模型来硬化不可信模型。

Description

对抗性插值后门检测

背景技术

本发明一般涉及机器学习领域，尤其涉及检测经后门攻击的神经网络。

深度学习是基于一组算法的机器学习的分支，该组算法通过使用具有复杂结构或另外的通常由多个非线性变换组成的模型架构来对数据中的高级抽象建模。深度学习是基于数据的学习表示的更广泛的机器学习方法家族的一部分。观察结果(例如，图像)可以以许多方式表示，例如每个像素的强度值的向量，或者以更抽象的方式表示为一组边缘、特定形状的区域等。一些表示使得更容易从示例学习任务(例如，面部识别或面部表情识别)。深度学习算法通常使用多个非线性处理单元层的级联来进行特征提取和变换。每个连续层使用来自前一层的输出作为输入。算法可以是有监督的或无监督的，并且应用包括模式分析(无监督的)和分类(有监督的)。

神经网络(NN)是由生物神经网络启发的计算系统。NN不是简单的算法，而是针对用于一起工作并处理复杂的数据输入的许多不同机器学习算法的框架。这样的系统通过考虑示例来学习执行任务，通常不用任何任务特定的规则来编程。例如，在图像识别中，NN通过分析被正确标记为真或假(例如，猫或非猫)的示例图像并使用结果识别其他图像中的对象(例如，猫)，来学习识别包含猫的图像。在该示例中，NN在没有关于猫的任何先验知识的情况下分类，例如，猫具有毛、尾巴、胡须和尖的耳朵。相反，NN自动根据学习材料生成识别特征。NN基于称为人工神经元的连接单元或节点的集合，这些连接单元或节点对生物脑中的神经元进行松散的建模，其中每个连接像生物脑中的突触一般可以将信号从一个人工神经元传输到另一人工神经元。接收信号的人工神经元可以处理该信号并随后将该信号传递至附加的人工神经元。

在常见的NN实施方式中，人工神经元之间的连接处的信号是实数，并且每个人工神经元的输出是通过其输入之和的某一非线性函数来计算的。人工神经元之间的连接被称为边。人工神经元和边通常具有权重，该权重随着学习的进行而被调整。权重增加或减少连接处的信号强度。人工神经元可以具有阈值，使得仅在聚合信号越过阈值时才发送信号。通常，人工神经元聚合成层。不同的层可以对它们的输入执行不同类型的变换。信号可能在多次穿过各层之后从第一层(输入层)传播到最后一层(输出层)。

卷积神经网络(CNN)是一类神经网络，最通常应用于分析视觉图像。CNN是多层感知器(例如，全连接网络)的正则化版本，其中一层中的每个神经元连接到下一层中的所有神经元。CNN利用数据中的分层模式，并使用更小和更简单的模式来组装更复杂的模式。CNN将图像分解成小块(例如，5×5像素块)，然后以指定的步长在图像上移动。因此，在连通性和复杂性的尺度上，CNN处于下限，因为CNN与其他图像分类算法相比使用相对较少的预处理，从而允许网络学习在传统算法中被手工工程化的过滤器。

发明内容

本发明的实施例公开了一种计算机实现的方法、计算机程序产品和系统。该计算机实现的方法包括一个或多个计算机处理器确定与不可信模型和对抗性训练方法相关联的容限值和范数值。一个或多个计算机处理器利用对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像，其中该图像对中的每个图像来自不同的类别。一个或多个计算机处理器利用所生成的多个经插值的对抗性图像来检测与不可信模型相关联的后门。一个或多个计算机处理器通过利用所生成的多个经插值的对抗性图像训练不可信模型来硬化(harden)该不可信模型。

附图说明

图1是示出根据本发明的实施例的计算环境的功能框图；

图2是描绘根据本发明的实施例的在图1的计算环境内的服务器计算机上的程序的操作步骤的流程图，操作步骤用于利用所生成的经插值的对抗性图像来检测和硬化经后门攻击的神经网络；

图3是根据本发明的实施例的生成范围在猫类别和狗类别之间的多个经插值的图像的程序的图示；以及

图4是根据本发明实施例的服务器计算机的组件的框图。

具体实施方式

当训练数据被恶意篡改时，在存在被称为后门攻击的经设计的触发模式的情况下，所得的经训练模型(例如，深度卷积神经网络(CNN))的相关联预测可以被操纵。深度CNN在如计算机视觉、语音理解、玩游戏等领域中实现了最新的表现，然而，在训练阶段存在恶意注入的漏洞，这称为后门攻击。后门攻击可能损坏机器学习系统，特别是涉及图像分类、面部识别和自主车辆的系统，从而对模型和应用可信性提出了严峻挑战。对手或不良行动者可以利用具有将攻击者选择的输入分类到一些目标标签的能力的后门示例来对神经网络进行后门访问，同时仍然保持对正常输入的正确预测。异常行为被后门和神经网络在训练阶段中学习的一些“键”输入激活。对手攻击将人不可感知的扰动添加到测试数据，使得数据输入在测试阶段容易被错误地分类。对手通过将精心制作的恶意数据(例如，后门攻击)插入训练集中来获得惊人的控制机器学习模型。这与不安全或众包数据采集、频繁再训练、模型定制(例如，来自模型市场)和转移学习的场景尤其相关。

本发明的实施例确定模型是否已利用恶意的键或触发器被后门访问。本发明的实施例生成多个经插值的对抗性扰动以确定在模型中是否存在后门。本发明的实施例通过利用所生成的经插值的对抗性扰动和相关联的对抗性图像来训练/再训练模型，从而硬化模型。本发明的实施例利用人机回环(human-in-the-loop)训练方法来维持模型效率并改进对可能的后门和相关联图像的检测。本发明的实施例的实现可以采取各种形式，并且随后参考附图讨论示例性实现细节。

现在将参照附图详细描述本发明。

图1是示出根据本发明一个实施例的计算环境的功能框图，通常指定为100。在本说明书中使用的术语“计算”描述了包括多个物理上不同的设备的计算机系统，这些设备作为单个计算机系统一起操作。图1仅提供了一种实现的图示，并且不暗示对其中可以实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改，而不脱离权利要求所陈述的本发明的范围。

计算环境100包括通过网络102连接的服务器计算机120。网络102可以是例如电信网络、局域网(LAN)、诸如因特网的广域网(WAN)、或这三者的组合，并且可以包括有线、无线、或光纤连接。网络102可以包括能够接收和发送包括多媒体信号在内的数据、语音和/或视频信号的一个或多个有线和/或无线网络，该多媒体信号包括语音、数据和视频信息。通常，网络102可以是支持服务器计算机120和模型110以及计算环境100内的其它计算设备(未示出)之间的通信的连接和协议的任何组合。在各种实施例中，网络102经由有线、无线或光学连接在本地操作，并且可以是连接和协议(例如，个人区域网(PAN)、近场通信(NFC)、激光、红外、超声等)的任何组合。

模型110表示利用深度学习技术进行训练、计算权重、摄取输入以及输出多个解向量的模型。在一个实施例中，模型110包括深度学习模型、技术和算法的任何组合，诸如可转移的神经网络算法和模型(例如，长期短期存储器(LSTM)、深度堆栈网络(DSN)、深度置信网络(DBN)、卷积神经网络(CNN)、复合分层深度模型等)，其可以用有监督或无监督方法来训练。在所描绘的实施例中，模型110是利用有监督的对抗性训练方法来训练的CNN。在该实施例中，对抗性训练方法是训练模型以对未修改的示例和对抗性示例进行正确分类的过程。对抗性训练提高了对抗性样本(即，图像)的鲁棒性，同时保持原始示例的泛化性能。在一个实施例中，模型110已被后门损害，其中模型110消耗与后门相关联的(具有不同的真实标签的)任意输入，这些输入随后利用错误的目标类别被错误地分类。在一个实施例中，模型110是不可信模型，其中不可信模型是从不安全的或不可信的源中检索的，使得从该源检索的任何模型不能被立即验证。

服务器计算机120可以是独立的计算设备、管理服务器、web服务器、移动计算设备、或能够接收、发送和处理数据的任何其他电子设备或计算系统。在其他实施例中，服务器计算机120可以表示利用多个计算机作为服务器系统的服务器计算系统，诸如在云计算环境中。在另一实施例中，服务器计算机120可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、桌上型计算机、个人数字助理(PDA)、智能电话、或能够经由网络102与计算环境100内的其他计算设备(未示出)通信的任何可编程电子设备。在另一实施例中，服务器计算机120表示利用集群计算机和组件(例如，数据库服务器计算机、应用服务器计算机等)的计算系统，当在计算环境100内被访问时，所述集群计算机和组件充当单个无缝资源池。在所描绘的实施例中，服务器计算机120包括数据库122和程序150。在其他实施例中，服务器计算机120可以包含未在计算环境100中描绘的其他应用、数据库、程序等。服务器计算机120可以包括内部和外部硬件组件，如关于图4进一步详细描绘和描述的。

数据库122是程序150所使用的数据的储存库。在所描述的实施例中，数据库122驻留在服务器计算机120上。在另一实施例中，数据库122可以驻留在计算环境100内的其他地方，只要程序150可以访问数据库122。数据库是被组织的数据集合。数据库122可以用能够存储可由程序150访问和利用的数据和配置文件的任何类型的存储设备来实现，诸如数据库服务器、硬盘驱动器或闪存。在实施例中，数据库122存储由程序150使用的数据，诸如历史的经插值的对抗性图像、历史的后门、历史的干净模型、历史的经后门攻击的模型、以及相关联的数据集(例如，测试集、验证集和训练集)。

程序150是用于利用所生成的经插值的对抗性图像来检测和硬化经后门攻击的神经网络的程序。在各种实施例中，程序150可以实现以下步骤：确定与不可信模型和对抗性训练方法相关联的容限值和范数值；利用对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像，其中图像对中的每个图像来自不同的类别；利用所生成的多个经插值的对抗性图像来检测与不可信模型相关联的后门；以及通过利用所生成的多个经插值的对抗性图像训练不可信模型来硬化该不可信模型。在所描绘的实施例中，程序150是独立的软件程序。在另一实施例中，程序150或其任何组合程序的功能可以集成到单个软件程序中。在一些实施例中，程序150可以位于单独的计算设备(未描绘)上，但仍可通过网络102通信。在各种实施例中，程序150的客户端版本驻留在计算环境100内的任何其他计算设备(未描绘)上。程序150将参考图2更详细地描绘和描述。

本发明可以包含各种可访问的数据源，诸如数据库122，其可以包括个人存储设备、数据、内容或用户希望不被处理的信息。处理是指任何自动化或非自动化的操作或操作集合例如收集、记录、组织、结构化、存储、适配、更改、检索、咨询、使用、通过传输、分发的公开或以其他方式使得对个人数据执行的组合、限制、擦除或破坏。程序150提供具有对个人数据的收集的通知的知情同意，从而允许用户选择处理个人数据或选择退出处理个人数据。消费者可以采取几种形式。选择加入同意可以强制用户在处理个人数据之前采取肯定动作。或者，选择退出同意可强制用户采取肯定动作以防止在数据被处理之前处理个人数据。程序150允许对诸如跟踪信息之类的用户信息以及诸如个人标识信息或敏感个人信息之类的个人数据进行经授权且安全的处理。程序150提供关于个人数据和处理的性质(例如，类型、范围、目的、持续时间等)的信息。程序150向用户提供所存储的个人数据的副本。程序150允许校正或完成不正确或不完整的个人数据。程序150允许立即删除个人数据。

图2描绘了根据本发明的实施例的示出用于利用所生成的经插值的对抗性图像来检测和硬化经后台访问的神经网络的程序150的操作步骤的流程图200。

程序150监控不可信模型(步骤202)。在一个实施例中，当用户将不可信模型输入到程序150中时，程序150开始。在另一实施例中，程序150监控(例如，检索或接收)一个或多个不可信模型以获得后门的指示。在一个实施例中，程序接收不可信模型架构和相关联的预先训练的权重。在另一实施例中，每当一个或多个不可信模型被训练或重新训练时，程序150激活。在另一实施例中，程序150响应于训练样本或数据集中的一个或多个改变而开始，此改变诸如是训练样本的添加、修改或删除。在示例场景中，攻击者修改训练集，但不修改测试集，也不修改模型细节和相关联的训练算法。在实施例中，程序150接收与不可信模型相关联的具有相应标签的一组干净的训练数据和验证数据。例如，程序150接收一组训练图像和验证图像，其中每个图像被加标签。在另一实施例中，程序150接收对抗性训练方法和相关联的参数。

程序150确定与不可信模型相关联的容限值和范数值(步骤204)。响应于程序150接收到与不可信模型相关联的干净的测试集和验证集，程序150利用相关联的验证数据接收或确定容限值。在该实施例中，容限是对增加强度的对抗性攻击的模型鲁棒性的度量。在一个实施例中，程序150通过利用验证数据来测试模型并计算一个或多个错误率来确定容限。在另一个实施例中，程序150接收或确定使模型在特定输入上的损失最大化同时保持扰动的大小小于指定ε(epsilon)范数值。在该实施方式中，范数值被表示为扰动的L²或L∞范数。在一个实施例中，程序150从验证集中选择一组数据来测试模型的鲁棒性，其中鲁棒性模型有效地防止了有用但非鲁棒性特征的学习。

程序150利用所确定的容限值和范数值生成多个经插值的对抗性图像(步骤206)。在一个实施例中，程序150生成多个高ε对抗性图像，每个高ε对抗性图像具有被添加的扰动，该扰动可改变相关联的类别标签。在一个实施例中，程序150利用所确定的范数值和所确定的容限值来调整扰动和相关联的对抗性图像。在另一实施例中，程序150为验证数据集的每个标签和数据对生成对抗性图像，并将正确的标签附加到每个所生成的图像。在另一个实施例中，程序150通过利用在每次迭代时具有数据点的线性化损失函数来计算扰动。例如，程序150利用迭代的最小可能性分类方法，即选择最小可能性预测作为期望类别的基于梯度的迭代方法。这里，程序150生成范围在图像对之间的多个经插值的图像，每个经插值的图像来自不同的类别。在一个实施例中，给定两个图像x、x'，程序150生成在相应类别x和x'之间插值的图像。在一个实施例中，程序150针对测试集和/或验证集中包含的每个类别，迭代地执行朝向指定类别的到经插值的对抗性图像的子集中的一个或多个扰动。在上述实施例中，程序150在原始图像和另一类别中的另一图像类别之间线性插值，以在各个类别之间平滑插值。在另一实施例中，对于鲁棒模型，该扰动引起原始图像的可察觉的变化(例如，人眼可见)。在一个实施例中，程序150仅扰动图像的一部分或区域。在以上实施例中，所生成的经内插的图像将用作在训练中的不同点处的模型的鲁棒性测试，如下所述。

程序150利用所生成的多个经插值的对抗性图像来检测后门(步骤208)。在一实施例中，程序150利用所生成的多个经插值的对抗性图像，以通过响应于多个经插值的对抗性图像识别分类中的错误分类或改变来检测该图像中存在的后门。在一个实施例中，程序150通过分析与输入的经插值的对抗性图像相关联的一个或多个梯度来检测后门，因为后门附近的图像的统计不同于统计干净图像。在一个实施例中，程序150利用平均值和标准差来确定图像是否被后门访问。在一个实施例中，程序150继续上述步骤，直到梯度证明后门存在，对抗性图像变得不可破译，或者在感知上类似于目标类别中的数据。对于非鲁棒模型，对抗性扰动表现为随机噪声，而鲁棒模型能够揭示后门，同时防止由于后门引起的任何错误分类。

在一个实施例中，程序150利用人机回环训练方法(即，允许用户改变事件或过程的结果)来监控模型的训练进度。例如，程序150监控与对抗性重新训练相关联的随时间推移的一个或多个梯度。在另一示例中，程序150周期性地向一个或多个用户显示一个或多个梯度作为可视化。在另一实施例中，程序150生成呈现给用户的一个或多个可视化，以便帮助检测图像不一致性。在一个实施例中，程序150在模型训练中的不同点处建立多个检查点。在该实施例中，程序150保存在那个时间点的模型的当前状态。在另一实施例中，程序150利用如上所述的对抗性插值作为人机回环训练方法，如果用户认为对抗性改变或所生成的图像是后门，则允许人为干预。在该实施例中，用户确定是否应该重新训练模型。在另一个实施例中，程序150在利用对所生成和施加的对抗性扰动的人工验证的特定训练步骤中监控和中断模型。在各种实施例中，程序150向用户提供可能由于后门而偏移的一个或多个分类。在各种实施例中，程序150利用检查点重新访问先前训练，并向人类管理员呈现所述训练和相关统计。人机回环训练允许训练过程中的人为干预，以便维持模型鲁棒性。在一个实施例中，如果所生成的对抗性图像没有揭示对输入的可解释(即，可由人检测到)的扰动，则程序150利用所生成的图像来执行对抗性训练并重复上述步骤，直到扰动是可解释的。在一个示例中，不可解释的扰动是高斯噪声，或者不形成可见图案的其他噪声图案。

程序150通过利用所生成的对抗性图像重新训练不可信模型来移除检测到的后门(步骤210)。在实施例中，程序150通过利用用于鲁棒性模型训练的所生成的对抗性经内插图像来训练不可信模型，从而硬化不可信模型。在另一个实施例中，程序150过滤随后的输入并移除包含检测到的后门的图像。在另一个实施例中，程序150处理所有输入，并且如果检测到后门，则移除输入中的区域。在各种实施例中，程序150用相关联的源类别来重新标记经后门攻击的数据，并继续利用重新标记的经后门攻击的数据来训练模型。在一个实施例中，程序150部署经硬化的模型以用于随后的推断和评分。

图3描绘了根据本发明的说明性实施例的图示300。图示300包含范围在猫类别(即，原始图像302)和狗类别(即，经插值的图像304D)之间的多个经插值的图像(即，经插值的图像304A、304B和304C)。图示300描绘了程序150生成范围在猫类别和狗类别之间的多个经插值的图像，如在步骤206中所描述的。这里，程序150向原始图像302和相关联的类别(即，猫)添加一个或多个对抗性扰动，从而向目标类别(即，狗)进行插值。如经插值的图像302A、304B、304C和304D所示，程序150继续添加对抗性扰动，直到经插值的图像被分类为目标类别，如所示的，经插值的图像304D被分类为狗。

图4描绘了根据本发明的说明性实施例的服务器计算机120的组件的框图400。应当理解，图4仅提供了一种实现的说明，而不暗示对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。

服务器计算机120各自包括通信结构404，其提供高速缓存403、存储器402、永久性存储装置405、通信单元407和输入/输出(I/O)接口406之间的通信。通信结构404可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构404可以用一个或多个总线或纵横开关来实现。

存储器402和永久性存储装置405是计算机可读存储介质。在该实施例中，存储器402包括随机存取存储器(RAM)。通常，存储器402可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存403是通过保存最近访问的数据和来自存储器402的被访问数据附近的数据来增强计算机处理器401的性能的快速存储器。

程序150可以存储在永久性存储装置405和存储器402中，以便由一个或多个相应的计算机处理器401经由高速缓存403来执行。在一个实施例中，永久性存储装置405包括磁硬盘驱动器。作为磁硬盘驱动器的替代或补充，永久性存储405可以包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或能够存储程序指令或数字信息的任何其它计算机可读存储介质。

永久性存储装置405所使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久性存储装置405。其它示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入到驱动器中以便传送到也是永久性存储装置405的一部分的另一计算机可读存储介质上。软件和数据412可以存储在永久性存储装置405中，以便由一个或多个相应的处理器401经由高速缓存403访问和/或执行。

在这些示例中，通信单元407提供与其他数据处理系统或设备的通信。在这些示例中，通信单元407包括一个或多个网络接口卡。通信单元407可以通过使用物理和无线通信链路中的一种或两种来提供通信。程序150可以通过通信单元407下载到永久性存储装置405。

I/O接口406允许与可以连接到服务器计算机120的其它设备输入和输出数据。例如，I/O接口406可以提供到外部设备408的连接，所述外部设备诸如键盘、小键盘、触摸屏和/或一些其它合适的输入设备。外部设备408还可以包括便携式计算机可读存储介质，例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实践本发明的实施例的软件和数据(例如，程序150)可以存储在这样的便携式计算机可读存储介质上，并且可以经由(一个或多个)I/O接口406加载到永久性存储装置405上。I/O接口406还连接到显示器409。

显示器409提供向用户显示数据的机制，并且可以是例如计算机监控器。

这里描述的程序是基于在本发明的特定实施例中实现它们的应用来标识的。然而，应当理解，这里的任何特定程序术语仅是为了方便而使用，因此本发明不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的(一个或多个)计算机可读存储介质，该计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，诸如Smalltalk、C++等，常规的过程编程语言，诸如“C”编程语言或类似的编程语言，以及量子编程语言，诸如“Q”编程语言、Q#、量子计算语言(QCL)或类似的编程语言，低级编程语言，诸如汇编语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图(即，图)中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不脱离本发明范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择本文所使用的术语是为了最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或为了使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种计算机实现的方法，包括：

由一个或多个计算机处理器确定与不可信模型和对抗性训练方法相关联的容限值和范数值；

由一个或多个计算机处理器利用所述对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像，其中，所述图像对中的每个图像来自不同的类别；

由一个或多个计算机处理器利用所生成的多个经插值的对抗性图像来检测与所述不可信模型相关联的后门；以及

由一个或多个计算机处理器通过用所生成的多个经插值的对抗性图像训练所述不可信模型来硬化所述不可信模型。

2.根据权利要求1所述的计算机实现的方法，其中，利用所述对抗性训练方法生成范围在所述图像对之间的所述多个经插值的对抗性图像包括：

由一个或多个计算机处理器针对测试集中包含的每个类别，迭代地执行朝向指定类别的到经插值的对抗性图像的子集中的一个或多个扰动。

3.根据权利要求2所述的计算机实现的方法，其中所述一个或多个扰动是经线性插值的。

4.根据权利要求1所述的计算机实现的方法，还包括：

由一个或多个计算机处理器利用人机回环训练方法来监控所述不可信模型。

5.根据权利要求4所述的计算机实现的方法，还包括：

由一个或多个计算机处理器周期性地显示与所述不可信模型相关联的一个或多个梯度。

6.根据权利要求1所述的计算机实现的方法，还包括：

由一个或多个计算机处理器过滤包含检测到的后门的一个或多个后续输入。

7.根据权利要求1所述的计算机实现的方法，其中，经硬化的模型被部署用于推断。

8.根据权利要求1所述的计算机实现的方法，还包括：

由一个或多个计算机处理器接收所述不可信模型、相关联的预先训练的权重、干净测试集、验证集以及所述对抗性训练方法，其中，所述干净测试集和所述验证集各自包含具有相关联的标签的多个图像。

9.一种计算机程序产品，包括：

一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令，所存储的程序指令包括：

用于确定与不可信模型和对抗性训练方法相关联的容限值和范数值的程序指令；

用于利用所述对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像的程序指令，其中，所述图像对中的每个图像来自不同的类别；

用于利用所生成的多个经插值的对抗性图像来检测与所述不可信模型相关联的后门的程序指令；以及

用于通过利用所生成的多个经插值的对抗性图像训练所述不可信模型来硬化所述不可信模型的程序指令。

10.根据权利要求9所述的计算机程序产品，其中，用于利用所述对抗性训练方法生成范围在所述图像对之间的所述多个经插值的对抗性图像的所述程序指令包括：

用于针对测试集中包含的每个类别，迭代地执行朝向指定类别的到经插值的对抗性图像的子集中的一个或多个扰动的程序指令。

11.根据权利要求10所述的计算机程序产品，其中所述一个或多个扰动是经线性插值的。

12.根据权利要求9所述的计算机程序产品，其中，存储在所述一个或多个计算机可读存储介质上的所述程序指令还包括：

用于利用人机回环训练方法来监控所述不可信模型的程序指令。

13.根据权利要求12所述的计算机程序产品，其中，存储在所述一个或多个计算机可读存储介质上的所述程序指令还包括：

用于周期性地显示与所述不可信模型相关联的一个或多个梯度的程序指令。

14.根据权利要求9所述的计算机程序产品，其中经硬化的模型被部署用于推断。

15.一种计算机系统，包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；以及

存储在所述计算机可读存储介质上以供所述一个或多个处理器中的至少一个处理器执行的程序指令，所存储的程序指令包括：

16.根据权利要求15所述的计算机系统，其中，用于利用所述对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像的程序指令包括：

17.根据权利要求16所述的计算机系统，其中，所述一个或多个扰动是经线性插值的。

18.根据权利要求15所述的计算机系统，程序指令利用人机回环训练方法来监控所述不可信模型。

19.根据权利要求18所述的计算机系统，其中，存储在所述一个或多个计算机可读存储介质上的所述程序指令还包括：

20.根据权利要求15所述的计算机系统，其中，经硬化的模型被部署用于推断。