CN114503108A

CN114503108A - 向经过训练的机器学习模型添加对抗鲁棒性

Info

Publication number: CN114503108A
Application number: CN202080070524.1A
Authority: CN
Inventors: B.比塞尔; M-I.尼古拉; A.拉瓦特; M.辛恩; N.M.特兰; M.维斯图巴
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-14
Filing date: 2020-10-12
Publication date: 2022-05-13
Also published as: AU2020368222B2; GB2604791B; KR20220054812A; US20210110045A1; JP2022552243A; JP7537709B2; AU2020368222A1; KR102692100B1; GB2604791A; GB202207000D0; WO2021074770A1; US11334671B2

Abstract

提供了方法和系统，用于通过计算系统中的一个或多个处理器来保护经过训练的机器学习模型。通过向一个或多个经过训练的机器学习模型添加对抗性保护，一个或多个强化的机器学习模型可以抵御对抗性攻击。

Description

向经过训练的机器学习模型添加对抗鲁棒性

技术领域

本发明总体涉及计算系统，更具体地说，涉及使用计算处理器在计算系统中向经过训练的机器学习模型添加针对对手的对抗鲁棒性的各种实施例。

背景技术

计算系统可见于工作场所、家庭或学校中。由于最近信息技术的进步和互联网的日益普及，各种各样的计算机系统被用于机器学习。机器学习是一种形式的人工智能，用于允许计算机根据经验数据进化行为。机器学习可以利用训练实例来捕捉未知潜在概率分布的感兴趣特征。训练数据可以视为说明被观察变量之间关系的实例。机器学习研究的一个主要焦点是自动学习识别复杂模式并根据数据做出智能决策。因此，本领域需要解决上述问题。

发明内容

从第一个方面来看，本发明提供了通过一个或多个处理器在计算环境中保护经过训练的机器学习模型的方法，该方法包括：通过向一个或多个经过训练的机器学习模型添加对抗性保护，提供一个或多个经过强化的机器学习模型，以抵御对抗性攻击。

从另一个方面来看，本发明提供了用于在计算环境中保护经过训练的机器学习模型的系统，包括：一个或多个具有可执行指令的计算机，所述可执行指令被执行时导致该系统：通过向一个或多个经过训练的机器学习模型添加对抗性保护，提供一个或多个强化的机器学习模型，以抵御对抗性攻击。

从另一个方面来看，本发明提供了用于通过一个或多个处理器在计算环境中保护经过训练的机器学习模型的计算机程序产品，该计算机程序产品包括可由处理电路读取并存储用于由处理电路执行的指令的计算机可读存储介质，用以执行用于执行本发明步骤的方法。

从另一个方面来看，本发明提供了存储在计算机可读介质上并可加载到数字计算机内部存储器中的计算机程序，包括当所述程序在计算机上运行时用于执行本发明步骤的软件代码部分。

从另一个方面来看，本发明提供了用于通过处理器在计算环境中保护经过训练的机器学习模型的计算机程序产品，该计算机程序产品包括非暂时性计算机可读存储介质，其中存储有计算机可读程序代码部分，所述计算机可读程序代码部分包括：可执行部分，其通过向一个或多个经过训练的机器学习模型添加对抗性保护来提供一个或多个强化的机器学习模型，以抵御对抗性攻击。

提供了用于通过计算系统中的一个或多个处理器保护经过训练的机器学习模型的各种实施例。在一个实施例中，仅作为示例，提供了一种用于再次通过处理器向针对计算系统中的对手的经过训练的机器学习模型添加对抗鲁棒性的方法。通过向一个或多个经过训练的机器学习模型添加对抗性保护，一个或多个强化的机器学习模型可以抵御对抗性攻击。

附图说明

为了容易理解本发明的优点，将通过参考附图中所示的具体实施例来对以上简述的本发明进行更具体的描述。理解这些附图仅描绘本发明的典型实施例，因此不应被视为限制其范围，将通过使用附图以额外的具体内容和细节来描述和解释本发明，其中：

图1是描述根据本发明实施例的示例性云计算节点的框图；

图2是描述根据本发明实施例的示例性云计算环境的附加框图；

图3是描述根据本发明实施例的抽象模型层的附加框图；

图4是描述用于通过其中可以实现本发明的各个方面的处理器在计算环境中针对对手/对抗系统保护经过训练的机器学习模型的示例性方法的流程图；

图5是根据本发明的实施例的描述用于通过其中可以实现本发明的各个方面的处理器在计算环境中针对对手/对抗系统保护经过训练的机器学习模型的示例性系统和功能的框图；

图6是根据本发明的另一实施例的描述用于通过其中可以实现本发明的各个方面的处理器在计算环境中针对用于图像的对手/对抗系统保护经过训练的机器学习模型的另一示例性系统和功能的框图；

图7是根据本发明的另一实施例的描述用于通过其中可以实现本发明的各个方面的处理器在计算环境中针对对手/对抗系统保护经过训练的机器学习模型的另外的示例性操作的框图；

图8是描述用于通过其中可以实现本发明的各个方面的处理器在计算环境中针对对手/对抗系统保护经过训练的机器学习模型的示例性方法的流程图。

具体实施方式

本发明总体上涉及人工智能(“AI”)领域，例如机器学习和/或深度学习。深度学习是指基于对一组数据的多层次特征或表示的学习的一类机器学习算法。当前的深度学习方法包括使用级联的多层非线性处理单元进行特征提取和转换。特征提取是指接收一组初始测量数据并构建衍生值(或特征)以便于后续的学习和泛化步骤的过程。在许多情况下，较高级别的特征是从较低级别的特征衍生出来的，以生成测量数据和衍生特征的分层表示。

此外，深度学习算法基于分布式表示。分布式表示是在这样的假设下运行的，即观测(或测量)数据是组织成一个或多个层的一个或多个因素相互作用的结果。从概念上讲，深度学习引入了另一个假设，即相互作用以提供测量数据的因素层代表抽象或组合的层次。在这种假设下，多个层和层大小对应于不同的抽象量。

总体而言，深度学习在优化决策和从图像、音频、视频和文本等非结构化数据中提取业务价值方面取得了重大进展。然而，尽管深度学习在各种数据类型和任务上实现了更高的计算性能，但深度神经网络(DNN)存在一些挑战、弱点和/或安全问题。例如，DNN容易受到对抗性攻击，对手可能通过对其输入进行不可察觉的更改来完全改变DNN的行为。此外，(例如可能实施对抗性攻击的)对手/对抗系统也可能安装在物理世界中，对人工智能和深度学习的部署构成真正的威胁，特别是在如生物特征识别、网络安全、自动车辆、机器人等的安全关键的应用中。

目前，由于经过训练的机器学习模型缺乏对抗性样本的对抗鲁棒性，在任务关键型环境(如业务环境)中部署机器学习模型受到抑制，同时对人工智能系统的信任受到破坏。一方面，“对抗性样本”可以是对抗性实例的同义词。对抗性样本/实例可以是攻击者/对手为使机器学习模型出错或导致错误而故意设计的机器学习模型的输入。尽管“白盒场景”可以防御对抗性样本，但防御白盒攻击仍然具有挑战性。防御对抗性威胁需要深入了解对抗性样本、攻击和防御，只有少数专家具备应用此类防御所需的知识和经验。因此，保护和确保经过训练的机器学习/深度学习模型免受对抗性样本的影响，对于确保AI和DL在现实世界中安全关键的应用中的安全部署至关重要，更广泛地说，对于维持对AI系统的信任至关重要。

因此，本文提供了各种实施例，用于保护经过训练的机器学习模型(例如，神经网络模型和任何可以用基于梯度的优化算法训练的机器学习模型)。在一个实施例中，仅作为示例，通过向一个或多个经过训练的机器学习模型添加对抗性保护，提供了一个或多个强化机器学习模型，以防止对抗性攻击。

在另一个方面，仅作为示例，通过向一个或多个经过训练的机器学习模型添加对抗性保护，提供了一个或多个强化机器学习模型，以防止对抗性攻击。重新训练过的机器学习模型可以通过预处理层进行扩展，以创建扩展的机器学习模型。如果机器学习模型是神经网络，则本发明可以向机器学习模型添加附加层，并重新训练经过训练的机器学习模型，以防止由于预处理层而导致的精度损失。本文所使用的“经过训练学习模型”可以指示模型“M”已经训练到期望的状态。在一个方面，可以通过添加一个或多个附加层来扩展模型“M”(例如，扩展的机器学习模型)，使得模型M的结构改变为，指示“M+K”。然后，需要再次训练一个新的模型“M+K”，这里称为重新训练。

可以应用一种或多种回滚策略以在其中一些或全部之前维持/保持中间模型状态(例如，模型权重)(例如，保持/保存模型M2、M4和M6，而不是保存模型M1、M2、M3和/或M5以节省维护成本)，在检测到训练崩溃时从这些模型状态恢复。训练机器学习模型“M”意味着通过循环改变模型M的状态可以。开始时，M处于状态M1，下一次迭代是状态M2，可能会一直继续到最后一次具有Mn的迭代。可以预期，通过每次迭代，模型会变得更精确/更好。因此，模型状态Mn可能是用于预测的最优化/最佳状态。模型M1、M2、Mn-1可称为中间模型。然而，在实践中，可能无法确切知道所需的迭代次数(即“n”)。例如，也许型号M10是理想的和最优的，当“n”等于十(“10”)时可能需要停止，但这是未知的，系统继续为M11等进行训练，这可能会更糟。因此，需要维护/保持一些中间模型状态，以防它们比最后一个模型更好。

此外，可以将后处理输出层添加到重新训练过的扩展机器学习模型，从而产生受保护的机器学习模型。可以提供一个或多个性能报告，说明受保护机器学习模型在良性和对抗性样本(例如，在黑盒和/或白盒攻击下)上的性能。然后，可以将受保护的机器学习模型返回给系统的用户。

因此，本发明强化了先前经过训练的机器学习模型以应对对抗性挑战，并且能够部署安全的、经过训练的机器学习模型，尤其是在安全关键的应用(例如，医疗、保险、金融等)中。另一方面，机器学习模型可以针对由计算机、CPU、GPU、服务器、预处理器、学习器和神经网络组成的对手/对抗系统进行强化。应当注意，机器学习模型的强化也可以在基于云的环境中作为服务提供。

另一方面，仅作为示例，可以通过重新训练经过训练的机器学习模型，将对抗鲁棒性添加到经过训练的机器学习模型中。本发明可以向经过训练的机器学习模型添加后处理功能和/或向神经网络添加输入预处理层，并调整预处理层的防御强度。

本发明可以用额外的神经网络层扩展经过训练的神经网络。本发明可以请求用户或系统对保护过程的可选选择步骤进行输入。此外，本发明可以确定良性样本上的机器学习模型性能和/或确定对抗性样本上的机器学习模型性能。可以将良性和/或对抗性实例的性能报告/传回给用户或另一计算系统。本发明可以在对抗性重新训练期间跟踪经过训练的机器学习模型的中间状态，并且可以检测训练崩溃并启用回滚策略。

此外，应当注意，可以使用可能涉及一个或多个数学运算的各种数学运算或函数来执行一个或多个计算(例如，执行变化率/微积分运算，分析性地或计算性地求解微分方程或偏微分方程，使用加法、减法、除法、乘法、标准差、均值、平均值、百分比，使用统计分布的统计建模，通过找到组合变量的最小值、最大值或类似阈值，等等)。

一般而言，如本文所用，“优化”可指和/或定义为“最大化”、“最小化”或实现一个或多个特定目标、目的、或意图。优化还可以指最大化用户的利益(例如，最大化经过训练的机器学习模型的利益)。优化也可以指最有效地或功能性地利用情况、机会或资源。

此外，“优化”不必指最佳解决方案或结果，而是可以指例如对特定应用“足够好”的解决方案或结果，例如。在一些实现中，目标是建议预处理操作(“预处理器”)和/或机器学习模型的“最佳”组合，但可能有多种因素会导致对预处理操作(“预处理器”)和/或机器学习模型组合的替代建议产生更好的结果。在此，术语“优化”可指基于最小值(或最大值，取决于优化问题中考虑的参数)的此类结果。另一方面，术语“优化”和/或“进行优化”可以指为实现诸如降低执行成本或提高资源利用率的改进结果而执行的操作，而不管实际上是否实现了最佳结果。类似地，术语“优化”可以指用于执行这种改进操作的组件，术语“优化的”可以用于描述这种改进操作的结果。

应当理解，虽然本公开包括关于云计算的详细描述，但是本文给出的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图1，描述了说明性云计算环境50。云计算节点10只是合适的云计算节点的一个示例，无意对本文描述的本发明实施例的使用范围或功能性提出任何限制。无论如何，云计算节点10能够实现和/或执行上文所述的任何功能。

在云计算节点10中有计算机系统/服务器12，其可与许多其他通用或专用计算系统环境或配置一起运行。可以适合与计算机系统/服务器12一起使用的已知计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或笔记本电脑设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、小型计算机系统、大型计算机系统以及包括上述任何系统或设备的分布式云计算环境，等等。

计算机系统/服务器12可以在计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般来说，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器12可以在其中任务由通过通信网络链接的远程处理设备执行的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括内存存储设备的本地和远程计算机系统存储介质中。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式示出。计算机系统/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、系统存储器28和将包括系统存储器28在内的各种系统组件耦合到处理器16的总线18。

总线18代表几种总线结构中的一种或多种，包括内存总线或内存控制器、外围总线、加速图形端口，以及使用各种总线结构中的任何一种的处理器或本地总线。作为举例而非限制，此类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。

计算机系统/服务器12通常包括各种计算机系统可读介质。这种介质可以是计算机系统/服务器12可访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)30和/或高速缓存32。计算机系统/服务器12还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，可以提供存储系统34，用于从不可移动、非易失性磁介质(未示出，通常称为“硬盘驱动器”)进行读取或向其进行写入。尽管未示出，但可以提供用于读和写可移动非易失性磁盘(例如“软盘”)的磁盘驱动器，以及用于读或写可移动非易失性光盘(例如CD-ROM、DVD-ROM或其他光学介质)的光盘驱动器。在这种情况下，每个都可以通过一个或多个数据媒体接口连接到总线18。如下文将进一步示出和描述的，系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)被配置为执行本发明实施例的功能的程序模块。

具有一组(至少一个)程序模块42的程序/实用程序40，可以与作为示例而非限制的操作系统、一个或多个应用程序、其他程序模块和程序数据一样存储在系统存储器28中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每个或其某种组合可以包括网络环境的实现。程序模块42通常执行如本文所述的本发明实施例的功能和/或方法。

计算机系统/服务器12还可以与以下设备通信：诸如键盘、指针设备、显示器24等的一个或多个外部设备14；使用户能够与计算机系统/服务器12交互的一个或多个设备；和/或使计算机系统/服务器12能够与一个或多个其他计算设备通信的任何设备(例如网卡、调制解调器等)。这种通信可以通过输入/输出(I/O)接口22进行。此外，计算机系统/服务器12还可以通过网络适配器20与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如因特网)的一个或多个网络通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其他组件通信。应当理解，尽管未示出，但其他硬件和/或软件组件可以与计算机系统/服务器12结合使用。示例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带机和数据存档存储系统等。

现在参考图2，示出了说明性的云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点10，云消费者使用的诸如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N的本地计算设备可以与之通信。节点10可以彼此通信。它们可以在诸如例如上文所述的私有、社区、公共或混合云或其组合的一个或多个网络中物理地或虚拟地分组(未示出)。这允许云计算环境50将基础设施、平台和/或软件作为服务提供，云消费者不需要在本地计算设备上维护资源。应当理解，图2中所示的计算设备54A-N的类型仅是示例性的，计算节点10和云计算环境50可以通过任何类型的网络和/或网络可寻址连接(例如使用web浏览器)与任何类型的计算机化设备通信。

现在参见图3，示出了由云计算环境50(图2)提供的一组功能抽象层。应提前理解，图3中所示的组件、层和功能仅旨在是说明性的，本发明的实施例不限于此。如图所示，提供以下层和对应功能：

设备层55包括物理和/或虚拟设备，內嵌以独立电子设备、传感器、致动器和其他对象，用以执行云计算环境50中的各种任务。设备层55中的每个设备能够联网到其他功能抽象层，以便可以向其他功能抽象层提供从设备获得的信息，和/或可以从其他抽象层向该设备提供信息。在一个实施例中，包括设备层55的各种设备可以包括统称为“物联网”(IoT)的实体网络。如本领域的普通技术人员将理解的，这种实体网络允许相互通信、收集和传播数据，以实现各种各样的目的。

如图所示，设备层55包括传感器52、致动器53、具有集成处理、传感器和网络电子设备的“学习”恒温器、摄像头57、可控家用插座58和可控电气开关59，如图所示。其他可能的设备可包括但不限于各种附加传感器设备、网络设备、电子设备(例如遥控器)、附加致动器设备、所谓的“智能”设备(例如冰箱或洗衣机/烘干机)以及各种其他可能的互连的对象。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本追踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教学93；数据分析处理94；交易处理95；以及在本发明例示的说实施例的上下文中用于在云计算环境中针对对手/对抗性系统保护经过训练的机器学习模型的工作负载和功能96。此外，用于在云计算环境中针对对手/对抗性系统保护经过训练的机器学习模型的工作负载和功能96可以包括诸如分析、深度学习之类的操作，以及如将进一步描述的用户和设备管理功能。本领域的普通技术人员将理解，用于在云计算环境中针对对手/对抗性系统保护经过训练的机器学习模型的工作负载和功能96也可以与各种抽象层的其他部分—诸如硬件和软件层60虚拟化层70、管理层80和其他工作负载层90的那些部分(例如数据分析处理94)—结合工作，以实现本发明例示的实施例的各种目的。

如前所述，本发明提供了新颖解决方案，用于提供针对计算系统中的对手/对抗系统受保护的强化机器学习模型。通过应用一个或多个机器学习模型中的选择的预处理操作的多个组合中的一个或多个、用于强化一个或多个机器学习模型的数据集、预处理器列表和选择的数量的学习者，提供了一个或多个针对对抗性挑战受保护的的强化机器学习模型。

现在转到图4，描述了使用其中可以实现所示实施例的各个方面的处理器针对对手/对抗系统保护经过训练的机器学习模型的方法400。功能400可以被实现为在机器上作为指令执行的方法，其中指令被包括在至少一个计算机可读介质或一个非暂时性机器可读存储介质上。应注意，可以应用/选择也可以不应用/不选择以下的一个或多个操作/步骤(例如，用户可选择采用哪一个步骤)。功能400可以在框402开始。

如框401所示，可以接收经过训练的机器学习模型，并可以请求输入数据。也就是说，用户或计算系统提供经过训练的机器学习模型和/或可以接收机器学习模型。此外，可以从用户接收关于应用何种保护的请求，或者在替代操作中，功能400可以自动选择一个或多个要应用的保护。

如框402所示，可以对抗性地重新训练一个或多个经过训练的机器学习模型。就是说，功能400可以使用一个或多个对抗性协议(例如，Madry协议)对经过训练的神经网络进行重新训练，所述协议通过额外的对抗性措施—诸如通过逐渐增加每个小批量中对抗性样本的比例(例如按照小部分的余弦调度等或“小部数据”，其中在每次训练迭代中可能只使用一小部分数据或“小批量”数据)作过修改。此重新训练步骤可以更改模型权重的全部或只更改其一个子集。在一个方面，“对抗性重新训练”意味着可以使用对抗性实例和训练数据对机器学习模型进行重新训练。对抗性实例并非由真正的对手生成，而是由机器学习模型的所有者生成(例如，机器学习模型因对抗性重新训练而“接种”了针对未来对抗性攻击的疫苗)。一旦用指定的对抗性实例训练了机器学习模型，那么在未来，如果机器学习模型受到这些对抗性实例的攻击，机器学习模型将不会出错或导致出错。

如框403所示，可以添加和/或校准一个或多个预处理层。在一个方面，将预处理操作添加到经过训练的机器学习模型和校准经过训练的机器学习模型(例如调整JPEG压缩强度、高斯噪声方差等)改善了良性和对抗性测试精度之间的权衡。

如框404所示，可以添加一个或多个鲁棒化层。在一个方面，“鲁棒化层”可以表示已将一个或多个层添加到经过训练的机器学习模型中，以导致和/或使经过训练的机器学习模型能更加鲁棒并防范未来的对手攻击。在一个方面，可以添加一个或多个神经网络层(例如，卷积、密集等)以扩展和鲁棒化重新训练过的机器学习模型(例如，重新训练过的神经网络)。应当注意，例如，框404的操作可以特定于神经网络模型。

如框405所示，可以对重新训练过的机器学习模型进行对抗性重新训练(例如，用对抗性实例和训练数据进行重新训练)。在一个方面，可以更新扩展机器学习模型的一个或多个机器学习模型参数(例如，遵循Madry的协议)以创建对抗性保护的机器学习模型。在一个方面，“扩展机器学习模型”意味着向当前机器学习模型添加更多层，例如，从机器学习模型M到M+K。即使机器学习模型M已经经过训练，训练的知识现在也无法与添加的层一起很好地发挥作用，因此需要重新训练新的机器学习模型“M+K”。

可以将对抗性保护的机器学习模型返回给用户或系统(例如，将其部署到生产中，如框406所示)，并且可选地提供关于对抗鲁棒性性能信息的信息(例如，对良性和对抗性实例的测试性能，例如在投影梯度下降(“PGD”)(n,ε)白盒攻击下，快速梯度符号法(“FGSM”)(ε)转移攻击和基于零阶优化(“ZOO”)的黑盒攻击等，改变分类所需的最小l∞-范数扰动，等等)。

现在转到图5，示例性系统500的框图和用于在计算环境中针对图像的对手/对抗系统保护经过训练的机器学习模型的功能。

在一个方面，如图1-4所示的一个或多个组件、模块、服务、应用和/或功能可以用于图5中。如图所示，用箭头描述了各种功能块，这些箭头指示了系统500中的功能块相互之间的关系，并显示了处理流程。此外，还可以看到与系统500的每个功能块相关的描述信息。如将看到的，这些功能块中的许多也可以被视为功能的“模块”，其描述意义与之前在图4中描述的相同。考虑到前述内容，系统500的模块块还可以并入根据本发明的用于图像增强的系统的各种硬件和软件组件中。功能块500的许多都可以作为后台过程在各种组件上执行，这些组件可以是分布式计算组件中的，也可以是用户设备上的，或者是其他地方的。

如图所示，系统500包括受保护的神经网络510(例如，强化的机器学习模型系统)，其可位于图1的云计算节点10和/或计算系统12内部和/或外部。

受保护的神经网络510可包括在第一阶段(例如，“阶段1”)中执行对抗性重新训练操作和在第二阶段(例如，“阶段2”)中执行对抗性重新训练操作。

受保护的神经网络510可以接收一个或多个图像(例如，“输入图像”)作为输入数据，如框507所示。如框503所示，受保护的神经网络500可以添加输入预处理层来修改(框507的)输入图像，例如JPEG压缩、高斯噪声和空间平滑、特征压缩等。

如框501所示，可以由用户提供或可以由自动化系统(例如，通过自动化神经网络模型)创建经过训练的神经网络(例如，卷积神经网络“CNN”、长-短期记忆“LSTM”等)。如框502所示，在第一阶段中，受保护神经网络510例如可以通过遵循Madry的协议，以具有无限范数(“I∞范数”或“统一范数”)对抗性样本约束的投影梯度下降白盒攻击并使用按照余弦调度逐渐增加的对抗性样本，对经过训练的神经网络进行抗性重新训练。

此外，如框504所示，可以在训练过的模型后添加一个或多个附加神经网络层(例如，密集层、卷积层等)。如框505所示，可以执行第二对抗性重新训练操作(例如对抗性重新训练阶段2)(类似于框502)。受保护神经网络510可以添加产生输出概率的非单调、不可微变换的输出后处理层。如框508所示，受保护的神经网络500可以提供重新训练过的机器学习模型预测(例如，神经网络预测(例如，分类、回归等))。

现在转到图6，描述在计算环境中针对文本数据的对手/对抗系统保护经过训练的机器学习模型的示例性系统的框图。在一个方面，如图1-5所示一个或多个组件、模块、服务、应用和/或功能可以用于图6中。为了简洁起见，省略了对本文描述的其他实施例中使用的类似步骤/框、元件、组件、模块、服务、应用和/或功能的重复描述。

如图所示，系统600包括受保护的神经网络610(例如，强化的机器学习模型系统)，其可位于图1的云计算节点10和/或计算系统12内部和/或外部。

受保护的神经网络610可以包括在第一阶段(例如，“阶段1”)中执行对抗性重新训练操作和在第二阶段(例如，“阶段2”)中执行对抗性重新训练操作。

如框607所示，受保护的神经网络610可以接收文本数据(例如，诸如短消息服务的“文本”，)作为输入数据(例如，“输入图像”)。如框603所示，受保护的神经网络610可以添加输入预处理层和文本嵌入(text embedding)。例如，在框607中，受保护的神经网络610可以添加拼写检查操作，作为对抗鲁棒性/保护的潜在输入预处理防御，例如，为击败字符级攻击的小写化、词干分析、词形还原、停止词去除、规范化、噪声去除、文本丰富/增强等。此外，可以添加文本嵌入以例如通过使用预先训练的词嵌入(例如，用于词表示的全局向量“GloVe”和/或Word2Vec等)将文本数据转换为数值数据。

如框601所示，可以由用户提供或可以由自动化系统(例如，通过自动化神经网络模型)创建经过训练的神经网络(例如，卷积神经网络“CNN”、长-短期记忆“LSTM”等)。

如框602所示，在第一阶段，受保护的神经网络610可以对经过训练的神经网络进行对抗性重新训练。例如，受保护的神经网络610可以通过遵循Miyato的协议，用对抗性训练具有I2-范数ε的对抗性训练样本的快速梯度法，对抗性地重新训练经过训练的神经网络，并在输出之前添加附加隐藏层，其可能通过逐渐增加每个小批量中对抗性样品的比例(例如，根据分数的余弦调度等)之类其他措施进行了修改。

此外，如框604所示，可以在训练过的模型后添加一个或多个附加神经网络层(例如，密集层、卷积层等)。如框605所示，可以执行第二对抗性重新训练操作(例如对抗性重新训练阶段2)(类似于框602)。受保护神经网络610可以添加产生输出概率的非单调、不可微变换的输出后处理层。如框608所示，受保护的神经网络610可以提供重新训练过的机器学习模型预测(例如，神经网络预测(例如，分类、回归等))。

现在转到图7，在计算环境中针对文本数据对手/对抗系统保护经过训练的机器学习模型的示例性系统的框图。在一个方面，如图1-6所示的一个或多个组件、模块、服务、应用和/或功能可以用于图7中。为了简洁起见，省略了对本文描述的其他实施例中使用的类似步骤/框、元件、组件、模块、服务、应用和/或功能的重复描述。

如图所示，系统700包括受保护的神经网络710(例如，强化的机器学习模型系统)，其可位于图1的云计算节点10和/或计算系统12内部和/或外部。

如框705所示，受保护的神经网络710可以接收输入数据。如框703所示，受保护神经网络710可以添加输入预处理层以修改输入数据。例如，在框707，受保护的神经网络710可以使用压缩、高斯噪声、平滑和/或特征压缩等来修改输入数据。

如框701所示，可以由用户提供或可以由自动化系统创建经过训练的神经网络(例如，支持向量机“SVM”等)。

如框702所示，受保护的神经网络710可以对抗性地重新训练(例如，“对抗性重新训练”)经过训练的神经网络。例如，例如，受保护的神经网络710可以用对抗性训练具有I2-范数ε的对抗性训练样本的快速梯度法，对抗性地重新训练经过训练的神经网络，并在输出之前添加附加隐藏层，其可能通过逐渐增加每个小批量中对抗性样品的比例(例如，根据分数的余弦调度等)之类的其他措施进行了修改。

此外，如框704所示，可以在训练过的模型后添加一个或多个附加神经网络层。也就是说，受保护的神经网络710可以添加产生输出概率的非单调、不可微变换的输出后处理层。如框706所示，受保护的神经网络710可以提供重新训练过的机器学习模型预测(例如，神经网络预测(例如，分类、回归等))。

现在转到图8，描述了一种使用其中可以实现所示实施例的各个方面的处理器来针对对抗性攻击强化机器学习模型的学习输入预处理的方法800。功能800可以被实现为在机器上以指令的形式执行的方法，其中指令包括在至少一个计算机可读介质或一个非暂时性机器可读存储介质上。功能800可以在框802开始。

如框804所示，可以接收一个或多个经过训练的机器学习模型。如框806所示，可以重新训练该一个或多个经过训练的机器学习模型以包括基于一个或多个对抗性保护协议的对抗性保护。如框808所示，通过向该一个或多个经过训练的机器学习模型添加对抗性保护来提供一个或多个针对对抗性攻击的强化机器学习模型。如框810中所示，功能800可以结束。

在一个方面，结合和/或作为图8的至少一个框的一部分，800的操作可包括以下每一项。800的操作可以接收一个或多个经过训练的机器学习模型，并重新训练该一个或多个经过训练的机器学习模型，以包括基于一个或多个对抗性保护协议的对抗性保护。

800的操作可以向一个或多个经过训练的机器学习模型中添加一个或多个预处理层，其中调整了对抗性保护强度的程度；向一个或多个经过训练的机器学习模型中添加一个或多个神经网络层，和/或将一个或多个后处理输出层添加到一个或多个用基于一个或多个对抗性保护协议的对抗性保护重新训练的经过训练的机器学习模型中。

800的操作可以自动实现一个或多个用于提供一个或多个强化机器学习模型的对抗性保护协议，和/或从用户接收一个或多个用于提供一个或多个强化机器学习模型的对抗性保护协议。

800的操作可以监控和跟踪一个或多个经过训练的机器学习模型在重新训练期间的每个状态，在重新训练期间检测一个或多个经过训练的机器学习模型的训练崩溃，和/或在重新训练期间为一个或多个经过训练的机器学习模型启用一个或多个回滚策略。800的操作可以确定一个或多个强化机器学习模型的指示对抗性攻击的安全级别的安全分数。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的槽中的凸出结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以通过网络(例如因特网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码，这些编程语言包括面向对象的编程语言(如Java、Smalltalk、C++等)和常规的过程编程语言(如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。应当理解，流程图和/或框图的每个框以及流程图和/或框图中各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种用于通过一个或多个处理器在计算环境中保护经过训练的机器学习模型的方法，该方法包括：

通过向一个或多个经过训练的机器学习模型添加对抗性保护，提供一个或多个强化的机器学习模型，以抵御对抗性攻击。

2.根据权利要求1所述的方法，还包括：

接收一个或多个经过训练的机器学习模型；和

重新训练一个或多个经过训练的机器学习模型，以包括基于一个或多个对抗性保护协议的对抗性保护。

3.根据前述权利要求中任一项所述的方法，还包括向一个或多个经过训练的机器学习模型添加一个或多个预处理层，其中调整了对抗性保护强度的程度。

4.根据前述权利要求中任一项所述的方法，还包括向一个或多个经过训练的机器学习模型添加一个或多个神经网络层。

5.根据前述权利要求中任一项所述的方法，还包括向用基于一个或多个对抗性保护协议的对抗性保护重新训练过的一个或多个经过训练的机器学习模型添加一个或多个后处理输出层。

6.根据前述权利要求中任一项所述的方法，还包括：

自动实现要用于提供一个或多个强化的机器学习模型的一个或多个对抗性保护协议；或

从用户接收要用于提供一个或多个强化机器学习模型的一个或多个对抗性保护协议。

7.根据前述权利要求中任一项所述的方法，还包括：

在接受重新训练时，监控和跟踪一个或多个经过训练的机器学习模型的每个状态；

在重新训练期间，检测一个或多个经过训练的机器学习模型的训练崩溃；或

在重新训练操作期间，为一个或多个经过训练的机器学习模型启用一个或多个回滚策略。

8.一种用于在计算环境中保护经过训练的机器学习模型的系统，包括：

一个或多个具有可执行指令的计算机，所述可执行指令被执行时导致该系统：

9.根据权利要求8所述的系统，其中所述可执行指令：

接收一个或多个经过训练的机器学习模型；和

10.根据权利要求8或9中任一项所述的系统，其中所述可执行指令向一个或多个经过训练的机器学习模型添加一个或多个预处理层，其中调整了对抗性保护强度的程度。

11.根据权利要求8至10中任一项所述的系统，其中所述可执行指令向一个或多个经过训练的机器学习模型添加一个或多个神经网络层。

12.根据权利要求8至11中任一项所述的系统，其中所述可执行指令向用基于一个或多个对抗性保护协议的对抗性保护重新训练过的一个或多个经过训练的机器学习模型添加一个或多个后处理输出层。

13.根据权利要求8至12中任一项所述的系统，其中所述可执行指令：

自动实施要用于提供一个或多个强化的机器学习模型的一个或多个对抗性保护协议；或

从用户处接收要用于提供一个或多个强化机器学习模型的一个或多个用于对抗性保护协议。

14.根据权利要求8至13中任一项所述的系统，其中所述可执行指令：

15.一种计算机程序产品，用于通过一个或多个处理器在计算环境中保护经过训练的机器学习模型，所述计算机程序产品包括：

计算机可读存储介质，其可由处理电路读取并存储用于由所述处理电路执行以执行根据权利要求1至7中任一项所述的方法的指令。

16.一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，包括软件代码部分，当所述程序在计算机上运行时，用于执行权利要求1至7中任一项所述的方法。