CN116762082A

CN116762082A - 训练子模块和防止捕获ai模块的方法

Info

Publication number: CN116762082A
Application number: CN202180090387.2A
Authority: CN
Inventors: S·A·达比; M·S·帕尔玛
Original assignee: Robert Bosch GmbH; Robert Bosch Engineering and Business Solutions Pvt Ltd
Current assignee: Robert Bosch GmbH; Bosch Global Software Technologies Pvt Ltd
Priority date: 2021-01-13
Filing date: 2021-12-21
Publication date: 2023-09-15
Also published as: WO2022152524A1; US20240061932A1; EP4278305A1

Abstract

本公开提出了训练子模块(14)和防止捕获AI模块(12)的方法。从输入接口(11)接收的输入数据通过拦截器模块(18)被发送到AI模块(12)，AI模块通过执行第一模型(M)来计算第一输出数据。使用方法步骤(200)来训练的AI系统(10)中的子模块(14)处理输入数据以从输入数据中标识攻击向量。子模块(14)执行第一模型(M)和至少第二模型。第一模型(M)和第二模型分别具有第一和第二组网络参数和超参数。攻击向量的标识信息被发送到信息增益模块(16)。

Description

训练子模块和防止捕获AI模块的方法

完整说明书：

下面的说明书描述和确定了本发明的本质以及执行本发明的方式。

技术领域

本公开涉及一种训练AI系统中的子模块的方法和一种防止捕获AI系统中的AI模块的方法。

背景技术

随着数据科学的出现，数据处理和决策制定系统是使用人工智能模块来实现的。人工智能模块使用了不同的技术，比如机器学习、神经网络、深度学习等。大多数基于AI的系统接收大量的数据并处理该数据以训练AI模型。经训练的AI模型基于由用户请求的用例来生成输出。通常，AI系统用于计算机视觉、语音识别、自然语言处理、音频识别、健康医疗、自主驾驶、制造、机器人技术等领域中，其中，AI系统处理数据以基于通过训练而获取的某些规则/智能来生成所需的输出。

为了处理输入并给出期望的输出，AI系统使用了各种模型/算法，这些模型/算法使用训练数据来训练。一旦使用训练数据训练了AI系统，AI系统就使用模型来分析实时数据并生成适当的结果。可以基于结果实时微调模型。AI系统中的模型形成了系统的核心。许多努力、资源(有形和无形)和知识进入来开发这些模型。

有可能的是，某个对手可能试图从AI系统捕获/复制/提取模型。对手可以使用不同的技术来从AI系统捕获模型。对手所使用的简单技术之一在于，对手使用其自己的测试数据向AI系统迭代地发送不同的查询。测试数据可以以提取关于AI系统中的模型的工作的内部信息的方式来设计。对手使用所生成的结果来训练其自己的模型。通过迭代地进行这些步骤，有可能捕获模型的内部，并且可以使用类似的逻辑来构建相似的模型。这将导致AI系统的原始开发者的困难。困难可能以商业缺陷、机密信息的丢失、花费在开发中付出时间的损失、知识产权的损失、将来收入的损失等的形式。

现有技术中已知有多种方法来标识由对手的这种攻击并保护AI系统中使用的模型。现有技术US 20190095629A1“Protecting Cognitive Systems from Model StealingAttacks”公开了一种这样的方法。它公开了一种方法，其中，通过将经训练的模型应用于输入数据来处理输入数据，以生成具有用于多个预定义类中的每一个类的值的输出向量。查询引擎通过在与生成输出向量相关联的函数中插入查询来修改输出向量，从而生成经修改的输出向量。然后，输出经修改的输出向量。查询引擎修改一个或多个值以伪装经训练的模型逻辑的经训练的配置，同时保持输入数据的分类的准确性。

附图说明

参考以下附图描述本发明的实施例：

图1描绘AI系统；

图2描绘AI系统中的子模块；

图3示出训练AI系统中的子模块的方法步骤；以及

图4示出用于防止捕获AI系统中的AI模块的方法步骤。

具体实施方式

理解人工智能(AI)技术和基于人工智能(AI)的系统或人工智能(AI)系统的一些方面是重要的。本公开涵盖了AI系统的两个方面。第一方面涉及AI系统中的子模块的训练，而第二方面涉及防止捕获AI系统中的AI模块。

AI技术和AI系统的一些重要方面可以解释如下。取决于实现的架构，AI系统可以包括许多组件。一个这样的组件是AI模块。参考本公开的AI模块可以被解释为运行模型的组件。模型可以被定义为数据的参考或推断集合，其使用不同形式的相关矩阵。使用这些模型和来自这些模型的数据，可以在不同类型的数据之间建立相关性，以达到对数据的某种逻辑理解。本领域技术人员应当知道不同类型的AI模型，例如线性回归、朴素贝叶斯分类器、支持向量机、神经网络等。应当理解，本公开不特定于在AI模块中执行的模型类型，而是可以应用于任何AI模块，而不管被执行的AI模型。本领域技术人员还应当理解，AI模块可以被实现为一组软件指令、软件和硬件的组合、或其任意组合。

AI系统执行的一些典型任务是分类、聚类、回归等。大多数分类任务依赖于标记的数据集；即，数据集被手动地标记，以便神经网络学习标记和数据之间的相关性。这被称为监督学习。分类的一些典型应用是：面部识别、对象标识、姿势识别、语音识别等。聚类或分组是检测输入中的相似性。聚类学习技术不需要标记来检测相似性。没有标记的学习被称为无监督学习。世界上大多数的数据是未标记的数据。机器学习的一个规律是：算法可以训练的数据越多，它将越准确。因此，无监督学习模型/算法随着训练数据集大小的增长而具有产生准确模型的潜力。

由于AI模块形成AI系统的核心，因此需要保护该模块免受攻击。攻击者尝试攻击AI模块内的模型并从AI模块中窃取信息。通过攻击向量来发起攻击。在计算技术中，向量可以被定义为一种方法，其中，使用恶意代码/病毒数据来传播其自身，例如感染计算机、计算机系统或计算机网络。类似地，攻击向量被定义为黑客可以通过其获得对计算机或网络的访问以便递送有效载荷或恶意结果的路径或手段。一种模型窃取攻击使用了一种攻击向量，其可产生AI模块的数字孪生/复制/副本。

攻击者通常生成输入规范的大小和形状的随机查询，并开始用这些任意查询来查询模型。该查询产生用于随机查询的输入-输出对，并生成从预训练模型推断的次级数据集。攻击者然后取得该I/O对，并使用该次级数据集从头开始训练新模型。这是黑盒模型攻击向量，其中，不需要原始模型的先验知识。随着关于模型的先验信息可用且不断增加，攻击者向更智能的攻击发展。攻击者选择其可支配的相关数据集以更高效地提取模型。这是基于域智能模型的攻击向量。利用这些方法，可以跨不同模型和数据集演示模型窃取攻击。

必须理解，本公开特别公开了用于训练AI系统中的子模块的方法和防止捕获AI系统中的AI模块的方法。虽然这些方法仅描述了实现这些目的的一系列步骤，但是这些方法在AI系统中实现，该AI系统可以是硬件、软件的组合及其组合。

图1描绘了AI系统(10)。AI系统(10)包括输入接口(11)、拦截器模块(18)、AI模块(12)、子模块(14)、拦截器通知模块(20)、信息增益模块(16)和至少输出接口(22)。输入接口(11)从至少一个用户接收输入数据。输入接口(11)是硬件接口，其中，用户可以输入他的对AI模块(12)的查询。

拦截器模块(18)被配置成在信息增益时拦截用户。基于输入攻击查询超过预定义阈值来计算信息增益。拦截器模块(18)还被配置成修改由AI模块(12)生成的第一输出。这仅在输入被标识为攻击向量时才进行。

AI模块(12)用于处理所述输入数据并生成与所述输入对应的第一输出数据。AI模块(12)基于输入执行第一模型(M)以生成第一输出。该模型可以是来自人工神经网络、卷积神经网络、递归神经网络等的组中的任何一个。第一模型包括第一组网络参数和超参数。

神经网络是由生物神经网络或脑细胞即神经元产生的。网络参数包括但不限于层、过滤器等。为了简单起见，在计算机科学中，神经元的网络被表示为一组层。这些层被分类为三个类，其是输入、隐藏和输出。每个网络具有单个输入层和单个输出层。不同的层对它们的输入执行不同种类的变换/操作。数据从输入层开始流过网络，并且移动通过隐藏层，直到到达输出层。位于输入层和输出层之间的层被称为隐藏层。然而，隐藏层的数量根据要执行的操作的要求或复杂度而变化。过滤器主要用于卷积神经网络(CNN)。过滤器被用于使用卷积对数据进行切穿并将它们逐个映射，并且学习输入数据的不同部分。在图像的情况下，过滤器切穿图像并将其映射以学习其不同部分。再次，CNN中的过滤器的数量根据要执行的操作的要求或复杂度而变化。超参数是值被用于控制学习过程的参数。当在训练阶段期间学习网络参数时，可以给定/选择超参数。超参数通常由学习速率、学习模式和批量大小来表征。它们原则上对模型的性能具有有限的影响，但会影响学习过程的速度和质量。

子模块(14)被配置成从所接收的输入数据中标识攻击向量。图2描绘了AI系统(10)中的子模块(14)。子模块(14)包括第一模型、至少第二模型和比较器(143)。第二模型包括第二组网络参数和超参数。例如，如果第一模型具有“m₁”数量的层和“m₂”数量过滤器，其对应于第一组超参数(比如说学习速率为“a”等)，则第二模型将具有“n₁”数量的层和“n₂”数量过滤器，其对应于第二组超参数(比如说学习速率为“b”等)。本领域技术人员应当理解，对于不同形式的数据，将需要“n”数量的模型(其具有“n”组网络参数和超参数)。“n”的值是动态的，即，由子模块执行的模型的数量会改变。这取决于由信息增益模块计算的信息增益的当前值和历史值。比较器(143)接收并比较在用相同的输入执行各种模型时接收的输出。

拦截器通知模块(20)在检测到攻击向量时向所述AI系统(10)的所有者发送通知。通知可以以任何音频/视频/文本的形式发送。

信息增益模块(16)被配置成计算信息增益并将信息增益值发送到拦截器模块(18)。使用信息增益方法来计算信息增益。在一个实施例中，如果所提取的信息增益超过预定义阈值，则AI系统(10)被配置成将用户锁定在系统外面。如果由多个用户提取的累积信息增益超过预定义阈值，则启动锁定系统。

输出接口(22)向所述至少一个用户发送输出。当子模块(14)未从所接收的输入中标识出攻击向量时，由输出接口(22)发送的输出包括第一输出数据。当从输入检测到攻击向量时，由输出接口(22)发送的输出包括从拦截器模块(18)接收的经修改的输出。

必须理解，AI系统(10)的每个构建块可以根据应用在不同的架构框架中实现。在架构框架的一个实施例中，AI系统(10)的所有构建块都是以硬件实现的，即，每个构建块可以硬编码到微处理器芯片中。这在构建块物理地分布在网络之上(其中，每个构建块在跨网络的单独计算机系统上)时是特别可能的。在AI系统(10)的架构框架的另一实施例中，其被实现为硬件和软件的组合，即，一些构建块被硬编码到微处理器芯片上，而其他构建块被实现在可以驻留在微处理器芯片中或云上的软件中。

图3示出了训练AI系统(10)中的子模块(14)的方法步骤(200)。AI系统(10)包括以上在图1和图2中描述的组件。子模块(14)使用用于训练AI模块(12)的数据集来训练。使用用于训练AI模块(12)的数据集来训练子模块(14)。子模块(14)执行第一模型(M)和第二模型，所述子模块(14)包括用于比较至少两个模型的输出的比较器。如在前面段落中解释的该第一模型(M)由AI模块(12)执行，并且包括第一组网络参数和超参数。第二模型包括第二组网络参数和超参数。

在步骤201中，所述第一模型(M)和至少第二模型接收原始数据集作为输入，并且利用所述输入来执行。所述至少两个模型包含类的数量或标记的不同类。当攻击向量经过所有这些模型时，则总类值是不同的。如果类值不同，则我们将数据指针视为攻击向量。在步骤202中，记录所述子模块(14)的行为。

在执行方法步骤(200)时，在本发明的实施例中，所述至少第一模型和所述至少第二模型使用不同的技术网络初始化方法。网络初始化方法本质上用小的随机数来初始化模型的权重。初始化神经网络是深度学习的重要部分。神经网络的初始化的方法确定了它们是否可以很好地收敛和快速地收敛。在本发明中，以第一模型(M)和至少第二模型的均值和方差不同的方式来初始化权重。例如，在实施例中，第一模型(M)可以使用零初始化(网络权重用零进行初始化)来初始化，并且所述至少第二模型可以使用随机初始化(网络权重用零之外的随机数进行初始化)来初始化。

图4示出了防止捕获AI系统(10)中的AI模块(12)的方法步骤(300)。AI系统(10)及其组件已经在前面段落中借助于图1和图2进行了解释。本领域技术人员应当理解，现在实时地使用由方法步骤(200)训练的子模块(14)，以用于防止捕获AI系统(10)中的AI模块(12)。

在方法步骤301中，输入接口(11)从至少一个用户接收输入数据。在步骤302中，该输入数据通过拦截器模块(18)被发送到AI模块(12)。在步骤303中，AI模块(12)通过AI模块(12)基于输入数据执行第一模型(M)来计算第一输出数据。

在步骤304中，在由子模块(14)处理以从输入数据中标识攻击向量时，攻击向量的标识信息被发送到信息增益模块(16)。处理输入数据还包括两个阶段。首先，用输入数据来执行子模块(14)内的所述第一模型(M)和至少第二模型。第一模型包括第一组网络参数和超参数。第二模型包括第二组网络参数和超参数。接下来，比较在执行所述至少两个模型时接收的输出。基于该比较从输入中确定攻击向量。如果所接收的输出相同，则意味着输入不是攻击向量。然而，如果比较器(143)发现了输出中的差异，则其推断该输入是攻击向量。

一旦攻击向量标识信息被发送到信息增益模块(16)，则计算信息增益。信息增益被发送到拦截器模块(18)。在实施例中，如果信息增益超过预定义阈值，则拦截用户，并且使用拦截器通知模块(20)向AI系统(10)的所有者发送通知。如果信息增益低于预定义阈值，则尽管检测到攻击向量，但拦截器模块(18)可以修改由AI模块(12)生成的第一输出，以将其发送到输出接口(22)。

此外，用户简档也可被用于确定用户是习惯性攻击者或者是一次性攻击还是仅偶然攻击等。根据用户简档，可以确定用于解锁系统的步骤。如果是第一次攻击者，则用户可能被暂时锁定。如果攻击者是习惯性攻击者，则可以建议更严格的锁定步骤。

必须理解，在以上详细描述中解释的实施例仅是说明性的，而不是限制本发明的范围。对训练子模块(14)和防止捕获AI模块(12)的方法的任何修改都是可设想的，并且构成本发明的一部分。本发明的范围仅由权利要求限定。

Claims

1.一种AI系统(10)，至少包括：

输入接口(11)，用于从至少一个用户接收输入；

拦截器模块(18)，被配置成拦截至少一个用户；

AI模块(12)，用于处理所述输入数据并生成与所述输入对应的第一输出数据，所述AI执行第一模型；

子模块(14)，被配置成从所接收的输入中标识攻击向量，所述子模块包括所述第一模型和至少第二模型；

信息增益模块(16)，被配置成计算信息增益并将信息增益值发送到所述拦截器模块(18)；

拦截器通知模块(20)，用于在检测到攻击向量时向所述AI系统(10)的所有者发送通知，所述拦截器通知模块(20)还被配置成修改由AI模块(12)生成的第一输出；以及

输出接口(22)，用于向所述至少一个用户发送输出。

2.根据权利要求1所述的AI系统(10)，其中，当子模块(14)未从所接收的输入中标识出攻击向量时，由输出接口(22)发送的输出包括所述第一输出数据。

3.根据权利要求1所述的AI系统(10)，其中，所述第一模型包括第一组网络参数和超参数。

4.根据权利要求1所述的AI系统(10)，其中，所述第二模型包括第二组网络参数和超参数。

5.一种训练AI系统(10)中的子模块(14)的方法，所述AI系统(10)包括执行第一模型(M)的至少AI模块(12)、用于训练所述AI模块(12)的数据集，所述子模块(14)执行第一模型(M)和至少第二模型，所述子模块包括比较至少两个模型的输出的比较器，所述方法包括以下步骤：

利用所述数据集在所述子模块(14)中执行第一模型(M)和至少第二模型，所述第一模型(M)包括第一组网络参数和超参数，所述第二模型包括第二组网络参数和超参数；

记录所述子模块(14)的行为。

6.根据权利要求5所述的训练AI系统(10)中的子模块(14)的方法，其中，所述至少第一模型和所述至少第二模型使用不同的技术网络初始化方法。

7.一种防止捕获AI系统(10)中的AI模块(12)的方法，所述方法包括以下步骤：

通过输入接口(11)从至少一个用户接收输入数据；

将输入数据通过拦截器模块(18)发送到AI模块(12)；

通过AI模块(12)基于输入数据执行第一模型(M)来计算第一输出数据；

由子模块(14)处理输入数据以从输入数据中标识攻击向量，所述攻击向量的标识信息被发送到信息增益模块(16)。

8.根据权利要求7所述的防止捕获AI系统(10)中的AI模块(12)的方法，其中，处理输入数据还包括：

执行所述第一模型(M)和至少第二模型；

比较在执行所述至少两个模型时接收的输出；

基于所述比较将所述输入数据确定为攻击向量。

9.根据权利要求7所述的防止捕获AI系统(10)中的AI模块(12)的方法，其中，所述第一模型包括第一组网络参数和超参数。

10.根据权利要求7所述的防止捕获AI系统(10)中的AI模块(12)的方法，其中，所述第二模型包括第二组网络参数和超参数。