CN112633310A

CN112633310A - 具有改进的训练鲁棒性地对传感器数据进行分类的方法和系统

Info

Publication number: CN112633310A
Application number: CN202011007815.4A
Authority: CN
Inventors: E·K·罗森菲尔德; E·M·温斯顿; F·施密特; J·Z·科尔特
Original assignee: Bosch Ltd; Carnegie Mellon University
Current assignee: Bosch Ltd; Carnegie Mellon University
Priority date: 2019-09-24
Filing date: 2020-09-23
Publication date: 2021-04-09
Also published as: EP3798911A1; US20210089842A1

Abstract

一些实施例涉及一种针对标签噪声具有改进的鲁棒性地对传感器数据进行分类的方法（500）。通过估计在根据噪声水平将基本训练函数重复应用于并入噪声的训练标签以及随后将根据基本预测函数所配置的基本分类器应用于新颖输入的情况下最可能的标签，可以针对标签噪声具有改进的鲁棒性地计算新颖输入的预测标签。

Description

具有改进的训练鲁棒性地对传感器数据进行分类的方法和系统

技术领域

当前所公开的主题涉及一种针对标签噪声具有改进的鲁棒性地对传感器数据进行分类的计算机实现的方法，一种被配置成针对标签噪声具有改进的鲁棒性地对传感器数据进行分类的分类系统，以及一种暂时性或非暂时性计算机可读介质。

背景技术

深度神经网络尽管获得了经验上的广泛成功，但众所周知地易受对抗攻击的影响。本主题的研究已经聚焦于所谓的“测试时间攻击”（也被称为探索性攻击），其中攻击者在推理时间对抗地操纵分类器的输入，以使示例被错误分类。数据中毒攻击——其中攻击者操纵训练数据的一些方面以便使学习算法输出错误的分类器——也众所周知地是个问题。例如，可以考虑所谓的标签翻转攻击，其中训练集的标签被对抗地操纵，以降低经训练的分类器的性能。例如，可以尝试操纵训练集，使得特定的输入模式在测试时间触发某些分类。然而，不同于测试时间对抗设置，在存在合理有效的防御来构建对抗鲁棒的深度神经网络的情况下，对于构建对数据中毒攻击鲁棒的深度分类器做出了相对较少的工作。

任何机器学习方法的性能最后都取决于其在上面进行训练的数据集。为了改进机器学习方法（例如，分类或回归）的质量，通常会收集大量数据。如果数据部分损坏，则这可能导致坏的机器学习设备。损坏可能是对抗的。例如，攻击者可能有目的地改变数据集的部分，以便损坏最终的训练产品。然而，损坏也可能在没有恶意的情况下发生。例如，某个数据源处的传感器可能有故障。故障甚至可能是间歇性的。

为了避免根据损坏的数据进行工作，可以采用卫生方法。例如，可以移除违反关于数据的统计假设的那些样本。然而，众所周知的是这是不够的，尤其是在对抗攻击的情况下。

发明内容

具有一种针对标签噪声（例如，损坏的训练数据）具有改进的鲁棒性地对传感器数据进行分类的方法将是有利的。标签噪声可以包括对抗标签噪声，例如，被有意改变以期改变在损坏的训练数据上训练的分类器设备的行为的标签。标签噪声可以包括：例如由测量问题引起的（例如，由故障传感器引起的）非对抗标签噪声。

权利要求中限定了对传感器数据进行分类的计算机实现的方法。

例如，分类方法可以基于训练数据来预测新颖输入数据的标签，其中多个训练输入数据与类似的标签相关联。训练数据可能被损坏。该预测是根据基本分类器做出的，例如，可以至少部分地在训练数据上训练的预测函数。有趣的是，基本分类器可以包括两个部分：编码器和分类器。

编码器可以被配置成将输入数据映射到潜在表示，而分类器可以被配置成被应用于潜在表示。编码器和分类器二者都可以由参数定义。训练基本分类器可以包括优化参数，使得基本分类器符合训练数据。有趣的是，在实施例中，基本分类器的编码器部分可以被视为是固定的，而分类器部分可以被重新训练。

例如，基本训练函数可以被配置成用于根据训练数据来优化定义分类器的参数，而同时保持编码器的参数不变。仅训练分类器比训练编码器和分类器的组合更快；该组合具有比其部分更多的参数。

可以提供新颖输入数据。通常，新颖输入数据不在训练数据中表示。然而，这不是必需的，因为可能会怀疑被分配给新颖输入数据的标签被损坏。

可以通过重复以下操作来计算针对标签噪声具有改进的鲁棒性的新颖输入的标签：1)在训练数据上训练基本分类器，但是其中添加了标签噪声，以及2)根据经训练的基本分类器来预测分类。根据重复的预测，可以通过确定哪个标签出现得最频繁来确定改进的预测。在1)的情况下的训练可以高效地实行，因为基本分类器具有两个部分。仅分类器部分需要在1)的情况下进行训练，编码器部分可以保持固定。

该方法可以在具有不同噪声水平的情况下使用，例如，由标签中的预期损坏量所确定的噪声水平。例如，可以确定以某个概率翻转标签的噪声水平。例如，在概率为10%等等的情况下，标签可能被翻转以添加标签噪声。翻转标签意味着给标签分配不同的值。在标签是二进制标签的情况下，其意味着分配相反的值。例如，如果标签是1或0位b，则翻转的位b可能是1-b。

二进制标签在许多实施例中工作良好。但是这不是必需的，例如，标签也可以以其量值携带一些信息。例如，范围标签（ranged label）可以具有区间内的值，例如，区间[0-1]、或[0-2]等。例如，正面危险标签可以指示传感器数据中的危险分类，而范围标签的值指示严重性。例如，正面范围标签可以指示传感器数据中所指示的行人，而其量值可以指示行人的数量和/或接近度等。在实施例中，使用离散的（例如，二进制）标签，例如，开/关标签。这样的非范围标签具有以下优点：可以利用清楚的语义来计算良好的鲁棒性界限，例如，指示训练数据中将不会改变标签的标签翻转的数量的半径。

输入数据（例如，训练输入数据或新颖输入数据）有时被称为输入点。这并不意味着训练输入一定指代地理点，而是可以将输入表示为向量空间中的点。

例如，输入数据可以是传感器值的集合，例如，被表示为向量。例如，输入可以包括图像、温度、压力等等中的一个或多个。输出可以对输入进行分类，例如，确定输入是否表示特定对象，例如，行人、汽车、自行车等；例如，确定某些条件是否适用，例如，机器是否处于安全条件等。

对数据进行分类还可以包括：诸如语义分割传感器数据以及检测传感器数据中的对象之类的动作。例如，分割传感器数据可以被用来识别其中的对象，诸如交通参与者，例如行人或机器零件等。语义分割可以对应于逐像素分类，并且检测对象可以对应于到两个类别中的任一个类别中的分类，这两个类别可以例如被描述为“对象存在”和“对象不存在”。

有趣的是，不同于用于测试时间保证的随机化平滑的一些常规使用，不需要对分类器的输入（例如，对新颖输入数据）应用随机化过程，而代替的是对分类器的整个训练过程实行随机化。通过在训练过程期间对标签进行随机化，可以获得鲁棒的总体分类，即使在训练集中的某个数量的标签被对抗地操纵的情况下也是（例如，在存在标签噪声的情况下，也能抵抗对其预测进行改变)。

由于最终预测是从多个预测获得的，该多个预测是从相差一定量的噪声的训练数据获得的，因此最终预测对噪声不太敏感，无论是不是对抗的。然而，预测仍然是从经训练的分类器获得的，并且因此可能正确地对输入进行分类。实际上，实验证实的是，如果不存在标签损坏，则如在实施例中的鲁棒预测器几乎不会比常规分类器更不准确。然而，一旦添加了标签噪声，尤其是对抗标签噪声，常规分类器的准确率就会迅速下降，而鲁棒的预测器抵抗这一点。

基本分类器的一些特定选择可以提供附加的优点。例如，基本分类器的分类器部分可以包括被配置成被应用于潜在表示（h(x)β）的线性运算。例如，线性运算可以是通过点积应用于潜在表示的向量。向量中的条目可以被视为要训练的参数。

在任何情况下，基本训练函数可以被配置成用于应用最小二乘优化来导出参数，然而，如果分类器包括线性运算，则最小二乘优化可以被特别高效地实行。例如，预测可以作为具有或不具有噪声的标签和根据训练数据和/或新颖输入数据所计算的向量之间的点积来获得。

注意到，在线性运算之后（例如，在点积之后），可以实行另外的步骤。例如，线性运算的输出可以被视为软预测，其可以被映射到硬预测，例如，在二进制标签的情况下，通过将其映射到0或1（最接近的无论哪个），例如，朝向标签值（例如，0或1）舍入；例如，针对多标签预测，通过映射或舍入到0-1向量，等等。可以对软值进行训练，例如，在舍入之后，可以考虑从新颖数据输入和/或训练数据和噪声的特定实例中获得的报告预测。例如，分类器可以被训练以取决于所期望的分类来生成接近0或1的值，而在测试时间期间所获得的预测，无论何时其大于½都可以被视为1，并且无论何时其小于½都可以被视为0。

在实施例中，计算指示预测标签输出的鲁棒性的半径，例如，在不改变标签输出的同时，标签中可以抵抗多少噪声。例如，半径可以包括多个标签改变，其中，新颖输入的预测标签将不会改变。

这样的半径可以取决于训练数据，而且也取决于新颖输入本身。对于一些新颖输入而言，半径可以是大的，例如，对于其中分类清楚的情况而言。对于一些新颖输入而言，半径可以更小，例如，对于其中分类更困难的情况而言。有趣的是，可以在不知道哪些标签可能被损坏的情况下自动计算半径。

具有半径是重要的优点，尤其是因为它允许构建深度分类器，该深度分类器针对标签翻转攻击是可证地鲁棒的，至少直到由半径所指示的界限是这样。例如，利用其输出，根据实施例的分类器可以包括保证其预测将不会不同的认证，如果它已经在具有一定数量的翻转标签的数据上训练过的话。有趣的是，在一些实施例中，这样的认证界限可以在没有相比于标准分类的附加运行时间成本的情况下获得。

所提供的保证独立于损坏的数据。因此，它比常规的卫生方法更有用得多，因为它保护数据免于有针对性的（例如，对抗）攻击以及非对抗损坏。

有趣的是，甚至可能不需要实际实行重复训练。例如，如果基本分类器的分类器部分的结构足以进行分析，在某个噪声水平的标签噪声将导致特定分类或可能引起预测改变的可能性可以被分析地计算，或者替换地由合适的不等式形成界限。代替实际上对具有标签噪声的标签的各种实例重复实行训练，可以通过计算关于概率的界限来直接计算或至少直接估计该可能性。例如，当分类器被配置成计算由编码器所生成的特征的线性组合时，可以通过计算界限来进行估计。尽管线性分类器部分具有简单的结构，但是实验已经示出它不需要过多地影响准确率，因为编码器可能比分类器部分强大得多。

尽管可以计算各种估计，例如，通过以不同方式来近似方程，但是计算所述不等式的特别有利的方式是如通过选择合适大类的不等式，其可以通过变量进行索引。在推理时间，可以通过选择界限针对其最为严格的参数的值来改进界限。例如，这样的优化可以通过使用常规的求解器（例如，牛顿近似）来实行。推理时间也可以被称为“测试时间”或“预测时间”。

一般而言，存在其中可以选择编码器的许多方式。例如，在实施例中，编码器可以包括神经网络，特别是深度神经网络。神经网络可以包括诸如卷积层、ReLu层、最大池层等等的层。神经网络的输出可以包括表示输入的特征的多个值。例如，神经网络可以是所谓的特征提取器。例如，编码器输入可以包括图像，而输出可以是包括多个特征的多个值的向量。存在许多方式来获得这样的编码器。

可以在可以被称为预训练的阶段期间训练编码器，该阶段在其中系统被应用于新颖输入数据的阶段之前出现。后者可以被叫做测试时间或推理时间。与常规系统不同的是，推理时间可以包含多个训练轮次。然而，也有可能的是，在可以被叫做多分类器训练的阶段中、在预训练与推理之间训练多个分类器。注意到，在优选的实施例中，没有多分类器训练，并且在推理期间不实行附加训练，而代替地，系统依赖于估计，例如，关于特定标签在特定情况下出现的可能性的界限。

不管在分类器训练阶段期间或在推理时间消除对训练的需要的改进如何，编码器将被训练。然而，预训练可以与编码器的使用分开。例如，编码器可以从第三方获得，例如，作为现成的特征提取器，例如，图像编码器等。

对编码器进行训练可以以各种方式进行。例如，可以通过在训练数据的训练输入数据部分上训练神经网络来获得编码器。例如，所述训练可以作为所谓的自动编码器。

可以应用无监督训练方法来预训练网络的参数。这具有作为优点的是，它允许使用大量未标记数据。使用未标记数据进行训练避免了标签噪声的可能性。在预训练之后，网络的参数被设置为潜在好的局部最小值，从该最小值可以跟随监督学习，例如，被称为微调。例如，该微调可以使用标签数据，有可能是所提供的训练数据的所选择的子集。例如，网络可以首先被训练为自动编码器，并且然后通过结合分类器（例如，线性分类器）例如使用监督学习对其进行训练来进行微调。为了在仍然使用监督学习的同时进一步减少损坏标签的影响，可以在比测试时间将使用的更多类型的标签上训练编码器。例如，甚至可以在与将在测试时间使用的不同类型的标签上训练编码器。例如，如果任务是要区分1和7的标签，则可以在除了1和7之外的其它数字上训练编码器。这确保了1/7标签中的损坏将不会使编码器变坏，同时它仍允许学习与该任务相关的特征。

作为自动编码器对标签数据进行训练可以同时进行。例如，编码器的输出可以被训练成允许恢复原始输入，并且编码器和分类器的组合可以关于分类问题进行训练。

稀疏条件可以被应用于自动编码器。例如，稀疏性可以根据群体稀疏性和寿命稀疏性来定义。一方面，群体稀疏性通过仅允许同时激活输出的小子集来确保数据的简单表示。另一方面，寿命稀疏性控制贯穿数据集的每个输出的激活频率，从而确保每个输出的稀少但高的激活。例如，自动编码器可以是所谓的稀疏自动编码器。

编码器的监督学习可以在已知不包含或包含较少损坏的训练数据上进行。例如，这样的训练数据可以（例如，由可以审查数据的专家）从更大的训练数据池中选择。也可以选择在如推理期间所使用的相同训练数据上训练编码器和分类器。这具有的缺点是，标签中的损坏将影响编码器的训练。另一方面，此类损坏的影响将通过测试时间的对策（例如，基本分类器的分类器部分的实际或模拟的重复训练和测试）来减轻。

例如，可以通过训练编码器和临时分类器的组合来进行监督学习（例如，作为仅学习或作为微调），例如，可以训练组合h(x)β，其中，x是输入数据，h是编码器，以及β是向量。当训练完成时，向量β可以被丢弃。然后在多分类器训练阶段中，或在测试时间，可以针对标签和噪声的许多组合来训练多个向量β'。在后面的训练期间，编码器可以保持固定。然而，在实施例中，甚至不需要计算多个向量β'，因为代替地，应用这样的训练的结果可以例如通过评估合适的界限来进行估计。

对于分类器部分，还存在许多选项。如上所述，特别有利的选择是将分类器限制为线性运算，有可能接着是舍入运算。这具有的优点是，预测特别易处理，并且可以在不实际上实行重复预测的情况下获得重复预测的结果。然而，许多其它选择是可能的。它们也可以适合分析，或者即使在否的情况下，也可以实行重复训练。编码器部分和分类器部分的组合具有的优点是，训练可以被限制成仅训练分类器部分，这比充分训练编码器和分类器的组合需要更少资源。然而，在实施例中，分类器部分被挑选为与编码器相比是小的。例如，编码器和分类器可以由参数定义，并且定义编码器的参数的数量可以大于定义分类器的参数的数量。例如，编码器的参数可以是分类器部分的参数的两倍或更多、十倍或更多等。例如，编码器和分类器包括神经网络，编码器神经网络包括比分类器神经网络更多的节点和/或层。例如，分类器可以仅包括单个层。例如，编码器可以是至少两倍、十倍等更大。在实施例中，分类器包括线性运算和另外的非线性运算。非线性运算可以是例如S型运算。在实施例中，分类器可以包括单个线性运算和非线性运算，例如，针对每个标签输出的线性运算和单个S型运算。非线性运算可以是值函数，例如，将x映射到max(0，x)或差分版本（例如，ln(1+e ^x)等）。

因此，存在不同的方式来获得鲁棒性。在第一示例中，分类器部分的训练被多次实行。重复训练可以在推理时间进行，或者在推理时间预计算和存储以及应用。在第二示例中，分类器的训练被多次实行，但是分类器部分被布置成使得训练和预测可以被组合。例如，在实施例中，使用一次通过或在线学习，其中，在对训练数据进行单次通过之后来训练分类器。在第二示例中，对新颖输入的训练和预测被组合，使得训练在推理时间进行。然而，注意到，可以预计算训练的一部分。在第三示例中，分类器部分的训练实际上不被多次实行，而代替地使用不等式等等来计算在存在标签噪声的情况下对特定标签预测的可能性的估计（例如，界限）。后者取决于新颖输入，并且因此在推理时间实行。在第三示例中，获得预测所需要的资源实际上与在没有附加鲁棒性的情况下获得预测所需要的资源相同。

往回参考半径，该数字可以被用于各种目的。尽管半径可以与特定输入相关联，但整个系统的半径可以通过例如针对多个新颖输入进行采样并且对半径进行平均来获得。两种类型的半径可以被称为特定半径（例如，针对特定的新颖输入数据），以及被称为全局半径（例如，多个特定半径的平均值）。

该半径可以被用作质量控制的度量——不仅仅用于针对新颖输入所获得的特定预测，还可以被用作整个系统（例如，包括编码器）的质量控制。

例如，可以获得对训练数据中的损坏标签的数量的估计，并且在接受新颖输入的预测标签之前，将损坏标签的估计数量与半径进行比较。可以通过使专家或另一个系统对标签（例如，其样本）进行审查来获得该估计。例如，可以验证多个标签，并且可以为整个训练集推断不正确标签的数量。如果不正确标签的估计数量低于特定半径，则损坏标签不可能改变过预测，并且因此该预测具有高可靠性。

在实践中，可以使用较低的杆（bar）。例如，如果损坏标签（例如，错误标签）的估计数量低于特定半径的倍数，则可以定义某个倍数并且接受预测。例如，可以采用倍数为2或更多、4或更多等。在该情况下，可能由半径提供的硬保证会丢失，但是具有将生成较少误报的优点。

如果结果是新颖输入被拒绝，或者如果大于某个阈值（比如大于10、或大于1%等等）的输入被拒绝。则可以采用步骤来改进预测。例如，可以例如从专家获得校正的标签，新标签可以连同临时分类器一起被用于编码器的监督学习。例如，可以从训练数据中丢弃损坏标签，并且在校正的训练数据上重新训练编码器。另一方面，也可以在分类器训练阶段或推理时间使用新标签或校正的标签进行训练。在该情况下，编码器将保持固定，但是由于分类器部分的更好训练，系统然而将被改进。这甚至将适用于其中重复训练被估计的实施例，因为该估计取决于训练数据，特别是取决于特征和标签。

专家的角色可能会减少。例如，在测试阶段中的系统操作期间，例如，其中，进行多个推理。可以存储新颖输入和对应的鲁棒预测。例如，在自主车辆的情况下，可以许多次调用分类器，并且可以收集许多对输入数据和标签。可以获得对存储数据中的损坏标签的数量的估计。例如，专家可以实行此估计，然而，该估计也可以从代理获得。例如，另一个系统可能有助于该估计。例如，自主车辆的用户的超驰（override）数量可以被视为预测质量的度量。

如果存储数据中的损坏标签的数量为低，特别地，如果估计低于全局半径，则可以作为附加训练材料安全地添加数据。例如，附加数据可以被用于编码器的监督训练、和/或被用于在分类器训练阶段（即便有的话）中或在测试时间进行训练。

因为预测标签具有增加的鲁棒性，例如，在存在标签噪声的情况下，它们不太可能改变，所以很可能损坏标签的数量较低。这更加如此，因为此数据的来源可能不太可能被对手损坏。

该方法的实施例存在各种应用。例如，可以基于物理系统和/或在物理系统中操作的自主设备的预测标签来确定控制信号。例如，转向或制动或加速信号可能取决于车辆环境的分类。替换地，它可以是受控制（例如，计算机控制）的物理系统本身。例如，物理系统可以是电机等等，并且控制信号可以控制电机等等。例如，如果物理系统是不安全的，则它可以关闭系统或使其处于稳定状态。例如，制造机器可以进入受控关闭状态，而自主车辆可以将控制往回转移给人工操作员。

例如，常规的控制系统可以使其判定基于物理系统的一个或多个物理量。可以例如使用一个或多个传感器相对容易地直接测量各种物理量，例如，压力、密度或旋转速度。然而，对于其它物理量，诸如填充质量流或电机的相对空气质量，实行直接测量可能是昂贵、繁琐的，或者用于直接测量该量的传感器可能不是可用的。为了使得能够基于这样的物理量来控制机器，直接根据可用的传感器数据对机器的状态进行分类是有益的。

一个方面涉及分类系统，其被配置成针对标签噪声具有改进的鲁棒性地对传感器数据进行分类。该系统可以在单个设备中实现或者可以在多个设备上分布。例如，该系统可以被用于控制器中，例如，被包括在控制器中。

分类系统是电子的。例如，它可以是电子设备，例如，移动电子设备。分类系统可以是移动电话、机顶盒、智能卡、计算机等。

实施例可以被应用于从许多类型的传感器（诸如例如视频、雷达、LIDAR、超声波、运动）接收到的传感器信号。例如，传感器信号可以包括例如图像传感器的环境（例如交通状况、例如物理系统、例如制造机器、例如机器人、例如机器人手臂）的图像。由实施例根据传感器信号和训练数据所产生的分类可以被用来计算用于控制物理系统的控制信号，该物理系统比如例如是计算机控制的机器，比如是机器人、车辆、家用电器、电力工具、制造机器、个人助理或访问控制系统。例如，所述计算可以包括对传感器数据进行分类。例如，交通参与者可以被分类为行人，响应于此，计算或修改用于自主车辆的控制信号，例如，可以降低汽车的速度。

分类方法的实施例可以作为计算机实现的方法在计算机上实现，或者以专用硬件实现，或者以二者的组合形式实现。该方法的实施例的可执行代码可以存储在计算机程序产品上。计算机程序产品的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。优选地，计算机程序产品包括：存储在计算机可读介质上的非暂时性程序代码，用于当所述程序产品在计算机上执行时实行该方法的实施例。

在实施例中，计算机程序包括：计算机程序代码，当计算机程序在计算机上运行时，该计算机程序代码适于实行该方法的实施例的全部或部分步骤。优选地，计算机程序被体现在计算机可读介质上。

当前所公开的主题的另一个方面是一种使计算机程序可用于下载的方法。当该计算机程序被上传到例如苹果的应用商店、谷歌的游戏商店或微软的视窗商店中时，以及当该计算机程序可用于从这样的商店下载时，使用该方面。

附图说明

将参照附图，仅作为示例来描述另外的细节、方面和实施例。附图中的元件是为了简单和清楚而图示的，并且不一定按比例绘制。在附图中，与已经被描述的元件相对应的元件可以具有相同的参考标记。在附图中，

图1示意性地示出了分类系统的实施例的示例，

图2示意性地示出了分类系统的实施例的示例，

图3示意性地示出了分类系统的实施例的示例，

图4示出了随着q变化，对抗标签翻转的认证准确率，

图5示意性地示出了针对标签噪声具有改进的鲁棒性地对传感器数据进行分类的方法的实施例的示例。

图6示意性地示出了分类系统的实施例的示例，

图7a示意性地示出了根据实施例的具有包括计算机程序的可写部分的计算机可读介质，

图7b示意性地示出了根据实施例的处理器系统的表示。

图1-4、6、7中的参考标记的列表：

100 分类系统

110 分类设备

130 处理器系统

140 存储器

150 通信接口

200，300 分类系统

210 新颖输入数据的输入接口

220 编码器

225 编码器训练器

230 分类器

235 分类器训练器

237 噪声添加器

240 聚合器

250 输出接口

330 估计器

335 前计算机

340 半径计算机

350 输出接口

600 分类和控制系统

610 传感器系统

620 分类系统

630 控制器

640 更新器

1000 计算机可读介质

1010 可写部分

1020 计算机程序

1110 （一个或多个）集成电路

1120 处理单元

1122 存储器

1124 专用集成电路

1126 通信元件

1130 互连

1140 处理器系统。

具体实施方式

虽然当前所公开的主题易受采用许多不同形式的实施例的影响，在附图中示出了并且在本文中将详细描述一个或多个特定实施例，但是具有的理解是，本公开要被视为当前所公开的主题的原理的示例，并且不意图将其限制成所示出和描述的特定实施例。

在下文中，出于理解的缘故，在操作中描述了实施例的元件。然而，将显而易见的是，相应元件被布置成实行被描述为由它们实行的功能。

另外，当前所公开的主题不限于实施例，如在本文中所描述的或在相互不同的从属权利要求中所叙述的特征。

图1示意性地示出了分类系统100的实施例的示例。例如，图1的分类系统100可以被用来根据一个或多个标签对传感器数据进行分类。

分类系统100可以包括处理器系统130、存储器140和通信接口150。分类系统100可以被配置成与训练数据存储装置210通信。存储装置210可以是系统100的本地存储装置，例如，本地硬驱动器或存储器。存储装置210可以是非本地存储装置，例如云存储装置。在后一种情况下，存储装置210可以被实现为到非本地存储装置的存储接口。类似系统100的分类系统可以以各种方式在不同的设备上分布。例如，如图1中所示的，分类设备110可以包括处理器系统130、存储器140和通信接口150。但是其它解决方案是可能的。

系统110可以在自身内进行通信，或者通过计算机网络与其它系统、外部存储装置、输入设备、输出设备和/或一个或多个传感器通信。计算机网络可以是互联网、内联网、LAN、WLAN等。计算机网络可以是互联网。该系统包括连接接口，该连接接口被布置成按需在系统内或系统外进行通信。例如，连接接口可以包括连接器，例如有线连接器，例如以太网连接器、光学连接器等；或无线连接器，例如天线，例如Wi-Fi、4G或5G天线。

例如，系统100可以包括通信接口150。计算机网络可以包括附加元件，例如路由器、中枢等。在系统100中，通信接口150可以被用来接收输入（诸如训练数据或新颖输入数据），并且提供输出，例如鲁棒预测。

系统100的执行可以在处理器系统（例如一个或多个处理器电路，例如微处理器）中实现，其示例在本文中示出。图2和3示出了可以是处理器系统的功能单元的功能单元。例如，图2和3可以被用作处理器系统的可能功能组织的蓝图。在这些图中，未将（一个或多个）处理器电路与单元分开示出。例如，图2和3中所示的功能单元可以全部或部分地以存储在系统100处的计算机指令的形式实现（例如，在系统100的电子存储器中），并且可由系统100的微处理器执行。在混合实施例中，功能单元部分地以硬件实现（例如，作为协处理器，例如，神经网络协处理器），并且部分地以系统100上存储和执行的软件实现。网络的参数和/或训练数据可以本地存储在系统100，或者可以存储在云存储装置中。

图2示意性地示出了分类系统200的实施例的示例。

图2中示出了编码器220、h和分类器230。编码器和分类器组合在一起对输入进行分类。例如，在输入接口210上接收到的新颖输入数据210例如可以由编码器220映射成潜在表示，例如，特征表示。分类器230然后可以将潜在表示映射成分类预测。例如，预测可以在输出接口250上提供。例如，输入可以从一个或多个传感器（例如，图像传感器等）接收。例如，可以以数字形式接收输入。例如，输出接口可以向控制器提供预测的分类，例如，以计算控制信号。例如，控制信号可以取决于分类，比如，以达到某个目标，或者在安全边界条件内操作等等。例如，输入和输出接口可以包括API、连接器、无线接口、天线等等。

编码器可以包括神经网络，通常是深度神经网络。例如，编码器可以是特征提取器。有可能对提取器进行预训练，甚至可能独立于分类器230和/或系统200。然而，系统200可以包括用于训练编码器、或用于微调编码器的编码器训练器225。该训练可以在有或没有（临时）分类器（诸如分类器230）的情况下进行。例如，可以利用包括输入数据和标签的对的训练数据以监督的方式来训练编码器。例如，编码器可以以无监督的方式进行训练，例如作为自动编码器。

训练模块225是可选的。例如，编码器可以被预训练，这可以离线进行。例如，编码器可以从第三方等获得。另一方面，具有训练模块225具有的优点是，甚至在系统已经被用于推理之后，也可以进行微调，例如附加训练、例如附加监督训练。

图2中所示的实施例包括分类器230。如所讨论的，并且如下面将进一步示出的，分类器也是可选的。

分类器230采用编码器220的输出，例如，从接口210所获得的传感器信号的潜在表示，并且使用它来实行分类。在实施例中，可以在训练数据210上训练分类器230，但是具有向其添加的噪声。例如，该系统可以包括噪声添加器237和分类器训练器235。例如，分类器训练器可以被多次训练，例如至少十次，例如至少1000次等。经训练的分类器可以被存储和重新使用。经训练的分类器也可以被用于单个预测一次，并且然后被丢弃。

例如，噪声添加器可以例如根据某个预定义的噪声水平向标签添加噪声。例如，可以用参数q来表示噪声水平。例如，可以利用概率q来改变标签。如果标签是二进制标签，则可以以概率q来切换标签。例如，如果标签是范围标签，则可以向其添加一定量的噪声（例如高斯噪声），例如具有由噪声水平所定义的均值和方差。例如，在概率q的情况下，这样的标签可以在0与非零之间翻转。如果标签是非零的，则可以向其添加附加量的噪声。

分类器训练器可以适合于分类器的类型。例如，这可以是回归学习。这可以被使用，例如，如果分类器包括神经网络，则也许只是单个层。如果分类器包括线性运算，则最小二乘学习是特别有利的，因为一次通过（one-pass）学习方法是可能的。

可以至少部分地预计算训练数据。例如，可以准备与输入数据有关的部分，例如，编码器220可以应用于它。也可以预计算其它计算步骤，例如，如果使用最小二乘学习，则可以预计算逆（inverse），诸如可以预计算摩尔-彭罗斯（Moore-Penrose）逆（例如，矩阵

）。例如，如果使用正则化，则可以预计算矩阵

等。发现正则化表现得更好。

多个经学习的分类器被应用于新颖输入数据，该新颖输入数据可以从接口210获得。结果可以由聚合器240聚合。例如，聚合器可以对哪个标签最经常出现进行计数。聚合器240的结果可以被转发到输出接口。该输出接口可以是显示器接口，例如，以在显示器上显示结果。该输出接口可以是数字接口，例如，以电子地发送结果等。聚合器还可以甚至在存在噪声的情况下例如作为百分比来输出多少分类器产生了该结果。例如，聚合器可以计算多个分类器预测的方差。

在多个分类器的训练期间，编码器通常不被进一步训练。这具有的优点是，分类器的训练更快，有可能比连同编码器一起进行训练快得多。如果某种类型的一次通过学习是可用的，则这会表现得更好。线性分类器的最小二乘学习是一次通过学习的特别好的示例，但是许多其它方法也是已知的。

除了计算鲁棒预测（例如，在应用许多分类器时最常见的预测，该许多分类器是在稍微不同的噪声数据上训练的）之外，还可以计算其它变量。例如，可以计算或估计在以下噪声水平的标签的数量，在该噪声水平，预测标签变得不太可靠。例如，以其给出预测水平的噪声水平用于少于50%的分类器。代替50%，可以采用其它百分比。

例如，多个经学习的分类器也可以应用于训练输入数据，以便发现可能是错误的训练数据对。例如，在鲁棒预测的输出不同于训练数据中的标签的情况下。

图3中示出了对系统200的不同方法。图3示意性地示出了分类系统300的实施例的示例。类似系统200，系统300也包括输入接口210和编码器220。可以由训练模块225根据训练数据210来训练编码器220。然而，后者是可选的。类似在系统200中，编码器220与分类器部分兼容，例如类似分类器230。另外，系统200通过估计在应用多个分类器时最经常生成哪个标签来产生更鲁棒的预测，其中，多个分类器在具有附加噪声的训练标签上进行训练。

然而，不同于系统200，在系统300中，实际上不实行多个预测。因此，也不需要多个经训练的分类器，无论是预计算的还是动态计算的。代替地，假设某个水平的标签噪声，估计器330直接估计特定标签预测的可能性有多大。例如，可以计算界限，例如，限制这些概率的不等式。

计算好的界限的一个特别高效的方式不是预先完全定义这样的界限，而是定义大量这样的界限，例如，通过某个值t进行索引。例如，该方法被用于所谓的切尔诺夫（Chernoff）界限。在推理时间，可以选择最好的不等式，从而给出最严格的界限。

假设某个水平的标签噪声，如果分类器较小，则估计特定标签将出现的数量会更容易。这类似于系统200，其中如果分类器230更小，则其中分类器230的重复训练就更容易。例如，可以选择在分类器230中包括线性运算。这样的线性分类器适合于一次通过训练，例如，使用最小二乘方法，有可能是正则化的。可以示出的是，针对特定新颖输入的特定预测约简为相对于训练标签的点积。因此，可以作为（

）来获得预测，其中，y表示训练标签，并且

取决于训练输入以及取决于新颖输入。具有该表达式，可以计算关于（

）小于½的可能性的直接界限，并且因此如果向量y现在包含噪声，则将产生0标签。同样地，可以直接估计而不是模拟它大于1的概率，并且因此将产生1标签。如果这是范围标签，则也可以计算该（

）针对任何期望的γ的可能性。代替直接估计，也可以使用

表示来进行快速模拟。

如所指出的，系统200和300可以在计算机或计算机的组合上（例如，在系统100上）实现。

在系统100、200和300的各种实施例中，通信接口可以从各种替代方案中选择。例如，接口可以是到局域网或广域网（例如，互联网）的网络接口、到内部或外部数据存储装置的存储接口、键盘、应用接口（API）等。

系统100、200和300可以具有用户接口，该用户接口可以包括众所周知的元件，诸如一个或多个按钮、键盘、显示器、触摸屏、诸如鼠标之类的指示设备等。用户接口可以被布置成用于适应用户交互，以用于配置系统、在训练集上训练网络、或将系统应用于新的传感器数据等。

存储装置可以被实现为电子存储器，比如闪速存储器，或磁存储器，比如硬盘等等。存储装置可以包括一起组成存储装置的多个分立存储器，例如，140、210。存储装置可以包括临时存储器，比如RAM。存储装置可以是云存储装置。

系统100、200和300可以在单个设备中实现。通常，系统100、200、300均包括一个或多个微处理器，该微处理器执行存储在系统处的适当软件；例如，该软件可能已经被下载和/或存储在对应的存储器中，例如诸如RAM之类的易失性存储器或诸如闪存之类的非易失性存储器。替换地，系统可以全部或部分地以可编程逻辑实现，例如，作为现场可编程门阵列（FPGA）。系统可以全部或部分地被实现为所谓的专用集成电路（ASIC），例如，为其特定用途定制的集成电路（IC）。例如，电路可以例如使用诸如Verilog、VHDL等之类的硬件描述语言在CMOS中实现。特别地，系统100、200、300可以包括用于评估神经网络的电路。

处理器电路可以以分布式方式实现，例如，作为多个子处理器电路。存储装置可以在多个分布式子存储装置上分布。部分或全部存储器可以是电子存储器、磁存储器等。例如，存储装置可以具有易失性和非易失性部分。存储装置的一部分可以是只读的。

图6示意性地示出了分类系统600的实施例的示例，其图示了各种应用和改进。图6中所示的系统600包括传感器系统610、分类系统620和控制器630。例如，传感器系统610可以包括相机、LIDAR等，并且为分类器620产生传感器信号。例如，传感器信号可以包括图像。控制器630使用系统620的分类。例如，系统600可以被用于自主机器（例如，自主车辆）中。

在实施例中，控制器630可以从分类器620接收分类的质量的指示。例如，控制器可以接收半径的估计或界限，并且如果后者小于损坏标签的估计数量，则仅接受该预测，或者如果后者小于损坏标签的估计数量的倍数，则仅接受。例如，控制器630可以接收预测分类的方差，例如，根据噪声标签所预测的。控制器可以被配置成只有报告的方差低于界限才接受分类。

在实施例中，系统600包括更新器640。例如，更新器640可以被配置成记录其中分类由于过低的质量而未被接受的情况。这样的示例可以被添加到训练数据，但是具有校正的标签。此外，在发现损坏标签之后，可以通过校正它们来改进训练数据。例如，改进的和/或扩展的训练可以被用来训练或重新训练，例如，微调系统620中所使用的编码器。

例如，更新器640不仅可以存储未被接受的分类的示例，而且或者仅可以存储分类被接受的情况。记录的示例中错误的（例如，损坏标签）的数量可以例如自动地或者由人类专家来估计。更新器640可以被配置成如果记录的数据中的错误标签的估计数量低于系统的半径，则使用记录的输入传感器数据连同预测标签一起来重新训练编码器。在后一种情况下，半径可以被采用为全局半径。

在实施例中，传感器系统610、分类器620和控制器630可以在单个设备（例如，汽车）中实现，而更新器640在云中的一个或多个计算机上实现。

下面图示了若干个进一步可选的细化、细节和实施例。

针对标签翻转攻击的鲁棒性可以通过训练期间的随机化平滑来获得。例如，使用包括随机化平滑过程的方法，实现了认证针对标签翻转攻击或者事实上一般的数据中毒攻击的鲁棒性的一般方法。该一般方法可以针对一些特定情况（诸如使用最小二乘分类的标签翻转攻击）进行改进。

为简单起见，首先描述二进制值函数的实施例。例如，这可以被用于二进制分类问题。该方法可以扩展到多类设置，如在下面进一步扩展的。

可以构造随机化平滑算子，该算子将二进制值函数

和平滑度量

（其中

）映射到φ在μ的情况下的预期值，例如

。（1）

可以使用

来表示G的“硬阈值”版本，例如，预测φ在μ的情况下的最可能输出的平滑版本。在二进制情况下，这可以通过检查预期是否大于1/2来进行：

。（2）

直观地说，对于非常类似的两个平滑度量μ、

，可以针对大多数φ，

预期那一点。另外，当

接近0或1时，μ和ρ可以不同而仍然保留该属性的程度应该增加，因为这增加了函数φ相对于度量μ分别为0或1的“余量”。更正式地说，一般随机化平滑保证可以定义如下：

定义1 使μ、

是相对于X的两个平滑度量。则随机化平滑鲁棒性保证是距离度量

和函数

的规范，使得对于所有

，无论何时

。（3）

示例1 随机化平滑保证可以使用平滑度量

、要分类的点x ₀周围的高斯、扰动示例周围的高斯

，并且可以采用以下形式

（4）

其中

表示KL散度，并且

表示高斯分布的逆CDF。

因此，连续数据的随机化平滑可以用高斯噪声来进行，但是这绝不是要求。例如，在以下示例中作为处理离散变量的替换方法。

示例2随机化平滑保证可以使用关于基本输入

所定义的因子化平滑度量

，对于

，其中

。

针对扰动输入x ₁类似地定义ρ。它们的保证可以采用以下形式

。（5）

用语言表达，平滑分布可以是使得每个维度独立地不受概率α的影响，或者以概率1-α均匀地随机扰动到不同的值。在这里，g是可以被组合地预计算的函数：例如，

可以被定义为

和

可以不同的最大维度数，使得保证在

的情况下具有度量p的集合在

的情况下具有至少

的度量。可以证明该值独立于x ₀和x ₁，仅仅取决于α、K和d。

又另外的示例是一种随机化平滑的形式，其不需要对分布进行严格的假设，但是仍然允许提供类似的保证。

示例3（一般界限来自的）给定任意两个平滑分布μ、ρ，我们具有一般随机化平滑鲁棒性认证：

。（6）

最后两个随机化平滑保证可以被特别有利地应用于二进制变量，例如，二进制分类任务中的标签。

注意到，在实践中，对于大多数分类器，函数值G(μ,ϕ)不能被精确计算。例如，可以代替地诉诸蒙特卡罗（Monte Carlo）近似。例如，可以实行一种类型的随机化平滑，其中从μ抽取多个随机样本，使用这些样本来构造关于G(μ,ϕ)的高概率界限，并且然后利用该界限来认证分类器。更精确地，在硬预测g(μ,ϕ)=1以及否则在上界限的情况下，该界限应该是关于G(μ,ϕ)的下界限；这确保了在两种情况下，我们低估了分类器的认证鲁棒性的真实半径。在获得这些估计之后，例如，如以该方式，它们可以被插入到对应的随机化平滑鲁棒性保证中，从而为分类器提供高概率认证的鲁棒性界限。

可以在测试时间应用随机化平滑，例如，其中函数

是我们希望平滑的分类器本身。该分类器可以是深度分类器，例如，神经网络。注意到，在这里不要求函数ϕ是深度分类器，也根本不要求它是传统的分类器。可以将其应用于从某个输入空间到一个或多个输出（例如，二进制输出）的任何映射。

然而，在实施例中，使用了非常不同的形式的随机化平滑。代替将ϕ看作经训练的分类器，可以认为ϕ是任意的学习算法，其可以理解为输入训练数据集

以及没有对应标签的附加示例x _n+1，旨在对其进行预测。换句话说，ϕ的组合目标是首先在

上训练分类器，并且然后在{0,1}中输出对新示例x _n+1的预测。因此，可以认为测试时间输出是测试时间输入和产生分类器的训练数据二者的函数。该视角允许推出训练数据的改变如何在测试时间影响分类器。

当对该设置应用随机化平滑时，可以相对于训练集中的标签y _1:n进行随机化，而不是相对于输入进行随机化。类似于随机化平滑的先前应用，如果在利用这些随机扰动的标签进行训练时，来自该过程的预测具有大的余量，则它将赋予对一定数量的对抗损坏标签的一定程度的对抗鲁棒性。在实施例中，相对于训练输入的随机化可以与相对于新颖输入x _n+1的随机化进行组合。

为了使该直觉形式化，考虑n个训练标签中的两个不同的分配

，其相差精确地r个标签。使μ和ρ是分别以概率q独立翻转Y ₁和Y ₂中的每一个标签而得到的分布，并且使μ _i、ρ _i是单个标签y _i的分布。

清楚的是，随着r增加，d(μ,ρ)也应该增加。事实上，从数学上可以示出，这两个分布之间的精确KL散度的封闭形式是

。（7）

插入鲁棒性保证(6)，获得了该g(μ,ϕ)=g(ρ,ϕ)，只要

，（8）

其中p=G(μ,ϕ)。这暗示了对于任何训练集和测试点，只要满足(8)，g的预测将不会改变直到r翻转。该界限精确地表现为将期望作为p和q的函数：随着余量p增加以及随着标签噪声q的方差增加，g将对于更多标签翻转保持恒定，有效地压过Y ₁与Y ₂之间的差异。

该方法具有简单的封闭形式，但是界限并不严格。严格界限可以经由组合方法导出。通过为每个r预计算来自方程(5)的量

，可以将G(μ,ϕ)与这些中的每一个进行比较，并且由此认证对于最高可能数量的标签翻转的鲁棒性。该计算可能更昂贵，但是它提供了显著更严格的鲁棒性保证，对于关于G(μ,ϕ)的给定界限，是标签翻转数量的近似两倍地进行认证。实验使用了该更严格的界限，但是强调的是，甚至利用更宽松的界限也可以实现有意义的结果，此外，这计算起来要便宜几个数量级。

如果天真地认为：将函数ϕ视为完整的训练加单个预测过程将需要我们训练多个分类器，通过多次随机抽取标签y，所有都是为了对单个示例进行预测，则先前章节中所提出的算法显然是不切实际的。然而，在实施例中，架构和训练过程可以以急剧减少该成本的方式受到限制，使其与对单个示例进行分类的成本一致。事实上，即使获得相同的结果，也可以一起消除多个分类器的训练。

例如，给定训练集，诸如

，我们假设存在特征映射

，它通常将包括在类似任务上预训练的深度网络，或者有可能以无监督的方式在x _1:n上训练，例如，独立于被假定为潜在中毒的训练标签。然后可以将标签上的训练简化成学习从潜在表示h(x _i)到标签y _i的映射。例如，可以将分类器ϕ的后一训练过程限制成经由线性最小二乘求解来进行。

假设编码器h的存在不是这么大的假设。例如，在元学习设置中使用预训练的模型示出了预训练的特征的可转移性。

给定该特征映射h，使

为训练点特征，并且使

为标签。在该示例中，训练过程包括发现对训练数据的最小二乘拟合，例如，经由正规方程发现参数

。（9）

可以经由线性函数

对新颖输入进行预测。发现的是，利用最小二乘损失来拟合分类任务在实践中效果相当好。

可以将预测表示为标签的函数，例如，在所谓的内核表示中。例如，在最小二乘法的情况下，其将预测约简为y的线性函数，这简化了相对于标签的随机化。具体地，使

，（10）

预测

可以等效地由

给出。

后者可以被视为线性分类器的内核表示。因此，我们可以计算α一次，并且然后对许多不同的标签集进行随机采样，以便构建标准的随机化平滑界限。另外，我们可以预计算表示输入的项，在该情况下，为

项，并且将其重新用于多个测试点。

用于更好的调节的

正则化

可能的情况是，训练点对于特征空间中的线性回归而言表现不佳。为了解决该情况，可以代替地求解最小二乘的

正则化版本。在该类型的训练中，还存在对该问题的可预计算的封闭形式的解决方案。例如，可以代替地求解

。（11）

我们算法的其它部分保持不变。正则化参数可以根据经验确定，但是好的示例是，

，其中

是方差的估计，并且

是等于最大和最小奇异值的比率的条件数。添加(1+q)项是要帮助计及由标签翻转所引起的方差。例如，可以作为

来估计方差。

在该设置中，使随机化平滑方法甚至更令人信服的是，由于该预测的线性结构，实际上可以完全放弃基于采样的方法，并且直接形成尾部概率的界限，例如，使用切尔诺夫界限。具体地，因为无论何时

以及否则为0时，基础预测函数ϕ将为新示例x _n+1预测标签1，所以可以容易地形成硬预测经由切尔诺夫界限导致一个预测或另一个预测的概率的上界限。即，可以由下式形成分类器输出标签0的概率的上界限

。（12）

相反地，分类器输出标签1的概率具有类似的上界限

。（13）

这与在-t处所评估的先前情况是相同的界限，所以为了确定平滑分类器将预测的标签和关于相反预测的概率的上界限二者，可以求解相对于t不受约束的最小化问题，并且然后使t的标记规定要预测哪个标签，并且使t的值确定界限。

注意到，将不一定将总是以下情况：即预测之一是由1/2形成上界限的，但是界限之一将通常是空的；因此，我们可以根据非空界限来定义分类器的预测。相对于t的优化问题可以通过注意到目标在t中是对数凸的来求解。即，可以使上面的表达式的对数最小化：

。（18）

这是一维凸优化问题，其可以使用许多方法来求解，例如，使用牛顿法。

下面的算法1是标签翻转鲁棒性的随机化平滑的实施例。在该实施例中，在最终算法中实际上没有进行采样。代替地，概率的期望界限是直接计算的，在该情况下，经由切尔诺夫界限，而不需要诉诸蒙特卡罗近似。因此，该方法能够使用与传统预测近似相同的复杂度来生成针对标签噪声的可认证的鲁棒预测。这假设模型的成本主要由计算所有训练点x _i的特征h(x _i)的成本所支配。

算法1：标签翻转鲁棒性的随机化平滑

输入：特征映射

；噪声参数q；训练集

（潜在地具有对抗标签）；用于预测的附加输入x _n+1

1.预计算矩阵M：

（14）

其中

以及

a.计算α向量

（15）

b.经由优化来计算最佳切尔诺夫参数t，例如，使用牛顿法

（16）

并且使

输出：预测

和认证半径，从而保证预测将保持恒定直到r翻转，其中

（17）

（或使用精确方法的更大半径）

实行了各种实验。例如，对MNIST 1/7测试用例以及狗鱼（Dogfish）二进制分类挑战进行了实验。后者是从ImageNet采用的。对于每个数据集，我们计算了r标签翻转时的认证测 试集准确率。即，对于对抗翻转的每个可能数量r，可以绘制测试集的分数，该分数既被正确分类还被认证以在至少r个翻转的情况下不会改变。

因为这些数据集表示二进制分类任务，所以通过使g是恒定的，可以在r=∞时技术上实现50%的认证准确率。这将似乎暗示以低于50%准确率认证的任何翻转数量都没有意义。然而，我们注意到，准确率是预训练的特征嵌入器的可转移性的函数；可以利用更仔细挑选的预训练的网络来显著改进针对给定r和q所认证的准确率。另外，观察到，在0标签翻转时，我们的认证过程仍然实现了高度显著的准确性，例如，对于其中q = .1的MNIST为97.6%。

图4示出了曲线图400，其标绘了随着MNIST 1/7测试集的q变化的对抗标签翻转的认证准确率。噪声水平超参数q控制准确率/鲁棒性权衡。实线表示认证准确率，除了表示上界限的不设防分类器外。虚线是分类器的总体非鲁棒准确性。

在图4中示出的是y轴420，其表示认证准确率。x轴411示出了标签翻转的数量。x轴410将标签翻转的数量示为训练集的分数。

线421表示对于q=0.1并且正则化参数λ=28241的认证准确率。随着从0移动到1标签翻转，线421中存在急剧下降。为了使其可见，参考线431表示具有相同参数的相同模型对于0标签翻转情况是恒定的。注意到，仅在单个标签翻转的情况下，认证准确率就会急剧下降，这是鲁棒预测的重要性所在。

线422和432对应于线421和431，但是处于q=0.2和λ=30809状态。

线423和433对应于线421和431，但是处于q=0.4和λ=35944状态。

线435是参考线，其中g是常数。它具有0.5的恒定认证准确率。

线430是示出性能的参考线，其中模型被常规训练而不具有鲁棒性改进。注意到，其具有最佳准确率。虽然没有标绘，但是当标签翻转的数量增加时，其准确率迅速下降。

因此，线431、432和433示出了其中在零标签翻转时q=0.1、0.2、0.4的方法的实施例中的实际性能。如所预期的，(q=0.1)线在(q=0.2)线之上，该(q=0.2)线在(q=0.4)线之上。有趣的是，即使在一次翻转之后，q=0.4的性能也比q=0.1的情况更好，并且继续这种方式。

MNIST 1/7数据集仅由类别1和7——总计13007个训练点和2163个测试点组成。卷积神经网络在其它八个MNIST数字上进行训练，以学习50维特征嵌入，并且然后如上所述的那样计算G(μ,ϕ)的切尔诺夫界限。在该示例中，编码器先前没有看到1s和7s的示例，但是从其它数字学习了特征。该方法消除了损坏的1/7训练点可能损坏编码器的可能性。

图4中示出了对于变化的概率q，对测试集的认证准确率。与之前的随机化平滑的工作一样，噪声参数q平衡了鲁棒性与准确率之间的权衡。随着q增加，认证给定翻转数量所需的余量

会降低。另一方面，这导致更有噪的训练标签，其减少了余量。标绘图指示了认证的测试集的准确率，以及每个分类器的非鲁棒准确率。线435表示恒定分类器的性能，假设类别的相等表示，并且用作参考。

另外的实验发现，未正则化的解决方案实现了几乎100%的非鲁棒准确率，但是实现了较低的鲁棒性。

对狗鱼测试用例实行了类似的实验。在该二进制分类测试中，选择了被标记为狗或鱼的ImageNet图像。在该情况下，编码器是在标准的ImageNet训练集上训练的ResNet-50，但是移除了被标记为任何种类的狗或鱼的所有图像。

尽管符号和算法稍微更复杂，但是上面所讨论的所有实施例可以扩展到多类别设置。在该情况下，可以考虑类别标签

，并且寻找一些平滑预测，使得分类器对新点的预测将不会随着训练集中的标签的某个数量r的翻转而改变。

例如，可以考虑分类器

，输出K个类别之一的索引。在该表述方式的情况下，对于给定的类别

，我们可以定义

，（21）

其中如果ϕ(x)输出类别c，则

是指示器函数。在该情况下，可以通过返回具有最高概率的类别来评估硬阈值g。即，

（22）。

还是在该情况下，该模型可以如在二进制情况下那样被部分线性化，这根本放弃了实际实行随机采样的需要，但是代替地使用切尔诺夫界限来直接形成随机化分类器的界限。采用相同的符号，用于多类别设置的等同最小二乘分类器可以发现某个权重集

（23）

其中

是二进制，其中每行等于类别标签的独热编码。注意到，所得到的

现在是矩阵，并且我们使

指代第i行。在预测时间，某个新点x _n+1的预测类别可以由具有最高值的预测给出，例如，

（24）。

替换地，遵循与二进制情况下相同的逻辑，该相同的预测可以根据α变量被写为

（25）

其中

表示

的第i列。

在随机化平滑设置中，可以以概率q翻转任何标签的类别，从剩余的K-1个标签中均匀地随机选择替换标签。假设预测的类别标签是i，我们可以针对所有替换的类别'i形成概率的界限

（26）。

通过切尔诺夫界限，我们有

（27）。

取决于是

还是

且

，随机变量

采取三个不同的分布。具体地，该变量可以采取具有相关联的概率的+1、0、-1项

（28）

将这些情况直接组合到切尔诺夫界限会给出

。（29）

再次，该问题在t中是凸出的，并且所以可以使用例如牛顿法来高效地求解。并且再次，由于可以经由相同的表达式来计算相反的情况，我们可以以不受约束的方式对此进行类似地优化。具体地，我们可以对类别i和i ^'的每个对进行该操作，并且返回i，其给出了i ^'的最坏情况选择的最小下界限。

为了计算实际的认证半径，对于K个类别的情况，导出下面的KL散度界限。使μ、ρ和μ _i、ρ _i如上面所定义的，除了在标签以概率q翻转时，它被均匀随机地改变为其它K-1个类别之一。另外，使Y ₁ ⁱ成为Y ₁的第i个元素，这意味着其是在从μ采样时可能翻转或可能不翻转的“原始”类别。首先注意到，分布μ和ρ的每个维度是独立的，有

插入鲁棒性保证(6)，获得了g(μ,ϕ)=g(ρ,ϕ)，只要

。（30）

设置K=2恢复了散度项(7)和界限(8)。

图5示意性地示出了方法500的实施例的示例，以针对标签噪声具有改进的鲁棒性地对传感器数据进行分类。方法500可以是计算机实现的，并且包括

- 提供（510）训练数据

，该训练数据包括多个训练输入数据(x _i)和对应标签(y _i)，训练输入数据表示从一个或多个传感器获得的物理系统的物理属性，为训练数据定义的基本分类器，该基本分类器包括编码器（h）和分类器(β)，该编码器被配置成将输入数据(x _i)映射到潜在表示(h(x _i))，该分类器被配置成被应用于潜在表示，其中，该编码器由经预训练的参数来定义，基本训练函数被配置成用于根据训练数据来优化定义分类器的参数，

- 提供（520）新颖输入数据(x _n+1)，

- 定义（530）多个标签的噪声水平（q），

- 针对标签噪声具有改进的鲁棒性地计算（540）新颖输入的预测标签，包括估计在根据噪声水平将基本训练函数重复应用于并入噪声的训练标签以及随后将根据基本预测函数所配置的基本分类器应用于新颖输入的情况下最可能的标签。

计算预测标签可以以至少两种方式进行。例如，一种方法可以包括

- 根据噪声水平将基本训练函数重复应用于并入噪声的训练标签，以及随后将根据基本预测函数所配置的基本分类器应用于新颖输入。

另一方面，预测标签也可以通过以下方式计算

- 估计在重复应用的情况下最可能的标签包括评估（542）一个或多个不等式以获得所述可能性的界限。

编码器可以包括神经网络。有可能地，基本分类器的分类器部分也可以包括神经网络。然而，在典型的实施例中，编码器包括神经网络，而分类器部分不包括，或者至多包括浅的神经网络，例如，单个S型或单个层。可以利用机器学习方法来训练神经网络，例如，编码器神经网络。

例如，访问训练数据和/或接收输入数据可以使用通信接口（例如，电子接口、网络接口、存储器接口等）来进行。例如，可以从电子存储装置（例如，存储器、硬驱动器等）存储或检索参数，例如，网络的参数。例如，将神经网络应用于训练数据中的数据，和/或调整存储的参数以训练网络可以使用电子计算设备（例如，计算机）来进行。编码器也可以代替直接输出而输出均值和/或方差。在均值和方差的情况下，为了获得输出，可以从该定义的高斯中采样。

编码器神经网络可以具有多个层，其可以包括例如卷积层等等。例如，神经网络可以具有至少2、5、10、15、20或40个隐藏层或更多等。神经网络中的神经元的数量可以是例如至少10、100、1000、10000、100000、1000000或更多等。

执行该方法的许多不同方式是可能的，如对于本领域技术人员将是显而易见的。例如，步骤的次序可以以所示出的次序实行，但是步骤的次序可以变化，或者一些步骤可以并行执行。此外，在步骤之间可以插入其它方法步骤。插入的步骤可以表示诸如本文中所描述的方法的细化，或者可以与该方法无关。例如，一些步骤可以至少部分地并行执行。此外，在开始下一步之前，给定的步骤可能还没有完全完成。

该方法的实施例可以使用软件（例如，连同部分541和542中的一个或多个一起）来执行，该软件包括用于使处理器系统实行方法500的指令。软件可能仅包括由系统的特定子实体所采用的那些步骤。软件可以存储在合适的存储介质中，该存储介质诸如是硬盘、软盘、存储器、光盘等。该软件可以作为信号沿着线、或无线地、或使用数据网络（例如，互联网）发送。该软件可以可用于在服务器上下载和/或远程使用。该方法的实施例可以使用比特流来执行，该比特流被布置成配置可编程逻辑（例如，现场可编程门阵列（FPGA））以实行该方法。

将领会到，当前所公开的主题还扩展到计算机程序，特别是载体上或载体中的计算机程序，其适于将当前所公开的主题付诸实践。该程序可以采用源代码、目标代码、代码中间源和目标代码的形式，诸如部分编译的形式，或者采用适合于在该方法的实施例的实现方式中使用的任何其它形式。与计算机程序产品有关的实施例包括：对应于所阐述的至少一种方法的每一个处理步骤的计算机可执行指令。这些指令可以被细分成子例程，和/或被存储在可以静态或动态链接的一个或多个文件中。与计算机程序产品有关的另一个实施例包括：对应于所阐述的系统和/或产品中的至少一个的每一个设备、单元和/或部分的计算机可执行指令。

图7a示出了具有包括计算机程序1020的可写部分1010的计算机可读介质1000，该计算机程序1020包括用于使处理器系统实行根据实施例的分类方法的指令。计算机程序1020可以在计算机可读介质1000上被体现为物理标签，或通过计算机可读介质1000的磁化来体现。然而，任何其它合适的实施例也是可想象的。另外，将领会到，尽管计算机可读介质1000在这里被示为光盘，但是计算机可读介质1000可以是任何合适的计算机可读介质，诸如硬盘、固态存储器、闪速存储器等，并且可以是不可记录的或可记录的。计算机程序1020包括用于使处理器系统实行所述分类方法的指令。

图7b示出了根据分类系统的实施例的处理器系统1140的示意性表示。处理器系统包括一个或多个集成电路1110。图7b中示意性地示出了一个或多个集成电路1110的架构。电路1110包括处理单元1120（例如CPU），用于运行计算机程序组件以执行根据实施例的方法和/或实现其模块或单元。电路1110包括用于存储编程代码、数据等的存储器1122。存储器1122的一部分可以是只读的。电路1110可以包括通信元件1126，例如，天线、连接器或二者等等。电路1110可以包括专用集成电路1124，用于实行该方法中所定义的部分或全部处理。处理器1120、存储器1122、专用IC 1124和通信元件1126可以经由互连1130（比如总线）彼此连接。处理器系统1110可以被布置成用于分别使用天线和/或连接器的接式和/或无接触通信。

例如，在实施例中，处理器系统1140（例如，分类系统）可以包括处理器电路和存储器电路，处理器被布置成执行存储在存储器电路中的软件。例如，处理器电路可以是英特尔酷睿i7处理器、ARM Cortex-R8等。在实施例中，处理器电路可以是ARM Cortex M0。存储器电路可以是ROM电路或非易失性存储器，例如，闪速存储器。存储器电路可以是易失性存储器，例如，SRAM存储器。在后一种情况下，设备可以包括非易失性软件接口，例如硬驱动器、网络接口等，其被布置成用于提供软件。

如本文中使用的，术语“非暂时性”将被理解成排除暂时性信号，而是包括所有形式的存储装置，包括易失性和非易失性存储器二者。虽然设备1140被示为包括每个所描述的组件中的一个，但是在各种实施例中可以复制各种组件。例如，处理器可以包括多个微处理器，该多个微处理器被配置成独立执行本文中所描述的方法，或者被配置成实行本文中所描述的方法的步骤或子例程，使得多个处理器进行协作以实现本文中所描述的功能。另外，在云计算系统中实现设备1140的情况下，各种硬件组件可以属于单独的物理系统。例如，处理器可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。

应当注意到，上述实施例图示而不是限制当前所公开的主题，并且本领域技术人员将能够设计许多替换实施例。

在权利要求中，放置在括号之间的任何参考标记不应被解释为限制权利要求。动词“包括”及其动词变化的使用不排除权利要求中所陈述的之外的元件或步骤的存在。元件之前的冠词“一”或“一个”不排除多个这样的元件的存在。当在元素的列表之前时，诸如“……中的至少一个”之类的表达表示从列表中选择所有元素或元素的任何子集。例如，表达“A、B和C中的至少一个”应该被理解为包括仅有A、仅有B、仅有C、A和B二者、A和C二者、B和C二者或者A、B和C的全部。当前所公开的主题可以通过包括若干不同元件的硬件以及通过合适编程的计算机来实现。在列举若干零件的设备权利要求中，这些零件中的若干个可以由硬件的同一项来体现。在相互不同的从属权利要求中叙述某些措施的仅有事实不指示这些措施的组合不能被有利地使用。

在权利要求中，括号中的参考指代示例性实施例的附图中的参考标记或实施例的公式，因此增加了权利要求的可理解性。这些参考不应被解释为限制权利要求。

Claims

1.一种针对标签噪声具有改进的鲁棒性地对传感器数据进行分类的计算机实现的方法（500），所述方法包括

- 提供（510）训练数据

，所述训练数据包括多个训练输入数据(x _i)和对应的标签(y _i)，训练输入数据表示从一个或多个传感器获得的物理系统的物理属性，

- 为训练数据定义的基本分类器，所述基本分类器包括编码器（h）和分类器(β)，所述编码器被配置成将输入数据(x _i)映射到潜在表示(h(x _i))，所述分类器被配置成被应用于潜在表示，其中，所述编码器由经预训练的参数来定义，基本训练函数被配置成用于根据训练数据来优化定义分类器的参数，

- 提供（520）新颖输入数据(x _n+1)，

- 定义（530）多个标签的噪声水平（q），

2.根据权利要求1所述的方法，其中，所述分类器（β）包括被配置成被应用于潜在表示（h(x)β）的线性运算。

3.根据权利要求2所述的方法，其中，所述基本训练函数被配置成用于应用最小二乘优化以根据训练数据来导出定义线性运算的参数。

4.根据前述权利要求中任一项所述的方法，包括计算线性运算（

），以获得对新颖输入和并入噪声的训练标签应用基本训练函数和基本预测函数的组合结果。

5.根据前述权利要求中任一项所述的方法，其中，包括：估计在重复应用的情况下最可能的标签包括评估一个或多个不等式以获得所述可能性的界限。

6.根据权利要求5所述的方法，其中，为变量（t）的多个值定义不等式，所述方法包括：对变量的值进行近似，所述不等式针对所述变量是最严格的，所述近似可以包括牛顿近似。

7.根据前述权利要求中任一项所述的方法，其中

- 编码器包括神经网络，和/或

- 编码器是特征提取器，其被配置成生成多个特征，和/或

- 编码器被训练为自动编码器，和/或

- 编码器在训练数据上进行训练，例如，所提供的训练数据的所选择的子集，和/或

- 编码器连同临时分类器一起在训练数据上进行训练。

8.根据前述权利要求中任一项所述的方法，其中

- 编码器（h）和分类器（β）由参数定义，定义编码器的参数的数量大于定义分类器的参数的数量，和/或

- 编码器（h）和分类器（β）包括神经网络，所述编码器神经网络包括比分类器神经网络更多的节点和/或层，

- 分类器（β）包括线性运算和S型运算。

9.根据前述权利要求中任一项所述的方法，包括

10.根据前述权利要求中任一项所述的方法，包括

- 计算指示标签改变的数量的半径，其中，如果标签改变的数量不超过所指示的标签改变的数量，则新颖输入的预测标签将不会改变。

11.根据权利要求10所述的方法，包括

- 获得对训练数据中的损坏标签的数量的估计，

- 在接受新颖输入的预测标签之前，将损坏标签的估计数量与半径进行比较。

12.根据权利要求10-11中任一项所述的方法，包括

- 取决于半径和损坏标签的估计数量来训练编码器。

13.根据权利要求12所述的方法，包括

- 如果损坏标签的估计数量高于半径，则

- 从训练数据获得校正的标签和/或丢弃损坏标签，以及

- 在校正的标签和/或在不具有被丢弃的标签的训练数据上训练编码器。

14.根据权利要求10-13中任一项所述的方法，其中，为一个或多个新颖输入数据计算预测标签，所述方法包括

- 存储新颖输入数据和预测标签，

- 如果对存储的预测标签中的损坏标签的数量的估计低于半径，则

- 在存储的新颖输入数据和预测标签上训练编码器。

15.根据前述权利要求中任一项所述的方法，其中，训练输入数据(x _i)与训练数据中的一个或多个二进制标签相关联。

16.根据前述权利要求中任一项所述的方法，包括

- 基于物理系统和/或在物理系统中操作的自主设备的预测标签来确定控制信号。

17.一种被配置成针对标签噪声具有改进的鲁棒性地对传感器数据进行分类的分类系统，所述设备包括

- 训练数据存储装置，其被配置成存储训练数据

- 新颖输入数据接口，其被配置成获得新颖输入数据(x _n+1)，

- 处理器系统，其被配置成用于

- 定义多个标签的噪声水平（q），

- 针对标签噪声具有改进的鲁棒性地计算新颖输入的预测标签，包括估计在根据噪声水平将基本训练函数重复应用于并入噪声的训练标签以及随后将根据基本预测函数所配置的基本分类器应用于新颖输入的情况下最可能的标签。

18.一种暂时性或非暂时性计算机可读介质（1000），其包括表示指令的数据（1020），当由处理器系统执行时，所述指令使处理器系统实行根据权利要求1-16中任一项所述的方法。