CN115600144A

CN115600144A - 用于异常检测和分割的对比预测性编码

Info

Publication number: CN115600144A
Application number: CN202210811670.6A
Authority: CN
Inventors: P·德哈恩; S·勒维
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-07-09
Filing date: 2022-07-11
Publication date: 2023-01-13
Also published as: EP4116883A1; US20230024101A1; JP2023010697A

Abstract

一种异常区域检测系统包括控制器，该控制器被配置成：接收被分组为补片的数据，经由编码器的参数对数据进行编码以获得每个补片的一系列局部潜在表示，针对每个补片从局部潜在表示计算对比预测性编码（CPC）损失以获得更新的参数，用更新的参数更新编码器的参数，经由对比预测性编码（CPC）损失对局部潜在表示的每个系列进行评分，以获得与每个补片相关联的评分，平滑该评分以获得损失区域，掩蔽与损失区域相关联的数据以获得经验证的数据，以及输出经验证的数据。

Description

用于异常检测和分割的对比预测性编码

技术领域

本公开总体上涉及机器学习系统中的异常区域检测。更具体地，本申请涉及经由局部神经变换在机器学习系统中的异常区域检测方面的改进。

背景技术

在数据分析中，异常检测（也称为异常值检测）是对特定数据、事件或观察的标识，所述特定数据、事件或观察因与大多数数据有显著差异而引起怀疑。通常，异常项将转化为某种问题，诸如结构缺陷、错误操作、故障、医疗问题或错误。

发明内容

一种异常区域检测方法，包括从第一传感器接收数据，所述数据被分组为补片，经由编码器的参数对数据进行编码以获得每个补片的局部潜在表示，针对每个补片从局部潜在表示计算表示损失，以获得更新的参数，用更新的参数更新编码器的参数，经由表示损失对所述一系列局部潜在表示中的每一者进行评分，以获得与每个补片相关联的评分，平滑该评分以获得损失区域，掩蔽与损失区域相关联的数据以获得经验证的数据，以及输出经验证的数据。

一种异常区域检测系统，包括控制器，所述控制器被配置成：接收被分组为补片的数据，经由编码器的参数对所述数据进行编码，以获得每个补片的一系列局部潜在表示，针对每个补片从局部潜在表示计算对比预测性编码（CPC）损失，以获得更新的参数，用更新的参数更新编码器的参数，对所述一系列局部潜在表示中的每一者进行评分，经由对比预测性编码（CPC）损失，获得与每个补片相关联的评分，平滑该评分以获得损失区域，掩蔽与损失区域相关联的数据以获得经验证的数据，以及输出经验证的数据。

一种异常区域检测系统，包括控制器，所述控制器被配置成从传感器接收数据，所述数据被分组为补片，经由编码器的参数对所述数据进行编码，以获得每个补片的一系列局部潜在表示，针对每个补片从局部潜在表示计算对比预测性编码（CPC）损失，以获得更新的参数，用更新的参数更新编码器的参数，对所述一系列局部潜在表示中的每一者进行评分，经由对比预测性编码（CPC）损失，获得与每个补片相关联的评分，平滑该评分以获得损失区域，掩蔽与损失区域相关联的数据以获得经验证的数据，以及基于经验证的数据来操作机器。

附图说明

图1是经由局部神经变换（LNT）的异常区域检测系统的流程图。

图2是对潜在表示的局部神经变换的流程图。

图3是在潜在空间中具有推/拉的动态确定性对比损失（DDCL）的流程图。

图4是前向和后向评分的流程图。

图5是电子计算系统的框图。

图6是局部神经变换（LNT）的接收器操作特性（ROC）曲线的图形表示，其图示了对于不同设计选择的真阳性率（TPR）与假阳性率（FPR）的关系。

图7是具有注入异常、评分和错误检测信号的示例性信号的图形表示。

图8是具有注入异常、评分和错误检测信号的示例性信号的图形表示。

图9是经由对比预测性编码（CPC）的异常区域检测系统的流程图。

图10是图像、对应的对比预测性编码（CPC）损失值以及图像和损失值二者的叠加的图示。

图11是被配置成控制载具的控制系统的示意图。

图12是被配置成控制制造机器的控制系统的示意图。

图13是被配置成控制电动工具的控制系统的示意图。

图14是被配置成控制自动化个人助理的控制系统的示意图。

图15是被配置成控制监视系统的控制系统的示意图。

图16是被配置成控制医学成像系统的控制系统的示意图。

具体实施方式

按照需要，本文公开了本发明的详细实施例；然而，将理解，公开的实施例仅仅是本发明的示例，并且其可以以各种形式和替代形式来实施。各图不一定是按比例的；一些特征可能被放大或最小化以示出特定部件的细节。因此，本文中公开的具体结构和功能细节不应被解释为限制性的，而仅仅是作为用于教导本领域技术人员以各种方式采用本发明的代表性基础。

术语“基本上”在本文中可以用于描述公开的或要求保护的实施例。术语“基本上”可以修饰在本公开中公开或要求保护的值或相对特性。在这样的情况下，“基本上”可以表明它所修饰的值或相对特性在该值或相对特性的±0%、0.1%、0.5%、1%、2%、3%、4%、5%或10%之内。

术语“传感器”是指检测或测量物理属性并记录、指示或以其他方式响应于该物理属性的装置。术语传感器包括光学、光、成像或光子传感器（例如电荷耦合器件（CCD）、CMOS有源像素传感器（APS）、红外传感器（IR）、CMOS传感器）、声学、声音或振动传感器（例如麦克风、地震检波器、水听器）、汽车传感器（例如车轮速度、停车、雷达、氧气、盲点、扭矩、LIDAR）、化学传感器（例如离子敏感场效应晶体管（ISFET）、氧气、二氧化碳、化学电阻器、全息传感器）、电流、电势、磁性或射频传感器（例如霍耳效应、磁强计、磁电阻、法拉第杯、电流计）、环境、天气、水分或湿度传感器（例如，天气雷达、辐射计）、流量或流体速度传感器（例如，质量空气流量传感器、流速计）、电离辐射或亚原子粒子传感器（例如，电离室、盖革计数器、中子检测器）、导航传感器（例如，全球定位系统（GPS）传感器、磁流体动力学（MHD）传感器）、位置、角度、位移、距离、速度或加速度传感器（例如，LIDAR、加速度计、超宽带雷达、压电传感器）、力、密度或液位传感器（例如应变仪、核密度仪）、热、热量或温度传感器（例如，红外温度计、高温计、热电偶、热敏电阻、微波辐射计）或其他装置、模块、机器或子系统，其目的是检测或测量物理属性并记录、指示或以其他方式响应于该物理属性。

具体地，传感器可以测量时间序列信号的属性，并且可以包括空间或时空方面，诸如空间中的位置。该信号可以包括机电、声音、光、电磁、RF或其他时间序列数据。本申请中公开的技术可以应用于利用其他传感器（例如，用于无线电磁波的天线、用于声音的麦克风等）的时间序列成像。

术语“图像”是指描绘对物理特性（例如，可听声音、可见光、红外光、超声波、水下声学）的感知的表示或人工制品，诸如照片或其他二维图片，其类似于主题（例如，物理对象、场景或特性）并因此提供对其的描绘。图像可以是多维的，因为它可以包括时间、空间、强度、浓度或其他特性的分量。例如，图像可以包括时间序列图像。该技术还可以扩展到对3-D声源或对象进行成像。

异常检测适用于各种系统中，所述系统诸如是医疗装置、安全系统、消费者系统、汽车系统、自主驾驶系统、无线通信系统、传感器以及使用机器视觉图像中的缺陷检测。它通常用在预处理中，以从数据集中移除异常数据。在监督学习中，从数据集中移除异常数据通常导致在准确性方面的统计学上的显著增加。

在包括消费者、医疗、工业、汽车和航空的许多应用中，发现时间序列内的异常区域是重要的。在本公开中，基于数据增强的辅助任务可以用于训练深度架构，然后辅助任务的性能可以用作异常评分。本公开提供了对诸如时间序列或表格数据之类的领域的解决方案。当从数据中学习增强时，这些领域受益。在本公开中，一种用于将这些方法扩展到在时间序列内寻找异常区域的任务的方法。本公开提出了局部神经变换（LNT），一种用于检测异常区域的端到端流水线。它学习局部嵌入和增强时间序列，并为每个时间步长产生异常值。经由实验示出了，LNT可以从LibriSpeech数据集中发现语音段中的合成噪声。尽管本公开集中于时间序列（时间），但是概念可以应用于其他类型的数据，诸如空间或时空数据。

在机器学习的许多应用中，发现时间序列中的异常行为是一项重要的任务。本公开的方面是使用（潜在的多变量）时间序列的未标注数据集，并学习基于深度学习的方法，该方法可以扫描新的时间序列以发现异常。特别是集中于异常区域检测的任务，使得异常应当在子序列水平上而不是对于作为整体的序列进行判断。在许多应用中，为了快速响应于异常行为，这种设置可能至关重要。

在本公开中，使用数据增强来定义用于训练深度特征提取器的任务，并且任务上的性能被用作异常评分。具体而言，一种改进，以适应自监督异常检测图像以外的领域，用于时间序列异常检测的深度方法利用数据增强的益处。

在本公开中，局部神经变换（LNT），一种变换学习方法可以用于发现时间序列数据中的异常。然后，异常检测流水线将特征提取器（诸如对比预测性编码CPC）与神经变换学习相组合。最后，基于隐马尔可夫模型（HMM）的评分方法组合评分并检测异常区域。本公开提出了（1）一种用于组合表示和变换学习的时间序列中的自监督异常区域检测的新方法，以及（2）一种将不同损失贡献组合成每个时间步长的异常评分的评分。

这里，局部神经变换（LNT）可以被作为用于时间序列（即给定时间序列

）的异常检测方法来应用。本文公开的方法输出表示每个单独时间步长异常的评分

。图1中给出了概述，图1图示了可以用编码器联合训练神经变换，该编码器提供具有两个对比自监督任务的局部表示。这些任务上的性能可以被重新使用来导出异常评分

。

图1是经由局部神经变换（LNT）的异常区域检测系统100的流程图。编码器102经由编码器内部的参数创建数据的局部潜在表示。该局部潜在表示经由局部神经变换104被变换成一系列多样的变换向量表示。编码器还输出表示损失106，诸如CPC损失。并且局部神经变换104还输出动态确定性对比损失（DDCL）108。

局部时间序列表示：第一步骤是对时间序列进行编码，以得到局部潜在表示

。此外，还生成表示损失，这些是评估表示的质量的损失，诸如CPC损失或自动编码器损失。时间序列补片

（具有窗口大小

）通过跨步卷积编码以获得局部潜在表示

。那些进而被循环模型（GRU）处理以构建上下文表示

。两者都用对比预测性编码（CPC）来训练，这通过将线性k步未来预测

与从建议分布Z中抽取的阴性样本

进行对比来鼓励上下文嵌入

预测附近的补片。所得损失（等式1）是对来自阴性样本的固定大小集合

的阳性样本进行分类的交叉熵，其中具有指数相似性度量

和

。

（1）

其中，

是期望函数，

是编码时间序列的局部潜在表示，t是时间索引，

是参数矩阵，其中k是时间索引的宽度，

是由

参数化的其两个自变量之间的比较函数，L_CPC是对比预测性编码（CPC）损失，

是上下文表示。

局部神经变换：接下来，时间序列表示由局部神经变换处理，以产生每个嵌入的不同视图。这些局部变换将允许异常区域检测。

图2是对潜在表示的局部神经变换200的流程图。编码器202经由编码器内部的参数创建数据的局部潜在表示204。该局部潜在表示204经由局部神经变换206被变换成一系列多样的变换向量表示208（208a、208b、208c、208d、208e）。

例如，图像语义变换可以是旋转或颜色失真，而在具有其他数据的一个实施例中，通过将原始样本与同一样本的不同视图进行对比，使用NeuTraL从数据中学习具有参数

的神经变换集合

。这导致确定性对比损失，因为它不像在噪声对比估计（NCE）中那样依赖于从噪声分布中抽取的阴性样本。

本公开呈现了将该方法应用于如图2中所示的学习的潜在表示

，以获取不同的潜在视图

。此外，本公开通过结合不同层位k的未来预测

作为阳性样本，将具有时间依赖性的损失扩展到如在等式2中给出的动态确定性对比损失（DDCL）。

（2）

其中，

是评分，

是编码时间序列的局部潜在表示，t是时间索引，

是参数矩阵，其中k是时间索引的宽度，

是余弦相似性函数，并且

是上下文表示。

这导致不同分类交叉熵损失（等式2）的总和（等式3），其全部与来自具有余弦相似性度量

的给定

的

的阳性样本形成对比。由此将两个自监督任务（即变换学习和未来预测）组合成单个确定性对比损失，使得总体任务更具挑战性，因为它必须处理由

中的不同k引起的变化。

（3）

其中，

是期望函数，t是时间索引，k是时间索引的宽度，l是变换的索引，

是评分并且L_DDCL是动态确定性对比损失。

最后，利用超参数λ平衡表示和变换学习，用统一损失

联合训练等式1和等式3的两个目标。

变换学习原则：由于不是从数据中学习的每个函数都创建有意义的变换（或视图），因此本公开用三个关键原则呈现了图1中的架构的动机，这三个关键原则需要对于学习的变换成立。

两个原则是（1）语义和（2）多样性，它们排除了变换学习的常见有害边缘情况，并且帮助用于学习表格数据的强大变换。丰富了前两个，第三个原则，（3）局部性，提供了考虑到的异常区域检测的下游任务：

语义是通过学习的变换产生的视图，它应当与原始样本共享显著的语义信息。

多样性是学习的变换，它应当针对每个样本产生多样的视图，从而导致需要解决强语义特征的多样性和困难的自监督任务。

局部性是应当仅在局部邻域中影响数据、同时遵守该系列的全局上下文的变换。

关于局部性，要求诱导自监督任务的执行对该系列的一些全局上下文内的异常行为是局部敏感的。强调的是，这不同于简单的滑动窗口方法，为此，期望检测对于整个数据集是异常的“异常值窗口”，但是如果它们仅在特定系列的上下文内是异常的，则不检测。

来自CPC的关键观点是，它将时间序列分解为局部z _t和全局c _t表示。可以通过仅将神经变换应用于z _t来利用该特性，从而产生满足局部性原则的变换。

从不同的角度来看，L_DDCL可以被解释为在潜在空间中推和拉不同的表示，如在图3中所见。等式2的分母将学习的变换

拉到接近W _k c _t，从而确保语义的原则，而分母将不同的

推开，从而确保学习的变换中的多样性。

异常评分：为了对特定时间点的异常进行评分，考虑重新使用L_DDCL损失。这具有确定性的优点，并且因此不需要从提议或噪声分布中抽取阴性样本，而其他对比自监督任务可能需要这样做。

这允许将时间依赖性集成到该方法中的两种可能性，以导出时间t的评分

，如在图4中所描绘的：

图3是在潜在空间中具有推/拉的动态确定性对比损失（DDCL）300的流程图。编码器302经由编码器内部的参数创建数据的局部潜在表示304。请注意，该流程图图示了在不同时间（例如t、t-1、t-2、t+1等）处的流程。该局部潜在表示304经由局部神经变换306、310被变换成一系列多样的变换向量表示308。局部变换306、308被图示为递归神经网络（RNN），但是也可以被实施为卷积神经网络（CNN）或其他神经变换。

图4是前向评分400和后向评分450的流程图。

前向评分使用全局上下文状态c _t−k的记录历史来将与时间t处的变换表示

进行对比。这允许一旦当前表示

到达时及时计算评分

。

后向评分使用即将到来的未来表示

来事后更新评分s _t。因此，该方法需要等待K个未来表示到达以进行评分

。

请注意，在训练期间，这些考虑是没有实际意义的，因为所有的损失贡献都是相加的。基于一些实施例中的实验，与前向评分相比，后向评分平滑并取代了预测。因此，尽管前向和后向评分两者都提供了可接受的结果，但下面的示例使用了前向评分。

隐马尔可夫模型：为了导出关于异常的二元决策，一种方法将包括将阈值与每个时间点的评分

分别进行比较。通过利用数据的顺序性质，另一种方法是使用具有二元状态的下游隐马尔可夫模型（HMM），并用维特比解码提取最大似然状态轨迹。这可以平滑输出，并且帮助检测被视为异常的整个区域，如在图7和图8中所示。

示例电信系统、机器架构和机器可读介质。图5是适用于实现本文公开的系统或执行本文公开的方法的电子计算系统的框图。图5的机器被示为独立装置，其适合于实施上述概念。对于上述服务器方面，可以使用在数据中心、云架构的一部分等中操作的多个这样的机器。在服务器方面中，没有利用所有图示的功能和装置。例如，当用户用来与服务器和/或云架构交互的系统、装置等可以具有屏幕、触摸屏输入等，服务器通常没有屏幕、触摸屏、摄像机等，并且通常通过具有适当输入和输出方面的连接系统与用户交互。因此，下面的架构应被视为包含多种类型的装置和机器，并且各种方面可能存在或可能不存在于任何特定的装置或机器中，这取决于其外形因素和目的（例如，服务器很少具有摄像机，而可穿戴装置很少包括磁盘）。然而，图5的示例解释适用于允许本领域技术人员确定如何利用硬件和软件的适当组合来实施先前描述的实施例，以及对所使用的特定装置、机器等的图示实施例的适当修改。

虽然仅图示了单个机器，但是术语“机器”也应当被理解为包括单独或联合执行一组（或多组）指令集以执行本文讨论的任何一种或多种方法的任何机器集合。

机器500的示例包括至少一个处理器502（例如，控制器、微控制器、中央处理单元（CPU）、图形处理单元（GPU）、张量处理单元（TPU）、高级处理单元（APU）或其组合）、一个或多个存储器，诸如主存储器504、静态存储器506或其他类型的存储器，它们经由链路508彼此通信。链路508可以是总线或其他类型的连接信道。机器500可以包括另外的任选方面，诸如包括任何类型显示器的图形显示单元510。机器500还可以包括其他任选方面，诸如字母数字输入装置512（例如，键盘、触摸屏等）、用户界面（UI）导航装置514（例如，鼠标、轨迹球、触摸装置等）、存储单元516（例如，磁盘驱动器或（一个或多个）其他存储装置）、信号生成装置518（例如，扬声器）、（一个或多个）传感器521（例如，全球定位传感器、（一个或多个）加速度计、（一个或多个）麦克风、（一个或多个）摄像机等）等）、输出控制器528（例如，有线或无线连接，用于与一个或多个其他装置连接和/或通信，诸如通用串行总线（USB）、近场通信（NFC）、红外（IR）、串行/并行总线等）、以及连接到一个或多个网络526和/或通过一个或多个网络526通信的网络接口装置520（例如，有线和/或无线）。

各种存储器（即，504、506和/或（一个或多个）处理器502的存储器）和/或存储单元516可以存储一个或多个指令集和数据结构（例如，软件）524，所述一个或多个指令集和数据结构（例如，软件）524具体实施本文所述的任何一种或多种方法或功能或由所述方法或功能所利用。这些指令当由（一个或多个）处理器502执行时，引起各种操作来实施所公开的实施例。

示例性实验：LibriSpeech数据集与人工异常区域一起使用，以便证明概念的证据，并且还比较某些设计选择的益处。

测试数据是随机放置在数据集中的不同频率和长度的加性纯正弦音调，从而产生构成数据的≈ 10%的连续的异常区域。

使用CPC超参数，其中

、

并且K = 12。附加地，训练L = 12个不同的学习变换

。每个由具有大小为64的3个隐藏层、ReLU激活且没有偏置项的MLP组成，其作为具有sigmoid激活的剩余乘法掩码应用于输入z _t。对于联合训练，预先训练30个分离的时期，并且此后选择λ= 0.1。在分离训练期间，防止从神经变换到表示的梯度流，即分别训练两个部分。

使用LSTM、THOC作为深度学习基线，并且OC-SVM、LOF作为经典基线。后者不是专门为时间序列设计的，所以从固定大小的滑动窗口中提取特征并应用于对它们的检测。这些特征在平移下应当是不变的。对于语音数据，mel标度频谱图被示出为是强大的领域特定特征。

结果：比较算法针对每个时间步长预测的异常评分。考虑长度为20480的子系列，每个样本产生同样多的评分和决策，并且针对整个测试集的总体为≈ 10⁸。对于依赖于较小窗口大小的基线算法，拼接来自若干个子窗口的结果。

使用图6中报告的接收器操作特性（ROC）曲线将本公开中呈现的LNT与若干个基线进行比较。LNT优于依赖于学习表示的所有深度学习方法，并且与依赖于领域特定特征的OCSVM性能相当。尽管这些特征尤其好地适合于依赖于纯频率的该特定异常，但是本公开中提出的LNT可以应用于不存在强领域特定特征的其他任务。

图6图示了两种不同设计选择在保持其他超参数（即分离训练和偏差项）固定的同时对异常检测性能的影响：单独训练分离引起较差的异常检测。因此，联合训练以积极的方式影响学习的表示，不仅导致训练之后的较低损失，而且还导致更好的异常检测。甚至更强的影响可以归因于LNT中的偏差项的存在。通过设计，偏差项使学习的变换在某种程度上独立于输入。这引起自监督任务的性能在各种输入下也是不变的，这打破了该异常检测方法的语义原则。

图6是局部神经变换（LNT）的接收器操作特性（ROC）曲线600的图形表示，其图示了对于不同的设计选择，真阳性率（TPR）与假阳性率（FPR）的关系。

本公开提出了一种LNT方法，一种用于时间序列的异常区域检测方法，其以新的方式组合了表示和变换学习。此外，本公开提供的结果示出，该系统和方法能够检测时间序列内的异常区域，并且也优于也获取数据表示的常见深度学习基线，而不是依赖于领域特定特征。

尽管在本公开中没有明确讨论，但是所公开的系统和方法可以应用于具有注释异常的其他时间序列数据集。尤其是具有上下文相关异常的数据集、空间数据集或时空数据集。

神经变换学习：扩展超出图像的领域的自监督异常检测方法。它最近在表格数据上示出有希望的结果，但是还缺失对检测时间序列内的异常区域的扩展。我们快速审查下文中的主要观点：

考虑通过学习变换

用确定性对比损失（DCL）训练的参数来增强数据D（参见等式4）。该损失鼓励变换的样本在余弦相似性

方面与其原始样本相似，而与同一样本的其他视图不相似，这是用语义和多样性驱动的。

（4）

对于异常数据，对比这些不同数据视图的能力预期将下降，从而通过重新使用L来产生确定性异常评分。与先前依赖于数据增强的异常检测方法相比，一个关键优势是学习变换也适用于不清楚如何手动设计语义增强的领域中。

隐马尔可夫模型（HMM）中的维特比解码：为了从自监督任务的评估中导出二元决策，考虑具有两种状态的隐马尔可夫模型（HMM）。因此，HMM状态

对应于当前时间步长t是否是异常区域的一部分的条件。然后将评分

视为生成性概率模型的发射。发射概率被选择为高斯密度，该高斯密度具有为训练之后的L_DDCL值的均值，并且对于异常状态相应地更高。该设计选择的动机是

的分布，其特征在于双模态。

为了进一步利用数据的顺序性质，状态转移概率被选择为有利于连续性。一种方法是在维特比解码的帮助下从该网络中提取最大似然状态轨迹。

从测试集中随机选择的样本的结果在图7和图8中所报告。这些绘图示出了来自测试集的样本，在顶行中的黄色阴影区域处放置了人工异常，低于LNT产生的L_DDCL损失。用参 考损失标示的基线是当馈送没有损坏的相同样本时的输出。注意，该基线只是为了可视化的目的，并且不是至任何方法的输入。

维特比解码可以通过提取具有很少跳跃的连续异常判定序列来克服对比自监督任务的性能在异常区域上变化的影响，如在底行中所示。对于选择的样本，异常区域几乎被完美地检测到。

图7是具有注入异常700的示例性信号的图形表示。损坏区域是其中异常被注入数据流中的区域。评分730的图形表示图示了

，其是评分或者也被称为多样的语义要求评分。错误检测信号760的图形表示也称为损失区域。

图8是具有注入异常800的示例性信号的图形表示。损坏区域是其中异常被注入数据流的区域。评分830的图形表示图示了

，其是评分或者也被称为多样的语义要求评分。错误检测信号860的图形表示也称为损失区域。

当在实践中部署机器学习模型时，可靠的异常检测至关重要，但由于缺乏标注数据，这仍然具有挑战性。对比学习方法的使用可以用在一般的自监督表示学习环境中。这里，对比异常检测方法被应用于图像，并被配置成以异常分割掩码的形式提供可解释的结果。在本公开的该章节中，呈现了对比预测性编码模型的使用。本公开提出了可以直接解释为异常评分的逐补片对比损失，并用于异常分割掩码的创建。在具有挑战性的MVTec-AD数据集上测试了所得模型的异常检测和分割二者。

异常（或异常值、新奇值、分布外样本）是与绝大多数数据显著不同的观察。异常检测（AD）试图将异常样本与数据中被认为“正常”的样本区分开。检测这些异常变得越来越重要，以使机器学习方法更可靠，并改进它们在现实世界场景中的适用性，所述现实世界场景例如是在自动化工业检查、医疗诊断或自主驾驶中。通常，异常检测被视为无监督的学习问题，因为标注数据通常不可用，并开发可以检测先前未见过的异常的方法。

在本公开中，可以应用对比预测性编码（CPC）方法和系统来检测和分割图像中的异常。此外，该系统应用可以被直接解释为异常评分的表示损失（例如，InfoNCE损失）。因为在该损失中，来自图像内的补片彼此对比，所以这些可以用于创建准确的异常分割掩码。

图9是经由对比预测性编码（CPC）的异常区域检测系统900的流程图。图像902被分组成补片904，其中每个补片906内的数据由编码器910编码以创建局部潜在表示。当计算局部潜在表示时，编码器可以包括阴性样本908。局部潜在表示通过局部神经变换912以创建一系列多样的变换向量表示，以及动态确定性对比损失（DDCL），这两者都用于创建与每个补片相关联的不同语义要求评分。

图像中异常检测和分割的对比预测性编码的示意性概览。从输入图像中提取（子）补片之后，我们将同一图像内的编码表示(z _t ,z _t+k)与N −1个随机匹配的表示(z _t ,z _j)进行对比。所得的InfoNCE损失用于确定子补片x _t+k是否异常。

图10是图像1000的图示，其图示了MVTec-AD数据集中不同类的异常区域的定位。原始输入图像1002（1002a、1002b、1002c、1002d、1002e、1002f、1002g）、对应的InfoNCE损失值1004（1004a、1004b、1004c、1004d、1004e、1004f、1004g）（较浅的阴影表示较高的损失值）以及两个1006（1006a、1006b、1006c、1006d、1006e、1006f、1006g）的叠加。这图示在本公开中提出的模型一致地突出了跨许多类的异常区域。

为了改进用于异常检测的CPC模型的性能，本公开包括两个调整。首先，在测试期间适配阴性样本的设置，使异常补片仅可以出现在阳性样本内。第二，省略CPC模型的自回归部分。通过这些调整，该提出的方法在现实世界的数据上实现了有希望的性能，诸如具有挑战性的MVTec-AD数据集。

对比学习：

基于对比学习的自监督方法通过使模型决定两个（随机或伪随机）变换的输入是源自同一输入样本、还是源自已经从跨数据集中随机抽取的两个样本来工作。可以取决于领域和下游任务选择不同的变换。例如，在图像数据上，考虑诸如随机裁剪和颜色抖动的随机数据增强。在本公开中，对比预测性编码模型利用时间变换。通过在创建的表示顶上训练线性分类器并通过测量该线性分类器在下游任务上实现的性能，来评估这些方法。

异常检测：

异常检测方法可以粗略地划分成三个类别：基于密度的方法、基于重构的方法和基于鉴别的方法。基于密度的方法通过估计数据的概率分布来预测异常（例如GAN、VAE或基于流量的模型）。基于重构的方法基于用重构目标训练的模型（例如，自动编码器）。基于鉴别的方法学习异常和正常数据之间的判定边界（例如，SVM，一类分类）。本公开中提出方法包括但不限于具有鉴别性一类目标的基于密度的方法。

对比预测性编码：

对比预测性编码是一种自监督表示学习方法，它利用数据的结构，并强制时间上邻近的输入在潜在空间中进行类似的编码。它通过使模型决定一对样本是由时间上邻近的样本还是随机分配的样本组成来实现这一点。通过将图像拆分成补片并将每一行补片解释为单独的时间步长，该方法也可以应用于静态图像数据。

CPC模型利用对比损失函数，包括称为InfoNCE的函数，其基于噪声对比估计，并且被设计为优化补片的潜在表示（z _t）与其周围补片（c _t+k）之间的相互信息：

（5）

其中

，并且

表示非线性编码器，

，并且

表示自回归模型。此外，W _k描述了用于预测在前的k个时间步长的线性变换。样本集X由一个阳性样本(x _t ,x _t+k)和N-1个阴性样本(x _t ,x _j)组成，对于其，x _j从跨当前批次中随机采样。

用于异常检测的CPC：

应用CPC模型进行异常检测和分割。为了改进CPC模型在该环境下的性能，考虑对其架构进行两个调整（见图9）。首先，省略自回归模型

。因此，损失函数改变为：

（6）

其中

是期望函数，z _t是编码时间序列的局部潜在表示，t是时间索引，W _k是参数矩阵，其中k是时间索引的宽度，exp(a)是指数函数，L_X是对比预测性编码（CPC）损失，c _t是上下文表示。

该调整导致更简单的模型，同时仍然能够学习有用的潜在表示。第二，在测试期间改变阴性样本的设置。CPC模型的一个实施方式使用来自相同测试批次内的随机补片作为阴性样本。然而，这可能导致阴性样本包含异常补片，这会使得对于模型而言更难以检测阳性样本中的异常补片。为了避免这种情况，考虑一种新的采样方法，该方法利用训练集的非异常图像的子集。

在测试阶段中，方程（6）中的损失函数可以用于决定图像补片xt+k是否可以被分类为异常：

（7）

阈值

保持隐式，并且接收器操作特性曲线下的面积（AUROC）可用作性能度量。一种解决方案是通过利用每个补片x _t+k的异常评分来创建异常分割掩码，另一种解决方案是通过对图像内的补片评分取平均来决定样本是否异常。

实验：

提出的用于异常检测和分割的对比预测性编码模型在MVTec-AD数据集上进行评估。该数据集包含十个对象和五个纹理的高分辨率图像，其带有像素准确的注释，并且每类提供60和391个之间的训练图像。接下来，将每个图像随机裁剪为768×768像素，并将其拆分成大小为256×256的补片，其中每个补片与其相邻补片具有50%的重叠。这些补片被进一步划分成大小为64×64的子补片，也具有50%的重叠。这些子补片用在InfoNCE损失（图1）中以检测异常。在训练期间，裁剪的图像以50%的概率水平翻转。

然后，使用ResNet-18 v2直到第三个残余块作为编码器

。使用Adam优化器，以1.5e−4的学习速率，为每个类从零开始训练单独的模型，其中批量大小为150个时期16个。该模型在灰度图像上进行训练和评估。为了增加作为异常补片指标的InfoNCE损失的准确性，在两个方向上应用该模型。从图像的顶行到底行以及从底行到顶行——使用共享的编码器，但是对于每个方向使用单独的W _k。

异常检测

提出的用于检测异常的模型的性能通过对跨裁剪图像内所有子补片内的前5%的InfoNCE损失值取平均来评估，并使用该值来计算AUROC评分。表1是包括不利用预先训练的特征提取器的系统的示例性比较。提出的CPC-AD模型实质上改进了核密度估计模型（KDE）和自动编码模型（Auto）。尽管本公开中呈现的模型的性能滞后于剪切粘贴模型，但是CPC-AD提供了用于异常检测的更普遍适用的方法。剪切粘贴模型严重依赖于随机采样的人工异常，所述人工异常被设计成模拟数据集中遇到的异常。因此，它不适用于k-classes-out任务，在k-classes-out任务中，异常在语义上不同于正常数据。

（CutPaste：剪切粘贴）

表1。每个类别在MVTec-AD测试集上的异常检测AUROC评分。提出的CPC-AD方法基本上上优于核密度估计模型（KDE）和自动编码模型（Auto）。它性能优于剪切粘贴模型，剪切粘贴模型严重依赖于数据集特定的增强来进行其训练。

异常分割：

为了评估所提出的CPC-AD模型的异常分割性能，对逐子补片的InfoNCE损失值进行上采样，以匹配逐像素的基准真值注释。对重叠子补片的InfoNCE损失取平均，并将所得值分配给所有受影响的像素。创建分辨率为半个子补片（32×32像素）的异常分割掩码，其尺寸与裁剪图像（768×768）的尺寸相同。

表2是提出的CPC-AD方法的异常分割性能的示例性比较。MVTec-AD数据集上的最佳结果是利用在ImageNet上预先训练的大量模型（诸如FCDD和PaDiM）实现的，或者利用附加的人工异常和集成方法，诸如CutPaste。本公开中呈现的模型是从零开始训练的，并且仅使用所提供的训练数据，从而形成不太复杂且更通用的方法。所提出的CPC-AD方法进一步性能优于两个自动编码方法（AE-SSIM、AE-L2）和基于GAN的方法（AnoGAN）。

本公开中提出的模型成功地为跨大多数类之上的大量图像生成准确的分割掩码（图10）。即使对于具有低逐像素AUROC评分的类（诸如晶体管），也可以看到所创建的分割掩码正确地突出了异常输入区域。这对应于CPC-AD方法为该类实现的相对高的检测性能（表1）。这些结果指示，部分低分割评分（与检测评分相比）可能是由于与基准真值的小空间偏差。该效果可能由于这种逐补片方法创建的分割掩码的相对低的分辨率而加剧。

（CutPaste：剪切粘贴）

表2。异常分割–MVTec-AD测试集上每个类别的逐像素AUROC评分。AE-SSIM和AE-L2、AnoGAN和CutPaste，以及不使用预先训练的特征提取器的所提出的CPC-AD模型。FCDD和PaDiM使用预先训练来改进他们的结果（用*标示）。

总的来说，CPC-AD模型示出对比学习不仅可以应用于异常检测，而且还可以应用于异常分割。所提出的方法在异常检测任务上表现良好，对于大多数数据具有有竞争力的结果。附加地，尽管该模型仍然性能优于最近的分割方法的事实，但生成的分割掩码朝向基于对比学习的异常分割方法提供了有希望的第一步。

图11-16图示了示例性实施例，然而本公开的概念可以应用于附加的实施例。一些示例性实施例包括：工业应用，其中模态可以包括视频、重量、IR、3D摄像机和声音；电动工具或器具应用，其中模态可包括扭矩、压力、温度、距离或声音；医疗应用，其中模态可以包括超声波、视频、CAT扫描、MRI或声音；机器人应用，其中模态可以包括视频、超声波、LIDAR、红外或声音；和安全应用，其中模态可以包括视频、声音、IR或LIDAR。模态可以具有多样的数据集，例如，视频数据集可以包括图像，LIDAR数据集可以包括点云，并且麦克风数据集可以包括时间序列。

图11是被配置成控制载具的控制系统1102的示意图，该载具可以是至少部分自主的载具或至少部分自主的机器人。该载具包括传感器1104和致动器1106。传感器1104可以包括一个或多个基于波能量的传感器（例如，电荷耦合器件CCD或视频）、雷达、LIDAR、麦克风阵列、超声波、红外线、热成像、声学成像或其他技术（例如，诸如GPS的定位传感器）。一个或多个特定传感器中的一个或多个可以集成到载具中。替代地或除了上面标识的一个或多个特定传感器之外，控制模块1102可以包括软件模块，该软件模块被配置成在执行时确定致动器1104的状态。

在其中载具是至少部分自主的载具的实施例中，致动器1106可以具体实施在载具的制动系统、推进系统、发动机、传动系统或转向系统中。可以确定致动器控制命令，使得控制致动器1106，从而载具避免与检测到的对象碰撞。检测到的对象也可以根据分类器认为它们最可能是什么——诸如行人或树木——来分类。可以取决于分类来确定致动器控制命令。例如，控制系统1102可以将来自传感器1104的图像（例如，光学的、声学的、热的）或其他输入分割成一个或多个背景类和一个或多个对象类（例如，行人、自行车、载具、树木、交通标志、交通灯、道路碎片或建筑桶/锥等），并向致动器1106发送控制命令，在这种情况下，致动器1106具体实施为制动系统或推进系统，以避免与对象碰撞。在另一个示例中，控制系统1102可以将图像分割成一个或多个背景类和一个或多个标记类（例如，车道标志、护栏、道路边缘、载具轨迹等），并向致动器1106发送控制命令，致动器1106在这里具体实施为转向系统，以使得载具避开人行横道标记并保持在车道中。在其中可能发生敌对攻击的场景下，上述系统可被进一步训练成更好地检测对象或标识载具上传感器或摄像机的照明条件或角度的改变。

在载具1100是至少部分自主的机器人的其他实施例中，载具1100可以是移动机器人，其被配置成实行一个或多个功能，诸如飞行、游泳、潜水和行走。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中，可以确定致动器控制命令1106，使得可以控制移动机器人的推进单元、转向单元和/或制动单元，使得移动机器人可以避免与标识的对象碰撞。

在另一个实施例中，载具1100是呈园艺机器人形式的至少部分自主的机器人。在这样的实施例中，载具1100可以使用光学传感器作为传感器1104来确定载具1100附近环境中的植物状态。致动器1106可以是被配置成喷洒化学物质的喷嘴。取决于植物的所标识的种类和/或所标识的状态，可以确定致动器控制命令1102，以使致动器1106向植物喷洒合适量的合适化学物质。

载具1100可以是呈家用器具形式的至少部分自主的机器人。家用器具的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这样的载具1100中，传感器1104可以是光学或声学传感器，其被配置成检测将由家庭器具进行处理的对象的状态。例如，在家用器具是洗衣机的情况下，传感器1104可以检测洗衣机内部衣物的状态。可以基于检测到的衣物状态来确定致动器控制命令。

在该实施例中，控制系统1102将从传感器1104接收图像（光学的或声学的）和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量

，控制系统1102可以使用图10中描述的方法来对从传感器1104接收的图像的每个像素进行分类。基于该分类，信号可以被发送到致动器1106，例如，制动或转弯以避免与行人或树木碰撞，转向以保持在检测到的车道标志之间，或者如上所述由致动器1106执行的任何动作。基于该分类，信号也可以被发送到传感器1104，例如，以聚焦或移动摄像机镜头。

图12描绘了控制系统1202的示意图，该控制系统1202被配置成控制制造系统102（诸如生产线的一部分）的系统1200（例如，制造机器），该系统1200诸如是冲剪机、切割机或枪钻。控制系统1202可以被配置成控制致动器14，该致动器14被配置成控制系统100（例如，制造机器）。

系统1200（例如，制造机器）的传感器1204可以是波能量传感器，诸如被配置成捕获所制造产品的一个或多个属性的光学或声学传感器或传感器阵列。控制系统1202可以被配置成取决于一个或多个捕获的属性来确定所制造产品的状态。致动器1206可以被配置成取决于所确定的制造产品104的状态来控制系统1202（例如，制造机器），以用于所制造产品的后续制造步骤。致动器1206可以被配置成取决于所确定的先前制造产品的状态来控制在系统（例如制造机器）的后续所制造产品上的图11（例如制造机器）的功能。

在该实施例中，控制系统1202将从传感器1204接收图像（例如，光学或声学）和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量

，控制系统1202可以使用图10中描述的方法来对从传感器1204接收的图像的每个像素进行分类，例如，将制造的对象的图像分割成两个或更多个类，以检测所制造产品中的异常，从而确保所制造产品上存在诸如条形码的对象。基于该分类，信号可以被发送到致动器1206。例如，如果控制系统1202检测到产品中的异常，则致动器1206可以从生产线标记或移除异常或有缺陷的产品。在另一个示例中，如果控制系统1202检测到条形码或其他要放置在产品上的对象的存在，则致动器1106可以施加这些对象或移除它们。基于该分类，信号也可以被发送到传感器1204，例如，以聚焦或移动摄像机镜头。

图13描绘了控制系统1302的示意图，该控制系统1302被配置成控制具有至少部分自主模式的电动工具1300，诸如电钻或驱动器。控制系统1302可以被配置成控制致动器1306，该致动器1306被配置成控制电动工具1300。

电动工具1300的传感器1304可以是波能量传感器，诸如被配置成捕获工作表面和/或被驱动到工作表面中的紧固件的一个或多个属性的光学或声学传感器。控制系统1302可以被配置成根据一个或多个捕获的属性来确定工作表面和/或紧固件相对于工作表面的状态。

在该实施例中，控制系统1302将从传感器1304接收图像（例如，光学或声学）和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量

，控制系统1302可以使用图10中描述的方法来对从传感器1304接收的图像的每个像素进行分类，以便将工作表面或紧固件的图像分割成两个或更多个类别，或者检测工作表面或紧固件中的异常。基于这种分类，信号可以被发送到致动器1306，例如工具的压力或速度，或者如以上章节中所述由致动器1306执行的任何动作。基于这种分类，信号也可以被发送到传感器1304，例如，以聚焦或移动摄像机镜头。在另一个示例中，图像可以是来自动力工具1300的信号的时间序列图像，诸如压力、扭矩、每分钟转数、温度、电流等，其中动力工具是锤钻、钻、锤子（旋转或拆卸）、冲击式驱动器、往复锯、摆动多工具，并且动力工具是无线的抑或有线的。

图14描绘了被配置成控制自动化个人助理1401的控制系统1402的示意图。控制系统1402可被配置成控制致动器1406，致动器1406被配置成控制自动化个人助理1401。自动化个人助理1401可被配置成控制家用器具，例如洗衣机、炉子、烤箱、微波炉或洗碗机。

在该实施例中，控制系统1402将从传感器1404接收图像（例如，光学或声学）和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量

，控制系统1402可以使用图10中描述的方法来对从传感器1404接收的图像的每个像素进行分类，例如，对要操纵或操作的器具或其他对象的图像进行分割。基于这种分类，信号可被发送到致动器1406，例如，以控制自动化个人助理1401的移动部件与家用器具交互，或者如以上章节中所述的由致动器1406执行的任何动作。基于这种分类，信号也可以被发送到传感器1404，例如，以聚焦或移动摄像机镜头。

图15描绘了被配置成控制监测系统1500的控制系统1502的示意图。监视系统1500可以被配置成物理地控制通过门252的进入。传感器1504可以被配置成检测与决定是否准许进入相关的场景。传感器1504可以是被配置成生成和传输图像和/或视频数据的光学或声学传感器或传感器阵列。控制系统1502可以使用这样的数据来检测人脸。

监视系统1500也可以是监控系统。在这样的实施例中，传感器1504可以是波能传感器，诸如光学传感器、红外传感器、声学传感器，其被配置成检测处于监控下的场景，并且控制系统1502被配置成控制显示器1508。控制系统1502被配置成确定场景的分类，例如传感器1504检测到的场景是否可疑。扰动对象可以被用来检测某些类型的对象，以允许系统在非最佳条件下（例如，夜晚、雾、雨、干扰背景噪声等）识别这些对象。控制系统1502被配置成响应于该分类向显示器1508发送致动器控制命令。显示器1508可以被配置成响应于致动器控制命令来调整显示的内容。例如，显示器1508可以突出显示被控制器1502认为可疑的对象。

在该实施例中，控制系统1502将从传感器1504接收图像（光学或声学）和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量

，控制系统1502可以使用图10中描述的方法来对从传感器1504接收的图像的每个像素进行分类，以便例如检测场景中可疑或不期望的对象的存在，检测照明类型或观察条件，或者检测运动。基于这种分类，信号可以被发送到致动器1506，例如，锁定或解锁门或其他入口通道，以激活警报或其他信号，或者由致动器1506执行的任何动作，如以上章节中所述。基于这种分类，信号也可以被发送到传感器1504，例如，以聚焦或移动摄像机镜头。

图16描绘了控制系统1602的示意图，控制系统1602被配置成控制成像系统1600，例如MRI设备、x射线成像设备或超声设备。传感器1604例如可以是成像传感器或声学传感器阵列。控制系统1602可以被配置成确定全部或部分所感测图像的分类。控制系统1602可以被配置成响应于由经过训练的神经网络获得的分类来确定或选择致动器控制命令。例如，控制系统1602可以将所感测图像（光学或声学）的区域解释为是潜在异常的。在这种情况下，可以确定或选择致动器控制命令，以使显示器1606显示成像并突出显示潜在异常区域。

在该实施例中，控制系统1602将从传感器1604接收图像和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量

，控制系统1602可以使用图10中描述的方法来对从传感器1604接收的图像的每个像素进行分类。基于这种分类，信号可以被发送到致动器1606，例如，以检测图像的异常区域或如以上章节所述由致动器1606执行的任何动作。

具体实施本文描述的算法和/或方法的程序代码能够以各种不同的形式作为程序产品单独或共同分发。可以使用其上具有计算机可读程序指令的计算机可读存储介质来分发程序代码，用于使处理器执行一个或多个实施例的方面。本质上非暂时性的计算机可读存储介质可以包括以任何方法或技术实现的易失性和非易失性以及可移除和不可移除的有形介质，用于存储信息，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质还可以包括RAM、ROM、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、闪存或其他固态存储技术、便携式光盘只读存储器（CD-ROM）或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储装置，或者可以用于存储所期望的信息并且可以由计算机读取的任何其他介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一种类型的可编程数据处理设备或另一种装置，或者经由网络下载到外部计算机或外部存储装置。

存储在计算机可读介质中的计算机可读程序指令可用于指导计算机、其他类型的可编程数据处理设备或其他装置以特定方式发挥功能，使得存储在计算机可读介质中的指令产生包括实施流程图或图表中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中，根据一个或多个实施例，流程图和图中指定的功能、动作和/或操作可以被重新排序、串行处理和/或并发处理。此外，任何流程图和/或图可以包括比根据一个或多个实施例所示的更多或更少的节点或块。

虽然已经通过各种实施例的描述说明了本发明的全部，并且虽然已经相当详细地描述了这些实施例，但是申请人并不意图将所附权利要求的范围限制或以任何方式限定到这样的细节。对于本领域技术人员来说，附加的优点和修改将是清楚的。因此，本发明在其更广泛的方面不限于具体的细节、代表性的设备和方法以及所示出和描述的说明性示例。因此，在不脱离本发明总体构思的精神或范围的情况下，可以偏离这些细节。