CN112655004A

CN112655004A - 用于异常检测和/或预测性维护的计算机实现的方法、计算机程序产品以及系统

Info

Publication number: CN112655004A
Application number: CN201980058094.9A
Authority: CN
Inventors: 里卡德·舍格伦; 约翰·特利格
Original assignee: Sedolistim Data Analysis Co
Current assignee: Sedolistim Data Analysis Co
Priority date: 2018-09-05
Filing date: 2019-09-05
Publication date: 2021-04-13
Anticipated expiration: 2039-09-05
Also published as: EP3620983A1; EP3847586A1; EP4290412A2; EP3620986A1; EP4290412A3; CN112655004B; JP2022500745A; JP7187681B2; JP7223839B2; EP3620983B1; CN112639834A; WO2020049087A1; WO2020049094A1; US20210334656A1; WO2020049098A1; US20210350113A1; CN112655003A; JP2022500744A

Abstract

提供了一种用于异常检测和/或预测性维护的计算机实现的方法和相应的系统。该方法包括：接收新观测值，该新观测值表征实体的至少一个参数；将新观测值输入到深度神经网络(100)，该深度神经网络具有多个隐藏层并且使用训练数据集进行训练，该训练数据集包括可能的观测值；获得通过将接收到的新观测值输入深度神经网络而从深度神经网络的多个隐藏层中的至少一个输出的第二中间输出值集；使用存储在存储介质中的潜变量模型来将第二中间输出值集映射到第二投影值集；基于潜变量模型和第二投影值集来确定接收到的新观测值相对于训练数据集是否为异常值，通过深度神经网络来计算针对新观测值的预测；以及基于预测和新观测值是否为异常值的确定来确定指示实体中的至少一个异常的出现的结果。通过以下操作来构建存储在存储介质中的潜变量模型：获得从深度神经网络的多个隐藏层中的所述一个输出的第一中间输出值集，通过输入训练数据集的至少一部分中包括的可能观测值中的不同一者来获得第一中间输出值集中的每一个；以及使用第一中间输出值集来构建潜变量模型，潜变量模型提供第一中间输出值集到潜变量模型的子空间中的第一投影值集的映射，该子空间具有低于输出值集的维度的维度。

Description

用于异常检测和/或预测性维护的计算机实现的方法、计算机程序产品以及系统

技术领域

本申请涉及用于异常检测和/或预测性维护，具体地，在结构化或非结构化数据中使用异常值检测的一种计算机实现的方法、一种计算机程序产品以及一种系统。

背景技术

诸如用于预测性维护、网络安全、诈骗预防等的各种系统中的异常检测变得越来越普遍。在此类系统中，重要的是可靠地且及时地检测可能会破坏系统的适当运行的异常。

预测性维护技术例如旨在自动地确定一件设备(例如机器或机器部件)何时需要维护以避免失灵。与例行维护或基于时间的维护相比，通过自动地估计设备的退化，可以实现显著的成本节约。相比之下，通过按固定的计划表安排，存在比必要更早地执行维护的风险，从而导致过多的费用。还存在设备比预期更早出故障的风险，从而可能导致灾难性故障或过程停止。

预测性分析方法可以广泛地分成两种不同的方法。首先，所谓的无监督式建模/机器学习可以用来在不需要任何外部标签的情况下对所调查的系统的正常状态进行建模。无监督式建模可以回答问题：“设备是否正常运行？”，但不提供用于调查系统的进一步线索。另一更广泛地应用的方法是使用监督式建模/机器学习。在典型的情况下，已经收集了历史数据，并且在过去发生的故障已经被领域专家调查过并分类为故障类型和可能地采取来校正故障的动作。然后训练预测性模型来预测何时将出现哪种类型的故障，以提供关于如何校正系统的更多指导。在后一种情况下，可以使用基于人工神经网络的模型来预测何时需要维护。

人工神经网络模型已经在许多应用中用于预测性维护。非详尽的列表包括：

-使用神经网络模型以基于测量到的物理参数来对物理系统的状态进行分类，即，根据预定的操作状态(诸如良好；差；未确定)来对系统进行分类(参见参考文献1至4)。具体的示例系统包括：

○燃煤工厂(参见例如参考文献5)；

○拉模铸造(参见例如参考文献6)；

○用于电动车的电池制造(参见例如参考文献7)；

○油气地面设备(参见例如参考文献8)；

○电动马达(参见例如参考文献9)；

○使用递归神经网络的铁路车辆维护(参见例如参考文献10)；

○工业厂房中的控制阀(参见例如参考文献11)；

-使用神经网络以预测设备的剩余使用寿命(参见例如参考文献12、13)。具体的示例系统包括：

○基于振动的铣床刀头(参见例如参考文献14)；

使用神经网络模型作为制造工厂中的污染物的软传感器以确定污染物是否在所确定的极限内(参见例如参考文献15)；

使用神经网络模型尤其作为示例方法以对系统状态进行分类(参见例如参考文献16至20)；

其他示例包括但不限于：

基于振动监测的轴承的剩余寿命预测(参见例如参考文献21)；

使用包括神经网络的三种统计回归方法的水力发电机组的故障预测(参见例如参考文献22)；

剩余轴承寿命的预测(参见例如参考文献23至25)；

基于运动电流特征的马达负载的分类(参见例如参考文献26)；

风力涡轮机中的齿轮箱轴承的早期故障检测(参见例如参考文献27、28)；

基于使用红外热成像法来检测电气设备中的热缺陷(参见例如参考文献29)；

基于振动和声音信号的对由电动马达驱动的涡轮的故障分类(参见例如参考文献30)；

基于负载的分布、速度和偏航角的对车轮和轨道磨损的预测(参见例如参考文献31)；

预测用于聚光太阳能工厂中的管缺陷检测的吸收器管温度(参见例如参考文献32)。

用于异常检测的神经网络的其他应用包括例如检测网络安全威胁，诸如网络入侵或其他类型的恶意攻击。例如，可以通过使用机器学习技术来对网络流量进行建模。因此，可以检测到指示恶意动作和/或行动者的流量模式的微妙变化并分类为入侵。另一示例是用于检测诈骗、可疑模式或金融交易的某些趋势。例如，使用历史数据，可以训练基于机器学习的分类器以对交易或行动者进行分类(例如，诈骗性或值得信任)或识别趋势。

以上应用的共同之处在于，使用累积的数据(例如，历史数据)来表征系统以及使用机器学习模型来区分正常行为和已知类型的异常。机器学习模型可以是深度学习模型。由于深度神经网络学习到的强大转换，使用深度神经网络的深度学习在很多应用中已经变得非常普遍。深度神经网络可以是具有输入层、输出层以及在输出层与输出层之间的多个隐藏层的人工神经网络。使用深度神经网络的深度学习模型的应用的长列表表明此类模型可以在广泛范围的应用中成功地用于监督式预测性维护和异常检测。然而，包括深度学习和神经网络在内的所有数据驱动的建模的一个问题在于，它们无法处理与在模型训练期间遇到的观测值不同的观测值。换句话说，它们在预测期间无法处理异常值。异常值(异常观测值)可以是与用来训练模型的数据明显不同的观测值。由于异常值明显不同于模型之前遇到的那些，因此在此类情况下，模型行为是未定义的或者无法信任预测。由于在检测到异常值时的模型行为是未定义的，因此可能检测不到先前未知类型的错误。

然而，当在诸如自主汽车、诊断应用、发电厂控制系统等关键系统中采用深度学习时，标记未知类型的异常值可能也是至关重要的。此外，可能重要的是，理解何时应不信任由深度学习系统提供的预测。换句话说，可能重要的是，不仅知道由深度学习系统提供的预测是否准确，而且知道深度学习系统究竟是否应预测。可以通过理解所学习的表示的极限并且通过辨识何时遇到深度学习系统未辨识出的数据或新类型的数据来改进自主决策。

已经提出许多不同的方法以允许深度神经网络描述预测的不确定性。这些方法中有许多都是基于训练深度神经网络以在预测期间执行贝叶斯推断而不是点推断。这意味着，网络被训练来预测可能的点的分布，而不是预测单个点。直觉上，模型无法解释的观测值将具有广泛的分布或较大不确定性。用于执行贝叶斯预测的一个普遍的解决方案是在2016年国际机器学习会议第1050至1059页的Y.Gal和Z.Gharamani的“Dropout as aBayesian approximation:Representing model uncertainty in deep learning”中公开的所谓蒙特-卡罗丢弃法(MC-丢弃法)。MC-丢弃法可以应用于使用“丢弃法”训练的神经网络，所述丢弃法是用于通过在训练阶段期间丢弃(或换句话说，忽略)神经网络中的一些单元(例如，神经元、节点)来减少神经网络中的过度拟合的正则化技术。MC-丢弃法通过对预测使用所谓的蒙特-卡罗采样而同时在预测时间期间随机地消除或丢弃网络神经元来针对每次预测进行多次推断。不同的预测因丢弃法而改变并描述预测分布。然后可以通过计算得到的分布的熵或方差来量化预测不确定性。

用于使用丢弃法来产生蒙特-卡罗样本的一种方法包括：基于批归一化参数的采样(M.Teye、H.Azizpour和K.Smith，“Bayesian Uncertainty Estimation for BatchNormalized Deep Networks”，ArXiv180206455统计，2018年2月)；来自集合中的不同模型的预测(B.Lakshminarayanan、A.Pritzel和C.Blundell，“Simple and scalablepredictive uncertainty estimation using deep ensembles”，见于神经信息处理系统的进展，2017年，第6405至6416页)；共享基础网络中的多个“预测头”(I.Osband、C.Blundell、A.Pritzel和B.Van Roy，“Deep exploration via bootstrapped DQN”，见于神经信息处理系统的进展，2016年，第4026至4034页；E.Ilg等人，“Uncertainty Estimatesfor Optical Flow with Multi-Hypotheses Networks”，ArXiv180207095Cs，2018年2月)；权重分布而不是正则点权重的变分推断(C.Blundell、J.Cornebise、K.Kavukcuoglu和D.Wierstra，“Weight uncertainty in neural networks”，ArXivPrepr.ArXiv150505424，2015年)；以及根据现有权重的分布的拉普拉斯近似(H.Ritter、A.Botev和D.Barber，“A Scalable Laplace Approximation for Neural Networks”，2018年2月)。

然而，这些方法对使用哪种类型的模型进行了假设并且可能会约束构建或训练网络的方式和/或依赖于每次预测进行多个推断。这可能会限制它们对于其中进行多个推断是不切实际的实时系统和/或对于不符合约束条件的现有系统的普遍适用性。

参考文献列表：

参考文献1：US 2019/0137985 A1；

参考文献2：EP 0633536 A1；

参考文献3：US 5566092 A；

参考文献4：JP 5643387 B2；

参考文献5：CN 109255440 A；

参考文献6：KR 101677358 B1；

参考文献7：CN 106168799 B；

参考文献8：US 8676721 B2；

参考文献9：CN 108921303 A；

参考文献10：EP 3179326 A1；

参考文献11：US 2016/0071004 A1；

参考文献12：DE 10161633 A1；

参考文献13：US 7457785 B1；

参考文献14：US 8781982 B1；

参考文献15：EP 0712509 B1；

参考文献16：EP 2871803 B1；

参考文献17：US 8275642 B2；

参考文献18：FR 2698704 A1；

参考文献19：US 6298308 B1；

参考文献20：JP 5043839 B2；

参考文献21：Wu S、Gebraeel N、Lawley MA、Yih Y.，A Neural NetworkIntegrated Decision Support System for Condition-Based Optimal PredictiveMaintenance Policy，IEEE Trans Syst Man Cybern-Part Syst Hum.，2007年3月；37(2)：226至36；

参考文献22：Lucifredi A、Mazzieri C、Rossi M.，APPLICATION OFMULTIREGRESSIVE LINEAR MODELS,DYNAMIC KRIGING MODELS AND NEURAL NETWORKMODELS TO PREDICTIVE MAINTENANCE OF HYDROELECTRIC POWER SYSTEMS.，Mech SystSignal Process.，2000年5月1日；14(3)：471至94；

参考文献23：Huang R、Xi L、Li X、Richard Liu C、Qiu H、Lee J.，Residual lifepredictions for ball bearings based on self-organizing map and backpropagation neural network methods.，Mech Syst Signal Process.，2007年1月1日；21(1)：193至207；

参考文献24：Shao Y、Nezu K.，Prognosis of remaining bearing life usingneural networks.，Proc Inst Mech Eng Part J Syst Control Eng.，2000年5月1日；214(3)：217至30。

参考文献25：Vachtsevanos G、Wang P.，Fault prognosis using dynamicwavelet neural networks.，见于：2001 IEEE Autotestcon Proceedings IEEE SystemsReadiness Technology Conference(Cat No01CH37237)，2001年，第857至70页；

参考文献26：Bansal D、Evans DJ、Jones B.，A real-time predictivemaintenance system for machine systems.，Int J Mach Tools Manuf.，2004年6月1日；44(7)：759至66。

参考文献27：Bangalore P、Letzgus S、Karlsson D、Patriksson M.，Anartificial neural network-based condition monitoring method for windturbines,with application to the monitoring of the gearbox.，Wind Energy.，2017年；20(8)：1421至38；

参考文献28：Bangalore P、Tjernberg LB.，An Artificial Neural NetworkApproach for Early Fault Detection of Gearbox Bearings.，IEEE Trans SmartGrid.，2015年3月；6(2)：980至7；

参考文献29：Huda ASN、Taib S.，Application of infrared thermography forpredictive/preventive maintenance of thermal defect in electrical equipment.，Appl Therm Eng.，2013年11月3日；61(2)：220至7；

参考文献30：Waqar T、Demetgul M.，Thermal analysis MLP neural networkbased fault diagnosis on worm gears.，Measurement.，2016年5月1日；86：56至66；

参考文献31：Shebani A、Iwnicki S.，Prediction of wheel and rail wearunder different contact conditions using artificial neural networks.，Wear.，2018年7月15日；406至407：173至84；

参考文献32：Jim é nez AA、

CQG、Marquez FPG、Zhang L.，ArtificialIntelligence for Concentrated Solar Plant Maintenance Management.，见于：Xu J、Hajiyev A、Nickel S、Gen M编辑，Proceedings of the Tenth InternationalConference on Management Science and Engineering Management.，新加坡施普林格；2017年，第125至34页，(Advances in Intelligent Systems and Computing)；

参考文献33：Saxena A、Goebel K、Simon D、Eklund N.，Damage propagationmodeling for aircraft engine run-to-failure simulation.，见于：2008International Conference on Prognostics and Health Management.，2008年，第1至9页；

参考文献34：Gers FA、Schmidhuber J、Cummins F.，Learning to Forget:Continual Prediction with LSTM.Neural Comput.，1999年；12：2451至2471；

参考文献35：Hochreiter S、Schmidhuber J.，Long short-term memory.，NeuralComput.，1997年；9(8)：1735至1780；

参考文献36：Kingma DP、Ba J.Adam：A Method for StochasticOptimization.ArXiv14126980Cs[互联网]，2014年12月22日[2018年7月3日引用]；可得自：http://arxiv.org/abs/1412.6980。

发明内容

本申请解决了上述问题中的一个或多个。因此，根据一方面，问题涉及一种改进的方法和一种用于异常检测和/或预测性维护的系统，所述方法和系统不仅可以处理已知类型的事件而且可以处理先前未知类型的事件。另一问题是针对输入到深度神经网络的观测值来有效地评估由深度神经网络给出的预测的可靠性。

通过独立权利要求所公开的特征解决该问题。此外，示例性实施例由从属权利要求限定。

根据一方面，提供了一种用于感兴趣的实体(例如，所监测的实体)中的异常检测的计算机实现的方法。

该方法包括：

接收新观测值，所述新观测值表征实体的至少一个参数；

将新观测值输入到深度神经网络，该深度神经网络具有多个隐藏层并且使用训练数据集进行训练，该训练数据集包括可以输入到深度神经网络的可能观测值；

获得通过将接收到的新观测值输入深度神经网络而从深度神经网络的多个隐藏层中的至少一个输出的第二中间输出值集；

使用存储在存储介质中的潜变量模型来将第二中间输出值集映射到第二投影值集；

基于潜变量模型和第二投影值集来确定接收到的新观测值相对于训练数据集是否为异常值，

其中通过以下操作来构建存储在存储介质中的潜变量模型：

获得从深度神经网络的多个隐藏层中的所述一个输出的第一中间输出值集，通过输入训练数据集的至少一部分中包括的可能观测值中的不同一者来获得第一中间输出值集中的每一个；以及

使用第一中间输出值集来构建潜变量模型，该潜变量模型提供第一中间输出值集到潜变量模型的子空间中的第一投影值集的映射，该子空间具有低于输出值集的维度的维度。

根据另一方面，提供了一种用于感兴趣的实体中的异常检测的计算机实现的方法。该方法包括：

获得深度神经网络和用于训练深度神经网络的训练数据集的至少一部分，该深度神经网络包括多个隐藏层并通过使用训练数据集进行训练，训练数据集包括可以输入到深度神经网络的多个可能观测值；

获得从多个隐藏层中的至少一个输出的第一中间输出值集，通过输入训练数据集的所述至少一部分中包括的可能观测值中的不同一者来获得第一中间输出值集中的每一个；

使用第一中间输出值集来构建(即，拟合)潜变量模型，该潜变量模型提供第一中间输出值集到潜变量模型的子空间中的第一投影值集的映射，该子空间具有低于输出值集的维度的维度；

接收要输入到深度神经网络的新观测值；

获得通过将接收到的新观测值输入深度神经网络而从深度神经网络的多个隐藏层中的所述至少一个输出的第二中间输出值集；

使用潜变量模型来将第二中间输出值集映射到第二投影值集；

基于潜变量模型和第二投影值集确定接收到的观测值相对于训练数据集是否为异常值。

当接收到的观测值被确定为异常值时，可以假设由深度神经网络针对接收到的观测值给出的预测(例如，输出)是新类型的异常和/或预测不如在接收到的观测值被确定为非异常值的情况下可靠。因此，根据以上方面中的任一个的方法还可以包括：

通过深度神经网络来计算针对新观测值的预测；以及

基于预测和新观测值是否为异常值的确定来确定指示实体中的至少一个异常的出现的结果。

根据又一方面，提供了一种用于感兴趣的实中的预测性维护的计算机实现的方法。该方法包括：

基于来自在所观测的实体上执行的至少一次传感器测量的传感器数据来获得新观测值；

根据本文所述的各种方面、示例和实施例的方法来确定指示实体中的至少一个异常的出现的结果；

基于指示至少一个异常的出现的结果来确定是否应采取校正动作和任选地要采取的校正动作的类型。

感兴趣的实体可以是任何类型的实体，例如一件设备(诸如机器或机器部件)或者包括多件设备的更复杂的技术系统。所观测的实体的非限制性示例是生物反应器、发酵罐、发电厂、工业厂房、车辆、油、气、太阳能或风能设备、马达、电池、控制阀、传动装置等。所观测的实体还可以是计算机或计算机系统，诸如计算机网络，例如支持金融交易的计算机系统/网络。

异常可以是与感兴趣的实体的正常操作和/或状态的任何偏差。例如，异常可以涉及传感器数据、网络流量的量和/或模式、用户行为和/或生物性质等的偏差。

观测值可以是表征或指示所观测的实体的至少一个参数的任何数据。例如，数据可以是通过一个或多个传感器测量一件或多件设备的性质的状态而获得的数据、表征网络流量的数据(例如，在网络上的不同计算机之间传送的数据包的日志)、其他交易数据(诸如与金融交易相关)等。测量可以是周期性的或基本上连续的，例如实时测量。还可能的是，作为某一动作(例如，用户与计算机的交互)的结果而开始测量。数据还可以基于不同输入信息(例如，来自不同传感器的测量值)的组合或融合。

由深度神经网络计算的预测可以包括是否检测到或可能出现异常的预测。任选地，如果确定检测到或可能出现异常，则预测可以包括检测到或可能出现的异常的类型。

预测可以涉及或包括指示感兴趣的实体的状态或条件的一个或多个参数。一个或多个参数可以包括物理参数(诸如温度、速度等)、剩余寿命时间、磨损、至少一件设备的故障或失灵概率、污染或其他不期望的状况的水平、欺诈或攻击的概率等。

预测还可以涉及或包括根据预定操作条件或标准对感兴趣的实体的状态或条件的分类，诸如良好、差、未确定；安全、不安全、易受攻击；值得信任、欺诈性等。

基于针对新观测值的预测和新观测值是否为异常值的确定结果，确定或生成指示实体中的至少一个异常的出现的结果。如果例如确定新观测值不是异常值，那么可以接受预测并且作为指示至少一个异常的出现的结果(简称为异常检测结果)输出。还可能使接受的预测经受进一步处理，以便确定异常检测结果。基于异常检测结果，可以开始进一步动作(诸如校正动作)。进一步动作可以取决于具体应用。例如，在预测性管理的情况下，可以确定是否需要校正维护动作以及任选地取决于预测/异常检测结果的类型需要哪种类型的校正维护动作。在网络安全或交易安全应用的情况下，可以阻止计算机、用户、账户等或者可以采取其他预防动作，具体取决于应用和预测/异常检测结果的类型。

如果例如预测/异常检测结果指示没有异常，或者如果检测到不被视为对所观测的装置或系统的正常操作、完整性或安全性的威胁的某些类型的异常，则进一步动作可以是继续系统的操作和/或监测、授予对用户、计算机、服务器等的访问、允许用户、计算机、服务器等开始和/或完成交易等。如果预测/异常检测结果指示存在异常，则可以采取校正动作，诸如校正维护动作、拒绝或限制对实体的访问等。校正动作可以取决于如由预测给出的检测到的异常的类型，其中校正动作的性质可以取决于具体应用。校正动作可以例如包括安排校正维护动作、改变与感兴趣的实体相关的至少一个控制参数、关闭感兴趣的实体或其中包括的至少一件设备、拒绝用于或对感兴趣的实体(例如，特定计算机、用户、服务器等)的访问。至少一个进一步动作还可以包括显示与所观测的系统的状态或条件相关的信息、发布警告等。至少一个进一步动作可以自动地确定和和/或开始，或者可以要求人工干预或来自用户的进一步输入。

如果新观测值被确定为异常值，则异常检测结果可以包括新观测值与新的或未知类型的异常相关。异常检测结果还可以包括对用户的警告，以在继续或丢弃异常值之前手动地分析异常值。如果例如异常观测值被推断为由监测系统中的故障(例如，监测设备的失灵传感器)触发，则系统操作者可以安排通过例如更换失灵传感器来校正监测系统本身。异常观测值还可能是因为历史数据中未观测到的罕见或新异常，例如，以新或罕见方式的设备失灵、执行计算机网络入侵的新方式或者执行欺诈性交易的新类型。在这种情况下，在进一步调查(例如，手动调查)之后可以向异常观测值分配新类型的异常类别，该新类型的异常类别然后可以用来在将来的监测中训练包括新异常类型的更新的异常检测模型。

在本文所述的各种实施例和示例中，可以通过在模型训练之后向深度神经网络给予检测异常值的能力来将监督式预测性维护的性能与无监督式建模相结合。使用这种方法，深度神经网络可以用来对异常和故障类型进行分类而同时还具有定义的行为，甚至在先前未知的异常或故障类型的情况下也是如此。

在本文所述的各种实施例和示例中，要由深度神经网络处理的数据可以是结构化或非结构化数据。非结构化数据可以被理解为没有预定义数据模型或没有按预定义方式组织的数据。非结构化数据可以具有内部结构，但没有经由预定义数据模型或模式进行结构化。非结构化数据的示例可以包括，但不限于，图像、音频、视频、传感器数据和文本。数据可以是原始数据(未经处理的数据)或者可以是已经经受一些处理的数据，诸如正则化、去噪、编码、对比增强、边缘增强、颜色或频率转换、调整大小、修剪和/或其他已知的数据处理操作。

在一些具体示例中，要由深度神经网络处理的数据可以是从一个或多个传感器(诸如温度传感器、加速度传感器、压力传感器、应变计、力传感器、麦克风、图像传感器等)获得的传感器数据(例如，温度、压力、电流、磁通量等)。测试数据集中所包括的可能观测值中的每一个和接收到的观测值可以包含由一个或多个传感器在某一时间点或一段时间内获得的传感器数据。

传感器还可以是所谓的软传感器，其中基于物理测量来间接地计算设备的状态。示例性软传感器包括卡尔曼滤波器、速度估计器、产品质量(例如，食品质量)的估计器等。传感器还可以收集呈音频或图像形式的非结构化数据。数据还可以是表征网络流量(例如，在网络上的不同计算机之间传送的数据包的日志)的数据或其他交易数据，诸如与金融交易相关的数据。

在本公开中，图像可以包括2D像素阵列。像素中的每一个可以包括至少一个值。例如，灰度图像中的像素可以包括指示像素的强度的一个值。彩色图像中的像素可以包括指示诸如RGB颜色空间的颜色空间中的坐标的多个值，例如，三个值。像素还可以包括不同成像模式的组合，例如来自两个不同的成像设备(诸如相称成像和荧光成像)的一个或多个强度值的组合。在图像被深度神经网络处理的情况下，测试数据集中所包括的观测值中的每一个和接收到的观测值可以包含图像。

在本公开中，术语“深度神经网络”可以被理解为具有具有输入层、输出层以及设置在输出层与输出层之间的多个隐藏层的人工神经网络。神经网络的隐藏层还可以被称为“中间层”。因此，来自隐藏层的输出可以被称为“中间输出”。此外，来自隐藏层的输出可以包括多个值，每一个值对应于隐藏层中所包括的节点。因此，如本文所使用的术语“中间输出值集”可以指示隐藏层的输出，包括从隐藏层的相应节点输出的多个值。

所采用的深度神经网络的类型并不特别地受限。在一些示例中，本公开中的“深度神经网络”可以是具有多个隐藏层的前馈神经网络。在前馈神经网络中，节点之间的连接没有形成循环。前馈深度神经网络的具体示例可以是通常应用来分析视觉图像的卷积神经网络(CNN)。

在一些其他示例中，本公开中的“深度神经网络”可以是递归神经网络，其中节点之间的连接沿着一定序列形成有向图。递归深度神经网络的具体示例可以是可以处理序列数据的长短期记忆(LSTM)。

其他示例性深度神经网络是循环神经网络和变换器神经网络。

在本公开中，术语“潜变量模型”可以是将一组可观测的变量与一组潜变量相关或映射的统计模型。在本文所述的各种实施例和示例中，(第一或第二)“中间输出值集”可以被认为是用于潜变量模型的可观测变量集。此外，在本文所述的各种实施例和示例中，“投影值集”可以被认为是用于潜变量模型的潜变量集。

在一些示例中，在根据上述方面的方法中，可以根据主成分分析来构建或拟合潜变量模型。

在本公开中，术语“主成分分析”(也被称为PCA)可以被理解为指示使用正交变换将可能相关的变量的观测值集转换为被称为主成分的线性不相关变量的值集的统计过程。

PCA的变体包括但不限于：稀疏PCA(Jenatton R.、Obozinski G.和Bach F.(2010年3月)，Structured sparse principal component analysis.，见于第十三届国际人工智能和统计会议的会议录(第366至373页))。PCA的替代方案包括但不限于：随机投影(Dasgupta S.(2000年6月)，利用随机投影的实验，见于第十六届人工智能的不确定性会议的会议录(第143至151页)摩根考夫曼出版公司)；稀疏随机投影(Achlioptas D.(2003年)，数据库友好型随机投影：Johnson-Lindenstrauss with binary coins.，Journal ofComputer and System Sciences，66(4)，671至687.)；极稀疏随机投影(Li P.、HastieT.J.和Church K.W.(2006年8月)，极稀疏随机投影，见于第12届ACM SIGKDD国际知识发现和数据挖掘会议的会议录(第287至296页)，ACM)；以及自组织映射(Kohonen T.(1998年)，自组织映射，Neurocomputing，21(1-3)，1-6)。

在一些其他示例中，在根据上述方面的方法中，可以使用自动编码器来构建或拟合潜变量模型。“自动编码器”可以是用来以无监督方式学习有效数据编码的一种类型的人工神经网络。自动编码器的一种型式可以是具有输入层、输出层以及将它们相连接的一个或多个隐藏层的前馈非递归神经网络，其中输出层具有与输入层相同数量的节点，并且目的是重新构建其自己的输入。不同类型的自动编码器包括但不限于变分自动编码器(Kingma D.P.和Welling M.(2013年)，自动编码变分贝叶斯，arXiv preprint arXiv:1312.6114.)；以及稀疏自动编码器(Makhzani A.和Frey B.(2013年)，K-稀疏自动编码器，arXiv preprint arXiv:1312.5663.)。

使用潜变量模型，可以确定新观测值到潜变量模型(或换句话说距潜变量近似)的距离。基于确定的距离，可以进行关于新观测值是否为异常值的确定。关于接收到的新观测值是否为异常值的确定可以例如包括确定新观测值到潜变量模型的距离是否大于阈值距离。如果新观测值的计算的距离大于阈值距离，则可以确定新观测值是异常值。

通过使用潜变量模型计算训练数据集的至少一部分的观测值中的每一个到潜变量模型的距离并基于确定的距离确定阈值距离来确定阈值距离。因此，根据以上方面中的任一个的方法还可以包括基于多个距离来确定阈值距离，该多个距离中的每一个是相对于第一投影值集的分布而针对第一投影值集中的不同一者计算的。

此外，在根据上述方面的方法中，确定接收到的观测值是否为异常值的所述步骤可以包括：

相对于第一投影值集的分布来计算第二投影值集的距离；以及

如果计算的距离大于距离的阈值，则确定接收到的观测值相对于训练数据集是异常值。

可以基于距离来确定距离的阈值，该距离中的每一个可以相对于第一投影值集的分布而针对第一投影值集中的不同一者来计算。

距离度量可以是适于将来自潜变量近似(即，第一投影值集)的距离量化的任何距离度量。例如，距离可以是残差平方和(RSS)、马氏距离、局部异常因子或LOF(参见例如M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander，“LOF:Identifying Density-basedLocal Outliers”，2000年ACM SIGMOD国际数据管理会议的会议录，纽约，NY，USA，2000年，第93至104页)。距离也可以是基于通过将所描述的距离中的两个或更多个组合而形成的综合距离度量的综合距离。

所确定的距离可以特别地是马氏距离。在本公开中，术语“马氏距离”可以被理解为指示点P(例如，对应于观测值)与分布D之间的距离的已知测量。更具体地，“马氏距离”测量观测值距多维概率分布中的原点有多少个标准偏差。

所确定的距离可以是残差平方和(RSS)。例如，在根据上述方面的方法中，确定接收到的观测值是否为异常值的所述步骤可以包括：

使用潜变量模型和第二投影值集来确定与第二中间输出值集相对应的中间输出值的近似集；

计算第二中间输出值集和中间输出值的近似集的平方近似残差；以及

如果计算的平方近似残差大于平方近似残差的阈值，则确定接收到的新观测值相对于训练数据集是异常值。

可以基于平方近似残差来确定平方近似残差的阈值，平方近似残差中的每一个可以是针对第一中间输出值集中的不同一者和与第一中间输出值集中的所述一者相对应的中间输出值的近似集计算的。

在本公开中，术语“平方近似残差”可以被理解为指示残差的平方和，其中残差是所观测的值与由潜变量模型提供的近似值之间的差值。

此外，在根据上述方面的方法中，可以针对多个隐藏层中的两个或更多个来执行获得第一中间输出值集和构建潜变量模型的步骤；

其中可以关于多个隐藏层中的所述两个或更多个来执行获得第二中间输出值集和将第二中间输出值集映射到第二投影值集的步骤；并且

其中可以基于潜变量模型以及关于多个隐藏层中的所述两个或更多个获得的第二投影值集来执行确定接收到的新观测值是否为异常值的步骤。

另外，在根据上述方面的方法中，获得从深度神经网络的多个隐藏层中的至少一个输出的中间输出值的步骤可以包括确定来自多个隐藏层中的所述至少一个的激活值和任选地在确定的激活值上应用全局池化。激活值可以是例如激活向量的形式。

来自给定的深度神经网络的层i(i＝1、2、3、……)的特定观测值x的激活向量a_i(或激活值)可以对应于来自层i的中间输出，并且当观测值输入到给定的网络时，可以包括具有对应于来自层i的相应节点的输出的值的成分。深度神经网络的各种层上的激活值或激活向量中的每一个可以提供输入数据(即，输入观测值)的特征表示。换句话说，激活值可以提供在深度神经网络的各种层处的输入数据的经变换或预处理的表示。

特别地，基于训练数据集的观测值来获得从深度神经网络的多个隐藏层中的至少一个输出的第一中间输出值的步骤可以包括确定来自多个隐藏层中的所述至少一个的所述观测值的激活值和任选地在确定的激活值上应用全局池化。类似地，基于新观测值来获得从深度神经网络的多个隐藏层中的至少一个输出的第二中间输出值的步骤可以包括确定来自多个隐藏层中的所述至少一个的新观测值的激活值和任选地在确定的激活值上应用全局池化。全局池化可以是全局平均池化。

例如，如果激活值来自特征图，那么可以在每个特征图上应用全局池化(例如，全局平均池化)。随后可以在(任选地池化的)激活值上，即，在(任选地池化的)训练集激活值和针对输入到深度神经网络的新观测值计算的(任选地池化的)激活值上，构建或拟合潜变量模型。

全局平均池化(GPA)是指将网络激活值的特征图表示变换为向量表示的过程(参见例如Lin Min、Qiang Chen和Shuicheng Yan，“Network in network”，arXiv preprintarXiv:1312.4400(2013年))。这个步骤丢弃了其中每个元素对应于特定特征图的平均激活值的向量的空间信息。例如，对卷积神经网络中的特定隐藏层，图像x的激活值被可以具有维度w×h×c的特征图A丢弃，其中h是特征图的像素高度，w是特征图的像素宽度并且c是当前隐藏层中的特征图的数量。A的特征图k∈[1，c]的全局平均池化便由下式给出：

或

例如：

图像x的全局平均池化的特征图A的向量然后由下式给出：

GAP(A)＝[GAP₁(A)，GAP₂(A)，...，GAP_c(A)]

以上等式也可以应用于其他类型的观测值。

此外，根据以上方面中的任一个的方法可以包括使用训练数据集来训练深度神经网络或微调经训练的深度神经网络。

可以使用例如受试者操作特性曲线下面积(ROC-AUC)度量来评估根据上述方面的方法可以区分异常值和非异常值的程度。例如，当计算马氏距离和/或平方近似残差和/或其他距离度量以用于确定接收到的观测值是否为异常值时，可以通过比较马氏距离和/或平方近似残差和/或其他距离度量将异常值与非异常值分离的程度来计算ROC曲线。可以用来评估方法的其他度量包括但不限于：(1)精确度，其为实际上是异常值的观测值被系统识别为异常值的分数；(2)召回率，其为被系统成功地识别为异常值的所有异常值的分数；(3)F1-得分，其为精确度和召回率的调和平均数；以及(4)准确率，其为所有识别中的由系统进行的正确识别的分数。

根据又一个方面，提供了一种计算机程序产品。该计算机程序产品包括计算机可读指令，所述计算机可读指令在加载在计算机上并运行时致使计算机执行根据上述方面中的任一个的方法。

根据又一个方面，提供了一种用于异常检测和/或预测性维护的数据分析的系统。该系统包括：

数据获取单元，该数据获取单元用于获得表征感兴趣的实体(所观测的实体)的参数的至少一个观测值；

存储介质，该存储介质存储用于训练深度神经网络的训练数据集，该深度神经网络包括多个隐藏层，该训练数据集包括可以输入到深度神经网络的可能观测值；以及

预测性分析单元(预测性分析部件)，该预测性分析单元包括被配置为执行根据上述方面和示例中的任一个的方法的至少一个处理器。

例如，处理器可以被配置为：

获得使用训练数据集训练的深度神经网络；

获得存储在存储介质中的训练数据集的至少一部分；

获得从多个隐藏层中的至少一个输出的第一中间输出值集，通过输入训练数据集的至少一部分中包括的可能观测值中的不同一者来获得第一中间输出值集中的每一个；

使用第一中间输出值集来构建/拟合潜变量模型，该潜变量模型提供第一中间输出值集到子空间中的第一投影值集的映射，该子空间具有低于输出值集的维度的维度；

接收要输入到深度神经网络的新观测值；

获得通过将接收到的新观测值输入深度神经网络而从多个隐藏层中的所述至少一个输出的第二中间输出值集；

使用潜变量模型来将第二中间输出值集映射到第二投影值集；以及

基于潜变量模型和第二投影值集来确定接收到的新观测值相对于训练数据集是否为异常值。

至少一个处理器还可以被配置为：

通过深度神经网络来计算针对新观测值的预测；以及

在根据上述方面的系统中，可以根据主成分分析或使用自动编码器来构建潜变量模型。

在根据上述方面的系统中，为了确定接收到的观测值是否为异常值，处理器还可以被配置为：

如果计算的距离大于距离的阈值，则确定接收到的新观测值相对于训练数据集是异常值。

如上所述，距离可以是马氏距离、残差平方和、局部异常因子、综合距离或任何其他合适的距离测量。

例如，在根据上述方面的系统中，为了确定接收到的新观测值是否为异常值，至少一个处理器还可以被配置为：

在根据上述方面的系统中，至少一个处理器还可以被配置为：

针对多个隐藏层中的两个或更多个来执行获得第一中间输出值集和构建潜变量模型的步骤；

关于多个隐藏层中的所述两个或更多个来执行获得第二中间输出值集和将第二中间输出值集映射到第二投影值集的步骤；以及

基于潜变量模型以及关于多个隐藏层中的两个或更多个获得的第二投影值集来执行确定接收到的观测值是否为异常值的步骤。

此外，在根据上述方面的系统中，至少一个处理器还可以被配置为确定来自多个隐藏层中的至少一个的激活值并且任选地在确定的激活值上应用全局池化。因此，(任选地池化的)激活值可以构成第一/第二中间输出值。

至少一个处理器可以是通用计算机、专用计算单元、服务器或计算机网络的一部分。

根据上述方面的系统还可以包括用于存储深度神经网络的参数(例如，权重、节点连接、滤波器等)的存储介质。所存储的具体参数通常取决于所采用的深度神经网络的类型。此外，系统可以包括存储介质，该存储介质用于存储潜变量模型、通过使用潜变量模型获得的数据(诸如距离)、阈值距离和/或其他数据。

上述存储介质中的一个或多个可以是数据存储的一部分，其中累积、处理和/或分析所收集的数据。数据存储可以在服务器(例如，应急或本地服务器)中实施或实施为分布式网络服务，诸如云服务。

此外，系统可以包括一个或多个传感器以测量表征感兴趣的实体或感兴趣的实体的部件的状态的至少一个参数。测量的参数可以是任何物理、电子或其他参数，诸如温度、压力、电流、磁通量、网络流量、数据日志等。至少一个传感器可以是软传感器。至少一个传感器可以被配置为执行周期性或基本上连续的测量。在示例中，至少一个传感器可以被配置为执行实时测量。还可能将传感器配置为在触发后开始测量。例如，可以作为某一动作(诸如用户与计算机的交互)的结果而开始测量。在示例中，可以提供多个传感器，并且输入到深度神经网络的观测值可以基于不同的输入信息(例如，来自不同传感器的测量值)的组合或融合。

此外，系统可以包括数据通信单元或线路，从而允许在一个或多个传感器、数据获取单元、用于存储传送的数据的存储介质和/或预测性分析单元之间的数据传送。在示例中，在一个或多个传感器与数据获取单元之间的数据传送可以是无线的。

系统还可以包括用户界面(例如，图形和/或音频和/或触觉用户界面)，该用户界面被配置为基于预测来传达关于预测和/或至少一件设备和/或整个系统的状态或条件的信息。用户界面还可以被配置为传达(例如，显示)关于至少一件设备的测量的参数的信息。用户界面还可以被配置为使得用户能够改变所观测的系统的至少一件设备的至少一个参数。

预测性分析单元还可以被配置为聚集所收集的数据并建模，例如以预测何时需要维护。分析部件可以例如直接在感兴趣的实体(例如，一件设备、机器、计算机等)上运行，从而构成所谓的边缘分析。

根据上述各种方面和示例，可能在对深度神经网络的模型训练之后检测异常值。可以有效地检测相对于训练数据集的输入数据中的异常值，因为可能需要如何构建深度神经网络的减少假设并且可能不需要采样。此外，根据上述各种方面和示例，已经学习的数据表示可以用于异常值检测。与分离异常值检测模型相反，用于预测的相同表示可以用于异常值的检测。

根据上述各种方面和示例的方法和系统的其他优点可以包括：

-它们是架构无关的，这意味着它们可以在任何类型的神经网络模型中使用；

-它们是训练无关的。计算涉及在训练神经网络之后单次通过训练数据，这意味着对常规训练过程的干扰是最小的；

-它们是任务无关的，这意味着不需要进行关于手头任务的假设。所提出的方法可以应用于各种任务，诸如分类、分段、回归、强化学习等；它们就计算而言是有效的，这意味着与深度神经网络模型的干扰相比，需要极少的附加计算。

-它们在异常值检测中胜过现有技术方法。

在可应用于任何类型的输入(例如，传感器输入、网络流量、金融交易流量等)的意义上，所提出的技术是“通用”技术。根据上述各种方面和示例的方法和系统的应用领域包括，但不限于，机器部件、机器或者包括多个机器部件和/或机器的系统的监测和/或预测性维护。

具体的非限制性示例涉及轴承、传动装置、车轮、控制阀、电池、马达(例如，电动马达)、涡轮机、车辆(例如，铁路车辆、电动车)、生物反应器、发酵罐、计算机、计算机网络、铁轨、油气地面设备、工业厂房或发电厂(诸如太阳能发电厂、燃煤工厂)的控制和/或监测、工业过程(例如，拉模铸造、电池制造、生物技术过程、药物制造等)的控制和/或监测的异常(例如，故障)检测和/或预测性维护。

另一可能的应用是用于检测网络安全威胁，例如，网络入侵或其他类型的恶意攻击。例如，可以通过使用机器学习技术来对网络流量进行建模。因此，可以检测到指示恶意动作和/或行动者的流量模式的微妙变化并分类为入侵。又一可能的应用是用于检测诈骗、可疑模式或金融交易的某些趋势。例如，使用历史数据，可以训练基于机器学习的分类器以对交易或行动者进行分类(例如，诈骗性或值得信任)或识别趋势。

本申请中描述的主题可以被实施为方法或系统，可能是一个或多个计算机程序产品的形式。本申请中描述的主题可以在数据信号中实施或在机器可读介质上实施，其中介质体现在一个或多个信息载体中，诸如CD-ROM、DVD-ROM、半导体存储器或硬盘。此类计算机程序产品可以致使数据处理设备执行本申请中描述的一个或多个操作。

另外，本申请中描述的主题也可以被实施为系统，该系统包括处理器和耦合到处理器的存储器。存储器可以对一个或多个程序进行编码以致使处理器执行本申请中描述的方法中的一个或多个。在一些示例中，系统可以是通用计算机系统。在其他示例中，系统可以是包括嵌入式系统的专用计算机系统。

附图说明

在示例性附图和以下描述中阐述一个或多个实现方式的细节。根据描述、附图和权利要求，其他特征将是显而易见的。然而，应理解，尽管单独地描述实施例，但不同实施例的单个特征可以组合到其他实施例。

图1示出了包括根据本公开的系统的系统的示例。

图2示出了用于处理图像的卷积神经网络(CNN)的示例性配置。

图3示出了由根据本公开的系统执行的示例性过程的流程图。

图4示出了用于预测性维护的示例性网络架构和被提取用于异常值检测的示例性特征。

图5示出了对用于预测性维护的测试集序列的异常值检测。

图6示出了取决于PCA成分的数量和截止点百分位的对预测性维护的异常值检测性能的评估。

图7示出了用于预测性维护模型以检测模糊的PowerShell脚本的示例性网络架构。

图8示出了根据本发明(图8A)和根据使用MC-丢弃法的比较示例(图8B)的异常值距离度量的小提琴图。

图9示出了可以用于实施本文所描述的系统的至少一部分的计算机的示例性硬件配置。

具体实施方式

在下文中，将参考附图给出示例的详细描述。应理解，可以对示例进行各种修改。特别地，一个示例的一个或多个元素可以在其他示例中组合和使用以形成新的示例。

系统配置

图1示出了包括根据本公开的系统的系统的示例。

图1所示的系统可以包括计算系统1、用户客户端20、控制系统30和第三方系统40。

根据本公开，计算系统1可以提供用于数据分析的系统。计算系统1可以例如使用一个或多个通用计算机来实施。如图1所示，计算系统1可以包括应用程序10和数据存储装置12。

应用程序10可以由包括指令的软件应用程序实施，所述指令致使计算机执行计算系统的示例性过程，如将在稍后更详细地描述。如图1所示，应用程序10可以包括深度神经网络100、预测110、异常值度量112和界面114。应用程序可以由预测性分析部件或单元提供或运行。

深度神经网络(在下文也被称为“DNN”)100可以是具有输入层、输出层以及在输出层与输出层之间的多个隐藏层的人工神经网络。深度神经网络100可以被训练用于处理任何类型的数据，诸如，例如传感器数据、计算机网络流量数据、交易数据等。在示例中，深度神经网络100可以被训练用于使用训练数据集来处理由相应的传感器获得的图像，所述训练数据集包括对深度神经网络100的可能输入图像。训练数据集可以存储在可由应用程序10访问的数据存储装置12中。在图1的示例中，深度神经网络100可以包括层102和异常值检测模块104。

层102可以包括输入层(未示出)、输出层(未示出)以及在输入层与输出层之间提供的多个隐藏层(未示出)。

异常值检测模块104可以连接到深度神经网络100的多个隐藏层中的至少一个，并且被配置为来确定观测值相对于用于训练深度神经网络100的训练数据集是否为异常值。稍后将描述由异常值检测模块104执行的过程的细节。

图2示出了深度神经网络100的具体示例。图2所示的示例性深度神经网络时用于对数据(例如，图像)进行分类的卷积神经网络(CNN)。例如，图2所示的示例性CNN可以将诸如输入图像的输入观测值分类为多个不同的类别。在另一个示例中，图2所示的示例性CNN可以确定输入观测值(例如，图像)是否属于特定类别。在具体示例中，图2所示的示例性CNN可以被配置为接收28×28像素的灰度图像作为输入图像(即，输入观测值)。输入图像的每个像素可以包括指示像素的强度的值。输入图像的每个像素的强度值可以被认为是对示例性CNN的输入层的输入节点的输入值。图2所示的示例性CNN包括四个卷积层C1、C2、C3、C4、两个最大池化层MP1、MP2以及输出层，其中softmax函数作为输出层中所包括的节点的激活函数。

尽管以上示例使用28×28像素图像，但从理论角度来看，图像的大小没有上限。然而，增加图像大小也可能会增加计算需求。一般来说，为感兴趣的应用选择的图像大小可以反映期望的细节水平与计算需求之间的权衡。在典型的分类应用中，图像可以在200×200像素至300×300像素的范围内。然而，应用不限于此范围，并且可以小于200×200像素或大于300×300像素。

示例性CNN的卷积层C1中所包括的每个节点可以对应于向输入图像的特定部分施加的大小3×3(像素)的滤波器，并且可以输出通过将滤波器施加到输入图像的特定部分得到的值。在图2的示例中，在卷积层C1处向输入图像施加32个滤波器。32个滤波器中的每一个可以通过使滤波器在输入图像的宽度和高度方向两者上以S个像素的步幅滑动而施加到输入图像的整个区域。对于32个滤波器在输入图像上的每个位置，对应于32个滤波器的32个节点可以存在于卷积层C1中。在图2的示例中，步幅S可以设置为1个像素。因此，卷积层C1的输出可以包括28×28×32个值，其可以被认为是32个28×28像素的图像。卷积层C1的输出可以输入到卷积层C2。卷积层C2可以具有类似于具有大小为3×3的32个滤波器的卷积层C1的配置。因此，卷积层C2的输出也可以包括28×28×32个值，其可以被认为是32个28×28像素的图像。

卷积层C2的输出可以经受20％的丢弃(参见图2的D1)。换句话说，可以随机地选择并忽视卷积层C2的输出中的值(对应于节点)的20％。

在丢弃操作D1之后，卷积层C2的输出可以通过在第一最大池化层MP1处的最大池化操作而进一步经受下采样。最大池化操作可以选择多个输入值之中的最大值。在图2的示例中，最大池化层MP1可以使大小为2×2的滤波器可以施加，以2个像素的步幅施加到从卷积层C2输出的具有28×28像素的32个图像。这可以导致包括14×14像素的32个输出图像，每个输出图像具有对应滤波器内的对应图像(从卷积层C2输出)的像素之中的最大强度值。最大池化操作中使用的每个滤波器可以被认为是最大池化层MP1的节点。

来自最大池化层MP1的输出可以提供到卷积层C3，该卷积层具有类似于卷积层C1、C2的配置但施加64个滤波器。卷积层C3的输出可以提供到卷积层C4，该卷积层具有与卷积层C3类似的构型、具有大小为3×3的64个滤波器。此外，卷积层C4的输出可以经受20％的丢弃(参见2的D2)，并且然后在最大池化层MP2处以类似于如上所述的在最大池化层MP1处的方式经受最大池化操作。最大池化层MP2的输出可以包括7×7×64个值。

最后，最大池化层MP2的输出可以提供到具有softmax函数的输出层。输出层可以包括与输入图像可以分类成的一个或多个组(或类别)相对应的一个或多个输出节点。尽管本示例提及具体参数(例如，滤波器的数量、丢弃百分比、卷积层的数量、步幅等)，但方法和系统不限于这些实施例，因为本文中设想每个参数的值的范围。

在涉及图2所示的示例性CNN的一些示例中，来自最大池化层MP1和MP2的输出可以提供到异常值检测模块104(图1)，以相对于用于训练图2所示的示例性CNN的训练数据集来检测输入图像是否为异常值。例如，异常值检测模块104可以针对最大池化层P1和MP2中的每一者使用来自相应的最大池化层P1和MP2的输出为训练数据集中的可能输入图像构建或拟合潜变量模型。潜变量模型可以提供最大池化层P1和MP2的输出到子空间(潜变量模型子空间)中的投影值集的映射，该子空间具有低于最大池化层P1和MP2的输出的维度的维度。所构建或拟合的潜变量模型可以用于相对于训练数据集来确定输入图像(例如，训练数据集中不包括的新获得的输入图像)是否为异常值。更一般地说，异常值检测模块104可以被配置为获得来自深度神经网络100的隐藏层中的一个(或多个)的输出并且使用获得的输出来构建或拟合潜变量模型。稍后将在下面描述构建或拟合潜变量模型的细节。

再次参考图1，预测110可以是来自深度神经网络100的输出。在一些示例中，预测110可以指示输入图像被深度神经网络100分类为哪个类别。

异常值度量112可以包括用于相对于用于训练深度神经网络100的训练数据集来确定输入图像是否为异常值。稍后将在下面描述异常值度量112的细节。

界面114可以是用于应用程序10的界面，以与可以设置在计算系统1外部的各种装置通信。例如，界面114可以被配置为将由应用程序10生成的信息传送到那些装置。此外，例如，界面114可以被配置为从那些装置接收指向应用程序10的信息。

数据存储装置12可以被配置为存储应用程序100所使用的数据。尽管图1将数据存储装置12示出为计算系统1的一部分，但在一些示例中，数据存储装置12可以设置在计算系统的外部，只要存储在数据存储装置12中的数据可由应用程序10访问即可。

用户客户端20可以是连接到计算系统1的客户端装置。用户客户端20可以包括用户应用程序22，该用户应用程序可以使用在计算系统1处执行的预测和异常值检测的结果。用户客户端20的具体示例可以是例如使用SSH(安全外壳)或HTTP(超文本传送协议)请求远程地连接到计算服务器的工作站。然后可以将DNN(深度神经网络)施加到计算服务器上的用户提供的输入，并且可以将得到的预测和异常值度量返回给用户客户端20。用户客户端20可以是与运行应用程序10的计算系统1相同的物理装置的一部分，例如在被配置为执行DNN预测的工作站上。

控制和/或分析系统30可以控制装置和/或使用在计算系统1处执行的预测和异常值检测结果来执行进一步数据分析。控制和/或分析系统30可以构成或是用于异常检测和/或预测性维护的系统的一部分。控制和/或分析系统30的示例可以是维护部件或机器、工业过程或厂房、车辆(诸如自主车辆)、计算机网络、金融交易单元等的控制和/或分析系统(诸如用于异常检测或预测性维护)。

例如，在车辆中，控制和/或分析系统可以接收预测和异常值检测的结果，以控制车辆的转向和/或提供与车辆中所包括的一件或多件设备(诸如马达、传动装置等)的使用寿命、磨损和/或寿命相关的指示和/或必要的校正维护动作。

控制和/或分析系统30可以包括在控制和/或分析系统30中运行的程序客户端32，该程序客户端接收输入、执行数据分析并且作出有关其他应用程序特定动作的决策，例如与所观测的实体(例如，一件设备或系统)的维护相关和/或与所观测的实体(例如，一件设备或系统)的控制相关。

本技术的具体示例涉及向生物制药制造过程的分析和/或控制系统表征输入材料。为了确保这种制造过程的期望输出质量，可以根据输入材料的性质来调整过程的控制参数。此外，可以确定和/或开始校正维护操作，诸如，例如清洁或更换传感器、温度、湿度等调节器、营养液、细胞培养物等。

数据源的异类组合可以用来表征包括结构化数据和非结构化数据两者的输入材料。示例数据源可以包括文本(诸如事件报告)、图像、色谱图、光谱数据、化学分析等。深度学习也因为深度学习发现从结构化数据和非结构化数据两者到给定输出的可用映射的能力而适于分析数据的此异类组合。为了在输入数据不匹配用于训练深度学习模型的数据时避免不良输出质量或灾难性故障，可能重要的是在模型训练之后检测出异常值。如果输入数据被识别为异常值，那么输入数据可能无法用作制造过程的输入，因为无法保证输出质量。

本技术的另一具体示例在于控制和监测系统(诸如预测性维护系统)使用深度强化学习从数据中学习，而不是由人类控制员编程。在生物制药制造过程中，可以存在大量的可能控制参数，并且发现系统中现存的所有交互和反馈环路因为高复杂性而可能具有挑战性。相反，深度强化学习可以用来从数据和模拟中学习控制策略。为了检测过程何时进入与在模型训练期间遇到的状态不同的状态，异常值检测可能是重要的。如果这种状态被识别为异常值，那么基于深度学习的控制系统可以警告用户(例如，通过向用户发送通知)和/或执行安全例程以避免不良输出质量或灾难性故障。深度强化学习的使用示例可以在本领域中发现(例如，Li Y.、Wen Y.、Guan K.以及Tao D.(2017年)，Transforming CoolingOptimization for Green Data Center via Deep Reinforcement Learning，arXivpreprint arXiv:1709.05077；以及Nguyen P.和Takashi E.(2018年)，Automating WaterPurification Plant Operations Using Deep Deterministic Policy Gradient，研讨会学报(在工程系统的安全关键性的深度学习ICML研讨会中公布))。

不同于深度学习模型中的异常值检测的现有技术方法，本方法不约束设计和/或训练模型的方式，从而允许在生产中将这些方法添加到模型。另外地，由于在模型训练之后使用本技术，因此本技术可以与实时应用和/或在现场应用中实施的模型一起使用。用于异常检测的应用可以具有极高的速度，这意味着预测性模型将以高频率接收到观测值。例如，可以按10kHz测量对旋转涡轮机的监测。类似地，监测计算机网络或银行系统的系统可以以高频率接收到观测值，因为此类系统中典型地存在非常多的同时行动者。相反，使用每次预测多个正推/推断的现有技术方法(例如，其中预测被用作平均值并且标准偏差或熵被用作不确定性测量)可以导致延时增加，这对于实时应用来说是个问题。此外，所提出的技术是架构无关、训练无关且任务无关的。

第三方系统40可以由计算机实施并且可以包括第三方应用程序42。第三方系统40可以属于与计算系统1所属的实体不同的实体。第三方应用程序42可以使用在计算系统1处执行的预测和异常值检测的结果。第三方应用程序42的示例可以是依赖于DNN预测和从DNN预测提供商购买的异常值检测结果的软件。

计算系统1可以经由诸如互联网的网络与用户客户端20、控制系统30和第三方系统40连接。在一些示例中，用户客户端20、控制系统30和第三方系统40中的一个或多个可以经由互联网连接到计算系统1。

使用偏最小二乘回归的预测时间异常值检测

如上所述，图1所示的计算系统1中的异常值检测模块104可以被配置为使用从深度神经网络100的多个隐藏层中的至少一个(例如，图2的最大池化层MP1或MP2)输出的中间输出值来构建或拟合潜变量模型，以便确定输入观测值(例如，输入图像)相对于用于训练深度神经网络100的训练数据集是否为异常值。中间输出值可以是例如来自深度神经网络100的多个隐藏层中的至少一个的相应输入图像。任选地，如果激活值来自特征图，那么可以在每个特征图上施加全局池化(例如，全局平均池化)。

下文提供用于使用偏最小二乘回归进行异常值检测的示例性技术，从而可以利于理解异常值检测模块104可以如何检测异常值。

模型不确定性的概念与预测时间异常值检测相关。在这两种情况下，主要目标可以是发现与训练模型所用的观测值不对应的观测值。预测性模型一直用来在制造过程监测的预测期间检测分布外观测值。在这个领域，可以广泛地使用诸如偏最小二乘(PLS)回归线性潜变量模型(参见例如P.Geladi和B.R.Kowalski，“Partial least-squaresregression:a tutorial”，分析化学学报，第185卷增补期，第1至17页，1986年1月)。类似于用于预测的主成分分析(PCA)(S.Wold、K.Esbensen和P.Geladi，“Principal componentanalysis”，化学计量智能实验系统，第2卷第1期，第37至52页，1987年8月)，PLS模型可以发现近似训练数据的子空间。新观测值然后可以投影到通过PLS模型发现的子空间中。因此，在预测时间期间，在子空间内的距离和离开子空间的距离两者都可以用于发现异常值。

预测时间是指在已经拟合了模型并且将模型用于应用中的预测之后的时间(但不包括在生成模型时用于模型拟合/训练的时间)。

应注意，尽管简单且有效，但如上所述的PLS模型的原理可能无法直接应用于深度学习系统。具体地，PLS的预测的基础是输入数据空间的子空间，从而使得能够直接将新观测值与用于训练的那些观测值的子空间近似进行比较。另一方面，深度学习模型典型地取决于非线性变换的多个层，其中每个变换有助于最终输出。这可以意味着，看似不同的观测值通过空间序列进行变换并映射到输出。这种发现输入到输出的可用变换的能力可能就是深度学习模型适合于非结构化数据的原因。然而，这些变换的结果可以是变换使得难以确定新的观测值是否属于训练模型的相同数据分布。可能没有明显的比较点来确定深度学习模型的知识极限并且没有明显的方式来决定新的观测值是否在那些极限内。

PLS回归是在例如制造过程监测内广泛地使用的回归模型。给定具有n行观测值和p列特征的训练数据矩阵(表示为X＝[x₁...x_n]^T)以及具有q列响应的对应的目标矩阵(表示为Y)，PLS模型可以概括这两个数据矩阵。类似于PCA，PLS可以发现近似X和Y的相同维度k的满秩子空间，被称为“潜变量空间”。与PCA相比，PLS可以将所发现的子空间之间的协方差最大化，而不是将单个子空间的方差最大化。简而言之，PLS可以将输入数据近似为：

X＝TP^T+E (1)

其中T＝[t₁，...，t_k]可以是跨越X的公共空间的满秩子空间并用Y将协方差最大化的n×k潜变量矩阵，P可以是PLS载荷的p×k矩阵，并且E可以是近似残差的n×p矩阵。载荷可以包含用于从T近似X的线性组合权重。可以通过类似方式来近似Y的响应矩阵。关于如何计算PLS模型并将其用于回归的更多细节可以见于S.Wold、M.

和L.Eriksson，“PLS-regression:a basic tool of chemometrics”，化学计量智能实验室系统，第58卷第2期，第109至130页，2001年10月。

由PLS提供的输入数据的近似可以用于检测在预测期间遇到的异常值。在模型拟合之后，新的观测值可以通过下式投影到使用PLS发现的子空间上：

T_new＝X_newP (2)，

这可以允许将新观测值近似为：

子空间投影T_new和近似两者都可以用于基于适当的距离度量来检测异常值。用于在预测时间期间检测异常值的两个示例性测量是潜变量空间中的马氏距离和输入列空间中的近似残差。其他测量可以是综合距离、局部异常因子(LOF)等。

在使用PLS时在预测时间期间检测异常值的一种方式可以是使用马氏距离。马氏距离是测量观测值距多维概率分布中的原点有多少个标准偏差的已知统计距离。直觉上，具有大马氏距离的观测值不太可能在给定的概率分布下。潜变量概率分布可以使用T中的潜变量的协方差矩阵C_T进行参数化，假设潜变量具有零平均值。那么，具有在潜变量空间中的投影t_i的观测值x_i的马氏距离d_i可以被计算为：

尽管马氏距离可以测量观测值有多不太可能在给定的分布下，但马氏距离可能无法提供观测值是否属于该分布的信息。相反，近似残差可以提供新观测值距分布有多远的简单测量。给定拟合的PLS模型，观测值x_i可以被近似为

平方的近似方差然后可以由下式简单地给出：

其中x_i，j可以是观测值向量的第j个元素。直觉上可以是来自除训练分布外的另一个分布的观测值的近似将不能产生大近似残差。

用于深度神经网络的预测时间异常值检测

异常值检测模块104可以基于例如制造过程监测中的预测时间异常值的原理来执行附加法，如上所述，以用于发现深度神经网络100可能无法解释的观测值。深度神经网络100可以是任何类型的神经网络，例如，卷积神经网络(CNN)、递归神经网络、循环神经网络、变换器神经网络等。

由异常值检测模块104执行来检测深度学习系统中的预测时间异常值的方法可以基于以下事实：神经网络可以通过变换输入数据来运行。当通过深度神经网络来馈送输入数据时，可以存在数据的多个中间表示，其中中间表示可以用于预测(例如，在深度神经网络被配置为解决分类问题的情况下，输入数据被分类成的组的预测)。这些中间表示中的一个或多个可以用于在预测期间检测异常值以及用于执行预测。

为了提供在预测期间以类似于PLS的方式检测异常值的可能性，深度神经网络(例如，前馈神经网络)可以被认为是一系列非线性变换。换句话说，来自给定网络的层i＝(1、2、3、4、……)的观测值x(输入数据)的激活向量a_i可以通过内置的一系列变换给出，如下：

a_i＝f_i(W_if_i-1(W_i-1f_i-2(...f₁(W₁x)))) (6)

其中f_k(k＝1、2、……、i)可以是激活函数，并且W_k(k＝1、2、……、i)可以是权重度量。观测值x的激活向量a_i可以被认为是来自给定网络的层i的中间输出，并且可以包括在观测值x被输入给定网络时与来自层i的相应节点的输出相对应的元素值。这些激活值a_k中的每一个可以提供输入数据的特征表示。尽管权重矩阵可以借助于反向传播通过监督式训练共同地获得，但激活值可以简单地提供输入数据的经变换或预处理的表示。

为了更详细地解释变换，观测值x可以是n维行向量x＝[x₁ x₂ ... x_n]，其中n取决于应用。在x是单通道图像的情况下，n可以是图像的长度(以像素为单位)与图像的宽度(以像素为单位)相乘，并且值x₁，x₂，...，x_n是图像的像素值。在第一层中，x是与第一权重矩阵W₁相乘的矩阵，以形成n₁维的线性投影

W₁的维度是n×n₁。在线性投影之后，将激活函数f₁应用于

以形成激活值a₁。激活函数f₁可以是非线性函数。激活函数的共同选择包括修正线性函数f(x)＝max(0，x)、S形函数f(x)＝(1+e^-x)^-1、softmax函数

等等。那么，激活值a₁是与权重矩阵W₂相乘的矩阵，并且得到的线性投影

使用激活函数进行变换。将矩阵与权重矩阵相乘和使用激活函数进行变换的过程重复i次，直到获得层i的激活值a_i为止。

使用这些中间表示，可以提供用于检测任何深度神经网络(例如，任何前馈神经网络)中的异常值的即插即用方法。给定经训练的网络，可以使用来自层i的激活矩阵A_i＝[a_1，i...a_n，i]^T来表示训练数据，其中n可以是观测值的数量。由于A_i可能不是满秩的，因此可能期望发现可以用来近似A_i的满秩子空间。在一些示例中，PCA可以用于使用线性投影来获得子空间，以将数据映射到低维子空间。在一些其他示例中，诸如自动编码器、随机投影、稀疏主成分分析和/或自组织映射的其他方法可以用于将数据映射到低维子空间。

在使用PCA的示例中，训练数据激活值的维度可以减少到m维以获得：

T_A，P_A＝PCA(A_i) (7)

类似于PLS，T_A可以指示跨过训练集激活值的子空间的潜变量矩阵，并且P_A可以指示PCA载荷。例如，呈矩阵形式PCA可以提供以下最小二乘模型：

其可以被认为类似于如上所述的等式(1)。

通过与PLS相同的方式，潜变量和载荷矩阵的协方差矩阵可以用于基于适当的距离度量(诸如基于马氏距离、近似残差、综合度量距离、局部异常因子(LOF)等)来检测预测时间异常值。

当使用经训练的神经网络来预测新观测值时，还可以提取激活值A_i，new。新的激活值可以通过与在使用PLS时相同的方式投影到从训练数据激活值中发现的子空间：

T_A，new＝A_i，newP_A (9)

并且可以根据等式(4)来计算新观测值的距离，例如，马氏距离。

新的激活值还可以使用PCA载荷近似为：

根据以下等式(11)(类似于等式(5))计算的近似残差也可以用于通过与在使用PLS时相同的方式来检测异常值：

其中p可以指示层i中的节点的数量。

所确定的距离也可以是通过将所描述的距离中的两个或更多个组合而形成的综合距离度量。一个示例是使用欧几里得范数将马氏距离与由残差平方和的平方根给出的残差距离组合，如下：

以上仅仅是综合距离度量的一个示例，许多其他组合也是可能的。

上述等式(即，等式(7)至(12))已经按如本文所提供的新颖方式进行改编，以应用来自深度神经网络的激活值。

用于系统设置的过程

图3的左手部分示出了用于设置计算系统1的示例性过程的流程图。图3所示的示例性过程可以由计算系统1的应用程序10执行。

在步骤S10处，应用程序10可以从数据存储装置12获取数据。数据可以是用于训练深度神经网络100的训练数据集的一部分。训练数据集可以包括输入到深度神经网络100的可能观测值。构成训练集的观测值可以是传感器数据、计算机网络流量数据、金融交易数据，或者表征所观测的一件设备或系统的任何其他历史数据。在深度神经网络100是例如如图2所示的CNN的情况下，训练数据集可以包括对CNN的可能输入图像作为可能的观测值。

在步骤S12处，应用程序10可以确定深度神经网络100是否已经被训练。步骤S12可以在步骤S10之前、之后或并行地执行。

如果确定深度神经网络100尚未被训练(在步骤S12处为否)，那么该过程可以进行到步骤S14。如果确定深度神经网络100已经被训练(在步骤S12处为是)，那么该过程可以进行到步骤S16。替代地，在进行到步骤S16之前，深度神经网络100可以微调。

在步骤S14处，应用程序10可以使用在步骤S10处获取的数据来训练深度神经网络100。

在步骤S16处，应用程序10可以使用深度神经网络100来变换数据。在步骤S17处，应用程序10可以获得从深度神经网络100的多个隐藏层中的至少一个输出的中间输出值(第一中间输出值集)。具体地，例如，应用程序10可以根据上述等式(6)从深度神经网络100的至少一个层中获得训练数据集中的可能输入图像的激活向量。激活值是指矩阵相乘的序列和对观测值使用激活函数的变换的结果，如由等式(6)所描述。任选地，如果激活值是来自特征图，那么可以在每个特征图上应用全局池化，例如平均池化。

在步骤S18处，应用程序10可以对中间输出值，例如(任选地池化的)训练集激活值拟合潜变量模型。换句话说，应用程序10可以构建潜变量模型。例如，应用程序10可以使用PCA获得潜变量矩阵T_A和PCA载荷P_A，如上所述(参见例如等式(7)和(8))。替代地，应用程序可以使用(任选地池化的)激活向量作为输入来训练自动编码器。

在步骤S20处，应用程序可以使用潜变量模型来投影激活值。例如，应用程序10可以从在步骤S17处获得的激活向量中获得通过构建/拟合潜变量模型而发现的子空间中的投影值的对应集合(例如，T)。

在步骤S22处，应用程序10可以使用潜变量模型来计算训练集图像的一组或多组距离。例如，应用程序可以计算数据的激活值的数据。可以使用任何合适的距离度量。例如，应用程序10可以根据上述等式(4)相对于在步骤S18处构建的潜变量模型来计算在步骤S17处获得的激活向量中的每一个的马氏距离。另外地或替代地，例如，应用程序10可以根据上述等式(11)来计算在步骤S17处获得的激活向量中的每一个的平方近似残差。

在步骤S24处，应用程序10可以确定距离的阈值。另外地或替代地，可以确定平方近似残差的阈值。阈值稍后可以用于相对于训练数据集来确定新观测值(例如，输入图像)是否为异常值。为了获得阈值，可以使用在步骤S22处计算的距离和/或平方近似残差。例如，阈值可以是在步骤S22处计算的距离(或平方近似残差)的百分位，例如，第95个百分位。应注意，“第95个百分位”仅仅是示例，并且大于或小于95的值也可以用作确定阈值的百分位。

用于系统设置的过程可以在步骤S24之后结束。

用于异常值检测的过程

图3的右手侧示出了由计算系统1执行的用于检测异常值的示例性过程。

该过程可以通过部署深度神经网络来开始。例如，深度神经网络可以合并在用于处理观测值的软件中。这可以在所观测的一件设备或系统本身内，或者作为用于分析的独立软件模块，其被实现为例如服务器或云服务。

在步骤S30处，应用程序10可以接收新观测值。例如，在深度神经网络100是如图2所示的CNN的情况下，可以接收将要输入到CNN的图像作为新观测值。然而，观测值不限于图像，而可以是表征所观测的一件设备或系统的任何数据段。例如，观测值可以是由一个或多个传感器获得的特定测量数据。

在步骤S32处，应用程序10可以使用深度神经网络来变换新观测值。变换可以包括例如为新观测值计算深度神经网络预测。

随后，应用可以确定新观测值是否为异常值。这可以按以下方式执行：

在步骤S33处，应用程序10可以获得从深度神经网络100的多个隐藏层中的至少一个输出的中间输出值(第二中间输出值集)。例如，应用程序10可以根据上述等式(6)从深度神经网络100的至少一个层中获得新观测值的激活向量。

在步骤S34处，应用程序10可以使用如上所述的在步骤S18处构建/拟合的潜变量模式来投影所确定的中间值(中间值的第二集)。例如，应用程序10可以从在步骤S32处获得的激活向量中获得通过构建/拟合潜变量模型(参见等式(9))而发现的子空间中的投影值的对应集合(例如，T_A，new)。

在步骤S36处，应用程序10可以使用如上所述的步骤S18的潜变量模型来计算新观测值的距离。例如，应用程序10可以根据上述等式(4)相对于在步骤S18处构建的潜变量模型来计算在步骤S32处获得的新观测值的激活向量的马氏距离。另外地或替代地，例如，应用程序10可以根据上述等式(11)来计算在步骤S32处获得的新观测值的激活向量的平方近似残差。如上所述，可以使用其他合适的距离度量，而不是马氏距离和平方近似残差。

在步骤S38处，应用程序10可以确定在步骤S36处计算的距离是否大于在步骤S24处确定的阈值。

如果在步骤S38处为是，那么该过程可以进行到步骤S40并且应用程序10可以确定新观测值是异常值。在这种情况下，系统可以将模型预测报告为不可靠预测，因为新观测值被确定为异常值。因此，异常检测结果可以包括预测与新异常类型相关和/或是不可靠预测的数据。该过程可以在步骤S40之后结束。替代地，可以采取其他应用特定动作。例如，可以忽视深度神经网络的预测并放弃异常观测值。还可能生成检测到新异常类型的警告并且任选地保存异常观测值和/或预测，使得它们可以经受进一步分析。

如果在步骤S38处为否，那么该过程可以进行到步骤S42，并且应用程序10可以确定由深度神经网络100针对新观测值进行的预测可以被信任。在这种情况下，系统可以将模型预测报告为可靠预测，因为新观测值被确定为非异常值。预测然后可以输出为异常检测结果。该过程可以在步骤S42之后结束。替代地，可以采取进一步应用特定动作。

在预测性维护的情况下，应用特定动作可以与确定需要在实质性错误实际发生之前有利地采取的校正维护动作的类型相关。关于所确定的校正维护动作的信息可以使用适当的用户界面(例如，显示器)传达给用户。还可能自动地安排和/或开始所确定的校正维护动作。

在网络安全应用的情况下，进一步应用特定动作可以是确定安全漏洞的类型或者特定用户、计算机、服务器、网络等被认为不值得信任等。相应的信息可以使用适当的用户界面(例如，显示器)传达给用户。此外，可以自动地安排和/或开始校正动作，诸如，例如拒绝对特定用户、计算机、服务器等的访问。

在银行中，进一步应用特定动作可以涉及确定与特定参与者的一个或多个电子交易是欺诈性的，并且还可以包括使用适当的用户界面(例如，显示器)将所确定的信息传达给用户。此外，可以自动地安排和/或开始校正动作，诸如，例如拒绝对特定用户、计算机、服务器等的访问。

在本申请的实施例和示例中，使用表征所观测的系统(不论是什么系统)的历史数据来训练采用深度神经网络的深度学习模型。随后使用深度学习模型来处理输入数据(新观测值)以区分正常行为和已知类型的异常。与已知的方法相比，采用深度神经网络的深度学习模型也还能够识别未知类型的异常。

实验

在本章节中，将描述由示例性计算系统1执行的异常值检测的实验结果。在以下实验中，深度神经网络100旨在解决图像分类任务，以便例如用于异常检测、特别地用于预测性维护。

示例1：涡轮风扇发动机的预测性维护

在一些实现方式中，CNN可以用作用于图像分析的深度神经网络100。然而，示例性计算系统1还可以执行异常值检测以分析除图像外的数据类型。例如，可以针对预测性维护任务来执行示例性计算系统1的异常值检测，其中确定服务中设备的状况以便预测何时应执行维护。本章节提供用于涡轮风扇发动机的预测性维护的异常值检测的实验结果。

在此实验中，使用由NASA Ames的Prognostics CoE提供的涡轮风扇发动机退化数据集(Saxena A.和Goebel K.，“Turbofan Engine Degradation Simulation Data Set”，NASA Ames预测数据储库(http://ti.arc.nasa.gov/project/prognostic-data-repository)，2008年，NASA Ames研究中心，莫菲特场，CA)。该数据集由在不同的操作条件和故障模式下运行至出故障的模拟的涡轮风扇发动机组成。随时间推移使用21个传感器来监测发动机。所使用的传感器包括温度传感器、压力传感器、风扇和核心速度传感器、冷却剂流动测量和燃烧器燃空比测量。数据集的细节可以见于例如Saxena A.、Goebel K.、Simon D.和Eklund,N.，“Damage propagation modeling for aircraft engine run-to-failure simulation”，预测与健康管理，2008，PHM 2008，国际会议(第1至9页)，IEEE，2008年10月。此外，在训练数据集中记录了100个发动机的3个对照设置并且在测试数据集中记录了100个。挑战是在故障发生之前的15个传感器周期内预测故障，以避免灾难性故障。

为了预测故障，训练基于长短期记忆(LSTM)块的神经网络模型(Hochreiter、Sepp和Jürgen Schmidhuber，“Long Short-Term Memory”，神经计算9，第8期，1997年，第1735至1780页；Gers、Felix A.、Jürgen Schmidhuber和Fred Cummins，“Learning to Forget:Continual Prediction with LSTM”，神经计算12，1999年，第2451至2471页)。LSTM块可以被理解为递归神经网络中的单元，并且可以包括细胞、输入门、输出门和遗忘门。细胞可以“记住”任意时间间隔内的值，例如，实现内部“存储器”。输入门、输出门和遗忘门中的每一个可以被认为是神经网络中的节点，其使用激活函数来计算加权和的激活值。输入门、输出门和遗忘门可以连接到细胞并且可以被认为是通过LSTM块的连接的值的流动的调节器。在此实验中，将LSTM模型用作计算系统1的深度神经网络100。

图4示出了被训练用于在此实验中使用涡轮风扇发动机退化数据集来预测故障的LSTM模型(深度神经网络100的示例)的示例性配置。图4所示的LSTM模型包括三个LSTM层L1、L2、L3和输出层，其中S形函数作为激活函数。LSTM层L1和L2分别包括64个LSTM块，并且LSTM层L3包括50个LSTM块。LSTM层L1、L2和L3可以被认为是深度神经网络100的隐藏层。为了训练图4所示的LSTM模型，将50个周期长的滑动窗口用作输入，并且使用指示滑动窗口的最后窗口是否在远离故障的15个周期内的二元响应。将21个传感器输出、3个对照设置和从开始算起的当前周期用作故障预测的变量。将所有的变量缩放至范围0至1，并且将用于训练数据的缩放参数用于缩放测试数据。

为了监测训练进展，将10％的训练数据集用于验证。使用Adam优化器训练LSTM模型直到用于验证集的二元交叉熵停止增加(八个时期)为止(Kingma、Diederik P.和JimmyBa，“Adam:A Method for Stochastic Optimization”，ArXiv:1412.6980[Cs]，2014年12月22日，可查到：http://arxiv.org/abs/1412.6980[被访问：2018年-7月-25日])。得到的模型在滑动窗口分类中达到94.1％的测试集F1得分。在下表2中总结了预测性维护模型的测试集性能。

表2.预测性维护模型的测试集性能的总结

度量	测试集得分
		准确率	0.968
精确度	0.923
		召回率	0.96
F1得分	0.941

为了模拟其中传感器停止工作的预测时间异常值，随机地选择一半的测试集发动机以充当异常值。对于这些发动机中的每一个，随机地选择传感器，并且从完整时间序列的中间开始，将其输出设置为零。为了提供用于这些异常值的潜变量模型，从预测性维护模型(参见图4)的LSTM层L1、L2、L3中提取特征(例如，中间输出)。对于前两个LSTM层L1、L2，使用用于每个LSTM节点的时间上的平均值来概括每个滑动窗口。对于最后的LSTM层L3，简单地使用时间序列中的最后周期。然后将来自三个LSTM层L1、L2、L3的输出连接成单个矩阵。

基于PCA来设置异常值检测模型，其中在所有的训练数据LSTM特征上拟合100成分的PCA模型。针对所有的训练集滑动窗口计算近似残差平方和，并且将训练残差平方和的第99.9百分位设置为异常值的截止点。然后，将异常值和剩余的测试集LSTM特征投影在PCA模型上，并且针对所有的滑动窗口来计算近似残差平方和，如可以从图5中看出。因此，除了用于处理异常值的检测和管理的预测性维护模型之外，还可以使用如本文所述的方法和系统。尽管预测性维护模型在它被训练用于的任务下是准确的，但这个模型无法处理意外事件，诸如传感器失灵(这不是发动机失灵)。

图5示出了对用于预测性维护的测试集序列的异常值检测的结果。图5的左侧示出了在传感器失灵时对齐的其中一个随机传感器失灵的序列(竖直虚线指示传感器失灵的时间)，并且图5的右侧示出了在中间时间点对齐的没有传感器失灵的测试集。图5的上面一行图示出了用于异常值检测的残差平方和，水平虚线指示基于训练集距离的第99.9百分位。图5的中间一行图示出了模型的预测(如果涡轮机将要在15个周期内失灵的话)，其中1意味着预测发动机将出故障。图5的底面一行图示出了指示涡轮机是否将在15个周期内失灵的标记，其中1意味着发动机将出故障。成功地区分了异常值和正常变化(对于此实验，精确度＝召回率＝1)。在传感器失灵之后，LSTM模型预测有许多发动机将失灵但残差平方和同时增加。对于测试集，模型正确地预测发动机故障而残差平方和未增加。这表明通过使用本方法，有可能区分不应信任的预测和应信任的预测。还表明本方法不仅适用于前馈网络，而且适用于递归网络。

此外，探索了成分的数量和残差平方和如何影响结果。成分的数量在1至150之间变化，并且通过将训练集残差平方和的第95、99和99.9百分位用作截止点来报告异常值检测的精确度和召回率，如可以从图6中看出。图6示出了取决于PCA成分的数量和截止点百分位的对预测性维护的异常值检测性能的评估。有趣地，针对所有的截止点达到1的精确度和召回率，但要求达到这样的成分的数量随着截止点更严格而增加。对于所有的截止点，要求具有极小可解释变异的成分达到高精确度和召回率(在仅36个成分之后达到99.99％的累积R2)。这表明在异常值与正常测试集序列之间不同的变异是要求捕获极小的PCA成分的小细微差别。在所有的截止点处，当成分的数量变得太大时，以降低的精确度观测过度拟合。在更严格的截止点处，然而，在出现过度拟合之前要忍受更大量的成分。在此实验中，解释99.999％的训练LSTM特征变异的PCA模型提供了在第99和99.9百分位截止点处的精确度和召回率为1的异常值检测的良好基础。

示例2：在网络安全领域中的异常检测

本发明在预测性维护的领域中的另一特别有效的使用实例是它在网络安全领域中的使用。在网络安全中使用深度学习的一种方式是检测模糊的脚本(Hendler D、Kels S、Rubin A.，Detecting Malicious PowerShell Commands Using Deep Neural Networks，见于：2018年亚洲计算机和通信安全会议[互联网]的会议录，纽约，NY，USA：ACM，2018年[2019年8月29日引用]，第187至197页，(ASIACCS’18)；可得自：http://doi.acm.org/10.1145/3196494.3196511)。

微软公司的PowerShell是默认地安装在Windows计算机上的命令行工具和编程语言，并且通常由系统管理员用于广泛的操作任务。赛门铁克(Symantec)最近报道了网络罪犯越来越多地将PowerShell用作攻击目标(PowerShell Threats Grow Further andOperate in Plain Sight[互联网]，[2019年8月29日引用]，可得自：https://www.symantec.com/blogs/threat-intelligence/powershell-threats-grow-further-and-operate-plain-sight)。网络罪犯可以用来避开检测的一种方法是所谓的模糊处理，这意味着攻击者代码以使得难以自动地检测其意图的方式的重写，但它按预期那样运行。这意味着用于防止网络攻击的许多方式之一是检测并移除模糊的PowerShell脚本，因为无法检测到并且因此不能信任模糊脚本的意图。

在小实验中模拟这种情形表明，当仅在现有类型上训练时，根据本发明的异常值检测可以如何检测先前未预见类型的模糊。

出于这个目的，可以在单字符的序列上训练双向基于LSTM的二元分类器以将来自PowerShellCorpus(针对Daniel Bohannon的Revoke-Obfuscation研究来组合https://github.com/danielbohannon/Revoke-Obfuscation)的大约400000个PowerShell脚本分类为模糊与否。在图7中示出了示例性网络架构。为了构成模糊脚本，可以在常规脚本上使用Daniel Bohannon的Invoke-Obfuscation v1.8(https://github.com/danielbohannon/Invoke-Obfuscation)程序字符串/1或任何其他(手动或自动化、随机或伪随机或确定性)模糊技术以创建一组新的模糊脚本(从此被称为模糊1)。出于展示的目的，使用Adam优化器(Kingma DP，Ba J.Adam：A Method for Stochastic Optimization.ArXiv14126980Cs[互联网]，2014年12月22日[2018年7月3日引用]；可得自：http://arxiv.org/abs/1412.6980)在5个时期内训练模型，其中前三个时期的学习率为10^-2、第四个为且第五个最小为10^-4，以最小化二元交叉熵，从而达到90.4％的测试集准确率。

关于检查，可以注意到，模糊1是非常温和的模糊形式，这意味着得到的模糊脚本通常难以与常规脚本区分开，从而导致以下结论：所达到的测试集准确率是合理的且足以表明模型已经学习了可用的特征以用于异常值检测。

为了说明如何使用基于深度学习的异常值检测模型来检测新的模糊类型，将通过根据本发明的方法达到的结果与通过MC-丢弃法达到的结果进行比较。为了构成异常值，通过Invoke-Obfuscation压缩程序来运行模糊1脚本以创建另一组模糊脚本(从此被称为模糊2)。为了进行异常值检测，从第一双向LSTM层收集特征并在序列上进行平均(参见图7)，并且拟合捕获原始PowerShell脚本的99％变异的PCA模型。由于已知搜索了与常规PowerShell脚本的任何偏差，因此只使用常规脚本而不是在模型训练期间使用的所有数据。然后，分别计算常规脚本、模糊1和模糊2的残差平方和(在图8A中示出，注意Y轴上的对数分度)。应注意，RSS的分布在常规脚本与模糊1脚本之间是明显不同的，这意味着当将根据本发明的方法用于以监督方式训练的模型时，可以可靠地检测已知和未知类型两者的模糊脚本。

为了比较，运行使用10个蒙特卡罗样本的MC-丢弃法，将标准预测偏差报告为异常距离，这也在常规脚本与模糊脚本之间实现强分离(参见图8B)。根据本发明的方法与MC-丢弃法之间的很大不同是推断时间。尽管在此示例中，MC-丢弃法显示出对未知异常值的较强区别，但根据本发明的方法向预测时间增加最小开销。在此示例中，尽管预测是GPU加速的，但根据本发明的方法仍增加预测所需的实际时间的大约1/30，而异常值检测则没有。相反，MC-丢弃法要求每蒙特卡罗样本的一次完整预测，这意味着与根据本发明的方法相比，在此示例中，MC-丢弃法花费300倍的时间。尽管可以使用批处理并行地运行多个蒙特卡罗样本，但这引起推断的实际时间与预测所需的硬件存储器之间的权衡。

其他示例：

用于异常检测和/或预测性维护的数据分析的另一示例性方法包括以下步骤：

S101：提供数据集(观测值)，例如具有已知故障或剩余寿命时间的一件设备的历史传感器数据。所提供的观测值构成训练集。

S102：训练深度神经网络或微调预先训练的深度神经网络。深度神经网络可以是卷积神经网络、递归神经网络、循环神经网络、变换器神经网络或任何其他合适类型的网络。

S103：选择深度神经网络的一个或多个层并且计算来自该层/那些层的训练集观测值的激活值。

S103a：任选地，如果激活值来自特征图，例如如果神经网络是卷积神经网络的话可能就是这种情况，那么在每个特征图上应用全局池化，例如全局平均池化。

S104：在(任选地池化的)训练集激活值上拟合潜变量模型。

S105：使用潜变量模型来计算训练集观测值的一组或多组距离。

S106：基于训练集预测值的距离来选择阈值，例如训练集距离的第95百分位(即，为训练集的观测值获得的距离)。

S107：部署深度神经网络。换句话说，将深度神经网络结合在用于检测异常或预测故障或剩余寿命时间的软件中。软件可以被实施为独立软件、在所监测的设备本身内实施、在可以部署在房屋或云环境中的中央服务器(例如，中央预测或异常检测服务器)上实施、和/或在计算机网络上实施。

S108：计算针对新观测值的深度神经网络预测。

S109：通过执行以下步骤来决定具体的新观测值是不是异常观测值：

S109a：计算用于在S105中拟合潜变量模型的层的激活值。任选地，可以应用全局池化；

S109b：使用来自S109a的激活值和S105中的潜变量模型来计算到距离的模型；

S109c：将来自S109b的距离与来自S106的阈值距离进行比较；

i.如果S109c的距离大于S106中的阈值，则新观测值被认为是异常值。随后采取应用特定动作。例如，可以警告最终用户在继续进行之前手动地分析异常值。可以忽视来自S108的深度神经网络预测并丢弃异常观测值。

ii.如果S109c的距离不大于S106中的阈值，则新观测值不被认为是异常值并且接受来自S108的预测。

示例性预测性维护系统可以包括以下部件：

预测性维护系统可以包括数据收集传感器以测量感兴趣的实体(诸如至少一件设备)的状态。传感器可以包括测量例如温度、压力、电流、磁通量等的物理传感器。传感器也可以是所谓的软传感器，其中基于物理测量值间接地计算设备的状态，示例软传感器包括卡尔曼滤波器或速度估计器。传感器还可以收集结构化数据或呈音频或图像形式的非结构化数据。

预测性维护系统还可以包括数据通信网络和相应的数据通信单元，从而允许从传感器例如到数据存储和/或其他单元的数据传送。在一些示例中，数据传送可以是实时的。在一些示例中，数据传送可以包括无线传送。

预测性维护系统还可以包括数据存储(例如，数据库)，其中累积、处理和/或分析来自传感器的收集的数据和任选地其他数据。数据存储可以实施为应急服务器、遥远的服务器或分布式云服务。

预测性维护系统还可以包括被配置为执行本文所描述的方法的预测性分析部件(预测性分析单元)。预测性分析部件可以构成或是图1所描绘的控制和/或分析系统30的一部分。特别地，预测性分析部件可以被配置为聚集所收集的数据并进行建模，以预测何时需要维护、即将发生的安全漏洞、欺诈性交易或用户等。预测性分析部件可以直接在所观测的一件设备或系统上运行，从而构成所谓的边缘分析。预测性分析部件还可以在服务器上运行或作为云服务运行。

预测性维护系统还可以任选地包括用户界面，例如，操作员可以使用该用户界面来了解设备状态和/或开始。用户界面可以是例如图形用户界面。

变型

在以上示例的一些中，使用卷积神经网络(CNN)。然而，深度神经网络100不限于卷积神经网络，而可以是任何类型的神经网络，例如递归神经网络、循环神经网络、变换器神经网络等。

在以上示例的一些中，将来自单个隐藏层的激活值用于执行异常值检测。

在一些其他示例中，可以将来自两个或更多个隐藏层的激活值用于执行异常值检测。例如，为了避免选择将哪个层用于异常值检测的困难，可以使用高斯核密度估计将来自所有(隐藏)层的测量组合，这已经被用来检测异常值(参见例如L.J.Latecki、A.Lazarevic和D.Pokrajac，“Outlier Detection with Kernel Density Functions”，模式识别中的机器学习和数据挖掘，2007年，第61至75页；E.Schubert、A.Zimek和H.Kriegel，“GeneralizedOutlier Detection with Flexible Kernel Density Estimates”，2014年SIAM国际数据挖掘会议的会议录，第0卷，工业和应用数学学会，2014年，第542至550页)。可以针对训练集马氏距离和残差平方和单独地计算核密度估计，但将所有层进行组合。可以根据得到的核密度函数使用蒙特卡罗积分来近似每个观测值的概率。可以按与上述实验相同的方式评估异常值检测性能。

在其他示例中，在对若干个嵌入项(例如，来自若干层的激活值)进行积分时，可以使用包装方法(参见例如A.Lazarevic和V.Kumar，“Feature Bagging for OutlierDetection”，in Proceedings of the第十一届ACM SIGKDD国际数据挖掘中的知识发现会议的会议录，纽约，NY，USA，2005年，第157至166页)，而不是直接核密度。

此外，有可能对所学习的表示使用其他方法、GMM一类SMV、聚类等。

此外，在本文所述的各种实施例和示例中，代替使用诸如马氏距离的简单测量，可以在PCA空间中直接应用更局部的测量，诸如局部异常因子或LOF(参见例如M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander，“LOF:Identifying Density-based Local Outliers”，2000年ACM SIGMOD国际数据管理会议的会议录，纽约，NY，USA，2000年，第93至104页)。原则上，可以使用任何合适的距离度量或距离度量的组合，诸如到所建模的嵌入项的综合度量距离、平方和、局部异常因子等。

在以上示例的一些中，将具体图像用作观测值(既作为训练集的一部分又作为将获得预测的新观测值)。如上所述，代替这些图像，可以使用任何其他图像，例如一件设备、机器部件等的图像，基于所述图像可以确定故障、退化、完整性或安全的违反或者与所观测的实体的正常状态或操作的任何其他偏差(即，异常)。

例如，基于所获得的图像的特性，诸如某些特征的存在、图像的损坏水平、所获得的图像的颜色变化等，可以确定所成像的对象和/或成像系统的异常。所成像的对象的异常可以例如包括所成像的对象的故障(例如，裂纹)、磨损或退化。此外，图像缺陷或图像损坏的存在可以指示成像系统的缺陷、未对准等。例如，图像可能因为图像写入期间的写入过程的中断、图像捕获装置的聚焦系统的故障而至少部分地损坏。在检测到此类异常后，可以相应地告知用户和/或可以开始校正维护动作。

此外，代替图像，可以使用其他类型的输入数据，例如，基于一个或多个传感器的测量获得的数据、计算机网络流量数据、交易数据(例如，与金融交易相关)等原则上，可以处理表征所观测的一件设备或系统的任何类型的数据。根据本文所述的各种实施例和示例的方法然后可以用于区分正常行为和已知类型的异常，并且还标记未知类型的异常。

此外，可以存在如本文所述的方法和系统的各种应用。可能的应用之一是用于检测由相显微镜获得的图像中的异常。从相衬图像中识别核的任务具有挑战性并且典型地依赖于粘结到核的荧光标记，以提供突出核的位置的额外图像通道。通过应用深度CNN，可以生成并训练将背景与细胞分离并且在不使用荧光标签的情况下从相衬图像中识别细胞的核的模型。如果在来自多个细胞类型的相衬图像上训练CNN，那么CNN还可以识别可能被视作异常的新的先前未预见的细胞类型。为了确定未预见的细胞类型何时与用于CNN训练的细胞类型大有不同，可以应用预测时间异常值检测。如果来自新的细胞类型的相显微镜图像被检测为异常值，那么用户可能接收到以下警告：检测到异常值和/或细胞和背景的CNN分离以及核的检测是不可靠的。在这种情况下，所提供的CNN系统可以发送CNN模型需要重新训练的信号，以便针对新细胞类型将细胞与背景可靠地分离并且从相衬图像中识别核。

又一应用是在诸如机器部件、机器、工业厂房、发电厂等各种类型的技术系统中的异常检测。

例如，在预测性维护中，可以典型地使用物理传感器实时地测量设备。然后可以使用预测性深度学习模型来在错误发生之前检测错误并进行分类。除了已知类型的错误外，如本文所述的方法和系统还提供检测未知类型的错误的可能性，未知类型的错误被可靠地识别为异常值。基于结果，可以自动地确定一件设备何时需要维护以避免失灵。因此，预测性维护系统可以具有定义的行为，甚至在先前未知的故障类型下也是如此。因此，可以实现显著的成本节约并且可以降低设备比预期更早地出故障而潜在地导致灾难性故障或过程停止的风险。

另一示例是在网络安全的技术领域中，例如，用于检测网络入侵。例如，通过使用深度学习对网络流量(即，在网络上的不同计算机之间传送的数据包的日志)进行建模，可以检测指示网络中的恶意行动者的流量模式的微妙变化并且将其分类为入侵。通过使用所提出的方法和系统，当存在先前未预见的模式时，所使用的深度学习模式还可以发出警告，因为此类模型被可靠地识别为异常值。

另一示例是在金融交易(例如，银行)的领域中。在金融计算机网络中，可以例如通过何时/何地/在行动者之间转移多少钱来表征经济交易。使用历史数据，可以训练基于深度学习的分类器以将交易或行动者分类为欺诈性的。使用本发明，当出现新类型的欺诈性交易时或当行动者以先前未预见的方式表现时，深度学习模型可以发出警告。因此，可以提高金融网络系统的安全性。

在以上示例中，历史数据可以用来表征所研究的系统(不论是什么系统)并且训练深度学习神经网络(深度学习模型)。深度学习模型然后可以用来区分正常行为和已知类型的异常。另外，所提出的方法和系统也增加了识别未知类型的异常的可能性。

硬件配置

图9示出了可以用于实施计算系统1的至少一部分和/或执行如上所述的方法的计算机的示例性硬件配置。例如，计算机可以实施上述预测性分析部件。图9所示的计算机7包括中央处理单元(CPU)70、图形处理单元(GPU)88、系统存储器72、网络接口74、硬盘驱动器(HDD)接口76、外部磁盘驱动器接口78以及输入/输出(I/O)接口80。计算机的这些部件经由系统总线82彼此耦合。CPU 70可以通过访问系统存储器72来执行算术、逻辑和/或控制操作。GPU 88可以执行有关深度学习所需的图形图像和/或矩阵运算的处理。GPU 88可以包括多个处理器(例如，核心)，所述多个处理器可以执行并行处理，这可以导致计算系统1的更高性能。CPU 70和/或GPU 88可以实施上述示例性装置和/或系统的处理器。然而，在一些示例中，计算机7不一定包括GPU 88。系统存储器72可以存储信息和/或指令以便与CPU 70结合使用。系统存储器72可以包括易失性和非易失性存储器，诸如随机存取存储器(RAM)720和只读存储器(ROM)722。基本输入/输出系统(BIOS)可以存储在ROM中，该基本输入/输出系统包含有助于诸如在启动过程中在计算机7内的元件之间传送信息的基本例程。系统总线82可以是若干类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线以及使用多种总线架构中的任一种的局部总线。CPU 70还可以经由一个或多个对应的接口(未示出)和总线82连接到一个或多个传感器(未示出)。传感器可以测量物理条件或状态，包括但不限于：温度、pH、压力等。另外地，传感器可以包括其他类型的测量或检测装置，包括但不限于，成像装置、麦克风、光谱传感器等。控制器可以控制物理条件或状态，包括但不限于：温度、磁通量、搅拌等。

计算机可以包括用于经由网络与其他计算机和/或装置通信的网络接口74。

此外，计算机可以包括用于从硬盘(未示出)读取和写入硬盘的硬盘驱动器(HDD)84以及用于从可移动磁盘(未示出)读取或写入可移动磁盘的外部磁盘驱动器86。可移动磁盘可以是用于磁盘驱动器的磁盘或用于光盘驱动器的光盘，诸如CD ROM。HDD 84和外部磁盘驱动器86分别通过HDD接口76和外部磁盘驱动器接口78连接到系统总线82。驱动器及其相关联的计算机可读介质提供计算机可读指令、数据结构、程序模块以及通用计算机的其他数据的非易失性存储。数据结构可以包括用于实施如本文所述的示例性方法及其变型的相关数据。相关数据可以组织在数据库中，例如关系型或对象数据库。

尽管本文所述的示例性环境采用硬盘(未示出)和外部磁盘(未示出)，但本领域技术人员应了解，示例性操作环境中也可以使用可以存储可由计算机访问的数据的其他类型的计算机可读介质，诸如磁带盒、闪存卡、数字视频盘、随机存取存储器、只读存储器等。

许多程序模块可以存储在硬盘、外部磁盘、ROM 722或RAM 720上，包括操作系统(未示出)、一个或多个应用程序7202、其他程序模块(未示出)以及程序数据7204。应用程序可以包括如上所述的功能性的至少一部分。

计算机7可以经由对应的I/O接口80a和80b以及系统总线82连接到输入装置92(诸如鼠标和/或键盘)以及显示装置94(诸如液晶显示器)。在计算机7被实施为平板计算机的情况下，例如，显示信息并接收输入的触控面板可以经由对应的I/O接口和系统总线82连接到计算机7。此外，在一些示例中，尽管图9中未示出，但计算机7还可以经由对应的I/O接口和系统总线82连接到打印机和/或成像装置，诸如相机。

除了使用如图9所示的计算机7的实现方式外或作为替代，本文所述的示例性实施例的功能的一部分或全部可以被实施为一个或多个硬件电路。此类硬件电路的示例可以包括但不限于：大规模集成(LSI)、精简指令集电路(RISC)、专用集成电路(ASIC)以及现场可编程门阵列(FPGA)。

术语表

ASIC 专用集成电路

BIOS 基本输入/输出系统

CD ROM 光盘只读存储器

CNN 卷积神经网络

CPU 中央处理单元

DNN 深度神经网络

GPU 图形处理单元

FPGA 现场可编程门阵列

HDD 硬盘驱动器

HTTP 超文本传送协议

I/O 输入/输出

LSI 大规模集成

LOF 局部异常因子

MC-丢弃法蒙特卡罗丢弃法

MNIST 修改后的国家标准技术局

PCA 主成分分析

RAM 随机存取存储器

ReLu/Relu 修正线性单元

RISC 精简指令集电路

ROC-AUC 受试者操作特性曲线下面积

ROM 只读存储器

RSS 残差平方和

SSH 安全外壳。

Claims

1.一种用于感兴趣的实体中的异常检测的计算机实现的方法，其包括：

接收新观测值，所述新观测值表征所述实体的至少一个参数；

将所述新观测值输入到深度神经网络(100)，所述深度神经网络(100)具有多个隐藏层并且使用训练数据集进行训练，所述训练数据集包括能够输入到所述深度神经网络(100)的可能观测值；

获得通过将接收到的所述新观测值输入到所述深度神经网络(100)而从所述深度神经网络(100)的所述多个隐藏层中的至少一个输出的第二中间输出值集；

使用存储在存储介质中的潜变量模型来将所述第二中间输出值集映射到第二投影值集；

基于所述潜变量模型和所述第二投影值集来确定接收到的所述新观测值相对于所述训练数据集是否为异常值，

通过所述深度神经网络(100)来计算针对所述新观测值的预测；以及

基于所述预测和所述新观测值是否为异常值的确定来确定指示所述实体中的至少一个异常的出现的结果；

其中通过以下操作来构建存储在所述存储介质中的所述潜变量模型：

获得从所述深度神经网络(100)的所述多个隐藏层中的所述一个输出的第一中间输出值集，通过输入所述训练数据集的至少一部分中包括的所述可能观测值中的不同一者来获得所述第一中间输出值集中的每一个；以及

使用所述第一中间输出值集来构建所述潜变量模型，所述潜变量模型提供所述第一中间输出值集到所述潜变量模型的子空间中的第一投影值集的映射，所述子空间具有低于所述中间输出集的维度的维度。

2.根据权利要求1所述的计算机实现的方法，其还包括：

获得所述深度神经网络(100)以用于处理数据和用于训练所述深度神经网络(100)的训练数据集的至少一部分，所述深度神经网络包括多个隐藏层并通过使用所述训练数据集进行训练，所述训练数据集包括能够输入到所述深度神经网络的多个可能观测值；

获得从所述多个隐藏层中的至少一个输出的第一中间输出值集，通过输入所述训练数据集的所述至少一部分中包括的所述可能观测值中的不同一者来获得所述第一中间输出值集中的每一个；

使用所述第一中间输出值集来构建或拟合潜变量模型，所述潜变量模型提供所述第一中间输出值集到子空间中的第一投影值集的映射，所述子空间具有低于所述中间输出集的维度的维度；

将所述潜变量模型和所述第一投影值集存储在存储介质中。

3.根据权利要求1或2所述的方法，其中确定接收到的所述新观测值是否为异常值的步骤包括：

相对于所述第一投影值集的分布来确定所述第二投影值集的距离；以及

如果所计算的距离大于所确定的距离的阈值，则确定接收到的所述新观测值相对于所述训练数据集是异常值。

4.根据权利要求3所述的方法，其中基于距离来确定所述距离的所述阈值，所述距离中的每一个是相对于所述第一投影值集的所述分布而针对所述第一投影值集中的不同一者计算的。

5.根据权利要求3或4所述的方法，其中所述距离是综合距离、残差平方和、马氏距离或局部异常因子中的一个。

6.根据权利要求1至5中任一项所述的方法，其中确定接收到的所述新观测值是否为异常值的步骤包括：

使用所述潜变量模型和所述第二投影值集来确定与所述第二中间输出值集相对应的中间输出值的近似集；

计算所述第二中间输出值集和所述中间输出值的近似集的平方近似残差；以及

如果所计算的平方近似残差大于所述平方近似残差的阈值，则确定接收到的所述观测值相对于所述训练数据集是异常值。

7.根据权利要求6所述的方法，其中基于平方近似残差来确定所述平方近似残差的所述阈值，所述平方近似残差中的每一个是针对所述第一中间输出值集中的不同一者和与所述第一中间输出值集中的所述一者相对应的中间输出值的近似集计算的。

8.根据前述权利要求中任一项所述的方法，其中针对所述多个隐藏层中的两个或更多个来执行获得所述第一中间输出值集和构建所述潜变量模型的步骤；

其中关于所述多个隐藏层中的所述两个或更多个来执行获得所述第二中间输出值集和将所述第二中间输出值集映射到所述第二投影值集的步骤；以及

其中基于所述潜变量模型以及关于所述多个隐藏层中的所述两个或更多个获得的所述第二投影值集来执行确定接收到的所述新观测值是否为异常值的步骤。

9.根据前述权利要求中任一项所述的方法，其中获得从所述深度神经网络(100)的所述多个隐藏层中的至少一个输出的所述中间输出值的步骤包括：确定来自所述多个隐藏层中的所述至少一个的激活值，以及任选地在所确定的激活值上应用全局池化。

10.根据前述权利要求中任一项所述的方法，其中根据主成分分析或使用自动编码器来构建所述潜变量模型。

11.根据前述权利要求中任一项所述的方法，其中基于通过一个或多个传感器的物理测量来获得所述观测值。

12.一种用于实体的预测性维护的计算机实现的方法：

基于来自在所述实体上执行的至少一次传感器测量的传感器数据来获得新观测值；

根据前述权利要求中任一项所述的方法来确定指示所述实体中的至少一个异常的出现的结果；

基于指示所述至少一个异常的出现的所述结果来确定是否应采取校正动作和任选地要采取的所述校正动作的类型。

13.一种计算机程序产品，其包括计算机可读指令，所述计算机可读指令在加载在计算机上并运行时致使所述计算机执行根据前述权利要求中任一项所述的方法。

14.一种用于实体的异常检测或预测性维护的系统，所述系统包括：

数据获取单元，所述数据获取单元用于获得表征所述实体的至少一个参数的一个或多个观测值；

存储介质(12)，所述存储介质存储用于训练深度神经网络(100)的训练数据集，所述深度神经网络(100)包括多个隐藏层并且使用所述训练数据集进行训练，所述训练数据集包括能够输入到所述深度神经网络(100)的可能观测值；以及

预测性分析单元，所述预测性分析单元包括被配置为执行根据权利要求1至12中任一项所述的方法的至少一个处理器。

15.根据权利要求14所述的系统，其还包括：

至少一个传感器，所述至少一个传感器用于测量所述实体的至少一个参数；

数据通信单元，所述数据通信单元用于所述至少一个传感器与所述数据获取单元和/或所述至少一个处理器之间的数据传送。