CN114297036B

CN114297036B - 数据处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN114297036B
Application number: CN202210006917.7A
Authority: CN
Inventors: 黄涛; 李瑞鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-06-09
Anticipated expiration: 2042-01-05
Also published as: CN114297036A

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备及可读存储介质，涉及人工智能、游戏及云技术领域。该方法包括：获取目标设备的至少一个设备评估指标的第一观测值和第一观测值对应的历史观测序列；确定各设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度；基于各设备评估指标对应的偏离程度，确定目标设备对应的原始特征；基于目标设备对应的原始特征，通过调用训练好的特征重构模型得到目标设备对应的重构特征；确定目标设备对应的原始特征和重构特征之间的重构误差，基于该重构误差，确定目标设备是否存在异常。基于该方法，能够有效提高设备异常检测的准确性，且该方法能够很好的适用于各种不同的应用场景中。

Description

数据处理方法、装置、电子设备及可读存储介质

技术领域

本申请涉及人工智能、游戏以及云技术领域，具体而言，本申请涉及一种数据处理方法、装置、电子设备及可读存储介质。

背景技术

随着科学技术的飞速发展以及人们生活水平的提高，如何为用户提供更加高性能、高可靠的服务是服务提供商一直关注的重点问题。为了确保服务(尤其是在线服务)的高可用，对服务设备节点的异常检测是必不可少的，以准确及时地发现节点异常。

目前，相关技术中已经存在多种多样的异常检测技术，但是将这些技术直接应用于生产环境中依然存在挑战，很多相关技术的扩展性受限，很难在工业场景中广泛推广，因此，现有的异常检测技术仍需改进。

发明内容

本申请的目的旨在提供一种能够更好的满足实际应用需求的数据处理方法、装置、电子设备及可读存储介质。为了实现该目的，本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种数据处理方法，该方法包括：

获取目标设备的至少一个设备评估指标中每个指标各自的观测数据，一个设备评估指标的观测数据包括第一观测值和第一观测值对应的历史观测序列，历史观测序列包括多个第二观测值；

对于每个设备评估指标，确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度；

基于目标设备的各设备评估指标对应的偏离程度，确定目标设备对应的原始特征；

基于目标设备对应的原始特征，通过调用训练好的特征重构模型得到目标设备对应的重构特征；

确定目标设备对应的原始特征和重构特征之间的重构误差，基于目标设备对应的重构误差，确定目标设备是否存在异常。

另一方面，本申请实施例提供了一种数据处理装置，该装置包括：

数据获取模块，用于获取目标设备的至少一个设备评估指标中每个指标各自的观测数据，一个设备评估指标的观测数据包括第一观测值和第一观测值对应的历史观测序列，历史观测序列包括多个第二观测值；

特征获取模块，用于对于每个设备评估指标，确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度；以及用于基于目标设备的各设备评估指标对应的偏离程度，确定目标设备对应的原始特征；

特征重建模块，用于基于目标设备对应的原始特征，通过调用训练好的特征重构模型得到目标设备对应的重构特征；

异常判断模块，用于确定各设备评估指标对应的原始特征和重构特征之间的重构误差，基于目标设备对应的重构误差，确定目标设备是否存在异常。

可选的，对于每个设备评估指标，特征获取模块通过执行以下至少一项确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度：

基于该设备评估指标的历史观测序列，拟合该设备评估指标对应的观测值的第一概率密度分布；确定第一观测值对应于第一概率密度分布的第一累计概率；

确定该设备评估指标的历史观测序列中的极值；基于历史观测序列中的极值，拟合该设备评估指标对应的极值的第二概率密度分布；确定第一观测值对应于第二概率密度分布的第二累计概率；

其中，该设备评估指标对应的偏离程度包括第一累计概率或第二累计概率中的至少一项。

可选的，对于每个设备评估指标，特征获取模块在确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度时，可以用于：

对该设备评估指标的观测数据进行显著性检测变换，得到观测数据对应的显著性数据；基于显著性数据，确定该设备评估指标的第一观测值相对于观测数据的偏离程度。

可选的，对于每个设备评估指标，特征获取模块在基于显著性数据，确定该设备评估指标的第一观测值相对于观测数据的偏离程度，可以执行以下至少一项：

将显著性数据中第一观测值对应的第一显著性特征值，作为第一特征值；

基于显著性数据中其他显著性特征值，拟合该设备评估指标对应的第三概率密度分布；确定第一显著性特征值相对于第三概率密度分布的第三累计概率；其中，其他显著性特征值是显著性数据中除第一显著性特征值之外的显著性特征值；

确定显著性数据中其他显著性特征值中的极值；基于其他显著性特征值中的极值，拟合该设备评估指标对应的第四概率密度分布；确定第一显著性特征值相对于第四概率密度分布的第四累计概率；

其中，该设备评估指标对应的偏离程度包括第一特征值、第三累计概率或第四累计概率中的至少一项。

可选的，异常判断模块在确定目标设备是否存在异常时用于：

若目标设备对应的重构误差大于或等于误差阈值，确定目标设备存在异常；若目标设备对应的重构误差小于误差阈值，确定目标设备不存在异常；

其中，误差阈值是通过以下方式确定的：

获取验证数据集，验证数据集中包括多个验证样本，每个验证样本包括一个第一设备对应于各设备评估指标的观测数据；基于各验证样本对应的观测数据，获取各验证样本对应的原始特征；基于各验证样本对应的原始特征，通过特征重建模型，得到各验证样本对应的重构特征；基于各验证样本对应的原始特征和重构特征，确定各验证样本对应的重构误差；基于各验证样本对应的重构误差，确定误差阈值。

可选的，目标设备对应的原始特征包括目标设备的各设备评估指标对应的原始特征，异常判断模块还可以用于：

在目标设备存在异常时，基于目标设备的各设备评估指标对应的原始特征和重构特征，确定目标设备的各设备评估指标对于该目标设备对应的重构误差的贡献度；基于目标设备的各设备评估指标对应的贡献度，确定目标设备的各设备评估指标中的潜在异常指标。

可选的，特征重构模型是由模型训练装置通过以下方式对初始神经网络模型进行训练得到的：

获取训练数据集，训练数据集中包括至少一个样本设备对应的多个训练样本，每个训练样本包括一个样本设备对应于各设备评估指标的样本观测数据，样本观测数据包括一个样本观测值和该样本观测值对应的历史观测序列；

对于每个训练样本，确定该训练样本中每个设备评估指标的样本观测值相对于该样本观测值对应的历史观测序列的偏离程度，并基于该训练样本对应于各设备评估指标的偏离程度，得到该训练样本对应的原始特征；

基于各训练样本对应的原始特征对神经网络模型进行重复训练，直至神经网络模型对应的训练总损失满足预设的训练结束条件，得到特征重构模型；

其中，神经网络模型的输入为训练样本对应的原始特征，输出为训练样本对应的重构特征，训练总损失是基于各训练样本对应的原始特征和重构特征确定的。

可选的，特征重构模型还可以由模型更新装置通过执行以下操作得到更新后的特征重构模型：

获取候选数据集，候选数据集中包括多个候选样本；获取各候选样本对应的原始特征；基于各候选样本对应的原始特征，通过特征重构模型，得到各候选样本对应的重构特征；基于各候选样本对应的原始特征和重构特征，确定各候选样本对应的预测误差；基于各候选样本对应的预测误差，从各候选样本中确定出不确定样本，其中，不确定样本包括按照预测误差由大至小的顺序，对应的预测误差排序靠前的设定数量的候选样本，或者对应的预测误差大于或等于设定值的候选样本中的至少一项；

基于不确定样本对应的原始特征，对特征重构模型进行优化训练，得到更新后的特征重构模型。

可选的，上述多个训练样本包括多个第一样本和多个第二样本，其中，第一样本为正常样本设备对应的训练样本，第二样本为异常样本设备对应的训练样本；模型训练装置在对神经网络模型进行训练时，执行以下操作：

对于每个训练样本，将该训练样本对应的原始特征输入至神经网络模型中，通过神经网络模型预测该训练样本对应的重构特征；基于多个第一样本对应的原始特征和重构特征之间的差异，确定第一训练损失；基于多个第二样本对应的原始特征和重构特征之间的相似度，确定第二训练损失；基于第一训练损失和第二训练损失，确定训练总损失；若训练总损失满足训练结束条件，则基于满足训练结束条件的神经网络模型得到特征重构模型；若训练总损失不满足训练结束条件，则对神经网络模型的模型参数进行调整，并基于多个训练样本对应的原始特征继续对神经网络模型进行训练。

可选的，对于每个训练样本，该训练样本对应的重构特征是通过以下方式得到的：

将该训练样本对应的原始特征输入至神经网络模型的编码网络，通过编码网络得到该原始特征对应的隐层特征；确定隐层特征对应的概率密度分布，基于概率密度分布进行采样，得到该训练样本对应的编码特征；将编码特征输入至神经网络模型的生成网络中，通过生成网络得到该训练样本对应的重构特征；

模型训练装置还用于：基于各第一样本对应的隐层特征对应的概率密度分布和参考概率密度分布之间的差异，确定第三训练损失；

其中，上述训练总损失是基于第一训练损失、第二训练损失和第三训练损失确定的。

另一方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器，存储器中存储有计算机程序，处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机产品包括计算机程序，该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。

本申请实施例提供的技术方案带来的有益效果如下：

本申请实施例提供的数据处理方法，在基于目标设备的各设备评估指标的观测数据来判别目标设备是否存在异常时，从异常的本质出发，将各设备评估指标的观测数据转化为最新的观测值(即第一观测值)相对于观测数据的偏离程度，并采用各设备评估指标对应的偏离程度作为评估设备是否异常的输入数据，采用该处理方法，可以将各设备评估指标的观测数据转化为同一个维度的特征数据，可有效避免由于不同设备评估指标的观测数据的分布不同造成的检测结果不准确的问题，有效提高检测的准确性。进一步的，由于转化后的特征数据，是从异常定义的思想出发基于观测数据得到的最新的观测值相对于观测数据的偏离程度，转换后的数据具有很好的通用性，因此，本申请实施例提供的方法，在不同的实体设备之间是共通的，能够很好的跨实体使用，训练好的特征重构模型可以应用于到任意的电子设备上用于设备是否异常的检测，可以在工业场景中广泛推广使用，更好的满足了实际应用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2为一段时间内一个设备评估指标的观测值的变化示意图；

图3为本申请实施例提供的一种数据处理系统的架构示意图；

图4为本申请一示例中提供的一种设备发生异常时多个设备评估指标对应的原始特征的示意图；

图5为本申请实施例提供的一种正常样本和异常样本对应的预测误差的示意图；

图6为本申请实施例提供的一种数据处理装置的结构示意图；

图7为本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”或者“至少一项”指示该术语所限定的项目中的至少一个，例如“A和/或B”、“A或B中的至少一项”或者“A和B中的至少一项”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。在描述多个(两个或两个以上)项目时，如果没有明确限定多个项目之间的关系，这多个项目之间可以是指多个项目中的一个、多个或者全部，例如，对于“参数A包括A1、A2、A3”的描述，可以实现为参数A包括A1或A2或A3，还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。

本申请实施例提供的方案，是针对现有设备异常检测技术中存在的检测准确性不理想、技术可扩展性弱，不能够满足实际工业场景应用需求的问题，提出的一种数据处理方法，本申请实施例提供的该方法具有很好的可扩展性，可适用于任意电子设备的异常检测，且经实验证明，本申请实施例提供的该方法，能够有效提高异常检测的准确性。

可选的，本申请实施例提供的数据处理方法，可以基于人工智能(ArtificialIntelligence，AI)技术实现。比如，目标设备对应的重构特征的获取可以是通过训练好的特征重构模型实现。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步，人工智能技术已经在多个领域广泛展开研究和应用，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

可选的，本申请实施例中所涉及的数据处理可以基于云技术(Cloud technology)实现，比如，上述特征重构模型的训练中涉及到的数据计算、目标设备的各个设备评估指标对应的观测数据的处理等都可以基于云技术实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供的数据处理方法可以由任意的电子设备执行，如可以由用户终端或服务器执行。其中，服务器包括但不限于物理服务器或云服务器，还可以是服务器集群等。上述用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。

下面对本申请提供的多种可选实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1示出了本申请实施例提供的一种数据处理方法的流程示意图，该方法可以由用户终端或服务器执行，如图1中所示，本申请实施例提供的该方法可以包括以下步骤S110至步骤S150。

步骤S110：获取目标设备的至少一个设备评估指标中每个指标各自的观测数据，一个设备评估指标的观测数据包括第一观测值和第一观测值对应的历史观测序列。

其中，目标设备可以是任意的实体粒度的电子设备，可以是用户设备或服务器，目标设备可以是物理设备，也可以是虚拟机设备，比如，目标设备可以是云服务业务场景下的云服务器、容器等物理实体，也可以是为微服务结构中的逻辑实体。本申请实施例提供的方法，可以是由目标设备执行，也可以是其他设备执行，目标设备或其他设备可以基于目标设备的至少一个设备评估指标的观测数据，通过执行本申请实施例提供的方法，来判断目标设备是否存在异常。

设备评估指标是指可以用于评估设备运行状态的参数。上述至少一个设备评估指标具体是哪些评估指标本申请实施例不做限定，可以根据实际应用需求和应用场景配置。可选的，上述至少一个设备评估指标可以包括CPU(central processing unit，中央处理器)利用率、负载、物理内存使用率、IO(Input/Output，输入/输出)使用率等多个指标中的至少一个。其中，在实际应用中，上述所列举的各项设备评估指标中的每个指标还可以进一步划分，比如，CPU利用率可以包括CPU最大利用率或CPU平均利用率中的至少一项，IO利用率可以包括IO最大利用率或IO平均利用率中的至少一项。

对于任一设备评估指标，该设备评估指标的观测数据是指该评估指标的原始数据，即采集到的该评估指标的真实指标值。本申请实施例中，任一设备评估指标的观测数据包括多个观测值，可选的，多个观测值可以是连续采集得到的，为了描述方便，将观测数据中最后获取到的(也就是最新获取到的)一个观测值称为第一观测值，将除第一观测值之外的多个第二观测值称为该第一观测值对应的历史观测序列，即多个第二观测值的获取时间在第一观测值的获取时间之前。

由于目标设备的各设备评估指标的观测数据是该设备的各个指标的真实指标值，因此，可以将这些观测数据作为原始数据用于评估设备是否存在异常。对于观测数据的长度(即观测数据包括的观测值的个数)本申请实施例不做限定，可选的，观测数据可以是一个设定长度(如w)的窗口中的观测值，也就是说观测值的数量可以是w，w的具体取值可以根据实际应用需求配置。

步骤S120：对于每个设备评估指标，确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度。

步骤S130：基于目标设备的各设备评估指标对应的偏离程度，确定目标设备对应的原始特征。

步骤S140：基于目标设备对应的原始特征，通过调用训练好的特征重构模型得到目标设备对应的重构特征。

步骤S150：确定目标设备对应的原始特征和重构特征之间的重构误差，基于目标设备对应的重构误差确定目标设备是否存在异常。

在现有技术中，对于异常的检测，通过都是直接采用原始观测数据作为输入，然而，在实际应用中，来自不同实体(即设备)的观测数据所遵循的分布通常是不同的，适用于一个实体的异常检测方式通常很难与其他实体共享，现有异常检测方式难以跨实体应用，因此很难在工业场景中广泛推广，不能够满足实际应用需求。

作为一个示例，图2(a)和图2(b)中分别展示了云服务器A和云服务器B一周内的CPU利用率的示意图，图2(c)是在时间序列窗口大小为w的时间窗口内，云服务器A中若干标准化后的CPU利用率(可以视为训练数据)的示意图，图2(d)是在相同的时间窗口内，云服务器B中一条标准化后的CPU利用率(可以视为一条测试数据)的示意图。通过比对不难发现，相对于云服务器A的CPU利用率表现，云服务器B的数据表现都是非预期的，采用云服务器A的CPU利用率数据训练出来的模型，很难直接应用到云服务器B上。而在实际的工业应用环境中，可能会有数以百万计的电子设备(如云服务器)在线，为每个电子设备训练一个模型是不可接受的，因此，如果提升训练得到的模型的通用性，也是实际应用中需要解决的很重要的一个问题。

针对上述问题，本申请实施例提供的方法，在基于目标设备的各设备评估指标的观测数据对目标设备进行异常检测时，通过对目标设备对应的观测数据进行转化处理，以找到不同实体之间的共同性，将该观测数据转化为了在各不同实体之间通用的数据特征(即原始特征)，从而使得无论目标设备是哪个设备，都可以基于该目标设备对应的转化处理后的数据特征，实现对设备是否异常的准确判断。

具体的，本申请实施例提供的方法，借用异常定义的思想，虽然不同实体的观测数据服务不同的数据分布，但是同一实体在一定的时间窗口内观测数据是服从相同的数据分布的，因此，新的观测值相对于历史观测序列的偏离程度在各实体间是共通的。基于此，本申请提供的数据处理方法，通过计算目标设备的设备评估指标的观测数据中第一观测值相对于该观测数据的偏离程度，得到目标设备对应的原始特征，并将该原始特征用作评估目标设备是否存在异常的输入数据，通过特征重构模型来生成该原始特征对应的重构特征，基于原始特征和重构特征之间的重构误差来进一步评估目标设备是否存在异常。

其中，在得到目标设备的各设备评估指标对应的偏离程度之后，可以直接将偏离程度作为原始特征，也可以是对偏离程度进行一些预处理后得到原始特征。可选的，可以将各设备评估指标对应的偏离程度分别进行取对数变换，将变换后的数据作为原始特征，采用取对数处理既不会改变数据原始的相对关系，还可以有效避免各设备评估指标对应的偏离程度中出现数据倾斜的问题，使得数据之间相对更加平稳。此外，采用该数据处理方式，在基于训练数据集对特征重构模型进行训练时，还可以加快模块的收敛速度，加快模型的训练速度。

其中，特征重构模型的具体模型结构本申请实施例不做限定，可以是基于现有生成网络的神经网络模型，特征重构模块是基于训练数据集对初始化的神经网络模型进行不断训练得到的，该模型可以基于电子设备对应的原始特征生成对应的重构特征。具体的，将原始特征输入至特征重构模型之后，该模型可以通过其编码网络对原始特征进行编码处理即特征提取，得到降维后的编码特征，并可以基于该编码特征通过模型的生成网络重建出对应的重构特征。通过不断的训练学习，可以使得特征重构模型能够基于原始特征重构出尽量接近的重构特征。其中，上述训练数据集中可以包括一个或多个样本设备的各设备评估指标的样本观测数据。在训练时，模型的输入是各训练样本对应的原始特征，输出是各训练样本对应的重构特征。

异常检测是一种用于识别不符合预期行为的异常模式的技术，可以通过数据挖掘方法发现与数据集分布不一致的异常数据。目标设备对应的原始特征和重构特征之间的重构误差可以作为原始特征变异性的度量，重构误差越大表明原始特征出现异变的可能性越大，也就是说各设备评估指标的观测数据中出现异常数据的概率越大，因此，可以基于重构误差来判断目标设备是否出现异常。

其中，在确定出目标设备对应的重构误差之后，基于目标设备对应的重构误差确定目标设备是否存在异常，可以包括：

若目标设备对应的重构误差大于或等于误差阈值，确定目标设备存在异常；若目标设备对应的重构误差小于误差阈值，确定目标设备不存在异常。

作为一可选方案，误差阈值可以是根据实验值和/或经验值配置的。

为了得到更优的、具有更好通用性的误差阈值，本申请实施例提供了一种误差阈值的获取方式，具体可以包括：

获取验证数据集，验证数据集中包括多个验证样本，每个验证样本包括一个第一设备对应于各设备评估指标的观测数据；

基于各验证样本对应的观测数据，获取各验证样本对应的原始特征；

基于各验证样本对应的原始特征，通过特征重建模型，得到各验证样本对应的重构特征；

基于各验证样本对应的原始特征和重构特征，确定各验证样本对应的重构误差；

基于各验证样本对应的重构误差，确定误差阈值。

其中，验证数据集是在对特征重构模型进行训练时，用于评估模型的样本数据集。为了训练数据集区分，将验证数据集中的样本数据称为验证样本。每个验证样本包括一个第一设备(可以是任意电子设备)的各设备评估指标的观测数据，同样的，该观测数据和目标设备对应的观测数据的形式是相同的，该观测数据也是包括一个观测值和观测值对应的历史观测序列。可选的，训练数据集中可以包括多个不同的第一设备对应的验证样本，以丰富样本的来源。

对于每个验证样本，基于该验证样本的观测数据，获取该验证样本对应的原始特征的方式与前文中获取目标设备对应的原始特征的方式相同，即对于一个验证样本对应的每个设备评估指标，确定验证样本中该评估指标的观测数据中的上述一个观测值相对于其历史观测序列的偏离程度，基于该验证样本中各评估指标对应的偏离程度，得到该验证样本对应的原始特征。

同样的，在得到验证样本对应的原始特征之后，可以基于该原始特征，通过训练好的特征重构模型得到验证样本对应的重构特征，并基于该原始特征及其对应的重构特征，得到该验证样本对应的重构误差。

由于各验证样本对应的重构误差是基于训练好的特征重构模型，确定出的多个样本数据对应的特征重构误差，这些样本数据对应的重构误差可以反映出通过训练好的模型重构出的重构特征与对应的原始特征之间的偏差分布情况，因此，可以基于这些样本数据对应的重构误差，得到一个可以很好的用于判别重构误差对应的设备是否存在异常的误差阈值。

可选的，在确定出各验证样本对应的重构误差之后，可以基于这些重构误差中的部分较大值来确定上述误差阈值，比如，可以将各验证样本对应的重构误差按照由大至小的顺序进行排序，将排序靠前的一定数量的重构误差作为参考误差，基于这些误差确定误差阈值，如将这些参考误差的均值作为误差阈值。

可选的，为了使得确定出的误差阈值更加合理，在得到各验证样本对应的重构误差之后，可以基于这些重构误差，采用网格搜索策略确定出最优阈值，将该阈值作为最终的误差阈值。具体的，为了提高网络搜索的效率，可以先确定一初始阈值，再根据初始阈值设置网格空间，采用网格搜索策略找到具有最优阈值。具体的，可以采用运用极值理论的POT(peaks-over threshold，超越门限模型)对这些验证样本的重构误差进行分析，自动选择出初始阈值，再基于初始阈值，选择出各验证样本对应的重构误差中与该初始阈值的差值在一定范围内的各重构误差，再基于选择出的这些重构误差采用网格搜索策略确定出最优阈值。可选的，在确定最优阈值时，可以配置一个或多个阈值评估指标，基于阈值评估指标来确定最优阈值，比如，阈值评估指标可以是F1-score(即F1分数)，可以采用网格搜索策略找到具有更高F1-score的最优阈值作为最终的误差阈值。

本申请实施例提供的数据处理方法，在基于目标设备的各设备评估指标的观测数据来判别目标设备是否存在异常时，从异常的本质出发，将设备评估指标的观测数据转化为观测值相对于观测数据的偏差程度，并采用各设备评估指标对应的偏差程度作为评估设备是否异常的输入数据，而并非直接采用观测数据本身，采用本申请实施例提供的该处理方法，可以将各设备评估指标的观测数据转化为同一个维度的特征数据，可有效避免由于不同设备评估指标的观测数据的分布不同造成的检测结果不准确的问题，有效提高了检测的准确性。进一步的，由于转化后的特征数据，是从异常定义的思想出发对原始的观测数据进行处理得到的，数据的转化处理方式具有很好的通用性，该处理方式在不同的实体设备之间是共通的，因此，本申请实施例提供的方法，能够很好的跨实体共享，训练好的特征重构模型可以应用于到任意的电子设备上用于设备是否异常的检测，可以在工业场景中广泛推广使用，更好的满足了实际应用需求。

本申请的可选实施例中，对于每个设备评估指标，上述确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度，可以包括以下至少一项：

一个观测序列对应的概率密度分布能够反映该序列中的各观测值的数据分布。通常，一定时间窗口内的观测序列通常都是符合相同的数据分布规律，基于此，本申请的该实施例中，对于每个设备评估指标，可以基于该指标的观测数据中的历史观测序列来拟合得到该观测数据对应的第一概率密度分布，由于该观测数据中的第一观测值是该观测数据中的相对最新的观测值，因此，可以采用该第一观测值相对于该第一概率密度分布的第一累计概率来衡量该观测值相对于其历史观测序列的偏离程度。可选的，第一概率密度分布可以采用高斯分布，在假设一个设备评估指标对应的观测数据是符合高斯分布的前提下，通过历史观测序列拟合得到对应的高斯分布(即估计该历史观测序列对应的概率密度函数)，之后则可以计算第一观测值在该分布中的累计概率来表征该观测值的偏离程度。

对于一个设备评估指标，该设备评估指标对应的第二概率密度分布是该评估指标的历史观测序列中的极值所对应的数据分布。极值理论认为偏离正常分布的极端值(即极值)也是服务同一分布的，比如，在实际的工业环境中，由于定时调度任务的影响，设备的在线CPU利用率在任务调度时刻会存在突增，而这些突增时刻的CPU利用率也是正常观测值。基于此，本申请提供的可选方案中，还通过拟合历史观测序列中的这些极端值的概率密度分布，并以此来衡量新观测值(即第一观测值)的偏离程度。

其中，上述极值可以包括上极值或下极值中的至少一项。作为一可选方案，极值可以包括上极值和下极值，相应的，上述在确定该设备评估指标的历史观测序列中的极值之后；可以基于历史观测序列中的上极值，拟合该设备评估指标对应的上极值的第二概率密度分布，可以基于历史观测序列中的下极值，拟合该设备评估指标对应的下极值的第二概率密度分布，并可以分别计算第一观测值相对应这两个第二概率密度分布的第二累计概率，将这两个第二累计概率分布作为第一观测值的偏离程度的数学表征。也就是，上述第二累计概率可以包括第一观测值相对于上极值的概率密度分布的累计概率或第一观测值相对于下极值的概率密度分布的累计概率中的至少一项。

可选的，对于第一累计概率或第二累计概率中的任一累计概率，该累计概率可以包括对应的概率密度分布中第一观测值对应的右侧的累计概率(第一概率密度分布中大于或等于第一观测值的取值对应的累计概率)或第一观测值对应的左侧的累计概率(第一概率密度分布中小于或等于第一观测值的取值对应的累计概率)中的至少一项。

作为一种实际实施方式，上述第一累计概率可以包括第一概率密度分布中第一观测值对应的右侧的累计概率和第一观测值对应的左侧的累计概率，比如可以是两侧的累计概率之和，或者可以分别包括两侧各自对应的累计概率。第一观测值相对于上极值的概率密度分布的累计概率，可以是上极值的概率密度分布中第一观测值对应的右侧的累计概率，第二观测值相对于下极值的概率密度分布的累计概率，可以是下极值的概率密度分布中第一观测值对应的左侧的累计概率。

对于基于历史观测序列或极值数据拟合得到对应的概率密度分布(即概率密度函数)的具体方式，本申请实施例不做限定，可以采用现有任意的概率密度分布拟合算法实现，比如，可以采用核密度估计(Kernel Density Estimate，KDE)方式来拟合历史观测序列或极值的概率密度分布。

本申请的可选实施例中，对于每个设备评估指标，上述确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度，可以包括：

对该设备评估指标的观测数据进行显著性检测变换，得到观测数据对应的显著性数据；

基于显著性数据，确定该设备评估指标的第一观测值相对于观测数据的偏离程度。

对于任一观测数据，通过对该观测数据进行显著性检测变换，可以使得该观测数据中的突出部分变得更加显著，也就是说，观测数据对应的显著性数据可以更好的突显出观测数据中的可能异常的数据，使得观测数据中的潜在异常的观测值的特征变得更加明显。因此，可以通过对设备评估指标的观测数据进行显著性检测变换，基于观测数据对应的显著性数据来确定观测数据中的第一观测值相对于该观测数据的偏离程度。可选的，可以将显著性数据中第一观测值对应的第一显著性特征值(也就是显著性数据中第一观测值对应的值)作为其偏离程度的一种数据表征。

对设备评估指标的观测数据进行显著性检测变换的具体变换处理方式，本申请实施例不做限定。比如，可以基于训练好的神经网络模型来实现。作为一可选方案，可以采用谱残差变换的方式来获取观测数据对应的显著性数据，也就是显著图(Saliency Map)，谱残差变换可以通过傅里叶变换计算观测数据对应的对数振幅谱，并基于对数振幅谱计算得到对应的谱残差，之后可以通过傅里叶逆变换再将谱残差转化为时域数据的显著图，也就是变换后的数据序列。

本申请的可选实施例中，对于目标设备的每个设备评估指标，上述基于显著性数据，确定该设备评估指标的第一观测值相对于观测数据的偏离程度，可以包括以下至少一项：

基于显著性数据中其他显著性特征值，拟合该设备评估指标对应的第三概率密度分布；确定第一显著性特征值相对于第三概率密度分布的第三累计概率；其中，其他显著性特征值是显著性数据中除第一显著性特征值之外的各特征值；

也就是说，在基于显著性数据确定第一观测值相对于观测数据的偏离程度时，可以将显著性数据中第一观测值对应的显著性特征值作为新的第一观测值，其他观测值对应的显著性特征值作为新的历史观测序列，可以通过拟合新的历史观测序列对应的概率密度分布得到新的第一观测值对应的第三累计概率，通过拟合新的历史观测序列中的极值对应的概率密度分布得到新的第一观测值对应的第四累计概率，将第一观测值对应的显著性特征值、第三累计概率或第四累计概率中的至少一项作为第一观测值对应的偏离程度的数学表征。

其中的，对于第三累计概率的可选实现方式，可以参考前文中对于第一累计概率的描述，对于第四累计概率的可选实现方式，可以参考前文中对于第二累概率的描述，原理是相同的，只是第三累计概率和第四累计概率是基于显著性数据得到的，第一累计概率和第二累计概率是基于原始观测数据得到的。

作为实际实施中的一种可选方案，每个设备评估指标的观测数据中第一观测值相对于该观测数据的偏离程度，可以包括上述第一累计概率、第二累计概率、第一特征值、第三累计概率或第四累计概率中的至少一项。

在得到目标设备的各设备评估指标对应的偏离程度之后，则可以基于该偏离程度得到目标设备对应的原始特征，如，将每个设备评估指标对应的各偏离程度分别进行取对数转换，将转换后的各个值作为目标设备对应的原始特征，其中，目标设备对应的原始特征包括目标设备的各设备评估指标对应的原始特征。假设各设备评估指标的指标数量一共有n个，每个设备评估指标对应的偏离程度包括k个特征值，则目标设备对应的原始特征可以表示为一个n×k的特征矩阵，n为矩阵的行数，k为矩阵的列数，每一行则代表了一个设备评估指标对应的k个特征值。比如，设备评估指标共11个，每个设备评估指标对应的偏离程度包括上述第一累计概率、上极值对应的第二累计概率、下极值对应的第二累计概率、第一特征值、上极值对应的第四累计概率和下极值对应的第四累计概率这6项，那么k＝6，n＝11，目标设备对应的原始特征则可以表示为11*6的特征矩阵，也就是特征重构模型的输入数据。

得到目标数据对应的原始特征之后，就可以基于该特征，通过特征重构模型进行特征重构，得到该原始特征对应的重构特征，并基于目标设备对应原始特征和重构特征之间的重构误差确定目标设备是否存在异常。其中，若基于重构误差确定目标设备存在异常(如重构误差大于误差阈值)，该方法还可以包括：

基于目标设备的各设备评估指标对应的原始特征和重构特征，确定目标设备的各设备评估指标对于重构误差的贡献度；

基于目标设备的各设备评估指标对应的贡献度，确定目标设备的各设备评估指标中的潜在异常指标。

由于重构误差是由各设备评估指标对应的偏离程度(原始特征是基于偏离程度得到的)以及该偏离程度对应的重构数据(即重构特征)得到的，如果重构误差过大，判定目标设备存在异常，那么该异常也就是由于各设备评估指标的第一观测值对应的偏离程度中存在异常数据导致的，因此，可以基于各设备评估指标对于重构误差的贡献度，来进一步判断哪些设备评估指标可能存在异常，也就是哪些评估指标的观测值中出现了异常数据。

其中，对于任一设备评估指标，该设备评估指标对于重构误差的贡献度表征了该设备评估指标对应的偏离程度所产生的重构误差对于重构误差的重要程度，可选的，一个设备评估指标对于重构误差的贡献度可以是该设备评估指标的原始特征和重构特征之间的误差，也可以是该误差在重构误差中的占比。在基于目标设备的各设备评估指标对应的贡献度之后，可以按照由大至小的顺序，将贡献度排序靠前的设定数目的贡献度对应的设备评估指标确定为潜在异常指标，或者是将大于一定阈值的贡献度对应的备评估指标确定为潜在异常指标，后续可以对这些潜在异常指标进行进一步处理，如可以对目标设备发起相应的异常提醒信息，提醒这些潜在异常指标可能存在异常，可以由技术人员对目标设备进行相应的检测处理，以及时发现潜在问题。

本申请实施例的特征重构模型可以适用于对任意实体设备进行异常检测的应用场景中。对于特征重构模型的具体模型架构本申请实施例不做限定，理论上可以基于任意的生成网络模型实现。可选的，该特征重构模型可以是基于VAE(Variational Auto-Encoder，变分自编码器)的神经网络模型，如可以直接采用VAE，可以基于训练数据集对初始的VAE进行不断训练，直至得到满足条件的模型，可以将满足条件的VAE作为特征重构模型。

可选的，特征重构模型可以是通过以下方式对初始神经网络模型进行训练得到的：

对于每个训练样本，确定该训练样本中每个设备评估指标的样本观测值相对于该样本观测值对应的历史观测序列的偏离程度；

对于每个训练样本，基于该训练样本对应于各设备评估指标的偏离程度，得到该训练样本对应的原始特征；

其中，训练结束条件具体可以包括哪些条件，可以根据实际需求配置，本申请实施例不做限定，模型的训练损失满足训练结束条件可以包括但不限于模型的损失函数收敛，比如，模型训练结束的条件还可以是训练次数达到设定次数。对于不同架构的神经网络模型，模型对应的损失函数的形式可以根据模型的结构和实际应用需要选择。

对于训练数据集中的各个训练样本对应的偏离程度和原始特征的具体得到方式，可以参照前文中确定目标设备对应的偏离程度和原始特征的描述，原理是相同的。同样的，在训练过程中，模型的输入是训练样本对应的原始特征，输出是该原始对应的重构特征。训练模型的目的是使得模型能够基于输入的原始特征重构得到与原始特征尽可能相同的重构特征，因此，可以各训练样本对应的原始特征和重构特征计算模型对应的训练损失，并基于该训练损失来约束模型的训练，通过对模型的模型参数不断进行调整优化，得到满足条件的模型参数。

本申请实施例提供的模型训练方式，可以无需对大量的训练样本进行标记，基于训练样本对应的原始特征和重构特征来约束模型的学习，可以更好的满足实际应用需求，可以在实际应用中得到有效推广。

本申请的可选实施例中，上述多个训练样本包括多个第一样本和多个第二样本，其中，第一样本为正常样本设备对应的训练样本，第二样本为异常样本设备对应的训练样本；上述基于各训练样本对应的原始特征对神经网络模型进行重复训练，直至神经网络模型对应的训练损失满足预设的训练结束条件，得到特征重构模型，可以包括：

对于每个训练样本，将该训练样本对应的原始特征输入至神经网络模型中，通过神经网络模型预测该训练样本对应的重构特征；

基于多个第一样本对应的原始特征和重构特征之间的差异，确定第一训练损失；基于多个第二样本对应的原始特征和重构特征之间的相似度，确定第二训练损失；

基于第一训练损失和第二训练损失，确定训练总损失；

若训练总损失满足训练结束条件，则基于满足训练结束条件的神经网络模型得到特征重构模型；

若训练总损失不满足训练结束条件，则对神经网络模型的模型参数进行调整，并基于多个训练样本对应的原始特征继续对神经网络模型进行训练。

在现有的异常检测模型的训练方式中，通常都是基于正常样本(即一不存在异常的样本设备对应的观测数据)进行模型的训练，但是这种训练方式会导致训练后的模型很容易受到异常输入的影响，如果训练数据集被少数异常样本(即存在异常的样本设备的观测数据)污染，模型会将这些样本表示为正常样本，使得在线服务时很难准确检测异常。为了解决该问题，本申请提供的该可选方案中，同时采用了正常样本(即第一样本)和异常样本(第二样本)对模型进行训练时，以避免模型对异常数据敏感的问题，增加模型的鲁棒性。

具体的，在对模型进行训练时，可以采用少量的异常样本和大量的正常样本同时对模型进行训练，在计算训练总损失时，正常样本对应的第一训练损失可以是正常样本对应的原始特征和重构特征之间的差异，异常样本对应的第二训练损失可以是正常样本对应的原始特征和重构特征之间的相似度，采用该方式，可以让模型学习出的正常样本的重构特征与原始特征越来越接近，而异常样本的重构特征与原始特征具有更高的重建误差，从而可以基于训练好的特征重构模型得到的重构特征和原始特征之间的重构误差，更好的判别出设备是否存在异常，提高异常检测的准确性。

本申请该实施例提供的模型训练方法，可以称为半监督(对正常样本和异常样本进行了区分)的训练，通过该方法训练得到的模型可以称为半监督特征重构模型。

本申请的可选实施例中，特征重构模型可以包括编码网络和生成网络，对于每个训练样本，上述将该训练样本对应的样本特征输入至神经网络模型中，通过神经网络模型预测该训练样本对应的重构特征，可以包括：

将该训练样本对应的原始特征输入至神经网络模型的编码网络，通过编码网络得到该原始特征对应的隐层特征；

确定隐层特征对应的概率密度分布，基于概率密度分布进行采样，得到该训练样本对应的编码特征；

将编码特征输入至神经网络模型的生成网络中，通过生成网络得到该训练样本对应的重构特征；

可选的，该方法还可以包括：

基于各第一样本对应的隐层特征对应的概率密度分布和参考概率密度分布之间的差异，确定第三训练损失；

基于第一训练损失和第二训练损失，确定训练总损失，包括：

基于第一训练损失、第二训练损失和第三训练损失，确定训练总损失。

其中，对应模型的编码网络和生成网络的具体网络结构本申请实施例也不做限定，编码网络可以包括至少一个隐藏层，通过至少一个隐藏层可以对输入到模型的原始特征进行特征提取，得到维度更低且具有更好的特征表达能力的隐层特征，进一步的，为了使得通过编码网络得到的隐层特征的特征分布符合指定的参考概率密度分布(即指定的概率密度分布，比如高斯分布)，在得到隐层特征之后，可以基于隐层特征对应的概率密度分布进行采样，将采样结果作为原始特征对应的编码特征，由生成网络基于编码特征进行特征重构，得到对应的重构特征。

为了使得编码网络输出的隐层特征对应的概率密度分布能够尽量接近参考概率密度分布，可以通过计算各训练样本对应的隐层特征对应的概率密度分布和参考概率密度分布之间的差异，得到第三训练损失，具体的，对于异常样本，即上述第二样本，本申请实施例中不假设异常样本是由随机过程产生的，因此，在计算第三训练损失时，不考虑异常样本对应的该部分损失，即第三训练损失只计算正常样本对应的损失，将第三训练损失也作为训练总损失的一部分，使得模型学习到的隐层特征的概率密度分布尽量符合参考概率密度分布。可选的，对于该可选方案，特征重构模型可以是VAE，基于该方案训练得到的VAE可以称为半监督VAE(Semi-Supervised VAE)。

采用本申请实施例提供的模型训练方式，可以让模型更好的学习到正常样本和异常样本之前的微小差异，解决模型对于输入数据敏感的问题，训练出的模型具有更佳的性能，且基于该模型预测得到的重构特征和对应的原始特征之间的重构误差，可以更加准确的判别出设备是否出现异常，还可以在设备存在异常时，进一步判断哪些设备评估指标可能存在问题。另外，本申请实施例提供的该训练方式，由于是基于不同实体之间都共通的数据特征对模型进行的训练，因此，训练好的特征重构模型可以具有很好可以跨实体共享，且效果仍能够得到保证。

在实际的生产环境应用时，随着时间的推移和应用需求的不断更新进步，电子设备上的应用部署、所执行的任务等都有可能存在更新变化。因此，为了进一步更好的满足实际生产环境中的应用需求，需要对特征重构模型进行不断的优化，比如，可以通过重新获取新的训练数据集对模型进行重新训练，但是该训练方式虽然可以实现模型的更新，但是时间和资源消耗成本都较高。为了解决该问题，本申请实施例提供了一种模型优化方案，基于该方案实现对模型的不断优化，比如，可以周期性的对模型进行优化更新。其中，该模型优化方案可以包括：

获取候选数据集，候选数据集中包括多个候选样本；

获取各候选样本对应的原始特征；

基于各候选样本对应的原始特征，通过特征重构模型，得到各候选样本对应的重构特征；

基于各候选样本对应的原始特征和重构特征，确定各候选样本对应的重构误差；

基于各候选样本对应的预测误差，从各候选样本中确定出不确定样本，其中，不确定样本包括按照预测误差由大至小的顺序，对应的预测误差排序靠前的设定数量的候选样本，或者对应的预测误差大于或等于设定值的候选样本中的至少一项；

为了既能够保证模型的优化效果，又能够提升模型优化的效率，本申请实施例提供的该优化方案引入了主动学习的模型优化方式，该方式可以通过模型来决定哪些样本对于模型的更新具有更好的效果。具体的，可以通过模型来评估各候选样本(也可以成为候选训练样本)对应的预测误差，将其中预测误差较大的一部分候选样本作为新的训练样本来对模型进行优化训练，由于这部分样本属于高度不确定的样本，因此，基于这些样本对模型进行优化训练，可以让模型更好的区分正常异常和异常样本。可选的，在基于不确定样本对应的原始特征对模型进行训练时，可以结合不确定样本和冷启动样本对特征重构模型进行优化训练。其中，冷启动样本可以包括正常样本和异常样本。对于基于不确定样本对应的原始特征，对特征重构模型进行优化训练的具体训练方式，可以采用本申请前文实施例中提供的训练方式，在此不再赘述。

可以理解的是，候选样本是候选训练样本，同样也是包括一个设备的各设备评估指标的观测数据。

需要说明的是，上述候选样本对应的预测误差，可以理解为候选样本对应的训练损失，只是此次特征重构模型是已经训练好的模型，采用该训练好的模对各候选样本的原始特征进行特征重构，并得到对应的训练损失，基于各候选样本对应的训练损失筛选对应的损失较大的部分候选样本作为不确定样本，用于对模型进行优化。候选样本对应的预测误差的计算方式与训练样本对应的训练损失的计算方式可以相同，比如，特征重构模型是VAE，一个候选样本对应的预测误差则可以通过计算该候选样本对应的证据下界(包括期望分量和KL散度分量，具体计算方式将在后文中描述)的值确定，得到各候选样本对应的证据下界的值之后，将对应的证据下界较高的部分候选样本作为不确定样本。

本申请实施例提供的数据处理方法，可以应用于对任何实体设备的智能化检测，比如，可以对云服务业务系统进行全方位智能化地异常检测，可以对微服务架构中的各服务节点进行检测，以准确及时地识别出系统的异常，以确保在线服务质量。本申请实施例提供的该方法，可以适用于所有多元时间序列(即不同实体对应于各个设备评估指标的观测数据)，从异常的本出发，可以将各种多元的时间序列转化到相同尺度下的特征数据(即观测数据对应的偏离程度)，进一步的，可以基于这些特征数据，通过具有很好的性能及通用性的特征重构模型进行设备异常与否的识别。

在工业场景中，本申请提供的数据处理方法能够应用到各种数据平台、检测平台、容量平台、限流平台、网络平台等诸多中台上，提供针对多元时间序列的异常检测能力，以便及时发现诸如云服务器、微服务、容器等实体粒度的异常，以辅助用户及时发现与排查故障。此外，本申请实施例提出的半监督学习思想，适用于所有运维场景，它解决了无监督模型对异常输入敏感、有监督模型依赖大量异常标注样本的风险，拥有极强的正常模式表征能力，基于本申请实施例提供的方案训练得到的特征重构模型可以部署于现在以及未来的云服务的各种业务场景中。

本申请在实际的生产环境中应用时，也表现出了极强的扩展能力。比如，在实际生产环境中，针对所有实体的多元时间序列，运维人员可直接在运维基础计算平台接入本申请实施例提供的同一套异常检测模型(包括将多元时间序列转化为对应的原始特征的计算方式以及特征重构模型)，它极大降低了模型的交付周期，且无需针对新业务场景重新构造样本和训练模型。且特征重构模型还可以基于高度不确定样本定期自动更新，实现了零用户介入的模型自动优化。

作为一示例，本申请实施例提供的方法，可以应用于所有游戏业务中，比如，可以应用于云游戏服务器的实体异常检测。本申请的该方法具备很强的迁移灵活性，在应用于相同类型(比如都是提供云游戏服务的服务器)的各实体上进行时，无需为多个实体分别训练多个模型，可以将一个训练好的模型共享给来自不同游戏业务的所有实体。该方法还可以通过对模型不断进行更新优化，通过模型更新，可以使用优化后的模型检测异常，不断提升检测的准确性，满足实际业务场景不断变化的需求。

本申请实施例提供的数据处理方法，在生产环境中应用的系统架构可包含离线和实时两部分，其中，离线部分用于特征提取模块的开发以及特征重构模型的训练，特征提取模块用于实现基于观测数据得到对应的原始特征的处理，特征重构模型的训练包括基于训练数据集对初始的神经网络模型进行训练得到训练好的特征重构模型、以及周期性的基于不确定样本对特征重构模型进行优化训练。实时部分则是将特征提取模块和训练好的特征重构模型部署到计算机设备上，该计算机设备可以通过特征提取模块(也可以称为特征提取服务)对实时采集的目标设备(可以是该计算机设备，也可以是其它设备)的观测数据进行特征提取，得到对应的原始特征，并可以基于特征重构模型进行特征重构，基于重构特征和原始特征之间的重构误差判断目标设备是否存在异常(该过程可以称为异常检测算法服务)。

图3中示出了基于本申请实施例提供的方法的一种系统架构的示意图，图3(b)展示的该系统架构的离线系统架构由两部分组成，一是在机器学习平台上开发和训练算法，算法工程师可以通过机器学习平台触发模型的训练，并可以将训练好的模型部署到在线系统(即图中所示的实时系统架构)，可选的，可以将特征提取模块(图中所示的特征抽取算子)和训练好的特征重构模型(图中所示的半监督VAE模型)以序列化文件的形式提供给线上服务使用；二是通过离线数据库中存储的少量不确定样本和冷启动样本，在计算平台自动训练已开发的算法(即对已经训练好的模型进行再次训练更新)，并基于优化后的模型(图中所示的重新训练的VAE模型)自动更新在线系统中存储的序列化文件，这样在线系统进行在线异常检测服务时就可以使用重新训练的异常检测模型了。

图3(c)展示了在线系统架构，多元时间序列数据(即目标设备对应的各设备评估指标的观测数据)可以通过实时流系统采集，并存储在实时分布式数据库(图中所示的实时数据缓存)中。当想要部署一个新的实时算法服务时，可以将该服务嵌入到实时流系统。采集得到的观测数据可以临时存储在实时数据缓存内，如果算法(即实现本申请实施例提供的方法实现的计算机程序)依赖的数据长度(即观测数据中观测值的数量)为w，实时数据缓存将存储最近采集得到的w个观测值，该w个观测值即为用于异常检测的观测数据，在线检测服务(包括特征提取服务和异常检测算法服务)通过执行本申请实施例提供的方法，使用实时数据缓存中的数据来判断当前时间目标设备是否存在异常。

图3(a)展示的是基于设备(可以是目标设备或样本设备等)的各设备评估指标的观测数据得到对应的原始特征的处理过程的原理示意图，如图3(a)所示，以目标设备为例，图3中X表示该设备对应的各设备评估指标的观测数据为例，其中，设备评估指标的数量为n个，每个设备评估指标对应的观测数据为w个观测值，即时间窗口为w(由t-w时刻到t时刻)的观测序列，t时刻的观测值为该序列中的最新观测值，其他w-1个观测值为最新观测值对应的历史观测序列，以指标1为例，图中所示的

表示指标1对应的观测数据中的最新观测值，该观测值前面的w-1个观测值为/>

对应的历史观测序列。数据X可以表示为一个n*w的矩阵，每行有w个值，每行表示一个设备评估指标对应的观测数据。

对于数据X，可以通过异常特征抽取，将原始的观测数据转化为对应的原始特征F，其中，原始特征F可以表示为一个n*k的矩阵，每行有k个值，表示一个设备评估指标对应的原始特征，也就是基于每个设备评估指标对应的观测数据得到k个特征值(也就是偏离程度的k个数学表征，如前文中的累计概率，其中，这k个特征值可以是对偏离程度的数学表征取对数后的数值)。之后，可以将原始特征F输入到VAE中，得到对应的重构特征

重构特征/>

同样也是一个n*k的矩阵，每一行表示一个设备评估指标对应的重构特征，通过计算原始特征F和重构特征/>

之间的差异，得到目标设备对应的重构误差，如图3中所示，可以通过将原始特征F和重构特征/>

之间的MSE(Mean Squared Error，均方误差)作为重构误差。如果重构误差大于或等于误差阈值，确定目标设备存在异常，可以发出报警信息进行提示。

另外，图3(a)中还示出了，对于VAE模型，还可以基于候选样本，通过VAE从候选样本中筛选出不确定样本，具体的，可以基于各候样本对应的重构误差从中选择出部分不确定样本，可以基于这部分不确定样本和离线数据库中的冷启动样本对VAE模型进行自动更新。其中，图3(a)中所示出的VAE框架中除虚线部分外的数字表示VAE的各隐藏层的模型参数即神经网络隐藏层的权重矩阵，虚线部分表示VAE的编码网络输出的隐层特征所对应的概率密度分布的参数，包括均值和标准差，基于该均值和标准差可以得到编码网络对应的编码特征，如图3中所示的32×1的特征向量，VAE的生成网络(也就是解码网络)可以基于该编码特征进行特征重建，得到重构特征。

为了更好的说明和理解本申请实施例所提供的方法以及该方法的实用价值，下面结合图3中所示的系统架构对本申请的一种可选实施方式进行具体说明。该可选实施方式中，特征重构模型为VAE，即图3中VAE模型和半监督变分自编码器。

下面从多个方面分别对本申请提供的该可选实施方式进行说明。

第一方面：异常特征提取即获取观测数据对应的原始特征

异常特征提取部分旨在对来自不同实体的时间序列进行相同尺度的异常描述。来自不同实体的原始观测数据服从不同的数据分布，即原始观测数据的序列模式因实体而异，基于部分实体训练的异常检测模型很难与其他实体共享。为了解决这个问题，本申请提供的方案借用异常定义的思想，找到了实体之间的共通性，即虽然不同实体的观测值服从不同分布，但同一实体在w窗口(在设定时间窗口，也就是观测数据的长度)内的观测值服从相同分布，因此，新观测值(观测数据中最新获取的观测值)相对于历史观测序列的偏离程度在各实体间是共通的。本申请中，可使用这种偏离程度作为异常检测算法的输入特征，如此既可在相同尺度下表征异常，同时保证模型可以在实体间的共享。

可选的，可以从三个与异常定义相关的角度来提取特征：统计概率分布、极值理论和谱残差变换。我们假设相同窗口内的观测值服从同一概率分布(如高斯分布)，可以直接使用历史观测序列来拟合观测值的概率密度分布，使用新观测值相对于该概率密度分布的累计概率来衡量其偏离程度。其次，极值理论认为偏离正常分布的极端值也服从同一分布，因此可以拟合历史挂测序列中的这些极端值的概率密度分布，并使用新观测值相对于该概率密度分布的累计概率来衡量新观测值的偏离程度。可选的，再确定历史观测序列中的极值时，可以使用3σ原则来提取历史窗口中的上极值和下极值，并使用新观测值相对于上极值对应的概率密度分布的累计概率以及新观测值相对应下极值对应的概率密度分布的累计概率，作为衡量新观测值偏离程度的异常特征(也就是偏离程度的数学表征)。再者，谱残差变换旨在对原始观测序列进行重构，并使用重构后的残差衡量其异常程度，本申请的可选实施例中，采用谱残差(Spectral Residual)算法来对原始观测序列(即观测数据)进行重构，得到对应的显著图(即显著性数据)，在得到原始观测序列对应的显著图之后，可以再利用统计概率分布和极值理论来提取显著图对应的偏离程度的数学表征。

具体的，在采用谱残差算法来对原始观测序列进行重构时，可以首先通过傅里叶变换得到原始观测序列对应的幅度谱和相位谱，进一步可以基于幅度谱得到让原始观测序列的异常部分变得更加显著的谱残差，之后可以基于谱残差和相位谱，通过逆傅里叶变换将谱残差转化为时域数据的显著图。其中，显著图是对原始观测序列进行重构得到的新的数据序列，该序列中包括原始观测序列中每个观测值对应的显著性特征值，可选的，可以将新观测值对应的显著性特征值(即第一显著性特征值)直接作为偏离程度的数学表征，还可以将该显著图作为新的观测数据，基于该新的观测数据，再利用统计概率分布和极值理论来提取特征，可选的，可以确定该新的观测数据中历史观测序列(即显著图中除第一显著性特征值之外的数据)中的上极值和下极值，将第一显著性特征值相对于该上极值对应的概率密度分布的累计概率以及第一显著性特征值相对应该下极值对应的概率密度分布的累计概率，也作为新的异常特征。

可选的，可以采用核密度估计方式即KDE来拟合历史观测序列的概率密度分布。KDE是一种非参数的概率密度估计手段，它使用原始观测值空间上的内核来估计其概率密度函数，数据空间中每个位置的概率密度依赖于该内核领域内的观测值，对于任一设备评估指标i的历史观测序列中的第j个观测值

该观测值的概率密度计算公式为：

其中，

表示历史观测序列的标准差，n是位于区间/>

内的观测值的数量，x表示位于该区间的任一观测值，采用位于该区间的这部分观测值来估计/>

的概率密度，K(·)是核函数(可选的，可以采用高斯核函数)，h是高斯核函数的带宽参数，其计算公式为：/>

其中，w是历史观测序列中的观测值数量。在得到任意观测值

的概率密度后，可以使用新观测值的累积概率密度来衡量新观测值相对于历史观测序列的偏离程度。

对于基于原始观测序列得到的累计概率密度和与显著图得到的累计概率，可以采用对数函数对累积概率进行转换，并将变换后的值作为异常检测模型的输入特征。

需要说明的是，无论是在离线阶段，还是在在线阶段，样本数据和目标设备对应的观测数据的处理方式的原理都是相同的，都可以采用本申请实施例提供的上述异常特征提取方式得到观测数据中新的观测值对应的各累计概率，并通过对累计概率进行取对数转换，得到模型的输入特征也就是原始特征。

作为一个示例，图4展示了某台生产环境中的云服务器在故障时间点(即存在异常时)的特征。其中，F1是基于统计原始观测数据中历史观测序列对应的概率密度分布提取的特征(第一累计概率)，F2和F3是基于极值理论提取的上极值特征(对应于上极值的第二累计概率)和下极值特征(对应于下极值的第二累计概率)，F4是基于谱残差算法映射后的显著图(第一特征值)，F5和F6是基于显著图的上极值特征(对应于上极值的第四累计概率)和下极值特征(对应于下极值的第四累计概率)。该示例中，设备评估指标包括设备负载(load)、CPU利用率、物理内存使用率(pct memory usage)、IO使用率(IO usage)等在内的11个指标，通过图4可以看出，异常时间点的CPU利用率、负载、物理内存使用率、IO使用率都显著高于历史窗口(历史观测序列)内的观测值。通过图4中的该示意图也可以发现，不同的异常特征可以从不同角度出发，以相同的尺度来描述异常。同时可以看出本申请实施例提供的基于异常思想的特征提取方法，在不同指标间存在相同尺度的异常描述能力，经实验证明，该方法在实体间也存在很强的扩展能力。

第二方面：半监督变分自编码器，即可以采用本申请实施例提供的半监督训练方式对VAE模型进行训练，得到具有很好的鲁棒性的特征重构模型。

变分自编码器是一个深度贝叶斯模型，它假设观测数据是由一个难以观测到的变量z通过随机过程生成的。该随机过程包含两个步骤：1)基于变量z的先验分布p_θ(z)生成一个随机值z(i)；2)基于条件分布p_θ(x|z)生成观测值x(i)，其中，θ是生成模型(即生成网络)的模型参数。基于贝叶斯公式，可知条件分布p_θ(x|z)＝p_θ(z|x)·p_θ(x)/p_θ(z)，而随机变量z的真实后验密度分布p_θ(z|x)是难以计算的，因此，VAE引入一个认知模型(编码网络)q_φ(z|x)来逼近p_θ(z|x)，其中，φ是认知模型的模型参数。可通过优化真实后验分布p_θ(z|x)和估计后验分布q_φ(z|x)的KL散度(第三训练损失部分)来训练认知模型和生成模型的模型参数，这个过程等价于最大化观测值的证据下界(Evidence of Lower Bound，ELBO)，证据下界的计算公式如下：

ELBO由期望分量和KL散度分量两部分组成，可使用蒙特卡罗积分来计算ELBO的期望分量，其计算公式如下：

其中，z^(l),(l＝1，2，…，L)是基于q_φ(z|x)的采样结果。此外，VAE假设潜变量z的先验分布为各向同性的标准多元高斯分布p_θ(z)＝N(z；0,I)，0和I分别表示标准高斯分布的均值和标准差。基于认知网络估计的后验分布为q_φ(z|x)＝p_θ(z)＝N(z；u,σ2I)。因此，证据下界的KL散度分量的计算公式可以表示：

其中，u_j和σ_j是潜变量z第j个元素的均值和标准差，J是潜变量z的向量长度。

然而VAE的上述训练过程容易受到异常输入的影响。进一步分析证据下界的两个组成部分，KL散度分量是将原始观测序列映射到一个标准多元正态分布，期望分量的目的是最小化原始观测序列(该序列对应的原始特征)和生成模型输出(即重构特征)之间的重构误差。现有无监督VAE用于异常检测的思想是异常观测序列不遵循正常序列模式，偏离正常观测序列的数据分布。而如果训练数据集中掺杂少量的异常样本，现有的VAE的训练过程等价于假设正常数据和异常数据是由相同的多元标准正态分布生成的，这导致训练出的模型难以分辨正常数据和异常数据间的微小差异。

为了解决上述问题，本申请实施例提出了一种半监督VAE来检测多元时间序列中的异常的方式，以避免无监督VAE容易受到异常输入影响的风险。具体的，可以先将训练数据集中的训练样本X分为正常数据Xn(即第一样本)和异常数据Xa即(第二样本)。对于正常数据，在对模型训练时，优化函数的期望分量和KL散度分量。对于异常数据，我们不假设异常数据是由随机过程产生的，即不考虑异常数据的KL散度分量。同时我们期望异常数据有更高的重构误差，以便采用重构误差来识别异常。因此，本申请实施例提供的半监督变分自编码器的优化函数(即模型训练的目标函数)可以表示：

在基于训练数据集对模型进行训练时，正常数据对应的训练损失(即第一训练损失和第三训练损失)采用该表达式中的第一个公式计算，异常数据对应的训练损失(第二训练损失)采用该表达式中的第二个公式计算。模型训练的目标是训练数据集中各训练样本对应的训练总损失最小化。在得到满足训练结束条件VAE模型之后，可以将该模型作为特征重构模型，或者采样测试数据集对该模型进行测试，如果该模型对应的测试指标满足预设条件，可以将该模型作为特征重构模型，如果测试指标不满足预设条件，可以对模型继续进行训练，直至模型满足训练结束条件和测试指标满足预设条件，得到最终的特征重构模型。

第三方面，本申请所提供的方案的使用

在得到训练好的特征重构模型之后，可以将该模型部署到需要的计算机设备中，该计算机设备可以基于该模型，通过执行本申请实施例提供的方法进行设备异常的检测。具体的，对于需要检测的目标设备，采集目标设备对应的观测数据，基于本申请实施例提供的方案，可以基于观测数据得到对应的原始特征，将原始特征输入到特征重构模型中，通过模型得到对应的重构特征，计算原始特征和重构特征之间的重构误差，通过比较重构误差是否大于误差阈值，判断目标设备是否存在异常，当重构误差超过阈值时，则认为目标设备在当前时间存在异常。

对于误差阈值，本申请实施例中还提供了一种可选的误差阈值的自动化确定方案，可选的，在模型的离线验证阶段，可以计算每个验证样本的重构误差，得到一组带有标签的重构误差向量{r₁,r₂,…,r_n}，其中，r_n表示第n个样本对应的重构误差。基于{r₁,r₂,…,r_n}，可以应用POT来自动选择一个初始阈值，进一步可以根据该初始阈值设置网格空间，采用网格搜索策略找到具有更高F1-score的最优阈值，将该最优阈值作为上述误差阈值。

第四方面，基于主动学习的模型更新

本申请实施例中还中还提供了一种可以从少量数据中学习和更新上述特征重构模型的方案该方案中引入了主动学习思想，可以通过模型自身来决定哪些样本(即候选样本)可以用来更新模型。具体的，可以采用样本的预测误差来从候选样本中选择不确定性样本，对于VAE而言，可以直接采用样本对应的ELBO来衡量其不确定性，并用于筛选高度不确定性的样本，如可以将各样本对应的ELBO按照由大至小的顺序排序，将排序靠前的k个对应的样本确定为不确定样本，可以基于这部分不确定样本和冷启动样本对模型进行重新训练，得到优化的模型。

作为一个示例，图5展示了通过本申请实施例提供的方案筛选出的不确定样本的ELBO分布和一些正常样本的ELBO分布的对比示意图，其中，图5(a)为不确定样本对应的ELBO分布，图5(b)为正常样本的ELBO分布，图中横坐标表示样本的ELBO的取值，纵坐标表示概率密度，从图5中可以看出，正常样本的EBLO的取值范围集中在(0.002，0.004)，不确定样本的EBLO取值则相对更高。采用不确定样本对模型进行主动优化训练，可以进一步提升模型的鲁棒性，提高异常检测的准确性。

本申请实施例提供的方法，在部署到具体的业务场景中时，可以将该方法对应的计算机程序部署到目标设备上，由目标设备自身基于其各设备评估指标的观测数据进行异常检测。可选的，也可以将该方法对应的计算机程序部署到的独立的计算设备上，由该计算设备完成一个或多个目标设备的异常检测。

以云游戏业务场景为例，在该业务场景中通常会包含上万个待检测的云服务器，基于本申请实施例提供的方案，可以采用同一套异常检测方法来检测这批云服务器的异常情况。可选的，可以将特征抽取服务和异常检测服务(特征重构和基于重构特征判断是否异常)发布为独立的两部分，具体的，可以将特征抽取模块发布为独立的计算节点，上万个IP(即上万个云服务器)的多元观测序列(观测数据)可以按IP分组为原子粒度的计算任务，分别为每个IP独立计算其异常特征(即原始特征)。在后续如果需要对特征抽取模块进行维护与修复时，可以直接修复该计算节点的代码逻辑即可。半监督VAE即特征重构模型也可开发成独立的机器学习节点，其中，模型发布可以包含五个步骤：样本准备、样本切分、模型训练、模型评估和模型发布。待模型训练完成并发布后，使用者可以直接应用该模型。

本发明实施例提供的采用半监督训练方式得到的特征重构模型，能有效避免无监督方法对异常输入敏感的风险，增强模型的鲁棒性，同时通过融合主动学习的优势，可基于少量高度不确定的样本更新在线模型。

可选的，在实践过程中，本申请实施例的方案还可以从如下两个角度进一步扩展：一方面，在获取观测数据对应的原始特征时，可以进一步考虑原观测数据的时域信息，比如，特征重构模型可以采用基于循环神经网络(如LSTM(Long short-term memory，长短期记忆)网络)的模型架构，通过融入循环神经网络，可以更好的捕捉到数据特征中的时域信息。再一方面，在模型更新过程中，在采用冷启动样本和不确定样本来重新训练特征重构模型时，还可以考虑不同时期获取到的不确定样本的重要程度是不同的，如近期收集的不确定样本通常会比很久之前收集的不确定样本更加重要，考虑于此，还可以基于迁移学习(Transfer Learning)和无止境学习(Never End Learning)等方式，学习来自不同时间点的多个不确定样本，还可以根据不确定样本的获取时间，在对模型进行训练时，为不同时间获取到的样本所对应的训练损失赋予不同的权重。

为了验证本申请实施例提供的方法的效果，使用了1000个云服务器对应的数据作为测试数据对模型的效果进行了评估测试，每个云服务器采集了5天共1440个观测数据，即共1000*5*1440＝7200000个样本点(即测试样本)，采用这些样本点对本申请实施例提供的方案和现有技术中的多种异常检测方案进行了比对评估，经测试，基于本申请实施例提供的方案，在异常识别精确率、召回率和F1分数等多个评估指标上，本申请实施例提供的方案具有更优的效果。

基于与本申请实施例提供的方法相同的原理，本申请实施例还提供了一种数据处理装置，如图6中所示，该数据处理装置100可以包括数据获取模块110、特征获取模块120、特征重建模块130和异常判断模块140。

数据获取模块110，用于获取目标设备的至少一个设备评估指标中每个指标各自的观测数据，一个设备评估指标的观测数据包括第一观测值和第一观测值对应的历史观测序列，历史观测序列包括多个第二观测值；

特征获取模块120，用于对于每个设备评估指标，确定目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度；以及用于基于目标设备的各设备评估指标对应的偏离程度，确定目标设备对应的原始特征；

特征重建模块130，用于基于目标设备对应的原始特征，通过调用训练好的特征重构模型得到目标设备对应的重构特征；

异常判断模块140，用于确定各设备评估指标对应的原始特征和重构特征之间的重构误差，基于目标设备对应的重构误差，确定目标设备是否存在异常。

其中，误差阈值是通过以下方式确定的：

获取验证数据集，验证数据集中包括多个验证样本，每个验证样本包括一个第一设备对应于各设备评估指标的观测数据；基于各验证样本对应的观测数据，获取验证数据集中各验证样本对应的原始特征；基于各验证样本对应的原始特征，通过特征重建模型，得到各验证样本对应的重构特征；基于各验证样本对应的原始特征和重构特征，确定各验证样本对应的重构误差；基于各验证样本对应的重构误差，确定误差阈值。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述及有益效果具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法的步骤。

图7示出了本申请实施例所适用的一种电子设备的结构示意图，如图7所示，该电子设备4000包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003中存储有用于实现本申请实施例所提供的方法的计算机程序，并可以由处理器4001来控制执行。处理器4001在执行存储器4003中存储的上述计算机程序时，可以实现本申请前述任一方法实施例所示的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现本申请前述任一方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，该计算机产品中包括计算机程序，计算机程序被处理器执行时可实现本申请前述任一方法实施例的步骤及相应内容。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标设备的至少一个设备评估指标中每个指标各自的观测数据，一个设备评估指标的观测数据包括第一观测值和所述第一观测值对应的历史观测序列，其中，所述第一观测值为所述观测数据中最新采集到的观测值；

对于每个所述设备评估指标，确定所述目标设备的该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度；

基于所述目标设备的各所述设备评估指标对应的偏离程度，确定所述目标设备对应的原始特征；

基于所述目标设备对应的原始特征，通过调用训练好的特征重构模型得到所述目标设备对应的重构特征，所述特征重构模型是基于训练数据集对神经网络模型进行训练得到的，所述训练数据集中的每个训练样本包括一个样本设备对应于各所述设备评估指标的样本观测数据，所述神经网络模型的输入和输出分别为所述训练样本对应的原始特征和重构特征，模型的训练总损失是基于各所述训练样本对应的原始特征和重构特征确定的；

确定所述目标设备对应的原始特征和重构特征之间的重构误差，基于所述目标设备对应的重构误差确定所述目标设备是否存在异常；

其中，一个设备评估指标的第一观测值相对于该指标的观测数据的偏离程度，包括通过以下方式确定的第一累计概率、第二累计概率、第一特征值、第三累计概率或第四累计概率中的至少一项：

基于该指标的历史观测序列，拟合该指标对应的观测值的第一概率密度分布；确定所述第一观测值对应于所述第一概率密度分布的第一累计概率；

基于该指标的历史观测序列中的极值，拟合该指标对应的极值的第二概率密度分布；确定所述第一观测值对应于所述第二概率密度分布的第二累计概率；

将所述观测数据对应的显著性数据中所述第一观测值对应的第一显著性特征值，作为第一特征值；

基于所述显著性数据中其他显著性特征值，拟合该指标对应的第三概率密度分布；确定所述第一特征值相对于所述第三概率密度分布的第三累计概率；所述其他显著性特征值是所述显著性数据中除所述第一特征值之外的各特征值；

基于所述显著性数据中其他显著性特征值中的极值，拟合该指标对应的第四概率密度分布；确定所述第一特征值相对于所述第四概率密度分布的第四累计概率。

2.根据权利要求1所述的方法，其特征在于，对于每个所述设备评估指标，所述方法还包括：

对该设备评估指标的观测数据进行显著性检测变换，得到所述观测数据对应的显著性数据。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标设备对应的重构误差确定所述目标设备是否存在异常，包括：

若所述目标设备对应的重构误差大于或等于误差阈值，确定所述目标设备存在异常；

若所述目标设备对应的重构误差小于所述误差阈值，确定所述目标设备不存在异常；其中，所述误差阈值是通过以下方式确定的：

获取验证数据集，所述验证数据集中包括多个验证样本，每个所述验证样本包括一个第一设备对应于各所述设备评估指标的观测数据；

基于各所述验证样本对应的观测数据，获取各所述验证样本对应的原始特征；

基于各所述验证样本对应的原始特征，通过所述特征重建模型，得到各所述验证样本对应的重构特征；

基于各所述验证样本对应的原始特征和重构特征，确定各所述验证样本对应的重构误差；

基于各所述验证样本对应的重构误差，确定所述误差阈值。

4.根据权利要求1所述的方法，其特征在于，所述目标设备对应的原始特征包括所述目标设备的各所述设备评估指标对应的原始特征，若所述目标设备存在异常，所述方法还包括：

基于所述目标设备的各所述设备评估指标对应的原始特征和重构特征，确定所述目标设备的各所述设备评估指标对于所述重构误差的贡献度；

基于所述目标设备的各所述设备评估指标对应的贡献度，确定所述目标设备的各所述设备评估指标中的潜在异常指标。

5.根据权利要求1所述的方法，其特征在于，所述特征重构模型是通过以下方式对初始神经网络模型进行训练得到的：

获取训练数据集，所述训练数据集中包括至少一个样本设备对应的多个训练样本，每个所述训练样本包括一个样本设备对应于各所述设备评估指标的样本观测数据，所述样本观测数据包括一个样本观测值和该样本观测值对应的历史观测序列；

对于每个所述训练样本，确定该训练样本中每个所述设备评估指标的样本观测值相对于该样本观测值对应的历史观测序列的偏离程度；

对于每个所述训练样本，基于该训练样本对应于各所述设备评估指标的偏离程度，得到该训练样本对应的原始特征；

基于各所述训练样本对应的原始特征对所述神经网络模型进行重复训练，直至所述神经网络模型对应的训练总损失满足预设的训练结束条件，得到所述特征重构模型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取候选数据集，所述候选数据集中包括多个候选样本；

获取各所述候选样本对应的原始特征；

基于各所述候选样本对应的原始特征，通过所述特征重构模型，得到各所述候选样本对应的重构特征；

基于各所述候选样本对应的原始特征和重构特征，确定各所述候选样本对应的预测误差；

基于各所述候选样本对应的预测误差，从各所述候选样本中确定出不确定样本，其中，所述不确定样本包括按照预测误差由大至小的顺序，对应的预测误差排序靠前的设定数量的候选样本，或者对应的预测误差大于或等于设定值的候选样本中的至少一项；

基于所述不确定样本对应的原始特征，对所述特征重构模型进行优化训练，得到更新后的特征重构模型。

7.根据权利要求5或6所述的方法，其特征在于，所述多个训练样本包括多个第一样本和多个第二样本，其中，所述第一样本为正常样本设备对应的训练样本，所述第二样本为异常样本设备对应的训练样本；

所述基于各所述训练样本对应的原始特征对所述神经网络模型进行重复训练，直至所述神经网络模型对应的训练总损失满足预设的训练结束条件，得到所述特征重构模型，包括：

对于每个所述训练样本，将该训练样本对应的原始特征输入至所述神经网络模型中，通过所述神经网络模型预测该训练样本对应的重构特征；

基于所述多个第一样本对应的原始特征和重构特征之间的差异，确定第一训练损失；基于所述多个第二样本对应的原始特征和重构特征之间的相似度，确定第二训练损失；

基于所述第一训练损失和所述第二训练损失，确定所述训练总损失；

若所述训练总损失满足所述训练结束条件，则基于满足所述训练结束条件的神经网络模型得到所述特征重构模型；

若所述训练总损失不满足所述训练结束条件，则对所述神经网络模型的模型参数进行调整，并基于所述多个训练样本对应的原始特征继续对所述神经网络模型进行训练。

8.根据权利要求7所述的方法，其特征在于，对于每个所述训练样本，所述将该训练样本对应的样本特征输入至所述神经网络模型中，通过所述神经网络模型预测该训练样本对应的重构特征，包括：

将该训练样本对应的原始特征输入至所述神经网络模型的编码网络，通过所述编码网络得到该原始特征对应的隐层特征；

确定所述隐层特征对应的概率密度分布，基于所述概率密度分布进行采样，得到该训练样本对应的编码特征；

将所述编码特征输入至所述神经网络模型的生成网络中，通过所述生成网络得到该训练样本对应的重构特征；

所述方法还包括：

基于各所述第一样本对应的隐层特征对应的概率密度分布和参考概率密度分布之间的差异，确定第三训练损失；

所述基于所述第一训练损失和所述第二训练损失，确定训练总损失，包括：

基于所述第一训练损失、所述第二训练损失和所述第三训练损失，确定训练总损失。

9.一种数据处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标设备的至少一个设备评估指标中每个指标各自的观测数据，一个设备评估指标的观测数据包括第一观测值和所述第一观测值对应的历史观测序列，其中，所述第一观测值为所述观测数据中最新采集到的观测值；

特征获取模块，用于对于每个所述设备评估指标，确定该设备评估指标的第一观测值相对于该设备评估指标的观测数据的偏离程度；以及用于基于各所述设备评估指标对应的偏离程度，确定所述目标设备对应的原始特征；

特征重建模块，用于基于所述目标设备对应的原始特征，通过调用训练好的特征重构模型得到所述目标设备对应的重构特征，所述特征重构模型是基于训练数据集对神经网络模型进行训练得到的，所述训练数据集中的每个训练样本包括一个样本设备对应于各所述设备评估指标的样本观测数据，所述神经网络模型的输入和输出分别为所述训练样本对应的原始特征和重构特征，模型的训练总损失是基于各所述训练样本对应的原始特征和重构特征确定的；

异常判断模块，用于确定各所述设备评估指标对应的原始特征和重构特征之间的重构误差，基于所述重构误差确定所述目标设备是否存在异常；

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。