CN109902832B

CN109902832B - 机器学习模型的训练方法、异常预测方法及相关装置

Info

Publication number: CN109902832B
Application number: CN201811471641.XA
Authority: CN
Inventors: 于群; 吴奇彬
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2023-11-17
Anticipated expiration: 2038-11-28
Also published as: CN109902832A

Abstract

本申请实施例公开了一种机器学习模型的训练方法、异常预测方法及相关装置。该方法通过训练后的第一机器学习模型对所述T‑M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；根据所述T+N时刻的预测数据和T+N时刻的真实数据确定可信异常度，通过所述第二机器学习模型对T‑M时刻至T时刻的训练数据进行处理，得到预测异常度，根据所述预测异常度和所述可信异常度的误差反向传播到第二机器学习模型，调节第二机器学习模型的当前模型参数，实现了可预测未来时刻数据异常的第二机器学习模型的无监督学习。而且，基于时间段的训练数据的训练，考虑了连续数据之间的关系，可提高模型预测的准确性。

Description

机器学习模型的训练方法、异常预测方法及相关装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种机器学习模型的训练方法、异常预测方法及相关装置。

背景技术

在生产环境中，器件的正常状态数据是广泛存在的，异常状态数据较少。对机器学习算法而言，相似数据分布比例越高，越容易学习。样本分布比例越高，越容易学习，容易学习的结果是学习误差较小，反之亦然。

目前，在故障预测领域，主要通过有监督的方法来学习故障模式和正常模式，这种方法存在如下两个问题：第一，需要大量故障的标签数据，而标签数据在实际生产中较难获取；第二，故障多种多样，很难有一定的类模式，难以学习。

发明内容

本申请实施例提供一种机器学习模型的训练方法、异常预测方法及相关装置，可实现了可预测未来时刻数据异常的第二机器学习模型的无监督学习，进而实现提前预测到故障。

第一方面，本申请实施例提供了一种用于异常预测的机器学习模型的训练方法，包括：

训练设备接收训练样本，所述训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M；

通过数据预测模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；

根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定可信异常度，所述可信异常度用于表示所述T+N时刻的真实数据偏离所述T+N时刻的预测数据的程度；

通过第二机器学习模型对所述T-M时刻至T时刻的训练数据进行处理，得到预测异常度；

根据所述预测异常度和所述可信异常度的误差调节所述第二机器学习模型的当前模型参数。

应理解，上述用于异常预测的机器学习模型的训练方法的执行主体还可以是模型训练装置、处理器或芯片等，本申请以训练设备为例来说明。

可见，本申请实施例通过训练后的第一机器学习模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；根据所述T+N时刻的预测数据和T+N时刻的真实数据确定可信异常度，通过所述第二机器学习模型对T-M时刻至T时刻的训练数据进行处理，得到预测异常度，根据所述预测异常度和所述可信异常度的误差反向传播到第二机器学习模型，调节第二机器学习模型的当前模型参数，实现了可预测未来时刻数据异常的第二机器学习模型的无监督学习。而且，基于时间段的训练数据的训练，考虑了连续数据之间的关系，可提高模型预测的准确性。

结合第一方面，在一种可能的实现中，所述通过数据预测模型对T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据之前，所述方法还包括：

训练设备通过第一机器学习模型对S-M时刻至S时刻的训练数据进行处理，得到S+N时刻的预测数据，其中，S＞0、N＞0，M≥0，S≥M；

将根据所述S+N时刻的预测数据和S+N时刻的真实数据的误差调节所述第一机器学习模型的当前模型参数，得到数据预测模型。

结合第一方面，在一种可能的实现中，所述T+N时刻的真实数据和所述T+N时刻的预测数据分别包括多个特征项，所述根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定所述可信异常度为：

其中，i为所述多个特征项的索引，C为所述多个特征项的总个数，i、C为正整数，且i≤C；Q_T+N为所述可信异常度、C为正整数，i≤C，y'_T+N,i为所述T+N时刻的预测数据中的特征项i的值，y_T+N,i为所述T+N时刻的真实数据中的特征项i的值。

通过执行上述方法，提供一种可信异常度的构建方法，为第二机器学习模型的训练构建标签数据，实现第二机器学习模型的无监督学习。

第二方面，本申请实施例还提供了一种异常预测方法，包括：

执行设备通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M，所述T+N时刻的测试异常度用于指示所述T+N时刻的数据异常的程度；

在所述T+N时刻的测试异常度满足预设条件时，输出用于指示所述T+N时刻的数据预测异常的指示信息。

应理解，本申请实施例中异常预测方法的执行设备还可以是异常预测装置、处理器或其他设备，本申请实施例以执行设备为例来说明。

通过执行上述方法，可以实现在设备故障或异常发生之前预测到异常的发生，进而提前预防故障发生或者排除故障发生的因素，保证设备的正常运转。

结合第二方面，在一种可能的实现中，所述T+N时刻的预测异常度满足预设条件包括：所述T+N时刻的预测异常度大于第一阈值。

结合第二方面，在一种可能的实现中，所述方法还包括：

通过数据预测模型对所述T-M时刻至T时刻的测试数据进行处理，得到所述T+N时刻的预测数据；以及，

根据所述T+N时刻的测试异常度和所述T+N时刻的预测数据计算所述T+N时刻的相对异常度；

其中，所述T+N时刻的预测异常度满足预设条件包括：所述T+N时刻的相对异常度大于第二阈值。

结合第二方面，在一种可能的实现中，所述T+N时刻的相对异常度的计算方法包括：

其中，Q_test为所述T+N时刻的测试异常度，为所述T+N时刻的相对异常度，y′_test，i为所述T+N时刻的预测数据中的特征项i的值，i为所述T+N时刻的预测数据中特征项的位置索引，C位所述T+N时刻的预测数据中特征项的总数，i、C为正整数，且i≤C。

通过执行上述方法，可以避免测试数据的值变化比较大，通过固定的第一阈值很难准确得定义阈值的大小，进而提高异常识别的准确性。

结合第二方面，在一种可能的实现中，所述异常预测模型为通过如第一方面所述的用于异常预测的机器学习模型的训练方法训练第二机器学习得到的模型。

第三方面，本申请实施例还提供了一种模型训练装置，包括：

接收单元，用于：接收训练样本，所述训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M；

第一处理单元，用于通过数据预测模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；

标签构建单元，用于根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定可信异常度，所述可信异常度用于表示所述T+N时刻的真实数据偏离所述T+N时刻的预测数据的程度；

第二处理单元，用于通过第二机器学习模型对所述T-M时刻至T时刻的训练数据进行处理，得到预测异常度；

第一调节单元，用于根据所述预测异常度和所述可信异常度的误差调节所述第二机器学习模型的当前模型参数。

结合第三方面，在一种可能的实现中，所述模型训练装置还包括：

第三处理单元，用于通过第一机器学习模型对S-M时刻至S时刻的训练数据进行处理，得到S+N时刻的预测数据，其中，S＞0、N＞0，M≥0，S≥M；

第二调节单元，用于将根据所述S+N时刻的预测数据和S+N时刻的真实数据的误差调节所述第一机器学习模型的当前模型参数，得到数据预测模型。

结合第三方面，在一种可能的实现中，所述T+N时刻的真实数据和所述T+N时刻的预测数据分别包括多个特征项，所述根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定所述可信异常度为：

第四方面，本申请实施例还提供了一种异常预测装置，包括：

处理单元，用于：通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M，所述T+N时刻的测试异常度用于指示所述T+N时刻的数据异常的程度；

输出单元，用于：在所述T+N时刻的测试异常度满足预设条件时，输出用于指示所述T+N时刻的数据预测异常的指示信息。

结合第四方面，在一种可能的实现中，所述T+N时刻的预测异常度满足预设条件包括：所述T+N时刻的预测异常度大于第一阈值。

结合第四方面，在一种可能的实现中，所述处理单还用于：

进一步地，所述T+N时刻的相对异常度的计算方法包括：

结合第四方面，在一种可能的实现中，所述异常预测模型为通过如第一方面所述的用于异常预测的机器学习模型的训练方法训练第二机器学习得到的模型。

第五方面，本申请实施例还提供了一种计算设备，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如第一方面所述的任意一种用于异常预测的机器学习模型的训练方法。

第六方面，本申请实施例还提供了一种计算设备，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如第二方面所述的任意一种异常预测方法。

第七方面，本申请实施例还提供了一种计算机存储介质，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的任意一种用于异常预测的机器学习模型的训练方法。

第八方面，本申请实施例还提供了一种计算机存储介质，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第二方面所述的任意一种异常预测方法。

第九方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的任意一种用于异常预测的机器学习模型的训练方法。

第十方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第二方面所述的任意一种异常预测方法。

第十一方面，本申请实施例还提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第一方面或第二方面中的任一方面所述的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行执行第一方面或第二方面中的方面所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例中一种系统架构的示意性框图；

图2为本申请实施例中一种机器学习模型的训练方法的流程示意图；

图3为本申请实施例中另一种机器学习模型的训练方法的流程示意图；

图4为本申请实施例中一种异常预测方法的流程示意图；

图5为本申请实施例中一种模型训练装置的示意性框图；

图6为本申请实施例中一种异常预测装置的示意性框图；

图7为本发明实施例提供的一种芯片硬件结构的示意性框图；

图8是本申请实施例提供的一种用于异常预测的机器学习模型的训练装置的硬件结构示意图；

图9是本申请实施例提供一种异常预测装置的硬件结构示意图。

具体实施方式

首先介绍本申请中涉及的术语。

本文中机器学习模型，如“第一机器学习模型”、“第二机器学习模型”，可以接收输入数据，并根据接收的输入数据和当前的模型参数生成预测输出。该机器学习模型可以是回归模型、神经网络模型或其他的机器学习模型等。

本文中机器学习模型可以为神经网络，神经网络包括输出层、一个或多个隐藏层，其中，每个隐藏层对接收到的输入引用非线性变换以产生输出。该神经网络模型可以是神经网络、深度神经网络或循环神经网络(recurrent neural networks，RNN)等，例如，第一机器学习模型和第二机器学习模型为长短期记忆(long short term memory，LSTM)网络。其中，LSTM网络是RNN的一种，可以避免传统的RNN中出现的梯度消失(gradientvanishing)或梯度爆炸(gradient exploding)的问题。

其中，深度神经网络(Deep Neural Network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：其中，/>是输入向量，/>是输出向量，/>是偏移向量，W是权重矩阵(也称系数)，α是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量。由于DNN层数多，则系数W和偏移向量/>的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为/>需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

循环神经网络(RNN,Recurrent Neural Networks)是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样使用误差反向传播算法，不过有一点区别：即，如果将RNN进行网络展开，那么其中的参数，如W，是共享的。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖前面若干步网络的状态。该学习算法称为基于时间的反向传播算法Backpropagation Through Time(BPTT)。

在训练机器学习模型的过程中，因为希望机器学习模型的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新机器学习模型的参数，例如权重矩阵(当然，在第一次更新之前通常会有初始化的过程，即为机器学习模型中的各层预先配置参数)，比如，如果机器学习模型的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到机器学习模型能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么机器学习模型的训练就变成了尽可能缩小这个loss的过程。

误差反向传播(back propagation，BP)算法在训练过程中修正初始的机器学习模型中参数的大小，使得机器学习模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的机器学习模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的机器学习模型的参数，例如权重矩阵。

本文中“T-M时刻至T时刻”、“T+N时刻”、“S-M时刻至S时刻”、“S+N时刻”均为泛指，并不用于指示具体时间点或时间段。

在本文中，用于训练第一机器学习模型的训练样本可以选用正常状态的样本，也可以包括少量异常样本；训练第二机器学习模型的训练样本可以包括正常状态的样本和异常状态的样本，也可以仅包括正常状态的样本。上述训练样本均为针对同一对象或同一类对象(比如光模块)获取到的时间序列数据。应理解，时间序列数据为按照时间的先后获取到的数据，一个时间点的数据可以包括一个或多个数据项。

其中，第一机器学习模型为有监督的训练，训练第一机器学习模型的样本中的训练数据可以是一个时间点的数据或者一个特定时长的时间段的数据，标签数据为一个时间点的数据。例如，本文中，用于训练第一机器学习模型的样本包括S-M时刻至S时刻的训练数据、作为标签数据的S+N时刻的真实数据。

其中，第二机器学习模型为无监督的学习，有监督的训练，训练第二机器学习模型的样本中的训练数据可以是一个时间点的数据或者一个特定时长的时间段的数据。例如，本文中，用于训练第二机器学习模型的样本包括T-M时刻至T时刻的训练数据，以及T+N时刻的真实数据。其中，样本的标签数据是通过训练后的第一机器学习模型预测得到T+N时刻的预测数据与T+N时刻的真实数据计算得到可信异常度。

在本文中，第一机器学习模型或第二机器学习模型的一次训练过程可以采用一个、多个或全部的训练样本，本申请实施例都以一个训练样本为例来说明。

在本申请实施例的一种实现中，第一训练样本可以包括“T-M时刻至T时刻的训练数据”和“T+N时刻的真实数据”。其中，“T-M时刻至T时刻的训练数据”用于作为第一机器学习模型和第二机器学习模型的输入，“T+N时刻的真实数据”用于结合第一机器学习模型的输出(T+N时刻的测试数据)计算得到可信异常度，该可信异常度作为第二机器学习模型训练的标签数据。

本文中，“T-M时刻至T时刻的训练数据”可以仅包括一个时刻的数据(M＝0)，即T时刻的数据；也可以是一个时间段的数据(M＞0)，即T-M时刻至T时刻的训练数据(M＞0)。

本文中，正常样本是相对于异常样本来说的，异常样本包括异常数据，即产生数据的设备或被监控的设备等出现故障时所得到的数据；正常样本的数据为正常数据，即为产生数据的设备或被监控的设备等处于正常工作状态产生的数据。

参见附图1，本发明实施例提供了一种系统架构100，如系统架构100所示：

被监督设备170可以产生时间序列的数据。

数据采集设备160用于采集被监督设备170的时间序列的数据，对得到的数据进行筛选后得到训练数据或者测试数据，本申请实施例中训练数据包括T-M时刻至T时刻的数据、T+N时刻的数据，其中，T-M时刻至T时刻的数据作为第二机器学习模型的输入，T+N时刻的数据用于生成标签数据。测试数据可以包括T-M时刻至T时刻的待测试数据，可以是被监督设备当前采集到的特定时长的时间序列数据。

数据库130用于实现训练数据的存储。

训练设备120基于数据库130中维护的训练数据训练得到异常预测模型101，该异常预测模型101能够用于实现本申请实施例提供的异常预测方法，即，将T-M时刻至T时刻的待测试数据通过相关预处理后输入该异常预测模型101，即可得到T+N时刻的测试异常度，以预测数据异常是否会发生或者被监督设备170是否将会发生故障。本申请实施例中的异常预测模型101是通过训练第二机器学习模型得到的。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行异常预测模型101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

在本申请的一种实现中，训练设备120还可以对基于数据库130中维护的训练数据训练得到预测数据模型102，该预测数据模型102能够用于实现数据预测，即，将T-M时刻至T时刻的数据通过相关预处理后输入该预测数据模型102，即可得到T+N时刻的预测数据。本申请实施例中的预测数据模型102是通过训练第一机器学习模型得到的。

根据训练设备120训练得到的异常预测模型101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：T-M时刻至T时刻的待测试数据，可以是用户输入的，也可以是数据采集设备160采集到的。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将预测结果，如上述得到的T+N时刻返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的异常预测模型101，该相应的异常预测模型101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图1所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图1中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

用于训练第二机器学习模型121的训练数据可以包括多个样本的数据，在对第二机器学习模型121的模型参数进行训练时，更新一次模型参数可以采用一个样本的数据进行更新，也可以采用多个样品的数据进行更新。

在本申请实施例的实现(1)中，训练第二机器学习模型121采用的任意一个样本的数据可以包括T时刻的训练数据和T+N时刻的真实数据。此时，第二机器学习模型30的输入为T时刻的训练数据包括的特征所组成的特征向量。

例如，第二机器学习模型30的输入的特征向量可以表示为(时刻T的特征1，T时刻的特征2，T时刻的特征3，……，T时刻的特征r)。

在本申请实施例的实现(2)中，训练第二机器学习模型121采用的任意一个样本的数据可以包括T-M时刻至T时刻的训练数据(共M+1个时刻的数据)、T+N时刻的真实数据。此时，第二机器模型的输入为T-M时刻至T时刻的训练数据包括的特征所组成的特征向量。

第一机器学习模型122的输入可以同上述实现(1)或实现(2)中第二机器学习模型121的输入，第一机器学习模型122的输入根据第一机器学习模型10的训练采用的输入数据的格式和要求来确定。可选地，第一机器学习模型10的输入同第二机器学习模型30的输入相同。

在对第二机器学习模型121进行训练之前，先对第一机器学习模型122进行训练得到数据预测模型123，该数据预测模型123用于：对输入的T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据(本文中也称为“T+N时刻的正常数据”)。应理解，由于数据预测模型123为训练后的机器学习模型，其功能被训练为根据N时刻的数据或T-M时刻至T-M时刻至T时刻的训练数据预测得到T+N时刻的预测数据，该T+N时刻的预测数据可以认为是正常数据，而训练样本中T+N时刻的真实数据为真实获得的数据。应理解，当T+N时刻的真实数据和T+N时刻的正常数据(T+N时刻的预测数据)差异较大，则可以认为T+N时刻的数据可以为异常数据。

然而，通过数据预测模型123只能根据T-M时刻至T时刻的训练数据预测得到T+N时刻的正常数据，或者，检测得到的T+N时刻的数据是否异常，并不能在T+N时刻的真实数据获取之前，提前预测到T+N时刻的数据是否会发生异常。本申请实施例训练第二机器学习模型121的目的在于根据T-M时刻至T时刻的训练数据提前预测到T+N时刻的数据是否会发生异常。

标签构建层124用于根据数据预测模型123得到的T+N时刻的预测数据和T+N时刻的真实数据得到可信异常度。该可信异常度表示T+N时刻的真实数据偏离T+N时刻的预测数据的程度，用于作为第二机器学习模型训练时的标签数据。可信异常度的构造方法可以参见机器学习模型训练方法实施例中的相关描述，在此，本文不再赘述。

第二机器学习模型121根据输入的训练数据(T-M时刻至T时刻的训练数据)得预测异常度，该预测异常度为第二机器学习模型121预测得的T+N时刻的数据的异常度。以可信异常度为标签数据，根据可信异常度和预测异常度的差异调整第二机器学习模型121的当前模型参数，以实现第二机器学习模型121当前模型参数的更新，最终得到异常预测模型101。

应理解，异常预测模型101可以用于根据已知时刻的数据，预测未来时刻的数据是否会发生异常，以实现对器件或设备异常的预警。具体可参见本文中异常预测方法的实施例中相关描述，此处，不再赘述。

还应理解，训练第一机器学习模型的训练设备可以与训练第二机器学习模型的训练设备为不同设备，对此，本申请实施例不作限定。

在对第二机器学习模型进行训练之前，可以对第一机器学习模型进行训练，得到数据预测模型。如图2所示的机器学习模型的训练方法的示意说明图。训练第一机器学习模型的方法可以由图1中训练设备120或处理器执行，该训练方法包括但不限于如下部分或全部步骤：

S22：通过第一机器学习模型对S-M时刻至S时刻的训练数据进行处理，得到S+N时刻的预测数据，其中，S＞0、N＞0，M≥0，S≥M。

其中，第一机器学习模型被配置为接收输入的S-M时刻至S时刻的训练数据，对输入的S-M时刻至S时刻的训练数据进行处理，得到S+N时刻的预测数据。

用于训练第一机器学习模型的样本可以是正常样本，可以包括S-M时刻至S时刻的训练数据和S+N时刻的真实数据。应理解，此时的S+N时刻的真实数据为正常数据。

需要说明的是，训练第一机器学习模型的样本与训练第二机器学习的样本是针对同一对象(针对特定光模块)或同一类对象(可产生相似数据的同一类对象，比如同一厂家生产的不同型号的光模块、不同厂家生产的光模块)采集的数据。

S24：根据S+N时刻的预测数据和S+N时刻的真实数据的误差调节所述第一机器学习模型的当前模型参数。

其中，误差可以为MAE、MSE或者RMSE等。

具体的，可以根据S+N时刻的预测数据和S+N时刻的真实数据的误差构建代价函数，应理解，代价函数用于反应S+N时刻的预测数据和S+N时刻的真实数据的误差之间的差异，可以包括用于防止过拟合的正则化项。可以通过最小化代价函数来调节第一机器学习模型的当前模型参数。例如，可以通过梯度下降法来优化第一机器学习模型，具体地，可以根据S+N时刻的预测数据和S+N时刻的真实数据的误差所确定的梯度(例如，代价函数对每个模型参数的偏导数)反向传播到第一机器学习模型，调节第一机器学习模型的当前模型参数。经过多次训练过程，可以得到数据预测模型。

下面结合图1、图3所示的机器学习模型的训练方法的示意说明图，介绍本申请提供的一种用于预测异常的机器学习模型训练方法，该方法可以由训练设备120或处理器执行，该方法包括但不限于如下部分或全部步骤：

S32：接收训练样本，训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M。

其中，“T-M时刻至T时刻的训练数据”可以仅包括一个时刻的数据(M＝0)，即T时刻的数据；也可以是一个时间段的数据(M＞0)，即T-M时刻至T时刻的训练数据(M＞0)。

一个时刻的训练数据可以包括多个特征项，可以通过特征向量或者矩阵来表达一个训练样本的训练数据，以作为第二机器学习模型的输入。

应理解，第二机器学习模型的一次训练过程可以采用一个、多个或全部的训练样本，本申请实施例都以一个训练样本为例来说明。

S34：通过数据预测模型对T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据。

其中，数据预测模型为对第一机器学习模型进行训练后的模型，数据预测模型用于根据输入的T-M时刻至T时刻的训练数据得到T+N时刻的预测数据。应理解，T+N时刻的预测数据为该T+N时刻的正常数据，可能与T+N时刻实际获得的数据差别较大。

S36：根据T+N时刻的预测数据和T+N时刻的真实数据确定可信异常度，其中，可信异常度用于表示T+N时刻的真实数据偏离T+N时刻的预测数据的程度。

应理解，T+N时刻的预测数据可以认为是T+N时刻的正常数据。T+N时刻的真实数据为实际获得的数据。当T+N时刻的预测数据与T+N时刻的真实数据差异较小时，T+N时刻的真实数据的状态为正常；反之，当T+N时刻的预测数据与T+N时刻的真实数据差异较大时，T+N时刻的真实数据的状态为异常。可以构建表示T+N时刻的预测数据与T+N时刻的真实数据差异大小，或者T+N时刻的真实数据偏离T+N时刻的预测数据的程度的量，即可信异常度。该可信异常度作为第二机器学习模型训练的标签数据。

可选地，可以根据T+N时刻的预测数据和T+N时刻的真实数据确定可信异常度为：

其中，i为T+N时刻的真实数据中特征项的位置索引，C为T+N时刻的真实数据中特征项的总数，i、C为正整数，且i≤C；Q_T+N为T+N时刻的可信异常度、C为正整数，i≤C，y'_T+N,i为T+N时刻的预测数据中的特征项i的值，y_T+N,i为T+N时刻的真实数据中的特征项i的值。

应理解，可信异常度还包括其他构建方式，例如：

又例如：

其中，公式(2)、(3)中各个符号的含义可参见公式(1)中的描述，在此，不再赘述。

S38：通过第二机器学习模型对T-M时刻至T时刻的训练数据进行处理，得到预测异常度。

其中，第二机器学习模型为本申请实施例中需要训练的机器学习模型，该第二机器模型被配置为接收输入的T-M时刻至T时刻的训练数据，通过第二机器学习模型对输入的T-M时刻至T时刻的训练数据进行处理，得到预测异常度。该预测异常度即为第二机器学习模型预测得到的用于表示T+N时刻的数据的异常度。

S40：根据所述预测异常度和所述可信异常度的差异调节所述第二机器学习模型的当前模型参数。

其中，差异可以是误差可以为平均绝对误差(mean absolute error，MAE)、均方误差(mean squared error，MSE)或均方根误差(root mean squared error，RMSE)等。

具体的，可以根据预测异常度和可信异常度的误差构建代价函数(costfunction)通常也被称为损失函数(loss function)，应理解，代价函数用于反应预测异常度与可信异常度之间的差异，可以包括用于防止过拟合的正则化项。可以通过最小化代价函数来调节第二机器学习模型的当前模型参数。例如，可以通过梯度下降法来优化第二机器学习模型，具体地，可以根据预测异常度和可信异常度的误差所确定的梯度(例如，代价函数对每个模型参数的偏导数)反向传播到第二机器学习模型，调节第二机器学习模型的当前模型参数。经过多次训练过程，可以得到异常预测模型。

可见，本申请实施例中，通过训练后的第一机器学习模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；根据所述T+N时刻的预测数据和T+N时刻的真实数据确定可信异常度，通过所述第二机器学习模型对T-M时刻至T时刻的训练数据进行处理，得到预测异常度，根据所述预测异常度和所述可信异常度的误差反向传播到第二机器学习模型，调节第二机器学习模型的当前模型参数。实现了可预测未来时刻数据异常的第二机器学习模型的无监督学习。而且，基于时间段的训练数据的训练，考虑了连续数据之间的关系，可提高模型预测的准确性。

应理解，可以应用异常预测模型对输入的T-M时刻至T时刻的测试数据进行处理，预测T+N时刻的测试异常度，以提前预测到异常的发生。可以理解，T时刻可以是当前时刻，与尽早地预测到异常的发生。

下面结合图4所示的异常预测方法的流程示意图来介绍本申请提供的一种异常预测方法，应理解，该异常预测方法可以由图1中执行设备110或处理器执行，该执行设备110或处理器基于异常预测模型单独实现，也可以基于数据预测模型和异常预测模型的系统来实现，该方法包括但不限于如下部分或全部步骤：

S42：通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M；T+N时刻的测试异常度用于指示T+N时刻的数据异常的程度。

其中，M上述训练方法涉及的M相同，N与上述训练方法涉及的N相同。测试数据为被测试对象实时产生的数据，一个时间点的数据可以包括多个特征项。T在本发明实施例中为当前时间或当前时间之前的时间点。

其中，本发明实施例中异常预测模型即为通过上述机器学习模型的训练方法训练后第二机器学习模型得到的模型。

T+N时刻的测试异常度用于指示T+N时刻的数据异常的程度，即异常预测模型预测得到的被测试对象在T+N时刻的真实数据偏离T+N时刻的正常数据的程度。可以理解，T+N时刻为T时刻之后的时间点，在T-M时刻至T时刻的数据获取到时，T+N时刻的数据还未获取到，此时，不能根据T+N时刻的数据与T+N时刻的正常数据来检测T+N时刻的数据是否正常，本申请实施例中，通过用于预测异常的机器学习模型对输入到模型的T-M时刻至T时刻的测试数据进行处理，直接预测T+N时刻的测试异常度。

S44：在T+N时刻的测试异常度满足预设条件时，输出用于指示T+N时刻的数据预测异常的指示信息。

在S44的第一种实现中，T+N时刻的预测异常度满足预设条件具体可以是：T+N时刻的预测异常度大于第一阈值。可以理解，第一阈值可以是预设固定的数值，与异常预测模型训练时采用的标签数据(即T+N时刻的可信异常度)的计算方式有关。

在S44的第二种实现中，测试数据的值变化比较大，通过固定的第一阈值很难准确得定义阈值的大小，可以定义相对异常度为测试异常度相对于正常数据的比例，通过相对异常度来判断T+N时刻的数据是否异常。T+N时刻的相对异常度的一种具体计算方法，包括如下步骤：

S442：通过数据预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的预测数据；

S444：根据T+N时刻的测试异常度和T+N时刻的预测数据计算T+N时刻的相对异常度；

可选地，T+N时刻的相对异常度的计算方法包括：

其中，Q_test为T+N时刻的测试异常度，为T+N时刻的相对异常度，y′_test,i为T+N时刻的预测数据中的特征项i的值，i为T+N时刻的预测数据中特征项的位置索引，C位T+N时刻的预测数据中特征项的总数，i、C为正整数，且i≤C。

可以，理解，相对异常度还可以包括其他的计算方式，例如：

关于相对异常度还可以包括其他的计算方式，本申请实施例不做限定。

S446：在T+N时刻的相对异常度大于第二阈值时，T+N时刻的预测异常度满足预设条件，输出用于指示T+N时刻的数据预测异常的指示信息。其中，第二阈值可以是固定数值。

在本申请的另一种实现方式中，第一阈值也可以是根据T+N时刻的预测数据实时变化的数值，例如，第一阈值可以为其中，y′_test,i为T+N时刻的预测数据中的特征项i的值，i为T+N时刻的预测数据中特征项的位置索引；C位T+N时刻的预测数据中特征项的总数，i、C为正整数，且i≤C；W为固定值。

可以理解，计算设备输出用于指示T+N时刻的真实数据预测异常的指示信息的实现方式包括但不限于：对话框、文字、媒体或其他方式输出指示信息，向指定联系人或指定设备发送该指示信息等。可选地，计算设备而在检测到该指示信息后，还可以进行异常分析以识别异常的原因和/或执行消除异常的操作等，本申请实施例不做限定。

可见，通过上述异常预测方法可以在设备故障或异常发生之前预测到异常的发生，进而提前预防故障发生或者排除故障发生的因素，保证设备的正常运转。

下面介绍本申请实施例提供的异常预测模型在传输网中光模块中的具体应用。

光模块(optical module)由光电子器件、功能电路和光接口等组成，光电子器件包括发射和接收两部分。光模块用于进行光电转换，即发送端把电信号转换成光信号，通过光纤传送后，接收端再把光信号转换成电信号。可以通过监控光模块的接收总光、接收端补、DGD上报、发送端激光等特征项来识别光模块工作状态。

例如，时间t时监控光模块得到的接收总光的值y_t,1、接收端补y_t,2、DGD上报y_t,3、发送端激光y_t,4等特征项，时间t的样本的训练数据可以表示为向量Y_t＝(y_t,1,y_t,2,…,y_tC)。

在用于预测数据的第一机器学习模型和/或用于光模块异常检测的第二机器学习模型的训练过程中，输入的训练样本的训练数据可以是一个时间点的训练数据，也可以是多个连续的时间点的训练数据。但是，用于训练第一机器学习模型的样本集为监控光模块处于正常工作状态时采集到的数据，用于训练第二机器学习模型的样本可以包括监控光模块处于正常工作状态或异常工作状态采集到的数据。

例如，第一机器学习模型的训练过程可以是：(1)输入为时刻t-5到时刻t的训练数据(Y_t-5,Y_t-4,Y_t-3,Y_t-2,Y_t-1,Y_t)，输出为预测时刻t+10的预测数据Y′_t+10，标签数据为时刻t+10的真实数据Y_t+10；(2)基于时刻t+10的预测数据Y′_t+10和时刻t+10的真实数据Y_t+10的误差确定损失函数，通过梯度下降法最小化该损失函数，更新第一机器学习模型的当前模型参数，得到数据预测模型。

例如，第二机器学习模型的训练过程可以是：(1)将时刻t-5到时刻t的训练数据(Y_t-5,Y_t-4,Y_t-3,Y_t-2,Y_t-1,Y_t)输入到数据预测模型，得到时刻t+10的预测数据Y′_t+10；(2)基于时刻t+10的预测数据Y′_t+10和时刻t+10的真实数据Y_t+10计算时刻t+10的可信异常度Q_t+10；(3)时刻t-5到时刻t的训练数据(Y_t-5,Y_t-4,Y_t-3,Y_t-2,Y_t-1,Y_t)输入到第二机器学习模型，输出为预测时刻t+10的预测异常度数据Q′_t+10，标签数据为时刻t+10的可信异常度Q_t+10；(4)基于时刻t+10的预测异常度数据Q′_t+10和时刻t+10的可信异常度Q_t+10的误差确定损失函数，通过梯度下降法最小化该损失函数，更新第二机器学习模型的当前模型参数。

应理解，上述假设光模块采集数据的频率为1，则每1s光模块采集一次数据。应理解，时间还可以采用其他的单位来描述，光模块采集数据的频率还可以是其他数值，对此，本申请实施例不作限定。

通过多次训练第二机器学习模型得到用于光模块异常检测的异常预测模型，可以应用该异常预测模型进行异常预测。例如：输入当前时间之前5s的时刻(到当前时刻的测试数据，则可以预测得到当前时间之后10s的光模块的预测异常度，当该预测异常度大于第一阈值时，预测10s后光模块将发生异常。

需要说明的是，上述应用于光模块的异常预测的场景实施例该仅仅是应用本申请机器学习模型训练和应用的一种实现方式，还可以参照上述机器学习模型的训练方法和异常预测方法中其他的实现方式得到光模块异常预测的其他的实现方式，本申请实施例不再赘述。

下面介绍本申请实施例设计的装置、芯片、设备。

如图5所示，本发明实施例提供了一种模型训练装置500，包括：

接收单元510，用于：接收训练样本，所述训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M；

第一处理单元520，用于通过数据预测模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；

标签构建单元530，用于根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定可信异常度，所述可信异常度用于表示所述T+N时刻的真实数据偏离所述T+N时刻的预测数据的程度；

第二处理单元540，用于通过所述第二机器学习模型对所述T-M时刻至T时刻的训练数据进行处理，得到预测异常度；

第一调节单元550，用于根据所述预测异常度和所述可信异常度的误差调节所述第二机器学习模型的当前模型参数。

可选地，模型训练装置500还包括：

可选地，所述T+N时刻的真实数据和所述T+N时刻的预测数据分别包括多个特征项，所述根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定所述可信异常度为：

应理解，上述模型训练装置500中的各个装置还可以包括其他单元，各个装置、单元具体的实现还可以对应参照上述图2、图3所述的方法实施例中的相应描述，本申请实施例不再赘述。

如图6，本申请实施例还提供了一种异常预测装置，该异常预测装置600可以包括：

处理单元610，用于：通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M，所述T+N时刻的测试异常度用于指示所述T+N时刻的数据异常的程度；

输出单元620，用于：在所述T+N时刻的测试异常度满足预设条件时，输出用于指示所述T+N时刻的数据预测异常的指示信息。

可选地，所述T+N时刻的预测异常度满足预设条件包括：所述T+N时刻的预测异常度大于第一阈值。

可选地，所述处理单元610还用于：

可选地，所述T+N时刻的相对异常度的计算方法包括：

可选地，所述异常预测模型为通过上述用于异常预测的机器学习模型的训练方法训练得到的模型。

应理解，上述异常预测装置600中的各个装置还可以包括其他单元，各个装置、单元具体的实现还可以对应参照上述图2、图3所述的方法实施例中的相应描述，本申请实施例不再赘述。

下面介绍本申请实施例提供的一种芯片硬件结构。

图7为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出异常预测模型101。神经网络、深度机器学习模型、循环神经网络等中各层的算法均可在如图7所示的芯片中得以实现。

神经网络处理器70可以是NPU，TPU，或者GPU等一切适合用于大规模异或运算处理的处理器。以NPU为例：NPU可以作为协处理器挂载到主CPU(Host CPU)上，由主CPU为其分配任务。NPU的核心部分为运算电路703，通过控制器704控制运算电路703提取存储器(701和702)中的矩阵数据并进行乘加运算。

在一些实现中，运算电路703内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路703是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路703是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路703从权重存储器702中取矩阵B的权重数据，并缓存在运算电路703中的每一个PE上。运算电路703从输入存储器701中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)708中。

统一存储器706用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(DMAC，Direct Memory Access Controller)705，被搬运到权重存储器702中。输入数据也通过DMAC被搬运到统一存储器706中。

总线接口单元(BIU，Bus Interface Unit)710，用于DMAC和取指存储器(Instruction Fetch Buffer)709的交互；总线接口单元701还用于取指存储器709从外部存储器获取指令；总线接口单元701还用于存储单元访问控制器705从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器706中，或将权重数据搬运到权重存储器702中，或将输入数据搬运到输入存储器701中。

向量计算单元707多个运算处理单元，在需要的情况下，对运算电路703的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。向量计算单元707主要用于神经网络中非卷积层，或全连接层(FC，fully connected layers)的计算，具体可以处理：Pooling(池化)，Normalization(归一化)等的计算。例如，向量计算单元707可以将非线性函数应用到运算电路703的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元707生成归一化的值、合并值，或二者均有。

在一些实现中，向量计算单元707将经处理的向量存储到统一存储器706。在一些实现中，经向量计算单元707处理过的向量能够用作运算电路703的激活输入。

控制器704连接的取指存储器(instruction fetch buffer)309，用于存储控制器704使用的指令；

统一存储器706，输入存储器701，权重存储器702以及取指存储器709均为On-Chip存储器。外部存储器独立于该NPU硬件架构。

其中，神经网络中各层的运算可以由运算电路703或向量计算单元707执行。

图8是本申请实施例提供的一种用于异常预测的机器学习模型的训练装置的硬件结构示意图。图8所示的用于异常预测的机器学习模型的训练装置800(该装置800具体可以是一种计算机设备)包括存储器801、处理器802、通信接口803以及总线804。其中，存储器801、处理器802、通信接口803通过总线804实现彼此之间的通信连接。

存储器801可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器801可以存储程序，当存储器801中存储的程序被处理器802执行时，处理器802和通信接口803用于执行本申请实施例的用于异常预测的机器学习模型的训练方法的各个步骤。

处理器802可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的用于异常预测的机器学习模型的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的用于异常预测的机器学习模型的训练方法。

处理器802还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的用于异常预测的机器学习模型的训练方法的各个步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成本申请实施例的用于异常预测的机器学习模型的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的用于异常预测的机器学习模型的训练方法。

通信接口803使用例如但不限于收发器一类的收发装置，来实现装置800与其他设备或通信网络之间的通信。例如，可以通过通信接口803获取训练数据(如本申请实施例所述的T-M时刻至T时刻的训练数据图像和T+N时刻的真实数据)。

总线804可包括在装置800各个部件(例如，存储器801、处理器802、通信接口803)之间传送信息的通路。

本申请实施例中，处理器802掉存储器801存储的指令，执行：

通过通信接口803接收接收训练样本，所述训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M；

通过所述第二机器学习模型对所述T-M时刻至T时刻的训练数据进行处理，得到预测异常度；

可选地，所述处理器802执行所述通过数据预测模型对T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据之前，所述处理器802还可以执行：

通过第一机器学习模型对S-M时刻至S时刻的训练数据进行处理，得到S+N时刻的预测数据，其中，S＞0、N＞0，M≥0，S≥M；

应理解，各个器件的实现还可以对应参照上述图2、图3所述的方法实施例中的相应描述，本申请实施例不再赘述。

图9是本申请实施例提供的异常预测装置的硬件结构示意图。图9所示的异常预测装置900(该装置900具体可以是一种计算机设备)包括存储器901、处理器902、通信接口903、用户接口904以及总线904。其中，存储器901、处理器902、通信接口903、输出装置905通过总线904实现彼此之间的通信连接。用户接口904可以连接输出模块906(例如，音频输出模块，显示器等)和输入模块907(例如，音频输入模块，触控面板、图像输入模块等)。存储器901可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器901可以存储程序，当存储器901中存储的程序被处理器902执行时，处理器902和通信接口903用于执行本申请实施例的异常预测的方法的各个步骤。

处理器902可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的XX图像的生成装置中的单元所需执行的功能，或者执行本申请方法实施例的异常预测的方法。

处理器902还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的异常预测的方法的各个步骤可以通过处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器902还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901，处理器902读取存储器901中的信息，结合其硬件完成本申请实施例的异常预测的装置中包括的单元所需执行的功能，或者执行本申请方法实施例的异常预测的方法。

通信接口903使用例如但不限于收发器一类的收发装置，来实现装置900与其他设备或通信网络之间的通信。例如，可以通过通信接口903获取测试数据(如本申请实施例所述的T-M时刻至T时刻的测试数据)。

总线904可包括在装置900各个部件(例如，存储器901、处理器902、通信接口903)之间传送信息的通路。

所述用户接口905可用于实现装置900和用户/外部环境之间的交互，例如可以连接输入/输出模块，比如音频输出模块、音频输入模块、按键输入模块以及显示器。具体的，所述输入输出模块还可包括：触摸屏以及传感器等等。其中，所述输入输出模块均通过用户接口905与装置900处理器进行通信。

本申请实施例中，处理器902掉存储器901存储的指令，执行：

通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M，所述T+N时刻的测试异常度用于指示所述T+N时刻的数据异常的程度；

在所述T+N时刻的测试异常度满足预设条件时，通过输出装置输出用于指示所述T+N时刻的数据预测异常的指示信息。

可选地，所述方法还包括：

可选地，所述T+N时刻的相对异常度的计算方法包括：

应理解，各个器件的实现还可以对应参照上述图4所述的方法实施例中的相应描述，本申请实施例不再赘述。

应注意，尽管图8和图9所示的装置800和900仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置800和900还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置800和900还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置800和900也可仅仅包括实现本申请实施例所必须的器件，而不必包括图8或图9中所示的全部器件。

可以理解，所述装置800相当于1中的所述训练设备120，所述装置900相当于图1中的所述执行设备110。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于异常预测的机器学习模型的训练方法，其特征在于，包括：

接收训练样本，所述训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M；所述训练数据和所述真实数据均为对光模块的监控数据，用于识别所述光模块的工作状态；所述光模块用于进行光电转换；所述监控数据包括接收总光、接收端补、差分群时延DGD上报、发送端激光中的至少一种；

通过数据预测模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；所述预测数据为针对所述光模块的预测数据；

2.根据权利要求1所述的方法，其特征在于，所述通过数据预测模型对T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述T+N时刻的真实数据和所述T+N时刻的预测数据分别包括多个特征项，所述根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定所述可信异常度为：

其中，i为所述多个特征项的索引，C为所述多个特征项的总个数，i、C为正整数，且i≤C；为所述可信异常度、C为正整数，i≤C，/>为所述T+N时刻的预测数据中的特征项i的值，/>为所述T+N时刻的真实数据中的特征项i的值。

4.一种异常预测方法，其特征在于，包括：

通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M，所述T+N时刻的测试异常度用于指示所述T+N时刻的数据异常的程度；所述测试数据为对光模块的监控数据，用于识别所述光模块的工作状态；所述光模块用于进行光电转换；所述测试数据包括光模块的接收总光、接收端补、差分群时延DGD上报、发送端激光中的至少一种；

在所述T+N时刻的测试异常度满足预设条件时，输出用于指示所述T+N时刻的数据预测异常的指示信息；

其中，所述异常预测模型为通过如权利要求1-3任一项权利要求所述的用于异常预测的机器学习模型的训练方法训练得到的第二机器学习模型。

5.根据权利要求4所述的方法，其特征在于，所述T+N时刻的预测异常度满足预设条件包括：所述T+N时刻的预测异常度大于第一阈值。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述T+N时刻的相对异常度的计算方法包括：

其中，为所述T+N时刻的测试异常度，/>为所述T+N时刻的相对异常度，/>为所述T+N时刻的预测数据中的特征项i的值，i为所述T+N时刻的预测数据中特征项的位置索引，C位所述T+N时刻的预测数据中特征项的总数，i、C为正整数，且i≤C。

8.一种模型训练装置，其特征在于，包括：

接收单元，用于接收训练样本，所述训练样本包括T-M时刻至T时刻的训练数据和T+N时刻的真实数据，其中，T＞0、N＞0，M≥0，T≥M；所述训练数据和所述真实数据均为对光模块的监控数据，用于识别所述光模块的工作状态；所述光模块用于进行光电转换；所述监控数据包括接收总光、接收端补、差分群时延DGD上报、发送端激光中的至少一种；

第一处理单元，用于通过数据预测模型对所述T-M时刻至T时刻的训练数据进行处理，得到T+N时刻的预测数据；所述预测数据为针对所述光模块的预测数据；

9.根据权利要求8所述的模型训练装置，其特征在于，所述模型训练装置还包括：

10.根据权利要求8或9所述的模型训练装置，其特征在于，所述T+N时刻的真实数据和所述T+N时刻的预测数据分别包括多个特征项，所述根据所述T+N时刻的预测数据和所述T+N时刻的真实数据确定所述可信异常度为：

11.一种异常预测装置，其特征在于，包括：

处理单元，用于：通过异常预测模型对T-M时刻至T时刻的测试数据进行处理，得到T+N时刻的测试异常度，T＞0、N＞0，M≥0，T≥M，所述T+N时刻的测试异常度用于指示所述T+N时刻的数据异常的程度；所述测试数据为对光模块的监控数据，用于识别所述光模块的工作状态；所述光模块用于进行光电转换；所述测试数据包括光模块的接收总光、接收端补、差分群时延DGD上报、发送端激光中的至少一种；

输出单元，用于：在所述T+N时刻的测试异常度满足预设条件时，输出用于指示所述T+N时刻的数据预测异常的指示信息；

12.根据权利要求11所述的异常预测装置，其特征在于，所述T+N时刻的预测异常度满足预设条件包括：所述T+N时刻的预测异常度大于第一阈值。

13.根据权利要求11或12所述的异常预测装置，其特征在于，所述处理单还用于：

14.根据权利要求13所述的异常预测装置，其特征在于，所述T+N时刻的相对异常度的计算方法包括：

15.一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如权利要求1-3任意一项权利要求所述的用于异常预测的机器学习模型的训练方法。

16.一种计算设备，其特征在于，所述计算设备包括处理器和耦合所述处理器的存储器，所述存储器用于数据和程序代码，所述处理器用于调用所述存储器存储的程序代码执行如权利要求4-7任意一项权利要求所述的异常预测方法。

17.一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如权利要求1-3中任一权利要求所述的用于异常预测的机器学习模型的训练方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质用于计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如权利要求4-7任意一项权利要求所述的异常预测方法。