CN116432696A

CN116432696A - 目标预测模型的训练方法及装置

Info

Publication number: CN116432696A
Application number: CN202111680528.4A
Authority: CN
Inventors: 童海; 钱炯
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-07-14

Abstract

本发明提供了一种目标预测模型的训练方法及装置，方法包括：获取业务对象与其他业务对象之间针对业务类型的第一关联信息、以及业务对象与其他业务对象之间针对业务需求数据的第二关联信息，以及获取业务对象的历史业务需求量和预估业务需求量；根据由第一关联信息、第二关联信息、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练，得到目标预测模型。本发明使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了预测结果对辅助决策的支撑能力，提升在复杂工业系统中的异常检测准确率。

Description

目标预测模型的训练方法及装置

技术领域

本发明属于计算机技术领域，特别是涉及一种目标预测模型的训练方法及装置、业务的需求量预测方法及装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着大数据的不断发展，基于大数据对未来业务需求量的预测成为优化业务模式的重要环节之一。

在目前，可以基于深度学习模型实现业务对象的业务需求量的预测，具体可以采用具有时序建模能力的神经网络模型来实现，这种模型能够学习业务需求量在时间上的变化规律，使得输出的业务需求量满足该变化规律。

但是，发明人在研究过程中发现，目前方案中，业务需求数据量的变化是一个复杂的过程，仅通过时间变化规律来预测业务需求量，导致预测精度较低。

发明内容

基于此，本发明提供了一种目标预测模型的训练及业务的需求量预测方案，以解决相关技术中仅通过时间变化规律来预测业务需求量，导致预测精度较低的问题。

本发明还提供了一种目标预测模型的训练装置及业务的需求量预测装置，用以保证上述方法在实际中的实现及应用。

本发明实施例提供了一种目标预测模型的训练方法，该方法包括：

获取业务对象与其他业务对象之间针对业务类型的第一关联信息、以及所述业务对象与其他业务对象之间针对业务需求数据的第二关联信息，以及获取所述业务对象的历史业务需求量和预估业务需求量；

根据由所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练，得到目标预测模型。

获取待预测业务对象的历史业务需求量；

将所述待预测业务对象的历史业务需求量输入目标预测模型，得到所述待预测业务对象的业务需求量；

其中，所述目标预测模型是所述的目标预测模型的训练方法所训练得到的。

本发明实施例还提供了一种目标预测模型的训练装置，该装置包括：

第一获取模块，用于获取业务对象与其他业务对象之间针对业务类型的第一关联信息、以及所述业务对象与其他业务对象之间针对业务需求数据的第二关联信息，以及获取所述业务对象的历史业务需求量和预估业务需求量；

训练模块，用于根据由所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练，得到目标预测模型。

本发明实施例还提供了一种业务的需求量预测装置，该装置包括：

第二获取模块，用于将所述待预测业务对象的历史业务需求量输入目标预测模型，得到所述待预测业务对象的业务需求量；

其中，所述目标预测模型是所述的目标预测模型的训练装置所训练得到的。

本发明实施例还提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述的方法。

本发明实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的方法。

本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法。

在本发明实施例中，在利用由第一关联信息、第二关联信息、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练的过程中，初始预测模型可以利用反映业务对象之间业务类型关联的第一关联信息和反映业务对象之间业务需求数据关联的第二关联信息，学习得到注意力权重，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了预测结果对辅助决策的支撑能力，提升在复杂工业系统中的异常检测准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标预测模型的训练方法的步骤流程图；

图2是本发明实施例提供的一种目标预测模型的训练方法的架构图；

图3是本发明实施例提供的一种业务的需求量预测方法的步骤流程图；

图4是本发明实施例提供的一种目标预测模型的训练方法的具体步骤流程图；

图5是本发明实施例提供的一种目标预测模型的训练方法的整体架构图；

图6是本发明实施例提供的一种预测模型的结构框图；

图7是本发明实施例提供的一种预测模型中训练参数的架构图；

图8是本发明实施例提供的一种目标预测模型的训练装置的框图；

图9是本发明实施例提供的一种业务的需求量预测装置的框图；

图10本公开一个实施例的电子设备的逻辑框图；

图11本公开另一个实施例的电子设备的逻辑框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本发明实施例提供的一种目标预测模型的训练方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取业务对象与其他业务对象之间针对业务类型的第一关联信息、以及所述业务对象与其他业务对象之间针对业务需求数据的第二关联信息，以及获取所述业务对象的历史业务需求量和预估业务需求量。

业务对象可以为提供服务的个人、部分、组织、终端设备，业务对象的业务需求量可以反映业务对象在单位时间内产生的业务量的预估值，在预测业务对象的业务需求量的场景中，通过对业务对象的历史业务需求量进行分析，可以发现影响业务需求量大小的因素，除了时间上的变化规律，还有业务对象和业务对象之间的关联，如，业务对象A与业务对象B、业务对象C分别具有关联关系，则业务对象A的业务需求量也会因这种关联关系的影响而变化，本发明实施例中，可以在训练用于预测业务对象的业务需求量的预测模型的过程中，引入模型对这两种关联关系基于注意力机制的学习，从而使得训练好的预测模型可以输出更准确的预测结果。

在本发明实施例中，业务对象和业务对象之间的关联具体可以分为两个维度：业务对象与其他业务对象之间针对业务类型的第一关联信息，以及业务对象与其他业务对象之间针对业务需求数据的第二关联信息，即业务对象之间存在业务类型和业务需求数据的关联。

具体的，参照图2，其示出了本发明实施例提供的一种目标预测模型的训练方法的架构图，第一关联信息10和第二关联信息11可以为拓扑图的形式存在，即拓扑图中每个业务对象可以以节点的方式存在，若两个业务对象之间存在针对业务类型的关联(如属于同一业务类型)，则第一关联信息10的拓扑图中这两个业务对象节点之间可以创建一条设有权重的边；若两个业务对象之间存在针对业务需求数据的关联(如二者的业务需求数据相似)，则第二关联信息11的拓扑图中这两个业务对象节点之间可以创建一条设有权重的边；在后续训练过程中，模型可以引入注意力机制，基于业务对象之间的边的权重实现注意力机制计算，实现对业务对象之间关联关系的学习。

进一步的，本发明实施例还可以获取业务对象的历史业务需求量和预估业务需求量以构建训练数据，训练数据中的训练样本S＝(HM,x)，其中，HM为所有业务对象在某一时间范围内(如一个月)的历史业务需求量，HM为N×n维的矩阵，N为业务对象的总个数，n为时间范围内的时间单位数(一个月内的天数，本发明实施例优选为28)；HM的第i行表示业务对象di在时间范围的历史业务需求量向量，i＝1、2、…N；x为所有业务对象在未来第Δ天的预估业务需求量，x为N×1维的向量，其中Δ为预测时间间隔，x的第i行表示业务对象di在未来第Δ天的预估业务需求量。

步骤102、根据由所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练，得到目标预测模型。

注意力(Attention)机制的本质来自于人类视觉注意力机制，视觉注意力机制是人类视觉所特有的大脑信号处理机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

因此，基于注意力机制的模型是基于模拟人类注意力机制而建立的一种网络模型，基于注意力机制，捕捉业务对象之间的关联性，该关联性可以为注意力权重，通过将注意力权重分配到对应的特征上，即得到了应用了注意力机制的特征，由于该特征包括了业务对象之间的关联性，因此，后续在利用该特征进行业务需求量的估计时，使得估计结果更加准确。并且，本发明实施例提取的基于注意力机制的特征是基于一个端到端的注意力机制模型，减少了应用场景对多模型的依赖。

在本发明实施例中，参照图2，在利用由第一关联信息10、第二关联信息11、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练的过程中，初始预测模型可以为多层注意力模型，其利用反映业务对象之间业务类型关联的第一关联信息和反映业务对象之间业务需求数据关联的第二关联信息，学习得到注意力权重，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，得到目标预测模型。

综上，本发明实施例提供的一种目标预测模型的训练方法，在利用由第一关联信息、第二关联信息、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练的过程中，初始预测模型可以利用反映业务对象之间业务类型关联的第一关联信息和反映业务对象之间业务需求数据关联的第二关联信息，学习得到注意力权重，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了预测结果对辅助决策的支撑能力，提升在复杂工业系统中的异常检测准确率。

图3是本发明实施例提供的一种业务的需求量预测方法的步骤流程图，如图3所示，该方法可以包括：

步骤201、获取待预测业务对象的历史业务需求量。

步骤202、将所述待预测业务对象的历史业务需求量输入目标预测模型，得到所述待预测业务对象的业务需求量。

其中，目标预测模型是基于图1所述的目标预测模型的训练方法所训练得到的。

在本发明实施例的应用场景中，可以将待预测业务对象的历史业务需求量输入训练好的目标预测模型，得到待预测业务对象在未来的业务需求量，整个预测过程由于学习了业务对象之间的关联性，使得输出结果更加准确。

综上所述，本发明实施例提供的一种业务的需求量预测方法，在利用由第一关联信息、第二关联信息、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练的过程中，初始预测模型可以利用反映业务对象之间业务类型关联的第一关联信息和反映业务对象之间业务需求数据关联的第二关联信息，学习得到注意力权重，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了预测结果对辅助决策的支撑能力，提升在复杂工业系统中的异常检测准确率。

图4是本发明实施例提供的一种目标预测模型的训练方法的具体步骤流程图，如图4所示，该方法可以包括：

步骤301、获取业务对象与其他业务对象之间针对业务类型的第一关联信息、以及所述业务对象与其他业务对象之间针对业务需求数据的第二关联信息，以及获取所述业务对象的历史业务需求量和预估业务需求量。

该步骤具体可以参照上述步骤101的相关描述，此处不再赘述。

可选的，步骤301具体可以包括：

子步骤3011、基于所述业务对象遍历所述其他业务对象，在所述业务对象的业务类型与其他业务对象的业务类型之间存在关联关系的情况下，在所述业务对象与所述其他业务对象之间创建权重值为1的边。

子步骤3012、在遍历结束后，得到所述第一关联信息。

参照图5，其示出了本发明实施例提供的一种目标预测模型的训练方法的整体架构图，子步骤3011-3012是针对第一关联信息10的获取过程的描述。

具体的，第一关联信息及其中边的权重的构建包括：将每个业务对象抽象化为第一拓扑图中的一个节点，当业务对象d_i和业务对象d_j存在业务类型关联(如都属于同一业务类型)时，则在业务对象d_i和业务对象d_j创建一条边，并将边的权重设置为1，以表示业务对象d_i和业务对象d_j之间存在业务类型的关联，i≠j，i，j∈{1、2、…N}，N为业务对象的总数，通过遍历各个业务对象进行第一拓扑图中边的创建，可以得到第一关联信息10。

可选的，步骤301具体可以包括：

子步骤3013、获取所述业务对象和所述其他业务对象各自的历史业务需求量平均值。

子步骤3014、基于所述业务对象遍历所述其他业务对象，在所述业务对象的历史业务需求量平均值与其他业务对象的历史业务需求量平均值之间的相似度大于预设阈值的情况下，在所述业务对象与所述其他业务对象之间创建权重值为1的所述相似度的边。

子步骤3015、在遍历结束后，得到所述第二关联信息。

具体的，参照图5，子步骤3013-3015是针对第二关联信息11的获取过程的描述。第二关联信息及其中边的权重的构建包括：将每个业务对象抽象化为第二拓扑图中的一个节点，由于第二关联信息11需捕捉业务对象之间针对业务需求数据的关联，则可以先获取业务对象的历史业务需求量，并将历史业务需求量按照时间单位(如月份)进行分割，得到dv_i1、dv_i2、…dv_ij、…dv_im；其中，dv_i1为业务对象d_i在第1时间单位的历史业务需求量，dv_i2为业务对象d_i在第2时间单位的历史业务需求量，dv_ij为业务对象d_i在第_j时间单位的历史业务需求量，_j＝1、2、…m，m为时间单位的总数；dv_ij＝[v_ij(1),v_ij(2),…v_ij(k)…v_ij(n)]；在时间单位为月份的情况下，v_ij(k)为业务对象d_i在第j月中第k天的信访需求量，k＝1、2、…n，n为一个月内的天数总数；dv_im为业务对象d_i在第m月的历史业务需求量；考虑到2月非闰月只有28天的情况，则n＝28。

进一步的，在时间单位为月份的情况下，通过分割后的历史业务需求量，计算每个业务对象的历史业务需求量平均值，得到得到dv_i＝[v_i1,v_i2,…v_ik,…v_in]，其中，v_i1为业务对象d_i在m个月内第1天的历史业务需求量平均值，v_i2为业务对象d_i在m个月内第2天的历史业务需求量平均值，v_ik为业务对象d_i在m个月内第k天的历史业务需求量平均值，v_ik＝(v_i1(k)+v_i2(k)+…+v_im(k))/m；v_in为业务对象d_i在m个月内的第n天的历史业务需求量平均值。

进一步的，通过计算任意两个业务对象之间历史业务需求量平均值的相似度，当业务对象d_i和业务对象d_j历史业务需求量平均值的相似度大于预设阈值δ时，则认为业务对象d_i和业务对象d_j之间存在业务需求数据的关联，在业务对象d_i和业务对象d_j创建一条边，并将边的权重设置为业务对象d_i和业务对象d_j历史业务需求量平均值的相似度，通过遍历各个业务对象进行第二拓扑图中边的创建，可以得到第二关联信息11。

步骤302、将所述训练数据输入所述输入层，通过M个预设的滑动窗口对所述历史业务需求量进行分割，得到M个初始特征向量。

其中，初始预测模型包括依次连接的：输入层、注意力机制层和输出层。

在本发明实施例中，参照图5，结合第一关联信息10、第二关联信息11、历史业务需求量和预估业务需求量构成的集合14，可以构建得到训练数据，进一步参照图6，其示出了本发明实施例提供的一种预测模型的结构框图，首先，训练数据可以进行归一化处理，使得其中的各个数据具有同一值域范围，以便于模型进行处理，归一化后的训练数据可以输入初始预测模型的输入层，输入层具体采用M个滑动窗口将归一化之后的训练数据HM分割成M个矩阵HM1、HM2、…、HMM，其中，HM1、HM2、…、HMM均为N行且列数均为p，p和M均为正整数；第一关联信息10和第二关联信息11中的业务对象d_i在第t个滑动窗口中的初始特征向量

为HMt的第_i行；t＝1、2、…M，即得到每个业务对象在M个不同滑动窗口中的初始特征向量。

在_i＝1、2、…N时，即得到所有业务对象在第t个滑动窗口中的初始特征向量分别为：

为业务对象d1在第t个滑动窗口中的初始特征向量，/>

为业务对象d2在第t个滑动窗口中的初始特征向量，/>

为业务对象dN在第t个滑动窗口中的初始特征向量，且每个业务对象在M个不同滑动窗口中均有一个初始特征向量，例如：t＝1、2、…M时，业务对象d_i分别对应有/>

为业务对象d_i在第1个滑动窗口中的初始特征向量，/>

为业务对象d_i在第2个滑动窗口中的初始特征向量，/>

为业务对象d_i在第M个滑动窗口中的初始特征向量。

步骤303、将M个所述初始特征向量输入所述注意力机制层进行注意力机制计算，得到所述业务对象的注意力机制特征。

进一步的，参照图5和图6，在通过输入层的滑动窗口对训练数据进行分割得到初始特征向量之后，可以将初始特征向量输入初始预测模型的注意力机制层进行注意力机制计算，得到业务对象的注意力机制特征，注意力机制特征即为融合了业务对象之间业务类型和业务需求数据的注意力关联的特征，在模型的训练阶段，输出层可以基于该注意力机制特征构建参与计算损失函数的模型输出，在模型的应用阶段，输出层可以基于该注意力机制特征构建业务对象准确的业务需求量。

具体的，注意力机制层进行的操作包括依次执行的注意力加权操作和基于长短期记忆网络(LSTM，Long Short-Term Memory)的时间序列注意力加权操作，其中，注意力加权操作可以基于第一关联信息反映的业务对象之间基于业务类型的关联和权重值，以及第二关联信息反映的业务对象之间基于业务需求数据的关联和权重值，进行注意力权重加权操作，从而学习业务对象之间的关联性；基于LSTM的时间序列注意力加权操作则使得模型学习了业务需求量在时间上的变化规律，二者结合，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了模型精度。

可选的，注意力机制层包括依次连接的：第一注意力层、第二注意力层、第三注意力层，步骤303具体可以包括：

子步骤3031、将M个所述初始特征向量输入所述第一注意力层，基于所述第一关联信息中相邻业务对象之间设定的权重对M个所述初始特征向量分别进行注意力机制计算，得到M个第一特征向量。

子步骤3032、基于所述第二关联信息中相邻业务对象之间设定的权重对M个所述初始特征向量分别进行注意力机制计算，得到M个第二特征向量。

可选的，所述第一关联信息中相邻业务对象之间设定的权重为1；所述第二关联信息中相邻业务对象之间设定的权重为：所述第二关联信息中相邻业务对象的历史业务需求量平均值之间的相似度。

在本发明实施例中，参照图5、6、7，图7示出了本发明实施例提供的一种预测模型中训练参数的架构图，在第一注意力层中，基于第一关联信息中两个业务对象之间权重为1(反映了业务类型注意力的有或无)的边，以及第二关联信息中两个业务对象之间权重为两个业务对象的历史业务需求量平均值的相似度(反映了业务需求数据注意力的有或无，且反映了在有业务需求数据注意力的情况下业务需求数据注意力的大小)的边，可以通过第一关联信息中相邻业务对象之间设定的权重1对M个初始特征向量进行注意力机制计算，得到第一特征向量，并通过第二关联信息中相邻业务对象之间设定的权重(两个业务对象的历史业务需求量平均值)对M个初始特征向量进行注意力机制计算，得到第二特征向量。

第一注意力层中第一特征向量的计算过程，具体可以采用业务对象d_i在第t个滑动窗口中对应的第一特征向量

的计算公式：

其中，σ()为一个非线性激活函数，BA(d_i)为业务对象d_i在第一关联信息中的邻居节点集(包括d_i本身)，

为d_i和d_j之间的第一注意力权重(1)，/>

softmax为归一化指数函数，q为一个第一参数向量，q在学习过程中获得取值，q^T为第一参数向量q的转置，/>

为拼接向量的符号；q^T的长度保证其向量能与/>

相乘。

第一注意力层中第二特征向量的计算过程，具体可以采用业务对象d_i在第t个滑动窗口中对应的第二特征向量

的计算公式：

其中，DA(d_i)为业务对象d_i在第二关联信息中的邻居节点集(包括di本身)，

为d_i和d_j之间的第二注意力权重(d_i和d_j各自的历史业务需求量平均值之间的相似度)，

sim为相似度函数。

子步骤3033、将M个所述第一特征向量和M个所述第二特征向量输入所述第二注意力层，并基于所述第一特征向量和所述第二特征向量各自对应的影响权重，对所述第一特征向量和所述第二特征向量进行融合，得到M个第三特征向量。

在该步骤中，参照图5、6、7，在第二注意力层中，基于M个第一特征向量和M个第二特征向量，可以基于对第一特征向量和第二特征向量各自预设的影响权重，进行特征融合计算，得到第三特征向量。

第二注意力层中第三特征向量的计算过程，具体可以采用业务对象d_i在第t个滑动窗口中对应的第三特征向量

的计算公式：

其中，

为第一关联信息对业务对象d_i的影响权重，j＝b为第一关联信息，j＝d为第二关联信息，/>

p为一个第二参数向量，p在学习过程中获得取值，W为一个参数矩阵，W在学习过程中获得取值，/>

为/>

(j＝b时)或/>

(j＝d时)，W的长度保证其向量能与能与/>

相乘。

子步骤3034、将M个所述第三特征向量输入所述第三注意力层的长短期记忆网络，并将所述长短期记忆网络的输出结果进行融合，得到所述业务对象的注意力机制特征。

在该步骤中，参照图5、6、7，在第三注意力层中，基于M个第三特征向量，可以基于对第三特征向量进行时间序列变化的学习，以实现基于时间序列的特征融合，得到业务对象的注意力机制特征。

第三注意力层中注意力机制特征的计算过程，具体可以采用业务对象d_i对应的注意力机制特征z_i的计算公式：

其中，

为业务对象d_i对应在第t个LSTM单元输出的隐状态向量，/>

为第t-1个LSTM单元输出的隐状态向量，/>

为/>

所对应的第三注意力层的第三注意力权重。

步骤304、通过所述输出层对所述注意力机制特征进行归一化处理，得到所述业务对象的输出需求量。

在本发明实施例中，输出层可以通过softmax算法对注意力机制特征进行归一化处理，得到训练过程中业务对象的输出需求量，该输出需求量反映了一次模型训练时的模型的输出值，可以用于与训练数据中标注的真实值计算损失函数。

步骤305、根据由所述输出需求量和作为真实值的所述预估业务需求量计算得到的损失函数，对所述初始预测模型的参数进行训练，得到所述目标预测模型。

在本发明实施例中，初始预测模型针对一组训练数据的输出需求量可以作为该次训练的输出值，与训练数据中作为真实值的预估业务需求量一起计算损失值，并根据损失值确定损失函数，来对初始预测模型的参数进行训练，经过多轮迭代训练操作或达到预设训练目标后，可以终止迭代，得到目标预测模型。

可选的，在步骤302之前，还包括：

步骤306、对所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量进行归一化处理，使得第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量处于同一值域范围。

在本发明实施例中，训练数据可以进行归一化处理，使得其中的各个数据具有同一值域范围，以便于模型进行处理。

可选的，在步骤305之前，还包括：

步骤307、在所述初始预测模型输出针对所述训练数据的输出值后，对所述输出值进行反归一化处理。

在本发明实施例中，由于为了模型处理数据的便捷性，步骤306进行了训练数据的归一化处理，则在得到模型的输出值后，可以对输出值进行反归一化处理，从而还原输出值在真实值域范围内的真实值。

综上所述，本发明实施例提供的一种目标预测模型的训练方法，在利用由第一关联信息、第二关联信息、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练的过程中，初始预测模型可以利用反映业务对象之间业务类型关联的第一关联信息和反映业务对象之间业务需求数据关联的第二关联信息，学习得到注意力权重，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了预测结果对辅助决策的支撑能力，提升在复杂工业系统中的异常检测准确率。

图8是本发明实施例提供的一种目标预测模型的训练装置的框图，如图8所示，该装置可以包括：

第一获取模块401，用于获取业务对象与其他业务对象之间针对业务类型的第一关联信息、以及所述业务对象与其他业务对象之间针对业务需求数据的第二关联信息，以及获取所述业务对象的历史业务需求量和预估业务需求量；

训练模块402，用于根据由所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练，得到目标预测模型。

可选的，所述初始预测模型包括依次连接的：输入层、注意力机制层和输出层；

所述训练模块402，包括：

第一处理子模块，用于将所述训练数据输入所述输入层，通过M个预设的滑动窗口对所述历史业务需求量进行分割，得到M个初始特征向量；

第二处理子模块，用于将M个所述初始特征向量输入所述注意力机制层进行注意力机制计算，得到所述业务对象的注意力机制特征；

第三处理子模块，用于通过所述输出层对所述注意力机制特征进行归一化处理，得到所述业务对象的输出需求量；

第四处理子模块，用于根据由所述输出需求量和作为真实值的所述预估业务需求量计算得到的损失函数，对所述初始预测模型的参数进行训练，得到所述目标预测模型。

可选的，所述注意力机制层包括依次连接的：第一注意力层、第二注意力层、第三注意力层，所述第二处理子模块，包括：

第一处理单元，用于将M个所述初始特征向量输入所述第一注意力层，基于所述第一关联信息中相邻业务对象之间设定的权重对M个所述初始特征向量分别进行注意力机制计算，得到M个第一特征向量；

第二处理单元，用于基于所述第二关联信息中相邻业务对象之间设定的权重对M个所述初始特征向量分别进行注意力机制计算，得到M个第二特征向量；

第三处理单元，用于将M个所述第一特征向量和M个所述第二特征向量输入所述第二注意力层，并基于所述第一特征向量和所述第二特征向量各自对应的影响权重，对所述第一特征向量和所述第二特征向量进行融合，得到M个第三特征向量；

第四处理单元，用于将M个所述第三特征向量输入所述第三注意力层的长短期记忆网络，并将所述长短期记忆网络的输出结果进行融合，得到所述业务对象的注意力机制特征。

可选的，还包括：

归一化模块，用于对所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量进行归一化处理，使得第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量处于同一值域范围。

可选的，还包括：

反归一化模块，用于对所述输出值进行反归一化处理。

可选的，第一处理子模块，包括：

第一建立单元，用于基于所述业务对象遍历所述其他业务对象，在所述业务对象的业务类型与其他业务对象的业务类型之间存在关联关系的情况下，在所述业务对象与所述其他业务对象之间创建权重值为1的边；

第二建立单元，用于在遍历结束后，得到所述第一关联信息。

可选的，第二处理子模块，包括：

获取单元，用于获取所述业务对象和所述其他业务对象各自的历史业务需求量平均值；

第三建立单元，用于基于所述业务对象遍历所述其他业务对象，在所述业务对象的历史业务需求量平均值与其他业务对象的历史业务需求量平均值之间的相似度大于预设阈值的情况下，在所述业务对象与所述其他业务对象之间创建权重值为1的所述相似度的边；

第四建立单元，用于在遍历结束后，得到所述第二关联信息。

综上所述，本发明实施例提供的一种目标预测模型的训练装置，在利用由第一关联信息、第二关联信息、历史业务需求量和预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练的过程中，初始预测模型可以利用反映业务对象之间业务类型关联的第一关联信息和反映业务对象之间业务需求数据关联的第二关联信息，学习得到注意力权重，使得模型能够细粒度地挖掘不同时间、不同业务对象、不同关联对预测结果的影响程度，提高了预测结果对辅助决策的支撑能力，提升在复杂工业系统中的异常检测准确率。

图9是本发明实施例提供的一种业务的需求量预测装置的框图，如图9所示，该装置可以包括：

第二获取模块501，用于获取待预测业务对象的历史业务需求量；

预测模块502，用于将所述待预测业务对象的历史业务需求量输入目标预测模型，得到所述待预测业务对象的业务需求量；

其中，所述目标预测模型是基于目标预测模型的训练装置所训练得到的。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610用于输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于实现本公开实施例提供的一种目标预测模型的训练方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图11是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图11，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行本公开实施例提供的方法。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本公开实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标预测模型的训练方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述初始预测模型包括依次连接的：输入层、注意力机制层和输出层；

所述根据由所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量构建的训练数据，对初始预测模型进行基于注意力机制的训练，得到目标预测模型，包括：

将所述训练数据输入所述输入层，通过M个预设的滑动窗口对所述历史业务需求量进行分割，得到M个初始特征向量；

将M个所述初始特征向量输入所述注意力机制层进行注意力机制计算，得到所述业务对象的注意力机制特征；

通过所述输出层对所述注意力机制特征进行归一化处理，得到所述业务对象的输出需求量；

根据由所述输出需求量和作为真实值的所述预估业务需求量计算得到的损失函数，对所述初始预测模型的参数进行训练，得到所述目标预测模型。

3.根据权利要求1所述的方法，其特征在于，所述注意力机制层包括依次连接的：第一注意力层、第二注意力层、第三注意力层，所述将M个所述初始特征向量输入所述注意力机制层进行注意力机制计算，得到所述业务对象的注意力机制特征，包括：

将M个所述初始特征向量输入所述第一注意力层，基于所述第一关联信息中相邻业务对象之间设定的权重对M个所述初始特征向量分别进行注意力机制计算，得到M个第一特征向量；

基于所述第二关联信息中相邻业务对象之间设定的权重对M个所述初始特征向量分别进行注意力机制计算，得到M个第二特征向量；

将M个所述第一特征向量和M个所述第二特征向量输入所述第二注意力层，并基于所述第一特征向量和所述第二特征向量各自对应的影响权重，对所述第一特征向量和所述第二特征向量进行融合，得到M个第三特征向量；

将M个所述第三特征向量输入所述第三注意力层的长短期记忆网络，并将所述长短期记忆网络的输出结果进行融合，得到所述业务对象的注意力机制特征。

4.根据权利要求3所述的方法，其特征在于，所述第一关联信息中相邻业务对象之间设定的权重为1；所述第二关联信息中相邻业务对象之间设定的权重为：所述第二关联信息中相邻业务对象的历史业务需求量平均值之间的相似度。

5.根据权利要求1所述的方法，其特征在于，在所述对初始预测模型进行基于注意力机制的训练，得到目标预测模型之前，还包括：

对所述第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量进行归一化处理，使得第一关联信息、所述第二关联信息、所述历史业务需求量和所述预估业务需求量处于同一值域范围。

6.根据权利要求5所述的方法，其特征在于，在所述初始预测模型输出针对所述训练数据的输出值后，还包括：

对所述输出值进行反归一化处理。

7.根据权利要求1所述的方法，其特征在于，所述获取业务对象与其他业务对象之间针对业务类型的第一关联信息，包括：

基于所述业务对象遍历所述其他业务对象，在所述业务对象的业务类型与其他业务对象的业务类型之间存在关联关系的情况下，在所述业务对象与所述其他业务对象之间创建权重值为1的边；

在遍历结束后，得到所述第一关联信息。

8.根据权利要求1所述的方法，其特征在于，所述获取所述业务对象与其他业务对象之间针对业务需求数据的第二关联信息，包括：

获取所述业务对象和所述其他业务对象各自的历史业务需求量平均值；

基于所述业务对象遍历所述其他业务对象，在所述业务对象的历史业务需求量平均值与其他业务对象的历史业务需求量平均值之间的相似度大于预设阈值的情况下，在所述业务对象与所述其他业务对象之间创建权重值为1的所述相似度的边；

在遍历结束后，得到所述第二关联信息。

9.一种业务的需求量预测方法，其特征在于，该方法包括：

获取待预测业务对象的历史业务需求量；

其中，所述目标预测模型是基于如权利要求1-8任一项所述的目标预测模型的训练方法所训练得到的。

10.一种目标预测模型的训练装置，其特征在于，该装置包括：

11.一种业务的需求量预测装置，其特征在于，该装置包括：

第二获取模块，用于获取待预测业务对象的历史业务需求量；

预测模块，用于将所述待预测业务对象的历史业务需求量输入目标预测模型，得到所述待预测业务对象的业务需求量；

其中，所述目标预测模型是基于如权利要求10所述的目标预测模型的训练自增所训练得到的。

12.一种电子设备，其特征在于，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。