CN114399027A

CN114399027A - 利用神经网络进行序列处理的方法及序列处理的装置

Info

Publication number: CN114399027A
Application number: CN202210005134.7A
Authority: CN
Inventors: 余航; 刘士湛; 廖聪; 李建国
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-26

Abstract

本说明书实施例提供一种利用神经网络进行序列处理的方法以及序列处理的装置，在序列处理的方法中，在生成层，获取按时间排序的业务指标值形成的指标序列所对应的原始向量序列，针对该原始向量序列迭代执行多层级的向量聚合，得到对应于不同时间尺度的多层级的处理向量序列，原始向量序列和各处理向量序列中的各个向量，形成多层级的树形关系图。在注意力层，根据树形关系图，确定输入的任一目标向量的关联向量，根据关联向量对目标向量进行基于注意力机制的加权综合处理，得到对应的更新向量；该更新向量用于确定指标序列的特征表示。

Description

利用神经网络进行序列处理的方法及序列处理的装置

技术领域

本说明书一个或多个实施例涉及计算机信息处理领域，尤其涉及一种利用神经网络进行序列处理的方法及序列处理的装置。

背景技术

指标序列是指将业务指标的指标值按照时间顺序排列而成的数列。在许多应用场景中，需要对指标序列进行预测(通常是指预测未来某个或多个时刻的指标值)，便于在预测值出现较大波动，或者预测值与真实值差异较大的情况下，提前预警，发现异常。

常规技术中，通常利用机器学习来进行指标序列的预测，这需要先对指标序列进行特征表示。然而传统的特征表示方法，要么准确性较差，要么复杂度较高。因此，需要提供一种更有效的序列处理方法，以便能够平衡准确性和复杂度两方面的因素。

发明内容

本说明书一个或多个实施例描述了一种利用神经网络进行序列处理的方法及序列处理的装置，可以平衡准确性和时间复杂度两方面的因素。

第一方面，提供了一种利用神经网络进行序列处理的方法，包括：

在所述生成层，获取按时间排序的业务指标值形成的指标序列所对应的原始向量序列，针对该原始向量序列迭代执行多层级的向量聚合，得到对应于不同时间尺度的多层级的处理向量序列，所述原始向量序列和各处理向量序列中的各个向量，形成多层级的树形关系图；

在所述注意力层，根据所述树形关系图，确定输入的任一目标向量的关联向量，根据所述关联向量对所述目标向量进行基于注意力机制的加权综合处理，得到对应的更新向量；所述更新向量用于确定所述指标序列的特征表示。

第二方面，提供了一种序列处理的装置，包括：

生成单元，用于获取按时间排序的业务指标值形成的指标序列所对应的原始向量序列，针对该原始向量序列迭代执行多层级的向量聚合，得到对应于不同时间尺度的多层级的处理向量序列，所述原始向量序列和各处理向量序列中的各个向量，形成多层级的树形关系图；

获取单元，用于根据所述树形关系图，确定输入的任一目标向量的关联向量，根据所述关联向量对所述目标向量进行基于注意力机制的加权综合处理，得到对应的更新向量；所述更新向量用于确定所述指标序列的特征表示。

第三方面，提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书一个或多个实施例提供的利用神经网络进行序列处理的方法及序列处理的装置，一方面，仅基于目标向量的关联向量而不是基于全部向量，来更新目标向量，可以大大减少注意力分数的计算次数，进而可以提升指标序列的处理效率。另一方面，由于树形关系图是基于对应于不同时间尺度的处理向量序列形成的，从而基于该树形关系图，确定任一目标向量的关联向量，可以实现指标序列的多尺度特征学习，进而可以提升指标序列的特征表示的准确性。总而言之，本方案可以平衡准确性和时间复杂度两方面的因素。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出在一个实施例中神经网络的结构示意图；

图2示出在一个实施例中生成层的结构示意图；

图3示出根据一个实施例的利用神经网络进行序列处理的方法流程图；

图4示出在一个实施例中树形关系图的示意图；

图5示出根据一个实施例的序列处理的装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，在利用机器学习进行指标序列预测时，通常需要对指标序列进行特征表示。

其中，在一种方案中，可以利用LogTrans处理指标序列。具体地，可以令指标序列中的每个元素关注到在它之前的距离它2ⁿ的元素，来引入长程的依赖。这种注意力机制可以结合与一维CNN类似的局部注意力机制，来同时强化注意力机制的局部性。但它的时空复杂度是O(LlogL)，并且作者没有提供能够利用这种注意力机制的稀疏性的代码实现。其中，L为指标序列的长度。

在另一种方案中，可以利用Informer处理指标序列。该方案注意到query对key的注意力分数往往是稀疏的，首先对每个query注意力分数的稀疏性进行近似估计，再令稀疏性较强的query关注到所有key。它的时空复杂度同样是O(LlogL)，并且由于对注意力机制稀疏性的衡量是近似的，随机性较强。

本说明书实施例提供了一种利用神经网络进行序列处理的方法，该方法可以兼容准确性和时间复杂度两方面的因素。

以下先对该神经网络的结构进行说明。

图1示出在一个实施例中神经网络的结构示意图。如图1所示，该神经网络至少包括生成层和注意力层(也称金字塔注意力层)。其中，生成层，用于基于对应于不同时间尺度的多层级的处理向量序列和原始向量序列，形成多层级的树形关系图。注意力层，用于基于树形关系图，确定针对输入的任一目标向量的关联向量，并根据关联向量对目标向量进行基于注意力机制的加权综合处理，得到对应的更新向量。

进一步地，该神经网络还可以包括加和与归一化层以及前馈层，该加和与归一化层、前馈层以及注意力层共同构成一个transformer层。在一个具体示例中，transformer层的数目可以为N，从而上述注意力层的数目可以为N，其中N为正整数。

此外，上述神经网络还可以包括嵌入层，用于获取按时间排序的业务指标值形成的指标序列。对指标序列中的各业务指标值进行嵌入处理，得到对应的多个特征向量。基于该多个特征向量形成原始向量序列。

其中，针对任意的第一指标值的嵌入处理可以包括：分别获取第一指标值、协变量以及位置对应的各嵌入向量，并对各嵌入向量进行叠加，得到第一指标值的特征向量。这里的协变量可以理解为是协助确定第一指标值的特征向量的参数。比如，上述协变量可以为第一指标值对应时刻的顺序号等。

最后，上述神经网络还可以包括一个全连接层，用于预测一个或多个未来时刻的业务指标值(也称预测指标值)。或者，上述神经网络还可以包括两个解码层和一个全连接层，用于预测多个未来时刻的业务指标值。具体预测过程后续说明。

图2示出在一个实施例中生成层的结构示意图。图2中，该生成层可以包括依次堆叠的多个卷积层，其中，上一卷积层的处理结果输入到下一卷积层中。

在一个示例中，各卷积层的卷积核长度可以相同也可以不同，具体根据树形关系图中对应层级的节点的子节点数确定。

此外，上述各卷积层的层数可以与待生成的树形关系图的层级数正相关。

在另一个示例中，上述生成层还可以包括两个全连接层。其中的一个全连接层位于多个卷积层之前，用于对输入向量序列中的各个输入向量进行降维处理。另一个全连接层位于多个卷积层之后，用于对输出向量序列中的各个输出向量进行升维处理。

以下对利用图1示出的神经网络进行序列处理的方法进行详细说明。

图3示出根据一个实施例的利用神经网络进行序列处理的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图3所示，该方法至少可以包括如下步骤。

步骤302，在生成层，获取按时间排序的业务指标值形成的指标序列所对应的原始向量序列，针对该原始向量序列迭代执行多层级的向量聚合，得到对应于不同时间尺度的多层级的处理向量序列，该原始向量序列和各处理向量序列中的各个向量，形成多层级的树形关系图。

这里的业务指标值可以是指随着时间的推移而不断发生变换的数据。其例如可以为交易量、交易额、应用的访问量或者用户的用电量等等。

在一个示例中，上述指标序列可以包括t个过去时刻的实际指标值。

在另一个示例中，上述指标序列可以包括t个过去时刻的实际指标值和M个未来时刻的预定指标值。其中，M为正整数。在一个例子中，这里的预定指标值例如可以为0。

此外，上述指标序列所对应的原始向量序列，可以是基于对指标序列中的各业务指标值进行嵌入处理所得到的多个特征向量形成的。

如图2所示，本说明书实施例提供的生成层可以包括依次堆叠的多个卷积层，从而上述针对该原始向量序列迭代执行多层级的向量聚合可以包括：分别在多个卷积层依次执行多次卷积处理，得到对应于多次卷积处理的多个处理结果。将多个处理结果分别作为多层级的处理向量序列。其中，在上述多次卷积处理的过程中，上一卷积层的处理结果输入到下一卷积层中。

需要说明，上述通过向量聚合得到的各处理向量序列可以具有不同的长度。其中，任一处理向量序列的第二长度是根据原始向量序列的第一长度以及对应卷积处理所在卷积层的卷积核长度和层级确定的。

举例来说，假设原始向量序列的第一长度为：L。此外，还假设卷积层的层数为3，那么对应于第1层卷积层的处理向量序列的第二长度为：L/C¹。其中，C为卷积核长度，1为卷积层的层级。类似地，对应于第2层卷积层的处理向量序列的第二长度为：L/C²，对应于第3层卷积层的处理向量序列的第二长度为：L/C³。也即随着卷积层的层级的增加，所得到的处理向量序列的越短。从而该第二长度与对应卷积层的层级负相关。

还需要说明，上述各处理向量序列对应于不同的时间尺度。举例来说，假设指标序列中相邻两个业务指标值的时间间隔为1小时，或者说，原始向量序列中相邻两个特征向量的时间间隔为1小时，从而，在对原始向量序列执行第一层级的向量聚合(比如，上述卷积处理)之后，所得到的处理向量序列中相邻两个向量的时间间隔就会大于1个小时，比如，一天。接着，当对处理向量序列执行第二层级的向量聚合之后，所得到的处理向量序列中相邻两个向量的时间间隔就会大于1天，比如，一周。依次类推，随着层级的增大，所得到的处理向量序列中相邻两个向量的时间间隔越来越大。此外，各处理向量序列之间构成层级关系，且构成层级关系的各处理向量序列所对应的时间尺度从细到粗。

此外，应理解，各处理向量序列对应的时间尺度均大于原始向量序列对应的时间尺度。

以下针对形成多层级的树形关系图的过程进行说明。

在一个示例中，上述形成多层级的树形关系图可以包括：将原始向量序列和各处理向量序列共同作为各初始向量序列，并建立各初始向量序列与树形关系图的各层级的对应关系。其中，从低层级到高层级对应于时间尺度从细到粗。基于对应关系，形成多层级的树形关系图。

比如，在前述例子中，长度为L的原始向量序列，可以对应于树形关系图的第1层级。长度为L/C¹的处理向量序列，可以对应于树形关系图的第2层级。长度为L/C²的处理向量序列，可以对应于树形关系图的第3层级。长度为L/C³的处理向量序列，可以对应于树形关系图的第4层级。

上述基于对应关系，形成多层级的树形关系图具体可以包括：对于任意的第i层级，构建对应于第i初始向量序列(即对应于第i层级的初始向量序列)中的各个向量的各节点；类似地，可以构建得到各层级中的各节点。对于第i层级中任意的第一节点，从第i层级中的各节点中选取若干同层节点(也称同尺度节点)，从第i+1层级中的各节点中选取一个父节点(也称粗尺度节点)，从第i-1层级中的各节点中选取若干子节点(也称细尺度节点)。将选取的若干同层节点、一个父节点以及若干子节点均作为第一节点的邻居节点，并构建第一节点与邻居节点的连接边。类似地，可以构建出各层级中的各节点与邻居节点的连接边。

应理解，在上述第i层级为最高层级时，上述第一节点不具有父节点，从而可以不执行从第i+1层级中的各节点中选取一个父节点的步骤。此外，在上述第i层级为最低层级时，上述第一节点不具有子节点，从而可以不执行从第i-1层级中的各节点中选取若干子节点的步骤。

需要说明，上述同层节点之所以称为同尺度节点，是因为该同层节点与第一节点位于同一层级(即当前层级)，而一个层级对应于一个时间尺度。上述父节点之所以称为粗尺度节点，是因为父节点位于第一节点的上一层级，且上一层级对应的时间尺度相较于当前层级更粗。上述子节点之所以称为细尺度节点，是因为子节点位于第一节点的下一层级，且下一层级对应的时间尺度相较于当前层级更细。

在一个示例中，上述同层节点的节点标识与第一节点的第一标识的差值不大于第一常数，该第一常数与预设的同层节点数正相关。上述父节点的节点标识，基于第一标识以及预设的子节点数的商而确定。上述子节点的节点标识基于第一标识与预设的子节点数的乘积而确定。

在一个具体例子中，根据如下公式选取第一节点的同层节点、父节点以及子节点。

其中，l为第一节点的第一标识，j为同层节点、父节点或者子节点的节点标识，s为第一节点所在层级，也称当前层级。

为同层节点集合，

为同层节点集合中任一同层节点，A为预设的同层节点数，L为原始向量序列的第一长度，C为预设的子节点数。

为子节点集合，

为子节点集合中任一子节点。

为父节点集合，该父节点集合只包含一个父节点

S为树形关系图的层级数。

当然，在其它示例中，也可以对上述公式1进行变形，比如，可以将上述公式中的j替换为j％L等等，本说明书对此不作限定。

图4示出在一个实施例中树形关系图的示意图。图4中，该树形关系图包括4个层级，其中，第1层级包含8个节点，该8个节点分别对应于原始向量序列中的各个向量。上述8个节点的节点标识分别为：1、2、3、4、5、6、7和8。第2层级包含4个节点，该4个节点分别对应于针对原始向量序列执行第一层级的向量聚合后得到的处理向量序列中的各个向量。该4个节点的节点标识分别为：1、2、3和4。第3层级包含两个节点，该两个节点分别对应于针对原始向量序列执行第二层级的向量聚合后得到的处理向量序列中的各个向量。该两个节点的节点标识分别为：1和2。第3层级包含1个节点，该1个节点对应于针对原始向量序列执行第三层级的向量聚合后得到的向量。该1个节点的节点标识为：1。

从图4中可以看出，在每个层级中，首尾两个节点各自具有一个同层节点，除首尾节点外的每个节点具有3个同层节点。这里的同层节点包含该节点本身。比如，第2层级中的节点3的同层节点为：节点2、节点3和节点4。除最低层级的节点外，也即除叶子节点外，每个节点具有两个子节点。比如，第2层级中的节点3的子节点为：第1层级中的节点5和节点6。除最高层级的节点外，也即除根节点外，每个节点具有一个父节点。比如，第2层级中的节点3的父节点为：第3层级中的节点2。

应理解，图3只是一种示例性说明，在实际应用中，每个层级的子节点数也可以为3个甚至更多个，且每个层级中节点的子节点数也可以不同，比如，第2层级中的节点的子节点数为3个，第3层级中的节点的子节点数为两个等等，具体可以通过控制卷积层的卷积级核长度来设定。

当然，在实际应用中，上述形成树形关系图的步骤也可以分别在生成层和注意力层两层执行。具体地，在生成层，基于多次卷积结果，构建初始的树形关系图，其只包括各个层级中的各个节点以及相邻两层中存在卷积关系的节点的连接边。之后在注意力层，构建同一个层级中各个节点之间的连接边，也即构建每个节点与各同层节点之间的连接边，从而得到最终的树形关系图(参见图4)。具体生成过程参见上文所述，本说明书在此不复赘述。

回到图3中，该方法还可以包括如下步骤。

步骤304，在注意力层，根据树形关系图，确定输入的任一目标向量的关联向量，根据关联向量对目标向量进行基于注意力机制的加权综合处理，得到对应的更新向量，该更新向量用于确定指标序列的特征表示。

其中，上述确定输入的任一目标向量的关联向量具体可以包括：从树形关系图中的各节点中，选取出从目标向量对应的节点出发沿连接边到达的邻居节点。将选取出的邻居节点对应的向量确定为关联向量。

以图4为例来说，假设目标向量对应于第2层级中的节点3，那么其邻居节点可以包括：第2层级中的节点2、节点3和节点4，第1层级中的节点5和节点6，以及第3层级中的节点2。

也就是说，针对第2层级中的节点3，可以同时聚合6个节点的信息。事实上，第2层级中的节点2，又同时聚合了第1层级中的节点3和节点4，第2层级中的节点1和第3层级中的节点1。从而本方案针对任一节点，可以捕获较远距离的节点的信息，由此可以大大提升序列表示的准确性。而由于本方案是按照层级来逐层聚合节点的信息的，从而不会增加时间复杂度。而且经过实验证明，该时间复杂度仅仅为原始向量序列的长度L的常数倍，从而本方案可以平衡准确性和时间复杂度两方面的因素。

步骤340中，根据关联向量对目标向量进行基于注意力机制的加权综合处理，可以包括：

分别采用第一变换矩阵Q，第二变换矩阵K和第三变换矩阵V对目标向量和关联向量进行变换，得到目标向量对应的第一中间向量，第二中间向量和第三中间向量，以及得到关联向量对应的第一中间向量，第二中间向量和第三中间向量。基于目标向量对应的第一中间向量与关联向量对应的第二中间向量的点乘操作，确定目标向量与关联向量的关联度。以目标向量与关联向量的关联度作为权重因子，对关联向量对应的第三中间向量进行加权组合，得到目标向量对应的第一组合向量。基于第一组合向量，得到目标向量对应的更新向量。类似地，可以得到每个输入的向量的更新向量。

需要说明，上述在注意力层确定每个输入的向量的更新向量的过程，也可以理解为是树形关系图的更新过程。这里的更新是将树形关系图中每个节点对应的向量替换为对应更新向量。

应理解，在神经网络包括N个注意力层时，那么可以针对树形关系图迭代地更新N次。之后，可以基于N个注意力层中最后一个注意力层得到的各更新向量，确定指标序列的特征表示。或者说，基于经过N次更新后的树形关系图，确定指标序列的特征表示。

在一个示例中，上述确定指标序列的特征表示具体可以包括：对于经过N次更新后的树形关系图中的每个层级，整合该层级中各节点对应的更新向量，得到对应于各层级的各整合向量。从低层级到高层级，逐层整合各层级的各整合向量，得到指标序列的特征表示。

至此，指标序列的处理过程完成。

此外，如前所述，上述神经网络还可以包括一个全连接层(以下称第一全连接层)，用于预测一个或多个未来时刻的业务指标值(也称预测指标值)。或者，上述神经网络还可以包括两个解码层(包括第一解码层和第二解码层)和一个全连接层(以下称第二全连接层)，用于预测多个未来时刻的业务指标值。以下对该预测过程进行详细说明。

先针对神经网络包括第一全连接层，且预测一个未来时刻的业务指标值的情况进行说明。在该种情况下，上述指标序列可以包括t个过去时刻的实际指标值以及1个未来时刻的预定指标值。

具体地，在针对上述指标序列进行对应于上述生成层和N个注意力层的处理后，在第一全连接层，可以获取基于经过N次更新后的树形关系图中每个层级的最后一个节点对应的更新向量形成的目标向量序列。基于该目标向量序列，获得1个未来时刻的预测指标值。这里的N次更新对应于N个注意力层。

类似地，可以获得多个未来时刻的预测指标值。

以下再对神经网络包括两个解码层和一个全连接层，且预测多个未来时刻的业务指标值的情况进行说明。在该种情况下，上述指标序列可以包括t个过去时刻的实际指标值以及M个未来时刻的预定指标值。这里的M为大于1的正整数。

具体地，在针对上述指标序列进行对应于上述生成层和N个注意力层的处理后，在第一解码层，获取基于N次更新后的树形关系图中各节点对应的各个更新向量形成的第一目标向量序列。根据第一目标向量序列对原始向量序列中的每个向量进行基于注意力机制的加权综合处理，得到各中间向量。这里的N次更新对应于N个注意力层。

在第二解码层，将各中间向量与第一目标向量序列进行拼接，得到第二目标向量序列。根据第二目标向量序列对各中间向量中的每个中间向量进行基于注意力机制的加权综合处理，得到各最终向量。

在第二全连接层，基于各最终向量，获得M个未来时刻的预测指标值。

这里的加权综合处理可以参照上述根据关联向量对目标向量进行基于注意力机制的加权综合处理，本说明书在此不复赘述。

综合以上，本说明书实施例提供的利用神经网络进行序列处理的方法，在注意力层，仅基于目标向量的关联向量而不是基于全部向量，来更新目标向量，可以大大减少注意力分数的计算次数，进而可以提升指标序列的处理效率。此外，由于树形关系图是基于对应于不同时间尺度的处理向量序列形成的，从而基于该树形关系图，确定任一目标向量的关联向量，可以实现指标序列的多尺度特征学习，进而可以提升指标序列的特征表示的准确性。最后，在指标序列的特征表示准确性提高的情况下，可以进一步提升指标序列的预测准确性。

与上述利用神经网络进行序列处理的方法对应地，本说明书一个实施例还提供的一种序列处理的装置，如图5所示，该装置可以包括：

生成单元502，用于获取按时间排序的业务指标值形成的指标序列所对应的原始向量序列，针对该原始向量序列迭代执行多层级的向量聚合，得到对应于不同时间尺度的多层级的处理向量序列，该原始向量序列和各处理向量序列中的各个向量，形成多层级的树形关系图。

获取单元504，用于根据树形关系图，确定输入的任一目标向量的关联向量，根据关联向量对目标向量进行基于注意力机制的加权综合处理，得到对应的更新向量，该更新向量用于确定指标序列的特征表示。

可选地，生成单元502可以包括依次堆叠的多个卷积模块5022，且在上一卷积模块5022得到的处理结果输入到下一卷积模块5022中；

生成单元502具体用于：

分别在多个卷积模块5022依次执行多次卷积处理，得到对应于所述多次卷积处理的多个处理结果；

将多个处理结果分别作为多层级的处理向量序列。

其中，卷积模块5022的数目与树形关系图的层级数正相关。

其中，各处理向量序列具有不同的长度，且任一处理向量序列的第二长度是根据原始向量序列的第一长度以及对应卷积模块5022的卷积核长度和层级确定的，该第二长度与卷积模块5022的层级负相关。

其中，上述卷积核长度是根据树形关系图中非叶子节点的子节点数确定的。

可选地，生成单元502还包括：

建立模块5024，用于将原始向量序列和各处理向量序列共同作为各初始向量序列，并建立各初始向量序列与树形关系图的各层级的对应关系。其中，从低层级到高层级对应于时间尺度从细到粗。

形成模块5026，用于基于上述对应关系，形成多层级的树形关系图。

形成模块5026具体用于：

对于任意的第i层级，构建对应于第i初始向量序列中的各个向量的各节点，从而得到各层级中的各节点；

对于第i层级中任意的第一节点，分别从第i层级、第i+1层级以及第i-1层级中的各节点中选取同层节点、父节点以及子节点作为第一节点的邻居节点。构建第一节点与邻居节点的连接边，如此构建出各层级中的各节点与邻居节点的连接边。

其中，上述同层节点的节点标识与第一节点的第一标识的差值不大于第一常数，第一常数与预设的同层节点数正相关。上述父节点的节点标识，基于第一标识以及预设的子节点数的商而确定。上述子节点的节点标识，基于第一标识与预设的子节点数的乘积而确定。

可选地，生成单元502还包括：

变换模块(图中未示出)，用于分别采用第一变换矩阵Q，第二变换矩阵K和第三变换矩阵V对目标向量和关联向量进行变换，得到目标向量和关联向量对应的第一中间向量，第二中间向量和第三中间向量；

点乘模块(图中未示出)，用于基于目标向量对应的第一中间向量与关联向量对应的第二中间向量的点乘操作，确定目标向量与关联向量的关联度；

组合模块(图中未示出)，用于以目标向量与关联向量的关联度作为权重因子，对关联向量对应的第三中间向量进行加权组合，得到目标向量对应的第一组合向量，基于第一组合向量，得到对应的更新向量。

可选地，获取单元504具体可以包括：

选取模块5042，用于从树形关系图中的各节点中，选取出从目标向量对应的节点出发沿连接边到达的邻居节点。

确定模块5044，用于将选取出的邻居节点对应的向量确定为关联向量。

可选地，该装置还可以包括：

嵌入单元(图中未示出)，用于获取指标序列，并对其中的各业务指标值进行嵌入处理，得到对应的多个特征向量，基于多个特征向量形成原始向量序列。

可选地，上述获取单元504的数目为N，且N大于1，该装置还包括：

确定单元506，用于基于N个获取单元504中最后一个获取单元504得到的各更新向量，确定指标序列的特征表示。

可选地，上述指标序列包括t个过去时刻的实际指标值和1个未来时刻的预定指标值，该装置还包括：

第一预测单元(图中未示出)，用于获取基于经过N次更新后的树形关系图中每个层级的最后一个节点对应的更新向量形成的目标向量序列。基于目标向量序列，获得1个未来时刻的预测指标值；其中，N次更新分别对应于N个获取单元504。

可选地，上述指标序列包括t个过去时刻的实际指标值和M个未来时刻的预定指标值，该装置还包括：

第一解码单元(图中未示出)，用于获取基于N次更新后的树形关系图中各节点对应的各个更新向量形成的第一目标向量序列。根据第一目标向量序列对原始向量序列中的每个向量进行基于注意力机制的加权综合处理，得到各中间向量。其中，N次更新分别对应于N个获取单元504。

第二解码单元(图中未示出)，用于将各中间向量与第一目标向量序列进行拼接，得到第二目标向量序列。根据第二目标向量序列对各中间向量中的每个中间向量进行基于注意力机制的加权综合处理，得到各最终向量。

第二预测单元(图中未示出)，用于基于各最终向量，获得M个未来时刻的预测指标值。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的序列处理的装置，可以平衡准确性和时间复杂度两方面的因素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种利用神经网络进行序列处理的方法，所述神经网络包括生成层和注意力层；所述方法包括：

2.根据权利要求1所述的方法，其中，所述生成层包括依次堆叠的多个卷积层，且在上一卷积层得到的处理结果输入到下一卷积层中；

所述迭代执行多层级的向量聚合，包括：

分别在所述多个卷积层依次执行多次卷积处理，得到对应于所述多次卷积处理的多个处理结果；

将所述多个处理结果分别作为所述多层级的处理向量序列。

3.根据权利要求2所述的方法，其中，所述各处理向量序列具有不同的长度，且任一处理向量序列的第二长度是根据所述原始向量序列的第一长度以及对应卷积层的卷积核长度和层级确定的；所述第二长度与所述层级负相关。

4.根据权利要求3所述的方法，其中，所述卷积核长度是根据所述树形关系图中非叶子节点的子节点数确定的。

5.根据权利要求2所述的方法，其中，所述卷积层的层数与所述树形关系图的层级数正相关。

6.根据权利要求1所述的方法，其中，所述形成所述多层级的树形关系图，包括：

将所述原始向量序列和各处理向量序列共同作为各初始向量序列，并建立所述各初始向量序列与所述树形关系图的各层级的对应关系；其中，从低层级到高层级对应于时间尺度从细到粗；

基于所述对应关系，形成所述多层级的树形关系图。

7.根据权利要求6所述的方法，其中，形成所述多层级的树形关系图，包括：

对于任意的第i层级，构建对应于第i初始向量序列中的各个向量的各节点；从而得到各层级中的各节点；

对于所述第i层级中任意的第一节点，分别从所述第i层级、第i+1层级以及第i-1层级中的各节点中选取同层节点、父节点以及子节点作为所述第一节点的邻居节点；构建所述第一节点与所述邻居节点的连接边；如此构建出各层级中的各节点与邻居节点的连接边。

8.根据权利要求7所述的方法，其中，

所述同层节点的节点标识与所述第一节点的第一标识的差值不大于第一常数，所述第一常数与预设的同层节点数正相关；所述父节点的节点标识，基于所述第一标识以及预设的子节点数的商而确定；所述子节点的节点标识，基于所述第一标识与所述预设的子节点数的乘积而确定。

9.根据权利要求1所述的方法，其中，所述确定输入的任一目标向量的关联向量，包括：

从所述树形关系图中的各节点中，选取出从所述目标向量对应的节点出发沿连接边到达的邻居节点；

将选取出的所述邻居节点对应的向量确定为所述关联向量。

10.根据权利要求1所述的方法，其中，所述根据所述关联向量对所述目标向量进行基于注意力机制的加权综合处理，包括：

分别采用第一变换矩阵Q，第二变换矩阵K和第三变换矩阵V对所述目标向量和关联向量进行变换，得到所述目标向量和关联向量对应的第一中间向量，第二中间向量和第三中间向量；

基于所述目标向量对应的第一中间向量与所述关联向量对应的第二中间向量的点乘操作，确定所述目标向量与所述关联向量的关联度；

以所述目标向量与所述关联向量的关联度作为权重因子，对所述关联向量对应的第三中间向量进行加权组合，得到所述目标向量对应的第一组合向量；

基于所述第一组合向量，得到对应的更新向量。

11.根据权利要求1所述的方法，其中，所述神经网络还包括嵌入层；

在所述嵌入层，获取所述指标序列，并对其中的各业务指标值进行嵌入处理，得到对应的多个特征向量；基于多个特征向量形成所述原始向量序列。

12.根据权利要求1所述的方法，其中，所述注意力层的数目为N，且N大于1；所述方法还包括：

基于N个注意力层中最后一个注意力层得到的各更新向量，确定所述指标序列的特征表示。

13.根据权利要求12所述的方法，其中，所述指标序列包括t个过去时刻的实际指标值和1个未来时刻的预定指标值；所述神经网络还包括第一全连接层；所述方法还包括：

在所述第一全连接层，获取基于经过N次更新后的树形关系图中每个层级的最后一个节点对应的更新向量形成的目标向量序列；基于所述目标向量序列，获得所述1个未来时刻的预测指标值；其中，所述N次更新分别对应于所述N个注意力层。

14.根据权利要求12所述的方法，其中，所述指标序列包括t个过去时刻的实际指标值和M个未来时刻的预定指标值；所述神经网络还包括第一解码层、第二解码层和第二全连接层；所述方法还包括：

在所述第一解码层，获取基于N次更新后的树形关系图中各节点对应的各个更新向量形成的第一目标向量序列；根据所述第一目标向量序列对所述原始向量序列中的每个向量进行基于注意力机制的加权综合处理，得到各中间向量；其中，所述N次更新分别对应于所述N个注意力层；

在所述第二解码层，将所述各中间向量与第一目标向量序列进行拼接，得到第二目标向量序列；根据所述第二目标向量序列对所述各中间向量中的每个中间向量进行基于注意力机制的加权综合处理，得到各最终向量；

在所述第二全连接层，基于所述各最终向量，获得所述M个未来时刻的预测指标值。

15.一种序列处理的装置，包括：

16.根据权利要求15所述的装置，其中，所述生成单元包括依次堆叠的多个卷积模块，且在上一卷积模块得到的处理结果输入到下一卷积模块中；

所述生成单元具体用于：

分别在所述多个卷积模块依次执行多次卷积处理，得到对应于所述多次卷积处理的多个处理结果；

将所述多个处理结果分别作为所述多层级的处理向量序列。

17.根据权利要求16所述的装置，其中，所述各处理向量序列具有不同的长度，且任一处理向量序列的第二长度是根据所述原始向量序列的第一长度以及对应卷积模块的卷积核长度和层级确定的；所述第二长度与所述层级负相关。

18.根据权利要求15所述的装置，其中，所述生成单元还包括：

建立模块，用于将所述原始向量序列和各处理向量序列共同作为各初始向量序列，并建立所述各初始向量序列与所述树形关系图的各层级的对应关系；其中，从低层级到高层级对应于时间尺度从细到粗；

形成模块，用于基于所述对应关系，形成所述多层级的树形关系图。

19.根据权利要求18所述的装置，其中，所述形成模块具体用于：

20.根据权利要求15所述的装置，其中，所述获取单元包括：

选取模块，用于从所述树形关系图中的各节点中，选取出从所述目标向量对应的节点出发沿连接边到达的邻居节点；

确定模块，用于将选取出的所述邻居节点对应的向量确定为所述关联向量。

21.根据权利要求15所述的装置，其中，所述获取单元的数目为N，且N大于1；所述装置还包括：

确定单元，用于基于N个获取单元中最后一个获取单元得到的各更新向量，确定所述指标序列的特征表示。

22.根据权利要求21所述的装置，其中，所述指标序列包括t个过去时刻的实际指标值和1个未来时刻的预定指标值；所述装置还包括：

第一预测单元，用于获取基于经过N次更新后的树形关系图中每个层级的最后一个节点对应的更新向量形成的目标向量序列；基于所述目标向量序列，获得所述1个未来时刻的预测指标值；其中，所述N次更新分别对应于所述N个获取单元。

23.根据权利要求21所述的装置，其中，所述指标序列包括t个过去时刻的实际指标值和M个未来时刻的预定指标值；所述装置还包括：

第一解码单元，用于获取基于N次更新后的树形关系图中各节点对应的各个更新向量形成的第一目标向量序列；根据所述第一目标向量序列对所述原始向量序列中的每个向量进行基于注意力机制的加权综合处理，得到各中间向量；其中，所述N次更新分别对应于所述N个获取单元；

第二解码单元，用于将所述各中间向量与第一目标向量序列进行拼接，得到第二目标向量序列；根据所述第二目标向量序列对所述各中间向量中的每个中间向量进行基于注意力机制的加权综合处理，得到各最终向量；

第二预测单元，用于基于所述各最终向量，获得所述M个未来时刻的预测指标值。

24.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-14中任一项所述的方法。

25.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-14中任一项所述的方法。