CN113485829A

CN113485829A - 用于微服务集群的数据增量步段的标识值生成方法

Info

Publication number: CN113485829A
Application number: CN202110746940.5A
Authority: CN
Inventors: 刘云飞
Original assignee: Shenzhen Wanshun Car Information Technology Co ltd
Current assignee: Shenzhen Wanshun Car Information Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-08
Anticipated expiration: 2041-07-02
Also published as: CN113485829B

Abstract

本申请涉及微服务集群的数据存储领域，具体地公开了一种用于微服务集中的数据增量步段的标识值生成方法，其以深度神经网络来构建编码‑解码器以基于数据中心ID，机器ID，时间戳和现有序列生成含有用于编码的数据中心ID，机器ID，时间戳和现有序列的信息数据增量步段的标识值，通过这样的方式，来提高数据分片和横向拓展的准确率且提高数据处理的灵活性。

Description

用于微服务集群的数据增量步段的标识值生成方法

技术领域

本发明涉及微服务集群的数据存储领域，且更为具体地，涉及一种用于微服务集群的数据增量步段的标识值生成方法、生成系统和电子设备。

背景技术

微服务集群(即，微服务加多实例集群)体系下，数据存储逐渐成为整个系统的性能瓶颈。基于微服务集群合理切分数据并且尽可能避免数据迁移是微服务集群系统能够长期稳定运行的基础。也就是，受限于数据瓶颈，在面对大量数据时，数据的合理拆分至关重要。因此，如何合理地分配、存储和尽可能地避免数据分片横向扩展后的数据迁移是急需解决的技术问题。

在微服务集群的数据处理方案中，一个关键在于生成数据增量步长的标识。在现行的方案中，通常通过数据中心ID、机器ID、时间戳和数据增量步长的现有序列来生成当前的数据增量步长的标识值。但是这种方案仅能够挖掘出数据增量步长中的表面信息而无法获取数据增量步长中的隐藏信息，导致在基于该数据增量步段的标识值进行数据分片和横向拓展时正确率不高，且不利于灵活拓展。

因此，期待一种优化的用于微服务集群的数据增量步段的标识值生成方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种用于微服务集群的数据增量步段的标识值生成方法、生成系统和电子设备，其以深度神经网络来构建编码-解码器以基于数据中心ID，机器ID，时间戳和现有序列生成含有用于编码的数据中心ID，机器ID，时间戳和现有序列的信息数据增量步段的标识值，通过这样的方式，来提高数据分片和横向拓展的准确率且提高数据处理的灵活性。

根据本申请的一个方面，提供了一种用于微服务集群的数据增量步段的标识值生成方法，其包括：

训练阶段，包括：

获取训练数据集，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列；

将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量；

将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量，所述编码器为第一深度神经网络；

将所述训练特征向量输入解码器，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值，所述解码器为第二深度神经网络；

计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值；

将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量；

分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值；及

基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络；以及

预测阶段，包括：

获取待预测的数据中心ID，机器ID，时间戳和现有序列；

将所述待预测的数据中心ID，机器ID，时间戳和现有序列输入经训练阶段训练完成的作为编码器的第一深度神经网络，以获得特征向量；及

将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络，以获得解码值，所述解码值为所述数据增量步段的标识值。

在根据本申请的用于微服务集群的数据增量步段的标识值生成方法中，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络，包括：计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以及，在每一轮迭代中，先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第一深度神经网络的参数，后以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第二深度神经网络的参数。

用于微服务集群的数据增量步段的标识值生成方法基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络，包括：计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和，来训练所述第一深度神经网络；以及，在所述第一深度神经网络训练完成后，以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第二深度神经网络。

用于微服务集群的数据增量步段的标识值生成方法所述预测阶段进一步包括：将所述特征向量通过分类器以获得分类结果，所述分类结果用于表示所述数据增量步段所对应的类别信息。

用于微服务集群的数据增量步段的标识值生成方法将所述特征向量通过分类器以获得分类结果，包括：将所述特征向量输入Softmax分类函数以获得所述特征向量归属于所述数据增量步段归属于各个类别的概率；以及，基于所述数据增量步段归属于各个类别的概率，确定所述分类结果。

用于微服务集群的数据增量步段的标识值生成方法所述第一深度神经网络和所述第二深度神经网络为全连接深度神经网络。

根据本申请的另一方面，还提供了一种用于微服务集群的数据增量步段的标识值生成系统，其包括：

训练模块，包括：

训练数据单元，用于获取训练数据集，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列；

向量转化单元，用于将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量；

训练编码单元，用于将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量，所述编码器为第一深度神经网络；

训练解码单元，用于将所述训练特征向量输入解码器，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值，所述解码器为第二深度神经网络；

第一损失函数值计算单元，用于计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值；

特征向量重构单元，用于将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量；

第二损失函数值计算单元，用于分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值；以及

训练单元，用于基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络；以及

预测模块，包括：

待预测数据单元，用于获取待预测的数据中心ID，机器ID，时间戳和现有序列；

预测编码单元，用于将所述待预测的数据中心ID，机器ID，时间戳和现有序列输入经训练阶段训练完成的作为编码器的第一深度神经网络，以获得特征向量；以及

预测解码单元，用于将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络，以获得解码值，所述解码值为所述数据增量步段的标识值。

在根据本申请的用于微服务集群的数据增量步段的标识值生成系统中，所述训练单元，进一步用于计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以及，在每一轮迭代中，先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第一深度神经网络的参数，后以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第二深度神经网络的参数。

在根据本申请的用于微服务集群的数据增量步段的标识值生成系统中，所述训练单元，进一步用于计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和，来训练所述第一深度神经网络；以及，在所述第一深度神经网络训练完成后，以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第二深度神经网络。

根据本申请的又一方面，还提供了一种电子设备，其包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于微服务集群的数据增量步段的标识值生成方法。

与现有技术相比，本申请提供的用于微服务集群的数据增量步段的标识值生成方法、生成系统和电子设备，其以深度神经网络来构建编码-解码器以基于数据中心ID，机器ID，时间戳和现有序列生成含有用于编码的数据中心ID，机器ID，时间戳和现有序列的信息数据增量步段的标识值，通过这样的方式，来提高数据分片和横向拓展的准确率且提高数据处理的灵活性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的应用场景图；

图2为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的训练阶段的流程图。

图3为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的预测阶段的流程图。

图4为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的训练阶段的架构示意图。

图5为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的预测阶段的架构示意图。

图6为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成系统的框图。

图7为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，微服务集群(即，微服务加多实例集群)体系下，数据存储逐渐成为整个系统的性能瓶颈。基于微服务集群合理切分数据并且尽可能避免数据迁移是微服务集群系统能够长期稳定运行的基础。也就是，受限于数据瓶颈，在面对大量数据时，数据的合理拆分至关重要。因此，如何合理地分配、存储和尽可能地避免数据分片横向扩展后的数据迁移是急需解决的技术问题。

也就是，传统的根据数据中心ID，机器ID，时间戳和现有序列生成数据增量步段的ID的编码方案无法通过数据增强步段的ID值表达该数据增量步段的隐藏信息，也就是，编码出的数据增量步段的ID中不含有用于编码的数据中心ID，机器ID，时间戳和现有序列的信息。

相应地，本申请发明人尝试采用基于深度学习的编码器-解码器的方案来从数据中心ID，机器ID，时间戳和现有序列编码获得数据增量步段的ID。也就是，将数据中心ID，机器ID，时间戳和现有序列分别转换为第一输入向量、第二输入向量、第三输入向量和第四输入向量，并级联后输入作为第一深度神经网络的编码器以得到包含数据中心ID，机器ID，时间戳和现有序列的全部相关信息的特征向量，然后再通过作为第二深度神经网络，例如全连接深度神经网络的解码器从特征向量得到作为数据增量步段的ID的特征值。

在深度神经网络的训练过程当中，由于缺乏训练样本，也就是，通常不具有{数据中心ID，机器ID，时间戳，现有序列，数据增量步段的ID}的数据集，而是仅具有{数据中心ID，机器ID，时间戳，现有序列}的数据集，因此不适于采用监督学习方案，而是需要采用自监督学习方案。

也就是，由于相对于ID序列来说，数据中心ID、机器ID和时间戳都相当于标签值，在编码器-解码器的训练当中，实质上也不需要一定限定当前ID的具体表达方式，仅需要其与现有的ID序列具备一致性，同时作为增强步段与现有的ID序列结合后，与标签值具有一致性即可。

因此，在训练过程中获得如上所述的特征向量和特征值之后，首先计算特征向量与特征值之间的第一交叉熵损失函数值，然后再将特征值添加到特征向量的末尾构成新特征向量，并分别计算新特征向量与作为标签值的数据中心ID、机器ID和时间戳之间的第二、第三和第四交叉熵损失函数值，再基于第一到第四交叉熵损失函数值的加权和来训练第一深度神经网络和第二深度神经网络，即编码器-解码器，以得到训练好的用于根据数据中心ID，机器ID，时间戳和现有序列生成数据增量步段的ID的模型。

并且，当期望基于数据增量步段的ID进行数据分析时，例如进行基于数据中心、基于机器或者基于时间戳的索引时，可以保留编码器所生成的特征向量，并将该特征向量通过分类器，就可以确定数据增量步段所对应的类别信息。

基于此，本申请提出了一种用于微服务集群的数据增量步段的标识值生成方法，其包括：训练阶段和预测阶段。相应地，训练阶段包括步骤：获取训练数据集，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列；将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量；将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量，所述编码器为第一深度神经网络；将所述训练特征向量输入解码器，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值，所述解码器为第二深度神经网络；计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值；将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量；分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值；以及，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络。预测阶段，包括步骤：获取待预测的数据中心ID，机器ID，时间戳和现有序列；将所述待预测的数据中心ID，机器ID，时间戳和现有序列输入经训练阶段训练完成的作为编码器的第一深度神经网络，以获得特征向量；以及，将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络，以获得解码值，所述解码值为所述数据增量步段的标识值。

图1图示了根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的应用场景图。如图1所示，在该应用场景中，首先，获取训练数据集(例如，如图1中所示意的T)，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列；接着，将所述训练数据集输入部署有用于微服务集群的数据增量步段的标识值生成算法的服务器(例如，如图1中所示意的S)中，其中，所述服务器能够以用于微服务集群的数据增量步段的标识值生成算法以所述训练数据集对用于基于深度神经网络的编码-解码器进行训练。

相应地，在训练完成后，获取待预测数据(例如，如图1中所示意的P)，所述待预测数据包括数据中心ID、机器ID、时间戳和现有序列；然后，将获取的待预测数据输入部署有用于微服务集群的数据增量步段的标识值生成算法的服务器(例如，如图1中所示意的S)中，其中，所述服务器能够以用于微服务集群的数据增量步段的标识值生成算法对所述待预测数据进行处理以生成数据增量步段的标识值。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图2和图3图示了根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的流程图，其包括两个阶段：训练阶段和预测阶段。

图2为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的训练阶段的流程图。如图2所示，根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的训练阶段，包括步骤：S110，获取训练数据集，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列；S120，将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量；S130，将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量，所述编码器为第一深度神经网络；S140，将所述训练特征向量输入解码器，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值，所述解码器为第二深度神经网络；S150，计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值；S160，将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量；S170，分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值；以及，S180，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络。

图4为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的训练阶段的架构示意图。如图4所示，在所述训练阶段的架构中，首先将获取的训练数据集(例如，如图4中所示意的D1)，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列分别转化为第一输入向量(例如，如图4中所示意的V1)、第二输入向量(例如，如图4中所示意的V2)、第三输入向量(例如，如图4中所示意的V3)和第四输入向量(例如，如图4中所示意的V4)；接着，将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器(例如，如图4中所示意的Encoder)，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量(例如，如图4中所示意的Vt)，所述编码器为第一深度神经网络；然后，将所述训练特征向量输入解码器(例如，如图4中所示意的Decoder)，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值(例如，如图4中所示意的Q)，所述解码器为第二深度神经网络；然后，计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值；接着，将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量(例如，如图4中所示意的Vn)；然后，分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值；最终，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络。

图3为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的预测阶段的流程图。如图3所示，根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的预测阶段，包括步骤：S210，获取待预测的数据中心ID，机器ID，时间戳和现有序列；S220，将所述待预测的数据中心ID，机器ID，时间戳和现有序列输入经训练阶段训练完成的作为编码器的第一深度神经网络，以获得特征向量；以及，S230，将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络，以获得解码值，所述解码值为所述数据增量步段的标识值。

在一些实施例中，所述预测阶段进一步包括步骤：S240，将所述特征向量通过分类器以获得分类结果，所述分类结果用于表示所述数据增量步段所对应的类别信息。也就是，当期望基于数据增量步段的ID进行数据分析时，例如进行基于数据中心、基于机器或者基于时间戳的索引时，可以保留编码器所生成的特征向量，并将该特征向量通过分类器，就可以确定数据增量步段所对应的类别信息。

图5为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成方法的预测阶段的架构示意图。如图5所示，在所述预测阶段的架构中，首先将获取的待预测的数据中心ID，机器ID，时间戳和现有序列(例如，如图5中所示意的Pd)；输入经训练阶段训练完成的作为编码器的第一深度神经网络(例如，如图5中所示意的Encoder)以获得特征向量(例如，如图5中所示意的Vf)；然后，将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络(例如，如图5中所示意的Decoder)以获得解码值，所述解码值为所述数据增量步段的标识值(例如，如图5中所示意的Q1)。

并且，在本申请的一些示例中，如图5所示，所述预测阶段的结构进一步包括：将所述特征向量输入分类器(例如，如图5中所示意的圈S)以获得用于表示所述数据增量步段所对应的类别信息，其中，所述数据增量步段所对应的类别信息可用于后续的数据分析。

更具体地，在训练阶段中，在步骤S110中，获取训练数据集，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列。如前所述，为了解决技术问题本申请的技术构思为：以深度神经网络来构建编码-解码器以基于数据中心ID，机器ID，时间戳和现有序列生成含有用于编码的数据中心ID，机器ID，时间戳和现有序列的信息数据增量步段的标识值，通过这样的方式，来提高数据分片和横向拓展的准确率且提高数据处理的灵活性。

在深度神经网络的训练过程中，由于缺乏训练样本，也就是，通常不具有{数据中心ID，机器ID，时间戳，现有序列，数据增量步段的ID}的数据集，而是仅具有{数据中心ID，机器ID，时间戳，现有序列}的数据集，因此不适于采用监督学习方案，而是需要采用自监督学习方案。

这里，在所述训练数据集中，所述数据中心ID表示数据库的身份标识值、机器ID表示相关设备的身份标志，时间戳表示进行数据操作的时间(例如，数据切分和横向扩展的时间)，现有序列表示已生成的数据增量步段的标识值序列。

更具体地，在训练阶段中，在步骤S120中，将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量。也就是，将训练数据集中的所述数据中心ID、所述机器ID、所述时间戳和所述现有序列转化为向量数据格式。应可以理解，所述数据中心ID、所述机器ID、所述时间戳和所述现有序列本身都是由计算机生成的计算机可读数据形式，因此只需要将其按照特定的顺序进行排列(如果有必要，也可以进行一定程度的编码)就可以将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量。

更具体地，在训练阶段中，在步骤S130中，将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量，所述编码器为第一深度神经网络。这里，将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量进行级联表示将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列在向量空间的表达进行关联，并且，在关联后以深度神经网络作为编码器来从关联向量中提取出包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量。

在一个具体的示例中，所述第一深度神经网络被实施为深度全连接层，其由多个全连接层组成。本领域普通技术人员应了解，全连接层能够充分利用数据中各个位置的信息以挖掘到所期待的特征，相应地，由多个全连接层组成的所述深度全连接网络作为编码器能够挖掘出包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量。

值得一提的是，在具体实施中，当所述第一深度神经网络被实施为深度全连接网络时，所述第一深度神经网络的深度可基于具体的应用场景做出调整，其需综合考虑模型的性能和训练的计算量，对此，并不为本申请所局限。

更具体地，在训练阶段中，在步骤S140中，将所述训练特征向量输入解码器，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值，所述解码器为第二深度神经网络。也就是，在通过以第一深度神经网络作为编码器对所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量进行编码以获得训练特征向量后，进一步地以编码器进行解码以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值。

为了使得最终解码所获得的数据增强步段的ID值表达该数据增量步段的隐藏信息，在本申请实施例中，同样选择以深度神经网络作为解码器。例如，在本申请一个具体的示例中，所述解码器被实施为第二深度神经网络。

优选地，所述第二深度神经网络同样被实施为深度全连接网络，即，所述第二深度神经网络由多个全连接层组成，这样由深度全连接网络构成的解码器能够充分利用所述训练特征向量中各个位置所包含的抽象特征和信息以获得作为数据增量步段的标识值的训练特征值。

更具体地，在训练阶段中，在步骤S150中，计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值。也就是，在获得如上所述的训练特征向量和所述训练特征值之后，计算两者之间的第一交叉熵损失函数值。这里，所述第一交叉熵损失函数值表示所述训练特征向量和所述训练特征值在高维特征空间的分布的一致性概率。

应可以理解，在编码器-解码器的训练当中，实质上不需要一定限定当前数据增量步段的标识值的具体表达方式，仅需要其与现有的所述数据增量步段的标识值序列具备一致性即可。这里，所述第一交叉熵损失函数值即表示当前标识值与现有的所述数据增量步段的标识值序列的一致性。

并且，在训练过程中，由于相对于现有序列(也就是，现有的数据增量步段的标识值序列)来说，数据中心ID、机器ID和时间戳都相当于标签值。同时作为数据增强步段与现有的标识值序列结合后，与标签值具有一致性即可。

相应地，在训练阶段中，在步骤S160中，将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量。也就是，将当前的数据增强步段与现有的标识值序列进行结合以获得新的训练特征向量，其中，现有的标识值序列以所述训练特征向量表示。

更具体地，在训练阶段中，在步骤S170中，分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值。也就是，将当前的数据增强步段与现有的标识值序列进行结合，计算其与数据中心ID、机器ID和时间戳作为标签值之间的一致性程度。这里，所述第二交叉熵损失函数值表示所述新训练特征向量与所述数据中心ID在高维特征空间的数据分布的相似程度、所述第三交叉熵损失函数值表示所述新训练特征向量与所述机器ID在高维特征空间的数据分布的相似程度，所述第四交叉熵损失函数值表示所述新训练特征向量与所述时间戳在高维特征空间的数据分布的相似程度。

更具体地，在训练阶段中，在步骤S180中，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络。具体地，以所述第一、第二、第三和第四交叉熵损失函数值的加权和通过梯度下降的反向传播来更新所述第一深度神经网络和所述第二深度神经网络的参数。

在具体参数更新中，可同步地更新所述第一深度神经网络和所述第二神经网络，这样作为第一深度神经网络的编码器和作为第二深度神经网络的解码器之间的关联性会更强，也就是，编码所产生的特征向量，以及，解码所生成的特征值之间的关联性会增强。

在同步训练的每一次迭代过程中，可先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第一深度神经网络的参数，后以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第二深度神经网络的参数。

当然，在本申请其他实施例中，也可以采用分步训练的方式，也就是，先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络(即，所述编码器)；在所述编码器训练完成后，再以所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第二深度神经网络(即，所述解码器)。这样，所训练出来的编码器更关注于解码的能力，而所训练出来的解码器更关注于其解码的能力。

通过上述过程训练出来的编码-解码器为训练好的用于根据数据中心ID，机器ID，时间戳和现有序列生成数据增量步段的ID的模型。相应地，在训练完成后，便能够以所述编码-解码器来生成数据增量步段的ID。

更具体地，在预测阶段中，首先获取待预测的数据中心ID，机器ID，时间戳和现有序列。然后，将所述待预测的数据中心ID，机器ID，时间戳和现有序列输入经训练阶段训练完成的作为编码器的第一深度神经网络，以获得特征向量。接着，将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络以获得解码值，所述解码值为所述数据增量步段的标识值。

值得一提的是，当期望基于数据增量步段的ID进行数据分析时，例如进行基于数据中心、基于机器或者基于时间戳的索引时，可以保留编码器所生成的特征向量，并将该特征向量通过分类器，就可以确定数据增量步段所对应的类别信息。

也就是，在本申请的一些实施例中，所述预测阶段进一步包括步骤：将所述特征向量通过分类器以获得分类结果，所述分类结果用于表示所述数据增量步段所对应的类别信息，即，所述步骤S240。

更具体地，将所述特征向量通过分类器以获得分类结果的过程，包括：将所述特征向量输入Softmax分类函数以获得所述特征向量归属于所述数据增量步段归属于各个类别的概率。然后，基于所述数据增量步段归属于各个类别的概率，确定所述分类结果，例如，以所述个别类别的概率中最大者作为最终的所述分类结果。

综上，基于本申请实施例的用于微服务集群的数据增量步段的标识值生成方法被阐明，其以深度神经网络来构建编码-解码器以基于数据中心ID，机器ID，时间戳和现有序列生成含有用于编码的数据中心ID，机器ID，时间戳和现有序列的信息数据增量步段的标识值，通过这样的方式，来提高数据分片和横向拓展的准确率且提高数据处理的灵活性。

示例性系统

图6为根据本申请实施例的用于微服务集群的数据增量步段的标识值生成系统的框图。如图6所示，根据本申请实施例的用于微服务集群的数据增量步段的标识值生成系统600，包括：训练模块610和预测模块620。

相应地，如图6所示，所述训练模块610，包括：训练数据单元611，用于获取训练数据集，所述训练数据集包括数据中心ID、机器ID、时间戳和现有序列；向量转化单元612，用于将所述数据中心ID、所述机器ID、所述时间戳和所述现有序列分别转化为第一输入向量、第二输入向量、第三输入向量和第四输入向量；训练编码单元613，用于将所述第一输入向量、所述第二输入向量、所述第三输入向量和所述第四输入向量级联后输入编码器，以获得包含所述数据中心ID、所述机器ID、所述时间戳和所述现有序列的全部相关信息的训练特征向量，所述编码器为第一深度神经网络；训练解码单元614，用于将所述训练特征向量输入解码器，以从所述训练特征向量获得作为数据增量步段的标识值的训练特征值，所述解码器为第二深度神经网络；第一损失函数值计算单元615，用于计算所述训练特征向量与所述训练特征值之间的第一交叉熵损失函数值；特征向量重构单元616，用于将所述训练特征值添加到所述训练特征向量的末尾以构成新训练特征向量；第二损失函数值计算单元617，用于分别计算所述新训练特征向量与作为标签值的所述数据中心ID、所述机器ID和所述时间戳之间的第二、第三和第四交叉熵损失函数值；以及，训练单元618，用于基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络。

相应地，如图6所示，所述预测模块620，包括：待预测数据单元621，用于获取待预测的数据中心ID，机器ID，时间戳和现有序列；预测编码单元622，用于将所述待预测的数据中心ID，机器ID，时间戳和现有序列输入经训练阶段训练完成的作为编码器的第一深度神经网络，以获得特征向量；以及，预测解码单元623，用于将所述特征向量输入经训练阶段训练完成的作为解码器的第二深度神经网络以获得解码值，所述解码值为所述数据增量步段的标识值。

在一个示例中，在上述用于微服务集群的数据增量步段的标识值生成系统600中，所述训练单元618，进一步用于计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以及，在每一轮迭代中，先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第一深度神经网络的参数，后以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第二深度神经网络的参数。

在一个示例中，在上述用于微服务集群的数据增量步段的标识值生成系统600中，所述训练单元618，进一步用于计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和，来训练所述第一深度神经网络；以及，在所述第一深度神经网络训练完成后，以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第二深度神经网络。

在一个示例中，在上述用于微服务集群的数据增量步段的标识值生成系统600中，所述预测模块620进一步包括分类单元624，用于将所述特征向量通过分类器以获得分类结果，所述分类结果用于表示所述数据增量步段所对应的类别信息。

在一个示例中，在上述用于微服务集群的数据增量步段的标识值生成系统600中，所述分类单元624，进一步用于将所述特征向量输入Softmax分类函数以获得所述特征向量归属于所述数据增量步段归属于各个类别的概率；以及，基于所述数据增量步段归属于各个类别的概率，确定所述分类结果。

在一个示例中，在上述用于微服务集群的数据增量步段的标识值生成系统600中，所述第一深度神经网络和所述第二深度神经网络为全连接深度神经网络。

这里，本领域技术人员可以理解，上述用于微服务集群的数据增量步段的标识值生成系统600中的各个单元和模块的具体功能和操作已经在上面参考图1到图5的用于微服务集群的数据增量步段的标识值生成方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的用于微服务集群的数据增量步段的标识值生成系统600可以实现在各种终端设备中，例如微服务集群的服务器等。在一个示例中，根据本申请实施例的用于微服务集群的数据增量步段的标识值生成系统600可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该用于微服务集群的数据增量步段的标识值生成系统600可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该用于微服务集群的数据增量步段的标识值生成系统600同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该用于微服务集群的数据增量步段的标识值生成系统600与该终端设备也可以是分立的设备，并且该用于微服务集群的数据增量步段的标识值生成系统600可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的用于微服务集群的数据增量步段的标识值生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如训练数据集、数据增量步段的标识值等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括数据增量步段的标识值等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于微服务集群的数据增量步段的标识值生成方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的用于微服务集群的数据增量步段的标识值生成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于微服务集群的数据增量步段的标识值生成方法，其特征在于，包括：

训练阶段，包括：

预测阶段，包括：

获取待预测的数据中心ID，机器ID，时间戳和现有序列；

2.根据权利要求1所述的用于微服务集群的数据增量步段的标识值生成方法，其中，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络，包括：

计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；

在每一轮迭代中，先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第一深度神经网络的参数，后以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第二深度神经网络的参数。

3.根据权利要求1所述的用于微服务集群的数据增量步段的标识值生成方法，其中，基于所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第一深度神经网络和所述第二深度神经网络，包括：

以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和，来训练所述第一深度神经网络；以及

在所述第一深度神经网络训练完成后，以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第二深度神经网络。

4.根据权利要求1所述的用于微服务集群的数据增量步段的标识值生成方法，其中，所述预测阶段进一步包括：将所述特征向量通过分类器以获得分类结果，所述分类结果用于表示所述数据增量步段所对应的类别信息。

5.根据权利要求1所述的用于微服务集群的数据增量步段的标识值生成方法，其中，将所述特征向量通过分类器以获得分类结果，包括：将所述特征向量输入Softmax分类函数以获得所述特征向量归属于所述数据增量步段归属于各个类别的概率；以及，基于所述数据增量步段归属于各个类别的概率，确定所述分类结果。

6.根据权利要求1所述的用于微服务集群的数据增量步段的标识值生成方法，其中，所述第一深度神经网络和所述第二深度神经网络为全连接深度神经网络。

7.一种用于微服务集群的数据增量步段的标识值生成系统，其特征在于，包括：

训练模块，包括：

预测模块，包括：

8.根据权利要求7所述的用于微服务集群的数据增量步段的标识值生成系统，其中，所述训练单元，进一步用于计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以及，在每一轮迭代中，先以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第一深度神经网络的参数，后以所述第一、第二、第三和第四交叉熵损失函数值的加权和来更新所述第二深度神经网络的参数。

9.根据权利要求7所述的用于微服务集群的数据增量步段的标识值生成系统，其中，所述训练单元，进一步用于计算所述第一、第二、第三和第四交叉熵损失函数值的加权和；以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和，来训练所述第一深度神经网络；以及，在所述第一深度神经网络训练完成后，以所述所述第一、第二、第三和第四交叉熵损失函数值的加权和来训练所述第二深度神经网络。

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的用于微服务集群的数据增量步段的标识值生成方法。