CN111563560B

CN111563560B - 基于时序特征学习的数据流分类方法及装置

Info

Publication number: CN111563560B
Application number: CN202010423688.XA
Authority: CN
Inventors: 杨贻宏
Original assignee: Shanghai Feiqi Network Technology Co ltd
Current assignee: Shanghai Feiqi Network Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2023-05-30
Anticipated expiration: 2040-05-19
Also published as: CN111563560A

Abstract

本申请实施例提供一种基于时序特征学习的数据流分类方法及装置，通过获取每个业务数据源的业务设备所发送的数据流数据以及数据流数据所对应的业务分类标签，然后针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取报文数据段信息的数据流特征信息，由此提取每个时序节点所对应的数据流特征信息的时序关联特征，将时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型，在此基础上可以根据数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。如此，能够基于时序特征对数据流进行业务分类，从而提高数据流的分类结果的准确性。

Description

基于时序特征学习的数据流分类方法及装置

技术领域

本申请涉及大数据和人工智能深度学习技术领域，具体而言，涉及一种基于时序特征学习的数据流分类方法及装置。

背景技术

数据流分类，就是将数据流划分为一个或者多个业务分类标签，从而可以便于后续实现基于业务分类标签的拥塞管理、安全防御、异常跟踪、广告推荐等。

通常来说，数据流中的特征变化都是基于时序的，而这些特征变化可以从很大程度上反映数据流的业务分类。然而，在传统的数据流分类方案中，通常并未充分考虑到基于时序特征的业务分类，进而导致数据流的分类结果的准确性较低。

发明内容

有鉴于此，本申请的目的在于提供一种基于时序特征学习的数据流分类方法及装置，能够基于时序特征对数据流进行业务分类，从而提高数据流的分类结果的准确性。

根据本申请的第一方面，提供一种基于时序特征学习的数据流分类方法，应用于服务器，所述方法包括：

获取每个业务数据源的业务设备所发送的数据流数据以及所述数据流数据所对应的业务分类标签，所述数据流数据包括以每个时序节点为一数据分段的数据流单位记录，所述数据流单位记录包括该时序节点所对应的报文数据段信息，所述业务分类标签包括每个时序节点所对应的数据分类标签所构成的综合分类标签；

针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取所述报文数据段信息的数据流特征信息；

提取每个时序节点所对应的数据流特征信息的时序关联特征，将所述时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型，其中，所述时序关联特征用于表示可随着时序发生变化的特征信息；

根据所述数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。

在第一方面的一种可能的实施方式中，所述根据每个数据流数据在该时序节点的数据分类标签提取所述报文数据段信息的数据流特征信息的步骤，包括：

根据每个数据流数据在该时序节点的数据分类标签所对应的特征提取模型，提取所述报文数据段信息中的多个流量数据单元中流量编码信息的编码类型特征；

针对每个流量数据单元，根据该流量数据单元中流量编码信息的编码类型特征，确定该流量数据单元中每个流量编码信息是否为待定目标流量编码信息，其中，每个流量编码信息对应于每个数据流项目；

根据该流量数据单元中待定目标流量编码信息的数量，确定该流量数据单元对应的每个待定特征提取区间；

针对每个待定特征提取区间，将该待定特征提取区间划分为多个子提取区间，根据每个子提取区间内各流量编码信息的编码类型特征及预设的编码类型特征范围，确定待定特征提取区间是否为目标特征提取区间；

在确定所述目标提取区间之后，根据所述目标特征提取区间内每个流量编码信息的编码特征，提取所述报文数据段信息的数据流特征信息。

在第一方面的一种可能的实施方式中，所述根据该流量数据单元中流量编码信息的编码类型特征，确定该流量数据单元中每个流量编码信息是否为待定目标流量编码信息的步骤，包括：

如果该流量数据单元中流量编码信息的编码类型特征处于设定长度范围内，则确定该流量数据单元中每个流量编码信息为待定目标流量编码信息，否则确定该流量数据单元中每个流量编码信息不为待定目标流量编码信息。

在第一方面的一种可能的实施方式中，所述根据该流量数据单元中待定目标流量编码信息的数量，确定该流量数据单元对应的每个待定特征提取区间的步骤，包括：

针对该流量数据单元中的每个待定目标流量编码信息及预设的编码区间，确定每个待定目标流量编码信息对应的编码提取区间；

根据每个待定目标流量编码信息对应的编码提取区间得到多个编码特征提取区间，并针对每个编码特征提取区间，判断该编码特征提取区间中的待定目标流量编码信息的数量是否大于预设数量阈值；

如果该编码特征提取区间中的待定目标流量编码信息的数量大于预设数量阈值，将该编码特征提取区间确定为该流量数据单元中的待定特征提取区间。

在第一方面的一种可能的实施方式中，所述根据每个子提取区间内各流量编码信息的编码类型特征及预设的编码类型特征范围，确定待定特征提取区间是否为目标特征提取区间的步骤，包括：

针对每个子提取区间，根据该子提取区间中对应的每个流量编码信息在该流量数据单元之前的多个流量数据单元中的编码类型特征、该子提取区间中对应的流量编码信息在该流量数据单元之前的所述多个流量数据单元中的编码类型特征均值和方差，及预设的对应编码类型特征阈值范围，确定每个子提取区间是否满足条件；

如果该流量数据单元中满足条件的子提取区间的数量满足所述预设的编码类型特征范围所对应的数量，则确定待定特征提取区间为目标特征提取区间。

在第一方面的一种可能的实施方式中，所述流量编码信息包括独热编码信息和嵌入式编码信息，所述在确定所述目标提取区间之后，根据所述目标特征提取区间内每个流量编码信息的编码特征，提取所述报文数据段信息的数据流特征信息的步骤，包括：

根据预设提取脚本匹配所述目标特征提取区间内每个流量编码信息的编码二维图像信息，所述预设提取脚本包括不同二维图像类型所对应的匹配方式；

根据所述目标特征提取区间内每个流量编码信息的编码二维图像信息确定每个独热编码信息的第一二维图像时序特征和每个嵌入式编码信息的第二二维图像时序特征；

将所述第一二维图像时序特征和所述第二二维图像时序特征进行融合，得到所述报文数据段信息的数据流特征信息。

在第一方面的一种可能的实施方式中，所述提取每个时序节点所对应的数据流特征信息的时序关联特征，将所述时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型的步骤，包括：

通过循环神经网络，依次从正向梯度和反向梯度提取每个时序节点所对应的数据流特征信息的时序关联特征的卷积特征信息；

将所述卷积特征信息输入到分类层中进行预测得到对应的预测分类标签；

计算所述预测分类标签与对应的数据分类标签之间的损失函数值，根据所述损失函数值进行反向传播训练，并计算所述循环神经网络的网络参数的梯度；

根据计算得到的所述梯度，采用随机梯度下降法更新所述循环神经网络的网络参数后继续训练，直到所述循环神经网络满足训练终止条件时，输出训练得到的数据流分类模型。

在第一方面的一种可能的实施方式中，所述根据所述数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签的步骤，包括：

根据所述数据流分类模型对接收到的待分类数据流进行分类，得到所述待分类数据流在每个预设业务分类标签下的置信度；

将置信度最大的预设业务分类标签作为所述待分类数据流对应的业务分类标签。

第二方面，本申请实施例提供一种基于时序特征学习的数据流分类装置，应用于服务器，所述装置包括：

获取模块，用于获取每个业务数据源的业务设备所发送的数据流数据以及所述数据流数据所对应的业务分类标签，所述数据流数据包括以每个时序节点为一数据分段的数据流单位记录，所述数据流单位记录包括该时序节点所对应的报文数据段信息，所述业务分类标签包括每个时序节点所对应的数据分类标签所构成的综合分类标签；

提取模块，用于针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取所述报文数据段信息的数据流特征信息；

训练模块，用于提取每个时序节点所对应的数据流特征信息的时序关联特征，将所述时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型，其中，所述时序关联特征用于表示可随着时序发生变化的特征信息；

分类模块，用于根据所述数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。

基于上述任一方面，本申请通过获取每个业务数据源的业务设备所发送的数据流数据以及数据流数据所对应的业务分类标签，然后针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取报文数据段信息的数据流特征信息，由此提取每个时序节点所对应的数据流特征信息的时序关联特征，将时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型，在此基础上可以根据数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。如此，能够基于时序特征对数据流进行业务分类，从而提高数据流的分类结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的数据流分类系统的应用场景示意图；

图2示出了本申请实施例所提供的基于时序特征学习的数据流分类方法的流程示意图；

图3示出了本申请实施例所提供的基于时序特征学习的数据流分类装置的功能模块示意图；

图4示出了本申请实施例所提供的用于执行上述的基于时序特征学习的数据流分类方法的服务器的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

图1示出了本申请实施例所提供的数据流分类系统10的应用场景示意图。本实施例中，数据流分类系统10可以包括服务器100以及与服务器100通信连接的业务设备200。业务设备200中可以是指用于执行某些业务数据的收发的网络设备，例如路由器、交换机设备等，在此不作具体限定。

在其它可行的实施例中，该数据流分类系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

在一些实施例中，服务器100可以是单个服务器，也可以是一个服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器100可以是分布式系统)。在一些实施例中，服务器100相对于业务设备200，可以是本地的、也可以是远程的。例如，服务器100可以经由网络访问存储在业务设备200以及数据库、或其任意组合中的信息。作为另一示例，服务器100可以直接连接到业务设备200和数据库中的至少一个，以访问其中存储的信息和/或数据。在一些实施例中，服务器100可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。

在一些实施例中，服务器100可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。

前述的数据库可以存储数据和/或指令。在一些实施例中，数据库可以存储向业务设备200分配的数据。在一些实施例中，数据库可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器等，或其任意组合。

在一些实施例中，数据库可以连接到网络以与数据流分类系统10(例如，服务器100，业务设备200等)中的一个或多个组件通信。数据流分类系统10中的一个或多个组件可以经由网络访问存储在数据库中的数据或指令。在一些实施例中，数据库可以直接连接到数据流分类系统10中的一个或多个组件(例如，服务器100，业务设备200等)；或者，在一些实施例中，数据库也可以是服务器100的一部分。

图2示出了本申请实施例提供的基于时序特征学习的数据流分类方法的流程示意图，本实施例中，该基于时序特征学习的数据流分类方法可以由图1中所示的服务器100执行。应当理解，在其它实施例中，本实施例的基于时序特征学习的数据流分类方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该基于时序特征学习的数据流分类方法的详细步骤介绍如下。

步骤S110，获取每个业务数据源的业务设备200所发送的数据流数据以及数据流数据所对应的业务分类标签。

步骤S120，针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取报文数据段信息的数据流特征信息。

步骤S130，提取每个时序节点所对应的数据流特征信息的时序关联特征，将时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型。

步骤S140，根据数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。

在一种可能的示例中，数据流数据可以包括以每个时序节点为一数据分段的数据流单位记录，数据流单位记录可以包括该时序节点所对应的报文数据段信息，业务分类标签可以包括每个时序节点所对应的数据分类标签所构成的综合分类标签。

本实施例中，时序节点可以是针对某段数据流的收发过程进行平均分隔获得的某个收发子过程，或者也可以是预先设置的某些收发时间段，在此不作具体限定。此外，报文数据段信息根据相关的报文的协议类型来确定。例如，可以包括IP(Internet Protocol，网际互连协议)报文头的ToS(Type of service，服务类型)字段的信息，DSCP(Differentiated Services Codepoint，区分服务编码点)字段的信息等，在此亦不作具体限定。

本实施例中，时序关联特征可以用于表示可随着时序发生变化的特征信息，也即，任何可以随着时序发生变化的特征均可以提取作为时序关联特征，例如报文在收发过程中的一些编码特征字段，或者数据分隔特征字段等。

本实施例中，业务分类标签可以根据每个时序节点所对应的数据分类标签所构成的综合分类标签的标签特征进行融合后获得，每个时序节点所对应的数据分类标签可以可以作为一种相应的分类权重，从而可以通过得出综合权重来确定综合的业务分类标签。

基于上述步骤，本实施例通过获取每个业务数据源的业务设备200所发送的数据流数据以及数据流数据所对应的业务分类标签，然后针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取报文数据段信息的数据流特征信息，由此提取每个时序节点所对应的数据流特征信息的时序关联特征，将时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型，在此基础上可以根据数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。如此，能够基于时序特征对数据流进行业务分类，从而提高数据流的分类结果的准确性。

在一种可能的实施方式中，针对步骤S120，在提取报文数据段信息的数据流特征信息的过程中，为了减少噪声特征信息，提高后续的模型训练准确性和分类准确性，本实施例可以根据每个数据流数据在该时序节点的数据分类标签所对应的特征提取模型，提取报文数据段信息中的多个流量数据单元中流量编码信息的编码类型特征。

其中，值得说明的是，针对不同的数据分类标签，可以预先配置有对应的特征提取模型，例如针对数据分类标签A，可以预选配置有对应的特征提取模型A，同时需要使得该特征提取模型A所提取的编码类型特征可以与数据分类标签A所对应的标签特征相关联。

在此基础上，针对每个流量数据单元，可以根据该流量数据单元中流量编码信息的编码类型特征，确定该流量数据单元中每个流量编码信息是否为待定目标流量编码信息，其中，每个流量编码信息可以对应于每个数据流项目。

例如，在一些可能的示例中，如果该流量数据单元中流量编码信息的编码类型特征处于设定长度范围内，则确定该流量数据单元中每个流量编码信息为待定目标流量编码信息，否则确定该流量数据单元中每个流量编码信息不为待定目标流量编码信息。

接着，可以根据该流量数据单元中待定目标流量编码信息的数量，确定该流量数据单元对应的每个待定特征提取区间。

例如，在一些可能的示例中，可以针对该流量数据单元中的每个待定目标流量编码信息及预设的编码区间，确定每个待定目标流量编码信息对应的编码提取区间。比如，可以将每个待定目标流量编码信息的编码范围与预设的编码区间进行匹配，然后将重合的编码区间作为每个待定目标流量编码信息对应的编码提取区间。然后，可以根据每个待定目标流量编码信息对应的编码提取区间得到多个编码特征提取区间，并针对每个编码特征提取区间，判断该编码特征提取区间中的待定目标流量编码信息的数量是否大于预设数量阈值，如果该编码特征提取区间中的待定目标流量编码信息的数量大于预设数量阈值，将该编码特征提取区间确定为该流量数据单元中的待定特征提取区间。

由此，接下来可以针对每个待定特征提取区间，将该待定特征提取区间划分为多个子提取区间，根据每个子提取区间内各流量编码信息的编码类型特征及预设的编码类型特征范围，确定待定特征提取区间是否为目标特征提取区间。

例如，在一些可能的示例中，针对每个子提取区间，可以根据该子提取区间中对应的每个流量编码信息在该流量数据单元之前的多个流量数据单元中的编码类型特征、该子提取区间中对应的流量编码信息在该流量数据单元之前的多个流量数据单元中的编码类型特征均值和方差，及预设的对应编码类型特征阈值范围，确定每个子提取区间是否满足条件。如果该流量数据单元中满足条件的子提取区间的数量满足预设的编码类型特征范围所对应的数量，则确定待定特征提取区间为目标特征提取区间。

例如，可以确定上述的编码类型特征均值和该方差的计算值是否匹配预设的编码类型特征阈值范围，当匹配时则确定对应的子提取区间满足条件，否则确定对应的子提取区间不满足条件。通过此设计，即可考虑到不同流量数据单元之间的特征关联，从而可以提高后续数据流特征信息的准确性。

这样，即可在确定目标提取区间之后，根据目标特征提取区间内每个流量编码信息的编码特征，提取报文数据段信息的数据流特征信息。

例如，可以根据预设提取脚本匹配目标特征提取区间内每个流量编码信息的编码二维图像信息。其中，预设提取脚本可以包括不同二维图像类型所对应的匹配方式。在此基础上，可以根据目标特征提取区间内每个流量编码信息的编码二维图像信息确定每个独热编码信息的第一二维图像时序特征和每个嵌入式编码信息的第二二维图像时序特征，从而可以将第一二维图像时序特征和第二二维图像时序特征进行融合，得到报文数据段信息的数据流特征信息。例如，可以将第一二维图像时序特征和第二二维图像时序特征按照各自对应的预设权重参数进行融合，得到报文数据段信息的数据流特征信息。

在一种可能的实施方式中，针对步骤S130，本实施例可以通过循环神经网络，依次从正向梯度和反向梯度提取每个时序节点所对应的数据流特征信息的时序关联特征的卷积特征信息，然后将卷积特征信息输入到分类层中进行预测得到对应的预测分类标签，由此计算预测分类标签与对应的数据分类标签之间的损失函数值，根据损失函数值进行反向传播训练，并计算循环神经网络的网络参数的梯度。

如此，可以根据计算得到的梯度，采用随机梯度下降法更新循环神经网络的网络参数后继续训练，直到循环神经网络满足训练终止条件时，输出训练得到的数据流分类模型。

值得说明的是，其中，上述的训练终止条件可以包括以下条件中的至少一种：

1)迭代训练次数达到设定次数；2)损失函数值低于设定阈值；3)损失函数值不再下降。

其中，在条件1)中，为了节省运算量，可以设置迭代次数的最大值，如果迭代次数达到设定次数，可以停止本迭代周期的迭代，将最后得到的循环神经网络作为数据流分类模型。在条件2)中，如果损失函数值低于设定阈值，说明当前的数据流分类模型已经基本可以满足条件，此时可以停止迭代。在条件3)中，损失函数值不再下降，表明已经形成了最佳的数据流分类模型，可以停止迭代。

需要说明的是，上述迭代停止条件可以结合使用，也可以择一使用，例如，可以在损失函数值不再下降停止迭代，或者，在迭代次数达到设定次数时停止迭代，或者，在损失函数值不再下降时停止迭代。或者，还可以在损失函数值低于设定阈值，并且损失函数值不再下降时，停止迭代。

此外，在实际实施过程中，也可以不限于采用上述示例作为训练终止条件，本领域技术人员可以根据实际需求设计与上述示例不同的训练终止条件

在一种可能的实施方式中，针对步骤S140，本实施例可以根据上述训练得到的数据流分类模型对接收到的待分类数据流进行分类，得到待分类数据流在每个预设业务分类标签下的置信度，然后可以将置信度最大的预设业务分类标签作为待分类数据流对应的业务分类标签。

如此，能够基于时序特征对数据流进行业务分类，从而提高数据流的分类结果的准确性，进而可以便于后续实现基于业务分类标签的拥塞管理等。

基于同一发明构思，请参阅图3，示出了本申请实施例提供的基于时序特征学习的数据流分类装置110的功能模块示意图，本实施例可以根据上述方法实施例对基于时序特征学习的数据流分类装置110进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图3示出的基于时序特征学习的数据流分类装置110只是一种装置示意图。其中，基于时序特征学习的数据流分类装置110可以包括获取模块111、提取模块112、训练模块113以及分类模块114，下面分别对该基于时序特征学习的数据流分类装置110的各个功能模块的功能进行详细阐述。

获取模块111，用于获取每个业务数据源的业务设备200所发送的数据流数据以及数据流数据所对应的业务分类标签，数据流数据包括以每个时序节点为一数据分段的数据流单位记录，数据流单位记录包括该时序节点所对应的报文数据段信息，业务分类标签包括每个时序节点所对应的数据分类标签所构成的综合分类标签。可以理解，该获取模块111可以用于执行上述步骤S110，关于该获取模块111的详细实现方式可以参照上述对步骤S110有关的内容。

提取模块112，用于针对每个时序节点，根据每个数据流数据在该时序节点的数据分类标签提取报文数据段信息的数据流特征信息。可以理解，该提取模块112可以用于执行上述步骤S120，关于该提取模块112的详细实现方式可以参照上述对步骤S120有关的内容。

训练模块113，用于提取每个时序节点所对应的数据流特征信息的时序关联特征，将时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型，其中，时序关联特征用于表示可随着时序发生变化的特征信息。可以理解，该训练模块113可以用于执行上述步骤S130，关于该训练模块113的详细实现方式可以参照上述对步骤S130有关的内容。

分类模块114，用于根据数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签。可以理解，该分类模块114可以用于执行上述步骤S140，关于该分类模块114的详细实现方式可以参照上述对步骤S140有关的内容。

在一种可能的实施方式中，提取模块112可以通过以下方式提取报文数据段信息的数据流特征信息：

根据每个数据流数据在该时序节点的数据分类标签所对应的特征提取模型，提取报文数据段信息中的多个流量数据单元中流量编码信息的编码类型特征；

在确定目标提取区间之后，根据目标特征提取区间内每个流量编码信息的编码特征，提取报文数据段信息的数据流特征信息。

在一种可能的实施方式中，提取模块112可以通过以下方式确定该流量数据单元中每个流量编码信息是否为待定目标流量编码信息：

在一种可能的实施方式中，提取模块112可以通过以下方式确定该流量数据单元对应的每个待定特征提取区间：

在一种可能的实施方式中，提取模块112可以通过以下方式确定待定特征提取区间是否为目标特征提取区间：

针对每个子提取区间，根据该子提取区间中对应的每个流量编码信息在该流量数据单元之前的多个流量数据单元中的编码类型特征、该子提取区间中对应的流量编码信息在该流量数据单元之前的多个流量数据单元中的编码类型特征均值和方差，及预设的对应编码类型特征阈值范围，确定每个子提取区间是否满足条件；

如果该流量数据单元中满足条件的子提取区间的数量满足预设的编码类型特征范围所对应的数量，则确定待定特征提取区间为目标特征提取区间。

根据预设提取脚本匹配目标特征提取区间内每个流量编码信息的编码二维图像信息，预设提取脚本包括不同二维图像类型所对应的匹配方式；

根据目标特征提取区间内每个流量编码信息的编码二维图像信息确定每个独热编码信息的第一二维图像时序特征和每个嵌入式编码信息的第二二维图像时序特征；

将第一二维图像时序特征和第二二维图像时序特征进行融合，得到报文数据段信息的数据流特征信息。

在一种可能的实施方式中，训练模块113可以通过以下方式训练得到数据流分类模型：

将卷积特征信息输入到分类层中进行预测得到对应的预测分类标签；

计算预测分类标签与对应的数据分类标签之间的损失函数值，根据损失函数值进行反向传播训练，并计算循环神经网络的网络参数的梯度；

根据计算得到的梯度，采用随机梯度下降法更新循环神经网络的网络参数后继续训练，直到循环神经网络满足训练终止条件时，输出训练得到的数据流分类模型。

在一种可能的实施方式中，分类模块114可以通过以下方式对接收到的待分类数据流进行分类，输出对应的业务分类标签：

根据数据流分类模型对接收到的待分类数据流进行分类，得到待分类数据流在每个预设业务分类标签下的置信度；

将置信度最大的预设业务分类标签作为待分类数据流对应的业务分类标签。

基于同一发明构思，请参阅图4，示出了本申请实施例提供的用于执行上述基于时序特征学习的数据流分类方法的服务器100的结构示意框图，该服务器100可以包括基于时序特征学习的数据流分类装置110、机器可读存储介质120和处理器130。

本实施例中，机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而，应当理解的是，机器可读存储介质120也可以是独立于服务器100之外，且可以由处理器130通过总线接口来访问。可替换地，机器可读存储介质120也可以集成到处理器130中，例如，可以是高速缓存和/或通用寄存器。

处理器130是该服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在机器可读存储介质120内的软件程序和/或模块，以及调用存储在机器可读存储介质120内的数据，执行该服务器100的各种功能和处理数据，从而对服务器100进行整体监控。可选地，处理器130可包括一个或多个处理核心；例如，处理器130可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

其中，处理器130可以是一个通用的中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，或一个或多个用于控制上述方法实施例提供的基于时序特征学习的数据流分类方法的程序执行的集成电路。

机器可读存储介质120可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmabler-Only MEMory，EEPROM)、只读光盘(Compactdisc Read-Only MEMory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。机器可读存储介质120可以是独立存在，通过通信总线与处理器130相连接。机器可读存储介质120也可以和处理器集成在一起。其中，机器可读存储介质120用于存储执行本申请方案的机器可执行指令。处理器130用于执行机器可读存储介质120中存储的机器可执行指令，以实现前述方法实施例提供的基于时序特征学习的数据流分类方法。

基于时序特征学习的数据流分类装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图3中所示的获取模块111、提取模块112、训练模块113、分类模块114)，当处理器130执行基于时序特征学习的数据流分类装置110中的软件功能模块时，以实现前述方法实施例提供的基于时序特征学习的数据流分类方法。

由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式，且服务器100可用于执行上述方法实施例提供的基于时序特征学习的数据流分类方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

进一步地，本申请实施例还提供一种包含计算机可执行指令的可读存储介质，计算机可执行指令在被执行时可以用于实现上述方法实施例提供的基于时序特征学习的数据流分类方法。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上的方法操作，还可以执行本申请任意实施例所提供的基于时序特征学习的数据流分类方法中的相关操作。

本申请实施例是参照根据本申请实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于时序特征学习的数据流分类方法，其特征在于，应用于服务器，所述方法包括：

2.根据权利要求1所述的基于时序特征学习的数据流分类方法，其特征在于，所述根据每个数据流数据在该时序节点的数据分类标签提取所述报文数据段信息的数据流特征信息的步骤，包括：

在确定所述目标特征提取区间之后，根据所述目标特征提取区间内每个流量编码信息的编码特征，提取所述报文数据段信息的数据流特征信息。

3.根据权利要求2所述的基于时序特征学习的数据流分类方法，其特征在于，所述根据该流量数据单元中流量编码信息的编码类型特征，确定该流量数据单元中每个流量编码信息是否为待定目标流量编码信息的步骤，包括：

4.根据权利要求2所述的基于时序特征学习的数据流分类方法，其特征在于，所述根据该流量数据单元中待定目标流量编码信息的数量，确定该流量数据单元对应的每个待定特征提取区间的步骤，包括：

5.根据权利要求2所述的基于时序特征学习的数据流分类方法，其特征在于，所述根据每个子提取区间内各流量编码信息的编码类型特征及预设的编码类型特征范围，确定待定特征提取区间是否为目标特征提取区间的步骤，包括：

6.根据权利要求2所述的基于时序特征学习的数据流分类方法，其特征在于，所述流量编码信息包括独热编码信息和嵌入式编码信息，所述在确定所述目标特征提取区间之后，根据所述目标特征提取区间内每个流量编码信息的编码特征，提取所述报文数据段信息的数据流特征信息的步骤，包括：

7.根据权利要求1-6中任意一项所述的基于时序特征学习的数据流分类方法，其特征在于，所述提取每个时序节点所对应的数据流特征信息的时序关联特征，将所述时序关联特征作为模型输入，并将每个时序节点所对应的数据分类标签作为模型输出，训练得到数据流分类模型的步骤，包括：

8.根据权利要求1-6中任意一项所述的基于时序特征学习的数据流分类方法，其特征在于，所述根据所述数据流分类模型对接收到的待分类数据流进行分类，输出对应的业务分类标签的步骤，包括：

9.一种基于时序特征学习的数据流分类装置，其特征在于，应用于服务器，所述装置包括：

10.根据权利要求9所述的基于时序特征学习的数据流分类装置，其特征在于，所述提取模块用于通过以下方式提取所述报文数据段信息的数据流特征信息：