CN110808915A

CN110808915A - 数据流所属应用识别方法、装置及数据处理设备

Info

Publication number: CN110808915A
Application number: CN201911000698.6A
Authority: CN
Inventors: 王明辉; 张洋; 张鸿源
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-18
Anticipated expiration: 2039-10-21
Also published as: CN110808915B

Abstract

本申请提供一种数据流所属应用识别方法、装置及数据处理设备，该方法包括：获取待识别数据流的多个报文，其中，待识别数据流为两个站点设备间同一应用软件的信息交互数据流；根据多个报文的有效载荷中相同内容所在的位置，获得待识别数据流的载荷特征；统计多个报文的非有效载荷流量特征，获得待识别数据流的统计特征；将载荷特征及统计特征输入预先训练完成的神经网络模型进行识别，获得待识别数据流所属的应用类别。通过根据待识别数据流的报文有效载荷中相同内容所在的位置，确定出的待识别数据流的载荷特征，将载荷特征与待识别数据流的统计特征一起输入神经网络模型进行识别，从而可以提高数据流所属应用的识别准确度。

Description

数据流所属应用识别方法、装置及数据处理设备

技术领域

本申请涉及网络通信技术领域，具体而言，涉及一种数据流所属应用识别方法、装置及数据处理设备。

背景技术

随着通信网络智能化水平的提高，识别站点设备间数据流属于何种应用对于例如网络安全监测、流量计费、网络规划等工作十分重要。在一些现有方案中，常采用由AndrewMoore等人定义的248种网络数据流量特征结合深度神经网络模型进行数据流所属应用的分类或识别。但是这些特征大多为针对报文数量、报文大小或报文发送间隔等进行统计获得的特征(以下简称为“统计特征”)，仅通过这些统计特征对数据流所属应用识别的结果不准确。

发明内容

有鉴于此，本申请的目的包括提供一种数据流所属应用识别方法、装置及数据处理设备，以改善上述问题。

第一方面，本申请提供一种数据流所属应用识别方法，所述方法包括：

分别从待识别数据流的前向数据流和后向数据流获取多个报文，所述前向数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流，所述后向数据流为由所述第二站点设备发往所述第一站点设备的所述应用软件的信息交互数据流；

根据所述前向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征；

根据所述后向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征；

统计所述前向数据流的多个报文及所述后向数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征；

将所述前向数据流的载荷特征和后向数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；

将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

可选地，根据所述前向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征，包括：

针对一有效载荷预设字节范围中的每个字节位置，分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值；

根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征；

根据所述后向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征，包括：

针对所述有效载荷预设字节范围中的每个字节位置，分别计算所述后向数据流的多个报文间该字节位置的数据差异程度值；

根据所述后向数据流的各所述字节位置对应的数据差异程度值，确定所述后向数据流多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征。

可选地，分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值，包括：

针对所述前向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；

分别计算所述前向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述前向数据流的各所述字节位置的数据差异程度值；

分别计算所述后向数据流的多个报文间该字节位置的数据差异程度值，包括：

针对所述后向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；

分别计算所述后向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述后向数据流的各所述字节位置的数据差异程度值。

可选地，根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征，包括：

将所述前向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一前向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述前向字节位置向量中与该字节位置对应的元素的值设置为1；将所述前向字节位置向量作为该前向数据流的载荷特征；

根据所述后向数据流的各所述字节位置对应的数据差异程度值，确定所述后向数据流多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征，包括：

将所述后向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一后向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述后向字节位置向量中与该字节位置对应的元素的值设置为1；将所述后向字节位置向量作为该后向数据流的载荷特征。

可选地，分别从样本数据流的前向数据流和后向数据流获取多个样本报文，并获取该样本数据流所属应用的应用标签；

根据所述样本数据流的前向数据流的多个样本报文，获取所述样本数据流的前向数据流的载荷特征；

根据所述样本数据流的后向数据流的多个样本报文，获取所述样本数据流的后向数据流的载荷特征；

统计所述样本数据流的前向数据流的多个报文及后向数据流的多个报文的非有效载荷流量特征，获得该样本数据流的统计特征；

将所述样本数据流的前向数据流的载荷特征、后向数据流的载荷特征、该样本数据流的统计特征及所述样本数据流的应用标签输入所述神经网络模型，以对所述神经网络模型进行训练；

所述获得所述神经网络模型输出的所述待识别数据流的所属应用的步骤，包括：

获得所述神经网络模型输出的所述待识别数据流的所属应用的应用标签。

第二方面，本申请提供一种数据流所属应用识别方法，所述方法包括：

从待识别数据流获取多个报文，所述待识别数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流；

根据所述待识别数据流的多个报文的有效载荷中，相同内容所在的位置，获得该待识别数据流的载荷特征；

统计所述待识别数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征；

将所述待识别数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；

第三方面，本申请提供一种数据流所属应用识别装置，所述装置包括：

报文获取模块，用于分别从待识别数据流的前向数据流和后向数据流获取多个报文，所述前向数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流，所述后向数据流为由所述第二站点设备发往所述第一站点设备的所述应用软件的信息交互数据流；

前向载荷特征提取模块，用于根据所述前向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征；

后向载荷特征提取模块，用于根据所述后向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征；

统计特征提取模块，用于统计所述前向数据流的多个报文及所述后向数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征；

应用识别模块，用于将所述前向数据流的载荷特征和后向数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

可选地，所述前向载荷特征提取模块具体用于针对一有效载荷预设字节范围中的每个字节位置，分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值；根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征；

所述后向载荷特征提取模块具体用于针对所述有效载荷预设字节范围中的每个字节位置，分别计算所述后向数据流的多个报文间该字节位置的数据差异程度值；根据所述后向数据流的各所述字节位置对应的数据差异程度值，确定所述后向数据流多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征。

可选地，所述前向载荷特征提取模块具体用于针对所述前向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；分别计算所述前向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述前向数据流的各所述字节位置的数据差异程度值；

所述后向载荷特征提取模块具体用于针对所述后向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；分别计算所述后向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述后向数据流的各所述字节位置的数据差异程度值。

可选地，所述前向载荷特征提取模块具体用于将所述前向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一前向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述前向字节位置向量中与该字节位置对应的元素的值设置为1；将所述前向字节位置向量作为该前向数据流的载荷特征；

所述后向载荷特征提取模块具体用于将所述后向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一后向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述后向字节位置向量中与该字节位置对应的元素的值设置为1；将所述后向字节位置向量作为该后向数据流的载荷特征。

可选地，样本获取模块，用于分别从样本数据流的前向数据流和后向数据流获取多个样本报文，并获取该样本数据流所属应用的应用标签；

前向样本特征提取模块，用于根据所述样本数据流的前向数据流的多个样本报文，获取所述样本数据流的前向数据流的载荷特征；

后向样本特征提取模块，用于根据所述样本数据流的后向数据流的多个样本报文，获取所述样本数据流的后向数据流的载荷特征；

统计样本特征提取模块，用于统计所述样本数据流的前向数据流的多个报文及后向数据流的多个报文的非有效载荷流量特征，获得该样本数据流的统计特征；

模型训练模块，用于将所述样本数据流的前向数据流的载荷特征、后向数据流的载荷特征、该样本数据流的统计特征及所述样本数据流的应用标签输入所述神经网络模型，以对所述神经网络模型进行训练；

所述应用识别模块具体用于获得所述神经网络模型输出的所述待识别数据流的所属应用的应用标签。

第四方面，本申请提供一种数据流所属应用识别装置，所述装置包括：

报文获取模块，用于从待识别数据流获取多个报文，所述待识别数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流；

载荷特征提取模块，用于根据所述待识别数据流的多个报文的有效载荷中，相同内容所在的位置，获得该待识别数据流的载荷特征；

统计特征提取模块，用于统计所述待识别数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征；

应用识别模块，用于将所述待识别数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

第五方面，本申请提供一种数据处理设备，包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现本申请提供的数据流所属应用识别方法。

第六方面，本申请提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实现本申请提供的数据流所属应用识别方法。

综上所述，本申请实施例提供的数据流所属应用识别方法、装置及数据处理设备，通过根据待识别数据流的报文有效载荷中相同内容所在的位置，确定出的待识别数据流的载荷特征，将载荷特征与待识别数据流的统计特征一起输入神经网络模型进行识别，从而可以提高数据流所属应用的识别准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1a为本申请实施例提供的数据处理设备的应用场景示意图之一；

图1b为本申请实施例提供的数据处理设备的应用场景示意图之二；

图2为本申请实施例提供的数据流所属应用识别方法的流程示意图之一；

图3为本申请实施例提供的数据流所属应用识别方法的流程示意图之二；

图4为本申请实施例提供的统计特征示意图；

图5为本申请实施例提供的神经网络模型训练方法的流程示意图；

图6为本申请实施例提供的数据流所属应用识别方法的流程示意图之三；

图7为本申请实施例提供的数据处理设备的结构示意图；

图8为本申请实施例提供的数据流所属应用识别装置的功能模块示意图之一；

图9为本申请实施例提供的数据流所属应用识别装置的功能模块示意图之二；

图10为本申请实施例提供的数据流所属应用识别装置的功能模块示意图之三。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在一些现有的数据流所属应用识别方法中，将对数据流的统计特征输入机器学习模型进行识别分类，但在实际使用中发现，仅依靠特征有时难以准确地区分数据流的所属应用。

经发明人研究发现，对于同一应用的报文，报文有效载荷的固定位置通常为出现相同的内容。例如，对于应用A的多个报文，可能在有效载荷的第0字节到7字节都会出现应用A的标识或名称；而对于应用B的多个报文，可能在有效载荷的第15字节到第23字节都会出现应用B的标识或名称。

有鉴于此，本实施例提供一种数据流所属应用识别方法、装置及数据处理设备，通过根据数据流的报文有效载荷中相同内容所在的位置确定出待识别数据流的载荷特征，将载荷特征与数据流的统计特征一起输入神经网络模型进行分类识别，从而提高识别数据流所属应用的准确性。下面对本申请提供的方案进行详细解释。

本申请实施例提供了一种数据处理设备，该数据处理设备可以为具有数据分析处理能力的电子设备。

例如，请参照图1a，该数据处理设备100可以是具有数据分析处理能力的智能交换机或转发板卡200，该数据处理设备100可以实现第一站点设备800和第二站点设备900之间的数据转发，并对第一站点设备800和第二站点设备900之间交互的数据流报文进行分析识别。

又例如，请参照图1b，该数据处理设备100也可以是与交换机或转发板卡200通信连接的独立电子设备，或者与转发板卡通信的分析板卡，该数据处理设备100可以获取第一站点设备800和第二站点设备900之间交互的数据流报文进行分析识别。

请参照图2，图2为本申请一实施例提供的应用于所述数据处理设备100的数据流所属应用识别方法流程示意图，该方法可以包括以下步骤。

步骤S210，分别从待识别数据流的前向数据流和后向数据流获取多个报文，所述前向数据流为由第一站点设备800发往第二站点设备900的同一应用软件的信息交互数据流，所述后向数据流为由所述第二站点设备900发往所述第一站点设备800的所述应用软件的信息交互数据流。

步骤S220，根据所述前向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征。

步骤S230，根据所述后向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征。

步骤S240，统计所述前向数据流的多个报文及所述后向数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征。

步骤S250，将所述前向数据流的载荷特征和后向数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理。

步骤S260，将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

通过上述步骤，本实施例提供的数据流所属应用识别方法，通过根据待识别数据流的报文有效载荷中相同内容所在的位置，确定出的待识别数据流的载荷特征，将载荷特征与待识别数据流的统计特征一起输入神经网络模型进行识别，从而可以提高数据流所属应用的识别准确度。

请参图3，图3为本申请另一本实施例提供的数据处理设备100的数据流所属应用识别方法的流程示意图，该方法可以包括以下步骤。

步骤S310，分别从待识别数据流的前向数据流和后向数据流获取多个报文。

在本实施例中，可以根据报文的五元组(即，报文的源IP地址、目的IP地址、源端口、目的端口及传输层协议类型)确定一待识别数据流，该待识别数据流通常为两个站点设备上同一应用之间交互的数据流量。可以将两个站点设备中，IP地址较小的作为第一站点设备800，IP地址较大的作为第二站点设备900。从第一站点设备800发往第二站点设备900的前向数据流获取多个连续报文，并从第二站点设备900发往第一站点设备800的后向数据流获取等量的多个连续报文。例如，分别从前向数据流和后向数据流获取n条连续报文进行分析。

步骤S320，针对一有效载荷预设字节范围中的每个字节位置，分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值。

例如，在本实施例中可以针对有效载荷前256个字节中的第0个字节，计算前向数据流n个报文间在该字节位置上的数据差异程度值。若n个报文在该字节位置上的数据大多是相同的，则该字节位置对应的数据差异程度值较小；若n个报文在该字节位置上的数据大多是各不相同的，则该字节位置对应的数据差异程度值较大。对有效载荷前256个字节中的每个字节均做类似处理，可以获得每个字节位置对应的数据差异程度值。

可选地，在本实施例中，可以通过以下方式获得前向数据流各字节位置的差异程度值。

针对前向数据流的多个连续报文中每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中各字节位置上数据的差值绝对值，获得由前向数据流的各字节位置对应的差值绝对值组成的残差向量。

例如，针对分别前向数据流n个连续报文中的每个报文，提取有效载荷前256字节的数据记为一个256维的有效载荷向量，这些有效载荷向量可以记为X₁、X₂、…、X_n。

针对每两个相邻报文的有效载荷向量，计算两个有效载荷向量中每个向量元素的差值绝对值，获得256维的残差向量。即计算残差向量，

然后分别计算所述前向数据流的多个残差向量中，各字节位置对应的差值绝对值的平均值作为前向数据流的各字节位置的所述数据差异程度值。

也就是说，对多个残差向量进行向量求和，得到一个256维的和向量，然后分别将该和向量的每个元素除以残差向量的数量，得到前向数据流的各字节位置对应数据差异程度值。

步骤S330，根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征。

在本实施例中，可以将所述前向数据流的各所述字节位置中，将所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，将一前向字节位置向量中与该字节位置对应的元素的值设置为0。将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，将所述前向字节位置向量中与该字节位置对应的元素的值设置为1。如此，可以获得一个256维的字节位置向量，然后将该前向字节位置向量作为所述前向数据流的载荷特征。

其中，该字节位置向量中每个元素对应报文有效载荷中的一个字节位置，该字节位置向量中元素的值表征对应的字节位置是否为多个报文中相同内容所在的位置，如此，该前向字节位置向量可以作为前向数据流的载荷特征。

步骤S340，针对所述有效载荷预设字节范围中的每个字节位置，分别计算所述后向数据流的多个报文间该字节位置的数据差异程度值。

在本实施例中，计算后向数据流的多个报文间该字节位置的数据差异程度值的具体步骤可以参见步骤S320中获取前向数据流的多个报文间该字节位置的数据差异程度值的方式，在此不再赘述。

步骤S350，根据所述后向数据流的各所述字节位置对应的数据差异程度值，确定所述后向数据流多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征。

在本实施例中，确定后向数据流的载荷特征的具体步骤可以参见步骤S330中获取前向数据流的载荷特征的方式，在此不再赘述。

步骤S360，统计所述前向数据流的多个报文及所述后向数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征。

在本实施例中，统计特征可以包括通信领域内通用的248种网络数据流量特征中的一种或多种的特征的组合。例如，请参照图4，待处理数据流的统计特征可以包括13种前向数据流的流量特征、13种后向数据流的流量特征以及14种整个待处理数据流的流量特征。

S370，将所述前向数据流的载荷特征和后向数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理。

可以记待识别流量的前向数据流的载荷特征为向量Y_f，后向数据流的载荷特征为向量Y_b，待识别数据流的统计特征为P，将这三个特征组合一个向量W＝(P,Y_f,Y_b),。然后将向量W输入神经网络模型进行识别。

在本实施例中，使用的神经网络模型可以为卷积神经网络模型，在将待识别数据流的载荷特征和统计特征输入该神经网络模型后，可以通过所述神经网络模型的卷积层对所述载荷特征进行多次卷积和池化处理。

由于载荷特征向量一般是稀疏向量，大量的位置为0，有用的信息主要在非零的位置，通过卷积层进行处理，可以大大减少特征参数数量，并抽象出载荷特征中较为重要到的信息。

S380，将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

例如，可以将通过3个卷积层对载荷特征进行卷积和池化处理获得的40维输出向量与40维的统计特征一起输入深度全连接网络进行处理，最终输出待识别数据流的所属应用。

请参照图5，图5为本实施例提供的神经网络模型的训练方法流程示意图，该方法可以包括以下步骤。

步骤S510，分别从样本数据流的前向数据流和后向数据流获取多个样本报文，并获取该样本数据流所属应用的应用标签。

在本实施例中，样本数据流可以为已知其属于何种应用的数据流。可以从该样本数据流中的前向数据流和反向数据流中分别提取多个连续的报文进行训练。

步骤S520，根据所述样本数据流的前向数据流的多个样本报文，获取所述样本数据流的前向数据流的载荷特征。

步骤S530，根据所述样本数据流的后向数据流的多个样本报文，获取所述样本数据流的后向数据流的载荷特征。

步骤S540，统计所述样本数据流的前向数据流的多个报文及后向数据流的多个报文的非有效载荷流量特征，获得该样本数据流的统计特征。

在本实施例中，可以分别获得样本数据流的前向数据流的统计特征、所述后向数据流的统计特征、所述前向数据流的载荷特征及所述后向数据流的载荷特征。对于样本数据流载荷特征和统计特征获取的方法请参见图3所示步骤S320到步骤S360中对待识别数据流的载荷特征和统计特征提取的方法，在此不再赘述。

步骤S550，将所述样本数据流的前向数据流的载荷特征、后向数据流的载荷特征、该样本数据流的统计特征及所述样本数据流的应用标签输入所述神经网络模型，以对所述神经网络模型进行训练。

在本实施例中，为了增强样本数据的训练效果，可以将样本数据流的前向数据流的统计特征、后向数据流的统计特征、前向数据流的载荷特征及后向数据流的载荷特征根据不同的顺序组合为两个向量。例如，如图4所示待测数据流的40个统计特征中，前向数据流的统计特征排在后向数据流的统计特征之前，该40维的统计特征可以记Q_f。然后交换前向数据流的统计特征和后向数据流的统计特征的顺序，得到一个新的40维的统计特征记为Q_B。再与样本数据流的前向数据流的载荷特征、后向数据流的载荷特征组合，获得的两个向量分别为W₁＝(Q_f,Z_f,Z_b)，W₂＝(Q_b,Z_b,Z_f)。然后分别将两个向量与样本数据流的应用标签一起输入神经网络模型进行训练。

如此，所述神经网络模型在训练完成后，在使用该神经网络模型识别待识别数据流时，可以获得该神经网络模型输出的所述待识别数据流的所属应用的应用标签。

请参照图6，图6为另一实施例提供的数据流所属应用识别方法的流程示意图，该方法可以包括以下步骤。

步骤S610，从待识别数据流获取多个报文，所述待识别数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流。

在一些场景中，两个站点设备间可能只有一个方向的数据流的流量较大，可以仅对一个方向的数据流报文进行分析识别，因此在本实施例中待识别数据流也可以为单向的数据流。

步骤S620，根据所述待识别数据流的多个报文的有效载荷中，相同内容所在的位置，获得该待识别数据流的载荷特征。

在本实施例中，获取单向待识别数据流的载荷特征的具体方式可以参见图3所示步骤S320到S340的相关内容，在此不再赘述。

步骤S630，统计所述待识别数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征。

步骤S640，将所述待识别数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；

步骤S650，将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

在本实施例中，神经网络模型的结构和数据处理过程可以参见图3所示步骤S350的相关内容，在此不再赘述。

请参照图7，图7为本申请一实施例提供的一种数据处理设备100的硬件结构示意图。该数据处理设备100可包括处理器130及机器可读存储介质120。处理器130与机器可读存储介质120可经由系统总线通信。并且，机器可读存储介质120存储有机器可执行指令，通过读取并执行机器可读存储介质120中与数据流所属应用识别逻辑对应的机器可执行指令，处理器130可执行上文描述的数据流所属应用识别方法。

本文中提到的机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质120可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

请参照图8，本实施例还提供一种数据流所属应用识别装置300，数据流所属应用识别装置300包括至少一个可以软件形式存储于机器可读存储介质中的功能模块。从功能上划分，数据流所属应用识别装置300可以包括报文获取模块311、前向载荷特征提取模块312、后向载荷特征提取模块313、统计特征提取模块314及应用识别模块315。

报文获取模块311，用于分别从待识别数据流的前向数据流和后向数据流获取多个报文，所述前向数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流，所述后向数据流为由所述第二站点设备发往所述第一站点设备的所述应用软件的信息交互数据流。

前向载荷特征提取模块312，用于根据所述前向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征。

后向载荷特征提取模块313，用于根据所述后向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征。

统计特征提取模块314，用于统计所述前向数据流的多个报文及所述后向数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征。

应用识别模块315，用于将所述前向数据流的载荷特征和后向数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；将所述多个卷积层的输出结果、所述前向数据流的统计特征及所述后向数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

可选地，在本实施例中，所述前向载荷特征提取模块312具体用于针对一有效载荷预设字节范围中的每个字节位置，分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值；根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征。

所述后向载荷特征提取模块313具体用于针对所述有效载荷预设字节范围中的每个字节位置，分别计算所述后向数据流的多个报文间该字节位置的数据差异程度值；根据所述后向数据流的各所述字节位置对应的数据差异程度值，确定所述后向数据流多个报文的有效载荷中，相同内容所在的位置，获得该后向数据流的载荷特征。

可选地，在本实施例中所述前向载荷特征提取模块312具体用于针对所述前向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；分别计算所述前向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述前向数据流的各所述字节位置的数据差异程度值。

所述后向载荷特征提取模块313具体用于针对所述后向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；分别计算所述后向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述后向数据流的各所述字节位置的数据差异程度值。

可选地，在本实施例中所述前向载荷特征提取模块312具体用于将所述前向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一前向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述前向字节位置向量中与该字节位置对应的元素的值设置为1；将所述前向字节位置向量作为该前向数据流的载荷特征。

所述后向载荷特征提取模块313具体用于将所述后向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一后向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述后向字节位置向量中与该字节位置对应的元素的值设置为1；将所述后向字节位置向量作为该后向数据流的载荷特征。

可选地，请参照图9，在本实施例中，所述数据流所属应用识别装置300还可以包括样本获取模块316、前向样本特征提取模块317、后向样本特征提取模块318、统计样本特征提取模块319及模型训练模块320。

样本获取模块316，用于分别从样本数据流的前向数据流和后向数据流获取多个样本报文，并获取该样本数据流所属应用的应用标签。

前向样本特征提取模块317，用于根据所述样本数据流的前向数据流的多个样本报文，获取所述样本数据流的前向数据流的载荷特征。

后向样本特征提取模块318，用于根据所述样本数据流的后向数据流的多个样本报文，获取所述样本数据流的后向数据流的载荷特征。

统计样本特征提取模块319，用于统计所述样本数据流的前向数据流的多个报文及后向数据流的多个报文的非有效载荷流量特征，获得该样本数据流的统计特征。

模型训练模块320，用于将所述样本数据流的前向数据流的载荷特征、后向数据流的载荷特征、该样本数据流的统计特征及所述样本数据流的应用标签输入所述神经网络模型，以对所述神经网络模型进行训练。

所述应用识别模块315具体用于获得所述神经网络模型输出的所述待识别数据流的所属应用的应用标签。

请参照图10，本实施例还提供另一种数据流所属应用识别装置400，数据流所属应用识别装置400包括至少一个可以软件形式存储于机器可读存储介质中的功能模块。从功能上划分，该数据流所属应用识别装置400，所述装置包括报文获取模块411、载荷特征提取模块412、统计特征提取模块413及应用识别模块414。

报文获取模块411，用于从待识别数据流获取多个报文，所述待识别数据流为由第一站点设备发往第二站点设备的同一应用软件的信息交互数据流。

载荷特征提取模块412，用于根据所述待识别数据流的多个报文的有效载荷中，相同内容所在的位置，获得该待识别数据流的载荷特征。

统计特征提取模块413，用于统计所述待识别数据流的多个报文的非有效载荷流量特征，获得该待识别数据流的统计特征。

应用识别模块414，用于将所述待识别数据流的载荷特征输入训练好的神经网络模型，通过所述神经网络模型的多个卷积层进行多次卷积和池化处理；将所述多个卷积层的输出结果及所述待识别数据流的统计特征输入所述神经网络模型的深度全连接网络进行处理，获得所述待识别数据流的所属应用。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据流所属应用识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

根据所述前向数据流的多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征，包括：

3.根据权利要求2所述的方法，其特征在于，

分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值，包括：

4.根据权利要求2所述的方法，其特征在于，

根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别从样本数据流的前向数据流和后向数据流获取多个样本报文，并获取该样本数据流所属应用的应用标签；

6.一种数据流所属应用识别方法，其特征在于，所述方法包括：

7.一种数据流所属应用识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，

所述前向载荷特征提取模块具体用于针对一有效载荷预设字节范围中的每个字节位置，分别计算所述前向数据流的多个报文间该字节位置的数据差异程度值；根据所述前向数据流的各所述字节位置对应的数据差异程度值，确定所述前向数据流多个报文的有效载荷中，相同内容所在的位置，获得该前向数据流的载荷特征；

9.根据权利要求8所述的装置，其特征在于，

所述前向载荷特征提取模块具体用于针对所述前向数据流的多个报文中的每两个相邻的报文，计算该两个相邻的报文的有效载荷的预设字节范围中，各字所述节位置上数据的差值绝对值，获得由各所述字节位置对应的差值绝对值组成的残差向量；分别计算所述前向数据流的多个残差向量中，各所述字节位置对应的差值绝对值的平均值作为所述前向数据流的各所述字节位置的数据差异程度值；

10.根据权利要求8所述的装置，其特征在于，

所述前向载荷特征提取模块具体用于将所述前向数据流的各所述字节位置中，所述数据差异程度值大于预设阈值的字节位置确定为非相同内容所在的位置，并将一前向字节位置向量中与该字节位置对应的元素的值设置为0；将所述数据差异程度值不大于预设阈值的字节位置确定为相同内容所在的位置，并将所述前向字节位置向量中与该字节位置对应的元素的值设置为1；将所述前向字节位置向量作为该前向数据流的载荷特征；

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

样本获取模块，用于分别从样本数据流的前向数据流和后向数据流获取多个样本报文，并获取该样本数据流所属应用的应用标签；

12.一种数据流所属应用识别装置，其特征在于，所述装置包括：

13.一种数据处理设备，其特征在于，包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现权利要求1-6任意一项所述的方法。

14.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实现权利要求1-6任意一项所述的方法。