CN109905328B

CN109905328B - 数据流的识别方法和装置

Info

Publication number: CN109905328B
Application number: CN201711292369.4A
Authority: CN
Inventors: 何珂; 陈志堂; 邵云峰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2021-06-01
Anticipated expiration: 2037-12-08
Also published as: WO2019109754A1; CN109905328A; US20200302216A1; EP3716547B1; US11665100B2; EP3716547A4; EP3716547A1

Abstract

本申请提供了一种数据流的识别方法和装置，属于互联网技术领域。该方法包括：获取目标数据流中连续N个报文的报文传输属性信息；根据所述连续N个报文的报文传输属性信息，生成所述连续N个报文的报文传输属性信息的特征图像；将所述特征图像，输入预先训练的图像分类模型，得到所述目标数据流对应的目标应用程序标识。通过本申请，可以提高识别数据流对应的应用程序标识的准确性。

Description

数据流的识别方法和装置

技术领域

本申请涉及互联网技术领域，特别涉及一种数据流的识别方法和装置。

背景技术

随着互联网技术的发展，越来越多的应用程序可以通过网络传输数据，网络中时时刻刻都在传输海量的数据流。服务器可以给不同应用程序提供不同的优先级，便于对网络中的数据流进行管理，因此，服务器需要识别数据流对应的应用程序标识。

不同的应用程序的需要传输的内容不尽相同，因此，在设置特征库时，可以对每种应用程序的多个数据流进行分析总结，提取每种应用程序对应的特征字段，进而，可以将特征字段与应用程序标识的对应关系，存储在特征库中。当服务器接收到数据流时，可以通过深度报文解析的方法，对数据流中报文的有效载荷字段与特征库中存储的特征字段进行逐字段匹配，找到相匹配的特征字段，进而可以得到该特征字段对应的应用程序标识，即识别出该数据流对应的应用程序标识。

在实现本申请的过程中，发明人发现现有技术至少存在以下问题：

为了保护用户的隐私，越来越多的应用程序会对数据流中报文的有效载荷字段进行加密，使得有效载荷字段存在一定的随机性，服务器在解析同一种应用程序的不同有效载荷字段时，可能得到不同的特征字段，并且，得到的特征字段可能与特征库中该应用程序标识对应的特征字段也不相同，从而，导致识别数据流对应的应用程序标识的准确性较低。

发明内容

为了解决现有技术中识别数据流对应的应用程序标识的准确性较低的问题，本发明实施例提供了一种数据流的识别方法和装置。所述技术方案如下：

第一方面，提供了一种数据流的识别方法，该方法包括：获取目标数据流中连续N个报文的报文传输属性信息，其中N为大于1的正整数；根据连续N个报文的报文传输属性信息，生成连续N个报文的报文传输属性信息的特征图像；将特征图像，输入预先训练的图像分类模型，得到目标数据流对应的目标应用程序标识。

本发明实施例所示的方案，当服务器接收到目标数据流时，可以根据数据流中报文的报文传输属性信息，识别得到目标数据流对应的目标程序标识。具体的，每当服务器开始接收目标数据流时，可以提取接收到的前N个连续的报文的报文传输属性信息，而不是直接使用报文的有效载荷字段。然后，可以根据报文传输属性信息生成特征图像，进而可以通过预先训练的图像分类模型，对特征图像进行识别，得到目标数据流对应的目标应用程序标识。这样，在报文的有效载荷字段存在加密或者使用私有应用层协议的情况下，服务器根据报文传输属性信息而不是有效载荷字段，对数据流的应用程序标识进行识别，可以避免对报文的有效载荷字段进行解析，从而，提高识别数据流对应的应用程序标识的准确性。

在一种可能的实现方式中，每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息；根据连续N个报文的报文传输属性信息，生成连续N个报文的报文传输属性信息对应的特征图像，包括：在连续N个报文的报文传输属性信息中，将相同类型的报文传输属性信息按照报文到达时间顺序组成序列，得到至少一个类型的传输属性信息序列；确定至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵，其中，静态行为特征矩阵是用于描述传输属性信息序列的边缘概率分布p(I_j)的特征矩阵，动态行为特征矩阵是用于描述传输属性信息序列的条件概率分布p(I_j+1|I_j)的特征矩阵，I_j为连续N个报文中的任一报文在传输属性信息序列中对应的报文传输属性信息，I_j+1为任一报文的下一个报文在传输属性信息序列中对应的报文传输属性信息；将静态行为特征矩阵与动态行为特征矩阵，作为连续N个报文的报文传输属性信息的特征图像。

本发明实施例所示的方案，服务器获取到的报文传输属性信息可以有多种类型，并且可以分别生成每种类型对应的传输属性信息序列，然后根据传输属性信息序列的概率分布信息生成特征图像。采用每种报文传输属性信息的概率分布信息来描述数据流的特征，不依赖于人工设计的特征，泛化能力更强，可以更加准确地描述数据流。

在一种可能的实现方式中，每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种：报文长度、报文到达时间间隔、报文上下行属性。

本发明实施例所示的方案，报文传输属性信息可以是报文长度、报文到达时间间隔、报文上下行属性，用于描述数据流的行为信息，不需要解析报文的有效载荷字段，因此即使数据流存在加密或者使用私有应用层协议的情况，也可以保证识别数据流对应的应用程序标识的准确性，避免侵犯用户的隐私。

在一种可能的实现方式中，确定至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵，包括：对于至少一个类型的传输属性信息序列{I₁,I₂,…,I_j,…,I_n+1}中的每个传输属性信息序列，获取传输属性信息序列的第一子序列{I₁,I₂,…,I_j,…,I_n}、第二子序列{I₂,I₃,…,I_j,…,I_n+1}，通过预设的映射函数φ(I_j)，将第一子序列与第二子序列映射到高维特征空间，得到第一子序列对应的第一高维特征矩阵Φ＝[φ(I₁),φ(I₂),…,φ(I_j),…,φ(I_n)]、第二子序列对应的第二高维特征矩阵Φ₊＝[φ(I₂),φ(I₃),…,φ(I_j),…,φ(I_n+1)]，其中，n+1为传输属性信息序列的序列长度；根据第一高维特征矩阵与公式

确定传输属性信息序列对应的静态行为特征矩阵，其中，

为静态行为特征矩阵，Φ^T为第一高维特征矩阵的转置，n为第一子序列的序列长度；根据第一高维特征矩阵、第二高维特征矩阵与公式

确定传输属性信息序列对应的动态行为特征矩阵，其中，

为动态行为特征矩阵，λ为正则项系数，I为单位矩阵。

本发明实施例所示的方案，将传输属性信息序列的第一子序列与第二子序列通过预设的映射函数φ(I_j)，映射到高维特征空间，分别得到第一高维特征矩阵Φ与第二高维特征矩阵Φ₊。然后，将第一高维特征矩阵Φ输入上述公式(1)，计算得到矩阵

即可得到对应的静态行为特征矩阵，自然地，可以将静态行为特征矩阵描述为一张静态行为特征图像。同理，将第一高维特征矩阵Φ与第二高维特征矩阵Φ₊输入上述公式(2)，计算得到矩阵

即可得到对应的动态行为特征矩阵，自然地，可以将动态行为特征矩阵描述为一张动态行为特征图像。每个类型的传输属性信息序列可以分别得到一张静态行为特征图像和一张动态行为特征图像，如果有M个类型，则可以得到2×M张图像，即可以得到特征图像的2×M个通道的图像。

在一种可能的实现方式中，图像分类模型由卷积神经网络构成；将特征图像输入图像分类模型时，还将辅助识别信息从图像分类模型的全连接层输入；其中，辅助识别信息至少包括以下一种或多种：连续N个报文的报文传输属性信息、目标数据流对应的后台服务器的网络协议IP地址、后台服务器的端口标识。

本发明实施例所示的方案，在通过图像分类模型进行识别的过程中，可以将后台服务器的IP地址以及端口标识归一化后输入第一个全连接层，同时，还可以将上述连续N个报文的报文传输属性信息输入第一个全连接层，输入的报文属性信息也可以由传输属性信息序列代替。由于连续N个报文的报文传输属性信息、后台服务器对应的IP地址以及端口标识也能够描述不同应用程序之间的差异，因此，将上述信息从全连接层输入，可以提高识别数据流对应的应用程序标识的准确性。

第二方面，提供了一种数据流的识别装置，该装置包括至少一个模块，该至少一个模块用于实现上述第一方面所提供的数据流的识别方法。

第三方面，提供了一种服务器，该服务器包括接收器、处理器，处理器被配置为执行存储器中存储的指令；处理器通过执行指令来实现上述第一方面所提供的数据流的识别方法。

第四方面，提供了计算机可读存储介质，包括指令，当计算机可读存储介质在服务器上运行时，使得服务器执行上述第一方面的方法。

第五方面，提供了一种包含指令的计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行上述第一方面的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，服务器当开始接收一条目标数据流时，可以获取目标数据流中连续N个报文的报文传输属性信息，然后根据连续N个报文的报文传输属性信息，生成连续N个报文的报文传输属性信息的特征图像，将特征图像，输入预先训练的图像分类模型，得到目标数据流对应的目标应用程序标识。这样，在报文的有效载荷字段存在加密或者使用私有应用层协议的情况下，根据报文传输属性信息对应用程序标识进行识别，可以避免对报文的有效载荷字段进行解析，从而，提高识别数据流对应的应用程序标识的准确性。

附图说明

图1是本发明实施例提供的一种服务器的结构示意图；

图2是本发明实施例提供的一种识别数据流的方法流程图；

图3是本发明实施例提供的一种识别数据流的模块示意图；

图4是本发明实施例提供的一种报文传输属性信息的示意图；

图5是本发明实施例提供的一种不同应用程序的报文长度序列对应的静态行为特征图像；

图6是本发明实施例提供的一种识别数据流的装置结构示意图；

图7是本发明实施例提供的一种识别数据流的装置结构示意图。

具体实施方式

本发明实施例提供了一种数据流的识别方法，该方法可以由需要识别数据流对应的应用程序标识的服务器实现。该服务器可以采集到各个应用程序的数据流，或者可以接收到网关或其它的数据流采集处采集的各个应用程序的数据流。为了防止解析报文的有效载荷字段而导致识别数据流对应的应用程序标识的准确性较低，在识别数据流对应的应用程序标识的过程中，服务器可以获取数据流中的前N个报文的报文传输属性信息，不对报文的有效载荷字段进行解析，然后根据连续N个报文的报文传输属性信息生成对应的特征图像，进而可以将特征图像输入预先训练的图像分类模型，输出即可得到数据流对应的应用程序标识。

服务器可以包括处理器110、发射器120、接收器130，接收器130和发射器120可以分别与处理器110连接，如图1所示。接收器130可以用于接收消息或数据，即可以接收各个应用程序的数据流，发射器120和接收器130可以是网卡，发射器120可以用于发送消息或数据。处理器110可以是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，如接收器130和发射器120等。在本发明中，处理器110可以是CPU(Central ProcessingUnit，中央处理器)，可以用于识别数据流对应的应用程序标识的相关处理，可选的，处理器110可以包括一个或多个处理单元；处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统，调制解调处理器主要处理无线通信。处理器110还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。服务器还可以包括存储器140，存储器140可用于存储软件程序以及模块，处理器110通过读取存储在存储器的软件代码以及模块，从而执行服务器的各种功能应用以及数据处理。

下面将结合具体实施方式，对图2所示的识别数据流的方法流程图以及图3所示的识别数据流的模块示意图，进行详细的说明，内容可以如下：

步骤201，获取目标数据流中连续N个报文的报文传输属性信息。

其中，N为大于1的正整数。每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息，报文传输属性信息的类型可以有以下一种或多种：报文长度、报文到达时间间隔、报文上下行属性。报文传输属性信息还可以有其他的类型，此处不作限定。报文传输属性信息用于描述数据流的行为信息，不需要解析报文的有效载荷字段，因此即使数据流存在加密或者使用私有应用层协议的情况，也可以保证识别数据流对应的应用程序标识的准确性，避免侵犯用户的隐私。

在实施中，数据流可以采用五元组进行标记，其中，五元组是指在通信网络中，源IP(Internet Protocol，网络协议)地址、源端口标识、目的IP地址、目的端口标识和传输层协议这五个量组成的一个集合。一条数据流中可以包含有上下行的多个报文，每个报文又会包含有报文头、有效载荷字段等信息。服务器可以接收到各个应用程序在网络中传输的数据流，每当开始接收一条数据流时，可以将接收到的前N个连续的报文输入报文传输属性信息提取模块301。N的取值可以根据需要进行预先设置，本实施例以N为10为例，即提取一条数据流中的前10个连续的报文。这样，只使用前几个报文的报文传输属性信息，不需要等待数据流传输完成才进行识别，可以更快速地完成数据流识别，提高识别的效率，实现在线的数据流识别。

报文传输属性信息提取模块301可以输出每个报文的报文传输属性信息，例如，可以输出每个报文的报文长度s_j、每个报文到达时间间隔Δt_j、报文的上下行属性d_j，报文传输属性信息可以用于表示数据流的行为信息。其中，d_j∈{0,1}，“0”可以表示上行报文，“1”可以表示下行报文。报文到达时间间隔可以是，接收到报文的时间与接收到上一个报文的时间之间的间隔。

可选的，服务器可以在连续N个报文的报文传输属性信息中，将相同类型的报文传输属性信息按照报文到达时间顺序组成序列，得到至少一个类型的传输属性信息序列。

如图4所示的报文传输属性信息的示意图，相同类型的报文传输属性信息可以按照报文到达时间顺序组成序列，即可以得到报文长度序列、报文到达时间间隔序列、报文上下行属性序列。以N为10为例，上述各个序列可以如表1所示：

表1传输属性信息序列

报文长度序列	{s<sub>1</sub>,s<sub>2</sub>,s<sub>3</sub>,s<sub>4</sub>,s<sub>5</sub>,s<sub>6</sub>,s<sub>7</sub>,s<sub>8</sub>,s<sub>9</sub>}
		报文到达时间间隔序列	{Δt<sub>1</sub>,Δt<sub>2</sub>,Δt<sub>3</sub>,Δt<sub>4</sub>,Δt<sub>5</sub>,Δt<sub>6</sub>,Δt<sub>7</sub>,Δt<sub>8</sub>,Δt<sub>9</sub>}
报文上下行属性序列	{d<sub>1</sub>,d<sub>2</sub>,d<sub>3</sub>,d<sub>4</sub>,d<sub>5</sub>,d<sub>6</sub>,d<sub>7</sub>,d<sub>8</sub>,d<sub>9</sub>}

步骤202，根据连续N个报文的报文传输属性信息，生成连续N个报文的报文传输属性信息的特征图像。

在实施中，服务器可以将连续N个报文的报文传输属性信息输入图像生成模块302，其中，可以根据每个报文的报文传输属性信息来描述数据流的特征，可以是采用粗粒度的统计量进行描述，例如报文长度的均值、方差等，也可以是根据每种报文传输属性信息的概率分布信息来描述数据流的特征。上述数据流的特征可以是特征矩阵的形式，自然地，可以用图像来表示特征矩阵，即得到连续N个报文的报文传输属性信息对应的特征图像，也即输出得到该数据流对应的特征图像。经过实验验证可以得知，采用每种报文传输属性信息的概率分布信息来描述数据流的特征相比于采用粗粒度的统计量进行描述，不依赖于人工设计的特征，泛化能力更强，可以更加准确地描述数据流，因此，本方案主要采用每种报文传输属性信息的分布信息来描述数据流的特征，具体过程可以如下：

可选的，服务器可以采用采用静态行为特征矩阵描述每种报文传输属性信息的边缘概率分布，采用动态行为特征矩阵描述前后两个报文的关系，即描述条件概率分布。具体的，在上述过程中得到每种类型的传输属性信息序列后，服务器可以确定至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵，将静态行为特征矩阵与动态行为特征矩阵，作为连续N个报文的报文传输属性信息的特征图像。

其中，静态行为特征矩阵是用于描述传输属性信息序列的边缘概率分布p(I_j)的特征矩阵，动态行为特征矩阵是用于描述传输属性信息序列的条件概率分布p(I_j+1|I_j)的特征矩阵，I_j为连续N个报文中的任一报文在传输属性信息序列中对应的报文传输属性信息，I_j+1为任一报文的下一个报文在传输属性信息序列中对应的报文传输属性信息。

在实施中，对于至少一个类型的传输属性信息序列{I₁,I₂,…,I_j,…,I_n+1}中的每个传输属性信息序列，获取传输属性信息序列的第一子序列{I₁,I₂,…,I_j,…,I_n}、第二子序列{I₂,I₃,…,I_j,…,I_n+1}，通过预设的映射函数φ(I_j)，将第一子序列与第二子序列映射到高维特征空间，得到第一子序列对应的第一高维特征矩阵Φ＝[φ(I₁),φ(I₂),…,φ(I_j),…,φ(I_n)]、第二子序列对应的第二高维特征矩阵Φ₊＝[φ(I₂),φ(I₃),…,φ(I_j),…,φ(I_n+1)]，其中，n+1为传输属性信息序列的序列长度。

传输属性信息序列{I₁,I₂,…,I_j,…,I_n+1}可以是上述任一传输属性信息序列，即可以是报文长度序列、报文到达时间间隔序列或报文上下行属性序列。以提取一条数据流中的前10个连续的报文为例，即此处n+1＝10，预设的映射函数φ(I_j)可以是傅里叶级数展开，则将第一子序列映射到高维特征空间后，得到对应的第一高维特征矩阵为：

其中，ω_i(i＝1,2,…,k)为从正态分布采样出来的k个随机数。

同理，可以得到第二子序列对应的第二高维特征矩阵：

根据第一高维特征矩阵与公式(1)，确定传输属性信息序列对应的静态行为特征矩阵：

其中，

为静态行为特征矩阵，Φ^T为第一高维特征矩阵的转置，n为第一子序列的序列长度。

即将上述第一高维特征矩阵Φ输入上述公式(1)，计算得到矩阵

即可得到对应的静态行为特征矩阵，自然地，可以将静态行为特征矩阵描述为一张静态行为特征图像。

根据第一高维特征矩阵、第二高维特征矩阵与公式(2)，确定传输属性信息序列对应的动态行为特征矩阵：

其中，

为动态行为特征矩阵，λ为正则项系数，I为单位矩阵。

即将上述第一高维特征矩阵Φ与第二高维特征矩阵Φ₊输入上述公式(2)，计算得到矩阵

即可得到对应的动态行为特征矩阵，自然地，可以将动态行为特征矩阵描述为一张动态行为特征图像。

每个类型的传输属性信息序列可以分别得到一张静态行为特征图像和一张动态行为特征图像，如果有M个类型，则可以得到2×M张图像，即可以得到特征图像的2×M个通道的图像。例如，传输属性信息序列至少有3个类型：报文长度序列、报文到达时间间隔序列、报文上下行属性序列，则可以得到6个通道的特征图像。不同应用程序的报文长度序列对应的静态行为特征图像如图5所示，可以看出，同一个应用程序对应的不同数据流生成的特征图像，拥有相似的纹理，而不同的应用程序对应的特征图像在局部特征上有所差异。

上述生成特征图像的过程可以采用高斯混合模型、核密度估计以及再生核希尔伯特空间嵌入等方法，此处不作限定。

步骤203，将特征图像，输入预先训练的图像分类模型，得到目标数据流对应的目标应用程序标识。

在实施中，为了使用图像分类模型对特征图像进行识别，可以利用已知对应的应用程序标识的多个数据流，并将应用程序标识作为标签，对图像分类模型进行训练，得到训练完成后的图像分类模型。具体的，可以利用Adam优化器(Adaptive Moment Estimation优化器，自适应矩估计优化器)来控制学习速率，使用多分类交叉熵作为损失函数，此处不作限定。

进而，服务器可以将上述特征图像输入预先训练的图像分类模型，对特征图像的局部特征进行提取并分类，输出得到数据流对应的应用程序标识。该图像分类模型与图3中图像分类模块303相对应。

可选的，图像分类模型可以由卷积神经网络构成。

对于图像分类模型为卷积神经网络的情况，服务器在将特征图像输入所述图像分类模型时，还可以将辅助识别信息从图像分类模型的全连接层输入。

其中，辅助识别信息至少包括以下一种或多种：连续N个报文的报文传输属性信息、数据流对应的后台服务器的网络协议IP地址、后台服务器的端口标识。

在实施中，服务器可以在数据流对应的五元组标记中，确定后台服务器对应的IP地址以及端口标识，其中，该后台服务器是为对应的应用程序提供业务处理的服务器。图像分类模型可以是卷积神经网络，则可以分为卷积层、最大池化层、全连接层，对于卷积神经网络的网络结构(如网络层数、卷积核大小等)此处不作限定。进而，在通过图像分类模型进行识别的过程中，可以将后台服务器的IP地址以及端口标识归一化后输入第一个全连接层，同时，还可以将上述连续N个报文的报文传输属性信息输入第一个全连接层，输入的报文属性信息也可以由上述传输属性信息序列代替。由于连续N个报文的报文传输属性信息、后台服务器对应的IP地址以及端口标识也能够描述不同应用程序之间的差异，因此，将上述信息从全连接层输入，可以提高识别数据流对应的应用程序标识的准确性。

识别出每一条数据流对应的应用程序标识后，服务器可以保证优先级较高的应用程序进行优先传输，也可以将识别结果发送给通信运营商进行准确的流量计费，还可以帮助研究人员分析网络上各个应用程序流量的分布，此处不作限定。

为了验证本方案的有效性，利用5种具体的应用程序的数据流进行了实验，实验数据如下表2，总数据流的数量超过23万条。

表2实验数据

应用程序	Instagram	Skype	Facebook	WeChat	YouTube	总计
							流数量	26687	97834	43863	53991	60913	238288

在实验验证的过程中，对每一条数据流，利用上述数据流的传输属性信息序列生成特征向量F_r＝{Δt₁,Δt₂,...,Δt₉,s₁,s₂,...,s₉,d₁,d₂,...,d₉,ip}，其中，ip为数据流对应的后台服务器的IP地址。另外，很多算法认为统计量更具有代表性，因此也可以使用连续N个报文的报文传输属性信息的统计量构成特征向量F_s＝{mean_pkt,std_packet,...,ip}，其中，F_s中的每个元素分别表示：报文长度的均值、方差、最大值、最小值；报文时间间隔的均值、方差、最大值、最小值；报文上下行的比例；后台服务器的IP地址。

实验利用下列4种分类算法与本方案进行对比：SVM(Support Vector Machine，支持向量机)、MLP(Multi-Layer Perception，多层感知机)、NB(Naive Bayes，朴素贝叶斯)、DT(Decision Tree，决策树)。分别将每条数据流对应的特征向量F_r与F_s通过上述4中分类算法，对数据流的应用程序标识进行识别，根据识别的结果与每条数据流实际对应的应用程序标识，计算每种分类算法的准确率。同时，利用上述表2中的实验数据，通过本方案提供的数据流的识别方法，对数据流的应用程序标识进行识别，并计算本方案的准确率。实验结果如下表3、表4所示：

表3四种分类算法的实验结果

	SVM	MLP	NB	DT
					F<sub>r</sub>	76.93％	51.43％	41.06％	54.96％
F<sub>s</sub>	63.57％	51.02％	41.66％	47.18％

表4本方案的实验结果

本方案
	88.42％

从实验结果中可以看出，无论是将特征向量F_r作为输入通过不同的算法得到的准确率，还是将特征向量F_s作为输入通过不同的算法得到的准确率，都低于本方案的准确率。因此，对于识别数据流对应的应用程序标识，本方案是确实能够提高准确率的。

基于相同的技术构思，本发明实施例还提供了一种数据流的识别装置，该装置可以是上述服务器，如图6所示，该装置包括：

获取模块610，用于获取目标数据流中连续N个报文的报文传输属性信息，其中N为大于1的正整数，具体可以实现上述步骤201中的获取功能，以及其他隐含步骤；

生成模块620，用于根据所述连续N个报文的报文传输属性信息，生成所述连续N个报文的报文传输属性信息的特征图像，具体可以实现上述步骤202中的生成功能，以及其他隐含步骤；

分类模块630，用于将所述特征图像，输入预先训练的图像分类模型，得到所述目标数据流对应的目标应用程序标识，具体可以实现上述步骤203中的分类功能，以及其他隐含步骤。

可选的，每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息；

所述生成模块620用于：

在所述连续N个报文的报文传输属性信息中，将相同类型的报文传输属性信息按照报文到达时间顺序组成序列，得到至少一个类型的传输属性信息序列；

确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵，其中，所述静态行为特征矩阵是用于描述所述传输属性信息序列的边缘概率分布p(I_j)的特征矩阵，所述动态行为特征矩阵是用于描述所述传输属性信息序列的条件概率分布p(I_j+1|I_j)的特征矩阵，I_j为所述连续N个报文中的任一报文在所述传输属性信息序列中对应的报文传输属性信息，I_j+1为所述任一报文的下一个报文在所述传输属性信息序列中对应的报文传输属性信息；

将所述静态行为特征矩阵与所述动态行为特征矩阵，作为所述连续N个报文的报文传输属性信息的特征图像。

可选的，每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种：报文长度、报文到达时间间隔、报文上下行属性。

可选的，所述生成模块620用于：

对于所述至少一个类型的传输属性信息序列{I₁,I₂,…,I_j,…,I_n+1}中的每个传输属性信息序列，获取所述传输属性信息序列的第一子序列{I₁,I₂,…,I_j,…,I_n}、第二子序列{I₂,I₃,…,I_j,…,I_n+1}，通过预设的映射函数φ(I_j)，将所述第一子序列与所述第二子序列映射到高维特征空间，得到所述第一子序列对应的第一高维特征矩阵Φ＝[φ(I₁),φ(I₂),…,φ(I_j),…,φ(I_n)]、所述第二子序列对应的第二高维特征矩阵Φ₊＝[φ(I₂),φ(I₃),…,φ(I_j),…,φ(I_n+1)]，其中，n+1为所述传输属性信息序列的序列长度；

根据所述第一高维特征矩阵与公式

确定所述传输属性信息序列对应的静态行为特征矩阵，其中，

为所述静态行为特征矩阵，Φ^T为所述第一高维特征矩阵的转置，n为所述第一子序列的序列长度；

根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式

确定所述传输属性信息序列对应的动态行为特征矩阵，其中，

为所述动态行为特征矩阵，λ为正则项系数，I为单位矩阵。

可选的，所述图像分类模型由卷积神经网络构成；

如图7所示，所述装置还包括：

输入模块640，用于将所述特征图像输入所述图像分类模型时，还将辅助识别信息从所述图像分类模型的全连接层输入；

其中，所述辅助识别信息至少包括以下一种或多种：所述连续N个报文的报文传输属性信息、所述目标数据流对应的后台服务器的网络协议IP地址、所述后台服务器的端口标识。

需要说明的是，上述获取模块610可以由接收器实现，生成模块620可以由处理器实现，分类模块630可以由处理器实现，输入模块640可以由处理器实现。

需要说明的是：上述实施例提供的数据流的识别装置在识别数据流对应的应用程序标识时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据流的识别装置与数据流的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在主机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是主机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等)，也可以是光介质(如数字视盘(Digital Video Disk，DVD)等)，或者半导体介质(如固态硬盘等)。

以上所述仅为本申请的一个实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据流的识别方法，其特征在于，所述方法包括：

获取目标数据流中连续N个报文的报文传输属性信息，其中，每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种：报文长度、报文到达时间间隔、报文上下行属性，N为大于1的正整数；

根据所述连续N个报文的报文传输属性信息的概率分布信息，生成所述连续N个报文的报文传输属性信息的特征图像；

将所述特征图像，输入预先训练的图像分类模型，得到所述目标数据流对应的目标应用程序标识。

2.根据权利要求1所述的方法，其特征在于，每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息；

所述根据所述连续N个报文的报文传输属性信息的概率分布信息，生成所述连续N个报文的报文传输属性信息的特征图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵，包括：

根据所述第一高维特征矩阵与公式

根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式

为所述动态行为特征矩阵，λ为正则项系数，I为单位矩阵。

4.根据权利要求1所述的方法，其特征在于，所述图像分类模型由卷积神经网络构成；

所述方法还包括：

将所述特征图像输入所述图像分类模型时，还将辅助识别信息从所述图像分类模型的全连接层输入；

5.一种数据流的识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标数据流中连续N个报文的报文传输属性信息，其中，每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种：报文长度、报文到达时间间隔、报文上下行属性，N为大于1的正整数；

生成模块，用于根据所述连续N个报文的报文传输属性信息的概率分布信息，生成所述连续N个报文的报文传输属性信息的特征图像；

分类模块，用于将所述特征图像，输入预先训练的图像分类模型，得到所述目标数据流对应的目标应用程序标识。

6.根据权利要求5所述的装置，其特征在于，每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息；

所述生成模块用于：

7.根据权利要求6所述的装置，其特征在于，所述生成模块用于：

根据所述第一高维特征矩阵与公式

根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式

为所述动态行为特征矩阵，λ为正则项系数，I为单位矩阵。

8.根据权利要求5所述的装置，其特征在于，所述图像分类模型由卷积神经网络构成；

所述装置还包括：

输入模块，用于将所述特征图像输入所述图像分类模型时，还将辅助识别信息从所述图像分类模型的全连接层输入；

9.一种服务器，其特征在于，所述服务器包括接收器、处理器，其中：

所述接收器，用于获取目标数据流中连续N个报文的报文传输属性信息，其中，每个报文的报文传输属性信息包括以下类型的报文传输属性信息中的一种或多种：报文长度、报文到达时间间隔、报文上下行属性，N为大于1的正整数；

所述处理器，用于根据所述连续N个报文的报文传输属性信息的概率分布信息，生成所述连续N个报文的报文传输属性信息的特征图像；将所述特征图像，输入预先训练的图像分类模型，得到所述目标数据流对应的目标应用程序标识。

10.根据权利要求9所述的服务器，其特征在于，每个报文的报文传输属性信息包括至少一个类型的报文传输属性信息；

所述处理器，用于在所述连续N个报文的报文传输属性信息中，将相同类型的报文传输属性信息按照报文到达时间顺序组成序列，得到至少一个类型的传输属性信息序列；确定所述至少一个类型的传输属性信息序列中每个类型的传输属性信息序列对应的静态行为特征矩阵与动态行为特征矩阵，其中，所述静态行为特征矩阵是用于描述所述传输属性信息序列的边缘概率分布p(I_j)的特征矩阵，所述动态行为特征矩阵是用于描述所述传输属性信息序列的条件概率分布p(I_j+1|I_j)的特征矩阵，I_j为所述连续N个报文中的任一报文在所述传输属性信息序列中对应的报文传输属性信息，I_j+1为所述任一报文的下一个报文在所述传输属性信息序列中对应的报文传输属性信息；将所述静态行为特征矩阵与所述动态行为特征矩阵，作为所述连续N个报文的报文传输属性信息的特征图像。

11.根据权利要求10所述的服务器，其特征在于，所述处理器用于：

根据所述第一高维特征矩阵与公式

根据所述第一高维特征矩阵、所述第二高维特征矩阵与公式

为所述动态行为特征矩阵，λ为正则项系数，I为单位矩阵。

12.根据权利要求9所述的服务器，其特征在于，所述图像分类模型由卷积神经网络构成；

所述处理器还用于：

13.一种计算机可读存储介质，其特征在于，包括指令，当所述计算机可读存储介质在服务器上运行时，使得所述服务器执行所述权利要求1-4中任一权利要求所述的方法。