CN106385407A

CN106385407A - 一种应用识别待分析数据包去噪声的方法和装置

Info

Publication number: CN106385407A
Application number: CN201610804745.2A
Authority: CN
Inventors: 赵洪亮
Original assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2016-09-01
Filing date: 2016-09-01
Publication date: 2017-02-08
Anticipated expiration: 2036-09-01
Also published as: CN106385407B

Abstract

本发明实施例涉及网络技术领域，尤其涉及一种应用识别待分析数据包去噪声的方法和装置，包括：获取待识别的会话数据包，将二级网段IP地址相同的会话数据包划分为一类分类数据包，将包含相同域名的分类数据包合并为目标数据包，然后获取待查找的应用关键词，并确定与应用关键词对应的目标域名，最后将目标数据包中包含目标域名的会话数据包作为待分析会话数据包。可以看出，在获取待识别的会话数据包之后，将二级网段IP地址相同的会话数据包划分为一类分类数据包，并将包含相同域名的分类数据包合并为目标数据包，因此，能够将IP地址、Host字段看似不相关的会话数据包，实则属于同一应用的会话数据包归类为待分析的会话数据包。

Description

一种应用识别待分析数据包去噪声的方法和装置

技术领域

本发明实施例涉及网络技术领域，尤其涉及一种应用待识别待分析数据包去噪声的方法和装置。

背景技术

目前，HTTP(HTTP-Hypertext transfer protocol，超文本传送协议)规则自动化提取工具可以对基于HTTP协议的网络会话数据包解析，提取出多个会话的共同特征，进而生成应用程序识别引擎需要的规则，理想情况下，HTTP规则自动化提取工具分析的数据包应该是全部属于目标应用的，这样提取出的应用规则才能最纯净，不仅能保证每条规则都对目标应用有效，还能减少误报和规则数量。所以，尽量纯化数据包，减少不相关的数据包的干扰，使要分析的数据包都是属于相同应用，是改善自动化提取工具结果的一个有效途径。

因此，如何纯化数据包，减少不相关的数据包的干扰，使要分析的数据包都属于相同应用，成为亟需解决的技术问题。

发明内容

本发明实施例提供一种应用识别待分析数据包去噪声的方法和装置，用以实现将IP地址、Host字段看似不相关的会话数据包，实则属于同一应用的会话数据包归类为待分析的会话数据包，并根据配置的待查找应用关键词确定目标数据包，最终达到纯化待分析数据包，消除不相关的数据包的目的。

本发明实施例提供一种应用识别待分析数据包去噪声的方法，包括：

获取待识别的会话数据包；

将二级网段IP地址相同的会话数据包划分为一类分类数据包；

将包含相同域名的分类数据包合并为目标数据包，其中各目标数据包间不存在域名相同的会话数据包；

获取待查找的应用关键词，确定与所述应用关键词对应的目标域名；

将所述目标数据包中包含所述目标域名的会话数据包作为待分析会话数据包。

本发明实施例还提供一种应用识别待分析数据包去噪声的装置，包括：

获取模块，用于获取待识别的会话数据包；

划分模块，用于将二级网段IP地址相同的会话数据包划分为一类分类数据包；

合并模块，用于将包含相同域名的分类数据包合并为目标数据包，其中各目标数据包间不存在域名相同的会话数据包；

所述获取模块，还用于获取待查找的应用关键词，确定与所述应用关键词对应的目标域名；

匹配模块，用于将所述目标数据包中包含所述目标域名的会话数据包作为待分析会话数据包。

上述实施例提供的应用是被待分析数据包去噪声的方法和装置，包括：首先获取待识别的会话数据包，将二级网段IP地址相同的会话数据包划分为一类分类数据包，将包含相同域名的分类数据包合并为目标数据包，然后获取待查找的应用关键词，并确定与所述应用关键词对应的目标域名，最后将目标数据包中包含目标域名的会话数据包作为待分析会话数据包。可以看出，由于在获取待识别的会话数据包之后，又将二级网段IP地址相同的会话数据包划分为一类分类数据包，并将包含相同域名的分类数据包合并为目标数据包，因此，能够实现将IP地址、Host字段看似不相关的会话数据包，实则属于同一应用的会话数据包归类为待分析的会话数据包，并根据配置的待查找应用关键词确定目标数据包，最终达到纯化待分析数据包，消除不相关数据包的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍。

图1为本发明实施例提供的一种应用识别待分析数据包去噪声的方法流程示意图；

图2为本发明实施例获取目标数据包的方法流程示意图；

图3为本发明实施例提供的具体的应用识别待分析数据包去噪声的方法流程示意图；

图4为本发明实施例提供的应用识别待分析数据包去噪声的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中的会话数据包均为基于HTTP协议的会话数据包。

图1示例性示出了本发明实施例提供的一种应用识别待分析数据包去噪声的方法流程图，如图1所示，该流程可包括：

S101、获取待识别的会话数据包。

S102、将二级网段IP地址相同的会话数据包划分为一类分类数据包。

S103、将包含相同域名的分类数据包合并为目标数据包。

其中，各目标数据包间不存在域名相同的会话数据包。

具体的，可将存在关联关系域名的分类数据包合并为目标数据包，其中，存在关联关系域名的分类数据包，可以解释为：即使一个分类数据包的中所包含的域名与另外一个分类数据包所包含的域名并不完全相同，也被认为存在关联关系域名的分类数据包。S104、获取待查找的应用关键词，根据待查找的应用关键词，确定与所述应用关键词对应的目标域名。

S105、将目标数据包中包含目标域名的会话数据包作为待分析会话数据包。

在上述步骤S101中，可通过抓包软件获取待识别的会话数据包，也可通过其它方式获取待识别的会话数据包，本发明实施例对获取会话数据包的方式不进行任何限定。

作为一种获取会话数据包的方式，可通过抓包软件首先获取pcap(PacketCapture，数据包捕获)文件，然后按照pcap文件格式，读取解析pcap文件，提取出HTTP协议数据包的五元组信息，即提取出HTTP协议数据包的源IP地址、目的IP地址、协议号、源端口、目的端口，并提取出HTTP协议数据包的Host、Referer(参考)字段信息，最后把提取出的HTTP协议数据包按照IP地址分别写到单独pcap文件里，从而获取会话数据包，即将单独的pcap文件作为会话数据包。在上述步骤S102中，将二级网段IP地址相同的会话数据包划分为一类分类数据包，可包括以下两种情况。

第一种情况

在第一会话数据包的源IP地址的二级网段和第二会话数据包的源IP地址的二级网段相同，并且第一会话数据包的目的IP地址的二级网段和第二会话数据包的目的IP地址的二级网段相同时，将第一会话数据包和第二会话数据包归入为第一类分类数据包。

例如，10.66.58.2_10.245.200.77对应第一会话数据包；

10.66.58.2_10.245.200.77对应第二会话数据包。

则可将第一会话数据包和第二会话数据包归入为第一类分数据包中。

第二种情况

在第三会话数据包的源IP地址的二级网段和第四会话数据包的目的IP地址的二级网段相同且第三数据包的目的IP地址的二级网段和第四会话数据包的源IP地址的二级网段相同时，将第三会话数据包和第四会话数据包归入为第一类分类数据包。

例如，10.66.28.10_123.57.254.111对应第三会话数据包；

123.57.254.111_10.66.28.10对应第四会话数据包。

则可将第三会话数据包和第四会话数据包归入为一类分类数据包中。

其中，第一会话数据包，第二会话数据包，第三会话数据包，第四会话数据包为待识别的会话数据包中任一个，第一类分类数据包为分类数据包中任一个。

在将二级网段IP地址相同的会话数据包划分为一类分类数据包之后，还可根据各个二级网段IP地址对应的分类数据包，确定各个二级网段对应的特征字典；然后为各个特征字典分配键值，将各个分类数据包中的域名作为各个特征字典的值；最后根据各个特征字典，确定特征字典集合L。

基于确定的特征字典集合L，获取目标数据包的流程，可参见图2。

S201、从特征字典集合L中任意选取一个特征字典S，将特征字典S的值与特征字典集合L中剩余的特征字典的值逐个进行比对。

其中，特征字典S的值为特征字典S对应的分类数据包中域名的集合。

S202、判断特征字典S的值是否与特征字典集合L中剩余的特征字典的值有交集，若是，则转至步骤S203，否则转至步骤S205。

S203、确定与特征字典S有交集的特征字典D。

S204、将特征字典S和特征字典D合并为新的特征字典M，且将特征字典S对应的分类数据包以及与特征字典D对应的分类数据包合并为目标数据包。

S205、特征字典S对应的分类数据包作为目标数据包。

需要说明的是，特征字典的值为相应的特征字典所对应的分类数据包的域名的集合。

较佳的，在将特征字典S和特征字典D合并为新的特征字典M之后，还将特征字典S的键值以及特征字典D的键值，确定为特征字典M的键值，并将特征字典S的值以及特征字典D的值合并为特征字典M的值。

在确定特征字典M的键值之后，还将特征字典M的键值与L中除去特征字典S之外的剩余字典的键值进行比对，如存在交集，则将与特征字典M的键值有交集的特征字典的删除，由于特征字典M的键值由特征字典C的键值和特征字典D的键值所合并生成的，因此，特征字典M的键值与特征字典D之间存在交集，因此，将特征字典D从特征字典集合L中进行删除。

在确定特征字典M与特征字典集合L无交集时，还将特征字典M从特征字典集合L中删除。

下面通过一个具体的例子，对上述实施提供的方法流程，进行详细的解释说明，该例子的流程，可参考图3。

S301、获取待识别的会话数据包。

假设获取的待识别的会话数据包以及每个会话数据包的源IP地址和目的IP地址，如下：

10.66.58.2_10.245.200.77对应会话数据包11；

10.66.58.2_10.245.200.77对应会话数据包12；

10.66.28.10_111.202.99.17对应会话数据包21；

10.66.28.10_111.202.99.18对应会话数据包22；

10.66.28.10_111.202.99.19对应会话数据包23；

10.66.28.10_111.202.99.21对应会话数据包24；

10.66.28.10_111.202.99.23对应会话数据包25；

10.66.28.10_111.202.99.24对应会话数据包26；

10.8.4.40_10.66.28.10对应会话数据包31。

其中，左侧的IP地址为会话数据包的源IP地址，右侧的IP地址为会话数据包的目的IP地址。

S302、将二级网段IP地址相同的会话数据包合并为一类分类数据包中。

由于会话数据包11和会话数据包12属于二级网段10.66_10.245，因此将会话数据包11和会话数据包12合并为分类数据包1。

由于会话数据包21、会话数据包22、会话数据包23、会话数据包24、会话数据包25、会话数据包26属于二级网段10.66_111.202，因此将会话数据包21、会话数据包22、会话数据包23、会话数据包24、会话数据包25、会话数据包26合并为分类数据包2。

由于会话数据包31属于二级网段10.8_10.66，因此将会话数据包31合并为分类数据包3。

步骤303：针对每个分类数据包建立特征字典，并确定每个特征字典的键值以及每个特征字典的值。

假设分类数据包1建立的特征字典A的键值以及特征字典A的值为(nat1)：(sina，sohu)；分类数据包2建立的特征字典B的键值以及特征字典B的值为(nat2)：(qqvido，jd)；分类数据包3建立的特征字典C的键值以及特征字典C的值为(nat3)：(qqvido，taobao)。

步骤304、将特征字典A、特征字典B、特征字典C组成一个特征字典集合L。

S305、从特征字典集合L中任意选取一个特征字典，假设选取的特征字典为特征字典A，则将特征字典A从特征字典集合L中删除。

S306、将特征字典A的值与特征字典B的值、特征字典C的值分别进行比对。

由于特征字典A的键值以及特征字典A的值为(nat1)：(sina，sohu)，特征字典B的键值以及特征字典B的值为(nat2)：(qqvido，jd)，特征字典C的键值以及特征字典C的值为(nat3)：(qqvido，taobao)，因此，特征字典A的值与特征字典B的值和特征字典C的值均不相同，即特征字典A的值特征字典B的值与特征字典C的值之间均不存在交集。

S307、将特征字典A对应的分类数据包添加到目标数据包中。

S308、将特征字典A从特征字典集合L中删除。

此时，特征字典集合L中只剩下特征字典B与特征字典C。

步骤309、再从特征字典集合L中任意选取一个特征字典，假设选取的特征字典为特征字典B，则将特征字典B从特征字典集合L中删除。

步骤S310、将特征字典B的值与特征字典集合L中剩余的特征字典C的值分别进行比对。

由于特征字典B的键值以及特征字典B的值为(nat2)：(qqvido，jd)，特征字典C的键值以及特征字典C的值为(nat3)：(qqvido，taobao)，因此，特征字典B的值qqvido与特征字典C的值qqvido相同，即特征字典B的值与特征字典C的值之间存在交集。

S311、将特征字典B与特征字典C合并为新的特征字典D。

具体的，将特征字典B的键值和特征字典C的键值合并为特征字典D的键值，将特征字典B的值和特征字典C的值合并为特征字典D的值，即特征字典D的键值以及值为(nat2，nat3)：(qqvido，，jd，taobao)。

S312、将特征字典D的键值与字典集合L中剩余的特征字典的键值进行比对。

由于特征字典D的键值以及值为(nat2，nat3)，特征字典C的键值为(nat3)，因此，特征字典D的键值nat3与特征字典C的键值nat3相同，即特征字典D的键值与特征字典C的键值存在交集。

S313、将特征字典C从特征字典集合L中进行删除。

此时，特征字典集合L中只剩下特征字典D。

S314、将特征字典D对应的会话数据包添加到目标数据包中。

由于特征字典B对应的数据包为分类数据包2，特征字典C对应的数据包为分类数据包3，特征字典D为特征字典B和特征字典C合并后的特征字典，因此，特征字典D对应的分类数据包为分类数据包2和分类数据包3合并后的数据包，记为数据包203，并将数据包203添加到目标数据包中。

S315、将特征字典D从特征字典集合L中进行删除。

根据以上内容可以看出，由于在获取待识别的会话数据包之后，又将二级网段IP地址相同的会话数据包划分为一类分类数据包，并将包含相同域名的分类数据包合并为目标数据包，因此，能够实现将IP地址、Host字段看似不相关的会话数据包，实则属于同一应用的会话数据包归类为待分析的会话数据包，并根据配置的待查找应用关键词确定目标数据包，最终达到纯化待分析数据包，消除不相关的数据包的目的。即能够纯化数据包，减少不相关的数据包的干扰，使要分析的数据包都属于相同应用的数据包。同时，相对于进程抓包方法需要根据各平台分别实现的特点，上述实施例仅依赖于抓取到的会话数据包，而抓取会话数据包是各平台都很容易实现的，因此具有更好的兼容性。

基于相同的技术构思，本发明实施例还提供一种应用识别待分析数据包去噪声的装置，如图4所示，该装置可包括：

获取模块401，用于获取待识别的会话数据包；

划分模块402，用于将二级网段IP地址相同的会话数据包划分为一类分类数据包；

合并模块403，用于将包含相同域名的分类数据包合并为目标数据包，其中各目标数据包间不存在域名相同的会话数据包；

获取模块401，还用于获取待查找的应用关键词，确定与所述应用关键词对应的目标域名；

匹配模块404，用于将所述目标数据包中包含所述目标域名的会话数据包作为待分析会话数据包。

较佳的，划分模块402，具体用于：

在第一会话数据包的源IP地址的二级网段和第二会话数据包的源IP地址的二级网段相同且所述第一会话数据包的目的IP地址的二级网段和所述第二会话数据包的目的IP地址的二级网段相同时，将所述第一会话数据包和所述第二会话数据包归入为第一类分类数据包；

在第三会话数据包的源IP地址的二级网段和第四会话数据包的目的IP地址的二级网段相同且所述第三会话数据包的目的IP地址的二级网段和所述第四会话数据包的源IP地址的二级网段相同时，将所述第三会话数据包和所述第四会话数据包归入为所述第一类分类数据包；

所述第一会话数据包、所述第二会话数据包、所述第三会话数据包和所述第四会话数据包为所述待识别的会话数据包中的任一个；所述第一类分类数据包为所述分类数据包中的任一个。

较佳的，划分模块402，还用于：

在将二级网段IP地址相同的会话数据包划分为一类分类数据包之后，根据各个二级网段IP地址对应的分类数据包，确定各个二级网段对应的特征字典；

为各个特征字典分配键值，并将各个分类数据包中的域名作为各个特征字典的值；

根据各个特征字典，确定特征字典集合L；

所述合并模块，具体用于：

从所述特征字典集合L中任意选取一个特征字典S，将所述特征字典S的值与所述特征字典集合L中剩余的特征字典的值逐个进行比对；

确定与所述特征字典S有交集的特征字典D，则将所述特征字典S和所述特征字典D合并为新的特征字典M，且将所述特征字典S对应的分类数据包以及与所述特征字典D对应的分类数据包合并为目标数据包。

较佳的，合并模块403，具体用于：

将所述特征字典S的键值以及与所述特征字典D的键值，确定为所述特征字典M的键值；

将所述特征字典S的值以及所述特征字典D的值合并为所述特征字典M的值。

较佳的，合并模块403，还用于：

从所述特征字典集合L中删除所述特征字典D；

确定所述特征字典M与所述特征字典集合L无交集时，将所述特征字典M从所述特征字典集合L中删除。

较佳的，所述会话数据包为基于HTTP协议的会话数据包。

综上，可以看出，本发明实施例提供的一种应用识别待分析数据包去噪声的方法和装置，由于在获取待识别的会话数据包之后，又将二级网段IP地址相同的会话数据包划分为一类分类数据包，并将包含相同域名的分类数据包合并为目标数据包，因此，能够实现将IP地址、Host字段看似不相关的会话数据包，实则属于同一应用的会话数据包归类为待分析的会话数据包，并根据配置的待查找应用关键词确定目标数据包，最终达到纯化待分析数据包，消除不相关的数据包的目的。即能够纯化数据包，减少不相关的数据包的干扰，使要分析的数据包都属于相同应用的数据包。同时，相对于进程抓包方法需要根据各平台分别实现的特点，上述实施例仅依赖于抓取到的会话数据包，而抓取会话数据包是各平台都很容易实现的，因此具有更好的兼容性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种应用识别待分析数据包去噪声的方法，其特征在于，包括：

获取待识别的会话数据包；

2.如权利要求1所述的方法，其特征在于，所述将二级网段IP地址相同的会话数据包划分为一类分类数据包，包括：

3.如权利要求1所述的方法，其特征在于，在将二级网段IP地址相同的会话数据包划分为一类分类数据包之后，还包括：

根据各个二级网段IP地址对应的分类数据包，确定各个二级网段对应的特征字典；

根据各个特征字典，确定特征字典集合L；

所述将包含相同域名的分类数据包合并为目标数据包，包括：

4.如权利要求3所述的方法，其特征在于，所述将所述特征字典S和所述特征字典D合并为新的特征字典M，包括：

5.如权利要求3所述的方法，其特征在于，还包括：

从所述特征字典集合L中删除所述特征字典D；

6.如权利要求1～5任一项权利要求所述的方法，其特征在于，所述会话数据包为基于HTTP协议的会话数据包。

7.一种应用识别待分析数据包去噪声的装置，其特征在于，包括：

获取模块，用于获取待识别的会话数据包；

8.如权利要求7所述的装置，其特征在于，所述划分模块，具体用于：

9.如权利要求7所述的装置，其特征在于，所述划分模块，还用于：

根据各个特征字典，确定特征字典集合L；

所述合并模块，具体用于：

10.如权利要求9所述的装置，其特征在于，所述合并模块，具体用于：

11.如权利要求9所述的装置，其特征在于，所述合并模块，还用于：

从所述特征字典集合L中删除所述特征字典D；

12.如权利要求7～11任一项权利要求所述的装置，其特征在于，所述会话数据包为基于HTTP协议的会话数据包。