CN112866289B - 一种提取特征规则的方法及系统 - Google Patents

一种提取特征规则的方法及系统 Download PDF

Info

Publication number
CN112866289B
CN112866289B CN202110228881.2A CN202110228881A CN112866289B CN 112866289 B CN112866289 B CN 112866289B CN 202110228881 A CN202110228881 A CN 202110228881A CN 112866289 B CN112866289 B CN 112866289B
Authority
CN
China
Prior art keywords
data packet
address
rule
application
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110228881.2A
Other languages
English (en)
Other versions
CN112866289A (zh
Inventor
胡张伟
尹睿金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Embedway Technologies Shanghai Corp
Original Assignee
Embedway Technologies Shanghai Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Embedway Technologies Shanghai Corp filed Critical Embedway Technologies Shanghai Corp
Priority to CN202110228881.2A priority Critical patent/CN112866289B/zh
Publication of CN112866289A publication Critical patent/CN112866289A/zh
Application granted granted Critical
Publication of CN112866289B publication Critical patent/CN112866289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/18Multiprotocol handlers, e.g. single devices capable of handling multiple protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种提取特征规则的方法及系统,根据待分析应用的数据包的数据,确定数据包的类型,及构建数据包对应的五元组流表;若数据包的类型为DNS,利用数据包的域名和IP地址,结合基于五元组流表构建的地址列表,生成数据包对应的DNS特征规则并将其存储至规则文件;若数据包的类型为HTTP,利用数据包的IP地址,结合地址列表和待分析应用的应用名,生成数据包对应的HTTP特征规则并将其存储至规则文件;若数据包的类型为HTTPS,利用数据包的IP地址,结合地址列表和所述应用名,生成数据包对应的HTTPS特征规则并将其存储至规则文件。不需要人工对数据进行分析,降低分析成本、减少分析时间和提高分析的准确率。

Description

一种提取特征规则的方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种提取特征规则的方法及系统。
背景技术
在分析新的业务需求时,通常需要从某应用的数据流中提取相应的特征规则,再利用提取得到的特征规则来进行业务需求的分析。
目前提取特征规则的方式为:分析人员通过协议分析器抓取目标应用的数据流,人工分析数据流中属于目标应用的特征,最后将该特征生成特定格式的特征规则。但是一方面,应用的种类繁多,需要大量的分析人员来分析不同类型的应用的数据流,分析成本较高,另一方面,分析一个应用的数据流需要较长时间,且人工分析过程中容易遗漏重要数据,导致分析过程所耗费的时间较长和分析数据流的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种提取特征规则的方法及系统,以解决现有提取特征规则的方式存在的分析成本高、分析时间长和分析准确率低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种提取特征规则的方法,所述方法包括:
获取待分析应用的数据包的数据;
根据所述数据包的数据,确定所述数据包的类型,以及构建所述数据包对应的五元组流表,所述数据包的类型为域名系统DNS、超文本传输协议HTTP或超文本传输安全协议HTTPS;
若所述数据包的类型为DNS,利用所述数据包的域名和IP地址,结合基于所述五元组流表所构建的地址列表,生成所述数据包对应的DNS特征规则并将其存储至规则文件中,所述地址列表中存储域名和IP地址的对应关系;
若所述数据包的类型为HTTP,利用所述数据包的IP地址,结合所述地址列表和所述待分析应用的应用名,生成所述数据包对应的HTTP特征规则并将其存储至所述规则文件中;
若所述数据包的类型为HTTPS,利用所述数据包的IP地址,结合所述地址列表和所述应用名,生成所述数据包对应的HTTPS特征规则并将其存储至所述规则文件中。
优选的,所述利用所述数据包的域名和IP地址,结合基于所述五元组流表所构建的地址列表,生成所述数据包对应的DNS特征规则并将其存储至规则文件中,包括:
获取所述数据包的域名和IP地址的对应关系;
若根据所述数据包的域名查询到所述待分析应用的应用名,将所述数据包的域名和IP地址的对应关系存储至基于所述五元组流表所构建的地址列表;
生成所述数据包对应的DNS特征规则并将其存储至规则文件中。
优选的,所述利用所述数据包的IP地址,结合所述地址列表和所述待分析应用的应用名,生成所述数据包对应的HTTP特征规则并将其存储至所述规则文件中,包括:
获取所述数据包的IP地址;
若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的url和host;
若所述数据包的url和/或host中包含所述待分析应用的应用名,基于所述数据包的url和host,生成对应的HTTP特征规则并将其存储至所述规则文件中。
优选的,所述利用所述数据包的IP地址,结合所述地址列表和所述应用名,生成所述数据包对应的HTTPS特征规则并将其存储至所述规则文件中,包括:
获取所述数据包的IP地址;
若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的服务名称;
若所述数据包的服务名称中包含所述应用名,基于所述数据包的服务名称,生成对应的HTTPS特征规则并将其存储至所述规则文件中。
优选的,所述获取待分析应用的数据包的数据,包括:
获取待分析应用的数据流;
解析所述待分析应用的数据流,提取所述待分析应用的数据包的数据。
优选的,所述方法还包括:
对所述规则文件进行去重处理。
本发明实施例第二方面公开一种提取特征规则的系统,所述系统包括:
获取单元,用于获取待分析应用的数据包的数据;
处理单元,用于根据所述数据包的数据,确定所述数据包的类型,以及构建所述数据包对应的五元组流表,所述数据包的类型为域名系统DNS、超文本传输协议HTTP或超文本传输安全协议HTTPS;
第一生成单元,若所述数据包的类型为DNS,利用所述数据包的域名和IP地址,结合基于所述五元组流表所构建的地址列表,生成所述数据包对应的DNS特征规则并将其存储至规则文件中,所述地址列表中存储域名和IP地址的对应关系;
第二生成单元,用于若所述数据包的类型为HTTP,利用所述数据包的IP地址,结合所述地址列表和所述待分析应用的应用名,生成所述数据包对应的HTTP特征规则并将其存储至所述规则文件中;
第三生成单元,用于若所述数据包的类型为HTTPS,利用所述数据包的IP地址,结合所述地址列表和所述应用名,生成所述数据包对应的HTTPS特征规则并将其存储至所述规则文件中。
优选的,所述第一生成单元具体用于:获取所述数据包的域名和IP地址的对应关系;若根据所述数据包的域名查询到所述待分析应用的应用名,将所述数据包的域名和IP地址的对应关系存储至基于所述五元组流表所构建的地址列表;生成所述数据包对应的DNS特征规则并将其存储至规则文件中。
优选的,所述第二生成单元具体用于:获取所述数据包的IP地址;若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的url和host;若所述数据包的url和/或host中包含所述待分析应用的应用名,基于所述数据包的url和host,生成对应的HTTP特征规则并将其存储至所述规则文件中。
优选的,所述第三生成单元具体用于:获取所述数据包的IP地址;若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的服务名称;若所述数据包的服务名称中包含所述应用名,基于所述数据包的服务名称,生成对应的HTTPS特征规则并将其存储至所述规则文件中。
基于上述本发明实施例提供的一种提取特征规则的方法及系统,该方法为:获取待分析应用的数据包的数据;根据数据包的数据,确定数据包的类型,以及构建数据包对应的五元组流表;若数据包的类型为DNS,利用数据包的域名和IP地址,结合基于五元组流表所构建的地址列表,生成数据包对应的DNS特征规则并将其存储至规则文件中;若数据包的类型为HTTP,利用数据包的IP地址,结合地址列表和待分析应用的应用名,生成数据包对应的HTTP特征规则并将其存储至规则文件中;若数据包的类型为HTTPS,利用数据包的IP地址,结合地址列表和所述应用名,生成数据包对应的HTTPS特征规则并将其存储至规则文件中。本方案中,识别待分析应用的数据包的类型,根据数据包的类型,采用对应的方式提取该数据包的特征规则并存储到规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种提取特征规则的方法的流程图;
图2为本发明实施例提供的生成DNS特征规则的流程图;
图3为本发明实施例提供的生成HTTP特征规则的流程图;
图4为本发明实施例提供的生成HTTPS特征规则的流程图;
图5为本发明实施例提供的一种提取特征规则的方法的另一流程图;
图6为本发明实施例提供的一种提取特征规则的系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前在提取特征规则时,通常是分析人员通过协议分析器抓取目标应用的数据流,人工分析数据流中属于目标应用的特征,最后将该特征生成特定格式的特征规则。但是一方面由于应用的种类繁多,需要大量的分析人员来分析不同类型的应用的数据流,分析成本较高,另一方面,分析一个应用的数据流需要较长时间,且人工分析过程中容易遗漏重要数据,导致分析过程所耗费的时间较长和分析数据流的准确率较低。
因此,本发明实施例提供一种提取特征规则的方法及系统,识别待分析应用的数据包的类型,根据数据包的类型,采用对应的方式提取该数据包的特征规则并存储到规则文件中,不需要人工对数据进行分析即可提取特征规则,以降低分析成本、减少分析时间和提高分析的准确率。
可以理解的是,待分析应用的数据流中包含多个数据包,对于每一个数据包,均利用以下本发明实施例提供的提取特征规则的方法,获取该数据包对应的特征规则,具体如何获取数据包对应的特征规则,详见以下实施例所示出的内容。
参见图1,示出了本发明实施例提供的一种提取特征规则的方法的流程图,该方法包括:
步骤S101:获取待分析应用的数据包的数据。
在具体实现步骤S101的过程中,获取待分析应用的数据流和应用名,打开该待分析的数据流,利用包解析模块(比如Python的scapy.PcapReader模块)解析待分析应用的数据流,提取并存储待分析应用的数据包的数据。
需要说明的是,数据包的数据为该数据包的具体内容,数据包的数据的形式通常为二进制数据流。
步骤S102:根据数据包的数据,确定数据包的类型,以及构建数据包对应的五元组流表。若数据包的类型为DNS,执行步骤S103,若数据包的类型为HTTP,执行步骤S104,若数据包的类型为HTTPS,执行步骤S105。
需要说明的是,数据包的类型为域名系统(Domain Name System,DNS)、超文本传输协议(Hypertext Transfer Protocol,HTTP)或超文本传输安全协议(Hyper TextTransfer Protocol over SecureSocketLayer,HTTPS)。
可以理解的是,每种数据类型均存在相应的协议特征,在具体实现步骤S102的过程中,根据数据包的数据,利用包解析模块(比如Python的scapy.PcapReader模块)解析该数据包的数据,即可确定该数据包的类型为DNS、HTTP或HTTPS。
在利用包解析模块确定得到数据包的类型的同时,还能提取得到该数据包的mac地址、IP地址、协议类型和端口号等信息。
需要说明的是,五元组流表为由数据包所包含的原IP地址、目的IP地址、协议号、原端口号和目的端口号构成的一张流表,五元组流表通常用于标识一条传输控制协议(Transmission Control Protocol,tcp)或用户数据报协议(User Datagram Protocol,udp)数据流。
在确定得到数据包的类型时,将该数据包的原IP地址、目的IP地址、协议号、原端口号和目的端口号信息存储至一列表中,从而构建该数据包对应的五元组流表。
步骤S103:若数据包的类型为DNS,利用数据包的域名和IP地址,结合基于五元组流表所构建的地址列表,生成数据包对应的DNS特征规则并将其存储至规则文件中。
需要说明的是,基于数据包的五元组流表构建地址列表,也就是说,该地址列表建立在数据包的五元组流表之上,该地址列表中存储数据包的域名和IP地址之间的对应关系。
在具体实现步骤S103的过程中,利用地址列表、该数据包的域名和IP地址,生成该数据包的DNS特征规则,并将该DNS特征规则存储至预设的指定格式(比如CSV格式)的规则文件中,规则文件的格式根据实际情况进行设置。
步骤S104:若数据包的类型为HTTP,利用数据包的IP地址,结合地址列表和待分析应用的应用名,生成数据包对应的HTTP特征规则并将其存储至规则文件中。
在具体实现步骤S104的过程中,若数据包的类型为HTTP,利用数据包的IP地址、地址列表和待分析应用的应用名,生成该数据包对应的HTTP特征规则,并将该HTTP特征规则存储至规则文件中。
步骤S105:若数据包的类型为HTTPS,利用数据包的IP地址,结合地址列表和应用名,生成数据包对应的HTTPS特征规则并将其存储至规则文件中。
在具体实现步骤S105的过程中,若数据包的类型为HTTPS,利用数据包的IP地址、地址列表和待分析应用的应用名,生成该数据包对应的HTTPS特征规则,并将该HTTPS特征规则存储至规则文件中。
通过上述步骤S101至步骤S105所示出的内容,依次对待分析应用的每个数据包进行处理,生成待分析应用的每个数据包对应的特征规则,并将待分析应用的每个数据包对应的特征规则都存储至规则文件中。
可以理解的是,规则文件中可能出现重复的特征规则,故优选的,对规则文件进行去重处理,得到最终输出的规则文件。
具体对规则文件进行去重处理的方式为:分别遍历DNS字典变量、HTTP字典变量和HTTPS字典变量,对于各个字典变量中具有相同value的数据,仅保留其中一个数据,将其它重复出现的数据从字典变量中删除。
在本发明实施例中,识别待分析应用的数据包的类型,根据数据包的类型,采用对应的方式提取该数据包的特征规则并存储到规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
上述本发明实施例图1步骤S103中涉及的生成数据包的成DNS特征规则的过程,参见图2,示出了本发明实施例提供的生成DNS特征规则的流程图,包括以下步骤:
步骤S201:获取数据包的域名和IP地址的对应关系。
在具体实现步骤S201的过程中,若数据包的类型为DNS,利用DNS解析模块解析该数据包的数据,解析得到该数据包的域名和IP地址的对应关系。
步骤S202:若根据数据包的域名查询到待分析应用的应用名,将数据包的域名和IP地址的对应关系存储至基于五元组流表所构建的地址列表。
在具体实现步骤S202的过程中,利用数据包的域名,从域名查询网站中查询与数据包的域名对应的信息(比如公司和/或网站的名字),若从域名查询网站中查询得到的信息中包含待分析应用的应用名,则将该数据包的域名和IP地址的对应关系存储至地址列表中。
比如:假设待分析应用的应用名为A,该待分析应用的数据包B中包含的域名为XXX,从域名查询网站中查询得到“XXX”所属的公司为A公司,A公司对应的名字中包含待分析应用的应用名,则将数据包B的域名和IP地址的对应关系存储至地址列表中。
同理,若从域名查询网站中查询得到的信息中不包含待分析应用的应用名,则不进行后续处理。
步骤S203:生成数据包对应的DNS特征规则并将其存储至规则文件中。
在具体实现步骤S203的过程中,将数据包的域名按照指定格式输出,生成数据包对应的DNS特征规则,并将该DNS特征规则存储到规则文件中。
需要说明的是,该指定格式为protocol+value,则DNS特征规则的形式为:NDS={rule1:xxx;rule2:xxxx},具体的DNS特征规则的形式只需包含DNS和对应的域名即可,在本发明实施例不做具体限定。
在本发明实施例中,若数据包的类型为DNS,且利用该数据包的域名从域名查询网站中查询得到待分析应用的应用名,生成数据包对应的DNS特征规则并将其存储至规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
上述本发明实施例图1步骤S104中涉及的生成数据包的成HTTP特征规则的过程,参见图3,示出了本发明实施例提供的生成HTTP特征规则的流程图,包括以下步骤:
步骤S301:获取数据包的IP地址。
在具体实现步骤S301的过程中,若数据包的类型为HTTP,解析该数据包的数据获取得到该数据包的IP地址。
步骤S302:若确定地址列表中存在数据包的IP地址,获取数据包的url和host。
在具体实现步骤S302的过程中,利用上述本发明实施例图1和图2中提及的地址列表,确定该地址列表中是否存在数据包的IP地址。
若该地址列表中存在该数据包的IP地址,则说明该数据包属于待分析应用,利用HTTP解析模块解析类型为HTTP的数据包,获取该数据包中的url和host。
若该地址列表中不存在该数据包的IP地址,则说明该数据包不属于待分析应用,此时对该数据包不进行后续处理。
步骤S303:若数据包的url和/或host中包含待分析应用的应用名,基于数据包的url和host,生成对应的HTTP特征规则并将其存储至规则文件中。
在具体实现步骤S303的过程中,确定数据包的url和host中是否包含待分析应用的应用名,若数据包的url和/或host中包含待分析应用的应用名,基于数据包的url和host,生成对应的HTTP特征规则,将该HTTP特征规则存储至规则文件中。
HTTP特征规则的形式为:HTTP={url1:xxx;host1:xxx;url2:xxx;host2:xxx},具体的形式在本发明实施例中不做限定。
若数据包的url和host中均不包含待分析应用的应用名,则对该数据包不进行后续处理。
在本发明实施例中,若数据包的类型为HTTP,利用数据包的IP地址获取相应的url和host,若数据包的url和/或host中包含待分析应用的应用名,则生成对应的HTTP特征规则并将其存储至规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
上述本发明实施例图1步骤S105中涉及的生成数据包的成HTTPS特征规则的过程,参见图4,示出了本发明实施例提供的生成HTTPS特征规则的流程图,包括以下步骤:
步骤S401:获取数据包的IP地址。
在具体实现步骤S401的过程中,若数据包的类型为HTTPS,解析该数据包的数据获取得到该数据包的IP地址。
步骤S402:若确定地址列表中存在数据包的IP地址,获取数据包的服务名称。
在具体实现步骤S402的过程中,利用上述本发明实施例图1和图2中提及的地址列表,确定该地址列表中是否存在数据包的IP地址。
若该地址列表中存在该数据包的IP地址,则说明该数据包属于待分析应用,利用HTTPS解析模块解析类型为HTTPS的数据包,获取该数据包的服务名称(servername)。
若该地址列表中不存在该数据包的IP地址,则说明该数据包不属于待分析应用,此时对该数据包不进行后续处理,
步骤S403:若数据包的服务名称中包含应用名,基于数据包的服务名称,生成对应的HTTPS特征规则并将其存储至规则文件中。
在具体实现步骤S403的过程中,确定数据包的服务名称中是否包含待分析应用的应用名,若数据包的服务名称中包含待分析应用的应用名,基于数据包的服务名称,生成对应的HTTPS特征规则,并将该HTTPS特征规则存储至规则文件中。
HTTPS特征规则的形式为:HTTPS={servername1:xxx;servername2:xxx},具体的形式在本发明实施例中不做限定。
若数据包的服务名称中不包含待分析应用的应用名,则对该数据包不进行后续处理。
在本发明实施例中,若数据包的类型为HTTPS,利用数据包的IP地址获取相应的服务名称,若数据包的服务名称中包含待分析应用的应用名,则生成对应的HTTPS特征规则并将其存储至规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
为更好解释说明上述本发明实施例图1至图4示出的内容,通过图5进行举例说明,参见图5,示出了本发明实施例提供的一种提取特征规则的方法的另一流程图,包括以下步骤:
步骤S501:获取待分析应用的一个数据包的数据,并确定该数据包的类型。若该数据包的类型为DNS,执行步骤S502至步骤S505,若该数据包的类型为HTPP,执行步骤S506至步骤S508,若该数据包的类型为HTPPS,执行步骤S509至步骤S511。
步骤S502:获取数据包的域名和IP地址的对应关系。
步骤S503:从域名查询网站中查询与该数据包的域名对应的公司名称和网站名称。若查询得到的公司名称和/或网站名称中包含待分析应用的应用名,执行步骤S504。
步骤S504:将数据包的域名和IP地址的对应关系存储至地址列表。
步骤S505:生成数据包对应的DNS特征规则并将其存储至规则文件中,执行步骤S512。
步骤S506:获取数据包的IP地址。
步骤S507:若确定步骤S504所涉及的地址列表中存在数据包的IP地址,获取数据包的url和host。
步骤S508:若数据包的url和/或host中包含待分析应用的应用名,基于数据包的url和host,生成对应的HTTP特征规则并将其存储至规则文件中,执行步骤S512。
步骤S509:获取数据包的IP地址。
步骤S510:若确定步骤S504所涉及的地址列表中存在数据包的IP地址,获取数据包的服务名称。
步骤S511:若数据包的服务名称中包含待分析应用的应用名,基于数据包的服务名称,生成对应的HTTPS特征规则并将其存储至规则文件中,执行步骤S512。
步骤S512:确定数据包是否为待分析应用的数据流中的最后一个数据包。若是,输出格式为CSV格式的最终的规则文件,若否,返回执行步骤S501,继续获取下一个数据包的数据并对其进行后续处理。
需要说明的是,步骤S501至步骤S512的执行原理,可参见上述本发明实施例图1至图4示出的内容,在此不再赘述。
与上述本发明实施例提供的一种提取特征规则的方法相对应,参见图6,本发明实施例还提供了一种提取特征规则的系统的结构框图,该系统包括:获取单元601、处理单元602、第一生成单元603、第二生成单元604和第三生成单元605;
获取单元601,用于获取待分析应用的数据包的数据。
在具体实现中,获取单元601具体用于:获取待分析应用的数据流,解析待分析应用的数据流,提取待分析应用的数据包的数据。
处理单元602,用于根据数据包的数据,确定数据包的类型,以及构建数据包对应的五元组流表,数据包的类型为DNS、HTTP或HTTPS。
第一生成单元603,若数据包的类型为DNS,利用数据包的域名和IP地址,结合基于五元组流表所构建的地址列表,生成数据包对应的DNS特征规则并将其存储至规则文件中,地址列表中存储域名和IP地址的对应关系。
在具体实现中,第一生成单元603具体用于:获取数据包的域名和IP地址的对应关系;若根据数据包的域名查询到待分析应用的应用名,将数据包的域名和IP地址的对应关系存储至基于五元组流表所构建的地址列表;生成数据包对应的DNS特征规则并将其存储至规则文件中。
第二生成单元604,用于若数据包的类型为HTTP,利用数据包的IP地址,结合地址列表和待分析应用的应用名,生成数据包对应的HTTP特征规则并将其存储至规则文件中。
在具体实现中,第二生成单元604具体用于:获取数据包的IP地址;若确定地址列表中存在数据包的IP地址,获取数据包的url和host;若数据包的url和/或host中包含待分析应用的应用名,基于数据包的url和host,生成对应的HTTP特征规则并将其存储至规则文件中。
第三生成单元605,用于若数据包的类型为HTTPS,利用数据包的IP地址,结合地址列表和所述应用名,生成数据包对应的HTTPS特征规则并将其存储至规则文件中。
在具体实现中,第三生成单元605具体用于:获取数据包的IP地址;若确定地址列表中存在数据包的IP地址,获取数据包的服务名称;若数据包的服务名称中包含应用名,基于数据包的服务名称,生成对应的HTTPS特征规则并将其存储至规则文件中。
在本发明实施例中,识别待分析应用的数据包的类型,根据数据包的类型,采用对应的方式提取该数据包的特征规则并存储到规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
优选的,结合图6示出的内容,该系统还包括:
去重复单元,用于对规则文件进行去重处理。
综上所述,本发明实施例提供一种提取特征规则的方法及系统,识别待分析应用的数据包的类型,根据数据包的类型,采用对应的方式提取该数据包的特征规则并存储到规则文件中,不需要人工对数据进行分析即可提取特征规则,降低分析成本、减少分析时间和提高分析的准确率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种提取特征规则的方法,其特征在于,所述方法包括:
获取待分析应用的数据包的数据;
根据所述数据包的数据,确定所述数据包的类型,以及构建所述数据包对应的五元组流表,所述数据包的类型为域名系统DNS、超文本传输协议HTTP或超文本传输安全协议HTTPS;
若所述数据包的类型为DNS,获取所述数据包的域名和IP地址的对应关系;
若根据所述数据包的域名查询到所述待分析应用的应用名,将所述数据包的域名和IP地址的对应关系存储至基于所述五元组流表所构建的地址列表;
生成所述数据包对应的DNS特征规则并将其存储至规则文件中,所述地址列表中存储域名和IP地址的对应关系;
若所述数据包的类型为HTTP,获取所述数据包的IP地址;
若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的url和host;
若所述数据包的url和/或host中包含所述待分析应用的应用名,基于所述数据包的url和host,生成对应的HTTP特征规则并将其存储至所述规则文件中;
若所述数据包的类型为HTTPS,获取所述数据包的IP地址;
若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的服务名称;
若所述数据包的服务名称中包含所述应用名,基于所述数据包的服务名称,生成对应的HTTPS特征规则并将其存储至所述规则文件中。
2.根据权利要求1所述的方法,其特征在于,所述获取待分析应用的数据包的数据,包括:
获取待分析应用的数据流;
解析所述待分析应用的数据流,提取所述待分析应用的数据包的数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述规则文件进行去重处理。
4.一种提取特征规则的系统,其特征在于,所述系统包括:
获取单元,用于获取待分析应用的数据包的数据;
处理单元,用于根据所述数据包的数据,确定所述数据包的类型,以及构建所述数据包对应的五元组流表,所述数据包的类型为域名系统DNS、超文本传输协议HTTP或超文本传输安全协议HTTPS;
第一生成单元,若所述数据包的类型为DNS,利用所述数据包的域名和IP地址,结合基于所述五元组流表所构建的地址列表,生成所述数据包对应的DNS特征规则并将其存储至规则文件中,所述地址列表中存储域名和IP地址的对应关系;
第二生成单元,用于若所述数据包的类型为HTTP,利用所述数据包的IP地址,结合所述地址列表和所述待分析应用的应用名,生成所述数据包对应的HTTP特征规则并将其存储至所述规则文件中;
第三生成单元,用于若所述数据包的类型为HTTPS,利用所述数据包的IP地址,结合所述地址列表和所述应用名,生成所述数据包对应的HTTPS特征规则并将其存储至所述规则文件中;
所述第一生成单元具体用于:获取所述数据包的域名和IP地址的对应关系;若根据所述数据包的域名查询到所述待分析应用的应用名,将所述数据包的域名和IP地址的对应关系存储至基于所述五元组流表所构建的地址列表;生成所述数据包对应的DNS特征规则并将其存储至规则文件中;
所述第二生成单元具体用于:获取所述数据包的IP地址;若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的url和host;若所述数据包的url和/或host中包含所述待分析应用的应用名,基于所述数据包的url和host,生成对应的HTTP特征规则并将其存储至所述规则文件中;
所述第三生成单元具体用于:获取所述数据包的IP地址;若确定所述地址列表中存在所述数据包的IP地址,获取所述数据包的服务名称;若所述数据包的服务名称中包含所述应用名,基于所述数据包的服务名称,生成对应的HTTPS特征规则并将其存储至所述规则文件中。
CN202110228881.2A 2021-03-02 2021-03-02 一种提取特征规则的方法及系统 Active CN112866289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110228881.2A CN112866289B (zh) 2021-03-02 2021-03-02 一种提取特征规则的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110228881.2A CN112866289B (zh) 2021-03-02 2021-03-02 一种提取特征规则的方法及系统

Publications (2)

Publication Number Publication Date
CN112866289A CN112866289A (zh) 2021-05-28
CN112866289B true CN112866289B (zh) 2022-09-30

Family

ID=75990896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228881.2A Active CN112866289B (zh) 2021-03-02 2021-03-02 一种提取特征规则的方法及系统

Country Status (1)

Country Link
CN (1) CN112866289B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873320A (zh) * 2013-12-27 2014-06-18 北京天融信科技有限公司 加密流量识别方法及装置
CN106713260A (zh) * 2013-12-27 2017-05-24 恒为科技(上海)股份有限公司 一种用于虚拟专用拨号网中动态数据注入的方法
CN111526101A (zh) * 2020-04-16 2020-08-11 华北电力大学 一种基于机器学习的物联网动态流量分类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035696B (zh) * 2010-12-22 2012-10-03 中国工商银行股份有限公司 一种网站访问性能监测方法、装置及系统
CN103916294B (zh) * 2014-04-29 2018-05-04 华为技术有限公司 协议类型的识别方法和装置
CN104320304B (zh) * 2014-11-04 2017-11-28 武汉虹信技术服务有限责任公司 一种易扩展的多方式融合的核心网用户流量应用识别方法
CN108289093B (zh) * 2017-12-29 2021-09-17 北京拓明科技有限公司 App应用特征码库的构建方法及构建系统
CN109600317B (zh) * 2018-11-25 2022-05-17 北京亚鸿世纪科技发展有限公司 一种自动识别流量并提取应用规则的方法及装置
CN109756512B (zh) * 2019-02-14 2021-08-13 深信服科技股份有限公司 一种流量应用识别方法、装置、设备及存储介质
CN111222019B (zh) * 2019-12-17 2022-09-06 山石网科通信技术股份有限公司 特征提取的方法和装置
CN111740923A (zh) * 2020-06-22 2020-10-02 北京神州泰岳智能数据技术有限公司 应用识别规则的生成方法、装置、电子设备和存储介质
CN112019449B (zh) * 2020-08-14 2022-06-17 四川电科网安科技有限公司 流量识别抓包方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873320A (zh) * 2013-12-27 2014-06-18 北京天融信科技有限公司 加密流量识别方法及装置
CN106713260A (zh) * 2013-12-27 2017-05-24 恒为科技(上海)股份有限公司 一种用于虚拟专用拨号网中动态数据注入的方法
CN111526101A (zh) * 2020-04-16 2020-08-11 华北电力大学 一种基于机器学习的物联网动态流量分类方法

Also Published As

Publication number Publication date
CN112866289A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
US10084713B2 (en) Protocol type identification method and apparatus
US20180152468A1 (en) Processing network data using a graph data structure
CN110808879B (zh) 一种协议识别方法、装置、设备及可读存储介质
US20120182891A1 (en) Packet analysis system and method using hadoop based parallel computation
CN104283723B (zh) 网络访问日志处理方法及装置
CN103297270A (zh) 应用类型识别方法及网络设备
CN110855576A (zh) 应用识别方法及装置
CN102546854A (zh) 一种域名和服务器建立http连接的域名解析方法
JP2009527950A5 (zh)
US7907543B2 (en) Apparatus and method for classifying network packet data
US8782092B2 (en) Method and apparatus for streaming netflow data analysis
WO2009038384A1 (en) Query processing system and methods for a database with packet information by dividing a table and query
CN112866289B (zh) 一种提取特征规则的方法及系统
CN113055420B (zh) Https业务识别方法、装置及计算设备
CN114020734A (zh) 一种流量统计去重方法及装置
CN106878308B (zh) 一种icmp报文匹配系统及方法
CN113973111B (zh) 数据转发方法、装置、网关设备及计算机可读存储介质
CN111200666A (zh) 用于识别访问域名的方法和系统
CN114153807A (zh) 报文处理方法、装置、电子设备和计算机可读存储介质
KR100723577B1 (ko) 키워드 처리시스템, 키워드 처리방법 및 이를 실행시키기위한 프로그램을 기록한 기록매체
Castiglione et al. Device tracking in private networks via napt log analysis
CN110620682B (zh) 资源信息的获取方法及装置、存储介质、终端
CN108011989B (zh) 一种重定向方法及装置
CN101599960A (zh) 一种基于协议分析的p2p流量识别方法
CN110798542A (zh) 一种获取ip地址的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant