CN111163184B - 一种报文特征的提取方法和装置 - Google Patents

一种报文特征的提取方法和装置 Download PDF

Info

Publication number
CN111163184B
CN111163184B CN201911357126.3A CN201911357126A CN111163184B CN 111163184 B CN111163184 B CN 111163184B CN 201911357126 A CN201911357126 A CN 201911357126A CN 111163184 B CN111163184 B CN 111163184B
Authority
CN
China
Prior art keywords
message
domain name
target
packet
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911357126.3A
Other languages
English (en)
Other versions
CN111163184A (zh
Inventor
林嘉琳
魏方征
汪庆权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN201911357126.3A priority Critical patent/CN111163184B/zh
Publication of CN111163184A publication Critical patent/CN111163184A/zh
Application granted granted Critical
Publication of CN111163184B publication Critical patent/CN111163184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/306Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information intercepting packet switched data communications, e.g. Web, Internet or IMS communications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种报文特征的提取方法和装置。一种报文特征的提取方法,所述方法包括:对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。上述方案可根据预设字段自动提取各个域名对应的报文特征,相比于现有技术可显著提高报文特征的提取效率。

Description

一种报文特征的提取方法和装置
技术领域
本申请涉及网络通信领域,特别涉及一种报文特征的提取方法及装置。
背景技术
随着网络的发展,网络上为用户提供的服务种类越来越多,例如网络游戏、网络购物、在线观影等等,这些不同的网络服务会产生不同的流量。在一些场景中,有必要对流量进行识别、管理。例如,在企业中,员工可以利用网络通信促进信息交流,也能基于网络服务处理业务,但若员工利用网络打游戏、观看娱乐电影,则会影响员工的正常工作,浪费企业带宽。因此,企业有必要对网络游戏、娱乐电影相关的流量进行识别,以对其进行拦截等。
不同流量具有不同的特征,可以根据不同的特征对流量进行识别。特征一般通过提取报文中的字段得到。现有的提取特征的方法主要是在网络流量中随机抓包,并由操作人员从抓到的报文中筛选出一些字段,若推测这些字段为目标流量的特征,则继续抓取大量的报文以验证推测结果是否正确。可见,采用上述方法需要耗费大量的人工劳动力来不断地抓包、不断地验证,提取特征的效率十分低下。
发明内容
有鉴于此,本申请提供一种报文特征的提取方法和装置。
具体地,本申请是通过如下技术方案实现的:
一种报文特征的提取方法,包括:
对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;
基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;
针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
一种报文特征的提取装置,包括:
解析单元,用于对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;
划分单元,用于基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;
提取单元,用于针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
本申请提供了一种报文特征的提取方法,可以先对DNS报文进行域名解析,得到域名与IP地址的对应关系,基于所述对应关系,将IP地址匹配相同域名的目标报文划分到相同的报文集合中,然后针对每个报文集合,提取各个目标报文预设字段,作为该报文集合域名对应的报文特征。上述方法可根据预设字段自动提取各个域名对应的报文特征,相比于人工提取报文特征,可显著提高报文特征的提取效率。
附图说明
图1是本申请一示例性实施例示出的一种报文特征的提取方法的流程示意图;
图2是本申请一示例性示出的一种本地报文特征的提取方法流程示意图;
图3是本申请一示例性示出的一种在线报文特征的提取方法流程示意图;
图4是本申请一示例性示出的一种用于报文特征的提取装置的一结构示意图;
图5是本申请一示例性实施例示出的一种报文特征的提取装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着网络的发展,网络上为用户提供的服务种类越来越多,不同的网络服务会产生不同的流量。在一些场景中,有必要对不同的流量进行识别,以拦截受限制的流量。不同流量具有不同的特征,可以根据特征对流量进行识别。
特征一般可以通过提取报文中的特定字段得到。现有的提取特征的方法主要是在网络流量中随机抓包,并由操作人员对抓到的报文进行分析,推测报文中可能为特征的字段,并继续抓取大量的报文以验证推测结果是否正确。可见,采用上述方法需要耗费大量的人工劳动力来不断地抓包、不断地验证,提取报文特征的效率十分低下。
本申请提供了一种报文特征的提取方法和装置。
图1是本申请一示例性实施例示出的一种报文特征的提取方法的流程示意图。
所述报文特征的提取方法可以应用于具有处理器、存储器的电子设备中,例如服务器或服务器集群等,本申请对此不作特殊限制。
请参考图1,所述报文特征的提取方法可以包括以下步骤:
步骤102,对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系。本申请中,可通过端口号区分DNS(Domain Name System,域名协议系统)报文。例如,将端口号为53的目标报文确定为DNS报文。
本申请中,域名解析的具体方法参照现有技术,在此不作过多说明。
本申请中,对所述DNS报文进行域名解析,可得域名和该域名对应的IP地址。一个域名可以对应一个IP地址,也可以对应多个IP地址。
例如,对一DNS报文解析得到的域名为:“www.baidu.com”,对应该域名的两个IP地址为:115.239.210.27、115.239.211.112。采用上述方法可解析得到多个域名以及各个域名对应的IP地址。
步骤104,基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合。
本申请中,目标报文可以为TCP(Transmission Control Protocol,传输控制协议)报文,也可以为UDP(User Datagram Protocol,用户数据报协议)报文等,本申请对此不作特殊限制。
在一个例子中,所述目标报文可以为本地报文。
在另一个例子中,所述目标报文也可以为在线报文。所述在线报文可以为通过实时抓包获取的报文。
本申请中,可基于域名解析得到的域名与IP地址的对应关系,根据目标报文的IP地址确定所述目标报文对应的域名,然后将域名相同的目标报文划分到同一个报文集合中。
仍以上述域名:“www.baidu.com”为例,域名解析得到对应该域名的两个IP地址为:115.239.210.27、115.239.211.112。则可将IP地址(源IP地址或目的IP地址)为115.239.210.27、115.239.211.112的目标报文均划分到同一个报文集合中,该报文集合与域名www.baidu.com对应。
在实际应用中,还可以基于域名文件夹来实现报文集合的划分,将所述报文集合中的目标报文添加到对应的域名文件夹中。所述域名文件夹可以命名为对应的域名,例如:www.baidu.com、www.sohu.com。
本申请中,如果目标报文的IP地址(源IP地址或目的IP地址)与上述域名解析得到的IP地址均不相同,则还可将所述目标报文按照协议类型分别归入TCP报文集合、UDP报文集合等。
仍以上述域名:“www.baidu.com”为例,域名解析得到对应该域名的两个IP地址为:115.239.210.27、115.239.211.112。假设存在一个目标报文的目的IP地址为115.239.200.200,源IP地址为192.168.5.12,则所述目标报文的源IP地址、目的IP地址与上述域名解析得到的两个IP地址均不相同,则将所述目标报文按照协议类型归入TCP报文集合或UDP报文集合。
在实际应用中,当目标报文为在线报文时,即通过在线实时抓包获取的报文。正常情况下,抓包得到的报文包括DNS报文及目标报文,但由于抓包得到的报文为流经网卡的部分报文,在抓包过程中可能未抓取到DNS报文,只抓取到目标报文,导致所述目标报文的IP地址可能与上述域名解析得到的IP地址不同,可将所述目标报文按照协议类型归类。
本申请中,还可以判断目标报文对应的域名是否匹配预设的域名,过滤不匹配预设域名的目标报文,所述预设的域名通常是需要进行报文特征提取的域名。
在一个例子中,可以在报文集合划分前,判断所述目标报文是否匹配预设的域名,然后对匹配预设域名的目标报文执行报文集合划分的步骤。
例如,预设的域名为www.baidu.com和www.sohu.com,即需要提取的报文特征为“百度”和“搜狐”相关流量的特征。假设步骤102中域名解析得到:www.baidu.com对应的IP地址为:115.239.210.27、115.239.211.112;www.sohu.com对应的IP地址为115.239.212.107;www.qq.com对应的IP地址为115.239.213.450。则可以提取出IP地址匹配预设域名的目标报文,然后对提取出的目标报文进一步按照对应的域名归入“百度”报文集合或“搜狐”报文集合。若某一目标报文的目的IP地址为115.239.213.450,对应QQ域名,而QQ不是预设域名,即本次无需提取QQ域名的报文特征,则可过滤掉该目标报文,对该目标报文无需进行报文集合划分。
在另一个例子中,也可以在报文集合划分后,判断所述报文集合是否匹配预设的域名,针对匹配预设域名的报文集合执行后续步骤。
例如,已划分下列两个报文集合,分别为:www.baidu.com对应的报文集合和www.sohu.com对应的报文集合,假设预设域名为www.baidu.com,则对于此次报文特征提取,选择www.baidu.com对应的报文集合进行后续操作。而对于www.sohu.com对应的报文集合,也可以暂时保留,以便下次报文特征提取。
步骤106,针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
本申请中,可根据目标报文的协议类型确定预设字段。
在一个例子中,所述目标报文的协议类型为HTTP(Hyper Text TransferProtocol,超文本传输协议),则预设字段可以为请求头中的字段,例如请求方法、Host(域名服务器)和UA(User-Agent,用户代理)字段等。
例如,一目标报文的请求头内容为:
{GET/qqfile/status/wx.png HTTP/1.1
Accept:*/*
User-Agent:Mazille/4.0(compatible;MSIE 6.0;Windows NT 5.1)
Host:dldir1.qq.com
Pragma:no-cache}
则可以提取该请求头中请求方法字段:GET/qqfile/status/wx.png HTTP/1.1、Host字段:Host:dldir1.qq.com、UA字段:User-Agent:Mazille/4.0(compatible;MSIE6.0;Windows NT 5.1)作为报文特征。
在另一例子中,所述目标报文的协议类型为HTTPS(Hyper Text TransferProtocol over SecureSocket Layer,超文本传输安全协议),则预设字段可以为servername(服务器)字段等。
在其它例子中,所述目标报文的协议类型为TCP或DUP,且所述目标报文的IP地址与域名解析得到的IP地址均不相同,则可将所述目标报文与其报文流中的首个报文进行比较,将两者相同的字段作为报文特征。
例如,所述目标报文中的部分字段为:02 37 0f 00 81 09 4b 27;所述报文流中的首个报文对应部分的字段为:02 37 0f 00 81 dd bc 27,则可将上述两个字段中相同的部分:02 37 0f 00 81作为所述目标报文的报文特征。
本申请中,步骤104中划分报文集合前,还可以将目标报文按照流进行切分,即按照五元组进行切分,切分得到一条或多条报文流。然后基于每条报文流的IP地址,确定所述报文流对应的域名,然后将域名相同的报文流中的目标报文划分到相同的报文集合中。
对目标报文先按照流进行切分,可把IP地址相同的目标报文都归入同一个报文流,然后基于报文流进行报文集合的划分,无需逐个判断目标报文,大大提升了报文集合的划分效率。
本申请中,由于报文流的前几个报文中就存在报文特征,提取所述前几个报文中的报文特征就可作为对应域名的报文特征,因此还可以针对每个报文流,只保留前几个目标报文,然后对保留的目标报文进行后续报文特征提取。
例如,可以针对每个目标报文,判断所述目标报文在其报文流中的计数是否大于阈值,过滤大于所述阈值的目标报文。所述阈值可以人为设置,本申请对此不作特殊限制。
例如,在执行步骤104之前,可以将目标报文按照流进行切分,得到若干条报文流,然后过滤每个报文流中计数大于所述阈值的目标报文,然后基于域名解析得到的域名与IP地址的对应关系,将过滤后的匹配相同域名的报文流划分到相同的集合中,得到若干报文集合。
当然,在实际应用中,也可以在步骤104之后将目标报文按照流进行切分,即针对每个报文集合,判断所述报文集合中各个目标报文在其报文流中的计数是否大于阈值,过滤大于阈值的目标报文。然后提取过滤后的各报文集合中目标报文的预设字段,作为该报文集合域名对应的报文特征。本申请对此不作特殊限制。
由以上描述可知,本申请提供的报文特征的提取方法可以先对DNS报文进行域名解析,得到域名与IP地址的对应关系,基于所述对应关系,将IP地址匹配同一个域名的目标报文划分到同一个的报文集合中,然后针对每个报文集合,提取各个目标报文预设字段,作为该报文集合域名对应的报文特征。上述方法可根据预设字段自动提取各个域名对应的报文特征,相比于人工提取报文特征,可显著提高报文特征的提取效率。
下面结合一个具体的实施例对本申请报文特征的提取方法进行说明。
请参考图2,图2为本申请一示例性示出的一种本地报文特征的提取方法流程示意图。
所述本地报文特征的提取方法可以应用于服务器。所述本地报文特征的提取方法可以包括以下步骤:
步骤202,获取DNS报文,对所述DNS报文进行域名解析。本例中,获取DNS报文,对所述DNS报文进行域名解析,得到域名与IP地址的对应关系。
例如,对所述DNS报文进行域名解析,得到下述域名与IP地址的对应关系:
域名www.baidu.com,对应的IP地址:115.239.210.27、115.239.211.112。
域名www.wangyi.com,对应的IP地址:115.239.1.1、115.239.1.2、115.239.1.3
域名www.qq.com,对应的IP地址:115.239.213.450。
步骤204,获取若干本地报文,所述本地报文为待提取特征的报文。
步骤206,将所述本地报文按照流进行切分,保留每条流中的前20个报文。
步骤208,将域名相同的本地报文划分到同一个域名文件夹中,得到若干个域名文件夹。
仍以步骤202中得到的对应关系为例,可分别为每个域名建立一个域名文件夹,即得到域名为www.baidu.com的文件夹1、域名为www.wangyi.com的文件夹2,域名为www.qq.com的文件夹3。
将域名为www.baidu.com的本地报文都归入文件夹1,即将IP地址(源IP地址或目的IP地址)为115.239.210.27、115.239.211.112的本地报文归入文件夹1;将域名为www.wangyi.com的本地报文都归入文件夹2,即将IP地址(源IP地址或目的IP地址)为115.239.1.1、115.239.1.2、115.239.1.3的本地报文归入文件夹2;将域名为www.qq.com的本地报文都归入文件夹3,即将IP地址(源IP地址或目的IP地址)为115.239.213.450的本地报文归入文件夹3。
值得说明的是,若DNS报文经域名解析后得到的域名为www.film.baidu.com、www.xinwen.baidu.com,这两个域名都属于百度,可将IP地址与上述两个域名对应的本地报文都归入www.baidu.com域名文件夹。
当然,也可以为域名为www.film.baidu.com和www.xinwen.baidu.com分别创建文件夹,本申请对此不作特殊限制。
步骤210,提取预设域名对应的域名文件夹中各个本地报文的预设字段,作为预设域名的报文特征。
以步骤208中得到的三个域名文件夹为例,假设预设域名为www.baidu.com、www.qq.com,则对域名为www.baidu.com的文件夹1和域名为www.qq.com的文件夹3中的本地报文提取特征。
本例中,假设文件夹1中的报文均为HTTP报文,预设字段为请求方法字段、Host字段和UA字段;文件夹3中的报文均为HTTPS报文,预设字段为server name字段,则可分别提取文件夹1、文件夹3中的上述字段作为各自域名对应的报文特征。
步骤214,将提取到的报文特征以正则表达式的形式整合。
本例中,提取所述域名文件夹中各个目标报文的预设字段后,还可将提取到的报文特征以正则表达式的形式整合。
以步骤212中的文件夹1为例,表1示意性地示出了一种提取到的报文特征(只示意性地示出了5个目标报文的报文特征):
Figure BDA0002336231470000091
Figure BDA0002336231470000101
表1
则分别将表1中请求方法、Host字段、UA字段以正则表达式的形式整合,得到:
对于请求方法字段,由于上述五个目标报文都具有相同的部分内容:GET/baidu.com/,因此可提取出相同内容,删除不同的内容,将请求方法字段的报文特征归纳为:GET/baidu.com/。
对于Host字段,由于上述五个目标报文都具有相同的部分内容:Host:baidu.cdn_.com,而仅在下划线处不同,因此可将Host字段的报文特征归纳为:Host:baidu.cdn\d.com,此处\d可代表0-9任何一个数字。
对于UA字段,由于上述五个目标报文都相同,因此可将UA字段的报文特征归纳为:User-Agent:Baidu。
通过上述方法,可以提取本地报文的报文特征,并且可以根据不同字段的特征,将提取到的报文特征以正则表达式的形式整合,可以清楚地表示不同域名、不同协议类型对应的报文特征,便于对不同的报文特征进行比较、汇总等。
请参考图3,图3为本申请一示例性示出的一种在线报文特征的提取方法流程示意图。
所述在线报文特征的提取方法可以应用于服务器。所述在线报文特征的提取方法可以包括以下步骤:
步骤302,获取抓包得到的在线报文。
本例中,可以实时抓取流经网卡的在线报文。
本例中,假设需要提取的为搜狐相关流量的报文特征,则可以由操作人员不断地点击搜狐相关的页面。在该应用场景下,流经网卡的流量大部分为搜狐相关流量,也可能存在小部分其它流量。
步骤304,提取所述在线报文的五元组,判断所述五元组是否命中会话表。若是,则执行步骤308,若不是,则执行步骤306。
本例中,所述会话表还可包括报文计数值和flag值两个字段。表2示意性地示出了一种会话表:
项目/报文流 报文流1 报文流2 报文流3
源IP 192.168.5.12 192.168.5.13 115.239.211.58
目的IP 115.239.210.27 115.239.211.112 192.168.5.14
源端口 20 15 80
目的端口 21 30 55
协议类型 HTTP HTTPS UDP
计数值 12 0 0
flag值 1 -1 0
表2
其中,计数值用于记录对应会话表项的报文计数。flag值用于记录对应会话的在线报文是否已提取特征,flag值为0,表示尚未对属于该会话的在线报文进行特征提取;flag值为1,表示已对属于该会话的在线报文进行特征提取;flag值为-1,表示不需要提取属于该会话的在线报文的特征。所述计数值与flag值的初始值均为0。
本例中,可根据在线报文的五元组判断所述在线报文是否命中会话表。
步骤306,在所述会话表中新建会话表项。
若所述在线报文的五元组未命中所述会话表,则在所述会话表中新建一条对应所述五元组的会话表项,并将所述会话表项中的计数值和flag值都置为初始值0。
初始值设置后,可直接执行步骤312。
步骤308,获取所述在线报文对应会话的计数值,判断所述计数值是否大于20。若是,无须分析,计数值+1;若否,执行步骤310。
本例中,20为预设的阈值,对于报文流,只提取20个报文的报文特征。
本例中,可获取所述在线报文对应会话表项的计数值,判断所述计数值是否大于20。
若大于20,则确定所述在线报文对应的报文流已提取足够的特征,无须继续提取,可将对应会话的计数值+1,并结束流程。若小于20,则执行步骤310。
步骤310,获取所述在线报文的flag值。若flag值为1,执行步骤316。若flag值为-1,说明所述在线报文无须分析;若flag值为0,执行步骤312。
本例中,可从在线报文对应的会话表项中获取flag值。
步骤312,将所述在线报文的各个字段与废弃字段进行比较,判断是否存在相同字段。若相同,则执行步骤314,无须分析,置flag值为-1;若不相同,执行步骤316。
本例中,若所述在线报文在步骤304中未命中会话表,则置flag值为初始值0,可直接执行本步骤。
本例中,可将所述在线报文的各个字段与废弃字段进行比较,若所述在线报文中存在与废弃字段相同的字段,则确定所述在线报文无须分析。所述废弃字段可以人为预设,通常是无需进行特征提取的报文所具有的字段。
例如,假设当前环境下,需要提取的为搜狐相关流量的报文特征,则操作人员可以不断地点击搜狐相关的页面。此时,流经网卡的流量大部分为搜狐相关流量。
但在当前环境下,可能同时存在一些不可避免的百度相关流量,则可将百度相关报文中的部分字段作为所述废弃字段。所述百度相关流量的部分字段用于识别百度相关流量,可人为预先指定。
可将百度相关报文的部分字段与所述在线报文的各个字段进行比较,若相同,则确定所述在线报文对应的域名是百度,无须进行分析。
步骤314,无须分析,置flag值为-1。
本例中,若确定所述在线报文无须分析,则将所述在线报文命中会话的flag值置为-1,并结束流程。
本例中,flag值置为-1后可对报文计数值进行更新,也可不对报文计数值进行更新,本申请对此不作特殊限制。
步骤316,提取所述在线报文的预设字段,作为报文特征,flag值置为1,计数+1。
在一个例子中,若所述在线报文在步骤304中未命中会话表,flag值为初始值0,且所述在线报文的各字段与废弃字段均不相同,则执行本步骤。
在另一个例子中,若所述在线报文在步骤304中命中会话表,且flag值为1,说明所述在线报文的报文流已提取过特征,则可直接执行本步骤。
本例中,预设字段可以为UA字段,提取所述UA字段作为报文特征。具体方法请参考前述图2所示实施例,在此不再赘述。
本例中,若flag值为0,则提取所述在线报文的报文特征后,将所述在线报文的对应会话表的flag值置为1,计数值+1。
本例中,报文特征的提取可能会失败,例如TCP三次握手的无负载报文中均不存在预设字段,则针对这三次握手报文,特征提取均会失败,则可以保持该在线报文对应会话的计数值和flag值不变,并结束流程。当然,也可以将计数值+1,本申请对此不作限制。
本例中,在获取到在线报文后,还可以先根据在线报文对应会话的flag值过滤掉不需要提取报文特征的在线报文,再根据计数值进一步判断所述在线报文是否需要提取特征。
例如,可以先获取在线报文的对应的flag值,若所述flag值为-1,则无须分析,可将对应计数值+1并结束流程;若所述flag值为0,则对所述在线报文提取特征,并将flag值置为1,计数值+1并结束流程;若flag值为1,则进一步获取在线报文对应的计数值,若所述计数值小于20,则对所述在线报文提取报文特征,提取报文特征后可将对应计数值+1并结束流程;若所述计数值大于20,则无须分析,可将对应计数值+1并结束流程。
通过上述方法,可以提取在线报文的报文特征,并且可以基于会话表,对在线报文进行计数,便于实时观察报文特征提取的状况。且还能基于废弃字段筛选出不需要提取报文特征的流量,使得报文特征提取的效率更高。
与前述报文特征的提取方法的实施例相对应,本申请还提供了报文特征的装置的实施例。
本申请报文特征的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请报文特征的提取装置所在服务器的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图5是本申请一示例性实施例示出的一种报文特征的提取装置的框图。
请参考图5,所述报文特征的提取装置600可以应用在前述图4所示的服务器中,包括有:解析单元510、划分单元520、提取单元530。
其中,解析单元510,用于对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;
划分单元520,用于基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;
提取单元530,用于针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
可选的,所述划分单元具体用于:
基于五元组将所述目标报文划分为一条或多条报文流;
基于每条报文流的IP地址确定所述报文流对应的域名,并将域名相同的报文流中的目标报文划分到相同的集合中。
可选的,所述装置还包括:
过滤单元,用于针对每条报文流,过滤掉报文计数大于阈值的目标报文,在过滤后执行报文集合的划分。
可选的,对于HTTP报文,所述预设字段为请求方法、Host和UA字段;对于HTTPS报文,所述预设字段为server name字段。
可选的,所述装置还包括:
整合单元,用于将提取到的报文特征以正则表达式的形式整合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述报文特征的提取方法的实施例相对应,本说明书还提供一种报文特征的提取装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与对抗攻击的监测逻辑对应的机器可执行指令,所述处理器被促使:
对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;
基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;
针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
可选的,在基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合时,所述处理器被促使:
基于五元组将所述目标报文划分为一条或多条报文流;
基于每条报文流的IP地址确定所述报文流对应的域名,并将域名相同的报文流中的目标报文划分到相同的集合中。
可选的,所述处理器还被促使:
针对每条报文流,过滤掉报文计数大于阈值的目标报文,在过滤后执行报文集合的划分。
可选的,对于HTTP报文,所述预设字段为请求方法、Host和UA字段;对于HTTPS报文,所述预设字段为server name字段。
可选的,所述处理器还被促使:
将提取到的报文特征以正则表达式的形式整合。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种报文特征的提取方法,其特征在于,所述方法包括:
对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;
基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;所述目标报文为对其进行报文特征提取的报文;
针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
2.根据权利要求1所述方法,其特征在于,所述基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,包括:
基于五元组将所述目标报文划分为一条或多条报文流;
基于每条报文流的IP地址确定所述报文流对应的域名,并将域名相同的报文流中的目标报文划分到相同的集合中。
3.根据权利要求2所述方法,其特征在于,所述方法还包括:
针对每条报文流,过滤掉报文计数大于阈值的目标报文,在过滤后执行报文集合的划分。
4.根据权利要求1-3任一项所述方法,其特征在于,对于HTTP报文,所述预设字段为请求方法、Host和UA字段;对于HTTPS报文,所述预设字段为server name字段。
5.根据权利要求4所述方法,其特征在于,所述方法还包括:
将提取到的报文特征以正则表达式的形式整合。
6.一种报文特征的提取装置,其特征在于,所述装置包括:
解析单元,用于对域名系统协议DNS报文进行域名解析,得到域名与IP地址的对应关系;
划分单元,用于基于目标报文的IP地址确定所述目标报文对应的域名,并将域名相同的目标报文划分到相同的集合中,得到若干与域名对应的报文集合;所述目标报文为对其进行报文特征提取的报文;
提取单元,用于针对每个报文集合,提取所述报文集合中各个目标报文的预设字段,作为与该报文集合域名对应的报文特征。
7.根据权利要求6所述装置,其特征在于,所述划分单元具体用于:
基于五元组将所述目标报文划分为一条或多条报文流;
基于每条报文流的IP地址确定所述报文流对应的域名,并将域名相同的报文流中的目标报文划分到相同的集合中。
8.根据权利要求7所述装置,其特征在于,所述装置还包括:
过滤单元,用于针对每条报文流,过滤掉报文计数大于阈值的目标报文,在过滤后执行报文集合的划分。
9.根据权利要求6-8任一项所述装置,其特征在于,对于HTTP报文,所述预设字段为请求方法、Host和UA字段;对于HTTPS报文,所述预设字段为server name字段。
10.根据权利要求9所述装置,其特征在于,所述装置还包括:
整合单元,用于将提取到的报文特征以正则表达式的形式整合。
CN201911357126.3A 2019-12-25 2019-12-25 一种报文特征的提取方法和装置 Active CN111163184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911357126.3A CN111163184B (zh) 2019-12-25 2019-12-25 一种报文特征的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911357126.3A CN111163184B (zh) 2019-12-25 2019-12-25 一种报文特征的提取方法和装置

Publications (2)

Publication Number Publication Date
CN111163184A CN111163184A (zh) 2020-05-15
CN111163184B true CN111163184B (zh) 2022-07-01

Family

ID=70556800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911357126.3A Active CN111163184B (zh) 2019-12-25 2019-12-25 一种报文特征的提取方法和装置

Country Status (1)

Country Link
CN (1) CN111163184B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954027B (zh) * 2021-01-29 2022-11-25 杭州迪普科技股份有限公司 一种网络服务特征确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571922A (zh) * 2011-12-13 2012-07-11 北京星网锐捷网络技术有限公司 一种数据流处理方法及装置
CN104253875A (zh) * 2013-06-28 2014-12-31 北京宽广电信高技术发展有限公司 一种dns流量分析方法
EP2869508A1 (en) * 2012-06-30 2015-05-06 Huawei Technologies Co., Ltd. Method for receiving message, and deep packet inspection device and system
CN104796300A (zh) * 2015-03-23 2015-07-22 亚信科技(南京)有限公司 一种数据包特征提取方法及装置
CN110493235A (zh) * 2019-08-23 2019-11-22 四川长虹电器股份有限公司 一种基于网络流量特征的移动终端恶意软件同步检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571922A (zh) * 2011-12-13 2012-07-11 北京星网锐捷网络技术有限公司 一种数据流处理方法及装置
EP2869508A1 (en) * 2012-06-30 2015-05-06 Huawei Technologies Co., Ltd. Method for receiving message, and deep packet inspection device and system
CN104253875A (zh) * 2013-06-28 2014-12-31 北京宽广电信高技术发展有限公司 一种dns流量分析方法
CN104796300A (zh) * 2015-03-23 2015-07-22 亚信科技(南京)有限公司 一种数据包特征提取方法及装置
CN110493235A (zh) * 2019-08-23 2019-11-22 四川长虹电器股份有限公司 一种基于网络流量特征的移动终端恶意软件同步检测方法

Also Published As

Publication number Publication date
CN111163184A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
US20130097308A1 (en) Collecting asymmetric data and proxy data on a communication network
US11816172B2 (en) Data processing method, server, and computer storage medium
CN102724317A (zh) 一种网络数据流量分类方法和装置
JP2009017298A (ja) データ分析装置
US20180316702A1 (en) Detecting and mitigating leaked cloud authorization keys
CN112019446A (zh) 一种接口限速方法、装置、设备及可读存储介质
US20100290353A1 (en) Apparatus and method for classifying network packet data
CN110943883B (zh) 网络流量统计方法、系统、网关及计算机可读存储介质
CN111163184B (zh) 一种报文特征的提取方法和装置
CN105939328A (zh) 网络攻击特征库的更新方法及装置
US11003513B2 (en) Adaptive event aggregation
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN115865525B (zh) 日志数据处理方法、装置、电子设备和存储介质
CN109272005B (zh) 一种识别规则的生成方法、装置和深度包检测设备
CN110995887B (zh) 一种id关联方法和装置
CN111079144B (zh) 一种病毒传播行为检测方法及装置
CN104125105B (zh) 对互联网应用场所分类的方法和装置
CN114553546A (zh) 基于网络应用的报文抓取的方法和装置
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
CA3051580C (en) Identification of portions of data
US9940554B2 (en) Data analysis and management methods and systems for social networks
KR100621996B1 (ko) 인터넷 서비스 트래픽의 분석방법 및 시스템
CN112714033B (zh) 视频集的特征信息确定方法及装置
CN109086428B (zh) 转发信息访问次数统计方法及装置
CN111314104B (zh) 一种即时通信业务操作行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant