CN103281213A - 一种网络流量内容提取和分析检索方法 - Google Patents

一种网络流量内容提取和分析检索方法 Download PDF

Info

Publication number
CN103281213A
CN103281213A CN2013101393681A CN201310139368A CN103281213A CN 103281213 A CN103281213 A CN 103281213A CN 2013101393681 A CN2013101393681 A CN 2013101393681A CN 201310139368 A CN201310139368 A CN 201310139368A CN 103281213 A CN103281213 A CN 103281213A
Authority
CN
China
Prior art keywords
data
packet
information
session
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101393681A
Other languages
English (en)
Other versions
CN103281213B (zh
Inventor
陶敬
韩婷
管晓宏
黄旭昌
王智
折波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201310139368.1A priority Critical patent/CN103281213B/zh
Publication of CN103281213A publication Critical patent/CN103281213A/zh
Application granted granted Critical
Publication of CN103281213B publication Critical patent/CN103281213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络流量内容提取和分析检索方法,包括以下步骤:将原始流量分流到n个数据处理队列;每个数据处理队列独立处理该队列的原始数据报文,对报文进行协议识别和过滤,对其中的TCP流量进行会话重组;对重组后的TCP会话进行协议解析和解码,并提取出其中结构化的数据信息;对于需求指定的关键信息基于多模式匹配算法或者搜索引擎技术,在内容解析提取模块提取到的数据内容中进行检索标注,并将标记结果提交至检索标注信息数据库,从而为多种方式的应用提供检索标注结果。本发明解决了TCP会话重组中数据包重复和序列号归零等问题,实现对原始流量的特征标定,便于用户获取有效信息。

Description

一种网络流量内容提取和分析检索方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种对网络流量进行内容分析和关键信息检索标注的方法。
背景技术
随着互联网技术的发展,网络信息安全成为业界关注的重点。一方面,大至国家网络安全监管部门,小至家庭和个人,都需要维护网络系统的稳定,监控网络信息,防止非法或不安全的信息传播;另一方面,基于内容分析或过滤的网络设备和网络安全产品也急需要更有效更全面的测试才能投入使用。目前面临的问题主要有两方面:首先,网络中传输的数据非常复杂,信息量更是爆炸性增长,底层数据包中的二进制数据流难以被理解分析;其次,随着网络使用需求的提高,网络带宽一再升级,高速大规模网络环境下的流量分析处理面临严峻的挑战。
网络流量还原对于监控网络信息、防止非法或不安全的信息传播具有重要意义。一种现有的网络流量还原方法如图1所示,它虽然实现了对流量的分析和还原,但是存在不足:首先,还原数据范围太广,信息量大,对于用户所关注的关键信息不能有效检索;其次,对原始数据的完整性要求很高,一个会话中若丢失任何一个数据包,该会话将不能还原出应用层文件,所以实际使用中不能充分还原流量中的信息;另外,对流量数据作一次处理还原后,只能得到网页文件、音/视频文件、文档文件、二进制文件等常规类型应用层文件,后续的应用只能基于大量的应用层文件提取信息,作为监控的规则数据,对流量的解析信息不能充分利用。
发明内容
针对现有技术的不足,本发明提出一种网络流量内容提取和分析检索方法,旨在实现对复杂原始网络流量的分析,根据需求对指定的流量内容进行解析并实现对指定关键信息的检索标注。
本发明的技术方案为:
1、一种网络流量内容提取和分析检索方法,用于在对原始网络流量进行内容提取和关键信息的分析检索,包括以下步骤:
第一步,采用流量分流模块,处理从高速网络中捕获并存储的流量文件中的原始数据包,根据服务器计算核心数目设置相应的数据处理队列数目n,将原始流量分流到n个数据处理队列分别处理;
第二步,每个数据处理队列独立处理该队列的原始数据报文,利用协议识别过滤模块对报文进行协议识别和过滤,采用TCP会话重组模块对其中的TCP流量进行会话重组,并维护每个会话的状态信息;
第三步,采用内容解析提取模块对重组后的TCP会话进行协议解析和解码,并提取出其中结构化的数据信息;
第四步,采用检索标注模块,对于需求指定的关键信息基于多模式匹配算法或者搜索引擎技术,在内容解析提取模块提取到的数据内容中进行检索标注,并将标记结果提交至检索标注信息数据库,从而为多种方式的应用提供检索标注结果。
本发明可以取得以下有益的技术效果:
1、能够根据用户关注的关键信息,进行协议识别和过滤,解析指定的某些协议流量;
2、解决TCP会话重组中的数据包重复和序列号归零等问题;
3、采用检索标注信息的方法实现对原始流量的特征标定,便于用户获取有效信息。
附图说明
图1是现有网络流量还原方法的流程图;
图2是本发明的总体框架示意图;
图3是图2中TCP会话重组模块流程图;
图4是图2中以HTTP协议为例的内容解析提取模块流程图;
图5是图2中基于模式匹配算法实现的检索标注模块流程图;
图6是图2中基于搜索引擎技术实现的检索标注模块流程图。
具体实施方式
以下结合附图对本发明的技术方案进行详细说明。
如图2所示,本发明提出的网络流量内容提取和分析检索方法,用于在对原始网络流量进行内容提取和关键信息的分析检索,包括以下步骤:
第一步,采用流量分流模块,处理从高速网络中捕获并存储的流量文件中的原始数据包,根据服务器计算核心数目设置相应的数据处理队列数目n,对数据报文的三元组做哈希运算,将原始流量分流到n个数据处理队列分别处理。其中,三元组包括数据报文的源IP地址(SIP)和目的IP地址(DIP)及IP报文协议号。
第二步,每个数据处理队列独立处理该队列的原始数据报文,利用协议识别过滤模块对报文进行协议识别和过滤,采用TCP会话重组模块对其中的TCP流量进行会话重组,并维护每个会话的状态信息。
第三步,采用内容解析提取模块对重组后的TCP会话进行协议解析,解码(包括传输编码和压缩编码,并提取出其中结构化的数据信息(如文本,图片,音频等)。
第四步,采用检索标注模块,对于需求指定的关键信息,基于多模式匹配算法在提取到的数据内容中进行检索标注,并将标记结果提交至检索标注信息数据库,为多种方式的应用提供检索标注结果。
在优选实施例中,第一步中,对数据报文的三元组做哈希运算具体为:对SIP和DIP做异或运算,结果再与IP报文协议号做加法运算,最后对n取余,得到的结果即为该数据包将被分流到的队列编号。其中,流量分解的目的是充分利用多核服务器的处理性能,也可以采用其他哈希计算方法实现分流,但原则上为了保证一个会话所有数据包分在同一队列,从而保证各数据处理队列的独立性,哈希运算中一般至少包括SIP和DIP两个数据,且保证同一组IP之间两个方向的所有数据包哈希计算结果相同。
在另一优选实施例中,第二步所述的协议识别和过滤,主要是对数据报文的协议封装进行识别,包括流量文件Pcap格式、基于POS协议的帧封装格式、基于Ethernet协议的帧封装格式,并检测识别Vlan标记等;同时根据用户需求,过滤出指定协议的IP数据包,并进行IP碎片重组。如果用户指定检索的协议不包含TCP协议数据包,则跳过TCP会话重组过程,转第四步进行关键信息的检索标注。以检索邮件或网页中的文本关键字“法轮功”为例,协议识别过滤模块应提取出TCP协议中的HTTP协议数据包和SMTP/P0P3协议的数据包,交由TCP重组模块进行TCP会话的重组,对重组后的会话提取其中的文本数据,并根据其数据类型和编码信息进行解码,最终由检索标注模块根据文本数据的字符集信息实现对“法轮功”的检索标注,标注出“法轮功”所出现的数据包序号、数据包时间戳、该数据包所属的会话四元组信息等。
参见图3,TCP会话重组模块以TCP会话的源IP地址(SIP)、目的IP地址(DIP)、源端口号(SP)和目的端口号(DP)组成的四元组为key,并以上述四元组经异或运算计算哈希值,创建TCP会话哈希表。其中,可以采用链地址法解决哈希映射冲突,即哈希值相同但不属于同一四元组的会话链接在同一条链表上。TCP会话哈希表的节点为一个TCP会话控制块,一个TCP会话控制块包含有该会话的控制信息以及两个链表。控制信息包括该会话的哈希值、四元组、起始数据包的位置、结束数据包的位置、该会话的状态信息以及用于会话重组的标志字段;两个链表分别存放该TCP会话源端发送的数据包和目的端发送的数据包,每个数据包节点包含四元组、数据包时间戳、TCP序列号、确认号、应用层长度和应用层数据内容等。其中,每一个链表中的数据包都按TCP序列号和确认号顺序排列。以下是TCP会话重组模块的具体步骤:
步骤31:对于一个经协议识别过滤后的数据包,提取该数据包中的四元组,通过哈希计算并在相应会话哈希表中查找是否存在同一四元组的TCP会话,如果是,则取得该TCP会话控制块并转步骤步骤33;否则转步骤32。
步骤32:由于在相应会话哈希表中不存在同一四元组的TCP会话,所以在该会话哈希表中相应的位置创建具有相应四元组的TCP会话控制块,初始化控制块中的信息,并将该数据包链接存储之后转步骤31。
步骤33:获取该数据包TCP包头中的FIN、RST、ACK、序列号、确认号、数据包序号和数据包时间戳等字段值。如果数据包应用层数据长度为0,则更新该会话状态,转步骤34;否则,在该数据包按照步骤31中查找到的TCP会话控制块中,首先利用上述获得的序列号字段值进行重组排序操作,在该数据所属传输方向上的数据包链表中逐一对比序列号,找到正确的链接位置;然后判断该数据包是否出现序列号归零,如果序列号归零,则重新找到正确的链接位置;找到正确的链接位置后,判断该数据包是否出现与已正确链接的数据包存在数据的部分重复或完全重复,如果有重复,则去除重复部分,以保证数据包正确链接存储。
步骤34:更新该数据包所在会话中所在方向的最大确认号为该数据包的确认号,并释放另一方向链表上的所有序列号小于该最大确认号的数据包,将释放的数据包提交给内容解析提取模块处理。
参见图4,是图2中以HTTP协议为例的内容解析提取模块流程图。
如果用户指定检索标注网页中的文本关键字,则内容解析提取模块根据Http协议的传输格式对数据进行解压缩,并提取出所有文本数据以及相应的字符集信息。该过程主要包括以下步骤:
步骤41:对于一个HTTP协议数据包,提取其协议头部信息,如果判断该数据包的内容是数据说明信息,则转步骤42;如果判断是数据段内容,则转步骤43;
步骤42:提取该数据包中的数据说明信息,根据其中的数据类型信息,判断如果不属于文本信息,则删除该会话控制块;否则,创建相应的协议控制块,并根据数据说明信息初始化其中的数据类型、数据编码、数据长度等信息。
步骤43:判断该数据包所属会话是否有建立协议控制块,如果没有,则丢弃该数据包;否则,根据协议控制块中当前数据类型和数据编码对该数据段进行解码,并查找解码后的信息中是否有说明该段文本数据的字符集,如果有,则提交检索标注模块处理;否则丢弃该段数据。
参见图5,是图2中以文本关键字为例的检索标注模块的流程图。
检索标注模块采用基于有限状态自动机的多模式匹配算法,在内容解析提取模块所提取出的应用层数据内容中,对指定关键信息进行检索和信息标注,包括以下步骤:
步骤51:对用户指定的关键信息进行预处理。在一个特定实施例中,可分为以下几种情况:
1)对用户指定的文本关键信息(例如“法轮功”),转换为多种流量中常用的字符集,建立每种字符集相应的自动机;
2)对用户以字符串形式指定的十六进制数据关键信息(例如“0x5d4ec48b7151a74e”),转换为十六进制数据序列0x5d,0x4e,0xc4,0x8b,0x71,0x51,0xa7,0x4e,再对该数据序列建立自动机;
3)对用户指定的IP信息(例如“6434.33.214347.6dfds0”)先转换为网络字节序,不需建立自动机,可直接在数据包协议识别和过滤时检索标注域名信息(例如“chidsfdsf.ced.cdnr”),直接建立自动机;
步骤52:根据数据段内容及其字符集信息,选择相应字符集的自动机(检索标注十六进制数据,IP信息或域名信息时选择唯一默认的自动机)进行关键信息匹配,对于匹配成功的关键信息,标注该关键信息所在的数据包序号、数据包在流量文件中所处的位置、数据包所在的会话四元组信息、该关键信息在这个数据包中出现的次数等,并将标注结果提交检索标注信息数据库,其中,所述四元组信息为TCP会话的源IP地址(SIP)、目的IP地址(DIP)、源端口号(SP)和目的端口号(DP)。
步骤53:结合存储的网络流量文件以及检索标注信息数据库中的标注结果信息,实现对标注结果的检索和关键信息所在会话的应用层还原,并确定关键信息的传播来源以及访问该关键信息的用户信息等。由此作为网络监控的依据,网络行为的举证等。另外,经标注过的流量文件,结合现有的网络流量回放测试方法,可以实现对基于内容分析的网络设备或网络安全产品的全面有效测试,这种方法实现的测试场景可重复再现,问题定位方便,测试结果更可靠。
参见图6,针对流量中的文本信息分析检索,检索标注模块还可以基于搜索引擎技术实现,为提取出会话中的文本数据段建立倒排索引,基于倒排索引实现用户对该流量文件的所有文本检索。
在一个特定实施例中,可具体包括以下步骤:
步骤61:对待处理的文本数据进行转码和分词。
内容提取模块提取出来的文本内容的字符集编码方式可能有多种,而为便于信息的快速检索,倒排索引的词汇表最好采用统一的编码格式。为此,需要进行转码。以规定统一字符集编码为UTF-8为例,转码有成熟的库可以使用,例如iconvon库。另外,文本中包含中英文词和各种字符,需要分词才能理解其语意。分词可以经过实验测试,采用成熟的分词引擎实现,例如基于基于词频词典的机械中文分词引擎SWCS库。
步骤62:对词汇在内存中建立临时倒排表,当临时倒排表建立到预定大小时,建立临时倒排文件。可以包括以下几方面:
1)对待处理的文本经过转码和分词后,得到一个个单词和每个单词所在流的信息。对单词依次进行处理,在内存中形成临时倒排表。一个示例性的临时倒排表结构如下:
Figure BDA00003069680400051
flow_node结构记录了一个流的信息,结构如下:
Figure BDA00003069680400052
inverted_node结构记录了一个索引词的节点,结构如下:
Figure BDA00003069680400053
Figure BDA00003069680400061
2)在依次处理单词的过程中,需要注意倒排索引的大小。计算机的内存相对于要处理的单词数量来说总体是小的,并且插入新的索引词节点的时间复杂度与倒排索引大小成正比(虽然通过Hash方法降低了插入新的索引词节点的时间复杂度,但仍然与所在链表的长度成正比)。因此,在处理过程中需要在倒排索引达到预定大小时将生成的临时倒排文件写入磁盘系统。例如以倒排索引中的索引词节点数量作为控制倒排索引大小的变量,当索引词节点达到规定的阈值后就开始形成临时倒排索引文件并写入磁盘。
倒排索引文件可分为4部分:词汇表、记录表、命中详情表和流信息表。
(1)词汇表,由不同的索引单词组成的一个表,保存了这个倒排索引中出现的所有单词。
(2)记录表,保存了索引单词的统计信息和其详细命中信息的所在位置。由三部分构成:单词编号,索引单词在词汇表中的编号;命中流个数,这个索引单词在多少个流中出现过;偏移量,这个索引单词的详细流命中信息在命中详情表中偏移的位置。
(3)命中详情表,保存了索引单词在文档中命中的详细信息。由每一个索引单词出现过的流以及命中的位置等信息组成。有三部分:流编号,单词在这个编号的流中命中;命中次数,索引单词在这个编号的流中命中的次数;命中列表,索引单词在这个编号的流中具体命中的位置列表。
(4)流量信息表,保存了倒排索引中所涉及到的流的信息。流从编号0开始依次增序排列在表中。由四部分组成:流源IP,流目的IP、流源端口、流目的端口。
3)倒排索引文件在写入磁盘时由于磁盘的顺序写入机制和为了方便检索的原因,必须以一定的组织形式写入磁盘。
●词汇表的组织形式为词汇表文件中的词汇可以以字符串形式后加一个‘\n’来分隔每个词汇或者采用其他方式进行标记分隔。由于单词的长度是不定,可以对单词表建立索引,例如以单词首字节数据作为为索引,能很大程度提高检索单词的位置和编号的效率。
●记录表文件以二进制数据来保存记录,每一个记录都是一个固定大小的数据结构。如下:
Figure BDA00003069680400062
这样在查找时可以很快的通过单词编号乘以该数据结构的长度来找到记录表中单词的记录。
命中详情表是由每一个单词的命中详情构成的。每一个单词的命中详情区域通过记录表中单词的偏移量字段可以迅速的找到。每一个单词的命中详情区域包含数个流命中的信息。每个流命中的信息由三部分组成:第一部分是固定长度的流编号;第二部分是固定长度的命中次数,这两个部分都是4字节的二进制数据写入文件;第三部分是变长的命中列表,每一个命中位置信息都以4字节的二进制数据顺序写入文件。
●流信息表文件可以以二进制数据顺序写入文件中。数据格式如下:
Figure BDA00003069680400071
步骤63:归并临时倒排索引,生成倒排文件。
在整个倒排索引的建立过程中,会产生非常多的临时倒排索引。大量的临时倒排索引对于检索是非常不利的,所以需要在所有流量文件处理完成后,将形成的临时倒排文件归并成最终倒排文件。
在临时倒排文件中,单词表中的单词是有序的,而命中详情表中的命中详情也是有序的。那么临时倒排索引的归并过程中就可以利用这种有序性。实验系统采用了64路归并,也就是每次对64个临时倒排文件归并成一个最终倒排文件。每次抽取临时倒排文件中的一部分到内存中进行归并,归并后写入最终倒排文件中,释放已经计算的内存,读入临时倒排文件中的下部分数据到内存中,归并、存储、释放内存。周而复始直至处理完所有数据。
步骤64:基于倒排索引进行检索。
倒排表在使用时首先在词汇表中查找到所要检索的单词,得到单词的编号x。而后在记录表中找到单词编号x命中记录的位置。读取命中文档个数N和命中详情偏移量offset。根据这个偏移量offset在命中详情表中偏移offset长度读取N个文档的命中记录情况。基于多个流量处理队列的每个检索节点检索相同的请求,汇总各队列的检索结构。
总的来说,与基于模式匹配算法实现的检索标注相比,基于搜索擎技术的检索标注可以更大限度的为用户提供文本关键信息在流量中的相关标注结果。
本发明提出的网络流量内容提取和分析检索方法具有以下几方面优点:
1、可根据需求指定进行流量内容的分析和特定内容的解析提取。本发明根据用户需求,解析相应协议相应类型的数据,目标明确,结果更实用,并且在解析过程中,只要有数据及其说明信息,都可以进行分析检索,能最大限度地发掘流量中的关键信息。
2、可解决TCP会话重组中的数据包重复和序列号归零等问题。本发明针对TCP数据传输中几个影响会话重组的关键问题采取了有效的解决方法,实现在数据包序号归零,数据内容部分重复等特殊情况下的会话有效重组。
3、采用检索标注信息的方法实现对原始流量的特征标定。本发明采用对用户关注的信息在流量中进行检索并标注其位置等相关信息的方式,为用户进行结果的统计分析,甚至对经过标注的原始流量文件中某些感兴趣的会话流做提取或者回放的应用提供了方便。
4、采用两种方式实现关键信息的检索标注。基于模式匹配算法的检索方法实现简单,一次检索的效率高速度快,但每次提交新的检索需求都需要对流量文件进行一次处理,适用于需要一次快速得到检索结果的情况;基于搜索引擎技术中的倒排索引具有的快速检索关键词的特征,正好满足了流量中检索关键词的需求。传统倒排索引中的“文档”概念是代表文件或者网页,本发明将这一概念应用到网络中的会话流上。通过对流量中提取到的文本数据内容建立倒排索引,能够实现对一次存储的大流量文件仅处理一次,就支持任意多次任意时间快速检索出一个关键词在流量中是否出现过,出现在哪条流中,以及在流的什么位置等信息,适用于对采集到的样本流量文件长期使用的情况。

Claims (10)

1.一种网络流量内容提取和分析检索方法,用于在对原始网络流量进行内容提取和关键信息的分析检索,包括以下步骤:
第一步,采用流量分流模块,处理从高速网络中捕获并存储的流量文件中的原始数据包,根据服务器计算核心数目设置相应的数据处理队列数目n,将原始流量分流到n个数据处理队列分别处理;
第二步,每个数据处理队列独立处理该队列的原始数据报文,利用协议识别过滤模块对报文进行协议识别和过滤,采用TCP会话重组模块对其中的TCP流量进行会话重组,并维护每个会话的状态信息;
第三步,采用内容解析提取模块对重组后的TCP会话进行协议解析和解码,并提取出其中结构化的数据信息;
第四步,采用检索标注模块,基于多模式匹配算法或者搜索引擎技术,对于需求指定的关键信息在内容解析提取模块提取到的数据内容中进行检索和标注,并将标记结果提交至检索标注信息数据库,从而为多种方式的应用提供检索标注结果。
2.根据权利要求1所述的方法,所述第一步中,将原始流量分流到n个数据处理队列时,对数据报文的三元组做哈希运算,所述三元组优选的包括数据报文的源IP地址(SIP)、目的IP地址(DIP)和IP报文协议号。
3.根据权利要求2所述的方法,所述对数据报文的三元组做哈希运算具体为:对源IP地址和目的IP地址做异或运算,结果再与IP报文协议号做加法运算,最后对n取余,得到的结果即为该数据包将被分流到的队列编号。
4.根据权利要求1所述的方法,所述第二步中,所述协议识别和过滤包括对数据报文的协议封装进行识别,同时根据用户需求,过滤出指定协议的IP数据包,并进行IP碎片重组,其中,如果用户指定检索的协议不包含TCP协议数据包,则跳过TCP会话重组过程,直接转入所述第四步,进行关键信息的检索标注。
5.根据权利要求1所述的方法,所述第二步中,所述TCP会话重组模块以TCP会话的源IP地址(SIP)、目的IP地址(DIP)、源端口号(SP)和目的端口号(DP)组成的四元组为key,并以上述四元组经异或运算计算哈希值,创建TCP会话哈希表。
6.根据权利要求5所述的方法,所述TCP会话重组模块中的处理包括以下步骤:
步骤31:对于一个经协议识别过滤后的数据包,提取该数据包中的所述四元组,通过哈希计算并在相应会话哈希表中查找是否存在同一四元组的TCP会话,如果是,则取得TCP会话控制块并转步骤步骤33;否则转步骤32;
步骤32:由于在相应会话哈希表中不存在同一四元组的TCP会话,所以在该会话哈希表中相应的位置创建具有相应四元组的TCP会话控制块,初始化控制块中的信息,并将该数据包链接存储之后转步骤31;
步骤33:获取该数据包TCP包头中的下列字段值:FIN、RST、ACK、序列号、确认号、数据包序号和数据包时间戳;如果该数据包应用层数据长度为0,则更新会话状态,转步骤34;否则,在该数据包按照步骤31中查找到的TCP会话控制块中,首先利用上述获得的序列号字段值进行重组排序操作,在该数据所属传输方向上的数据包链表中逐一对比序列号,找到正确的链接位置;然后判断该数据包是否出现序列号归零,如果序列号归零,则重新找到正确的链接位置;找到正确的链接位置后,判断该数据包是否出现与已正确链接的数据包存在数据的部分重复或完全重复,如果有重复,则去除重复部分,以保证数据包正确链接存储;
步骤34:更新该数据包所在会话中所在方向的最大确认号为该数据包的确认号,并释放另一方向链表上的所有序列号小于该最大确认号的数据包,将释放的数据包提交给内容解析提取模块处理。
7.根据权利要求1所述的方法,如果用户指定检索标注网页中的文本关键字,则所述第三步中,内容解析提取模块根据HTTP协议的传输格式对数据进行解压缩,并提取出所有文本数据以及相应的字符集信息。
8.根据权利要求7所述的方法,内容解析提取模块的处理包括以下步骤:
步骤41:对于一个HTTP协议数据包,提取其协议头部信息,如果判断该数据包的内容是数据说明信息,则转步骤42;如果判断是数据段内容,则转步骤43;
步骤42:提取该数据包中的数据说明信息,根据其中的数据类型信息,判断如果不属于文本信息,则删除该会话控制块;否则,创建相应的协议控制块,并根据数据说明信息初始化其中的数据类型、数据编码和数据长度;
步骤43:判断该数据包所属会话是否有建立协议控制块,如果没有,则丢弃该数据包;否则,根据协议控制块中当前数据类型和数据编码对数据段进行解码,并查找解码后的信息中是否有说明该段文本数据的字符集,如果有,则提交检索标注模块处理;否则丢弃该段数据。
9.根据权利要求1所述的方法,所述第四步中,所述检索标注模块基于多模式匹配算法进行检索和标注包括以下步骤:
步骤51:对用户指定的关键信息进行预处理,其中,对用户指定的文本关键信息,转换为多种流量中常用的字符集,建立每种字符集相应的有限状态自动机;
步骤52:根据数据段内容及其字符集信息,选择相应字符集的自动机进行关键信息匹配,对于匹配成功的关键信息,标注该关键信息所在的数据包序号、数据包在流量文件中所处的位置、数据包所在的会话四元组信息和该关键信息在这个数据包中出现的次数,并将标注结果提交至检索标注信息数据库,其中,所述四元组信息为TCP会话的源IP地址(SIP)、目的IP地址(DIP)、源端口号(SP)和目的端口号(DP);
步骤53:结合存储的网络流量文件以及检索标注信息数据库中的标注结果信息,实现对标注结果的检索和关键信息所在会话的应用层还原,并确定关键信息的传播来源以及访问该关键信息的用户信息。
10.根据权利要求1所述的方法,所述第四步中,所述检索标注模块基于搜索引擎技术进行检索和标注包括以下步骤:
步骤61:对待处理的文本数据进行转码和分词;
步骤62:对词汇在内存中建立临时倒排表,当临时倒排表建立到预定大小时,建立临时倒排文件;
步骤63:归并临时倒排索引,生成倒排文件;
步骤64:基于倒排索引进行检索。
CN201310139368.1A 2013-04-18 2013-04-18 一种网络流量内容提取和分析检索方法 Active CN103281213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310139368.1A CN103281213B (zh) 2013-04-18 2013-04-18 一种网络流量内容提取和分析检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310139368.1A CN103281213B (zh) 2013-04-18 2013-04-18 一种网络流量内容提取和分析检索方法

Publications (2)

Publication Number Publication Date
CN103281213A true CN103281213A (zh) 2013-09-04
CN103281213B CN103281213B (zh) 2016-04-06

Family

ID=49063669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310139368.1A Active CN103281213B (zh) 2013-04-18 2013-04-18 一种网络流量内容提取和分析检索方法

Country Status (1)

Country Link
CN (1) CN103281213B (zh)

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104022924A (zh) * 2014-07-02 2014-09-03 浪潮电子信息产业股份有限公司 一种http通信内容检测的方法
CN105404615A (zh) * 2015-11-05 2016-03-16 腾讯科技(深圳)有限公司 一种词的检索方法和装置
CN105589884A (zh) * 2014-10-24 2016-05-18 腾讯科技(深圳)有限公司 数据处理方法及装置
CN107395639A (zh) * 2017-08-29 2017-11-24 天津艾科仪科技有限公司 智能获取网络中视频数据的方法与系统
CN107592303A (zh) * 2017-08-28 2018-01-16 北京明朝万达科技股份有限公司 一种高速镜像网络流量中外发文件的提取方法及装置
CN108989301A (zh) * 2018-07-03 2018-12-11 成都深思科技有限公司 一种多索引的网络流量数据索引方法、设备及存储介质
CN109002856A (zh) * 2018-07-20 2018-12-14 西安交通大学 一种基于随机游走的流量特征自动生成方法与系统
CN109104426A (zh) * 2018-08-21 2018-12-28 西安交通大学 一种基于发包速率的加密流量分析防御方法
CN109150742A (zh) * 2018-08-13 2019-01-04 南京中新赛克科技有限责任公司 一种基于网络处理器的流量筛选系统及其方法
CN109547447A (zh) * 2018-11-29 2019-03-29 中国刑事警察学院 一种恶意程序通信数据中gif图像重组方法
CN110049037A (zh) * 2019-04-15 2019-07-23 兰州理工大学 一种基于数据链路层的网络视频数据获取方法
CN110046092A (zh) * 2019-03-12 2019-07-23 北京创鑫旅程网络技术有限公司 实验分流方法、装置、电子设备和计算机可读存储介质
CN110299140A (zh) * 2019-06-18 2019-10-01 浙江百应科技有限公司 一种基于智能对话的关键内容提取算法
CN110908798A (zh) * 2019-11-08 2020-03-24 丁剑明 多进程协同式网络流量解析方法及装置
CN111049853A (zh) * 2019-12-24 2020-04-21 南通理工学院 一种基于计算机网络的安全认证系统
CN111092880A (zh) * 2019-12-13 2020-05-01 支付宝(杭州)信息技术有限公司 一种网络流量数据提取方法及装置
CN111131479A (zh) * 2019-12-27 2020-05-08 迈普通信技术股份有限公司 流量处理方法、装置及分流器
CN111261244A (zh) * 2020-01-19 2020-06-09 戴纳智慧医疗科技有限公司 一种样本信息采集存储系统及方法
CN111314164A (zh) * 2019-12-13 2020-06-19 北京明朝万达科技股份有限公司 一种网络流量还原方法、装置和计算机可读存储介质
CN111404663A (zh) * 2019-01-03 2020-07-10 福建天泉教育科技有限公司 一种基于蓝牙点对点的数据传输方法及其系统
CN111581371A (zh) * 2020-05-07 2020-08-25 中国信息安全测评中心 一种基于出境数据网络流量的网络安全分析方法和装置
CN111797063A (zh) * 2020-06-28 2020-10-20 中孚信息股份有限公司 一种流式数据处理方法与系统
CN111818041A (zh) * 2020-07-06 2020-10-23 桦蓥(上海)信息科技有限责任公司 一种基于网络层报文解析的实时报文处理系统及方法
CN112039904A (zh) * 2020-09-03 2020-12-04 福州林科斯拉信息技术有限公司 一种网络流量分析与文件提取系统及方法
CN112468365A (zh) * 2020-11-26 2021-03-09 上海阅维科技股份有限公司 用于网络镜像流量的数据质量检测方法、系统及介质
CN112468370A (zh) * 2020-11-30 2021-03-09 北京锐驰信安技术有限公司 一种支持自定义规则的高速网络报文监测分析方法及系统
CN112486914A (zh) * 2020-11-27 2021-03-12 神州灵云(北京)科技有限公司 一种数据包存储与快查方法与系统
CN112835934A (zh) * 2021-02-01 2021-05-25 京东数字科技控股股份有限公司 查询信息采集方法、装置、电子设备和存储介质
CN112860378A (zh) * 2021-02-23 2021-05-28 哈尔滨工业大学(威海) 一种计算回放流量所需最少虚拟资源的方法、系统、设备及存储介质
CN112887280A (zh) * 2021-01-13 2021-06-01 中国人民解放军国防科技大学 一种基于自动机的网络协议元数据提取系统及方法
CN112929239A (zh) * 2021-03-23 2021-06-08 无锡畅云网络有限公司 一种防火墙重置tcp链路的检测方法
CN113014590A (zh) * 2021-03-08 2021-06-22 中电积至(海南)信息技术有限公司 一种加密流媒体网络流量的解密方法和装置
CN113300977A (zh) * 2021-05-27 2021-08-24 国家计算机网络与信息安全管理中心 一种基于多特征融合分析的应用流量识别与分类方法
CN113590910A (zh) * 2021-09-26 2021-11-02 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113596813A (zh) * 2021-08-09 2021-11-02 北京恒安嘉新安全技术有限公司 一种流量分流方法、装置、电子设备及存储介质
CN114285918A (zh) * 2021-12-30 2022-04-05 湖北天融信网络安全技术有限公司 基于协议分析的分流方法、装置、电子设备及存储介质
CN114448819A (zh) * 2021-12-24 2022-05-06 固安县艾拉信息科技有限公司 基于网络实时数据的密码分析和实现方法
CN114629970A (zh) * 2022-01-14 2022-06-14 华信咨询设计研究院有限公司 一种tcp/ip流量还原方法
CN114760256A (zh) * 2022-04-14 2022-07-15 曙光网络科技有限公司 数据处理方法、装置、设备及存储介质
CN115277221A (zh) * 2022-07-29 2022-11-01 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备
CN115348334A (zh) * 2021-05-13 2022-11-15 中移(上海)信息通信科技有限公司 一种数据的解析方法、装置及相关设备
US20220365909A1 (en) * 2020-11-05 2022-11-17 Kookmin University Industry Academy Cooperation Foundation Apparatus and method for detecting target file based on network packet analysis
CN115378848A (zh) * 2022-08-16 2022-11-22 武汉思普崚技术有限公司 一种基于排序算法的流量统计方法及系统
CN115604207A (zh) * 2022-12-12 2023-01-13 成都数默科技有限公司(Cn) 一种面向会话的网络流量存储及索引方法
WO2023115367A1 (zh) * 2021-12-22 2023-06-29 北京大学深圳研究生院 一种多协议数据传输方法及装置、网络和存储介质
CN116527303A (zh) * 2023-02-28 2023-08-01 浙江大学 基于标记流量对比的工控设备信息提取方法及装置
CN117097822A (zh) * 2023-10-19 2023-11-21 北京浩瀚深度信息技术股份有限公司 一种流式重组网络数据包的方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1870498A (zh) * 2006-06-26 2006-11-29 北京启明星辰信息技术有限公司 一种自适应多模式匹配方法及系统
CN101795230A (zh) * 2010-02-23 2010-08-04 西安交通大学 一种网络流量还原方法
US8406141B1 (en) * 2007-03-12 2013-03-26 Cybertap, Llc Network search methods and systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1870498A (zh) * 2006-06-26 2006-11-29 北京启明星辰信息技术有限公司 一种自适应多模式匹配方法及系统
US8406141B1 (en) * 2007-03-12 2013-03-26 Cybertap, Llc Network search methods and systems
CN101795230A (zh) * 2010-02-23 2010-08-04 西安交通大学 一种网络流量还原方法

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104022924A (zh) * 2014-07-02 2014-09-03 浪潮电子信息产业股份有限公司 一种http通信内容检测的方法
CN105589884A (zh) * 2014-10-24 2016-05-18 腾讯科技(深圳)有限公司 数据处理方法及装置
CN105404615A (zh) * 2015-11-05 2016-03-16 腾讯科技(深圳)有限公司 一种词的检索方法和装置
CN105404615B (zh) * 2015-11-05 2020-02-11 腾讯科技(深圳)有限公司 一种词的检索方法和装置
CN107592303B (zh) * 2017-08-28 2020-01-03 北京明朝万达科技股份有限公司 一种高速镜像网络流量中外发文件的提取方法及装置
CN107592303A (zh) * 2017-08-28 2018-01-16 北京明朝万达科技股份有限公司 一种高速镜像网络流量中外发文件的提取方法及装置
CN107395639A (zh) * 2017-08-29 2017-11-24 天津艾科仪科技有限公司 智能获取网络中视频数据的方法与系统
CN108989301A (zh) * 2018-07-03 2018-12-11 成都深思科技有限公司 一种多索引的网络流量数据索引方法、设备及存储介质
CN109002856A (zh) * 2018-07-20 2018-12-14 西安交通大学 一种基于随机游走的流量特征自动生成方法与系统
CN109150742A (zh) * 2018-08-13 2019-01-04 南京中新赛克科技有限责任公司 一种基于网络处理器的流量筛选系统及其方法
CN109104426A (zh) * 2018-08-21 2018-12-28 西安交通大学 一种基于发包速率的加密流量分析防御方法
CN109104426B (zh) * 2018-08-21 2020-05-22 西安交通大学 一种基于发包速率的加密流量分析防御方法
CN109547447A (zh) * 2018-11-29 2019-03-29 中国刑事警察学院 一种恶意程序通信数据中gif图像重组方法
CN111404663A (zh) * 2019-01-03 2020-07-10 福建天泉教育科技有限公司 一种基于蓝牙点对点的数据传输方法及其系统
CN111404663B (zh) * 2019-01-03 2022-12-09 福建天泉教育科技有限公司 一种基于蓝牙点对点的数据传输方法及其系统
CN110046092A (zh) * 2019-03-12 2019-07-23 北京创鑫旅程网络技术有限公司 实验分流方法、装置、电子设备和计算机可读存储介质
CN110049037A (zh) * 2019-04-15 2019-07-23 兰州理工大学 一种基于数据链路层的网络视频数据获取方法
CN110299140A (zh) * 2019-06-18 2019-10-01 浙江百应科技有限公司 一种基于智能对话的关键内容提取算法
CN110908798A (zh) * 2019-11-08 2020-03-24 丁剑明 多进程协同式网络流量解析方法及装置
CN111092880A (zh) * 2019-12-13 2020-05-01 支付宝(杭州)信息技术有限公司 一种网络流量数据提取方法及装置
CN111092880B (zh) * 2019-12-13 2022-08-09 支付宝(杭州)信息技术有限公司 一种网络流量数据提取方法及装置
CN111314164A (zh) * 2019-12-13 2020-06-19 北京明朝万达科技股份有限公司 一种网络流量还原方法、装置和计算机可读存储介质
CN111049853A (zh) * 2019-12-24 2020-04-21 南通理工学院 一种基于计算机网络的安全认证系统
CN111131479B (zh) * 2019-12-27 2022-04-05 迈普通信技术股份有限公司 流量处理方法、装置及分流器
CN111131479A (zh) * 2019-12-27 2020-05-08 迈普通信技术股份有限公司 流量处理方法、装置及分流器
CN111261244A (zh) * 2020-01-19 2020-06-09 戴纳智慧医疗科技有限公司 一种样本信息采集存储系统及方法
CN111581371A (zh) * 2020-05-07 2020-08-25 中国信息安全测评中心 一种基于出境数据网络流量的网络安全分析方法和装置
CN111797063A (zh) * 2020-06-28 2020-10-20 中孚信息股份有限公司 一种流式数据处理方法与系统
CN111818041A (zh) * 2020-07-06 2020-10-23 桦蓥(上海)信息科技有限责任公司 一种基于网络层报文解析的实时报文处理系统及方法
CN111818041B (zh) * 2020-07-06 2022-06-03 桦蓥(上海)信息科技有限责任公司 一种基于网络层报文解析的实时报文处理系统及方法
CN112039904A (zh) * 2020-09-03 2020-12-04 福州林科斯拉信息技术有限公司 一种网络流量分析与文件提取系统及方法
US20220365909A1 (en) * 2020-11-05 2022-11-17 Kookmin University Industry Academy Cooperation Foundation Apparatus and method for detecting target file based on network packet analysis
US12007949B2 (en) * 2020-11-05 2024-06-11 Kookmin University Industry Academy Cooperation Foundation Apparatus and method for detecting target file based on network packet analysis
CN112468365A (zh) * 2020-11-26 2021-03-09 上海阅维科技股份有限公司 用于网络镜像流量的数据质量检测方法、系统及介质
CN112486914A (zh) * 2020-11-27 2021-03-12 神州灵云(北京)科技有限公司 一种数据包存储与快查方法与系统
CN112486914B (zh) * 2020-11-27 2024-04-12 神州灵云(北京)科技有限公司 一种数据包存储与快查方法与系统
CN112468370A (zh) * 2020-11-30 2021-03-09 北京锐驰信安技术有限公司 一种支持自定义规则的高速网络报文监测分析方法及系统
CN112468370B (zh) * 2020-11-30 2024-02-20 北京锐驰信安技术有限公司 一种支持自定义规则的高速网络报文监测分析方法及系统
CN112887280A (zh) * 2021-01-13 2021-06-01 中国人民解放军国防科技大学 一种基于自动机的网络协议元数据提取系统及方法
CN112835934A (zh) * 2021-02-01 2021-05-25 京东数字科技控股股份有限公司 查询信息采集方法、装置、电子设备和存储介质
CN112835934B (zh) * 2021-02-01 2024-04-05 京东科技控股股份有限公司 查询信息采集方法、装置、电子设备和存储介质
CN112860378A (zh) * 2021-02-23 2021-05-28 哈尔滨工业大学(威海) 一种计算回放流量所需最少虚拟资源的方法、系统、设备及存储介质
CN112860378B (zh) * 2021-02-23 2022-07-29 哈尔滨工业大学(威海) 一种计算回放流量所需最少虚拟资源的方法、系统、设备及存储介质
CN113014590A (zh) * 2021-03-08 2021-06-22 中电积至(海南)信息技术有限公司 一种加密流媒体网络流量的解密方法和装置
CN112929239A (zh) * 2021-03-23 2021-06-08 无锡畅云网络有限公司 一种防火墙重置tcp链路的检测方法
CN115348334B (zh) * 2021-05-13 2023-10-27 中移(上海)信息通信科技有限公司 一种数据的解析方法、装置及相关设备
CN115348334A (zh) * 2021-05-13 2022-11-15 中移(上海)信息通信科技有限公司 一种数据的解析方法、装置及相关设备
CN113300977B (zh) * 2021-05-27 2022-10-21 国家计算机网络与信息安全管理中心 一种基于多特征融合分析的应用流量识别与分类方法
CN113300977A (zh) * 2021-05-27 2021-08-24 国家计算机网络与信息安全管理中心 一种基于多特征融合分析的应用流量识别与分类方法
CN113596813B (zh) * 2021-08-09 2024-04-05 北京恒安嘉新安全技术有限公司 一种流量分流方法、装置、电子设备及存储介质
CN113596813A (zh) * 2021-08-09 2021-11-02 北京恒安嘉新安全技术有限公司 一种流量分流方法、装置、电子设备及存储介质
CN113590910B (zh) * 2021-09-26 2021-12-24 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113590910A (zh) * 2021-09-26 2021-11-02 北京金睛云华科技有限公司 一种网络流量检索方法和装置
WO2023115367A1 (zh) * 2021-12-22 2023-06-29 北京大学深圳研究生院 一种多协议数据传输方法及装置、网络和存储介质
CN114448819A (zh) * 2021-12-24 2022-05-06 固安县艾拉信息科技有限公司 基于网络实时数据的密码分析和实现方法
CN114448819B (zh) * 2021-12-24 2024-03-22 固安县艾拉信息科技有限公司 基于网络实时数据的密码分析和实现方法
CN114285918A (zh) * 2021-12-30 2022-04-05 湖北天融信网络安全技术有限公司 基于协议分析的分流方法、装置、电子设备及存储介质
CN114629970A (zh) * 2022-01-14 2022-06-14 华信咨询设计研究院有限公司 一种tcp/ip流量还原方法
CN114629970B (zh) * 2022-01-14 2023-07-21 华信咨询设计研究院有限公司 一种tcp/ip流量还原方法
CN114760256A (zh) * 2022-04-14 2022-07-15 曙光网络科技有限公司 数据处理方法、装置、设备及存储介质
CN114760256B (zh) * 2022-04-14 2024-01-30 曙光网络科技有限公司 数据处理方法、装置、设备及存储介质
CN115277221B (zh) * 2022-07-29 2024-06-07 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备
CN115277221A (zh) * 2022-07-29 2022-11-01 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备
CN115378848B (zh) * 2022-08-16 2024-03-22 武汉思普崚技术有限公司 一种基于排序算法的流量统计方法及系统
CN115378848A (zh) * 2022-08-16 2022-11-22 武汉思普崚技术有限公司 一种基于排序算法的流量统计方法及系统
CN115604207A (zh) * 2022-12-12 2023-01-13 成都数默科技有限公司(Cn) 一种面向会话的网络流量存储及索引方法
CN116527303B (zh) * 2023-02-28 2023-12-12 浙江大学 基于标记流量对比的工控设备信息提取方法及装置
CN116527303A (zh) * 2023-02-28 2023-08-01 浙江大学 基于标记流量对比的工控设备信息提取方法及装置
CN117097822B (zh) * 2023-10-19 2024-01-19 北京浩瀚深度信息技术股份有限公司 一种流式重组网络数据包的方法、系统及存储介质
CN117097822A (zh) * 2023-10-19 2023-11-21 北京浩瀚深度信息技术股份有限公司 一种流式重组网络数据包的方法、系统及存储介质

Also Published As

Publication number Publication date
CN103281213B (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN103281213B (zh) 一种网络流量内容提取和分析检索方法
CN112468370B (zh) 一种支持自定义规则的高速网络报文监测分析方法及系统
US8666985B2 (en) Hardware accelerated application-based pattern matching for real time classification and recording of network traffic
CN102882703B (zh) 一种基于http分析的url自动分类分级的系统及方法
US8964548B1 (en) System and method for determining network application signatures using flow payloads
US9210090B1 (en) Efficient storage and flexible retrieval of full packets captured from network traffic
CN103365654B (zh) 基于硬件的包编辑器
WO2011050545A1 (zh) 一种未知应用层协议自动分析方法
WO2019114700A1 (zh) 流量分析方法、公共服务流量归属方法及相应的计算机系统
CN102185762B (zh) 用户数据发送行为的识别与提取方法
CN106330584B (zh) 一种业务流的识别方法及识别装置
CN104009984A (zh) 基于倒排列表的网流索引检索与压缩的方法
CN102938764B (zh) 应用识别处理方法及装置
CN105072196B (zh) 分布式数据包存储、回溯方法及系统
CN105337991A (zh) 一种一体化的报文流查找与更新方法
CN112988762B (zh) 一种适用于失信单位的实时识别及预警方法
CN102571946B (zh) 一种基于对等网络的协议识别与控制系统的实现方法
CN109275045B (zh) 基于dfi的移动端加密视频广告流量识别方法
CN101155122A (zh) 一种基于数据特征的流媒体内容下载方法
CN104333483A (zh) 互联网应用流量识别方法、系统及识别装置
CN110891030A (zh) 一种基于机器学习的http流量特征识别与提取方法
CN101470752A (zh) 基于关键词解析调度的搜索引擎方法
CN102984242A (zh) 一种应用协议的自动识别方法和装置
CN116828087B (zh) 基于区块链连接的信息安全系统
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant