CN102571922A - 一种数据流处理方法及装置 - Google Patents

一种数据流处理方法及装置 Download PDF

Info

Publication number
CN102571922A
CN102571922A CN2011104155099A CN201110415509A CN102571922A CN 102571922 A CN102571922 A CN 102571922A CN 2011104155099 A CN2011104155099 A CN 2011104155099A CN 201110415509 A CN201110415509 A CN 201110415509A CN 102571922 A CN102571922 A CN 102571922A
Authority
CN
China
Prior art keywords
data flow
field
network address
field name
advance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104155099A
Other languages
English (en)
Other versions
CN102571922B (zh
Inventor
魏逢一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Star Net Ruijie Networks Co Ltd
Original Assignee
Beijing Star Net Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Star Net Ruijie Networks Co Ltd filed Critical Beijing Star Net Ruijie Networks Co Ltd
Priority to CN201110415509.9A priority Critical patent/CN102571922B/zh
Publication of CN102571922A publication Critical patent/CN102571922A/zh
Application granted granted Critical
Publication of CN102571922B publication Critical patent/CN102571922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种数据流处理方法及装置,包括:在确定接收到的数据流符合HTTP-POST协议,且该数据流对应的网址属于预先确定出的网址集合时,提取该数据流对应的特征字段的字段值,从而可以通过是否符合HTTP-POST协议、以及对应的网址是否属于预先确定出的网址集合来筛选后续进行审计的数据流,提高审计的效率。并且,可以利用抓包分析工具,解析出该特征字段对应的字段名集合,避免了人工查找字段名效率低且容易遗漏的问题,并提高了后续对数据流进行审计的正确率。

Description

一种数据流处理方法及装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种数据流处理方法及装置。
背景技术
随着互联网的高速发展,互联网已经渗透到社会生活的每一个角落,成为人们学习、生活、工作不可缺少的工具,也为企业高效运营提供了基础平台。但是互联网给我们带来诸多便利的同时,也为各种不和谐的行为提供了滋生的温床,网络恶搞、诽谤中伤、传播违法反动信息等等,越来越对国家安定、社会和谐、企业效率提出了严峻的挑战。
为了解决上述问题,上网行为管理概念应运而生。上网行为管理是指帮助互联网用户控制和管理对互联网的使用,包括对网页访问过滤、网络应用控制、带宽流量管理、信息收发审计、用户行为分析,从而实现对互联网访问行为的全面管理。在P2P流量管理、防止内网泄密、防范法规风险、互联网访问行为记录、上网安全等多个方面提供有效的解决方案。
其中,论坛作为信息获取以及言论发表的一个重要工具,在上网行为管理中显得尤为重要。论坛的发帖审计已经成为上网行为管理所不可或缺的重要功能之一。
目前主流论坛提交数据(发帖)都是通过HTTP-POST协议,其中POST(超文本传输协议(HTTP,Hypertext Transfer Protocol)请求方法中的一种)对应的统一资源定位符(URL,Uniform Resource Locator)标志论坛数据提交至的网址,而HTTP报文头部Referer字段则表明了论坛数据发布的网址。主流论坛数据标题和内容的数据封装格式主要包括如下两种:HTML上传表单和URL编码。
而不管是哪种数据封装格式,由于提交的数据是通过网络提交到服务器的,因此在网关或上网行为管理设备中就可以截获到提交的报文,通过对报文格式进行窥探、分析,就可以提取论坛数据中的标题以及内容等信息,从而达到论坛发帖审计的目的。
例如,根据RFC2616,POST报文的URL语法格式可以如下所示:
HTTP_URL:=″http:″″//″host[:port][abs_path[″?″query]]
则可以根据上述语法格式确定该POST报文对应的信息:其中http代表HTTP协议,host[:port]为HTTP请求报文首部HOST域的值(即资源站点的地址,可以是域名,也可以是IP),如果port为空,则代表port为80。abs_path[″?″query]即资源的统一资源标识符(URI,Uniform Resource Identifier)。
目前的论坛发帖审计主要包括以下两种方式:
方式一、POST全部审计。
此种方式下,将流经网关或上网行为管理设备的所有HTTP-POST数据都拿来分析、审计。该方式实现简单,但由于在实际网络中,除了论坛,还有其他很多应用也是通过HTTP-POST来提交数据的,因此将导致审计信息中充斥着大量非论坛数据,增大了审计的工作量,且降低了论坛发帖审计的效率。
方式二、POST部分审计。
在此种方式下,可以仅针对URL中含有“bbs”的HTTP-POST数据进行审计,即仅将URL中含有“bbs”的HTTP-POST数据认为是论坛提交数据。但由于很多URL中未含有“bbs”的HTTP-POST数据也是论坛提交数据,因此,在此种方式下,非常容易存在漏审计的问题,使得审计结果准确性较低。
同时,不论是方式一还是方式二,都是通过人工分析HTTP-POST数据的方法收集特征字段,从而在对HTTP-POST数据进行审计时,根据人工收集的特征字段提取对应的信息,而人工收集特征字段的收集效率低下,且容易遗漏,从而导致审计结果准确性较低。
发明内容
本发明实施例提供一种数据流处理方法及装置,用于解决论坛发帖审计效率低和审计结果准确性较低的问题。
一种数据流处理方法,所述方法包括:
接收数据流,在确定该数据流符合HTTP-POST协议时,提取该数据流对应的网址;
在确定该数据流对应的网址属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段;
针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,该字段名集合是预先针对该待提取的特征字段,通过抓包分析工具,解析出的已知论坛数据对应的字段名集合;
若确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名,提取该字段名对应的字段值。
一种数据流处理装置,所述装置包括:
接收模块,用于接收数据流;
第一判断模块,用于确定该数据流是否符合HTTP-POST协议;
网址提取模块,用于在第一判断模块确定该数据流符合HTTP-POST协议时,提取该数据流对应的网址;
第二判断模块,用于确定该数据流对应的网址是否属于预先确定出的网址集合;
确定模块,用于在第二判断模块确定该数据流对应的网址属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段;
第三判断模块,用于针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,该字段名集合是预先针对该待提取的特征字段,通过抓包分析工具,解析出的已知论坛数据对应的字段名集合;
字段值提取模块,用于在第三判断模块确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,提取该字段名对应的字段值。
根据本发明实施例提供的方案,在确定接收到的数据流符合HTTP-POST协议,且该数据流对应的网址属于预先确定出的网址集合时,提取该数据流对应的特征字段的字段值,从而可以通过是否符合HTTP-POST协议、以及对应的网址是否属于预先确定出的网址集合来筛选后续进行审计的数据流,提高审计的效率。并且,可以利用抓包分析工具,解析出该特征字段对应的字段名集合,避免了人工查找字段名效率低且容易遗漏的问题,并提高了后续对数据流进行审计的正确率。
附图说明
图1为本发明实施例一提供的数据流处理方法的步骤流程图;
图2为本发明实施例二提供的确定字段名集合的步骤流程图;
图3为本发明实施例三提供的更新网址集合的步骤流程图;
图4为本发明实施例三提供的更新网址集合的拓扑结构示意图;
图5为本发明实施例四提供的字段名失效检测的步骤流程图;
图6为本发明实施例五提供的数据流处理装置的结构示意图。
具体实施方式
本发明实施例针对现有上网行为管理论坛发帖审计过程存在的各种缺陷与不足,提出了一种基于URL分类库(预先确定出的网址集合)的论坛发帖审计方案,能够有效过滤非论坛数据,同时又能最大限度的保证不漏审。本发明实施例还提出了一种行之有效的不断丰富URL分类库的方法,保证URL分类库的实时更新。同时本发明实施例还提出了一种字段名高效提取以及失效检测的方案。
下面结合说明书附图和各实施例对本发明方案进行说明。
实施例一、
本发明实施例一提供一种数据流处理方法,该方法的步骤如图1所示,包括:
步骤101、接收数据流。
步骤102、确定该数据流是否符合HTTP-POST协议。
在本实施例中,为了对论坛数据进行审计,所述论坛数据可以是来自论坛、微博、博客、社区、电子广告栏(BBS)等用户可以进行言论自由发表的网络环境,根据主流论坛提交数据(发帖)都是通过HTTP-POST协议的特点,可以首先利用数据流是否符合HTTP-POST协议对接收到的数据流进行筛选。
具体的,可以通过以下方式确定数据流符合HTTP-POST协议:
确定该数据流为传输控制协议(TCP,Transmission Control Protocol)数据流,且该数据流的POST URI HTTP-VERSION字段中,HTTP-VERSION为HTTP/1.1或HTTP/1.0。
POST URI HTTP-VERSION字段中,URI为该数据流的URI地址,由于不同数据流的URI各不相同,因此,POST URI HTTP-VERSION字段中的URI可以是一个任意的字符串。
在本步骤中,若确定该数据流符合HTTP-POST协议,则可以继续执行步骤103,否则,可以结束本流程。
步骤103、提取该数据流对应的网址。
在本实施例中,为了对论坛数据进行审计,可以进一步利用数据流对应的网址对数据流进行筛选,从而根据论坛数据对应的网址的特点,筛除数据流符合HTTP-POST协议,但并不对应论坛数据的数据流,减少后续审计的工作量,提高审计的效率。
可以通过数据流提交至的网址和数据流发布的网址中的至少一个来对数据流进行筛选。由于POST对应的URL标志数据流提交至的网址,而HTTP报文头部Referer字段表明了数据流发布的网址,因此具体的,在本步骤中,可以提取该数据流对应的URL,从而确定该数据流提交至的网址,并可以通过提取该数据流对应的Referer字段,确定该数据流公布的网址。
步骤104、确定提取出的网址是否属于预先确定出的网址集合。
在本实施例中,所述预先确定出的网址集合可以是指针对论坛数据的网址集合。具体的,可以但不限于通过以下现有方式确定针对论坛数据的网址:
方式一、在人为确定访问的网站属于论坛(所述论坛可以是指论坛、微博、博客、社区、电子广告栏(BBS)等用户可以进行言论自由发表的网络环境)时,将该网站对应的网址确定为针对论坛数据的一个网址。
方式二、自动确定针对论坛数据的网址。
具体的,可以包括以下步骤:
步骤1、通过网络爬虫,下载互联网上已经存在的网页。网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
步骤2、网页去噪。
网页通常包含大量的“噪音”。同普通文本相比,网页的设计比较随意,通常包含各类广告,设计人员的注释以及版权申明等无关信息。有时同一个网页甚至会包含多个不同的主题。在确定一个网页的网址是否对应论坛数据之前,需要自动清除这些“噪音”,从而提高确定出的对应论坛数据的网址的准确性。
步骤3、中文分词。
所谓的分词就是将一句句的中文句子或中英文混合的句子,按一个个的词切分出来,如果是英文单词,则切出一个个单词。中文分词不同于英文分词,英文可以以空格为切分标记,而中文就没有明显的标记用于切分,中文分词技术属于自然语言处理技术范畴,一种简单的做法就是基于中文词库进行分词。
步骤4、文本分类。
文本分类就是根据文本中各个词出现的频率、权重的相似度来判断该文本属于哪一个分类,从而确定该网页是否对应论坛数据,并在确定该网页对应论坛数据时,将该网页对应的网址确定为针对论坛数据的网址。
在本步骤中,可以确定步骤103中提取出的网址是否属于预先确定出的网址集合,若步骤103中提取的网址为数据流提交至的网址,则预先确定出的网址集合为数据流提交至的网址集合。若步骤103中提取的网址为数据流发布的网址,则预先确定出的网址集合为数据流发布的网址集合。若步骤103中提取的网址为数据流提交至的网址和数据流发布的网址,则预先确定出的网址集合为数据流提交至的网址和数据流发布的网址的集合,且在本步骤中,可以在确定提取出的数据流提交至的网址和数据流发布的网址均属于预先确定出的网址集合时(可以理解为,提取出的数据流提交至的网址属于预先确定出数据流提交至的网址集合,且提取出的数据流发布的网址属于预先确定出数据流发布的网址集合),认为步骤103中提取出的网址属于预先确定出的网址集合。
若确定步骤103中提取出的网址属于预先确定出的网址集合,则可以继续执行步骤105,否则,可以结束本流程。
进一步的,若确定步骤103中提取出的网址不属于预先确定出的网址集合,还可以利用步骤103中提取出的网址对预先确定出的网址集合进行更新,使得后续可以根据更新后的网址集合进行数据流处理。具体的,可以确定该数据流对应的待提取的特征字段,针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,在确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,将该数据流对应的网址提交至云服务器。当然,若确定步骤103中提取出的网址不属于预先确定出的网址集合,也可以人工确定是否需要将该网址添加至预先确定出的网址集合,在确定需要将该网址添加至预先确定出的网址集合时,可以将该数据流对应的网址提交至云服务器。云服务器可以将接收到的网址加入所述预先确定出的网址集合。具体的,云服务器可以在该网址被提交的次数大于设定阈值时,将该网址加入所述预先确定出的网址集合。
一个特征字段对应的字段名的集合可以是预先确定的,具体包括:预先针对一个特征字段,通过抓包分析工具,解析出已知论坛数据对应的字段名集合,将该字段名集合作为该特征字段的对应字段名集合。
步骤105、确定待提取的特征字段。
在本步骤中,可以根据后续对论坛数据审计的需要,确定待提取的特征字段,例如,可以确定待提取的特征字段为标题字段和内容字段,从而后续在数据流中对标题字段和内容字段进行查找,并可以针对标题字段和内容字段的字段值进行审计。
步骤106、确定一个数据流是否包含预先确定出的字段名集合中的字段名。
在本实施例中,可以预先确定每个特征字段对应的字段名集合(预先确定每个特征字段对应的字段名集合的方法在步骤104中已经描述,在此不再赘述),并在一个数据流包含预先确定出的字段名集合中的字段名时,进一步确定该数据流对应论坛数据,继续执行步骤107,提取该数据流中的字段值,否则,可以认为该数据流不是对应论坛数据,可以结束本流程。
在本步骤中,可以针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,若确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名,执行步骤107,提取该字段名对应的字段值。
步骤107、提取字段值。
根据字段名提取字段值的方法与现有技术相同,在此不再赘述。
提取字段值之后,可以根据提取的字段值对该字段值对应的数据流进行解析(审计),从而实现对论坛数据的审计,对数据流的审计产生的审计信息可以但不限于包含:审计时间、数据流对应的网址、数据流的标题内容(标题字段的字段值)、具体内容(内容字段的字段值)。审计信息可以写入永久性存储介质,使得掉电后仍然能够有效保存。
此时,还可以根据产生的审计信息对预先确定出的字段名集合中的字段名是否有效进行检测,具体的,可以确定审计的数据流对应的网址,针对每一个网址,确定设定周期内对该网址对应的数据流审计的次数并上报至云服务器,云服务器在确定任一周期内对该网址对应的数据流解析的次数与该周期的上一周期内对该网址对应的数据流解析的次数相比,减少的次数大于设定次数时,可以认为该数据流的特征字段的字段名发生了改变,此时可以确定该数据流对应的待提取的特征字段,针对每个待提取的特征字段,通过抓包分析工具,解析出该特征字段对应的字段名,利用解析出的字段名更新该特征字段对应的字段名集合,具体的,可以将该解析出的字段名加入该特征字段对应的字段名集合,或者,可以在该特征字段对应的字段名集合中,利用该解析出的字段名替换该数据流原来对应的字段名,使得后续可以根据更新后的字段名集合进行数据流处理。
下面通过一个具体的实施例对实施例一中确定字段名集合的过程进行详细说明。
实施例二、
本发明实施例二提供一种确定字段名集合的方法,该方法的步骤如图2所示,包括:
步骤201、预定义各个预提取字段的字段值。
例如,要提取标题、内容字段的字段名,那可以预定义标题字段的值为“title-test”,内容字段的值为“content-test”,不同字段其预定义值设置不同。
步骤202、定义一个抓包分析工具。
该工具对于HTTP-POST数据流报文进行窥探、分析,判断报文数据中是否存在预定义字段值以及相应的出现位置。然后根据数据的封装格式(HTML上传表单或URL编码),反向分析出该预定义值所对应的字段名。根据预定义值与字段的对应关系,该工具就可以自动输出各字段对应的字段名了。如该工具可自动输出如下信息:
标题字段名为:title
内容字段名为:message
步骤203、运行抓包分析工具。
打开一个已知的论坛,在该论坛上发一个帖子,帖子标题、内容均为预定义的值,如标题为“title-test”,内容为“content-test”。最终工具将自动输出标题、内容对应的字段名。
步骤204、收集目前每个已知论坛的帖子标题、内容字段名集合。
最终可以输出类似如下的字段名集合:
标题字段名集合:titile、subject、strTitle、strSubject、......
内容字段名集合:content、message、strContent、strMessage、......
本发明实施例一提供的方案中,还可以进一步对预先确定出的网址集合进行更新,下面通过实施例三进行说明。
实施例三、
本发明实施例三提供一种对预先确定出的网址集合进行更新的方法,该方法的步骤如图3所示,包括:
步骤301、确定提取出的网址不属于预先确定出的网址集合的数据流。
步骤302、确定该数据流中是否包含设定的字段名。
在本步骤中,可以设定至少一个特征字段,特别的,设定的至少一个特征字段可以是待提取的特征字段,针对每个设定的特征字段,确定该数据流中是否包含该特征字段对应字段名集合中的字段名,在确定针对至少一个设定的特征字段,该数据流中包含该特征字段对应字段名集合中的字段名时,继续执行步骤303,否则,结束本流程。
步骤303、确定该数据流对应的网址。
本步骤确定出的网址是与预先确定出的网址集合对应的,数据流提交至的网址,或者是数据流发布的网址,或者是数据流提交至的网址和数据流发布的网址。
步骤304、将该数据流对应的网址提交给云服务器。
图4为更新网址集合的拓扑结构示意图,从图4可以看出,该拓扑中可以包括多个数据流处理设备(实施例一中各步骤的执行主体),因此,云服务器可能接收多个数据流处理设备上传的网址,并可以对所有数据流处理设备上传的网址进行排重处理,最终生成一个具有唯一性的网址集合。然后可以进一步人工对该网址集合进行验证,判断该网址集合中的哪些网址需要加入到预先确定出的网址集合中,从而实现对预先确定出的网址集合的更新。
本发明实施例一提供的方案中,还可以进一步对预先确定出的字段名集合中的字段名进行失效检测,下面通过实施例四进行说明。
实施例四、
本发明实施例四提供一种字段名失效检测的方法,该方法的步骤如图5所示,包括:
步骤401、确定产生审计信息的数据流对应的网址。
所述网址可以为数据流提交至的网址。使得后续可以针对数据流提交至的网址,确定产生的审计次数。
所述网址也可以为数据流发布的网址。使得后续可以针对数据流发布的网址,确定产生的审计次数。
当然,也可以确定产生审计信息的数据流的数据流提交至的网址和数据流发布的网址(即确定出的网址是一个二元组),使得后续可以针对数据流提交至的网址和数据流发布的网址均相同的数据流,针对数据流提交至的网址和数据流发布的网址,确定产生的审计次数。
下面以所述网址为数据流提交至的网址为例进行说明。
步骤402、确定设定周期内每个网址对应的审计次数。
与图4的拓扑结构类似的,假设拓扑中存在两台数据流处理设备(实施例一中各步骤的执行主体),分别为第一数据流处理设备和第二数据流处理设备,且第一数据流处理设备确定出的网址及第一设定周期内(周期可以设定为7天,假设第一设定周期为2011.11.5~11.11)每个网址对应的审计次数如表1所示(按照审计次数由高到低排列),第二数据流处理设备确定出的网址及第一设定周期内每个网址对应的审计次数如表2所示(按照审计次数由高到低排列)。
  网址   审计次数
  bbs.xxx.com   230
  bbs.yyy.com   102
  forum.zzz.com   30
表1
  网址   审计次数
  bbs.xxx.com   23
  bbs.bbb.com   10
  forum.zzz.com   4
表2
同样,第一数据流处理设备可以将确定出的网址及第二设定周期内(假设第二设定周期为2011.11.12~11.18)每个网址对应的审计次数上报给云服务器,第二数据流处理设备可以将确定出的网址及第二设定周期内每个网址对应的审计次数上报给云服务器。
步骤403、将确定出的网址及对应的审计次数上报至云服务器。
步骤404、确定字段名是否失效。
云服务器对第一数据流处理设备和第二数据流处理设备上报的信息进行排重整合处理,针对第一设定周期得到如下信息,可以如表3所示(按照审计次数由高到低排列):
  网址   审计次数
  bbs.xxx.com   253
  bbs.yyy.com   102
  forum.zzz.com   34
  bbs.bbb com   10
表3
若云服务器在第二设定周期内得到的信息如表4所示:
  网址   审计次数
  bbs.yyy.com   153
  forum.zzz.com   39
  bbs.bbb com   11
表4
根据表3和表4,云服务器可以确定网址bbs.xxx.com对应的审计次数发生锐减(第二设定周期内的审计次数与第一设定周期内的审计次数相比,减少的审计次数大于设定次数),可以认为该数据流的特征字段的字段名发生了改变,并可以进一步人工判断网址bbs.xxx.com对应的特征字段的字段名是否失效,从而实现对字段名失效的有效检测。
根据本发明实施例一~实施例四提供的方案,不仅可以有效过滤数据流,提供后续审计的效率,以及自动解析特征字段对应的字段名集合,提高审计的正确率,还可以通过信息反馈的方式,不断更新预先确定出的网址集合和字段名集合,减少漏审发生的可能性,进一步提高审计的正确率。
与本发明实施例一~实施例四基于同一发明构思,提供以下的数据流处理设备和云服务器。
实施例五、
本发明实施例五提供一种数据流处理设备,该设备的结构如图6所示,包括:
接收模块11用于接收数据流;第一判断模块12用于确定该数据流是否符合HTTP-POST协议;网址提取模块13用于在第一判断模块确定该数据流符合HTTP-POST协议时,提取该数据流对应的网址;第二判断模块14用于确定该数据流对应的网址是否属于预先确定出的网址集合;确定模块15用于在第二判断模块确定该数据流对应的网址属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段;第三判断模块16用于针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,该字段名集合是预先针对该待提取的特征字段,通过抓包分析工具,解析出的已知论坛数据对应的字段名集合;字段值提取模块17用于在第三判断模块确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,提取该字段名对应的字段值。
网址提取模块13具体用于通过POST对应的URL,提取该数据流对应的数据流提交至的网址,和/或通过HTTP报文头部的Referer字段,提取该数据流对应的数据流发布的网址。
第一判断模块12具体用于通过以下方式确定数据流符合HTTP-POST协议:确定该数据流为传输控制协议TCP数据流,且该数据流的POST URIHTTP-VERSION字段中,HTTP-VERSION为HTTP/1.1或HTTP/1.0。
所述装置还包括:
更新模块18用于在第二判断模块确定该数据流对应的网址不属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段,针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,在确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,将该数据流对应的网址提交至云服务器。
所述装置还包括解析模块19和失效检测模块20:
解析模块19用于根据提取的字段值对该字段值对应的数据流进行解析;
失效检测模块20用于确定解析模块解析的每条数据流对应的网址,针对每一个网址,确定设定周期内对该网址对应的数据流解析的次数并上报至云服务器。
实施例六、
本发明实施例六提供一种云服务器,所述云服务器可以将数据流处理设备提交的网址加入所述预先确定出的网址集合,并可以在确定任一周期内对该网址对应的数据流解析的次数与该周期的上一周期内对该网址对应的数据流解析的次数相比,减少的次数大于设定次数时,触发对字段名集合的更新。对字段名集合的更新包括:确定该数据流对应的待提取的特征字段,针对每个待提取的特征字段,定义该特征字段的字段值,通过抓包分析工具,解析出的该特征字段对应的字段名,利用解析出的字段名更新该特征字段对应的字段名集合。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据流处理方法,其特征在于,所述方法包括:
接收数据流,在确定该数据流符合HTTP-POST协议时,提取该数据流对应的网址;
在确定该数据流对应的网址属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段;
针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,该字段名集合是预先针对该待提取的特征字段,通过抓包分析工具,解析出的已知论坛数据对应的字段名集合;
若确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名,提取该字段名对应的字段值。
2.如权利要求1所述的方法,其特征在于,提取该数据流对应的网址,具体包括:
通过POST对应的URL,提取该数据流对应的数据流提交至的网址,和/或通过HTTP报文头部的Referer字段,提取该数据流对应的数据流发布的网址。
3.如权利要求1所述的方法,其特征在于,通过以下方式确定数据流符合HTTP-POST协议:
确定该数据流为传输控制协议TCP数据流,且该数据流的POST URIHTTP-VERSION字段中,HTTP-VERSION为HTTP/1.1或HTTP/1.0。
4.如权利要求1~3任一所述的方法,其特征在于,在确定该数据流对应的网址不属于预先确定出的网址集合时,所述方法还包括:
针对每个待提取的特征字段,在确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,将该数据流对应的网址提交至云服务器;
云服务器将该网址加入所述预先确定出的网址集合。
5.如权利要求1~3任一所述的方法,其特征在于,确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名,提取该字段名对应的字段值之后,所述方法还包括:
根据提取的字段值对该字段值对应的数据流进行解析,以及确定该数据流对应的网址;
针对每一个网址,确定设定周期内对该网址对应的数据流解析的次数并上报至云服务器;
云服务器在确定任一周期内对该网址对应的数据流解析的次数与该周期的上一周期内对该网址对应的数据流解析的次数相比,减少的次数大于设定次数时,确定该数据流对应的待提取的特征字段,针对每个待提取的特征字段,通过抓包分析工具,解析出该特征字段对应的字段名,利用解析出的字段名更新该特征字段对应的字段名集合。
6.一种数据流处理装置,其特征在于,所述装置包括:
接收模块,用于接收数据流;
第一判断模块,用于确定该数据流是否符合HTTP-POST协议;
网址提取模块,用于在第一判断模块确定该数据流符合HTTP-POST协议时,提取该数据流对应的网址;
第二判断模块,用于确定该数据流对应的网址是否属于预先确定出的网址集合;
确定模块,用于在第二判断模块确定该数据流对应的网址属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段;
第三判断模块,用于针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,该字段名集合是预先针对该待提取的特征字段,通过抓包分析工具,解析出的已知论坛数据对应的字段名集合;
字段值提取模块,用于在第三判断模块确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,提取该字段名对应的字段值。
7.如权利要求6所述的装置,其特征在于,
网址提取模块,具体用于通过POST对应的URL,提取该数据流对应的数据流提交至的网址,和/或通过HTTP报文头部的Referer字段,提取该数据流对应的数据流发布的网址。
8.如权利要求6所述的装置,其特征在于,
第一判断模块,具体用于通过以下方式确定数据流符合HTTP-POST协议:确定该数据流为传输控制协议TCP数据流,且该数据流的POST URIHTTP-VERSION字段中,HTTP-VERSION为HTTP/1.1或HTTP/1.0。
9.如权利要求6~8任一所述的装置,其特征在于,所述装置还包括:
更新模块,用于在第二判断模块确定该数据流对应的网址不属于预先确定出的网址集合时,确定该数据流对应的待提取的特征字段,针对每个待提取的特征字段,确定该数据流中是否包含预先确定出的该特征字段对应字段名集合中的字段名,在确定该数据流中包含预先确定出的特征字段对应字段名集合中的字段名时,将该数据流对应的网址提交至云服务器。
10.如权利要求6~8任一所述的装置,其特征在于,所述装置还包括:
解析模块,用于根据提取的字段值对该字段值对应的数据流进行解析;
失效检测模块,用于确定解析模块解析的每条数据流对应的网址,针对每一个网址,确定设定周期内对该网址对应的数据流解析的次数并上报至云服务器。
CN201110415509.9A 2011-12-13 2011-12-13 一种数据流处理方法及装置 Active CN102571922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110415509.9A CN102571922B (zh) 2011-12-13 2011-12-13 一种数据流处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110415509.9A CN102571922B (zh) 2011-12-13 2011-12-13 一种数据流处理方法及装置

Publications (2)

Publication Number Publication Date
CN102571922A true CN102571922A (zh) 2012-07-11
CN102571922B CN102571922B (zh) 2014-07-30

Family

ID=46416386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110415509.9A Active CN102571922B (zh) 2011-12-13 2011-12-13 一种数据流处理方法及装置

Country Status (1)

Country Link
CN (1) CN102571922B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662977A (zh) * 2012-03-13 2012-09-12 网经科技(苏州)有限公司 自学习的发帖审计系统的实现方法
CN105302885A (zh) * 2015-10-15 2016-02-03 北京锐安科技有限公司 一种全文数据的提取方法和装置
CN105407016A (zh) * 2015-11-26 2016-03-16 上海晶赞科技发展有限公司 流量数据中信息点的提取方法及装置
CN105991331A (zh) * 2015-02-16 2016-10-05 杭州迪普科技有限公司 一种论坛审计方法、装置及日志管理装置
CN111163184A (zh) * 2019-12-25 2020-05-15 杭州迪普科技股份有限公司 一种报文特征的提取方法和装置
CN112055020A (zh) * 2020-09-04 2020-12-08 北京明朝万达科技股份有限公司 报文筛选方法、装置及数据传输系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138426A1 (en) * 2003-11-07 2005-06-23 Brian Styslinger Method, system, and apparatus for managing, monitoring, auditing, cataloging, scoring, and improving vulnerability assessment tests, as well as automating retesting efforts and elements of tests
CN101163161A (zh) * 2007-11-07 2008-04-16 福建星网锐捷网络有限公司 统一资源定位器地址过滤方法及中间传输设备
CN101453424A (zh) * 2009-01-06 2009-06-10 中国人民解放军信息工程大学 一种网络信息资源访问控制方法和系统
CN101841465A (zh) * 2010-03-08 2010-09-22 北京网康科技有限公司 一种基于信息交互的内容流控系统及其实现方法
CN102098229A (zh) * 2011-03-04 2011-06-15 北京星网锐捷网络技术有限公司 统一资源定位符优化审计的方法、装置和网络侧设备
CN102098331A (zh) * 2010-12-29 2011-06-15 北京锐安科技有限公司 一种还原web类应用内容的方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138426A1 (en) * 2003-11-07 2005-06-23 Brian Styslinger Method, system, and apparatus for managing, monitoring, auditing, cataloging, scoring, and improving vulnerability assessment tests, as well as automating retesting efforts and elements of tests
CN101163161A (zh) * 2007-11-07 2008-04-16 福建星网锐捷网络有限公司 统一资源定位器地址过滤方法及中间传输设备
CN101453424A (zh) * 2009-01-06 2009-06-10 中国人民解放军信息工程大学 一种网络信息资源访问控制方法和系统
CN101841465A (zh) * 2010-03-08 2010-09-22 北京网康科技有限公司 一种基于信息交互的内容流控系统及其实现方法
CN102098331A (zh) * 2010-12-29 2011-06-15 北京锐安科技有限公司 一种还原web类应用内容的方法及其系统
CN102098229A (zh) * 2011-03-04 2011-06-15 北京星网锐捷网络技术有限公司 统一资源定位符优化审计的方法、装置和网络侧设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662977A (zh) * 2012-03-13 2012-09-12 网经科技(苏州)有限公司 自学习的发帖审计系统的实现方法
CN105991331A (zh) * 2015-02-16 2016-10-05 杭州迪普科技有限公司 一种论坛审计方法、装置及日志管理装置
CN105302885A (zh) * 2015-10-15 2016-02-03 北京锐安科技有限公司 一种全文数据的提取方法和装置
CN105302885B (zh) * 2015-10-15 2019-12-06 北京锐安科技有限公司 一种全文数据的提取方法和装置
CN105407016A (zh) * 2015-11-26 2016-03-16 上海晶赞科技发展有限公司 流量数据中信息点的提取方法及装置
CN105407016B (zh) * 2015-11-26 2019-03-26 上海晶赞科技发展有限公司 流量数据中信息点的提取方法及装置
CN111163184A (zh) * 2019-12-25 2020-05-15 杭州迪普科技股份有限公司 一种报文特征的提取方法和装置
CN111163184B (zh) * 2019-12-25 2022-07-01 杭州迪普科技股份有限公司 一种报文特征的提取方法和装置
CN112055020A (zh) * 2020-09-04 2020-12-08 北京明朝万达科技股份有限公司 报文筛选方法、装置及数据传输系统

Also Published As

Publication number Publication date
CN102571922B (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN102571922B (zh) 一种数据流处理方法及装置
CN101937469B (zh) 视频网站的信息抓取方法
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN104598232B (zh) 一种Web应用跨设备捕捉‑回放方法
CN104881488A (zh) 基于关系表的可配置信息抽取方法
CN105577528B (zh) 一种基于虚拟机的微信公众号数据采集方法及装置
CN106095979A (zh) Url合并处理方法和装置
CN104869009A (zh) 网站数据统计的系统和方法
CN105468737A (zh) 一种网络服务大数据分析方法、云计算平台及挖掘系统
CN104640138B (zh) 一种定位问题终端的方法及装置
CN103218410A (zh) 互联网事件分析方法与装置
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN103136358A (zh) 一种自动抽取论坛数据的方法
CN107862039A (zh) 网页数据获取方法、系统和数据匹配推送方法
CN103345532A (zh) 一种网页信息抽取方法及装置
CN108289093A (zh) App应用特征码库的构建方法及构建系统
CN103188347B (zh) 互联网事件分析方法与装置
CN110968571A (zh) 面向金融信息服务的大数据分析与处理平台
CN103036910A (zh) 一种用户Web访问行为控制方法及装置
CN104317847A (zh) 一种识别网络文字信息的语种的方法及系统
CN104331512B (zh) 一种bbs页面自动采集方法
CN104636340A (zh) 网页url过滤方法、装置及系统
CN104156458B (zh) 一种信息的提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant