CN102185762B - 用户数据发送行为的识别与提取方法 - Google Patents
用户数据发送行为的识别与提取方法 Download PDFInfo
- Publication number
- CN102185762B CN102185762B CN201110097759.2A CN201110097759A CN102185762B CN 102185762 B CN102185762 B CN 102185762B CN 201110097759 A CN201110097759 A CN 201110097759A CN 102185762 B CN102185762 B CN 102185762B
- Authority
- CN
- China
- Prior art keywords
- behavior
- user
- network equipment
- user behavior
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及用户数据发送行为的识别与提取及其处理设备。本发明首先捕获用户发送数据流量。然后从树形结构特征库的根节点开始,将该树形结构特征库中的特征依次与所述数据流量中的字符串做匹配,以识别出用户行为。其中,所述树形结构特征库以树形结构方式存储用户行为特征。本发明能够快速准确地识别、提取出用户发送数据行为,并能够提取出于该用户行为相关的信息。本发明能够广泛应用于计算机网络安全领域中。
Description
技术领域
本发明涉及计算机网络安全,尤其涉及网络中的用户行为管理。
背景技术
目前广泛使用的网络安全设备,如防火墙、入侵侦测系统、WebSecurity等,都是基于网络协议本身的一种安全设备。然而随着互联网应用的快速发展,目前很多应用可以通过不同网络协议来承载,这时仅依赖于网络协议控制的安全设备会存在一定的安全隐患,因此,通过对互联网环境中的用户行为进行识别尤显重要。由于网络环境非常复杂,各种网络应用没有统一的实现标准,因此对网络中用户行为的识别具有很高的难度。
用户通过网页发送数据行为包括发帖、回复、评论、写博客(blog)、改签名状态、站内聊天、站内发消息、登录论坛、退出论坛等。对用户行为识别优劣的衡量主要体现在两个方面:
1.凡出现特定行为的网络流量,能够正确识别出此行为,即不遗漏;其用识别率来衡量,识别率=正确识别的流量个数/所有该行为的流量个数;
2.凡非特定行为的网络流量,能够正确识别出不是此行为,即不误识别;其用误识率来衡量,误识别率=识别为该行为流量的个数/所有不是该行为的流量个数。
此外,在已识别出用户行为前提下,网络管理者通常还希望能够提取出与此种行为相关的信息,如提取出具体的用户行为(如登录、发送信息、退出等),以及与该行为相关的信息,如帐号、标题、内容、附件(如名称、大小、个数、内容等)、发送内容的链接地址等。举例,若提取出链接地址,则在识别出敏感言论时,能够准确有效地定位,即能够对相应页面链接得到准确访问。
对用户行为信息提取优劣的衡量标准主要体现在以下两个方面:
1.能够正确提取用户行为信息,如包括标题、内容、所发附件、用户账 号等;
2.能够处理网络中各种编码方式,比如urlencode,ba se64,unicode,utf8,gbk等编码方式。
随着互联网应用的不断深化,网络用户行为管理系统必将成为新一代的网络安全设备,而用户行为识别则是网络用户行为管理系统的核心技术。用户发送数据行为高速精确识别方法及以其为核心技术的设备具有重要的应用前景。
目前通常采用的网络行为识别方法是,向网络中抓取数据包,然后再将该数据包与一个简单的全局特征集合中的所有元素进行匹配,从而识别出用户发送数据行为。此种方式识别率较低,且误识别率较高,无法保证高准确性和识别率,同时此种方法还在一定程度上影响用户机器速度。
发明内容
本发明目的就是为了提供一种能够快速、精确的识别出用户发送数据行为。
在第一方面,本发明提供了一种通过网络设备来识别用户发送数据行为的方法。该网络设备捕获用户所属终端发送数据的流量。该网络设备将树形结构特征库中的特征依次与所述数据流量中的字符串做匹配,以识别出用户行为。其中,所述树形结构特征库以树形结构方式存储用户行为特征。
在第二方面,本发明提供了一种识别用户发送数据行为的网络设备。该网络设备包括,捕获用户发送数据流量的模块,以树形结构方式存储用户行为特征的树形结构特征库,以及将该树形结构特征库中的特征依次与所述数据流量中的字符串做匹配以识别出用户行为的模块。
本发明通过树形结构特征库快速、精确地识别及提取出用户发送数据行为。此外,本发明还能够提取到与用户行为相关的信息,如标题,正文内容、所发附件、用户账号等。本发明的识别率可达到95%以上,误识别率则低于5%,并且本发明的识别效率可达到log(n)级,其中,n为该识别库容量。
附图说明
下面将参照附图对本发明的具体实施方案进行更详细的说明,在附图 中:
图1是本发明一个实施例的识别及提取用户发送数据行为的系统示意图;
图2是本发明一个实施例的识别及提取用户发送数据行为的方法流程图;
图3是HTTP数据流量的一个例子;
图4是本发明一个实施例的树形结构特征库示意图;
图5是本发明一个实施例的根据树形特征库识别提取用户行为以及提取与用户行为相关信息的方法流程图。
具体实施方式
图1是本发明一个实施例的识别及提取用户发送数据行为(简称用户行为)的系统示意图。
该系统包括网络行为管理设备120,该设备用于获取各终端(终端1、终端2,......终端n)发送的HTTP数据流量(如图3),并根据该数据流量以及树形结构特征库(如图4)识别及提取出用户具体行为(如论坛发帖行为),以及提取出与该用户行为相关的信息,如账号、标题、正文内容等。
需要说明的是,该网络行为管理设备120可以是一个独立的设备,也可以以一个模块形式存在于网关、上网行为管理等网络设备中。
图2是本发明一个实施例的识别及提取用户发送数据行为(简称用户行为)的方法流程图。下面以获取到图3(图3是HTTP数据流量的一个例子)中数据流量为例,详细阐述如何通过该数据流量识别并提取出用户发送数据行为。
在步骤210,将图3中的数据流量存放在缓冲中。
在步骤220,遍历该缓冲中的数据流量,并为该数据流量中的每一字符做标记,以方便索引。具体地,将该数据流量中的每一字符串映射到一个map表中,在该map表中,将该数据流量中的字符串以key(关键字)、value(值)方式相对应的存储起来,以方便索引。
在步骤230,根据树形结构特征库(如图4),将该特征库中的特征与map表(由步骤220得到)中的key(关键字)做匹配,若匹配上,则根据其 value(值)识别出用户的具体行为,同时提取该行为;并在识别、提取到该用户行为后,继续提取与该用户行为相关的信息,如账号、正文内容等信息。如何通过该树形结构特征库来识别、提取出用户行为,以及如何提取与该用户行为相关的信息,将在图5中得到详细阐述。下面阐述树形结构特征库。
图4是本发明一个实施例的树形结构特征库的示意图,该树形结构特征库存储于网络行为管理设备120中,且该树形结构特征库包括精确库和模糊库。
精确库中的特征来自于访问量巨大,且较著名的网站,如新浪等。因此,精确库可以保证正确识别率,并能够降低误识别率。进一步地,在精确库中添加否定特征,从而进一步降低了误识别率。
模糊库中的特征来自于大量的统计数据,是通过选取网络中最可能出现特征而获得到的。因此模糊库能够保证识别出所有可能出现的用户行为,进一步提高了识别率。
需要说明的是,本发明的树形结构特征库的节点很多,图4中的“......”符号,代表有多个节点。此外,本发明并不限于通过图4中的Method、Host、URL_path、URL_query四个步骤识别出用户行为。某些行为仅需要通过三步Method、Host、URL_path就能够识别出用户行为(图4中并未示意)。
下面详细阐述如何根据树形结构特征库以及图2数据流量来识别用户发送数据的行为,以及提取与该用户行为相关的信息。
图5是本发明一个实施例的根据树形特征库识别提取用户行为以及提取与用户行为相关信息的方法流程图。该图5示意的是,经过精确库中的Method、Host、URL_path、URL_query四个步骤,以及经过模糊库来识别用户的行为。需要说明的是,也可以仅经过三步Method、Host、URL_path就能够识别出用户行为(此种情况图5并未示意)。
在步骤510,从图4树形结构特征库中的Method(请求方法)开始,对图3数据流量中每一字符串做匹配,即将Method层中的各特征(包括GET、POST)与数据流量中的每一字符串做匹配。当特征POST与图3字符串POST匹配时,识别出用户发送数据行为(简称用户行为)是“用户向服务器发送数据”的行为,同时提取该用户行为,以下步骤以识别出用户行为是“用户向服务器发送数据”为例进行阐述。
需要说明的是,本发明的树形结构特征库能够兼容完全匹配及部分匹配两种匹配方式。也就是说,某些特征可设置成完全匹配,其他特征则可设置成部分匹配。完全匹配需要特征与字符串完全相同。举例如,特征POST与字符串POST完全匹配。部分匹配则仅需要特征与字符串中的部分内容相同即可。举例如,特征body与字符串body123、bodyabc、body4x2部分匹配。又如,如果co是特征,而con、acon不是特征,则需要co采用完全匹配方式,使得co可以命中,而con、acon不能命中。
此外,由于步骤220已经遍历图3中每一字符,并将图3中每一key、value相对应地存放在map表中,因此通过索引该map表的方式,上述步骤510以及下述步骤520、步骤530、步骤540中的匹配步骤就能够快速完成。
在步骤520,将图4Host(主机名)层中的且为POST叶子节点的特征,与图3中的每一字符串进行匹配。
在步骤521,当特征sina.com与图3字符串club.eladies.sina.com.cn相匹配时,则说明该用户访问了新浪网站,同时提取出“用户访问新浪论坛”。
在步骤522,如果图4Host中的且为POST叶子节点的特征,与图3中的每一字符串均不匹配,则进入模糊库,并将模糊库中的各特征关键字与图3数据流量进行匹配。
需要说明的是,上述通过模糊库来识别用户行为是因为精确库的Host层中特征与数据流量中的字符串均不匹配。并且当URL_path层或URL_query层中的特征与数据流量中的字符串不匹配时,同样也需要通过模糊库来识别用户行为(此种情况将通过下面的步骤得到阐述)。因此,模糊库中的特征是能够与HTTP请求体中的字符串相匹配的特征。并且由于通过模糊库来识别用户信息,是在没有识别出Host(主机名)或URL_path(资源路径)、URL_query(资源查询条件)情况下而发生的,因此通过该模糊库来识别用户信息,如识别正文内容,则需要与多个可能的关键字同时进行才能够实现。原因是不同的Host、URL_path、URL_query,其与用户信息相关的特征不同。举例说明,正文内容在sina.com中关键字是message,而对于其他主机名,则正文内容很可能是body、content,因此通过模糊库来识别正文内容,则需要匹配message、body、content等多个特征。在步骤540,将图4URL_path(资源路径)层中的且为sina.com叶子节点的特征,与图3中的每一字符串进行 匹配。
在步骤541,当特征post.php与图3中的字符串post.php相匹配时,则识别出用户行为是“发帖”行为,同时提取出该行为,然后转入步骤550。
在步骤542,如果图4URL_path(资源路径)层中的且为sina.com叶子节点的特征与图3中的每一字符串均不匹配,则进入模糊库,并将模糊库中的各节点与图3数据流量进行匹配,如果匹配上,则识别并提取出相应行为。在步骤550,将图4URL_query(资源查询条件)层中的且为post.php叶子节点的特征,与图3中的每一字符串进行匹配。
在步骤551,当特征acion=reply与图3中的字符串action=reply&fid=153&tid=4023888&extra=page%3D1&replysubmit=yes相匹配时,则识别出用户行为是“回复”行为,同时提取出该行为,然后转入步骤560。
在步骤552,如果图4URL_query(资源查询条件)层中的且为post.php叶子节点的特征与图3中的每一字符串均不匹配,则进入模糊库,并将模糊库中的各节点与图3数据流量进行匹配,如果匹配上,则识别并提取出相应行为。
通过上述步骤510、步骤520、步骤521、步骤540、步骤541、步骤550、步骤551可识别并提取出用户行为是“回复新浪论坛中一个帖子”行为。然而,在识别、提取出用户行为之后,还可以根据数据流量(如图3)进一步提取与该用户行为相关的信息(如账号、正文内容等)。
在步骤560,进一步提取与用户行为相关的信息,如提取账号、标题内容、正文内容等。
具体地,当图4中的与用户行为相关的特征SINA_USER,与图3数据流量中的字符串SINA_USER相匹配时,则提取该数据流量中SINA_USER后面的value(值),以获取到用户账号。当图4中的与用户行为相关的特征subject,与图3数据流量中的字符串subject相匹配时,则提取出该数据流量中subject后面的Sigh,以获取到标题内容为Sigh。当图4中的与用户行为相关的特征message,与图3数据流量中的字符串message相匹配时,则提取出该字符串后面是wonderful,以获取到正文内容是wonderful。
需要说明的是,某些情况下,不同Host(主机名)所采用的网络编码方式 不同,因此此时网络行为管理模块120终端无法正确显示出其提取出的用户行为、与用户行为相关的信息,下述步骤570就是为了解决此种问题而采用的方法。
在步骤570,自动识别编码方式。
具体地,查找数据流量中关键字Content-Type(内容类型)的value(值)是否含有编码信息。如果有,则提取该编码信息,以便网络行为管理模块120的终端能够正确显示其提取出的用户行为、与用户行为相关的信息。
如果没有,则查看图3树形结构特征库最低层(即URL_query层)叶子节点上是否有描述编码信息(并且该编码信息是在识别及提取出用户行为时而获得的)。如果有,则获取该编码信息,以便网络行为管理模块120的终端能够正确显示其提取出的用户行为、与用户行为相关的信息。
如果没有,则采用尝试编码转换算法转换编码,以使终端能够正确显示出所提取到的用户行为、与用户行为相关的信息。
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
Claims (8)
1.一种通过网络设备来识别用户发送数据行为的方法,其特征在于,包括:
所述网络设备捕获用户所属终端发送数据的流量;
所述网络设备将树形结构特征库中的特征依次与所述数据流量中的字符串做匹配,以识别出用户行为;
其中,所述树形结构特征库以树形结构方式存储用户行为特征;
所述树形结构特征库包括精确库和模糊库;
所述识别步骤包括,根据所述精确库来识别所述用户行为;且该识别顺序为:HTTP请求方法(Method)、主机名(Host)、资源路径(URL_path)、资源查询条件(URL_query);
在所述数据流量与所述主机名(Host)或资源路径(URL_path)或资源查询条件(URL_query)层中的各特征均不匹配时,则通过所述模糊库来识别所述用户行为。
2.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述HTTP请求方法(Method)包括GET请求方法和POST请求方法。
3.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,所述匹配为完全匹配和/或部分匹配。
4.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在所述匹配步骤之前包括,将所述数据流量中的字符串映射到一个表中,并在该表中将该数据流量中的字符串以关键字key、值value方式相对应的存储起来的步骤。
5.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在所述识别用户行为的同时,包括提取该行为的步骤。
6.如权利要求1所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在识别出所述用户行为之后,包括提取与该用户行为相关信息的步骤。
7.如权利要求5或6所述的一种通过网络设备来识别用户发送数据行为的方法,其特征在于,在所述识别步骤之后,包括通过该网络设备的终端来显示该提取结果的步骤。
8.如权利要求7所述的一种通过网络设备识别用户发送数据行为的方法,其特征在于,包括:
查找所述数据流量中关键字内容类型Content-Type是否含有编码信息,若有,则获取该编码信息,以便该网络设备的终端能够正确显示所述提取结果;
若没有,则查看所述树形结构特征库中是否含有编码信息,若有,则获取该编码信息,以便该网络设备的终端能够正确显示所述提取结果;
若没有,则采用编码转换算法转换编码,以使该网络设备的终端能够正确显示所述提取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110097759.2A CN102185762B (zh) | 2011-04-19 | 2011-04-19 | 用户数据发送行为的识别与提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110097759.2A CN102185762B (zh) | 2011-04-19 | 2011-04-19 | 用户数据发送行为的识别与提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102185762A CN102185762A (zh) | 2011-09-14 |
CN102185762B true CN102185762B (zh) | 2014-04-16 |
Family
ID=44571833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110097759.2A Active CN102185762B (zh) | 2011-04-19 | 2011-04-19 | 用户数据发送行为的识别与提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102185762B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103036910B (zh) * | 2013-01-05 | 2015-10-07 | 北京网康科技有限公司 | 一种用户Web访问行为控制方法及装置 |
CN103634164B (zh) * | 2013-12-04 | 2017-11-10 | 中国联合网络通信集团有限公司 | 一种获取流量信息的方法及系统 |
CN104052737A (zh) * | 2014-05-19 | 2014-09-17 | 北京网康科技有限公司 | 一种网络数据报文的处理方法及装置 |
CN105282123B (zh) * | 2014-07-24 | 2018-11-16 | 亿阳安全技术有限公司 | 一种网络协议识别方法和装置 |
CN104618132B (zh) * | 2014-12-16 | 2018-02-16 | 北京神州绿盟信息安全科技股份有限公司 | 一种应用程序识别规则生成方法和装置 |
CN104410533A (zh) * | 2014-12-17 | 2015-03-11 | 乐山师范学院 | 网络用户行为识别系统 |
CN105357118A (zh) * | 2015-10-23 | 2016-02-24 | 上海斐讯数据通信技术有限公司 | 一种基于规则的流量分类方法和系统 |
CN107403013A (zh) * | 2017-08-01 | 2017-11-28 | 杭州安恒信息技术有限公司 | Web业务行为的识别方法及装置 |
CN108023779A (zh) * | 2017-12-20 | 2018-05-11 | 杭州云屏科技有限公司 | 一种基于网络流量分析用户行为的方法及系统 |
CN110035087B (zh) * | 2019-04-24 | 2021-03-26 | 全知科技(杭州)有限责任公司 | 一种从流量还原账号信息的方法、装置、设备及存储介质 |
CN112367406B (zh) * | 2020-11-19 | 2022-08-30 | 全知科技(杭州)有限责任公司 | 识别web应用系统中帐号行为分析对应帐号关联属性的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119321A (zh) * | 2007-09-29 | 2008-02-06 | 杭州华三通信技术有限公司 | 网络流量分类处理方法及网络流量分类处理装置 |
CN101562534A (zh) * | 2009-05-26 | 2009-10-21 | 中山大学 | 一种网络行为分析系统 |
CN101741908A (zh) * | 2009-12-25 | 2010-06-16 | 青岛朗讯科技通讯设备有限公司 | 一种应用层协议特征的识别方法 |
CN101789887A (zh) * | 2009-12-25 | 2010-07-28 | 成都市华为赛门铁克科技有限公司 | 网络用户分类方法、装置和网络业务监控系统 |
CN101902484A (zh) * | 2009-05-25 | 2010-12-01 | 北京启明星辰信息技术股份有限公司 | 局域网http应用业务分类方法及系统 |
-
2011
- 2011-04-19 CN CN201110097759.2A patent/CN102185762B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119321A (zh) * | 2007-09-29 | 2008-02-06 | 杭州华三通信技术有限公司 | 网络流量分类处理方法及网络流量分类处理装置 |
CN101902484A (zh) * | 2009-05-25 | 2010-12-01 | 北京启明星辰信息技术股份有限公司 | 局域网http应用业务分类方法及系统 |
CN101562534A (zh) * | 2009-05-26 | 2009-10-21 | 中山大学 | 一种网络行为分析系统 |
CN101741908A (zh) * | 2009-12-25 | 2010-06-16 | 青岛朗讯科技通讯设备有限公司 | 一种应用层协议特征的识别方法 |
CN101789887A (zh) * | 2009-12-25 | 2010-07-28 | 成都市华为赛门铁克科技有限公司 | 网络用户分类方法、装置和网络业务监控系统 |
Non-Patent Citations (2)
Title |
---|
基于流量识别的网络用户行为分析;杨铮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20101021(第12期);全文 * |
杨铮.基于流量识别的网络用户行为分析.《中国优秀硕士学位论文全文数据库 信息科技辑》.2010,(第12期),全文. |
Also Published As
Publication number | Publication date |
---|---|
CN102185762A (zh) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102185762B (zh) | 用户数据发送行为的识别与提取方法 | |
JP6220407B2 (ja) | マルチスケールテキストフィンガープリントを使用する文書分類 | |
CA2859135C (en) | System and methods for spam detection using frequency spectra of character strings | |
CA2859131C (en) | Systems and methods for spam detection using character histograms | |
CN103546446B (zh) | 一种钓鱼网站的检测方法、装置和终端 | |
CN102082792A (zh) | 钓鱼网页检测方法及设备 | |
US11537751B2 (en) | Using machine learning algorithm to ascertain network devices used with anonymous identifiers | |
CN108900554B (zh) | Http协议资产检测方法、系统、设备及计算机介质 | |
Zhang et al. | Toward unsupervised protocol feature word extraction | |
US11880401B2 (en) | Template generation using directed acyclic word graphs | |
CN101470752A (zh) | 基于关键词解析调度的搜索引擎方法 | |
CN110008462A (zh) | 一种命令序列检测方法及命令序列处理方法 | |
CN105589935A (zh) | 社交群组识别方法 | |
CN102984242A (zh) | 一种应用协议的自动识别方法和装置 | |
US11647046B2 (en) | Fuzzy inclusion based impersonation detection | |
CN112231700B (zh) | 行为识别方法和装置、存储介质及电子设备 | |
CN104376000A (zh) | 确定网页属性的方法及装置 | |
CN104216872B (zh) | 一种识别网络小说中垃圾章节的方法及装置 | |
CN114328818A (zh) | 文本语料处理方法、装置、存储介质及电子设备 | |
CN109462598B (zh) | 一种从网络报文中提取账号信息的方法 | |
Liu et al. | Defense against malicious URL spreading in micro‐blog network with hub nodes | |
KR102552330B1 (ko) | 검색엔진을 이용한 악성 인터넷 주소 탐지 시스템 및 방법 | |
CN114070819B (zh) | 恶意域名检测方法、设备、电子设备及存储介质 | |
CN101808088A (zh) | 一种网络控制设备及其实现方法 | |
CN102571976B (zh) | 一种基于http协议头的磁盘地理位置定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |