CN102098229A - 统一资源定位符优化审计的方法、装置和网络侧设备 - Google Patents

统一资源定位符优化审计的方法、装置和网络侧设备 Download PDF

Info

Publication number
CN102098229A
CN102098229A CN2011100531172A CN201110053117A CN102098229A CN 102098229 A CN102098229 A CN 102098229A CN 2011100531172 A CN2011100531172 A CN 2011100531172A CN 201110053117 A CN201110053117 A CN 201110053117A CN 102098229 A CN102098229 A CN 102098229A
Authority
CN
China
Prior art keywords
url
uniform resource
resource locator
request message
pond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100531172A
Other languages
English (en)
Other versions
CN102098229B (zh
Inventor
魏逢一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Star Net Ruijie Networks Co Ltd
Original Assignee
Beijing Star Net Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Star Net Ruijie Networks Co Ltd filed Critical Beijing Star Net Ruijie Networks Co Ltd
Priority to CN2011100531172A priority Critical patent/CN102098229B/zh
Publication of CN102098229A publication Critical patent/CN102098229A/zh
Application granted granted Critical
Publication of CN102098229B publication Critical patent/CN102098229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种统一资源定位符优化审计的方法、装置和网络侧设备,该统一资源定位符优化审计的方法包括:当接收的请求报文的报文头中包括来源域时,提取所述来源域的值与所述请求报文的统一资源定位符;当所述来源域的值与预先设置的统一资源定位符访问缓存池中记录的统一资源定位符均不相同,且所述请求报文的统一资源定位符与预先设置的浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符均不相同时,审计所述请求报文的统一资源定位符。本发明实施例可以实现有效识别浏览器自动生成的URL访问,对用户的实际网络访问行为进行有效的审计。

Description

统一资源定位符优化审计的方法、装置和网络侧设备
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种统一资源定位符优化审计的方法、装置和网络侧设备。
背景技术
随着网络的发展,互联网应用已经渗透到社会生活的每一个角落,成为人们学习、工作和生活不可或缺的工具,成为企业运营的基础平台。互联网的开放性、交互性和延伸性为人们快速获取知识、即时沟通以及跨地域交流提供了极大的便利;与此同时,互联网的便利性与虚拟性也成为各种不和谐行为滋生的温床,网络恶搞、人肉搜索、工作时间“偷菜”以及浏览与工作无关的网站等问题,越来越对社会和谐,以及企业效率等提出了严峻的挑战。
统一资源定位符(Uniform Resource Locator;以下简称:URL)过滤提供了一种简单而有效的方案,可以防止用户访问与工作无关的、不健康的和恶意的网站,而URL审计则使得用户的上网行为变得更加透明化,可以清楚地看到内网用户在什么时间访问了什么网站,同时这也是一种强有力的威慑工具,有利于规范网络的合理利用。
现有技术中,URL的语法格式如下所示:
HTTP_URL:=″http:″″//″host[:port][abs_path[″?″query]]
其中“http”代表超文本传输协议(HyperText Transfer Protocol;以下简称:HTTP),“host[:port]”为HTTP请求报文首部主(host)域的值,即资源站点的地址,可以是域名,也可以是因特网协议(Internet Protocol;以下简称:IP)地址,如果端口(port)为空,则代表端口为80。“abs_path[″?″query]”即资源的统一资源标识符(Uniform Resource Identifier;以下简称:URI)。
当通过浏览器去访问一个网站的首页时,浏览器往往不只发起一个URL请求。例如:通过浏览器访问“http://www.linux.org/”时,实际上浏览器发起了大量的URL请求,如(仅罗列部分):
http://www.linux.org/
http://www.linux.org/images/colour/yellow.gif
http://www.linux.org/images/header/advert.if
http://www.linux.org/favicon.ico
http://www.linux.org/images/logo/linuxorg.gif
http://www.linux.org/advert/bin/source?02:1826:0490:BA4C0A3FFFD016730F3A1A59
http://www.linux.org/images/navbar/news.gif
http://www.linux.org/images/navbar/events.gif
http://www.linux.org/images/navbar/hardware.gif
http://www.linux.org/image s/navbar/people.gif
http://www.linux.org/images/navbar/projects.gif
http://www.linux.org/images/navbar/usergroups.gif
http://www.linux.org/images/navbar/download.gif
http://www.linux.org/advert/bin/source?02:1822:0484:BA4C0A3FFFD016731D3A1A99
……
造成上面这种情况的原因就在于“www.linux.org”首页中包含了大量的图片数据,浏览器在获取首页的同时,会自动去获取这些图片数据,也就生成了大量的URL请求。互联网网站访问的这种情况可谓比比皆是,这些浏览器自动生成的URL请求对URL审计来说,往往是没有实际意义的,如果不加区分的将这些URL请求全部审计下来的话,审计数据量将会很庞大,带来如下问题:
1、URL审计的时间与性能开销较大。
2、海量数据占用大量的存储空间;
3、从海量审计数据中去查询想要的信息时,对查询性能的要求很大。
因此,在对URL进行审计的时候,需要过滤掉那些没有实际意义的URL请求(例如:由浏览器自动生成的URL请求),使得URL审计更加贴近用户实际的网络访问行为。
现有技术中,在对URL进行审计时,主要有以下几种方式:
1、不审计图片、脚本和样式等的URL访问,其他的都审计。
这种方式通常是预先设定一个不审计的后缀列表,如“.jpg”、“.gif”、“.ico”、“.css”、“.js”、“.png”等,如果URL的后缀在不审计后缀列表中,则该URL将不会被审计下来。
这种方式虽然实现起来很简单,也可以过滤掉很大一部分URL请求,但还是有大量的URL无法过滤掉,并且这种URL在互联网上是大量存在的。并且,该方式还有另一个问题,如果用户自己在浏览器里输入“http://www.linux.org/imges/colour/yellow.gif”的话,使用了本方式的话,该URL将不会被审计,可该URL却是用户的实际网络访问行为。
2、HTTP请求报文的HTTP头部中带有来源(Referer)域的URL请求不审计。
该方式同样存在一个问题,如果用户此时在首页上点击了一个链接,使用该方法,该URL也将被忽略,而该URL却是用户的实际网络访问行为。
综上所述,现有技术尚无法进行有效的URL优化审计,无法对用户的实际网络访问行为进行有效的审计。
发明内容
本发明实施例提供一种统一资源定位符优化审计的方法、装置和网络侧设备,以实现有效识别浏览器自动生成的URL访问,对用户的实际网络访问行为进行有效的审计。
本发明实施例提供一种统一资源定位符优化审计的方法,包括:
当接收的请求报文的报文头中包括来源域时,提取所述来源域的值与所述请求报文的统一资源定位符;
当所述来源域的值与预先设置的统一资源定位符访问缓存池中记录的统一资源定位符均不相同,且所述请求报文的统一资源定位符与预先设置的浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符均不相同时,审计所述请求报文的统一资源定位符。
本发明实施例还提供一种统一资源定位符优化审计的装置,包括:
提取模块,用于当接收的请求报文的报文头中包括来源域时,提取所述来源域的值与所述请求报文的统一资源定位符;
审计模块,用于当所述提取模块提取的来源域的值与预先设置的统一资源定位符访问缓存池中记录的统一资源定位符均不相同,且所述提取模块提取的所述请求报文的统一资源定位符与预先设置的浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符均不相同时,审计所述请求报文的统一资源定位符。
本发明实施例还提供一种网络侧设备,包括上述统一资源定位符优化审计的装置。
通过本发明实施例,当接收到的请求报文的报文头中来源域的值与预先设置的统一资源定位符访问缓存池中记录的统一资源定位符均不相同,且接收到的请求报文的统一资源定位符与预先设置的浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符均不相同时,才对上述请求报文的统一资源定位符进行审计,否则不审计该请求报文的统一资源定位符,从而可以实现有效识别浏览器自动生成的URL访问,对用户的实际网络访问行为进行有效的审计。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明统一资源定位符优化审计的方法一个实施例的流程图;
图2为本发明统一资源定位符优化审计的方法另一个实施例的流程图;
图3为本发明对网页数据进行分析的方法一个实施例的流程图;
图4为本发明统一资源定位符优化审计的装置一个实施例的结构示意图;
图5为本发明统一资源定位符优化审计的装置另一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明统一资源定位符优化审计的方法一个实施例的流程图,如图1所示,该统一资源定位符优化审计的方法可以包括:
步骤101,当接收的请求报文的报文头中包括来源(Referer)域时,提取该Referer域的值与该请求报文的URL。
本实施例中,接收的请求报文可以为HTTP请求报文,该请求报文的报文头可以为HTTP头。上述Referer域为HTTP头中的一个域,Referer域的值表明了HTTP请求报文的URL的来源地址,Referer域的值的格式与URL的格式相同;当URL是用户直接在浏览器中敲入产生时,Referer域的值为空。
进一步地,在提取该Referer域的值与该请求报文的URL之后,可以将该请求报文的URL记录到URL访问缓存池中。
步骤102,当上述Referer域的值与预先设置的URL访问缓存池中记录的URL均不相同,且该请求报文的URL与预先设置的浏览器自动URL访问缓存池中记录的URL均不相同时,审计该请求报文的URL。
本实施例中,当接收的请求报文的报文头中不包括Referer域时,可以提取该请求报文的URL,将该请求报文的URL记录到URL访问缓存池中,然后审计该请求报文的URL。
进一步地,在步骤101提取该Referer域的值与该请求报文的URL之后,当该请求报文的URL与浏览器自动URL访问缓存池中记录的至少一个URL相同时,或者当Referer域的值与URL访问缓存池中记录的至少一个URL相同时,也可以将该请求报文的URL记录到URL访问缓存池中;但是,本实施例中,不审计该请求报文的URL。
本实施例中,URL访问缓存池中记录的URL为预设时间段(例如:5秒)内用户访问的URL,该URL访问缓存池中的节点记录该用户的IP地址、该用户访问的URL对应的URL字符串和访问该用户访问的URL的时间中的一个或多个;
浏览器自动URL访问缓存池中记录的URL为浏览器根据网页数据自动生成的URL,该浏览器自动URL访问缓存池中的节点记录访问该自动生成的URL的用户的IP地址、该自动生成的URL对应的URL字符串和该浏览器自动URL访问缓存池中的节点的生成时间中的一个或多个。
本实施例中,URL访问缓存池中的节点和浏览器自动URL访问缓存池中的节点记录的信息不是固定的,可以根据实际情况增加或删除,本实施例对URL访问缓存池和浏览器自动URL访问缓存池中的节点所记录的信息不作限定。
上述实施例中,当接收到的请求报文的报文头中Referer域的值与预先设置的URL访问缓存池中记录的URL均不相同,且接收到的请求报文的URL与预先设置的浏览器自动URL访问缓存池中记录的URL均不相同时,才对上述请求报文的URL进行审计,否则不审计该请求报文的URL,从而可以实现有效识别浏览器自动生成的URL访问,对用户的实际网络访问行为进行有效的审计。
图2为本发明统一资源定位符优化审计的方法另一个实施例的流程图,如图2所示,该统一资源定位符优化审计的方法可以包括:
步骤201,设置URL访问缓存池和浏览器自动URL访问缓存池。
本实施例中,URL访问缓存池用于记录预设时间段(例如:最近5秒)内网用户访问的URL。该URL访问缓存池中的每一个节点需要包含如下信息(具体实施时可以根据需要增减):
1)IP地址:访问该URL的IP地址;
2)URL:该URL访问对应的URL字符串;
3)时间:访问该URL的时间。
浏览器自动URL访问缓存池用于记录浏览器将根据网页数据自动生成的URL请求。在该浏览器自动URL访问缓存池中的URL是将由浏览器自动生成的,而非用户主动访问的URL,因此这些URL是不需要审计的。该浏览器自动URL访问缓存池中的每一个节点需要包含如下信息(具体实施时可以根据需要增减):
1)IP地址:访问该自动生成的URL的IP地址;
2)URL:该自动生成的URL对应的URL字符串;
3)时间:该节点生成的时间。
上述两种缓存池中的节点,其存储组织方式必须符合如下要求:
(1)节点插入的时间开销要尽可能短;
(2)查询一个节点是否存在时,查询的时间开销也要尽可能短;
(3)节点老化的时间开销也要尽可能短。
要满足如上要求,通常可以使用哈希链表的方式对上述两种缓存池中的节点进行组织存储。
步骤202,接收HTTP请求报文。
步骤203,判断HTTP请求报文的HTTP头中是否包括Referer域。如果包括,则执行步骤204;如果HTTP头中不包括Referer域,则表明该HTTP请求报文的URL不是从其他URL链接过来的,而是用户的实际URL访问行为,需要被审计,因此当HTTP头中不包括Referer域时,执行步骤209。
步骤204,提取HTTP请求报文的URL和Referer域的值。
步骤205,判断HTTP请求报文的URL是否与浏览器自动URL访问缓存池中记录的URL相同。
如果HTTP请求报文的URL与浏览器自动URL访问缓存池中记录的至少一个URL相同,则表明该URL是浏览器自动生成的,不需要审计,执行步骤210;其中,HTTP请求报文的URL与浏览器自动URL访问缓存池中记录的至少一个URL相同可以为:HTTP请求报文的URL和访问该URL的IP地址,与浏览器自动URL访问缓存池中记录的至少一个URL和访问该至少一个URL的IP地址均相同。
而如果HTTP请求报文的URL与浏览器自动URL访问缓存池中记录的URL均不相同,则需要执行步骤206。
这里,需要说明下该浏览器自动URL访问缓存池中的节点是如何得来的。本实施例中,需要对每个HTTP请求报文对应的回应信息(即网页数据)进行分析,根据网页对应的超文本标记语言(HyperText Mark-up Language;以下简称:HTML)语法,可以获知浏览器将会自动生成哪些URL,将这部分URL请求记入浏览器自动URL访问缓存池即可。由于对网页数据进行分析对性能的消耗相对比较大,因此对每个HTTP请求报文对应的网页数据进行分析的操作将在后台进行,这样就不会影响HTTP请求报文的转发性能。具体地,对HTTP请求报文对应的网页数据进行分析可以为:对HTTP请求报文对应的网页数据进行HTML语法分析,获得浏览器自动生成的URL;然后,将浏览器自动生成的URL记录到浏览器自动URL访问缓存池中。
图3为本发明对网页数据进行分析的方法一个实施例的流程图,如图3所示,该方法可以包括:
步骤301,获得HTTP请求报文对应的网页数据。
步骤302,判断该网页数据是否压缩;如果是,则执行步骤303;如果没有压缩,则执行步骤304。
步骤303,对上述网页数据进行解压缩。
步骤304,对该网页数据进行HTML语法分析,获得浏览器自动生成的URL,将该自动生成的URL记录到浏览器自动URL访问缓存池中。
举例来说,对该网页数据进行HTML语法分析时,<img src=″/test.gif″border=″0″height=″1″width=″1″alt″″/>等标签均能使浏览器自动生成相应的URL访问。
步骤206,判断Referer域的值是否与URL访问缓存池中记录的URL相同。如果Referer域的值与URL访问缓存池中记录的URL均不相同,则执行步骤207。
如果Referer域的值与URL访问缓存池中记录的至少一个URL相同,则表明该HTTP请求报文的URL是由之前的某个URL链接过来的,实际上该HTTP请求报文的URL可能是浏览器自动生成的,也可能是用户点击了先前页面上的链接而产生的。本实施例中,如果Referer域的值与URL访问缓存池中记录的至少一个URL相同,则执行步骤210。
由于在步骤205中,网页数据的分析是在后台进行的,因此延迟是不可避免的,如果在网页数据分析得出该HTTP请求报文的URL是浏览器自动生成的URL之前,浏览器可能已经自动生成并发起该URL访问了,因此,本实施例中,当Referer域的值与URL访问缓存池中记录的至少一个URL相同时,不审计该HTTP请求报文的URL。
但是,需要说明的是,URL访问缓存池中节点的生存周期不能太长,否则就会发生误判,即用户实际的URL访问行为未被审计下来。通常可以用户打开一个网站首页到用户在该页面上点击某个链接所需要的平均时间为依据,设置URL访问缓存池中节点的生存周期,例如可以将URL访问缓存池中节点的生存周期设为5秒,当然在具体实施时,可以根据实际情况调整URL访问缓存池中节点的生存周期的长短,本实施例对此不作限定。这样就可以保证URL访问审计尽可能贴近用户的实际网络访问行为。
本实施例中,步骤205与步骤206可以先后执行,也可以并行执行,本实施例对此不作限定。
步骤207,将该请求报文的URL记录到URL访问缓存池中。
步骤208,审计该请求报文的URL。
本实施例中,步骤207与步骤208可以先后执行,也可以并行执行,本实施例对此不作限定。
步骤209,提取HTTP请求报文的URL,执行步骤207。
步骤210,不审计该请求报文的URL,将该HTTP请求报文的URL记录到URL访问缓存池中。
本实施例中,不管一个URL是否需要审计,均需要将该URL记录到URL访问缓存池中,以用于步骤206的判断。
本实施例中,两种类型的缓存池中的节点都需要考虑老化,因此需要预先设置这两种类型的缓存池中节点的生存周期,当缓存池中的节点超过生存周期时,系统需要自动将该节点从缓存池中删除,释放相应的资源。其中,浏览器自动URL访问缓存池中的节点的生存周期可以设置的长一点,以内存空间的承受能力为准(因为老化时间太长,必然导致需要更多的内存空间),通常设置1~3分钟为宜。而URL访问缓存池中节点的生存周期可以参考步骤206中的说明,在此不再赘述。
由于图片等URL通常不会触发浏览器自动去获取其他URL,因此作为本发明实施例的优选方案,可以设置一个过滤后缀列表,当URL的后缀与该过滤后缀列表中的后缀相同时,不对该URL对应的网页数据进行分析,也不将该URL记录到URL访问缓存池中;也就是说,只有当HTTP请求报文的URL的后缀与过滤后缀列表中的后缀不同时,才对该HTTP请求报文对应的网页数据进行HTML语法分析,并将该HTTP请求报文的URL记录到URL访问缓存池中。这样可以大大减少网络侧设备的工作量,并且可以大大减少两个缓存池中节点的数量,有利于优化网络侧设备的吞吐性能。
上述实施例可以实现有效识别浏览器自动生成的URL访问,使得URL审计更有意义,更能贴近内网用户的实际网络访问行为,大大减少了URL审计数据量。并且由于采用后台分析HTTP请求报文对应的网页数据的方式,不影响HTTP请求报文的转发性能。
下面结合一个具体的实施例对本发明实施例提供的统一资源定位符优化审计的方法进行说明。
首先需要设置浏览器自动URL访问缓存池和URL访问缓存池。两个缓存池中的节点都通过哈希链表的方式进行存储。上述两个缓存池均以(IP,URL)作为哈希的键值。其中浏览器自动URL访问缓存池的节点的生存周期设置为120秒,URL访问缓存池中节点的生存周期设置为5秒。初始化两个缓存池都为空。这两个缓存池可以存储于网络侧设备的内存中。
设置过滤后缀列表,该过滤后缀列表中可以包括以下后缀:“.jpg”、“.gif”、“.ico”、“.png”。本发明实施例中,当URL的后缀与上述后缀相同时,不对该URL对应的网页数据进行分析,也不将该URL记录到URL访问缓存池中。
为了便于描述,下面以相对时间来说明。
第1秒时,内网用户192.168.0.10在浏览器里输入www.linux.org,并按回车键。网络侧设备收到该HTTP请求报文,该HTTP请求报文的HTTP头中Referer域为空,根据本发明实施例提供的统一资源定位符优化审计的方法,网络侧设备提取该HTTP请求报文的URL,并审计该URL,同时,将生成一个URL访问节点(IP:192.168.0.10,URL:http://www.linux.org,时间:2010-12-10 11:04:01),记录到URL访问缓存池中,然后转发该HTTP请求报文。同时,网络侧设备对该HTTP请求报文对应的HTTP回应数据(即该HTTP请求报文对应的网页数据)进行分析。
本发明实施例中,该网页数据的HTML源码中,包含了如下字段信息:
<img src=″/images/colour/yellow.gif″border=″0″width=″1″height=″1″alt=″″/>;
<img src=″/images/colour/clear.gif″border=″0″height=″1″width=″1″alt=″″/>;
上述字段信息表明浏览器将自动去获取http://www.linux.org/images/colour/yellow.gif与http://www.linux.org/images/colour/clear.gif,因此可以生成以下两个浏览器自动URL访问节点:
节点1:IP:192.168.0.10,URL:http://www.linux.org/images/colour/yellow.gif,时间:2010-12-10 11:04:05;
节点2:IP:192.168.0.10,URL:http://www.linux.org/images/colour/clear.gif,时间:2010-12-10 11:04:05。
然后将上述两个节点记录到浏览器自动URL访问缓存池中。这里假设这两个浏览器自动URL访问节点是在第5秒时生成的。
第2秒时,网络侧设备收到IP:192.168.0.10的HTTP请求报文,“http://www.linux.org/images/colour/yellow.gif”,该HTTP请求报文的HTTP头中Referer域的值为“http://www.linux.org”。由于该Referer域的值(IP:192.168.0.10,URL:http://www.linux.org)与URL访问缓存池中记录的一个URL和访问该URL的IP相同,因此不需要审计该URL。由于该URL与过滤后缀列表中的一个后缀相同,因此也不需要将该URL记录到URL访问缓存池中,并且也不需要对该HTTP请求报文对应的网页数据进行分析。
第6秒时,URL访问缓存池中的节点(IP:192.168.0.10,URL:http://www.linux.org,时间:2010-12-10 11:04:01)的生存周期到达,将该节点从URL访问缓存池中删除。
第7秒时,网络侧设备接收到IP:192.168.0.10的HTTP请求报文“http://www.linux.org/images/colour/clear.gif”,该HTTP请求报文的HTTP头中的Referer域的值(IP:192.168.0.10,URL:http://www.linux.org)与URL访问缓存池中记录的URL不相同,但是该HTTP请求报文的URL(IP:192.168.0.10,URL:http://www.linux.org/mages/colour/clear.gif)与浏览器自动URL访问缓存池中记录的URL相同,因此不审计该HTTP请求报文的URL。同时由于该URL的后缀与过滤后缀列表中的后缀相同,因此不将该URL记录到URL访问缓存池中,也不对该HTTP请求报文对应的网页数据进行分析。
第8秒时,用户点击了www.linux.org首页上的一个链接,网络侧设备收到IP:192.168.0.10的HTTP请求报文“http://www.linux.org/news/2010/12/09/0003.html”,该HTTP请求报文的HTTP头中Referer域的值(IP:192.168.0.10,URL:http://www.linux.org)与URL访问缓存池中记录的URL均不相同,并且该HTTP请求报文的URL(IP:192.168.0.10,URL:http://www.linux.org/news/2010/12/09/0003.html)与浏览器自动URL访问缓存池中记录的URL均不相同,因此该URL需要审计,同时生成一个URL访问节点(IP:192.168.0.10,URL:http://www.linux.org/news/2010/12/09/0003.html,时间:2010-12-10 11:04:08),将生成的URL访问节点记录到URL访问缓存池中。并且需要对该HTTP请求报文对应的网页数据进行分析,分析的方式请参见前述说明,在此不再赘述。
第126秒时,浏览器自动URL访问节点(IP:192.168.0.10,URL:http://www.linux.org/images/colour/yellow.gif,时间:2010-12-10 11:04:05)和(IP:192.168.0.10,URL:http://www.linux.org/mages/colour/clear.gif,时间:2010-12-10 11:04:05)生存周期到达,将上述两个节点从浏览器自动URL访问缓存池中删除。
以此类推,这里对其他类型的URL访问就不再进行分析。
在上述实施例中,实际审计的URL有:
IP:192.168.0.10,URL:http://www.linux.org
IP:192.168.0.10,URL:http://www.linux.org/news/2010/12/09/0003.html
与内网用户192.168.0.10的实际网络访问行为一致。
本发明实施例提出的统一资源定位符优化审计的方法,通过在后台对HTTP请求报文对应的网页数据进行分析,可以有效识别浏览器自动生成的URL,使得URL审计更能贴近内网用户的实际网络访问行为,大大减少了URL审计数据量。并且由于采用后台分析URL请求回应数据的方式,不影响HTTP请求报文的转发性能。优选地,本发明实施例可以设置一个过滤后缀列表,当URL的后缀与该过滤后缀列表中的后缀相同时,不审计该URL(通常是杀毒软件或系统自动更新等产生的URL),来满足不同用户的实际需求。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明统一资源定位符优化审计的装置一个实施例的结构示意图,本实施例中的统一资源定位符优化审计的装置可以作为网络侧设备,或网络侧设备的一部分实现本发明图1所示实施例的流程。如图4所示,该统一资源定位符优化审计的装置可以包括:
提取模块41,用于当接收的请求报文的报文头中包括Referer域时,提取该Referer域的值与该请求报文的URL;
审计模块42,用于当提取模块41提取的Referer域的值与预先设置的URL访问缓存池中记录的URL均不相同,且提取模块41提取的请求报文的URL与预先设置的浏览器自动URL访问缓存池中记录的URL均不相同时,审计该请求报文的URL。
本实施例中的网络侧设备可以为路由器、网关设备(例如:局域网网关设备)或上网行为监控设备等。
上述实施例中,当提取模块41提取的Referer域的值与预先设置的URL访问缓存池中记录的URL均不相同,且提取模块41提取的URL与预先设置的浏览器自动URL访问缓存池中记录的URL均不相同时,审计模块42才对上述请求报文的URL进行审计,否则不审计该请求报文的URL,从而可以实现有效识别浏览器自动生成的URL访问,对用户的实际网络访问行为进行有效的审计。
图5为本发明统一资源定位符优化审计的装置另一个实施例的结构示意图,本实施例中的统一资源定位符优化审计的装置可以作为网络侧设备,或网络侧设备的一部分实现本发明图1和图2所示实施例的流程。
与图4所示的统一资源定位符优化审计的装置相比,不同之处在于,图5所示的统一资源定位符优化审计的装置中,提取模块41还可以当接收的请求报文的报文头中不包括Referer域时,提取该请求报文的URL;审计模块42还可以在提取模块41提取请求报文的URL之后,审计该请求报文的URL。
进一步地,该统一资源定位符优化审计的装置还可以包括:
第一记录模块43,用于将提取模块41提取的请求报文的URL记录到URL访问缓存池中。
进一步地,该第一记录模块43还可以当提取模块41提取的请求报文的URL与浏览器自动URL访问缓存池中记录的至少一个URL相同时,或者当提取模块41提取的Referer域的值与URL访问缓存池中记录的至少一个URL相同时,将该请求报文的URL记录到URL访问缓存池中,并且审计模块42不审计该请求报文的URL。
进一步地,该统一资源定位符优化审计的装置还可以包括:
分析模块44,用于对请求报文对应的网页数据进行HTML语法分析,获得浏览器自动生成的URL;
第二记录模块45,用于将分析模块44获得的浏览器自动生成的URL记录到浏览器自动URL访问缓存池中。
具体地,本实施例中,第一记录模块43可以当请求报文的URL的后缀与预先设置的过滤后缀列表中的后缀不同时,将请求报文的URL记录到URL访问缓存池中。分析模块44可以当请求报文的URL的后缀与预先设置的过滤后缀列表中的后缀不同时,对该请求报文对应的网页数据进行HTML语法分析。而当请求报文的URL的后缀与预先设置的过滤后缀列表中的后缀相同时,分析模块44可以不对该请求报文对应的网页数据进行HTML语法分析,第一记录模块43也可以不将该URL记录到URL访问缓存池中。这样可以大大减少统一资源定位符优化审计的装置的工作量,并且可以大大减少两个缓存池中节点的数量,有利于优化统一资源定位符优化审计的装置的吞吐性能。
本实施例中的网络侧设备可以为路由器、网关设备(例如:局域网网关设备)或上网行为监控设备等。
上述统一资源定位符优化审计的装置可以实现有效识别浏览器自动生成的URL访问,使得URL审计更有意义,更能贴近内网用户的实际网络访问行为,大大减少了URL审计数据量。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种统一资源定位符优化审计的方法,其特征在于,包括:
当接收的请求报文的报文头中包括来源域时,提取所述来源域的值与所述请求报文的统一资源定位符;
当所述来源域的值与预先设置的统一资源定位符访问缓存池中记录的统一资源定位符均不相同,且所述请求报文的统一资源定位符与预先设置的浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符均不相同时,审计所述请求报文的统一资源定位符。
2.根据权利要求1所述的方法,其特征在于,还包括:
当所述接收的请求报文的报文头中不包括所述来源域时,提取所述请求报文的统一资源定位符;
审计所述请求报文的统一资源定位符。
3.根据权利要求1或2所述的方法,其特征在于,所述提取所述请求报文的统一资源定位符之后,还包括:
将所述请求报文的统一资源定位符记录到所述统一资源定位符访问缓存池中。
4.根据权利要求1所述的方法,其特征在于,还包括:
对所述请求报文对应的网页数据进行超文本标记语言语法分析,获得浏览器自动生成的统一资源定位符;
将所述浏览器自动生成的统一资源定位符记录到所述浏览器自动统一资源定位符访问缓存池中。
5.根据权利要求3所述的方法,其特征在于,所述将所述请求报文的统一资源定位符记录到所述统一资源定位符访问缓存池中包括:
当所述请求报文的统一资源定位符的后缀与预先设置的过滤后缀列表中的后缀不同时,将所述请求报文的统一资源定位符记录到所述统一资源定位符访问缓存池中。
6.根据权利要求4所述的方法,其特征在于,所述对所述请求报文对应的网页数据进行超文本标记语言语法分析包括:
当所述请求报文的统一资源定位符的后缀与预先设置的过滤后缀列表中的后缀不同时,对所述请求报文对应的网页数据进行超文本标记语言语法分析。
7.根据权利要求1、2、4或6所述的方法,其特征在于,所述统一资源定位符访问缓存池中记录的统一资源定位符为预设时间段内用户访问的统一资源定位符,所述统一资源定位符访问缓存池中的节点记录所述用户的因特网协议地址、所述用户访问的统一资源定位符对应的统一资源定位符字符串和访问所述用户访问的统一资源定位符的时间中的一个或多个;
所述浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符为浏览器根据网页数据自动生成的统一资源定位符,所述浏览器自动统一资源定位符访问缓存池中的节点记录访问所述自动生成的统一资源定位符的用户的因特网协议地址、所述自动生成的统一资源定位符对应的统一资源定位符字符串和所述节点的生成时间中的一个或多个。
8.一种统一资源定位符优化审计的装置,其特征在于,包括:
提取模块,用于当接收的请求报文的报文头中包括来源域时,提取所述来源域的值与所述请求报文的统一资源定位符;
审计模块,用于当所述提取模块提取的来源域的值与预先设置的统一资源定位符访问缓存池中记录的统一资源定位符均不相同,且所述提取模块提取的所述请求报文的统一资源定位符与预先设置的浏览器自动统一资源定位符访问缓存池中记录的统一资源定位符均不相同时,审计所述请求报文的统一资源定位符。
9.根据权利要求8所述的装置,其特征在于,
所述提取模块,还用于当所述接收的请求报文的报文头中不包括所述来源域时,提取所述请求报文的统一资源定位符;
所述审计模块,还用于在所述提取模块提取所述请求报文的统一资源定位符之后,审计所述请求报文的统一资源定位符。
10.根据权利要求8或9所述的装置,其特征在于,还包括:
第一记录模块,用于将所述提取模块提取的所述请求报文的统一资源定位符记录到所述统一资源定位符访问缓存池中。
11.根据权利要求8所述的装置,其特征在于,还包括:
分析模块,用于对所述请求报文对应的网页数据进行超文本标记语言语法分析,获得浏览器自动生成的统一资源定位符;
第二记录模块,用于将所述分析模块获得的浏览器自动生成的统一资源定位符记录到所述浏览器自动统一资源定位符访问缓存池中。
12.根据权利要求10所述的装置,其特征在于,
所述第一记录模块具体用于当所述请求报文的统一资源定位符的后缀与预先设置的过滤后缀列表中的后缀不同时,将所述请求报文的统一资源定位符记录到所述统一资源定位符访问缓存池中。
13.根据权利要求11所述的装置,其特征在于,
所述分析模块具体用于当所述请求报文的统一资源定位符的后缀与预先设置的过滤后缀列表中的后缀不同时,对所述请求报文对应的网页数据进行超文本标记语言语法分析。
14.一种网络侧设备,其特征在于,包括如权利要求8-13任意一项所述的统一资源定位符优化审计的装置。
CN2011100531172A 2011-03-04 2011-03-04 统一资源定位符优化审计的方法、装置和网络侧设备 Active CN102098229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100531172A CN102098229B (zh) 2011-03-04 2011-03-04 统一资源定位符优化审计的方法、装置和网络侧设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100531172A CN102098229B (zh) 2011-03-04 2011-03-04 统一资源定位符优化审计的方法、装置和网络侧设备

Publications (2)

Publication Number Publication Date
CN102098229A true CN102098229A (zh) 2011-06-15
CN102098229B CN102098229B (zh) 2012-07-25

Family

ID=44131100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100531172A Active CN102098229B (zh) 2011-03-04 2011-03-04 统一资源定位符优化审计的方法、装置和网络侧设备

Country Status (1)

Country Link
CN (1) CN102098229B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364897A (zh) * 2011-09-30 2012-02-29 北京亿赞普网络技术有限公司 一种网关级在线网络报文检测过滤方法及装置
CN102571922A (zh) * 2011-12-13 2012-07-11 北京星网锐捷网络技术有限公司 一种数据流处理方法及装置
CN102726026A (zh) * 2011-12-30 2012-10-10 华为技术有限公司 一种用户行为的获取方法、设备及系统
CN102752288A (zh) * 2012-06-06 2012-10-24 华为技术有限公司 网络访问行为识别方法和装置
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN103078854A (zh) * 2012-12-28 2013-05-01 北京亿赞普网络技术有限公司 报文过滤方法与装置
CN103117892A (zh) * 2013-01-21 2013-05-22 深信服网络科技(深圳)有限公司 添加网站访问记录的方法及装置
CN103118007A (zh) * 2013-01-06 2013-05-22 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和系统
CN104239353A (zh) * 2013-06-20 2014-12-24 上海博达数据通信有限公司 一种web分类控制和日志审计的方法
CN105474576A (zh) * 2013-08-26 2016-04-06 三星电子株式会社 用于处理http消息的方法以及实现其的电子装置
CN105677657A (zh) * 2014-11-19 2016-06-15 杭州华三通信技术有限公司 一种统一资源定位符访问行为的记录方法和装置
CN106330563A (zh) * 2016-08-30 2017-01-11 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN109547421A (zh) * 2018-11-08 2019-03-29 锐捷网络股份有限公司 一种审计url的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312458A (zh) * 2008-05-15 2008-11-26 吕晓东 一种快速针对网站内容访问控制的方法
US20080294711A1 (en) * 2007-05-22 2008-11-27 Barber Timothy P System and Method for Centrally Collecting Real-Time Information Regarding Consumer Click-Through Traffic
CN101656710A (zh) * 2008-08-21 2010-02-24 中联绿盟信息技术(北京)有限公司 主动审计系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080294711A1 (en) * 2007-05-22 2008-11-27 Barber Timothy P System and Method for Centrally Collecting Real-Time Information Regarding Consumer Click-Through Traffic
CN101312458A (zh) * 2008-05-15 2008-11-26 吕晓东 一种快速针对网站内容访问控制的方法
CN101656710A (zh) * 2008-08-21 2010-02-24 中联绿盟信息技术(北京)有限公司 主动审计系统及方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364897A (zh) * 2011-09-30 2012-02-29 北京亿赞普网络技术有限公司 一种网关级在线网络报文检测过滤方法及装置
CN102571922A (zh) * 2011-12-13 2012-07-11 北京星网锐捷网络技术有限公司 一种数据流处理方法及装置
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN102801697B (zh) * 2011-12-20 2015-01-07 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN102726026A (zh) * 2011-12-30 2012-10-10 华为技术有限公司 一种用户行为的获取方法、设备及系统
CN102726026B (zh) * 2011-12-30 2015-11-25 华为技术有限公司 一种用户行为的获取方法、设备及系统
WO2013097201A1 (zh) * 2011-12-30 2013-07-04 华为技术有限公司 用户行为的获取方法、设备及系统
WO2013181972A1 (zh) * 2012-06-06 2013-12-12 华为技术有限公司 网络访问行为识别方法和装置
CN102752288A (zh) * 2012-06-06 2012-10-24 华为技术有限公司 网络访问行为识别方法和装置
CN103078854B (zh) * 2012-12-28 2016-04-13 北京亿赞普网络技术有限公司 报文过滤方法与装置
CN103078854A (zh) * 2012-12-28 2013-05-01 北京亿赞普网络技术有限公司 报文过滤方法与装置
CN103118007A (zh) * 2013-01-06 2013-05-22 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和系统
CN103118007B (zh) * 2013-01-06 2016-02-03 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和系统
CN103117892A (zh) * 2013-01-21 2013-05-22 深信服网络科技(深圳)有限公司 添加网站访问记录的方法及装置
CN103117892B (zh) * 2013-01-21 2016-07-20 深圳市深信服电子科技有限公司 添加网站访问记录的方法及装置
CN104239353A (zh) * 2013-06-20 2014-12-24 上海博达数据通信有限公司 一种web分类控制和日志审计的方法
CN104239353B (zh) * 2013-06-20 2019-12-31 上海博达数据通信有限公司 一种web分类控制和日志审计的方法
CN105474576A (zh) * 2013-08-26 2016-04-06 三星电子株式会社 用于处理http消息的方法以及实现其的电子装置
CN105677657A (zh) * 2014-11-19 2016-06-15 杭州华三通信技术有限公司 一种统一资源定位符访问行为的记录方法和装置
CN106330563A (zh) * 2016-08-30 2017-01-11 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN106330563B (zh) * 2016-08-30 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN109547421A (zh) * 2018-11-08 2019-03-29 锐捷网络股份有限公司 一种审计url的方法及装置

Also Published As

Publication number Publication date
CN102098229B (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102098229B (zh) 统一资源定位符优化审计的方法、装置和网络侧设备
JP5160556B2 (ja) 分散型コンピュータネットワークに基づくログファイル分析方法およびシステム
CN104125209B (zh) 恶意网址提示方法和路由器
CN106484828B (zh) 一种分布式互联网数据快速采集系统及采集方法
CN101355587B (zh) Url信息获取方法和装置及搜索引擎实现方法及系统
CN103118007B (zh) 一种用户访问行为的获取方法和系统
CN109033115B (zh) 一种动态网页爬虫系统
US20190020683A1 (en) Automatic generation of low-interaction honeypots
US8131753B2 (en) Apparatus and method for accessing and indexing dynamic web pages
Reddy et al. An effective data preprocessing method for Web Usage Mining
CN102710795B (zh) 热点聚合方法及装置
Baumgarten et al. User-driven navigation pattern discovery from internet data
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN103853743A (zh) 一种分布式系统及其日志查询方法
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN107809383A (zh) 一种基于mvc的路径映射方法及装置
CN103514189A (zh) 一种基于搜索引擎的网络爬虫的实现方法
CN102857369A (zh) 一种网站日志保存系统及方法和装置
CN101727471A (zh) 网站内容检索系统及方法
CN103513986A (zh) 一种在无操作系统设备中利用CGI技术实现动态web服务器的方法
CN103905434A (zh) 一种网络数据处理方法和装置
CN103117892B (zh) 添加网站访问记录的方法及装置
CN101231655A (zh) 用于处理搜索引擎结果的方法和系统
CN104702469A (zh) 监控网络数据的方法、实体机虚拟设备及网络系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant