CN102129441B - 一种识别处理网页信息的方法和网页信息识别处理装置 - Google Patents

一种识别处理网页信息的方法和网页信息识别处理装置 Download PDF

Info

Publication number
CN102129441B
CN102129441B CN 201010044412 CN201010044412A CN102129441B CN 102129441 B CN102129441 B CN 102129441B CN 201010044412 CN201010044412 CN 201010044412 CN 201010044412 A CN201010044412 A CN 201010044412A CN 102129441 B CN102129441 B CN 102129441B
Authority
CN
China
Prior art keywords
url
web page
page element
information bank
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010044412
Other languages
English (en)
Other versions
CN102129441A (zh
Inventor
梁文锦
黎吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Shenzhen Shenxinfu Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shenxinfu Electronic Technology Co Ltd filed Critical Shenzhen Shenxinfu Electronic Technology Co Ltd
Priority to CN 201010044412 priority Critical patent/CN102129441B/zh
Publication of CN102129441A publication Critical patent/CN102129441A/zh
Application granted granted Critical
Publication of CN102129441B publication Critical patent/CN102129441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了识别处理网页信息的方法,包括:通过旁路在预设的时间段内获取来往Web服务器的HTTP数据包,并从HTTP数据包中识别出网页元素URL;检测网页元素URL是否有引用URL;当检测结果为是时,向存储在本端信息库的引用URL添加网页元素URL,当检测结果为否时,判断存储在本端信息库的根页面URL是否存在网页元素URL;当判断结果为否时,将网页元素URL作为根页面URL存储在本端信息库中。相应地,本发明还公开了网页信息识别处理装置,实施本发明实施例,实现将一个Session中用户并行请求的多个页面分离处理,解决一个Session中并行请求多个页面而导致不利于完整识别网页请求的问题。

Description

一种识别处理网页信息的方法和网页信息识别处理装置
技术领域
本发明涉及通信领域,尤其涉及一种识别处理网页信息的方法和网页信息识别处理装置。
背景技术
B/S结构(Browser/Server,浏览器/服务器模式),是WEB兴起后的一种网络结构模式,WEB浏览器是客户端最主要的应用软件。这种模式统一了客户端,将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。客户端上只要安装一个浏览器(Browser),服务器安装Oracle、Sybase、Informix或SQL Server等数据库。
超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议,HTTP的特点是并行和短连接,也就是说,在B/S结构的应用系统中,一个页面的所有元素会通过多个数据流传输,且可以同时请求两个页面。如图1示出了一个会话(Session)中网页请求的例子,在一个Session中用户请求进入“搜狐主页”后并行请求进入“体育频道”页面,那么服务器端在响应处理该Session时会把“搜狐主页”与“体育频道”合成一个请求页面进行处理,即同时处理“搜狐主页”中的“搜狐photo1.gif”、“搜狐photo2.gif”等页面元素,和“体育频道”页面中的“体育photo1.gif”、“体育frame.js”等页面元素,不利于完整识别用户的一个网页请求。
如何处理用户的网页请求,如何更好地识别出用户的一个网页请求,从而测试出B/S结构的应用系统的终端用户体验,是人们一直研究的问题。
发明内容
本发明实施例在于提供一种识别处理网页信息的方法和网页信息识别处理装置,通过旁路部署方式,抓获来往Web服务器的HTTP数据包,识别用户完整的网页请求,以分析出用户使用Web服务的体验。
为了达到上述技术效果,本发明实施例提出了一种识别处理网页信息的方法,包括:
通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包,并从所述HTTP数据包中识别出网页元素URL;
检测所述网页元素URL是否有引用URL;
当检测结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL,当检测结果为否时,判断存储在本端信息库的根页面URL是否存在所述网页元素URL;
当判断结果为否时,将所述网页元素URL作为根页面URL存储在本端信息库中。
优选地,所述将所述网页元素URL作为根页面URL存储在本端信息库中的步骤包括:
查找存储在本端信息库的子页面URL是否存在所述网页元素URL;
当查找结果为是时,删除本端信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在本端信息库中,当查找结果为否时,将所述网页元素URL作为根页面URL存储在本端信息库中。
优选地所述向存储在本端信息库的所述引用URL添加所述网页元素URL的步骤包括:
查找本端信息库是否存储有所述引用URL;
当查找结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL;当查找结果为否时,结束处理。
优选地,所述判断存储在本端信息库的根页面URL是否存在所述网页元素URL的步骤之前还包括:
检测所述网页元素URL是否存在动态信息;
当检测结果为是时,按照预设的规则对所述网页元素URL进行修正。
优选地,所述判断存储在本端信息库的根页面URL是否存在所述网页元素URL的步骤包括:
判断存储在本端信息库中根据修正后的网页元素URL是否存在识别出的网页元素URL。
优选地,经过所述预设的时间段后,重新执行通过旁路在预设的时间段内获取来往Web服务器的HTTP数据包,并从所述HTTP数据包中识别出网页元素URL的步骤。
相应地,本发明实施例公开了一种网页信息识别处理装置,包括:
信息库,用于存储页面URL;
获取模块,用于通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包;
识别模块,用于从所述获取模块获取的所述HTTP数据包中识别出网页元素URL;
分析检测模块,用于检测所述网页元素URL是否有引用URL;
添加模块,用于当所述分析检测模块的检测结果为是时,向存储在所述信息库的所述引用URL添加所述网页元素URL;
判断模块,用于当所述分析检测模块的检测结果为否时,判断存储在所述信息库的根页面URL是否存在所述网页元素URL;
判断处理模块,用于当所述判断模块的判断结果为否时,将所述网页元素URL作为根页面URL存储在所述信息库中。
优选地,所述判断处理模块包括:
第一查找单元,用于查找存储在所述信息库的子页面URL是否存在所述网页元素URL;
删除单元,用于当所述第一查找单元的查找结果为是时,删除所述信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在所述信息库中;
存储单元,用于当所述第一查找单元的查找结果为否时,将所述网页元素URL作为根页面URL存储在所述信息库中。
优选地,所述添加模块包括:
第二查找单元,用于查找所述信息库是否存储有所述引用URL;
查找处理单元,用于当所述第二查找单元的查找结果为是时,向存储在所述信息库的所述引用URL添加所述网页元素URL;当所述第二查找单元的查找结果为否时,结束处理。
优选地,所述网页信息识别处理装置还包括:
动态信息检测模块,用于检测所述识别模块识别出的网页元素URL是否存在动态信息;
修正模块,用于当所述动态信息检测模块的检测结果为是时,按照预设的规则对所述网页元素URL进行修正。
优选地,所述判断模块用于当所述分析检测模块的检测结果为否时,判断存储在所述信息库中根据所述修正模块修正后的网页元素URL是否存在所述识别模块识别出的网页元素URL。
实施本发明实施例,通过在服务器端通过旁路部署方式,抓获来往Web服务器的HTTP数据包,根据本端信息库实现将一个Session中用户并行请求多个页面分离处理,解决了一个Session中用户并行请求多个页面而导致不利于完整识别用户的一个网页请求的问题,通过重复多次的识别处理网页信息(即多次旁路学习处理),可以实现更好地识别出用户的一个网页请求,并便于测试出B/S结构的应用系统的终端用户体验,如便于测试出各页面的加载时间、是否出现故障等信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中一个Session中网页请求的示意图;
图2是本发明实施例的识别处理网页信息的方法的流程示意图;
图3是本发明实施例定义的一个Session中内容请求的示意图;
图4是本发明实施例中将所述网页元素URL作为根页面URL存储在本端信息库中的方法流程示意图;
图5是本发明实施例的网页信息识别处理装置的结构示意图;
图6是本发明实施例的判断处理模块的结构示意图;
图7是本发明网页信息识别处理装置的另一实施例的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
请参阅图2示出的本发明实施例的识别处理网页信息的方法的流程示意图,包括:
步骤S201:通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包,并从所述HTTP数据包中识别出网页元素URL;
具体地,本端是一个网页信息识别处理装置,可以看作服务器端的一个旁路分析装置,抓获来往Web服务器的HTTP数据包。本端可以预先定义自身的Session,即定义在允许的时间间隔中内容的连续请求,如图3示出了本发明实施例定义的一个Session中内容请求的示意图,每个Session中往往都会有多个网页请求数据包,那么本端将在预设的时间段内(一个Session内)获取来往Web服务器的HTTP数据包,并从所述HTTP数据包中识别出网页元素URL。需要说明的是,网页元素即页面元素;当处理完一个Session中内容请求后,将继续处理另一个Session中内容请求。
步骤S202:检测所述网页元素URL是否有引用URL;
具体地,在超文本置标语言(HTML,HyperText Markup Language)中,refer字段表明该网页元素URL引用的父页面元素URL,本端可以通过检测所述网页元素URL对应的refer字段是否为空来检测所述网页元素URL是否有引用(refer)URL,当检测到所述网页元素URL对应的refer字段不为空时,即表明检测出所述网页元素URL有对应的refer URL,则执行步骤S203;当检测到所述网页元素URL对应的refer字段为空时,即表明检测出所述网页元素URL没有对应的refer URL,则执行步骤S204。
步骤S203:向存储在本端信息库的所述引用URL添加所述网页元素URL;
具体地,本端信息库存储有页面URL,通过查找本端信息库存储的页面URL是否含有所述引用URL;当查找结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL,结束该网页元素URL的处理;当查找结果为否时,直接结束该网页元素URL的处理。
步骤S204:判断存储在本端信息库的根页面URL是否存在所述网页元素URL;
具体地,本端信息库中存储有根页面URL(即页面的根节点信息)以及子页面URL(即根节点下方展开的子节点信息,也即子树节点信息),本端判断存储在本端信息库的根页面URL是否存在所述网页元素URL,即判断本端信息库中是否存在以所述页面元素作为根页面来进行存储,当判断结果为是时,结束处理该页面元素;当判断结果为否时,则执行步骤S205。
步骤S205:将所述网页元素URL作为根页面URL存储在本端信息库中。
进一步地,下面结合图4,详细说明步骤S205的方法流程,包括:
步骤S401:查找存储在本端信息库的子页面URL是否存在所述网页元素URL;
具体地,例如用户直接输入搜狐主页下的体育频道的URL信息,直接打开体育频道页面,该体育频道的网页元素URL对应的refer字段为空(步骤S202),那么本端将判断存储在本端信息库的根页面URL是否存在该体育频道的网页元素URL(步骤S204),当判断结果为否时,表明本端信息库中没有单独存储有该体育频道页面的元素,那么本端将查找存储在本端信息库的子页面URL是否存在所述网页元素URL,本端信息库中存储的子页面URL即存储的各个页面中的网页元素URL,本端查找存储在本端信息库的各个页面中的网页元素URL是否存在该体育频道的网页元素URL,当查找结果为是时,则执行步骤S402;当查找结果为否时,则执行步骤S403。
步骤S402:删除本端信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在本端信息库中;
具体地,例如父页面为搜狐主页下的子树节点信息(子页面URL)中含有该体育频道页面的元素(网页元素URL),那么本端将删除本端信息库中所述搜狐主页下的该体育频道的网页元素URL,并将该体育频道的网页元素URL作为根页面URL(即新页面的根节点信息)存储在本端信息库中,相当于把本端信息库中所述搜狐主页下的该体育频道的网页元素URL分离了出来,以新页面存储在本端信息库中。
步骤S403:将所述网页元素URL作为根页面URL存储在本端信息库中。
再进一步地,本发明实施例中步骤S204之前还可以包括以下步骤:本端检测所述网页元素URL是否存在动态信息,当检测结果为是时,按照预设的规则对所述网页元素URL进行修正。具体地,例如如下URL信息:http://www.sohu.com/func.html?get=weather&date=2008-10-23,表明用户想查看2008年10月23号的天气情况,那么date=2008-10-23即为动态信息,通过改变date=2008-10-23信息,URL信息将会不断改变。当本端检测到请求的网页元素URL存在动态信息时,将按照预设的规则对所述网页元素URL进行修正,如把URL信息修正为http://www.sohu.com/func.html?get=weather,即本端可以根据预先设置的规则删除URL信息含有的&xxx=yyy信息(该xxx、yyy为任意形式的信息)。
需要说明的是,本发明实施例中步骤S204还可以具体地为:本端判断存储在本端信息库中根据修正后的网页元素URL是否存在识别出的网页元素URL,如上述例子URL信息http://www.sohu.com/func.html?get=weather&date=2008-10-23修正为http://www.sohu.com/func.html?get=weather,那么本端不会判断本端信息库的根页面URL是否存在http://www.sohu.com/func.html?get=weather&date=2008-10-23,而是判断本端信息库的根页面URL是否存在http://www.sohu.com/func.html?get=weather,当判断结果为是时,表明本端信息库的根页面URL存在识别出的网页元素URL。
通过上述实施例的识别处理网页信息的方法,根据本端信息库识别出网页请求中各个页面对应的页面元素,若处理网页请求中发现某页面中的子树节点中的页面元素属于另外一个页面的根节点的页面元素,那么该页面元素将从某页面中的子树节点分离出来,作为新页面的页面元素进行存储,即可以识别出网页请求中各个页面对应的页面元素,归类出各个页面,解决了现有技术中一个Session内用户并行请求多个页面而导致不利于完整识别用户的一个网页请求的问题,而且在上述的识别处理网页信息的方法流程中,当本端处理完一个Session中内容请求后,即从经过该Session抓取的来往Web服务器的HTTP数据包中提取完所有网页元素URL后,将继续处理另一个Session中内容请求,即重新执行步骤S201,通过重复多次学习识别处理网页信息,可以更加完善本端信息库,并可以更精确地识别网页请求中各个页面对应的页面元素,而且有效解决现有技术中浏览器会高速缓存(cache)部分请求的页面元素而导致不能识别完整的页面的问题,可以更加完整地更加精确地识别各个页面请求各自对应的页面元素,归类出各个页面,便于更准确地计算各页面加载的时间、是否出现故障等信息,从而测试出B/S结构的应用系统的终端用户体验。
上述详细说明了本发明的识别处理网页信息的方法,下面对应地,详细说明本发明的网页信息识别处理装置的结构。
如图5示出的本发明实施例的网页信息识别处理装置的结构示意图,网页信息识别处理装置5包括:信息库51、获取模块52、识别模块53、分析检测模块54、添加模块55、判断模块56和判断处理模块57,其中
信息库51用于存储页面URL;
获取模块52用于通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包;
识别模块53用于从获取模块52获取的所述HTTP数据包中识别出网页元素URL;
具体地,网页信息识别处理装置5可以看作服务器端的一个旁路分析装置,抓获来往Web服务器的HTTP数据包。网页信息识别处理装置5可以预先定义自身的Session,即定义在允许的时间间隔中内容的连续请求,如图3示出了本发明实施例定义的一个Session中内容请求的示意图,每个Session中往往都会有多个网页请求数据包,那么网页信息识别处理装置5的获取模块52将在预设的时间段内(一个Session内)获取来往Web服务器的HTTP数据包,识别模块53从所述HTTP数据包中识别出网页元素URL。需要说明的是,网页元素即页面元素;当处理完一个Session中内容请求后,将继续处理另一个Session中内容请求。
分析检测模块54用于检测所述网页元素URL是否有引用URL;
具体地,在HTML中,refer字段表明该网页元素URL引用的父页面元素URL,分析检测模块54可以通过检测所述网页元素URL对应的refer字段是否为空来检测所述网页元素URL是否有refer URL,当检测到所述网页元素URL对应的refer字段不为空时,即表明检测出所述网页元素URL有对应的referURL;当检测到所述网页元素URL对应的refer字段为空时,即表明检测出所述网页元素URL没有对应的refer URL。
添加模块55用于当分析检测模块54的检测结果为是时,向存储在所述信息库的所述引用URL添加所述网页元素URL;具体地,添加模块55包括第二查找单元551和查找处理单元552,第二查找单元551用于查找信息库51是否存储有所述引用URL;查找处理单元552用于当第二查找单元551的查找结果为是时,向存储在信息库51的所述引用URL添加所述网页元素URL。
判断模块56用于当分析检测模块54的检测结果为否时,判断存储在信息库51的根页面URL是否存在所述网页元素URL;
具体地,本端信息库中存储有根页面URL(即页面的根节点信息)以及子页面URL(即根节点下方展开的子节点信息,也即子树节点信息),判断模块56判断存储在信息库51的根页面URL是否存在所述网页元素URL,即判断信息库51中是否存在以所述页面元素作为根页面来进行存储,当判断结果为是时,结束处理该页面元素;当判断结果为否时,触发判断处理模块57进行处理。
判断处理模块57用于当判断模块56的判断结果为否时,将所述网页元素URL作为根页面URL存储在信息库51中。
具体地,结合图6示出的本发明实施例的判断处理模块的结构示意图详细说明判断处理模块57的结构,判断处理模块57包括第一查找单元571、删除单元572和存储单元573,其中
第一查找单元571用于查找存储在信息库51的子页面URL是否存在所述网页元素URL;
具体地,例如用户直接输入搜狐主页下的体育频道的URL信息,直接打开体育频道页面,该体育频道的网页元素URL对应的refer字段为空,那么判断模块56将存储在信息库51的根页面URL是否存在该体育频道的网页元素URL,当判断结果为否时,表明信息库51中没有单独存储有该体育频道页面的元素,那么第一查找单元571将查找存储在信息库51的子页面URL是否存在所述网页元素URL,信息库51中存储的子页面URL即存储的各个页面中的网页元素URL,第一查找单元571查找存储在信息库51的各个页面中的网页元素URL是否存在该体育频道的网页元素URL。
删除单元572用于当第一查找单元571的查找结果为是时,删除信息库51中所述子页面URL,并将所述网页元素URL作为根页面URL存储在信息库51中;
具体地,例如父页面为搜狐主页下的子树节点信息(子页面URL)中含有该体育频道页面的元素(网页元素URL),那么删除单元572将删除信息库51中所述搜狐主页下的该体育频道的网页元素URL,并将该体育频道的网页元素URL作为根页面URL(即新页面的根节点信息)存储在信息库51中,相当于把信息库51中所述搜狐主页下的该体育频道的网页元素URL分离了出来,以新页面存储在信息库51中。
存储单元573用于当第一查找单元571的查找结果为否时,将所述网页元素URL作为根页面URL存储在信息库51中。
如图7示出的本发明网页信息识别处理装置的另一实施例的结构示意图,网页信息识别处理装置5包括信息库51、获取模块52、识别模块53、分析检测模块54、添加模块55、判断模块56和判断处理模块57外,还包括动态信息检测模块58和修正模块59,其中
动态信息检测模块58用于检测识别模块53识别出的网页元素URL是否存在动态信息;
修正模块59用于当动态信息检测模块57的检测结果为是时,按照预设的规则对所述网页元素URL进行修正。
具体地,判断模块56进行判断之前,动态信息检测模块58检测识别模块53识别出的网页元素URL是否存在动态信息,当检测结果为是时,修正模块59按照预设的规则对所述网页元素URL信息进行修正。具体地,例如如下URL信息:http://www.sohu.com/func.html?get=weather&date=2008-10-23,表明用户想查看2008年10月23号的天气情况,那么date=2008-10-23即为动态信息,通过改变date=2008-10-23信息,URL信息将会不断改变。当动态信息检测模块58检测到请求的网页元素URL存在动态信息时,修正模块59将按照预设的规则对所述网页元素URL信息进行修正,如把上述URL信息修正为http://www.sohu.com/func.html?get=weather,即本端可以根据预先设置的规则删除URL信息含有的&xxx=yyy信息(该xxx、yyy为任意形式的信息)。那么,判断模块56将判断存储在信息库51中根据修正模块59调整修正后的网页元素URL是否存在识别模块53识别出的网页元素URL,如上述例子URL信息http://www.sohu.com/func.html?get=weather&date=2008-10-23被修正模块59调整归类为http://www.sohu.com/func.html?get=weather,那么判断模块56不会判断信息库51的根页面URL是否存在http://www.sohu.com/func.html?get=weather&date=2008-10-23,而是判断信息库51的根页面URL是否存在http://www.sohu.com/func.html?get=weather。
通过上述实施例,网页信息识别处理装置5根据信息库51识别出网页请求中各个页面对应的页面元素,若处理网页请求中发现某页面中的子树节点中的页面元素属于另外一个页面的根节点的页面元素,那么该页面元素将从某页面中的子树节点分离出来,作为新页面的页面元素进行存储,那么网页信息识别处理装置5可以识别出网页请求中各个页面对应的页面元素,归类出各个页面,解决了现有技术中一个Session内用户并行请求多个页面而导致不利于完整识别用户的一个网页请求的问题,而且网页信息识别处理装置5处理完一个Session中内容请求后,即识别模块53经过该Session抓取的来往Web服务器的HTTP数据包中提取完所有网页元素URL后,网页信息识别处理装置5将继续处理另一个Session中内容请求,即获取模块52重新获取另一个Session中内容请求,通过重复多次学习识别处理网页信息,可以更加完善信息库51,并可以更精确地识别网页请求中各个页面对应的页面元素,而且有效解决现有技术中浏览器会高速缓存(cache)部分请求的页面元素而导致不能识别完整的页面的问题,可以更加完整地更加精确地识别各个页面请求各自对应的页面元素,归类出各个页面。
综上所述,通过在服务器端通过旁路部署方式,抓获来往Web服务器的HTTP数据包,根据本端信息库实现将一个Session中用户并行请求多个页面分离处理,解决了一个Session中用户并行请求多个页面而导致不利于完整识别用户的一个网页请求的问题,通过重复多次学习识别处理网页信息,可以更精确地识别网页请求中各个页面对应的页面元素,而且有效解决现有技术中浏览器会高速缓存(cache)部分请求的页面元素而导致不能识别完整的页面的问题,可以更加完整地更加精确地识别各个页面请求各自对应的页面元素,归类出各个页面,便于更准确地计算各页面加载的时间、是否出现故障等信息,从而测试出B/S结构的应用系统的终端用户体验。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所揭露的仅为本发明实施例中的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (7)

1.一种识别处理网页信息的方法,其特征在于,包括:
通过旁路在预设的时间段内获取来往互联网Web服务器的超文本传输协议HTTP数据包,并从所述HTTP数据包中识别出网页元素统一资源定位符URL;
检测所述网页元素URL是否有引用URL;
当检测结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL,当检测结果为否时,判断存储在本端信息库的根页面URL是否存在所述网页元素URL;
当判断结果为否时,将所述网页元素URL作为根页面URL存储在本端信息库中;
所述向存储在本端信息库的所述引用URL添加所述网页元素URL的步骤包括:
查找本端信息库是否存储有所述引用URL;
当查找结果为是时,向存储在本端信息库的所述引用URL添加所述网页元素URL;当查找结果为否时,结束所述网页元素URL的处理;
所述将所述网页元素URL作为根页面URL存储在本端信息库中的步骤包括:
查找存储在本端信息库的子页面URL是否存在所述网页元素URL;
当查找结果为是时,删除本端信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在本端信息库中,当查找结果为否时,将所述网页元素URL作为根页面URL存储在本端信息库中。
2.如权利要求1所述的方法,其特征在于,所述判断存储在本端信息库的根页面URL是否存在所述网页元素URL的步骤之前还包括:
检测所述网页元素URL是否存在动态信息;
当检测结果为是时,按照预设的规则对所述网页元素URL进行修正。
3.如权利要求2所述的方法,其特征在于,所述判断存储在本端信息库的根页面URL是否存在所述网页元素URL的步骤包括:
判断存储在本端信息库中根据修正后的网页元素URL是否存在识别出的网页元素URL。
4.如权利要求1-3任一项所述的方法,其特征在于,经过所述预设的时间段后,重新执行通过旁路在预设的时间段内获取来往Web服务器的HTTP数据包,并从所述HTTP数据包中识别出网页元素URL的步骤。
5.一种网页信息识别处理装置,其特征在于,包括:
信息库,用于存储页面URL;
获取模块,用于通过旁路在预设的时间段内获取来往互联网Web服务器的HTTP数据包;
识别模块,用于从所述获取模块获取的所述HTTP数据包中识别出网页元素URL;
分析检测模块,用于检测所述网页元素URL是否有引用URL;
添加模块,用于当所述分析检测模块的检测结果为是时,向存储在所述信息库的所述引用URL添加所述网页元素URL;
判断模块,用于当所述分析检测模块的检测结果为否时,判断存储在所述信息库的根页面URL是否存在所述网页元素URL;
判断处理模块,用于当所述判断模块的判断结果为否时,将所述网页元素URL作为根页面URL存储在所述信息库中;
所述判断处理模块包括:
第一查找单元,用于查找存储在所述信息库的子页面URL是否存在所述网页元素URL;
删除单元,用于当所述第一查找单元的查找结果为是时,删除所述信息库中所述子页面URL,并将所述网页元素URL作为根页面URL存储在所述信息库中;
存储单元,用于当所述第一查找单元的查找结果为否时,将所述网页元素URL作为根页面URL存储在所述信息库中;
所述添加模块包括:
第二查找单元,用于查找所述信息库是否存储有所述引用URL;
查找处理单元,用于当所述第二查找单元的查找结果为是时,向存储在所述信息库的所述引用URL添加所述网页元素URL;当所述第二查找单元的查找结果为否时,结束处理。
6.如权利要求5所述的网页信息识别处理装置,其特征在于,还包括:
动态信息检测模块,用于检测所述识别模块识别出的网页元素URL是否存在动态信息;
修正模块,用于当所述动态信息检测模块的检测结果为是时,按照预设的规则对所述网页元素URL进行修正。
7.如权利要求6所述的网页信息识别处理装置,其特征在于,所述判断模块用于当所述分析检测模块的检测结果为否时,判断存储在所述信息库中根据所述修正模块修正后的网页元素URL是否存在所述识别模块识别出的网页元素URL。
CN 201010044412 2010-01-14 2010-01-14 一种识别处理网页信息的方法和网页信息识别处理装置 Active CN102129441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010044412 CN102129441B (zh) 2010-01-14 2010-01-14 一种识别处理网页信息的方法和网页信息识别处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010044412 CN102129441B (zh) 2010-01-14 2010-01-14 一种识别处理网页信息的方法和网页信息识别处理装置

Publications (2)

Publication Number Publication Date
CN102129441A CN102129441A (zh) 2011-07-20
CN102129441B true CN102129441B (zh) 2013-02-27

Family

ID=44267527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010044412 Active CN102129441B (zh) 2010-01-14 2010-01-14 一种识别处理网页信息的方法和网页信息识别处理装置

Country Status (1)

Country Link
CN (1) CN102129441B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104798067B (zh) * 2012-09-18 2017-07-04 株式会社野村综合研究所 辞典系统以及辞典调用方法
CN102902749B (zh) * 2012-09-19 2016-03-09 北京易云剪客科技有限公司 一种网页内容识别方法和装置
CN103729285B (zh) * 2012-10-11 2018-06-05 腾讯科技(深圳)有限公司 一种网页测试方法、设备及系统
CN106559456B (zh) * 2015-09-29 2020-01-14 腾讯科技(深圳)有限公司 服务器、http请求的归类系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356644A (zh) * 2000-11-30 2002-07-03 国际商业机器公司 从网络服务器向客户计算机提供资源的方法
US7076728B2 (en) * 2000-12-22 2006-07-11 International Business Machines Corporation Method and apparatus for end-to-end content publishing system using XML with an object dependency graph
CN101178736A (zh) * 2007-12-11 2008-05-14 腾讯科技(深圳)有限公司 网页抓取方法和网页抓取服务器
CN101196910A (zh) * 2007-12-04 2008-06-11 深圳市迅雷网络技术有限公司 一种确定网络资源的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356644A (zh) * 2000-11-30 2002-07-03 国际商业机器公司 从网络服务器向客户计算机提供资源的方法
US7076728B2 (en) * 2000-12-22 2006-07-11 International Business Machines Corporation Method and apparatus for end-to-end content publishing system using XML with an object dependency graph
CN101196910A (zh) * 2007-12-04 2008-06-11 深圳市迅雷网络技术有限公司 一种确定网络资源的方法和装置
CN101178736A (zh) * 2007-12-11 2008-05-14 腾讯科技(深圳)有限公司 网页抓取方法和网页抓取服务器

Also Published As

Publication number Publication date
CN102129441A (zh) 2011-07-20

Similar Documents

Publication Publication Date Title
US8601120B2 (en) Update notification method and system
RU2522103C2 (ru) Способ и браузер для уведомления об обновлении
US7853589B2 (en) Web spam page classification using query-dependent data
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN102693271A (zh) 一种网络信息推荐方法及系统
US20080228675A1 (en) Multi-tiered cascading crawling system
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
CN102054015A (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
WO2014180130A1 (en) Method and system for recommending contents
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
CN103744856A (zh) 联动性扩展搜索方法及装置、系统
US11443006B2 (en) Intelligent browser bookmark management
EP2802979A2 (en) Processing store visiting data
KR20110009142A (ko) 리던던시들을 최소화하는 웹 피드를 수집하기 위한 방법
CN102129441B (zh) 一种识别处理网页信息的方法和网页信息识别处理装置
CN104252348A (zh) 一种基于浏览器的网页访问统计方法及装置
CN106202108A (zh) 网络爬虫抓取任务分配方法与装置及数据抓取方法与装置
US9043320B2 (en) Enhanced find-in-page functions in a web browser
CN112749360A (zh) 网页分类方法及装置
CN107526833B (zh) 一种url管理方法、系统
WO2012159360A1 (zh) 网页预取的方法及装置
CN103118028B (zh) 基于网页解析的安全扫描方法及系统
CN102929948B (zh) 列表页识别系统及方法
KR20200119534A (ko) 유해 콘텐츠 웹 페이지 url 필터링 장치
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Nanshan District Xueyuan Road in Shenzhen city of Guangdong province 518000 No. 1001 Nanshan Chi Park building A1 layer

Patentee after: SINFOR Polytron Technologies Inc

Address before: 518000 Guangdong city of Shenzhen province Nanshan District high in the four Longtaili No. 30 building 6 floor

Patentee before: Shenxinfu Electronics Science and Technology Co., Ltd., Shenzhen