CN101477539B - 一种信息采集方法及装置 - Google Patents

一种信息采集方法及装置 Download PDF

Info

Publication number
CN101477539B
CN101477539B CN2008102474543A CN200810247454A CN101477539B CN 101477539 B CN101477539 B CN 101477539B CN 2008102474543 A CN2008102474543 A CN 2008102474543A CN 200810247454 A CN200810247454 A CN 200810247454A CN 101477539 B CN101477539 B CN 101477539B
Authority
CN
China
Prior art keywords
html file
web page
visit information
web
encoder dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102474543A
Other languages
English (en)
Other versions
CN101477539A (zh
Inventor
葛长忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
Hangzhou H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou H3C Technologies Co Ltd filed Critical Hangzhou H3C Technologies Co Ltd
Priority to CN2008102474543A priority Critical patent/CN101477539B/zh
Publication of CN101477539A publication Critical patent/CN101477539A/zh
Priority to US12/645,098 priority patent/US20100169298A1/en
Application granted granted Critical
Publication of CN101477539B publication Critical patent/CN101477539B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息采集方法及装置。本发明的技术方案通过将用户浏览Web网页的访问信息发送给搜索引擎数据库,实现了搜索引擎数据库采集动态网页的发明目的。另外,在本发明的技术方案中,由于获取的是用户浏览Web网页的信息,因此能够真实掌握Web网页的用户使用情况,这样也为搜索引擎对网页的排序起到了重要的参考作用。

Description

一种信息采集方法及装置
技术领域
本发明涉及互联网技术,尤指一种信息采集方法及装置。
背景技术
互联网信息在急剧地膨胀,搜索引擎为人们在互联网上检索需要的信息提供了方便。
现有的搜索引擎,比如google、百度等,使用一种称为网络爬虫如Crawler、Spider等应用程序从互联网上获得原始信息。实现方式是通过网络爬虫程序从一份特定的资源定位符(URL,Uniform Resource Locator)列表,一般情况下是一些门户网站的列表,开始获取网页的内容,并从这些信息中提取关键词等信息组成搜索引擎所需要使用的数据库,同时从这些网页信息中提取指向其它资源的URL,并将这些新的URL作为新的起点开始新一轮的信息采集。由于互联网的高度连通,这个循环一般会无休止地进行下去,搜索引擎通过一定的算法,比如搜索的深度限制等,来结束这个循环,这样搜索引擎将会得到一个综合的信息数据库。当用户在搜索引擎中输入要搜索的关键词后,搜索引擎就会检索自己的数据库,将搜索结果返回给用户完成一次搜索过程。
目前多数大型网站采用了动态网页和静态网页相结合的方法。其中,动态网页和静态网页的区别在于:动态网页是指Web服务器根据用户的访问情况临时生成的网页,需要根据用户“输入内容”或者进行“选择”、以及一些用户相关信息作为参数来动态生成;而静态网页是预先已经存在的网页无需动态生成。动态网页的数量要远远大于静态网页。从用户的角度看,动态网站非常不错,丰富了站点的功能,但是对于搜索引擎来说情况就不同了。
在搜索动态网页时,根本的问题在于“输入”和“选择”,网络爬虫程序无法进行“输入”和“选择”的操作,也就无法进行信息采集的操作。因此,如何进行动态网页的信息采集,是建立搜索引擎数据库一个亟待解决的技术问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种信息采集方法及装置,应用本发明所述提供的技术方案能够实现动态网页的搜索。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种信息采集方法,该方法包括:
对Web服务器提供的超文本标记语言HTML文件进行编码;设置编码字典,将HTML文件与对应的编码记录在编码字典中;
获取用户浏览Web网页的访问信息;其中,访问信息包括所述Web网页对应的超文本标记语言HTML文件;所述获取用户浏览Web网页的访问信息包括获取访问信息中所包括的HTML文件,具体为:根据Web服务器发送给客户端的HTML文件,利用编码字典获取与所述HTML文件对应的编码;用编码代替访问信息中的HTML文件;
将获取的访问信息发送至搜索引擎数据库,并在将获取的访问信息发送至搜索引擎数据库之前,根据所述编码字典获得与访问信息中编码对应的HTML文件,将获得的HTML文件发送至搜索引擎数据库。
本发明还提供了一种信息采集装置,该装置包括获取单元、发送单元、接收侧编码字典数据库、发送侧编码字典数据库和接收接口单元;
所述获取单元,用于获取用户浏览Web网页的访问信息,并发送至所述发送单元;其中,访问信息包括所述Web网页对应的超文本标记语言HTML文件;用于在获取访问信息中的HTML文件时,根据Web服务器发送给客户端的HTML文件,利用接收侧编码字典数据库获取与所述HTML文件对应的编码,用获取的编码代替访问信息中的HTML文件;
所述发送单元,用于将获取的访问信息发送至接收接口单元;
所述接收侧编码字典数据库和发送侧编码字典数据库,分别用于记录Web服务器提供的HTML文件对应的编码;
所述接收接口单元,用于接收发送单元发送的访问信息,对于访问信息中携带的编码,根据所述发送侧编码字典数据库获得所述编码对应的HTML文件,将携带HTML文件的访问信息发送至搜索引擎数据库。
本发明所提供的一种信息采集方法及装置,通过将用户浏览Web网页的访问信息发送给搜索引擎数据库,实现了搜索引擎数据库采集动态网页的发明目的。通过WEB服务器与搜索引擎互相合作,可以为网络用户提供更准确、及时的搜索内容。不仅如此,供搜索引擎数据库使用的信息是位于Web服务器侧的发送侧发起的,可以很好地解决版权及隐私问题。
另外,由于本发明的技术方案获取的是用户浏览Web网页的信息,因此能够真实掌握Web网页的用户使用情况,并有理由认为用户访问量大的信息就是重要的信息,所以这些采集到的信息中已经融合了用户对网页知识的判断智慧,为搜索引擎对网页的排序可以起到重要的参考作用,具有任何一种数学方法或人工调节方法所无法比拟的准确程度。
附图说明
图1为本发明提供的信息采集装置的结构图;
图2为本发明较佳实施例提供的方法流程图。
具体实施方式
本发明提供了一种信息采集方法,具体为:获取用户浏览Web网页的访问信息;其中,访问信息包括所述Web网页对应的超文本标记语言(HTML,HyperText Mark-up Language)文件;然后,将获取的访问信息发送至搜索引擎数据库。HTML文件反映了用户浏览的Web网页的情况,HTML文件既能反映静态网页,又能反映动态网页,因此通过截获Web服务器发送给客户端的HTML文件,就能够获得动态网页的有关信息,使搜索引擎数据库能够采集Web服务器中有关动态网页的信息。
另外,为了使搜索引擎数据库能够更进一步掌握用户浏览Web网页的情况。访问信息中还可以进一步包括客户端IP地址、服务器IP地址、URL、访问时间。那么相应的,获取用户浏览Web网页的访问信息则包括:获取所述用户所在客户端IP地址、提供所述Web网页的Web服务器IP地址、浏览Web网页的URL、所述用户浏览所述Web网页的访问时间,以及所述Web服务器发送给用户客户端的所述Web网页对应的HTML文件。在访问信息中还可以进一步包括访问次数。相应的,所述获取用户浏览Web网页的访问信息中可以进一步包括:在设定的时间内,统计所述用户浏览所述Web网页的次数。这样,访问信息中的访问时间可以是该用户最后一次浏览该Web网页的时间。
用户对Web服务器访问量是巨大的,为了减少发送访问信息的数据量。在本发明的技术中,可以对Web服务器提供的HTML文件编码,设置编码字典,将HTML文件与对应的编码记录在编码字典中。这样,本发明的技术方案不仅可以直接将Web网页对应的HTML文件携带访问信息中发送,还可以利用编码字典的记录对访问信息中的HTML文件进行编码,通过发送编码,使搜索引擎数据库接收HTML文件,减少数据的传输量。即根据Web服务器发送给用户客户端访问信息中的HTML文件,利用编码字典获取与所述HTML文件对应的编码;用编码代替访问信息中的HTML文件;发送携带编码的访问信息。同时,在将获取的访问信息发送至所述搜索引擎数据库之前,根据所述编码字典获得与访问信息中编码对应的HTML文件,然后将获得的HTML文件发送至搜索引擎数据库。
根据前面的介绍,Web网页分为静态网页和动态网页。对于静态网页而言,网页形式固定,不会发生变化,对于每个静态网页都可以编码;而对于动态网页而言,动态网页是根据用户的不同选择生成的,如果针对每个动态网页均进行编码的话,势必使编码字典过于庞大。为了减少编码字典的条目数,可以采用以下方式对动态网页编码。
分析动态网页的构成不难发现,动态网页通常是由网页模板和变量组成。这样,在对动态网页进行编码时,可以分别对网页模板、变量进行编码,将网页模板、变量与编码的对应关系记录至编码字典。例如,对于内容为“您浏览的A商品价格为60元”的动态网页,它其实是由网页模板“您浏览的X商品价格为Y元”,以及X和Y两个变量组成。其中X表示商品名称、Y表示具体的价格。Web服务器根据不同用户的选择以及用户的优先级,确定X和Y值,向用户显示。因此,在对这个动态网页进行编码时,可以对组成该动态网页的三个量进行编码,即网页模板,变量X和Y。
这样,获取动态网页对应编码的过程可以是:根据Web服务器依据网页模板和变量生成动态网页的过程、以及编码字典中该网页模板和变量对应的编码,获取该动态网页对应的编码。其中,由于X和Y是变量,取值不固定。因此为了使搜索引擎数据库侧能够通过编码恢复动态网页,获取动态网页时,除了发送动态网页对应网页模板和变量对应的编码,还要根据当前动态网页的内容获得变量对应的值。这样,在发送动态网页对应HTML文件时,发送获得的编码以及变量对应的值。相应的,在发送至搜索搜索引起数据库之前,需要根据所述编码字典获得与编码对应的网页模板和变量,根据网页模板、变量以及变量对应的值重新生成HTML文件,然后发送至搜索引擎数据库。
当Web服务器提供新的HTML文件时,可以对该HTML文件进行编码,并将该HTML文件与编码的对应关系记录至编码字典,用于在用户访问该Web网页时使用。同样,当Web服务器不再提供对某个Web网页的浏览时,也可以删除编码字典中对应的条目,以节约编码字典的空间。对编码字典的更新可以是由人工执行,也可以是设置专门的编码单元,对编码字典进行管理。
另外,在本发明的技术方案,为了进一步减少发送数据的次数,还可以进一步获取用户浏览Web服务器提供的多个Web网页的访问信息,将所述多个访问信息合并成一条消息,发送至所述搜索引擎数据库。
参见图1,图1为本发明实施例提供的一种信息采集装置,该装置包括获取单元和发送单元。其中,所述获取单元,用于获取用户浏览Web网页的访问信息,并发送至所述发送单元;其中,访问信息包括所述Web网页对应的超文本标记语言HTML文件;所述发送单元,用于将获取的访问信息发送至搜索引擎数据库。在大多数情况,发送单元通过互联网将采集的访问信息发送至搜索引擎数据库。
所述获取单元,还可以进一步用于获取所述用户所在客户端IP地址、提供所述Web网页的Web服务器IP地址、浏览Web网页的URL以及所述用户浏览所述Web网页的访问时间;将获取的客户端IP地址、服务器IP地址、URL以及访问时间携带在所述访问信息中,发送至发送单元。另外,还可进一步用于在设定的时间内统计所述用户浏览所述Web网页的次数,并将访问次数携带在访问信息中,发送至所述发送单元;其中,所述访问信息中的访问时间为所述用户最后一次浏览所述Web网页的时间。
另外,该装置还可进一步包括接收侧编码字典数据库、发送侧编码字典数据库和接收接口单元。其中,所述接收侧编码字典数据库和发送侧编码字典数据库,分别用于记录Web服务器提供的HTML文件对应的编码。相应的,所述获取单元,用于在获取访问信息中的HTML文件时,根据Web服务器发送给客户端的HTML文件,利用接收侧编码字典数据库获取与所述HTML文件对应的编码;用获取的编码代替访问信息中的HTML文件,发送携带HTML文件对应编码的访问信息至所述发送单元;所述接收接口单元,用于接收发送单元发送给搜索引擎数据库的访问信息,对于访问信息中携带的编码,根据所述发送侧编码字典数据库获得所述编码对应的HTML文件,将携带HTML文件的访问信息发送至搜索引擎数据库。
在动态网页的情况下,所述接收侧编码字典数据库和发送侧编码字典数据库,用于在记录动态网页对应的编码时,记录组成动态网页的网页模板和变量对应的编码。相应的,所述获取单元,用于在获取动态网页对应的编码时,根据Web服务器依据网页模板和变量生成动态网页的过程、以及发送侧编码字典数据库中该网页模板和变量对应的编码,获取该动态网页对应的编码;并根据当前动态网页的内容获得变量对应的值;用获得编码以及变量对应的值代替访问信息中动态网页对应的HTML文件,发送携带编码以及变量值的访问信息至所述发送单元;所述接收接口单元,用于在接收动态网页对应的编码后,根据所述接收侧编码字典获得与编码对应的网页模板和变量,根据网页模板、变量以及变量对应的值重新生成HTML文件,将携带该HTML文件的访问信息发送至搜索引擎数据库。
另外,该装置进一步编码单元。所述编码单元,用于对所述Web服务器提供的HTML文件进行编码,并将HTML文件以及对应的编码发送至发送侧编码字典数据库和接收侧编码字典数据库;并负责更新所述发送侧编码字典数据库和接收侧编码字典数据库中的编码。
所述获取单元,进一步用于获取用户浏览Web服务器提供多个Web网页的访问信息,将所获得的多个访问信息合并成一条消息,发送至所述发送单元。
在信息采集装置中,可以将编码单元、发送侧编码字典数据库、获取单元和发送单元称为发送侧;将接收接口单元和接收侧编码字典数据库称为接收侧。由于搜索引擎数据库需要采集不同地点、不同厂家的多个Web服务器的提供的访问信息,因此可以在多个Web服务器侧分别设置发送侧所包含的能够单元,发送侧和接收侧在实际应用中是一对多的关系。
以下列举一较佳实施例对本发明的技术方案做进一步详细的说明。
在本较佳实施例中,可以参见表一所示的形式建立编码字典。编码字典由多个字典条目组成,每个字典条目至少包含条目编号和条目内容,还可以进一步包括条目内容长度、条目重要程度。
Figure GSB00000556984600071
Figure GSB00000556984600081
表一
其中,条目编号为对Web服务器提供HTML的唯一编号。当由一个Web服务器群提供Web服务时,可以采用字典条目编码+Web服务器IP形式。在编码字典中可以占用位宽为32比特(bit),四个字节。具体对HTML文件进行编码的方式可以参见前述部分的介绍,在此不再详述。另外,条目长度,在编码字典可以占用位宽32bit,当条目长度值为0xFFFFFFFF时,表示此条目为变量条目。变量条目的内容是Web服务器根据用户的选择动态生成的,因此在变量条目中条目内容为空。优先级在编码字典中可以占用位宽8bit。这样,每个字典条目可以有256种优先级可以选择,数值越大表示信息越重要。优先级的设置有利于搜索引擎对Web服务器中的信息进行区分,使搜索引擎更准确理解Web网页。条目内容的位宽由条目长度决定。由于条目长度值为0xFFFFFFFF时,表示的是动态网页中的变量,因此仅当条目长度的值为0-0xFFFFFFFE时,条目内容中记载的内容才有效。条目内容中具体记录了条目编码对应的HTML文件的内容。
另外,对于不重要或者涉及隐私的Web网页可以不进行编码,从而忽略掉搜索引擎对这些信息的搜索,达到规避隐私问题、突出其它重要信息和减少搜索引擎数据库容量的目的。
Web服务器启动后,可以向发送侧编码字典数据库以及接收侧编码字典数据上报编码字典。另外,在Web服务器中Web网页的信息更新时,可以将更新信息上报给发送侧和接收侧的编码字典,以便对其进行正确编码以及恢复。本发明提供了如表二所示的三种字典维护消息。其中,添加和更新字典条目消息中,条目编号、长度、内容三个字段全部有效。删除字典条目时,只要指定字典条目就可以了。
Figure GSB00000556984600082
Figure GSB00000556984600091
表二
以上介绍的编码字典的格式以及内容,仅为本实施例所提供的技术方案,并不为编码字典的唯一形式。
在进行完编码字典的编制后,本实施例可以如图2所示的流程进行信息的采集。在本实施例中,访问信息包括:HTML文件、客户端IP地址、服务器IP地址、URL、访问时间及访问次数。
在步骤201中,获取用户当前浏览Web网页的HTML文件、客户端IP地址、服务器IP地址、URL和访问时间。具体包括:获取用户所在客户端IP地址、提供所述Web网页的Web服务器IP地址、浏览Web网页的URL、所述用户浏览所述Web网页的访问时间,以及所述Web服务器发送给用户客户端的所述Web网页对应的HTML文件。
对于用户客户端IP地址、服务器IP地址、URL和访问时间的获取,信息采集装置中的获取单元可以监听Web服务器与用户客户端之间的TCP连接以及HTTP信息来获的。当Web服务器与用户客户端建立TCP连接时,记录下客户端的IP地址、服务器的IP地址、建立连接的时间。当Web服务器接收到客户端的HTTP GET请求时,记录下URL信息,GET请求的时间。在HTTP1.0以前的版本中,一次TCP连接支持一次HTTP会话。在HTTP1.1以后的版本中,一次TCP连接可能支持多次HTTP会话,既当一次HTTP会话结束后,客户可能会使用该TCP启动下一次HTTP会话,Web服务器可以继续采集对应的信息。当TCP连接关闭时,Web服务器完成了一次信息采集过程。
对应访问信息中的HTML文件,无论客户端请求的是静态网页还是动态网页,当Web服务器为客户端准备好HTML文件时,采集装置中的获取单元则可以根据编码字典中条目内容查找得到对应的编码。对于动态网页,获取单元根据Web服务器依据网页模板和变量生成动态网页的过程、以及编码字典中该网页模板和变量对应的编码,获取该动态网页对应的编码以及变量对应的值;对于静态网页,则直接根据编码字典获得对应的编码。用获得的编码代替访问信息中HTML文件。
在步骤202中,在设定的时间内,统计当前用户浏览当前Web网页的次数,将访问次数携带在访问信息中。相应的,访问信息中的访问时间可以为该用户最后一次浏览当前Web网页的时间。
具体设定时间的长短可以根据用户浏览Web网页的频率或者经验来确定。
在步骤203中,获取用户浏览Web服务器提供的多个Web网页的访问信息,将多个访问信息合并成一条消息。
信息采集装置中的获取单元可以持续监听Web服务器与用户客户端之间的交互,对一段时间内的监听结果进行整理,将用户浏览多个Web网页的访问信息合并为一条消息。
合并后的消息格式可以参见表三、四和五,但不限于此。
Figure GSB00000556984600101
表三
在表三中,Server IP表示Web服务器的IP地址,长度可选为32bit。ClientIP表示用户的IP地址,长度可选为32bit。msg_count表示此消息包中包含的消息个数,长度可选为6bit,这样每个消息包中最多包含65536个消息。msgx表示每个具体的消息,即客户端浏览的一个Web网页的情况。
其中,msg的具体格式可参见表四所示。
Figure GSB00000556984600111
表四
在表四中,url_len表示url字符串的长度,长度为选为16bit。ulr表示url字符串,占用url_len定义的长度。access_time表示用户访问网页的时间,如果多次访问,则记录最后一次访问时间。access_count表示用户访问该信息的次数。dict_count信息表示该msg中包含的字典条目个数,即组成该Web网页的字典条目数目。dict_itemx表示字典条目,其中包括字典条目的编码,以及在字典条目为变量的情况下该变量的值。参见表五,表五为dict_item的格式:
  dict_index
  value_len
  value
表五
在表五中,dict_index表示字典条目编码。value_len表示变量条目内容占用的字符个数。如果dict_index为常量条目,则该值为0,value字段内容为空。这是由于对于常量条目来说,编码对应唯一确定的内容,在接收侧接收接口单元能够根据编码字典得到唯一确定的内容。而如果dict_index为变量条目,则value字段中表示变量元素的值,这是由于变量条目对应的值不确定。对于动态网页的情况,网页模板为常量条目。
这样,当发送动态网页对应的编码时,需要根据当前动态网页的内容获得变量对应的值,发送动态网页对应网页模板和变量对应的编码,以及变量对应的值。
另外,在信息采集装置中,发送单元向接收接口单元发送的消息除了访问消息外,还有字典维护消息。由于字典维护消息有三种类型,因此发送单元发送的消息可以采用以下格式:消息类型(2字节)+消息长度(2字节)+消息体。其中消息类型定义可以参见表六:
  消息名称   类型值   说明
  MSGTYPE_ADD_DICT   1   添加字典条目
  MSGTYPE_MOD_DICT   2   修改字典条目
  MSGTYPE_DEL_DICT   3   删除字典条目
  MSGTYPE_UA_INFO   4   用户访问网页的编码信息
表六
在步骤204中,将获得的访问信息发送至搜索引擎数据库。
在访问信息中采用了编码的技术手段,因此为了使搜索引擎数据库能够识别收到的访问信息,还需对访问信息中的编码进行解码。即对于静态网页,信息采集装置中的接收接口单元根据接收侧编码字典数据库获得与编码对应的HTML文件;对于动态网页,接收接口单元根据接收侧编码字典数据库获得与编码对应的网页模板和变量,根据网页模板、变量以及变量对应的值重新生成HTML文件。
这里,接收接口单元可以直接向发送单元发送字典请求消息。消息格式可以为:命令类型(2字节)+消息长度(2字节)+消息体。由于一个消息类型,可以定义命令类型为1,消息长度为0,没有消息体。当编码单元通过发送单元收到接收接口单元发送的字典请求消息后,则可以将自身当前的编码发送至接收接口单元,用于接收接口单元记录编码字典或者对编码字典进行更新。
另外,在信息采集装置中,发送侧和接收侧通常通过互联网来传递信息。接收接口单元通常通过Internet网络接收携带编码的消息。如果采用安全措施,很容易受到攻击。可以采取的安全措施可以是分级认证、限制容量、限制信息接收速率等方法。其中可以是:对为各Web服务器配置的发送单元配置固定的主机域名,这样接收接口单元可以通过主机域名对发送单元做身份识别。还可以是,接收接口单元根据发送侧提供信息的认可程度、信息的效率、诚信程度等采取不同的认证级别。对不同的认证级别的发送侧可以授予不同的信息接收速率,从而规范发送侧信息发送。其中,认可程度可以通过用户访问网页的次数来评价。另外,还可以是,接收接口单元在一段时间内保存发送侧发送的用户访问信息,然后将一段时间内保存的用户访问信息发送至搜索引擎数据库。这样,接收接口单元就能有效的对收到的用户访问信息的容量进行限制,超过限制后覆盖时间较早的信息或优先级低的信息,一方面限制了用户访问信息在搜索引擎数据库上占用的空间,另外一方面也提高了信息的重要程度和及时程度。
通过本实施例上述技术方案的介绍不难发现,通过将用户访问浏览Web网页的访问信息发送给搜索引擎数据库,实现了搜索引擎数据库采集动态网页的发明目的。不仅如此,供搜索引擎数据库使用的信息是位于Web服务器侧的发送侧发起的,可以很好地解决版权及隐私问题。Web服务器最清楚自己的信息,可以通过编码字典的优先级或忽略一些信息的编码,来突出自己重要的网页内容。通过WEB服务器与搜索引擎互相合作,可以为网络用户提供更准确、及时的搜索内容。
另外,由于本发明的技术方案获取的是用户浏览Web网页的信息,因此能够真实掌握Web网页的用户使用情况,并有理由认为用户访问量大的信息就是重要的信息,所以这些采集到的信息中已经融合了用户对网页知识的判断智慧,为搜索引擎对网页的排序可以起到重要的参考作用,具有任何一种数学方法或人工调节方法所无法比拟的准确程度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种信息采集方法,其特征在于,该方法包括:对Web服务器提供的超文本标记语言HTML文件进行编码;设置编码字典,将HTML文件与对应的编码记录在编码字典中;
获取用户浏览Web网页的访问信息;其中,访问信息包括所述Web网页对应的超文本标记语言HTML文件;所述获取用户浏览Web网页的访问信息包括获取访问信息中所包括的HTML文件,具体为:根据Web服务器发送给客户端的HTML文件,利用编码字典获取与所述HTML文件对应的编码;用编码代替访问信息中的HTML文件;
将获取的访问信息发送至搜索引擎数据库,并在将获取的访问信息发送至搜索引擎数据库之前,根据所述编码字典获得与访问信息中编码对应的HTML文件,将获得的HTML文件发送至搜索引擎数据库。
2.根据权利要求1所述的方法,其特征在于,
所述访问信息进一步包括:客户端IP地址、服务器IP地址、URL、访问时间;
所述获取用户浏览Web网页的访问信息还包括:获取所述用户所在客户端IP地址、提供所述Web网页的Web服务器IP地址、浏览Web网页的URL、所述用户浏览所述Web网页的访问时间。
3.根据权利要求2所述的方法,其特征在于,
所述访问信息进一步包括:访问次数;
所述获取用户浏览Web网页的访问信息中进一步包括:在设定的时间内,统计所述用户浏览所述Web网页的次数;其中,所述访问时间为:所述用户最后一次浏览所述Web网页的时间。
4.根据权利要求1、2或3所述的方法,其特征在于,当所述HTML文件对应动态网页时,
所述对Web服务器提供的HTML文件进行编码包括:对组成所述动态网页的网页模板和变量分别进行编码;并将网页模板、变量与编码的对应关系记录至所述编码字典;
所述根据Web服务器发送给客户端的HTML文件,利用编码字典获取与所述HTML文件对应的编码包括:根据Web服务器依据网页模板和变量生成动态网页的过程、以及编码字典中该网页模板和变量对应的编码,获取该动态网页对应的编码;并根据当前动态网页的内容获得变量对应的值;在发送动态网页对应HTML文件时,发送获得的编码以及变量对应的值;
所述根据编码字典获得与访问信息中编码对应的HTML文件包括:根据所述编码字典获得与编码对应的网页模板和变量,根据网页模板、变量以及变量对应的值重新生成HTML文件。
5.根据权利要求1、2或3所述的方法,其特征在于,
当所述Web服务器提供新的HTML文件时,对该HTML文件进行编码,并将该HTML文件与编码的对应关系记录至所述编码字典。
6.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
获取用户浏览Web服务器提供的多个Web网页的访问信息,将所述多个访问信息合并成一条消息,发送至所述搜索引擎数据库。
7.一种信息采集装置,其特征在于,该装置包括获取单元、发送单元、接收侧编码字典数据库、发送侧编码字典数据库和接收接口单元;
所述获取单元,用于获取用户浏览Web网页的访问信息,并发送至所述发送单元;其中,所述访问信息包括所述Web网页对应的超文本标记语言HTML文件;用于在获取访问信息中的HTML文件时,根据Web服务器发送给客户端的HTML文件,利用接收侧编码字典数据库获取与所述HTML文件对应的编码,用获取的编码代替访问信息中的HTML文件;
所述发送单元,用于将获取的访问信息发送至接收接口单元;
所述接收侧编码字典数据库和发送侧编码字典数据库,分别用于记录Web服务器提供的HTML文件对应的编码;
所述接收接口单元,用于接收发送单元发送的访问信息,对于访问信息中携带的编码,根据所述发送侧编码字典数据库获得所述编码对应的HTML文件,将携带HTML文件的访问信息发送至搜索引擎数据库。
8.根据权利要求7所述的装置,其特征在于,
所述获取单元,进一步用于获取所述用户所在客户端IP地址、提供所述Web网页的Web服务器IP地址、浏览Web网页的URL以及所述用户浏览所述Web网页的访问时间;将获取的客户端IP地址、服务器IP地址、URL以及访问时间携带在所述访问信息中,发送至发送单元。
9.根据权利要求8所述的装置,其特征在于,
所述获取单元,进一步用于在设定的时间内统计所述用户浏览所述Web网页的次数,并将访问次数携带在访问信息中,发送至所述发送单元;其中,所述访问信息中的访问时间为所述用户最后一次浏览所述Web网页的时间。
10.根据权利要求7、8、或9所述的装置,其特征在于,
所述接收侧编码字典数据库和发送侧编码字典数据库,用于在记录动态网页对应的编码时,记录组成动态网页的网页模板和变量对应的编码;
所述获取单元,用于在获取动态网页对应的编码时,根据Web服务器依据网页模板和变量生成动态网页的过程、以及发送侧编码字典数据库中该网页模板和变量对应的编码,获取该动态网页对应的编码;并根据当前动态网页的内容获得变量对应的值;用获得编码以及变量对应的值代替访问信息中动态网页对应的HTML文件,发送携带编码以及变量值的访问信息至所述发送单元;
所述接收接口单元,用于在接收动态网页对应的编码后,根据所述接收侧编码字典获得与编码对应的网页模板和变量,根据网页模板、变量以及变量对应的值重新生成HTML文件,将携带该HTML文件的访问信息发送至搜索引擎数据库。
11.根据权利要求7、8、或9所述的装置,其特征在于,该装置进一步编码单元;
所述编码单元,用于对所述Web服务器提供的HTML文件进行编码,并将HTML文件以及对应的编码发送至发送侧编码字典数据库和接收侧编码字典数据库;并负责更新所述发送侧编码字典数据库和接收侧编码字典数据库中的编码。
12.根据权利要求7所述的装置,其特征在于,
所述获取单元,进一步用于获取用户浏览Web服务器提供多个Web网页的访问信息,将所获得的多个访问信息合并成一条消息,发送至所述发送单元。
CN2008102474543A 2008-12-31 2008-12-31 一种信息采集方法及装置 Expired - Fee Related CN101477539B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008102474543A CN101477539B (zh) 2008-12-31 2008-12-31 一种信息采集方法及装置
US12/645,098 US20100169298A1 (en) 2008-12-31 2009-12-22 Method And An Apparatus For Information Collection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102474543A CN101477539B (zh) 2008-12-31 2008-12-31 一种信息采集方法及装置

Publications (2)

Publication Number Publication Date
CN101477539A CN101477539A (zh) 2009-07-08
CN101477539B true CN101477539B (zh) 2011-09-28

Family

ID=40838256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102474543A Expired - Fee Related CN101477539B (zh) 2008-12-31 2008-12-31 一种信息采集方法及装置

Country Status (2)

Country Link
US (1) US20100169298A1 (zh)
CN (1) CN101477539B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104412243B (zh) * 2012-06-26 2018-03-30 三菱电机株式会社 设备管理系统、设备管理装置以及设备管理方法
US20140245021A1 (en) * 2013-02-27 2014-08-28 Kabushiki Kaisha Toshiba Storage system in which fictitious information is prevented
CN103414693B (zh) * 2013-07-15 2016-09-28 北京奇虎科技有限公司 打点方法及打点装置
CN103530343B (zh) * 2013-10-08 2017-03-22 北京百度网讯科技有限公司 结构化数据交互系统、数据接收端和结构化数据交互方法
CN104573040B (zh) * 2015-01-19 2018-04-13 百度在线网络技术(北京)有限公司 抓取网页数据的方法及系统
CN107193825B (zh) * 2016-03-14 2021-03-19 百度在线网络技术(北京)有限公司 页面统计方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547713A (zh) * 2001-04-30 2004-11-17 �Ҵ���˾ 用于产生和组合万维网网页的内容的方法
CN101267299A (zh) * 2007-03-14 2008-09-17 阿里巴巴集团控股有限公司 一种安全显示网页中数据的方法和系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260774B2 (en) * 2000-04-28 2007-08-21 Inceptor, Inc. Method & system for enhanced web page delivery
US7519902B1 (en) * 2000-06-30 2009-04-14 International Business Machines Corporation System and method for enhanced browser-based web crawling
US6988135B2 (en) * 2001-02-15 2006-01-17 International Business Machines Corporation Method and system for specifying a cache policy for caching web pages which include dynamic content
US7359987B2 (en) * 2001-07-05 2008-04-15 Enom, Inc. Method and system for providing static addresses for Internet connected devices even if the underlying address is dynamic
US7386786B2 (en) * 2003-01-24 2008-06-10 The Cobalt Group, Inc. Method and apparatus for processing a dynamic webpage
US20050108406A1 (en) * 2003-11-07 2005-05-19 Dynalab Inc. System and method for dynamically generating a customized menu page
US20050144286A1 (en) * 2003-12-08 2005-06-30 Oliver Szu Home portal router
US20050125540A1 (en) * 2003-12-08 2005-06-09 Oliver Szu Home portal router
DE102004041395A1 (de) * 2004-08-26 2006-03-09 Siemens Ag Erzeugung dynamischer Webinhalte
US7536389B1 (en) * 2005-02-22 2009-05-19 Yahoo ! Inc. Techniques for crawling dynamic web content
US20070185860A1 (en) * 2006-01-24 2007-08-09 Michael Lissack System for searching
US20090119329A1 (en) * 2007-11-02 2009-05-07 Kwon Thomas C System and method for providing visibility for dynamic webpages
US7856430B1 (en) * 2007-11-21 2010-12-21 Pollastro Paul J Method for generating increased numbers of leads via the internet
US8131753B2 (en) * 2008-05-18 2012-03-06 Rybak Ilya Apparatus and method for accessing and indexing dynamic web pages
US8463896B2 (en) * 2008-08-08 2013-06-11 Sprint Communications Company L.P. Dynamic portal creation based on personal usage

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547713A (zh) * 2001-04-30 2004-11-17 �Ҵ���˾ 用于产生和组合万维网网页的内容的方法
CN101267299A (zh) * 2007-03-14 2008-09-17 阿里巴巴集团控股有限公司 一种安全显示网页中数据的方法和系统

Also Published As

Publication number Publication date
US20100169298A1 (en) 2010-07-01
CN101477539A (zh) 2009-07-08

Similar Documents

Publication Publication Date Title
CN101477539B (zh) 一种信息采集方法及装置
CN101446983B (zh) 一种实现移动终端获取网页的方法、系统和设备
CN103379136B (zh) 一种日志采集数据压缩方法、解压缩方法及装置
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
CN102355488B (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN103379140B (zh) 一种日志处理规则同步方法及相关设备和系统
CN1979485A (zh) 在门户中有效处理导航状态的方法和系统
CN104426713A (zh) 网络站点访问效果数据的监测方法和装置
CN102486799B (zh) 一种环球信息网www页面处理方法和装置
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN1949715A (zh) 一种限制浏览器访问网络地址的方法
CN102298611A (zh) 对网站影响力进行排名的方法、设备和制品
CN102663054A (zh) 一种确定网站权重的方法及装置
CN101383848A (zh) 用于移动网络服务的系统和方法
CN103294732A (zh) 网页抓取方法及爬虫
CN106790334A (zh) 一种页面数据传输方法及系统
CN103729479A (zh) 基于分布式文件存储的网站页面内容统计的方法和系统
CN103825772B (zh) 识别用户点击行为的方法及网关设备
CN101188521A (zh) 一种挖掘用户行为数据的方法和网站服务器
CN107562936A (zh) 一种基于Jsoup的网页新闻列表的抓取及保存方法
CN102571922A (zh) 一种数据流处理方法及装置
CN102681996B (zh) 预读方法和装置
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
Suneetha et al. Data preprocessing and easy access retrieval of data through data ware house
CN106648912A (zh) 数据采集平台中数据处理的模块化方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Patentee after: Xinhua three Technology Co., Ltd.

Address before: 310053 Hangzhou hi tech Industrial Development Zone, Zhejiang province science and Technology Industrial Park, No. 310 and No. six road, HUAWEI, Hangzhou production base

Patentee before: Huasan Communication Technology Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110928

Termination date: 20191231