CN101355587B - Url信息获取方法和装置及搜索引擎实现方法及系统 - Google Patents

Url信息获取方法和装置及搜索引擎实现方法及系统 Download PDF

Info

Publication number
CN101355587B
CN101355587B CN2008102119950A CN200810211995A CN101355587B CN 101355587 B CN101355587 B CN 101355587B CN 2008102119950 A CN2008102119950 A CN 2008102119950A CN 200810211995 A CN200810211995 A CN 200810211995A CN 101355587 B CN101355587 B CN 101355587B
Authority
CN
China
Prior art keywords
information
server
client
url
station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102119950A
Other languages
English (en)
Other versions
CN101355587A (zh
Inventor
葛长忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
Hangzhou H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou H3C Technologies Co Ltd filed Critical Hangzhou H3C Technologies Co Ltd
Priority to CN2008102119950A priority Critical patent/CN101355587B/zh
Publication of CN101355587A publication Critical patent/CN101355587A/zh
Application granted granted Critical
Publication of CN101355587B publication Critical patent/CN101355587B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种URL信息获取方法和URL信息获取装置,该方法在一客户端与一站点服务器建立通信连接后,对双方之间的每一会话执行以下步骤:第三方设备解析客户端向站点服务器发送的通信报文,提取并记录客户端所请求的URL链接;第三方设备解析站点服务器向客户端返回的通信报文,按照预设的策略提取并记录该URL链接对应的链接内容信息。本发明还公开了一种交换路由设备,一种镜像设备,一种搜索引擎实现方法以及一种搜索引擎实现系统。通过本发明,实现对包括动态网页信息在内的URL信息的获取;以及,取代现有的网络爬虫技术,不占用网络带宽地实现搜索数据库的建立,且该搜索数据库不但支持对于动态网页的搜索,同时提高搜索的实用性和实效性。

Description

URL信息获取方法和装置及搜索引擎实现方法及系统
技术领域
本发明涉及通信网技术领域,尤其涉及一种URL信息获取方法和URL信息获取装置,一种交换路由设备,一种镜像设备,以及一种搜索引擎实现方法及搜索引擎实现系统。
背景技术
随着互联网技术的发展,搜索引擎已经成为人们获取信息的重要方式,如Google、Baidu等。
现有的搜索引擎都是基于一种可以被通称为网络爬虫(Crawler)的技术实现的,比如Google的googlebot就是一种网络爬虫程序。这些搜索引擎的实现原理为:
搜索引擎定期(比如一个月)执行其网络爬虫程序,从作为搜索树根的指定初始URL(Uniform Resource Locator,统一资源定位符)列表开始访问这些URL定位的网页资源,获取网页信息(比如,标题、描述HTML网页文档属性的Meta标签等)并从这些信息中提取关键词添加到搜索使用的数据库中,以及从这些信息中提取指向网页资源的URL并将这些新提取的URL作为起点开始新一轮的访问处理,从而通过这种访问处理的循环得到一个定期更新的、综合性的搜索数据库;
以及,搜索引擎会对循环获得的信息数据进行分析整理,按照各自的排序方法对搜索数据库中的网页资源按照关键词进行排序;该排序方法具有多样性,有技术类的排序方法,如Google的pagerank,有商业类的排序方法,如Baidu的竞价排名,等等;
这样,当用户向搜索引擎提供其感兴趣的关键字后,搜索引擎就会检索自己的搜索数据库,按照自己的排名顺序向用户返回搜索结果,完成一次搜索过程。
需要指出,在每一次执行网络爬虫程序时,互联网的高度连通会导致访问处理新提取URL的循环会无休止的进行下去,为了避免这一情况,搜索引擎会通过一定的算法,比如搜索的深度限制等,来结束网络爬虫程序的一次循环;
同时,为了规避隐私问题,目前的网络爬虫技术大多遵循“机器人排除协议(The Robots Exclusion Protocol)”,即站点根目录部署有robot.txt文件,对允许访问的网络爬虫类型、可以访问的目录、不可以访问的目录等做了详细的约定,网络爬虫通过robots.txt文件抓取相应站点可以被访问的内容。
上述利用网络爬虫实现的搜索引擎技术存在以下缺陷:
难以支持对动态网页URL的搜索:随着互联网技术的发展,以数据库技术为基础的动态网页,由于可以有效降低站点维护工作量、减少维护成本以及提高数据更新的及时性,因此得到了越来越广泛的使用;但由于动态网页并不是独立存在于站点服务器的网页文件,而是在用户请求时由服务器动态生成的,也就是说动态网页的URL并不存在,因此难以被利用网络爬虫实现的搜索引擎所收录;
占用了大量的网络带宽:由于利用网络爬虫实现的搜索引擎需要通过大量的互联网访问来获得网页信息,这无疑占用了大量的互联网带宽;
搜索结果的实用性低:利用网络爬虫实现的搜索引擎只能根据互联网中静态存在的资源来获得信息,也只能根据这些信息之间的静态关系决定哪些资源更重要或者哪些资源不重要,由于静态存在的资源往往与实际被使用的资源存在较大的差异性,因此这样获得的搜索结果实用性很低;
搜索结果的时效性低:由于现有的搜索引擎是通过定期执行网络爬虫程序的方式进行搜索数据库的更新,因此搜索到的信息往往存在明显滞后;虽然对于网络中的热点信息,搜索引擎可以通过加大爬虫搜索频度的方式来缩短信息更新时间,但基于网络占用和成本等问题,是不可能对所有的信息都进行类似处理的。
发明内容
本发明的实施例的一个目的在于提供一种URL信息获取方案,以实现对包含动态网页信息在内的URL信息的获取。
本发明的实施例的另一个目的在于提供一种搜索引擎实现方案,取代现有的网络爬虫技术,不但支持对于动态网页的搜索,同时提高搜索的实用性和实效性,以及不占用网络带宽。
为实现上述第一个目的,本发明的实施例提供了一种URL信息获取方法,在一客户端与一站点服务器建立通信连接后,对双方之间的每一会话执行以下步骤:
步骤SA1:第三方设备解析客户端向站点服务器发送的通信报文,提取并记录客户端所请求的URL链接;
步骤SA2:第三方设备解析站点服务器向客户端返回的通信报文,按照预设的策略提取并记录该URL链接对应的链接内容信息。
为实现上述第一个目的,本发明的实施例还提供了一种URL信息获取装置,包括:解析单元,用于解析建立通信连接的一客户端与一站点服务器之间交互的通信报文;URL链接提取单元,与该解析单元连接,用于提取客户端所请求的URL链接;链接内容信息提取单元,与该解析单元连接,用于按照预设的策略提取该URL链接对应的链接内容信息;记录单元,分别与该URL链接提取单元和链接内容信息提取单元连接,用于记录双方每一会话的URL链接及相应的链接内容信息。
为实现上述第一个目的,本发明的实施例还提供了一种交换路由设备,用于为客户端和站点服务器提供交换路由服务;该交换路由设备设有如上所述的URL信息获取装置。
为实现上述第一个目的,本发明的实施例还提供了一种镜像设备,用于对至少一交换路由设备进行流量镜像,任一交换路由设备为客户端和站点服务器提供交换路由服务;该镜像设备设有如上所述的URL信息获取装置。
为了实现上述另一目的,本发明的实施例提供了一种搜索引擎实现方法,包括以下步骤:
步骤SB1:第三方设备根据如上所述的URL信息获取方法获取客户端访问的URL链接及相应的链接内容信息;
步骤SB2:第三方设备访问该URL链接的站点服务器,识别获取的链接内容信息是否允许被搜索引擎采集;
步骤SB3:保留允许被搜索引擎采集的链接内容信息,并在该次通信连接释放后,将该URL链接及相应的链接内容信息发送给搜索引擎服务器,由该搜索引擎服务器生成搜索数据库。
为了实现上述另一目的,本发明的实施例还提供了一种搜索引擎实现系统,包括搜索引擎服务器,还包括多个第三方设备,任一第三方设备设有:
如上所述的URL信息获取装置,用于获取客户端访问的URL链接及相应的链接内容信息;
站点服务器访问装置,与该URL信息获取装置连接,用于访问该URL链接的站点服务器,识别该链接内容信息是否允许被搜索引擎采集,是则指令该URL信息获取装置保留允许被搜索引擎采集的链接内容信息;
URL信息发送装置,与该URL信息获取装置连接,用于在每次通信连接释放后,将该URL链接及相应的链接内容信息发送给该搜索引擎服务器,由该搜索引擎服务器生成搜索数据库。
由上述技术方案可知,本发明的实施例通过对互联网中实际发生的流量加以整理、记录和分析,具有以下有益效果:
1、实现对包括动态网页信息在内的URL信息的获取;
2、取代现有的网络爬虫技术,不占用网络带宽地实现搜索数据库的建立,且该搜索数据库不但支持对于动态网页的搜索,同时提高搜索的实用性和实效性。
通过以下参照附图对优选实施例的说明,本发明的上述以及其它目的、特征和优点将更加明显。
附图说明
图1A、图1B为现有技术中互联网简化模型的示意图;
图2为本发明提供的URL信息获取方法一实施例的流程图;
图3为本发明提供的URL信息获取方法另一实施例的流程图;
图4为本发明提供的URL信息获取装置一实施例的框图;
图5为本发明提供的搜索引擎实现方法一实施例的流程图;
图6为本发明提供的搜索引擎实现系统一实施例的框图。
具体实施方式
下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
本发明的主要构思在于对互联网中实际发生的流量加以整理、记录和分析,来解决现有技术中网络管控系统无法获得动态网页信息的问题;以及,解决搜索引擎对于动态网页的支持问题和搜索引擎所存在的带宽占用和实用性、实效性低的问题。
这样,为帮助读者更好的理解本发明,下面首先通过介绍现有技术中互联网技术,以证明本发明提供的URL信息获取方案以及搜索引擎实现方案的可行性。
如图1A所示,显示了互联网的简化模型。互联网可以简化为以下三个部分:提供内容信息的站点服务器;客户端,比如浏览器;为客户端和站点服务器提供网络连接的交换路由设备,包括交换机、路由器等。
这样,用户客户端与站点服务器之间的访问(以HTTP访问为例)可以简化为:
(1)用户通过客户端访问站点服务器,客户端与站点服务器之间建立TCP(Transmission Control Protocol,传输控制协议)连接;
(2)客户端通过HTTP协议向站点服务器请求某一URL链接;
(3)站点服务器通过HTTP协议为客户端提供链接内容信息,一般表现为某一网页的形式;
(4)访问结束,站点服务器断开与客户端之间的TCP连接。
上述(1)~(4)是一次双向的基于TCP连接的过程,该过程中双方交互的信息都会以报文的形式出现在作为中间设备的交换路由设备上,因此如果在交换路由设备上实现数据采集功能,对这些报文进行会话整理、记录和分析,就能够基于实际的网络流量搜集到包括动态网页信息在内的URL信息。
在上述简化模型中,将中间设备简化为一个交换路由设备环节;但在实际实现中,站点服务器侧和客户端侧一般都有相应的交换路由设备,如图1B所示,站点服务器通过路由器A接入互联网,客户端通过路由器/交换机B接入互联网。则在客户端对站点服务器的访问过程中,信息都会以报文的形式在路由器A和路由器/交换机B上出现,无论在哪一个交换路由设备上实现数据采集功能,对这些报文进行会话整理、记录和分析,都能够基于实际的网络流量搜集到包括动态网页信息在内的URL信息;当然,也可以在各交换路由设备上同时实现数据采集功能,其采集结果的侧重会有所不同,即路由器A所采集的是对站点服务器的访问信息,而路由器/交换机B所采集的是客户端所在局域网的对外访问信息。
在理解了上述现有技术的基础上,下面将详细介绍本发明所提供的URL信息获取方案和搜索引擎实现方案。
下面对本发明提供的URL信息获取方法加以描述,其一实施例如图2,以一个客户端与一站点服务器的访问为例。本领域技术人员可以了解,推广至全网多个客户端与多个站点服务器,该模式同样适用,因为即使一个站点服务器同时接受多个客户端的访问,也可以分解为同时发生的每一个客户端与该站点服务器的访问。
首先,该客户端与该站点服务器建立通信连接,仍以TCP连接为例,但本领域技术人员可以了解,基于互联网中其他应用协议的通信连接同样适用。其中,建立TCP连接的具体过程包括:当客户端访问该站点服务器时,基于TCP协议的三次握手机制建立客户端与站点服务器之间的TCP连接。
在建立了TCP连接之后,客户端与站点服务器之间的报文分别通过客户端侧的交换路由设备和站点服务器侧的交换路由设备实现交互,客户端侧的交换路由设备和站点服务器侧的交换路由设备都能够识别双方之间的每一个会话,比如HTTP会话、FTP会话或者其他TCP连接所支持的会话。
基于上述前提,本实施例对客户端和站点服务器的每一会话执行以下步骤:
步骤SA1:第三方设备解析该客户端向该站点服务器发送的通信报文,提取并记录客户端所请求的URL链接;
以HTTP协议为例,当客户端通过HTTP协议向站点服务器请求特定URL链接的网页时,第三方设备可以解析HTTP协议并收集该URL链接;显然,该URL链接可能是动态的URL链接,也有可能是静态的URL链接,由客户端的实际访问情况决定;
其中,第三方设备包括为客户端和站点服务器提供交换路由服务的交换路由设备,可以是客户端侧的交换路由设备(如企业网关),也可以是站点服务器侧的交换路由设备,或者,二者同时作为第三方设备,分别独立进行数据的解析和提取;
但是,上述在交换路由设备上添加数据解析和提取功能,会在一定程度上造成对交换路由设备系统性能的影响。为了保证交换路由设备的网络连接功能和网络连接性能,较佳的解决方案为第三方设备包括镜像上述交换路由设备通信流量的镜像设备,该镜像设备备份了相应交换路由设备的网络流量,并基于该网络流量进行数据的解析和提取;
具体的,该镜像设备可以是任何能够与交换路由设备联网获得网络流量并能够对导入流量进行分析处理的计算机或者其他设备;比如,一台服务器,其通过以太网口与一提供交换路由服务的以太网交换机连接,对通过该以太网交换机的流量进行镜像和解析处理;
同时需要指出的是,镜像设备可以仅对一个交换路由设备进行流量镜像,也可以对多个交换路由设备进行流量镜像。
步骤SA2:第三方设备解析该站点服务器向该客户端返回的通信报文,按照预设的策略提取并记录该URL链接对应的链接内容信息;
仍以HTTP协议为例,当站点服务器返回该URL链接对应的网页信息时,第三方设备可以解析HTTP协议并收集对应的内容信息;显然,对应动态URL链接,所返回的就是站点服务器生成的动态网页,而对应静态URL连接,所返回的是站点服务器所保存的静态网页,第三方设备通过收集对应的内容信息,实际上收集处理了包括动态网页在内的内容信息;
其中,站点服务器所返回的网页中包含了大量的信息,而面对不同的后续应用,可能对信息需求的侧重点有所不同。比如,如果提取的URL信息是为了建立搜索数据库,则需要提取并记录建立某一搜索数据库所指定的链接内容信息,即需要提取Meta、Title等数据,甚至需要提取访问时间等信息以建立基于时间的动态搜索引擎;如果提取的URL信息是为了建立访问类型统计数据库,那么可能只需要提取Meta信息;
因此,根据实际需求预先在第三方设备中设置信息提取策略,并在本步骤SA2中根据该预设的策略进行链接内容信息的提取即可。
综上所述,通过上述步骤SA1~SA2,本发明提供的URL信息获取方法通过对网络中的实际流量进行分析,能够有效实现对包括动态网页信息在内的URL信息的获取。
在上面的实施例中已经说明,第三方设备可以是客户端侧的交换路由设备或其镜像设备,也可以是站点服务器侧的交换路由设备或其镜像设备;具体来说,企业网关可以被认为是一种客户端侧的交换路由设备,而将站点服务器接入互联网的路由器可以被认为是一种站点服务器侧的交换路由设备;
虽然客户端侧的交换路由设备或其镜像设备和站点服务器侧的交换路由设备或其镜像设备都能够进行URL信息的获取,但在实际应用中,其获取URL信息的目的往往并不相同。比如,站点服务器侧的交换路由设备或其镜像设备进行URL信息的获取,可以完成对某些企业或网络团体的总体行为分析,或者为搜索引擎、动态知识管理系统如站点访问排行系统等提供数据支撑;客户端侧的交换路由设备或其镜像设备进行URL信息的获取,则可以完成对内部客户端访问情况的分析和汇总,以将本发明提供的URL信息获取方法应用到企业网关为例,通过对该企业对互联网资源的访问情况进行分析,可以为企业内部提供实时的资讯更新和安全监控,以提高工作效率。
基于上述应用差异,对于一些出于进行客户端行为分析而进行URL信息获取的第三方设备,包括进行企业总体分析或者进行企业内部个体分析的情况,为了实现上述行为分析功能,第三方设备还需要提取客户端信息;对于一些出于进行站点服务器访问分析而进行URL信息获取的第三方设备,还需要提取站点服务器信息;
上述对客户端信息/站点服务器信息的提取往往发生在客户端与站点服务器建立通信连接之后,也就是说客户端与站点服务器建立通信连接后还包括步骤SA0:提取并记录客户端信息和/或站点服务器信息;
具体来说,当客户端访问服务器时,通过三次握手建立客户端与服务器之间的通信连接,则交换路由设备或其镜像设备可以通过握手报文获得客户端的源IP地址、端口号、服务器的目的IP地址、端口号以及域名等信息,其中客户端信息至少包括客户端的源IP地址信息,站点服务器信息至少包括站点服务器的目的IP地址。
进一步的,在上述实施例中,都是以建立了TCP连接后的一次HTTP会话为例加以描述,但本领域技术人员可以了解,当一次HTTP会话结束后,客户端有可能基于该已建立的TCP连接启动下一次HTTP会话,这种情况下,对下一次HTTP会话重新执行步骤SA1~SA2可以继续采集对应的URL信息,从而形成再一次的URL信息采集结果;
当客户端完成对站点服务器的访问,比如关闭浏览器或者切换到其他站点的URL进行浏览时,该客户端与该站点服务器之间的TCP连接断开,第三方设备就相应完成了针对该TCP连接的完整URL信息采集过程,可能获得多次URL信息采集结果;
为了便于后续的处理,每一次URL信息采集结果可以以会话信息表的形式保存,该会话信息表至少包括URL链接项以及链接内容信息项,前者记录URL链接,后者记录对应URL链接的内容信息;也就是说,交换路由设备或其镜像设备对应每一会话,保存有一张会话信息表,在一次通信连接结束时,可能记录有多张会话信息表;
需要指出的是,在提取并记录客户端信息和/或站点服务器信息的情况下,会话信息表中还会相应设有客户端信息项和/或站点服务器信息项。
再进一步的,由于交换路由设备或其镜像设备可能对多个客户端以及多个站点服务器同时进行信息采集,也就是说在交换路由设备或其镜像设备中可能记录有对应不同连接的多次URL信息采集结果的大量会话信息表;
为了便于进一步的分析处理,比如发送给企业监控系统,或者发送给搜索引擎服务器等,则在提取并记录了客户端信息和/或站点服务器信息的情况下,在每一通信连接释放后,还包括步骤SA3:基于客户端信息和/或站点服务器信息对所记录的URL链接及相应的链接内容信息进行分类汇总;也就是说,可以将本次通信连接所形成的会话信息表进行打包或者集合处理。
请结合图3,显示了本发明URL信息获取方法另一实施例的流程图。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在一客户端与一站点服务器建立通信连接后,对双方之间的每一会话执行如下步骤:
步骤SA1:第三方设备解析所述客户端向所述站点服务器发送的通信报文,提取并记录客户端所请求的URL链接;
步骤SA2:第三方设备解析所述站点服务器向所述客户端返回的通信报文,按照预设的策略提取并记录所述URL链接对应的链接内容信息;
所述的存储介质包括:ROM/RAM(Read Only Memory/Random-AccessMemory,只读存储器/随机访问内存)、磁碟或者光盘等。
下面,对本发明提供的URL信息获取装置100加以描述,其一实施例如图4所示,包括:
解析单元110,用于解析建立通信连接的一客户端与一站点服务器之间交互的通信报文,以客户端与站点服务器之间建立TCP连接为例,解析单元110一般进行HTTP协议报文、FTP协议报文以及其他会话协议报文的解析;
URL链接提取单元120,与解析单元110连接,用于提取客户端所请求的URL链接,包括静态URL链接及动态URL链接;
链接内容信息提取单元130,与解析单元110连接,用于按照预设的策略提取URL链接对应的链接内容信息,包括动态URL链接对应的链接内容信息以及静态URL链接对应的链接内容信息;
其中,视后续应用的不同需要,该预设的策略可以包括某一搜索数据库所指定的链接内容信息提取策略,即需要提取Meta、Title等数据,甚至需要提取访问时间等信息以建立基于时间的动态搜索引擎;
记录单元140,分别与URL链接提取单元120和链接内容信息提取单元连接130,用于记录双方每一会话的URL链接及相应的链接内容信息;
由于在一次通信连接中可能存在多次会话,以及,URL信息获取装置可能为多次通信连接服务,为了便于整理和分析,记录单元140可以对应每一会话,保存有一张会话信息表,即以会话信息表的形式保存每一会话的URL链接及相应的链接内容信息,该会话信息表至少包括URL链接项以及链接内容信息项,前者记录URL链接,后者记录对应URL链接的内容信息。
通过上述URL信息获取装置100可以看出,该装置是对网络中的实际发生的流量进行分析,能够有效实现对包括动态网页信息在内的URL信息的获取。
较佳的,为了满足后续应用的需求,本发明提供的URL信息获取装置100还可以包括与解析单元110连接的信息提取单元150,用于提取客户端信息和/或站点服务器信息,该客户端信息至少包括客户端的源IP地址信息,该站点服务器信息至少包括站点服务器的目的IP地址;
该信息提取单元150还与记录单元140连接,该记录单元140用于记录客户端信息和/或站点服务器信息(可以在会话信息表中记录),并在通信连接释放后,基于客户端信息和/或站点服务器信息对所记录的URL链接及相应的链接内容信息进行分类汇总,以便于后续的分析。
本发明还提供了一种交换路由设备,用于为客户端和站点服务器提供交换路由服务;该交换路由设备设有如上所述的URL信息获取装置100。
本领域技术人员可以了解,该交换路由设备可以是为客户端提供接入互联网服务的交换路由设备,也可以是为站点服务器提供接入互联网服务的交换路由设备。
其中,为客户端提供接入互联网服务的交换路由设备可以是企业网关,其通过设置在其上的URL信息获取装置100获取该企业对互联网资源的访问情况,通过分析可以为企业内部提供实时的资讯更新和安全监控,以提高工作效率
本发明还提供了一种镜像设备,用于对至少一交换路由设备进行流量镜像,该交换路由设备为客户端和站点服务器提供交换路由服务;改镜像设备设有如上所述的URL信息获取装置100。
本领域技术人员可以了解,该镜像设备可以是为客户端提供接入互联网服务的交换路由设备的镜像设备,也可以是为站点服务器提供接入互联网服务的交换路由设备的镜像设备。
同样的,为客户端提供接入互联网服务的交换路由设备可以是企业网关。
下面对本发明提供的搜索引擎实现方法加以描述,其一实施例如图5所示,包括以下步骤:
步骤SB1:第三方设备根据如上所述的URL信息获取方法获取客户端访问的URL链接及相应的链接内容信息;
可以看出,本步骤SB1获得的URL信息基于网络中实际发生的流量,包括动态网页的URL信息;该第三方设备包括为客户端和/或站点服务器提供交换路由服务的交换路由设备,或者,镜像该交换路由设备通信流量的镜像设备。
步骤SB2:第三方设备访问该URL链接的站点服务器,识别获取的链接内容信息是否允许被搜索引擎采集;
本步骤SB2的具体实现方式可以包括:第三方设备获得该URL站点服务器根目录的robots.txt文件来识别获取到的链接内容信息是否允许被搜索引擎采集,如果不允许被采集,则丢弃该采集到的信息,从而规避搜索引擎的隐私问题。
步骤SB3:保留允许被搜索引擎采集的链接内容信息,并在每次通信连接释放后,将该次通信连接过程中获取的URL链接及相应的链接内容信息发送给搜索引擎服务器,由该搜索引擎服务器生成搜索数据库;
具体的,搜索引擎通过分析获得的URL链接及相应的链接内容信息(可以是多个会话信息表或者汇聚后的会话信息表),利用现有的Indexer,生成搜索数据库。其中,如何利用已有信息建立索引和更新数据库等操作可以利用现有技术来完成,在此不再赘述。
可以看出,通过上述步骤SB1~SB3获得的搜索数据库,是基于网络中实际发生的流量建立的,由于该实际发生的流量包括动态URL链接,因此可以有效克服现有技术中动态URL的搜索引擎限制,支持对于动态网页的搜索;同时,由于该实际发生的流量最真实地反映了信息在互联网上被访问的情况,因此建立的搜索数据库具有实用性和实效性的特点,能够实现热门词汇的动态刷新,从而提高搜索引擎的搜索准确性;以及,不需要借助现有的网络爬虫技术实现,有效减少了网络爬虫程序占用的互联网带宽,尤其是网络爬虫大量访问很少被实际用户访问的互联网资源所占用的带宽。
下面对本发明提供的搜索引擎实现系统加以描述,其一实施例如图6所示,包括搜索引擎服务器20,其特征在于,还包括多个第三方设备10,任一第三方设备10设有:
如上所述的URL信息获取装置100,用于获取客户端访问的URL链接及相应的链接内容信息,包括动态URL的链接内容信息;
站点服务器访问装置200,与URL信息获取装置100连接,用于访问URL链接的站点服务器,识别该链接内容信息是否允许被搜索引擎采集,是则指令该URL信息获取装置100保留允许被搜索引擎采集的链接内容信息,否则予以丢弃,以规避搜索引擎的隐私问题;
URL信息发送装置300,与URL信息获取装置100连接,用于在每次通信连接释放后,将所记录的URL链接及相应的链接内容信息发送给搜索引擎服务器20,由该搜索引擎服务器20生成搜索数据库。
可以看出,通过上述提供的搜索引擎实现系统,可以有效克服现有技术中动态URL的搜索引擎限制,获得具有实用性和实效性的搜索引擎,同时无需采用网络爬虫技术,避免了对互联网带宽的占用。
其中,第三方设备包括为客户端和站点服务器提供交换路由服务的交换路由设备,或者,镜像该交换路由设备通信流量的镜像设备。
需要指出,由于一个第三方设备上能够看到的网络资源仅局限于经过本设备的网络流量,所以要获得整个互联网的信息,需要在尽可能多的网络节点处应用这种具有采集功能的第三方设备,或者在网络中的重要节点部署具有这种具有信息采集功能的第三方设备,以便这些第三方设备将采集到的信息汇总给搜索引擎公司指定的搜索引擎服务器。
本方案的部署在实际应用中必然要经过一个互联网逐步普及的过程,当部署的第三方设备不足以采集到搜索引擎需要的足够信息时,本发明所提供的搜索引擎实现系统可以作为现有搜索引擎实现系统的一个有效补充,搜索引擎数据库可以同时应用爬虫技术和本方案获得数据进行统一分析;这样相当于为现有搜索引擎数据库补充了一部分动态内容,也能在一定程度上提升搜索引擎内容的实时性和实效性。
虽然已参照几个典型实施例描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (9)

1.一种搜索引擎实现方法,其特征在于,包括以下步骤:
步骤SB1:第三方设备根据URL信息获取方法获取客户端访问的URL链接及相应的链接内容信息;其中,所述URL信息获取方法在一客户端与一站点服务器建立通信连接后,对双方之间的每一会话执行以下步骤:
步骤SA1:第三方设备解析所述客户端向所述站点服务器发送的通信报文,提取并记录客户端所请求的URL链接;
步骤SA2:第三方设备解析所述站点服务器向所述客户端返回的通信报文,按照预设的策略提取并记录所述URL链接对应的链接内容信息;
步骤SB2:第三方设备访问所述URL链接的站点服务器,识别获取的链接内容信息是否允许被搜索引擎采集;
步骤SB3:保留允许被搜索引擎采集的链接内容信息,并在每次通信连接释放后,将所述URL链接及相应的链接内容信息发送给搜索引擎服务器,由所述搜索引擎服务器生成搜索数据库。
2.根据权利要求1所述的搜索引擎实现方法,其特征在于,所述步骤SA2中,按照预设的策略提取并记录所述URL链接对应的链接内容信息的步骤包括:提取并记录建立某一搜索数据库所指定的链接内容信息。
3.根据权利要求1或2所述的搜索引擎实现方法,其特征在于,所述客户端与站点服务器建立通信连接后还包括步骤SA0:提取并记录客户端信息和/或站点服务器信息,所述客户端信息包括所述客户端的源IP地址信息,所述站点服务器信息包括所述站点服务器的目的IP地址。
4.根据权利要求3所述的搜索引擎实现方法,其特征在于,当所述通信连接释放后,还包括步骤SA3:基于所述客户端信息和/或站点服务器信息对所记录的URL链接及相应的链接内容信息进行分类汇总。
5.根据权利要求1或2所述的搜索引擎实现方法,其特征在于,所述第三方设备包括为所述客户端和所述站点服务器提供交换路由服务的交换路由设备,或者,镜像所述交换路由设备通信流量的镜像设备。
6.一种搜索引擎实现系统,包括搜索引擎服务器,其特征在于,还 包括多个第三方设备,任一所述第三方设备设有:
URL信息获取装置,用于获取客户端访问的URL链接及相应的链接内容信息;其中,所述URL信息获取装置包括:
解析单元,用于解析建立通信连接的一客户端与一站点服务器之间交互的通信报文;
URL链接提取单元,与所述解析单元连接,用于提取客户端所请求的URL链接;
链接内容信息提取单元,与所述解析单元连接,用于按照预设的策略提取所述URL链接对应的链接内容信息;
记录单元,分别与所述URL链接提取单元和链接内容信息提取单元连接,用于记录双方每一会话的URL链接及相应的链接内容信息;
站点服务器访问装置,与所述URL信息获取装置连接,用于访问所述URL链接的站点服务器,识别所述链接内容信息是否允许被搜索引擎采集,是则指令所述URL信息获取装置保留允许被搜索引擎采集的链接内容信息;
URL信息发送装置,与所述URL信息获取装置连接,用于在每次通信连接释放后,将所述URL链接及相应的链接内容信息发送给所述搜索引擎服务器,由所述搜索引擎服务器生成搜索数据库。
7.根据权利要求6所述的搜索引擎实现系统,其特征在于,所述预设的策略包括某一搜索数据库所指定的链接内容信息提取策略。
8.根据权利要求6或7所述的搜索引擎实现系统,其特征在于,所述URL信息获取装置还包括与所述解析单元连接的信息提取单元,用于提取所述客户端信息和/或站点服务器信息,所述客户端信息包括所述客户端的源IP地址信息,所述站点服务器信息包括所述站点服务器的目的IP地址;所述信息提取单元还与所述记录单元连接,所述记录单元用于记录所述客户端信息和/或站点服务器信息,并在所述通信连接释放后,基于所述客户端信息和/或站点服务器信息对所记录的URL链接及相应的链接内容信息进行分类汇总。
9.根据权利要求6所述的搜索引擎实现系统,其特征在于,所述第三方设备包括为所述客户端和/或所述站点服务器提供交换路由服务的交 换路由设备,或者,镜像所述交换路由设备通信流量的镜像设备。 
CN2008102119950A 2008-09-17 2008-09-17 Url信息获取方法和装置及搜索引擎实现方法及系统 Expired - Fee Related CN101355587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102119950A CN101355587B (zh) 2008-09-17 2008-09-17 Url信息获取方法和装置及搜索引擎实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102119950A CN101355587B (zh) 2008-09-17 2008-09-17 Url信息获取方法和装置及搜索引擎实现方法及系统

Publications (2)

Publication Number Publication Date
CN101355587A CN101355587A (zh) 2009-01-28
CN101355587B true CN101355587B (zh) 2012-05-23

Family

ID=40308175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102119950A Expired - Fee Related CN101355587B (zh) 2008-09-17 2008-09-17 Url信息获取方法和装置及搜索引擎实现方法及系统

Country Status (1)

Country Link
CN (1) CN101355587B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫系统及方法
WO2011157215A1 (en) * 2010-06-15 2011-12-22 Usm China/Hong Kong Limited Context level protocols and interfaces
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102789460A (zh) * 2011-05-19 2012-11-21 腾讯科技(北京)有限公司 获取短url对应页面标题的方法及装置
CN103020188A (zh) * 2012-11-30 2013-04-03 北京网秦天下科技有限公司 多平台应用搜索方法和服务器
CN103605735B (zh) * 2013-11-19 2017-11-21 北京国双科技有限公司 网站数据分析方法及装置
CN103685598B (zh) * 2013-12-06 2017-01-25 国家计算机网络与信息安全管理中心 在IPv6网络中发现活跃IP地址的方法及装置
CN106126715B (zh) * 2016-06-30 2019-06-04 北京奇虎科技有限公司 一种网页中渲染数据收录的方法和装置
CN107861861B (zh) * 2016-11-14 2020-11-24 平安科技(深圳)有限公司 短信接口查找方法和装置
CN107423132B (zh) * 2017-04-20 2020-10-02 山东开创云计算有限公司 一种用于拍卖平台的大规模并发优化处理方法
CN109510731A (zh) * 2017-09-15 2019-03-22 顺丰科技有限公司 多维度收集url链接及参数的方法、系统及设备
CN111782914B (zh) * 2020-06-22 2023-05-26 杭州迪普科技股份有限公司 一种Web服务器防护方法、装置和网络设备
CN114793180A (zh) * 2022-05-26 2022-07-26 恒安嘉新(北京)科技股份公司 异常网络流量的拦截方法、装置、拦截设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327195A (zh) * 2000-05-08 2001-12-19 互联网号码公司 用于访问在一个网络上的信息的方法和系统
CN1155199C (zh) * 1998-02-23 2004-06-23 国际商业机器公司 万维网浏览器中顺序链接的热对象及连续流视频浏览方法
CN1173282C (zh) * 1999-09-20 2004-10-27 国际商业机器公司 为万维网网页动态增加新功能的方法和系统
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1851705A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体的主题式网络爬虫系统构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155199C (zh) * 1998-02-23 2004-06-23 国际商业机器公司 万维网浏览器中顺序链接的热对象及连续流视频浏览方法
CN1173282C (zh) * 1999-09-20 2004-10-27 国际商业机器公司 为万维网网页动态增加新功能的方法和系统
CN1327195A (zh) * 2000-05-08 2001-12-19 互联网号码公司 用于访问在一个网络上的信息的方法和系统
CN1770159A (zh) * 2005-10-28 2006-05-10 北大方正集团有限公司 一种网络内容引用自动发现的方法
CN1851705A (zh) * 2006-05-30 2006-10-25 南京大学 基于本体的主题式网络爬虫系统构建方法

Also Published As

Publication number Publication date
CN101355587A (zh) 2009-01-28

Similar Documents

Publication Publication Date Title
CN101355587B (zh) Url信息获取方法和装置及搜索引擎实现方法及系统
JP5160556B2 (ja) 分散型コンピュータネットワークに基づくログファイル分析方法およびシステム
JP3880337B2 (ja) コンテンツ変換方法及び変換後コンテンツ取得方法
CN102624920B (zh) 一种通过代理服务器进行访问的方法及装置
Losarwar et al. Data preprocessing in web usage mining
CN102143243B (zh) 动态路由处理方法和装置及其家庭网关
CN108011995A (zh) 异地多活的实现方法、异地多活服务平台及存储介质
CN102364468A (zh) 一种用户网络行为分析方法、装置和系统
CN101046806B (zh) 搜索引擎系统和方法
CN102783119A (zh) 访问控制方法、系统及接入终端
CN102098229A (zh) 统一资源定位符优化审计的方法、装置和网络侧设备
CN101931635A (zh) 网络资源访问方法及代理装置
CN102752322A (zh) 一种物联网中分布式数据存储和查询的方法
CN111258978A (zh) 一种数据存储的方法
CN102724184A (zh) 一种网页收藏分享方法及服务器
CN100536472C (zh) 一种网络资源访问控制的方法、模块和服务器
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
CN101551813A (zh) 网络连接设备、搜索设备及搜集搜索引擎数据源的方法
CN111585786A (zh) 一种大数据集群免密搭建方法的实现
CN108073693A (zh) 一种基于Hadoop的分布式网络爬虫系统
CN110825950B (zh) 一种基于元搜索的隐藏服务发现方法
US20120158796A1 (en) Method, apparatus and system for generating bookmarks
CN101008946A (zh) 中文移动通信信息搜索方法及装置
Nath et al. A novel mobile crawler system based on filtering off non-modified pages for reducing load on the network.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Patentee after: Xinhua three Technology Co., Ltd.

Address before: 310053 Hangzhou hi tech Industrial Development Zone, Zhejiang province science and Technology Industrial Park, No. 310 and No. six road, HUAWEI, Hangzhou production base

Patentee before: Huasan Communication Technology Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523

Termination date: 20200917