CN103473358B - 一种搜索引擎抓取网页开放式摘要信息的方法及装置 - Google Patents

一种搜索引擎抓取网页开放式摘要信息的方法及装置 Download PDF

Info

Publication number
CN103473358B
CN103473358B CN201310445238.0A CN201310445238A CN103473358B CN 103473358 B CN103473358 B CN 103473358B CN 201310445238 A CN201310445238 A CN 201310445238A CN 103473358 B CN103473358 B CN 103473358B
Authority
CN
China
Prior art keywords
summary info
webpage
open
open summary
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310445238.0A
Other languages
English (en)
Other versions
CN103473358A (zh
Inventor
袁瑞峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310445238.0A priority Critical patent/CN103473358B/zh
Publication of CN103473358A publication Critical patent/CN103473358A/zh
Priority to US15/025,236 priority patent/US20160232237A1/en
Priority to PCT/CN2014/084206 priority patent/WO2015043322A1/zh
Application granted granted Critical
Publication of CN103473358B publication Critical patent/CN103473358B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的实施例公开了一种搜索引擎抓取网页开放式摘要信息的方法及装置,其中该方法包括:在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;以及在检测到网页信息中包含标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构相映射的网页内容。通过本发明的实施例能够调整搜索引擎抓取的开放式摘要信息的内容,极大地丰富了网页摘要信息展示的形式。

Description

一种搜索引擎抓取网页开放式摘要信息的方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种搜索引擎抓取网页开放式摘要信息的方法及装置。
背景技术
用户在使用搜索引擎进行搜索时,搜索引擎会根据用户输入的搜索关键词返回多个搜索结果并展示给用户查看,然而不同的用户有时候会有不同的偏好的站点。目前主流的搜索引擎,在抓取网站内容时仅是根据简单的robots协议(也称为爬虫协议、爬虫规则、机器人协议等)进行提取,在用户搜索时根据匹配度提供简单的信息展示,由此使得网站信息与用户搜索需求匹配度不高,展示效果差,搜索结果转化率低,内容无法验证等多个技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的搜索引擎抓取网页开放式摘要信息的方法及装置,丰富搜索结果展示的效果。
为了达到上述目的,本发明的实施例的一个方面提供了一种搜索引擎抓取网页开放式摘要信息的方法,包括:在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;以及在检测到网页信息中包含标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构相映射的网页内容。
可选地,每个网页包括一个或者多个开放式摘要信息,每个开放式摘要信息与相应的网页的关键词相关联。
可选地,与开放式摘要信息中描述的结构相映射的网页内容包括以下的至少一种:文字、图片、链接、视频和音频。
可选地,该方法还包括:验证开放式摘要信息的渲染结果、和/或验证开放式摘要信息的格式、和/验证开放式摘要信息的网页内容;在验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回根据协议头以及内容对开放式摘要信息进行渲染的渲染结果,以作为所述搜索请求的搜索结果。
可选地,该方法还包括:在验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
可选地,验证开放式摘要信息的格式的步骤包括:验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值;
所述验证开放式摘要信息的内容的步骤包括:验证开放式摘要信息的内容中是否包含特定元素。
可选地,特定元素包括价格和折扣信息中的至少一个。
可选地,开放式摘要信息采用HTML、HTML5、JavaScript、Flash、或CSS的格式。
根据本发明的实施例的另一个方面提供了一种搜索引擎抓取网页开放式摘要信息的装置,其包括:检测模块,用于在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;以及抓取模块,用于在检测到网页信息中包含所述标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的所述结构相映射的网页内容。
可选地,每个网页包括一个或者多个开放式摘要信息,每个开放式摘要信息与相应的网页关键词网页的关键词相关联。
可选地,与开放式摘要信息中描述的结构相映射的网页内容包括以下的至少一种:文字、图片、链接、视频和音频。
可选地,该装置还包括:验证模块,用于验证开放式摘要信息的渲染结果、和/或验证开放式摘要信息的格式、和/或验证开放式摘要信息的网页内容;在验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回根据协议头以及网页内容对开放式摘要信息进行渲染的渲染结果,以作为所述搜索请求的搜索结果。
可选地,该验证模块还用于在验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
可选地,该验证模块进一步用于验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值;或者验证模块进一步用于验证开放式摘要信息的内容中是否包含特定元素。
在本发明的实施例中,在抓取网页信息时,当检测到网页信息中包含标识时,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构相映射的网页内容,从而便于调整搜索引擎抓取网页开放式摘要信息的内容,极大地丰富了网页摘要信息展示的形式。例如:以与开放式摘要信息中描述的结构相映射的网页内容为文字内容为例,该开放式摘要信息包括:旨在让用户大体了解网页上的内容的相关信息,以及与用户的搜索查询有何关联的信息。举例:评级、评论之外,还可以添加诸如“产品的图片”、“产品的价格”、“是否有库存”等等帮助用户确定搜索相关度的信息。如果搜索引擎了解网页上的内容,就可以根据内容在搜索结果中展示上面这种搜索结果。这种搜索结果可以帮助搜索用户直观的了解网站与用户的搜索初衷是否相关和匹配,从而获得更高的点击率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的搜索引擎抓取网页开放式摘要信息的方法100的流程图;
图2示出了根据本发明一个实施例的验证网页开放式摘要信息的方法200的流程图
图3示出了根据本发明一个实施例的搜索引擎提供网页开放式摘要信息的方法300的流程图;
图4示出了根据本发明另一个实施例的搜索引擎提供网页开放式摘要信息的方法400的流程图;
图5示出了根据本发明一个实施例的搜索引擎抓取网页开放式摘要信息的装置500的结构框图;
图6示出了根据本发明一个实施例的验证网页开放式摘要信息的装置600的结构框图;
图7示出了根据本发明一个实施例的搜索引擎提供网页开放式摘要信息的装置700的结构框图;以及
图8示出了根据本发明另一个实施例的搜索引擎提供网页开放式摘要信息的装置800的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明的实施例中,为了增强搜索结果展示的效果,搜索引擎可以抓取网页开放式摘要信息,然后搜索引擎将抓取得到的一个或多个网页开放式摘要信息作为搜索结果进行展示。可选地,在抓取到网页开放式摘要信息后,可对网页开放式摘要信息进行验证,在验证通过后,搜索引擎将网页开放式摘要信息作为搜索结果进行展示。
其中,上述搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
上述开放式摘要信息可以由网站结合网页关键词一并提供,并需通过搜索引擎的验证系统通过后,才予以展示,该开放式摘要信息包括:旨在让用户大体了解网页上的内容的相关信息,以及与用户的搜索查询有何关联的信息。举例:评级、评论之外,还可以添加诸如“产品的图片”、“产品的价格”、“是否有库存”等等帮助用户确定搜索相关度的信息。当然可以理解的是,在本发明的实施例中并不限定开放式摘要信息的表现形式。
实施例一
下面首先介绍搜索引擎抓取网页开放式摘要信息的方法,具体包括:在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;在检测到网页信息中包含标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与其中描述的结构相映射的网页内容。
如图1所示,为本发明的实施例中的搜索引擎抓取网页开放式摘要信息的方法100的流程图,该方法100始于步骤S110。在步骤S110中,在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识。
其中,通过预设的开放式摘要信息的标识来判断抓取的网页信息中是否包含开放式摘要信息,在本发明的实施例中并不限定上述预设的开放式摘要信息的标识的具体形式。
可选地,在本发明的实施例中,每个网页可以包括一个或多个开放式摘要信息,每个开放式摘要信息与相应的网页的关键词相关联。当用户输入的搜索关键词能够与网页的关键词相匹配时,搜索引擎可返回并展示与该网页的关键词相关联的开放式摘要信息。
其中,开放式摘要信息可以采用HTML(Hypertext Markup Language,超文本标记语言)、HTML5、JavaScript、Flash、或CSS(Cascading Style Sheet,级联样式表)的格式。当然可以理解的是,在本发明的实施例中并不限定开放式摘要信息的具体格式。
在检测到网页信息中包含标识的情况下,进入步骤S130,在步骤S130中,抓取网页信息中描述开放式摘要信息的结构的协议头以及与其中描述的结构相映射的网页内容。
可选地,在本发明的实施例中,与开放式摘要信息中描述的结构相映射的网页内容包括以下的至少一种:文字、图片、链接、视频和音频。当然可以理解的是,在本发明的实施例中并不限定网页内容的具体类型。
可选地,在步骤S130之后,可进入步骤S150。在步骤S150中,验证开放式摘要信息的渲染结果、和/或验证开放式摘要信息的格式、和/验证开放式摘要信息的网页内容。
可选地,在本发明的实施例中,步骤S150中,验证开放式摘要信息的格式的步骤包括:验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值。
例如:预先定义的阈值为400px×170px,如果开放式摘要信息所占网页区域的大小超出400px×170px时,则验证不通过。当然可以理解的是,在本发明的实施例中并不限定阈值的具体范围。
可选地,在本发明的实施例中,步骤S150中,验证开放式摘要信息的内容的步骤包括:验证开放式摘要信息的内容中是否包含特定元素。可选地,特定元素包括价格和折扣率中的至少一个。
例如:如果开放式摘要信息的内容包括某款产品或某项服务的具体价格和/或折扣率时,则验证不通过。因此,通过本发明的实施例搜索引擎提供的开放式摘要信息可以仅提供一个抽象内容,而不提供其他可能的含义或行为,例如价格竞争等。当然可以理解的是,在本发明的实施例中并不限定特定元素的具体内容。
可选地,在本发明的实施例中,在步骤S150验证通过的情况下,可以进入步骤S170。
在步骤S170中,在验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回根据协议头以及网页内容对开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。例如:采用现有的渲染方式,根据协议头和网页内容对开放式摘要信息进行渲染,在此不再敷述。
可选地,在本发明的实施例中,在步骤S150验证未通过的情况下,可进入步骤S190。
在步骤S190中,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
其中,上述默认摘要信息可以是指采用Sitemap(站点地图)协议抓取的网页摘要信息,或者由搜索引擎自动识别网页页面中可优化展示的部分。当然可以理解的是,在本发明的实施例中并不限定默认摘要信息的抓取方式。
在本发明的实施例中,在抓取网页信息时,当检测到网页信息中包含标识时,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构相映射的网页内容,从而便于调整搜索引擎抓取网页开放式摘要信息的内容,极大地丰富了网页摘要信息展示的形式。
例如:以与开放式摘要信息中描述的结构相映射的网页内容为文字为例,该开放式摘要信息包括:旨在让用户大体了解网页上的内容的相关信息,以及与用户的搜索查询有何关联的信息。举例:“评级”、“评论”之外,还可以添加诸如“产品的图片”、“产品的价格”、“是否有库存”等等帮助用户确定搜索相关度的信息。如果搜索引擎了解网页上的内容,就可以根据内容在搜索结果中展示上面这种搜索结果。这种搜索结果可以帮助搜索用户直观的了解网站与用户的搜索初衷是否相关和匹配,从而获得更高的点击率。
需要说明的是,图1所示的方法并不限定按所示的各步骤的顺序进行,可以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分,上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例二
在搜索引擎抓取网页开放式摘要信息之后,可以对开放式摘要信息进行验证。下面介绍验证网页搜索引擎验证网页开放式摘要信息的方法,具体包括:在检测到网页信息中包含预设的开放式摘要信息的标识的情况下,验证对开放式摘要信息进行渲染的渲染结果是否成功;如果渲染结果成功,根据预先定义的规则,验证开放式摘要信息的格式和/验证开放式摘要信息的网页内容。
如图2所示,为本发明的实施例中验证网页开放式摘要信息的方法200的示意图,该方法200始于步骤S210。
在步骤S210中,在检测到网页信息中包含预设的开放式摘要信息的标识的情况下,验证对开放式摘要信息进行渲染的渲染结果是否成功。
其中,通过预设的开放式摘要信息的标识来判断抓取的网页信息中是否包含开放式摘要信息,当然可以理解的是,在本发明的实施例中并不限定上述预设的开放式摘要信息的标识的具体形式。
可选地,在本发明的实施例中,开放式摘要信息可以采用HTML、HTML5、JavaScript、Flash或CSS的格式。当然可以理解的是,在本发明的实施例中并不限定开放式摘要信息的具体格式。
可选地,在本发明的实施例中,可以采用JavaScript脚本语言验证对开放式摘要信息进行渲染的渲染结果是否成功,当然可以理解的是,在本发明的实施例中并不限定验证对开放式摘要信息进行渲染的渲染结果是否成功的具体方式。
随后,如果渲染结果成功,在步骤S230中,根据预先定义的规则,验证开放式摘要信息的格式和/验证开放式摘要信息的网页内容。
可选地,在本发明的实施例中,预定义的规则可以是:验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值。例如:预先定义的阈值为400px×170px,如果开放式摘要信息所占网页区域的大小超出400px×170px,则验证不通过。当然可以理解的是,在本发明的实施例中并不限定阈值的具体范围。
或者,在本发明的实施例中,预定义的规则也可以是:验证开放式摘要信息的内容中是否包含特定元素。例如:特定元素包括某款产品或某项服务的具体价格和折扣率中的至少一个。如果开放式摘要信息的内容包括价格和/或折扣率,则验证不通过。因此,通过本发明的实施例搜索引擎提供的开放式摘要信息可以仅提供一个抽象内容,而不提供其他可能的含义或行为,例如价格竞争等。当然可以理解的是,在本发明的实施例中并不限定特定元素的具体内容。
同样,可以理解的是,在本发明的实施例中并不限定预先定义的规则。
可选地,在本发明的实施例中,该网页内容包括以下的至少一种:文字、图片、链接、视频和音频。当然可以理解的是,在本发明的实施例中并不限定网页内容的具体类型。
可选地,在本发明的实施例中,在步骤S230之后,在渲染结果、开放式摘要信息的格式或网页内容的验证通过的情况下,进入步骤S250。
在步骤S250中,在接收到与网页的关键词相匹配的搜索请求时,返回网页的开放式摘要信息的渲染结果,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,搜索结果可以采用HTML、SHTML、HTML5、或XML(Extensible Markup Language,可扩展标记语言)的格式,当然可以理解的是,在本发明的实施例中并不限定搜索结果的具体格式。
可选地,在步骤S230之后,在渲染结果、开放式摘要信息的格式或网页内容的验证未通过的情况下,进入步骤S270。
在步骤S270中,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
上述默认摘要信息可以采用现有的sitemap协议等方式从一个或多个网页中抓取得到。
需要说明的是,图2所示的方法并不限定按所示的各步骤的顺序进行,可以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分,上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例三
在搜索引擎抓取到一个或多个网页开放式摘要信息,或者在开放式摘要信息验证通过后,搜索引擎可以将网页开放式摘要信息作为搜索结果,并展示开放式摘要信息。下面介绍搜索引擎提供网页开放式摘要信息的方法。
在本发明的实施例中,搜索引擎提供网页开放式摘要信息的方法,具体包括:接收搜索请求;在开放式摘要数据库中查找与搜索请求相匹配的网页;对于与搜索请求相匹配的网页,返回对开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。
如图3所示,为本发明的实施例中搜索引擎提供网页开放式摘要信息的方法300的示意图,该方法始于步骤S310,在步骤S310中,接收搜索请求。
例如:用户在搜索栏中输入搜索关键词;然后客户端将搜索关键词构成的URL(Uniform Resource Locator,统一资源定位符)发送给网络侧的搜索引擎。
随后,在步骤S330中,在开放式摘要数据库中查找与搜索请求相匹配的开放式摘要信息。其中,开放式摘要数据库中预先存储有一个或多个开放式摘要信息。
可选地,在本发明的实施例中,网页内容包括以下的至少一种:文字、图片、链接、视频和音频,当然可以理解的是,在本发明的实施例中并不限定网页内容的具体类型。
随后,在步骤S350中,对于与搜索请求相匹配的开放式摘要信息,返回对开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。可选地,在搜索结果中,包含搜索结果排在靠前的位置的开放式摘要信息。
可选地,在本发明的实施例中,在步骤S350中,在网页包括多个开放式摘要信息的情况下,确定与搜索请求最相匹配的开放式摘要信息,并且返回对最相匹配的开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。
在本发明的实施例中,可采用现有的搜索引擎算法根据搜索请求计算得到多个匹配的开放式摘要信息,然后从多个开放式摘要信息中确定出最相匹配的开放式摘要信息。
可选地,在本发明的实施例中,搜索结果采用HTML、SHTML、HTML5、或XML的格式,当然可以理解的是,在本发明的实施例中并不限定搜索结果的具体格式。
可选地,在本发明的实施例中,在步骤S350中,根据网页信息中描述开放式摘要信息的结构的协议头以及与其中描述的结构相映射的网页内容,对开放式摘要信息进行渲染。
可选地,在本发明的实施例中,网页内容包括以下的至少一种:文字、图片、链接、视频和音频,当然可以理解的是,在本发明的实施例中并不限定网页内容的具体类型。
可选地,在本发明的实施例中,采用HTML、HTML5、JavaScript、Flash、或CSS的格式,根据协议头以及网页内容,对开放式摘要信息进行渲染。
可选地,在本发明的实施例中,搜索结果采用HTML、SHTML、HTML5、或XML的格式,当然可以理解的是,在本发明的实施例中并不限定搜索结果的格式。
可选地,在本发明的实施例中,在接收搜索请求的步骤(S310)中,从客户端接收搜索请求,并且在网页包括开放式摘要信息的情况下,返回对开放式摘要信息进行渲染的渲染结果以作为搜索请求的搜索结果的步骤(S330)中,向客户端返回渲染结果,以在客户端上作为搜索结果进行展示。
需要说明的是,图3所示的方法并不限定按所示的各步骤的顺序进行,可以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分,上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例四
下面介绍另一种实现搜索引擎提供网页开放式摘要信息的方法,具体包括:在抓取网页信息时,检测其中是否包含描述开放式摘要信息的结构的协议头;在检测到协议头的情况下,抓取协议头以及与其中描述的结构相映射的网页内容,并且根据协议头以及网页内容对开放式摘要信息进行渲染;检测开放式摘要信息中是否包含特定元素,在包含的情况下,将特定元素与网页信息相对应地抓取;在接收到与网页的关键词相匹配的搜索请求时,返回包含与搜索请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果,以作为搜索请求的搜索结果;以及响应于基于开放式摘要信息中的特定元素进行排序的请求,对搜索结果进行排序。
如图4所示,为本发明的实施例中搜索引擎显示展示网页开放式摘要信息的方法400的示意图,该方法400始于步骤S410。
在步骤S410中,在接收到搜索请求时,返回包含与搜索请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果,以作为搜索请求的搜索结果。
可选地,网络侧的搜索服务器接收到终端设备发送的搜索请求后,根据搜索请求中的关键词进行匹配,得到包含与搜索请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果,并作为搜索请求的搜索结果返回至终端设备。
随后,在步骤S430中,响应于基于开放式摘要信息中的特定元素进行排序的请求,对搜索结果进行排序。
可选地,网络侧的搜索服务器接收到终端设备的基于开放式摘要信息中的特定元素的排序请求,按照从高到底或者从低到高等方式对搜索结果进行排序,当然可以理解的是,在本发明的实施例中并不限定排序的具体策略。
可选地,在本发明的实施例中,在步骤S410之前,上述方法400还包括:在抓取网页内容时,检测其中是否包含预设的开放式摘要信息的标识;然后在检测到网页内容中包含标识的情况下,检测开放式摘要信息中是否包含特定元素,在包含特定元素的情况下,将特定元素与网页的关键词、开放式摘要信息相对应地存储。
可选地,在本发明的实施例中,网页内容包括以下的至少一种:文字、图片、链接、视频和音频。当然可以理解的是,在本发明的实施例中并不限定网页内容的具体格式。
可选地,在本发明的实施例中,在将特定元素与网页的关键词、开放式摘要信息相对应地存储的步骤中,将特定元素作为特定条目,与网页的关键词、开放式摘要信息相对应地存储在搜索引擎的数据库中。
可选地,在本发明的实施例中,在步骤S430中,将包含开放式摘要信息的搜索结果排在靠前的位置。
可选地,在本发明的实施例中,在步骤S430中,按照特定元素升序或者降序,对搜索结果进行排序。可选地,特定元素包括价格、折扣率、好评率、信用等级和销量中的至少一个。
可选地,在本发明的实施例中,开放式摘要信息采用HTML、HTML5、JavaScript、Flash或CSS的格式,当然可以理解的是,在本发明的实施例中并不限定开放式摘要信息的具体格式。
可选地,在本发明的实施例中,搜索结果采用HTML、SHTML、HTML5或XML的格式,当然可以理解的是,在本发明的实施例中并不限定搜索结果的具体格式。
需要说明的是,图4所示的方法并不限定按所示的各步骤的顺序进行,可以根据需要调整各步骤的先后顺序,另外,所述步骤也不限定于上述步骤划分,上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例五
如图5所示,为本发明的实施例中搜索引擎抓取网页开放式摘要信息的装置500的结构示意图。
在本发明的实施例中,该装置500包括:检测模块510和抓取模块530,其中检测模块510用于在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;抓取模块530用于在检测到网页信息中包含标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构相映射的网页内容。
可选地,在本发明的实施例中,每个网页包括一个或者多个开放式摘要信息,每个开放式摘要信息与相应的网页关键词网页的关键词相关联。
可选地,在本发明的实施例中,与开放式摘要信息中描述的结构相映射的网页内容包括以下的至少一种:文字、图片、链接、视频和音频。
可选地,在本发明的实施例中,装置500还包括:验证模块,用于验证开放式摘要信息的渲染结果、和/或验证开放式摘要信息的格式、和/或验证开放式摘要信息的网页内容;在验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回根据协议头以及网页内容对开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,验证模块还用于在验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,验证模块进一步用于验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值;或者验证模块进一步用于验证开放式摘要信息的内容中是否包含特定元素。
实施例六
如图6所示,为本发明的实施例中的验证网页开放式摘要信息的装置600的结构示意图。
在本发明的实施例中,该装置600包括:第一验证模块610和第二验证模块620,其中第一验证模块610用于在检测到网页信息中包含预设的开放式摘要信息的标识的情况下,验证对开放式摘要信息进行渲染的渲染结果是否成功;第二验证模块620用于根据预先定义的规则,验证开放式摘要信息的格式和/或网页内容。
可选地,在本发明的实施例中,装置600还包括:结果返回模块630,用于在渲染结果、以及格式和/或网页内容的验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的开放式摘要信息的渲染结果,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,结果返回模块630还用于在渲染结果、或格式、或内容的验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,第二验证模块620进一步用于验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值。
可选地,在本发明的实施例中,第二验证模块620进一步用于验证开放式摘要信息的内容中是否包含特定元素。
实施例七
如图7所示,为本发明的实施例中搜索引擎提供网页开放式摘要信息的装置700的结构示意图。
在本发明的实施例中,该装置700包括:接收模块710、查找模块720和提供模块730,其中接收模块710用于接收搜索请求;查找模块720用于在开放式摘要数据库中查找与搜索请求相匹配的网页内容;以及提供模块730用于对于与搜索请求相匹配的网页,返回对开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,提供模块730进一步用于在网页包括多个开放式摘要信息的情况下,确定与搜索请求最相匹配的开放式摘要信息,并且返回对最相匹配的开放式摘要信息进行渲染的渲染结果,以作为搜索请求的搜索结果。
可选地,在本发明的实施例中,提供模块730还用于根据网页信息中描述开放式摘要信息的结构的协议头以及与其中描述的结构相映射的网页内容,对开放式摘要信息进行渲染。
可选地,在本发明的实施例中,接收模块710用于从客户端接收搜索请求,并且提供模块向客户端返回渲染结果,以在客户端上作为搜索结果进行展示。
实施例八
如图8所示,为本发明的实施例中的搜索引擎提供网页开放式摘要的装置800的结构示意图。
该装置800包括提供模块810和排序模块830,其中提供模块810用于在接收到搜索请求时,返回包含与搜索请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果,以作为搜索请求的搜索结果;排序模块830用于响应于基于开放式摘要信息中的特定元素进行排序的请求,对搜索结果进行排序。
可选地,在本发明的实施例中,装置800还包括:第一检测模块850,用于在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;第二检测模块870,用于在检测到网页信息中包含标识的情况下,检测开放式摘要信息中是否包含特定元素,在包含的情况下,将特定元素与网页的关键词、开放式摘要信息相对应地存储。
可选地,在本发明的实施例中,第二检测模块870进一步用于将特定元素作为特定条目,与网页的关键词、开放式摘要信息相对应地存储在搜索引擎的数据库中。
可选地,在本发明的实施例中,排序模块830进一步用于将包含开放式摘要信息的搜索结果排在靠前的位置。
可选地,在本发明的实施例中,排序模块830进一步用于按照特定元素升序或者降序,对搜索结果进行排序。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种搜索引擎抓取网页开放式摘要信息的方法(100),包括:
在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识(S110),各个网页包括一个或者多个开放式摘要信息;
在检测到网页信息中包含所述标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的所述结构相映射的网页内容(S130),所述开放式摘要信息的内容能够被调整;以及
验证开放式摘要信息的渲染结果、和/或验证开放式摘要信息的格式、和/或验证开放式摘要信息的网页内容;
在验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回根据所述协议头以及所述内容对开放式摘要信息进行渲染的渲染结果,以作为所述搜索请求的搜索结果;
其中,所述验证开放式摘要信息的格式的步骤包括:
验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值;
所述验证开放式摘要信息的内容的步骤包括:
验证开放式摘要信息的内容中是否包含特定元素。
2.如权利要求1所述的方法,其中,每个开放式摘要信息与相应的网页的关键词相关联。
3.如权利要求1所述的方法,其中,与所述开放式摘要信息中描述的结构相映射的网页内容包括以下的至少一种:文字、图片、链接、视频和音频。
4.如权利要求1-3中的任一项所述的方法,所述方法还包括:
在验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为所述搜索请求的搜索结果。
5.如权利要求1-3中的任一项所述的方法,其中,所述特定元素包括价格和折扣信息中的至少一个。
6.如权利要求1~3中的任一项所述的方法,其中,所述开放式摘要信息采用HTML、HTML5、JavaScript、Flash或CSS的格式。
7.一种搜索引擎抓取网页开放式摘要信息的装置(500),其包括:
检测模块(510),用于在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识,各个网页包括一个或者多个开放式摘要信息;
抓取模块(530),用于在检测到网页信息中包含所述标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的所述结构相映射的网页内容,所述开放式摘要信息的内容能够被调整;以及
验证模块,用于验证开放式摘要信息的渲染结果、和/或验证开放式摘要信息的格式、和/或验证开放式摘要信息的网页内容;在验证通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回根据协议头以及网页内容对开放式摘要信息进行渲染的渲染结果,以作为所述搜索请求的搜索结果;
其中,所述验证模块进一步用于验证开放式摘要信息所占网页区域的大小是否超出预先定义的阈值;或者验证模块进一步用于验证开放式摘要信息的内容中是否包含特定元素。
8.如权利要求7所述的装置,其中,每个开放式摘要信息与相应的网页关键词网页的关键词相关联。
9.如权利要求7所述的装置,其中,与开放式摘要信息中描述的结构相映射的网页内容包括以下的至少一种:文字、图片、链接、视频和音频。
10.如权利要求7所述的装置,其中,所述验证模块还用于在验证未通过的情况下,在接收到与网页的关键词相匹配的搜索请求时,返回网页的默认摘要信息,以作为搜索请求的搜索结果。
CN201310445238.0A 2013-09-26 2013-09-26 一种搜索引擎抓取网页开放式摘要信息的方法及装置 Expired - Fee Related CN103473358B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310445238.0A CN103473358B (zh) 2013-09-26 2013-09-26 一种搜索引擎抓取网页开放式摘要信息的方法及装置
US15/025,236 US20160232237A1 (en) 2013-09-26 2014-08-12 Method and device for an engine to crawl, validate, and provide open-type abstract information of a webpage
PCT/CN2014/084206 WO2015043322A1 (zh) 2013-09-26 2014-08-12 引擎抓取、验证和提供网页开放式摘要的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310445238.0A CN103473358B (zh) 2013-09-26 2013-09-26 一种搜索引擎抓取网页开放式摘要信息的方法及装置

Publications (2)

Publication Number Publication Date
CN103473358A CN103473358A (zh) 2013-12-25
CN103473358B true CN103473358B (zh) 2018-10-09

Family

ID=49798206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310445238.0A Expired - Fee Related CN103473358B (zh) 2013-09-26 2013-09-26 一种搜索引擎抓取网页开放式摘要信息的方法及装置

Country Status (1)

Country Link
CN (1) CN103473358B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232237A1 (en) * 2013-09-26 2016-08-11 Beijing Qihoo Technology Company Limited Method and device for an engine to crawl, validate, and provide open-type abstract information of a webpage
CN105786847A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种电商网站中商品网页的结构化摘要的显示方法和系统
CN105786849A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种文档类网页自定义摘要的生成方法和系统
CN105786848A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种基于软件下载需求的搜索智能摘要的显示方法和系统
CN108197125B (zh) 2016-12-08 2020-10-09 腾讯科技(深圳)有限公司 网页抓取方法及装置
CN110147478B (zh) * 2017-10-20 2021-06-29 中国电信股份有限公司 网页主题词获取方法和系统、服务器与用户终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298616A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供相关子链接的方法和设备
CN102959545A (zh) * 2010-06-29 2013-03-06 微软公司 导航到流行的搜索结果
CN103077217A (zh) * 2012-12-28 2013-05-01 北京百度网讯科技有限公司 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备
CN103246678A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种网页内容预览方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661490B (zh) * 2008-08-28 2013-01-02 国际商业机器公司 搜索引擎、其客户端及搜索网页的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959545A (zh) * 2010-06-29 2013-03-06 微软公司 导航到流行的搜索结果
CN102298616A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供相关子链接的方法和设备
CN103246678A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种网页内容预览方法和装置
CN103077217A (zh) * 2012-12-28 2013-05-01 北京百度网讯科技有限公司 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备

Also Published As

Publication number Publication date
CN103473358A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103473358B (zh) 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103577597B (zh) 基于当前浏览页面的关键词搜索系统
CN103577596B (zh) 基于当前浏览页面的关键词搜索方法及装置
CN103577595B (zh) 基于当前浏览页面的关键词推送方法及装置
CN103577392B (zh) 基于当前浏览页面的关键词推送方法及装置
US11194456B1 (en) Webpage testing tool
US7672938B2 (en) Creating search enabled web pages
CN103020239B (zh) 网页搜索方法和装置
CN104715069B (zh) 一种搜索推荐词的处理方法和装置
CN102982174B (zh) 一种浏览器中进行网页搜索的方法及装置
CN104063455B (zh) 一种基于搜索获取疾病咨询信息的方法和装置
CN104408102B (zh) 用于网络热词与对象的关联度的数据处理方法和装置
CN104199985B (zh) 一种自定义置顶搜索结果的方法和系统、以及搜索服务器
CN105260424B (zh) 用户浏览网页历史记录和最常访问的处理方法及装置
CN104199865B (zh) 提供内容提供方的定制结果的搜索方法、客户端和系统
CN103605696B (zh) 一种获取影音文件地址的方法和装置
CN102955850A (zh) 加载排序网址的方法和装置
CN103761232B (zh) 一种提供网页媒体内容信息的方法和装置
CN105630937A (zh) 一种搜索试题答案的方法以及装置
US8140508B2 (en) System and method for contextual commands in a search results page
CN103473357B (zh) 一种搜索引擎提供网页开放式摘要信息的方法及装置
CN103473359B (zh) 一种引擎提供网页开放式摘要的方法及装置
CN107025261A (zh) 主题网络语料库
CN112685665A (zh) 页面跳转方法、装置、电子设备及存储介质
CN103092937B (zh) 可视化网页收录检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181009

Termination date: 20210926

CF01 Termination of patent right due to non-payment of annual fee