CN102541949B - 基于页面的预置链接关系确定页面权威值的方法与设备 - Google Patents

基于页面的预置链接关系确定页面权威值的方法与设备 Download PDF

Info

Publication number
CN102541949B
CN102541949B CN201010620489.4A CN201010620489A CN102541949B CN 102541949 B CN102541949 B CN 102541949B CN 201010620489 A CN201010620489 A CN 201010620489A CN 102541949 B CN102541949 B CN 102541949B
Authority
CN
China
Prior art keywords
page
authority
link
value
importing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010620489.4A
Other languages
English (en)
Other versions
CN102541949A (zh
Inventor
杨宣
姚旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010620489.4A priority Critical patent/CN102541949B/zh
Publication of CN102541949A publication Critical patent/CN102541949A/zh
Application granted granted Critical
Publication of CN102541949B publication Critical patent/CN102541949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是提供一种用于基于页面的预置链接关系确定页面权威值的方法与设备。其中,权威值确定设备获取待确定权威值的第一页面;根据预置链接关系,获取与所述第一页面相对应的第二页面;根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。与现有技术相比,本发明基于页面的预置链接关系确定页面权威值的方法,支持即使没有外链且目录较深的重要内容页面获得权威值,提高了搜索引擎的准确率和召回率,同时提高了搜索结果的排序质量,使得将搜索结果提供给用户时,用户获得更好的使用体验。

Description

基于页面的预置链接关系确定页面权威值的方法与设备
技术领域
本发明涉及网页排序技术领域,尤其涉及一种用于基于页面的预置链接关系确定页面权威值的技术。
背景技术
现有的网页排序算法,大多数都根据页面的链接关系迭代计算页面的权威值,但是由于整个互联网中的页面是个天文数字,搜索引擎无法将全部页面纳入页面权威值的计算,并且如果一个页面的出链较多,那么其导出页面从该页面分得的权威值也会急剧下降,从而不利于页面权威值的迭代计算。故此,网页排序算法通常主要计算站点的外链和站点的重要内链,由于页面过滤策略的取舍,对于一些没有外链且目录较深的重要内容页面,难免会被过滤掉该部分页面,使得这些重要内容页面无法获得权威值,从而无法作为搜索结果提供给用户,降低了搜索结果的质量。
因此,如何提供一种基于页面的预置链接关系确定页面权威值的方法,使得即使没有外链且目录较深的重要内容页面获得权威值也成为可能,从而参与搜索结果的排序,成为目前急需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于页面的预置链接关系确定页面权威值的方法与设备。
根据本发明的一个方面,提供了一种由计算机实现的用于基于页面的预置链接关系确定页面权威值的方法,其中,该方法包括以下步骤:
a获取待确定权威值的第一页面;
b根据预置链接关系,获取与所述第一页面相对应的第二页面;
c根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。
根据本发明的另一个方面,还提供了一种用于基于页面的预置链接关系确定页面权威值的设备,其中,该设备包括:
第一获取装置,用于获取待确定权威值的第一页面;
第二获取装置,用于根据预置链接关系,获取与所述第一页面相对应的第二页面;
确定装置,用于根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。
一种搜索引擎,其中,该搜索引擎包括如前述根据本发明的另一个方面的用于基于页面的预置链接关系确定页面权威值的装置。
与现有技术相比,本发明基于页面的预置链接关系确定页面权威值的方法,支持即使没有外链且目录较深的重要内容页面获得权威值,提高了搜索引擎的准确率和召回率,同时提高了搜索结果的排序质量,使得将搜索结果提供给用户时,用户获得更好的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于页面的预置链接关系确定页面权威值的权威值确定设备的示意图;
图2示出根据本发明另一个方面的用于基于页面的预置链接关系确定页面权威值的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出用于基于页面的预置链接关系确定页面权威值的权威值确定设备。其中,权威值确定设备1包括第一获取装置11、第二获取装置12和确定装置13。具体地,第一获取装置11获取待确定权威值的第一页面;随后,第二获取装置12根据预置链接关系,获取与所述第一页面相对应的第二页面;接着,确定装置13根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。在此,权威值确定设备1包括但不限于搜索引擎服务器或者与之相连的其他服务器。
更具体地,第一获取装置11获取待确定权威值的第一页面。具体地,第一获取装置11通过如从搜索引擎的索引信息库获取第一页面,该第一页面的权威值待确定。例如,第一获取装置11通过调用搜索引擎服务器提供的应用程序接口(API),向该搜索引擎服务器发送获取待确定权威值的第一页面的请求,接收该搜索引擎服务器基于该请求发送的待确定权威值的第一页面。本领域技术人员应能理解上述获取待确定权威值的第一页面的方式仅为举例,其他现有的或今后可能出现的获取待确定权威值的第一页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,第二获取装置12根据预置链接关系,获取与所述第一页面相对应的第二页面。具体地,第二获取装置12根据预置链接关系,诸如导入链接关系、导出链接关系等,例如通过搜索引擎的索引信息库、其他第三方设备或网页爬取工具,获取与第一获取装置11获取的第一页面相对应的第二页面。例如,假设预设链接关系为第二页面为第一页面的导入页面,根据第一获取装置11获取的第一页面,第二获取装置12获取该第一页面的导入页面,作为与该第一页面相对应的第二页面。本领域技术人员应能理解上述预置链接关系以及获取第二页面的方式仅为举例,其他现有的或今后可能出现的预置链接关系或者获取第二页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,确定装置13根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。具体地,确定装置13根据第二获取装置12获取的第二页面的权威值,结合第一页面与该第二页面的预置链接关系,对第二页面的权威值进行加权,以确定该第一页面的权威值。例如,假设预置链接关系为第二页面为第一页面的导出页面,第一获取装置11获取待确定权威值的第一页面,第二获取装置12根据该预置链接关系,获取该第一页面的3个导出页面,即第二页面,确定装置13根据第二页面的权威值,对这些权威值加权后,如每个第二页面的权重为1/3,确定该第一页面的权威值。本领域技术人员应能理解上述加权确定第一页面权威值的方式仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,需要说明的是,举例中的各项数值作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
优选地,第一获取装置11、第二获取装置12和确定装置13是持续不断工作的。具体地,第一获取装置11获取待确定权威值的第一页面;随后,第二获取装置12根据预置链接关系,获取与所述第一页面相对应的第二页面;接着,确定装置13根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。在此,本领域技术人员应理解“持续”是指第一获取装置11、第二获取装置12和确定装置13分别按照设定的或实时调整的工作模式要求进行第一页面及第二页面的获取,以及第一页面权威值的确定,直至权威值确定设备1在较长时间内停止获取待确定权威值的第一页面。
优选地,第二获取装置12根据所述预置链接关系,获取与所述第一页面相对应的候选页面;根据所述候选页面与所述第一页面的相关属性,从所述候选页面中选择与所述第一页面相对应的第二页面。具体地,第二获取装置12根据第一页面与第二页面的预置链接关系,获取与该第一页面相对应的候选页面,以供从中选择第二页面;并根据这些候选页面与该第一页面的相关属性,诸如候选页面与第一页面属于同一站点、候选页面与第一页面的内容相关度等,从这些候选页面中选择若干页面,以作为与该第一页面相对应的第二页面。例如,假设预置链接关系为第一页面与第二页面从同一页面导出,第二获取装置12根据该预置链接关系,获取与第一页面相对应的第二页面的候选页面;又假设候选页面与第一页面的相关属性为候选页面与第一页面的内容相关度,第二获取装置12根据该内容相关度,从候选页面中选择与第一页面相对应的第二页面。本领域技术人员应能理解上述获取候选页面的方式以及从候选页面中选择第二页面的方式仅为举例,其他现有的或今后可能出现的获取候选页面的方式或者从候选页面中选择第二页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述相关属性包括但不限于,以下至少任一项:
1)所述候选页面与所述第一页面属于同一站点;
2)所述候选页面与所述第一页面属于同类型的站点;
3)所述候选页面与所述第一页面的内容相关度。
具体地,候选页面与第一页面属于同一站点,表明候选页面与第一页面的相关属性较高,尤其当该站点为专业性站点时,其相关属性更高,由此从候选页面中获得的第二页面与该第一页面的关联更为密切,从而根据这些第二页面向第一页面传导的权威值也更为合理。候选页面与第一页面属于同类型的站点,表明了候选页面与第一页面之间较高的相关度,也即相关属性较高,因此,从这些候选页面中获得的第二页面同样与该第一页面的关联密切,从而更合理地为第一页面传导权威值。候选页面与第一页面的内容相关度直接表明了两者的相关属性,该内容相关度越高,当然候选页面与第一页面的相关属性也越高。本领域技术人员应能理解上述相关属性仅为举例,其他现有的或今后可能出现的相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),权威值确定设备1还包括转换装置(未示出),该转换装置当所述第二页面无权威值时,将所述第二页面中至少一个页面作为所述第一页面,触发所述第一获取装置,以获取所述第二页面中至少一个页面的权威值;确定装置13还根据所述第二页面中至少一个页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。具体地,转换装置当第二获取装置12获取的第二页面无权威值时,从这(些)第二页面中选择至少一个页面作为权威值待确定的第一页面,触发第一获取装置11,以获取转换装置选择的这(些)第二页面的权威值;确定装置13还根据这(些)第二页面的权威值,结合这(些)第二页面与该第一页面的预置链接关系,加权确定该第一页面的权威值。例如,当第二获取装置12根据预置链接关系获取的第二页面均无权威值时,转换装置随机地或者根据诸如属于同一站点、内容相关度等参数,从这些第二页面中选择一个与该第一页面同一站点且内容高度相关的页面,触发第一获取装置11、第二获取装置12和确定装置13依次工作,从而获得该选择页面的权威值,确定装置13还根据该选择页面的权威值,结合该选择页面与该第一页面的预置链接关系,加权确定该第一页面的权威值。
优选地,所述预置链接关系包括但不限于,以下至少任一项:
1)所述第二页面为所述第一页面的导入页面;
2)所述第二页面为所述第一页面的导出页面;
3)所述第二页面与所述第一页面从同一页面导出。
具体地,第二页面为第一页面的导入页面指该第二页面中包括指向该第一页面的链接,也即该第二页面为该第一页面的父页面。第二页面为第一页面的导出页面指该第二页面从该第一页面中链出,也即该第二页面为该第一页面的子页面。第二页面与第一页面从同一页面导出指第二页面与第一页面均从同一页面链出,也即该同一页面为第一页面与第二页面的父页面,第一页面与第二页面为兄弟页面。在此,需要说明的是,本领域技术人员应能理解,上述各项预置链接关系之间不是相互排斥的,根据第一页面,可以获得作为该第一页面的导入页面的第二页面(父页面)、作为该第一页面的导出页面的第二页面(子页面)和从与该第一页面相同的导出页面导出的第二页面(兄弟页面),并对这些第二页面的权威值赋予不同的权重,加权后确定该第一页面的权威值。本领域技术人员还应能理解,上述各项预置链接关系不仅可以单独用来根据第二页面确定第一页面的权威值的权重,还可以相互结合用以根据第二页面确定第一页面的权威值的权重。本领域技术人员还应能理解上述预置链接关系仅为举例,其他现有的或今后可能出现的预置链接关系如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预置链接关系包括所述第二页面为所述第一页面的导入页面;确定装置13根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的第一链接属性,加权确定所述第一页面的权威值;其中,所述第一链接属性包括但不限于,以下至少任一项:
1)所述第二页面中导出链接的数量;
2)所述第一页面的导入链接的链接特性;
3)所述第一页面的导入链接的锚文本特性;
4)所述第一页面的导入链接的用户点击特性。
具体地,当预置链接关系包括第二页面为第一页面的导入页面时,确定装置13根据第二页面的权威值,结合该预置链接关系,以及第一页面的第一链接属性,诸如第二页面中导出链接的数量、第一页面的导入链接的链接特性等,加权确定该第一页面的权威值。例如,当预置链接关系包括第二页面为第一页面的导入页面时,该第一页面对应3个第二页面,确定装置13根据这3个第二页面的权威值,假设分别为7、8、9,结合该预置链接关系,以及该第一页面的第一链接属性,该第一链接属性包括:这3个第二页面中导出链接的数量,分别为4、5、6,第一页面的导入链接在这3个第二页面中分别位于页面导航栏、友情链接栏和正文中,相应的系数分别为3、1、2,则与这3个第二页面相对应的该第一页面的导入链接的权重分别为(1/4)*3,(1/5)*1,(1/6)*2,即3/4,1/5和1/3,因此,得出该第一页面的权威值=(3/4)*7+(1/5)*8+(1/3)*9=9.85。在此,第一页面的第一链接属性包括但不限于,以下至少任一项:1)第二页面中导出链接的数量,该数量可以粗略表征该第一页面从该第二页面获得的权威值的权重;2)第一页面的导入链接的链接特性,包括a)该导入链接在该第二页面中的位置,如位于页面导航栏、位于友情链接栏、位于正文中等,b)该导入链接的类型,如导航链接、引用链接、广告链接等;3)第一页面的导入链接的锚文本特性,包括锚文本的字体、颜色、字号,锚文本与该第一页面的页面内容的匹配度等;4)第一页面的导入链接的用户点击特性,包括该导入链接在该第二页面中的用户点击量,该导入链接在该第二页面中的用户点击量与该第二页面中所有链接的用户点击量的比值等。本领域技术人员应能理解,上述各项第一链接属性不仅可以单独用来确定第一页面从第二页面获得的权威值的权重,还可以相互结合用以确定第一页面从第二页面获得的权威值的权重。本领域技术人员还应能理解上述加权确定第一页面权威值的方式以及第一链接属性仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式或者第一链接属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预置链接关系包括所述第二页面为所述第一页面的导出页面;确定装置13还根据所述第二页面的权威值,结合所述预置链接关系,以及所述第二页面的第二链接属性,加权确定所述第一页面的权威值;其中,所述第二链接属性包括但不限于,以下至少任一项:
1)所述第一页面中导出链接的数量;
2)所述第二页面的导入链接的链接特性;
3)所述第二页面的导入链接的锚文本特性;
4)所述第二页面的导入链接的用户点击特性。
具体地,当预置链接关系包括第二页面为第一页面的导出页面时,确定装置13还根据该第二页面的权威值,结合该预置链接关系,以及该第二页面的第二链接属性,诸如第一页面中导出链接的数量、该第二页面的导入链接的锚文本特性等,加权确定该第一页面的权威值。例如,当预置链接关系包括第二页面为第一页面的导出页面时,该第一页面对应3个第二页面,确定装置13根据这3个第二页面的权威值,假设分别为7、8、9,结合该预置链接关系,以及该第二页面的第二链接属性,该第二链接属性包括:该第一页面中导出链接的数量为5,这3个第二页面的导入链接的锚文本的颜色分别为红色、黑色、蓝色,相应的系数分别为3、1、2,对这些系数取均值2,作为该第一页面中的其他两个导出链接的系数,则与这3个第二页面相对应的该第一页面的导出链接的权重分别为[1/(3+1+2+2+2)]*3,[1/(3+1+2+2+2)]*1,[1/(3+1+2+2+2)]*2,即3/10,1/10和1/5,因此,得出该第一页面的权威值=[7/(3/10)+8/(1/10)+9/(1/5)]/3=49.4。在此,第二页面的第二链接属性包括但不限于,以下至少任一项:1)第一页面中导出链接的数量,该数量可以粗略表征该第一页面可为该第二页面贡献的权威值的权重;2)第二页面的导入链接的链接特性,包括a)该导入链接在该第一页面中的位置,如位于页面导航栏、位于友情链接栏、位于正文中等,b)该导入链接的类型,如导航链接、引用链接、广告链接等;3)第二页面的导入链接的锚文本特性,包括锚文本的字体、颜色、字号,锚文本与该第二页面的页面内容的匹配度等;4)第二页面的导入链接的用户点击特性,包括该导入链接在该第一页面中的用户点击量,该导入链接在该第一页面中的用户点击量与该第一页面中所有链接的用户点击量的比值等。本领域技术人员应能理解,上述各项第二链接属性不仅可以单独用来根据第二页面的权威值确定第一页面的权威值的权重,还可以相互结合用以根据第二页面的权威值确定第一页面的权威值的权重。本领域技术人员还应能理解上述加权确定第一页面权威值的方式以及第二链接属性仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式或者第二链接属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预置链接关系包括所述第二页面与所述第一页面从同一页面导出;确定装置13还根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面与所述第二页面的关联属性,加权确定所述第一页面的权威值;其中,所述关联属性包括但不限于,以下至少任一项:
1)所述第一页面及所述第二页面的导入链接的链接特性;
2)所述第一页面及所述第二页面的导入链接的锚文本特性;
3)所述第一页面及所述第二页面的导入链接的用户点击特性;
4)所述同一页面的导出链接的数量;
5)所述第一页面与所述第二页面的链接层次关系。
具体地,当预置链接关系包括第二页面与第一页面从同一页面导出;确定装置13还根据该第二页面的权威值,结合该预置链接关系,以及该第一页面与该第二页面的关联属性,诸如该第一页面及该第二页面的导入链接的用户点击特性、该第一页面与该第二页面的链接层次关系等,加权确定该第一页面的权威值。例如,当预置链接关系包括第二页面与第一页面从同一页面导出时,确定装置13根据该第二页面的权威值7,结合该预置链接关系,以及该第一页面与该第二页面的关联属性,该关联属性包括:该第一页面的导入链接的用户点击量为10000,该第二页面的导入链接的用户点击量为5000,该同一页面为网站首页,该第二页面为该同一页面所在网站的子站首页,该第一页面为该第二页面所在子站的内容页,根据该链接层次关系得出相应的系数,即该第二页面为1,该第一页面为2,则与该第二页面相对应的该第一页面的导入链接的权重为(10000/5000)+(2/1)=4,据此,得出该第一页面的权威值=7*4=28。在此,该第一页面与该第二页面关联属性包括但不限于,以下至少任一项:1)该第一页面及该第二页面的导入链接的链接特性,包括a)该第一页面及该第二页面的导入链接在该同一页面中的位置,如位于页面导航栏、位于友情链接栏、位于正文中等,b)该第一页面及该第二页面的导入链接的类型,如导航链接、引用链接、广告链接等;2)该第一页面及该第二页面的导入链接的锚文本特性,包括该第一页面及该第二页面的导入链接的锚文本的字体、颜色、字号、以及与对应页面的页面内容的匹配度等;3)该第一页面及该第二页面的导入链接的用户点击特性,包括该第一页面及该第二页面的导入链接分别在该同一页面中的用户点击量,该第一页面及该第二页面的导入链接在该同一页面中的用户点击量分别与该同一页面中所有链接的用户点击量的比值等;4)该同一页面的导出链接的数量,该数量可以粗略表征该第一页面及该第二页面的关联度;5)该第一页面与该第二页面的链接层次关系,当该第一页面、该第二页面以及该同一页面属于同一站点时,与该第二页面与该同一页面的链接层次相比,该第一页面与该同一页面的链接层次越多,相应的,该第一页面的权威值越高。本领域技术人员应能理解,上述各项关联属性不仅可以单独用来根据第二页面确定第一页面的权威值的权重,还可以相互结合用以根据第二页面确定第一页面的权威值的权重。本领域技术人员还应能理解上述加权确定第一页面权威值的方式以及关联属性仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式或者关联属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图1),确定装置13还根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的页面属性,加权确定所述第一页面的权威值。具体地,确定装置13还根据该第二页面的权威值,结合该预置链接关系,以及该第一页面的页面属性,诸如该第一页面的更新时间、该第一页面的资源量等,加权确定该第一页面的权威值。例如,假设第二页面的权威值为5,预置链接关系为第一页面与第二页面从同一页面导出,假设该预置链接关系所相应的权重为0.5,以及该第一页面的流量对应的权重为0.4,据此得出该第一页面的权威值=(0.5+0.4)*5=4.5。需要说明的是,本领域技术人员应能理解,根据第二页面确定第一页面的权威值的权重不仅可以根据第二页面与第一页面的预置链接关系的相关链接属性得出,还可以根据该第一页面自身的页面属性得出,也可以将两者结合得出。本领域技术人员还应能理解上述加权确定第一页面权威值的方式仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述页面属性包括但不限于,以下至少任一项:
1)所述第一页面的更新时间;
2)所述第一页面的流量;
3)所述第一页面的资源量;
4)所述第一页面的资源质量。
具体地,第一页面的更新时间越近,表明该第一页面的内容越活跃,从而为其赋予越高的权重。第一页面的流量越大,表明访问该第一页面的用户越多,相应的其权重也应当越高。第一页面的资源量越大,表明该第一页面的内容越丰富,同样应当为其赋予越高的权重。第一页面的资源质量越高,表明该第一页面越可能为优质页面,当然其相应的权重也越高。本领域技术人员应能理解,上述各项页面属性不仅可以单独用来根据第二页面确定第一页面的权威值的权重,还可以相互结合用以根据第二页面确定第一页面的权威值的权重。本领域技术人员还应能理解上述页面属性仅为举例,其他现有的或今后可能出现的页面属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
此外,上述的用于基于页面的预置链接关系确定页面权威值的装置可以与现有的搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎可以是采用已知的如百度、Google、Yahoo等的搜索引擎。
优选地,该新的搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。具体地,该与现有搜索引擎相结合且用于基于页面的预置链接关系确定页面权威值的搜索引擎,在为用户提供搜索结果时,还通过诸如特别字体、浮动窗口等方式,提供这些搜索结果相应的页面权威值。例如,与现有搜索引擎相结合,且用于基于页面的预置链接关系确定页面权威值的搜索引擎,在根据用户的查询序列提供相应的搜索结果时,在这些搜索结果的页面说明中添加相应页面的页面权威值;进一步地,这些页面的页面权威值还可以特别字体、或者浮动窗口等方式显示,如在用户的鼠标停留在搜索结果的页面链接、或者页面说明时,以悬浮窗口显示该停留搜索结果相应的页面权威值。本领域技术人员应能理解上述页面权威值的提供方式仅为举例,其他现有的或今后可能出现的页面权威值的提供方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2示出根据本发明另一个方面的用于基于页面的预置链接关系确定页面权威值的方法流程图。具体地,在步骤S1中,权威值确定设备1获取待确定权威值的第一页面;随后,在步骤S2中,权威值确定设备1根据预置链接关系,获取与所述第一页面相对应的第二页面;接着,在步骤S3中,权威值确定设备1根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。在此,权威值确定设备1包括但不限于搜索引擎服务器或者与之相连的其他服务器。
更具体地,在步骤S1中,权威值确定设备1获取待确定权威值的第一页面。具体地,在步骤S1中,权威值确定设备1通过如从搜索引擎的索引信息库获取第一页面,该第一页面的权威值待确定。例如,在步骤S1中,权威值确定设备1通过调用搜索引擎服务器提供的应用程序接口(API),向该搜索引擎服务器发送获取待确定权威值的第一页面的请求,接收该搜索引擎服务器基于该请求发送的待确定权威值的第一页面。本领域技术人员应能理解上述获取待确定权威值的第一页面的方式仅为举例,其他现有的或今后可能出现的获取待确定权威值的第一页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S2中,权威值确定设备1根据预置链接关系,获取与所述第一页面相对应的第二页面。具体地,在步骤S2中,权威值确定设备1根据预置链接关系,诸如导入链接关系、导出链接关系等,例如通过搜索引擎的索引信息库、其他第三方设备或网页爬取工具,获取与其在步骤S1中获取的第一页面相对应的第二页面。例如,假设预设链接关系为第二页面为第一页面的导入页面,根据其在步骤S1中获取的第一页面,在步骤S2中,权威值确定设备1获取该第一页面的导入页面,作为与该第一页面相对应的第二页面。本领域技术人员应能理解上述预置链接关系以及获取第二页面的方式仅为举例,其他现有的或今后可能出现的预置链接关系或者获取第二页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S3中,权威值确定设备1根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。具体地,在步骤S3中,权威值确定设备1根据其在步骤S2中获取的第二页面的权威值,结合第一页面与该第二页面的预置链接关系,对第二页面的权威值进行加权,以确定该第一页面的权威值。例如,假设预置链接关系为第二页面为第一页面的导出页面,在步骤S1中,权威值确定设备1获取待确定权威值的第一页面;在步骤S2中,权威值确定设备1根据该预置链接关系,获取该第一页面的3个导出页面,即第二页面;在步骤S3中,权威值确定设备1根据第二页面的权威值,对这些权威值加权后,如每个第二页面的权重为1/3,确定该第一页面的权威值。本领域技术人员应能理解上述加权确定第一页面权威值的方式仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,需要说明的是,举例中的各项数值作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
优选地,步骤S1、步骤S2和步骤S3是持续不断工作的。具体地,在步骤S1中,权威值确定设备1获取待确定权威值的第一页面;随后,在步骤S2中,权威值确定设备1根据预置链接关系,获取与所述第一页面相对应的第二页面;接着,在步骤S3中,权威值确定设备1根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。在此,本领域技术人员应理解“持续”是指权威值确定设备1在步骤S1、步骤S2和步骤S3分别按照设定的或实时调整的工作模式要求进行第一页面及第二页面的获取,以及第一页面权威值的确定,直至权威值确定设备1在较长时间内停止获取待确定权威值的第一页面。
优选地,在步骤S2中,权威值确定设备1根据所述预置链接关系,获取与所述第一页面相对应的候选页面;根据所述候选页面与所述第一页面的相关属性,从所述候选页面中选择与所述第一页面相对应的第二页面。具体地,在步骤S2中,权威值确定设备1根据第一页面与第二页面的预置链接关系,获取与该第一页面相对应的候选页面,以供从中选择第二页面;并根据这些候选页面与该第一页面的相关属性,诸如候选页面与第一页面属于同一站点、候选页面与第一页面的内容相关度等,从这些候选页面中选择若干页面,以作为与该第一页面相对应的第二页面。例如,假设预置链接关系为第一页面与第二页面从同一页面导出,在步骤S2中,权威值确定设备1根据该预置链接关系,获取与第一页面相对应的第二页面的候选页面;又假设候选页面与第一页面的相关属性为候选页面与第一页面的内容相关度,在步骤S2中,权威值确定设备1根据该内容相关度,从候选页面中选择与第一页面相对应的第二页面。本领域技术人员应能理解上述获取候选页面的方式以及从候选页面中选择第二页面的方式仅为举例,其他现有的或今后可能出现的获取候选页面的方式或者从候选页面中选择第二页面的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述相关属性包括但不限于,以下至少任一项:
1)所述候选页面与所述第一页面属于同一站点;
2)所述候选页面与所述第一页面属于同类型的站点;
3)所述候选页面与所述第一页面的内容相关度。
具体地,候选页面与第一页面属于同一站点,表明候选页面与第一页面的相关属性较高,尤其当该站点为专业性站点时,其相关属性更高,由此从候选页面中获得的第二页面与该第一页面的关联更为密切,从而根据这些第二页面向第一页面传导的权威值也更为合理。候选页面与第一页面属于同类型的站点,表明了候选页面与第一页面之间较高的相关度,也即相关属性较高,因此,从这些候选页面中获得的第二页面同样与该第一页面的关联密切,从而更合理地为第一页面传导权威值。候选页面与第一页面的内容相关度直接表明了两者的相关属性,该内容相关度越高,当然候选页面与第一页面的相关属性也越高。本领域技术人员应能理解上述相关属性仅为举例,其他现有的或今后可能出现的相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图2),该过程还包括步骤S4(未示出),在步骤S4中,权威值确定设备1当所述第二页面无权威值时,将所述第二页面中至少一个页面作为所述第一页面,重复步骤S1至步骤S3,以获取所述第二页面中至少一个页面的权威值;在步骤S3中,权威值确定设备1还根据所述第二页面中至少一个页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。具体地,在步骤S4中,权威值确定设备1当其在步骤S2中获取的第二页面无权威值时,从这(些)第二页面中选择至少一个页面作为权威值待确定的第一页面,重复步骤S1至步骤S3,以获取转换装置选择的这(些)第二页面的权威值;随后,在步骤S3中,权威值确定设备1还根据这(些)第二页面的权威值,结合这(些)第二页面与该第一页面的预置链接关系,加权确定该第一页面的权威值。例如,当其在步骤S2中根据预置链接关系获取的第二页面均无权威值时,在步骤S4中,权威值确定设备1随机地或者根据诸如属于同一站点、内容相关度等参数,从这些第二页面中选择一个与该第一页面同一站点且内容高度相关的页面,然后重复步骤S1至步骤S3,从而获得该选择页面的权威值;在步骤S3中,权威值确定设备1还根据该选择页面的权威值,结合该选择页面与该第一页面的预置链接关系,加权确定该第一页面的权威值。
优选地,所述预置链接关系包括但不限于,以下至少任一项:
1)所述第二页面为所述第一页面的导入页面;
2)所述第二页面为所述第一页面的导出页面;
3)所述第二页面与所述第一页面从同一页面导出。
具体地,第二页面为第一页面的导入页面指该第二页面中包括指向该第一页面的链接,也即该第二页面为该第一页面的父页面。第二页面为第一页面的导出页面指该第二页面从该第一页面中链出,也即该第二页面为该第一页面的子页面。第二页面与第一页面从同一页面导出指第二页面与第一页面均从同一页面链出,也即该同一页面为第一页面与第二页面的父页面,第一页面与第二页面为兄弟页面。在此,需要说明的是,本领域技术人员应能理解,上述各项预置链接关系之间不是相互排斥的,根据第一页面,可以获得作为该第一页面的导入页面的第二页面(父页面)、作为该第一页面的导出页面的第二页面(子页面)和从与该第一页面相同的导出页面导出的第二页面(兄弟页面),并对这些第二页面的权威值赋予不同的权重,加权后确定该第一页面的权威值。本领域技术人员还应能理解,上述各项预置链接关系不仅可以单独用来根据第二页面确定第一页面的权威值的权重,还可以相互结合用以根据第二页面确定第一页面的权威值的权重。本领域技术人员还应能理解上述预置链接关系仅为举例,其他现有的或今后可能出现的预置链接关系如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预置链接关系包括所述第二页面为所述第一页面的导入页面;在步骤S3中,权威值确定设备1根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的第一链接属性,加权确定所述第一页面的权威值;其中,所述第一链接属性包括但不限于,以下至少任一项:
1)所述第二页面中导出链接的数量;
2)所述第一页面的导入链接的链接特性;
3)所述第一页面的导入链接的锚文本特性;
4)所述第一页面的导入链接的用户点击特性。
具体地,当预置链接关系包括第二页面为第一页面的导入页面时,在步骤S3中,权威值确定设备1根据第二页面的权威值,结合该预置链接关系,以及第一页面的第一链接属性,诸如第二页面中导出链接的数量、第一页面的导入链接的链接特性等,加权确定该第一页面的权威值。例如,当预置链接关系包括第二页面为第一页面的导入页面时,该第一页面对应3个第二页面,在步骤S3中,权威值确定设备1根据这3个第二页面的权威值,假设分别为7、8、9,结合该预置链接关系,以及该第一页面的第一链接属性,该第一链接属性包括:这3个第二页面中导出链接的数量,分别为4、5、6,第一页面的导入链接在这3个第二页面中分别位于页面导航栏、友情链接栏和正文中,相应的系数分别为3、1、2,则与这3个第二页面相对应的该第一页面的导入链接的权重分别为(1/4)*3,(1/5)*1,(1/6)*2,即3/4,1/5和1/3,因此,得出该第一页面的权威值=(3/4)*7+(1/5)*8+(1/3)*9=9.85。在此,第一页面的第一链接属性包括但不限于,以下至少任一项:1)第二页面中导出链接的数量,该数量可以粗略表征该第一页面从该第二页面获得的权威值的权重;2)第一页面的导入链接的链接特性,包括a)该导入链接在该第二页面中的位置,如位于页面导航栏、位于友情链接栏、位于正文中等,b)该导入链接的类型,如导航链接、引用链接、广告链接等;3)第一页面的导入链接的锚文本特性,包括锚文本的字体、颜色、字号,锚文本与该第一页面的页面内容的匹配度等;4)第一页面的导入链接的用户点击特性,包括该导入链接在该第二页面中的用户点击量,该导入链接在该第二页面中的用户点击量与该第二页面中所有链接的用户点击量的比值等。本领域技术人员应能理解,上述各项第一链接属性不仅可以单独用来确定第一页面从第二页面获得的权威值的权重,还可以相互结合用以确定第一页面从第二页面获得的权威值的权重。本领域技术人员还应能理解上述加权确定第一页面权威值的方式以及第一链接属性仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式或者第一链接属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预置链接关系包括所述第二页面为所述第一页面的导出页面;在步骤S3中,权威值确定设备1还根据所述第二页面的权威值,结合所述预置链接关系,以及所述第二页面的第二链接属性,加权确定所述第一页面的权威值;其中,所述第二链接属性包括但不限于,以下至少任一项:
1)所述第一页面中导出链接的数量;
2)所述第二页面的导入链接的链接特性;
3)所述第二页面的导入链接的锚文本特性;
4)所述第二页面的导入链接的用户点击特性。
具体地,当预置链接关系包括第二页面为第一页面的导出页面时,在步骤S3中,权威值确定设备1还根据该第二页面的权威值,结合该预置链接关系,以及该第二页面的第二链接属性,诸如第一页面中导出链接的数量、该第二页面的导入链接的锚文本特性等,加权确定该第一页面的权威值。例如,当预置链接关系包括第二页面为第一页面的导出页面时,该第一页面对应3个第二页面,在步骤S3中,权威值确定设备1根据这3个第二页面的权威值,假设分别为7、8、9,结合该预置链接关系,以及该第二页面的第二链接属性,该第二链接属性包括:该第一页面中导出链接的数量为5,这3个第二页面的导入链接的锚文本的颜色分别为红色、黑色、蓝色,相应的系数分别为3、1、2,对这些系数取均值2,作为该第一页面中的其他两个导出链接的系数,则与这3个第二页面相对应的该第一页面的导出链接的权重分别为[1/(3+1+2+2+2)]*3,[1/(3+1+2+2+2)]*1,[1/(3+1+2+2+2)]*2,即3/10,1/10和1/5,因此,得出该第一页面的权威值=[7/(3/10)+8/(1/10)+9/(1/5)]/3=49.4。在此,第二页面的第二链接属性包括但不限于,以下至少任一项:1)第一页面中导出链接的数量,该数量可以粗略表征该第一页面可为该第二页面贡献的权威值的权重;2)第二页面的导入链接的链接特性,包括a)该导入链接在该第一页面中的位置,如位于页面导航栏、位于友情链接栏、位于正文中等,b)该导入链接的类型,如导航链接、引用链接、广告链接等;3)第二页面的导入链接的锚文本特性,包括锚文本的字体、颜色、字号,锚文本与该第二页面的页面内容的匹配度等;4)第二页面的导入链接的用户点击特性,包括该导入链接在该第一页面中的用户点击量,该导入链接在该第一页面中的用户点击量与该第一页面中所有链接的用户点击量的比值等。本领域技术人员应能理解,上述各项第二链接属性不仅可以单独用来根据第二页面的权威值确定第一页面的权威值的权重,还可以相互结合用以根据第二页面的权威值确定第一页面的权威值的权重。本领域技术人员还应能理解上述加权确定第一页面权威值的方式以及第二链接属性仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式或者第二链接属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预置链接关系包括所述第二页面与所述第一页面从同一页面导出;在步骤S3中,权威值确定设备1还根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面与所述第二页面的关联属性,加权确定所述第一页面的权威值;其中,所述关联属性包括但不限于,以下至少任一项:
1)所述第一页面及所述第二页面的导入链接的链接特性;
2)所述第一页面及所述第二页面的导入链接的锚文本特性;
3)所述第一页面及所述第二页面的导入链接的用户点击特性;
4)所述同一页面的导出链接的数量;
5)所述第一页面与所述第二页面的链接层次关系。
具体地,当预置链接关系包括第二页面与第一页面从同一页面导出;在步骤S3中,权威值确定设备1还根据该第二页面的权威值,结合该预置链接关系,以及该第一页面与该第二页面的关联属性,诸如该第一页面及该第二页面的导入链接的用户点击特性、该第一页面与该第二页面的链接层次关系等,加权确定该第一页面的权威值。例如,当预置链接关系包括第二页面与第一页面从同一页面导出时,在步骤S3中,权威值确定设备1根据该第二页面的权威值7,结合该预置链接关系,以及该第一页面与该第二页面的关联属性,该关联属性包括:该第一页面的导入链接的用户点击量为10000,该第二页面的导入链接的用户点击量为5000,该同一页面为网站首页,该第二页面为该同一页面所在网站的子站首页,该第一页面为该第二页面所在子站的内容页,根据该链接层次关系得出相应的系数,即该第二页面为1,该第一页面为2,则与该第二页面相对应的该第一页面的导入链接的权重为(10000/5000)+(2/1)=4,据此,得出该第一页面的权威值=7*4=28。在此,该第一页面与该第二页面关联属性包括但不限于,以下至少任一项:1)该第一页面及该第二页面的导入链接的链接特性,包括a)该第一页面及该第二页面的导入链接在该同一页面中的位置,如位于页面导航栏、位于友情链接栏、位于正文中等,b)该第一页面及该第二页面的导入链接的类型,如导航链接、引用链接、广告链接等;2)该第一页面及该第二页面的导入链接的锚文本特性,包括该第一页面及该第二页面的导入链接的锚文本的字体、颜色、字号、以及与对应页面的页面内容的匹配度等;3)该第一页面及该第二页面的导入链接的用户点击特性,包括该第一页面及该第二页面的导入链接分别在该同一页面中的用户点击量,该第一页面及该第二页面的导入链接在该同一页面中的用户点击量分别与该同一页面中所有链接的用户点击量的比值等;4)该同一页面的导出链接的数量,该数量可以粗略表征该第一页面及该第二页面的关联度;5)该第一页面与该第二页面的链接层次关系,当该第一页面、该第二页面以及该同一页面属于同一站点时,与该第二页面与该同一页面的链接层次相比,该第一页面与该同一页面的链接层次越多,相应的,该第一页面的权威值越高。本领域技术人员应能理解,上述各项关联属性不仅可以单独用来根据第二页面确定第一页面的权威值的权重,还可以相互结合用以根据第二页面确定第一页面的权威值的权重。本领域技术人员还应能理解上述加权确定第一页面权威值的方式以及关联属性仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式或者关联属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图2),在步骤S3中,权威值确定设备1还根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的页面属性,加权确定所述第一页面的权威值。具体地,在步骤S3中,权威值确定设备1还根据该第二页面的权威值,结合该预置链接关系,以及该第一页面的页面属性,诸如该第一页面的更新时间、该第一页面的资源量等,加权确定该第一页面的权威值。例如,假设第二页面的权威值为5,预置链接关系为第一页面与第二页面从同一页面导出,假设该预置链接关系所相应的权重为0.5,以及该第一页面的流量对应的权重为0.4,权威值确定设备1据此得出该第一页面的权威值=(0.5+0.4)*5=4.5。需要说明的是,本领域技术人员应能理解,根据第二页面确定第一页面的权威值的权重不仅可以根据第二页面与第一页面的预置链接关系的相关链接属性得出,还可以根据该第一页面自身的页面属性得出,也可以将两者结合得出。本领域技术人员还应能理解上述加权确定第一页面权威值的方式仅为举例,其他现有的或今后可能出现的加权确定第一页面权威值的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述页面属性包括但不限于,以下至少任一项:
1)所述第一页面的更新时间;
2)所述第一页面的流量;
3)所述第一页面的资源量;
4)所述第一页面的资源质量。
具体地,第一页面的更新时间越近,表明该第一页面的内容越活跃,从而为其赋予越高的权重。第一页面的流量越大,表明访问该第一页面的用户越多,相应的其权重也应当越高。第一页面的资源量越大,表明该第一页面的内容越丰富,同样应当为其赋予越高的权重。第一页面的资源质量越高,表明该第一页面越可能为优质页面,当然其相应的权重也越高。本领域技术人员应能理解,上述各项页面属性不仅可以单独用来根据第二页面确定第一页面的权威值的权重,还可以相互结合用以根据第二页面确定第一页面的权威值的权重。本领域技术人员还应能理解上述页面属性仅为举例,其他现有的或今后可能出现的页面属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种由计算机实现的用于基于页面的预置链接关系确定页面权威值的方法,其中,该方法包括以下步骤:
a获取待确定权威值的第一页面;
b根据预置链接关系,获取与所述第一页面相对应的第二页面;
其中,所述预置链接关系包括以下至少任一项:
-所述第二页面为所述第一页面的导入页面;
-所述第二页面为所述第一页面的导出页面;
-所述第二页面与所述第一页面从同一页面导出;
c根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值;
其中,该方法还包括:
i当所述第二页面无权威值时,将所述第二页面中至少一个页面作为所述第一页面,重复步骤a-c,以获取所述第二页面中至少一个页面的权威值;
其中,所述步骤c还包括:
-根据所述第二页面中至少一个页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。
2.根据权利要求1所述的方法,其中,所述步骤b还包括:
-根据所述预置链接关系,获取与所述第一页面相对应的候选页面;
-根据所述候选页面与所述第一页面的相关属性,从所述候选页面中选择与所述第一页面相对应的第二页面。
3.根据权利要求2所述的方法,其中,所述相关属性包括以下至少任一项:
-所述候选页面与所述第一页面属于同一站点;
-所述候选页面与所述第一页面属于同类型的站点;
-所述候选页面与所述第一页面的内容相关度。
4.根据权利要求1至3中任一项所述的方法,其中,所述预置链接关系包括所述第二页面为所述第一页面的导入页面;
其中,所述步骤c还包括:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的第一链接属性,加权确定所述第一页面的权威值;
其中,所述第一链接属性包括以下至少任一项:
-所述第二页面中导出链接的数量;
-所述第一页面的导入链接的链接特性;
-所述第一页面的导入链接的锚文本特性;
-所述第一页面的导入链接的用户点击特性。
5.根据权利要求1至3中任一项所述的方法,其中,所述预置链接关系包括所述第二页面为所述第一页面的导出页面;
其中,所述步骤c还包括:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第二页面的第二链接属性,加权确定所述第一页面的权威值;
其中,所述第二链接属性包括以下至少任一项:
-所述第一页面中导出链接的数量;
-所述第二页面的导入链接的链接特性;
-所述第二页面的导入链接的锚文本特性;
-所述第二页面的导入链接的用户点击特性。
6.根据权利要求1至3中任一项所述的方法,其中,所述预置链接关系包括所述第二页面与所述第一页面从同一页面导出;
其中,所述步骤c还包括:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面与所述第二页面的关联属性,加权确定所述第一页面的权威值;
其中,所述关联属性包括以下至少任一项:
-所述第一页面及所述第二页面的导入链接的链接特性;
-所述第一页面及所述第二页面的导入链接的锚文本特性;
-所述第一页面及所述第二页面的导入链接的用户点击特性;
-所述同一页面的导出链接的数量;
-所述第一页面与所述第二页面的链接层次关系。
7.根据权利要求1所述的方法,其中,所述步骤c还包括:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的页面属性,加权确定所述第一页面的权威值。
8.根据权利要求7所述的方法,其中,所述页面属性包括以下至少任一项:
-所述第一页面的更新时间;
-所述第一页面的流量;
-所述第一页面的资源量;
-所述第一页面的资源质量。
9.一种用于基于页面的预置链接关系确定页面权威值的设备,其中,该设备包括:
第一获取装置,用于获取待确定权威值的第一页面;
第二获取装置,用于根据预置链接关系,获取与所述第一页面相对应的第二页面;
其中,所述预置链接关系包括以下至少任一项:
-所述第二页面为所述第一页面的导入页面;
-所述第二页面为所述第一页面的导出页面;
-所述第二页面与所述第一页面从同一页面导出;
确定装置,用于根据所述第二页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值;
其中,该设备还包括转换装置,所述转换装置用于:
-当所述第二页面无权威值时,将所述第二页面中至少一个页面作为所述第一页面,触发所述第一获取装置,以获取所述第二页面中至少一个页面的权威值;
其中,所述确定装置还用于:
-根据所述第二页面中至少一个页面的权威值,结合所述预置链接关系,加权确定所述第一页面的权威值。
10.根据权利要求9所述的设备,其中,所述第二获取装置还用于:
-根据所述预置链接关系,获取与所述第一页面相对应的候选页面;
-根据所述候选页面与所述第一页面的相关属性,从所述候选页面中选择与所述第一页面相对应的第二页面。
11.根据权利要求10所述的设备,其中,所述相关属性包括以下至少任一项:
-所述候选页面与所述第一页面属于同一站点;
-所述候选页面与所述第一页面属于同类型的站点;
-所述候选页面与所述第一页面的内容相关度。
12.根据权利要求9至11中任一项所述的设备,其中,所述预置链接关系包括所述第二页面为所述第一页面的导入页面;
其中,所述确定装置还用于:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的第一链接属性,加权确定所述第一页面的权威值;
其中,所述第一链接属性包括以下至少任一项:
-所述第二页面中导出链接的数量;
-所述第一页面的导入链接的链接特性;
-所述第一页面的导入链接的锚文本特性;
-所述第一页面的导入链接的用户点击特性。
13.根据权利要求9至11中任一项所述的设备,其中,所述预置链接关系包括所述第二页面为所述第一页面的导出页面;
其中,所述确定装置还用于:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第二页面的第二链接属性,加权确定所述第一页面的权威值;
其中,所述第二链接属性包括以下至少任一项:
-所述第一页面中导出链接的数量;
-所述第二页面的导入链接的链接特性;
-所述第二页面的导入链接的锚文本特性;
-所述第二页面的导入链接的用户点击特性。
14.根据权利要求9至11中任一项所述的设备,其中,所述预置链接关系包括所述第二页面与所述第一页面从同一页面导出;
其中,所述确定装置还用于:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面与所述第二页面的关联属性,加权确定所述第一页面的权威值;
其中,所述关联属性包括以下至少任一项:
-所述第一页面及所述第二页面的导入链接的链接特性;
-所述第一页面及所述第二页面的导入链接的锚文本特性;
-所述第一页面及所述第二页面的导入链接的用户点击特性;
-所述同一页面的导出链接的数量;
-所述第一页面与所述第二页面的链接层次关系。
15.根据权利要求9所述的设备,其中,所述确定装置还用于:
-根据所述第二页面的权威值,结合所述预置链接关系,以及所述第一页面的页面属性,加权确定所述第一页面的权威值。
16.根据权利要求15所述的设备,其中,所述页面属性包括以下至少任一项:
-所述第一页面的更新时间;
-所述第一页面的流量;
-所述第一页面的资源量;
-所述第一页面的资源质量。
17.一种搜索引擎,其中,该搜索引擎包括如权利要求9至16中任一项所述的用于基于页面的预置链接关系确定页面权威值的装置。
18.根据权利要求17所述的搜索引擎,其中,该搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。
CN201010620489.4A 2010-12-31 2010-12-31 基于页面的预置链接关系确定页面权威值的方法与设备 Active CN102541949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010620489.4A CN102541949B (zh) 2010-12-31 2010-12-31 基于页面的预置链接关系确定页面权威值的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010620489.4A CN102541949B (zh) 2010-12-31 2010-12-31 基于页面的预置链接关系确定页面权威值的方法与设备

Publications (2)

Publication Number Publication Date
CN102541949A CN102541949A (zh) 2012-07-04
CN102541949B true CN102541949B (zh) 2014-04-02

Family

ID=46348864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010620489.4A Active CN102541949B (zh) 2010-12-31 2010-12-31 基于页面的预置链接关系确定页面权威值的方法与设备

Country Status (1)

Country Link
CN (1) CN102541949B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678313B (zh) * 2012-08-31 2018-09-04 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN103116660A (zh) * 2013-03-15 2013-05-22 人民搜索网络股份公司 网站权威值的获取方法及装置
CN103258019B (zh) * 2013-04-28 2017-02-08 百度在线网络技术(北京)有限公司 一种用于提供查询结果的方法和设备
CN104951476B (zh) * 2014-03-31 2017-04-12 北京奇虎科技有限公司 确定网站内链接等级的方法及装置
CN110765336B (zh) * 2019-11-01 2022-04-01 北京天融信网络安全技术有限公司 一种网页信息处理方法及系统
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质
CN113742625B (zh) * 2021-09-07 2024-10-15 北京百度网讯科技有限公司 页面数据处理方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN101187945A (zh) * 2007-12-13 2008-05-28 深圳市迅雷网络技术有限公司 一种网页页面的处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738447B2 (en) * 2001-07-25 2014-05-27 Kabushiki Kaisha Eighting Banner advertisement transfer server and banner advertisement transfer program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN101187945A (zh) * 2007-12-13 2008-05-28 深圳市迅雷网络技术有限公司 一种网页页面的处理方法及装置

Also Published As

Publication number Publication date
CN102541949A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN102541949B (zh) 基于页面的预置链接关系确定页面权威值的方法与设备
AU2012294704B2 (en) Filtering social search results
AU2009347535B2 (en) Co-selected image classification
US8473495B2 (en) Centralized web-based software solution for search engine optimization
AU2011227327B2 (en) Indexing and searching employing virtual documents
US20140337330A1 (en) Method, system, and apparatus for arranging content search results
US8463785B2 (en) Method and system for generating search collection of query
CN102521257B (zh) 一种用于根据缩略图提供对应的在线图片的方法与设备
US9135307B1 (en) Selectively generating alternative queries
US20110238653A1 (en) Parsing and indexing dynamic reports
US8538941B2 (en) Visual information search tool
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
US20150161275A1 (en) Method and device for presenting social network search results ad storage medium
US20110225134A1 (en) System and method for enhanced find-in-page functions in a web browser
US20170004220A1 (en) Automatic Grouping of Browser Bookmarks
US8750629B2 (en) Method for searching and ranking images clustered based upon similar content
US20160246789A1 (en) Searching content of prominent users in social networks
CN102541946B (zh) 基于超链接的推荐属性确定超链推荐度的方法与设备
CN110968790A (zh) 基于大数据的潜在客户智能推荐方法、设备和存储介质
US20130144864A1 (en) Systems and Methods for Aggregation of Online Social Network Content
CN105045835B (zh) 信息搜索方法和装置
JP6616008B2 (ja) ビデオのための相互雑音推定
CN102289456B (zh) Web爬行的差异检测
US20160283480A1 (en) Assigning content objects to delivery networks
WO2014021824A1 (en) Search method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant