CN102541946B - 基于超链接的推荐属性确定超链推荐度的方法与设备 - Google Patents

基于超链接的推荐属性确定超链推荐度的方法与设备 Download PDF

Info

Publication number
CN102541946B
CN102541946B CN201010619938.3A CN201010619938A CN102541946B CN 102541946 B CN102541946 B CN 102541946B CN 201010619938 A CN201010619938 A CN 201010619938A CN 102541946 B CN102541946 B CN 102541946B
Authority
CN
China
Prior art keywords
hyperlink
page
super
recommendation
super chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010619938.3A
Other languages
English (en)
Other versions
CN102541946A (zh
Inventor
杨宣
姚旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010619938.3A priority Critical patent/CN102541946B/zh
Publication of CN102541946A publication Critical patent/CN102541946A/zh
Application granted granted Critical
Publication of CN102541946B publication Critical patent/CN102541946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是提供一种用于基于页面中超链接的推荐属性确定超链推荐度的方法与设备。超链分析设备获取页面中的超链接;根据所述超链接,获取所述超链接的推荐属性;根据所述推荐属性,加权确定所述超链接的超链推荐度。与现有技术相比,本发明基于页面中超链接的推荐属性确定超链推荐度,从而提高了PageRank等页面排序算法的结果准确率及搜索结果排序质量,并提升了搜索用户的使用体验。

Description

基于超链接的推荐属性确定超链推荐度的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于基于页面中超链接的推荐属性确定超链推荐度的技术。
背景技术
页面中的超链接代表了该页面对指向页面的一种推荐,或是代表了一次投票,通常搜索引擎会根据这种推荐进行页面的权威性计算,并将其应用于搜索结果排序,典型算法如PageRank。对于同一页面上的超链接,PageRank算法通常采用平均分配的方法,即每条超链接所传递的该页面的权威值相等。然而,同一页面每条超链接的推荐意义是不一样的,比如一个新闻页面在其页面底部的友情链接与该新闻页正文报导某网站然后附上其超链,后者的推荐意义明显大于前者,其应该传递更多该页面的权威值。
一般来说当用户在访问一个页面时,对一条超链接点击得越多,代表这条超链接更受用户喜欢,被推荐的意义更大,其所指页面应该承载该页面更多权威值,即,该超链接应该传递更多该页面的权威值给指向页面。然而用户点击某条超链接通常主要受超链接的位置、锚文本、超链接上下文等因素影响,很多时候一些作弊页面会想尽办法吸引用户点击或是指向页面本身就存在问题(比如过期、被黑、广告等),而用户在点击前无法知晓,所以单纯依靠用户点击行为得到的推荐度可能不够准确。
因此,如何根据超链接的推荐属性确定该超链接的超链推荐度,以提高PageRank等页面排序算法的结果准确率及搜索结果排序质量,从而提升搜索用户的使用体验,成为现今亟需解决的一个问题。
发明内容
本发明的目的是提供一种用于基于页面中超链接的推荐属性确定超链推荐度的方法与设备。
根据本发明的一个方面,提供了一种计算机实现的用于基于页面中超链接的推荐属性确定超链推荐度的方法,其中,该方法包括以下步骤:
a获取页面中的超链接;
b根据所述超链接,获取所述超链接的推荐属性;
c根据所述推荐属性,加权确定所述超链接的超链推荐度;
其中,所述推荐属性包括以下至少任一项:
-所述超链接的用户点击属性;
-所述超链接的链接价值属性。
根据本发明的另一方面,还提供了一种用于基于页面中超链接的推荐属性确定超链推荐度的超链分析设备,其中,该设备包括:
第一获取装置,用于获取页面中的超链接;
第二获取装置,用于根据所述超链接,获取所述超链接的推荐属性;
推荐度确定装置,用于根据所述推荐属性,加权确定所述超链接的超链推荐度;
其中,所述推荐属性包括以下至少任一项:
-所述超链接的用户点击属性;
-所述超链接的链接价值属性。
与现有技术相比,本发明基于页面中超链接的推荐属性确定超链推荐度,从而提高了PageRank等页面排序算法的结果准确率及搜索结果排序质量,并提升了搜索用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于页面中超链接的推荐属性确定超链推荐度的设备示意图;
图2示出根据本发明一个优选实施例的用于基于页面中超链接的推荐属性确定超链推荐度的设备示意图;
图3示出根据本发明另一个方面的用于基于页面中超链接的推荐属性确定超链推荐度的方法流程图;
图4示出根据本发明一个优选实施例的用于基于页面中超链接的推荐属性确定超链推荐度的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于基于页面中超链接的推荐属性确定超链推荐度的设备示意图。其中,超链分析设备1包括第一获取装置11、第二获取装置12和推荐度确定装置13。在此,超链分析设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
其中,第一获取装置11用于获取页面中的超链接。具体地,第一获取装置11通过页面技术,例如通过页面分析器等方式,获取页面中的超链接。在此,所述超链接是指从一个网页指向一个目标的连接关系,所述目标包括但不限于另一个网页、相同网页上的不同位置、一个图片、一个电子邮件地址、一个文件,甚至是一个应用程序。而所述超链接包括但不限于文字超链接、图片超链接或Logo超链接等。当浏览用户点击所述超链接后,链接目标将显示在浏览器上,并且根据目标的类型来打开页面或运行应用程序。本领域技术人员应能理解上述几种超链接仅为举例,其他现有的或今后可能出现的超链接如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述获取页面中的超链接的方式仅为举例,其他现有的或今后可能出现的获取页面中的超链接的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
第二获取装置12用于根据所述超链接,获取所述超链接的推荐属性;其中,所述推荐属性包括以下至少任一项:
-所述超链接的用户点击属性;
-所述超链接的链接价值属性。具体地,第二获取装置12根据第一获取装置11所获取的超链接,通过页面技术,获取所述超链接的推荐属性,例如通过网络客户端工具等方式,如百度sobar,获取所述超链接的用户点击属性,通过页面分析器等方式,获取所述超链接的链接价值属性。在此,所述页面分析器是由C或者C++编程语言编写的高效率执行器,一台服务器可以并行处理多个页面分析器。例如,用户通过与用户设备的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在页面中点击某个超链接,第二获取装置12通过网络客户端工具等方式,例如百度sobar等网络客户端工具,获取所述用户对所述超链接的点击,并统计一段时间内用户对所述超链接的第一点击量及对该页面中所有超链接的第二点击量,进一步地,第二获取装置12将所述第一点击量与第二点击量的比值,作为该超链接的用户点击属性。又如,第二获取装置12通过页面分析器等方式,获取所述超链接的超链特征信息,包括但不限于所述超链接的超链位置、超链类型、超链产生时间、锚文本相关信息等,并根据所述超链特征信息,通过将所述超链特征信息量化、加权计算等方式,获取所述超链接的链接价值属性。本领域技术人员应能理解上述超链接的推荐属性仅为举例,其他现有的或今后可能出现的超链接的推荐属性如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述获取超链接的推荐属性的方式仅为举例,其他现有的或今后可能出现的获取超链接的推荐属性的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
推荐度确定装置13用于根据所述推荐属性,加权确定所述超链接的超链推荐度。具体地,推荐度确定装置13根据第二获取装置12所获取的所述超链接的推荐属性,例如所述超链接的用户点击属性、链接价值属性,通过加权计算的方式,确定所述超链接的超链推荐度。例如,推荐度确定装置13根据第二获取装置12所获取的所述超链接的用户点击属性、链接价值属性,将所述推荐属性进行量化,并通过加权计算的方式,得出一个表示超链推荐度的数值,以确定所述超链接的超链推荐度。本领域技术人员应能理解上述确定所述超链接的超链推荐度的方式仅为举例,其他现有的或今后可能出现的确定所述超链接的超链推荐度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,超链分析设备1的各个装置之间是持续不断工作的。具体地,第一获取装置11获取页面中的超链接;第二获取装置12根据所述超链接,获取所述超链接的推荐属性;推荐度确定装置13根据所述推荐属性,加权确定所述超链接的超链推荐度。在此,本领域技术人员应理解“持续”是指超链分析设备1的各装置分别按照设定的或实时调整的工作模式要求进行超链接的获取、推荐属性的获取及超链推荐度的加权确定,直至超链分析设备1在较长时间内停止获取页面中的超链接。
优选地,所述用户点击属性包括在预定时间周期内,用户对所述超链接的第一点击量与对所述页面中所有超链接的第二点击量的比值。具体地,用户通过与用户设备的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在页面中点击某个超链接,第二获取装置12通过网络客户端工具等方式,例如百度sobar等网络客户端工具,获取所述用户对所述超链接的点击,进一步地,第二获取装置12统计在预定时间周期内用户对所述超链接的第一点击量及对该页面中所有超链接的第二点击量,将所述第一点击量与第二点击量的比值,作为该超链接的用户点击属性。例如,在页面“锚文本_百度百科”中,第二获取装置12通过网络客户端工具,统计出用户在一周内点击该页面中的超链接“搜索引擎”的点击量为100次,统计出用户在一周内点击该页面中所有超链接的点击量为400次,则通过计算,该超链接“搜索引擎”的用户点击属性为100/400=0.25。上述数值仅为更好的说明本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。优选地,所述预定时间周期可以根据搜索引擎抓取到该页面的时间、第一获取装置11获取到该超链接的时间或者根据突发事件进行调整,所述突发事件包括但不限于该页面上的点击量突增等情况。本领域技术人员应能理解上述确定用户点击属性的方式仅为举例,其他现有的或今后可能出现的确定用户点击属性的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选的实施例中(参照图1),所述推荐属性包括所述超链接的链接价值属性;其中,所述第二获取装置12还用于获取所述超链接的超链特征信息;根据所述超链特征信息,加权确定所述超链接的链接价值属性。具体地,当所述推荐属性包括所述超链接的链接价值属性时,第二获取装置12通过页面分析器等方式,获取所述超链接的超链特征信息,包括但不限于所述超链接的超链位置、超链类型、超链产生时间、锚文本相关信息等,并根据所述超链特征信息,通过将所述超链特征信息量化、加权计算等方式,获取所述超链接的链接价值属性。本领域技术人员应能理解上述确定链接价值属性的方式仅为举例,其他现有的或今后可能出现的确定链接价值属性的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述超链特征信息包括但不限于以下至少任一项:
-所述超链接的超链位置;
-所述超链接的超链类型;
-所述超链接的产生时间;
-所述超链接的锚文本相关信息。具体地,所述超链接的超链位置表征了所述超链接在所述页面中的位置,例如在页面导航栏中、页面推广栏中、或者居于页面的上方、中间或下方等位置。所述超链接的超链类型表征了所述超链接所指向的页面的定位,例如表征了所述超链接所指向的页面与其所属的页面之间的关系,包括但不限于推荐链接、相关链接、引用链接、扩展链接、广告链接、服务链接等。所述超链接的产生时间表征了所述超链接添加至其所属的页面的时间,该时间可以通过搜索引擎抓取到该页面的时间近似获得。所述超链接的锚文本相关信息包括但不限于所述锚文本的字体、颜色、字号、所述超链接所指向的页面的页面内容与锚文本内容的匹配度等。第二获取装置12通过页面分析器等方式,获取所述超链接的超链特征信息。本领域技术人员应能理解上述超链特征信息仅为举例,其他现有的或今后可能出现的超链特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述超链接的超链类型包括但不限于以下至少任一项:
-推荐链接;
-相关链接;
-引用链接;
-扩展链接;
-广告链接;
-服务链接。具体地,所述推荐链接是指页面中所推荐的一些其他页面,例如,在页面“锚文本_百度百科”中的推荐链接“百度百科知识先锋计划启动”。所述相关链接是指所述超链接与所述页面之间在内容和主题上存在一定的相关性,例如,在页面“锚文本_百度百科”中的相关链接“外部链接”。所述引用链接是指所述页面引用了所述引用链接所指向的链接资源,包括但不限于学术软文、声音、音乐等文件,例如,在某个学术论文页面的底部的关于论文引用资料的引用链接等。扩展链接是指为了给用户提供一个更为广泛的资料,设置的一些相关的参考资料链接,例如,在页面“锚文本_百度百科”中的扩展链接“搜索引擎”。广告链接是指以商业利益为目的的超链接,例如,在页面“获取超链接的方法”中,以图片形式展现的广告链接“一号店”。服务链接是指以服务为目的的超链接,此类链接并不涉及到交易,例如,在页面“锚文本_百度百科”中的服务链接“百度百科投诉中心”。第二获取装置12通过页面分析器等方式,获取所述超链接的超链类型,并根据所述超链接的超链类型,为所述超链类型在计算所述超链价值属性时分配一定的权重。本领域技术人员应能理解上述超链类型仅为举例,其他现有的或今后可能出现的超链类型如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述锚文本相关信息包括以下至少任一项:
-所述锚文本的字体;
-所述锚文本的颜色;
-所述锚文本的字号;
-所述超链接所指向的页面的页面内容与锚文本内容的匹配度。具体地,第二获取装置12通过页面分析器等方式,获取所述超链接的锚文本相关信息,包括但不限于所述锚文本的字体、颜色、字号、所述超链接所指向的页面的页面内容与锚文本内容的匹配度等。例如,当所述超链接所对应的锚文本的字体相对于该页面中的其他链接所述对应的锚文本的字体偏大,颜色不同或字号不同,则表示所述超链接与该页面中其他超链接的推荐度不同。所述超链接所指向的页面的页面内容与该超链接所对应的锚文本内容的匹配度较高,例如高于预设匹配阈值或该页面的所有超链接所对应的页面与锚文本的平均匹配度,其超链推荐度也应较高。本领域技术人员应能理解上述锚文本相关信息仅为举例,其他现有的或今后可能出现的锚文本相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图2示出根据本发明一个优选实施例的用于基于页面中超链接的推荐属性确定超链推荐度的设备示意图;超链分析设备1还可以包括第一调整装置14’。其中,第一获取装置11’、第二获取装置12’和推荐度确定装置13’分别与图1所示对应装置11-13相同,故此处不再赘述,并通过引用的方式包含于此。
其中,第一调整装置14’用于根据所述超链接所指向的页面,并结合页面黑名单,调整所述超链接的超链推荐度。具体地,第一调整装置14’根据所述超链接所指向的页面,例如通过分析该页面的网址或页面内容,与页面黑名单中的页面相比较,当确定所述超链接所指向的页面为所述页面黑名单中的页面,或所述超链接所指向的页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的超链推荐度,例如降低所述超链接的超链推荐度。在一个极端的例子中,当第一调整装置14’判断所述超链接所指向的页面与页面黑名单中的页面一致时,直接将所述超链接的超链推荐度调整为零。本领域技术人员应能理解上述调整所述超链接的超链推荐度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的超链推荐度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,超链分析设备1还可以包括更新装置(未示出)。所述更新装置用于获取作弊页面或不良页面;根据所述作弊页面或不良页面,建立或更新所述页面黑名单。具体地,更新装置通过独立获取、接收用户举报,或者通过接收来自其他产品或第三方设备所获取的作弊页面或不良页面;此后,根据所述作弊页面或不良页面,通过数据库更新等方式,建立或更新所述页面黑名单。在此,所述作弊页面是指所述超链接所指向的页面与所述超链接所对应的锚文本内容不匹配或匹配度极低,例如在一个学术网站页面中,某个超链接的锚文本内容为与该页面内容相符合的一个学术名词,但用户点击该超链接,进入的却是一个购物网站页面,则可以判断该超链接所指向的页面为作弊页面。而所述不良页面例如色情网站页面等,其可以通过用户举报等方式获得。例如,更新装置根据第二获取装置12’所获取的所述超链接所指向的页面的页面内容与锚文本内容的匹配度,当所述匹配度为零或极低时,将所述超链接所对应的页面判断为作弊页面,并通过数据库更新等方式,建立或更新所述页面黑名单。本领域技术人员应能理解上述建立或更新所述页面黑名单的方式仅为举例,其他现有的或今后可能出现的建立或更新所述页面黑名单的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选的实施例中(参见图1),超链分析设备1还可以包括第二调整装置(未示出)。所述第二调整装置用于根据下式,调整所述超链接的超链推荐度Ri
Ri=λ*Ri-1+(1-λ)*Rc
其中,Rc为第i时刻未经修正的超链推荐度,Ri-1为第i-1时刻所述超链接的超链推荐度,λ为0至1之间的修正因子。由于所述页面在短时间内可能会有不可预期的变化,例如其中某个超链接由于某种原因突然点击量大涨,为修正所述不可预期的变化,以减少超链推荐度的波动,从而提高网页排序算法的计算效率与稳定性。具体地,第二调整装置根据推荐度确定装置13所确定的第i时刻的超链推荐度Rc,第i-1时刻所述超链接的超链推荐度Ri-1,并根据公式Ri=λ*Ri-1+(1-λ)*Rc进行调整,以获得所述超链接的超链推荐度Ri,其中,λ为0至1之间的修正因子。例如,假设推荐度确定装置13所确定的第i时刻的超链推荐度Rc为0.8,第i-1时刻所述超链接的超链推荐度Ri-1为0.6,假设λ取0.25,则通过计算,所述超链接的超链推荐度Ri为0.75。上述数值仅为更好的说明本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的超链推荐度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的超链推荐度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选的实施例中(参见图1),超链分析设备1还可以包括权威值确定装置(未示出)。所述权威值确定装置用于根据所述超链接的超链推荐度,并结合所述页面中其余超链接的超链推荐度,确定所述超链接所传递的所述页面的权威值。具体地,权威值确定装置根据推荐度确定装置13所确定的所述超链接的超链推荐度,或者根据第二调整装置调整后所得的所述超链接的超链推荐度,并结合所述页面中其余超链接的超链推荐度及所述页面的权威值,确定所述超链接所传递的所述页面的权威值。例如,假设推荐度确定装置13加权确定所述超链接的超链推荐度为0.75,所述页面中该超链接与其余超链接的超链推荐度的总和为3.0,所述页面的权威值为80,则根据公式Pr=(超链推荐度/页面超链推荐度总和)*页面权威值=(0.75/3.0)*80,计算得出所述超链接所传递的所述页面的权威值Pr为20。上述数值仅为更好的说明本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述确定所述超链接所传递的所述页面的权威值的方式仅为举例,其他现有的或今后可能出现的确定所述超链接所传递的所述页面的权威值的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图3示出根据本发明另一个方面的用于基于页面中超链接的推荐属性确定超链推荐度的方法流程图。在此,超链分析设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
其中,在步骤S1中,超链分析设备1获取页面中的超链接。具体地,在步骤S1中,超链分析设备1通过页面技术,例如通过页面分析器等方式,获取页面中的超链接。在此,所述超链接是指从一个网页指向一个目标的连接关系,所述目标包括但不限于另一个网页、相同网页上的不同位置、一个图片、一个电子邮件地址、一个文件,甚至是一个应用程序。而所述超链接包括但不限于文字超链接、图片超链接或Logo超链接等。当浏览用户点击所述超链接后,链接目标将显示在浏览器上,并且根据目标的类型来打开页面或运行应用程序。本领域技术人员应能理解上述几种超链接仅为举例,其他现有的或今后可能出现的超链接如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述获取页面中的超链接的方式仅为举例,其他现有的或今后可能出现的获取页面中的超链接的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,超链分析设备1根据所述超链接,获取所述超链接的推荐属性;其中,所述推荐属性包括以下至少任一项:
-所述超链接的用户点击属性;
-所述超链接的链接价值属性。具体地,在步骤S2中,超链分析设备1根据在步骤S1中所获取的超链接,通过页面技术,获取所述超链接的推荐属性,例如通过网络客户端工具等方式,如百度sobar,获取所述超链接的用户点击属性,通过页面分析器等方式,获取所述超链接的链接价值属性。在此,所述页面分析器是由C或者C++编程语言编写的高效率执行器,一台服务器可以并行处理多个页面分析器。例如,用户通过与用户设备的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在页面中点击某个超链接,在步骤S2中,超链分析设备1通过网络客户端工具等方式,例如百度sobar等网络客户端工具,获取所述用户对所述超链接的点击,并统计一段时间内用户对所述超链接的第一点击量及对该页面中所有超链接的第二点击量,进一步地,在步骤S2中,超链分析设备1将所述第一点击量与第二点击量的比值,作为该超链接的用户点击属性。又如,在步骤S2中,超链分析设备1通过页面分析器等方式,获取所述超链接的超链特征信息,包括但不限于所述超链接的超链位置、超链类型、超链产生时间、锚文本相关信息等,并根据所述超链特征信息,通过将所述超链特征信息量化、加权计算等方式,获取所述超链接的链接价值属性。本领域技术人员应能理解上述超链接的推荐属性仅为举例,其他现有的或今后可能出现的超链接的推荐属性如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述获取超链接的推荐属性的方式仅为举例,其他现有的或今后可能出现的获取超链接的推荐属性的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S3中,超链分析设备1根据所述推荐属性,加权确定所述超链接的超链推荐度。具体地,在步骤S3中,超链分析设备1根据在步骤S2中所获取的所述超链接的推荐属性,例如所述超链接的用户点击属性、链接价值属性,通过加权计算的方式,确定所述超链接的超链推荐度。例如,在步骤S3中,超链分析设备1根据在步骤S2中所获取的所述超链接的用户点击属性、链接价值属性,将所述推荐属性进行量化,并通过加权计算的方式,得出一个表示超链推荐度的数值,以确定所述超链接的超链推荐度。本领域技术人员应能理解上述确定所述超链接的超链推荐度的方式仅为举例,其他现有的或今后可能出现的确定所述超链接的超链推荐度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,上述各个步骤之间是持续不断工作的。具体地,在步骤S 1中,超链分析设备1获取页面中的超链接;在步骤S2中,超链分析设备1根据所述超链接,获取所述超链接的推荐属性;在步骤S3中,超链分析设备1根据所述推荐属性,加权确定所述超链接的超链推荐度。在此,本领域技术人员应理解“持续”是指上述各步骤分别按照设定的或实时调整的工作模式要求进行超链接的获取、推荐属性的获取及超链推荐度的加权确定,直至超链分析设备1在较长时间内停止获取页面中的超链接。
优选地,所述用户点击属性包括在预定时间周期内,用户对所述超链接的第一点击量与对所述页面中所有超链接的第二点击量的比值。具体地,用户通过与用户设备的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在页面中点击某个超链接,在步骤S2中,超链分析设备1通过网络客户端工具等方式,例如百度sobar等网络客户端工具,获取所述用户对所述超链接的点击,进一步地,超链分析设备1统计在预定时间周期内用户对所述超链接的第一点击量及对该页面中所有超链接的第二点击量,将所述第一点击量与第二点击量的比值,作为该超链接的用户点击属性。例如,在页面“锚文本_百度百科”中,在步骤S2中,超链分析设备1通过网络客户端工具,统计出用户在一周内点击该页面中的超链接“搜索引擎”的点击量为100次,统计出用户在一周内点击该页面中所有超链接的点击量为400次,则通过计算,该超链接“搜索引擎”的用户点击属性为100/400=0.25。上述数值仅为更好的说明本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。优选地,所述预定时间周期可以根据搜索引擎抓取到该页面的时间、超链分析设备1获取到该超链接的时间或者根据突发事件进行调整,所述突发事件包括但不限于该页面上的点击量突增等情况。本领域技术人员应能理解上述确定用户点击属性的方式仅为举例,其他现有的或今后可能出现的确定用户点击属性的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选的实施例中(参照图3),所述推荐属性包括所述超链接的链接价值属性;其中,在步骤S2中,超链分析设备1还可以获取所述超链接的超链特征信息;根据所述超链特征信息,加权确定所述超链接的链接价值属性。具体地,当所述推荐属性包括所述超链接的链接价值属性时,在步骤S2中,超链分析设备1通过页面分析器等方式,获取所述超链接的超链特征信息,包括但不限于所述超链接的超链位置、超链类型、超链产生时间、锚文本相关信息等,并根据所述超链特征信息,通过将所述超链特征信息量化、加权计算等方式,获取所述超链接的链接价值属性。本领域技术人员应能理解上述确定链接价值属性的方式仅为举例,其他现有的或今后可能出现的确定链接价值属性的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述超链特征信息包括但不限于以下至少任一项:
-所述超链接的超链位置;
-所述超链接的超链类型;
-所述超链接的产生时间;
-所述超链接的锚文本相关信息。具体地,所述超链接的超链位置表征了所述超链接在所述页面中的位置,例如在页面导航栏中、页面推广栏中、或者居于页面的上方、中间或下方等位置。所述超链接的超链类型表征了所述超链接所指向的页面的定位,例如表征了所述超链接所指向的页面与其所属的页面之间的关系,包括但不限于推荐链接、相关链接、引用链接、扩展链接、广告链接、服务链接等。所述超链接的产生时间表征了所述超链接添加至其所属的页面的时间,该时间可以通过搜索引擎抓取到该页面的时间近似获得。所述超链接的锚文本相关信息包括但不限于所述锚文本的字体、颜色、字号、所述超链接所指向的页面的页面内容与锚文本内容的匹配度等。在步骤S2中,超链分析设备1通过页面分析器等方式,获取所述超链接的超链特征信息。本领域技术人员应能理解上述超链特征信息仅为举例,其他现有的或今后可能出现的超链特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述超链接的超链类型包括但不限于以下至少任一项:
-推荐链接;
-相关链接;
-引用链接;
-扩展链接;
-广告链接;
-服务链接。具体地,所述推荐链接是指页面中所推荐的一些其他页面,例如,在页面“锚文本_百度百科”中的推荐链接“百度百科知识先锋计划启动”。所述相关链接是指所述超链接与所述页面之间在内容和主题上存在一定的相关性,例如,在页面“锚文本_百度百科”中的相关链接“外部链接”。所述引用链接是指所述页面引用了所述引用链接所指向的链接资源,包括但不限于学术软文、声音、音乐等文件,例如,在某个学术论文页面的底部的关于论文引用资料的引用链接等。扩展链接是指为了给用户提供一个更为广泛的资料,设置的一些相关的参考资料链接,例如,在页面“锚文本_百度百科”中的扩展链接“搜索引擎”。广告链接是指以商业利益为目的的超链接,例如,在页面“获取超链接的方法”中,以图片形式展现的广告链接“一号店”。服务链接是指以服务为目的的超链接,此类链接并不涉及到交易,例如,在页面“锚文本_百度百科”中的服务链接“百度百科投诉中心”。在步骤S2中,超链分析设备1通过页面分析器等方式,获取所述超链接的超链类型,并根据所述超链接的超链类型,为所述超链类型在计算所述超链价值属性时分配一定的权重。本领域技术人员应能理解上述超链类型仅为举例,其他现有的或今后可能出现的超链类型如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述锚文本相关信息包括以下至少任一项:
-所述锚文本的字体;
-所述锚文本的颜色;
-所述锚文本的字号;
-所述超链接所指向的页面的页面内容与锚文本内容的匹配度。具体地,在步骤S2中,超链分析设备1通过页面分析器等方式,获取所述超链接的锚文本相关信息,包括但不限于所述锚文本的字体、颜色、字号、所述超链接所指向的页面的页面内容与锚文本内容的匹配度等。例如,当所述超链接所对应的锚文本的字体相对于该页面中的其他链接所述对应的锚文本的字体偏大,颜色不同或字号不同,则表示所述超链接与该页面中其他超链接的推荐度不同。所述超链接所指向的页面的页面内容与该超链接所对应的锚文本内容的匹配度较高,例如高于预设匹配阈值或该页面的所有超链接所对应的页面与锚文本的平均匹配度,其超链推荐度也应较高。本领域技术人员应能理解上述锚文本相关信息仅为举例,其他现有的或今后可能出现的锚文本相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图4示出根据本发明一个优选实施例的用于基于页面中超链接的推荐属性确定超链推荐度的方法流程图。其中,步骤S1’-S3’分别与图3所示对应步骤S1-S3相同,故此处不再赘述,并通过引用的方式包含于此。
其中,在步骤S4’中,超链分析设备1根据所述超链接所指向的页面,并结合页面黑名单,调整所述超链接的超链推荐度。具体地,在步骤S4’中,超链分析设备1根据所述超链接所指向的页面,例如通过分析该页面的网址或页面内容,与页面黑名单中的页面相比较,当确定所述超链接所指向的页面为所述页面黑名单中的页面,或所述超链接所指向的页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的超链推荐度,例如降低所述超链接的超链推荐度。在一个极端的例子中,当在步骤S4’中,超链分析设备1判断所述超链接所指向的页面与页面黑名单中的页面一致时,直接将所述超链接的超链推荐度调整为零。本领域技术人员应能理解上述调整所述超链接的超链推荐度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的超链推荐度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S5’(未示出)中,超链分析设备1还可以获取作弊页面或不良页面;根据所述作弊页面或不良页面,建立或更新所述页面黑名单。具体地,在步骤S5’中,超链分析设备1通过独立获取、接收用户举报,或者通过接收来自其他产品或第三方设备所获取的作弊页面或不良页面;此后,根据所述作弊页面或不良页面,通过数据库更新等方式,建立或更新所述页面黑名单。在此,所述作弊页面是指所述超链接所指向的页面与所述超链接所对应的锚文本内容不匹配或匹配度极低,例如在一个学术网站页面中,某个超链接的锚文本内容为与该页面内容相符合的一个学术名词,但用户点击该超链接,进入的却是一个购物网站页面,则可以判断该超链接所指向的页面为作弊页面。而所述不良页面例如色情网站页面等,其可以通过用户举报等方式获得。例如,在步骤S5’中,超链分析设备1根据在步骤S2’中所获取的所述超链接所指向的页面的页面内容与锚文本内容的匹配度,当所述匹配度为零或极低时,将所述超链接所对应的页面判断为作弊页面,并通过数据库更新等方式,建立或更新所述页面黑名单。本领域技术人员应能理解上述建立或更新所述页面黑名单的方式仅为举例,其他现有的或今后可能出现的建立或更新所述页面黑名单的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选的实施例中(参见图3),在步骤S6(未示出)中,超链分析设备1还可以根据下式,调整所述超链接的超链推荐度Ri
Ri=λ*Ri-1+(1-λ)*Rc
其中,Rc为第i时刻未经修正的超链推荐度,Ri-1为第i-1时刻所述超链接的超链推荐度,λ为0至1之间的修正因子。由于所述页面在短时间内可能会有不可预期的变化,例如其中某个超链接由于某种原因突然点击量大涨,为修正所述不可预期的变化,以减少超链推荐度的波动,从而提高网页排序算法的计算效率与稳定性。具体地,在步骤S6中,超链分析设备1根据在步骤S3中所确定的第i时刻的超链推荐度Rc,第i-1时刻所述超链接的超链推荐度Ri-1,并根据公式Ri=λ*Ri-1+(1-λ)*Rc进行调整,以获得所述超链接的超链推荐度Ri,其中,λ为0至1之间的修正因子。例如,假设在步骤S3中,超链分析设备1所确定的第i时刻的超链推荐度Rc为0.8,第i-1时刻所述超链接的超链推荐度Ri-1为0.6,假设λ取0.25,则通过计算,所述超链接的超链推荐度Ri为0.75。上述数值仅为更好的说明本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的超链推荐度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的超链推荐度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选的实施例中(参见图3),在步骤S7(未示出)中,超链分析设备1还可以根据所述超链接的超链推荐度,并结合所述页面中其余超链接的超链推荐度,确定所述超链接所传递的所述页面的权威值。具体地,在步骤S7中,超链分析设备1根据在步骤S3中所确定的所述超链接的超链推荐度,或者根据在步骤S6中调整后所得的所述超链接的超链推荐度,并结合所述页面中其余超链接的超链推荐度及所述页面的权威值,确定所述超链接所传递的所述页面的权威值。例如,假设在步骤S3中,超链分析设备1加权确定所述超链接的超链推荐度为0.75,所述页面中该超链接与其余超链接的超链推荐度的总和为3.0,所述页面的权威值为80,则根据公式Pr=(超链推荐度/页面超链推荐度总和)*页面权威值=(0.75/3.0)*80,计算得出所述超链接所传递的所述页面的权威值Pr为20。上述数值仅为更好的说明本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述确定所述超链接所传递的所述页面的权威值的方式仅为举例,其他现有的或今后可能出现的确定所述超链接所传递的所述页面的权威值的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (16)

1.一种计算机实现的用于基于页面中超链接的推荐属性确定超链推荐度的方法,其中,该方法包括以下步骤:
a获取页面中的超链接;
b根据所述超链接,获取所述超链接的推荐属性;
c根据所述推荐属性,加权确定所述超链接的超链推荐度;
-根据下式,调整所述超链接的超链推荐度Ri
Ri=λ*Ri-1+(1-λ)*Rc
其中,Rc为第i时刻未经修正的超链推荐度,Ri-1为第i-1时刻所述超链接的超链推荐度,λ为0至1之间的修正因子;
-根据所述超链接的超链推荐度,并结合所述页面中其余超链接的超链推荐度,确定所述超链接所传递的所述页面的权威值;
其中,所述推荐属性包括以下至少任一项:
-所述超链接的用户点击属性;
-所述超链接的链接价值属性。
2.根据权利要求1所述的方法,其中,所述用户点击属性包括在预定时间周期内,用户对所述超链接的第一点击量与对所述页面中所有超链接的第二点击量的比值。
3.根据权利要求1或2所述的方法,所述推荐属性包括所述超链接的链接价值属性;
其中,所述步骤b还包括:
-获取所述超链接的超链特征信息;
-根据所述超链特征信息,加权确定所述超链接的链接价值属性。
4.根据权利要求3所述的方法,其中,所述超链特征信息包括以下至少任一项:
-所述超链接的超链位置;
-所述超链接的超链类型;
-所述超链接的产生时间;
-所述超链接的锚文本相关信息。
5.根据权利要求4所述的方法,其中,所述超链接的超链类型包括以下至少任一项:
-推荐链接;
-相关链接;
-引用链接;
-扩展链接;
-广告链接;
-服务链接。
6.根据权利要求4或5所述的方法,其中,所述锚文本相关信息包括以下至少任一项:
-所述锚文本的字体;
-所述锚文本的颜色;
-所述锚文本的字号;
-所述超链接所指向的页面的页面内容与锚文本内容的匹配度。
7.根据权利要求1或2所述的方法,其中,该方法还包括:
-根据所述超链接所指向的页面,并结合页面黑名单,调整所述超链接的超链推荐度。
8.根据权利要求7所述的方法,其中,该方法还包括:
-获取作弊页面或不良页面;
-根据所述作弊页面或不良页面,建立或更新所述页面黑名单。
9.一种用于基于页面中超链接的推荐属性确定超链推荐度的超链分析设备,其中,该设备包括:
第一获取装置,用于获取页面中的超链接;
第二获取装置,用于根据所述超链接,获取所述超链接的推荐属性;
推荐度确定装置,用于根据所述推荐属性,加权确定所述超链接的超链推荐度;
第二调整装置,用于根据下式,调整所述超链接的超链推荐度Ri
Ri=λ*Ri-1+(1-λ)*Rc
其中,Rc为第i时刻未经修正的超链推荐度,Ri-1为第i-1时刻所述超链接的超链推荐度,λ为0至1之间的修正因子;
权威值确定装置,用于根据所述超链接的超链推荐度,并结合所述页面中其余超链接的超链推荐度,确定所述超链接所传递的所述页面的权威值;
其中,所述推荐属性包括以下至少任一项:
-所述超链接的用户点击属性;
-所述超链接的链接价值属性。
10.根据权利要求9所述的超链分析设备,其中,所述用户点击属性包括在预定时间周期内,用户对所述超链接的第一点击量与对所述页面中所有超链接的第二点击量的比值。
11.根据权利要求9或10所述的超链分析设备,所述推荐属性包括所述超链接的链接价值属性;
其中,所述第二获取装置还用于:
-获取所述超链接的超链特征信息;
-根据所述超链特征信息,加权确定所述超链接的链接价值属性。
12.根据权利要求11所述的超链分析设备,其中,所述超链特征信息包括以下至少任一项:
-所述超链接的超链位置;
-所述超链接的超链类型;
-所述超链接的产生时间;
-所述超链接的锚文本相关信息。
13.根据权利要求12所述的超链分析设备,其中,所述超链接的超链类型包括以下至少任一项:
-推荐链接;
-相关链接;
-引用链接;
-扩展链接;
-广告链接;
-服务链接。
14.根据权利要求12或13所述的超链分析设备,其中,所述锚文本相关信息包括以下至少任一项:
-所述锚文本的字体;
-所述锚文本的颜色;
-所述锚文本的字号;
-所述超链接所指向的页面的页面内容与锚文本内容的匹配度。
15.根据权利要求9或10所述的超链分析设备,其中,该设备还包括:
第一调整装置,用于根据所述超链接所指向的页面,并结合页面黑名单,调整所述超链接的超链推荐度。
16.根据权利要求15所述的超链分析设备,其中,该设备还包括更新装置,用于:
-获取作弊页面或不良页面;
-根据所述作弊页面或不良页面,建立或更新所述页面黑名单。
CN201010619938.3A 2010-12-31 2010-12-31 基于超链接的推荐属性确定超链推荐度的方法与设备 Active CN102541946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010619938.3A CN102541946B (zh) 2010-12-31 2010-12-31 基于超链接的推荐属性确定超链推荐度的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010619938.3A CN102541946B (zh) 2010-12-31 2010-12-31 基于超链接的推荐属性确定超链推荐度的方法与设备

Publications (2)

Publication Number Publication Date
CN102541946A CN102541946A (zh) 2012-07-04
CN102541946B true CN102541946B (zh) 2014-11-05

Family

ID=46348861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010619938.3A Active CN102541946B (zh) 2010-12-31 2010-12-31 基于超链接的推荐属性确定超链推荐度的方法与设备

Country Status (1)

Country Link
CN (1) CN102541946B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226568A (zh) * 2013-03-12 2013-07-31 北京百度网讯科技有限公司 一种用于爬取页面的方法和设备
CN103646066B (zh) * 2013-12-03 2017-02-01 东南大学 一种基于定性和定量用户偏好选择可信web服务的方法
CN104951476B (zh) * 2014-03-31 2017-04-12 北京奇虎科技有限公司 确定网站内链接等级的方法及装置
CN106776808A (zh) * 2016-11-23 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的资讯数据提供方法及装置
CN109086348B (zh) 2018-07-13 2023-04-18 腾讯科技(深圳)有限公司 超链接的处理方法和装置及存储介质
CN111026983B (zh) * 2019-11-05 2023-08-08 北京字节跳动网络技术有限公司 一种实现超链接的方法、装置、介质和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1418515A4 (en) * 2001-07-25 2007-11-28 Eighting Kk BANNER ADVERTISING TRANSFER SERVERS AND BANNER ADVERTISING TRANSMISSION PROGRAM
CN101122904A (zh) * 2006-08-08 2008-02-13 任喜军 因特网网页价值评估、衡量方法
CN100543744C (zh) * 2006-12-12 2009-09-23 孙斌 对网页和网站评级的方法
CN101187945B (zh) * 2007-12-13 2011-04-06 深圳市迅雷网络技术有限公司 一种网页页面的处理方法及装置

Also Published As

Publication number Publication date
CN102541946A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
KR101130505B1 (ko) 검색 결과 관련성의 자동화된 최적화를 위한 시스템 및방법
CN103797474B (zh) 提供与转化路径相关的数据的方法、装置及系统
US7949643B2 (en) Method and apparatus for rating user generated content in search results
CN102541946B (zh) 基于超链接的推荐属性确定超链推荐度的方法与设备
US8615514B1 (en) Evaluating website properties by partitioning user feedback
JP6517818B2 (ja) ウェブサイト・トラフィック最適化の改善
US8442984B1 (en) Website quality signal generation
US20140195893A1 (en) Method and Apparatus for Generating Webpage Content
US20140189480A1 (en) Dynamic aggregation and display of contextually relevant content
US9135307B1 (en) Selectively generating alternative queries
US20150213023A1 (en) Systems and methods for sorting data
CN102073726A (zh) 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
CN103748608A (zh) 路径浏览器可视化
CN105718533A (zh) 信息推送方法和装置
JP2009252070A (ja) 検索クエリに関するスコアを算出する方法
Zhang et al. Click-based evidence for decaying weight distributions in search effectiveness metrics
CN102541947B (zh) 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN104035964A (zh) 一种用于提供信誉相关信息的方法和设备
CN102567417A (zh) 一种用于确定超链接的锚文本可信度的分析设备和方法
US20150134632A1 (en) Search method
JP2011248762A (ja) 分類装置、コンテンツ検索システム、コンテンツ分類方法、コンテンツ検索方法及びプログラム
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
CN105975508A (zh) 个性化元搜索引擎检索结果合成排序方法
CN102957721B (zh) 一种用于基于标识信息对用户进行分类的设备和方法
JP2011227720A (ja) 推薦システム、推薦方法、及び推薦プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant