CN102567417A - 一种用于确定超链接的锚文本可信度的分析设备和方法 - Google Patents

一种用于确定超链接的锚文本可信度的分析设备和方法 Download PDF

Info

Publication number
CN102567417A
CN102567417A CN2010106200554A CN201010620055A CN102567417A CN 102567417 A CN102567417 A CN 102567417A CN 2010106200554 A CN2010106200554 A CN 2010106200554A CN 201010620055 A CN201010620055 A CN 201010620055A CN 102567417 A CN102567417 A CN 102567417A
Authority
CN
China
Prior art keywords
hyperlink
anchor text
page
confidence level
relevant information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106200554A
Other languages
English (en)
Inventor
杨宣
姚旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2010106200554A priority Critical patent/CN102567417A/zh
Publication of CN102567417A publication Critical patent/CN102567417A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种用于确定超链接的锚文本可信度的分析设备和方法,包括:获取与所述超链接相对应的锚文本;根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。与现有技术相比,本发明基于锚文本相关信息来加权确定超链接的锚文本可信度,使超链接的锚文本与超链接指向页面之间的内容相关性更加合理。此外,将本发明应用到搜索引擎领域,还可精确地检测作弊超链的虚假锚文本、过期超链的失效锚文本,调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。

Description

一种用于确定超链接的锚文本可信度的分析设备和方法
技术领域
本发明涉及互联网技术领域,尤其涉及用于确定超链接的锚文本可信度的链接分析技术。
背景技术
在当今的互联网中,网页数量日趋庞大,为了建立网页与网页、网页与网站之间的链接关系,经常使用基于超链接和/或锚文本的链接技术。一般来说,超链接是一种对象,它以特殊编码的文本或图形的形式来实现链接,当点击该链接时,相当于指令浏览器移至同一网页内的某个位置、或打开一个新的网页、或打开一个新的WWW网站中的网页。例如,网页中的超链接大致分为绝对URL的超链接、相对URL的超链接和书签超链接。
另外,超链接中的锚文本通常是对一个网页内容的高度概括描述,与该网页有着高度的内容相关性。将超链接的锚文本应用于搜索引擎,还可以基于所述锚文本进行内容相关度计算,以获取用户查询序列与网页的相关度,从而对搜索结果中的网页进行精确排名。
由上述可知,在正常情形下,锚文本均可以对超链接指向的页面内容进行高度概括,并相当程度上反映出该页面的内容。但是,互联网上存在大量的超链作弊行为,锚文本与超链接指向页面之间不再总是内容高度相关,当搜索引擎基于锚文本来获取搜索结果时,甚至还有可能出现与查询序列内容不相关而排名却很高的网页。
有鉴于此,如何确定超链接的锚文本可信度,以评估和分析超链接的锚文本与超链接指向页面之间内容相关性,是相关领域的技术人员亟待解决的一项课题。
发明内容
本发明的目的是提供一种用于确定超链接的锚文本可信度的分析设备和方法。
根据本发明的一个方面,提供一种计算机实现的用于确定超链接的锚文本可信度的方法,其中,该方法包括以下步骤:
a获取与所述超链接相对应的锚文本;
b根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;
c根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
根据本发明的另一个方面,还提供了一种用于确定超链接的锚文本可信度的分析设备,其中,该分析设备包括:
第一获取装置,用于获取与所述超链接相对应的锚文本;
第二获取装置,用于根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;
锚文本可信度确定装置,用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
根据本发明的再一个方面,还提供了一种搜索引擎,其中,该搜索引擎包括本发明的一个方面所述的用于确定超链接的锚文本可信度的分析设备。
与现有技术相比,本发明基于锚文本相关信息来加权确定超链接的锚文本可信度,使超链接的锚文本与超链接指向页面之间的内容相关性更加合理。此外,将本发明应用到搜索引擎领域,还可精确地检测作弊超链的虚假锚文本、过期超链的失效锚文本,调整基于所述锚文本可信度对包含所述虚假锚文本和失效锚文本的超链接指向页面的权威度和排名,进而提升搜索引擎搜索结果的排序质量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出依据本发明一个方面的用于确定超链接的锚文本可信度的分析设备的结构示意图;
图2示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的分析设备的结构示意图;
图3示出依据本发明另一方面的用于确定超链接的锚文本可信度的流程图;
图4示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出依据本发明一个方面的用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,所述分析设备1包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。参照图1,所述分析设备1包括第一获取装置11、第二获取装置12和锚文本可信度确定装置13。具体地,分析设备1的第一获取装置11获取与所述超链接相对应的锚文本;接着,第二获取装置12根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;最后,锚文本可信度确定装置13根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
第一获取装置11用于获取与所述超链接相对应的锚文本。具体地,第一获取装置11例如通过页面技术,如HTML、DHTML等页面技术,解析所述超链接的链接信息或者切分和提取所述超链接中的链接文字从而获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把它们链接在一起的纽带就是超链接,在所述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所在页面跳转到哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为<a href=″http://www.baidu.com″>百度</a>,那么超链接www.baidu.com的锚文本即为“百度”,当点击“百度”时就可以跳转显示百度的主页。又例如,某网页利用一句话“最好的中文搜索引擎是什么”做了一个相关链接,其具体代码为<a href=″http://www.baidu.com″>最好的中文搜索引擎是什么</a>,那么超链接www.baidu.com的锚文本即为“最好的中文搜索引擎是什么”,当点击网页中的“最好的中文搜索引擎是什么”后,当前网页就可以跳转显示百度的主页。本领域技术人员应能理解上述获取与所述超链接相对应的锚文本的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的锚文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
第二获取装置12用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,通过第一获取装置11得到与所述超链接相对应的锚文本后,第二获取装置12通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少任一项:
-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;
-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;
-所述锚文本与所述超链接指向页面的关联度。
以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例,例如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息包括所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主页的所有出链的锚文本中绝大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超链接的锚文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所述锚文本相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信度相对较高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。本领域技术人员应能理解上述获取与所述锚文本相对应的锚文本相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述锚文本相对应的锚文本相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
锚文本可信度确定装置13用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。具体地,通过第二获取装置12得到与所述锚文本相对应的锚文本相关信息后,锚文本可信度确定装置13根据所述锚文本相关信息,结合所述锚文本相关信息中每一项的权重,来加权确定所述超链接的锚文本可信度。接上例,当所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例以及所述锚文本与所述超链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例的第一权重、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的第三权重,来加权确定所述超链接的锚文本可信度。本领域技术人员应能理解上述确定所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的确定所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
此外,上述用于确定超链接的锚文本可信度的分析设备可以与现有的搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎可以是采用已知的如百度、Google、Yahoo等搜索引擎。
优选地,该新的搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。具体地,与现有搜索引擎相结合且用于确定超链接的锚文本可信度的搜索引擎,在为用户提供搜索结果时,还通过诸如特别字体、浮动窗口等方式,提供这些搜索结果相应的页面权威值。例如,与现有搜索引擎相结合,且用于确定超链接的锚文本可信度的搜索引擎,在根据用户的查询序列提供相应的搜索结果时,在这些搜索结果的页面说明中添加相应页面的页面权威值;进一步地,这些页面的页面权威值还可以通过特别字体或浮动窗口等方式显示,如在用户的鼠标停留在搜索结果的页面链接、或者页面说明时,以悬浮窗口显示该停留搜索结果相应的页面权威值。本领域技术人员应能理解上述页面权威值的提供方式仅为举例,其他现有的或今后可能出现的页面权威值的提供方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述分析设备1还包括第一调整装置(图1未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页面为所述页面黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选地,所述分析设备1还包括更新装置(图1未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。
优选地,所述分析设备1还包括第四获取装置(图1未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
优选地,所述分析设备1还包括第五获取装置(图1未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获取装置11还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1还包括排序装置(图1未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
优选地,所述分析设备1还包括分配装置(图1未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
优选地,所述分析设备1还包括第二调整装置(图1未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci
Ci=λ×Ci-1+(1-λ)×Cu
其中,Cu为第i时刻未经调整的锚文本可信度,Ci-1为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所确定的第i时刻的锚文本可信度Cu,第i-1时刻所述超链接的锚文本可信度Ci-1,并根据公式Ci=λ×Ci-1+(1-λ)×Cu进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度Cu为0.8,第i-1时刻所述超链接的锚文本可信度Ci-1为0.6,假设λ取0.25,则通过计算,所述超链接的锚文本可信度Ci为0.75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的分析设备的结构示意图。其中,所述分析设备1’包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。参照图2,所述分析设备1’包括第一获取装置11’、第二获取装置12’、第三获取装置14’、锚文本可信度确定装置13’。具体地,分析设备1’的第一获取装置11’获取与所述超链接相对应的锚文本;接着,第二获取装置12’根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息;与此同时,第三获取装置14’获取与所述超链接相对应的超链接相关信息;最后,锚文本可信度确定装置13’根据所述锚文本相关信息,结合所述超链接相关信息,加权确定所述超链接的锚文本可信度。也就是说,第二获取装置12’和第三获取装置14’可以并行地分别获取与所述锚文本相对应的锚文本相关信息以及与所述超链接相对应的超链接相关信息。为便于更好地描述本发明,第一获取装置11’、第二获取装置12’和锚文本可信度确定装置13’分别与图1所示的第一获取装置11、第二获取装置12和锚文本可信度确定装置13’对应,故此处不再赘述,仅通过引用的方式包含于图2所描述的优选实施例。
第三获取装置14’用于获取与所述超链接相对应的超链接相关信息,并且所述锚文本可信度确定装置13’还用于根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项:
-所述超链接的产生时间;
-所述超链接的位置;
-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;
-所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。
以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为10年,而超链接的产生时间为距离现在的时间间隔为10年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的主要内容的定语部分时,根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研”时,计算当前超链接在所有入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与第二获取装置12’获取的锚文本相关信息相结合,以通过锚文本可信度确定装置13’来确定超链接的锚文本可信度。类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例时,假定所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链接都是包含“electronic”、“computer”、“research”、“company”等字符的超链接,将所有出链进行统计分析,计算所述超链接在所述统计分析结果中所占比例,根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与第二获取装置12获取的锚文本相关信息相结合,例如,将与所述超链接相关信息对应的超链接比例数值结合与所述锚文本相关信息对应的锚文本比例数值,通过锚文本可信度确定装置13’来确定基于所述超链接相关信息和所述锚文本相关信息的超链接的锚文本可信度。本领域技术人员应能理解上述获取与所述超链接相对应的超链接相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的超链接相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在结合上述图2所描述的实施例的基础上,所述分析设备1’还包括第四获取装置(图2未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述锚文本可信度确定装置13’根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
优选地,所述分析设备1’还包括第五获取装置(图2未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述第一获取装置11’还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及所述分析设备1’还包括排序装置(图2未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
优选地,所述分析设备1’还包括分配装置(图2未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
优选地,所述分析设备1’还包括第二调整装置(图2未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci
Ci=λ×Ci-1+(1-λ)×Cu
其中,Cu为第i时刻未经调整的锚文本可信度,Ci-1为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,第二调整装置根据锚文本可信度确定装置13所确定的第i时刻的锚文本可信度Cu,第i-1时刻所述超链接的锚文本可信度Ci-1,并根据公式Ci=λ×Ci-1+(1-λ)×Cu进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设锚文本可信度确定装置13所确定的第i时刻的锚文本可信度Cu为0.8,第i-1时刻所述超链接的锚文本可信度Ci-1为0.6,假设λ取0.25,则通过计算,所述超链接的锚文本可信度Ci为0.75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图3示出依据本发明另一方面的用于确定超链接的锚文本可信度的流程图。其中,用于确定所述超链接的锚文本可信度的分析设备包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,所述分析设备用于获取与所述超链接相对应的锚文本。具体地,所述分析设备例如通过页面技术,如HTML、DHTML等页面技术,解析所述超链接的链接信息或者切分和提取所述超链接中的链接文字来获取与所述超链接相对应的锚文本。在浩瀚的互联网海洋中,所有的网站都是可以互通的,而把他们链接在一起的纽带就是超链接,在所述超链接中的锚文本既可以包括一个关键词,也可以包括一句话,此时锚文本在所述超链接所在页面的作用是告知浏览者在点击该锚文本后会从当前所在页面跳转到哪里。例如,某大学的官方网站做了一个百度主页的友情链接,其具体代码为<a href=″http://www.baidu.com″>百度</a>,那么超链接www.baidu.com的锚文本即为“百度”,当点击“百度”时就可以跳转显示百度的主页。又例如,某网页利用一句话“最好的中文搜索引擎是什么”做了一个相关链接,其具体代码为<a href=″http://www.baidu.com″>最好的中文搜索引擎是什么</a>,那么超链接www.baidu.com的锚文本即为“最好的中文搜索引擎是什么”,当点击网页中的“最好的中文搜索引擎是什么”后,当前网页可以跳转显示百度的主页。本领域技术人员应能理解上述获取与所述超链接相对应的锚文本的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的锚文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S2中,所述分析设备用于根据所述锚文本,获取与所述锚文本相对应的锚文本相关信息。具体地,所述分析设备通过步骤S1得到与所述超链接相对应的锚文本后,还通过诸如计算所述锚文本与所述超链接指向页面之间的关联度来获取与所述锚文本相对应的锚文本相关信息。优选地,所述锚文本相关信息包括以下至少任一项:
-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;
-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;
-所述锚文本与所述超链接指向页面的关联度。
以所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例来举例说明,假定所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链的锚文本中绝大多数锚文本都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接文字,而当前待确定超链接的锚文本可信度的锚文本为“科研”时,计算当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例,例如,当前超链接的锚文本在所有入链的锚文本统计分析结果中所占比例非常低,那么所述超链接的锚文本可信度也相对较低。类似地,当所述锚文本相关信息包括所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例时,假定所述超链接所在页面为某大学的官方网站主页,在该大学官方网站主页的所有出链的锚文本中绝大多数锚文本都是类似于“高校”、“大学”、“就业率”、“招生说明”等链接文字,将所有出链的锚文本进行统计分析,计算所述超链接的锚文本在所述统计分析结果中所占比例。例如,若所述超链接的锚文本为婴儿用品,则该锚文本在所有出链的锚文本的统计分析结果中所占比例较低。再以所述锚文本相关信息包括所述锚文本与所述超链接指向页面的关联度为例,当所述锚文本与所述超链接指向页面的标题之间的关联度较高时,所述超链接的锚文本可信度相对较高;当所述锚文本与所述超链接指向页面的标题之间的关联度较低时,所述超链接的锚文本可信度相对较低。本领域技术人员应能理解上述获取与所述锚文本相对应的锚文本相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述锚文本相对应的锚文本相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S3中,所述分析设备用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。接上例,当所述锚文本相关信息包括所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例以及所述锚文本与所述超链接指向页面的关联度时,可以结合所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例的第一权重、所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例的第二权重以及所述锚文本与所述超链接指向页面的关联度的第三权重,来加权确定所述超链接的锚文本可信度。本领域技术人员应能理解上述确定所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的确定所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,该方法还包括步骤S5(图3未示出),用于根据所述超链接指向页面,例如通过分析所述页面的网址或页面内容,当确定所述超链接指向页面为所述页面黑名单中的页面,或所述超链接指向页面的页面内容与页面黑名单中的页面的页面内容一致或近似一致时,调整所述超链接的锚文本可信度。更优选地,所述方法还包括更新步骤(图3未示出),用于获取作弊页面或不良页面,根据所述作弊页面或不良页面来建立或更新所述页面黑名单。
优选地,该方法还包括步骤S6(图3未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述步骤S3根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
优选地,该方法还包括步骤S7(图3未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述步骤S1根据所述超链接,获取与所述超链接相对应的锚文本,以及所述方法还包括排序步骤(图3未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
优选地,该方法还包括分配步骤(图3未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
优选地,该方法还包括步骤S8(图3未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci
Ci=λ×Ci-1+(1-λ)×Cu
其中,Cu为第i时刻未经调整的锚文本可信度,Ci-1为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,所述步骤S8根据所述步骤S3所确定的第i时刻的锚文本可信度Cu,第i-1时刻所述超链接的锚文本可信度Ci-1,并根据公式Ci=λ×Ci-1+(1-λ)×Cu进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设所述步骤S3所确定的第i时刻的锚文本可信度Cu为0.8,第i-1时刻所述超链接的锚文本可信度Ci-1为0.6,假设λ取0.25,则通过计算,所述超链接的锚文本可信度Ci为0.75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图4示出依据本发明一优选实施例的用于确定超链接的锚文本可信度的流程图。其中,用于确定所述超链接的锚文本可信度的分析设备包括但不限于,单个网络服务器、多个网络服务器集、基于云计算的计算机集合等,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。为便于更好地描述本发明,步骤S1’-S3’分别与图3所示的步骤S1-S3对应,故此处不再赘述,仅通过引用的方式包含于图3所描述的优选实施例。
步骤S4’与上述步骤S2’可由分析设备并行地加以执行。在步骤S4’,该方法用于获取与所述超链接相对应的超链接相关信息,并且所述步骤S3’还用于根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。优选地,所述超链接相关信息包括以下至少任一项:
-所述超链接的产生时间;
-所述超链接的位置;
-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;
-所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。
以所述超链接相关信息包括所述超链接的产生时间为例,当所述超链接与所述超链接指向页面之间的链接期限为10年,而超链接的产生时间为距离现在的时间间隔为10年以上时,根据超链接的产生时间可以确定所述超链接为过期超链接。类似地,当所述超链接位于反映所述超链接指向页面的主要内容的定语部分时,根据超链接的位置可以确定所述超链接与所述超链接指向页面的关联度。再例如,所述超链接指向的页面为专门经营婴儿用品的网站主页,在该网站主页的所有入链中绝大多数超链接都是类似于“奶粉”、“奶瓶”、“婴儿用品”等链接信息,而当前待确定超链接的锚文本可信度的超链接为“科研”时,计算当前超链接在所有入链统计分析结果中所占比例,例如,当前超链接在所有入链统计分析结果中所占比例非常低,然后与通过上述步骤S2’获取的锚文本相关信息相结合,以通过上述步骤S3’来确定超链接的锚文本可信度。类似地,当所述超链接相关信息包括所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例时,假定所述超链接所在的页面为应届大学毕业生的就业信息公共平台主页,在该就业信息公共平台主页的所有出链中绝大多数超链接都是包含“electronic”、“computer”、“research”、“company”等字符的超链接,将所有出链进行统计分析,计算所述超链接在所述统计分析结果中所占比例,根据比例数值来获取所述超链接相关信息。例如,若所述超链接指向的页面旨在提供婴儿用品相关服务,则该超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例较低,相应地,将所述超链接相关信息与锚文本相关信息相结合,例如,将与所述超链接相关信息对应的超链接比例数值结合与所述锚文本相关信息对应的锚文本比例数值,通过上述步骤S3’来确定基于所述超链接相关信息和所述锚文本相关信息的超链接的锚文本可信度。本领域技术人员应能理解上述获取与所述超链接相对应的超链接相关信息的方式仅为举例,其他现有的或今后可能出现的获取与所述超链接相对应的超链接相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S6’(图4未示出),用于获取所述超链接指向页面更新前与更新后的相关度,并且所述步骤S3’还用于根据所述锚文本相关信息结合所述相关度,确定所述超链接的锚文本可信度。具体地,当所述超链接指向页面进行了改版操作或者调整了页面内容后,可以计算改版前后或内容调整前后所述超链接指向页面自身的相关度,并根据所述锚文本相关信息与所述相关度的结合,确定所述超链接的锚文本可信度。例如,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较高相关度,来增加所述超链接的锚文本可信度。或者,在将所述锚文本相关信息与所述相关度相结合时,通过所述超链接指向页面更新前与更新后的较低相关度,来降低所述超链接的锚文本可信度。
优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S7’(图4未示出),用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接,并且所述步骤S1’还用于根据所述超链接,获取与所述超链接相对应的锚文本,以及该方法还包括排序步骤(图4未示出),用于根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。具体地,首先获取所述超链接的锚文本与所述查询序列的内容相关度,再根据所述锚文本可信度来调整所述查询序列与所述超链接指向页面之间的相关度,最后使用基于所述锚文本可信度修正后的相关度结合所述超链接指向页面的标题和/或正文等其他内容信息得出综合的相关性权值,并根据所述相关性权值对与所述超链接相对应的搜索结果进行排序。在一优选实施例中,搜索引擎在计算所述查询序列与所述超链接指向页面的基础相关性权值时,首先利用本发明的锚文本可信度来调整所述超链接的锚文本与所述查询序列的内容相关度,并结合所述超链接指向页面的标题和正文的内容信息得出综合的相关性权值。由此可知,将本发明中用于确定超链接的锚文本可信度的分析设备应用到搜索引擎领域,可以精确地检测诸如作弊超链的虚假锚文本、过期超链的失效锚文本,从而调整基于所述虚假锚文本和失效锚文本的页面权威度和排名,进而提升搜索引擎搜索结果的排序质量。
优选地,在结合上述图4所描述的实施例的基础上,该方法还包括分配步骤(图4未示出),用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。具体地,所述超链接所在页面包括一个或多个锚文本,而这些锚文本分别对应于所述超链接所在页面的出链,根据本发明的超链接的锚文本可信度,可以将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
优选地,在结合上述图4所描述的实施例的基础上,该方法还包括步骤S8’(图4未示出),用于根据下述关系式,调整所述超链接的锚文本可信度Ci
Ci=λ×Ci-1+(1-λ)×Cu
其中,Cu为第i时刻未经调整的锚文本可信度,Ci-1为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。具体地,由于所述超链接指向页面的内容在短时间内可能会有不可预期的变化,例如所述超链接指向页面突然改版或进行常规维护而无法访问,为修正所述不可预期的变化,以减少锚文本可信度的波动,从而提高搜索结果排序的计算效率与稳定性。例如,所述步骤S8’根据所述步骤S3’所确定的第i时刻的锚文本可信度Cu,第i-1时刻所述超链接的锚文本可信度Ci-1,并根据公式Ci=λ×Ci-1+(1-λ)×Cu进行调整,以获得所述超链接的锚文本可信度Ci,其中,λ为0至1之间的修正因子。例如,假设所述步骤S3’所确定的第i时刻的锚文本可信度Cu为0.8,第i-1时刻所述超链接的锚文本可信度Ci-1为0.6,假设λ取0.25,则通过计算,所述超链接的锚文本可信度Ci为0.75。上述数值仅为优选地描述本发明的方案,本领域技术人员应能根据实际情况和需求确定上述数值。本领域技术人员还应能理解上述调整所述超链接的锚文本可信度的方式仅为举例,其他现有的或今后可能出现的调整所述超链接的锚文本可信度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种计算机实现的用于确定超链接的锚文本可信度的方法,其中,该方法包括以下步骤:
a获取与所述超链接相对应的锚文本;
b根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;
c根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
2.根据权利要求1所述的方法,其中,所述锚文本相关信息包括以下至少任一项:
-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;
-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;
-所述锚文本与所述超链接指向页面的关联度。
3.根据权利要求1或2所述的方法,其中,该方法还包括:
-根据所述超链接指向页面,并结合页面黑名单,调整所述超链接的锚文本可信度。
4.根据权利要求3所述的方法,其中,所述方法还包括:
-获取作弊页面或不良页面;
-根据所述作弊页面或不良页面,建立或更新所述页面黑名单。
5.根据权利要求1至4中任一项所述的方法,其中,所述方法还包括步骤:
-获取与所述超链接相对应的超链接相关信息;
其中,所述步骤c还包括:
-根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。
6.根据权利要求5所述的方法,其中,所述超链接相关信息包括以下至少任一项:
-所述超链接的产生时间;
-所述超链接的位置;
-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;
-所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。
7.根据权利要求1至4中任一项所述的方法,其中,所述方法还包括步骤:
-获取所述超链接指向页面更新前与更新后的相关度;
其中,所述步骤c还包括:
-根据所述锚文本相关信息,结合所述相关度,确定所述超链接的锚文本可信度。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括:
-根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接;
其中,所述步骤a还包括:
-根据所述超链接,获取与所述超链接相对应的锚文本;
其中,所述方法还包括步骤:
-根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。
9.根据权利要求1至8中任一项所述的方法,其中,所述方法还包括:
-根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
10.根据权利要求1至9中任一项所述的方法,其中,所述方法还包括:
-根据下述关系式,调整所述超链接的锚文本可信度Ci
Ci=λ×Ci-1+(1-λ)×Cu
其中,Cu为第i时刻未经调整的锚文本可信度,Ci-1为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。
11.一种用于确定超链接的锚文本可信度的分析设备,其中,该分析设备包括:
第一获取装置,用于获取与所述超链接相对应的锚文本;
第二获取装置,用于根据所述锚文本,获取与所述锚文本对应的锚文本相关信息;
锚文本可信度确定装置,用于根据所述锚文本相关信息,加权确定所述超链接的锚文本可信度。
12.根据权利要求11所述的分析设备,其中,所述锚文本相关信息包括以下至少任一项:
-所述锚文本在所述超链接指向页面的所有入链的锚文本的统计分析结果中所占比例;
-所述锚文本在所述超链接所在页面的所有出链的锚文本的统计分析结果中所占比例;
-所述锚文本与所述超链接指向页面的关联度。
13.根据权利要求11或12所述的分析设备,其中,所述分析设备还包括:
第一调整装置,用于根据所述超链接指向页面,并结合页面黑名单,调整所述超链接的锚文本可信度。
14.根据权利要求13所述的分析设备,其中,该分析设备还包括更新装置,用于:
-获取作弊页面或不良页面;
-根据所述作弊页面或不良页面,建立或更新所述页面黑名单。
15.根据权利要求11至14中任一项所述的分析设备,其中,所述分析设备还包括:
第三获取装置,用于获取与所述超链接相对应的超链接相关信息;
其中,所述锚文本可信度确定装置还用于:
-根据所述锚文本相关信息,结合所述超链接相关信息,确定所述超链接的锚文本可信度。
16.根据权利要求15所述的分析设备,其中,所述超链接相关信息包括以下至少任一项:
-所述超链接的产生时间;
-所述超链接的位置;
-所述超链接在所述超链接指向页面的所有入链的统计分析结果中所占比例;
-所述超链接在所述超链接所在页面的所有出链的统计分析结果中所占比例。
17.根据权利要求11至14中任一项所述的分析设备,其中,所述分析设备还包括:
第四获取装置,用于获取所述超链接指向页面更新前与更新后的相关度;
其中,所述锚文本可信度确定装置还用于:
-根据所述锚文本相关信息,结合所述相关度,确定所述超链接的锚文本可信度。
18.根据权利要求11至17中任一项所述的分析设备,其中,所述分析设备还包括:
第五获取装置,用于根据用户通过用户设备输入的查询序列,获取与所述查询序列相对应的超链接;
其中,所述第一获取装置还用于:
-根据所述超链接,获取与所述超链接相对应的锚文本;
其中,所述分析设备还包括排序装置,用于:
-根据所述超链接的锚文本与所述查询序列的内容相关度,并结合所述锚文本可信度,对与所述超链接对应的搜索结果进行排序。
19.根据权利要求11至18中任一项所述的分析设备,其中,所述分析设备还包括:
分配装置,用于根据所述锚文本可信度,将所述超链接所在页面的权威值分配给所述超链接所在页面的出链。
20.根据权利要求11至19中任一项所述的分析设备,其中,所述分析设备还包括:
第二调整装置,用于根据下述关系式,调整所述超链接的锚文本可信度Ci
Ci=λ×Ci-1+(1-λ)×Cu
其中,Cu为第i时刻未经调整的锚文本可信度,Ci-1为第i-1时刻所述超链接的锚文本可信度,λ为0至1之间的修正因子。
21.一种搜索引擎,其中,该搜索引擎包括如权利要求11至20中任一项所述的用于确定超链接的锚文本可信度的分析设备。
22.根据权利要求21所述的搜索引擎,其中,该搜索引擎在提供搜索结果时,还提供与所述搜索结果相对应的权威值。
CN2010106200554A 2010-12-31 2010-12-31 一种用于确定超链接的锚文本可信度的分析设备和方法 Pending CN102567417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106200554A CN102567417A (zh) 2010-12-31 2010-12-31 一种用于确定超链接的锚文本可信度的分析设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106200554A CN102567417A (zh) 2010-12-31 2010-12-31 一种用于确定超链接的锚文本可信度的分析设备和方法

Publications (1)

Publication Number Publication Date
CN102567417A true CN102567417A (zh) 2012-07-11

Family

ID=46412847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106200554A Pending CN102567417A (zh) 2010-12-31 2010-12-31 一种用于确定超链接的锚文本可信度的分析设备和方法

Country Status (1)

Country Link
CN (1) CN102567417A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856442A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和系统
CN104462257A (zh) * 2014-11-21 2015-03-25 百度在线网络技术(北京)有限公司 一种校验中间页信息的方法和装置
CN106484696A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种改进搜索引擎质量的方法
CN111680252A (zh) * 2020-06-05 2020-09-18 腾讯科技(深圳)有限公司 外链识别方法、装置、设备及计算机可读存储介质
CN112883294A (zh) * 2019-11-29 2021-06-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质
WO2021226710A1 (en) * 2020-05-12 2021-11-18 Applied Publishing Concepts Inc. System and method for associating online content with offline content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755678A (zh) * 2004-09-30 2006-04-05 微软公司 在排序搜索结果时引入锚文本用的系统和方法
US7260573B1 (en) * 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260573B1 (en) * 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
CN1755678A (zh) * 2004-09-30 2006-04-05 微软公司 在排序搜索结果时引入锚文本用的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
钟敏娟 等: "基于超链接和标记文本的信息检索算法", 《小型微型计算机系统》 *
陆一鸣 等: "一种基于源网页质量的锚文本相似度计算方法-LAAT", 《情报学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856442A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和系统
CN103856442B (zh) * 2012-11-30 2016-08-17 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和系统
CN104462257A (zh) * 2014-11-21 2015-03-25 百度在线网络技术(北京)有限公司 一种校验中间页信息的方法和装置
CN104462257B (zh) * 2014-11-21 2018-03-30 百度在线网络技术(北京)有限公司 一种校验中间页信息的方法和装置
CN106484696A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种改进搜索引擎质量的方法
CN106484696B (zh) * 2015-08-25 2019-05-28 北京中搜云商网络技术有限公司 一种改进搜索引擎质量的方法
CN112883294A (zh) * 2019-11-29 2021-06-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和介质
WO2021226710A1 (en) * 2020-05-12 2021-11-18 Applied Publishing Concepts Inc. System and method for associating online content with offline content
CN111680252A (zh) * 2020-06-05 2020-09-18 腾讯科技(深圳)有限公司 外链识别方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US8667037B1 (en) Identification and ranking of news stories of interest
KR101667344B1 (ko) 검색 결과들을 제공하는 방법 및 시스템
CN106415537B (zh) 将本地应用搜索结果插入到web搜索结果中
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
US9940367B1 (en) Scoring candidate answer passages
CN103377204B (zh) 一种地图搜索结果的展现方法和装置
EP2482208A2 (en) Generic online ranking system and method suitable for syndication
CN102567417A (zh) 一种用于确定超链接的锚文本可信度的分析设备和方法
US20140189480A1 (en) Dynamic aggregation and display of contextually relevant content
US20140280234A1 (en) Ranking of native application content
US10180964B1 (en) Candidate answer passages
KR20160061351A (ko) 웹 페이지에 대한 컨텐츠 아이템에 대한 사이즈 자동 결정
EP2941724A1 (en) Method and apparatus for generating webpage content
CN102541946B (zh) 基于超链接的推荐属性确定超链推荐度的方法与设备
CN103678325A (zh) 一种用于提供与初始页面相对应的浏览页面的方法和设备
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN104252348A (zh) 一种基于浏览器的网页访问统计方法及装置
CN103870452A (zh) 数据推荐方法及系统
CN102541947A (zh) 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN102866945A (zh) 用于提供用户所对应的第一应用测试信息的方法和设备
CN104182247A (zh) 一种用于配置浏览器的导航页的方法与装置
CN103631795A (zh) 一种在网络设备中对网页进行转换的方法、装置和设备
CN103020087A (zh) 点击日志的生成方法及装置,搜索结果调整方法及装置
US8607140B1 (en) Classifying changes to resources
KR101145027B1 (ko) 하이퍼링크를 위한 소셜링크 서비스 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120711