CN102033914A - 基于权威度确定链接资源的可靠描述信息的方法与设备 - Google Patents

基于权威度确定链接资源的可靠描述信息的方法与设备 Download PDF

Info

Publication number
CN102033914A
CN102033914A CN201010571640XA CN201010571640A CN102033914A CN 102033914 A CN102033914 A CN 102033914A CN 201010571640X A CN201010571640X A CN 201010571640XA CN 201010571640 A CN201010571640 A CN 201010571640A CN 102033914 A CN102033914 A CN 102033914A
Authority
CN
China
Prior art keywords
descriptor
webpage
authority
technorati authority
link resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010571640XA
Other languages
English (en)
Inventor
姚远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010571640XA priority Critical patent/CN102033914A/zh
Publication of CN102033914A publication Critical patent/CN102033914A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明的目的是提供一种用于基于权威度确定链接资源的可靠描述信息的方法与描述设备。其中,描述设备获取对应于同一个链接资源的多个描述信息,并获取所述多个描述信息中至少一个的权威度,再根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。与现有技术相比,本发明通过确定对应于同一个链接资源的多个描述信息的权威度,从而过滤与该链接资源不匹配的描述信息,使得用户最终获得相对可靠的描述信息,同时提升了用户的使用体验。

Description

基于权威度确定链接资源的可靠描述信息的方法与设备
技术领域
本发明涉及网络资源搜索领域,尤其涉及一种用于基于权威度确定链接资源的可靠描述信息的技术。
背景技术
随着互联网的发展,网络中的资源急剧增长,同时增长的还有与这些资源相对应的描述信息。
在互联网中,往往针对一个相同的链接资源,有多个描述信息。在这些描述信息中,有些是与该链接资源相关的,有些却是完全无关的。如果在抓取这些描述信息时,不对这些描述信息做预先判断,在搜索引擎向用户提供这些描述信息后,用户可能会点击那些完全无关的描述信息,从而无法获取那些用户希望获取的描述信息。
因此,如何有效确定链接资源的可靠描述信息,成为目前急需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于权威度确定链接资源的可靠描述信息的方法与描述设备。
根据本发明的一个方面,提供了一种用于基于权威度确定链接资源的可靠描述信息的方法,该方法包括以下步骤:
a获取对应于同一个链接资源的多个描述信息;
b获取所述多个描述信息中至少一个的权威度;
c根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。
根据本发明的另一个方面,还提供了一种用于基于权威度确定链接资源的可靠描述信息的描述设备,该描述设备包括:
第一获取装置,用于获取对应于同一个链接资源的多个描述信息;
第二获取装置,用于获取所述多个描述信息中至少一个的权威度;
处理装置,用于根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。
与现有技术相比,本发明通过确定对应于同一个链接资源的多个描述信息的权威度,从而过滤与该链接资源不匹配的描述信息,使得用户最终获得相对可靠的描述信息,同时提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于权威度确定链接资源的可靠描述信息的描述设备的设备示意图;
图2示出根据本发明另一个方面的用于基于权威度确定链接资源的可靠描述信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出用于基于权威度确定链接资源的可靠描述信息的描述设备。其中,描述设备1包括第一获取装置11、第二获取装置12和处理装置13。具体地,第一获取装置11获取对应于同一个链接资源的多个描述信息;随后,第二获取装置12获取所述描述信息的权威度;接着,处理装置13根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。
更具体地,第一获取装置11获取对应于同一个链接资源的多个描述信息。具体地,第一获取装置11获取与同一个链接资源相对应的多个描述信息,如通过各种网页抓取工具抓取包含描述信息的网页,并通过匹配查询识别出对应同一个链接资源的多个描述信息。在此,第一获取装置11获取对应于同一个链接资源的多个描述信息的方式包括但不限于:通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具抓取对应同一个链接资源的多个描述信息的网页;在索引信息库中通过匹配查询获取对应同一个链接资源的多个描述信息;直接从第三方设备获取对应同一个链接资源的多个描述信息。本领域技术人员应能理解上述第一获取装置获取对应于同一个链接资源的多个描述信息的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的第一获取装置获取对应于同一个链接资源的多个描述信息的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,第二获取装置12获取所述描述信息的权威度。具体地,第二获取装置12根据第一获取装置11获取的对应同一个链接资源的多个描述信息,通过诸如描述信息的来源、描述信息中的描述关键词的相关属性或者描述信息的网页相关特征等参数,获取这些描述信息的权威度。例如,假设描述信息的权威度赋值表示例如表1所示,表2示出与链接资源http://www.xxxx.com/xxxx/冰雨.mp3相对应的多个描述信息,以及根据表1计算获得各描述信息的权威度。
表1:描述信息的权威度赋值表示例
  来源   音乐文件本身的标签  链接资源的URL   网页
  权威度   100  90   30
  网页   网页A  网页B   网页C
  权威度   10  20   30
表2:描述信息示例
Figure BSA00000372021500031
Figure BSA00000372021500041
本领域技术人员应能理解上述第二获取装置获取描述信息的权威度的参数仅为举例,其他现有的或今后可能出现的第二获取装置获取描述信息的权威度的参数如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,处理装置13根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。具体地,处理装置13根据第二获取装置12获取的多个描述信息的权威度,对这些描述信息进行处理,如选择权威度最高的描述信息,以获得一个或多个目标描述信息。例如,第二获取装置12获取对应于同一个链接资源的4个描述信息的权威度分别为90、90、80和70,处理装置13选择权威度最高的描述信息,则获得权威度为90的两个描述信息作为目标描述信息;处理装置13选择权威度超过80的描述信息,则获得权威度为90的两个描述信息和权威度为80的描述信息作为目标描述信息。
优选地,第一获取装置11、第二获取装置12和处理装置13是持续不断工作的。具体地,第一获取装置11获取对应于同一个链接资源的多个描述信息;随后,第二获取装置12获取所述描述信息的权威度;接着,处理装置13根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。在此,本领域技术人员应理解“持续”是指第一获取装置11、第二获取装置12和处理装置13分别按照设定的或实时调整的工作模式要求进行描述信息的获取、描述信息权威度的获取及目标描述信息的获得,直至描述设备1在较长时间内停止获取对应于同一个链接的多个描述信息。
优选地,处理装置13中的处理操作包括但不限于,以下至少任一项:1)选择所述权威度最高的一个或多个描述信息;2)选择所述权威度超过预定阈值的一个或多个描述信息。在第二获取装置12获取一个或多个对应于同一个链接资源的描述信息的权威度之后,处理装置13根据这(些)描述信息的权威度,对这(些)描述信息进行处理,从而获得一个或多个目标描述信息。在此,处理操作包括但不限于选择权威度最高的一个或多个描述信息;或者根据预定阈值,选择权威度超过预定阈值的一个或多个描述信息,如直接设定预定阈值,按照该预定阈值对描述信息进行处理,或者希望选择权威度在前20%的多个描述信息,据此计算出对应的阈值,将该阈值设定为预设阈值,再由处理装置13按照该预定阈值对描述信息进行处理。本领域技术人员应能理解上述处理操作仅为举例,其他现有的或今后可能出现的处理操作如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),描述设备1还包括生成装置(未示出),该生成装置从所述一个或多个目标描述信息中提取目标关键词,根据所述目标关键词,生成最终描述信息。具体地,生成装置从处理装置13获得的一个或多个目标描述信息中提取目标关键词,如累加目标描述信息中描述关键词的频次或计算目标描述信息中描述关键词的权威属性,将累加频次最多或权威属性最高的描述关键词作为目标关键词,并根据目标关键词生成最终描述信息。例如,假设与链接资源http://www.xxxx.com/xxxx/冰雨.mp3相对应的3个目标描述信息如表3所示:
表3:目标描述信息示例
Figure BSA00000372021500051
Figure BSA00000372021500061
按照歌曲名和歌手名从这3个目标描述信息中提取描述关键词,分别为“冰雨,刘德华”、“冰雨”和“冰雨、十年,刘德华”;累加“冰雨”在这3个目标描述信息中出现的频次得到“冰雨”的累加频次为3次,累加“十年”在这3个目标描述信息中出现的频次得到“十年”的累加频次为1次;而歌手名中只有“刘德华”,据此得出“冰雨”和“刘德华”均为目标关键词,并生成对应于链接资源http://www.xxxx.com/xxxx/冰雨.mp3的最终描述信息“冰雨 刘德华”。又如,根据表3,按照歌曲名和歌手名从这3个目标描述信息中提取描述关键词,得到歌曲名“冰雨”和“十年”,歌手名“刘德华”;对两个歌曲名分别计算权威度,描述关键词的权威度赋值表示例如表4所示:
表4:描述关键词的权威属性赋值表示例
  音乐文件本身的标签  链接资源的URL   网页   网页A
  权威度   100  90   30   10
根据表4,“冰雨”的权威属性=100+90+30+10=230;“十年”的权威属性=10,得出“冰雨”为目标关键词;而歌手名中只有“刘德华”,据此得出“冰雨”和“刘德华”均为目标关键词,并生成对应于链接资源http://www.xxxx.com/xxxx/冰雨.mp3的最终描述信息“冰雨 刘德华”。本领域技术人员应能理解上述提取目标关键词的方式仅为举例,其他现有的或今后可能出现的提取目标关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,第二获取装置12还根据所述描述信息的来源,确定所述描述信息的权威度。具体地,第二获取装置12根据第一获取装置11获取的对应于同一个链接资源的多个描述信息的来源,确定这些描述信息的权威度。例如,第二获取装置12根据描述信息的来源,确定该描述信息的权威度,如第二获取装置12通过分析用户对不同来源的描述信息的浏览历史记录,确定不同来源的描述信息的权威度;或者通过采样分析不同来源的描述信息的准确度,确定不同来源的描述信息的权威度:来源于资源本身的标签的描述信息的准确度最高,从而其权威度也最高;来源于链接资源的URL的描述信息的权威度次之,从而其权威度也次之;来源于网页的描述信息的权威度最低,从而其权威度也最低。本领域技术人员应能理解上述确定描述信息权威度的方式仅为举例,其他现有的或今后可能出现的确定描述信息权威度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,描述信息的来源包括但不限于:资源本身的标签,链接资源的URL或者网页;本领域技术人员应能理解上述描述信息的来源仅为举例,其他现有的或今后可能出现的描述信息的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图1),描述设备1还包括提取装置(未示出),该提取装置根据预置词表,从所述描述信息中提取描述关键词,并根据所述描述关键词,获取所述描述信息的所述描述关键词的相关属性;其中,所述相关属性包括但不限于,以下至少任一项:1)所述描述信息的所述描述关键词对应的用户需求量,2)所述描述信息的所述描述关键词对应的资源数量;随后,第二获取装置12根据所述相关属性,确定所述描述信息的权威度。具体地,提取装置根据预置词表,从第一获取装置11获取的对应于同一个链接资源的多个描述信息中提取描述关键词,如歌曲名、歌手名等,并根据这(些)描述关键词获取对应于每个描述信息的描述关键词的相关属性;随后,第二获取装置1 2根据每个描述信息的描述关键词的相关属性,确定每个描述信息的权威度。
在此,该相关属性包括但不限于,以下至少任一项:
1)每个描述信息的描述关键词对应的用户需求量;
2)每个描述信息的描述关键词对应的资源数量。
其中,1)每个描述信息的描述关键词对应的用户需求量,即基于描述关键词(如歌手名或歌曲名)搜索到该描述信息的用户搜索次数,例如,假设描述信息为“刘德华 冰雨”,从中提取歌曲名“冰雨”,用户基于“冰雨”搜索到该描述信息“刘德华 冰雨”的次数,即为该描述信息(“刘德华 冰雨”)的描述关键词(“冰雨”)对应的用户需求量;2)每个描述信息的描述关键词对应的资源数量,即从该描述信息中提取的描述关键词(如歌曲名、歌手名)对应的资源(如音乐文件)在互联网中存在的个数,例如,从描述信息“刘德华冰雨”中提取歌曲名“冰雨”,基于“冰雨”在网络中搜索到的对应的歌曲的个数。本领域技术人员应能理解上述描述信息的描述关键词的相关属性仅为举例,其他现有的或今后可能出现的描述信息的描述关键词的相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,第二获取装置12根据提取装置获取的每个描述信息的描述关键词的相关属性,如用户需求量、资源数量或者两者的结合,确定该描述信息的权威度。描述关键词相关属性-描述信息权威度赋值表示例如表5所示:
表5:描述关键词相关属性-描述信息权威度赋值表示例
  用户需求量   权威度   资源数量   权威度
  <1000   20   <200   30
  1000-10000   40   200-500   60
  10000-25000   70   500-800   80
  >25000   100   >800   100
以描述信息“刘德华 冰雨”为例,从中提取歌曲名“冰雨”,根据搜索引擎的每日访问日志,获取对应于“冰雨”的该描述信息的用户需求量为2500,对应于“冰雨”的资源数量为750,查询表5可得出该描述信息的权威度=40+80=120。
需要说明的是,本领域技术人员应能理解的是,描述信息的权威度不仅能够单独根据描述信息的来源或者描述信息中描述关键词的相关属性来确定,还能根据两者的结合来确定。以描述信息“刘德华 冰雨”为例,其来源于网页http://www.kugoo.com/special/冰雨.mp3,该网页所属网站为Kugoo;假设其来源对应的描述信息的权威度1为50;从该描述信息中提取歌曲名“冰雨”,根据搜索引擎的每日访问日志,获得对应于“冰雨”的该描述信息的用户需求量为2500,对应于“冰雨”的资源数量为750,查询表5可得出该描述信息的权威度2=40+80=120;从而得到该描述信息的权威度=权威度1+权威度2=50+120=170。
优选地,描述设备1还包括更新装置(未示出),该更新装置根据所述多个描述信息,建立或者更新所述预置词表。具体地,更新装置根据第一获取装置11获取的对应于同一个链接资源的多个描述信息,在尚未建立预置词表的时候,如通过智能分析技术去除描述信息中的垃圾块,并对剩余内容提取结构化信息,再在网络相关词库中进行匹配查询的方式,或者通过分词技术,诸如最大正向匹配法、最大反向匹配法等对描述信息进行切分,并对切分获得的词在网络相关词库中进行匹配查询的方式,从这些描述信息中提取描述关键词,并根据这些描述关键词建立预置词表;或者根据从这些描述信息中提取的描述关键词,当预置词表中尚未包括这(些)描述关键词时,将这(些)描述关键词添加至预置词表,以更新该预置词表。例如,当预置词表还未建立时,通过分词技术对描述信息进行分词,并在网络相关词库中匹配查询描述信息的分词,从而完成从描述信息中提取描述关键词,再根据这些提取出来的描述关键词建立预置词表。又如,在建立预置词表后,通过分词技术对描述信息进行分词,并根据预置词表匹配查询描述信息的分词,从而完成从描述信息中提取描述关键词,优选地,还在网络中匹配查询描述信息的分词,当查询结果中包括预置词表中尚未添加的描述关键词时,将这(些)描述关键词添加至预置词表,以更新该预置词表。
在再一优选实施例中(参照图1),第二获取装置12还根据所述描述信息所在网页的网页相关特征,确定所述描述信息的权威度;其中,所述网页相关特征包括但不限于,以下至少任一项:1)所述描述信息所在网页的权威属性;2)所述描述信息所在网页所属网站的权威属性。具体地,第二获取装置12根据每个描述信息所在网页的网页相关特征,如该网页的权威属性、该网页所在网站的权威属性或者两者的结合等,确定该描述信息的权威度。基于描述信息所在网页的网页相关特征的描述信息权威度赋值表示例如表6所示:
表6:网页相关特征-描述信息权威度赋值表示例
Figure BSA00000372021500101
假设描述信息“刘德华 冰雨十年经典歌曲”所在网页的URL为http://www.kugoo.com/special/冰雨.mp3,该网页为音乐网页,其网页权威属性为70,对应的描述信息权威度为70,该网页所属的网站为Kugoo,其网站权威属性为80,对应的描述信息权威度为80,得出该描述信息的权威度=70+80=150。在此,描述信息所在网页的相关属性的获取方式包括但不限于:由第二获取装置12根据描述信息所在网页的资源量、资源的质量等,以及所属网站的链接数量、资源量等,对该网页、网站进行评价,获取相应的网页权威属性和网站权威属性;由第二获取装置12根据描述信息所在网页和所属网站在网页、网站权威属性库进行匹配查询,获取相应的网页权威属性和网站权威属性;由第二获取装置12通过调用描述设备1的其他装置所提供的应用程序接口(API)或其他约定的通信方式,从所述其他装置中获取描述信息所在网页和所属网站分别对应的网页权威属性和网站权威属性;由第二获取装置12直接从第三方设备获取描述信息所在网页的网页权威属性和其所属网站的网站权威属性。本领域技术人员应能理解上述描述信息所在网页的相关属性的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的相关属性的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述描述信息所在网页的权威属性基于以下至少任一项:
1)所述描述信息所在网页的资源量;
2)所述描述信息所在网页的资源的质量;
3)所述描述信息所在网页的流量。
具体地,所述描述信息所在网页的资源量,即每个描述信息所在网页的资源数量,通常该网页中的资源数量越大,该网页的权威属性也越高;所述描述信息所在网页的资源的质量,即每个描述信息所在网页中包括的资源的质量,通常该网页中资源的质量越高,该网页的权威属性也越高;所述描述信息所在网页的流量,即每个描述信息所在网页的访问量,通常该网页的访问量越高,该网页的权威属性也越高。网页权威属性参照表示例如表7所示:
表7:网页权威属性参照表示例
Figure BSA00000372021500111
假设描述信息“刘德华 冰雨”所在网页包括的资源有音乐、图片、FLASH和文字,该网页的资源量为4,对应的网页权威属性为50;这些资源的质量为70,对应的网页权威属性为80;该网页的流量为2000,对应的网页权威属性为50;假设描述信息的权威度与其所在网页的网页权威属性等值,则该描述信息的权威度=50+80+50=180。在此,描述信息所在网页的资源量的获取方式包括但不限于:通过扫描描述信息所在网页的内容获取该网页的资源量,通过网页抓取工具,诸如“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等获取描述信息所在网页的资源量,从第三方设备获取描述信息所在网页的资源量。本领域技术人员应能理解上述描述信息所在网页的资源量的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的资源量的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,描述信息所在网页的资源质量的获取方式包括但不限于:由第二获取装置12对描述信息所在网页的资源质量进行评价,获取相应的网页资源质量;由第二获取装置12根据描述信息所在网页在网页资源质量库进行匹配查询,获取相应的网页资源质量;由第二获取装置12通过调用描述设备1的其他装置所提供的应用程序接口(API)或其他约定的通信方式,从所述其他装置中获取描述信息所在网页的资源质量;由第二获取装置12直接从第三方设备获取描述信息所在网页的资源质量。本领域技术人员应能理解上述描述信息所在网页的资源质量的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的资源质量的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,描述信息所在网页的流量的获取方式包括但不限于:通过调用网页所属的服务器的应用程序接口(API)或者其他约定的通信方式,如HTTP、UDP、TCP/IP等,向描述信息所在网页所属的服务器发送该网页流量的询问请求,并接收该服务器基于该询问请求返回的网页流量;从第三方设备获取描述信息所在网页的流量的统计数据。本领域技术人员应能理解上述描述信息所在网页的流量的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的流量的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述描述信息所在网页所属网站的权威属性基于以下至少任一项:
1)所述描述信息所在网页所属网站的链接数量;
2)所述描述信息所在网页所属网站的资源量;
3)所述描述信息所在网页所属网站的资源的质量;
4)所述描述信息所在网页所属网站的流量;
5)所述描述信息所在网页所属网站的更新时间。
其中,所述描述信息所在网页所属网站的链接数量,即每个描述信息所在网页所属的网站中包括的链接的总数,通常该网站中的链接数量越大,该网站的权威属性也越高;所述描述信息所在网页所属网站的资源量,即每个描述信息所在网页所属网站中包括的资源数量,通常该网站中的资源数量越大,该网站的权威属性也越高;所述描述信息所在网页所属网站的资源的质量,即每个描述信息所在网页所属网站中包括的资源的质量,通常该网站中的资源质量越高,该网站的权威属性也越高;所述描述信息所在网页所属网站的流量,即每个描述信息所在网页所属网站的访问量,通常该网页中的访问量越高,该网站的权威属性也越高;所述描述信息所在网页所属网站的更新时间,即每个描述信息所在网页所属网站中信息的更新时间,通常该网站中信息的更新时间越短,该网站的权威属性也越高。网站权威属性参照表示例如表8所示:
表8:网站权威属性参照表示例
Figure BSA00000372021500131
假设描述信息“刘德华冰雨”所在网页所属网站的链接数量为30,对应的网站权威属性为20;该网站的资源量为500,对应的网站权威属性为60;这些资源的质量为70,对应的网站权威属性为80;该网站的流量为40000,对应的网站权威属性为50;该网站的更新时间为3天,对应的网站权威属性为60;假设描述信息的权威度与其所在网页所属网站的网站权威属性等值,则该描述信息的权威度=20+60+80+50+60=270。在此,描述信息所在网页所属网站的链接数量和资源量的获取方式与描述信息所在网页的资源量的获取方式相同,为简明起见,不再赘述,以引用方式包含于此;描述信息所在网页所属网站的资源的质量的获取方式与描述信息所在网页的资源的质量的获取方式相同,为简明起见,不再赘述,以引用方式包含于此;描述信息所在网页所属网站的流量和更新时间的获取方式与描述信息所在网页的流量的获取方式相同,为简明起见,不再赘述,以引用方式包含于此。
需要说明的是,本领域技术人员应能理解,描述信息的权威度不仅能够单独根据该描述信息所在网页的网页权威属性或者该描述信息所在网页所属网站的网站权威属性确定,还能够根据这两者的结合确定。参照表7和表8,以描述信息“刘德华 冰雨”为例,其所在网页的URL为http://www.kugoo.com/special/冰雨.mp3,该网页所属网站为Kugoo;查询表7,该网页的资源量为4,对应的网页权威属性为50;这些资源的质量为70,对应的网页权威属性为80;该网页的流量为2000,对应的网页权威属性为50;查询表8,网站的链接数量为30,对应的网站权威属性为20;该网站的资源量为500,对应的网站权威属性为60;这些资源的质量为70,对应的网站权威属性为80;该网站的流量为40000,对应的网站权威属性为50;该网站的更新时间为3天,对应的网站权威属性为60;假设描述信息的权威度与其所在网页的权威属性和该网页所属网站的网站权威属性的和等值,则该描述信息的权威度=50+80+50+20+60+80+50+60=450。
本领域技术人员还应理解的是,描述信息的权威度不仅能够单独根据描述信息的来源、描述信息中描述关键词的相关属性或者描述信息所在网页的网页相关特征来确定,还可以根据上述因素的两两结合甚至三者结合来确定。仍以描述信息“刘德华 冰雨”为例,其来源于网页http://www.kugoo.com/special/冰雨.mp3,该网页所属网站为Kugoo;假设其来源对应的描述信息的权威度1为50;从该描述信息中提取歌曲名“冰雨”,根据搜索引擎的每日访问日志,获得对应于“冰雨”的该描述信息的用户需求量为2500,对应于“冰雨”的资源数量为750,查询表5可得出该描述信息的权威度2=40+80=120;假设该描述信息的网页相关特征与上例相同,故该描述信息的权威度3为450;因此,该描述信息的权威度=权威度1+权威度2+权威度3=50+120+450=620。
本领域技术人员还应能理解的是,确定描述信息的权威度时,将各种相关因素的简单叠加仅为示例,任何可以适用于本发明的计算方法,例如赋予不同的因素不同的权重,从而加权计算得到描述信息的权威度等,均应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述链接资源包括但不限于,以下至少任一项:1)音乐文件链接资源;2)图片文件链接资源;3)文本文件链接资源;4)视频文件链接资源。第一获取装置11在获取对应于同一个链接资源的多个描述信息时,该链接资源包括任何一种对应有多个描述信息的链接资源,包括音乐文件链接资源、图片文件链接资源、文本文件链接资源以及视频文件链接资源。本领域技术人员应能理解上述链接资源仅为举例,其他现有的或今后可能出现的链接资源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2为根据本发明一个方面的方法流程图,示出用于基于权威度确定链接资源的可靠描述信息的过程。具体地,在步骤S1中,描述设备1获取对应于同一个链接资源的多个描述信息;随后,在步骤S2中,描述设备1获取所述描述信息的权威度;接着,在步骤S3中,描述设备1根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。
更具体地,在步骤S1中,描述设备1获取对应于同一个链接资源的多个描述信息。具体地,在步骤S1中,描述设备1获取与同一个链接资源相对应的多个描述信息,如通过各种网页抓取工具抓取包含描述信息的网页,并通过匹配查询识别出对应同一个链接资源的多个描述信息。在此,描述设备1获取对应于同一个链接资源的多个描述信息的方式包括但不限于:通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具抓取对应同一个链接资源的多个描述信息的网页;在索引信息库中通过匹配查询获取对应同一个链接资源的多个描述信息;直接从第三方设备获取对应同一个链接资源的多个描述信息。本领域技术人员应能理解上述描述设备1获取对应于同一个链接资源的多个描述信息的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的描述设备获取对应于同一个链接资源的多个描述信息的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S2中,描述设备1获取所述描述信息的权威度。具体地,在步骤S2中,描述设备1根据其在步骤S1中获取的对应同一个链接资源的多个描述信息,通过诸如描述信息的来源、描述信息中的描述关键词的相关属性或者描述信息的网页相关特征等参数,获取这些描述信息的权威度。例如,假设描述信息的权威度赋值表示例如表9所示,表10示出与链接资源http://www.xxxx.com/xxxx/冰雨.mp3相对应的多个描述信息,以及根据表9计算获得各描述信息的权威度。
表9:描述信息的权威度赋值表示例
  来源   音乐文件本身的标签  链接资源的URL   网页
  权威度   100  90   30
  网页   网页A  网页B   网页C
  权威度   10  20   30
表10:描述信息示例
Figure BSA00000372021500161
本领域技术人员应能理解上述描述设备1获取描述信息的权威度的参数仅为举例,其他现有的或今后可能出现的描述设备获取描述信息的权威度的参数如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S3中,描述设备1根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。具体地,在步骤S3中,描述设备1根据其在步骤S2中获取的多个描述信息的权威度,对这些描述信息进行处理,如选择权威度最高的描述信息,以获得一个或多个目标描述信息。例如,描述设备1获取对应于同一个链接资源的4个描述信息的权威度分别为90、90、80和70,如果选择权威度最高的描述信息,则据此获得权威度为90的两个描述信息作为目标描述信息;如选择权威度超过80的描述信息,则据此获得权威度为90的两个描述信息和权威度为80的描述信息作为目标描述信息。
优选地,步骤S1、步骤S2和步骤S3是持续不断工作的。具体地,在步骤S1中,描述设备1获取对应于同一个链接资源的多个描述信息;随后,在步骤S2中,描述设备1获取所述描述信息的权威度;接着,在步骤S3中,描述设备1根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。在此,本领域技术人员应理解“持续”是指描述设备1在步骤S1、步骤S2和步骤S3分别按照设定的或实时调整的工作模式要求进行描述信息的获取、描述信息权威度的获取及目标描述信息的获得,直至描述设备1在较长时间内停止获取对应于同一个链接的多个描述信息。
优选地,步骤S3中的处理操作包括但不限于,以下至少任一项:1)选择所述权威度最高的一个或多个描述信息;2)选择所述权威度超过预定阈值的一个或多个描述信息。在步骤S2中,描述设备1获取一个或多个对应于同一个链接资源的描述信息的权威度之后,在步骤S3中,描述设备1根据这(些)描述信息的权威度,对这(些)描述信息进行处理,从而获得一个或多个目标描述信息。在此,处理操作包括但不限于选择权威度最高的一个或多个描述信息;或者设定预定阈值,选择权威度超过预定阈值的一个或多个描述信息,如直接设定预定阈值,按照该预定阈值对描述信息进行处理,或者希望选择权威度在前20%的多个描述信息,据此计算出对应的阈值,将该阈值设定为预设阈值,再由描述设备1按照该预定阈值对描述信息进行处理。本领域技术人员应能理解上述处理操作仅为举例,其他现有的或今后可能出现的处理操作如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图2),该过程还包括步骤S4(未示出),在步骤S4中,描述设备1从所述一个或多个目标描述信息中提取目标关键词,根据所述目标关键词,生成最终描述信息。具体地,在步骤S4中,描述设备1从其在步骤S3中获得的一个或多个目标描述信息中提取目标关键词,如累加目标描述信息中描述关键词的频次或计算目标描述信息中描述关键词的权威属性,将累加频次最多或权威属性最高的描述关键词作为目标关键词,并根据目标关键词生成最终描述信息。例如,假设与链接资源http://www.xxxx.com/xxxx/冰雨.mp3相对应的3个目标描述信息如表11所示:
表11:目标描述信息示例
Figure BSA00000372021500181
按照歌曲名和歌手名从这3个目标描述信息中提取描述关键词,分别为“冰雨,刘德华”、“冰雨”和“冰雨、十年,刘德华”;累加“冰雨”在这3个目标描述信息中出现的频次得到“冰雨”的累加频次为3次,累加“十年”在这3个目标描述信息中出现的频次得到“十年”的累加频次为1次;而歌手名中只有“刘德华”,据此得出“冰雨”和“刘德华”均为目标关键词,并生成对应于链接资源http://www.xxxx.com/xxxx/冰雨.mp3的最终描述信息“冰雨 刘德华”。又如,根据表11,按照歌曲名和歌手名从这3个目标描述信息中提取描述关键词,得到歌曲名“冰雨”和“十年”,歌手名“刘德华”;对两个歌曲名分别计算权威度,描述关键词的权威度赋值表示例如表12所示:
表12:描述关键词的权威属性赋值表示例
  音乐文件本身的标签  链接资源的URL   网页   网页A
  权威度   100  90   30   10
根据表12,“冰雨”的权威属性=100+90+30+10=230;“十年”的权威属性=10,得出“冰雨”为目标关键词;而歌手名中只有“刘德华”,据此得出“冰雨”和“刘德华”均为目标关键词,并生成对应于链接资源http://www.xxxx.com/xxxx/冰雨.mp3的最终描述信息“冰雨 刘德华”。本领域技术人员应能理解上述提取目标关键词的方式仅为举例,其他现有的或今后可能出现的提取目标关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S2中,描述设备1还根据所述描述信息的来源,确定所述描述信息的权威度。具体地,在步骤S2中,描述设备1根据其在步骤S 1中获取的对应于同一个链接资源的多个描述信息的来源,确定这些描述信息的权威度。例如,描述设备1根据描述信息的来源,确定该描述信息的权威度,如描述设备1通过分析用户对不同来源的描述信息的浏览历史记录,确定不同来源的描述信息的权威度;或者通过采样分析不同来源的描述信息的准确度,确定不同来源的描述信息的权威度:来源于资源本身的标签的描述信息的准确度最高,从而其权威度也最高;来源于链接资源的URL的描述信息的权威度次之,从而其权威度也次之;来源于网页的描述信息的权威度最低,从而其权威度也最低。本领域技术人员应能理解上述确定描述信息权威度的方式仅为举例,其他现有的或今后可能出现的确定描述信息权威度的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,描述信息的来源包括但不限于:资源本身的标签,链接资源的URL或者网页;本领域技术人员应能理解上述描述信息的来源仅为举例,其他现有的或今后可能出现的描述信息的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图2),该过程还包括步骤S5(未示出),在步骤S5中,描述设备1根据预置词表,从所述描述信息中提取描述关键词,并根据所述描述关键词,获取所述描述信息的所述描述关键词的相关属性;其中,所述相关属性包括但不限于,以下至少任一项:1)所述描述信息的所述描述关键词对应的用户需求量,2)所述描述信息的所述描述关键词对应的资源数量;随后,在步骤S2中,描述设备1根据所述相关属性,确定所述描述信息的权威度。具体地,在步骤S5中,描述设备1根据预置词表,从其在步骤S1中获取的对应于同一个链接资源的多个描述信息中提取描述关键词,如歌曲名、歌手名等,并根据这(些)描述关键词获取对应于每个描述信息的描述关键词的相关属性;随后,在步骤S2中,描述设备1根据每个描述信息的描述关键词的相关属性,确定每个描述信息的权威度。
在此,该相关属性包括但不限于,以下至少任一项:
1)每个描述信息的描述关键词对应的用户需求量;
2)每个描述信息的描述关键词对应的资源数量。
其中,1)每个描述信息的描述关键词对应的用户需求量,即基于描述关键词(如歌手名或歌曲名)搜索到该描述信息的用户搜索次数,例如,假设描述信息为“刘德华 冰雨”,从中提取歌曲名“冰雨”,用户基于“冰雨”搜索到该描述信息“刘德华 冰雨”的次数,即为该描述信息(“刘德华 冰雨”)的描述关键词(“冰雨”)对应的用户需求量;2)每个描述信息的描述关键词对应的资源数量,即从该描述信息中提取的描述关键词(如歌曲名、歌手名)对应的资源(如音乐文件)在互联网中存在的个数,例如,从描述信息“刘德华 冰雨”中提取歌曲名“冰雨”,基于“冰雨”在网络中搜索到的对应的歌曲的个数。本领域技术人员应能理解上述描述信息的描述关键词的相关属性仅为举例,其他现有的或今后可能出现的描述信息的描述关键词的相关属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S2中,描述设备1根据提取装置获取的每个描述信息的描述关键词的相关属性,如用户需求量、资源数量或者两者的结合,确定该描述信息的权威度。描述关键词相关属性-描述信息权威度赋值表示例如表13所示:
表13:描述关键词相关属性-描述信息权威度赋值表示例
  用户需求量   权威度   资源数量   权威度
  <1000   20   <200   30
  1000-10000   40   200-500   60
  10000-25000   70   500-800   80
  >25000   100   >800   100
以描述信息“刘德华 冰雨”为例,从中提取歌曲名“冰雨”,根据搜索引擎的每日访问日志,获取对应于“冰雨”的该描述信息的用户需求量为2500,对应于“冰雨”的资源数量为750,查询表13可得出该描述信息的权威度=40+80=120。
需要说明的是,本领域技术人员应能理解的是,描述信息的权威度不仅能够单独根据描述信息的来源或者描述信息中描述关键词的相关属性来确定,还能根据两者的结合来确定。以描述信息“刘德华冰雨”为例,其来源于网页http://www.kugoo.com/special/冰雨.mp3,该网页所属网站为Kugoo;假设其来源对应的描述信息的权威度1为50;从该描述信息中提取歌曲名“冰雨”,根据搜索引擎的每日访问日志,获得对应于“冰雨”的该描述信息的用户需求量为2500,对应于“冰雨”的资源数量为750,查询表13可得出该描述信息的权威度2=40+80=120;从而得到该描述信息的权威度=权威度1+权威度2=50+120=170。
优选地,该过程还包括步骤S6(未示出),在步骤S6中,描述设备1根据所述多个描述信息,建立或者更新所述预置词表。具体地,在步骤S6中,描述设备1根据其获取的对应于同一个链接资源的多个描述信息,在尚未建立预置词表的时候,如通过智能分析技术去除描述信息中的垃圾块,并对剩余内容提取结构化信息,再在网络相关词库中进行匹配查询的方式,或者通过分词技术,诸如最大正向匹配法、最大反向匹配法等对描述信息进行切分,并对切分获得的词在网络相关词库中进行匹配查询的方式,从这些描述信息中提取描述关键词,并根据这些描述关键词建立预置词表;或者根据从这些描述信息中提取的描述关键词,当预置词表中尚未包括这(些)描述关键词时,将这(些)描述关键词添加至预置词表,以更新该预置词表。例如,当预置词表还未建立时,描述设备1通过分词技术对描述信息进行分词,并在网络相关词库中匹配查询描述信息的分词,从而完成从描述信息中提取描述关键词,再根据这些提取出来的描述关键词建立预置词表。又如,在建立预置词表后,描述设备1通过分词技术对描述信息进行分词,并根据预置词表匹配查询描述信息的分词,从而完成从描述信息中提取描述关键词,优选地,还在网络中匹配查询描述信息的分词,当查询结果中包括预置词表中尚未添加的描述关键词时,将这(些)描述关键词添加至预置词表,以更新该预置词表。
在再一优选实施例中(参照图2),在步骤S2中,描述设备1还根据所述描述信息所在网页的网页相关特征,确定所述描述信息的权威度;其中,所述网页相关特征包括但不限于,以下至少任一项:1)所述描述信息所在网页的权威属性;2)所述描述信息所在网页所属网站的权威属性。具体地,在步骤S2中,描述设备1还根据每个描述信息所在网页的网页相关特征,如该网页的权威属性、该网页所在网站的权威属性或者两者的结合等,确定该描述信息的权威度。基于描述信息所在网页的网页相关特征的描述信息权威度赋值表示例如表14所示:
表14:网页相关特征-描述信息权威度赋值表示例
Figure BSA00000372021500231
假设描述信息“刘德华 冰雨 十年经典歌曲”所在网页的URL为http://www.kugoo.com/special/冰雨.mp3,该网页为音乐网页,其网页权威属性为70,对应的描述信息权威度为70,该网页所属的网站为Kugoo,其网站权威属性为80,对应的描述信息权威度为80,得出该描述信息的权威度=70+80=150。在此,描述信息所在网页的相关属性的获取方式包括但不限于:由描述设备1根据描述信息所在网页的资源量、资源的质量等,以及所属网站的链接数量、资源量等,对该网页、网站进行评价,获取相应的网页权威属性和网站权威属性;由描述设备1根据描述信息所在网页和所属网站在网页、网站权威属性库进行匹配查询,获取相应的网页权威属性和网站权威属性;由描述设备1直接从第三方设备获取描述信息所在网页的网页权威属性和其所属网站的网站权威属性。本领域技术人员应能理解上述描述信息所在网页的相关属性的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的相关属性的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述描述信息所在网页的权威属性基于以下至少任一项:
1)所述描述信息所在网页的资源量;
2)所述描述信息所在网页的资源的质量;
3)所述描述信息所在网页的流量。
具体地,所述描述信息所在网页的资源量,即每个描述信息所在网页的资源数量,通常该网页中的资源数量越大,该网页的权威属性也越高;所述描述信息所在网页的资源的质量,即每个描述信息所在网页中包括的资源的质量,通常该网页中资源的质量越高,该网页的权威属性也越高;所述描述信息所在网页的流量,即每个描述信息所在网页的访问量,通常该网页的访问量越高,该网页的权威属性也越高。网页权威属性参照表示例如表15所示:
表15:网页权威属性参照表示例
假设描述信息“刘德华 冰雨”所在网页包括的资源有音乐、图片、FLASH和文字,该网页的资源量为4,对应的网页权威属性为50;这些资源的质量为70,对应的网页权威属性为80;该网页的流量为2000,对应的网页权威属性为50;假设描述信息的权威度与其所在网页的网页权威属性等值,则该描述信息的权威度=50+80+50=180。在此,描述信息所在网页的资源量的获取方式包括但不限于:通过扫描描述信息所在网页的内容获取该网页的资源量,通过网页抓取工具,诸如“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等获取描述信息所在网页的资源量,从第三方设备获取描述信息所在网页的资源量。本领域技术人员应能理解上述描述信息所在网页的资源量的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的资源量的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,描述信息所在网页的资源质量的获取方式包括但不限于:由描述设备1对描述信息所在网页的资源质量进行评价,获取相应的网页资源质量;由描述设备1根据描述信息所在网页在网页资源质量库进行匹配查询,获取相应的网页资源质量;由描述设备1直接从第三方设备获取描述信息所在网页的资源质量。本领域技术人员应能理解上述描述信息所在网页的资源质量的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的资源质量的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,描述信息所在网页的流量的获取方式包括但不限于:通过调用网页所属的服务器的应用程序接口(API)或者其他约定的通信方式,如HTTP、UDP、TCP/IP等,向描述信息所在网页所属的服务器发送该网页流量的询问请求,并接收该服务器基于该询问请求返回的网页流量;从第三方设备获取描述信息所在网页的流量的统计数据。本领域技术人员应能理解上述描述信息所在网页的流量的获取方式仅为举例,其他现有的或今后可能出现的描述信息所在网页的流量的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述描述信息所在网页所属网站的权威属性基于以下至少任一项:
1)所述描述信息所在网页所属网站的链接数量;
2)所述描述信息所在网页所属网站的资源量;
3)所述描述信息所在网页所属网站的资源的质量;
4)所述描述信息所在网页所属网站的流量;
5)所述描述信息所在网页所属网站的更新时间。
其中,所述描述信息所在网页所属网站的链接数量,即每个描述信息所在网页所属的网站中包括的链接的总数,通常该网站中的链接数量越大,该网站的权威属性也越高;所述描述信息所在网页所属网站的资源量,即每个描述信息所在网页所属网站中包括的资源数量,通常该网站中的资源数量越大,该网站的权威属性也越高;所述描述信息所在网页所属网站的资源的质量,即每个描述信息所在网页所属网站中包括的资源的质量,通常该网站中的资源质量越高,该网站的权威属性也越高;所述描述信息所在网页所属网站的流量,即每个描述信息所在网页所属网站的访问量,通常该网页中的访问量越高,该网站的权威属性也越高;所述描述信息所在网页所属网站的更新时间,即每个描述信息所在网页所属网站中信息的更新时间,通常该网站中信息的更新时间越短,该网站的权威属性也越高。网站权威属性参照表示例如表16所示:
表16:网站权威属性参照表示例
Figure BSA00000372021500261
假设描述信息“刘德华 冰雨”所在网页所属网站的链接数量为30,对应的网站权威属性为20;该网站的资源量为500,对应的网站权威属性为60;这些资源的质量为70,对应的网站权威属性为80;该网站的流量为40000,对应的网站权威属性为50;该网站的更新时间为3天,对应的网站权威属性为60;假设描述信息的权威度与其所在网页所属网站的网站权威属性等值,则该描述信息的权威度=20+60+80+50+60=270。在此,描述信息所在网页所属网站的链接数量和资源量的获取方式与描述信息所在网页的资源量的获取方式相同,为简明起见,不再赘述,以引用方式包含于此;描述信息所在网页所属网站的资源的质量的获取方式与描述信息所在网页的资源的质量的获取方式相同,为简明起见,不再赘述,以引用方式包含于此;描述信息所在网页所属网站的流量和更新时间的获取方式与描述信息所在网页的流量的获取方式相同,为简明起见,不再赘述,以引用方式包含于此。
需要说明的是,本领域技术人员应能理解,描述信息的权威度不仅能够单独根据该描述信息所在网页的网页权威属性或者该描述信息所在网页所属网站的网站权威属性确定,还能够根据这两者的结合确定。参照表15和表16,以描述信息“刘德华 冰雨”为例,其所在网页的URL为http://www.kugoo.com/special/冰雨.mp3,该网页所属网站为Kugoo;查询表7,该网页的资源量为4,对应的网页权威属性为50;这些资源的质量为70,对应的网页权威属性为80;该网页的流量为2000,对应的网页权威属性为50;查询表8,网站的链接数量为30,对应的网站权威属性为20;该网站的资源量为500,对应的网站权威属性为60;这些资源的质量为70,对应的网站权威属性为80;该网站的流量为40000,对应的网站权威属性为50;该网站的更新时间为3天,对应的网站权威属性为60;假设描述信息的权威度与其所在网页的权威属性和该网页所属网站的网站权威属性的和等值,则该描述信息的权威度=50+80+50+20+60+80+50+60=450。
本领域技术人员还应理解的是,描述信息的权威度不仅能够单独根据描述信息的来源、描述信息中描述关键词的相关属性或者描述信息所在网页的网页相关特征来确定,还可以根据上述因素的两两结合甚至三者结合来确定。仍以描述信息“刘德华 冰雨”为例,其来源于网页http://www.kugoo.com/special/冰雨.mp3,该网页所属网站为Kugoo;假设其来源对应的描述信息的权威度1为50;从该描述信息中提取歌曲名“冰雨”,根据搜索引擎的每日访问日志,获得对应于“冰雨”的该描述信息的用户需求量为2500,对应于“冰雨”的资源数量为750,查询表13可得出该描述信息的权威度2=40+80=120;假设该描述信息的网页相关特征与上例相同,故该描述信息的权威度3为450;因此,该描述信息的权威度=权威度1+权威度2+权威度3=50+120+450=620。
本领域技术人员还应能理解的是,确定描述信息的权威度时,将各种相关因素的简单叠加仅为示例,任何可以适用于本发明的计算方法,例如赋予不同的因素不同的权重,从而加权计算得到描述信息的权威度等,均应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述链接资源包括但不限于,以下至少任一项:1)音乐文件链接资源;2)图片文件链接资源;3)文本文件链接资源;4)视频文件链接资源。描述设备1在获取对应于同一个链接资源的多个描述信息时,该链接资源包括任何一种对应有多个描述信息的链接资源,包括音乐文件链接资源、图片文件链接资源、文本文件链接资源以及视频文件链接资源。本领域技术人员应能理解上述链接资源仅为举例,其他现有的或今后可能出现的链接资源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种计算机实现的用于基于权威度确定链接资源的可靠描述信息的方法,其中,该方法包括以下步骤:
a获取对应于同一个链接资源的多个描述信息;
b获取所述描述信息的权威度;
c根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。
2.根据权利要求1所述的方法,其中,所述步骤c中的处理操作包括以下至少任一项:
-选择所述权威度最高的一个或多个描述信息;
-选择所述权威度超过预定阈值的一个或多个描述信息。
3.根据权利要求1或2所述的方法,其中,该方法还包括步骤d:
-从所述一个或多个目标描述信息中提取目标关键词;
-根据所述目标关键词,生成最终描述信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤b还包括:
-根据所述描述信息的来源,确定所述描述信息的权威度。
5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括步骤e:
-根据预置词表,从所述描述信息中提取描述关键词;
-根据所述描述关键词,获取所述描述信息的所述描述关键词的相关属性;
其中,所述相关属性包括以下至少任一项:
-所述描述信息的所述描述关键词对应的用户需求量;
-所述描述信息的所述描述关键词对应的资源数量;
其中,所述步骤b还包括:
-根据所述相关属性,确定所述描述信息的权威度。
6.根据权利要求5所述的方法,其中,该方法还包括:
f根据所述多个描述信息,建立或者更新所述预置词表。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤b还包括:
-根据所述描述信息所在网页的网页相关特征,确定所述描述信息的权威度;
其中,所述网页相关特征包括以下至少任一项:
-所述描述信息所在网页的权威属性;
-所述描述信息所在网页所属网站的权威属性。
8.根据权利要求7所述的方法,其中,所述描述信息所在网页的权威属性基于以下至少任一项:
-所述描述信息所在网页的资源量;
-所述描述信息所在网页的资源的质量;
-所述描述信息所在网页的流量。
9.根据权利要求7或8所述的方法,其中,所述描述信息所在网页所属网站的权威属性基于以下至少任一项:
-所述描述信息所在网页所属网站的链接数量;
-所述描述信息所在网页所属网站的资源量;
-所述描述信息所在网页所属网站的资源的质量;
-所述描述信息所在网页所属网站的流量;
-所述描述信息所在网页所属网站的更新时间。
10.根据权利要求1至9中任一项所述的方法,其中,所述链接资源包括以下至少任一项:
-音乐文件链接资源;
-图片文件链接资源;
-文本文件链接资源;
-视频文件链接资源。
11.一种用于基于权威度确定链接资源的可靠描述信息的描述设备,其中,该描述设备包括:
第一获取装置,用于获取对应于同一个链接资源的多个描述信息;
第二获取装置,用于获取所述描述信息的权威度;
处理装置,用于根据所述权威度,处理所述多个描述信息,以获得一个或多个目标描述信息。
12.根据权利要求11所述的描述设备,其中,所述处理装置中的处理操作包括以下至少任一项:
-选择所述权威度最高的一个或多个描述信息;
-选择所述权威度超过预定阈值的一个或多个描述信息。
13.根据权利要求11或12所述的描述设备,其中,该描述设备还包括生成装置,所述生成装置用于:
-从所述一个或多个目标描述信息中提取目标关键词;
-根据所述目标关键词,生成最终描述信息。
14.根据权利要求11至13中任一项所述的描述设备,其中,所述第二获取装置还用于:
-根据所述描述信息的来源,确定所述描述信息的权威度。
15.根据权利要求11至14中任一项所述的描述设备,其中,该描述设备还包括提取装置,所述提取装置用于:
-根据预置词表,从所述描述信息中提取描述关键词;
-根据所述描述关键词,获取所述描述信息的所述描述关键词的相关属性;
其中,所述相关属性包括以下至少任一项:
-所述描述信息的所述描述关键词对应的用户需求量;
-所述描述信息的所述描述关键词对应的资源数量;
其中,所述第二获取装置还用于:
-根据所述相关属性,确定所述描述信息的权威度。
16.根据权利要求15所述的描述设备,其中,该描述设备还包括:
更新装置,用于根据所述多个描述信息,建立或者更新所述预置词表。
17.根据权利要求11至16中任一项所述的描述设备,其中,所述第二获取装置还用于:
-根据所述描述信息所在网页的网页相关特征,确定所述描述信息的权威度;
其中,所述网页相关特征包括以下至少任一项:
-所述描述信息所在网页的权威属性;
-所述描述信息所在网页所属网站的权威属性。
18.根据权利要求17所述的描述设备,其中,所述描述信息所在网页的权威属性基于以下至少任一项:
-所述描述信息所在网页的资源量;
-所述描述信息所在网页的资源的质量;
-所述描述信息所在网页的流量。
19.根据权利要求17或18所述的描述设备,其中,所述描述信息所在网页所属网站的权威属性基于以下至少任一项:
-所述描述信息所在网页所属网站的链接数量;
-所述描述信息所在网页所属网站的资源量;
-所述描述信息所在网页所属网站的资源的质量;
-所述描述信息所在网页所属网站的流量;
-所述描述信息所在网页所属网站的更新时间。
20.根据权利要求11至19中任一项所述的描述设备,其中,所述链接资源包括以下至少任一项:
-音乐文件链接资源;
-图片文件链接资源;
-文本文件链接资源;
-视频文件链接资源。
CN201010571640XA 2010-11-29 2010-11-29 基于权威度确定链接资源的可靠描述信息的方法与设备 Pending CN102033914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010571640XA CN102033914A (zh) 2010-11-29 2010-11-29 基于权威度确定链接资源的可靠描述信息的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010571640XA CN102033914A (zh) 2010-11-29 2010-11-29 基于权威度确定链接资源的可靠描述信息的方法与设备

Publications (1)

Publication Number Publication Date
CN102033914A true CN102033914A (zh) 2011-04-27

Family

ID=43886807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010571640XA Pending CN102033914A (zh) 2010-11-29 2010-11-29 基于权威度确定链接资源的可靠描述信息的方法与设备

Country Status (1)

Country Link
CN (1) CN102033914A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678313A (zh) * 2012-08-31 2014-03-26 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN105138547A (zh) * 2015-07-10 2015-12-09 无锡天脉聚源传媒科技有限公司 一种数据搜索方法及装置
CN105872730A (zh) * 2015-11-23 2016-08-17 乐视网信息技术(北京)股份有限公司 字幕数据融合方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1853183A (zh) * 2003-09-16 2006-10-25 Google公司 用于改进对新闻文章分级的系统和方法
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN101082917A (zh) * 2006-06-02 2007-12-05 千橡世纪科技发展(北京)有限公司 一种快速预览网页内容摘要的方法和装置
CN101382954A (zh) * 2008-09-25 2009-03-11 北京搜狗科技发展有限公司 提供网址收藏名称的方法及系统
WO2011153807A1 (zh) * 2010-06-11 2011-12-15 中兴通讯股份有限公司 一种个性化元搜索的方法及其应用终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1853183A (zh) * 2003-09-16 2006-10-25 Google公司 用于改进对新闻文章分级的系统和方法
CN101082917A (zh) * 2006-06-02 2007-12-05 千橡世纪科技发展(北京)有限公司 一种快速预览网页内容摘要的方法和装置
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN101382954A (zh) * 2008-09-25 2009-03-11 北京搜狗科技发展有限公司 提供网址收藏名称的方法及系统
WO2011153807A1 (zh) * 2010-06-11 2011-12-15 中兴通讯股份有限公司 一种个性化元搜索的方法及其应用终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678313A (zh) * 2012-08-31 2014-03-26 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN103678313B (zh) * 2012-08-31 2018-09-04 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN105138547A (zh) * 2015-07-10 2015-12-09 无锡天脉聚源传媒科技有限公司 一种数据搜索方法及装置
CN105138547B (zh) * 2015-07-10 2019-03-26 无锡天脉聚源传媒科技有限公司 一种数据搜索方法及装置
CN105872730A (zh) * 2015-11-23 2016-08-17 乐视网信息技术(北京)股份有限公司 字幕数据融合方法及装置

Similar Documents

Publication Publication Date Title
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
CN102567290B (zh) 用于对待处理的短文本信息进行扩展的方法、装置和设备
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN102420813B (zh) 一种根据用户设备的终端属性提供目标信息的方法与设备
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN102306171A (zh) 一种用于提供网络访问建议和网络搜索建议的方法与设备
CN102810117A (zh) 一种用于提供搜索结果的方法与设备
CN102236710A (zh) 一种用于在查询结果中展现新闻信息的方法与设备
CN102591880A (zh) 信息提供方法及装置
CN103530364A (zh) 提供下载链接的方法及系统
CN101853300A (zh) 一种视频下载服务网站的识别、评估方法及系统
CN104750704A (zh) 一种网页url地址分类识别方法及装置
CN102968413A (zh) 一种用于提供搜索结果的方法与设备
CN102930017A (zh) 一种用于在移动终端上提供搜索结果的方法和设备
CN102982125B (zh) 一种用于确定同义文本的方法和装置
CN102314492A (zh) 获取与目标文档章节相匹配的候选文档章节的方法与设备
CN104133830A (zh) 一种数据获取方法
CN102968454A (zh) 一种用于获取推广对象搜索结果的方法和设备
CN103399862A (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN102609539A (zh) 一种搜索方法和系统
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN102262660A (zh) 一种计算机实现的用于获取搜索结果的方法与设备
CN102033914A (zh) 基于权威度确定链接资源的可靠描述信息的方法与设备
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427