CN103744876A - 一种用于提供搜索结果的方法与设备 - Google Patents

一种用于提供搜索结果的方法与设备 Download PDF

Info

Publication number
CN103744876A
CN103744876A CN201310706161.8A CN201310706161A CN103744876A CN 103744876 A CN103744876 A CN 103744876A CN 201310706161 A CN201310706161 A CN 201310706161A CN 103744876 A CN103744876 A CN 103744876A
Authority
CN
China
Prior art keywords
search result
initial search
object information
original object
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310706161.8A
Other languages
English (en)
Other versions
CN103744876B (zh
Inventor
马晋
张刚
石远
颜俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310706161.8A priority Critical patent/CN103744876B/zh
Publication of CN103744876A publication Critical patent/CN103744876A/zh
Application granted granted Critical
Publication of CN103744876B publication Critical patent/CN103744876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于提供搜索结果的方法与设备。具体地,获取与目标查询序列相对应的初始搜索结果;检测是否满足提供初始搜索结果所对应的原创结果信息的触发条件;当满足触发条件时,根据初始搜索结果及原创结果信息,确定与目标查询序列相对应的目标搜索结果;将目标搜索结果提供给目标查询序列所对应的用户。与现有技术相比,本发明通过检测是否满足提供与目标查询序列相对应的初始搜索结果所对应的原创结果信息的触发条件,当满足时,根据初始搜索结果及原创结果信息,确定对应的目标搜索结果,以将其提供给用户,在保证用户获取较高可信任度、准确度的信息的同时,还提高了用户获取信息的效率,提升了用户的搜索浏览体验。

Description

一种用于提供搜索结果的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于提供搜索结果的技术。
背景技术
当前,随着互联网技术的发展及互联网应用对用户学习、工作与生活的渗透,人们越来越多地通过网络获取信息,还将其获取到的有用信息执行转载、分享等操作以收藏该等信息。然而,当其他用户对该等信息有同样需求时,如通过在搜索引擎搜索栏中输入关键词,进而获得搜索引擎基于该关键词在搜索索引库中检索出的与该关键词相匹配的一个或多个搜索结果,该等搜索结果往往不仅会包括大量的转载结果,且该等转载结果中会出现重复的搜索结果,如转载于同一原创页面内容的不同搜索结果,此外,用户在转载过程中还会有内容遗漏现象,如不完全转载、转载丢失等,不仅降低了用户获取信息的效率与信息准确度,也影响了用户的搜索体验。
发明内容
本发明的目的是提供一种用于提供搜索结果的方法与设备。
根据本发明的一个方面,提供了一种用于提供搜索结果的方法,其中,该方法包括以下步骤:
a获取与目标查询序列相对应的一个或多个初始搜索结果;
b检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;
c当满足所述触发条件时,根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;
d将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。
根据本发明的另一个方面,还提供了一种用于提供搜索结果的结果提供设备,其中,该结果提供设备包括:
初始结果获取装置,用于获取与目标查询序列相对应的一个或多个初始搜索结果;
检测装置,用于检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;
目标结果确定装置,用于当满足所述触发条件时,根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;
提供装置,用于将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。
与现有技术相比,本发明通过检测是否满足提供获取的与目标查询序列相对应的初始搜索结果所对应的原创结果信息的触发条件,当满足所述触发条件时,根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果,以将其提供给对应用户,在保证用户获取较高可信任度、准确度的信息的同时,还提高了用户获取信息的效率,并提升了用户的搜索浏览体验。而且,本发明还可对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果,从而进一步地提高了用户获取信息的准确度及获取效率,也提升了用户的搜索浏览体验。此外,本发明在确定所述目标搜索结果时,还可根据所述原创结果信息,对所述一个或多个初始搜索结果进行调整处理,以获得所述目标搜索结果,如将所述原创结果信息代替其所对应的初始搜索结果,或者,将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,或者,以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果,实现了优先向用户提供初始搜索结果所对应的原创结果信息,或者,仅将初始搜索结果所对应的原创结果信息提供给对应用户,从而更进一步地保证了用户获取较高可信任度、准确度的信息,提高了用户获取信息的效率,并提升了用户的搜索浏览体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种用于提供搜索结果的设备示意图;
图2示出获取的初始搜索结果示意图;
图3示出根据基于图2所示的初始搜索结果及其对应的原创结果信息确定的目标搜索结果示意图;
图4示出根据本发明一个优选实施例的一种用于提供搜索结果的设备示意图;
图5示出根据本发明另一个方面的一种用于提供搜索结果的方法流程图;
图6示出根据本发明一个优选实施例的一种用于提供搜索结果的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种用于提供搜索结果的结果提供设备1,其中,结果提供设备1包括初始结果获取装置11、检测装置12、目标结果确定装置13和提供装置14。具体地,初始结果获取装置11获取与目标查询序列相对应的一个或多个初始搜索结果;检测装置12检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;当满足所述触发条件时,目标结果确定装置13根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;提供装置14将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。在此,结果提供设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述结果提供设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,初始结果获取装置11通过诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取与目标查询序列相对应的一个或多个初始搜索结果;或者,首先通过JSP、ASP等动态网页技术,获取用户通过用户设备输入的目标查询序列,再将该目标查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该目标查询序列相对应的一个或多个搜索结果,以作为所述初始搜索结果。例如,假设用户A通过其用户设备在搜索引擎搜索栏中输入关键词“随机游走模型(Random SurferModel)”,点击搜索按钮,则初始获取装置11可通过ASP、JSP等动态网页技术,获取到用户A输入的查询序列,并基于将该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据该关键词“随机游走模型(Random Surfer Model)”进行匹配查询得到的与该关键词相匹配的一个或多个初始搜索结果,如图2所示的以下初始搜索结果Ⅰ至Ⅶ:
Ⅰ:“随机游走模型(Random Surfer Model)新浪博客”(URL1)
Ⅱ:“6.2.1随机游走模型(Random Surfer Model)-51CTO.COM”(URL2)
Ⅲ:“随机游走模型(Random Surfer Model)baidu空间”(URL3)
Ⅳ:“随机游走模型(Random Surfer Model)豆瓣”(URL4)
Ⅴ:“2012年01月存档-博文视点(北京)官方博客-博客频道-CSDN.NET”(URL5)
Ⅵ:“这就是搜索引擎百度百科”(URL6)
Ⅶ:“…Classification Algorithm Based on Random Walk Model郑伟…”(URL7)
本领域技术人员应能理解上述获取与目标查询序列相对应的一个或多个初始搜索结果的方式仅为举例,其他现有的或今后可能出现的获取与目标查询序列相对应的一个或多个初始搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
检测装置12检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件。在此,所述原创结果信息是指页面内容为作者自身创作或发明的,而非由复制、改编、剽窃、模仿、抄袭得到的页面,其具有以下至少任一项原创页面特征信息:1)页面内容具有唯一性;2)页面内容中原创的内容比例比较高;3)对于一组具有相同内容的页面,原创页面发布该相同内容的时间最早。优选地,所述触发条件包括以下至少任一项:
-所述初始搜索结果所对应的页面满足非原创页面特征信息;
-所述初始搜索结果所对应的页面内容信息中包含预定指示信息来源的标识信息。
例如,当所述触发条件包括所述初始搜索结果所对应的页面满足非原创页面特征信息时,在此,所述非原创页面特征信息包括但不限于以下至少任一项:1)所述初始搜索结果所对应的页面内容不具有唯一性,如网页数据库中存在有与所述初始搜索结果所对应的页面内容相同的页面;2)所述初始搜索结果所对应的页面内容中非原创的内容如转载、分享他人的内容比例比较高;3)对于一组具有相同内容的页面,转载该相同内容的页面发布该相同内容的时间晚于属于原创的页面发布该相同内容的时间;例如,接上例,假设获取装置11所获取的初始搜索结果Ⅰ至Ⅶ中,对于初始搜索结果Ⅴ,其所对应的页面中属于原创的文章为1187篇,属于转载的文章为82篇,即初始搜索结果Ⅴ所对应的页面内容中原创文章数量占该站点中总文章数量的比例远远高于转载文章数量占该站点中总文章数量的比例,则检测装置12可判断初始搜索结果Ⅴ所对应的页面不满足所述非原创页面特征信息,即初始搜索结果Ⅴ不满足提供其所对应的原创结果信息的触发条件,其本身即属于原创结果信息;而对于初始搜索结果Ⅰ至Ⅳ,假设初始搜索结果Ⅰ至Ⅳ各自所对应的页面中均包括以下内容common content:
“《这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。
6.2两个概念模型及算法之间的关系
在介绍具体链接分析算法之前,首先介绍两个概念模型,并对各个链接分析算法之间的关系进行说明,这样有助于读者从宏观角度理解各个算法的基本思路与传承关系。
6.2.1随机游走模型(Random Surfer Model)
互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank算法在内的很多链接分析算法都是建立在随机游走模型基础上的。
……
假设例子中的互联网包含不止3个页面,而是由10个页面构成,此时用户既不想跳回页面A,也不想跳回页面B,则可以按照1/10的概率跳入其他任意一个页面,即进行远程跳转。”
假设初始搜索结果Ⅰ至Ⅳ发布该内容common content的时间分别为:2013-01-06、2012-01-20、2012-08-09、2012-12-08,因初始搜索结果Ⅰ、Ⅲ与Ⅳ中发布该内容common content的时间均晚于初始搜索结果Ⅱ中发布该内容common content的时间,则检测装置12可判断初始搜索结果Ⅰ、Ⅲ与Ⅳ所对应的页面满足所述非原创页面特征信息,即初始搜索结果Ⅰ、Ⅲ与Ⅳ满足提供其各自所对应的原创结果信息的触发条件。
再如,当所述触发条件包括所述初始搜索结果所对应的页面内容信息中包含预定指示信息来源的标识信息时,在此,所述预定指示信息来源的标识信息包括但不限于如“转载”、“转”、“原文地址”、“原文”、“推荐”、“本文来源于”等。例如,还接上例,检测装置12可分别对初始结果获取装置11所获取的初始搜索结果Ⅰ至Ⅶ所对应的页面内容进行语义分析处理,以检测初始搜索结果Ⅰ至Ⅶ各自所对应的页面内容信息中是否包含预定指示信息来源的标识信息,如假设检测装置12对初始搜索结果Ⅰ所对应的页面内容进行语义分析处理,发现初始搜索结果Ⅰ所对应的页面内容common content中包含短语{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模 (URL2)},则检测装置12可根据该短语中的预定指示信息来源的标识信息“[转载]”以及“原文地址”,判断初始搜索结果Ⅰ满足提供其所对应的原创结果信息的触发条件;与此类似,检测装置12可检测得到初始搜索结果Ⅲ、Ⅳ、Ⅶ各自所对应的页面内容commoncontent中分别包含以下预定指示信息来源的标识信息如:初始搜索结果Ⅲ中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)}、初始搜索结果Ⅳ中包含{[转]随机游走模型、原文地址URL3}、初始搜索结果Ⅶ中包含{本文来源于维普资讯网URL7’},而初始搜索结果Ⅱ、Ⅴ、Ⅵ各自所对应的页面内容commoncontent中不包含所述预定指示信息来源的标识信息,则检测装置12可判断初始搜索结果Ⅲ、Ⅳ、Ⅶ满足提供其所对应的原创结果信息的触发条件,而初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应的原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果。
本领域技术人员应能理解上述检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件的方式仅为举例,其他现有的或今后可能出现的检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
当满足所述触发条件时,目标结果确定装置13根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果。具体地,当满足所述触发条件时,目标结果确定装置13首先确定所述初始搜索结果所对应的原创结果信息;然后,再根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果。
具体地,当满足所述触发条件时,目标结果确定装置13首先确定所述初始搜索结果所对应的原创结果信息。在此,目标结果确定装置确定所述初始搜索结果所对应的原创结果信息的方式包括但不限于以下至少任一项:
1)将所述初始搜索结果中页面URL属于预定原创站点的初始搜索结果,作为该初始搜索结果所对应的原创结果信息,如对于。例如,对于初始搜索结果Ⅱ,其URL2属于预定原创站点如专注于IT技术创新与发展的互联网媒体机构51CTO,则目标结果确定装置13可确定初始搜索结果Ⅱ本身即是原创结果信息。
2)根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,确定该初始搜索结果所对应的原创结果信息,如根据所述预定指示信息来源的标识信息所对应的标题名称链接,将该标题名称链接所指向的页面作为所述原创结果信息。例如,对于初始搜索结果Ⅰ,其所对应的页面内容common content中包含的预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指向页面URL2,则目标结果确定装置13可将URL2作为初始搜索结果Ⅰ所对应的原创结果信息;再如,对于初始搜索结果Ⅲ,其页面内容common content中包含{[转载]随机游走模型(RandomSurfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指明了初始搜索结果Ⅲ中的页面内容common content来源于URL2,则目标结果确定装置13可将URL2作为初始搜索结果Ⅲ所对应的原创结果信息;同理,对于初始搜索结果Ⅶ,其页面内容common content中包含{本文来源于维普资讯网URL7’},其中,预定指示信息来源的标识信息“本文来源于”指明了初始搜索结果Ⅶ中的页面内容common content来源于URL7’,则目标结果确定装置13可将URL7’作为初始搜索结果Ⅶ所对应的原创结果信息。
3)根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的原创结果信息。例如,对于初始搜索结果Ⅳ,其页面内容common content中包含有{[转]随机游走模型、原文地址URL3},则目标结果确定装置13首先根据预定指示信息来源的标识信息“原文地址”,确定初始搜索结果Ⅳ来源于URL3,而URL3所对应的页面即为初始搜索结果Ⅲ,初始搜索结果Ⅲ其页面内容common content中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游 走模型(URL2)指明了初始搜索结果Ⅲ的页面内容common content来源于URL2,则目标结果确定装置13最终确定初始搜索结果Ⅳ所对应的原创结果信息为URL2,即初始搜索结果Ⅳ中的页面内容commoncontent转载于初始搜索结果Ⅱ中的页面内容common content。
本领域技术人员应能理解上述确定所述原创结果信息的方式仅为举例,其他现有的或今后可能出现的确定所述原创结果信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,目标结果确定装置13再根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果。在此,目标结果确定装置13确定与所述目标查询序列相对应的一个或多个目标搜索结果的方式包括但不限于以下至少任一项:
1)将所述原创结果信息代替其所对应的初始搜索结果,以获得所述目标搜索结果。例如,初始获取装置11获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而检测装置12检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,目标结果确定装置13首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容common content,则目标结果确定装置13可将初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ分别用其所对应的原创结果信息代替,并去除相同的原创结果信息,来获得与目标查询序列“随机游走模型(RandomSurfer Model)”相对应的目标搜索结果,即确定与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL5、URL6、URL7’;或者,目标结果确定装置13还可将对应于相同原创结果信息URL2的初始搜索结果Ⅰ、Ⅲ、Ⅳ,以初始搜索结果Ⅰ、Ⅲ、Ⅳ中发布页面内容common content的时间为顺序,以点击隐藏或展现的方式,示出初始搜索结果Ⅰ、Ⅲ、Ⅳ与原创结果信息URL2之间的转载关系,并以此作为所述目标搜索结果,即确定与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL1、URL3、URL4、URL5、URL6、URL7’,如图3所示,其中,该图3中示出各初始搜索结果之间的转载关系:初始搜索结果Ⅰ中的页面内容common content转载于原创结果信息URL2、初始搜索结果Ⅲ中的页面内容common content转载于原创结果信息URL2、初始搜索结果Ⅳ中的页面内容common content转载于初始搜索结果Ⅲ、初始搜索结果Ⅶ中的页面内容common content转载于URL7’。
2)将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,以获得所述目标搜索结果。例如,假设对于初始获取装置11获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,检测装置12检测发现初始搜索结果Ⅰ至Ⅶ均满足提供其所对应的原创结果信息的触发条件,而目标结果确定装置13首先确定初始搜索结果Ⅰ至Ⅶ所对应的原创结果信息如下表1所示:
Figure BDA0000441681800000111
表1
则目标结果确定装置13可将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,以获得所述目标搜索结果,即获得与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL1’、URL1、URL2’、URL2、URL3’、URL3、URL4’、URL4、URL5’、URL5、URL6’、URL6、URL7’、URL7。
本领域技术人员应能理解上述确定所述目标搜索结果的方式仅为举例,其他现有的或今后可能出现的确定所述目标搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
提供装置14通过http、https等约定的通信方式,将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户,如提供给所述用户的用户设备,或者,提供给搜索引擎、浏览器等应用,以由该应用提供给所述用户的用户设备,以供用户浏览和阅读。
结果提供设备1的各个装置之间是持续不断工作的。具体地,初始结果获取装置11持续获取与目标查询序列相对应的一个或多个初始搜索结果;检测装置12持续检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;当满足所述触发条件时,目标结果确定装置13持续根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;提供装置14持续将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。在此,本领域技术人员应能理解“持续”是指结果提供设备1的各个装置之间分别不断地进行初始搜索结果的获取、提供原创结果信息的触发条件检测、目标搜索结果的确定与提供,直至结果提供设备1在较长时间内停止初始搜索结果的获取。
优选地,结果提供设备1还包括去冗余装置(未示出)。具体地,去冗余装置对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果;其中,提供装置14将去冗余处理后的所述目标搜索结果提供给所述目标查询序列所对应的用户,如提供给所述用户的用户设备,或者,提供给搜索引擎、浏览器等应用,以由该应用提供给所述用户的用户设备,以供用户浏览和阅读。。
具体地,去冗余装置对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果。例如,假设初始获取装置11获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而检测装置12检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,目标结果确定装置13首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容commoncontent均转载于初始搜索结果Ⅱ中的页面内容common content,而目标结果确定装置13将初始搜索结果Ⅰ至Ⅶ中具有对应原创结果信息的初始搜索结果用其对应的原创结果信息代替,本身即是原创结果信息的初始搜索结果保留,则目标结果确定装置13可得到与初始搜索结果Ⅰ至Ⅶ相对应的目标搜索结果如下表2所示:
Figure BDA0000441681800000131
表2
该多个目标搜索结果中存在多个相同的现象,则去冗余装置可对所该多个目标搜索结果进行去冗余处理,如去除相同的目标搜索结果,以获得去冗余处理后的所述目标搜索结果,即确定与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL5、URL6、URL7’。
本领域技术人员应能理解上述对目标搜索结果进行去冗余处理的方式仅为举例,其他现有的或今后可能出现的对目标搜索结果进行去冗余处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,提供装置14通过http、https等约定的通信方式,将去冗余处理后的所述目标搜索结果提供给所述目标查询序列所对应的用户,如提供给所述用户的用户设备,或者,提供给搜索引擎、浏览器等应用,以由该应用提供给所述用户的用户设备,以供用户浏览和阅读。
优选地,可将上述用于提供搜索结果的结果提供设备1,与现有搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎包括但不限于如Google公司的Google搜索引擎、百度公司的baidu搜索引擎、百度知道等。
优选地,可将上述用于提供搜索结果的结果提供设备1,与现有搜索引擎插件相结合,构成一种新的搜索引擎插件,现有的包括但不限于如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。
在另一优选实施例中,可将上述用于提供搜索结果的结果提供设备1,与现有的浏览器相结合,构成一种新的浏览器,现有的浏览器包括例如Microsoft公司的IE浏览器、Netscape公司的Netscape浏览器、Mozilla公司的Firefox浏览器、Google公司的Chrome浏览器、遨游公司的Maxthon浏览器、Opera公司的opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等。
在另一优选实施例中,可将上述用于提供搜索结果的结果提供设备1,与现有的浏览器插件相结合,构成一种新的浏览器插件,现有的浏览器插件包括如Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等。
图4示出根据本发明一个优选实施例的一种用于提供搜索结果的设备示意图,其中,结果提供设备1包括初始结果获取装置11’、检测装置12’、目标结果确定装置13’和提供装置14’,其中,目标结果确定装置13’包括原创结果确定单元131’和目标结果确定单元132’。具体地,初始结果获取装置11’获取与目标查询序列相对应的一个或多个初始搜索结果;检测装置12’检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;当满足所述触发条件时,原创结果确定单元131’确定所述初始搜索结果所对应的原创结果信息;目标结果确定单元132’根据所述一个或多个初始搜索结果,及所述原创结果信息,确定所述一个或多个目标搜索结果;提供装置14’将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。在此,初始结果获取装置11’、检测装置12’和提供装置14’与图1所示实施例中对应装置的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,当满足所述触发条件时,原创结果确定单元131’确定所述初始搜索结果所对应的原创结果信息。在此,原创结果确定单元131’确定所述初始搜索结果所对应的原创结果信息的方式与图1中目标结果确定装置13确定所述初始搜索结果所对应的原创结果信息的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
接着,目标结果确定单元132’根据所述一个或多个初始搜索结果,及所述原创结果信息,确定所述一个或多个目标搜索结果。在此,目标结果确定单元132’确定所述目标搜索结果的方式与图1中目标结果确定装置13确定所述目标搜索结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
优选地,目标结果确定单元132’根据所述原创结果信息,对所述一个或多个初始搜索结果进行调整处理,以获得所述目标搜索结果。优选地,所述调整处理包括以下至少任一项:
-将所述原创结果信息代替其所对应的初始搜索结果;
-将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面;
-以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果。
例如,当所述调整处理包括将所述原创结果信息代替其所对应的初始搜索结果时,假设初始结果获取装置11’获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而检测装置12’检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,则目标结果确定单元132’首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容common content;然后,目标结果确定单元132’可将初始搜索结果Ⅰ至Ⅶ中具有对应原创结果信息的初始搜索结果用其对应的原创结果信息代替,本身即是原创结果信息的初始搜索结果保留,即可得到与初始搜索结果Ⅰ至Ⅶ相对应的目标搜索结果如上述表2所示。
再如,当所述调整处理包括将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面时,假设对于初始结果获取装置11’获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,检测装置12’检测发现初始搜索结果Ⅰ至Ⅶ均满足提供其所对应的原创结果信息的触发条件,则目标结果确定单元132’首先确定初始搜索结果Ⅰ至Ⅶ所对应的原创结果信息如上述表1所示,然后,目标结果确定单元132’可将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,以获得所述目标搜索结果,即获得与目标查询序列“随机游走模型(Random SurferModel)”相对应的目标搜索结果为URL1’、URL1、URL2’、URL2、URL3’、URL3、URL4’、URL4、URL5’、URL5、URL6’、URL6、URL7’、URL7。
还如,当所述调整处理包括以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果时,假设初始结果获取装置11’获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而检测装置12’检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,则目标结果确定单元132’首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容common content;然后,目标结果确定单元132’可按照属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列初始搜索结果Ⅰ至Ⅶ,即首先设置属于原创的初始搜索结果的优先级高于非原创的初始搜索结果的优先级,然后,非原创的初始搜索结果对应的原创结果信息排在该非原创的初始搜索结果的前面,目标结果确定单元132’可获得与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL5、URL6、URL2、URL1URL2、URL3URL2、URL4、URL7’、URL7,其中,URL2属于URL1(即初始搜索结果Ⅰ)的原创结果信息,也属于URL3(即初始搜索结果Ⅲ)的原创结果信息,还属于URL4(即初始搜索结果Ⅳ)的原创结果信息。
本领域技术人员应能理解上述对初始搜索结果进行调整处理的方式仅为举例,其他现有的或今后可能出现的对初始搜索结果进行调整处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,当满足所述触发条件时,原创结果确定单元131’可根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,确定该初始搜索结果所对应的原创结果信息,如根据所述预定指示信息来源的标识信息所对应的标题名称链接,将该标题名称链接所指向的页面作为所述原创结果信息。例如,对于初始搜索结果Ⅰ,其所对应的页面内容common content中包含的预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指向页面URL2,则原创结果确定单元131’可将URL2作为初始搜索结果Ⅰ所对应的原创结果信息;再如,对于初始搜索结果Ⅲ,其页面内容common content中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指明了初始搜索结果Ⅲ中的页面内容common content来源于URL2,则原创结果确定单元131’可将URL2作为初始搜索结果Ⅲ所对应的原创结果信息;同理,对于初始搜索结果Ⅶ,其页面内容common content中包含{本文来源于维普资讯网URL7’},其中,预定指示信息来源的标识信息“本文来源于”指明了初始搜索结果Ⅶ中的页面内容common content来源于URL7’,则原创结果确定单元131’可将URL7’作为初始搜索结果Ⅶ所对应的原创结果信息。
更优选地,原创结果确定单元131’包括候选原创确定单元(未示出)和确定单元(未示出)。具体地,当满足所述触发条件时,候选原创确定单元根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的多个候选原创结果信息,其中,所述多个候选原创结果信息均包含所述标识信息所对应的转载内容部分;确定单元根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。
具体地,满足所述触发条件时,候选原创确定单元根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的多个候选原创结果信息,其中,所述多个候选原创结果信息均包含所述标识信息所对应的转载内容部分。例如,对于初始搜索结果Ⅳ,其页面内容common content中包含有{[转]随机游走模型、原文地址URL3},则候选原创确定单元首先根据预定指示信息来源的标识信息“原文地址”,确定初始搜索结果Ⅳ来源于URL3,而URL3所对应的页面即为初始搜索结果Ⅲ,初始搜索结果Ⅲ其页面内容common content中包含{[转载]随机游走模型(Random SurferModel)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指明了初始搜索结果Ⅲ的页面内容common content来源于URL2,则候选原创确定单元确定初始搜索结果Ⅳ所对应的候选原创结果信息为URL3和URL2,其中,候选原创结果信息URL3和URL2均包含所述标识信息所对应的转载内容部分即页面内容common content。
本领域技术人员应能理解上述确定所述初始搜索结果所对应的多个候选原创结果信息的方式仅为举例,其他现有的或今后可能出现的确定所述初始搜索结果所对应的多个候选原创结果信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,确定单元根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。例如,接上例,候选原创确定单元确定初始搜索结果Ⅳ所对应的候选原创结果信息为URL3和URL2,而候选原创结果信息URL3发布转载内容common content的时间分别为2012-08-09,候选原创结果信息URL2发布转载内容commoncontent的时间分别为2012-01-20,则确定单元可根据候选原创结果信息URL3与URL2发布转载内容common content的发布时间,将发布转载内容common content较早的候选原创结果信息URL2作为初始搜索结果Ⅳ所对应的原创结果信息。
更优选地,确定单元还可根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,结合所述候选原创结果信息所对应的原创内容发布比例信息,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。例如,还接上例,候选原创确定单元确定初始搜索结果Ⅳ所对应的候选原创结果信息为URL3和URL2,而候选原创结果信息URL3发布转载内容common content的时间分别为2012-08-09,候选原创结果信息URL2发布转载内容commoncontent的时间分别为2012-01-20,虽然候选原创结果信息URL2发布转载内容common content的时间早于候选原创结果信息URL3发布转载内容common content的时间,假设候选原创结果信息URL2所对应的原创内容发布比例信息小于候选原创结果信息URL3所对应的原创内容发布比例信息,或者候选原创结果信息URL2所对应的原创内容发布比例信息小于预定原创内容发布比例信息如80%,而候选原创结果信息URL3所对应的原创内容发布比例信息大于该预定原创内容发布比例信息如80%,则确定单元可确定原创内容发布比例信息较高的候选原创结果信息URL3作为初始搜索结果Ⅳ所对应的原创结果信息。
本领域技术人员应能理解上述结合所述原创内容发布比例信息确定所述初始搜索结果所对应的原创结果信息的方式仅为举例,其他现有的或今后可能出现的结合所述原创内容发布比例信息确定所述初始搜索结果所对应的原创结果信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图5示出根据本发明另一个方面的一种用于提供搜索结果的方法流程图。
具体地,在步骤S1中,结果提供设备1获取与目标查询序列相对应的一个或多个初始搜索结果;在步骤S2中,结果提供设备1检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;当满足所述触发条件时,在步骤S3中,结果提供设备1根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;在步骤S4中,结果提供设备1将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。在此,结果提供设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述结果提供设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,在步骤S1中,结果提供设备1通过诸如搜索引擎、浏览器等第三方设备提供的应用程序接口(API),获取与目标查询序列相对应的一个或多个初始搜索结果;或者,首先通过JSP、ASP等动态网页技术,获取用户通过用户设备输入的目标查询序列,再将该目标查询序列提交给搜索引擎,并接收搜索引擎所反馈的与该目标查询序列相对应的一个或多个搜索结果,以作为所述初始搜索结果。例如,假设用户A通过其用户设备在搜索引擎搜索栏中输入关键词“随机游走模型(Random Surfer Model)”,点击搜索按钮,则初始获取装置11可通过ASP、JSP等动态网页技术,获取到用户A输入的查询序列,并基于将该查询序列向搜索引擎提交搜索请求,通过搜索引擎提供的应用程序接口(API)获取搜索引擎根据该关键词“随机游走模型(Random SurferModel)”进行匹配查询得到的与该关键词相匹配的一个或多个初始搜索结果,如图2所示的以下初始搜索结果Ⅰ至Ⅶ:
Ⅰ:“随机游走模型(Random Surfer Model)新浪博客”(URL1)
Ⅱ:“6.2.1随机游走模型(Random Surfer Model)-51CTO.COM”(URL2)
Ⅲ:“随机游走模型(Random Surfer Model)baidu空间”(URL3)
Ⅳ:“随机游走模型(Random Surfer Model)豆瓣”(URL4)
Ⅴ:“2012年01月存档-博文视点(北京)官方博客-博客频道-CSDN.NET”(URL5)
Ⅵ:“这就是搜索引擎百度百科”(URL6)
Ⅶ:“…Classification Algorithm Based on Random Walk Model郑伟…”(URL7)
本领域技术人员应能理解上述获取与目标查询序列相对应的一个或多个初始搜索结果的方式仅为举例,其他现有的或今后可能出现的获取与目标查询序列相对应的一个或多个初始搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,结果提供设备1检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件。在此,所述原创结果信息是指页面内容为作者自身创作或发明的,而非由复制、改编、剽窃、模仿、抄袭得到的页面,其具有以下至少任一项原创页面特征信息:1)页面内容具有唯一性;2)页面内容中原创的内容比例比较高;3)对于一组具有相同内容的页面,原创页面发布该相同内容的时间最早。优选地,所述触发条件包括以下至少任一项:
-所述初始搜索结果所对应的页面满足非原创页面特征信息;
-所述初始搜索结果所对应的页面内容信息中包含预定指示信息来源的标识信息。
例如,当所述触发条件包括所述初始搜索结果所对应的页面满足非原创页面特征信息时,在此,所述非原创页面特征信息包括但不限于以下至少任一项:1)所述初始搜索结果所对应的页面内容不具有唯一性,如网页数据库中存在有与所述初始搜索结果所对应的页面内容相同的页面;2)所述初始搜索结果所对应的页面内容中非原创的内容如转载、分享他人的内容比例比较高;3)对于一组具有相同内容的页面,转载该相同内容的页面发布该相同内容的时间晚于属于原创的页面发布该相同内容的时间;例如,接上例,假设获取装置11所获取的初始搜索结果Ⅰ至Ⅶ中,对于初始搜索结果Ⅴ,其所对应的页面中属于原创的文章为1187篇,属于转载的文章为82篇,即初始搜索结果Ⅴ所对应的页面内容中原创文章数量占该站点中总文章数量的比例远远高于转载文章数量占该站点中总文章数量的比例,则在步骤S2中,结果提供设备1可判断初始搜索结果Ⅴ所对应的页面不满足所述非原创页面特征信息,即初始搜索结果Ⅴ不满足提供其所对应的原创结果信息的触发条件,其本身即属于原创结果信息;而对于初始搜索结果Ⅰ至Ⅳ,假设初始搜索结果Ⅰ至Ⅳ各自所对应的页面中均包括以下内容common content:
“《这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。
6.2两个概念模型及算法之间的关系
在介绍具体链接分析算法之前,首先介绍两个概念模型,并对各个链接分析算法之间的关系进行说明,这样有助于读者从宏观角度理解各个算法的基本思路与传承关系。
6.2.1随机游走模型(Random Surfer Model)
互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank算法在内的很多链接分析算法都是建立在随机游走模型基础上的。
……
假设例子中的互联网包含不止3个页面,而是由10个页面构成,此时用户既不想跳回页面A,也不想跳回页面B,则可以按照1/10的概率跳入其他任意一个页面,即进行远程跳转。”
假设初始搜索结果Ⅰ至Ⅳ发布该内容common content的时间分别为:2013-01-06、2012-01-20、2012-08-09、2012-12-08,因初始搜索结果Ⅰ、Ⅲ与Ⅳ中发布该内容common content的时间均晚于初始搜索结果Ⅱ中发布该内容common content的时间,则在步骤S2中,结果提供设备1可判断初始搜索结果Ⅰ、Ⅲ与Ⅳ所对应的页面满足所述非原创页面特征信息,即初始搜索结果Ⅰ、Ⅲ与Ⅳ满足提供其各自所对应的原创结果信息的触发条件。
再如,当所述触发条件包括所述初始搜索结果所对应的页面内容信息中包含预定指示信息来源的标识信息时,在此,所述预定指示信息来源的标识信息包括但不限于如“转载”、“转”、“原文地址”、“原文”、“推荐”、“本文来源于”等。例如,还接上例,在步骤S2中,结果提供设备1可
分别对在步骤S1中,结果提供设备1所获取的初始搜索结果Ⅰ至Ⅶ所对应的页面内容进行语义分析处理,以检测初始搜索结果Ⅰ至Ⅶ各自所对应的页面内容信息中是否包含预定指示信息来源的标识信息,如假设在步骤S2中,结果提供设备1对初始搜索结果Ⅰ所对应的页面内容进行语义分析处理,发现初始搜索结果Ⅰ所对应的页面内容common content中包含短语{[转载]随机游走模型(Random SurferModel)、原文地址随机游走模型(URL2)},则在步骤S2中,结果提供设备1可根据该短语中的预定指示信息来源的标识信息“[转载]”以及“原文地址”,判断初始搜索结果Ⅰ满足提供其所对应的原创结果信息的触发条件;与此类似,在步骤S2中,结果提供设备1可检测得到初始搜索结果Ⅲ、Ⅳ、Ⅶ各自所对应的页面内容commoncontent中分别包含以下预定指示信息来源的标识信息如:初始搜索结果Ⅲ中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)}、初始搜索结果Ⅳ中包含{[转]随机游走模型、原文地址URL3}、初始搜索结果Ⅶ中包含{本文来源于维普资讯网URL7’},而初始搜索结果Ⅱ、Ⅴ、Ⅵ各自所对应的页面内容commoncontent中不包含所述预定指示信息来源的标识信息,则在步骤S2中,结果提供设备1可判断初始搜索结果Ⅲ、Ⅳ、Ⅶ满足提供其所对应的原创结果信息的触发条件,而初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应的原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果。
本领域技术人员应能理解上述检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件的方式仅为举例,其他现有的或今后可能出现的检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
当满足所述触发条件时,在步骤S3中,结果提供设备1根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果。具体地,当满足所述触发条件时,在步骤S3中,结果提供设备1首先确定所述初始搜索结果所对应的原创结果信息;然后,再根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果。
具体地,当满足所述触发条件时,在步骤S3中,结果提供设备1首先确定所述初始搜索结果所对应的原创结果信息。在此,目标结果确定装置确定所述初始搜索结果所对应的原创结果信息的方式包括但不限于以下至少任一项:
1)将所述初始搜索结果中页面URL属于预定原创站点的初始搜索结果,作为该初始搜索结果所对应的原创结果信息,如对于。例如,对于初始搜索结果Ⅱ,其URL2属于预定原创站点如专注于IT技术创新与发展的互联网媒体机构51CTO,则在步骤S3中,结果提供设备1可确定初始搜索结果Ⅱ本身即是原创结果信息。
2)根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,确定该初始搜索结果所对应的原创结果信息,如根据所述预定指示信息来源的标识信息所对应的标题名称链接,将该标题名称链接所指向的页面作为所述原创结果信息。例如,对于初始搜索结果Ⅰ,其所对应的页面内容common content中包含的预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指向页面URL2,则在步骤S3中,结果提供设备1可将URL2作为初始搜索结果Ⅰ所对应的原创结果信息;再如,对于初始搜索结果Ⅲ,其页面内容common content中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游 走模型(URL2)指明了初始搜索结果Ⅲ中的页面内容common content来源于URL2,则在步骤S3中,结果提供设备1可将URL2作为初始搜索结果Ⅲ所对应的原创结果信息;同理,对于初始搜索结果Ⅶ,其页面内容common content中包含{本文来源于维普资讯网URL7’},其中,预定指示信息来源的标识信息“本文来源于”指明了初始搜索结果Ⅶ中的页面内容common content来源于URL7’,则在步骤S3中,结果提供设备1可将URL7’作为初始搜索结果Ⅶ所对应的原创结果信息。
3)根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的原创结果信息。例如,对于初始搜索结果Ⅳ,其页面内容common content中包含有{[转]随机游走模型、原文地址URL3},则在步骤S3中,结果提供设备1首先根据预定指示信息来源的标识信息“原文地址”,确定初始搜索结果Ⅳ来源于URL3,而URL3所对应的页面即为初始搜索结果Ⅲ,初始搜索结果Ⅲ其页面内容common content中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机 游走模型(URL2)指明了初始搜索结果Ⅲ的页面内容common content来源于URL2,则在步骤S3中,结果提供设备1最终确定初始搜索结果Ⅳ所对应的原创结果信息为URL2,即初始搜索结果Ⅳ中的页面内容common content转载于初始搜索结果Ⅱ中的页面内容commoncontent。
本领域技术人员应能理解上述确定所述原创结果信息的方式仅为举例,其他现有的或今后可能出现的确定所述原创结果信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S3中,结果提供设备1再根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果。在此,在步骤S3中,结果提供设备1确定与所述目标查询序列相对应的一个或多个目标搜索结果的方式包括但不限于以下至少任一项:
1)将所述原创结果信息代替其所对应的初始搜索结果,以获得所述目标搜索结果。例如,初始获取装置11获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而在步骤S2中,结果提供设备1检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,在步骤S3中,结果提供设备1首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容common content,则在步骤S3中,结果提供设备1可将初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ分别用其所对应的原创结果信息代替,并去除相同的原创结果信息,来获得与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果,即确定与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL5、URL6、URL7’;或者,在步骤S3中,结果提供设备1还可将对应于相同原创结果信息URL2的初始搜索结果Ⅰ、Ⅲ、Ⅳ,以初始搜索结果Ⅰ、Ⅲ、Ⅳ中发布页面内容commoncontent的时间为顺序,以点击隐藏或展现的方式,示出初始搜索结果Ⅰ、Ⅲ、Ⅳ与原创结果信息URL2之间的转载关系,并以此作为所述目标搜索结果,即确定与目标查询序列“随机游走模型(Random SurferModel)”相对应的目标搜索结果为URL2、URL1、URL3、URL4、URL5、URL6、URL7’,如图3所示,其中,该图3中示出各初始搜索结果之间的转载关系:初始搜索结果Ⅰ中的页面内容common content转载于原创结果信息URL2、初始搜索结果Ⅲ中的页面内容common content转载于原创结果信息URL2、初始搜索结果Ⅳ中的页面内容commoncontent转载于初始搜索结果Ⅲ、初始搜索结果Ⅶ中的页面内容commoncontent转载于URL7’。
2)将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,以获得所述目标搜索结果。例如,假设对于初始获取装置11获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,在步骤S2中,结果提供设备1检测发现初始搜索结果Ⅰ至Ⅶ均满足提供其所对应的原创结果信息的触发条件,而在步骤S3中,结果提供设备1首先确定初始搜索结果Ⅰ至Ⅶ所对应的原创结果信息如下表3所示:
Figure BDA0000441681800000281
表3
则在步骤S3中,结果提供设备1可将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,以获得所述目标搜索结果,即获得与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL1’、URL1、URL2’、URL2、URL3’、URL3、URL4’、URL4、URL5’、URL5、URL6’、URL6、URL7’、URL7。
本领域技术人员应能理解上述确定所述目标搜索结果的方式仅为举例,其他现有的或今后可能出现的确定所述目标搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S4中,结果提供设备1通过http、https等约定的通信方式,将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户,如提供给所述用户的用户设备,或者,提供给搜索引擎、浏览器等应用,以由该应用提供给所述用户的用户设备,以供用户浏览和阅读。
结果提供设备1的各个步骤之间是持续不断工作的。具体地,在步骤S1中,结果提供设备1持续获取与目标查询序列相对应的一个或多个初始搜索结果;在步骤S2中,结果提供设备1持续检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;当满足所述触发条件时,在步骤S3中,结果提供设备1持续根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;在步骤S4中,结果提供设备1持续将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。在此,本领域技术人员应能理解“持续”是指结果提供设备1的各个步骤之间分别不断地进行初始搜索结果的获取、提供原创结果信息的触发条件检测、目标搜索结果的确定与提供,直至结果提供设备1在较长时间内停止初始搜索结果的获取。
优选地,结果提供设备1还包括步骤S5(未示出)。具体地,在步骤S5中,结果提供设备1对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果;其中,在步骤S4中,结果提供设备1将去冗余处理后的所述目标搜索结果提供给所述目标查询序列所对应的用户,如提供给所述用户的用户设备,或者,提供给搜索引擎、浏览器等应用,以由该应用提供给所述用户的用户设备,以供用户浏览和阅读。。
具体地,在步骤S5中,结果提供设备1对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果。例如,假设初始获取装置11获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而在步骤S2中,结果提供设备1检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,在步骤S3中,结果提供设备1首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容common content,而在步骤S3中,结果提供设备1将初始搜索结果Ⅰ至Ⅶ中具有对应原创结果信息的初始搜索结果用其对应的原创结果信息代替,本身即是原创结果信息的初始搜索结果保留,则在步骤S3中,结果提供设备1可得到与初始搜索结果Ⅰ至Ⅶ相对应的目标搜索结果如下表4所示:
Figure BDA0000441681800000301
表4
该多个目标搜索结果中存在多个相同的现象,则在步骤S5中,结果提供设备1可对所该多个目标搜索结果进行去冗余处理,如去除相同的目标搜索结果,以获得去冗余处理后的所述目标搜索结果,即确定与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL5、URL6、URL7’。
本领域技术人员应能理解上述对目标搜索结果进行去冗余处理的方式仅为举例,其他现有的或今后可能出现的对目标搜索结果进行去冗余处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S4中,结果提供设备1通过http、https等约定的通信方式,将去冗余处理后的所述目标搜索结果提供给所述目标查询序列所对应的用户,如提供给所述用户的用户设备,或者,提供给搜索引擎、浏览器等应用,以由该应用提供给所述用户的用户设备,以供用户浏览和阅读。
图6示出根据本发明一个优选实施例的一种用于提供搜索结果的方法流程图。
其中,结果提供设备1该方法包括初始结果获取装置11’、检测装置12’、目标结果确定装置13’和提供装置14’步骤S1’、步骤S2’、步骤S3’和步骤S4’,其中,目标结果确定装置13’步骤S3’包括原创结果确定单元131’步骤S31’和目标结果确定单元1步骤S32’。具体地,初始结果获取装置11’在步骤S1’中,结果提供设备1获取与目标查询序列相对应的一个或多个初始搜索结果;检测装置12’在步骤S2’中,结果提供设备1检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;当满足所述触发条件时,原创结果确定单元131’在步骤S31’中,结果提供设备1确定所述初始搜索结果所对应的原创结果信息;目标结果确定单元132’在步骤S32’中,结果提供设备1根据所述一个或多个初始搜索结果,及所述原创结果信息,确定所述一个或多个目标搜索结果;在步骤S4’中,结果提供设备1将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。在此,步骤S1’、步骤S2’和步骤S4’与图5所示实施例中对应步骤的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,当满足所述触发条件时,在步骤S31’中,结果提供设备1确定所述初始搜索结果所对应的原创结果信息。在此,在步骤S31’中,结果提供设备1确定所述初始搜索结果所对应的原创结果信息的方式与图5中在步骤S3中结果提供设备1确定所述初始搜索结果所对应的原创结果信息的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
接着,在步骤S32’中,结果提供设备1根据所述一个或多个初始搜索结果,及所述原创结果信息,确定所述一个或多个目标搜索结果。在此,在步骤S32’中,结果提供设备1确定所述目标搜索结果的方式与图5中在步骤S3中结果提供设备1确定所述目标搜索结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
优选地,在步骤S32’中,结果提供设备1根据所述原创结果信息,对所述一个或多个初始搜索结果进行调整处理,以获得所述目标搜索结果。优选地,所述调整处理包括以下至少任一项:
-将所述原创结果信息代替其所对应的初始搜索结果;
-将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面;
-以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果。
例如,当所述调整处理包括将所述原创结果信息代替其所对应的初始搜索结果时,假设在步骤S1’中,结果提供设备1获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而在步骤S2’中,结果提供设备1检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,则在步骤S32’中,结果提供设备1首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容commoncontent;然后,在步骤S32’中,结果提供设备1可将初始搜索结果Ⅰ至Ⅶ中具有对应原创结果信息的初始搜索结果用其对应的原创结果信息代替,本身即是原创结果信息的初始搜索结果保留,即可得到与初始搜索结果Ⅰ至Ⅶ相对应的目标搜索结果如上述表4所示。
再如,当所述调整处理包括将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面时,假设对于在步骤S1’中,结果提供设备1获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,在步骤S2’中,结果提供设备1检测发现初始搜索结果Ⅰ至Ⅶ均满足提供其所对应的原创结果信息的触发条件,则在步骤S32’中,结果提供设备1首先确定初始搜索结果Ⅰ至Ⅶ所对应的原创结果信息如上述表3所示,然后,在步骤S32’中,结果提供设备1可将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面,以获得所述目标搜索结果,即获得与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL1’、URL1、URL2’、URL2、URL3’、URL3、URL4’、URL4、URL5’、URL5、URL6’、URL6、URL7’、URL7。
还如,当所述调整处理包括以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果时,假设在步骤S1’中,结果提供设备1获取到与目标查询序列“随机游走模型(Random Surfer Model)”相对应的多个初始搜索结果为初始搜索结果Ⅰ至Ⅶ,而在步骤S2’中,结果提供设备1检测发现初始搜索结果Ⅱ、Ⅴ、Ⅵ不满足提供其所对应原创结果信息的触发条件,即初始搜索结果Ⅱ、Ⅴ、Ⅵ本身即属于原创的初始搜索结果,则在步骤S32’中,结果提供设备1首先确定满足提供对应原创结果信息的初始搜索结果Ⅰ、Ⅲ、Ⅳ、Ⅶ所对应的原创结果信息分别为URL2、URL2、URL2、URL7’,即初始搜索结果Ⅰ、Ⅲ、Ⅳ中的页面内容common content均转载于初始搜索结果Ⅱ中的页面内容common content;然后,在步骤S32’中,结果提供设备1可按照属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列初始搜索结果Ⅰ至Ⅶ,即首先设置属于原创的初始搜索结果的优先级高于非原创的初始搜索结果的优先级,然后,非原创的初始搜索结果对应的原创结果信息排在该非原创的初始搜索结果的前面,在步骤S32’中,结果提供设备1可获得与目标查询序列“随机游走模型(Random Surfer Model)”相对应的目标搜索结果为URL2、URL5、URL6、URL2、URL1URL2、URL3URL2、URL4、URL7’、URL7,其中,URL2属于URL1(即初始搜索结果Ⅰ)的原创结果信息,也属于URL3(即初始搜索结果Ⅲ)的原创结果信息,还属于URL4(即初始搜索结果Ⅳ)的原创结果信息。
本领域技术人员应能理解上述对初始搜索结果进行调整处理的方式仅为举例,其他现有的或今后可能出现的对初始搜索结果进行调整处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,当满足所述触发条件时,在步骤S31’中,结果提供设备1可根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,确定该初始搜索结果所对应的原创结果信息,如根据所述预定指示信息来源的标识信息所对应的标题名称链接,将该标题名称链接所指向的页面作为所述原创结果信息。例如,对于初始搜索结果Ⅰ,其所对应的页面内容common content中包含的预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指向页面URL2,则在步骤S31’中,结果提供设备1可将URL2作为初始搜索结果Ⅰ所对应的原创结果信息;再如,对于初始搜索结果Ⅲ,其页面内容common content中包含{[转载]随机游走模型(RandomSurfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指明了初始搜索结果Ⅲ中的页面内容common content来源于URL2,则在步骤S31’中,结果提供设备1可将URL2作为初始搜索结果Ⅲ所对应的原创结果信息;同理,对于初始搜索结果Ⅶ,其页面内容common content中包含{本文来源于维普资讯网URL7’},其中,预定指示信息来源的标识信息“本文来源于”指明了初始搜索结果Ⅶ中的页面内容common content来源于URL7’,则在步骤S31’中,结果提供设备1可将URL7’作为初始搜索结果Ⅶ所对应的原创结果信息。
更优选地,步骤S31’包括步骤S311’(未示出)和步骤S312’(未示出)。具体地,当满足所述触发条件时,在步骤S311’中,结果提供设备1根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的多个候选原创结果信息,其中,所述多个候选原创结果信息均包含所述标识信息所对应的转载内容部分;在步骤S312’中,结果提供设备1根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。
具体地,满足所述触发条件时,在步骤S311’中,结果提供设备1根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的多个候选原创结果信息,其中,所述多个候选原创结果信息均包含所述标识信息所对应的转载内容部分。例如,对于初始搜索结果Ⅳ,其页面内容common content中包含有{[转]随机游走模型、原文地址URL3},则在步骤S311’中,结果提供设备1首先根据预定指示信息来源的标识信息“原文地址”,确定初始搜索结果Ⅳ来源于URL3,而URL3所对应的页面即为初始搜索结果Ⅲ,初始搜索结果Ⅲ其页面内容common content中包含{[转载]随机游走模型(Random Surfer Model)、原文地址随机游走模型(URL2)},预定指示信息来源的标识信息“原文地址”所对应的标题名称链接随机游走模型(URL2)指明了初始搜索结果Ⅲ的页面内容common content来源于URL2,则在步骤S311’中,结果提供设备1确定初始搜索结果Ⅳ所对应的候选原创结果信息为URL3和URL2,其中,候选原创结果信息URL3和URL2均包含所述标识信息所对应的转载内容部分即页面内容common content。
本领域技术人员应能理解上述确定所述初始搜索结果所对应的多个候选原创结果信息的方式仅为举例,其他现有的或今后可能出现的确定所述初始搜索结果所对应的多个候选原创结果信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S312’中,结果提供设备1根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。例如,接上例,在步骤S311’中,结果提供设备1确定初始搜索结果Ⅳ所对应的候选原创结果信息为URL3和URL2,而候选原创结果信息URL3发布转载内容common content的时间分别为2012-08-09,候选原创结果信息URL2发布转载内容common content的时间分别为2012-01-20,则在步骤S312’中,结果提供设备1可根据候选原创结果信息URL3与URL2发布转载内容common content的发布时间,将发布转载内容common content较早的候选原创结果信息URL2作为初始搜索结果Ⅳ所对应的原创结果信息。
更优选地,在步骤S312’中,结果提供设备1还可根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,结合所述候选原创结果信息所对应的原创内容发布比例信息,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。例如,还接上例,在步骤S311’中,结果提供设备1确定初始搜索结果Ⅳ所对应的候选原创结果信息为URL3和URL2,而候选原创结果信息URL3发布转载内容common content的时间分别为2012-08-09,候选原创结果信息URL2发布转载内容common content的时间分别为2012-01-20,虽然候选原创结果信息URL2发布转载内容commoncontent的时间早于候选原创结果信息URL3发布转载内容commoncontent的时间,假设候选原创结果信息URL2所对应的原创内容发布比例信息小于候选原创结果信息URL3所对应的原创内容发布比例信息,或者候选原创结果信息URL2所对应的原创内容发布比例信息小于预定原创内容发布比例信息如80%,而候选原创结果信息URL3所对应的原创内容发布比例信息大于该预定原创内容发布比例信息如80%,则在步骤S312’中,结果提供设备1可确定原创内容发布比例信息较高的候选原创结果信息URL3作为初始搜索结果Ⅳ所对应的原创结果信息。
本领域技术人员应能理解上述结合所述原创内容发布比例信息确定所述初始搜索结果所对应的原创结果信息的方式仅为举例,其他现有的或今后可能出现的结合所述原创内容发布比例信息确定所述初始搜索结果所对应的原创结果信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于提供搜索结果的方法,其中,该方法包括以下步骤:
a获取与目标查询序列相对应的一个或多个初始搜索结果;
b检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;
c当满足所述触发条件时,根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;
d将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。
2.根据权利要求1所述的方法,其中,所述触发条件包括以下至少任一项:
-所述初始搜索结果所对应的页面满足非原创页面特征信息;
-所述初始搜索结果所对应的页面内容信息中包含预定指示信息来源的标识信息。
3.根据权利要求1或2所述的方法,其中,所述步骤c包括:
c1当满足所述触发条件时,确定所述初始搜索结果所对应的原创结果信息;
c2根据所述一个或多个初始搜索结果,及所述原创结果信息,确定所述一个或多个目标搜索结果。
4.根据权利要求3所述的方法,其中,所述步骤c1包括:
-当满足所述触发条件时,根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,确定该初始搜索结果所对应的原创结果信息。
5.根据权利要求4所述的方法,其中,所述步骤c1包括:
-当满足所述触发条件时,根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的多个候选原创结果信息,其中,所述多个候选原创结果信息均包含所述标识信息所对应的转载内容部分;
c11根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。
6.根据权利要求5所述的方法,其中,所述步骤c11包括:
-根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,结合所述候选原创结果信息所对应的原创内容发布比例信息,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。
7.根据权利要求3至6中任一项所述的方法,其中,所述步骤c2包括:
-根据所述原创结果信息,对所述一个或多个初始搜索结果进行调整处理,以获得所述目标搜索结果。
8.根据权利要求7所述的方法,其中,所述调整处理包括以下至少任一项:
-将所述原创结果信息代替其所对应的初始搜索结果;
-将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面;
-以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果。
9.根据权利要求1至8中任一项所述的方法,其中,该方法还包括:
-对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果;
其中,所述步骤d包括:
-将去冗余处理后的所述目标搜索结果提供给所述目标查询序列所对应的用户。
10.一种用于提供搜索结果的结果提供设备,其中,该结果提供设备包括:
初始结果获取装置,用于获取与目标查询序列相对应的一个或多个初始搜索结果;
检测装置,用于检测是否满足提供所述初始搜索结果所对应的原创结果信息的触发条件;
目标结果确定装置,用于当满足所述触发条件时,根据所述一个或多个初始搜索结果,及所述原创结果信息,确定与所述目标查询序列相对应的一个或多个目标搜索结果;
提供装置,用于将所述一个或多个目标搜索结果提供给所述目标查询序列所对应的用户。
11.根据权利要求10所述的结果提供设备,其中,所述触发条件包括以下至少任一项:
-所述初始搜索结果所对应的页面满足非原创页面特征信息;
-所述初始搜索结果所对应的页面内容信息中包含预定指示信息来源的标识信息。
12.根据权利要求10或11所述的结果提供设备,其中,所述目标结果确定装置包括:
原创结果确定单元,用于当满足所述触发条件时,确定所述初始搜索结果所对应的原创结果信息;
目标结果确定单元,用于根据所述一个或多个初始搜索结果,及所述原创结果信息,确定所述一个或多个目标搜索结果。
13.根据权利要求12所述的结果提供设备,其中,所述原创结果确定单元用于:
-当满足所述触发条件时,根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,确定该初始搜索结果所对应的原创结果信息。
14.根据权利要求13所述的结果提供设备,其中,所述原创结果确定单元包括:
候选原创确定单元,用于当满足所述触发条件时,根据所述初始搜索结果所对应的页面信息中包含的预定指示信息来源的标识信息,以及该信息来源所对应的页面中包含的预定指示信息来源的标识信息,递归确定该初始搜索结果所对应的多个候选原创结果信息,其中,所述多个候选原创结果信息均包含所述标识信息所对应的转载内容部分;
确定单元,用于根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。
15.根据权利要求14所述的结果提供设备,其中,所述确定单元用于:
-根据所述候选原创结果信息中关于所述标识信息所对应的转载内容部分的发布时间,结合所述候选原创结果信息所对应的原创内容发布比例信息,从所述多个候选原创结果信息中确定所述初始搜索结果所对应的原创结果信息。
16.根据权利要求12至15中任一项所述的结果提供设备,其中,所述目标结果确定单元用于:
-根据所述原创结果信息,对所述一个或多个初始搜索结果进行调整处理,以获得所述目标搜索结果。
17.根据权利要求16所述的结果提供设备,其中,所述调整处理包括以下至少任一项:
-将所述原创结果信息代替其所对应的初始搜索结果;
-将所述原创结果信息以相邻方式插入其所对应的初始搜索结果的前面;
-以属于原创的所述初始搜索结果、所述原创结果信息、所述原创结果信息所对应的初始搜索结果的次序排列所述一个或多个初始搜索结果。
18.根据权利要求10至17中任一项所述的结果提供设备,其中,该结果提供设备还包括:
去冗余装置,用于对所述一个或多个目标搜索结果进行去冗余处理,以获得去冗余处理后的所述目标搜索结果;
其中,所述提供装置用于:
-将去冗余处理后的所述目标搜索结果提供给所述目标查询序列所对应的用户。
CN201310706161.8A 2013-12-19 2013-12-19 一种用于提供搜索结果的方法与设备 Active CN103744876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310706161.8A CN103744876B (zh) 2013-12-19 2013-12-19 一种用于提供搜索结果的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310706161.8A CN103744876B (zh) 2013-12-19 2013-12-19 一种用于提供搜索结果的方法与设备

Publications (2)

Publication Number Publication Date
CN103744876A true CN103744876A (zh) 2014-04-23
CN103744876B CN103744876B (zh) 2017-02-08

Family

ID=50501894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310706161.8A Active CN103744876B (zh) 2013-12-19 2013-12-19 一种用于提供搜索结果的方法与设备

Country Status (1)

Country Link
CN (1) CN103744876B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776609A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106951913A (zh) * 2017-02-13 2017-07-14 上海优刻得信息科技有限公司 进行数据交换的方法,云平台和系统
CN110633993A (zh) * 2018-06-01 2019-12-31 厦门本能管家科技有限公司 一种可追溯的信息发布方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504666A (zh) * 2009-03-23 2009-08-12 候万春 在互联网上按照源内容进行搜索的方法
CN102024031A (zh) * 2010-11-25 2011-04-20 百度在线网络技术(北京)有限公司 一种用于基于实时搜索提供第二搜索结果的方法与设备
CN103235821A (zh) * 2013-04-27 2013-08-07 百度在线网络技术(北京)有限公司 原创内容的搜索方法和搜索服务器
JP2013232180A (ja) * 2012-04-05 2013-11-14 Denso Corp 検索装置、検索方法およびそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504666A (zh) * 2009-03-23 2009-08-12 候万春 在互联网上按照源内容进行搜索的方法
CN102024031A (zh) * 2010-11-25 2011-04-20 百度在线网络技术(北京)有限公司 一种用于基于实时搜索提供第二搜索结果的方法与设备
JP2013232180A (ja) * 2012-04-05 2013-11-14 Denso Corp 検索装置、検索方法およびそのプログラム
CN103235821A (zh) * 2013-04-27 2013-08-07 百度在线网络技术(北京)有限公司 原创内容的搜索方法和搜索服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776609A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106776609B (zh) * 2015-11-19 2020-05-22 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106951913A (zh) * 2017-02-13 2017-07-14 上海优刻得信息科技有限公司 进行数据交换的方法,云平台和系统
CN110633993A (zh) * 2018-06-01 2019-12-31 厦门本能管家科技有限公司 一种可追溯的信息发布方法及系统

Also Published As

Publication number Publication date
CN103744876B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
CN105488024B (zh) 网页主题句的抽取方法及装置
JP2017220203A (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20110307432A1 (en) Relevance for name segment searches
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN103294781A (zh) 一种用于处理页面数据的方法与设备
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
US9251202B1 (en) Corpus specific queries for corpora from search query
US11249993B2 (en) Answer facts from structured content
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN104462259A (zh) 一种用于提供时效性图片搜索结果的方法与设备
CN104090904A (zh) 一种用于提供目标搜索结果的方法与设备
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
JP2015144011A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
CN103365876A (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN103744876A (zh) 一种用于提供搜索结果的方法与设备
KR101544142B1 (ko) 화제도 기반의 검색 제공 방법 및 시스템
CN103530418B (zh) 信息搜索与发布方法与系统
TW201741911A (zh) 資料推薦的處理互動方法、裝置及系統

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant