CN103235783B - 一种用于确定优选搜索结果的方法与设备 - Google Patents

一种用于确定优选搜索结果的方法与设备 Download PDF

Info

Publication number
CN103235783B
CN103235783B CN201310104855.4A CN201310104855A CN103235783B CN 103235783 B CN103235783 B CN 103235783B CN 201310104855 A CN201310104855 A CN 201310104855A CN 103235783 B CN103235783 B CN 103235783B
Authority
CN
China
Prior art keywords
sequence
search
result
search results
relevant inquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310104855.4A
Other languages
English (en)
Other versions
CN103235783A (zh
Inventor
许心诺
栗晓华
时迎超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310104855.4A priority Critical patent/CN103235783B/zh
Publication of CN103235783A publication Critical patent/CN103235783A/zh
Application granted granted Critical
Publication of CN103235783B publication Critical patent/CN103235783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于确定优选搜索结果的方法与设备。具体地,获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。其中,与现有技术相比,本发明通过确定多个相关查询序列所对应的一个或多个优选搜索结果,不仅较好地涵盖了用户的搜索需求,也提高了用户获取信息的效率及信息准确度,提升了用户的搜索体验。

Description

一种用于确定优选搜索结果的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于确定优选搜索结果的技术。
背景技术
当前,随着互联网技术的发展及互联网应用对用户学习、工作与生活的渗透,人们越来越多地通过网络获取信息,如通过搜索引擎输入查询序列,搜索引擎返回给用户与查询序列相匹配的普通搜索结果。然而,不同用户搜索相同内容时,输入的查询序列并不尽相同,现有的搜索引擎仅机械重复执行查询序列匹配操作,而忽略了查询序列所涵盖的用户查询需求,无法提供多个相关查询序列所对应的优选搜索结果,致使所提供的普通搜索结果与用户期望不相配,影响了用户获取信息的效率及信息准确度。
发明内容
本发明的目的是提供一种于确定优选搜索结果的方法与设备。
根据本发明的一个方面,提供了一种于确定优选搜索结果的方法,其中,该方法包括以下步骤:
a获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;
b根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
根据本发明的另一个方面,还提供了一种于确定优选搜索结果的确定设备,其中,该确定设备包括:
获取装置,用于获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;
结果确定装置,用于根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
根据本发明的又一个方面,还提供了一种用于确定优选搜索结果的搜索引擎,其中,该搜索引擎包括如前述根据本发明一个方面的用于确定优选搜索结果的确定设备。
根据本发明的还一个方面,还提供了一种用于确定优选搜索结果的搜索引擎插件,其中,该搜索引擎插件包括如前述根据本发明一个方面的用于确定优选搜索结果的确定设备。
与现有技术相比,本发明通过确定多个相关查询序列所对应的一个或多个优选搜索结果,不仅较好地涵盖了用户的搜索需求,也提高了用户获取信息的效率及信息准确度,相应地,也提升了用户的搜索体验。而且,本发明还可根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果,从而进一步地提高了用户获取信息的效率。此外,本发明还可根据所述多个相关查询序列及所述优选搜索结果,建立或更新序列结果数据库,使得可在所述序列结果数据库中根据用户的目标查询序列进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇,将所述目标序列簇所对应的一组优选搜索结果提供给所述目标查询序列所对应的应用,从而更进一步地提高了用户获取信息的效率,提升了用户的搜索体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定优选搜索结果的设备示意图;
图2示出根据本发明一个优选实施例的用于确定优选搜索结果的设备示意图;
图3示出根据本发明一个优选实施例的用于确定优选搜索结果的多个相关序列与多个搜索结果之间的序列结果映射关系示意图;
图4示出根据本发明另一个方面的用于确定优选搜索结果的方法流程图;
图5示出根据本发明一个优选实施例的用于确定优选搜索结果的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定优选搜索结果的确定设备1,其中,确定设备1包括获取装置11和结果确定装置12。具体地,获取装置11获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;结果确定装置12根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,获取装置11获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果。在此,所述多个相关查询序列是指查询序列之间有关联关系的查询序列集合,其中,所述相关查询序列包括但不限于以下至少任一项:1)名称不同但表达的意思相同的同义查询序列,如“英语培训”与“英文培训”;2)意思相近的近义查询序列,如“英语培训”与“外文培训”。本领域技术人员应能理解上述相关查询序列仅为举例,其他现有的或今后可能出现的相关查询序列如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,获取装置11首先通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取多个搜索日志;然后,对该多个搜索日志进行语义分析处理,来获取多个相关查询序列;接着,再通过搜索日志、网页数据库等分别获取各个查询序列所对应的搜索结果,如用户点击了搜索引擎返回的与该多个相关查询序列相匹配的搜索结果中的哪些搜索结果,以作为所述相关查询序列对应的多个搜索结果。例如,获取装置11通过搜索引擎的提供的获取搜索日志的应用程序接口(API),获取到多个搜索日志,如在某段时间内,用户提交的搜索包括了哪些关键词、用户点击了哪些返回的搜索结果等;然后,获取装置11对这些搜索日志中的查询序列进行语义分析处理,得到多个相关查询序列,如由多个同义序列组成的同义序列簇,如由与关键词“英语培训”属于同义近义词的关键词如“英语培训”、“英文培训”、“英语培训”、“外语培训”等组成的同义序列簇;然后,获取装置11将搜索日志中记录的用户点击的与该多个相关查询序列相匹配的搜索结果作为该多个相关查询序列对应的多个搜索结果,如“北京英语培训首选EF英孚,海量职场英语培训资料下载!”、“EF英孚教育官网,全球卓著英语培训专家”、“北京新东方英语培训北京雅思培训托付培训北京考研培训出国...”等,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果。
优选地,获取装置11还可首先通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取多个搜索日志,从该多个搜索日志中获取多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果,如将搜索日志中用户点击的与候选查询序列相对应的搜索结果作为该候选查询序列对应所述候选搜索结果,或者,根据搜索日志中用户的点击搜索比,确定所述候选查询序列所对应的搜索结果,如根据不同用户以输入所述候选查询序列执行搜索请求时返回的多个搜索结果对应的点击搜索比,从该多个搜索结果中优选出若干个搜索结果,以作为该候选查询序列所对应的搜索结果;然后,根据所述候选搜索结果,从所述多个候选查询序列中选择多个相关的候选查询序列,以作为所述多个相关查询序列,并将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果。
例如,假设获取装置11通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取到搜索日志中记录的多个候选查询序列,以及用户点击的每个候选查询序列所对应的候选搜索结果为如下的搜索记录I至VII:
I“英语培训”:
“EF英孚教育官网,全球卓著英语培训专家”
“英语培训-韦博英语让学习英语变得如此简单!”
“北京新东方英语培训 北京雅思培训 托付培训 北京考研培训 出国...”
II“英语 培训”:
“英语 培训 报名即享圣诞劲爆豪华大礼”
“EF英孚教育官网,全球卓著英语培训专家”
“新东方雅思培训”
III“英文培训”:
“北京英语培训韦博英语-我们专注于成人英语培训!(官网)”
“北京新东方英语培训 北京雅思培训 托付培训 北京考研培训出国...”
IV“鲜花”:
“鲜花3小时鲜花 首先中国鲜花网!!”
“温馨鲜花网鲜花”
“鲜花,我只选中国鲜花速递网!100%品质保证”
V“鲜花速递”:
“鲜花,我只选中国鲜花速递网!100%品质保证”
“送花上门 鲜花 速递 天天鲜花网”
VI“危险的森林有感”:
“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”(http://q.sohu.com/forum/14/topic/48390493)
“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”(http://liuyonglin2006.blog.sohu.com/151643301.html)
“《危险的森林》-读后感-网上现金棋牌游戏下载”(http://14972.eduol.cn/archives/2012/1145765.html)
VII“危险的森林有感”:
“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”(http://q.sohu.com/forum/14/topic/48390493)
“危险的森林读后感 黄靖毅 五(5)_百度文库”(http://wenku.baidu.com/view/b76bb53287c24028915fc3f2.html)
“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”(http://liuyonglin2006.blog.sohu.com/151643301.html)
“《危险的森林》-读后感-网上现金棋牌游戏下载”(http://14972.eduol.cn/archives/2012/1145765.html),
则获取装置11通过诸如对搜索记录I至VII对应的搜索结果如搜索结果对应标题链接文本进行语义分析,通过确定搜索结果对应标题链接文本中相同或相近文本出现的次数,来确定搜索记录I至VII之间的相关度,从而得到搜索记录I至VII的分类:①搜索记录I至III相关,其归为一类;②搜索记录IV和V相关,其归为另一类;③搜索记录VI和VII相关,其归为一类;然后,获取装置11根据获得的搜索记录分类,从所述多个候选查询序列中选择多个相关的候选查询序列,以作为所述多个相关查询序列,如将属于同一类的搜索结果所对应的查询序列作为相关的查询序列,如获得与搜索记录I至III对应的多个相关序列如相关查询序列簇cluster1,其包括“英语培训”、“英文培训”、“英语培训”,与搜索记录IV和V对应的多个相关序列如相关查询序列簇cluster2,其包括“鲜花”、鲜花速递”,与搜索记录VI和VII对应的多个相关序列如相关查询序列簇cluster3,其包括“危险的森林有感”、“危险的森林有感”;接着,获取装置11将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果,如相关查询序列簇cluster1对应的搜索结果包括如“EF英孚教育官网,全球卓著英语培训专家”、“英语培训-韦博英语让学习英语变得如此简单!”、“北京新东方英语培训北京雅思培训托付培训北京考研培训出国...”、“英语培训报名即享圣诞劲爆豪华大礼”、“新东方雅思培训”、“北京英语培训韦博英语-我们专注于成人英语培训!(官网)”,相关查询序列簇cluster2对应的搜索结果包括如“鲜花3小时鲜花首先中国鲜花网!!”、“温馨鲜花网鲜花”、“鲜花,我只选中国鲜花速递网!100%品质保证”、“送花上门鲜花速递天天鲜花网”,如相关查询序列cluster3对应的搜索结果包括如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”、“危险的森林读后感黄靖毅五(5)_百度文库”。
优选地,获取装置11还可首先通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取多个搜索日志,从该多个搜索日志中获取多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果;然后,根据所述多个候选查询序列的相关度,确定所述多个相关查询序列,并将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果。
例如,假设获取装置11通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取到搜索日志中记录的多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果为上述搜索记录I至VII;接着,获取装置11确定所述多个候选查询序列的相关度,以根据所述多个候选查询序列的相关度,确定所述多个相关查询序列。在此,获取装置11确定所述相关度的方式包括但不限于以下至少任一项:
1)根据所述多个候选查询序列对应的特征向量,确定所述相关度。在此,所述特征向量包括但不限于以下至少任一项特征分量:①.X特征分量:由所述候选查询序列经分词处理后得到的所对应的序列语义特征信息构成的向量,如所述候选查询序列所对应的基本词经分词处理后得到的词袋所构成的向量,如对于序列query1“英语培训”,分词后得到“英语 培训”,对应向量可表示为{x1:英语、x2:培训},其中,分量xi对应的向量系数为其TFIDF(词频-反文档频率,term frequency-inverse document frequency)值;其对应的X特征分量为“英语培训”,再如,对于序列query2“求鸡蛋的做法、鸡蛋菜谱、家常鸡蛋怎么做、菜谱大全”,分词后得到“求 鸡蛋 的 做法 鸡蛋 菜谱 家常 鸡蛋 怎么做 菜谱 大全”,去掉停用词、语法等,对应向量可表示为{x1:鸡蛋、x2:做法、x3:菜谱、x4:家常、x5:大全}其对应的X特征分量的为“求鸡蛋的做法、鸡蛋菜谱、家常鸡蛋怎么做”,其中,分量xi对应的向量系数为其TFIDF值。在此,X特征分量对应的向量系数为所述序列的TFIDF(词频-反文档频率,term frequency-inverse document frequency)值可对大批量网页(如N篇网页)进行统计近似地得到DF值,例如以词语“鸡蛋”为例,若词语“鸡蛋”出现在10000篇网页中,则其DF值为10000,而词语“鸡蛋”在分词后的词袋中出现了3次,则词语“鸡蛋”在分词后的词袋中的词频即TF值为3/11,从而,词语“鸡蛋”的对应的TFIDF值为(3/11)*log(N/10000);②.Y特征分量:由所述候选查询序列所对应的前N个搜索结果对应的标题和/或摘要信息进行分词后得到的词袋所构成的向量。在此,Y特征分量对应的向量系数可包括所述候选查询序列所对应的搜索结果历史总点击信息、平均点击信息等。在此,确定Y特征分量对应的向量的方式与确定X特征分量对应的向量的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此;③.Z特征分量:由用户点击所述候选查询序列序列对应的搜索结果的历史点击信息构成的向量。在此,Z特征分量对应的向量系数可包括所述候选查询序列所对应的搜索结果历史总点击信息、平均点击信息等。例如,若对于query1“英语培训”,在搜索日志记录中,用户点击query1对应的搜索结果url11、url12、url13对应的点击次数分别为3次、4次、1次,则可用向量{url1,url2,url3}表示query1。在此,所述特征向量包括但不限于以下至少任一项:1)由所述特征分量直接组成;2)根据所述特征分量对应的权重信息,加权得到所述特征向量。本领域技术人员应能理解上述特征向量和特征分量仅为举例,其他现有的或今后可能出现的特征向量或特征分量如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,获取装置11确定所述多个候选查询序列对应的特征向量的方式包括但不限于以下至少任一项:
1)根据预设的所述特征分量,由所述特征分量直接组成所述特征向量,如所述特征向量可表示为假设获取装置11获取的搜索记录I对应的候选查询序列“英语培训”经分词后得到“英语 培训”,则特征分量可表示为{x1:英语、x2:培训},若x1、x2对应的TFIDF值分别为0.9、0.9,则特征分量对于特征分量假设候选查询序列“英语培训”在近200天的搜索日志中搜索结果url1“EF英孚教育官网,全球卓著英语培训专家”的点击总次数最多如为1万次,经分词后得到“EF 英孚 教育 官网 全球 卓著英语 培训 专家”,去掉停用词、语法等,特征分量可表示为{y1:英孚、y2:教育、y3:英语、y4:培训、y5:专家},若y1、y2、y3、y4、y5对应的TFIDF值分别为0.7、0.77、0.9、0.9、0.3,则特征分量 Y → = 0.7 y 1 → + 0.77 y 2 → + 0.9 y 3 → + 0.9 y 4 → + 0.3 y 5 → , 对于特征分量若候选查询序列“英语培训”在近200天的搜索日志中搜索结果url1“EF英孚教育官网,全球卓著英语培训专家”、url2“英语培训-韦博英语让学习英语变得如此简单!”、url3“北京新东方英语培训北京雅思培训托付培训北京考研培训出国...”对应的点击次数分别为4次、3次、1次,则特征分量则序列簇获取装置13确定序列“英语培训”的特征向量为 T → = ( 0.9 x 1 → + 0.9 x 2 → ) + ( 0.7 y 1 → + 0.77 y 2 → + 0.9 y 3 → + 0.9 y 4 → + 0.3 y 5 → ) + ( 4 ur → l 1 + 3 ur → l 2 + 1 ur → l 3 ) .
2)根据预设的所述特征分量,基于所述特征分量所对应的权重信息,加权确定所述特征向量。例如,还接上例,假设特征分量对应的权重分别为0.4、0.2,则获取装置11确定序列“英语培训”的特征向量为 T → = 0.4 * ( 0.9 x 1 → + 0.9 x 2 → ) + 0.2 * ( 0.7 y 1 → + 0.77 y 2 → + 0.9 y 3 → + 0.9 y 4 → + 0.3 y 5 → ) + ( 4 ur → l 1 + 3 ur → l 2 + 1 ur → l 3 ) .
本领域技术人员应能理解上述确定所述多个候选查询序列对应的特征向量的方式仅为举例,其他现有的或今后可能出现的确定所述多个候选查询序列对应的特征向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,获取装置11根据所述多个候选查询序列对应的特征向量,确定所述相关度。具体地,获取装置11可根据所述多个候选查询序列对应的特征向量对应的各特征分量之间的夹角余弦值;然后根据该各特征分量之间的夹角余弦值,结合各特征分量的权重信息,加权确定所述多个候选查询序列的特征向量之间的夹角余弦值,以确定所述相关度。例如,假设候选查询序列“英语培训”、“英语 培训”、“英文培训”的特征向量分别为: T 1 → = X → 1 + Y 1 → + Z → 1 , T 2 → = X → 2 + Y 2 → + Z → 2 , T 3 → = X → 3 + Y 3 → + Z → 3 , 获取装置11首先根据向量对应的各特征分量之间的夹角余弦值如:对于之间的各特征分量:如对于特征分量计算得到 sim 1 = cos ( X 1 → , X 2 → ) = 0.9 , 对于特征分量计算得到 sim 2 = cos ( Y 1 → , Y 2 → ) = 0.9 , 对于特征分量计算得到则获取装置11可得到之间的相似度如 similarity ( T 1 → , T 2 → ) = a * sim 1 + b * sim 2 + c * sim 3 , 其中,a,b,c为对应特征分量的权重信息,满足a+b+c=1,在此,a,b,c数值信息可通过机器学习确定,也可包括预定值,若确定a=0.5,b=0.3,c=0.2,则获取装置11可计算得到之间的相似度为 similarity ( T 1 → , T 2 → ) = a * sim 1 + b * sim 2 + c * sim 3 = 0.5 * 0.9 + 0.3 * 0.9 + 0.2 * 0.6 = 0.84 , 大于预定阈值如0.8,之间的相似度为大于预定阈值0.8。
2)根据所述候选搜索结果对应的站点置信度,确定所述相关度,如将两个候选查询序列各自对应的各候选搜索结果对应的站点之间置信度差的绝对值的最小值与数值1的差值,作为该两个候选查询序列的相关度。例如,对于搜索记录I与II,假设搜索记录I中的候选查询序列“英语培训”对应的各搜索结果的站点与搜索记录II中的候选查询序列“英语培训”对应的各搜索结果的站点之间的站点置信度差的最小值为0,则获取装置11确定候选查询序列“英语培训”与候选查询序列“英语培训”的相关度为1。
本领域技术人员应能理解上述确定所述相关度的方式仅为举例,其他现有的或今后可能出现的确定所述相关度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,获取装置11根据所述多个候选查询序列的相关度,确定所述多个相关查询序列,以将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果。例如,获取装置11得到特征向量之间的相似度0.84,大于预定阈值如0.8,之间的相似度为也大于预定阈值0.8,则获取装置11将特征向量对应的序列作为相关查询序列簇cluster1,类似地,获取装置11还可得到相关查询序列簇cluster2,其包括“鲜花”、鲜花 速递”,相关查询序列簇cluster3,其包括“危险的森林有感”、“危险的森林 有感”;接着,获取装置11将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果,如相关查询序列簇cluster1对应的搜索结果包括如“EF 英孚教育官网,全球卓著英语培训专家”、“英语培训-韦博英语让学习英语变得如此简单!”、“北京新东方英语培训 北京雅思培训托付培训 北京考研培训出国...”、“英语 培训 报名即享圣诞劲爆豪华大礼”、“新东方雅思培训”、“北京英语培训韦博英语-我们专注于成人英语培训!(官网)”,相关查询序列簇cluster2对应的搜索结果包括如“鲜花3小时鲜花首先中国鲜花网!!”、“温馨鲜花网鲜花”、“鲜花,我只选中国鲜花速递网!100%品质保证”、“送花上门鲜花速递天天鲜花网”,如相关查询序列cluster3对应的搜索结果包括如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”、“危险的森林读后感 黄靖毅五(5)_百度文库”。
本领域技术人员应能理解上述获取多个相关查询序列及对应的多个搜索结果的方式仅为举例,其他现有的或今后可能出现的获取多个相关查询序列及对应的多个搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
结果确定装置12根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,所述优选搜索结果包括与所述多个相关查询序列相匹配的高质量、高权威的搜索结果,及与用户的搜索需求真正相符合的搜索结果。具体地,结果确定装置12根据获取装置11获取的所述多个搜索结果,对该多个搜索结果进行统计,将出现次数满足大于一定阈值的搜索结果作为所述优选搜索结果。例如,接上例,对于多个相关查询序列如相关查询序列簇cluster3,结果确定装置12对相关查询序列簇cluster3所对应的多个搜索结果进行统计,将出现次数满足大于一定阈值如2次的搜索结果作为所述优选搜索结果,则可得到相关查询序列簇cluster3所对应的所述优选搜索结果包括如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”。
本领域技术人员应能理解上述确定优选搜索结果的方式仅为举例,其他现有的或今后可能出现的确定优选搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
确定设备1的各个装置之间是持续不断工作的。具体地,获取装置11持续获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;结果确定装置12持续根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,本领域技术人员应当理解“持续”是指确定设备1的各个装置分别不断地进行多个相关查询序列及对应的多个搜索结果的获取、优选搜索结果的确定,直至确定设备1在超长时间内停止多个相关查询序列及对应的多个搜索结果的获取。
优选地,确定设备1还包括合成结果确定装置(未示出)。具体地,合成结果确定装置根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。具体地,合成结果确定装置根据可首先根据所述一个或多个优选搜索结果中至少一个,通过诸如包容器(wrapper)、基于视觉的网页分块算法VIPS(Vision-based page segmentation)、HTML标签分析法,从该一个或多个优选搜索结果中至少一个所对应的页面中抽取出页面正文内容;然后,通过对该等页面正文内容进行语义分析,并比较该等页面正文内容,从中筛选出相同或相似的页面内容描述,将该相同的页面内容描述作为与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。例如,接上例,对于相关查询序列如相关查询序列簇cluster3,结果确定装置12确定的与其对应的所述优选搜索结果包括:
优选搜索结果I:“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”(http://q.sohu.com/forum/14/topic/48390493),
优选搜索结果II:“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”(http://liuyonglin2006.blog.sohu.com/151643301.html),
优选搜索结果III:“《危险的森林》-读后感-网上现金棋牌游戏下载”(http://14972.eduol.cn/archives/2012/1145765.html),
假设合成结果确定装置首先通过基于视觉的网页分块算法VIPS,从优选搜索结果I至III各自所对应的页面中抽取出页面正文内容分别为正文内容I至III:
优选搜索结果I对应的正文内容I:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”
优选搜索结果II对应的正文内容II:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”
优选搜索结果III对应的正文内容III:该页面中详细描述“危险的森林”内容及作者评论的第二段“主人公艾赫是个在渐渐长大的少年,...,他的结局自然很悲惨了”,
则合成结果确定装置通过对正文内容I至III进行语义分析,并比较正文内容I至III,发现正文内容I和正文内容II的描述相同或相似,则合成结果确定装置将该相同或相似的页面内容描述如“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”作为与所述多个相关查询序列如相关查询序列簇cluster3相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。
更优选地,合成结果确定装置还可首先根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的页面相关内容;然后,根据所述页面相关内容,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。具体地,合成结果确定装置首先对所述一个或多个优选搜索结果中至少一个的页面内容进行语义分析,确定与所述多个相关查询序列相对应的页面相关内容;然后,再根据所述页面相关内容,确定所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分;接着,比较确定的所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分,以对该等页面内容进行相互验证,从中筛选出相同或相似的页面内容描述;然后,根据筛选出的该相同或相似的页面内容描述,从所述一个或多个优选搜索结果中至少一个对应的页面内容除该相同或相似的页面内容描述之外其他内容中确定与所述多个相关查询序列相匹配的辅助内容信息,如在其他维度上与所述多个相关查询序列相匹配的页面内容,并将其与相同或相似的页面内容描述合并,按预定页面样式,生成所述合成搜索结果,以更新所述一个或多个优选搜索结果。例如,还接上例,合成结果确定装置首先对结果确定装置12确定的与多个相关查询序列如相关查询序列簇cluster3对应的优选搜索结果I至III页面内容进行语义分析,确定与所述多个相关查询序列相对应的页面相关内容如“左泓”、“艾赫”、“危险的森林”、“红狼”、“狼群”、“《危险的森林》”、“神枪手”、“黑血”等;然后,合成结果确定装置再根据该页面相关内容,在每一优选搜索结果所对应的页面进行匹配查询,得到所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分,如优选搜索结果I中与所述页面相关内容相匹配的页面内容部分I:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”,优选搜索结果II中与所述页面相关内容相匹配的页面内容部分II:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”,优选搜索结果III中与所述页面相关内容相匹配的页面内容部分III:该页面中详细描述“危险的森林”内容及作者评论的第二段“主人公艾赫是个在渐渐长大的少年,...,他的结局自然很悲惨了”;接着,合成结果确定装置比较所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分I至III,发现与所述页面相关内容相匹配的页面内容部分I和与所述页面相关内容相匹配的页面内容部分II的描述相同或相似;然后,合成结果确定装置根据筛选出的该相同或相似的页面内容描述,从所述一个或多个优选搜索结果中至少一个对应的页面内容除该相同或相似的页面内容描述之外其他内容中确定与所述多个相关查询序列相匹配的辅助内容信息,如在其他维度上与所述多个相关查询序列相匹配的页面内容如优选搜索结果III中第一段中作者理解的内容“这是一篇很美的长篇小说,...,但通过注释,我也能够理解。”;接着,合成结果确定装置将其与相同或相似的页面内容描述合并,按预定页面样式,生成所述合成搜索结果如:
“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”,以更新所述一个或多个优选搜索结果。
这是一篇很美的长篇小说,...,但通过注释,我也能够理解。”
本领域技术人员应能确定合成搜索结果的方式仅为举例,其他现有的或今后可能出现的确定合成搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,确定设备1还包括数据库建立装置(未示出)。具体地,数据库建立装置根据所述多个相关查询序列及所述优选搜索结果,建立或更新序列结果数据库,其中,所述序列结果数据库包括序列簇,以及所述序列簇所对应的一组优选搜索结果。例如,数据库建立装置可将获取装置11获取的所述多个相关查询序列如“危险的森林有感”、“危险的森林有感”作为序列簇,以及结果确定装置12确定的该多个相关查询序列对应的所述优选搜索结果I至III,按序列簇与优选结果对应的方式存储于序列结果数据库中,按一定方式更新该序列结果数据库,如按照预定周期、定时更新、立即更新所述序列结果数据库。
更优选地,确定设备1还包括目标获取装置(未示出)和提供装置(未示出)。具体地,目标获取装置根据目标查询序列,在所述序列结果数据库中进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇;提供装置将所述目标序列簇所对应的一组优选搜索结果提供给所述目标查询序列所对应的应用。
具体地,目标获取装置首先通过ASP、JSP等动态网页技术,或者通过搜索引擎提供的应用程序接口(API),获取用户通过用户设备提交的目标查询序列;然后,根据目标查询序列,在所述序列结果数据库中进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇。例如,若搜索用户A通过其移动设备iphone在搜索引擎搜索栏中输入关键词“危险的森林有感”,按Enter键,则目标获取装置通过ASP、JSP等动态网页技术,便获取用户A通过其移动设备iphone提交的目标查询序列“危险的森林有感”;然后,目标获取装置根据在目标查询序列“危险的森林有感”,在数据库建立装置建立或更新序列结果数据库中进行匹配查询,获得与所述目标查询序列相对应的目标序列簇如相关序列簇cluster3,其包括相关序列“危险的森林有感”、危险的森林有感。
本领域技术人员应能获取目标查询序列的方式仅为举例,其他现有的或今后可能出现的获取目标查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,提供装置通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将所述目标序列簇所对应的一组优选搜索结果提供给所述目标查询序列所对应的应用,在此,所述应用包括但不限于如搜索引擎、浏览器等。例如,接上例,提供装置将目标序列簇所对应的一组优选搜索结果如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”供给所述目标查询序列所对应的应用,以供应用将所述一组搜索结果提供给所述目标查询序列所对应的用户。
在一个优选实施例中(参考图1),其中,确定设备1包括获取装置11、结果确定装置12、扩展序列确定装置(未示出)和序列更新装置(未示出)。以下参考图1对该优选实施例进行描述:具体地,获取装置11获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;扩展序列确定装置根据所述多个相关查询序列与所述多个搜索结果,确定所述多个相关查询序列所对应的扩展查询序列;序列更新装置根据所述扩展查询序列更新所述多个相关查询序列,以获得更新后的所述多个相关查询序列;结果确定装置12根据所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。在此,获取装置11与图1所示实施例中对应装置的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,扩展序列确定装置首先对所述多个相关查询序列对应的多个搜索结果进行统计,得到所述多个相关查询序列所对应的优选搜索结果;然后,根据该优选搜索结果,通过对该优选搜索结果所对应的页面内容、标题文本链接等进行语义分析,提取出一组优选查询序列,如将出现次数满足大于一定阈值的字词作为优选查询序列,或者,统计确定每个优选搜索结果对应的点击次数满足预定阈值的多个查询序列,将多个优选搜索结果各自对应的点击次数满足该预定阈值的多个查询序列中的公共查询序列作为所述优选查询序列,如假设优选搜索结果A对应的点击次数满足预定阈值的查询序列为A1、A2、A3,优选搜索结果B对应的点击次数满足预定阈值的查询序列为A1、B1、B2,则根据优选搜索结果A和优选搜索结果B,得到的所述优选查询序列为A1;然后,比较所述一组优选查询序列与所述多个相关查询序列,将所述一组优选查询序列集合与所述多个相关查询序列集合未相交的查询序列作为所述扩展查询序列。例如,假设获取装置11得到的所述多个相关查询序列为相关序列簇cluster3,其包括“危险的森林有感”、“危险的森林有感”,以及该多个相关查询序列对应的所述多个搜索结果为结果集合set3,其包括“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”、“危险的森林读后感黄靖毅五(5)_百度文库”,假设扩展序列确定装置对该结果集合set3中包括的搜索结果进行统计,得到的优选搜索结果为优选搜索结果I至III;接着,扩展序列确定装置通过对优选搜索结果I至III所对应的页面内容、标题文本链接等进行语义分析,提取出一组优选查询序列,如将出现次数满足大于一定阈值的字词作为优选查询序列,假设得到以下一组优选查询序列“危险的森林”、“危险的森林艾赫”、“危险的森林有感”;然后,扩展序列确定装置比较该一组优选查询序列与相关查询序列簇cluster3,将该一组优选查询序列集合与相关查询序列簇cluster3未相交的查询序列作为所述扩展查询序列,如得到扩展查询序列“危险的森林”、“危险的森林艾赫”。
本领域技术人员应能确定扩展查询序列的方式仅为举例,其他现有的或今后可能出现的确定扩展查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,序列更新装置根据所述扩展查询序列更新所述多个相关查询序列,以获得更新后的所述多个相关查询序列。例如,接上例,序列更新装置将扩展序列确定装置确定的所述扩展查询序列“危险的森林”、“危险的森林 艾赫”与所述多个相关查询序列“危险的森林有感”、“危险的森林有感”的并集作为新的所述多个相关查询序列,得到更新后的所述多个相关查询序列如“危险的森林有感”、“危险的森林有感”、“危险的森林”、“危险的森林 艾赫”。
结果确定装置12根据所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。在此,结果确定装置12确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果的方式与图1中结果确定装置12确定所述多个相关查询序列所对应的一个或多个优选搜索结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
优选地,确定设备1还包括扩展结果获取装置(未示出)。具体地,扩展结果获取装置获取与所述扩展查询序列相对应的扩展搜索结果,以更新所述多个搜索结果;结果确定装置12根据更新后的所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。
具体地,扩展结果获取装置首先将所述多个相关查询序列与所述扩展查询序列的并集作为新的相关序列;然后,通过搜索日志,获取与所述扩展查询序列相对应的扩展搜索结果,以更新所述多个搜索结果。在此,扩展结果获取装置获取所述扩展搜索结果的方式与图1中获取装置11获取所述多个搜索结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
接着,结果确定装置12根据更新后的所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。在此,结果确定装置12确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果的方式与图1中结果确定装置12确定所述多个查询序列所对应的一个或多个优选搜索结果方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
在另一优选实施例中,可将上述用于确定优选搜索结果的确定设备1,与现有搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎包括但不限于如Google公司的Google搜索引擎、百度公司的baidu搜索引擎等。
在另一优选实施例中,可将上述用于确定优选搜索结果的确定设备1,与现有搜索引擎插件相结合,构成一种新的搜索引擎插件,现有的包括但不限于如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。
图2示出根据本发明一个优选实施例的用于确定优选搜索结果的设备示意图。其中,确定设备1包括获取装置11’和结果确定装置12’,其中,结果确定装置12’包括映射确定单元121’和结果确定单元122’。具体地,获取装置11’获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;映射确定单元121’基于随机游走模型,确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系;结果确定单元122’对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,获取装置11’与图1所示实施例中对应装置的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,映射确定单元121’基于随机游走模型,确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系。例如,假设获取装置11’获取得到的所述多个查询序列与其对应的所述多个搜索结果如下,即用户输入query1在搜索引擎返回的搜索结果页中首先访问了url1,若发现该页面的内容不符合其需求,然后返回搜索结果页,点击搜索结果url2,接着,又访问了搜索结果页中的搜索结果url3;类似地,用户在输入query2后,先后依次访问了搜索引擎返回的搜索结果页中的搜索结果url1、url4、url2和url3:
query1:“危险的森林有感”:
url1:“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”
url2:“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”
url3:“《危险的森林》-读后感-网上现金棋牌游戏下载”
query2:“危险的森林有感”:
url1:“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”
url4:“危险的森林读后感黄靖毅五(5)_百度文库”
url2:“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”
url3:“《危险的森林》-读后感-网上现金棋牌游戏下载”
则映射确定单元121’基于随机游走模型,根据用户的浏览行为,可得到所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系如图3所示。
本领域技术人员应能确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系的方式仅为举例,其他现有的或今后可能出现的确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,结果确定单元122’对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。例如,接上例,结果确定单元122’对映射确定单元121’确定的所述映射关系即{query,url}映射关系进行统计处理,发现url1、url2和url3均出现2次,而url4只出现1次,则结果确定单元122’可将在该关系对中出现次数较多的url作为优选搜索结果,即确定所述优选搜索结果包括url1、url2和url3。
优选地,结果确定单元122’还可结合所述序列结果映射关系中搜索结果相对对应的查询序列的相关度信息,对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。具体地,结果确定单元122’首先根据诸如查询序列在所述序列结果映射关系中搜索结果对应的页面内容或文本标题中出现的次数来确定所述序列结果映射关系中搜索结果相对对应的查询序列的相关度信息;然后,结果确定单元122’结合待相关度信息,对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果,如将相关度信息满足一定阈值且搜索结果出现次数较多的搜索结果作为所述优选搜索结果。例如,还接上例,假设结果确定单元122’确定query1与url1、url2和url3的相关度信息分别为0.95、0.85、0.78,query2与url1、url2、url3和url4的相关度信息分别为0.95、0.88、0.75、0.86,结果确定单元122’对所述映射关系即{query,url}映射关系进行统计处理,发现url1、url2和url3均出现2次,而url4只出现1次,但url3相对对应的查询序列query1的相关度信息小于预定阈值0.8,则结果确定单元122’确定所述优选搜索结果包括url1和url2。
图4示出根据本发明另一个方面的用于确定优选搜索结果的方法流程图。
具体地,在步骤S1中,确定设备1获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;在步骤S2中,确定设备1根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。在此,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备及用户设备均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,在步骤S1中,确定设备1获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果。在此,所述多个相关查询序列是指查询序列之间有关联关系的查询序列集合,其中,所述相关查询序列包括但不限于以下至少任一项:1)名称不同但表达的意思相同的同义查询序列,如“英语培训”与“英文培训”;2)意思相近的近义查询序列,如“英语培训”与“外文培训”。本领域技术人员应能理解上述相关查询序列仅为举例,其他现有的或今后可能出现的相关查询序列如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,在步骤S1中,确定设备1首先通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取多个搜索日志;然后,对该多个搜索日志进行语义分析处理,来获取多个相关查询序列;接着,再通过搜索日志、网页数据库等分别获取各个查询序列所对应的搜索结果,如用户点击了搜索引擎返回的与该多个相关查询序列相匹配的搜索结果中的哪些搜索结果,以作为所述相关查询序列对应的多个搜索结果。例如,在步骤S1中,确定设备1通过搜索引擎的提供的获取搜索日志的应用程序接口(API),获取到多个搜索日志,如在某段时间内,用户提交的搜索包括了哪些关键词、用户点击了哪些返回的搜索结果等;然后,在步骤S1中,确定设备1对这些搜索日志中的查询序列进行语义分析处理,得到多个相关查询序列,如由多个同义序列组成的同义序列簇,如由与关键词“英语培训”属于同义近义词的关键词如“英语培训”、“英文培训”、“英语培训”、“外语培训”等组成的同义序列簇;然后,在步骤S1中,确定设备1将搜索日志中记录的用户点击的与该多个相关查询序列相匹配的搜索结果作为该多个相关查询序列对应的多个搜索结果,如“北京英语培训首选EF英孚,海量职场英语培训资料下载!”、“EF英孚教育官网,全球卓著英语培训专家”、“北京新东方英语培训 北京雅思培训 托付培训 北京考研培训出国...”等,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果。
优选地,在步骤S1中,确定设备1还可首先通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取多个搜索日志,从该多个搜索日志中获取多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果,如将搜索日志中用户点击的与候选查询序列相对应的搜索结果作为该候选查询序列对应所述候选搜索结果,或者,根据搜索日志中用户的点击搜索比,确定所述候选查询序列所对应的搜索结果,如根据不同用户以输入所述候选查询序列执行搜索请求时返回的多个搜索结果对应的点击搜索比,从该多个搜索结果中优选出若干个搜索结果,以作为该候选查询序列所对应的搜索结果;然后,根据所述候选搜索结果,从所述多个候选查询序列中选择多个相关的候选查询序列,以作为所述多个相关查询序列,并将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果。
例如,假设在步骤S1中,确定设备1通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取到搜索日志中记录的多个候选查询序列,以及用户点击的每个候选查询序列所对应的候选搜索结果为如下的搜索记录I至VII:
I“英语培训”:
“EF英孚教育官网,全球卓著英语培训专家”
“英语培训-韦博英语让学习英语变得如此简单!”
“北京新东方英语培训 北京雅思培训 托付培训 北京考研培训 出国...”
II“英语 培训”:
“英语 培训 报名即享圣诞劲爆豪华大礼”
“EF英孚教育官网,全球卓著英语培训专家”
“新东方雅思培训”
III“英文 培训”:
“北京英语培训韦博英语-我们专注于成人英语培训!(官网)”
“北京新东方英语培训 北京雅思培训 托付培训 北京考研培训出国...”
IV“鲜花”:
“鲜花3小时鲜花 首先中国鲜花网!!”
“温馨鲜花网鲜花”
“鲜花,我只选中国鲜花速递网!100%品质保证”
V“鲜花速递”:
“鲜花,我只选中国鲜花速递网!100%品质保证”
“送花上门 鲜花 速递 天天鲜花网”
VI“危险的森林有感”:
“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”(http://q.sohu.com/forum/14/topic/48390493)
“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”(http://liuyonglin2006.blog.sohu.com/151643301.html)
“《危险的森林》-读后感-网上现金棋牌游戏下载”(http://14972.eduol.cn/archives/2012/1145765.html)
VII“危险的森林有感”:
“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”(http://q.sohu.com/forum/14/topic/48390493)
“危险的森林读后感黄靖毅五(5)_百度文库”(http://wenku.baidu.com/view/b76bb53287c24028915fc3f2.html)
“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”(http://liuyonglin2006.blog.sohu.com/151643301.html)
“《危险的森林》-读后感-网上现金棋牌游戏下载”(http://14972.eduol.cn/archives/2012/1145765.html),
则在步骤S1中,确定设备1通过诸如对搜索记录I至VII对应的搜索结果如搜索结果对应标题链接文本进行语义分析,通过确定搜索结果对应标题链接文本中相同或相近文本出现的次数,来确定搜索记录I至VII之间的相关度,从而得到搜索记录I至VII的分类:①搜索记录I至III相关,其归为一类;②搜索记录IV和V相关,其归为另一类;③搜索记录VI和VII相关,其归为一类;然后,在步骤S1中,确定设备1根据获得的搜索记录分类,从所述多个候选查询序列中选择多个相关的候选查询序列,以作为所述多个相关查询序列,如将属于同一类的搜索结果所对应的查询序列作为相关的查询序列,如获得与搜索记录I至III对应的多个相关序列如相关查询序列簇cluster1,其包括“英语培训”、“英文培训”、“英语培训”,与搜索记录IV和V对应的多个相关序列如相关查询序列簇cluster2,其包括“鲜花”、鲜花 速递”,与搜索记录VI和VII对应的多个相关序列如相关查询序列簇cluster3,其包括“危险的森林有感”、“危险的森林有感”;接着,在步骤S1中,确定设备1将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果,如相关查询序列簇cluster1对应的搜索结果包括如“EF 英孚教育官网,全球卓著英语培训专家”、“英语培训-韦博英语让学习英语变得如此简单!”、“北京新东方英语培训北京雅思培训托付培训北京考研培训出国...”、“英语 培训 报名即享圣诞劲爆豪华大礼”、“新东方雅思培训”、“北京英语培训韦博英语-我们专注于成人英语培训!(官网)”,相关查询序列簇cluster2对应的搜索结果包括如“鲜花3小时鲜花首先中国鲜花网!!”、“温馨鲜花网鲜花”、“鲜花,我只选中国鲜花速递网!100%品质保证”、“送花上门鲜花速递天天鲜花网”,如相关查询序列cluster3对应的搜索结果包括如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”、“危险的森林读后感 黄靖毅 五(5)_百度文库”。
优选地,在步骤S1中,确定设备1还可首先通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取多个搜索日志,从该多个搜索日志中获取多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果;然后,根据所述多个候选查询序列的相关度,确定所述多个相关查询序列,并将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果。
例如,假设在步骤S1中,确定设备1通过搜索引擎、浏览器等第三方设备提供的获取搜索日志的应用程序接口(API),获取到搜索日志中记录的多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果为上述搜索记录I至VII;接着,在步骤S1中,确定设备1确定所述多个候选查询序列的相关度,以根据所述多个候选查询序列的相关度,确定所述多个相关查询序列。在此,在步骤S1中,确定设备1确定所述相关度的方式包括但不限于以下至少任一项:
1)根据所述多个候选查询序列对应的特征向量,确定所述相关度。在此,所述特征向量包括但不限于以下至少任一项特征分量:①.X特征分量:由所述候选查询序列经分词处理后得到的所对应的序列语义特征信息构成的向量,如所述候选查询序列所对应的基本词经分词处理后得到的词袋所构成的向量,如对于序列query1“英语培训”,分词后得到“英语培训”,对应向量可表示为{x1:英语、x2:培训},其中,分量xi对应的向量系数为其TFIDF(词频-反文档频率,term frequency-inverse document frequency)值;其对应的X特征分量为“英语培训”,再如,对于序列query2“求鸡蛋的做法、鸡蛋菜谱、家常鸡蛋怎么做、菜谱大全”,分词后得到“求 鸡蛋 的 做法 鸡蛋 菜谱 家常 鸡蛋 怎么做 菜谱 大全”,去掉停用词、语法等,对应向量可表示为{x1:鸡蛋、x2:做法、x3:菜谱、x4:家常、x5:大全}其对应的X特征分量的为“求鸡蛋的做法、鸡蛋菜谱、家常鸡蛋怎么做”,其中,分量xi对应的向量系数为其TFIDF值。在此,X特征分量对应的向量系数为所述序列的TFIDF(词频-反文档频率,term frequency-inverse document frequency)值可对大批量网页(如N篇网页)进行统计近似地得到DF值,例如以词语“鸡蛋”为例,若词语“鸡蛋”出现在10000篇网页中,则其DF值为10000,而词语“鸡蛋”在分词后的词袋中出现了3次,则词语“鸡蛋”在分词后的词袋中的词频即TF值为3/11,从而,词语“鸡蛋”的对应的TFIDF值为(3/11)*log(N/10000);②.Y特征分量:由所述候选查询序列所对应的前N个搜索结果对应的标题和/或摘要信息进行分词后得到的词袋所构成的向量。在此,Y特征分量对应的向量系数可包括所述候选查询序列所对应的搜索结果历史总点击信息、平均点击信息等。在此,确定Y特征分量对应的向量的方式与确定X特征分量对应的向量的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此;③.Z特征分量:由用户点击所述候选查询序列序列对应的搜索结果的历史点击信息构成的向量。在此,Z特征分量对应的向量系数可包括所述候选查询序列所对应的搜索结果历史总点击信息、平均点击信息等。例如,若对于query1“英语培训”,在搜索日志记录中,用户点击query1对应的搜索结果url11、url12、url13对应的点击次数分别为3次、4次、1次,则可用向量{url1,url2,url3}表示query1。在此,所述特征向量包括但不限于以下至少任一项:1)由所述特征分量直接组成;2)根据所述特征分量对应的权重信息,加权得到所述特征向量。本领域技术人员应能理解上述特征向量和特征分量仅为举例,其他现有的或今后可能出现的特征向量或特征分量如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,在步骤S1中,确定设备1确定所述多个候选查询序列对应的特征向量的方式包括但不限于以下至少任一项:
1)根据预设的所述特征分量,由所述特征分量直接组成所述特征向量,如所述特征向量可表示为假设在步骤S1中,确定设备1获取的搜索记录I对应的候选查询序列“英语培训”经分词后得到“英语培训”,则特征分量可表示为{x1:英语、x2:培训},若x1、x2对应的TFIDF值分别为0.9、0.9,则特征分量对于特征分量假设候选查询序列“英语培训”在近200天的搜索日志中搜索结果url1“EF英孚教育官网,全球卓著英语培训专家”的点击总次数最多如为1万次,经分词后得到“EF英孚教育官网全球卓著 英语 培训 专家”,去掉停用词、语法等,特征分量可表示为{y1:英孚、y2:教育、y3:英语、y4:培训、y5:专家},若y1、y2、y3、y4、y5对应的TFIDF值分别为0.7、0.77、0.9、0.9、0.3,则特征分量 Y → = 0.7 y 1 → + 0.77 y 2 → + 0.9 y 3 → + 0.9 y 4 → + 0.3 y 5 → , 对于特征分量若候选查询序列“英语培训”在近200天的搜索日志中搜索结果url1“EF英孚教育官网,全球卓著英语培训专家”、url2“英语培训-韦博英语让学习英语变得如此简单!”、url3“北京新东方英语培训北京雅思培训托付培训北京考研培训出国...”对应的点击次数分别为4次、3次、1次,则特征分量则序列簇获取装置13确定序列“英语培训”的特征向量为 T → = ( 0.9 x 1 → + 0.9 x 2 → ) + ( 0.7 y 1 → + 0.77 y 2 → + 0.9 y 3 → + 0.9 y 4 → + 0.3 y 5 → ) + ( 4 ur → l 1 + 3 ur → l 2 + 1 ur → l 3 ) .
2)根据预设的所述特征分量,基于所述特征分量所对应的权重信息,加权确定所述特征向量。例如,还接上例,假设特征分量对应的权重分别为0.4、0.2,则在步骤S1中,确定设备1确定序列“英语培训”的特征向量为 T → = 0.4 * ( 0.9 x 1 → + 0.9 x 2 → ) + 0.2 * ( 0.7 y 1 → + 0.77 y 2 → + 0.9 y 3 → + 0.9 y 4 → + 0.3 y 5 → ) + ( 4 ur → l 1 + 3 ur → l 2 + 1 ur → l 3 ) .
本领域技术人员应能理解上述确定所述多个候选查询序列对应的特征向量的方式仅为举例,其他现有的或今后可能出现的确定所述多个候选查询序列对应的特征向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S1中,确定设备1根据所述多个候选查询序列对应的特征向量,确定所述相关度。具体地,在步骤S1中,确定设备1可根据所述多个候选查询序列对应的特征向量对应的各特征分量之间的夹角余弦值;然后根据该各特征分量之间的夹角余弦值,结合各特征分量的权重信息,加权确定所述多个候选查询序列的特征向量之间的夹角余弦值,以确定所述相关度。例如,假设候选查询序列“英语培训”、“英语 培训”、“英文培训”的特征向量分别为: T 1 → = X → 1 + Y 1 → + Z → 1 , T 2 → = X → 2 + Y 2 → + Z → 2 , T 3 → = X → 3 + Y 3 → + Z → 3 , 获取装置11首先根据向量对应的各特征分量之间的夹角余弦值如:对于之间的各特征分量:如对于特征分量计算得到对于特征分量计算得到对于特征分量计算得到则在步骤S1中,确定设备1可得到之间的相似度如 similarity ( T 1 → , T 2 → ) = a * sim 1 + b * sim 2 + c * sim 3 , 其中,a,b,c为对应特征分量的权重信息,满足a+b+c=1,在此,a,b,c数值信息可通过机器学习确定,也可包括预定值,若确定a=0.5,b=0.3,c=0.2,则获取装置11可计算得到之间的相似度为 similarity ( T 1 → , T 2 → ) = a * sim 1 + b * sim 2 + c * sim 3 = 0.5 * 0.9 + 0.3 * 0.9 + 0.2 * 0.6 = 0.84 , 大于预定阈值如0.8,之间的相似度为大于预定阈值0.8。
2)根据所述候选搜索结果对应的站点置信度,确定所述相关度,如将两个候选查询序列各自对应的各候选搜索结果对应的站点之间置信度差的绝对值的最小值与数值1的差值,作为该两个候选查询序列的相关度。例如,对于搜索记录I与II,假设搜索记录I中的候选查询序列“英语培训”对应的各搜索结果的站点与搜索记录II中的候选查询序列“英语培训”对应的各搜索结果的站点之间的站点置信度差的最小值为0,则在步骤S1中,确定设备1确定候选查询序列“英语培训”与候选查询序列“英语培训”的相关度为1。
本领域技术人员应能理解上述确定所述相关度的方式仅为举例,其他现有的或今后可能出现的确定所述相关度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S1中,确定设备1根据所述多个候选查询序列的相关度,确定所述多个相关查询序列,以将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果。例如,在步骤S1中,确定设备1得到特征向量之间的相似度0.84,大于预定阈值如0.8,之间的相似度为也大于预定阈值0.8,则在步骤S1中,确定设备1将特征向量对应的序列作为相关查询序列簇cluster1,类似地,在步骤S1中,确定设备1还可得到相关查询序列簇cluster2,其包括“鲜花”、鲜花速递”,相关查询序列簇cluster3,其包括“危险的森林有感”、“危险的森林有感”;接着,在步骤S1中,确定设备1将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得所述多个搜索结果,如相关查询序列簇cluster1对应的搜索结果包括如“EF英孚教育官网,全球卓著英语培训专家”、“英语培训-韦博英语让学习英语变得如此简单!”、“北京新东方英语培训 北京雅思培训 托付培训 北京考研培训出国...”、“英语 培训 报名即享圣诞劲爆豪华大礼”、“新东方雅思培训”、“北京英语培训韦博英语-我们专注于成人英语培训!(官网)”,相关查询序列簇cluster2对应的搜索结果包括如“鲜花3小时鲜花首先中国鲜花网!!”、“温馨鲜花网鲜花”、“鲜花,我只选中国鲜花速递网!100%品质保证”、“送花上门鲜花速递天天鲜花网”,如相关查询序列cluster3对应的搜索结果包括如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”、“危险的森林读后感黄靖毅五(5)_百度文库”。
本领域技术人员应能理解上述获取多个相关查询序列及对应的多个搜索结果的方式仅为举例,其他现有的或今后可能出现的获取多个相关查询序列及对应的多个搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,确定设备1根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,所述优选搜索结果包括与所述多个相关查询序列相匹配的高质量、高权威的搜索结果,及与用户的搜索需求真正相符合的搜索结果。具体地,在步骤S1中,确定设备1根据其在步骤S1中获取的所述多个搜索结果,对该多个搜索结果进行统计,将出现次数满足大于一定阈值的搜索结果作为所述优选搜索结果。例如,接上例,对于多个相关查询序列如相关查询序列簇cluster3,在步骤S2中,确定设备1对相关查询序列簇cluster3所对应的多个搜索结果进行统计,将出现次数满足大于一定阈值如2次的搜索结果作为所述优选搜索结果,则可得到相关查询序列簇cluster3所对应的所述优选搜索结果包括如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”。
本领域技术人员应能理解上述确定优选搜索结果的方式仅为举例,其他现有的或今后可能出现的确定优选搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
确定设备1的各个步骤之间是持续不断工作的。具体地,在步骤S1中,确定设备1持续获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;在步骤S2中,确定设备1持续根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,本领域技术人员应当理解“持续”是指确定设备1的各个装置分别不断地进行多个相关查询序列及对应的多个搜索结果的获取、优选搜索结果的确定,直至确定设备1在超长时间内停止多个相关查询序列及对应的多个搜索结果的获取。
优选地,确定设备1还包括步骤S3(未示出)。具体地,在步骤S3中,确定设备1根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。具体地,在步骤S3中,确定设备1根据可首先根据所述一个或多个优选搜索结果中至少一个,通过诸如包容器(wrapper)、基于视觉的网页分块算法VIPS(Vision-based page segmentation)、HTML标签分析法,从该一个或多个优选搜索结果中至少一个所对应的页面中抽取出页面正文内容;然后,通过对该等页面正文内容进行语义分析,并比较该等页面正文内容,从中筛选出相同或相似的页面内容描述,将该相同的页面内容描述作为与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。例如,接上例,对于相关查询序列如相关查询序列簇cluster3,在步骤S2中,确定设备1确定的与其对应的所述优选搜索结果包括:
优选搜索结果I:“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”(http://q.sohu.com/forum/14/topic/48390493),
优选搜索结果II:“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”(http://liuyonglin2006.blog.sohu.com/151643301.html),
优选搜索结果III:“《危险的森林》-读后感-网上现金棋牌游戏下载”(h即://14972.eduol.cn/archives/2012/1145765.html),
假设在步骤S3中,确定设备1首先通过基于视觉的网页分块算法VIPS,从优选搜索结果I至III各自所对应的页面中抽取出页面正文内容分别为正文内容I至III:
优选搜索结果I对应的正文内容I:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”
优选搜索结果II对应的正文内容II:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”
优选搜索结果III对应的正文内容III:该页面中详细描述“危险的森林”内容及作者评论的第二段“主人公艾赫是个在渐渐长大的少年,...,他的结局自然很悲惨了”,
则在步骤S3中,确定设备1通过对正文内容I至III进行语义分析,并比较正文内容I至III,发现正文内容I和正文内容II的描述相同或相似,则合成结果确定装置将该相同或相似的页面内容描述如“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”作为与所述多个相关查询序列如相关查询序列簇cluster3相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。
更优选地,在步骤S3中,确定设备1还可首先根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的页面相关内容;然后,根据所述页面相关内容,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。具体地,在步骤S3中,确定设备1首先对所述一个或多个优选搜索结果中至少一个的页面内容进行语义分析,确定与所述多个相关查询序列相对应的页面相关内容;然后,再根据所述页面相关内容,确定所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分;接着,比较确定的所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分,以对该等页面内容进行相互验证,从中筛选出相同或相似的页面内容描述;然后,根据筛选出的该相同或相似的页面内容描述,从所述一个或多个优选搜索结果中至少一个对应的页面内容除该相同或相似的页面内容描述之外其他内容中确定与所述多个相关查询序列相匹配的辅助内容信息,如在其他维度上与所述多个相关查询序列相匹配的页面内容,并将其与相同或相似的页面内容描述合并,按预定页面样式,生成所述合成搜索结果,以更新所述一个或多个优选搜索结果。例如,还接上例,在步骤S3中,确定设备1首先对其在步骤S2中确定的与多个相关查询序列如相关查询序列簇cluster3对应的优选搜索结果I至III页面内容进行语义分析,确定与所述多个相关查询序列相对应的页面相关内容如“左泓”、“艾赫”、“危险的森林”、“红狼”、“狼群”、“《危险的森林》”、“神枪手”、“黑血”等;然后,在步骤S3中,确定设备1再根据该页面相关内容,在每一优选搜索结果所对应的页面进行匹配查询,得到所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分,如优选搜索结果I中与所述页面相关内容相匹配的页面内容部分I:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”,优选搜索结果II中与所述页面相关内容相匹配的页面内容部分II:该页面中简洁描述“危险的森林”内容的第二段“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”,优选搜索结果III中与所述页面相关内容相匹配的页面内容部分III:该页面中详细描述“危险的森林”内容及作者评论的第二段“主人公艾赫是个在渐渐长大的少年,...,他的结局自然很悲惨了”;接着,在步骤S3中,确定设备1比较所述优选搜索结果中与所述页面相关内容相匹配的页面内容部分I至III,发现与所述页面相关内容相匹配的页面内容部分I和与所述页面相关内容相匹配的页面内容部分II的描述相同或相似;然后,在步骤S3中,确定设备1根据筛选出的该相同或相似的页面内容描述,从所述一个或多个优选搜索结果中至少一个对应的页面内容除该相同或相似的页面内容描述之外其他内容中确定与所述多个相关查询序列相匹配的辅助内容信息,如在其他维度上与所述多个相关查询序列相匹配的页面内容如优选搜索结果III中第一段中作者理解的内容“这是一篇很美的长篇小说,...,但通过注释,我也能够理解。”;接着,在步骤S3中,确定设备1将其与相同或相似的页面内容描述合并,按预定页面样式,生成所述合成搜索结果如:
“故事的主人公是一名叫艾赫的少年,...,于是,艾赫与狼王红狼成为朋友”,以更新所述一个或多个优选搜索结果。
这是一篇很美的长篇小说,...,但通过注释,我也能够理解。”
本领域技术人员应能确定合成搜索结果的方式仅为举例,其他现有的或今后可能出现的确定合成搜索结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,确定设备1还包括步骤S4(未示出)。具体地,在步骤S4中,确定设备1根据所述多个相关查询序列及所述优选搜索结果,建立或更新序列结果数据库,其中,所述序列结果数据库包括序列簇,以及所述序列簇所对应的一组优选搜索结果。例如,在步骤S4中,确定设备1可将其在步骤S1中获取的所述多个相关查询序列如“危险的森林有感”、“危险的森林有感”作为序列簇,以及其在步骤S2中确定的该多个相关查询序列对应的所述优选搜索结果I至III,按序列簇与优选结果对应的方式存储于序列结果数据库中,按一定方式更新该序列结果数据库,如按照预定周期、定时更新、立即更新所述序列结果数据库。
更优选地,确定设备1还包括步骤S5(未示出)和步骤S6(未示出)。具体地,在步骤S5中,确定设备1根据目标查询序列,在所述序列结果数据库中进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇;在步骤S6中,确定设备1将所述目标序列簇所对应的一组优选搜索结果提供给所述目标查询序列所对应的应用。
具体地,在步骤S5中,确定设备1首先通过ASP、JSP等动态网页技术,或者通过搜索引擎提供的应用程序接口(API),获取用户通过用户设备提交的目标查询序列;然后,根据目标查询序列,在所述序列结果数据库中进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇。例如,若搜索用户A通过其移动设备iphone在搜索引擎搜索栏中输入关键词“危险的森林有感”,按Enter键,则在步骤S5中,确定设备1通过ASP、JSP等动态网页技术,便获取用户A通过其移动设备iphone提交的目标查询序列“危险的森林有感”;然后,在步骤S5中,确定设备1根据在目标查询序列“危险的森林有感”,在数据库建立装置建立或更新序列结果数据库中进行匹配查询,获得与所述目标查询序列相对应的目标序列簇如相关序列簇cluster3,其包括相关序列“危险的森林有感”、危险的森林有感。
本领域技术人员应能获取目标查询序列的方式仅为举例,其他现有的或今后可能出现的获取目标查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S6中,确定设备1通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,将所述目标序列簇所对应的一组优选搜索结果提供给所述目标查询序列所对应的应用,在此,所述应用包括但不限于如搜索引擎、浏览器等。例如,接上例,在步骤S6中,确定设备1将目标序列簇所对应的一组优选搜索结果如“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”供给所述目标查询序列所对应的应用,以供应用将所述一组搜索结果提供给所述目标查询序列所对应的用户。
在一个优选实施例中(参考图4),其中,确定设备1包括步骤S1、步骤S2、步骤S7(未示出)和步骤S8(未示出)。以下参考图4对该优选实施例进行描述:具体地,在步骤S1中,确定设备1获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;在步骤S7中,确定设备1根据所述多个相关查询序列与所述多个搜索结果,确定所述多个相关查询序列所对应的扩展查询序列;在步骤S8中,确定设备1根据所述扩展查询序列更新所述多个相关查询序列,以获得更新后的所述多个相关查询序列;在步骤S2中,确定设备1根据所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。在此,在步骤S1中,确定设备1与图4所示实施例中对应步骤的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,在步骤S7中,确定设备1首先对所述多个相关查询序列对应的多个搜索结果进行统计,得到所述多个相关查询序列所对应的优选搜索结果;然后,根据该优选搜索结果,通过对该优选搜索结果所对应的页面内容、标题文本链接等进行语义分析,提取出一组优选查询序列,如将出现次数满足大于一定阈值的字词作为优选查询序列,或者,统计确定每个优选搜索结果对应的点击次数满足预定阈值的多个查询序列,将多个优选搜索结果各自对应的点击次数满足该预定阈值的多个查询序列中的公共查询序列作为所述优选查询序列,如假设优选搜索结果A对应的点击次数满足预定阈值的查询序列为A1、A2、A3,优选搜索结果B对应的点击次数满足预定阈值的查询序列为A1、B1、B2,则根据优选搜索结果A和优选搜索结果B,得到的所述优选查询序列为A1;然后,比较所述一组优选查询序列与所述多个相关查询序列,将所述一组优选查询序列集合与所述多个相关查询序列集合未相交的查询序列作为所述扩展查询序列。例如,假设在步骤S1中,确定设备1得到的所述多个相关查询序列为相关序列簇cluster3,其包括“危险的森林有感”、“危险的森林有感”,以及该多个相关查询序列对应的所述多个搜索结果为结果集合set3,其包括“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”、“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”、“《危险的森林》-读后感-网上现金棋牌游戏下载”、“危险的森林读后感黄靖毅五(5)_百度文库”,假设在步骤S7中,确定设备1对该结果集合set3中包括的搜索结果进行统计,得到的优选搜索结果为优选搜索结果I至III;接着,在步骤S7中,确定设备1通过对优选搜索结果I至III所对应的页面内容、标题文本链接等进行语义分析,提取出一组优选查询序列,如将出现次数满足大于一定阈值的字词作为优选查询序列,假设得到以下一组优选查询序列“危险的森林”、“危险的森林艾赫”、“危险的森林有感”;然后,在步骤S7中,确定设备1比较该一组优选查询序列与相关查询序列簇cluster3,将该一组优选查询序列集合与相关查询序列簇cluster3未相交的查询序列作为所述扩展查询序列,如得到扩展查询序列“危险的森林”、“危险的森林艾赫”。
本领域技术人员应能确定扩展查询序列的方式仅为举例,其他现有的或今后可能出现的确定扩展查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S8中,确定设备1根据所述扩展查询序列更新所述多个相关查询序列,以获得更新后的所述多个相关查询序列。例如,接上例,在步骤S8中,确定设备1将扩展序列确定装置确定的所述扩展查询序列“危险的森林”、“危险的森林艾赫”与所述多个相关查询序列“危险的森林有感”、“危险的森林有感”的并集作为新的所述多个相关查询序列,得到更新后的所述多个相关查询序列如“危险的森林有感”、“危险的森林有感”、“危险的森林”、“危险的森林艾赫”。
在步骤S2中,确定设备1根据所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。在此,在步骤S2中,确定设备1确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果的方式与图4中在步骤S2中,确定设备1确定所述多个相关查询序列所对应的一个或多个优选搜索结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
优选地,确定设备1还包括步骤S9(未示出)。具体地,在步骤S9中,确定设备1获取与所述扩展查询序列相对应的扩展搜索结果,以更新所述多个搜索结果;在步骤S2中,确定设备1根据更新后的所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。
具体地,在步骤S9中,确定设备1首先将所述多个相关查询序列与所述扩展查询序列的并集作为新的相关序列;然后,通过搜索日志,获取与所述扩展查询序列相对应的扩展搜索结果,以更新所述多个搜索结果。在此,在步骤S9中,确定设备1获取所述扩展搜索结果的方式与图4中在步骤S1中,确定设备1获取所述多个搜索结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
接着,在步骤S2中,确定设备1根据更新后的所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。在此,在步骤S2中,确定设备1确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果的方式与图4中在步骤S2中,确定设备1确定所述多个查询序列所对应的一个或多个优选搜索结果方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
图5示出根据本发明一个优选实施例的用于确定优选搜索结果的方法流程图。
其中,确定设备1包括步骤S1’和步骤S2’,其中,步骤S2’包括步骤S21’和步骤S22’。具体地,在步骤S1’中,确定设备1获取多个相关查询序列及对应的多个搜索结果,其中,所述多个搜索结果包括与每个查询序列相对应的搜索结果;在步骤S21’中,确定设备1基于随机游走模型,确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系;在步骤S22’中,确定设备1对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。在此,在步骤S1’中,确定设备1与图4所示实施例中对应步骤的内容相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
具体地,在步骤S21’中,确定设备1基于随机游走模型,确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系。例如,假设在步骤S1’中,确定设备1获取得到的所述多个查询序列与其对应的所述多个搜索结果如下,即用户输入query1在搜索引擎返回的搜索结果页中首先访问了url1,若发现该页面的内容不符合其需求,然后返回搜索结果页,点击搜索结果url2,接着,又访问了搜索结果页中的搜索结果url3;类似地,用户在输入query2后,先后依次访问了搜索引擎返回的搜索结果页中的搜索结果url1、url4、url2和url3:
query1:“危险的森林有感”:
url1:“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”
url2:“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”
url3:“《危险的森林》-读后感-网上现金棋牌游戏下载”
query2:“危险的森林有感”:
url1:“小猪日记:《危险的森林》有感-味道通话-文学艺术-搜狐圈子”
url4:“危险的森林读后感黄靖毅五(5)_百度文库”
url2:“【新消息】读《危险的森林》有感-可爱小猪-搜狐博客”
url3:“《危险的森林》-读后感-网上现金棋牌游戏下载”
则在步骤S21’中,确定设备1基于随机游走模型,根据用户的浏览行为,可得到所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系如图3所示。
本领域技术人员应能确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系的方式仅为举例,其他现有的或今后可能出现的确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S22’中,确定设备1对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。例如,接上例,在步骤S22’中,确定设备1对其在步骤S21’中确定的所述映射关系即{query,url}映射关系进行统计处理,发现url1、url2和url3均出现2次,而url4只出现1次,则在步骤S22’中,确定设备1可将在该关系对中出现次数较多的url作为优选搜索结果,即确定所述优选搜索结果包括url1、url2和url3。
优选地,在步骤S22’中,确定设备1还可结合所述序列结果映射关系中搜索结果相对对应的查询序列的相关度信息,对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。具体地,在步骤S22’中,确定设备1首先根据诸如查询序列在所述序列结果映射关系中搜索结果对应的页面内容或文本标题中出现的次数来确定所述序列结果映射关系中搜索结果相对对应的查询序列的相关度信息;然后,在步骤S22’中,确定设备1结合待相关度信息,对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果,如将相关度信息满足一定阈值且搜索结果出现次数较多的搜索结果作为所述优选搜索结果。例如,还接上例,假设在步骤S22’中,确定设备1确定query1与url1、url2和url3的相关度信息分别为0.95、0.85、0.78,query2与url1、url2、url3和url4的相关度信息分别为0.95、0.88、0.75、0.86,在步骤S22’中,确定设备1对所述映射关系即{query,url}映射关系进行统计处理,发现url1、url2和url3均出现2次,而url4只出现1次,但url3相对对应的查询序列query1的相关度信息小于预定阈值0.8,则在步骤S22’中,确定设备1确定所述优选搜索结果包括url1和url2。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于确定优选搜索结果的方法,其中,该方法包括以下步骤:
a获取多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果;根据所述候选搜索结果,从所述多个候选查询序列中选择多个相关的候选查询序列,以作为多个相关查询序列,并将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得多个搜索结果;
b根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
2.根据权利要求1所述的方法,其中,该方法还包括:
c根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。
3.根据权利要求2所述的方法,其中,所述步骤c包括:
-根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的页面相关内容;
-根据所述页面相关内容,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤b包括:
b1基于随机游走模型,确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系;
b2对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
5.根据权利要求4所述的方法,其中,所述步骤b2包括:
-结合所述序列结果映射关系中搜索结果相对应的查询序列的相关度信息,对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
6.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
x根据所述多个相关查询序列与所述多个搜索结果,确定所述多个相关查询序列所对应的扩展查询序列;
-根据所述扩展查询序列更新所述多个相关查询序列,以获得更新后的所述多个相关查询序列;
其中,所述步骤b包括:
-根据所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。
7.根据权利要求6所述的方法,其中,该方法还包括:
-获取与所述扩展查询序列相对应的扩展搜索结果,以更新所述多个搜索结果;
其中,所述步骤b包括:
-根据更新后的所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。
8.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-根据所述多个相关查询序列及所述优选搜索结果,建立或更新序列结果数据库,其中,所述序列结果数据库包括序列簇,以及所述序列簇所对应的一组优选搜索结果。
9.根据权利要求8所述的方法,其中,该方法还包括:
-根据目标查询序列,在所述序列结果数据库中进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇;
-将所述目标序列簇所对应的一组优选搜索结果提供给所述目标查询序列所对应的应用。
10.一种用于确定优选搜索结果的确定设备,其中,该确定设备包括:
获取装置,用于获取多个候选查询序列,以及每个候选查询序列所对应的候选搜索结果;根据所述候选搜索结果,从所述多个候选查询序列中选择多个相关的候选查询序列,以作为多个相关查询序列,并将所述相关的候选查询序列所对应的候选搜索结果作为所述相关查询序列的搜索结果,以获得多个搜索结果;
结果确定装置,用于根据所述多个搜索结果,确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
11.根据权利要求10所述的确定设备,其中,该确定设备还包括:
合成结果确定装置,用于根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。
12.根据权利要求11所述的确定设备,其中,所述合成结果确定装置用于:
-根据所述一个或多个优选搜索结果中至少一个,确定与所述多个相关查询序列相对应的页面相关内容;
-根据所述页面相关内容,确定与所述多个相关查询序列相对应的合成搜索结果,以更新所述一个或多个优选搜索结果。
13.根据权利要求10至12中任一项所述的确定设备,其中,所述结果确定装置包括:
映射确定单元,用于基于随机游走模型,确定所述多个相关查询序列与所述多个搜索结果之间的序列结果映射关系;
结果确定单元,用于对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
14.根据权利要求13所述的确定设备,其中,所述结果确定单元用于:
-结合所述序列结果映射关系中搜索结果相对应的查询序列的相关度信息,对所述序列结果映射关系进行统计处理,以确定所述多个相关查询序列所对应的一个或多个优选搜索结果。
15.根据权利要求10至12中任一项所述的确定设备,其中,该确定设备还包括:
扩展序列确定装置,用于根据所述多个相关查询序列与所述多个搜索结果,确定所述多个相关查询序列所对应的扩展查询序列;
序列更新装置,用于根据所述扩展查询序列更新所述多个相关查询序列,以获得更新后的所述多个相关查询序列;
其中,所述结果确定装置用于:
-根据所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。
16.根据权利要求15所述的确定设备,其中,该确定设备还包括:
扩展结果获取装置,用于获取与所述扩展查询序列相对应的扩展搜索结果,以更新所述多个搜索结果;
其中,所述结果确定装置用于:
-根据更新后的所述多个搜索结果,确定所述更新后的多个相关查询序列所对应的一个或多个优选搜索结果。
17.根据权利要求10至12中任一项所述的确定设备,其中,该确定设备还包括:
数据库建立装置,用于根据所述多个相关查询序列及所述优选搜索结果,建立或更新序列结果数据库,其中,所述序列结果数据库包括序列簇,以及所述序列簇所对应的一组优选搜索结果。
18.根据权利要求17所述的确定设备,其中,该确定设备还包括:
目标获取装置,用于根据目标查询序列,在所述序列结果数据库中进行匹配查询,以获得与所述目标查询序列相对应的目标序列簇;
提供装置,用于将所述目标序列簇所对应的一组优选搜索结果提供给目标查询序列所对应的应用。
CN201310104855.4A 2013-03-28 2013-03-28 一种用于确定优选搜索结果的方法与设备 Active CN103235783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310104855.4A CN103235783B (zh) 2013-03-28 2013-03-28 一种用于确定优选搜索结果的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310104855.4A CN103235783B (zh) 2013-03-28 2013-03-28 一种用于确定优选搜索结果的方法与设备

Publications (2)

Publication Number Publication Date
CN103235783A CN103235783A (zh) 2013-08-07
CN103235783B true CN103235783B (zh) 2016-12-28

Family

ID=48883825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310104855.4A Active CN103235783B (zh) 2013-03-28 2013-03-28 一种用于确定优选搜索结果的方法与设备

Country Status (1)

Country Link
CN (1) CN103235783B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022163A (zh) * 2016-05-17 2016-10-12 上海凭安网络科技有限公司 一种基于第三方自动混淆的查询方法及系统
CN110362694A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于人工智能的文献数据检索方法、设备及可读存储介质
CN111930785A (zh) * 2020-08-05 2020-11-13 宝合工业工具(上海)有限公司 一种数据批量查询展示方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003060768A1 (en) * 2002-01-15 2003-07-24 Ask Jeeves, Inc. Enhanced popularity ranking
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101404019A (zh) * 2007-10-05 2009-04-08 富士通株式会社 实现扩展搜索和提供扩展搜索结果
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102323937A (zh) * 2011-08-31 2012-01-18 百度在线网络技术(北京)有限公司 一种提供搜索结果的方法与设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003060768A1 (en) * 2002-01-15 2003-07-24 Ask Jeeves, Inc. Enhanced popularity ranking
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101404019A (zh) * 2007-10-05 2009-04-08 富士通株式会社 实现扩展搜索和提供扩展搜索结果
CN101706812A (zh) * 2009-11-24 2010-05-12 清华大学 一种文档的检索方法和装置
CN102323937A (zh) * 2011-08-31 2012-01-18 百度在线网络技术(北京)有限公司 一种提供搜索结果的方法与设备

Also Published As

Publication number Publication date
CN103235783A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103399862B (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN103020164B (zh) 一种基于多语义分析和个性化排序的语义检索方法
CN102184230B (zh) 一种搜索结果的展示方法及装置
CN101299217B (zh) 一种地图信息处理的方法、装置和系统
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
CN103455487B (zh) 一种搜索词的提取方法及装置
CN104077415B (zh) 搜索方法及装置
Gulhane et al. Exploiting content redundancy for web information extraction
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
JP2013515977A (ja) 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法
KR20100113423A (ko) 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN103870506B (zh) 一种网页信息的抽取方法和系统
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN101576891A (zh) 一种解析网页表格对象节点的方法
CN103577566B (zh) 一种网页阅读内容加载方法和装置
CN107122447A (zh) 一种基于偏好的多数据源融合的网络搜索系统及控制方法
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
JP2019194864A (ja) ソーシャルネットワークの検索結果提示方法及び装置、並びに記憶媒体
CN103235783B (zh) 一种用于确定优选搜索结果的方法与设备
CN110321446A (zh) 相关数据推荐方法、装置、计算机设备及存储介质
CN106980651A (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN103365876A (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN102999576A (zh) 用于确定目标页面所对应的页面描述信息的方法和设备
CN106776910A (zh) 一种搜索结果的显示方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant