CN102043833B - 一种基于查询词进行搜索的方法和搜索装置 - Google Patents

一种基于查询词进行搜索的方法和搜索装置 Download PDF

Info

Publication number
CN102043833B
CN102043833B CN 201010559148 CN201010559148A CN102043833B CN 102043833 B CN102043833 B CN 102043833B CN 201010559148 CN201010559148 CN 201010559148 CN 201010559148 A CN201010559148 A CN 201010559148A CN 102043833 B CN102043833 B CN 102043833B
Authority
CN
China
Prior art keywords
query word
search
search engine
client
server end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010559148
Other languages
English (en)
Other versions
CN102043833A (zh
Inventor
冯鑫
吴明达
佟子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN 201010559148 priority Critical patent/CN102043833B/zh
Publication of CN102043833A publication Critical patent/CN102043833A/zh
Application granted granted Critical
Publication of CN102043833B publication Critical patent/CN102043833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于查询词进行搜索的方法和装置,所述方法包括以下步骤:搜索客户端获取用户输入的查询词,结合查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎;所述查询词属性库用于表征各查询词或各查询词类别与各搜索引擎的相关程度;获取所选择的搜索引擎的搜索结果信息,处理后进行展示。本发明在有多个搜索引擎的时候,通过对用户查询词的意图理解分析,选择与用户需求相关的搜索引擎(或者在用户意图方向上搜索准确性较高的搜索引擎),进行有针对性的链接搜索,不仅可以提高系统的效率,更增加了用户的搜索准确度。

Description

一种基于查询词进行搜索的方法和搜索装置
技术领域
本发明涉及一种互联网信息搜索方法及工具,特别涉及一种基于查询词进行搜索的方法和搜索装置。
背景技术
随着网络技术的发展,搜索引擎得到了不断的完善,通过搜索引擎可以从互联网上获取各种信息。搜索引擎是当前互联网帮助用户快速获取信息的主要途径之一。用户提交一个查询词(Query)给搜索引擎,搜索引擎返回给用户与该查询词相关的搜索结果,这些结果按与查询词相关的程度从高到低排列。
现有的搜索引擎技术大致可以分为两种。传统搜索引擎,使用网络爬虫从互联网抓取网页,建立索引,并为用户提供查询服务,以百度、谷歌的网页搜索为代表。垂直搜索引擎,对特定领域的数据进行抓取、索引和搜索,并为用户提供查询服务,以搜狗音乐搜索为代表。例如,还存在新闻、音乐、图片、视频、购物、地图等专业领域的垂直搜索引擎。
传统的搜索引擎技术通常包括网页抓取、网页处理、搜索服务等几个部分。无论哪一家搜索引擎,都不可能去抓取互联网的全部内容,因此各家搜索引擎通常都是索引整个互联网的一个子集;另外,传统的网络爬虫基于网页之间的链接进行抓取,对于没有链接的页面难以抓取;最后,传统搜索引擎从抓取、建立索引、提供查询服务需要一定周期,对大部分内容无法做到实时更新。
同时,一种搜索引擎可能无法满足所有人或者一个人的所有搜索需求。在某些情况下,为了得到较为全面及准确的搜索结果,人们需要使用多个搜索引擎来进行搜索,通过对搜索结果进行比较和筛选来获取搜索结果,但是其操作较为繁琐,降低了搜索效率,也提高了搜索的难度。
进一步,对于候选多个搜索引擎而言,将这类候选引擎都选择查询并将结果返回是不可取的(搜索时间将大大加长),且会存在某些引擎对衣服类商品词有更好的结果,但对电子产品的商品词效果会比较差,这使得搜索结果无法更好的满足用户需求,即准确度降低。
总之,本领域技术人员希望能够对用户的查询意图进行分析,以便更好的提供搜索结果,提高用户搜索的准确性。
发明内容
本发明所要解决的技术问题是提供一种基于查询词进行搜索的方法及搜索装置,能够对用户的查询意图进行分析,选择与用户需求相关的搜索引擎,进行有针对性的搜索。
为了解决上述问题,本发明公开了一种基于查询词进行搜索的方法,包括以下步骤:搜索客户端获取用户输入的查询词,结合统计分析得出的查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎;所述查询词属性库用于表征各查询词或各查询词类别与各搜索引擎的相关程度;链接各个搜索引擎,获取所选择的搜索引擎的搜索结果信息,处理后进行展示;
其中,所述选择为由客户端基于本地查询词属性库选择。
其中,所述方法还可以包括:发送查询词至搜索服务器端,由服务器端同时执行查询词分析操作;服务器端选择搜索引擎并将选择的搜索引擎及其权重返回给客户端,客户端根据服务器端选择的搜索引擎及其权重对客户端选择的搜索引擎的权重进行调整。
优选的,所述客户端根据服务器端选择的搜索引擎及其权重对客户端选择的搜索引擎的权重进行调整时:
在客户端与服务器端选择的搜索引擎相同时,若服务器端与客户端确定的相关程度向量值不同,则根据服务器端确定的相关程度向量值来改变该搜索引擎的权重;
在客户端与服务器端选择的搜索引擎不同时,降低服务器端未选择的搜索引擎的权重;并在服务器端与客户端确定的相关程度向量值不同时,根据服务器端确定的相关程度向量值改变客户端和服务器端共同选择的搜索引擎的权重。
优选的,所述方法还可以包括:客户端接收服务器端返回的查询词分析的相关参数;则所述处理包括:利用分析查询词得到的相关参数,通过对搜索结果数和/或搜索结果的摘要与查询词的匹配程度,对搜索结果进行评估,得到评估分值;如果该评估分值低于预设阈值,则对相应搜索引擎的搜索结果进行降权或者删除。
优选的,所述相关参数包括查询词分词信息或纠错信息等。
优选的,所述服务器端的查询词属性库通过如下方法建立:步骤11,统计查询词或查询词类别与搜索引擎的相关信息;步骤12,根据步骤11中的统计信息计算出查询词或查询词类别与各搜索引擎相关程度的向量;步骤13,根据步骤12中的相关程度向量生成查询词属性库。
优选的,所述客户端查询词属性库从服务器端更新得到,其通过提取服务器端属性库中的关键信息而生成。
优选的,所述步骤11中相关信息的统计包括以下步骤:获取各搜索引擎的查询词分布数据;获取查询词在各搜索引擎的点击分布数据。
优选的,所述方法还可以包括:收集用户在当前搜索客户端上,对所展示的搜索结果的点击情况,对查询词属性库进行修正。
依据本发明的另一实施例,还公开了一种基于查询词的搜索装置,其位于搜索客户端,具体可以包括:
第一选择模块,用于根据所获取的查询词,结合统计分析得出的查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎;所述查询词属性库用于表征各查询词或各查询词类别与各搜索引擎的相关程度;
获取模块,用于链接各个搜索引擎,获取搜索引擎的搜索结果信息;
解析展示模块,用于对搜索结果处理后进行展示;
其中,所述选择为由客户端基于本地查询词属性库选择;
其中,所述装置还可以包括:
发送模块,用于发送查询词至搜索服务器端;
接收模块,用于接收服务器端执行查询词分析操作后,所选择的搜索引擎及其权重;
调整模块,用于根据服务器端选择的搜索引擎及其权重对第一选择模块所选择的搜索引擎的权重进行调整。
优选的,所述调整模块中的调整过程包括:
在客户端与服务器端选择的搜索引擎相同时,若服务器端确定的相关程度向量值与客户端确定的相关程度向量值不同,则根据服务器端确定的相关程度向量值来改变该搜索引擎的权重;
在客户端与服务器端选择的搜索引擎不同时,降低服务器端未选择的搜索引擎的权重;并在服务器端与客户端确定的相关程度向量值不同时,根据服务器端确定的相关程度向量值改变客户端和服务器端共同选择的搜索引擎的权重。
优选的,所述接收模块还用于接收服务器端返回的查询词分析的相关参数;所述相关参数包括查询词分词信息或纠错信息等;
则所述解析展示模块包括:
解析处理子模块,用于利用分析查询词得到的相关参数,通过对搜索结果数和/或搜索结果的摘要与查询词的匹配程度,对搜索结果进行评估,得到评估分值;如果该评估分值低于预设阈值,则对相应搜索引擎的搜索结果进行降权或者删除;
展示子模块,用于展示解析处理子模块排序修正后的搜索结果。
优选的,所述第一选择模块所依据的查询词属性库位于本地客户端,其通过提取服务器端属性库中的关键信息而生成。
优选的,所述装置还可以包括:
反馈模块,用于收集用户在当前搜索客户端上,对所展示的搜索结果的点击情况,以对查询词属性库进行修正。
与现有技术相比,本发明具有以下优点:
本发明的基于查询词进行搜索的方法及搜索装置在有多个搜索引擎的时候,通过对用户查询词的意图理解分析,选择与用户需求相关的搜索引擎(或者在用户意图方向上搜索准确性较高的搜索引擎),进行有针对性的链接搜索,不仅可以提高系统的效率,更增加了用户的搜索准确度。
此外,由于客户端计算性能或计算资源等限制,可能影响选择结果,所以本发明优选的,在客户端与服务器端两部分都做选择,客户端首先对查询意图做判断,选择可能的搜索引擎,服务器端对查询词做进一步的准确分析,将最后的搜索引擎选取结果,以及查询词的分词、纠错等相关参数,返回给客户端,客户端根据这些信息,对所选搜索引擎的查询结果、查询意图相关程度、以及搜索质量做进一步的筛选、排序。这种客户端与服务器相结合方式,提升了系统性能、降低了对客户端的要求和对客户端资源的占用,进一步提高了用户的搜索准确度。
附图说明
图1是本发明的一种基于查询词进行搜索的方法实施例一的流程图;
图2是本发明的一种基于查询词进行搜索的方法实施例一中查询词属性库的建立方法实施例的流程图;
图3是本发明的一种基于查询词进行搜索的方法实施例一中查询词属性库的建立方法另一实施例的流程图;
图4是本发明的一种基于查询词进行搜索的方法实施例二的流程图;
图5是本发明的一种基于查询词的搜索装置实施例的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
请参照图1,示出本发明的基于查询词进行搜索的方法实施例一,包括以下步骤:
步骤101,搜索客户端获取用户输入的查询词,结合查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎。
搜索客户端获取用户输入的查询词的方式多种多样,本发明仅仅给出以下几个示例。例如,当用户在搜索工具栏的搜索框中输入字符时,在浏览器地址栏中输入中文词时,搜索客户端可以获取这些字符和中文词作为查询词。
在技术实现上,本发明的搜索客户端可以作为一个独立的客户端软件(独立的搜索入口),对用户查询请求进行获取,也可以在搜索客户端中集成浏览器模块或者其他应用程序模块,例如,IM(InstantMessaging,即时通讯)程序、输入法程序、甚至文本编辑程序word等),获取用户的查询请求。这样,便于用户在使用相关应用时能够方便的使用本发明的搜索功能。
扩展理解,用户所使用的客户端计算机本身也就是本发明所说的搜索客户端,本发明所强调的各个步骤都是由该计算机发起的,即该物理实体也可以理解为本发明所说的搜索客户端。当然,为了方便说明,在下面的描述中直接采用搜索客户端进行说明,并主要强调其软件属性。
请参照图2,查询词的属性库可以是预先统计得出,并储存在搜索客户端,当然,查询词属性库也可以直接存储在服务器端,由服务器端自己完成操作后将选择结果返回客户端即可。
具体的,在实现中,查询词属性库可以通过如下方法得出:
步骤1011,统计查询词与搜索引擎的相关信息。
在具体实现时,可以首先统计获取各搜索引擎的查询词分布数据,再统计获取查询词在各搜索引擎的点击分布数据,基于这些统计信息就可以计算出各查询词与各搜索引擎相关程度的向量。
统计查询词与搜索引擎的相关信息包括,获取搜索引擎中用户查询词的分布数据,例如,用户在www.taobao.com站内搜索或者www.gougou.com等搜索引擎中所搜索的查询词。
其中,需要说明的是,www.gougou.com本身就是一搜索引擎,而www.taobao.com、www.skycn.com等是在其站点内拥有搜索引擎,在本发明中为了方便说明,直接采用www.taobao.com、www.skycn.com等表示搜索引擎,在此特别说明。
同时,还包括获取在某一特定搜索引擎下,用户查询词与相应的搜索引擎或者站点的点击日志数据,例如,用户在www.sogou.com下查询“衣服”时,点击www.taobao.com域名下面的网页链接的次数。
通过上述统计数据,可以得出每个查询词在各目标搜索引擎下的查询分布统计信息,以及在特定搜索引擎下的查询词与目标搜索引擎或站点下的点击分布统计信息。
步骤1012,分析查询词与目标搜索引擎的相关程度。
根据以上查询词与搜索引擎的分布统计信息,生成每个查询词与目标搜索引擎的向量,向量值表示查询词与此搜索引擎的相关程度。例如,“手机”与搜索引擎“www.taobao.com”的相关程度向量值为0.8,则表示为www.taobao.com#0.8,“衣服”与搜索引擎“www.taobao.com”的相关程度向量为0.9,则表示为www.taobao.com#0.9。
步骤1013,建立包含查询词与搜索引擎相关程度向量的查询词属性库。
对计算出的每个查询词与目标搜索引擎的相关程度向量值进行汇总,整理为表格或者其他形式作为查询词属性库,用于对用户查询词意图进行分析。查询词属性库可以直接存储在客户端,当用户在客户端进行搜索时,则可以首先通过查询词属性库对查询词进行分析,选取相关的搜索引擎,进行搜索。
请参照图3,考虑客户端的性能限制,不能负载完整的查询词属性库,为了保证用户查询的顺利,也可以在前述实现方式的基础上增加步骤1014,提取查询词属性库中的查询词所包含的实体词及关键属性词,对查询词属性库做压缩。压缩后的查询词属性库可以仅包含查询实体词及关键属性词。例如,“搜狗输入法免费下载地址”通过实体词和属性词提取后,压缩为实体词“搜狗输入法”和属性词“下载”。将压缩后的查询词属性库储存在客户端,用于对用户查询词做初步分析,筛选出相关的搜索引擎。
这样可以降低查询词属性库对客户端存储空间的占用,同时在查询词分析时也可以降低对运算性能的要求,提高分析运算速度。
还需要说明的是,本发明的查询词属性库还可以表征查询词类别与搜索引擎的相关程度,例如,
IT类-A引擎#0.9,B引擎#0.8,C引擎#0.6
服饰类-A引擎#0.5,B引擎#0.7,C引擎#0.9
百科类-A引擎#0.7,B引擎#0.9,C引擎#0.6
采用类别相关度的方法,可以进一步缩小查询词属性库的空间占用和提高分析运算速度。当然,在本发明的优选实施例中,查询词属性库也可以同时表征这样的两种相关度参数。
关于查询词类别分析,可以使用人工的方式确定某一个词属于哪一个类别(预设词表),或通过用户在搜索引擎下的查询词与点击内容的关联分析,来得到查询词属于某个或几个特定类别。在本发明的一个优选实施例中,具体的查询词类别分析过程可以通过服务器端运算完成。
总之,可以通过预设词表的方式,对用户的查询词进行归类或分类,在此本发明不再详述。
步骤102,获取搜索引擎的搜索结果信息,处理后进行展示。
简单的,通过链接各个搜索引擎,就可以得到其搜索结果,进而通过对搜索结果信息进行解析、合并滤重或重排序等操作后,将最终确认的搜索结果展示给用户。
具体实现中有很多重排序或者修正搜索结果的方案,基于实际需要本领域技术人员选用即可,本发明在此不再赘述。
在前述实施例中,本发明给出了相关程度的向量实现方式,实际上,为了从多个搜索引擎中选择适合该查询词的搜索引擎,可以采用更为简单的方式。例如,对于查询词和搜索引擎分别进行分类,针对某个查询词,选择与其相同或者相近类别的搜索引擎即可。
例如,用户搜索“hp笔记本价格”,由于该查询词属于IT类,则选择IT类的搜索引擎即可,当然,也可以选择相近类别的搜索引擎(例如,综合类别的搜索引擎)。
在选择适合该查询词的搜索引擎时,通常都会选择出多个搜索引擎,某个特定情况下,也可能仅仅选择出唯一的适合的搜索引擎。也就是说,本发明对于选择得到的搜索引擎的数量并不需要加以限定。
请参照图4,示出本发明的基于查询词进行搜索的方法实施例二,包括以下步骤:
步骤201,搜索客户端获取用户输入的查询词,结合客户端的查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎。此步骤与实施例一中相同,在此不再描述。
步骤202,将客户端获取的查询词发送至搜索服务器端,由服务器端同时执行查询词分析操作。服务器端根据对查询词的分析选择搜索引擎并将选取的搜索引擎及其权重返回给客户端
步骤203,在服务器端分析的过程中,客户端链接所选择的搜索引擎,获取所需的搜索结果。
步骤204,客户端根据服务器端选择的搜索引擎及其权重对客户端选择的搜索引擎的权重进行调整;
步骤205,客户端接收服务器端返回的查询词分析的相关参数;所述相关参数包括查询词分词信息或纠错信息等.
利用分析查询词得到的相关参数,通过对搜索结果数和/或搜索结果的摘要与查询词的匹配程度,对搜索结果进行评估,得到评估分值;如果该评估分值低于预设阈值,则对相应搜索引擎的搜索结果进行降权或者删除。
步骤206,根据调整后的搜索引擎权重对搜索结果进行筛选、排序;对修正后的搜索结果进行展示。
在具体实现中,服务器端的查询词属性库可以通过挖掘用户日志生成完整查询词库,而客户端的查询词属性库可以在服务器端完整词表的基础上,提取实体关键词、属性关键词生成。它们的数据源为同一个,都是用户查询日志,但是服务器端的查询词属性库更完整更完善一些。
其中,服务器端分析查询词并选择搜索引擎后,可能出现多种情况:
1、客户端与服务器端选择的搜索引擎相同,若同一搜索引擎,服务器端的查询词属性库中查询词与该搜索引擎的相关程度向量值与客户端的查询词属性库中查询词与该搜索引擎相关程度向量值不同,则根据服务器端确定的向量值来改变该搜索引擎的权重,根据改变后的权重对所有搜索引擎的搜索结果按照既定的方式进行排序。若两者相同,则无需改变搜索引擎的权重,直接对搜索结果进行排序。
2、客户端与服务器端选择的搜索引擎不同,则根据下述方法调整:
2.1、客户端选择了10个搜索引擎,服务器端选择了5个搜索引擎,且服务器端选择的5个搜索引擎属于客户端的10个搜索引擎中的。客户端会降低服务器端未选择的5个搜索引擎的权重。同时,对于客户端和服务器端共同选择的那5个搜索引擎,若同一搜索引擎,服务器端确定的与查询词的相关程度向量值与客户端确定的与查询词的相关程度向量值不同,则根据服务器端确定的向量值来改变该搜索引擎的权重,对搜索结果进行排序。例如,查询词为“短袖衬衫价格”,服务器计算返回www.taobao.com#0.9,www.vancl.com#0.8其中taobao和vancl是对应这个查询词服务器计算与其相关的外部引擎,0.9和0.8标准各自相关的权重信息;客户端会根据服务器所选引擎及其权重,调整各引擎结果的排序;
2.2、客户端选择选择了10个搜索引擎,服务器端选择了5个搜索引擎,服务器端选择的5个搜索引擎属于客户端选择的10个搜索引擎中的。同时,服务器端还返回了相关的参数给客户端,返回的参数包括查询词分类、分词、纠错等相应参数信息。分类参数即是指查询词与搜索引擎的相关程度向量值;分词参数是指将将一个长查询串分离为过更细粒度的词的信息,例如,“短袖衬衫价格”,分词为“短袖”,“衬衫”,“价格”;纠错参数是指对用户查询词中包含的输入错误做纠错的信息,例如“短袖衬衫架格”纠错后为“短袖衬衫价格”。同样的,客户端会降低未被服务器端选取的那5个搜索引擎的权重,同时,根据服务器所选的搜索引擎及其与查询词的相关程度向量值来改变客户端之前确定的该搜索引擎的权重。另外,客户端还会根据服务器端返回的分词及纠错参数对所选的5个搜索引擎的搜索结果进行评估。客户端用服务器端返回的分词与客户端选择的搜索引擎的搜索结果的文本进行比对,计算查询词与该搜索结果之间的相关性,得出搜索结果的评估分值,若评估分值低于预设阀值,则对相应的搜索结果进行降权或删除。
2.3、客户端选择了10个,而服务器端未选择搜索引擎,只是返回查询词分类、分词、纠错等相应参数信息,基于这些参数信息,客户端对所选的10个搜索引擎的搜索结果进行评估,并根据评估结果对搜索结果进行排序。评估的方法与2.2中相同。
通过2.2及2.3中采用服务器端返回的参数来对搜索结果重新排序的方法,可以提高搜索结果的质量,特别是对于某些特殊的情况具有较好的效果。比如:搜索结果匹配效果不好、引擎故障、网络故障等,这些情况会导致所选引擎与用户实际查询意图不相关、或搜索结果质量不好等,从而影响搜索的整体效果。为此,对最终选取的搜索引擎的查询结果,利用返回的参数信息,通过搜索结果数,整体摘要与查询词的文本匹配程度等,对所选搜索引擎与查询词的相关性、搜索结果质量计算评估分值,用阈值来再次判定是否给出此搜索引擎的结果。最后将整体结果重排序后,展现给用户。
下面结合实例进一步对本发明的基于查询词进行搜索的方法进行详细说明。
首先通过一些挖掘方法,获取用户查询词在各目标搜索引擎或站点的分布比例:
1)获取在各目标搜索引擎站点下,用户日常查询词。比如,用户在search.taobao.com、www.gougou.com等所搜索的查询词。
2)在特定全文搜索引擎下,用户查询词与相应点击日志数据。比如,用户在www.sogou.com下查询“手机”时,点击过www.taobao.com站点下的网页链接次数。
由此生成每个查询词对应某个目标搜索引擎及相应站点域下的分布比例信息。比如,查询词“手机”在搜索引擎A下查询NA次,在www.sogou.com下查询此词时点击到搜索引擎A下的页面为MA次。此词在搜索引擎B下查询NB次,在www.sogou.com下查询此词时点击到搜索引擎B下的页面为MB次。用分布比例信息我们计算出每个查询词与各目标搜索引擎相关程度向量,得到“手机”与搜索引擎A的相关程度向量公式为w1*NA/(NA+NB)+w2*MA/(MA+MB),与搜索引擎B的相关程度向量为w1*NB/(NA+NB)+w2*MB/(MA+MB)。其中,w1、w2为不同分布信息来源的权重。另外,在计算相关程度向量时,可认为站点域相同的为同一目标搜索引擎,如search.taobao.com、www.taobao.com的站点域为taobao.com,则可以认为两者为同一目标搜索引擎。相关程度可以根据实际需要附上不同的权重计算,本发明实施例对此不进行限定。
通过上述方法,为每个查询词生成对应于目标搜索引擎的属性库,例如下表1:
表1
Figure GDA00003308092300131
表1列出了查询词与目标搜索引擎相关程度,通过对相关程度设定阈值,过滤与查询不相关的搜索引擎。
客户端负责对查询词需要连接的搜索引擎做基本的预判断,将所选搜索引擎在相应查询词下的搜索结果抓取并返回给客户端,同时等待服务器端返回最终引擎选择结果以及相关参数。考虑到性能因素,某些客户端不能负载一个完整的属性库,所以可以将上述的查询词属性库进行压缩,通过对完整属性库的关键信息进行提取,得到简化后的属性库。其中,关键信息通常可以包括查询词中所包含的实体(可以理解为关键主语或者名词等)和/或关键属性词(也可以理解为关键限制词),表1提取实体后如下表2。
表2
查询词 引擎1#相关程度 引擎2#相关程度 ...
手机 search.taobao.com#0.8 so.youku.com#0.4 ...
C++编程思想 search.dangdang.com#0.7 search.taobao.com#0.4
搜狗输入法 www.gougou.com#0.7 www.skycn.com#0.5
因此,在此应用中,表1作为服务器端的查询词属性库,而表2作为客户端的查询词属性库。其中,“报价”、“下载”会作为属性词,生成与目标引擎的属性库,由于这类属性特征相对较少,也可以通过统计加人工的方式建立。
进一步,当服务器端的查询词属性库发生变化时(有修正或者更新时),可以通过远程更新的方式,对客户端的查询词属性库进行更新校准。
在本发明的优选实施例中,还可以收集用户在当前搜索客户端上,对所展示的搜索结果的点击情况,并将该点击情况传送给服务器端的查询词属性库,从而可以对查询词属性库进行修正。例如,用户点击了搜索结果排序比较靠后(如10页之后的搜索结果页链接)的搜索结果页,就说明当前搜索结果排序不符合用户对该查询词的需求,需要进行修正。
当然,也可以将收集后的信息处理后再发送给服务器,例如,统计获得修正信息后再发送。
用户进行查询词输入的时候,客户端会将获取的查询词同时传送给客户端和服务器端进行查询分析。因为客户端的查询词属性库与服务器端的查询词属性库具有一定的差异,两者的分析结果可能相同,也可能会有一定的差异。
例如,用户输入的查询词能与客户端的查询词属性库中的查询词完全匹配时,服务器端返回的结果与客户端返回的结果可能完全相同。例如,用户输入“手机”作为查询词,服务器端与客户端的查询词属性库中关于“手机”与搜索引擎的相关程度等信息相同,两者选择搜索引擎也都会相同,都是search.taobao.com#0.8及so.youku.com#0.4。因此,客户端无需重新调整搜索引擎的权重,可以按照既定的方式对搜索结果进行排序。
当用户输入的查询词与客户端的查询词属性库中的查询词不匹配时,需要借助服务器端的返回参数来进行调整。例如,当用户输入查询词“搜狗输入法免费下载”,客户端将查询词分发给服务器端和客户端,客户端通过实体属性库分析其中包含实体“搜狗输入法”及属性“下载”,并选择相关程度较好的www.gougou.com、www.skycn.com作为搜索引擎进行查询,该两个搜索引擎将搜索结果返回给客户端。与此同时,服务器端利用完整属性库对查询词做更加严格精准的意图分析,并将分析结果以及查询词分词、等相应参数信息反馈给客户端。服务器端也是选择www.gougou.com、www.skycn.com作为搜索引擎。但是,服务器端查询词属性库中“搜狗输入法免费下载”对应的www.gougou.com相关程度向量值与客户端查询词中“搜狗输入法”对应的www.gougou.com相关程度向量值不同。服务器端两者的相关程度向量值为0.6,而客户端两者的相关程度向量值为0.7。因此,此处将客户端中的www.gougou.com的权重从0.7调整为0.6。并以调整后的权重作为后续对搜索结果排序的参数。
此外,还可能出现用户输入的查询词错误的情况,此时也需要借助服务器端的返回参数来进行调整。例如:用户输入的查询词为“短袖衬衫架格”,客户端经过对该词的分析后所选择的搜索引擎为:www.taobao.com,www.vancl.com,www.dangdang.com。同时,服务器端经过对该词的分析后,对该词进行纠错,改为“短袖衬衫价格”,并返回“短袖衬衫价格”与目标搜索引擎的相关程度向量值,如www.taobao.com#0.9,www.vancl.com#0.8给客户端,并分词为“短袖”、“衬衫”、“价格”传给客户端。客户端可以首先降低www.dangdang.com的权重,然后用分词与客户端预先选择的三个搜索引擎中排在前三位的搜索结果做文本相关性匹配(如这三个分词在各结果文本中出现的次数等),同时客户端通过服务器端返回的参数来判断搜索结果与查询词在文本上的相关程度,从而判断搜索引擎在此查询下的整体搜索质量,并根据服务器端返回的www.taobao.com及www.vancl.com与查询词相关程度向量值来调整客户端之前对该两个搜索引擎的搜索结果的排序。
请参照图5,示出本发明的一种基于查询词的搜索装置100,位于搜索客户端,包括第一选择模块10、获取模块20和解析展示模块30。
第一选择模块10,用于根据所获取的查询词,结合查询词属性库,选择适合该查询词的搜索引擎;所述查询词属性库用于表征各查询词或各查询词类别与各搜索引擎的相关程度;
获取模块20,用于获取搜索引擎的搜索结果信息。
解析展示模块30,用于对搜索结果处理后进行展示。例如,根据客户端的查询词属性库中查询词与搜索引擎相关程度、以及预先确定的搜索结果排序方式,对搜索结果进行筛选、排序等处理后,对搜索结果进行展示。
其中,在本发明的一个实施例中,所述第一选择模块所依据的查询词属性库位于本地客户端,其通过提取服务器端属性库中查询词包含的实体和关键属性词生成。进一步,搜索装置100还可以包括反馈模块,用于收集用户在当前搜索客户端上,对所展示的搜索结果的点击情况,以对查询词属性库进行修正。
进一步地,本发明还可以设置服务器端,并在服务器端存储查询词属性库,因为服务器端的性能较好,可以在服务器端存储完整的查询词属性库,而在客户端存储压缩后的查询词属性库,避免占用客户端过多的资源。
则在本发明的优选实施例中,搜索装置100还可以包括:
发送模块40,用于发送查询词至搜索服务器端;
接收模块50,用于接收服务器端执行查询词分析操作后,所选择的搜索引擎及其权重;
调整模块60,用于根据服务器端选择的搜索引擎及其权重对第一选择模块所选择的搜索引擎的权重进行调整。
在本发明的另一优选实施例中,所述接收模块50还用于接收服务器端返回的查询词分析的相关参数;所述相关参数包括查询词分词信息或纠错信息等;
则所述解析展示模块30可以进一步包括:
解析处理子模块,用于利用分析查询词得到的相关参数,通过对搜索结果数和/或搜索结果的摘要与查询词的匹配程度,对搜索结果进行评估,得到评估分值;如果该评估分值低于预设阈值,则对相应搜索引擎的搜索结果进行降权或者删除;
展示子模块,用于展示解析处理子模块排序修正后的搜索结果。
本发明的基于查询词进行搜索的方法及搜索装置在搜索引擎数量较多的时候,通过对用户查询词的意图理解分析,选择与用户需求相关的搜索引擎,进行有针对性的连接搜索,不仅可以提高系统的效率,更增加了用户的搜索准确度。进一步,本发明通过客户端和服务器端同时对用户查询意图的分析,进一步提高搜索准确度。客户端会对查询词做初步预判,并选择相关引擎查询抓取结果,同时等待服务器端传回相关参数,根据服务器传回的分类信息,来确定最后选定的搜索引擎,同时利用返回的与查询词相关的分词、纠错信息,对所选引擎的前几条结果做质量判断,用于识别所选引擎结果中,是否包含坏结果(与查询词在文本信息上无关的结果)。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明所提供的一种基于查询词进行搜索的方法和搜索装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种基于查询词进行搜索的方法,其特征在于,包括以下步骤:
搜索客户端获取用户输入的查询词,结合统计分析得出的查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎;所述查询词属性库用于表征各查询词或各查询词类别与各搜索引擎的相关程度;
链接各个搜索引擎,获取所选择的搜索引擎的搜索结果信息,处理后进行展示;
其中,所述选择为由客户端基于本地查询词属性库选择;
其中,所述方法还包括:
发送查询词至搜索服务器端,由服务器端同时执行查询词分析操作;
服务器端选择搜索引擎并将选择的搜索引擎及其权重返回给客户端,客户端根据服务器端选择的搜索引擎及其权重对客户端选择的搜索引擎的权重进行调整。
2.如权利要求1所述的方法,其特征在于,所述客户端根据服务器端选择的搜索引擎及其权重对客户端选择的搜索引擎的权重进行调整时:
在客户端与服务器端选择的搜索引擎相同时,若服务器端与客户端确定的相关程度向量值不同,则根据服务器端确定的相关程度向量值来改变该搜索引擎的权重;
在客户端与服务器端选择的搜索引擎不同时,降低服务器端未选择的搜索引擎的权重;并在服务器端与客户端确定的相关程度向量值不同时,根据服务器端确定的相关程度向量值改变客户端和服务器端共同选择的搜索引擎的权重。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
客户端接收服务器端返回的查询词分析的相关参数;
则所述处理包括:
利用分析查询词得到的相关参数,通过对搜索结果数和/或搜索结果的摘要与查询词的匹配程度,对搜索结果进行评估,得到评估分值;
如果该评估分值低于预设阈值,则对相应搜索引擎的搜索结果进行降权或者删除。
4.如权利要求3所述的方法,其特征在于,所述相关参数包括查询词分词信息或纠错信息。
5.如权利要求3所述的方法,其特征在于,所述服务器端的查询词属性库通过如下方法建立:
步骤11,统计查询词或查询词类别与搜索引擎的相关信息;
步骤12,根据步骤11中的统计信息计算出查询词或查询词类别与各搜索引擎相关程度的向量;
步骤13,根据步骤12中的相关程度向量生成查询词属性库。
6.如权利要求5所述的方法,其特征在于,所述客户端查询词属性库从服务器端更新得到,其通过提取服务器端属性库中的关键信息而生成。
7.如权利要求5所述的方法,其特征在于,所述步骤11中相关信息的统计包括以下步骤:
获取各搜索引擎的查询词分布数据;
获取查询词在各搜索引擎的点击分布数据。
8.如权利要求5所述的方法,其特征在于,还包括:
收集用户在当前搜索客户端上,对所展示的搜索结果的点击情况,对查询词属性库进行修正。
9.一种基于查询词的搜索装置,其特征在于,位于搜索客户端,包括:
第一选择模块,用于根据所获取的查询词,结合统计分析得出的查询词属性库,从多个搜索引擎中选择适合该查询词的搜索引擎;所述查询词属性库用于表征各查询词或各查询词类别与各搜索引擎的相关程度;
获取模块,用于链接各个搜索引擎,获取搜索引擎的搜索结果信息;
解析展示模块,用于对搜索结果处理后进行展示;
其中,所述选择为由客户端基于本地查询词属性库选择;
其中,所述装置还包括:
发送模块,用于发送查询词至搜索服务器端;
接收模块,用于接收服务器端执行查询词分析操作后,所选择的搜索引擎及其权重;
调整模块,用于根据服务器端选择的搜索引擎及其权重对第一选择模块所选择的搜索引擎的权重进行调整。
10.如权利要求9所述的装置,其特征在于,所述调整模块中的调整过程包括:
在客户端与服务器端选择的搜索引擎相同时,若服务器端确定的相关程度向量值与客户端确定的相关程度向量值不同,则根据服务器端确定的相关程度向量值来改变该搜索引擎的权重;
在客户端与服务器端选择的搜索引擎不同时,降低服务器端未选择的搜索引擎的权重;并在服务器端与客户端确定的相关程度向量值不同时,根据服务器端确定的相关程度向量值改变客户端和服务器端共同选择的搜索引擎的权重。
11.如权利要求9所述的装置,其特征在于,
所述接收模块还用于接收服务器端返回的查询词分析的相关参数;所述相关参数包括查询词分词信息或纠错信息;
则所述解析展示模块包括:
解析处理子模块,用于利用分析查询词得到的相关参数,通过对搜索结果数和/或搜索结果的摘要与查询词的匹配程度,对搜索结果进行评估,得到评估分值;如果该评估分值低于预设阈值,则对相应搜索引擎的搜索结果进行降权或者删除;
展示子模块,用于展示解析处理子模块排序修正后的搜索结果。
12.如权利要求11所述的装置,其特征在于,所述第一选择模块所依据的查询词属性库位于本地客户端,其通过提取服务器端属性库中的关键信息而生成。
13.如权利要求9所述的装置,其特征在于,所述装置还包括:
反馈模块,用于收集用户在当前搜索客户端上,对所展示的搜索结果的点击情况,以对查询词属性库进行修正。
CN 201010559148 2010-11-25 2010-11-25 一种基于查询词进行搜索的方法和搜索装置 Active CN102043833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010559148 CN102043833B (zh) 2010-11-25 2010-11-25 一种基于查询词进行搜索的方法和搜索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010559148 CN102043833B (zh) 2010-11-25 2010-11-25 一种基于查询词进行搜索的方法和搜索装置

Publications (2)

Publication Number Publication Date
CN102043833A CN102043833A (zh) 2011-05-04
CN102043833B true CN102043833B (zh) 2013-12-25

Family

ID=43909971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010559148 Active CN102043833B (zh) 2010-11-25 2010-11-25 一种基于查询词进行搜索的方法和搜索装置

Country Status (1)

Country Link
CN (1) CN102043833B (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955807B (zh) * 2011-08-26 2018-10-30 华为软件技术有限公司 一种关联信息的检索方法及装置
CN102955821A (zh) * 2011-08-30 2013-03-06 北京百度网讯科技有限公司 一种对查询序列进行扩展处理的方法与设备
CN103077169A (zh) * 2011-10-26 2013-05-01 宏碁股份有限公司 网络搜寻方法与计算机装置
US9189563B2 (en) 2011-11-02 2015-11-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
US9177022B2 (en) 2011-11-02 2015-11-03 Microsoft Technology Licensing, Llc User pipeline configuration for rule-based query transformation, generation and result display
US9558274B2 (en) 2011-11-02 2017-01-31 Microsoft Technology Licensing, Llc Routing query results
CN105956137B (zh) * 2011-11-15 2019-10-01 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN102402619B (zh) * 2011-12-23 2013-10-30 广东威创视讯科技股份有限公司 一种搜索方法和装置
CN103186573B (zh) * 2011-12-29 2016-05-18 北京百度网讯科技有限公司 一种确定搜索需求强度的方法、需求识别的方法及其装置
CN103246681B (zh) * 2012-02-13 2018-10-26 深圳市世纪光速信息技术有限公司 一种搜索方法及装置
CN102609539B (zh) * 2012-02-16 2015-06-10 北京搜狗信息服务有限公司 一种搜索方法和系统
CN103365839B (zh) * 2012-03-26 2017-12-12 深圳市世纪光速信息技术有限公司 一种搜索引擎的推荐搜索方法和装置
CN102902806B (zh) * 2012-10-17 2016-02-10 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及系统
CN103838739B (zh) * 2012-11-21 2019-05-28 百度在线网络技术(北京)有限公司 一种搜索引擎中纠错词的检测方法及系统
CN103885979B (zh) * 2012-12-21 2018-06-05 深圳市世纪光速信息技术有限公司 推送信息的方法和装置
CN103092945B (zh) * 2013-01-11 2019-11-26 北京百度网讯科技有限公司 一种基于界面返回的搜索方法和装置
CN103164542A (zh) * 2013-04-15 2013-06-19 北京奇虎科技有限公司 数据搜索的方法及客户端
CN104424215B (zh) * 2013-08-23 2018-02-27 腾讯科技(深圳)有限公司 进行数据搜索的方法及搜索服务器
CN104462510B (zh) * 2014-12-22 2018-09-11 北京奇虎科技有限公司 基于用户搜索意图的搜索方法及装置
CN104915429B (zh) * 2015-06-15 2018-09-04 小米科技有限责任公司 关键词搜索方法及装置
CN105022794A (zh) * 2015-06-26 2015-11-04 广州时韵信息科技有限公司 一种快速搜索所需文章内容的方法及装置
CN106339382A (zh) * 2015-07-07 2017-01-18 阿里巴巴集团控股有限公司 一种业务对象的推送方法和装置
CN105512105B (zh) * 2015-12-07 2019-05-31 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN106126592B (zh) * 2016-06-20 2021-09-14 北京小米移动软件有限公司 搜索数据的处理方法及装置
CN106407332B (zh) * 2016-09-05 2020-01-07 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106709353B (zh) * 2016-10-27 2021-06-18 腾讯科技(深圳)有限公司 搜索引擎的安全性检测方法及装置
CN107025265B (zh) * 2017-02-17 2020-11-06 创新先进技术有限公司 搜索方法、装置、系统、以及命令转换器的生成方法
CN107291864B (zh) * 2017-06-12 2020-04-07 北京三快在线科技有限公司 一种搜索方法及装置,电子设备
CN107301241B (zh) * 2017-07-03 2020-06-05 北京奇艺世纪科技有限公司 一种视频搜索中的查询词纠错方法和装置
CN107526826B (zh) * 2017-08-31 2021-09-17 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
CN108121815B (zh) * 2017-12-28 2022-03-11 深圳开思时代科技有限公司 汽车配件查询方法、装置及系统、电子设备和介质
CN108460099A (zh) * 2018-01-31 2018-08-28 天津大学 一种基于聊天模块的信息检索方法
US20200320153A1 (en) * 2019-04-02 2020-10-08 International Business Machines Corporation Method for accessing data records of a master data management system
CN110427381A (zh) * 2019-08-07 2019-11-08 北京嘉和海森健康科技有限公司 一种数据处理方法及相关设备
CN112417264B (zh) * 2019-08-23 2024-01-30 腾讯科技(深圳)有限公司 一种信息搜索的方法及装置
CN110807138B (zh) * 2019-09-10 2022-07-05 国网电子商务有限公司 一种搜索对象类别的确定方法及装置
CN113672314A (zh) * 2020-05-13 2021-11-19 百度在线网络技术(北京)有限公司 内容的获取方法、装置以及电子设备
CN111708935A (zh) * 2020-05-15 2020-09-25 深圳市世强元件网络有限公司 一种用于关键词搜索的多节点分词系统及方法
US11914658B2 (en) 2020-05-15 2024-02-27 Shenzhen Sekorm Component Network Co., Ltd Multi-node word segmentation system and method for keyword search
CN111694870B (zh) * 2020-06-17 2023-05-26 集美大学 一种大数据模型执行引擎系统及实现方法
CN113254766A (zh) * 2021-05-20 2021-08-13 北京百度网讯科技有限公司 信息的检索方法和装置
CN113626462B (zh) * 2021-07-15 2022-11-15 北京百度网讯科技有限公司 即时通讯对象的搜索方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751434A (zh) * 2008-12-16 2010-06-23 北大方正集团有限公司 一种元搜索引擎的排名方法及元搜索引擎

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751434A (zh) * 2008-12-16 2010-06-23 北大方正集团有限公司 一种元搜索引擎的排名方法及元搜索引擎

Also Published As

Publication number Publication date
CN102043833A (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
US8661027B2 (en) Vertical search-based query method, system and apparatus
WO2021121106A1 (zh) 基于联邦学习的个性化推荐方法、装置、设备及介质
CN107729336B (zh) 数据处理方法、设备及系统
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN101178728A (zh) 一种网址导航的方法和系统
CN104794242B (zh) 一种搜索方法
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
CN102004782A (zh) 一种搜索结果排序方法和搜索结果排序器
CN101551806A (zh) 一种个性化网址导航的方法和系统
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US9262555B2 (en) Machine for recognizing or generating Jabba-type sequences
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN102402589A (zh) 一种提供与搜索请求相关的参考搜索信息的方法与设备
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN102955821A (zh) 一种对查询序列进行扩展处理的方法与设备
CN103049495A (zh) 用于提供与查询序列相对应的搜索建议的方法、装置与设备
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN103226601B (zh) 一种图片搜索的方法和装置
CN102999489A (zh) 一种社区网站页面的图片检索方法和系统
CN111400436A (zh) 一种基于用户意图识别的搜索方法以及装置
CN108681571B (zh) 基于Word2Vec的主题爬虫系统和方法
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN103902687B (zh) 一种搜索结果的生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant