CN104881447A

CN104881447A - 搜索方法及装置

Info

Publication number: CN104881447A
Application number: CN201510246096.4A
Authority: CN
Inventors: 陈庆轩; 张永刚; 王山雨; 王潜; 李开宇; 白露
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2015-09-02

Abstract

本发明提供一种搜索方法及装置。本发明实施例通过获得与所获取的搜索关键词匹配的候选聚合问题，以作为目标聚合问题，进而获得所述目标聚合问题所对应的推荐实体数据，使得能够输出所述目标聚合问题所对应的所述推荐实体数据，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

Description

搜索方法及装置

【技术领域】

本发明涉及搜索技术，尤其涉及一种搜索方法及装置。

【背景技术】

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供搜索服务，将用户搜索相关的信息展示给用户的系统。如何利用搜索服务最大限度满足用户需求，对于互联网企业而言，是一个重要的课题。用户在搜索引擎对应应用中的搜索框中，输入搜索关键词，由应用将搜索关键词，发送给搜索引擎。搜索引擎则根据搜索关键词，在数据库中进行搜索，以获得与搜索关键词匹配的资源例如，网页或文档等，以作为若干个搜索结果，并返回给应用进行输出。

然而，如果用户想要通过搜索关键词获得具有结构化特点的丰富内容，由于原始的资源库中的资源都是相互独立的单一内容，使得每个搜索结果也是单一内容，可能无法满足用户真正的搜索意图，使得用户需要通过应用反复进行搜索，才能够获得所需要的内容，这样，会增加应用与搜索引擎之间的数据交互，从而导致了搜索引擎的处理负担的增加。

【发明内容】

本发明的多个方面提供一种搜索方法及装置，用以降低搜索引擎的处理负担。

本发明的一方面，提供一种搜索方法，包括：

获取搜索关键词；

获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题；

获得所述目标聚合问题所对应的推荐实体数据；

输出所述目标聚合问题所对应的所述推荐实体数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述推荐实体数据包括至少一个推荐实体和所述至少一个推荐实体中每个推荐实体的统计数据中的至少一项。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述每个推荐实体的统计数据，包括下列数据中的至少一项：

每个推荐实体的属性信息；

每个推荐实体在所述目标聚合问题所对应的推荐类问题的答案中的出现情况；以及

每个推荐实体在所述目标聚合问题所对应的推荐类问题的答案中的出现情况统计图。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题之前，还包括：

对资源库中问题进行识别，以获得推荐类问题；

对所述推荐类问题进行基于语义的聚合处理，以获得至少一个候选聚合问题；

根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的推荐实体数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的推荐实体数据，包括：

根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的至少一个候选实体；

对所述至少一个候选实体进行过滤处理，以获得所述推荐实体数据中所包括的至少一个推荐实体；

对所述至少一个推荐实体进行排序。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述输出所述目标聚合问题所对应的所述推荐实体数据，包括：

以结构化形式，输出所述目标聚合问题所对应的所述推荐实体数据。

本发明的另一方面，提供一种搜索装置，包括：

获取单元，用于获取搜索关键词；

匹配单元，用于获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题；

所述匹配单元，还用于获得所述目标聚合问题所对应的推荐实体数据；

输出单元，用于输出所述目标聚合问题所对应的所述推荐实体数据。

每个推荐实体的属性信息；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括挖掘单元，用于

对资源库中问题进行识别，以获得推荐类问题；

对所述推荐类问题进行基于语义的聚合处理，以获得至少一个候选聚合问题；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述挖掘单元，具体用于

对所述至少一个候选实体进行过滤处理，以获得所述推荐实体数据中所包括的至少一个推荐实体；以及

对所述至少一个推荐实体进行排序。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述输出单元，具体用于

由上述技术方案可知，本发明实施例通过获得与所获取的搜索关键词匹配的候选聚合问题，以作为目标聚合问题，进而获得所述目标聚合问题所对应的推荐实体数据，使得能够输出所述目标聚合问题所对应的所述推荐实体数据，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

另外，采用本发明提供的技术方案，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够有效提高搜索结果的有效性。

另外，采用本发明提供的技术方案，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够有效提高搜索的效率。

另外，采用本发明提供的技术方案，通过以结构化形式，输出搜索结果即所述目标聚合问题所对应的所述推荐实体数据，能够使得搜索结果的展现效果具有重点突出且内容清晰的特点，从而有效地提升了用户体验。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的搜索方法的流程示意图；

图2为图1对应的实施例中搜索结果的展现示意图；

图3为本发明另一实施例提供的搜索装置的结构示意图；

图4为本发明另一实施例提供的搜索装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的搜索方法的流程示意图，如图1所示。

101、获取搜索关键词。

102、获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题。

103、获得所述目标聚合问题所对应的推荐实体数据。

104、输出所述目标聚合问题所对应的所述推荐实体数据。

所谓实体，可以理解为一个抽象概念的实例化，由名称、类型和描述该实体的属性信息组成。

需要说明的是，101～104的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的搜索引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行限定。

这样，通过获得与所获取的搜索关键词匹配的候选聚合问题，以作为目标聚合问题，进而获得所述目标聚合问题所对应的推荐实体数据，使得能够输出所述目标聚合问题所对应的所述推荐实体数据，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以采集用户所提供的所述搜索关键词，可以通过用户所触发的搜索命令实现。具体可以采用下述两种方式触发搜索命令：

方式一：

用户可以在当前应用所展现的页面上所输入所述搜索关键词，然后，通过点击该页面上的搜索按钮，例如，百度等普通的大搜索系统所提供的百度一下按钮或百度知道等垂直搜索系统所提供的搜索答案按钮等，以触发搜索命令，该搜索命令中包含所述搜索关键词。其中，用户输入所述搜索关键词的数量可以为一个，或者还可以为几个，其顺序可以为任意顺序，本实施例对此不进行特别限定。这样，在接收到该搜索命令之后，则可以解析出其中所包含的所述搜索关键词。

方式二：

采用异步加载技术例如，Ajax异步加载或Jsonp异步加载等，实时获取用户在当前应用所展现的页面上所输入的输入内容，为了与搜索关键词进行区分，此时的输入内容可以称为是输入关键词。其中，用户输入所述搜索关键词的数量可以为一个，或者还可以为几个，其顺序可以为任意顺序，本实施例对此不进行特别限定。这样，在接收到该搜索命令之后，则可以解析出其中所包含的所述搜索关键词。具体地，具体可以提供Ajax接口或Jsonp接口等接口，这些接口可以使用Java、超级文本预处理(HypertextPreprocessor，PHP)语言等语言进行编写，其具体的调用可以使用Jquery，或者原生的JavaScript等语言进行编写。

可选地，在本实施例的一个可能的实现方式中，在102中，具体可以利用基于语义的匹配方式，获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题。

在一个具体的实现过程中，具体可以计算搜索关键词与资源库中的候选聚合问题之间的语义距离，然后，再根据语义距离，获得二者的语义相似度。详细描述具体可以参见现有技术中文本之间的语义相似度的相关内容，此处不再赘述。若所获得的语义相似度满足预先设置的相似度条件，例如，大于或等于相似度阈值等，则可以将该候选聚合问题作为目标聚合问题。

可选地，在本实施例的一个可能的实现方式中，在103中，所获得的所述推荐实体数据可以包括但不限于至少一个推荐实体和所述至少一个推荐实体中每个推荐实体的统计数据中的至少一项，本实施例对此不进行特别限定。

这样，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的若干个推荐实体，及其统计数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图。

具体地，所获得的每个推荐实体的统计数据可以包括但不限于下列数据中的至少一项：

每个推荐实体的属性信息；

在一个具体的实现过程中，每个推荐实体的属性信息，可以用于描述每个推荐实体的特征，具体可以根据每个推荐实体所属的类型，确定该推荐实体的属性信息。具体地，针对不同的类型下的推荐实体，可以具有不同的属性信息。

例如，若推荐实体的类型信息所指示的类型为娱乐人物，则所获得的该推荐实体的属性信息可以为照片、热度、职业、国籍、星座和代表作等属性参数。

或者，再例如，若推荐实体的类型信息所指示的类型为电影，则所获得的该推荐实体的属性信息可以为宣传海报、语言类型、片长、主演、导演、地区、年代、类型和简介等。

或者，再例如，若推荐实体的类型信息所指示的类型为电视剧，则所获得的该推荐实体的属性信息可以为宣传海报、语言类型、主演、导演、地区、年代、类型和简介等。

或者，再例如，若推荐实体的类型信息所指示的类型为综艺，则所获得的该推荐实体的属性信息可以为节目图片、期数、地区、类型、电视台和简介等。

在另一个具体的实现过程中，每个推荐实体在所述目标聚合问题所对应的推荐类问题的答案中的出现情况，可以用于描述每个推荐实体在其对应的答案中所出现的出现情况。其中，所谓的出现情况，可以为出现比值，或者还可以为出现次数，本实施例对此不进行特别限定。

需要说明的是，每个推荐实体在同一个答案中的出现情况的统计可以按照需要进行灵活设置，可以该推荐实体每出现一次，统计为一次，或者还可以只要该推荐实体出现一次，不管该推荐实体还出现了几次，都统计为一次，本实施例对此不进行特别限定。

在另一个具体的实现过程中，每个推荐实体在所述目标聚合问题所对应的推荐类问题的答案中的出现情况统计图，可以用于描述每个推荐实体在其对应的答案中所出现的出现情况统计图。其中，所谓的出现情况，可以为出现比值，或者还可以为出现次数，本实施例对此不进行特别限定。

由于用户输入答案的随意性，因此，所获得的推荐实体一般为用户随意输入的缩略语、译文或别名等简单说法，其可以对应一个常规的标准名称。因此，在进行统计时，需要将推荐实体进行名称标准化处理，进而对经过名称标准化处理之后的推荐实体进行统计。

例如，如果所获得的推荐实体为“机器战警”或“机械战警”，则可以将“机器战警”或“机械战警”进行名称标准化处理，以获得该推荐实体的标准名称“RoboCop”。

或者，再例如，如果所获得的推荐实体为“六人行”或“老友记”，则可以将“六人行”或“老友记”进行名称标准化处理，以获得该推荐实体的标准名称“Friends”。

可选地，在本实施例的一个可能的实现方式中，在103之前，还可以进一步包括挖掘操作。具体地，具体可以对资源库中问题进行识别，以获得推荐类问题，进而，对所述推荐类问题进行基于语义的聚合处理，以获得至少一个候选聚合问题。然后，则可以根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的推荐实体数据。

具体地，具体可以多种方式，对资源库中问题进行识别，以获得推荐类问题。所谓的资源库，其中所包含的资源，可以是预先在互联网中，利用网页爬虫技术，所采集的若干个网页或者问答对(即问题-答案资源对)。

在一个具体的实现过程中，具体可以利用问题模板，对资源库中问题进行识别，以获得推荐类问题。

所谓的问题模版，指的是包含关键词与语法结构的句子结构定义。其中所述的关键词通常具有强烈的疑问倾向。具体地，问题模版具体可以包括但不限于WHERE(地点类)问题模板、HOW(方法类)问题模板、WHY(原因类)问题模板、TIME(时间类)问题模板、SCOPE(范围类)问题模板、CODE(号码类)问题模板、ADV(广告类)问题模板、PRICE(价格类)问题模板和TERM(无明确疑问需求类)问题模板等类型的问题模板。

以下面这个SCOPE问题模板为例：“NP+有哪些”，其中，NP，代表名词短语，该问题模版表示问题中含有“有哪些”这样的关键字，同时在“有哪些”之前包含名词短语，当一个符合上述问题模板的问题出现时，该问题就被识别为推荐类问题。例如，“格斗类的动漫有哪些”这样一个问题，由于符合上述问题模版，该问题就被识别为推荐类问题。除了名词短语，还可以在句子中通过短语或动词短语等语法结构对问题模版中除关键字以外的部分进行限定，在此不再特别赘述。

问题模版中的关键词具有很强的疑问倾向，这是由于问题模版的关键词提取是对数据库中的优质提问的问题进行统计分析后得到的，例如，可以将数据库中得到较多用户回答的提问或在提问生成后在较短时间内得到用户回答的提问提取出来，将这些提问的问题进行分词后统计，通过每个词在一个问题中单独出现的次数、与其他词共同出现的次数，可以计算每个词在一个问题中单独出现的概率和每个词与其他词在一个问题中共同出现的概率，这样就可以选择单独出现概率高或共同出现概率高的词作为问题模版的关键词。通过对上述提取的包含关键词的问题进行语法结构的分析，即可以得到完整的问题模版。

在另一个具体的实现过程中，具体可以利用分类器，对资源库中问题进行识别，以获得推荐类问题。例如，所述分类器的特征参数可以包括但不限于如下参数中的一个或多个：

问题所包含的词、问题所包含的词及其词性、问题长度、问题所属类型、问题是否包含指定类型的实体词、问题是否包含指定类型的属性词、以及问题所属的问题模板类型。

具体地，具体可以采用预先指定的训练样本集，进行训练，以构建分类器，用以识别出推荐类问题。

需要说明的是，训练样本集中所包含的训练样本，可以为经过标注的已知样本，这样，可以直接利用这些已知样本进行训练，以构建分类器；或者还可以一部分为经过标注的已知样本，另一部分为没有经过标注的未知样本，那么，则可以先利用已知样本进行训练，以构建初始分类器，然后，再利用初始分类器对未知样本进行评测，以获得分类结果，进而则可以根据未知样本的分类结果，对未知样本进行标注，以形成已知样本，作为新增加的已知样本，利用新增加的已知样本，以及原始的已知样本重新进行训练，以构建新的分类器，直到所构建的分类器或已知样本满足分类器的截止条件为止，如分类准确率大于或等于预先设置的准确率阈值或已知样本的数量大于或等于预先设置的数量阈值等，本实施例对此不进行特别限定。

在另一个具体的实现过程中，具体可以利用问题模板和分类器，对资源库中问题进行识别，以获得推荐类问题。

例如，具体可以先利用问题模板，对资源库中问题进行过滤，以将明显不是推荐类问题的其他问题过滤掉，例如，WHY问题模板所对应的问题等，剩下可能是推荐类问题的一些问题，例如，SCOPE问题模板所对应的问题、TERM问题模板所对应的问题等。然后，再利用分类器，对剩下的可能是推荐类问题的一些问题进行识别，以获得推荐类问题。这样，由于过滤掉了大部分问题模板所对应的问题，只剩下小部分问题模板所对应的问题，因此，可以减轻训练分类器所使用的训练样本集中样本的收集难度。

具体地，在对所述推荐类问题进行基于语义的聚合处理的过程中，具体可以计算两两推荐类问题之间的语义距离，然后，再根据语义距离，获得二者的语义相似度。详细描述具体可以参见现有技术中文本之间的语义相似度的相关内容，此处不再赘述。若所获得的语义相似度满足预先设置的相似度条件，例如，大于或等于相似度阈值等，则可以将所对应的两个推荐类问题聚合为一个分组。若所获得的语义相似度不满足预先设置的相似度条件，例如，小于相似度阈值等，则不再将所对应的两个推荐类问题聚合为一个分组。接着，再根据每个分组中所有的推荐类问题，获得代表该分组的一个统一的问题，即候选聚合问题。例如，具体可以选择该分组中任意一个推荐类问题，作为该分组所对应的候选聚合问题。

需要说明的是，一般来说，问题可以包括标题和内容，有些问题的标题和内容相同，有些问题的标题和内容不同，这个取决于输入问题的用户的提问习惯。此处，参与进行语义相似度计算的问题即“观点类问题”，可以为问题的标题，或者还可以为问题的标题和内容，或者还可以为问题的内容，本实施例对此不进行特别限定。那么，所获得的代表分组的一个统一的问题即“候选聚合问题”，可以为问题的标题，或者还可以为问题的标题和内容，或者还可以为问题的内容，本实施例对此不进行特别限定。

具体地，在获得每个分组所对应的候选聚合问题之后，具体可以根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的至少一个候选实体，然后，再对所述至少一个候选实体进行过滤处理，以获得所述推荐实体数据中所包括的至少一个推荐实体。最后，对所述至少一个推荐实体进行排序。

在一个具体的实现过程中，具体可以利用预先指定的实体库数据，对每个候选聚合问题所对应的推荐类问题的答案进行识别处理，以获得所述每个候选聚合问题所对应的至少一个候选实体。其中，所述实体库数据可以为对网页进行挖掘所获得的网页实体数据，例如，网页中所出现的概念名称等，或者还可以为百科网络实体数据，例如，百科网络中所出现的词条名称等，或者还可以为商品实体数据，例如，各种商品的商品名称等，或者还可以为知识图谱数据，等等，本实施例对此不进行特别限定。

其中，知识图谱，本质上是一种语义网络，是用于描述真实世界中存在的各种实体或概念。知识图谱可以被看作是一张巨大的图，图中的节点，代表实体(entity)或者概念(concept)，而图中的连接节点的边，代表实体或概念之间的各种语义关系。

具体地，在知识图谱中，每个实体或概念可以用一个全局唯一确定的ID来标识，称为它们的标识符(Identifier)。每个实体或概念可以对应一个类型，例如，某个人所属的类型是人物(Person)，或者，再例如，某部电影所属的类型是电影(Movie)，或者，再例如，某部电视剧所属的类型是电视剧(Play)等。所有的类型都有自己的基类型，即最基础的类型是事物(Thing)。每个实体或概念还可以进一步用属性-值对(Attribute-Value Pair，AVP)用来刻画实体或概念的内在特性，例如，名称属性等。

知识图谱的详细描述可以参见现有技术中的相关内容，此处不再赘述。

在另一个具体的实现过程中，具体可以利用预先指定的结构化格式数据，对每个候选聚合问题所对应的推荐类问题的答案进行识别处理，以获得所述每个候选聚合问题所对应的至少一个候选实体。其中，所述结构化格式数据可以为大于或等于指定数量的字符如分号、顿号、冒号或数字编号等，每个字符之间的内容即为候选实体，或者还可以为大于或等于指定数量的字符如分号、顿号、冒号或数字编号等，每个字符之前或之后的内容即为候选实体，或者还可以为大于或等于指定数量的字符如书名号或引号等，每个字符所包围的内容即为候选实体，本实施例对此不进行特别限定。

在一个具体的实现过程中，在获得了所述每个候选聚合问题所对应的至少一个候选实体之后，还需要进一步将其中一些明显的噪声实体过滤掉，以获得所述至少一个推荐实体。

具体地，具体可以利用如下信息中的至少一项，将候选实体中的噪声实体过滤掉：

候选实体所在答案的边界信息；

候选实体在答案中的位置信息；

候选实体与其修饰成分的位置信息；

候选实体所属类型的分布信息；以及

候选实体的逆向文档频率(Inverse Document Frequency，IDF)。

例如，候选实体所在答案的边界信息，用于描述分词结果之间的边界。所述分词结果为，利用现有技术中的切词技术，对候选实体所在答案进行切词处理，或者进一步再进行停用词处理等过滤技术，所获得的。若候选实体中包含了边界，说明该候选实体可能是噪声实体，则可以将该候选实体过滤掉。举例来说，假设候选聚合问题所对应的一个答案为“中国神话”，其分词结果为“中国”和“神话”，这两个分词结果之间存在一个边界。若候选实体为“国神”，那么，由于该候选实体中包含了分词结果“中国”与分词结果“中国”之间的边界，则可以将该候选实体过滤掉。

或者，再例如，候选实体在答案中的位置信息，用于描述候选实体在答案中的位置。若候选实体的位置在答案的开始部分，则说明该候选实体很可能是真正的推荐实体，则可以将该候选实体保留不被过滤掉。

或者，再例如，候选实体与其修饰成分的位置信息，用于描述候选实体与其修饰成分的位置关系。若两个候选实体之间有一个“中”、“的”等助词，则说明前一个候选实体可能是噪声实体，而后一个候选实体也许才是真正的推荐实体，则可以将前一个候选实体过滤掉，保留后一个候选实体不被过滤掉。

或者，再例如，候选实体所属类型的分布信息，用于描述候选实体所属类型的分布情况。若候选实体所属类型的分布情况较为均匀，说明该候选实体可能是噪声实体，则可以将该候选实体过滤掉。

或者，再例如，候选实体的IDF，是一个词语普遍重要性的度量。若候选实体的IDF小于或等于预先设置的阈值，说明该候选实体可能是噪声实体，则可以将该候选实体过滤掉。

在另一个具体的实现过程中，在获得了不存在噪声实体的若干个推荐实体之后，还可以进一步对这些推荐实体进行排序，以获得经过排序的推荐实体。

具体地，具体可以利用如下信息中的至少一项，作为排序因子，对这些推荐实体进行排序：

推荐实体的可信度；

推荐实体的标签信息；

推荐实体所对应的目标聚合问题所属类型；

推荐实体所属类型；

推荐实体的热度；

推荐实体与该推荐实体所对应的目标聚合问题之间的相似度；

推荐实体在百科网络中的类型；

推荐实体的结构信息；以及

推荐实体在答案中的出现情况。

具体地，具体可以根据排序需求，选择所对应的排序策略，以及该排序策略所需要的排序因子，或者进一步再获得排序因子所对应的权值，进而，则可以利用所选择的排序因子及其权值，对推荐实体进行排序。

例如，推荐实体的可信度，用于描述推荐实体在答案中被识别出来的可信程度。具体地，具体可以利用如下信息中的至少一项，作为计算因子，获得推荐实体在其所在每个答案中的可信值：

推荐实体在其所在每个答案中所在分句的比重信息；

推荐实体的长度信息；

推荐实体所在每个答案的结构信息；

推荐实体在答案中的出现情况；

推荐实体所属类型的分布信息；以及

推荐实体的词频(Term Frequency，TF)-IDF。

具体地，具体可以根据计算需求，选择所对应的计算策略，以及该计算策略所需要的计算因子，或者进一步再获得计算因子所对应的权值，进而，则可以利用所选择的计算因子及其权值，计算推荐实体在其所在每个答案中的可信值。可信值越大，说明推荐实体在该答案中被识别出来的可信程度越大。

其中，

推荐实体在其所在每个答案中所在分句的比重信息，用于描述推荐实体的字符长度与该推荐实体所在每个答案中所在分句的字符长度的比值。比值越大，可信值越大；反之，比值越小，可信值越小。

推荐实体的长度信息，用于描述推荐实体的字符长度。长度越大，可信值越大；反之，长度越小，可信值越小。

推荐实体所在每个答案的结构信息，用于描述推荐实体所在答案的分句结构，例如，分句之间采用字符如分号、顿号、冒号或数字编号等进行分隔，等等。分句结构越整齐，可信值越大；反之，分句结构越不整齐，可信值越小。

推荐实体在答案中的出现情况，用于描述推荐实体在其对应的全部答案中所出现的出现情况。其中，所谓的出现情况，可以为出现比值，或者还可以为出现次数，本实施例对此不进行特别限定。出现的频率越高，可信值越大；反之，出现的频率越低，可信值越小。

推荐实体所属类型的分布信息，用于描述候选实体所属类型的分布情况。例如，推荐实体所属的类型可以为小说、影视或游戏等，其属于小说的比例为20％，属于影视的比例为70％和属于游戏的比例为5％，以及其他为5％，说明推荐实体的分布不均匀，较为集中地分布在影视类型。分布越不均匀，可信值越大；反之，分布越均匀，可信值越小。

推荐实体的TF-IDF，用于用以评估一个词语对于一个文档集或一个语料库中的其中一份文档的重要程度。TF-IDF越大，可信值越大；反之，TF-IDF越小，可信值越小。

在获得一个推荐实体在其所在每个答案中的可信值之后，具体可以将这些可信值中的最大值，作为该推荐实体的可信度，或者还可以将这些可信值的平均值，作为该推荐实体的可信度，本实施例对此不进行特别限定。

或者，再例如，推荐实体的标签信息，用于描述推荐实体的内容。

或者，再例如，推荐实体所对应的目标聚合问题所属类型，用于描述推荐实体所对应的目标聚合问题所属的类型，例如，小说、影视或游戏等。

或者，再例如，推荐实体所属类型，用于描述推荐实体所属的类型，该类型为经过预设算法计算获得，例如，小说、影视或游戏等。

或者，再例如，推荐实体的热度，用于描述推荐实体在搜索关键词中的出现情况。

或者，再例如，推荐实体与该推荐实体所对应的目标聚合问题之间的相似度，用于描述推荐实体与该推荐实体所对应的目标聚合问题中相关的词之间的相似度。

或者，再例如，推荐实体在百科网络中的类型，用于描述推荐实体所属的类型，该类型为根据百科网络中所标记的值获得，例如，小说、影视或游戏等。

或者，再例如，推荐实体的结构信息，用于描述推荐实体在其所在答案中所在分句中的结构，例如，这种结构可以为大于或等于指定数量的字符如分号、顿号、冒号或数字编号等，每个字符之间的内容即为候选实体，或者还可以为大于或等于指定数量的字符如分号、顿号、冒号或数字编号等，每个字符之前或之后的内容即为候选实体，或者还可以为大于或等于指定数量的字符如书名号或引号等，每个字符所包围的内容即为候选实体，本实施例对此不进行特别限定。

或者，再例如，推荐实体在答案中的出现情况，用于描述推荐实体在其对应的答案中所出现的出现情况。其中，所谓的出现情况，可以为出现比值，或者还可以为出现次数，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，在104中，具体可以以结构化形式，输出所述目标聚合问题所对应的所述推荐实体数据，以实现搜索结果的展现。

如图2所示，图2中所示为，搜索关键词为“格斗类的动漫有哪些”，采用本发明所提供的技术方案所输出的搜索结果。其中，

在展现区域21中，所输出的为与搜索关键词匹配的目标聚合问题；

在展现区域22中，所输出的为该目标聚合问题所对应的若干个推荐实体，即推荐实体的名称；以及

在展现区域23中，所输出的为每个推荐实体的统计数据。

这样，通过以结构化形式，输出搜索结果即所述目标聚合问题所对应的所述推荐实体数据，能够使得搜索结果的展现效果具有重点突出且内容清晰的特点，从而有效地提升了用户体验。

可以理解的是，一般来说，由于页面中所指定的搜索结果的展现区域有限，在一屏之内无法完整显示全部的搜索结果，则可以将所述搜索结果中的一部分内容，进行折叠展现处理，如图2所示，或者还可以进一步在所述页面中设置一滚动条，以使得用户拖动滚动条，以配合展现区域进行滚动显示，本实施例对此不进行特别限定。

本实施例中，通过获得与所获取的搜索关键词匹配的候选聚合问题，以作为目标聚合问题，进而获得所述目标聚合问题所对应的推荐实体数据，使得能够输出所述目标聚合问题所对应的所述推荐实体数据，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图3为本发明另一实施例提供的搜索装置的结构示意图，如图3所示。本实施例的搜索装置可以包括获取单元31、匹配单元32和输出单元33。其中，获取单元31，用于获取搜索关键词；匹配单元32，用于获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题；所述匹配单元32，还用于获得所述目标聚合问题所对应的推荐实体数据；输出单元33，用于输出所述目标聚合问题所对应的所述推荐实体数据。

需要说明的是，本实施例所提供的搜索装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的搜索引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述匹配单元32所获得的所述推荐实体数据可以包括但不限于至少一个推荐实体和所述至少一个推荐实体中每个推荐实体的统计数据中的至少一项，本实施例对此不进行特别限定。

在一个具体的实现过程中，所述匹配单元32所获得的每个推荐实体的统计数据可以包括但不限于下列数据中的至少一项：

每个推荐实体的属性信息；

可选地，在本实施例的一个可能的实现方式中，如图4所示，本实施例所提供的搜索装置还可以进一步包括挖掘单元41，用于对资源库中问题进行识别，以获得推荐类问题；对所述推荐类问题进行基于语义的聚合处理，以获得至少一个候选聚合问题；以及根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的推荐实体数据。

在一个具体的实现过程中，所述挖掘单元41，具体可以用于根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的至少一个候选实体；对所述至少一个候选实体进行过滤处理，以获得所述推荐实体数据中所包括的至少一个推荐实体；以及对所述至少一个推荐实体进行排序。

可选地，在本实施例的一个可能的实现方式中，所述输出单元33，具体可以用于以结构化形式，输出所述目标聚合问题所对应的所述推荐实体数据。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的搜索装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过匹配单元获得与获取单元所获取的搜索关键词匹配的候选聚合问题，以作为目标聚合问题，进而获得所述目标聚合问题所对应的推荐实体数据，使得输出单元能够输出所述目标聚合问题所对应的所述推荐实体数据，由于原始的资源库中的资源不再都是相互独立的单一内容，而是包含了经过聚合的推荐类问题和这些问题所对应的推荐实体数据，使得每个搜索结果不再是单一内容，能够基本满足用户真正的搜索意图，因此，能够避免现有技术中由于用户通过应用反复进行搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种搜索方法，其特征在于，包括：

获取搜索关键词；

获得所述目标聚合问题所对应的推荐实体数据；

输出所述目标聚合问题所对应的所述推荐实体数据。

2.根据权利要求1所述的方法，其特征在于，所述推荐实体数据包括至少一个推荐实体和所述至少一个推荐实体中每个推荐实体的统计数据中的至少一项。

3.根据权利要求2所述的方法，其特征在于，所述每个推荐实体的统计数据，包括下列数据中的至少一项：

每个推荐实体的属性信息；

4.根据权利要求1所述的方法，其特征在于，所述获得与所述搜索关键词匹配的候选聚合问题，以作为目标聚合问题之前，还包括：

对资源库中问题进行识别，以获得推荐类问题；

5.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个候选聚合问题中每个候选聚合问题所对应的推荐类问题的答案，获得所述每个候选聚合问题所对应的推荐实体数据，包括：

对所述至少一个推荐实体进行排序。

6.根据权利要求1～5任一权利要求所述的方法，其特征在于，所述输出所述目标聚合问题所对应的所述推荐实体数据，包括：

7.一种搜索装置，其特征在于，包括：

获取单元，用于获取搜索关键词；

8.根据权利要求7所述的装置，其特征在于，所述推荐实体数据包括至少一个推荐实体和所述至少一个推荐实体中每个推荐实体的统计数据中的至少一项。

9.根据权利要求8所述的装置，其特征在于，所述每个推荐实体的统计数据，包括下列数据中的至少一项：

每个推荐实体的属性信息；

10.根据权利要求7所述的装置，其特征在于，所述装置还包括挖掘单元，用于

对资源库中问题进行识别，以获得推荐类问题；

11.根据权利要求10所述的装置，其特征在于，所述挖掘单元，具体用于

对所述至少一个推荐实体进行排序。

12.根据权利要求7～11任一权利要求所述的装置，其特征在于，所述输出单元，具体用于