发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于自然搜索结果提供实体词的搜索方法及装置。
依据本发明的一个方面,提供了一种基于自然搜索结果提供实体词的搜索方法,包括:
当接收到对枚举类问题的搜索请求时,从问答数据库中查询与所述枚举类问题类型相同的至少一个目标问答网页;
获取与所述至少一个目标问答网页相对应的实体词集,其中,所述实体词集是由预先从所述问答数据库所包含的枚举类答案中提取的至少一个实体词集成的;
由所述至少一个目标问答网页集成针对所述枚举类问题的搜索结果,并将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置。
可选地,所述至少一个目标问答网页对应唯一的实体词集;
将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置,包括:
从所述至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页;
将所述实体词集中的一个或多个实体词添加至所述最佳目标问答网页对应的预设位置。
可选地,从所述至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页,包括:
按照第一预设参数对所述至少一个目标问答网页进行排序,所述第一预设参数包括对各目标问答网页的访问率和/或各目标问答网页中包含的问题与所述枚举类问题的相关度;
将排序最前的目标问答网页确定为所述最佳目标问答网页。
可选地,所述方法还包括:
从所述问答数据库中获取类型相同的问答网页;
获取所述类型相同的问答网页各自包含的枚举类答案;
从所述枚举类答案中提取至少一个实体词,集成所述类型相同的问答网页对应的实体词集。
可选地,从所述问答数据库中获取类型相同的问答网页,包括:
根据所述问答数据库中每个问答网页的预设文本,确定所述每个问答网页的类型,所述预设文本包括标题、摘要、关键字中的至少一项;
根据所述每个问答网页的类型,获取所述类型相同的问答网页。
可选地,从所述枚举类答案中提取至少一个实体词,包括:
从所述枚举类答案中提取备用实体词;
按照第二预设参数选择至少一个所述备用实体词作为所述实体词,所述第二预设参数包括各备用实体词在所述枚举类答案中的出现率和/或所述备用实体词和所述类型相同的问答网页的相关度。
可选地,各目标问答网页对应各自的实体词集;
将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置,包括:
将各实体词集中的一个或多个实体词添加至各自对应的目标问答网页所对应的预设位置。
可选地,所述方法还包括:
对于所述问答数据库中的每个问答网页,获取其各自包含的枚举类答案;
从各枚举类答案中提取至少一个实体词,集成所述枚举类答案各自对应的问答网页所对应的实体词集。
可选地,将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置,包括:
将所述实体词集中的一个或多个实体词以预设形式添加至所述搜索结果的预设位置,所述预设形式包括图标形式和/或文本形式。
可选地,所述方法还包括:
将所述问答网页与其对应的实体词集存储在预设分布式存储数据库中;
相应地,所述获取与所述至少一个目标问答网页相对应的实体词集,包括:
从所述预设分布式存储数据库中获取与所述至少一个目标问答网页相对应的实体词集。
可选地,所述预设分布式存储数据库为HBase数据库。
可选地,所述方法还包括:
当所述预设分布式存储数据库中有至少一种类型或至少一个问答网页所包含的枚举类答案被更新时,获取所述被更新的枚举类答案,所述更新包括增加、删除、修改中的至少一种;
根据所述被更新的枚举类答案,更新所述问答网页对应的实体词集。
可选地,所述类型相同指所述目标问答网页中包含的问题与所述枚举类问题具有相同或相近含义。
依据本发明的另一个方面,提供了一种基于自然搜索结果提供实体词的搜索装置,包括:
查询模块,适于当接收到对枚举类问题的搜索请求时,从问答数据库中查询与所述枚举类问题类型相同的至少一个目标问答网页;
第一获取模块,适于获取与所述至少一个目标问答网页相对应的实体词集,其中,所述实体词集是由预先从所述问答数据库所包含的枚举类答案中提取的至少一个实体词集成的;
集成模块,适于由所述至少一个目标问答网页集成针对所述枚举类问题的搜索结果,并将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置。
可选地,所述至少一个目标问答网页对应唯一的实体词集;
所述集成模块还适于:
从所述至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页;
将所述实体词集中的一个或多个实体词添加至所述最佳目标问答网页对应的预设位置。
可选地,所述集成模块还适于:
按照第一预设参数对所述至少一个目标问答网页进行排序,所述第一预设参数包括对各目标问答网页的访问率和/或各目标问答网页中包含的问题与所述枚举类问题的相关度;
将排序最前的目标问答网页确定为所述最佳目标问答网页。
可选地,所述装置还包括:
第二获取模块,适于从所述问答数据库中获取相同类型的问答网页;
第三获取模块,适于获取所述相同类型的问答网页各自包含的枚举类答案;
第一提取模块,适于从所述枚举类答案中提取至少一个实体词,集成所述相同类型的问答网页对应的实体词集。
可选地,所述第二获取模块还适于:
根据所述问答数据库中每个问答网页的预设文本,确定所述每个问答网页的类型,所述预设文本包括标题、摘要、关键字中的至少一项;
根据所述每个问答网页的类型,获取所述相同类型的问答网页。
可选地,所述第一提取模块还适于:
从所述枚举类答案中提取备用实体词;
按照第二预设参数选择至少一个所述备用实体词作为所述实体词,所述第二预设参数包括各备用实体词在所述枚举类答案中的出现率和/或所述备用实体词和所述相同类型的问答网页的相关度。
可选地,各目标问答网页对应各自的实体词集;
所述集成模块,还适于将各实体词集中的一个或多个实体词添加至各自对应的目标问答网页所对应的预设位置。
可选地,所述装置还包括:
第四获取模块,适于对于所述问答数据库中的每个问答网页,获取其各自包含的枚举类答案;
第二提取模块,适于从各枚举类答案中提取至少一个实体词,集成所述枚举类答案各自对应的问答网页所对应的实体词集。
可选地,所述集成模块,还适于将所述实体词集中的一个或多个实体词以预设形式添加至所述搜索结果的预设位置,所述预设形式包括图标形式和/或文本形式。
可选地,所述装置还包括:
存储模块,适于将所述问答网页与其对应的实体词集存储在预设分布式存储数据库中;
相应地,所述第一获取模块,还适于从所述预设分布式存储数据库中获取与所述至少一个目标问答网页相对应的实体词集。
可选地,所述预设分布式存储数据库为HBase数据库。
可选地,所述装置还包括:
第五获取模块,适于当所述预设分布式存储数据库中有至少一种类型或至少一个问答网页所包含的枚举类答案被更新时,获取所述被更新的枚举类答案,所述更新包括增加、删除、修改中的至少一种;
更新模块,适于根据所述被更新的枚举类答案,更新所述问答网页对应的实体词集。
可选地,所述类型相同指所述目标问答网页中包含的问题与所述枚举类问题具有相同或相近含义。
采用本发明实施例提供的技术方案,能够在接收到用户对枚举类问题的搜索请求时,获取与该枚举类问题类型相同的多个目标问答网页对应的实体词集,并将实体词集中的一个或多个实体词添加至由多个目标问答网页集成的搜索结果的预设位置,使得用户在搜索枚举类问题时,能够为用户直接提供精确的包含实体词的搜索结果,为用户完成了从大量目标问答网页中确定准确答案的过程,从而使用户无需再通过多个搜索路径寻找所需内容,大幅度缩短了用户搜索枚举类问题时的判断和选择过程,进而很好地满足了针对枚举类问题的问答需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是根据本发明一个实施例的一种基于自然搜索结果提供实体词的搜索方法的示意性流程图。如图1所示,该方法一般性地可包括步骤S101-S103:
步骤S101,当接收到对枚举类问题的搜索请求时,从问答数据库中查询与枚举类问题类型相同的至少一个目标问答网页。
其中,枚举类问题指对应的答案中包含一个或多个实体词的问题。例如,针对问题“苹果中包含哪些营养元素?”,其对应的答案包括以下多个实体词:维生素A、维生素C、维生素E、磷、钙、锌等,该问题对应的答案中由于包含多个实体词,因此属于枚举类问题,其对应的答案即为枚举类答案。
与枚举类问题类型相同的至少一个目标问答网页中,所述的“类型相同”指目标问答网页中包含的问题与枚举类问题具有相同或相近含义。例如,以下两个问题“苹果中包含哪些营养元素?”以及“苹果中的营养元素有哪些”由于具有相同或相近含义,因此属于类型相同的问题,其所对应的问答网页属于类型相同的问答网页。
步骤S102,获取与至少一个目标问答网页相对应的实体词集。
其中,实体词集是由预先从问答数据库所包含的枚举类答案中提取的至少一个实体词集成的,问答数据库中包括有大量的问答网页,每个问答网页都包含有各自对应的问题及其答案,其中包括有大量的枚举类问题及其对应的枚举类答案。
步骤S103,由至少一个目标问答网页集成针对枚举类问题的搜索结果,并将实体词集中的一个或多个实体词添加至搜索结果的预设位置。
为使用户能清晰明了地查看到搜索结果中所包括的实体词,预设位置通常设定为搜索结果中较为明显的位置,例如,预设位置可以是搜索结果中与目标问答网页对应的网页标题相邻的位置、或者是搜索结果中目标问答网页对应的摘要位置,等等,本实施例对此不做限定。
采用本发明实施例提供的技术方案,能够在接收到用户对枚举类问题的搜索请求时,获取与该枚举类问题类型相同的多个目标问答网页对应的实体词集,并将实体词集中的一个或多个实体词添加至由多个目标问答网页集成的搜索结果的预设位置,使得用户在搜索枚举类问题时,能够为用户直接提供精确的包含实体词的搜索结果,为用户完成了从大量目标问答网页中确定准确答案的过程,从而使用户无需再通过多个搜索路径寻找所需内容,大幅度缩短了用户搜索枚举类问题时的判断和选择过程,进而很好地满足了针对枚举类问题的问答需求。
上述步骤S102中,获取到的与至少一个目标问答网页相对应的实体词集可能有唯一一个,也可能有多个。以下针对这两种情况分别进行说明。
在一个实施例中,与枚举类问题类型相同的至少一个目标问答网页对应唯一的实体词集。此时,步骤S103可执行为以下步骤:首先,从至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页;其次,将实体词集中的一个或多个实体词添加至最佳目标问答网页对应的预设位置。该实施例通过将实体词集中的一个或多个实体词添加至最佳目标问答网页对应的预设位置,使得用户对枚举类问题进行搜索时,可一目了然地查从最佳目标问答网页处查看到所需要的枚举类答案,而无需再通过多个路径一步步寻找该枚举类问题对应的答案,从而大幅度缩短了用户搜索枚举类问题时的判断和选择过程,为用户搜索问题提供了方便。
上述实施例中,从至少一个目标问答网页中选择最佳目标问答网页的方式为:首先,按照第一预设参数对至少一个目标问答网页进行排序,第一预设参数包括对各目标问答网页的访问率和/或各目标问答网页中包含的问题与枚举类问题的相关度;其次,将排序最前的目标问答网页确定为最佳目标问答网页。具体的,当第一预设参数为对各目标问答网页的访问率时,可将访问率最高的目标问答网页确定为最佳目标问答网页;当第一预设参数为各目标问答网页中包含的问题与枚举类问题的相关度时,可将该相关度最高的目标问答网页确定为最佳目标问答网页;当第一预设参数包括对各目标问答网页的访问率和各目标问答网页中包含的问题与枚举类问题的相关度时,可预设上述访问率和相关度各自对应的权重,并根据各自对应的权重计算最终的参考值,然后将参考值最高的目标问答网页确定为最佳目标问答网页。
以枚举类问题“苹果中包含哪些营养元素?”为例说明上述实施例中如何展示搜索结果。图2示出了该实施例中搜索结果的示意性界面图。如图2所示,当用户搜索枚举类问题“苹果中包含哪些营养元素?”时,界面上显示由与该枚举类问题类型相同的多个目标问答网页集成的搜索结果(图中仅示出部分目标问答网页),并且,搜索结果中排在最前的目标问答网页为用户访问率最高的问答网页,即为最佳目标问答网页。实体词集“维生素A、维生素C、维生素E、磷、钙、锌”显示在最佳目标问答网页的标题右方。为使显示结果更加明确,最佳目标问答网页的标题右方的实体词集还可以设置各类突出性地显示效果,例如字体加粗加黑、字体采用鲜艳的颜色、字体采用背景颜色、字体加下划线等等,图2中所示的实体词集采用字体加下划线的方式。
上述实施例中,实体词集的获取方法可包括图3所示的步骤S301-S303:
步骤S301,从问答数据库中获取类型相同的问答网页。
其中,“类型相同”指各问答网页中包含的问题具有相同或相近含义。执行该步骤时,首先,根据问答数据库中每个问答网页的预设文本,确定每个问答网页的类型,预设文本包括标题、摘要、关键字中的至少一项;其次,根据每个问答网页的类型,获取类型相同的问答网页。
步骤S302,获取类型相同的问答网页各自包含的枚举类答案。
步骤S303,从枚举类答案中提取至少一个实体词,集成该类型相同的问答网页对应的实体词集。
从枚举类答案中提取至少一个实体词时,可按照以下步骤进行提取:首先,从枚举类答案中提取备用实体词;其次,按照第二预设参数选择至少一个备用实体词作为实体词,第二预设参数包括各备用实体词在枚举类答案中的出现率和/或备用实体词和类型相同的问答网页的相关度。当然,当备用实体词数量较少时,也可直接将全部的备用实体词集成为实体词集。
在另一个实施例中,与枚举类问题类型相同的各目标问答网页对应各自的实体词集。此时,步骤S103可执行为以下步骤:将各实体词集中的一个或多个实体词添加至各自对应的目标问答网页所对应的预设位置。其中,各实体词集的获取方法可包括以下步骤:首先,对于问答数据库中的每个问答网页,获取其各自包含的枚举类答案;其次,从各枚举类答案中提取至少一个实体词,集成枚举类答案各自对应的问答网页所对应的实体词集。该实施例通过将各目标问答网页对应的实体词集分别进行显示,使得用户能够一目了然地查看到每个目标问答网页的枚举类答案中包含哪些实体词,从而为用户准确提供更多的信息,便于用户从大量信息中提取所需内容。
仍以枚举类问题“苹果中包含哪些营养元素?”为例说明上述实施例中如何展示搜索结果。图4示出了该实施例中搜索结果的示意性界面图。如图4所示,当用户搜索枚举类问题“苹果中包含哪些营养元素?”时,界面上显示由与该枚举类问题类型相同的多个目标问答网页集成的搜索结果(图中仅示出部分目标问答网页),并且,各问答网页对应的实体词集分别显示在各自对应的网页标题的右方,且采用字体加下划线的方式。例如,第一个问答网页对应的实体词集包括以下实体词:糖、钙、铁、胡萝卜素、维生素、有机酸等,第二个问答网页对应的实体词集包括以下实体词:维生素、黄酮、碳水化合物、果胶等,其余问答网页不再一一列举。
此外,预设位置还可以是问答网页对应的网页标题的下方。图5示出了针对枚举类问题“玄X演过的电视剧有哪些?”的搜索结果中某个目标问答网页的示意性界面图。如图5所示,在该目标问答网页的网页标题下方,以“文中提到”的字样表明“爱尔兰、我的名字叫金XX、雪之XX、他们生活的XX”为该目标问答网页对应的实体词集中的实体词。
在上述任一实施例中,执行步骤S103时,可将实体词集中的一个或多个实体词以预设形式添加至搜索结果的预设位置,预设形式包括图标形式和/或文本形式。
在上述任一实施例中,上述方法还包括以下步骤:将问答网页与其对应的实体词集存储在预设分布式存储数据库中。其中,预设分布式存储数据库可以是HBase数据库。由于问答数据库中包括大量的问答网页,因此需要存储的问答网页与其对应的实体词集数据十分庞大,而HBase数据库作为一种开源的非关系型分布式数据库,非常适合搭建大规模结构化存储集群,因此,将问答网页与其对应的实体词集存储在HBase数据库中是一种非常优化的存储方式。当然,预设分布式存储数据库也可以是其他用于存储大数据的数据库,本发明并不仅限定为HBase数据库。
在上述任一实施例中,上述方法还包括以下步骤:当预设分布式存储数据库中有至少一种类型或至少一个问答网页所包含的枚举类答案被更新时,获取被更新的枚举类答案,更新包括增加、删除、修改中的至少一种;根据被更新的枚举类答案,更新问答网页对应的实体词集。该实施例中,及时更新问答网页对应的实体词集,使得终端为用户提供的搜索结果中的实体词集更加精确。
基于上文各个实施例提供的基于自然搜索结果提供实体词的搜索方法,基于同一发明构思,本发明实施例还提供了一种基于自然搜索结果提供实体词的搜索装置。
图6示出了本发明实施例中一种基于自然搜索结果提供实体词的搜索装置的示意性框图。如图6所示,该装置至少包括查询模块610、第一获取模块620和集成模块630。
以下介绍本发明实施例的基于自然搜索结果提供实体词的搜索装置的各组成或器件的功能以及各部分间的连接关系:
查询模块610,适于当接收到对枚举类问题的搜索请求时,从问答数据库中查询与枚举类问题类型相同的至少一个目标问答网页。类型相同指目标问答网页中包含的问题与枚举类问题具有相同或相近含义。
第一获取模块620,与查询模块610相耦合,适于获取与至少一个目标问答网页相对应的实体词集,其中,实体词集是由预先从问答数据库所包含的枚举类答案中提取的至少一个实体词集成的。
集成模块630,与第一获取模块620相耦合,适于由至少一个目标问答网页集成针对枚举类问题的搜索结果,并将实体词集中的一个或多个实体词添加至搜索结果的预设位置。
在一个实施例中,至少一个目标问答网页对应唯一的实体词集。
集成模块630还适于:
从至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页;
将实体词集中的一个或多个实体词添加至最佳目标问答网页对应的预设位置。
在一个实施例中,集成模块630还适于:
按照第一预设参数对至少一个目标问答网页进行排序,第一预设参数包括对各目标问答网页的访问率和/或各目标问答网页中包含的问题与枚举类问题的相关度;
将排序最前的目标问答网页确定为最佳目标问答网页。
在一个实施例中,如图7所示,上述装置还包括:
第二获取模块640,适于从问答数据库中获取相同类型的问答网页;
第三获取模块650,与第二获取模块640相耦合,适于获取相同类型的问答网页各自包含的枚举类答案;
第一提取模块660,与第三获取模块650相耦合,适于从枚举类答案中提取至少一个实体词,集成相同类型的问答网页对应的实体词集。
在一个实施例中,第二获取模块640还适于:
根据问答数据库中每个问答网页的预设文本,确定每个问答网页的类型,预设文本包括标题、摘要、关键字中的至少一项;
根据每个问答网页的类型,获取相同类型的问答网页。
在一个实施例中,第一提取模块660还适于:
从枚举类答案中提取备用实体词;
按照第二预设参数选择至少一个备用实体词作为实体词,第二预设参数包括各备用实体词在枚举类答案中的出现率和/或备用实体词和相同类型的问答网页的相关度。
在一个实施例中,各目标问答网页对应各自的实体词集。
集成模块630还适于:
将各实体词集中的一个或多个实体词添加至各自对应的目标问答网页所对应的预设位置。
在一个实施例中,如图8所示,上述装置还包括:
第四获取模块670,适于对于问答数据库中的每个问答网页,获取其各自包含的枚举类答案;
第二提取模块680,与第四获取模块670相耦合,适于从各枚举类答案中提取至少一个实体词,集成枚举类答案各自对应的问答网页所对应的实体词集。
在一个实施例中,集成模块630,还适于将实体词集中的一个或多个实体词以预设形式添加至搜索结果的预设位置,预设形式包括图标形式和/或文本形式。
在一个实施例中,上述装置还包括存储模块,适于将问答网页与其对应的实体词集存储在预设分布式存储数据库中。
相应地,第一获取模块620,还适于从预设分布式存储数据库中获取与至少一个目标问答网页相对应的实体词集。
在一个实施例中,预设分布式存储数据库为HBase数据库。
在一个实施例中,上述装置还包括:
第五获取模块,适于当预设分布式存储数据库中有至少一种类型或至少一个问答网页所包含的枚举类答案被更新时,获取被更新的枚举类答案,更新包括增加、删除、修改中的至少一种;
更新模块,与第五获取模块相耦合,适于根据被更新的枚举类答案,更新问答网页对应的实体词集。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
采用本发明实施例提供的装置,能够在接收到用户对枚举类问题的搜索请求时,获取与该枚举类问题类型相同的多个目标问答网页对应的实体词集,并将实体词集中的一个或多个实体词添加至由多个目标问答网页集成的搜索结果的预设位置,使得用户在搜索枚举类问题时,能够为用户直接提供精确的包含实体词的搜索结果,为用户完成了从大量目标问答网页中确定准确答案的过程,从而使用户无需再通过多个搜索路径寻找所需内容,大幅度缩短了用户搜索枚举类问题时的判断和选择过程,进而很好地满足了针对枚举类问题的问答需求。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于自然搜索结果提供实体词的搜索装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例公开了A1、一种基于自然搜索结果提供实体词的搜索方法,包括:
当接收到对枚举类问题的搜索请求时,从问答数据库中查询与所述枚举类问题类型相同的至少一个目标问答网页;
获取与所述至少一个目标问答网页相对应的实体词集,其中,所述实体词集是由预先从所述问答数据库所包含的枚举类答案中提取的至少一个实体词集成的;
由所述至少一个目标问答网页集成针对所述枚举类问题的搜索结果,并将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置。
A2、根据A1所述的方法,其中,所述至少一个目标问答网页对应唯一的实体词集;
将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置,包括:
从所述至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页;
将所述实体词集中的一个或多个实体词添加至所述最佳目标问答网页对应的预设位置。
A3、根据A1或A2所述的方法,其中,从所述至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页,包括:
按照第一预设参数对所述至少一个目标问答网页进行排序,所述第一预设参数包括对各目标问答网页的访问率和/或各目标问答网页中包含的问题与所述枚举类问题的相关度;
将排序最前的目标问答网页确定为所述最佳目标问答网页。
A4、根据A1-A3任一项所述的方法,其中,所述方法还包括:
从所述问答数据库中获取类型相同的问答网页;
获取所述类型相同的问答网页各自包含的枚举类答案;
从所述枚举类答案中提取至少一个实体词,集成所述类型相同的问答网页对应的实体词集。
A5、根据A1-A4任一项所述的方法,其中,从所述问答数据库中获取类型相同的问答网页,包括:
根据所述问答数据库中每个问答网页的预设文本,确定所述每个问答网页的类型,所述预设文本包括标题、摘要、关键字中的至少一项;
根据所述每个问答网页的类型,获取所述类型相同的问答网页。
A6、根据A1-A5任一项所述的方法,其中,从所述枚举类答案中提取至少一个实体词,包括:
从所述枚举类答案中提取备用实体词;
按照第二预设参数选择至少一个所述备用实体词作为所述实体词,所述第二预设参数包括各备用实体词在所述枚举类答案中的出现率和/或所述备用实体词和所述类型相同的问答网页的相关度。
A7、根据A1-A6任一项所述的方法,其中,各目标问答网页对应各自的实体词集;
将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置,包括:
将各实体词集中的一个或多个实体词添加至各自对应的目标问答网页所对应的预设位置。
A8、根据A1-A7任一项所述的方法,其中,所述方法还包括:
对于所述问答数据库中的每个问答网页,获取其各自包含的枚举类答案;
从各枚举类答案中提取至少一个实体词,集成所述枚举类答案各自对应的问答网页所对应的实体词集。
A9、根据A1-A8任一项所述的方法,其中,将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置,包括:
将所述实体词集中的一个或多个实体词以预设形式添加至所述搜索结果的预设位置,所述预设形式包括图标形式和/或文本形式。
A10、根据A1-A9任一项所述的方法,其中,所述方法还包括:
将所述问答网页与其对应的实体词集存储在预设分布式存储数据库中;
相应地,所述获取与所述至少一个目标问答网页相对应的实体词集,包括:
从所述预设分布式存储数据库中获取与所述至少一个目标问答网页相对应的实体词集。
A11、根据A1-A10任一项所述的方法,其中,所述预设分布式存储数据库为HBase数据库。
A12、根据A1-A11任一项所述的方法,其中,所述方法还包括:
当所述预设分布式存储数据库中有至少一种类型或至少一个问答网页所包含的枚举类答案被更新时,获取所述被更新的枚举类答案,所述更新包括增加、删除、修改中的至少一种;
根据所述被更新的枚举类答案,更新所述问答网页对应的实体词集。
A13、根据A1-A12任一项所述的方法,其中,所述类型相同指所述目标问答网页中包含的问题与所述枚举类问题具有相同或相近含义。
B14、一种基于自然搜索结果提供实体词的搜索装置,包括:
查询模块,适于当接收到对枚举类问题的搜索请求时,从问答数据库中查询与所述枚举类问题类型相同的至少一个目标问答网页;
第一获取模块,适于获取与所述至少一个目标问答网页相对应的实体词集,其中,所述实体词集是由预先从所述问答数据库所包含的枚举类答案中提取的至少一个实体词集成的;
集成模块,适于由所述至少一个目标问答网页集成针对所述枚举类问题的搜索结果,并将所述实体词集中的一个或多个实体词添加至所述搜索结果的预设位置。
B15、根据B14所述的装置,其中,所述至少一个目标问答网页对应唯一的实体词集;
所述集成模块还适于:
从所述至少一个目标问答网页中选择一个目标问答网页作为最佳目标问答网页;
将所述实体词集中的一个或多个实体词添加至所述最佳目标问答网页对应的预设位置。
B16、根据B14或B15所述的装置,其中,所述集成模块还适于:
按照第一预设参数对所述至少一个目标问答网页进行排序,所述第一预设参数包括对各目标问答网页的访问率和/或各目标问答网页中包含的问题与所述枚举类问题的相关度;
将排序最前的目标问答网页确定为所述最佳目标问答网页。
B17、根据B14-B16任一项所述的装置,其中,所述装置还包括:
第二获取模块,适于从所述问答数据库中获取相同类型的问答网页;
第三获取模块,适于获取所述相同类型的问答网页各自包含的枚举类答案;
第一提取模块,适于从所述枚举类答案中提取至少一个实体词,集成所述相同类型的问答网页对应的实体词集。
B18、根据B14-B17任一项所述的装置,其中,所述第二获取模块还适于:
根据所述问答数据库中每个问答网页的预设文本,确定所述每个问答网页的类型,所述预设文本包括标题、摘要、关键字中的至少一项;
根据所述每个问答网页的类型,获取所述相同类型的问答网页。
B19、根据B14-B18任一项所述的装置,其中,所述第一提取模块还适于:
从所述枚举类答案中提取备用实体词;
按照第二预设参数选择至少一个所述备用实体词作为所述实体词,所述第二预设参数包括各备用实体词在所述枚举类答案中的出现率和/或所述备用实体词和所述相同类型的问答网页的相关度。
B20、根据B14-B19任一项所述的装置,其中,各目标问答网页对应各自的实体词集;
所述集成模块,还适于将各实体词集中的一个或多个实体词添加至各自对应的目标问答网页所对应的预设位置。
B21、根据B14-B20任一项所述的装置,其中,所述装置还包括:
第四获取模块,适于对于所述问答数据库中的每个问答网页,获取其各自包含的枚举类答案;
第二提取模块,适于从各枚举类答案中提取至少一个实体词,集成所述枚举类答案各自对应的问答网页所对应的实体词集。
B22、根据B14-B21任一项所述的装置,其中,所述集成模块,还适于将所述实体词集中的一个或多个实体词以预设形式添加至所述搜索结果的预设位置,所述预设形式包括图标形式和/或文本形式。
B23、根据B14-B22任一项所述的装置,其中,所述装置还包括:
存储模块,适于将所述问答网页与其对应的实体词集存储在预设分布式存储数据库中;
相应地,所述第一获取模块,还适于从所述预设分布式存储数据库中获取与所述至少一个目标问答网页相对应的实体词集。
B24、根据B14-B23任一项所述的装置,其中,所述预设分布式存储数据库为HBase数据库。
B25、根据B14-B24任一项所述的装置,其中,所述装置还包括:
第五获取模块,适于当所述预设分布式存储数据库中有至少一种类型或至少一个问答网页所包含的枚举类答案被更新时,获取所述被更新的枚举类答案,所述更新包括增加、删除、修改中的至少一种;
更新模块,适于根据所述被更新的枚举类答案,更新所述问答网页对应的实体词集。
B26、根据B14-B25任一项所述的装置,其中,所述类型相同指所述目标问答网页中包含的问题与所述枚举类问题具有相同或相近含义。