CN106202285A

CN106202285A - 搜索结果展示方法和装置

Info

Publication number: CN106202285A
Application number: CN201610509333.6A
Authority: CN
Inventors: 孙珂; 孙叔琦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-12-07
Also published as: US10977317B2; US20190155846A1; WO2018000557A1

Abstract

本发明提出了一种搜索结果展示方法和装置，其中方法包括：根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息；根据与分词结果对应的词性和扩展信息确定每个网页的核心信息；根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页；将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。该方法对与搜索请求匹配的网页进行聚类分析，为用户提供核心观点更丰富、更加多样化的搜索结果。

Description

搜索结果展示方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种搜索结果展示方法和装置。

背景技术

随着互联网技术的发展，用户将搜索引擎看为是检索网络信息的主要途径，比如，用户可通过的在搜索引擎中搜索“凌度F8”，以获取与“凌度F8”相关的搜索结果。

然而，相关技术中，比如如图1所示，用于在搜索引擎中输入“凌度F8”后，搜索引擎根据“凌度F8”获取的搜索结果集中于关于“凌度F8”的评测上，因而搜索引擎仅仅为用户提供“凌度F8”的评测和价格等信息，搜索引擎提供的搜索结果并不够多样化且重复率高。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种搜索结果展示方法，该方法对与搜索请求匹配的网页进行聚类分析，为用户提供核心观点更丰富、更加多样化的搜索结果。

本发明的第二个目的在于提出一种搜索结果展示方法装置。

为了实现上述目的，本发明提出了一种搜索结果展示方法，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息；

根据与分词结果对应的词性和扩展信息确定每个网页的核心信息；

根据每个网页的核心信息从所述多个网页结果中筛选与所述搜索请求匹配的网页；

将与所述搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。

本发明实施例的搜索结果展示方法，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息，根据与分词结果对应的词性和扩展信息确定每个网页的核心信息，根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页，将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。由此通过对与搜索请求匹配的网页进行聚类分析，为用户提供核心观点更丰富、更加多样化的搜索结果。

另外，本发明实施例的搜索结果展示方法，还具有如下附加的技术特征：

在本发明的一个实施例中，所述词性包括：名词、动词、副词、或，专有名词；

所述扩展信息包括：专名类别、专名链指分析、或，词汇领域分析。

在本发明的一个实施例中，所述核心信息包括：核心专有名词和核心动词；

所述根据每个网页的核心信息从所述多个网页结果中筛选与所述搜索请求匹配的网页，包括：

根据每个网页的核心信息检测对应的网页内容是否包含所述核心专有名词和所述核心动词；

如果所述网页内容包含所述核心专有名词和所述核心动词，检测所述核心动词的TF-IDF是否高于预设阈值；

如果所述核心动词的TF-IDF高于预设阈值，检测所述核心专有名词与所述搜索请求是否一致；

如果所述核心专有名词与所述搜索请求一致，确定是与所述搜索请求匹配的网页。

在本发明的一个实施例中，所述核心信息还包括：核心概念词；

所述将与所述搜索请求匹配的网页进行聚类分析，包括：

检测参与聚类网页中的核心专有名词是否一致；

如果参与聚类网页中的核心专有名词一致，通过聚类度量函数分析参与聚类网页中的所述核心概念词和所述核心动词的组合相似度；

如果所述组合相似度大于预设阈值，则将参与聚类网页进行聚类。

在本发明的一个实施例中，所述生成搜索结果展示给用户，包括：

将所述核心概念词和所述核心动词作为所述搜索结果标题展示给用户。

为了实现上述目的，本发明也提出了一种搜索结果展示装置，包括：

第一获取模块，用于根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息；

第二获取模块，用于根据与分词结果对应的词性和扩展信息确定每个网页的核心信息；

筛选模块，用于根据每个网页的核心信息从所述多个网页结果中筛选与所述搜索请求匹配的网页；

聚类生成模块，用于将与所述搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。

本发明实施例的搜索结果展示装置，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息，根据与分词结果对应的词性和扩展信息确定每个网页的核心信息，根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页，将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。由此通过对与搜索请求匹配的网页进行聚类分析，为用户提供核心观点更丰富、更加多样化的搜索结果。

另外，本发明实施例的搜索结果展示装置还具有如下附加的技术特征：

所述筛选模块包括：

第一检测单元，用于根据每个网页的核心信息检测对应的网页内容是否包含所述核心专有名词和所述核心动词；

第二检测单元，用于在所述网页内容包含所述核心专有名词和所述核心动词时，检测所述核心动词的TF-IDF是否高于预设阈值；

第三检测单元，用于在所述核心动词的TF-IDF高于预设阈值时，检测所述核心专有名词与所述搜索请求是否一致；

确定单元，用于在所述核心专有名词与所述搜索请求一致时，确定是与所述搜索请求匹配的网页。

所述聚类生成模块包括：

第四检测单元，用于检测参与聚类网页中的核心专有名词是否一致；

分析单元，用于在参与聚类网页中的核心专有名词一致时，通过聚类度量函数分析参与聚类网页中的所述核心概念词和所述核心动词的组合相似度；

聚类单元，用于在所述组合相似度大于预设阈值时，将参与聚类网页进行聚类。

在本发明的一个实施例中，所述聚类生成模块还包括：

展示单元，用于将所述核心概念词和所述核心动词作为所述搜索结果标题展示给用户。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的传统搜索结果展示界面示意图；

图2是根据本发明一个实施例的搜索结果展示方法的流程图；

图3是根据本发明一个实施例的通过深度词法分析技术获取与分词结果对应的词性和扩展信息的示例图；

图4是根据本发明一个实施例的搜索结果展示界面示意图

图5是根据本发明一个具体实施例的搜索结果展示方法的流程图；

图6(a)-图6(c)是根据本发明一个实施例的根据与分词结果对应的词性和扩展信息确定每个网页的核心信息的示例图；

图7是根据本发明一个实施例的搜索结果展示装置的结构示意图；

图8是根据本发明一个具体实施例的搜索结果展示装置的结构示意图；以及

图9是根据本发明另一个实施例的搜索结果展示装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的搜索结果的展示方法和装置。

图2是根据本发明一个实施例的搜索结果展示方法的流程图。

如图2所示，该搜索结果展示方法包括：

S101，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息。

通常，传统的搜索引擎在根据用户的搜索请求获取多个网页后，仅仅基于对网页内容中的用词的分析，获取与搜索请求匹配的网页，并将该多个网页提供给用户。比如，用户搜索请求为“凌度F8”,搜索引擎可能会在展示界面上(比如手机的屏幕上)将一定数目的、网页标题包含“凌度F8”的网页作为搜索结果提供给用户。从而，可能会导致在有限的真是界面上，一次提供给用户的搜索结果中的网页核心观点重复率高，为用户提供的有效信息有限。

为了使得在有限的展示界面上，一次提供给用户的搜索结果更加丰富多样化，本发明实施例的搜索结果展示方法，对根据用户的搜索请求获取的多个网页进行基于语用层面的分析，通过分析理解相关词汇在文本中扮演的基本功能，比如是名词还是动词等，以及相关词汇的领域等来对根据用户的搜索请求获取的多个网页进行分析，从而根据分析结果生成核心观点更加丰富、更加多元化的搜索结果展示给用户。

具体地，在实际应用中，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别和分词处理，获取与分词结果对应的词性和扩展信息，其中，词性可以包括名词、动词、副词、或，专有名词等，扩展信息可包括：专名类别、专名链指分析、词汇领域分析等。

应当理解的是，上述专名类别重点关注实体本身所存在的类别属性(静态属性)，如人、地、机构、生物、物品、虚拟作品等，目标是能够动态识别出在当前语境中某一专有名词的具体类别。

专名链指分析重点关注热门实体的具体所指，其目标是在知识库(百科、freebase、wikipedia等)中寻找到当前专有名词的正确、无歧义描述页面(entry)，将相关专有名词通过某一知识库唯一标识关联起来。

词汇领域分析重点关注应用需求，其目标是分析出任意词汇在当前语境下，更倾向于被哪一种应用场景或垂类网站所使用。

基于以上描述，可以理解，本发明实施例的搜索结果展示方法中，通过一种深度词法分析技术对每个网页的标题进行专名识别分词处理，并获取与分词结果对应的词性和扩展信息，下面结合附图3以通过深度词法分析技术对一个网页标题为“香辣大闸蟹过水”进行专名识别分词处理，获取与分词结果对应的词性和扩展信息为例，详细说明深度词法分析技术的工作流程：

如图3所示，该深度词法分析技术分为浅层分析层和深度分析层，在浅层分析层，重点关注词汇的分类粒度、词法功能等浅层的词法信息，经过该浅层分析层将网页标题“香辣大闸蟹过水”分词为“香”、“辣”、“大闸蟹”、“过”、“水”，并可通过整合与适当调整等步骤，一次性完成粒度合并与的词性识别等任务，即将“香”、“辣”、“大闸蟹”、“过”、“水”合并为粒度较大的分词“香辣大闸蟹”、“过水”，并获取“香辣大闸蟹”、“过水”的词性。

其中，如图3所示，在浅层分析层的处理过程中，专名类别(如传统的PER、LOC、ORG以及当前搜索引擎特有的美食、视频)等被整体抽象为专名大类Z，以便减轻目标空间的负荷，并将目标聚焦至浅层词法分析部分。

进而，深度分析层将浅层分析层得到的大粒度的分词结果，即将得到的“香辣大闸蟹”、“过水”的分词结果进行深度分析，获取与该分词结果对应的专名类别、专名链指分析、词汇领域分析等扩展信息，如图3所示，获取的“香辣大闸蟹”的扩展信息为“食物”、“生物”“书籍”、“养殖”、“美食”等。

需要说明的是，根据具体应用场景的不同，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息的方式不同：

第一种示例，在根据用户的搜索请求获取多个网页后，先对每个网页标题进行专名识别分析处理，之后再获取与每个专名对应的词性和扩展信息，进而将每个专名和与其对应的词性和扩展信息进行“黏贴”，以获取每个网页标题的专名以及与其对应的词性和扩展信息。

第二种示例，一次性完成对网页的标题进行专名识别分词处理和获取与分词结果对应的词性和扩展信息，即在完成对网页的标题进行专名识别分词处理的同时，获取与分词对应的词性和扩展信息。

第三种示例，如图3所示的处理方法中，先一次性完成对网页的标题进行专名识别分词处理和获取与分词结果对应的词性，进而根据处理结果再获取分词对应的扩展信息等。

S102，根据与分词结果对应的词性和扩展信息确定每个网页的核心信息。

具体地，由于获取的分词结果对应的词性和扩展信息中，包括网页标题相关词汇的是名词、动词以及属于哪个词汇领域等信息，针对网页标题中多种多样的词汇，可将网页标题中没有实际词属性的词汇，如助词“的”过滤掉，或者将词性和扩展信息重复的词汇过滤并保留一个等，进而将具有实际词性属性的、词性和扩展信息不重复的网页标题中的词汇及其对应的词性和扩展信息确定为每个网页的核心信息。

比如，对于网页标题为“凌度F8行车记录仪”的网页进行分析处理后，获取分词处理后获取两个分词“凌度F8”和“行车记录仪”，而由于凌度F8即为行车记录仪，因而，可将“行车记录仪”及其相关信息过滤，并确定该网页的核心信息为凌度F8及其对应的词性和扩展信息。

S103，根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页。

S104，将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。

具体地，根据每个网页的核心信息从多个网页结果中筛选出与搜索请求匹配的网页后，为了节约展示空间，在展示界面上尽可能的为用户提供更丰富的信息，将与搜索请求匹配的网页进行聚类分析，将核心观点一致的网页聚成一类，避免核心观点重复的网页重复展示给为用户，进而根据聚类分析结果生成搜索结果展示给用户，在该搜索结果中，针对同一聚类的多个网页只显示其中一个网页相关信息。

其中，该搜索结果包含多种类别的核心观点的网页信息，如图4所示，将与搜索请求“凌度F8”匹配的网页进行聚类分析，展示给用户的搜索结果是关于凌度F8的价格、评测、安装、问题等多种类别的核心观点的搜索结果。

在本发明的一个实施例中，为了进一步的丰富搜索结果，使得展示界面上一次包含更丰富的网页信息，在针对同一聚类的多个网页只显示其中一个网页相关信息时，还可将其他属于该聚类的多个网页进行隐藏，并将该隐藏事件与相关触发菜单进行连接，从而用户可通过对相关触发菜单的操作，获取同一聚类的其他隐藏网页的相关信息。比如，用户可通过点击搜索结果中的展示某个聚类网页区域右上角的“+”菜单，获取该聚类的其他隐藏的网页信息。

综上所述，本发明实施例的搜索结果展示方法，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息，根据与分词结果对应的词性和扩展信息确定每个网页的核心信息，根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页，将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。由此通过对与搜索请求匹配的网页进行聚类分析，为用户提供核心观点更丰富、更加多样化的搜索结果。

基于以上实施例，进一步地，为了更加清楚的说明本发明实施例的搜索结果展示方法，下面结合附图5和图6(a)-(c)，以核心信息为核心专有名词、核心动词和核心概念词为例，举例说明本发明实施例的搜索结果展示方法，说明如下：

图5是根据本发明一个具体实施例的搜索结果展示方法的流程图，如图5所示，该方法包括：

S501，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息。

S502，根据与分词结果对应的词性和扩展信息确定每个网页的核心信息，其中，核心信息包括：核心专有名词和核心动词。

可以理解，核心专有名词是网页标题主要描述的实体的名称等，核心动词是该网页标题中主要描述的实体的主要动作等。比如，对于一篇标题为“苹果的种植方法”的网页，其核心专有名词是“苹果”，其核心动词是“种植”。

具体地，根据与分词结果对应的词性和扩展信息确定每个网页的核心专有名词和核心动词，抽取到该网页描述的核心观点。

为了更加清楚的描述本发明实施例的如何根据与分词结果对应的词性和扩展信息确定每个网页的核心信息，下面结合图6(a)-图6(c)举例说明对一个网页提取核心信息的工作流程：如图6(a)所示，基于深度词法分析技术，对该网页的标题进行词法标注，对该网页的标题“凌F8行车记录仪过一晚上不随车启动-百度知道”，进行分词处理并标注各个分词的词性和扩展信息为：“凌度F8”为核心专有名词等。

进而，从网页标题的各个分词的词性和扩展信息中抽取出具有实际词性属性或者专有名词类型的词，得到如图6(b)所示的结果。

进一步的，在抽取出具有实际词性属性或者专有名词类型的词后，可以确定网页的核心观点如图6(c)所示，如图6(c)所示，该网页和核心专有名词是“凌度F8”,核心动词为“不随车启动”等。

S503，检测对应的网页内容是否包含核心专有名词和核心动词。

具体地，由于网页的标题与网页的内容有时候并不相符，比如对于网页标题为“苹果的种植方法”的网页，其网页内容中可能主要描述“苹果的产地”，因此需要根据每个网页的核心信息检测对应的网页内容中是否包含核心专有名词和核心动词，以判断网页内容中是否描述了与网页标题相关的信息。

S504，如果网页内容包含核心专有名词和核心动词，检测核心动词的TF-IDF是否高于预设阈值。

具体地，当判断网页中包含核心专有名词和核心动词后，为了进一步保证网页内容中描述的内容和网页标题的相关性大，保证获取的网页的质量，还需要检测核心动词的TF-IDF是否高于预设阈值，即检测网页内容中是否有相对较多的内容描述与网页标题相关的内容。

其中，TF-IDF(Term Frequency–inverse Document Frequency,信息检索与数据挖掘的常用加权技术)，是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，通过TF-IDF可以削弱常用词的影响，比如“的”等常用助词的影响，准确评估核心动词在网页内容中的重要程度。

S505，如果核心动词的TF-IDF高于预设阈值，检测核心专有名词与搜索请求是否一致。

S506，如果核心专有名词与搜索请求一致，确定是与搜索请求匹配的网页。

具体地，如果核心动词的TF-IDF高于预设阈值，则表明该网页内容中详细描述了与网页标题相关的内容，比如一篇网页标题为“苹果的种植方法”的网页内容中，详细描述了苹果的种植方法，核心动词的TF-IDF高于预设阈值的网页是质量较高的一些网页。

进一步地，在上述质量较高的网页中，为了最大限度的过滤掉命中噪音网页的可能性并保证相关网页的召回，从而以保证系统在召回数量不变的前提下，能够召回更多样性的页面结果，检测核心专有名词是否与搜索请求一致，如果核心专有名词与搜索请求一致，则确定该网页是与搜索请求匹配的网页。

S507，检测参与聚类网页中的核心专有名词是否一致。

具体地，为了对获取的与搜索请求匹配的网页进行准确的聚类分析，避免将核心不一致的网页聚类为一类，检测参与聚类网页中的核心专有名词是否一致。

S508，如果参与聚类网页中的核心专有名词一致，通过聚类度量函数分析参与聚类网页中的核心概念词和核心动词的组合相似度。

S509，如果组合相似度大于预设阈值，则将参与聚类网页进行聚类。

具体地，如果参与聚类网页中的核心专有名词一致，则表明网页描述的是一个实体，从而为了进一步区分网页描述的是核心专有名词的哪些方面，通过聚类度量函数分析参与聚类网页中的核心概念词和核心动词的组合相似度，如果组合相似度大于预设阈值，则表明参与聚类的网页描述的是核心专有名词对应的实体的同一个方面，从而将参与聚类网页进行聚类。

其中，网页中的核心概念词和核心动词可以表征该网页内容中描述的实体的哪些方面。

核心概念词可以是与核心专有名词一致的名词概念，比如如图6(c)所示，核心概念词为“行车记录仪”，其与核心专有名词“凌度F8”一致，二者均是描述了“凌度F8”，从而，对于核心概念词是与核心专有名词一致的参与聚类的网页，在计算上述网页中的核心概念词和核心动词的相似度时，可以删除核心概念词，只计算核心动词的相似度。

核心概念词也可以是与核心专有名词不一致的名词概念，比如对网页标题为“宝马X5发动机点火”，其核心概念词为“发动机”，其与核心专有名词“宝马X5”不一致，从而，对于核心概念词是与核心专有名词不一致的参与聚类的网页，在计算上述网页中的核心概念词和核心动词的相似度时，需要严格保留核心概念词，计算核心概念词和核心动词的组合相似度。

S510，将核心概念词和核心动词作为搜索结果标题展示给用户。

具体地，在本发明的一个实施例中，将核心概念词与核心动词作为搜索结果标题展示给用户，以供用户更加清楚的了解该搜索结果的核心信息。

综上所述，本发明实施例的搜索结果展示方法，根据每个网页的核心信息检测对应的网页内容是否包含核心专有名词和核心动词，以及核心动词的TF-IDF的大小获取与用户搜索请求匹配的网页，并将核心专有名词一致的、且核心概念词和核心动词的组合相似度较高的网页进行具备并展示给用户，进一步保证了为用户提供核心观点更丰富、更加多样化的搜索结果。

为了实现上述实施例，本发明还提出了一种搜索结果展示装置，图7是根据本发明一个实施例的搜索结果展示装置的结构示意图。如图7所示，该搜索结果展示装置包括：第一获取模块100、第二获取模块200、筛选模块300和聚类生成模块400。

其中，第一获取模块100用于根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息。

具体地，在实际应用中，第一获取模块100根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别和分词处理，获取与分词结果对应的词性和扩展信息，其中，词性可以包括名词、动词、副词、或，专有名词等，扩展信息可包括：专名类别、专名链指分析、词汇领域分析等。

词汇领域分析重点关注应用需求，其目标是分析出任意词汇在当前语境下，更倾向于被哪一种应用场景/垂类网站所使用。

第二获取模块200，用于根据与分词结果对应的词性和扩展信息确定每个网页的核心信息。

具体地，由于获取的分词结果对应的词性和扩展信息中，标注了网页标题相关词汇的是名词、动词以及属于哪个词汇领域等信息，针对网页标题中多种多样的词汇，第二获取模块200可将网页标题中没有实际词属性的词汇如助词“的”过滤掉，或者将词性和扩展信息重复的词汇过滤并保留一个等，进而将具有实际词性属性的、词性和扩展信息不重复的网页标题中的词汇及其对应的词性和扩展信息确定为每个网页的核心信息。

筛选模块300用于根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页。

聚类生成模块400，用于将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。

具体地，筛选模块300根据每个网页的核心信息从多个网页结果中筛选出与搜索请求匹配的网页后，为了节约展示空间，在展示界面上尽可能的为用户提供更丰富的信息，聚类生成模块400将与搜索请求匹配的网页进行聚类分析，将核心观点一致的网页聚成一类，避免核心观点重复的网页重复展示给为用户，进而根据聚类分析结果生成搜索结果展示给用户，在该搜索结果中，针对同一聚类的多个网页只显示其中一个网页相关信息。

综上所述，本发明实施例的搜索结果展示装置，根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息，根据与分词结果对应的词性和扩展信息确定每个网页的核心信息，根据每个网页的核心信息从多个网页结果中筛选与搜索请求匹配的网页，将与搜索请求匹配的网页进行聚类分析，生成搜索结果展示给用户。由此通过对与搜索请求匹配的网页进行聚类分析，为用户提供核心观点更丰富、更加多样化的搜索结果。

基于以上实施例，进一步地，为了更加清楚的说明本发明实施例的搜索结果展示装置，下面结合附图8和图9，以核心信息为核心专有名词、核心动词和核心概念词为例，举例说明本发明实施例的搜索结果展示装置，说明如下：

图8是根据本发明一个具体实施例的搜索结果展示装置的结构示意图，如图8所示，在如图7所示的基础上，筛选模块300包括：第一检测单元310、第二检测单元320、第三检测单元330和确定单元340。

其中，第一检测单元310，用于根据每个网页的核心信息检测对应的网页内容是否包含核心专有名词和核心动词。

具体地，由于网页的标题与网页的内容有时候并不相符，比如对于网页标题为“苹果的种植方法”的网页，其网页内容中可能主要描述“苹果的产地”，因此第一检测单元310需要根据每个网页的核心信息检测对应的网页内容中是否包含核心专有名词和核心动词，以判断网页内容中是否描述了与网页标题相关的信息。

第二检测单元320，用于在网页内容包含核心专有名词和核心动词时，检测核心动词的TF-IDF是否高于预设阈值。

具体地，当判断网页中包含核心专有名词和核心动词后，为了进一步保证网页内容中描述的内容和网页标题的相关性大，保证获取的网页的质量，还需要第二检测单元320检测核心动词的TF-IDF是否高于预设阈值，即检测网页内容中是否有相对较多的内容描述与网页标题相关的内容。

第三检测单元330，用于在核心动词的TF-IDF高于预设阈值时，检测核心专有名词与搜索请求是否一致。

确定单元340，用于在核心专有名词与搜索请求一致时，确定是与搜索请求匹配的网页。

进一步地，在上述质量较高的网页中，为了最大限度的过滤掉命中噪音网页的可能性并保证相关网页的召回，从而以保证系统在召回数量不变的前提下，能够召回更多样性的页面结果，第三检测单元330检测核心专有名词是否与搜索请求一致，如果核心专有名词与搜索请求一致，确定单元340则确定该网页是与搜索请求匹配的网页。

进而，图9是根据本发明另一个实施例的搜索结果展示装置的结构示意图，如图9所示，在如图8所示的基础上，聚类生成模块400包括：第四检测单元410、分析单元420、聚类单元430和展示单元440。

其中，第四检测单元410，用于检测参与聚类网页中的核心专有名词是否一致。

具体地，为了对获取的与搜索请求匹配的网页进行准确的聚类分析，避免将核心不一致的网页聚类为一类，第四检测单元410检测参与聚类网页中的核心专有名词是否一致。

分析单元420，用于在参与聚类网页中的核心专有名词一致时，通过聚类度量函数分析参与聚类网页中的核心概念词和核心动词的组合相似度。

聚类单元430，用于在组合相似度大于预设阈值时，将参与聚类网页进行聚类。

具体地，如果参与聚类网页中的核心专有名词一致，则表明网页描述的是一个实体，从而为了进一步区分网页描述的是核心专有名词的哪些方面，分析单元420通过聚类度量函数分析参与聚类网页中的核心概念词和核心动词的组合相似度，如果组合相似度大于预设阈值，则表明参与聚类的网页描述的是核心专有名词对应的实体的同一个方面，从而聚类单元430将参与聚类网页进行聚类。

展示单元440，用于将核心概念词和核心动词作为搜索结果标题展示给用户。

具体地，在本发明的一个实施例中，展示单元440将核心概念词与核心动词作为搜索结果标题展示给用户，以供用户更加清楚的了解该搜索结果的核心信息。

需要说明的是，本发明实施例描述的搜索结果展示装置与以上参照图1-图6描述的搜索结果展示方法对应，本发明实施例中未披露的细节，在此不再赘述。

综上所述，本发明实施例的搜索结果展示装置，根据每个网页的核心信息检测对应的网页内容是否包含核心专有名词和核心动词，以及核心动词的TF-IDF的大小获取与用户搜索请求匹配的网页，并将核心专有名词一致的、且核心概念词和核心动词的组合相似度较高的网页进行具备并展示给用户，进一步保证了为用户提供核心观点更丰富、更加多样化的搜索结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种搜索结果展示方法，其特征在于，包括以下步骤：

根据用户的搜索请求获取多个网页，对每个网页的标题进行专名识别分词处理，获取与分词结果对应的词性和扩展信息；

2.如权利要求1所述的方法，其特征在于，

所述词性包括：名词、动词、副词、或，专有名词；

3.如权利要求1所述的方法，其特征在于，所述核心信息包括：核心专有名词和核心动词；

检测对应的网页内容是否包含所述核心专有名词和所述核心动词；

4.如权利要求3所述的方法，其特征在于，所述核心信息还包括：核心概念词；

所述将与所述搜索请求匹配的网页进行聚类分析，包括：

检测参与聚类网页中的核心专有名词是否一致；

5.如权利要求4所述的方法，其特征在于，所述生成搜索结果展示给用户，包括：

6.一种搜索结果展示装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，

所述词性包括：名词、动词、副词、或，专有名词；

8.如权利要求6所述的装置，其特征在于，所述核心信息包括：核心专有名词和核心动词；

所述筛选模块包括：

9.如权利要求8所述的装置，其特征在于，所述核心信息还包括：核心概念词；

所述聚类生成模块包括：

10.如权利要求9所述的装置，其特征在于，所述聚类生成模块还包括：