CN104239340B

CN104239340B - 搜索结果筛选方法与装置

Info

Publication number: CN104239340B
Application number: CN201310245241.8A
Authority: CN
Inventors: 蒋前程; 张友书; 余浩; 张阔
Original assignee: Beijing Sogou Technology Development Co Ltd; Beijing Sogou Information Service Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd; Beijing Sogou Information Service Co Ltd
Priority date: 2013-06-19
Filing date: 2013-06-19
Publication date: 2018-03-16
Anticipated expiration: 2033-06-19
Also published as: CN104239340A

Abstract

本发明提供了一种搜索结果筛选方法与装置，其中，搜索结果筛选方法包括：分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象；其中，所述网页库中存储全网中的网页文档，所述知识库中存储全网中的实体对象；将各所述实体对象与各所述网页文档分别进行关联匹配；根据每个实体对象在各所述网页文档中关联匹配的对应匹配度，将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记，标记为所述实体对象对应的目标页面；根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选，得到每个所述实体对象对应的所述目标页面。通过本发明，满足了同一行业类别中细分的需求，加快了信息搜索的效率。

Description

搜索结果筛选方法与装置

技术领域

本发明涉及数据处理领域，特别是涉及一种搜索结果筛选方法与装置。

背景技术

目前，当用户在搜索引擎输入一些有歧义的查询词时，由于现有的主流搜索引擎都是基于文本匹配的方法将所有可能的结果返回给用户，在得到的搜索结果中排前的往往只包含热门的网页文档。以“苹果”为例，苹果本身是一个客观实体的名称，它可能是一家“公司”，也可能是一部“电影”，还可能是一种“水果”。当输入“苹果”在现有的搜索引擎中时，搜索结果中往往将这三种网页文档按既定的顺序展示，如第一位展示“公司”对应的网页文档，第二位展示“电影”对应的网页文档等；或者将不同类别的网页文档混杂在一起，统一按点击量混合展示。

有的搜索引擎会根据网页文档所在的站点类别进行一些简单的分类，但是这些分类对应的标签往往都是预定义的，并且是和用户输入的查询词无关的分类，此时用户在获取自己感兴趣的某一网页文档时会比较困难，需要自己逐条去甄别。例如，用户查询作为“水果”的“苹果”的成熟周期时，现有的搜索引擎中，会将与“苹果”有关的公司、电影等众多网页文档排在了搜索结果的前几页，需要用户不断地自行区分各网页文档的内容，翻页查找需要的关于“水果”的搜索结果。

因此，现有的搜索系统对歧义查询返回的结果往往不加分类展现，或者只是根据网页文档所属站点的类别进行一些固定类别的分类，分类标签不能根据查询词的不同进行动态细化，给用户在定位自己感兴趣的目标信息时带来了不便，往往需要自行甄别或者添加更多的关键字进行二次查询，降低了信息搜索的效率。

发明内容

本发明提供了一种搜索结果筛选方法与装置，以解决现有技术对查询返回的结果往往不加分类展现，或者只是根据网页所属站点的类别进行一些固定类别的分类，分类标签不能根据查询词的不同进行动态细化，给用户查询带来了不便的问题。

为了解决上述问题，本发明公开了一种搜索结果筛选方法，包括：分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象；其中，所述网页库中存储全网中的网页文档，所述知识库中存储全网中的实体对象；将各所述实体对象与各所述网页文档分别进行关联匹配；根据每个实体对象在各所述网页文档中关联匹配的对应匹配度，将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记，标记为所述实体对象对应的目标页面；根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选，得到每个所述实体对象对应的所述目标页面。优选地，所述将各所述实体对象与各所述网页文档分别进行关联匹配的步骤包括：对获得的各所述网页文档和各所述实体对象进行向量分析，分别生成所述查询词对应的网页库向量和知识库向量；根据所述网页库向量和所述知识库向量，对各所述网页文档与各实体对象进行相似度匹配。

优选地，所述对获得的各所述网页文档和各所述实体对象进行向量分析，分别生成所述查询词对应的网页库向量和知识库向量的步骤包括：对各所述网页文档和各所述实体对象对应的文本分别进行分词处理，得到分词集合；分别获取所述分词集合中，每个分词在所述网页文档和所述实体对象对应的文本中的词频信息和权重信息；分析所述每个分词的词频信息和权重信息，分别生成所述查询词对应的网页库向量和知识库向量。

优选地，所述对各所述网页文档和各所述实体对象对应的文本分别进行分词处理，得到分词集合的步骤包括：对各所述网页文档和各所述实体对象对应的文本分别进行分词处理，得到对应的网页分词集合和实体分词集合；获取在所述网页分词集合和所述实体分词集合中均存在的分词作为最终的所述分词集合。

优选地，所述根据所述网页库向量和所述知识库向量对各所述网页文档与各实体信息进行相似度匹配的步骤包括：根据所述网页库向量和所述知识库向量的向量内积，对各所述网页文档和各所述实体对象分别进行相似度匹配。

优选地，在将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记时，以各所述实体对象为单位，判断每个实体对象与各所述网页文档之间的相似度匹配结果是否满足设定阈值；若是，则将满足所述设定阈值的相似度匹配结果对应的各所述网页文档分别标记为对应所述实体对象的目标页面。

优选地，在所述分别将查询词在网页库中和知识库中进行查询的步骤之前，还包括：对所述查询词进行第一预处理，生成包括关键词的查询字符串，以根据所述查询字符串在所述网页库中进行查询；以及，对所述查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性的SQL语句，以根据所述SQL语句在所述知识库中进行查询。

优选地，在对所述查询词进行第二预处理时，对所述查询词进行分词，对得到的实体名和/或实体属性进行语义分析，根据语义分析的结果确定文法结构后进行查询语句转换，从而生成查询词对应的SQL语句。

优选地，所述根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选时，获取被用户选中的所述实体对象的对应标记，将带有所述标记的目标页面进行优先展示。

为了解决上述问题，本发明还公开了一种搜索结果筛选装置，包括：查询模块，用于分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象；其中，所述网页库中存储全网中的网页文档，所述知识库中存储全网中的实体对象；匹配模块，用于将各所述实体对象与各所述网页文档分别进行关联匹配；确定模块，用于根据每个实体对象在各所述网页文档中关联匹配的对应匹配度，将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记，标记为所述实体对象对应的目标页面；分类模块，用于根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选，得到每个所述实体对象对应的所述目标页面。

优选地，所述匹配模块包括：生成模块，用于对获得的各所述网页文档和各所述实体对象进行向量分析，分别生成所述查询词对应的网页库向量和知识库向量；相似度匹配模块，用于根据所述网页库向量和所述知识库向量对各所述网页文档与各实体信息进行相似度匹配。

优选地，所述确定模块，用于以各所述实体对象为单位，判断每个实体对象与各所述网页文档之间的相似度匹配结果是否满足设定阈值；若是，则将满足所述设定阈值的相似度匹配结果对应的各所述网页文档分别标记为对应所述实体对象的目标页面。

优选地，所述搜索结果筛选装置还包括：预处理模块，用于对所述查询词进行第一预处理，生成包括关键词的查询字符串，以根据所述查询字符串在所述网页库中进行查询；以及，对所述查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性的SQL语句，以根据所述SQL语句在所述知识库中进行查询。

优选地，所述分类模块，获取被用户选中的所述实体对象的对应标记，将带有所述标记的目标页面进行优先展示。

与现有技术相比，本发明具有以下优点：

本发明通过引入知识库的信息处理网页搜索结果，分别将预处理过的查询词输入到结构化的知识库和网页库中，用知识库中返回的实体对象分别匹配网页库中各网页文档中的目标页面，根据匹配度分别对各网页文档进行标记，形成目标页面的标签，从而利用知识库中的各实体对象对搜索结果条目进行筛选。本申请利用既定的知识库里的实体对象作为网页文档分类的参照，为网页分类提供了动态的、与查询相关的标签；利用知识库中的实体对象为用户提供结构化信息的同时，对搜索结果中的网页文档进行对应筛选，从而使搜索结果优先加载用户触发的实体对象对应的网页文档，满足了同一行业类别中细分的需求，给用户浏览过滤信息提供了更大的便利，加快了信息搜索的效率。

附图说明

图1是根据本发明实施例一的一种搜索结果筛选方法的步骤流程图；

图2是根据本发明实施例二的一种搜索结果筛选方法的步骤流程图；

图3是根据本发明实施例三的一种搜索结果筛选装置的结构框图；

图4是根据本发明实施例四的一种搜索结果筛选系统的架构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了根据本发明实施例一的一种搜索结果筛选方法的步骤流程图。

本实施例的搜索结果筛选方法包括以下步骤：

步骤S102：分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象。

其中，网页库中存储全网中的网页文档，知识库中存储全网中的实体对象，该实体对象包括实体名和对应的实体属性信息，实体属性信息中包括有实体类别信息和对应类别特有的属性信息，如实体类别信息包括“电影”，还包括：导演、主演、上映时间等“电影”类别特有的属性信息。

本实施例中的知识库是用于知识管理的一种数据库，它是知识工程中结构化、易操作、易利用、全面有组织的知识集群。知识库中的知识源于领域相关的理论知识、事实数据，领域专家经验得到的启发知识等。它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。在建立知识库之前，需要通过领域知识，建立该领域里内统一的数据架构（Schema）。Schema用来描述领域内知识的整体架构，一般来说Schema可以通过通用的RDF（Resource Description Framework）以实体对象为单位来进行描述。制定好以实体对象为单位领域知识的结构之后，将每个实体对象的各种异构信息源规范到统一的该实体对象对应的数据结构下。常见的信息源包括已有的数据库数据、网页数据、人工整理的相关数据等，这些数据通过信息的抽取，信息的归一化，信息的融合，信息的消歧等步骤之后，得到最后提供服务的结构化数据组成知识库。目前，知识库的存储形式也是多种多样的，比较常见的包括RDF，Ntriple，Turtle，Notation3等格式，当然也可以利用传统的数据库进行对知识库中的实体对象进行结构化存储。

网页库顾名思义是全网中网页文档的集合，网页库的建立主要包括页面抓取、页面分析、链接分析、页面存储等步骤。首先通过网络蜘蛛程序按照一定的策略将需要的网页的html源码抓取下来并进行初步存储，存储的网页会根据需求将页面中的关键信息进行解析并形成一种自定义的中间存储格式（可以是XML，也可以是自定义的数据结构）存储。当然如果网页库还需要向外部提供检索服务时，则需要对网页的文本信息进行分词，建立倒排索引等工作。而网页本身的信息，加上从网页中提取出来的各种用户自定义信息，组成了整个网页库。

本发明中，用查询词进行的网页库查询和知识库查询不分先后顺序，也可并行执行。

用查询词进行的网页库查询可以参照相关的任意适当的网页查询方式实现，本发明对此不作限制。对查询词进行的网页库查询获得对应于查询词的网页文档，而对查询词进行的知识库查询获得对应于查询词的实体对象。实体对象包括实体名和对应的实体属性信息，如，对应于查询词“苹果”的实体对象有三个，相应的实体名和对应的实体属性信息分别为：{实体名=苹果，实体属性信息＝（实体类别＝公司，成立时间=…，主要产品=…）}；{实体名=苹果，实体属性信息＝（实体类别＝电影，导演=…，主演=…，上映时间=…）}；{实体名=苹果，实体属性信息＝（实体类别＝水果，产地=…，形状=…，颜色=…）}。

步骤S104：将各实体对象与各网页文档分别进行关联匹配。

关联匹配可以通过适当的匹配算法，如相似度匹配算法（如欧式距离算法、标准化欧式距离算法、曼哈顿距离算法、夹角余弦算法等）或程序实现，也可以通过调用第三方提供的现有程序或应用的接口实现，使每个实体对象分别与各网页文档进行匹配，从而使每个网页文档获得各对应实体对象的关联度。

步骤S106：根据每个实体对象在各网页文档中关联匹配的对应匹配度，将匹配度满足设定匹配规则的各网页文档分别进行标记，标记为实体对象对应的目标页面。

每个网页文档对应于不同的实体对象具有不同的关联匹配度，可以通过设定的匹配规则，确定各个网页文档应当对应的实体对象，进而对网页文档进行标记，获得目标页面。如，确定关联匹配度最高的实体对象为该网页文档的实体对象，或者，确定关联匹配度匹配结果满足设定阈值的实体对象为该网页文档的实体对象等，即在网页页面上添加对应实体对象的标签，从而建立了各网页文档与每个实体对象的对应关系，标记了某个实体对象对应标签的网页页面则可以认为该网页页面与所述标签对应的实体对象具有关联性。

步骤S108：根据目标页面对应的实体对象的标记，对各网页文档进行筛选，得到每个实体对象对应的目标页面。

如，对应于查询词“苹果”的网页文档A1、A2、A3、A4、A5和A6中，经与各个实体对象进行关联匹配后，网页文档A1、A2、A3、A4被确定对应的实体对象为{实体名=苹果，实体属性信息＝（实体类别＝公司，成立时间=…，主要产品=…）}，则网页文档A1、A2、A3、和A4被标记为“苹果”公司；而网页文档A5和A6经与各个实体对象进行关联匹配后，被确定对应的实体对象为{实体名=苹果，实体属性信息＝（实体类别＝电影，成立时间=…，主要产品=…）}，则网页文档A5和A6被标记为“苹果”电影。根据上述实体对象对应的标记对A1、A2、A3、A4、A5和A6进行筛选，得到实体对象“苹果”公司对应的目标页面为A1、A2、A3、和A4，而实体对象“苹果”电影对应的目标页面为A5和A6。

本实施例通过引入知识库的信息处理网页搜索结果，分别将预处理过的查询词输入到结构化的知识库和网页库中，用知识库中返回的实体对象分别匹配网页库中各网页文档中的目标页面，根据匹配度分别对各网页文档进行标记，形成目标网页的标签，从而利用知识库中的各实体对象对搜索结果条目进行筛选。本申请利用既定的知识库里的实体对象作为网页文档分类的参照，为网页分类提供了动态的、与查询相关的标签；利用知识库中的实体对象为用户提供结构化信息的同时，对搜索结果中的网页文档进行对应筛选，从而使搜索结果优先加载用户触发的实体对象对应的网页文档，给用户浏览、过滤信息提供了更大的便利，加快了信息搜索的效率。

实施例二

参照图2，示出了根据本发明实施例二的一种搜索结果筛选方法的步骤流程图。

本实施例的搜索结果筛选方法包括以下步骤：

步骤S202：对查询词进行第一预处理，生成包括关键词的查询字符串，以根据查询字符串进行网页库查询。

如，对查询词进行纠错、分词、去词等预处理操作，获得一个或多个关键词，然后，生成包含该关键词的查询字符串。如，当用户输入“笑傲江湖霍建华版”时，对该查询词进行纠错、分词、去词等预处理操作后，获得关键词“笑傲江湖”和“霍建华”，由此，生成包含“笑傲江湖”和“霍建华”的查询字符串，以便后续进行网页库查询。

步骤S204：对查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性信息的SQL语句，以根据SQL语句在知识库中进行查询。

优选地，本步骤包括：对查询词进行分词，识别得到的分词中的实体名和/或实体属性词；对识别得到的实体名和/或实体属性进行语义分析，根据语义分析的结果确定文法结构后进行查询语句转换，从而生成查询词对应的包括实体对象的一个或多个实体名和/或实体属性信息的SQL语句，根据SQL语句在知识库中进行查询。

如，对“笑傲江湖霍建华版”进行分词之后，标示出实体部分，包括实体名和实体属性词，本例中，标示出实体名“笑傲江湖”和实体属性词“霍建华”，然后对标示出的“笑傲江湖”和“霍建华”进行语义分析后，进行查询语句转换处理，转换为包含上述实体词的SQL语句。如，SELECT A.NAME=“笑傲江湖”，A.TYPE＝“电视剧”，A.ACTOR＝“霍建华”FROM知识库表A。

需要说明的是，在实际应用中，上述步骤S202和S204的执行不分先后顺序，也可并行执行。并且，上述第一预处理和第二预处理也可以采用相同的预处理。上述第一预处理和第二预处理也仅为示例性说明，在实际应用中，本领域技术人员还可以在能够正常进行网页库查询和知识库查询的原则下，采用其它适当的预处理方式对查询词进行预处理。

步骤S206：分别对预处理后的查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象。

其中，网页库中存储有全网中的网页文档，知识库中存储有全网中的实体对象，实体对象包括实体名和对应的实体属性信息，实体属性信息包括实体类别信息。查询词对应的SQL语句在知识库中得到对应的实体对象，查询词对应的查询字符串在网页库中得到对应的网页文档。

步骤S208：对获得的各网页文档和各实体对象进行向量分析，分别对应生成查询词对应的网页库向量和知识库向量。

在其他实施例中，也可以不生成网页库向量和知识库向量进行向量分析，直接使用获得的网页文档和实体对象中的文本进行后续的关联匹配，如相似度匹配计算等方式直接判断各网页文档与每个实体对象的关联度。而通过网页库向量和知识库向量，可以使得关联匹配如相似度匹配计算更加清楚简单，加快匹配计算速度，并便于对匹配结果进行统计和判断。

本实施例中，根据获得的各网页文档生成网页库向量，并根据获得的各实体对象生成知识库向量。在生成网页库向量和知识库向量时，一种优选方式是：对各网页文档和各实体对象对应的文本分别进行分词处理，获得分词处理后的所有分词的分词集合；分别获取分词集合中，每一个分词在网页文档和实体对象中的词频信息和权重信息；分析每一个分词在各网页文档中的词频信息和权重信息，生成查询词对应的网页库向量；分析每一个分词在各实体对象的各实体属性对应的文本信息中的词频信息和权重信息，生成查询词对应的知识库向量。同样，上述生成网页库向量的处理，和生成知识库向量的处理的执行不分先后顺序，也可并行执行。

如，对于对各所述网页文档和各所述实体对象对应所有的分词的分词集合为T={t1，t2，…，tm}，实体和网页用TF－IDF（Term Frequency–Inverse Document Frequency，词频－反文档频率）模型可以分别表示成一个M维的向量，每一个知识库向量Ej和网页库向量Pk可以表示成如下形式：

查询词对应的某个知识库向量Ej（tf1*idf1，tf2*idf2，…，tfm*idfm），其中，tf1表示分词t1在知识库的所有实体对象中出现的词频，idf1表示分词t1在知识库的所有实体对象中的权重；分词t2、t3,…,tm对应的向量为tf2*idf2，…，tfm*idfm依次类推。

查询词对应的某个网页库向量Pk（tf1*idf1，tf2*idf2，…，tfm*idfm），其中，tf1表示分词t1在网页库的Pk网页文档中的词频，idf1表示分词t1在网页库的所有网页文档中的权重；分词t2、t3,…,tm对应的向量tf2*idf2，…，tfm*idfm依次类推。其中,j、k、m为大于零的整数。

需要说明的是，若某个分词仅在查询词对应的各网页文档中出现而未在查询词对应的各实体对象中出现，则该分词在查询词对应的各实体对象中的词频和权重均默认为0或者为特定数值或字符；同样，若某个分词仅在查询词对应的各实体对象中出现而未在查询词对应的各网页文档中出现，则该分词在查询词对应的各网页文档中的词频和权重均默认为0或者为特定数值或字符。

在其他实施例中，在确定分词集合时，对根据查询词得到的各网页文档和各实体对象对应的文本分别进行分词处理，得到对应的网页分词集合和实体分词集合；获取在网页分词集合和实体分词集合中，均存在的分词元素作为最终的分词集合。也即，先对根据查询词得到的网页文档对应的分词集合和实体对象对应的分词集合做交集操作，以确定同时在两个集合中均出现的分词，进一步获得这些分词分别在网页文档和实体对象中的词频和权重，生成查询词对应的网页库向量和知识库向量。计算同时在两个集合中出现的分词的词频和权重时，可以有效减少计算量，对应得到的知识库向量和网页库向量减轻后续的关联匹配负担。

步骤S210：根据网页库向量和知识库向量，对各网页文档与各实体对象进行相似度匹配。

优选地，在对应于查询词的各个网页文档以网页库向量表示，各个实体对象以知识库向量表示时，本步骤可以通过根据网页库向量和知识库向量的向量内积，对网页库向量中各个网页文档和知识库向量中各个实体对象进行相似度匹配。当然，不限于此，其它相似度匹配方式同样适用。

步骤S212：根据每个实体对象在各网页文档中相似度匹配的匹配度，将匹配度满足设定匹配规则的各网页文档分别进行标记，标记为实体对象对应的目标页面。

如，一种可行方式包括：以各实体对象为单位，判断各个实体对象与各个网页文档之间的相似度匹配结果是否满足设定阈值；若是，则将满足设定阈值的相似度匹配结果对应的各网页文档分别标记为对应的实体对象的目标页面；即将各网页文档打上对应实体对象的标签。本实施例中，各网页文档对应的实体对象的标签可以有一个以上，如查询词为“笑傲江湖”时，对应知识库中的各实体对象分别为电视剧“笑傲江湖霍建华版”、电视剧“笑傲江湖吕颂贤版”、电视剧“笑傲江湖周润发版”、小说“笑傲江湖”和网游“笑傲江湖”等。对应网页库的各网络文档中有一篇为对三部电视剧“笑傲江湖”的主演、剧情进行对比的文档，通过对各实体对象和该网页文档进行向量分析，结合各分词的词频信息和权重信息统计得到该网页文档的网页库向量和各实体对象的知识库向量，进行相似度匹配后得到实体对象：电视剧“笑傲江湖霍建华版”、电视剧“笑傲江湖吕颂贤版”、电视剧“笑傲江湖周润发版”，三者均与该网页文档的匹配度大于设定阈值，因此，该网页文档为此三实体对象的目标页面，即将电视剧“笑傲江湖霍建华版”、电视剧“笑傲江湖吕颂贤版”、电视剧“笑傲江湖周润发版”三个实体对象的标签均标记在该网页文档上。

若某个实体对象与某网页文档之间的相似度匹配结果不满足设定阈值，则可以根据本领域技术人员的设置，确定搜索结果中特定的网页文档对应的实体对象，如确定相似度最高的实体对象为特定的网页文档对应的实体对象，或者，确定特定的网页文档对应的实体对象为其它类别的相似度匹配结果满足设定阈值的实体对象等。其中，设定阈值可以由本领域技术人员根据实际情况适当设定，本发明对此不作限制。

但不限于此，在实际应用中，也可以直接将相似度最高的实体对象确定为网页文档对应的实体对象。

步骤S214：根据目标页面对应的实体对象的标记，对各网页文档进行筛选，得到每个实体对象对应的目标页面。

当确定了各个网页文档对应的实体对象后，将各个网页文档按对应实体对象的标记分别分类筛选到对应的实体对象下。

具体地，对各网页文档进行筛选时，获取被用户选中的实体对象的对应标记，将带有该标记的目标页面进行优先展示。

用户利用搜索引擎进行信息搜索时，需求可能是多方面的，并且需求的多方面不仅体现在各实体对象对应的实体类别上，相同的实体类别中也存在不同的实体对象，根据实体对象的不同可以进一步进行网页文档的细分，从而加快信息搜索的效率。比如，用户查询“笑傲江湖”时，除了对“小说”、“游戏”和“电影”类别的“笑傲江湖”之外，“电视剧”类别中有“笑傲江湖霍建华版”、“笑傲江湖央视版”、“笑傲江湖任贤齐版”等等不同的实体对象。由于这些实体对象在知识库中都存在，并且每个实体对象有着不同的特征标识，利用这些不同的特征标识，可以将搜索结果中返回的网页文档细分到各个不同的类别以及同一类别的不同实体对象中，这样用户根据实体对象对各网页文档进行索引，大大提高了寻找目标信息的效率。

按照本实施例中的上述步骤，则用户输入查询词“笑傲江湖”时，在搜索结果页面右侧，分别显示出从知识库中获得的“笑傲江湖”的游戏、“笑傲江湖”小说、“笑傲江湖霍建华版”的电视剧、“笑傲江湖央视版”的电视剧、“笑傲江湖任贤齐版”的电视剧等实体对象，同时从网页库中获得的各网页文档中分别根据“霍建华”、“央视”、“任贤齐”等关键词形成的标签对各网页文档进行标记，这些结果条目分别加载这些实体对象的标记所对应的标签，从而形成“笑傲江湖霍建华版”、“笑傲江湖央视版”、“笑傲江湖任贤齐版”等实体对象对应的目标页面。当用户在页面右侧的知识库对应的结果中触发特定实体对象时，根据被触发的特定实体对象的标签，在网页库对应的搜索结果中只加载被触发的特定实体对象所对应的结果条目，从而形成被触发的特定实体对象的目标页面。即用户在知识库对应的右侧的各实体对象中选中实体对象“笑傲江湖霍建华版”的图标，调用“笑傲江湖霍建华版”实体对象的标记对各网页文档进行筛选，网页库对应的左侧的搜索结果中仅得到并显示“笑傲江湖霍建华版”的电视剧相关的网页文档，得到实体对象“笑傲江湖霍建华版”对应的目标页面。将这些目标页面优先展示，使得用户根据查询词对获得的各网页文档进行筛选时更为准确快速。

在其他实施例中，可对实体对象进行多选的方式对各网页文档进行筛选时，可根据逻辑运算中“或“或者”与“的思想利用各网页文档中的实体对象对应的标记分别对各网页文档进行筛选。当在页面右侧的知识库对应的结果中被触发了两个或两个以上的特定实体对象时，分别调用各实体对象对应的标签，在网页库对应的搜索结果中加载均含有被触发的特定实体对象的标签对应的网页文档，或者，在网页库对应的搜索结果中加载含有被触发的任意一个特定实体对象的标签对应的网页文档，从而形成被触发的两个或两个以上特定实体对象的目标页面。即用户在知识库对应的右侧的各实体对象中分别选中“笑傲江湖霍建华版”、“笑傲江湖任贤齐版”两实体对象的图标，分别调用“笑傲江湖霍建华版”、“笑傲江湖任贤齐版”两实体对象的标记对各网页文档进行筛选，网页库对应的页面左侧的搜索结果中仅得到并显示同时出现“笑傲江湖霍建华版”和“笑傲江湖任贤齐版”的电视剧相关的网页文档，为将两部电视剧进行对比的网页文档。

或者，分别调用“笑傲江湖霍建华版”、“笑傲江湖任贤齐版”中任一实体对象的标记对各网页文档进行筛选，网页库对应的页面左侧的搜索结果中仅得到并显示“笑傲江湖霍建华版”或“笑傲江湖任贤齐版”的电视剧相关的网页文档；其他的实体对象对应的目标页面将被筛选掉，如电视剧“笑傲江湖央视版”的目标页面将不显示在网页库对应的搜索结果中。从而通过对各实体对象进行多选的方式筛选得到“笑傲江湖霍建华版”和/或“笑傲江湖任贤齐版”对应的目标页面。将这些目标页面优先展示，使得用户根据查询词对获得的各网页文档进行筛选时更为准确快速。

本实施例中，首先用户在搜索引擎搜索框中输入查询词，查询词会首先进行纠错、分词以及语义理解等预处理步骤，将预处理完毕的查询词分别去知识库和网页库中进行查询。在知识库中找出查询词相关的所有实体对象以及实体对象的属性信息，在网页库中将所有能匹配上查询词的网页文档返回。返回上述信息之后，将实体对象和网页文档利用向量计算模型，如bag of words模型进行向量化。再利用向量的相似度匹配算法计算各网页文档和各实体对象之间的相似度，选取相似度最高的实体对象为对应的每个网页的进行标记，最后将所有的网页文档按照各实体对象对应的标签展现给用户，用户可以按照知识库中各实体对象对应的标签对网页库中的网页文档进行浏览和过滤。

通过本实施例，将用户的多样性需求自然地分开，利用知识库中的实体对象，将用户不同的关注点利用不同的实体对象进行细分，并且利用知识库中实体对象的属性信息，在用户的浏览时对得到的各网页文档进行筛选。本实施例基于知识库中的实体对象对各网页文档进行动态的分类标签则很好地利用了查询本身和知识库的信息，根据知识库中的实体对象对网页文档进行更细致的行业细分，从而帮助用户进行筛选；知识库的结构化信息更有利于用户阅读网页，因为网页的信息一般都是无结构的，将降低用户的阅读效率，而利用了知识库的信息之后，可以方便理解和消费用户所查询的内容，加快了信息搜索的效率。

实施例三

参照图3，示出了根据本发明实施例三的一种搜索结果筛选装置的结构框图。

本实施例的搜索结果筛选装置包括：查询模块302，用于分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象；其中，网页库中存储有全网中的网页文档，知识库中存储有全网中的实体对象，所述实体对象包括实体名和实体类别信息；匹配模块304，用于将各实体对象与各网页文档分别进行关联匹配；确定模块306，用于根据每个实体对象在各网页文档中关联匹配的对应匹配度，将匹配度满足设定匹配规则的各网页文档分别进行标记，标记为实体对象对应的目标页面；分类模块308，用于根据目标页面对应的实体对象的标记，对各网页文档进行筛选，得到每个实体对象对应的目标页面。

优选地，匹配模块304包括：生成模块3042，用于对获得的各网页文档和各实体对象进行向量分析，分别生成查询词对应的网页库向量和知识库向量；相似度匹配模块3044，用于根据网页库向量和知识库向量对各网页文档与各实体信息进行相似度匹配。

优选地，生成模块3042，用于对获得的各网页文档和各实体对象对应的文本进行分词处理，获得分词处理后得到的分词集合；分别获取分词集合中，每一个分词在网页文档和实体对象中对应的词频信息和权重信息；分析每一个分词的词频信息和权重信息，分别生成查询词对应的网页库向量和知识库向量。

优选地，生成模块3042在得到分词集合时，对各网页文档和各实体对象对应的文本分别进行分词处理，得到对应的网页分词集合和实体分词集合；获取在网页分词集合和实体分词集合中，均存在的分词作为最终的分词集合。

优选地，相似度匹配模块3044，用于根据网页库向量和知识库向量的向量内积，对各个网页文档和各个实体对象分别进行相似度匹配。

优选地，确定模块306，用于以各实体对象为单位，判断各个实体对象与各网页文档之间的相似度匹配结果是否满足设定阈值；若是，则将满足设定阈值的相似度匹配结果对应的各网页文档分别标记为对应实体对象的目标页面。

优选地，本实施例的搜索结果筛选装置还包括：预处理模块310，用于在查询模块302分别将查询词在网页库中和知识库中进行查询之前，对查询词进行第一预处理，生成包括关键词的查询字符串，以根据查询字符串在网页库中进行查询；以及，对查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性信息的SQL语句，以根据SQL语句在知识库中进行查询。

优选地，预处理模块310在对查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性的SQL语句，以根据SQL语句在知识库中进行查询时，对查询词进行分词，识别得到的分词中的实体名和/或实体属性；对识别得到的实体名和/或实体属性进行语义分析，根据语义分析的结果确定文法结构后进行查询语句转换，从而生成查询词对应的包括实体对象的实体名和/或实体属性信息的SQL语句，在知识库中进行查询。

优选地，分类模块308在根据目标页面对应的实体对象的标记，对各网页文档进行筛选时，获取被用户选中的实体对象的对应标记，将带有标记的目标页面进行优先展示。

本实施例的搜索结果筛选装置用于实现前述多个方法实施例中相应的搜索结果筛选方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例四

参照图4，示出了根据本发明实施例四的一种搜索结果筛选系统的架构示意图。

本实施例的搜索结果筛选系统包括：查询理解模块402、网页检索模块404、知识库检索模块406、网页分类模块408和页面展示模块410。其中，查询理解模块402相当于实施例三中的预处理模块；网页检索模块404和知识库检索模块406联合实现实施例三中的查询模块的功能，其中，网页检索模块404主要用于进行网页库查询获得相对应的网页文档，知识库检索模块406主要用于进行知识库查询获得相对应的实体对象；网页分类模块408用于实现实施例三中的匹配模块、确定模块和分类模块的功能。

以下，对本实施例的搜索结果筛选系统中的各部分分别进行说明。

1、查询理解模块402

查询理解模块402包含两个部分，即，查询网页库的部分和查询知识库的部分。其中，查询网页库的部分，需要将查询词进行纠错、分词、去词等操作之后，生成包含关键词的字符串，传递给网页检索模块404；而查询知识库的部分，对查询词进行纠错、去掉停用词、分词之后，需要进一步对查询词进行实体名识别、实体属性词识别，文法分析，查询语句转换等操作，生成包含实体名和/或实体属性词的SQL语句。

其中，

纠错、去词、分词等操作是指将用户输入的查询词中输入错误的词进行纠正，无用的词进行删除（例如语气词、标点符号等），然后对查询词进行切分。

对于实体名识别，可以通过预先制作的知识库实体列表，将查询词中的实体名部分标示出来，这些实体名可能包含各个领域里的实体，例如，电影、电视剧、人物、机构、地点等。

对于实体属性词识别，同样可以通过知识库里的知识体系，将用户查询词中的实体属性词也进行标示，例如，年龄、身高是人的属性词，导演、演员等是电影、电视剧的属性词。

对于文法分析，可以将查询词标签化之后，需要对查询的语义进行分析，利用预先半自动建立的CFG（上下文无关）文法，对查询词进行进一步的理解，弄清楚查询的主谓宾结构。

对于查询语句转换，可以将文法分析的结果表示成机器查询语言（如SQL语言或类SQL语言），以对知识库进行查询。

2、网页检索模块404

网页检索模块404是在拿到查询理解模块402进行分词处理过的查询字符串之后，将各个不同的查询字在网页倒排库中进行检索，然后将各个查询字对应的网页文档列表进行求交集的操作，得到候选集合。之后，按照一定的排序方法将候选集进行筛选排序之后返回。

3、知识库检索模块406

知识库检索模块406是在获得查询理解模块402输出的SQL语句之后，解析SQL语句，优化查询逻辑，按照SQL指定的操作从知识库中将查询中需要获得的实体对象包括实体名和实体属性信息取出来返回。

4、网页分类模块408

网页分类模块408是在获得了知识库返回的实体对象以及网页库返回的网页集合之后，对返回的实体对象以及网页集合进行分词，使用bag of words模型提取关键词以及关键词对应的词频将实体对象和网页集合进行向量化。之后，利用文档的相似度计算方法，计算出每个网页和每个实体的相似度，选取和该网页相似度最高的实体作为该网页的候选类别。如果这个相似度的值高于某个阈值并且远高于和其他实体类别的相似度，则将当前网页划分到这个实体类别中，如果不满足这个要求，则不盲目的进行分类，划分到其它类别中。

5、页面展示模块410

在网页分类模块408对网页进行好分类之后，页面展示模块410将描述相同实体的网页归集到一起，并以知识库中的实体名作为这个类别集合的标签。并且，最后的结果按照知识库中实体的重要程度在不同的标签先进行展现。这样，用户能够直接通过实体标签快速定位到自己感兴趣的部分，而忽略不是自己真正关心的实体部分。

比如，用户在输入查询词“苹果”时，这是一个多意图的查询，用户有可能是想了解苹果公司的最新产品和动态，也有可能是想观看电影《苹果》，还有可能是想了解一些苹果的种植技术或者市场销售价格。现有技术的搜索结果会把所有的可能性混杂在一起进行返回，并且可能由于最新的热点是苹果公司的新电子产品，其他电影和水果相关的网页都不会展现给用户。这样就使得用户无从获得自己想要的结果。

在本实施例的搜索结果筛选系统下，当用户输入“苹果”时，查询理解模块402会先对“苹果”进行预处理；然后，在使用网页检索模块404查询网页库结果的同时，会通过知识库检索模块406请求知识库，此时知识库会返回和“苹果”相关的三个不同类别的实体对象：

A:{NAME=苹果，TYPE=公司，成立时间=…，主要产品=…}

B:{NAME=苹果，TYPE=电影，导演=…，主演=…，上映时间=…}

C:{NAME=苹果，TYPE=水果，产地=…，形状=…，颜色=…}

上述信息中，NAME字段表示实体名，其它字段表示实体属性，其中，TYPE字段表示实体类别。

网页分类模块408在获得上述信息之后，将网页和实体分词都表示成分词的向量的形式。

如，对于所有的分词的集合T={t1，t2，…，tm}，实体对象和网页文档用TFIDF模型可以表示成一个M维的向量，每一个实体Ej（知识库向量）和Pk（网页库向量）可以表示成如下形式：

Ej（tf1*idf1，tf2*idf2，…，tfm*idfm），其中，tf1表示分词t1在知识库的所有实体对象中出现的词频，idf1表示t1在知识库的所有实体对象中的权重；tf2*idf2，…，tfm*idfm依次类推。

Pk（tf1*idf1，tf2*idf2，…，tfm*idfm），其中，tf1表示分词t1在网页库的Pk网页文档中的词频，idf1表示t1在网页库的所有网页文档中的权重；tf2*idf2，…，tfm*idfm依次类推。

当然这些向量都是稀疏的向量，之后可以用向量内积计算各个网页文档和实体对象之间的相似度，一种相似度计算的方法为：

其中，Sim(E_i,P_k)表示实体E_i和网页P_k的相似度，该相似度通过向量内积获得，其中，实体和网页都表示为m个词的m维向量，向量内积为对应维度上的值相乘再求和。

网页分类模块408计算出相似度之后，选择跟网页相似度最高的实体及其类别作为该网页的分类标签，将该网页归类到这个类别的网页集合中。最后，页面展示模块410在将网页展现给用户的时候，按照不同的实体分类标签进行展现，用户就可以根据自己的兴趣点来寻找自己感兴趣的内容，而不受不相关内容的打扰。

通过实施例，将用户的多样性需求自然地分开，利用知识库中的实体对象，将用户不同的关注点利用不同的实体自然地分开，并且利用知识库中实体对象的信息，能够给用户的浏览时进行筛选，而不用用户自己去识别网页内容是不是自己需要的；网页的分类更符合用户的直观理解，现有的网页分类体系多半是利用网页的url和内容，站点等信息分为一些固定的内容，例如娱乐，体育，新闻，问答等等，但是这个分类是页面的分类，而不是真正的页面内容的分类，并且和用户的查询是没有关系的，因此对用户的帮助有限。而本实施例这种动态的分类标签则很好地利用了查询本身和知识库的信息，根据知识库中的实体对网页进行更细致的分类，从而帮助用户进行筛选；知识库的结构化信息更有利于用户阅读网页，因为网页的信息一般都是无结构的，用户理解起来会相对困难，而利用了知识库的信息之后，可以方便理解和消费用户所查询的东西。

本实施例通过引入知识库的信息处理网页搜索结果，分别将预处理过的查询词输入到结构化的知识库和网页库中，用知识库中返回的实体对象，包括实体名和实体对应的各属性信息，分别匹配网页库中各目标网页的网页内容，根据匹配度也即相似度，分别对各目标网页进行标记，形成目标网页的标签，从而利用知识库中的各实体对搜索结果条目进行分类和筛选。利用知识库里的实体名及实体属性信息作为网页文档分类的参照，为网页分类提供了动态的查询相关的标签；利用知识库中的实体对象能够在提供用户结构化信息的同时，对用户的需求理解的更为准确，类别划分更为细致；并且，在后续过程中，可以将最终搜索结果按照不同的实体进行分类展现，给用户浏览过滤信息提供了更大的便利。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置和系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种搜索结果筛选方法与装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种搜索结果筛选方法，其特征在于，包括：

分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象；其中，所述网页库中存储全网中的网页文档，所述知识库中存储全网中的实体对象；

将各所述实体对象与各所述网页文档分别进行关联匹配；

根据每个实体对象在各所述网页文档中关联匹配的对应匹配度，将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记，标记为所述实体对象对应的目标页面；

根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选，得到每个所述实体对象对应的所述目标页面；

在所述分别将查询词在网页库中和知识库中进行查询的步骤之前，还包括：

对所述查询词进行第一预处理，生成包括关键词的查询字符串，以根据所述查询字符串在所述网页库中进行查询；

以及，

对所述查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性的SQL语句，以根据所述SQL语句在所述知识库中进行查询。

2.根据权利要求1所述的方法，其特征在于，所述将各所述实体对象与各所述网页文档分别进行关联匹配的步骤包括：

对获得的各所述网页文档和各所述实体对象进行向量分析，分别生成所述查询词对应的网页库向量和知识库向量；

根据所述网页库向量和所述知识库向量，对各所述网页文档与各实体对象进行相似度匹配。

3.根据权利要求2所述的方法，其特征在于，所述对获得的各所述网页文档和各所述实体对象进行向量分析，分别生成所述查询词对应的网页库向量和知识库向量的步骤包括：

对各所述网页文档和各所述实体对象对应的文本分别进行分词处理，得到分词集合；

分别获取所述分词集合中，每个分词在所述网页文档和所述实体对象对应的文本中的词频信息和权重信息；

分析所述每个分词的词频信息和权重信息，分别生成所述查询词对应的网页库向量和知识库向量。

4.根据权利要求3所述的方法，其特征在于，所述对各所述网页文档和各所述实体对象对应的文本分别进行分词处理，得到分词集合的步骤包括：

对各所述网页文档和各所述实体对象对应的文本分别进行分词处理，得到对应的网页分词集合和实体分词集合；

获取在所述网页分词集合和所述实体分词集合中均存在的分词作为最终的所述分词集合。

5.根据权利要求2所述的方法，其特征在于，所述根据所述网页库向量和所述知识库向量对各所述网页文档与各实体信息进行相似度匹配的步骤包括：

根据所述网页库向量和所述知识库向量的向量内积，对各所述网页文档和各所述实体对象分别进行相似度匹配。

6.根据权利要求1所述的方法，其特征在于，在将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记时，

以各所述实体对象为单位，判断每个实体对象与各所述网页文档之间的相似度匹配结果是否满足设定阈值；

若是，则将满足所述设定阈值的相似度匹配结果对应的各所述网页文档分别标记为对应所述实体对象的目标页面。

7.根据权利要求1所述的方法，其特征在于，在对所述查询词进行第二预处理时，对所述查询词进行分词，对得到的实体名和/或实体属性进行语义分析，根据语义分析的结果确定文法结构后进行查询语句转换，从而生成查询词对应的SQL语句。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选时，获取被用户选中的所述实体对象的对应标记，将带有所述标记的目标页面进行优先展示。

9.一种搜索结果筛选装置，其特征在于，包括：

查询模块，用于分别将查询词在网页库中和知识库中进行查询，获得相对应的网页文档和实体对象；其中，所述网页库中存储全网中的网页文档，所述知识库中存储全网中的实体对象；

匹配模块，用于将各所述实体对象与各所述网页文档分别进行关联匹配；

确定模块，用于根据每个实体对象在各所述网页文档中关联匹配的对应匹配度，将所述匹配度满足设定匹配规则的各所述网页文档分别进行标记，标记为所述实体对象对应的目标页面；

分类模块，用于根据所述目标页面对应的所述实体对象的标记，对各所述网页文档进行筛选，得到每个所述实体对象对应的所述目标页面；

预处理模块，用于对所述查询词进行第一预处理，生成包括关键词的查询字符串，以根据所述查询字符串在所述网页库中进行查询；以及，对所述查询词进行第二预处理，生成查询词对应的包括实体对象的实体名和/或实体属性的SQL语句，以根据所述SQL语句在所述知识库中进行查询。

10.根据权利要求9所述的装置，其特征在于，所述匹配模块包括：

生成模块，用于对获得的各所述网页文档和各所述实体对象进行向量分析，分别生成所述查询词对应的网页库向量和知识库向量；

相似度匹配模块，用于根据所述网页库向量和所述知识库向量对各所述网页文档与各实体信息进行相似度匹配。

11.根据权利要求9所述的装置，其特征在于，所述确定模块，用于以各所述实体对象为单位，判断每个实体对象与各所述网页文档之间的相似度匹配结果是否满足设定阈值；若是，则将满足所述设定阈值的相似度匹配结果对应的各所述网页文档分别标记为对应所述实体对象的目标页面。

12.根据权利要求9所述的装置，其特征在于，所述分类模块，获取被用户选中的所述实体对象的对应标记，将带有所述标记的目标页面进行优先展示。