CN106168947A

CN106168947A - 一种相关实体挖掘方法和系统

Info

Publication number: CN106168947A
Application number: CN201610514910.0A
Authority: CN
Inventors: 王智广
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-11-30

Abstract

本发明涉及一种相关实体挖掘方法和系统。所述方法包括：将百科网站中一个词条作为一个实体，获取所述词条的简介文本；对所述词条简介文本进行分析，查找其中包含的超链接所对应的文字名称，将所述文字名称作为所述实体的候选相关实体。所述方法得到的相关实体与给定实体关系比较紧密，提高了相关实体挖掘的相关性和准确性，可以进一步用于相关实体展现或百科类数据自动补充，降低了用户搜索成本，满足用户的需求。

Description

一种相关实体挖掘方法和系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种相关实体挖掘方法和系统。

背景技术

随着互联网技术的不断发展，搜索引擎已经成为人们获取各种信息的主要工具，用户输入搜索请求后，搜索引擎向用户返回与该搜索请求相对应的搜索结果。为了更加方便用户提高资源利用率，获取更多信息，往往在用户输入搜索请求后，希望搜索引擎能够返回搜索结果的同时返回与该搜索结果相关的其他内容，通常特指搜索结果中所包含的实体相关的其他实体，上述搜索过程也称相关实体挖掘。

在知识图谱领域，实体可以是现实中的一个事物，也可以是一个概念。比如一个人、一部电影等都是实体，再比如一个术语也是一个实体。

相关实体挖掘指的是给定一个实体，挖掘与之相关的其他的实体。比如实体“成龙”，与之相关的有很多实体，例如其作品《警察故事》、《十二生肖》等，子女“房祖名”等等都是与之相关的实体。相关实体应用场景较多，比如相关推荐、兴趣探索等等。相关实体挖掘的方法很多，比如通过用户的搜索日志、利用word2vector等机器学习算法根据上下文语义来计算等。但是，现有相关实体挖掘方法确定出的相关实体的相关性和准确性较差。

发明内容

鉴于上述的分析，本发明旨在提供一种相关实体挖掘方法和系统，用以解决现有相关实体挖掘方法确定出的相关实体的相关性和准确性较差的问题。

本发明的目的主要是通过以下技术方案实现的：

一种相关实体挖掘方法，其特征在于，包括：

将百科网站中一个词条作为一个实体，获取所述词条的简介文本；

对所述词条简介文本进行分析，查找其中包含的超链接所对应的文字名称，将所述文字名称作为所述实体的候选相关实体。

所述方法还包括：

将简介文本中的语句切分为单独的词，识别出其中描述确切对象的词语；将识别出的描述确切对象的词语与实体词典进行比对，将命中实体词典的词语作为候选相关实体。

所述方法还包括：

对候选相关实体进行去重；

将去重后的候选相关实体进行排序。

所述对候选相关实体进行去重，具体包括：

将超链接数据得到的候选相关实体与分词得到的候选相关实体进行去重；

对不同百科网站进行挖掘得到的候选相关实体进行去重。

所述将去重后的候选相关实体进行排序，具体包括：

将去重后的候选相关实体进行排序，根据候选相关实体与所述实体的关联度值进行排序。

所述方法还包括：对候选相关实体进行噪音实体去除。

所述噪音实体去除，具体包括：

对收集所有的超链接数据得到的候选相关实体进行噪音实体去除；

排序过程中，将关联度值较低的候选相关实体作为噪音实体去除。

所述方法还包括：

根据所述实体与排序后的候选相关实体生成相关实体关系存储在数据库中。

一种相关实体展现方法，其特征在于，包括：

接收用户输入的查询语句，提取出所述查询语句中包含的实体名称；

基于百科网站挖掘出的相关实体关系，查询所述实体名称所对应实体的相关实体；

将查询到的相关实体进行展现。

其中，基于百科网站挖掘出相关实体根据上述相关实体挖掘方法实现。

所述将查询到的相关实体进行展现，具体包括：

将上述获得的与用户输入的查询语句中包含的实体名称所对应实体的相关实体，在用户的搜索结果中进行展示。

一种相关实体挖掘系统，其特征在于，包括：

爬取及预处理模块，用于将百科网站中一个词条作为一个实体，获取所述词条的简介文本；

超链接处理模块，用于对所述词条简介文本进行分析，查找其中包含的超链接所对应的文字名称，将所述文字名称作为所述实体的候选相关实体。

所述系统还包括：

分词模块，所述分词模块包括分词子模块、识别子模块、比对子模块；

分词子模块，用于将简介文本中的语句切分为单独的词；

识别子模块，用于识别出所述词中描述确切对象的词语；

比对子模块，用于将识别出的描述确切对象的词语与实体词典进行比对，将命中实体词典的词语作为候选相关实体。

所述系统还包括：

去重模块，用于对候选相关实体进行去重；

排序模块，用于将去重后的候选相关实体进行排序。

所述去重模块将查询到的候选相关实体进行去重，具体包括：

对不同百科网站进行挖掘得到的候选相关实体进行去重。

所述排序模块将去重后的候选相关实体进行排序，具体包括：

所述系统还包括：

去噪模块，用于对候选相关实体进行噪音实体去除。

所述去噪模块进行噪音实体去除，具体包括：

所述系统还包括：

生成模块，用于根据所述实体与排序后的候选相关实体生成相关实体关系存储在数据库中。

一种相关实体展现系统，其特征在于，包括：

实体名称提取模块，用于接收用户输入的查询语句，提取出所述查询语句中包含的实体名称；

相关实体查询模块，用于基于百科网站挖掘出的相关实体关系，查询所述实体名称所对应实体的相关实体；

展现模块，用于将查询到的相关实体进行展现。

其中，基于百科网站挖掘出相关实体根据上述相关实体挖掘系统实现。

所述展现模块将查询到的相关实体进行展现，具体包括：

本发明有益效果如下：

本发明实施例的相关实体挖掘方法和系统，利用百科网站进行挖掘，将百科网站中一个词条作为一个实体，对词条简介进行分析，获取词条简介中的实体作为相关实体并进行保存，用于查询所述实体名称所对应的相关实体。所述相关实体与给定实体关系比较紧密，提高了相关实体挖掘的相关性和准确性，可以进一步用于相关实体展现或百科类数据自动补充，降低了用户搜索成本，满足用户的需求。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明公开的一种相关实体挖掘方法的流程图；

图2为百科网站的词条简介示意图；

图3为本发明公开的一种相关实体展现方法的流程图；

图4为本发明公开的一种相关实体挖掘系统的结构图；

图5为本发明公开的一种相关实体展现系统的结构图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

图1为本发明实施例一提供的一种相关实体挖掘方法的流程图，本实施例可适用于各种搜索引擎，用于引导用户搜索。本实施例的方法可以由相关实体挖掘系统来执行，该系统可以通过软件的方式实现。

本发明实施例中涉及到的实体词特指命名实体词，包括但不限于：人名、地名、机构名、书名、歌名、影视剧名、产品名、品牌名等专有名词。

本实施例的方法具体包括以下操作：

利用百科网站进行挖掘，将百科网站中一个词条作为一个实体，对词条简介进行分析，获取词条简介中的实体作为相关实体并进行保存，用于查询所述实体名称所对应的相关实体。所述百科网站，可以是360百科、维基百科、百度百科等百科网站数据。具体地，包括以下步骤：

110、将百科网站中一个词条作为一个实体，获取所述词条的简介文本；

通过网络爬虫爬取百科网站数据；对爬取到的数据进行去噪、文字区域提取等预处理，提取其词条名称及词条简介；

120、对所述词条简介文本进行分析，查找其中包含的超链接所对应的文字名称，将所述文字名称作为所述实体的候选相关实体；

百科网站的词条简介中记录着大量超链接数据，通常这些超链接数据所链接的实体都是百科类数据所介绍实体型主题词的相关实体词。

例如，针对360百科中“濮存昕”词条的词条简介，如图2所示，搜索所有的超链接数据，得到“北京”、“南京”、“柘塘镇”、“北京人民艺术剧院”、“影视圈”、“来来往往”、“男人底线”、“英雄无悔”、“光荣之旅”、“全国道德模范”等超链接数据作为候选相关实体。

但是，其中“北京”、“南京”、“影视圈”和“濮存昕”的相关度较弱，应该作为噪音实体被去除。在一个优选实施例中，使用PMI和WJC方法对所有链接数据进行排序，然后使用证据融合方法得到综合指标，将“北京”、“南京”、“影视圈”当做噪声实体去除。在一个优选实施例中，也可以在后续步骤中集中进行噪音实体去除。

130、得到超链接数据之后，对词条的简介进行分词处理，搜索其中的实体，作为候选相关实体。

由于在百科网站的词条编辑中不可能对所有实体都添加超链接，因此，可以对词条的简介进行进一步处理，其中的实体，作为候选相关实体。

将简介文本中的语句切分为一个一个单独的词，识别出其中描述确切对象的词语；具体切词过程中，还包括将特殊分隔符，(比如书名号、双引号等)作为切分标识进行切词；由于分词处理技术已是现有成熟的技术，在此不再赘述。

将识别出的描述确切对象的词语与实体词典进行比对，将命中实体词典的词语作为候选相关实体；

在一个优选实施例中，所述实体词典包括通过对百科网站的数据集中提取出的所有实体名称。

例如，进一步针对360百科中“濮存昕”的简介文本进行分词处理，得到“话剧和电影演员”、“话剧演员”、“第三届全国道德模范提名奖”，作为实体“陈启礼”的候选相关实体。

140、对候选相关实体进行去重；包括：

将通过超链接数据得到的候选相关实体与通过分词得到的候选相关实体进行整合与去重；其中，通过超链接数据得到的候选相关实体与通过分词得到的候选相关实体作为整体性的候选相关实体。

例如，整合后，增加了“话剧和电影演员”、“话剧演员”、“第三届全国道德模范提名奖”，同时，对“全国道德模范”进行去重；

对不同百科网站(比如360百科、维基百科、百度百科等)分别进行相关实体挖掘，即上述处理，得到的候选相关实体进行整合与去重，因为不同的百科网站中搜索得到的实体之间可能存在不同，但可能是同一个或同一批，因此需要进行整合去重处理，增加覆盖率，去除重复实体，减少实体的重复率；

例如，

通过对百度百科进行挖掘，得到了“中国戏剧家协会主席”、“北京人民艺术剧院副院长”、“中国表演家协会副会长”、“中国电影家协会副会长”、“第三届全国道德模范提名奖”等候选相关实体，将其与通过对360百科进行挖掘得到的候选相关实体进行整合，得到了最终的相关实体如下：

“柘塘镇”、“北京人民艺术剧院”、“来来往往”、“男人底线”、“英雄无悔”、“光荣之旅”、“中国戏剧家协会主席”、“北京人民艺术剧院副院长”、“中国表演家协会副会长”、“中国电影家协会副会长”、“第三届全国道德模范提名奖”。

150、将去重后的候选相关实体进行排序，具体地，可计算任意一个查询到的候选相关实体与所述实体之间的相关度，根据相关度值进行排序；

160、根据所述实体与排序后的候选相关实体生成相关实体关系存储在数据库中；

在一个优选实施例中，将关联度值较低的候选相关实体作为噪音实体去除。

本发明实施例的相关实体挖掘方法，利用百科网站进行挖掘，将百科网站中一个词条作为一个实体，对词条简介进行分析，获取词条简介中的实体作为相关实体并将相关实体关系进行保存。所述相关实体与给定实体关系比较紧密，提高了相关实体挖掘的相关性和准确性，可以进一步用于相关实体展现或百科类数据自动补充，降低了用户搜索成本，满足用户的需求。

根据本发明的具体实施例二，公开了一种相关实体展现方法，如图3所示其特征在于，包括：

210、接收用户提交的查询语句，提取出所述查询语句中包含的实体名称；

用户向搜索引擎提交查询语句，搜索引擎在接收到用户查询语句后，要对查询语句进行预处理。所述预处理即提取出所述查询语句中包含的实体名称。其中，用户输入的查询语句可以是一个词也可以是一个句子，所述预处理能够识别并提取出用户输入查询语句中所包含的实体名称，具体地，通过分词技术以及特殊分隔符(比如书名号、双引号等)作为切分标识进行分词，且此后命中实体词典(已经存在的实体库构建的词典数据)的词语，作为所述查询语句中包含的实体名称。

220、基于百科网站挖掘出的相关实体关系，查询所述实体名称所对应实体的相关实体；

根据上述操作获得的查询语句中包含的实体名称，基于百科网站挖掘出的相关实体关系，查询所述实体名称所对应实体的相关实体；其中，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，百科网站挖掘出相关实体关系的具体工作过程，参考前述实施例一中的对应过程，在此不再赘述。

230、将上述步骤查询到的相关实体进行展现。

例如，可以将所述相关实体显示在搜索网页的右侧，也可以在搜索结果的左侧或者下方展示推荐的相关实体排序结果，本实施例对展现形式并不做限制。当然，本领域技术人员可以根据实际应用场景的需要，选择其他的展现方式，本实施例对展现方式不做限定。

如果用户对相关实体词“濮存昕”感兴趣，并点击该相关实体词，搜索引擎能够向用户返回该相关实体词作为查询对应的搜索结果，或者实体词“濮存昕”及该用户所点击相关实体词“英雄无悔”构成的查询对应的搜索结果。实际上为用户提供了“横向导航”，从而延伸和扩展用户的搜索兴趣，提高搜索引擎的资源利用率。

本发明实施例的相关实体展现方法，通过接收用户提交的查询语句，提取出所述查询语句中包含的实体名称；基于百科网站挖掘出的相关实体关系，查询所述实体名称所对应所对应实体的相关实体并进行展现。提高了相关实体展现的相关性和准确性，降低了用户搜索成本，满足用户的需求。

图4为本发明实施例三提供的一种相关实体挖掘系统的结构图，本实施例可适用于各种搜索引擎，用于引导用户搜索。所述系统可以通过软件的方式实现。

本实施例所述系统，利用百科网站进行挖掘，将百科网站中一个词条作为一个实体，对词条简介进行分析，获取词条简介中的实体作为相关实体并进行保存，用于查询所述实体名称所对应的相关实体。所述百科网站，可以是360百科、维基百科、百度百科等百科网站数据。具体包括以下模块：

具体地，通过网络爬虫爬取百科网站数据；对爬取到的数据进行去噪、文字区域提取等预处理，提取其词条名称及词条简介文本；

超链接处理模块，用于对所述词条简介文本进行分析，查找其中包含的超链接所对应的文字名称，将所述文字名称作为所述实体的候选相关实体；

例如，针对360百科中“濮存昕”百科页面的词条简介，如图2所示，收集所有的超链接数据，得到“北京”、“南京”、“柘塘镇”、“北京人民艺术剧院”、“影视圈”、“来来往往”、“男人底线”、“英雄无悔”、“光荣之旅”、“全国道德模范”等超链接数据作为候选相关实体。

分词处理模块，用于在得到超链接数据之后，对词条的简介进行分词处理，搜索其中的实体，作为候选相关实体。

由于在百科网站的词条编辑中不可能对所有实体都添加超链接，因此，可以对词条的简介进行进一步处理，搜索相关实体。

所述分词处理模块包括：

分词子模块，用于将简介文本中的语句切分为一个一个单独的词；

识别子模块，用于识别出所述词中描述确切对象的词语；具体切词过程中，还包括将特殊分隔符，(比如书名号、双引号等)作为切分标识进行切词；由于分词处理技术已是现有成熟的技术，在此不再赘述；

比对子模块，用于将识别出的描述确切对象的词语与实体词典进行比对，将命中实体词典的词语作为候选相关实体；

去重模块，用于将候选相关实体进行去重；包括：

例如，

排序模块，用于将去重后的候选相关实体进行排序，具体地，可计算任意一个查询到的候选相关实体与所述实体之间的相关度，根据相关度值进行排序；

生成模块，用于根据所述实体与排序后的候选相关实体生成相关实体关系存储在数据库中；

在一个优选实施例中，还包括去噪模块，用于将关联度值较低的候选相关实体作为噪音实体去除。

本发明实施例的相关实体挖掘系统，利用百科网站进行挖掘，将百科网站中一个词条作为一个实体，对词条简介进行分析，获取词条简介中的实体作为相关实体并将相关实体关系进行保存。所述相关实体与给定实体关系比较紧密，提高了相关实体挖掘的相关性和准确性，可以进一步用于相关实体展现或百科类数据自动补充，降低了用户搜索成本，满足用户的需求。

根据本发明的具体实施例四，公开了一种相关实体展现方法，如图5所示，其特征在于，包括：

实体名称提取模块，用于接收用户提交的查询语句，提取出所述查询语句中包含的实体名称；

根据上述操作获得的查询语句中包含的实体名称，根据预先利用百科网站挖掘出的相关实体关系，查询所述所述实体名称所对应实体的相关实体；其中，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，百科网站挖掘出相关实体关系的具体工作原理参考前述实施例三中的对应系统，在此不再赘述。

相关实体展现模块，用于将查询到的相关实体进行展现。

将查询得到的与用户输入的查询语句中包含的实体名称所对应实体的相关实体，至少部分地在用户的搜索结果中进行展示。

本发明实施例的相关实体展现系统，通过接收用户提交的查询语句，提取出所述查询语句中包含的实体名称；根据预先利用百科网站挖掘出的相关实体关系，查询所述实体名称所对应的相关实体并进行展现。提高了相关实体展现的相关性和准确性，降低了用户搜索成本，满足用户的需求。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种相关实体挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，还包括：

对候选相关实体进行去重；

将去重后的候选相关实体进行排序。

4.根据权利要求1到3任意之一所述的方法，其特征在于，所述对候选相关实体进行去重，具体包括：

对不同百科网站进行挖掘得到的候选相关实体进行去重。

5.根据权利要求1到4任意之一所述的方法，其特征在于，所述将去重后的候选相关实体进行排序，具体包括：

6.根据权利要求1到5任意之一所述的方法，其特征在于，还包括：

对候选相关实体进行噪音实体去除。

7.根据权利要求1到6任意之一所述的方法，其特征在于，所述噪音实体去除，具体包括：

8.根据权利要求1到7任意之一所述的方法，其特征在于，还包括：

9.一种相关实体展现方法，其特征在于，包括：

将查询到的相关实体进行展现。

10.根据权利要求9所述的方法，其特征在于，

基于百科网站挖掘出相关实体根据权利要求1-8所述的相关实体挖掘方法实现。