CN108388556A

CN108388556A - 同类实体的挖掘方法及系统

Info

Publication number: CN108388556A
Application number: CN201810106851.2A
Authority: CN
Inventors: 罗杰
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-10
Anticipated expiration: 2038-02-02
Also published as: CN108388556B

Abstract

本发明公开了一种同类实体的挖掘方法及系统，通过获取示例实体对应的文本描述信息；对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体；解决了现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题，提高了利用同类实体挖掘方法所确定出的同类实体的准确率。

Description

同类实体的挖掘方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种同类实体的挖掘方法及系统。

背景技术

随着互联网技术的不断发展，搜索引擎已经成为人们获取各种信息的主要工具，用户输入搜索请求后，搜索引擎向用户返回与该搜索请求相对应的搜索结果。为了更加方便用户提高资源利用率，获取更多信息，往往在用户输入搜索请求后，希望搜索引擎能够返回搜索结果的同时、返回与该搜索结果同类型的其他内容，通常特指与搜索结果中所包含的实体同类别的其他实体，上述搜索过程也称同类实体挖掘。

通常情况下，实体可以是现实中的一个事物，也可以是一个概念，或者是用户定义的其他内容；比如一个人名、一部电影名称等都可以是实体，再比如一个术语也是一个实体。

同类实体挖掘指的是给定一个实体，挖掘与给定实体同类别的其他的实体，现有的同类别实体挖掘方法确定出的同类实体的准确率低。

发明内容

本发明提供一种同类实体的挖掘方法及系统，用以解决现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题。

本发明提供了一种同类实体的挖掘方法，所述同类实体的挖掘方法包括：

获取示例实体对应的文本描述信息；

对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；

计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；

利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体。

优选地，所述文本描述信息包括：

百科词条对应的标题、属性、标签以及文本。

优选地，所述对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息，包括：

对获取的所述文本描述信息进行去重处理，并将去重后得到的所述文本描述信息进行切词处理，得到切词后的单独的词；

从得到的单独的词中，识别出其中描述确切对象的词语，将识别出的词语作为所述文本描述信息对应的特征信息。

优选地，所述计算抽取出的所述特征信息中各个特征所分别对应的权重，包括：

按照抽取出的所述特征信息中各个特征出现的次数，以及各个特征的重要程度，计算各个特征所对应的权重，得到每个特征所分别对应的特征值。

优选地，所述利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体，包括：

利用得到的所述判定公式，计算其他实体对应的描述文本的关联度值；

根据需求，获取关联度值大于预设阈值的实体、作为与所述示例实体同类别的实体；或者：

按照关联度值的大小，由先至后对其他实体进行排序，得到由其他实体对应组成的实体序列；

获取排列在所述实体序列中的前N个实体、作为与所述示例实体同类别的实体；其中，所述N为大于1的整数。

对应于以上实施例所提供的一种同类实体的挖掘方法，本发明还提供了一种同类实体的挖掘系统，所述同类实体的挖掘系统包括：

信息获取模块，用于获取示例实体对应的文本描述信息；

信息抽取模块，用于对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；

权重计算模块，用于计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；

实体判定模块，用于利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体。

优选地，所述文本描述信息包括：

百科词条对应的标题、属性、标签以及文本。

优选地，所述信息抽取模块用于：

优选地，所述权重计算模块用于：

优选地，所述实体判定模块用于：

本发明一种同类实体的挖掘方法及系统可以达到如下有益效果：

通过获取示例实体对应的文本描述信息；对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体；解决了现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题，提高了利用同类实体挖掘方法所确定出的同类实体的准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明同类实体的挖掘方法的一种实施方式的流程示意图；

图2是本发明同类实体的挖掘系统的一种实施方式的功能模块示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种同类实体的挖掘方法及系统，用以解决现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题，提高利用同类实体挖掘方法所确定出的同类实体的准确率。

如图1所示，图1是本发明一种同类实体的挖掘方法的实施方式的流程示意图；本发明一种同类实体的挖掘方法可以实施为如下描述的步骤S10-S40：

步骤S10、获取示例实体对应的文本描述信息；

本发明实施例中，示例实体包括但不限于：人名、地名、机构名、书名、歌曲名、影视剧名、产品名、品牌名等专有名词；也可以是在某一特定领域内使用的专业术语，例如医疗领域、金融领域等涉及的专用名字。

同类实体的挖掘系统(以下简称“挖掘系统”)获取示例实体对应的文本描述信息，可以通过如下方式获取：利用对应的搜索引擎例如百科网站进行挖掘，获取百科网站中该示例实体对应的所有词条，将获取的词条内容作为该示例实体对应的文本描述信息，并进行保存。上述百科网站包括但不限于：维基百科、百度百科、360百科等百科网站数据。

在本发明一优选的实施例中，挖掘系统获取的上述文本描述信息包括但不限于：百科词条对应的标题、属性、标签以及文本。

步骤S20、对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；

挖掘系统对获取的上述文本描述信息进行归纳总结，例如，以属性进行分类，然后以标题为重点进行归纳总结，或者以标签为重点进行归纳总结，或者以摘要为重点进行归纳总结，进而抽取出上述文本描述信息对应的特征信息。上述特征信息可以是：该文本描述信息对应的关键词、属性、标签、标题、摘要等。

在本发明一优选的实施例中，挖掘系统通过如下方式对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息：

对获取的上述文本描述信息进行分析，根据分析结果进行去重处理，删掉重复的文本描述信息；比如，删掉内容完全一致的词条。针对去重后得到的文本描述信息，挖掘系统进行去噪、文字区域提取等预处理，提取出对应的关键词、标签、属性、标题等，再对提取出的上述内容进行切词处理，得到切词后的单独的词。在对应的切词过程中，还包括将特殊分隔符(例如，书名号、双引号等)，作为切分标识进行切词。本发明实施例中所描述的切词处理主要针对的是汉字，即进行中文切词处理；也可以理解为：中文分词，指的是将一个汉字序列切分成一个一个单独的词，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在机器词典中找到某个字符串，则匹配成功，也就是说识别出一个词。

针对从切词后得到的单独的词中，挖掘系统识别出其中描述确切对象的词语，将识别出的词语作为所述文本描述信息对应的特征信息。

步骤S30、计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；

挖掘系统针对抽取出的上述特征信息中的各个特征进行权重的计算时，可以根据具体的应用场景来选取对应的计算方式，本发明实施例对上述各个特征分别对应的权重的具体计算过程和得到的具体类别实体判定公式不作限定。

例如，在一具体的应用场景中，挖掘系统可以根据每个特征的重要程度和每个特征在上述特征信息中出现次数，或者用户设置的计算规则，选取对应的具体计算方法，计算各个特征分别对应的权重，从而得到每个特征的特征值。挖掘系统根据每个特征分别对应的特征值，生成对应的类别实体判定公式。

在一具体的应用场景中，类别实体判定公式为：

其中，r_xy表示实体x和实体y为同一类别实体的关联度值，n为x和y的特征的数量(当特征相同时只计1次)，i为第i个特征，q_i为第i个特征对应的权重，x_i和y_i分别为第i个特征对应的特征的值，当对应的某个特征不存在时，该对应的特征的值为0，r₀为预设的阈值。当r_xy≥r₀时，认为实体x和实体y为同一类别实体。该类别实体判定公式利用特征的值均不小于0的特点，利用减法取代乘法，可以明显减少计算量，从而更适用于这种计算量大的应用场合。

步骤S40、利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体。

挖掘系统利用得到的上述判定公式，判断其他实体对应的描述文本是否与该示例实体是同一类别的实体，并基于判断结果，找出与该示例实体类别相同的实体。

在本发明一优选的实施例中，挖掘系统在进行判断时，先对待判断的其他实体对应的描述文本进行预处理，提取出待判断实体的特征信息；进而将待判断实体的特征信息代入上述判定公式，根据计算结果，确定该待判断实体是否与示例实体属于同一类别。

在本发明一优选的实施例中，挖掘系统利用得到的所述判定公式，计算其他实体对应的描述文本的关联度值；根据实际应用场景的具体需求，找出关联度值大于预设阈值的实体，并将上述关联度值大于预设阈值的实体作为与所述示例实体同类别的实体；

或者，挖掘系统根据计算得到的其他实体对应的描述文本的关联度值，按照关联度值的大小，由先至后对其他实体进行排序，得到由其他实体对应组成的实体序列；根据实际应用场景的具体需求，获取排列在所述实体序列中的前N个实体，并将上述位置排列在实体序列前N的N个实体，均作为与所述示例实体同类别的实体；其中，所述N为大于1的整数。

利用图1所描述的一种同类实体的挖掘方法，挖掘系统可以全自动智能地把网络中存在的与示例实体相关的所有同类文本均搜索到，节约资源的同时，提高了同类实体挖掘的准确率。在一具体的应用场景中，例如，示例实体为“张学友”，则利用图1所提供的同类实体的挖掘方法，挖掘系统可以将该挖掘系统有权访问的全网络中存在的所有与“张学友”有关的描述文本，都找出来。

挖掘系统利用图1所提供的同类实体的挖掘方法，在检索新出现的词语时，其有益效果将更为显著；例如，百度词条中每天都会出现好多个新词或者新的网络用语或者新的热点，因其互联网传播的快速性和时效性，利用图1所提供的同类实体的挖掘方法，将上述新的网络用语或者新的热点作为示例实体，挖掘系统即可自动将上述新的网络用语或者新的热点这一示例实体对应的同类信息，均检索出来。对用户侧来讲，这种同类实体的挖掘方法节约了用户的搜索时间，提高了用户体验。

本发明一种同类实体的挖掘方法通过获取示例实体对应的文本描述信息；对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体；解决了现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题，提高了利用同类实体挖掘方法所确定出的同类实体的准确率。

基于图1所述实施例所提供的一种同类实体的挖掘方法，本发明还提供了一种同类实体的挖掘系统；如图2所示，本发明一种同类实体的挖掘系统包括：信息获取模块100、信息抽取模块200、权重计算模块300以及实体判定模块400；其中：

信息获取模块100，用于获取示例实体对应的文本描述信息；

信息抽取模块200，用于对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；

权重计算模块300，用于计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；

实体判定模块400，用于利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体。

在本发明一优选的实施例中，所述文本描述信息包括：

百科词条对应的标题、属性、标签以及文本。

在本发明一优选的实施例中，所述信息抽取模块200用于：

从得到的单独的词中，识别出其中描述确切对象的词语，如通过查询字典的方式找到其中的形容词、名词等作为描述确切对象的词语，或通过选择词的词频-逆文本频率指数大于一定值的词语来作为描述确切对象的词语，将识别出的词语作为所述文本描述信息对应的特征信息。

在本发明一优选的实施例中，所述权重计算模块300用于：

按照抽取出的所述特征信息中各个特征出现的次数，以及各个特征的重要程度，计算各个特征所对应的权重，得到每个特征所分别对应的特征值，各个特征的重要程度可由预先设定的各类特征的权重确定，或由特征中的词的词频-逆文本频率指数的大小来确定。计算各个特征所对应的权重可由以下公式计算得到：

其中，q_i为第i个特征所对应的权重，k_i为第i个特征所出现的次数，TFIDF_i为第i个特征中的词的词频-逆文本频率指数，m为特征的数量。

在本发明一优选的实施例中，所述实体判定模块400用于：

本发明一种同类实体的挖掘系统通过获取示例实体对应的文本描述信息；对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息；计算抽取出的所述特征信息中各个特征所分别对应的权重，得到对应的类别实体判定公式；利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体；解决了现有的同类别实体挖掘方法确定出的同类实体的准确率低的问题，提高了利用同类实体挖掘方法所确定出的同类实体的准确率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种同类实体的挖掘方法，其特征在于，所述同类实体的挖掘方法包括：

获取示例实体对应的文本描述信息；

2.如权利要求1所述的同类实体的挖掘方法，其特征在于，所述文本描述信息包括：

百科词条对应的标题、属性、标签以及文本。

3.如权利要求1或2所述的同类实体的挖掘方法，其特征在于，所述对获取的所述文本描述信息进行归纳总结，抽取出所述文本描述信息对应的特征信息，包括：

4.如权利要求1或2所述的同类实体的挖掘方法，其特征在于，所述计算抽取出的所述特征信息中各个特征所分别对应的权重，包括：

5.如权利要求1或2所述的同类实体的挖掘方法，其特征在于，所述利用得到的所述判定公式，判定其他实体对应的描述文本，找出与所述示例实体同类别的实体，包括：

6.一种同类实体的挖掘系统，其特征在于，所述同类实体的挖掘系统包括：

信息获取模块，用于获取示例实体对应的文本描述信息；

7.如权利要求6所述的同类实体的挖掘系统，其特征在于，所述文本描述信息包括：

百科词条对应的标题、属性、标签以及文本。

8.如权利要求6或7所述的同类实体的挖掘系统，其特征在于，所述信息抽取模块用于：

9.如权利要求6或7所述的同类实体的挖掘系统，其特征在于，所述权重计算模块用于：

10.如权利要求6或7所述的同类实体的挖掘系统，其特征在于，所述实体判定模块用于：