CN111428035A

CN111428035A - 实体聚类的方法及装置

Info

Publication number: CN111428035A
Application number: CN202010206301.5A
Authority: CN
Inventors: 齐云飞; 付骁弈; 张�杰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-07-17

Abstract

本发明实施例公开了一种实体聚类的方法及装置，其中，该方法包括：根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词；从每个待聚类实体距离最近的K个实体中分别确定每个待聚类实体的相关实体，K为预定的正整数；根据每个待聚类实体及其相关实体为所有待聚类实体标记标识。如此，能够在不确定类个数情况下实现实体聚类。

Description

实体聚类的方法及装置

技术领域

本发明实施例涉及自然语言处理领域，尤指一种实体聚类的方法及装置。

背景技术

信息抽取在自然语言处理中是一个很重要的工作，特别在当今信息爆炸的背景下，显得格外的重要。在抽取的众多实体中，将意义相近的词合并是一个重要课题，该课题被称作实体消歧。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类，一般使用各种聚类算法就可以实现实体消歧。

实体在自然语言处理领域，可以简单理解为名词，例如人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的实体还包括数字、日期、货币、地址等等。一个实体可以有多个意思，例如同一个实体在不同的上下文中所表示的含义是不一样的。对于人来说，可以直观判断出这些实体代表的具体含义，但是对机器来说，就需要借助自然语言处理技术才能识别出每一个实体代表的具体含义，并能够区分不同的实体，进而将类似的实体组成各种类，即实体聚类技术。

但是现有的各种聚类算法中都需要提前确定类个数，例如DBSCAN算法中，类个数需要作为参数预先指定。如此，现有聚类都无法在不确定类个数的情况下完成实体聚类。

发明内容

为此，本发明实施例提供了一种实体聚类的方法，该方法包括：

根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词；

从每个待聚类实体距离最近的K个实体中分别确定每个待聚类实体的相关实体，K为预定的正整数；

根据每个待聚类实体及其相关实体为所有待聚类实体标记标识。

本发明实施例还提供了一种实体聚类的装置，包括：

第一确定单元，用于根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词，K为预定的正整数；

第二确定单元，用于从每个待聚类实体距离最近的K个实体中分别确定每个待聚类实体的相关实体；

标记单元，用于根据每个待聚类实体及其相关实体为所有待聚类实体标记标识。

本发明实施例还提供了一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述实体聚类的方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现上述实体聚类的方法的步骤。

本发明实施例提供的技术方案，能够在不确定类个数情况下实现实体聚类。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明一实施例提供的一种实体聚类的方法的流程示意图；

图2为本发明另一实施例提供的一种实体聚类的方法的流程示意图；

图3为本发明另一实施例提供的一种实体聚类的方法的流程示意图；

图4为本发明一实施例提供的一种实体聚类的装置的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

图1为本发明一实施例提供的一种实体聚类的方法的流程示意图。如图1所示，该方法包括：

步骤101，根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词，K为预定的正整数；

步骤102，从每个待聚类实体距离最近的K个实体中分别确定每个待聚类实体的相关实体；

步骤103，根据每个待聚类实体及其相关实体为所有待聚类实体标记标识。

可选地，所述根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词，包括：

将全部待聚类实体的词向量数据分别在Faiss中建立索引，并根据建立的索引查询每个待聚类实体距离最近的K个实体。

可选地，所述从每个待聚类实体距离最近的K个实体中确定每个待聚类实体的相关实体，包括：

对于每个待聚类实体，分别进行如下操作：遍历该待聚类实体距离最近的K个实体，从中选取距离小于预设距离阈值的实体作为该待聚类实体的相关实体。

根据全部待聚类实体的词向量数据，利用相似度算法分别计算每个待聚类实体的相似度，确定每个待聚类实体相似度最近的K个实体。

对于每个待聚类实体，分别进行如下操作：遍历该待聚类实体相似度最近的K个实体，从中选取相似度大于预设相似度阈值的实体作为该待聚类实体的相关实体。

可选地，所述根据每个待聚类实体及其相关实体为所有待聚类实体标记标识，包括：

遍历所有待聚类实体，为每个遍历到的待聚类实体及其相关实体依次执行如下操作：

如果该待聚类实体及其相关实体均没有类标号，当该待聚类实体为第一个遍历的实体时，赋予该该待聚类实体及其相关实体初始标识，如果该待聚类实体为不是第一个遍历的实体时，则赋予该待聚类实体及其相关实体一个递增的标识；

如果该待聚类实体已经标记了标识，则为该待聚类实体的相关实体标记相同的标识；

如果该待聚类实体没有标记标识但是该待聚类实体的相关实体已经标记了标识，则为该待聚类实体标记相同的标识。

可选地，在根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词之前，该方法还包括：

确定全部待聚类实体各自的词向量数据

图2为本发明另一实施例提供的一种实体聚类的方法的流程示意图。如图2所示，该方法包括：

步骤201，确定全部待聚类实体各自的词向量数据；

其中，所述确定全部待聚类实体各自的词向量数据，包括：

直接利用已经训练好的词向量模型确定待聚类实体的词向量数据；

或者，对所述待聚类实体中的每个实体执行如下操作：

对实体进行分词得到该实体包含的所有字，确定所有字对应的字向量，计算该实体中所有字的字向量的平均向量，将该平均向量作为该实体的词向量。

例如，首先加载已经训练好的词向量模型，然后将待聚类实体输入该词向量模型进行学习得到待聚类实体的词向量数据。该词向量模型可以是现有的任一种词向量模型，例如，word2vec模型、Glove模型等；也可以是技术人员专门训练的任一种词向量模型。

又例如，实体“乔布斯”包括三个字，三个字的字向量分别为:(a1,a2,a3),(bl,b2,b3)(c1,c2,c3),那么,这个实体“乔布斯”的词向量则为((a1+bl+cl)/3,(a2+b2+c2)/3,(a3+b3+c3)/3)。

步骤202，将全部待聚类实体的词向量数据分别在Faiss中建立索引，并根据建立的索引查询每个待聚类实体距离最近的K个实体；

Faiss是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前较为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法，以及用于算法评估和参数调整的支持代码。Faiss还对一些核心算法提供了GPU实现。Faiss本质上是一个向量(矢量)数据库，主要功能就是相似度搜索。Faiss支持两种相似性计算方法：L2距离(即欧式距离)和点乘(归一化的向量点乘即cosine相似度)。

本实施例中，索引的距离公式采用欧式距离，然后对待聚类实体词向量执行强力的L2距离搜索(暴力搜索,brute-force)，查询待聚类实体中每一个实体距离最近的K个实体。K为预定的正整数，K可以通过用户经验决定，例如K大小为平均类成员个数。

步骤203，对于每个待聚类实体，分别进行如下操作：遍历该待聚类实体距离最近的K个实体，从中选取距离小于预设距离阈值的实体作为该待聚类实体的相关实体：

其中，预设距离阈值可以由用户提前设定，其数值可以根据经验、实验等确定。如此，只有待聚类实体与相关实体之间的距离小于用户给定的阈值才可以判断两个实体相关，能够提升聚类效果。

步骤204，根据每个待聚类实体及其相关实体为所有待聚类实体标记标识。

其中，所述根据每个待聚类实体及其相关实体为所有待聚类实体标记标识，包括：

其中，该标识可以为能够递增的任一种标识。可以预先设定一个标识的命名规则，例如，该初始标识为0，依次递增的数值为1，则后续标识依次为1、2、3…。又例如，还可以为非数值标识，比如初始标识为A、第二个为B、第三个为C，依次类推的26个字母，还可以在字母后加上数值，等等。

本实施例中，该标识采用类别号，初始标识为0，依次递增的数值为1。那么遍历的第一个待聚类实体及其相关实体都没有标识，此时为其赋予初始标识为0；后续遍历的待聚类实体及其相关实体，如果该待聚类实体已经标记了标识，则为该待聚类实体的相关实体标记相同的标识；如果该待聚类实体没有标记标识但是该待聚类实体的相关实体已经标记了标识，则为该待聚类实体标记相同的标识；如果该待聚类实体及其相关实体均没有类标号，则为赋予该待聚类实体及其相关实体一个递增的标识，例如为1。依次类推，就可以对全部待聚类实体赋予标识，从而完成聚类。

其中，上述步骤可以由Hadoop、Storm,、Spark、Flink等大数据处理引擎来完成。例如，可以由Hadoop、Storm,、Spark、Flink等大数据处理引擎利用CPU(中央处理器，centralprocessing unit)或者GPU(图形处理器(英语：Graphics Processing Unit)来完成。

本发明实施例提供的技术方案，不需要提前设定类个数，能够在不确定类个数情况下实现实体聚类。进一步地，本实施例中可以将超过预设距离阈值的实体词视为新词，可以通过预设阈值来控制聚类效果，实现新词发现功能。

图3为本发明另一实施例提供的一种实体聚类的方法的流程示意图。如图3所示，该方法包括：

步骤301，确定全部待聚类实体各自的词向量数据；

其中，所述确定全部待聚类实体各自的词向量数据，包括：

或者，对所述待聚类实体中的每个实体执行如下操作：

步骤302，根据全部待聚类实体的词向量数据，利用相似度算法分别计算每个待聚类实体的相似度，确定每个待聚类实体相似度最近的K个实体；

其中，相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离，如果距离小，那么相似度大；如果距离大，那么相似度小。

其中，所述相似度算法可以为现有技术中任一种相似度的计算方法。

本实施例中，距离公式采用余弦相似度，然后确定与待聚类实体相似度最近的K个实体。K为预定的正整数，K可以通过用户经验决定，例如K大小为平均类成员个数。

本实施例中，采用余弦相似度算法来计算每两个实体之间的相似度。例如，实体A的词向量表达为:[1,2,3,4,1],实体B的词向量表达为:[1,2,3,4,3]。余弦相似度S的计算公式为:S＝M/N。其中,M为词向量A与词向量B的点积,N为词向量A与词向量B的向量积。M、N的计算公式分别为

M＝1*1+2*2+3*3+4*4+1*3＝33

最终,得到余弦相似度S＝33/34.77＝0.949。

步骤303，对于每个待聚类实体，分别进行如下操作：遍历该待聚类实体相似度最近的K个实体，从中选取相似度大于预设相似度阈值的实体作为该待聚类实体的相关实体。

其中，预设相似度阈值可以由用户提前设定，其数值可以根据经验、实验等确定。如此，只有待聚类实体与相关实体之间的相似度大于用户给定的阈值才可以判断两个实体相关，能够提升聚类效果。

步骤304，根据每个待聚类实体及其相关实体为所有待聚类实体标记标识。

本实施例中，该标识采用类别号，初始标识为0，依次递增的数值为1。。那么遍历的第一个待聚类实体及其相关实体都没有标识，此时为其赋予初始标识为0；后续遍历的待聚类实体及其相关实体，如果该待聚类实体已经标记了标识，则为该待聚类实体的相关实体标记相同的标识；如果该待聚类实体没有标记标识但是该待聚类实体的相关实体已经标记了标识，则为该待聚类实体标记相同的标识；如果该待聚类实体及其相关实体均没有类标号，则为赋予该待聚类实体及其相关实体一个递增的标识，例如为1。依次类推，就可以对全部待聚类实体赋予标识，从而完成聚类。

本发明实施例提供的技术方案，能够在不确定类个数情况下实现实体聚类。进一步地，本实施例中将小于预设相似度阈值的实体词视为新词，可以通过预设阈值来控制聚类效果，实现新词发现功能。

图4为本发明一实施例提供的一种实体聚类的装置的结构示意图。如图4所示，该装置包括：

可选地，所述第一确定单元，用于将全部待聚类实体的词向量数据分别在Faiss中建立索引，并根据建立的索引查询每个待聚类实体距离最近的K个实体。

可选地，所述第二确定单元，用于对于每个待聚类实体，分别进行如下操作：遍历该待聚类实体距离最近的K个实体，从中选取距离小于预设距离阈值的实体作为该待聚类实体的相关实体。

可选地，所述第一确定单元，用于根据全部待聚类实体的词向量数据，利用相似度算法分别计算每个待聚类实体的相似度，确定每个待聚类实体相似度最近的K个实体。

可选地，所述第二确定单元，用于对于每个待聚类实体，分别进行如下操作：遍历该待聚类实体相似度最近的K个实体，从中选取相似度大于预设相似度阈值的实体作为该待聚类实体的相关实体。

可选地，标记单元，用于遍历所有待聚类实体，为每个遍历到的待聚类实体及其相关实体依次执行如下操作：

可选地，该装置还包括：

第三确定单元，用于确定全部待聚类实体各自的词向量数据。

本发明实施例还提供了一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述实体聚类的方法。

可选地，该电子装置可以设置于Hadoop、Storm,、Spark、Flink等大数据处理引擎。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现上述任一项所述实体聚类的方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种实体聚类的方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词，包括：

3.根据权利要求2所述的方法，其特征在于，所述从每个待聚类实体距离最近的K个实体中确定每个待聚类实体的相关实体，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词，包括：

5.根据权利要求4所述的方法，其特征在于，所述从每个待聚类实体距离最近的K个实体中确定每个待聚类实体的相关实体，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据每个待聚类实体及其相关实体为所有待聚类实体标记标识，包括：

7.根据权利要求1所述的方法，其特征在于，在根据全部待聚类实体的词向量数据，分别确定每个待聚类实体距离最近的K个实体词之前，该方法还包括：

确定全部待聚类实体各自的词向量数据。

8.一种实体聚类的装置，其特征在于，包括：

9.一种电子装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述实体聚类的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如权利要求1至7中任一项所述实体聚类的方法的步骤。