CN113609346A

CN113609346A - 基于企业关联关系的自然人人名消歧方法、设备和介质

Info

Publication number: CN113609346A
Application number: CN202111168325.7A
Authority: CN
Inventors: 钟晓超; 孙勤; 李晓伟
Original assignee: Qichacha Technology Co ltd
Current assignee: Qichacha Technology Co ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2021-11-05
Anticipated expiration: 2041-10-08
Also published as: CN113609346B

Abstract

本发明揭示了一种基于企业关联关系的自然人人名消歧方法、设备和介质，所述方法包括：获取基础训练数据，以企业和人员作为两种节点类型，构建企业‑人员的基础异构图；按照预设拆分规则，将所述基础异构图中具有多条边的部分人员节点进行拆分，得到衍生图；根据所述衍生图，对预设的异构图神经网络模型进行训练，得到节点向量表示模型；将待合并人员作为人员节点加入所述基础异构图，并根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并。与现有技术相比，本发明的方法，通过企业关联关系将企业数据图形化，然后通过训练好的图神经网络模型对同名节点进行消岐处理，大大提升消岐结果的准确率。

Description

基于企业关联关系的自然人人名消歧方法、设备和介质

技术领域

本发明涉及计算机领域，特别涉及一种基于企业关联关系的自然人人名消歧方法、设备和介质。

背景技术

企业关联关系主要包括企业的投资控股关联关系、法人关联关系、董监高等任职关联关系等。上述关联关系的数据源为工商注册信息。在工商注册信息中，考虑到隐私保护等因素，公开信息中涉及自然人相关信息的，仅包含自然人名字，并未包含唯一识别身份ID或其他可唯一标识该自然人的代码(所述自然人包括在企业任职的董监高、企业的法定代表人、企业的投资人)。

这样，当不同企业出现相同人名时，无法判断其是否为同一人。这种情况的出现会导致很多问题。例如，在绘制关联图谱时，如果不能判断不同企业信息的自然人是同一个人，则不会将图谱进行合并，不能建立起不同企业间的事实关联信息。再如，在不确定同名的两个人是同一个人的情况下，贸然将不同的数据进行合并，则可能产生关联网络构建的错误。

因此，一般使用人名消岐的算法来判断不同企业的同名人是否为同一人。目前，人名消岐的算法只使用了企业-人员的一阶或者有限的N阶相邻信息，这会使学习到的信息具有局限性，导致最终得到的结果的准确率较低。

发明内容

本发明的目的在于提供一种基于企业关联关系的自然人人名消歧方法、设备和介质。

为实现上述发明目的之一，本发明一实施方式提供一种基于企业关联关系的自然人人名消歧方法，所述方法包括：

获取基础训练数据，以企业和人员作为两种节点类型，构建企业-人员的基础异构图；

按照预设拆分规则，将所述基础异构图中具有多条边的部分人员节点进行拆分，得到衍生图；

根据所述衍生图，对预设的异构图神经网络模型进行训练，得到节点向量表示模型；

将待合并人员作为人员节点加入所述基础异构图，并根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并。

作为本发明一实施方式的进一步改进，所述预设拆分规则包括：

待拆分的人员节点具有N条边与公司相连，分别将所述N条边的其中M条边进行拆除，得到M个同名人员节点，所述M个同名人员节点都继承了剩下N-M条边的联通属性，其中，N、M为正整数，且N>=M>=2。

作为本发明一实施方式的进一步改进，若所述N=2，则M=N；若所述N>2，则N>M。

作为本发明一实施方式的进一步改进，所述预设拆分规则还包括：

获取所述基础异构图中的具有多条边的所有人员节点，随机从中选取预设比例的人员节点作为待拆分的人员节点。

作为本发明一实施方式的进一步改进，所述“以企业和人员作为两种节点类型，构建企业-人员的基础异构图”包括：

以企业和人员作为两种节点类型，根据人员与企业的所属关系数据、企业与企业的投资关系数据进行节点与节点之间的连边处理，得到企业-人员的基础异构图。

作为本发明一实施方式的进一步改进，所述预设的异构图神经网络模型为HAN、HetGNN或MAGNN。

作为本发明一实施方式的进一步改进，所述“将待合并人员作为人员节点加入所述基础异构图”包括：

获取待合并人员的所属企业，以及所述所属企业的其它所属人员，根据所述所属企业和其它所属人员，将所述待合并人员作为人员节点加入所述基础异构图。

作为本发明一实施方式的进一步改进，所述“根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并”包括：

根据所述节点向量表示模型，计算所述待合并人员节点的向量和所述基础异构图中的其它同名节点的向量，若待合并人员节点的向量与一同名节点的向量的相似度超过相似度阈值，则判定所述待合并人员节点与所述同名节点需要合并。

为实现上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述的基于企业关联关系的自然人人名消歧方法中的步骤。

为实现上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的基于企业关联关系的自然人人名消歧方法中的步骤。

与现有技术相比，本发明的基于企业关联关系的自然人人名消歧方法，通过企业关联关系将企业数据图形化，然后通过训练好的图神经网络模型对同名节点进行消岐处理，大大提升了消岐结果的准确率。

附图说明

图1是本发明的基于企业关联关系的自然人人名消歧方法的流程示意图。

图2是本发明的基础异构图的一示意图。

图3是图2的一衍生图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

本发明提供一种基于企业关联关系的自然人人名消歧方法，所述方法基于企业关联关系将企业数据图形化，然后通过训练好的图神经网络模型对同名节点进行消岐处理，大大提升了消岐结果的准确率。

如图1所示，所述方法包括：

步骤S100：获取基础训练数据，以企业和人员作为两种节点类型，构建企业-人员的基础异构图。

所述基础训练数据，是指没有歧义的企业关联关系数据。所述企业关联数据是指多个企业的投资控股关联关系、法人关联关系、董监高等任职关联关系的数据等，这些数据包括两种类型：企业和自然人，所述自然人包括在企业任职的董监高、企业的法定代表人、企业的投资人。没有歧义是指这些企业关联关系数据中涉及的自然人都是基于特定规则计算和人工标定出的可唯一标识出的自然人。

具体的构建企业-人员的基础异构图的过程包括：

以企业和人员作为两种节点类型，企业为节点类型1，包括节点名称、节点id、企业描述、行业分类、地址、各种工商信息等节点属性，人员为节点类型2（人员是指自然人，即节点类型2为自然人），包括自然人的姓名、节点id、姓名稀有程度等节点属性。

根据人员与企业的所属关系数据、企业与企业的投资关系数据进行节点与节点之间的连边处理，得到企业-人员的基础异构图。如图2所示，与企业A和B具有所属关系的自然人都是张三和李四，并且企业A和企业B具有投资关系；另外李四还与企业C具有所属关系，张三还与企业D具有所属关系。

需要说明的是，图2为一个非常简单的企业-人员异构图，在实际的应用中，基于大量的基础训练数据，这个异构图会非常的复杂和庞大。

步骤S200：按照预设拆分规则，将所述基础异构图中具有多条边的部分人员节点进行拆分，得到衍生图。

为了得到图神经网络模型的正负样本，需要对基础异构图进行处理。在现有技术中，一般通过将边移除的方式来获取正负样本（例如移除图2中节点李四与企业A之间的连线，从而获得李四-企业A这一个正样本，负样本可以是李四与随机一家无所属关系的企业）。但是，现有技术的这种处理方式直接将一些边移除，会导致学习的模型中丢失了被移除边的相关信息，从而训练的模型的准确率不高。

为了学习到基础异构图中的全量信息，提高模型的准确率，本发明通过将一个具有多条边的节点拆分为多个同名节点的方式，获取正负样本。即按照预设拆分规则，将所述基础异构图中具有多条边的部分人员节点进行拆分，得到衍生图。

在一优选的实施方式中，所述预设拆分规则包括：

待拆分的人员节点具有N条边与公司相连，分别将所述N条边的其中M条边进行拆除，得到M个同名人员节点，所述M个同名人员节点都继承了剩下的N-M条边的联通属性，其中，N、M为正整数，且N>=M>=2。

图3为图2的部分节点拆分后的衍生图。如图2和图3所示，李四具有N=3条边（分别与企业A、B、C相连），分别拆除M=2条边（与企业A、B相连的两条），得到2个同名节点李四（1）和李四（2），并且，这2个同名节点都继承了剩下的N-M=1条边的联通属性（与企业C相连的属性）。

拆分后的衍生图可以获得两个正样本[李四（1）,企业B]、[李四（2）,企业A]，两个负样本可以随机选取与李四不具有所属关系的两个企业。

进一步的，为了既保持拆分后的衍生图的连通性，又可以获得足够多的正负样本，所述N与M具有如下关系：

若N=2，则M=N；

若N>2，则N>M。

即如果某个人员节点只有两条边，那么，可以直接将这两条边分别拆除，得到两个同名节点，获取两个正样本；若某个人员节点有两条以上的边，则在拆分时，至少保留一条边不动，这样能够保持整个衍生图的连通性。

在另一优选的实施方式中，所述预设拆分规则包括：

假设基础异构图中具有多条边的人员节点数为100，预设比例为60%，那么，随机从这100个人员节点中随机选取60个人员节点作为待拆分的人员节点。

需要说明的是，上述预设比例越高，最后训练出来的模型准确率也越高，但是相对的，训练过程的计算量也就越大。若训练过程中使用的计算机能够承受的计算量足够大，那么优选所述预设比例为100%。

在一具体实施方式中，所述步骤S200包括：

获取所述基础异构图中的具有多条边的所有人员节点，随机从中选取预设比例的人员节点作为待拆分的人员节点；

对于每个待拆分的节点，假设待拆分的人员节点具有N条边，分别将所述N条边的其中M条边进行拆除，得到M个同名人员节点，所述M个同名人员节点都继承了剩下N-M条边的联通属性，其中，N、M为正整数，且若N=2，则M=N；若N>2，则N>M。

将所有待拆分的节点拆分后，得到衍生图。

步骤S300：根据所述衍生图，对预设的异构图神经网络模型进行训练，得到节点向量表示模型。

所述预设的异构图神经网络模型可以是HAN（Heterogeneous Graph AttentionNetwork）、HetGNN（Heterogeneous Graph Neural Network）或MAGNN（MetapathAggregated Graph Neural Network for Heterogeneous Graph Embedding）等，优选所述预设的异构图神经网络模型为HAN。需要说明的是，所述异构图神经网络模型还可以是其它同类型模型，并不限于所列的这些模型。

根据拆分后得到的衍生图，对预设的异构图神经网络模型进行训练，最终得到训练好的模型即节点向量表示模型。

需要说明的是，在模型的训练过程中，异构图的节点属性可以对模型的参数进行初始化，而获取的正负样本用于验证训练完成的模型。模型训练的过程为现有技术，此处就不赘述。

另外，模型训练过程是基于衍生图进行的，即通过训练的模型可以得到衍生图中每个节点的向量。而对于基础异构图中的一些被拆分的节点，计算其节点向量的过程，就是将被拆分后的节点进行合并，即通过向量相加而得到。例如，基础异构图中的李四节点，被拆分为衍生图中的李四（1）和李四（2），那么，李四节点的向量=李四（1）的向量+李四（2）的向量。

步骤S400：将待合并人员作为人员节点加入所述基础异构图，并根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并。

由于节点向量表示模型用于计算异构图中节点的向量，因此，在判断待合并人员和基础异构图中某人员节点是否为同一人时，需要将待合并人员作为人员节点加入基础异构图中，然后通过节点向量表示模型分别计算相关节点的向量，判断存在歧义的两个人员节点向量是否需要合并。

具体的，所述“将待合并人员作为人员节点加入所述基础异构图”包括：

假设待合并人员为人员1，其所属企业为企业E，与企业E具有所属关系的人员还包括人员2、人员3。那么，可以通过查找企业E或人员2、人员3是否存在于基础异构图中，或者通过查找是否存在与企业E或人员2、人员3具有企业关联关系的关联节点，根据所述关联节点，将待合并人员作为人员节点加入基础异构图中。

在一优选的实施方式中，所述“根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并”包括：

在另一优选的实施方式中，所述“根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并”包括：

根据所述节点向量表示模型，计算与待合并人员（人员X）节点具有所属关系的企业节点（企业X）的向量（向量1）、所述基础异构图中的同名节点（人员Y）的向量（向量2），判断人员Y与企业X是否存在所属关系（根据向量2与向量1相乘后的值与阈值进行比较来判断）。若人员Y与企业X存在所属关系，则判定待合并人员节点（人员X）与同名节点（人员Y）为相同节点，需要进行节点合并。

本发明的基于企业关联关系的自然人人名消歧方法，通过事先训练好的图神经网络模型对具有歧义的人名进行消岐，消岐结果的准确率高。并且所述图神经网络模型在训练的过程中，由于能够利用基础训练数据（基础异构图）的全量信息，使得训练完成的图神经网络模型（节点向量表示模型）的计算结果准确率大大提高。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述基于企业关联关系的自然人人名消歧方法中的任意一个步骤，也就是说，实现上述所述基于企业关联关系的自然人人名消歧方法中任意一个技术方案中的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述基于企业关联关系的自然人人名消歧方法中的任意一个步骤，也就是说，实现上述所述基于企业关联关系的自然人人名消歧方法中的任意一个技术方案中的步骤。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于企业关联关系的自然人人名消歧方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于企业关联关系的自然人人名消歧方法，其特征在于，所述预设拆分规则包括：

3.根据权利要求2所述的基于企业关联关系的自然人人名消歧方法，其特征在于：

若所述N=2，则M=N；

若所述N>2，则N>M。

4.根据权利要求1所述的基于企业关联关系的自然人人名消歧方法，其特征在于，所述预设拆分规则还包括：

5.根据权利要求1所述的基于企业关联关系的自然人人名消歧方法，其特征在于，所述以企业和人员作为两种节点类型，构建企业-人员的基础异构图包括：

6.根据权利要求1所述的基于企业关联关系的自然人人名消歧方法，其特征在于：

所述预设的异构图神经网络模型为HAN、HetGNN或MAGNN。

7.根据权利要求1所述的基于企业关联关系的自然人人名消歧方法，其特征在于，所述将待合并人员作为人员节点加入所述基础异构图包括：

8.根据权利要求1所述的基于企业关联关系的自然人人名消歧方法，其特征在于，所述根据所述节点向量表示模型，判断所述待合并人员节点与所述基础异构图中的其它同名节点是否需要合并包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任意一项所述的基于企业关联关系的自然人人名消歧方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的基于企业关联关系的自然人人名消歧方法中的步骤。