CN112287674A

CN112287674A - 企业间同名大节点识别方法、系统、电子设备及存储介质

Info

Publication number: CN112287674A
Application number: CN202011494894.6A
Authority: CN
Inventors: 罗镇权; 刘世林; 张发展; 祝凯
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-01-29
Anticipated expiration: 2040-12-17
Also published as: CN112287674B

Abstract

本申请涉及自然语言处理领域，具体是一种企业间同名大节点识别方法、系统、电子设备及存储介质。一种企业间同名大节点识别方法，包括如下步骤：步骤1获取用于输入的特征。步骤2获得特征标注后的数据。步骤3将标注后数据整理成准备训练数据集，其中针对不同公司的同一个人，从数据中选择出一个代表。步骤4准备孪生网络，所述孪生网络包括CNN网络；步骤5将训练数据集输入孪生网络中进行训练，得到训练好的模型。步骤6使用训练好的模型进行预测。本发明可以大大的减少计算量，从原本达到

时间复杂度大大的降低。CNN网络具有更强的并行计算能力，在比较节点较多时，进一步提高计算效率，特别适用于大节点和超大节点识别场景。

Description

企业间同名大节点识别方法、系统、电子设备及存储介质

技术领域

本申请涉及自然语言处理领域，具体的说，是一种企业间同名大节点识别方法、系统、电子设备及存储介质。

背景技术

随着互联网技术快速发展，人们可以获得的公开数据越来越多，如何快速整理这些非结构化数据，受到越来越多人的关注。其中，大数据技术中，将企业和股东、高管的等信息抽离出来建立起知识图谱，对于市场调查，投资分析，金融监管等领域有十分重要的作用。而在绘制关联图谱时，如果不能判断企业信息的自然人是同一个人，会在一张图谱中出现实际上是同一实体自然人的多个同名自然人实体，影响图谱的推理分析。因此，同名实体对齐对知识图谱的构建中较为重要。如果有身份证数据，那么同名对齐就比较简单，但是身份证信息属于个人隐私，因此很难捕捉到身份证数据。因此迫切需要利用技术方法来对这些公开数据的自然人生成一个“唯一ID”，以此区分出各个不同公司的同名人。

现在比较流行采用机器学习的方法，通过输入同名人的特征，然后通过机器学习模型去判定是否是同一个人，然后对于被识别为同一个人的，给出相同的编号作为“唯一ID”。

比如现有专利申请号为CN201910256769 .2，申请日为2019 .04 .01，名称为《一种基于企业关联关系的工商高管人名消歧方法》的发明专利，其技术方案为：本发明公开了一种基于企业关联关系的工商高管人名消歧方法，涉及实体消歧领域，包括以下步骤：将待消歧数据集U，按高管姓名划分成组n个高管姓名组A；根据步骤S1得到的姓名组划分结果，对每个组A，构建N层以内的高管及企业关联关系网络G；针对每个姓名组A，根据密切度计算规则，计算姓名组A中高管节点之间的关联密切度f；根据关联密切度构建聚类函数CL，使用层次聚类算法得到消歧结果。上述方法采用了多层关系网络，通过关联密切度构建聚类函数进行消岐，属于无监督学习方法，无监督学习方法对于结果无法控制与判断，有可能聚类得到不需要的结果，识别的准确率不高。

特别的，在同名人识别中，现有技术对于大节点（比如同名人实体节点量超过100人）或超大节点（比如同名人实体节点量超过10000）而言，要么就不做识别，直接默认为是不同的人；或者只选取少量的数据进行计算。原因在于如果采用传统两两对比的计算方案，在同名节点量超过一定范围时，计算量十分巨大；比如某个同名节点的量为10000个，需要计算的量是49995000次，所以现有技术无法很好的完成，所以只能采用部分计算，或者干脆都不计算的方式，不能满足建立高质量图谱的现实需要。

发明内容

为了克服现有技术中所存在的上述不足，本申请提供一种属于监督学习方法，能提高识别的准确率，降低判断过程计算量，缩短判断过程计算时间的企业间同名大节点识别方法、系统、电子设备及存储介质。

为实现上述技术效果，本申请的技术方案如下：

一种企业间同名大节点识别方法，包括如下步骤：

步骤1，获取用于输入的特征。

步骤2，获得特征标注后的数据，标注后的数据至少包括人名和与该人名对应的特征。

步骤3，将标注后数据整理成准备训练数据集，其中针对不同公司的同一个人，从数据中选择出一个代表，代表的作用是用于其他同名人与其进行比较，而无需其他同名人与同一个人的所有数据进行比较。

训练数据的输入形式为：一个样本

，其中y的取值范围为[0，1]，

是同名人输入特征组成的向量，其中

按不同公司同一个人，选一个代表，选代表的规则可以是注册资本最大的公司等从现有特征中能够筛选出的规则，同名同人与该代表组成

，则此时y的标签为1，同名不同人与该代表组成

，则此时y标签为0。

步骤4，准备孪生网络，所述孪生网络包括CNN网络，所述CNN网络通过并行计算满足大规模计算要求；

给定一个样本

，y为[0，1]，其中采用的余弦相似度表达式如下

，loss函数表达式可采用如下：

，

其中

；

余弦相似度用来计算由子网络转化后的向量的相似度， loss函数是用来估量模型的预测值与真实值的不一致程度，余弦相似度和loss函数属于孪生网络的组成部分。

其中

：

表示同名人特征组成的向量，如张三+A特征向量，

表示另一个同名人特征组成的向量，如张三+α的特征向量，y表示

是不是同一个人，如果y=1 则认为同一个人，如y=0则认为是同名的两个人。

：常见普通余弦相似度计算公式，

表示两个人名转换向量的余弦相似度表示，

表示将

输入孪生网络后得到新的向量，

同理，

表示求两个向量的内积，

表示向量

和

的范式 norm相乘。

：有很多同名人对

，为了对同名人对

每个个体进行区分，用上标（i）标明多个

中的一个，i取值从0到本同名人对总数-1。

m为相似苛刻度，用于调节两个向量的相似苛刻程度，m设置的越大表示两个向量的余弦相似度要求越高，m取值范围为（0，1）；

，

:训练过程中若y取1，则采用

，若y取0则采用

。

步骤5，将训练数据集输入孪生网络中进行训练，得到训练好的模型。

步骤6，使用训练好的模型进行预测，新输入数据只需和同名人的代表进行对比，若相同（相同是指达到同一个人的判断阈值，其中判断阈值可人为进行设定）则加入对应组，结束本轮计算；若都不同，则认为这是新的同名人，将这个新的同名人指定为新增的代表人。

进一步地，本申请提供一种企业间同名人识别系统，包括数据获取模块、数据存储模块和数据处理模块，所述数据获取模块与数据存储模块信号相连，所述数据存储模块与数据处理模块信号相连；

所述数据获取模块，用于获取同名人的特征、特征标注的数据、训练数据集和孪生网络；

所述数据存储模块，用于存储数据获取模块和数据处理模块输出的数据；

所述数据处理模块，用于将训练数据集输入孪生网络中进行训练，得到训练好的模型，并使用训练好的模型进行预测，新输入数据只需和同名人的代表进行对比，若相同则加入该同名人数据中，若都不同，则认为这是新的同名人。

进一步地，本申请提供一种企业间同名人电子设备，包括处理器和存储器，所述处理与存储器相连，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本申请方法来完成不同企业间同名人识别。

进一步地，本申请提供一种计算机可读存储介质，包括程序代码，当所述程序代码在计算机上运行时，所述程序代码用于使所述计算机执行本申请方法的步骤。

本申请的有益效果为：

1、本发明提供一种企业间同名大节点识别方法，与现有技术相比，可以大大的减少计算量，从原本达到

时间复杂度大大的降低，代表之间才需要两两对比

，其中N表示变量的数量，这部分数量较少，而组内计算是线性时间复杂度，假设一个案例，有10000个公司包含同一人名，其中仅有1000个为现实中的相同姓名的不同个人，用机器学习方法判断，两两比较，需要49995000次计算，而采用本发明，则只是1000个代表需要499500次比较，然后组内分别和代表比较9000次，一共508500次计算次数，减少了近100倍的计算量，现实中 10000个相同人名的实际不同个人数可能远小于1000个人，比如其中有500个同名人，而采用本发明，则只是500个代表需要124750次比较，然后组内成员分别和代表比较9500次，一共134250次计算次数，减少了近372倍的计算量，从计算原理即可判断即可完成不同企业同名人大节点计算。

2、由于本发明实现原理，相当于构造向量在空间里让代表人名向量作为中心，组内人名向量尽量靠近该代表人名，围绕该代表人名附近，不同代表人名之间尽量远离，因而能采用该方法来减少计算量，从而克服其他机器学习不能确定代表和链式相似问题的弊端。

3、本发明中孪生网络中采用CNN网络，相比于其他网络，CNN具有更强的并行计算能力，在比较节点较多时，进一步提高计算效率，特别适用于大节点和超大节点识别场景。

附图说明

图1为本申请的流程图。

图2为本发明孪生网络架构图，采用CNN网络组成孪生网络架构示意图。

图3为本发明进行不同代表人的同名人计算量变化示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

如图1所示，一种企业间同名大节点识别方法，包括如下步骤：

步骤1，获取用于输入的特征；所述特征如可以选择但是不限于公司名，公司名中关键词，公司所在行业，公司地址，公司同名人数，公司是否直接关联，两个公司是否兄弟公司，两个公司是否父母公司，两个公司是否祖孙关系，公司是否是其他二度关联关系，公司高管人数，公司所在街道号码，全国企业关联中存在改名字的企业数量，姓名分别在公司所在省份的数量等，特征的主要目的是为了对于同名人进行区分。其中特征是通过实践证明行之有效的特征，通过这些特征能得到较好的结果。

步骤2，获得特征标注后的数据，标注后的数据至少包括人名和与该人名对应的特征。具体而言，可采用人工标注或现有数据获得特征标注后的数据。特征标注是指明确给定特征的同名人，哪些是同一个人，哪些不是同一个人。

步骤3，将标注后数据整理成准备训练数据集，其中针对不同公司的同一个人，从数据中选择出一个代表，代表作用是用于其他同名人与其进行比较，而无需其他同名人与同一个人的所有数据进行比较。训练数据的输入形式为：一个样本

，其中y的取值范围为[0，1]，

是同名人输入特征组成的向量，其中

，则此时y的标签为1，同名不同人与该代表组成

，则此时y 标签为0。

相对于全量数据的识别，标注仅需较小的工作量，比如全量数据中有5000个同名人“张三”，可以标注其中的50个“张三”的对应数据来作为训练语料，相当于通过人工或者根据现有数据对这个5000个中的50个同名人打上标签。再比如50个同名人“张三”中事实上有10个不同自然人，通过标注就将这50个同名人数据分成了10组，再在每一组中根据设置的规则选择1个来作为本组的代表人。

示例如下：

标注特征后的数据如：[张三+A，张三+B，张三+C，张三+D，张三+E]和[张三+α，张三+β，张三+γ，张三+θ]是两个不同的张三，A和α分别代表不同的公司名，B和β、C和γ、D和θ各自表示相同特征类别中的不同内容，其中张三+A和张三+α被选作是各自代表，则[张三+A，张三+B，1] ，[张三+A，张三+C，1]， [张三+α，张三+β，1]， [张三+α，张三+γ，1]， [张三+A，张三+α，0]。

步骤4，准备孪生网络，所述孪生网络包括CNN网络，因为我们设计的孪生网络结构和输入数据的方式，保证了我们选取的代表是有效可靠的。孪生网络（Siamese Network）中Siamese意为暹罗猫，孪生或双子。孪生网络是指这个网络结构中的Network_1和Network_2这两个网络的结构一般是相同的，并且参数是共享的，即参数是一致的。在监督学习范式下，孪生神经网络会最大化不同标签的表征，并最小化相同标签的表征。

本发明申请中，输入信息

和

分别通过孪生网络的两个子网络进行了向量的重构，孪生网络将

和

的普通特征映射至高维特征空间，并输出对应的表征向量，由于孪生网络的特性，完成训练后能够让同组向量尽量靠近，异组向量尽量远离，相当于构造向量在空间里让代表人名向量作为中心，组内人名向量尽量靠近该代表人名，围绕该代表人名附近，不同代表人名之间尽量远离，提高了判断敏感性，保证了识别的准确率，从而克服其他机器学习不能确定代表和链式相似问题的弊端。链式相似问题指A->B->C->D->E，若A与E 不进行比较，则可能认为A与E不同，被抛弃，并且因为采用代表对比方法极大的减少了完成全部识别所需的计算量。并且在构成孪生网络时，子网络选用CNN，CNN网络通过能够通过并行计算来满足大规模计算的要求，特别适用于识别大节点和超大节点的应用场景。

实施例2

步骤3，将标注后数据整理成准备训练数据集，其中针对不同公司的同一个人，从数据中选择出一个代表，代表作用是用于其他同名人与其进行比较，而无需其他同名人与同一个人的所有数据进行比较。

训练数据的输入形式为：一个样本

，其中y的取值范围为[0，1]，

是同名人输入特征组成的向量，其中

，则此时y的标签为1，同名不同人与该代表组成

，则此时y标签为0。

示例如下：

步骤4，准备孪生网络，所述孪生网络包括CNN网络，所述CNN网络通过并行计算满足大规模计算要求；给定一个样本

，y为[0，1]，其中采用的余弦相似度表达式如下

，loss函数表达式可采用如下：

，

其中

。

上述过程是孪生网络来实现，本实施例中的孪生网络结构采用的是CNN网络结构结合余弦相似度的方式，loss函数采用的上述表达式，孪生网络可生成向量，向量通过余弦相似度对比，其余未进行进一步阐述的部分可使用本领域现有技术实现。

其中

：

表示同名人特征组成的向量，如张三+A特征向量，

：常见普通余弦相似度计算公式，

表示两个人名转换向量的余弦相似度表示，

表示将

输入孪生网络后得到新的向量，

同理，

表示求两个向量的内积，

表示向量

和

的范式 norm相乘。

：有很多同名人对

，为了对同名人对

每个个体进行区分，用上标（i）标明多个

中的一个，i取值从0到本同名人对总数-1；m为相似苛刻度，用于调节两个向量的相似苛刻程度，m设置的越大表示两个向量的余弦相似度要求越高，m取值范围为（0，1）。

，

:训练过程中若y取1，则采用

，若y取0则采用

。

CNN网络可以并行计算，适合大规模计算，相对RNN网络计算更快，更适合大节点计算。以CNN结构组成的孪生网络架构图2为例，从下往上看通过输入

，CNN网络进行编码转换，Convolution表示CNN网络的卷积层，Pooling表示CNN网络的池化层，Fully Connected 表示CNN网络的全连接层。

本实施例用以说明采用CNN网络的具体结构是：

输入：1*25*1 即25维向量的同名人特征

或

作为输入。

Layer1:8个大小1*3的卷积核，步长为1，采用ReLU激活函数。

Layer2：1*2大小的池化层，使用的是max-pooling，步长为1。

Layer3:16个大小1*3的卷积核，步长为1，采用ReLU激活函数。

Layer4：1*2大小的池化层，使用的是max-pooling，步长为1。

Layer5：全连接层，输出64维向量

和

。

再对这两个输出的向量求余弦相似度，即

。其中数字表示向量的长度。

步骤6，使用训练好的模型进行预测，新输入数据只需和同名人的代表进行对比，若相同则加入，若都不同，则认为这是新的同名人。

如图3所示，图中竖轴代表计算次数，横轴代表代表人数，假如平均分布，可看出随着代表人数减少，计算次数下降趋势明显。而采用现有方法，处理超大节点（同名人实体节点量超过10000），则理论上需要进行49995000次运算。

实施例3

在实施例1和实施例2的基础上，本申请提供一种企业间同名大节点识别系统，包括数据获取模块、数据存储模块和数据处理模块，所述数据获取模块与数据存储模块信号相连，所述数据存储模块与数据处理模块信号相连；

实施例4

在实施例1-3的基础上，本申请提供一种企业间同名大节点识别的电子设备，包括处理器和存储器，所述处理与存储器相连，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本申请方法来完成不同企业间同名人识别。

实施例5

本申请提供一种计算机可读存储介质，包括程序代码，当所述程序代码在计算机上运行时，所述程序代码用于使所述计算机执行本申请方法的步骤。

可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不同限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。