CN111241153A

CN111241153A - 企业自然人实体综合判断对齐方法及系统

Info

Publication number: CN111241153A
Application number: CN201911424404.2A
Authority: CN
Inventors: 李焕; 刘世林; 罗镇权; 张发展; 康青杨; 吴桐; 曾途
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-05

Abstract

本发明涉及企业自然人实体综合判断对齐方法及系统；本发明方法及系统引入机器学习方法，综合多个企业投资数据特征，对不同企业的重要同名自然人是否是同一自然人做出准确的判断。选取企业投资路径的远近来作为判断相同姓名自然人是否是同一人的主要判断依据之一，充分使用企业投资数据的本来特性，同时借助企业名称、企业地址以及同名自然人数量等综合特征来构建模型。集成多个特征相互配合共同得出计算结果，判断结果准确率非常高；为企业自然人实体对齐提供十分重要且有效的方法。

Description

企业自然人实体综合判断对齐方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及企业自然人实体综合判断对齐方法及系统。

背景技术

随着大数据技术的发展，对于不同数据源中的自然人是否是同一的判断越来越重要；自然人重名的情况十分常见，再者现实生活中，经常出现同一自然人投资多家企业的情况。大数据技术中，将企业和股东、高管等信息抽离出来建立起知识图谱，对于市场调查，投资分析，金融监管等领域有十分重要的应用。当将多个数据源中的信息提取出来时进行关联分析时，身份的唯一性识别就变得非常重要。比如说在绘制关联图谱时，如果不能判断不同企业信息的自然人是同一个人，则不会将图谱节点进行合并，会在一张图谱中出现多个同名节点(这些节点事实上是同一个实体自然人)，影响图谱的推理分析能力。且同一人身份的判断的准确性要求很高，不确定同名的两个人是同一个人的情况下，贸然将不同的数据进行合并，则可能产生关联网络构建的错误。

目前识别企业间同名人的方法主要依赖于数据，如招聘数据、身份证数据。现有的情况是大多数数据来源都不会公布身份证信息；一则进行隐私保护，二则信息简化；比如工商登记信息中不含有股东等人的身份证信息。或者从其他海量的非正式文本比如新闻、舆情等中获取的数据中更不会含有身份证信息。因此面临巨大的实体识别需求，急需一种准确高效的企业自然人实体唯一性识别方法。

发明内容

本发明的目的在于提供企业自然人实体综合判断对齐方法及系统；充分挖掘数据的关联性，发挥数据集成分析的优势；引入机器学习方法，综合多个企业投资数据特征，对不同企业的重要同名自然人是否是同一自然人做出准确的判断。

为解决上述技术问题，本发明实施例提供了以下技术方案：

企业自然人实体综合判断对齐方法，利用企业投资关系的远近等特征来辅助判断不同企业间相同姓名的自然人是否是同一人。当两个企业投资关系度数小于设置阈值时，认为这两个企业间相同姓名的自然人是同一人。本专利中自然人为企业的主要股东、董事、监事、高管等。

包含以下实现步骤：

(1)获取企业数据，所述企业数据包含投资关系、主要相关自然人、企业地址、企业名称；

(2)用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型；

(3)使用标注数据训练模型；

(4)将待判定企业对之间的特征向量输入到训练后的模型中，由模型判断出同名自然人是否是同一人的概率；当概率值大于设置阈值时判断为同一人。

进一步的，所述步骤(2)中的投资路径数据为两企业之间的最短投资路径。

进一步的，所述方法包含将投资路径数据向量化转化的过程。

进一步的，所述步骤(2)中所述特征向量为：x＝[X1、X2、X3、X4…]；

其中X为待判定企业对的特征向量数据，X1为最短投资路径的倒数，X2为同名自然人个数、X3为企业名称关键字的相似度、X4企业地址的相似度。

进一步的，所述模型公式为：

其中f(x)为不同企业同名人为同一人的概率；其中θ为模型需要训练的参数，x为量化后的特征向量。

进一步的，所述模型训练过程中损失函数的公式如下：

其中j(θ)为损失函数，m为样本个数，y⁽ⁱ⁾为第i个样本的判断标注值，h_θ(x⁽ⁱ⁾)为第i样本的模型预测值，n为模型参数个数，λ为正则项参数。

进一步的，当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。

进一步的，所述企业名称相似性通过关键字最长公共子序列来计算。

进一步的，所述企业地址相似性判断中按照省、市、区、街道、建筑的顺序进行逐级匹配，匹配成功为1，匹配失败相应位置为0。

进一步的，所述企业地址相似性判断中包含对缺失地址补齐的步骤。

进一步的，本发明提供一种基于关联网络的企业间同名人识别系统；包含数据获取模块，数据存储模块；数据处理模块；

所述数据获取模块，获取待分析目标的相关数据；

所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据；

所述数据处理模块；通过上述企业自然人实体综合判断对齐方法完成判断不同企业信息中相同姓名的自然人是否是同一人。

进一步的，本发明提供了一种电子设备，所述电子设备，所述电子设备包含存储器和处理器，所述存储器和处理器相连，所述处理器通过本发明方法来完成判断不同企业信息中相同姓名的自然人是否是同一人。

进一步的，本发明提供一种包括计算机可读指令的计算机可读存储介质，所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

与现有技术相比，本发明方法及系统具有以下有益效果：本发明方法及系统引入机器学习方法，综合多个企业投资数据特征，对不同企业的重要同名自然人是否是同一自然人做出准确的判断。选取企业投资路径的远近来作为判断相同姓名自然人是否是同一人的主要判断依据之一，充分使用企业投资数据的本来特性，同时借助企业名称、企业地址以及同名自然人数量等，综合特征来构建模型，集成多个特征，多个特征相互作用，共同得出计算结果，判断结果准确率非常高；充分挖掘数据的关联性，发挥数据集成分析的优势；为企业自然人实体对齐提供十分重要且有效的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法实现步骤示意图。

图2为实施例1中企业投资网络示意图。

图3为实施例2中所述系统的示意框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决上述技术问题，本发明实施例提供了以下技术方案：

企业自然人实体综合判断对齐方法，充分挖掘数据的关联性，发挥数据集成分析的优势；引入机器学习方法，综合多个企业投资数据特征，对不同企业的重要同名自然人是否是同一自然人做出准确的判断。企业投资关系的远近在很大程度上会反应出企业之间的密切程度；如果投资关系很近的两家企业在主要股东和高管中包含姓名相同的自然人；那么该自然是同一自然人的概率很高。将关联关系远近作为判断相同姓名自然人是否是同一自然人的依据，在企业最短投资路径判断技术成熟的基础上，巧妙应用企业关联关系；知识图谱技术等，极大的简化了自然人唯一性的判断计算过程，具有较高的准确性。为知识图谱的优化搭建，图谱推理调查等提供了数据保障。

具体的包括以下步骤：

包含以下实现步骤：

(2)用包含企业间投资路径、企业名称相似性、企业地址相似性、同名自然人个数的特征向量来构建判断模型。投资关联关系密切的企业之间，往往具有在企业名称相似或者相同的关键字，同时在企业的主要股东、董监高等中往往由同一人在不同企业中履职，且可能具有企业注册地址较近等特点，这些都是企业投资数据的特性。本发明方法选取企业投资路径的远近来作为判断相同姓名自然人是否是同一人的主要判断依据之一，充分使用企业投资数据的本来特性，同时借助企业名称、企业地址以及同名自然人数量等，综合特征来构建模型，集成多个特征，多个特征相互作用，共同得出计算结果，判断结果准确率非常高为企业自然人实体对齐提供十分重要且有效的方法。

(3)使用标注数据训练模型；

企业的最短投资路径反应企业投资亲缘关系远近，投资路径越近的企业具有有密切的关联关系，目前在获取到企业基本数据的基础上，实现投资网络图谱构建，并计算企业间的最短投资距离，计算比较容易实现。将此特征作为企业自然人实体对齐识别的依据，具有很高的准确性。

进一步的，所述方法包含将投资路径数据向量化转化的过程(比如获取最短投资路径的长度，将其作为带判断企业对的特征纬度之一)。投资路径数据为图数据，难以直接参与计算，将图数据数值、向量化，跨域数据类型的鸿沟，实现图数据特征的快速读取和深度应用。

进一步的，所述步骤(2)中所述特征向量为：x＝[X1、X2、X3、X4…]；其中x为待判定企业对的特征向量数据，X1为最短投资路径的倒数，X2为同名自然人个数、X3为企业名称关键字的相似度、X4企业地址的相似度。本质上最短投资距离越短说明企业关系越密切，取用最短投资距离的倒数来作为特征符合数据的实际特点，且处理过程简单，容易实现；在企业数据中参与企业投资的主要自然人之间往往具有较强的互动性。常常具有多个自然人同时联合投资或者作为多家企业情况。直接计算同名人个人作为向量特征，数据获取步骤简单直接，处理效率高。

进一步的，所述模型公式为：

进一步的，所述模型训练过程中损失函数的公式如下：

本发明中损失函数相比普通逻辑回归，增加了

的正则表达式，可以防止过拟合。

进一步的，当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。超过5度的投资关系网络计算复杂，且已经失去参考依据，直接置0，简单处理换取高准确率和效率。

进一步的，所述企业名称相似性通过关键字最长公共子序列来计算。比如例如：“北京中科*****创服务咨询有限公司”和“上海中科****创投资管理有限公司”的关键字分别是中科*****创；中科****创；LCS是“中科****”，长度为6；然后归一化(即除以较长的关键字长度)为5/7。

进一步的，所述企业地址相似性判断中按照省、市、区、街道、建筑的顺序进行逐级匹配，匹配成功为1，匹配失败相应位置为0。例如：“四川省/成都市/天府新区”和“四川省/成都市/高新区”在省、市匹配，后面的不匹配，结果为[1，1，0，0，0]；同理，“四川省/成都市/武侯区/天府大道/966号”和“四川省/成都市/武侯区/天府大道/900号”的结果为[1，1，1，1，0]。此时所述企业地址相似度是一个5维的向量；在综合特征x＝[X1、X2、X3、X4…]；X4占据5位。

此种地址相似度计算中，所得到的是一个地址相似度向量，向量的不同位分别代表省、市、区、街道、建筑的符合程度，逐级缩小定位范围，计算简单且具有较高可解释性；直接作为综合向量的特征位，参与模型训练和预测，相比单纯数值，虽然增加了整个模型特征向量的纬度，但引入地址逐级对比的判断依据，丰富了综合特征数据的层次和含义；使得模型预测效果更佳。

进一步的，所述企业地址相似性判断中包含对缺失地址补齐的步骤。比如说企业地址显示为，成都市/高新区，则通过地址补齐为四川省/成都市/高新区。

进一步的，本发明提供一种动态可比企业集构建系统；包含数据获取模块，数据存储模块；数据处理模块；所述数据获取模块，获取待分析目标的实时相关数据比如财务报表；

所述数据处理模块；通过上述企业自然人实体综合判断对齐方法完成各个企业动态可比企业集的计算。

进一步的，本发明提供了一种电子设备，所述电子设备，所述电子设备包含存储器和处理器，所述存储器和处理器相连，所述处理器通过本发明方法来完成动态可比样本集的创建。

实施例1

获取公司的基础数据。主要包括企业名、企业主要股东和高管、董事、监事等相关自然人名、企业上下游投资企业名、企业地址等。这些数据是企业的基本数据，属于企业信息公开的内容，在公开的渠道上可以获取。

计算同名人关联的公司数目；抽取公司名关键字；以公司为节点公司间的投资关系为边，构建投资网络；比如数据库中存可构建如图2所示的投资网络的数据；计算企业A到B的最短路径长度为4度。假设同名自然人为a、b；A、B企业的名称关键字相似度为0.8；企业地址为：相似度为[1，1，1，1，0]

则待判断企业对A/B的特征向量为【0.25，2，0.8，1，1，1，1，0】；将此特征向量输入到训练好的模型中，得到概率数值为0.7，大于预先设置的阈值0.5；将a、b分布判断为同一人。

实施例2

上述动态对比样本集构建系统，如图3所示，本实施例同时提供了一种电子设备来实施上述企业自然人实体综合判断对齐方法；该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构。

如图3所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图3中显示的所有部件。此外，电子设备还可以包括图3中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果，例如输入的文本数据、转换后的多维向量、计算出的距离值等，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

本发明实施例还提供一种计算机可读指令，其中当在电子设备中执行所述指令时，所述程序使得电子设备执行本发明方法所包含的操作步骤。

本发明实施例还提供一种存储有计算机可读指令的存储介质，其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.企业自然人实体综合判断对齐方法，其特征在于，包含以下实现步骤：

(3)使用标注数据训练模型；

2.如权利要求1所述的方法，其特征在于；所述步骤(2)中的投资路径数据为两企业之间的最短投资路径。

3.如权利要求2所述的方法，其特征在于；所述方法包含将投资路径数据向量化转化的过程。

4.如权利要求3所述的方法，其特征在于；所述步骤(2)中所述特征向量为：x＝[X1、X2、X3、X4…]；其中X为待判定企业对的特征向量数据，X1为最短投资路径的倒数，X2为同名自然人个数、X3为企业名称关键字的相似度、X4企业地址的相似度。

5.如权利要求4所述的方法，其特征在于，所述模型公式为：

6.如权利要求5所述的方法，其特征在于，所述模型训练过程中损失函数的公式如下：

7.如权利要求6所述的方法，其特征在于，当企业间的最短投资路径长度大于5时将最短投资路径向量为置为0。

8.如权利要求7所述的方法，其特征在于，所述企业名称相似性通过关键字最长公共子序列来计算。

9.如权利要求8所述的方法，其特征在于，所述企业地址相似性判断中按照省、市、区、街道、建筑的顺序进行逐级匹配，匹配成功为1，匹配失败相应位置为0。

10.如权利要求9所述的方法，其特征在于，所述企业地址相似性判断中包含对缺失地址补齐的步骤。

11.企业自然人实体综合判断对齐方法系统，其特征在于：包含数据获取模块，数据存储模块；数据处理模块；

所述数据获取模块，获取待分析目标的相关数据；

所述数据存储模块存储包括数据获取模块和数据处理模块的输入和输出的数据；

所述数据处理模块；通过权利要求1至10之一所述方法完成判断不同企业信息中相同姓名的自然人是否是同一人。

12.一种电子设备，其特征在于，所述电子设备，所述电子设备包含存储器和处理器，所述存储器和处理器相连，所述处理器通过权利要求1至10之一所述方法完成判断不同企业信息中相同姓名的自然人是否是同一人。

13.一种包括计算机可读指令的计算机可读存储介质，所述计算机可读指令使得电子设备执行权利要求1至10之一所述方法包含的操作步骤。