CN112182240B

CN112182240B - 同名自然人实体超级节点识别处理方法及系统、电子设备

Info

Publication number: CN112182240B
Application number: CN202011008100.0A
Authority: CN
Inventors: 刘世林; 张发展; 罗镇权; 吴桐; 曾途; 杨李伟; 尹康
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2024-04-02
Anticipated expiration: 2040-09-23
Also published as: CN112182240A

Abstract

本发明实施例公开了一种同名自然人实体超级节点识别处理方法及系统、电子设备，其中，所述方法包括以下步骤：获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项；根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组；针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性，若是，则将具有一致性的多份数据合并为一组，并选出该组内的第一数据代表；将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果。采用本发明的数据一致性分析的方法可以提高数据一致性分析的处理效率。

Description

同名自然人实体超级节点识别处理方法及系统、电子设备

技术领域

本发明涉及知识图谱技术领域，具体的，本发明涉及一种同名自然人实体超级节点识别处理方法及系统、电子设备。

背景技术

大数据时代，人们可以获得的公开数据越来越多，如何快速整理这些数据，受到越来越多人的关注。例如，同名的自然人很多，在基于获取的众多数据构建知识图谱之前，就需要先整理出属于同一实体的信息，将同一实体的信息归属于同一个节点。目前的识别方法，例如公开号为CN 108717425 A的中国发明公开了一种基于多数据源的知识图谱人物实体对齐方法，该方法基于多种数据源进行判断可以提高同名人识别的准确度，但是该方法也存在缺陷，例如，该方法在识别时采用两两对比的方式，运算量大，效率低。对于少量的实体对象节点而言可以采用，但是对于超级节点（例如同名人的数量超过500）而言，两两对比的运算量极大，根本无法进行运算，只能抽取少量的数据进行计算，但是这样就降低了数据的使用率。

发明内容

为了解决现有技术存在的运算量大、效率低的问题，本申请的实施例提供一种同名自然人实体超级节点识别处理方法及系统、电子设备，以降低运算量，提高数据一致性分析的时的处理效率。

为了达到上述目的，本申请的实施例所采用的技术方案如下：

一种同名自然人实体超级节点识别处理方法，包括以下步骤：

获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项；

根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组；

针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性，若是，则将具有一致性的多份数据合并为一组，并选出该组内的第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表，所述第一数据代表的个数小于该第一数据组内的数据份数；

将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果。

上述方案中，通过将多份数据进行分组，小组内进行一致性判断并选出若干个第一数据代表，然后只在选出的第一数据代表间进行一致性判断，因此相比于两两对比，可以极大地降低对比次数，降低运算量，提高纵向效率。另一方面，通过分组后，各个小组内的数据一致性分析也可以基于不同的处理器进行处理，即实现并行处理，继而提高横向处理效率，即最终使得处理效率得到了极大的提高。

所述第一数据项的第一衍生项为所述实体对象所在企业的注册地址的省份信息；

所述根据所述第一数据项的第一衍生项，将所述多份数据进行分组的步骤包括：将属于同一省份的企业所对应的若干份数据划分为同一个第一数据组。

即是说，第一数据项为实体对象所在企业的注册地址。相对而言，同一自然人在同省份注册多个公司，或者在同省份不同企业任职的情况更为常见，因此上述方案中，以实体对象所在企业的注册地址省份作为分组依据，可以使得尽可能多的归属于同一个人的数据被合并，继而可以更多的降低运算量，提高处理效率。

所述将属于同一省份的企业所对应的若干份数据划分为同一个第一数据组的步骤之后，还包括步骤：

统计每一个第一数据组所包含的数据的份数；

判断所述数据的份数是否大于或等于第一阈值，如果是，则将该第一数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第一阈值。

上述方案中，如果分组之后所得的组内数据份数较多，那么单个小组的运算量也还是相对较大，因此通过进一步再细分，可以降低单个小组的运算量。

所述将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果的步骤包括：

根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组；

针对于同一第二数据组内的若干个第一数据代表，判断各个第一数据代表之间是否具有一致性，若是，则将具有一致性的多个第一数据代表合并为一组，并选出该组内的第二数据代表，不具有一致性的第一数据代表独立作为一个第二数据代表，所述第二数据代表的个数小于该第二数据组内的第一数据代表的个数；

将各个第二数据组的第二数据代表之间进行数据一致性分析，获得分析结果。

上述方案中，在合并第一数据代表时，并不是将各个第一数据代表两两对比，而是根据所述第一数据项的第二衍生项进行再次分组，然后在各第二数据组内之间进行一致性判断，更进一步地降低对比次数，提高处理效率。

所述第一数据项的第二衍生项为所述实体对象所在企业的注册地址的地区信息；

所述根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组的步骤包括：将属于同一地区的企业所对应的若干个第一数据代表划分为同一个第二数据组；

所述第一数据项的第一衍生项为所述实体对象的籍贯信息；

所述根据所述第一数据项的第一衍生项，将所述多份数据进行分组的步骤包括：将属于同一籍贯的实体对象所对应的若干份数据划分为同一个第一数据组。

此方案中，第一数据项为实体对象的户口地址。籍贯相同，则为同一个人的概率更大，上述方案中，以籍贯作为分组依据，这样只需要比较籍贯相同的实体对象的数据，计算量将进一步减少，进一步提高处理效率。

每份数据还包括第二数据项；在选择第一数据代表时，根据所述第二数据项选择第一数据代表。

另一方面，本发明实施例还提供一种同名自然人实体超级节点识别处理系统，包括：

数据获取模块，被配置为获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项；

数据分组模块，被配置为根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组；

一致性分析模块，被配置为针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性；以及将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果；

数据合并模块，被配置为当所述一致性分析模块的输出结果为是时，将具有一致性的多份数据合并为一组，并选出该组内的所述第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表，所述第一数据代表的个数小于该第一数据组内的数据份数。

所述数据分组模块还被配置为，统计每一个第一数据组所包含的数据的份数，并判断所述数据的份数是否大于或等于第一阈值，如果是，则将该第一数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第一阈值。

所述数据分组模块还被配置为根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组；

所述一致性分析模块在执行将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果的操作时，针对于同一第二数据组内的若干个第一数据代表，判断各个第一数据代表之间是否具有一致性；以及将各个第二数据组的第二数据代表之间进行数据一致性分析，获得分析结果。

所述数据合并模块还被配置为，当所述一致性分析模块的输出结果为是时，将具有一致性的多个第一数据代表合并为一组，并选出该组内的第二数据代表，不具有一致性的第一数据代表独立作为一个第二数据代表，所述第二数据代表的个数小于该第二数据组内的第一数据代表的个数。

再一方面，本发明实施例还提供一种电子设备，包括：

处理器；以及

存储器，用于存储计算机程序指令；

其中，当所述计算机程序由所述处理器加载并运行时，所述处理器执行同名自然人实体超级节点识别处理方法。

与现有技术相比，本申请的实施例具有以下有益效果：

本发明实施例公开的同名自然人实体超级节点识别处理方法及系统，通过基于数据特性，将获取的大量数据进行分组，并基于数据特性选取各组内的代表，仅将各个代表进行对比，因此实现了，在保障数据使用率的情况下，极大地降低了计算机（或处理器）的运算量，提高了计算机的运算速度。本发明方法或系统尤其适用于超级节点的图谱构建。

附图说明

图1是本发明实施例方案涉及的同名自然人实体超级节点识别处理的设备示意图；

图2为本发明同名自然人实体超级节点识别处理方法第一实施例的流程示意图；

图3为本发明同名自然人实体超级节点识别处理方法第二实施例的流程示意图；

图4为本发明同名自然人实体超级节点识别处理系统第一实施例的结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的主要思路是，通过将获取的大量数据进行分组，小组内进行一致性判断并选出若干个第一数据代表，然后只在选出的第一数据代表间进行一致性判断，因此相比于两两对比，可以极大地降低对比次数，降低运算量，提高纵向效率。另一方面，通过分组后，各个小组内的数据一致性分析的也可以基于不同的处理器进行处理，即实现并行处理，继而提高横向处理效率，即最终使得处理效率得到了极大的提高。

例如，假设有1000份数据，两两对比的方式则需要进行次对比。如果采用本发明方法，假设将1000份数据划分为40组，假设每组的数据份数相同（实际情况很可能不相同，此处仅是为了方便计算）均为25份，每组选出10份数据代表，那么本方法需要进行次对比，运算量明显大大降低。而且如果继续进行更细化的分组，或者本组内只与数据代表进行对比，则运算量将会更低，处理效率更快。

需要说明的是，由于自然人才会出现同名的情况，因此，本文中的实体对象是指自然人实体。本文中描述的获取多份数据，也是指获取的同一姓名的实体对象的多份数据，例如均是姓名为张三的数据。

下面结合一些具体实施例进一步阐述本申请的发明构思。

本发明实施例提供了一种同名自然人实体超级节点识别处理方法，本文中定义的超级节点是指同名实体超过500的节点。参照图2，图2为本发明同名自然人实体超级节点识别处理方法的第一实施例的的流程示意图。

本实施例中，该同名自然人实体超级节点识别处理方法包括以下步骤：

步骤S100，获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项。

上述步骤中，每一个实体对象的数据包括有网络上包含的实体对象的姓名信息、企业信息等。容易理解的，该实体对象的数据中并没有包含实体对象的隐私等数据，因为本方法是针对不包含例如身份证号等隐私数据的一致性判断。另外，本方法是基于知识图谱构建而进行的，因此涉及的实体对象都有对应的企业，采集的数据中也包含企业信息，例如注册地址等信息。

例如，在本实施例用于企业股东的数据一致性分析时，实体对象的数据包括股东的姓名，股东所拥有的公司资本、员工等公司公开信息、公司的知识产权信息等数据。该数据可以是网络上经过授权公开、可以查询后获得的信息。

步骤S200，根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组。

上述步骤中，根据第一衍生项将获得的多个实体对象进行分组，从而根据实体对象之间的一些共性获得多组第一数据组。

作为一种较优的实施方式，所述第一数据项的第一衍生项为所述实体对象的籍贯信息。那么此时，步骤S200则是：将属于同一籍贯的实体对象所对应的若干份数据划分为同一个第一数据组。

在本次分组时，应尽可能缩小比对范围，同时把尽可能多的不同企业的归属于同一实体对象的数据分到一个区间，这样经过本次比对后，就能合并很多数据，例如归属于A地的数据不用和归属于其余省份的数据进行比对，继而减少计算量。籍贯相同的不同实体对象为同一个人的概率更大，因此本实施方案中，以籍贯作为分组依据，可以极大地降低运算量。

然而，获得所有自然人的籍贯信息是有难度的，因为涉及隐私，公开网页中很难获取到籍贯信息，一般能获取到极少数高管或名人的籍贯信息，例如来自百度百科。考虑到同一自然人可能在同一省份注册多个公司或者在同一省份的多个公司任职，这样按照公司注册地划分，就能将很多数据在本次比对的时候就合并到一起。因此，可选的，在另一具体实施例中，所述第一衍生项为所述实体对象所在企业的注册省份信息。

此时步骤S200，则是根据所述实体对象的企业注册省份将获取的多份数据进行分组，获得多组第一数据组。也就是说，根据实体对象所在企业的注册地址，将属于同一省份的企业所对应的若干份数据组成一个第一数据组。

例如，针对于实体对象为姓名为张三的企业股东，可以根据张三占股的公司的注册地址将所有数据进行分类。例如，按照所占股公司的注册地址在C地，将企业注册地址都属于C地的实体对象所对应的数据划分到第一数据组C里面，按照所占股公司的注册地址在B地，将企业注册地址同属于B地的实体对象所对应的数据划分到第一数据组B里面。依次类推，获得基于实体对象的企业注册省份划分的多个第一数据组。

此处需要说明的是，第一数据组和后文中的第二数据组，包括后文中的第一衍生项、第二衍生项，仅仅是两个组名之间的区分，而第一与第二之间没有特殊含义，或者特殊限度，仅仅表示区分而已。

作为本实施例的一种选择，步骤S200，根据所述实体对象的企业注册省份将获取的多份数据进行分组之后，还可以包括步骤：

（1）统计每一个第一数据组所包含的数据的份数；

（2）判断所述数据的份数是否大于或等于第一阈值，如果是，则将该第一数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第一阈值。

具体而言，根据第一衍生项将获取的大量数据划分为多个第一数据组后，不可避免地存在多个第一数据组中的有一组或者若干组的组内数据份数过多的情况，而组内数据份数过多则会影响本组内数据的计算效率。因此，本实施例中在统计出每个第一数据组的组内数据的份数之后，判断数据的份数是否大于等于第一阈值，然后将数据份数大于等于第一阈值的第一数据组再次分组。该分组可以是随机的，也可以是均分，主要再次分组后的第一数据组的组内数据的份数不超过第一阈值即可，本申请对此并不限制。

例如，第一阈值为200，但是按照所占股公司的注册地址在A地将若干份数据划分到第一数据组A里面后，该第一数据组A的组内数据份数有500份，因此可以将该第一数据组A再次分组为包含有200份数据的第一数据组A1、包含有200份数据的第一数据组A2和包含有100份数据的第一数据组A3。

步骤S300，针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性，若是，则将具有一致性的多份数据合并为一组，并选出该组内的第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表。很显然地，第一数据代表的个数小于该第一数据组内的数据份数。

此处的合并可以有多种方式，例如，针对于同一个第一数据组内的每一份数据，都视作为各自独立为一个子组，初始时子组数据代表（第一数据代表）即为自己本身，然后随机将两个子组中的数据相比较，若判断该数据归属于同一个实体对象，那么将该两个子组合并为一个，并选出合并后的子组的第一数据代表，然后将该第一数据代表与其他子组的数据相比较，若判断为不是归属于同一个实体对象，则该两个子组就各自存在，然后分别与其他子组的数据相比较。

例如，一个第一数据组内有10份数据，其中4份归属于同一个实体对象，另外6份各自归属于一个实体对象，那么最终合并后的结果是：4份归属于同一个实体对象的数据合并为一个子组，选出其中一个作为第一数据代表，另外6份各自归属于一个实体对象的数据分别是独立的子组，第一数据代表即为自己。即，该第一数据组最终有7个第一数据代表。后续处理中是将该7个第一数据代表与其他第一数据组的第一数据代表进行比对。

需要说明的是，此处的第一数据代表和后文中的第二数据代表，仅仅是为了便于区分所进行的不同命名，第一和第二没有特殊含义。

本步骤在具体实现时可以有多种实施方式。例如，在同一个第一数据组内进行两两比较，判断相比较的两份数据是否归属于同一实体对象，若是就合并，不是就不合并，最后再选出一个数据代表（即第一数据代表）。

又例如，在同一个第一数据组内，先随机选择两份数据进行比较，若判断为归属于同一实体对象则从这两份数据中选出一个第一数据代表，然后将该第一数据代表与下一份数据进行比较，若判断为归属于同一实体对象则从该两份数据（其中一个为第一数据代表）中选出新的第一数据代表，以此类推，直至该第一数据组内的全部数据都比较完毕。也就是说，不是两两比较，而是只与第一数据代表进行比较，如此可以进一步减少比较的次数，降低运算量。

例如，在第一数据组B内，先随机将两份数据进行比较，若判断为两份数据都归属于实体对象，则将该两份数据进行合并，同时从该两份数据中选出一个数据代表b1（第一数据代表），获得一个数据小组。然后将其余数据和该数据代表b1进行比较，若判断为归属于同一实体对象就合并，从而最终该第一数据组B至少可以获得一个数据代表b。

此处，两份数据进行比较，判断是否为归属于同一实体对象的处理过程，是现有技术，可以有多种方法，例如可以参见公开号为CN 111241153 A的中国发明中的相关描述，此处对此不再细述。

其中，作为本实施例的一种选择，每份数据还包括第二数据项；在选择第一数据代表时，根据所述第二数据项选择第一数据代表。

具体而言，通过以下方式选择第一数据代表（以及后文中的第二数据代表）：

；

其中，为实体对象所在公司的注册资本, />为实体对象所在公司的员工数量，为实体对象所在公司的成立年限, />为实体对象所在公司的专利数目。选取Score值最高者作为第一数据代表（或第二数据代表）。此处的/>即为所述的第二数据项所包含的数据内容。

此处需要强调的是，选择第一数据代表（或后文中的第二数据代表）的目的是只将第一数据代表（或第二数据代表）与其他数据进行比较，以进一步减少运算量。如果判断为数据归属于同一个实体对象，理论上随便选择哪一份数据作为第一数据代表都是可行的，只是可能在判断两份数据是否归属于同一实体主体时可能存在一定的误差性，因此此处优选选择数据对应的企业尽可能是大企业，企业越大就越稳定，对于构建第一数据代表体系就越有利。

步骤S400，将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果。

例如，假设经过步骤S300后得到若干个第一数据代表，例如分别为数据代表b1、数据代表b2、数据代表c、数据代表a等。然后将数据代表b1、数据代表b2、数据代表c、数据代表a之间进行一致性判断，此时可以是两两对比，将判断为归属于同一实体对象的第一数据代表进行合并，例如最终的一致性判断结果为数据代表b1、数据代表b2、数据代表a（数据代表c与数据代表a合并为一组，数据代表为数据代表a）。在存储数据库时，可以将全部数据都存储，只是被判断为归属于同一个实体对象的所有数据都带有一个相同的标记，以便于识别。

本数据一致性分析的方法利用第一衍生项将所有实体对象进行分组，获得多组第一数据组，然后只在选出的第一数据代表间进行一致性判断，从而高效率地识别出多份数据是否归属于同一实体对象，优化了现有的数据识别计算过程，提升了计算效率。

基于本发明实施例的同名自然人实体超级节点识别处理方法第一实施例，本文提出了同名自然人实体超级节点识别处理方法第二实施例。参阅图3，图3为本发明同名自然人实体超级节点识别处理方法的第二实施例的的流程示意图。

步骤S300，针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性，若是，则将具有一致性的多份数据合并为一组，并选出该组内的第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表。第一数据代表的个数小于该第一数据组内的数据份数。

步骤S500，根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组。

例如，所述第二衍生项为第一数据代表所对应的实体对象所在企业的注册地址的地区信息。此处的地区包括东北地区、华北地区、西南地区、华东地区等。此处的地区划分采用的目前公知的划分方式。

因此，本步骤具体是，将属于同一地区的企业所对应的若干个第一数据代表划分为同一个第二数据组。

例如，B地与D地均位于华东地区，可以将属于第一数据组B的第一数据代表与属于第一数据组D的第一数据代表组成一个新的数据组，即属于华东地区的第二数据组。

可选的，当其中一个或多个第二数据组中的数据量较大（也就是数据份数较多）时，也可以进行再次分组。也就是说，根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组步骤之后，还可以包括步骤：

（1）统计每一个第二数据组所包含的数据的份数。

（2）判断所述数据的份数是否大于或等于第二阈值，如果是，则将该第二数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第二阈值。

例如，第二预设阈值为100，假设“华东地区”这一第二数据组的组内数据份数为150份，因此可以再次分组为包含有50份数据的“华东地区一”这一第二数据组、包含有50份数据的“华东地区二”这一第二数据组和包含有50份数据的“华东地区三”这一第二数据组。

步骤S600，针对于同一第二数据组内的若干个第一数据代表，判断各个第一数据代表之间是否具有一致性，若是，则将具有一致性的多个第一数据代表合并为一组，并选出该组内的第二数据代表，不具有一致性的第一数据代表独立作为一个第二数据代表。显然地，第二数据代表的个数小于该第二数据组内的第一数据代表的个数。

本步骤中的第一数据代表的合并以及第二数据代表的选择方式同步骤S300，因此可参见步骤S300中的相关描述，为了简化，此处不再赘述。

步骤S700，将各个第二数据组的第二数据代表之间进行数据一致性分析，获得分析结果。

本步骤中的第二数据代表的合并方式同步骤S400，因此可参见步骤S400中的相关描述，为了简化，此处不再赘述。

参阅图4，基于相同的发明构思，本发明实施例还提供同名自然人实体超级节点识别处理系统的第一实施例，包括：

数据获取模块10，被配置为获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项；

数据分组模块20，被配置为根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组；

一致性分析模块30，被配置为针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性；以及将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果；

数据合并模块40，被配置为当所述一致性分析模块的输出结果为是时，将具有一致性的多份数据合并为一组，并选出该组内的所述第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表。显然地，第一数据代表的个数小于该第一数据组内的数据份数。

在另一个实施方案中，所述数据分组模块还被配置为，统计每一个第一数据组所包含的数据的份数，并判断所述数据的份数是否大于或等于第一阈值，如果是，则将该第一数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第一阈值。

在再一实施方案中，所述数据分组模块还被配置为根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组。

此时，一致性分析模块在执行将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果的操作时，针对于同一第二数据组内的若干个第一数据代表，判断各个第一数据代表之间是否具有一致性；以及将各个第二数据组的第二数据代表之间进行数据一致性分析，获得分析结果。

此时，数据合并模块还被配置为，当所述一致性分析模块的输出结果为是时，将具有一致性的多个第一数据代表合并为一组，并选出该组内的第二数据代表，不具有一致性的第一数据代表独立作为一个第二数据代表，所述第二数据代表的个数小于该第二数据组内的第一数据代表的个数。

本发明提供的数据一致性分析的系统，通过将多份数据进行分组，小组内进行一致性判断并选出若干个第一数据代表，然后只在选出的第一数据代表间进行一致性判断，因此相比于两两对比，可以极大地降低对比次数，降低运算量，提高纵向效率。另一方面，通过分组后，各个小组内的数据一致性分析的也可以基于不同的处理器进行处理，即实现并行处理，继而提高横向处理效率，即最终使得处理效率得到了极大的提高。

本发明数据一致性分析的系统的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的数据一致性分析的方法的推荐电子设备结构示意图。电子设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)等。设备可能被称为用户终端、便携式终端、台式终端等。

通常，电子设备包括：至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的数据一致性分析的程序，所述数据一致性分析的程序配置为实现如前所述的数据一致性分析的方法的步骤。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的数据一致性分析的方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时，显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时，显示屏305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，电子设备的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在电子设备的不同表面或呈折叠设计；在再一些实施例中，显示屏305可以是柔性显示屏，设置在电子设备的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图1中示出的结构并不构成对数据一致性分析的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有数据一致性分析的程序，所述数据一致性分析的程序被处理器执行时实现如上文所述的数据一致性分析的方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

Claims

1.一种同名自然人实体超级节点识别处理方法，其特征在于，包括以下步骤：获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项；根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组；针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性，若是，则将具有一致性的多份数据合并为一组，并选出该组内的第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表，所述第一数据代表的个数小于该第一数据组内的数据份数；将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果；

所述第一数据项的第一衍生项为所述实体对象所在企业的注册地址的省份信息；所述根据所述第一数据项的第一衍生项，将所述多份数据进行分组的步骤包括：将属于同一省份的企业所对应的若干份数据划分为同一个第一数据组；

进行一致性判断，两两对比，将判断为归属于同一实体对象的第一数据代表进行合并；在存储数据库时，将全部数据都存储，被判断为归属于同一个实体对象的所有数据都带有一个相同的标记，以便于识别。

2.根据权利要求1所述的同名自然人实体超级节点识别处理方法，其特征在于，所述将属于同一省份的企业所对应的若干份数据划分为同一个第一数据组的步骤之后，还包括步骤：统计每一个第一数据组所包含的数据的份数；判断所述数据的份数是否大于或等于第一阈值，如果是，则将该第一数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第一阈值。

3.根据权利要求1所述的同名自然人实体超级节点识别处理方法，其特征在于，所述将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果的步骤包括：根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组；针对于同一第二数据组内的若干个第一数据代表，判断各个第一数据代表之间是否具有一致性，若是，则将具有一致性的多个第一数据代表合并为一组，并选出该组内的第二数据代表，不具有一致性的第一数据代表独立作为一个第二数据代表，所述第二数据代表的个数小于该第二数据组内的第一数据代表的个数；将各个第二数据组的第二数据代表之间进行数据一致性分析，获得分析结果；

所述第一数据项的第二衍生项为所述实体对象所在企业的注册地址的地区信息；所述根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组的步骤包括：将属于同一地区的企业所对应的若干个第一数据代表划分为同一个第二数据组。

4.根据权利要求1所述的同名自然人实体超级节点识别处理方法，其特征在于，所述第一数据项的第一衍生项为所述实体对象的籍贯信息；所述根据所述第一数据项的第一衍生项，将所述多份数据进行分组的步骤包括：将属于同一籍贯的实体对象所对应的若干份数据划分为同一个第一数据组。

5.根据权利要求1所述的同名自然人实体超级节点识别处理方法，其特征在于，每份数据还包括第二数据项；在选择第一数据代表时，根据所述第二数据项选择第一数据代表。

6.一种同名自然人实体超级节点识别处理系统，其特征在于，包括：数据获取模块，被配置为获取多份数据，一份数据来源于一个实体对象，每份数据包括第一数据项；数据分组模块，被配置为根据所述第一数据项的第一衍生项，将所述多份数据进行分组，获得若干个第一数据组；一致性分析模块，被配置为针对于同一第一数据组内的若干份数据，判断各份数据之间是否具有一致性；以及将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果；数据合并模块，被配置为当所述一致性分析模块的输出结果为是时，将具有一致性的多份数据合并为一组，并选出该组内的所述第一数据代表，不具有一致性的各份数据独立作为一个第一数据代表，所述第一数据代表的个数小于该第一数据组内的数据份数；所述第一数据项的第一衍生项为所述实体对象所在企业的注册地址的省份信息；所述根据所述第一数据项的第一衍生项，将所述多份数据进行分组的步骤包括：将属于同一省份的企业所对应的若干份数据划分为同一个第一数据组；

7.根据权利要求6所述的同名自然人实体超级节点识别处理系统，其特征在于，所述数据分组模块还被配置为，统计每一个第一数据组所包含的数据的份数，并判断所述数据的份数是否大于或等于第一阈值，如果是，则将该第一数据组拆分为至少2个分组，使得每个分组中数据的份数小于所述第一阈值。

8.根据权利要求6所述的同名自然人实体超级节点识别处理系统，其特征在于，所述数据分组模块还被配置为根据所述第一数据项的第二衍生项，将所有的第一数据代表进行分组，获得若干个第二数据组；所述一致性分析模块在执行将各个第一数据组的第一数据代表之间进行数据一致性分析，获得分析结果的操作时，针对于同一第二数据组内的若干个第一数据代表，判断各个第一数据代表之间是否具有一致性；以及将各个第二数据组的第二数据代表之间进行数据一致性分析，获得分析结果；所述数据合并模块还被配置为，当所述一致性分析模块的输出结果为是时，将具有一致性的多个第一数据代表合并为一组，并选出该组内的第二数据代表，不具有一致性的第一数据代表独立作为一个第二数据代表，所述第二数据代表的个数小于该第二数据组内的第一数据代表的个数；

9.一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储计算机程序指令；其中，当所述计算机程序由所述处理器加载并运行时，所述处理器执行如权利要求1-5任一项所述的同名自然人实体超级节点识别处理方法。