CN110825919A

CN110825919A - Id数据处理方法和装置

Info

Publication number: CN110825919A
Application number: CN201810814300.1A
Authority: CN
Inventors: 贺勇; 李楠; 龚坚
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2020-02-21
Anticipated expiration: 2038-07-23
Also published as: CN110825919B

Abstract

本发明实施例提供一种ID数据处理方法和装置，即从各个业务系统获取大量的ID数据，根据获取的各ID数据构造ID节点关联图，每个节点对应一个ID数据；求取所述ID关联图中所有的联通分支；根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识，即每个联通分支所有节点的ID数据都归属与一个唯一特征标识。由于每个人的各种ID数据直接挂在一个唯一特征标识下面，不仅可以大大加快检索速度，同时检索一次便可以得到该人的所有ID数据。

Description

ID数据处理方法和装置

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种ID数据处理方法和装置。

背景技术

在数据管理业务中，主要是对各种数据进行管理，例如，在以“人”为中心的大数据中，需要建立以“人”为中心的“一人一档”，会将各种业务系统的数据进行汇聚起来，而每个人会有多种ID数据，并且ID数据是上亿级别，不同场合会使用不同的ID，同时不同的人可能拥有不同类型的ID，如大陆人可能有大陆身份证、普通护照、居住证、港澳通行证、台湾通行证等，而台湾人则没有大陆身份证，而外国人有外国护照、居住证等，同时同类型的证件，不同国家的编码设计也不一样，也可能不全局唯一，如护照，不同国家护照号位数可能不一样，不同国籍可能出现相同的护照号码。同时还有一些其它的ID，如手机号码、通讯设备ID、各种网络账号(支付宝账号、微信号、QQ号、邮箱号、微博账号等)，

因此在建立数据管理业务的“一人一档”时，对多个业务系统的数据进行融合时，需要将各个系统人的ID统一起来，并且进行同人的各种ID进行串起来。同时，ID数据与ID关联数据是上亿级别的，如何对这大规模的数据量进行计算是非常有必要的。

发明内容

本发明提供一种ID数据处理方法和装置,可以大大加快ID数据检索速度。

本发明实施例提供一种ID数据处理方法，包括：

根据获取的各ID数据构造ID节点关联图，每个节点对应一个ID数据；

求取所述ID关联图中的联通分支；

根据预设的编码规则对每个联通分支进行编码得到所述联通分支对应的唯一特征标识。

可选地，根据获取的各ID数据构造ID关联图包括：

从各个业务系统中获取多个的ID数据，所述ID数据至少包括ID类型和ID号码；

根据各ID数据之间的关联关系，使用各ID之间的关联作为无向边构造ID关联图，所述ID关联图中每个节点使用自己的ID数据作为其归属ID。

可选地，求取所述ID关联图中所有的联通分支包括：

步骤A、每个节点接收到所述ID关联图中与其相邻的所有邻居节点发送的归属ID；选择所有邻居节点发送的归属ID中最小的归属ID，设为MIN_ID；将MIN_ID与自己的归属ID比较，若MIN_ID小于自己归属的ID，则将MIN_ID设为自己新的归属ID，并设置ID更新标志，并将更新后的归属ID发送给自己所有的邻居节点，若MIN_ID大于等于自己的归属ID，则归属ID不变；

步骤B、若某个节点的归属ID存在更新标志，则重复迭代步骤A，直到所有的节点的归属ID不再更新时停止迭代；

步骤C、将拥有相同的归属ID的节点归属于同一个联通分支，输出所述联通分支中每个节点的ID数据及其归属ID。

可选地，根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识，包括：

根据每一个联通分支中每个节点的ID数据及其归属ID，利用预设的编码规则对每一个联通分支进行编码得到该联通分支对应的唯一特征标识；

所述唯一特征标识由32位16进制0-F构成，分别定义为：

第1-17位：17位，用于表示唯一特征标识生成时间，可以满足当初始化与更新在同一天或者一天内多个更新时，不会存在不同的人相同的唯一特征标识；

第18-19位：2位，保留位，用于区分唯一特征标识的类型；

第20-25位：6位，主要标志序列；

第26-31位：6位，次要标志序列；

第32位：1位，校验位。

可选地，根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识之后，还包括：

定期获取各个业务系统中新增的ID数据；

根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID；

求取新的联通分支，根据预设的编码规则对新的联通分支进行编码得到其对应的唯一特征标识。

可选地，根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID，包括：

根据原获取的ID数据和新增的ID数据，确定所述新增的ID与原获取的ID之间是否存在关联关系；

若存在关联关系，则将原获取的ID归属的联通分支的唯一特征标识确定为新增ID的归属ID；若不存在关联关系，则新增ID的归属ID为其ID数据。

可选地，求取新的联通分支以及根据预设的编码规则对新的联通分支进行编码得到所述新的联通分支对应的唯一特征标识，包括：

第一步，每个节点向其所有邻居节点发送其归属ID，若所述归属ID为唯一特征标识，则该归属ID带有唯一特征标识的类型标识；

第二步，每个节点接收到其所有邻居节点发送来的各个邻居节点的归属ID，设置两个临时变量，其中一个临时变量存储所有邻居节点发送的类型为唯一特征标识的最小归属唯一特征标识，设为T_ID1，另一个临时变量存储所有邻居节点发送的类型不是唯一特征标识的最小归属ID，设为T_ID2；

第三步，每个节点将自己的归属ID与所述T_ID1或所述T_ID2进行比较，具体包括：

若自己的归属ID是唯一特征标识，那么将其与T_ID1比较，如果T_ID1不为空，且T_ID1较小，则更新自己的归属ID为T_ID1，并且类型为唯一特征标识，同时设置ID归属的更新标志，如果T_ID1为空，则归属ID不变；

若自己的归属ID不是唯一特征标识，如果T_ID1不为空，则更新自己的归属ID为T_ID1，并且类型为唯一特征标识，同时设置ID归属的更新标志；

若自己的归属ID不是唯一特征标识，如果T_ID1为空，则比较自己归属的ID与T_ID2，如果T_ID2不为空，并且小于自己归属的ID，那么更新自己的归属ID为T_ID2，并且类型为非唯一特征标识类型，同时设置ID归属更新标志；

第四步：若某个节点的归属ID存在更新标志，那么重复第一步至第三步的迭代，直到所有的节点的归属ID都不再更新则停止迭代，得到新的联通分支，根据预设的编码规则对新的联通分支进行编码得到所述新的联通分支对应的唯一特征标识。

可选地，所述的方法还包括：

根据每个联通分支对应的唯一特征标识，对每两个唯一特征标识一一进行同人识别；

若识别两个唯一特征标识是同一个人，则输出这两个唯一特征标识产生一条联系的边，即该两个唯一特征标识对应的联通分支之间存在边连接，从而得到所有的联通分支之间的连接关系图；

根据所有联通分支之间的连接关系图，将具有连接关系的多个联通分支中确定为最大联通分支；

在最大联通分支中选择其中最小的唯一特征标识作为该最大联通分支的归属唯一特征标识，即将同人多唯一特征标识进行了合并归集。

可选地，所述的方法还包括：

对所述合并归集后的唯一特征标识创建正排索引与倒排索引，即建立每个最大联通分支的归属唯一特征标识与其中的每个节点的ID数据之间的对应关系。

本申请还提供一种ID数据处理装置，包括：

初始化模块，用于根据获取的各ID数据构造ID节点关联图，每个节点对应一个ID数据；求取所述ID关联图中的联通分支；根据预设的编码规则对每个联通分支进行编码得到所述联通分支对应的唯一特征标识。

可选地，所述初始化模块具体用于：

从各个业务系统中获取大量的ID数据，所述ID数据至少包括ID类型和ID号码；

可选地，所述初始化模块具体还用于执行如下步骤：

可选地，所述初始化模块具体还用于：

根据每一个联通分支中每个节点的ID数据及其归属ID，利用预设的编码规则对每一个联通分支进行编码得到该联通分支对应的唯一特征标识。

可选地，所述的装置还包括：

更新模块，用于定期获取各个业务系统中新增的ID数据；根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID；求取新的联通分支，根据预设的编码规则对新的联通分支进行编码得到所述新的联通分支对应的唯一特征标识。

可选地，所述更新模块具体用于：

可选地，所述更新模块具体还用于执行如下步骤：

可选地，所述的装置还包括：

唯一特征标识合并模块，用于根据每个联通分支对应的唯一特征标识，对每两个唯一特征标识一一进行同人识别；若识别两个唯一特征标识是同一个人，则输出这两个唯一特征标识产生一条联系的边，即该两个唯一特征标识对应的联通分支之间存在边连接，从而得到所有的联通分支之间的连接关系图；根据所有联通分支之间的连接关系图，将具有连接关系的多个联通分支中确定为最大联通分支；在最大联通分支中选择其中最小的唯一特征标识作为该最大联通分支的归属唯一特征标识，即将同人多唯一特征标识进行了合并归集。

可选地，所述的装置还包括：

建立模块，用于对所述合并归集后的唯一特征标识创建正排索引与倒排索引，即建立每个最大联通分支的归属唯一特征标识与其中的每个节点的ID数据之间的对应关系。

本申请实施例通过从各个业务系统获取大量的ID数据，根据获取的各ID数据构造ID节点关联图，每个节点对应一个ID数据；求取所述ID关联图中所有的联通分支；根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识，即每个联通分支所有节点的ID数据都归属与一个唯一特征标识。由于每个人的各种ID数据直接挂在一个唯一特征标识下面，不仅可以大大加快检索速度，同时检索一次便可以得到该人的所有ID数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的ID数据处理方法的流程示意图；

图2为本发明另一实施例提供的ID数据处理方法的流程示意图；

图3为本发明又一实施例提供的ID数据处理方法的流程示意图；

图4为本发明另一实施例中初始化步骤的流程示意图；

图5为本发明另一实施例中唯一特征标识日更新步骤的流程示意图；

图6为本发明另一实施例中同人多唯一特征标识合并步骤的流程示意图；

图7为本发明一实施例提供的ID数据处理装置的结构示意图；

图8为本发明另一实施例提供的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

对于上亿级别的ID数据与ID关联数据，发明人对现有的ID检索方法进行研究发现：由于现有的检索方法是基于存储与建立ID与ID之间的索引关系，查找的方法来通过输入一种ID得到另一种ID，但是，当数据库中没有这两种ID的之间直接关联时，只能通过输入其他的ID与输入的ID进行间接联系，则需要多次检索才能得到，例如，两个ID之间通过其它3个ID进行间接关联，那么便需要检索4次，从而无法进行直接得到，大大降低了检索效率。

为此，发明人对现有的ID数据检索方法进行改进，基于大量的ID数据及各ID之间的关联关系，对所有关联的ID根据本发明设置的编码规则建立统一、唯一的唯一特征标识，建立唯一特征标识之后，同一个人的各种ID直接挂在同一个唯一特征标识下面，这样只要将输入ID先转化为唯一特征标识，然后再检索一次便可以得到这个人所有的其他ID，因此大大加快检索速度，同时检索一次便可以得到该人的所有ID数据。

需要说明的是，本发明中为了方便对人的数据进行管理与以及各种场景下的交叉检索，需要为每一个人设计一种全局唯一的、模式相同的、具有不变性的ID，这种ID称为唯一特征标识，同时将该唯一特征标识所对应的人的各种ID合并归集到该唯一特征标识下，这样不论何地区何国家的人都有统一的ID，并且任意输入一种ID，可以得到该ID所对应的人的其他各种ID。

图1为本发明一实施例提供的ID数据处理方法的流程示意图；如图1所示，包括：

101、根据获取的各ID数据构造ID节点关联图，每个节点对应一个ID数据；

具体实现时包括：从各个业务系统中获取大量的ID数据，所述ID数据至少包括ID类型和ID号码；根据各ID数据之间的关联关系，使用各ID之间的关联作为无向边构造ID关联图，所述ID关联图中每个节点使用自己的ID数据作为其归属ID。

102、求取所述ID关联图中的联通分支；

具体地，步骤102中求取所述ID关联图中的联通分支包括：

103、根据预设的编码规则对每个联通分支进行编码得到所述联通分支对应的唯一特征标识。

具体实现时包括：根据每一个联通分支中每个节点的ID数据及其归属ID，利用预设的编码规则对每一个联通分支进行编码得到该联通分支对应的唯一特征标识；

其中，所述唯一特征标识由32位16进制0-F构成，分别定义为：

第18-19位：2位，保留位，用于区分唯一特征标识的类型；

第20-25位：6位，主要标志序列；

第26-31位：6位，次要标志序列；

第32位：1位，校验位。

例如，各个数据业务系统中存在很多关于人的ID数据，并且也存在同人的各种ID之间的依赖、关联等关系数据，如居住证系统中，会使用身份证或者护照号码去办理居住证，这样就有居住证到身份证或者居住证到护照之间的依赖；又如护照办理系统中，会使用身份证去办理护照，那么就有护照到身份证之间的依赖关系；再如，车管所系统中，有车牌号码到身份证之间关联关系，等等，因此，可以通过这些ID与ID之间的关联数据构造一张拥有着亿级别边与点的大规模无向图(即ID节点关联图)，这些具有关联关系的ID都是同一个人的，因此可以在ID关联图上求取所有的联通分支，每个联通分支是同一个人的各ID数据，然后对每个联通分支按照设计的特定规则编码得到一个唯一特征标识，那么该联通分支下的所有ID都会集聚在该唯一特征标识下面，从而可以使用该唯一特征标识来标识这个联通分支所代表的人。

图2为本发明另一实施例提供的ID数据处理方法的流程示意图；如图2所示，包括：

201、定期获取各个业务系统中新增的ID数据；

202、根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID；

具体地，根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID，包括：

根据原获取的ID数据和新增的ID数据，确定所述新增的ID与原获取的ID之间是否存在关联关系；若存在关联关系，则将原获取的ID归属的联通分支的唯一特征标识确定为新增ID的归属ID；若不存在关联关系，则新增ID的归属ID为其ID数据。

203、求取新的联通分支，根据预设的编码规则对新的联通分支进行编码得到其对应的唯一特征标识。

具体包括：

在实际应用中，各个数据业务系统每天会产生新的ID数据，例如包括新申请人的ID数据(即原先获取的ID数据中没有该人的ID)、属于同一个人的多个联通分支产生关联的ID数据(即原先获取的ID数据由于无法将这些属于同一个人的多个联通分支关联的ID、已经存在唯一特征标识的人新增了以前不存在的ID。又例如，还存在同一个人拥有多个最大联通分支(多个唯一特征标识)，因为可能会存在同人的最大联通分支之间没有关联边，但是本本申请技术方案会每天运行一次，一旦有某个关联关系数据到来，则对关联上的联通分支进行合并。如初始时，某个人只有居住证到护照之间、身份证到车牌号码之间的关联数据，那么该人会有两个联通分支，第一个联通分支包括居住证与护照，第二个联通分支包括身份证与车牌号码。如果某一天，来了该人的护照到身份证之间的关联数据，那么这两个联通分支并产生了关联，直接进行合并，即对该人的多个唯一特征标识进行合并得到一个，本方案选择最早生成的唯一特征标识(唯一特征标识中带有生成时间属性)。

针对上述情况，本实施例根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID，求取新的联通分支，并根据预设的编码规则对新的联通分支进行编码得到其对应的唯一特征标识，从而可以自动实现唯一特征标识的更新操作、同人多个唯一特征标识合并以及新ID归属于已有的唯一特征标识。

图3为本发明又一实施例提供的ID数据处理方法的流程示意图；如图3所示，包括：

301、根据每个联通分支对应的唯一特征标识，对每两个唯一特征标识一一进行同人识别；

302、若识别两个唯一特征标识是同一个人，则输出这两个唯一特征标识产生一条联系的边，即该两个唯一特征标识对应的联通分支之间存在边连接，从而得到所有的联通分支之间的连接关系图；

303、根据所有联通分支之间的连接关系图，将具有连接关系的多个联通分支中确定为最大联通分支；

304、在最大联通分支中选择其中最小的唯一特征标识作为该最大联通分支的归属唯一特征标识，即将同人多唯一特征标识进行了合并归集。

在实际应用中，由于在各业务系统中获取的ID数据存在质量问题，如数据中存在一部分外国人，护照号码是一样的，出生日期是一样的，性别不存在冲突，姓名字符相似(如姓与名顺序不一样，少写多写字符，没有姓等)、但是国籍是多个(可能ID数据采集出错)，此时，可以通过本申请图3所示实施例进行同人识别以及同人多个唯一特征标识的合并归集。

需要说明的是，本实施例中，可以对上述合并归集后的唯一特征标识创建正排索引与倒排索引，即建立每个最大联通分支的归属唯一特征标识与其中的每个节点的ID数据之间的对应关系，方便不同需求的ID数据搜索。

下面对本申请技术方案的具体实现方式进行详细的说明，具体地，本申请技术方案分为四个步骤，第一个是初始化步骤，第二个是日更新步骤，第三个是基于相似算法的同人多唯一特征标识归集，第四个是唯一特征标识的正排索引与倒排索引建立。

其中，初始化步骤只运行一次，包括抽取ID关系数据、构造ID关系图、求取所有联通分支、唯一特征标识编码；

日更新步骤是每天运行一次，包括提取更新的ID关系数据、结合前一天的唯一特征标识数据、前一天的全量ID数据与日更新数据构建部分带唯一特征标识的关系图、归属于现有唯一特征标识与新的联通分支求取、新的联通分支唯一特征标识编码、已有的与新增的唯一特征标识合并；

基于相似算法的同人多唯一特征标识归集步骤，是在初始化之后与日更新之后都需要运行一次，为了解决ID关系数据的质量问题或者本来就无法覆盖的情况而带来的同一个人拥有多唯一特征标识问题，具体包括：同人识别、同人多唯一特征标识归集。

唯一特征标识的正排索引与倒排索引是为了存储与快速交叉检索而建立的。

图4为本发明另一实施例中初始化步骤的流程示意图，如图4所示的初始化步骤，具体实现包括：

抽取ID关系数据：从各个业务系统中提取各ID与ID之间依赖数据。

构造ID关系图：使用ODPS-Graph大规模图计算工具构造ID关联图；

因为Graph的每个点需要设置一个在图中能唯一标识的ID，而该图中每个点都是一种ID数据，因此需要对每一种(如身份证，护照等)ID数据的每一个取值(如各个身份证号码、各个护照号码)设置一个唯一标识。通过观察ID数据，对于不同类型的ID，值可能会重复，因此需要加上“ID类型“。特别的，对于护照，不同国籍的护照号码可能会重复，因此对于护照需要加上国籍，而其他的人ID数据则不需要，因此对于护照，使用“ID类型+ID号码+国籍”来唯一标识；对于其他类型ID，使用“ID类型+ID号码”来唯一标识。这样Graph的点ID设置好之后，接着使用ID之间的关联作为无向边构造图。

最大联通子图：构造ID关联图完成之后，使用并查集来求ID关联图中所有的联通分支，在ODPS-Graph实现中是使用消息传播机制来求取联通分支的；

在初始化时，D关联图中每个节点使用自己的ID作为其归属ID。

第一步：每个节点将自己的归属ID传播给与自己相邻的每个节点。

第二步：每个节点接收到其所有邻居节点传来的消息(各个邻居节点的归属ID)，选择邻居节点的归属ID中最小的ID，设为MIN_ID，然后与自己的归属ID比较，如果小于自己归属的ID，则将MIN_ID设为自己新的归属ID，并置自己的Change标志为true，否则归属ID不变。如果自己的归属ID更新了，则将自己的新的归属ID发送给自己所有的邻居。

如果存在某个节点的Change标志为true(即存在更新)，那么重复第二步的迭代，直到所有的节点的归属ID都不再更新则停止，即收敛了。

最后，拥有相同的归属ID(作为联通分支号)则在同一个联通分支中，输出每个节点数据与其归属的ID，即得到了图中所有的联通分支。

唯一特征标识编码：图中所有的联通分支求取之后，其实每个联通分支号便可以作为唯一特征标识了，但是当前的联通分支号不具有统一性(因为是选择联通分支类最小的节点ID作为联通分支号，那么有些联通分支可能是“身份证+身份证号码”，有些可能是“护照+护照号码+国籍”)，因此需要将每个联通分支号进行统一，即进行统一的唯一特征标识编码，编码规则如下：

唯一特征标识由32位16进制0-F构成，分别定义为：

●第1-17位：17位，唯一特征标识生成时间，表示自1970-01-01(含)过去的毫秒数(该粒度可以满足，初始化与更新在同一天(或者一天内多个更新)而不会存在不同人的唯一特征标识一样)；

●第18-19位：2位，保留位，日后用于区分唯一特征标识的类型；

●第20-25位：6位，主要标志序列(可以使用分布式计算的worker_id)；

●第26-31位：6位，次要标志序列(可以使用分布式计算的worker内顺序号)；

●第32位：1位，校验位(前四个字段数字相加余上16)。

样例：

00000000000000146-00-000014-10052D-9

唯一特征标识具有如下技术特性：

●唯一特征标识具有统一性、唯一性、不变性；

●唯一特征标识可直接一一映射为Long类型，占位32*4＝128bit＝16Byte。这样很便于相关应用系统存储、计算。

具体编码可以使用MapReduce实现：

Mapper：输出的key-value，key为联通分支号，value为每一个归属于该联通分支中的人ID数据。

Reducer：通过Mapper的输出，那么同一个联通分支内的人的ID都会聚集在同一个Reducer下，Reducer的key为联通分支号，因此采用上述的唯一特征标识编码规则进行编号，其中第20-25位主要标志序列使用Reducer所在worker编号(整个计算任务会分成多个worker进行分布式计算，而一个worker会负责多个Reducer的计算)，第26-31位次要标志序列使用其所在的worker的Reducer顺序号(同一个worker中的所有Reducer有一个内部编号)。最后每个Reducer输出<唯一特征标识,该唯一特征标识所表示的联通分支下的人ID1的各字段>、<唯一特征标识,该唯一特征标识所表示的联通分支下的人ID2的各字段>…，每一个ID一行。

图5为本发明另一实施例中唯一特征标识日更新步骤的流程示意图，如图5所示的唯一特征标识日更新步骤，具体实现包括：

因为每天会有新的ID数据到来，包括新进来的人的ID数据(即之前的ID数据中没有该人的ID数据)，又包括将属于同一个人的多个联通分支(以前的ID数据由于无法将这些属于同一个人的多个联通分支关联的ID数据)产生关联的ID数据，还包括已经存在唯一特征标识的人新增了以前不存在的ID数据。因此针对这三种，分别需要新唯一特征标识编码、同人多个唯一特征标识合并、新ID归属于已有的唯一特征标识。这三种操作需要前一天的唯一特征标识结果数据、前一天的ID关联全量数据、新增的ID关联数据。因此需要结合这三种数据构造图。

首先，合并前一天的ID关联数据与新增的ID关联数据来构造Graph(ID关联图)，Graph的节点ID设置规则同于初始化步骤中的规则。然后结合前一天的唯一特征标识结果数据，对于前一天唯一特征标识结果数据存在的节点，其初始时的归属ID为唯一特征标识；对于前一天唯一特征标识结果数据中不存在的节点，其初始时的归属ID为自己的节点ID，这样就构造好了部分带唯一特征标识的关系图。

然后，使用并查集算法来对新ID进行归属、新的联通分支求取、同人的多唯一特征标识合并，具体实现使用ODPS-Graph的消息传播机制。

前面初始化时，每个节点的归属ID已经设置好，即对于存在唯一特征标识的节点，其归属ID为其唯一特征标识，否则其归属ID为其节点ID。

第一步：每个节点向其所有邻居节点发送其归属ID，每个归属ID带有类型(即是否是唯一特征标识)；

第二步：每个节点接收到其所有邻居节点传来的消息(各个邻居节点的归属ID)，设置两个临时变量，初始化都为NULL。第一个临时变量存储所有邻居节点发来的消息中类型为唯一特征标识的最小归属唯一特征标识，设为T_ID1。第二个临时变量存储所有邻居节点发来消息中类型不是唯一特征标识的最小归属ID，设为T_ID2。然后，与自己的归属ID进行比较。

如果自己的归属ID是唯一特征标识，那么将其与T_ID1比较，如果T_ID1不为NULL，且其T_ID1较小，则更新自己的归属ID为T_ID1，并且类型为唯一特征标识，同时设置自己的Change标志为true，如果T_ID1为空，则归属ID不变。这种情况就是同人多个唯一特征标识进行了合并，选择最小的唯一特征标识。

如果自己的归属ID不是唯一特征标识，如果T_ID1不为空，那么更新自己的归属ID为T_ID1，并且类型为唯一特征标识，同时设置自己的Change标志为true。这种情况便是新来的ID找到了已经存在的唯一特征标识进行归属。否则，T_ID1为空，则比较自己归属的ID与T_ID2，如果T_ID2不为空并且小于自己归属的ID，那么更新自己的归属ID为T_ID2，并且类型为非唯一特征标识类型，同时设置自己的Change标志为true。这种情况可能是新人，也可能是新来的ID暂时还没找到归属唯一特征标识(如果迭代停止了还是如此，则是新人)。

因此，会得到两种输出，一种输出是同人合并或者新ID归属到已存在的唯一特征标识上，这种直接使用新的唯一特征标识代替或者作为自己的唯一特征标识，即更新后的唯一特征标识；另一种输出是新人，以前没有他的任何ID数据，因此以前也不存在他唯一特征标识，那么得到了该人的联通分支号(临时唯一特征标识)，这个联通分支号还需要按照唯一特征标识的编码得到唯一特征标识。

进而，对于上述得到的新人的联通分支，按照前面的唯一特征标识编码规则进行编码得到唯一特征标识，具体实现也是使用一个MapReducer任务，参见初始化步骤中的相关描述。

最后，对更新后的唯一特征标识与新人的唯一特征标识进行合并得到这次运行的结果。

图6为本发明另一实施例中同人多唯一特征标识合并步骤的流程示意图，如图6所示的同人多唯一特征标识合并步骤，具体实现包括：

需要说明的是，图6所示的同人多唯一特征标识合并步骤不同于图5所示的“日更新步骤”中的同人多唯一特征标识合并。其中，图5所示的“日更新步骤”中的同人多唯一特征标识合并是由于历史ID数据不足，而新来的ID数据让多个唯一特征标识产生了联系而发生的合并。而图6所示的同人多唯一特征标识合并，是由于ID数据的质量问题造成的，需要结合近似算法来进行识别的。例如，ID数据中存在一部分外国人，护照号码是一样的，出生日期是一样的，性别不存在冲突，姓名字符相似(如姓与名顺序不一样，少写多写字符，没有姓等)、但是国籍是多个(可能ID数据采集出错)。因此这里涉及到两个步骤，一个是同人识别，另一个是同人多唯一特征标识合并。

首先，使用一个MapReducer任务来进行同人识别，因为这里的同人至少是“证件类型+证件号码+出生日期”相同，因此Mapper输出的key是“证件类型+证件号码+出生日期”，value是其的唯一特征标识,姓名、性别、国籍。这样相同的“证件类型+证件号码+出生日期“相同的唯一特征标识全部集聚到同一Reducer中。因此对每个Reducer的唯一特征标识进行两两唯一特征标识计算来识别这两两唯一特征标识是否是同人。具体策略如下(下面及格分同时满足)：

1.性别不冲突，即不是一方是“男”，另一方是“女”。

2.姓名相似(不考虑大小写)。姓名相似规则如下(满足之一便可)：(1)字符串相等。(2)字符集一样(比如都是中文姓名，都是英文姓名)。在满足字符集一样的情况下，要么一个是另一个的子字符串；要么，如果都是中文，则两者的姓名的长度减去最长公共子序列的长度小于等于1，即最多差1个字符；要么，如果都是非中文，则两者的姓名的长度减去最长公共子序列的长度小于等于3，即最多差3个字符。

两个唯一特征标识是同人之后，那么输出这两个唯一特征标识产生一条联系的边，并且较大的唯一特征标识为唯一特征标识1，较小的唯一特征标识为唯一特征标识2，<唯一特征标识1,唯一特征标识2>，即表示这两个唯一特征标识所代表的人的唯一特征标识是同人，需要进行合并，并且唯一特征标识1合并到唯一特征标识2。

MapReducer之后，还只得到哪些唯一特征标识需要合并与合并到较小的唯一特征标识，但是还无法得到每个需要合并最终的唯一特征标识，因为可能存在间接合并的情况，比如<唯一特征标识1,唯一特征标识2>表示唯一特征标识1合并到唯一特征标识2，<唯一特征标识2,唯一特征标识3>表示唯一特征标识2合并到唯一特征标识3，因此最终唯一特征标识1是需要合并到唯一特征标识3的，同时可能还会存在其他Reducer中也存在唯一特征标识1的合并数据。因此MapReducer的输出还不能满足，需要再加上一个求联通分支的Graph步骤。

因为存在边连接或者间接可达的都会在一个联通分支中，这样选择联通分支中最小的唯一特征标识作为该联通分支内所有唯一特征标识的归属唯一特征标识，这样使用MapReducer的输出作为边构建Graph，使用前面所讲述的Graph联通分支求取算法得到所有的联通分支，这样联通分支中最小的唯一特征标识便是该联通分支的联通分支号，从而输出每个唯一特征标识及其所在联通分支的联通分支号便可，即将同人多唯一特征标识进行了归集。

最后，对唯一特征标识创建正排索引与倒排索引，方便不同需求的搜索，从而可以保证，原输入表中的任意ID，都可以找到至少一个唯一特征标识与其对应。反之，任意一个唯一特征标识，也很容易枚举出其关联的不同类型ID。前者称之为“倒排索引”，后者构成“正排索引”。

正排索引格式举例如下：

倒排索引格式举例如下：

Key	Value
		身份证	唯一特征标识
护照	唯一特征标识
		居住证	唯一特征标识
……	……

图7为本发明一实施例提供的ID数据处理装置的结构示意图，如图7所示，包括：

可选地，所述初始化模块具体用于：

可选地，所述初始化模块具体还用于执行如下步骤：

可选地，所述初始化模块具体还用于：

可选地，所述的装置还包括：

可选地，所述更新模块具体用于：

可选地，所述更新模块具体还用于执行如下步骤：

可选地，所述的装置还包括：

本实施例所示装置可以执行上述图1-图6所示方法实施例，其实现原理和技术效果不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被计算机执行时能够实现上述方法实施例中与ID数据处理装置相关的步骤或操作，在此不再赘述。

图8为本发明另一实施例提供的服务器的结构示意图，如图8所示，包括：

存储器81、处理器82以及通信组件83；

通信组件83，用于在各个业务系统获取大量的ID数据；

存储器82，用于存储计算机程序；

处理器81，与存储器和通信组件耦合，用于执行计算机程序，以用于：

求取所述ID关联图中的联通分支；

可选地，处理器81，还用于：

定期获取各个业务系统中新增的ID数据；

求取新的联通分支，根据预设的编码规则对新的联通分支进行编码得到所述新的联通分支对应的唯一特征标识。

可选地，处理器81，还用于：

进一步，如图8所示，终端设备还包括：显示器84、电源组件85、音频组件86等其它组件。图8中仅示意性给出部分组件，并不意味着服务器只包括图8所示组件。

本实施例所示服务器可以执行上述图1-图6所示方法实施例，其实现原理和技术效果不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种ID数据处理方法，其特征在于，包括：

求取所述ID关联图的联通分支；

2.根据权利要求1所述的方法，其特征在于，根据获取的各ID数据构造ID关联图包括：

从各个业务系统中获取多个ID数据，所述ID数据至少包括ID类型和ID号码；

3.根据权利要求2所述的方法，其特征在于，求取所述ID关联图中联通分支包括：

4.根据权利要求3所述的方法，其特征在于，根据预设的编码规则对每个联通分支进行编码得到其对应的唯一特征标识，包括：

所述唯一特征标识由32位16进制0-F构成，分别定义为：

第18-19位：2位，保留位，用于区分唯一特征标识的类型；

第20-25位：6位，主要标志序列；

第26-31位：6位，次要标志序列；

第32位：1位，校验位。

5.根据权利要求1-4中任一项所述的方法，其特征在于，根据预设的编码规则对每个联通分支进行编码得到所述联通分支对应的唯一特征标识之后，还包括：

定期获取各个业务系统中新增的ID数据；

6.根据权利要求5所述的方法，其特征在于，根据原获取的ID数据和新增的ID数据，结合所有的联通分支及其对应的唯一特征标识，确定新增的ID的归属ID，包括：

7.根据权利要求6所述的方法，其特征在于，求取新的联通分支以及根据预设的编码规则对新的联通分支进行编码得到所述新的联通分支对应的唯一特征标识，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.一种ID数据处理装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述初始化模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述初始化模块具体还用于执行如下步骤：

13.根据权利要求12所述的装置，其特征在于，所述初始化模块具体还用于：

14.根据权利要求10-13中任一项所述的装置，其特征在于，还包括：

15.根据权利要求14所述的装置，其特征在于，所述更新模块具体用于：

16.根据权利要求15所述的装置，其特征在于，所述更新模块具体还用于执行如下步骤：

17.根据权利要求16所述的装置，其特征在于，还包括：

18.根据权利要求17所述的装置，其特征在于，还包括：