CN109726585A

CN109726585A - 一种面向身份证号码的集成数据脱敏系统及方法

Info

Publication number: CN109726585A
Application number: CN201811532422.8A
Authority: CN
Inventors: 张名民; 李建元; 于海龙; 秦俊峰; 张江鑫; 王超群
Original assignee: Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co.,Ltd.
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-07
Anticipated expiration: 2038-12-14
Also published as: CN109726585B

Abstract

本发明涉及一种面向身份证号码的集成数据脱敏系统及方法，主要包括：(1)收集待脱敏身份证号码；(2)采用脱敏方法对待脱敏身份证号码进行脱敏处理，获得一级脱敏身份证号码。另外，还可根据实际需要进一步地进行脱敏操作获取二级脱敏身份证号码。本发明的脱敏结果都很好的保留了地域信息、年龄信息、性别信息等，具有很好的分析价值；本发明采用一种多策略的混合脱敏、扩展脱敏等方式来满足不同场景的脱敏需求，可以在亿万级别的数据量下，保证脱敏结果的一致性，同时满足不同需求的身份证脱敏场景。

Description

一种面向身份证号码的集成数据脱敏系统及方法

技术领域

本发明涉及数据处理领域，尤其涉及一种面向身份证号码的集成数据脱敏系统及方法。

背景技术

随着科技的发展、信息化技术的不断进步，大数据时代已经悄然来临，爆炸式增长的数据已然成为一种宝贵的资产。无论是各种企业还是政府，每天都或多或少的收集、存储各种各样的数据，在政府、企业，尤其是政府机构中，为了实现数据的利用最大化，各单位之间就必须要实现数据的共享交换，以打破数据壁垒，连通数据孤岛。在交换的数据之中，一定会存在各种各样的个人隐私数据，随着数据交换的不断进行，不可避免的，敏感数据泄露的风险也在与日俱增。

数据脱敏又称数据变形、数据漂白。主要方法有算法转换、替代、混洗、数值变换、加密、模糊、截断等。一种好的脱敏方法能尽可能的保留数据价值，同时消除原始数据的痕迹，从而达到既能有效的保护数据，又能提高数据利用率的目的。在个人隐私数据的共享交换之中，个人身份证信息既是一个人最重要的隐私信息，又是连接同一个人在不同系统中的各种不同信息的关键所在。所以，做好身份证信息的脱敏工作十分重要。

在一部分现有的脱敏方法中，首先，只对6位行政区域代码中的前两位(省级代码)进行置换脱敏，可能会产生无效的行政区域代码，如：342427→112427。其次，出生日期、顺序号随机生成，对于不同系统的同一身份证号码，极有可能脱敏成不同的结果，从而对数据融合分析造成影响。本专利的优势在于，以上两个问题都在本专利中得到了很好的解决。还有一部分现有的脱敏方法中，算法相关参数固定，没有跟原身份证号关联；其次，出生日期脱敏后都会偏大；最后也是最重要的一点，该方法只能在少量数据脱敏时保证唯一性，当待脱敏的身份证号的数据量达到几十万条时，就会出现不同身份证号码脱敏成同一个脱敏结果的情况，从而影响数据的串联、融合等。本专利的优势在于，针对以上三个问题都提出了有效的解决办法。

发明内容

本发明为克服上述的不足之处，目的在于提供一种面向身份证号码的集成数据脱敏系统及方法，本发明系统简单，本发明方法采用一种多策略的混合脱敏、扩展脱敏等方式来满足不同场景的脱敏需求，可以在亿万级别的数据量下，保证脱敏结果的一致性。

本发明是通过以下技术方案达到上述目的：一种面向身份证号码的集成数据脱敏系统，包括：待脱敏身份证数据集获取模块、合规身份证号码检验筛选模块、身份证数据集统一模块、身份证号码脱敏模块；其中，待脱敏身份证数据集获取模块用于收集各个交换系统的待脱敏身份证号码，形成统一的待脱敏身份证号码数据集；合规身份证号码检验筛选模块用于检验从待脱敏数据集传输过来的待脱敏身份证号码是否符合身份证号组成规范，如果符合则将其传入身份证数据集统一模块，反之则剔除；身份证数据集统一模块用于将所有的15位身份证号码升位成18位身份证号码，便于后期脱敏处理；身份证号码脱敏模块包含四个子模块，每个子模块对应一种脱敏方法，用户可以根据实际需求来选择最适合的子模块中的脱敏方法，完成身份证号码的脱敏。

作为优选，所述的四个子模块，分别为：

子模块I，将待脱敏身份证号码进行一级脱敏处理，获得一级脱敏身份证号码；

子模块II，将待脱敏身份证号码进行一级脱敏处理，获得一级脱敏身份证号码；将一级脱敏身份证号码的第15位置换为混淆码，将一级脱敏身份证号码的第16位置换为待脱敏身份证号码的第18位校验码，获得最终的脱敏后身份证号码；

子模块III，将待脱敏身份证号码进行一级脱敏处理，获得一级脱敏身份证号码；将一级脱敏身份证号码后面添加所获得的2位混淆码，在2位混淆码后面添加1位待脱敏身份证号码的校验码，获得最终的脱敏后身份证号码；

子模块IV，将待脱敏身份证号码进行一级脱敏处理，获得一级脱敏身份证号码；将一级脱敏身份证号码后面添加所获得的4位混淆码，在4位混淆码后面添加1位待脱敏身份证号码的校验码，获得最终的脱敏后身份证号码；

其中所述的一级脱敏处理包括：将待脱敏身份证号码进行分割，取得行政区域代码、出生日期代码以及顺序码，根据行政区域代码设置参数；将行政区域代码与参数相乘、取余后查行政区域代码表，获得脱敏后的行政区域代码；将出生日期代码与参数相乘、取余后将原出生日期根据结果左右摇摆，得到脱敏后的出生日期代码；顺序码不作处理，最后一位校验码根据脱敏后的行政区域代码、脱敏后的出生日期代码、顺序码自动生成；

所述混淆码获取包括：取一级脱敏身份证号码和/或待脱敏身份证号码的部分号码，号码运算取余后查混淆码对照表获得混淆码。

一种面向身份证号码的集成数据脱敏方法，包括如下步骤：

(1)收集待脱敏身份证号码；

(2)采用脱敏方法I对待脱敏身份证号码进行脱敏处理；所述的脱敏方法I为将待脱敏身份证号码进行分割，取得行政区域代码、出生日期代码以及顺序码，根据行政区域代码设置参数；将行政区域代码与参数相乘、取余后查行政区域代码表，获得脱敏后的行政区域代码；将出生日期代码与参数相乘、取余后将原出生日期根据结果左右摇摆，得到脱敏后的出生日期代码；顺序码不作处理，最后一位校验码根据脱敏后的行政区域代码、脱敏后的出生日期代码、顺序码自动生成，获得一级脱敏身份证号码。

一种面向身份证号码的集成数据脱敏方法，包括如下步骤：

(1)收集待脱敏身份证号码；

(2)采用脱敏方法II对待脱敏身份证号码进行脱敏处理，具体如下：

(a)将待脱敏身份证号码进行分割，取得行政区域代码、出生日期代码以及顺序码，根据行政区域代码设置参数；将行政区域代码与参数相乘、取余后查行政区域代码表，获得脱敏后的行政区域代码；将出生日期代码与参数相乘、取余后将原出生日期根据结果左右摇摆，得到脱敏后的出生日期代码；顺序码不作处理，最后一位校验码根据脱敏后的行政区域代码、脱敏后的出生日期代码、顺序码自动生成，获得一级脱敏身份证号码；

(b)取一级脱敏身份证号码和待脱敏身份证号码，号码运算取余后查混淆码对照表获得混淆码，进行二级脱敏，获得最终脱敏后的身份证号码，其中，所述的号码运算采用以下一种或多种方式：

相加；相乘；加设定值；

其中，所述的二级脱敏采用以下任意一种或多种方式：

将混淆码替换一级脱敏身份证号码；

将混淆码添加到一级脱敏身份证号码；

将待脱敏身份证号码的部分号码替换一级脱敏身份证号码；

将待脱敏身份证号码的部分号码添加到一级脱敏身份证号码。

作为优选，所述步骤(b)具体如下：

(b.1)取待脱敏的身份证号码的前17位之和S_1～17，根据如下算法获得余数Remainder，再根据Remainder查混淆码对照表I获取混淆码；

Remainder＝S_1～17mod 36

其中，混淆码对照表I具体为：余数为0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35对应的混淆码分别为Z、A、Q、X、S、W、C、D、E、V、F、R、B、G、T、N、H、Y、M、J、U、0、1、2、3、4、5、6、7、8、9、I、O、P、K、L；

(b.2)将一级脱敏身份证号码的第15位置换为所获得的混淆码，将一级脱敏身份证号码的第16位置换为待脱敏身份证号码的第18位校验码，获得最终脱敏后的身份证号码。

作为优选，所述步骤(b)具体还可如下：

(b.1)取待脱敏身份证号码的第1-6位之和S_1～6、第7-14位之和S_7～14；根据如下算法获得余数Remainder1、Remainder2，根据Remainder1、Remainder2查混淆码对照表I获取混淆码：

Remainder1＝S_1～6mod 36

Remainder2＝S_7～14mod 36

(b.2)将一级脱敏身份证号码的后面追加所获得的2位混淆码，再在混淆码面追加一位待脱敏身份证号码的校验码，获得最终脱敏后的身份证号码。

作为优选，所述步骤(b)具体还可如下：

(b.1)取待脱敏的身份证号码的第1-6位之和S_1～6、第7-14位之和S_7～14，计算时若遇到某一位为0时则加10；根据如下算法计算获得余数Remainder1、Remainder2，再根据Remainder1、Remainder2查混淆码对照表I获取混淆码：

Remainder1＝S_1～6nod 36

Remainder2＝S_7～14mod 36

(b.2)取待脱敏身份证号码的第1～6位之积C_1～6、第7～14位之积C_7～14，在计算时若遇到某一位为0时则乘以10；根据如下算法计算获得余数Remainder3、Remainder4，再根据Remainder3、Remainder4查混淆码对照表II获取混淆码：

Remainder3＝C_1～6mod 37

Remainder4＝C_7～14mod 37

其中，混淆码对照表II具体为：余数为36、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35对应的混淆码分别为Z、A、Q、X、S、W、C、D、E、V、F、R、B、G、T、N、H、Y、M、J、U、0、1、2、3、4、5、6、7、8、9、I、O、P、K、L；

(b.3)将一级脱敏身份证号码的的后面追加所获得的4位混淆码，再在4位混淆码后面追加一位待脱敏身份证号码的校验码，获得最终脱敏后的身份证号码。

作为优选，所述身份证号码数据在脱敏前还包括如下步骤：

1)判断身份证号码数据是否符合规范；若不符合，则将此身份证号码数据放入异常数据集；若符合则执行步骤2)；其中，所述身份证号码数据不符合规范的情形包括：

(一)残缺或冗余，即当数据长度不为15位或者18位时，说明数据可能有残缺，或者数据可能含有冗余；

(二)异常字符，即长度为15位的数据中含有非数字字符，如汉字、字母、标点符号，长度为18位的数据中前17位中含有非数字字符，最后一位含有除了数字和字符“X”的其他字符；

2)判断取得的身份证号码是否需要升位处理；若需要，则对身份证号码进行升位处理；所述的升位处理指将15位身份证号码扩展至18位身份证号码。

作为优选，所述根据行政区域代码设置参数时可采用以下任意一种或多种方式：

以行政区域代码的部分数字为参数；

以行政区域代码的部分数字，形成多维向量，映射到一维数值，根据已建立的一维数值查询列表，查询获得参数；

建立行政区域代码参数列表，查询获得参数。

作为优选，所述将行政区域代码与参数相乘、取余后查行政区域代码表，获得脱敏后的行政区域代码，具体如下：

将行政区域代码进行脱敏，建立行政区域代码表，表中包含所有的6位数行政区域代码；其中，脱敏算法为：

Index＝(N_1～6*N_1～2)mod Len

AreaCode＝AreacodeTab[Index]

其中Len为行政区域代码表的长度，N_1～6为6位行政区域代码组成的6位数数字，N_1～2为6位行政区域代码中的前两位组成的2位数数字；根据脱敏算法公式计算出结果Index，再根据Index查找出行政区域代码表中对应的行政区域代码AreaCode，即为脱敏后的行政区域代码；

所述将出生日期代码与参数相乘、取余后将原出生日期根据结果左右摇摆，得到脱敏后的出生日期代码，具体如下：

将出生日期代码进行脱敏，将出生日期由日期格式转化为时间戳格式，再将出生日期代码各位数相加，并判断和的奇偶性；其中，脱敏算法为：

TimestampDes＝Timestamp±((N_7～14*N_1～2)mod 1000)*86400

其中，Timestamp指日期转化的时间戳，N_7～14指身份证号码第7位到第14位组成的8位数字，N_1～2指身份证号码第1到第二位组成的2位数字，±表示当出生日期代码各位数之和为偶数时取加法运算，当出生日期代码各位数之和为奇数时取减法运算；最终得出的结果TimestampDes为根据原出生日期1000天以内的摇摆值的时间戳，摇摆天数可根据实际情况调节。

本发明的有益效果在于：本发明方法简单以实现，脱敏过程中不存在随机性，同一身份证每次脱敏结果相同，保证了脱敏的唯一性；将参数设置为与待脱敏身份证号码的行政区域代码相关，因为参数与原身份证号码有关，所以可以增强脱敏后身份证号码与原身份证号码的关联性；根据原身份证的相关特征，采用出生日期左右偏移的方式，可以避免部分现有的脱敏方法中脱敏后的出生日期代码一直增大的问题；本发明的脱敏结果都很好的保留了地域信息、年龄信息、性别信息等，具有很好的分析价值；本发明采用一种多策略的混合脱敏、扩展脱敏等方式来满足不同场景的脱敏需求，可以在亿万级别的数据量下，保证脱敏结果的一致性，同时满足不同需求的身份证脱敏场景。

附图说明

图1是本发明系统的组成框架示意图；

图2是本发明方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1：本发明旨在寻求一种满足多策略、一致性、唯一性、高仿真度、高效的身份证信息脱敏解决方法。所谓的多策略，指的是某一种脱敏方法中，有针对不同的应用场景的多种脱敏算法，能够让用户根据实际情况自由的进行选择，使脱敏结果能够满足用户的使用需求。所谓一致性，指使用某一脱敏方法对不同来源(不同数据库表)的同一身份证号无论在什么时间，脱敏之后结果都相同，则此种脱敏方法满足一致性。所谓唯一性，指的是使用某一种脱敏方法对同一来源(同一数据库表)的不同身份证号的脱敏结果都不相同，即不同的身份证号码对应不同的脱敏结果，则此种脱敏方法满足唯一性。所谓的高仿真度，就是要尽可能的使脱敏后的结果，或者结果中的一部分，依旧要保留身份证号的特征，使脱敏结果看起来“像那么回事”，从而有效的保留数据的分析价值。比如：脱敏后的身份证号码依旧包含行政区域代码，可以做人员地域分布等相关方面的分析；脱敏后的身份证号码依旧包含出生年月日，可以做人员年龄分布等方面的分析；脱敏后的身份证号码依旧包含性别信息，可以做人员性别分布等方面的分析。可以在数据测试，数据分析模型的训练等方面得到不错的应用。所谓的高效，就是要使脱敏所花费的时间尽可能的短，提高数据脱敏的效率，也能尽可能的满足实时数据交换过程中的脱敏需求。

如图1所示，一种面向身份证号码的集成数据脱敏系统，包括待脱敏身份证数据集获取模块、合规身份证号码检验筛选模块、身份证数据集统一模块、身份证号码脱敏模块；其中，待脱敏身份证数据集获取模块用于收集各个交换系统的待脱敏身份证号码，形成同一的待脱敏身份证号码数据集；合规身份证号码检验筛选模块用于检验从待脱敏数据集传输过来的待脱敏身份证号码是否符合身份证号组成规范，如果符合则将其传入身份证数据集统一模块，反之则剔除；身份证数据集统一模块用于将所有的15位身份证号码升位成18位身份证号码，便于后期脱敏处理；身份证号码脱敏模块包含四个子模块，每个子模块对应一种脱敏方法，用户可以根据实际需求来选择最适合的的子模块中的脱敏方法，完成身份证号码的脱敏。

四个子模块，分别为子模块I、子模块II、子模块III、子模块IV，具体如下：

子模块III，将待脱敏身份证号码进行一级脱敏处理，获得一级脱敏身份证号码；将一级脱敏身份证号码后面添加所获得的2位混淆码，在2位混淆码后面添加1位待脱敏身份证号码的校验码，获得最终的脱敏后身份证号码；子模块IV，将待脱敏身份证号码进行一级脱敏处理，获得一级脱敏身份证号码；将一级脱敏身份证号码后面添加所获得的4位混淆码，在4位混淆码后面添加1位待脱敏身份证号码的校验码，获得最终的脱敏后身份证号码；

如图2所示，一种面向身份证号码的集成数据脱敏方法，包括如下步骤：

(1)根据数据请求方和数据提供方的协商结果，收集各个交换系统的待脱敏身份证号码，形成待脱敏身份证号码数据集；

(2)从待脱敏身份证号码数据集中任意取得一条身份证号码数据，判断其是否符合规范；若不符合，则将此身份证号码数据放入异常数据集后继续获取下一条身份证号码数据；若符合则执行步骤(3)；

其中，常见的数据异常有：

(一)残缺或冗余，即当数据长度不为15位或者18位时，说明数据可能有残缺，或者数据可能含有冗余。

(二)异常字符，即长度为15位的数据中含有非数字字符(汉字、字母、标点符号等)，长度为18位的数据中前17位中含有非数字字符(汉字、字母、标点符号等)，最后一位含有除了数字和字符“X”的其他字符；

(3)判断取得的身份证号码是否需要升位处理；若需要则对身份证号码进行升位处理后进入下一步骤；若不需要直接执行步骤(4)；(3.1)判断身份证号码为15位身份证号码还是18位身份证号码，如果是18位身份证号码，则执行步骤(4)操作。如果是15位身份证号码则执行(3.2)操作。

(3.2)对15位身份证号码进行升位处理。18位身份证号码是由第1-6位的行政区域代码，第7-10位的出生年份，第11-12位的出生月份，第13-14的出生日，第15-17位的顺序码，第18位的校验码组成，而15位的身份证号码是由第1-6位的行政区域代码，第7-8位的出生年份(省略了世纪)，第9-10位的出生月份，第11-12的出生日，第13-15位的顺序码组成。例如：152508199207131234和152508920713123。

(3.2.1)根据实际情况，将出生年份扩展至4位，例如：将49扩展成1949。

(3.2.2)根据身份证的校验码生成规则，再结合已扩展的17位身份证号码，生成最后一位校验码，校验码生成方法如下：

先计算身份证号码各位数乘以权重之和(权重选择对照加权因子表1)：

其中，i表示身份证号码中的位置序号(i∈[1，17])，N_i表示第i位置上的身份证号码数，P_i表示第i位上的加权因子，S表示最后的累加和。

将上面的计算结果进行模运算：

S_m＝Smod 11

根据S_m的值查校验码表2，获取最终的校验码值。

其中，表1、表2分别如下所示：

表1

余数	0	1	2	3	4	5	6	7	8	9	10
												校验码	1	0	X	9	8	7	6	5	4	3	2

表2

(4)选取脱敏方法I对身份证号码数据进行脱敏处理；具体如下：

将身份证号码进行分割，取得行政区域代码、出生日期代码以及顺序码，根据行政区域代码设置参数。将行政区域代码与参数相乘、取余然后查表，获得脱敏后的行政区域代码；将出生日期代码与参数相乘、取余，将原出生日期根据结果左右摇摆，得到脱敏后的出生日期。顺序码作为原身份证号码的特征码不作处理，最后一位校验码自动生成。因为脱敏后的结果与正常的身份证号码样式一致，仿真度极高，地域、年龄、性别信息保留完整，可分析价值高，所以此方法脱敏后的结果适用于对仿真度、分析价值要求极高的一些应用场景中。但此方法保证唯一性要求的能力可能比较弱，出现不满足唯一性的可能性较高。

根据行政区域代码设置参数，可以采用以下一种或多种方式：

以行政区域代码的部分数字为参数；参数设置为待脱敏身份证号码的前两位或前一位(参数不宜过大，否则会使相乘取模的结果集变小。可以根据实际情况选取原身份证号码的任意位置上的两位数，但位置一旦确定后就不得在改变。

以行政区域代码的部分数字，形成多维向量，映射到一维数值，根据已建立的一维数值查询列表，查询获得参数；例如：取六位行政区域代码，形成向量x＝[N₁，N₂，N₃，N₄，N_s，N₆]，进行向量模运算||x||，获得一维数值y＝||x||，查询列表<y，R>，获得参数R。其中N₁表示第1位行政区域代码。

建立行政区域代码参数列表，查询获得参数。其中，参数设置为待脱敏身份证号码的前两位，具体实施步骤如下：

对于身份证号码34082319971222557X：

Index＝(N_1～6*R)mod Len

AreaCode＝AreacodeTab[Index]Index＝(340823*34)mod 6331＝2252

AreaCode＝AreacodeTab[2252]＝342502

TimestampDes＝Timestamp±((N_7～14*R)mod 1000)*86400

因为1+9+9+7+1+2+2+2＝33为奇数，所以：

TimestampDes＝882720000-(19971222*34)mod 1000)*86400

＝835372800

将时间戳转化为日期格式为19960622。

脱敏后身份证的前17位为34250219960622557，根据校验码生成方法生成校验码2，得最终脱敏结果18位有效身份证号码342502199606225572。

对于身份证号码340823199701245578：

Index＝(340823*34)mod 6331＝5603

AreaCode＝AreacodeTab[2252]＝542626

因为1+9+9+7+1+2+4＝33为奇数，所以：

TimestampDes＝854035200-(19970124*34)mod 1000)*86400

＝835372800

将时间戳转化为日期格式为19960622。

日期脱敏可以对其他整数进行取余，这里对1000取余，主要是为了限定出生日期脱敏后的波动范围在1000天之内，可以适当的调整，但要注意太小则容易产生重复的结果，太大则可能使得脱敏后的结果不符合实际，例如取10000，则波动范围在-27年～+27年之间，可能会出现不可思议的结果，本来60多岁的人变成了90多岁，本来20岁的人，要到几年后才出生。

由上可见，使用常规脱敏方法I进行脱敏时，出现了两个不同的身份证号码脱敏后结果完全相同的情况。实证结果显示，对1000万条不重复的测试身份证号码进行脱敏后，产生了722条重复结果，重复率为0.0000722(十万级别)。

实施例2：一种面向身份证号码的集成数据脱敏方法，包括如下步骤：

(3)判断取得的身份证号码是否需要升位处理；若需要则对身份证号码进行升位处理后进入下一步骤；若不需要直接执行步骤(4)；

(4)选取脱敏方法II对身份证号码数据进行脱敏处理；具体如下：

在脱敏方法I的基础上进行“加盐”操作，取原身份证号码的前17位各位相加然后取模查表得混淆码，然后将方法I的脱敏结果中的第15和16位分别替换为前面查得的混淆码和原身份证号码的校验码。因为脱敏后的结果与正常的身份证号码长度一致，仿真度较高，且地域、年龄、性别信息保留完整，可分析价值高，所以此方法脱敏后的结果适用于对数据长度有要求(比如数据库字段长度限定)，对仿真度要求较高、对分析价值要求很高的一些应用场景中。此方法保证唯一性要求的能力一般，出现不满足唯一性的可能性一般。

具体实施步骤如下：

对于身份证号码34082319971222557X：

采用脱敏方法I获得18位脱敏身份证号码，然后计算余数：

Remainder＝(3+4+8+2+3+1+9+9+7+1+2+2+2+5+5

+7)mod 36＝34

查混淆码对照表I得混淆码为K，将18位脱敏身份证号码的第15位由7换为K，将第16位的7换为原身份证号码的校验码X，得最终脱敏结果34250219960622KX72。

对于身份证号码340823199701245578：

采用脱敏方法I获得18位脱敏身份证号码，然后计算余数：

Remainder＝S_1～17mod 36

Remaind＝(3+4+8+2+3+1+9+9+7+1+2+4+5+5

+7)mod 36＝34

查混淆码对照表I得混淆码为K，将18位脱敏身份证号码的第15位由7换为K，将第16位的7换为原身份证号码的校验码8，得最终脱敏结果34250219960622K872。

其中，混淆码对照表I如下表3所示：

余数	0	1	2	3	4	5	6	7	8	9	10	11
													混淆码	Z	A	Q	X	S	W	C	D	E	V	F	R
余数	12	13	14	15	16	17	18	19	20	21	22	23
													混淆码	B	G	T	N	H	Y	M	J	U	0	1	2
余数	24	25	26	27	28	29	30	31	32	33	34	35
													混淆码	3	4	5	6	7	8	9	T	O	P	K	L

表3

混淆码可以从“0～9”、“a～z”、“*-％#”等字符中选取组合，字符的个数可以按需设置。为了保证脱敏结果的唯一性，以及后续的数据分析，这里混淆码采用了0～9+a～z，共10+26＝36个字符。

由上可见，使用脱敏方法II进行脱敏时，避免了方法I中两个不同的身份证号码脱敏后结果完全相同的情况。脱敏结果依旧是两个不同的字符串。实证结果显示，对1000万条不重复的测试身份证号码进行脱敏后，产生了28条重复结果，重复率为0.0000028(百万级别)。

实施例3：一种面向身份证号码的集成数据脱敏方法，包括如下步骤：

(4)选取脱敏方法III对身份证号码数据进行脱敏处理；具体如下：

在脱敏方法I的基础上进行“加盐”操作，取原身份证号码的第1～6位各位相加、第7～14位各位相加，然后取模查表得混淆码，然后将方法I的脱敏结果后面加上前面所取得的混淆码及原身份证的校验码。因为脱敏后的结果的前18位与正常的身份证号码格式一致，仿真度较高，脱敏后数据位数扩展，唯一性的保障能力较高，且地域、年龄、性别信息保留完整，可分析价值高，所以此方法脱敏后的结果适用于对数据仿真度有一定要求，对唯一性要求较高、对分析价值要求很高，数据量在千万级别的一些应用场景中。此方法脱敏后的数据长度增加，不适用于对脱敏后数据长度有要求的场景，保证唯一性要求的能力较高，出现不满足唯一性的可能性较小。

具体步骤方法如下：

对于身份证号码34082319971222557X：

采用脱敏方法I获得18位脱敏身份证号码，然后计算余数：

Remainder1＝S_1～6mod 36

Remainder2＝S_7～14mod 36

Remainder1＝(3+4+8+2+3)mod 36＝20

Remainder2＝(1+9+9+7+1+2+2+2)mod 36＝33

查混淆码对照表得混淆码为U、P。将脱敏后身份证号码后面追加UPX，得最终脱敏结果342502199606225572UPX。

对于身份证号码340823199701245578：

采用脱敏方法I获得18位脱敏身份证号码，然后计算余数：

Remainder1＝(3+4+8+2+3)mod 36＝20

Remainder2＝(1+9+9+7+1+2+4)mod 36＝33

查混淆码对照表得混淆码为U、P。将脱敏后身份证号码后面追加UP8，得最终脱敏结果342502199606225572UP8。

由上可见，使用脱敏方法III进行脱敏时，避免了方法1中两个不同的身份证号码脱敏后结果完全相同的情况。脱敏结果依旧是两个不同的字符串。实证结果显示，对1000万条不重复的测试身份证号码进行脱敏后，产生了2条重复结果，重复率为0.0000002(千万级别)。

实施例4：一种面向身份证号码的集成数据脱敏方法，包括如下步骤：

(4)选取脱敏方法IV对身份证号码数据进行脱敏处理；具体如下：

在脱敏方法I的基础上进行“加盐”操作，取原身份证号码的第1～6位各位相加、第7～14位各位相加，然后取模查表得混淆码，取原身份证号码的第1～6位各位相乘、第7～14位各位相乘，然后取模查表得混淆码，然后将方法I的脱敏结果后面加上前面所取得的混淆码及原身份证的校验码。因为脱敏后的结果的长度进一步扩展，产生重复结果的可能更低，所以相较于脱敏方法III，此方法保障唯一性的能力更强，且地域、年龄、性别信息依然保留完整，可分析价值高，适用于数据量大，对分析价值要求高、脱敏后数据长度要求低的应用场景，具体数量级请参见实施对照例。

具体实施步骤如下：

对于身份证号码34082319971222557X：

采用脱敏方法I获得18位脱敏身份证号码，然后计算余数：

Remainder1＝S_1～6nod 36

Remainder2＝S_7～14mod 36

Remainder3＝C_1～6mod 37

Remainder4＝C_7～14mod 37

Remainder1＝(3+4+10+8+2+3)mod 36＝30

Remainder2＝(1+9+9+7+1+2+2+2)mod 36＝33

Remainder3＝(3*4*10*8*2*3)mod 37＝25

Remainder4＝(1*9*9*7*1*2*2*2)mod 37＝22

查混淆码对照表得混淆码I、II为9、P、4、1。将脱敏后身份证号码后面追加UPBC再追加一位未脱敏省份证号码的校验码X，得最终脱敏结果3425021996062255729P41X。

对于身份证号码340823199701245578：

采用脱敏方法I获得18位脱敏身份证号码，然后计算余数：

Remainder1＝(3+4+10+8+2+3)mod 36＝30

Remainder2＝(1+9+9+7+10+1+2+4)mod 36＝7

Remainder3＝3*4*10*8*2*3mod 37＝25

Remainder4＝1*9*9*7*10*1*2*4mod 37＝35

查混淆码对照表I、II得混淆码为9、D、4、L。将脱敏后身份证号码后面追加9D4L，再追加一位未脱敏省份证号码的校验码8，得最终脱敏结果3425021996062255729D4L8。

其中，混淆码对照表II如下表4所示：

表4

混淆码可以从“0～9”、“a～z”、“*-％#”等字符中选取组合，字符的个数可以按需设置，当号码运算为多个号码相乘时，为了避免重复出现模的整数倍，可以采用素数个数，如37。

在实施例4中，被取余数是1～6位、7～14位的各位之积，极大的可能会出现被36整除的情况，从而使得最后的余数为0，例如19940101，各位之积：(4*9)*1*9*10*1*10*1，因为4*9＝36，所以后面无论再乘以多少，都将是36的倍数，从而被36取余时值为0，并且还有6*6＝36，2*3*6＝36，2*3*2*3＝36，4*3*3＝36，2*2*3*3＝36…等，所以此时再将取余数设为36将不再合适，这里采用37，因为37是一个素数，分解质因式时只有1*37，所以各位数之积不可能被37整除，余数不可能是0，取值范围是[1，36]，当取值是36时，就超出了最一开始的混淆码对照表1的索引范围一位(最大索引是35)，而恰好此时，索引为零的混淆码不会被取到，所以将此混淆码放在索引值为36的位置，删除原来索引为零的混淆码，这样混淆码实际上依旧是36位。并且，如果各位数之积不相等的话，被37取余的结果出现重复的可能性也极小，更好的保证了唯一性。

由上可见，使用脱敏方法IV进行脱敏时，避免了方法I中两个不同的身份证号码脱敏后结果完全相同的情况。脱敏结果依旧是两个不同的字符串。实证结果显示，对1亿条不重复的测试身份证号码进行脱敏后，尚未产生重复结果，重复率为<0.00000001(亿级别以上)。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种面向身份证号码的集成数据脱敏方法，其特征在于包括如下步骤：

(1)收集待脱敏身份证号码；

2.一种面向身份证号码的集成数据脱敏方法，其特征在于包括如下步骤：

(1)收集待脱敏身份证号码；

相加；相乘；加设定值；

其中，所述的二级脱敏采用以下任意一种或多种方式：

将混淆码替换一级脱敏身份证号码；

将混淆码添加到一级脱敏身份证号码；

将待脱敏身份证号码的部分号码替换一级脱敏身份证号码；

3.根据权利要求2所述的一种面向身份证号码的集成数据脱敏方法，其特征在于：所述步骤(b)具体如下：

Remainder＝S_1～17mod36

4.根据权利要求2所述的一种面向身份证号码的集成数据脱敏方法，其特征在于：所述步骤(b)具体还可如下：

Remainder1＝S_1～6mod36

Remainder2＝S_7～14mod36

5.根据权利要求2所述的一种面向身份证号码的集成数据脱敏方法，其特征在于：所述步骤(b)具体还可如下：

Remainder1＝S_1～6mod36

Remainder2＝S_7～14mod36

其中，混淆码对照表I具体为：余数为0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35对应的混淆码分别为Z、A、Q、X、S、W、C、D、E、V、F、R、B、G、T、N、H、Y、M、J、U、0、1、2、3、4、5、6、7、8、9、I、O、P、K、L；(b.2)取待脱敏身份证号码的第1～6位之积C_1～6、第7～14位之积C_7～14，在计算时若遇到某一位为0时则乘以10；根据如下算法计算获得余数Remainder3、Remainder4，再根据Remainder3、Remainder4查混淆码对照表II获取混淆码：

Remainder3＝C_1～6mod37

Remainder4＝C_7～14mod37

6.根据权利要求1或2所述的一种面向身份证号码的集成数据脱敏方法，其特征在于：所述收集待脱敏身份证号码还包括如下步骤：

1)判断身份证号码是否符合规范；若不符合，则将此身份证号码放入异常数据集；若符合则执行步骤2)；其中，所述身份证号码数据不符合规范的情形包括：

2)判断取得的身份证号码是否需要升位处理；若需要，则对身份证号码进行升位处理，所述的升位处理指将15位身份证号码扩展至18位身份证号码。

7.根据权利要求1或2所述的一种面向身份证号码的集成数据脱敏方法，其特征在于：所述根据行政区域代码设置参数时可采用以下任意一种或多种方式：

以行政区域代码的部分数字为参数；

建立行政区域代码参数列表，查询获得参数。

8.根据权利要求1或2所述的一种面向身份证号码的集成数据脱敏方法，其特征在于：所述将行政区域代码与参数相乘、取余后查行政区域代码表，获得脱敏后的行政区域代码，具体如下：

Index＝(N_1～6*N_1～2)mod Len

AreaCode＝AreacodeTab[Index]

TimestampDes＝Timestamp±((N_7～14*N_1～2)mod 1000)*86400

9.一种面向身份证号码的集成数据脱敏系统，其特征在于包括：待脱敏身份证数据集获取模块、合规身份证号码检验筛选模块、身份证数据集统一模块、身份证号码脱敏模块；其中，待脱敏身份证数据集获取模块用于收集各个交换系统的待脱敏身份证号码，形成统一的待脱敏身份证号码数据集；合规身份证号码检验筛选模块用于检验从待脱敏数据集传输过来的待脱敏身份证号码是否符合身份证号组成规范，如果符合则将其传入身份证数据集统一模块，反之则剔除；身份证数据集统一模块用于将所有的15位身份证号码升位成18位身份证号码，便于后期脱敏处理；身份证号码脱敏模块包含四个子模块，每个子模块对应一种脱敏方法，用户可以根据实际需求来选择最适合的子模块中的脱敏方法，完成身份证号码的脱敏。

10.根据权利要求9所述的一种面向身份证号码的集成数据脱敏系统，其特征在于，所述的四个子模块分别为：