CN110175468A

CN110175468A - 一种保留分布特征的姓名脱敏方法

Info

Publication number: CN110175468A
Application number: CN201910366230.2A
Authority: CN
Inventors: 张江鑫; 张名民; 李建元; 蒋立靓; 沈晓宇; 钱裕佳
Original assignee: Zhejiang University of Technology ZJUT; Enjoyor Co Ltd
Current assignee: Yinjiang Technology Co Ltd; Zhejiang University of Technology ZJUT
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-08-27
Anticipated expiration: 2039-05-05
Also published as: CN110175468B

Abstract

一种保留分布特征的姓名脱敏方法，从一个或多个数据库中收集待脱敏姓名数据；检验待脱敏姓名数据的合规性；姓、名频率密度及权重空间表建立，用混合线性同余发生器产生均匀随机数，用拒绝采样原理进行采样，根据采样结果统计得出姓、名概率密度表，根据概率密度表生成权重表，根据权重表生成权重区间表；将待脱敏姓名转化为Unicode码，根据相关算法进行计算得出结果；以结果为索引，结合前面所生成的权重区间表得出相关脱敏结果。本发明可行性强，能很好的保留脱敏结果的分析价值、能保证脱敏过程结果的一致性、能保证脱敏过程的多样性。

Description

一种保留分布特征的姓名脱敏方法

技术领域

本发明涉及数据处理领域，尤其涉及一种保留分布特征的姓名脱敏方法。

背景技术

随着大数据时代的来临，数据呈爆炸式增长。无论是各种企业还是政府都越来越重视这份宝贵的财富。大数据是把双刃剑，用好了能很好的促进企业的发展、减少企业成本，亦能提高政府部门管理效率、提升人民生活的幸福感，但是如果这把利剑被不法分子掌握在了手里，也会对人民、企业甚至国家造成重大的伤害。尤其是各个企业、政府部门为了实现数据的利用最大化，各单位之间就必须要实现数据的共享交换，以打破数据壁垒，连通数据孤岛，在交换共享的过程中，数据泄露的风险也在不断的提升。不可避免的，在交换的数据之中，一定会存在各种各样的个人隐私数据，随着数据交换的不断进行，不可避免的，敏感数据泄露的风险也在与日俱增。数据脱敏又称数据变形、数据漂白。主要方法有算法转换、替代、混洗、数值变换、加密、模糊、截断等。相比于数据加密“粗暴的”将一串明文加密成没有任何意义的一串字符，一种好的脱敏方法能尽可能的保留数据价值，同时消除原始数据的一些隐私痕迹，从而达到既能有效的保护数据，又能提高数据利用率的目的，并且，相较于加密算法的“笨重”，数据脱敏要轻巧的多，所涉及的算法时间复杂度也相对较低，转换速度快，在个人隐私数据的共享交换之中，姓名信息是一个人重要的隐私信息，通常姓名信息是一个人给外界最直观的信息，虽然每个人的姓名可能会与他人重复，但是若是再结合其他相关信息，很容易让人定位到现实生活中的具体某一个人。所以，做好姓名信息的脱敏工作十分重要。

在一部分现有的姓名脱敏方法中，直接对姓名进行截断或者模糊处理，如原始姓名“凌破天”变为脱敏后的姓名“凌某某”或者“凌**”，脱敏之后数据完全丧失独立特征，大量重复，会对数据库之间的数据串联，个体数据分析等造成严重影响。还有的姓名脱敏方法中，通过对数据库中的汉语姓名分解成单个汉字，然后将汉字编码得到编码数据，之后采用若干初等变换方法将编码次序置乱，最后使用互补、映射得到脱敏码，组合得到汉语姓名的全部脱敏结果，这种脱敏方法中虽然用到了汉字编码，并对编码求补数，进行编码变换等，能够有效保障了数据唯一性和可标识别性，使得数据库在处理过程中无信息损失，但是脱敏后的数据是一串数字，丧失了姓名的相关特征，并且脱敏的转换方法过于简单，一旦泄露转换规则，就能逆推出未脱敏前的姓名，存在安全隐患。还有一些姓名脱敏方法中，针对所述待脱敏姓名中的每一个汉字，从预存的多级字库中，查找该汉字所属级别的字库；其中，不同级别字库中的汉字的属性存在不同，同一级别字库中的汉字的属性相同；按照预设的单字变换算法，确定该汉字在所属级别的字库中对应的脱敏后的汉字，基于所述待脱敏姓名中的每一个汉字对应的脱敏后的汉字，生成脱敏后的姓名。该方法虽然可以将待脱敏姓名中的每一个汉字脱敏成同级别字库中的汉字，从而使脱敏后的姓名仍然保持原有的属性，但是预存的字库并不一定能满足一些特有的应用场景，并且虽然对姓名的分布特征有一定的保留，但是还是有所欠缺，并没有很好的保留分布特征。

发明内容

为了克服现有的姓名脱敏方法的无法较好保留分布特征的不足，本发明提供一种能很好的保留分布特征的姓名脱敏方法。

本发明为了解决上述技术问题采用的技术方案如下：

一种保留分布特征的姓名脱敏方法，包括如下步骤：

(1)收集待脱敏姓名数据；

(2)判断姓名数据是否符合规范，将异常数据放入异常数据集单独处理；

(3)对合规的待脱敏数据进行抽样统计，对姓、名生成概率密度区间，分级设置权重生成概率密度权重区间；

(4)针对具体待脱敏姓名，分别判断姓和名所在概率密度区间的级别，然后将姓名中的字分别转化为Unicode码，计算姓、名脱敏后所在的区间系数：

fNamecoef＝(2*Unicode₁+Unicode₂+Unicode₃)mod L₁

lName₁coef＝(Unicode₁+2*Unicode₂+Unicode₃)mod L2

lName₂coef＝(Unicode₁+Unicode₂+2*Unicode₃)mod L₃其中L₁、L₂、L₃为对应级别的概率密度权重区间的总长度；

(5)根据(4)所得出的系数结合各级别的概率密度权重区间表得出脱敏后的名字。

进一步，所述异常数据，是指长度小于或等于1位及长度大于5位的姓名数据。

进一步，所述步骤(3)的过程如下：

(3.1)将待脱敏姓名数据转化为长度为n的一维数组作为抽样的样本空间：

Name＝[name₁,name₂,name₃,...,name_n]

(3.2)根据样本空间Name大小确定抽样数据集大小，建立均匀随机采样样本，对样本中的姓名进行分割，分割成姓和其余字，分别统计生成概率密度表，根据概率分级设置权重，并设置每个姓的概率密度权重区间为[前面所有姓的权重之和,当前姓权重加上前面所有姓的权重之和)，每个字的概率密度权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)。

进一步，所述建立均匀随机采样样本，具体为：

设置产生均匀随机数的混合线性同余发生器：

X_i+1＝(aX_i+c)modm,i≥0.公式1

设置参数a、c、m及初始值X₀代入公式1进行计算，根据拒绝采样原理，生成均匀随机序列：

[X_o，X₁，X₂，...，X_k]

其中，k表示均匀随机序列的长度；

以产生的均匀随机数作为索引，在样本空间中查找对应的姓名，形成均匀随机采样样本。

进一步，所述设置参数a、c、m及初始值X₀，具体为：

X₀为种子数seed，大小在[0，m)皆可；

由于公式1存在mod运算，所以上述均匀随机序列存在周期T＜＝m，所以为了产生尽可能长的均匀随机序列，应该通过调整参数a、c、m使得周期T尽可能的等于m；在满足以下条件时，均匀随机序列达到满周期：

1.c与m互质；

2.对于m的任意质因子p，(a-1)都能够被p整除；

3.a<m-1；

这里选取与m互斥的参数c以满足条件1，选取m为2^L，选取a为2β+1以满足条件2，选取a∈[3，m-1)以满足条件3，所得序列在[0，2^L]上均匀随机分布，周期为2^L；

为了满足对样本空间Name均匀随机抽样，应使得2^L>n，这样落在样本空间内的采样点就不会产生重复，并且均匀随机分布。

进一步，所述根据拒绝采样原理，生成均匀随机序列，具体为：

设置均匀随机采样样本的长度为K，根据公式1产生均匀随机数，若随机数小于等于n，则保留该随机数，并将其放入均匀随机序列；若随机数大于n，则舍弃；直到均匀随机序列的长度达到k为止。

本发明的有益效果为：可行性强，能很好的保留脱敏结果的分析价值、能保证脱敏过程结果的一致性、能保证脱敏过程的多样性。

附图说明

图1为拒绝采样原理示意图；

图2为实施例整体流程示意图；

图3为建立姓名概率密度权重区间表详细流程图；

图4为一种保留分布特征的姓名脱敏方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参照图1～图4，一种保留分布特征的姓名脱敏方法，包括如下步骤：

(1)获得待脱敏姓名数据集W₁；

(2)对待脱敏姓名集进行合规性检验，将不合规姓名数据放入异常数据集，得合规数据集W₂并将其转化为一维数组；

(3)根据数据集W₂的规模制定抽样数据集的大小，一般的当W₂小于10000条时，采用全采集的方式直接将W₂作为抽样数据集。当W₂大于10000条小于1000万条时，抽取W₂的10％作为抽样数据集，最少抽取10000条。当W₂大于1000万条时，抽取100万条作为抽样数据集，本实施例中待脱敏数据集规模为1000万条，应当设置抽取数据集的大小为100万条；

根据混合同余发生器产生均匀随机的采样点：

X_i+1＝(aX_i+c)modm,i＝0,1,2,…公式2

其中，模数m和乘子a是这个公式中最重要的参数，如何合理的选择这两个参数决定了其产生的线性同余序列<X>质量的优劣(<X>＝X₁,X₂,X₃,…,X_n…。)常数c可以为0,。通常，如果c为0那么(1)式也被称作乘法线性同余发生器，如果c非零(1)式则被称作为混合线性同余发生器。X₀称作初始值，也就是所谓的种子seed。通过设置合理的a、c、m参数，可以生成均匀随机序列。

由公式1不难看出，由于存在mod运算，所以上述均匀随机序列存在周期T＜＝m，所以为了产生尽可能长的均匀随机序列，应该通过调整参数a、c、m使得周期T尽可能的等于m。经过推论和大量实验得出结论在满足以下条件时，均匀随机序列达到满周期：

1.c与m互质；

2.对于m的任意质因子p，(a-1)都能够被p整除；

3.a<m-1；

这里我们选取与m互斥的参数c以满足条件1，选取m为2^L(这样m只具有一个质因数2)选取a为2β+1以满足条件2，选取a∈[3，m-1)以满足条件3。所得序列在[0，2^L]上均匀随机分布，周期为2^L。

为了满足对样本空间Name均匀随机抽样，应使得2^L>样本空间Name的长度n，这样落在样本空间内的采样点就不会产生重复，并且均匀随机分布。

设待脱敏数据集W₂的长度为n，在本实施例中n＝10000000，X₀为种子数seed，脱敏人员作为入参直接输入，大小在[0，n)皆可，这里设置X₀＝8888；m为均匀随机序列的周期，根据W₂的规模直接制定，大小为满足2^L>n的最小值，算得当L＝24时m大于n且距离n最近，即m＝2²⁴＝16777216，参数c需要与m互斥即可，这里选择c＝1111，参数a只需要是小于m-1的奇数即可，这里选择a＝1333，将各参数带入公式2得：

X₀＝8888<10000000,未超出数据集W₂的长度，保留

X₁＝(1333*8888+1111)mod 16777216＝11848815

X₁>10000000，超出数据集W₂长度，舍弃

X₂＝(1333*11848815+1111)mod 16777216＝7110140

X₂＝8888<10000000,未超出数据集W₂的长度，保留

X₃＝(1333*7110140+1111)mod 16777216＝15466797

X₃>10000000，超出数据集W₂长度，舍弃

·

依此类推，直到落在[0,10000000)内的随机点达到1000000个为止。

本实施例的随机采样点为：

[8888,7110140,7149051,226296,3338606,4399559,···]

以均匀随机采样点作为索引，在脱敏数据集W₂中查找对应的姓名，建立均匀随机采样样本，本实施例中样本如下：

[唐柯，李爱国，李文，孙从兵，倪华，···]

对均匀随机采样样本中的名字进行分割，分割成姓和其余字分别统计生成概率密度表。

S1统计各个姓氏出现的次数，并将次数除以1000000得出概率，生

成概率密度表，在本实施例中，概率密度表为表1：

李	赵	王	孙	张
					0.121641	0.052134	0.072458	0.039321	0.064341
郑	刘	···	左	来
					0.014151	0.005123	···	0.000003	0.000001

表1

S2统计姓名中名的总字数，统计各个字出现的次数并除以总字数得

出概率，生成概率密度表，在本实施例中，概率密度表为表2：

国	华	文	强	佳
					0.013412	0.012134	0.008458	0.009221	0.005134
锋	飞	···	燚	踽
					0.002151	0.005123	···	0.000007	0.000001

表2

S3将姓概率密度表分为两级，概率大于0.001的作为第一级，将第一级中的概率乘以1000得到一级概率密度权重，设置权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)，将概率小于0.001的分为第二级，将第二级中的概率乘以1000000得到二级概率密度权重，设置权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)，在本实施例中姓概率密度权重区间表如表3和表4：

李	赵	王	孙	张
					[0,122)	[122,174)	[174,247)	[247,286)	[286,350)
郑	刘	···	杜	吴
					[350,364)	[364,369)	···	[943,982)	[982,1000)

表3

薛	戴	许	贾	严
					[0，141)	[141，233)	[233，311)	[311，353)	[353，372)
崔	覃	···	左	来
					[372，421)	[421，449)	···	[996，999)	[999，1000)

表4

S4用S7相同的方法流程生成两级名概率密度权重区间表，在本实施例中名权重区间表如下，表5为名一级概率密度权重区间表，表6为名二级概率密度权重区间表：

国	华	文	强	佳
					[0，131)	[131，187)	[187，212)	[212，283)	[283，350)
锋	飞	···	天	凤
					[350，364)	[364，369)	···	[987，991)	[991，1000)

表5

龙	军	艳	强	红
					[0，112)	[112，231)	[231，269)	[269，331)	[331，361)
建	业	···	燚	踽
					[361，399)	[399，411)	···	[996，999)	[999，1000)

表6

(4)针对具体待脱敏姓名，分别判断姓和名所在概率密度区间的级别，然后将姓名中的字分别转化为Unicode码，计算姓、名脱敏后所在的区间系数。

本实施例以“陈华”为例，则：

fNamecoef＝(2*Unicode₁+Unicode₂)mod1000

＝(2*38472+21326)mod1000＝270

lName₁coef＝(Unicode₁+2*Unicode₂)mod1000

＝(38472+2*21326)mod1000＝124

因为“陈”属于姓第一级密度区间，所以查询姓一级概率密度权重区间表得知，270对应的权重区间是[247,286)，对应的姓氏是“孙”，因为“华”属于名第一级密度空间，所以查询姓一级概率密度权重区间表得知，124对应的权重区间是[25,247)，对应的名是“文”，所以脱敏后的姓名是“孙文”。

由实施例可以看出，使用以上脱敏方法得到的脱敏结果，例如“王文”，很好的保留了姓名的属性，具有很高的仿真度，不会对数据共享过程中数据串联及横向分析造成影响。脱敏后的姓名脱敏集，很好的保留了原始姓名数据的分布特征，基本消除了数据脱敏过程中对于数据分析造成的不利影响，很好的保留了姓名数据的分析价值；只要保证以上所述参数不变，那么每一次的脱敏结果都相同，能够保证脱敏过程中的一致性；用户可以设置不同的脱敏参数以达到不同的脱敏效果，具有很好的脱敏多样性；脱敏执行过程中关于概率密度的统计，完全可以放在数据库中进行，程序只需存储最后的权重区间表，大小也就几十kb左右，无需占用大量程序内存。

Claims

1.一种保留分布特征的姓名脱敏方法，其特征在于，所述方法包括如下步骤：

(1)收集待脱敏姓名数据；

(2)判断待脱敏姓名数据是否符合规范，将异常数据放入异常数据集单独处理；

fNamecoef＝(2*Unicode₁+Unicode₂+Unicode₃)mod L₁

lName₁coef＝(Unicode₁+2*Unicode₂+Unicode₃)mod L₂

lName₂coef＝(Unicode₁+Unicode₂+2*Unicode₃)mod L₃

其中L₁、L₂、L₃为对应级别的概率密度权重区间的总长度；

2.如权利要求1所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述异常数据，是指长度小于或等于1位及长度大于5位的姓名数据。

3.如权利要求1所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述步骤(3)的过程如下：

Name＝[name₁,name₂,name₃,...,name_n]

4.如权利要求3所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述建立均匀随机采样样本，具体为：

设置产生均匀随机数的混合线性同余发生器：

X_i+1＝(aX_i+c)modm，i≥0. 公式1

[X₀，X₁，X₂，...，X_k]

其中，k表示均匀随机序列的长度；

5.如权利要求4所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述设置参数a、c、m及初始值X₀，具体为：

X₀为种子数seed，大小在[0，m)皆可；

1.c与m互质；

2.对于m的任意质因子p，(a-1)都能够被p整除；

3.a<m-1；

6.如权利要求4所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述根据拒绝采样原理，生成均匀随机序列，具体为：