CN110175468A - 一种保留分布特征的姓名脱敏方法 - Google Patents
一种保留分布特征的姓名脱敏方法 Download PDFInfo
- Publication number
- CN110175468A CN110175468A CN201910366230.2A CN201910366230A CN110175468A CN 110175468 A CN110175468 A CN 110175468A CN 201910366230 A CN201910366230 A CN 201910366230A CN 110175468 A CN110175468 A CN 110175468A
- Authority
- CN
- China
- Prior art keywords
- name
- weight
- desensitization
- unicode
- surname
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Abstract
一种保留分布特征的姓名脱敏方法,从一个或多个数据库中收集待脱敏姓名数据;检验待脱敏姓名数据的合规性;姓、名频率密度及权重空间表建立,用混合线性同余发生器产生均匀随机数,用拒绝采样原理进行采样,根据采样结果统计得出姓、名概率密度表,根据概率密度表生成权重表,根据权重表生成权重区间表;将待脱敏姓名转化为Unicode码,根据相关算法进行计算得出结果;以结果为索引,结合前面所生成的权重区间表得出相关脱敏结果。本发明可行性强,能很好的保留脱敏结果的分析价值、能保证脱敏过程结果的一致性、能保证脱敏过程的多样性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种保留分布特征的姓名脱敏方法。
背景技术
随着大数据时代的来临,数据呈爆炸式增长。无论是各种企业还是政府都越来越重视这份宝贵的财富。大数据是把双刃剑,用好了能很好的促进企业的发展、减少企业成本,亦能提高政府部门管理效率、提升人民生活的幸福感,但是如果这把利剑被不法分子掌握在了手里,也会对人民、企业甚至国家造成重大的伤害。尤其是各个企业、政府部门为了实现数据的利用最大化,各单位之间就必须要实现数据的共享交换,以打破数据壁垒,连通数据孤岛,在交换共享的过程中,数据泄露的风险也在不断的提升。不可避免的,在交换的数据之中,一定会存在各种各样的个人隐私数据,随着数据交换的不断进行,不可避免的,敏感数据泄露的风险也在与日俱增。数据脱敏又称数据变形、数据漂白。主要方法有算法转换、替代、混洗、数值变换、加密、模糊、截断等。相比于数据加密“粗暴的”将一串明文加密成没有任何意义的一串字符,一种好的脱敏方法能尽可能的保留数据价值,同时消除原始数据的一些隐私痕迹,从而达到既能有效的保护数据,又能提高数据利用率的目的,并且,相较于加密算法的“笨重”,数据脱敏要轻巧的多,所涉及的算法时间复杂度也相对较低,转换速度快,在个人隐私数据的共享交换之中,姓名信息是一个人重要的隐私信息,通常姓名信息是一个人给外界最直观的信息,虽然每个人的姓名可能会与他人重复,但是若是再结合其他相关信息,很容易让人定位到现实生活中的具体某一个人。所以,做好姓名信息的脱敏工作十分重要。
在一部分现有的姓名脱敏方法中,直接对姓名进行截断或者模糊处理,如原始姓名“凌破天”变为脱敏后的姓名“凌某某”或者“凌**”,脱敏之后数据完全丧失独立特征,大量重复,会对数据库之间的数据串联,个体数据分析等造成严重影响。还有的姓名脱敏方法中,通过对数据库中的汉语姓名分解成单个汉字,然后将汉字编码得到编码数据,之后采用若干初等变换方法将编码次序置乱,最后使用互补、映射得到脱敏码,组合得到汉语姓名的全部脱敏结果,这种脱敏方法中虽然用到了汉字编码,并对编码求补数,进行编码变换等,能够有效保障了数据唯一性和可标识别性,使得数据库在处理过程中无信息损失,但是脱敏后的数据是一串数字,丧失了姓名的相关特征,并且脱敏的转换方法过于简单,一旦泄露转换规则,就能逆推出未脱敏前的姓名,存在安全隐患。还有一些姓名脱敏方法中,针对所述待脱敏姓名中的每一个汉字,从预存的多级字库中,查找该汉字所属级别的字库;其中,不同级别字库中的汉字的属性存在不同,同一级别字库中的汉字的属性相同;按照预设的单字变换算法,确定该汉字在所属级别的字库中对应的脱敏后的汉字,基于所述待脱敏姓名中的每一个汉字对应的脱敏后的汉字,生成脱敏后的姓名。该方法虽然可以将待脱敏姓名中的每一个汉字脱敏成同级别字库中的汉字,从而使脱敏后的姓名仍然保持原有的属性,但是预存的字库并不一定能满足一些特有的应用场景,并且虽然对姓名的分布特征有一定的保留,但是还是有所欠缺,并没有很好的保留分布特征。
发明内容
为了克服现有的姓名脱敏方法的无法较好保留分布特征的不足,本发明提供一种能很好的保留分布特征的姓名脱敏方法。
本发明为了解决上述技术问题采用的技术方案如下:
一种保留分布特征的姓名脱敏方法,包括如下步骤:
(1)收集待脱敏姓名数据;
(2)判断姓名数据是否符合规范,将异常数据放入异常数据集单独处理;
(3)对合规的待脱敏数据进行抽样统计,对姓、名生成概率密度区间,分级设置权重生成概率密度权重区间;
(4)针对具体待脱敏姓名,分别判断姓和名所在概率密度区间的级别,然后将姓名中的字分别转化为Unicode码,计算姓、名脱敏后所在的区间系数:
fNamecoef=(2*Unicode1+Unicode2+Unicode3)mod L1
lName1coef=(Unicode1+2*Unicode2+Unicode3)mod L2
lName2coef=(Unicode1+Unicode2+2*Unicode3)mod L3其中L1、L2、L3为对应级别的概率密度权重区间的总长度;
(5)根据(4)所得出的系数结合各级别的概率密度权重区间表得出脱敏后的名字。
进一步,所述异常数据,是指长度小于或等于1位及长度大于5位的姓名数据。
进一步,所述步骤(3)的过程如下:
(3.1)将待脱敏姓名数据转化为长度为n的一维数组作为抽样的样本空间:
Name=[name1,name2,name3,...,namen]
(3.2)根据样本空间Name大小确定抽样数据集大小,建立均匀随机采样样本,对样本中的姓名进行分割,分割成姓和其余字,分别统计生成概率密度表,根据概率分级设置权重,并设置每个姓的概率密度权重区间为[前面所有姓的权重之和,当前姓权重加上前面所有姓的权重之和),每个字的概率密度权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)。
进一步,所述建立均匀随机采样样本,具体为:
设置产生均匀随机数的混合线性同余发生器:
Xi+1=(aXi+c)modm,i≥0.公式1
设置参数a、c、m及初始值X0代入公式1进行计算,根据拒绝采样原理,生成均匀随机序列:
[Xo,X1,X2,...,Xk]
其中,k表示均匀随机序列的长度;
以产生的均匀随机数作为索引,在样本空间中查找对应的姓名,形成均匀随机采样样本。
进一步,所述设置参数a、c、m及初始值X0,具体为:
X0为种子数seed,大小在[0,m)皆可;
由于公式1存在mod运算,所以上述均匀随机序列存在周期T<=m,所以为了产生尽可能长的均匀随机序列,应该通过调整参数a、c、m使得周期T尽可能的等于m;在满足以下条件时,均匀随机序列达到满周期:
1.c与m互质;
2.对于m的任意质因子p,(a-1)都能够被p整除;
3.a<m-1;
这里选取与m互斥的参数c以满足条件1,选取m为2L,选取a为2β+1以满足条件2,选取a∈[3,m-1)以满足条件3,所得序列在[0,2L]上均匀随机分布,周期为2L;
为了满足对样本空间Name均匀随机抽样,应使得2L>n,这样落在样本空间内的采样点就不会产生重复,并且均匀随机分布。
进一步,所述根据拒绝采样原理,生成均匀随机序列,具体为:
设置均匀随机采样样本的长度为K,根据公式1产生均匀随机数,若随机数小于等于n,则保留该随机数,并将其放入均匀随机序列;若随机数大于n,则舍弃;直到均匀随机序列的长度达到k为止。
本发明的有益效果为:可行性强,能很好的保留脱敏结果的分析价值、能保证脱敏过程结果的一致性、能保证脱敏过程的多样性。
附图说明
图1为拒绝采样原理示意图;
图2为实施例整体流程示意图;
图3为建立姓名概率密度权重区间表详细流程图;
图4为一种保留分布特征的姓名脱敏方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参照图1~图4,一种保留分布特征的姓名脱敏方法,包括如下步骤:
(1)获得待脱敏姓名数据集W1;
(2)对待脱敏姓名集进行合规性检验,将不合规姓名数据放入异常数据集,得合规数据集W2并将其转化为一维数组;
(3)根据数据集W2的规模制定抽样数据集的大小,一般的当W2小于10000条时,采用全采集的方式直接将W2作为抽样数据集。当W2大于10000条小于1000万条时,抽取W2的10%作为抽样数据集,最少抽取10000条。当W2大于1000万条时,抽取100万条作为抽样数据集,本实施例中待脱敏数据集规模为1000万条,应当设置抽取数据集的大小为100万条;
根据混合同余发生器产生均匀随机的采样点:
Xi+1=(aXi+c)modm,i=0,1,2,…公式2
其中,模数m和乘子a是这个公式中最重要的参数,如何合理的选择这两个参数决定了其产生的线性同余序列<X>质量的优劣(<X>=X1,X2,X3,…,Xn…。)常数c可以为0,。通常,如果c为0那么(1)式也被称作乘法线性同余发生器,如果c非零(1)式则被称作为混合线性同余发生器。X0称作初始值,也就是所谓的种子seed。通过设置合理的a、c、m参数,可以生成均匀随机序列。
由公式1不难看出,由于存在mod运算,所以上述均匀随机序列存在周期T<=m,所以为了产生尽可能长的均匀随机序列,应该通过调整参数a、c、m使得周期T尽可能的等于m。经过推论和大量实验得出结论在满足以下条件时,均匀随机序列达到满周期:
1.c与m互质;
2.对于m的任意质因子p,(a-1)都能够被p整除;
3.a<m-1;
这里我们选取与m互斥的参数c以满足条件1,选取m为2L(这样m只具有一个质因数2)选取a为2β+1以满足条件2,选取a∈[3,m-1)以满足条件3。所得序列在[0,2L]上均匀随机分布,周期为2L。
为了满足对样本空间Name均匀随机抽样,应使得2L>样本空间Name的长度n,这样落在样本空间内的采样点就不会产生重复,并且均匀随机分布。
设待脱敏数据集W2的长度为n,在本实施例中n=10000000,X0为种子数seed,脱敏人员作为入参直接输入,大小在[0,n)皆可,这里设置X0=8888;m为均匀随机序列的周期,根据W2的规模直接制定,大小为满足2L>n的最小值,算得当L=24时m大于n且距离n最近,即m=224=16777216,参数c需要与m互斥即可,这里选择c=1111,参数a只需要是小于m-1的奇数即可,这里选择a=1333,将各参数带入公式2得:
X0=8888<10000000,未超出数据集W2的长度,保留
X1=(1333*8888+1111)mod 16777216=11848815
X1>10000000,超出数据集W2长度,舍弃
X2=(1333*11848815+1111)mod 16777216=7110140
X2=8888<10000000,未超出数据集W2的长度,保留
X3=(1333*7110140+1111)mod 16777216=15466797
X3>10000000,超出数据集W2长度,舍弃
·
·
·
依此类推,直到落在[0,10000000)内的随机点达到1000000个为止。
本实施例的随机采样点为:
[8888,7110140,7149051,226296,3338606,4399559,···]
以均匀随机采样点作为索引,在脱敏数据集W2中查找对应的姓名,建立均匀随机采样样本,本实施例中样本如下:
[唐柯,李爱国,李文,孙从兵,倪华,···]
对均匀随机采样样本中的名字进行分割,分割成姓和其余字分别统计生成概率密度表。
S1统计各个姓氏出现的次数,并将次数除以1000000得出概率,生
成概率密度表,在本实施例中,概率密度表为表1:
李 | 赵 | 王 | 孙 | 张 |
0.121641 | 0.052134 | 0.072458 | 0.039321 | 0.064341 |
郑 | 刘 | ··· | 左 | 来 |
0.014151 | 0.005123 | ··· | 0.000003 | 0.000001 |
表1
S2统计姓名中名的总字数,统计各个字出现的次数并除以总字数得
出概率,生成概率密度表,在本实施例中,概率密度表为表2:
国 | 华 | 文 | 强 | 佳 |
0.013412 | 0.012134 | 0.008458 | 0.009221 | 0.005134 |
锋 | 飞 | ··· | 燚 | 踽 |
0.002151 | 0.005123 | ··· | 0.000007 | 0.000001 |
表2
S3将姓概率密度表分为两级,概率大于0.001的作为第一级,将第一级中的概率乘以1000得到一级概率密度权重,设置权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和),将概率小于0.001的分为第二级,将第二级中的概率乘以1000000得到二级概率密度权重,设置权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和),在本实施例中姓概率密度权重区间表如表3和表4:
李 | 赵 | 王 | 孙 | 张 |
[0,122) | [122,174) | [174,247) | [247,286) | [286,350) |
郑 | 刘 | ··· | 杜 | 吴 |
[350,364) | [364,369) | ··· | [943,982) | [982,1000) |
表3
薛 | 戴 | 许 | 贾 | 严 |
[0,141) | [141,233) | [233,311) | [311,353) | [353,372) |
崔 | 覃 | ··· | 左 | 来 |
[372,421) | [421,449) | ··· | [996,999) | [999,1000) |
表4
S4用S7相同的方法流程生成两级名概率密度权重区间表,在本实施例中名权重区间表如下,表5为名一级概率密度权重区间表,表6为名二级概率密度权重区间表:
国 | 华 | 文 | 强 | 佳 |
[0,131) | [131,187) | [187,212) | [212,283) | [283,350) |
锋 | 飞 | ··· | 天 | 凤 |
[350,364) | [364,369) | ··· | [987,991) | [991,1000) |
表5
龙 | 军 | 艳 | 强 | 红 |
[0,112) | [112,231) | [231,269) | [269,331) | [331,361) |
建 | 业 | ··· | 燚 | 踽 |
[361,399) | [399,411) | ··· | [996,999) | [999,1000) |
表6
(4)针对具体待脱敏姓名,分别判断姓和名所在概率密度区间的级别,然后将姓名中的字分别转化为Unicode码,计算姓、名脱敏后所在的区间系数。
本实施例以“陈华”为例,则:
fNamecoef=(2*Unicode1+Unicode2)mod1000
=(2*38472+21326)mod1000=270
lName1coef=(Unicode1+2*Unicode2)mod1000
=(38472+2*21326)mod1000=124
因为“陈”属于姓第一级密度区间,所以查询姓一级概率密度权重区间表得知,270对应的权重区间是[247,286),对应的姓氏是“孙”,因为“华”属于名第一级密度空间,所以查询姓一级概率密度权重区间表得知,124对应的权重区间是[25,247),对应的名是“文”,所以脱敏后的姓名是“孙文”。
由实施例可以看出,使用以上脱敏方法得到的脱敏结果,例如“王文”,很好的保留了姓名的属性,具有很高的仿真度,不会对数据共享过程中数据串联及横向分析造成影响。脱敏后的姓名脱敏集,很好的保留了原始姓名数据的分布特征,基本消除了数据脱敏过程中对于数据分析造成的不利影响,很好的保留了姓名数据的分析价值;只要保证以上所述参数不变,那么每一次的脱敏结果都相同,能够保证脱敏过程中的一致性;用户可以设置不同的脱敏参数以达到不同的脱敏效果,具有很好的脱敏多样性;脱敏执行过程中关于概率密度的统计,完全可以放在数据库中进行,程序只需存储最后的权重区间表,大小也就几十kb左右,无需占用大量程序内存。
Claims (6)
1.一种保留分布特征的姓名脱敏方法,其特征在于,所述方法包括如下步骤:
(1)收集待脱敏姓名数据;
(2)判断待脱敏姓名数据是否符合规范,将异常数据放入异常数据集单独处理;
(3)对合规的待脱敏数据进行抽样统计,对姓、名生成概率密度区间,分级设置权重生成概率密度权重区间;
(4)针对具体待脱敏姓名,分别判断姓和名所在概率密度区间的级别,然后将姓名中的字分别转化为Unicode码,计算姓、名脱敏后所在的区间系数:
fNamecoef=(2*Unicode1+Unicode2+Unicode3)mod L1
lName1coef=(Unicode1+2*Unicode2+Unicode3)mod L2
lName2coef=(Unicode1+Unicode2+2*Unicode3)mod L3
其中L1、L2、L3为对应级别的概率密度权重区间的总长度;
(5)根据(4)所得出的系数结合各级别的概率密度权重区间表得出脱敏后的名字。
2.如权利要求1所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述异常数据,是指长度小于或等于1位及长度大于5位的姓名数据。
3.如权利要求1所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述步骤(3)的过程如下:
(3.1)将待脱敏姓名数据转化为长度为n的一维数组作为抽样的样本空间:
Name=[name1,name2,name3,...,namen]
(3.2)根据样本空间Name大小确定抽样数据集大小,建立均匀随机采样样本,对样本中的姓名进行分割,分割成姓和其余字,分别统计生成概率密度表,根据概率分级设置权重,并设置每个姓的概率密度权重区间为[前面所有姓的权重之和,当前姓权重加上前面所有姓的权重之和),每个字的概率密度权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)。
4.如权利要求3所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述建立均匀随机采样样本,具体为:
设置产生均匀随机数的混合线性同余发生器:
Xi+1=(aXi+c)modm,i≥0. 公式1
设置参数a、c、m及初始值X0代入公式1进行计算,根据拒绝采样原理,生成均匀随机序列:
[X0,X1,X2,...,Xk]
其中,k表示均匀随机序列的长度;
以产生的均匀随机数作为索引,在样本空间中查找对应的姓名,形成均匀随机采样样本。
5.如权利要求4所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述设置参数a、c、m及初始值X0,具体为:
X0为种子数seed,大小在[0,m)皆可;
由于公式1存在mod运算,所以上述均匀随机序列存在周期T<=m,所以为了产生尽可能长的均匀随机序列,应该通过调整参数a、c、m使得周期T尽可能的等于m;在满足以下条件时,均匀随机序列达到满周期:
1.c与m互质;
2.对于m的任意质因子p,(a-1)都能够被p整除;
3.a<m-1;
这里选取与m互斥的参数c以满足条件1,选取m为2L,选取a为2β+1以满足条件2,选取a∈[3,m-1)以满足条件3,所得序列在[0,2L]上均匀随机分布,周期为2L;
为了满足对样本空间Name均匀随机抽样,应使得2L>n,这样落在样本空间内的采样点就不会产生重复,并且均匀随机分布。
6.如权利要求4所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述根据拒绝采样原理,生成均匀随机序列,具体为:
设置均匀随机采样样本的长度为K,根据公式1产生均匀随机数,若随机数小于等于n,则保留该随机数,并将其放入均匀随机序列;若随机数大于n,则舍弃;直到均匀随机序列的长度达到k为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910366230.2A CN110175468B (zh) | 2019-05-05 | 2019-05-05 | 一种保留分布特征的姓名脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910366230.2A CN110175468B (zh) | 2019-05-05 | 2019-05-05 | 一种保留分布特征的姓名脱敏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175468A true CN110175468A (zh) | 2019-08-27 |
CN110175468B CN110175468B (zh) | 2020-12-01 |
Family
ID=67690576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910366230.2A Active CN110175468B (zh) | 2019-05-05 | 2019-05-05 | 一种保留分布特征的姓名脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175468B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909375A (zh) * | 2019-10-12 | 2020-03-24 | 浙江工业大学 | 一种保留分布特征的地址脱敏方法 |
CN111752969A (zh) * | 2020-06-23 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种保持统计特征的算法 |
CN113704597A (zh) * | 2020-05-21 | 2021-11-26 | 阿波罗智联(北京)科技有限公司 | 内容推荐方法、装置和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011098778A8 (en) * | 2010-02-15 | 2012-09-27 | Circassia Limited | Peptides for vaccines against birch allergy |
CN106295969A (zh) * | 2016-08-02 | 2017-01-04 | 贵州电网有限责任公司信息中心 | 电力客户价值分群的一种加权K‑means方法 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
JP6355522B2 (ja) * | 2014-10-22 | 2018-07-11 | 株式会社ポパイ | 野球試合用メンバー表 |
-
2019
- 2019-05-05 CN CN201910366230.2A patent/CN110175468B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011098778A8 (en) * | 2010-02-15 | 2012-09-27 | Circassia Limited | Peptides for vaccines against birch allergy |
JP6355522B2 (ja) * | 2014-10-22 | 2018-07-11 | 株式会社ポパイ | 野球試合用メンバー表 |
CN106295969A (zh) * | 2016-08-02 | 2017-01-04 | 贵州电网有限责任公司信息中心 | 电力客户价值分群的一种加权K‑means方法 |
CN107220295A (zh) * | 2017-04-27 | 2017-09-29 | 银江股份有限公司 | 一种人民矛盾调解案例搜索和调解策略推荐方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909375A (zh) * | 2019-10-12 | 2020-03-24 | 浙江工业大学 | 一种保留分布特征的地址脱敏方法 |
CN110909375B (zh) * | 2019-10-12 | 2022-04-08 | 浙江工业大学 | 一种保留分布特征的地址脱敏方法 |
CN113704597A (zh) * | 2020-05-21 | 2021-11-26 | 阿波罗智联(北京)科技有限公司 | 内容推荐方法、装置和设备 |
CN111752969A (zh) * | 2020-06-23 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种保持统计特征的算法 |
Also Published As
Publication number | Publication date |
---|---|
CN110175468B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175468A (zh) | 一种保留分布特征的姓名脱敏方法 | |
Durham et al. | Composite bloom filters for secure record linkage | |
EP2336908B1 (en) | Search device, search method and search program using open search engine | |
CN108768986A (zh) | 一种加密流量分类方法及服务器、计算机可读存储介质 | |
CN109145079B (zh) | 基于个人兴趣用户模型的云端可搜索加密方法 | |
CN107704768A (zh) | 一种密文的多关键字分级安全检索方法 | |
Cui et al. | A data masking scheme for sensitive big data based on format-preserving encryption | |
CN115296862B (zh) | 一种基于数据编码的网络数据安全传输方法 | |
Wu et al. | Encryption of accounting data using DES algorithm in computing environment | |
CN108171071A (zh) | 一种面向云计算的多关键字可排序密文检索方法 | |
AU2015324282A1 (en) | Protected indexing and querying of large sets of textual data | |
CN103714120B (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
CN108416037B (zh) | 云环境中基于两级索引的中心关键词密文搜索方法 | |
Li et al. | Multi-keyword fuzzy search over encrypted cloud storage data | |
CN108932434A (zh) | 一种基于机器学习技术的数据加密方法及装置 | |
CN108111310A (zh) | 一种候选口令字典的生成方法与装置 | |
Gupta et al. | A learning oriented DLP system based on classification model | |
Zhao et al. | Block cipher identification scheme based on Hamming weight distribution | |
CN106250453A (zh) | 基于云存储的数值型数据的密文检索方法及装置 | |
CN103761298B (zh) | 一种基于分布式架构的实体匹配方法 | |
CN105718804B (zh) | 一种硬件指令调用控制系统 | |
CN106257449A (zh) | 一种信息确定方法和装置 | |
KR100910303B1 (ko) | 가변코드 테이블을 이용한 데이터 암복호화 장치 및 그 방법 | |
CN106685636B (zh) | 一种结合数据局部性特征的频率分析方法 | |
JPWO2018012413A1 (ja) | 類似データ検索装置、類似データ検索方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18 Patentee after: ZHEJIANG University OF TECHNOLOGY Patentee after: Yinjiang Technology Co., Ltd Address before: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18 Patentee before: ZHEJIANG University OF TECHNOLOGY Patentee before: Yinjiang Co., Ltd |