CN108416229B - 一种针对类别信息的数据脱敏方法 - Google Patents
一种针对类别信息的数据脱敏方法 Download PDFInfo
- Publication number
- CN108416229B CN108416229B CN201810236622.2A CN201810236622A CN108416229B CN 108416229 B CN108416229 B CN 108416229B CN 201810236622 A CN201810236622 A CN 201810236622A CN 108416229 B CN108416229 B CN 108416229B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- category information
- ascii
- value
- data desensitization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对类别信息的数据脱敏方法,包括以下步骤:1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;3)创建字典,其中,字典的键为0‑9及a‑f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果,该方法能够保留脱敏后类别信息的频数及百分比,不降低数据分析的价值。
Description
技术领域
本发明属于隐私保护安全技术领域,涉及一种针对类别信息的数据脱敏方法。
背景技术
随着数据生产要素化,数据科学、数据科技的不断发展和数据价值的深度挖掘及应用,一场大数据革命正在进行,各行各业每天都在产生数量巨大的数据碎片。目前,业务生产系统中已经积累了海量的客户类别信息等敏感数据,如是否患某种疾病(Y/N)、患某种疾病的可治愈程度(H/M/L)等是非常重要的隐私信息,一旦这些隐私信息被不法分子盗取、利用,定会给个人带来经济乃至声誉上的损失。因此,数据拥有者在使用客户信息时,必须对类别信息进行脱敏处理。目前针对敏感信息的脱敏方法主要是针对数字型数据、非数字型数据包括地址、出生日期、姓名、身份证号等,对类别信息的非暴力脱敏方法尚未出现。
数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,这样就可以在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后的真实数据集。现有技术中,对类别信息的脱敏方法常用的是固定替换,即将所有类别信息替换为同一个固定值,这样,类别信息的频数及百分比完全发生了改变,使得整体数据集的类别信息失去数据分析的价值。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种针对类别信息的数据脱敏方法,该方法能够保留脱敏后类别信息的频数及百分比,不降低数据分析的价值。
为达到上述目的,本发明所述的针对类别信息的数据脱敏方法包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;
2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;
4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果。
步骤1)中的类别信息为a-z及A-Z之间的字符。
步骤1)中控制字符对应的ASCII值为十六进制数。
随机产生的十进制整数大于等于1且小于等于133。
本发明具有以下有益效果:
本发明所述的针对类别信息的数据脱敏方法在具体操作时,对类别信息进行二次加密处理,具体的,将随机产生的十进制整数转换后与步骤1)中的ASCII值进行求和;将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,实现数据的二次加密处理,从而充分保护隐私信息的安全性,另外,本发明中将在字典中查找到的值按顺序组合形成字符串,然后将所述字符串作为针对类别信息的数据脱敏结果,以保留脱敏后类别信息的频数及百分比,并且不降低数据分析的价值。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明所述的针对类别信息的数据脱敏方法包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;
2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;
4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果。
步骤1)中的类别信息为a-z及A-Z之间的字符。
步骤1)中控制字符对应的ASCII值为十六进制数。
步骤2)随机产生的某个十进制整数,其值在范围1-133内,将其转换为十六进制后再与步骤1获得的ASCII值求和,其目的在于,使得脱敏后的字符串长度固定为2位,其原理是英文字母中小写z对应的十六进制ASCII值最大为7a,要想达到最大的两位十六进制数ff,还相差一个十进制的整数133。
实施例一
本发明所述的针对类别信息的数据脱敏方法包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值,其中,类别信息为a-z及A-Z之间的字符,其对应的十六进制ASCII值分别为61-7a、41-5a;
2)随机产生1-133之间的某一十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算,如对类别信息“F”进行脱敏,“F”经步骤1)处理后得到的十六进制ASCII值为46,经步骤2)求和后得到47-cb之间的数字;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,其中,共16个字符,字典中的值为随机挑选的16个不重复的英文大写字母,例如可创造字典为:
dictionary={‘0’:’K’,’1’:’L’,’2’:’M’,’3’:’N’,’4’:’O’,’5’:’P’,’6’:’Q’,’7’:’R’,’8’:’S’,’9’:’T’,’a’:’U’,’b’:’V’,’c’:’W’,’d’:’X’,’e’:’Y’,’f’:’Z’};
4)将步骤2)求和运算结果中的每一位作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果,若1-133之间的随机整数为25,则对应“F”脱敏后的结果为“PZ”。
Claims (1)
1.一种针对类别信息的数据脱敏方法,其特征在于,包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;
2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;
4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果;
步骤1)中的类别信息为a-z及A-Z之间的字符;
步骤1)中控制字符对应的ASCII值为十六进制数;
随机产生的十进制整数大于等于1且小于等于133。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236622.2A CN108416229B (zh) | 2018-03-21 | 2018-03-21 | 一种针对类别信息的数据脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236622.2A CN108416229B (zh) | 2018-03-21 | 2018-03-21 | 一种针对类别信息的数据脱敏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416229A CN108416229A (zh) | 2018-08-17 |
CN108416229B true CN108416229B (zh) | 2022-05-03 |
Family
ID=63133169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810236622.2A Active CN108416229B (zh) | 2018-03-21 | 2018-03-21 | 一种针对类别信息的数据脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416229B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726585B (zh) * | 2018-12-14 | 2020-08-04 | 银江股份有限公司 | 一种面向身份证号码的集成数据脱敏系统及方法 |
CN110457949A (zh) * | 2019-08-14 | 2019-11-15 | 于向东 | 一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法 |
CN113177223B (zh) * | 2021-01-29 | 2024-06-28 | 张斌 | 一种基于数据属性动态因子实现的高安全性的数据可逆脱敏方法 |
CN113158249A (zh) * | 2021-04-28 | 2021-07-23 | 国网山东省电力公司潍坊供电公司 | 数据脱敏方法、装置、电子设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996298A (zh) * | 2009-08-14 | 2011-03-30 | 鸿富锦精密工业(深圳)有限公司 | 加密方法及与加密方法相对应的解密方法 |
CN104866775A (zh) * | 2015-06-12 | 2015-08-26 | 四川友联信息技术有限公司 | 一种金融数据的漂白方法 |
CN105656626A (zh) * | 2016-03-28 | 2016-06-08 | 陈剑辉 | 逆向重组加密方法 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103427987B (zh) * | 2012-05-25 | 2016-05-18 | 纬创资通股份有限公司 | 数据加密的方法、数据验证方法及电子装置 |
US9048854B2 (en) * | 2013-03-12 | 2015-06-02 | Bmc Software Inc. | Unicode character conversion using one of two conversion services |
CN105282090B (zh) * | 2014-06-03 | 2018-11-27 | 江南大学 | 一种互联网上防非法访问的公开url加密编码方法 |
-
2018
- 2018-03-21 CN CN201810236622.2A patent/CN108416229B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996298A (zh) * | 2009-08-14 | 2011-03-30 | 鸿富锦精密工业(深圳)有限公司 | 加密方法及与加密方法相对应的解密方法 |
CN104866775A (zh) * | 2015-06-12 | 2015-08-26 | 四川友联信息技术有限公司 | 一种金融数据的漂白方法 |
CN105656626A (zh) * | 2016-03-28 | 2016-06-08 | 陈剑辉 | 逆向重组加密方法 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
Non-Patent Citations (1)
Title |
---|
"网页代码数字加密法";瞿波等;《电脑开发与应用》;20130325(第2013-3期);第32-34页,正文第1-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108416229A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416229B (zh) | 一种针对类别信息的数据脱敏方法 | |
US10178107B2 (en) | Detection of malicious domains using recurring patterns in domain names | |
CN111324911B (zh) | 一种隐私数据保护方法、系统及装置 | |
KR101627592B1 (ko) | 비밀 정보의 검출 | |
US7743068B2 (en) | Computerized method, system and program product for generating a data mining model | |
CN106161006B (zh) | 一种数字加密算法 | |
US9460310B2 (en) | Method and apparatus for substitution scheme for anonymizing personally identifiable information | |
CN107145799A (zh) | 一种数据脱敏方法及装置 | |
CN107704501B (zh) | 一种识别同源二进制文件的方法及系统 | |
CN106599322A (zh) | 数据脱敏的方法及设备 | |
CN114785505B (zh) | 一种获取异常设备的数据处理系统 | |
CN114386100A (zh) | 一种公有云用户敏感数据管理方法 | |
Güven et al. | A novel password policy focusing on altering user password selection habits: a statistical analysis on breached data | |
CN116611092A (zh) | 一种基于多因子的数据脱敏方法及装置、溯源方法及装置 | |
CN108932434B (zh) | 一种基于机器学习技术的数据加密方法及装置 | |
CN110532805B (zh) | 数据脱敏方法及装置 | |
CN111324908A (zh) | 一种批量数据脱敏方法 | |
CN115292731B (zh) | 文本批阅信息的加密存储方法及相关设备 | |
KR100910303B1 (ko) | 가변코드 테이블을 이용한 데이터 암복호화 장치 및 그 방법 | |
CN108616533B (zh) | 敏感数据加密方法及装置 | |
CN113841146A (zh) | 同时满足安全性和易用性的密码生成方法 | |
JP5513953B2 (ja) | テスト用マスキングデータ生成装置及びプログラム | |
US12045364B1 (en) | Mathematical method for performing homomorphic operations | |
KR101977128B1 (ko) | 장문 텍스트열에 대한 고정 길이 암호화 장치 및 방법 | |
CN105760769B (zh) | 一种计算机口令统计分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |