CN108416229B - 一种针对类别信息的数据脱敏方法 - Google Patents
一种针对类别信息的数据脱敏方法 Download PDFInfo
- Publication number
- CN108416229B CN108416229B CN201810236622.2A CN201810236622A CN108416229B CN 108416229 B CN108416229 B CN 108416229B CN 201810236622 A CN201810236622 A CN 201810236622A CN 108416229 B CN108416229 B CN 108416229B
- Authority
- CN
- China
- Prior art keywords
- category information
- dictionary
- value
- ascii
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对类别信息的数据脱敏方法,包括以下步骤:1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;3)创建字典,其中,字典的键为0‑9及a‑f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果,该方法能够保留脱敏后类别信息的频数及百分比,不降低数据分析的价值。
Description
技术领域
本发明属于隐私保护安全技术领域,涉及一种针对类别信息的数据脱敏方法。
背景技术
随着数据生产要素化,数据科学、数据科技的不断发展和数据价值的深度挖掘及应用,一场大数据革命正在进行,各行各业每天都在产生数量巨大的数据碎片。目前,业务生产系统中已经积累了海量的客户类别信息等敏感数据,如是否患某种疾病(Y/N)、患某种疾病的可治愈程度(H/M/L)等是非常重要的隐私信息,一旦这些隐私信息被不法分子盗取、利用,定会给个人带来经济乃至声誉上的损失。因此,数据拥有者在使用客户信息时,必须对类别信息进行脱敏处理。目前针对敏感信息的脱敏方法主要是针对数字型数据、非数字型数据包括地址、出生日期、姓名、身份证号等,对类别信息的非暴力脱敏方法尚未出现。
数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,这样就可以在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后的真实数据集。现有技术中,对类别信息的脱敏方法常用的是固定替换,即将所有类别信息替换为同一个固定值,这样,类别信息的频数及百分比完全发生了改变,使得整体数据集的类别信息失去数据分析的价值。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种针对类别信息的数据脱敏方法,该方法能够保留脱敏后类别信息的频数及百分比,不降低数据分析的价值。
为达到上述目的,本发明所述的针对类别信息的数据脱敏方法包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;
2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;
4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果。
步骤1)中的类别信息为a-z及A-Z之间的字符。
步骤1)中控制字符对应的ASCII值为十六进制数。
随机产生的十进制整数大于等于1且小于等于133。
本发明具有以下有益效果:
本发明所述的针对类别信息的数据脱敏方法在具体操作时,对类别信息进行二次加密处理,具体的,将随机产生的十进制整数转换后与步骤1)中的ASCII值进行求和;将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,实现数据的二次加密处理,从而充分保护隐私信息的安全性,另外,本发明中将在字典中查找到的值按顺序组合形成字符串,然后将所述字符串作为针对类别信息的数据脱敏结果,以保留脱敏后类别信息的频数及百分比,并且不降低数据分析的价值。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明所述的针对类别信息的数据脱敏方法包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;
2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;
4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果。
步骤1)中的类别信息为a-z及A-Z之间的字符。
步骤1)中控制字符对应的ASCII值为十六进制数。
步骤2)随机产生的某个十进制整数,其值在范围1-133内,将其转换为十六进制后再与步骤1获得的ASCII值求和,其目的在于,使得脱敏后的字符串长度固定为2位,其原理是英文字母中小写z对应的十六进制ASCII值最大为7a,要想达到最大的两位十六进制数ff,还相差一个十进制的整数133。
实施例一
本发明所述的针对类别信息的数据脱敏方法包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值,其中,类别信息为a-z及A-Z之间的字符,其对应的十六进制ASCII值分别为61-7a、41-5a;
2)随机产生1-133之间的某一十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算,如对类别信息“F”进行脱敏,“F”经步骤1)处理后得到的十六进制ASCII值为46,经步骤2)求和后得到47-cb之间的数字;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,其中,共16个字符,字典中的值为随机挑选的16个不重复的英文大写字母,例如可创造字典为:
dictionary={‘0’:’K’,’1’:’L’,’2’:’M’,’3’:’N’,’4’:’O’,’5’:’P’,’6’:’Q’,’7’:’R’,’8’:’S’,’9’:’T’,’a’:’U’,’b’:’V’,’c’:’W’,’d’:’X’,’e’:’Y’,’f’:’Z’};
4)将步骤2)求和运算结果中的每一位作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果,若1-133之间的随机整数为25,则对应“F”脱敏后的结果为“PZ”。
Claims (1)
1.一种针对类别信息的数据脱敏方法,其特征在于,包括以下步骤:
1)获取类别信息,根据ASCII码对照表获得控制字符对应的ASCII值;
2)随机产生十进制整数,再将所述十进制整数转换为与步骤1)中ASCII值相同进制的数,然后与步骤1)中的ASCII值进行求和运算;
3)创建字典,其中,字典的键为0-9及a-f之间的字符,字典中的值为随机挑选的16个不重复的英文大写字母;
4)将步骤2)求和运算结果中的每一位分别作为键在步骤3)创建的字典中查找对应的值,然后将所有查找到的值按顺序组合形成字符串,最后将所述字符串作为针对类别信息的数据脱敏结果;
步骤1)中的类别信息为a-z及A-Z之间的字符;
步骤1)中控制字符对应的ASCII值为十六进制数;
随机产生的十进制整数大于等于1且小于等于133。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236622.2A CN108416229B (zh) | 2018-03-21 | 2018-03-21 | 一种针对类别信息的数据脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810236622.2A CN108416229B (zh) | 2018-03-21 | 2018-03-21 | 一种针对类别信息的数据脱敏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416229A CN108416229A (zh) | 2018-08-17 |
CN108416229B true CN108416229B (zh) | 2022-05-03 |
Family
ID=63133169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810236622.2A Active CN108416229B (zh) | 2018-03-21 | 2018-03-21 | 一种针对类别信息的数据脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416229B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726585B (zh) * | 2018-12-14 | 2020-08-04 | 银江股份有限公司 | 一种面向身份证号码的集成数据脱敏系统及方法 |
CN110457949A (zh) * | 2019-08-14 | 2019-11-15 | 于向东 | 一种基于数据字典的保持唯一性、完整性、关联性的数据脱敏方法 |
CN113177223B (zh) * | 2021-01-29 | 2024-06-28 | 张斌 | 一种基于数据属性动态因子实现的高安全性的数据可逆脱敏方法 |
CN113158249A (zh) * | 2021-04-28 | 2021-07-23 | 国网山东省电力公司潍坊供电公司 | 数据脱敏方法、装置、电子设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996298A (zh) * | 2009-08-14 | 2011-03-30 | 鸿富锦精密工业(深圳)有限公司 | 加密方法及与加密方法相对应的解密方法 |
CN104866775A (zh) * | 2015-06-12 | 2015-08-26 | 四川友联信息技术有限公司 | 一种金融数据的漂白方法 |
CN105656626A (zh) * | 2016-03-28 | 2016-06-08 | 陈剑辉 | 逆向重组加密方法 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103427987B (zh) * | 2012-05-25 | 2016-05-18 | 纬创资通股份有限公司 | 数据加密的方法、数据验证方法及电子装置 |
US9048854B2 (en) * | 2013-03-12 | 2015-06-02 | Bmc Software Inc. | Unicode character conversion using one of two conversion services |
CN105282090B (zh) * | 2014-06-03 | 2018-11-27 | 江南大学 | 一种互联网上防非法访问的公开url加密编码方法 |
-
2018
- 2018-03-21 CN CN201810236622.2A patent/CN108416229B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996298A (zh) * | 2009-08-14 | 2011-03-30 | 鸿富锦精密工业(深圳)有限公司 | 加密方法及与加密方法相对应的解密方法 |
CN104866775A (zh) * | 2015-06-12 | 2015-08-26 | 四川友联信息技术有限公司 | 一种金融数据的漂白方法 |
CN105656626A (zh) * | 2016-03-28 | 2016-06-08 | 陈剑辉 | 逆向重组加密方法 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
Non-Patent Citations (1)
Title |
---|
"网页代码数字加密法";瞿波等;《电脑开发与应用》;20130325(第2013-3期);第32-34页,正文第1-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108416229A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416229B (zh) | 一种针对类别信息的数据脱敏方法 | |
US8522016B2 (en) | On-the-fly data masking | |
EP2916246A1 (en) | Primary and foreign key relationship identification with metadata analysis | |
CN112241530B (zh) | 恶意pdf文档的检测方法及电子设备 | |
CN103279713A (zh) | 一种优化的社交网络图数据发布隐私保护方法 | |
CN107622212A (zh) | 一种基于双陷门的混合密文检索方法 | |
CN114386100A (zh) | 一种公有云用户敏感数据管理方法 | |
CN113626645B (zh) | 分级优化的高效密文模糊检索方法及相关设备 | |
Li et al. | CDPS: A cryptographic data publishing system | |
Baawi et al. | Enhancement of text steganography technique using Lempel-Ziv-Welch Algorithm and two-letter word technique | |
Majeed et al. | New text steganography technique based on multilayer encoding with format-preserving encryption and Huffman coding | |
US20230107191A1 (en) | Data obfuscation platform for improving data security of preprocessing analysis by third parties | |
Vishwakarma et al. | Efficient dictionary for salted password analysis | |
CN102509058B (zh) | 基于冗余位替换的点类型gis矢量数据伪装与还原方法 | |
Schnell | Privacy Preserving Record Linkage in the Context of a National Statistical Institute | |
Yang et al. | New data publishing framework in the big data environments | |
CN116011015A (zh) | 一种基于安全多方计算技术的隐私保护实体识别工具 | |
Schnell et al. | Protecting record linkage identifiers using a language model for patient names | |
Nag | Low-tech steganography for covert operations | |
Al-Nasrawi | New cryptographic system of romanized Arabic text based on modified playfiar | |
CN107968706B (zh) | 具有流程保护功能的白盒密码方法及系统 | |
CN112364368B (zh) | 一种电话号码加密存储方法 | |
Ghann et al. | Preserving the Privacy of Sensitive Data Using Bit-Coded-Sensitive Algorithm (BCSA). | |
CN111539023A (zh) | 一种基于多次迭代过滤的移动轨迹数据隐私保护匹配方法 | |
CN118550957B (zh) | 一种加密数据库的建立及模糊查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |