CN110457934A - 一种基于哈希算法的高仿真数据脱敏算法 - Google Patents
一种基于哈希算法的高仿真数据脱敏算法 Download PDFInfo
- Publication number
- CN110457934A CN110457934A CN201910321658.5A CN201910321658A CN110457934A CN 110457934 A CN110457934 A CN 110457934A CN 201910321658 A CN201910321658 A CN 201910321658A CN 110457934 A CN110457934 A CN 110457934A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- algorithm
- desensitize
- hash algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 43
- 238000013499 data model Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000002427 irreversible effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000007844 bleaching agent Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据脱敏方法,即根据数据特点生成自定义数据模型。利用哈希算法对数据进行脱敏,再根据自定义数据模型生成高度仿真的脱敏数据。
Description
技术领域
本发明涉及一种新的数据脱敏算法——基于哈希算法的高仿真数据脱敏算法。
背景技术
大数据分析需要将大量的数据进行整合,从而得以充分的从数据中挖掘隐藏的价值,挖掘出的信息将为业务部门提供有效的决策依据,从而提高生产效率,创造价值。
但是,用于进行数据分析的数据中可能包括个人隐私数据以及敏感信息,例如身份证信息,酒店入住纪录,用户支付信息等,这些数据一旦泄露将涉及个人隐私安全。现有的大数据平台一般通过用户认证,权限管理以及数据加密等方式确保数据安全。可是,以上方式并不能完全保证数据不被获取,破解。一方面,任何数据存储流通环节中的参与人员,均可能存在导致数据泄漏的风险。另一方面,那些没有访问用户数据权限的人员,也可能有存在对该数据进行分析与挖掘的需求,数据的访问权限的限制,将导致数据价值无法得到充分利用。
数据脱敏需要对数据进行漂白,消除数据中的敏感内容。与此同时,在对数据进行脱敏的同时,需保证脱敏后的数据可用性,并在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案是大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。
发明内容
发明目的:本发明针对数据脱敏的需求,提出一种新的数据脱敏算法——基于哈希算法的高仿真数据脱敏算法。既保证了消除数据中的敏感内容,使得数据与原始数据相似,也保留了数据脱的原始特征,保证脱敏后的可用性。
技术方案:本发明使用的脱敏算法括三个部分:获取脱敏预处理,哈希计算及返回脱敏结果。脱敏预处理:首先对需要的数据进行逻辑整理,分析出脱敏数据的逻辑结构,并在计算机中定义相关的数据结构进行存储。构成数据模型库。随后将需要脱敏的数据在数据模型库中的相关数据数据结构中检索出数据的存储信息,以供数据脱敏之用。哈希计算:将数据与处理中查找出的位置信息作为换,改变哈希计算的计算形式。返回脱敏结果:根据哈希计算出的结果,可以从数据预处理环节的中定义的数据模型库的对应的数据结构中找出脱敏后的结果。
有益效果:本发明的显著优点是利用自定义数据结构与哈希算法进行数据脱敏,可以在高效的情况下脱敏出高仿真的脱敏数据。
附图说明
图1是本发明的总体结构图。
图2是本发明的数据处理流程图。
图3是以地址为例的数据脱敏流程。
图4数据脱敏结果结果。
图5是地址脱敏结果示意图。
图6是身份证前6位脱敏结果示意图。
图7是数据结构示意图。
图8是地址数据信息的逻辑关系图。
具体实施方式
1.分析需脱敏数据的数据特征,构造自定义数据模型。
根据脱敏需求,首先针对需脱敏数据的特点,对其定义一套数据模型,抽象出一套共有的数据结构,以姓名为例,我们可将拆分成:姓+名。我们在进行姓名脱敏的时候需要对与字分别进行脱敏处理。首先,收集姓氏与名数据,分别建立姓氏库与名库。对于以上两个库中的数据都分配一个唯一的id。以id值为 key值,类似的数据可以构造如下的键值对:
{
“key_0”:
“value_0”
}
设这样的键值对中key值为k,value值为v,构成这样的键值对为d,那么所有的键值对构成集合。
d={k:v}
D={d1,d2,…,dn}
其结构如图7所示:
键值对的形式可以覆盖大部分需脱敏数据的数据特点,然而,并非所有的待脱敏数据都可以键值对的形式展现,有些数据需要构造树形数据结构,这样的数据具有一定的层次结构,成嵌套关系:
A{B1,B2,…Bn}
B{C1,C2,…Cn}
……
例如针对省市区县数据的脱敏就需要先构造具有省,市,区的层次结构的地址数据信息,如图8所示。
2.对需脱敏数据进行解析,解析其需要脱敏的数字特征。
对于需要脱敏的单条数据data,针对其数据特点,选定其对应的数据模型 Model,对于每一项需要脱敏数据的特点,找出其标签值oriTag,oriTag往往对应1中键值对的key值:
oriTag=getOriTag(Model,data)
3.利用哈希算法对2生成的数字特征进行哈希计算,生成脱敏后的数字特征。
对于每一项需要脱敏的数据项在集合D中找出对应的子项di,找出对应的key 值传入哈希函数计算出脱敏后的key值。
我们定义如下一个哈希函数:
h=H(x,α),x∈[k1,k2,…,kn],
x代表输入的原始标签信息,即2中的oriTag,同时也为1中所述的key值,α代表周期因子,取值随机化,哈希函数的计算值将随着α的输入而产生变化。通过哈希函数计算我们可以获得脱敏后的的id信息。
4.利用3生成的数字特征,以及步骤1构造的自定义数据模型生成高仿真的脱敏数据。
利用3生成的脱敏后的数据存储信息,根据其对应的数据模型,检索生成新的脱敏数据。由于新数据来自于真实数据构成的模型,所以脱敏数据高度仿真。
Claims (4)
1.一种基于哈希算法的高仿真数据脱敏算法,其特征在于定义一种新的数据脱敏方式——利用哈希算法进行数据脱敏,利用被脱敏数据的数据特征,结合上述两点实现数据的高仿真脱敏。
2.一种基于哈希算法的高仿真数据脱敏算法,其特征在于提出使用使用哈希算法应用于数据脱敏,即使用不可逆的哈希算法对进数据脱敏,对权利要求1进行数据的某些特征进行哈希计算。
3.一种基于哈希算法的高仿真数据脱敏算法,其特征在于利用真实数据来生成脱敏结果,即使用真实数据对权利要求1中的数据进行数据生成。
4.一种基于哈希算法的高仿真数据脱敏算法,其特征在于提出一种灵活的数据脱敏框架,其主要步骤如下:
步骤1:分析需脱敏数据的数据特征,构造自定义数据模型;
步骤2:对需脱敏数据进行解析,利用步骤1的构造的数据模型解析出脱敏数据的数字特征;
步骤3:利用哈希算法对步骤2生成的数字特征进行哈希计算,生成脱敏后的数字特征;
步骤4:利用步骤3生成的数字特征,以及步骤1构造的自定义数据模型生成高仿真的脱敏数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910321658.5A CN110457934A (zh) | 2019-04-19 | 2019-04-19 | 一种基于哈希算法的高仿真数据脱敏算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910321658.5A CN110457934A (zh) | 2019-04-19 | 2019-04-19 | 一种基于哈希算法的高仿真数据脱敏算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457934A true CN110457934A (zh) | 2019-11-15 |
Family
ID=68480897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910321658.5A Pending CN110457934A (zh) | 2019-04-19 | 2019-04-19 | 一种基于哈希算法的高仿真数据脱敏算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457934A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000980A (zh) * | 2020-07-06 | 2020-11-27 | 拉卡拉支付股份有限公司 | 数据处理方法及装置 |
CN113343298A (zh) * | 2021-06-18 | 2021-09-03 | 浪潮云信息技术股份公司 | 基于数据仿真算法的数据脱敏系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270370A1 (en) * | 2007-04-30 | 2008-10-30 | Castellanos Maria G | Desensitizing database information |
CN106203170A (zh) * | 2016-07-19 | 2016-12-07 | 北京同余科技有限公司 | 基于角色的数据库动态脱敏服务方法和系统 |
CN106599322A (zh) * | 2017-01-03 | 2017-04-26 | 北京网智天元科技股份有限公司 | 数据脱敏的方法及设备 |
CN107423632A (zh) * | 2017-04-20 | 2017-12-01 | 北京同余科技有限公司 | 可定制的敏感数据脱敏方法和系统 |
CN108446570A (zh) * | 2018-02-28 | 2018-08-24 | 四川新网银行股份有限公司 | 一种数据脱敏方法及装置 |
-
2019
- 2019-04-19 CN CN201910321658.5A patent/CN110457934A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270370A1 (en) * | 2007-04-30 | 2008-10-30 | Castellanos Maria G | Desensitizing database information |
CN106203170A (zh) * | 2016-07-19 | 2016-12-07 | 北京同余科技有限公司 | 基于角色的数据库动态脱敏服务方法和系统 |
CN106599322A (zh) * | 2017-01-03 | 2017-04-26 | 北京网智天元科技股份有限公司 | 数据脱敏的方法及设备 |
CN107423632A (zh) * | 2017-04-20 | 2017-12-01 | 北京同余科技有限公司 | 可定制的敏感数据脱敏方法和系统 |
CN108446570A (zh) * | 2018-02-28 | 2018-08-24 | 四川新网银行股份有限公司 | 一种数据脱敏方法及装置 |
Non-Patent Citations (1)
Title |
---|
姬鸣扬;李林森;李建华;: "P2P网贷用户数据脱敏技术研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000980A (zh) * | 2020-07-06 | 2020-11-27 | 拉卡拉支付股份有限公司 | 数据处理方法及装置 |
CN113343298A (zh) * | 2021-06-18 | 2021-09-03 | 浪潮云信息技术股份公司 | 基于数据仿真算法的数据脱敏系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jaseena et al. | Issues, challenges, and solutions: big data mining | |
Wang et al. | Information Computing and Applications | |
US11032304B2 (en) | Ontology based persistent attack campaign detection | |
US9064210B1 (en) | Semantically-aware behavioral security analysis system for security information and event management | |
US11601453B2 (en) | Methods and systems for establishing semantic equivalence in access sequences using sentence embeddings | |
Schintler et al. | Encyclopedia of big data | |
CN111936985A (zh) | 一种用于封装和存储来自多个不同数据源的信息的方法和系统 | |
Thuraisingham et al. | Big data analytics with applications in insider threat detection | |
Miloslavskaya et al. | Information security maintenance issues for big security-related data | |
CN110457934A (zh) | 一种基于哈希算法的高仿真数据脱敏算法 | |
Siewert | Big data in the cloud | |
Brunton | WikiLeaks and the Assange papers | |
Zhu et al. | Ontology-based approach for the measurement of privacy disclosure | |
Florea et al. | Complex project to develop real tools for identifying and countering terrorism: real-time early detection and alert system for online terrorist content based on natural language processing, social network analysis, artificial intelligence and complex event processing | |
Liao et al. | Resource-based event reconstruction of digital crime scenes | |
US10776519B2 (en) | Information presentation management | |
Ma et al. | The construction method of computer network security defense system based on multisource big data | |
Di et al. | Research on enterprise competitive intelligence development and strategies in the big data era | |
Ogundiran et al. | A framework to reconstruct digital forensics evidence via goal-oriented modeling | |
Viji et al. | A journey on privacy protection strategies in big data | |
Alenezi | Digital Forensics in the Age of Smart Environments: A Survey of Recent Advancements and Challenges | |
Salini et al. | A novel method: Ontology-based security requirements engineering framework | |
Bogdanov et al. | Protection of personal data using anonymization | |
Shukla et al. | Discrn: A distributed storytelling framework for intelligence analysis | |
Pramanik et al. | Cyber Security and Network Security |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |