CN113158233B - 数据预处理方法、装置及计算机存储介质 - Google Patents
数据预处理方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN113158233B CN113158233B CN202110331954.0A CN202110331954A CN113158233B CN 113158233 B CN113158233 B CN 113158233B CN 202110331954 A CN202110331954 A CN 202110331954A CN 113158233 B CN113158233 B CN 113158233B
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- sensitive
- extracted
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据预处理方法、装置及计算机存储介质,数据预处理方法在ELT过程执行,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;在所述清洗阶段对所述脱敏后的数据进行清洗处理;在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用,从而提高了数据脱敏的效率。
Description
技术领域
本申请实施例信息技术领域,尤其涉及一种数据预处理方法、装置及计算机存储介质。
背景技术
处理个人信息应当具有特定、明确和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意,应当在达成个人信息使用目的之后删除个人信息。这项标准最显著的特点是将个人信息分为个人一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。对于个人一般信息的处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用。但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必须首先获得个人信息主体明确的授权。敏感数据一般指不当使用或未经授权被人接触或修改侵犯个人隐私权的所有信息。
为此,随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战–个人隐私信息的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都可界定为个人隐私信息,属于个人敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。所谓数据脱敏(Data Masking),又可称之为数据漂白、数据去隐私化或数据变形,其主要是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感数据的可靠保护。
但是,现有技术中,都是在数据后续应用的过程中才对其中的敏感数据进行脱敏处理,由此导致对敏感数据的脱敏效率较差。
发明内容
有鉴于此,本申请实施例所解决的技术问题之一在于提供一种数据预处理方法、装置及计算机存储介质,用以克服或者缓解现有技术中上述缺陷。
第一方面,本申请实施例提供一种数据预处理方法,其在ELT过程执行,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
在所述清洗阶段对所述脱敏后的数据进行清洗处理;
在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
可选地,在本申请一实施例中,所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理,包括:在所述数据抽取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理。
可选地,在本申请一实施例中,对抽取到的数据执行敏感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的敏感数据。
可选地,在本申请一实施例中,对抽取到的数据执行敏感数据梳理时,对所述敏感数据进行关系的关联。
可选地,在本申请一实施例中,对抽取到的数据执行脱敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;
对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏处理。
可选地,在本申请一实施例中,所述根据配置的脱敏策略对抽取到的数据进行脱敏处理,包括:根据所述敏感数据的类型,调取对应的脱敏策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了不同的脱敏策略。
可选地,在本申请一实施例中,所述脱敏策略包括:屏蔽、变形、替换、随机、格式保留加密和强加密中至少一种。
可选地,在本申请一实施例中,所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
第二方面,本申请实施例提供一种数据预处理装置,其用于在ELT过程执行数据预处理,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
抽取单元,用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
清洗单元,用于在所述清洗阶段对所述脱敏后的数据进行清洗处理;
转换单元,用于在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
装载单元,用于在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
一种计算机存储介质,其特征在于,其上存储与执行上述权利要求1-9任一项所述的数据预处理方法的计算机程序。
本申请实施例中,由于在ELT过程执行数据预处理,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
在所述清洗阶段对所述脱敏后的数据进行清洗处理;
在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
本申请实施例中,通过在ELT(Extract-Transform-Load,简称抽取-转换-加载)过程中执行数据脱敏处理,由于具体在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;在所述清洗阶段对所述脱敏后的数据进行清洗处理;在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用,从而提高了数据脱敏的效率。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应所述理解,这些附图未必是按比例绘制的。附图中:
图1为本申请实施例一提供的数据预处理方法流程示意图;
图2为按照用户身份特征进行敏感数据动态脱敏示意图;
图3为本申请实施例三中数据预处理装置的结构示意图。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例的具体实现。
本申请实施例中,通过在ELT(Extract-Transform-Load,简称抽取-转换-加载)过程中执行数据脱敏处理,由于具体在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;在所述清洗阶段对所述脱敏后的数据进行清洗处理;在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用,从而提高了数据脱敏的效率。
本申请实施例提供的数据预处理方法,可以应用于包括但不限于如下具体脱敏需求:
(1)防止生产库中的敏感数据泄漏
比如,通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用,防止生产库中的敏感数据泄漏。
(2)保证测试、开发、应用阶段的数据关联性
通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)。以提升测试、开发、应用环节的数据真实性和可用性。
(3)保证数据维护和数据共享的安全
比如,对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者的不同访问策略,满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。
(4)保证隐私数据管理的政策合规性
比如,数据的脱敏和数据处理必须在的相关政策规定允许的情况下进行,脱敏规则符合的数据管理要求。
上述具体的脱敏需求仅仅是示例,并非唯一性限定,对于本领域普通技术人员来说,其也可以应用到其他任何脱敏需求的场景。
可选地,本申请下述实施例中,按照数据敏感程度和访问密级,可以将敏感数据划分为5大等级:L1(公开),L2(保密),L3(机密),L4(绝密),L5(私密)。本申请下述实施例提供的方案,可以针对任一等级的敏感数据。
上述具体的等级划分仅仅是示例,并非唯一性限定,对于本领域普通技术人员来说,其也可以应用将敏感数据划分为更多等级。
另外,上述具体脱敏需求中提及的具体脱敏处理方式仅仅是示例,并非唯一性限定。
图1为本申请实施例一提供的数据预处理方法流程示意图;如图1所示,该数据处理方法在ELT过程执行,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,该数据预处理方法具体包括:
S101、在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
可选地,在本申请一实施例中,所述步骤S101中在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理,包括:在所述数据抽取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理。
示例性地,常见的敏感数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等。
可选地,在本申请一实施例中,所述步骤S101中对抽取到的数据执行敏感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的敏感数据,从而减少工作量和防止敏感数据的遗漏,以形成完善的敏感数据字典,便于后续敏感策略的针对性指定。
可选地,在本申请一实施例中,所述步骤S101中对抽取到的数据执行敏感数据梳理时,对所述敏感数据进行关系的关联,从而完成敏感数据列、敏感数据关系的调整,以保证数据的关联关系,以可以脱敏策略实现针对不同的数据类型进行数据掩码扰乱。
可选地,在本申请一实施例中,所述步骤S101中对抽取到的数据执行脱敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏处理,从而结合不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。所述脱敏任务的执行包括但不限于脱敏任务的停止、启动、暂停等操作,脱敏任务并行处理,脱敏任务的中断、续延等,从而灵活根据脱敏的处理进度,对脱敏任务的执行过程进行实时动态调整。
可选地,在本申请一实施例中,在对所述抽取到的数据进行脱敏处理时,比如对于任意一行记录的敏感数据,其所属的相等集内记录的敏感数据数量不小于k,k大于等于1,即至少有k-1条记录半标识敏感数据列属性值与该条记录相同,则先移除标识列,使得对移除标识列的敏感数据根据半标识列进行分组,每组最少有k条记录,每组中至少有k-1条记录的半标识列的值与该记录相同,再泛化半标识列,从而防止个人标识泄漏的风险。
进一步地,也可以在上述相等集插入干扰数据构造新的数据集,从而进一步降低数据被泄露的风险。
可选地,在本申请一实施例中,在进行脱敏处理时,也可以限定了半标识列属性与敏感数据的全局分布之间的联系,从而减弱了半标识列属性与特定敏感数据的联系,减少攻击者通过敏感数据的分布信息进行属性泄露攻击的可能性。
可选地,在本申请一实施例中,所述步骤S101中根据配置的脱敏策略对抽取到的数据进行脱敏处理,包括:根据所述敏感数据的类型,调取对应的脱敏策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了不同的脱敏策略。
可选地,在本申请一实施例中,所述脱敏策略包括:屏蔽、变形、替换、随机、格式保留加密和强加密中至少一种。
可选地,在本申请一实施例中,所述替换比如为同义替换,通过所述同义替换,使得使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。
可选地,在本申请一实施例中,所述屏蔽可以为部分数据遮蔽,通过所述部分数据遮蔽,使得原数据中部分或全部内容,用“*”或“#”等字符进行替换,遮盖部分或全部原文。
可选地,在本申请一实施例中,所述屏蔽还可以为混合屏蔽,通过所述混合屏蔽使得将相关的多个敏感数据列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系,例如,城市、省、邮编在屏蔽后保持一致。
可选地,在本申请一实施例中,所述屏蔽还可以为确定性屏蔽,通过所述确定性屏蔽,使得敏感数据被屏蔽后生成可重复的屏蔽值,可确保特定的屏蔽值(如,客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一个值。
当然,在另外一实施例中,采用的脱敏策略也可以为如下中的至少一种:
可选地,在本申请一实施例中,所述脱敏策略可以为可逆脱敏策略,从而确保脱敏后的敏感数据可还原,便于将第三方分析机构和内部分析团队基于脱敏后数据上的分析的结果还原为业务数据。
可选地,在本申请一实施例中,所述步骤S101中在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
所述静态数据脱敏环境一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。所述动态数据脱敏环境一般用在生产环境,在访问敏感数据当时进行脱敏,以解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。
在静态数据脱敏环境中进行脱敏处理,主要适用于脱敏处理后的数据要外发给第三方公司进行开发测试或是数据分析,得到的分析结果后能够将分析出的数据进行回溯,从而保证了数据提供方发送出去的数据不包含敏感数据,确保开发、测试环节不会泄漏敏感数据。当项目开发单位开发完成后,将分析系统或结果数据回溯成真实的结果数据,实现了开发过程中的数据共享和结果一致性,又保证了真实数据不会在开发过程中泄漏。
在动态数据脱敏环境中进行脱敏处理,可保证在通讯层面上,通过代理部署方式,对业务系统数据库中的敏感数据进行透明的、实时的脱敏。通常依据用户的角色、职责和其他IT定义身份特征,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,可确保不同级别的用户按照其身份特征恰如其分的访问敏感数据,并且不需要对生产数据库中的数据进行任何改变。动态数据脱敏同样支持同义替换、部分遮蔽、混合脱敏、确定性脱敏及可逆脱敏等,比如可根据不同用户身份特征,指定对应脱敏策略,示例性地,参见图2所示,按照用户身份特征进行敏感数据动态脱敏,用户被分为授权用户、非授权用户(A/B),授权用户可以获取到数据库中数据的真实值,而非授权用户A只能获取到经过屏蔽后的屏蔽值,非授权用户B只能获取到脱敏处理后的值(又称之为脱敏值)。
动态脱敏环境中进行脱敏处理,适用于如下应用场景:
1:保护生产环境
对于大型复杂系统环境下,为了给客户提供高水平的服务,有时意味着开发人员、数据库管理员、设计人员、专业顾问和其他系统需要不受限制的访问生产数据,以便迅速解决重大问题和快速响应。
2:降低外包风险
对于大型复杂系统,往往依赖大量的外包IT人员和开发单位来开展和维护业务,这些外包人员能够通过应用程序,报表和开发、运维工具访问生产数据,这意味着敏感数据完全暴露在不可控的环境中;动态数据脱敏可以对不同用户和应用的访问进行实时的隐私数据屏蔽,帮助有效保护重要数据资产的访问。
3:保护通用帐户风险
数据库维护人员常常会使用强度很弱的通用密码,便于开发人员和DBA访问和监控生产数据库,便利的同时也为获取关键隐私数据开了方便之门。通过提供过敏后的数据掩码,一方面可以防止来自非生产环境的登录,并且可以根据规则向不同的登录用户和系统提供经过脱敏的数据。
进一步,在上述脱敏策略中还可以对数据进行流式或者批量脱敏。流式数据是指不断产生、实时计算、动态增加且要求及时响应的数据,它具有海量和实时性等特点,一般将实时或准实时的数据脱敏技术归为流式数据脱敏技术。比如,基于Storm的流式数据脱敏,Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt,bolt要么把数据保存到存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。对于一个允许增量计算的高速事件处理系统,Storm会是最佳选择。它可以应对客户端等待结果的同时,进一步进行分布式计算的需求,可以使用开箱即用的分布式RPC。
由于storm的数据处理方式是增量的实时处理,当数据源源不断的过来,此时由于无法获取到全量的数据,因此可以基于历史数据并结合相应的脱敏算法进行数据脱敏,将敏感词去掉,依据脱敏规则将数据做泛化处理。流式数据脱敏的优势是从数据发生的时刻就进行了数据处理。
或者,也可以基于Spark Streaming的流式数据脱敏。
可选地,所述批量数据脱敏中,批量数据接入是指数据源来自一个稳定的、基本不变的存储介质,通过数据扫描的方式一次性将数据采集到大数据平台来,数据以历史数据为主,数据源一般来自文件、关系型数据库、nosql数据库等。批量数据脱敏可以在数据导入的过程中进行脱敏,也可以在数据进入大数据平台后进行脱敏,批量数据的脱敏可以结合数据的关联关系,运用配置的脱敏算法以达到更好的脱敏效果,基于flume的数据采集方式,可以通过编写拦截器,在拦截器中调用数据脱敏程序,输出脱敏后的数据。Sqoop是适用于关系型数据库的数据采集,可以通过建立中间表,编写UDF程序的方式,最后通过任务调度程序,批量的对数据进行数据脱敏。
S102、在所述清洗阶段对所述脱敏后的数据进行清洗处理;
本申请中,数据清洗的过滤不符合要求的数据,不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
(1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。
(2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。
(3)重复的数据:对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来。
S103、在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。
(1)不一致数据转换:将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。
(2)数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。
(3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,以供分析使用。
S104、在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
图3为本申请实施例三中数据预处理装置的结构示意图。该数据预处理装置用于在ELT过程执行数据预处理,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
抽取单元,用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
清洗单元,用于在所述清洗阶段对所述脱敏后的数据进行清洗处理;
转换单元,用于在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
装载单元,用于在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
可选地,在本申请一实施例中,所述抽取单元进一步用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理。
可选地,在本申请一实施例中,所述抽取单元在对抽取到的数据执行敏感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的敏感数据。
可选地,在本申请一实施例中,所述抽取单元在对抽取到的数据执行敏感数据梳理时,对所述敏感数据进行关系的关联,从而便于在制定脱敏策略时,便于进行批量化的制定,提高脱敏策略制定和脱敏处理的效率。
可选地,在本申请一实施例中,所述抽取单元在对抽取到的数据执行脱敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;所述抽取单元在对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏处理,包括但不限于脱敏任务的停止、启动、暂停等操作,脱敏任务并行处理,脱敏任务的中断、续延等,从而灵活根据脱敏的处理进度,对脱敏任务的执行过程进行实时动态调整。
可选地,在本申请一实施例中,所述抽取单元在对根据配置的脱敏策略对抽取到的数据进行脱敏处理时,根据所述敏感数据的类型,调取对应的脱敏策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了不同的脱敏策略。
可选地,在本申请一实施例中,所述脱敏策略包括:屏蔽、变形、替换、随机、格式保留加密和强加密中至少一种。
可选地,在本申请一实施例中,所述抽取单元在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
本申请实施例还提供一种计算机存储介质,其上存储执行本申请任一实施例中所述数据预处理方法的计算机程序。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来运行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他一实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种数据预处理方法,其特征在于,在ETL过程执行,所述ETL过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
在所述清洗阶段对所述脱敏后的数据进行清洗处理;
在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用;
其中,所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理,包括:在所述数据抽取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理;
其中,所述对抽取到的数据执行脱敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏处理;
在对所述抽取到的数据进行脱敏处理时,对于任意一行记录的敏感数据,其所属的相等集内记录的敏感数据数量不小于k,k大于等于1,即至少有k-1条记录半标识敏感数据列属性值与该条记录相同,则先移除标识列,使得对移除标识列的敏感数据根据半标识列进行分组,每组最少有 k 条记录,每组中至少有 k-1 条记录的半标识列的值与该记录相同,再泛化半标识列,从而防止个人标识泄漏的风险;
其中,在进行脱敏处理时,限定半标识列属性与敏感数据的全局分布之间的联系,从而减弱了半标识列属性与特定敏感数据的联系,减少攻击者通过敏感数据的分布信息进行属性泄露攻击的可能性;
所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理;
其中,所述静态数据脱敏环境用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析,但又不能将敏感数据存储于非生产环境的问题;所述动态数据脱敏环境用在生产环境,在访问敏感数据当时进行脱敏,以解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题;
在所述静态数据脱敏环境中进行脱敏处理,适用于脱敏处理后的数据要外发给第三方公司进行开发测试或是数据分析,得到的分析结果后能够将分析出的数据进行回溯,从而保证了数据提供方发送出去的数据不包含敏感数据,确保开发、测试环节不会泄漏敏感数据;当项目开发单位开发完成后,将分析系统或结果数据回溯成真实的结果数据,实现了开发过程中的数据共享和结果一致性,又保证了真实数据不会在开发过程中泄漏;
在所述动态数据脱敏环境中进行脱敏处理,保证在通讯层面上,通过代理部署方式,对业务系统数据库中的敏感数据进行透明的、实时的脱敏;依据用户的角色、职责和其他IT定义身份特征,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,确保不同级别的用户按照其身份特征访问敏感数据,并且不需要对生产数据库中的数据进行任何改变。
2.根据权利要求1所述的数据预处理方法,其特征在于,对抽取到的数据执行敏感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的敏感数据。
3.根据权利要求1所述的数据预处理方法,其特征在于,对抽取到的数据执行敏感数据梳理时,对所述敏感数据进行关系的关联。
4.根据权利要求1所述的数据预处理方法,其特征在于,所述根据配置的脱敏策略对抽取到的数据进行脱敏处理,包括:根据所述敏感数据的类型,调取对应的脱敏策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了不同的脱敏策略。
5.根据权利要求1-4任一项所述的数据预处理方法,其特征在于,所述脱敏策略包括:屏蔽、变形、替换、随机、格式保留加密和强加密中至少一种。
6.一种数据预处理装置,其特征在于,用于在ETL过程执行数据预处理,所述ETL过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
抽取单元,用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
清洗单元,用于在所述清洗阶段对所述脱敏后的数据进行清洗处理;
转换单元,用于在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
装载单元,用于在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用;
所述抽取单元用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理;
其中,所述抽取单元在对抽取到的数据执行脱敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;所述抽取单元在对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏处理;
在对所述抽取到的数据进行脱敏处理时,对于任意一行记录的敏感数据,其所属的相等集内记录的敏感数据数量不小于k,k大于等于1,即至少有k-1条记录半标识敏感数据列属性值与该条记录相同,则先移除标识列,使得对移除标识列的敏感数据根据半标识列进行分组,每组最少有 k 条记录,每组中至少有 k-1 条记录的半标识列的值与该记录相同,再泛化半标识列,从而防止个人标识泄漏的风险;
其中,在进行脱敏处理时,限定半标识列属性与敏感数据的全局分布之间的联系,从而减弱了半标识列属性与特定敏感数据的联系,减少攻击者通过敏感数据的分布信息进行属性泄露攻击的可能性;
所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理;
其中,所述静态数据脱敏环境用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析,但又不能将敏感数据存储于非生产环境的问题;所述动态数据脱敏环境用在生产环境,在访问敏感数据当时进行脱敏,以解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题;
在所述静态数据脱敏环境中进行脱敏处理,适用于脱敏处理后的数据要外发给第三方公司进行开发测试或是数据分析,得到的分析结果后能够将分析出的数据进行回溯,从而保证了数据提供方发送出去的数据不包含敏感数据,确保开发、测试环节不会泄漏敏感数据;当项目开发单位开发完成后,将分析系统或结果数据回溯成真实的结果数据,实现了开发过程中的数据共享和结果一致性,又保证了真实数据不会在开发过程中泄漏;
在所述动态数据脱敏环境中进行脱敏处理,保证在通讯层面上,通过代理部署方式,对业务系统数据库中的敏感数据进行透明的、实时的脱敏;依据用户的角色、职责和其他IT定义身份特征,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,确保不同级别的用户按照其身份特征访问敏感数据,并且不需要对生产数据库中的数据进行任何改变。
7.一种计算机存储介质,其特征在于,其上存储有执行上述权利要求1-5任一项所述的数据预处理方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110331954.0A CN113158233B (zh) | 2021-03-29 | 2021-03-29 | 数据预处理方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110331954.0A CN113158233B (zh) | 2021-03-29 | 2021-03-29 | 数据预处理方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158233A CN113158233A (zh) | 2021-07-23 |
CN113158233B true CN113158233B (zh) | 2023-06-27 |
Family
ID=76885295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110331954.0A Active CN113158233B (zh) | 2021-03-29 | 2021-03-29 | 数据预处理方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158233B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569289A (zh) * | 2021-07-29 | 2021-10-29 | 中国工商银行股份有限公司 | 数据脱敏方法及装置 |
CN113626849A (zh) * | 2021-08-26 | 2021-11-09 | 杭州安恒信息技术股份有限公司 | 一种字符串脱敏方法、装置、设备及存储介质 |
CN113779630A (zh) * | 2021-09-09 | 2021-12-10 | 新疆大学 | 一种基于dicom的ct医疗图像可逆脱敏方法 |
CN115618396B (zh) * | 2022-11-28 | 2023-04-07 | 云账户技术(天津)有限公司 | 一种数据的加密方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107817968A (zh) * | 2017-11-13 | 2018-03-20 | 重庆首亨软件有限公司 | 一种计算机软件开发系统 |
CN108062387A (zh) * | 2017-12-14 | 2018-05-22 | 国网陕西省电力公司电力科学研究院 | 一种面向tas系统的实时数据清洗与转换方法 |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
CN110727954A (zh) * | 2019-09-19 | 2020-01-24 | 平安科技(深圳)有限公司 | 数据授权脱敏自动化方法、装置及存储介质 |
CN111079174A (zh) * | 2019-11-21 | 2020-04-28 | 中国电力科学研究院有限公司 | 基于匿名化及差分隐私技术的用电数据脱敏方法及系统 |
CN111813808A (zh) * | 2020-06-10 | 2020-10-23 | 云南电网有限责任公司 | 一种大数据快速脱敏的方法及装置 |
CN112231747A (zh) * | 2020-09-25 | 2021-01-15 | 中国建设银行股份有限公司 | 数据脱敏方法、数据脱敏装置以及计算机可读介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9621680B2 (en) * | 2013-10-21 | 2017-04-11 | Globalfoundries Inc. | Consistent data masking |
US9716700B2 (en) * | 2015-02-19 | 2017-07-25 | International Business Machines Corporation | Code analysis for providing data privacy in ETL systems |
CN107958158A (zh) * | 2017-10-27 | 2018-04-24 | 国网辽宁省电力有限公司 | 一种大数据平台的动态数据脱敏方法及系统 |
CN110609860A (zh) * | 2018-05-29 | 2019-12-24 | 中国移动通信集团重庆有限公司 | 数据etl处理方法、装置、设备及存储介质 |
CN110399733A (zh) * | 2019-03-18 | 2019-11-01 | 国网安徽省电力有限公司黄山供电公司 | 一种针对结构化数据的脱敏平台 |
CN110619014A (zh) * | 2019-09-18 | 2019-12-27 | 国网江苏省电力有限公司宝应县供电分公司 | 一种基于etl的数据抽取方法 |
-
2021
- 2021-03-29 CN CN202110331954.0A patent/CN113158233B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107817968A (zh) * | 2017-11-13 | 2018-03-20 | 重庆首亨软件有限公司 | 一种计算机软件开发系统 |
CN108062387A (zh) * | 2017-12-14 | 2018-05-22 | 国网陕西省电力公司电力科学研究院 | 一种面向tas系统的实时数据清洗与转换方法 |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
CN110727954A (zh) * | 2019-09-19 | 2020-01-24 | 平安科技(深圳)有限公司 | 数据授权脱敏自动化方法、装置及存储介质 |
CN111079174A (zh) * | 2019-11-21 | 2020-04-28 | 中国电力科学研究院有限公司 | 基于匿名化及差分隐私技术的用电数据脱敏方法及系统 |
CN111813808A (zh) * | 2020-06-10 | 2020-10-23 | 云南电网有限责任公司 | 一种大数据快速脱敏的方法及装置 |
CN112231747A (zh) * | 2020-09-25 | 2021-01-15 | 中国建设银行股份有限公司 | 数据脱敏方法、数据脱敏装置以及计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
数据脱敏在政府数据治理及开放服务中的应用;王毛路 等;《电子政务》(第05期);94-103 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158233A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158233B (zh) | 数据预处理方法、装置及计算机存储介质 | |
US11544395B2 (en) | System and method for real-time transactional data obfuscation | |
CN111079174A (zh) | 基于匿名化及差分隐私技术的用电数据脱敏方法及系统 | |
US11227068B2 (en) | System and method for sensitive data retirement | |
CA2906475C (en) | Method and apparatus for substitution scheme for anonymizing personally identifiable information | |
Singh | Towards data privacy and security framework in big data governance | |
US20220261395A1 (en) | Multi-table data validation tool | |
Caruccio et al. | GDPR compliant information confidentiality preservation in big data processing | |
CN112417492A (zh) | 基于数据分类分级的服务提供方法 | |
CN111639179A (zh) | 一种银行前端查询系统批量客户信息隐私控制方法和装置 | |
CN116541372A (zh) | 一种数据资产治理方法及系统 | |
Fotache et al. | Framework for the Assessment of Data Masking Performance Penalties in SQL Database Servers. Case Study: Oracle | |
CN116910023A (zh) | 一种数据治理系统 | |
US10482279B2 (en) | Pattern-less private data detection on data sets | |
Kumar et al. | Data warehouse security issue. | |
Portillo-Dominguez et al. | Towards an efficient log data protection in software systems through data minimization and anonymization | |
Goyal | Data masking: need, techniques & solutions | |
US20230088657A1 (en) | Deleting, auditing, and disaster recovery for personal identifiable information | |
US20190347354A1 (en) | System for mitigating intentional and unintentional exposure using solution data modelling | |
US20230214522A1 (en) | Automatic detection of personal identifiable information | |
Ranganathan et al. | A Tool for Database Masking and Anonymization of PostgreSQL | |
Kenekar et al. | Privacy preserving data mining on unstructured data | |
Abbas et al. | The Role of Data Mining in Information Security | |
Zhezhnych et al. | On restricted set of DML operations in an ERP System’s database | |
Jiang et al. | Research on privacy protection of power users based on big data desensitization technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |