CN113158233A - 数据预处理方法、装置及计算机存储介质 - Google Patents

数据预处理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN113158233A
CN113158233A CN202110331954.0A CN202110331954A CN113158233A CN 113158233 A CN113158233 A CN 113158233A CN 202110331954 A CN202110331954 A CN 202110331954A CN 113158233 A CN113158233 A CN 113158233A
Authority
CN
China
Prior art keywords
data
desensitization
extracted
stage
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110331954.0A
Other languages
English (en)
Other versions
CN113158233B (zh
Inventor
彭海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Shouheng Software Co ltd
Original Assignee
Chongqing Shouheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Shouheng Software Co ltd filed Critical Chongqing Shouheng Software Co ltd
Priority to CN202110331954.0A priority Critical patent/CN113158233B/zh
Publication of CN113158233A publication Critical patent/CN113158233A/zh
Application granted granted Critical
Publication of CN113158233B publication Critical patent/CN113158233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提供一种数据预处理方法、装置及计算机存储介质,数据预处理方法在ELT过程执行,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;在所述清洗阶段对所述脱敏后的数据进行清洗处理;在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用,从而提高了数据脱敏的效率。

Description

数据预处理方法、装置及计算机存储介质
技术领域
本申请实施例信息技术领域,尤其涉及一种数据预处理方法、装置及计 算机存储介质。
背景技术
处理个人信息应当具有特定、明确和合理的目的,应当在个人信息主体知 情的情况下获得个人信息主体的同意,应当在达成个人信息使用目的之后删除 个人信息。这项标准最显著的特点是将个人信息分为个人一般信息和个人敏感 信息,并提出了默许同意和明示同意的概念。对于个人一般信息的处理可以建立 在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用。 但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必 须首先获得个人信息主体明确的授权。敏感数据一般指不当使用或未经授权被 人接触或修改侵犯个人隐私权的所有信息。
为此,随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位, 大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战 –个人隐私信息的保护。个人信息与个人行为(比如位置信息、消费行为、网络 访问行为)等,这些都可界定为个人隐私信息,属于个人敏感信息,在大数据价 值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。所 谓数据脱敏(Data Masking),又可称之为数据漂白、数据去隐私化或数据变形, 其主要是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感数据的可靠 保护。
但是,现有技术中,都是在数据后续应用的过程中才对其中的敏感数据 进行脱敏处理,由此导致对敏感数据的脱敏效率较差。
发明内容
有鉴于此,本申请实施例所解决的技术问题之一在于提供一种数据预处 理方法、装置及计算机存储介质,用以克服或者缓解现有技术中上述缺陷。
第一方面,本申请实施例提供一种数据预处理方法,其在ELT过程执行, 所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶 段,包括:
在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处 理;
在所述清洗阶段对所述脱敏后的数据进行清洗处理;
在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在 后端应用中进行使用。
可选地,在本申请一实施例中,所述在所述数据抽取阶段从数据源抽取 数据并对抽取到的数据进行脱敏处理,包括:在所述数据抽取阶段从数据源抽 取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制 定、脱敏任务执行以对抽取到的数据进行脱敏处理。
可选地,在本申请一实施例中,对抽取到的数据执行敏感数据发现时, 根据敏感数据特征以及分词模型,识别所述抽取到的数据中的敏感数据。
可选地,在本申请一实施例中,对抽取到的数据执行敏感数据梳理时, 对所述敏感数据进行关系的关联。
可选地,在本申请一实施例中,对抽取到的数据执行脱敏方案制定时, 根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;
对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的 数据进行脱敏处理。
可选地,在本申请一实施例中,所述根据配置的脱敏策略对抽取到的数 据进行脱敏处理,包括:根据所述敏感数据的类型,调取对应的脱敏策略对抽 取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了不同的脱 敏策略。
可选地,在本申请一实施例中,所述脱敏策略包括:屏蔽、变形、替换、 随机、格式保留加密和强加密中至少一种。
可选地,在本申请一实施例中,所述在所述数据抽取阶段从数据源抽取 数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取 阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处 理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态 数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据 脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
第二方面,本申请实施例提供一种数据预处理装置,其用于在ELT过程 执行数据预处理,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换 阶段、数据装载阶段,包括:
抽取单元,用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数 据进行脱敏处理;
清洗单元,用于在所述清洗阶段对所述脱敏后的数据进行清洗处理;
转换单元,用于在所述数据转换阶段对所述清洗处理后的数据进行聚合 处理;
装载单元,用于在所述数据装载阶段,将所述聚合处理后的数据存储到 数据仓库中以在后端应用中进行使用。
一种计算机存储介质,其特征在于,其上存储与执行上述权利要求1-9 任一项所述的数据预处理方法的计算机程序。
本申请实施例中,由于在ELT过程执行数据预处理,所述ELT过程包括 数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处 理;
在所述清洗阶段对所述脱敏后的数据进行清洗处理;
在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在 后端应用中进行使用。
本申请实施例中,通过在ELT(Extract-Transform-Load,简称抽取-转 换-加载)过程中执行数据脱敏处理,由于具体在所述数据抽取阶段从数据源抽 取数据并对抽取到的数据进行脱敏处理;在所述清洗阶段对所述脱敏后的数据 进行清洗处理;在所述数据转换阶段对所述清洗处理后的数据进行聚合处理; 在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应 用中进行使用,从而提高了数据脱敏的效率。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一 些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领 域技术人员应所述理解,这些附图未必是按比例绘制的。附图中:
图1为本申请实施例一提供的数据预处理方法流程示意图;
图2为按照用户身份特征进行敏感数据动态脱敏示意图;
图3为本申请实施例三中数据预处理装置的结构示意图。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优 点。
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结 合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实 施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他 实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例的具体实现。
本申请实施例中,通过在ELT(Extract-Transform-Load,简称抽取-转 换-加载)过程中执行数据脱敏处理,由于具体在所述数据抽取阶段从数据源抽 取数据并对抽取到的数据进行脱敏处理;在所述清洗阶段对所述脱敏后的数据 进行清洗处理;在所述数据转换阶段对所述清洗处理后的数据进行聚合处理; 在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应 用中进行使用,从而提高了数据脱敏的效率。
本申请实施例提供的数据预处理方法,可以应用于包括但不限于如下具 体脱敏需求:
(1)防止生产库中的敏感数据泄漏
比如,通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进 行混淆、打乱后再提供给第三方使用,防止生产库中的敏感数据泄漏。
(2)保证测试、开发、应用阶段的数据关联性
通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务 格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、 表内数据关联关系)。以提升测试、开发、应用环节的数据真实性和可用性。
(3)保证数据维护和数据共享的安全
比如,对数据库访问者的用户名、IP、工具类型、时间等进行监控,控 制数据访问结果的差异化,数据结果可以划分为真实数据、掩码数据、数据阻 断、行限定数据等,通过访问者的不同访问策略,满足细粒度的数据访问需求。 例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统 可以访问脱敏后的数据。
(4)保证隐私数据管理的政策合规性
比如,数据的脱敏和数据处理必须在的相关政策规定允许的情况下进行, 脱敏规则符合的数据管理要求。
上述具体的脱敏需求仅仅是示例,并非唯一性限定,对于本领域普通技 术人员来说,其也可以应用到其他任何脱敏需求的场景。
可选地,本申请下述实施例中,按照数据敏感程度和访问密级,可以将 敏感数据划分为5大等级:L1(公开),L2(保密),L3(机密),L4(绝密), L5(私密)。本申请下述实施例提供的方案,可以针对任一等级的敏感数据。
上述具体的等级划分仅仅是示例,并非唯一性限定,对于本领域普通技 术人员来说,其也可以应用将敏感数据划分为更多等级。
另外,上述具体脱敏需求中提及的具体脱敏处理方式仅仅是示例,并非 唯一性限定。
图1为本申请实施例一提供的数据预处理方法流程示意图;如图1所示, 该数据处理方法在ELT过程执行,所述ELT过程包括数据抽取阶段、数据清洗 阶段、数据转换阶段、数据装载阶段,该数据预处理方法具体包括:
S101、在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱 敏处理;
可选地,在本申请一实施例中,所述步骤S101中在所述数据抽取阶段从 数据源抽取数据并对抽取到的数据进行脱敏处理,包括:在所述数据抽取阶段 从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、 脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理。
示例性地,常见的敏感数据如姓名、证件号、银行账户、金额、日期、 住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组 织机构代码、纳税人识别号等。
可选地,在本申请一实施例中,所述步骤S101中对抽取到的数据执行敏 感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的 敏感数据,从而减少工作量和防止敏感数据的遗漏,以形成完善的敏感数据字 典,便于后续敏感策略的针对性指定。
可选地,在本申请一实施例中,所述步骤S101中对抽取到的数据执行敏 感数据梳理时,对所述敏感数据进行关系的关联,从而完成敏感数据列、敏感 数据关系的调整,以保证数据的关联关系,以可以脱敏策略实现针对不同的数 据类型进行数据掩码扰乱。
可选地,在本申请一实施例中,所述步骤S101中对抽取到的数据执行脱 敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;对抽取 到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏 处理,从而结合不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门 的脱敏策略。所述脱敏任务的执行包括但不限于脱敏任务的停止、启动、暂停 等操作,脱敏任务并行处理,脱敏任务的中断、续延等,从而灵活根据脱敏的 处理进度,对脱敏任务的执行过程进行实时动态调整。
可选地,在本申请一实施例中,在对所述抽取到的数据进行脱敏处理时, 比如对于任意一行记录的敏感数据,其所属的相等集内记录的敏感数据数量不 小于k,k大于等于1,即至少有k-1条记录半标识敏感数据列属性值与该条记 录相同,则先移除标识列,使得对移除标识列的敏感数据根据半标识列进行分 组,每组最少有k条记录,每组中至少有k-1条记录的半标识列的值与该记 录相同,再泛化半标识列,从而防止个人标识泄漏的风险。
进一步地,也可以在上述相等集插入干扰数据构造新的数据集,从而进 一步降低数据被泄露的风险。
可选地,在本申请一实施例中,在进行脱敏处理时,也可以限定了半标 识列属性与敏感数据的全局分布之间的联系,从而减弱了半标识列属性与特定 敏感数据的联系,减少攻击者通过敏感数据的分布信息进行属性泄露攻击的可 能性。
可选地,在本申请一实施例中,所述步骤S101中根据配置的脱敏策略对 抽取到的数据进行脱敏处理,包括:根据所述敏感数据的类型,调取对应的脱 敏策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置 了不同的脱敏策略。
可选地,在本申请一实施例中,所述脱敏策略包括:屏蔽、变形、替换、 随机、格式保留加密和强加密中至少一种。
可选地,在本申请一实施例中,所述替换比如为同义替换,通过所述同 义替换,使得使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为 有意义的姓名,住址脱敏后仍然为住址。
可选地,在本申请一实施例中,所述屏蔽可以为部分数据遮蔽,通过所 述部分数据遮蔽,使得原数据中部分或全部内容,用“*”或“#”等字符进行 替换,遮盖部分或全部原文。
可选地,在本申请一实施例中,所述屏蔽还可以为混合屏蔽,通过所述 混合屏蔽使得将相关的多个敏感数据列作为一个组进行屏蔽,以保证这些相关 列中被屏蔽的数据保持同样的关系,例如,城市、省、邮编在屏蔽后保持一致。
可选地,在本申请一实施例中,所述屏蔽还可以为确定性屏蔽,通过所 述确定性屏蔽,使得敏感数据被屏蔽后生成可重复的屏蔽值,可确保特定的屏 蔽值(如,客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一个值。
当然,在另外一实施例中,采用的脱敏策略也可以为如下中的至少一种:
Figure BDA0002996457520000071
Figure BDA0002996457520000081
可选地,在本申请一实施例中,所述脱敏策略可以为可逆脱敏策略,从 而确保脱敏后的敏感数据可还原,便于将第三方分析机构和内部分析团队基于 脱敏后数据上的分析的结果还原为业务数据。
可选地,在本申请一实施例中,所述步骤S101中在所述数据抽取阶段从 数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所 述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进 行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境, 所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述 动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
所述静态数据脱敏环境一般用在非生产环境,在敏感数据从生产环境脱 敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数 据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存 储于非生产环境的问题。所述动态数据脱敏环境一般用在生产环境,在访问敏 感数据当时进行脱敏,以解决在生产环境需要根据不同情况对同一敏感数据读 取时需要进行不同级别脱敏的问题。
在静态数据脱敏环境中进行脱敏处理,主要适用于脱敏处理后的数据要 外发给第三方公司进行开发测试或是数据分析,得到的分析结果后能够将分析 出的数据进行回溯,从而保证了数据提供方发送出去的数据不包含敏感数据, 确保开发、测试环节不会泄漏敏感数据。当项目开发单位开发完成后,将分析 系统或结果数据回溯成真实的结果数据,实现了开发过程中的数据共享和结果 一致性,又保证了真实数据不会在开发过程中泄漏。
在动态数据脱敏环境中进行脱敏处理,可保证在通讯层面上,通过代理 部署方式,对业务系统数据库中的敏感数据进行透明的、实时的脱敏。通常依 据用户的角色、职责和其他IT定义身份特征,动态的对生产数据库返回的数 据进行专门的屏蔽、加密、隐藏和审计,可确保不同级别的用户按照其身份特 征恰如其分的访问敏感数据,并且不需要对生产数据库中的数据进行任何改变。 动态数据脱敏同样支持同义替换、部分遮蔽、混合脱敏、确定性脱敏及可逆脱 敏等,比如可根据不同用户身份特征,指定对应脱敏策略,示例性地,参见图 2所示,按照用户身份特征进行敏感数据动态脱敏,用户被分为授权用户、非 授权用户(A/B),授权用户可以获取到数据库中数据的真实值,而非授权用户 A只能获取到经过屏蔽后的屏蔽值,非授权用户B只能获取到脱敏处理后的值 (又称之为脱敏值)。
动态脱敏环境中进行脱敏处理,适用于如下应用场景:
1:保护生产环境
对于大型复杂系统环境下,为了给客户提供高水平的服务,有时意味着 开发人员、数据库管理员、设计人员、专业顾问和其他系统需要不受限制的访 问生产数据,以便迅速解决重大问题和快速响应。
2:降低外包风险
对于大型复杂系统,往往依赖大量的外包IT人员和开发单位来开展和维 护业务,这些外包人员能够通过应用程序,报表和开发、运维工具访问生产数 据,这意味着敏感数据完全暴露在不可控的环境中;动态数据脱敏可以对不同 用户和应用的访问进行实时的隐私数据屏蔽,帮助有效保护重要数据资产的访 问。
3:保护通用帐户风险
数据库维护人员常常会使用强度很弱的通用密码,便于开发人员和DBA 访问和监控生产数据库,便利的同时也为获取关键隐私数据开了方便之门。通 过提供过敏后的数据掩码,一方面可以防止来自非生产环境的登录,并且可以 根据规则向不同的登录用户和系统提供经过脱敏的数据。
进一步,在上述脱敏策略中还可以对数据进行流式或者批量脱敏。流式 数据是指不断产生、实时计算、动态增加且要求及时响应的数据,它具有海量和 实时性等特点,一般将实时或准实时的数据脱敏技术归为流式数据脱敏技术。 比如,基于Storm的流式数据脱敏,Storm是一个分布式的,可靠的,容错的 数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout 把数据传递给bolt,bolt要么把数据保存到存储器,要么把数据传递给其它的 bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。对 于一个允许增量计算的高速事件处理系统,Storm会是最佳选择。它可以应对 客户端等待结果的同时,进一步进行分布式计算的需求,可以使用开箱即用的 分布式RPC。
由于storm的数据处理方式是增量的实时处理,当数据源源不断的过来, 此时由于无法获取到全量的数据,因此可以基于历史数据并结合相应的脱敏算 法进行数据脱敏,将敏感词去掉,依据脱敏规则将数据做泛化处理。流式数据 脱敏的优势是从数据发生的时刻就进行了数据处理。
或者,也可以基于Spark Streaming的流式数据脱敏。
可选地,所述批量数据脱敏中,批量数据接入是指数据源来自一个稳定 的、基本不变的存储介质,通过数据扫描的方式一次性将数据采集到大数据平 台来,数据以历史数据为主,数据源一般来自文件、关系型数据库、nosql数 据库等。批量数据脱敏可以在数据导入的过程中进行脱敏,也可以在数据进入 大数据平台后进行脱敏,批量数据的脱敏可以结合数据的关联关系,运用配置 的脱敏算法以达到更好的脱敏效果,基于flume的数据采集方式,可以通过编 写拦截器,在拦截器中调用数据脱敏程序,输出脱敏后的数据。Sqoop是适用 于关系型数据库的数据采集,可以通过建立中间表,编写UDF程序的方式,最 后通过任务调度程序,批量的对数据进行数据脱敏。
S102、在所述清洗阶段对所述脱敏后的数据进行清洗处理;
本申请中,数据清洗的过滤不符合要求的数据,不符合要求的数据主要 是有不完整的数据、错误的数据、重复的数据三大类。
(1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应 商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不 能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件 向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。
(2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收 输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字 字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一 类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能 通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期 格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误 需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正, 修正之后再抽取。
(3)重复的数据:对于这一类数据——特别是维表中会出现这种情况— —将重复数据记录的所有字段导出来。
S103、在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一 些商务规则的计算。
(1)不一致数据转换:将不同业务系统的相同类型的数据统一,比如同 一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽 取过来之后统一转换成一个编码。
(2)数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库 中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数 据按照数据仓库粒度进行聚合。
(3)商务规则的计算:不同的企业有不同的业务规则、不同的数据指标, 这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这 些数据指标计算好了之后存储在数据仓库中,以供分析使用。
S104、在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库 中以在后端应用中进行使用。
图3为本申请实施例三中数据预处理装置的结构示意图。该数据预处理 装置用于在ELT过程执行数据预处理,所述ELT过程包括数据抽取阶段、数据 清洗阶段、数据转换阶段、数据装载阶段,包括:
抽取单元,用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数 据进行脱敏处理;
清洗单元,用于在所述清洗阶段对所述脱敏后的数据进行清洗处理;
转换单元,用于在所述数据转换阶段对所述清洗处理后的数据进行聚合 处理;
装载单元,用于在所述数据装载阶段,将所述聚合处理后的数据存储到 数据仓库中以在后端应用中进行使用。
可选地,在本申请一实施例中,所述抽取单元进一步用于在所述数据抽 取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据 梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理。
可选地,在本申请一实施例中,所述抽取单元在对抽取到的数据执行敏 感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的 敏感数据。
可选地,在本申请一实施例中,所述抽取单元在对抽取到的数据执行敏 感数据梳理时,对所述敏感数据进行关系的关联,从而便于在制定脱敏策略时, 便于进行批量化的制定,提高脱敏策略制定和脱敏处理的效率。
可选地,在本申请一实施例中,所述抽取单元在对抽取到的数据执行脱 敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;所述抽 取单元在对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到 的数据进行脱敏处理,包括但不限于脱敏任务的停止、启动、暂停等操作,脱 敏任务并行处理,脱敏任务的中断、续延等,从而灵活根据脱敏的处理进度, 对脱敏任务的执行过程进行实时动态调整。
可选地,在本申请一实施例中,所述抽取单元在对根据配置的脱敏策略 对抽取到的数据进行脱敏处理时,根据所述敏感数据的类型,调取对应的脱敏 策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了 不同的脱敏策略。
可选地,在本申请一实施例中,所述脱敏策略包括:屏蔽、变形、替换、 随机、格式保留加密和强加密中至少一种。
可选地,在本申请一实施例中,所述抽取单元在所述数据抽取阶段从数 据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述 数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行 脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所 述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动 态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
本申请实施例还提供一种计算机存储介质,其上存储执行本申请任一实 施例中所述数据预处理方法的计算机程序。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利 要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的 顺序来运行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定 要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中, 多任务处理和并行处理可以是有利的。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不 仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种 过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句 “包括一个…”限定的要素,并不排除在包括要素的过程、方法、商品或者设 备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他一实施例的不同 之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述 的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据预处理方法,其特征在于,在ELT过程执行,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
在所述清洗阶段对所述脱敏后的数据进行清洗处理;
在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
2.根据权利要求1所述的数据预处理方法,其特征在于,所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理,包括:在所述数据抽取阶段从数据源抽取数据并对抽取到的数据依次执行敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行以对抽取到的数据进行脱敏处理。
3.根据权利要求2所述的数据预处理方法,其特征在于,对抽取到的数据执行敏感数据发现时,根据敏感数据特征以及分词模型,识别所述抽取到的数据中的敏感数据。
4.根据权利要求2所述的数据预处理方法,其特征在于,对抽取到的数据执行敏感数据梳理时,对所述敏感数据进行关系的关联。
5.根据权利要求2所述的数据预处理方法,其特征在于,对抽取到的数据执行脱敏方案制定时,根据数据脱敏需求以及基准脱敏算法,配置脱敏策略;
对抽取到的数据执行脱敏任务执行时,根据配置的脱敏策略对抽取到的数据进行脱敏处理。
6.根据权利要求5所述的数据预处理方法,其特征在于,所述根据配置的脱敏策略对抽取到的数据进行脱敏处理,包括:根据所述敏感数据的类型,调取对应的脱敏策略对抽取到的数据进行脱敏处理,其中,为不同类型的所述敏感数据配置了不同的脱敏策略。
7.根据权利要求5-6任一项所述的数据预处理方法,其特征在于,所述脱敏策略包括:屏蔽、变形、替换、随机、格式保留加密和强加密中至少一种。
8.根据权利要求1-7任一项所述的数据预处理方法,其特征在于,所述在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理时,搭建数据脱敏环境,在所述数据抽取阶段在所述数据脱敏环境中从数据源抽取数据并对抽取到的数据进行脱敏处理,所述数据脱敏环境包括静态数据脱敏环境、动态数据脱敏环境,所述静态数据脱敏环境允许在未使用所述抽取到的数据时进行脱敏处理,所述动态数据脱敏环境允许在使用所述抽取到的数据时进行脱敏处理。
9.一种数据预处理装置,其特征在于,用于在ELT过程执行数据预处理,所述ELT过程包括数据抽取阶段、数据清洗阶段、数据转换阶段、数据装载阶段,包括:
抽取单元,用于在所述数据抽取阶段从数据源抽取数据并对抽取到的数据进行脱敏处理;
清洗单元,用于在所述清洗阶段对所述脱敏后的数据进行清洗处理;
转换单元,用于在所述数据转换阶段对所述清洗处理后的数据进行聚合处理;
装载单元,用于在所述数据装载阶段,将所述聚合处理后的数据存储到数据仓库中以在后端应用中进行使用。
10.一种计算机存储介质,其特征在于,其上存储与执行上述权利要求1-9任一项所述的数据预处理方法的计算机程序。
CN202110331954.0A 2021-03-29 2021-03-29 数据预处理方法、装置及计算机存储介质 Active CN113158233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110331954.0A CN113158233B (zh) 2021-03-29 2021-03-29 数据预处理方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110331954.0A CN113158233B (zh) 2021-03-29 2021-03-29 数据预处理方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113158233A true CN113158233A (zh) 2021-07-23
CN113158233B CN113158233B (zh) 2023-06-27

Family

ID=76885295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110331954.0A Active CN113158233B (zh) 2021-03-29 2021-03-29 数据预处理方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113158233B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626849A (zh) * 2021-08-26 2021-11-09 杭州安恒信息技术股份有限公司 一种字符串脱敏方法、装置、设备及存储介质
CN113779630A (zh) * 2021-09-09 2021-12-10 新疆大学 一种基于dicom的ct医疗图像可逆脱敏方法
CN115618396A (zh) * 2022-11-28 2023-01-17 云账户技术(天津)有限公司 一种数据的加密方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150113656A1 (en) * 2013-10-21 2015-04-23 International Business Machines Corporation Consistent data masking
US20160246986A1 (en) * 2015-02-19 2016-08-25 International Business Machines Corporation Code analysis for providing data privacy in etl systems
CN107817968A (zh) * 2017-11-13 2018-03-20 重庆首亨软件有限公司 一种计算机软件开发系统
CN107958158A (zh) * 2017-10-27 2018-04-24 国网辽宁省电力有限公司 一种大数据平台的动态数据脱敏方法及系统
CN108062387A (zh) * 2017-12-14 2018-05-22 国网陕西省电力公司电力科学研究院 一种面向tas系统的实时数据清洗与转换方法
CN110399733A (zh) * 2019-03-18 2019-11-01 国网安徽省电力有限公司黄山供电公司 一种针对结构化数据的脱敏平台
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110609860A (zh) * 2018-05-29 2019-12-24 中国移动通信集团重庆有限公司 数据etl处理方法、装置、设备及存储介质
CN110619014A (zh) * 2019-09-18 2019-12-27 国网江苏省电力有限公司宝应县供电分公司 一种基于etl的数据抽取方法
CN110727954A (zh) * 2019-09-19 2020-01-24 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN111079174A (zh) * 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及系统
CN111813808A (zh) * 2020-06-10 2020-10-23 云南电网有限责任公司 一种大数据快速脱敏的方法及装置
CN112231747A (zh) * 2020-09-25 2021-01-15 中国建设银行股份有限公司 数据脱敏方法、数据脱敏装置以及计算机可读介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150113656A1 (en) * 2013-10-21 2015-04-23 International Business Machines Corporation Consistent data masking
US20160246986A1 (en) * 2015-02-19 2016-08-25 International Business Machines Corporation Code analysis for providing data privacy in etl systems
CN107958158A (zh) * 2017-10-27 2018-04-24 国网辽宁省电力有限公司 一种大数据平台的动态数据脱敏方法及系统
CN107817968A (zh) * 2017-11-13 2018-03-20 重庆首亨软件有限公司 一种计算机软件开发系统
CN108062387A (zh) * 2017-12-14 2018-05-22 国网陕西省电力公司电力科学研究院 一种面向tas系统的实时数据清洗与转换方法
CN110609860A (zh) * 2018-05-29 2019-12-24 中国移动通信集团重庆有限公司 数据etl处理方法、装置、设备及存储介质
CN110399733A (zh) * 2019-03-18 2019-11-01 国网安徽省电力有限公司黄山供电公司 一种针对结构化数据的脱敏平台
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110619014A (zh) * 2019-09-18 2019-12-27 国网江苏省电力有限公司宝应县供电分公司 一种基于etl的数据抽取方法
CN110727954A (zh) * 2019-09-19 2020-01-24 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN111079174A (zh) * 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及系统
CN111813808A (zh) * 2020-06-10 2020-10-23 云南电网有限责任公司 一种大数据快速脱敏的方法及装置
CN112231747A (zh) * 2020-09-25 2021-01-15 中国建设银行股份有限公司 数据脱敏方法、数据脱敏装置以及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王毛路 等: "数据脱敏在政府数据治理及开放服务中的应用", 《电子政务》, no. 05, pages 94 - 103 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626849A (zh) * 2021-08-26 2021-11-09 杭州安恒信息技术股份有限公司 一种字符串脱敏方法、装置、设备及存储介质
CN113779630A (zh) * 2021-09-09 2021-12-10 新疆大学 一种基于dicom的ct医疗图像可逆脱敏方法
CN115618396A (zh) * 2022-11-28 2023-01-17 云账户技术(天津)有限公司 一种数据的加密方法及装置
CN115618396B (zh) * 2022-11-28 2023-04-07 云账户技术(天津)有限公司 一种数据的加密方法及装置

Also Published As

Publication number Publication date
CN113158233B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN111079174A (zh) 基于匿名化及差分隐私技术的用电数据脱敏方法及系统
CN113158233B (zh) 数据预处理方法、装置及计算机存储介质
CN111199048B (zh) 基于具有生命周期的容器的大数据分级脱敏方法和系统
Singh et al. Continuous auditing and continuous monitoring in ERP environments: Case studies of application implementations
US11227068B2 (en) System and method for sensitive data retirement
US20220261395A1 (en) Multi-table data validation tool
CN112417492A (zh) 基于数据分类分级的服务提供方法
CN111639179B (zh) 一种银行前端查询系统批量客户信息隐私控制方法和装置
CN116541372A (zh) 一种数据资产治理方法及系统
US20230334160A1 (en) Systems and methods for software security analysis
CN112528272A (zh) 一种基于公共开放数据的安全隐私集成防护系统及其方法
CN106156904B (zh) 一种基于eID的跨平台虚拟资产溯源方法
CN116910023A (zh) 一种数据治理系统
Yahalom et al. Constrained anonymization of production data: a constraint satisfaction problem approach
US20220382906A1 (en) Data anonymization for cloud analytics
Kumar et al. Data warehouse security issue.
US10936984B2 (en) System for mitigating exposure associated with identified impacts of technological system changes based on solution data modelling
Mane et al. Big Data Forensic Analytics
Portillo-Dominguez et al. Towards an efficient log data protection in software systems through data minimization and anonymization
US20190347354A1 (en) System for mitigating intentional and unintentional exposure using solution data modelling
Ranganathan et al. A Tool for Database Masking and Anonymization of PostgreSQL
US20230214522A1 (en) Automatic detection of personal identifiable information
Abbas et al. The Role of Data Mining in Information Security
CN117195183B (zh) 一种数据安全合规风险评估系统
Jiang et al. Research on privacy protection of power users based on big data desensitization technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant