CN117972776A - 一种基于DataX的实时数据脱敏处理方法 - Google Patents

一种基于DataX的实时数据脱敏处理方法 Download PDF

Info

Publication number
CN117972776A
CN117972776A CN202410050826.2A CN202410050826A CN117972776A CN 117972776 A CN117972776 A CN 117972776A CN 202410050826 A CN202410050826 A CN 202410050826A CN 117972776 A CN117972776 A CN 117972776A
Authority
CN
China
Prior art keywords
data
source
desensitization
task
datax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410050826.2A
Other languages
English (en)
Inventor
王哲
魏子重
李锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Science Research Institute Co Ltd
Original Assignee
Shandong Inspur Science Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Science Research Institute Co Ltd filed Critical Shandong Inspur Science Research Institute Co Ltd
Priority to CN202410050826.2A priority Critical patent/CN117972776A/zh
Publication of CN117972776A publication Critical patent/CN117972776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及数据安全技术领域,具体为一种基于DataX的实时数据脱敏处理方法,包括以下步骤:采用Java Web技术栈进行项目开发;数据传输;数据脱敏处理;实时任务调度执行;日志监测;配置源端数据源和目标端数据源;选择数据脱敏算法模型;建立实时脱敏任务,并执行启动任务,任务完成后,自动关闭对源数据库和目标数据库的连接访问;有益效果为:本发明提出的基于DataX的实时数据脱敏处理方法,基于DataX实现,通过读写分离的数据源处理模式,完成源端数据源的数据抽取以及目标端数据源的数据写入,支持多源异构数据源之间的转换和兼容,保护用户数据的安全,健壮用户的数据安全周期。

Description

一种基于DataX的实时数据脱敏处理方法
技术领域
本发明涉及数据安全技术领域,具体为一种基于DataX的实时数据脱敏处理方法。
背景技术
大数据背景下,数据类型繁多,内容繁杂、巨大,且处理速度比较快,这是传统信息化数据所不具备的特征。
现有技术中,随着互联网等信息技术的发展,大数据已经在各行各业中得到了广泛的应用,并充分发挥着自己的优势。
但是,随着数据价值的深入挖掘,数据中的隐私敏感信息也面临着被泄露和滥用的风险,所以加强对敏感数据的识别和保护已经成为数据安全领域刻不容缓要解决的问题。
发明内容
本发明的目的在于提供一种基于DataX的实时数据脱敏处理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于DataX的实时数据脱敏处理方法,所述方法包括以下步骤:
采用Java Web技术栈进行项目开发;
数据传输;
数据脱敏处理;
实时任务调度执行;
日志监测;
配置源端数据源和目标端数据源;
选择数据脱敏算法模型;
建立实时脱敏任务,并执行启动任务,任务完成后,自动关闭对源数据库和目标数据库的连接访问。
优选的,采用Java Web技术栈进行项目开发的具体操作包括:
基于Springboot框架+DataX组件+xxl-job组件实现,实现将定时数据脱敏功能发布为SDK工具包和开源组件,允许开发人员使用实现数据安全脱敏功能的集成。
优选的,数据传输的具体操作包括:
基于Datax开发数据安全脱敏处理工具包,集成DataX组件,完成Reader和Writer的对接开发,Reader和Writer模组只关注于数据的抽取和数据的写入,而无需关注数据源的格式兼容和转换,Writer和Reader支持Mysql、Oracle、SQLServer常用关系数据库,并且支持Hbase、Hive、HDFS大数据存储底座,以及支持Elasticsearch搜索引擎的文本数据。
优选的,数据脱敏处理,基于SM2、SM4等加密算法模型开发脱敏处理功能模组,并提供对外调用API或SDK工具包,供传输功能模组调用实现数据脱敏处理。
优选的,实时任务调度执行,基于xxl-job开源框架进行二次开发,部署定时任务注册中心,并将产品配置为任务执行器并在注册中心注册,实时向注册中心发送注册请求,保证脱敏任务的实时处理。
优选的,日志监测,基于apisix开发日志监测模组,对任务的创建、编辑、删除、执行全生命周期的操作进行实时监控,并提供可视化的任务执行实时日志页面展示,支持日志文件下载。
优选的,配置源端数据源和目标端数据源,配置过程自动完成异构数据源的适配和转换,支持关系数据库之间的数据库适配转换、文件数据源和关系数据库间的适配转换、大数据存储组件和关系数据库间的适配转换、文件数据源和大数据存储组件间的适配转换,修正源端和目标端的字段映射关系,完成源端和目标端数据源的前要配置。
优选的,选择数据脱敏算法模型,脱敏算法模型支持对常规涉密数据进行遮掩、转换等脱敏处理,同时支持对特定涉密数据进行SM2、SM4等类型的加密处理。
优选的,建立实时脱敏任务,设置任务的执行周期和任务参数并启动,定义定时任务方法,添加@XxlJob注解,完成实时任务注册,任务根据设置好的时任务时间参数定周期执行任务;
任务启动后,传输功能模组Reader从源端数据源抽取数据,接着调用数据脱敏处理模组,完成对指定元数据值的数据脱敏,脱敏后的数据输入到framework,根据目标端数据源类型完成数据的格式转换,转换后的数据输出值Writer中,向目标端数据源写入数据,整个过程每个节点的转换、抽取、传输过程均会有日志记录。
与现有技术相比,本发明的有益效果是:
本发明提出的基于DataX的实时数据脱敏处理方法,基于DataX实现,通过读写分离的数据源处理模式,完成源端数据源的数据抽取以及目标端数据源的数据写入,支持多源异构数据源之间的转换和兼容,保护用户数据的安全,健壮用户的数据安全周期。
附图说明
图1为本发明方法流程图。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于DataX的实时数据脱敏处理方法,所述方法包括以下步骤:
(1)本发明采用Java Web技术栈进行项目开发,基于Springboot框架+DataX组件+xxl-job组件实现。实现将定时数据脱敏功能发布为SDK工具包和开源组件,允许开发人员使用实现数据安全脱敏功能的集成。
(2)数据传输功能模组。基于Datax开发数据安全脱敏处理工具包,集成DataX组件,完成Reader和Writer的对接开发。Reader和Writer模组只关注于数据的抽取和数据的写入,而无需关注数据源的格式兼容和转换。Writer和Reader支持Mysql、Oracle、SQLServer等常用关系数据库,并且支持Hbase、Hive、HDFS等大数据存储底座,以及支持Elasticsearch搜索引擎的文本数据。
(3)数据脱敏处理模组。本部分基于SM2、SM4等加密算法模型开发脱敏处理功能模组,并提供对外调用API或SDK工具包,供传输功能模组调用实现数据脱敏处理。
(4)实时任务调度执行模组。基于xxl-job开源框架进行二次开发,部署定时任务注册中心,并将本产品配置为任务执行器并在注册中心注册。实时向注册中心发送注册请求,保证脱敏任务的实时处理。
(5)日志监测模组。基于apisix开发日志监测模组,对任务的创建、编辑、删除、执行全生命周期的操作进行实时监控,并提供可视化的任务执行实时日志页面展示,支持日志文件下载。
(6)配置源端数据源和目标端数据源。配置过程自动完成异构数据源的适配和转换,支持关系数据库之间的数据库适配转换、文件数据源和关系数据库间的适配转换、大数据存储组件和关系数据库间的适配转换、文件数据源和大数据存储组件间的适配转换,修正源端和目标端的字段映射关系,完成源端和目标端数据源的前要配置。
(7)选择数据脱敏算法模型,脱敏算法模型支持对常规涉密数据(身份证号、手机号、家庭住址)进行遮掩、转换等脱敏处理。同时支持对特定涉密数据进行SM2、SM4等类型的加密处理。
(8)建立实时脱敏任务。设置任务的执行周期和任务参数并启动。定义定时任务方法,添加@XxlJob注解,完成实时任务注册。任务会根据设置好的时任务时间参数定周期执行任务。
(9)执行启动执行。任务启动后,传输功能模组Reader会从源端数据源抽取数据,接着调用数据脱敏处理模组,完成对指定元数据值的数据脱敏。脱敏后的数据输入到framework,根据目标端数据源类型完成数据的格式转换。转换后的数据输出值Writer中,向目标端数据源写入数据。整个过程每个节点的转换、抽取、传输过程均会有日志记录。
(10)任务完成后,自动关闭对源数据库和目标数据库的连接访问。控制数据库的访问量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于DataX的实时数据脱敏处理方法,其特征在于:所述方法包括以下步骤:
采用Java Web技术栈进行项目开发;
数据传输;
数据脱敏处理;
实时任务调度执行;
日志监测;
配置源端数据源和目标端数据源;
选择数据脱敏算法模型;
建立实时脱敏任务,并执行启动任务,任务完成后,自动关闭对源数据库和目标数据库的连接访问。
2.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:采用Java Web技术栈进行项目开发的具体操作包括:
基于Springboot框架+DataX组件+xxl-job组件实现,实现将定时数据脱敏功能发布为SDK工具包和开源组件,允许开发人员使用实现数据安全脱敏功能的集成。
3.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:数据传输的具体操作包括:
基于Datax开发数据安全脱敏处理工具包,集成DataX组件,完成Reader和Writer的对接开发,Reader和Writer模组只关注于数据的抽取和数据的写入,而无需关注数据源的格式兼容和转换,Writer和Reader支持Mysql、Oracle、SQLServer常用关系数据库,并且支持Hbase、Hive、HDFS大数据存储底座,以及支持Elasticsearch搜索引擎的文本数据。
4.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:数据脱敏处理,基于SM2、SM4等加密算法模型开发脱敏处理功能模组,并提供对外调用API或SDK工具包,供传输功能模组调用实现数据脱敏处理。
5.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:实时任务调度执行,基于xxl-job开源框架进行二次开发,部署定时任务注册中心,并将产品配置为任务执行器并在注册中心注册,实时向注册中心发送注册请求,保证脱敏任务的实时处理。
6.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:日志监测,基于apisix开发日志监测模组,对任务的创建、编辑、删除、执行全生命周期的操作进行实时监控,并提供可视化的任务执行实时日志页面展示,支持日志文件下载。
7.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:配置源端数据源和目标端数据源,配置过程自动完成异构数据源的适配和转换,支持关系数据库之间的数据库适配转换、文件数据源和关系数据库间的适配转换、大数据存储组件和关系数据库间的适配转换、文件数据源和大数据存储组件间的适配转换,修正源端和目标端的字段映射关系,完成源端和目标端数据源的前要配置。
8.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:选择数据脱敏算法模型,脱敏算法模型支持对常规涉密数据进行遮掩、转换等脱敏处理,同时支持对特定涉密数据进行SM2、SM4等类型的加密处理。
9.根据权利要求1所述的一种基于DataX的实时数据脱敏处理方法,其特征在于:建立实时脱敏任务,设置任务的执行周期和任务参数并启动,定义定时任务方法,添加@XxlJob注解,完成实时任务注册,任务根据设置好的时任务时间参数定周期执行任务;
任务启动后,传输功能模组Reader从源端数据源抽取数据,接着调用数据脱敏处理模组,完成对指定元数据值的数据脱敏,脱敏后的数据输入到framework,根据目标端数据源类型完成数据的格式转换,转换后的数据输出值Writer中,向目标端数据源写入数据,整个过程每个节点的转换、抽取、传输过程均会有日志记录。
CN202410050826.2A 2024-01-15 2024-01-15 一种基于DataX的实时数据脱敏处理方法 Pending CN117972776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410050826.2A CN117972776A (zh) 2024-01-15 2024-01-15 一种基于DataX的实时数据脱敏处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410050826.2A CN117972776A (zh) 2024-01-15 2024-01-15 一种基于DataX的实时数据脱敏处理方法

Publications (1)

Publication Number Publication Date
CN117972776A true CN117972776A (zh) 2024-05-03

Family

ID=90850819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410050826.2A Pending CN117972776A (zh) 2024-01-15 2024-01-15 一种基于DataX的实时数据脱敏处理方法

Country Status (1)

Country Link
CN (1) CN117972776A (zh)

Similar Documents

Publication Publication Date Title
CN107918666B (zh) 一种区块链上的数据同步方法和系统
CN108595185B (zh) 一种将以太坊智能合约转换成超级账本智能合约的方法
CN110147225A (zh) 一种代码生成方法、装置及计算机设备、存储介质
WO2020006827A1 (zh) 一种智能应答的方法和装置
CN108509477A (zh) 语义识别方法、电子装置及计算机可读存储介质
WO2019041668A1 (zh) 组件工程调用主工程代码的方法、存储介质、设备及系统
CN105469789A (zh) 一种语音信息的处理方法及终端
CN109740765B (zh) 一种基于亚马逊网络服务器的机器学习系统搭建方法
CN116483980A (zh) 人机交互方法、装置及系统
CN107766431B (zh) 一种基于语法解析的去参数化功能方法及系统
CN112748914A (zh) 一种应用程序开发方法、装置、电子设备和存储介质
CN111144132B (zh) 一种语义识别方法及装置
CN105653620B (zh) 智能问答系统的日志分析方法及装置
CN107015841A (zh) 一种程序编译的预处理方法及程序编译设备
CN112579604A (zh) 测试系统的造数方法、装置、设备及存储介质
CN113946628A (zh) 一种基于拦截器的数据同步方法及装置
CN117972776A (zh) 一种基于DataX的实时数据脱敏处理方法
CN110069876B (zh) 一种实验管理方法及装置
CN116226921A (zh) 一种脱敏处理方法及装置
CN103809938A (zh) Python函数运行信息的自动记录方法及系统
CN114661623A (zh) 一种测试React Native应用的UI自动化测试方法
CN111158653B (zh) 基于sql语言的实时计算程序的集成开发及执行系统
CN110780919B (zh) 一种应用程序语言包的制作维护方法及系统
CN113741864A (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
CN112487170A (zh) 面向场景配置的人机交互对话机器人系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination