CN112667624A - 一种数据质量管理方法及其系统 - Google Patents

一种数据质量管理方法及其系统 Download PDF

Info

Publication number
CN112667624A
CN112667624A CN202110082885.4A CN202110082885A CN112667624A CN 112667624 A CN112667624 A CN 112667624A CN 202110082885 A CN202110082885 A CN 202110082885A CN 112667624 A CN112667624 A CN 112667624A
Authority
CN
China
Prior art keywords
data
desensitization
management method
quality management
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110082885.4A
Other languages
English (en)
Inventor
刘灿城
黄永刚
林乔
卢建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Information Group Big Data Operation Co ltd
Original Assignee
Xiamen Information Group Big Data Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Information Group Big Data Operation Co ltd filed Critical Xiamen Information Group Big Data Operation Co ltd
Priority to CN202110082885.4A priority Critical patent/CN112667624A/zh
Publication of CN112667624A publication Critical patent/CN112667624A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据质量管理方法及其系统,所述方法包括以步骤:S1、确定数据质量标准;S2、采集数据;S3、数据清洗;S4、数据脱敏:对数据中静态数据和动态数据的敏感信息通过脱敏规则分别对数据进行分级脱敏;S5、数据显示:根据用户的类型显示相对应的脱敏数据。本发明方法对数据进行分级脱敏,再根据用户的类型显示不同程度的脱敏数据,在保护数据隐私的同时,最大化数据的开发价值。

Description

一种数据质量管理方法及其系统
技术领域
本发明涉及数据管理技术领域,特别涉及一种数据质量管理方法及其系统。
背景技术
数据质量管理是指对数据生命周期的各个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一些了管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。从外部获取的源数据种类繁多,数据质量参差不齐,包含了大量的脏数据和异常数据,而这部分数据对于实际的数据开发不但没有帮助,反而拖垮了数据的利用率,因此,在数据使用之前需要对数据的质量进行管理。
发明内容
为解决上述问题,本发明提供了一种数据质量管理方法及其系统。
本发明采用以下技术方案:
一种数据质量管理方法,包括以下步骤:
S1、确定数据质量标准;
S2、采集数据:根据数据标准建立前置数据库,通过数据采集接口将外部数据按照数据标准映射到所述前置数据库;
S3、数据清洗:对源数据进行清洗,剔除脏数据;
S4、数据脱敏:对数据中静态数据和动态数据的敏感信息通过脱敏规则分别对数据进行分级脱敏;
S5、数据显示:根据用户的类型显示相对应的脱敏数据。
进一步地,所述数据质量标准包括:准确性、完整性、一致性、有效性、唯一性、及时性和稳定性。
进一步地,所述前置数据库采用Oracle数据库结构。
进一步地,所述数据采集接口调用外部数据时采用GET请求方式,并使用HTTPS技术协议进行接口交互。
进一步地,所述数据清洗包括检查数据的一致性、剔除无效值和缺失值。
进一步地,所述静态数据采用Flume系统进行批量脱敏。
进一步地,所述动态数据采用Spark Streaming系统进行脱敏。
进一步地,所述脱敏规则包括同义替换、部分数据遮蔽、混合屏蔽、确定性屏蔽和可逆脱敏。
进一步地,所述用户的类型包括:开发人员、管理员、高级用户和普通用户,对于开发人员和管理人员则显示可逆脱敏的数据;对于高级用户则显示部分数据遮蔽和确定性遮蔽的数据;对于普通用户则显示同意替换和确定性屏蔽的数据。
一种数据质量管理系统,包括数据采集单元、质量规则单元、数据清洗单元、数据脱敏单元以及数据显示单元,
所述数据采集单元,通过数据采集接口采集源数据并进行存储;
所述质量规则单元,更新和存储数据质量指标及其标准数值;
所述数据清洗单元,根据所述质量规则单元的质量指标利用清洗规则对源数据进行清洗;
所述数据脱敏单元,更新和存储脱敏规则以及对应的客户类型,根据脱敏规则和对应的客户类型进行不同程度的数据脱敏;
所述数据显示单元,根据不同类型的客户显示不同程度的数据脱敏结果。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明通过对源数据进行数据质量管理,包括数据清洗、数据脱敏,筛查出脏数据和异常数据,提高源数据的质量;
2、同时根据不同的脱敏规则进行数据分级脱敏,得到不同程度的脱敏数据,然后分别显示给不同类型的用户;
3、根据用户的类型显示不同程度的脱敏数据,在保护数据隐私的同时,最大化数据的开发价值。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,一种数据质量管理方法,包括以下步骤:
S1、确定数据质量标准;
所述数据质量标准包括:准确性、完整性、一致性、有效性、唯一性、及时性和稳定性;
准确性:描述数据是否与其对应的客观实体的特征相一致;
完整性:描述数据是否存在缺失记录或缺失字段;
一致性:描述同一实体的同一属性的值在不同的系统是否一致;
有效性:描述数据是否满足用户定义的条件或在一定阈值范围内;
唯一性:描述数据是否存在重复记录;
及时性:描述数据的产生和供应是否及时;
稳定性:描述数据的波动是否稳定,是否在其有效范围内。
S2、采集数据:根据数据标准建立前置数据库,通过数据采集接口将外部数据按照数据标准映射到所述前置数据库;所述前置数据库采用Oracle数据库结构。
所述数据采集接口调用外部数据时采用GET请求方式,并使用HTTPS技术协议进行接口交互。
S3、数据清洗:对源数据进行清洗,剔除脏数据;所述数据清洗包括检查数据的一致性、剔除无效值和缺失值。
S4、数据脱敏:对数据中静态数据和动态数据的敏感信息通过脱敏规则分别对数据进行分级脱敏;
所述静态数据采用Flume系统进行批量脱敏。
所述动态数据采用Spark Streaming系统进行脱敏。
所述脱敏规则包括同义替换、部分数据遮蔽、混合屏蔽、确定性屏蔽和可逆脱敏。
静态数据脱敏指将数据文件进行去敏感、去隐私化的处理同时保证数据之间的关联关系。例如:对于用户重要字段加密身份证、姓名、手机号等。该脱敏方式适用于项目开发单位需要获取完整的数据才能保证数据分析工作的顺利完成,对于数据提供方,又不希望敏感数据泄漏出去,在这种情况下,就需要对数据进行可回溯的脱敏方式,保证发送出去的数据不包含敏感信息,当项目开发单位开发完成后,将分析系统或结果数据回溯成真实的结果数据。这样既保证了开发过程中的数据共享和结果一致性,又保证了真实数据不会在开发过程中泄漏。
动态数据脱敏是对数据库中敏感数据进行透明的、实时的脱敏。通常依据用户的角色、职责定义其用户级别,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏,可确保不同级别的用户访问到不同程度的敏感数据,并且不需要对生产数据库中的数据进行任何改变。
S5、数据显示:根据用户的类型显示相对应的脱敏数据。
所述用户的类型包括:开发人员、管理员、高级用户和普通用户,对于开发人员和管理人员则显示可逆脱敏的数据;对于高级用户则显示部分数据遮蔽和确定性遮蔽的数据;对于普通用户则显示同意替换和确定性屏蔽的数据。
实施例二
一种数据质量管理系统,包括数据采集单元、质量规则单元、数据清洗单元、数据脱敏单元以及数据显示单元,
所述数据采集单元,通过数据采集接口采集源数据并进行存储;
所述质量规则单元,更新和存储数据质量指标及其标准数值;
所述数据清洗单元,根据所述质量规则单元的质量指标利用清洗规则对源数据进行清洗;
所述数据脱敏单元,更新和存储脱敏规则以及对应的客户类型,根据脱敏规则和对应的客户类型进行不同程度的数据脱敏;
所述数据显示单元,根据不同类型的客户显示不同程度的数据脱敏结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据质量管理方法,其特征在于:包括以下步骤:
S1、确定数据质量标准;
S2、采集数据:根据数据标准建立前置数据库,通过数据采集接口将外部数据按照数据标准映射到所述前置数据库;
S3、数据清洗:对源数据进行清洗,剔除脏数据;
S4、数据脱敏:对数据中静态数据和动态数据的敏感信息通过脱敏规则分别对数据进行分级脱敏;
S5、数据显示:根据用户的类型显示相对应的脱敏数据。
2.如权利要求1所述的一种数据质量管理方法,其特征在于:所述数据质量标准包括:准确性、完整性、一致性、有效性、唯一性、及时性和稳定性。
3.如权利要求2所述的一种数据质量管理方法,其特征在于:所述前置数据库采用Oracle数据库结构。
4.如权利要求3所述的一种数据质量管理方法,其特征在于:所述数据采集接口调用外部数据时采用GET请求方式,并使用HTTPS技术协议进行接口交互。
5.如权利要求4所述的一种数据质量管理方法,其特征在于:所述数据清洗包括检查数据的一致性、剔除无效值和缺失值。
6.如权利要求5所述的一种数据质量管理方法,其特征在于:所述静态数据采用Flume系统进行批量脱敏。
7.如权利要求6所述的一种数据质量管理方法,其特征在于:所述动态数据采用SparkStreaming系统进行脱敏。
8.如权利要求7所述的一种数据质量管理方法,其特征在于:所述脱敏规则包括同义替换、部分数据遮蔽、混合屏蔽、确定性屏蔽和可逆脱敏。
9.如权利要求8所述的一种数据质量管理方法,其特征在于:所述用户的类型包括:开发人员、管理员、高级用户和普通用户,对于开发人员和管理人员则显示可逆脱敏的数据;对于高级用户则显示部分数据遮蔽和确定性遮蔽的数据;对于普通用户则显示同意替换和确定性屏蔽的数据。
10.一种数据质量管理系统,其特征在于:包括数据采集单元、质量规则单元、数据清洗单元、数据脱敏单元以及数据显示单元,
所述数据采集单元,通过数据采集接口采集源数据并进行存储;
所述质量规则单元,更新和存储数据质量指标及其标准数值;
所述数据清洗单元,根据所述质量规则单元的质量指标利用清洗规则对源数据进行清洗;
所述数据脱敏单元,更新和存储脱敏规则以及对应的客户类型,根据脱敏规则和对应的客户类型进行不同程度的数据脱敏;
所述数据显示单元,根据不同类型的客户显示不同程度的数据脱敏结果。
CN202110082885.4A 2021-01-21 2021-01-21 一种数据质量管理方法及其系统 Pending CN112667624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110082885.4A CN112667624A (zh) 2021-01-21 2021-01-21 一种数据质量管理方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110082885.4A CN112667624A (zh) 2021-01-21 2021-01-21 一种数据质量管理方法及其系统

Publications (1)

Publication Number Publication Date
CN112667624A true CN112667624A (zh) 2021-04-16

Family

ID=75415881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110082885.4A Pending CN112667624A (zh) 2021-01-21 2021-01-21 一种数据质量管理方法及其系统

Country Status (1)

Country Link
CN (1) CN112667624A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760149A (zh) * 2022-06-13 2022-07-15 深圳红途科技有限公司 数据跨境合规管控方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871083A (zh) * 2017-11-07 2018-04-03 平安科技(深圳)有限公司 脱敏规则配置方法、应用服务器及计算机可读存储介质
CN109597805A (zh) * 2018-11-07 2019-04-09 平安科技(深圳)有限公司 一种数据处理方法、电子设备及存储介质
CN110737651A (zh) * 2019-09-29 2020-01-31 武汉海昌信息技术有限公司 一种可还原脱敏的数据清洗及交换办法
US20200074108A1 (en) * 2018-08-28 2020-03-05 International Business Machines Corporation Cleaning sensitive data from a diagnostic-ready clean copy
CN111078783A (zh) * 2019-11-13 2020-04-28 深圳市华傲数据技术有限公司 一种基于监管保护的数据治理可视化方法
CN111199048A (zh) * 2020-01-02 2020-05-26 航天信息股份有限公司 基于具有生命周期的容器的大数据分级脱敏方法和系统
CN112000982A (zh) * 2020-07-31 2020-11-27 青岛海尔科技有限公司 用于用户应用数据处理的方法及装置
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871083A (zh) * 2017-11-07 2018-04-03 平安科技(深圳)有限公司 脱敏规则配置方法、应用服务器及计算机可读存储介质
US20200074108A1 (en) * 2018-08-28 2020-03-05 International Business Machines Corporation Cleaning sensitive data from a diagnostic-ready clean copy
CN109597805A (zh) * 2018-11-07 2019-04-09 平安科技(深圳)有限公司 一种数据处理方法、电子设备及存储介质
CN110737651A (zh) * 2019-09-29 2020-01-31 武汉海昌信息技术有限公司 一种可还原脱敏的数据清洗及交换办法
CN111078783A (zh) * 2019-11-13 2020-04-28 深圳市华傲数据技术有限公司 一种基于监管保护的数据治理可视化方法
CN111199048A (zh) * 2020-01-02 2020-05-26 航天信息股份有限公司 基于具有生命周期的容器的大数据分级脱敏方法和系统
CN112000982A (zh) * 2020-07-31 2020-11-27 青岛海尔科技有限公司 用于用户应用数据处理的方法及装置
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760149A (zh) * 2022-06-13 2022-07-15 深圳红途科技有限公司 数据跨境合规管控方法、装置、计算机设备及存储介质
CN114760149B (zh) * 2022-06-13 2022-08-26 深圳红途科技有限公司 数据跨境合规管控方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN106126388A (zh) 监控事件的方法、规则引擎装置和规则引擎系统
WO2016110205A1 (zh) 一种用于区域标签管理的方法及装置
CN113111951B (zh) 数据处理方法以及装置
CN114116396A (zh) 一种全链路追踪方法、系统、存储介质及设备
CN112667624A (zh) 一种数据质量管理方法及其系统
CN115630374B (zh) 可信数控系统的测试方法、装置、计算机设备和存储介质
Zhang et al. A data driven approach for discovering data quality requirements
CN113158233A (zh) 数据预处理方法、装置及计算机存储介质
CN109933581A (zh) 一种数据质量检测方法及系统
CN114329498A (zh) 一种数据中心运维安全管控方法及装置
CN111400376A (zh) 基于电信数据建设人口分析平台的方法和装置
Boselli et al. Inconsistency knowledge discovery for longitudinal data management: A model-based approach
CN115758435A (zh) 公司营销数据对外共享安全处理方法及相关设备
CN111078783A (zh) 一种基于监管保护的数据治理可视化方法
CN116226894B (zh) 一种基于元仓的数据安全治理系统及方法
Tsugawa et al. Community structure and interaction locality in social networks
CN117131144A (zh) 一种超图勘察测绘用多源数据管理平台及方法
CN114531361A (zh) 一种分布式系统的服务拓扑分析方法、装置及存储介质
AT&T ICDE14_demo_732.dvi
CN110399261B (zh) 一种基于共现图的系统告警聚类分析方法
CN113468240A (zh) 基于移动终端上网行为大数据分析的方法
CN113052700A (zh) 一种确定微服务调用链的方法及装置
Ghahramani et al. Spatio-temporal analysis of mobile phone data for interaction recognition
CN113076308A (zh) 一种时空大数据服务系统
CN105740474A (zh) 数据共享方法和数据共享装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Cancheng

Inventor after: Huang Yonggang

Inventor after: Lin Qiao

Inventor after: Lu Jianhua

Inventor after: Lin Yiqing

Inventor after: Lin Qingqing

Inventor before: Liu Cancheng

Inventor before: Huang Yonggang

Inventor before: Lin Qiao

Inventor before: Lu Jianhua

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210416