CN113918555B - 一种用于提升数据质量的数据治理方法 - Google Patents

一种用于提升数据质量的数据治理方法 Download PDF

Info

Publication number
CN113918555B
CN113918555B CN202111272305.4A CN202111272305A CN113918555B CN 113918555 B CN113918555 B CN 113918555B CN 202111272305 A CN202111272305 A CN 202111272305A CN 113918555 B CN113918555 B CN 113918555B
Authority
CN
China
Prior art keywords
data
quality
improving
missing
aging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111272305.4A
Other languages
English (en)
Other versions
CN113918555A (zh
Inventor
李勋章
柯捷
莫静容
周慧怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Aerospace Technology
Original Assignee
Guilin University of Aerospace Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Aerospace Technology filed Critical Guilin University of Aerospace Technology
Priority to CN202111272305.4A priority Critical patent/CN113918555B/zh
Publication of CN113918555A publication Critical patent/CN113918555A/zh
Application granted granted Critical
Publication of CN113918555B publication Critical patent/CN113918555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于提升数据质量的数据治理方法,涉及数据治理技术领域,包括以下步骤:采集待治理数据库中的数据表,将采集的数据表按照统一格式转换成标准格式表。本发明通过对数据进行统一的格式转换,使得数据表中不同格式的数据能够统一化处理,依据时效原则,减少了数据处理的数量,能够提升数据处理的速度,通过将具有相同特征的数据进行提取汇总,进行分类处理,能够提高数据处理的相关性,将超过预设阈值的数据剔除,可以实现对赘余数据的处理效果,减少了数据中的误差数据,在数据中补充缺失的数据,使得数据能够保持完整性,同时,还可以对处理后的数据进行验证,进而实现了对数据治理质量的提升。

Description

一种用于提升数据质量的数据治理方法
技术领域
本发明涉及数据治理技术领域,特别的为一种用于提升数据质量的数据治理方法。
背景技术
数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。随着数据在企业中发挥的作用越来越重要,数据治理已经成为数据处理的重要一项步骤。
在专利申请号为CN202010406901.6的“用于提升数据质量的数据治理方法”的专利中,在说明书中记载有“采集指定数据库表的元数据为当前元数据,并对比当前元数据及预设的有效性规则;其中,当前元数据包括技术元数据和业务元数据;如果当前元数据符合所述有效性规则,则确定当前元数据具有有效性;如果当前元数据不符合所述有效性规则,则指示相应负责人对当前元数据进行修正,确定对当前元数据进行修正得到的元数据为当前元数据,返回执行对比当前元数据及预先设置的有效性规则的步骤,直至确定当前元数据不符合所述有效性规则的次数达到次数阈值为止。从而提升数据质量,实现对数据的有效治理”,在所提供的数据质量方法中,对于数据处理中的赘余数据未进行有效的处理,影响了数据数量的速度和质量,同时,地域与数据中存在的缺失数据未进行有效的补充,使得治理后的数据缺少完整性,进而影响数据使用时的功能性,无法满足使用者对于数据治理质量的要求。
综上所述,研发一种用于提升数据质量的数据治理方法,仍是数据治理技术领域中急需解决的关键问题。
发明内容
本发明提供的了一种用于提升数据质量的数据治理方法,本发明通过对数据进行统一的格式转换,使得数据表中不同格式的数据能够统一化处理,依据时效原则,减少了数据处理的数量,能够提升数据处理的速度,通过对赘余数据的处理效果,减少了数据中的误差数据,在数据中补充缺失的数据,使得数据能够保持完整性,同时,还可以对处理后的数据进行验证,进而实现了对数据治理质量的提升。
为实现以上目的,本发明通过以下技术方案予以实现:一种用于提升数据质量的数据治理方法,包括以下步骤:
(1)采集待治理数据库中的数据表,将采集的数据表按照统一格式转换成标准格式表;
(2)对转换后的标准格式表内的数据依据时效原则,剔除无关数据,获得时效数据;
(3)在获得的时效数据中剔除赘余数据,获得无赘余数据;
(4)在无赘余数据中预估及补充缺失数据;
(5)将步骤(4)中处理后的数据加入数据库,并对数据进行运行验证,将验证结果与预定结果的比值和误差率进行对比,完全数据治理。
本发明进一步设置为:在所述步骤(2)中,所述的时效原则为数据库中的数据处于待治理的时间段内。
本发明进一步设置为:在所述步骤(3)中,所述的剔除赘余数据的方法为:
提取时效数据中具有相同特征的数据X=(x1,x2,x3,...,xn);求取具有相同特征的数据X=(x1,x2,x3,...,xn)的平均值将数据X分别与预设的对比阈值W进行对比,若P≤W,则对该数据进行保留,否则将该数据剔除,完成剔除赘余数据。
本发明进一步设置为:所述的相同特征的数据X指用于某一特定属性的采集数据。
本发明进一步设置为:所述的预设的对比阈值W为平均值P的α倍,即 W=αP,其中α为设定常数。
本发明进一步设置为:在所述步骤S4中,所述的预估及补充缺失数据的方法为:
将k个相连的具有相同特征的数据X做归一化处理;计算获取第i个临近的熵值ti,计算第i个临近的差异度系数Zi, Zi=1-ti,(i=1,2,3,...,k);求取第i个临近的熵值系数,/>计算出缺失值,将缺失值插入对应的位置。
本发明进一步设置为:所述的归一化处理,其公式为式中,hi表示第i个相邻项与目标项之间的距离。
本发明进一步设置为:所述的计算出缺失值,其计算公式为其中xi为k个相连的具有相同特征的数据的集合。
本发明进一步设置为:在所述步骤(5)中,所述的对数据进行运行验证,是指将验证结果与预定结果的比值和误差率进行对比,若误差率在设定误差范围内,则完成数据治理,若误差率在设定误差范围之外,则重复步骤 (1)-(5)。
本发明提供了一种用于提升数据质量的数据治理方法。具备以下有益效果:
本发明通过对数据进行统一的格式转换,使得数据表中不同格式的数据能够统一化处理,依据时效原则,在数据中剔除无效数据,减少了数据处理的数量,能够提升数据处理的速度,通过将具有相同特征的数据进行提取汇总,进行分类处理,能够提高数据处理的相关性,将超过预设阈值的数据剔除,可以实现对赘余数据的处理效果,减少了数据中的误差数据,在数据中补充缺失的数据,使得数据能够保持完整性,同时,还可以对处理后的数据进行验证,进而实现了对数据治理质量的提升。
附图说明
图1为一种用于提升数据质量的数据治理方法的流程图。
具体实施方式
为使本发明实施条例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1:
请参照图1所示,图1为一种用于提升数据质量的数据治理方法的流程图,一种用于提升数据质量的数据治理方法,包括以下步骤:
(1)采集待治理数据库中的数据表,将采集的数据表按照统一格式转换成标准格式表。在本步骤中,通过从数据库中采集数据表,并进行格式转换,使得数据表中不同格式的数据能够统一化处理,以便对数据进行处理。
(2)对转换后的标准格式表内的数据依据时效原则,剔除无关数据,获得时效数据。
其中,时效原则为数据库中的数据处于待治理的时间段内。
在本步骤中,时效原则根据所需处理的数据的时间段进行剔除无关数据,将不在处理时间段内的数据剔除,从而能够减少对数据的处理量,提高数据处理的效率。
(3)在获得的时效数据中剔除赘余数据,获得无赘余数据。
其中,剔除赘余数据的方法为:提取时效数据中具有相同特征的数据 X=(x1,x2,x3,...,xn);求取具有相同特征的数据X=(x1,x2,x3,...,xn)的平均值将数据X分别与预设的对比阈值W进行对比,若P≤ W,则对该数据进行保留,否则将该数据剔除,完成剔除赘余数据。
进一步的,相同特征的数据X指用于某一特定属性的采集数据。
同时,预设的对比阈值W为平均值P的α倍,即W=αP,其中α为设定常数。
在本实施例中通过将具有相同特征的数据进行提取汇总,进行分类处理,能够提高数据处理的相关性,求取的平均值能够代表该相同特征数据的共性,平均值与预设的对比阈值之间设定系数,在本实施例中将α设置为 3,即预设的对比阈值为平均值的3倍,将数据中的每一个单独数据与预设的对比阈值进行对比,将超过预设阈值的数据剔除,可以实现对赘余数据的处理效果,减少了数据中的误差数据,进而能够提升数据处理后的质量。
(4)在无赘余数据中预估及补充缺失数据。
其中,预估及补充缺失数据的方法为:将k个相连的具有相同特征的数据X做归一化处理;计算获取第i个临近的熵值ti,计算第i个临近的差异度系数Zi,Zi=1-ti,(i=1,2,3,...,k);求取第i个临近的熵值系数,计算出缺失值,将缺失值插入对应的位置。
进一步的,归一化处理,其公式为式中,hi表示第i个相邻项与目标项之间的距离。
同时,计算出缺失值,其计算公式为其中xi为k个相连的具有相同特征的数据的集合。
在本实施例中,通过对数据进行预估和补充,能够在数据中加入缺失的数据,使得数据更完整,避免由于数据缺失而影响数据的质量,达到对数据治理的效果。
(5)将步骤(4)中处理后的数据加入数据库,并对数据进行运行验证,将验证结果与预定结果的比值和误差率进行对比,完全数据治理。
其中,对数据进行运行验证,是指将验证结果与预定结果的比值和误差率进行对比,若误差率在设定误差范围内,则完成数据治理,若误差率在设定误差范围之外,则重复步骤(1)-(5)。
在本步骤中,还可以通过将验证结果与预定结果的比值和误差率进行对比,实现对质量后数据的验证,使得数据处理后能够体现原数据的意义,避免处理后的数据与原数据之间存在代表性误差,保障了数据治理的质量。
实验测试
从数据库中获取待处理的100000个数据,通过实施例中的方法,对 100000个数据进行处理,同时,在未数据进行剔除无关数据、剔除赘余数据以及补充缺失数据的情况下,对相同的100000个数据进行处理作为对比例,对实施例和对比例的处理时间和误差情况分别进行记录,记录相关数据于表1。
表1数据处理实验记录表
由表1中的相关数据可知,本发明能够有效的减少处理时间,同时,还能够保证数据的完整性,输出的数据能够体现采集数据的特性,即能够有效的提升对数据治理的质量。
本发明通过对数据进行统一的格式转换,使得数据表中不同格式的数据能够统一化处理,依据时效原则,在数据中剔除无效数据,减少了数据处理的数量,能够提升数据处理的速度,通过将具有相同特征的数据进行提取汇总,进行分类处理,能够提高数据处理的相关性,将超过预设阈值的数据剔除,可以实现对赘余数据的处理效果,减少了数据中的误差数据,在数据中补充缺失的数据,使得数据能够保持完整性,同时,还可以对处理后的数据进行验证,进而实现了对数据治理质量的提升。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种用于提升数据质量的数据治理方法,其特征在于,包括以下步骤:
(1)采集待治理数据库中的数据表,将采集的数据表按照统一格式转换成标准格式表;
(2)对转换后的标准格式表内的数据依据时效原则,剔除无关数据,获得时效数据;
(3)在获得的时效数据中剔除赘余数据,获得无赘余数据;
所述的剔除赘余数据的方法为:
提取时效数据中具有相同特征的数据;求取具有相同特征的数据的平均值/>;将数据X分别与预设的对比阈值W进行对比,若P≤W,则对该数据进行保留,否则将该数据剔除,完成剔除赘余数据;
在无赘余数据中预估及补充缺失数据;
所述的预估及补充缺失数据的方法为:
将k个相连的具有相同特征的数据X做归一化处理;计算获取第i个临近的熵值ti,;计算第i个临近的差异度系数Zi,/>;求取第i个临近的熵值系数,/>;计算出缺失值,将缺失值插入对应的位置;
所述的归一化处理,其公式为,式中,hi表示第i个相邻项与目标项之间的距离;
(5)将步骤(4)中处理后的数据加入数据库,并对数据进行运行验证,将验证结果与预定结果的比值和误差率进行对比,完全数据治理。
2.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:在所述步骤(2)中,所述的时效原则为数据库中的数据处于待治理的时间段内。
3.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:所述的相同特征的数据X指用于某一特定属性的采集数据。
4.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:所述的预设的对比阈值W为平均值P的倍,即/>,其中/>为设定常数。
5.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:所述的计算出缺失值,其计算公式为,其中xi为k个相连的具有相同特征的数据的集合。
6.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:在所述步骤(5)中,所述的对数据进行运行验证,是指将验证结果与预定结果的比值和误差率进行对比,若误差率在设定误差范围内,则完成数据治理,若误差率在设定误差范围之外,则重复步骤(1)-(5)。
CN202111272305.4A 2021-10-29 2021-10-29 一种用于提升数据质量的数据治理方法 Active CN113918555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111272305.4A CN113918555B (zh) 2021-10-29 2021-10-29 一种用于提升数据质量的数据治理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111272305.4A CN113918555B (zh) 2021-10-29 2021-10-29 一种用于提升数据质量的数据治理方法

Publications (2)

Publication Number Publication Date
CN113918555A CN113918555A (zh) 2022-01-11
CN113918555B true CN113918555B (zh) 2024-05-10

Family

ID=79243659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111272305.4A Active CN113918555B (zh) 2021-10-29 2021-10-29 一种用于提升数据质量的数据治理方法

Country Status (1)

Country Link
CN (1) CN113918555B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103025A (zh) * 2017-01-05 2017-08-29 北京亚信智慧数据科技有限公司 一种数据处理方法及数据处理平台
CN111078780A (zh) * 2019-12-23 2020-04-28 北京中创信测科技股份有限公司 一种ai优化数据治理的方法
CN111597177A (zh) * 2020-05-14 2020-08-28 重庆农村商业银行股份有限公司 用于提升数据质量的数据治理方法
JP2020154828A (ja) * 2019-03-20 2020-09-24 富士通株式会社 データ補完プログラム、データ補完方法及びデータ補完装置
CN112800044A (zh) * 2021-02-04 2021-05-14 深圳市网联安瑞网络科技有限公司 数据质量判定及监测方法、管理系统、存储介质、终端
CN113010506A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103025A (zh) * 2017-01-05 2017-08-29 北京亚信智慧数据科技有限公司 一种数据处理方法及数据处理平台
JP2020154828A (ja) * 2019-03-20 2020-09-24 富士通株式会社 データ補完プログラム、データ補完方法及びデータ補完装置
CN111078780A (zh) * 2019-12-23 2020-04-28 北京中创信测科技股份有限公司 一种ai优化数据治理的方法
CN111597177A (zh) * 2020-05-14 2020-08-28 重庆农村商业银行股份有限公司 用于提升数据质量的数据治理方法
CN112800044A (zh) * 2021-02-04 2021-05-14 深圳市网联安瑞网络科技有限公司 数据质量判定及监测方法、管理系统、存储介质、终端
CN113010506A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于CDH的校园网络流量大数据平台的设计与实现;李勋章;周慧怡;刘思远;桂林航天工业学院学报;20211231(002);全文 *
高校科研成果数据处理流程及质量控制探讨;程蓓;李小洁;;图书馆杂志;20200115(01);全文 *

Also Published As

Publication number Publication date
CN113918555A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN109727446B (zh) 一种用电数据异常值的识别与处理方法
CN105760474B (zh) 一种基于位置信息的文档集的特征词提取方法及系统
CN110991527B (zh) 一种考虑电压曲线平均波动率的相似度阈值确定方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN111291824B (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN115309753B (zh) 一种高效环保智能样本研发系统的数据快速读取方法
CN107609105A (zh) 大数据加速结构的构建方法
CN112101765A (zh) 一种配电网运行指标数据异常数据处理方法及系统
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN102622353B (zh) 一种固定音频检索方法
CN113918555B (zh) 一种用于提升数据质量的数据治理方法
CN113010884B (zh) 一种入侵检测系统中的实时特征过滤方法
CN112308108A (zh) 一种基于网格分类的异常数据检测技术
Mori et al. Automatic word assignment to images based on image division and vector quantization
CN115116616A (zh) 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型
CN114511747A (zh) 一种基于vae预处理和rp-2dcnn的不平衡负荷数据类型辨识方法
CN113641888A (zh) 基于融合主题信息增强pu学习的事件相关新闻过滤的学习方法
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
CN112926670A (zh) 一种基于迁移学习的垃圾分类系统及方法
CN107180391B (zh) 一种风电数据跨度选取方法及装置
CN117391071B (zh) 一种新闻话题数据挖掘方法、装置及存储介质
CN114154589B (zh) 一种基于相似性的模块减枝方法
CN109977269B (zh) 一种针对xml文件的数据自适应融合方法
CN118228055A (zh) 一种旋转机械剩余寿命的预测方法、存储介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant