CN111913945A - 一种数据治理方法、装置及存储介质 - Google Patents

一种数据治理方法、装置及存储介质 Download PDF

Info

Publication number
CN111913945A
CN111913945A CN202010797026.9A CN202010797026A CN111913945A CN 111913945 A CN111913945 A CN 111913945A CN 202010797026 A CN202010797026 A CN 202010797026A CN 111913945 A CN111913945 A CN 111913945A
Authority
CN
China
Prior art keywords
field
discrete
continuous
fields
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010797026.9A
Other languages
English (en)
Inventor
程艳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202010797026.9A priority Critical patent/CN111913945A/zh
Publication of CN111913945A publication Critical patent/CN111913945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据治理方法、装置及存储介质,其方法包括导入待治理的目标数据表,目标数据表中包括多个字段;根据数据分布类型对目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据多个连续型字段得到连续型字段表,根据多个离散型字段得到离散型字段表;连续型字段与离散型字段进行两两对比,分别得到各个对比组的对比结果;统计对比结果为相似的数量,根据数量得到连续型字段表与离散型字段表为相似或不相似的结果。本发明能够自动判定待治理的目标数据表中的连续型字段和离散型字段,再将连续型字段和离散型字段进行相似度判断,实现大批量的处理数据,比传统人工处理效率高,准确性更高。

Description

一种数据治理方法、装置及存储介质
技术领域
本发明主要涉及数据处理技术领域,具体涉及一种数据治理方法、装置及存储介质。
背景技术
数据治理是数据中心及数据湖建设运营过程中长期的、艰巨的、繁重的任务,数据治理的好坏直接关系数据中心及数据湖运行的效率和质量。数据中心及数据湖建设运营过程中,随着时间的推移、相关厂商人员的变更以及业务需求的发展变化,存在大量数据冗余的情况,目前对于数据冗余的处理方法是人工判别数据类型再进行分类处理,存在人工处理速度慢、效率低的问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种数据治理方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种数据治理方法,包括如下步骤:
导入待治理的目标数据表,所述目标数据表中包括多个字段;
根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
本发明解决上述技术问题的另一技术方案如下:一种数据治理装置,包括:
导入模块,用于导入待治理的目标数据表,所述目标数据表中包括多个字段;
类型判定模块,用于根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
字段对比模块,用于将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
相似度判定模块,用于统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的数据治理方法。
本发明的有益效果是:能够自动判定待治理的目标数据表中的连续型字段和离散型字段,再将连续型字段和离散型字段进行相似度判断,实现大批量的处理数据,比传统人工处理效率高,准确性更高。
附图说明
图1为本发明实施例提供的数据治理方法的流程图;
图2为本发明实施例提供的数据治理装置的功能模块框图;
图3为本发明实施例提供的对齐方式的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的数据治理方法的流程图。
如图1所示,一种数据治理方法,包括如下步骤:
导入待治理的目标数据表,所述目标数据表中包括多个字段;
根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
上述实施例中,能够自动判定待治理的目标数据表中的连续型字段和离散型字段,再将连续型字段和离散型字段进行相似度判断,实现大批量的处理数据,比传统人工处理效率高,准确性更高。
可选地,作为本发明的一个实施例,所述根据数据分布类型对所述目标数据表中各个字段进行划分的过程包括:
若所述字段的数据取值为非数字型,则判定为离散型字段;
若所述字段的数据取值为数字型,则判断是否有小数位取值,如果有,则判定为连续型,如果没有,则对所述字段进行分组,计算各分组数据量的变异系数,如果所有的变异系数均大于预设系数,则判断为离散型,否则为连续型。
上述实施例中,通过数据取值的非数字型和数字型以及计算变异系数来判断是连续型字段还是离散型字段。
可选地,作为本发明的一个实施例,将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比的过程包括:
所述对比组包括连续型字段和离散型字段,将所述对比组中其中一个字段作为对比方,所述对比组中另一个字段作为待对比方,通过预设刻度轴判断所述待对比方能否与所述对比方对齐,
若能对齐,则取所述对比方与所述待对比方的交集部分,将所述交集部分进行相似度计算,得到相似或不相似的结果,
若不能对齐,则判定所述对比方与所述待对比方为不相似。
上述实施例中,将连续型字段和离散型字段进行进一步比对,看能否进行交集,判断是否具备可比性,若有可比性,进一步计算相似度,得到两者是否相似的结果,便于后期整理。
可选地,作为本发明的一个实施例,所述通过预设刻度轴判断所述待对比方能否与所述对比方对齐的过程包括:
将所述对比方和所述待对比方一并置于预设刻度轴的下方,以刻度间距为滑动步长将所述待对比方从所述对比方的起点至结束点方向滑动,当所述待对比方滑出所述对比方时,根据所述预设刻度轴的刻度间距值计算所述待对比方与所述对比方之间的差值,若所述差值大于预设经验值,则得到所述对比方和所述待对比方无法对齐的结果,否则得到所述对比方和所述待对比方对齐的结果。
如图3所示,给出了四种比对的情况:I完全一致、II子集、III左超出和IV右超出。
可选地,作为本发明的一个实施例,取所述对比方与所述待对比方的交集部分,将所述交集部分进行相似度计算的过程包括:
通过式子{A}∩{B}取所述对比方与所述待对比方的交集,其中,{A}表示对比方,{B}表示待对比方;
利用欧式距离算法计算所述交集的相似度,得到相似或不相似的结果。
上述实施例中,通过滑动的方式判断待对比方和对比方,即连续型字段和离散型字段是否能对齐,若能对齐再取相交的部分,能够快速且准确地确定待对比方和对比方是否能对齐。
可选地,作为本发明的一个实施例,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果的过程包括:
若所述数量大于或等于预设相似数量,则得到所述连续型字段表与所述离散型字段表为相似的结果,否则,得到所述连续型字段表与所述离散型字段表为不相似的结果。
应理解地,若结果为“相似”的数量大于或等于预设相似数量,则说明连续型字段表和离散型字段表中存在相似度的情况比较多,则说明两个表相似度较高。
上述实施例中,能够从字段类别、相似程度来充分对数据进行筛选,比传统人工处理效率高,准确性更高。
图2为本发明实施例提供的数据治理装置的功能模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种数据治理装置,包括:
导入模块,用于导入待治理的目标数据表,所述目标数据表中包括多个字段;
类型判定模块,用于根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
字段对比模块,用于将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
相似度判定模块,用于统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
可选地,作为本发明的一个实施例,所述类型判定模块具体用于:
若所述字段的数据取值为非数字型,则判定为离散型字段;
若所述字段的数据取值为数字型,则判断是否有小数位取值,如果有,则判定为连续型,如果没有,则对所述字段进行分组,计算各分组数据量的变异系数,如果所有的变异系数均大于预设系数,则判断为离散型,否则为连续型。
可选地,作为本发明的另一个实施例,一种数据治理装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的数据治理方法。
可选地,作为本发明的另一个实施例,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的数据治理方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据治理方法,其特征在于,包括如下步骤:
导入待治理的目标数据表,所述目标数据表中包括多个字段;
根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
2.根据权利要求1所述的数据治理方法,其特征在于,所述根据数据分布类型对所述目标数据表中各个字段进行类型判定的过程包括:
若所述字段的数据取值为非数字型,则判定为离散型字段;
若所述字段的数据取值为数字型,则判断是否有小数位取值,如果有,则判定为连续型,如果没有,则对所述字段进行分组,计算各分组数据量的变异系数,如果所有的变异系数均大于预设系数,则判断为离散型,否则为连续型。
3.根据权利要求2所述的数据治理方法,其特征在于,将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比的过程包括:
所述对比组包括连续型字段和离散型字段,将所述对比组中其中一个字段作为对比方,所述对比组中另一个字段作为待对比方,通过预设刻度轴判断所述待对比方能否与所述对比方对齐,
若能对齐,则取所述对比方与所述待对比方的交集部分,将所述交集部分进行相似度计算,得到相似或不相似的结果,
若不能对齐,则判定所述对比方与所述待对比方为不相似。
4.根据权利要求3所述的数据治理方法,其特征在于,所述通过预设刻度轴判断所述待对比方能否与所述对比方对齐的过程包括:
将所述对比方和所述待对比方一并置于预设刻度轴的下方,以刻度间距为滑动步长将所述待对比方从所述对比方的起点至结束点方向滑动,当所述待对比方滑出所述对比方时,根据所述预设刻度轴的刻度间距值计算所述待对比方与所述对比方之间的差值,若所述差值大于预设经验值,则得到所述对比方和所述待对比方无法对齐的结果,否则得到所述对比方和所述待对比方对齐的结果。
5.根据权利要求3所述的数据治理方法,其特征在于,取所述对比方与所述待对比方的交集部分,将所述交集部分进行相似度计算的过程包括:
通过式子{A}∩{B}取所述对比方与所述待对比方的交集,其中,{A}表示对比方,{B}表示待对比方;
利用欧式距离算法计算所述交集的相似度,得到相似或不相似的结果。
6.根据权利要求1至5任一项所述的数据治理方法,其特征在于,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果的过程包括:
若所述数量大于或等于预设相似数量,则得到所述连续型字段表与所述离散型字段表为相似的结果,否则,得到所述连续型字段表与所述离散型字段表为不相似的结果。
7.一种数据治理装置,其特征在于,包括:
导入模块,用于导入待治理的目标数据表,所述目标数据表中包括多个字段;
类型判定模块,用于根据数据分布类型对所述目标数据表中各个字段进行类型判定,得到多个连续型字段和多个离散型字段,根据所述多个连续型字段得到连续型字段表,根据所述多个离散型字段得到离散型字段表;
字段对比模块,用于将所述连续型字段表中的连续型字段与所述离散型字段表中的离散型字段进行两两对比,分别得到各个对比组的对比结果;
相似度判定模块,用于统计所述对比结果为相似的数量,根据所述数量得到所述连续型字段表与所述离散型字段表为相似或不相似的结果。
8.根据权利要求7所述的数据治理装置,其特征在于,所述类型判定模块具体用于:
若所述字段的数据取值为非数字型,则判定为离散型字段;
若所述字段的数据取值为数字型,则判断是否有小数位取值,如果有,则判定为连续型,如果没有,则对所述字段进行分组,计算各分组数据量的变异系数,如果所有的变异系数均大于预设系数,则判断为离散型,否则为连续型。
9.一种数据治理装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至6任一项所述的数据治理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的数据治理方法。
CN202010797026.9A 2020-08-10 2020-08-10 一种数据治理方法、装置及存储介质 Pending CN111913945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010797026.9A CN111913945A (zh) 2020-08-10 2020-08-10 一种数据治理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010797026.9A CN111913945A (zh) 2020-08-10 2020-08-10 一种数据治理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111913945A true CN111913945A (zh) 2020-11-10

Family

ID=73283573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010797026.9A Pending CN111913945A (zh) 2020-08-10 2020-08-10 一种数据治理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111913945A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530597A (zh) * 2020-11-26 2021-03-19 山东健康医疗大数据有限公司 基于Bert字模型的数据表分类方法、装置及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530597A (zh) * 2020-11-26 2021-03-19 山东健康医疗大数据有限公司 基于Bert字模型的数据表分类方法、装置及介质

Similar Documents

Publication Publication Date Title
CN108632097B (zh) 异常行为对象的识别方法、终端设备及介质
EP3117347B1 (en) Systems and methods for rapid data analysis
TWI709932B (zh) 交易指標的監控方法、裝置及設備
CN110008254B (zh) 一种变电设备台账核查处理方法
WO2019052162A1 (zh) 提高数据清洗效率的方法、装置、设备及可读存储介质
CN110647913B (zh) 基于聚类算法的异常数据检测方法及装置
WO2022017167A1 (zh) 一种信息处理方法、系统、电子设备及存储介质
CN114996280B (zh) 一种数据表的字段信息纠正方法、装置、设备及介质
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
Rachtman et al. The impact of contaminants on the accuracy of genome skimming and the effectiveness of exclusion read filters
CN109308311A (zh) 一种多源异构数据融合系统
CN111913945A (zh) 一种数据治理方法、装置及存储介质
CN109916350A (zh) 一种生成三坐标测量程序的方法、装置及终端设备
Chan Efficient computation of European option prices and their sensitivities with the complex Fourier series method
CN112559817A (zh) 一种报表内容校验方法、系统、计算机设备及存储介质
CN109062638B (zh) 一种系统组件显示方法、计算机可读存储介质及终端设备
CN110598194A (zh) 一种非满格表格内容提取方法、装置及终端设备
CN110287272A (zh) 一种可配置实时特征提取方法、装置及系统
CN116070958A (zh) 归因分析方法、装置、电子设备和存储介质
CN105160446A (zh) 一种获取借款额度的方法及装置
CN106502625A (zh) 一种高速数据流中top‑n基数数据的估算方法
CN111507397A (zh) 一种异常数据的分析方法及装置
Chen et al. CGAP-align: a high performance DNA short read alignment tool
CN105824871A (zh) 一种图片检测方法与设备
CN110737685A (zh) 一种电力大数据的数据异常判别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination