CN111177134A - 适用于海量数据的数据质量分析方法、装置、终端及介质 - Google Patents

适用于海量数据的数据质量分析方法、装置、终端及介质 Download PDF

Info

Publication number
CN111177134A
CN111177134A CN201911367464.5A CN201911367464A CN111177134A CN 111177134 A CN111177134 A CN 111177134A CN 201911367464 A CN201911367464 A CN 201911367464A CN 111177134 A CN111177134 A CN 111177134A
Authority
CN
China
Prior art keywords
data
source
quality analysis
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911367464.5A
Other languages
English (en)
Other versions
CN111177134B (zh
Inventor
张嘉锐
孙虎
徐旻昕
袁晓夏
刘晋元
崔丽春
吴洁
李敏
王茜
赵燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co Ltd
Original Assignee
Shanghai Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co Ltd filed Critical Shanghai Science And Technology Development Co Ltd
Priority to CN201911367464.5A priority Critical patent/CN111177134B/zh
Publication of CN111177134A publication Critical patent/CN111177134A/zh
Application granted granted Critical
Publication of CN111177134B publication Critical patent/CN111177134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本申请提供适用于海量数据的数据质量分析方法、装置、终端及介质,本发明实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本发明的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。

Description

适用于海量数据的数据质量分析方法、装置、终端及介质
技术领域
本申请涉及数据质量分析技术领域,特别是涉及适用于海量数据的数据质量分析方法、装置、终端及介质。
背景技术
近年以来,随着大数据和人工智能的发展,作为这些先进数据科技的基础资源,用户对原始数据的需求越来越普遍和频繁。在对原始数据进行采集、整合、清洗、转化、应用等过程中,质量不高的数据会对数据仓库的建设以及后续的大数据分析和应用产生极为负面的影响。因此,如何从海量的原始数据中,筛选出可靠的高质量的数据,用于大数据分析及应用,也就成为数据科学中的一个难点。
在传统的较小量级的数据质量分析中,通常会采用人工方式来进行处理,例如在数据库客户端对每个数据表和字段执行数据查询和统计,或者将待分析的原始数据导入Excel等表格工具中,应用其内置的公式来进行统计分析。
从数据集的角度来说,海量原始数据,每个数据集的大小往往都在亿级及以上,而Excel表格的数据容量,仅仅只在百万级别,其数据量级远不能满足大规模数据质量分析的需要。从数据表和字段的角度来说,大数据应用所对应的原始数据,往往来源于十几个甚至几十个业务数据库,涉及成百上千个数据表、成千上万个数据字段,使用人工查询统计或公式分析,需要花费的人力和时间资源难以估量,这对于任何大数据项目的实施来说,是不可接受的。
因此,本领域亟需一种能够自动对海量数据进行数据质量分析并输出分析结果的技术解决方案。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供适用于海量数据的数据质量分析方法、装置、终端及介质,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种适用于海量数据的数据质量分析方法,其包括:通过元数据管理系统获取待分析的数据源;读取所述待分析的数据源的元数据描述信息;根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。
于本申请的第一方面的一些实施例中,所述通过元数据管理系统获取待分析的数据源,其包括:从一或多类源数据库中获取待分析的源数据的数据描述信息;其中,所述源数据库包括Oracle源、MySQL源、SQL Server源及Excel源中的任意一种或多种的组合;所述数据描述信息包括源数据的库、表、字段信息。
于本申请的第一方面的一些实施例中,获取数据质量评价指标的用户选择信息,其中的数据质量评价指标包括:数据完整性评价指标、数据准确性评价指标、数据有效性评价指标、数据时效性评价指标以及数据一致性评价指标中的任意一种或多种的组合。
于本申请的第一方面的一些实施例中,所述根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类,其包括:根据读取到的元数据描述信息中的字段信息,将待分析的数据源分为数值型数据、文本型数据或者日期型数据。
于本申请的第一方面的一些实施例中,所述获取输出形式的用户选择信息,其中的输出形式包括以数据形式输出数据质量分析结果和/或以图形形式输出数据质量分析结果。
于本申请的第一方面的一些实施例中,所述以数据形式输出数据质量分析结果,包括输出全部数据的汇总统计结果和/或输出全部数据中的高占比数据。
于本申请的第一方面的一些实施例中,所述元数据管理系统包括:数据源登记模块,用于将数据源的基本信息登记入库;异构数据源字典获取模块,用于根据所述数据源登记模块所登记的数据源基本信息,获取多种异构数据源系统字典;梳理加工模块,用于对所述数据源系统字典进行梳理,以确定需要采集的表和字段;源数据质量分析模块,用于对待分析的数据源进行质量分析;源文档生成模块,用于根据所述梳理加工模块梳理的数据源系统字典,生成源系统字典文档和现有数据源现状调研报告文档;源表结构一致性检查模块,用于定期扫描数据源系统字典,并在发现系统结构产生变化时生成对应的结构差异报告。
为实现上述目的及其他相关目的,本申请的第二方面提供一种适用于海量数据的数据质量分析装置,其包括:数据源获取模块,用于通过元数据管理系统获取待分析的数据源;元数据描述信息读取模块,用于读取所述待分析的数据源的元数据描述信息;分类模块,用于根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;质量评估脚本生成模块,用于获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;质量评估报告输出模块,用于获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述适用于海量数据的数据质量分析方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述适用于海量数据的数据质量分析方法。
如上所述,本申请的适用于海量数据的数据质量分析方法、装置、终端及介质,具有以下有益效果:本发明实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本发明的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。
附图说明
图1显示为本申请一实施例中的适用于海量数据的数据质量分析方法的流程示意图。
图2A显示为本申请一实施例中的源元数据管理系统的结构示意图。
图2B显示为本申请一实施例中的源元数据管理系统的结构示意图。
图3显示为本申请一实施例中的适用于海量数据的数据质量分析装置的结构示意图。
图4显示为本申请一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
针对现有技术仍采用人工来处理海量数据,需花费高昂的人力和时间成本而且容易出错等问题,本发明提出了能够自动对海量数据进行数据质量分析并输出分析结果的技术解决方案。本发明的技术方案实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本发明的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
实施例一
如图1所示,展示了本发明一实施例中的适用于海量数据的数据质量分析方法的流程示意图。
步骤S11:通过元数据管理系统获取待分析的数据源。
在本实施例可选的实现方式中,可从一或多类源数据库中获取所述待分析的外部数据源。例如:可通过源元数据管理系统,从包括Oracle数据库、MySQL数据库、SQL Server数据库、Excel表格等各类源数据库中获取源数据的库、表、字段等各层级的数据描述信息,并写入到元数据库中。
所述源元数据管理系统的结构如图2A所示,主要包括数据源登记模块21、异构数据源字典获取模块22、梳理加工模块23、源数据质量分析模块24、源文档生成模块25以及源表结构一致性检查模块26。
数据源登记模块21用于将数据源的基本信息登记入库;异构数据源字典获取模块22用于根据所述数据源登记模块所登记的数据源基本信息,获取多种异构数据源系统字典;梳理加工模块23用于对所述数据源系统字典进行梳理,以确定需要采集的表和字段;源数据质量分析模块24用于对待分析的数据源进行质量分析;源文档生成模块25用于根据所述梳理加工模块梳理的数据源系统字典,生成源系统字典文档和现有数据源现状调研报告文档;源表结构一致性检查模块26用于定期扫描数据源系统字典,并在发现系统结构产生变化时生成对应的结构差异报告。
更具体的如图2B所示,所述源元数据管理系统主要用于对待入库的各种数据源的基本信息进行管理,包括数据源登记、自动获取各种异构数据源字典、梳理加工补全源字典信息、自动分析源数据质量、自动生成源文档、源表结构一致性检查等功能。
所述数据源登记是将需要入大数据平台的各种数据源的基本信息登记入库,例如数据源所在服务器IP、数据库类型或者文件存放位置、数据库名称、拥有者名称、采集用户、所属业务主题、保密要求等基本信息。
所述自动获取各种异构数据源字典是根据登记的数据源基本信息,从对应的数据源读取数据源系统字典,将需要采集的数据源系统字典读取到元数据库中,包括数据库、表、字段的信息,如表的名称、备注,字段的字段名称、字段备注、字段类型、字段长度、精度、是否主键、是否为空、是否为外键、被引用的表、被引用的字段、引用条件等;另外,如果源是文件系统则读取文件的表头。
所述梳理加工补全源字典信息是对读取到的数据源系统字典进行梳理,确定哪些表和字段是需要采集的,对这些表和字段进行标记、补全备注,分析表间引用关系,如果源系统没有设置表间引用关系,则需要通过业务关系手动补上。
所述自动分析源数据质量,首先利用数据源质量分析工具(如Apache Griffin数据质量分析工具等)对全部源数据的数据质量进行全量分析,然后对重点的分析字段做特定的数据质量分析,并出具质量分析报告。
所述自动生成源文档是根据梳理好的数据源系统字典,自动生成源系统数据字典文档和现有数据源现状调研报告等文档。
所述源表结构一致性检查是定期扫描数据源系统字典,与元数据中的表和字段信息进行对比,及时发现生产系统的结构变化,并生成结构差异报告。
需说明的是,本发明的数据处理对象是海量数据,区别于现有的一些仅百万级别的数据(如Excel表格数据),本发明所处理的数据对象在亿级及以上数量级。本发明所提供的技术方案,对数据的处理能力仅仅受限于源数据库的性能,按照对10节点Oracle数据库集群,100余张数据表,共计800多个字段的数据质量分析过程来看,文字形式的质量报告输出,耗时在1分钟以内;图形格式的质量报告输出,耗时也在3分钟左右,大大地降低了数据质量分析的耗时,提升数据质量分析的效率。
步骤S12:获取数据质量评价指标的用户选择信息。
在本实施例可选的实现方式中,可对获取到的待分析的外部数据源基于一个质量评价指标或者多个质量评价指标的组合进行质量评价。所述质量评价指标包括但不限于:数据完整性、数据准确性、数据有效性、数据时效性、数据一致性等评价指标。
所述数据完整性用于描述源数据信息缺失的程度,数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。对于数据信息记录缺失的检测,可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失;对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。
所述数据准确性用于描述一个值与它所描述的客观事物的真实值之间的接近程度,即数据记录的信息是否存在错误或异常。
所述数据有效性用于描述数据遵循预定的语法规则的程度,是否符合其定义。有效性规则包括类型有效、格式有效和取值有效等;其中,类型有效性是检测字段数据的类型是否符合其定义,例如可通过求和来判断是否是数值型,或通过时间操作来判断是否是时间类型;格式有效性可以通过正则表达式来判断数据是否与其定义相符;取值有效性可通过计算最大最小值来判断数据是否在有效的取值范围之内等等。
所述数据时效性用于描述数据仅在一定时段内对决策具有价值的属性。数据从生成到录入数据库存在一定的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。例如当天的交易数据生成后没有及时的录入数据库或者源库与目的库之间的同步延迟,则会导致统计结果和真实结果存在一定误差。
所述数据一致性是先确定一致性检测的主表字段,然后选择需要给定检测的从表和从表字段,设置好主表和从表之间的关联项,关联项可以是多个字段,但是关联项必须是拥有匹配值的相似字段。匹配关联之后检查主表和从表之间相同或者类似字段的字段值是否一致。
步骤S13:获取输出形式的用户选择信息式。
在本实施例可选的实现方式中,以数据形式输出数据质量分析结果。例如:输出数据的汇总统计结果,即输出对字段的总量、空值或零值数量等的统计结果,对极大值、极小值、均值或中位值等数据指标的统计结果(不同数据类型的输出指标会有差异)等等;例如:输出高占比数据,即输出所有字段中出现的频次占比最高的TOP10数据及其对应的占比数据。
在本实施例可选的实现方式中,以图形形式输出数据质量分析结果。需说明的是,无论是输出数据的汇总统计结果还是输出高占比数据,这些方式以数据形式输出数据质量分析结果,虽然数值精度较高且衡量维度全面,但仅适合数据分析人员,对一般的业务用户来说不够直观。
因此,本实施例的本实现方式中输出全部数据的分布形态图,每一个字段的数据集都通过js脚本处理,为用户提供曲线图(适合适配值域分布广泛的情况)、柱状图或者饼图(适合适配值域分布集中的情况)等形式的图像输出。业务用户可通过这些输出的图形文档,直观地观察数据质量状况,进而对数据的取舍或后续填充做出业务层面的决策。
步骤S14:读取元数据描述信息。
具体而言,根据输入的数据源读取该数据所对应的模式、表、字段等元数据信息,并以数组的形式暂存备用。
步骤S15:自动划分数据类型。
具体而言,可根据读取到的元数据中的字段信息,自动对数据类型进行分类。数据类型一般分为数值型、文本型和日期型三个大类。通过对数据类型进行分类能便于适配各种不同的质量评估指标组合。
步骤S16:生成数据质量评估脚本。
具体而言,可根据用户选定的数据质量评价指标,生成对应的用于在源数据库中可执行数据质量评估的脚本文件。
举例来说:在从各类源数据库中获取到源数据的库、表、字段等各层级的数据描述信息,并写入到数据采集系统数据库后,可链接到每个数据采集系统数据库,对其中所有数据表和数据表内所有的数据字段,执行至少两层循环遍历,并依据遍历结果自动生成数据质量评估脚本。
步骤S17:根据所选取的输出形式生成对应的质量评估报告。
具体而言,根据步骤S13中所选取的输出形式来生成对应的质量评估报告。例如:若用户选取的是以数据形式输出数据质量分析结果,则在进行数据质量分析后生成包含数据汇总和高占比数据等数据内容的质量分析报告。再例如:若用户选取的是以图形形式输出数据质量分析结果,则在进行数据质量分析后生成对应的曲线图、柱状图或者饼图等数据质量分析报告。
由上述内容可知,本发明的数据质量分析方法实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本发明的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。
需说明的是,本实施例的适用于海量数据的数据质量分析方法可应用于多种类型的硬件设备。所述硬件设备例如是ARM(Advanced RISC Machines)控制器、FPGA(FieldProgrammable Gate Array)控制器、SoC(System on Chip)控制器、DSP(DigitalSignal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等。所述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述硬件设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成,本实施例不作限定。
实施例二
如图3所示,展示了本发明一实施例中的适用于海量数据的数据质量分析装置的结构示意图。所述数据质量分析装置包括数据源获取模块31、元数据描述信息读取模块32、数据分类模块33、质量评估脚本生成模块34、质量评估报告输出模块35。
数据源获取模块31用于通过元数据管理系统获取待分析的数据源;元数据描述信息读取模块32用于读取所述待分析的数据源的元数据描述信息;数据分类模块33用于根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;质量评估脚本生成模块34用于获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;质量评估报告输出模块35用于获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。
需说明的是,由于本实施例提供的所述适用于海量数据的数据质量分析装置的实施方式,与上文实施例一提供的所述适用于海量数据的数据质量分析方法的实施方式类似,故不再赘述。
应理解的是,以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,数据分类模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上数据分类模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例三
如图4所示,展示了本发明一实施例中的电子终端的结构示意图。本实施例提供的电子终端,包括:处理器41、存储器42、通信器43;存储器42通过系统总线与处理器41和通信器43连接并完成相互间的通信,存储器42用于存储计算机程序,通信器43用于和其他设备进行通信,处理器41用于运行计算机程序,使电子终端执行如上适用于海量数据的数据质量分析方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random AccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例四
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述适用于海量数据的数据质量分析方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供适用于海量数据的数据质量分析方法、装置、终端及介质,本发明实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本发明的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种适用于海量数据的数据质量分析方法,其特征在于,包括:
通过元数据管理系统获取待分析的数据源;
读取所述待分析的数据源的元数据描述信息;
根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;
获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;
获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。
2.根据权利要求1所述的方法,其特征在于,所述通过元数据管理系统获取待分析的数据源,其包括:
从一或多类源数据库中获取待分析的源数据的数据描述信息;其中,所述源数据库包括Oracle源、MySQL源、SQL Server源及Excel源中的任意一种或多种的组合;所述数据描述信息包括源数据的库、表、字段信息。
3.根据权利要求1所述的方法,其特征在于,获取数据质量评价指标的用户选择信息,其中的数据质量评价指标包括:数据完整性评价指标、数据准确性评价指标、数据有效性评价指标、数据时效性评价指标以及数据一致性评价指标中的任意一种或多种的组合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类,其包括:
根据读取到的元数据描述信息中的字段信息,将待分析的数据源分为数值型数据、文本型数据或者日期型数据。
5.根据权利要求1所述的方法,其特征在于,所述获取输出形式的用户选择信息,其中的输出形式包括以数据形式输出数据质量分析结果和/或以图形形式输出数据质量分析结果。
6.根据权利要求5所述的方法,其特征在于,所述以数据形式输出数据质量分析结果,包括输出全部数据的汇总统计结果和/或输出全部数据中的高占比数据。
7.根据权利要求1所述的方法,其特征在于,所述元数据管理系统包括:
数据源登记模块,用于将数据源的基本信息登记入库;
异构数据源字典获取模块,用于根据所述数据源登记模块所登记的数据源基本信息,获取多种异构数据源系统字典;
梳理加工模块,用于对所述数据源系统字典进行梳理,以确定需要采集的表和字段;
源数据质量分析模块,用于对待分析的数据源进行质量分析;
源文档生成模块,用于根据所述梳理加工模块梳理的数据源系统字典,生成源系统字典文档和现有数据源现状调研报告文档;
源表结构一致性检查模块,用于定期扫描数据源系统字典,并在发现系统结构产生变化时生成对应的结构差异报告。
8.一种适用于海量数据的数据质量分析装置,其特征在于,包括:
数据源获取模块,用于通过元数据管理系统获取待分析的数据源;
元数据描述信息读取模块,用于读取所述待分析的数据源的元数据描述信息;
数据分类模块,用于根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;
质量评估脚本生成模块,用于获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;
质量评估报告输出模块,用于获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述适用于海量数据的数据质量分析方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述适用于海量数据的数据质量分析方法。
CN201911367464.5A 2019-12-26 2019-12-26 适用于海量数据的数据质量分析方法、装置、终端及介质 Active CN111177134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367464.5A CN111177134B (zh) 2019-12-26 2019-12-26 适用于海量数据的数据质量分析方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367464.5A CN111177134B (zh) 2019-12-26 2019-12-26 适用于海量数据的数据质量分析方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN111177134A true CN111177134A (zh) 2020-05-19
CN111177134B CN111177134B (zh) 2021-04-02

Family

ID=70622396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367464.5A Active CN111177134B (zh) 2019-12-26 2019-12-26 适用于海量数据的数据质量分析方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN111177134B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427974A (zh) * 2020-06-11 2020-07-17 杭州城市大数据运营有限公司 数据质量评估管理方法和装置
CN112052138A (zh) * 2020-08-31 2020-12-08 平安科技(深圳)有限公司 业务数据质量检测方法、装置、计算机设备及存储介质
CN112463822A (zh) * 2020-11-27 2021-03-09 海光信息技术股份有限公司 用于芯片的数据处理方法及装置、电子设备和存储介质
CN112667469A (zh) * 2020-12-25 2021-04-16 通号智慧城市研究设计院有限公司 一种多元化大数据统计报告自动生成方法、系统及可读介质
CN112749164A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 数据质量分析方法、装置及电子设备
CN114417842A (zh) * 2021-12-29 2022-04-29 天闻数媒科技(北京)有限公司 教育数据报告的动态分析文案生成方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090236413A1 (en) * 2005-02-28 2009-09-24 Fedral Reserve Bank Of Atlanta Expanded Mass Data Sets For Electronic Check Processing
CN102081661A (zh) * 2011-01-19 2011-06-01 吉林大学 基于xml的异构关系型数据库的数据集成方法和系统
CN103150599A (zh) * 2013-03-07 2013-06-12 江苏大学 一种电能质量数据监测与管理系统模型
CN103617176A (zh) * 2013-11-04 2014-03-05 广东电子工业研究院有限公司 一种实现多源异构数据资源自动同步的方法
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评系统及方法
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN109739922A (zh) * 2019-01-10 2019-05-10 江苏徐工信息技术股份有限公司 一种工业数据智能分析系统
CN109902084A (zh) * 2019-02-27 2019-06-18 浪潮软件集团有限公司 一种全自动检测与分析数据质量的系统及方法
CN110119395A (zh) * 2019-05-27 2019-08-13 普元信息技术股份有限公司 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN110413765A (zh) * 2019-06-10 2019-11-05 中云开源数据技术(上海)有限公司 一种海量数据集分析和展示的交互式系统及其方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法
CN110309131A (zh) * 2019-04-12 2019-10-08 北京星网锐捷网络技术有限公司 海量结构化数据的质量评估方法及装置
CN110543500A (zh) * 2019-08-23 2019-12-06 国家电网有限公司 一种基于大数据的输变电设备健康评估平台

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090236413A1 (en) * 2005-02-28 2009-09-24 Fedral Reserve Bank Of Atlanta Expanded Mass Data Sets For Electronic Check Processing
CN102081661A (zh) * 2011-01-19 2011-06-01 吉林大学 基于xml的异构关系型数据库的数据集成方法和系统
CN103150599A (zh) * 2013-03-07 2013-06-12 江苏大学 一种电能质量数据监测与管理系统模型
CN103617176A (zh) * 2013-11-04 2014-03-05 广东电子工业研究院有限公司 一种实现多源异构数据资源自动同步的方法
CN105550511A (zh) * 2015-12-11 2016-05-04 北京锐软科技股份有限公司 一种基于数据校验技术的数据质量测评系统及方法
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN109739922A (zh) * 2019-01-10 2019-05-10 江苏徐工信息技术股份有限公司 一种工业数据智能分析系统
CN109902084A (zh) * 2019-02-27 2019-06-18 浪潮软件集团有限公司 一种全自动检测与分析数据质量的系统及方法
CN110119395A (zh) * 2019-05-27 2019-08-13 普元信息技术股份有限公司 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN110413765A (zh) * 2019-06-10 2019-11-05 中云开源数据技术(上海)有限公司 一种海量数据集分析和展示的交互式系统及其方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427974A (zh) * 2020-06-11 2020-07-17 杭州城市大数据运营有限公司 数据质量评估管理方法和装置
CN112052138A (zh) * 2020-08-31 2020-12-08 平安科技(深圳)有限公司 业务数据质量检测方法、装置、计算机设备及存储介质
CN112463822A (zh) * 2020-11-27 2021-03-09 海光信息技术股份有限公司 用于芯片的数据处理方法及装置、电子设备和存储介质
CN112667469A (zh) * 2020-12-25 2021-04-16 通号智慧城市研究设计院有限公司 一种多元化大数据统计报告自动生成方法、系统及可读介质
CN112749164A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 数据质量分析方法、装置及电子设备
CN114417842A (zh) * 2021-12-29 2022-04-29 天闻数媒科技(北京)有限公司 教育数据报告的动态分析文案生成方法及系统
CN114417842B (zh) * 2021-12-29 2022-12-09 天闻数媒科技(北京)有限公司 教育数据报告的动态分析文案生成方法及系统

Also Published As

Publication number Publication date
CN111177134B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN111177134B (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
CN106991196B (zh) 一种通用的数据追溯方法及系统
CN111061833A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
AU2019422006B2 (en) Disambiguation of massive graph databases
US10210227B2 (en) Processing a data set
CN111400288A (zh) 数据质量检查方法及系统
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN112162960A (zh) 一种卫生健康政务信息共享方法、装置及系统
CN109947797B (zh) 一种数据检查装置及方法
CN114741392A (zh) 数据查询方法、装置、电子设备及存储介质
CN111221698A (zh) 任务数据采集方法与装置
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN113553341A (zh) 多维数据分析方法、装置、设备及计算机可读存储介质
CN110471912B (zh) 一种员工属性信息校验方法、装置及终端设备
CN114490882B (zh) 一种异构数据库数据同步分析方法
CN110543426A (zh) 一种软件性能风险检测方法及装置
CN105573984A (zh) 社会经济指标的识别方法及装置
CN114860759A (zh) 一种数据处理方法、装置、设备及可读存储介质
Liu et al. Application of requirement-oriented data quality evaluation method
CN102279793A (zh) 一种基于熵的构件可信度量方法
CN114611473B (zh) 一种检验执行文件的生成方法及电子设备
US20230409557A1 (en) Systems and methods for data consistency and alignment in data analytics platforms
KR102430880B1 (ko) 도면 데이터 베이스 제공 방법
US9158818B2 (en) Facilitating identification of star schemas in database environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant