CN112506901A - 一种数据质量测量方法、装置及介质 - Google Patents
一种数据质量测量方法、装置及介质 Download PDFInfo
- Publication number
- CN112506901A CN112506901A CN202011374281.9A CN202011374281A CN112506901A CN 112506901 A CN112506901 A CN 112506901A CN 202011374281 A CN202011374281 A CN 202011374281A CN 112506901 A CN112506901 A CN 112506901A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- statistical
- index
- statistical index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000000691 measurement method Methods 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 abstract description 13
- 238000007405 data analysis Methods 0.000 abstract description 12
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据质量测量方法、装置及介质,其中该方法包括,预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。此外,本申请还公开了一种数据质量测量装置及介质,与上述数据质量测量方法对应,效果同上。
Description
技术领域
本申请涉及数据质量管理技术领域,特别是涉及一种数据质量测量方法、装置及介质。
背景技术
随着大数据和互联网技术的广泛应用,对全球的金融业务产生了深刻的影响,尤其是企业征信。在企业征信系统中,数据的质量决定了征信系统评估能力的上限,但由于数据的质量参差不齐,严重降低了征信评估结果的准确性。
目前,数据质量测量方法主要是通过数据分析师从数据的完整性、一致性和准确性三方面进行测量,由于数据分析师分析数据的速度缓慢,因此降低了数据分析的实时性。同时,由于不同的数据分析师对数据的完整性、一致性和准确性的界定存在差异,其分析的结果也存在差异,因此降低了数据质量测量结果的可靠性。
由此可见,如何提高数据分析的实时性以及提高数据质量测量结果的可靠性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据质量测量方法,以便于提高数据分析的实时性,提高数据质量测量结果的可靠性。此外,本申请的目的是还提供一种数据质量测量装置及介质。
为解决上述技术问题,本申请提供一种数据质量测量方法,包括:
预先存储各数据名称与各统计指标的对应关系;
识别待测量数据的数据名称;
根据所述对应关系确定与目标数据名称对应的目标统计指标;
根据所述目标统计指标计算所述目标数据的指标值。
优选的,所述识别待测量数据的数据名称后,还包括:
读取所述待测量数据的数据类型;
根据所述数据名称对所述数据类型进行校正后,将各所述数据按所述数据类型分类;
根据各所述数据类型与各所述统计指标的对应关系,确定对应的统计指标库;
优选的,所述根据所述对应关系确定与目标数据名称对应的目标统计指标包括:
根据各所述数据名称与所述统计指标库中的各统计指标的对应关系,确定所述目标统计指标;其中,所述统计指标库为所述数据名称所在的所述数据类型对应的统计指标库。
优选的,所述根据所述对应关系确定与目标数据名称对应的目标统计指标具体为:
在各所述数据名称与各预设方案存在对应关系的情况下,确定目标数据名称对应的目标预设方案;其中,所述预设方案中包含了与所述数据名称对应的统计指标;
在各所述数据名称与各预设方案不存在对应关系的情况下,选取通用预设方案。
优选的,根据所述目标统计指标计算所述目标数据的所述指标值具体为:
根据所述目标预设方案或所述通用预设方案,计算所述目标数据的所述指标值。
优选的,还包括:
在所述指标值不符合预设要求的情况下,发送告警信号。
优选的,所述预设要求包括:根据预设周期内各所述数据的指标值所确定的预警范围。
优选的,所述预设要求包括:各所述统计指标的固定预警范围。
为解决上述技术问题,本申请还提供一种数据质量测量装置,包括:
存储模块,用于预先存储各数据名称与各统计指标的对应关系;
识别模块,用于识别待测量数据的数据名称;
第一确定模块,用于根据所述对应关系,确定与目标数据名称对应的目标统计指标;
第一计算模块,用于根据所述目标统计指标计算所述目标数据的指标值。
为解决上述技术问题,本申请还提供一种数据质量测量装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的数据质量测量方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据质量测量方法的步骤。
本申请所提供的数据质量测量方法,预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。
此外,本申请提供的一种数据质量测量装置及介质,与上述数据质量测量方法对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据质量测量方法的流程图;
图2为本申请实施例提供的另一种数据质量测量方法的流程图;
图3为本申请实施例提供的一种确定目标统计指标的流程图;
图4为本申请实施例提供的一种根据对应关系确定与目标数据名称对应的目标统计指标的流程图;
图5为本申请实施例提供的一种数据质量测量装置的结构示意图;
图6为本申请实施例提供的另一种数据质量测量装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种数据质量测量方法,以便于提高数据分析的实时性,提高数据质量测量结果的可靠性。本申请的核心是还提供一种数据质量测量装置及介质。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
图1为本申请实施例提供的一种数据质量测量方法的流程图。如图1所示,该方法包括:
S10:预先存储各数据名称与各统计指标的对应关系。
本申请实施例中,统计指标包括总数量、缺失值、0值、最大单一值、最大值、最小值、中位数、众数、平均数中的一种或多种组合。其中,总数量具体是统计指定数据的非空计数,缺失值具体是统计指定数据空值的数量占总数量的比值,0值具体是统计指定数据0值的数量占总数量的比值,最大单一值具体是统计指定数据的单一值的数量占总数量的比值的最大占比,最大值具体是统计指定数据的最大值,最小值具体是统计指定数据的最小值,中位数具体是统计指定数据的中位数,众数具体是统计指定数据的众数,平均数具体是统计指定数据的平均数。
S11:识别待测量数据的数据名称。
识别待测量数据的数据名称的步骤具体包含两步,第一步:在将数据从关系数据库管理系统(Oracle)按周期同步至分布式大数据平台(Hadoop),并通过数据转化安装配置与基本操作命令(Apche Sqoop)构建异构数据同步工具,通过该工具完成数据从Oracle到Hadoop的存储,其中数据的存储格式与Hadoop的数据库的格式匹配即可。第二步:识别Hadoop中存储的数据(即待测量数据)的数据名称,其中需要说明的是,带测量数据中包含有多种数据名称。
S12:根据对应关系确定与目标数据名称对应的目标统计指标。
例如,数据名称为年龄,其对应的统计指标包括总数量、最大值、最小值及众数,则当目标数据名称是年龄时,根据各数据名称与各统计指标的对应关系可以确定目标统计指标为总数量、最大值、最小值及众数。
S13:根据目标统计指标计算目标数据的指标值。
在确定与目标数据名称对应的目标统计指标后,调用对应的结构化查询语句(Structured Query Language,SQL),并将该SQL传输到Hadoop的数据库进行计算,返回该目标数据对应的指标值。
为了使本技术领域的人员更好地理解本申请方案,将结合上述例子具体说明:确定目标统计指标为总数量、最大值、最小值及众数后,调用对应的SQL,在Hadoop根据SQL分别计算数据名称是年龄的数据的非空计数、最大值、最小值及众数并返回,通过这些指标值即可知道数据名称是年龄的数据的质量检测结果。
本申请实施例所提供的数据质量测量方法,预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。
图2为本申请实施例提供的另一种数据质量测量方法的流程图。如图2所示,在上述实施例的基础上,在S11后,还包括:
S20:读取待测量数据的数据类型。
可以理解的是,在数据存储于Hadoop分布式大数据平台后,直接即可读取存储于Hadoop的数据(即待测量数据)的数据类型。
S21:根据数据名称对数据类型进行校正后,将各数据按数据类型分类。
本申请实施例中,通过数据名称对应的中文名称进行模糊匹配,完成对数据类型的校正后,将待测量数据按数据类型进行分类。需要说明的是,最终分类得到的类型数量不做限制,在具体实施中,可将各数据分为数值型和其它类型,即非数值型数据均分至其它类型数据之中。
S22:根据各数据类型与各统计指标的对应关系,确定对应的统计指标库。
以上述将各数据分为数值型和其它类型为例,根据数值型及其它类型与各统计指标的对应关系,可以确定数值型对应的统计指标库中包括总数量、缺失值、0值、最大值、最小值、中位数、众数及平均数,其它类型对应的统计指标库中包括总数量、缺失值、最大单一值。
在S22的基础上,S12具体为:根据各数据名称与统计指标库中的各统计指标的对应关系,确定目标统计指标。
需要说明的是,统计指标库为数据名称所在的数据类型对应的统计指标库,以数据名称是年龄为例,数据名称是年龄的数据其数据类型为数值型,则根据年龄与数值型对应的统计指标库中的统计指标的对应关系,确定年龄对应的目标统计指标,即当数据名称是年龄时,从数值型对应的统计指标库中包括总数量、缺失值、0值、最大值、最小值、中位数、众数及平均数中选取与年龄对应的目标统计指标(总数量、最大值、最小值及众数)。
为了使本技术领域的人员更好地理解本申请方案,图3为本申请实施例提供的一种确定目标统计指标的流程图,其中数值型方案1、数值型方案2、数值型方案3和数值型方案4中包含了数值型中不同数据名称对应的数值型统计指标库中的统计指标,其他类型方案1、其他类型方案2、其他类型方案3和其他类型方案4中包含了其它类型中不同数据名称对应的其它类型统计指标库中的统计指标。
本申请实施例所提供的数据质量测量方法,由于在确定与目标数据对应的目标统计指标前,先对待测量数据按数据类型进行分类,并根据数据类型与各统计指标的对应关系,确定了对应的统计指标库,因此相较于上述实施例,本申请实施例只需要在目标数据的数据类型对应的统计指标库中确定与目标数据对应的目标统计指标即可,减少了确定目标统计指标的工作量,减少了资源的消耗,因此提高了分析数据的速度,从而提高了数据分析的实时性,提高了用户的使用感。
图4为本申请实施例提供的一种根据对应关系确定与目标数据名称对应的目标统计指标的流程图。如图4所示,在上述实施例的基础上,S12包括:
S30:判断数据名称是否与预设方案存在对应关系,如果是,则进入S31,如果否,则进入S32。
需要说明的是,预设方案中包含了与数据名称对应的统计指标,其中同意数据名称可以对应多种预设方案,即以数据名称是年龄为例,与年龄对应的预设方案可以是一个也可以是多个,若预设方案为一个,则预设方案包括总数量、最大值、最小值及众数,若预设方案为多个,则预设方案为由总数量、最大值、最小值及众数排列组合形成的多个预设方案。
S31:根据各数据名称与各预设方案的对应关系,确定目标数据名称对应的目标预设方案。
本申请实施例中,可以直接根据各数据名称与各预设方案的对应关系确定目标预设方案,也可以在根据各数据类型与各预设方案的对应关系确定对应的预设方案合集后,根据各数据名称与预设方案合集中的各预设方案的对应关系确定目标预设方案,其中预设方案合集为数据名称的数据类型对应的预设方案合集。
S32:选取通用预设方案。
可以理解的是,可以从目标数据名称的目标数据类型对应的预设方案合集中选取通用预设方案,也可以直接选取通用方案,其中前者是不同的数据类型使用不同的通用预设方案,后者则是不同的数据类型公用同一种通用预设方案。
因此,在S31和S32的基础上,S13具体为根据目标预设方案或通用预设方案,计算目标数据的指标值。
在存在对应关系的情况下,根据目标预设方案计算目标数据的指标值,在不存在对应关系的情况下,根据通用预设方案计算目标的指标值,因此即使不存在对应关系的数据也能够检测数据的质量。
本申请实施例所提供的数据质量测量方法,由于预先设置了通用预设方案,因此当各数据名称与各预设方案不存在对应关系时,能够通过通用预设方案计算该数据名称对应的数据的质量检测结果,因此进一步数据质量测量结果的可靠性。
在上述实施例的基础上,还包括:在指标值不符合预设要求的情况下,发送告警信号。
可以理解的是,告警信号可以通过邮件的形式向相关负责人进行告警,还可以通过可视化界面实时显示不符合预设要求的数据名称、统计指标进行告警。
进一步的,作为优选的实施例,可以将不符合预设要求的数据名称、数据烈性、统计指标、指标值以及预设期限内的数据打包成逗号分隔值(Comma-Separated Values,CSV)格式文档,发送至相关负责人邮件或是在可视化界面中显示。此外,还可以将不符合预设要求的统计指标的预警标识设置为1,符合预设要求的统计指标的预警标识设置为0,并将数据名称、数据类型、日期、数据名称对应的统计指标、数据对应的指标值、预设要求以及预警标志数据集,传输至Hadoop作为历史数据以数据表的进行存储。需要说明的是,在具体实施中,预设期限可选取距离当前15天。
本申请实施例中,预设要求可以是根据预设周期内各所述数据的指标值所确定的预警范围,还可以是各所述统计指标的固定预警范围。
在预设要求是各所述统计指标的固定预警范围的情况下,通过专家根据每个统计指标的含义、数据类型和指标历史值设置不同的预警阈值,其中针对不同的统计指标,预警阈值分为单预警阈值和双预警阈值。总数量、最大单一值、最大值、最小值、中位数、众数和平均数的波动越小数据的质量越好,则总数量、最大单一值、最大值、最小值、中位数、众数和平均数采用双预警阈值,当指标值高于双预警阈值中的较大值或低于双预警阈值中的较小值,均会发送告警信号;缺失值的数值越高数据的质量越好,则缺失值采用单预警阈值,当缺失值的指标值低于单预警阈值,发送告警信号;0值的统计结果越低数据的质量越好,则0值采用单预警阈值,当0值的指标值高于单预警阈值,发送告警信号。
在预设要求是根据预设周期内各所述数据的指标值所确定的预警范围的情况下,判断目标统计指标是否为单预警阈值的统计指标,如果目标统计指标是单预警阈值的统计指标,则计算预设周期内该统计指标的指标均值与50%的乘积作为单预警阈值,如果数据存储量少于预设周期,则直接按照当前该统计指标的指标值与50%的乘积作为单预警阈值。如果目标统计指标不是单预警阈值的统计指标,则计算预设周期内该统计指标的指标均值与50%的乘积作为双预警阈值的较小值,计算预设周期内该统计指标的指标均值与150%的乘积作为双预警阈值的较大值,如果数据存储量少于预设周期,则直接按照当前该统计指标的指标值与50%的乘积作为双预警阈值的较小值,直接按照当前该统计指标的指标值与150%的乘积作为双预警阈值的较大值。需要说明的是,预设周期不做的限制,在具体实施中,可选取距离当前10天作为预设周期。
本申请实施例所提供的数据质量测量方法,由于分别给目标数据对应的各统计指标均设置了不同的预设要求,因此能够分别对不满足预设要求的统计指标进行告警,因此能够实时监控数据的质量,及时发现质量差的数据,提高了发现数据质量问题的速度,同时进一步提高了用户的使用感。
在上述实施例中,对于数据质量测量方法进行了详细描述,本申请还提供数据质量测量装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图5为本申请实施例提供的一种数据质量测量装置的结构示意图。如图5所示,基于功能模块的角度,该装置包括:
存储模块10,用于预先存储各数据名称与各统计指标的对应关系。
识别模块11,用于识别待测量数据的数据名称。
第一确定模块12,用于根据对应关系,确定与目标数据名称对应的目标统计指标。
第一计算模块13,用于根据目标统计指标计算目标数据的指标值。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
作为优选的实施例,还包括:
读取模块,用于读取待测量数据的数据类型。
分类模块,用于根据数据名称对数据类型进行校正后,将各数据按数据类型分类。
第二确定模块,用于根据各数据类型与各统计指标的对应关系,确定对应的统计指标库。
第一确定模块12包括:
第三确定模块,用于根据各数据名称与统计指标库中的各统计指标的对应关系,确定目标统计指标;其中,统计指标库为数据名称所在的数据类型对应的统计指标库。
第一确定模块12还包括:
第四确定模块,用于在各数据名称与各预设方案存在对应关系的情况下,确定目标数据名称对应的目标预设方案;其中,预设方案中包含了与数据名称对应的统计指标。
选取模块,用于在各数据名称与各预设方案不存在对应关系的情况下,选取通用预设方案。
第一计算模块13包括:
第二计算模块,用于根据目标预设方案或通用预设方案,计算目标数据的指标值。
还包括:
告警模块,用于在指标值不符合预设要求的情况下,发送告警信号。
本申请实施例所提供的数据质量测量装置,预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。
图6为本申请实施例提供的另一种数据质量测量装置的结构示意图。如图6所示,基于硬件结构的角度,该装置包括:
存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例中数据质量测量方法的步骤。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的数据质量测量方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于数据质量测量方法中涉及的数据等。
在一些实施例中,数据质量测量装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图6中示出的结构并不构成对数据质量测量装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的数据质量测量装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的计算机可读存储介质,该介质上存储有计算机程序,计算机程序被处理器执行时,能够实现如下方法:预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。
以上对本申请所提供的一种数据质量测量方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种数据质量测量方法,其特征在于,包括:
预先存储各数据名称与各统计指标的对应关系;
识别待测量数据的数据名称;
根据所述对应关系确定与目标数据名称对应的目标统计指标;
根据所述目标统计指标计算所述目标数据的指标值。
2.根据权利要求1所述的数据质量测量方法,其特征在于,所述识别待测量数据的数据名称后,还包括:
读取所述待测量数据的数据类型;
根据所述数据名称对所述数据类型进行校正后,将各所述数据按所述数据类型分类;
根据各所述数据类型与各所述统计指标的对应关系,确定对应的统计指标库;
所述根据所述对应关系确定与目标数据名称对应的目标统计指标包括:
根据各所述数据名称与所述统计指标库中的各统计指标的对应关系,确定所述目标统计指标;其中,所述统计指标库为所述数据名称所在的所述数据类型对应的统计指标库。
3.根据权利要求1所述的数据质量测量方法,其特征在于,所述根据所述对应关系确定与目标数据名称对应的目标统计指标具体为:
在各所述数据名称与各预设方案存在对应关系的情况下,确定目标数据名称对应的目标预设方案;其中,所述预设方案中包含了与所述数据名称对应的统计指标;
在各所述数据名称与各预设方案不存在对应关系的情况下,选取通用预设方案。
4.根据权利要求3所述的数据质量测量方法,其特征在于,根据所述目标统计指标计算所述目标数据的所述指标值具体为:
根据所述目标预设方案或所述通用预设方案,计算所述目标数据的所述指标值。
5.根据权利要求1所述的数据质量测量方法,其特征在于,还包括:
在所述指标值不符合预设要求的情况下,发送告警信号。
6.根据权利要求5所述的数据质量测量方法,其特征在于,所述预设要求包括:根据预设周期内各所述数据的指标值所确定的预警范围。
7.根据权利要求5所述的数据质量测量方法,其特征在于,所述预设要求包括:各所述统计指标的固定预警范围。
8.一种数据质量测量装置,其特征在于,包括:
存储模块,用于预先存储各数据名称与各统计指标的对应关系;
识别模块,用于识别待测量数据的数据名称;
第一确定模块,用于根据所述对应关系,确定与目标数据名称对应的目标统计指标;
第一计算模块,用于根据所述目标统计指标计算所述目标数据的指标值。
9.一种数据质量测量装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据质量测量方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据质量测量方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374281.9A CN112506901A (zh) | 2020-11-30 | 2020-11-30 | 一种数据质量测量方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374281.9A CN112506901A (zh) | 2020-11-30 | 2020-11-30 | 一种数据质量测量方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112506901A true CN112506901A (zh) | 2021-03-16 |
Family
ID=74968699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011374281.9A Pending CN112506901A (zh) | 2020-11-30 | 2020-11-30 | 一种数据质量测量方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506901A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028481A (zh) * | 2023-03-30 | 2023-04-28 | 紫金诚征信有限公司 | 一种数据质量检测方法、装置、设备和存储介质 |
CN117954113A (zh) * | 2024-03-26 | 2024-04-30 | 北京大学 | 基于弹性先验和相称先验原理的信息借用方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309125A (zh) * | 2019-06-24 | 2019-10-08 | 招商局金融科技有限公司 | 数据校验方法、电子装置及存储介质 |
CN110619465A (zh) * | 2019-09-16 | 2019-12-27 | 上海移远通信科技有限公司 | 数据存储、查询方法、系统、电子设备和存储介质 |
CN111858573A (zh) * | 2020-07-28 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 智能设备的性能指标展示方法及装置 |
CN111930794A (zh) * | 2020-06-30 | 2020-11-13 | 中经网数据有限公司 | 统计指标编码规范化管理系统及方法 |
-
2020
- 2020-11-30 CN CN202011374281.9A patent/CN112506901A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309125A (zh) * | 2019-06-24 | 2019-10-08 | 招商局金融科技有限公司 | 数据校验方法、电子装置及存储介质 |
CN110619465A (zh) * | 2019-09-16 | 2019-12-27 | 上海移远通信科技有限公司 | 数据存储、查询方法、系统、电子设备和存储介质 |
CN111930794A (zh) * | 2020-06-30 | 2020-11-13 | 中经网数据有限公司 | 统计指标编码规范化管理系统及方法 |
CN111858573A (zh) * | 2020-07-28 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 智能设备的性能指标展示方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028481A (zh) * | 2023-03-30 | 2023-04-28 | 紫金诚征信有限公司 | 一种数据质量检测方法、装置、设备和存储介质 |
CN117954113A (zh) * | 2024-03-26 | 2024-04-30 | 北京大学 | 基于弹性先验和相称先验原理的信息借用方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446210B (zh) | 系统性能的度量方法、存储介质和服务器 | |
US8676818B2 (en) | Dynamic storage and retrieval of process graphs representative of business processes and extraction of formal process models therefrom | |
US9779406B2 (en) | User feature identification method and apparatus | |
CN110471821B (zh) | 异常变更检测方法、服务器及计算机可读存储介质 | |
US10282360B2 (en) | Uniform chart formatting based on semantics in data models | |
CN108761568B (zh) | 环境监控方法、装置、系统及服务器 | |
CN112506901A (zh) | 一种数据质量测量方法、装置及介质 | |
CN117057720B (zh) | 一种基于互联网的商品存储管理系统 | |
CN114978877B (zh) | 一种异常处理方法、装置、电子设备及计算机可读介质 | |
CN113391256B (zh) | 一种现场作业终端的电能表计量故障分析方法及系统 | |
CN110889597A (zh) | 业务时序指标异常检测方法及装置 | |
CN102523286B (zh) | 服务信誉度获取方法及装置 | |
CN113837799A (zh) | 一种智能商业选址方法、系统、设备及可读存储介质 | |
CN109784634A (zh) | 服务区域划分方法、电子装置及可读存储介质 | |
CN113347042A (zh) | 基于数字化和人工智能的数据安全防护方法及服务器 | |
CN116471174A (zh) | 一种日志数据监测系统、方法、装置和存储介质 | |
CN116070934A (zh) | 指标故障原因的确定方法和装置 | |
CN115168154A (zh) | 一种基于动态基线的异常日志检测方法、装置及设备 | |
CN115168509A (zh) | 风控数据的处理方法及装置、存储介质、计算机设备 | |
CN114661562A (zh) | 一种数据告警方法、装置、设备及介质 | |
CN114331688A (zh) | 一种银行柜面系统业务批量运行状态检测方法及装置 | |
CN110688273B (zh) | 分类模型的监控方法、装置、终端以及计算机存储介质 | |
CN113656452A (zh) | 调用链指标异常的检测方法、装置、电子设备及存储介质 | |
CN111767938A (zh) | 一种异常数据检测方法、装置及电子设备 | |
CN110909298B (zh) | 分数映射创建方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |