CN113779150A - 一种数据质量评估方法及装置 - Google Patents

一种数据质量评估方法及装置 Download PDF

Info

Publication number
CN113779150A
CN113779150A CN202111073709.0A CN202111073709A CN113779150A CN 113779150 A CN113779150 A CN 113779150A CN 202111073709 A CN202111073709 A CN 202111073709A CN 113779150 A CN113779150 A CN 113779150A
Authority
CN
China
Prior art keywords
data
quality
deviation
quality evaluation
synchronized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111073709.0A
Other languages
English (en)
Inventor
林鹏程
胡妍菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202111073709.0A priority Critical patent/CN113779150A/zh
Publication of CN113779150A publication Critical patent/CN113779150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据质量评估方法及装置,利用至少两种不同的抽取规则,从待同步数据中抽取得到数据样本,并对每个抽取规则对应的数据样本进行质量评估得到初始质量评估值。进一步,计算各个数据样本对应的初始质量评估值之间的偏差,如果该偏差在预设偏差范围内,则根据各个数据样本对应的初始质量评估值得到目标质量评估值;若该目标质量评估值在预设评估值范围内,确定待同步数据的待评估字段的数据符合上报质量。该方案在将数据同步至中心数据库之前,对待同步数据进行质量评估,提高了数据资源的数据质量,同时,避免由于数据质量低导致数据分享失败,且避免了同步无效数据。

Description

一种数据质量评估方法及装置
技术领域
本发明属于数据处理技术领域,尤其涉及一种数据质量评估方法及装置。
背景技术
数据资源最大的特点是具有重复利用性和增值性,有效的数据资源能为部门创造巨大的价值,但是,处于隐私及安全方面的考虑,各部门形成了大量数据孤岛,不同部门甚至同一部门内部都很难实现数据共享及开放,难以挖掘数据资源的潜在价值。
为了实现数据共享及开放,各部门可以通过数据共享系统选择性地将数据同布到中心数据库中,各部门的用户可以从中心数据库中读取需要使用的数据。但是,各部门的本地数据库同步到中心数据库的数据无法评估数据质量,导致同步到中心数据库的数据因质量低下,无法二次开发,还可能存在无效数据浪费中心数据库的存储空间。
发明内容
有鉴于此,本发明的目的在于提供一种数据质量评估方法及装置,以解决上述技术问题,其技术方案如下:
第一方面,本申请提供了一种数据质量评估方法,应用于数据共享系统中的上级目录子系统,所述方法包括:
对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从所述目标数据库表存储的待同步数据中抽取待评估字段对应的数据样本;
对于任一所述待评估字段,根据预先获得的与所述待评估字段相匹配的质量评估规则,对基于每个所述数据样本进行数据质量评估,得到所述数据样本对应的初始质量评估值;
对于任一所述待评估字段,计算各个所述数据样本对应的初始质量评估值之间的偏差;
若所述偏差在预设偏差范围内,根据所述待评估字段对应的各个所述数据样本的初始质量评估值,获得所述待评估字段对应的目标质量评估值。
在第一方面一种可能的实现方式中,所述若所述偏差在预设偏差范围内,根据所述待评估字段对应的各个所述数据样本的初始质量评估值获得所述待评估字段对应的目标质量评估值,包括:
若所述偏差在预设偏差范围内,计算各个所述数据样本对应的初始质量评估值的平均值,得到所述待评估字段对应的目标质量评估值。
在第一方面另一种可能的实现方式中,所述方法还包括:
若所述偏差超出所述预设偏差范围,根据所述偏差动态调整所述抽取规则,并基于调整后的抽取规则返回执行所述对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从目标数据库表中存储的待同步数据中抽取待评估字段对应的数据样本的步骤,直到达到终止条件结束迭代评估,所述终止条件包括迭代次数达到终止次数。
在第一方面又一种可能的实现方式中,所述若所述偏差超出所述预设偏差范围,根据所述偏差动态调整抽取规则,包括:
若所述偏差超出所述预设偏差范围,将所述抽样规则的抽样比例增大预设比例。
在第一方面再一种可能的实现方式中,所述预设比例与所述偏差正相关。
在第一方面另一种可能的实现方式中,所述计算各个所述数据样本对应的初始质量评估值之间的偏差,包括:
计算任意两个所述数据样本对应的初始质量评估值之间的初始偏差;
确定各个所述初始偏差中的最大值为各个所述数据样本对应的初始质量评估值之间的偏差。
在第一方面又一种可能的实现方式中,所述方法还包括:
若所述目标质量评估值在预设评估值范围内,确定所述待同步数据中所述待评估字段的数据符合上报质量;
若所述目标质量评估值超出所述预设评估值范围,触发所述下级目录子系统对所述待同步数据中所述待评估字段的数据进行清洗,并由所述上级目录子系统对清洗后的数据重新进行质量评估。
在第一方面再一种可能的实现方式中,所述方法还包括:
当根据所述待同步数据包含的各个待评估字段对应的目标质量评估值及预设评估值范围,确定所述待同步数据的整体质量评估结果符合上报质量时,将所述待同步数据上报至所述上级目录系统对应的中心数据库。
在第一方面另一种可能的实现方式中,根据所述待同步数据包含的各个待评估字段对应的目标质量评估值及预设评估值范围,确定所述待同步数据的整体质量评估结果是否符合上报质量的过程,包括:
判断所述待同步数据包含的各个待评估字段对应的目标质量评估值是否均处于所述预设评估值范围内;
如果每个待评估字段对应的目标质量评估值均处于所述预设评估值范围内,确定所述待同步数据的整体质量评估结果符合上报质量;
如果至少一个待评估字段对应的目标质量评估值不在所述预设评估范围内,确定所述待同步数据的整体质量评估结果不符合上报质量。
第二方面,本申请还提供了一种数据质量评估装置,应用于数据共享系统中的上级目录子系统,所述装置包括:
数据抽取模块,用于对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从所述目标数据库表存储的待同步数据中抽取待评估字段对应的数据样本;
质量评估模块,用于对于任一所述待评估字段,根据预先获得的与所述待评估字段相匹配的质量评估规则,对基于每个所述数据样本进行数据质量评估,得到所述数据样本对应的初始质量评估值;
偏差计算模块,用于对于任一所述待评估字段,计算各个所述数据样本对应的初始质量评估值之间的偏差;
质量评估结果确定模块,用于当所述偏差在预设偏差范围内,根据所述待评估字段对应的各个所述数据样本对应的初始质量评估值,获得所述待评估字段对应的目标质量评估值。
第三方面,本申请还提供了一种电子设备,包括:存储器和处理器;
所述存储器中存储有可在所述处理器上运行的程序;
所述处理器执行所述程序时使得所述电子设备执行如第一方面或第一方面任一种可能的实现方式所述的数据质量评估方法。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有指令,当所述指令在电子设备上运行时,使得电子设备执行如第一方面或第一方面任一种可能的实现方式所述的数据质量评估方法。
本申请提供的数据质量评估方法,利用至少两种不同的抽取规则,从待同步数据中抽取得到数据样本,并对每个抽取规则对应的数据样本进行质量评估得到初始质量评估值。进一步,计算各份数据样本对应的初始质量评估值之间的偏差,如果该偏差在预设偏差范围内,则根据各个数据样本对应的初始质量评估值得到目标质量评估值;若该目标质量评估值在预设评估值范围内,确定待同步数据的待评估字段的数据符合上报质量。该方案在将数据同步至中心数据库之前,对待同步数据进行质量评估,提高了数据资源的数据质量,同时,避免由于数据质量低导致数据分享失败,且避免了同步无效数据。进一步地,该方案基于至少两种不同的抽取规则分别从同一数据库表中抽取得到多份数据样本,确保数据样本的覆盖度较大,即抽样得到的数据样本准确率较高。进一步,综合考虑各份数据样本的质量评估值得到待同步数据的最终质量评估结果,综上,该方案无需对全量待同步数据进行质量评估,同时提高了待同步数据的质量评估结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据共享系统的结构示意图;
图2是本申请实施例提供的一种数据质量评估方法的流程图;
图3是本申请实施例提供的另一种数据质量评估方法的流程图;
图4是本申请实施例提供的一种数据质量评估装置的框图;
图5是本申请实施例提供的另一种数据质量评估装置的框图。
具体实施方式
为了不同部门之间的数据共享及开放,现有技术提供了一种数据共享系统,以数据目录的形式为数据提供展示窗口,同时支持不同部门之间数据的共享,使数据在不同的部门之间流通。在数据共享系统中,每个部门都设置有自己私有的数据目录,可以有选择地将可公开的数据发布到上级目录挂接的中心数据库中。其他部门的用户可以对感兴趣的数据发起使用申请,申请通过后可以通过数据共享系统读取数据,即实现了数据共享。
本申请的发明人对现有技术进行深入研究发现:传统的数据共享系统采用的数据质量评估方案是:对全量的待同步数据抽取到中心数据库进行质量评估,如果待同步数据的数据量较大,增加了评估延时,而且,当评估出数据质量不符合要求时,还需要清除此类数据,浪费网络带宽和存储资源。
为了解决上述技术问题,本申请提供了一种数据质量评估方法,该方法利用至少两种不同的抽取规则,从待同步数据中抽取得到数据样本,并对每个抽取规则对应的数据样本进行质量评估得到初始质量评估值。进一步,计算各个数据样本对应的初始质量评估值之间的偏差,如果该偏差在预设偏差范围内,则根据各个数据样本对应的初始质量评估值得到目标质量评估值;若该目标质量评估值在预设评估值范围内,确定待同步数据的待评估字段的数据符合上报质量。该方案提高了数据样本的准确率,而且,根据多份书记样本的质量评估值得到最终的质量评估结果,可见,该方案无需对全量待同步数据进行质量评估,同时提高了待同步数据的质量评估结果的准确度。
请参见图1,示出了本申请实施例提供的一种数据共享系统的结构示意图,该数据共享系统以数据目录的形式为数据提供展示窗口,每个部门都有自己私有的数据目录,即目录子系统,每个目录子系统挂接相应的数据库。
如图1所示,该数据共享系统包括至少两级目录子系统,以两级目录子系统为例进行说明,包括一级目录子系统和一个或多个二级目录子系统,其中,一级目录子系统的层级高于二级目录子系统。一级目录子系统挂接中心数据库,每个二级目录子系统挂接本地数据库。
二级目录子系统的用户可以有选择地将可公开的数据同步到上级目录子系统挂接的中心数据库中。其他部门的用户可以对感兴趣的数据发起使用申请,申请通过后可以通过数据共享系统读取数据,即实现了数据共享。
当然,在其他实施例中,数据共享系统可以包括多个层架的目录子系统,例如,三级目录子系统、四级目录子系统等,二级、三级、四级目录子系统均属于下级目录子系统,下级目录子系统可以将数据同步到一级目录子系统的中心数据库中,数据共享系统中的其他用户可以从中心数据库中申请读取数据。
下面将结合图2介绍本申请提供的数据质量评估过程,如图2所示,该数据质量评估方法可以包括以下步骤:
S110,对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从目标数据库表存储的待同步数据中抽取待评估字段对应的数据样本。
所述目标数据库表存储有需要同步至中心库的待同步数据,且该目标数据库表设置在下级目录子系统对应的本地数据库中。
下级目录子系统可以申请向上级目录子系统挂接的中心数据库中同步数据,上级目录子系统接收到下级目录子系统的数据同步请求后,对下级目录子系统需要同步的数据(即,待同步数据)进行质量评估。
上级目录子系统先评估待同步数据的数据规模(即,待同步数据的数据量大小),如果数据量大于等于预设数据量阈值,确定需要进行抽样评估;如果数据量小于预设数据量阈值,则可以直接对全量的待同步数据进行评估,即,将全部待同步数据全部上传至中心数据库进行质量评估。
需要说明的是,本文中的待同步数据是指包含多条数据的集合,而不是一条数据。而且,一条数据包括多个字段。
如果数据量大于预设数据量阈值,表明待同步数据规模较大,如果对待同步数据进行全量评估,则需要将全量数据上报至中心数据库,需要的带宽资源和存储资源较多,同时,评估耗时长。因此,可以从全量数据中抽样部分数据进行评估。
其中,预设数据量阈值可以根据实际需求进行设定,例如,预设数据量阈值为1万行,若待同步数据包括10万行数据,则需要从这10万行数据中抽样部分数据进行质量评估。
在本申请的一个实施例中,根据待同步数据的数据量确定抽样比例,以确保抽取的数据样本达到待同步数据总数据量的一定比例,例如,待同步数据包括100万行数据,需确保抽取的数据样本超过1万行,需要采用1%的抽样比例。
为了确保抽样数据的覆盖度较大,本申请实施例中采用多个不同抽取规则从同一份待同步数据中抽样得到多份数据样本。
例如,采用三种不同的抽取规则抽取数据样本,三次抽样均采用等间隔行数抽样,例如,第一次抽取行号除以100取余数为1的行号,即第1行、第101行、第201行……;第二次抽取与第一次抽样间隔最远的行数,如第51行、第151行、第251行……;第三次按某些数据块中的数据,如行号在某个区间的数据,最终得到三份抽样数据。
S120,对于任一待评估字段,根据预先获得的与待评估字段相匹配的质量评估规则,对基于每个数据样本进行数据质量评估,得到所述数据样本对应的初始质量评估值。
在本申请的一个实施例中,下级目录子系统发送数据同步请求后,向上级目录子系统上报目标数据库表的库表信息,该库表信息包括目标数据库表的库表结构(例如,库表中包括身份证、手机号、日期、时间等字段)及库表中各字段的字段信息(包括字段描述信息)。
上级目录子系统接收到库表信息后,从库表包含的各个字段中确定出重要的字段作为待评估字段,并从目标数据库表中抽取待评估字段的数据内容。进一步,上级目录子系统根据待评估字段的字段描述信息,从预先创建的质量评估规则中确定出待评估字段对应的质量评估规则。
上级目录子系统预先录入各数据库表中各字段的数据元,如身份证、手机号、日期、时间、性别等,并创建各字段对应的质量评估规则。
数据元是用一组属性描述其定义标识、表示和允许值的数据单元。
质量评估规则是根据字段的数据元获得的该字段的数据应该符合的字符组合规则,例如,对身份证字段的数据进行质量评估是校验身份证字段的数据是否符合身份证号的规则。
在一种可能的实现方式中,质量评估值是一个分数值,该分数值根据待评估字段对应的数据中符合该字段对应的质量评估规则的比例得到,例如,若某待评估字段对应的数据中60%的数据符合该待评估字段对应的质量评估规则,则确定该字段的质量评估值为60分。
一条数据通常包括多个字段,相应的待评估字段也可能包括多个,此种情况下,逐个字段进行质量评估。
针对上一步骤抽样得到的每一份数据样本,根据同一质量评估规则进行质量评估,例如,对于身份证字段,分别抽取三份数据样本至中心数据库,利用身份证字段对应的质量评估规则分别对三份数据样本进行质量评估,得到三个质量评估值,即初始质量评估值。
S130,对于任一待评估字段,计算各个数据样本对应的初始质量评估值之间的偏差。
在本申请的一个实施例中,计算每两份数据样本对应的初始质量评估值之间的差值,例如,三份数据样本对应的初始质量评估值中两两之间的差值,并取最大的差值作为三个初始质量评估值的偏差。例如,三份数据样本对应的初始质量评估值分别为A、B、C,A与B的偏差为10%,B与C的偏差为4%,A与C的偏差为10%,则最终的偏差为10%。
S140,判断该偏差是否在预设偏差范围内;若偏差在预设偏差范围内,执行S150;若该偏差超出预设偏差范围,则执行S160。
预设偏差范围可以根据实际需求设定,例如,0~10%。例如,多份数据样本的初始质量评估值之间的偏差为5%,则该偏差在预设偏差范围内。若偏差为15%,确定该偏差超出了预设偏差范围,表明多次抽样。
S150,根据各个数据样本对应的初始质量评估值获得待评估字段对应的目标质量评估值。
如果偏差在预设偏差范围内,表明多次抽样的准确率较高,此种情况下,可以取各个初始质量评估值的平均值作为待同步数据最终的质量评估值,即目标质量评估值。例如,三份数据样本对应的初始质量评估值分别为70、80和85,则这三个初始质量评估值的平均值为78.3。
S160,根据偏差动态调整抽取规则,并基于调整后的抽取规则返回执行S110,直到达到终止条件结束迭代评估,所述终止条件包括迭代次数达到终止次数。
如果多份数据样本对应的初始质量评估值之间的偏差超出了预设偏差范围,表明多次抽样的准确率较低,此种情况下,可以调整抽取规则重新对待同步数据进行抽取评估,例如,增大抽样比例。
在一个实施例中,按照预设步长增大抽样比例,如预设步长为1%,例如,抽取规则的初始抽样比例为1%,增加1%,则调整后的抽样比例为2%。
在另一个实施例中,可以设定不同偏差与不同抽样比例之间的映射关系,偏差越大则增加的抽样比例也越大,即偏差与增加的抽样比例正相关,例如,偏差为15%,增加的抽样比例为1%;偏差为20%,增加的抽样比例为2%。
增大抽样比例后,重新从待同步数据中抽取数据样本进行质量评估,通过逐步提高抽样比例,提高数据样本的覆盖度,进而提高数据评估结果的准确率。
如果迭代评估数次(小于终止次数)后,偏差在预设偏差范围内,则根据本次评估结果计算得到待同步数据的目标质量评估值。
如果直到迭代次数达到终止次数,偏差仍超出了预设偏差范围,则停止迭代评估,此种情况下,直接确定待同步数据不符合上报质量。
本实施例提供的数据质量评估方法,利用至少两种不同的抽取规则,从待同步数据中抽取得到数据样本,并对每份数据样本进行质量评估得到初始质量评估值。进一步,计算各个数据样本对应的初始质量评估值之间的偏差,如果该偏差在预设偏差范围内,则根据各个数据样本对应的初始质量评估值得到目标质量评估值;若该目标质量评估值在预设评估值范围内,确定待同步数据中待评估字段的数据符合上报质量。该方案基于至少两种不同的抽取规则分别从同一数据库表中抽取得到多份数据样本,确保数据样本的覆盖度较大,即抽样得到的数据样本准确率较高。进一步,综合考虑各份数据样本的质量评估值得到待同步数据的最终质量评估结果,综上,该方案无需对全量待同步数据进行质量评估,同时提高了待同步数据的质量评估结果的准确度。
请参见图3,示出了本申请实施例提供的另一种数据质量评估方法的流程图,该方法在图2所示实施例的基础上还包括以下步骤:
S210,判断待评估字段的数据对应的目标质量评估值是否在预设评估值范围内;如果是,则执行S220;如果否,则执行S230。
预设评估值范围可以根据实际需求设定,例如,质量评估值的最大值为100,则预设评估值可以设置为70。
对于待同步数据的任一待评估字段,如果该待评估字段的数据质量评估值在预设评估值范围内,则确定该待评估字段的数据质量符合上报质量。
S220,确定待评估字段的数据符合上报质量。
S230,确定待评估字段的数据不符合上报质量,触发下级目录子系统对所述待同步数据中待评估字段的数据进行清洗。
如果该待评估字段的数据质量评估值超出了预设评估值范围,确定该待评估字段的数据质量不符合上报质量。进一步,触发下级目录子系统清洗待同步数据。
在一个实施例中,可以按照预先配置的清洗规则,对待同步数据进行清洗,例如,空值过滤、去除空格等。数据中经常出现空值、空格,因此在进行数据处理之前,去除空值和空格是重要环节。
下级目录子系统对待同步数据清洗后,可以继续向上级目录子系统发起同步待同步数据的请求,进而触发上级目录子系统对清洗后的待同步数据进行质量评估。
例如,对于身份证字段,当其质量评估值较低时,触发下级目录子系统对身份证字段的数据进行空值过滤、全角半角转换、去除空格等清洗操作,清洗完成后,对清洗后的身份证字段的数据重新进行质量评估。
在本申请的一个实施例中,可以对清洗后的全量数据重新进行质量评估,例如,对清洗后的身份证字段的全量数据抽取到中心数据库中进行质量评估。当然,在其他实施例中,也可以对清洗后的数据进行抽样评估,此处不再赘述。
S240,判断是否存在未进行质量评估的待评估字段;如果存在,则返回执行S110;如果不存在,则执行S250。
S250,判断待同步数据的整体质量评估结果是否符合上报质量,如果是,则执行S260,如果否,则拒绝该待同步数据进行数据同步。
在本申请的一个实施例中,如果待同步数据中全部待评估字段的数据质量均在预设评估值范围内,表明待同步数据整体符合上报质量。如果待同步数据中存在至少一个待评估字段的质量评估值不在预设评估值范围内,则确定该待同步数据的整体数据质量不符合上报质量,进一步,上级目录子系统还可以直接拒绝将该待同步数据同步至中心数据库中。
例如,当待同数据中的一个待评估字段的数据不符合上报质量,其他字段的数据均符合上报质量,则确定该待同步数据的整体质量不符合上报质量;又如,待同步数据中的多个待评估字段的数据不符合上报质量,则确定该待同步数据的整体质量不符合上报质量。
S260,触发下级目录子系统将待同步数据同步至中心数据库。
如果待同步数据的整体质量符合上报质量,进一步触发下级目录子系统将待同步数据同步至中心数据库。如果待同步数据的整体质量不符合上报质量,不允许向中心数据库同步该待同步数据。
本实施例提供的数据质量评估方法,获得待同步数据的质量评估结果后,如果质量评估结果符合上报质量,则触发下级目录子系统将待同步数据同步至上级目录子系统的中心数据库,以便其他用户读取,最终实现数据共享。如果待同步数据的质量不符合上报质量,则对数据进行清洗后重新进行质量评估。或者,直接拒绝同步该数据。该方案避免向中心数据库上报无效的、质量较低的数据,节省了带宽资源和存储资源。同时,确保同步至中心数据库的数据均是高质量数量,因此,提高了中心数据库中数据资源的质量。
相应于上述的数据质量评估方法实施例,本申请还提供了数据质量评估装置实施例。
请参见图4,示出了本申请实施例提供的一种数据质量评估装置的结构示意图,该装置应用于数据共享系统中的上级目录子系统,如图4所示,该装置可以包括:
数据抽取模块110,用于对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从目标数据库表存储的待同步数据中抽取待评估字段对应的数据样本。
所述目标数据库表存储有待同步数据。
质量评估模块120,用于对于任一待评估字段,根据预先获得的与所述待评估字段相匹配的质量评估规则,对基于每个所述抽取规则抽取得到的数据样本进行数据质量评估,得到所述数据样本对应的初始质量评估值。
偏差计算模块130,用于对于任一待评估字段,计算各个数据样本对应的初始质量评估值之间的偏差。
在一种可能的实现方式中,该偏差计算模块具体用于:计算任意两个所述数据样本对应的初始质量评估值之间的初始偏差;确定各个初始偏差中的最大值为所述各个数据样本对应的初始质量评估值之间的偏差。
质量评估结果确定模块140,用于当所述偏差在预设偏差范围内,根据待评估字段对应的各个数据样本对应的初始质量评估值,获得待评估字段对应的目标质量评估值。
在本申请的一个实施例中,质量评估结果确定模块140具体用于,若所述偏差在预设偏差范围内,计算各个所述数据样本对应的初始质量评估值的平均值,得到所述待评估字段对应的目标质量评估值。
本实施例提供的数据质量评估装置,利用至少两种不同的抽取规则,从待同步数据中抽取得到数据样本,并对每个抽取规则对应的数据样本进行质量评估得到初始质量评估值。进一步,计算各个数据样本对应的初始质量评估值之间的偏差,如果该偏差在预设偏差范围内,则根据各个数据样本对应的初始质量评估值得到目标质量评估值;若该目标质量评估值在预设评估值范围内,确定待同步数据的待评估字段的数据符合上报质量。该方案在将数据同步至中心数据库之前,对待同步数据进行质量评估,提高了数据资源的数据质量,同时,避免由于数据质量低导致数据分享失败,且避免了同步无效数据。
请参见图5,示出了本申请实施例提供的另一种数据质量评估装置的结构示意图,该装置在图4所示实施例的基础上还包括:
迭代评估模块210,用于当所述偏差超出所述预设偏差范围,根据所述偏差动态调整所述抽取规则,并基于调整后的抽取规则触发数据抽取模块执行对于数据量超过预设数据量阈值的目标数据库表,分别基于至少两种不同的抽取规则,从目标数据库表中抽取待评估字段对应的数据样本的步骤,直到达到终止条件结束迭代评估,所述终止条件包括迭代次数达到终止次数。
在本申请的一个实施例中,若偏差超出预设偏差范围,将抽样规则的抽样比例增大预设比例。
在一种可能的实现方式中,预设比例与所述偏差正相关。
确定模块220,用于当目标质量评估值在预设评估值范围内,确定待同步数据中的待评估字段的数据符合上报质量。
数据同步模块230,用于将待同步数据上报至上级目录系统对应的中心数据库。
清洗触发模块240,用于当目标质量评估值超出预设评估值范围,触发下级目录子系统对所述待同步数据进行清洗,并由所述上级目录子系统对清洗后的数据重新进行质量评估。
本实施例提供的数据质量评估装置,获得待同步数据的质量评估结果后,如果质量评估结果符合上报质量,则触发下级目录子系统将待同步数据同步至上级目录子系统的中心数据库,以便其他用户读取,最终实现数据共享。如果待同步数据的质量不符合上报质量,则对数据进行清洗后重新进行质量评估。或者,直接拒绝同步该数据。该方案避免向中心数据库上报无效的、质量较低的数据,节省了带宽资源和存储资源。同时,确保同步至中心数据库的数据均是高质量数量,因此,提高了中心数据库中数据资源的质量。
另一方面,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述的数据质量评估方法。本文中的电子设备可以是服务器、PC、PAD、手机等。
再一方面,本申请还提供了一种计算机可读取的存储介质,该存储介质中存储有程序,该程序由电子设备执行时实现上述任一种数据质量评估方法。
又一方面,本申请还提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行上述实施例中的任一种数据质量评估方法。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,本说明书中的各个实施例记载的技术特征可以相互替代或组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例中的装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种数据质量评估方法,其特征在于,应用于数据共享系统中的上级目录子系统,所述方法包括:
对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从所述目标数据库表存储的待同步数据中抽取待评估字段对应的数据样本;
对于任一所述待评估字段,根据预先获得的与所述待评估字段相匹配的质量评估规则,对基于每个所述数据样本进行数据质量评估,得到所述数据样本对应的初始质量评估值;
对于任一所述待评估字段,计算各个所述数据样本对应的初始质量评估值之间的偏差;
若所述偏差在预设偏差范围内,根据所述待评估字段对应的各个所述数据样本的初始质量评估值,获得所述待评估字段对应的目标质量评估值。
2.根据权利要求1所述的方法,其特征在于,所述若所述偏差在预设偏差范围内,根据所述待评估字段对应的各个所述数据样本的初始质量评估值获得所述待评估字段对应的目标质量评估值,包括:
若所述偏差在预设偏差范围内,计算各个所述数据样本对应的初始质量评估值的平均值,得到所述待评估字段对应的目标质量评估值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述偏差超出所述预设偏差范围,根据所述偏差动态调整所述抽取规则,并基于调整后的抽取规则返回执行所述对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从目标数据库表中存储的待同步数据中抽取待评估字段对应的数据样本的步骤,直到达到终止条件结束迭代评估,所述终止条件包括迭代次数达到终止次数。
4.根据权利要求3所述的方法,其特征在于,所述若所述偏差超出所述预设偏差范围,根据所述偏差动态调整抽取规则,包括:
若所述偏差超出所述预设偏差范围,将所述抽样规则的抽样比例增大预设比例。
5.根据权利要求4所述的方法,其特征在于,所述预设比例与所述偏差正相关。
6.根据权利要求1述的方法,其特征在于,所述计算各个所述数据样本对应的初始质量评估值之间的偏差,包括:
计算任意两个所述数据样本对应的初始质量评估值之间的初始偏差;
确定各个所述初始偏差中的最大值为各个所述数据样本对应的初始质量评估值之间的偏差。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
若所述目标质量评估值在预设评估值范围内,确定所述待同步数据中所述待评估字段的数据符合上报质量;
若所述目标质量评估值超出所述预设评估值范围,触发所述下级目录子系统对所述待同步数据中所述待评估字段的数据进行清洗,并由所述上级目录子系统对清洗后的数据重新进行质量评估。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
当根据所述待同步数据包含的各个待评估字段对应的目标质量评估值及预设评估值范围,确定所述待同步数据的整体质量评估结果符合上报质量时,将所述待同步数据上报至所述上级目录系统对应的中心数据库。
9.根据权利要求8所述的方法,其特征在于,根据所述待同步数据包含的各个待评估字段对应的目标质量评估值及预设评估值范围,确定所述待同步数据的整体质量评估结果是否符合上报质量的过程,包括:
判断所述待同步数据包含的各个待评估字段对应的目标质量评估值是否均处于所述预设评估值范围内;
如果每个待评估字段对应的目标质量评估值均处于所述预设评估值范围内,确定所述待同步数据的整体质量评估结果符合上报质量;
如果至少一个待评估字段对应的目标质量评估值不在所述预设评估范围内,确定所述待同步数据的整体质量评估结果不符合上报质量。
10.一种数据质量评估装置,其特征在于,应用于数据共享系统中的上级目录子系统,所述装置包括:
数据抽取模块,用于对于数据量超过预设数据量阈值的目标数据库表,基于至少两种不同的抽取规则,分别从所述目标数据库表存储的待同步数据中抽取待评估字段对应的数据样本;
质量评估模块,用于对于任一所述待评估字段,根据预先获得的与所述待评估字段相匹配的质量评估规则,对基于每个所述数据样本进行数据质量评估,得到所述数据样本对应的初始质量评估值;
偏差计算模块,用于对于任一所述待评估字段,计算各个所述数据样本对应的初始质量评估值之间的偏差;
质量评估结果确定模块,用于当所述偏差在预设偏差范围内,根据所述待评估字段对应的各个所述数据样本对应的初始质量评估值,获得所述待评估字段对应的目标质量评估值。
11.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器中存储有可在所述处理器上运行的程序;
所述处理器执行所述程序时使得所述电子设备执行如权利要求1-9任一项所述的数据质量评估方法。
12.一种计算机可读存储介质,其特征在于,其上存储有指令,当所述指令在电子设备上运行时,使得电子设备执行如权利要求1-9任一项所述的数据质量评估方法。
CN202111073709.0A 2021-09-14 2021-09-14 一种数据质量评估方法及装置 Pending CN113779150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111073709.0A CN113779150A (zh) 2021-09-14 2021-09-14 一种数据质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111073709.0A CN113779150A (zh) 2021-09-14 2021-09-14 一种数据质量评估方法及装置

Publications (1)

Publication Number Publication Date
CN113779150A true CN113779150A (zh) 2021-12-10

Family

ID=78843448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111073709.0A Pending CN113779150A (zh) 2021-09-14 2021-09-14 一种数据质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN113779150A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150175A (zh) * 2023-04-18 2023-05-23 云账户技术(天津)有限公司 一种面向异构数据源的数据一致性校验方法及装置

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004893A1 (en) * 2006-06-30 2008-01-03 First American Corelogic, Inc. Method and apparatus for validating an appraisal report and providing an appraisal score
US20100241356A1 (en) * 2009-03-19 2010-09-23 Institute Of Nuclear Energy Research Atomic Energy Council, Executive Yuan Performance assessment system for deep geologic repository for radioactive waste disposal
US20120116788A1 (en) * 2010-11-08 2012-05-10 Bank Of America Corporation Evaluating contract quality
US20150134591A1 (en) * 2013-09-24 2015-05-14 Here Global B.V. Method, apparatus, and computer program product for data quality analysis
CN105844107A (zh) * 2016-03-31 2016-08-10 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106056287A (zh) * 2016-06-03 2016-10-26 华东理工大学 基于上下文对数据集进行数据质量评估的设备及方法
CN106548196A (zh) * 2016-10-20 2017-03-29 中国科学院深圳先进技术研究院 一种针对非平衡数据的随机森林抽样方法及装置
CN106780204A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种用于试题题库的评估方法及装置
CN107392439A (zh) * 2017-06-30 2017-11-24 国网山东省电力公司经济技术研究院 一种电力系统可靠性评估的组合抽样方法
US20180113898A1 (en) * 2016-10-25 2018-04-26 Mastercard International Incorporated Systems and methods for assessing data quality
CN108022046A (zh) * 2017-12-05 2018-05-11 国网江西省电力有限公司景德镇供电分公司 一种电力系统数据质量评估方法、存储介质及设备
CN110210719A (zh) * 2019-05-10 2019-09-06 中国电力科学研究院有限公司 一种电力设备静态数据质量评估方法及系统
CN110309131A (zh) * 2019-04-12 2019-10-08 北京星网锐捷网络技术有限公司 海量结构化数据的质量评估方法及装置
CN110365698A (zh) * 2019-07-29 2019-10-22 杭州数梦工场科技有限公司 风险评估方法与装置
WO2020042795A1 (zh) * 2018-08-31 2020-03-05 阿里巴巴集团控股有限公司 样本属性评估模型训练方法、装置及服务器
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和系统
CN111553550A (zh) * 2019-12-10 2020-08-18 北京理工大学 一种针对用户行为分析的电力大数据数据质量的评估方法
CN111797079A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN112506904A (zh) * 2020-12-02 2021-03-16 深圳市酷开网络科技股份有限公司 数据质量评估方法、装置、终端设备以及存储介质
CN113360270A (zh) * 2021-06-30 2021-09-07 杭州数梦工场科技有限公司 一种数据清洗任务处理方法及装置
CN113380363A (zh) * 2021-06-24 2021-09-10 湖南创星科技股份有限公司 基于人工智能的医疗数据质量评价方法及系统

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004893A1 (en) * 2006-06-30 2008-01-03 First American Corelogic, Inc. Method and apparatus for validating an appraisal report and providing an appraisal score
US20100241356A1 (en) * 2009-03-19 2010-09-23 Institute Of Nuclear Energy Research Atomic Energy Council, Executive Yuan Performance assessment system for deep geologic repository for radioactive waste disposal
US20120116788A1 (en) * 2010-11-08 2012-05-10 Bank Of America Corporation Evaluating contract quality
US20150134591A1 (en) * 2013-09-24 2015-05-14 Here Global B.V. Method, apparatus, and computer program product for data quality analysis
CN105844107A (zh) * 2016-03-31 2016-08-10 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106056287A (zh) * 2016-06-03 2016-10-26 华东理工大学 基于上下文对数据集进行数据质量评估的设备及方法
CN106548196A (zh) * 2016-10-20 2017-03-29 中国科学院深圳先进技术研究院 一种针对非平衡数据的随机森林抽样方法及装置
US20180113898A1 (en) * 2016-10-25 2018-04-26 Mastercard International Incorporated Systems and methods for assessing data quality
CN106780204A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种用于试题题库的评估方法及装置
CN107392439A (zh) * 2017-06-30 2017-11-24 国网山东省电力公司经济技术研究院 一种电力系统可靠性评估的组合抽样方法
CN108022046A (zh) * 2017-12-05 2018-05-11 国网江西省电力有限公司景德镇供电分公司 一种电力系统数据质量评估方法、存储介质及设备
WO2020042795A1 (zh) * 2018-08-31 2020-03-05 阿里巴巴集团控股有限公司 样本属性评估模型训练方法、装置及服务器
CN111797079A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN110309131A (zh) * 2019-04-12 2019-10-08 北京星网锐捷网络技术有限公司 海量结构化数据的质量评估方法及装置
CN110210719A (zh) * 2019-05-10 2019-09-06 中国电力科学研究院有限公司 一种电力设备静态数据质量评估方法及系统
CN110365698A (zh) * 2019-07-29 2019-10-22 杭州数梦工场科技有限公司 风险评估方法与装置
CN111553550A (zh) * 2019-12-10 2020-08-18 北京理工大学 一种针对用户行为分析的电力大数据数据质量的评估方法
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和系统
CN112506904A (zh) * 2020-12-02 2021-03-16 深圳市酷开网络科技股份有限公司 数据质量评估方法、装置、终端设备以及存储介质
CN113380363A (zh) * 2021-06-24 2021-09-10 湖南创星科技股份有限公司 基于人工智能的医疗数据质量评价方法及系统
CN113360270A (zh) * 2021-06-30 2021-09-07 杭州数梦工场科技有限公司 一种数据清洗任务处理方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
伍荣坤: "定期统计报表数据质量组合评估方法初探", 统计研究, no. 01, 7 February 1993 (1993-02-07) *
余伟;李石君;文利娟;田建伟;: "基于数据质量的Deep Web数据源排序", 小型微型计算机系统, no. 04, 15 April 2010 (2010-04-15) *
孙水华, 刘建华, 林志强: "基于数据质量控制的ETL", 《福建工程学院学报》, 30 August 2011 (2011-08-30) *
张弛;: "应用于转化医学基础研究的临床数据整理流程设计", 中国数字医学, no. 06, 15 June 2020 (2020-06-15) *
王睿晗;黄冬梅;王振华;周雪楠;: "一种针对海洋数据的空间抽样方法", 计算机应用与软件, no. 05, 15 May 2015 (2015-05-15) *
郑承满, 石爱华, 刘宏吉: "ETL开发实施中质量保证的关键步骤", 《中国金融电脑》, 15 January 2006 (2006-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150175A (zh) * 2023-04-18 2023-05-23 云账户技术(天津)有限公司 一种面向异构数据源的数据一致性校验方法及装置

Similar Documents

Publication Publication Date Title
Sun et al. Gesundheit! modeling contagion through facebook news feed
Ardon et al. Spatio-temporal and events based analysis of topic popularity in twitter
CN106933724B (zh) 一种分布式信息追踪系统、信息处理方法及装置
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
Park et al. Structural changes in the 2003–2009 global hyperlink network
Markonis et al. Temporal and spatial variability of rainfall over Greece
CN113726783B (zh) 异常ip地址识别方法、装置、电子设备及可读存储介质
CN107292751B (zh) 一种时序网络中节点重要性的挖掘方法和装置
CN110674247A (zh) 弹幕信息的拦截方法、装置、存储介质及设备
CN113779150A (zh) 一种数据质量评估方法及装置
CN102855245A (zh) 一种用于确定图片相似度的方法与设备
WO2022223024A1 (zh) 数据处理方法、装置、设备及存储介质
WO2018033052A1 (zh) 一种评估用户画像数据的方法及系统
CN114780606A (zh) 一种大数据挖掘方法及系统
CN111241402A (zh) 一种信息推送方法、装置、电子设备及可读存储介质
CN109040346B (zh) 一种泛域名解析中有效域名的筛选方法、装置及设备
CN103595747A (zh) 用户信息推荐方法和系统
CN114880522A (zh) 基于图数据库实现ID Mapping的方法及装置
CN112307297B (zh) 一种基于优先级规则的用户标识统一方法及系统
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
CN105589683B (zh) 样本抽取方法和装置
CN110765158A (zh) 分页查询方法、系统和装置
CN111125183A (zh) 一种雾环境下基于CFI-Apriori算法的元组度量方法及系统
CN111125193B (zh) 多媒体非正常评论的识别方法、装置、设备及存储介质
CN116737764A (zh) 数据同步的方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination