CN112506904B - 数据质量评估方法、装置、终端设备以及存储介质 - Google Patents

数据质量评估方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN112506904B
CN112506904B CN202011391981.9A CN202011391981A CN112506904B CN 112506904 B CN112506904 B CN 112506904B CN 202011391981 A CN202011391981 A CN 202011391981A CN 112506904 B CN112506904 B CN 112506904B
Authority
CN
China
Prior art keywords
score
data
evaluated
weight
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011391981.9A
Other languages
English (en)
Other versions
CN112506904A (zh
Inventor
余辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN202011391981.9A priority Critical patent/CN112506904B/zh
Publication of CN112506904A publication Critical patent/CN112506904A/zh
Application granted granted Critical
Publication of CN112506904B publication Critical patent/CN112506904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种数据质量评估方法,所述方法包括以下步骤:获取预设项目的待评估数据;基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;基于所述评估结果,确定所述待评估数据的有效性。本发明还公开了一种数据质量评估装置、终端设备以及计算机可读存储介质。通过本申请的数据质量评估方法,可以确定数据是否有效。

Description

数据质量评估方法、装置、终端设备以及存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据质量评估方法、装置、终端设备以及计算机可读存储介质。
背景技术
随着科技的进步,人类走进大数据时代,时时刻刻都会有大量的数据产生,并需要传输、处理和存储等,通常,不同的数据存储在数据仓库中的不同主题中。
目前,由于数据仓库中的数据来源不同,数据的ETL(抽取extract、转换transform和加载load)处理规则也不同,导致用户选择目标数据后,无法确定选择的目标数据是否有效。
发明内容
本发明的主要目的是提供一种数据质量评估方法、装置、终端设备以及计算机可读存储介质,旨在解决现有技术中用户选择目标数据后,无法确定选择的目标数据是否有效的技术问题。
为实现上述目的,本发明提出一种数据质量评估方法,其特征在于,所述方法包括以下步骤:
获取预设项目的待评估数据;
基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;
利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;
基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;
基于所述评估结果,确定所述待评估数据的有效性。
可选的,基于所述待评估数据的存储方式,确定所述待评估数据的评估级别的步骤包括:
在所述待评估数据的存储方式为多表存储时,将所述待评估数据的评估级别确定为表粒度评估,或,
在所述待评估数据的存储方式为单表存储时,将所述待评估数据的评估级别确定为字段粒度评估。
可选的,所述利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值的步骤包括:
基于所述评估级别,确定所述待评估数据的待评估对象;
利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值;
利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值;
利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值。
可选的,所述利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值的步骤包括:
获取所述待评估对象的数据的预设阈值;
计算所述待评估对象的数据值与所述预设阈值的数据差值;
基于所述数据差值与所述预设阈值的比值,获得所述波动性分值;
确定所述待评估对象中满足预设规范的规范数据的数量;
基于所述规范数据的数量与所述待评估对象的数据总量的比值,获得所述规范度分值;
获取所述波动性分值的波动性权重和所述规范度分值的规范度权重;
基于所述波动性分值、所述规范度分值、所述波动性权重和所述规范度权重,利用公式一,获得所述有效性分值;
所述公式一为:
其中,Z1为所述波动性分值,Wz1为所述波动性权重,Z2为所述规范度分值,Wz1为所述规范度权重,Z为所述有效性分值。
可选的,所述利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值的步骤包括:
确定所述待评估对象中非空数据的数量和空数据的数量;
基于所述非空数据的数量与所述待评估对象的数据总量的比值,获得所述非空率;
基于所述空数据的数量与所述待评估对象的数据总量的比值,获得所述缺失率;
获取所述非空率的非空权重和所述缺失率的缺失权重;
基于所述非空率、所述缺失率、所述非空权重和所述缺失权重,利用公式二,获得所述完整性分值;
所述公式二为:
其中,C1为所述非空率,Wc1为所述非空权重,C2为所述缺失率,Wc2为所述缺失权重,C为所述完整性分值。
可选的,所述利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值的步骤包括:
确定上一次获取所述待评估对象对应的历史数据的历史获取时间;
确定所述待评估对象的获取时间与历史获取时间的时间间隔;
基于所述时间间隔和预设时长,获得时间间隔分值;
将所述时间间隔分值确定为所述及时性分值。
可选的,所述基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果的步骤包括:
获取所述有效性分值的有效性权重、所述完整性分值的完整性权重和所述及时性分值的及时性权重;
基于所述有效性分值、所述完整性分值、所述及时性分值、所述有效性权重、所述完整性权重和所述及时性权重,利用公式三,获得所述待评估数据的评估结果;
所述公式三为:
F=ZWz+CWc+TWT
其中,F为所述评估结果,T为所述及时性分值,Wz为所述有效性权重,Wc为所述完整性权重,WT为所述及时性权重。
此外,为实现上述目的,本发明还提出了一种数据质量评估装置,所述装置包括:
获取模块,用于预设项目的待评估数据;
第一确定模块,用于基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;
评估模块,用于利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;
获得模块,用于基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;
第二确定模块,用于基于所述评估结果,确定所述待评估数据的有效性。
此外,为实现上述目的,本发明还提出了一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行数据质量评估程序,所述数据质量评估程序被所述处理器执行时实现如上述任一项所述的数据质量评估方法的步骤。
此外,为实现上述目的,本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有数据质量评估程序,所述数据质量评估程序被处理器执行时实现如上述任一项所述的数据质量评估方法的步骤。
本发明技术方案提出了一种数据质量评估方法,通过获取预设项目的待评估数据;基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;基于所述评估结果,确定所述待评估数据的有效性。由于,本申请通过对待评估数据进行评估,获得有效性分值、完整性分值和及时性分值,并基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果,以及基于所述评估结果,确定所述待评估数据的有效性,以使用户可以通过有效性确定待评估用户是否有效,所以,通过本申请的数据质量评估方法,可以确定数据是否有效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图;
图2为本发明数据质量评估方法第一实施例的流程示意图;
图3为本发明数据质量评估装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
终端设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。终端设备可能被称为用户终端、便携式终端、台式终端等。
通常,终端设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的数据质量评估程序,所述数据质量评估程序配置为实现如前所述的数据质量评估方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关数据质量评估方法操作,使得数据质量评估方法模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的数据质量评估方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据质量评估程序,所述数据质量评估程序被处理器执行时实现如上文所述的数据质量评估方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个终端设备上执行,或者在位于一个地点的多个终端设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个终端设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
基于上述硬件结构,提出本发明数据质量评估方法的实施例。
参照图2,图2为本发明数据质量评估方法第一实施例的流程示意图,方法用于终端设备,所述方法包括以下步骤:
步骤S11:获取预设项目的待评估数据。
需要说明的是,本发明的终端设备参照上述结构描述,此处不再赘述。预设项目的待评估数据是存在数据仓库的。不同的用户具有不同的数据仓库,例如某奇异具有自己的数据仓库,某信也具有自己的数据仓库等;通常,一个数据仓库包括多种主题的数据,例如A公司的数据仓库包括员工数据、设备数据、客户数据、广告营收数据和营收支付数据等,其中,员工数据还包括员工薪资数据、员工出勤数据和员工业绩数据等。通常数据仓库中的数据较多,不能一次性的进行全部数据的质量评估,或,用户只需要对一部分数据进行质量评估,此时,需要在数据仓库中确定出待评估数据。
具体应用中,用户通常会选择某一项目主题(即,预设项目)的待评估数据进行评估,以获得预设项目的待评估数据的评估结果,进而根据评估结果获得预设项目具体情况,例如,用户想要获取A公司的员工情况,则此时确定的预设项目为员工数据,需要首先在A公司的数据仓库中选出员工数据主题包括的员工薪资数据、员工出勤数据和员工业绩数据,其中,员工薪资数据、员工出勤数据和员工业绩数据之和即为待评估数据。
步骤S12:基于所述待评估数据的存储方式,确定所述待评估数据的评估级别。
具体的,步骤S12包括:在所述待评估数据的存储方式为多表存储时,将所述待评估数据的评估级别确定为表粒度评估,或,
在所述待评估数据的存储方式为单表存储时,将所述待评估数据的评估级别确定为字段粒度评估。
可以理解的是,所述待评估数据的数据量较大时,通常会包括多个数据表(一般都是成百上千个数据表),即待评估数据的存储方式为多表存储,需要对所述待评估数据中包括的多个数据表分别进行评估,此时,若要以字段粒度评估方式进行评估,会消耗大量的时间和资源,所以确定表粒度评估方式,以减少时间和资源的浪费;所述待评估数据的数据量较少时,通常只包括一个数据表,即待评估数据的存储方式为单表存储,仅需要对一个数据表中的数据进行评估,则此时可选择字段粒度评估的评估方式进行评估。
步骤S13:利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值。
需要说明的是,本申请的数据质量评估的主要组成部分即为有效性评估、完整性评估和及时性评估,需要对待评估数据的有效性、完整性和及时性分别进行评估,获得对应的分值。有效性、完整性和及时性的评分规则均不同,需要利用预设评分规则中对应的评分规则进行评分,预设评分规则包括有效性、完整性和及时性分别对应的评分规则。
另外,待评估数据中通常包括多种内容的数据,一种待评估内容即为一个待评估对象;通常,待评估数据包括多个数据表时,只需要对多个数据表中共有的某一个内容进行评估,即对某一个对象的数据进行评估,获得该对象的评估结果;待评估数据包括单个数据表时,需要对单个数据表中的多个对象或全部对象均进行评估,并获得多个待评估对象各自的评估结果。
进一步的,步骤S13包括:基于所述评估级别,确定所述待评估数据的待评估对象;利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值;利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值;利用所述预设评分规则,计算所述待评估数据的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值。
需要说明的是,不同的评估级别,对应的评估对象不同,例如,待评估数据中包括多个数据表时,待评估对象即为所述多个数据表中的多种内容中的某一个内容对应的数据;待评估数据中包括一个数据表时,待评估对象即为该数据表中某几个内容或全部内容。
通常,在待评估数据中确定待评估对象时,当待评估数据中包括多个数据表时,通常,用户还会输入多个数据表中与待评估对象相关的关键字,以关键字对应的对象为待评估对象,或,以多个数据表的主题相关的对象为待评估对象,例如,待评估数据为B公司客户数据,多个数据表分别为的多个客户的个人信息表,每一个表为一个客户的个人信息(包括姓名、联系方式和住址等),用户输入“有效联系方式”为关键字,则基于关键字,确定待评估对象为电话号码。
当待评估数据中包括单个数据表时,通常以该数据表中的全部内容为待评估对象;例如,待评估数据为A公司员工数据,该数据表中包括员工薪资数据、员工出勤数据和员工业绩数据,则,待评估对象为员工薪资数据、员工出勤数据和员工业绩数据,共三个,需要分别进行这三个对象的数据质量评估。
需要说明的是,有效性包括数据的波动性和数据的规范度,需要对待评估数据中的待评估对象分别进行波动性和规范度进行评估,获得波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值;完整性分值包括数据的非空率和数据的缺失率,需要对待评估数据中的待评估对象分别进行非空率和缺失率评估,以获得所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值;及时性是通过待评估数据的时间间隔确定的,需要获得时间间隔分值,并基于所述时间间隔分值获得所述及时性分值。
进一步的,所述利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值的步骤包括:
获取所述待评估对象的数据的预设阈值;
计算所述待评估对象的数据值与所述预设阈值的数据差值;
基于所述数据差值与所述预设阈值的比值,获得所述波动性分值;
确定所述待评估对象中满足预设规范的规范数据的数量;
基于所述规范数据的数量与所述待评估对象的数据总量的比值,获得所述规范度分值;
获取所述波动性分值的波动性权重和所述规范度分值的规范度权重;
基于所述波动性分值、所述规范度分值、所述波动性权重和所述规范度权重,利用公式一,获得所述有效性分值;
所述公式一为:
其中,Z1为所述波动性分值,Wz1为所述波动性权重,Z2为所述规范度分值,Wz1为所述规范度权重,Z为所述有效性分值。
需要说明的是,预设阈值可以是根据待评估对象的历史数据(以待评估数据为当前数据,当前数据之前已经过评估的数据)获得的,当预设项目的数据为每天都需要更新的数据时,预设项目的某一天的数据均为次日待评估数据;通常,以当前待评估数据的评估时间为基准,计算前N天的待评估对象对应的历史数据的均值,该均值即为预设阈值,其中N以7为佳,用户还可以根据预设项目的数据更新时间为准,进行确定,例如更新时间是以周为单位,则预设阈值是前3周的历史数据的均值。
例如,待评估数据为A公司的员工数据,待评估对象为出勤率,则2020年10月30日对前一天(2020年10月29日)的出勤率进行评估时,以2020年10月22日至2020年10月28的出勤率的均值为预设阈值。
具体应用中,基于所述数据差值与所述预设阈值的比值M(通常为百分数的方式表示),获得所述波动性分值时,可以参照如下打分规则进行波动性分值打分:M在区间[-10%,10%]内时,波动性分值为100分,M在区间[-20%,-10%]或[10%,20%]时,波动性分值为80分,M在区间[-30%,-20%]或[20%,30%]时,波动性分值为60分,M小于-30%或大于30%时,波动性分值为0分。其中,该波动性分值打分规则是基于大量的数据分析获得,并非基于人的逻辑思维,主观臆断确定的,本申请下文涉及到的打分规则均是基于对大量的数据进行分析获得的。历史数据中被选择的数据即为有效数据,未被选择的数据为无效数据,基于有效数据和无效数据分别对应的数据差值与述预设阈值的比值M,确定出上述波动性分值打分规则;可以理解的是,下文涉及的打分规则均可基于该方法获得。
基于所述规范数据的数量与所述待评估对象的数据总量的比值N(通常为百分数的方式表示),获得所述规范度分值时,可以参照如下规则进行规范度分值打分:N×100=规范度分值。可以理解的是,待评估对象中涉及到的数据可能存在表示不规范的数据和表示规范的数据,例如,待评估对象为有效联系方式时,规范数据可以是11位手机号和11位固定电话号(包括区号),不规范数据即为其位数的手机号和固定电话号。
具体应用中,用户可以根据自己的需求进行波动性权重和规范度权重的确定,本发明不做具体限制。
进一步的,所述利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值的步骤包括:
确定所述待评估对象中非空数据的数量和空数据的数量;
基于所述非空数据的数量与所述待评估对象的数据总量的比值,获得所述非空率;
基于所述空数据的数量与所述待评估对象的数据总量的比值,获得所述缺失率;
获取所述非空率的非空权重和所述缺失率的缺失权重;
基于所述非空率、所述缺失率、所述非空权重和所述缺失权重,利用公式二,获得所述完整性分值;
所述公式二为:
其中,C1为所述非空率,Wc1为所述非空权重,C2为所述缺失率,Wc2为所述缺失权重,C为所述完整性分值。
需要说明的是,待评估对象中的数据包括非空数据和空数据,例如,待评估对象为全部客户的有效联系方式时,联系方式对应的内容框中存在内容,即为非空数据,联系方式对应的内容框中不存在内容,即为空数据,其中,数据总量即为全部客户的数量,也即空数据与非空数据之和。
具体应用中,基于所述非空数据的数量与所述待评估对象的数据总量的比值P,获得所述非空率时,可以参照如下公式:P×100%=非空率。基于所述空数据的数量与所述待评估对象的数据总量的比值Q,获得所述缺失率时,可以参照如下公式:Q×100%=缺失率。
可以理解的是,用户可以根据自己的需求进行非空权重和缺失权重的确定,本发明不做具体限制。
进一步的,所述利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值的步骤包括:确定上一次获取所述待评估对象对应的历史数据的历史获取时间;确定所述待评估对象的获取时间与历史获取时间的时间间隔;基于所述时间间隔和预设时长,获得时间间隔分值;将所述时间间隔分值确定为所述及时性分值。
需要说明的是,待评估对象对应的历史数据为待评估对象的当前数据之前已完成评估的历史数据。例如,待评估数据为A公司的员工数据,待评估对象为出勤率,则2020年10月30日上午10点,获取前一天(2020年10月29日)的出勤率,以进行评估时,以2020年10月29日之前的出勤率为均为历史数据,其中,上一次获取的历史数据为2020年10月29日获取到的2020年10月28日的出勤率;并且以2020年10月28日的出勤率的获取时间2020年10月29日上午11点为所述历史获取时间。
具体应用中,基于所述时间间隔F和预设时长G,获得时间间隔分值时,时间间隔分值可以参照如下规则打分:F小于等于G时,时间间隔分值为100分,F大于等于2G时,时间间隔分值为0分。在F大于G且小于2G时,打分公式为:(1-(F-G)/F)×100=时间间隔分值。其中,用户可以根据待评估对象的数据更新频率确定预设时长,例如,待评估对象的数据更新频率为每天更新,则预设时长为24时,待评估对象的数据更新频率为每周更新,则预设时长为7天等,本发明不做限制。
步骤S14:基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果。
进一步的,步骤S14包括:获取所述有效性分值的有效性权重、所述完整性分值的完整性权重和所述及时性分值的及时性权重;
基于所述有效性分值、所述完整性分值、所述及时性分值、所述有效性权重、所述完整性权重和所述及时性权重,利用公式三,获得所述待评估数据的评估结果;
所述公式三为:
F=ZWz+CWc+TWT
其中,F为所述评估结果,T为所述及时性分值,Wz为所述有效性权重,Wc为所述完整性权重,WT为所述及时性权重。
通常待评估对象不同,待评估对象中有效性权重、完整性权重和及时性权重是不同的,用户可以根据自己的需求和待评估对象,确定对应的权重值。
可以理解的是,所述评估结果也是以分值的形式体现的,所述评估结果分值越高,待评估对象的数据质量越高,所述评估结果分值越低,待评估对象的数据质量越低。
另外,当待评估数据中包括多个数据表时,待评估对象为一个,则待评估对象的评估结果即为待评估数据的评估结果。当待评估数据中包括单个数据表时,并以数据表中的全部内容为待评估对象时,将全部待评估对象分别对应的评估结果作为待评估数据的评估结果。
具体应用中,用户还可以设置其他分制的评分规则,例如,每个评估项目的满分为150分,评估结果的满分也为150分等,本发明不做限制。
在另一实施例中,当待评估数据中包括多个数据表时,并且终端设备运算能力较强时,可以对待评估数据中的全部评估对象为待评估对象,分别进行待评估对象的评估,以获得全部待评估对象的评估结果,即待评估数据的评估结果包括全部待评估对象的评估结果。评估过程参照本申请上述实施例的描述,此处不再赘述。
步骤S15:基于所述评估结果,确定所述待评估数据的有效性。
需要说明的是,评估结果为分值的形式,则可以设置一个阈值,当评估结果大于阈值时,待评估数据有效,当评估结果小于或等于阈值时,待评估数据无效;还可以设置两个阈值:高阈值和低阈值,评估结果大于高阈值,待评估数据有效性较高,评估结果在高阈值和低阈值之间,待评估数据有效性一般,评估结果在低阈值以下,待评估数据无效。有效性即为待评估数据的有效性的描述信息。
本实施例技术方案提出了一种数据质量评估方法,通过获取预设项目的待评估数据;基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;基于所述评估结果,确定所述待评估数据的有效性。由于,本申请通过对待评估数据进行评估,获得有效性分值、完整性分值和及时性分值,并基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果,以及基于所述评估结果,确定所述待评估数据的有效性,以使用户可以通过有效性确定待评估用户是否有效,所以,通过本申请的数据质量评估方法,可以确定数据是否有效。
参照图3,图3为本发明数据质量评估装置第一实施例的结构框图,装置应用于终端设备,所述装置包括:
获取模块10,用于预设项目的待评估数据;
第一确定模块20,用于基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;
评估模块30,用于利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;
获得模块40,用于基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;
第二确定模块50,用于基于所述评估结果,确定所述待评估数据的有效性。
以上所述仅为本发明的可选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (4)

1.一种数据质量评估方法,其特征在于,所述方法包括以下步骤:
获取预设项目的待评估数据;
基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;
利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;
基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;
基于所述评估结果,确定所述待评估数据的有效性;
其中,所述预设评分规则包括有效性评分规则、完整性评分规则和及时性评分规则,所述利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值的步骤包括:
基于所述评估级别,确定所述待评估数据的待评估对象;
利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值;
利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值;
利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值;
其中,所述基于所述待评估数据的存储方式,确定所述待评估数据的评估级别的步骤包括:
在所述待评估数据的存储方式为多表存储时,将所述待评估数据的评估级别确定为表粒度评估,或,
在所述待评估数据的存储方式为单表存储时,将所述待评估数据的评估级别确定为字段粒度评估;
所述利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值的步骤包括:
获取所述待评估对象的数据的预设阈值;
计算所述待评估对象的数据值与所述预设阈值的数据差值;
基于所述数据差值与所述预设阈值的比值,获得所述波动性分值;
确定所述待评估对象中满足预设规范的规范数据的数量;
基于所述规范数据的数量与所述待评估对象的数据总量的比值,获得所述规范度分值;
获取所述波动性分值的波动性权重和所述规范度分值的规范度权重;
基于所述波动性分值、所述规范度分值、所述波动性权重和所述规范度权重,利用公式一,获得所述有效性分值;
所述公式一为:
其中,Z1为所述波动性分值,Wz1为所述波动性权重,Z2为所述规范度分值,Wz1为所述规范度权重,Z为所述有效性分值;
所述利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值的步骤包括:
确定所述待评估对象中非空数据的数量和空数据的数量;
基于所述非空数据的数量与所述待评估对象的数据总量的比值,获得所述非空率;
基于所述空数据的数量与所述待评估对象的数据总量的比值,获得所述缺失率;
获取所述非空率的非空权重和所述缺失率的缺失权重;
基于所述非空率、所述缺失率、所述非空权重和所述缺失权重,利用公式二,获得所述完整性分值;
所述公式二为:
其中,C1为所述非空率,Wc1为所述非空权重,C2为所述缺失率,Wc2为所述缺失权重,C为所述完整性分值;
所述利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值的步骤包括:
确定上一次获取所述待评估对象对应的历史数据的历史获取时间;
确定所述待评估对象的获取时间与历史获取时间的时间间隔;
基于所述时间间隔和预设时长,获得时间间隔分值,所述时间间隔为F,所述预设时长为G,当F小于或等于G时,时间间隔分值为100;当F大于或等于2G时,时间间隔分值为0;当F大于G且小于2G时,时间间隔分值为(1-(F-G)/F)×100;
将所述时间间隔分值确定为所述及时性分值;
基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果的步骤包括:
获取所述有效性分值的有效性权重、所述完整性分值的完整性权重和所述及时性分值的及时性权重;
基于所述有效性分值、所述完整性分值、所述及时性分值、所述有效性权重、所述完整性权重和所述及时性权重,利用公式三,获得所述待评估数据的评估结果;
所述公式三为:
F=ZWz+CWc+TWT
其中,F为所述评估结果,T为所述及时性分值,Wz为所述有效性权重,Wc为所述完整性权重,WT为所述及时性权重。
2.一种数据质量评估装置,其特征在于,所述装置包括:
获取模块,用于预设项目的待评估数据;
第一确定模块,用于基于所述待评估数据的存储方式,确定所述待评估数据的评估级别;
评估模块,用于利用所述评估级别和预设评分规则,对所述待评估数据进行评估,获得有效性分值、完整性分值和及时性分值;
获得模块,用于基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果;
第二确定模块,用于基于所述评估结果,确定所述待评估数据的有效性;
其中,所述预设评分规则包括有效性评分规则、完整性评分规则和及时性评分规则,所述获得模块,还用于:
基于所述评估级别,确定所述待评估数据的待评估对象;
利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值;
利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值;
利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值;
其中,所述基于所述待评估数据的存储方式,确定所述待评估数据的评估级别的步骤包括:
在所述待评估数据的存储方式为多表存储时,将所述待评估数据的评估级别确定为表粒度评估,或,
在所述待评估数据的存储方式为单表存储时,将所述待评估数据的评估级别确定为字段粒度评估;
所述利用所述预设评分规则,计算所述待评估对象的波动性分值和规范度分值,并基于所述波动性分值和所述规范度分值,获得所述有效性分值的步骤包括:
获取所述待评估对象的数据的预设阈值;
计算所述待评估对象的数据值与所述预设阈值的数据差值;
基于所述数据差值与所述预设阈值的比值,获得所述波动性分值;
确定所述待评估对象中满足预设规范的规范数据的数量;
基于所述规范数据的数量与所述待评估对象的数据总量的比值,获得所述规范度分值;
获取所述波动性分值的波动性权重和所述规范度分值的规范度权重;
基于所述波动性分值、所述规范度分值、所述波动性权重和所述规范度权重,利用公式一,获得所述有效性分值;
所述公式一为:
其中,Z1为所述波动性分值,Wz1为所述波动性权重,Z2为所述规范度分值,Wz1为所述规范度权重,Z为所述有效性分值;
所述利用所述预设评分规则,计算所述待评估对象的非空率和缺失率,并基于所述非空率和所述缺失率,获得所述完整性分值的步骤包括:
确定所述待评估对象中非空数据的数量和空数据的数量;
基于所述非空数据的数量与所述待评估对象的数据总量的比值,获得所述非空率;
基于所述空数据的数量与所述待评估对象的数据总量的比值,获得所述缺失率;
获取所述非空率的非空权重和所述缺失率的缺失权重;
基于所述非空率、所述缺失率、所述非空权重和所述缺失权重,利用公式二,获得所述完整性分值;
所述公式二为:
其中,C1为所述非空率,Wc1为所述非空权重,C2为所述缺失率,Wc2为所述缺失权重,C为所述完整性分值;
所述利用所述预设评分规则,计算所述待评估对象的时间间隔分值,并基于所述时间间隔分值获得所述及时性分值的步骤包括:
确定上一次获取所述待评估对象对应的历史数据的历史获取时间;
确定所述待评估对象的获取时间与历史获取时间的时间间隔;
基于所述时间间隔和预设时长,获得时间间隔分值,所述时间间隔为F,所述预设时长为G,当F小于或等于G时,时间间隔分值为100;当F大于或等于2G时,时间间隔分值为0;当F大于G且小于2G时,时间间隔分值为(1-(F-G)/F)×100;
将所述时间间隔分值确定为所述及时性分值;
基于所述有效性分值、所述完整性分值和所述及时性分值,获得所述待评估数据的评估结果的步骤包括:
获取所述有效性分值的有效性权重、所述完整性分值的完整性权重和所述及时性分值的及时性权重;
基于所述有效性分值、所述完整性分值、所述及时性分值、所述有效性权重、所述完整性权重和所述及时性权重,利用公式三,获得所述待评估数据的评估结果;
所述公式三为:
F=ZWz+CWc+TWT
其中,F为所述评估结果,T为所述及时性分值,Wz为所述有效性权重,Wc为所述完整性权重,WT为所述及时性权重。
3.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行数据质量评估程序,所述数据质量评估程序被所述处理器执行时实现如权利要求1所述的数据质量评估方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据质量评估程序,所述数据质量评估程序被处理器执行时实现如权利要求1所述的数据质量评估方法的步骤。
CN202011391981.9A 2020-12-02 2020-12-02 数据质量评估方法、装置、终端设备以及存储介质 Active CN112506904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391981.9A CN112506904B (zh) 2020-12-02 2020-12-02 数据质量评估方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391981.9A CN112506904B (zh) 2020-12-02 2020-12-02 数据质量评估方法、装置、终端设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112506904A CN112506904A (zh) 2021-03-16
CN112506904B true CN112506904B (zh) 2024-05-07

Family

ID=74969410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391981.9A Active CN112506904B (zh) 2020-12-02 2020-12-02 数据质量评估方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112506904B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113448955B (zh) * 2021-08-30 2021-12-07 上海观安信息技术股份有限公司 数据集质量评估方法、装置、计算机设备及存储介质
CN113779150B (zh) * 2021-09-14 2024-06-18 杭州数梦工场科技有限公司 一种数据质量评估方法及装置
CN114742417A (zh) * 2022-04-15 2022-07-12 北京科杰科技有限公司 一种数据质量评估方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334636A (zh) * 2018-03-02 2018-07-27 成都康赛信息技术有限公司 数据质量评估方法
CN108764705A (zh) * 2018-05-24 2018-11-06 国信优易数据有限公司 一种数据质量评估平台以及方法
CN109101539A (zh) * 2018-06-29 2018-12-28 东软集团股份有限公司 业务数据质量评价方法、装置、存储介质及电子设备
CN109299085A (zh) * 2018-11-07 2019-02-01 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及存储介质
CN111984640A (zh) * 2020-08-04 2020-11-24 中国科学技术大学智慧城市研究院(芜湖) 基于多元异构数据的画像构建方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572456B2 (en) * 2013-09-24 2020-02-25 Here Global B.V. Method, apparatus, and computer program product for data quality analysis
US10565173B2 (en) * 2017-02-10 2020-02-18 Wipro Limited Method and system for assessing quality of incremental heterogeneous data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334636A (zh) * 2018-03-02 2018-07-27 成都康赛信息技术有限公司 数据质量评估方法
CN108764705A (zh) * 2018-05-24 2018-11-06 国信优易数据有限公司 一种数据质量评估平台以及方法
CN109101539A (zh) * 2018-06-29 2018-12-28 东软集团股份有限公司 业务数据质量评价方法、装置、存储介质及电子设备
CN109299085A (zh) * 2018-11-07 2019-02-01 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及存储介质
CN111984640A (zh) * 2020-08-04 2020-11-24 中国科学技术大学智慧城市研究院(芜湖) 基于多元异构数据的画像构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网管数据质量评估模型研究;方津;电信科学;第29卷(第2期);第147-152页 *

Also Published As

Publication number Publication date
CN112506904A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112506904B (zh) 数据质量评估方法、装置、终端设备以及存储介质
CN112883036B (zh) 索引创建方法、装置、存储服务器以及存储介质
CN110428311B (zh) 招投标信息推荐方法及相关产品
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN115345464A (zh) 业务订单的派单方法、装置、计算机设备及存储介质
CN107368998A (zh) 日程管理方法及相关产品
CN112150396B (zh) 高光谱图像降维方法、装置、终端设备及存储介质
CN110866114B (zh) 对象行为的识别方法、装置及终端设备
CN112333329A (zh) 未读信息提醒方法、装置及电子设备
CN107807940A (zh) 信息推荐方法和装置
CN113886688B (zh) 对象的关联关系预测方法、装置、终端设备以及存储介质
CN112508627B (zh) 广告地址确定方法、装置、设备以及存储介质
CN112069047B (zh) 计算生态检测方法、装置、设备以及存储介质
CN113706097A (zh) 一种业务审批方法、装置、设备及存储介质
CN112199584A (zh) 个性化推荐方法及终端设备、推荐设备、存储介质
CN116233495A (zh) 节目资源的推荐方法、装置、节目管理引擎以及存储介质
CN112182240B (zh) 同名自然人实体超级节点识别处理方法及系统、电子设备
CN112423062B (zh) 视频人物信息显示方法、装置、终端设备及存储介质
CN114092066B (zh) 薪酬数据处理方法、装置、设备及存储介质
CN116010774A (zh) 质量检查评分校正方法、装置、设备及存储介质
CN114880554B (zh) 数据展示方法、装置、电子设备及存储介质
CN113094577B (zh) 信息展示方法、相关设备及存储介质
CN111723123B (zh) 轨迹预测方法、装置、电子设备及存储介质
CN112348585A (zh) 虚拟资源发送方法、装置、终端设备以及存储介质
CN113496380A (zh) 一种低值易耗定额的计算方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant