CN113268648A - 数据质量的确定方法、系统、计算设备及存储介质 - Google Patents

数据质量的确定方法、系统、计算设备及存储介质 Download PDF

Info

Publication number
CN113268648A
CN113268648A CN202010096483.5A CN202010096483A CN113268648A CN 113268648 A CN113268648 A CN 113268648A CN 202010096483 A CN202010096483 A CN 202010096483A CN 113268648 A CN113268648 A CN 113268648A
Authority
CN
China
Prior art keywords
quality
data set
data
determining
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010096483.5A
Other languages
English (en)
Inventor
张金龙
侯俊
桂凤姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010096483.5A priority Critical patent/CN113268648A/zh
Publication of CN113268648A publication Critical patent/CN113268648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种数据质量的确定方法、系统、计算设备及存储介质,在本申请实施例中,根据待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。由于本申请实施例是基于多个质量指标的确定取值来确定待测数据集的质量,从而更加全面衡量一个待测数据集的质量,同时,根据确定的多个质量指标的确定取值、多个质量指标对应的预期取值以及各个质量指标的重要度,来确定出的质量,能够更加简单且快速地确定出待测数据集的质量。

Description

数据质量的确定方法、系统、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据质量的确定方法、系统、计算设备及存储介质。
背景技术
负责管理重要数据资产的数据管理平台,为投放服务(如,多媒体内容投放服务)提供定向数据。而数据质量的高低直接影响投放效果。服务投放前的洞察分析、投放中的算法优化、投放后的效果分析和算法训练都是基于提供的定向数据。如果数据本身质量不佳,自然很难得出有用的结论,甚至可能得到错误的结论。
发明内容
本申请的多个方面提供一种数据质量的确定方法、系统、计算设备及存储介质,用以从多个质量参考维度,来较为准确地确定大数据的质量。
本申请实施例提供一种数据质量的确定方法,包括:获取待测数据集的数据;根据所述待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,所述多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量。
本申请实施例还提供一种数据质量的确定方法,包括:根据数据集对应的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型;将待测数据集以及所需多个质量指标输入至所述数据质量确定模型,获取所述待测数据集的质量。
本申请实施例还提供一种数据质量的确定系统,包括:第一设备以及第二设备;第一设备,发送质量评估请求至所述第二设备,所述质量评估请求用于获取待测数据集的质量;第二设备,获取待测数据集的数据;根据所述数据以及所述待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,所述多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量;响应所述质量评估请求,返回所述质量至所述第一设备。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:获取待测数据集的数据;根据所述数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,所述多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:根据数据集的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型;将待测数据集以及所需多个质量指标输入至所述数据质量确定模型,获取所述待测数据集的质量。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现上述方法中的步骤。
在本申请实施例中,根据待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。由于本申请实施例是基于多个质量指标的确定取值来确定待测数据集的质量,从而更加全面衡量一个待测数据集的质量,同时,根据确定的多个质量指标的确定取值、多个质量指标对应的预期取值以及各个质量指标的重要度,来确定出的质量,能够更加简单且快速地确定出待测数据集的质量,从而对质量进行评价,进一步为调整待测数据集的质量提供了参考依据。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1A为本申请一示例性实施例的数据质量的确定系统的结构示意图;
图1B为本申请一示例性实施例的确定数据质量的场景示意图;
图2为本申请一示例性实施例的数据质量的确定方法的流程示意图;
图3为本申请又一示例性实施的数据质量的确定方法的流程示意图;
图4为本申请一示例性实施例提供的数据质量的确定装置的结构示意图;
图5为本申请又一示例性实施例提供的数据质量的确定装置的结构示意图;
图6为本申请一示例性实施例提供的计算设备的结构示意图;
图7为本申请一示例性实施例提供的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着信息技术的发展,人们可以利用互联网进行线上活动,例如线上观看视频、线上购物、线上缴费以及线上娱乐等。由于可以通过互联网进行多种线上活动,使得每天都会产生大量的用户行为数据,从而产生出海量的大数据。
负责管理重要数据资产的数据管理平台,为投放服务(如,多媒体内容投放服务)提供定向数据。而数据质量的高低直接影响投放效果。服务投放前的洞察分析、投放中的算法优化、投放后的效果分析和算法训练都是基于提供的定向数据。如果数据本身质量不佳,自然很难得出有用的结论,甚至可能得到错误的结论。目前急需一套完整的数据质量计算方法来衡量数据质量的高低。
在本申请实施例中,根据待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。由于本申请实施例是基于多个质量指标的确定取值来确定待测数据集的质量,从而更加全面衡量一个待测数据集的质量,同时,根据确定的多个质量指标的确定取值、多个质量指标对应的预期取值以及各个质量指标的重要度,来确定出的质量,能够更加简单且快速地确定出待测数据集的质量,从而对质量进行评价,进一步为调整待测数据集的质量提供了参考依据。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1A为本申请一示例性实施例提供的一种数据质量的确定系统的结构示意图。如图1A所示,该确定系统100A可以包括:第一设备101以及第二设备102。
其中,第一设备101可以是有一定计算能力的设备。第一设备101的基本结构可以包括:至少一个处理器。处理器的数量可以取决于具有一定计算能力装置的配置和类型。具有一定计算能力装置也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,具有一定计算能力装置还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、输入笔等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,第一设备101可以为智能终端,例如,手机、台式电脑、笔记本、平板电脑等。
第二设备102是指可以在网络虚拟环境中提供计算处理服务的设备,可以是指利用网络进行数据质量确定的设备。在物理实现上,第二设备102可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如可以是常规服务器、云服务器、云主机、虚拟中心等等。第二设备102的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在本申请实施例中,第一设备101,发送质量评估请求至第二设备102,质量评估请求用于获取待测数据集的质量;第二设备102,获取待测数据集的数据;根据数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量;响应质量评估请求,返回质量至第一设备101。
为了让用户可以更好地了解数据质量的具体信息,特别是在数据质量较差的时候,用户可以通过具体信息,例如,各个质量指标的确定取值,清晰地了解到数据质量较差的原因。所以第二设备102除了返回质量外,还可以返回决定该质量的多个质量指标的确定取值,以供用户参考,并从中进行人工排查质量问题,并对定位到的质量问题进行数据修复等。
在本申请实施例的应用场景中,例如,如图1B所示,第二设备102,例如,服务器,可以在每天数据管理平台的待测数据集更新后,执行本申请实施例的内容。待测数据集更新后,可以由数据管理平台向服务器发送消息,以告知当前待测数据集更新。服务器可以开始对待测数据集进行数据变化的监测。服务器可以定时轮询数据平台,获取待测数据集的数据信息,例如数据结构、数据内容、数据产生时间(也可以称为数据更新时间)以及使用该数据的服务。服务器获取到这些数据信息后,可以与最新历史(如前一天)的这些数据信息进行比较。例如,当前获取到的数据内容与前一天获取到的数据内容进行比较。当存在变化时,就监测到数据内容变化了。此时,服务器可以从待测数据集中获取到关于数据内容的多个质量指标取值所需数据,直至所需数据变化都监测到了,则获取所有质量指标取值所需数据,如数据内容、数据结构、数据产生时间以及使用数据的服务数量等。应理解,对于一个质量指标而言,当用于确定该质量指标的取值所需数据无变化时,那么该质量指标的取值也无变化,那么可以通过该质量指标的历史最新(如,前一天)取值来确定该质量指标的当前取值。当用于确定该质量指标的取值所需数据有变化时,那么该质量指标的取值也会变化,需要重新确定,重新确定的情况包括所需数据的部分数据有变化的情况。此外,在初始化阶段,上述这些数据信息还不存在历史的这些数据信息,那么可以不进行这些数据信息的比较,直接获取这些数据信息,确定质量指标的取值。
服务器根据所需数据以及质量指标各自对应的确定方式,确定各个质量指标的取值,根据质量指标的权重以及多个质量指标的确定取值,通过加权平均值算法,确定待测数据集的实际质量。在根据该多个质量指标对应的预期取值以及该多个质量指标的权重,通过加权平均值算法,确定待测数据集的预期质量。根据预期质量以及实际质量的差值,确定质量。
服务器可以将确定的质量存储至本地对应区域中。在接收到第一设备101,例如,台式电脑,发送的质量评估请求时,发送该质量至台式电脑以供用户观看。同时还可以将确定该质量的多个质量指标发送至台式电脑,以供用户分析数据质量情况。
需要说明的是,数据管理平台(可以是服务器集群组成的)是用于管理数据的,服务器可以从数据平台的数据离线存储平台,获取各种数据,来实现很多服务。在本申请实施例中,可以将数据离线存储平台的各个数据表作为待测数据集。
在上述本实施例中,第一设备101可以与第二设备102进行网络连接,该网络连接可以是无线连接。若第一设备101与第二设备102是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
下面结合方法实施例,针对数据质量的确定过程进行详细说明。
图2为本申请一示例性实施例的数据质量的确定方法的流程示意图。本申请实施例提供的该方法200由第二设备执行,如,服务器,该方法200包括以下步骤:
201:获取待测数据集的数据。
202:根据待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况。
203:根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。
以下针对上述步骤进行详细阐述:
201:获取待测数据集的数据。
其中,待测数据集是指存储在数据管理平台的数据离线存储平台的数据集合。该数据集合可以以多种形式表现,如数据表形式等等。每个数据表可以记录不同的数据。待测数据集可以为一张数据表。
待测数据集的数据可以是存储在该待测数据集中的数据,或者,可以是存储在该待测数据集中的数据以及该待测数据集关联的数据。其中,该待测数据集关联的数据可以是数据的产生时间。
例如,根据前文所述,在初始阶段时,由于待测数据集的数据还没有相关的历史数据,所以服务器可以直接从数据管理平台的数据离线存储平台获取数据。
当经过初始阶段后,待测数据集的数据存在了相关的历史数据,则服务器需要根据当前数据是否更新(也可以称为是否发生变化),来获取数据。
即该方法200还包括:监测待测数据集,并在监测到待测数据集更新后,执行获取待测数据集的数据的步骤201。
其中,待测数据集发生变化(即更新)是指数据的各个方面或维度发生变化(即更新)。例如,待测数据集的结构发生变化(即更新)、待测数据集的内容发生变化(即更新)、待测数据集的产生时间发生变化(即更新)以及使用待测数据集的服务发生变化(即更新)。
其中,测数据集的结构是指数据字段本身以及字段的表现形式。例如,字段名称(例如,名称、ID等)、字段取值范围(例如,年龄字段取值范围为1-7)、字段释义(例如,name字段释义为“姓名”)以及字段格式(例如,ip字段格式为“xx.xx.xx.xx”,邮件地址字段格式为“xx@xx.com”)等。
待测数据集的内容是指数据的具体数值,例如,用户“zz”的手机号为“137zzzzzzzz”,这个“137zzzzzzzz”即为内容。
待测数据集的产生时间,也可以称为更新时间,是指当天待测数据集的更新时间。例如,xx年x月x日,9:00am。
使用待测数据集的服务是指使用待测数据集为用户提供投放信息的服务,如视频服务、游戏服务、线上购物服务等。
例如,根据前文所述,在数据管理平台的数据离线存储平台更新当天数据后,服务器可以对其中一张数据表作为待测数据集进行监测。服务器可以定时轮询数据管理平台,获取当天更新后一张数据表的数据结构、数据内容。服务器还可以获取待测数据集的当前更新时间,以及使用该待测数据集的当前服务数量。当服务器确定获取到的上述信息中任一信息进行了更新,则执行获取待测数据集的数据的步骤201。
具体的,该方法200还可以包括:监测待测数据集,并在监测到待测数据集的结构更新后,执行获取待测数据集的数据的步骤201;监测待测数据集,并在监测到待测数据集的内容更新后,执述获取待测数据集的数据的步骤;监测待测数据集,并在监测到待测数据集的产生时间更新后,执行获取待测数据集的数据的步骤;和/或监测待测数据集,并在监测到使用待测数据集的服务更新后,执行获取待测数据集的数据的步骤201。
监测待测数据集包括以下几种:
1):获取待测数据集的当前字段信息,比较当前字段信息与最新历史字段信息。
在比较结果不同的情况下,确定待测数据集的结构进行了更新(即发生变化)。
其中,字段信息可以包括但不限于:数据字段取值范围、字段释义以及字段格式。
最新历史字段信息是指在历史记录中,最后一次存储或记录的字段信息。如,前一天字段信息。
例如,在数据管理平台的数据离线存储平台更新当天数据后,服务器对其中一张数据表作为待测数据集进行监测。服务器可以定时轮询数据管理平台,获取当天更新后一张数据表的数据结构。将该数据结构中的数据字段取值范围、字段释义以及字段格式,分别与前一天的数据结构中的数据字段取值范围、字段释义以及字段格式对应比较,当存在任一变化时,确定数据结构发生变化。
当存在变化时,服务器获取数据结构对应的质量指标所需数据,如数据字段取值范围、字段释义以及字段格式等。
2):在待测数据集更新后,获取待测数据集的当前内容,比较当前内容与最新历史内容。
在比较结果不同的情况下,确定待测数据集的内容进行了更新(即发生变化)。
其中,最新历史内容是指在历史记录中,最后一次存储或记录的内容。如,前一天内容。
例如,在数据管理平台的数据离线存储平台更新当天数据后,服务器对其中一张数据表作为待测数据集进行监测。服务器可以定时轮询数据管理平台,获取一张数据表的数据内容。将该数据内容,分别与前一天的数据结构中的内容比较,当存在变化时,确定数据内容发生变化。
当存在变化时,服务器获取数据内容对应的质量指标所需数据,如,获取数据的具体数值。
3):在待测数据集更新后,获取待测数据集的当前更新时间,比较当前更新时间与最新历史更新时间。
在比较结果不同的情况下,确定待测数据集的产生时间进行了更新(即发生变化)。
4):在数据集更新后,获取使用数据集的当前服务数量,比较当前服务数量与最新历史服务数量。
在比较结果不同的情况下,确定使用数据集的服务进行了更新(即发生变化)。
其中,最新历史更新时间是指在历史记录中,最后一次存储或记录的更新时间。如,前一天更新时间。
最新历史服务数量是指在历史记录中,最后一次存储或记录的服务数量。如,前一天服务数量。
例如,在数据管理平台的数据离线存储平台更新当天数据后,服务器对其中一张数据表作为待测数据集进行监测。服务器可以定时轮询数据管理平台,获取一张数据表的数据更新时间以及使用数据的服务。将数据更新时间以及使用数据的服务名称,分别与前一天的数据更新时间以及使用数据的服务名称进行对应比较,当存在任一变化时,确定数据更新时间或/和使用数据的服务发生变化。
当存在变化时,服务器获取数据更新时间和/或使用数据的服务对应质量指标所需数据,如获取当天数据的更新时间以及使用数据的服务名称。
需要说明的是,数据结构可以不受数据更新的影响,所以服务器可以在数据更新前就进行获取数据结构,实现数据结构的监测。
在执行步骤201前,可以包括其它多个执行条件发生,以下针对两个执行条件进行进一步说明:
1):接收数据质量评估请求;若根据质量评估请求中携带了多个质量指标的标识,则根据标识,确定多个质量指标,质量指标的标识是由用户选择的。
根据多个质量指标,执行获取待测数据集的数据的步骤201。
其中,质量指标是指质量指标的种类或类型,可以包括但不限于:时间一直性、关联数据一致性、可理解性、规范性,这些可以作为数据结构质量指标。
时间一直性是指数据字段的取值范围随时间变化尽量保持一致,如用户年龄字段在2018.11.23取值范围1~7,但在2018.11.24范围取值1~8则破坏了一致性。关联数据一致性是指不同且相关联数据之间的一致性,即业务意义相同或相近的数据字段取值要保持一致性,如存在2张用户年龄数据表,第一张数据表字段的取值范围为1~7,而第二张数据表的取值范围为1~8,则破坏了该一致性。可理解性是指数据字段要有注释,否则随着数据的拥有者的变动,数据字段的意义根本无法理解。数据字段的可理解性是使用数据质量的前提,如果数据字段的可理解性非常差,那么数据的使用质量无从谈起。规范性,包含时间维度纵向规范性和不同且关联数据之间的横向规范性,纵向规范性是指同一数据字段在时间上要满足相同格式;横向规范性是指不同且关联数据之间的相同含义字段要满足相同格式。好的规范性用助于简化数据使用逻辑,减少开发工作量,规范性差意味着在使用中要进行大量归一化工作,而且随着时间推移,会频繁修改归一化逻辑。
需要说明的是,上述质量指标都可以通过符合质量指标含义的字段占比,来确定对应质量指标的取值。
质量指标还可以包括:准确性、完整性以及唯一性,这些可以作为数据内容类质量指标。
准确性是用于度量哪些数据是不正确的,并不是严格意义上去判断数据是否正确,而是从数据整体的角度去度量。可以用数据缺失值占比和数据异常值占比来度量。例如,一张数据表中共有100条数据,其中异常数据为20条,那么准确性可以为(80/100)*100。完整性是用来度量哪些数据丢失了或者哪些数据不可用,即数据对业务目标覆盖程度,如在该待测数据集中有效数据占比情况,例如,对于一张数据表中需要200数据,但只有120条数据,此时覆盖情况为(120/200)*100。唯一性用来度量哪些数据是重复数据或者数据的哪些属性是重复的,通过不重复数据占比的情况来确定唯一性,例如,一张用户ID为“00”的数据表中具有50条数据,其中10条数据是重复的,那么其唯一性为(40/50)*100。
质量指标还可以包括:时效性和稳定性,这些可以作为时间类质量指标。
时效性是用来度量数据产出时间是否对业务(即服务)效果产生负面影响。当天的离线数据一般都是截止到前一天的数据,那么肯定是当天产出的时间越早越好,如果当天产出时间比较晚,那么从零点到产出时间这段时间内,业务上使用的数据其实是前两天以前的数据,可以通过数据每天更新耗时来度量。例如,今天数据更新时间为9:00am,那么更新持续时间为9个小时,可以设置理想更新持续时间为3小时,即当天3:00am更新时间。那么靠近3小时更新持续时间的,其时效性越好,其指标越高。如,更新持续时间为3小时时效性指标为100,9小时可以为0.5*100=50。应理解,设置更新持续时间与分值的映射关系,即可确定时效性。
稳定性包含时间维度稳定性和数据量维度稳定性。时间维度稳定性是指数据每天产出的时间是否平稳,可以通过时间差来确定,数据量维度稳定性是每天产出的数据量是否波动下较小,可以通过数据数量差来确定。
例如,根据前文所述,台式电脑可以通过web网页端提供数据质量的查询页面,用户访问该页面,该页面上展示了所有质量指标,用户在页面中选中所需的质量指标,如“时间一直性、关联数据一致性、准确性、完整性、时效性”。服务器接收到台式电脑发送的质量评估请求,根据质量评估请求中携带的质量指标的标识,如ID,确定这些质量指标。在此基础上,执行步骤201。
应理解,各个质量指标都对应这数据的不同变化,如时间一直性对应数据结构变化,在数据结构变化后,获取该类型指标的所需数据。
需要说明的是,若数据无变化,如数据结构无变化,可以使用之前的对应指标数值作为当前指标数值。如,前一天时间一直性为90,在数据结构无变化前提下,时间一直性依旧为90。
2):在未接收到数据质量评估请求的情况下,或,接收数据质量评估请求;若数据质量评估请求没有携带任一质量指标的标识,则将多个默认质量指标作为多个质量指标。
根据多个质量指标,执行获取待测数据集的数据的步骤201。
例如,根据前文所述,台式电脑可以通过web网页端提供数据质量的查询页面,用户访问该页面,该页面上展示了所有质量指标,当用户未选中任一质量指标,直接发送数据质量评估请求,服务器接收到台式电脑发送的数据质量评估请求,则确定这些质量指标是默认质量指标。该默认质量指标可以是指所有质量指标,也可以是部分预置好的质量指标。在此基础上,执行步骤201。
服务器可以每天自行确定一次质量,该质量是以所有质量指标为准的,或者,部分预置的质量指标为准的(即默认质量指标)。等待用户获取,如当用户发送数据质量评估请求,且数据质量评估请求中无任一类型,可以将该质量返回给用户。
需要说明的是,用户在页面中选中所有的质量指标,服务器接收到台式电脑发送的数据质量评估请求,根据数据质量评估请求中携带的质量指标的标识,如ID,确定这些质量指标是所有的,即默认类型。在此基础上,执行步骤201。
此外,可以在确定完多个质量指标后,基于是否需要监测待测数据集的情况,来执行步骤201。由于前文已经详细阐述过各个实施方式,此处就不再赘述。
202:根据待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况。
其中,确定多个质量指标的取值的方式可以包括以下几种:
1):确定待测数据集中每个字段取值范围是否随着时间保持一致;根据每个字段取值范围是否随着时间保持一致的确定结果,确定第一质量指标的取值;确定待测数据集中至少两个关联字段取值范围是否随着时间保持一致;根据至少两个关联字段取值范围是否保持一致的确定结果,确定第二质量指标的取值;确定待测数据集中每个字段是否具有的释义;根据每个字段是否具有的释义的确定结果,确定第三质量指标的取值;确定待测数据集中每个字段格式是否随着时间保持一致,并确定待测数据集中至少两个关联字段格式是否保持一致;根据每个字段格式是否随着时间保持一致的确定结果以及至少两个关联字段格式是否保持一致的确定结果,确定第四质量指标的取值。
其中,第一质量指标是指时间一直性。第二质量指标是指关联数据一致性。第三质量指标是指可理解性。第四质量指标是指规范性。
由于前文已经详细阐述过上述指标的确定方式的具体实施过程,此处仅一个指标为例说明:
服务器在确定时间一致性时,可以待测试数据集中共有100万条数据,其中,不符合时间一直性要求的数据为10万条,那么时间一直性为(90万/100万)*100=90。
2):确定待测数据集中是否存在缺失内容;根据是否存在缺失内容的确定结果,确定第五质量指标的取值;或确定待测数据集中是否存在异常内容;根据是否存在异常内容的确定结果,确定第五质量指标的取值;确定待测数据集中内容的有效覆盖度;根据有效覆盖度,确定第六质量指标的取值;确定待测数据集中内容的重复度;根据重复度,确定第七质量指标的取值。
其中,第五质量指标是指准确性。第六质量指标是指完整性。第七质量指标是指唯一性。
由于前文已经详细阐述过上述指标的确定方式的具体实施过程,此处仅一个指标为例说明:
服务器在确定准确性时,可以待测试数据集中共有100万条数据,其中,缺失的数据为10万条,那么准确性为(90万/100万)*100=90。
3):确定待测数据集的更新持续时间;根据更新持续时间,确定第八质量指标的取值;确定待测数据集更新时间的稳定度以及待测数据集更新内容的数量的稳定度;根据更新时间的稳定度以及更新内容的数量稳定度,确定第九质量指标的取值。
第八质量指标是指时效性。第九质量指标是指稳定性。
由于前文已经详细阐述过上述指标的确定方式的具体实施过程,此处仅一个指标为例说明:
服务器在确定稳定性时,可以待测试数据集中共有100万条数据,相较于昨天而言多出10万数据,根据数量稳定映射关系,可知,10万数据对应数值0.8*100=80,今天更新时间为9:00am,相对于昨天更新时间6:00am相差3个小时,根据时间稳定映射关系可知,3小时对应数值0.7*100=70,那么稳定性为70*a+80*b。其中,a和b分别为对应权重,可以a+b=1。
203:根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。
其中,重要度可以为权重。
多个质量指标对应的预期取值是指多个质量指标的预置取值,可以是理想状态下的预期取值。
其中,确定质量的方式可以包括:根据确定的每个质量指标的取值以及对应质量指标的重要度,确定待测数据集的实际质量;根据确定的每个质量指标的取值对应的预期取值以及对应质量指标的重要度,确定待测数据集的预期质量;根据实际质量以及预期质量,确定质量。
通过下式1)确定实际质量:
Figure BDA0002385426110000161
其中,SA为实际质量,n为质量指标数量,W为权重,S为质量指标的确定取值,i属于n。
通过下式2)确定预期质量:
Figure BDA0002385426110000162
其中,SE为实际质量,E为质量指标对应的预期数值。
质量SR通过下式3)确定:
SR=SA-SE 3)
若SR为正,则其数值越大,说明待测数据集的数据质量比预期的要好;若SR为负,则其数值越小,说明待测数据集的数据质量比预期的要差。
在确定完质量后,就可以根据用户发送来的请求进行返回了。
具体的,该方法200还包括:响应于质量评估请求,返回质量。
例如,根据前文所述,服务器在确定完质量后,可以根据接收到的质量评估请求发送该质量。
同时服务器还可以发送用于确定该质量的多个质量指标以及多个质量指标的确定取值,使得用户能够根据这些质量指标,来确定在质量较差时的问题。
图3示出了本申请另一示例性实施例提供的又一种方法的流程示意图。本申请实施例提供的该方法300由第二设备执行,如,服务器,该方法300包括以下步骤:
301:根据数据集对应的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型。
302:将待测数据集以及所需多个质量指标输入至数据质量确定模型,获取待测数据集的质量。
以下针对步骤301-302进行详细地阐述:
301:根据数据集对应的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型。
例如,建立一个六元组构成的计算模型M:M=<D,I,R,W,E,S>。D为待测数据集。一个待测数据集可以相当于一张数据表。I为待测数据集D上需要进行确定的质量指标,如完整性、准确性、时间一致性等。R为与质量指标相对应的确定方式或规则。确定方式或规则可以使用规范化的形式化语言来书写,以便于转换成程序脚本。W为赋予确定方式或规则R或对应质量指标的权值(可以为大于0的整数),描述了该确定方式或规则或质量指标在所有确定方式或规则或质量指标中所占的比重。E为对确定方式或规则或质量指标给出的期望值(可以介于0到100之间的实数),是在确定之前对该确定方式或规则或质量指标所期望得到的预置结果,即预期取值。S为确定方式或规则或质量指标对应的最终确定结果(可以介于0到100之间的实数),即确定取值。
确定方式或规则R的设置是开放式的,只需保证最终结果可以映射到0到100之间即可。当计算完确定方式或规则的结果,该模型便可以来计算待测数据集的数据质量。假设待测数据集D对应的确定方式或规则为R={R1,R2,...Rn}。R中每条确定方式或规则对应的权值集为W={W1,W2,...Wn},确定结果为S={S1,S2,...Sn},期望结果为E={E1,E2,...En}。由此就计算出了待测数据集D的数据质量。
需要说明的是,由于前文已经详细阐述过具体实现方式,此处就不在赘述。
302:将待测数据集以及所需多个质量指标输入至数据质量确定模型,获取待测数据集的质量。
例如,服务器将待测数据集的ID以及所需质量指标输入至模型中,并得到最终模型输出的质量。
图4为本申请一示例性实施例提供的数据质量的确定装置的结构框架示意图。该装置400可以应用于第二设备中,例如,服务器,该装置400包括获取模块401以及确定模块402;以下针对各个模块的功能进行详细的阐述:
获取模块401,用于获取待测数据集的数据。
确定模块402,用于所述待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况。
确定模块402,用于根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。
在一些实例中,确定模块402,还用于接收数据质量评估请求;若数据质量评估请求中携带了多个质量指标的标识,则根据标识,确定多个质量指标,质量指标的标识是由用户选择的;若数据质量评估请求没有携带任一质量指标的标识,则将多个默认质量指标作为多个质量指标。
在一些实例中,获取模块401,还用于根据多个质量指标,执行获取待测数据集的数据的步骤。
在一些实例中,该装置400还包括监测模块,用于监测待测数据集,并在监测到待测数据集更新后,执行获取待测数据集的数据的步骤。
在一些实例中,监测模块,用于监测待测数据集,并在监测到待测数据集的结构更新后,执行获取待测数据集的数据的步骤;监测待测数据集,并在监测到待测数据集的内容更新后,执行获取待测数据集的数据的步骤;监测待测数据集,并在监测到待测数据集的产生时间更新后,执行获取待测数据集的数据的步骤;和/或监测待测数据集,并在监测到使用待测数据集的服务更新后,执行获取待测数据集的数据的步骤。
在一些实例中,监测模块,用于获取待测数据集的当前字段信息,比较当前字段信息与最新历史字段信息;确定模块402,还用于在比较结果不同的情况下,确定待测数据集的结构进行了更新。
在一些实例中,监测模块,用于在待测数据集更新后,获取待测数据集的当前内容,比较当前内容与最新历史内容;确定模块402,还用于在比较结果不同的情况下,确定待测数据集的内容进行了更新。
在一些实例中,监测模块,用于在待测数据集更新后,获取待测数据集的当前更新时间,比较当前更新时间与最新历史更新时间;确定模块402,还用于在比较结果不同的情况下,确定待测数据集的产生时间进行了更新;监测模块,用于在数据集更新后,获取使用数据集的当前服务数量,比较当前服务数量与最新历史服务数量;确定模块402,还用于在比较结果不同的情况下,确定使用数据集的服务进行了更新。
在一些实例中,确定模块402,包括:第一确定单元,用于确定待测数据集中每个字段取值范围是否随着时间保持一致;根据每个字段取值范围是否随着时间保持一致的确定结果,确定第一质量指标的取值;确定待测数据集中至少两个关联字段取值范围是否随着时间保持一致;根据至少两个关联字段取值范围是否保持一致的确定结果,确定第二质量指标的取值;确定待测数据集中每个字段是否具有的释义;根据每个字段是否具有的释义的确定结果,确定第三质量指标的取值;确定待测数据集中每个字段格式是否随着时间保持一致,并确定待测数据集中至少两个关联字段格式是否保持一致;根据每个字段格式是否随着时间保持一致的确定结果以及至少两个关联字段格式是否保持一致的确定结果,确定第四质量指标的取值。
在一些实例中,确定模块402,包括:第二确定单元,用于确定待测数据集中是否存在缺失内容;根据是否存在缺失内容的确定结果,确定第五质量指标的取值;或确定待测数据集中是否存在异常内容;根据是否存在异常内容的确定结果,确定第五质量指标的取值;确定待测数据集中内容的有效覆盖度;根据有效覆盖度,确定第六质量指标的取值;确定待测数据集中内容的重复度;根据重复度,确定第七质量指标的取值。
在一些实例中,确定模块402,包括:第三确定单元,用于确定待测数据集的更新持续时间;根据更新持续时间,确定第八质量指标的取值;确定待测数据集更新时间的稳定度以及待测数据集更新内容的数量的稳定度;根据更新时间的稳定度以及更新内容的数量稳定度,确定第九质量指标的取值。
在一些实例中,确定模块402,包括:第四确定单元,用于根据确定的每个质量指标的取值以及对应质量指标的重要度,确定待测数据集的实际质量;根据确定的每个质量指标的取值对应的预期取值以及对应质量指标的重要度,确定待测数据集的预期质量;根据实际质量以及预期质量,确定质量。
在一些实例中,该装置400还包括:返回模块,用于响应于质量评估请求,返回质量、多个质量指标以及多个质量指标的确定取值。
图5示出了本申请又一示例性实施例提供的又一种数据质量的确定装置的结构框架示意图。该装置500可以应用于第二设备执行,如,服务器;该装置500包括:创建模块501以及获取模块502,以下针对各个模块的功能进行详细的阐述:
创建模块501,用于根据数据集对应的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型。
获取模块502,用于将待测数据集以及所需多个质量指标输入至数据质量确定模型,获取待测数据集的质量。
以上描述了图4所示的确定装置400的内部功能和结构,在一个可能的设计中,图4所示的确定装置400的结构可实现为服务器,如图6所示,该设备600可以包括:存储器601以及处理器602;
存储器601,用于存储计算机程序;
处理器602,用于执行计算机程序,以用于:获取待测数据集的数据;根据待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定多个质量指标的取值,多个质量指标反映待测数据集的结构、内容以及产生时间的情况;根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定待测数据集的质量。
在一些实例中,处理器602,还用于:接收数据质量评估请求;若数据质量评估请求中携带了多个质量指标的标识,则根据标识,确定多个质量指标,质量指标的标识是由用户选择的;若数据质量评估请求没有携带任一质量指标的标识,则将多个默认质量指标作为多个质量指标。
在一些实例中,处理器602,还用于:根据多个质量指标,执行获取待测数据集的数据的步骤。
在一些实例中,处理器602,还用于:监测待测数据集,并在监测到待测数据集更新后,执行获取待测数据集的数据的步骤。
在一些实例中,处理器602,还用于:监测待测数据集,并在监测到待测数据集的结构更新后,执行获取待测数据集的数据的步骤;监测待测数据集,并在监测到待测数据集的内容更新后,执行获取待测数据集的数据的步骤;监测待测数据集,并在监测到待测数据集的产生时间更新后,执行获取待测数据集的数据的步骤;和/或监测待测数据集,并在监测到使用待测数据集的服务更新后,执行获取待测数据集的数据的步骤。
在一些实例中,处理器602,具体用于:获取待测数据集的当前字段信息,比较当前字段信息与最新历史字段信息;处理器602,还用于:在比较结果不同的情况下,确定待测数据集的结构进行了更新。
在一些实例中,处理器602,具体用于:在待测数据集更新后,获取待测数据集的当前内容,比较当前内容与最新历史内容;处理器602,还用于:在比较结果不同的情况下,确定待测数据集的内容进行了更新。
在一些实例中,处理器602,具体用于:在待测数据集更新后,获取待测数据集的当前更新时间,比较当前更新时间与最新历史更新时间;处理器602,还用于:在比较结果不同的情况下,确定待测数据集的产生时间进行了更新;在数据集更新后,获取使用数据集的当前服务数量,比较当前服务数量与最新历史服务数量;在比较结果不同的情况下,确定使用数据集的服务进行了更新。
在一些实例中,处理器602,具体用于:确定待测数据集中每个字段取值范围是否随着时间保持一致;根据每个字段取值范围是否随着时间保持一致的确定结果,确定第一质量指标的取值;确定待测数据集中至少两个关联字段取值范围是否随着时间保持一致;根据至少两个关联字段取值范围是否保持一致的确定结果,确定第二质量指标的取值;确定待测数据集中每个字段是否具有的释义;根据每个字段是否具有的释义的确定结果,确定第三质量指标的取值;确定待测数据集中每个字段格式是否随着时间保持一致,并确定待测数据集中至少两个关联字段格式是否保持一致;根据每个字段格式是否随着时间保持一致的确定结果以及至少两个关联字段格式是否保持一致的确定结果,确定第四质量指标的取值。
在一些实例中,处理器602,具体用于:确定待测数据集中是否存在缺失内容;根据是否存在缺失内容的确定结果,确定第五质量指标的取值;或确定待测数据集中是否存在异常内容;根据是否存在异常内容的确定结果,确定第五质量指标的取值;确定待测数据集中内容的有效覆盖度;根据有效覆盖度,确定第六质量指标的取值;确定待测数据集中内容的重复度;根据重复度,确定第七质量指标的取值。
在一些实例中,处理器602,具体用于:确定待测数据集的更新持续时间;根据更新持续时间,确定第八质量指标的取值;确定待测数据集更新时间的稳定度以及待测数据集更新内容的数量的稳定度;根据更新时间的稳定度以及待测数据集更新内容的数量稳定度,确定第九质量指标的取值。
在一些实例中,处理器602,具体用于:根据确定的每个质量指标的取值以及对应质量指标的重要度,确定待测数据集的实际质量;根据确定的每个质量指标的取值对应的预期取值以及对应质量指标的重要度,确定待测数据集的预期质量;根据实际质量以及预期质量,确定质量。
在一些实例中,该设备600还包括通信组件603,通信组件603,用于:响应于质量评估请求,返回质量、多个质量指标以及多个质量指标的确定取值。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图2方法实施例中数据质量的确定方法的步骤。
以上描述了图5所示的确定装置500的内部功能和结构,在一个可能的设计中,图5所示的确定装置500的结构可实现为服务器,如图7所示,该设备700可以包括:存储器701以及处理器702;
存储器701,用于存储计算机程序;
处理器702,用于执行计算机程序,以用于:用于根据数据集对应的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型;将待测数据集以及所需多个质量指标输入至数据质量确定模型,获取待测数据集的质量。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图3方法实施例中数据质量的确定方法的步骤。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202、203等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程多媒体数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程多媒体数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (18)

1.一种数据质量的确定方法,其特征在于,包括:
获取待测数据集的数据;
根据所述待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,所述多个质量指标反映待测数据集的结构、内容以及产生时间的情况;
根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收数据质量评估请求;
若所述数据质量评估请求中携带了多个质量指标的标识,则根据所述标识,确定所述多个质量指标,所述质量指标的标识是由用户选择的;
若所述数据质量评估请求没有携带任一质量指标的标识,则将多个默认质量指标作为多个质量指标。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述多个质量指标,执行所述获取待测数据集的数据的步骤。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监测所述待测数据集,并在监测到所述待测数据集更新后,执行所述获取待测数据集的数据的步骤。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监测所述待测数据集,并在监测到待测数据集的结构更新后,执行所述获取待测数据集的数据的步骤;
监测所述待测数据集,并在监测到待测数据集的内容更新后,执行所述获取待测数据集的数据的步骤;
监测所述待测数据集,并在监测到待测数据集的产生时间更新后,执行所述获取待测数据集的数据的步骤;和/或
监测所述待测数据集,并在监测到使用所述待测数据集的服务更新后,执行所述获取待测数据集的数据的步骤。
6.根据权利要求5所述的方法,其特征在于,所述监测所述待测数据集,包括:
获取待测数据集的当前字段信息,比较所述当前字段信息与最新历史字段信息;
其中,所述方法还包括:在比较结果不同的情况下,确定所述待测数据集的结构进行了更新。
7.根据权利要求5所述的方法,其特征在于,所述监测所述待测数据集,包括:
在所述待测数据集更新后,获取待测数据集的当前内容,比较所述当前内容与最新历史内容;
其中,所述方法还包括:在比较结果不同的情况下,确定所述待测数据集的内容进行了更新。
8.根据权利要求5所述的方法,其特征在于,所述监测所述待测数据集,包括:
在所述待测数据集更新后,获取所述待测数据集的当前更新时间,比较所述当前更新时间与最新历史更新时间;
其中,所述方法还包括:
在比较结果不同的情况下,确定待测数据集的产生时间进行了更新;
所述监测所述待测数据集,包括:在所述数据集更新后,获取使用数据集的当前服务数量,比较所述当前服务数量与最新历史服务数量;
其中,所述方法还包括:在比较结果不同的情况下,确定使用所述数据集的服务进行了更新。
9.根据权利要求1或6所述的方法,其特征在于,所述根据所述待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,包括:
确定所述待测数据集中每个字段取值范围是否随着时间保持一致;
根据每个字段取值范围是否随着时间保持一致的确定结果,确定第一质量指标的取值;
确定所述待测数据集中至少两个关联字段取值范围是否随着时间保持一致;
根据至少两个关联字段取值范围是否保持一致的确定结果,确定第二质量指标的取值;
确定所述待测数据集中每个字段是否具有的释义;
根据每个字段是否具有的释义的确定结果,确定第三质量指标的取值;
确定所述待测数据集中每个字段格式是否随着时间保持一致,并确定所述待测数据集中至少两个关联字段格式是否保持一致;
根据每个字段格式是否随着时间保持一致的确定结果以及至少两个关联字段格式是否保持一致的确定结果,确定第四质量指标的取值。
10.根据权利要求1或7所述的方法,其特征在于,所述根据所述待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,包括:
确定所述待测数据集中是否存在缺失内容;
根据是否存在缺失内容的确定结果,确定第五质量指标的取值;或
确定所述待测数据集中是否存在异常内容;
根据是否存在异常内容的确定结果,确定第五质量指标的取值;
确定所述待测数据集中内容的有效覆盖度;
根据所述有效覆盖度,确定第六质量指标的取值;
确定所述待测数据集中内容的重复度;
根据所述重复度,确定第七质量指标的取值。
11.根据权利要求1或8所述的方法,其特征在于,所述根据所述待测数据集的数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,包括:
确定所述待测数据集的更新持续时间;
根据所述更新持续时间,确定第八质量指标的取值;
确定所述待测数据集更新时间的稳定度以及所述待测数据集更新内容的数量的稳定度;
根据所述更新时间的稳定度以及所述更新内容的数量稳定度,确定第九质量指标的取值。
12.根据权利要求1所述的方法,其特征在于,所述根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量,包括:
根据确定的每个质量指标的取值以及对应质量指标的重要度,确定待测数据集的实际质量;
根据确定的每个质量指标的取值对应的预期取值以及对应质量指标的重要度,确定待测数据集的预期质量;
根据所述实际质量以及所述预期质量,确定所述质量。
13.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述质量评估请求,返回所述质量、多个质量指标以及多个质量指标的确定取值。
14.一种数据质量的确定方法,其特征在于,包括:
根据数据集对应的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型;
将待测数据集以及所需多个质量指标输入至所述数据质量确定模型,获取所述待测数据集的质量。
15.一种数据质量的确定系统,其特征在于,包括:第一设备以及第二设备;
第一设备,发送质量评估请求至所述第二设备,所述质量评估请求用于获取待测数据集的质量;
第二设备,获取待测数据集的数据;
根据所述数据以及所述待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,所述多个质量指标反映待测数据集的结构、内容以及产生时间的情况;
根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量;
响应所述质量评估请求,返回所述质量至所述第一设备。
16.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
获取待测数据集的数据;
根据所述数据以及待测数据集的多个质量指标各自对应的确定方式,确定所述多个质量指标的取值,所述多个质量指标反映待测数据集的结构、内容以及产生时间的情况;
根据多个质量指标的确定取值、多个质量指标对应的预期取值以及多个质量指标的重要度,确定所述待测数据集的质量。
17.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
根据数据集的多个质量指标、多个质量指标各自的确定方式、多个质量指标的重要度以及多个质量指标的预期取值,创建数据质量确定模型;
将待测数据集以及所需多个质量指标输入至所述数据质量确定模型,获取所述待测数据集的质量。
18.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现权利要求1-14任一项所述方法中的步骤。
CN202010096483.5A 2020-02-17 2020-02-17 数据质量的确定方法、系统、计算设备及存储介质 Pending CN113268648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010096483.5A CN113268648A (zh) 2020-02-17 2020-02-17 数据质量的确定方法、系统、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096483.5A CN113268648A (zh) 2020-02-17 2020-02-17 数据质量的确定方法、系统、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN113268648A true CN113268648A (zh) 2021-08-17

Family

ID=77227467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096483.5A Pending CN113268648A (zh) 2020-02-17 2020-02-17 数据质量的确定方法、系统、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN113268648A (zh)

Similar Documents

Publication Publication Date Title
CN111221726A (zh) 一种测试数据生成方法、装置、存储介质和智能设备
CN109885786B (zh) 数据缓存处理方法、装置、电子设备及可读存储介质
CN108388509B (zh) 一种软件测试方法、计算机可读存储介质及终端设备
CN106952085B (zh) 一种数据存储与业务处理的方法及装置
CN113590432A (zh) 数据库的巡检方法与装置
CN110866698A (zh) 用于评定服务提供方的服务分值的装置
CN114610372A (zh) 评审文件的处理方法及装置、存储介质、处理器、终端
CN113268648A (zh) 数据质量的确定方法、系统、计算设备及存储介质
CN112882758B (zh) 一种iOS设备标识符的生成方法及系统
CN115033456A (zh) 一种内网前端性能监控方法、装置、计算机设备及存储介质
CN112199269B (zh) 一种数据处理的方法以及相关装置
CN113157671A (zh) 一种数据监控方法及装置
CN110266610B (zh) 流量识别方法、装置、电子设备
CN113297053A (zh) 测试覆盖率的确定方法、装置和存储介质
CN114238420B (zh) 基于多租户架构的元数据使用的方法、装置及电子设备
CN110781194B (zh) 应用程序的表数据处理方法、装置、电子设备及存储介质
CN110688302B (zh) 一种字段库自动化测试方法及装置
CN114281702A (zh) 信息推送模型测试方法、装置、设备、介质及产品
EP2833300A1 (en) Power management of electronic devices configured to generate analytical reports
CN112948219A (zh) 一种链路追踪方法及装置
CN115686722A (zh) 一种展示内容更新方法、装置、电子设备及存储介质
CN115934521A (zh) 业务应用的台账信息获取方法、装置和计算机设备
CN114429360A (zh) 转化率确定方法、装置、电子设备和计算机可读存储介质
CN114943040A (zh) 对象排序方法、装置、设备、介质以及产品
CN118153534A (zh) 报表生成方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination