CN111241073A - 一种数据质量检查方法及装置 - Google Patents

一种数据质量检查方法及装置 Download PDF

Info

Publication number
CN111241073A
CN111241073A CN201811444397.8A CN201811444397A CN111241073A CN 111241073 A CN111241073 A CN 111241073A CN 201811444397 A CN201811444397 A CN 201811444397A CN 111241073 A CN111241073 A CN 111241073A
Authority
CN
China
Prior art keywords
data
quality inspection
inspection
data quality
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811444397.8A
Other languages
English (en)
Other versions
CN111241073B (zh
Inventor
唐静
孔计
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811444397.8A priority Critical patent/CN111241073B/zh
Publication of CN111241073A publication Critical patent/CN111241073A/zh
Application granted granted Critical
Publication of CN111241073B publication Critical patent/CN111241073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种数据质量检查方法及装置,涉及计算机技术领域,主要目的在于让用户能够更灵活的设置数据质量检查的需求,并基于大数据平台实现高效的数据质量检查。本发明主要的技术方案为:接收客户端发送的质检请求,所述质检请求至少携带了检查任务标识、检查参数的参数值;根据所述质检请求携带的检查任务标识获取对应的数据质检方案;利用所述质检请求携带的检查参数的参数值解析所述数据质检方案,生成大数据平台可执行的数据质检指令;发送所述数据质检指令至大数据平台;接收大数据平台执行所述数据质检指令后返回的数据质检结果。本发明用于数据质检。

Description

一种数据质量检查方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据质量检查方法及装置。
背景技术
通过对数据质量的检查可以确保数据提供方所提供数据的正确性。传统的数据质量检查方案是将数据存放在一处(文件系统或数据库中),之后按照质检需求编写对应的质检程序,执行数据质检。由于这些质检程序一般都是由编程人员根据质检需求所编写的,需要根据数据的类型,检查的内容与要求对应编写不同的质检程序,这就导致了质检程序具有较高的定制化需求,对编程人员的编写技术要求高,并且维护复杂。因此,现有的数据质量检查方案无法满足对数据的质检存在多样化需求的场景,导致数据质量检查的效率低下。
发明内容
鉴于上述问题,本发明提出了一种数据质量检查方法及装置,主要目的在于让用户能够更灵活的设置数据质量检查的需求,并基于大数据平台实现高效的数据质量检查。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种数据质量检查方法,具体包括:
接收客户端发送的质检请求,所述质检请求至少携带了检查任务标识、检查参数的参数值;
根据所述质检请求携带的检查任务标识获取对应的数据质检方案;
利用所述质检请求携带的检查参数的参数值解析所述数据质检方案,生成大数据平台可执行的数据质检指令;
发送所述数据质检指令至大数据平台;
接收大数据平台执行所述数据质检指令后返回的数据质检结果。
另一方面,本发明提供一种数据质量检查装置,具体包括:
请求接收单元,用于接收客户端发送的质检请求,所述质检请求至少携带了检查任务标识、检查参数的参数值;
方案获取单元,用于根据所述请求接收单元得到的质检请求中携带的检查任务标识获取对应的数据质检方案;
指令生成单元,用于利用所述请求接收单元得到的质检请求中携带的检查参数的参数值解析所述方案获取单元获取的数据质检方案,生成大数据平台可执行的数据质检指令;
指令发送单元,用于发送所述指令生成单元得到的数据质检指令至大数据平台;
质检结果接收单元,用于接收大数据平台执行所述数据质检指令后返回的数据质检结果。
另一方面,本发明提供一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述的数据质量检查方法。
借由上述技术方案,本发明提供的一种数据质量检查方法及装置,用于提供高效地数据质量检查服务,通过获取用户发送的携带有检查任务标识与检查参数的参数值的质检请求,确定用户需求的数据质检方案,进而根据该数据质检方案生成数据质检指令,并发送至大数据平台,由大数据平台执行数据质检指令后反馈数据质检结果。对比现有采用的数据质量检查方案,本发明在进行数据质量检查时,向用户提供了多种标准化的数据质检方案,用户可根据需求在质检请求中添加相应的检查任务标识以及检查参数的参数值,从而得到所需的数据质检方案,不再需要编程人员根据质检需求临时编写质检程序,使得数据质量检查更加简便易用,提升了数据质检效率。同时,本发明在执行数据质量检查时,并不是在本地执行,而是生成数据质检指令,由大数据平台执行质检,因此,本发明在对大量数据质检时,也无需设置大量的数据存储空间,降低了硬件配置需求,并且还充分利用了大数据平台的处理资源,以提高单个质检请求的质检效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种数据质量检查方法的流程图;
图2示出了本发明实施例提出的另一种数据质量检查方法的流程图;
图3示出了本发明实施例提出的一种数据质量检查装置的组成框图;
图4示出了本发明实施例提出的另一种数据质量检查装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据质量检查方法,该方法应用于提供数据质量检查服务的服务端,通过解析用户发送的质检请求,实现更为高效的数据质检。本发明提供的具体方法如图1所示,包括:
步骤101、接收客户端发送的质检请求。
其中,该质检请求中至少携带有检查任务标识、检查参数的参数值。本实施例中,用户可通过客户端选择检查任务标识,不同的检查任务标识对应有不同的数据质检方案,以满足不同的数据质检需求。而本步骤中的数据质检方案设置于服务端中,并且每个数据质检方案都是标准化方案,需要通过设置其中检查参数的参数值而形成完整的可执行方案。在实际应用中,不同检查任务标识所对应的数据质检方案会要求用户设置不同的检查参数的参数值,比如,需要用户选择待质检数据的版本号,数据范围等。
客户端利用用户选中的检查任务标识,以及所设置的检查参数的参数值生成质检请求,并发送给服务端。本实施例对于客户端生成质检请求的具体方式不做限定。
步骤102、根据质检请求携带的检查任务标识获取对应的数据质检方案。
步骤103、利用质检请求携带的检查参数的参数值解析数据质检方案,生成大数据平台可执行的数据质检指令。
上述两个步骤是在服务端执行,根据所接收的质检请求查找对应于检查任务标识的数据质检方案,并将检查参数的参数值添加到数据质检方案中,形成用户需求的可执行数据质检方案。由于本实施例中,待质检数据并不存储于服务端,而是存储于大数据平台,因此,服务端并不是执行该数据质检方案,而是基于该数据质检方案生成大数据平台可执行的数据质检指令。其中,具体的生成方式需要根据所对应的大数据平台而确定,本实施例不做限定。
步骤104、发送数据质检指令至大数据平台。
步骤105、接收大数据平台执行数据质检指令后返回的数据质检结果。
服务端在接收到大数据平台反馈的数据质检结果后,可以将该数据质检结果直接反馈给客户端以响应质检请求,也可以在服务端本地对该数据质检结果进行处理,再反馈给客户端,以便更好地向用户展示数据质检结果,还可以将该数据质检结果保存在本地,向客户端反馈一个质检请求的响应信息,以告知客户端数据质检完成,客户端可以进一步查询该数据质检结果。
通过上述实施例中的具体实现方式可以看出,本发明实施例中的服务端主要用于保存多种标准化的数据质检方案,根据用户发送的质检请求中携带的检查任务标识以及检查参数的参数值,合成用户所需求的个性化数据质检方案,并将该个性化数据质检方案转化为大数据平台可执行的数据质检指令,发送该数据质检指令,以便大数据平台执行并返回对应的数据质检结果。由此可见,本发明是利用大数据平台的处理资源实现数据质检,以提高数据质检的检查效率,并且,服务端中所保存的多种标准化的数据质检方案可以为用户提供多种的选择,以满足用户多变的检查需求,简化用户执行数据质量检查的操作难度。
进一步的,在上述图1所示的数据质量检查方法基础上,本发明针对步骤103生成数据质检指令的实现,还提供一种优选实施例,具体包括:
第一,利用检查参数的参数值解析出数据质检方案中记录的数据源、检查规则脚本及检查资源分配需求。
其中,数据源,用于确定待质检数据,一般地,一个数据源表示为大数据平台中存储的一类数据的数据集合,其具体形式不限定是标识,或者是可执行文件,比如,若数据源为标识时,那么可以确定大数据平台中具有该标识的所有数据为待质检数据,而当数据源为可执行文件时,该数据源中可以包括数据源初始化脚本,通过执行该数据源初始化脚本,可以确定待质检数据在大数据平台中的存储信息。
检查规则脚本,用于确定数据的质检规则,在一个数据质检方案至少包括一个检查规则脚本,对于较为复杂的数据质检方案,其中会含有一组或多组的检查规则脚本,而每组检查规则脚本中也至少含有一个检查规则脚本。通过执行检查规则脚本,可以得到对应的一条或多条的质检规则。
检查资源分配需求,用于指定大数据平台在执行数据质检指令时需要分配的处理资源,比如,用户可以指定大数据平台提供指定数量的节点同时执行该检查任务,并且,还可以指定各个节点所要处理的待质检数据。
第二,根据数据源确定待质检数据在大数据平台中的存储信息。
在本发明的一个优选实施例中,数据源为一可执行文件,并且,该数据源中含有数据源初始化脚本,通过执行该数据源中的数据源初始化脚本,可以确定待质检数据的数据名称,再根据数据名称确定待质检数据在大数据平台中的存储信息。一般地,服务端中会维护一个大数据平台中数据存储信息的对照表,通过该对照表可以确定待质检数据对应的存储信息。
需要说明的是,本发明中的数据源是预先设置在数据质检方案中的。
第三,执行检查规则脚本,得到数据质检规则。
在本发明的一个优选实施例中,该检查规则脚本具体可分为两类,其中,一类脚本是对数据进行筛选、分组的脚本,如,数据过滤脚本和数据分组脚本等,执行这些脚本得到的数据质检规则,在大数据平台会优先执行,因此,对于执行这类脚本得到的数据质检规则定义为第一阶段数据质检规则。而另一类脚本是对数据进行具体验证的脚本,即验证规则脚本,执行这类脚本得到的数据质检规则,在大数据平台中是在执行为第一阶段数据质检规则后所执行,因此,这类数据质检规则也称第二阶段数据质检规则,如,判断数据格式的规则、确定数据内容是否正确的规则等。本实施例中,第二阶段数据质检规则用于检查符合第一阶段数据质检规则的待质检数据。
需要说明的是,本发明中的检查规则脚本也是预先设置在数据质检方案中的,并且,对于检查规则脚本的分类需要根据大数据平台对检查规则脚本的具体执行逻辑确定,本实施例中的两个阶段仅为示例性的说明。
第四,根据存储信息、数据质检规则以及检查资源分配需求生成数据质检指令。
该数据质检指令为大数据平台可识别并执行的指令。根据该指令,大数据平台能够通过存储信息查找并提取待质检数据,并且根据检查资源分配需求确定执行该数据质检指令对应的节点,由所指定的节点按照数据质检规则对待质检数据进行质检操作,得到质检结果。
以基于Hadoop系统的大数据平台为例,说明大数据平台执行数据质量检查的具体流程为:首先,Hadoop系统根据服务端发送的数据质检指令中的存储信息提取待质检数据;之后,再根据检查资源分配需求确定系统中执行该数据质检指令对应的节点;由对应的节点按照数据质检规则,先在先在Mapper阶段(第一阶段)按照第一阶段数据质检规则检查待质检数据中不合格的数据,将检查合格的数据执行下一阶段的检查,即将这些数据传至Reducer中,执行Reducer阶段(第二阶段)的质量检查,该阶段按照第二阶段数据质检规则检查符合第一阶段数据质检规则的数据中是否存在不合格的数据,同时,将不合格的待质检数据分别保存在预设的数据集合中,在向服务端返回数据质检结果时,将预设的数据集合中的数据一同返回。
通过上述步骤可知,服务端将接收的质检请求通过解析后,最终得到的是大数据平台可执行的数据质检指令,这主要是考虑到待质检数据的数据量较大时,服务端存在存储容量的瓶颈,因此,将待质检数据存储于大数据平台,不仅解决的存储容量的问题,而且还可以有效地利用大数据平台的处理资源,使得服务端的处理资源可以更多的服务于其他的客户端,提高数据质检服务的处理效率。
进一步的,在本发明的另一个优选实施例中,客户端还可以在质检请求中加入质检结果的反馈方式,如此,服务端可以根据质检请求中的反馈方式来处理大数据平台反馈的数据质检结果。比如,反馈方式为向客户端反馈质检报告,那么,用户就需要在质检请求中加入所反馈质检报告的具体报告模板样式或者是报告模板的标识,而服务端在接收到大数据平台反馈的数据质检结果后,将调用对应的报告模板,将数据质检结果添加到报告模板中生成质检报告,并将该质检报告发送给客户端。
具体的,大数据平台反馈的数据质检结果主要分为两种,一种是全部合格,此时,反馈的数据质检结果为待质检数据合格的信息,服务端将该信息添加到报告模板中生成质检报告。另一种是存在不合格的待质检数据,此时,反馈的数据质检结果中包括质检不合格的待质检数据,这些质检不合格的待质检数据包括不符合第一阶段数据质检规则的待质检数据,和/或,不符合第二阶段数据质检规则的待质检数据,服务端在生成质检报告时,将先判断该数据质检结果中是否存在质检不合格的待质检数据,若存在,将提取质检不合格的待质检数据,并将这些数据添加到报告模板中,生成质检报告。
进一步的,在本发明的另一个优选实施例中,由于用户需求的不断变化,也需要对服务端中标准化的数据质检方案进行更新,以适应用户不断增加的数据质检需求。对此,本实施例在执行接收客户端发送的质检请求的操作之前,或者是在未执行数据质量检查时,定期检测服务端本地是否存在新增数据质检方案,若存在,则获取新增数据质检方案对应的新增检查任务标识,并将该新增检查任务标识发送至客户端,以更新客户端中的检查任务标识,增加用户对数据质检方案的可选数量。
结合上述对数据质量检查方法的具体说明,本发明提供其中一种优选的实施方案,具体如图2所示,包括:
步骤201、定期检测本地是否存在新增数据质检方案,若存在,则获取新增数据质检方案对应的新增检查任务标识。
步骤202、将新增检查任务标识发送至客户端。
步骤203、接收客户端发送的质检请求。
步骤204、根据质检请求携带的检查任务标识获取对应的数据质检方案。
步骤205、利用质检请求携带的检查参数的参数值解析数据质检方案,生成大数据平台可执行的数据质检指令。
步骤206、发送数据质检指令至大数据平台。
步骤207、接收大数据平台执行数据质检指令后返回的数据质检结果。
步骤208、判断数据质检结果中是否存在质检不合格的待质检数据。
步骤209、若存在,则将质检不合格的待质检数据添加到预设的报告模板中,生成质检报告。
进一步的,作为对上述图1与图2所示方法的实现,本发明实施例提供了一种数据质量检查装置,该装置设置在提供数据质量检查服务的服务端中,用于连接大数据平台并向其发送数据质检指令,从而接收大数据平台执行该数据质检指令返回的数据质检结果。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
请求接收单元31,用于接收客户端发送的质检请求,所述质检请求至少携带了检查任务标识、检查参数的参数值;
方案获取单元32,用于根据所述请求接收单元31得到的质检请求中携带的检查任务标识获取对应的数据质检方案;
指令生成单元33,用于利用所述请求接收单元31得到的质检请求中携带的检查参数的参数值解析所述方案获取单元32获取的数据质检方案,生成大数据平台可执行的数据质检指令;
指令发送单元34,用于发送所述指令生成单元33得到的数据质检指令至大数据平台;
质检结果接收单元35,用于接收大数据平台执行所述数据质检指令后返回的数据质检结果。
进一步的,如图4所示,所述指令生成单元33包括:
方案解析模块331,用于利用所述检查参数的参数值解析出所述数据质检方案中记录的数据源、检查规则脚本及检查资源分配需求;
数据确定模块332,用于根据所述方案解析模块331得到的数据源确定待质检数据在大数据平台中的存储信息;
规则获取模块333,用于执行所述方案解析模块331得到的检查规则脚本,得到数据质检规则;
指令生成模块334,用于根据所述数据确定模块332得到的存储信息、所述规则获取模块333得到的数据质检规则以及所述方案解析模块331得到的检查资源分配需求生成所述数据质检指令。
进一步的,如图4所示,所述数据源中含有数据源初始化脚本,所述数据确定模块332包括:
名称确定子模块3321,用于执行所述数据源初始化脚本,确定待质检数据的数据名称;
存储信息确定子模块3322,用于根据所述名称确定子模块3321得到的数据名称确定所述待质检数据在大数据平台中的存储信息。
进一步的,如图4所示,所述规则获取模块333包括:
第一规则获取子模块3331,用于执行数据过滤脚本和数据分组脚本,得到第一阶段数据质检规则;
第二规则获取子模块3332,用于执行验证规则脚本,得到第二阶段数据质检规则,其中,所述第二阶段数据质检规则用于检查符合第一阶段数据质检规则的待质检数据。
进一步的,所述质检结果接收单元35具体用于,接收大数据平台执行所述数据质检指令后返回的数据质检结果,所述数据质检结果包括:不符合第一阶段数据质检规则的待质检数据,和/或,不符合第二阶段数据质检规则的待质检数据。
进一步的,如图4所示,所述装置还包括:
报告生成单元36,用于判断所述质检结果接收单元35得到的数据质检结果中是否存在质检不合格的待质检数据;若存在,则将所述质检不合格的待质检数据添加到预设的报告模板中,生成质检报告。
进一步的,如图4所示,所述装置还包括:
方案更新单元37,用于在所述请求接收单元31接收客户端发送的质检请求之前,定期检测本地是否存在新增数据质检方案,若存在,则获取新增数据质检方案对应的新增检查任务标识;将所述新增检查任务标识发送至客户端。
综上所述,本发明实施例所采用的数据质量检查方法及装置,主要应用在提供数据质量检查服务的服务端中,由服务端根据客户端发送的质检请求,确定对应的数据质检方案,并将质检请求中携带的检查参数的参数值加入该数据质检方案中,从而得到用户所需求的个性化数据质检方案,生成大数据平台可执行的数据质检指令,由大数据平台对待质检数据进行质检。相对现有采用人工编写程序的数据质量检查方案,本发明在进行数据质量检查时,能够向客户端提供多种标准化的数据质检方案,用户可根据需求在质检请求中添加数据质检方案对应的检查任务标识以及检查参数的参数值,从而得到所需的个性化数据质检方案,不再需要编程人员根据质检需求临时编写质检程序,使得数据质量检查更加简便易用,提升了数据质检效率。同时,本发明在执行数据质量检查时,并不是在服务端本地执行,而是生成数据质检指令,由大数据平台执行数据质检,因此,本发明在对大量数据质检时,也无需设置大量的数据存储空间,降低了硬件配置需求,并且还可充分利用大数据平台的处理资源,以提高对待质检数据的质检效率。
进一步的,本发明实施例还提供了一种存储介质,该存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的数据质量检查方法。
另外,本发明实施例还提供了一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述的数据质量检查方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据质量检查方法,其特征在于,所述方法包括:
接收客户端发送的质检请求,所述质检请求至少携带了检查任务标识、检查参数的参数值;
根据所述质检请求携带的检查任务标识获取对应的数据质检方案;
利用所述质检请求携带的检查参数的参数值解析所述数据质检方案,生成大数据平台可执行的数据质检指令;
发送所述数据质检指令至大数据平台;
接收大数据平台执行所述数据质检指令后返回的数据质检结果。
2.根据权利要求1所述的方法,其特征在于,利用所述质检请求携带的检查参数的参数值解析所述数据质检方案,生成大数据平台可执行的数据质检指令,包括:
利用所述检查参数的参数值解析出所述数据质检方案中记录的数据源、检查规则脚本及检查资源分配需求;
根据所述数据源确定待质检数据在大数据平台中的存储信息;
执行所述检查规则脚本,得到数据质检规则;
根据所述存储信息、数据质检规则以及检查资源分配需求生成所述数据质检指令。
3.根据权利要求2所述的方法,其特征在于,所述数据源中含有数据源初始化脚本,所述根据所述数据源确定待质检数据在大数据平台中的存储信息,具体包括:
执行所述数据源初始化脚本,确定待质检数据的数据名称;
根据所述数据名称确定所述待质检数据在大数据平台中的存储信息。
4.根据权利要求2所述的方法,其特征在于,所述执行所述检查规则脚本,得到数据质检规则,包括:
执行数据过滤脚本和数据分组脚本,得到第一阶段数据质检规则;
执行验证规则脚本,得到第二阶段数据质检规则,其中,所述第二阶段数据质检规则用于检查符合第一阶段数据质检规则的待质检数据。
5.根据权利要求4所述的方法,其特征在于,接收大数据平台执行所述数据质检指令后返回的数据质检结果,包括:
接收大数据平台执行所述数据质检指令后返回的含有质检不合格的待质检数据的数据质检结果,所述质检不合格的待质检数据包括:不符合第一阶段数据质检规则的待质检数据,和/或,不符合第二阶段数据质检规则的待质检数据。
6.根据权利要求1-5中任一项权利要求所述的方法,其特征在于,所述方法还包括:
判断所述数据质检结果中是否存在质检不合格的待质检数据;
若存在,则将所述质检不合格的待质检数据添加到预设的报告模板中,生成质检报告。
7.根据权利要求1所述的方法,其特征在于,在接收客户端发送的质检请求之前,所述方法还包括:
定期检测本地是否存在新增数据质检方案,若存在,则获取新增数据质检方案对应的新增检查任务标识;
将所述新增检查任务标识发送至客户端。
8.一种数据质量检查装置,其特征在于,所述装置包括:
请求接收单元,用于接收客户端发送的质检请求,所述质检请求至少携带了检查任务标识、检查参数的参数值;
方案获取单元,用于根据所述请求接收单元得到的质检请求中携带的检查任务标识获取对应的数据质检方案;
指令生成单元,用于利用所述请求接收单元得到的质检请求中携带的检查参数的参数值解析所述方案获取单元获取的数据质检方案,生成大数据平台可执行的数据质检指令;
指令发送单元,用于发送所述指令生成单元得到的数据质检指令至大数据平台;
质检结果接收单元,用于接收大数据平台执行所述数据质检指令后返回的数据质检结果。
9.根据权利要求8所述的装置,其特征在于,所述指令生成单元包括:
方案解析模块,用于利用所述检查参数的参数值解析出所述数据质检方案中记录的数据源、检查规则脚本及检查资源分配需求;
数据确定模块,用于根据所述方案解析模块得到的数据源确定待质检数据在大数据平台中的存储信息;
规则获取模块,用于执行所述方案解析模块得到的检查规则脚本,得到数据质检规则;
指令生成模块,用于根据所述数据确定模块得到的存储信息、所述规则获取模块得到的数据质检规则以及所述方案解析模块得到的检查资源分配需求生成所述数据质检指令。
10.一种处理器,其特征在于,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行权利要求1-7中任意一项所述的数据质量检查方法。
CN201811444397.8A 2018-11-29 2018-11-29 一种数据质量检查方法及装置 Active CN111241073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811444397.8A CN111241073B (zh) 2018-11-29 2018-11-29 一种数据质量检查方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811444397.8A CN111241073B (zh) 2018-11-29 2018-11-29 一种数据质量检查方法及装置

Publications (2)

Publication Number Publication Date
CN111241073A true CN111241073A (zh) 2020-06-05
CN111241073B CN111241073B (zh) 2023-06-20

Family

ID=70865782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811444397.8A Active CN111241073B (zh) 2018-11-29 2018-11-29 一种数据质量检查方法及装置

Country Status (1)

Country Link
CN (1) CN111241073B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115121A (zh) * 2020-11-20 2020-12-22 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112463780A (zh) * 2020-12-02 2021-03-09 中国工商银行股份有限公司 数据质量检查方法及装置
CN112632048A (zh) * 2020-12-18 2021-04-09 恩亿科(北京)数据科技有限公司 一种数据质量检测方法、系统、电子设备及存储介质
CN113051262A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质
CN113127471A (zh) * 2021-05-11 2021-07-16 数库(上海)科技有限公司 自动化数据质量检验的方法、装置、设备和存储介质
CN117131037A (zh) * 2023-10-25 2023-11-28 北京集度科技有限公司 一种数据质量检测方法、装置、系统及智能车辆

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820720A (zh) * 2015-05-26 2015-08-05 北京京东尚科信息技术有限公司 一种数据质量检测方法和装置
CN107122483A (zh) * 2017-05-05 2017-09-01 国家测绘地理信息局四川测绘产品质量监督检验站 基础地理信息数据质检方法、装置及系统
CN107256247A (zh) * 2017-06-07 2017-10-17 九次方大数据信息集团有限公司 大数据数据治理方法和装置
WO2018006789A1 (zh) * 2016-07-04 2018-01-11 中兴通讯股份有限公司 一种参数校验方法和装置、以及网管服务器和计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820720A (zh) * 2015-05-26 2015-08-05 北京京东尚科信息技术有限公司 一种数据质量检测方法和装置
WO2018006789A1 (zh) * 2016-07-04 2018-01-11 中兴通讯股份有限公司 一种参数校验方法和装置、以及网管服务器和计算机存储介质
CN107122483A (zh) * 2017-05-05 2017-09-01 国家测绘地理信息局四川测绘产品质量监督检验站 基础地理信息数据质检方法、装置及系统
CN107256247A (zh) * 2017-06-07 2017-10-17 九次方大数据信息集团有限公司 大数据数据治理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王剑辉;梁龙帅;林建美;黄永芳;: "基于规则驱动的农村地籍调查质量检查软件的设计与实现" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115121A (zh) * 2020-11-20 2020-12-22 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112115121B (zh) * 2020-11-20 2023-12-12 陕西云基华海信息技术有限公司 一种数据治理实时数据质量检测系统
CN112463780A (zh) * 2020-12-02 2021-03-09 中国工商银行股份有限公司 数据质量检查方法及装置
CN112463780B (zh) * 2020-12-02 2024-01-05 中国工商银行股份有限公司 数据质量检查方法及装置
CN112632048A (zh) * 2020-12-18 2021-04-09 恩亿科(北京)数据科技有限公司 一种数据质量检测方法、系统、电子设备及存储介质
CN113051262A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质
CN113051262B (zh) * 2021-04-30 2024-01-26 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质
CN113127471A (zh) * 2021-05-11 2021-07-16 数库(上海)科技有限公司 自动化数据质量检验的方法、装置、设备和存储介质
CN117131037A (zh) * 2023-10-25 2023-11-28 北京集度科技有限公司 一种数据质量检测方法、装置、系统及智能车辆

Also Published As

Publication number Publication date
CN111241073B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111241073B (zh) 一种数据质量检查方法及装置
CN110309071B (zh) 测试代码的生成方法及模块、测试方法及系统
CN109299178B (zh) 一种模型应用方法和数据分析系统
CN110019298B (zh) 数据处理方法和装置
CN109918296B (zh) 软件自动化测试方法及装置
CN110750458A (zh) 大数据平台测试方法、装置、可读存储介质及电子设备
CN111651365B (zh) 接口自动化测试方法及装置
CN111026080A (zh) 控制器的硬件在环测试方法及装置
CN111797995A (zh) 一种模型预测样本的解释报告的生成方法及装置
CN115987821A (zh) 网关路由测试方法及装置
CN116069577A (zh) 一种rpc服务的接口测试方法、设备及介质
CN114329495A (zh) 基于内生安全的资产漏洞静态分析方法及装置
CN114490413A (zh) 测试数据的准备方法及装置、存储介质和电子设备
CN112035308A (zh) 系统接口测试表格的生成方法及装置
CN114629807A (zh) 工单处理方法、装置及设备
CN112181816A (zh) 一种基于场景的接口测试方法、装置、计算机设备及介质
CN110399298A (zh) 一种测试方法及装置
CN111158873A (zh) 系统状态机实现方法、装置、存储介质及处理器
CN110851750B (zh) 一种数据获取方法及装置
CN114070737B (zh) 设备的配置数据的检查方法、装置、存储介质及电子设备
CN115144678B (zh) 一种可视化测试条件配置方法及装置
CN110968488B (zh) 用户数据的存储方法及装置
CN114629788B (zh) 配置信息的更新方法、系统、存储介质和电子装置
CN112817635B (zh) 一种模型处理方法和数据处理系统
CN117971647A (zh) 一种接口测试方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant