CN114860699A - 数据质量检测方法、装置、设备和存储介质 - Google Patents

数据质量检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114860699A
CN114860699A CN202210356504.1A CN202210356504A CN114860699A CN 114860699 A CN114860699 A CN 114860699A CN 202210356504 A CN202210356504 A CN 202210356504A CN 114860699 A CN114860699 A CN 114860699A
Authority
CN
China
Prior art keywords
data
detection
data attribute
target data
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210356504.1A
Other languages
English (en)
Inventor
曾勇刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coordinate Software Group Co ltd
Original Assignee
Shenzhen Coordinate Software Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coordinate Software Group Co ltd filed Critical Shenzhen Coordinate Software Group Co ltd
Priority to CN202210356504.1A priority Critical patent/CN114860699A/zh
Publication of CN114860699A publication Critical patent/CN114860699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据质量检测方法、装置、设备和存储介质,属于计算机技术领域。所述方法包括:获取待检测的目标数据;根据目标数据的数据类型获取规定数据属性值;将目标数据和规定数据属性值作为实际参数输入检测模型,以通过检测模型对目标数据进行质量检测,并输出质量检测结果,实际参数用于为检测模型中的形式参数赋值。本申请通过将目标数据和规定数据属性值作为实际参数输入检测模型来为检测模型的形式参数赋值,实现对目标数据进行质量检测。如此软件开发者前期只需编写一个检测模型,后期无论待检测数据的数据类型是什么,都可以使用这个检测模型进行数据质量检测,从而节省人力,减少了软件开发者的工作量。

Description

数据质量检测方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种数据质量检测方法、装置、设备和存储介质。
背景技术
目前数据呈爆炸式增长,且数据的性质、类型不同,而数据的质量尤其重要,因此需要对产生的数据进行质量检测,以判断产生的数据是否符合要求。例如:一个医院的系统中每天会产生非常多的电子病历,每个电子病历中会存在不同类型的数据,比如,姓名是文本类型的数据,年龄是数字类型的数据,这些电子病历中的数据是否符合要求是非常重要的,因而需要对这些电子病历中的数据进行质量检测。
相关技术中,事先为不同类型的数据设置不同的检测规则,即一种类型的数据对应一种检测规则。在获取到待检测的一个数据后,判断该数据是否符合该数据的类型对应的检测规则,在该数据符合该数据的类型对应的检测规则时,确定该数据的质量合格,在该数据不符合该数据的类型对应的检测规则时,确定该数据的质量不合格。
上述方式中,对于软件开发者来说,需要为每种类型的数据都编写一个检测规则,如此使得软件开发者的工作量非常大,非常浪费人力。
发明内容
本申请提供了一种数据质量检测方法、装置、设备和存储介质,可以对数据进行质量检测,节省人力。所述技术方案如下:
第一方面,提供了一种数据质量检测方法,所述方法包括:
获取待检测的目标数据;
根据所述目标数据的数据类型获取规定数据属性值;
将所述目标数据和所述规定数据属性值作为实际参数输入检测模型,以通过所述检测模型对所述目标数据进行质量检测,并输出质量检测结果,所述实际参数用于为所述检测模型中的形式参数赋值。
在本申请中,获取待检测的目标数据,并根据目标数据的数据类型获取规定数据属性值,即获取到这种数据类型的数据的数据属性的规定值,之后将目标数据和规定数据属性值作为实际参数输入检测模型,为该检测模型中的形式参数赋值,以通过该检测模型对目标数据进行质量检测,得到质量检测结果。如此软件开发者前期只需编写一个检测模型,后期无论待检测数据的数据类型是什么,均可以使用这个检测模型进行数据质量检测,而不需要为不同数据类型的数据设置不同的检测规则,从而节省人力,减少了软件开发者的工作量。
可选地,所述根据所述目标数据的数据类型获取规定数据属性值,包括:
根据所述目标数据的数据类型,从数据类型和规定数据属性值之间的对应关系中,获取对应的规定数据属性值。
可选地,所述根据所述目标数据的数据类型获取规定数据属性值,包括:
显示信息输入界面,所述信息输入界面显示有所述目标数据的数据类型;
获取在所述信息输入界面输入的规定数据属性值。
可选地,所述检测模型中包括检测对象和检测条件,所述检测对象为形式参数,所述检测条件包括形式参数,所述检测模型用于:使用输入的所述目标数据为所述检测对象赋值,使用输入的所述规定数据属性值为所述检测条件中的形式参数赋值,判断赋值后的所述检测对象是否符合赋值后的所述检测条件,以得到所述质量检测结果。
可选地,所述规定数据属性值的数量和所述检测条件的数量均为n个,且n个规定数据属性值与n个检测条件一一对应,所述n为大于或等于2的整数;
所述使用输入的所述规定数据属性值为所述检测条件中的形式参数赋值,包括:
使用输入的所述n个规定数据属性值中的每个规定数据属性值为对应的所述检测条件中的形式参数赋值;
可选地,所述判断赋值后的所述检测对象是否符合赋值后的所述检测条件,以得到所述质量检测结果,包括:
获取赋值后的所述检测对象的n个数据属性值,所述n个数据属性值与所述n个检测条件一一对应;
判断所述n个数据属性值中的每个数据属性值是否满足对应的赋值后的所述检测条件,以得到所述质量检测结果。
可选地,所述判断所述n个数据属性值中的每个数据属性值是否满足对应的赋值后的所述检测条件,以得到所述质量检测结果,包括:
若所述n个数据属性值中的每个数据属性值均满足对应的赋值后的所述检测条件,则确定所述质量检测结果为合格;
若所述n个数据属性值中存在至少一个数据属性值不满足对应的赋值后的所述检测条件,则确定所述质量检测结果为不合格,并得到不合格记录,所述不合格记录中包括所述至少一个数据属性值中每个数据属性值的属性名。
可选地,所述目标数据为医院病历数据。
第二方面,提供了一种数据质量检测装置,所述装置包括:
第一获取模块,用于获取待检测的目标数据;
第二获取模块,用于根据所述目标数据的数据类型获取规定数据属性值;
检测模块,用于将所述目标数据和所述规定数据属性值作为实际参数输入检测模型,以通过所述检测模型对所述目标数据进行质量检测,并输出质量检测结果,所述实际参数用于为所述检测模型中的形式参数赋值。
可选地,所述第二获取模块用于:
根据所述目标数据的数据类型,从数据类型和规定数据属性值之间的对应关系中,获取对应的规定数据属性值。
可选地,所述第二获取模块用于:
显示信息输入界面,所述信息输入界面显示有所述目标数据的数据类型;
获取在所述信息输入界面输入的规定数据属性值。
可选地,所述检测模型中包括检测对象和检测条件,所述检测对象为形式参数,所述检测条件包括形式参数,所述检测模块包括:
第一赋值单元,用于使用输入的所述目标数据为所述检测对象赋值;
第二赋值单元,用于使用输入的所述规定数据属性值为所述检测条件中的形式参数赋值;
判断单元,用于判断赋值后的所述检测对象是否符合赋值后的所述检测条件,以得到所述质量检测结果。
可选地,所述规定数据属性值的数量和所述检测条件的数量均为n个,且n个规定数据属性值与n个检测条件一一对应,所述n为大于或等于2的整数;
所述第二赋值单元用于:
使用输入的所述n个规定数据属性值中的每个规定数据属性值为对应的所述检测条件中的形式参数赋值;
可选地,所述判断单元用于:
获取赋值后的所述检测对象的n个数据属性值,所述n个数据属性值与所述n个检测条件一一对应;
判断所述n个数据属性值中的每个数据属性值是否满足对应的赋值后的所述检测条件,以得到所述质量检测结果。
可选地,所述判断单元用于:
若所述n个数据属性值中的每个数据属性值均满足对应的赋值后的所述检测条件,则确定所述质量检测结果为合格;
若所述n个数据属性值中存在至少一个数据属性值不满足对应的赋值后的所述检测条件,则确定所述质量检测结果为不合格,并得到不合格记录,所述不合格记录中包括所述至少一个数据属性值中每个数据属性值的属性名。
可选地,所述目标数据为医院病历数据。
第三方面,提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的数据质量检测方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据质量方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的数据质量方法的步骤。
可以理解的是,上述第二方面、第三方面、第四方面、第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据质量检测方法的流程图;
图2是本申请实施例提供的另一种数据质量检测方法的流程图;
图3是本申请实施例提供的一种数据质量检测装置的流程图;
图4是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
应当理解的是,本申请提及的“多个”是指两个或两个以上。在本申请的描述中,除非另有说明,“/”表示或的意思,比如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,比如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述本申请的技术方案,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在对本申请实施例进行详细地解释说明之前,先对本申请实施例的应用场景予以说明。
本申请实施例提供的数据质量检测方法应用于对数据进行质量检测的场景中。
例如,本申请实施例提供的方法可以应用于对医院病历数据进行检测的场景中。具体地,先获取待检测的医院病历数据,通过使用一个统一的检测模型对医院病历数据进行质量检测,来得到质量检测结果,所有数据类型的医院病历数据均可以在这个检测模型中进行质量检测。如此,软件开发者只需编写一个检测模型,就可以使用这个检测模型实现对所有数据类型的医院病历数据的质量检测,从而减少了软件开发者的工作量,节省人力。
下面对本申请实施例提供的数据质量检测方法进行详细地解释说明。
图1是本申请实施例提供的一种数据质量检测方法的流程图。参见图1,该方法包括以下步骤。
步骤101:计算机设备获取待检测的目标数据。
目标数据为需要检测其质量是否合格的数据。可选地,目标数据可以为相关人员手动填写的数据。示例地,目标数据可以为医院病历数据、学生信息、职员信息等。
步骤102:计算机设备根据目标数据的数据类型获取规定数据属性值。
数据不同,数据的数据类型也可能会不同。例如:数据“张三”,“张三”的数据类型为“姓名”;又例如:数据“18”,“18”的数据类型为“年龄”。
该规定数据属性值为属于目标数据的数据类型的数据的相关数据属性的规定值。该规定数据属性值的个数与目标数据的数据属性的个数相同,也即,若目标数据具有n个数据属性,就存在n个规定数据属性值,且该n个规定数据属性值是该n个数据属性中每个数据属性的规定值,即该n个规定数据属性值与属于目标数据的数据类型的数据的n个数据属性一一对应,其中,n可以为1,也可以为大于或等于2的整数。
例如:数据类型“姓名”的数据具有3个数据属性,一个数据属性是非空属性,另一个数据属性是数据格式属性、另一个数据属性是数据合法范围属性,则数据类型“姓名”的数据存在3个规定数据属性值,比如,数据类型“姓名”的数据的非空属性对应的规定数据属性值(即非空属性的规定值)是“不为空”、数据格式属性对应的规定数据属性值(即数据格式属性的规定值)是“文本”、数据合法范围属性对应的规定数据属性值(即数据合法范围属性的规定值)为“5个字符以内”。
具体地,步骤102的操作可以通过如下两种可能的方式实现。
第一种可能的方式,计算机设备根据目标数据的数据类型,从数据类型和规定数据属性值之间的对应关系中,获取对应的规定数据属性值。
该数据类型和规定数据属性值之间的对应关系可以由技术人员设置。并且,在该对应关系中,某个数据类型对应的规定数据属性值即是这个数据类型的数据的数据属性的规定值。
例如:目标数据的数据类型为“年龄”,则可以从如下表1所示的数据类型和规定数据属性值之间的对应关系中,获取数据类型“年龄”对应的非空属性的规定数据属性值为“不为空”、对应的数据格式属性的规定数据属性值为“数字”、对应的数据合法范围属性的规定数据属性值为“0-130”,则获取的3个规定数据属性值为“不为空”、“数字”、“0-130”。
表1
Figure BDA0003583201890000071
本申请实施例仅以上表1为例来对数据类型和规定数据属性值之间的对应关系进行说明,上表1并不对本申请实施例构成限定。
第二种可能的方式,计算机设备显示信息输入界面,该信息输入界面显示有目标数据的数据类型;获取在该信息输入界面输入的规定数据属性值。
该信息输入界面用于提醒用户可以根据目标数据的数据类型在该信息输入界面输入对应的规定数据属性值。可选地,该信息输入界面中不仅可以显示有目标数据的数据类型,还可以显示目标数据的数据属性的属性名。
在这种情况下,用户可以根据目标数据的数据类型,自己设置规定数据属性值,并通过该信息输入界面将该规定数据属性值输入计算机设备中,以使计算机设备获得目标数据的数据类型对应的规定数据属性值。如此提高了数据质量检测的灵活性。
上述步骤102中计算机设备可以获取到目标数据的相关数据属性的规定值,即规定数据属性值,则可以进一步参考该规定数据属性值去检测目标数据的质量是否合格。即计算机设备继续执行如下步骤103。
步骤103:计算机设备将目标数据和该规定数据属性值作为实际参数输入检测模型,以通过该检测模型对目标数据进行质量检测,并输出质量检测结果,该实际参数用于为该检测模型中的形式参数赋值。
该检测模型用于对目标数据进行质量检测,并输出目标数据的质量检测结果。该检测模型中具有形式参数,形式参数为创建该检测模型时定义,用于为该检测模型中的某些参数值占位。在进行数据质量检测时将实际参数输入该检测模型中为形式参数赋值,实际参数为该检测模型中形式参数的实际值,如此可使该检测模型中具有真实的参数值,从而可进行质量检测。
该检测模型中包括检测对象和检测条件,该检测对象为形式参数,该检测条件包括形式参数。具体地,该检测模型用于:使用输入的目标数据为该检测对象赋值,使用输入的该规定数据属性值为该检测条件中的形式参数赋值,判断赋值后的该检测对象是否符合赋值后的该检测条件,以得到质量检测结果。
该检测对象与目标数据对应,是该检测模型中待检测的对象。将目标数据输入该检测模型中,可以将目标数据赋值给该检测对象,得到赋值后的该检测对象,该检测模型即可对赋值后的该检测对象进行质量检测。
该检测条件与该规定数据属性值对应,是该检测模型中用于检测该检测对象的质量的条件。将该规定数据属性值输入该检测模型中,可以为该检测条件中的形式参数赋值,赋值后的该检测条件为检测该检测对象的质量的实际检测条件,即赋值后的该检测条件可对该检测对象进行质量检测。
在这种情况下,该检测模型是一个统一的模型,只有在计算机设备输入实际参数之后,该检测模型才能得到该检测对象的实际值和用于检测该检测对象的质量的实际检测条件,如此该检测模型可以对目标数据进行质量检测。这种方式中软件开发者前期只需编写一个检测模型,编码简单,从而节省人力。
值得注意的是,在目标数据的数据属性的数量为1个时,该规定数据属性值的数量为1个,且该检测模型中的检测条件的数量为1个,这种情况下,该检测模型在对目标数据进行质量检测时执行以下步骤(1)-步骤(3):
(1)使用输入的目标数据为该检测对象赋值。
(2)使用输入的该规定数据属性值为该检测条件中的形式参数赋值。
(3)获取赋值后的该检测对象的1个数据属性值,判断该数据属性值是否符合赋值后的该检测条件,以得到质量检测结果。
该数据属性值为赋值后的该检测对象的数据属性的实际值,也即,为目标数据的数据属性值。
这种情况下,如果赋值后的该检测对象的1个数据属性值满足赋值后的该检测条件,则可以确定该质量检测结果为合格。如果赋值后的该检测对象的1个数据属性值不满足赋值后的该检测条件,则可以确定该质量检测结果为不合格。
可选地,在目标数据的数据属性的数量为n个,且n为大于或等于2的整数时,该规定数据属性值的数量和该检测条件的数量均为n个,且n个规定数据属性值与n个检测条件一一对应。这种情况下,该检测模型在对目标数据进行质量检测时执行以下步骤(1)-步骤(3)。
(1)使用输入的目标数据为该检测对象赋值。
(2)使用输入的该n个规定数据属性值中的每个规定数据属性值为对应的该检测条件中的形式参数赋值。
在这种情况下,可以使得该n个检测条件中的每个检测条件中的形式参数均得到实际值,从而得到n个用于检测该检测对象的实际检测条件。
(3)获取赋值后的该检测对象的n个数据属性值;判断该n个数据属性值中的每个数据属性值是否满足对应的赋值后的该检测条件,以得到质量检测结果。
该n个数据属性值中的每个数据属性值为对应的赋值后的检测对象的数据属性的实际值,也即,为目标数据的n个数据属性值。该n个数据属性值与该n个规定数据属性值一一对应,且该n个数据属性值与该n个检测条件一一对应。也即,该n个规定数据属性值中每个规定数据属性值为对应的一个数据属性值所属的数据属性的规定值,该n个检测条件中的每个检测条件用于检测对应的一个数据属性值。
由于赋值后的该n个检测条件是使用该n个规定数据属性值中的每个规定数据属性值为对应的该检测条件中的形式参数赋值得到的,则该检测模型对目标数据进行质量检测时,还需要获取该检测对象的n个数据属性值,该n个数据属性值与该n个检测条件一一对应,之后该检测模型就可以判断该n个数据属性值中的每个数据属性值是否满足对应的赋值后的该检测条件。
其中,该检测模型判断该n个数据属性值中的每个数据属性值是否满足对应的赋值后的该检测条件,以得到该质量检测结果的操作可以为:若该n个数据属性值中的每个数据属性值均满足对应的赋值后的该检测条件,则确定该质量检测结果为合格;若该n个数据属性值中存在至少一个数据属性值不满足对应的赋值后的该检测条件,则确定该质量检测结果为不合格,并得到不合格记录。
该不合格记录中包括不满足对应的赋值后的该检测条件的该至少一个数据属性值中每个数据属性值的属性名,该不合格记录用于向用户展示目标数据的哪些数据属性不符合规定要求。
在这种情况下,若该n个数据属性值中的每个数据属性值均满足对应的赋值后的该检测条件,说明该n个数据属性值中的每个数据属性值均满足对应的该规定数据属性值,即目标数据符合规定要求,则可以确定该质量检测结果为合格。若该n个数据属性值中存在至少一个数据属性值不满足对应的赋值后的该检测条件,说明该n个数据属性值中存在至少一个数据属性值不满足对应的规定数据属性值,即目标数据不符合规定要求,则可以确定该质量检测结果为不合格,同时得到不合格记录。
进一步地,该检测模型在得到该质量检测结果之后,还可以将该质量检测结果输出。并且,在该质量检测结果不合格的情况下,还可以输出不合格记录,以向用户展示目标数据的哪些数据属性不符合规定要求。
为了便于理解,下面以目标数据为医院病历数据、n为3为例,结合图2来对上述数据质量检测方法进行举例说明。参见图2,该数据质量检测方法包括如下步骤201-步骤206。
步骤201:计算机设备获取待检测的医院病历数据“张三”。
步骤202:计算机设备根据该医院病历数据“张三”的数据类型“姓名”,获取3个规定数据属性值为“不为空”、“文本”、“5个字符以内”。
步骤203:计算机设备将医院病历数据“张三”和3个规定数据属性值“不为空”、“文本”、“5个字符以内”作为实际参数输入该检测模型中,以使用“张三”为该检测模型中的检测对象赋值,使用“不为空”、“文本”、“5个字符以内”一一为该检测模型中的3个检测条件赋值,则得到该检测模型中赋值后的检测对象为“张三”,3个赋值后的检测条件分别为“是否不为空”、“格式是否为文本”、“字符个数是否在5个字符以内”。
步骤204:该检测模型获取赋值后的检测对象“张三”的3个数据属性值为“不为空”、“文本”、“2个字符”。
步骤205:该检测模型判断这3个数据属性值中的每个数据属性值是否满足对应的赋值后的检测条件。
具体地,第一个数据属性值为“不为空”,第一个赋值后的检测条件为“是否不为空”,则检测结果为是,第一个数据属性值满足第一个检测条件;第二个数据属性值为“文本”,第二个赋值后的检测条件为“格式是否为文本”,则检测结果为是,第二个数据属性值满足第二个检测条件;第三个数据属性值为“2个字符”,第三个赋值后的检测条件为“字符个数是否在5个字符以内”,则检测结果为是,第三个数据属性值满足第三个检测条件。说明这三个数据属性值中的每个数据属性值均满足对应的赋值后的检测条件,则可以确定医院病历数据“张三”的数据质量检测结果为合格。
步骤206:该检测模型输出质量检测结果为合格。
在本申请实施例中,计算机设备获取待检测的目标数据,并根据目标数据的数据类型获取规定数据属性值,即获取到这种数据类型的数据的数据属性的规定值,之后将目标数据和规定数据属性值作为实际参数输入检测模型,为该检测模型中的形式参数赋值,以通过该检测模型对目标数据进行质量检测,得到质量检测结果。如此软件开发者前期只需编写一个检测模型,后期无论待检测数据的数据类型是什么,均可以使用这个检测模型进行数据质量检测,而不需要为不同数据类型的数据设置不同的检测规则,从而节省人力,减少了软件开发者的工作量。
图3是本申请实施例提供的一种数据质量检测装置的结构示意图。该数据质量检测装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部,该计算机设备可以为下文图4所示的计算机设备。参见图3,该装置包括:第一获取模块301、第二获取模块302、检测模块303。
第一获取模块301,用于获取待检测的目标数据;
第二获取模块302,用于根据目标数据的数据类型获取规定数据属性值;
检测模块303,用于将目标数据和该规定数据属性值作为实际参数输入检测模型,以通过该检测模型对目标数据进行质量检测,并输出质量检测结果,该实际参数用于为该检测模型中的形式参数赋值。
可选地,第二获取模块302用于:
根据目标数据的数据类型,从数据类型和规定数据属性值之间的对应关系中,获取对应的规定数据属性值。
可选地,第二获取模块302用于:
显示信息输入界面,该信息输入界面显示有目标数据的数据类型;
获取在该信息输入界面输入的规定数据属性值。
可选地,该检测模型中包括检测对象和检测条件,该检测对象为形式参数,该检测条件包括形式参数,该检测模块303包括:
第一赋值单元,用于使用输入的目标数据为该检测对象赋值;
第二赋值单元,用于使用输入的该规定数据属性值为该检测条件中的形式参数赋值;
判断单元,用于判断赋值后的该检测对象是否符合赋值后的该检测条件,以得到该质量检测结果。
可选地,该规定数据属性值的数量和该检测条件的数量均为n个,且n个规定数据属性值与n个检测条件一一对应,n为大于或等于2的整数;第二赋值单元用于:
使用输入的该n个规定数据属性值中的每个规定数据属性值为对应的该检测条件中的形式参数赋值;
可选地,该判断单元用于:
获取赋值后的该检测对象的n个数据属性值,该n个数据属性值与该n个检测条件一一对应;
判断该n个数据属性值中的每个数据属性值是否满足对应的赋值后的该检测条件,以得到该质量检测结果。
可选地,该判断单元用于:
若该n个数据属性值中的每个数据属性值均满足对应的赋值后的该检测条件,则确定该质量检测结果为合格;
若该n个数据属性值中存在至少一个数据属性值不满足对应的赋值后的该检测条件,则确定该质量检测结果为不合格,并得到不合格记录,该不合格记录中包括该至少一个数据属性值中每个数据属性值的属性名。
可选地,目标数据为医院病历数据。
在本申请实施例中,获取待检测的目标数据,并根据目标数据的数据类型获取规定数据属性值,即获取到这种数据类型的数据的数据属性的规定值,之后将目标数据和规定数据属性值作为实际参数输入检测模型,为该检测模型中的形式参数赋值,以通过该检测模型对目标数据进行质量检测,得到质量检测结果。如此软件开发者前期只需编写一个检测模型,后期无论待检测数据的数据类型是什么,均可以使用这个检测模型进行数据质量检测,而不需要为不同数据类型的数据设置不同的检测规则,从而节省人力,减少了软件开发者的工作量。
需要说明的是:上述实施例提供的数据质量检测装置在对数据质量进行检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
上述实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请实施例的保护范围。
上述实施例提供的数据质量检测装置与数据质量检测方法实施例属于同一构思,上述实施例中单元、模块的具体工作过程及带来的技术效果,可参见方法实施例部分,此处不再赘述。
图4为本申请实施例提供的一种计算机设备的结构示意图。如图4所示,计算机设备4包括:处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42,处理器40执行计算机程序42时实现上述实施例中的数据质量检测方法中的步骤。
计算机设备4可以是一个通用计算机设备或一个专用计算机设备。在具体实现中,计算机设备4可以是台式机、便携式电脑、掌上电脑等终端设备,也可以是网络服务器,本申请实施例不限定计算机设备4的类型。本领域技术人员可以理解,图4仅仅是计算机设备4的举例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,比如还可以包括输入输出设备、网络接入设备等。
处理器40可以是中央处理单元(Central Processing Unit,CPU),处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器。
存储器41在一些实施例中可以是计算机设备4的内部存储单元,比如计算机设备4的硬盘或内存。存储器41在另一些实施例中也可以是计算机设备4的外部存储设备,比如计算机设备4上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器41还可以既包括计算机设备4的内部存储单元也包括外部存储设备。存储器41用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在该存储器中并可在该至少一个处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例中的步骤。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述方法实施例中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,该计算机程序包括计算机程序代码,该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。该计算机指令可以存储在上述计算机可读存储介质中。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据质量检测方法,其特征在于,所述方法包括:
获取待检测的目标数据;
根据所述目标数据的数据类型获取规定数据属性值;
将所述目标数据和所述规定数据属性值作为实际参数输入检测模型,以通过所述检测模型对所述目标数据进行质量检测,并输出质量检测结果,所述实际参数用于为所述检测模型中的形式参数赋值。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标数据的数据类型获取规定数据属性值,包括:
根据所述目标数据的数据类型,从数据类型和规定数据属性值之间的对应关系中,获取对应的规定数据属性值。
3.如权利要求1所述的方法,其特征在于,所述根据所述目标数据的数据类型获取规定数据属性值,包括:
显示信息输入界面,所述信息输入界面显示有所述目标数据的数据类型;
获取在所述信息输入界面输入的规定数据属性值。
4.如权利要求1所述的方法,其特征在于,所述检测模型中包括检测对象和检测条件,所述检测对象为形式参数,所述检测条件包括形式参数,所述检测模型用于:使用输入的所述目标数据为所述检测对象赋值,使用输入的所述规定数据属性值为所述检测条件中的形式参数赋值,判断赋值后的所述检测对象是否符合赋值后的所述检测条件,以得到所述质量检测结果。
5.如权利要求4所述的方法,其特征在于,所述规定数据属性值的数量和所述检测条件的数量均为n个,且n个规定数据属性值与n个检测条件一一对应,所述n为大于或等于2的整数;
所述使用输入的所述规定数据属性值为所述检测条件中的形式参数赋值,包括:
使用输入的所述n个规定数据属性值中的每个规定数据属性值为对应的所述检测条件中的形式参数赋值;
所述判断赋值后的所述检测对象是否符合赋值后的所述检测条件,以得到所述质量检测结果,包括:
获取赋值后的所述检测对象的n个数据属性值,所述n个数据属性值与所述n个检测条件一一对应;
判断所述n个数据属性值中的每个数据属性值是否满足对应的赋值后的所述检测条件,以得到所述质量检测结果。
6.如权利要求5所述的方法,其特征在于,所述判断所述n个数据属性值中的每个数据属性值是否满足对应的赋值后的所述检测条件,以得到所述质量检测结果,包括:
若所述n个数据属性值中的每个数据属性值均满足对应的赋值后的所述检测条件,则确定所述质量检测结果为合格;
若所述n个数据属性值中存在至少一个数据属性值不满足对应的赋值后的所述检测条件,则确定所述质量检测结果为不合格,并得到不合格记录,所述不合格记录中包括所述至少一个数据属性值中每个数据属性值的属性名。
7.如权利要求1-6任一所述的方法,其特征在于,所述目标数据为医院病历数据。
8.一种数据质量检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测的目标数据;
第二获取模块,用于根据所述目标数据的数据类型获取规定数据属性值;
检测模块,用于将所述目标数据和所述规定数据属性值作为实际参数输入检测模型,以通过所述检测模型对所述目标数据进行质量检测,并输出质量检测结果,所述实际参数用于为所述检测模型中的形式参数赋值。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202210356504.1A 2022-04-06 2022-04-06 数据质量检测方法、装置、设备和存储介质 Pending CN114860699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210356504.1A CN114860699A (zh) 2022-04-06 2022-04-06 数据质量检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210356504.1A CN114860699A (zh) 2022-04-06 2022-04-06 数据质量检测方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114860699A true CN114860699A (zh) 2022-08-05

Family

ID=82629028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210356504.1A Pending CN114860699A (zh) 2022-04-06 2022-04-06 数据质量检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114860699A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028481A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种数据质量检测方法、装置、设备和存储介质
CN116055350A (zh) * 2023-01-03 2023-05-02 重庆长安汽车股份有限公司 一种基于Json的数据通信质量检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN112396419A (zh) * 2020-12-08 2021-02-23 深圳前海微众银行股份有限公司 校验规则的生成方法、装置、设备和存储介质
CN113051262A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质
KR20210090576A (ko) * 2020-11-30 2021-07-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
KR20210090576A (ko) * 2020-11-30 2021-07-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램
CN112396419A (zh) * 2020-12-08 2021-02-23 深圳前海微众银行股份有限公司 校验规则的生成方法、装置、设备和存储介质
CN113051262A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116055350A (zh) * 2023-01-03 2023-05-02 重庆长安汽车股份有限公司 一种基于Json的数据通信质量检测方法
CN116055350B (zh) * 2023-01-03 2024-05-14 重庆长安汽车股份有限公司 一种基于Json的数据通信质量检测方法
CN116028481A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种数据质量检测方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN114860699A (zh) 数据质量检测方法、装置、设备和存储介质
CN111142863B (zh) 一种页面生成的方法及装置
CN107909569A (zh) 一种花屏检测方法、花屏检测装置及电子设备
CN109917978B (zh) 基于bim模型的批注对应构件显示方法、装置以及存储装置
CN107909368A (zh) 支付控制方法及装置、终端及可读存储介质
CN110688111A (zh) 业务流程的配置方法、装置、服务器和存储介质
CN112181500A (zh) 一种参数调整方法、装置、终端和存储介质
CN110058995B (zh) 一种可避免数据库类型的干扰的数据库测试方法以及系统
CN111767267B (zh) 元数据处理方法、装置、电子设备
CN117056352A (zh) 数据的展示方法、装置、终端设备和可读存储介质
CN111046393B (zh) 漏洞信息上传方法、装置、终端设备及存储介质
US9881210B2 (en) Generating a computer executable chart visualization by annotating a static image
CN111127223A (zh) 保险产品测试方法、装置和存储介质
CN112818129B (zh) 图谱建模系统及其方法
CN115794245A (zh) 数据加载方法及装置、电子设备、存储介质
CN113806526B (zh) 特征抽取方法、设备和存储介质
CN114911479A (zh) 基于配置化的界面生成方法、装置、设备及存储介质
CN113053531B (zh) 医疗数据处理方法、装置、计算机可读存储介质及设备
CN108334394B (zh) 多语言软件系统基础数据的多语言处理方法与装置
CN108021648B (zh) 一种搜题的方法、装置及智能终端
CN112559331A (zh) 测试方法和装置
CN112308074A (zh) 用于生成缩略图的方法和装置
CN111142965A (zh) 语言配置方法、装置、电子设备及存储介质
CN109783308A (zh) 一种终端检测的方法及终端设备
CN110688302B (zh) 一种字段库自动化测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination