CN117708112A - 数据检核方法、装置、电子设备和存储介质 - Google Patents
数据检核方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117708112A CN117708112A CN202311747095.9A CN202311747095A CN117708112A CN 117708112 A CN117708112 A CN 117708112A CN 202311747095 A CN202311747095 A CN 202311747095A CN 117708112 A CN117708112 A CN 117708112A
- Authority
- CN
- China
- Prior art keywords
- data
- checking
- checked
- rule
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000007689 inspection Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提出一种数据检核方法、装置、电子设备和存储介质,其中,该方法包括:在获取待检核数据后,确定待检核数据对应的至少一个待检核的数据质量指标;根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核;执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果,由此,实现了对待检核数据地自动化检核,无需人工检核,提高了数据检核的效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及数据检核方法、装置、电子设备和存储介质。
背景技术
随着互联网技术的发展与进步,金融系统每天都会处理大量的业务数据,这些业务数据反映了金融系统对金融业务处理的准确性,一般会对这些业务数据进行检核。相关技术中,一般通过人工的方式对业务数据进行检核,然而,这种人工检核的方式检核效率比较低。
发明内容
本申请提出一种数据检核方法、装置、电子设备和存储介质。
本申请一方面实施例提出了一种数据检核方法,获取数据检核规则组,其中,所述数据检核规则组中包括:各个数据质量指标对应的数据检核规则;确定待检核数据对应的至少一个待检核的数据质量指标;根据所述数据检核规则组中所述至少一个待检核的数据质量指标对应的目标数据检核规则,为所述待检核数据创建数据检核任务,所述数据检核任务用于利用所述目标数据检核规则对所述待检核数据进行检核;执行所述数据检核任务,以通过所述目标数据检核规则对所述待检核数据进行检核,以得到检核结果。
本申请另一方面实施例提出了一种数据检核装置,所述装置包括:获取模块,用于获取数据检核规则组,其中,所述数据检核规则组中包括:各个数据质量指标对应的数据检核规则;确定模块,用于确定待检核数据对应的至少一个待检核的数据质量指标;创建模块,用于根据所述数据检核规则组中所述至少一个待检核的数据质量指标对应的目标数据检核规则,为所述待检核数据创建数据检核任务,所述数据检核任务用于利用所述目标数据检核规则对所述待检核数据进行检核;任务执行模块,用于执行所述数据检核任务,以通过所述目标数据检核规则对所述待检核数据进行检核,以得到检核结果。
本申请另一方面实施例提出了一种电子设备,包括:存储器,处理器;所述存储器中存储有计算机指令,当所述计算机指令被所述处理器执行时,实现本申请实施例中的数据检核方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本申请实施例公开的数据检核方法。
根据本申请实施例提供的技术方案,在获取待检核数据后,确定待检核数据对应的至少一个待检核的数据质量指标;根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核;执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果,由此,实现了对待检核数据地自动化检核,无需人工检核,提高了数据检核的效率。
在本实施例中,在交互界面上显示各个数据质量指标所对应的数据检核规则,并根据用户所选中的多个数据检核规则,创建一个数据检核规则组。由此,使得用户通过交互界面,即可快速创建对应的数据检核规则组,满足了用户可视化创建对应的数据检核规则组的需求,提高了创建数据检核规则组的需求。
在本实施例中,根据检核结果,确定待检核数据中检核有问题的目标字段;根据目标字段生成待检核数据的数据质量报告,并输出数据质量报告。由此,使得对应人员可通过数据质量报告了解待检核数据的数据质量,从而更好地管理数据。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请一个实施例的数据检核方法的流程示意图。
图2是根据本申请另一个实施例的数据检核方法的流程示意图。
图3是根据本申请另一个实施例的数据检核方法的流程示意图。
图4是根据本申请另一个实施例的数据检核方法的流程示意图。
图5是根据本申请另一个实施例的数据检核方法的流程示意图。
图6是根据本申请一个实施例的数据检核装置的结构示意图。
图7是根据本申请一个实施例的电子设备的框图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的数据检核方法、装置和电子设备。
图1是根据本申请一个实施例的数据检核方法的流程示意图。其中,需要说明的是,本实施例提供的数据检核方法的执行主体为数据检核装置,该数据检核装置可以由软件和/或硬件的方式实现,该实施例中的数据检核装置可以为电子设备,或者,可以配置在电子设备中,以实现数据检核。其中,本申请实施例中的电子设备可以为包括终端设备、服务器等,例如终端设备可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备,该实施例对电子设备不作具体限定。
如图1所示,该数据检核方法可以包括:
步骤101,获取数据检核规则组,其中,数据检核规则组中包括:多个数据质量指标对应的数据检核规则。
其中,本实施例中的多个数据质量指标可以为:真实性、准确性、全面性、完整性、即时性、及时性、关联性和精确性中的至少两个。
在一个示例中,数据检核规则组中可以包括上述八个数据质量指标各自对应的数据检核规则。
其中,上述数据检核规则组是在数据检核装置中预先创建,并且已发布的。
其中,可以理解的是,可以根据实际需求在数据检核装置中创建、删除、编辑、复制和查询数据检核规则组。
在本申请的一个实施例中,获取数据检核规则组的一种可能实现方式为:显示多个已发布的数据检核规则组,并将从多个已发布的数据检核规则组中所选中的数据检核规则组作为该数据检核规则组。
其中,多个已发布的数据检核规则组是不相同的。
步骤102,确定待检核数据对应的至少一个待检核的数据质量指标。
其中,待检核数据可以是业务系统在进行业务处理时所产生的数据。例如,业务系统为金融系统,待检核数据可以是金融系统在进行金融业务处理时所产生的数据。
其中,需要说明的是,待检核数据所对应的待检核的数据质量指标可以是上述多个数据质量指标中的部分或者全部,该实施例对此不作具体限定。
例如,待检核数据所对应的待检核的数据质量指标可以包括准确性和完整性。又例如,待检核数据所对应的待检核的数据质量指标可以包括完整性。又例如,待检核数据所对应的待检核的数据质量指标可以包括唯一性和完整性。
在本申请的一个实施例中,可获取为该待检核数据所预先设置的至少一个待检核的数据质量指标。
步骤103,根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核。
在本实施例中,可从数据检核规则组中获取与至少一个待检核的数据质量指标对应的目标数据检核规则,并根据该目标数据检核规则,为该待检核数据创建数据检核任务。
步骤104,执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果。
在本申请的一个实施例中,在目标数据检核规则为多个的情况下,在执行数据检核任务的过程中,可通过各个目标数据检核规则,分别对待检核数据进行检核,并对各个目标数据检核规则所对应的检核子结果进行合并处理,以得到该数据检核任务的检核结果。
在本申请的另一个实施例中,在目标数据检核规则为多个的情况下,在执行数据检核任务的过程中,可基于为多个目标数据检核规则所设置的执行顺序,按照执行顺序,依次基于对应的目标数据检核规则对待检核数据进行检核,以得到对应的目标数据检核规则对应的检核子结果,并对各个数据检核规则对应的检核子结果进行合并处理,以得到数据检核任务的检核结果。
本申请实施例提供的数据检核方法,在获取待检核数据后,确定待检核数据对应的至少一个待检核的数据质量指标;根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核;执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果,由此,实现了对待检核数据地自动化检核,无需人工检核,提高了数据检核的效率。
图2是根据本申请另一个实施例的数据检核方法的流程示意图。其中,本实施例是对上述实施例的进一步细化或者优化。
如图2所示,该数据检核方法可以包括:
步骤201,获取数据检核规则组,其中,数据检核规则组中包括:多个数据质量指标对应的数据检核规则。
其中,需要说明的是,关于步骤101的具体实现方式,可参考本申请实施例的相关描述,此处不再赘述。
步骤202,获取待检核数据所属的业务系统。
其中,业务系统是指产生该待检核数据的系统。
步骤203,根据业务系统的数据质量要求,确定待检核数据对应的至少一个待检核的数据质量指标。
在本实施例中,可从数据质量要求中,获取待检核数据对应的至少一个待检核的数据质量指标。
步骤204,根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核。
其中,目标数据检核规则包括以下中的至少一种:非空检核规则、唯一性检核规则、主外键检核规则、值域检核规则、长度检核规则、代码检核规则和数据一致性检核规则,其中:非空检核规则用于指示对待检核数据中各个字段进行非空检核。
其中,可以理解的是,在基于非空检核规则对待检核数据中各个字段进行非空检核的过程中,在待检核数据中的目标字段的字段值为空的情况下,则确定目标字段即为检核有问题的字段。
在本实施例中,通过非空检核规则对待检核数据进行检核,可以保证待检核数据的完整性。
其中,唯一性检核规则用于指示待检核数据的主键值的唯一性进行检核。
在本实施例中,通过唯一性检核规则,对待检核数据进行检核,可以保证待检核数据的唯一性。
其中,主外键检核规则用于指示对待检核数据的主键值和外键值进行一致性检核;
在本实施例中,通过主外键检核规则,可检核待检核数据的唯一性。
其中,值域检核规则用于指示检核将待检核数据中各个字段的取值是否在对应字段的预设取值范围内;
其中,可以理解的是,如果待检核数据中某个字段的取值不在其对应的预设取值范围内,则确定该字段为检核有问题的目标字段。
在本实施例中,通过值域检核规则对待检核数据进行检核,可以保证待检核数据的准确性和完整性,避免待检核数据中存在无效或者错误的数据。
长度检核规则,其中,长度检核规则用于指示对待检核数据中各个字段的数据长度是否小于对应字段的预设长度阈值进行检核;
其中,可以理解的是,如果待检核数据中某个字段的数据长度超过其对应的预设长度阈值,则确定该字段即为检核有问题的目标字段。
在本实施例中,通过长度检核规则,对待检核数据进行检核,可以保证待检核数据的完整性和准确性。
其中,代码检核规则用于指示对代码中表示待检核数据中对应字段的变量进行一致性检核,以保证代码中表示待检核数据中对应字段的变量是一致的。
在本示例中,变量的变量名称与对应字段的字段名称是相对应的,例如,变量的变量名称可以是字段名称的首字母。
其中,数据一致性检核规则用于指示根据与待检核数据对应的参考数据,对待检核数据进行一致性检核,其中,参考数据与待检核数据具有相同的主键值,而数据来源不同。
在本实施例中,通过数据一致性检核规则,对待检核数据进行检核,可以保证待检核数据的准确性和完整性。
例如,在待检核数据所对应的待检核的数据质量指标为完整性的情况下,其数据质量指标所对应的数据检核规则可以包括:非空检核规则、唯一性检核规则、主外键检核规则、值域检核规则、长度检核规则和数据一致性检核规则。
步骤205,获取数据检核任务的执行条件。
在本实施例中,在创建该数据检核任务后,还可以结合需求对该数据任务设置对应的执行条件。
其中,执行条件是指触发该数据检核任务的条件,例如,执行条件可以包括该数据检核任务的执行时间,或者,当前资源占用量小于或者等于预设资源占用量阈值。
步骤206,判断当前是否满足执行条件。
步骤207,在满足执行条件的情况下,执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果。
基于上述实施例的描述,可以看出,在本实施例中结合待检核数据所属的业务系统的数据质量要求,准确确定待检核数据对应的至少一个待检核的数据质量指标,并且,在确定当前满足待数据检核任务的执行条件的情形下,自动执行数据检核任务,完成了对待检核数据地自动检核。
基于上述任意一个实施例的基础上,下面结合图3对该实施例的方法进行进一步示例性描述。
图3是根据本申请另一个实施例的数据检核方法的流程示意图。
如图3所示,该数据检核方法可以包括:
步骤301,获取数据检核规则组,其中,数据检核规则组中包括:多个数据质量指标对应的数据检核规则。
步骤302,确定待检核数据对应的至少一个待检核的数据质量指标。
步骤303,根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核。
步骤304,执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果。
其中,需要说明的是,关于步骤301至步骤304的具体实现方式,可参见本申请实施例的相关描述,此处不再赘述。
步骤305,根据检核结果,确定待检核数据中检核有问题的目标字段。
步骤306,根据目标字段生成待检核数据的数据质量报告。
步骤307,输出数据质量报告。
在本实施例中,可通过显示和/或者语音输出的方式输出数据质量报告,该实施例对数据质量报告的输出方式不作具体限定。
在本申请的一个实施例中,为了方便用户可视化查看数据质量报告,可在可视化界面上显示该数据质量报告。
在本实施例中,在基于数据检核任务自动完成待检核数据地数据检核后,根据所得到的检核结果确定出待检核数据中检核有问题的目标字段,并根据目标字段生成待检核数据的数据质量报告,并输出数据质量报告,以方便对应用户通过数据质量报告获知待检核数据中检核有问题的目标字段。
基于上述实施例的基础上,为了使得对应人员可以清楚地了解检核有问题的目标字段的更多信息,在一个实施例中,还获取目标字段的详细信息,并输出目标字段的详细信息。
其中,目标字段的详细信息可以包括以下信息中的至少一种:目标字段的字段名、目标字段的数据类型、目标字段的长度、目标字段的备注信息、目标字段所在的数据库表的表名以及目标字段在其所在的数据库表中的列序号。
其中,备注信息可以包括但不限于目标字段的含义、约束条件等。
在本申请的一个实施例中,在接收到针对目标字段的详细导出请求的情况下,响应于该详情导出请求,获取目标字段的详细信息,并输出目标字段的详细信息。
基于上述实施例的基础上,为了使得对应人员可以清楚地了解目标字段所在的数据库表的相关信息,在本申请的一个实施例中,确定目标字段所在的数据库表;获取数据库表的详细信息,并输出数据库表的详细信息。由此,使得对应人员可基于数据库表的详细信息了解数据库表的结构和属性。
其中,数据库表的详细信息可以包括以下信息中的至少一种:数据库表的表名、数据库表的表类型、数据库表中的行数、数据库表的索引信息、数据库表的约束条件、数据库表的注释信息、数据库表的创建时间以及更新时间等。
基于上述任意一个实施例的基础上,下面结合图4对对实施例的数据检核方法进行进一步示例性描述。
图4是根据本申请另一个实施例的数据检核方法的流程示意图。
如图4所示,该方法可以包括:
步骤401,获取数据检核规则组,其中,数据检核规则组中包括:多个数据质量指标对应的数据检核规则。
步骤402,确定待检核数据对应的至少一个待检核的数据质量指标。
其中,需要说明的是,关于步骤401至步骤402的具体实现方式,可参见本申请实施例中的相关描述,此处不再赘述。
步骤403,从数据检核规则组中获取与至少一个待检核的数据质量指标对应的目标数据检核规则。
其中,目标数据检核规则是指该数据检核规则组中与该待检核的数据质量指标所对应的数据检核规则。
步骤404,对多个目标数据检核规则进行排列组合,以得到多个不同的检核规则序列。
其中,多个不同的检核规则序列中多个目标数据检核规则的排序是不同的。
步骤405,针对每个检核规则序列,确定按照检核规则序列中各个目标数据检核规则的顺序依次对待检核数据进行数据检核时所需要的资源量。
在本申请的一个实施例中,针对每个检核规则序列,可将该检核规则序列输入到资源预测模型中,以通过该资源预测模型来预测基于检核规则序列中各个目标数据检核规则的顺序依次对待检核数据进行数据检核时所需要的资源量。
在本申请的另一个实施例中,针对每个检核规则序列,可获取与该检核规则序列所对应的已执行数据任务,并根据已执行数据任务对应的资源消耗量确定基于检核规则序列中各个目标数据检核规则的顺序依次对待检核数据进行数据检核时所需要的资源量,其中,已执行数据任务是基于该检核规则序列生成的。
在本实施例中,在已执行数据任务为多个的情况下,可对多个已执行数据任务对应的资源消耗量进行求平均处理,以得到基于检核规则序列进行数据检核时所需要的资源量。
在本实施例中,在已执行数据任务为一个的情况下,可将已执行数据任务对应的资源消耗量,确定为基于检核规则序列进行数据检核时所需要的资源量。
步骤406,从多个检核规则序列中,选择出资源量最小的目标检核规则序列。
步骤407,根据目标检核规则序列,为待检核数据创建数据检核任务,其中,数据检核任务用于根据目标检核规则序列中各个目标数据检核规则的顺序,依次采用对应的目标数据检核规则对数据检核规则进行检核。
步骤408,执行数据检核任务,以根据目标检核规则序列中各个目标数据检核规则的顺序,依次采用对应的目标数据检核规则对数据检核规则进行检核,以得到检核结果。
在本实施例中,在对待检核数据进行数据检核时需要多个目标数据检核规则的情况下,对多个目标数据检核规则进行排列组合,以得到多个不同的检核规则序列,针对每个检核规则序列,确定按照检核规则序列中各个目标数据检核规则的顺序依次对待检核数据进行数据检核时所需要的资源量从多个检核规则序列中,选择出资源量最小的目标检核规则序列,并根据目标检核规则序列中各个目标数据检核规则的顺序,为待检核数据创建数据检核任务。由此,可以实现使用最小的资源量来完成对待检核数据地数据检核,减少数据检核对资源的消耗。
为了可以清楚理解本申请,下面结合图5对该实施例的数据检核方法进行示例性描述。
图5是根据本申请另一个实施例的数据检核方法的流程示意图。
如图5所示,该方法可以包括:
步骤501,在确定目标账号有对检核规则进行管理的权限的情况下,根据检核规则创建操作,创建对应的数据检核规则组。
在本实施例中,可在交互界面上显示各个数据质量指标所对应的数据检核规则,并根据用户所选中的多个数据检核规则,创建一个数据检核规则组。由此,使得用户通过交互界面,即可快速创建对应的数据检核规则组,满足了用户可视化创建对应的数据检核规则组的需求,提高了创建数据检核规则组的需求。
其中,需要说明的是,用户还可以对所创建的数据检核规则组进行编辑、删除、复制、查看以及查询等操作。
步骤502,发布所创建的数据检核规则组。
步骤503,确定待检核数据的待检核数据的待检核的数据质量指标。
步骤504,在确定多个已发布的数据检核规则组中,存在对待检核数据进行检核时所需要的数据检核规则组的情况下,从多个已发布的数据检核规则组中获取所选中的目标数据检核规则组。
其中,需要说明的是,本实施例中的目标数据检核规则组中至少包括:对待检核数据进行待检核的数据质量指标进行检核时所需要的数据检核规则。也就是说,目标数据检核规则组中仅包括:对待检核数据进行待检核的数据质量指标进行检核时所需要的数据检核规则,或者,目标数据检核规则组中包含:对待检核数据进行待检核的数据质量指标进行检核时所需要的数据检核规则。
步骤505,在确定多个已发布的数据检核规则组中,不存在对待检核数据进行检核时所需要的数据检核规则组的情况下,为该待检核数据创建对应的目标数据检核规则组。
其中,目标数据检核规则组中仅包括:对待检核数据进行待检核的数据质量指标进行检核时所需要的数据检核规则。
在本实施例中,为该待检核数据创建对应的目标数据检核规则组的示例性过程为:响应于创建数据检核规则组的创建请求,展示数据检核规则组配置界面,其中,该数据检核规则组配置界面中包括数据检核规则列表,其中,数据检核规则列表中包括各个数据质量指标对应的数据检核规则;获取从数据检核规则列表中选择出至少一个目标数据检核规则,其中,目标数据检核规则与待检核的数据质量指标对应;根据目标数据检核规则,生成该待检核数据对应的目标数据检核规则组。
步骤506,从目标数据检核规则组中获取待检核数据所对应的待检核的数据质量指标的数据检核规则。
步骤507,根据待检核的数据质量指标的数据检核规则,为该待检核数据创建对应的数据检核任务。
在本实施例中,可在检核任务管理模块中对已创建的数据检核任务进行管理,例如,可根据需求对已创建的数据检核任务进行新增、删除和查询等。
其中,可以理解的是,在创建对应的数据检核任务后,还可以为该数据检核任务设置对应的执行条件,例如,执行条件可以为在每日的下午七点执行该数据检核任务。
步骤508,执行该数据检核任务,以得到检核结果,其中,检核结果指示出了检核有问题的目标字段。
步骤509,根据目标字段生成质量报告,并输出质量报告。
在本公开的一个实施例中,在数据检核装置有多个质量报告的情况下,用户可设置对应的时间范围,对应地,数据检核装置可获取生成时间处于该时间范围内的目标质量报告,并向用户返回该目标质量报告。可以理解的是,生成时间是指目标质量报告的生成时间,即,目标质量报告的生成时间处于该时间范围内。
在本公开的另一个实施例中,在数据检核装置接收到查看该数据检核任务的质量报告的请求的情况下,数据检核装置获取该数据检核任务的质量报告,并输出该质量报告。
在本公开的一个实施例中,在数据检核装置接收到查询请求,其中,查询请求用于指示查看目标账号所创建的数据检核任务的质量报告的情况下,可获取目标账号所创建的数据检核任务的质量报告,并输出该目标账号所创建的数据检核任务的质量报告。
步骤510,对于有问题的目标字段,获取该目标字段的详细信息,并导出该目标字段的详细信息。
步骤511,对于有问题的目标字段所在的目标数据库表,可获取该目标数据库表的详细信息,并导出该目标数据库表的详细信息。
步骤512,接收查询该数据检核任务的运行日志的查询请求,获取该查询数据检核任务的运行日志,并输出该数据检核任务的运行日志。
在本公开实施例中,根据数据检核规则组,为待检核数据所创建的数据检核任务,并通过执行数据检核任务完成了对待检核数据地自动检核,无需人工对检核数据检核,实现了自动化检核数据,提高了数据检核的效率。
与上述几种实施例提供的数据检核方法相对应,本申请的一种实施例还提供一种数据检核装置,由于本申请实施例提供的数据检核装置与上述几种实施例提供的数据检核方法相对应,因此在数据检核方法的实施方式也适用于本实施例提供的数据检核装置,在本实施例中不再详细描述。
图6是根据本申请一个实施例的数据检核装置的结构示意图。
如图6所示,该数据检核装置600可以包括:获取模块601、确定模块602、创建模块603和任务执行模块604,其中:
获取模块601,用于获取数据检核规则组,其中,数据检核规则组中包括:各个数据质量指标对应的数据检核规则。
确定模块602,用于确定待检核数据对应的至少一个待检核的数据质量指标。
创建模块603,用于根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核。
任务执行模块604,用于执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果。
在本申请的一个实施例中,确定模块602,具体用于:获取待检核数据所属的业务系统;根据业务系统的数据质量要求,确定待检核数据对应的至少一个待检核的数据质量指标。
在本申请的一个实施例中,该装置还可以包括:
质量报告处理模块,用于根据检核结果,确定待检核数据中检核有问题的目标字段;根据目标字段生成待检核数据的数据质量报告;输出数据质量报告。
在本申请的一个实施例中,该装置还可以包括:
第一详细信息处理模块,用于获取目标字段的详细信息,并输出目标字段的详细信息。
在本申请的一个实施例中,该装置还可以包括:
第二详细信息处理模块,用于确定目标字段所在的数据库表;获取数据库表的详细信息,并输出数据库表的详细信息。
其中,数据库表的详细信息可以包括以下信息中的至少一种:数据库表的表名、数据库表的表类型、数据库表中的行数、数据库表的索引信息、数据库表的约束条件、数据库表的注释信息、数据库表的创建时间以及更新时间等。
在本申请的一个实施例中,在目标数据检核规则为多个的情况下,创建模块603,具体用于:对多个目标数据检核规则进行排列组合,以得到多个不同的检核规则序列;针对每个检核规则序列,确定按照检核规则序列中各个目标数据检核规则的顺序依次对待检核数据进行数据检核时所需要的资源量;从多个检核规则序列中,选择出资源量最小的目标检核规则序列;根据目标检核规则序列,为待检核数据创建数据检核任务,其中,数据检核任务用于根据目标检核规则序列中各个目标数据检核规则的顺序,依次采用对应的目标数据检核规则对数据检核规则进行检核。
在本申请的一个实施例中,执行条件获取模块,用于获取数据检核任务的执行条件;
判断模块,用于判断当前是否满足执行条件;
任务执行模块604,具体用于:在满足执行条件的情况下,执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果。
在本申请的一个实施例中,目标数据检核规则包括以下中的至少一种:
非空检核规则,其中,非空检核规则用于指示对待检核数据中各个字段进行非空检核;
唯一性检核规则,其中,唯一性检核规则用于指示待检核数据的主键值的唯一性进行检核;
主外键检核规则,其中,主外键检核规则用于指示对待检核数据的主键值和外键值进行一致性检核;
值域检核规则,其中,值域检核规则用于指示检核将待检核数据中各个字段的取值是否在对应字段的预设取值范围内;
长度检核规则,其中,长度检核规则用于指示对待检核数据中各个字段的数据长度是否小于对应字段的预设长度阈值进行检核;
代码检核规则,其中,代码检核规则用于指示对代码中表示待检核数据中对应字段的变量进行一致性检核;
数据一致性检核规则,其中,数据一致性检核规则用于指示根据与待检核数据对应的参考数据,对待检核数据进行一致性检核,其中,参考数据与待检核数据具有相同的主键值,而数据来源不同。
本申请实施例提供的数据检核装置,在获取待检核数据后,确定待检核数据对应的至少一个待检核的数据质量指标;根据数据检核规则组中至少一个待检核的数据质量指标对应的目标数据检核规则,为待检核数据创建数据检核任务,数据检核任务用于利用目标数据检核规则对待检核数据进行检核;执行数据检核任务,以通过目标数据检核规则对待检核数据进行检核,以得到检核结果,由此,实现了对待检核数据地自动化检核,无需人工检核,提高了数据检核的效率。
根据本申请的实施例,本申请还提供了一种电子设备。
其中,电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现如前述任一实施例提出的数据检核方法。
作为一种示例,图7是根据本申请一个实施例的电子设备的框图,如图7所示,上述电子设备700,还可以包括:
存储器710及处理器720,连接不同组件(包括存储器710和处理器720)的总线730,存储器710存储有计算机程序,当处理器720执行程序时实现本申请实施例的数据检核方法。
总线730表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备700典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备700访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器710还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)740和/或高速缓存存储器750。服务器700可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统760可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线730相连。存储器710可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块770的程序/实用工具780,可以存储在例如存储器710中,这样的程序模块770包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块770通常执行本申请所描述的实施例中的功能和/或方法。
电子设备700也可以与一个或多个外部设备790(例如键盘、指向设备、显示器791等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口792进行。并且,电子设备700还可以通过网络适配器793与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器793通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器720通过运行存储在存储器710中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的数据检核方法的解释说明,此处不再赘述。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述任一实施例提出的数据检核方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,其特征在于,计算机程序/指令被处理器执行时实现上述任一实施例提出的数据检核方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据检核方法,其特征在于,所述方法包括:
获取数据检核规则组,其中,所述数据检核规则组中包括:多个数据质量指标对应的数据检核规则;
确定待检核数据对应的至少一个待检核的数据质量指标;
根据所述数据检核规则组中所述至少一个待检核的数据质量指标对应的目标数据检核规则,为所述待检核数据创建数据检核任务,所述数据检核任务用于利用所述目标数据检核规则对所述待检核数据进行检核;
执行所述数据检核任务,以通过所述目标数据检核规则对所述待检核数据进行检核,以得到检核结果。
2.如权利要求1所述的方法,其特征在于,所述确定待检核数据对应的至少一个待检核的数据质量指标,包括:
获取所述待检核数据所属的业务系统;
根据所述业务系统的数据质量要求,确定所述待检核数据对应的至少一个待检核的数据质量指标。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述检核结果,确定所述待检核数据中检核有问题的目标字段;
根据所述目标字段生成所述待检核数据的数据质量报告;
输出所述数据质量报告。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述目标字段所在的数据库表;
获取所述数据库表的详细信息,并输出所述数据库表的详细信息。
5.如权利要求1所述的方法,其特征在于,在所述目标数据检核规则为多个的情况下,所述根据所述数据检核规则组中所述至少一个待检核的数据质量指标对应的目标数据检核规则,为所述待检核数据创建数据检核任务,包括:
对多个所述目标数据检核规则进行排列组合,以得到多个不同的检核规则序列;
针对每个检核规则序列,确定按照所述检核规则序列中各个所述目标数据检核规则的顺序依次对所述待检核数据进行数据检核时所需要的资源量;
从多个所述检核规则序列中,选择出资源量最小的目标检核规则序列;
根据所述目标检核规则序列,为所述待检核数据创建数据检核任务,其中,所述数据检核任务用于根据所述目标检核规则序列中各个所述目标数据检核规则的顺序,依次采用对应的目标数据检核规则对所述数据检核规则进行检核。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述数据检核任务的执行条件;
判断当前是否满足所述执行条件;
所述执行所述数据检核任务,以通过所述目标数据检核规则对所述待检核数据进行检核,以得到检核结果,包括:
在满足所述执行条件的情况下,执行所述数据检核任务,以通过所述目标数据检核规则对所述待检核数据进行检核,以得到检核结果。
7.如权利要求1所述的方法,其特征在于,所述目标数据检核规则包括以下中的至少一种:
非空检核规则,其中,所述非空检核规则用于指示对所述待检核数据中各个字段进行非空检核;
唯一性检核规则,其中,所述唯一性检核规则用于指示所述待检核数据的主键值的唯一性进行检核;
主外键检核规则,其中,所述主外键检核规则用于指示对所述待检核数据的主键值和外键值进行一致性检核;
值域检核规则,其中,所述值域检核规则用于指示检核将所述待检核数据中各个字段的取值是否在对应字段的预设取值范围内;
长度检核规则,其中,所述长度检核规则用于指示对所述待检核数据中各个字段的数据长度是否小于对应字段的预设长度阈值进行检核;
代码检核规则,其中,所述代码检核规则用于指示对代码中表示所述待检核数据中对应字段的变量进行一致性检核;
数据一致性检核规则,其中,所述数据一致性检核规则用于指示根据与所述待检核数据对应的参考数据,对所述待检核数据进行一致性检核,其中,所述参考数据与所述待检核数据具有相同的主键值,而数据来源不同。
8.一种数据检核装置,其特征在于,所述装置包括:
获取模块,用于获取数据检核规则组,其中,所述数据检核规则组中包括:各个数据质量指标对应的数据检核规则;
确定模块,用于确定待检核数据对应的至少一个待检核的数据质量指标;
创建模块,用于根据所述数据检核规则组中所述至少一个待检核的数据质量指标对应的目标数据检核规则,为所述待检核数据创建数据检核任务,所述数据检核任务用于利用所述目标数据检核规则对所述待检核数据进行检核;
任务执行模块,用于执行所述数据检核任务,以通过所述目标数据检核规则对所述待检核数据进行检核,以得到检核结果。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311747095.9A CN117708112A (zh) | 2023-12-18 | 2023-12-18 | 数据检核方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311747095.9A CN117708112A (zh) | 2023-12-18 | 2023-12-18 | 数据检核方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117708112A true CN117708112A (zh) | 2024-03-15 |
Family
ID=90149446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311747095.9A Pending CN117708112A (zh) | 2023-12-18 | 2023-12-18 | 数据检核方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708112A (zh) |
-
2023
- 2023-12-18 CN CN202311747095.9A patent/CN117708112A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113360519B (zh) | 数据处理方法、装置、设备和存储介质 | |
CN114428822B (zh) | 一种数据处理的方法、装置、电子设备及存储介质 | |
CN113327136A (zh) | 归因分析方法、装置、电子设备及存储介质 | |
CN112506486A (zh) | 搜索系统建立方法、装置、电子设备及可读存储介质 | |
CN110308926B (zh) | 软件信息展示方法、装置、计算机装置及计算机存储介质 | |
CN112346951A (zh) | 业务的测试方法及装置 | |
CN113010208A (zh) | 一种版本信息的生成方法、装置、设备及存储介质 | |
CN112433753A (zh) | 基于参数信息的接口文档生成方法、装置、设备和介质 | |
CN117708112A (zh) | 数据检核方法、装置、电子设备和存储介质 | |
CN117194500A (zh) | 数据指标校验方法、装置、设备及存储介质 | |
CN115033456A (zh) | 一种内网前端性能监控方法、装置、计算机设备及存储介质 | |
CN114896164A (zh) | 接口优化方法、装置、电子设备及存储介质 | |
CN114691882A (zh) | 多源数据实时计算方法、装置、存储介质和设备 | |
CN111859985A (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN112667721A (zh) | 数据分析方法、装置、设备及存储介质 | |
CN113076317B (zh) | 基于大数据的数据处理方法、装置、设备及可读存储介质 | |
CN111639057A (zh) | 日志消息处理方法、装置、计算机设备及存储介质 | |
CN117573561B (zh) | 一种自动化测试系统、方法、电子设备和存储介质 | |
CN116991693B (zh) | 一种测试方法、装置、设备及存储介质 | |
CN114327377B (zh) | 需求跟踪矩阵生成方法、装置、计算机设备及存储介质 | |
US20220358445A1 (en) | Training assignment tool | |
CN115794827B (zh) | 一种数据表结构管理系统和方法 | |
CN112256688B (zh) | 业务数据清洗方法、装置、电子设备 | |
CN118673893B (zh) | 一种文书生成方法、装置、设备及计算机可读存储介质 | |
CN118133794B (zh) | 一种表格配置方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |