CN112988780A - 数据校核方法和装置、存储介质及电子设备 - Google Patents

数据校核方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112988780A
CN112988780A CN202110004962.4A CN202110004962A CN112988780A CN 112988780 A CN112988780 A CN 112988780A CN 202110004962 A CN202110004962 A CN 202110004962A CN 112988780 A CN112988780 A CN 112988780A
Authority
CN
China
Prior art keywords
data
checking
data set
error
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110004962.4A
Other languages
English (en)
Inventor
逄凌志
肖峥崎
鲁元莲
田克岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Unitech Power Technology Co Ltd
Original Assignee
Zhuhai Unitech Power Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Unitech Power Technology Co Ltd filed Critical Zhuhai Unitech Power Technology Co Ltd
Priority to CN202110004962.4A priority Critical patent/CN112988780A/zh
Publication of CN112988780A publication Critical patent/CN112988780A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据校核方法和装置、存储介质及电子设备。其中,该方法包括:初始化获取当前匹配的知识库,其中,知识库中包括数据集定义表和数据校核规则定义表,数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;根据数据集定义表从数据库中获取待校核的目标数据集;根据数据校核规则定义表中的数据校核规则,对目标数据集进行校核。本发明解决了相关技术中业务数据逻辑较复杂导致难以保证校核效率的技术问题。

Description

数据校核方法和装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据校核方法和装置、存储介质及电子设备。
背景技术
为了保证业务数据的准确性,很多企业常常会对业务数据的正确性和完整性进行校核。目前常用的方式是人工校核或程序自动校核。这里的程序自动校核通常是根据具体的业务需求提出各种校核算法,在程序内部直接实现数据正确性校核。但上述方法主要是针对具有明确真假判定的标准源,对单个字段值进行合法性校验,比如数字、字母的合法性,字符串简单比较等。也就是说,相关技术提供的校核方法只能针对字段进行一致性校核,不一致则确定为非法。
但实际上在电力系统的二次防误业务中,由于业务逻辑较复杂,使得编程人员往往难以理解业务数据之间的关联关系、逻辑关系、数据模型实例等,从而导致难以快速设计出对上述业务数据进行校核的程序。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据校核方法和装置、存储介质及电子设备,以至少解决相关技术中业务数据逻辑较复杂导致难以保证校核效率的技术问题。
根据本发明实施例的一个方面,提供了一种数据校核方法,包括:初始化获取当前匹配的知识库,其中,上述知识库中包括数据集定义表和数据校核规则定义表,上述数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,上述数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;根据上述数据集定义表从数据库中获取待校核的目标数据集;根据上述数据校核规则定义表中的数据校核规则,对上述目标数据集进行校核。
根据本发明实施例的另一方面,还提供了一种数据校核装置,包括:第一获取单元,用于初始化获取当前匹配的知识库,其中,上述知识库中包括数据集定义表和数据校核规则定义表,上述数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,上述数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;第二获取单元,用于根据上述数据集定义表从数据库中获取待校核的目标数据集;校核单元,用于根据上述数据校核规则定义表中的数据校核规则,对上述目标数据集进行校核。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据校核方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的数据校核方法。
在本发明实施例中,在初始化获取当前匹配的知识库后,根据数据集定义表从数据库中获取待校核的目标数据集,其中,知识库中包括数据集定义表和数据校核规则。利用上述数据校核规则中的校核条件,对目标数据集进行校核。也就是说,在将复杂的业务数据构成数据集的情况下,通过在数据校核规则中配置校核条件来对上述数据集中的数据进行自动校核,而无需将数据之间复杂的逻辑关系固化在程序内部。从而简化了数据校核的开发设计工作,同时,提高了针对复杂业务数据进行校核的校核效率。进而克服了相关技术中数据校核效率较低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据校核方法的流程图;
图2是根据本发明实施例的一种可选的数据校核系统的示意图;
图3是根据本发明实施例的另一种可选的数据校核方法的示意图;
图4是根据本发明实施例的又一种可选的数据校核方法的示意图;
图5是根据本发明实施例的另一种可选的数据校核方法的流程图;
图6是根据本发明实施例的一种可选的数据校核装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种数据校核方法,可选地,作为一种可选的实施方式,如图1所示,上述数据校核方法包括:
S102,初始化获取当前匹配的知识库,其中,知识库中包括数据集定义表和数据校核规则定义表,数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;
S104,根据数据集定义表从数据库中获取待校核的目标数据集;
S106,根据数据校核规则定义表中的数据校核规则,对目标数据集进行校核。
可选地,在本实施例中,上述数据校核方法可以但不限于应用于电力系统中的二次防误业务中。其中该方法可以但不限于通过如图2所示的基于知识库的通用数据校核系统实现,在该系统中包括:知识库200、数据库202、数据校核引擎204和校核结果206。其中,知识库200中存储有数据集定义表和数据校核规则定义表;数据库202中存储有待校核的数据集中所需的数据;数据校核引擎204用于利用上述校核条件对上述数据集中的数据实现校核,以输出校核结果206。上述图2所示为示例,本实施例中对此不作任何限定。
需要说明的是,在上述基于知识库的通用数据校核系统中,将把校核算法设计和程序设计分开,在本实施例中可以将业务知识以文档的方式抽取出来,并形成知识库,不再需要编码人员理解复杂的业务逻辑,而是通过解析上述文档,以执行校核过程,即可快速而高效地得到输出结果。不仅有效地降低了校核程序的复杂度,而且提高了校核的灵活性。
可选地,在本实施例中,上述知识库可以但不限于使用了结构化查询语言(Structured Query Language,简称SQL)查询语句和逻辑表达式,在文档中组织校核条件,以支持对待校核的数据进行多重筛选、逻辑运算、字符串比对、去空值,同时支持数据分组、统计分析、定位查找、数据替换,以及根据预定义的业务场景使用模型进行数据判断等复杂功能。
其中,在本实施例中,上述数据库中包含待校核数据集中的所有数据,这里的数据库形式包括但限于SQL Server、Sqlite、MySQL、Oracle;知识库中配置有数据集定义表和数据校核规则定义表。
其中,在本实施例中,上述数据校核规则可以包括但不限于多个校核条件,这里的每个校核条件中可以包括用于识别错误数据的错误判断表达式,如正则式和类Ameo2表达式。上述错误判断表达式用于对待校核的数据集中的数据进行校核比对,并基于校核结果来分组,以通过对数据进行多重比对和过滤,来实现对字段间关联关系的校核、对统计规律的校核、对错误数据的定位校核、对错误数据的替换等数据校核功能。具体来说,校核规则中的校核条件可以包括但不限于:入口过滤子条件(包括待校核的数据集的名称,及用于过滤的表达式)、统计校核条件、数据错误判断条件等。其中数据集名称为引用数据集中已定义的数据集名称;其中入口过滤子条件为对不满足表达式条件的数据进行过滤;其中统计校核条件为当校核规则涉及统计分析时配置该字段,包含统计分析主键、统计分析字段、统计分析种类字段表达式;其中数据错误判断条件对数据进行正确与否的判断,对于满足表达式条件的数据视为规则检查到错误的数据。
此外,每个校核规则中还可以包括但不限于:校核结果处理方式。这里,校核结果处理方式可以包括但不限于:错误数据信息提示、提示等级、错误数据定位、错误数据更正等。其中错误数据信息提示为错误数据的提示信息,信息提示中有可变参数,由系统自动替换,用于动态生成提示信息;其中提示等级为校核结果的错误等级,包括错误、警告、提示。其中错误数据定位为用于定位数据所在的位置,包括数据表名称(如表标识)、行字段(如行位置标签)、列字段(如列位置标签);其中错误数据更正为实现数据的自动修复,系统通过解析不同的表达式,执行常量字符串替换或正则表达式替换,修复错误数据。
可选地,在本实施例中,上述数据集可以但不限于包括:数据集名称及对应的SQL语句,一个数据集可以被多条校核规则引用,多个数据集组成数据集定义表。
可选地,在本实施例中,根据数据集定义表从数据库中获取待校核的目标数据集根据数据集定义表,从数据库中获取待校核的目标数据集包括:获取数据集名称标识对应的SQL查询语句,并从数据库中读取SQL查询语句对应的目标数据表;循环以上步骤,直至读取完数据集定义表中所有数据集名称标识对应的目标数据表;将读取到的目标数据表以各自对应的数据集名称标识为主键,存储组成待校核的目标数据集。
此外,在本实施例中,从数据库中读取SQL查询语句对应的目标数据表从数据库中读取对应的目标数据表之后,还包括:对读取到的目标数据表进行表链接、字符串处理、过滤、去重处理。此外,在表链接之后还包括:删除列、重命名列处理;在去重处理之后还包括分组排序数据处理。
从而实现为校核提供检查数据,同时过滤数据,缩小检查范围,从而提高系统运行效率。
需要说明的是,在本实施例中,上述数据集定义表和数据校核规则定义表可以但不限于为预先根据校核业务需求进行自定义配置的。例如校核业务需求为电力数据、财务数据、人口普查数据等;又例如对二次防误业务进行校核的校核规则可以如图3所示,为各个校核需求配置了各个的校核规则中的校核条件。
又例如,上述数据集中的数据可以但不限于如图4所示,以数据定义表形式存储,其中可以包括但不限于:数据集名称、SQL语句及功能说明。
可选地,在本实施例中,根据数据校核规则定义表中的数据校核规则,对目标数据集进行校核包括:根据数据校核规则中所要校核的数据集名称标识,按主键从待校核的目标数据集中获取对应的目标数据表,其中,一个目标数据表可被多条数据校核规则使用;根据数据校核规则中的校核条件对目标数据表进行校核,其中,校核条件中包括用于过滤数据的入口过滤子条件和识别错误数据的错误判断表达式;循环以上步骤,以逐次校核所有数据校核规则对应的目标数据表。
通过本申请提供的实施例,在初始化获取当前匹配的知识库后,根据数据集定义表从数据库中获取待校核的目标数据集,其中,知识库中包括数据集定义表和数据校核规则。利用上述数据校核规则中的校核条件,对目标数据集进行校核。也就是说,在将复杂的业务数据构成数据集的情况下,通过在校核规则中配置校核条件来对上述数据集中的数据进行自动校核,程序无需理解数据之间复杂的逻辑关系。从而简化了数据校核前的开发设计操作,提高了针对复杂业务数据进行校核的校核效率。进而克服了相关技术中数据校核效率较低的问题。
作为一种可选的方案,根据数据校核规则中的校核条件对目标数据表进行校核包括:
S1,从数据校核规则中确定出对目标数据表所使用的入口过滤子条件,其中,入口过滤子条件中携带有目标数据表的校核数据范围;
S2,按照入口过滤子条件对目标数据表中的数据进行过滤,以去除校核数据范围外的多余数据;
S3,对过滤后的目标数据表中的数据进行错误校核。
可选地,在本实施例中,按照入口过滤子条件对目标数据表中的数据进行过滤还包括:根据入口过滤子条件中的入口表达式,对目标数据表进行过滤,去除表中的冗余数据,以得到过滤后的数据。
需要说明的是,在本实施例中,上述数据校核规则可以包括但不限于:候选数据集的名称、校核条件及校核结果处理方式。其中,这里的校核条件可以包括但不限于入口条件(即入口过滤子条件),用于确定校核数据范围。这里的入口过滤子条件中可以包括但不限于逻辑表达式(即入口表达式),通过表达式匹配,以确定候选数据集的数据中哪些需要保留,哪些需要删除,从而达到过滤冗余数据的目的。这里的逻辑表达式中可以但不限于为基于正则表达式和Ameo表达式进行逻辑组合得到的表达式。
通过本申请提供的实施例,通过数据集和在校核规则中设置入口过滤子条件,来确定当前校核规则所要校核的数据范围,去除冗余数据,避免对冗余数据进行不必要的校核,导致浪费校核时间,从而达到减少校核时长,提高校核效率的目的。
作为一种可选的方案,对过滤后的目标数据表中的数据进行错误校核包括:
S1,从数据校核规则的校核条件中获取错误判断表达式,其中,错误判断表达式中携带有当前所要识别的错误数据的逻辑判断表达式;
S2,利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核。
可选地,在本实施例中,利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核包括:
1)在校核条件中未配置统计方法表达式的情况下,将目标数据表中的各个对象数据分别用错误判断表达式进行判断,以得到错误校核的结果;
2)在校核条件中配置了统计方法表达式的情况下,将统计结果与错误判断表达式进行逻辑判断,以得到错误校核的结果;其中,统计方法表达式包括统计分析主键和统计分析字段,统计分析主键为对目标数据表中的各个对象数据进行分组的分组依据,统计分析字段用于指示分组后的对象数据的统计依据,其中,统计依据包括种类和数量。
具体结合图3所示示例进行说明:
假设数据校核规则定义表中的各个校核规则如图3所示,这里假设当前所要校核的校核规则为GZ001,规则名称为“检查线路双套间隔的重合闸功能投退选择开关是否为双套或0套”。应用于该校核规则的数据集为“压板空开信号表数据集”,通过该数据集名称标识,从目标数据集中得到主键为“压板空开信号表数据集”的目标数据表;进一步,该规则的入口过滤条件为“双重化属性.正则式=1|2”,以该条件对目标数据表进行数据过滤,去除冗余数据;进一步,在“统计方式”这一项中内容为“统计分析主键=间隔;统计分析字段=类型”,即,该校核规则将过滤后的数据以间隔字段里德分组,以类型字段进行统计;进一步,在“数据错误判断条件”中的目标表达式为:类型[重合闸功能投退选择开关].数量<>2,类型 [重合闸功能投退选择开关].数量<>0,即:分组后的各组数据中类型为“重合闸功能投退选择开关”的数量不等于2且不等于0的组为错误数据。
通过本申请提供的实施例,利用校核条件中的错误校核条件中的表达式,来自动对数据集中的数据进行高效地校核,而无需编程人员再额外学习数据中的业务逻辑,达到了简化校核操作的效果。
作为一种可选的方案,在利用所述逻辑判断表达式对所述目标数据表中的各个对象数据进行错误校核之后,,还包括:
S1,对对象数据匹配并设置错误级别,以及动态生成错误提示信息,其中,数据校核规则中配置有错误级别的级别信息和错误提示信息。
可选地,本实施例中,上述校核规则中还包括校核后得到的校核结果的提示级别,如这里的提示级别可以包括但不限于:错误、警告、提示。
例如,仍以上述校核规则GZ002为例进行说明,其配置的提示级别的级别信息为“错误”,则在确定检测到存在错误的对象数据的情况下,则向校核人员提示“错误”,以使其及时采取与“错误”对应的必要的修复或纠正措施。
又例如,以上述校核规则GZ001为例进行说明,其配置的提示级别的级别信息为“警告”,则在确定检测到存在错误的对象数据的情况下,则向校核人员提示“警告”,以使其及时采取与“警告”对应的必要的修复或纠正措施。
通过本申请提供的实施例,通过上述提示与对象数据的错误级别匹配的错误提示信息的方式,将有利于直观地提示校核人员及时采取必要措施,避免不必要的经济损失。
作为一种可选的方案,在利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核之后,还包括:
S1,获取对象数据所在表格的表标识,在表格中的行位置标签及在表格中的列位置标签;
S2,根据表标识、行位置标签及列位置标签,确定对象数据所在目标位置。
需要说明的是,在本实施例中,上述存在数据错误的对象数据以表元素形式存储在数据集中的各个数据列表中。在确定校核出对象数据存在错误的情况下,可以直接基于其表标识、行位置标签及列位置标签来定位对象数据所在的目标位置,以便于快速定位错误和对其进行修复或纠正,从而达到自动校核的目的。
作为一种可选的方案,在利用所述逻辑判断表达式对目标数据表中的各个对象数据进行错误校核之后,还包括:在数据校核规则中配置有错误更正表达式的情况下,通过获取与对象数据对应的更正表达式,其中,更正表达式包括用于替换的常量字符串和正则式;将目标位置上的对象数据替换为更正表达式数据。
需要说明的是,上述对象数据替换可以但不限于为单一性替换和针对性替换。也就是说,可以通过简单地进行全字符串替换达到修复目的的错误类型。例如,假设错误判断条件是筛选出数据类型非“跳闸出口”数据,则表示该对象数据存在错误,可通过配置的更正表达式:类型="跳闸出口硬压板",对目标数据进行自动更正。同时,针对性替换可以对字符串中某个字符或其中部分字符串进行替换,从而达到修复目的。例如,假设错误判断条件是筛选出压板空开信号名称中包含大写字母“IV”的数据为错误数据(220kV第IV段母线),可通过配置错误判断条件:压板空开信号名称.正则式=.*IV.*和更正表达式:压板空开信号名称.正则式=Ⅳ,对目标数据字符串中的“IV”进行自动更正(更正后:220kV第Ⅳ段母线)。
进一步程序提供两种自动更正操作方法,分别为单个对象数据更正和全部对象数据更正,其中单个对象数据更正只更正所选择的目标数据,其中全部对象数据更正将所有对象数据进行批量更正,以达到快速高效的修复的效果。
具体结合图5所示示例进行说明:
S502,初始化校核引擎;具体的,初始化知识库中的数据集定义表和数据校核规则定义表。这里可以但不限于通过初始化操作,加载获取最新配置的知识库,其中包括加载数据集定义表获取配置有SQL语句的数据集,还可以加载数据校核规则定义表获取包含校核条件的校核规则。
S504,执行SQL配置列表中的各条SQL语句,以获得待校核的数据集(以数据集名称为主键存储于内存中)中的数据。
S506,依次执行数据校核规则定义表中的每条校核规则,根据校核规则中记录的待校核的数据集名称,获取对应数据集中的数据,对该数据代入入口条件的入口表达式,以过滤掉不满足入口条件的数据;
S508,检查校核规则中是否配置统计方法(即判断是否包括统计类错误校核)。如有配置,则执行步骤S510,如没有配置,则执行步骤S512。
S510,代入统计分析,对数据进行分组统计分析,得到各统计的字段值的统计结果,如统计出现数量或种类数量等。
S512,代入数据错误判断条件表达式,判断待校核数据中不满足所配置的校核条件的数据,将其作为校核得到的错误数据。并按照预先为该校核规则设置的提示级别来进行错误数据信息提示,保存校核结果并在系统界面进行显示。
然后,当用户在界面操作数据定位跳转时,还可以但不限于读取存在错误的对象数据定位后的数据表名称、行字段、列字段,以确定其所在单元格位置(即目标位置)。进一步,当用户在界面操作数据修复时,还可以读取错误数据更正表达式,执行常量替换或正则式替换,实现数据修复。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述数据校核方法的数据校核装置。如图6所示,该装置包括:
第一获取单元602,用于初始化获取当前匹配的知识库,其中,知识库中包括数据集定义表和数据校核规则定义表,数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;
第二获取单元604,用于根据数据集定义表从数据库中获取待校核的目标数据集;
校核单元606,用于根据数据校核规则定义表中的数据校核规则,对目标数据集进行校核。
作为一种可选的方案,第二获取单元包括:
第一获取模块,用于获取数据集名称标识对应的SQL查询语句,并从数据库中读取SQL查询语句对应的目标数据表;循环以上步骤,直至读取完数据集定义表中所有数据集名称标识对应的目标数据表;
存储模块,用于将读取到的目标数据表以各自对应的数据集名称标识为主键,存储组成待校核的目标数据集。
作为一种可选的方案,还包括:
处理模块,用于从数据库中读取SQL查询语句对应的目标数据表从数据库中读取对应的目标数据表之后,对读取到的目标数据表进行表链接、字符串处理、过滤、去重处理。
作为一种可选的方案,校核单元包括:
校核模块,用于根据数据校核规则中所要校核的数据集名称标识,按主键从待校核的目标数据集中获取对应的目标数据表,其中,一个目标数据表可被多条数据校核规则使用;根据数据校核规则中的校核条件对目标数据表进行校核,其中,校核条件中包括用于过滤数据的入口过滤子条件和识别错误数据的错误判断表达式;循环以上步骤,以逐次校核所有数据校核规则对应的目标数据表。
作为一种可选的方案,校核模块,包括:
第一确定子模块,用于从数据校核规则中确定出对目标数据表所使用的入口过滤子条件,其中,入口过滤子条件中携带有目标数据表的校核数据范围;
过滤子模块,用于按照入口过滤子条件对目标数据表中的数据进行过滤,以去除校核数据范围外的多余数据;
校核子模块,用于对过滤后的目标数据表中的数据进行错误校核。
作为一种可选的方案,过滤子模块通过以下步骤实现按照入口过滤子条件对目标数据表中的数据进行过滤:根据入口过滤子条件中的入口表达式,对目标数据表进行过滤,去除表中的冗余数据,以得到过滤后的数据。
作为一种可选的方案,校核子模块通过以下步骤实现对过滤后的目标数据表中的数据进行错误校核:从数据校核规则的校核条件中获取错误判断表达式,其中,错误判断表达式中携带有当前所要识别的错误数据的逻辑判断表达式;利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核。
作为一种可选的方案,校核子模块通过以下步骤实现利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核:
在校核条件中未配置统计方法表达式的情况下,将目标数据表中的各个对象数据分别用错误判断表达式进行判断,以得到错误校核的结果;
在校核条件中配置了统计方法表达式的情况下,将统计结果与错误判断表达式进行逻辑判断,以得到错误校核的结果;其中,统计方法表达式包括统计分析主键和统计分析字段,统计分析主键为对目标数据表中的各个对象数据进行分组的分组依据,统计分析字段用于指示分组后的对象数据的统计依据,其中,统计依据包括种类和数量。
作为一种可选的方案,还包括:
设置子模块,用于在利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核之后,对对象数据匹配并设置错误级别,以及动态生成错误提示信息,其中,数据校核规则中配置有错误级别的级别信息和错误提示信息。
作为一种可选的方案,还包括:
获取子模块,用于在利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核之后,获取对象数据所在表格的表标识,在表格中的行位置标签及在表格中的列位置标签;
第二确定子模块,用于根据表标识、行位置标签及列位置标签,确定对象数据所在目标位置。
作为一种可选的方案,还包括:
第三获取子模块,用于在利用逻辑判断表达式对目标数据表中的各个对象数据进行错误校核之后,在数据校核规则中配置有错误更正表达式的情况下,通过获取与对象数据对应的更正表达式,其中,更正表达式包括用于替换的常量字符串和正则式;
替换子模块,用于将目标位置上的对象数据替换为更正表达式数据。
需要说明的是,在本实施例中,上述数据校核装置的实施例可以但不限于参考上述方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述数据校核方法的电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,初始化获取当前匹配的知识库,其中,知识库中包括数据集定义表和数据校核规则定义表,数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;
S2,根据数据集定义表从数据库中获取待校核的目标数据集;
S3,根据数据校核规则定义表中的数据校核规则,对目标数据集进行校核。
可选地,本领域普通技术人员可以理解,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的数据校核方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据校核方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器具体可以但不限于用于存储数据集、校核规则及校核结果等信息。此外,还可以包括但不限于上述数据校核装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器,用于显示上述数据集、校核规则及校核结果;和连接总线,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据校核方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,初始化获取当前匹配的知识库,其中,知识库中包括数据集定义表和数据校核规则定义表,数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;
S2,根据数据集定义表从数据库中获取待校核的目标数据集;
S3,根据数据校核规则定义表中的数据校核规则,对目标数据集进行校核。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种数据校核方法,其特征在于,包括:
初始化获取当前匹配的知识库,其中,所述知识库中包括数据集定义表和数据校核规则定义表,所述数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,所述数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;
根据所述数据集定义表从数据库中获取待校核的目标数据集;
根据所述数据校核规则定义表中的数据校核规则,对所述目标数据集进行校核。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据集定义表从数据库中获取待校核的目标数据集根据所述数据集定义表,从数据库中获取待校核的目标数据集包括:
获取所述数据集名称标识对应的SQL查询语句,并从所述数据库中读取所述SQL查询语句对应的目标数据表;
循环以上步骤,直至读取完所述数据集定义表中所有所述数据集名称标识对应的目标数据表;
将读取到的所述目标数据表以各自对应的数据集名称标识为主键,存储组成所述待校核的目标数据集。
3.根据权利要求2所述的方法,其特征在于,所述从所述数据库中读取所述SQL查询语句对应的目标数据表从所述数据库中读取对应的目标数据表之后,还包括:
对读取到的所述目标数据表进行表链接、字符串处理、过滤、去重处理。
4.根据权利要求2所述的方法,其特征在于,根据所述数据校核规则定义表中的数据校核规则,对所述目标数据集进行校核包括:
根据所述数据校核规则中所要校核的数据集名称标识,按所述主键从所述待校核的目标数据集中获取对应的目标数据表,其中,一个目标数据表可被多条数据校核规则使用;
根据所述数据校核规则中的校核条件对所述目标数据表进行校核,其中,所述校核条件中包括用于过滤数据的入口过滤子条件和识别错误数据的错误判断表达式;
循环以上步骤,以逐次校核所有数据校核规则对应的所述目标数据表。
5.根据权利要求4所述的方法,其特征在于,所述根据所述数据校核规则中的校核条件对所述目标数据表进行校核包括:
从所述数据校核规则中确定出对所述目标数据表所使用的入口过滤子条件,其中,所述入口过滤子条件中携带有所述目标数据表的校核数据范围;
按照所述入口过滤子条件对所述目标数据表中的数据进行过滤,以去除所述校核数据范围外的多余数据;
对过滤后的所述目标数据表中的数据进行错误校核。
6.根据权利要求5所述的方法,其特征在于,所述按照所述入口过滤子条件对所述目标数据表中的数据进行过滤包括:
根据所述入口过滤子条件中的入口表达式,对所述目标数据表进行过滤,去除表中的冗余数据,以得到过滤后的数据。
7.根据权利要求5所述的方法,其特征在于,所述对过滤后的所述目标数据表中的数据进行错误校核包括:
从所述数据校核规则的校核条件中获取错误判断表达式,其中,所述错误判断表达式中携带有当前所要识别的错误数据的逻辑判断表达式;
利用所述逻辑判断表达式对所述目标数据表中的各个对象数据进行错误校核。
8.根据权利要求7所述的方法,其特征在于,所述利用所述逻辑判断表达式对所述目标数据表中的各个对象数据进行错误校核包括:
在所述校核条件中未配置统计方法表达式的情况下,将所述目标数据表中的各个对象数据分别用所述错误判断表达式进行判断,以得到错误校核的结果;
在所述校核条件中配置了统计方法表达式的情况下,将统计结果与所述错误判断表达式进行逻辑判断,以得到错误校核的结果;其中,所述统计方法表达式包括统计分析主键和统计分析字段,所述统计分析主键为对所述目标数据表中的各个对象数据进行分组的分组依据,所述统计分析字段用于指示分组后的对象数据的统计依据,其中,所述统计依据包括种类和数量。
9.根据权利要求7所述的方法,其特征在于,在利用所述逻辑判断表达式对所述目标数据表中的各个对象数据进行错误校核之后,还包括:
对所述对象数据匹配并设置错误级别,以及动态生成错误提示信息,其中,所述数据校核规则中配置有所述错误级别的级别信息和所述错误提示信息。
10.根据权利要求7所述的方法,其特征在于,在所述利用所述逻辑判断表达式对所述目标数据表中的各个对象数据进行错误校核之后,还包括:
获取所述对象数据所在表格的表标识,在所述表格中的行位置标签及在所述表格中的列位置标签;
根据所述表标识、所述行位置标签及所述列位置标签,确定所述对象数据所在目标位置。
11.根据权利要求10所述的方法,其特征在于,在所述利用所述逻辑判断表达式对所述目标数据表中的各个对象数据进行错误校核之后,还包括:
在所述数据校核规则中配置有错误更正表达式的情况下,通过获取与所述对象数据对应的更正表达式,其中,所述更正表达式包括用于替换的常量字符串和正则式;
将所述目标位置上的所述对象数据替换为所述更正表达式数据。
12.一种数据校核装置,其特征在于,包括:
第一获取单元,用于初始化获取当前匹配的知识库,其中,所述知识库中包括数据集定义表和数据校核规则定义表,所述数据集定义表中包括数据集名称标识及其对应的结构化查询语言SQL查询语句,所述数据校核规则定义表中包括数据校核规则及其所要校核的数据集名称标识;
第二获取单元,用于根据所述数据集定义表从数据库中获取待校核的目标数据集;
校核单元,用于根据所述数据校核规则定义表中的数据校核规则,对所述目标数据集进行校核。
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至11任一项中所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。
CN202110004962.4A 2021-01-04 2021-01-04 数据校核方法和装置、存储介质及电子设备 Pending CN112988780A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110004962.4A CN112988780A (zh) 2021-01-04 2021-01-04 数据校核方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110004962.4A CN112988780A (zh) 2021-01-04 2021-01-04 数据校核方法和装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN112988780A true CN112988780A (zh) 2021-06-18

Family

ID=76345262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110004962.4A Pending CN112988780A (zh) 2021-01-04 2021-01-04 数据校核方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112988780A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468158A (zh) * 2021-07-13 2021-10-01 广域铭岛数字科技有限公司 数据修复方法、系统、电子设备及介质
WO2023065819A1 (zh) * 2021-10-22 2023-04-27 广西电网有限责任公司 一种基于电力标准规范数据化的方案智能校对方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140129582A1 (en) * 2012-11-07 2014-05-08 International Business Machines Corporation Modifying Structured Query Language Statements
CN105095329A (zh) * 2014-11-20 2015-11-25 北京航天金盾科技有限公司 一种人口数据校核方法
CN107908725A (zh) * 2017-11-14 2018-04-13 中国银行股份有限公司 一种批量数据校验方法、装置和系统
CN110543483A (zh) * 2019-08-30 2019-12-06 北京百分点信息科技有限公司 一种数据稽核方法、装置及电子设备
CN111475700A (zh) * 2020-03-19 2020-07-31 平安国际智慧城市科技股份有限公司 一种数据提取方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140129582A1 (en) * 2012-11-07 2014-05-08 International Business Machines Corporation Modifying Structured Query Language Statements
CN105095329A (zh) * 2014-11-20 2015-11-25 北京航天金盾科技有限公司 一种人口数据校核方法
CN107908725A (zh) * 2017-11-14 2018-04-13 中国银行股份有限公司 一种批量数据校验方法、装置和系统
CN110543483A (zh) * 2019-08-30 2019-12-06 北京百分点信息科技有限公司 一种数据稽核方法、装置及电子设备
CN111475700A (zh) * 2020-03-19 2020-07-31 平安国际智慧城市科技股份有限公司 一种数据提取方法及相关设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468158A (zh) * 2021-07-13 2021-10-01 广域铭岛数字科技有限公司 数据修复方法、系统、电子设备及介质
CN113468158B (zh) * 2021-07-13 2023-10-31 广域铭岛数字科技有限公司 数据修复方法、系统、电子设备及介质
WO2023065819A1 (zh) * 2021-10-22 2023-04-27 广西电网有限责任公司 一种基于电力标准规范数据化的方案智能校对方法

Similar Documents

Publication Publication Date Title
CN107819627B (zh) 系统故障处理方法及服务器
WO2017107853A1 (zh) 一种数据监控管理方法、数据监控方法及系统
CN109165170B (zh) 一种自动化请求测试的方法及系统
CN106844730B (zh) 文件内容的显示方法及装置
CN109241014B (zh) 数据处理方法、装置和服务器
CN112988780A (zh) 数据校核方法和装置、存储介质及电子设备
CN110659282A (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN108460271B (zh) 终端识别方法及装置
CN111460232A (zh) 功能模块的查找方法、装置、终端和计算机可读存储介质
WO2013187816A1 (en) Method and a consistency checker for finding data inconsistencies in a data repository
CN112486532B (zh) 配置文件的管理方法、装置、电子设备及存储介质
CN110874365B (zh) 一种信息查询方法及其相关设备
CN117240943A (zh) 接口数据解析方法和装置
CN109558300B (zh) 一种整机柜告警处理方法、装置、终端及存储介质
CN113849520B (zh) 异常sql的智能识别方法、装置、电子设备及存储介质
CN114968933A (zh) 数据中心的日志的分类方法和装置
CN114722927A (zh) 一种崩溃聚类方法、装置、电子设备以及存储介质
CN113342647A (zh) 一种测试数据的生成方法及装置
CN112685304A (zh) 前端信息规范校验方法、系统、装置及存储介质
CN112416904A (zh) 电力数据规范化处理方法及装置
CN111352818A (zh) 应用程序性能分析方法、装置、存储介质及电子设备
CN115599657B (zh) 软件设施异常判断方法
CN116401421B (zh) 芯片测试数据查询方法、系统、设备及介质
CN115658968A (zh) 业务数据造数方法、装置、电子设备及可读存储介质
CN108401253B (zh) 一种应用信息识别方法、装置以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination