CN117331926B

CN117331926B - 一种数据稽核方法、装置、电子设备和存储介质

Info

Publication number: CN117331926B
Application number: CN202311629292.0A
Authority: CN
Inventors: 李斌; 甘富贵; 蒋正华
Original assignee: Taiping Finance Technology Services Shanghai Co ltd
Current assignee: Taiping Finance Technology Services Shanghai Co ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-01
Anticipated expiration: 2043-12-01
Also published as: CN117331926A

Abstract

本申请公开了一种数据稽核方法、装置、电子设备和存储介质。具体包括：获取逻辑结构化查询语言指令LSQL；根据LSQL和预设的虚拟数据引擎，分别生成大数据平台中不同物理数据库的物理结构化查询语言指令PSQL；根据PSQL，从大数据平台中查询对应结果数据并生成结果数据集；根据预设的稽核规则，对结果数据集进行数据质量稽核。本申请实施例的技术方案通过虚拟数据引擎将多物理库混搭的数据源虚拟化为一个统一的数据库，避免了数据质量稽核的过程中的多数据源的取数问题，以及多数据集的关联处理问题，因此可以是对跨库取数、多数据集数据稽核能够进行更好的优化，从而提供更高的跨库数据访问性能，也就进一步提高了数据稽核的效率。

Description

一种数据稽核方法、装置、电子设备和存储介质

技术领域

本申请涉及数据库技术领域，尤其涉及一种数据稽核方法、装置、电子设备和存储介质。

背景技术

随着互联网技术和大数据的不断发展，随之而来的是越来越多的用户开始构建大数据平台，希望使数据互联互通，以对数据的处理过程达到降本增效的目的。其中，如何在大数据平台中实现高效的数据稽核成为了相关技术人员研究的重点之一。

当前，在进行数据稽核的时候，相关技术人员采用直接稽核的方式进行处理。不同的数据库分别进行数据稽核，但是，由于不同数据库之间具备业务逻辑关系，使得分别进行稽核的效果较差，容易出现错误，使得数据稽核的效率较低。

发明内容

本申请提供了一种数据稽核方法、装置、电子设备和存储介质，以提高数据稽核的效率。

根据本申请的一方面，提供了一种数据稽核方法，所述方法包括：

获取逻辑结构化查询语言指令LSQL；

根据LSQL和预设的虚拟数据引擎，分别生成大数据平台中不同物理数据库的物理结构化查询语言指令PSQL；

根据PSQL，从大数据平台中查询对应结果数据并生成结果数据集；

根据预设的稽核规则，对结果数据集进行数据质量稽核。

根据本申请的另一方面，提供了一种数据稽核装置，包括：

逻辑指令获取模块，用于获取逻辑结构化查询语言指令LSQL；

物理指令生成模块，用于根据LSQL和预设的虚拟数据引擎，分别生成大数据平台中不同物理数据库的物理结构化查询语言指令PSQL；

结果数据确定模块，用于根据PSQL，从大数据平台中查询对应结果数据并生成结果数据集；

数据质量稽核模块，用于根据预设的稽核规则，对结果数据集进行数据质量稽核。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的数据稽查方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本申请任一实施例所述的数据稽查方法。

本申请实施例的技术方案中，通过虚拟数据引擎将LSQL转化为可以在大数据平台中调用不同物理数据库的PSQL，进而得到结果数据集进行统一的数据质量稽核。相当于通过虚拟数据引擎将多物理库混搭的数据源虚拟化为一个统一的数据库，避免了数据质量稽核的过程中的多数据源的取数问题，以及多数据集的关联处理问题，因此可以是对跨库取数、多数据集数据稽核能够进行更好的优化，从而提供更高的跨库数据访问性能，也就进一步提高了数据稽核的效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例一提供的一种数据稽查方法的流程图；

图2A是根据本申请实施例二提供的一种数据稽查方法的流程图；

图2B是根据本申请实施例二提供的数据质量稽核流程的示意图；

图2C是根据本申请实施例二提供的数据质量稽核的稽核原则的示意图；

图3是根据本申请实施例三提供的一种数据稽查装置的结构示意图；

图4是实现本申请实施例的数据稽查方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本申请实施例一提供了一种数据稽查方法的流程图，本实施例可适用于对大数据平台中不同物理数据库进行数据质量稽核的情况，该方法可以由数据稽查装置来执行，该数据稽查装置可以采用硬件和/或软件的形式实现，该数据稽查装置可配置于电子设备中。如图1所示，该方法包括：

S110、获取逻辑结构化查询语言指令LSQL。

其中，逻辑结构化查询语言指令（Logical Structured Query Language，LSQL）可以是一种用于虚拟数据引擎所执行的SQL（Structured Query Language，结构化查询语言）语句，并可以支持主流数据库的各项常见函数。对于跨数据库的质量稽核中，本申请实施例并不需要配置多个数据源的取数SQL，也不需要多个数据集的关联处理逻辑，仅通过获取配置的LSQL，也即取数SQL，大数据平台中不同物理数据库进行同时访问。由于LSQL可以由相关技术人员根据实际需要和人工经验进行预先配置，因此本申请实施例对此LSQL的配置和生成方式不作限定。

在一种可选实施方式中，所述LSQL可以根据以下方式进行确定：根据大数据平台中不同物理数据库的库表全路径，确定LSQL。

其中，由于LSQL语句可以与标准SQL的语法一致，通过在LSQL中指定每个库表的全路径，可以在一条LSQL语句中同时访问多个不同的物理数据库。指定全路径的方式可以是通过虚拟数据引擎根据不同物理数据库进行自动匹配的，还可以是人工自定义的，例如相关技术人员根据实际情况和人工经验进行设置和调整的。

S120、根据LSQL和预设的虚拟数据引擎，分别生成大数据平台中不同物理数据库的物理结构化查询语言指令PSQL。

虚拟数据引擎可以是用于对LSQL进行解析并接收大数据平台反馈数据的中间处理引擎,虚拟数据引擎可以预先进行构建。由于LSQL的信息中包括了大数据平台中不同物理数据库的库表全路径，在虚拟数据引擎中将LSQL进行解析和校验，例如可以包括但不限于语句解析、词法语法校验和元数据校验等，或者使用预先训练的机器学习算法对LSQL进行解析，最终生成针对大数据平台中不同物理数据库的物理SQL语句（PhysicalStructured Query Language，PSQL）。利用PSQL可以从大数据平台中调取需要进行质量稽核的数据。可以理解的是，虚拟数据引擎起到了一个类似翻译的作用，将LSQL中的取数需求转化为物理数据库可以理解的PSQL，并且能够通过一条LSQL适应性的调用大数据平台中不同物理数据库的数据。

在一种可选实施方式中，所述虚拟数据引擎可以由以下方式构建：根据大数据平台中各物理数据库的物理数据源和用户账号权限，构建虚拟数据引擎。

其中，物理数据源可以是大数据平台中各个物理数据库应用程序所使用的数据库服务器，用户账号权项可以是这些物理数据库对应数据库服务器的账号的被授权的使用权限。在构建虚拟数据引擎时，需要对物理数据库源和用户账号权限进行配置，可以理解的是，每个数据源对应一个数据库连接的相关参数，例如可以包括但不限于IP（InternetProtocol，网际互连协议）、端口、用户名和密码等。其中，用户名和密码可以由虚拟数据引擎的管理员通过虚拟数据引擎的配置关联界面进行创建和设定。当然，虚拟数据引擎的构建方法可以通过对开源引擎进行大数据平台各物理数据库的适应性训练和调整。

进一步的，所述物理数据源可以包括：数据库服务器的连接参数、数据库的别名和数据库的名字空间schema别名。

其中，数据库服务器的连接参数可以包括但不限于数据库服务器的IP、端口、用户名和密码等。数据库的别名可以是数据库应用程序用来连接这个数据库的名称，以用于查询和调用。数据库的名字空间别名，也称schema别名，schema是数据库中的一个名字空间，可以包括一组表、视图和存储过程等命名对象。物理schema可以通过标准SQL语句来创建、更新和修改。

S130、根据PSQL，从大数据平台中查询对应结果数据并生成结果数据集。

通过PSQL，从大数据平台中的不同物理数据库中查询需要进行质量稽核的待稽核数据，将这些待稽核数据进行统计生成结果数据集。当然，可以直接将取数获得的待稽核数据组合为结果数据集进行后续的数据质量稽核，但是由于不同的物理数据库对数据的定义不同、数据形式也不尽相同，容易增加数据质量稽核的工作量。因此，还可以先对不同物理数据库中获取的待稽核数据组成中间数据集，对中间数据库作集中的转换处理，得到物理数据库。所谓转换处理即可以是对不同数据定义、不同数据形式的待稽核数据统一为利于稽核的相同格式，进一步减小质量稽核的难度，提高效率。

S140、根据预设的稽核规则，对结果数据集进行数据质量稽核。

其中，稽核规则可以是预先设定的对结果数据集中各项数据进行质量稽核的依据。例如可以包括但不限于对于单字段和多字段的检查、对记录的字段值内容和格式的检查、对于字段聚合后的功能性内容的检查等。若符合所有的稽核规则，则证明结果数据集中的数据没有质量问题，也即大数据平台中各物理数据库对数据的处理过程没有出错。

实施例二

图2A为本申请实施例二提供的一种数据稽核方法的流程图，本实施例是在前述各实施方式的基础上对物理结构化查询语言指令PSQL的生成过程和结果数据集的生成操作进行进一步的细化。如图2A所示，该方法包括：

S210、获取逻辑结构化查询语言指令LSQL。

S220、若LSQL再虚拟数据引擎中通过词法语法验证和元数据校验，则确定LSQL和大数据平台中各物理数据库之间的投影关系。

其中，投影关系可以是LSQL和不同的物理数据库之间对于取数规则的转换关系。可以理解的是可对于单一物理数据库，该数据库对应的SQL的取数规则是针对该数据库而言的，而单一LSQL同时包含多个不同物理数据库的取数规则，需要经过转换映射成针对每个不同物理数据库的取数规则。投影关系可以由预先训练的机器学习模型生成，该模型输入不同物理数据库的数据源和LSQL的取数规则，该模型输出投影关系的映射结果。可选的，该投影关系中可以包括元数据库中的库表字段信息，获得结果数据集的结构和字段类型等信息。

S230、根据投影关系，生成PSQL。

基于前述步骤生成的投影关系，分别将不同物理数据库对应的取数规则的PSQL根据SQL语句的组成逻辑进行生成。

S240、根据PSQL对应投影关系的最末端字段，确定结果数据集的字段列表。

投影关系的最末端字段用于标记最终需要用于数据稽核的结果数据集的字段情况，通过投影关系中的最末端字段，能够构建数据集的字段列表。

S250、对字段列表中的逐个字段进行递归式回溯，确定结果数据集的数据集结构。

对数据集的字段列表进行逐个字段采用递归方式进行回溯，如果当前字段的字段名称和数据类型已经确定，则递归返回下一层。否则回溯到该字段上一层的投影关系，根据上一层投影关系的字段类型和运算关系判定下一层字段的数据类型，最终得到整个数据集的数据集结构。举例说明，例如上一层投影关系的字段是A存款和B存款，假设运算关系为相加，那么下一层字段应该确定为总存款（字段为“总存款”，字段对应存储的数据为A+B的存款数额）。以此类推，可以得到整个结果数据集的结构。

S260、根据数据集结构向大数据平台中的各物理数据库进行查询，生成结果数据集。

在前述步骤中确定数据集结构后，通过PSQL对各物理数据库进行取数，将需要进行数据质量稽核的数据导入至前述结果数据集的结构中，从而生成结果数据集。需要说明的是，可以根据不同的物理数据库先按上述方式构成中间数据集的结构并生成中间数据集，然后通过虚拟数据引擎将不同的中间数据集翻译组合成结果数据集，以便于后续的数据质量稽核。

S270、根据预设的稽核规则，对结果数据集进行数据质量稽核。

在一种可选实施方式中，所述根据预设的稽核规则，对结果数据集进行数据质量稽核，可以包括：根据记录级单字段稽核规则、记录级多字段稽核规则、聚合级单字段稽核规则和聚合级多字段稽核规则中的至少一项，对结果数据集进行检查；其中，记录级单字段稽核规则包括对各记录字段值的属性检查；记录级多字段稽核规则包括对各字符串类型字段的关联关系检查；聚合级单字段稽核规则包括对分类聚合后单字段指标的检查；聚合级多字段稽核规则包括对分类聚合后多字段指标的检查。

其中，记录级单字段稽核规则包括对各记录字段值的属性检查，包括：每条记录字段值的空值检查、值域检查、特殊值检查、格式检查、长度检查、唯一性检查、代码完整性检查、代码合法性检查、波动性检查等。

记录级多字段稽核规则包括对各字符串类型字段的关联关系检查，例如可以包括但不限于：检查客户ID格式是否按要求包含注册日期编码；数字类字段之间的计算关系检查，例如总资产、净资产、债务三个字段之间的计算关系检查；字段之间的取值对应关系，例如当证件类型是身份证、军官证、护照时，对应的证件号码格式检查等。

聚合级单字段稽核规则包括对分类聚合后单字段指标的检查，例如包括但不限于：按产品类型、区域、客户级别等字段进行分类聚合后，检查客户数、销售额、订单数等指标是否出现波动异常等。

聚合级多字段稽核规则包括对分类聚合后多字段指标的检查，例如可以包括但不限于：按产品类型、区域、客户级别等字段进行分类聚合后，检查销售额、订单数计算出来的均单金额是否出现异常等。

需要说明的是，对单次的数据稽核任务中，可以有上述多种不同的稽核规则的组合进行数据质量稽核，本申请实施例对此不作限定。

本申请实施例的技术方案中，通过生成LSQL和结果数据集结构的投影关系进而确定不同物理数据库对应的PSQL，进一步确定结果数据集的结构，并从大数据平台的不同物理数据库中取数，从而生成结果数据集进行数据质量稽核。这样做能够进一步保证取数的准确性，并在跨物理数据库的基础上，生成一个统一的结果数据集进行数据稽核，从而解决了现有技术中不同物理数据库之间的数据稽核复杂的问题，进一步的提高了数据稽核的效率。

在前述各实施方式的基础上，本申请实施例还提供了一种优选方式。当前大数据平台中多包含不同的物理数据库（例如传统关系型、MPP、HIVE、SparkSQL、Impala等），本优选实施方式旨在将大数据平台中的不同物理数据库云化为一个整体数据库，封装统一的SQL访问接口（例如ODBC/JDBC等），在此基础上实现跨库的数据质量稽核。

如图2B所示，总体上，数据质量稽核模块在执行数据质量稽核任务时，向虚拟数据引擎提交取数LSQL；虚拟数据引擎对LSQL进行编译，生成执行计划，依据该计划向物理数据库提交PSQL；大数据平台相关物理数据库执行PSQL，返回中间数据集TDS;虚拟数据引擎依据执行计划，对中间数据集TDS做关联处理，形成结果数据集RDS，返回给数据质量稽核模块。

具体的，需要先对数据源进行配置，需要配置数据质量稽核所需要访问的数据源，每个数据源对应一个数据库连接的相关连接参数，如IP、端口、用户名、密码等。本申请实施方式的数据质量稽核模块需要访问大数据平台多个物理数据库的数据源，但是与现有方案不同的是，本实施方式并不需要为每个物理数据库配置一个数据源，也不需要申请开通这些物理数据库的用户和数据访问权限，只需要配置一个虚拟数据引擎的数据源，相关连接参数包括虚拟数据引擎的IP、端口、用户名和密码。其中的用户名和密码由虚拟数据引擎的管理员通过虚拟数据引擎的配置关联界面进行创建和配置。

然后配置取数规则，对于跨库数据质量稽核来说，只需要配置一条提交给虚拟数据引擎执行的取数SQL，即LSQL。该LSQL语句与标准SQL的语法一致，但是在一条SQL语句中可以同时访问多个不同的物理数据库，因此LSQL语句中需要指定每个库表的全路径，指定方式如下：数据库别名.schema名.table名。

例如：select aa.f1, aa.f2, bb.f1, bb.f3

from db1.schema1.table1 aa left join db2.schema2.table2 bb

on aa.f1=bb.f2

where aa.f1 in (…) and bb.f3 between…and…

其中数据库别名db1和db2在虚拟数据引擎中定义，每个数据库别名唯一标识一个物理数据库。

在虚拟数据引擎定义了Schema别名的情况下，LSQL可以省去数据库别名。

例如，虚拟数据引擎将db1.schema1的别名定义为s1，db2.schema2的别名定义为s2,则上述LSQL可以改为：

select aa.f1, aa.f2, bb.f1, bb.f3

from s1.table1 aa left join s2.table2 bb

on aa.f1=bb.f2

where aa.f1 in (…) and bb.f3 between…and…

得到了以上LSQL，通过将LSQL发送至虚拟数据引擎进行解析与校验。主要包括词法语法校验和元数据校验。其中，词法语法校验是指对LSQL进行词法和语法解析，生成抽象语法树，如果解析过程出错，说明所配置的LSQL存在词法或者语法问题，返回取数规则配置环节；元数据校验是指基于元数据平台进行校验，从抽象语法树提取库表和字段，与元数据库中的库表元数据做比对，如元数据中找不到对应的库表和字段，则判定LSQL中访问的库表或者字段不存在，返回取数规则配置环节。虚拟数据引擎在词法语法校验、元数据校验都通过的情况下，生成结果数据集的投影关系，以根据该投影关系生成PSQL，用于对大数据平台中的不同物理数据库取数。

通过对PSQL中的投影关系进行分析，构建结果数据集的结构。根据投影关系的最末端字段，确定结果数据集的字段列表；

对结果数据集的字段列表，逐个字段采用递归方式进行回溯，如果当前字段的字段名称和数据类型已确定，则递归返回下一层。否则回溯到该字段的上一层投影关系，根据上一层投影的字段类型和运算关系判定下一层字段的数据类型。

数据类型的判定规则可以包括：单个源字段直接投影至目标字段，则目标字段的数据类型与源字段一致；函数运算投影至目标字段，则目标字段的数据类型与函数的返回值数据类型一致；多个源字段运算投影至目标字段，则目标字段的数据类型与多个源字段一致。

上述过程可根据LSQL自动生成结果数据集的结构。例如前述LSQL可生成如下结构的结果数据集。其中的数据集变量名自动根据字段名自动生成。数据集变量名用于数据质量稽核规则配置。

表1 结果数据集结构表

在上一环节生成的结果数据集结构的基础上，可以人工修改数据集变量名，或者补全备注信息，以方便理解该结果数据集，为后续稽核规则配置做准备。

表2 结果数据集结构表人工配置示意表

在结果数据集结构配置完成的基础上进行结果数据集的稽核规则配置。本方案将稽核规则分为四类，分别提供对应的配置模板：

记录级单字段稽核规则：包括每条记录字段值的空值检查、值域检查、特殊值检查、格式检查、长度检查、唯一性检查、代码完整性检查、代码合法性检查、波动性检查等。

记录级多字段稽核规则：包括字符串类型字段之间的关系检查，例如检查客户ID格式是否按要求包含注册日期编码；数字类字段之间的计算关系检查，例如总资产、净资产、债务三个字段之间的计算关系检查；字段之间的取值对应关系，例如当证件类型是身份证、军官证、护照时，对应的证件号码格式检查等。

聚合级单字段稽核规则：例如按产品类型、区域、客户级别等字段进行分类聚合后，检查客户数、销售额、订单数等指标是否出现波动异常；

聚合级多字段稽核规则：例如按产品类型、区域、客户级别等字段进行分类聚合后，检查销售额、订单数计算出来的均单金额是否出现异常。

需要说明的是，单次稽核任务可以配置一个或者多个稽核规则，如图2C所示。当然，在进行数据稽核以后还可以生成数据稽核报告，例如包括预警等级、问题分类、报告发布（邮件、短信等）以及报告内容等。

需要补充说明的是，前述实施方式中涉及的虚拟数据引擎也需要预先进行配置，主要分为对物理数据源的配置和对用户账号权限的配置。

虚拟数据引擎处理LSQL时，能够将LSQL中查询的库表对应到相关的物理数据库中，并从这些物理数据库查询数据集进行关联处理。前提是这些物理数据库都作为一个数据源配置到虚拟数据引擎中。

配置过程分为三个步骤：第一、配置数据库服务器的连接参数。支持配置多个数据库服务器的连接参数，包括数据库服务器的IP、端口、用户、密码等。第二、配置数据库的别名。前述数据质量稽核规则配置环节，配置取数LSQL需要通过数据库别名显式指定访问哪个数据库。该数据库别名需要预先在这里配置才能生效。虚拟数据引擎执行LSQL时，需要根据这里的配置信息确定LSQL中的数据库别名具体是指哪个物理数据库。第三、配置schema别名。虚拟数据引擎执行LSQL时，需要根据这里的schema别名配置信息确定LSQL中的schema别名具体是指哪个物理数据库的哪个schema。

数据质量稽核模块创建与虚拟数据引擎的连接时，需要提供正确的用户账号和密码。这些用户账号在虚拟数据引擎中创建，并授权可访问的库表范围。

本申请实施例的优选实施方式，解决数据质量稽核的跨库稽核问题，通过虚拟数据质量引擎将多库混搭数据源虚拟化为一个统一的数据库，让数据质量稽核模块专注稽核规则的实现，而不需要对多数据源的取数问题以及多数据集的关联处理问题进行复杂处理。虚拟数据引擎屏蔽了不同数据源的差异，当大数据平台调整存储结构，或者接入新的数据库时，只需要在虚拟数据引擎做适配和接入配置即可，数据质量稽核模块不需要做任何改动。数据模块稽核模块不与物理数据库直连，不需要为其开通物理数据库的用户和数据访问权限，因此数据安全更加可控。虚拟数据引擎专注解决跨库数据访问问题，因此可以对跨库取数、多数据集关联处理方面进行深度优化，提供更高的跨库数据访问性能，也就进一步提高了数据质量稽核的效率。

实施例三

图3为本申请实施例三提供的一种数据稽核装置的结构示意图。如图3所示，该装置300包括：

逻辑指令获取模块310，用于获取逻辑结构化查询语言指令LSQL；

物理指令生成模块320，用于根据LSQL和预设的虚拟数据引擎，分别生成大数据平台中不同物理数据库的物理结构化查询语言指令PSQL；

结果数据确定模块330，用于根据PSQL，从大数据平台中查询对应结果数据并生成结果数据集；

数据质量稽核模块340，用于根据预设的稽核规则，对结果数据集进行数据质量稽核。

在一种可选实施方式中，所述物理指令生成模块320，可以包括：

投影关系确定单元，用于若LSQL再虚拟数据引擎中通过词法语法验证和元数据校验，则确定LSQL和大数据平台中各物理数据库之间的投影关系；

物理指令生成单元，用于根据投影关系，生成PSQL。

在一种可选实施方式中，所述结果数据确定模块330，可以包括：

字段列表确定单元，用于根据PSQL对应投影关系的最末端字段，确定结果数据集的字段列表；

数据集结构确定单元，用于对字段列表中的逐个字段进行递归式回溯，确定结果数据集的数据集结构；

结果数据集生成单元，用于根据数据集结构向大数据平台中的各物理数据库进行查询，生成结果数据集。

在一种可选实施方式中，所述数据质量稽核模块340，可以具体用于：根据记录级单字段稽核规则、记录级多字段稽核规则、聚合级单字段稽核规则和聚合级多字段稽核规则中的至少一项，对结果数据集进行检查；

其中，记录级单字段稽核规则包括对各记录字段值的属性检查；

记录级多字段稽核规则包括对各字符串类型字段的关联关系检查；

聚合级单字段稽核规则包括对分类聚合后单字段指标的检查；

聚合级多字段稽核规则包括对分类聚合后多字段指标的检查。

在一种可选实施方式中，所述LSQL可以根据以下方式进行确定：

根据大数据平台中不同物理数据库的库表全路径，确定LSQL。

在一种可选实施方式中，所述虚拟数据引擎可以由以下方式构建：

根据大数据平台中各物理数据库的物理数据源和用户账号权限，构建虚拟数据引擎。

本申请实施例所提供的数据稽核装置可执行本申请任意实施例所提供的数据稽核方法，具备执行各数据稽核方法相应的功能模块和有益效果。

实施例四

图4示出了可以用来实施本申请的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据稽核方法。

在一些实施例中，数据稽核方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的数据稽核方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行数据稽核方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据稽核方法，其特征在于，所述方法包括：

获取逻辑结构化查询语言指令LSQL；

若所述LSQL在预设的虚拟数据引擎中通过词法语法验证和元数据校验，则确定所述LSQL和大数据平台中不同物理数据库之间的投影关系；其中，所述元数据校验是指基于元数据平台进行校验，从抽象语法树中提取库表和字段，与元数据库中的库表元数据做对比；

根据所述投影关系，生成所述大数据平台中不同物理数据库的物理结构化查询语言指令PSQL；其中，所述投影关系是所述LSQL和不同的物理数据库之间对于取数规则的转换关系；所述投影关系包括元数据库中的库表字段信息、获得结果数据集的结构和字段类型信息；

根据所述PSQL对应所述投影关系的最末端字段，确定结果数据集的字段列表；其中，所述最末端字段用于标记需要用于数据稽核的结果数据集的字段情况；

对所述字段列表中的逐个字段进行递归式回溯，确定所述结果数据集的数据集结构；其中，若当前字段的名称和数据类型未确定，则回溯所述当前字段的上一层投影关系，根据上一层投影的字段类型和运算关系确定下一层字段的数据类型；其中，所述上一层投影关系是所述当前字段在所述字段列表中的上一层字段的投影关系；

根据所述数据集结构向所述大数据平台中的各物理数据库进行查询，生成所述结果数据集；

根据预设的稽核规则，对所述结果数据集进行数据质量稽核。

2.根据权利要求1所述的方法，其特征在于，根据预设的稽核规则，对所述结果数据集进行数据质量稽核，包括：

根据记录级单字段稽核规则、记录级多字段稽核规则、聚合级单字段稽核规则和聚合级多字段稽核规则中的至少一项，对所述结果数据集进行检查；

其中，所述记录级单字段稽核规则包括对各记录字段值的属性检查；

所述记录级多字段稽核规则包括对各字符串类型字段的关联关系检查；

所述聚合级单字段稽核规则包括对分类聚合后单字段指标的检查；

所述聚合级多字段稽核规则包括对分类聚合后多字段指标的检查。

3.根据权利要求1所述的方法，其特征在于，所述LSQL根据以下方式进行确定：

根据所述大数据平台中不同物理数据库的库表全路径，确定所述LSQL。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述虚拟数据引擎由以下方式构建：

根据所述大数据平台中各物理数据库的物理数据源和用户账号权限，构建所述虚拟数据引擎。

5.根据权利要求4所述的方法，其特征在于，所述物理数据源包括：数据库服务器的连接参数、数据库的别名和数据库的名字空间schema别名。

6.一种数据稽核装置，其特征在于，包括：

逻辑指令获取模块，用于获取逻辑结构化查询语言指令LSQL；

物理指令生成模块，用于根据所述LSQL和预设的虚拟数据引擎，分别生成大数据平台中不同物理数据库的物理结构化查询语言指令PSQL；

结果数据确定模块，用于根据所述PSQL，从所述大数据平台中查询对应结果数据并生成结果数据集；

数据质量稽核模块，用于根据预设的稽核规则，对所述结果数据集进行数据质量稽核；

其中，所述物理指令生成模块，包括：

投影关系确定单元，用于若所述LSQL在所述虚拟数据引擎中通过词法语法验证和元数据校验，则确定所述LSQL和大数据平台中各物理数据库之间的投影关系；其中，所述元数据校验是指基于元数据平台进行校验，从抽象语法树中提取库表和字段，与元数据库中的库表元数据做对比；

物理指令生成单元，用于根据所述投影关系，生成所述PSQL；其中，所述投影关系是所述LSQL和不同的物理数据库之间对于取数规则的转换关系；所述投影关系包括元数据库中的库表字段信息、获得结果数据集的结构和字段类型信息；

其中，所述结果数据确定模块，包括：

字段列表确定单元，用于根据所述PSQL对应所述投影关系的最末端字段，确定结果数据集的字段列表；其中，所述最末端字段用于标记需要用于数据稽核的结果数据集的字段情况；

数据集结构确定单元，用于对所述字段列表中的逐个字段进行递归式回溯，确定所述结果数据集的数据集结构；其中，若当前字段的名称和数据类型未确定，则回溯所述当前字段的上一层投影关系，根据上一层投影的字段类型和运算关系确定下一层字段的数据类型；其中，所述上一层投影关系是所述当前字段在所述字段列表中的上一层字段的投影关系；

结果数据集生成单元，用于根据所述数据集结构向大数据平台中的各物理数据库进行查询，生成所述结果数据集。

7. 一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的数据稽核方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-5中任一项所述的数据稽核方法。