CN117807056A - 数据稽核方法、装置、电子设备及存储介质 - Google Patents

数据稽核方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117807056A
CN117807056A CN202211164439.9A CN202211164439A CN117807056A CN 117807056 A CN117807056 A CN 117807056A CN 202211164439 A CN202211164439 A CN 202211164439A CN 117807056 A CN117807056 A CN 117807056A
Authority
CN
China
Prior art keywords
data
auditing
audited
rule
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211164439.9A
Other languages
English (en)
Inventor
陈东平
吕烨
李大中
宋雨伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211164439.9A priority Critical patent/CN117807056A/zh
Publication of CN117807056A publication Critical patent/CN117807056A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据稽核方法、装置、电子设备及存储介质。该方法包括:从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。采用本申请的方法,能够提高数据稽核的准确率。

Description

数据稽核方法、装置、电子设备及存储介质
技术领域
本申请涉及数据稽核技术,尤其涉及一种数据稽核方法、装置、电子设备及存储介质。
背景技术
随着数据稽核技术的发展,为了在各业务部门之间共享、交换数据库中存储的数据时,给到对方部门的数据是尽可能准确的,因而出现了数据稽核方法。
目前,数据稽核方法,通常是每个配置人员根据对数据的理解或数据库的逻辑设计,进行相应的稽核规则配置,再根据配置好的规则对目标数据库的数据进行稽核。
然而,配置人员对数据的理解可能会存在偏差,导致不能准确地配置稽核规则,从而导致稽核数据的准确率较低。
发明内容
本申请提供一种数据稽核方法、装置、电子设备及存储介质,用以解决现有技术中,稽核数据的准确率较低的技术问题。
第一方面,本申请提供一种数据稽核方法,包括:
从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;
获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;
根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。
在一个实施例中,所述从目标数据库中获取当前的待稽核的数据,包括:
获取用户当前输入的待稽核的数据的标识信息;
将包括所述待稽核的数据的标识信息的至少一个数据库确定为目标数据库;
从所述目标数据库中获取与所述待稽核的数据的标识信息匹配的待稽核的数据。
在一个实施例中,所述获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,包括:
获取数据提供方终端所提供的所述待稽核的数据的文本规则,所述文本规则是通过数据提供方的专家分析得到的以自然语言描述的数据稽核规则;
将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是以机器语言描述的数据稽核规则。
在一个实施例中,所述获取数据提供方终端所提供的所述待稽核的数据的文本规则,包括:
向所述数据提供方终端发送规则获取请求,所述规则获取请求包括待稽核的数据的标识信息;
获取所述数据提供方终端响应于所述规则获取请求返回的待稽核的数据的文本规则,所述待稽核的数据的文本规则是所述数据提供方终端根据所述待稽核的数据的标识信息查找确定的。
在一个实施例中,将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,包括:
提取所述待稽核的数据的文本规则中的文本信息;
对所述文本信息进行结构化表示,获得所述待稽核的数据对应的目标数据稽核规则。
在一个实施例中,所述根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果,包括:
采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数;
将所述通过稽核的数据的个数与所述待稽核的数据的总个数的比值,确定为通过稽核的数据的准确率;
将所述通过稽核的数据的准确率,确定为数据稽核结果。
在一个实施例中,若所述目标数据稽核规则包括多个,则所述采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数,包括:
通过多线程采用各所述目标数据稽核规则分别对所述待稽核的数据进行异步稽核,确定通过稽核的数据的个数。
在一个实施例中,所述获得数据稽核结果之后,还包括:
判断所述数据稽核结果中通过稽核的数据的准确率是否大于设定阈值;
若所述数据稽核结果中通过稽核的数据的准确率大于设定阈值,则确定所述待稽核的数据能用于后续数据分析,并输出消息表示所述待稽核的数据为可用数据。
在一个实施例中,所述方法还包括:
若所述数据稽核结果中通过稽核的数据的准确率小于或等于所述设定阈值,则向所述数据提供方终端发送数据治理工单,以供数据提供方终端治理所述待稽核的数据;
获取治理后的数据并根据所述目标数据稽核规则进行数据稽核,获得治理后的数据稽核结果;
若所述治理后的数据稽核结果中通过稽核的数据的准确率大于所述设定阈值,则确定所述治理后的数据能用于后续数据分析。
第二方面,本申请提供一种数据稽核装置,包括:
稽核数据获取模块,用于从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;
稽核规则获取模块,用于获取数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;
稽核结果获取模块,用于根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
本申请提供的数据稽核方法、装置、电子设备及存储介质,通过从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。由于本申请不再需要根据配置人员自己对数据的理解配置数据稽核规则,而是从对数据的理解更深刻的数据提供方终端获取数据稽核规则,所获取的目标数据稽核规则是按照数据所属行业的行业标准确定的,因此基于该目标数据稽核规则对待稽核的数据进行稽核,是更准确的数据稽核规则,根据目标数据稽核规则对数据进行稽核可以获得较为准确的数据稽核结果,相比现有技术,能够提高数据稽核的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为实现本申请实施例的数据稽核方法的一种应用场景图;
图2为本申请一实施例的实现数据稽核方法的流程示意图;
图3为本申请另一实施例的实现数据稽核方法的流程示意图;
图4为本申请实现数据稽核方法的结构示意图;
图5为用来实现数据稽核方法中的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。
传统方式的数据稽核方法,通常是每个配置人员根据对数据的理解或数据库的逻辑设计,进行相应的稽核规则配置,再根据配置好的规则对目标数据库的数据进行稽核。然而,配置人员对数据的理解可能会存在偏差,导致不能准确地配置稽核规则,从而导致稽核数据的准确率较低。
所以在面对现有技术的技术问题时,发明人通过创造性的研究后发现,为了提高数据稽核的准确率,因此,在当前的待稽核的数据是从数据提供方终端获取并存储的时,从目标数据库中获取待稽核的数据之后,对待稽核的数据进行数据稽核时,采用数据提供方终端提供的与待稽核的数据对应的目标数据稽核规则,由于该目标数据稽核规则是数据提供方的专家基于数据所属行业的行业标准确定的,因此基于该目标数据稽核规则对待稽核的数据进行稽核,可以获得准确率较高的数据稽核结果。
如图1所示,本申请实施例提供的数据稽核方法的应用场景,在该应用场景中对应的网络架构中包括数据提供方终端10和电子设备20,电子设备20与数据提供方终端10之间进行通信连接。电子设备20预先从数据提供方终端10获取数据以及数据稽核规则,并存储到对应的数据库中。稽核开始前,电子设备20从目标数据库中获取当前的待稽核的数据,再获取从数据提供方终端10得到的目标数据稽核规则,对待稽核的数据进行稽核,从而获得数据稽核结果。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2是本申请一实施例提供的数据稽核方法,如图2所示,本实施例提供的数据稽核方法的执行主体是电子设备。则本实施例提供的数据稽核方法包括以下步骤:
步骤101,从目标数据库中获取当前的待稽核的数据。
其中,待稽核的数据是指将被稽核的数据库中的数据。目标数据库是当前待稽核的数据所存储的数据库。
业务部门之间共享和交换数据库中存储的数据时,需要对数据进行稽核,以确保共享和交换的数据是尽可能准确的,便于后续数据分析。本可理解为,A业务部门的电子设备和B业务部门的终端共享和交换数据,A业务部门的电子设备为了给到B业务部门的终端的数据是尽可能准确的,便于B业务部门后续利用这些数据进行数据分析,A业务部门的电子设备对原先从数据提供方获得的数据进行稽核。
数据提供方是待稽核的数据的提供者。数据提供方终端是指数据提供方的终端。数据提供方终端除了可以是各种形式的固定/移动终端,还可以是服务器或服务器集群,不做限定。
待稽核的数据通可以预先从数据提供方终端获取并存储到电子设备中的数据库中。由于数据提供方可能不限于一个,因此来源于不同的数据提供方终端的数据由于数据结构的差异,而存储于电子设备上不同的数据库中,例如mysql数据库、hive数据库、pg数据库等,当电子设备中某数据库中的数据将被稽核,则该数据库中的数据为待稽核的数据,该数据库即目标数据库。
步骤102,获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则。
其中,目标数据稽核规则,是指从数据提供方获取的,适用于对待稽核的数据进行数据稽核的稽核规则。目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的。目标数据稽核规则可以是限定数据项是否为空、值域和格式等内容。
电子设备的使用人员依据对业务数据相关资料或对数据的理解,配置各个数据项的稽核规则,对业务数据的理解不够深刻,易使配置的稽核规则的准确度不够,根据准确度不高的稽核规则对待稽核的数据进行稽核,会降低后续得到的数据稽核结果的准确性。数据提供方是待稽核的数据的产生方,对待稽核的数据的理解更深刻,因此提供的目标数据稽核规则是最准确的,因此,根据准确度较高的目标稽核规则对待稽核的数据进行稽核,可以提高后续得到的数据稽核结果的准确性。
获取目标数据稽核规则,可以是在当前对待稽核的数据进行数据稽核时,电子设备向数据提供方终端发送请求,该请求中携带待稽核的数据的标识,数据提供方终端根据该待稽核的数据的标识查找对应的目标数据稽核规则,并将该目标数据稽核规则返回至电子设备,从而使电子设备获取到待稽核的数据的目标稽核规则。
获取目标数据稽核规则,还可以是在当前对待稽核的数据进行数据稽核之前,电子设备向多个数据提供方终端发送请求,请求各数据方提供终端返回已获取的数据对应的数据稽核规则,各数据提供方终端根据请求返回对应的数据稽核规则并存储。在数据稽核时,根据当前的待稽核的数据,将与待稽核的数据对应的数据稽核规则确定为目标数据稽核规则。
步骤103,根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。
其中,根据目标数据稽核规则对待稽核的数据进行稽核,稽核的内容包括检查数据项是否为空、值域是否符合行业标准、格式是否为合法/正确格式以及勾稽等。在对待稽核的数据完成稽核之后,可以获得数据稽核结果。
本申请中,从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。由于本申请不再需要根据配置人员自己对数据的理解配置数据稽核规则,而是从对数据的理解更深刻的数据提供方终端获取数据稽核规则,所获取的目标数据稽核规则是按照数据所属行业的行业标准确定的,因此基于该目标数据稽核规则对待稽核的数据进行稽核,是更准确的数据稽核规则,根据目标数据稽核规则对数据进行稽核可以获得较为准确的数据稽核结果,相比现有技术,能够提高数据稽核的准确率。
作为一种可选实施方式,如图3所示,本实施例中,步骤101,包括以下步骤:
步骤201,获取用户当前输入的待稽核的数据的标识信息。
其中,待稽核的数据的标识信息可以是待稽核的数据的名称或者编号。电子设备上设置有操作面板,可供用户触控或语音输入当前待稽核的数据的标识信息。当用户需要对数据进行数据稽核时,向电子设备输入待稽核的数据的标识信息即可。
步骤202,将包括所述待稽核的数据的标识信息的至少一个数据库确定为目标数据库。
其中,电子设备获得用户输入的待稽核的数据的标识信息后,可以根据待稽核的数据的标识信息在各数据库中查找对应的待稽核的数据,将包括待稽核的数据的至少一个数据库确定为目标数据库。
步骤203,从所述目标数据库中获取与所述待稽核的数据的标识信息匹配的待稽核的数据。
即,从目标数据库中获取与待稽核的数据的标识信息所对应的待稽核的数据。
本实施例中,获取用户当前输入的待稽核的数据的标识信息;将包括所述待稽核的数据的标识信息的至少一个数据库确定为目标数据库;从所述目标数据库中获取与所述待稽核的数据的标识信息匹配的待稽核的数据。由于从目标数据库中获取待稽核的数据时,是根据用户输入的待稽核的数据的标识信息在数据库中查找得以确定的,便于用户操作电子设备以对数据进行稽核。
作为一种可选实施方式,本实施例中,步骤102,包括以下步骤:
步骤301,获取数据提供方终端所提供的所述待稽核的数据的文本规则。
其中,文本规则是通过数据提供方的专家对业务数据进行分析得到的,以自然语言描述的数据稽核规则。
步骤302,将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则。
其中,将文本规则进行转换,获得待稽核的数据对应的目标数据稽核规则,目标数据稽核规则例如可以是user_ycf.name is not null(即,姓名不为空)。目标数据稽核规则是以机器语言描述的数据稽核规则。可理解为,电子设备从数据提供方终端获取的是待稽核的数据的文本规则,在对待稽核的数据进行数据稽核时,是根据待稽核的数据的文本规则所转换的机器语言描述的数据稽核规则进行数据稽核的。
本实施例中,获取数据提供方终端所提供的所述待稽核的数据的文本规则,所述文本规则是通过数据提供方的专家分析得到的以自然语言描述的数据稽核规则;将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是以机器语言描述的数据稽核规则。由于对待稽核的数据进行数据稽核,是电子设备自动执行的过程,因此将文本规则进行转换,使其转换成机器语言描述的数据稽核规则,有利于电子设备识别目标数据稽核规则以对待稽核的数据进行数据稽核。
作为一种可选实施方式,本实施例中,步骤301,包括以下步骤:
步骤401,向所述数据提供方终端发送规则获取请求。
其中,规则获取请求包括待稽核的数据的标识信息,用于向数据提供方终端获取待稽核的数据对应的数据稽核规则。
步骤402,获取所述数据提供方终端响应于所述规则获取请求返回的待稽核的数据的文本规则。
其中,数据提供方接收到规则获取请求后,可响应于规则获取请求所返回的待稽核的数据的文本规则,待稽核的数据的文本规则是数据提供方终端根据待稽核的数据的标识信息查找确定的。
本实施例中,向所述数据提供方终端发送规则获取请求,所述规则获取请求包括待稽核的数据的标识信息;获取所述数据提供方终端响应于所述规则获取请求返回的待稽核的数据的文本规则,所述待稽核的数据的文本规则是所述数据提供方终端根据所述待稽核的数据的标识信息查找确定的。由于电子设备从数据提供方终端获取待稽核的数据的文本规则时,是数据提供方终端基于发送的待稽核的数据的标识信息查找得到确定的,因此可以确保获得待稽核的文本规则的准确性。
作为一种可选实施方式,本实施例中,步骤302,包括以下步骤:
步骤501,提取所述待稽核的数据的文本规则中的文本信息。
其中,文本信息是待稽核的数据的文本规则中,与数据稽核规则密切相关的关键信息。提取待稽核的数据的文本规则时,可以是通过自然语言处理的方式进行提取。
步骤502,对所述文本信息进行结构化表示,获得所述待稽核的数据对应的目标数据稽核规则。
其中,自然语言转换成机器语言时,可以对自然语言进行结构化表示,因此将文本信息转换成对应的机器语言描述的数据稽核规则时,可以将文本规则进行结构化表示,即用数据结构表示文本规则,从而获得待稽核的数据对应的目标数据稽核规则。
作为一种可选实施方式,本实施例中,步骤103,包括以下步骤:
步骤601,采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数。
其中,采用目标数据稽核规则对待稽核的数据进行数据稽核,在数据稽核完成时,可以确定哪些数据通过稽核,哪些数据未通过稽核。因此,可以确定通过稽核的数据的个数。
步骤602,将所述通过稽核的数据的个数与所述待稽核的数据的总个数的比值,确定为通过稽核的数据的准确率。
其中,通过稽核的数据的准确率,即通过稽核的数据的个数除以待稽核的数据的总个数得到的比值。
步骤603,将所述通过稽核的数据的准确率,确定为数据稽核结果。
其中,在获得数据稽核结果之后,可以根据通过稽核的数据的准确率,确定是否直接应用当前的待稽核的数据进行共享、交换。
本实施例中,采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数;将所述通过稽核的数据的个数与所述待稽核的数据的总个数的比值,确定为通过稽核的数据的准确率;将所述通过稽核的数据的准确率,确定为数据稽核结果。由于将通过稽核的数据的准确率确定为数据稽核结果,因此获得数据稽核结果时,便可确定当前的待稽核的数据的可用性情况。
作为一种可选实施方式,本实施例中,若所述目标数据稽核规则包括多个,则步骤601,具体包括:通过多线程采用各所述目标数据稽核规则分别对所述待稽核的数据进行异步稽核,确定通过稽核的数据的个数。
其中,若目标数据稽核规则具有多个时,则可以通过多线程异步处理的方式,将各目标数据稽核规则分别对待稽核的数据进行异步稽核,以提高数据稽核的效率,数据稽核完成时,即可确定通过稽核的数据的个数。
本实施例中,通过多线程采用各所述目标数据稽核规则分别对所述待稽核的数据进行异步稽核,确定通过稽核的数据的个数,可以提高数据稽核的效率,更快确定通过稽核的数据的个数。
作为一种可选实施方式,本实施例中,在步骤103获得数据稽核结果之后,还可包括以下步骤:
步骤701,判断所述数据稽核结果中通过稽核的数据的准确率是否大于设定阈值。
其中,设定阈值是在用户输入待稽核的数据的标识信息之前,已经在电子设备中设置好的。将数据稽核结果中通过稽核的数据的准确率与设定阈值进行比较,即可确定是否大于设定阈值。
步骤702,若所述数据稽核结果中通过稽核的数据的准确率大于设定阈值,则确定所述待稽核的数据能用于后续数据分析,并输出消息表示所述待稽核的数据为可用数据。
其中,如果数据稽核结果中通过稽核的数据的准确率大于设定阈值,表明待稽核的数据的准确率足够高,可以直接用于数据交换、共享。即,确定待稽核的数据能用于后续数据分析,并输出消息告知用户待稽核的数据为可用数据。可用数据即前述的可直接用于数据交换、共享的数据。
本实施例中,判断所述数据稽核结果中通过稽核的数据的准确率是否大于设定阈值;若所述数据稽核结果中通过稽核的数据的准确率大于设定阈值,则确定所述待稽核的数据能用于后续数据分析,并输出消息表示所述待稽核的数据为可用数据。当待稽核的数据的准确率较高时,可将待稽核的数据用于后续数据分析,能够保证数据交换、共享的准确性。
作为一种可选实施方式,本实施例中,在步骤103获得数据稽核结果之后,还可包括以下步骤:
步骤801,若所述数据稽核结果中通过稽核的数据的准确率小于或等于所述设定阈值,则向所述数据提供方终端发送数据治理工单,以供数据提供方终端治理所述待稽核的数据;
其中,数据稽核结果中通过稽核的数据的准确率小于或等于所述设定阈值,表明待稽核的数据的准确性较低,不能直接用于数据交换、共享,因此,需要请求数据提供方终端对待稽核的数据进行数据治理,从而获得准确的待稽核的数据(即质量较高的待稽核的数据)。数据提供方终端对数据进行治理时,可以是数据提供方终端从新的业务系统提取数据,重新执行一遍处理加工过程得到待稽核的数据。或者若是数据加工处理逻辑存在问题,则先解决加工处理逻辑的问题后,再重新执行一遍数据加工处理过程,从而使得到数据提供方提供的数据是准确的。
步骤802,获取治理后的数据并根据所述目标数据稽核规则进行数据稽核,获得治理后的数据稽核结果。
其中,治理后的数据,即由数据提供方终端对原先的待稽核的数据进行治理后得到的数据。治理后的数据稽核结果,即采用目标数据稽核规则对治理后的数据进行数据稽核所得到的数据稽核结果。电子设备将治理后的数据中通过稽核的数据的准确率,确定为治理后的数据稽核结果。
数据提供方终端治理结束后,可以主动向电子设备发送治理后的数据,电子设备获取到治理后的数据时,再根据目标数据稽核规则对治理后的数据进行数据稽核,获得治理后的数据稽核结果。
步骤803,若所述治理后的数据稽核结果中通过稽核的数据的准确率大于设定阈值,则确定所述治理后的数据能用于后续数据分析。
其中,如果治理后的数据稽核结果中通过稽核的数据的准确率大于设定阈值,则后续可将该治理后的数据进行数据交换、共享,将治理后的数据用于后续数据分析。
本实施例中,若所述数据稽核结果中通过稽核的数据的准确率小于或等于所述设定阈值,则向所述数据提供方终端发送数据治理工单,以供数据提供方终端治理所述待稽核的数据;获取治理后的数据并根据所述目标数据稽核规则进行数据稽核,获得治理后的数据稽核结果;若所述治理后的数据稽核结果中通过稽核的数据的准确率大于所述设定阈值,则确定所述治理后的数据能用于后续数据分析。当待稽核的数据的准确率较低时,通过返回给数据提供方终端治理,获得治理后的数据以及治理后的数据稽核结果,当治理后的数据的准确率较高时,才可确定能将数据用于后续数据分析,这样有利于提高后续使用数据进行数据分析的准确性。
图4是本申请一实施例提供的数据稽核装置的结构示意图,如图4所示,本实施例提供的数据稽核装置40位于电子设备中,则本实施例提供的数据稽核装置40,包括:稽核数据获取模块41,稽核规则获取模块42和稽核结果获取模块43。其中:
稽核数据获取模块41,用于从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;
稽核规则获取模块42,用于获取数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;
稽核结果获取模块43,用于根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。
可选地,稽核数据获取模块41,从目标数据库中获取当前的待稽核的数据时,具体用于:获取用户当前输入的待稽核的数据的标识信息;将包括所述待稽核的数据的标识信息的至少一个数据库确定为目标数据库;从所述目标数据库中获取与所述待稽核的数据的标识信息匹配的待稽核的数据。
可选地,稽核规则获取模块42,获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,具体用于:获取数据提供方终端所提供的所述待稽核的数据的文本规则,所述文本规则是通过数据提供方的专家分析得到的以自然语言描述的数据稽核规则;将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是以机器语言描述的数据稽核规则。
可选地,稽核规则获取模块42,获取数据提供方终端所提供的所述待稽核的数据的文本规则,具体用于:向所述数据提供方终端发送规则获取请求,所述规则获取请求包括待稽核的数据的标识信息;获取所述数据提供方终端响应于所述规则获取请求返回的待稽核的数据的文本规则,所述待稽核的数据的文本规则是所述数据提供方终端根据所述待稽核的数据的标识信息查找确定的。
可选地,稽核规则获取模块42,将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,具体用于:提取所述待稽核的数据的文本规则中的文本信息;对所述文本信息进行结构化表示,获得所述待稽核的数据对应的目标数据稽核规则。
可选地,稽核结果获取模块43,根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果,具体用于:采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数;将所述通过稽核的数据的个数与所述待稽核的数据的总个数的比值,确定为通过稽核的数据的准确率;将所述通过稽核的数据的准确率,确定为数据稽核结果。
可选地,若所述目标数据稽核规则包括多个,稽核结果获取模块43,采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数时,具体用于:通过多线程采用各所述目标数据稽核规则分别对所述待稽核的数据进行异步稽核,确定通过稽核的数据的个数。
可选地,数据稽核装置40,还包括数据治理模块,用于判断所述数据稽核结果中通过稽核的数据的准确率是否大于设定阈值;若所述数据稽核结果中通过稽核的数据的准确率大于设定阈值,则确定所述待稽核的数据能用于后续数据分析,并输出消息表示所述待稽核的数据为可用数据。若所述数据稽核结果中通过稽核的数据的准确率小于或等于所述设定阈值,则向所述数据提供方终端发送数据治理工单,以供数据提供方终端治理所述待稽核的数据;获取治理后的数据并根据所述目标数据稽核规则进行数据稽核,获得治理后的数据稽核结果;若所述治理后的数据稽核结果中通过稽核的数据的准确率大于所述设定阈值,则确定所述治理后的数据能用于后续数据分析。
图5是根据一示例性实施例示出的一种电子设备的框图,该设备可以是如图5所示,电子设备,包括:存储器51,处理器52;存储器51用于存储处理器可执行指令的存储器;处理器52用于运行计算机程序或指令,以实现如上任意一个实施例提供的数据稽核方法。
其中,存储器51,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器51可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器52可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器51和处理器52独立实现,则存储器51和处理器52可以通过总线53相互连接并完成相互间的通信。总线53可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线53、外部设备互连(PeripheralComponent,简称为PCI)总线53或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线53等。总线53可以分为地址总线53、数据总线53、控制总线53等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线53或一种类型的总线53。
可选的,在具体实现上,如果存储器51和处理器52集成在一块芯片上实现,则存储器51和处理器52可以通过内部接口完成相同间的通信。
一种非临时性计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述电子设备的数据稽核方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种数据稽核方法,其特征在于,所述方法包括:
从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;
获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;
根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。
2.根据权利要求1所述的方法,其特征在于,所述从目标数据库中获取当前的待稽核的数据,包括:
获取用户当前输入的待稽核的数据的标识信息;
将包括所述待稽核的数据的标识信息的至少一个数据库确定为目标数据库;
从所述目标数据库中获取与所述待稽核的数据的标识信息匹配的待稽核的数据。
3.根据权利要求1所述的方法,其特征在于,所述获取所述数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,包括:
获取数据提供方终端所提供的所述待稽核的数据的文本规则,所述文本规则是通过数据提供方的专家分析得到的以自然语言描述的数据稽核规则;
将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是以机器语言描述的数据稽核规则。
4.根据权利要求3所述的方法,其特征在于,所述获取数据提供方终端所提供的所述待稽核的数据的文本规则,包括:
向所述数据提供方终端发送规则获取请求,所述规则获取请求包括待稽核的数据的标识信息;
获取所述数据提供方终端响应于所述规则获取请求返回的待稽核的数据的文本规则,所述待稽核的数据的文本规则是所述数据提供方终端根据所述待稽核的数据的标识信息查找确定的。
5.根据权利要求3所述的方法,其特征在于,将所述待稽核的数据的文本规则进行转换,获得所述待稽核的数据对应的目标数据稽核规则,包括:
提取所述待稽核的数据的文本规则中的文本信息;
对所述文本信息进行结构化表示,获得所述待稽核的数据对应的目标数据稽核规则。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果,包括:
采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数;
将所述通过稽核的数据的个数与所述待稽核的数据的总个数的比值,确定为通过稽核的数据的准确率;
将所述通过稽核的数据的准确率,确定为数据稽核结果。
7.根据权利要求6所述的方法,其特征在于,若所述目标数据稽核规则包括多个,则所述采用所述目标数据稽核规则对所述待稽核的数据进行稽核,确定通过稽核的数据的个数,包括:
通过多线程采用各所述目标数据稽核规则分别对所述待稽核的数据进行异步稽核,确定通过稽核的数据的个数。
8.根据权利要求7所述的方法,其特征在于,所述获得数据稽核结果之后,还包括:
判断所述数据稽核结果中通过稽核的数据的准确率是否大于设定阈值;
若所述数据稽核结果中通过稽核的数据的准确率大于设定阈值,则确定所述待稽核的数据能用于后续数据分析,并输出消息表示所述待稽核的数据为可用数据。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述数据稽核结果中通过稽核的数据的准确率小于或等于所述设定阈值,则向所述数据提供方终端发送数据治理工单,以供数据提供方终端治理所述待稽核的数据;
获取治理后的数据并根据所述目标数据稽核规则进行数据稽核,获得治理后的数据稽核结果;
若所述治理后的数据稽核结果中通过稽核的数据的准确率大于所述设定阈值,则确定所述治理后的数据能用于后续数据分析。
10.一种数据稽核装置,其特征在于,所述装置包括:
稽核数据获取模块,用于从目标数据库中获取当前的待稽核的数据,所述待稽核的数据是预先从数据提供方终端获取并存储到所述目标数据库中的;
稽核规则获取模块,用于获取数据提供方终端所提供的与所述待稽核的数据对应的目标数据稽核规则,所述目标数据稽核规则是数据提供方基于数据所属行业的行业标准确定的;
稽核结果获取模块,用于根据所述目标数据稽核规则对所述待稽核的数据进行稽核,获得数据稽核结果。
11.一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-9任一项所述的方法。
CN202211164439.9A 2022-09-23 2022-09-23 数据稽核方法、装置、电子设备及存储介质 Pending CN117807056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211164439.9A CN117807056A (zh) 2022-09-23 2022-09-23 数据稽核方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211164439.9A CN117807056A (zh) 2022-09-23 2022-09-23 数据稽核方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117807056A true CN117807056A (zh) 2024-04-02

Family

ID=90427117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211164439.9A Pending CN117807056A (zh) 2022-09-23 2022-09-23 数据稽核方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117807056A (zh)

Similar Documents

Publication Publication Date Title
CN112889042A (zh) 机器学习中超参数的识别与应用
CN110427375B (zh) 字段类别的识别方法及装置
CN110737818A (zh) 网络发布数据处理方法、装置、计算机设备和存储介质
CN111273891A (zh) 基于规则引擎的业务决策方法、装置及终端设备
CN111444188A (zh) 存量测试数据的准备方法、装置、存储介质及电子设备
CN111475494A (zh) 一种海量数据处理方法、系统、终端及存储介质
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN110046086B (zh) 用于测试的期望数据生成方法及装置和电子设备
CN112395182A (zh) 自动化测试方法、装置、设备及计算机可读存储介质
CN116340831B (zh) 一种信息分类方法、装置、电子设备及存储介质
CN116074183B (zh) 一种基于规则引擎的c3超时分析方法、装置及设备
CN116340172A (zh) 基于测试场景的数据收集方法、装置及测试用例检测方法
CN112711678A (zh) 数据解析方法、装置、设备及存储介质
CN113204706B (zh) 基于MapReduce的数据筛选抽取方法及系统
CN117807056A (zh) 数据稽核方法、装置、电子设备及存储介质
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN115422180A (zh) 数据校验方法及系统
CN114281761A (zh) 一种数据文件加载方法、装置、计算机设备及存储介质
CN110852077B (zh) 动态调整Word2Vec模型词典的方法、装置、介质及电子设备
CN113986762A (zh) 一种测试用例的生成方法及装置
CN113656354A (zh) 日志分类方法、系统、计算机设备和可读存储介质
CN111324732A (zh) 模型训练方法、文本处理方法、装置及电子设备
CN110532561B (zh) 数据检测方法及装置、存储介质、电子装置
CN114818645B (zh) 基于数据主体的自动化报告生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination