CN115757381A - 数据稽核方法、装置、电子设备及介质 - Google Patents

数据稽核方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN115757381A
CN115757381A CN202211482817.8A CN202211482817A CN115757381A CN 115757381 A CN115757381 A CN 115757381A CN 202211482817 A CN202211482817 A CN 202211482817A CN 115757381 A CN115757381 A CN 115757381A
Authority
CN
China
Prior art keywords
data
period
index
audit
auditing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211482817.8A
Other languages
English (en)
Inventor
王庆
李晓娟
宋雨伦
李大中
谭晟中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211482817.8A priority Critical patent/CN115757381A/zh
Publication of CN115757381A publication Critical patent/CN115757381A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供的数据稽核方法、装置、电子设备及介质,包括:获取本周期以及各历史周期下数据稽核指标的实际值;将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到指数平滑模型输出的本周期下数据稽核指标的标准值,若本周期下数据稽核指标的实际值和本周期下数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定本周期下的数据异常。本方案能够提供稽核结果的准确性。

Description

数据稽核方法、装置、电子设备及介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据稽核方法、装置、电子设备及介质。
背景技术
数据库中的数据质量管理过程中,通常会对数据库中的数据进行数据稽核,通过数据稽核,可以确定异常数据,后续对数据稽核获得的异常数据进行修改、清洗等处理,以保证数据库中数据的一致性及完整性。
相关技术的数据稽核过程中,基于数据库中的数据获取稽核指标的实际值,并将稽核指标的实际值与固定的阈值进行比较,基于比较结果做出相应的稽核结果,然而相关技术中经常出现稽核结果不准确的问题。
发明内容
本申请提供一种数据稽核方法、装置、电子设备及介质,旨在解决相关技术中的稽核结果不准确的问题。
第一方面,本申请提供了一种数据稽核方法,包括:获取本周期以及各历史周期下数据稽核指标的实际值;从所述各历史周期下数据稽核指标的实际值中,确定第一历史周期下的数据稽核指标的实际值,并剔除所述第一历史周期下的数据稽核指标的实际值;其中,所述第一历史周期下的数据存在问题;将剔除所述第一历史周期下的数据稽核指标的实际值后的所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值;若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常。
可选的,所述若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常之前,还包括:将所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值作差,并将所得差值的绝对值与所述本周期下所述数据稽核指标的实际值的比值,作为所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差。
可选的,所述剔除所述第一历史周期下的数据稽核指标的实际值,包括:将所述第一历史周期下的数据和数据稽核指标的实际值推送至用户;剔除所述第一历史周期下的数据稽核指标的实际值中经用户确认的实际值。
可选的,所述将所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值之前,还包括:基于指数平滑算法,建立初始模型;获取训练数据,所述训练数据包括各历史周期的数据稽核指标的实际值;基于所述训练数据,对所述初始模型进行训练,直至得到所述指数平滑模型。
可选的,所述指数平滑模型为简单指数平滑模型。
第二方面,本申请提供了一种数据稽核装置,包括:获取模块,用于获取本周期以及各历史周期下数据稽核指标的实际值;筛选模块,用于从所述各历史周期下数据稽核指标的实际值中,确定第一历史周期下的数据稽核指标的实际值,并剔除所述第一历史周期下的数据稽核指标的实际值;其中,所述第一历史周期下的数据存在问题;预测模块,用于将剔除所述第一历史周期下的数据稽核指标的实际值后的所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值;分析模块,用于若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常。
可选的,所述分析模块,还用于所述若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常之前,将所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值作差,并将所得差值的绝对值与所述本周期下所述数据稽核指标的实际值的比值,作为所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差。
可选的,所述预测模块,具体用于将所述第一历史周期下的数据和数据稽核指标的实际值推送至用户;所述预测模块,具体还用于剔除所述第一历史周期下的数据稽核指标的实际值中经用户确认的实际值。
可选的,所述预测模块还用于所述将所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值之前,基于指数平滑算法,建立初始模型;获取训练数据,所述训练数据包括各历史周期的数据稽核指标的实际值;基于所述训练数据,对所述初始模型进行训练,直至得到所述指数平滑模型。
可选的,所述指数平滑模型为简单指数平滑模型。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如前所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的方法。
本申请提供的数据稽核方法、装置、电子设备及介质中,将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到指数平滑模型输出的本周期下数据稽核指标的标准值,若本周期下数据稽核指标的实际值和本周期下数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定本周期下的数据异常。本方案中,数据稽核指标的标准值是基于历史周期的数据稽核指标的实际值预测的,则考虑了数据波动对将实际值的影响,也就是说实际值随数据波动变化,标准值也随数据波动变化,因而基于实际值与标准值的误差与误差阈值的比较结果来确定异常数据,相比于相关技术,能够更准确的稽核出异常数据,从而能够提供稽核结果的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请实施例的实施例,并与说明书一起用于解释本申请实施例的原理。
通过上述附图,已示出本申请实施例明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请实施例的概念。
图1为一示例中数据库的数据质量管理的流程示意图;
图2为一示例中2020-2022年度的数据库中存储的数据量的示意图;
图3为本申请实施例一提供的一种数据稽核方法的流程示意图;
图4为本申请实施例二提供的一种数据稽核装置的结构示意图;
图5为本申请实施例三提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为一示例中数据库的数据质量管理的流程示意图,如图1所示,业务系统周期性的向数据库中存储数据,稽核模块对数据库进行周期性的数据稽核,以查找出数据库中的异常数据,后续处理模块对稽核模块获得的异常数据进行修改、清洗等处理,以保证数据库中数据的一致性及完整性。
相关技术的数据稽核过程中,基于数据库中的数据获取本周期的稽核指标的实际值,将本周期的数据稽核指标的实际值与固定的阈值进行比较,基于比较结果确定稽核结果。例如,若稽核指标的实际值超出阈值则认为存在异常数据,若稽核指标实际值未超出阈值,则认为当前数据库中的数据不存在问题。图2为一示例中2020-2022年度的数据库中存储的数据量的示意图,如图2所示,数据库中的数据波动较大,具有不稳定性、无明确的上升或下降趋势、没有季度性等特点,这也使得相关技术中稽核结果不准确。
有鉴于此,本申请实施例提供一种数据稽核方法,可以应用于上述数据库的数据质量管理中,用于提高稽核结果的准确性。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。在本申请的描述中,除非另有明确的规定和限定,各术语应在本领域内做广义理解。下面将结合附图,对本申请的实施例进行描述。
实施例一
图3为本申请实施例一提供的数据稽核方法的流程示意图,如图3所示,本实施例提供的数据稽核方法方法包括:该方法的执行主体可以为数据稽核装置,还可以为集成了数据稽核装置的电子设备。下面以执行主体为集成了数据稽核的电子设备(简称电子设备)为例进行说明。如图3所示,本实施例提供的方法,包括:
S101、获取本周期以及各历史周期下数据稽核指标的实际值;
S102、从所述各历史周期下数据稽核指标的实际值中,确定第一历史周期下的数据稽核指标的实际值,并剔除所述第一历史周期下的数据稽核指标的实际值;其中,所述第一历史周期下的数据存在问题;
S103、将剔除所述第一历史周期下的数据稽核指标的实际值后的所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值;
S104、若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常。
实际应用中,需要对数据库中的数据进行周期性的数据稽核,具体的周期可依据向数据库存储数据的业务系统的周期进行设定,示例性的,财务系统以天为周期向数据库存储数据,则可设定数据稽核的周期为一天。数据稽核指标是用于评价数据质量的指标,举例而言,稽核指标可以为空值率、重复率、表行数等等。每个周期下,电子设备可以通过设定相应的检测规则或任务,获取本周期下的数据稽核指标的实际值,如表行数校验、去重统计、空值检测等。
需要说明的是,数据稽核指标可以设置为一种或多种,若稽核指标设置为多种,则每种数据稽核指标可以单独稽核,且稽核方法相同,本实施例示例性的示出了一种数据稽核指标的稽核方法,而对于其他稽核指标也都可以基于本实施例的方法进行稽核。
本实施例中,获取本周期以及各历史周期下数据稽核指标的实际值后,将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到指数平滑模型输出的本周期下数据稽核指标的标准值。其中,指数平滑模型是一种基于指数平滑算法,用于中短期趋势发展预测的模型,其实质是将历史数据进行加权平均作为未来时刻的预测结果,其中加权系数是呈几何级数衰减的,时间愈近的数据权重系数越大,时间愈远的数据权重系数越小。本实施例用于预测的指数平滑模型为已经训练好的模型,具体训练过程可参照下述实施例,在此不再赘述。可以理解,基于指数平滑模型可以相对准确的预测出本周期该数据稽核指标的标准值。
举例说明,数据稽核指标为空值率,该数据库自当年1月起开始存储数据,稽核周期的1个月,当前为9月,将1-8月的空值率按照从1月到8月的顺序输入指数平滑模型,则输出值即为当前周期(9月)的空值率的标准值。
由于离本周期越近的历史周期的数据稽核指标的实际值的权重越高,对本周期的数据稽核指标的标准值的影响越大,若各历史周期的数据稽核指标的实际值中存在异常数据对应的稽核指标的实际值,则将影响本周的预测,尤其是离本周期较近的周期的稽核指标的实际值。因而为避免异常数据对应的稽核指标的实际值对本周预测的影响,因而本实施例中,还需要执行S102,从各历史周期下数据稽核指标的实际值中,剔除所述第一历史周期下的数据稽核指标的实际值。并将剔除后各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型。这样输入指数平滑模型的各周期下的数据稽核指标的实际值则不包括异常数据对应的数据稽核指标的实际值。因而本实施例中能够提高输出的数据稽核指标的标准值的准确性,进而提高稽核结果的准确性。
在上述实施例的基础上,一示例中,所述剔除所述第一历史周期下的数据稽核指标的实际值,包括:
将所述第一历史周期下的数据和数据稽核指标的实际值推送至用户;
剔除所述第一历史周期下的数据稽核指标的实际值中经用户确认的实际值。
本示例可以理解为,在判定为异常数据后,为避免误判则将异常数据推送给用户,由用户再次确认所判定的数据是否为异常数据,若用户确定为异常数据,则将异常数据对应的数据稽核指标的实际值剔除。这样是则能够避免误判,并能够将误判的数据稽核指标的实际值输入指数平滑模型,因而本示例能够进一步保证输出的数据稽核指标的标准值的准确性,进而能够进一步提高稽核结果的准确性。
实际应用中,指数平滑模型可以包括简单指数平滑模型(单指数平滑模型)、双指数平滑模型、三指数平滑模型。在本实施例的一种实现方式中,所述指数平滑模型为简单指数平滑模型。由图2可知,数据库中的数据具有不稳定,且没有季度性规律的特点,而简单指数平滑模型适用于时间序列无明显的趋势变化的场景,因而本实施方式能够相对准确且快速的预测出本周期的数据稽核指标的标准值。
上述基于指数平滑模型获得本周期的数据稽核指标的标准值后,执行S103,即若本周期下数据稽核指标的实际值和本周期下数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定本周期下的数据异常。其中,误差阈值可以基于数据库中的数据正常生成或存储的过程中稽核指标允许的误差范围进行设定。
对于数据稽核指标的标准值与实际值之间的误差的获取,一个示例中,S103之前,所述方法还包括:将数据稽核指标的标准值与数据稽核指标的实际值的差值的绝对值作为数据稽核指标的标准值与数据稽核指标的实际值的误差。可以理解本示例将数据稽核指标的标准值与数据稽核指标的实际值的绝对误差作为最终的判定误差。
另一个示例中,S103之前,还包括:将所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值作差,并将所得差值的绝对值与所述本周期下所述数据稽核指标的实际值的比值,作为所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差。
举例说明,本周期下数据稽核指标的实际值为m,本周期下的数据稽核指标的标准值为t,误差为
Figure BDA0003962402760000071
误差阈值为δ,若
Figure BDA0003962402760000072
则判定本周期下的数据异常。若
Figure BDA0003962402760000073
则本周期下的数据为正常数据。
本示例中,将本周期下数据稽核指标的实际值和本周期下数据稽核指标的相对误差作为最终判定的误差,相比于上述绝对误差的示例,本示例中的数据稽核指标的实际值对误差的影响更大,这样则能够放大实际值的波动对误差的影响,因而能够更准确的稽核出异常数据。
下面将结合具体应用对本实施例做示例性的说明:业务系统以周为周期向数据库中存储数据,数据库中存储了30周的业务数据,设定稽核周期为1周,本周期为第30周,数据稽核指标为数据重复率。在数据稽核的过程中,首先基于设定的稽核规则或任务,获取第1-30周的数据重复率的实际值,并将第1-29周的数据重复率的实际值按照时间序列输入指数平滑模型,而输出的则为第30周的数据重复率的标准值。然后计算第30周数据重复率的标准值与之前获取的第30周的数据重复率的实际值的误差,并将该误差与预定的误差阈值进行比较,若该误差超过误差阈值,则判定第30周存储的数据存在异常。可以理解,若是由于本周期的重复率过高导致的误差过大,则表明本周期下的数据可能存在重复存储的问题。若是由于本周期的重复率过低导致的误差过大,则表明本周期下的数据可能存在未存储的问题。后续基于稽核结果,对数据库中异常的数据执行相应的处理。
本申请提供的数据稽核方法,将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到指数平滑模型输出的本周期下数据稽核指标的标准值,若本周期下数据稽核指标的实际值和本周期下数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定本周期下的数据异常。本方案中,数据稽核指标的标准值是基于历史周期的数据稽核指标的实际值预测的,则考虑了数据波动对将实际值的影响,也就是说实际值随数据波动变化,标准值也随数据波动变化,因而基于实际值与标准值的误差与误差阈值的比较结果来确定异常数据,相比于相关技术,能够更准确的稽核出异常数据,从而能够提供稽核结果的准确性。
实际应用中,又一实施例中,S102之前,所述方法还包括:
基于指数平滑算法,建立初始模型;
获取训练数据,所述训练数据包括各历史周期的数据稽核指标的实际值;
基于所述训练数据,对所述初始模型进行训练,直至得到所述指数平滑模型。
本实施例对指数平滑模型的训练过程进行示例介绍,具体的,基于指数平滑算法,建立初始模型。结合指数平滑模型为简单指数平滑模型的示例进行示例性的说明,简单指数平滑算法的公式为:
St=ayt+a(1-a)yt-1+...+a(1-a)t-2y2+(1-a)t-1y1
其中,St为第t期的预测值(标准值);yt为第t期的实际值;a为平滑常数(权重系数),其取值范围为[0,1]。由上述公式可知,第t期的标准值St是基于历史周期的实际值yt加权求和所得,并且越靠近本周期的实际值的权重越大,对本周期的标准值影响也越大;越远离本周期的实际值的权重越小,对本周期的标准值影响也越小。基于上述算法建立初始模型,可以理解本实施例的训练过程可以看作确定权重系数的过程,即通过训练后使得基于所述确定的权重能够预测出准确的标准值。
建立初始模型后,获取训练数据,基于所述训练数据,对初始模型进行训练,直至得到指数平滑模型。其中训练数据包括各历史周期的数据稽核指标的实际值,以及各历史周期的数据稽核指标的实际值对应的所在周期以前的各历史周期的数据稽核指标的实际值。
举例来说,训练数据可以包括多组,每一组训练数据包括输入数据及输出数据,同一组内,输出数据为某一历史周期的数据稽核指标的实际值,输入数据为该周期以前的所有各历史周期的数据稽核指标的实际值,比如第五组训练数据中,输出数据为第8周期的数据稽核指标的实际值,则输出数据为第1-7周期的数据稽核指标的实际值;再如,第六组训练数据,输出数据为第9周期的数据稽核指标的实际值,则输出数据为第1-8周期的数据稽核指标的实际值。实际应用中,可以将每组的输出数据代入上述公式中的St,以及将输入数据代入yt,以获取权重系数a,经过不断的调整,以使得基于权重系数a预测的标准值能够逐渐接近同周期的实际值,当预测的标准值与同周期的实际值之间的差值满足预定的要求时,即完成了模型的训练。
需要说明的是,在数据稽核场景中,能够应用于训练的数据相对较少,对于其他一些模型,如神经网络模型,可能不能训练出达到要求的模型,而指数平滑模型为一种基于时间序列的预测模型,通常只需要获取各时间序列对应的权重,因而相对较少的训练数据即可训练处达至要求的模型,这也是本实施例中,基于指数平滑模型的一个优势。
本实施例中,基于平滑指数算法,建立初始模型,并以各历史周期的数据稽核指标的实际值,以及各历史周期的数据稽核指标的实际值对应的所在周期以前的各历史周期的数据稽核指标的实际值为训练数据,对初始模型新型训练,以获得指数平滑模型,进而能够应用该训练好的模型进行标准值的预测,从而能够提高稽核结果的准确性。
实施例二
图4为本申请实施例二提供的一种数据稽核装置的结构示意图,如图4所示,本实施例提供的数据稽核装置包括:
获取模块41,用于获取本周期以及各历史周期下数据稽核指标的实际值;
筛选模块42,用于从所述各历史周期下数据稽核指标的实际值中,确定第一历史周期下的数据稽核指标的实际值,并剔除所述第一历史周期下的数据稽核指标的实际值;其中,所述第一历史周期下的数据存在问题;
预测模块43,用于将剔除所述第一历史周期下的数据稽核指标的实际值后的所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值;
分析模块44,用于若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常。
实际应用中,需要对数据库中的数据进行周期性的数据稽核,具体的周期可依据向数据库存储数据的业务系统的周期进行设定,示例性的,财务系统以天为周期向数据库存储数据,则可设定数据稽核的周期为一天。数据稽核指标是用于评价数据质量的指标,举例而言,稽核指标可以为空值率、重复率、表行数等等。每个周期下,电子设备可以通过设定相应的检测规则或任务,获取本周期下的数据稽核指标的实际值,如表行数校验、去重统计、空值检测等。
需要说明的是,数据稽核指标可以设置为一种或多种,若稽核指标设置为多种,则每种数据稽核指标可以单独稽核,且稽核方法相同,本实施例示例性的示出了一种数据稽核指标的稽核方法,而对于其他稽核指标也都可以基于本实施例的方法进行稽核。
本实施例中,获取模块41获取本周期以及各历史周期下数据稽核指标的实际值后,预测模块43将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到指数平滑模型输出的本周期下数据稽核指标的标准值。其中,指数平滑模型是一种基于指数平滑算法,用于中短期趋势发展预测的模型,其实质是将历史数据进行加权平均作为未来时刻的预测结果,其中加权系数是呈几何级数衰减的,时间愈近的数据权重系数越大,时间愈远的数据权重系数越小。本实施例用于预测的指数平滑模型为已经训练好的模型,具体训练过程可参照下述实施例,在此不再赘述。可以理解,基于指数平滑模型可以相对准确的预测出本周期该数据稽核指标的标准值。
由于离本周期越近的历史周期的数据稽核指标的实际值的权重越高,对本周期的数据稽核指标的标准值的影响越大,若各历史周期的数据稽核指标的实际值中存在异常数据对应的稽核指标的实际值,则将影响本周的预测,尤其是离本周期较近的周期的稽核指标的实际值。因而为避免异常数据对应的稽核指标的实际值对本周预测的影响,本实施例中,筛选模块42将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型之前,从各历史周期下数据稽核指标的实际值中,剔除第一历史周期下的数据稽核指标的实际值。这样输入指数平滑模型的各周期下的数据稽核指标的实际值则不包括异常数据对应的数据稽核指标的实际值。因而本实施例中能够提高输出的数据稽核指标的标准值的准确性,进而提高稽核结果的准确性。
在上述实施例的基础上,又一示例中,预测模块43,具体用于将所述第一历史周期下的数据和数据稽核指标的实际值推送至用户;
预测模块43,具体还用于剔除所述第一历史周期下的数据稽核指标的实际值中经用户确认的实际值。
本示例可以理解为,预测模块在判定为异常数据后,为避免误判则将异常数据推送给用户,由用户再次确认所判定的数据是否为异常数据,若用户确定为异常数据,则将异常数据对应的数据稽核指标的实际值剔除。这样是则能够避免误判,并能够将误判的数据稽核指标的实际值输入指数平滑模型,因而本示例能够进一步保证输出的数据稽核指标的标准值的准确性,进而能够进一步提高稽核结果的准确性。
实际应用中,指数平滑模型可以包括简单指数平滑模型(单指数平滑模型)、双指数平滑模型、三指数平滑模型。在本实施例的一种实现方式中,所述指数平滑模型为简单指数平滑模型。由图2可知,数据库中的数据具有不稳定,且没有季度性规律的特点,而简单指数平滑模型适用于时间序列无明显的趋势变化的场景,因而本实施方式能够相对准确且快速的预测出本周期的数据稽核指标的标准值。
预测模块43基于指数平滑模型获得本周期的数据稽核指标的标准值后,分析模块44进行分析若本周期下数据稽核指标的实际值和本周期下数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定本周期下的数据异常。其中,误差阈值可以基于数据库中的数据正常生成或存储的过程中稽核指标允许的误差范围进行设定。
对于数据稽核指标的标准值与实际值之间的误差的获取,一个示例中,分析模块44,还用于所述若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常之前,将数据稽核指标的标准值与数据稽核指标的实际值的差值的绝对值作为数据稽核指标的标准值与数据稽核指标的实际值的误差。可以理解本示例将数据稽核指标的标准值与数据稽核指标的实际值的绝对误差作为最终的判定误差。
另一个示例中,分析模块44,还用于所述若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常之前,
将所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值作差,并将所得差值的绝对值与所述本周期下所述数据稽核指标的实际值的比值,作为所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差。
本示例中,分析模块44将本周期下数据稽核指标的实际值和本周期下数据稽核指标的相对误差作为最终判定的误差,相比于上述绝对误差的示例,本示例中的数据稽核指标的实际值对误差的影响更大,这样则能够放大实际值的波动对误差的影响,因而能够更准确的稽核出异常数据。
本申请提供的数据稽核装置中,预测模块将各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到指数平滑模型输出的本周期下数据稽核指标的标准值,若本周期下数据稽核指标的实际值和本周期下数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定本周期下的数据异常。本方案中,数据稽核指标的标准值是基于历史周期的数据稽核指标的实际值预测的,则考虑了数据波动对将实际值的影响,也就是说实际值随数据波动变化,标准值也随数据波动变化,因而基于实际值与标准值的误差与误差阈值的比较结果来确定异常数据,相比于相关技术,能够更准确的稽核出异常数据,从而能够提供稽核结果的准确性
实际应用中,又一实施例中,预测模块43还用于所述将所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值之前,
基于指数平滑算法,建立初始模型;
获取训练数据,所述训练数据包括各历史周期的数据稽核指标的实际值;
基于所述训练数据,对所述初始模型进行训练,直至得到所述指数平滑模型。
本实施例对指数平滑模型的训练过程进行示例介绍,具体的,基于指数平滑算法,建立初始模型。结合指数平滑模型为简单指数平滑模型的示例进行示例性的说明,简单指数平滑算法的公式为:
St=ayt+a(1-a)yt-1+...+a(1-a)t-2y2+(1-a)t-1y1
其中,St为第t期的预测值(标准值);yt为第t期的实际值;a为平滑常数(权重系数),其取值范围为[0,1]。由上述公式可知,第t期的标准值St是基于历史周期的实际值yt加权求和所得,并且越靠近本周期的实际值的权重越大,对本周期的标准值影响也越大;越远离本周期的实际值的权重越小,对本周期的标准值影响也越小。基于上述算法建立初始模型,可以理解本实施例的训练过程可以看作确定权重系数的过程,即通过训练后使得基于所述确定的权重能够预测出准确的标准值。
建立初始模型后,获取训练数据,基于所述训练数据,对初始模型进行训练,直至得到指数平滑模型。其中训练数据包括各历史周期的数据稽核指标的实际值,以及各历史周期的数据稽核指标的实际值对应的所在周期以前的各历史周期的数据稽核指标的实际值。
本实施例中,预测模块基于平滑指数算法,建立初始模型,并以各历史周期的数据稽核指标的实际值,以及各历史周期的数据稽核指标的实际值对应的所在周期以前的各历史周期的数据稽核指标的实际值为训练数据,对初始模型新型训练,以获得指数平滑模型,进而能够应用该训练好的模型进行标准值的预测,从而能够提高稽核结果的准确性。
实施例三
图5为本申请实施例三提供的电子设备的结构示意图,如图5所示,该电子设备包括:
处理器(processor)291,电子设备还包括了存储器(memory)292;还可以包括通信接口(Communication Interface)293和总线294。其中,处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以调用存储器292中的逻辑指令,以执行上述实施例的方法。
此外,上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器292作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器292可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器292可以包括高速随机存取存储器,还可以包括非易失性存储器。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现任一实施例中所述的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种数据稽核方法,其特征在于,包括:
获取本周期以及各历史周期下数据稽核指标的实际值;
从所述各历史周期下数据稽核指标的实际值中,确定第一历史周期下的数据稽核指标的实际值,并剔除所述第一历史周期下的数据稽核指标的实际值;其中,所述第一历史周期下的数据存在问题;
将剔除所述第一历史周期下的数据稽核指标的实际值后的所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值;
若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常。
2.根据权利要求1所述的方法,其特征在于,所述若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常之前,还包括:
将所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值作差,并将所得差值的绝对值与所述本周期下所述数据稽核指标的实际值的比值,作为所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差。
3.根据权利要求1所述的方法,其特征在于,所述剔除所述第一历史周期下的数据稽核指标的实际值,包括:
将所述第一历史周期下的数据和数据稽核指标的实际值推送至用户;
剔除所述第一历史周期下的数据稽核指标的实际值中经用户确认的实际值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值之前,还包括:
基于指数平滑算法,建立初始模型;
获取训练数据,所述训练数据包括各历史周期的数据稽核指标的实际值;
基于所述训练数据,对所述初始模型进行训练,直至得到所述指数平滑模型。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述指数平滑模型为简单指数平滑模型。
6.一种数据稽核装置,其特征在于,包括:
获取模块,用于获取本周期以及各历史周期下数据稽核指标的实际值;
筛选模块,用于从所述各历史周期下数据稽核指标的实际值中,确定第一历史周期下的数据稽核指标的实际值,并剔除所述第一历史周期下的数据稽核指标的实际值;其中,所述第一历史周期下的数据存在问题;
预测模块,用于将剔除所述第一历史周期下的数据稽核指标的实际值后的所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值;
分析模块,用于若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常。
7.根据权利要求6所述的装置,其特征在于,
所述分析模块,还用于所述若所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差超过预定的误差阈值,则判定所述本周期下的数据异常之前,
将所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值作差,并将所得差值的绝对值与所述本周期下所述数据稽核指标的实际值的比值,作为所述本周期下所述数据稽核指标的实际值和所述本周期下所述数据稽核指标的标准值之间的误差。
8.根据权利要求6所述的装置,其特征在于,
所述预测模块,具体用于将所述第一历史周期下的数据和数据稽核指标的实际值推送至用户;
所述预测模块,具体还用于剔除所述第一历史周期下的数据稽核指标的实际值中经用户确认的实际值。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述预测模块还用于所述将所述各历史周期下数据稽核指标的实际值按照时间序列输入指数平滑模型,得到所述指数平滑模型输出的本周期下所述数据稽核指标的标准值之前,
基于指数平滑算法,建立初始模型;
获取训练数据,所述训练数据包括各历史周期的数据稽核指标的实际值;
基于所述训练数据,对所述初始模型进行训练,直至得到所述指数平滑模型。
10.根据权利要求6-8任一项所述的装置,其特征在于,所述指数平滑模型为简单指数平滑模型。
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-5中任一项所述的方法。
CN202211482817.8A 2022-11-24 2022-11-24 数据稽核方法、装置、电子设备及介质 Pending CN115757381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211482817.8A CN115757381A (zh) 2022-11-24 2022-11-24 数据稽核方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211482817.8A CN115757381A (zh) 2022-11-24 2022-11-24 数据稽核方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN115757381A true CN115757381A (zh) 2023-03-07

Family

ID=85338569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211482817.8A Pending CN115757381A (zh) 2022-11-24 2022-11-24 数据稽核方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN115757381A (zh)

Similar Documents

Publication Publication Date Title
CN111784508A (zh) 企业风险评估方法、装置及电子设备
CN112508243B (zh) 电力信息系统多故障预测网络模型的训练方法及装置
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN113177585B (zh) 一种用户分类方法、装置、电子设备及存储介质
CN116739742A (zh) 信贷风控模型的监控方法、装置、设备及存储介质
CN110991761B (zh) 一种供热负荷预测方法及装置
CN107871213B (zh) 一种交易行为评价方法、装置、服务器以及存储介质
CN107391363B (zh) 一种测试资源的调度方法、装置及电子设备
CN110196797B (zh) 适于信用评分卡系统的自动优化方法和系统
CN115757381A (zh) 数据稽核方法、装置、电子设备及介质
CN116957534A (zh) 一种预测智能电表更换数量的方法
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN110246026B (zh) 一种数据转移的输出组合设定方法、装置及终端设备
CN113868831A (zh) 一种电池容量一致性估计方法及系统
CN113850523A (zh) 基于数据补全的esg指数确定方法及相关产品
CN113127333A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN111310989B (zh) 零件加工成功率的预测方法、预测装置及可读存储介质
CN116610484B (zh) 一种模型训练方法、故障预测方法、系统、设备以及介质
CN112434839B (zh) 一种配电变压器重过载风险的预测方法及电子设备
CN117556935A (zh) 时间序列预测方法、装置、设备及可读存储介质
CN116645192A (zh) 企业风险确定方法、装置、设备及存储介质
CN117495546A (zh) 一种坏账预测的方法、装置、电子设备及存储介质
CN117474161A (zh) 投诉预警方法、装置、设备及介质
CN117391500A (zh) 线性模型与机器学习模型融合的信用评价方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination