CN115271929A - 数据异常检测方法、装置、设备、介质及程序产品 - Google Patents
数据异常检测方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN115271929A CN115271929A CN202210988998.5A CN202210988998A CN115271929A CN 115271929 A CN115271929 A CN 115271929A CN 202210988998 A CN202210988998 A CN 202210988998A CN 115271929 A CN115271929 A CN 115271929A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- period
- voting
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/405—Establishing or using transaction specific rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Engineering & Computer Science (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Computer Security & Cryptography (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种数据异常检测方法、装置、设备、介质及程序产品,通过获取待检测时段对应的时间序列数据,并对时间序列数据进行周期特性解析,确定拆解周期;根据拆解周期,从时间序列数据中拆解出多个样本序列;根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列;利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。解决了现有的数据异常检测方法存在对呈周期性变化的金融账务数据的异常检测的效果不稳定,且误判率高的技术问题。
Description
技术领域
本申请涉及金融科技(Fintech)领域,尤其涉及一种数据异常检测方法、装置、设备、介质及程序产品。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变。
目前,现有的数据异常检测一般是单一使用3σ方法或者Grubbs测试方法,并且检测异常值通常是采用过去某段时间序列,比如最近7天,最近一个月,最近一年等时间范围。
但是现有的数据异常检测方法对具有周期性的金融账务数据的检测效果较差,异常值范围检测过于粗糙,使得误判的概率大大提高。
即现有的数据异常检测方法存在对呈周期性变化的金融账务数据的异常检测的效果不稳定,且误判率高的技术问题。
发明内容
本申请提供一种数据异常检测方法、装置、设备、介质及程序产品,以解决了现有的数据异常检测方法存在对呈周期性变化的金融账务数据的异常检测的效果不稳定,且误判率高的技术问题。
第一个方面,本申请提供一种数据异常检测方法,包括:
获取待检测时段对应的时间序列数据,并对时间序列数据进行周期特性解析,确定拆解周期;
根据拆解周期,从时间序列数据中拆解出多个样本序列;
根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列;
利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。
在一种可能的设计中,样本序列对应的第一时段的第一时长小于拆解周期的时长。
可选的,拆解周期的时长是第一时长的整数倍。
在一种可能的设计中,每个子序列对应的第二时段的第二时长小于第一时长。
可选的,第一时长是第二时长的整数倍。
在一种可能的设计中,对时间序列数据进行周期特性解析,确定拆解周期,包括:
根据时间序列数据中各项数据对应的时间,绘制时间序列数据对应的数据曲线;
利用图像分析模型,对数据曲线进行周期特性解析,确定拆解周期。
在一种可能的设计中,利用图像分析模型,对数据曲线进行周期特性解析,确定拆解周期,包括:
利用图像分析模型解析数据曲线的周期特征,确定多个待选周期;
根据多个待选周期分别对时间序列数据进行移动平均处理,确定各个移动平均序列,移动平均序列与待选周期一一对应;
判断各个移动平均序列中的各项数据是否呈周期性变化;
若否,则将移动平均序列对应的待选周期,确定为拆解周期。
在一种可能的设计中,判断各个移动平均序列中的各项数据是否呈周期性变化,包括:
根据移动平均序列中各项数据的先后顺序,绘制移动平均序列对应的移动平均线;
利用图像分析模型,对移动平均线进行周期特性解析,并根据解析结果判断移动平均线是否呈周期性变化。
在一种可能的设计中,将移动平均序列对应的待选周期,确定为拆解周期,包括:
当存在多个移动平均序列不呈周期性变化时,将最小的待选周期确定为拆解周期。
在一种可能的设计中,利用异常检测模型,对各个投票时间序列进行异常检测,包括:
计算每个投票时间序列与每个投票时段对应的数据预测模型的拟合度;
判断拟合度是否满足预设拟合要求;
若否,则确定投票时间序列出现异常。
在一种可能的设计中,根据预设投票判定规则,判断检测结果是否出现异常,包括:
若存在出现异常的投票时间序列,则确定检测结果出现异常;或者,
若出现异常的投票时间序列的数量小于预设数量阈值,则确定检测结果没有出现异常。
第二方面,本申请提供一种数据异常检测装置,包括:
获取模块,用于待检测时段对应的时间序列数据;
处理模块,用于:
对时间序列数据进行周期特性解析,确定拆解周期;
根据拆解周期,从时间序列数据中拆解出多个样本序列;
根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列;
利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。
第三个方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行第一方面所提供的任意一种可能的方法。
第四方面,本申请提供一种存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行第一方面所提供的任意一种可能的数据异常检测方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的数据异常检测方法。
本申请提供了一种数据异常检测方法、装置、设备、介质及程序产品,通过获取待检测时段对应的时间序列数据,并对时间序列数据进行周期特性解析,确定拆解周期;根据拆解周期,从时间序列数据中拆解出多个样本序列;根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列;利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。解决了现有的数据异常检测方法存在对呈周期性变化的金融账务数据的异常检测的效果不稳定,且误判率高的技术问题。达到了提高金融账务的异常检测效果的稳定性,降低误判率的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种数据异常检测方法的应用场景示意图;
图2为本申请提供的一种数据异常检测方法的流程示意图;
图3为本申请实施提供的另一种数据异常检测方法的流程示意图;
图4为本申请实施例提供的一种数据异常检测装置的结构示意图;
图5为本申请提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,包括但不限于对多个实施例的组合,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请所涉及到的专业名词作出解释:
时间序列分析:一种数理统计数据分析方法,根据不同时间的数据序列来预测未来的数据形态。
异常值:在既定的数据中,出现了不符合认定的数据,或者不符合某个发展规律的数据,或者不符合一定范围内的数据。
异常值检测:根据过去的数据形态规律对当前数据进行判断,是否是符合发展规律的。
同期拆解:对于周期性的数据,按照相同的周期或者时间点进行时间序列拆解,以便更好地让数据具有更好的参照性,比如每个月的某一天,每周的周一,每天的凌晨一点等等。
投票方法:对于数据异常检测,每个时间周期分配一个票数,若判断当前时点的数据是异常值,则将票数投给该数据。如果最终该数据在整个时间周期内得票数超过一定阈值,则认为该数据是异常值。
3σ准则:根据一组统计数据,计算数据的平均值μ和标准差σ,如果某个新出现的数A小于μ-3σ或大于μ+3σ,则认为数值A是异常值。
现有数据异常检测一般是单一使用3σ方法或者Grubbs测试方法,并且检测异常值通常是采用过去某段时间序列,比如最近7天,最近一个月,最近一年等时间范围。
但是现有的数据异常检测方法存在以下缺点:
(1)选取异常值检测的方法单一,适用普通数据形态的数据范围,金融账务数据具有周期性的特征,或者在账单日/还款日还款当天,不同时点数据交易频数分布存在严重倾斜,用历史数据去识别,检测的效果极不稳定,比如3σ准则对符合正态分布的数据效果较好,对偏态分布数据准确性可能较差。
(2)异常值范围检测过于粗糙,比如通过历史交易的数据,来判断当天交易数据是否是异常值,事实上一天的交易不同的时间段交易频数和交易金额是存在周期性规律的,对于金融交易数据来说,忽视这种周期性规律进行异常数据识别,具有较高的异常误判风险。
为解决上述问题,本申请的发明构思是:
(1)本申请对数据做异常检测时提出同期拆解的思想方法,顾及金融业务数据的周期性变化特征,更加精确地利用历史同期时间序列的交易行为数据进行检测,提高异常检测结果的准确性。
(2)本申请对数据做异常检测时对当天24小时交易时点数据按每个小时区间的交易行为数据进行检测,并打标签,然后统计24小时即24个区间内的检测数据结果,汇总标签数据,最后基于投票思想方法来确定最终是否是异常值,在数据精细化拆解的基础上,通过多方法集成的方式,提高异常检测结果的准确性,避免使用某个单一区间影响检测效果。
图1为本申请实施例提供的一种数据异常检测方法的应用场景示意图。如图1所示,用户通过操作用户终端产生了交易数据,用户终端将交易数据上传到服务器中,由服务器自动生成金融账目数据即时间序列102,数据异常检测系统101加载待检测时段对应的时间序列102,该时间序列102是由金融账务核心系统产生的。然后根据时间序列102的变化周期,从时间序列102中提取多个样本序列即进行同期拆解,然后将每个样本序列都按照预设划分方式进行划分,如以每个小时为划分周期或间隔,分成多个子序列,然后将对应时段的子序列组合成一个投票时间序列。即采用投票的思想,在异常检测时将时间序列数据拆分更细粒度的投票时间序列,对多个投票时间序列分别进行异常识别并投票,比如要识别交易日当天数据是否存在异常,可将交易日数据按照小时进行拆分后得到多个小时粒度的投票时间序列,然后分别对多个投票时间序列进行异常识别,根据不同投票时间序列的异常值检测结果进行投票,最终确定是否存在异常值。如果存在异常值,则异常检测系统101就会输出提示信息。通过更细时间粒度的多方投票,提高异常识别的稳健性。
下面具体介绍本申请提供的数据异常检测方法:
图2为本申请实施例提供的一种数据异常检测方法的流程示意图。如图2所示,该数据异常检测方法的具体步骤包括:
S201、获取待检测时段对应的时间序列数据,并对时间序列数据进行周期特性解析,确定拆解周期。
在本步骤中,获取待检测时段对应的时间序列数据,包括:
获取源系统如金融账务核心系统中的金融账务数据,包括:审批数据、交易数据,入账数据等数据。对金融账务数据进行标准化,通过清洗、转换等达到标准化数据,并根据金融账务数据对应的时间戳排序,形成时间序列数据。
在本实施例中,对时间序列数据进行周期特性解析,确定拆解周期,包括:根据时间序列数据中各项数据对应的时间,绘制时间序列数据对应的数据曲线;利用图像分析模型,对数据曲线进行周期特性解析,确定拆解周期。
需要说明的是,拆解周期包括:分钟、小时、天、周、月、季度、年以及其它自定义的时长。
S202、根据拆解周期,从时间序列数据中拆解出多个样本序列。
在本步骤中,样本序列对应的第一时段的第一时长小于拆解周期的时长。可选的,拆解周期的时长是第一时长的整数倍。
例如,拆解周期为一周,第一时长为一天,则将时间序列数据按一周7天进行划分,然后在每周对应的数据中,提取出与对账日或还款日等金融日期相关的那一天的数据,作为样本序列。
S203、根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列。
在本步骤中,每个子序列对应的第二时段的第二时长小于第一时长。可选的,第一时长是第二时长的整数倍。
在本实施例中,为了便于理解,第二时长为1小时。即将一天对应的样本序列划分成24份子序列,每个子序列对应一个小时。然后将不同日的同一个小时的子序列进行组合,得到24个小时对应的24个投票时间序列。
S204、利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。
在本步骤中,异常检测模型包括:与每个第二时段对应的预测数据模型,该预测数据模型是提前训练好的模型,能够对第二时段的金融数据的数值进行预测。
将各个投票时间序列中的各个数据分别输入预测数据模型中,判断这些数据是否能够与预测数据模型中得到的数据曲线完全拟合,若无法拟合,则证明出现了异常值。
或者判断投票时间序列中的数据与预测数据模型中预测值的偏差是否在预设偏差阈值范围之内,若不在偏差阈值范围之内,则证明出现了异常值。
预设投票判定规则包括两种类型,一种是严苛的判定规则,其要求只要任意一个投票时间序列中出现了异常值,则认为待检测时段出现了异常。另一种是较为宽松的判定规则,其要求只要任意一个投票时间序列中出现的异常值的数量没有超过预设数量阈值,则认为待检测时段没有出现异常。
在检测到异常后,可以向运维人员发送提醒信息,以便于运维人员及时处理,避免数据异常带来进一步的损失,降低金融系统风险。
本申请实施例提供了一种数据异常检测方法,获取待检测时段对应的时间序列数据,并对时间序列数据进行周期特性解析,确定拆解周期;根据拆解周期,从时间序列数据中拆解出多个样本序列;根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列;利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。解决了现有的数据异常检测方法存在对呈周期性变化的金融账务数据的异常检测的效果不稳定,且误判率高的技术问题。达到了提高金融账务的异常检测效果的稳定性,降低误判率的技术效果。
图3为本申请实施提供的另一种数据异常检测方法的流程示意图。如图3所示,该数据异常检测方法的具体步骤包括:
S301、获取待检测时段对应的时间序列数据。
在本步骤中,具体包括:
获取源系统如金融账务核心系统中的金融账务数据,包括:审批数据、交易数据,入账数据等数据。对金融账务数据进行标准化,通过清洗、转换等达到标准化数据。
在本实施例中,在数据清洗阶段,首先处理缺失值和噪声数据,数据缺失通常为存在NA的数据,数据噪声通常为异常值,比如数位为-9999,如果该特征的缺失值对于分类并无太大作用,可以直接删除,如果一个特征对应多个类别,可以根据不同类对应的层次进行组合,比如将特征分层,包含1、2、-9999归为同一类,减少特征矩阵的稀疏性。如果源数据是连续型类型的数据,则可以根据均值进行填充。此外,数据转换指的是对数据进行类型转换、归一化。比如性别特征分为男、女表示,或者数字0和1表示,交易金额数据通常为decimal十进制精度的数据等等,以便后续进行分析。
S302、根据时间序列数据中各项数据对应的时间,绘制时间序列数据对应的数据曲线。
在本步骤中,以各项数据对应的时间和取值作为横纵坐标,绘制出时间序列对应的数据曲线。
S303、利用图像分析模型解析数据曲线的周期特征,确定多个待选周期。
在本步骤中,图像分析模型在数据曲线上截取一定时间长度的区段,判断这些区段是否存在周期性变化趋势。具体的,可以从大到小,或者从小到大来尝试调整不同的区段大小,直至所截取到的各个区段直接符合周期性变化趋势,即一个区段就是一个周期,那么就可以把符合条件的各个周期作为待选周期。
S304、根据多个待选周期分别对时间序列数据进行移动平均处理,确定各个移动平均序列。
在本步骤中,移动平均序列与待选周期一一对应。
在本实施例中,为了验证各个待选周期是否选择恰当,即某个待选周期是否真的是时间序列数据的周期,将待选周期作为窗口长度,计算时间序列数据的移动平均序列,即以待选周期为移动平均周期,计算多个移动平均值,将这些移动平均值依次排列成移动平均序列。
S305、判断各个移动平均序列中的各项数据是否呈周期性变化。
在本步骤中,若否,则执行步骤S303,
在本实施例中,具体包括:
根据移动平均序列中各项数据的先后顺序,绘制移动平均序列对应的移动平均线;利用图像分析模型,对移动平均线进行周期特性解析,并根据解析结果判断移动平均线是否呈周期性变化。
具体的,将移动平均序列绘制成移动平均线,如果移动平均线不再程序周期性变化趋势,则证明该移动平均线对应的待选周期就是时间序列数据对应的真实周期,即拆解周期。
S306、将移动平均序列对应的待选周期,确定为拆解周期。
在本实施例中,具体包括:
当存在多个移动平均序列不呈周期性变化时,将最小的待选周期确定为拆解周期。
或者,按各个待选周期的从小到大或从大到小的顺序来绘制移动平均线,直到出现移动平均线不成周期性变化时,该待选周期就是拆解周期。
S307、根据拆解周期,从时间序列数据中拆解出多个样本序列。
在本实施例中,利用同期拆解的方法,将分析每天的交易时点数据转化为按同周期的客户的行为分析,对历史交易的时间序列进行分析拆解,结合每个月的账单周期,假设按照每月30天一个周期进行数据序列拆分,而不是单一的观察历史所有的时间序列交易。具体拆分方法如下:
设定整个时间序列为集合A,A包含数据形态特征,唯一标识值p,交易时间t,客户账单周期b,客户标识c,其他的交易属性为y,m,n,…,则A={p,t,b,c,y,m,n…}。
按照不同的账单周期b(此处为30)进行同期拆解,相同账单周期的为同一个数据集合,拆分出不同的时间序列集合A1,A2,A3,A4,A5,…,A28,A29,A30则:
A1={p1,t1,b1,c1,y1,m1,n1…}
A2={p2,t2,b2,c2,y2,m2,n2…}
A3={p3,t3,b3,c3,y3,m3,n3…}
A4={p4,t4,b4,c4,y4,m4,n4…}
A5={p5,t5,b5,c5,y5,m5,n5…}
…
A30={p30,t30,b30,c30,y30,m30,n30…}
结合客户账单周期交易行为数据,客户在不同的账单日进行的还款交易概率更大,以信用卡数据为例,借贷单位往往会指定还款日,客户在还款日当天进行还款的行为的可能性往往高于提前还款行为,周期数据更具有客户行为的代表性,客户交易行为频率更相似,因此可根据检测数据所在日期,在A1,A2,A3,A4,A5,…,A30中选择对应日期的序列集合即样本序列进行异常值检测。
S308、根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列。
在本实施例中,假设样本序列对应的时长为1天,预设划分方式是将一天的数据对应24小时进行分割,得到24个子序列。客户在历史交易时间序列中即时间序列数据中,还款日当天24小时内都可以进行还款或者借款操作,即一天24小时之内都可以进行交易行为,本申请将S307中周期拆解得到的样本序列Ai,按照交易时间t继续拆分到24个小时区间,得到对应24个小时的区间时间序列即24个子序列,然后将各个样本序列中每个小时对应的子序列组合成24个投票时间序列,例如将0-1时的所有子序列合并成一个投票时间序列,以此类推得到24个投票时间序列。然后分别对24个投票时间序列进行异常值检测,根据24个投票时间序列的异常检测结果,应用投票方法,得到最终的日交易数据的异常识别结果。具体操作方式如下:首先将周期时间序列Ai即样本序列按照客户交易时间t进行分拆区间为{t1,t2,t3,...,t24},即t={t1,t2,t3,...,t24}。
本实施例对24个投票时间序列分别分配1票(本领域技术人员也可根据专家经验对不同的时间区间分配不同的权重),分别对异常和非异常进行投票。如果某个投票时间序列被判定为异常,则异常得票值加1(或对应其它权重值),否则,非异常得票加1(或对应其它权重值)。
S309、利用异常检测模型,对各个投票时间序列进行异常检测。
在本步骤中,具体包括:
计算每个投票时间序列与每个投票时段对应的数据预测模型的拟合度;
判断拟合度是否满足预设拟合要求;
若否,则确定投票时间序列出现异常。
在本实施例中,异常检测首先建立一个数据模型,所谓异常值就是那些与模型不能完全拟合得数据,或者相对偏离预测值得数据,异常值和正常值可以看作是两个不同得类,因此可以使用分类统计的方法进行异常值判断,针对数据形态基于3σ准则对贷款业务数据进行异常值检测。
选取历史时序数据TN时间对应的贷款业务交易量X1,X1001,X2001…,Xt,其中,X1代表1月31号零点到一点。X1001代表1月2号零点到一点,X2001代表1月3号零点到一点,Xt代表1月31号零点到一点。
计算这组数据的均值μ1和标准差σ1,则对于当前时间TN+1的数据来说,异常值范围是(-∞,μ1-3σ1)∪(μ1+3σ1,+∞),也就是说当前数据Xs在这个范围内时就被判定为异常值。当新来一个实时数据Xn时,按照前一个的处理方式,提取每一天中与Xn时间对应的交易量,计算这组数据的均值μ2和标准差σ2,则对于当前实时数据XN+2来说,异常值范围是(-∞,μ2-3σ2)∪(μ2+3σ2,+∞)。每当新来一个实时数据时,按照如前所述的方法更新异常值范围。可选地,其他时间序列异常检测方法同样适用于本申请的此环节。
S310、根据预设投票判定规则,判断检测结果是否出现异常。
在本实施例中,若存在出现异常的投票时间序列,则确定检测结果出现异常;或者,若出现异常的投票时间序列的数量小于预设数量阈值,则确定检测结果没有出现异常。
具体的,在进行金融数据异常识别时,将完整历史的交易数据按照不同账单周期时间序列进行数据拆分,然后将当天的交易数据拆分成24个区间,每1个小时为一个区间进行检测,对24个区间进行异常值检测,采用投票思想,实时检测出异常值。
最终,基于24个区间时间序列的异常得票结果,根据业务对异常的宽容程度,制定异常判定规则,对异常结果进行评判。可选地,严苛的异常判定规则可采用,若异常得票非零,则判定该日数据存在异常;宽松的异常判定规则可采用,若异常得票高于非异常得票,则判定该日数据存在异常。
为了便于具体实施,异常得票数计算如公式(1)所示:
严苛的异常判定条件(E=1表示判定是异常值,E=0表示判定不是异常值),如公式(2)所示:
宽松的异常判定条件(E=1表示判定是异常值,E=0表示判定不是异常值),如公式(3)所示:
为了便于理解以上各个步骤,下面以一个具体例子来进行说明:
假定场景:当前我们需要对某金融单位4月30日(周六)的贷款业务数据是否存在异常进行识别。依据本专利的技术方案,识别流程如下:
首先,数据预处理生成时间序列数据。选取一定时间范围的贷款业务数据,这里假定为3个月,即1月30日至4月30日时间范围内的业务数据,对业务数据进行无效数据清洗、数据规格转换等处理,以天为粒度进行数据统计,生成贷款业务的时间序列数据。
然后,进行数据周期拆解。绘制时间序列图,通过观察确定待选周期,可发现贷款业务存在着较为明显的周周期性,以7为移动窗口长度,对时间序列数据进行移动平均处理,观察结果序列的平稳性,判断数据周期。这里以7为周期,对数据进行周期进行拆解,2月5号、2月12号、2月19号……、4月30号,得到长度为13的时间序列数据。
接下来,进行投票区间拆解。这里以小时作为投票区间,对同期拆解后得到的时间序列数据进行拆解,比如2月5号0点-1点、2月12号0点-1点、2月19号0点-1点……、4月30号0点-1点,得到第一个投票区间。2月5号1点-2点、2月12号1点-2点、2月19号1点-2点……、4月30号1点-2点得到第二个投票区间,以此类推可得到24个投票时间序列。
再然后,进行区间异常检测。针对数据特点,选择合适的时间序列异常检测方法,比如3σ准则,对S3得到的24个投票时间序列分别进行异常判别,收集判别结果。
最后,进行异常投票判定。参考本专利给出的严苛和宽松两种不同的判定准则,给出最终的异常判定结果。
本申请实施例提供了一种数据异常检测方法,基于金融交易数据的周期性特征,提出同期拆解和投票相结合的异常识别方法。即首先依据金融交易数据的周期规律,按照周期特征进行数据拆解,顾及交易行为的周期特征进行异常识别,可提高异常识别的准确性。同时提出采用投票的思想,在异常检测时将时间序列数据拆分更细粒度的投票时间序列,对多个投票时间序列分别进行异常识别并投票,比如要识别交易日当天数据是否存在异常,可将交易日数据按照小时进行拆分后得到多个小时粒度的投票时间序列,然后分别对多个投票时间序列进行异常识别,根据不同投票时间序列的异常值检测结果进行投票,最终确定是否存在异常值,通过更细时间粒度的多方投票,提高异常识别的稳健性。
图4为本申请实施例提供的一种数据异常检测装置的结构示意图。该数据异常检测装置400可以通过软件、硬件或者两者的结合实现。
如图4所示,该数据异常检测装置400包括:
获取模块401,用于待检测时段对应的时间序列数据;
处理模块402,用于:
对时间序列数据进行周期特性解析,确定拆解周期;根据拆解周期,从时间序列数据中拆解出多个样本序列;
根据预设划分方式,将每个样本序列划分成多个子序列,并将相同时段的各个子序列组合成一个投票时间序列,以确定多个不同的时段对应的多个投票时间序列;
利用异常检测模型,对各个投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。
在一种可能的设计中,样本序列对应的第一时段的第一时长小于拆解周期的时长。可选的,拆解周期的时长是第一时长的整数倍。
在一种可能的设计中,每个子序列对应的第二时段的第二时长小于第一时长。可选的,第一时长是第二时长的整数倍。
在一种可能的设计中,处理模块402,用于:
根据时间序列数据中各项数据对应的时间,绘制时间序列数据对应的数据曲线;利用图像分析模型,对数据曲线进行周期特性解析,确定拆解周期。
在一种可能的设计中,处理模块402,用于:
利用图像分析模型解析数据曲线的周期特征,确定多个待选周期;
根据多个待选周期分别对时间序列数据进行移动平均处理,确定各个移动平均序列,移动平均序列与待选周期一一对应;
判断各个移动平均序列中的各项数据是否呈周期性变化;
若否,则将移动平均序列对应的待选周期,确定为拆解周期。
在一种可能的设计中,处理模块402,用于:
根据移动平均序列中各项数据的先后顺序,绘制移动平均序列对应的移动平均线;利用图像分析模型,对移动平均线进行周期特性解析,并根据解析结果判断移动平均线是否呈周期性变化。
在一种可能的设计中,处理模块402,用于:
当存在多个移动平均序列不呈周期性变化时,将最小的待选周期确定为拆解周期。
在一种可能的设计中,处理模块402,用于:
计算每个投票时间序列与每个投票时段对应的数据预测模型的拟合度;判断拟合度是否满足预设拟合要求;若否,则确定投票时间序列出现异常。
在一种可能的设计中,处理模块402,用于:
若存在出现异常的投票时间序列,则确定检测结果出现异常;或者,
若出现异常的投票时间序列的数量小于预设数量阈值,则确定检测结果没有出现异常。
值得说明的是,图4所示实施例提供的装置,可以执行上述任一方法实施例中所提供的方法,其具体实现原理、技术特征、专业名词解释以及技术效果类似,在此不再赘述。
图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,该电子设备500,可以包括:至少一个处理器501和存储器502。图5示出的是以一个处理器为例的电子设备。
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器501用于执行存储器502存储的计算机执行指令,以实现以上各方法实施例所述的方法。
其中,处理器501可能是一个中央处理器(central processing unit,简称为CPU),或者是特定集成电路(application specific integrated circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。当所述存储器502是独立于处理器501之外的器件时,所述电子设备500,还可以包括:
总线503,用于连接所述处理器501以及所述存储器502。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheralcomponent,PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器502和处理器501集成在一块芯片上实现,则存储器502和处理器501可以通过内部接口完成通信。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述各方法实施例中的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由本申请的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (15)
1.一种数据异常检测方法,其特征在于,包括:
获取待检测时段对应的时间序列数据,并对所述时间序列数据进行周期特性解析,确定拆解周期;
根据所述拆解周期,从所述时间序列数据中拆解出多个样本序列;
根据预设划分方式,将每个所述样本序列划分成多个子序列,并将相同时段的各个所述子序列组合成一个投票时间序列,以确定多个不同的所述时段对应的多个所述投票时间序列;
利用异常检测模型,对各个所述投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。
2.根据权利要求1所述的数据异常检测方法,其特征在于,所述样本序列对应的第一时段的第一时长小于所述拆解周期的时长。
3.根据权利要求2所述的数据异常检测方法,其特征在于,所述拆解周期的时长是所述第一时长的整数倍。
4.根据权利要求2或3所述的数据异常检测方法,其特征在于,每个所述子序列对应的第二时段的第二时长小于所述第一时长。
5.根据权利要求4所述的数据异常检测方法,其特征在于,所述第一时长是所述第二时长的整数倍。
6.根据权利要求1所述的数据异常检测方法,其特征在于,所述对所述时间序列数据进行周期特性解析,确定拆解周期,包括:
根据所述时间序列数据中各项数据对应的时间,绘制所述时间序列数据对应的数据曲线;
利用图像分析模型,对所述数据曲线进行所述周期特性解析,确定所述拆解周期。
7.根据权利要求6所述的数据异常检测方法,其特征在于,所述利用图像分析模型,对所述数据曲线进行所述周期特性解析,确定所述拆解周期,包括:
利用所述图像分析模型解析所述数据曲线的周期特征,确定多个待选周期;
根据多个所述待选周期分别对所述时间序列数据进行移动平均处理,确定各个移动平均序列,所述移动平均序列与所述待选周期一一对应;
判断各个所述移动平均序列中的各项数据是否呈周期性变化;
若否,则将所述移动平均序列对应的所述待选周期,确定为所述拆解周期。
8.根据权利要求7所述的数据异常检测方法,其特征在于,所述判断各个所述移动平均序列中的各项数据是否呈周期性变化,包括:
根据所述移动平均序列中各项数据的先后顺序,绘制所述移动平均序列对应的移动平均线;
利用所述图像分析模型,对所述移动平均线进行所述周期特性解析,并根据解析结果判断所述移动平均线是否呈所述周期性变化。
9.根据权利要求7或8所述的数据异常检测方法,其特征在于,所述将所述移动平均序列对应的所述待选周期,确定为所述拆解周期,包括:
当存在多个所述移动平均序列不呈所述周期性变化时,将最小的所述待选周期确定为所述拆解周期。
10.根据权利要求1所述的数据异常检测方法,其特征在于,所述利用异常检测模型,对各个所述投票时间序列进行异常检测,包括:
计算每个所述投票时间序列与每个投票时段对应的数据预测模型的拟合度;
判断所述拟合度是否满足预设拟合要求;
若否,则确定所述投票时间序列出现异常。
11.根据权利要求1所述的数据异常检测方法,其特征在于,所述根据预设投票判定规则,判断检测结果是否出现异常,包括:
若存在出现异常的所述投票时间序列,则确定所述检测结果出现异常;或者,
若出现异常的所述投票时间序列的数量小于预设数量阈值,则确定所述检测结果没有出现异常。
12.一种数据异常检测装置,其特征在于,包括:
获取模块,用于待检测时段对应的时间序列数据;
处理模块,用于:
对所述时间序列数据进行周期特性解析,确定拆解周期;
根据所述拆解周期,从所述时间序列数据中拆解出多个样本序列;
根据预设划分方式,将每个所述样本序列划分成多个子序列,并将相同时段的各个所述子序列组合成一个投票时间序列,以确定多个不同的所述时段对应的多个所述投票时间序列;
利用异常检测模型,对各个所述投票时间序列进行异常检测,并根据预设投票判定规则,判断检测结果是否出现异常。
13.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行权利要求1至11任一项所述的数据异常检测方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的数据异常检测方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的数据异常检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210988998.5A CN115271929A (zh) | 2022-08-17 | 2022-08-17 | 数据异常检测方法、装置、设备、介质及程序产品 |
PCT/CN2022/124767 WO2024036727A1 (zh) | 2022-08-17 | 2022-10-12 | 数据异常检测方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210988998.5A CN115271929A (zh) | 2022-08-17 | 2022-08-17 | 数据异常检测方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115271929A true CN115271929A (zh) | 2022-11-01 |
Family
ID=83752058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210988998.5A Pending CN115271929A (zh) | 2022-08-17 | 2022-08-17 | 数据异常检测方法、装置、设备、介质及程序产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115271929A (zh) |
WO (1) | WO2024036727A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245666A (zh) * | 2023-01-16 | 2023-06-09 | 广州尼森网络科技有限公司 | 一种基于数据处理的费用核算方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241751B (zh) * | 2019-07-18 | 2022-12-13 | 中移(苏州)软件技术有限公司 | 一种异常检测方法和系统,及计算机可读存储介质 |
EP3955076A1 (en) * | 2020-08-10 | 2022-02-16 | Siemens Aktiengesellschaft | System, device and method of detecting abnormal datapoints |
CN111931868B (zh) * | 2020-09-24 | 2021-01-05 | 常州微亿智造科技有限公司 | 时间序列数据异常检测方法和装置 |
CN114443331A (zh) * | 2020-11-04 | 2022-05-06 | 中国电信股份有限公司 | 时序数据异常检测方法和装置 |
CN113656461B (zh) * | 2021-08-17 | 2024-03-19 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和介质 |
CN113836240B (zh) * | 2021-09-07 | 2024-02-20 | 招商银行股份有限公司 | 时序数据分类方法、装置、终端设备及存储介质 |
CN114218009A (zh) * | 2021-12-30 | 2022-03-22 | 山东云海国创云计算装备产业创新中心有限公司 | 一种时间序列异常值检测方法、装置、设备及存储介质 |
-
2022
- 2022-08-17 CN CN202210988998.5A patent/CN115271929A/zh active Pending
- 2022-10-12 WO PCT/CN2022/124767 patent/WO2024036727A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245666A (zh) * | 2023-01-16 | 2023-06-09 | 广州尼森网络科技有限公司 | 一种基于数据处理的费用核算方法及系统 |
CN116245666B (zh) * | 2023-01-16 | 2023-09-19 | 广州尼森网络科技有限公司 | 一种基于数据处理的费用核算方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2024036727A1 (zh) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415119B (zh) | 模型训练、票据交易预测方法、装置、存储介质及设备 | |
CN108734565B (zh) | 一种征信分实时调整处理方法、装置及处理服务器 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN112017040B (zh) | 信用评分模型训练方法、评分方法及系统、设备及介质 | |
CN111709826A (zh) | 目标信息确定方法和装置 | |
CN115271929A (zh) | 数据异常检测方法、装置、设备、介质及程序产品 | |
CN111325572B (zh) | 一种数据处理方法及装置 | |
CN107644042B (zh) | 软件程序点击率预估排序方法及服务器 | |
CN112884480A (zh) | 异常交易识别模型的构造方法、装置、计算机设备和介质 | |
CN110245985B (zh) | 一种信息处理方法及装置 | |
CN107871213B (zh) | 一种交易行为评价方法、装置、服务器以及存储介质 | |
CN115375474A (zh) | 信息提示方法、装置及电子设备 | |
KR20200028803A (ko) | 입찰자 경향 및 행동패턴 분석에 의한 구간확률 도출 시스템 | |
CN113421154B (zh) | 基于控制图的信贷风险评估方法及系统 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN113420789A (zh) | 一种预测风险账号的方法、装置、存储介质和计算机设备 | |
CN111222967A (zh) | 一种集团企业全税种纳税计缴申报方法及系统 | |
Petroni et al. | Spot foreign exchange market and time series | |
CN114648258B (zh) | 基于融资租赁业务系统的任务调度方法及系统 | |
CN112734585B (zh) | 医保基金支出的预测方法、装置、设备及存储介质 | |
CN113254787B (zh) | 事件分析方法、装置、计算机设备及存储介质 | |
Zabotto | Detection of Anomalous Contracts of the Italian Public Administration | |
CN117132317A (zh) | 数据处理方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |