CN110263827B - 基于交易规律识别的异常交易检测方法及装置 - Google Patents

基于交易规律识别的异常交易检测方法及装置 Download PDF

Info

Publication number
CN110263827B
CN110263827B CN201910467135.1A CN201910467135A CN110263827B CN 110263827 B CN110263827 B CN 110263827B CN 201910467135 A CN201910467135 A CN 201910467135A CN 110263827 B CN110263827 B CN 110263827B
Authority
CN
China
Prior art keywords
transaction
value
detected
time sequence
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910467135.1A
Other languages
English (en)
Other versions
CN110263827A (zh
Inventor
高博
闫晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910467135.1A priority Critical patent/CN110263827B/zh
Publication of CN110263827A publication Critical patent/CN110263827A/zh
Application granted granted Critical
Publication of CN110263827B publication Critical patent/CN110263827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种基于交易规律识别的异常交易检测方法及装置,其中,该方法包括:获取待检测交易的交易明细数据,生成待检测时间序列;根据待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;根据待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,平均信息量,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分。上述技术方案实现了定量识别多种不同类型的异常交易,提高了异常交易检测的准确度和效率,保证了系统的可靠性和有效性。

Description

基于交易规律识别的异常交易检测方法及装置
技术领域
本发明涉及异常交易检测领域,特别涉及一种基于交易规律识别的异常交易检测方法及装置。
背景技术
异常交易是指当前运行状况较以往存在显著差别的交易,其出现往往与风险事件爆发、市场波动、客群和经营环境变化等因素相关联,是金融、零售、物流等行业需要重点关注的对象。然而,目前异常交易的检测手段仍然主要依靠用户(例如管理者)主观经验和简单的交易数据统计,很难做到标准统一、客观科学,而且耗时耗力,自动化水平低。加之交易种类众多、异常表现各异,传统的异常交易检测方法更是难以准确捕捉异常,并根据统一的标准对交易的异常水平进行定量描述,因而无法为处理异常提供有效的决策支持。
以工商银行为例,工商银行在北京地区网点覆盖广,柜面交易众多,仅2016年12月柜台处理的交易就涉及2658种。如何在现有人员配置下,从众多柜面交易中有效识别异常交易一直是工作中面临的一个挑战。目前异常交易问题的发现大体依赖两个途径,即基层网点汇报和交易量变化对比。下面对这两个异常交易检测方案进行介绍。
一、基层网点汇报主要指在渠道管理部门组织的调研中,根据与会网点工作人员的汇报发现柜面交易问题的过程。通过这一途径反映问题,具有时效性差、沟通环节多、自动化水平低的缺点。此外,汇总出来的问题往往具有较强的网点针对性,不能反映整个分行甚至支行层面的真实情况。即使隶属不同支行的网点反映了相同问题,也会因各自不同的历史情况,难以采用相同的策略加以解决。例如:网点A和B都发现了XXX交易出现押柜现象(即,某支交易占用了大量的柜面处理时间,造成服务队列积压),但网点A是由于XXX交易的高峰由以往的下午提前到了上午所致,但整体交易量未发生明显变化;而网点B则是由于XXX交易整体交易量提升导致了押柜。两种情况虽然表现相似,但原因不尽相同。从客户体验考虑,网点B适合增加开柜数量,限制同一时间柜员休假人数等手段解决问题;而从成本考量,网点A则更适合通过将熟悉XXX交易的柜员安排在上午接柜(即,上柜服务),或通过官网、APP等渠道对欲办理该业务的客户进行闲忙时提醒等方式解决押柜问题。
二、与基层网点汇报相比,交易数据变化对比更具主动性,它是指渠道管理部门通过统计方法,根据各支交易量、交易额等数据的变化水平进行异常交易识别的手段。该手段将交易数据突变默认为交易异常的唯一形式,但在实际运营中,交易量突变仅是交易异常的一种表现。例如:某支交易目前日交易总量未发生明显变化,但以往一天中相对平均的交易量却突然集中到了一个特定时段。若此交易涉及某一固定客群,这一变化很可能说明交易客群发生了变化;若此交易涉及高风险操作,这一变化很可能引出员工内外勾结作案的线索;若此交易涉及某项营销活动,这一变化很可能反映营销效果的好坏。虽然本例中的交易并未产生交易量的明显变化,但不论从哪个方面分析都应划归异常,引起管理部门的注意。然而,基于交易数据变化对比的分析手段,不能有效察觉以上交易异常,不具备识别复杂异常情况的能力。此外,由于缺乏对交易异常度的量化描述能力,依托传统统计方法的交易量对比手段,只能依赖人工查验和设定阈值等方式识别异常交易,难以实现网点层面的交易异常情况细分,无法提供精细化的决策支持信息。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于交易规律识别的异常交易检测方法,用以定量识别多种不同类型的异常交易,提高异常交易检测的准确度和效率,该检测方法包括:
在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;
根据所述待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;所述交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合;
根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;所述平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;
根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分;所述待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分作为异常交易检测结果输出给用户。
本发明实施例还提供了一种基于交易规律识别的异常交易检测装置,用以定量识别多种不同类型的异常交易,提高异常交易检测的准确度和效率,该检测装置包括:
获取单元,用于在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;
量化识别单元,用于根据所述待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;所述交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合;
差异度确定单元,用于根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;所述平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;
检测单元,用于根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分;所述待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分作为异常交易检测结果输出给用户。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于交易规律识别的异常交易检测方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于交易规律识别的异常交易检测方法的计算机程序。
与现有技术中以主观经验为依据、以逐级汇报为途径的异常交易检测方案,以及目前以交易数据突变水平为主要衡量标准的检测方案相比较,本发明实施例提供的技术方案中:
首先,在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;根据待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;该交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合,实现了从交易历史数据中量化识别交易历史规律,为异常交易检测处理提供重要依据,从而可以实现定量识别多种不同类型的异常交易。
其次,根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;该平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分,实现了客观地检测了交易的当前运行状态与历史规律的差异程度,从而可以自动检测出具有更多丰富表象(不仅限于交易数据突变)的异常交易,既能实现不同交易间异常程度的比较,又能提供同一交易下不同异常状态在经营单位的分布情况,为异常交易处置提供了决策支持,还保证了系统的可靠性和有效性。
综上,上述技术方案实现了定量识别多种不同类型的异常交易,提高了异常交易检测的准确度和效率,保证了系统的可靠性和有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中某支行营业室的往来户信息查询交易的情况示意图;
图2是本发明实施例中基于交易规律识别的异常交易检测方法流程示意图;
图3是本发明实施例中基于交易规律识别的异常交易检测方案实施涉及装置的结构示意图;
图4是本发明实施例中交易明细数据的预处理的流程示意图;
图5是本发明实施例中交易曲线切换点范围近似识别装置的结构示意图;
图6是本发明实施例中数据点类别划分的流程示意图;
图7是本发明实施例中交易曲线切换点范围近似识别实施涉及数据示意图;
图8是本发明实施例中切换点范围区间生成的流程示意图;
图9是本发明实施例中交易规律量化提取装置的结构示意图;
图10是本发明实施例中趋势阶段到达率先验概率定义的流程示意图;
图11是本发明实施例中趋势阶段过量零值比重先验概率定义的流程示意图;
图12是本发明实施例中趋势阶段切换点位置先验概率定义的流程示意图;
图13a(第一部分)和图13b(第二部分)是本发明实施例中量化要素评估值计算的流程示意图,其中,图13b中最左侧的箭头(向上方的箭头)接图13a中最左侧箭头的尾部,图13a中最下面的箭头(向下方的箭头)接图13b中最上面的箭头(向下方的箭头)的尾部;
图14是本发明实施例中交易规律量化提取实施涉及数据示意图;
图15是本发明实施例中异常交易检测请求处理的流程示意图;
图16a和图16b是本发明实施例中交易规律背离度评估处理的流程示意图;
图16a(第一部分)和图16b(第二部分)是本发明实施例中交易规律背离度评估处理的流程示意图,其中,图16b中最左侧的箭头(向上方的箭头)接图13a中最左侧箭头的尾部,图16a中最下面的箭头(向下方的箭头)接图16b中最上面的箭头(向下方的箭头)的尾部;
图17是本发明实施例中某行X网点的Y交易在相同“历史规律样本数据时间范围”内实际表现与交易规律的背离度评估结果示意图;
图18是本发明实施例中某行X网点的Y交易在不同“样本数据时间范围”内实际表现与交易规律的背离度评估结果示意图;
图19是本发明实施例中交易异常度评估装置的结构示意图;
图20是本发明实施例中特征点生成的流程示意图;
图21是本发明实施例中交易异常情况分类的流程示意图;
图22是本发明实施例中确定待检测交易的整体异常度评分的流程示意图;
图23是本发明实施例中基于交易规律识别的异常交易检测装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人考虑到的技术问题是:如何以自动化手段客观科学地描述交易当前运行状态与以往的区别程度(差异程度、背离程度)是当前异常交易检测工作中所需解决的主要问题。同时,如何检测出具有不同表象的异常交易以及如何实现经营单位(包括银行网点、零售店面、物流站点等)粒度的异常交易描述也是这一工作面临的挑战。
因此,为了更加科学的定义异常交易,发明人发现理想的异常交易检测方法应将交易当前运行状态与交易历史规律的背离程度(差异程度)作为衡量交易异常水平的重要标准,并通过同一交易下所有经营单位的交易异常状态,综合描述整个交易的异常程度,既能实现不同交易间异常程度的比较,又能提供同一交易下不同异常状态在经营单位的分布情况,为问题导向的科学决策和精准管理提供有效的分析信息支撑。
由于发明人发现了上述技术问题,提出了一种基于交易规律识别的异常交易智能检测方案,该方案既有别于以主观经验为依据、以逐级汇报为途径的传统解决方案,又不同于目前以交易数据突变水平为主要衡量标准的检测系统。根据机器学习理论从交易历史数据中量化识别交易规律,本方案不仅可以根据交易当前运行状态与历史规律的背离程度(差异程度),自动检测出具有更多丰富表象(不仅限于交易数据突变)的异常交易,更可以对同一交易下各经营单位的异常表现进行划分和描述,提供了精确的决策支持,还能通过不断更新交易规律,保证了系统的可靠性和有效性。
为了便于理解发明人如何发现上述技术问题,以及为何基于交易规律量化识别进行异常交易监测,下面结合一个例子进行详细解释。
具体地,本发明旨在解决目前异常交易检测方法中存在的自动化水平低、标准不统一、识别受主观影响大、异常交易识别能力差(仅能识别以交易数据突变为表象的交易异常)、无法实现经营单位粒度异常交易诊断等问题。本发明基于机器学习理论构建了两步处理,即交易规律识别处理和异常交易检测处理。交易规律识别处理可以通过学习交易历史数据自动、量化识别交易历史规律,为异常交易检测处理提供参考对比依据,使得异常交易的检测水平由单一的交易数据变化异常识别上升到交易规律异常识别水平。
以某银行分行具体交易为例,图1为某支行营业室的往来户信息查询交易的情况示意图。图1中柱状表示在历史规律样本数据时间范围(2015年12月1日至2016年11月30日)内周一至周五09:00(交易规律时间跨度起始值)至17:00(交易规律时间跨度终止值)每十分钟时段(交易规律时间单位)的月均交易笔数(交易数据种类)的取整值(例如,左边开始第一个柱形表示09:00-09:10时间段的月均近似交易笔数)。图中虚线则代表待评测时间跨度(一个月)下,样本数据时间范围(2016年12月间)内周一至周五相同时段的交易笔数。柱状和虚线所对应的交易量并不相等,曲线轨迹也不严格重合,但二者的交易规律却基本吻合。由此可见,使用交易规律契合度比使用单一的交易量变化更能科学、客观地描述交易的异常与否。但,图中曲折实线所示的交易规律虽易于人眼观察,却无法通过传统的“与或非”逻辑条件组合实现描述定义。因此,考虑到如上技术问题,发明人才提出了一种将通过交易规律识别处理实现一套智能识别、量化描述交易规律的方法,为更准确的异常交易识别提供有利的比对基础。
结合交易规律识别处理所得结果,异常交易检测处理能够根据待评测交易当前情况与历史规律的背离程度(差异程度),智能评估待评测交易在各经营单位所处异常的近似表现,为实现网点级粒度的异常诊断提供了有效的技术手段。与传统专家系统不同,本技术方案可以通过对交易数据的不断迭代学习,实现交易历史规律的自动升级,明显减少参数设置工作,提高异常交易识别的效率和系统的自适应能力。此外,该技术方案适用于包括商业银行、零售、物流等行业针对各类交易和资源流(人流、物流、资金流、票据流等)异常情况的自动识别,具有较好的拓展性和通用性。
下面对该基于交易规律识别的异常交易智能检测方案进行详细介绍如下。
图2是本发明实施例中基于交易规律识别的异常交易检测方法流程示意图,如图2所示,该方法包括如下步骤:
步骤S02:在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;
步骤S04:根据所述待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;所述交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合;
步骤S06:根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;所述平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;
步骤S08:根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分;所述待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分作为异常交易检测结果输出给用户。
与现有技术中以主观经验为依据、以逐级汇报为途径的异常交易检测方案,以及目前以交易数据突变水平为主要衡量标准的检测方案相比较,本发明实施例提供的技术方案中:
首先,在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;根据待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;该交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合,实现了从交易历史数据中量化识别交易历史规律,为异常交易检测处理提供重要依据,从而可以实现定量识别多种不同类型的异常交易。
其次,根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;该平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分,实现了客观地检测了交易的当前运行状态与历史规律的差异程度,从而可以自动检测出具有更多丰富表象(不仅限于交易数据突变)的异常交易,既能实现不同交易间异常程度的比较,又能提供同一交易下不同异常状态在经营单位的分布情况,为异常交易处置提供了决策支持,还保证了系统的可靠性和有效性。
综上,上述技术方案实现了定量识别多种不同类型的异常交易,提高了异常交易检测的准确度和效率,保证了系统的可靠性和有效性。
具体实施时,在本发明实例中,交易历史规律可以指的是:交易历史运行状态中呈现的趋势规律。同时,待检测交易的当前运行状态与历史规律之间的差异程度,在本发明实施例中也可以成为背离程度。另外,上述步骤中提到的“待检测”在本发明实施中也可以成为“待评测”。
如图3所示,本发明实施例提供的基于交易规律识别的异常交易检测方案的实现涉及9个装置,它们分别是交易记录数据库1、交易数据预处理装置2、交易曲线切换点范围近似识别装置3、交易规律量化提取装置4、交易规律存储装置5、交易规律背离度评估装置6和交易异常度评估装置7、交易规律提取请求处理装置8和异常交易检测请求处理装置9。以下分别就“交易规律识别处理”和“异常交易检测处理”进行详细介绍。
下面结合图3至图22,对本发明实施例涉及的各个步骤进行详细介绍如下。
一、首先,介绍预先训练生成的交易历史规律量化识别模型的过程。
在一个实施例中,可以按照如下方法预先训练生成交易历史规律量化识别模型:
在接收到用户的交易规律识别请求后,根据请求参数,历史规律样本数据,生成训练历史时间序列;
对所述训练历史时间序列进行降噪处理,针对降噪处理后的训练历史时间序列,采用聚类算法对交易曲线的点间斜率绝对值进行聚类划分,根据聚类结果,确定切换点类;根据切换点类中数据点位置连续性,将切换点类中的数据点划分为至少一个切换点范围区间,得到切换点范围区间序列及切换点范围区间个数;
根据预先定义的趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数,进行预设轮数的仿真试验,直至完成预设轮数的仿真试验,得到训练历史时间序列对应的历史规律量化要素评估值;每一轮仿真试验均执行以下操作:
为每一趋势阶段的到达率生成到达率随机值;为每一趋势阶段的过量零值比重生成过量零值比重随机值;为每一趋势阶段的切换点位置生成切换点位置随机值;
根据每一趋势阶段的到达率随机值,预先定义的趋势阶段到达率先验概率函数,确定每一趋势阶段的到达率随机值对应的先验概率对数值,并对各个趋势阶段的到达率随机值对应的先验概率对数值进行累加,得到到达率先验概率对数累加值;根据每一趋势阶段的过量零值比重随机值,预先定义的趋势阶段过量零值比重先验概率函数,确定每一趋势阶段的过量零值比重随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到过量零值比重先验概率对数累加值;根据每一趋势阶段的切换点位置随机值,预先定义的趋势阶段切换点位置先验概率函数,确定每一趋势阶段的切换点位置随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到切换点位置先验概率对数累加值;
根据训练历史时间序列编号和切换点位置随机值,确定训练历史时间序列中每一数据点归属的趋势阶段;根据训练历史时间序列中每一数据点归属的趋势阶段,每一数据点的幅值,以及相应的趋势阶段的到达率随机值和过量零值比重随机值,确定每一数据点的似然函数值;根据每一数据点的似然函数值,确定似然函数值对数结果累加值;
根据所述到达率先验概率对数累加值、过量零值比重先验概率对数累加值、切换点位置先验概率对数累加值和似然函数值对数结果累加值,得到当前轮次的函数累加值;所述当前轮次的函数累加值与前一轮次的函数累加值作为下一轮次各历史规律量化要素的随机值生成的依据;所述历史规律量化要素包括:趋势阶段的到达率、过量零值比重和切换点位置;
其中,所述趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数根据训练历史时间序列、切换点范围区间序列及切换点范围区间个数进行预先定义;所述趋势阶段根据切换点范围区间生成;
存储所述历史规律量化要素评估值,以及历史规律量化要素评估值对应历史时间序列。
具体实施时,预先训练生成的交易历史规律量化识别模型的过程,即上述“交易规律识别处理”可以通过以下6个模块的协同工作得以实现。它们是:交易记录数据库1、交易数据预处理装置2、交易曲线切换点范围近似识别装置3、交易规律量化提取装置4、交易规律存储装置5和交易规律提取请求处理装置8。下面对这几个装置进行详细介绍如下。
1、首先,介绍交易规律提取请求处理装置8。
交易规律提取请求处理装置8用于接收用户的交易规律识别请求,并负责按组逐一转发管理部门用户的操作请求(交易规律识别请求),在接收到用户(可以是管理部门用户,管理者)发送来的交易规律识别请求(该请求可以是需要训练或更新交易历史规律量化识别模型时提出的量化交易历史规律请求)后,将以交易种类、经营单位编号、历史规律样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据种类为元素的每组请求参数,逐一发送给交易数据预处理装置2,即将用户的交易规律识别请求发送给交易数据预处理装置2。
待该组交易规律识别请求的交易规律识别操作完成后,交易规律提取请求处理装置8会收到交易规律量化提取装置4发送的确认信号,并开始发送下一组请求参数,直至全部请求完成。
2、其次,介绍交易预处理装置2。
交易预处理装置2可根据交易规律提取请求处理装置8转发的用户请求,从交易记录数据库1(历史规律样本数据)中提取交易明细数据,自动生成时间序列数据,并分别发送给交易曲线切换点范围近似识别装置3和交易规律量化提取装置4。
具体实施时,交易数据预处理装置2负责对原始的交易明细数据进行加工,生成符合交易规律量化提取装置4输入规格的时间序列数据。具体地,根据交易规律提取请求处理装置8转发的包括交易种类、经营单位编号、历史规律样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据种类在内的请求参数,交易数据预处理装置2负责将历史规律样本数据时间范围内的交易数据(交易量、交易人次、交易金额等)按照交易规律时间单位进行划分。通过计算每个交易规律时间单位内交易数据的平均值并取整,交易数据预处理装置2在待评测交易种类下,为经营单位编号生成一个固定长度的时间序列,并将结果发送给交易曲线切换点范围近似识别装置3。
上述“交易规律提取请求处理装置8”和“交易预处理装置2”即可以实现上述:在接收到用户的交易规律识别请求后,根据请求参数,历史规律样本数据,生成训练历史时间序列。
下面介绍交易明细数据的预处理(即交易数据预处理装置2的具体实施方案),如图4所示,该预处理过程可以包括如下步骤。
步骤100:根据交易规律提取请求处理装置8转发的每组交易规律识别请求,以交易种类、交易数据种类、经营单位和编号为索引,从交易记录数据库1中提取历史规律样本数据时间范围内(包含交易发生时间(TT))的交易记录数据。
步骤101:根据交易规律时间跨度起始值(SS)、交易规律时间跨度终止值(ST)和交易规律时间单位(U)计算结果,并使用Ceil()向上取整操作求得输出时间序列的长度(L)。相应操作可通过公式(1)表示:
Figure BDA0002079771120000121
步骤102:根据步骤100中提取的交易发生时间(TT)、交易规律时间跨度起始值(SS)以及交易规律时间单位(U)计算结果,并使用Int()取整操作,求得交易发生时间(TT)在交易规律时间跨度内对应交易规律时间单位的位置,即时间序列位置编号(SN)。相应操作可通过公式(2)表示:
Figure BDA0002079771120000122
步骤103:根据步骤102的计算结果,替换步骤100操作所得交易记录中的交易发生时间。计算历史规律样本数据时间范围对应时间长度与待评测时间跨度之间的比值(r),并根据修改后的交易记录,计算同一时间序列位置编号(SN)下交易数据总量与r的比值(AW0)。
步骤104:按照时间序列位置编号(SN)升序,使用对应交易数据平均值(AW0)的取整值(AW1)组成时间序列(TS)。
3、接着,介绍交易曲线切换点范围近似识别装置3。
交易曲线切换点范围近似识别装置3会基于预设参数和方法(详见下面数据点类别划分单元31的具体实施方案的介绍)对输入时间序列进行降噪处理,并采用聚类算法,对交易曲线的点间斜率绝对值进行聚类划分。最终,交易曲线切换点范围近似识别装置3会从聚类结果的切换点类中确定一个或多个切换点近似范围区间发送给交易规律量化提取装置4。
具体实施时,交易曲线切换点范围近似识别装置3用于从交易数据预处理装置2生成的时间序列数据中,识别时间序列包含的切换点数量以及各切换点位置的可能范围。具体地,交易曲线切换点范围近似识别装置3首先按照预设方法和参数(详见下面数据点类别划分单元31的具体实施方案的介绍)对输入时间序列进行降噪处理,而后针对降噪后的时间序列,进行点间斜率绝对值计算。斜率绝对值计算结果使用预设聚类算法(详见下面数据点类别划分单元31的具体实施方案的介绍)进行运算,并将聚类结果中对应斜率绝对值较大的类视为切换点类。根据预设的位置连续性判断规则,将切换点类中的数据点划分为一个或多个切换点范围区间。
具体实施时,如图5所示,交易曲线切换点范围近似识别装置3包括两个处理单元,它们分别是数据点类别划分单元31和切换点范围区间生成单元32,其中:数据点类别划分单元31首先按照预设方法和参数(详见下面数据点类别划分单元31的具体实施方案的介绍),对输入的时间序列进行降噪处理,并根据降噪结果计算每一时间序列数据点的点间斜率绝对值,而后使用预设参数和聚类算法(详见下面数据点类别划分单元31的具体实施方案的介绍),对点间斜率绝对值进行聚类划分,最后按预设规则(详见下面数据点类别划分单元31的具体实施方案的介绍)从划分结果中,提取切换点类输出到切换点范围区间生成单元32;切换点范围区间生成单元32根据切换点类中数据点位置连续性,将切换点类中的数据点划分为一个或多个连续区间,最终根据区间长度预设条件(详见下面切换点范围区间生成单元32)输出符合要求的切换点范围区间序列及切换点范围区间个数。
下面介绍数据点类别划分(即数据点类别划分单元31的具体实施方案,数据点类别划分单元31的实施实现了上述:对所述训练历史时间序列进行降噪处理,针对降噪处理后的训练历史时间序列,采用聚类算法对交易曲线的点间斜率绝对值进行聚类划分,根据聚类结果,确定切换点类),如图6所示,该介绍数据点类别划分过程可以包括如下步骤。
步骤200:针对步骤104生成的时间序列(TS),交易曲线切换点范围近似识别装置3会根据预设滤镜函数尺寸(W)和滤镜函数类型(G)生成Mask(G,W)滤镜函数,并采用Conv()卷积,计算生成降噪结果(DTS)。相应操作可通过公式(3)表示:
DTS=Conv(TS,Mask(G,W)) (3)
步骤201:通过公式(4)计算降噪结果(DTS)边缘数据点SNu的斜率绝对值(GIVu)。其中,
Figure BDA0002079771120000131
Figure BDA0002079771120000132
分别是降噪结果(DTS)上位于SNv和SNu两个相邻位置上的数据点幅值:
Figure BDA0002079771120000133
步骤202:通过公式(5)计算降噪结果(DTS)上中间数据点SNm的斜率绝对值(GIVm)。其中,
Figure BDA0002079771120000141
Figure BDA0002079771120000142
分别是降噪结果(DTS)中间位于SNl,SNm和SNn三个连续位置上的数据点幅值:
Figure BDA0002079771120000143
步骤203:使用K-Means算法,对步骤201和步骤202的计算结果进行K=2的聚类操作,求得各数据点对应类别及各类别中心值,并将中心值较大的类定义为切换点类(对于切换点类的含义,请参见附图7及其文字的相关描述)。
为了便于理解本发明如何实施,下面结合附图7对上述步骤200至步骤203进行解释说明。
图7中所示柱状为某行某交易在某网点营业时间内的历史数据,其真实值为[1,3,2,5,5,2,7,7,4,5,4,4,29,24,25,21,30,23,16,25,26,26,15,18,12,11,7,12,7,5,12,8,7,12,8,15,8,9,12,9,13,11,7,8,13,7,11,5]。为降低真实数据中噪声的影响,遂采用窗口值为2的高斯滤镜函数与真实数据进行卷积,实现滤波降噪,所得各数据点幅值为[3.329,3.452,3.699,4.073,4.587,5.263,6.131,7.224,8.562,10.139,11.911,13.795,15.674,17.422,18.919,20.073,20.827,21.16,21.082,20.625,19.838,18.781,17.529,16.167,14.787,13.475,12.307,11.337,10.592,10.075,9.767,9.63,9.621,9.693,9.804,9.919,10.011,10.063,10.064,10.013,9.909,9.762,9.582,9.386,9.193,9.023,8.897,8.829],在图中用曲折实线和虚线共同表示。根据公式(4)和(5),可以对降噪结果计算各点上的斜率绝对值,结果为[0.123,0.185,0.31,0.444,0.595,0.772,0.981,1.216,1.458,1.675,1.828,1.881,1.814,1.623,1.326,0.954,0.543,0.128,0.267,0.622,0.922,1.154,1.307,1.371,1.346,1.24,1.069,0.857,0.631,0.413,0.223,0.073,0.032,0.092,0.113,0.104,0.072,0.026,0.025,0.078,0.125,0.164,0.188,0.195,0.181,0.148,0.097,0.068]。其中,降噪结果中的第一个点的值0.123=|3.452-3.329|,降噪结果的第二个点的值0.185=|(3.452+3.699)/2-(3.329+3.452)/2|。因为趋势间的切换往往带来斜率的骤变,所以趋势间切换点的潜在位置(切换点类)在斜率绝对值二分类情况下,就对应中心值较大的一类。图7中虚线上的点就是聚类后所得切换点类。
下面再介绍切换点范围区间生成(即切换点范围区间生成单元32的具体实施方案,切换点范围区间生成单元32的实施实现了上述:根据切换点类中数据点位置连续性,将切换点类中的数据点划分为至少一个切换点范围区间,得到切换点范围区间序列及切换点范围区间个数),如图8所示,该切换点范围区间生成过程可以包括如下步骤。
步骤300:将数据点类别划分单元31的具体实施方案中步骤202生成的切换点类中的数据点,按照时间序列位置编号(SN)的升序排列。
步骤301:将该切换点类中位置编号连续的数据点划分为一个连续区间,并将长度大于等于预设长度(LT)的连续区间,作为符合要求的切换点范围区间(PR)。向交易规律量化提取装置4输出符合要求的切换点范围区间(PR)的个数以及各区间对应的时间序列位置编号(SN)范围组成的切换点范围区间序列。
4、接着,介绍交易规律量化提取装置4。
交易规律量化提取装置4使用交易趋势阶段到达率、趋势阶段过量零值比重以及趋势阶段切换点三类量化要素对交易规律进行描述。以交易数据预处理装置2生成的时间序列作为预设似然函数的观察数据,交易规律量化提取装置4使用切换点近似范围区间作为趋势阶段切换点位置先验分布函数的参数,结合似然函数所需其他量化要素的客观先验分布函数,运用MCMC(马尔科夫链蒙特卡洛仿真)算法训练求得三类量化要素的数学期望值,完成交易规律的量化描述。最后,交易规律量化提取装置4会将交易规律的量化描述结果保存在交易规律存储装置5中,并向交易规律提取请求处理装置8发送操作完成信号。
具体实施时,交易规律量化提取装置4负责定义先验概率函数和似然概率函数,并通过对输入时间序列的仿真模拟实现交易规律的量化描述。交易规律量化提取装置4首先使用输入时间序列、切换点范围区间序列及切换点范围区间个数完成各趋势阶段到达率先验概率函数的定义。而后,交易规律量化提取装置4将依据切换点范围区间序列及切换点范围区间个数,实现各趋势阶段切换点位置的先验概率函数定义。最后,交易规律量化提取装置4还将依据切换点范围区间个数,使用预设上、下限参数的均匀分布实现各趋势阶段过量零值比重的先验概率函数定义。在完成全部量化要素的先验概率函数定义后,交易规律量化提取装置4会进行预设轮数的仿真试验。在每一轮的仿真试验中,交易规律量化提取装置4会使用MCMC(马尔科夫链蒙特卡洛仿真)算法为各趋势阶段的量化要素产生随机值,并根据对应先验概率函数的定义计算当前随机值的生成概率对数值。此外,交易规律量化提取装置4还要根据此轮仿真中趋势阶段的分段情况及输入时间序列中各数据点的时间序列位置编号(SN)完成相应似然函数的定义,并计算相应似然函数值的对数结果。在每一轮仿真试验的最后,交易规律量化提取装置4会计算并保存所有先验概率对数值与似然函数值对数结果的总和,而后根据MCMC算法指导下一轮仿真试验随机值的生成。在仿真试验达到预定轮数后,交易规律量化提取装置4会根据仿真过程中各量化要素的随机值计算数学期望,完成交易规律的量化描述,即完成对交易历史规律评估值(定量评估值)的计算。
交易规律量化提取装置4的实施实现了:根据预先定义的趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数,进行预设轮数的仿真试验,直至完成预设轮数的仿真试验,得到训练历史时间序列对应的历史规律量化要素评估值。
具体实施时,如图9所示,交易规律量化提取装置4包括四个处理单元,它们分别是:趋势阶段到达率先验概率定义单元41、趋势阶段过量零值比重先验概率定义单元42、趋势阶段切换点位置先验概率定义单元43以及量化要素评估值计算单元44。其中,趋势阶段到达率先验概率定义单元41会根据交易曲线切换点范围近似识别装置3生成的切换点范围区间个数,生成趋势阶段个数,并利用交易数据预处理装置2生成的时间序列计算参数,完成每个趋势阶段的先验概率函数的定义;趋势阶段过量零值比重先验概率定义单元42会根据交易曲线切换点范围近似识别装置3生成的切换点范围区间个数,生成趋势阶段个数,并使用下限为0、上限为1的均匀分布为每个交易趋势阶段内的过量零值比重进行先验概率函数定义;趋势阶段切换点位置先验概率定义单元43负责根据切换点范围区间个数,使用对应的切换点范围区间作参数为各个切换点位置定义先验概率函数;量化要素评估值计算单元44会使用多轮仿真学习机制,估算各趋势阶段中量化要素的数值,在每一轮仿真中,量化要素评估值计算单元44会根据MCMC算法为各趋势阶段产生量化要素的随机值,基于这些随机值,量化要素评估值计算单元44将利用趋势阶段到达率先验概率定义单元41、趋势阶段过量零值比重先验概率定义单元42和趋势阶段切换点位置先验概率定义单元43中定义的先验概率函数计算相应的先验概率对数值。此外,量化要素评估值计算单元44还将利用量化要素的随机值和输入时间序列中各数据点的时间序列位置编号(SN)计算相应似然函数值的对数结果。最后,量化要素评估值计算单元44会计算并保存所有先验概率对数值与似然函数值对数结果的总和,而后根据MCMC算法指导下一轮仿真试验随机值的生成,循环操作直至完成预设轮数的仿真试验。待仿真试验结束后,量化要素评估值计算单元44会根据仿真过程中量化要素的随机值计算数学期望,并将结果作为该交易的历史规律量化要素评估值及其对应的历史时间序列发送到交易规律存储装置5保存,同时向交易规律提取请求处理装置8发送操作完成信号。
为了便于理解上述交易规律量化提取装置,下面介绍趋势阶段到达率先验概率定义(即趋势阶段到达率先验概率定义单元41的具体实施方案,趋势阶段到达率先验概率定义单元41的实施实现了:趋势阶段到达率先验概率函数的预先定义),如图10所示,该趋势阶段到达率先验概率定义的过程可以包括如下步骤。
步骤400:根据切换点范围区间生成单元32的具体实施方案中步骤301生成的切换点范围区间个数加1求得趋势阶段个数。
步骤401:根据交易数据预处理装置2的具体实施方案中步骤104生成的时间序列,计算数据点幅值的平均值倒数(α)。
步骤402:将以α为参数的指数分布定义,为趋势阶段i的到达率先验概率函数(fpi)),并完成所有趋势阶段到达率先验概率函数的定义。相应操作可通过公式(6)表示:
Figure BDA0002079771120000171
为了便于理解上述交易规律量化提取装置,下面接着介绍趋势阶段过量零值比重先验概率定义(即趋势阶段过量零值比重先验概率定义单元42的具体实施方案,趋势阶段过量零值比重先验概率定义单元42的实施实现了:趋势阶段过量零值比重先验概率函数的预先定义),如图11所示,该趋势阶段过量零值比重先验概率定义的过程可以包括如下步骤。
步骤500:根据切换点范围区间生成单元32的具体实施方案中步骤301生成的切换点范围区间个数加1求得趋势阶段个数。
步骤501:将以下限为0,上限为1的均匀分布定义,为趋势阶段i的过量零值比重
Figure BDA0002079771120000172
先验概率函数
Figure BDA0002079771120000173
并完成所有趋势阶段过量零值比重的先验概率函数定义。相应操作可通过公式(7)表示:
Figure BDA0002079771120000174
为了便于理解上述交易规律量化提取装置,下面接着介绍趋势阶段切换点位置先验概率定义(即趋势阶段切换点位置先验概率定义单元43的具体实施方案,趋势阶段切换点位置先验概率定义单元43的实施实现了:趋势阶段切换点位置先验概率函数的预先定义),如图12所示,该趋势阶段切换点位置先验概率定义的过程可以包括如下步骤。
步骤600:从切换点范围区间生成单元32的具体实施方案中步骤301生成的切换点范围区间序列中提取一个切换点范围区间j。
步骤601:以切换点范围区间j的起始点(Sj0)和终止点(Sj1)为参数,使用离散均匀分布函数,完成趋势阶段切换点位置(τj)的先验概率函数(fpj))定义。相应操作可通过公式(8)表示:
Figure BDA0002079771120000181
步骤602:若切换点范围区间序列中仍有未读取的切换点范围区间,重复步骤600,否则结束操作。
为了便于理解上述交易规律量化提取装置,下面接着介绍量化要素评估值计算(即量化要素评估值计算单元44的具体实施方案,量化要素评估值计算单元44的实施实现了:根据预先定义的趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数,进行预设轮数的仿真试验,直至完成预设轮数的仿真试验,得到训练历史时间序列对应的历史规律量化要素评估值),如图13a和图13b所示,该量化要素评估值计算的过程可以包括如下步骤。
步骤700:根据切换点范围区间生成单元32的具体实施方案中步骤301生成的切换点范围区间个数(N)加1求得趋势阶段个数(M)。
步骤701:根据MCMC算法,为趋势阶段i的到达率(λi)和过量零值比重
Figure BDA0002079771120000182
分别生成随机值
Figure BDA0002079771120000183
Figure BDA0002079771120000184
直至M个趋势阶段全部完成对应要素的随机值生成,该步骤实现了:为每一趋势阶段的到达率生成到达率随机值;为每一趋势阶段的过量零值比重生成过量零值比重随机值。
步骤702:根据MCMC算法,为趋势阶段切换点位置(τj)生成随机值
Figure BDA0002079771120000185
直至N个切换点范围区间全部完成切换点位置的随机值生成,该步骤实现了:为每一趋势阶段的切换点位置生成切换点位置随机值。
步骤703:根据趋势阶段i的到达率随机值
Figure BDA0002079771120000191
使用步骤402定义的先验概率函数,计算当前随机值的先验概率对数值,并对各趋势阶段的对应计算结果进行累加获得到达率先验概率对数累加值
Figure BDA0002079771120000192
相应操作可通过公式(9)表示:
Figure BDA0002079771120000193
上述步骤703实现了:根据每一趋势阶段的到达率随机值,预先定义的趋势阶段到达率先验概率函数,确定每一趋势阶段的到达率随机值对应的先验概率对数值,并对各个趋势阶段的到达率随机值对应的先验概率对数值进行累加,得到到达率先验概率对数累加值。
步骤704:根据趋势阶段i的过量零值比重随机值
Figure BDA0002079771120000194
使用步骤501定义的先验概率函数,计算当前随机值的先验概率对数值,并对各趋势阶段的对应计算结果进行累加获得过量零值比重先验概率对数累加值
Figure BDA0002079771120000195
相应操作可通过公式(10)表示:
Figure BDA0002079771120000196
上述步骤704实现了:根据每一趋势阶段的过量零值比重随机值,预先定义的趋势阶段过量零值比重先验概率函数,确定每一趋势阶段的过量零值比重随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到过量零值比重先验概率对数累加值。
步骤705:根据切换点范围区间j的切换点位置随机值
Figure BDA0002079771120000197
使用步骤601定义的先验概率函数,计算当前随机值的先验概率对数值,并对各切换点范围区间的对应计算结果进行累加获得切换点位置先验概率对数累加值
Figure BDA0002079771120000198
相应操作可通过公式(11)表示:
Figure BDA0002079771120000199
上述步骤705实现了:根据每一趋势阶段的切换点位置随机值,预先定义的趋势阶段切换点位置先验概率函数,确定每一趋势阶段的切换点位置随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到切换点位置先验概率对数累加值。
步骤706:对于输入时间序列中数据点k,根据它的时间序列位置编号(SNk)和切换点位置随机值
Figure BDA0002079771120000201
判断趋势阶段归属(Bk)。对于时间序列位置编号(SNk)小于
Figure BDA0002079771120000202
的数据点归属趋势阶段1;对于时间序列位置编号(SNk)大于等于
Figure BDA0002079771120000203
且小于
Figure BDA0002079771120000204
的数据点归属趋势阶段j+1;对于时间序列位置编号(SNk)大于等于
Figure BDA0002079771120000205
的数据点归属趋势阶段N+1。相应操作可通过公式(12)表示:
Figure BDA0002079771120000206
上述步骤706实现了:根据训练历史时间序列编号和切换点位置随机值,确定训练历史时间序列中每一数据点归属的趋势阶段。
步骤707:根据步骤706得出的数据点k的趋势阶段归属(Bk)、数据点k的幅值(DVk)和相应趋势阶段的到达率随机值
Figure BDA0002079771120000207
和过量零值比重随机值
Figure BDA0002079771120000208
使用零扩张泊松分布的概率密度函数,计算数据点k的似然函数值
Figure BDA0002079771120000209
相应操作可通过公式(13)表示:
Figure BDA00020797711200002010
上述步骤707实现了:根据训练历史时间序列中每一数据点归属的趋势阶段,每一数据点的幅值,以及相应的趋势阶段的到达率随机值和过量零值比重随机值,确定每一数据点的似然函数值。
步骤708:根据步骤707中为数据点k生成的似然函数值
Figure BDA00020797711200002011
为长度为L的输入时间序列,计算似然函数值对数结果的累加值(fl k)。相应操作可通过公式(14)表示:
Figure BDA00020797711200002012
上述步骤708实现了:根据每一数据点的似然函数值,确定似然函数值对数结果累加值。
步骤709:根据步骤703,704,705和708的计算结果,求得当前仿真轮次w的函数累加值
Figure BDA0002079771120000211
相应操作可通过公式(15)表示:
Figure BDA0002079771120000212
步骤710:如果当前仿真轮次已经到达预设仿真轮次,继续步骤711;否则,保存步骤709的计算结果。根据当前轮次w的函数累加值
Figure BDA0002079771120000213
和前一轮次w-1的函数累加值
Figure BDA0002079771120000214
使用MCMC算法调整各量化要素的随机值生成策略,重复步骤701。
上述步骤710实现了:根据所述到达率先验概率对数累加值、过量零值比重先验概率对数累加值、切换点位置先验概率对数累加值和似然函数值对数结果累加值,得到当前轮次的函数累加值;所述当前轮次的函数累加值与前一轮次的函数累加值作为下一轮次各历史规律量化要素的随机值生成的依据。
步骤711:根据每轮仿真试验中步骤701和702生成的随机值,求得各量化要素随机值的数学期望作为交易规律的量化评估结果。以交易种类、经营单位编号、交易数据种类和样本数据时间范围为索引,将交易规律的量化评估结果和输入时间序列保存到交易规律存储装置5中,并向交易规律提取请求处理装置8发送操作完成信号,完成该组识别请求对应交易规律的识别过程,该步骤实现了:存储所述历史规律量化要素评估值,以及历史规律量化要素评估值对应历史时间序列。
为了便于理解本发明如何实施,下面结合附图14,对“各量化要素随机值的数学期望作为交易规律的量化评估结果(计算出的数学期望与标准值进行比较后的评价结果)”进行举例说明。
为了便于对规律量化描述的研究,同时,为尽量避免人工定义标准结果带来的主观因素干扰,目前模型效果的客观评价主要采用仿真数据进行。具体包括以下步骤:
步骤1.预设时间序列长度(L)、趋势阶段个数、各趋势阶段的切换点位置以及各趋势阶段的到达率为预设规律对应的参数;
步骤2.以预设趋势阶段的切换点为界,根据对应的趋势阶段到达率参数,使用泊松分布生成随机数,形成预设长度的时间序列(训练序列);
步骤3.使用“交易规律识别处理”中所述处理方法提取训练序列中规律的量化评估值;
步骤4.根据步骤1所定义的各项参数,按照步骤2的操作,生成N组时间序列(待评估序列);
步骤5.针对步骤4生成的每组待评估序列,根据步骤1中预设的参数逐点计算数据点上幅值出现的概率,并最终生成二进制基础的信息量(基准信息量);
步骤6.针对步骤4生成的每组待评估序列,根据步骤3生成的规律量化评估值,使用公式(13)逐点计算数据点上幅值出现的概率,并最终生成二进制基础的信息量(待评估信息量);
步骤7.针对步骤5和步骤6生成的结果,逐点计算待评估信息量与基准信息量的比值(基准信息量还原度),而后将N×L个基准信息量还原度计算结果的中位数,作为模型的效果评价。该比值越大表明模型生成的规律量化评估值越能更好地描述预设规律下的随机现象,反之,该比值越小说明模型结果对于预设规律下随机现象的描述能力越差。由于待评估序列的生成遵循步骤1中预设的规律,因此,绝大部分情况下,基准信息量应该大于待评估信息量,且随着N值增大,基准信息量还原度中位数的理论最大值应该在1附近。
以图14为例,柱状所示数据是由预设长度48,趋势阶段4个,切换点位置为9(第二阶段起始)、21(第三阶段起始)和41(第四阶段起始),趋势阶段到达率为5笔/十分钟、20笔/十分钟、40笔/十分钟和10笔/十分钟的预设规律生成的训练序列(历史时间序列),实曲线为模型提取的交易历史规律,其量化评估值中对应趋势阶段的到达率约为3.664、20.160、34.593和15.261,切换点位置约为9、22和44,各阶段的过量零值比重约为0.029、0.116、0.084和0.027。根据步骤4,生成N=3000组待评估序列后,分别依照步骤5和步骤6生成各点的基准信息量和待评估信息量。最终,对3000x48个数据点计算出的基准信息量还原度中位数约为0.861,说明在此例中模型提取的规律量化评估值可以较好地描述预设规律下产生的随机现象。
5、接着,介绍交易规律存储装置5。
交易规律存储装置5提供了历史交易规律的存储功能。交易规律量化提取装置4在完成交易历史规律的提取后,会以交易种类、经营单位编号、交易数据种类和历史规律样本数据时间范围作为索引,将对应的历史规律量化要素结果(评估值)及其历史时间序列保存到交易规律存储装置5中。
综上,当本发明实施例提供的技术方案中处理每组交易规律的识别请求时,会通过交易数据预处理、数据点类别划分、切换点范围区间生成、趋势阶段到达率先验概率定义、趋势阶段过量零值比重先验概率定义、趋势阶段切换点位置先验概率定义及量化要素评估值计算,七大操作步骤完成交易历史规律的量化识别。
二、下面介绍异常交易检测处理(包括以下步骤S02-S08)。异常交易检测处理会通过5个模块的协同工作得以实现。它们分别是交易记录数据库1、交易规律存储装置5、交易规律背离度评估装置6、交易异常度评估装置7和异常交易检测请求处理装置9。
1、首先,介绍上述步骤S02。
具体实施时,可以通过上述异常交易检测请求处理装置9实现:在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据,具体可以参见下文对异常交易检测请求处理装置9的描述;同时,“根据交易明细数据,生成待检测时间序列”可以通过上述交易数据预处理装置2实现,具体可以参见上文对交易数据预处理装置2的实施,在此不再赘述。
2、接着,介绍上述步骤S04。
根据上文的介绍,根据预先训练生成交易历史规律量化识别模型,得到的各种类型交易对应的历史规律量化要素评估值和历史时间序列已经被存在交易规律存储装置5中,在接收到异常交易检测请求后,可以到交易规律存储装置5中提取出待检测交易对应的历史规律量化要素评估值和历史时间序列,以完成后续步骤S06和步骤S08。
下面对异常交易检测请求处理装置9进行介绍,该异常交易检测请求处理装置9可以实现接收异常交易检测请求。
具体实施时,在接收到管理部门的异常交易识别请求后,异常交易检测请求处理装置9将以交易种类、该交易种类下所有经营单位编号、样本数据时间范围、历史规律样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据种类为元素的每组请求参数逐一发送给交易规律背离度评估装置6和交易异常度评估装置7。
待该组请求对应的异常交易检测操作完成后,异常交易检测请求处理装置9会收到交易异常度评估装置7发送的待评测交易下各异常情况的经营单位占比以及待评测交易的整体异常度得分,并以交易种类为条件合并所得数据,而后开始发送下一组请求参数。待全部请求完成后,异常交易检测请求处理装置9会按待评测交易的整体异常度得分降序排列作为最终结果的格式返回用户(可以为管理部门用户)。
具体实施时,异常交易检测请求处理装置9负责从交易种类维度拆分管理部门发送的异常交易检测请求,并根据异常情况分类单元72和整体异常度得分计算单元73(如图19所示)的计算结果,生成包含所用交易种类的异常交易检测结果表。管理部门用户会一次性向异常交易检测请求处理装置9提交包含不同交易种类的多条数据作为输入,其中每条数据均以交易种类、经营单位编号、样本数据时间范围、历史规律样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据种类为元素。异常交易检测请求处理装置9在接收到管理部门提交的请求后,会从交易种类层面对输入数据进行重新分组。此后,异常交易检测请求处理装置9会逐组向交易规律背离度评估装置6和交易异常度评估装置7发送数据。在接收到异常情况分类单元72和整体异常度得分计算单元73的计算结果后,异常交易检测请求处理装置9会以交易种类为条件,合并所得数据并保存到异常交易检测结果数据集中,而后继续发送下一组数据,直至全部数据处理完毕。最后,异常交易检测请求处理装置9会将异常交易检测结果数据集中的记录按待评测交易种类整体异常度得分的降序排列,并返回管用户。
下面介绍异常交易检测请求处理(异常交易检测请求处理装置9的具体实施方案),如图15所示,该异常交易检测请求处理的过程可以包括如下步骤。
步骤800:在接收到管理部门用户提交的异常交易检测请求后,异常交易检测请求处理装置9会对每条记录格式为交易种类、经营单位编号、样本数据时间范围、历史规律样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据种类的请求数据按交易种类进行分拆,使每组数据中每条记录在保持原有格式的同时,只包含一个交易种类。
步骤801:从分拆后的请求数据中提取一组请求数据发送给交易规律背离度评估装置6和交易异常度评估装置7。
步骤802:接收到异常情况分类单元72和整体异常度得分计算单元73的计算结果,以交易种类为条件,将待评测交易的整体异常度得分和待评测交易下,各异常情况的经营单位占比组合成一条记录,并保存到异常交易检测结果数据集中。
步骤803:若分拆后的请求数据中尚有未被处理的请求数据,重复步骤801。否则,转入步骤804。
步骤804:按待评测交易种类整体异常度得分的降序排列整理异常交易检测结果数据集中的记录,并将整理后的异常交易检测结果数据集返回管理部门用户。
3、接着,介绍上述步骤S06,该步骤S06为计算待检测交易的当前运行状态与历史规律之间的差异程度的步骤。
在一个实施例中,根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量,可以包括:
根据异常交易检测请求,获取待检测交易对应的历史规律量化要素评估值和历史时间序列,以及获取待检测时间序列;所述历史规律量化要素评估值包括趋势阶段的到达率评估值、过量零值比重评估值和切换点位置评估值;
根据待检测时间序列中每一数据点的位置编号和所述切换点位置评估值,确定待检测时间序列中每一数据点的所属趋势阶段;
根据待检测时间序列中每一数据点的所属趋势阶段,每一数据点的幅值,以及所属趋势阶段的到达率随机值和过量零值比随机值,确定每一数据点出现所述幅值的概率值;
根据每一数据点出现所述幅值的概率值,确定待检测时间序列中每一数据点的基础信息量;根据待检测时间序列中每一数据点的基础信息量,确定待检测时间序列的平均信息量;其中,平均信息量越高,代表所述差异程度越低;平均信息量越低,代表所述差异程度越高。
具体实施时,计算待检测交易的当前运行状态与历史规律之间的差异程度具体可以通过交易规律背离度评估装置6实现。下面对交易规律背离度评估装置6进行介绍。
交易规律背离度评估装置6会从接收到的一组异常交易检测请求中逐条读出一条数据记录,并以待评测交易种类、经营单位编号、样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据字段类型为输入,从交易数据预处理装置2获取标准规格的待评测(检测)时间序列(5也存储了)。根据交易种类、经营单位编号、交易数据种类和历史规律样本数据时间范围,交易规律背离度评估装置6负责从交易规律存储装置5中提取待评测交易下对应经营单位编号的历史规律量化要素评估值,以及生成这些评估值所使用的历史时间序列,并根据待评测时间序列中各数据点的趋势阶段归属,利用相应的量化要素评估值,计算各数据点上相应幅值出现的概率,直至最终求得整个待评测时间序列的平均信息量。此后,交易规律背离度评估装置6会以交易种类和经营单位编号为索引,保存待评测时间序列、历史时间序列以及平均信息量结果。整个操作循环进行直至该组请求中所有的数据记录被处理,处理结果会统一发送给交易异常度评估装置7。
具体实施时,交易规律背离度评估装置6负责根据交易数据预处理装置2生成的待评测时间序列与交易规律存储装置5中提取的对应交易规律为待评测交易种类下的经营单位,计算交易规律背离度(差异程度)。具体地,交易规律背离度评估装置6首先从异常交易检测请求处理装置9输入的一组异常交易检测请求中读入一条数据记录,并以交易种类、经营单位编号、交易数据种类和历史规律样本数据时间范围为查询条件从交易规律存储装置5中提取对应的历史规律量化要素评估值和相应的历史时间序列。同时,交易规律背离度评估装置6还会以待评测交易种类、经营单位编号、样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据字段类型为输入,从交易数据预处理装置2获取标准规格的待评测时间序列。此后,交易规律背离度评估装置6负责以切换点位置评估值和待评测时间序列中各数据点位置为依据,使用不同趋势阶段的到达率参数评估值和过度零值比重评估值为各数据点计算出现概率。根据计算所得概率值,交易规律背离度评估装置6会以二进制编码为基础,计算待评测时间序列各数据点对应的信息量,并进一步求得整个待评测时间序列的平均信息量。最后,交易规律背离度评估装置6会以交易种类和经营单位编号为索引,保存待评测时间序列、历史时间序列和平均信息量计算结果。整个操作循环进行直至该组请求中所有的数据记录被处理,处理结果会统一发送给交易异常度评估装置7。
下面介绍交易规律背离度评估处理(交易规律背离度评估装置6的具体实施方案,该交易规律背离度评估装置6的实施实现了:根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量),如图16a和图16b所示,该交易规律背离度评估处理的过程可以包括如下步骤。
步骤900:在接收异常交易检测请求处理装置9输入的一组异常交易检测请求后,从中读取一条数据记录。
步骤901:使用步骤900所得数据记录中的交易种类、经营单位编号、交易数据种类和历史规律样本数据时间范围为查询条件,从交易规律存储装置5中提取对应的历史规律量化要素评估值和相应的历史时间序列,该步骤实现了:获取待检测交易对应的历史规律量化要素评估值和历史时间序列。
步骤902:使用步骤900所得数据记录中的待评测交易种类、经营单位编号、样本数据时间范围、交易规律时间跨度起始值、交易规律时间跨度终止值、交易规律时间单位、待评测时间跨度和交易数据字段类型为输入,从交易数据预处理装置2获取标准规格的待评测时间序列,该步骤实现了获取待检测时间序列。
步骤903:对于步骤902所得待评测时间序列中数据点k,根据它的时间序列位置编号(SNk)和步骤901所得的N个切换点位置评估值
Figure BDA0002079771120000271
判断趋势阶段归属(Bk)。对于时间序列位置编号(SNk)小于
Figure BDA0002079771120000272
的数据点归属趋势阶段1;对于时间序列位置编号(SNk)大于等于
Figure BDA0002079771120000273
且小于
Figure BDA0002079771120000274
的数据点归属趋势阶段j+1;对于时间序列位置编号(SNk)大于等于
Figure BDA0002079771120000275
的数据点归属趋势阶段N+1。相应操作可通过公式(16)表示:
Figure BDA0002079771120000276
上述步骤903实现了:根据待检测时间序列中每一数据点的位置编号和所述切换点位置评估值,确定待检测时间序列中每一数据点的所属趋势阶段。
步骤904:根据步骤903得出的数据点k的趋势阶段归属(Bk)、数据点k的幅值(DVk)和步骤902所得相应趋势阶段的到达率随机值
Figure BDA0002079771120000277
和过量零值比重随机值
Figure BDA0002079771120000278
使用零扩张泊松分布的概率密度函数,计算数据点k出现幅值DVk的概率值
Figure BDA0002079771120000279
相应操作可通过公式(17)表示:
Figure BDA00020797711200002710
上述步骤904实现了:根据待检测时间序列中每一数据点的所属趋势阶段,每一数据点的幅值,以及所属趋势阶段的到达率随机值和过量零值比随机值,确定每一数据点出现所述幅值的概率值。
步骤905:为步骤902所得待评测时间序列中数据点k计算以二进制编码为基础的信息量(Ik)。相应操作可通过公式(18)表示。其中,
Figure BDA00020797711200002711
是以
Figure BDA00020797711200002712
为参数条件下,在k点出现DVk的概率值。
Figure BDA0002079771120000281
则是以
Figure BDA0002079771120000282
为参数条件下,不在k点出现DVk的概率值:
Figure BDA0002079771120000283
上述步骤905实现了:根据每一数据点出现所述幅值的概率值,确定待检测时间序列中每一数据点的基础信息量。
步骤906:为步骤902所得长度为L的待评测时间序列计算平均信息量
Figure BDA0002079771120000285
相应操作可通过公式(19)表示:
Figure BDA0002079771120000284
上述步骤906实现了:根据待检测时间序列中每一数据点的基础信息量,确定待检测时间序列的平均信息量。
步骤907:以交易种类和经营单位编号为索引,将步骤902所得待评测时间序列、步骤901所得历史时间序列和步骤906所得平均信息量保存到结果数据集中。
步骤908:若异常交易检测请求处理装置9输入的异常交易检测请求中尚有未处理的数据记录,重复步骤900。否则,转入步骤909。
步骤909:将结果数据集发送给交易异常度评估装置7。
为了便于理解本发明如何实施,下面结合附图17和附图18,对上述交易规律背离度评估处理的方案进行详细介绍如下。
图17和图18分别展示了某行X网点的Y交易在相同“历史规律样本数据时间范围”内,不同“样本数据时间范围”实际表现与交易规律的背离度评估结果。其中,柱状代表用于生成交易历史规律的历史时间序列(由于相同网点,相同交易,相同“历史规律样本数据时间范围”,故该项在图17和图18相同)。曲折实线代表根据柱状所示数据提取的交易历史规律(图17和图18相同),虚线则代表“样本(待检测样本,一般待检测样本的时间要晚于交易历史规律对应的时间范围,这样才能衡量出待检测样本是不是与历史规律契合或背离)数据时间范围”内对应网点对应交易的实际表现,即待评测时间序列(图17和图18不同)。
在实际处理中,系统会根据请求数据(步骤900生成)中包含的交易种类(例如:Y交易)、经营单位编号(例如:X网点)、交易数据种类(例如:交易笔数)和历史规律样本数据时间范围(例如:2016-01-01至2016-12-31)为查询条件,从交易规律存储装置5中提取对应的历史规律量化要素评估值。在此例中,交易历史规律分为三个阶段,切换点分别为序列中第13(第二趋势阶段起始于11:00-11:10时间段)和第25(第三趋势阶段对应13:00-13:10时间段)的位置,三个趋势阶段到达率分别约为5.237笔/十分钟,25.553笔/十分钟和8.691笔/十分钟,三个趋势阶段的过量零值比重分别约为0.004,0.055和0.039。
在获得历史规律量化要素评估值后,系统会按照生成交易规律的历史时间序列的格式生成待评测时间序列。其中,图17的待评测时间序列为[5,1,9,4,7,3,5,4,5,6,4,6,34,26,26,24,24,35,28,23,28,26,27,24,13,10,9,7,18,11,10,10,12,9,12,9,13,11,6,11,10,3,9,9,7,8,10,8]和,图18的待评测时间序列为[31,16,25,24,29,33,29,30,24,30,29,22,18,25,21,29,19,38,4,19,6,7,11,9,9,7,9,10,11,11,10,10,9,4,7,29,37,31,29,30,38,31,29,22,23,23,28,19]。按照步骤903所述操作,系统会首先按照待评测时间序列中数据点与切换点位置的关系,确定待评测时间序列上各数据点的趋势阶段归属,而后依照步骤904所述操作,使用对应趋势阶段的量化要素评估值,计算待评测时间序列上各数据点幅值出现的概率。以图17待评测时间序列上第16个数据点为例,其幅值为24,隶属于历史规律的第二个趋势阶段。由于幅值非零,则该点幅值的出现概率为
Figure BDA0002079771120000291
根据步骤905,可以进一步求出该点的信息量为0.377≈-0.073×log20.073-(1-0.073)×log2(1-0.073)。按照以上方法可以分别求出,图17中待评测时间序列中各点对应的信息量约为[0.666,0.183,0.257,0.648,0.510,0.549,0.666,0.648,0.666,0.614,0.648,0.614,0.131,0.379,0.379,0.377,0.377,0.102,0.341,0.361,0.341,0.379,0.364,0.377,0.251,0.498,0.546,0.529,0.021,0.424,0.498,0.498,0.338,0.546,0.338,0.546,0.251,0.424,0.458,0.424,0.498,0.128,0.546,0.546,0.529,0.558,0.498,0.558],图18中待评测时间序列中各点对应的信息量约为[0.000,0.001,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0.171,0.383,0.300,0.311,0.215,0.041,0.000,0.215,0.000,0.000,0.007,0.001,0.546,0.529,0.546,0.498,0.424,0.424,0.498,0.498,0.546,0.235,0.529,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0.000,0.001,0.000,0.000,0.000,0.011]。最终,按照步骤906可以求出图17和图18中待评测时间序列对应的平均信息量分别为0.438和0.144。由此可见,背离度(差异程度)与平均信息量呈反向关系,与历史规律背离度越低(即契合度越高)的待评测时间序列对应的平均信息量越高。反之,与历史规律背离度越高(即契合度越低)的待评测时间序列对应的平均信息量越低。
4、接着,介绍上述步骤S08,该步骤S08为确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分的步骤。
在一个实施例中,根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分,可以包括:
根据待检测时间序列和历史时间序列,确定皮尔森相关系数值;对所述皮尔森相关系数值进行归一化处理,得到归一化处理后的相关系数值;
根据待检测样本数据时间范围内的交易数据总量,以及历史规律样本数据时间范围内的交易数据总量,确定交易数据变化系数值;
将归一化处理后的相关系数值、交易数据变化系数值与所述平均信息量进行组合,形成三维特征坐标值;
将所述三维特征坐标值与预设的三维特征坐标值进行比较;预设的三维特征坐标值包括:预设平均信息量、预设相关系数值和预设交易数据变化系数值;
根据比较结果,进行交易异常情况分类,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分。
具体实施时,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分可以通过交易异常度评估装置7实现,下面对交易异常度评估装置7进行介绍。
具体实施时,交易异常度评估装置7会首先计算待评测交易下,各经营单位编号对应历史时间序列与待评测时间序列的交易数据变化系数和归一相关系数,并结合交易规律背离度评估装置6生成的平均信息量组成三维特征坐标。根据各经营单位编号对应的三维特征坐标与多个预设三维特征坐标点的距离关系,交易异常度评估装置7按预设规则定义各经营单位编号下,待评测交易的异常情况分类,计算待评测交易下,各异常情况的经营单位占比。同时,交易异常度评估装置7还将根据各经营单位编号,对应三维特征坐标与预设三维特征坐标距离,采用预设统计方法(详见下文整体异常度得分计算单元73的介绍),计算待评测交易的整体异常度得分。最终,交易异常度评估装置7会将该组请求的计算结果,返回异常交易检测请求处理装置9。
具体实施时,交易异常度评估装置7负责计算待评测交易种类下,经营单位的具体异常情况占比以及待评测交易的整体异常度得分。基于交易规律背离度评估装置6转发的待评测时间序列与对应历史时间序列,交易异常度评估装置7会首先计算归一化处理后的相关系数。此后,交易异常度评估装置7会根据待评测交易种类、样本数据时间范围和交易数据类型及待评测交易种类、历史规律样本数据时间范围和交易数据类型从交易记录数据库1中分别提取样本数据时间范围内的交易数据总量和历史规律样本数据时间范围内的交易数据总量,并据此结果计算交易数据变化系数。结合交易数据变化系数、归一化处理后的相关系数以及交易规律背离度评估装置6生成的平均信息量,交易异常度评估装置7会定义出一个三维特征坐标系。此后,交易异常度评估装置7会在三维特征坐标系中计算待评测交易种类下各经营单位编号对应的特征点与预设坐标之间的距离,并将各经营单位编号对应的特征点划归为与其空间距离最近的预设坐标所代表的异常情况分类。最终,交易异常度评估装置7会根据待评测交易下的经营单位编号总量计算各类异常情况分类出现的经营单位比率。此外,交易异常度评估装置7还负责使用预设统计方法统计各经营单位编号对应特征点与代表零异常度坐标点的距离,所得统计量用作待评测交易的整体异常度得分并返回异常交易检测请求处理装置9。
具体实施时,如图19所示,交易异常度评估装置7包括三个处理单元,它们分别是特征点生成单元71、异常情况分类单元72和整体异常度得分计算单元73。基于待评测交易,特征点生成单元71负责计算各经营单位编号对应待评测时间序列与历史时间序列的皮尔森相关系数和预定义的交易数据变化系数,并对计算所得皮尔森相关系数进行归一化处理生成归一相关系数。根据交易规律背离度评估装置6生成的平均信息量数值,特征点生成单元71最终会将待评测交易中各经营单位编号对应到一个三维特征点,并分别向异常情况分类单元72和整体异常度得分计算单元73输出。通过计算经营单位编号对应的三维特征点与预设三维特征点的距离,异常情况分类单元72负责将经营单位编号划归与其距离最近的预设三维特征点所代表的异常情况分类,并根据待评测交易下经营单位编号的数量,向异常交易检测请求处理装置9返回各异常情况分类的比率。整体异常度得分计算单元73负责计算待评测交易下各经营单位编号对应三维特征点与代表零异常度坐标的距离,并根据预设统计方法生成统计量作为待评测交易的整体异常度得分。最终,整体异常度得分计算单元73会将待评测交易的整体异常度得分返回异常交易检测请求处理装置9。
下面介绍特征点生成(特征点生成单元71的具体实施方案,该特征点生成单元71的实施实现了:形成三维特征坐标值),如图20所示,该特征点生成单元71的处理过程可以包括如下步骤。
步骤1000:从步骤908生成的结果数据集中提取一条记录,用待评测时间序列和历史时间序列计算皮尔森相关系数(Xp),该步骤实现了:根据待检测时间序列和历史时间序列,确定皮尔森相关系数值。
步骤1001:根据步骤1000所得的皮尔森相关系数(Xp)进行归一化操作,求得归一相关系数(X)。相关操作可通过公式(20)表示:
Figure BDA0002079771120000321
上述步骤1001实现了:对所述皮尔森相关系数值进行归一化处理,得到归一化处理后的相关系数值。
步骤1002:根据异常交易检测请求处理装置9输入的待评测交易种类、待测样本数据时间范围和交易数据类型,从交易记录数据库1中提取样本数据时间范围内的交易数据总量(Oq)。
步骤1003:根据异常交易检测请求处理装置9输入的待评测交易种类、历史规律样本数据时间范围和交易数据类型,从交易记录数据库1中提取历史规律样本数据时间范围内的交易数据总量(Oh)。根据待测样本数据时间范围的长度(Tq)和历史规律样本数据时间范围的长度(Th)的比值,修正历史规律样本数据时间范围内的交易数据总量(Oh),求得历史规律中对应长度的交易数据总量估值(Ot)。相应操作可通过公式(21)表示:
Figure BDA0002079771120000322
步骤1004:步骤1002和步骤1003的结果计算交易数据变化系数(R)。相关操作可通过公式(22)表示:
Figure BDA0002079771120000323
上述步骤1002-步骤1004实现了:根据待检测样本数据时间范围内的交易数据总量,以及历史规律样本数据时间范围内的交易数据总量,确定交易数据变化系数值。
步骤1005:将步骤1004生成的交易数据变化系数(R)、步骤1001生成的归一相关系数(X)与步骤907生成的平均信息量
Figure BDA0002079771120000331
以交易种类和经营单位编号为条件进行组合,形成三维特征坐标保存到坐标数据集中,该步骤1005实现了:将归一化处理后的相关系数值、交易数据变化系数值与所述平均信息量进行组合,形成三维特征坐标值。
步骤1006:若步骤908生成的结果数据集中尚有未处理的数据记录,重复步骤1000。否则,转入步骤1007。
步骤1007:将坐标数据集分别发送给异常情况分类单元72和整体异常度得分计算单元73。
下面介绍异常情况分类(异常情况分类单元72的具体实施方案,该方案的实施实现了:进行交易异常情况分类,确定待检测交易下各异常情况的经营单位占比),如图21所示,该异常情况分类的处理过程可以包括如下步骤。
步骤1100:将三维坐标点(0,1,1)、(0,1,0)、(0,0,0)、(1,1,0)和(1,0,0)(用于异常情况分类的预设三维特征点,可以称为第一预设三维特征点)分别定义为0级异常特征点、1级异常特征点、2级异常特征点、3级异常特征点和4级异常特征点。为各级异常特征点分类定义累加器,并初始化为0。其中,0级异常特征点代表当前交易趋势较好地遵循历史规律;1级异常特征点代表当前交易数据总体变化不大,交易曲线与历史规律基本保持一致,但可能伴有较大幅度的震荡;2级异常特征点代表当前交易数据总体变化不大,但交易曲线严重背离历史规律;3级异常特征点代表交易数据变化剧烈,但交易曲线与历史规律契合度高,可能了出现交易曲线在交易数据方向的整体漂移;4级异常特征点代表交易数据和交易趋势均严重背离历史规律。
步骤1101:从步骤1007生成的坐标数据集中读取一条记录,并分别计算该记录中坐标点P与各级别异常特征点的欧几里得距离。
步骤1102:从步骤1101生成的欧几里得距离中找出最小值,并将对应异常特征点的分类作为坐标点P对应经营单位编号的异常情况分类。相应级别的异常特征点累加器的值加1。
步骤1103:若步骤1107生成的坐标数据集中尚有未处理的数据记录,重复步骤1101。否则,转入步骤1104。
步骤1104:使用各级异常特征点累加器的值与坐标数据集中记录数比值作为对应级别异常情况分类的比率。将待评测交易种类及各级别异常情况分类比率发送给异常交易检测请求处理装置9。
具体实施时,异常情况分类单元72确定了交易异常情况级别,便于获得同一交易下不同异常状态在经营单位的分布情况。
下面介绍整体异常度得分计算(整体异常度得分计算单元73的具体实施方案,该异常度得分计算单元73的实施实现了:确定待检测交易的整体异常度评分),如图22所示,该整体异常度得分计算的过程可以包括如下步骤。
步骤1200:从步骤1007生成的坐标数据集中读取一条记录,计算该记录中坐标点P与三维坐标点(0,1,1)(用于计算整体异常度评分的预设三维特征点,可以称为第二预设三维特征点)的欧几里得距离(整体异常度评分涉及的差异度),并保存到异常度得分数据集中。
步骤1201:若步骤1107生成的坐标数据集中尚有未处理的数据记录,重复步骤1200。否则,转入步骤1202。
步骤1202:计算异常度得分数据集的平均值,并将待评测交易种类及计算结果发送给异常交易检测请求处理装置9。
具体实施时,当接收到管理部门用户提交的异常交易检测请求时,会通过异常交易检测请求处理、交易数据预处理、交易规律背离度评估处理、特征点生成、异常情况分类和整体异常度得分计算,六大操作步骤完成异常交易检测。其中,交易数据预处理操作在交易规律识别处理中已介绍,在异常交易检测处理中只需使用样本数据时间范围替换原处理步骤中的历史规律样本数据时间范围参数即可,此处不再赘述。
基于同一发明构思,本发明实施例中还提供了一种基于交易规律识别的异常交易检测装置,如下面的实施例所述。由于基于交易规律识别的异常交易检测装置解决问题的原理与基于交易规律识别的异常交易检测方法相似,因此基于交易规律识别的异常交易检测装置的实施可以参见基于交易规律识别的异常交易检测方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图23是本发明实施例中基于交易规律识别的异常交易检测装置结构示意图,如图23所示,该装置包括:
获取单元02,用于在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;
量化识别单元04,用于根据所述待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;所述交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合;
差异度确定单元06,用于根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;所述平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;
检测单元08,用于根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分;所述待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分作为异常交易检测结果输出给用户。
具体实施时,上述获取单元02的实施可以参见图3中交易记录数据库1、交易数据预处理装置2和异常交易检测请求处理装置9的实施。上述量化识别单元04的实施可以参见图3中交易规律提取请求处理装置8、交易曲线切换点范围近似识别装置3、交易规律量化提取装置4和交易规律存储装置5的实施。上述差异度确定单元06的实施可以参见图3中交易规律背离度评估装置6的实施。上述检测单元08的实施,请参见上述交易异常度评估装置7的实施。
在一个实施例中,可以按照如下方法预先训练生成交易历史规律量化识别模型:
预处理单元,用于在接收到用户的交易规律识别请求后,根据请求参数,历史规律样本数据,生成训练历史时间序列;
切换点及区间识别单元,用于对所述训练历史时间序列进行降噪处理,针对降噪处理后的训练历史时间序列,采用聚类算法对交易曲线的点间斜率绝对值进行聚类划分,根据聚类结果,确定切换点类;根据切换点类中数据点位置连续性,将切换点类中的数据点划分为至少一个切换点范围区间,得到切换点范围区间序列及切换点范围区间个数;
量化要素评估值确定单元,用于根据预先定义的趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数,进行预设轮数的仿真试验,直至完成预设轮数的仿真试验,得到训练历史时间序列对应的历史规律量化要素评估值;每一轮仿真试验均执行以下操作:
为每一趋势阶段的到达率生成到达率随机值;为每一趋势阶段的过量零值比重生成过量零值比重随机值;为每一趋势阶段的切换点位置生成切换点位置随机值;
根据每一趋势阶段的到达率随机值,预先定义的趋势阶段到达率先验概率函数,确定每一趋势阶段的到达率随机值对应的先验概率对数值,并对各个趋势阶段的到达率随机值对应的先验概率对数值进行累加,得到到达率先验概率对数累加值;根据每一趋势阶段的过量零值比重随机值,预先定义的趋势阶段过量零值比重先验概率函数,确定每一趋势阶段的过量零值比重随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到过量零值比重先验概率对数累加值;根据每一趋势阶段的切换点位置随机值,预先定义的趋势阶段切换点位置先验概率函数,确定每一趋势阶段的切换点位置随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到切换点位置先验概率对数累加值;
根据训练历史时间序列编号和切换点位置随机值,确定训练历史时间序列中每一数据点归属的趋势阶段;根据训练历史时间序列中每一数据点归属的趋势阶段,每一数据点的幅值,以及相应的趋势阶段的到达率随机值和过量零值比重随机值,确定每一数据点的似然函数值;根据每一数据点的似然函数值,确定似然函数值对数结果累加值;
根据所述到达率先验概率对数累加值、过量零值比重先验概率对数累加值、切换点位置先验概率对数累加值和似然函数值对数结果累加值,得到当前轮次的函数累加值;所述当前轮次的函数累加值与前一轮次的函数累加值作为下一轮次各历史规律量化要素的随机值生成的依据;所述历史规律量化要素包括:趋势阶段的到达率、过量零值比重和切换点位置;
其中,所述趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数根据训练历史时间序列、切换点范围区间序列及切换点范围区间个数进行预先定义;所述趋势阶段根据切换点范围区间生成;
存储单元,用于存储所述历史规律量化要素评估值,以及历史规律量化要素评估值对应历史时间序列。
在一个实施例中,所述差异度确定单元具体可以用于:
根据异常交易检测请求,获取待检测交易对应的历史规律量化要素评估值和历史时间序列,以及获取待检测时间序列;所述历史规律量化要素评估值包括趋势阶段的到达率评估值、过量零值比重评估值和切换点位置评估值;
根据待检测时间序列中每一数据点的位置编号和所述切换点位置评估值,确定待检测时间序列中每一数据点的所属趋势阶段;
根据待检测时间序列中每一数据点的所属趋势阶段,每一数据点的幅值,以及所属趋势阶段的到达率随机值和过量零值比随机值,确定每一数据点出现所述幅值的概率值;
根据每一数据点出现所述幅值的概率值,确定待检测时间序列中每一数据点的基础信息量;根据待检测时间序列中每一数据点的基础信息量,确定待检测时间序列的平均信息量;其中,平均信息量越高,代表所述差异程度越低;平均信息量越低,代表所述差异程度越高。
在一个实施例中,所述检测单元具体可以用于:
根据待检测时间序列和历史时间序列,确定皮尔森相关系数值;对所述皮尔森相关系数值进行归一化处理,得到归一化处理后的相关系数值;
根据待检测样本数据时间范围内的交易数据总量,以及历史规律样本数据时间范围内的交易数据总量,确定交易数据变化系数值;
将归一化处理后的相关系数值、交易数据变化系数值与所述平均信息量进行组合,形成三维特征坐标值;
将所述三维特征坐标值与预设的三维特征坐标值进行比较;预设的三维特征坐标值包括:预设平均信息量、预设相关系数值和预设交易数据变化系数值;
根据比较结果,进行交易异常情况分类,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于交易规律识别的异常交易检测方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于交易规律识别的异常交易检测方法的计算机程序。
本发明实施例介绍了一种可用于多个行业的异常交易智能检测方法。本发明实施例提供的技术方案不仅可以弥补人工识别方法处理效率低、识别标准不统一、受主观影响大的缺点,也能有效解决传统检测系统识别手段单一、难以从交易规律背离的高度识别异常交易的问题。具体效果与优点如下:
1.交易异常识别的种类更多:本技术方案以交易规律的背离程度作为衡量交易异常的重要标准,摆脱了以往仅靠交易数据变化识别异常交易的传统模式,拓展了交易异常识别的种类和范围。
2.可实现更细粒度的交易异常描述:本技术方案可以将交易异常的识别能力提升到经营单位级别,并能对待评测交易在各经营单位的异常情况进行分类描述,为相关管理部门根据具体情况进行异常交易处置提供了决策依据。
3.交易异常识别的自适应能力强:与以往需要不断人工调整参数设置的专家系统不同,本技术方案可定期、不定期对待评测交易在各经营单位下的历史交易规律进行自动提取、描述,实现交易规律的智能迭代更新,以适应不断变化的内、外部业务环境,使识别结果更加科学、客观、准确。
4.技术方案拥有优良的场景复用性:本技术方案适用于包括商业银行、零售、物流等行业针对各类交易和资源流(人流、物流、资金流、票据流等)异常情况的自动识别,具有较好的拓展性和通用性。此外,本系统及方法中的交易规律识别处理操作不仅可用于异常交易检测,其结果还可以应用到其他业务领域作为决策支持的基础信息。
5.自动化处理水平高:本系统及方法在交易规律识别处理和异常交易检测处理阶段均无需人工干预,可在针对大量交易的异常检测中有效提升效率。
6.交易异常的识别效果更好:根据本技术方案设计的论证系统针对北京分行258支柜面交易(其中9支交易被分行渠道管理部确认为受2016年12月1日个人一、二类账户新政影响,在2016年12月发生异常)进行了试验。论证系统以这258支柜面交易2015年12月1日至2016年11月30日的交易明细作为训练数据,自动提取了期间待评测交易在各网点的交易规律,并使用待评测交易2016年12月的交易明细进行了异常交易识别检测。检测结果显示,以待评测交易整体异常度得分降序排名,针对9支受新政影响的异常交易,论证系统能在前10%、前20%和前30%的交易中分别实现33%、44%和56%的识别率。考虑到此类受政策影响的异常交易,往往具有很强的相关性,论证系统可以有效提高渠道管理部门查证、解决整体异常情况的效率。此外,经分行个人金融部确认,论证系统在前10%的异常交易排名中还识别出另外一个受新政影响但未被渠道部发现的交易,表现出较强的识别能力。通过对前10%异常交易排名结果的查验发现,除由新政所致的异常交易外,论证系统还识别出大量由组合交易实施所致的异常交易。此类交易异常虽有正常原因,不需关注,但本技术方案提供的网点级异常情况描述恰恰为细致探究组合交易在各网点的实施情况和效果提供了技术手段,为辅助科学管理提供了依据。同时,论证系统在前10%异常交易排名中,还识别出了4支分别受国际黄金价格和国债买卖时间影响的异常交易,能为管理部门积累外部市场与我行交易联动变化的知识。此外,通过进一步缩短样本数据时间范围设置,本技术方案可以在更短的时间内识别出异常交易,从而显著提高异常交易识别的时效性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于交易规律识别的异常交易检测方法,其特征在于,包括:
在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;
根据所述待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;所述交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合;所述历史规律量化要素包括:趋势阶段的到达率、过量零值比重和切换点位置;
根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;所述平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;
根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分;所述待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分作为异常交易检测结果输出给用户;
所述基于交易规律识别的异常交易检测方法还包括按照如下方法预先训练生成交易历史规律量化识别模型:
在接收到用户的交易规律识别请求后,根据请求参数,历史规律样本数据,生成训练历史时间序列;
对所述训练历史时间序列进行降噪处理,针对降噪处理后的训练历史时间序列,采用聚类算法对交易曲线的点间斜率绝对值进行聚类划分,根据聚类结果,确定切换点类;根据切换点类中数据点位置连续性,将切换点类中的数据点划分为至少一个切换点范围区间,得到切换点范围区间序列及切换点范围区间个数;
根据预先定义的趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数,进行预设轮数的仿真试验,直至完成预设轮数的仿真试验,得到训练历史时间序列对应的历史规律量化要素评估值;每一轮仿真试验均执行以下操作:
为每一趋势阶段的到达率生成到达率随机值;为每一趋势阶段的过量零值比重生成过量零值比重随机值;为每一趋势阶段的切换点位置生成切换点位置随机值;
根据每一趋势阶段的到达率随机值,预先定义的趋势阶段到达率先验概率函数,确定每一趋势阶段的到达率随机值对应的先验概率对数值,并对各个趋势阶段的到达率随机值对应的先验概率对数值进行累加,得到到达率先验概率对数累加值;根据每一趋势阶段的过量零值比重随机值,预先定义的趋势阶段过量零值比重先验概率函数,确定每一趋势阶段的过量零值比重随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到过量零值比重先验概率对数累加值;根据每一趋势阶段的切换点位置随机值,预先定义的趋势阶段切换点位置先验概率函数,确定每一趋势阶段的切换点位置随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到切换点位置先验概率对数累加值;
根据训练历史时间序列编号和切换点位置随机值,确定训练历史时间序列中每一数据点归属的趋势阶段;根据训练历史时间序列中每一数据点归属的趋势阶段,每一数据点的幅值,以及相应的趋势阶段的到达率随机值和过量零值比重随机值,确定每一数据点的似然函数值;根据每一数据点的似然函数值,确定似然函数值对数结果累加值;
根据所述到达率先验概率对数累加值、过量零值比重先验概率对数累加值、切换点位置先验概率对数累加值和似然函数值对数结果累加值,得到当前轮次的函数累加值;所述当前轮次的函数累加值与前一轮次的函数累加值作为下一轮次各历史规律量化要素的随机值生成的依据;
其中,所述趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数根据训练历史时间序列、切换点范围区间序列及切换点范围区间个数进行预先定义;所述趋势阶段根据切换点范围区间生成;
存储所述历史规律量化要素评估值,以及历史规律量化要素评估值对应历史时间序列;
根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分,包括:根据待检测时间序列和历史时间序列,确定皮尔森相关系数值;对所述皮尔森相关系数值进行归一化处理,得到归一化处理后的相关系数值;根据待检测样本数据时间范围内的交易数据总量,以及历史规律样本数据时间范围内的交易数据总量,确定交易数据变化系数值;将归一化处理后的相关系数值、交易数据变化系数值与所述平均信息量进行组合,形成三维特征坐标值;将所述三维特征坐标值与预设的三维特征坐标值进行比较;预设的三维特征坐标值包括:预设平均信息量、预设相关系数值和预设交易数据变化系数值;根据比较结果,进行交易异常情况分类,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分。
2.如权利要求1所述的基于交易规律识别的异常交易检测方法,其特征在于,根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量,包括:
根据异常交易检测请求,获取待检测交易对应的历史规律量化要素评估值和历史时间序列,以及获取待检测时间序列;所述历史规律量化要素评估值包括趋势阶段的到达率评估值、过量零值比重评估值和切换点位置评估值;
根据待检测时间序列中每一数据点的位置编号和所述切换点位置评估值,确定待检测时间序列中每一数据点的所属趋势阶段;
根据待检测时间序列中每一数据点的所属趋势阶段,每一数据点的幅值,以及所属趋势阶段的到达率随机值和过量零值比随机值,确定每一数据点出现所述幅值的概率值;
根据每一数据点出现所述幅值的概率值,确定待检测时间序列中每一数据点的基础信息量;根据待检测时间序列中每一数据点的基础信息量,确定待检测时间序列的平均信息量;其中,平均信息量越高,代表所述差异程度越低;平均信息量越低,代表所述差异程度越高。
3.一种基于交易规律识别的异常交易检测装置,其特征在于,包括:
获取单元,用于在接收到用户输入的异常交易检测请求后,根据请求参数,获取待检测交易的交易明细数据;根据交易明细数据,生成待检测时间序列;
量化识别单元,用于根据所述待检测时间序列,以及预先训练生成的交易历史规律量化识别模型,得到待检测交易对应的历史规律量化要素评估值和历史时间序列;所述交易历史规律量化识别模型根据多个历史规律样本预先训练生成,历史规律为多个趋势阶段的集合;所述历史规律量化要素包括:趋势阶段的到达率、过量零值比重和切换点位置;
差异度确定单元,用于根据待检测交易对应的待检测时间序列和历史规律量化要素评估值,确定待检测时间序列的平均信息量;所述平均信息量代表待检测交易的当前运行状态与历史规律之间的差异程度;
检测单元,用于根据待检测时间序列和历史时间序列之间的相关系数值、交易数据变化系数值,所述平均信息量,以及预设平均信息量、预设相关系数值和预设交易数据变化系数值,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分;所述待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分作为异常交易检测结果输出给用户;
所述基于交易规律识别的异常交易检测装置还包括:
预处理单元,用于在接收到用户的交易规律识别请求后,根据请求参数,历史规律样本数据,生成训练历史时间序列;
切换点及区间识别单元,用于对所述训练历史时间序列进行降噪处理,针对降噪处理后的训练历史时间序列,采用聚类算法对交易曲线的点间斜率绝对值进行聚类划分,根据聚类结果,确定切换点类;根据切换点类中数据点位置连续性,将切换点类中的数据点划分为至少一个切换点范围区间,得到切换点范围区间序列及切换点范围区间个数;
量化要素评估值确定单元,用于根据预先定义的趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数,进行预设轮数的仿真试验,直至完成预设轮数的仿真试验,得到训练历史时间序列对应的历史规律量化要素评估值;每一轮仿真试验均执行以下操作:
为每一趋势阶段的到达率生成到达率随机值;为每一趋势阶段的过量零值比重生成过量零值比重随机值;为每一趋势阶段的切换点位置生成切换点位置随机值;
根据每一趋势阶段的到达率随机值,预先定义的趋势阶段到达率先验概率函数,确定每一趋势阶段的到达率随机值对应的先验概率对数值,并对各个趋势阶段的到达率随机值对应的先验概率对数值进行累加,得到到达率先验概率对数累加值;根据每一趋势阶段的过量零值比重随机值,预先定义的趋势阶段过量零值比重先验概率函数,确定每一趋势阶段的过量零值比重随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到过量零值比重先验概率对数累加值;根据每一趋势阶段的切换点位置随机值,预先定义的趋势阶段切换点位置先验概率函数,确定每一趋势阶段的切换点位置随机值对应的先验概率对数值,并对各个趋势阶段的过量零值比重随机值对应的先验概率对数值进行累加,得到切换点位置先验概率对数累加值;
根据训练历史时间序列编号和切换点位置随机值,确定训练历史时间序列中每一数据点归属的趋势阶段;根据训练历史时间序列中每一数据点归属的趋势阶段,每一数据点的幅值,以及相应的趋势阶段的到达率随机值和过量零值比重随机值,确定每一数据点的似然函数值;根据每一数据点的似然函数值,确定似然函数值对数结果累加值;
根据所述到达率先验概率对数累加值、过量零值比重先验概率对数累加值、切换点位置先验概率对数累加值和似然函数值对数结果累加值,得到当前轮次的函数累加值;所述当前轮次的函数累加值与前一轮次的函数累加值作为下一轮次各历史规律量化要素的随机值生成的依据;
其中,所述趋势阶段到达率先验概率函数、趋势阶段过量零值比重先验概率函数和趋势阶段切换点位置先验概率函数根据训练历史时间序列、切换点范围区间序列及切换点范围区间个数进行预先定义;所述趋势阶段根据切换点范围区间生成;
存储单元,用于存储所述历史规律量化要素评估值,以及历史规律量化要素评估值对应历史时间序列;
所述检测单元具体用于:根据待检测时间序列和历史时间序列,确定皮尔森相关系数值;对所述皮尔森相关系数值进行归一化处理,得到归一化处理后的相关系数值;根据待检测样本数据时间范围内的交易数据总量,以及历史规律样本数据时间范围内的交易数据总量,确定交易数据变化系数值;将归一化处理后的相关系数值、交易数据变化系数值与所述平均信息量进行组合,形成三维特征坐标值;将所述三维特征坐标值与预设的三维特征坐标值进行比较;预设的三维特征坐标值包括:预设平均信息量、预设相关系数值和预设交易数据变化系数值;根据比较结果,进行交易异常情况分类,确定待检测交易下各异常情况的经营单位占比,以及待检测交易的整体异常度评分。
4.如权利要求3所述的基于交易规律识别的异常交易检测装置,其特征在于,所述差异度确定单元具体用于:
根据异常交易检测请求,获取待检测交易对应的历史规律量化要素评估值和历史时间序列,以及获取待检测时间序列;所述历史规律量化要素评估值包括趋势阶段的到达率评估值、过量零值比重评估值和切换点位置评估值;
根据待检测时间序列中每一数据点的位置编号和所述切换点位置评估值,确定待检测时间序列中每一数据点的所属趋势阶段;
根据待检测时间序列中每一数据点的所属趋势阶段,每一数据点的幅值,以及所属趋势阶段的到达率随机值和过量零值比随机值,确定每一数据点出现所述幅值的概率值;
根据每一数据点出现所述幅值的概率值,确定待检测时间序列中每一数据点的基础信息量;根据待检测时间序列中每一数据点的基础信息量,确定待检测时间序列的平均信息量;其中,平均信息量越高,代表所述差异程度越低;平均信息量越低,代表所述差异程度越高。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2任一所述方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至2任一所述方法的计算机程序。
CN201910467135.1A 2019-05-31 2019-05-31 基于交易规律识别的异常交易检测方法及装置 Active CN110263827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910467135.1A CN110263827B (zh) 2019-05-31 2019-05-31 基于交易规律识别的异常交易检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910467135.1A CN110263827B (zh) 2019-05-31 2019-05-31 基于交易规律识别的异常交易检测方法及装置

Publications (2)

Publication Number Publication Date
CN110263827A CN110263827A (zh) 2019-09-20
CN110263827B true CN110263827B (zh) 2021-08-20

Family

ID=67916192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910467135.1A Active CN110263827B (zh) 2019-05-31 2019-05-31 基于交易规律识别的异常交易检测方法及装置

Country Status (1)

Country Link
CN (1) CN110263827B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667868B (zh) * 2019-10-15 2023-11-24 腾讯科技(深圳)有限公司 一种数据检测方法以及装置
CN110795807B (zh) * 2019-10-28 2023-07-18 天津大学 一种基于复杂网络的要素异常结构检测模型构建方法
CN110786869B (zh) * 2019-10-29 2021-12-21 浙江工业大学 一种程序员的疲劳程度的检测方法
CN112783934B (zh) * 2019-11-11 2024-04-05 北京沃东天骏信息技术有限公司 交易数据区间确定方法及装置、存储介质及计算机设备
CN111935097B (zh) * 2020-07-16 2022-07-19 上海斗象信息科技有限公司 一种检测dga域名的方法
CN111814910B (zh) * 2020-08-12 2023-09-19 中国工商银行股份有限公司 异常检测方法、装置、电子设备及存储介质
CN112632469A (zh) * 2020-12-22 2021-04-09 深圳壹账通智能科技有限公司 业务交易数据的异常检测方法、装置及计算机设备
CN113609454A (zh) * 2021-08-12 2021-11-05 中国工商银行股份有限公司 一种异常交易检测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165950A (zh) * 2018-08-10 2019-01-08 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109558416A (zh) * 2018-11-07 2019-04-02 北京先进数通信息技术股份公司 一种异常交易的检测方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10917419B2 (en) * 2017-05-05 2021-02-09 Servicenow, Inc. Systems and methods for anomaly detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165950A (zh) * 2018-08-10 2019-01-08 哈尔滨工业大学(威海) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN109558416A (zh) * 2018-11-07 2019-04-02 北京先进数通信息技术股份公司 一种异常交易的检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN110263827A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110263827B (zh) 基于交易规律识别的异常交易检测方法及装置
CN107609708B (zh) 一种基于手机游戏商店的用户流失预测方法及系统
CN108133418A (zh) 实时信用风险管理系统
CN106952159B (zh) 一种不动产抵押品风险控制方法、系统及存储介质
Kočišová et al. Discriminant analysis as a tool for forecasting company's financial health
KR102412433B1 (ko) 인공지능 데이터 자동 분석 방법 및 분석 시스템
CN108549973B (zh) 识别模型构建及评估的方法、装置、存储介质及终端
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
Çaliş et al. Data mining application in banking sector with clustering and classification methods
CN114612251A (zh) 风险评估方法、装置、设备及存储介质
CN113051291A (zh) 工单信息的处理方法、装置、设备及存储介质
Radhakrishnan et al. Application of data mining in marketing
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
Nurlybayeva et al. Algorithmic scoring models
CN112434886A (zh) 一种预测客户抵押贷款违约概率的方法
CN113421154B (zh) 基于控制图的信贷风险评估方法及系统
CN115587887A (zh) 基于供应链金融业务的团队欺诈识别方法及装置
Niknya et al. Financial distress prediction of Tehran Stock Exchange companies using support vector machine
CN115409226A (zh) 一种数据处理方法和数据处理系统
Bidyuk et al. The algorithm for predicting the cryptocurrency rate taking into account the influence of posts of a group of famous people in social networks
CN117788043A (zh) 一种云计算行业云电脑客户流失预警方法及系统
CN114021898A (zh) 识别校外合作企业风险等级的系统
Bohlscheid Social security data mining: An Australian case study
Rhoads et al. A COMPARISON OF PREDICTION METHODS FOR CUSTOMER CHURN USING SAS ENTERPRISE MINER
CN113077189A (zh) 一种小微企业生命周期评估的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant