CN102012918B

CN102012918B - 一种规律挖掘和执行系统及其方法

Info

Publication number: CN102012918B
Application number: CN2010105609893A
Authority: CN
Inventors: 王志伟; 王凯玺; 张鑫; 张行
Original assignee: CHINA FINANCIAL CERTIFICATION AUTHORITY CENTER Co Ltd
Current assignee: CHINA FINANCIAL CERTIFICATION AUTHORITY CENTER Co Ltd
Priority date: 2010-11-26
Filing date: 2010-11-26
Publication date: 2012-11-21
Anticipated expiration: 2030-11-26
Also published as: CN102012918A

Abstract

一种金融交易复杂事件潜在风险规律挖掘和执行系统，其特征在于所述系统包括五个模块：事件识别模块；事件元素编码、量化数据离散化模块；规律提取模块；规则库及维护模块；规则匹配模块。

Description

一种规律挖掘和执行系统及其方法

技术领域

本发明所谈及的规律挖掘和执行系统及其方法，尤其适用于金融交易复杂事件潜在风险行为规律挖掘与识别，能够从存在多维量化属性、海量交易数据、风险行为模式隐蔽等诸多场景发现规律、提取规则，进而对正在进行的事件进行规则匹配。

背景技术

通常，事件流被设置为存在一定关系的一系列的先后发生的事件集合。在事件流中往往会呈现一种规律，如在典型的金融交易往往包含交易类型、账户、交易时间、交易先验事件等元素。其中先验事件是指发生在当前交易之前且与当前事件属同系列或存在相关性的事件。一次交易被理解为一次事件，往往在N个具有一定特征的事件先后发生后会加剧随后发生事件的风险度等指标。

目前，大多数商业产品或开源工具处理这种场景往往采用RETE算法作为其核心算法。规律在软件中往往被表示为规则，在不可否认RETE算法在规则执行领域经典地位的同时，RETE算法存在一定的缺点，首先RETE算法使用了β存储区存储已计算的中间结果，以空间换取时间，从而加快系统的速度。然而β存储区根据规则的条件与事实的数目而成指数级增长，所以当规则与事实很多时，会耗尽系统资源，这样负载是否会令服务器崩溃将会成为一个隐患，基于JAVA编写的处理算法中GC的运行具有不可控性也会导致程序失去响应，使程序吞吐量瞬间下滑；此外，对于RETE算法而言大部分的condition需要是不变的，也就是说基本信息需要保持稳定不变，而大部分现存基于RETE算法的商业产品或开源工具采用xml配置或规则语言进行设置，这无疑进一步加剧了规则的自学习能力的缺失；最后在算法实现上，事实的删除与事实的添加顺序相同，除了要执行与事实添加相同的计算外，还需要执行查找，开销很高。

现有技术的金融交易处理的基本步骤如图1所示。

现行的商业产品一般思路为通过AI技术学习规则后，然后用RETE算法执行规则，也就是说规则的学习和执行采用了两个解决方案，在设计上仅仅是对已有经典算法的调用从而形成的商业解决方案，两者之间存在一定的隔离，没有一种统一的设计思想融汇其中，这样就导致了规则生成后，为了让规则执行引擎执行，需要额外再加一层，给软件带来了不必要的复杂性，该层负责将规则描述为RETE算法的执行引擎能够识别的一种形式，这样无疑增加了系统的编写成本、维护成本，在增加系统复杂度的同时也造成了系统资源的浪费，综上：规则学习和执行隔离的算法存在效率和执行上的损耗。如果能在规则产生的同时就能生成规则执行引擎就能理解的算法将在众多方面提高效率，因此一种有别于RETE算法的新型算法亟待出现。

发明内容

本发明的规律挖掘和执行系统避开RETE算法及其定义语言，建立一套全新的复杂事件规律提取和匹配执行方法。为存在多维量化属性的简单事件提供一种挖掘K维风险规律识别机制，为复杂事件提供基于自动机相似度模型同时触发多规则的处理机制，为即将发生的事件提供实时风险预估等商业服务。为了实现上述发明目标，本系统提供了一套根据数据库中的交易数据检索出风险行为规律并能根据提取出的规律对实时交易进行风险评估的方法。

本系统中所指的规则是指提取出现风险事件的规律，这种规律在软件中抽象为规则，当待验事件再度表现出类似的规律，在软件中即表现为匹配某一种或某几种规则，本系统将会智能的分析其与已有规则的相似度，进而得出风险值。

整个系统的主要模块如图4所示。本发明的金融交易复杂事件潜在风险规律挖掘和执行系统包括五个模块：

1 事件识别模块；

2 事件元素编码、量化数据离散化模块；

3 规律提取模块；其包括：

3.1 简单事件规律提取子模块；

3.2 复杂事件规律提取子模块；

3.3 习惯行为识别模块

4 规则库及维护模块；

5 规则匹配模块；其包括：

5.1 简单事件规则匹配子模块；

5.2 复杂事件规则匹配子模块；

5.3 习惯行为判定模块。

其中，模块1：所述“事件识别模块”，本模块输入为历史交易数据和当前执行事件，输出为输入事件的类别及其事件对象或对象集。本模块对交易数据库中或即将到来的事件进行定性分类，本系统中事件种类分为三类，1.简单事件；2.复杂事件3.习惯事件。简单事件为该事件通过向历史交易数据库进行采集时未能获得滑动窗口机制所要求的事件数目或未能取得完整的语意上下文的事件，简单的说就是与该事件相关联的历史事件不足即较孤立的事件称为简单事件；复杂事件是能够按照滑动窗口的要求生成完整的语意上下文，并能构建DFA(Deterministic Finite Automation)的基本事件集，即有序列的基本事件集合。需要说明的是，在本系统中首先要取出在历史交易数据库中已被定义为风险事件，然后以该事件为终点，逆时间序取出与该事件同账户的某时间额度或数量额度内的相关交易，能够构成完整上下文的事件集合称为复杂事件。在本系统中简单事件及复杂事件的最末事件为历史交易数据库中已被认定为风险的事件。习惯事件为该账户在历史交易中所表现出的一种共性行为。另外需要说明的是基本事件，其为历史数据中的一次交易。一般来说简单事件是一个基本事件，而一个基本事件可能为一个简单事件，也可能为复杂事件中的一个组成元素。

模块2：所述“事件元素编码、量化数据离散化模块”，本模块的输入为所述事件识别模块的对象或对象集，输出为输入对应的二进制字符串。本模块采用本系统特有编码方式：“基于编辑距离的差异编码”(编辑距离，又称Levenshtein距离，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数)，为配合该种编码方式，本系统提出了一种编码方式，称为“编辑编码”，该编码的思想是在现实世界中相邻的属性值经过该种编码后所生成的二进制串之间的编辑距离也相邻，现实世界中逻辑距离为N的两属性值经编码后其对应的二进制串编辑距离也为N。除将属性进行编码外，本模块还负责将量化的数据进行离散化，也就是对连续的属性值进行分段标记。

模块3：所述“规律提取模块”，共包括两个子模块：简单事件规律提取模块和复杂事件规律提取子模块：

模块3.1：简单事件规律提取模块针对历史交易数据库中的被标记为风险的简单事件进行的规律发现。其目的为发现在风险简单事件中各属性值的出现情况，简言之即为对属性值的频繁项集挖掘。主要通过采用基于优化(矩阵化)的FP树(Frequent-Pattern Tree，一种已存在的针对Apriori算法在频繁项集挖掘时提出的优化方法)的Apriori算法(一种已存在的在频繁项集挖掘领域的经典算法)对风险事件样本学习来产生规则，该方法避免了大量候选项的产生，减少了内存的使用，提高了执行效率，经测试较原生的Apriori算法执行时间降低了一个数量级。

模块3.2：复杂事件规律提取子模块针对蕴含时间逻辑的历史事件序列，发现前后事件之间的逻辑关系及属性值变化，进而挖掘规律，并经进一步编码后形成含有通配符的规律二进制串。复杂事件的终点事件是已经被识别的风险事件。针对该模块系统提出了全新的算法：自动机逆向老化构建算法(如图11所示)，它能够按照自动机理论，首先利用最末事件构建自动机终点，然后向前发现自动机始点，并对事件属性进行编辑编码，进而形成事件的编码，然后通过对比前后事件相应属性位，并判断各属性的重要程度，最终得出前后事件的逻辑关系，从而完成了对事件集(复杂事件)的二进制编码。

同时该复杂事件还能针对某些属性位产生差异编码，即能够逆向跟踪某属性位的属性值变化的轨迹，根据差异生成编码，如地域位等。历史交易数据库中将会记录最终事件，该模块是本系统重点介绍的一块模块。需要说明的是，对于同交易类型的二进制编码串中各属性位的位置是固定的。本子模块是发明的核心内容之一。模块4：所述“规则库及维护模块”，分为简单事件规则库维护和复杂事件规则库维护。前者主要负责对在历史交易数据库中有风险的简单事件进行频繁项集挖掘后，对结果的整理和维护。本模块的主要部分在复杂事件规则库的维护上，即对已有针对复杂事件的规则的数量求精和精度合并。随着时间的积累，规则会越来越多，数据库中记录将会越来越多，为避免规则蕴含和规则重合现象的产生，本模块在新规则存到规则库之前通过与已有规则的对比来决定新规则对规则库产生的影响和定期根据某规则被执行的情况及其误判率(后验事件检验)来修正规则库。前者主要流程如图5所示，其中需要说明的是计算与既有规则的类欧氏距离(本系统在欧式距离基础上赋予各标量不同影响系数)，是通过计算同类型下每个相应属性位之间的编辑距离，再依据属性位在二进制串中的位置将会产生基于编辑距离的向量，继而计算新规则与已有规则之间的欧式距离。另外需说明4.规则维护部分，由于本系统中产生的规则二进制串含有通配符，因此即使与已有规则类欧氏距离小于阈值可能只是部分匹配，此处在实践中发现该种情况往往是已有规则蕴含规则的情况，每条规则的最终目标是单一化影响属性，如果某条规则对应的二进制串在匹配过程中某几个属性位往往同时出现或仅仅匹配某一个属性位，则表明其他属性位可能对结果而言所占权重较小，将会调整对属性位的权重，即每个属性对应的影响因子，当足够小时将会在该属性位用通配符代替之，从而精化影响属性位。在规则执行模块中，每个复杂事件在执行之前会匹配已有规则，然后将会根据规则将会给出风险值，通过对比该风险值和该事件实际的结果进行规则修正。这样能够使规则的预估与实际的执行结果产生比较，进而修正规则预估值、影响属性，甚至能够删除某些规则。

模块5：所述“规则匹配模块”共包括两个子模块，简单事件规则匹配模块和复杂事件规则匹配模块。规则匹配作用是对正在发生的事件进行风险预估。

模块5.1：简单事件规则匹配模块较简单，当前事件如果被判定为简单事件，则会与规则库中简单事件规则(风险频繁项集)进行对比，根据当前事件的属性值与频繁项集的匹配程度，给出风险预估。

模块5.2：复杂事件规则匹配模块是本系统的核心模块，其作用在于根据风险事件规则对当前事件给出风险预估。首先本系统取滑动窗口范围内的同账户事件形成事件集，当前事件作为事件集最终事件，根据自动机逆向老化构建算法，生成当前事件对应的复杂事件的二进制编码。然后再与已有规则进行匹配，该过程亦从事件编码终点开始与规则终点开始，逆向匹配已有规则。再根据本系统提出的自动机相似度距离算法，该算法通过计算二进制串对应属性位而生成差异向量，根据此向量及向量各值权重能够计算出一种二字符串之间的类欧式距离，最终能够求解与已有规则的距离，进而得到阈值距离范围内的匹配规则集，该规则集为当前事件所触发规则集合，亦称为冲突规则集。在判断每条规则对当前事件产生的影响时，系统提出了一种多维影响度衰减模型，该数学模型经试验证明，它能够很好的模拟某影响随前文中提到的距离而衰减的程度，并在需预估风险的事件处产生叠加效果的数学模型，该模型妥善的处理了某事件同时触发多条规则情形。本子模块是本发明的核心模块之一。

特别说明，本系统中还有一类特殊的事件，称为习惯事件。此事件是针对账户的，也就是说该行为规则是特有的，而不像简单事件、复杂事件的行为规则是共有的，因此不具备普适性。而且习惯行为规则是确认无风险的，称安全规则。而其他两种规则是预估风险度的，也成为风险规则。习惯事件的规则挖掘类似于复杂事件规则挖掘，也是取出某用户滑动窗口内的多个事件，形成事件集，通过逆向自动机构建算法，能够发现事件集中各事件的类似程度，前文中提及的基于差异的编辑编码，当连续发生某一阈值数量内的多个相似的无风险的事件时将会被系统识别成该用户的习惯事件。进行规则匹配时，会首先判断当前行为是否为习惯事件，若为用户首次或前几次匹配该习惯行为，仍会继续进行风险规则匹配，但会降低风险预估。如果某习惯行为经匹配过多次，且经事后验证确无风险，则认定该习惯行为挖掘正确，此时再次匹配习惯行为后系统将会认定为安全，直接转向无风险，如图10所示。

需要说明的是，通过本发明的规律挖掘和执行系统，在实际实现时不仅能够挖掘历史事件的规律形成规则，用户还能够指定具有特定或差异属性事件序列而直接制定规则。

其中核心模块为模块2(事件元素编码、量化数据离散化模块)、模块3.2(复杂事件规律提取子模块)和模块5.2(复杂事件规则匹配子模块)，此亦为本系统中重点描述对象。它包含了自动机逆向老化构建算法、自动机相似度距离计算、复杂事件多规则冲突解决算法等本系统中的主要思想。

本发明的金融交易复杂事件潜在风险规律挖掘和执行方法包括如下步骤：

步骤(1)：对历史事件中已被标记为风险的事件按其与先验事件的关系进行分类，进而识别复杂事件；如果风险事件和与之相关的先验事件集能够组合成为具有一定差异变化或集合大小大于某阈值则该事件集形成复杂事件；

步骤(2)：对所述步骤(1)中提取的复杂事件的每个事件进行编码，进而将事件集编码成为有序的编码集，在加入操作符之后完成复杂事件的粗粒度编码；在进行挖掘规律之前首先检验该事件是否与已有规则匹配，如果匹配程度高则转向规则库及维护模块，对与之匹配的规则进行精度修正、关键属性精化等操作；否则转向步骤(3)；

步骤(3)：根据所述步骤(2)中的粗编码进一步精化该串，将其规则化，包括对事件间操作符的界定、关键属性的取舍、前后事件间关键属性的属性值的通配替换、自动机起点确定，在该步骤中也会记录某一状态自循环的次数。该过程由模块3.2结合本发明提出的核心算法之一自动机逆向老化构建算法实现，该条规则对应的复杂度为末次事件(即已被认定为风险的时候)的风险值。该过程中也会记录某一状态自循环的次数；

每条规则还能根据对应属性位属性值上的变化进行差异编码，如地域位等，事件终点中地域A编码为0000，逆向构建时发生第一次地域位改变时编码为0001，即针对变化的编码。当自动机构建完成后该复杂事件被识别为一段二进制编码，至此历史交易数据库中复杂事件对应的规则挖掘完成。

步骤(4)：系统正常运行时，将会监听新事件的到达，并判断当前事件与历史事件能否构成复杂事件；当新事件到达时，系统将当前事件作为终点事件，然后向历史交易数据库进行查询操作，如果能够形成事件集并能被识别为复杂事件则转向下一步；当前事件与邻近事件存在属性值差异或事件集容量大于某一阈值且当前事件非习惯事件时，则识别为复杂事件；

步骤(5)：对据当前事件所形成的复杂事件进行编码；当前事件作为复杂事件终点，逆向构造当前复杂事件对应的二进制编码；

步骤(6)：根据所述步骤(5)中构造的二进制串与现有规则库进行匹配；通过复杂事件规则匹配子模块完成基于自动机相似度规则距离量化，同时触发多规则时多维影响度计算等相对复杂的操作。经过上述计算后，系统将会给调用者返回风险值，至此当前事件的规则匹配完成。用户可以根据此风险值确定相关行为，如阻断交易、追加认证或信任放行等操作。

其中，在所述步骤(1)中：

设置用于获取事件流上下文的事件模型，包括：

首先，本系统以账户为对象，形成针对某账户的事件集合，对于每个事件的表示为E＝(Eid，EType，ACCID，Ecode)，其中：

Eid：用来唯一标示事件的id，相当于数据库中的主键；

EType：统一的用来标示该事件所属类型，一个事件类型包含多个事件实例，本系统的挖掘都是基于交易类型的，因此所有的行为模式识别都是在EType维度上进行规约的。一个事件类型对应的事件属性序列是统一的；

ACCID：为账户id，由于本系统进行复杂事件处理时，正在进行的事件与先验事件的关系的建立通过本标示来实现，即通过该属性来确定当前事件的上下文；

Ecode：每个事件包含很多个能够刻画对象特征发生网络地址、位置、时间、交易金额等数据，这些信息应该按照预定的顺序被记录在E中。但是由于数据格式的不一致性，某些属性值的不可穷举性，因此需要一个特有模块对事件的各个关键属性进行编码，该过程包含属性的裁剪精化等功能，将能够影响结果的属性数最小化。对于事件编码，根据各个事件的影响属性数值规约，然后进行顺序编码，若为非关键影响属性位或涵盖属性值以“？”占位。

设置状态(标示为事件)之间转换的操作符，其中包括：

逻辑操作符：

设置一：且操作符(∩)，为二元运算符。E1∩E2(E1、E2为简单事件，DFA中标记为状态)表示E1、E2都发生的复杂事件，无时序；

设置二：或操作符(∪)，为二元运算符。E1∪E2表示E1、E2至少一个发生的复杂事件，无时序；

时间操作符：

设置三：时序运算符(→)，为二元运算符。E1→E2表示E1发生后E2才发生复杂事件；

设置四：时限运算符(δ)，与其他运算符结合使用。E1δ(T)→E2表示E1发生后在T时间内E2也发生复杂事件。

做完如上设置之后，需对历史交易数据库中的事件进行分类，首先提取有风险的历史事件，逆时间序向前提取同账户事件，如果能够形成有上下文语意的事件集，即复杂事件，作为下一个步骤的输入。若未能生成事件集那么则构成有风险的简单事件。

本系统中蕴含的算法可在包含复杂事件的系统中，不仅局限于金融系统，能够智能挖掘发现复杂事件规律，并对即将发生的事件进行规则匹配，并合理的给出一个评估值。

附图说明

参考附图可以更好的理解本系统，这些附图只是用于示例，而并不是对本系统的限制，其中：

图1所示为现有技术金融交易发生的一般性流程。

图2所示为本发明在业务流程中发生作用的部位；

图3所示为本系统的载体程序部署图；

图4所示为系统主要模块及数据流程；

图5所示为提取复杂事件规则中逻辑流程；

图6是图4的细化，所示为系统的全貌；

图7所示为系统对于复杂事件规律的挖掘和规则匹配的过程；

图8所示为从历史样本中学习规则的一般性步骤的视图；

图9所示为复杂事件如何进行规律规则化的处理流程的描述性视图；

图10所示为当发生新事件时，本系统进行规则执行的一般流程；

图11所示为本系统的核心算法之一：自动机逆向老化构建算法的流程图；

图12所示为对实时复杂事件规则执行；

图13所示为影响度曲线应当表现出的一般性趋势；

图14所示为本系统所采用的数学模型其曲线的拟合程度；

图15所示为本系统的另一核心算法：多维影响强度衰减的数学模型。

具体实施方式

本系统针对事件流的规律挖掘和执行需要上下文信息的特殊需求，提出了一种用于复杂处理机制来从历史固化事件中获取和分析上下文的算法和系统。

在本系统中用户的每次交易被理解为一次事件，事件包含事件属性。按发生时间区分事件分为两种，一种是已经固化到数据中的历史事件，另一种是正在进行中事件，前一类主要作为挖掘规则的学习样本，后者是监控的对象，利用已经学习到的规则对实时事件进行风险度评估等操作。按事件与历史事件的关系划分又可以划分为两种，一种是简单事件和复杂事件。前者是指与历史事件关系较少，不能形成完整语意的孤立事件，复杂事件是指当前事件与历史事件有前后关系的事件集合。

约定以账户为对象，形成针对某账户的事件集合，对于每个事件的表示为E＝(Eid，EType，ACCID，Ecode)，其中：

Eid：用来唯一标示事件的id，相当于数据库中的主键；

Ecode：每个事件包含很多个能够刻画对象特征发生网络地址、位置、时间、交易金额等数据，这些信息应该按照预定的顺序被记录在E中

其次，设置了状态(标示为事件)之间转换的操作符，其中包括：

逻辑操作符：

时间操作符：

为配合系统实施共将系统分为5个模块：如图4所示。

1 事件识别模块；

2 事件元素编码、量化数据离散化模块；

3 规律提取模块；其包括：

3.1 简单事件规律提取子模块；

3.2 复杂事件规律提取子模块；

3.3 习惯行为识别模块

4 规则库及维护模块；

5 规则匹配模块；其包括：

5.1 简单事件规则匹配子模块；

5.2 复杂事件规则匹配子模块；

5.3 习惯行为判定模块。

本系统实施步骤如下：

此处的匹配程度是通过程序中的自动机相似度距离算法实现的，该算法描述如下：

自动机相似度距离算法：

该算法作用于模块4规则库及维护模块中挖掘出的新规则与已有规则进行合并及求精过程中，及模块5.2复杂事件规则匹配子模块中计算对当前事件能够产生影响的规则有哪些。该算法具体步骤如下：

首先：在其使用域的上下文中，本算法用来比较规则对应的二进制字符串之间或复杂事件对应的二进制串之间的距离计算。本算法在进行两二进制字符串距离计算时，分两种情况：运算符相似度和事件相似度。如前所述，两二进制串的比较自串尾开始，逆向对比，当较短串所代表的事件集比对结束后，本次匹配结束。由于每个事件编码对应位置所代表的属性值是相同的，因此首先应得到对应属性位上的差异，继而得出事件操作符的差异度，最终得出两二进制串的距离。因此首先应该对字符串中每个事件进行针对属性值的切割，最终形成事件属性向量。举例来说，某复杂事件E1对应编码为0000001100010000,00000001,0000001100001011。其中第一个事件为0000001100010000，其中每四位代表一个事件属性，依次为支付方式，时间，地点，金额该事件，对应的属性向量为E1V₁(0000，0011，0001，0000)。相同方式完成对第二个事件的向量转化，即E1V₂(0000，0011，0000，1011)，最终完成对整个复杂事件中所有事件的编码工作。与之相比较的二进制串所标记的规则E2(0001001100010000，0000？？？1，0001001100001111)亦类似完成转化，假设经编码后其向量为E2V₁(0001，0011，0001，0000)，E2V₂(0001，0011，0000，1111)。

其次：通过如下公式

Dis (E 1, E 2) = Σ_{j = 1}^{S} α_{j} \sqrt{Σ_{i = 1}^{A} ϵ_{i} {(({E 1 V}_{ji} {E 2 V}_{ji}))}^{2}} + Σ_{j = 1}^{M} \sqrt{Σ_{i = 1}^{OA} θ_{i} {(({OP 1}_{ji} - {OP 2}_{ji}))}^{2}}

计算E1，E2的距离。

总体来说，该公式计算两二进制串所有事件，所有对应属性值之间的类欧式距离之和，及操作符距离之和，上式中S表示复杂事件(或规则)E1、E2中所包含的简单事件个数，A表示每个简单事件中的属性值个数，M表示E1、E2中所蕴含的操作符个数(据前述设置二者所包含的运算符个数是相等的)，OA是指第j个运算符所包含的子操作符个数。ε_i是事件各属性对应的影响因子，θ_i是各操作符的各属性影响因子，α_j是匹配事件的影响因子，根据逆向老化算法，越靠近DFA终点的事件对相似度距离影响越大。三者的初始值为1。三者能够通过对比预估值和事件实际的风险值利用BP神经网络算法反馈学习纠正其值(目前虽然在理论上可行，但是实际效果在影响因子求精上效果不太明显)。E1Vji表示E1中第j的事件向量中第i个元素，OP1ji与此类似。在本算法中E1Vji-E2Vji、OP1ji-OP2ji的“-”表示的是二进制字符串的异或操作。举例来说，公式的前半部分即为步骤(1)中的E1V1与E2V2、E1V2与E2V2中各对应属性值取异或值，然后计算平方和的开方之累积量，操作符的计算与之类似，不过在系统中操作符的影响因子设置比属性的影响因子要大得多。

该距离反映了事件、操作符编码后对应属性之间的带影响因子的欧氏距离之和，解决了本系统中规则和规则间、复杂事件和规则之间匹配程度量化计算问题。

此处的自动机逆向老化构建算法描述如下：

自动机逆向老化构建算法：

该算法作用于模块3.2复杂事件规律提取子模块中针对历史事件自学习过程中的以风险事件为事件终点的复杂事件转化为二进制串过程，及模块5.2复杂事件规则匹配子模块中的以当前事件为终点事件结合历史事件形成复杂事件进而转化二进制串过程中。该算法具体思想如下：

1：取样本。从历史交易数据库中取出最终被判定为风险的交易，然后以风险交易为末条交易逆时间序取滑动窗口所设置的同ACCID、同类型事件集，所取出的事件各属性均按照相同的属性序列进行排列。

2：进行事件编码。对于量化的数值型离散化，本系统采用二进制编码的方式，对于在逻辑上相邻的数据进行编码后两串的编辑距离为1，采用类似于格雷码，但不完全相同，创新在于属性值的逻辑距离等于属性值编码后的编辑距离。利用此特性，规则匹配可采用类似异或操作可便捷计算出双方的差异度。举例来说：

Attr_Value_1	0000
		Attr_Value_2	0001
Attr_Value_3	0011
		Attr_Value_4	1011
Attr_Value_5	1111

相邻两者之间的编辑距离为1，而如2与5的逻辑距离为3，二者对应的二进制串的编辑距离亦为3。该编码方式极大的提高了状态及自动机相似度求解的效率，该编码本系统称为编辑编码。在非关键属性位置以“？”填充，本系统中规定其与0、1的编辑距离均为0。

当事件的每个属性值都有自己的编码之后，每个类型的事件将会按照固定的顺序，将所有属性位属性值排列，继而完成对整个事件的编码工作。除此之外，每个事件默认还在事件编码尾记录本次事件自循环的次数，用于标示类似的事件在短时间内重复出现的次数，但终点事件(风险事件)是不记录循环次数的。

3：将复杂事件转为自动机。首先将风险事件压栈，该风险事件的风险系数将作为本条规则的风险系数，然后逆时间序依次取离栈顶元素最近的事件压入栈，栈底元素为DFA终点，栈顶为DFA起点，栈内元素为一个基本事件也即一个状态，每个事件原则上对应于DFA的一个状态。

在逆向构造自动机过程中通配符会出现在以下三种场景之中：

首先，与终点事件属性位相同者以通配符“？”替换，因为如果先验事件(非风险事件)某属性值与终点事件(风险事件)相同，说明本属性值很大可能对风险事件的发生起不到侦测性作用。本次替换是针对属性位的。

其次，然后针对前后事件对应属性位属性值差异通配替换。即如果相邻两个状态的编辑距离小于阈值，那么这两个状态进行合并(极端的情况如果连续遇到两个相同的状态是不做状态转移的，但会记录自循环的次数)，会在相异位改写为“？”，举例来说：状态1：00010010？？，状态2：00110010？？两个状态的编辑距离为1，假设小于阈值，二者将会合并为状态3：00？10010？？，但状态3将被记录循环2次。另外该思想良好的控制了自动机状态数目的增长，并增加了自动机的适应性。但终点事件是不进行该种替换的。本次替换是针对属性值的。

最后，针对范围大小的通配替换。举例来说，在提取规律时循环次数两次的标准编码为0011，但逆向构造自动机过程中将会被记录为？？11，如此以来，如果自循环了三次也会匹配完全匹配自循环两次的情形。因为在实际业务中，如果一个相似的行为重复出现N次预示有风险，如果该行为重复M(M＞N)次，亦预示风险。类似的通配还出现在金额、交易时间间隔等诸多属性上。

在相邻状态之间进行关系判定，默认为δ(T)→，即在T时间内的顺序发生，如果时间间隔T大于阈值，那么δ(T)将会消失，另外自动机亦可进行合并操作，如同时存在E1→E2→E末，E2→E1→E末两个状态机那么将会被合并为E1∩E2→E末。又如E2→E末，E1→E末同时存在，那么这两个状态机将会被规约到E1∪E2→E末。对于状态转移过程中逻辑操作符亦进行编码，也采用编辑编码的方式进行设定，并且在表示逻辑运算的二进制串前后以“，”隔开。

3.1：确定DFA的起点事件有两种情况：1：通过滑动窗口所取出的所有事件都已经进行编码。2：逆向生成的DFA时，在某一状态停留N次，即连续遇到N个相同状态，那么也视为自动机起点，如前所述这N个状态合并为一个状态。由于在执行中越靠近DFA终点事件的匹配结果所占权重要高于远离DFA终点事件匹配所占权重，故称为逆向老化。需要特别说明的是，对于被认定为风险事件的状态不进行与之前状态的合并，并且欺诈事件(即复杂事件的最末事件)和先验事件的具有差异的属性段对应的编码位置不会发生通配符‘？’的替换。

3.2：将状态机各状态及逻辑操作符依次按照3中的二进制编码进行顺序合并，完成对一个DFA实际属性值的编码规则，然后再根据实际属性值的自重点开始的变化形成针对差异的编码，一个编码序列对应于一条规则。

特别说明：若新发现的规则蕴含已有规则，则将蕴含规则对应的属性编码位在新规则中以’？’替换之。举例来说：新发现规则经变换为0000001100010000,00000001，0000001100001011，而？？？？？？？？？？？？0000,00000001，？？？？？？？？？？？？1011规则已经存在，那么该新规则将会转化为000000110001？？？？,00000001,000000110000？？？？。另外在生成事件集所代表的二进制串的同时本算法针对差异提出了记录状态变化的二进制串标记，举例来说：在根据上述算法逆向构建时，第一次出现的地域编码为A(0000)，第二次出现新的地域编码为B(0001)以此类推，由于产生规则，该种编码方式能够较准确的表述属性值的变化。除此之外，某类型下的事件属性都含有影响因子。

该算法具体流程如图11所示，该算法是后续算法的基础算法。

步骤(6)：根据所述步骤(5)中构造的二进制串与现有规则库采用自动机相似度距离算法进行匹配；通过复杂事件规则匹配子模块完成基于自动机相似度规则距离量化，同时触发多规则时多维影响度计算等相对复杂的操作。经过上述计算后，系统将会给调用者返回风险值，至此当前事件的规则匹配完成。用户可以根据此风险值确定相关行为，如阻断交易、追加认证或信任放行等操作。

下面将对步骤(6)中触发多条规则的处理算法进行描述：

复杂事件多规则冲突解决算法(多维影响强度衰减模型)：

该算法作用于模块5.2复杂事件规则匹配子模块中与当前事件近似匹配的规则对当前事件产生的影响度预估。该算法具体思想如下：

首先：当实时交易到达本系统对应模块后，根据ACCID及滑动窗口机制逆时间序取出若干条相关事件，参照自动机逆向老化构建算法为该次交易生成DFA，并生成对应的编码。

其次：将步骤(1)中生成的编码通过自动机相似度距离算法与现有的规则集计算编辑距离，取得低于阈值的M个DFA的集合，该集合即为本次事件所触发的多条规则，于是就有一个被触发的DFA集合对本次DFA的影响度问题。本系统中对多维影响强度衰减模型建模。

在建立该数学模型时，首先做了如下假设：

●风险度相同情况下距离目标DFA越近的规则起的作用越大；

●在相同距离下，规则的风险度越大，产生的影响也越大；

●同一规则的影响度随着距离的增长而减少；

●当距离趋向于无穷时，影响度极限趋近于0；

●根据领域知识影响度大约在影响度衰减至二分之一左右时，影响度衰减曲线存在衰减率拐点。

目标曲线大致如图13所示。

本系统针对此种假设提出多个数学模型，并经过验证发现如下数学模型匹配程度最高：

a_i是第i个被触发的交易规则的风险度的一半，

本次构建的DFA所触发的规则集数目，σ_i是曲线的横向拉缩比率，ε_i是第i个影响源的作用系数，在学习前默认值为1，μ为距离，即相似度的一种量化，μ_i是第i维峰值距离Y轴的量化，相似度越大距离越小反之越大。

进行回归验证时，该数学模型满足上述全部假设。通过建立不同距离，即更改μ的值，然后评估该距离下的风险值。为针对该数学模型确定最佳拟合参数，近似的建立多组离散点对，并经过matlab曲线拟合工具，验证得ε＝0.08，σ＝0.28时拟合曲线拟合率最高。如图14所示。

当前事件往往会触发距离小于阈值的多条规则，如图15中假定轴A、B、C、D...都存在对原点(当前事件)有影响的DFA规则，但存在每个轴上的曲线在原点的衰减是不同的，换句话说，与Y轴的交点值决定了对原点DFA的影响度。各个维度将会在原点上产生一个叠加影响，各维度影响之和即为所触发的冲突DFA规则集对本次事件风险度的估算值。在数学模型上，本系统将该集合每个规则的影响曲线归到不同维度。如图15。本文所论述的规则影响度为非常抽象的论述，根据历史事件中事实事件并经过分析产生比较有代表性的点集。

此外，本系统有足够的智力水平，能够通过BP神经网络、遗传算法等对规则进行数量和精度上的维护，对简单事件的处理也采用了响应算法，能够妥善精确计算处理此类事件风险系数及其简单事件规则库的维护，但此非本系统的核心创新，故不展开描述。对于简单事件规则学习和执行不作重点描述。

下面将通过一个具体实例来说明如何通过历史事件规律的学习形成规则，然后通过验证当前事件与已有规则的匹配程度来预估风险度。

规律挖掘和规则执行步骤如下：

步骤(1)：在数据库中存在如下一组历史数据，某账户用A地区ip网银支付，标记为事件E1。在短时间(如一小时)内，该账户用B地区ip网银支付，标记为事件E2。E2已被银行判定为欺诈行为，造成的损失量化为风险度为R。在发生E1事件之前，该账户大都在A地区进行网银支付行为。由于E2被标记为风险事件，且它的先验事件E1与之有显著的属性值变化，本系统认为E1、E2构成历史复杂事件。

步骤(2)：E1，E2为简单事件，E1，E2最终形成的有前后关系的事件集，组成复杂事件E3。另需说明，本系统中在涉及地域组成的复杂事件时，采用编码方式比较特殊，第一次出现的地域编码为A(0000)，第二次出现新的地域编码为B(0001)以此类推。本系统中除个别案件多发地域做出特别编码规定外，对于地域详细信息不做编码差异，地域编码仅仅针对差异编码，即编码记录地域变化。对于金额的编码也采用类似的方式，账户习惯金额及以下记为0000，如果为习惯金额的2倍记为0001,4倍记为0011，依次类推。

首先，进行事件编码及风险修正。事件各属性为(支付方式，时间，地点，金额，...)，因此事件E1(网银，9:00AM，A省，30k....)，事件E2(网银，9:30AM，B省，350k...)，假令A的支付习惯金额为30k。按照自动机逆向老化构建算法的步骤，经编码事件E1(0000，0011，0001，0000)，事件E2(0000，0011，0000，1011)，经过确定影响属性E1将被标记为(00000011000100000000)，E2被标记为(0000001100001011)，由于E2是终点事件，因此E2不与任何其他状态合并，对于先验事件与E2的差异属性编码段不能进行通配符替换，9-16位为关键属性编码位置，E1最末四位为其自循环的次数，对于E2终点事件是不记录循环次数的，0000代表本次事件在E2发生以前发生了一次，在进行逆向自动机构建时将会被编码为？？？？，如前文所述，多次出现能够匹配少次出现。为简化实例，后四位暂时不做记录。假使E1-＞E2过程中与已有规则ruleT匹配，即某次支付远远超过其习惯支付金额，该规则的风险为RT，假设该规则为(？？？？？？？？？？？？0000)-＞(？？？？？？？？？？？？1011):RT，即前述规律提取时触发了此规则，那么原R将会根据与已有规则的匹配程度进行减少风险RD，并把相对应的字段从复杂事件中剔除。该操作的目的是令每条规则蕴含的变化维度最少，尽可能的避免一条规则蕴含另一条规则。如果ruleT并不存在，那么将会产生规则蕴含的情况，但是随着自学习的积累，规则维护模块将会将复合规则分解。该模块机理比较简单，当出现匹配复合规则部分二进制串位置的复杂事件发生时将会进行分解操作。至此，在该场景下，事件模型被精化为E1：(000000110001？？？？)，E2(000000110000？？？？)风险度为R-RD。另需说明，根据自动机逆向老化理论，E2中的地域是在构建自动机时首次出现地域，因此其地域为0000，而E1的地域为0001。

步骤(3)：利用事件集逆向构建自动机，形成代表规则的二进制串。此步关键在于确定发生事件之间的前后逻辑关系，对于操作符，默认选取δ(T)→，前文中涉及的并操作符、或操作符往往只出现在规则维护模块中规则合并，提取规则时不涉及这类操作。前一步骤中的事件流根据自动机逆向老化构建算法，将会产生000000110001？？？？,00000001,000000110000？？？？:R-RD字符串，该规则标记为ruleD。需要特别说明的是，由于字符串是逆向生成的，终点是最先产生的，起点的确定主要是通过记录自循环次数及习惯事件的判定而得出的，算法描述部分针对此处有详尽论述；00000001前四位代表→操作符，即默认操作符，后四位代表时间间隔，采用类似地域差异的思路进行编码，本系统规定10分钟内为0000，1小时为0001，1天为0011，采用编辑编码的方式以此类推。如果该规则与已有规则相同和相似，则对已有规则进行风险值修正。另外该规则字符串随着该规则被触发次数的积累，规则库及维护模块将会精化影响关键属性，最终形成对结果起决定性作用的关键属性段。其实现机理如下：如本例中，事件编码中前八位代表事件属性：支付方式、时间，该规则经过多次被触发，发现支付方式、时间的变化频度较大，匹配次数较少，但是本规则的核心属性地域，每次被触发时都能匹配，因此地域属性将会被保留，而支付方式、时间对应的编码将会被规则维护模块以’？’代替。因此整个系统随着时间的积累，将会越来越有经验，规则的关键影响属性将会被保留，精度也会越来越高。

步骤(4)：当系统正常运行时，系统将会检测到新事件到达，本系统首先判断该事件是否为习惯事件，接下来判断是否是简单事件，最后进入复杂事件规则执行模块。本例就复杂事件进行论述。

假设某账户在12:00AM在地域A，以ATM方式取款20k，记为事件ER1；该账户在12:15AM在地域B，以柜台方式取款200k，记为事件ER2。ER1在发生时经判定其符合习惯行为，并放行。当正在发生ER2时，系统将会从历史交易数据库中取出ER1，形成复杂事件。

步骤(5)：进行事件编码。规则的执行发生在事中，ER1发生时经判断符合习惯行为，本系统放行。发生ER2时，本系统根据账户ID取出ER2的先验事件ER1。ER1编码为0001101100010001，ER2编码为0011101100001011。然后以ER2为终点事件，逆向构建自动机最终形成0001101100010001,0000？？？1，0011101100001011。在规则执行时需要特别说明的是对于时间间隔，10分钟的间隔编码将匹配1小时，1天等大于本身时间单位，因此此处的事件编码为？？？1用以匹配大于本时间间隔的所有时间单位。

步骤(6)：进行规则匹配。该二进制串匹配规则库中所有规则，该匹配过程是逆向的，也就是从终点开始向前匹配。发现其与前文中提及的规则ruleT(？？？？？？？？？？？？0000,00000011,？？？？？？？？？？？？1011:RT)、ruleD(000000110001？？？？，00000001,000000110000？？？？？？:R-RD)进行匹配时，根据自动机相似度算法计算在属性影响因子和操作符影响因子在默认值情况下与二规则的距离，分别求的与ruleT的距离DT＝1、与ruleD的距离DD＝2+√2＝3.41，且均满足阈值要求，因此这两条规则对该事件产生风险度影响。通过影响度衰减模型分别计算两条规则对该事件如果发生将产生的风险预估值，ruleT的对该事件的风险预估为0.08*RT³/(0.28²+RT²)，ruleD对事件的风险预估为0.08*(R-RD)³/((0.28*3.41)²+(R-RD)²)，然后计算二影响度的叠加值，产生最终风险预估。调用端将根据此风险预估值灵活确定风险应对策略，如追加二次验证，阻断交易等。

需要说明的是，规则库及维护模块在上述匹配及执行过程中，系统将会自动记录如下内容：1.实际风险值和预估值之间的差异，以备进行各影响因子修正；2.如果预估和实际风险值一致，将会记录本次匹配与那些属性进行了匹配，以备发现规则中的关键影响属性。

Claims

1.一种规律挖掘和执行系统，其特征在于所述系统包括五个模块：

事件识别模块；

事件元素编码、量化数据离散化模块；

规律提取模块；

规则库及维护模块；

规则匹配模块；

其中，所述规律提取模块还包括三个子模块：简单事件规律提取子模块、复杂事件规律提取子模块、习惯行为识别模块；

所述事件识别模块的输入，为历史交易数据和当前执行事件，输出为输入事件的类别及其事件对象或对象集；

所述事件识别模块对历史交易数据库中的事件或即将到来的事件进行定性分类，分为三类：简单事件、复杂事件、习惯事件；

所述事件元素编码、量化数据离散化模块，其输入为所述事件识别模块的对象或对象集，输出为输入对应的二进制字符串；

所述事件元素编码、量化数据离散化模块使用特有编码方式：基于编辑距离的差异编码；除将属性进行编码外，该模块还负责将量化的数据进行离散化，也就是对连续的属性值进行分段标记；

所述简单事件规律提取子模块，通过采用基于优化的FP树的Apriori算法对风险简单事件样本学习来产生规则，针对历史交易数据库中的被标记为风险简单事件进行规律发现，其目的为发现在风险简单事件中各属性值的出现情况，即为对属性值的频繁项集挖掘；

所述复杂事件规律提取子模块，针对蕴含时间逻辑的历史事件序列，发现前后事件之间的逻辑关系及属性值变化，进而挖掘规律，并经进一步编码后形成代表规则的含有通配符的规律二进制串，所述规则是规律提取后的表示形式；

所述复杂事件规律提取子模块采用自动机逆向老化构建算法，能够按照自动机理论，首先利用最末事件构建自动机终点，然后向前发现自动机始点，并对事件属性进行编辑编码，进而形成事件的编码，然后通过对比前后事件相应属性位或属性位的属性值，并判断各属性的重要程度及属性值之间的涵盖程度，最终得出前后事件的逻辑关系，完成通配替换后完成对事件集的二进制编码；

同时，所述复杂事件规律提取子模块还能针对某些属性位产生差异编码，即能够逆向跟踪某属性位的属性值变化的轨迹，根据差异生成编码，历史交易数据库中将会记录最终事件；

所述规则库及维护模块，执行简单事件规则库维护和复杂事件规则库维护；执行简单事件规则库维护，主要负责对在历史交易数据库中有风险的简单事件进行频繁项集挖掘后，对结果的整理和维护；执行复杂事件规则库，是对已有针对复杂事件的规则的数量求精和精度合并；

随着时间的积累，规则会越来越多，数据库中记录将会越来越多，为避免规则蕴含和规则重合现象的产生，所述规则库及维护模块，在新规则存到规则库之前通过与已有规则的对比来决定新规则对规则库产生的影响和定期根据某规则被执行的情况及其误判率来修正规则库；

其中，在决定新规则对规则库产生的影响时，是计算得出同类型下相应属性位之间的编辑距离，形成编辑距离集合，再依据属性位在二进制串中的位置，基于编辑距离集合生成表示新规则与已有规则差异的向量，继而计算新规则与已有规则之间的含影响系数的欧式距离；

所述规则匹配模块包括三个子模块：简单事件规则匹配子模块、复杂事件规则匹配子模块、习惯行为判定模块；

所述简单事件规则匹配子模块，当前事件如果被判定为简单事件，则会与规则库中简单事件规则进行对比，根据当前事件的属性值与频繁项集的匹配程度，给出风险预估；

所述复杂事件规则匹配子模块，根据风险事件规则对当前事件给出风险预估；首先取滑动窗口范围内的同账户事件形成事件集，当前事件作为事件集最终事件，根据自动机逆向老化构建算法，生成当前事件对应的复杂事件的二进制编码；然后再与已有规则进行匹配，从事件编码终点开始与规则终点开始，逆向匹配已有规则；再根据本系统提出的自动机相似度距离算法，该算法通过计算二进制串对应属性位而生成差异向量，根据此向量及向量各值权重能够计算出一种二进制字符串之间的类欧式距离，所述类欧式距离是在欧氏距离基础上赋予各标量不同影响系数的欧氏距离变体，最终能够求解与已有规则的距离，进而得到阈值距离范围内的匹配规则集，该规则集为当前事件所触发规则集合，即冲突规则集。

2.一种通过如权利要求1的规律挖掘和执行系统，进行规律挖掘和执行方法，其特征在于包含以下步骤：

步骤(1)：对历史事件中已被标记为风险的事件按其与先验事件的关系进行分类，进而识别复杂事件；如果风险事件和与之相关的先验事件集能够组合成为具有一定差异变化或集合大小大于某阈值的事件集，则组合而成的该事件集形成复杂事件；

步骤(2)：对所述步骤(1)中提取的复杂事件的每个事件进行编码，进而将事件集编码成为有序的编码集，在加入操作符之后完成复杂事件的粗粒度编码；在进行挖掘规律之前首先检验该事件是否与已有规则匹配，如果匹配程度高则转向规则库及维护模块，对与之匹配的规则进行精度修正、关键属性精化操作；否则转向步骤(3)；

步骤(3)：进一步精化所述步骤(2)中的粗粒度编码：将其规则化，包括对事件间操作符的界定、关键属性的取舍、前后事件间关键属性的属性值的通配替换、自动机起点确定，在该步骤中也会记录某一状态自循环的次数；

步骤(4)：系统正常运行时，将会监听新事件的到达，并判断当前事件与历史事件能否构成复杂事件；当新事件到达时，系统将当前事件作为终点事件，然后向历史交易数据库进行查询操作，如果能够形成事件集并能被识别为复杂事件则转向下一步；当前事件与邻近事件存在属性值差异或事件集容量大于某一阈值且当前事件为非习惯性事件时，则识别为复杂事件；

步骤(6)：根据所述步骤(5)中构造的二进制编码与现有规则库进行匹配；通过复杂事件规则匹配子模块完成基于自动机相似度规则距离量化，同时触发多规则时的多维影响度计算操作，所述多规则时的多维影响度计算操作具有如下性质：风险度相同情况下距离待度量目标越近的规则起的作用越大；在相同距离下，规则的风险度越大，产生的影响也越大；同一规则的影响度随着距离的增长而减少；当距离趋向于无穷时，影响度极限趋近于0；根据领域知识影响度大约在影响度衰减至二分之一左右时，影响度衰减曲线存在衰减率拐点。

3.如权利要求2所述的规律挖掘和执行方法，其中，在所述步骤(1)中设置用于获取事件流上下文的事件模型，进一步包括如下步骤：

步骤A)，本系统以账户为对象，形成针对某账户的事件集合，对于每个事件的表示为E＝(Eid，EType，ACCID，Ecode)，其中：

Eid：用来唯一标示事件的id，相当于数据库中的主键；

EType：统一的用来标示该事件所属类型，一个事件类型包含多个事件实例，本系统的挖掘都是基于交易类型的，因此所有的行为模式识别都是在EType维度上进行规约的；一个事件类型对应的事件属性序列是统一的；

Ecode：每个事件包含很多个能够刻画对象特征发生的网络地址、位置、时间、交易金额的数据，这些信息应该按照合理的方式被记录在E中；但是由于数据格式的不一致性，需要对事件的各个关键属性进行编码，包含属性的裁剪精化，将能够影响结果的属性数最小化；对于事件编码，根据各个事件的影响属性数值规约，然后进行顺序编码，若为非影响属性位或涵盖属性值以“？”占位；

步骤B)，设置状态之间转换的操作符，其中包括逻辑操作符，状态是事件的表示符号：

设置一：且操作符∩，为二元运算符；E1∩E2，E1、E2为简单事件，DFA中标记为状态，表示E1、E2都发生的复杂事件，无时序；

设置二：或操作符∪，为二元运算符；E1∪E2表示E1、E2至少一个发生的复杂事件，无时序；

时间操作符：

设置三：时序运算符→，为二元运算符；E1→E2表示E1发生后E2才发生复杂事件；

设置四：时限运算符δ，与其他运算符结合使用；E1δ(T)→E2表示E1发生后在T时间内E2也发生复杂事件；

步骤C)，对历史交易数据库中的事件进行分类，首先提取有风险的历史事件，逆时间序向前提取同账户事件，如果能够形成有上下文语意的事件集，即复杂事件，作为下一个步骤的输入；若未能生成事件集那么则构成有风险的简单事件。