CN104408584B

CN104408584B - 一种交易关联性的分析方法及系统

Info

Publication number: CN104408584B
Application number: CN201410797686.1A
Authority: CN
Inventors: 朱浩; 曹新平; 莫登嵩; 刘国兴; 周帅; 姚琥; 谢之波; 张虎
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2017-11-03
Anticipated expiration: 2034-12-18
Also published as: CN104408584A

Abstract

本发明公开了一种交易关联性的分析方法，包括：导出并存储目标交易报文；第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；第二次遍历，利用最简拆分模式集合中的拆分模式对相应的私有报文进行拆分；第三次遍历，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素内的比较结果满足预定条件时，确定所述两个交易间具有关联性；构建网络图，并以交易作为节点，交易之间的关联性作为有向边。

Description

一种交易关联性的分析方法及系统

技术领域

本发明涉及数据挖掘领域，特别是涉及一种交易关联性的分析方法及系统。

背景技术

随着银行业务广度和深度的不断扩展，银行业内涉及的后台交易有数千种之多，每种后台交易均有用于刻画交易属性等的交易报文，而交易报文通常由公有报文和私有报文两部分组成。其中，公有报文是所有交易所共有的，一般包括如系统资源请求、日志号等公有字段；私有报文为执行具体交易时，所需的如当前业务属性、客户隐私信息与交易执行相关的专用字段，各交易之间在这些专用字段上并不具备公有特征。

单条交易报文尤其是私有报文可以直观地刻画一次后台交易本身的行为，但其应用范围却十分有限，而更多有意义、高价值的数据是存在于各种交易之间构成的依赖关系或关联性上，这是因为交易关联性不仅生动地反映了具体客户本身及客户之间的交易行为、关系，而且如果在添加适当约束、规则的前提下，还可从中分析获取机构内业务的运营流程。

交易关联性对于金融机构而言是一笔不可多得的财富。因此挖掘并分析各个后台交易报文之间的交易关联性有重大的实际意义，如果在实际生产中，能高效的获取后台交易之间的关联性，将对分析、优化行内的交易流程以及业务流程十分有利；一般而言，交易之间的关联性体现在私有报文内，然而，由于各种后台交易报文的私有报文无论是在数据格式，还是在长度上均可能存在差异，且客户的行为是多变的，要想获取、存储全部的私有报文格式不仅时间、空间代价较高，而且协调多个项目组的后台交易也存在较大的人力成本。

因此，如何能高效的获取后台交易之间的关联性，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种交易关联性的分析方法，该方法能够高效的获取后台交易之间的关联性；本发明的另一目的是提供一种交易关联性的分析系统。

为解决上述技术问题，本发明提供一种交易关联性的分析方法，包括：导出并存储目标交易报文；

第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式，若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；

对填充后的多级哈希表内的拆分模式进行归约，获得最简拆分模式集合；

第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；

第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两条交易之间具有关联性。

利用所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图。

其中，所述导出并存储目标交易报文包括：利用公有报文筛选出指定的关键数据或关键字段，将所述关键数据或关键字段导出并存储。

其中，所述确定所述私有报文对应的拆分模式包括：

所述私有报文在拆分过程中，形成多个片段，而这些片段在所述私有报文内的起始位置，一一对应的形成了多个子模式；

所述多个子模式，构成了所述私有报文的拆分模式，即所述私有报文的拆分模式为所述子模式的一个集合；

所述若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表包括：

依次分析各私有报文，根据交易码，按级查询多级哈希表，当存在私有报文的拆分模式不存在时，在多级哈希表内填充该拆分模式。

其中，所述对多级哈希表内的拆分模式进行归约，获得最简拆分模式集合包括：

按级遍历多级哈希表，获取每个同一交易码下所对应的一个拆分模式集合；

将每一个所述拆分模式集合内的两个拆分模式进行比较，其中，一个拆分模式内的各子模式与另一个拆分模式内的各子模式逐条比较，取两个子模式之间的交集，并对区间范围大的子模式进行拆分，并插入所述大区域的子模式的子集合内，其中，区间范围大是两个子模式中起始位置跨度大的那个子模式；

每个同一交易码下对应的一个拆分模式集合比较完成后，获得各交易对应的最简拆分模式，并最终获取最简拆分模式集合。

其中，所述将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个片段元素间具有关联性包括：

将前序私有报文和后序私有报文利用所述拆分结果进行拆分后的片段集合内的片段元素进行逐条比较；

当当前片段元素比较结果一致，则在两个片段元素之间添加表示关联性的边，并更新边中的关联属性，且将第一条私有报文和第二私有报文同时进行下一个片段元素的比较；

当当前片段元素比较结果不一致，则将第一条私有报文的当前片断元素与第二私有报文的下一个片段元素进行比较。

所述构建网络图之前还包括：

定义规则，用于对交易之间的关联性进行筛选和压缩；

所述构建网络图包括：

网络图中每一个节点代表一笔交易报文，根据所述定义的规则，对交易私有报文内各片段之间的关联性进行筛选和压缩后，建立存在关联性的交易节点之间的连接关系。

所述构建网络图还包括，网络图迭代，所述网络图迭代的方法包括：

交易的发生存在时间序关系，迭代过程中将时间序靠前的网络图中出度为0的交易节点，与时间序靠后的网络图中入度为0的交易节点之间的关联性。

所述构建网络图后还包括构建业务网络图，其中，构建业务网络图包括：

在网络图的基础上，根据交易码对各交易进行聚类，形成业务网络图的节点集合；

根据各交易之间关联性，归集各类交易之间的关联性，并删除冗余边。

本发明提供一种交易关联性的分析系统，包括：

其中，准备模块，用于导出并存储目标交易报文；

第一次遍历模块，第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式，若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；

归约模块，用于对多级哈希表内的拆分模式进行归约，获得最简拆分模式集合；

第二次遍历模块，用于第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；

第三次遍历模块，用于第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个交易间具有关联性。

网络图模块，用于所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图。

基于上述技术方案，本发明所提供的交易关联性的分析方法及系统，导出并存储目标交易报文；第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式，若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；对填充后的多级哈希表内的拆分模式进行归约，获得最简拆分模式集合；第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个交易间具有关联性。利用所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图。通过该方法能够高效的获取后台交易之间的关联性；且降低了存储资源的开销，能够最大可能的找到各个交易之间的潜在的全部关联性。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的交易关联性的分析方法的流程图；

图2为本发明实施例提供的交易关联性的分析方法中获得最简拆分模式集合的流程图；

图3为本发明实施例提供的交易关联性的分析方法中确定所述两个片段元素间具有关联性的流程图；

图4为本发明实施例提供的交易关联性的分析方法中片段元素的存储结构图；

图5为本发明实施例提供的交易关联性的分析方法中的示意网络图；

图6为本发明实施例提供的交易关联性的分析方法的中构建后台业务网络图的结果示意图；

图7为本发明实施例提供的交易关联性的分析系统的结构框图；

图8为本发明实施例提供的准备模块的结构框图；

图9为本发明实施例提供的第一次遍历模块的结构框图；

图10为本发明实施例提供的归约模块的结构框图；

图11为本发明实施例提供的第二次遍历模块的结构框图；

图12为本发明实施例提供的第三次遍历模块的结构框图；

图13为本发明实施例提供的交易关联性的分析系统的再一结构框图。

具体实施方式

本发明的核心是提供一种交易关联性的分析方法，该方法能够高效的获取后台交易之间的关联性；本发明的另一目的是提供一种交易关联性的分析系统。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

银行业内各企业涉及的后台交易有数千种之多，而如果在实际生产中，如果能高效的获取后台交易之间的关联性，将对分析、优化行内的交易流程以及业务流程十分有利；但目前没有系统的解决方案，因此，本发明提出了一种交易关联性分析的方法，该方法以私有报文的二进制为源数据来进行的分析，进而得到交易关联性，交易关联性不仅生动的反映了具体客户本身及客户之间的交易行为、关系，甚至可以从中分析获取机构内业务的运营流程。这里我们可以看到由于是以报文的二进制数据作为直接的处理对象，因此，算法不必依赖数据库的条件查询来实现，可直接在源数据层面进行分析。

每种交易码下的私有报文本身就可能存在多种字段格式，且受限于待分析的日间生产数据，存在报文拆分模式的数量是不确定的，因此本发明是分三次对全部的私有报文进行遍历。

请参考图1，图1为本发明实施例提供的交易关联性的分析方法的流程图；该方法可以包括：

步骤s100、导出并存储目标交易报文；

所述目标交易报文为从实际生产的环境中，导出后台交易的实际输入报文，并以二进制进行存储。

所述目标交易报文由公有报文和私有报文组成，而交易之间的关联性一般隐藏在私有报文中，但由于私有报文内的各字段是根据具体交易设定，通常对于非交易开发人员而言是未知格式规范的，除此之外，每笔交易根据实际的业务场景，并非全部的字段内均被填充有效数据，因此私有报文通常是以非连续的二进制码流的形式存在的，由多个离散的数据片段组成。

根据全部后台交易的交易码，建立用于存储各种交易私有报文拆分模式的多级哈希表；

其中，所述多级哈希表是一种数据结构，它可以提供快速的插入操作和查找操作。一般的线性表，树中，记录在结构中的相对位置是随机的，即和记录的关键字之间不存在确定的关系，因此，在结构中查找记录时需进行一系列和关键字的比较。这一类查找方法建立在“比较“的基础上，查找的效率依赖于查找过程中所进行的比较次数。这里构建哈希表是为了快速查询以及聚类相同交易码下私有报文拆分模式集合。

所述多级哈希表的构建方法为：

假设交易码TR_COD字段占用n+1个字节，其中第n个字节为结束符，基于此种数据结构特征，本发明可以建立二级哈希表，建立方法如下：

以TR_COD[0～n/2]构成的字符串计算出2个字节哈希值，作为第一级索引，构成的哈希键；

以TR_COD[n/2+1～n]构成的字符串计算出2个字节哈希值，作为第二级索引，构成的哈希键；

在二级哈希表创建完成后，通过上述方法依次对目标交易报文进行遍历，逐步向二级哈希表内添加各类交易的拆分模式，完成对二级哈希表的填充。

步骤s110、第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式，若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；

在第一次遍历所述目标交易报文中的私有报文部分的过程中，按照确定所述私有报文对应的拆分模式，将私有报文进行拆分，此处：读取一笔交易的私有报文，利用空格、TAB等导致私有报文非连续化的特征字符，对私有报文进行拆分；拆分后，该条私有报文就具有了多个报文片段，而每个片段在私有报文内的起始位置代表了一种拆分模式内的一个子模式；本发明定义的拆分模式为ModSet:{mod1,mod2,....,modn}，其中modi(i＝1,2...,n)对应的属性为{from,to}，from为modi在当前私有报文内的起始位置，而to则代表结束的位置，其中modi(i＝1,2...,n)即为拆分模式内的片段集合，所有片段集合{mod1,mod2,....,modn}形成的拆分模式为ModSet。这里可以将{mod1,mod2,....,modn}内各子模式对应的属性串连为双向链表；

根据当前交易的交易码，按级查询多级哈希表后，判断当前拆分模式是否已存在多级哈希表中，如不存在多级哈希表中，则存储该拆分模式；然后进行下一个私有报文的分析；

步骤s120、对填充后的多级哈希表内的拆分模式进行归约，获得最简拆分模式集合；

其中，第一次遍历的过程中，是空格、TAB等导致私有报文非连续化的特征字符进行拆分，仅仅是根据私有报文的离散性进行了最直观的拆分，而这样的拆分粒度过于粗糙，并不利于下一步的关联性分析。以下述两个报文片段为例：假设‘FFFF’交易中存在如下两段私有报文1和2。报文1被拆分为3个片段，这三个片段构成了报文1的片段结合，报文2则因不存在关键特征只包含一个片段，直观上来看，两者之间在拆分模式上并不存在共性。正如前文所述，私有报文也是格式化的数据，而针对同一交易码下的不同交易报文格式是存在共性的，也就是说，报文1内的拆分模式例如{{1,1},{3,3},{5,27}}也是可以被报文2所沿用，由此可见，例如报文2的拆分模式内的子模式{0,21}，通过与报文1所述拆分模式的三个子模式进行规约，并形成如下拆分模式：

{{0,0},{1,1},{2,2},{3,3},{4,4},{5,21}}；

因此对填充后的多级哈希表内的拆分模式进行归约，获得最简拆分模式集合，是非常有必要的；且最后归约后的最简拆分模式，仍可在程序结束后，以文件的形式进行存储，以便于针对新的生产数据进行分析。

归约聚类的过程是针对相同交易码下，私有报文拆分模式的聚类，这源于实际生产数据中，获得的一天或多天的交易报文，但交易的类型却取决于当时客户的行为，而这是离散分布的。

步骤s130、第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；

步骤S140、根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；

其中，在第二次遍历所述目标交易报文中的私有报文，要利用最简拆分模式集合中的拆分模式对相应的私有报文进行拆分，即每个私有报文具有与其相对应的拆分模式，在最简拆分模式集合中找到该最简拆分模式对该私有报文进行拆分，若拆分后有新的片段集合产生则将该新的子模式添加到其拆分模式中，即在拆分模式ModSet内增加新的节点modi到相应的位置；并最终形成新的拆分模式，这里将新的拆分模式叫为拆分结果。

其中，标报文进行第二次遍历，对各条目标报文中私有报文进行逐条分析；根据当前所分析的交易报文对应的交易码，从最简拆分模式集合中选取其所对应的最简拆分模式；基于所述最简拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内。

步骤s150、第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个交易间具有关联性；

步骤S160、利用所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图。

其中，在第三次遍历所述全部目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行逐条比较。这些目标交易报文由于前台提交的时间不同，存在序关系。假定prev代表当前交易报文的前序交易报文，next代表当前交易报文的后序交易报文。以下述为例，逐条比较交易A与交易B之间的私有报文内片段集合内的各元素，当A、B之间不存在任何片段相同，继续进行A与B的后序交易报文，即next之间的关联性分析；否则，继续进行A的后序交易报文，即next与B关联性之间的分析。

经过这一次遍历，则完成了各个交易的私有报文之间的关联性分析，可以在各个具有关联性的片段元素之间建立代表关联关系的关联边，建立交易报文之间关联性的结构。

优选的，所述导出并存储目标交易报文包括：利用公有报文筛选出指定的关键数据或关键字段，将所述关键数据或关键字段导出并存储。

由于并非所有字段的后台交易报文在本发明中都是有益的，因此，进行关联性分析之前，需要筛选并导出关键数据或字段，其中，关联关键数据或字段后面都对应相应的私有报文，即相当于，将有利于以后分析所需要的那部分私有报文导出，这样做可以在很大程度减少关联性分析的时间，因为已经除去了许多没有意义的字段数据；如下所示，表1列举了业内各企业均适用的关键字段，通常存放于公有报文，及其在本发明所述方案内的用途。

表一

字段	用途
		交易码	后续业务流分析
柜员号	交易关联性分析
		交易行号	交易关联性分析
交易行省市代码	交易关联性分析
		私有报文	交易关联性分析
超长报文	交易关联性分析

关键字段

将所述关键数据或关键字段导出并存储，即将相应的私有报文数据段导出并存储。

可选的，所述确定所述私有报文对应的拆分模式包括：

将所述私有报文拆分为数个片断，各私有报文的所有片断集合为各私有报文的拆分模式；

其中，所述拆分模式是利用空格、TAB等导致私有报文非连续化的特征字符来进行首次区分，并利用这些拆分模式将私有报文拆分为数个子模式，将所有子模式集合即为各私有报文的拆分模式。

其中，这里是构建的二级哈希表，完成对二级哈希表的填充。

其中，将所述私有报文拆分的过程中，形成多个片段，而这些片段在所述私有报文内的起始位置，一一对应的形成了多个子模式；所述多个子模式，构成了所述私有报文的拆分模式，即所述私有报文的拆分模式为所述子模式的一个集合；所述私有报文可以看成一个由多个片段构成的片段集合，而所述片段为所述片段集合内的一个片段元素。

可选的，图2给出了本发明实施例提供的交易关联性的分析方法中获得最简拆分模式集合的流程图；参照图2，获得最简拆分模式集合的方法可以包括：

步骤s200、按级遍历多级哈希表，获取每个同一交易码下所对应的一个拆分模式集合；

其中，所述拆分模式集合为所述每一个交易码下各交易私有报文的拆分模式的集合；

例如，按级遍历哈希表，获取所记录当前交易码TR_COD即同一交易码下对应的多个拆分模式集合{ModSet1,ModSet2,...,ModSetn}，n为已获取模式的个数。

步骤s210、将所述一个拆分模式集合内的两个拆分模式进行比较，其中，一个拆分模式内的各子模式与另一个拆分模式内的各子模式逐条比较，取两个子模式之间的交集，并对区间范围大的子模式进行拆分，并插入所述大区域的子模式的子集合内，其中，区间范围大是两个子模式中起始位置跨度大的那个子模式；

例如，这里的拆分模式即为ModSeti，即将ModSeti(i＝1,2,...,n)内的子模式逐条与ModSetj(j＝i+1,...,n)内的子模式中的每一个子模式中的from与to值进行比较；

取拆分模式之间的交集，并对大区域的子模式进行拆分，并插入所在ModSet内；其中，区间范围大即为相比较的两个子模式中from与to跨度大的那个子模式，将这个子模式进行拆分，即相当于在该子模式内增加若干个节点，将一个子模式分若干个子模式，即将一个from与to值进行拆分，形成几个小from与to的值，并放在拆分模式的相应位置内；

步骤s210结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；

步骤s220、每个同一交易码下对应的一个拆分模式集合比较完成后，获得各交易对应的最简拆分模式，并最终获取最简拆分模式集合。

其中，遍历完成后，获取公约模式，算法结束，获得最简拆分模式集合。

可选的，本发明实施例提供的交易关联性的分析方法中确定所述两个片段元素间具有关联性的流程图；参照图3，确定所述两个片段元素间具有关联性的方法可以包括：

步骤s300、将前序私有报文和后序私有报文利用所述拆分结果进行拆分后的片段集合内的片段元素进行逐条比较；

其中，假定，prev代表当前交易报文的前序交易报文，next代表当前交易报文的后序交易报文，A、B为两条待进行关联性分析的交易报文的私有报文，且A为所述前序私有报文，B为所述后序私有报文。以下述为例，逐条比较交易A与交易B之间的私有报文内片段集合内的各元素。

步骤s310、当当前片段元素比较结果一致，则在两个片段元素间添加表示关联性的边，并更新边中的关联属性，且将第一条私有报文和第二私有报文同时进行下一个片段元素比较；

其中，如果当前片段元素一致时，则判断当前两笔交易之间是否已添加表示关联性的边，否则重新添加表示关联性的边，判断两条交易的上一片段元素是否相同，如果是，则更新边中的关联属性；最后，将第一条私有报文和第二私有报文同时进行下一个片段元素的比较。

步骤s320、当当前片段元素比较结果不一致，则将第一条私有报文的当前片段元素与第二私有报文的下一个片段元素进行比较。

其中，如果当前片段元素不一致，则将第一条私有报文的当前片段元素与第二私有报文的下一个片段元素进行比较；

可选的，图4给出了本发明实施例提供的交易关联性的分析方法中片段元素的存储结构图；参照图4，可清晰看到数据存储的结构，以及各个交易之间的关联性；

在上述过程中，完成了对交易报文关联性分析，为了更清晰的表达这些关联关系，以及更好的提高报文存储模块组织和管理报文片段，以及片段直接的关联性，可以利用如图4的结构进行存储；其中，水平的实线双向链表示了各个交易内私有报文的片段集合内各个片段元素之间的双向关系；虚点双向链表示了各个交易之间的关系，可用来查询以及遍历等；各个交易之间的实线双向链表示了各个交易内私有报文拆分的片段集合内各个片段元素之间存在关联关系的片段元素。

如图4水平的实线双向链所示，从head节点横向至tail节点构成了一条双向链表，它用于存储具体一条后台交易的全部私有报文片段，其中节点nodei{i＝1,..,n}代表私有报文片段i，且片段i在私有报文域内的起始位置对应当前拆分模式内的一个元素。

如图4虚点双向链所示，从第一笔交易的head节点纵向至最后一笔交易的head节点构成了一条双向链表，它用于遍历全部目标生产数据的交易报文；

如图4各个交易之间的实线双向链所示，它代表了不同后台交易之间存在的关联性，在本发明中被定义为关联边。这些关联边与上述两种情况中链表结构具备不同的属性，应用场景也不尽相同，因此，它们之间是不连通的。本发明中建立所述结构的原因在于：

第一、不同交易的私有报文的域结构并不统一，且交易种类可能成千上万种，在当前条件下，无法根据交易码穷举所有格式，并将各域划分的足够明确，而只能根据关键特征对私有报文进行多次拆分。

第二、任意一条交易报文链内的一个node节点均有可能和其他交易报文链内多个node节点存在关联性，或与另一个node节点存在多种不同性质的关联性。

为了更好地使获得的各交易之间的关联性得到更好地利用，获得更大的价值；因此在上述分析方法的基础上还包括构建网络图；

可选的，所述构建网络图之前还包括：

定义规则，用于对交易之间的关联性进行筛选和压缩。

通过上述两个过程，各个交易之间的实线双向链用于连接两笔交易报文中相同的片段，也就说两笔存在关联性的交易之间可能存在一条或多条关联边。然而，这些已存在的关联边中，可能由于片段长度，或片段原本就是毫无意义而造成冗余，因此，本发明在构建网络图之前，还对所述结构中的关联边根据行业背景设定筛选和压缩规则，以下为一个示例：

规则一：一笔交易能与不同于自身的，且至多一笔交易存在直接关联性；

规则二：假设导致交易之间存在关联性的关键词如：银行卡号、证件号等的最小长度为min，那么存在关联性的报文片段的长度必须大于或等于min；

规则三：存在关联性的任意两笔交易，必须满足执行时间的先后关系。

经上述规则设定的约束后，本发明从所述的结构内抽象出最终的关联关系，并形成网络图SocialNet；SocialNet是一个有向无环图；在SocialNet中包括三个要素：G(SocialNet)＝(V(G),E(G),φ(G))；

第一个要素为节点集合，节点集合V(G)＝{v1,v2,v3…vn}，vi与独立的交易一一映射并被其属性刻画，vi的出度和入度均不超过1；其中，出度和入度的定义为：在有向图中，度又分为入度和出度，其中，入度：以某顶点为弧头，终止与该顶点的弧的数目称为该顶点的入度；出度：以某顶点为弧头，起始与该顶点的弧的数目称为该顶点的出度；在某顶点的入度和出度的和称为该顶点的度。

第二个要素为边集合，边集合E(G)＝{e1,e2,e3…en}，若ei＝{<vj,vk>|vj,vk∈V(G)}，则ei是一条以vj为初节点，以vk为终节点的有向边，它描述了vj,vk之间存在的一种或多种关联性，且这些关联性是经过筛选，有效的。

其中，边集合E(G)内的每个元素均具备独立属性，这些属性即为导致关联性的私有报文片段；

第三个要素为关联函数，关联函数φ(G)描述了边与节点之间的关联关系E→V×V，SocialNet中V(G)内各节点元素之间至多存在一条边，因此，φ(G)是单映射的；

其中，E(G)中边元素的有向性说明了初节点，终节点在执行顺序上的唯一性。如果多个边元素以及边的关联关系属性可组成vm→vn的一条通路或者路径，则称vm与vn可达。

请参照图5，图5为本发明实施例提供的交易关联性的分析方法中的示意网络图；所述结构中抽象出的一个实例，其中{A1,A2}、{B1,B2,B3,B4}、{C1,C2}、{D1}代表四类交易中不同的交易报文，从图中可以看到，如节点集合{A1,B3}内的元素的入度均为0。

可选的，所述构建网络图包括：

网络图中每一个节点代表一笔交易报文，根据所述定义的规则，对交易私有报文内各片段元素之间的关联性进行筛选和压缩后，建立存在关联性的交易节点之间的连接关系。

可选的，所述构建网络图还包括：网络图迭代，其中，所述网络图迭代包括：

其中，例如，在构建交易网络图的过程中，并非需要每次都需要对所有节点均进行关联性分析。比如说，4月19日日切批量执行后，已建立当日全部的交易的关联性，如果4月20日时我们需要分析这两天全部交易之间的关联性，仅需对4月20日全部交易进行关联性分析，然后，迭代4月19所有出度为0的节点与4月20日全部入度为0的节点之间的关联性；因此进行图迭代是一个既方便又快捷的方法。

其中，构建业务网络图包括：在网络图的基础上，根据交易码对各交易进行聚类，形成业务网络图的节点集合；根据各交易之间关联性，归集各类交易之间的关联性，并删除冗余边。

这里以图6为例进行构建业务网络图的说明，图6为本发明实施例提供的交易关联性的分析方法的中构建后台业务网络图的结果示意图；参照图6进行说明，业务网络图是SocialNet聚类后的结果，以图5为基础图进行说明，具体步骤如下所示：

1、根据交易码对单笔交易进行聚类，形成业务网络图的节点集合{A,B,C,D}，即代表了四类交易；

2、根据单笔交易之间关联性，归集各类交易之间的关联性，并删除冗余边；

3、操作结束后，即形成如下图6所示的后台业务网络图TSocialNet，而图中的有向边代表了不同交易类型之间存在的关联性。

其中，本发明建立的业务交易网络图TSocialNet，它是一个有向有环图。在TSocialNet中，G(TSocialNet)＝(V(G),E(G),φ(G))，其具体属性如下所示：

第一个要素为节点集合，节点集合V(G)＝{v1,v2,v3…vn}，vi与后台交易码一一映射，并被生产数据如交易金额等刻画(在筛选过程，通过特殊判断可获得)，vi的出度和入度均大于等于0；

第二个要素为边集合，边集合E(G)＝{e1,e2,e3…en}，若ei＝{<vj,vk>|vj,vk∈V(G)}，则ei是一条以vj为初节点，以vk为终节点的有向边，它描述了vj,vk之间存在的一种或多种关联性；

其中，E(G)中边元素的有向性说明了初节点，终节点之间的调用关系，如果利用后序优先算法从节点vj开始搜索全部到出度为0的vk节点的全部路径，那么即可获得交易j到k的全部可能调用行为。

第三个要素为关联函数，关联函数φ(G)与SocialNet得不同，它既不是单射也不是满射，这意味着它存在着方向不同的重复边；

通过关联性分析，网络图的构建可以尽可能的探索出各笔交易之间的关联性与业务流，并基于所获得的关联性建立交易之间的网络图。在此网络图的基础上，通过图同构、分析、遍历可获取资金流向、分布，并辅助对各类资产和负债进行预测、组织、调节。通过添加如银行卡等线索，可获特定账户的资金流向，实现监控。

基于上述技术方案，本发明所提供的交易关联性的分析方法及系统，导出并存储目标交易报文；第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式，若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；对填充后的多级哈希表内的拆分模式进行归约，获得最简拆分模式集合；第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个片段元素之间具有关联性；通过该方法能够高效的获取后台交易之间的关联性；且降低了存储资源的开销，能够最大可能的找到各个交易之间的潜在的全部关联性，其中，在此基础上又进行了网络图和业务网络图的构建，更深层次的进行了，对交易报文的利用，获得了更大的实用价值。

本发明所提供的交易关联性的分析方法，可以通过上述方法进行交易关联性的分析。

下面对本发明所提供的交易关联性的分析系统进行介绍，下文描述的交易关联性的分析系统与上文描述的交易关联性的分析方法可相互对应参照。

图7为本发明实施例提供的交易关联性的分析系统的结构框图；参照图7交易关联性的分析系统可以包括：

准备模块100，用于导出并存储目标交易报文；

第一次遍历模块200，用于第一次遍历所述目标交易报文中的私有报文，确定所述私有报文对应的拆分模式，若所确定的拆分模式在所构建的多级哈希表中不存在，则将所确定的拆分模式填充入多级哈希表；第一次遍历结束后，所述目标交易报文中私有报文均被拆分为多个片段，而所述多个片段构成了每笔交易的片段集合内的片段元素；

归约模块300，用于对多级哈希表内的拆分模式进行归约，获得最简拆分模式集合；

第二次遍历模块400，，用于第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；

第三次遍历模块500，用于第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个片段元素之间具有关联性；

网络图模块600，用于所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图。

图8为本发明实施例提供的准备模块的结构框图；参照图8准备模块可以包括：

导出单元110，用于导出目标交易报文；

这里的目标交易报文可以是所需要的交易报文完整的公有报文和私有报文；也可以是根据关键字段等筛选出来的所需要的私有报文进行导出。

存储单元120，用于存储目标交易报文，以及每次遍历后形成的具有拆分模式的数据以及所获得的关联性。

其中，存储单元一方面用于存储交易报文的内容，另一方面也存储了进行关联性分析所获得的报文之间的关联性。

图9为本发明实施例提供的第一次遍历模块的结构框图；参照图9第一次遍历模块还可以包括：

确定单元210，用于将所述私有报文拆分为数个子模式，各私有报文的所有子模式集合为各私有报文的拆分模式；

填充单元220，用于依次分析各私有报文，根据交易码，按级查询多级哈希表，当存在私有报文的拆分模式不存在时，在多级哈希表内填充该拆分模式。

图10为本发明实施例提供的归约模块的结构框图；参照图10归约模块还可以包括：

获取单元310，用于按级遍历多级哈希表，获取每个同一交易码下所对应的一个拆分模式集合，每笔交易的私有报文都被拆分为多个片段，而这些片段构成了每笔交易独立的片段集合，且这些片段对应为所述片段集合内的片段元素；

归约单元320，用于将所述一个拆分模式集合内的相邻两个拆分模式进行比较，其中，一个拆分模式内的子模式与另一个拆分模式内的子模式逐条比较，取两个子模式之间的交集，并对大区域的子模式进行拆分，并插入所述大区域的子模式的子集合内，其中，大区域是两个子模式中长度大的那个子模式；每个同一交易码下对应的一个拆分模式集合比较完成后，获取最简拆分模式集合。

图11为本发明实施例提供的第二次遍历模块的结构框图；参照图11第二次遍历模块还可以包括：

第二次遍历单元410，用于第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内。

图12为本发明实施例提供的第三次遍历模块的结构框图；参照图12第三次遍历模块还可以包括：

比较单元510，用于将第一条私有报文和第二私有报文利用所述片段集合进行拆分后的片段元素内的数据进行逐条比较；

判定单元520，用于当当前片段元素内的数据比较结果一致，则在两个片段元素之间添加表示关联性的边，并更新边中的关联属性，且将第一条私有报文和第二私有报文同时进行下一个片段元素的比较；当当前片段元素内的数据比较结果不一致，则将第一条私有报文的当前子模式与第二私有报文的下一个片段元素进行比较。

图13为本发明实施例提供的交易关联性的分析系统的在一结构框图；参照图13交易关联性的分析系统还可以包括：

业务网络图模块700，用于构建业务网络图。

本发明所提供的交易关联性的分析系统，可以通过上述系统进行交易关联性的分析。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的交易关联性的分析方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种交易关联性的分析方法，其特征在于，该方法包括：

导出并存储目标交易报文；

第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式，对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；

根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；

第三次遍历所述目标交易报文中的私有报文，将任意两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个交易间具有关联性；

利用所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图；

其中，所述确定所述私有报文对应的拆分模式包括：

所述对多级哈希表内的拆分模式进行归约，获得最简拆分模式集合包括：

所述拆分模式集合为所述每一个交易码下各交易私有报文的拆分模式的集合；

将每一个所述拆分模式集合内的两个拆分模式进行比较，其中，一个拆分模式内的各子模式与另一个拆分模式内的各子模式逐条比较，取两个子模式之间的交集，并对区间范围大的子模式进行拆分，并插入大区域的子模式的子集合内，其中，区间范围大是两个子模式中起始位置跨度大的那个子模式；

每个同一交易码下对应的一个拆分模式集合比较完成后，获得各交易对应的最简拆分模式，并最终获取最简拆分模式集合；

所述将任意两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个片段元素间具有关联性包括：

将前序私有报文和后序私有报文利用拆分结果进行拆分后的片段集合内的片段元素进行逐条比较；

当当前片段元素比较结果不一致，则将第一条私有报文的当前片段元素与第二私有报文的下一个片段元素进行比较；

所述抽象规则是指对所述私有报文内各片段元素之间的关联性进行筛选和压缩；

所述通过抽象规则对所述结构进行抽象，是指根据所述抽象规则，用节点代表一笔交易报文，建立存在关联性的交易节点之间的连接关系，形成网络图。

2.如权利要求1所述的分析方法，其特征在于，所述导出并存储目标交易报文包括：利用公有报文筛选出指定的关键数据，将所述关键数据导出并存储。

3.如权利要求1所述的分析方法，其特征在于，

4.如权利要求1所述的分析方法，其特征在于，所述形成网络图还包括：网络图迭代，其中，所述网络图迭代包括：

5.如权利要求1所述的分析方法，其特征在于，所述形成网络图后还包括构建业务网络图，其中，构建业务网络图包括：

6.一种交易关联性的分析系统，其特征在于，该系统包括：

准备模块，用于导出并存储目标交易报文；

第二次遍历模块，用于第二次遍历所述目标交易报文中的私有报文，利用最简拆分模式集合中的拆分模式对当前交易报文内私有报文的拆分模式进行拆分，将产生新的子模式，添加到私有报文所对应的拆分模式内形成新的拆分模式；根据所述新的拆分模式，对当前交易报文的私有报文的片段集合内的片段元素进行再次拆分，删除被拆分的片段元素，并将新生成的片段元素，添加入片段集合内；

第三次遍历模块，用于第三次遍历所述目标交易报文中的私有报文，将任两条私有报文利用所述片段集合中的片段元素进行比较，当存在两个片段元素的比较结果满足预定条件时，确定所述两个片段元素间具有关联性；

网络图模块，用于所述目标交易报文中的私有报文的所述片段元素建立的连接关系所形成的结构，通过抽象规则对所述结构进行抽象，形成网络图；

其中，所述第一次遍历模块包括：

确定单元，用于将所述私有报文拆分为数个子模式，各私有报文的所有子模式集合为各私有报文的拆分模式；

填充单元，用于依次分析各私有报文，根据交易码，按级查询多级哈希表，当存在私有报文的拆分模式不存在时，在多级哈希表内填充该拆分模式；

所述归约模块包括：

获取单元，用于按级遍历多级哈希表，获取每个同一交易码下所对应的一个拆分模式集合，每笔交易的私有报文都被拆分为多个片段，而这些片段构成了每笔交易独立的片段集合，且这些片段对应为所述片段集合内的片段元素；

归约单元，用于将所述一个拆分模式集合内的相邻两个拆分模式进行比较，其中，一个拆分模式内的子模式与另一个拆分模式内的子模式逐条比较，取两个子模式之间的交集，并对大区域的子模式进行拆分，并插入所述大区域的子模式的子集合内，其中，大区域是两个子模式中长度大的那个子模式；每个同一交易码下对应的一个拆分模式集合比较完成后，获取最简拆分模式集合；

所述第三次遍历模块包括：

比较单元，用于将第一条私有报文和第二私有报文利用所述片段集合进行拆分后的片段元素内的数据进行逐条比较；

判定单元，用于当当前片段元素内的数据比较结果一致，则在两个片段元素之间添加表示关联性的边，并更新边中的关联属性，且将第一条私有报文和第二私有报文同时进行下一个片段元素的比较；当当前片段元素内的数据比较结果不一致，则将第一条私有报文的当前子模式与第二私有报文的下一个片段元素进行比较；