CN106327323A

CN106327323A - 银行频繁项模式挖掘方法及挖掘系统

Info

Publication number: CN106327323A
Application number: CN201610695840.3A
Authority: CN
Inventors: 徐华; 詹立雄; 邓俊辉; 石炎军; 孙晓民; 楼浩; 郭京生; 李佳; 张帆
Original assignee: BEIJING TRUST&FOR CHANGYUAN TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: BEIJING TRUST&FOR CHANGYUAN TECHNOLOGY Co Ltd; Tsinghua University
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-01-11

Abstract

本发明公开了一种银行频繁项模式挖掘方法，包括以下步骤：从银行系统运行信息中获取银行系统的系统状态信息；从系统状态信息中抽取系统特征，并从系统特征中提取出相关联的文本频繁项；根据相关联的文本频繁项挖掘出银行频繁项模式；根据银行频繁项模式生成银行系统的分析结果。该挖掘方法不仅可以给银行的后台服务改进提供参考，而且可以对银行故障排除方法的决策给出建议，提高了银行系统的可靠性，简单便捷。本发明还公开了一种银行频繁项模式挖掘系统。

Description

银行频繁项模式挖掘方法及挖掘系统

技术领域

本发明涉及计算机应用技术领域，特别涉及一种银行频繁项模式挖掘方法及挖掘系统。

背景技术

银行作为经营货币信贷业务的依法成立的金融机构，由于其安全高效等特性广泛为人们所使用。作为一个如此重要的系统，其安全性和高效性就显得尤为重要，其中安全性更是银行系统的命脉，但是即便如此，银行方面大规模的故障仍时有发生。并且大规模的故障往往不是由前台的工作失误造成的，因为银行前台周全的交易步骤几乎可以杜绝人为失误的发生，而即使失误发生也是一两笔交易的小规模的错误。大规模的故障往往都是由后台的系统的故障造成的。因此，想要更加有效的避免银行故障的发生，应该着重从后台系统下手。但是银行后台系统往往十分复杂，造成故障的原因更是多种多样，例如，银行之间的链接网络，后端记录数据的数据库，用于运行交易程序的服务器等等产生故障。而其中的一个故障往往会造成一系列的连锁反应，比如，当数据库发生瘫痪时，所有的交易请求就会开始堆积，从而导致服务器的资源不足；相反，如果服务器的内存产生泄漏，那么渐渐的系统资源会越来越少，从而导致数据库的运行所需资源不足，最终瘫痪。由此可见，后端的系统相关性相当复杂，想要通过规则方法直接分析出故障产生的原因几乎不可能。故障产生的次数虽然稀少，但是并不是无规律可循，根据银行方面的经验，在故障发生之前往往系统会产生一些异常的状态，而系统的状态往往比故障更加容易监测，因此可以通过实时的监测分析系统的参数，从而预测故障将会何时发生，这也是人工智能中的一个重要的研究领域。

一个准确的故障预测可以在故障发生之前提前给人们做出警告，从而可以使用例如故障排查、数据备份以及软件硬件设备重启等恰当的方式进行应对。评价一个系统的稳定性可以从可靠性和可用性两个指标来评价。这里可靠性是指系统发生故障的几率，对于银行系统来说可靠性往往是很高的，即极少的情况会发生故障，因此从可靠性的角度很难对系统的性能做出一个提升；而可用性是指故障后，系统恢复所需要的时间的长短，这个性能指标在实际使用的过程中也是十分重要的。通过故障预测方法可以提前预测采取对应措施，从而在一定的可靠性的条件下，加速系统恢复速度，提升系统的可用性，改善系统性能。另一方面，既然知道了和故障相关的一些系统参数，则可以通过对这些参数进行人为限制和调整从而在预先的避免故障的发生，在一定的程度上提高系统的可靠性。

另一方面如果故障已经发生，则需要寻找一种方法来排除故障，首先可以直接重启机器，或者可以检测故障发生的位置解决造成故障的问题等等。这些方法之间的选择和很多因素有关，但最主要的是在故障发生的过程中银行会损失的交易量的多少。如果当前是一个交易的高峰期，那么往往会选择直接重启系统，使得系统尽快恢复；如果当前交易并不那么密集，则可以选择逐一排除，找到故障源头分析故障原因，尝试避免同样的故障下次发生。

由于银行系统的私密性，因此很难找到针对于银行交易系统的故障预测相关文献。但是故障预测这个问题一直是人工智能领域的一个大方向。人们对于系统故障的预测方法研究历史已经超过了30年，随着系统不断的变得复杂，故障预测的方法也在与时俱进的发展，随着近几年的研究，预测故障的方法大致可以归纳成为以下的流程：数据采集、关键特征提取、降维处理、模型训练、算法评价。

其中，银行后台日志中大量银行系统运行信息蕴含了大量的系统状态信息，一些固定模式往往与某种系统状态相关。如何挖掘这些固定模式并据此预测系统趋势、挖掘出重要信息就成为了重要课题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种银行频繁项模式挖掘方法，该方法可以提高了银行系统的可靠性，简单便捷。

本发明的另一个目的在于提出一种银行频繁项模式挖掘系统。

为达到上述目的，本发明一方面实施例提出了一种银行频繁项模式挖掘方法，包括以下步骤：从银行系统运行信息中获取银行系统的系统状态信息；从所述系统状态信息中抽取系统特征，并从所述系统特征中提取出相关联的文本频繁项；根据所述相关联的文本频繁项挖掘出银行频繁项模式；根据所述银行频繁项模式生成所述银行系统的分析结果。

本发明实施例的银行频繁项模式挖掘方法，可以从银行后台交易日志抽取多种相关信息并挖掘此类相关信息之间的关联，以此为依据进行日志挖掘与分析，通过模式识别发现潜在故障并进行预警，不仅可以给银行的后台服务改进提供参考，而且可以对银行故障排除方法的决策给出建议，提高了银行系统的可靠性，简单便捷。

另外，根据本发明上述实施例的银行频繁项模式挖掘方法还可以具有以下附加的技术特征：

其中，在本发明的一个实施例中，所述系统状态信息包括交易信息、日期信息、往日同期信息和交易增幅信息。

进一步地，在本发明的一个实施例中，所述从所述系统特征中提取出相关联的文本频繁项，进一步包括：根据交易日志的余弦相似性进行相似度分析，以提取出所述相关联的交易日志。

进一步地，在本发明的一个实施例中，所述从所述系统状态信息中抽取系统特征，进一步包括：通过关联规则挖掘的方法提取出所述系统特征中多个频繁项；获取频繁项集和所述频繁项集中每个频繁项的支持度，以进行相似度分析。

进一步地，在本发明的一个实施例中，通过连接步和剪枝步得到所述频繁项集。

为达到上述目的，本发明另一方面实施例提出了一种银行频繁项模式挖掘系统，包括：获取模块，用于从银行系统运行信息中获取银行系统的系统状态信息；抽取模块，用于从所述系统状态信息中抽取系统特征，并从所述系统特征中提取出相关联的文本频繁项；挖掘模块，用于根据所述相关联的文本频繁项挖掘出银行频繁项模式；生成模块，用于根据所述银行频繁项模式生成所述银行系统的分析结果。

本发明实施例的银行频繁项模式挖掘系统，可以从银行后台交易日志抽取多种相关信息并挖掘此类相关信息之间的关联，以此为依据进行日志挖掘与分析，通过模式识别发现潜在故障并进行预警，不仅可以给银行的后台服务改进提供参考，而且可以对银行故障排除方法的决策给出建议，提高了银行系统的可靠性，简单便捷。

另外，根据本发明上述实施例的银行频繁项模式挖掘系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述挖掘模块进一步用于根据交易日志的余弦相似性进行相似度分析，以提取出所述相关联的交易日志。

进一步地，在本发明的一个实施例中，所述挖掘模块还用于通过关联规则挖掘的方法提取出所述系统特征中多个频繁项，并且获取频繁项集和所述频繁项集中每个频繁项的支持度，以进行相似度分析。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的银行频繁项模式挖掘方法的流程图；

图2为根据本发明一个实施例的频繁项挖掘算法的流程示意；

图3为根据本发明实施例的银行频繁项模式挖掘系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的银行频繁项模式挖掘方法及系统，首先将参照附图描述根据本发明实施例提出的银行频繁项模式挖掘方法。

图1是本发明实施例的银行频繁项模式挖掘方法的流程图。

如图1所示，该银行频繁项模式挖掘方法包括以下步骤：

在步骤S101中，从银行系统运行信息中获取银行系统的系统状态信息。

其中，在本发明的一个实施例中，系统状态信息包括交易信息、日期信息、往日同期信息和交易增幅信息。

即言，本发明实施例的数据主要是大型商业银行后台所有交易及其发生时间，通过抽取有用的信息包括：当前交易情况、当前日期星期、往日同期情况和当日交易增幅情况来表示间隔特征。

在步骤S102中，从系统状态信息中抽取系统特征，并从系统特征中提取出相关联的文本频繁项。

进一步地，在本发明的一个实施例中，从系统特征中提取出相关联的文本频繁项，进一步包括：根据交易日志的余弦相似性进行相似度分析，以提取出相关联的交易日志。

进一步地，在本发明的一个实施例中，从系统状态信息中抽取系统特征，进一步包括：通过关联规则挖掘的方法提取出系统特征中多个频繁项；获取频繁项集和频繁项集中每个频繁项的支持度，以进行相似度分析。

其中，在本发明的一个实施例中，通过连接步和剪枝步得到频繁项集。

具体而言，首先对日志挖掘相关概念进行详细描述。其中，在多个日志数据中，频繁出现的元素或项，即为频繁项，而在有一系列日志数据，这些日志数据有些相同的元素，日志数据中同时出现频率高的元素形成一个子集，满足一定阈值条件，即为频繁项集。另外，元素个数最多的频繁项日志数据，即其任何超集都是非频繁项集，以及k项元素组成的一个日志数据。

进一步地，相似性分析指研究的对象是日志数据之间的相似性关系，而频繁项集分析，研究的日志数据间重复性高的元素子集。其中，支持度指包含频繁项集F的集合的数目，可信度指频繁项F与某项j的并集(即FU{j})的支持度与频繁项集F的支持度的比值，兴趣度指FU{j}可信度与包含{j}的集合比率之间的差值，若兴趣度很高，则频繁项集F会促进j的存在，若兴趣度为负值，且频繁项集会抑制j的存在；若兴趣度为0，则频繁项集对j无太大影响。

也就是说，频繁项集与某项j的关系就是上述的关联规则。

进一步地，余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。它通常用于文本挖掘中的文件比较。此外，在数据挖掘领域中，会用到它来度量集群内部的凝聚力。

两个向量间的余弦值可以通过使用欧几里得点积公式推导：

a·b＝||a||||b||cosθ

给定两个属性向量，A和B，其余弦相似性θ由点积和向量长度给出，如下所示：

c o s (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中，A_i和B_i分别代表向量A和B的各分量。

给出的相似性范围从-1到1：-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

对于文本匹配，属性向量A和B通常是文档中的词频向量。余弦相似性，可以被看作是在比较过程中把文件长度正规化的方法。

在信息检索的情况下，由于一个词的频率(TF-IDF权)不能为负数，所以这两个文档的余弦相似性范围从0到1。并且，两个词的频率向量之间的角度不能大于90°。

综上所述，如图2所示，本发明实施例的挖掘方法采用的频繁项挖掘算法可以通过Apriori算法实现。其中，Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描交易记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。

其中，Apriori算法具有这样一条性质：任一频繁项集的所有非空子集也必须是频繁的。因为假如P(I)<最小支持度阈值，当有元素A添加到I中时，结果项集(A∩I)不可能比I出现次数更多。因此A∩I也不是频繁的。

进一步地，在上述的关联规则挖掘过程的两个步骤中，第一步往往是总体性能的瓶颈。Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。

1)连接步

为找出Lk(所有的频繁k项集的集合)，通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合。候选集合记作Ck。设l1和l2是Lk-1中的成员。记li[j]表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序，即对于(k-1)项集li，li[1]i[2]<………i[k-1]。将Lk-1与自身连接，如果(l1[1]＝l2[1])&&(l1[2]＝l2[2])&&……&&(l1[k-2]＝l2[k-2])&&(l1[k-1]2[k-1])，那认为l1和l2是可连接。连接l1和l2产生的结果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。

2)剪枝步

CK是LK的超集，也就是说，CK的成员可能是也可能不是频繁的。通过扫描所有的事务(交易)，确定CK中每个候选的计数，判断是否小于最小支持度计数，如果不是，则认为该候选是频繁的。为了压缩Ck，可以利用Apriori性质：任一频繁项集的所有非空子集也必须是频繁的，反之，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的，从而可以将其从CK中删除。

在步骤S103中，根据相关联的文本频繁项挖掘出银行频繁项模式。

在步骤S104中，根据银行频繁项模式生成银行系统的分析结果。

具体地，在本发明的实施例中，主要目的是给出大型商业银行后台系统运行日志的有效信息之间的关联，通过挖掘文本中的频繁项集得到系统固有的频繁模式，从而达到预测系统状态和回溯系统各状态相关参数的目的。通过对后台系统运行日志的频繁项挖掘，既能帮助商业银行改善后台服务，又能在银行发生故障后对于故障快速恢复提供建议，实现基于挖掘固定模式和频繁项集的文本分析和预测的目的。

举例而言，首先，利用特征提取从大型商业银行后台交易数据中获取以5分钟为间隔的TPS(Transaction processing systems，事务处理系统)数据，以便进行回归模型训练。本发明实施例的数据主要是大型商业银行后台所有交易及其发生时间，通过抽取有用的信息包括：当前交易情况、当前日期星期、往日同期情况和当日交易增幅情况来表示间隔特征。通过这个步骤可以形成TPS交易事件趋势预测模型的数据集，能用来进行下一步的分析。

其次，把事务数据表中的各个事务数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中，同时在每个结点处记录该结点出现的支持度。

1、构造项头表：扫描数据库一遍，得到频繁项的集合F和每个频繁项的支持度。把F按支持度递降排序，记为L。

2、构造原始FPTree：把数据库中每个事物的频繁项按照L中的顺序进行重排。并按照重排之后的顺序把每个事物的每个频繁项插入以null为根的FPTree中。如果插入时频繁项节点已经存在了，则把该频繁项节点支持度加1；如果该节点不存在，则创建支持度为1的节点，并把该节点链接到项头表中。

3、调用FP-growth(Tree，null)开始进行挖掘。伪代码如下：

函数的输入：tree是指原始的FPTree或者是某个模式的条件FPTree，a是指模式的后缀(在第一次调用时a＝NULL，在之后的递归调用中a是模式后缀)

函数的输出：在递归调用过程中输出所有的模式及其支持度。每一次调用FP_growth输出结果的模式中一定包含FP_growth函数输入的模式后缀。

FP-growth的执行过程如下：

1、在FP-growth递归调用的第一层，模式前后a＝NULL，得到的其实就是频繁1-项集。

2、对每一个频繁1-项，进行递归调用FP-growth()获得多元频繁项集。

根据本发明实施例的银行频繁项模式挖掘方法，可以从银行后台交易日志抽取多种相关信息并挖掘此类相关信息之间的关联，以此为依据进行日志挖掘与分析，通过模式识别发现潜在故障并进行预警，不仅可以给银行的后台服务改进提供参考，而且可以对银行故障排除方法的决策给出建议，提高了银行系统的可靠性，简单便捷。

其次参照附图描述根据本发明实施例提出的银行频繁项模式挖掘系统。

图3是本发明实施例的银行频繁项模式挖掘系统的结构示意图。

如图3所示，该银行频繁项模式挖掘系统10包括：获取模块100、抽取模块200、挖掘模块300和生成模块400。

其中，获取模块100用于从银行系统运行信息中获取银行系统的系统状态信息。抽取模块200用于从系统状态信息中抽取系统特征，并从系统特征中提取出相关联的文本频繁项。挖掘模块300用于根据相关联的文本频繁项挖掘出银行频繁项模式。生成模块400用于根据银行频繁项模式生成银行系统的分析结果。本发明实施例的挖掘系统10不仅可以给银行的后台服务改进提供参考，而且可以对银行故障排除方法的决策给出建议，提高了银行系统的可靠性，简单便捷。

进一步地，在本发明的一个实施例中，挖掘模块300进一步用于根据交易日志的余弦相似性进行相似度分析，以提取出相关联的交易日志。

进一步地，在本发明的一个实施例中，挖掘模块300还用于通过关联规则挖掘的方法提取出系统特征中多个频繁项，并且获取频繁项集和频繁项集中每个频繁项的支持度，以进行相似度分析。

进一步地，在本发明的一个实施例中，通过连接步和剪枝步得到频繁项集。

可以理解的是，本发明实施例的挖掘系统10的构建在对银行后台所有交易及其交易发生时间数据进行分析，抽取能表示每5分钟间隔的相关信息并链接成此时刻特征，并对训练集中的TPS数据进行回归模型训练。在此基础上展示TPS交易事件趋势预测，从而建立起一套完整的银行TPS交易事件趋势预测理论方法与分析系统。

本发明实施例的挖掘系统10主要包含两个阶段：首先是系统的准备阶段；其次是系统的使用阶段。在系统准备阶段，主要需要完成后台日志数据的清洗和分析。首先，系统针对原始日志数据，提取有效信息特征，然后相似度分析、语义分析等文本处理技术最后挖掘频繁项模式。在系统的使用阶段，用户可以使用系统回溯后台日志中的有效频繁模式或根据已发掘模式预测后台系统状态，发现银行后台事件的趋势和完成故障分析。该系统的分析结果不仅能给银行后台提供参考，并且可以协助银行发生故障后的快速故障处理。

需要说明的是，在本发明的实施例中，利用产品特征抽取技术、相似性分析技术、频繁项模式挖掘技术等核心技术，其中，这些算法及功能模块均在Windows下使用python等语言开发实现。另外，基于上述开发平台，整个系统的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层，预测系统需要在Windows8及其兼容的操作系统平台之上运行；同时还需要程序运行支撑环境，也就是python运行支撑环境。只有具备了上述支撑环境，频繁项模式挖掘系统10才能正常地运行。

需要说明的是，前述对银行频繁项模式挖掘方法实施例的解释说明也适用于该实施例的银行频繁项模式挖掘系统，此处不再赘述。

根据本发明实施例的银行频繁项模式挖掘系统，可以从银行后台交易日志抽取多种相关信息并挖掘此类相关信息之间的关联，以此为依据进行日志挖掘与分析，通过模式识别发现潜在故障并进行预警，不仅可以给银行的后台服务改进提供参考，而且可以对银行故障排除方法的决策给出建议，提高了银行系统的可靠性，简单便捷。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种银行频繁项模式挖掘方法，其特征在于，包括以下步骤：

从银行系统运行信息中获取银行系统的系统状态信息；

从所述系统状态信息中抽取系统特征，并从所述系统特征中提取出相关联的文本频繁项；

根据所述相关联的文本频繁项挖掘出银行频繁项模式；以及

根据所述银行频繁项模式生成所述银行系统的分析结果。

2.根据权利要求1所述的银行频繁项模式挖掘方法，其特征在于，所述系统状态信息包括交易信息、日期信息、往日同期信息和交易增幅信息。

3.根据权利要求1所述的银行频繁项模式挖掘方法，其特征在于，所述从所述系统特征中提取出相关联的文本频繁项，进一步包括：

根据交易日志的余弦相似性进行相似度分析，以提取出所述相关联的交易日志。

4.根据权利要求3所述的银行频繁项模式挖掘方法，其特征在于，所述从所述系统状态信息中抽取系统特征，进一步包括：

通过关联规则挖掘的方法提取出所述系统特征中多个频繁项；

获取频繁项集和所述频繁项集中每个频繁项的支持度，以进行相似度分析。

5.根据权利要求4所述的银行频繁项模式挖掘方法，其特征在于，通过连接步和剪枝步得到所述频繁项集。

6.一种银行频繁项模式挖掘系统，其特征在于，包括：

获取模块，用于从银行系统运行信息中获取银行系统的系统状态信息；

抽取模块，用于从所述系统状态信息中抽取系统特征，并从所述系统特征中提取出相关联的文本频繁项；

挖掘模块，用于根据所述相关联的文本频繁项挖掘出银行频繁项模式；以及

生成模块，用于根据所述银行频繁项模式生成所述银行系统的分析结果。

7.根据权利要求6所述的银行频繁项模式挖掘系统，其特征在于，所述系统状态信息包括交易信息、日期信息、往日同期信息和交易增幅信息。

8.根据权利要求6所述的银行频繁项模式挖掘系统，其特征在于，所述挖掘模块进一步用于根据交易日志的余弦相似性进行相似度分析，以提取出所述相关联的交易日志。

9.根据权利要求8所述的银行频繁项模式挖掘系统，其特征在于，所述挖掘模块还用于通过关联规则挖掘的方法提取出所述系统特征中多个频繁项，并且获取频繁项集和所述频繁项集中每个频繁项的支持度，以进行相似度分析。

10.根据权利要求9所述的银行频繁项模式挖掘系统，其特征在于，通过连接步和剪枝步得到所述频繁项集。