CN112329862A

CN112329862A - 基于决策树的反洗钱方法及系统

Info

Publication number: CN112329862A
Application number: CN202011236714.4A
Authority: CN
Inventors: 张玉娜; 范渊; 黄进
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-05

Abstract

本发明提供一种基于决策树的反洗钱方法及系统，方法包括以下步骤：提取账户数据并生成数据集，生成的数据集包含非类比属性和分类属性，所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性，所述分类属性为是否涉嫌洗钱；基于分类预测算法训练数据集构建决策树；对构建的决策树进行修剪，剪去决策树的冗余分枝，同时对决策树模型进行评估，对其分类预测的准确性进行判断，准确性达到要求，则修剪后的决策树模型确定。建立的决策树模型对账户进行检测反馈，能够迅速并精准的识别出洗钱行为。

Description

基于决策树的反洗钱方法及系统

技术领域

本发明涉及反洗钱领域，特别是涉及一种基于决策树的反洗钱方法及系统。

背景技术

反洗钱是银行风控系统的重要任务之一，也是金融机构的内在义务。综合运用反洗钱监管政策工具，推行分类监管，完善风险预警和应急处置机制，切实强化对高风险市场、高风险业务和高风险机构的反洗钱监管，体现了趋严趋紧的监管趋势，商业银行的反洗钱制度、流程、系统亟需更新，以适应监管要求。此外，随着洗钱、恐怖融资等活动的日益严重，各国日益重视反洗钱在保护国家安全、反腐败和维护经济金融稳定等方面的重要作用，金融机构所承担的职责和义务越来越大。现有的反洗钱监测技术存在监测效率低、监测不准确等问题。

发明内容

本发明的一个目的在于提出一种基于决策树的反洗钱方法及系统，以解决现有的反洗钱监测技术存在监测效率低、监测不准确的问题。

本发明提出一种基于决策树的反洗钱方法，包括以下步骤：

提取账户数据并生成数据集，生成的数据集包含非类比属性和分类属性，所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性，所述分类属性为是否涉嫌洗钱；

基于分类预测算法训练数据集构建决策树；

对构建的决策树进行修剪，剪去决策树的冗余分枝，同时对决策树模型进行评估，对其分类预测的准确性进行判断，准确性达到要求，则修剪后的决策树模型确定。

根据本发明提出的基于决策树的反洗钱方法，具有以下有益效果：

先提取企业注册资金、月流动次数、月流动总额/企业注册资金、月流动规律度、月流动额变异度、往来账户相关性等关键账户数据生成数据集，再通过决策树分类预测算法对数据集进行训练并建树，得出各账户数据与是否涉嫌洗钱之间的关系，因此，根据建立的决策树模型对账户进行检测反馈，能够迅速并精准的识别出洗钱行为，以便及时进行犯罪打击，且能够进行批量识别，有效地对洗钱犯罪行为进行了扼制。

另外，根据本发明提供的基于决策树的反洗钱方法，还可以具有如下附加的技术特征：

进一步地，所述基于分类预测算法训练数据集构建决策树的方法具体包括：

运用分类预测算法计算数据集划分前的熵值；

运用分类预测算法计算数据集按照非类比属性划分后的熵值；

运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值；

比较各信息增益值之间的大小，取信息增益值最大的非类别属性作为根节点对数据集进行划分，分类训练集被分成若干个子集，即在决策树根部生出若干个分枝；

运用分类预测算法计算每一个分支的信息增益，得到各个非类别属性的取值与是否涉嫌洗钱之间关系的树状模型。

进一步地，所述运用分类预测算法计算数据集划分前的熵值的计算式为：

式中，Y和N为分类属性的两个不同的离散属性值，S为数据集中全部的记录数，S_Y和S_N分别为分类属性值为Y和N的记录数。

进一步地，所述运用分类预测算法计算数据集按照非类比属性划分后的熵值的方法包括：将数据集按照非类比属性划分成子集，分别计算各个子集的熵值，对所有子集的熵值加权平均，得到数据集按照属性划分后的总熵值。

进一步地，设定非类比属性企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性分别为A₁、A₂、A₃、A₄、A₅、A₆；

运用分类预测算法计算数据集按照非类比属性A₆划分后的熵值的具体步骤为：设定非类别属性A₆的离散型属性值为“高”、“中”、“低”，将数据集按照属性A₆划分成三个子集{S_高}、{S_中}、{S_低}，分别计算三个子集{S_高}、{S_中}、 {S_低}的熵值，计算式为：

式中，S_高、S_中、S_低分别为子集{S_高}、{S_中}、{S_低}的记录数，S_Y高、S_N高、S_Y中、 S_N中、S_Y低、S_N低为分类属性值“Y”和“N”的记录数，

再对三个子集{S_高}、{S_中}、{S_低}的熵值加权平均，得到数据集按照属性 A₆划分后的总熵值：

进一步地，所述运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值，设定非类比属性为A_j(j＝1、2、3、4、5、6)，计算式为：

进一步地，所述对构建的决策树进行修剪的方法为：运用误差估计的剪枝算法对决策树进行修剪。

本发明提出一种基于决策树的反洗钱系统，包括：

数据集生成模块：用于提取账户数据并生成数据集，生成的数据集包含非类比属性和分类属性，所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性，所述分类属性为是否涉嫌洗钱；

决策树构建模块：用于基于分类预测算法训练数据集构建决策树；

决策树修剪模块：用于对构建的决策树进行修剪，剪去决策树的冗余分枝，同时对决策树模型进行评估，对其分类预测的准确性进行判断，准确性达到要求，则修剪后的决策树模型确定。

根据本发明提出的基于决策树的反洗钱系统，具有以下有益效果：

提取企业注册资金、月流动次数、月流动总额/企业注册资金、月流动规律度、月流动额变异度、往来账户相关性等关键账户数据生成数据集，再通过决策树分类预测算法对数据集进行训练并建树，得出各账户数据与是否涉嫌洗钱之间的关系，因此，根据建立的决策树模型对账户进行检测反馈，能够迅速并精准的识别出洗钱行为，以便及时进行犯罪打击，且能够进行批量识别，有效地对洗钱犯罪行为进行了扼制。

另外，根据本发明提供的基于决策树的反洗钱系统，还可以具有如下附加的技术特征：

进一步地，所述决策树构建模块：具体用于运用分类预测算法计算数据集划分前的熵值；

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明第一实施例基于决策树的反洗钱方法的流程图；

图2为本发明第一实施例基于决策树的反洗钱方法中表2数据集生成的决策树；

图3为图1决策树的修剪简化图；

图4为本发明第一实施例基于决策树的反洗钱系统的系统框图。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

实施例1

请参阅图1至图3，本发明的实施例提供一种基于决策树的反洗钱方法，包括步骤S101～S105。

S101，提取账户数据并生成数据集，生成的数据集包含非类比属性和分类属性，所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性，所述分类属性为是否涉嫌洗钱。

S102，基于分类预测算法训练数据集构建决策树。

其中，具体步骤为：运用分类预测算法计算数据集划分前的熵值，计算式如下：

运用分类预测算法计算数据集按照非类比属性划分后的熵值：将数据集按照非类比属性划分成子集，分别计算各个子集的熵值，对所有子集的熵值加权平均，得到数据集按照属性划分后的总熵值。

运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值。

运用分类预测算法计算每一个分支的信息增益，得到各个非类别属性的取值与是否涉嫌洗钱之间关系的树状模型，设定非类比属性为A_j(j＝1、2、3、4、 5、6)，计算式如下：

S103，对构建的决策树进行修剪，剪去决策树的冗余分枝，同时对决策树模型进行评估，对其分类预测的准确性进行判断，准确性达到要求，则修剪后的决策树模型确定。

其中，运用误差估计的剪枝算法对决策树进行修剪。

采用测试集数据对模型的预测准确度进行评估，当实际的输出结果能够较好地与测试集数据相一致时，模型就会被固定下来，成为系统的内部知识，用于对新集的挖掘预测。

企业注册资金属性：企业最初在工商行政管理部门注册登记时都有一个注册资金额，注册资金随实有资金的增减而增减，当企业实有资金比注册资金增加或减少20％以上时，要进行变更登记，因此，企业注册资金额可以作为反映企业经营规模的一个指标。注册资金较少的企业，其业务量一般来说不会很大，如果出现了大规模的异常资金转入转出，则该企业账户就涉嫌洗钱。由此可以看出，企业注册资金就是一个很好的反映企业账户基本特征的非类别属性。

往来账户相关性属性：每个行业的企业都有自己特定的经营范围，其账户的转账、现金收付的另一方必定是在该经营范围内的企业账户。例如某手机制造商，它的大多数现金收入必定是来自零散的销售中间商，而不可能是其他企业；它的大部分转账支付必定是各个手机零部件供应商，而不可能是采矿、石油、纺织、食品等行业。如果出现了某家企业与相关性很小的企业之间的大量的现金收付或转账支付行为，则有理由怀疑它们的交易可疑，即该账户有可能参与洗钱。在我国金融机构大额和可疑外汇资金交易报告管理办法中，“企业外汇账户中频繁有大量外币现金收付，与其经营活动不相符”的外汇交易属于可疑外汇现金交易。假如某个零售店出现大批量的现金支付，就说明该账户不符合零售业的经营特点，有洗钱的嫌疑。基于此，构建一个各行业间相关系数矩阵来表示和某个账户有往来的其他帐户的相关程度大小，将对提高反洗钱领域中决策树算法的准确性有重要贡献。

如表1就是一个简化了的行业相关系数矩阵。行业相关系数矩阵中的具体数值可以通过计算求得：将属于某一行业的各个企业其账户在特定时间段内的资金总流量记为Y，将在该时间段内其与Xi(i＝1,2,……，n)行业企业之间的资金流动总量记为xi,则有

于是可以定义

为该行业所属企业与i行业之间企业账户往来的相关系数，而且有如下关系式成立：

这个关系式在表1中表现为每一行的数字相加和均为1。

表1行业相关系数矩阵(％)

其他属性：洗钱活动虽然复杂，但是由于洗钱过程中的资金转移带有明显的主观因素特征，因此它还是有规律可循的。一个典型、完整的洗钱过程可以分为放置、培植以及融合三个阶段，在实际的洗钱操作过程中，三个阶段有时很明显，有时则交叉运用，难以截然分开。一般来说，对洗钱者而言放置阶段是最困难的一步，洗钱者所面临的实际问题是将从毒品等犯罪交易中所获得的大量现金改变成便于携带和隐瞒的形式。洗钱者在放置过程中经常将银行等金融机构作为主要的利用对象。在放置阶段其资金流动的明显特征就是入账资金数量巨大，而进入培植阶段后，资金总量不再发生剧烈变动，而是明显地表现出资金流动的频繁性，资金从一个账户频繁地转入转出，且流向极其复杂，因此一旦进入培植阶段，识别和追踪就会变得相对困难。于是，经过对洗钱活动资金流动的特征进行分析，得出结论：反洗钱在决策树算法中的分类属性应该包括对资金流动数量和资金流动时间的描述。而且，对资金流动数量和资金流动时间还有必要分别从总量和个量分布(变异)两个方面进行描述。这里引入月流动额变异度和月流动规律度量两个概念。这两个指标能够分别反映某企业当月每次账户资金的变动情况以及当月企业账户资金流动的规律性。假设某行业某企业账户某月n次的资金流动额分别为xi(i＝1，2，…，n)，其平均值为

标准差为σ，定义

为该企业账户月流动额变异度。该值越大，表明该企业账户每月各次资金流动额之间的变动越大，资金流动额的稳定性差。这里之所以使用

而不是单纯使用σ，是因为

能够对各个企业账户之间加以比较，而σ只能够比较某个行业的一定规模的各个企业账户之间的月流动额变异情况。假设某行业某企业账户某月n次的资金流动分别发生在时点Ti(r＝1、2、…、 n-1)，取相邻两次资金流动时点间的差额(单位为天)构成新的数列，记为tr (r＝1、2、…、n-1)，则易知tr＝Tr+1(r＝1、2、…、n-1)。定义数列tr中的标准差σ为月流动规律度。该值越小，表明该企业账户每月各次资金流动之间的时间间隔变动越小，每月资金流动的规律性强。综上，可以定义如下7个反洗钱决策树分类预测算法的属性：

A₁＝{企业注册资金}；

A₂＝{月流动次数}；

A₃＝{月流动总额注册资金比}；

A₄＝{月流动规律度}；

A₅＝{月流动额变异度}；

A₆＝{往来账户相关性}；

C＝{是否涉嫌洗钱}；

其中C＝{是否涉嫌洗钱}是分类预测属性。这里的企业注册资金是反映账户基本特征的描述属性；月流动次数是反映账户资金月流动总数的描述属性；月流动总额注册资金比为月流动总额/企业注册资金，是反映账户资金月流动总量的描述属性；月流动规律度是反映当月企业账户资金流动的规律性的描述属性；月流动额变异度是反映企业账户每月各次资金流动额之间的变动情况的描述属性；往来账户相关性是反映该开户企业与资金流动另一方的相关度的描述属性。同时，定义各个属性的属性值如下:

A₁＝{企业注册资金}＝{<50万，50-100万,100-500万，500-1000万，1000-5000万，5000-10000万，＞10000万}

A₂＝{月流动次数}＝{1，2，3，4，＞4}

A₃＝{月流动总额注册资金比}＝{<1，1-2，>2}

A₄＝{月流动规律度}＝{<2，2-4，4-6，>6}

A₅＝{月流动额变异度}＝{<0.2，0.2-0.5，>0.5}

A₆＝{往来账户相关性}＝{高，中，低}

C＝{是否涉嫌洗钱}＝{Y，N}

这里需要说明的是A6＝{往来账户相关性}中的高、中、低三个属性值的确定。按照账户流动往来的次数对行业间的相关系数进行加权平均，得出的结果：若≤0.10，则为低；若介于0.10和0.25之间，则为中；若≥0.25，则为高，如表2所示。

表2面向账户的决策树分类预测算法数据集

账户

A1(万)

A2(次)

A3

A4

A5

A6

C

1

100-500

2

1-2

<2

<0.2

低

Y

2

1000-5000

3

<1

4-6

0.2-0.5

中

Y

3

<50

1

1-2

2-4

0.2-0.5

中

N

4

5000-10000

>4

<1

4-6

>0.5

中

Y

5

50-100

3

>2

<2

>0.5

高

N

6

>10000

3

<1

>6

0.2-0.5

高

N

7

500-1000

4

>2

2-4

0.2-0.5

低

Y

…

同理，运用分类预测算法计算数据集按照非类比属性A₆划分后的熵值的方法包括决策树算法会按照同样的步骤计算A₁、A₂、A₃、A₄、A₅、A₆这5个非类别属性的信息增益值Gain(A₁)、Gain(A₂)、Gain(A₃)、Gain(A₄)、Gain(A₅)、Gain(A₆)。

图2中共有20条规则，图2显示的决策树并不是我们最终需要的决策树图形，在决策树算法结束后，还有必要对生成的决策树做进一步地修剪。在建树过程中，由于训练集中的噪声、孤立点以及某个节点的数据量太小，会反映在决策树的分枝中，增加树的复杂性，会出现过学习问题。它表现为用某些分类规则对训练集预测十分准确，而对测试集预测却误差极大。当出现了过学习问题时，决策树构造会显得过于复杂，难以理解，对分类树的构造毫无意义，所以应该在保证正确率的前提下尽量构造简单的决策树。

过分适应问题是影响决策树预测准确率的关键问题，剪去决策树的冗余分枝是解决过分适应问题的重要方法。图2是表2训练集生成的决策树，最常用的是基于误差估计的剪枝算法。剪枝常常利用统计学方法，去掉最不可靠、可能是噪音的一些分枝。剪枝方法可以分为两大类：同步修剪和迟滞修剪。前者是边建树边修剪，在建树的过程中，预先设定一定条件，例如信息增益或者某些有效统计量达到某个预先设定的标准时，节点将不再继续分裂，最终成为一个叶子节点。后者是先建树后修剪，该方法的思想是先让决策树“完全生长”，然后采用一定的标准评估每个内部节点下的分枝是否冗余分枝，剪掉冗余的分枝，最终使内部节点成为一个最有可能的叶节点。图2中的决策树经过剪枝后，可以形成如图3所示更为简洁易懂的决策树，图3中仅有10条规则。

在对决策树模型进行修剪的同时，还要对决策树模型加以评估，对其分类预测的准确性进行判断。通常会用测试集数据对模型的预测准确度进行评估，当实际的输出结果能够较好地与测试集数据相一致时，模型就会被固定下来，成为系统的内部知识，用于对新集的挖掘预测。

本实施例提供的基于决策树的反洗钱方法，有益效果在于：提取企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性等关键账户数据生成数据集，再通过决策树分类预测算法对数据集进行训练并建树，得出各账户数据与是否涉嫌洗钱之间的关系，因此，根据建立的决策树模型对账户进行检测反馈，能够迅速并精准的识别出洗钱行为，以便及时进行犯罪打击，且能够进行批量识别，有效地对洗钱犯罪行为进行了扼制。

实施例2

请参阅图4，本发明第二实施例提供的一种基于决策树的反洗钱系统，包括：

数据集生成模块：用于提取账户数据并生成数据集，生成的数据集包含非类比属性和分类属性，所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性，所述分类属性为是否涉嫌洗钱。

决策树构建模块：用于基于分类预测算法训练数据集构建决策树。

具体用于运用分类预测算法计算数据集划分前的熵值，计算式如下：

其中，运用误差估计的剪枝算法对决策树进行修剪。

综上，可以定义如下7个反洗钱决策树分类预测算法的属性：

A₁＝{企业注册资金}；

A₂＝{月流动次数}；

A₃＝{月流动总额注册资金比}；

A₄＝{月流动规律度}；

A₅＝{月流动额变异度}；

A₆＝{往来账户相关性}；

C＝{是否涉嫌洗钱}；

A₂＝{月流动次数}＝{1，2，3，4，＞4}

A₃＝{月流动总额注册资金比}＝{<1，1-2，>2}

A₄＝{月流动规律度}＝{<2，2-4，4-6，>6}

A₅＝{月流动额变异度}＝{<0.2，0.2-0.5，>0.5}

A₆＝{往来账户相关性}＝{高，中，低}

C＝{是否涉嫌洗钱}＝{Y，N}

本实施例提供的基于决策树的反洗钱系统，有益效果在于：提取企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性等关键账户数据生成数据集，再通过决策树分类预测算法对数据集进行训练并建树，得出各账户数据与是否涉嫌洗钱之间的关系，因此，根据建立的决策树模型对账户进行检测反馈，能够迅速并精准的识别出洗钱行为，以便及时进行犯罪打击，且能够进行批量识别，有效地对洗钱犯罪行为进行了扼制。

本发明实施例还提供了一种可读存储介质，其上存储有应用程序，该程序被处理器执行时实现上述实施例1的方法的步骤。

本发明实施例还提供了一种智能终端设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的应用程序，所述处理器执行所述程序时实现上述实施例1的方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、系统或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、系统或设备取指令并执行指令的系统) 使用，或结合这些指令执行系统、系统或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、系统或设备或结合这些指令执行系统、系统或设备而使用的系统。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子系统)，便携式计算机盘盒(磁系统)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤系统，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA) 等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于决策树的反洗钱方法，其特征在于，包括以下步骤：

基于分类预测算法训练数据集构建决策树；

2.根据权利要求1所述的基于决策树的反洗钱方法，其特征在于，所述基于分类预测算法训练数据集构建决策树的方法具体包括：

运用分类预测算法计算数据集划分前的熵值；

3.根据权利要求2所述的基于决策树的反洗钱方法，其特征在于，所述运用分类预测算法计算数据集划分前的熵值的计算式为：

4.根据权利要求2所述的基于决策树的反洗钱方法，其特征在于，所述运用分类预测算法计算数据集按照非类比属性划分后的熵值的方法包括：将数据集按照非类比属性划分成子集，分别计算各个子集的熵值，对所有子集的熵值加权平均，得到数据集按照属性划分后的总熵值。

5.根据权利要求4所述的基于决策树的反洗钱方法，其特征在于，设定非类比属性企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性分别为A₁、A₂、A₃、A₄、A₅、A₆；

运用分类预测算法计算数据集按照非类比属性A₆划分后的熵值的具体步骤为：设定非类别属性A₆的离散型属性值为“高”、“中”、“低”，将数据集按照属性A₆划分成三个子集{S_高}、{S_中}、{S_低}，分别计算三个子集{S_高}、{S_中}、{S_低}的熵值，计算式为：

式中，S_高、S_中、S_低分别为子集{S_高}、{S_中}、{S_低}的记录数，S_Y高、S_N高、S_Y中、S_N中、S_Y低、S_N低为分类属性值“Y”和“N”的记录数，

再对三个子集{S_高}、{S_中}、{S_低}的熵值加权平均，得到数据集按照属性A₆划分后的总熵值：

6.根据权利要求2所述的基于决策树的反洗钱方法，其特征在于，所述运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值，设定非类比属性为A_j(j＝1、2、3、4、5、6)，计算式为：

Gain(A_j)＝E(S_Y，S_N)-E(A_j)。

7.根据权利要求1所述的基于决策树的反洗钱方法，其特征在于，所述对构建的决策树进行修剪的方法为：运用误差估计的剪枝算法对决策树进行修剪。

8.一种基于决策树的反洗钱系统，其特征在于，包括：

数据集生成模块：用于提取账户数据并生成数据集，生成的数据集包含非类比属性和分类属性，所述非类比属性包括企业注册资金、月流动次数、月流动总额(流入+流出)/企业注册资金、月流动规律度、月流动额变异度、往来账户相关性，所述分类属性为是否涉嫌洗钱；

9.根据权利要求8所述的基于决策树的反洗钱系统，其特征在于，所述决策树构建模块：具体用于运用分类预测算法计算数据集划分前的熵值；

10.根据权利要求9所述的基于决策树的反洗钱系统，其特征在于，所述运用分类预测算法计算数据集划分前的熵值的计算式为：