CN112329862A - 基于决策树的反洗钱方法及系统 - Google Patents
基于决策树的反洗钱方法及系统 Download PDFInfo
- Publication number
- CN112329862A CN112329862A CN202011236714.4A CN202011236714A CN112329862A CN 112329862 A CN112329862 A CN 112329862A CN 202011236714 A CN202011236714 A CN 202011236714A CN 112329862 A CN112329862 A CN 112329862A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- data set
- classification
- monthly
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 125
- 238000004900 laundering Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 64
- 238000007667 floating Methods 0.000 claims abstract description 43
- 238000013138 pruning Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000005520 cutting process Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims 2
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于决策树的反洗钱方法及系统,方法包括以下步骤:提取账户数据并生成数据集,生成的数据集包含非类比属性和分类属性,所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性,所述分类属性为是否涉嫌洗钱;基于分类预测算法训练数据集构建决策树;对构建的决策树进行修剪,剪去决策树的冗余分枝,同时对决策树模型进行评估,对其分类预测的准确性进行判断,准确性达到要求,则修剪后的决策树模型确定。建立的决策树模型对账户进行检测反馈,能够迅速并精准的识别出洗钱行为。
Description
技术领域
本发明涉及反洗钱领域,特别是涉及一种基于决策树的反洗钱方法及系统。
背景技术
反洗钱是银行风控系统的重要任务之一,也是金融机构的内在义务。综合 运用反洗钱监管政策工具,推行分类监管,完善风险预警和应急处置机制,切 实强化对高风险市场、高风险业务和高风险机构的反洗钱监管,体现了趋严趋 紧的监管趋势,商业银行的反洗钱制度、流程、系统亟需更新,以适应监管要 求。此外,随着洗钱、恐怖融资等活动的日益严重,各国日益重视反洗钱在保 护国家安全、反腐败和维护经济金融稳定等方面的重要作用,金融机构所承担 的职责和义务越来越大。现有的反洗钱监测技术存在监测效率低、监测不准确 等问题。
发明内容
本发明的一个目的在于提出一种基于决策树的反洗钱方法及系统,以解决 现有的反洗钱监测技术存在监测效率低、监测不准确的问题。
本发明提出一种基于决策树的反洗钱方法,包括以下步骤:
提取账户数据并生成数据集,生成的数据集包含非类比属性和分类属性, 所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月 流动规律度、月流动额变异度、往来账户相关性,所述分类属性为是否涉嫌洗 钱;
基于分类预测算法训练数据集构建决策树;
对构建的决策树进行修剪,剪去决策树的冗余分枝,同时对决策树模型进 行评估,对其分类预测的准确性进行判断,准确性达到要求,则修剪后的决策 树模型确定。
根据本发明提出的基于决策树的反洗钱方法,具有以下有益效果:
先提取企业注册资金、月流动次数、月流动总额/企业注册资金、月流动规 律度、月流动额变异度、往来账户相关性等关键账户数据生成数据集,再通过 决策树分类预测算法对数据集进行训练并建树,得出各账户数据与是否涉嫌洗 钱之间的关系,因此,根据建立的决策树模型对账户进行检测反馈,能够迅速 并精准的识别出洗钱行为,以便及时进行犯罪打击,且能够进行批量识别,有 效地对洗钱犯罪行为进行了扼制。
另外,根据本发明提供的基于决策树的反洗钱方法,还可以具有如下附加 的技术特征:
进一步地,所述基于分类预测算法训练数据集构建决策树的方法具体包括:
运用分类预测算法计算数据集划分前的熵值;
运用分类预测算法计算数据集按照非类比属性划分后的熵值;
运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益 值;
比较各信息增益值之间的大小,取信息增益值最大的非类别属性作为根节 点对数据集进行划分,分类训练集被分成若干个子集,即在决策树根部生出若 干个分枝;
运用分类预测算法计算每一个分支的信息增益,得到各个非类别属性的取 值与是否涉嫌洗钱之间关系的树状模型。
进一步地,所述运用分类预测算法计算数据集划分前的熵值的计算式为:
式中,Y和N为分类属性的两个不同的离散属性值,S为数据集中全部的记 录数,SY和SN分别为分类属性值为Y和N的记录数。
进一步地,所述运用分类预测算法计算数据集按照非类比属性划分后的熵 值的方法包括:将数据集按照非类比属性划分成子集,分别计算各个子集的熵 值,对所有子集的熵值加权平均,得到数据集按照属性划分后的总熵值。
进一步地,设定非类比属性企业注册资金、月流动次数、月流动总额注册 资金比、月流动规律度、月流动额变异度、往来账户相关性分别为A1、A2、A3、A4、A5、A6;
运用分类预测算法计算数据集按照非类比属性A6划分后的熵值的具体步骤 为:设定非类别属性A6的离散型属性值为“高”、“中”、“低”,将数据集按照属 性A6划分成三个子集{S高}、{S中}、{S低},分别计算三个子集{S高}、{S中}、 {S低}的熵值,计算式为:
式中,S高、S中、S低分别为子集{S高}、{S中}、{S低}的记录数,SY高、SN高、SY中、 SN中、SY低、SN低为分类属性值“Y”和“N”的记录数,
再对三个子集{S高}、{S中}、{S低}的熵值加权平均,得到数据集按照属性 A6划分后的总熵值:
进一步地,所述运用分类预测算法计算数据集按照非类比属性划分前与划 分后的信息增益值,设定非类比属性为Aj(j=1、2、3、4、5、6),计算式为:
进一步地,所述对构建的决策树进行修剪的方法为:运用误差估计的剪枝 算法对决策树进行修剪。
本发明提出一种基于决策树的反洗钱系统,包括:
数据集生成模块:用于提取账户数据并生成数据集,生成的数据集包含非 类比属性和分类属性,所述非类比属性包括企业注册资金、月流动次数、月流 动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性,所述 分类属性为是否涉嫌洗钱;
决策树构建模块:用于基于分类预测算法训练数据集构建决策树;
决策树修剪模块:用于对构建的决策树进行修剪,剪去决策树的冗余分枝, 同时对决策树模型进行评估,对其分类预测的准确性进行判断,准确性达到要 求,则修剪后的决策树模型确定。
根据本发明提出的基于决策树的反洗钱系统,具有以下有益效果:
提取企业注册资金、月流动次数、月流动总额/企业注册资金、月流动规律 度、月流动额变异度、往来账户相关性等关键账户数据生成数据集,再通过决 策树分类预测算法对数据集进行训练并建树,得出各账户数据与是否涉嫌洗钱 之间的关系,因此,根据建立的决策树模型对账户进行检测反馈,能够迅速并 精准的识别出洗钱行为,以便及时进行犯罪打击,且能够进行批量识别,有效 地对洗钱犯罪行为进行了扼制。
另外,根据本发明提供的基于决策树的反洗钱系统,还可以具有如下附加 的技术特征:
进一步地,所述决策树构建模块:具体用于运用分类预测算法计算数据集 划分前的熵值;
运用分类预测算法计算数据集按照非类比属性划分后的熵值;
运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益 值;
比较各信息增益值之间的大小,取信息增益值最大的非类别属性作为根节 点对数据集进行划分,分类训练集被分成若干个子集,即在决策树根部生出若 干个分枝;
运用分类预测算法计算每一个分支的信息增益,得到各个非类别属性的取 值与是否涉嫌洗钱之间关系的树状模型。
进一步地,所述运用分类预测算法计算数据集划分前的熵值的计算式为:
式中,Y和N为分类属性的两个不同的离散属性值,S为数据集中全部的记 录数,SY和SN分别为分类属性值为Y和N的记录数。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描 述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将 变得明显和容易理解,其中:
图1为本发明第一实施例基于决策树的反洗钱方法的流程图;
图2为本发明第一实施例基于决策树的反洗钱方法中表2数据集生成的决 策树;
图3为图1决策树的修剪简化图;
图4为本发明第一实施例基于决策树的反洗钱系统的系统框图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发 明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是, 本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地, 提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
实施例1
请参阅图1至图3,本发明的实施例提供一种基于决策树的反洗钱方法,包 括步骤S101~S105。
S101,提取账户数据并生成数据集,生成的数据集包含非类比属性和分类 属性,所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金 比、月流动规律度、月流动额变异度、往来账户相关性,所述分类属性为是否 涉嫌洗钱。
S102,基于分类预测算法训练数据集构建决策树。
其中,具体步骤为:运用分类预测算法计算数据集划分前的熵值,计算式 如下:
式中,Y和N为分类属性的两个不同的离散属性值,S为数据集中全部的记 录数,SY和SN分别为分类属性值为Y和N的记录数。
运用分类预测算法计算数据集按照非类比属性划分后的熵值:将数据集按 照非类比属性划分成子集,分别计算各个子集的熵值,对所有子集的熵值加权 平均,得到数据集按照属性划分后的总熵值。
运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益 值。
比较各信息增益值之间的大小,取信息增益值最大的非类别属性作为根节 点对数据集进行划分,分类训练集被分成若干个子集,即在决策树根部生出若 干个分枝;
运用分类预测算法计算每一个分支的信息增益,得到各个非类别属性的取 值与是否涉嫌洗钱之间关系的树状模型,设定非类比属性为Aj(j=1、2、3、4、 5、6),计算式如下:
S103,对构建的决策树进行修剪,剪去决策树的冗余分枝,同时对决策树 模型进行评估,对其分类预测的准确性进行判断,准确性达到要求,则修剪后 的决策树模型确定。
其中,运用误差估计的剪枝算法对决策树进行修剪。
采用测试集数据对模型的预测准确度进行评估,当实际的输出结果能够较 好地与测试集数据相一致时,模型就会被固定下来,成为系统的内部知识,用 于对新集的挖掘预测。
企业注册资金属性:企业最初在工商行政管理部门注册登记时都有一个注 册资金额,注册资金随实有资金的增减而增减,当企业实有资金比注册资金增 加或减少20%以上时,要进行变更登记,因此,企业注册资金额可以作为反映 企业经营规模的一个指标。注册资金较少的企业,其业务量一般来说不会很大, 如果出现了大规模的异常资金转入转出,则该企业账户就涉嫌洗钱。由此可以 看出,企业注册资金就是一个很好的反映企业账户基本特征的非类别属性。
往来账户相关性属性:每个行业的企业都有自己特定的经营范围,其账户 的转账、现金收付的另一方必定是在该经营范围内的企业账户。例如某手机制 造商,它的大多数现金收入必定是来自零散的销售中间商,而不可能是其他企 业;它的大部分转账支付必定是各个手机零部件供应商,而不可能是采矿、石 油、纺织、食品等行业。如果出现了某家企业与相关性很小的企业之间的大量 的现金收付或转账支付行为,则有理由怀疑它们的交易可疑,即该账户有可能 参与洗钱。在我国金融机构大额和可疑外汇资金交易报告管理办法中,“企业外 汇账户中频繁有大量外币现金收付,与其经营活动不相符”的外汇交易属于可 疑外汇现金交易。假如某个零售店出现大批量的现金支付,就说明该账户不符 合零售业的经营特点,有洗钱的嫌疑。基于此,构建一个各行业间相关系数矩 阵来表示和某个账户有往来的其他帐户的相关程度大小,将对提高反洗钱领域 中决策树算法的准确性有重要贡献。
如表1就是一个简化了的行业相关系数矩阵。行业相关系数矩阵中的具体 数值可以通过计算求得:将属于某一行业的各个企业其账户在特定时间段内的 资金总流量记为Y,将在该时间段内其与Xi(i=1,2,……,n)行业企业之间的 资金流动总量记为xi,则有于是可以定义为该 行业所属企业与i行业之间企业账户往来的相关系数,而且有如下关系式成立: 这个关系式在表1中表现为每一行的数字相加和均为1。
表1行业相关系数矩阵(%)
其他属性:洗钱活动虽然复杂,但是由于洗钱过程中的资金转移带有明显 的主观因素特征,因此它还是有规律可循的。一个典型、完整的洗钱过程可以 分为放置、培植以及融合三个阶段,在实际的洗钱操作过程中,三个阶段有时 很明显,有时则交叉运用,难以截然分开。一般来说,对洗钱者而言放置阶段 是最困难的一步,洗钱者所面临的实际问题是将从毒品等犯罪交易中所获得的 大量现金改变成便于携带和隐瞒的形式。洗钱者在放置过程中经常将银行等金 融机构作为主要的利用对象。在放置阶段其资金流动的明显特征就是入账资金 数量巨大,而进入培植阶段后,资金总量不再发生剧烈变动,而是明显地表现 出资金流动的频繁性,资金从一个账户频繁地转入转出,且流向极其复杂,因 此一旦进入培植阶段,识别和追踪就会变得相对困难。于是,经过对洗钱活动 资金流动的特征进行分析,得出结论:反洗钱在决策树算法中的分类属性应该 包括对资金流动数量和资金流动时间的描述。而且,对资金流动数量和资金流 动时间还有必要分别从总量和个量分布(变异)两个方面进行描述。这里引入 月流动额变异度和月流动规律度量两个概念。这两个指标能够分别反映某企业 当月每次账户资金的变动情况以及当月企业账户资金流动的规律性。假设某行 业某企业账户某月n次的资金流动额分别为xi(i=1,2,…,n),其平均 值为标准差为σ,定义为该企业账户月流动额变异度。该值越大,表明该 企业账户每月各次资金流动额之间的变动越大,资金流动额的稳定性差。这里 之所以使用而不是单纯使用σ,是因为能够对各个企业账户之间加以比较, 而σ只能够比较某个行业的一定规模的各个企业账户之间的月流动额变异情况。 假设某行业某企业账户某月n次的资金流动分别发生在时点Ti(r=1、2、…、 n-1),取相邻两次资金流动时点间的差额(单位为天)构成新的数列,记为tr (r=1、2、…、n-1),则易知tr=Tr+1(r=1、2、…、n-1)。定义数列tr中的 标准差σ为月流动规律度。该值越小,表明该企业账户每月各次资金流动之间 的时间间隔变动越小,每月资金流动的规律性强。综上,可以定义如下7个反 洗钱决策树分类预测算法的属性:
A1={企业注册资金};
A2={月流动次数};
A3={月流动总额注册资金比};
A4={月流动规律度};
A5={月流动额变异度};
A6={往来账户相关性};
C={是否涉嫌洗钱};
其中C={是否涉嫌洗钱}是分类预测属性。这里的企业注册资金是反映账 户基本特征的描述属性;月流动次数是反映账户资金月流动总数的描述属性; 月流动总额注册资金比为月流动总额/企业注册资金,是反映账户资金月流动总 量的描述属性;月流动规律度是反映当月企业账户资金流动的规律性的描述属 性;月流动额变异度是反映企业账户每月各次资金流动额之间的变动情况的描 述属性;往来账户相关性是反映该开户企业与资金流动另一方的相关度的描述 属性。同时,定义各个属性的属性值如下:
A1={企业注册资金}={<50万,50-100万,100-500万,500-1000万,1000-5000万,5000-10000万,>10000万}
A2={月流动次数}={1,2,3,4,>4}
A3={月流动总额注册资金比}={<1,1-2,>2}
A4={月流动规律度}={<2,2-4,4-6,>6}
A5={月流动额变异度}={<0.2,0.2-0.5,>0.5}
A6={往来账户相关性}={高,中,低}
C={是否涉嫌洗钱}={Y,N}
这里需要说明的是A6={往来账户相关性}中的高、中、低三个属性值的 确定。按照账户流动往来的次数对行业间的相关系数进行加权平均,得出的结 果:若≤0.10,则为低;若介于0.10和0.25之间,则为中;若≥0.25,则为高, 如表2所示。
表2面向账户的决策树分类预测算法数据集
账户 | A<sub>1</sub>(万) | A<sub>2</sub>(次) | A<sub>3</sub> | A<sub>4</sub> | A<sub>5</sub> | A<sub>6</sub> | C |
1 | 100-500 | 2 | 1-2 | <2 | <0.2 | 低 | Y |
2 | 1000-5000 | 3 | <1 | 4-6 | 0.2-0.5 | 中 | Y |
3 | <50 | 1 | 1-2 | 2-4 | 0.2-0.5 | 中 | N |
4 | 5000-10000 | >4 | <1 | 4-6 | >0.5 | 中 | Y |
5 | 50-100 | 3 | >2 | <2 | >0.5 | 高 | N |
6 | >10000 | 3 | <1 | >6 | 0.2-0.5 | 高 | N |
7 | 500-1000 | 4 | >2 | 2-4 | 0.2-0.5 | 低 | Y |
… | … | … | … | … | … | … | … |
运用分类预测算法计算数据集按照非类比属性A6划分后的熵值的具体步骤 为:设定非类别属性A6的离散型属性值为“高”、“中”、“低”,将数据集按照属 性A6划分成三个子集{S高}、{S中}、{S低},分别计算三个子集{S高}、{S中}、 {S低}的熵值,计算式为:
式中,S高、S中、S低分别为子集{S高}、{S中}、{S低}的记录数,SY高、SN高、SY中、 SN中、SY低、SN低为分类属性值“Y”和“N”的记录数,
再对三个子集{S高}、{S中}、{S低}的熵值加权平均,得到数据集按照属性 A6划分后的总熵值:
同理,运用分类预测算法计算数据集按照非类比属性A6划分后的熵值的方 法包括决策树算法会按照同样的步骤计算A1、A2、A3、A4、A5、A6这5个非类 别属性的信息增益值Gain(A1)、Gain(A2)、Gain(A3)、Gain(A4)、Gain(A5)、Gain(A6)。
图2中共有20条规则,图2显示的决策树并不是我们最终需要的决策树图 形,在决策树算法结束后,还有必要对生成的决策树做进一步地修剪。在建树 过程中,由于训练集中的噪声、孤立点以及某个节点的数据量太小,会反映在 决策树的分枝中,增加树的复杂性,会出现过学习问题。它表现为用某些分类 规则对训练集预测十分准确,而对测试集预测却误差极大。当出现了过学习问 题时,决策树构造会显得过于复杂,难以理解,对分类树的构造毫无意义,所 以应该在保证正确率的前提下尽量构造简单的决策树。
过分适应问题是影响决策树预测准确率的关键问题,剪去决策树的冗余分 枝是解决过分适应问题的重要方法。图2是表2训练集生成的决策树,最常用 的是基于误差估计的剪枝算法。剪枝常常利用统计学方法,去掉最不可靠、可 能是噪音的一些分枝。剪枝方法可以分为两大类:同步修剪和迟滞修剪。前者 是边建树边修剪,在建树的过程中,预先设定一定条件,例如信息增益或者某 些有效统计量达到某个预先设定的标准时,节点将不再继续分裂,最终成为一 个叶子节点。后者是先建树后修剪,该方法的思想是先让决策树“完全生长”, 然后采用一定的标准评估每个内部节点下的分枝是否冗余分枝,剪掉冗余的分枝,最终使内部节点成为一个最有可能的叶节点。图2中的决策树经过剪枝后, 可以形成如图3所示更为简洁易懂的决策树,图3中仅有10条规则。
在对决策树模型进行修剪的同时,还要对决策树模型加以评估,对其分类 预测的准确性进行判断。通常会用测试集数据对模型的预测准确度进行评估, 当实际的输出结果能够较好地与测试集数据相一致时,模型就会被固定下来, 成为系统的内部知识,用于对新集的挖掘预测。
本实施例提供的基于决策树的反洗钱方法,有益效果在于:提取企业注册 资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、 往来账户相关性等关键账户数据生成数据集,再通过决策树分类预测算法对数 据集进行训练并建树,得出各账户数据与是否涉嫌洗钱之间的关系,因此,根 据建立的决策树模型对账户进行检测反馈,能够迅速并精准的识别出洗钱行为, 以便及时进行犯罪打击,且能够进行批量识别,有效地对洗钱犯罪行为进行了 扼制。
实施例2
请参阅图4,本发明第二实施例提供的一种基于决策树的反洗钱系统,包括:
数据集生成模块:用于提取账户数据并生成数据集,生成的数据集包含非 类比属性和分类属性,所述非类比属性包括企业注册资金、月流动次数、月流 动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性,所述 分类属性为是否涉嫌洗钱。
决策树构建模块:用于基于分类预测算法训练数据集构建决策树。
具体用于运用分类预测算法计算数据集划分前的熵值,计算式如下:
式中,Y和N为分类属性的两个不同的离散属性值,S为数据集中全部的记 录数,SY和SN分别为分类属性值为Y和N的记录数。
运用分类预测算法计算数据集按照非类比属性划分后的熵值:将数据集按 照非类比属性划分成子集,分别计算各个子集的熵值,对所有子集的熵值加权 平均,得到数据集按照属性划分后的总熵值。
运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益 值。
比较各信息增益值之间的大小,取信息增益值最大的非类别属性作为根节 点对数据集进行划分,分类训练集被分成若干个子集,即在决策树根部生出若 干个分枝;
运用分类预测算法计算每一个分支的信息增益,得到各个非类别属性的取 值与是否涉嫌洗钱之间关系的树状模型,设定非类比属性为Aj(j=1、2、3、4、 5、6),计算式如下:
决策树修剪模块:用于对构建的决策树进行修剪,剪去决策树的冗余分枝, 同时对决策树模型进行评估,对其分类预测的准确性进行判断,准确性达到要 求,则修剪后的决策树模型确定。
其中,运用误差估计的剪枝算法对决策树进行修剪。
采用测试集数据对模型的预测准确度进行评估,当实际的输出结果能够较 好地与测试集数据相一致时,模型就会被固定下来,成为系统的内部知识,用 于对新集的挖掘预测。
综上,可以定义如下7个反洗钱决策树分类预测算法的属性:
A1={企业注册资金};
A2={月流动次数};
A3={月流动总额注册资金比};
A4={月流动规律度};
A5={月流动额变异度};
A6={往来账户相关性};
C={是否涉嫌洗钱};
其中C={是否涉嫌洗钱}是分类预测属性。这里的企业注册资金是反映账 户基本特征的描述属性;月流动次数是反映账户资金月流动总数的描述属性; 月流动总额注册资金比为月流动总额/企业注册资金,是反映账户资金月流动总 量的描述属性;月流动规律度是反映当月企业账户资金流动的规律性的描述属 性;月流动额变异度是反映企业账户每月各次资金流动额之间的变动情况的描 述属性;往来账户相关性是反映该开户企业与资金流动另一方的相关度的描述 属性。同时,定义各个属性的属性值如下:
A1={企业注册资金}={<50万,50-100万,100-500万,500-1000万,1000-5000万,5000-10000万,>10000万}
A2={月流动次数}={1,2,3,4,>4}
A3={月流动总额注册资金比}={<1,1-2,>2}
A4={月流动规律度}={<2,2-4,4-6,>6}
A5={月流动额变异度}={<0.2,0.2-0.5,>0.5}
A6={往来账户相关性}={高,中,低}
C={是否涉嫌洗钱}={Y,N}
这里需要说明的是A6={往来账户相关性}中的高、中、低三个属性值的 确定。按照账户流动往来的次数对行业间的相关系数进行加权平均,得出的结 果:若≤0.10,则为低;若介于0.10和0.25之间,则为中;若≥0.25,则为高, 如表2所示。
运用分类预测算法计算数据集按照非类比属性A6划分后的熵值的具体步骤 为:设定非类别属性A6的离散型属性值为“高”、“中”、“低”,将数据集按照属 性A6划分成三个子集{S高}、{S中}、{S低},分别计算三个子集{S高}、{S中}、 {S低}的熵值,计算式为:
式中,S高、S中、S低分别为子集{S高}、{S中}、{S低}的记录数,SY高、SN高、SY中、 SN中、SY低、SN低为分类属性值“Y”和“N”的记录数,
再对三个子集{S高}、{S中}、{S低}的熵值加权平均,得到数据集按照属性 A6划分后的总熵值:
同理,运用分类预测算法计算数据集按照非类比属性A6划分后的熵值的方法包括决策树算法会按照同样的步骤计算A1、A2、A3、A4、A5、A6这5个非类别属 性的信息增益值Gain(A1)、Gain(A2)、Gain(A3)、Gain(A4)、Gain(A5)、Gain(A6)。
本实施例提供的基于决策树的反洗钱系统,有益效果在于:提取企业注册 资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、 往来账户相关性等关键账户数据生成数据集,再通过决策树分类预测算法对数 据集进行训练并建树,得出各账户数据与是否涉嫌洗钱之间的关系,因此,根 据建立的决策树模型对账户进行检测反馈,能够迅速并精准的识别出洗钱行为, 以便及时进行犯罪打击,且能够进行批量识别,有效地对洗钱犯罪行为进行了 扼制。
本发明实施例还提供了一种可读存储介质,其上存储有应用程序,该程序 被处理器执行时实现上述实施例1的方法的步骤。
本发明实施例还提供了一种智能终端设备,包括存储器、处理器以及存储 在存储器上并可在处理器上运行的应用程序,所述处理器执行所述程序时实现 上述实施例1的方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认 为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机 可读介质中,以供指令执行系统、系统或设备(如基于计算机的系统、包括处 理器的系统或其他可以从指令执行系统、系统或设备取指令并执行指令的系统) 使用,或结合这些指令执行系统、系统或设备而使用。就本说明书而言,“计算 机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执 行系统、系统或设备或结合这些指令执行系统、系统或设备而使用的系统。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或 多个布线的电连接部(电子系统),便携式计算机盘盒(磁系统),随机存取存 储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪 速存储器),光纤系统,以及便携式光盘只读存储器(CDROM)。另外,计算机 可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以 例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他 合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器 中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。 在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执 行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方 式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有 用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合 逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
Claims (10)
1.一种基于决策树的反洗钱方法,其特征在于,包括以下步骤:
提取账户数据并生成数据集,生成的数据集包含非类比属性和分类属性,所述非类比属性包括企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性,所述分类属性为是否涉嫌洗钱;
基于分类预测算法训练数据集构建决策树;
对构建的决策树进行修剪,剪去决策树的冗余分枝,同时对决策树模型进行评估,对其分类预测的准确性进行判断,准确性达到要求,则修剪后的决策树模型确定。
2.根据权利要求1所述的基于决策树的反洗钱方法,其特征在于,所述基于分类预测算法训练数据集构建决策树的方法具体包括:
运用分类预测算法计算数据集划分前的熵值;
运用分类预测算法计算数据集按照非类比属性划分后的熵值;
运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值;
比较各信息增益值之间的大小,取信息增益值最大的非类别属性作为根节点对数据集进行划分,分类训练集被分成若干个子集,即在决策树根部生出若干个分枝;
运用分类预测算法计算每一个分支的信息增益,得到各个非类别属性的取值与是否涉嫌洗钱之间关系的树状模型。
4.根据权利要求2所述的基于决策树的反洗钱方法,其特征在于,所述运用分类预测算法计算数据集按照非类比属性划分后的熵值的方法包括:将数据集按照非类比属性划分成子集,分别计算各个子集的熵值,对所有子集的熵值加权平均,得到数据集按照属性划分后的总熵值。
5.根据权利要求4所述的基于决策树的反洗钱方法,其特征在于,设定非类比属性企业注册资金、月流动次数、月流动总额注册资金比、月流动规律度、月流动额变异度、往来账户相关性分别为A1、A2、A3、A4、A5、A6;
运用分类预测算法计算数据集按照非类比属性A6划分后的熵值的具体步骤为:设定非类别属性A6的离散型属性值为“高”、“中”、“低”,将数据集按照属性A6划分成三个子集{S高}、{S中}、{S低},分别计算三个子集{S高}、{S中}、{S低}的熵值,计算式为:
式中,S高、S中、S低分别为子集{S高}、{S中}、{S低}的记录数,SY高、SN高、SY中、SN中、SY低、SN低为分类属性值“Y”和“N”的记录数,
再对三个子集{S高}、{S中}、{S低}的熵值加权平均,得到数据集按照属性A6划分后的总熵值:
6.根据权利要求2所述的基于决策树的反洗钱方法,其特征在于,所述运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值,设定非类比属性为Aj(j=1、2、3、4、5、6),计算式为:
Gain(Aj)=E(SY,SN)-E(Aj)。
7.根据权利要求1所述的基于决策树的反洗钱方法,其特征在于,所述对构建的决策树进行修剪的方法为:运用误差估计的剪枝算法对决策树进行修剪。
8.一种基于决策树的反洗钱系统,其特征在于,包括:
数据集生成模块:用于提取账户数据并生成数据集,生成的数据集包含非类比属性和分类属性,所述非类比属性包括企业注册资金、月流动次数、月流动总额(流入+流出)/企业注册资金、月流动规律度、月流动额变异度、往来账户相关性,所述分类属性为是否涉嫌洗钱;
决策树构建模块:用于基于分类预测算法训练数据集构建决策树;
决策树修剪模块:用于对构建的决策树进行修剪,剪去决策树的冗余分枝,同时对决策树模型进行评估,对其分类预测的准确性进行判断,准确性达到要求,则修剪后的决策树模型确定。
9.根据权利要求8所述的基于决策树的反洗钱系统,其特征在于,所述决策树构建模块:具体用于运用分类预测算法计算数据集划分前的熵值;
运用分类预测算法计算数据集按照非类比属性划分后的熵值;
运用分类预测算法计算数据集按照非类比属性划分前与划分后的信息增益值;
比较各信息增益值之间的大小,取信息增益值最大的非类别属性作为根节点对数据集进行划分,分类训练集被分成若干个子集,即在决策树根部生出若干个分枝;
运用分类预测算法计算每一个分支的信息增益,得到各个非类别属性的取值与是否涉嫌洗钱之间关系的树状模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011236714.4A CN112329862A (zh) | 2020-11-09 | 2020-11-09 | 基于决策树的反洗钱方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011236714.4A CN112329862A (zh) | 2020-11-09 | 2020-11-09 | 基于决策树的反洗钱方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329862A true CN112329862A (zh) | 2021-02-05 |
Family
ID=74316868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011236714.4A Withdrawn CN112329862A (zh) | 2020-11-09 | 2020-11-09 | 基于决策树的反洗钱方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329862A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966023A (zh) * | 2021-03-12 | 2021-06-15 | 中海石油(中国)有限公司 | 一种井筒的完整性预判方法 |
CN113129133A (zh) * | 2021-05-17 | 2021-07-16 | 无锡航吴科技有限公司 | 一种融资平台企业性质分类方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046993A (zh) * | 2018-12-15 | 2019-07-23 | 深圳壹账通智能科技有限公司 | 非法所得合法化行为监测方法、系统、计算机装置及介质 |
CN111145026A (zh) * | 2019-12-30 | 2020-05-12 | 第四范式(北京)技术有限公司 | 一种反洗钱模型的训练方法及装置 |
-
2020
- 2020-11-09 CN CN202011236714.4A patent/CN112329862A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046993A (zh) * | 2018-12-15 | 2019-07-23 | 深圳壹账通智能科技有限公司 | 非法所得合法化行为监测方法、系统、计算机装置及介质 |
CN111145026A (zh) * | 2019-12-30 | 2020-05-12 | 第四范式(北京)技术有限公司 | 一种反洗钱模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨胜刚;王鹏;贺学会: "决策树算法在反洗钱领域中的应用研究", 湖南大学学报(社会科学版), no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966023A (zh) * | 2021-03-12 | 2021-06-15 | 中海石油(中国)有限公司 | 一种井筒的完整性预判方法 |
CN113129133A (zh) * | 2021-05-17 | 2021-07-16 | 无锡航吴科技有限公司 | 一种融资平台企业性质分类方法和系统 |
CN113129133B (zh) * | 2021-05-17 | 2023-11-21 | 无锡航吴科技有限公司 | 一种融资平台企业性质分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Perols et al. | Finding needles in a haystack: Using data analytics to improve fraud prediction | |
Zhang et al. | Machine learning and sampling scheme: An empirical study of money laundering detection | |
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
Giudici et al. | Network based scoring models to improve credit risk management in peer to peer lending platforms | |
US20220122171A1 (en) | Client server system for financial scoring with cash transactions | |
Abdelmoula | Bank credit risk analysis with k-nearest-neighbor classifier: Case of Tunisian banks | |
CN107633030B (zh) | 基于数据模型的信用评估方法及装置 | |
CN111476660B (zh) | 一种基于数据分析的智能风控系统及方法 | |
Brozyna et al. | Statistical methods of the bankruptcy prediction in the logistics sector in Poland and Slovakia | |
AU2019101189A4 (en) | A financial mining method for credit prediction | |
Abdou et al. | Prediction of financial strength ratings using machine learning and conventional techniques | |
Ruyu et al. | A comparison of credit rating classification models based on spark-evidence from lending-club | |
Javadian Kootanaee et al. | A hybrid model based on machine learning and genetic algorithm for detecting fraud in financial statements | |
CN111340086A (zh) | 无标签数据的处理方法、系统、介质及终端 | |
Van Thiel et al. | Artificial intelligent credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
Zhao et al. | Dmdp: A dynamic multi-source default probability prediction framework | |
CN113689218A (zh) | 风险账户的识别方法、装置、计算机设备和存储介质 | |
CN111046947B (zh) | 分类器的训练系统及方法、异常样本的识别方法 | |
Dasari et al. | Prediction of bank loan status using machine learning algorithms | |
Kamusweke et al. | Data mining for fraud detection in large scale financial transactions | |
Yang et al. | An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity | |
US20200285895A1 (en) | Method, apparatus and computer program for selecting a subset of training transactions from a plurality of training transactions | |
CN114443409A (zh) | 支付业务系统监控方法、装置和设备及计算机存储介质 | |
Lee et al. | Application of machine learning in credit risk scorecard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210205 |