CN113095927A - 一种反洗钱可疑交易识别方法及设备 - Google Patents
一种反洗钱可疑交易识别方法及设备 Download PDFInfo
- Publication number
- CN113095927A CN113095927A CN202110200921.2A CN202110200921A CN113095927A CN 113095927 A CN113095927 A CN 113095927A CN 202110200921 A CN202110200921 A CN 202110200921A CN 113095927 A CN113095927 A CN 113095927A
- Authority
- CN
- China
- Prior art keywords
- transaction data
- model
- suspicious
- transaction
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004900 laundering Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 86
- 238000010801 machine learning Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 32
- 230000006399 behavior Effects 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000013024 troubleshooting Methods 0.000 abstract description 3
- 238000003860 storage Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Technology Law (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种反洗钱可疑交易识别方法及设备。本发明在识别模型中设置了规则模型以及机器学习算法模型,对机器学习算法模型输出的第一结果以及规则模型输出的第二结果求取加权平均值,得到所述用户交易数据属于可疑交易数据的概率,并根据所述概率,判断所述客户交易数据是否为可疑交易数据。本发明通过结合机器学习算法模型输出的第一结果与规则模型输出的第二结果对可疑交易进行预测和判断,提高了对可疑交易数据识别的准确率以及识别范围,减少了误报率,提高了排查效率。
Description
技术领域
本发明涉及金融领域,尤其涉及一种反洗钱可疑交易识别方法及设备。
背景技术
反洗钱对于维护金融体系的稳健运行,维护公平公正市场经济秩序的客观要求,对打击腐败等违法犯罪具有重要意义。近年来,人民银行及金融机构逐步规范了金融机构的大额交易和可疑交易监测分析及报告行为,有力的打击了洗钱活动,大额交易和可疑交易报告是反洗钱的重要工作之一,但与此同时证券公司在建设反洗钱可疑交易监测系统中遇到了不少挑战。
目前业内传统的方案是使用基于专家规则的可疑交易监测模型来进行反洗钱识别和有效性评估。这种方案主要是利用业务经验和专家知识来进行分析判断,但随着证券行业业务的不断发展,业务规则、系统、洗钱手法都在升级,固定的规则和策略更新速度跟不上业务的发展及规模的增长速度,就需要更多的人工进行可疑交易分析和甄别来弥补系统的不足,给证券公司造成持续增长的人力成本和带来越来越大的操作性风险。
随着互联网技术的发展,业内开始出现利用机器学习算法模型进行反洗钱可疑交易识别的系统和方案,这种方案旨在利用人工智能机器学习技术,通过参考过去已有的可疑交易案例,自动学习专家对可疑案例进行分析和识别的思路,利用具有专家审核结果的样本数据,从中学习并提取与洗钱行为有关的特征信息,最终使用机器学习算法实现对可疑交易的自动分类和排序。相比专家规则系统,机器学习方式可以迭代自学习,有更好的泛化能力,可以降低可疑交易识别的误报率,从而节省人工成本。
但是现有技术中,单个反洗钱机器学习模型的准确率不够高,无法有效的减少系统的误报率;且反洗钱机器学习模型的识别效果有限,对于符合监管要求的可疑上报案例暂时无法全部覆盖;其次,反洗钱机器学习模型一旦训练完成,无法进行自动更新和迭代,随着时间的迁移,洗钱手法可能会发生变化,但是模型却无法捕捉新型案例特征,从而准确率越来越低;并且利用反洗钱机器学习模型预测的案例,无法从根本上进行原因分析和解释,不满足监管机构的要求;针对规则模型警报的案例,除去指标特征外,还需要人工从零开始对案例进行分析和排查,耗费较多的人力和时间。
综上所述,现有技术中采用反洗钱机器学习模型,存在着识别准确性不高以及识别范围有限的技术问题。
发明内容
本发明提供了一种反洗钱可疑交易识别方法及设备,提高了对可疑交易进行识别的准确率以及识别范围。
为了解决上述技术问题,本发明实施例提供了一种反洗钱可疑交易识别方法,包括以下步骤:
获取待识别的客户交易数据,并从所述客户交易数据中提取出交易数据特征以及交易事件指标;
将所述交易数据特征以及所述交易数据事件指标输入到预先设置的识别模型中,获取所述识别模型输出的第一结果和第二结果;其中,所述识别模型包括机器学习算法模型以及规则模型,所述机器学习算法模型用于根据所述交易数据特征计算所述客户交易数据属于可疑交易数据的概率将其作为第一结果输出,所述规则模型用于根据所述交易事件指标计算所述用户交易数据所属的可疑交易事件类型,并将所述可疑交易类型作为所述第二结果输出;
计算所述第一结果和所述第二结果的加权平均值,得到所述用户交易数据属于可疑交易数据的概率,并根据所述概率,判断所述客户交易数据是否为可疑交易数据。
优选的,预先设置所述识别模型的具体过程为:
获取客户的历史交易数据,从所述历史交易数据中选取出第一训练样本数据,确所述机器学习算法模型初始的参数;
从所述第一训练样本数据中提取出历史交易数据特征,将所述历史交易数据特征输入到机器学习算法模型中进行训练,更新所述机器学习算法模型的参数,获得设置好的机器学习算法模型;
基于所述设置好的学习算法模型以及所述规则模型建立设置好的识别模型。
优选的,所述机器学习算法模型包括一个算法子模型或多个算法子模型的组合,其中,算法子模型为逻辑回归子模型、梯度提升决策树子模型、随机森林子模型以及极端梯度提升决策树子模型中的任意一种。
优选的,所述规则模型中包括有M个规则子模型,其中M均正整数,每个所述规则子模型对应一种可疑交易事件,每个所述规则子模型根据所述交易事件指标判断所述客户交易数据是否构成该规则子模型所对应的可疑交易事件。
优选的,所述第一结果中还包括每个所述算法子模型预先设置的第一权重;所述第二结果中还包括每个所述规则子模型预先设置的第二权重。
优选的,其特征在于,根据比较结果判断所述客户交易数据是否为可疑交易数据后,还包括以下步骤:
若所述客户交易数据为可疑交易数据,则发出警报,从所述规则子模型中获取所述客户交易数据所对应的可疑交易事件,对所述机器学习算法模型输出的第一结果进行因子挖掘,得到所述客户交易数据的交易数据特征因子;
从外部信息数据库中获取与客户相关联的行为信息;
根据所述客户当前的数据所对应的可疑交易事件、所述客户交易数据的交易数据特征因子以及所述行为信息,生成客户可疑交易信息报告;
若客户交易数据不是可疑交易数据,则不执行动作。
优选的,对所述机器学习算法模型输出的第一结果进行因子挖掘,得到所述客户交易数据的交易数据特征因子的具体过程为:
计算每个算法子模型对所述概率的贡献程度,选择出所述贡献程度最大的算法子模型;对贡献程度最大的算法子模型进行因子挖掘,计算每个所述交易数据特征对所述概率的贡献程度,按照所述贡献程度从高到低对所述交易数据特征进行排序,选择出前Z个所述交易数据特征作为交易数据特征因子,其中,Z为正整数。
优选的,所述与客户相关联的行为信息包括外部舆情信息、监管信息、工商管理信息以及诉讼信息。
优选的,在所述识别模型输出的第一结果和第二结果之后,还包括:
将所述客户交易数据加入所述历史交易数据中,从所述历史数据集中选取出第二训练样本数据;
从所述第二训练样本中提取出第一交易数据特征,将所述第一交易数据特征输入到所述机器学习算法模型进行训练,更新所述机器学习算法模型的参数,得到更新后的机器学习算法模型;
基于所述更新后的机器学习算法模型以及所述规则模型建立更新后的可疑交易识别模型,将所述更新后的可疑交易识别模型用于下一次的反洗钱可疑交易识别中。
本发明实施例还提供了一种反洗钱可疑交易识别设备,,包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的一种反洗钱可疑交易识别方法。
相比于现有技术,本发明实施例具有如下有益效果:
1、本发明实施例在识别模型中设置了规则模型以及机器学习算法模型,对机器学习算法模型输出的第一结果以及规则模型输出的第二结果求取加权平均值,得到所述用户交易数据属于可疑交易数据的概率,并根据所述概率,判断所述客户交易数据是否为可疑交易数据。本发明实施例通过结合机器学习算法模型输出的第一结果与规则模型输出的第二结果对可疑交易进行预测和判断,提高了对可疑交易数据识别的准确率以及识别范围,减少了误报率,提高了排查效率。
2、本发明实施例通过分别在机器学习算法模型以及规则模型中设置多个算法子模型以及规则子模型,从而提高了对可疑交易进行识别范围以及效率,并且本发明实施例中为每个算法子模型和规则子模型预先设置权重,通过增大准确率较高子模型的权重值,降低准确率较低模型的权重值,扬长避短,进一步提高对可疑交易数据识别的准确率。
3、本发明实施例在发出警报之后,对机器学习算法模型输出的第一结果进行因子挖掘,使机器学习算法模型的预测结果有据可循,同时,还从外部信息数据库中获取与客户相关联的行为信息,并在此基础上生成客户可疑交易信息报告,以方便相关人员进行后续的排查与审核工作。
4、本发明实施例还设置了识别模型的自动更新机制,随着每天可疑交易数据的更新,在合并新的数据流后使用更新后的训练样本数据对模型进行迭代优化,及时掌握可疑交易的最新动态,保证识别模型的识别有效性以及准确率。
附图说明
图1:为本发明实施例提供的一种反洗钱可疑交易识别方法的流程图。
图2:为本发明实施例提供的一种反洗钱可疑交易识别方法的流程图。
图3:为本发明实施例提供的一种反洗钱可疑交易识别方法的流程图。
图4:为本发明实施例提供的一种反洗钱可疑交易识别方法的决策树模型的工作流程示意图。
图5:为本发明实施例提供的一种反洗钱可疑交易识别方法中生成可疑交易信息报告的流程示意图。
图6:为本发明实施例提供的一种反洗钱可疑交易识别方法中对识别模型进行更新的流程图。
图7:为本发明实施例提供的一种反洗钱可疑交易识别设备的设备框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,为本发明实施例提供的一种反洗钱可疑交易识别方法,包括以下步骤:
S101:获取待识别的客户交易数据,并从客户交易数据中提取出交易数据特征以及交易事件指标。
其中,需要进一步说明的是,客户交易数据包括但不限于客户维度的信息,如客户年龄、性别、职业、学历等;客户交易特征,如客户一段时间内的累积交易总额、交易笔数;客户资金特征,如一段时间内客户的转入转出金额、次数等。
S102:将交易数据特征以及交易数据事件指标输入到预先设置的识别模型中,获取识别模型输出的第一结果和第二结果;其中,识别模型包括机器学习算法模型以及规则模型,机器学习算法模型用于根据交易数据特征计算客户交易数据属于可疑交易数据的概率将其作为第一结果输出,规则模型用于根据交易事件指标计算用户交易数据所属的可疑交易事件类型,并将可疑交易类型作为第二结果输出。
S103:计算第一结果和第二结果的加权平均值,得到用户交易数据属于可疑交易数据的概率,并根据概率,判断客户交易数据是否为可疑交易数据。
其中,需要进一步说明的是,若概率超过阈值,则客户交易数据为可疑交易数据,若概率没有超过阈值,则客户交易数据为正常交易数据。
本发明实施例通过结合机器学习算法模型输出的第一结果与规则模型输出的第二结果对可疑交易进行预测和判断,提高了对可疑交易数据识别的准确率以及识别范围,减少了误报率,提高了排查效率。
实施例二
如图2所示,图2为本发明实施例提供的一种反洗钱可疑交易识别方法,包括以下步骤:
S201:获取待识别的客户交易数据,并从客户交易数据中提取出交易数据特征以及交易事件指标。
其中,需要进一步说明的是,客户交易数据包括但不限于客户维度的信息,如客户年龄、性别、职业、学历等;客户交易特征,如客户一段时间内的累积交易总额、交易笔数;客户资金特征,如一段时间内客户的转入转出金额、次数等。
S202:预先对识别模型进行训练,得到训练好的识别模型。训练的具体过程为:
获取客户的历史交易数据,从历史交易数据中选取出第一训练样本数据,确机器学习算法模型初始的参数,从第一训练样本数据中提取出历史交易数据特征,将历史交易数据特征输入到机器学习算法模型中进行训练,更新机器学习算法模型的参数,获得设置好的机器学习算法模型;基于训练好的学习算法模型以及规则模型建立设置好的训练模型。
S203:将交易数据特征以及交易数据事件指标输入到预先设置的识别模型中,获取识别模型输出的第一结果和第二结果;其中,识别模型包括机器学习算法模型以及规则模型,机器学习算法模型用于根据交易数据特征计算客户交易数据属于可疑交易数据的概率将其作为第一结果输出,规则模型用于根据交易事件指标计算用户交易数据所属的可疑交易事件类型,并将可疑交易类型作为第二结果输出。
其中,需要进一步说明的是,在本实施例中,如图3所示,机器学习算法模型包括四个算法子模型,分别为:逻辑回归子模型(LR)、梯度提升决策树子模型(GBDT)、随机森林子模型(RF)以及极端梯度提升决策树子模型(XgBoost);规则模型规则模型中包括有M个规则子模型,M为正整数,每个规则子模型对应一种可疑交易事件类型,例如类型有“通过异常交易谋取非法收益”、“利用证券业务掩饰资金去向”等,每个规则子模型模型里会制定多种不同的交易事件指标,每个交易事件指标有其对应的分数S和权重W。
逻辑回归子模型、梯度提升决策树子模型、随机森林子模型以及极端梯度提升决策树子模型分别根据输入的交易数据特征输出一个单独的预测分数,表示客户交易数据属于可疑交易数据的概率。每个规则子模型用于根据交易事件指标判断客户交易数据是否构成该规则子模型所对应的可疑交易事件类型,其工作原理如表1。
假设规则子模型的判断阈值设为80分,某个客户交易数据满足了规则子模型A的b、c指标和规则子模型B的e指标,则对于规则子模型A的得分为100*40%+100*20%=60<80,对于规则子模型B的得分为100*80%=80≥80,最终该客户交易数据被判定为规则子模型B所对应的可疑交易事件类型。
其中,算法子模型输出的第一结果中还包括每个算法子模型预先设置的第一权重;规则子模型输出的第二结果中还包括每个规则子模型预先设置的第二权重。需要进一步说明的是,分别在识别模型的训练过程中统计每个算法子模型以及规则子模型的误报率,算法子模型/规则子模型的误报率越低,说明其有效性越高,对应第一权重/第二权重越大;算法子模型/规则子模型的的误报率越高,对应第一权重/第二权重越小。
S204:计算第一结果和第二结果的加权平均值,得到用户交易数据属于可疑交易数据的概率。
其中,基于第一结果以及第二结果,计算客户交易数据属于可疑交易数据的概率的公式为:
其中,pn表示第n个算法子模型预测客户交易数据属于可疑交易数据的概率,αn表示算法子模型对应的权重值,0≤pn≤1,0≤αn≤1;qm表示第m个规则子模型的预测结果,βm表示当前规则子模型对应的权重值,qm=0or1,0≤βm≤1,n和m分别表示算法子模型的个数和规则子模型的个数。
S205:根据概率判断客户交易数据是否为可疑交易数据,若概率超过阈值,则客户交易数据为可疑交易数据,发出警报,若概率没有超过阈值,则客户交易数据为正常交易数据,则不执行动作。
在本实施例中,在发出警报之后,需要对当前警报进行可解释性的分析,,具体包括以下步骤:
S206:从规则子模型中获取客户交易数据所对应的可疑交易事件类型,使用该可疑交易事件类型对应的规则子模型中的交易事件指标和判断阈值作为警报的原因。
S207:对机器学习算法模型输出的第一结果进行因子挖掘,得到客户交易数据的交易数据特征因子,其具体过程为:
计算每个算法子模型对概率的贡献程度,选择出贡献程度最大的算法子模型;设客户交易数据被预测为可疑交易数据的最终概率为p(x),则第i个算法子模型对预测结果的贡献分数如下:
其中,αi为第i个算法子模型的权重,pi为第i个模型预测该样本为可疑样本的概率,n为算法子模型的总个数。对所有算法子模型的贡献分数从大到小进行排序,选择分数最大的算法子模型进行因子挖掘,计算每个交易数据特征对概率的贡献程度,不同的算法子模型要采用其对应的分析方法。
对于决策树模型来说(梯度提升决策树(GBDT)、随机森林(RF)、极端梯度提升决策树(XgBoost)三种算法),其是由结点和有向边组成。结点有两种类型:内部结点和叶结点,其中内部结点表示一个特征或属性,叶结点表示一个类。一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。在图4中,圆和方框分别表示内部结点和叶结点:
每得到一个预测结果,就意味着客户交易数据从该模型的根结点走到了叶子结点,而该路径上经过的所有结点特征即为客户交易数据被判定为可疑交易数据的原因。比如,若某客户交易数据被判定为图4中的L4类别,则交易数据特征A,C,D和其对应的限制值即为该客户交易数据的分类结果的影响因子。而对于多颗决策树的组合模型而言,将汇总所有决策路径结点上的交易数据特征和限制值,根据交易数据特征的出现频次对交易数据特征进行排序,取其中的TOP Z个交易数据特征及其对应的限制值作为集合返回,例如某个客户交易数据经过上述方法分析后,最终返回的影响因子集合可能为{三个月内指定交易次数>3,半年内频繁变更存管银行次数>5,与该客户联系方式相同的客户数>8,……}。
而逻辑回归子模型(LR)是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型,从本质来说:在分类情况下,经过学习后的LR分类器其实就是一组权重θ,当有客户交易数据输入时,这组权值与客户交易数据按照加权得到:
hθ(x)=θ0+θ1x1+θ2x2+…+θnxn
其中,x1,x2,…,xn为客户交易数据的n个交易数据特征。之后在按照Sigmoid函数的形式求出P(y=1|x;θ),从而判断客户交易数据所属的类别。因此,若客户交易数据被LR模型判定为可疑交易数据,则取该客户交易数据中交易数据特征不等于零的特征,对其交易数据特征的权重从大到小进行排序,权重越大,表示该交易数据特征对预测结果的影响越大,取其中的TOP Z个交易数据特征作为影响因子集合辅助审核人员进行分析。例如某个客户交易数据经过上述方法分析后,最终返回的影响因子集合可能为{客户职业为空,身份证件已过期,客户所在地为高风险国家/地区,……}。
S208:从外部信息数据库中获取与客户相关联的行为信息。具体地,若客户交易数据被判定为可疑交易数据时,则提取其对应客户的姓名、客户号、客户职业、行业等信息作为关键字在舆情标签数据库、监管函件数据库、工商信息数据库、诉讼信息等数据库中检索该客户关联的历史行为数据信息,根据时间线自动将关联的历史行为数据信息进行整理与汇总,形成该客户的历史行为集合,进一步辅助审核人员进行可疑案例分析。
S209:根据客户交易数据所对应的可疑交易事件、客户交易数据的交易数据特征因子以及行为信息,生成客户可疑交易信息报告,如图5所示。
在实际工作过程中,真正的可疑案例会随着时间不断增加,这些新增的数据表示外部世界中不断变化的基本事实。如果不进行周期性的重新训练,随着现实世界洗钱手法的演变,识别模型的准确性自然会随时间下降。因此,在本实施例中,将数据集获取、数据清洗、样本分割、特征提取及处理、模型训练、模型保存几个环节串联形成一套自动更新的机制,如图6所示,其具体步骤为:
S301:在获取识别模型输出的判断结果之后,将客户交易数据加入历史数据集中,从历史数据集中选取出训练样本数据。
需要进一步说明的是,其具体为:使用历史发出警报的客户交易数据、当天新增发出警报的客户交易数据、以及其他未发出警报的客户交易数据汇总起来作为整个数据集。将合规专员历史上上报的可疑交易数据以及当天新增上报的可疑交易数据汇总作为训练样本中的正样本;将历史上发出警报但是最终没有上报的客户交易数据,以及没有发出警报的客户交易数据合并起来作为负样本,从而获得识别模型训练需要的输入数据。根据输入数据的数据量大小,设置时间窗口大小变量,选取时间窗口内的输入数据作为训练样本数据,并对训练样本数据进行数据清洗,进行重复数据筛选、异常数据检验删除、噪音数据检验处理、缺失数据补充等数据清洗操作。
S302:以一定比例(如7:2:1)将经过清洗后的训练样本数据划分为训练集、校验集和测试集。
S303:从训练集中提取出交易数据特征,得到训练集的交易数据特征数据。
其具体过程为:在构建交易数据特征时,考虑从客户信息、交易属性和交易行为三个维度入手。客户信息需要根据客户类型区分个人客户和机构客户,针对不同类型的客户选择不同的特征,如个人客户选择年龄、职业、收入、国籍、是否属于涉恐名单等特征,机构客户则构建注册国家、注册资金、机构类别等特征;交易属性特征则包括交易金额、交易时间、交易币种、交易IP等属性类型的特征;交易行为特征主要指客户在滑动时间窗口(如1天、3天、10天、30天)内的各种累计、频率交易的汇总特征,如时间窗口内的转存笔数、大宗交易金额、融资融券笔数、申购赎回金额等。此外,还可以通过分析证券行业各种典型的洗钱场景,对特征进行补充提取,如场外配资、内幕交易、异常交易等场景,将案例特征化,特征指标化,最终将所有类型的交易数据特征进行组合处理后,还可以使用特征重要性算法分析各交易数据特征的有效性,进一步进行交易数据特征的筛选工作。
S304:基于训练集的交易数据特征数据、校验集以及测试集,对识别模型进行训练,得到训练好的识别模型。
其中,需要进一步说明的是,本实施例中使用了逻辑回归、Random Forest、GBDT、Xgboost对识别模型进行训练。在结果评估方面,选择AUC、precision、recall作为识别模型分类结果的评估指标。
S305:将训练好的识别模型进行保存,实现模型的迭代更新,并将更新后的模型用于下一次的反洗钱可疑交易识别中。
实施例4
如图7所示,本实施例提供了一种反洗钱可疑交易识别设备40,所述设备包括处理器400以及存储器401;
所述存储器401用于存储程序代码402,并将所述程序代码402传输给所述处理器;
所述处理器400用于根据所述程序代码402中的指令执行上述的一种反洗钱可疑交易识别方法实施例中的步骤。
示例性的,所述计算机程序402可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器401中,并由所述处理器400执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序402在所述终端设备40中的执行过程。
所述终端设备40可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器400、存储器401。本领域技术人员可以理解,图7仅仅是终端设备40的示例,并不构成对终端设备40的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器400可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器401可以是所述终端设备40的内部存储单元,例如终端设备40的硬盘或内存。所述存储器401也可以是所述终端设备40的外部存储设备,例如所述终端设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器401还可以既包括所述终端设备40的内部存储单元也包括外部存储设备。所述存储器401用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器401还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种反洗钱可疑交易识别方法,其特征在于,包括以下步骤:
获取待识别的客户交易数据,并从所述客户交易数据中提取出交易数据特征以及交易事件指标;
将所述交易数据特征以及所述交易数据事件指标输入到预先设置的识别模型中,获取所述识别模型输出的第一结果和第二结果;其中,所述识别模型包括机器学习算法模型以及规则模型,所述机器学习算法模型用于根据所述交易数据特征计算所述客户交易数据属于可疑交易数据的概率将其作为第一结果输出,所述规则模型用于根据所述交易事件指标计算所述用户交易数据所属的可疑交易事件类型,并将所述可疑交易类型作为所述第二结果输出;
计算所述第一结果和所述第二结果的加权平均值,得到所述用户交易数据属于可疑交易数据的概率,并根据所述概率,判断所述客户交易数据是否为可疑交易数据。
2.根据权利要求1所述的一种反洗钱可疑交易识别方法,其特征在于,预先设置所述识别模型的具体过程为:
获取客户的历史交易数据,从所述历史交易数据中选取出第一训练样本数据,确所述机器学习算法模型初始的参数;
从所述第一训练样本数据中提取出历史交易数据特征,将所述历史交易数据特征输入到机器学习算法模型中进行训练,更新所述机器学习算法模型的参数,获得设置好的机器学习算法模型;
基于所述设置好的学习算法模型以及所述规则模型建立设置好的识别模型。
3.根据权利要求2所述的一种反洗钱可疑交易识别方法,其特征在于,所述机器学习算法模型包括一个算法子模型或多个算法子模型的组合,其中,算法子模型为逻辑回归子模型、梯度提升决策树子模型、随机森林子模型以及极端梯度提升决策树子模型中的任意一种。
4.根据权利要求3所述的一种反洗钱可疑交易识别方法,其特征在于,所述规则模型中包括有M个规则子模型,其中M均正整数,每个所述规则子模型对应一种可疑交易事件,每个所述规则子模型根据所述交易事件指标判断所述客户交易数据是否构成该规则子模型所对应的可疑交易事件。
5.根据权利要求4所述的一种反洗钱可疑交易识别方法,其特征在于,所述第一结果中还包括每个所述算法子模型预先设置的第一权重;所述第二结果中还包括每个所述规则子模型预先设置的第二权重。
6.根据权利要求5所述的一种反洗钱可疑交易识别方法,其特征在于,其特征在于,根据比较结果判断所述客户交易数据是否为可疑交易数据后,还包括以下步骤:
若所述客户交易数据为可疑交易数据,则发出警报,从所述规则子模型中获取所述客户交易数据所对应的可疑交易事件,对所述机器学习算法模型输出的第一结果进行因子挖掘,得到所述客户交易数据的交易数据特征因子;
从外部信息数据库中获取与客户相关联的行为信息;
根据所述客户当前的数据所对应的可疑交易事件、所述客户交易数据的交易数据特征因子以及所述行为信息,生成客户可疑交易信息报告;
若客户交易数据不是可疑交易数据,则不执行动作。
7.根据权利要求6所述的一种反洗钱可疑交易识别方法,其特征在于,对所述机器学习算法模型输出的第一结果进行因子挖掘,得到所述客户交易数据的交易数据特征因子的具体过程为:
计算每个算法子模型对所述概率的贡献程度,选择出所述贡献程度最大的算法子模型;对贡献程度最大的算法子模型进行因子挖掘,计算每个所述交易数据特征对所述概率的贡献程度,按照所述贡献程度从高到低对所述交易数据特征进行排序,选择出前Z个所述交易数据特征作为交易数据特征因子,其中,Z为正整数。
8.根据权利要求7所述的一种反洗钱可疑交易识别方法,其特征在于,所述与客户相关联的行为信息包括外部舆情信息、监管信息、工商管理信息以及诉讼信息。
9.根据权利要求8所述的一种反洗钱可疑交易识别方法,其特征在于,在所述识别模型输出的第一结果和第二结果之后,还包括:
将所述客户交易数据加入所述历史交易数据中,从所述历史数据集中选取出第二训练样本数据;
从所述第二训练样本中提取出第一交易数据特征,将所述第一交易数据特征输入到所述机器学习算法模型进行训练,更新所述机器学习算法模型的参数,得到更新后的机器学习算法模型;
基于所述更新后的机器学习算法模型以及所述规则模型建立更新后的可疑交易识别模型,将所述更新后的可疑交易识别模型用于下一次的反洗钱可疑交易识别中。
10.一种反洗钱可疑交易识别设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至权利要求9中任一项所述的一种反洗钱可疑交易识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200921.2A CN113095927B (zh) | 2021-02-23 | 2021-02-23 | 一种反洗钱可疑交易识别方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200921.2A CN113095927B (zh) | 2021-02-23 | 2021-02-23 | 一种反洗钱可疑交易识别方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095927A true CN113095927A (zh) | 2021-07-09 |
CN113095927B CN113095927B (zh) | 2024-04-16 |
Family
ID=76667254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110200921.2A Active CN113095927B (zh) | 2021-02-23 | 2021-02-23 | 一种反洗钱可疑交易识别方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095927B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642867A (zh) * | 2021-07-30 | 2021-11-12 | 南京星云数字技术有限公司 | 评估风险的方法及系统 |
CN113762913A (zh) * | 2021-07-20 | 2021-12-07 | 北京开科唯识技术股份有限公司 | 一种用户账户实时监测方法及系统 |
CN114004356A (zh) * | 2021-11-05 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 反洗钱模型训练方法、反洗钱方法以及装置 |
CN114820205A (zh) * | 2022-06-02 | 2022-07-29 | 深圳市泰铼科技有限公司 | 基于人工智能的时间线证券资产管理系统 |
TWI831364B (zh) * | 2022-09-07 | 2024-02-01 | 兆豐國際商業銀行股份有限公司 | 基於量化影響因子的風險評估系統及其方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325528A1 (en) * | 2018-04-24 | 2019-10-24 | Brighterion, Inc. | Increasing performance in anti-money laundering transaction monitoring using artificial intelligence |
WO2020102395A1 (en) * | 2018-11-14 | 2020-05-22 | C3.Ai, Inc. | Systems and methods for anti-money laundering analysis |
US20200258147A1 (en) * | 2019-02-13 | 2020-08-13 | Yuh-Shen Song | Intelligent alert system |
US20200265336A1 (en) * | 2019-02-15 | 2020-08-20 | Zestfinance, Inc. | Systems and methods for decomposition of differentiable and non-differentiable models |
-
2021
- 2021-02-23 CN CN202110200921.2A patent/CN113095927B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325528A1 (en) * | 2018-04-24 | 2019-10-24 | Brighterion, Inc. | Increasing performance in anti-money laundering transaction monitoring using artificial intelligence |
WO2020102395A1 (en) * | 2018-11-14 | 2020-05-22 | C3.Ai, Inc. | Systems and methods for anti-money laundering analysis |
US20200258147A1 (en) * | 2019-02-13 | 2020-08-13 | Yuh-Shen Song | Intelligent alert system |
US20200265336A1 (en) * | 2019-02-15 | 2020-08-20 | Zestfinance, Inc. | Systems and methods for decomposition of differentiable and non-differentiable models |
Non-Patent Citations (2)
Title |
---|
冯芸;严畅;杨冬梅;张晶晶;: "基于网络支付的电子商务环境中洗钱行为的识别和监管", 系统工程理论与实践, no. 12 * |
刘璇;张朋柱;李嘉;陈智高;: "商业银行资金异常识别研究", 系统管理学报, no. 03 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762913A (zh) * | 2021-07-20 | 2021-12-07 | 北京开科唯识技术股份有限公司 | 一种用户账户实时监测方法及系统 |
CN113762913B (zh) * | 2021-07-20 | 2022-03-15 | 北京开科唯识技术股份有限公司 | 一种用户账户实时监测方法及系统 |
CN113642867A (zh) * | 2021-07-30 | 2021-11-12 | 南京星云数字技术有限公司 | 评估风险的方法及系统 |
CN114004356A (zh) * | 2021-11-05 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 反洗钱模型训练方法、反洗钱方法以及装置 |
CN114820205A (zh) * | 2022-06-02 | 2022-07-29 | 深圳市泰铼科技有限公司 | 基于人工智能的时间线证券资产管理系统 |
TWI831364B (zh) * | 2022-09-07 | 2024-02-01 | 兆豐國際商業銀行股份有限公司 | 基於量化影響因子的風險評估系統及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113095927B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095927B (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN109492945A (zh) | 企业风险识别监控方法、装置、设备及存储介质 | |
Alden et al. | Detection of financial statement fraud using evolutionary algorithms | |
CN111861698B (zh) | 一种基于贷款多头数据的贷前审批预警方法及系统 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
Liang et al. | A stock time series forecasting approach incorporating candlestick patterns and sequence similarity | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN113706291A (zh) | 欺诈风险预测方法、装置、设备及存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
Hidayattullah et al. | Financial statement fraud detection in Indonesia listed companies using machine learning based on meta-heuristic optimization | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 | |
CN115187259A (zh) | 基于无监督式机器学习的区块链异常交易识别方法和系统 | |
Pang et al. | WT combined early warning model and applications for loaning platform customers default prediction in smart city | |
Yang et al. | An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity | |
CN113850483A (zh) | 一种企业信用风险评级系统 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
Dzelihodzic et al. | Data Mining Techniques for Credit Risk Assessment Task | |
Zeng | A comparison study on the era of internet finance China construction of credit scoring system model | |
Yazdani | Developing a model for validation and prediction of bank customer credit using information technology (case study of Dey Bank) | |
Kotsiantis et al. | Financial Application of Neural Networks: two case studies in Greece | |
Nazari et al. | Evaluating the effectiveness of data mining techniques in credit scoring of bank customers using mathematical models: a case study of individual borrowers of Refah Kargaran Bank in Zanjan Province, Iran | |
Sharma et al. | A Logistic Regression Based Credit Risk Assessment Using WoE Bining and Enhanced Feature Engineering Approach ANOVA and Chi-Square |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |