CN112712369A

CN112712369A - 一种反洗钱可疑交易监测方法和装置

Info

Publication number: CN112712369A
Application number: CN202011483820.2A
Authority: CN
Inventors: 刘鸿斌
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-27

Abstract

本发明公开了一种反洗钱可疑交易监测方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对待监测交易进行可疑客户筛查，获得第二可疑客户集合；利用预设的可疑客户筛查规则，对第一可疑客户集合进行过滤筛查，获取第一可疑客户集合中的第一目标客户；根据第一可疑客户集合中其他第一可疑客户和第二可疑客户集合，获取交集客户和第二目标客户；根据第一目标客户、第二目标客户和交集客户，生成可疑报告，以便根据可疑报告进行人工甄别。该实施方式能够在保证高召回率的情况下，降低现有规则模型的无效告警，节省金融机构的人工成本。

Description

一种反洗钱可疑交易监测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种反洗钱可疑交易监测方法和装置。

背景技术

当前，基于规则组合策略的反洗钱可疑交易监测模型的优化迭代速率往往跟不上时代变迁，存在着预警量大、误报率高、可疑确认率低等问题，导致需要用更多的人工处理来弥补模型缺陷，人力成本高。另外，洗钱手段的复杂性和多变性，而现有基于规则组合策略的反洗钱可疑交易监测模型的特征大都依赖人工经验和历史数据总结，存在疏漏，且容易被犯罪分子掌握一些反洗钱规则，会刻意地去规避。

发明内容

有鉴于此，本发明实施例提供一种反洗钱可疑交易监测方法和装置，能够在保证高召回率的情况下，降低现有规则模型的无效告警，节省金融机构的人工成本。

为实现上述目的，根据本发明实施例的一个方面，提供了一种反洗钱可疑交易监测方法。

本发明实施例的一种反洗钱可疑交易监测方法，包括：基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对所述待监测交易进行可疑客户筛查，获得第二可疑客户集合，其中，所述规则模型为基于规则组成策略的反洗钱可疑交易监测模型，所述机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型；利用预设的可疑客户筛查规则，对所述第一可疑客户集合进行过滤筛查，获取所述第一可疑客户集合中的第一目标客户；根据所述第一可疑客户集合中其他第一可疑客户和所述第二可疑客户集合，获取交集客户和第二目标客户，其中，所述其他第一可疑客户为所述第一可疑客户集合中除所述第一目标客户之外的第一可疑客户；根据所述第一目标客户、所述第二目标客户和所述交集客户，生成可疑报告，以便根据所述可疑报告进行人工甄别。

可选地，所述利用预设的可疑客户筛查规则，对所述第一可疑客户集合进行过滤筛查，获取所述第一可疑客户集合中的第一目标客户，包括：针对所述第一可疑客户集合中的每个第一可疑客户，通过所述规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能；若是，则如果该第一可疑客户在预设时间内已经生成可疑报告，确定该第一可疑客户为第一目标客户，如果该第一可疑客户在预设时间内未生成可疑报告，确定该第一可疑客户为其他第一可疑客户；若否，则确定该第一可疑客户为第一目标客户。

可选地，所述根据所述第一可疑客户集合中其他第一可疑客户和所述第二可疑客户集合，获取交集客户和第二目标客户，包括：对所述其他第一可疑客户和所述第二可疑客户集合进行取交集处理，获得所述交集客户；对所述第二可疑客户集合中其他第二可疑客户对应的模型分数进行排序，根据排序结果，从所述其他第二可疑客户中选择预设数量的客户为所述第二目标客户；其中，所述其他第二可疑客户为所述第二可疑客户集合中除所述交集客户之外的第二可疑客户。

可选地，所述方法还包括：选取样本，并确定所述样本的样本标签，其中，所述样本包括训练样本和测试样本；获取所述样本对应的客户数据，对所述样本对应的客户数据进行特征处理，获得所述训练样本对应的特征数据和所述测试样本对应的特征数据；对所述训练样本和所述训练样本对应的特征数据进行特征计算，生成所述训练样本对应的特征矩阵；引入LightGBM算法，根据所述训练样本对应的特征矩阵和所述训练样本的样本标签进行模型训练，获得训练后的模型；根据所述测试样本对应的特征数据，对所述训练后的模型进行测试，然后根据测试结果对所述训练后的模型进行参数调整，生成所述机器学习模型。

可选地，所述选取样本，并确定所述样本的样本标签，包括：获取历史监测交易，从所述历史监测交易中选取所述样本；将通过规则模型筛选出且被人工甄别为可疑的样本标记为正样本，将通过规则模型筛选出且被人工甄别为非可疑的样本标记为负样本；以及，按照预设比例，将所述样本划分为所述训练样本和所述测试样本。

可选地，所述获取所述样本对应的客户数据，对所述样本对应的客户数据进行特征处理，获得所述训练样本对应的特征数据和所述测试样本对应的特征数据，包括：获取所述样本对应的客户数据，其中，所述客户数据包括：客户唯一标识、客户的交易数据、客户的账户信息、客户关系以及客户的外部信息；对所述样本对应的客户数据进行数据预处理，其中，所述数据预处理包括以下选项中至少一项：插值处理、标准化处理、离散化处理、特征分类处理；对经过数据预处理的所述样本对应的客户数据进行特征衍生处理，获得所述样本对应的衍生特征，然后从所述样本对应的衍生特征中选择出所述样本对应的特征数据；其中，所述样本对应的特征数据包括所述训练样本对应的特征数据和所述测试样本对应的特征数据。

可选地，所述从所述样本对应的衍生特征中选择出所述样本对应的特征数据，包括：将以下选项中至少一项从所述样本对应的衍生特征中删除，得到所述样本对应的特征数据：缺失率超过预设缺失阈值的特征、相关性超过预设相关阈值的特性、模型预测结果的贡献值小于预设贡献阈值的特征、具有单一元素值的特征。

可选地，所述方法还包括：累积所述样本；若累积后的样本增量超过预设样本增量阈值或者达到模型迭代周期，利用累积后的所述样本进行模型训练，生成新的机器学习模型，以对所述机器学习模型进行更新。

可选地，所述基于机器学习模型对所述待监测交易进行可疑客户筛查，获得第二可疑客户集合，包括：确定所述待监测交易对应的交易客户，获取所述交易客户对应的客户数据；对所述交易客户对应的客户数据进行特征处理，获得所述交易客户对应的特征数据，然后对所述交易客户和所述交易客户对应的特征数据进行特征计算，生成所述交易客户对应的特征矩阵；调用所述机器学习模型，对所述交易客户对应的特征矩阵进行计算，得到所述交易客户对应的模型分数；若所述交易客户对应的模型分数大于预设模型分数阈值，则确定所述交易客户为第二可疑客户，将所述交易客户加入所述第二可疑客户集合中。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种反洗钱可疑交易监测装置。

本发明实施例的一种反洗钱可疑交易监测装置，包括：可疑客户筛查模块，用于基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对所述待监测交易进行可疑客户筛查，获得第二可疑客户集合，其中，所述规则模型为基于规则组成策略的反洗钱可疑交易监测模型，所述机器学习模型为基于LightGB M算法的反洗钱可疑交易监测模型；过滤筛查模块，用于利用预设的可疑客户筛查规则，对所述第一可疑客户集合进行过滤筛查，获取所述第一可疑客户集合中的第一目标客户；获取模块，用于根据所述第一可疑客户集合中其他第一可疑客户和所述第二可疑客户集合，获取交集客户和第二目标客户，其中，所述其他第一可疑客户为所述第一可疑客户集合中除所述第一目标客户之外的第一可疑客户；生成模块，用于根据所述第一目标客户、所述第二目标客户和所述交集客户，生成可疑报告，以便根据所述可疑报告进行人工甄别。

可选地，所述过滤筛查模块还用于：针对所述第一可疑客户集合中的每个第一可疑客户，通过所述规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能；若是，则如果该第一可疑客户在预设时间内已经生成可疑报告，确定该第一可疑客户为第一目标客户，如果该第一可疑客户在预设时间内未生成可疑报告，确定该第一可疑客户为其他第一可疑客户；若否，则确定该第一可疑客户为第一目标客户。

可选地，所述获取模块还用于：对所述其他第一可疑客户和所述第二可疑客户集合进行取交集处理，获得所述交集客户；对所述第二可疑客户集合中其他第二可疑客户对应的模型分数进行排序，根据排序结果，从所述其他第二可疑客户中选择预设数量的客户为所述第二目标客户；其中，所述其他第二可疑客户为所述第二可疑客户集合中除所述交集客户之外的第二可疑客户。

可选地，所述反洗钱可疑交易监测装置还包括模型训练模块，用于：选取样本，并确定所述样本的样本标签，其中，所述样本包括训练样本和测试样本；获取所述样本对应的客户数据，对所述样本对应的客户数据进行特征处理，获得所述训练样本对应的特征数据和所述测试样本对应的特征数据；对所述训练样本和所述训练样本对应的特征数据进行特征计算，生成所述训练样本对应的特征矩阵；引入Light GBM算法，根据所述训练样本对应的特征矩阵和所述训练样本的样本标签进行模型训练，获得训练后的模型；根据所述测试样本对应的特征数据，对所述训练后的模型进行测试，然后根据测试结果对所述训练后的模型进行参数调整，生成所述机器学习模型。

可选地，所述模型训练模块还用于：获取历史监测交易，从所述历史监测交易中选取所述样本；将通过规则模型筛选出且被人工甄别为可疑的样本标记为正样本，将通过规则模型筛选出且被人工甄别为非可疑的样本标记为负样本；以及，按照预设比例，将所述样本划分为所述训练样本和所述测试样本。

可选地，所述模型训练模块还用于：获取所述样本对应的客户数据，其中，所述客户数据包括：客户唯一标识、客户的交易数据、客户的账户信息、客户关系以及客户的外部信息；对所述样本对应的客户数据进行数据预处理，其中，所述数据预处理包括以下选项中至少一项：插值处理、标准化处理、离散化处理、特征分类处理；对经过数据预处理的所述样本对应的客户数据进行特征衍生处理，获得所述样本对应的衍生特征，然后从所述样本对应的衍生特征中选择出所述样本对应的特征数据；其中，所述样本对应的特征数据包括所述训练样本对应的特征数据和所述测试样本对应的特征数据。

可选地，所述模型训练模块还用于：将以下选项中至少一项从所述样本对应的衍生特征中删除，得到所述样本对应的特征数据：缺失率超过预设缺失阈值的特征、相关性超过预设相关阈值的特性、模型预测结果的贡献值小于预设贡献阈值的特征、具有单一元素值的特征。

可选地，所述模型训练模块还用于：累积所述样本；若累积后的样本增量超过预设样本增量阈值或者达到模型迭代周期，利用累积后的所述样本进行模型训练，生成新的机器学习模型，以对所述机器学习模型进行更新。

可选地，所述可疑客户筛查模块还用于：确定所述待监测交易对应的交易客户，获取所述交易客户对应的客户数据；对所述交易客户对应的客户数据进行特征处理，获得所述交易客户对应的特征数据，然后对所述交易客户和所述交易客户对应的特征数据进行特征计算，生成所述交易客户对应的特征矩阵；调用所述机器学习模型，对所述交易客户对应的特征矩阵进行计算，得到所述交易客户对应的模型分数；若所述交易客户对应的模型分数大于预设模型分数阈值，则确定所述交易客户为第二可疑客户，将所述交易客户加入所述第二可疑客户集合中。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种电子设备。

本发明实施例的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明实施例的反洗钱可疑交易监测方法。

为实现上述目的，根据本发明实施例的还一个方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本发明实施例的反洗钱可疑交易监测方法。

上述发明中的一个实施例具有如下优点或有益效果：能够将规则模型与机器学习模型结合一起，对待监测交易进行可疑客户筛查，适用于现有反洗钱系统的所有规则模型，避免重复开发；并且能在保证高召回率的情况下，降低现有规则模型的无效告警，节省金融机构的人工成本；还保留了现有规则模型的完整结构，只是使用机器学习强化风险识别能力，满足监管要求，同时避免了机器学习模型可解释性弱的问题。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的反洗钱可疑交易监测方法的主要步骤的示意图；

图2是根据本发明实施例的对每个第一可疑客户进行过滤筛查的主要过程的示意图；

图3是根据本发明实施例的机器学习模型的训练过程的示意图；

图4是根据本发明实施例的利用机器学习模型对待监测交易进行可疑客户筛查的主要过程的示意图；

图5是根据本发明实施例的反洗钱可疑交易监测方法的主要流程的示意图；

图6是根据本发明实施例的反洗钱可疑交易监测装置的主要模块的示意图；

图7是本发明实施例可以应用于其中的示例性系统架构图；

图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的反洗钱可疑交易监测方法的主要步骤的示意图。作为本发明的实施例，如图1所示，反洗钱可疑交易监测方法的主要步骤可以包括步骤S101至步骤S104。

步骤S101：基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对待监测交易进行可疑客户筛查，获得第二可疑客户集合。其中，规则模型为基于规则组成策略的反洗钱可疑交易监测模型，机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型。

待监测交易可以为根据实际需求选取的银行某个时间段发生的所有交易，如银行某天发生的所有交易、银行某周发生的所有交易、银行某月发生的所有交易等。需要注意的是，在获取到待监测交易后，需要将特殊客户交易删除掉，如将政府机关或国企机关等客户的交易删除掉，还需要将涉及可疑豁免项目的交易删除掉，如将短信费、水电费或结算利息等过滤掉。在获取到待监测交易后，可以统计交易客户的唯一标识，然后利用统计的唯一标识进行去重处理，得到待监测交易对应的交易客户的唯一标识列表。如银行当天发生的交易，按照交易客户的唯一标识(如客户编号)去重，得到当天的交易客户标识列表，假设有N个客户发生过交易，即为N个交易。

现有的规则模型存在着预警量大、误报率高、可疑确认率低等问题，导致需要用更多的人工处理来弥补模型缺陷，人力成本高。并且，当前反洗钱可疑报告数量巨大，分支机构普遍反映初审岗人员不足、作业压力较大，给金融机构造成持续增长的人力成本压力和越来越大的操作风险敞口。由于洗钱手段的复杂性和多变性，而现有模型特征大都依赖人工经验和历史数据总结，难免存在疏漏，且容易被犯罪分子多多少少掌握了一些反洗钱规则，会刻意地去规避。另外，在大数据时代下，金融机构每天都在积累海量数据。

在满足监管要求的前提下，为了解决现有规则模型存在的预警量大、误报率高、可疑确认率低、以及人力成本高的问题，可以将机器学习技术运用到反洗钱可疑交易监测领域中。另一方面，近年来国际监管组织普遍认可和明确了支持大数据、机器学习等技术在防范金融犯罪风险防控上的应用。机器学习是人工智能的重要分支，是实现人工智能的重要途径。它能够从历史数据中学习信息、自动分析获得规律，并利用规律对未知数据进行预测。在反洗钱可疑交易监测领域，机器学习算法可以学习过去可疑客户样本，将预测客户交易是否存在洗钱嫌疑这一问题抽象成数学模型，利用历史可疑数据训练模型，总结可疑行为共性，将专家经验固化到模型中。

机器学习可以分为三种类型：有监督学习、无监督学习和强化学习。其中，有监督学习是根据已知的数据和结论来训练模型，使模型具备预测或分类的能力；非监督学习不强调输入数据的性质和结论，主要用于找出数据中隐藏的信息和规律，如数据结构、关联关系、群组特性等；强化学习则不依赖原始数据，而是不断借助场景反馈和评价机制实现策略的积累和改善。

在机器学习各类算法中，以GBDT、XGBoost、LightGBM为代表的梯度提升树算法在众多数据科学竞赛中取得很好的效果。梯度提升树模型是一种基于回归树的集成学习方法，它通过构造多个弱回归树作为基学习器，并把这些树的结果累加起来作为最终预测输出。而集成学习是通过构建并结合多个学习器来完成学习任务，先产生一组个体学习器，在用某种策略将它们结合起来。和GBDT、XGBoost相比，Li ghtGBM是两者的改进版，它在反洗钱场景具有以下优势：首先，Ligh tGBM训练速度更快，能引入大量训练数据来保证误报率达到理想值，加上可疑监测实际运行过程中样本类别极度不均衡的情况，因此需要用大量的负样本训练模型，从而保证模型的误报率在合理范围内；其次，LightGBM运行时内存占用率小，对海量的交易数据非常适用，减小模型运行内存方面风险；LightGBM有更好的准确率，能保证可疑监测的高召回率、低错判率；最后，LightGBM支持分布式处理大规模数据，能保证模型落地上线后的批处理时效，满足监管报送要求。

基于以上背景，可以利用基于LightGBM算法的反洗钱可疑交易监测模型，对待监测交易进行可疑客户筛查，为了便于描述，本发明实施例将基于LightGBM算法的反洗钱可疑交易监测模型称为机器学习模型。但是，机器学习模型在可解释性上远不如现有规则模型，会导致人工甄别初期没有出发点着手进行人工处理，其次机器学习模型效果的上限取决于输入数据的数据质量，而输入数据大部分来源于规则模型筛查后上报的结果，但是规则模型存在误报率高的问题，因此会造成一定的噪声数据，而使得模型效果大打折扣。

所以，在步骤S101中，基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合。其中，规则模型为现有的基于规则组成策略的反洗钱可疑交易监测模型。并且，基于机器学习模型对待监测交易进行可疑客户筛查，获得第二可疑客户集合。其中，机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型。需要注意的是，第一可疑客户集合包括一个或多个第一可疑客户，第一可疑客户为通过规则模型对待监测交易进行筛查而获得的可能需要告警的客户(即，存在洗钱嫌疑的客户)；第二可疑客户集合包括一个或多个第二可疑客户，第二可疑客户为通过机器学习模型对待监测交易进行筛查而获得的可能需要告警的客户。

步骤S102：利用预设的可疑客户筛查规则，对第一可疑客户集合进行过滤筛查，获取第一可疑客户集合中的第一目标客户。

其中，预设的可疑客户筛查规则为对第一可疑客户集合包含的一个或多个第一可疑客户进行过滤筛查的规则。由于规则模型存在着预警量大、误报率高、可疑确认率低等问题，因此在通过规则模型获得第一可疑客户集合后，可以利用预设的可疑客户筛查规则对第一可疑客户集合中的每个第一可疑客户进行过滤筛查。图2是根据本发明实施例的对每个第一可疑客户进行过滤筛查的主要过程的示意图。如图2 所示，对每个第一可疑客户进行过滤筛查的主要过程可以包括：

步骤S201，通过规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能，若是，则执行步骤S202，若否，则执行步骤S203；

步骤S202，判断该第一可疑客户在预设时间内是否已经生成可疑报告，若是，则执行步骤S203，若否，则执行步骤S204；

步骤S203，确定该第一可疑客户为第一目标客户；

步骤S204，确定该第一可疑客户为其他第一可疑客户。

现有的规则模型有多达几十个，规则模型对应的机器学习模型过滤表中记录了每个规则模型是否启用了过滤功能。有些新上线不久的规则模型没有积累足够多的且已经确认可疑的样本，那么对于这种新上线不久的规则模型，通过机器学习模型训练学习的效果不好，会导致无法达到合理要求。因此对于这种新上线不久的规则模型，其没有开启过滤功能，即在规则模型对应的机器学习模型过滤表中，查询不到这种新上线不久的规则模型对应的机器学习模型。另一方面，考虑风险为本的原则，有些涉及到高风险类型的规则模型不启用过滤功能，例如，与涉恐涉分裂、公安部通缉名单等相关的规则模型。因此，通过规则模型对应的机器学习模型过滤表，可以查询到每个规则模型是否启用了过滤功能。如果规则模型A启用了过滤功能，那么对通过规则模型A得到的第一可疑客户，需要利用机器学习模型进行进一步过滤；如果规则模型A没有启用过滤功能，那么对通过规则模型A得到的第一可疑客户，可以直接确定该第一可疑客户为第一目标客户，即需要生成可疑报告的客户。

所以，在对每个第一可疑客户进行过滤筛查时，首先通过规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能；如果该第一可疑客户对应的规则模型未启动机器学习模型的过滤功能，那么可以直接确定该第一可疑客户为第一目标客户；如果该第一可疑客户对应的规则模型启动机器学习模型的过滤功能，那么可以接着判断该第一可疑客户在预设时间内是否已经生成可疑报告，如判断该第一可疑客户在过去30天内是否已经生成可疑报告；如果生成可疑报告，则可以直接确定该第一可疑客户为第一目标客户，如果没有生成可疑报告，则可以确定该第一可疑客户为其他第一可疑客户。其中，其他第一可疑客户为第一可疑客户集合中除第一目标客户之外的第一可疑客户。

步骤S103：根据第一可疑客户集合中其他第一可疑客户和第二可疑客户集合，获取交集客户和第二目标客户。

其中，交集客户为第一可疑客户集合中其他第一可疑客户与第二可疑客户集合之间的交集，也即，获得被规则模型和机器学习模型均筛查出的可能需要告警的客户。作为本发明的实施例，具体获取交集客户的方法可以为：直接对其他第一可疑客户和第二可疑客户集合进行取交集处理，获得交集客户。比如，其他第一可疑客户有客户K1、K 3、K6至K10，第二可疑客户集合有客户K4至客户K30，那么交集客户为K6至K10。

进一步地，获取第二目标客户的方法可以为：对第二可疑客户集合中其他第二可疑客户对应的模型分数进行排序，根据排序结果，从其他第二可疑客户中选择预设数量的客户为第二目标客户。其中，其他第二可疑客户为第二可疑客户集合中除交集客户之外的第二可疑客户。比如，第二可疑客户集合有客户K4至客户K30，交集客户为K6至 K10，那么第二可疑客户集合中其他第二可疑客户为K4、K5、K11至K 30。对其他第二可疑客户对应的模型分数进行从高到低排序，其中，某客户对应的模型分数越高，则说明该客户存在洗钱嫌疑的可能性越大。然后，可以选择分数较高的预设数量的客户为第二目标客户。

步骤S104：根据第一目标客户、第二目标客户和交集客户，生成可疑报告，以便根据可疑报告进行人工甄别。

在获取第一目标客户、第二目标客户和交集客户后，可以生成这些客户对应的可疑报告，然后将可疑报告推送给业务专家进行人工甄别。

本发明实施例的反洗钱可疑交易监测方法，能够将规则模型与机器学习模型结合一起，对待监测交易进行可疑客户筛查，适用于现有反洗钱系统的所有规则模型，避免重复开发；并且能在保证高召回率的情况下，降低现有规则模型的无效告警，节省金融机构的人工成本；还保留了现有规则模型的完整结构，只是使用机器学习强化风险识别能力，满足监管要求，同时避免了机器学习模型可解释性弱的问题。

机器学习模型的训练过程，即基于LightGBM算法的反洗钱可疑交易监测模型的训练过程，是本发明实施例的反洗钱可疑交易监测方法的重要部分。图3是根据本发明实施例的机器学习模型的训练过程的示意图。如图3所示，机器学习模型的训练过程可以包括：

步骤S301，选取样本，并确定样本的样本标签，其中，样本包括训练样本和测试样本。

具体地，获取历史监测交易，从历史监测交易中选取样本；将通过规则模型筛选出且被人工甄别为可疑的样本标记为正样本，将通过规则模型筛选出且被人工甄别为非可疑的样本标记为负样本；以及，按照预设比例，将样本划分为训练样本和测试样本。也就是说，从历史监测交易中选择出通过规则模型筛选出、且经过人工甄别的客户为样本，然后从样本中选取被人工甄别为可疑的客户为正样本、以及选取被人工甄别为非可疑的客户为负样本。另外，可以按照预设比例将选取的样本划分为训练样本和测试样本，如预设比例可以为2：8。

步骤S302，获取样本对应的客户数据，对样本对应的客户数据进行特征处理，获得训练样本对应的特征数据和测试样本对应的特征数据。

进一步地，获取样本对应的客户数据，对样本对应的客户数据进行特征处理，获得训练样本对应的特征数据和测试样本对应的特征数据，可以包括：

(1)获取样本对应的客户数据。其中，客户数据可以包括：客户唯一标识、客户的交易数据、客户的账户信息、客户关系以及客户的外部信息。其中，客户的交易数据可以为过去半年的交易数据；客户的外部信息可以为税务信息、查扣信息、司法信息、工商信息、人行征信信息、航旅信息等。

(2)对样本对应的客户数据进行数据预处理。其中，数据预处理包括以下选项中至少一项：插值处理、标准化处理、离散化处理、特征分类处理。具体地，对缺失数据或异常数据进行插值处理；对需要进行标准化处理的数据进行标准化处理；对连续的需要进行离散处理的数据进行离散化处理；对超过预设品类数量的类别型数据进行特征分类处理，如对国家代码、出生地省份、对私客户职业等进行特征分类处理，可以通过k-means聚类算法或者基于业务理解人为设定分类规则，从而可以降低特征冗余度，提升模型运算速度并防止模型训练过拟合。

(3)对经过数据预处理的样本对应的客户数据进行特征衍生处理，获得样本对应的衍生特征，然后从样本对应的衍生特征中选择出样本对应的特征数据。其中，样本对应的特征数据包括训练样本对应的特征数据和测试样本对应的特征数据。另外，特征衍生处理可以为根据业务场景以及所要监测的上游犯罪类别设计衍生特征，形成多时间窗口、多时序、多维度、多组合的衍生特征。

进一步地，从样本对应的衍生特征中选择出样本对应的特征数据，可以包括：将缺失率超过预设缺失阈值的特征、相关性超过预设相关阈值的特性、模型预测结果的贡献值小于预设贡献阈值的特征、具有单一元素值的特征中至少一项从样本对应的衍生特征中删除，得到样本对应的特征数据。为了避免特征数量过多可能导致模型过拟合以及维度灾难的问题，特征衍生后需要进行特征选择，从而使模型上线后具有更好的泛化能力。具体地，可以根据以下4条原则过滤掉衍生特征中地冗余特征，进而得到样本对应的特征数据：(1)缺失率过高的特征，如将缺失率在60％以上的特征；(2)相关性过高的特征，如相关性大于90％的特征；(3)对模型预测结果无贡献的特征以及对模型预测结果只有很小贡献的特征；(4)具有单个元素的特征，即数据集中该特征取值集合只有一个元素。

步骤S303，对训练样本和训练样本对应的特征数据进行特征计算，生成训练样本对应的特征矩阵。

步骤S304，引入LightGBM算法，根据训练样本对应的特征矩阵和训练样本的样本标签进行模型训练，获得训练后的模型。引入LightGB M算法包，输入训练样本对应的特征矩阵和训练样本的样本标签进行模型训练，持续调整模型参数组合优化模型性能，得到训练后的模型。

步骤S305，根据测试样本对应的特征数据，对训练后的模型进行测试，然后根据测试结果对训练后的模型进行参数调整，生成机器学习模型。训练好模型后，需要利用测试样本对应的特征数据，评估训练后的模型的模型效果。具体地，可以通过召回率和误判率判断训练后的模型是否满足业务需求，如果不满足，需要继续对训练后的模型进行参数调整，直至满足高召回情况下大幅度降低规则模型无效告警，得到机器学习模型。另外，在得到机器学习模型后，可以将该机器学习模型保存为PKL文件，以便用保存的PKL文件对待监测交易进行可疑客户筛查。其中，PKL是脚本语言python用于保存文件用的格式。

由于机器学习模型具有一定的衰退性，模型预测性能会随着时间不断衰退，因此要定期更新优化迭代机器学习模型。因此，作为本发明的实施例，反洗钱可疑交易监测方法还可以包括：累积样本；若累积后的样本增量超过预设样本增量阈值或者达到模型迭代周期，利用累积后的样本进行模型训练，生成新的机器学习模型，以对机器学习模型进行更新。比如，当样本的累积增量多于50％或正样本的累积增量多于10％时，再如达到了迭代周期，自动触发模型优化流程，采用最新样本进行新一轮的模型训练，得到新的机器学习模型，并替换原有PKL文件。

在生成机器学习模型后，可以利用生成的机器学习模型对待监测交易进行可疑客户筛查。图4是根据本发明实施例的利用机器学习模型对待监测交易进行可疑客户筛查的主要过程的示意图。如图4所示，利用机器学习模型对待监测交易进行可疑客户筛查的主要过程可以包括：

步骤S401，确定待监测交易对应的交易客户，获取交易客户对应的客户数据；

步骤S402，对交易客户对应的客户数据进行特征处理，获得交易客户对应的特征数据，然后对交易客户和交易客户对应的特征数据进行特征计算，生成交易客户对应的特征矩阵；

步骤S403，调用机器学习模型，对交易客户对应的特征矩阵进行计算，得到交易客户对应的模型分数；

步骤S404，若交易客户对应的模型分数大于预设模型分数阈值，则确定交易客户为第二可疑客户，将交易客户加入第二可疑客户集合中。

其中，步骤S402中生成交易客户对应的特征矩阵的方法与上文步骤S302和步骤S303中生成特征矩阵的方法相同，此处不再详细说明。此外，交易客户的数量为一个或多个，需要获取每个交易客户对应的模型分数，然后判断该交易客户对应的模型分数是否大于预设模型分数阈值，若是，则确定该交易客户为第二可疑客户，将该交易客户加入第二可疑客户集合中，最后就可以得到第二可疑客户集合。

图5是根据本发明实施例的反洗钱可疑交易监测方法的主要流程的示意图。如图5所示，反洗钱可疑交易监测方法的主要流程可以包括：

步骤S501，基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对待监测交易进行可疑客户筛查，获得第二可疑客户集合，其中，规则模型为基于规则组成策略的反洗钱可疑交易监测模型，机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型；

步骤S502，从第一可疑客户集合随机选择一个第一可疑客户进行分析；

步骤S503，通过规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能，若是，则执行步骤S504，若否，则执行步骤S505；

步骤S504，判断该第一可疑客户在预设时间内是否已经生成可疑报告，若是，则执行步骤S505，若否，则执行步骤S506；

步骤S505，确定该第一可疑客户为第一目标客户；

步骤S506，确定该第一可疑客户为其他第一可疑客户；

步骤S507，判断是否已经分析所有第一可疑客户，若是，则执行步骤S508；

步骤S508，对其他第一可疑客户和第二可疑客户集合进行取交集处理，获得交集客户，其中，其他第一可疑客户为第一可疑客户集合中除第一目标客户之外的第一可疑客户；

步骤S509，对第二可疑客户集合中其他第二可疑客户对应的模型分数进行排序，其中，其他第二可疑客户为第二可疑客户集合中除交集客户之外的第二可疑客户；

步骤S510，根据排序结果，从其他第二可疑客户中选择预设数量的客户为第二目标客户；

步骤S511，根据第一目标客户、第二目标客户和交集客户，生成可疑报告，以便根据可疑报告进行人工甄别。

其中，在步骤S501之前，采用上文步骤S301至步骤S305描述的方法生成机器学习模型。并且，步骤S501中获得第二可疑客户集合的具体实现方法如上述步骤401至步骤S404。

图6是根据本发明实施例的反洗钱可疑交易监测装置的主要模块的示意图。如图6所示，反洗钱可疑交易监测装置600的主要模块可以包括：可疑客户筛查模块601、过滤筛查模块602、获取模块603和生成模块604。

其中，可疑客户筛查模块601可用于：基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对待监测交易进行可疑客户筛查，获得第二可疑客户集合。其中，规则模型为基于规则组成策略的反洗钱可疑交易监测模型，机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型。

过滤筛查模块602可用于：利用预设的可疑客户筛查规则，对第一可疑客户集合进行过滤筛查，获取第一可疑客户集合中的第一目标客户。

获取模块603可用于：根据第一可疑客户集合中其他第一可疑客户和第二可疑客户集合，获取交集客户和第二目标客户。其中，其他第一可疑客户为第一可疑客户集合中除第一目标客户之外的第一可疑客户。

生成模块604可用于：根据第一目标客户、第二目标客户和交集客户，生成可疑报告，以便根据可疑报告进行人工甄别。

作为本发明的实施例，过滤筛查模块602还可用于：针对第一可疑客户集合中的每个第一可疑客户，通过规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能；若是，则如果该第一可疑客户在预设时间内已经生成可疑报告，确定该第一可疑客户为第一目标客户，如果该第一可疑客户在预设时间内未生成可疑报告，确定该第一可疑客户为其他第一可疑客户；若否，则确定该第一可疑客户为第一目标客户。

作为本发明的实施例，获取模块603还可用于：对其他第一可疑客户和第二可疑客户集合进行取交集处理，获得交集客户；对第二可疑客户集合中其他第二可疑客户对应的模型分数进行排序，根据排序结果，从其他第二可疑客户中选择预设数量的客户为第二目标客户。其中，其他第二可疑客户为第二可疑客户集合中除交集客户之外的第二可疑客户。

如图6所示，作为本发明的实施例，反洗钱可疑交易监测装置60 0还可以包括模型训练模块605。该模型训练模块605可用于：选取样本，并确定样本的样本标签，其中，样本包括训练样本和测试样本；获取样本对应的客户数据，对样本对应的客户数据进行特征处理，获得训练样本对应的特征数据和测试样本对应的特征数据；对训练样本和训练样本对应的特征数据进行特征计算，生成训练样本对应的特征矩阵；引入LightGBM算法，根据训练样本对应的特征矩阵和训练样本的样本标签进行模型训练，获得训练后的模型；根据测试样本对应的特征数据，对训练后的模型进行测试，然后根据测试结果对训练后的模型进行参数调整，生成机器学习模型。

作为本发明的实施例，模型训练模块605还可用于：获取历史监测交易，从历史监测交易中选取样本；将通过规则模型筛选出且被人工甄别为可疑的样本标记为正样本，将通过规则模型筛选出且被人工甄别为非可疑的样本标记为负样本；以及，按照预设比例，将样本划分为训练样本和测试样本。

作为本发明的实施例，模型训练模块605还可用于：获取样本对应的客户数据，其中，客户数据包括：客户唯一标识、客户的交易数据、客户的账户信息、客户关系以及客户的外部信息；对样本对应的客户数据进行数据预处理，其中，数据预处理包括以下选项中至少一项：插值处理、标准化处理、离散化处理、特征分类处理；对经过数据预处理的样本对应的客户数据进行特征衍生处理，获得样本对应的衍生特征，然后从样本对应的衍生特征中选择出样本对应的特征数据；其中，样本对应的特征数据包括训练样本对应的特征数据和测试样本对应的特征数据。

作为本发明的实施例，模型训练模块605还可用于：将以下选项中至少一项从样本对应的衍生特征中删除，得到样本对应的特征数据：缺失率超过预设缺失阈值的特征、相关性超过预设相关阈值的特性、模型预测结果的贡献值小于预设贡献阈值的特征、具有单一元素值的特征。

作为本发明的实施例，模型训练模块605还可用于：累积样本；若累积后的样本增量超过预设样本增量阈值或者达到模型迭代周期，利用累积后的样本进行模型训练，生成新的机器学习模型，以对机器学习模型进行更新。

作为本发明的实施例，可疑客户筛查模块601还可用于：确定待监测交易对应的交易客户，获取交易客户对应的客户数据；对交易客户对应的客户数据进行特征处理，获得交易客户对应的特征数据，然后对交易客户和交易客户对应的特征数据进行特征计算，生成交易客户对应的特征矩阵；调用机器学习模型，对交易客户对应的特征矩阵进行计算，得到交易客户对应的模型分数；若交易客户对应的模型分数大于预设模型分数阈值，则确定交易客户为第二可疑客户，将交易客户加入第二可疑客户集合中。

根据本发明实施例的反洗钱可疑交易监测装置，能够将规则模型与机器学习模型结合一起，对待监测交易进行可疑客户筛查，适用于现有反洗钱系统的所有规则模型，避免重复开发；并且能在保证高召回率的情况下，降低现有规则模型的无效告警，节省金融机构的人工成本；还保留了现有规则模型的完整结构，只是使用机器学习强化风险识别能力，满足监管要求，同时避免了机器学习模型可解释性弱的问题。

图7示出了可以应用本发明实施例的反洗钱可疑交易监测方法或反洗钱可疑交易监测装置的示例性系统架构700。

如图7所示，系统架构700可以包括终端设备701、702、703，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备701、702、703通过网络704与服务器70 5交互，以接收或发送消息等。终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器705可以是提供各种服务的服务器，例如作为用户利用终端设备701、702、703进行反洗钱可疑交易监测的过程中，提供支持的后台管理服务器(仅为示例)；再例如，服务器705可以完成本发明实施例的反洗钱可疑交易监测。

需要说明的是，本发明实施例所提供的反洗钱可疑交易监测方法一般由服务器705执行，相应地，反洗钱可疑交易监测装置一般设置于服务器705中。

应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图8，其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分80 8加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CP U)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括可疑客户筛查模块、过滤筛查模块、获取模块和生成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，可疑客户筛查模块还可以被描述为“基于规则模型对待监测交易进行可疑客户筛查获得第一可疑客户集合，以及基于机器学习模型对所述待监测交易进行可疑客户筛查获得第二可疑客户集合的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对待监测交易进行可疑客户筛查，获得第二可疑客户集合，其中，规则模型为基于规则组成策略的反洗钱可疑交易监测模型，机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型；利用预设的可疑客户筛查规则，对第一可疑客户集合进行过滤筛查，获取第一可疑客户集合中的第一目标客户；根据第一可疑客户集合中其他第一可疑客户和第二可疑客户集合，获取交集客户和第二目标客户，其中，其他第一可疑客户为第一可疑客户集合中除第一目标客户之外的第一可疑客户；根据第一目标客户、第二目标客户和交集客户，生成可疑报告，以便根据可疑报告进行人工甄别。

根据本发明实施例的技术方案，能够将规则模型与机器学习模型结合一起，对待监测交易进行可疑客户筛查，适用于现有反洗钱系统的所有规则模型，避免重复开发；并且能在保证高召回率的情况下，降低现有规则模型的无效告警，节省金融机构的人工成本；还保留了现有规则模型的完整结构，只是使用机器学习强化风险识别能力，满足监管要求，同时避免了机器学习模型可解释性弱的问题。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种反洗钱可疑交易监测方法，其特征在于，包括：

基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对所述待监测交易进行可疑客户筛查，获得第二可疑客户集合，其中，所述规则模型为基于规则组成策略的反洗钱可疑交易监测模型，所述机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型；

利用预设的可疑客户筛查规则，对所述第一可疑客户集合进行过滤筛查，获取所述第一可疑客户集合中的第一目标客户；

根据所述第一可疑客户集合中其他第一可疑客户和所述第二可疑客户集合，获取交集客户和第二目标客户，其中，所述其他第一可疑客户为所述第一可疑客户集合中除所述第一目标客户之外的第一可疑客户；

根据所述第一目标客户、所述第二目标客户和所述交集客户，生成可疑报告，以便根据所述可疑报告进行人工甄别。

2.根据权利要求1所述的方法，其特征在于，所述利用预设的可疑客户筛查规则，对所述第一可疑客户集合进行过滤筛查，获取所述第一可疑客户集合中的第一目标客户，包括：

针对所述第一可疑客户集合中的每个第一可疑客户，通过所述规则模型对应的机器学习模型过滤表，判断该第一可疑客户对应的规则模型是否启动机器学习模型的过滤功能；

若是，则如果该第一可疑客户在预设时间内已经生成可疑报告，确定该第一可疑客户为第一目标客户，如果该第一可疑客户在预设时间内未生成可疑报告，确定该第一可疑客户为其他第一可疑客户；

若否，则确定该第一可疑客户为第一目标客户。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一可疑客户集合中其他第一可疑客户和所述第二可疑客户集合，获取交集客户和第二目标客户，包括：

对所述其他第一可疑客户和所述第二可疑客户集合进行取交集处理，获得所述交集客户；

对所述第二可疑客户集合中其他第二可疑客户对应的模型分数进行排序，根据排序结果，从所述其他第二可疑客户中选择预设数量的客户为所述第二目标客户；其中，

所述其他第二可疑客户为所述第二可疑客户集合中除所述交集客户之外的第二可疑客户。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

选取样本，并确定所述样本的样本标签，其中，所述样本包括训练样本和测试样本；

获取所述样本对应的客户数据，对所述样本对应的客户数据进行特征处理，获得所述训练样本对应的特征数据和所述测试样本对应的特征数据；

对所述训练样本和所述训练样本对应的特征数据进行特征计算，生成所述训练样本对应的特征矩阵；

引入LightGBM算法，根据所述训练样本对应的特征矩阵和所述训练样本的样本标签进行模型训练，获得训练后的模型；

根据所述测试样本对应的特征数据，对所述训练后的模型进行测试，然后根据测试结果对所述训练后的模型进行参数调整，生成所述机器学习模型。

5.根据权利要求4所述的方法，其特征在于，所述选取样本，并确定所述样本的样本标签，包括：

获取历史监测交易，从所述历史监测交易中选取所述样本；

将通过规则模型筛选出且被人工甄别为可疑的样本标记为正样本，将通过规则模型筛选出且被人工甄别为非可疑的样本标记为负样本；以及，

按照预设比例，将所述样本划分为所述训练样本和所述测试样本。

6.根据权利要求4所述的方法，其特征在于，所述获取所述样本对应的客户数据，对所述样本对应的客户数据进行特征处理，获得所述训练样本对应的特征数据和所述测试样本对应的特征数据，包括：

获取所述样本对应的客户数据，其中，所述客户数据包括：客户唯一标识、客户的交易数据、客户的账户信息、客户关系以及客户的外部信息；

对所述样本对应的客户数据进行数据预处理，其中，所述数据预处理包括以下选项中至少一项：插值处理、标准化处理、离散化处理、特征分类处理；

对经过数据预处理的所述样本对应的客户数据进行特征衍生处理，获得所述样本对应的衍生特征，然后从所述样本对应的衍生特征中选择出所述样本对应的特征数据；其中，

所述样本对应的特征数据包括所述训练样本对应的特征数据和所述测试样本对应的特征数据。

7.根据权利要求6所述的方法，其特征在于，所述从所述样本对应的衍生特征中选择出所述样本对应的特征数据，包括：

将以下选项中至少一项从所述样本对应的衍生特征中删除，得到所述样本对应的特征数据：缺失率超过预设缺失阈值的特征、相关性超过预设相关阈值的特性、模型预测结果的贡献值小于预设贡献阈值的特征、具有单一元素值的特征。

8.根据权利要求4所述的方法，其特征在于，所述方法还包括：

累积所述样本；

若累积后的样本增量超过预设样本增量阈值或者达到模型迭代周期，利用累积后的所述样本进行模型训练，生成新的机器学习模型，以对所述机器学习模型进行更新。

9.根据权利要求1至8任一所述的方法，其特征在于，所述基于机器学习模型对所述待监测交易进行可疑客户筛查，获得第二可疑客户集合，包括：

确定所述待监测交易对应的交易客户，获取所述交易客户对应的客户数据；

对所述交易客户对应的客户数据进行特征处理，获得所述交易客户对应的特征数据，然后对所述交易客户和所述交易客户对应的特征数据进行特征计算，生成所述交易客户对应的特征矩阵；

调用所述机器学习模型，对所述交易客户对应的特征矩阵进行计算，得到所述交易客户对应的模型分数；

若所述交易客户对应的模型分数大于预设模型分数阈值，则确定所述交易客户为第二可疑客户，将所述交易客户加入所述第二可疑客户集合中。

10.一种反洗钱可疑交易监测装置，其特征在于，包括：

可疑客户筛查模块，用于基于规则模型对待监测交易进行可疑客户筛查，获得第一可疑客户集合，基于机器学习模型对所述待监测交易进行可疑客户筛查，获得第二可疑客户集合，其中，所述规则模型为基于规则组成策略的反洗钱可疑交易监测模型，所述机器学习模型为基于LightGBM算法的反洗钱可疑交易监测模型；

过滤筛查模块，用于利用预设的可疑客户筛查规则，对所述第一可疑客户集合进行过滤筛查，获取所述第一可疑客户集合中的第一目标客户；

获取模块，用于根据所述第一可疑客户集合中其他第一可疑客户和所述第二可疑客户集合，获取交集客户和第二目标客户，其中，所述其他第一可疑客户为所述第一可疑客户集合中除所述第一目标客户之外的第一可疑客户；

生成模块，用于根据所述第一目标客户、所述第二目标客户和所述交集客户，生成可疑报告，以便根据所述可疑报告进行人工甄别。

11.根据权利要求10所述的装置，其特征在于，所述过滤筛查模块还用于：

若否，则确定该第一可疑客户为第一目标客户。

12.根据权利要求11所述的装置，其特征在于，所述获取模块还用于：

13.根据权利要求10所述的装置，其特征在于，所述装置还包括模型训练模块，用于：

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。