CN113988458A

CN113988458A - 反洗钱风险监控方法和模型训练方法、装置、设备及介质

Info

Publication number: CN113988458A
Application number: CN202111329868.2A
Authority: CN
Inventors: 徐琳玲; 王娜; 兰亭; 訾晨杨
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-01-28

Abstract

本公开提供了一种反洗钱风险监控方法、装置、设备、存储介质和程序产品，属于人工智能领域。该方法包括：获取至少一个第一客户交易数据；利用洗钱风险预测模型基于每个第一客户交易数据，预测第一客户交易数据对应的交易的洗钱风险信息；其中，在训练洗钱风险预测模型时，在洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果；然后通过从本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本。本公开还提供了一种洗钱风险预测模型的训练方法、装置、设备、存储介质和程序产品。

Description

反洗钱风险监控方法和模型训练方法、装置、设备及介质

技术领域

本公开涉及人工智能领域，更具体地涉及一种反洗钱风险监控方法和洗钱风险预测模型的训练方法、以及相应的装置、设备、介质和程序产品。

背景技术

反洗钱风险的防控越来越受到银行等金融机构的重视。基于金融机构已经掌握的洗钱客户名单，以及银行存储的客户历史交易数据，利用机器学习技术可以将客户的交易行为根据其洗钱风险程度进行分类，来达到更好地反洗钱风险预测。然而，金融机构的交易数据量通常比较大，而且，其中从事洗钱的客户交易数据与从事正常交易的客户交易数据的数据量的比例悬殊，这导致训练机器学习模型时的训练样本极度不平衡，会严重影响模型学习洗钱交易的行为特征的效率和效果。

发明内容

鉴于上述问题，本公开实施例提供了一种可以提高预测模型训练效率和预测准确率的反洗钱风险监控方法、装置、设备、介质和程序产品，以及用于反洗钱风险监控的洗钱风险预测模型的训练方法、装置、设备、介质和程序。

本公开实施例的第一方面，提供了一种反洗钱风险监控方法。所述方法包括：获取至少一个第一客户交易数据；以及利用洗钱风险预测模型基于每个所述第一客户交易数据，预测所述第一客户交易数据对应的交易的洗钱风险信息，所述洗钱风险信息用于指示所述第一客户交易数据对应的交易是否存在风险。其中，在训练所述洗钱风险预测模型时，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值，其中，所述洗钱风险预测模型通过如下方式进行训练：在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N 个所述负样本对应的前次聚类结果进行调整；从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本；以及使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

根据本公开的实施例，所述根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整包括：基于与上一轮训练时使用的聚类参数不同的聚类参数，对N个所述负样本全量聚类；或者对所述前次聚类结果进行局部调整，包括：对所述前次聚类结果中的至少一个类进行拆分，和/或将所述前次聚类结果中的至少两个类合并为新的类。

根据本公开的实施例，所述根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整包括：当上一轮训练的训练轮数为a的整数倍时，在本轮训练中对N个所述负样本全量聚类，其中，a为大于或等于2的整数；或者当对所述前次聚类结果进行所述局部调整后所得的聚类结果中的类数大于或等于阈值b时，对N个所述负样本全量聚类，其中，b为大于或等于2的整数。

根据本公开的实施例，所述对N个所述负样本全量聚类包括：从对N个所述负样本按照预定规则划分得到的C个分组的每个分组中随机选择一个初始聚类中心点，以得到C个初始聚类中心点，其中，C为大于1且小于等于N/2；以及以C个所述初始聚类中心点分别作为聚类中心点，对N个所述负样本进行k-means聚类。

根据本公开的实施例，所述按照预定规则划分得到的C个分组包括，基于N个所述负样本中每个所述负样本与P个所述正样本的距离，划分得到的C个分组。

根据本公开的实施例，所述洗钱风险预测模型的训练过程还包括：计算N个所述负样本中每个所述负样本与P个所述正样本的距离；对每个所述负样本计算其与最近的Pi个正样本的平均距离，其中， Pi为整数，且0＜Pi≤P；按照每个所述负样本对应的所述平均距离对N个所述负样本排序；以及按照排序顺序将N个所述负样本等频划分为C个分组。

根据本公开的实施例，所述根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整包括：基于所述前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差，得到每个类对应的类内预测误差；以及当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整。

根据本公开的实施例，所述当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整包括：当所述类内预测误差大于预定的类内误差阈值时，将所述类内预测误差对应的类再次聚类为多个类；或者当所述类内预测误差为所述前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差的平均值，且基于所述类内预测误差而得到变异系数大于预设的最大变异系数时，将所述类内预测误差对应的类再次聚类为多个类。

根据本公开的实施例，所述当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整包括：计算所述前次聚类结果中每两个类对应的所述类内预测误差的绝对差异；当存在所述绝对差异小于最小显著差异值时，将所述绝对差异对应的两个类合并为一个新的类。

根据本公开的实施例，其中，所述最小显著差异值为根据Fisher 最小显著差异原理，并基于上一轮训练对所述前次聚类结果中每个类中参与训练的所述负样本的预测误差进行处理得到的。

本公开实施例的第二方面，提供了一种洗钱风险预测模型的训练方法。其中，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值。所述训练方法包括：在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果；从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本；以及使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

本公开实施例的第三方面，提供了一种反洗钱风险监控装置。所述装置包括数据获取模块、预测模块以及模型训练模块。所述数据获取模块用于获取至少一个第一客户交易数据。所述预测模块用于利用洗钱风险预测模型基于每个所述第一客户交易数据，预测所述第一客户交易数据对应的交易的洗钱风险信息，所述洗钱风险信息用于指示所述第一客户交易数据对应的交易是否存在风险。所述模型训练模块用于训练所述洗钱风险预测模型；其中，在训练所述洗钱风险预测模型时，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中， P、N分别为正整数，且P与N的比值小于样本均衡阈值。其中，所述模型训练模块包括聚类调整模块、采样模块、以及训练模块。聚类调整模块用于在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果。采样模块用于从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本。训练模块用于使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

根据本公开的实施例，所述聚类调整模块包括全量聚类子模块和局部调整子模块。所述全量聚类子模块用于基于与上一轮训练时使用的聚类参数不同的聚类参数，对N个所述负样本全量聚类。所述局部调整子模块用于对所述前次聚类结果进行局部调整。其中，所述局部调整包括对所述前次聚类结果中的至少一个类进行拆分，和/或将所述前次聚类结果中的至少两个类合并为新的类。

根据本公开的实施例，所述全量聚类子模块还用于：当上一轮训练的训练轮数为a的整数倍时，在本轮训练中对N个所述负样本全量聚类，其中，a为大于或等于2的整数；或者当对所述前次聚类结果的类数大于或等于阈值b时，对N个所述负样本全量聚类，其中， b为大于或等于2的整数。

根据本公开的实施例，所述全量聚类子模块还用于：从对N个所述负样本按照预定规则划分得到的C个分组的每个分组中随机选择一个初始聚类中心点，以得到C个初始聚类中心点，其中，C为大于1且小于等于N/2；以及以C个所述初始聚类中心点分别作为聚类中心点，对N个所述负样本进行k-means聚类。

根据本公开的实施例，所述模型训练模块还包括样本数据分层模块。所述样本数据分层模块用于：计算N个所述负样本中每个所述负样本与P个所述正样本的距离；对每个所述负样本计算其与最近的 Pi个正样本的平均距离，其中，Pi为整数，且0＜Pi≤P；按照每个所述负样本对应的所述平均距离对N个所述负样本排序；以及按照排序顺序将N个所述负样本等频划分为C个分组。

根据本公开的实施例，所述局部调整子模块用于：基于所述前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差，得到每个类对应的类内预测误差；以及当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整。

本公开实施例的第四方面，提供了一种洗钱风险预测模型的训练装置。其中，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值，其中，所述训练装置包括聚类调整模块、采样模块以及训练模块。聚类调整模块用于在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果。采样模块用于从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本。训练模块用于使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

本公开实施例的第五方面提供了一种电子设备。所述电子设备包括一个或多个处理器、以及一个或多个存储器。所述一个或多个存储器用于存储一个或多个程序。其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述反洗钱风险监控方法、或者洗钱风险预测模型的训练方法。

本公开实施例的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述反洗钱风险监控方法、或者洗钱风险预测模型的训练方法。

本公开实施例的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述反洗钱风险监控方法、或者洗钱风险预测模型的训练方法。

上述一个或多个实施例具有如下优点或益效果：可以在洗钱风险预测模型的各轮训练中根据上一轮训练的训练结构，动态调整聚类结果，逐步提升聚类精度，增强降采样样本的代表性，从而在一定程度上可以提高训练正、负样本极不平衡的洗钱风险预测模型的效率和准确性，提高反洗钱监控的效率和准确性。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的反洗钱风险监控方法、装置、设备、介质和程序产品的应用场景图；

图2示意性示出了根据本公开实施例的反洗钱风险监控方法的流程图；

图3示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法的流程图；

图4示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法中每一轮训练过程的示意；

图5示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法中对N个负样本全量聚类的流程图；

图6示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法中对N个负样本进行分组的流程图；

图7示意性示出了据本公开实施例的洗钱风险预测模型的训练方法中对前次聚类结果进行局部调整的流程图；

图8示出了基于聚类降采样集成模型构建的洗钱风险预测模型的系统示意图；

图9示意性示出了根据本公开的实施例的训练方法对图8所示的系统进行训练的流程图；

图10示意性示出了对负样本全量聚类时选择初始聚类中心点的流程图；

图11示意性示出了根据本公开实施例的训练方法中判断是否对负样本全量聚类的流程图；

图12示意性示出了根据本公开实施例的训练方法中合并两个类的流程图；

图13示意性示出了根据本公开实施例的训练方法中进一步拆分一个类的流程图；

图14示意性示出了根据本公开实施例的训练方法中对负样本降采样的流程图；

图15示意性示出了根据本公开实施例的反洗钱风险监控装置的框图；

图16示意性示出了根据本公开实施例的洗钱风险预测模型的训练装置的框图；以及

图17示意性示出了适于实现根据本公开实施例的反洗钱风险监控方法或者洗钱风险预测模型的训练方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有 B和C、和/或具有A、B、C的系统等)。

在本文中，需要理解的是，说明书及附图中的任何元素数量均用于示例而非限制，以及任何命名(例如，第一、第二)都仅用于区分，而不具有任何限制含义。

大数据和人工智能技术为金融机构识别有洗钱嫌疑的客户提供了有利工具。利用金融机构存储的大量客户历史交易数据，可以使用各类机器学习模型(例如，Adaboost、LightGBM、Xgboost等集成模型等)，基于有监督学习的方法来训练洗钱风险预测模型，将客户的交易行为根据是否存在洗钱风险进行分类，来达到更好地反洗钱风险监控。

在洗钱风险预测模型的建立过程中，由于金融机构存储的客户历史交易数据量非常大(通常在PB级别)，若使用全量的训练数据进行模型训练时往往耗时巨大，难以满足洗钱风险预测模型快速迭代的需求。而且，从事洗钱的客户交易数据(本文称“正样本”)，与正常交易的客户交易数据(本文成“负样本”)的比例悬殊，这样会导致训练数据分布极度不平衡。

面对数据量巨大且样本分布不均衡的训练数据，可以通过对正常客户交易数据进行聚类后降采样的方式，来平衡正负样本比例，以使洗钱风险预测模型能更充分学习洗钱交易的行为特征，来达到较好地训练效果。因此，可以采用聚类降采样方法来支持提升洗钱风险预测模型训练的效果。

在一个实施例中，基于聚类降采样的集成模型(CUSboost， cluster based Undersampling with boosting for imbalanced classification 的简称)是一种非常有效、使用较多的机器学习方法，可以用于构建本公开实施例的洗钱风险预测模型。集成模型是一种集成学习技术，通过训练多轮弱分类器模型，并进行将各弱分类预测结果集成为一个最终结果，来进行分类预测。以CUSboost方法构建洗钱风险预测模型时，在每轮弱分类器训练前，首先要对负样本进行聚类，然后在聚类后的各个类中进行降采样，以使得后续的降采样操作能尽可能在负样本数据上分布均匀，在一定程度上以解决数据量大、样本不平衡的问题。

然而，相关技术中已有的CUSboost训练方法往往存在一些问题，比如在每一轮训练时，均要对全量的负样本数据进行聚类，为了能充分学习到数据分布，聚类的类数一般在10类以上，由于大型金融机构数据量巨大，聚类过程性能较差，耗时较长。而如果设定的聚类类数较少，由于负样本数据量大，分布区间广，会使得之后的降采样无法反映，无法反映负样本整体分布，影响了训练效果。

鉴于此，本公开实施例提供了一种反洗钱风险监控方法、装置、设备、介质和程序产品，其中，对所使用的洗钱风险预测模型在训练过程的每一轮中，可以根据上一轮训练的训练结果对负样本训练数据的聚类结果进行动态调整，从而时所得到的类更接近负样本的数据分布，提高洗钱风险预测模型的预测效果。

例如，可以仅在满足一些条件时对所有负样本数据进行重新全量聚类，这样避免每一轮都对全量负样本数据聚类，减少每一轮都必须全量聚类过程的性能消耗。而且在一些实施例中，对全量负样本进行重新聚类时，还可以使用与前一次聚类不同的聚类参数，例如，聚类的类数不同、或者聚类的初始聚类中心点不同等。

再例如，可以根据上一轮训练后洗钱风险预测模型对参与训练的负样本的预测误差，来对上一轮训练中所使用的聚类结果(本文中称“前次聚类结果”)进行局部调整。例如，当洗钱风险预测模型对某些类的训练结果不存在显著差异时，可以将这些类合并为新的类。又例如，当洗钱风险监控模型对某个类的类内预测效果差异较大时，可以将该类进一步聚类成多个小类，提升聚类精度，进而增强降采样采样样本的代表性。

以此方式，本公开实施例可以克服相关技术中基于聚类降采样的模型训练方法中训练性能较差、精度较低、难以调优的缺点，可以帮助金融机构快速、准确地训练正、负样本极不平衡的洗钱风险预测模型。

相应地，本公开实施例还提供了一种洗钱风险预测模型的训练方法、装置、设备、介质和程序产品。其中，该洗钱风险预测模型可以应用于本公开实施例的反洗钱风险监控方法中。

需要说明的是，本公开实施确定的反洗钱风险监控方法和洗钱风险预测模型的训练方法、以及相应的装置、设备、介质和程序产品可用于金融领域，也可用于除金融领域之外的任意领域，本公开对应用领域不做限定。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示意性示出了根据本公开实施例的反洗钱风险监控方法、装置、设备、介质和程序产品的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括至少一个终端设备(图中示出了三个，终端设备101、102、103)、网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105 之间提供通信链路。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。服务器105中可以设置有洗钱风险预测模型。

用户可以使用终端设备101、102、103通过网络104与服务器 105交互，以接收或发送消息等，来实现根据本公开实施例的反洗钱风险监控方法、或者洗钱风险预测模型的训练方法。例如，用户可以使用终端设备101、102、103通过网络104与服务器105发送需要预测洗钱风险的客户交易数据或者需要进行模型训练的样本数据，服务器105根据获取到的客户交易数据或样本数据，进行洗钱风险的预测或模型训练，并将结果发送给终端设备101、102、103以供用户查看。

当然，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一些场景中，服务器105进行洗钱风险的预测或者对洗钱风险监控模型的训练可以是从云端或金融机构的其他系统的数据库中获取数据，而仅在用户通过终端设备101、102、103发送该指令查看洗钱风险的预测结果或者洗钱风险监控模型的训练情况时，将相应的信息反馈给终端设备101、102、103。

需要说明的是，本公开实施例所提供的反洗钱风险监控方法或洗钱风险预测模型的训练方法一般可以由服务器105执行。相应地，本公开实施例所提供的反洗钱风险监控装置或洗钱风险预测模型的训练装置、以及相应的设备、介质和程序产品一般可以设置于服务器 105中。本公开实施例所提供的反洗钱风险监控方法或洗钱风险预测模型的训练方法也可以由不同于服务器105且能够与终端设备101、 102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的反洗钱风险监控装置或洗钱风险预测模型的训练装置、以及相应的设备、介质和程序产品也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

图2示意性示出了根据本公开实施例的反洗钱风险监控方法的流程图。

如图2所示，根据该实施例该反洗钱风险监控方法可以包括操作 S210和操作S220。

在操作S210，获取至少一个第一客户交易数据。例如，用户可以使用终端设备101、102、103通过网络104向服务器105发送需要预测洗钱风险的至少一个第一客户交易数据，或者，服务器105从云端或金融机构的后台数据库读取该至少一个第一客户交易数据，例如，服务器105每个一定时间读取金融机构的在该时间段内的增量交易数据。

在操作S220，利用洗钱风险预测模型基于每个第一客户交易数据，预测第一客户交易数据对应的交易的洗钱风险信息，所述洗钱风险信息用于指示所述第一客户交易数据对应的交易是否存在风险。该洗钱风险预测模型可以是利用任意一种机器学习模型构建的。由于银行的历史交易数据的数据量大，且正常交易的客户交易数据(即，“负样本”、与从事洗钱交易的客户交易数据(即，“正样本”)存在分布不均衡的问题，本公开实施例在对洗钱风险预测模型进行训练时，通过聚类降采样的方式进行训练。

以下将参考图3～图7对洗钱风险预测模型的训练方法进行示例性介绍。其中，在训练洗钱风险预测模型时，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的正样本的个数为P，参与训练的负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值。该样本均衡阈值可以是根据经验确定的，例如 1∶100。而实际中通常P与N的比值往往可以达到1∶100000的程度。

图3示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法的流程图。图4示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法中每一轮训练过程的示意。

如图3所示，同时参阅图4，根据本公开实施例该洗钱风险预测模型的训练方法可以包括操作S310～操作S330。

首先在操作S310，在洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果。

对N个负样本对应的前次聚类结果进行调整例如可以是，基于与前次聚类结果使用的聚类参数不同的聚类参数，对N个负样本全量聚类，或者对前次聚类结果进行局部调整。

其中，局部调整例如可以是对前次聚类结果中的至少一个类进行拆分，和/或将前次聚类结果中的至少两个类合并为新的类。

在一个实施例中，可以当上一轮训练的训练轮数为a的整数倍时，在本轮训练中对N个负样本全量聚类，其中，a为大于或等于2的整数，以此方式可以避免每一轮都对全量负样本数据聚类，减少每一轮都必须全量聚类过程的性能消耗。

或者，在另一个实施例中，当对前次聚类结果的类数大于或等于阈值b时，对N个负样本全量聚类，其中，b为大于或等于2的整数。以此避免反复调整聚类结果导致类越分越多，使得后续采样得到的负样本数量增加，降低模型对正样本中洗钱交易行为的学习效果。

在另一些实施例中，可以根据上一轮训练后洗钱风险预测模型对参与训练的负样本的预测误差，来对前次聚类结果进行局部调整。例如，对于上一轮训练完预测结果准确性较差的类别，在其内部还需要进一步细分。又例如，对于上一轮训练完预测结果无显著差异的多个类进行合并。以此方式，可以使得降采样得到的负样本更具有代表性。

然后在操作S320，从本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本。根据本公开实施例，在对每个类进行降采样时可以设置最低、最高抽样样本数，避免大类过度抽样、小类抽样不足的问题。

在操作S330，使用参与本轮训练的负样本和P个正样本对洗钱风险预测模型进行本轮训练。

以此方式，本公开实施例通过在各轮训练中逐步提升聚类精度，增强降采样样本的代表性，克服了相关技术总基于聚类降采样的模型训练时，训练效果较差、精度较低、训练数据难以调优的缺点，从而在一定程度上可以提高练正、负样本极不平衡的洗钱风险预测模型的效率和准确性。

图5示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法中对N个负样本全量聚类的流程图。

如图5所示，根据本公开实施例操作S320可以包括操作S501～操作S502，以实现对N个负样本的全量聚类。

首先在操作S501，从对N个负样本按照预定规则划分得到的C 个分组的每个分组中随机选择一个初始聚类中心点，以得到C个初始聚类中心点，其中，C为大于1且小于等于N/2。

然后在操作S502，以C个初始聚类中心点分别作为聚类中心点，对N个负样本进行k-means聚类。

根据本公开实施例，在每一轮中都从C个分组中随机选择初始聚类中心点，可以使对全量负样本使用k-means聚类方法时的初始聚类中心点随机变化，使得不同次的全量聚类效果不同，有助于模型全面学习负样本的特征，减少对负样本特征的遗漏。

根据本公开实施例，初始聚类中心点是从对N个负样本按照预定规则划分得到的C个分组中分别进行选取的，可以一定程度上克服相关技术中对于如何选择类数和初始聚类中心点缺少指导，需要通过反复试验、盲猜确定聚类参数的缺点，提高对聚类结果的数据分布的可控性，进而使降采样后的数据更逼近负样本的数据分布。

根据本公开的实施例，按照预定规则划分得到的C个分组可以是基于N个负样本中每个负样本与P个正样本的距离，划分得到的C 个分组。例如，可以根据每个负样本与P个正样本的平均距离的大小，按序将所有的负样本划分为与正样本差异较大的负样本、差异一般的负样本、与正样本较接近的负样本等多个组。从而，根据本公开的实施例，从每个组中随机选择初始聚类中心点，可以使得初始聚类中心点能更具有代表性，聚类结果更稳定，且后续抽样数据的分布更均匀。相比于相关技术中直接从全量的负样本数据中选择初始聚类中心点，可以明显改进由于初始聚类中心点选取不当而导致聚类结果不稳定以及后续抽样代表性不佳的问题

图6示意性示出了根据本公开实施例的洗钱风险预测模型的训练方法中对N个负样本进行分组的流程图。

如图6所示，根据本公开实施例对N个负样本分成的过程可以包括操作S601～操作S604。

在操作S601，计算N个负样本中每个负样本与P个正样本的距离。根据本公开的一个实施例，为衡量正负样本的“差异程度”，可以使用欧式距离平方来度量负样本和正样本的“差异程度”的算法。

在操作S602，对每个负样本计算其与最近的Pi个正样本的平均距离，其中，Pi为整数，且0＜Pi≤P。以此方式，可以减少计算平均距离时的计算量。

在操作S603，按照每个负样本对应的平均距离对N个负样本排序。

在操作S604，按照排序顺序将N个负样本等频划分为C个分组。其中，C为整数且C为大于1且小于等于N/2。从而除最后一组外，每组包括N/C个样本。

以此方式，可以根据N个负样本的分布特征在负样本数据内部进行分层(例如，图6中根据与正样本的距离对负样本数据集分组)，然后在聚类时从每个层中选择初始聚类中心点，基于这些初始聚类中心点在对N个负样本整体按照K-means方法进行聚类，使得初始聚类中心点的分布更符合负样本可能的空间分布特征，提高聚类的效率、以及聚类的稳定性。

在一些实施例中，可以对负样本数据集进行一次如图6所示的分组后，当每次在操作S310中需要对全量负样本重新聚类时，直接从已经分好的C个组内随机选择初始聚类中心点。在另一些实施例中，也可以是当在操作S310中需要对全量负样本重新聚类时，先对N个负样本按照如图6所示的流程进行分组，然后在每个组内选择初始聚类中心点进行聚类，其中，每次分组时的分组参数可以不同(例如， Pi的值不同，或者，C的值不同)。

图7示意性示出了据本公开实施例的洗钱风险预测模型的训练方法中对前次聚类结果进行局部调整的流程图。

如图7所示，根据本公开实施例操作S320可以包括操作S701～操作S702，从而实现对前次聚类结果进行局部调整。

在操作S701，基于前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差，得到每个类对应的类内预测误差。例如，可以对每个类内参与上一轮训练的所有负样本的预测误差求平均或加权平均，得到类内预测误差。

在操作S702，当类内预测误差满足局部调整条件时，对前次聚类结果进行局部调整。

在一个实施例中，当类内预测误差大于预定的类内误差阈值时，说明该类中负样本的特征尚未被充分学习，需要继续分裂，从而可以将类内预测误差对应的类再次聚类为多个类。

或者在另一个实施例中，当类内预测误差具体为前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差的平均值，且基于类内预测误差而得到的变异系数大于预设的最大变异系数时，将类内预测误差对应的类再次聚类为多个类。如果变异系数过大，说明该类内的负样本离散程度较大，需要继续分裂以抽取不同类型的负样本。根据本公开的实施例可以在根据变异系数评价确定出洗钱风险监控模型对某个类的类内预测效果差异较大时，将该类进一步聚类成多个小类。基于变异系数的统计理论，提供了评估数据类内分类误差差异程度的指标，有效地衡量了洗钱风险监控模型训练过程中需要进一步分裂以提升采样精度的数据类，提升聚类精度。

在另一些实施例中，可以计算前次聚类结果中每两个类对应的类内预测误差的绝对差异，当存在绝对差异小于最小显著差异值时，将绝对差异对应的两个类合并为一个新的类。以此方式，当根据每两个类的类内预测误差的绝对差异确定出两个类对洗钱风险预测模型而言不存在显著差异时，可以将这两个类合并为新的类。在本公开的一个实施例中，该最小显著差异值为根据Fisher最小显著差异原理，并基于上一轮训练对前次聚类结果中每个类中参与训练的负样本的预测误差进行处理得到的。基于Fisher最小显著差异检验的统计理论，提供了评估数据每两个类的类内预测误差的绝对差异的指标，有效地衡量了洗钱风险预测模型训练过程中需要合并以降低采样数量的数据类。

本公开实施例针对金融机构反洗钱训练样本具有的正、负样本极不平衡、正样本特征分布区间大于负样本的数据特点，在抽样过程中，可以根据训练误差动态地在局部数据上合并、分裂数据类，有效缩短了训练时间性能，提升了模型精度。

本公开实施例还可以在类的数量大于或等于b时，在全量数据上重新聚类，中增加分裂数据类的聚类采样步骤后，生成过多的小类。

本公开实施例还可以每隔固定轮次才在全量数据上重新聚类的步骤，避免了每轮都在全量数据上聚类带来的性能问题。

本公开实施例在进行全量数据聚类时，增加了根据负样本和正样本的差异程度，分层选取聚类初始聚类中心点的步骤，克服了原有的从负样本总体中选择聚类初始聚类中心点的随机性而导致训练不稳定的问题。

以下结合图8～图14对应用根据本公各个实施例的训练方法，对基于CUSboost算法构建的洗钱风险预测模型的的训练过程进行示例性说明，以帮助本领域技术人员更详细的理解本公开实施例的方案的具体实施。其中，以CUSboost构建的洗钱风险预测模型可以支持 Adaboost、LightGBM、Xgboost等常用集成模型。

相关技术中CUSboost算法(以下简称“已有CUSboost算法”) 在每轮弱分类器训练时，均要进行k-means方法聚类，为了能充分学习到数据分布，聚类的类数一般在10类以上，由于大型金融机构数据量巨大，聚类过程性能较差，耗时较长。而集成模型往往要训练 100～1000轮左右的弱分类器更加放大了聚类性能问题。而如果设定的类数较少，由于负样本数据量大，分布区间广，会使得之后的降采样无法反映，无法反应负样本整体分布。本公开实施例针对这一缺陷，可以在训练初始设定较少的类数，然后在训练过程中根据前一轮的训练结果，动态调整当前的负样本聚类数，使得聚类降采样后的样本数据更符合负样本的分布。

已有CUSboost算法每轮迭代时均使用相同的聚类参数，在相同的数据样本上做聚类，无法根据每轮训练的分类误差动态调整聚类参数和使用数据。本公开实施例针对这一缺陷，可以根据对上一轮训练完的预测准确性较差的类别，在其内部还需要进一步细分，以使得降采样的样本更具有代表性，使得聚类和采样的精度可以与每轮的弱分类器精度相匹配，提升训练效果。

已有CUSboost算法使用k-means方法聚类，依赖于类数、中心点的选择，对于如何选择类数和中心点缺少指导，需要通过反复试验、盲猜确定聚类参数，再加上上面指出的全数据聚类性能较差，使得模型调优的可操作性很差。本公开实施例针对这一缺陷，可以对负样本数据即按照其与正样本的相对分布情况进行分层，并在每个层内产生聚类的初始聚类中心点，这样可以增加聚类的稳定性，提升聚类的效率。

图8示出了基于聚类降采样集成模型构建的洗钱风险预测模型的系统示意图。

如图8所示，该系统可以包括模块1、模块2、模块3、以及模块4。

模块1：从数据存储设备读取一批客户交易数据，加工为客户交易特征，并对这批客户交易数据打上洗钱交易、非洗钱交易的标签。

模块2：使用模块1的输出数据，按照本公开实施例提供的训练方法进行洗钱风险预测模型的训练，并将训练好的洗钱风险预测模型的模型文件存储到数据存储设备中，洗钱风险预测模型的模型文件内容包括用于分类的树的结构、分支阈值、每棵数的权重等。

模块3：每日从数据存储设备中读取当日新增加的客户交易数据，按照与模块1相同的加工逻辑加工客户交易特征。

模块4：每日从数据存储设备中读取已经训练好的洗钱风险预测模型，使用该洗钱风险预测模型输出的客户的洗钱风险，并将预测结果存放到数据存储设备中，供其它系统使用。

本公开实施例提供的训练方法主要涉及模块2，针对洗钱风险预测模型的训练方法，改进了基于聚类降采样集成模型中每一轮采样前的负样本数据聚类，以提高聚类精度和采样精度。

图9示意性示出了根据本公开的实施例的训练方法对图8所示的系统进行训练的流程图。

如图9所示，根据本公开实施例为实现对洗钱风险预测模型的训练，可以采用的模块包括模块21.～模块2.9，其中，模块2.1、模块 2.3、模块2.4、模块2.6、模块2.7是相对于已有CUSboost改进的模块，模块2.2、2.8、2.9则可以采用本领域已有的任意相关技术实现。

模块2.1根据负样本和正样本的“差异程度”，对负样本进行分层处理(例如，按照平均距离划分成C组)，后续聚类中心点在进行分层随机确定，这样就分别在差异较大的负样本、差异一般的负样本、与正样本较接近的负样本中产生了初始聚类中心点，改进了已有CUSboost因为初始聚类中心点选取不当导致聚类结果不稳定，以及后续抽样代表性不佳的问题，使得聚类的初始中心能更具有代表性。为衡量正负的“差异程度”本公开实施例可以使用欧式距离平方来度量负样本和正样本的“差异程度”的算法(见下文附图10的相关描述)。

模块2.3针对已有CUSboost方法做了如下改进：相关技术中 CUSboost算法每轮均进行全量数据的聚类运算，即使采用效率较高的kmeans聚类算法，在大规模交易数据上也存在性能问题。而本公开实施例的训练方法仅在满足一定条件(见下文附图11的描述)才进行全量数据重新聚类。一方面减少了每轮都全量聚类的性能消耗，另外一方面由于本发明中，一些聚类后的类会随每轮迭代分裂为更多小类(见下文附图13的描述)，因此每隔固定轮次或当类数大于一定阈值时重新聚类可以有效避免过度分裂，防止模型过拟合。

模块2.4在已有CUSboost算法中增加了根据上一轮训练后洗钱风险预测模型的预测效果对已有类进行合并操作，将洗钱风险预测模型分类后差异程度较小的类进行合并，这样做的优点是减少了后续分裂的小类数量，同时减少了对这些已能较好预测的数据的抽样比例 (见下文附图14的描述)，提升了训练性能。为衡量两个类的差异程度，本公开实施例提出将Fisher最小显著差异(LSD)检验运用于评估两个类的分类误差的差异程度的评估方法(见下文附图12的相关描述)，以指导类的合并过程。

模块2.6在已有CUSboost方法中增加了根据上一轮训练过程洗钱风险预测模型的预测效果对已有类进行继续分裂的操作，将洗钱风险预测模型类内预测效果差异较大的类重新聚成多个小类。这样做的优点包括：1)每轮只对部分数据进行重聚类，改进了已有CUSboost 对全量数据重聚类性能较差的缺点。2)上一轮训练完类内预测误差差异较大的类别说明其内部数据差异性较大，聚类不够精确，抽样代表性不够，采用这个方法可以对其内部进一步细分，以使得降采样的样本更具有代表性。为衡量类内的学习效果差异程度，本公开实施例提出将变异系数运用于评估类内的分类误差差异程度的评估方法(见下文附图13的相关描述)，以指导类的分裂过程。3)由于每轮训练都会逐步分裂小类，所以初始聚类的数量不必很多，从实验情况看在 3～4类即可，有效提升了聚类的性能。

模块2.7改进了已有CUSboost算法的抽样方法，已有CUSboost 算法对所有类均用相同的比例进行抽样，导致一些对模型分类误差有显著影响的小类不能充分抽样，而一些对模型分类误差无显著影响的大类过度抽样。本公开实施例中，为了保证小类也能充分抽样，设置最低、最高抽样样本数(见下文附图14的相关描述)，保证的抽样的代表性。

模块2.2、2.8、2.9可以采用本领域已有的任意相关技术实现。可以使用常用的模型集成方法，包括AdaBoost、GBDT、LightGBM、 XgBoost等集成树模型，为便于理解，此处以AdaBoost为例对相关过程进行简要描述，后文不再对模型集成原理和过程展开详述：

模型2.2判断本轮训练是否已经达到预设的弱分类器数量阈值，如果已经达到则停止训练，否则继续训练下一个弱分类器。

模块2.8使用一个较为简单的决策树训练一个弱分类器，其中用于计算该决策树损失函数的样本权重由上一轮训练后的分类误差决定，这样对于不同权重的样本，其分错的损失代价不同，这样模型可以倾向于将权重较高的样本分类正确。

模块2.9使用最新训练完成的各个弱分类器对训练样本进行预测，最终的预测结果是各弱分类器乘以该弱分类器权重的加总，各弱分类器权重由上一轮训练后的分类误差决定，然后根据预测结果调整样本权重以供下一轮训练使用。

模块2.5采用已有k-means聚类算法，通过聚类过程在后续负样本降采样时，可对每个类分别进行采样，保证采样在全量负样本中比较均匀有代表性。

图10示意性示出了对负样本全量聚类时选择聚类中心点的流程图。

如图10所示，该流程是对图9中模块2.1的展开，其中模块2.1 可以通过模块2.1.1～模块2.1.4的相互协作，实现对负样本全量聚类时选择聚类初始聚类中心点。

具体地，模块2.1.1对每个负样本计算其与每个正样本的距离。

设SN为具有N个样本的负样本数据集合，SP为具有P个样本的负样本数据集合，SN、SP中的每个样本有K个特征，对所有 s_n∈S_N，s_p∈S_P两两计算距离欧式距离的平方，得到距离N*P维的矩阵 D，其中，则该矩阵每个元素d_np有：

式(1)中

为特征集合XK的第k个特征。

模块2.1.2对每个负样本Sn计算其与最近的10个正样本的平均距离。例如，D的每一列中取最小的10个距离值求平均。

2.1.2.1对于每个s_n∈S_N，从小到大排序d_np，p∈[1，P]，取前10个距离d_n1，d_n2，...d_n10.

2.1.2.2对于每个s_n∈S_N，计算其与最近的10个正样本的平均距离：

模块2.1.3设聚类数量为C个，则对于所有s_n∈S_N，根据其与最近的10个正样本的平均距离

对其进行排序，根据排序顺序将负样本等频分为C组，除最后一组外，每组包括N/C个样本。

模块2.1.4设2.1.3将负样本分为C组，从每组中随机抽样一条负样本作为初始聚类中心点。

本公开实施例，基于欧式距离的理论，提供了评估正负样本的差异程度的指标，以样本为参照有效衡量了负样本的性质，使得聚类中心点能在不同分布特性的负样本中产生。

需要特别说明的是，本公开实施例的洗钱风险预测模型的训练方法中，训练数据具有负样本特征分布区间广，正样本分布区间较小的特点；在其它数据集上，如与反洗钱数据也有同样的特征，则也可以使用该方法。

图11示意性示出了根据本公开实施例的训练方法中判断是否对负样本全量聚类的流程图。

如图11所示，该流程是对图9中模块2.3的展开，其中模块2.3 可以通过模块2.3.1～模块2.3.2的相互协作，来判断是否对负样本全量聚类。

设有参数a、b：每a轮需要重新训练，即每a轮重新对全量负样本数据聚类，且在整个训练过程中负样本生成的总类数不超过b个。

模块2.3.1若上一轮训练的训练轮数为a的整数倍，则本轮训练中重新对全量负样本数据集聚类。

模块2.3.2若本轮对前次聚类结果的类数大于或等于b个，则重新对全量负样本数据集聚类。

其中，在重新聚类时，可以在图9中模块2.1已经分层的负样本数据集中重新随机选择聚类的初始聚类中心点，然后通过k-means算法进行聚类。

图12示意性示出了根据本公开实施例的训练方法中合并两个类的流程图。

如图12所示，该流程是对图9中模块2.4的展开，其中模块2.4 可以通过模块2.4.1～模块2.4.13的相互协作，来合并差异程度较小的类。

设有参数α：α为设定的置信区间，在使用Fisher最小显著差异 (LSD_e)检验，计算LSD_e时使用。

记：当前待处理类列表为C_current_list.

模块2.4.1获取上一轮训练中洗钱风险预测模型对每个负样本在的分类误差，对于s_i∈S，S为上一轮训练中经过采样后参与洗钱风险预测模型训练的负样本数据集合，其洗钱风险预测模型的预测误差e_i的计算公式为：

e_i＝1-h(X_i，y_i)+h(X_i，y′_i) 式(3)

式(3)中：X_i为s_i的特征集合，y_i为s_i的真实标签值，y′_i为s_i的洗钱风险预测模型预测的错误标签，h(X_i，y_i)为洗钱风险预测模型将s_i预测为真实标签的概率，h(X_i，y′_i)为模型将s_i预测为错误标签的概率。

模块2.4.2～模块2.4.13实现了以下算法流程如下Step1～Step11：

Loop1读取一个C_current_list未处理类记为C_current，直到不存在未处理类

Step1标记C_current为已处理；

Step2计算C_current_list中所有类对应的类间方差MSE_e(计算方式可以参考下文式(5)。；

Step3计算C_current中的负样本预测误差均值Avg_current、样本数量N_samples_current；

Loop2遍历C_current_list中其它未处理类记为C_next

Step4计算C_next中的负样本预测误差均值Avg_next、样本数量 N_samples_next；

Step5计算C_current与C_next关于分类误差的LSDe；

Step6 if Abs(Avg_current-Avg_next)＜LSD_e

Step7将C_next合并到C_current；

Step8标记C_next为已处理；

Step9更新Avg_current、N_samples_current、MSEe；

Step10返回Loop2；

Step11返回Loop1。

接下来对模块2.4.3关于类间方差MSE_e的计算公式进行介绍：

式(4)中，k为当前待处理类列表为C_current_list中类的数量； n_i为第i类的样本数；e_ij为第i类第j个样本的预测误差；

为第i 类的类内预测误差；

式(5)中：k为类的数量，n为所有负样本数量；每一轮训练结束后，基于参与该轮训练的所有负样本以及类，得到一个类间方差。

下面对模块2.4.10Fisher最小显著差异的计算方法进行介绍：

根据Fisher最小显著差异的原理：

H0：C_current与C_next的分类误差均值相同

H1：C_current与C_next的分类误差均值不相同

式(6)中：t_α/2是t分布在置信区间α/2时的置信水平，n_{C_current}、 n_{C_next}为C_current与C_next的样本数量。

根据式(7)判断两个类的类内预测误差的差异程度。

若两个类的预测误差的差异程度满足式(7)，则不能拒绝H0，此时认为洗钱风险预测模型对C_current与C_next的预测误差差异程度不高，将这两个类的数据记录合并，重新聚类并抽样。根据本公开实施例，通过在已有CUSboost模型算法的训练过程中增加基于训练误差逐步合并数据类的采样步骤，解决了现有CUSboost模型算法了对已能较好预测的数据过度抽样的问题。

图13示意性示出了根据本公开实施例的训练方法中进一步拆分一个类的流程图。

如图13所示，该流程是对图9中模块2.6的展开，其中模块2.6 可以通过模块2.6.1～模块2.6.9的相互协作，来进一步细分已有类。

设有参数max_AVG、max_CV、C_num：max_AVG为平均分类误差阈值、max_CV为变异系数阈值、C_num为聚类数量。

记：当前待处理类列表为C_current_list、已处理类列表为C_list.

模块2.6.1获取每条样本在上一轮训练的预测误差e_i，

从模块2.6.2～模块2.6.9主要完成了以下算法流程step1～step4：

Loop1从C_current_list读取下一个类

Step1计算该类的平均分类误差Avg_current；

Step2 if平均分类误差大于预定的类内误差阈值，说明该类中样本的特征尚未被充分学习，需要继续分裂：则该类进一步使用kmeans方法聚为C_num个类

Step3 else if该类的变异系数CV_e大于max_CV(如果CV_e较大说明类内的样本分类误差离散程度较大，需要继续分裂以抽取不同类型的样本)：该类进一步使用kmeans方法聚为 C_num个类。

Step4 else返回Loop1。

其中，对模块2.6.7的CV_e的计算公式进行介绍如下。

变异系数在统计理论中，是一种相对差异的量数(不带测量单位)，是标准差与平均数的比值，是衡量总体中各观测值变异程度的一个统计量。本发明通过计算分类误差的变异系数CV_e来度量，模型对各个样本的分类正确性的差异程度，如果CV_e较大，则说明差异程度较大，上一轮训练时从该类抽样的样本可能无法代表该类的全部样本情况，因此需要对该类进行进一步分裂，以增加抽样的代表性。第j个类的

计算公式为式(8)。

式(8)中，Std_j为第j个类的分类误差的标准差，Avg_j为第j个类的分类误差的平均值。

以此方式，本公开实施例在已有CUSboost模型训练过程中，增加了基于训练误差逐步分裂数据类的聚类采样步骤，该步骤即解决了已有CUSboost在全量数据上聚类采样的性能问题，并在数据抽样精度和代表性上都有所提升。

图14示意性示出了根据本公开实施例的训练方法中对负样本降采样的流程图。

如图14所示，该流程是对图9所示的模块2.7的展开，其中，模块2.7可以通过模块2.7.1～模块2.7.7的相互协作，来实现操作S320 中的采样。

设有参数sample_rate、min_sample_num：抽样比例为sample_rate，抽样阈值下限为min_sample_num、抽样阈值上限为max_sample_num。

模块2.7.1依次读取模块2.6输出的所有类，记当前读到的类为 C_current，包含的样本数量为n_C_current。

模块2.7.2、2.7.3、2.7.4按比例抽样情况下待抽样样本数量：

n_samples＝sample_rate*n_C_current，

若n_samples≤min_sample_num，

则抽取min(min_sample_num，n_C_current)的样本进入下一轮训练，否则进入模块2.7.5

模块2.7.5、2.7.6、2.7.7中，若n_samplesl≥max_sample_num，则从C_current中抽取max_sample_num个样本进入到下一轮训练中，否则从C_current中抽取n_samples个样本进入下一轮训练中。

可见，本公开实施例通过设置最低、最高抽样样本数，克服了大类过度抽样、小类抽样不足的问题。

本公开实施例的洗钱模型预测方法，针对金融机构客户正常交易和洗钱交易的样本数据分布特性，通过对聚类降采样集成模型的改进，能够在初始设定类数较少(此时聚类性能好)的情况下，在训练过程中根据集成每轮弱分类器的训练和数据分布对大类逐步分裂，并通过引入局部聚类、分层选取聚类中心点、和/或相似类合并等方法逐步提升聚类精度，增强降采样样本的代表性，克服了相关技术中 CUSboost模型算法中聚类性能较差、采样精度较低、模型难以调优的缺点，可以帮助金融机构等主体快速、准确地训练正、负样本极不平衡的洗钱风险预测模型。在实际的一个测试应用中，图9所示的系统AUC超过相关技术中已有CUSboost训练模型近3个bp(其中，1 个bp＝0.01％)，在50％召回率的情况下，准确率比提升10％左右，训练时间减少50％左右。

基于上述反洗钱风险监控方法或洗钱风险预测模型的训练方法方法，本公开还提供了一种反洗钱风险监控装置或洗钱风险预测模型的训练装置。以下将结合图15和图16对相应的装置进行详细描述。

图15示意性示出了根据本公开实施例的反洗钱风险监控装置的框图。

如图15所示，该反洗钱风险监控装置1500可以包括数据获取模块1510、预测模块1520以及模型训练模块1530。该反洗钱风险监控装置1500可以用于实现参考图2～图14所描述的方法。

所述数据获取模块1510用于获取至少一个第一客户交易数据。

所述预测模块1520用于利用洗钱风险预测模型基于每个所述第一客户交易数据，预测所述第一客户交易数据对应的交易的洗钱风险信息，所述洗钱风险信息用于指示所述第一客户交易数据对应的交易是否存在风险。

所述模型训练模块1530用于训练所述洗钱风险预测模型。其中，在训练所述洗钱风险预测模型时，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值。模型训练模块1530可以在洗钱风险预测模型的训练过程中，在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，以提高负样本的聚类精度和采样精度，进而提升洗钱风险预测模型的训练效率和预测准确率。

图16示意性示出了根据本公开实施例的洗钱风险预测模型的训练装置的框图。

如图16所示，根据本公开实施例的洗钱风险预测模型的训练装置1600可以包括聚类调整模块1610、采样模块1620、样本分层模块 1630、以及训练模块1640。该训练装置1600既可以独立存在，也可以作为模型训练模块1530集成于反洗钱风险监控装置1500中，用于实现参考图3～图14所描述的训练方法。

聚类调整模块1610用于在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果。

采样模块1620用于从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本。

所述样本数据分层模块1630用于：计算N个所述负样本中每个所述负样本与P个所述正样本的距离；对每个所述负样本计算其与最近的Pi个正样本的平均距离，其中，Pi为整数，且0＜Pi≤P；按照每个所述负样本对应的所述平均距离对N个所述负样本排序；以及按照排序顺序将N个所述负样本等频划分为C个分组。

训练模块1640用于使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

根据本公开的实施例，所述聚类调整模块1610可以包括全量聚类子模块1611和局部调整子模块1612。

所述全量聚类子模块1611用于基于与上一轮训练时使用的聚类参数不同的聚类参数，对N个所述负样本全量聚类。

在一个实施中，所述全量聚类子模块1611还用于：当上一轮训练的训练轮数为a的整数倍时，在本轮训练中对N个所述负样本全量聚类，其中，a为大于或等于2的整数；或者当对所述前次聚类结果的类数大于或等于阈值b时，对N个所述负样本全量聚类，其中， b为大于或等于2的整数。

在另一个实施例中，所述全量聚类子模块1611还用于：从对N 个所述负样本按照预定规则划分得到的C个分组的每个分组中随机选择一个初始聚类中心点，以得到C个初始聚类中心点，其中，C为大于1且小于等于N/2；以及以C个所述初始聚类中心点分别作为聚类中心点，对N个所述负样本进行k-means聚类。

所述局部调整子模块1612用于对所述前次聚类结果进行局部调整。其中，所述局部调整包括对所述前次聚类结果中的至少一个类进行拆分，和/或将所述前次聚类结果中的至少两个类合并为新的类。

在一个实施例中，所述局部调整子模块用于：基于所述前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差，得到每个类对应的类内预测误差；以及当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整。

根据本公开的实施例，数据获取模块1510、预测模块1520、聚类调整模块1610、采样模块1620、样本分层模块1630、以及训练模块1640中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，数据获取模块1510、预测模块1520、聚类调整模块1610、采样模块1620、样本分层模块1630、以及训练模块1640中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，数据获取模块1510、预测模块1520、聚类调整模块1610、采样模块1620、样本分层模块1630、以及训练模块1640中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图17示意性示出了适于实现根据本公开实施例的反洗钱风险监控方法或者洗钱风险预测模型的训练方法的电子设备1700的方框图。

如图17所示，根据本公开实施例的电子设备1700包括处理器 1701，其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。处理器1701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1701还可以包括用于缓存用途的板载存储器。处理器1701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1703中，存储有电子设备1700操作所需的各种程序和数据。处理器1701、ROM 1702以及RAM 1703通过总线1704彼此相连。处理器1701通过执行ROM 1702和/或RAM1703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1702和RAM 1703以外的一个或多个存储器中。处理器1701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1700还可以包括输入/输出(I/O) 接口1705，输入/输出(I/O)接口1705也连接至总线1704。电子设备1700还可以包括连接至I/O接口1705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707；包括硬盘等的存储部分1708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1702和/或RAM 1703和/或ROM 1702和RAM 1703以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1701执行时执行本公开实施例的系统/ 装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1709被下载和安装，和/或从可拆卸介质1711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1709从网络上被下载和安装，和/或从可拆卸介质1711被安装。在该计算机程序被处理器1701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++， python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网 (LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种反洗钱风险监控方法，包括：

获取至少一个第一客户交易数据；

利用洗钱风险预测模型基于每个所述第一客户交易数据，预测所述第一客户交易数据对应的交易的洗钱风险信息，所述洗钱风险信息用于指示所述第一客户交易数据对应的交易是否存在风险；

其中，

在训练所述洗钱风险预测模型时，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值，其中，所述洗钱风险预测模型通过如下方式进行训练：

在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果；

从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本；以及

使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

2.根据权利要求1所述的方法，其中，所述根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整包括：

基于与所述前次聚类结果使用的聚类参数不同的聚类参数，对N个所述负样本全量聚类；或者

对所述前次聚类结果进行局部调整，包括：对所述前次聚类结果中的至少一个类进行拆分，和/或将所述前次聚类结果中的至少两个类合并为新的类。

3.根据权利要求2所述的方法，其中，所述根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整包括：

当上一轮训练的训练轮数为a的整数倍时，在本轮训练中对N个所述负样本全量聚类，其中，a为大于或等于2的整数；或者

当对所述前次聚类结果的类数大于或等于阈值b时，对N个所述负样本全量聚类，其中，b为大于或等于2的整数。

4.根据权利要求2或3所述的方法，其中，所述对N个所述负样本全量聚类包括：

从对N个所述负样本按照预定规则划分得到的C个分组的每个分组中随机选择一个初始聚类中心点，以得到C个初始聚类中心点，其中，C为大于1且小于等于N/2；以及

以C个所述初始聚类中心点分别作为聚类中心点，对N个所述负样本进行k-means聚类。

5.根据权利要求4所述的方法，其中，所述按照预定规则划分得到的C个分组包括，基于N个所述负样本中每个所述负样本与P个所述正样本的距离，划分得到的C个分组。

6.根据权利要求5所述的方法，其中，所述洗钱风险预测模型的训练过程还包括：

计算N个所述负样本中每个所述负样本与P个所述正样本的距离；

对每个所述负样本计算其与最近的Pi个正样本的平均距离，其中，Pi为整数，且0＜Pi≤P；

按照每个所述负样本对应的所述平均距离对N个所述负样本排序；以及

按照排序顺序将N个所述负样本等频划分为C个分组。

7.根据权利要求2所述的方法，其中，所述根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整包括：

基于所述前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差，得到每个类对应的类内预测误差；以及

当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整。

8.根据权利要求7所述的方法，其中，所述当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整包括：

当所述类内预测误差大于预定的类内误差阈值时，将所述类内预测误差对应的类再次聚类为多个类；或者

当所述类内预测误差为所述前次聚类结果中每个类内参与上一轮训练的所有负样本的预测误差的平均值，且基于所述类内预测误差而得到的变异系数大于预设的最大变异系数时，将所述类内预测误差对应的类再次聚类为多个类。

9.根据权利要求7所述的方法，其中，所述当所述类内预测误差满足局部调整条件时，对所述前次聚类结果进行局部调整包括：

计算所述前次聚类结果中每两个类对应的所述类内预测误差的绝对差异；

当存在所述绝对差异小于最小显著差异值时，将所述绝对差异对应的两个类合并为一个新的类。

10.根据权利要求9所述的方法，其中，所述最小显著差异值为根据Fisher最小显著差异原理，并基于上一轮训练对所述前次聚类结果中每个类中参与训练的所述负样本的预测误差进行处理得到的。

11.一种洗钱风险预测模型的训练方法，其中，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值，其中，所述训练方法包括：

12.一种反洗钱风险监控装置，包括：

数据获取模块，用于获取至少一个第一客户交易数据；

预测模块，用于利用洗钱风险预测模型基于每个所述第一客户交易数据，预测所述第一客户交易数据对应的交易的洗钱风险信息，所述洗钱风险信息用于指示所述第一客户交易数据对应的交易是否存在风险；以及

模型训练模块，用于训练所述洗钱风险预测模型；其中，在训练所述洗钱风险预测模型时，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值，

其中，所述模型训练模块包括：

聚类调整模块，用于在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果；

采样模块，用于从所述本轮负样本聚类结果的每个类中降采样，得到参与本轮训练的负样本；以及

训练模块，用于使用所述参与本轮训练的负样本和P个所述正样本对所述洗钱风险预测模型进行本轮训练。

13.一种洗钱风险预测模型的训练装置，其中，以进行洗钱交易的每个客户交易数据作为一个正样本，以正常交易的每个客户交易数据作为一个负样本，其中，参与训练的所述正样本的个数为P，参与训练的所述负样本的个数为N，其中，其中，P、N分别为正整数，且P与N的比值小于样本均衡阈值，其中，所述训练装置包括：

聚类调整模块，用于在所述洗钱风险预测模型的每一轮训练中，根据上一轮训练的训练结果对上一轮训练中N个所述负样本对应的前次聚类结果进行调整，得到本轮负样本聚类结果；以及

14.一种电子设备，包括：

一个或多个处理器；

一个或多个存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～11中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～11中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～11中任一项所述的方法。