CN111383113A

CN111383113A - 可疑客户预测方法、装置、设备及可读存储介质

Info

Publication number: CN111383113A
Application number: CN202010152995.9A
Authority: CN
Inventors: 魏征; 梁议丹; 易航; 陈潇潇; 李峻峰; 陈天健
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-07

Abstract

本发明公开了一种可疑客户预测方法、装置、设备及可读存储介质，所述方法包括：获取待预测客户的第一客户信息；将所述第一客户信息输入可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型是所述第一设备与第二设备进行纵向联邦建模得到的；根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二设备将所述待预测客户的第二客户信息输入所述可疑客户预测模型得到。本发明实现了保证客户隐私信息安全的前提下，提高可疑客户预测的准确性，进而促进了可疑排查工作的开展，提高了可疑排查工作的效率。

Description

可疑客户预测方法、装置、设备及可读存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种可疑客户预测方法、装置、设备及可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

随着互联网和移动支付等技术的发展，各种金融产品和支付方式得到广泛应用，这些新的金融创新给企业和个人带来了极大便利，但也为反洗钱等可疑客户排查工作带来了新的挑战。金融业务线上化后，客户身份识别难度大、资金链路错综复杂，跨机构交易频繁，是目前可疑客户排查工作的难点。传统的可疑客户排查工作是基于人工的审核，利用金融从业者的专家经验，对客户在本机构的交易情况进行识别。但是，由于金融交易是多方进行的，交易具有上下游、多对多特性，单个金融机构信息有限，在进行可疑客户排查时不能完全掌握交易情况，容易造成漏查。

发明内容

本发明的主要目的在于提供一种可疑客户预测方法、装置、设备及可读存储介质，旨在解决目前在可疑客户排查工作时，不能完全掌握客户的各种情况，容易造成漏查的问题。

为实现上述目的，本发明提供一种可疑客户预测方法，所述可疑客户预测方法应用于第一设备，所述可疑客户预测方法包括以下步骤：

获取待预测客户的第一客户信息；

将所述第一客户信息输入可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型是所述第一设备与第二设备进行纵向联邦建模得到的；

根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二设备将所述待预测客户的第二客户信息输入所述可疑客户预测模型得到。

可选地，所述第一客户信息包括第一洗钱风险特征对应的信息，所述第二客户信息包括第二洗钱风险特征对应的信息，

所述根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果的步骤包括：

根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述可疑预测结果表征所述待预测客户是否属于疑似洗钱客户。

可选地，所述根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果的步骤之后，还包括：

当根据所述可疑预测结果确定所述待预测客户是可疑客户时，根据所述可疑预测结果确定所述待预测客户的可疑值，并检测所述可疑值是否大于预设值；

当所述可疑值大于预设值时，将所述待预测客户加入纵向联邦建模的训练样本集以更新所述训练样本集，，并基于更新后的训练样本集对所述可疑客户预测模型进行优化训练。

可选地，所述当根据所述可疑预测结果确定所述待预测客户是可疑客户时，根据所述可疑预测结果确定所述待预测客户的可疑值的步骤包括：

当根据所述可疑预测结果确定所述待预测客户是可疑客户时，获取所述待预测客户的第三客户信息；

将所述第三客户信息输入预先训练得到的可疑分级模型，得到所述待预测客户的可疑值。

可选地，所述第一设备拥有待训练的可疑客户预测模型的第一部分模型，所述第二设备拥有待训练的可疑客户预测模型的第二部分模型，

所述将所述第一客户信息输入可疑客户预测模型得到第一预测结果的步骤之前，还包括：

获取第一训练样本，并将所述第一训练样本输入所述第一部分模型得到第一中间结果；

将所述第一中间结果发送给所述第二设备，以供所述第二设备根据所述第一中间结果计算所述第二部分模型的第二梯度信息，并根据所述第二梯度信息更新所述第二部分模型；

根据所述第二设备发送的第二中间结果计算所述第一部分模型的第一梯度信息，并根据所述第一梯度信息更新所述第一部分模型，其中，所述第二中间结果由所述第二设备将第二训练样本输入所述第二部分模型得到；

基于更新后的第一部分模型和第二设备中更新后的第二部分模型得到训练完成的可疑客户预测模型。

可选地，所述根据所述第二设备发送的第二中间结果计算所述第一部分模型的第一梯度信息，并根据所述第一梯度信息更新所述第一部分模型，其中，所述第二中间结果由所述第二设备将第二训练样本输入所述第二部分模型得到的步骤包括：

接收所述第二设备发送的加密的第二中间结果，其中，所述第二设备将第二训练样本输入所述第二部分模型得到第二中间结果，并将所述第二中间结果进行同态加密后发送给所述第一设备；

根据加密的第二中间结果计算得到所述第一部分模型的第一加密梯度；

将所述第一加密梯度发送给所述第二设备，以供所述第二设备对所述第一加密梯度进行解密后返回第一梯度信息；

根据所述第一梯度信息更新所述第一部分模型。

可选地，所述获取第一训练样本的步骤包括：

获取第一样本集中各个客户的第一客户标识；

采用所述第一客户标识与所述第二设备中的第二客户标识进行加密样本对齐，获得所述第一客户标识与所述第二客户标识的交集标识，其中，所述第二客户标识是所述第二设备对应的第二样本集中各个客户的标识；

从所述第一样本集中获取各个交集标识所对应的样本作为第一训练样本。

为实现上述目的，本发明还提供一种可疑客户预测装置，所述可疑客户预测装置部署于第一设备，所述可疑客户预测装置包括：

获取模块，用于获取待预测客户的第一客户信息；

输入模块，用于将所述第一客户信息输入可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型是所述第一设备与第二设备进行纵向联邦建模得到的；

预测模块，用于根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二设备将所述待预测客户的第二客户信息输入所述可疑客户预测模型得到。

为实现上述目的，本发明还提供一种可疑客户预测设备，所述可疑客户预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的可疑客户预测程序，所述可疑客户预测程序被所述处理器执行时实现如上所述的可疑客户预测方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有可疑客户预测程序，所述可疑客户预测程序被处理器执行时实现如上所述的可疑客户预测方法的步骤。

本发明中，通过获取待预测客户的第一客户信息，并将第一客户信息输入与第二设备进行纵向联邦建模得到的可疑客户预测模型，得到第一预测结果；根据第一预测结果，和第二设备将待预测客户的第二客户信息输入可疑客户预测模型得到的第二预测结果，得到待预测客户的可疑预测结果。在本发明中，通过第一设备和第二设备采用纵向联邦建模得到的可疑客户预测模型进行客户的可疑性预测，提高了预测结果的准确性；并且，在进行预测时，由第一设备基于第一客户信息进行预测，第二设备基于第二客户信息进行预测，第一设备仅获取到的是第二设备的预测结果，没有直接获取第二设备中的第二客户信息，第二设备也没有获取到第一设备中的第一客户信息，从而避免了客户的隐私信息泄露；也即在本发明中，实现了保证客户隐私信息安全的前提下，提高可疑客户预测的准确性，进而促进了可疑排查工作的开展，提高了可疑排查工作的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明可疑客户预测方法第一实施例的流程示意图；

图3为本发明可疑客户预测装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例可疑客户预测设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该可疑客户预测设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对可疑客户预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及可疑客户预测程序。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与其他参与联邦学习的终端建立通信连接；而处理器1001可以用于调用存储器1005中存储的可疑客户预测程序，并执行以下操作：

获取待预测客户的第一客户信息；

进一步地，所述第一客户信息包括第一洗钱风险特征对应的信息，所述第二客户信息包括第二洗钱风险特征对应的信息，

进一步地，所述根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果的步骤之后，处理器1001可以用于调用存储器1005中存储的可疑客户预测程序，还执行以下操作：

当所述可疑值大于预设值时，将所述待预测客户加入纵向联邦建模的训练样本集以更新所述训练样本集，并基于更新后的训练样本集对所述可疑客户预测模型进行优化训练。

进一步地，所述当根据所述可疑预测结果确定所述待预测客户是可疑客户时，根据所述可疑预测结果确定所述待预测客户的可疑值的步骤包括：

进一步地，所述第一设备拥有待训练的可疑客户预测模型的第一部分模型，所述第二设备拥有待训练的可疑客户预测模型的第二部分模型，

所述将所述第一客户信息输入可疑客户预测模型得到第一预测结果的步骤之前，处理器1001可以用于调用存储器1005中存储的可疑客户预测程序，还执行以下操作：

进一步地，所述根据所述第二设备发送的第二中间结果计算所述第一部分模型的第一梯度信息，并根据所述第一梯度信息更新所述第一部分模型，其中，所述第二中间结果由所述第二设备将第二训练样本输入所述第二部分模型得到的步骤包括：

根据所述第一梯度信息更新所述第一部分模型。

进一步地，所述获取第一训练样本的步骤包括：

获取第一样本集中各个客户的第一客户标识；

基于上述的结构，提出可疑客户预测方法的各个实施例。

本发明实施例提供了可疑客户预测方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明第一实施例联邦学习隐私数据处理方法应用于第一设备，第一设备可以与至少一个第二设备通信连接，本发明实施例第一设备和第二设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。参照图2，图2为本发明可疑客户预测方法第一实施例的流程示意图。在本实施例中，所述可疑客户预测方法包括：

步骤S10，获取待预测客户的第一客户信息；

在本实施例中，在不同的实际应用场景，可能需要排查客户是否是可疑客户，例如金融机构可能会遇到非法洗钱的客户，那么就需要排查各个客户是否是可疑的非法洗钱客户，进而达到反洗钱的打击犯罪目的。

在本实施例中，可以在第一设备中对需要进行可疑排查的客户进行预测，以确定该客户是否是可疑客户。具体地，第一设备可将该客户作为待预测客户，并获取待预测客户的第一客户信息。其中，第一设备可以是某个公司或某个机构所维护的设备，第一设备本地或者与第一设备通信连接的其他设备中存储有该机构或该公司的各个客户的客户信息，客户信息可以包括与该机构或该公司的业务相关的信息，例如，银行的客户信息包括客户的存取款信息等；第一设备从存储的各个客户的客户信息中获取待预测客户的客户信息作为第一客户信息，或者是从待预测客户的客户信息中选出与可疑排查工作相关的信息作为第一客户信息；也即，与具体的可疑客户排查工作内容不同，获取到的第一客户信息的种类可以不相同。具体可以是第一设备基于待预测客户的标识信息，如每个客户的ID，从存储的各个客户信息中搜索到待预测客户的信息。或者，也可以是由工作人员从第一设备的交互界面中输入待预测客户的信息，第一设备基于输入的待预测客户的信息进行后续的预测。

步骤S20，将所述第一客户信息输入可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型是所述第一设备与第二设备进行纵向联邦建模得到的；

第一设备将第一客户信息输入可疑客户预测模型，得到第一预测结果。其中，可疑客户预测模型是第一设备与第二设备进行纵向联邦学习建模得到的。具体地，第二设备可以是其他公司或机构所维护的设备，第二设备本地或者与第二设备通信连接的其他设备中存储有其他公司或机构的各个客户的客户信息，那么这些客户信息可以是其他公司或机构的业务相关的客户信息，例如，电商公司的客户信息包括客户的购买记录信息；第一设备对应的公司或机构，可能与第二设备对应的公司或机构有着相同的客户，但是由于具体业务不完全相同，所以相同客户在各个公司或机构的信息的特征可能是不完全相同的。例如，A机构是金融机构，B公司是社交软件的运营公司，那么A机构拥有客户与金融特征相关的信息，B公司拥有客户与社交特征相关的信息，也即A机构和B公司所拥有的客户信息的特征维度不完全相同。由于客户的信息一般是隐私信息，因此，第一设备和第二设备之间可以联合进行纵向联邦建模，训练一个可疑客户预测模型。

在本实施例中，纵向联邦联邦建模可采用现有的纵向联邦建模过程，具体地，在纵向联邦建模过程中，各个参与建模的参与者取出客户相同而客户数据特征不同的那部分客户及数据进行联合训练机器学习模型，建模过程中，参与者之间交互模型的梯度、损失函数等中间结果，而不直接进行客户数据的交互。第一设备和第二设备通过采用纵向联邦建模方式建立可疑客户预测模型，既没有相互泄露客户的隐私信息，又能够联合两方不同特征维度的客户数据来进行模型训练，从而在提高可疑客户预测模型的预测准确率的同时，保证了客户数据安全。特别是在反洗钱场景，可疑客户为了隐蔽自己的非法洗钱行为，会尽量避免留下很可疑的证据，依据单个机构或设备中的客户数据，难以排查出洗钱嫌疑较大的客户，在本实施例中，通过采用纵向联邦建模的方式获得的可疑客户预测模型，相比于单个设备采用单个机构的客户数据训练出的模型，能够具备显著的预测效果，从而更加利于反洗钱的排查工作开展。

具体地，可疑客户预测模型的模型结构可采用线性回归模型、逻辑回归模型或神经网络模型等模型结构，在此不做限制。纵向联邦建模的方式可采用第三方设备参与的方式，也可以采用没有第三方设备参与的方式。例如，第三方设备参与的方式可以是：第三方设备是一个中立方，用于为第一设备和第二设备提供加解密服务；第一设备将训练过程中计算得到的用于计算梯度值得中间结果加密后发送给第二设备；第二设备采用加密的中间结果计算得到加密的梯度值，并将加密的梯度值发送给第三方设备进行解密，再采用解密的梯度值更新第二设备这边模型的模型参数；第一设备也采用同样的方式更新第一设备这边模型的模型参数；经过多轮的模型更新，最后确定第一设备和第二设备两边模型的模型参数。第一设备可以和第二设备分别拥有各自那部分的模型，两部分模型结合起来作为可疑客户预测模型使用；也可以是第一设备和第二设备将各那部分模型发送给对方，使得两方都有一个完整的可疑客户预测模型。

步骤S30，根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二设备将所述待预测客户的第二客户信息输入所述可疑客户预测模型得到。

第一设备接收第二设备发送的第二预测结果。其中，第二设备可以获取待预测客户的第二客户信息。具体地，第二设备可以是接收第一设备发送的待预测客户的客户标识，然后从第二设备本地或与第二设备通信连接的其他存储设备中，根据该客户标识搜索到该待预测客户的客户信息作为第二客户信息，或者是从搜索到的待预测客户的客户信息中，选出与可疑排查工作相关的信息作为第二客户信息。例如，在反洗钱场景下，若第二设备对应的是电商公司，那么第二设备可以从待预测客户的客户信息中选取客户的付款次数和付款额等交易相关的信息作为第二客户信息，根据这些信息进行反洗钱排查工作。第二设备将第二客户信息输入与第一设备进行纵向联邦建模得到的该可疑客户预测模型，得到第二预测结果。需要说明的是，第一设备和第二设备也可以是各自拥有可疑客户预测模型的一部分，那么就是第一设备将第一客户信息输入第一设备的那一部分模型得到第一预测结果，第二设备将第一客户信息输入第二设备的那一部分模型得到第一预测结果。

第一设备在获取到第一预测结果和第二预测结果后，可根据第一预测结果和第二预测结果得到待预测客户的可疑预测结果。具体地，根据可疑客户预测模型的模型结构不同，第一设备根据第一预测结果和第二预测结果得到可疑预测结果的过程可以不同。例如，当可疑客户预测模型是逻辑回归模型时，第一设备可以将第一预测结果和第二预测结果进行线性相加，相加得到的结果作为可疑预测结果；当可疑客户预测模型是神经网络模型时，第一设备可以是将第一预测结果和第二预测结果输入神经网络模型的全连接层，基于全连接层输出的结果获得最终的可疑预测结果。需要说明的是，根据可疑客户预测模型的模型设计不同，输出的可疑预测结果的形式不同，例如，可疑预测结果可以是一个概率值，用于表示待预测客户属于可疑客户的概率。第一设备可以将待预测客户的可疑预测结果进行输出到第一设备的用户交互界面，使得进行可疑客户排查工作的人员能够直观地获得待预测客户的预测结果。

在本实施例中，通过获取待预测客户的第一客户信息，并将第一客户信息输入与第二设备进行纵向联邦建模得到的可疑客户预测模型，得到第一预测结果；根据第一预测结果，和第二设备将待预测客户的第二客户信息输入可疑客户预测模型得到的第二预测结果，得到待预测客户的可疑预测结果。在本实施例中，通过第一设备和第二设备采用纵向联邦建模得到的可疑客户预测模型进行客户的可疑性预测，提高了预测结果的准确性；并且，在进行预测时，由第一设备基于第一客户信息进行预测，第二设备基于第二客户信息进行预测，第一设备仅获取到的是第二设备的预测结果，没有直接获取第二设备中的第二客户信息，第二设备也没有获取到第一设备中的第一客户信息，从而避免了客户的隐私信息泄露；也即在本实施例中，实现了保证客户隐私信息安全的前提下，提高可疑客户预测的准确性，进而促进了可疑排查工作的开展，提高了可疑排查工作的效率。

进一步地，所述步骤S30包括：

步骤S301，根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述可疑预测结果表征所述待预测客户是否属于疑似洗钱客户。

在本实施例中，第一设备获取到的第一客户信息可以是包括第一洗钱风险特征对应的信息，第二客户信息可以是包括第二洗钱风险特征对应的信息，第一洗钱风险特征和第二洗钱风险特征不完全相同。需要说明的是，第一洗钱风险特征和第二洗钱风险特征都不一定是指一个特征，而可以是一组或多组特征。不完全相同是指，第一洗钱风险特征和第二洗钱风险特征可能有重叠的部分，也可能完全没有重叠的部分，例如，第一洗钱风险特征和第二洗钱风险特征可能都有客户年龄这一项特征，但是第一洗钱风险特征有第二洗钱风险特征没有的客户存取换次数特征。具体地，第一设备能够获取到的客户信息的特征是第一洗钱风险特征，而第二设备能够获取到的客户信息的特征是与第一洗钱风险特征不完全相同的第二洗钱风险特征。第一洗钱风险特征和第二洗钱风险特征是与判断用户是否有洗钱嫌疑相关的特征，例如，第一设备对应的机构是金融机构，第一洗钱风险特征包括日交易次数、日交易金额、客户年龄和职业等特征，第二设备对应的机构是电商机构，第二洗钱风险特征包括客户社交数据、客户网购数据和客户支付数据等特征。

第一设备根据第一洗钱风险特征的第一客户信息得到第一预测结果，第二设备根据第二洗钱风险特征对应的第二客户信息得到第二预测结果，第一设备根据第一预测结果和第二预测结果得到待预测客户关于洗钱可疑性的可疑预测结果，可疑预测结果表征了待预测客户是否属于疑似洗钱客户。

进一步地，第一设备和第二设备在进行纵向联邦建模时，第一设备所采用的训练数据是第一洗钱风险特征对应的数据，第二设备所采用的训练数据是第二洗钱风险特征对应的数据。

在本实施例中，通过第一设备采用第二洗钱风险特征对应的数据，第二设备采用第二洗钱风险特征对应的数据，两个设备联合进行纵向联邦建模，得到基于两种不同的洗钱风险特征建立的可疑洗钱客户的预测模型，并基于预测模型对待预测客户进行洗钱可疑性的预测，提高了可疑洗钱客户的预测准确率的同时，保证了客户的隐私安全。

进一步地，基于上述第一实施例，提出本发明可疑客户预测方法第二实施例，在本实施例中，所述步骤S30之后，还包括：

步骤S40，当根据所述可疑预测结果确定所述待预测客户是可疑客户时，根据所述可疑预测结果确定所述待预测客户的可疑值，并检测所述可疑值是否大于预设值；

当根据所述可疑预测结果确定所述待预测客户是可疑客户时，第一设备根据可疑预测结果确定待预测客户的可疑值。具体地，当可疑预测结果是表示待预测客户属于可疑客户的概率时，当第一设备检测到概率值大于一个预设的概率值时，第一设备可以确定待预测客户是可疑客户；可疑预测结果可以是直接表示待预测客户是否是可疑客户的分类结果。根据可疑预测结果确定可疑值得方式有多种，例如，当可疑预测结果是表示待预测客户属于可疑客户的概率时，第一设备中可以预先根据具体情况设置各个概率值所对应的可疑值，例如，将0～1的概率区间等分化为5段，5段从小到大依次对应的可疑值是0、1、2、3、4，那么，第一设备可以判断待预测用户的可疑预测结果属于哪一个段，进而确定待预测用户的可疑值。第一设备也可以是直接将获得的概率作为可疑值。

第一设备中可以预先设置一个预设值，当可疑值大于该预设值时表示待预测客户的可疑性较高，例如，在反洗钱场景，可能表示待预测客户的洗钱嫌疑很大。第一设备在确定待预测客户的可疑值后，检测可疑值是否大于该预设值。

步骤S50，当所述可疑值大于预设值时，将所述待预测客户加入纵向联邦建模的训练样本集以更新所述训练样本集，并基于更新后的训练样本集对所述可疑客户预测模型进行优化训练。

当第一设备检测到待预测客户的可疑值大于预设值时，第一设备可以将待预测客户加入纵向联邦建模的训练样本集中。将待预测客户作为训练样本加入训练样本集后，训练样本集得到了更新，第一设备可以联合第二设备，采用更新后的训练样本集，再次进行纵向联邦建模，对当前的可疑客户预测模型进行优化训练，采用优化训练后的可疑客户预测模型进行客户可疑性预测，从而提高可疑客户预测模型的预测准确率。需要说明的是，第一设备参与联邦建模所采用的训练集和第二设备所采用的训练集，在客户维度是相同的，在特征维度是不完全相同的，第一设备将待预测客户的第一客户信息作为样本加入第一设备的训练集，第二设备将待预测客户的第二客户信息作为样本加入第二设备的训练集。

在很多场景下，特别是在反洗钱场景下，能够用于训练预测模型的坏样本(真实的可疑客户)是很少的，因为毕竟非法洗钱的客户相对于合法客户的数量是比较少的，在坏样本很少的情况下难以训练得到预测效果好的预测模型，特别表现在获得的预测模型对可疑性较高的客户往往识别不出；现有的常规做法是采用人工编造坏样本的方法，但是这种方法并不是适用于每种场景，特别是在反洗钱场景，非法洗钱客户的信息是五花八门的，人工难以编造，因此，这种方法的效果并不显著。在本实施例中，第一设备在根据待预测客户的可疑值确定待预测客户的可疑性较高时，将该待预测客户作为训练样本加入纵向联邦建模的训练样本集，可以增加训练样本集中的坏样本数量，从而能够提高训练得到的可疑客户预测模型的预测准确率。在采用可疑客户预测模型预测得到可疑性较高的客户时，即将该客户作为坏样本加入训练样本集，进而优化可疑客户预测模型，在使用过程中不断优化、不断强健模型的预测性能，增加高信任度样本在训练样本中的贡献度，形成模型优化闭环，不断提升可疑排查工作的效率和准确率。

进一步地，第一设备可以根据不同的可疑值，确定根据待预测客户添加的坏样本的条数多少。具体地，第一设备可以将待预测客户的第一客户信息进行复制或者微调处理，得到多条客户信息，把每条客户信息各作为一个坏样本加入训练样本集；当可疑值较小时，第一设备根据待预测客户得到的坏样本条数可以较少，当可疑值较大时，得到的坏样本条数可以较多。例如，当可疑值为3时，第一设备根据待预测客户得到3条坏样本，可疑值是2时得到2条坏样本。需要说明的是，可以预先设置可疑值于坏样本条数之间对应关系。在本实施例中，通过根据可疑值确定添加的坏样本的条数，可以使得可疑性越高的客户对模型训练的贡献度越高，从而形成一个良性循环，不断提高可疑客户预测模型的预测准确率。

进一步地，所述步骤S40包括：

步骤S401，当根据所述可疑预测结果确定所述待预测客户是可疑客户时，获取所述待预测客户的第三客户信息；

步骤S402，将所述第三客户信息输入预先训练得到的可疑分级模型，得到所述待预测客户的可疑值。

第一设备中可以预先训练一个可疑分级模型，用于根据对已经确定的可疑客户进行分级。第一设备获取已经确定是可疑客户的待预测客户的第三客户信息。由于已经确定待预测客户是可疑客户，那么第一设备可以获取与可疑性关联较大的特征信息来作为第三客户信息，第三客户信息的可以是与第一客户信息和第二客户信息不完全相同的信息，具体地，第一客户信息、第二客户信息和第三客户信息的特征不完全相同。第一设备将第三客户信息输入可疑分级模型，得到待预测客户的可疑值。

可疑分级模型可采用多分类逻辑回归算法构建，并采用各个客户的可疑分级相关特征下的数据对可疑分级模型进行训练，其中，可疑分级相关特征即上述第三客户信息所对应的特征。

在本实施例中，通过采用可疑分级模型来对可疑客户进行可疑性分级，进一步地提高了可疑客户判断的精确性，从而更加有利于可疑客户排查工作的开展。并且，结合坏样本增加方案，可以使得对各个可疑程度的可疑客户对模型训练的贡献度有更加精细的区分，从而进一步地提高可疑客户预测模型的预测准确度。

进一步地，基于上述第一和第二实施例，提出本发明可疑客户预测方法第三实施例，在本实施例中，所述第一设备拥有所述待训练的可疑客户预测模型的第一部分模型，所述第二设备拥有待训练的可疑客户预测模型的第二部分模型，所述可疑客户预测方法还包括：

步骤S60，获取第一训练样本，并将所述第一训练样本输入所述第一部分模型得到第一中间结果；

第一设备和第二设备可以进行纵向联邦建模，得到可疑客户预测模型。具体地，待训练的可疑客户预测模型可以包括两个部分：第一部分模型和第二部分模型；第一设备拥有第一部分模型，第二设备拥有第二部分模型；可以理解的是，待训练的可疑客户预测模型是一个完整模型结构，第一部分模型和第二部分模型是这个完整模型结构的一部分；第一设备和第二设备通过纵向联邦建模，各自更新各自那部分模型的模型参数。

第一设备可获取第一训练样本，第一训练样本中可以包括多条样本。在一轮纵向联邦训练过程中，第一设备将第一训练样本输入第一部分模型，得到用于计算第二部分模型的梯度的第一中间结果，以及得到用于计算第一部分模型的梯度的中间结果。需要说明的是，第一设备和第二设备各自更新自己那部分模型的模型参数时，可以采用梯度下降法来更新；采用梯度下降法需要计算模型参数的梯度，根据梯度来更新模型参数，而计算自己那部分模型的梯度时，需要用到对方的训练样本的数据计算得到的中间结果，因此，第一设备和第二设备各自计算对方需要的中间结果，并发送给对方。

步骤S70，将所述第一中间结果发送给所述第二设备，以供所述第二设备根据所述第一中间结果计算所述第二部分模型的第二梯度信息，并根据所述第二梯度信息更新所述第二部分模型；

步骤S80，根据所述第二设备发送的第二中间结果计算所述第一部分模型的第一梯度信息，并根据所述第一梯度信息更新所述第一部分模型，其中，所述第二中间结果由所述第二设备将第二训练样本输入所述第二部分模型得到；

第一设备将第一中间结果发送给第二设备。第二设备获取第二训练样本，第二训练样本的客户与第一训练样本的客户是对齐的，但是特征维度不完全相同；第二设备将第二训练样本输入第二部分模型得到用于计算第一部分模型的梯度的第二中间结果，以及获得用于计算第二部分模型的梯度的中间结果；第二设备采用从第一设备接收到的第一中间结果，以及自己得到的用于计算第二部分模型的梯度的中间结果，计算得到第二部分模型的模型参数对应的第二梯度信息，并根据第二梯度信息更新第二部分模型的模型参数；第二设备将第二中间结果发送给第一设备。

第一设备同样地，采用第二设备发送的第二中间结果，和自己得到的用于计算第一部分模型的梯度的中间结果，计算得到第一部分模型的模型参数对应的第一梯度信息，并根据第一梯度信息更新第一部分模型。

步骤S90，基于更新后的第一部分模型和第二设备中更新后的第二部分模型得到训练完成的可疑客户预测模型。

第一设备基于更新后的第一部分模型和第二部分模型得到训练完成的可疑客户预测模型。具体地，可以是第一设备检测是否满足预设的训练停止条件，若满足，则第一设备和第二设备可以是将更新后的第一部分模型和第二部分模型作为最终的可以客户预测模型；若不满足，则第一设备可以和第二设备基于更新后的第一部分模型和第二部分模型，再进行一轮上述的纵向联邦训练，直到检测到满足预设的训练停止条件位置。其中，预设的训练停止条件可以是训练的轮数大于一个预设的最大轮数，也可以是训练的时间大于一个预设的最长时间，还可以是可疑客户预测模型收敛。当第一设备拥有各个客户是否是可疑客户的标签数据时，第一设备可疑根据标签数据，以及第一部分模型和第二部分模型的输出结果计算损失函数值，并根据损失函数值来确定可疑客户预测模型是否收敛。

进一步地，所述步骤S80包括：

步骤S801，接收所述第二设备发送的加密的第二中间结果，其中，所述第二设备将第二训练样本输入所述第二部分模型得到第二中间结果，并将所述第二中间结果进行同态加密后发送给所述第一设备；

进一步地，为避免第一设备和第二设备根据对方发送的中间结果推导出对方的客户信息，第一设备和第二设备可以对发送给对方的中间结果进行同态加密。具体地，第二设备第二中间结果进行同态加密，将加密的第二中间结果发送给第一设备。第一设备将第一中间结果进行同态加密发送给第二设备。第一设备和第二设备所采用的密钥不同，因此，对方无法获知真是的中间结果。第一设备接收第二设备发送的加密的第二中间结果。

步骤S802，根据加密的第二中间结果计算得到所述第一部分模型的第一加密梯度；

第一设备根据加密的第二中间结果计算得到第一部分模型的第一加密梯度。需要说明的是，同态加密的特点是明文加密后的密文进行加法或乘法运算后得到的结果是加密结果，将这个加密结果进行解密所得到的值，与该铭文直接进行加法或乘法运算得到的值相同。

步骤S803，将所述第一加密梯度发送给所述第二设备，以供所述第二设备对所述第一加密梯度进行解密后返回第一梯度信息；

第一设备将第一加密梯度发送给第二设备。第二设备将第一加密梯度进行解密后得到第一梯度信息，并将第一梯度信息返回给第一设备。同样地，第二设备根据第一设备发送的加密的第一中间结果，计算得到第二部分模型的第二加密梯度，第二设备将第二加密梯度发送给第一设备，由第一设备进行解密，得到第一梯度信息并返回给第二设备。

步骤S804，根据所述第一梯度信息更新所述第一部分模型。

第一设备根据第一梯度信息更新第一部分模型，第二设备根据第二梯度信息更新第二部分模型。需要说明的是，在本实施例中，计算损失函数和梯度的方法，以及梯度下降算法与现有的方法类似，在此不做详细赘述。

由于第一设备和第二设备在纵向联邦建模过程中，采用加密的方式交互用于计算梯度的中间结果，避免了双方更加中间结果推导出对方客户信息，从而进一步地提高了纵向联邦建模过程中的客户数据安全性。

进一步地，所述步骤S60中获取第一训练样本的步骤包括：

步骤S601，获取第一样本集中各个客户的第一客户标识；

步骤S602，采用所述第一客户标识与所述第二设备中的第二客户标识进行加密样本对齐，获得所述第一客户标识与所述第二客户标识的交集标识，其中，所述第二客户标识是所述第二设备对应的第二样本集中各个客户的标识；

步骤S603，从所述第一样本集中获取各个交集标识所对应的样本作为第一训练样本。

第一设备中有各个客户的第一样本集，第二设备中有各个客户的第二样本集，第一样本集中的客户与第二样本集中的客户由重叠，也有不同。第一设备和第二设备进行纵向联邦建模所采用的第一训练样本和第二训练样本的客户是相同的。那么，第一设备和第二设备可先进行样本对齐，以获得客户对齐的第一训练样本和第二训练样本。

具体地，第一设备获取第一样本集中各个客户的第一客户标识。需要说明的是，各个客户的标识可以是唯一区分该客户的标识，标识的形式不限，例如可以是一串数字。第一设备采用第一客户标识与第二设备进行加密样本对齐，获得第一客户标识与第二客户标识的交集标识，其中，第二客户标识是第二设备对应的第二样本集中各个客户的标识。同样地，第二设备也获取到了第一客户标识与第二客户标识的交集标识。加密样本对齐的过程可以是采用现有的加密样本对齐方式，在此不做具体限制。

第一设备根据获取到的交集标识，从第一样本集中获取各个交集标识对应的样本数据作为第一训练样本；第二设备则从第二样本集中获取各个交集标识对应的样本数据作为第二训练样本。在本实施例中，通过第一设备和第二设备采用加密样本对齐方式进行样本对齐，使得双方不会暴露不相同的客户标识给对方，从而进一步地保护了客户的隐私，提高了模型训练过程中的数据安全性。

此外，本发明实施例还提出一种可疑客户预测装置，所述可疑客户预测装置部署于第一设备，参照图3，所述可疑客户预测装置包括：

获取模块10，用于获取待预测客户的第一客户信息；

输入模块20，用于将所述第一客户信息输入可疑客户预测模型得到第一预测结果，其中，所述可疑客户预测模型是所述第一设备与第二设备进行纵向联邦建模得到的；

预测模块30，用于根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述第二预测结果由所述第二设备将所述待预测客户的第二客户信息输入所述可疑客户预测模型得到。

所述预测模块30还用于根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果，其中，所述可疑预测结果表征所述待预测客户是否属于疑似洗钱客户。

进一步地，所述可疑客户预测装置还包括：

确定模块，用于当根据所述可疑预测结果确定所述待预测客户是可疑客户时，根据所述可疑预测结果确定所述待预测客户的可疑值，并检测所述可疑值是否大于预设值；

优化模块，用于当所述可疑值大于预设值时，将所述待预测客户加入纵向联邦建模的训练样本集以更新所述训练样本集，并基于更新后的训练样本集对所述可疑客户预测模型进行优化训练。

进一步地，所述确定模块包括：

第一获取单元，用于当根据所述可疑预测结果确定所述待预测客户是可疑客户时，获取所述待预测客户的第三客户信息；

输入单元，用于将所述第三客户信息输入预先训练得到的可疑分级模型，得到所述待预测客户的可疑值。

进一步地，所述第一设备拥有所述待训练的可疑客户预测模型的第一部分模型，所述第二设备拥有待训练的可疑客户预测模型的第二部分模型，

所述获取模块10还用于获取第一训练样本，并将所述第一训练样本输入所述第一部分模型得到第一中间结果；

所述可疑客户预测装置还包括：

发送模块，用于将所述第一中间结果发送给所述第二设备，以供所述第二设备根据所述第一中间结果计算所述第二部分模型的第二梯度信息，并根据所述第二梯度信息更新所述第二部分模型；

计算模块，用于根据所述第二设备发送的第二中间结果计算所述第一部分模型的第一梯度信息，并根据所述第一梯度信息更新所述第一部分模型，其中，所述第二中间结果由所述第二设备将第二训练样本输入所述第二部分模型得到；

训练模块，用于基于更新后的第一部分模型和第二设备中更新后的第二部分模型得到训练完成的可疑客户预测模型。

进一步地，所述计算模块包括：

接收单元，用于接收所述第二设备发送的加密的第二中间结果，其中，所述第二设备将第二训练样本输入所述第二部分模型得到第二中间结果，并将所述第二中间结果进行同态加密后发送给所述第一设备；

计算单元，用于根据加密的第二中间结果计算得到所述第一部分模型的第一加密梯度；

发送单元，用于将所述第一加密梯度发送给所述第二设备，以供所述第二设备对所述第一加密梯度进行解密后返回第一梯度信息；

更新单元，用于根据所述第一梯度信息更新所述第一部分模型。

进一步地，所述获取模块10包括：

第二获取单元，用于获取第一样本集中各个客户的第一客户标识；

对齐单元，用于采用所述第一客户标识与所述第二设备中的第二客户标识进行加密样本对齐，获得所述第一客户标识与所述第二客户标识的交集标识，其中，所述第二客户标识是所述第二设备对应的第二样本集中各个客户的标识；

第三获取单元，用于从所述第一样本集中获取各个交集标识所对应的样本作为第一训练样本。

本发明可疑客户预测装置的具体实施方式的拓展内容与上述可疑客户预测方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有可疑客户预测程序，所述可疑客户预测程序被处理器执行时实现如下所述的可疑客户预测方法的步骤。

本发明可疑客户预测设备和计算机可读存储介质的各实施例，均可参照本发明可疑客户预测方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种可疑客户预测方法，其特征在于，所述可疑客户预测方法应用于第一设备，所述可疑客户预测方法包括以下步骤：

获取待预测客户的第一客户信息；

2.如权利要求1所述的可疑客户预测方法，其特征在于，所述第一客户信息包括第一洗钱风险特征对应的信息，所述第二客户信息包括第二洗钱风险特征对应的信息，

3.如权利要求1所述的可疑客户预测方法，其特征在于，所述根据所述第一预测结果和从所述第二设备接收到的第二预测结果得到所述待预测客户的可疑预测结果的步骤之后，还包括：

4.如权利要求3所述的可疑客户预测方法，其特征在于，所述当根据所述可疑预测结果确定所述待预测客户是可疑客户时，根据所述可疑预测结果确定所述待预测客户的可疑值的步骤包括：

5.如权利要求1至4任一项所述的可疑客户预测方法，其特征在于，所述第一设备拥有待训练的可疑客户预测模型的第一部分模型，所述第二设备拥有待训练的可疑客户预测模型的第二部分模型，

基于更新后的第一部分模型和所述第二设备中更新后的第二部分模型得到训练完成的可疑客户预测模型。

6.如权利要求5所述的可疑客户预测方法，其特征在于，所述根据所述第二设备发送的第二中间结果计算所述第一部分模型的第一梯度信息，并根据所述第一梯度信息更新所述第一部分模型，其中，所述第二中间结果由所述第二设备将第二训练样本输入所述第二部分模型得到的步骤包括：

根据所述第一梯度信息更新所述第一部分模型。

7.如权利要求5所述的可疑客户预测方法，其特征在于，所述获取第一训练样本的步骤包括：

获取第一样本集中各个客户的第一客户标识；

8.一种可疑客户预测装置，其特征在于，所述可疑客户预测装置部署于第一设备，所述可疑客户预测装置包括：

获取模块，用于获取待预测客户的第一客户信息；

9.一种可疑客户预测设备，其特征在于，所述可疑客户预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的可疑客户预测程序，所述可疑客户预测程序被所述处理器执行时实现如权利要求1至7中任一项所述的可疑客户预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可疑客户预测程序，所述可疑客户预测程序被处理器执行时实现如权利要求1至7中任一项所述的可疑客户预测方法的步骤。