CN113011895A

CN113011895A - 关联账户样本筛选方法、装置和设备及计算机存储介质

Info

Publication number: CN113011895A
Application number: CN202110345370.9A
Authority: CN
Inventors: 赵雪尧; 蓝利君; 任大任; 何中兴; 李超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-22
Anticipated expiration: 2041-03-31
Also published as: CN113011895B

Abstract

本申请公开了一种关联账户样本筛选方法、装置和设备及计算机存储介质，涉及金融风控技术领域，用于提升目标业务场景的近似账户样本筛选的精准性。该方法包括：获取目标业务场景对应的真实账户样本集合，以及获取多个候选账户样本集合；采用已训练的相似度预测模型，分别确定所述真实账户样本集合以及每个所述候选账户样本集合的样本分布的分布期望值，以及基于获得的各个分布期望值，分别确定所述真实账户样本集合与每个所述候选账户样本集合之间的相似度；将相似度满足设定条件的至少一个候选账户样本集合对应的各个候选账户样本，确定为所述目标业务场景的关联账户样本。

Description

关联账户样本筛选方法、装置和设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及金融风控技术领域，提供一种关联账户样本筛选方法、装置和设备及计算机存储介质。

背景技术

在金融风控场景中，在为用户办理一些金融业务之前，需要对用户进行评估。如用户申请办理信用卡时，信用卡发行方需要评估用户的可信度，当可信度很低时，则需要拒绝用户的申请。目前较为常见的方法是利用有标签的数据进行建模和学习，从而利用模型对用户进行评估。

但是，在这种金融风控场景下，例如传统商业银行，由于严格的数据保护制度，在授权第三方对不同业务场景建模时，往往只能提供少量甚至不提供带有标签的数据，这就造成了有标签数据不足的问题，导致模型在训练时无法进行有效的有监督学习，难以在实际应用中满足业务场景的需要。因此，寻找相似样本是补充少量标记客户样本最直观的方法，而选定的近似客群的准确性也决定模型的准确性。

因此，如何从已有标记数据中更为精准的选取近似客群，是金融风控场景中亟待解决的问题。

发明内容

本申请实施例提供一种关联账户样本筛选方法、装置和设备及计算机存储介质，用于提升目标业务场景的近似账户样本筛选的精准性。

一方面，提供一种关联账户样本筛选方法，所述方法包括：

获取目标业务场景对应的真实账户样本集合，以及获取多个候选账户样本集合，每个候选账户样本集合包括所述目标业务场景关联的至少一个关联业务场景对应的候选账户样本；

采用已训练的相似度预测模型，分别确定所述真实账户样本集合以及每个所述候选账户样本集合的样本分布的分布期望值，以及基于获得的各个分布期望值，分别确定所述真实账户样本集合与每个所述候选账户样本集合之间的相似度；

将相似度满足设定条件的至少一个候选账户样本集合对应的各个候选账户样本，确定为所述目标业务场景的关联账户样本。

一方面，提供一种关联账户样本筛选装置，所述装置包括：

样本获取单元，用于获取目标业务场景对应的真实账户样本集合，以及获取多个候选账户样本集合，每个候选账户样本集合包括所述目标业务场景关联的至少一个关联业务场景对应的候选账户样本；

预测单元，用于采用已训练的相似度预测模型，分别确定所述真实账户样本集合以及每个所述候选账户样本集合的样本分布的分布期望值，以及基于获得的各个分布期望值，分别确定所述真实账户样本集合与每个所述候选账户样本集合之间的相似度；

确定单元，用于将相似度满足设定条件的至少一个候选账户样本集合对应的各个候选账户样本，确定为所述目标业务场景的关联账户样本。

可选的，所述装置还包括模型训练单元，用于：

获取多个训练账户样本集合，并基于所述多个训练账户样本集合进行多次迭代训练，直到满足预设的收敛条件为止；其中，每一次迭代训练包括如下步骤：

从所述多个训练账户样本集合中的每个训练账户样本集合分别选取至少一个子训练集合，每个子训练集合为相应的一个训练账户样本集合的子集；

对获得的各个子训练集合包括的训练账户样本分别进行特征提取，获得各个训练账户样本各自对应的特征表示向量；

基于获得的各个特征表示向量，每个子训练集合的分布期望值；并，基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度；

基于获得的每两个子训练集合之间的预测相似度，以及每两个子训练集合之间的距离标签，确定所述相似度预测模型的模型损失值，其中，每个距离标签表征相应的两个子训练集合是否来自同一训练账户样本集合；

基于所述模型损失值对所述相似度预测模型进行参数调整。

可选的，针对所述多个训练账户样本集合中的第一训练账户样本集合和第二训练账户样本集合，所述第一训练账户样本集合和第二训练账户样本集合为所述多个训练账户样本集合中任意的两个集合，所述模型训练单元，具体用于：

将从所述第一训练账户样本集合选取的各个子训练集合的样本标签，标注为第一值；以及，

将从所述第二训练账户样本集合选取的各个子训练集合的样本标签，标注为第二值；其中，所述第一值与第二值不同，且所述第一值与第二值之间的差值为距离上限值；

基于各个子训练集合的样本标签，确定每两个子训练集合的距离标签，其中，每两个子训练集合的距离标签为两个子训练集合的样本标签的差值。

可选的，针对第一子训练集合和第二子训练集合，所述模型训练单元，具体用于：

基于所述第一子训练集合包括的各个训练账户样本的特征表示向量，确定所述第一子训练集合的第一分布期望值；以及，

基于所述第二子训练集合包括的各个训练账户样本的特征表示向量，确定所述第二子训练集合的第二分布期望值；

基于所述第一分布期望值和所述第二分布期望值，获得所述第一子训练集合和第二子训练集合之间的预测相似度。

可选的，所述模型训练单元，具体用于：

基于每两个子训练集合之间的预测相似度，以及每两个子训练集合之间的距离标签，确定所述相似度预测模型的预测损失值；以及，

基于本次迭代训练使用的模型参数确定本次迭代训练过程的梯度约束值，所述梯度约束值用于约束本次迭代训练过程的模型参数更新的梯度值不大于设定梯度阈值；

基于所述预测损失值和所述梯度约束值，获得所述模型损失值。

可选的，所述相似度预测模型包括域相关判别器，所述域相关判别器用于基于获得的各个特征表示向量，分别确定每个子训练集合的分布期望值，以及基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度，则所述模型训练单元，具体用于：

根据本次迭代训练使用的所述域相关判别器的参数，确定所述域相关判别器的梯度；

基于所述梯度与所述设定梯度阈值获得所述梯度约束值。

可选的，所述装置还包括样本扩充单元和账户评估单元；

所述样本扩充单元，用于将所述关联账户样本添加至所述真实账户样本集合中，获得扩充账户样本集合；

所述账户评估单元，用于采用所述扩充账户样本集合包括的账户样本对账户可信度评估模型进行训练，获得已训练的账户可信度评估模型；以及将待评估的目标账户的特征数据输入至已训练的账户可信度评估模型，获得所述目标账户的账户可信度。

可选的，所述样本获取单元，具体用于：

获取所述目标业务场景关联的各个关联业务场景的多个候选账户样本；

基于所述多个候选账户样本，构造多个候选账户样本集合，其中，任意两个候选账户样本集合包含至少一个不同的候选账户样本。

可选的，所述样本获取单元，具体用于：

按照所述各个候选账户样本各自归属的业务场景，分别将所述各个候选账户样本划分至相应业务场景对应的候选账户样本集合中，其中，每个候选账户样本集合对应一个业务场景；或者，

将所述多个候选账户样本进行随机组合，从获得的各个组合方案中选取包含的候选账户样本数量达到设定的样本数量门限值的组合方案，作为候选账户样本集合，其中，每个组合方案对应一个候选账户样本集合。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法的步骤。

一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种方法的步骤。

本申请实施例中，采用已训练的相似度预测模型，对各个账户样本进行特征提取，并基于提取的特征获得各个集合的分布期望值，从而基于分布期望值预测真实账户样本集合与每个候选账户样本集合之间的相似度，从而该相似度能够表征两个样本集合的概率分布之间的相似程度，从而相似度越小的两个样本集合之间的相似度更高，并且，即使两个样本集合的账户样本没有重叠或者重叠非常少，该相似度也能反映两个样本集合的概率分布的远近，因此基于相似度选取与真实账户样本集合最为接近的候选账户样本集合，从而提升为目标业务场景确定的近似账户样本的精准性，进而，基于这些相似账户样本训练的用户评估模型也能够更为准确。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的相似度预测模型的训练流程示意图；

图3为本申请实施例提供的相似度预测模型的一种结构示意图；

图4为本申请实施例提供的基于每两个训练账户样本集合获得子训练集合对的示意图；

图5为本申请实施例提供的关联账户样本筛选方法的流程示意图；

图6为本申请实施例提供的应用过程示意图；

图7为本申请实施例提供的关联账户样本筛选装置的一种结构示意图；

图8为本申请实施例提供的计算机装置的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

Wasserstain距离(Distance)：又称WD距离、Kantorovich-Rubinstein distance或者推土机距离(Earth Mover’s Distance、EMD)。在数学上Wasserstain距离是指在一个给定空间下基于概率分布(或称样本分布)的距离方程，对于每一个可能的联合分布而言，可以从中采样得到一个真实样本和一个生成样本，并算出这对样本的距离，可以计算该联合分布下样本对距离的期望值，在所有可能的联合分布中对这个期望值取到的下界即最小值，就定义为Wasserstein距离。换一种方式进行理解的话，如果我们把这些分布想象成一定数量的不同土堆，那么EMD就是将一个堆转换成另一个堆所需的最小总工作量，所需要的工作量就是一块土中的土量乘以它被移动的距离。

深度学习网络(Deep Neural Networks，DNN)：为有很多隐藏层的神经网，DNN内部的神经网络层可以分为三类：输入层、隐藏层和输出层，一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层。每一层均包含一定的权重参数，而深度学习网络的训练过程则是权重参数的更新过程，通过一定的训练学习，使得深度学习网络得以能够实现一定的目标，例如本申请实施例中的Wasserstein距离预测。

梯度约束(Gradient Penalty)：一种对神经网络的权重计算过程进行截断修剪的策略，梯度约束是指在原始损失函数的基础上增加一个正则项，从而限制相对于原始输入的梯度的L2范数要约束在1附近。

极限梯度提升(eXtreme Gradient Boosting，XGBoost)：是梯度提升决策树(Gradient Boosting Decision Tree，GBDT)的一种工业实现，它也是通过不断增加新树，拟合伪残差去降低损失函数，训练完成后预测每一个样本的分数。其拟合过程使用的损失函数的二阶泰勒展开，并在目标函数之外加入了正则项整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。

跨时间测试集(Out of Time Validation Sample，OOT)：由于金融业务反馈时间长，除了划分训练集和测试集外，通常会预留训练样本时间后的样本作为OOT，以测量模型在时间上的稳定性。

KS曲线(K-S test)：用于衡量模型准确程度的一种曲线。该曲线是基于假正率(FPR)和真正率(TPR)两个指标的，与接收者操作特征(receiver operatingcharacteristic curve，ROC)曲线存在类似但又有不同，相同之处在于均是基于FPR和TPR，不同之处在于ROC曲线用FPR作为横轴，TPR作为纵轴，采用描点法绘制，图中总共是一条线；而KS曲线的横轴则是不同的概率判断阈值，KS值则是两条线最大间隔的差值，即max(TPR-FPR)。

账户样本：或称用户样本，在金融业务场景中，一个账户对应一个用户，一个账户关于该业务场景的历史数据则可构成一个账户样本，一个账户样本可以包括在该业务场景中设定的数据特征维度以及各特征维度相应的特征值。

在金融风控场景中，鉴于往往只会存在少量甚至缺乏带有标签的数据，因而在进行建模时，需要选取近似客群的有标签数据进行扩充。但是，不同业务场景的数据，由于其产品对应客群的区别，无法完全迁移使用。例如，消费金融的申请者与商业银行信用卡的申请者，往往有较大的质量差异，如果使用基于前者有标签样本建立的模型用于后者的业务场景，会导致预测结果的较大偏差。因此，如何在仅有少量标记客户样本的条件下，建立效果稳定、场景泛化能力强以及准确性高的模型，是金融风控场景的一大难题。

考虑到目前对于相似度通常采用“距离”进行描述，而相关技术方案着力于计算相关系数或者距离来寻找相似的样本，例如皮尔森相关系数、余弦相似度或者KL散度(Kullback-Leibler divergence)，而这些常用的衡量都存在一定的局限性，例如对于KL散度而言，其具有不对称性，即从分布P到Q的距离通常并不等于从Q到P的距离，因此无法准确衡量客群之间的相似度。

鉴于此，本申请实施例提供一种关联账户样本筛选方法，在该方法中，采用已训练的相似度预测模型，对各个账户样本进行特征提取，并基于提取的特征获得各个集合的分布期望值，从而基于分布期望值预测真实账户样本集合与每个候选账户样本集合之间的相似度，从而该相似度能够表征两个样本集合的概率分布之间的相似程度，从而相似度越小的两个样本集合之间的相似度更高，并且，即使两个样本集合的账户样本没有重叠或者重叠非常少，该相似度也能反映两个样本集合的概率分布的远近，因此基于相似度选取与真实账户样本集合最为接近的候选账户样本集合，从而提升为目标业务场景确定的近似账户样本的精准性，进而，基于这些相似账户样本训练的用户评估模型也能够更为准确。

此外，考虑到相关技术中计算距离时，无差别地对待对样本中不同特征的贡献，在对高维度特征计算时，这些方法难以衡量出特征之间更复杂的非线性关联，无法适应各业务场景下不同的特征对模型贡献度不尽相同的特殊性。而设计成百上千的特征往往是金融风控场景为提高模型表现、尽可能刻画用户行为所采用的普遍方法，这就导致传统的相似性计算方法在在金融风控领域表现差强人意，因此，本申请实施例中利用神经网络本身超高丰富度的表达能力，达成对高维复杂特征尽可能精准的非线性描述，从而使相似度能够达到相对传统距离函数更为精确的距离度量。

同时，本申请实施例的相似度预测模型是通过有监督的训练生成的，这样将保证专家经验可以在距离度量的计算中被最大化利用，不仅可以训练出区分两份样本之间的相似性距离，同时可以对多份样本组成一个场景领域进行有效度量。例如，有监督学习训练出的模型，计算来自信用卡场景的两份不同样本集之间的相似度，将大于他们分别与第三份来自消费分期场景的样本集的相似度。

本申请实施例还可以采用Wasserstain距离作为相似度度量，Wasserstain距离能反映两个样本集合的概率分布的远近，从而提升为目标业务场景确定的近似账户样本的精准性。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以适用于大多数需要进行近似客群确定、用户评估以及用户推荐等场景中，如图4所示，为本申请实施例提供的一种应用场景示意图，在该场景中，可以包括服务器10和终端20。

其中，服务器10可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

服务器10可以包括一个或多个处理器101、存储器102以及与其他设备交互的I/O接口103等。此外，服务器10还可以配置数据库104，数据库104可以用于存储本申请实施例提供的方案中涉及到的模型数据以及账户样本数据。其中，服务器10的存储器102中可以存储本申请实施例提供的关联账户样本筛选方法的程序指令，这些程序指令被处理器101执行时能够用以实现本申请实施例提供的关联账户样本筛选方法的步骤，以确定目标业务场景的关联账户样本。

终端20为能够安装业务应用程序(application，APP)的终端设备，例如可以为手机、平板电脑(PAD)、个人计算机(personal computer，PC)、笔记本电脑或者可穿戴智能设备等。

在实际应用时，服务器10可以针对特定的目标业务场景，采用本申请实施例提供的关联账户样本筛选方法，从关联业务场景的账户样本中选取近似的账户样本，从而利用这些选取出的账户样本以及目标业务场景的本身的账户样本，来训练能够适用目标业务场景的用户评估模型。

进而，当用户通过终端20中的业务APP发起业务申请时，则可以利用该用户评估模型对申请目标业务的账户进行评估，以确定是否授权该账户进行目标业务，并向终端20返回业务响应。

在一种可能的场景中，目标业务场景为银行A的信用卡申请场景，在需要建立对申请银行A信用卡的账户进行评估的模型时，由于实际的该场景中账户样本数量可能有限，那么需要从关联业务场景中选取账户样本进行扩充。因此，可选取关联的业务场景，如银行B的信用卡申请场景或者银行A的储蓄卡申请场景等的账户样本作为候选账户样本，进而利用本申请实施例训练得到的相似度预测模型预测各个候选账户样本集合与银行A的信用卡申请场景原本的账户样本集合之间的相似度，从而基于相似度选取最为相似的一个或者多个候选账户样本集合，来扩充银行A的信用卡申请场景的样本数量，进而利用扩充之后的样本集合来进行建模。

当然，上述针对银行A的信用卡申请场景的方法过程可以衍生至任意业务的申请场景中。

在另一种可能的场景中，目标业务场景为业务A的推荐场景，在需要建立业务A针对各个账户的推荐成功率预测模型时，由于实际的该场景中账户样本数量可能有限，那么需要从关联业务场景中选取账户样本进行扩充。因此，可选取关联的业务场景，如与业务A接近的业务B的推荐场景或者业务A的其他应用场景等的账户样本作为候选账户样本，进而利用本申请实施例训练得到的相似度预测模型预测各个候选账户样本集合与业务A的推荐场景原本的账户样本集合之间的相似度，从而基于相似度选取最为相似的一个或者多个候选账户样本集合，来扩充业务A的推荐场景的样本数量，进而利用扩充之后的样本集合来进行建模。

同样的，上述针对业务A的推荐场景的方法过程可以衍生至任意业务推荐场景中。

此外，本申请实施例的方法针对任何面临缺乏样本问题的实际场景同样适用，如自然语言处理或者计算机视觉等。

服务器10和终端20之间可以通过一个或者多个网络30进行直接或间接的通信连接。该网络30可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(Wireless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本申请实施例对此不做限制。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其他可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。下面，将先对本申请实施例涉及的技术进行简单介绍。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的机器学习(Machine Learning，ML)等技术，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例的技术方案还可以结合区块链(Blockchain)技术来实现。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

本申请实施例中，可以结合区块链技术实现基础数据的存储，如样本数据以及模型数据的存储，还可以结合区块链的智能合约，构建用户业务申请、评估以及告警的一系列自动化业务流程，即基于训练的用户评估模型的评估结果作为智能合约的判断依据，以判断是否准许用户使用某项业务，当满足智能合约设定的条件时，则自动触发后续的业务流程，无需人工审核通过，实现业务完全自动化，并且基于区块链的特性，更为安全可信。

下面，将结合具体的实施例对本申请的技术方案进行介绍。

由于本申请的技术方案需要结合已训练的相似度预测模型实现，因此下面首先对相似度预测模型的训练过程进行介绍。

请参见图2，为相似度预测模型的训练流程示意图。

步骤201：获取多个训练账户样本集合。

本申请实施例中，选取来自不同域的多个训练账户样本集合，每个域可以为一种业务场景，不同域的业务场景可以相同也可以不同。例如，在进行模型训练时，可以选取来自30个真实源域的训练账户样本集合来对相似度预测模型进行训练，当然，对于训练账户样本集合的数量，本申请实施例对此并不进行限制。

本申请实施例中，基于获取的多个训练账户样本集合进行多次迭代训练，直到满足预设的收敛条件为止，而每一次迭代训练的过程类似，因此下面具体以一次过程为例进行介绍。

相似度可以采用任何可能的相似度度量来实现，例如可以采用Wasserstain距离、JS系数等。参见图3所示，本申请实施例提供的以相似度预测模型具体为Wasserstain距离预测模型的结构示意图，即，后续具体以相似度度量为Wasserstain距离为例进行说明，但需要说明的是，后续的过程同样适用于其他相似度度量的情况。

具体的，Wasserstain距离预测模型具体可以包括输入层、样本生成器、特征提取器f(x)以及域相关判别器g(x)，输入层输入上述的多个训练账户样本集合，样本生成器用于生成每一次迭代训练所需的子训练集合以及相应的每两个子训练集合之间的距离标签，特征提取器f(x)用于基于各个子训练集合进行特征提取获得各个训练样本的特征表示向量，而域相关判别器g(x)基于各个特征表示向量确定每两个子训练集合之间的Wasserstain距离(图3所示的W距离)，进而基于预测的Wasserstain距离确定模型损失(loss)以及网络参数的更新，直至Wasserstain距离预测模型满足预设的收敛条件为止。后续将具体对每个组成部分进行详细的介绍，因此在此并不进行赘述。

当然，在实际的使用时，还可以采用其他可能的结构，本申请实施例对此并不进行限制。

步骤202：从多个训练账户样本集合中的每个训练账户样本集合分别选取至少一个子训练集合，每个子训练集合为相应的一个训练账户样本集合的子集。

本申请实施例中，以Wasserstain距离预测模型为例，Wasserstain距离预测模型的目标在于预测两个样本集合之间的Wasserstain距离，但是各个训练账户样本集合之间的Wasserstain距离无法人为的衡量，因而无法人工为各个训练账户样本集合之间标注Wasserstain距离。但是为了模型训练的顺利进行，设计了一种新颖的训练样本构造方法，训练样本构造的过程可以通过图3所示的样本生成器来执行。

考虑到每个训练账户样本集合，也就是每个业务场景下的样本之间是相似的，而不同业务场景的样本其相似度，相较于同一业务场景的样本相似度其显然是要更小的，因此，这里做了一种假设，将来自于同一训练账户样本集合的各个子集合认为是Wasserstain距离无限接近的，即来自于同一训练账户样本集合的各个子集合认为是相似的，而来自于不同训练账户样本集合的各个子集合认为是Wasserstain距离无限远的。

并且，基于此种假设，在训练账户样本集合的获取时，还可以尽量选取差异较大的业务场景的训练账户样本集合，这样，不同训练账户样本集合之间的相似度更小，而从这些训练账户样本集合选取的子集合之间的相似度理应也是更小的，从而最终训练得到的模型的效果更佳，准确度更高。

在具体进行每一次的迭代训练时，通过从每个训练账户样本集合选取至少一个子训练集合，每个子训练集合为相应的一个训练账户样本集合的子集，例如对于训练账户样本集合A，可以选取一个或者多个训练账户样本集合A的子集，作为本次迭代训练的训练样本，相应的，也可以从其他训练账户样本集合选取子集，从而得到多个子训练集合。

其中，被抽取的多个子训练集合中每两个子训练集合可以构成一个子训练集合对，一个子训练集合对中的两个子训练集合可能来自同一训练账户样本集合，也可来自两个不同的训练账户样本集合，可以采用如下方式进行表示：

Xi＝(Di1，Di2，Y)

其中，Xi表示第i个子训练集合对，Di1为组成第i个子训练集合对子训练集合1，Di2为组成第i个子训练集合对子训练集合2，Y为第i个子训练集合对的距离标签，距离标签表征Di1与Di2是否来自同一训练账户样本集合，例如Y＝1代表Di1、Di2来自不同的训练账户样本集合，Y＝0代表Di1、Di2抽取自相同的训练账户样本集合，或者，Y＝0代表Di1、Di2来自不同的训练账户样本集合，Y＝1代表Di1、Di2抽取自相同的训练账户样本集合，当然，Y的取值也可以设置为其他可能的值，本申请实施例对此并不进行限制。

本申请实施例中，为了方便自动生成各个子训练集合对的距离标签，针对每两个训练账户样本集合进行子训练集合的抽取并组合成子训练集合对。下面以多个训练账户样本集合中的第一训练账户样本集合和第二训练账户样本集合为例进行说明，第一训练账户样本集合和第二训练账户样本集合为多个训练账户样本集合中任意的两个集合，因此该方法也可以应用于多个训练账户样本集合中的其他任意两个训练账户样本集合。

其中，针对第一训练账户样本集合和第二训练账户样本集合，可以从第一训练账户样本集合选取多个子训练集合，并将这些子训练集合样本标签标注为第一值，同时，从第一训练账户样本集合选取多个子训练集合，并将这些子训练集合样本标签标注为第二值，第一值与第二值不同，且第一值与第二值之间的差值为距离上限值。

进而，在将各个子训练集合进行组合之后，基于各个子训练集合的样本标签，确定每两个子训练集合的距离标签，其中，每两个子训练集合的距离标签为两个子训练集合的样本标签的差值。

参见图4所示，为基于每两个训练账户样本集合A和B获得子训练集合对的示意图。从训练账户样本集合A选取多个子训练集合，即图4所示的子训练集合A1～An，并为A1～An标记相同的样本标签，例如图4所示的第一值为“0”，同理，还可以从训练账户样本集合B选取多个子训练集合，即图4所示的子训练集合B1～Bn，并为B1～Bn标记相同的样本标签，例如图4所示的第二值为“1”，其中，第一值与第二值的差值“1”表征距离上限值，即表征两个子训练集合来自不同的训练账户样本集合。

进而，将各个子训练集合进行组合之后，基于各个子训练集合的样本标签，确定每两个子训练集合的距离标签。如图4所示，将子训练集合A1和子训练集合B1进行组合得到一个子训练集合对时，该子训练集合对的距离标签为子训练集合A1和子训练集合B1的样本标签的差值，即“1”，表明子训练集合A1和子训练集合B1来自不同的训练账户样本集合，而若是将子训练集合A2与子训练集合An，或者，将子训练集合B2与子训练集合Bn进行组合得到子训练集合对时，该子训练集合对的距离标签为相应样本标签的差值，即“0”，表明组成该子训练集合对的两个子训练集合来自相同的训练账户样本集合。

步骤203：对获得的各个子训练集合包括的训练账户样本分别进行特征提取，获得各个训练账户样本各自对应的特征表示向量。

本申请实施例中，在计算子训练集合之间的预测Wasserstain距离之前，需要将各个训练账户样本映射到一定的隐层空间中，进而基于隐层空间进行预测Wasserstain距离的计算，其中，特征映射的过程可以通过图3所示的特征提取器f(x)来执行。

每一个训练账户样本包含一个账户和该账户在多个特征维度上的特征数据，特征维度例如包含账户基本信息，如名称、用户年龄以及职业等等，还可以包含账户的历史行为数据，如已开通的业务以及各个业务的历史行为信息。一般而言，特征数据是通过文本类型表示的，因此，特征提取器f(x)可以为任意可以编码得到特征表示向量的文本编码模型，例如可以采用支持向量机(Support Vector Machine，SVM)、文本(text)卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、双向长短记忆(Bi-directional Long Short-Term Memory，BiLSTM)网络或者结合注意力机制(Attention)的RNN等，当然，也可以采用其他可能的模型结构，本申请实施例对此不做限制。

具体的，参见图3所示，针对样本生成器选取的子训练集合，特征提取器f(x)将各个子训练集合映射到隐层的距离空间H，进而使得域相关判别器g(x)在该空间预测两个子样本集合之间的Wasserstain距离。

本申请实施例中，特征提取器f(x)的神经网络参数表示为θwd，θwd为通过训练过程不断更新的，当模型达成收敛条件时，则获得最终的θwd，既可用于进行特征提取的θwd。以textCNN为例，则θwd可以为textCNN中各个层(如卷积层、池化层以及全连接层等)的权重参数，通过不断的迭代更新，得到能够正确映射账户训练样本的权重参数。

步骤204：基于获得的各个特征表示向量，分别确定每个子训练集合的分布期望值。

步骤205：基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度。

本申请实施例中，特征提取器f(x)将训练账户样本映射至隐层空间，即获得各个训练账户样本的特征表示向量之后，则域相关判别器g(x)可以基于获得的各个特征表示向量，分别确定每个子训练集合的分布期望值，进而基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度。下面主要延续上面的Wasserstain距离的例子进行介绍。

在一种可能的实施方式中，这里具体以第一子训练集合与第二子训练集合之间的预测Wasserstain距离计算为例，在获得预测Wasserstain距离时，可以基于第一子训练集合包括的各个训练账户样本的特征表示向量，确定第一子训练集合的第一分布期望值；以及，基于第二子训练集合包括的各个训练账户样本的特征表示向量，确定第二子训练集合的第二分布期望值；进而，基于第一分布期望值和第二分布期望值，获得第一子训练集合和第二子训练集合之间的预测Wasserstain距离。

其中，第一子训练集合和第二子训练集合的预测Wasserstain距离可以表示如下：

其中，

和

分别表征第一子训练集合和第二子训练集合在H空间的分布期望值，它们的差值wd(D₁,D₂)则表征第一子训练集合和第二子训练集合之间的预测Wasserstain距离，预测Wasserstain距离的值越大，表明两个子训练集合的相似度越低，进而来自相同的训练账户样本集合的概率就越低。

在另一种可能的实施方式中，参见图3所示，域相关判别器g(x)还可以基于每个子训练集合对中的两个子训练集合进行特征融合，获得每个子训练集合对的融合特征向量，进而基于融合特征向量进行Wasserstain距离的预测，获得相应的预测Wasserstain距离。

在具体应用中，特征融合的过程可以通过全连接层来实现，即利用全连接层将两个子训练集合的所有账户训练样本映射为一个融合特征向量，或者，还可以采用池化层与全连接层结合的方式，如可以分别根据将两个子训练集合包括的账户训练样本进行池化处理，获得两个子训练集合分别对应的集合特征向量，再基于全连接层对两个子训练集合分别对应的集合特征向量进行特征融合，获得融合特征向量。当然，也可以通过其他可能的实现方式来实现，本申请实施例对此不做限制。

在具体应用中，Wasserstain距离的预测过程也可以采用全连接层的方式来实现，即将融合特征向量映射至一定的距离区间，如[0，1]的距离区间，获得预测Wasserstain距离，预测Wasserstain距离的值越大，表明两个子训练集合的相似度越低，来自同一训练账户样本集合的概率越低。

步骤206：基于获得的每两个子训练集合之间的预测相似度，以及每两个子训练集合之间的距离标签，确定相似度预测模型的模型损失值，其中，每个距离标签表征相应的两个子训练集合是否来自同一训练账户样本集合。

本申请实施例中，延续上述Wasserstain距离的例子，整个Wasserstain距离预测模型的训练过程被转化为一个二分类问题，即判断两个子训练集合Di1和Di2是否来自同一个样本集合，而预测相似度，也就是预测Wasserstain距离可以表征预测的两个子训练集合是否来自同一训练账户样本集合的概率，而样本生成器在生成本次迭代训练的样本时已经标注了距离标签，那么则可以获取预测Wasserstain距离以及距离标签的差距，并根据其差值获取整个模型的损失值。当Wasserstain距离预测模型区域收敛时，预测Wasserstain距离以及距离标签的差值应是较小的。

具体的，一种预测损失的表示方式如下：

其中，L_d表征预测损失值，B表征本次迭代训练使用的子训练集合对，d_Di1,Di2表征第一子训练集合和第二子训练集合之间的距离标签。

在具体应用时，另一种预测损失的表示方式如下：

在具体应用时，可能会出现模型权重难以收敛的问题，针对该问题，本申请实施例通过对损失函数进行梯度约束，即对损失函数施加一种截断修剪的策略，来使得模型训练过程变得更加稳定，并且实现高质量的预测效果。

具体的，还可以基于本次迭代训练使用的模型参数确定本次迭代训练过程的梯度约束值，梯度约束值用于约束本次迭代训练过程的模型参数更新的梯度值不大于设定梯度阈值，进而，基于预测损失值和梯度约束值，获得模型损失值。

本申请实施例中，在获取本次迭代训练的梯度约束值时，可以根据本次迭代训练使用的域相关判别器的参数，确定域相关判别器的梯度，进而基于梯度与设定梯度阈值获得梯度约束值。

那么，Wasserstain距离预测模型的模型损失值可以表示为如下：

其中，L为Wasserstain距离预测模型的模型损失值，

为梯度惩罚损失，即梯度约束值，

表示求取

的梯度值L2范数运算，γ为梯度惩罚损失的权重值，其可以为一个固定的值，也可以作为训练参数一并进行训练。

当然，在实际应用时，可以基于实际情况选取是否采取梯度约束策略，在不采取梯度约束策略时，则模型损失值为预测损失值。

步骤207：确定是否满足收敛条件。

本申请实施例中，收敛条件可以包括模型损失值L不大于预设的损失值，或者迭代次数达到预设的次数。

当步骤207的确定结果为是时，即相似度预测模型已满足收敛条件时，则模型训练结束。

步骤208：当步骤207的确定结果为否时，基于模型损失值对相似度预测模型进行参数调整。

当步骤207的确定结果为是时，即相似度预测模型未满足收敛条件时，则基于模型损失值对相似度预测模型进行参数调整。

具体的，可以根据模型损失值计算参数调整的梯度，再基于原始网络参数与梯度获取调整后的网络参数值，其中，调整后的网络参数可以表示如下：

其中，θ'_wd表征调整后的网络参数值，α为学习率，

表征调整梯度。

本申请实施例中，基于采用的模型优化方法不同，可以选取不同的梯度算法，例如可以采用梯度下降(gradient descent，GD)算法、随机梯度下降(Stochastic gradientdescent，SGD)算法或者批量梯度下降(Batch gradient descent，BGD)算法等。

本申请实施例中，当对模型进行参数调整之后，则可以采用调整后的模型进入下一次迭代训练过程，即流程跳转至步骤202。

在相似度预测模型达成收敛条件之后，则可以应用至具体的相似度预测场景，从而确定关联账户样本。请参见图5所示，为本申请实施例提供的关联账户样本筛选方法的流程示意图，该方法的流程介绍如下。

步骤501：获取目标业务场景对应的真实账户样本集合，以及获取多个候选账户样本集合，每个候选账户样本集合包括目标业务场景关联的至少一个关联业务场景对应的候选账户样本。

本申请实施例中，真实账户样本集合是指目标业务场景下已有的样本集合，但在实际场景中，用于用户评估模型训练所需的样本数量是很庞大的，而真实账户样本集合含有的样本数量可能远远不及，因而可以从有所关联的业务场景的候选账户样本中寻求相似账户群体，来扩充该业务场景下的样本数量。

而即便是相关联的业务场景，由于一些内外在素，都可能使得用户群体存在一定的差异，从而需要选取尽可能接近的用户群体。并且，本申请实施例中的关联业务场景是指人为的认为可能相关的业务场景，但实质上的用户群体是否类似，并没有数据给予支撑，因而也可能是不太准确的，需要进一步进行衡量。

当然，在实际操作中，关联业务场景是很难进行衡量的，因而也可以将数据库中其他所有业务场景作为关联业务场景，即将数据库中所有的账户样本作为选择池，进而从中选取接近的账户样本。

本申请实施例中，目标业务场景对应的真实账户样本集合可以是在目标业务场景中某一时间段的样本集合，那么关联业务场景还可以是指目标业务场景在其他时间段，即候选账户样本可以是目标业务场景在其他时间段的账户样本。

在实际应用中，在选择对标的原始积累样本时，可以从业务角度选择匹配的数据集，同时允许基于一些简单的筛选规则，提前剔除部分完全不满足要求的样本。

本申请实施例中，在获得关联业务场景的多个候选账户样本后，可以基于获得的各个候选账户样本，构造多个候选账户样本集合，其中，任意两个候选账户样本集合包含至少一个不同的候选账户样本。

本申请实施例中，构造候选账户样本集合的方式可以有多种。

在一种可能的实施方式中，可以按照各个候选账户样本各自归属的业务场景，分别将各个候选账户样本划分至相应业务场景对应的候选账户样本集合中。也就是说，每个候选账户样本集合对应一个业务场景，一个业务场景所拥有的候选账户样本构成一个候选账户样本集合，那么最终选取出的关联账户群体实质上则为某一个业务场景下的账户群体，也就是说确定近似账户群体的过程也就相当于确定相似业务场景的过程。

在另一种可能的实施方式中，可以将多个候选账户样本进行随机组合，从获得的各个组合方案中选取包含的候选账户样本数量达到设定的样本数量门限值的组合方案(筛除样本数量较少的组合)，作为候选账户样本集合，其中，每个组合方案对应一个候选账户样本集合。这样，选取出的候选账户样本集合是与目标业务场景相似度最为接近的组合，进一步提升确定出的关联账户样本的准确性。

步骤502：采用已训练的相似度预测模型，分别确定所述真实账户样本集合以及每个所述候选账户样本集合的样本分布的分布期望值，以及基于获得的各个分布期望值，分别确定所述真实账户样本集合与每个所述候选账户样本集合之间的相似度。

本申请实施例中，以相似度预测模型为Wasserstain距离预测模型为例，可以通过上述过程训练得到的Wasserstain距离预测模型，计算真实账户样本集合与每个候选账户样本集合的Wasserstain距离，在计算Wasserstain距离时，实质上是将真实账户样本集合与一个候选账户样本集合作为一个子训练集合对输入至Wasserstain距离预测模型，从而得到Wasserstain距离预测模型输出的Wasserstain距离，进而以Wasserstain距离度量相似度。

具体而言，相似度预测模型确定相似度的过程可以包括如下步骤：

S5021：对各个真实账户样本以及候选账户样本分别进行特征提取，获得多个特征表示向量，一个特征表示向量对应一个真实账户样本或者候选账户样本。

其中，真实账户样本是指上述真实账户样本集合包括的账户样本，候选账户样本是指上述候选账户样本集合包括的账户样本。

S5022：基于多个特征表示向量，分别确定真实账户样本集合以及每个候选账户样本集合的样本分布的分布期望值。

S5023：基于获得的各个分布期望值，分别确定真实账户样本集合与每个候选账户样本集合之间的相似度。

上述确定相似度的过程与训练时相似度预测模型的相应过程相同，因此可参见上述训练部分的介绍，在此不再进行赘述。

步骤504：将相似度满足设定条件的至少一个候选账户样本集合对应的各个候选账户样本，确定为所述目标业务场景的关联账户样本。

本申请实施例中，设定条件例如可以为相似度不小于设定相似度阈值，或者按照相似度排序后，排名靠前的多个候选账户样本。

在一种可能的实施方式中，当相似度通过Wasserstain距离度量是，则设定条件可以为Wasserstain距离最小，或者设定条件还可以为按照Wasserstain距离有小到大的顺序排序后，位于排名前K个，进而，基于设定条件，从多个候选账户样本集合选取出至少一个候选账户样本集合，且至少一个候选账户样本集合对应的各个账户即为目标业务场景的关联账户群体。

本申请实施例中，确定关联账户样本之后，则可以将关联账户样本添加至真实账户样本集合中，获得扩充账户样本集合，并可以采用扩充账户样本集合包括的账户样本对账户可信度评估模型进行训练，获得已训练的账户可信度评估模型，进而将待评估的目标账户的特征数据输入至已训练的账户可信度评估模型，获得目标账户的账户可信度。

例如，当目标业务场景为金融机构A的信贷申请场景，则可以对金融机构A的信贷申请场景的样本集合进行扩充后，训练用于评估账户可信度的账户可信度评估模型，并利用该账户可信度评估模型对后续申请信贷的账户进行可信度评估，当账户可信度较低时，则可以拒绝信贷业务，相反，当账户可信度很高时，则可以允许信贷业务。

上述的关联账户群体确定过程实质上也是一种目标业务场景的相似样本筛选过程，进而可以将确定出的关联账户群体对应的候选账户样本添加至目标业务场景的样本集合中，以扩充含有少量有标签样本的目标业务场景的样本数量。进而，可以将扩充之后的账户样本集合应用于用户评估中，对于用户评估可以包括用户评估模型的模型训练阶段和模型发布阶段。

请参见图6所示，为本申请实施例提供的应用方案示意图。

步骤601：针对目标域样本集合和多个源域样本集合，采用相似度预测模型进行目标域样本集合与各个源域样本集合之间的相似性计算。

步骤602：基于相似度，从多个源域样本集合中选择相似源域样本集合。

例如，当相似度预测模型为Wasserstain距离预测模型，可采用Wasserstain距离预测模型进行目标域样本集合与各个源域样本集合之间的Wasserstain距离计算，Wasserstain距离代表两个样本集所对应的客群越相似。针对样本量较少的目标域样本集合Dt，Wasserstain距离预测模型计算Dt与所有源域样本集合的Wasserstain距离，筛选出与目标域样本集合最相似的TopK个源域样本集合Ds。

步骤603：基于相似源域样本集合对目标域样本集合进行扩充，得到扩充后的样本集合。

具体的，合并目标域样本集合Dt和筛选后的源域样本集合Ds，构成新的训练样本集合Dm。由于Ds仅包含与目标域样本集合相似的源域客群样本，且带有标签，所以通过合并Ds和Dt，不仅可以扩充目标域的有标签样本量，同时Wasserstain距离的引入可以有效降低不相关域样本的负影响。

步骤604：利用扩充后的样本集合进行金融风控模型的训练。

步骤605：训练结束后，则可获得已训练的风险预测模型。

步骤606：风险预测模型发布。

步骤607：利用风险预测模型进行风险预测。

本申请实施例中，金融风控模型所采用的算法不限于逻辑回归(LogisticRegression，LR)、XGBoost或者DNN等算法，或者其他以树结构为基础的分类模型，或者是神经网络模型等。基于扩充后的训练样本集合Dm训练的风险预测模型经部署后将应用于实时风控预测，服务于贷前反欺诈识别、贷中信用评估、贷后风险监控等不同的信贷风控环节。在实时服务中，针对每一笔信贷申请，风控模型可以输出对应申请人的风险预测，例如输出风险分值0-100，分值越大风险越高。

本申请实施例的Wasserstain距离预测模型的整个训练过程采用了一种自监督的训练机制，即按照模型能正确区别两个子样本集是否采集自同一源域样本的方向迭代模型，且训练过程中未引入任何额外的人工标注。Wasserstain距离预测模型一经训练后，可以用于计算任意两个样本集合的样本客群相似性，进而基于Wasserstain距离预测模型的这一特性，本申请实施例提出基于Wasserstain距离预测模型样本扩散的小样本风控模型训练方法，即基于Wasserstain距离预测模型筛选出与目标域样本相似的源域样本，并利用源域样本的Y标记数据扩充目标域样本，从而解决目标域有标记样本不足的问题，提升风控模型训练效果与效率。最终的业务模型，可以涉及金融风控的各个场景，例如反欺诈、信用卡或者贷款申请、贷中管理以及营销管理等。

并且，针对相关技术中相似度计算时无差别地对待对不同特征的贡献的问题，本申请实施例结合了机器学习方法以及距离度量两者的优点，利用神经网络本身超高丰富度的表达能力，达成对高维复杂特征尽可能精准的非线性描述，从而使W距离能够达到相对传统距离函数更为精确的距离度量。

本申请实施例从样本层面上对数据进行补充，当然也可以探索从特征维度对模型训练效果进行强化，通过对模型的添加更多预训练输出的特征信息，来提高模型的准确性和泛化能力。比如在无标签的客户数据上进行无监督学习，将输出的表征用于筛选出的相似样本建模的微调中，来增强模型识别与客户相关信息的能力。

为了客观验证本申请实施例的技术方案的有效性，进行了相应的实验验证，以在真实的金融风控数据和业务场景中，对方法的表现进行验证。

该实验选取信用卡申请场景作为目标业务场景，在训练阶段分别采用不同的样本集合训练相应的XGBoost模型，XGBoost模型用于预测申请信用卡的申请人的风险程度，验证阶段采用同一信用卡场景下的OOT样本验证集合进行验证。

具体的，如表1所示，其展示了小样本场景下的信用卡场景中建模效果对比，其中XGBoost通用模型是指在30个源域样本上训练一个通用的XGBoost模型，目标域样本模型是指仅基于信用卡场景的少量有标记样本训练一个XGBoost模型。

此外，基于本申请实施例的技术方案，在30个真实的源域样本集上训练Wasserstain距离预测模型，并利用该模型筛选与目标域相似的源域样本集合。进而，将目标业务场景作为目标域，基于Wasserstain距离预测模型，从30个源域样本集合中选取相似源域样本集合，来对信用卡申请场景的样本集合进行扩充，进而用扩充的样本集合训练一个XGBoost迁移模型，该实验中Wasserstain距离域值设置为0.5，即从30个源域样本集合中选择所有与目标域样本集的Wasserstain距离小于0.5的源域样本用于扩充目标样本集。

	XGBoost通用模型	XGBoost目标域模型	XGBoost迁移模型
				KS	0.21	0.24	0.26

表1

训练得到的各个XGBoost模型采用同一信用卡OOT样本验证集进行验证，表1展示了三个模型在验证集下的KS值表现。

基于表1可知，在仅使用原始积累样本时，模型的KS值只有0.21，这是由于我们的原始积累样本可能涵盖各个金融的数据，从而引入了不符合信用卡申请场景的数据，该部分噪声数据对模型效果产生了负影响。而使用信用卡少量标记样本直接建模的KS为0.24，相较通用模型有提升了3个百分点。最终，基于WD距离样本扩充的模型KS为0.26，较仅使用目标域小样本的模型提高了2个百分点，因此可见，本申请实施例的技术方案，能够很好的补充与该业务场景相似的有标记样本，从而允许我们在更大的数据量之上，建造效果稳定、场景泛化能力强以及准确性高的模型，用于对应的业务场景。

请参见图7，基于同一发明构思，本申请实施例还提供了一种关联账户样本筛选装置70，该装置包括：

样本获取单元701，用于获取目标业务场景对应的真实账户样本集合，以及获取多个候选账户样本集合，每个候选账户样本集合包括目标业务场景关联的至少一个关联业务场景对应的候选账户样本；

预测单元702，用于采用已训练的相似度预测模型，分别确定真实账户样本集合以及每个候选账户样本集合的样本分布的分布期望值，以及基于获得的各个分布期望值，分别确定真实账户样本集合与每个候选账户样本集合之间的相似度；

确定单元703，用于将相似度满足设定条件的至少一个候选账户样本集合对应的各个候选账户样本，确定为所述目标业务场景的关联账户样本。

可选的，该装置还包括模型训练单元704，用于：

基于所述模型损失值对所述相似度预测模型进行参数调整。

可选的，针对多个训练账户样本集合中的第一训练账户样本集合和第二训练账户样本集合，第一训练账户样本集合和第二训练账户样本集合为多个训练账户样本集合中任意的两个集合，模型训练单元704，具体用于：

将从第一训练账户样本集合选取的各个子训练集合的样本标签，标注为第一值；以及，

将从第二训练账户样本集合选取的各个子训练集合的样本标签，标注为第二值；其中，第一值与第二值不同，且第一值与第二值之间的差值为距离上限值；

可选的，针对第一子训练集合和第二子训练集合，模型训练单元704，具体用于：

基于第一子训练集合包括的各个训练账户样本的特征表示向量，确定第一子训练集合的第一分布期望值；以及，

基于第二子训练集合包括的各个训练账户样本的特征表示向量，确定第二子训练集合的第二分布期望值；

基于第一分布期望值和第二分布期望值，获得第一子训练集合和第二子训练集合之间的预测相似度。

可选的，模型训练单元704，具体用于：

基于每两个子训练集合之间的预测相似度，以及每两个子训练集合之间的距离标签，确定相似度预测模型的预测损失值；以及，

基于本次迭代训练使用的模型参数确定本次迭代训练过程的梯度约束值，梯度约束值用于约束本次迭代训练过程的模型参数更新的梯度值不大于设定梯度阈值；

基于预测损失值和梯度约束值，获得模型损失值。

可选的，相似度预测模型包括域相关判别器，域相关判别器用于基于获得的各个特征表示向量，分别确定每个子训练集合的分布期望值，以及基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度，则模型训练单元704，具体用于：

根据本次迭代训练使用的域相关判别器的参数，确定域相关判别器的梯度；

基于梯度与设定梯度阈值获得梯度约束值。

可选的，装置还包括样本扩充单元705和账户评估单元706；

样本扩充单元705，用于将关联账户样本添加至真实账户样本集合中，获得扩充账户样本集合；

账户评估单元706，用于采用扩充账户样本集合包括的账户样本对账户可信度评估模型进行训练，获得已训练的账户可信度评估模型；以及将待评估的目标账户的特征数据输入至已训练的账户可信度评估模型，获得目标账户的账户可信度。

可选的，样本获取单元701，具体用于：

获取目标业务场景关联的各个关联业务场景的多个候选账户样本；

基于多个候选账户样本，构造多个候选账户样本集合，其中，任意两个候选账户样本集合包含至少一个不同的候选账户样本。

可选的，样本获取单元701，具体用于：

按照各个候选账户样本各自归属的业务场景，分别将各个候选账户样本划分至相应业务场景对应的候选账户样本集合中，其中，每个候选账户样本集合对应一个业务场景；或者，

将多个候选账户样本进行随机组合，从获得的各个组合方案中选取包含的候选账户样本数量达到设定的样本数量门限值的组合方案，作为候选账户样本集合，其中，每个组合方案对应一个候选账户样本集合。

该装置可以用于执行图2～图6所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图2～图6所示的实施例的描述，不多赘述。需要说明的是，模型训练单元704、样本扩充单元705、账户评估单元706、样本集合构造单元707并不是必选的功能单元，因此在图7中以虚线进行示出。

请参见图8，基于同一技术构思，本申请实施例还提供了一种计算机设备80，可以包括存储器801和处理器802。

所述存储器801，用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器802，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器801和处理器802之间的具体连接介质。本申请实施例在图8中以存储器801和处理器802之间通过总线803连接，总线803在图8中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线803可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器801可以是上述存储器的组合。

处理器802，用于调用所述存储器801中存储的计算机程序时执行如图2～图6所示的实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图2～图6所示的实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种关联账户样本筛选方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述相似度预测模型的训练过程包含如下步骤：

基于获得的各个特征表示向量，分别确定每个子训练集合的分布期望值；并基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度；

基于获得的每两个子训练集合之间的预测相似度，以及每两个子训练集合之间的距离标签，确定所述相似度预测模型的模型损失值，其中，每个距离标签表征相应的两个子训练集合是否来自同一训练账户样本集合；基于所述模型损失值对所述相似度预测模型进行参数调整。

3.如权利要求2所述的方法，其特征在于，针对所述多个训练账户样本集合中的第一训练账户样本集合和第二训练账户样本集合，所述第一训练账户样本集合和第二训练账户样本集合为所述多个训练账户样本集合中任意的两个集合，所述方法还包括：

4.如权利要求2所述的方法，其特征在于，针对第一子训练集合和第二子训练集合，确定所述第一子训练集合与所述第二子训练集合之间的预测相似度，包括：

5.如权利要求2所述的方法，其特征在于，所述基于获得的每两个子训练集合之间的预测相似度，以及每两个子训练集合之间的距离标签，确定所述相似度预测模型的模型损失值，包括：

6.如权利要求5所述的方法，其特征在于，所述相似度预测模型包括域相关判别器，所述域相关判别器用于基于获得的各个特征表示向量，分别确定每个子训练集合的分布期望值，以及基于获得的各个分布期望值，分别确定每两个子训练集合之间的预测相似度；

则基于本次迭代训练使用的模型参数确定本次迭代训练过程的梯度约束值，包括：

基于所述梯度与所述设定梯度阈值获得所述梯度约束值。

7.如权利要求1-6任一所述的方法，其特征在于，在将相似度满足设定条件的至少一个候选账户样本集合对应的各个候选账户样本，确定为所述目标业务场景的关联账户样本之后，所述方法还包括：

将所述关联账户样本添加至所述真实账户样本集合中，获得扩充账户样本集合；

采用所述扩充账户样本集合包括的账户样本对账户可信度评估模型进行训练，获得已训练的账户可信度评估模型；

将待评估的目标账户的特征数据输入至已训练的账户可信度评估模型，获得所述目标账户的账户可信度。

8.如权利要求1-6任一所述的方法，其特征在于，所述获取多个候选账户样本集合，包括：

9.如权利要求8所述的方法，其特征在于，所述基于所述多个候选账户样本，构造多个候选账户样本集合，包括：

10.一种关联账户样本筛选装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述装置还包括模型训练单元，用于：

基于所述模型损失值对所述相似度预测模型进行参数调整。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。

13.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，

该计算机程序指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。