CN113240509B

CN113240509B - 一种基于多源数据联邦学习的贷款风险评估方法

Info

Publication number: CN113240509B
Application number: CN202110541127.4A
Authority: CN
Inventors: 韦庆杰; 李黎; 刘歆; 钱鹰; 赵晨阳; 伍曾伟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2022-04-22
Anticipated expiration: 2041-05-18
Also published as: CN113240509A

Abstract

本发明涉及一种基于多源数据联邦学习的贷款风险评估方法，属于大数据和贷款风险评估领域。该方法包括：S1：使用多方数据源参与到贷款风险评估任务中，分别对多方数据源数据进行预处理以及数据样本加密对齐；S2：分析和提取多方数据源关于贷款风险评估相关特征，建立贷款用户风险画像并构建贷款风险评估体系；S3：构建并使用Lightgbm树模型对多方数据源进行联合训练，同时与中心服务器交换参数，更新训练过程；S4：综合多方数据源的训练结果构建的Lightgbm树模型，预测用户的违约情况作为用户贷款风险的判别结果。本发明提升贷款风险评估的准确性，降低贷款坏账率。

Description

一种基于多源数据联邦学习的贷款风险评估方法

技术领域

本发明属于大数据和贷款风险评估领域，涉及一种基于多源数据联邦学习的贷款风险评估方法。

背景技术

随着人工智能和大数据广泛应用在贷款风险评估中，得益于大数据下的风险评估技术的提升，用户个人基本信息数据和征信数据已经不能满足于现有的贷款风险评估维度，更多的与贷款相关的数据被输入到贷款风险评估任务中，例如用户的消费数据、行为数据、抵押物数据等，通过对多源数据的分析构建特征建立贷款风险评估模型。但是通常在获取这些数据时会遇到很大的难度，一是因为这些数据存放在不同的机构中，获取数据存在困难，数据存在数据孤岛问题；二是多源数据中用户隐私保护的问题，近些年来相关部门制定了严格的行业规则和业务政策，对数据的合法使用提出了要求。

联邦学习的提出可以很好的解决数据孤岛和用户隐私的问题，联邦学习是多个数据拥有方共同参与全局模型的训练。各个数据拥有方在保护数据隐私和模型参数的基础上，仅共享加密的模型参数或者加密的中间计算结果，不会进行数据的共享。目前联邦学习已经在成功应用于金融，医疗等技术领域，且常用的机器学习和神经网络模型被应用在联邦学习模型中，包括逻辑回归、决策树和浅层神经网络模型等。在基于决策树的联邦学习模型中，常用的为Xgboost模型，但Lightgbm模型在预测精度和时间方面都要优于Xgboost模型，所以可以使用Lightgbm模型构建联邦学习模型，使用多源数据联邦训练来提升贷款风险评估的准确性。

发明内容

有鉴于此，本发明的目的在于提供一种基于多源数据联邦学习的贷款风险评估方法，提高风险评估模型的准确性，使得对贷款风险评估具有更好的预测结果。

为达到上述目的，本发明提供如下技术方案：

1、一种基于多源数据联邦学习的贷款风险评估方法，其包括以下步骤：

S1：使用多方数据源参与到贷款风险评估任务中，分别对多方数据源进行预处理以及数据样本加密对齐；

S2：分析和提取多方数据源关于贷款风险评估相关的特征，建立贷款用户风险画像并构建贷款风险评估体系；

S3：构建基于Lightgbm的联邦学习模型，即Lightgbm树模型，使用Lightgbm树模型对多源数据进行联合训练，同时与中心服务器交换参数，更新训练过程；

S4：综合多方数据源的训练结果构建的Lightgbm树模型，预测用户的违约情况作为用户贷款风险的判别结果。

进一步，步骤S1中，所述的多个数据源包括：银行数据源、消费平台数据源、公积金管理中心数据源、房管局房产交易中心数据源、移动运营商数据源和贷款平台数据数据源。

使用银行数据源，获取用户银行的数据信息，包括用户的银行流水、存款数据、理财信息、历史信贷信息和征信数据，银行流水和存款信息反映出用户的还款能力，历史信贷和征信数据可以反映出用户的信用状况。

使用消费平台数据源，获取用户在消费平台上的消费数据，包括用户在消费平台上的消费金额、消费偏好、消费频次，从而根据用户的消费分析出用户的经济实力，进一步分析出用户的贷款风险，

使用公积金管理中心数据源，获取用户的公积金缴存情况，包括用户的收入，每月公积金的缴存额，通过分析公积金的缴存评估用户的经济实力。

使用房管局房产交易中心数据源，获取房产信息数据，评估贷款用户的房屋价值从而分析出用户的经济实力。

使用移动运营商数据源，获取用户的通信数据，包括缴费记录、余额状态、欠费停机记录等信息，挖掘用户的还款能力和还款意愿。

使用贷款平台数据，获取用户的基本信息，包括用户学历、婚姻状态等信息，贷款平台还有用户是否违约的标签。将贷款平台数据作为第一参与训练数据源参与方。

进一步，步骤S1中，多源数据的预处理包括：统计数据项缺失值比例，对缺失值进行填补，数据类型转换并使用RobustScaler进行归一化处理。归一化处理公式为：

其中，median为某一数据项的中位数，IQR为数据项的四分位距，v_i为数据项中的一个值。

各方数据源进行加密样本对齐，不同数据源在不交换数据的情况下进行样本对齐，参与训练的数据源在不交换数据的前提下找到共同的样本，将样本与特征对齐。

进一步，步骤S2中，建立贷款用户风险画像并构建贷款风险评估体系，具体包括：针对多源数据构建用户贷款风险评估的特征，例如用户年龄，性别，职业，收入，存款金额，消费金额等特征。

各方数据源针对其本地的数据分别提取相关风险特征，并分别建立贷款用户风险画像，以消费画像为例，从消费数据中构建出用户的近一年、近三个月、近一个月的消费金额、消费频次、消费稳定性、经常退货、取消订单等特征，从消费水平、消费活跃度、消费稳定性和潜在问题用户四个方面对用户进行聚类和分群，使得聚类后同一簇内的数据对象的相似性尽可能大，使得不同簇内的数据对象差异性尽可能大。

使用K-means方法对特征进行聚类，K-means是基于距离的聚算法，通过选择K个点作为初始聚类中心，将每个对象分配到最近的中心形成K个簇，并重新计算每个簇的中心，重复以上的步骤，直到K-means的目标函数达到最优或者到达设置的迭代次数即可，其目标函数如下公式所示，

其中，c_i为计算得到的簇的中心，x为数据对象的样本，dist(·)表示各个数据样本之间与簇中心的距离。

通过聚类后产生的用户分群，在结合之前的特征构建用户的消费画像同时建立贷款风险评估的准则，构建出贷款风险评估体系。

进一步，所述步骤S3具体包括以下步骤：

S31：中心服务器对训练的参数进行初始化设置，同时对各方数据源的权重也需要进行初始化设置；

S32：中心服务器利用同态加密算法生成公钥和私钥，向各方数据源发送参数，利用公钥加密传输参数；

S33：各方数据源通过同态加密算法进行加密，对中心服务器发送的加密参数进行使用私钥进行解密，然后使用Lightgbm对所多方数据源的特征数据与携带标签信息的数据源进行联邦训练，使得构建的联邦Lightgbm树模型能够准确的对用户的风险进行预测，得到较高的预测结果。

进一步，所述步骤S33具体包括：各方数据源使用其本地的样本数据联合构建Lightgbm树模型，并在各训练阶段将参数进行同态加密后传递至中心服务器。

数据源在构建Lightgbm树模型时，针对各方数据源的本地数据，将其数据特征作为树模型的节点；其中要判断当前节点是否为叶子节点，若当前节点已经是叶子节点，则停止分裂将参数传递至中心服务器，由中心服务器进行判断预测结果；若当前节点为非叶子节点，则需要由中心服务器和各方数据源一起参与进行最优节点的划分；各方数据源通过比较分割点的分裂收益确定自己的最优局部分割节点，分裂收益的计算公式如下：

其中，G和H分别表示将Lightgbm梯度展开后的一阶导值和二阶导值，L表示分裂后的左节点，R表示分裂后的右节点，λ和γ为训练过程中的超参数。

然后，各方数据源通过建立梯度直方图的方式寻找最优分割节点，建立直方图的具体步骤为：

(1)首先需要对各方数据源中的连续浮点特征值进行离散化分桶，即将整个值的范围分成一系列间隔；

(2)直方图的每个桶中包含了一定的样本，计算每个桶中的样本梯度之和并对桶中的样本进行计数；

(3)对于某个叶节点，遍历所有的桶，分别以当前桶作为分割点，累加其左边至当前的桶的梯度和以及样本数量，并与父节点上的总梯度和以及总样本数量相减，得到右边所有桶的梯度和以及样本数量，并以此计算增益，在遍历过程中，取最大的增益，以此时的特征和桶的特征值作为分裂节点的特征和分裂特征取值；

(4)对所有的叶节点，重复上述步骤，遍历所有的特征，完成直方图的建立，进而找到增益最大的特征及其划分值，以此来确定分裂该叶节点的标准。

通过以上步骤，各方数据源寻找到各自的最优分割节点。

重复以上计算全局最优分割节点的步骤，直到最后构建得到最后的叶子节点，停止训练得到多个数据参与方联合训练的Lightgbm树模型。由于Lightgbm树模型是由各个数据源构建的，每个数据源在本地保存了划分局部最优分割节点的信息，以及当数据源提供分枝特征时，保存相应的分割节点信息。完整的树模型由全部的数据源参与方的树的并集构成，即T_i∈T，i＝1，2，3…，T_i表示第i个数据源参与方的局部树模型。

进一步，步骤S4中，预测时对构建的Lightgbm树模型进行一轮集体通信，每个预测样本从各自树的根节点开始预测，通过检查分枝阈值确定进入其左子树或者右子树，递归的执行树节点的路径，直到落入树模型的叶子节点。此时非叶子节点已分裂成叶子结点，各方数据源停止分裂。最后根据构建的Lightgbm树模型预测输出贷款用户的风险概率值。

2、一种存储装置，其中存储了多条程序，该程序应用由处理器加载并执行以实现上述的一种基于多源数据联邦学习的贷款风险评估方法。

3、一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；该程序适用于由处理器加载并执行以实现上述的一种基于多源数据联邦学习的贷款风险评估方法。

本发明的有益效果在于：

1)本发明考虑了使用多方数据源参与贷款风险评估，构建多源数据的特征，通过建立贷款用户风险画像和贷款风险评估体系风，提升了贷款风险评估的准确性，降低了贷款的坏账率。

2)本发明在选择多方数据源训练模型时，使用Lightgbm机器学习模型进行多源数据的联合训练，通过多方数据源的协作构建树模型进行联邦学习，提升贷款风险评估的准确性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于多源数据联邦学习的贷款风险评估方法的流程示意图；

图2为本发明基于多源数据联邦学习的贷款风险评估方法的系统构建示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，本发明针对的是互联网金融贷款风险评估，在保护用户数据和隐私的前提下，使用多源数据参与到贷款风险评估任务中，用于提升贷款风险评估的准确性，降低贷款的坏账率。如图2所示，包括以下步骤：

步骤1：使用多方数据源进行贷款风险评估，分别对数据进行预处理操作以及数据样本加密对齐。

例如，采集用户的银行数据包括银行存款、历史信贷次数、历史信贷金额、违约次数和正常守约次数等；采集用户消费平台数据，包括用户累计消费金额、近一年内的消费金额、近三个月的消费金额、累计消费次数、近一年内的消费次数、近三个月的消费次数、累计退货次数和累计取消订单次数等；采集用户公积金管理中心数据，包括用户收入、月缴存金额、累计缴存额等；采集房地产商数据，包括用户固定资产房屋的价值等；采集用户移动运营商数据，包括欠费次数、缴费记录等；采集贷款平台的数据，包括用户的年龄、性别、婚姻以及是否违约的标签。

各数据源先对自身的数据进行预处理操作，统计各数据项的缺失比例，通过设置填充阈值范围，对缺失比例较低的数据项使用合适的方法进行填充，例如用户样本中的年龄数据，统计其缺失比例为20％，即有20％的用户年龄这一数据项是没有的，所以选择计算出用户贷款年龄的平均值，用以填充缺失的年龄值。在将数据中离散数据转换为向量，例如，用户样本数据中的职业、婚姻状态类似于这样的离散数据可以使用one-hot编码转换为向量，其中one-hot编码一般是将特征映射到整数值进行表示，男性就可以被映射为[1,0]的向量，而类似于消费数据中消费物品的信息，其类别很多，若使用one-hot编码会带来很多的稀疏值，采用embedding编码可以很好的解决这个问题，embedding编码将高维稀疏特征向量向低维稠密特征向量进行转换，且转换出的向量可以很好的表示物品信息之间的关系。并使用归一化操作将数据项值进行缩放到一定区域范围内，避免了因数据项值范围差异给训练模型带来的干扰。

同时，对各个数据源之间进行数据样本的加密对齐，各个数据源在不交换数据的前提下找到共有的数据样本，将样本与特征进行对齐。以常用的加密算法RSA为例，各数据源参与方对各自拥有的样本ID进行哈希处理，通过RSA加密算法交换样本的哈希值，确定样本进行特征对齐。

步骤2：分析和提取多方数据源关于贷款风险评估相关的特征，建立贷款用户风险画像并构建贷款风险评估体系；

多源数据特征的构建，在采集的多源数据中构建相应的特征，例如性别、职业可以直接构成特征，也可以对数据进行分箱操作得到特征，例如将年龄划分为“25岁以下”、“25岁至35岁”、“35岁至45岁”和“45岁以上”，同时可以将特征之间进行交叉组合，得到组合的特征，例如原始特征为“年龄”和“收入”，可以通过特征交叉组合得到新的特征，例如“25岁以下，收入3000以下”、“25岁以下，收入3000至5000”、“25岁至30岁，收入5000至10000”等组合特征。通过将构建好的特征转换为向量，为特征输入模型做准备。

同时通过使用用户画像的方法构建特征，以构建用户的消费画像为例，根据用户的历史消费信息从四个维度来构建用户的消费画像特征分别是消费水平、消费活跃度、消费稳定性和潜在问题用户。消费水平维度中主要考虑的是用户在消费平台上消费金额的高低；消费活跃度反映的是用户在消费平台上的消费频次，通过分析用户的消费频次和经济水平和贷款风险的关系；消费稳定性反映的用户消费的金额稳定性，用户持续购买金额高的物品，或者持续购买的是金额低的物品对于经济水平的反映是不同的；潜在问题用户是分析用户是否存在潜在的风险，如果一个用户经常在购物时使用分期付款，或者用户经常取消订单，经常退货，那么该用户的风险可能会相对高。通过使用K-means聚类方法，通过特征将用户进行分群，进一步对用户进行细分，使用户画像对于用户的描述更加丰满。

步骤3：构建基于Lightgbm的联邦学习模型，即Lightgbm树模型，使用Lightgbm树模型对多方数据源进行联合训练，同时通过加密与中心服务器交换参数，更新训练过程。

在金融贷款应用场景下，用户的数据被分散在不同的数据源中，利用联邦学习在保护用户数据和隐私前提下，对多源的数据进行联合训练构建树模型。以两个数据源参与方为例(不限制数据源参与方数量)贷款平台和消费平台，贷款平台即为第一数据源参与方，拥有着标签信息。两个数据源参与方在其本地进行局部树模型的构建，在每个训练过程中将每次局部最优的分割节点的信息通过加密发送至中心服务器。

在构建局部树过程中，对数据源参与方的特征进行分桶，在使用Lightgbm时，会定义分桶的数量max_桶和min_桶，max_桶预示值为250，假设数据源参与方有1000个样本，假设min_桶＝3，此时会用1000/3＝333.3，然后对比使用max_桶的数值带来，然后计算出其平均值mean_桶_size的常数，对特征进行排序后，按照由大到小的顺序进行分桶，划分分割点。

对数据源参与方的数据进行分桶后，构建其梯度直方图，先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图，并根据特征所在的桶对其进行梯度累加和个数统计，在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。然后根据直方图的离散值，遍历寻找最优的分割点。

同时Lightgbm采用单边梯度抽样算法，其根据数据源参与方的数据样本权重信息对样本进行抽样，减少了梯度小的样本，只保留了梯度较大的数据，在计算分割节点增益时，引入一个常数来消除对于减少数据样本带来的影响。将要进行分裂的特征的所有取值按照绝对值大小降序排序，选取绝对值最大的a％个数据。然后在剩下的较小梯度数据中随机选择b％个数据。接着将这b％个数据乘以一个常数

最后使用这(a+b)％个样本数据来计算信息增益。

通过使用加密算法将构建的各个数据源参与方构建的局部树的最优分割节点发送至中心服务器，中心服务器通过对比选择出增益最大的得出全局最优的分割节点，然后进行下次节点的分裂，重复进行此步骤，直至最后的叶子节点，至此得到基于多源数据训练的Lightgbm联合树模型。

步骤4：综合多方数据源的训练结果构建的Lightgbm树模型，预测用户的违约情况作为用户贷款风险的判别结果。

对于新预测的数据样本从根节点开始遍历构建的整棵树模型，递归查找路径，判断是通过节点的左子树还是右子树，最后得到最后模型给出的预测值，将这个预测值做为最后用户的贷款风险结果，高风险或者低风险用户，本专利将贷款风险评估任务作为一个二分类任务。

示例性的，中心服务器在得到各个数据源参与方发送来的中间结果后，同时训练得到各个数据源参与方的权重，综合这些对用户的违约概率进行预测输出，在本发明中，将贷款风险评估作为一个二分类任务。

实施例1

本发明实施例提供一种存储装置，其中存储有多条程序，程序适用于由处理器加载并实现上述的一种基于多源数据联邦学习的贷款风险评估方法。

实施例2

本发明实施例提供一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种基于多源数据联邦学习的贷款风险评估方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多源数据联邦学习的贷款风险评估方法，其特征在于，该方法包括以下步骤：

S3：构建基于Lightgbm的联邦学习模型，即Lightgbm树模型，使用Lightgbm树模型对多方数据源进行联合训练，同时与中心服务器交换参数，更新训练过程；具体包括以下步骤：

S33：各方数据源通过同态加密算法进行加密，对中心服务器发送的加密参数进行使用私钥进行解密，然后使用Lightgbm树模型对多方数据源的特征数据与携带标签信息的数据源进行联邦训练；具体包括：各方数据源使用其本地的样本数据联合构建Lightgbm树模型，并在各训练阶段将参数进行同态加密后传递至中心服务器；

其中，G和H分别表示将Lightgbm梯度展开后的一阶导值和二阶导值，L表示分裂后的左节点，R表示分裂后的右节点，λ和γ为训练过程中的超参数；

然后，各方数据源通过建立梯度直方图的方式寻找最优分割节点；寻找最优分割节点过程，直到构建得到最后的叶子节点，停止训练得到多个数据参与方联合训练的Lightgbm树模型；

完整的树模型由全部的数据源的树的并集构成，即T_i∈T，i＝1,2,3…，T_i表示第i个数据源的局部树模型；

2.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，步骤S1中，所述的多方数据源包括：银行数据源、消费平台数据源、公积金管理中心数据源、房管局房产交易中心数据源、移动运营商数据源和贷款平台数据源。

3.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，步骤S1中，对数据进行预处理，包括：统计数据项缺失值比例，对缺失值进行填补，数据类型转换并使用RobustScaler进行归一化处理。

4.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，步骤S1中，所述数据样本加密对齐，包括：不同数据源在不交换数据的情况下进行样本对齐，参与训练的数据源在不交换数据的前提下找到共同的样本，将样本与特征对齐。

5.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，步骤S2中，建立贷款用户风险画像并构建贷款风险评估体系，具体包括：针对多源数据构建用户贷款风险评估的特征；各方数据源针对其本地的数据分别提取相关风险特征，并分别建立贷款用户风险画像；

使用K-means方法对特征进行聚类，通过聚类后产生的用户分群，再结合之前的特征构建用户风险画像同时建立贷款风险评估的准则，构建出贷款风险评估体系。

6.根据权利要求5所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，所述的K-means方法，具体包括：通过选择K个点作为初始聚类中心，将每个对象分配到最近的中心形成K个簇，并重新计算每个簇的中心，重复以上的步骤，直到K-means的目标函数达到最优或者到达设置的迭代次数；

K-means的目标函数为：

7.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，建立直方图的具体步骤为：

(2)计算每个桶中的样本梯度之和并对桶中的样本进行计数；

8.根据权利要求1所述的基于多源数据联邦学习的贷款风险评估方法，其特征在于，步骤S4中，预测时对构建的Lightgbm树模型进行一轮集体通信，每个预测样本从各自树的根节点开始预测，通过检查分枝阈值确定进入其左子树或者右子树，递归的执行树节点的路径，直到落入树模型的叶子节点；最后根据构建的Lightgbm树模型预测输出贷款用户的风险概率值。