CN110930038A

CN110930038A - 一种贷款需求识别方法、装置、终端及存储介质

Info

Publication number: CN110930038A
Application number: CN201911189437.3A
Authority: CN
Inventors: 邓杨; 高宏华; 贾晓惠; 陈立捷; 王超林; 陈瑜; 王五玲; 曾楠; 魏翩翩
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-03-27

Abstract

本发明实施例公开了一种贷款需求识别方法、装置、设备及存储介质。该方法包括：获取待识别信息，其中，待识别信息包括待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息；将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，其中，贷款需求识别模型包括目标极端梯度提升模型。本发明实施例的技术方案，充分考虑了公私联动问题，从企业层面和个人层面共同选取待识别信息，在将它们输入至已训练完成的极端梯度提升模型后，可以得到准确度较高的企业贷款需求识别结果。

Description

一种贷款需求识别方法、装置、终端及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种贷款需求识别方法、装置、终端及存储介质。

背景技术

大力发展普惠金融是当前金融服务实体经济的根本举措，如商业银行在为小微企业提供贷款服务时，也可为自身带来经济效益，实现双赢局面。然而，小微企业数量众多且发展良莠不齐，如何准确判断小微企业的真实情况以最大程度上满足它的贷款需求，已然成为一个关键问题。

现有技术中，Logistic回归、决策树、支持向量机等分类算法已在金融领域受到广泛应用，如违约风险预测、信用等级评价、客户流失、金融产品购买等等。但是，这些常见分类算法在预测企业贷款需求方面的相关应用较少，而且，它们自身特性也难以在贷款需求识别方面有所应用，如Logistic回归模型难以处理非线性问题，决策树模型需要先进行大量的预处理，支持向量机因涉及以样本量为阶数的矩阵计算而难以适应大数据量的处理。

发明内容

本发明实施例提供了一种贷款需求识别方法、装置、终端及存储介质，以实现企业贷款需求的精准识别的效果。

第一方面，本发明实施例提供了一种贷款需求识别方法，可以包括：

获取待识别信息，其中，待识别信息包括待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息；

将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，其中，贷款需求识别模型包括目标极端梯度提升模型。

可选的，在此基础上，还可以包括：

获取样本信息和样本信息对应的贷款结果，其中，样本信息包括样本企业的样本企业信息和样本企业中样本人员的样本人员信息；

将样本信息和贷款结果作为一组训练样本，基于多个训练样本对原始极端梯度提升模型进行训练，得到贷款需求识别模型。

可选的，基于多个训练样本对原始极端梯度提升模型进行训练，得到贷款需求识别模型，可以包括：

多个训练样本包括训练集和测试集，基于训练集对原始极端梯度提升模型进行训练，得到贷款需求识别模型；

基于测试集对贷款需求识别模型进行测试，并根据测试结果得到贷款需求识别模型的识别精度。

可选的，上述贷款需求识别方法，还可以包括：

训练集中的样本信息包括多个子样本信息，若识别精度未满足预设精度条件，则根据贷款需求识别模型的输出结果分别计算出每个子样本信息对贷款需求识别模型的贡献程度；

根据贡献程度对多个子样本信息进行筛选，在根据筛选结果更新训练集后，基于训练集对原始极端梯度提升模型重新进行训练，并根据训练结果更新贷款需求识别模型。

可选的，根据测试结果得到贷款需求识别模型的识别精度，可以包括：

测试结果包括贷款概率，根据贷款概率和预设分割线得到贷款需求识别模型的识别精度；

若识别精度未满足预设精度条件，对预设分割线进行调整。

可选的，在将样本信息和贷款结果作为一组训练样本之后，还可以包括：

针对已获取的多个训练样本，根据多个训练样本中正训练样本的数量和预设正负比例，对多个训练样本中的负训练样本进行抽样处理，并根据抽样结果更新多个训练样本。

可选的，在获取待识别信息之后，还可以包括：

若待识别信息是有序的分类型变量，对待识别信息进行顺序编码；

否则，对待识别信息进行独热编码。

第二方面，本发明实施例还提供了一种贷款需求识别装置，可以包括：

获取模块，用于获取待识别信息，其中，待识别信息包括待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息；

识别模块，用于将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，其中，贷款需求识别模型包括目标极端梯度提升模型。

第三方面，本发明实施例还提供了一种设备，该设备可以包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例所提供的贷款需求识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明任意实施例所提供的贷款需求识别方法。

本发明实施例的技术方案，通过获取待识别信息，这待识别信息是影响企业是否存在贷款需求的重要信息，且是从企业层面和个人层面共同选取的信息，公私联动问题的充分考虑使得贷款需求的识别结果更具有科学性；将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，极端梯度提升模型因具有可解决非线性问题、计算速度快、有效防止过拟合、处理各种不规则数据且不需要对特征进行标准化处理，能够实现特征自动化选择和自动获取特征的重要性，具有精确度高、运行速度快、泛化能力强的优点，在与企业贷款需求识别相结合时，可以得到较好的贷款需求识别结果。上述技术方案，充分考虑了公私联动问题，从企业层面和个人层面共同选取待识别信息，在将它们输入至已训练完成的极端梯度提升模型后，可以得到准确度较高的企业贷款需求识别结果。

附图说明

图1是本发明实施例一中的一种贷款需求识别方法的流程图；

图2是本发明实施例二中的一种贷款需求识别方法的流程图；

图3是本发明实施例二中的一种贷款需求识别方法中的优选实施例图；

图4是本发明实施例三中的一种贷款需求识别装置的结构框图；

图5是本发明实施例四中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在介绍本发明实施例之前，先对本发明实施例的应用场景进行示例性说明：大力发展普惠金融是当前金融服务实体经济的根本举措，针对各大企业尤其是小微企业提出有效的普惠金融政策是商业银行当前亟待解决的问题。以小微企业为例，其自我积累能力不足、抗风险能力低下、实现外部融资困难、自身的信贷需求无法得到有效满足等问题常常会使其经营陷入困境，无法维持企业的正常运转。为了改善小微企业的经营环境，政府提出了一系列优惠政策，并号召各金融机构为小微企业提供优质的金融服务和创新产品，进一步加强银企互动交流，切实推进金融供给侧结构性改革，持续增强小微企业金融服务“获得感”，为我国经济的高质量发展做出更大的贡献。为响应国家政策的号召，银行业陆续启动普惠金融战略。依托互联网大数据时代背景，利用计算机数据挖掘技术，主动探索金融科技的产品创新、服务模式创新，着力推进线上、线下业务同步发展，积极推广和应用普惠金融体系产品。

商业银行在为小微企业提供优质的金融服务的同时，也为自身带来经济效益，实现双赢的局面。然而，小微企业数量众多，发展良莠不齐，所处的生命周期不同，对于所需的金融服务也会有所不同，其中最重要的金融服务就是对于贷款的需求。那么，对于银行来说，实现对小微企业真实情况的准确判断，最大程度上满足它的贷款需求，帮助企业实现有效的外部融资，至关重要。

从目前发展来看，基于大数据驱动的机器学习中各种分类算法被许多金融机构广泛地应用于客户识别中，帮助挖掘潜在客群进行精准营销，大大提高了营销工作的效率。分类算法的原理是基于现有客户的各项特征数据的特点，构造一个将客户划分为潜在客户与非潜在客户两类群体的分类器，该分类器可以将未知类别的客户映射到两类群体中的一类，用于预测未知类别的客户是否是我们所要寻找的潜在客户。

示例性的，在现有技术中，利用数据挖掘中决策树分类预测模型，探究影响客户选择寿险产品的因素；以银行数据库中客户理财产品的历史交易数据为样本，对影响客户持续购买银行理财产品的人口特征和经济金融特征因素进行实证分析；为明确中高端客户的需求及购买行为，利用某国有银行高端客户数据库建立Logistic模型，预测客户购买某类金融产品的概率；将支持向量机应用于保险公司的客户识别中，分析客户的购买行为，为保险公司进行产品营销提供参考。但是，上述技术手段存在如下缺陷：

从研究领域上来看，目前数据挖掘技术和机器学习算法主要应用于金融领域的违约风险预测、信用等级评价、客户流失、金融产品购买等场景中，然而，在预测客户贷款需求方面的相关应用较少，且技术手段还不是很成熟。从研究方法上来看，Logistic回归、决策树、支持向量机等分类算法已受到广泛地应用，这些方法虽然便于操作，但是都具有一定的局限性：

1)Logistic回归模型对自变量的异常值、多重共线性较为敏感，异常值和多重共线性会给模型结果带来很大干扰，可能导致自变量的回归符号被扭转，不符合预期结果。其次，Logistic回归模型的决策面是线性，所以它无法解决非线性问题，而在客户识别问题中线性要求往往是难以满足的。2)决策树模型对数据质量具有较高的要求，对于连续性字段或是有时间顺序的数据，需要先进行大量的预处理工作。此外，决策树的预测结果具有高方差和不稳定性，容易发生过拟合。3)支持向量机的求解过程中涉及以样本量为阶数的矩阵计算，由于在客户识别问题中客户数的量级非常大，该矩阵的存储和计算将耗费大量的机器内存和运算时间，难以实施。

为解决上述问题，发明人对比分析各种分类算法的适用场景，将其与企业贷款需求识别的应用场景相结合，由此得出了下述各实施例所述的基于极端梯度提升模型(eXtreme Gradient Boosting，XGBoost)识别企业贷款需求的方法。其中，XGBoost模型可以解决非线性问题、计算速度快、有效防止过拟合、处理各种不规则数据且不需要对特征进行标准化处理，能够实现特征自动化选择和自动获取特征的重要性，具有精确度高、运行速度快、泛化能力强的优点，非常适用于企业贷款需求识别的应用场景，由此得到较好的贷款需求识别结果。

实施例一

图1是本发明实施例一中提供的一种贷款需求识别方法的流程图。本实施例可适用于识别企业是否存在贷款需求的情况，尤其适用于识别小微企业对快贷产品是否存在需求的情况。该方法可以由本发明实施例提供的贷款需求识别装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在设备上。参见图1，本发明实施例的方法具体包括如下步骤：

S110、获取待识别信息，其中，待识别信息包括待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息。

其中，待识别企业是否存在贷款需求，这与待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息存在关联性，企业信息和人员信息的公私联动的参考因素，有助于提高贷款需求识别的准确度。

待识别信息的具体选择与待识别企业的企业类型和贷款产品的产品类型有关，比如，针对待识别企业的预设企业信息，其可以是基本信息如企业注册资本、成立时长、企业规模、企业所属行业门类等等，可以是金融特征信息如信贷余额、存款余额、资产管理规模(Asset Under Management，AUM)等等，也可以是产品持有信息如投资理财产品余额、信用卡产品使用个数、证券保证金产品使用个数、商户收单产品使用个数等等。针对待识别企业中预设人员的预设人员信息，若待识别企业是小微企业，由于小微企业的主要支撑是实控人的经济状况，则预设人员信息可以是实控人信息如月日均AUM、总负债、总资产、个体贷款客户标志、个人客户等级等等；若待识别企业是大型企业，则预设人员信息可以是法定代表人、重要股东、高管等人员的经济状况。

在实际应用中，可以对各个待识别信息进行简单的描述统计，根据待识别信息的实际意义分析哪些待识别信息的取值是不合理的，该不合理数据可能是在数据输入、测量、处理过程中产生的误差数据，可将其归为异常值并执行删除处理，由此完成数据清洗。而且，若存在已清洗的或是本身缺失的待识别信息，可以根据该待识别信息的现实意义，采用均值、零值或众数进行填补。

在此基础上，可选的，若待识别信息是有序的分类型变量，可以对其进行顺序编码得到字符型数据，进一步，还可以将字符型数据转化为数值型数据，等级越高则分值越高。示例性的，待识别信息包括个人客户等级，如钻石级客户是4分、白金级客户是3分、金级客户是2分、普通级客户是1分。

相应的，若待识别信息是无序的分类型变量，由于它的取值大小不具有实际意义，只是代表类别的不同，因此在对它进行顺序编码后还需要进行独热编码(One-HotEncoding)，如预设人员的性别可以编码为男00和女01，因为性别本身没有优劣等级。

S120、将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，其中，贷款需求识别模型包括目标极端梯度提升模型。

其中，正如上文所述，经各种对比分析得出XGBoost模型在贷款需求识别方面具有较好的识别准确度，因此，可以将已获取的待识别信息输入至已训练完成的贷款需求识别模型中，该贷款需求识别模型包括目标极端梯度提升模型，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求。需要说明的是，贷款需求识别模型的输出结果可以通过多种形式呈现，比如，其可以为“是/否”，也可以为贷款需求概率值，在此未做具体限定。

实施例二

图2是本发明实施例二中提供的一种贷款需求识别方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，上述贷款需求识别方法，还可以包括：获取样本信息和样本信息对应的贷款结果，其中，样本信息包括样本企业的样本企业信息和样本企业中样本人员的样本人员信息；将样本信息和贷款结果作为一组训练样本，基于多个训练样本对原始极端梯度提升模型进行训练，得到贷款需求识别模型。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例的方法具体可以包括如下步骤：

S210、获取样本信息和样本信息对应的贷款结果，其中，样本信息包括样本企业的样本企业信息和样本企业中样本人员的样本人员信息。

其中，获取样本信息，该样本信息可以包括样本企业的样本企业信息和样本企业中样本人员的样本人员信息。而且，每个样本信息均对应有一个贷款结果，该贷款结果是样本企业是否存在贷款需求的结果，示例性的，贷款结果可以通过“1”和“0”表示，比如，以小微快贷产品为例，将观察期内购买过小微快贷产品的小微企业划分为正训练样本，取值为“1”；从未曾购买过小微快贷产品的小微企业中选取在营且非黑名单的小微企业，划分为负训练样本，取值为“0”。当然，贷款结果还可通过其它形式表现，在此未做具体限定。

S220、将样本信息和贷款结果作为一组训练样本，基于多个训练样本对原始极端梯度提升模型进行训练，得到贷款需求识别模型。

其中，若样本信息和贷款结果构成的训练样本通过数据集

表示，则

其中，n是训练样本的总数量，x_i为第i个样本企业的m维特征向量(即样本信息是由m维特征向量构成，每个样本企业信息或是样本人员信息都可以认为是一个一维特征向量)；y_i为第i个样本企业的目标变量(即贷款结果)，取值为1表示该样本企业在预设时间段内存在贷款行为，取值为0表示该样本企业在预设时间段内未存在贷款行为。

原始极端梯度提升模型是一种基于分类与回归树(Classification AndRegression Tree，CART)的集成学习算法，CART树是仿树结构来进行决策的，树中分为内部节点和叶节点，内部节点表示一个特征向量，叶节点表示最后输出的贷款结果即目标变量y_i的取值。

从学习第一棵CART树开始，在第一棵树预测结果的基础上，对预测误差进行学习，构建第二棵CART树，依次递归，直到再添加一颗新的CART树后无法再对预测效果进行显著提升，则学习停止，综合这些CART树的预测结果得到目标变量的预测值。由于在每轮的学习中都要不断地进行优化，因此在每轮学习中，寻找能够最小化目标函数的CART树，添加到XGBoost模型中。目标函数由损失函数和惩罚函数两部分构成，损失函数衡量XGBoost模型的预测结果与真实值的差异，惩罚函数约束树XGBoost模型的复杂程度。

通常来说，历遍所有的CART树来计算、比较它们对XGBoost模型效果的提升是不可能的。因此，可以考虑从零开始生成树，不断地添加新的分支，在每一个节点上遍历每一个特征向量的所有取值，计算每一个划分点划分后为XGBoost模型效果带来的增益，选择产生增益最大的特征向量和划分点进行划分。如果遍历所有的特征取值都无法为XGBoost模型效果带来增益，则不再进行划分，成为最终的叶子节点。如果进行划分，对划分出来的两个节点，递归地调用这个切分过程，最终能够获得一个相对较好的树结构。

需要说明的是，XGBoost模型参数的初始值可以是0，也可以是预先设置的数值。示例性的，最大树深度的初始值可预先设置为3、6、9，最大叶节点数的初始值可预先设置为10、50、100、200，学习率的初始值可预先设置[0.0001-0.3]且间隔为0.01；通过网格搜索法循环遍历所有可能的参数取值组合，采用十折交叉验证，选取出分类预测效果最好的参数作为模型的最终参数。

在此基础上，可选的，针对已获取的多个训练样本，根据多个训练样本中正训练样本的数量和预设正负比例，对多个训练样本中的负训练样本进行抽样处理，并根据抽样结果更新多个训练样本。这样设置的原因在于，通常情况下，购买过贷款产品的样本企业的数量要远小于未购买过贷款产品的样本企业的数量，也就是说，正训练样本的数量远小于负训练样本的数量，这属于不平衡数据，有可能对预测结果产生误差，因此，需要对负训练样本进行抽样处理。示例性的，在观察期内购买过小微快贷产品的小微企业的数量远小于未曾购买过小微快贷产品的小微企业的数量，可以从未曾购买过小微快贷产品的小微企业中按1：1或者1:5的比例随机抽取样本，以使正负样本比例保持在合理范围内。

S230、获取待识别信息，其中，待识别信息包括待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息。

S240、将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，其中，贷款需求识别模型包括目标极端梯度提升模型。

本发明实施例的技术方案，通过获取样本信息和样本信息对应的贷款结果，将样本信息和贷款结果作为一组训练样本，由于训练样本是充分考虑公私联动的样本，在基于多个训练样本对原始极端梯度提升模型进行训练后，可以得到贷款需求识别结果较为精准的贷款需求识别模型。

一种可选的技术方案，基于多个训练样本对原始极端梯度提升模型进行训练，得到贷款需求识别模型，可以包括：多个训练样本包括训练集和测试集，基于训练集对原始极端梯度提升模型进行训练，得到贷款需求识别模型；基于测试集对贷款需求识别模型进行测试，并根据测试结果得到贷款需求识别模型的识别精度。也就是说，通过训练集得到贷款需求识别模型，并基于测试集测试已得到的贷款需求识别模型的识别结果是否精准。示例性的，将训练样本按照80％的比例划分出训练集，或是说，将正训练样本和负训练样本均按照80％的比例划分出训练集用于构建贷款需求识别模型，其余20％的训练样本划分为测试集用于检验已构建的贷款需求识别模型的预测效果。

需要说明的是，基于测试集对贷款需求识别模型进行测试，并根据测试结果得到贷款需求识别模型的识别精度的方式有多种，示例性的：根据模型预测结果将预测值与真实值进行比较，计算模型的混淆矩阵：

	预测值为0	预测值为1
			真实值为0	TN	FP
真实值为1	FN	TP

根据混淆矩阵计算各个评价指标，从而检验预测结果的好坏：

在此基础上，可以绘制受试者工作特征曲线(receiver operatingcharacteristic curve，ROC曲线)，ROC曲线用于说明正确识别贷款需求的比率与分类错误的比率之间的关系，AUC(Area Under roc Curve)值为ROC曲线下方的面积,AUC值越大，说明预测效果越好。

可选的，根据测试结果得到贷款需求识别模型的识别精度，包括：测试结果包括贷款概率，根据贷款概率和预设分割线得到贷款需求识别模型的识别精度；若识别精度未满足预设精度条件，对预设分割线进行调整。

其中，预设分割线可以是一个预先设置的概率值，当测试结果是贷款概率，或是说，已构建的贷款需求识别模型的输出结果是贷款概率时，根据贷款概率和预设分割线的大小关系可以确定样本企业是否存在贷款需求。比如，若预设分割线是20％，则当贷款概率小于等于20％时认为样本企业未存在贷款需求，否则，认为样本企业存在贷款需求。也就是说，在测试集中，根据贷款概率和预设分割线可以得到每个样本信息的识别结果，通过判断识别结果与对应的贷款结果是否一致，得到贷款需求识别模型的识别精度。

在此基础上，若识别精度未满足预设精度条件，比如，在识别精度较低的情况下，可以通过调整模型参数来提高识别精度。示例性的，可以对预设分割线进行调整，这是因为，预设分割线的调整意味着测试集中有些样本企业的贷款需求的识别结果将发生变化，进一步，贷款需求识别模型的识别精度就有可能发生变化。比如，若经调整确定预设分割线为50％时，贷款需求识别模型的识别精度更高，则可以将预设分割线由初始值20％调整至50％。

可选的，实际上，训练集中的样本信息包括多个子样本信息，若识别精度未满足预设精度条件，则根据贷款需求识别模型的输出结果分别计算出每个子样本信息对贷款需求识别模型的贡献程度；根据贡献程度对多个子样本信息进行筛选，在根据筛选结果更新训练集后，基于训练集对原始极端梯度提升模型重新进行训练，并根据训练结果更新贷款需求识别模型。

其中，各个特征向量在单棵CART树内部节点划分之后为模型效果产生的增益可以作为各个特征向量对这棵CART树的贡献程度，那么，综合各个特征向量在全部的CART树中的贡献程度，可以计算出各特征向量的重要性得分。进一步，根据各特征向量的重要性得分，将各特征向量进行排序，得出对样本企业购买贷款产品影响较大的特征向量以及其影响程度。

换言之，特征向量即为子样本信息，根据贷款需求识别模型的输出结果可以分别计算出每个子样本信息对贷款需求识别模型的贡献程度。在此基础上，若识别精度未满足预设精度条件，可以根据贡献程度对多个子样本信息进行筛选，从多个子样本信息中筛选出贡献度较大的一个或多个子样本信息，并基于已筛选的子样本信息更新样本信息，保留样本信息中对模型贡献程度较大的至少一个子样本信息。进而，基于已更新的训练集对原始极端梯度提升模型重新进行训练，由此得到识别精度更高的贷款需求识别模型。示例性的，先用100个特征向量(即子样本信息)对原始极端梯度提升模型进行训练，根据训练结果从100个特征向量中筛选出30个贡献程度较高的特征向量，并基于这30个特征向量对原始极端梯度提升模型重新进行训练，由此得到识别准确率更高的客户需求识别模型。

为了更好地理解上述步骤的具体实现过程，下面结合具体示例“基于XGBoost算法构建小微快贷产品的客户需求识别模型”，对本实施例的贷款需求识别方法进行示例性的说明。示例性的，如图3所示，构建客户特征矩阵(即样本信息)与目标变量(即贷款结果)，将客户特征矩阵和目标变量作为数据集；对数据集进行数据清洗，剔除异常数值；对不均衡数据集进行欠抽样处理，得到均衡的数据集；将均衡的数据集划分为训练集和测试集，基于训练集对各个分类树(即CART树)进行训练，得到XGBoost模型组合分类树(即客户需求识别模型)；根据客户需求识别模型输出的预测结果和真实值间的对比，对模型优良进行评估，在此基础上，还可以反复调整模型参数。

通过已训练完成的客户需求识别模型，可以挖掘小微快贷产品的潜在客户，从而精准定位小微快贷产品的营销对象。这种基于大数据驱动的小微企业客户产品需求预测致力于优化金融产品营销方案，旨在实现精准识别定位潜在的小微企业客户群以及对该群体的贷款需求做出有效的预测，从而提高客户需求与产品服务的匹配程度。本发明实施例结合行内外的海量数据、运用数据挖掘技术，构建小微企业客户小微快贷产品需求的分类预测模型，实现“精准定位，供需匹配，互利共赢”的发展思路，同时更好地解决客户的融资需求。

实施例三

图4为本发明实施例三提供的贷款需求识别装置的结构框图，该装置用于执行上述任意实施例所提供的贷款需求识别方法。该装置与上述各实施例的贷款需求识别方法属于同一个发明构思，在贷款需求识别装置的实施例中未详尽描述的细节内容，可以参考上述贷款需求识别方法的实施例。参见图4，该装置具体可包括：获取模块310和识别模块320。

其中，获取模块310，用于获取待识别信息，其中，待识别信息包括待识别企业的预设企业信息和待识别企业中预设人员的预设人员信息；

识别模块320，用于将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，其中，贷款需求识别模型包括目标极端梯度提升模型。

可选的，在此基础上，还可以包括：

样本模块，用于获取样本信息和样本信息对应的贷款结果，其中，样本信息包括样本企业的样本企业信息和样本企业中样本人员的样本人员信息；

训练模块，用于将样本信息和贷款结果作为一组训练样本，基于多个训练样本对原始极端梯度提升模型进行训练，得到贷款需求识别模型。

可选的，训练模块，可以包括：

训练单元，用于多个训练样本包括训练集和测试集，基于训练集对原始极端梯度提升模型进行训练，得到贷款需求识别模型；

测试单元，用于基于测试集对贷款需求识别模型进行测试，并根据测试结果得到贷款需求识别模型的识别精度。

可选的，在上述装置的基础上，该装置还可包括：

计算模块，用于训练集中的样本信息包括多个子样本信息，若识别精度未满足预设精度条件，则根据贷款需求识别模型的输出结果分别计算出每个子样本信息对贷款需求识别模型的贡献程度；

更新模块，用于根据贡献程度对多个子样本信息进行筛选，在根据筛选结果更新训练集后，基于训练集对原始极端梯度提升模型重新进行训练，并根据训练结果更新贷款需求识别模型。

可选的，测试单元，具体可以用于：

若识别精度未满足预设精度条件，对预设分割线进行调整。

可选的，在上述装置的基础上，该装置还可包括：

抽样模块，用于针对已获取的多个训练样本，根据多个训练样本中正训练样本的数量和预设正负比例，对多个训练样本中的负训练样本进行抽样处理，并根据抽样结果更新多个训练样本。

可选的，在上述装置的基础上，该装置还可包括：

编码模块，用于若待识别信息是有序的分类型变量，对待识别信息进行顺序编码，否则，对待识别信息进行独热编码。

本发明实施例三提供的贷款需求识别装置，通过获取模块获取待识别信息，这待识别信息是影响企业是否存在贷款需求的重要信息，且是从企业层面和个人层面共同选取的信息，公私联动问题的充分考虑使得贷款需求的识别结果更具有科学性；识别模块将待识别信息输入至已训练完成的贷款需求识别模型中，根据贷款需求识别模型的输出结果识别出待识别企业的贷款需求，极端梯度提升模型因具有可解决非线性问题、计算速度快、有效防止过拟合、处理各种不规则数据且不需要对特征进行标准化处理，能够实现特征自动化选择和自动获取特征的重要性，具有精确度高、运行速度快、泛化能力强的优点，在与企业贷款需求识别相结合时，可以得到较好的贷款需求识别结果。上述装置，充分考虑了公私联动问题，从企业层面和个人层面共同选取待识别信息，在将它们输入至已训练完成的极端梯度提升模型后，可以得到准确度较高的企业贷款需求识别结果。

本发明实施例所提供的贷款需求识别装置可执行本发明任意实施例所提供的贷款需求识别方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述贷款需求识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例四

图5为本发明实施例四提供的一种设备的结构示意图，如图5所示，该设备包括存储器410、处理器420、输入装置430和输出装置440。设备中的处理器420的数量可以是一个或多个，图5中以一个处理器420为例；设备中的存储器410、处理器420、输入装置430和输出装置440可以通过总线或其它方式连接，图5中以通过总线450连接为例。

存储器410作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的贷款需求识别方法对应的程序指令/模块(例如，贷款需求识别装置中的获取模块310和识别模块320)。处理器420通过运行存储在存储器410中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的贷款需求识别方法。

存储器410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种贷款需求识别方法，包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的贷款需求识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。依据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种贷款需求识别方法，其特征在于，包括：

获取待识别信息，其中，所述待识别信息包括待识别企业的预设企业信息和所述待识别企业中预设人员的预设人员信息；

将所述待识别信息输入至已训练完成的贷款需求识别模型中，根据所述贷款需求识别模型的输出结果识别出所述待识别企业的贷款需求，其中，所述贷款需求识别模型包括目标极端梯度提升模型。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取样本信息和所述样本信息对应的贷款结果，其中，所述样本信息包括样本企业的样本企业信息和所述样本企业中样本人员的样本人员信息；

将所述样本信息和所述贷款结果作为一组训练样本，基于多个训练样本对原始极端梯度提升模型进行训练，得到所述贷款需求识别模型。

3.根据权利要求2所述的方法，其特征在于，所述基于多个训练样本对原始极端梯度提升模型进行训练，得到所述贷款需求识别模型，包括：

多个训练样本包括训练集和测试集，基于所述训练集对原始极端梯度提升模型进行训练，得到所述贷款需求识别模型；

基于所述测试集对所述贷款需求识别模型进行测试，并根据测试结果得到所述贷款需求识别模型的识别精度。

4.根据权利要求3所述的方法，其特征在于，还包括：

所述训练集中的样本信息包括多个子样本信息，若所述识别精度未满足预设精度条件，则根据所述贷款需求识别模型的输出结果分别计算出每个所述子样本信息对所述贷款需求识别模型的贡献程度；

根据所述贡献程度对所述多个子样本信息进行筛选，在根据筛选结果更新所述训练集后，基于所述训练集对原始极端梯度提升模型重新进行训练，并根据训练结果更新所述贷款需求识别模型。

5.根据权利要求3所述的方法，其特征在于，所述根据测试结果得到所述贷款需求识别模型的识别精度，包括：

测试结果包括贷款概率，根据所述贷款概率和预设分割线得到所述贷款需求识别模型的识别精度；

若所述识别精度未满足预设精度条件，对所述预设分割线进行调整。

6.根据权利要求2所述的方法，其特征在于，在所述将所述样本信息和所述贷款结果作为一组训练样本之后，还包括：

针对已获取的多个训练样本，根据所述多个训练样本中正训练样本的数量和预设正负比例，对所述多个训练样本中的负训练样本进行抽样处理，并根据抽样结果更新所述多个训练样本。

7.根据权利要求1所述的方法，其特征在于，在所述获取待识别信息之后，还包括：若所述待识别信息是有序的分类型变量，对所述待识别信息进行顺序编码；否则，对所述待识别信息进行独热编码。

8.一种贷款需求识别装置，其特征在于，包括：

获取模块，用于获取待识别信息，其中，所述待识别信息包括待识别企业的预设企业信息和所述待识别企业中预设人员的预设人员信息；

识别模块，用于将所述待识别信息输入至已训练完成的贷款需求识别模型中，根据所述贷款需求识别模型的输出结果识别出所述待识别企业的贷款需求，其中，所述贷款需求识别模型包括目标极端梯度提升模型。

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的贷款需求识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的贷款需求识别方法。