CN106548210B

CN106548210B - 基于机器学习模型训练的信贷用户分类方法及装置

Info

Publication number: CN106548210B
Application number: CN201610979377.5A
Authority: CN
Inventors: 赵伟; 冯亚兵; 廖宇; 赖俊斌; 柴海霞; 潘宣良; 刘黎春
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2021-02-05
Anticipated expiration: 2036-10-31
Also published as: CN106548210A; US20230031156A1; US20190318202A1; WO2018077285A1; US11861478B2; US11531841B2

Abstract

本发明公开了一种机器学习模型训练方法及装置；方法包括：基于训练集中各样本初始化的第一权重和第二权重、并基于各样本的特征为粒度对机器学习模型进行训练；基于训练集中各样本的预测损失，确定相应目标变量被预测错误的第一样本集合，以及相应目标变量被预测正确的第二样本集合；基于第一样本集合中各样本的预测损失、以及相应的第一权重确定第一样本集合的整体预测损失；基于第一样本集合的整体预测损失提升第一样本集中各样本的第一权重和第二权重；将训练集中各样本更新后的第二权重、以及各样本的特征和目标变量输入机器学习模型，以各样本的特征为粒度对机器学习模型进行训练。实施本发明，能够提升机器学习模型的预测精度和训练效率。

Description

基于机器学习模型训练的信贷用户分类方法及装置

技术领域

本发明涉及计算机领域的机器学习技术，尤其涉及一种基于机器学习模型训练的信贷用户分类方法及装置。

背景技术

机器学习（ML，Machine Learning）是一门多领域交叉技术，在实际工业领域中不断获得应用。

有监督方式是目前使用的训练机器学习模型的一种方案，基于训练集中样本特征（如邮件的标题内容、用户的征信数据等）和分类结果（也称为目标变量，如用户的信用等级）训练机器学习模型，使机器学习模型具有对训练集外样本分类进行预测的能力。

例如，使用机器学习模型在征信业务中区分优质客户和非优质客户，在邮件系统中区分垃圾邮件和正常邮件，在商业中区分客户是否为潜在的流失客户等等。

目前，基于有监督方式训练的包括多个分类器的机器学习模型例如极端梯度提升（XGBoost，Extreme Gradient Boosting）模型的过程中，存在对于训练集中部分样本的分类总是难以预测的问题。

例如，训练用于进行优质客户和非优质客户的分类的机器学习模型时，对于分类正确率为50%或邻域（如，48%至52%）的样本，机器学习模型将样本分类为优质客户和非优质客户具有随机性，也就是说相当于没有对样本进行分类，由于随机性导致在每次迭代训练机器学习模型后针对这类样本的预测结果存在不稳定的情况。

发明内容

本发明为至少解决相关技术存在的上述问题而提供一种基于机器学习模型训练的信贷用户分类方法及装置，以至少能够提升机器学习模型的预测精度和训练效率。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种基于机器学习模型训练的信贷用户分类方法，所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户；包括：

初始化训练集中的信贷用户样本的第一权重和第二权重；

其中，所述训练集中的信贷用户样本包括优质用户样本和非优质用户样本，所述信贷用户的特征至少包括收入数据和支出数据，所述信贷用户的目标变量包括优质用户和非优质用户；

将所述训练集中的信贷用户样本的第二权重、以及所述信贷用户样本的所述特征和所述目标变量输入机器学习模型包括的分类器，在所述机器学习模型中为相同的所述特征的信贷用户样本对应分配处理器的线程，以并行线程的方式训练所述机器学习模型；

其中，所述分类器为多个弱分类器的线性组合形成的强分类器；

基于所述训练集中的信贷用户样本的预测损失，确定相应目标变量被预测错误的第一信贷用户样本集合，以及相应目标变量被预测正确的第二信贷用户样本集合；

基于所述第一信贷用户样本集合中的信贷用户样本的预测损失、以及相应的第一权重确定所述第一信贷用户样本集合的整体预测损失；

基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集中的信贷用户样本的所述第一权重和所述第二权重；

将所述训练集中的信贷用户样本更新后的所述第二权重、以及所述信贷用户样本的特征和所述目标变量输入所述机器学习模型，以所述信贷用户样本的特征为粒度对所述机器学习模型进行训练；

通过终端的显示设备展示训练后的所述机器学习模型对所述信贷用户的分类结果。

第二方面，本发明实施例提供一种基于机器学习模型训练的信贷用户分类装置，所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户；包括：

第一训练单元，用于初始化训练集中的信贷用户样本的第一权重和第二权重；

样本单元，用于基于所述训练集中的信贷用户样本的预测损失，确定相应目标变量被预测错误的第一信贷用户样本集合，以及相应目标变量被预测正确的第二信贷用户样本集合；

预测损失单元，用于基于所述第一信贷用户样本集合中的信贷用户样本的预测损失、以及相应的第一权重确定所述第一信贷用户样本集合的整体预测损失；

权重单元，用于基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集中的信贷用户样本的所述第一权重和所述第二权重；

第二训练单元，用于将所述训练集中的信贷用户样本更新后的所述第二权重、以及所述信贷用户样本的特征和所述目标变量输入所述机器学习模型，以所述信贷用户样本的特征为粒度对所述机器学习模型进行训练；

本发明实施例具有以下有益效果：

在样本基于先验的第二权重的分布下对机器学习模型进行训练，通过找到被机器学习模型错误预测的样本（第一样本集合），并提升对应的权重以更新样本的分布能够使后续训练时机器学习模型中的分类器更加关注被错误预测的样本，提升针对错误样本的预测精度；同时，以特征为粒度对机器学习模型进行并行训练，从而可以容易地通过多线程的处理器来快速完成训练过程，提升了机器学习模型的训练效率。

附图说明

图1是本发明实施例中机器学习模型的一个可选的结构示意图；

图2是本发明实施例中基于机器学习模型训练的信贷用户分类方法的一个可选的流程示意图；

图3是本发明实施例中机器学习模型的一个可选的结构示意图；

图4是本发明实施例中的分类树的一个可选的结构示意图；

图5是本发明实施例中多次迭代更新第一权重和第二权重过程中，训练集样本的分类结果的一个可选的示意图；

图6是本发明实施例中基于机器学习模型训练的信贷用户分类装置的一个可选的硬件结构示意图；

图7是本发明实施例中基于机器学习模型训练的信贷用户分类装置的一个可选的功能结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）机器学习（Machine Learning）：从训练集的样本中自动分析获得能够对样本进行预测的规律的机器学习模型的过程。

2）有监督学习，基于训练集中样本的特征（feature）和目标变量，调整模型的参数，使模型具有基于训练集外的样本的特征对目标变量进行预测的性能。其中目标变量可以是定性的（如类别）也可以是定量的（如连续的取值）。

3）训练集，本发明实施例中指用于进行有监督方式训练机器学习模型采用的样本（也称为训练样本）的集合。

训练集中的样本具有特征（如，多个维度的特征）和明确取值的目标变量，以便机器学习模型可以发现样本的特征和目标变量之间的关系，从而具有基于训练集外样本的特征预测目标变量的取值的性能。

4）梯度提升（Gradient Boosting）方法，或者称为梯度提升决策树（GBDT，Gradient Boosting Decision Tree）方法，对多个弱分类器（分类性能不足以用于对样本单独进行分类的函数）的线性组合形成的强分类器（分类性能足以用于对样本单独进行分类的函数）进行训练的方法，根据上一次迭代训练后的模型的损失函数的梯度方向在训练后的模型中加入函数的方式更新模型，使得每次迭代训练后，模型的预测损失能够沿梯度方向下降。

5）极端梯度提升（XGBoost，Extreme Gradient Boosting）方法，梯度提升决策树方法的C++实现，支持利用CPU的多线程进行并行进行训练模型，同时在算法上加以改进提高了精度。

6）过拟合，为了使模型对所有样本进行精确预测使得模型变得过度复杂。

7）损失函数（loss function），损失函数用来估量机器学习模型的预测结果与实际结果的不一致程度，是一个非负实值函数，损失函数越小，机器学习模型的鲁棒性就越好。

损失函数的类型包括有对数损失（Logistic Loss）函数，另外，损失函数的描述形式还可以为平方损失函数和指数损失函数等。

8）梯度下降法（Gradient Descent），沿梯度下降方向求解损失函数最大值的方法，包括小批量梯度下降法（Mini-batch Gradient Descent）、批量梯度下降法（BatchGradient Descent，简称BGD）和随机梯度下降法（Stochastic Gradient Descent）等。

如图1所示的本发明实施例提供的机器学习模型的一个可选的结构示意图，采用有监督方式训练包括多个基本的分类器（简称基分类器）构成的组合。

这里的分类器可以采用决策树分类器如使用分类回归树（CART，ClassificationAnd Regression Tree）算法的分类函数，神经网络和支持向量机（SVM，Support VectorMachines）等。

以基分类器为XGBoost模型为例，由于相关技术提供的XGBoost模型的训练方法中，输入XGBoost模型的训练集中的样本的权重是一致的，导致XGBoost模型针对样本的目标变量的预测值的结果不稳定。

例如机器学习模型用于解决判断用户是否为优质客户时，由于各种原因存在难以分类的样本（例如，由于样本的特征不足等）此时，用户被分类为优质客户和非优质客户的概率都是50%，这就相当于没有对用户进行分类，预测精度无法保证。

针对上述问题，本发明实施例提供一种基于机器学习模型训练的信贷用户分类方法，对于由多个分类器构成机器学习模型进行训练时，为训练集中的样本维护两套权重，在基于初始化的权重迭代训练机器学习模型后，在样本中划分出目标变量被预测错误的样本，通过两套权重的方式提升被错误预测的样本的权重，使机器学习模型再次进行训练时能够更加关注目标变量被错误预测的样本，从而提升机器学习模型的预测精度。

下面结合如图2所示的本发明实施例提供的基于机器学习模型训练的信贷用户分类方法的一个可选的流程示意图进行说明，在图2中基于机器学习模型训练的信贷用户分类方法包括以下步骤：

步骤101，初始化训练集中各样本的第一权重

和第二权重

。

训练集中的样本由特征和目标变量构成，特征包括多个维度的样本的数据，目标变量用于以定性或定量的方式描述样本。

例如，在征信业务场景中机器学习模型可以用于预测用户是否优质客户，则目标变量包括优质客户和非优质客户，特征可以包括收入、支出等方面的数据。

再例如，在客户维护业务场景中机器学习模型可以用于预测用户是否在潜在的流失客户，则目标变量包括潜在流失客户和非潜在流失客户，特征可以包括用户的基本属性、登录客户端情况（频率、时间）、在客户端发送消息的情况（使用频率等）。

在一个实施例中，为训练集中各样本统一分配先验的第一权重和第二权重，各样本初始的第一权重

相同，同时，各样本初始的第二权重

也相同。

实际应用中，基于训练集中样本的数量为训练集中各样本统一分配第一权重，例如，设训练集中包括m个样本，则针对训练集每个样本分配权重

。训练集中各样本的第二权重的权重值与第一权重不同，例如可以分配权重值1。

步骤102，将训练集中各样本的第二权重、以及各样本的特征和目标变量输入机器学习模型包括的分类器进行训练。

基于样本及其对应的第二权重，可以对机器学习模型进行多次的迭代训练，参见图3，机器学习模型包括多个基分类器y₁(x)~ y₂(x)，对于第s（s为大于或等于1的整数）次迭代训练，执行如下的操作：

将训练集中的样本及其第二权重

输入每个分类器，通过对应每个分类器的最小化权重误差函数（weighted error function）求解，得到分类器的融合系数

；基于各分类器的融合系数最分类器进行组合，作为最终训练后得到的机器学习模型

。

为了避免在机器学习模型的训练阶段所得到的融合系数出现的不是最小化权重误差函数的最优解的问题，在一个实施例中，由于每个分类器对于样本的目标变量的取值进行预测，机器学习模型输出的最终的预测结果是基于对每个分类器的预测结果综合判决得到，而每个分类器预测结果的可信程度取决于分类器的融合系数，因此，可以通过最小化第一样本集合中各样本的预测损失的平方和的方式，求解得到使平方和最小时机器学习模型包括的分类器的融合系数，基于各所述分类器的融合系数组合形成训练后的机器学习模型，对各分类器基于融合系数进行组合，确保机器学习模型的精度。

第s+1次训练的过程与第s次训练的过程相同，区别在于，第s+1次训练中待训练的机器学习模型与第s次训练后得到的机器学习模型存在如下关系：

第s+1次训练后得到的机器学习模型=第s次训练后得到的机器学习模型+补偿函数。

可见，由于补偿函数是第s次训练后机器学习模型的损失函数二阶求导结果构造，这就使得第s次训练后机器学习模型的预测误差能够按照损失函数的梯度方向下降，最大程度降低了机器学习模型的预测误差，提升预测精度。

特别地，当机器学习模型采用XGBoost模型为基分类器时，由于XGBoost模型支持对于样本以特征为粒度进行并行的训练，例如对于相同特征的样本分配一个或多个线程，在硬件实现上使用多线程的处理器进行训练，这样，不同（类型）特征的样本可以被并行地用于对机器学习模型进行训练，显著缩短了机器学习模型的训练时间，提升了机器学习模型的训练效率。

下面以机器学习模型的基分类器为XGBoost模型时训练过程进行说明。

XGBoost方法采用有监督的方式进行训练，方法在逻辑上包含三个重要组成部分：XGBoost模型、参数和目标函数。其中XGBoost模型和参数用于控制基于样本如何预测目标变量的取值（包括分类结果或者拟合值），目标函数用于约束训练模型的过程以得到理想的参数，目标函数越小则XGBoost模型的预测精度越高，训练XGBoost模型的过程就是使目标函数的值尽量小的过程。

XGBoost模型由分类回归树（CART，Classification And Regression Tree）=构成，分类树回归树是分类树和回归树的统称，当解决分类问题时，如预测用户是信用良好用户还是信用较差用户（二分类）时使用分类树；再例如，当解决回归问题如预测用户的信用评分时使用回归树。

如图4示出的分类树的一个可选的结构示意图，分类树中每个节点表示样本的某个属性，而每个分叉路径则代表属性的某个可能的值，而每个叶结点则对应从根节点到叶节点所经历的路径所表示的样本的值（类别）。

XGBoost模型中使用一个分类回归树会过于简单而无法有效地预测（针对样本的目标变量的取值进行预测），因而在XGBoost模型中使用集成树（tree ensemble）形式，集成树可以视作一系列分类回归树的线性加和，一个可选的示例可以记作：

其中，

是在函数空间

里面的一个函数，而

为分类回归树的集合，对应的目标函数表示如下：

其中，

是损失函数，表示XGBoost模型针对样本的目标变量的预测值与真实值之间的误差，如可以采用平方损失函数、对数损失函数等形式表示；

表示因为样本的随机性导致的预测值的误差，也称为正则化项，是分类回归树的集合中每个分类回归树的复杂度的加和，其中，正则化项与分类回归树的叶子节点的数量、以及叶子节点的值有关。

由于需要在一个函数空间中对XGBoost模型的参数进行求解，且不能采用传统方法如随机梯度下降法来训练XGBoost模型，鉴于此，本发明实施例中采用梯度提升方法。

具体来说，当对XGBoost模型进行第n（n位大于或等于2的整数）次迭代训练时，在第n-1次迭代训练得到的XGBoost模型的基础上，叠加入一个新的函数

以弥补XGBoost模型造成的残差（残差是指，样本的预测值与真实值之间的差异），继续训练新的模型以使目标函数最小化。

XGBoost模型进行第1至t次迭代训练的表达式为：

第1次迭代训练后，

第2次迭代训练后，

…

第t次迭代训练后，

其中，对于第1次迭代训练来说，在1次迭代训练得到的模型

的基础上叠加函数

，然后对新的模型

进行第2次迭代训练；对于第2次迭代训练来说，在第2次迭代训练得到的模型

的基础上叠加函数

，然后对新的模型

进行训练；对于第t次迭代训练来说，在t-1次迭代训练的模型

的基础上叠加函数

，在新的模型

的基础上进行训练。

那么，对于在第t次迭代训练后，有：

其中，connstant为常数，梯度提升方法中使用这样的准则选取函数（补偿函数）

加入当前训练后的模型以构造新的模型：选取的函数

使得目标函数最大程度地降低，也就是等同于使如下目标最大程度地降低：

针对

是不同形式的损失函数的情况进行说明：

1）当

是平方损失函数时，上述目标可以表示为：

这里，

也称为残差。

2）当

是其他形式的损失函数的情况时：

对目标

使用泰勒公式进行二阶展开，得到：

其中，

。

可以得到一个统一的目标为：

不难看出，当把常数项移除之后，目标函数有一个非常明显的特点，即依赖于在损失函数上的一阶导数和二阶导数来确定每次迭代训练后添加到模型中的函数。

XGBoost方法对目标函数进行了二阶泰勒展开，同时用到了一阶导数和二阶导数来确定每次迭代后添加到模型中的函数；并且支持用户自定义目标函数并在目标函数里加入了正则项，用于控制模型的复杂度，使得训练到的XGBoost更加简单，防止训练过程中过拟合现象的发生。

同时，XGBoost方法以样本的特征为粒度进行多线程并行的训练，大大地减少了模型训练所需要的时间复杂度。具体来说，将训练集中的样本按照特征进行分类，每个类别的样本分配一个或多个处理器的线程，每个线程内使用相同特征的样本对机器学习模型进行训练，并行多线程的方式显著缩短了机器学习模型的训练时间。

步骤103，基于训练集中各样本的预测损失，确定相应目标变量被预测错误的第一样本集合

，以及相应目标变量被预测正确的第二样本集合

。

在一个实施例中，基于机器学习模型的损失函数确定训练集合中各样本的预测损失。

例如，各样本的预测损失通过这样的方式确定，基于机器学习模型针对各样本的预测值

与真实值

之间的差值

，将以差值

为因变量的损失函数

的输出值确定为相应样本的预测损失

，

可以为任意形式的函数，包括指数形式、对数形式等，例如可以采用这样的指数形式：

，其中

为绝对值算子。

在一个实施例中，第一样本集合和第二样本集合通过样本的预测损失与损失阈值

的比较结果确定，训练集中预测损失超过损失阈值的样本，构成第一样本集合

，预测损失未超过损失阈值的样本，构成第二样本集合

。

步骤104，基于第一样本集合中各样本的预测损失、以及相应的第一权重确定第一样本集合

的整体预测损失。

基于损失函数确定第一样本集合中各样本的损失，损失的加和记为

，整体预测损失为使用第一权重对各样本的预测损失的加和进行调整如乘运算调整，得到第一样本集合的整体预测损失

，记为

。

由于损失函数是以0-1取值范围分布的参数来表示，而初始的第一权重

与训练集中样本的数量负相关的数值如

，因此，第一样本集合的整体预测损失的数值小于1。

步骤105，基于第一样本集合的整体预测损失更新第一样本集中各样本的第一权重、第二权重对应大于第二样本集合中各样本的第一权重和第二权重。

以第一样本集合的整体预测损失构造小于1的权重更新因子

，可以理解地，权重更新因子

可以采用

或

等形式构造。

示例性地，通过这样的方式基于权重更新因子提升第一样本集合中各样本的第一权重：

1）第二样本集合

中各样本更新后的第一权重

，通过使用权重更新因子

进行对原第一权重

降低得到，也就是将权重更新因子与原第一权重

的乘积作为更新后的第一权重，记为：

。

同时，第一样本集合

中的各样本更新前后的第一权重保持不变，也就是与对机器学习模型进行第1次迭代训练时的第一权重的取值一致，更新后的第一权重

记为

；

由于第二样本集合

中各样本的第一权重使用

使用权重更新因子

进行降低，因此，虽然第一样本集合

中各样本的第一权重

的数值没有直接进行提升，但是与第二样本集合

中各样本的第一权重

相比较而言，仍然实现了权重值提升的效果。

需要指出的是，为了保证在后续的迭代训练（例如第3次迭代训练、第4次迭代训练）时不出现第一权重的数值过小的情况、可以以第一权重

的最大值为基准进行归一化处理。

另外，通过这样的方式基于权重更新因子降低第一样本集合中各样本的第一权重：

2）第一样本集合

中各样本更新后的第二权重

，通过使用权重更新因子

进行对原第二权重

提升得到，也就是将原第二权重

与权重更新因子相除

作为更新后的第二权重

，记为：

。

同时，第二样本集合

中的各样本更新前后的第二权重保持不变，也就是与对机器学习模型进行第1次迭代训练时的第二权重的取值一致，更新后的第二权重

记为

。

由于第一样本集合

中各样本的第二权重使用权重更新因子

进行提升，同时，第二样本集合

中的各样本更新前后的第二权重保持不变，仍然实现了第一样本集合

中各样本第二权重的权重值提升的效果。

步骤106，将训练集中各样本更新后的第二权重、以及各样本的特征和目标变量输入机器学习模型包括的分类器进行训练。

可以理解地，基于样本及其对应的更新后的第二权重，可以对机器学习模型进行多次的迭代训练，仍然参见图2，机器学习模型包括多个基分类器y1(x)~ y2(x)，对于第s（s为大于或等于1的整数）次迭代训练，执行如下的操作：

将第一样本集合及其第二权重

、第二样本集合及其第二权重

输入每个分类器，通过最小化每个分类器的权重误差函数求解，得到分类器的融合系数

；基于各分类器的融合系数最分类器进行组合，作为最终训练后得到的新的机器学习模型

。

第s+1次训练的过程与第s次训练的过程相同，区别在于，第s+1次迭代训练中待训练的机器学习模型与第s次训练后得到的机器学习模型存在如下关系：

可见，由于补偿函数第s次训练后机器学习模型的损失函数二阶求导结果构造，这就使得第s次训练后机器学习模型的预测误差能够按照损失函数的梯度方向下降，最大程度降低了机器学习模型的预测误差，提升预测精度。

特别地，当机器学习模型采用XGBoost模型为基分类器时，由于XGBoost模型支持对于样本以特征为粒度进行并行的迭代训练，例如对于相同特征的样本分配一个或多个线程进行迭代训练，显著缩短了机器学习模型的迭代训练时间，提升了机器学习模型的训练效率。

由于第一样本集合的第二权重值得到提升，与输入机器学习模型的样本的权重相同的情况相比，机器学习模型在的训练过程中更侧重第一样本集合的样本进行融合参数计算，从而训练后的机器学习模型具有针对第一样本集合的目标参数的取值更好的预测性能。

需要指出的是，步骤103至步骤106可以多次执行，以确定新的相应目标变量被预测错误的第一样本集合

，以及新的相应目标变量被预测正确的第二样本集合

，相应地，迭代更新第一权重和第二权重可以迭代更新，向机器学习模型输入的新的第一样本集合

及其更新的第二权重，对机器学习模型再次进行训练，当然，可以进行多次的迭代训练。

这里，以第t+1次重复执行步骤103和步骤106为例，设第t次执行步骤103确定的相应目标变量被预测错误的第一样本集合为

，以及新的相应目标变量被预测正确的第二样本集合为

，由于之前的步骤103至步骤106中已经侧重于使用第一样本集合中的样本（第二权重得到提升）进行迭代训练，因此，再次执行步骤103时，重新确定的第一样本集合

中样本的数量会减少（因为原第一样本集合

中的部分样本的目标变量已经进行了正确预测）。

第一样本集合中各样本的损失的加和记为

，第一样本集合的整体预测损失

，记为

，相应地，

，对于第一样本集合的第一权重

和第二样本集合的第一权重

，采用权重更新因子

进行更新：

；

。

其中，由于

小于1，因此虽然第一样本集合各样本的第一权重没有变化，但是相较于第二样本集合的第一权重仍然实现了提升的效果，另外，为了避免出现第一权重的数值降低过大（同时避免第二权重的数值提升过大）的情况，第一样本集合中各样本的第一权重和第二样本集合的第一权重进行归一化处理。

归一化的

表示为：

归一化的

表示为：

同时，对于第一样本集合的第二权重和第二样本集合的第二权重，采用这样的方式进行更新：

其中，由于

大于1，第一样本集合的第二权重发生提升，同时第一样本集合第二权重没有变化，因此第一样本集合的第二权重实现了提升的效果。

当迭代更新第一样本集合的第一权重和第二权重次数到达指定值，或者第一样本集合的整体预测损失低于预定值时，机器学习模型具有针对目标变量的预测正确率为50%或邻域（如，48%至52%）的样本进行精确预测的性能。

图5是本发明实施例中多次（次数以m表示）迭代更新第一权重和第二权重过程中，训练集样本的分类结果的一个可选的示意图，实线表示当前已经训练得到的模型（模型是由前t次迭代更新的第二权重及样本训练得到），虚线表示当前机器学习模型，每次训练的时候，由于第一样本集合的第二权重较第二样本集合的第二权重更大，使得机器学习模型会更关注第一样本集合中的样本进行训练，图5中的点表示样本，点的面积越大表示样本的第二权重越高，当多次迭代更新第一权重和第二权重，并训练机器学习模型后，获得的机器学习模型已经能够将不同类别的样本进行区分。

本发明实施例可提供为基于机器学习模型训练的信贷用户分类方法以及基于机器学习模型训练的信贷用户分类装置，实际应用中，基于机器学习模型训练的信贷用户分类装置中的各功能模块可以由设备（如终端设备、服务器或服务器集群）的硬件资源，如处理器等计算资源、通信资源（如用于支持实现光缆、蜂窝等各种方式通信）协同实现。图6示例性示出了基于机器学习模型训练的信贷用户分类装置10的一个可选的软硬件结构示意图，基于机器学习模型训练的信贷用户分类装置10包括硬件层、中间层、操作系统层和软件层。然而，本领域的技术人员应当理解，图6 示出的基于机器学习模型训练的信贷用户分类装置10的结构仅为示例，并不构成对基于机器学习模型训练的信贷用户分类装置10结构的限定。例如，基于机器学习模型训练的信贷用户分类装置10可以根据实施需要设置较图6更多的组件，或者根据实施需要省略设置部分组件。

基于机器学习模型训练的信贷用户分类装置10的硬件层包括处理器11、输入/输出接口13，存储介质14以及网络接口12，组件可以经系统总线连接通信。

处理器11可以采用中央处理器（CPU）、微处理器（MCU，Microcontroller Unit）、专用集成电路（ASIC，Application Specific Integrated Circuit）或逻辑可编程门阵列（FPGA，Field－Programmable Gate Array）实现。

输入/输出接口13可以采用如显示屏、触摸屏、扬声器等输入/输出器件实现。

存储介质14可以采用闪存、硬盘、光盘等非易失性存储介质实现，也可以采用双倍率（DDR，Double Data Rate）动态缓存等易失性存储介质实现，其中存储有用以执行上述视频处理方法的可执行指令。

示例性地，存储介质14可以与基于机器学习模型训练的信贷用户分类装置10 的其他组件集中设置，也可以相对于基于机器学习模型训练的信贷用户分类装置10中的其他组件分布设置。网络接口12向处理器11提供外部数据如异地设置的存储介质14的访问能力，示例性地，网络接口12可以基于近场通信（NFC，Near Field Communication）技术、蓝牙（Bluetooth）技术、紫蜂（ZigBee）技术进行的近距离通信，另外，还可以实现如CDMA、WCDMA等通信制式及其演进制式的通信。

驱动层包括用于供操作系统16识别硬件层并与硬件层各组件通信的中间件15，例如可以为针对硬件层的各组件的驱动程序的集合。

操作系统16用于提供面向用户的图形界面，示例性地，包括插件图标、桌面背景和应用图标，操作系统16支持用户经由图形界面对设备的控制本发明实施例对上述设备的软件环境如操作系统类型、版本不做限定，例如可以是Linux操作系统、UNIX操作系统或其他操作系统。

应用层包括用户侧终端运行的应用，例如应用层中运行有模型训练应用17。

当然，本发明实施例不局限于提供为方法和硬件，还可有多种实现方式，例如提供为存储介质（存储有用于执行本发明实施例提供的基于机器学习模型训练的信贷用户分类方法的指令），以下再对不同的实现方式举例说明。

一、移动端应用程序及模块

本发明实施例可提供为使用C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端Apps中（例如微信等）（以可执行指令的存储在移动端的存储介质中，由移动端的处理器执行），从而直接使用移动端自身的计算资源完成相关的基于机器学习模型训练的信贷用户分类、预测等任务，并且定期或不定期地通过各种网络通信方式将基于机器学习模型训练的信贷用户分类、预测等结果传送给远程的服务器，或者在移动端本地保存。

二、服务器应用程序及平台

本发明实施例可提供使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端（以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行），将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种，与服务器上已有的某些数据或结果综合起来进行机器学习模型的训练、以及使用训练完成的机器学习模型进预测，然后实时或非实时地输出机器学习模型或预测结果给其他应用程序或模块使用，也可以写入服务器端数据库或文件进行存储。

本发明实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络（Web）界面或其他各用户界面（UI，User Interface），形成供个人、群体或企业使用的数据挖掘平台、信用评估平台（用于评估客户是否为优质客户）、用户流失预警平台（用于识别潜在的流失客户）等。使用者可以将已有的数据包批量上传给此平台以获得各种计算结果，也可以将实时的数据流传输给此平台来实时计算和刷新各级结果。

三、服务器端应用程序接口（API，Application Program Interface）及插件

本发明实施例可提供为服务器端的实现基于机器学习模型训练的信贷用户分类功能、基于机器学习模型进行预测的API、软件开发套件（SDK，Software DevelopmentToolkit）或插件，供其他的服务器端应用程序开发人员调用，并嵌入到各类应用程序中。

四、移动设备客户端API及插件

本发明实施例还可提供为移动设备端的实现基于机器学习模型训练的信贷用户分类功能的、基于机器学习模型进行预测的API、SDK或插件，供其他的移动端应用程序开发人员调用，并嵌入到各类应用程序中。

五、云端开放服务

本发明实施例可提供为基于机器学习模型进行预测的信用评估云服务、用户流失预警云服务、本发明实施例还可提供为信用评估云服务、用户流失预警云服务的API、SDK及插件等，打包封装成可供企业内外人员开放使用的云服务，或者将各种结果以适当形式展示在各种终端显示设备上，供个人、群体或企事业单位查询。

再对前述基于机器学习模型训练的信贷用户分类装置的功能结构进行说明，参见图7示出的基于机器学习模型训练的信贷用户分类装置20的一个可选的功能结构示意图，包括：

第一训练单元21，用于基于训练集中各样本初始化的第一权重和第二权重、并基于各样本的特征为粒度对机器学习模型进行训练；

样本单元22，用于基于训练集中各样本的预测损失，确定相应目标变量被预测错误的第一样本集合，以及相应目标变量被预测正确的第二样本集合；

预测损失单元23，用于基于第一样本集合中各样本的预测损失、以及相应的第一权重确定第一样本集合的整体预测损失；

权重单元24，用于基于第一样本集合的整体预测损失提升第一样本集中各样本的第一权重和第二权重；

第二训练单元25，用于将所述训练集中各样本更新后的所述第二权重、以及各样本的特征和目标变量输入所述机器学习模型，以各样本的特征为粒度对所述机器学习模型进行训练。

在一个实施例中，第一训练单元21，还用于初始化训练集中各样本的第一权重和第二权重，将所述训练集中各样本的第二权重、以及各样本的特征和目标变量输入所述机器学习模型，在所述机器学习模型中为相同特征的样本对应分配线程，以并行线程的方式进行训练。

在一个实施例中，第一训练单元21，还用于基于训练集中样本的数量为训练集中各样本统一分配第一权重，为训练集中各样本统一分配区别于第一权重的第二权重。

在一个实施例中，基于机器学习模型训练的信贷用户分类装置20还包括：补偿单元26，用于在所述第一训练单元21和所述第二训练单元25每次训练所述机器学习模型后，基于所述机器学习模型的损失函数的梯度方向，确定使所述预测损失按照所述梯度方向下降的补偿函数，在所述机器学习模型中叠加用于补偿所述预测损失的所述补偿函数。

在一个实施例中，预测损失单元23，还用于基于机器学习模型针对第一样本集合中各样本的预测值与真实值之间的差值，将基于差值为因变量的损失函数的输出值确定为相应样本的预测损失。

在一个实施例中，样本单元22，还用于从训练集中确定预测损失超过损失阈值的第一样本集合，以及预测损失未超过损失阈值的第二样本集合。

在一个实施例中，样本单元22，还用于以第一样本集合的整体预测损失、以及第一权重的乘积构造权重更新因子，基于权重更新因子降低第一样本集合中各样本的第一权重，并提升第二样本集合中各样本的第二权重。

在一个实施例中，权重单元24，还用于对训练集中各样本的第一权重进行归一化处理，基于归一化处理结果对应更新各样本的第一权重。

在一个实施例中，基于机器学习模型训练的信贷用户分类装置20还包括：

融合单元27，用于通过最小化第一样本集合中各样本的预测损失的平方和的方式，确定所述机器学习模型包括的分类器的融合系数，基于各所述分类器的融合系数组合形成训练后的机器学习模型。

在一个实施例中，第二训练单元25，还用于基于所述样本单元迭代更新的所述第一样本集合和所述第二样本集合、以及所述权重单元迭代更新的所述第一样本集合的所述第二权重训练所述机器学习模型；直至满足迭代更新次数或所述第一样本集合的整体预测损失低于预定值。

试对本发明实施例提供的机器学习模型能够适用的应用场景进行举例说明，当然不局限于以下所给出的场景示例。

场景1）机器学习模型实施为二分类预警模型：机器学习模型中根据道德风险、收入能力、资金链紧张、游戏偏好和不良用途等基本类别的特征出发，构造1400多维子特征，在此基础上使用二分类预警模型预测用户是否为优质客户，为进一步提升银行对信贷用户的风控能力以及制定有效策略提供数据支撑。

具体来说，数据准备方面，在道德风险、收入能力、资金链紧张、游戏偏好和不良用途等变量大类的基础上，细化为沟通（6）、特殊号码（11）、标签（29）、账户信息一致性（20）、LBS（56）、设备（39）、消息（28）、沟通时段（42）、游戏（142）、共同好友（76）、登陆行为（172）、加友（384）、支付（432）13维变量小类（括号中数字代表每个变量小类下面细化的具体可用于建模的特征的个数；其中有些是原生的特征指标，有些是在原生指标的基础上进行衍生得到的特征指标）。

场景２）用户流失预警模型训练及预测：用户流失预警模型中根据用户基础属性、活跃度、登陆情况、消息情况等特征，分析已知用户（包括流失用户和非流失用户）行为数据，运用本发明进行行为数据预测建模，准确预测潜在的流失用户，针对可能流失的用户做推送的推广活动，从而提升用户整体上的活跃度。

本发明实施例具有以下有益效果：

1）在样本基于先验的第二权重的分布下对机器学习模型进行训练，通过找到被机器学习模型错误预测的样本（第一样本集合），并提升对应的权重，通过更新的样本的分布，能够使后续训练时机器学习模型中的分类器更加关注被错误预测的样本，提升针对错误样本的预测精度；

2）以特征为粒度对机器学习模型进行并行训练，从而可以容易地通过多线程的CPU来快速完成训练过程，提升了机器学习模型的训练效率；

3）针对机器学习模型的融合系数不是最优的问题，通过最优化MSE求出最佳系数，保证了训练得到的机器学习模型的精确性。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储装置、随机存取存储器（RAM，Random Access Memory）、只读存储器（ROM，Read-Only Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置（可以是个人计算机、服务器、或者网络装置等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储装置、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于机器学习模型训练的信贷用户分类方法，其特征在于，

所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户；

所述方法包括：

初始化训练集中的信贷用户样本的第一权重和第二权重；

2.根据权利要求1所述的方法，其特征在于，所述初始化所述训练集中的信贷用户样本的第一权重和第二权重，包括：

基于所述训练集中的信贷用户样本的数量为所述训练集中的信贷用户样本统一分配所述第一权重，为所述训练集中的信贷用户样本统一分配区别于所述第一权重的所述第二权重。

3.根据权利要求1所述的方法，其特征在于，还包括：

在每次训练所述机器学习模型后，基于所述机器学习模型的损失函数的梯度方向，确定使所述预测损失按照所述梯度方向下降的补偿函数，在所述机器学习模型中叠加用于补偿所述预测损失的所述补偿函数。

4.根据权利要求1所述的方法，其特征在于，还包括：

基于所述机器学习模型针对所述第一信贷用户样本集合中的信贷用户样本的预测值与真实值之间的差值，将以所述差值为因变量的损失函数的输出值确定为相应样本的预测损失。

5.根据权利要求1所述的方法，其特征在于，所述基于所述训练集中的信贷用户样本的预测损失，确定相应目标变量被预测错误的第一信贷用户样本集合，以及相应目标变量被预测正确的第二信贷用户样本集合，包括：

从所述训练集中确定预测损失超过损失阈值的所述第一信贷用户样本集合，以及预测损失未超过所述损失阈值的所述第二信贷用户样本集合。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集合中的信贷用户样本的所述第一权重和所述第二权重，包括：

以所述第一信贷用户样本集合的整体预测损失、以及所述第一权重的乘积构造权重更新因子，基于所述权重更新因子降低所述第二信贷用户样本集合中的信贷用户样本的所述第一权重，并提升所述第一信贷用户样本集合中的信贷用户样本的所述第二权重。

7.根据权利要求6所述的方法，其特征在于，还包括：

对所述训练集中的信贷用户样本的所述第一权重进行归一化处理，基于归一化处理结果对应更新所述训练集中的信贷用户样本的所述第一权重。

8.根据权利要求1所述的方法，其特征在于，还包括：

通过最小化所述第一信贷用户样本集合中的信贷用户样本的预测损失平方和的方式，确定所述机器学习模型包括的分类器的融合系数，基于各所述分类器的融合系数组合形成训练后的所述机器学习模型。

9.根据权利要求1所述的方法，其特征在于，还包括：

更新所述第一信贷用户样本集合以及所述第二信贷用户样本集合，迭代更新所述第一信贷用户样本集合的所述第一权重和所述第二权重，基于更新的所述第一信贷用户样本集合以及相应的所述第二权重训练所述机器学习模型，直至满足迭代更新次数或所述第一信贷用户样本集合的整体预测损失低于预定值。

10.一种基于机器学习模型训练的信贷用户分类装置，其特征在于，

所述装置包括：

11.根据权利要求10所述的装置，其特征在于，

所述第一训练单元，还用于基于所述训练集中的信贷用户样本的数量为所述训练集中的信贷用户样本统一分配所述第一权重，为所述训练集中的信贷用户样本统一分配区别于所述第一权重的所述第二权重。

12.根据权利要求10所述的装置，其特征在于，还包括：

补偿单元，用于在所述第一训练单元和所述第二训练单元每次训练所述机器学习模型后，基于所述机器学习模型的损失函数的梯度方向，确定使所述预测损失按照所述梯度方向下降的补偿函数，在所述机器学习模型中叠加用于补偿所述预测损失的所述补偿函数。

13.根据权利要求10所述的装置，其特征在于，

所述预测损失单元，还用于基于所述机器学习模型针对所述第一信贷用户样本集合中的信贷用户样本的预测值与真实值之间的差值，将以所述差值为因变量的损失函数的输出值确定为相应样本的预测损失。

14.根据权利要求10所述的装置，其特征在于，

所述样本单元，还用于从所述训练集中确定预测损失超过损失阈值的所述第一信贷用户样本集合，以及预测损失未超过所述损失阈值的所述第二信贷用户样本集合。

15.根据权利要求10所述的装置，其特征在于，

所述样本单元，还用于以所述第一信贷用户样本集合的整体预测损失、以及所述第一权重的乘积构造权重更新因子，基于所述权重更新因子降低所述第二信贷用户样本集合中的信贷用户样本的所述第一权重，并提升所述第一信贷用户样本集合中的信贷用户样本的所述第二权重。

16.根据权利要求15所述的装置，其特征在于，

所述权重单元，还用于对所述训练集中的信贷用户样本的所述第一权重进行归一化处理，基于归一化处理结果对应更新的信贷用户样本的所述第一权重。

17.根据权利要求10所述的装置，其特征在于，还包括：

融合单元，用于通过最小化所述第一信贷用户样本集合中的信贷用户样本的预测损失平方和的方式，确定所述机器学习模型包括的分类器的融合系数，基于各所述分类器的融合系数组合形成训练后的所述机器学习模型。

18.根据权利要求10所述的装置，其特征在于，

所述第二训练单元，还用于基于所述样本单元迭代更新的所述第一信贷用户样本集合和所述第二信贷用户样本集合、以及所述权重单元迭代更新的所述第一信贷用户样本集合的所述第二权重训练所述机器学习模型；直至满足迭代更新次数或所述第一信贷用户样本集合的整体预测损失低于预定值。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被至少一个处理器执行时实现如权利要求1至9中任一项所述的基于机器学习模型训练的信贷用户分类方法。