CN107784312A

CN107784312A - 机器学习模型训练方法及装置

Info

Publication number: CN107784312A
Application number: CN201610716460.3A
Authority: CN
Inventors: 吴振国
Original assignee: Tencent Credit Co Ltd
Current assignee: Tencent Credit Co Ltd
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2018-03-09
Anticipated expiration: 2036-08-24
Also published as: CN107784312B

Abstract

本发明公开了一种机器学习模型训练方法及装置；方法包括：确定训练集中样本的散度的差值，和/或所述训练集中样本的ROC；基于所述散度的差值和/或所述ROC，构造使用所述训练集训练的机器学习模型的损失函数；基于所述训练集迭代训练所述机器学习模型；比较相邻两次迭代训练所述机器学习模型后对应的损失函数的相对变化值；当所述损失函数的相对变化值小于指定值时，停止迭代训练所述机器学习模型。实施本发明，能够克服监督学习方式训练机器学习模型时样本不均衡带来的影响，提升机器学习模型的性能。

Description

机器学习模型训练方法及装置

技术领域

本发明涉及通信领域的机器学习技术，尤其涉及一种机器学习模型训练方法及装置。

背景技术

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，在实际工业领域中不断获得应用，例如采用机器学习的方法训练对邮件进行分类的机器学习模型，对海量的邮件是否为垃圾邮件进行预测。

机器学习的类型包括：监督学习、无监督学习、半监督学习等。监督学习是指：利用不同类别的样本构成的训练集调整机器学习模型的参数，使机器学习模型达到所要求的分类性能。

在监督学习中，用于训练机器学习模型的样本的类别是已知的。例如，一个垃圾邮件过滤的机器学习模型的训练集，包含垃圾邮件以及常规邮件，在有监督的机器学习模型的训练过程中，训练集中的邮件是垃圾邮件或是正常邮件，机器学习模型对不同类别的邮件的特征进行学习，以使机器学习模型能对未知邮件进行分类的能力的过程称为训练机器学习模型。

监督学习经常会遇到不同类别的样本的数量不均衡的问题。例如训练用于识别垃圾邮件的机器学习模型时，垃圾邮件往往远远少于非垃圾邮件。

面对此类情况，相关技术采用多种方案解决样本不均衡的问题，但是训练得到的机器学习模型，仍然会把新增的部分或者全部未知样本的都预测为多数样本的类别也就是正常邮件，即使已知当前输入机器学习模型的邮件中多数为垃圾邮件，影响机器学习模型的精度。

发明内容

本发明实施例提供一种机器学习模型训练方法及装置，能够克服监督学习方式训练机器学习模型时样本不均衡带来的影响，提升机器学习模型的性能。

本发明实施例的方案是这样实现的：

第一方面，本发明实施例提供一种机器学习模型训练方法，所述方法包括：

确定训练集中样本的散度的差值，和/或所述训练集中样本的ROC；

基于所述散度的差值和/或所述ROC，构造使用所述训练集训练的机器学习模型的损失函数；

基于所述测试集迭代训练所述机器学习模型；

比较相邻两次迭代训练所述机器学习模型后对应的损失函数的相对变化值；

当损失函数的这个相对变化值小于指定值时，停止迭代训练所述机器学习模型。

第二方面，本发明实施例提供一种机器学习模型训练装置，所述装置包括：

确定单元，用于确定训练集中样本的散度的差值，和/或所述训练集中样本的ROC；

构造单元，用于基于所述散度的差值和/或所述ROC，构造使用所述训练集训练的机器学习模型的损失函数；

训练单元，用于基于所述训练集迭代训练所述机器学习模型；

比较单元，用于比较相邻两次迭代训练所述机器学习模型的损失函数的相对变化值；

所述训练单元，还用于当所述损失函数的相对变化值小于指定值时，停止迭代训练所述机器学习模型。

第三方面，本发明实施例提供一种机器学习模型训练装置，所述装置包括：

处理器和存储介质；存储介质中存储有可执行指令，用于引起处理器执行以下操作：

基于所述训练集迭代训练所述机器学习模型；

当所述损失函数的相对变化值小于指定值时，停止迭代训练所述机器学习模型。

本发明实施例具有以下有益效果：

通过构造两种新的损失函数，分别为：散度损失函数和AUC损失函数，可以单独使用对机器学习模型进行训练，分别从散度和AUC曲线两个角度来评估机器学习模型的训练效果，训练方法简单，经过实际测试，优于交叉熵等传统损失函数克服样本不均衡问题的效果，提升了机器学习模型的分类性能。

附图说明

图1是本发明实施例提供的监督学习方式训练机器学习模型的一个可选的实现示意图；

图2是本发明实施例提供的采用监督学习方式训练机器学习模型的实现示意图；

图3是本发明实施例提供的机器学习模型训练方法的一个可选的流程示意图；

图4是本发明实施例提供的二分类问题各类别在样本数目与样本被判决为相应类别的概率的分布示意图；

图5是本发明实施例提供的使用切比雪夫多项式逼近阶跃函数的结果的示意图；

图6是本发明实施例提供的神经网络模型的一个可选的结构示意图；

图7是本发明实施例提供的机器学习模型训练装置的一个可选的功能结构示意图；

图8-1是本发明实施例提供的机器学习模型训练装置在移动终端侧部署的一个可选的示意图；

图8-2是本发明实施例提供的机器学习模型训练装置在网络服务器侧部署的一个可选的示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本发明，并不用于限定本发明。另外，以下所提供的实施例是用于实施本发明的部分实施例，而非提供实施本发明的全部实施例，在不冲突的情况下，本发明实施例记载的技术方案可以任意组合的方式实施。

对本发明进行进一步详细说明之前，结合图1示出的采用监督学习方法训练机器学习模型的实现示意图，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)机器学习模型：从训练集的样本中自动分析获得规律，并利用规律对样本的目标变量的取值进行预测的模型。机器学习模型包括机器学习算法，以便从训练集中学习样本的属性从而具有对测试集中的样本的目标变量的取值进行预测的能力。在分类问题中目标变量即为类别。

2)有监督学习：训练机器学习模型的一种方法，使用标记的样本构成的训练集对机器学习模型进行训练。

有监督学习是一个根据训练集中的样本训练机器学习模型，以得到分类器或者拟合函数的过程。

如果训练集中的样本的目标变量是离散的值，如代表着样本的类别时，可以使用分类算法训练机器学习模型，训练得到的机器学习模型就是分类器(如用于对邮件中的垃圾邮件和正常邮件进行分类)。

当训练样本的目标变量是连续性的取值(如用户的信用评分)时，可以使用回归算法训练机器学习模型，训练得到的机器学习模型就是拟合函数(如拟合用户的信用评估变量与用户的信用评估结果的函数)。

更复杂地，训练样本还可以具有多种不同标记的集合，此时训练机器学习模型得到的是结构化预测函数。

3)训练集，指有监督学习方式训练机器学习模型的样本(也称为训练样本)的集合，训练集的每一个样本的目标变量具有明确的取值。

目标变量是机器学习模型的预测结果，如果训练样本的目标变量是标称值(例如类别)，则机器学习模型使用分类算法，预测的目标变量的类型是标称型的。如果测试样本的目标变量的取值是连续的取值，则机器学习模型使用回归算法，预测到的目标变量是连续型的。

训练集中的样本具有明确的目标变量，以便机器学习模型可以发现样本的特征和目标变量的取值(如类别)之间的关系，从而具有基于测试集中样本的特征预测相应的目标变量(如对样本进行分类)的能力。

4)测试集，为了测试机器学习模型的精度，通常使用两套独立的样本集：训练集和测试集。当机器学习模型开始训练时，使用训练样本作为输入，训练完成之后输人测试集中的样本。

在分类问题中，输入测试集中的样本(也称为测试样本)时并不提供测试样本的目标变量的类别，由机器学习模型决定测试样本属于哪个类别，比较机器学习模型对测试样本预测的类别与样本的实际类别的差异，就可以得出机器学习模型的实际精确度。

5)不均衡样本：训练集中不同标签的样本的数量不等，其比例相差非常大。

6)过拟合：为了得到一致假设而使假设变得过度复杂称为过拟合。

7)过采样，对样本进行采样的数量超出既定的标准，导致样本过多的情况。

8)欠采样，对样本进行采样的数量低于既定的标准，导致样本过少的情况。

9)散度(Divergence)，表征各点矢量场发散的强弱程度源，对于训练集来说，表征不同类别的训练样本的发散程度。

10)损失函数，在监督学习中，是指表征机器学习模型基于样本映射出错误的目标变量的代价，如对邮件进行错误的分类导致的代价，映射出错误的信用评分导致的代价。又例如表征在信用卡盗用检测中，“将盗用误认为正常使用”与“将正常使用识破认为盗用”的代价。

11)受试者工作特征曲线(ROC，Receiver Operating Characteristic curve)，用于二分类判别效果的分析与评价。一般自变量(如测试集中的样本的)为连续变量，因变量为二分类变量。

例如，对于监督方式训练的用于信用评估的机器学习模型来说，自变量是训练集中的样本用户的特征变量，如社交变量，支付变量等，因变量为样本用户的目标变量的取值，如样本用户为好用户(按期还贷用户)或坏用户(逾期还贷用户或不还贷用户)。

ROC的原理是：通过判断点(cutoff point/cutoff value)的移动，获得多对灵敏度(sensitivity)和误判率(1-Specificity)，以灵敏度为纵轴，以误判率为横轴，连接各点绘制曲线，然后计算曲线下的面积，面积越大，判断价值越高。

12)柯尔莫哥洛夫-斯摩洛夫(KS，Kolmogorov-Smirnov)值，利用机器学习模型对测试集中的样本进行分类，检测分类结果的分布符合已知的测试集的分级结果的分布的度量。

13)梯度下降法(Gradient Descent))，沿梯度上升方向求解损失函数最大值的方法，包括小批量梯度下降法(Mini-batch Gradient Descent)、批量梯度下降法(BatchGradient Descent，简称BGD)和随机梯度下降法(Stochastic Gradient Descent)等。

为了解决监督学习训练机器学习模型时训练集中训练样本不均衡的问题，发明人发现可以采用这样的方式：

1)基于采样的不均衡样本机器学习模型

通过过采样增加小类的样本的数量(在邮件分类中为垃圾邮件的样本的数量)，或者通过欠采样减少大类的样本的数量(在邮件分类中为正常邮件的样本的数量)，使各类样本的数量趋于一致，然后进行机器学习模型的训练。

存在的问题是：对小类的样本进行过采样容易造成过拟合，并且因为样本数量增加，导致机器学习模型的训练时间增大。而对大类进行欠采样，会造成样本的数据丢失，降低了机器学习模型对目标变量的预测精度。

2)基于调整权重的不均衡机器学习模型

为不同标记的样本分配惩罚权重，在损失函数中通过调整不同类别的样本的权重，如小类的惩罚权重大于大类的惩罚权重，使得机器学习模型将分类或拟合的重点集中在小类样本，但设置惩罚矩阵相当复杂，并且需要根据机器学习模型的应用场景进行有针对性的设置相应的惩罚矩阵，不具有普适性。

针对上述问题，本发明实施例可提供机器学习模型训练方法，以及应用机器学习模型训练方法的机器学习模型训练装置。

图2示例性示出了机器学习模型训练装置10的一个可选的硬件结构示意图，包括：处理器11、输入/输出接口13，存储介质14以及网络接口12，组件可以经系统总线15连接通信。处理器11可以采用中央处理器(CPU)、微处理器(MCU，Microcontroller Unit)、专用集成电路(ASIC，Application Specific Integrated Circuit)或逻辑可编程门阵列(FPGA，Field－Programmable Gate Array)实现。输入/输出接口13可以采用如显示屏、触摸屏、扬声器等输入/输出器件实现。存储介质14可以采用闪存、硬盘、光盘等非易失性存储介质实现，也可以采用双倍率(DDR，Double Data Rate)动态缓存等易失性存储介质实现，示例性地，存储介质14可以与机器学习模型训练装置10共同在同一地点设置，也可以相对于机器学习模型训练装置10异地远程设置，或者相对机器学习模型训练装置10本地和异地分布设置。网络接口12向处理器11提供外部数据如异地设置的存储介质14的访问能力，示例性地，网络接口12可以基于近场通信(NFC，Near Field Communication)技术、蓝牙(Bluetooth)技术、紫蜂(ZigBee)技术进行的近距离通信，另外，还可以实现如基于码分多址(CDMA，CodeDivision Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division MultipleAccess)等通信制式及其演进制式的通信。

基于上述机器学习模型训练方法、以及机器学习模型训练装置的硬件结构提出本发明实施例。需要指出的是，本发明实施例中均以二分类问题也就是测试集中的样本归属于两个类别为例进行说明，可以理解地，对于测试集中的样本归属与三个以上类别的情况可以参照下述的记载而实施。

本发明实施例提供的机器学习模型训练方法应用于监督学习方式训练机器学习模型的场景。参见图1，在监督学习方式中，涉及将训练集中的训练样本(包括训练样本的特征以及已知的类别)输入机器学习模型进行训练，并利用测试集中的测试样本(测试样本的类别对于机器学习模型是未知的)对机器学习模型的分类性能进行检测。

参见图3示出的机器学习模型训练方法的一个可选的流程示意图，包括以下步骤：

步骤101，确定训练集中不同类别样本的散度的差值，和/或训练集中样本的ROC。

在一个实施例中，当解决一个二分类问题时，即需要区分的类别的数量仅为2种，设为类别0和类别1，并且，实际应用中，训练集中某一类别的样本(训练样本)的数量，与机器学习模型将该类别的样本判决为相应类别的概率之间满足高斯正态分布。

实际应用中，参见图4，训练集中类别0的样本的数量，与机器学习模型将类别0的样本判决为类别0的概率之间满足高斯正态分布训练集中类别1的样本的数量，与机器学习模型将类别1的样本判决为类别1的概率之间满足高斯正态分布那么，训练集中类别0和类别1的散度的差值，可以表示为类别0和类别1的高斯正态分布曲线之间的距离，或者，表示为类别0和类别1的高斯正态分布曲线之间的重合面积。

可以看出，类别0和类别1的散度的差值，与高斯正态分布的均值之间的差值线性正相关，与高斯正态分布的方差的加和线性负相关，因此，类别0和类别1的散度可以量化表示为：高斯正态分布的均值之间的差值(μ₁-μ₀)，与高斯正态分布的方差的加和的比值当然，也可以量化为基于比值的等比变形，量化为基于比值的分子和/或分母的乘方变，或者，量化为基于比值的分子和/或分母的开根变形。

步骤102，基于散度的差值和/或ROC，构造使用训练集训练的机器学习模型的损失函数。

在一个实施例中，基于这样的方式构造散度损失函数：确定测试集中不同类别的样本的数目、与各类别的样本被机器学习模型判决为相应类别概率之间所服从的正态分布；基于所确定的正态分布的方差和均值构造散度损失函数。示例性地，基于不同类别的样本所服从正态分布的均值的差值，与不同类别的样本所服从正态分布的方差的加和之间的比值，或者比值的变形构造散度损失函数。

例如，对于二分类问题，训练集中类别0的样本的数量为M，与机器学习模型将类别0的样本判决为类别0的概率之间满足高斯正态分布训练集中类别0的样本的数量N，与机器学习模型将类别1的样本判决为类别1的概率之间满足高斯正态分布基于类别0和类别1的样本所服从正态分布的均值的差值(μ₁-μ₀)，与类别0和类别1的样本所服从正态分布的方差的加和之间的比值构造散度损失函数Loss_divergence，或基于比值的分子和/或分母的乘方变形构造散度损失函数Loss_divergence，又或者，基于比值的分子和/或分母的开根变形构造散度损失函数Loss_divergence。

在一个实施例中，仍以二分类问题为例，还可以基于ROC曲线采用这样的方式构造ROC损失函数：确定训练集中类别0的样本j被机器学习模型判决为类别0的概率大于训练集中类别1的样本i被机器学习模型判决为类别1的概率的计数；基于计数或者计数的变形确定ROC损失函数Loss_AUC。

在一个实施例中，基于散度和ROC曲线，采用这样的方式：构造使用训练集训练的机器学习模型的损失函数，包括：

基于散度损失函数Loss_divergence和ROC损失函数Loss_AUC的加权值确定损失函数，例如，为散度损失函数Loss_divergence和ROC损失函数Loss_AUC对应分配加权因子α、β，相应的加权值为αLoss_divergence+βLoss_AUC。

在一个实施例中，基于散度损失函数和ROC损失函数的加权值，采用这样的方式确定损失函数：

基于散度损失函数、ROC损失函数、以及交叉熵损失函数的加权值，确定损失函数。

例如，基于散度损失函数Loss_divergence、ROC损失函数Loss_AUC和交叉熵损失函数Loss_{cross_entropy}的加权值确定损失函数，为散度损失函数Loss_divergence和ROC损失函数Loss_AUC对应分配加权因子α、β、(1-α-β)，相应的加权值为αLoss_divergence+βLoss_AUC+(1-α-β)Loss_{cross_entropy}。

步骤103，基于测试集迭代训练机器学习模型。

在每次迭代训练中，将训练集中的训练样本输入机器学习模型，使机器学习模型学习不同类别样本的特征，逐步发现训练样本的特征与训练样本的类别之间的关系，从而，具有对测试集中的测试样本进行分类的能力。特别地，每次迭代训练可以使用不同的训练集。

步骤104，比较相邻两次迭代训练机器学习模型后对应的损失函数的相对变化值；当损失函数的相对变化值小于指定值时，停止迭代训练机器学习模型；当损失函数的相对变化值不小于指定值时，返回步骤103继续下一次迭代训练。

由于损失函数与机器学习模型判决样本的类别的概率有关，而机器学习模型每次迭代训练后的分类性能都会发生变化，因此损失函数随着机器学习模型的不断迭代也发生变化。在每次迭代训练机器学习模型之后，基于当前迭代所使用的训练集确定最近一次迭代训练后机器学习模型对应的损失函数，与基上一次迭代训练后机器学习模型对应的损失函数进行比较，如果损失函数的相对变化值小于指定值，说明机器学习模型的分类性能稳定，不需要继续迭代训练；否则，需要继续迭代训练直至最近两次迭代对应的损失函数的相对变化值小于指定值。

再结合具体的示例对上述训练机器学习模型的处理进行说明。

一、构造基于散度的损失函数(散度损失函数)并训练机器学习模型

在一个实施例中，在监督学习方式训练机器学习模型时，如图4所示，当测试集中的样本只有两种不同类别时对样本的分类构成一个二分类问题，假设训练集中任一类别的样本的数量，与训练集中该类别的样本被机器学习模型判决为相应类别的概率之间服从高斯正态分布：

以类别0和类别1为例，类别0和类别1的样本的散度不同，类别1对应服从的高斯正态分布的均值为μ₁，方差为类别0对应服从的高斯正态分布的均值为μ₀，方差为那么对于一个理想的对类别0和类别1进行分类的机器学习模型(分类模型)来说，类别0和类别1的高斯正态分布曲线距离越远，重叠的区域越小，则基于类别0和类别1训练出的机器学习模型的分类性能越理想。

在监督学习方式中对机器学习模型进行训练时，训练集中不同类别的样本满足的高斯正态分布的均值差的绝对值越大，方差(或者方差的加和)越小，则基于不同标记的样本的机器学习模型的性能越理想。

通过上述的构造损失函数Loss_divergence，通过迭代的方式训练机器学习模型，每迭代训练一次机器学习模型，计算损失函数Loss_divergence与上一次迭代训练后的损失函数Loss_divergence的相对变化值，如果这个相对变化值少于指定值，则认为机器学习模型的性能达到需求，停止对机器学习模型的训练。

定义了如公式(2)所示的损失函数：

其中，

这里N为类别1所包含的样本的数量，M为类别0所包含的样本的数量，为类别1第j个样本被机器学习模型判决为类别1的概率，为类别0第j个样本被机器学习模型判决为类别0的概率。

上述的通过迭代训练机器学习模型使相邻两次迭代后的损失函数Loss_divergence的相对变化值少于指定值的过程，可以等同与最大化公式(2)示出的损失函数Loss_divergence的过程；实际应用中，可针对损失函数Loss_divergence实施梯度下降法来最大化损失函数Loss_divergence，从而完成机器学习模型的训练过程。示例性地，梯度下降法可以为随机梯度下降法、批量梯度下降法等。

二、构造基于ROC的损失函数(ROC损失函数)并训练机器学习模型

在另一个实施例中，除了用上述的利用散度构造损失函数以外，发明人发现通过ROC曲线构造损失函数也是训练机器学习模型的一项非常重要的统计指标，如果通过直接优化(最大化)ROC曲线的方式训练机器学习模型，可以取得训练机器学习模型的优良的效果。使用ROC下面的曲线面积AUC来构造AUC损失函数，AUC损失函数计算公式如下：

其中,

由于AUC函数的不可导的特性，为了使用随机梯度下降法或批量梯度下降法最大化AUC损失函数的方式来训练机器学习模型，有必要构造一个可以求导的损失函数来逼近AUC损失函数，函数逼近理论也得知，切比雪夫多项式是最佳一致逼近多项式，因此用切比雪夫多项式来逼近H(x)，使用切比雪夫多项式逼近阶跃函数的结果的示意图如图5所示，曲线为阶跃函数的曲线，折线为切比雪夫多项式的曲线，可以看出切比雪夫多项式能很好地逼近阶跃函数，同时因为曲线是平滑的因此还具有可导的特性。用切比雪夫多项式逼近阶跃函数后，使用二项式定理对和进行二项式展开，这样在计算AUC的过程中不需要排序，把时间复杂度从O(nlogn)降到O(n)。

通过构造基于ROC的损失函数Loss_AUC，通过迭代的方式训练机器学习模型，每迭代训练一次机器学习模型，计算损失函数Loss_AUC与上一次迭代训练后的损失函数Loss_AUC的相对变化值，如果这个相对变化值少于指定值，则认为机器学习模型的性能达到需求，停止对机器学习模型的训练。

上述的通过迭代训练机器学习模型使相邻两次迭代后的损失函数Loss_AUC的相对变化值少于指定值的过程，等同于最大化公式(7)示出的损失函数Loss_AUC的过程，实际应用中，可针对损失函数Loss_AUC实施梯度下降法来最大化损失函数，从而完成机器学习模型的训练过程。示例性地，梯度下降法可以为随机梯度下降法、批量梯度下降法等。

三、构造基于散度和ROC的损失函数并训练机器学习模型

在一个实施例中，可以使用散度构造的损失函数Loss_divergence、AUC构造的损失函数Loss_AUC的加权组合构造新的损失函数：

Loss＝αLoss_divergence+βLoss_AUC (9)

或者，可以使用散度构造的损失函数Loss_divergence、AUC构造的损失函数Loss_AUC并结合相关技术的任意一种损失函数如交叉熵损失函数Loss_{cross_entropy}的加权组合来当成一个新的损失函数：

Loss＝αLoss_divergence+βLoss_AUC+(1-α-β)Loss_{cross_entropy} (10)

其中α和β是加权因子。

通过上述的构造加权的损失函数Loss，通过迭代的方式训练机器学习模型，每迭代训练一次机器学习模型，计算损失函数Loss与上一次迭代训练后的损失函数Loss的相对变化值，如果这个相对变化值少于指定值，则认为机器学习模型的性能达到需求，停止对机器学习模型的训练。

上述的通过迭代训练机器学习模型使相邻两次迭代后的损失函数Loss的相对变化值少于指定值的过程，可以等同与最大化公式(9)或(10)示出的损失函数Loss的过程；实际应用中，可针对损失函数Loss实施梯度下降法来最大化损失函数Loss，从而完成机器学习模型的训练过程。示例性地，梯度下降法可以为随机梯度下降法、批量梯度下降法等。

以训练用于信用评级的机器学习模型举例，建立一个如图6示例性示出的神经网络模型，用于对未知的用户的信用进行预测，如预测用户还款能力，包括两种情况：用户为好用户(按时还贷的用户)；用户为坏用户(逾期还贷或不还贷的用户)。

输入层负责接收输入及分发到隐藏层，隐藏层负责所需的计算及输出结果给输出层，输出层输出用户信用的评估结果。

神经网络模型的输入层输入的训练样本的特征为衍生出来的用户的信用评估变量，例如社交变量(账号长度、账号使用时间、是否会员、活跃好友数量等)，支付变量(支付频次，平均支付金额等)。

如果基于公式(1)至公式(8)构造训练神经网络模型的损失函数，那么在公式(3)中，表示：如果第j个样本为坏样本(逾期还贷的用户)，那为神经网络模型把第j个样本判为坏用户的概率；在公式(4)中，表示：如果第j个样本为好样本(未逾期还贷的用户)，那为神经网络模型把第j个样本判为好用户的概率。

假设信用评估样本的训练集存在样本不均衡的问题，如99％的样本是好用户，只有1％的样本是坏用户。所以如果单纯使用已有技术的训练神经网络模型，如交叉熵损失函数来训练神经网络模型时，导致训练出的神经网络模型会将测试集中的多数用户判决为好用户，即使已知测试集中的多数用户为坏用户，也就是训练出神经网络模型的性能不满足实用需求。

基于本发明实施例提供的散度损失函数和AUC损失函数加权组合构造的如公式(9)示出的新的损失函数，或者散度损失函数、AUC损失函数和交叉熵损失函数的加权组合构造的如公式(10)示出的新的损失函数，来训练神经网络模型，其中散度损失函数可以通过结合公式(1)至公式(6)计算得出，AUC损失函数可以通过公式(7)和公式(8)计算得出。

使用随机梯度下降法最大化损失函数的方式，来训练神经网络模型，包括：通过反向传播的方式计算损失函数的梯度，基于梯度来更新(迭代训练)神经网络模型，例如当梯度表征最近一次对神经网络模型迭代训练后的损失函数，相对于上一次迭代训练后的神经网络模型的损失函数的变化值低于指定值时，说明神经网络模型的性能已经稳定，可以停止迭代训练。

实际测试发现，神经网络模型的性能比使用交叉熵来训练得到的神经网络模型的性能，其柯尔莫哥洛夫-斯摩洛夫(KS，Kolmogorov-Smirnov)统计指标与使用交叉熵来训练得到的神经网络模型的KS统计指标提高一倍，验证了使用本发明实施例方案训练的神经网络模型具有更优的性能。

继续对机器学习模型训练装置的逻辑功能结构进行说明，参见图7示出的逻辑功能结构的一个可选的示意图，包括：确定单元10、构造单元20、训练单元30和比较单元40，以下对各单元进行说明。

确定单元10，用于确定训练集中样本的散度的差值，和/或监督学习方式的训练集中样本的ROC。

构造单元20，用于基于散度的差值和/或ROC曲线，构造使用训练集训练的机器学习模型的损失函数。

训练单元30，用于基于所述测试集迭代训练机器学习模型。

比较单元40，用于比较相邻两次迭代训练所述机器学习模型的损失函数的相对变化值；所述训练单元30，还用于基于测试集迭代训练机器学习模型。

在一个实施例中，构造单元20，还用于确定测试集中不同类别的样本的数目、与各类别的样本被机器学习模型判决为相应类别概率之间所服从的正态分布；基于所确定的正态分布的方差和均值构造散度损失函数。

在一个实施例中，构造单元20，还用于基于不同类别的样本所服从正态分布的均值的差值，与不同类别的样本所服从正态分布的方差的加和之间的比值，构造所述散度损失函数。

在一个实施例中，构造单元20，还用于比较所述训练集中第一类别的样本被所述机器学习模型判决为所述第一类别的第一概率，与所述训练集中第二类别的样本被所述机器学习模型判决为所述第二类别的第二概率，基于所述第一概率大于所述第二概率的计数确定ROC损失函数。

在一个实施例中，构造单元20，还用于基于散度损失函数和ROC损失函数的加权值确定损失函数；其中，

散度损失函数为基于训练集中不同类别的样本所服从正态分布的均值的差值，与不同类别的样本所服从正态分布的方差的加和之间的比值确定；

ROC损失函数为基于训练集中第一类别的样本被机器学习模型判决为第一类别的概率，大于训练集中第二类别的样本被机器学习模型判决为第二类别的概率的计数确定。

在一个实施例中，构造单元20，还用于基于散度损失函数、ROC损失函数、以及交叉熵损失函数的加权值，确定损失函数。

对上述机器学习模型训练装置在实际应用中的部署方式进行说明，机器学习模型可以采用多种方式，示例性地，包括以下几种方式：

实现方式1)移动终端

本发明实施例提供的确定信用的装置可以实施为具有图2所示硬件结构的移动终端，由移动终端通过运行应用程序或软件功能模块实施上述的确定信用的方法。

例如，如图8-1所示，可提供为使用C/C++、Java等编程语言开发的软件功能模块(包括一系列的可供处理器执行的指令)，嵌入到基于Android或iOS等系统的各种移动终端Apps中(例如微信等)，从而直接使用移动终端自身的计算资源(处理器)执行本发明实施例提供的用于评估用户信用的机器学习模型的训练方法，并基于训练得到的机器学习模型对移动终端用户进行信用评估。

实现方式2)服务器端

如图8-2所示，本发明实施例可提供基于C/C++、Java等编程语言写成单独的应用软件或大型软件系统中的软件功能模块(包括一系列的可供处理器执行的指令)，运行于服务器端81，将接收到的来自单个或众多用户82、83的信用评估变量，例如社交变量(账号长度、账号使用时间、是否会员、活跃好友数量等)，支付变量(支付频次，平均支付金额等)，对用户进行信用评估，然后实时或非实时地输出服务器端信用评估结果。

实现方式3)分布式的信用评估平台

本发明实施例还提供为多台服务器构成的分布式的并行计算平台，搭载交互的网络(Web)界面或其他各类用户界面，形成供个人、群体或企业使用的地理位置信息挖掘及信用评估平台。使用者可以将已有的数据包批量上传给平台以获得各种计算结果(例如中间结果和信用评估的最终结果)，也可以将实时的数据流传输给此平台来实时计算和更新结果(例如中间结果和信用评估的最终结果)

实现方式4)服务器端应用程序接口(API，Application Interface)及插件

本发明实施例可提供为服务器端的API、软件开发套件(SDK，SoftDevelopmentToolkit)或插件，供其他的服务器端应用程序开发人员调用，并嵌入到各类应用程序中。

实现方式5)移动设备客户端API及插件

本发明实施例可提供为移动设备端的API、SDK或插件，供其他的移动端应用程序开发人员调用，并嵌入到各类应用程序中。

实现方式6)云端开放服务

在本发明实施例可提供的机器学习模型训练及信用评估平台，本发明实施例还可提供为机器学习模型训练及信用评估平台的API、SDK及插件等，打包封装成可供企业内外人员开放使用的云服务。或者将各种结果(中间结果以及信用评估的最终结果)以适当形式展示在各种终端显示设备上，供个人、群体或企事业单位查询用户信用。

本发明实施例技术方案带来的有益效果：

构造了两种新的损失函数，分别为：散度损失函数和AUC函数，可以单独使用对机器学习模型进行训练，以加权的形式对机器学习模型进行训练，或者与已有的损失函数以加权的形式对机器学习模型进行训练，该损失函数分别从散度和AUC曲线等两个角度来评估模型的效果，训练方法简单，经过实际测试，优于交叉熵等传统损失函数克服样本不均衡问题的效果，提升了机器学习模型的性能。

本领域的技术人员可以理解：实现上述方法的全部或部分步骤可以通过应用指令相关的硬件来完成，前述的应用可以存储于一计算机可读取存储介质中，该应用在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储移动终端、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储应用代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机移动终端(可以是个人计算机、服务器、或者网络移动终端等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储移动终端、RAM、ROM、磁碟或者光盘等各种可以存储应用代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种机器学习模型训练方法，其特征在于，所述方法包括：

确定训练集中样本的散度的差值，和/或所述训练集中样本的受试者工作特征曲线ROC；

基于所述训练集迭代训练所述机器学习模型；

2.根据权利要求1所述的方法，其特征在于，所述基于所述散度的差值，构造使用所述训练集训练的机器学习模型的损失函数，包括：

确定所述训练集中不同类别的样本的数目、与各类别的样本被所述机器学习模型判决为相应类别概率之间所服从的正态分布；

基于所确定的正态分布的方差和均值构造散度损失函数。

3.根据权利要求2所述的方法，其特征在于，所述基于所确定的正态分布的方差和均值构造散度损失函数，包括：

基于不同类别的样本所服从正态分布的均值的差值，与不同类别的样本所服从正态分布的方差的加和之间的比值，构造所述散度损失函数。

4.根据权利要求1所述的方法，其特征在于，所述基于所述ROC构造使用所述训练集训练的机器学习模型的损失函数，包括：

比较所述训练集中第一类别的样本被所述机器学习模型判决为所述第一类别的第一概率，与所述训练集中第二类别的样本被所述机器学习模型判决为所述第二类别的第二概率，基于所述第一概率大于所述第二概率的计数确定ROC损失函数。

5.根据权利要求1所述的方法，其特征在于，所述基于所述散度的差值和所述ROC，构造使用所述训练集训练的机器学习模型的损失函数，包括：

基于散度损失函数和ROC损失函数的加权值确定所述损失函数；其中，

所述散度损失函数为基于所述训练集中不同类别的样本所服从正态分布的均值的差值，与不同类别的样本所服从正态分布的方差的加和之间的比值确定；

所述ROC损失函数为基于所述训练集中第一类别的样本被所述机器学习模型判决为所述第一类别的概率，大于所述训练集中第二类别的样本被所述机器学习模型判决为所述第二类别的概率的计数确定。

6.根据权利要求5所述的方法，其特征在于，所述基于散度损失函数和ROC损失函数的加权值确定所述损失函数，包括：

基于所述散度损失函数、ROC损失函数、以及交叉熵损失函数的加权值，确定所述损失函数。

7.一种机器学习模型训练装置，其特征在于，所述装置包括：

确定单元，用于确定训练集中样本的散度的差值，和/或所述训练集中样本的受试者工作特征曲线ROC；

8.根据权利要求7所述的装置，其特征在于，

所述构造单元，还用于确定所述训练集中不同类别的样本的数目、与各类别的样本被所述机器学习模型判决为相应类别概率之间所服从的正态分布；基于所确定的正态分布的方差和均值构造散度损失函数。

9.根据权利要求8所述的装置，其特征在于，

所述构造单元，还用于基于不同类别的样本所服从正态分布的均值的差值，与不同类别的样本所服从正态分布的方差的加和之间的比值，构造所述散度损失函数。

10.根据权利要求7所述的装置，其特征在于，

所述构造单元，还用于比较所述训练集中第一类别的样本被所述机器学习模型判决为所述第一类别的第一概率，与所述训练集中第二类别的样本被所述机器学习模型判决为所述第二类别的第二概率，基于所述第一概率大于所述第二概率的计数确定ROC损失函数。

11.根据权利要求7所述的装置，其特征在于，

所述构造单元，还用于基于散度损失函数和ROC损失函数的加权值确定所述损失函数；其中，

12.根据权利要求11所述的装置，其特征在于，

所述构造单元，还用于基于所述散度损失函数、所述ROC损失函数、以及交叉熵损失函数的加权值，确定所述损失函数。