CN111080397A - 信用评估方法、装置及电子设备 - Google Patents

信用评估方法、装置及电子设备 Download PDF

Info

Publication number
CN111080397A
CN111080397A CN201911126535.2A CN201911126535A CN111080397A CN 111080397 A CN111080397 A CN 111080397A CN 201911126535 A CN201911126535 A CN 201911126535A CN 111080397 A CN111080397 A CN 111080397A
Authority
CN
China
Prior art keywords
model
credit
machine learning
solving
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911126535.2A
Other languages
English (en)
Inventor
赵科科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911126535.2A priority Critical patent/CN111080397A/zh
Publication of CN111080397A publication Critical patent/CN111080397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

公开一种信用评估方法,应用于风险评估系统,所述方法包括:将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分,实现了快速地求解可解释的机器学习模型,避免了人工筛选机器学习模型中不可解释的模型变量的低效模型训练,提高了模型训练效率。

Description

信用评估方法、装置及电子设备
技术领域
本申请涉及机器学习技术领域、计算机应用技术领域,尤其涉及信用评估方法、装置、电子设备。
背景技术
机器学习技术在过去十年中发生了显著的变化,从在实验室的纯粹的学术研究到广泛应用在各个生产领域,比如:金融行业、电商零售行业,IT行业,医疗行业等。
机器学习模型本质上就是一种算法,该算法试图从数据中学习潜在模式和关系,而不是通过代码构建一成不变的规则。在训练及应用机器学习模型解决问题时,通常倾向于注意机器学习模型的性能指标,比如:准确性、精确度和召回率等,而往往忽视了机器学习模型的可解释性,也即,可以用人类理解的逻辑及推理来解释机器学习模型解决问题的过程及原理,从而使得用户建立对机器学习模型的信任度。
发明内容
本申请提供一种信用评估方法,所述方法应用于风险评估系统,所述方法包括:
将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;
将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
可选的,所述机器学习模型为逻辑回归模型,所述将与信用评估相关的训练样本输入至机器学习模型,包括:
对所述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本;
对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
将所述WOE值输入至所述逻辑回归模型进行模型训练。
可选的,所述逻辑回归模型为二分类逻辑回归模型,所述将所述WOE值输入至所述逻辑回归模型进行模型训练,包括:
构建并初始化所述二分类逻辑回归模型对应的损失函数,以及与所述损失函数对应的梯度函数;
将所述WOE值、所述损失函数及所述梯度函数输入至所述求解算法,以由所述求解算法对所述损失函数按照所述梯度函数所指示的下降梯度进行求解,得到所述损失函数的值为最优解时的模型系数为非负值的损失函数。
可选的,还包括:
将与预测样本对应的用户的信用评分,输出至与风险评估系统对接的业务系统,以使所述业务系统基于用户的信用评分进行对应的信用业务处理。
可选的,所述带约束条件的求解算法为带边界约束的拟牛顿算法。
可选的,所述带边界约束的拟牛顿算法为L-BFGS-B算法。
本申请还提供一种信用评估装置,所述装置应用于风险评估系统,所述装置包括:
训练求解模块,将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;
评估预测模块,将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
可选的,所述机器学习模型为逻辑回归模型;所述训练求解模块进一步:
对所述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本;
对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
将所述WOE值输入至所述逻辑回归模型进行模型训练。
可选的,所述逻辑回归模型为二分类逻辑回归模型,所述训练求解模块进一步:
构建并初始化所述二分类逻辑回归模型对应的损失函数,以及与所述损失函数对应的梯度函数;
将所述WOE值、所述损失函数及所述梯度函数输入至所述求解算法,以由所述求解算法对所述损失函数按照所述梯度函数所指示的下降梯度进行求解,得到所述损失函数的值为最优解时的模型系数为非负值的损失函数。
可选的,所述评估预测模块进一步:
将与预测样本对应的用户的信用评分,输出至与风险评估系统对接的业务系统,以使所述业务系统基于用户的信用评分进行对应的信用业务处理。
可选的,所述带约束条件的求解算法为带边界约束的拟牛顿算法。
可选的,所述带边界约束的拟牛顿算法为L-BFGS-B算法。
本申请还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述的方法。
通过以上实施例,基于与信用评估相关的训练样本训练机器学习模型;以及,基于带约束条件的求解算法求解得到模型参数非负值的机器学习模型,并将训练完成的模型参数非负值的机器学习模型作为风险评估模型预测用户信用评分,实现了快速地求解可解释的机器学习模型,避免了人工筛选机器学习模型中不可解释的模型变量的低效模型训练,提高了模型训练效率。
附图说明
图1是一示例性实施例提供的一种用户信用评估的组网图;
图2是一示例性实施例提供的一种信用评估方法的流程图;
图3是一示例性实施例提供的一种电子设备的硬件结构图;
图4是一示例性实施例提供的一种信用评估装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的信用评估的相关技术,进行简要说明。
请参见图1,图1是本说明书一实施例提供的一种用户信用评估的组网图。
如图1所示的用户信用评估的组网包括:用户、业务系统、风险评估系统;其中,用户可以通过各种终端的应用与业务系统通信并进行业务操作,业务系统对接与风险评估系统通信,并可以将通过风险评估系统对用户进行信用评估,从而根据风险评估系统反馈的用户信用评估结果来对该用户的业务操作进行控制。
例如,业务系统为支付宝业务系统,用户通过支付宝客户端访问支付宝业务系统进行业务操作,支付宝业务系统通过对接的风险评估系统得到用户的信用评分,根据该信用评分来控制该用户的花呗、借呗等业务的额度及还款周期等。
在以上示出的组网架构的基础上,本说明书旨在提出一种,基于与信用评估相关的训练样本和带约束条件的求解算法训练求解模型参数非负值的机器学习模型,并进行用户信用评估的技术方案。
在实现时,风险评估系统将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,约束条件包括指定求解获得的机器学习模型的模型参数为非负值。
进一步地,风险评估系统将与待信用评估用户相关的预测样本输入至训练完成的风险评估模型,得到与预测样本对应的用户的信用评分。
在以上技术方案中,基于与信用评估相关的训练样本训练机器学习模型;以及,基于带约束条件的求解算法求解得到模型参数非负值的机器学习模型,并将训练完成的模型参数非负值的机器学习模型作为风险评估模型预测用户信用评分,实现了快速地求解可解释的机器学习模型,避免了人工筛选机器学习模型中不可解释的模型变量的低效模型训练,提高了模型训练效率。
下面通过具体实施例并结合具体的应用场景对本说明书进行描述。
请参考图2,图2是本说明书一实施例提供的一种信用评估方法的流程图,所述方法应用于风险评估系统;上述方法执行以下步骤:
步骤202、将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值。
步骤204、将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
在本说明书中,上述风险评估系统,可以包括与任何业务形式的业务系统对接的用户风险评估的机器或机器集群。
例如,在实际应用中,上述风险评估系统可以包括与支付宝业务系统对接的用户信用风险评估的机器或机器集群。
又例如,在实际应用中,上述风险评估系统可以包括与淘宝及天猫业务系统对接的用户信用风险评估的机器或机器集群。
再例如,在实际应用中,上述风险评估系统可以包括与阿里云业务系统对接的用户信用风险评估的基于分布式技术(比如:Hadoop及Spark)搭建的机器或机器集群。
在本说明书中,上述机器学习模型,是指运行在上述风险评估系统上的进行信用评估的机器学习模型。
在示出的一种实施方式中,上述机器学习模型为逻辑回归模型。
为了方便理解,这里简单介绍下逻辑回归模型。逻辑回归模型对应英文为Logistic Regression,又被简称为LR模型,是一种广义的线性回归分析模型。LR模型通常可用于数据挖掘,疾病自动诊断,经济预测等。例如,基于LR模型可以预测不同年龄及地域的人发生某种疾病的概率。LR模型的详细构成及原理,请参见LR模型的技术说明,这里不再赘述。
在本说明书中,上述求解算法,是指上述风险评估系统中的用于对上述机器学习模型进行最优化问题求解的算法;
其中,上述求解算法为基于带约束条件的求解算法,上述约束条件包括指定求解获得的上述机器学习模型的模型参数为非负值。
在示出的一种实施方式中,上述带约束条件的求解算法为带边界约束的拟牛顿算法。
为了方便理解,这里简单介绍下牛顿算法(Newton's method,简称“牛顿法”)和拟牛顿算法(Quasi-Newton Methods,简称“拟牛顿法”)。
牛顿法属于利用一阶和二阶导数的无约束目标最优化方法,其基本思想是,在每一次迭代中,以牛顿方向为搜索方向进行更新。牛顿法对目标的可导性更严格,要求二阶可导,有Hesse矩阵(黑塞矩阵,又被译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵)求逆的计算复杂的缺点。牛顿法的详细原理,请参见牛顿法的技术说明,这里不再赘述。
拟牛顿法是基于牛顿法的一种改进的算法。拟牛顿法拟牛顿法是求解非线性优化问题最有效的方法之一。由于牛顿法需要计算二阶偏导数,计算量较大,而且有时目标函数的Hesse矩阵无法保持正定,此时牛顿法会失效。拟牛顿法的思想就是不使用Hesse矩阵,而是构造一个近似Hesse矩阵(或其逆矩阵)的对称正定矩阵来代替,在“拟牛顿”的条件下优化目标函数。拟牛顿法可以包括多种算法,比如:DFP(Davidon-Fletcher-Powell)算法、BFGS算法、L-BFGS(Limit-memory BFGS,有限内存的BFGS)算法等。拟牛顿法的详细原理,请参见拟牛顿法的技术说明,这里不再赘述。需要说明的是,通常的拟牛顿算法都为无约束的算法。
在示出的一种实施方式中,上述带边界约束的拟牛顿算法为L-BFGS-B算法。L-BFGS-B(Limit-memory BFGS Bound-constrained,带边界约束的L-BFGS)算法。
在本说明书中,上述风险评估系统将与信用评估相关的训练样本输入至上述机器学习模型,并基于带约束条件的上述求解算法求解上述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,上述约束条件包括指定求解获得的上述机器学习模型的模型参数为非负值。
例如,在实际应用中,上述风险评估系统将与信用评估相关的训练样本输入至模型为逻辑回归模型的机器学习模型,并基于L-BFGS-B算法求解该机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,L-BFGS-B算法的约束条件包括指定求解获得的该机器学习模型的模型参数为非负值。
需要说明的是,与信用评估相关的上述训练样本,可以包括与信用评估相关的海量用户的脱敏数据。上述训练样本所包括的脱敏数据的数据信息种类和内容,在本说明书中不作具体限定。
在示出的一种实施方式中,在上述风险评估系统将与信用评估相关的训练样本输入至机器学习模型进行模型训练的过程中,上述风险评估系统对上述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本。
例如,上述训练样本可以包括用户的年龄、性别、地域、消费信息等多个特征。上述训练样本上述风险评估系统对上述训练样本进行可以按照上述训练样本年龄特征对上述训练样本进行数据分箱处理(比如:将18岁以下的用户对应的训练样本划分到同一组,将19岁至35岁的用户对应的训练样本划分到同一组,将36岁至60岁的用户对应的训练样本划分到同一组,将61岁及以上的用户对应的训练样本划分到同一组),得到对应的被划分到不同分组(4个年龄分组)的训练样本。
需要说明的是,通过对上述训练样本进行数据分箱,可以将上述训练样本进行离散化,避免上述训练样本中的异常样本对模型训练产生干扰。比如,上述训练样本存在年龄为200岁的异常样本。
在本说明书中,进一步地,上述风险评估系统对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
接着以上示例继续举例,上述风险评估系统对属于不同分组(4个年龄分组)的训练样本,进行WOE(Weight of Evidence,证据权重)计算,得到与不同分组对应的WOE值(比如:每个分组对应的WOE值具体可以包括该分组的信用好的用户和信用差的用户分别对应的WOE值)。WOE计算的详细过程,请参见WOE技术说明这里不再赘述。
在本说明书中,进一步地,上述风险评估系统将上述WOE值输入至为逻辑回归模型的上述机器学习模型进行模型训练。
接着以上示例继续举例,在实际应用中,上述风险评估系统可以将包括基于年龄的不同分组对应的WOE值输入至为逻辑回归模型的上述机器学习模型进行模型训练。
在示出的一种实施方式中,上述机器学习模型的逻辑回归模型为二分类逻辑回归模型,在将上述WOE值输入至为逻辑回归模型的上述机器学习模型进行模型训练的过程中,上述风险评估系统构建并初始化上述二分类逻辑回归模型对应的损失函数,以及与上述损失函数对应的梯度函数。
例如,在实际应用中,上述风险评估系统构建并初始化作为上述二分类逻辑回归模型对应的基于对数(log)构建的损失函数,以及与该损失函数对应的梯度函数。
为了方便理解这里简单介绍下损失函数(Loss Function)。损失函数常被称为代价函数(Cost Function);两者概念总体相似,严格意义上的区别在于:损失函数是定义在单个样本上的,算的是一个样本的误差。代价函数是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。为了保持概念统一和方便理解,在本说明书中描述的损失函数的概念与代价函数相同,是对整个训练集上的所有样本误差的平均。
在实际应用中,损失函数具体可以包括经验风险损失函数和结构风险损失函数;其中,经验风险损失函数反映的是预测结果和实际结果之间的差别,结构风险损失函数则是经验风险损失函数加上正则项(L0、L1(基于Lasso算法)、L2(基于Ridge算法),正则项用于防止机器学习模型的损失函数在模型训练过程过拟合,具体请参见机器学习的正则项的技术说明,这里不再赘述。
在本说明书中,上述梯度函数为用于求上述损失函数的梯度的函数。在实际应用中,对整个训练集的所有样本对应的上述损失函数的多个变量的求导,就被称为求上述损失函数的梯度。
在本说明书中,在构建上述损失函数及其对应的上述梯度函数后,上述风险评估系统将上述WOE值、上述损失函数及上述梯度函数输入至上述求解算法,以由上述求解算法对上述损失函数按照上述梯度函数所指示的下降梯度进行求解,得到上述损失函数的值为最优解时的模型系数为非负值的损失函数。
例如,在实际应用中,上述风险评估系统将上述WOE值、基于对数(log)构建的损失函数及该损失函数对应梯度函数输入至L-BFGS-B算法(一种带边界约束的拟牛顿算法),以由该求解算法对该损失函数按照该梯度函数所指示的下降梯度进行求解,得到该损失函数的值为最小值(最优解)时的模型系数为非负值的损失函数。以上求解的过程可以使用以下示出的公式1进行表示:
公式1:
Figure BDA0002277013640000101
其中:y∈{1,-1}
如以上公式1所示,L-BFGS-B算法的约束条件包括指定求解获得的二分类逻辑回归模型(上述机器学习模型)的模型参数w为非负值,也即,该约束条件为w>=0,在该该约束条件下,L-BFGS-B算法求解f(w)的最小值(minf(w),min()为求f(w)的最小值的函数);
如以上公式1所示,w为待求解的模型参数(通常为若干个参数wa、wb、wc...wm组成的向量;其中,m为自然数);xi表示每个训练样本的特征向量(比如:年龄分组、性别、收入等若干特征对应的若干特征向量xa、xb、xc...xm;其中,m为自然数);wTxi表示待求解的模型参数w(通常为若干个参数wa、wb、wc...wm组成的向量)的转置矩阵与每个训练样本的特征向量(比如:年龄分组、性别、收入等若干特征对应的若干特征向量xa、xb、xc...xm)的乘积之和(比如:wa*xa+wb*xb+wc*xc+...+wm*xm)。
如以上公式1所示,b为截距;f(w)表示上述二分类逻辑回归模型的损失函数;n表示训练样本的总数量;Ci表示每个训练样本的权重;yi表示每个训练样本的标签,yi的取值可以为集合{1,-1}中的集合元素元素值1或-1;λ||w||2表示损失函数f(w)对应的正则项,该正则项防止损失函数f(w)在训练过程中过拟合;其中,λ为正则项系数,||w||2表示为w的L2正则项。
通过如以上所示的公式1,上述风险评估系统基于带约束条件的上述求解算法(比如:L-BFGS-B算法)进行求解得到f(w)(上述机器学习模型的损失函数)为最小值时,对应求解到的模型参数w;其中,w为负值的模型参数。
当然,在实际应用中,除了基于带约束条件的上述求解算法(比如:L-BFGS-B算法)进行求解外,上述风险评估系统还可以基于其它类型带约束条件的求解算法,求解f(w)(上述机器学习模型的损失函数)为最小值时对应求解到的模型参数w为非负值的f(w)(上述机器学习模型的损失函数)。
需要说明的是,在原有的逻辑回归模型模型训练中,为了描述训练好的逻辑回归模型的模型可解释性,需要人工针对训练好的逻辑回归模型进行人工干预,比如:手工筛选去除训练好的逻辑回归模型的模型参数(w为负值)对应的模型变量(与模型参数w对应特征的训练样本),并针对该训练好的逻辑回归模型,使用同一训练集的训练样本再进行多次重复,直至该训练好的逻辑回归模型的模型参数不存在(w为负值)的模型变量,从而导致模型训练效率低下。而通过以上描述的“基于与信用评估相关的训练样本和带约束条件的求解算法训练求解模型参数非负值的机器学习模型”的过程,解决了原有的上述机器学习模型为逻辑回归模型的训练效率低下的问题,可以基于同一训练集的训练样本一次性地训练得到模型参数非负值(w为非负值)的逻辑回归模型,从而达到可以用人类理解的逻辑及推理来合理解释机器学习模型解决问题的过程及原理,从而使得用户建立对机器学习模型的信任度。
在本说明书中,在对上述机器学习模型进行模型训练前,上述机器学习模型的模型参数通常可以根据预设策略设置对应的初始值,在对上述机器学习模型完成模型训练后,得到训练好的上述机器学习模型作为风险评估模型;其中,上述风险评估模型用于对待信用评估用户相关的预测样本进行信用评估。
在本说明书中,在得到训练完成的上述风险评估模型后,上述风险评估系统将与待信用评估用户相关的预测样本输入至上述风险评估模型,得到与上述预测样本对应的用户的信用评分。
例如,在实际应用中,上述风险评估系统将与待信用评估用户相关的预测样本(包括一个或多个用户分别对应的用户的年龄、性别、地域、消费信息等多个特征)输入至上述风险评估模型(训练好的上述机器学习模型,比如,上述机器学习模型为基于带约束条件的L-BFGS-B算法求解得到的二分类逻辑回归模型),得到与上述预测样本对应的用户的信用评分(比如:与该一个或该多个用户分别对应的用户的信用评分)。
在示出的一种实施方式中,进一步地,上述风险评估系统将与上述预测样本对应的用户的信用评分,输出至与上述风险评估系统对接的业务系统,以使上述业务系统基于用户的信用评分进行对应的信用业务处理。
例如,在实际应用中,上述预测样本对应的用户A及用户B的信用评分分别为500分、600分;上述风险评估系统将用户A及用户B的信用评分输出至与风险评估系统对接的业务系统(比如:支付宝业务系统、淘宝天猫业务系统、哈罗单车业务系统、口碑业务系统、饿了么业务系统中的任意一种多组合),以使上述业务系统基于用户A及用户B的信用评分分别进行对应的信用业务处理。比如:在支付宝业务系统中控制该用户的花呗、借呗等业务的额度及还款周期,根据用户A及用户B的信用评分在淘宝天猫业务系统、口碑业务系统、饿了么业务系统中分别控制不同信用评分用户的购物及餐饮服务的优惠折扣、根据用户A及用户B的信用评分在哈罗单车业务系统中控制不同信用评分用户的租车是否免押金等业务操作。
在以上技术方案中,基于与信用评估相关的训练样本训练机器学习模型;以及,基于带约束条件的求解算法求解得到模型参数非负值的机器学习模型,并将训练完成的模型参数非负值的机器学习模型作为风险评估模型预测用户信用评分,实现了快速地求解可解释的机器学习模型,避免了人工筛选机器学习模型中不可解释的模型变量的低效模型训练,提高了模型训练效率。
与上述方法实施例相对应,本申请还提供了信用评估装置的实施例。
与上述方法实施例相对应,本说明书还提供了一种信用评估装置的实施例。本说明书的信用评估装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书的信用评估装置装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本说明书一示例性实施例示出的一种信用评估装置的框图。
请参考图4,所述信用评估装置40可以应用在前述图3所示的电子设备中,所述装置应用于风险评估系统;所述装置包括:
训练求解模块401,将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;
评估预测模块402,将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
在本实施例中,所述机器学习模型为逻辑回归模型;
所述训练求解模块401进一步:
对所述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本;
对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
将所述WOE值输入至所述逻辑回归模型进行模型训练。
在本实施例中,所述逻辑回归模型为二分类逻辑回归模型,所述训练求解模块401进一步:
构建并初始化所述二分类逻辑回归模型对应的损失函数,以及与所述损失函数对应的梯度函数;
将所述WOE值、所述损失函数及所述梯度函数输入至所述求解算法,以由所述求解算法对所述损失函数按照所述梯度函数所指示的下降梯度进行求解,得到所述损失函数的值为最优解时的模型系数为非负值的损失函数。
在本实施例中,所述评估预测模块402进一步:
将与预测样本对应的用户的信用评分,输出至与风险评估系统对接的业务系统,以使所述业务系统基于用户的信用评分进行对应的信用业务处理。
在本实施例中,所述带约束条件的求解算法为带边界约束的拟牛顿算法。
在本实施例中,所述带边界约束的拟牛顿算法为L-BFGS-B算法。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的装置、装置、模块或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与上述方法实施例相对应,本说明书还提供了一种电子设备的实施例。所述电子设备可以应用于风险评估系统;该电子设备包括:处理器以及用于存储机器可执行指令的存储器;其中,处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与信用评估的控制逻辑对应的机器可执行指令,所述处理器被促使:
将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;
将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
在本实施例中,所述机器学习模型为逻辑回归模型,通过读取并执行所述存储器存储的与信用评估的控制逻辑对应的机器可执行指令,所述处理器被促使:
对所述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本;
对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
将所述WOE值输入至所述逻辑回归模型进行模型训练。
在本实施例中,所述逻辑回归模型为二分类逻辑回归模型,通过读取并执行所述存储器存储的与信用评估的控制逻辑对应的机器可执行指令,所述处理器被促使:
构建并初始化所述二分类逻辑回归模型对应的损失函数,以及与所述损失函数对应的梯度函数;
将所述WOE值、所述损失函数及所述梯度函数输入至所述求解算法,以由所述求解算法对所述损失函数按照所述梯度函数所指示的下降梯度进行求解,得到所述损失函数的值为最优解时的模型系数为非负值的损失函数。
在本实施例中,通过读取并执行所述存储器存储的与信用评估的控制逻辑对应的机器可执行指令,所述处理器被促使:
将与预测样本对应的用户的信用评分,输出至与风险评估系统对接的业务系统,以使所述业务系统基于用户的信用评分进行对应的信用业务处理。
在本实施例中,所述带约束条件的求解算法为带边界约束的拟牛顿算法。
在本实施例中,所述带边界约束的拟牛顿算法为L-BFGS-B算法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (13)

1.一种信用评估方法,所述方法应用于风险评估系统,所述方法包括:
将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;
将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
2.根据权利要求1所述的方法,所述机器学习模型为逻辑回归模型,所述将与信用评估相关的训练样本输入至机器学习模型,包括:
对所述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本;
对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
将所述WOE值输入至所述逻辑回归模型进行模型训练。
3.根据权利要求2所述的方法,所述逻辑回归模型为二分类逻辑回归模型,所述将所述WOE值输入至所述逻辑回归模型进行模型训练,包括:
构建并初始化所述二分类逻辑回归模型对应的损失函数,以及与所述损失函数对应的梯度函数;
将所述WOE值、所述损失函数及所述梯度函数输入至所述求解算法,以由所述求解算法对所述损失函数按照所述梯度函数所指示的下降梯度进行求解,得到所述损失函数的值为最优解时的模型系数为非负值的损失函数。
4.根据权利要求1所述的方法,还包括:
将与预测样本对应的用户的信用评分,输出至与风险评估系统对接的业务系统,以使所述业务系统基于用户的信用评分进行对应的信用业务处理。
5.根据权利要求1所述的方法,所述带约束条件的求解算法为带边界约束的拟牛顿算法。
6.根据权利要求5所述的方法,所述带边界约束的拟牛顿算法为L-BFGS-B算法。
7.一种信用评估装置,所述装置应用于风险评估系统,所述装置包括:
训练求解模块,将与信用评估相关的训练样本输入至机器学习模型,并基于带约束条件的求解算法求解所述机器学习模型的模型参数,以完成模型训练得到风险评估模型;其中,所述约束条件包括指定求解获得的所述机器学习模型的模型参数为非负值;
评估预测模块,将与待信用评估用户相关的预测样本输入至训练完成的所述风险评估模型,得到与预测样本对应的用户的信用评分。
8.根据权利要求7所述的装置,所述机器学习模型为逻辑回归模型;所述训练求解模块进一步:
对所述训练样本进行数据分箱处理,得到对应的被划分到不同分组的训练样本;
对属于不同分组的训练样本进行WOE计算,得到与不同分组对应的WOE值;
将所述WOE值输入至所述逻辑回归模型进行模型训练。
9.根据权利要求8所述的装置,所述逻辑回归模型为二分类逻辑回归模型,所述训练求解模块进一步:
构建并初始化所述二分类逻辑回归模型对应的损失函数,以及与所述损失函数对应的梯度函数;
将所述WOE值、所述损失函数及所述梯度函数输入至所述求解算法,以由所述求解算法对所述损失函数按照所述梯度函数所指示的下降梯度进行求解,得到所述损失函数的值为最优解时的模型系数为非负值的损失函数。
10.根据权利要求7所述的装置,所述评估预测模块进一步:
将与预测样本对应的用户的信用评分,输出至与风险评估系统对接的业务系统,以使所述业务系统基于用户的信用评分进行对应的信用业务处理。
11.根据权利要求7所述的装置,所述带约束条件的求解算法为带边界约束的拟牛顿算法。
12.根据权利要求11所述的装置,所述带边界约束的拟牛顿算法为L-BFGS-B算法。
13.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行如权利要求1至6任一项所述的方法。
CN201911126535.2A 2019-11-18 2019-11-18 信用评估方法、装置及电子设备 Pending CN111080397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911126535.2A CN111080397A (zh) 2019-11-18 2019-11-18 信用评估方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911126535.2A CN111080397A (zh) 2019-11-18 2019-11-18 信用评估方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111080397A true CN111080397A (zh) 2020-04-28

Family

ID=70311228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911126535.2A Pending CN111080397A (zh) 2019-11-18 2019-11-18 信用评估方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111080397A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563775A (zh) * 2020-05-08 2020-08-21 北京深演智能科技股份有限公司 人群划分方法及装置
CN111583024A (zh) * 2020-05-08 2020-08-25 南京甄视智能科技有限公司 信用评估方法、装置、存储介质及服务器
CN111797994A (zh) * 2020-06-28 2020-10-20 北京百度网讯科技有限公司 一种风险评估方法、装置、设备及存储介质
CN112003846A (zh) * 2020-08-13 2020-11-27 广州市百果园信息技术有限公司 一种信用阈值的训练、ip地址的检测方法及相关装置
CN112258312A (zh) * 2020-10-16 2021-01-22 银联商务股份有限公司 个人信用评分方法及其系统、电子设备及存储介质
CN112308702A (zh) * 2020-10-30 2021-02-02 北京云从科技有限公司 一种信贷风险评估方法、装置、介质及设备
CN112330048A (zh) * 2020-11-18 2021-02-05 中国光大银行股份有限公司 评分卡模型训练方法、装置、存储介质及电子装置
CN112396310A (zh) * 2020-11-12 2021-02-23 上海京滴信用管理有限公司 一种基于机器学习的社会信用风险评估系统
CN112634033A (zh) * 2021-01-04 2021-04-09 深圳前海微众银行股份有限公司 基于域分解机的模型构建方法、装置、系统及存储介质
CN112734568A (zh) * 2021-01-29 2021-04-30 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN112819610A (zh) * 2021-02-26 2021-05-18 重庆度小满优扬科技有限公司 信用的评估方法、信用评估模型的训练方法以及设备
CN113159917A (zh) * 2021-04-07 2021-07-23 北京芯盾时代科技有限公司 一种信息预测方法、装置及存储介质
CN113222177A (zh) * 2021-05-11 2021-08-06 支付宝(杭州)信息技术有限公司 模型迁移方法、装置及电子设备
CN113642740A (zh) * 2021-08-12 2021-11-12 百度在线网络技术(北京)有限公司 模型训练方法及装置、电子设备和介质
CN113822755A (zh) * 2021-09-27 2021-12-21 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583024A (zh) * 2020-05-08 2020-08-25 南京甄视智能科技有限公司 信用评估方法、装置、存储介质及服务器
CN111563775A (zh) * 2020-05-08 2020-08-21 北京深演智能科技股份有限公司 人群划分方法及装置
CN111797994A (zh) * 2020-06-28 2020-10-20 北京百度网讯科技有限公司 一种风险评估方法、装置、设备及存储介质
CN111797994B (zh) * 2020-06-28 2024-04-05 北京百度网讯科技有限公司 一种风险评估方法、装置、设备及存储介质
CN112003846B (zh) * 2020-08-13 2023-02-03 广州市百果园信息技术有限公司 一种信用阈值的训练、ip地址的检测方法及相关装置
CN112003846A (zh) * 2020-08-13 2020-11-27 广州市百果园信息技术有限公司 一种信用阈值的训练、ip地址的检测方法及相关装置
CN112258312A (zh) * 2020-10-16 2021-01-22 银联商务股份有限公司 个人信用评分方法及其系统、电子设备及存储介质
CN112308702A (zh) * 2020-10-30 2021-02-02 北京云从科技有限公司 一种信贷风险评估方法、装置、介质及设备
CN112396310A (zh) * 2020-11-12 2021-02-23 上海京滴信用管理有限公司 一种基于机器学习的社会信用风险评估系统
CN112396310B (zh) * 2020-11-12 2024-05-28 上海京滴信用管理有限公司 一种基于机器学习的社会信用风险评估系统
CN112330048A (zh) * 2020-11-18 2021-02-05 中国光大银行股份有限公司 评分卡模型训练方法、装置、存储介质及电子装置
CN112634033A (zh) * 2021-01-04 2021-04-09 深圳前海微众银行股份有限公司 基于域分解机的模型构建方法、装置、系统及存储介质
CN112734568A (zh) * 2021-01-29 2021-04-30 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN112734568B (zh) * 2021-01-29 2024-01-12 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN112819610A (zh) * 2021-02-26 2021-05-18 重庆度小满优扬科技有限公司 信用的评估方法、信用评估模型的训练方法以及设备
CN113159917A (zh) * 2021-04-07 2021-07-23 北京芯盾时代科技有限公司 一种信息预测方法、装置及存储介质
CN113222177B (zh) * 2021-05-11 2024-02-27 支付宝(杭州)信息技术有限公司 模型迁移方法、装置及电子设备
CN113222177A (zh) * 2021-05-11 2021-08-06 支付宝(杭州)信息技术有限公司 模型迁移方法、装置及电子设备
CN113642740A (zh) * 2021-08-12 2021-11-12 百度在线网络技术(北京)有限公司 模型训练方法及装置、电子设备和介质
CN113822755B (zh) * 2021-09-27 2023-09-05 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法
CN113822755A (zh) * 2021-09-27 2021-12-21 武汉众邦银行股份有限公司 一种特征离散化技术对个人用户信用风险的识别方法

Similar Documents

Publication Publication Date Title
CN111080397A (zh) 信用评估方法、装置及电子设备
Yang et al. Enhancing explainability of neural networks through architecture constraints
CN109326353B (zh) 预测疾病终点事件的方法、装置及电子设备
US11551026B2 (en) Dynamic reconfiguration training computer architecture
CN110889747B (zh) 商品推荐方法、装置、系统、计算机设备及存储介质
US11227217B1 (en) Entity transaction attribute determination method and apparatus
Pan et al. Collaborative recommendation with multiclass preference context
CN107273979A (zh) 基于服务级别来执行机器学习预测的方法及系统
Raza et al. A parallel rough set based dependency calculation method for efficient feature selection
CN110175689A (zh) 一种概率预测的方法、模型训练的方法及装置
Rath et al. Modern approach for loan sanctioning in banks using machine learning
Toloo et al. Evaluation efficiency of large-scale data set with negative data: an artificial neural network approach
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
Montesinos López et al. Convolutional neural networks
Conard et al. A spectrum of explainable and interpretable machine learning approaches for genomic studies
Mandt et al. Sparse probit linear mixed model
US11921821B2 (en) System and method for labelling data for trigger identification
CN116843022A (zh) 一种数据处理方法及相关装置
Orong et al. A hybrid prediction model integrating a modified genetic algorithm to k-means segmentation and C4. 5
Sanchez Reconstructing our past˸ deep learning for population genetics
CN115292583A (zh) 一种项目推荐方法及其相关设备
CN118043802A (zh) 一种推荐模型训练方法及装置
Li et al. An imbalanced ensemble learning method based on dual clustering and stage-wise hybrid sampling
US20230351491A1 (en) Accelerated model training for real-time prediction of future events
US20230359881A1 (en) Training a centralized repository and data sharing hub to establish model sufficiency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428

RJ01 Rejection of invention patent application after publication