CN110827143A - 训练信用评分模型的方法、装置及设备 - Google Patents
训练信用评分模型的方法、装置及设备 Download PDFInfo
- Publication number
- CN110827143A CN110827143A CN201911089582.4A CN201911089582A CN110827143A CN 110827143 A CN110827143 A CN 110827143A CN 201911089582 A CN201911089582 A CN 201911089582A CN 110827143 A CN110827143 A CN 110827143A
- Authority
- CN
- China
- Prior art keywords
- user
- default
- probability
- period
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006399 behavior Effects 0.000 claims description 66
- 230000015654 memory Effects 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012502 risk assessment Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本说明书实施例提供一种训练信用评分模型的方法、装置及设备,在训练信用评分模型的方法中,获取用户的描述信息以及用户的履约行为信息。根据用户的履约行为信息,确定用户在各预定时期发生违约的概率。至少将用户的描述信息作为样本特征,将用户在各预定时期发生违约的概率作为多个样本标签。将样本特征和多个样本标签作为一个训练样本,添加到训练样本集合中。该训练样本集合用于训练信用评分模型。该信用评分模型用于根据新用户的描述信息预测新用户在各预定时期发生违约的概率。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种训练信用评分模型的方法、装置及设备。
背景技术
在消费信贷领域,如何更好地控制信用风险是一个永恒的话题。目前,大多数的信贷公司都通过风控系统来控制信用风险,该风控系统具体可以是通过对风险进行量化评估来实现风控的。如,在评估用户的信用风险时,该风控系统首先可以通过信用评分模型,给出一个用户的信用评分。这里的信用评分可以表征该用户后续违约的可能性。之后,基于该信用评分来对评估用户的信用风险。
传统技术中,上述信用评分模型通常为二分类模型,其训练过程如下:根据历史用户的履约行为信息,将其分成违约用户和正常用户,并基于该两类用户分别形成两类不同的样本。之后基于该两类样本进行建模,从而得到上述信用评分模型。在得到信用评分模型之后,可以利用该模型对用户进行分类。如,将用户分类为后续违约可能性较大的用户(违约用户)和后违约可能性较小的用户(正常用户)。由此可见,使用基于传统的方法训练得到的信用评分模型在针对用户进行预测时,其预测结果比较单一。
因此,需要提供一种信用评分模型的训练方法,以便能够基于该信用评分模型得到更多更精细的预测结果。
发明内容
本说明书一个或多个实施例描述了一种训练信用评分模型的方法、装置及设备,可以使得模型能够预测更多更精细的信息。
第一方面,提供了一种训练信用评分模型的方法,包括:
获取用户的描述信息以及用户的履约行为信息;
根据所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率;
至少将所述用户的描述信息作为样本特征,将所述用户在各预定时期发生违约的概率作为多个样本标签;将所述样本特征和所述多个样本标签作为一个训练样本,添加到训练样本集合中;所述训练样本集合用于训练信用评分模型;所述信用评分模型用于根据新用户的描述信息预测所述新用户在所述各预定时期发生违约的概率。
第二方面,提供了一种训练信用评分模型的装置,包括:
获取单元,用于获取用户的描述信息以及用户的履约行为信息;
确定单元,用于根据所述获取单元获取的所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率;
添加单元,用于至少将所述获取单元获取的所述用户的描述信息作为样本特征,将所述确定单元确定的所述用户在各预定时期发生违约的概率作为多个样本标签;将所述样本特征和所述多个样本标签作为一个训练样本,添加到训练样本集合中;所述训练样本集合用于训练信用评分模型;所述信用评分模型用于根据新用户的描述信息预测所述新用户在所述各预定时期发生违约的概率。
第三方面,提供了一种训练信用评分模型的设备,包括:
存储器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序被所述处理器执行时实现以下步骤:
获取用户的描述信息以及用户的履约行为信息;
根据所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率;
至少将所述用户的描述信息作为样本特征,将所述用户在各预定时期发生违约的概率作为多个样本标签;将所述样本特征和所述多个样本标签作为一个训练样本,添加到训练样本集合中;所述训练样本集合用于训练信用评分模型;所述信用评分模型用于根据新用户的描述信息预测所述新用户在所述各预定时期发生违约的概率。
本说明书一个或多个实施例提供的训练信用评分模型的方法、装置及设备,通过将历史用户在各预定时期的多个违约概率作为多个样本标签,来训练信用评分模型,可以使得训练后的信用评分模型可以根据新用户的描述信息,预测新用户在多个预定时期的违约概率,而不仅仅预测当前用户是否为违约用户。由此可以为后续的风险控制提供更多更精细的参考信息,进而可以大大提升风险控制的准确性。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书提供的训练信用评分模型的方法应用场景示意图;
图2为本说明书一个实施例提供的信用评分模型的训练方法流程图;
图3为本说明书提供的信用评分模型示意图之一;
图4为本说明书提供的信用评分模型示意图之二;
图5为基于信用评分模型获取用户信用评分的方法示意图;
图6为本说明书一个实施例提供的信用评分模型的训练装置示意图;
图7为本说明书一个实施例提供的信用评分模型的训练设备示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在描述本说明书提供的方案之前,先对本方案的发明构思作以下说明。
如背景技术的内容所述,在传统的信用评分模型的训练方法中,将用户分成两类:违约用户和正常用户。这里的违约用户通常会定义为逾期X天的用户,其中,X正整数。也就是说,传统技术中会将逾期1天的用户和逾期100天的用户均看作是违约用户,其没有考虑用户的生命周期,这通常会导致风险量化评估不准确的问题。为此,本申请的申请人引入生存分析的方法。生存分析是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法。在生存分析中,有两个概念比较重要,一个是生存时间T,即存活时长,另外一个是危险率函数,它是指生存到t时刻,但在t时刻瞬时死去的概率。这里的危险率函数具体可以表示为如下公式:
其中,X是输入的变量,h(t,X)是危险率函数。
可以理解的是,当将生存分析的方法应用在信贷领域时,当一个用户发生违约时,即认为该用户在信贷业务中“死亡”,其中,T是该用户经历的时期总数(后续说明),也即该用户的生命周期。h(t,X)为用户在t时期发生违约的概率。
需要说明的是,在引入生存分析的方法之后,在前期准备训练样本时,不再简单的将用户划分为两种类型,即违约用户和正常用户,而是针对每个用户,还计算出该用户在多个预定时期的多个违约概率,并将该多个违约概率作为多个样本标签,来生成与该用户相应的样本。
以上是关于样本准备的描述,以下对关于模型的选择进行说明。
在生存分析的方法中,基于不同的假设有很多种不同的模型框架,其中比较常用的是一种叫作比例风险的回归模型,也称为Cox回归模型,它对问题做了一些简化,将危险率分拆成了两部分,一部分是基准危险率,只与时间(t)有关,一部分是因素(X)影响的危险率,与时间无关。该两部分内容与危险率之间的关系具体可以表示如下:
h(t,X)=λ0(t)·exp(β·X)
这个方法的缺陷在于认为因素(X)对危险率的影响是与时间无关的,这意味着,不同的X在不同时期的危险率曲线永远是不可能相交的,这与现实中某些现象是不太相符的。举个极端例子,当生存时间趋于无限大的时候,不同样本的危险率应该都是趋向于1的。
本方案中采用序列模型训练信用评分模型,其具体结构以及相应的训练过程后续说明。
以上就是本说明书提供的发明构思,基于该发明构思就可以得到本方案,以下对本方案进行详细阐述。
图1为本说明书提供的训练信用评分模型的方法应用场景示意图。图1中,风控系统可以与信贷机构相对应,其可以用于向相应的信贷结构申请贷款的用户的信用进行评估。这里的用户可以是指贷前用户,也可以是指贷中用户。以贷前用户为例来说,风控系统可以接收用户的信贷请求。之后,基于预先训练的信用评分模型,预测新用户在各预定时期发生违约的概率。最后,基于预测的概率,可以对新用户进行额度控制和差异化定价。这里的额度控制可以理解为是对不同的用户设定不同的贷款总额度,差异化定价可以理解为是对不同的用户设定不同的利率。
图2为本说明书一个实施例提供的训练信用评分模型的方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图2所示,所述方法具体可以包括:
步骤202,获取用户的描述信息以及用户的履约行为信息。
这里的用户的描述信息可以包括但限于用户属性、用户设备属性、地理属性、银行卡信息、借贷多头信息以及用户在其它信贷机构的履约行为信息等。上述用户的履约行为信息可以是指用户在当前信贷机构的履约行为信息。当前信贷机构可以是指待训练的信用评分模型所属风控系统对应的信贷机构。
在一个示例中,上述履约行为信息可以包括用户类别、逾期天数以及违约行为开始日期等。这里的用户类别可以包括违约用户以及正常用户。这里的用户类别可以是通过对用户的还款行为记录进行分析得到。这里的还款行为记录例如可以为:用户A于××年××月××日还款××人民币等。
在另一个示例中,上述履约行为信息可以直接包括用户的还款行为记录。
步骤204,根据用户的履约行为信息,确定用户在各预定时期发生违约的概率。
这里的各预定时期是具有先后顺序的。在一个示例中,各预定时期可以与时间期限(由起始时间和终止时间组成)相对应,其中,在后的时期对应的起始时间位于在前的时期对应的终止之间之后。举例来说,对于上述N个预定时期,第1期对应的时间期限可以为:2018年7月1日-2018年7月31日,第2期对应的时间期限可以为:2018年8月1日-2018年8月31日等等。
对于步骤204,其具体可以为:根据用户的履约行为信息,确定用户的用户类别。若用户类别为正常用户,则将用户在各预定时期发生违约的概率均确定为第一数值。若用户类别为违约用户,则确定用户的违约行为的发生时期,并基于违约行为的发生时期,确定用户在各预定时期发生违约的概率。
可以理解的是,针对不同的履约行为信息,用户类别的确定过程可以不同。具体地,当用户的履约行为信息如上述一个示例所述时,即该履约行为信息可以包括用户类别时,那么可以直接确定用户类别。而当用户的履约行为信息如上述另一个示例所述时,也即该履约行为信息直接包括用户的还款行为记录时,可以通过对用户的还款行为记录进行分析,来判断是否有逾期情况出现。如果没有,则判断用户的用户类别为正常用户。
在一个例子中,上述是否有逾期情况出现的判断过程可以为:判断在每个预定时期用户是否执行了相应的还款行为,且该还款行为的发生日期在规定时长内。这里的规定时长可以是预定义的,如,可以为30天。
对于上述步骤,当确定出用户的用户类别为正常用户时,则可以将用户在各预定时期发生违约的概率均确定为第一数值。这里的第一数值例如可以为0。以上述N个时期为例来说,某正常用户在N个时期发生违约的概率可以分别表示为:h(1,X)=h(2,X)=…=h(N-1,X)=h(N,X)=0。
而当确定出用户的用户类别为违约用户时,确定用户的违约行为的发生时期,并基于违约行为的发生时期,确定用户在各预定时期发生违约的概率的过程可以为:对于各预定时期中任意的第一时期,判断该第一时期是否在违约行为的发生时期之前,若是,则将用户在第一时期发生违约的概率确定为第一数值。否则,将用户在第一时期发生违约的概率确定为第二数值。
关于违约行为的发生时期的确定,当用户的履约行为信息如上述一个示例所述时,即该履约行为信息包括用户类别、逾期天数以及违约行为开始日期,那么违约行为的发生时期可以基于违约行为开始日期、逾期天数以及规定时长共同来确定。举例来说,假设违约行为开始日期为2018年8月1日,逾期天数为30天。此外,还假设规定时长为30天,以及用户分3期还款,且与第1-3期对应的时间期限分别为:2018年7月1日-2018年7月31日、2018年8月1日-2018年8月31日以及2018年9月1日-2018年9月30日时,那么可以确定用户的违约行为的发生时期为第2期。
应理解,上述规定时长可以结合实际情况进行调整,如,还可以设定为60天等等,本说明书对此不作限定。
当用户的履约行为信息如上述另一个示例所述时,也即该履约行为信息直接包括用户的还款行为记录时,可以通过对还款行为记录进行分析,来确定用户的逾期天数以及违约行为开始日期。之后,基于分析得到的逾期天数和违约行为开始日期,确定违约行为的发生时期。具体确定过程同上所述,在此不复赘述。
以违约行为的发生时期为第4期为例来说,因为第1-3期在第4期之前,所以,可以将该3期发生违约的概率确定为第一数值,如,0。而将第4-N期发生违约的概率确定为第二数值,如,1。具体可以表示为:h(1,X)=h(2,X)=h(3,X)=0,h(4,X)…=h(N-1,X)=h(N,X)=1。
步骤206,至少将用户的描述信息作为样本特征,将用户在各预定时期发生违约的概率作为多个样本标签。将样本特征和多个样本标签作为一个训练样本,添加到训练样本集合中。
这里的训练样本集合用于训练信用评分模型,该信用评分模型用于根据新用户的描述信息预测新用户在各预定时期发生违约的概率。
关于上述信用评分模型,其可以基于序列模型训练得到。这里的序列模型可以包括但不限于循环神经网络(Recurrent Neural Network,RNN)、长短期记忆(Long Short-Term Memory)网络、门控循环单元(Gated Recurrent Unit,GRU)网络以及双向RNN等。
以上述信用评分模型基于RNN训练得到时,该信用评分模型可以如图3所示。图3中,信用评分模型的架构为一个输入对应多个输出(one-to-many,)且多个输出是按序排列的。在一个例子中,这里的一个输入可以为用户的描述信息,表示为X。此外,多个输出分别对应用户在N个时期发生违约的概率,分别表示为Y1-YN。需要说明的是,这里的Y1-YN是由模型针对某个用户的预测结果,而上述h(1,X)-h(N,X)是与某个用户对应的真实结果。从而上述信用评分模型就是通过不断最小化多个用户各自对应的Y1与h(1,X),Y2与h(2,X)等之间的误差得到的。
需要说明的是,在训练得到图3所示的信用评分模型之后,对于一个新用户,在将该新用户的描述信息输入模型之后,可以输出该新用户在各预定时期发生违约的概率。在本说明书中,用户在各预定时期发生违约的概率也可以称为用户的信用评分。基于该信用评分就可以针对不同用户进行额度控制和差异化定价。如,对于第1期就可能发生违约的新用户可以直接拒绝,而对于第8期才可能发生违约的用户,对应的额度可以适当限制,定价可以相对高些,让收益更好的覆盖成本,利润达到更优的水平。
应理解,基于上述训练方法训练得到的模型适用于在用户向信贷机构申请贷款时,对用户的信用风险进行评估。也即适用于对贷前用户的风险评估。事实上,对于贷中用户也有信用风险评估的需求。对于贷中用户,其可以基于图4所示的信用评分模型进行风险评估。图4中,信用评分模型的架构为多个输入对应多个输出(many-to-many),即该模型对应多个输入和多个输出,且多个输入和多个输出均是按序排列的。具体地,X1为初始的输入,其可以为用户的描述信息。X2-Xi为在后的输入。这里i的大小可以根据实际需要进行调整。
以X2为例来说,其可以为用户在第1期发生违约的概率(即h(1,X))。具体地,X1会被输入到与Y2对应的隐藏层(或称神经元)。也即在预测用户在第2期发生违约的概率时,同时考虑了用户在第1期实际发生违约的概率。上述输入X2-Xi的原因在于,贷中用户已经开始了还款行为,因此,对于部分时期,可以获取到相应的实际发生违约的概率。
对于图4所示的信用评分模型,其也是通过不断最小化多个用户各自对应的Y1与h(1,X),Y2与h(2,X)等之间的误差得到的。
在训练得到图4所示的信用评分模型之后,对于某个贷中用户,在将该用户的描述信息和在多个过去时期实际发生违约的概率先后输入模型之后,可以输出该用户在各预定时期发生违约的概率。之后,基于其中对应于未来时期发生违约的概率,就可以实现对贷中用户的信用风险评估。
图5为基于信用评分模型获取用户信用评分的方法示意图。图5中,可以先生成多个不同的训练样本。之后,基于该训练样本,可以训练得到信用评分模型。最后,对于M个新用户中的每个新用户,可以基于训练后的信用评分模型,得到该新用户在N个时期发生违约的概率。
综上,本说明书实施例提供的信用评分模型的训练方法,考虑了用户的生命周期,且训练得到的模型可以预测新用户在多个不同时期的违约概率。此外,基于序列模型建立的信用评分模型可以解决生存分析中对危险率的假设不合理的现象,且模型具有更准确更灵活的优点。最后,本方案还可以达到如下两点技术效果:(1)信用风险量化更准确:通过将用户的生命周期引入模型,让有不同生命周期的用户的差异性在模型中得到了体现,使得模型预测结果会更加精确。(2)给后续决策过程提供了更多的信息:模型可以给出不同时期用户违约的可能性,后续决策过程可以得到更多信息做参考,从而给出更精准的定价。
与上述训练信用评分模型的方法对应地,本说明书一个实施例还提供的一种训练信用评分模型的装置,如图6所示,该装置可以包括:
获取单元602,用于获取用户的描述信息以及用户的履约行为信息。
其中,用户的履约行为信息为用户在当前信贷机构的履约行为信息。用户的描述信息可以包括以下一种或多种:用户属性、用户设备属性、地理属性、银行卡信息、借贷多头信息以及用户在其它信贷机构的履约行为信息等。
确定单元604,用于根据获取单元602获取的用户的履约行为信息,确定用户在各预定时期发生违约的概率。
确定单元604具体可以用于:
根据用户的履约行为信息,确定用户的用户类别。这里的用户类别可以包括:正常用户和违约用户。
若确定的用户类别为正常用户,则将用户在各预定时期发生违约的概率均确定为第一数值。
若确定的用户类别为违约用户,则确定用户的违约行为的发生时期,并基于违约行为的发生时期,确定用户在各预定时期发生违约的概率。
确定单元604还具体可以用于:
对于各预定时期中任意的第一时期,判断第一时期是否在违约行为的发生时期之前,若是,则将用户在第一时期发生违约的概率确定为第一数值。否则,将用户在第一时期发生违约的概率确定为第二数值。
添加单元606,用于至少将获取单元602获取的用户的描述信息作为样本特征,将确定单元604确定的用户在各预定时期发生违约的概率作为多个样本标签。将样本特征和多个样本标签作为一个训练样本,添加到训练样本集合中。该训练样本集合用于训练信用评分模型。该信用评分模型用于根据新用户的描述信息预测新用户在各预定时期发生违约的概率。
上述信用评分模型可以包括以下任一种:循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU以及双向RNN等。这里的RNN的架构可以为一个输入对应多个输出或者多个输入对应多个输出。
若RNN的架构为多个输入对应多个输出,则上述样本特征还可以包括用户在各预定时期中的部分时期发生违约的概率。本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的训练信用评分模型的装置,获取单元602获取用户的描述信息以及用户的履约行为信息。确定单元604根据获取的用户的履约行为信息,确定用户在各预定时期发生违约的概率。添加单元606至少将用户的描述信息作为样本特征,将用户在各预定时期发生违约的概率作为多个样本标签。将样本特征和多个样本标签作为一个训练样本,添加到训练样本集合中。该训练样本集合用于训练信用评分模型。该信用评分模型用于根据新用户的描述信息预测新用户在各预定时期发生违约的概率。由此,可以大大提升所训练模型的准确性和灵活性。
与上述训练信用评分模型的方法对应地,本说明书实施例还提供了一种训练信用评分模型的设备,如图7所示,该设备可以包括:存储器702、一个或多个处理器704以及一个或多个程序。其中,该一个或多个程序存储在存储器702中,并且被配置成由一个或多个处理器704执行,该程序被处理器704执行时实现以下步骤:
获取用户的描述信息以及用户的履约行为信息。
根据用户的履约行为信息,确定用户在各预定时期发生违约的概率。
至少将用户的描述信息作为样本特征,将用户在各预定时期发生违约的概率作为多个样本标签。将样本特征和多个样本标签作为一个训练样本,添加到训练样本集合中。该训练样本集合用于训练信用评分模型。该信用评分模型用于根据新用户的描述信息预测新用户在各预定时期发生违约的概率。
本说明书一个实施例提供的训练信用评分模型的设备,可以大大提升所训练模型的准确性和灵活性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。
Claims (15)
1.一种训练信用评分模型的方法,包括:
获取用户的描述信息以及用户的履约行为信息;
根据所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率;
至少将所述用户的描述信息作为样本特征,将所述用户在各预定时期发生违约的概率作为多个样本标签;将所述样本特征和所述多个样本标签作为一个训练样本,添加到训练样本集合中;所述训练样本集合用于训练信用评分模型;所述信用评分模型用于根据新用户的描述信息预测所述新用户在所述各预定时期发生违约的概率。
2.根据权利要求1所述的方法,所述根据所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率,包括:
根据所述用户的履约行为信息,确定所述用户的用户类别;所述用户类别包括:正常用户和违约用户;
若所述用户类别为正常用户,则将所述用户在各预定时期发生违约的概率均确定为第一数值;
若所述用户类别为违约用户,则确定所述用户的违约行为的发生时期,并基于所述违约行为的发生时期,确定所述用户在各预定时期发生违约的概率。
3.根据权利要求2所述的方法,所述基于所述违约行为的发生时期,确定所述用户在各预定时期发生违约的概率,包括:
对于所述各预定时期中任意的第一时期,判断所述第一时期是否在所述违约行为的发生时期之前,若是,则将所述用户在所述第一时期发生违约的概率确定为所述第一数值;否则,将所述用户在所述第一时期发生违约的概率确定为第二数值。
4.根据权利要求1所述的方法,所述用户的履约行为信息为所述用户在当前信贷机构的履约行为信息;所述用户的描述信息包括以下一种或多种:用户属性、用户设备属性、地理属性、银行卡信息、借贷多头信息以及用户在其它信贷机构的履约行为信息。
5.根据权利要求1-4任一项所述的方法,所述信用评分模型包括以下任一种:循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU以及双向RNN。
6.根据权利要求1所述的方法,所述信用评分模型为循环神经网络RNN,所述RNN的架构为一个输入对应多个输出或者多个输入对应多个输出。
7.根据权利要求6所述的方法,若所述RNN的架构为多个输入对应多个输出,则所述样本特征还包括所述用户在所述各预定时期中的部分时期发生违约的概率。
8.一种训练信用评分模型的装置,包括:
获取单元,用于获取用户的描述信息以及用户的履约行为信息;
确定单元,用于根据所述获取单元获取的所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率;
添加单元,用于至少将所述获取单元获取的所述用户的描述信息作为样本特征,将所述确定单元确定的所述用户在各预定时期发生违约的概率作为多个样本标签;将所述样本特征和所述多个样本标签作为一个训练样本,添加到训练样本集合中;所述训练样本集合用于训练信用评分模型;所述信用评分模型用于根据新用户的描述信息预测所述新用户在所述各预定时期发生违约的概率。
9.根据权利要求8所述的装置,所述确定单元具体用于:
根据所述用户的履约行为信息,确定所述用户的用户类别;所述用户类别包括:正常用户和违约用户;
若所述用户类别为正常用户,则将所述用户在各预定时期发生违约的概率均确定为第一数值;
若所述用户类别为违约用户,则确定所述用户的违约行为的发生时期,并基于所述违约行为的发生时期,确定所述用户在各预定时期发生违约的概率。
10.根据权利要求9所述的装置,所述确定单元还具体用于:
对于所述各预定时期中任意的第一时期,判断所述第一时期是否在所述违约行为的发生时期之前,若是,则将所述用户在所述第一时期发生违约的概率确定为所述第一数值;否则,将所述用户在所述第一时期发生违约的概率确定为第二数值。
11.根据权利要求8所述的装置,所述用户的履约行为信息为所述用户在当前信贷机构的履约行为信息;所述用户的描述信息包括以下一种或多种:用户属性、用户设备属性、地理属性、银行卡信息、借贷多头信息以及用户在其它信贷机构的履约行为信息。
12.根据权利要求8-11任一项所述的装置,所述信用评分模型包括以下任一种:循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU以及双向RNN。
13.根据权利要求8所述的装置,所述信用评分模型为循环神经网络RNN,所述RNN的架构为一个输入对应多个输出或者多个输入对应多个输出。
14.根据权利要求13所述的装置,若所述RNN的架构为多个输入对应多个输出,则所述样本特征还包括所述用户在所述各预定时期中的部分时期发生违约的概率。
15.一种训练信用评分模型的设备,包括:
存储器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序被所述处理器执行时实现以下步骤:
获取用户的描述信息以及用户的履约行为信息;
根据所述用户的履约行为信息,确定所述用户在各预定时期发生违约的概率;
至少将所述用户的描述信息作为样本特征,将所述用户在各预定时期发生违约的概率作为多个样本标签;将所述样本特征和所述多个样本标签作为一个训练样本,添加到训练样本集合中;所述训练样本集合用于训练信用评分模型;所述信用评分模型用于根据新用户的描述信息预测所述新用户在所述各预定时期发生违约的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089582.4A CN110827143A (zh) | 2019-11-08 | 2019-11-08 | 训练信用评分模型的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089582.4A CN110827143A (zh) | 2019-11-08 | 2019-11-08 | 训练信用评分模型的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110827143A true CN110827143A (zh) | 2020-02-21 |
Family
ID=69553848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911089582.4A Pending CN110827143A (zh) | 2019-11-08 | 2019-11-08 | 训练信用评分模型的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827143A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382909A (zh) * | 2020-03-12 | 2020-07-07 | 上海携程商务有限公司 | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 |
CN111524002A (zh) * | 2020-04-27 | 2020-08-11 | 中国银行股份有限公司 | 联名信用卡额度确定方法及装置 |
CN111681102A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
CN111861729A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于lstm的行为评分系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636584A (zh) * | 2018-11-19 | 2019-04-16 | 平安科技(深圳)有限公司 | 违约概率展示方法、装置、计算机设备和存储介质 |
CN109961362A (zh) * | 2019-02-19 | 2019-07-02 | 合肥工业大学 | P2p平台信用风险动态评价方法和系统 |
CN110020862A (zh) * | 2018-01-10 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种业务风险评估方法、装置和计算机可读存储介质 |
CN110246024A (zh) * | 2018-10-25 | 2019-09-17 | 爱信诺征信有限公司 | 违约指数评估方法 |
CN110348721A (zh) * | 2019-06-29 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于gbst的金融违约风险预测方法、装置和电子设备 |
-
2019
- 2019-11-08 CN CN201911089582.4A patent/CN110827143A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020862A (zh) * | 2018-01-10 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种业务风险评估方法、装置和计算机可读存储介质 |
CN110246024A (zh) * | 2018-10-25 | 2019-09-17 | 爱信诺征信有限公司 | 违约指数评估方法 |
CN109636584A (zh) * | 2018-11-19 | 2019-04-16 | 平安科技(深圳)有限公司 | 违约概率展示方法、装置、计算机设备和存储介质 |
CN109961362A (zh) * | 2019-02-19 | 2019-07-02 | 合肥工业大学 | P2p平台信用风险动态评价方法和系统 |
CN110348721A (zh) * | 2019-06-29 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于gbst的金融违约风险预测方法、装置和电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382909A (zh) * | 2020-03-12 | 2020-07-07 | 上海携程商务有限公司 | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 |
CN111524002A (zh) * | 2020-04-27 | 2020-08-11 | 中国银行股份有限公司 | 联名信用卡额度确定方法及装置 |
CN111681102A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
CN111681102B (zh) * | 2020-06-05 | 2023-09-01 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
CN111861729A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于lstm的行为评分系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020143409A1 (zh) | 预测业务指标的方法及装置 | |
CN110827143A (zh) | 训练信用评分模型的方法、装置及设备 | |
US7970676B2 (en) | Method and system for modeling future action impact in credit scoring | |
Christiano et al. | Nominal rigidities and the dynamic effects of a shock to monetary policy | |
US20090276368A1 (en) | Systems and methods for providing personalized recommendations of products and services based on explicit and implicit user data and feedback | |
US8606608B2 (en) | Offline counterfactual analysis | |
WO2007023076A1 (en) | Computer-based method of measuring the usability of a web site | |
CN110070430A (zh) | 评估还款风险的方法及装置、存储介质、电子设备 | |
Zhang et al. | The time-varying causal relationship between the Bitcoin market and internet attention | |
CN112541817A (zh) | 一种个人消费贷款潜在客户的营销响应处理方法及系统 | |
US20120072334A1 (en) | Responsibility analytics | |
CN112116245A (zh) | 信贷风险评估方法、装置、计算机设备及存储介质 | |
Bakhach et al. | TSFDC: A trading strategy based on forecasting directional change | |
CN110782339A (zh) | 一种违约概率预测方法、系统和可读存储介质 | |
CN113450158A (zh) | 银行活动信息推送方法及装置 | |
Çömlekçi et al. | Behavioral finance models, anomalies, and factors affecting investor psychology | |
CN117132317A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN111310931A (zh) | 参数生成方法、装置、计算机设备及存储介质 | |
CN116630020A (zh) | 风险评估方法、装置、存储介质及电子设备 | |
CN116800831A (zh) | 一种业务数据推送方法、装置、存储介质及处理器 | |
Mzoughia et al. | An improved customer lifetime value model based on Markov chain | |
EP3977391A1 (en) | Bias prediction and categorization in financial tools | |
CN115760363A (zh) | 一种基于人行征信报告的利率测算方法及设备 | |
KR102284440B1 (ko) | 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법 | |
CN114612231A (zh) | 股票量化交易方法、装置、终端设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |