CN113962800A - 模型训练及逾期风险预测方法、装置、设备和介质 - Google Patents

模型训练及逾期风险预测方法、装置、设备和介质 Download PDF

Info

Publication number
CN113962800A
CN113962800A CN202111249432.2A CN202111249432A CN113962800A CN 113962800 A CN113962800 A CN 113962800A CN 202111249432 A CN202111249432 A CN 202111249432A CN 113962800 A CN113962800 A CN 113962800A
Authority
CN
China
Prior art keywords
credit
sample group
risk
samples
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111249432.2A
Other languages
English (en)
Inventor
胡汤楠
严澄
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202111249432.2A priority Critical patent/CN113962800A/zh
Publication of CN113962800A publication Critical patent/CN113962800A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请提供了一种模型训练方法及逾期风险预测方法、装置、设备和介质,在该模型训练方法中,获得多份信贷样本;利用多份信贷样本及信贷样本标注的信贷风险标签训练出综合信贷风险模型;确定多份信贷样本各自归属的信贷样本群;如信贷样本群属于低样本数的信贷样本群,利用综合信贷风险模型确定信贷样本群中各信贷样本的信贷逾期评分,基于信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于信贷样本群的子信贷风险模型;其中,信贷样本群的子信贷风险模型用于预测信贷特征数据与信贷样本群匹配的用户存在信贷逾期风险的评分。本申请的方案可以提高模型预测信贷逾期风险的准确度。

Description

模型训练及逾期风险预测方法、装置、设备和介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种模型训练及逾期风险预测方法、装置、设备和介质。
背景技术
在信贷风险管控中,经常需要利用风险预测模型预测用户存在信贷逾期风险的情况。
其中,信贷风险管控中的风险预测模型是利用大量信贷样本数据训练得到的。然而,不同信贷客群的信贷样本数据的数据特征具有较大差异性,而利用所有信贷样本数据统一训练得到的风险预测模型并未考虑不同信贷群体的特征差异,从而使得基于风险预测模型进行信贷逾期风险的预测准确度偏低。
发明内容
有鉴于此,本申请提供了一种模型训练及逾期风险预测方法、装置、设备和介质,以实现提高预测信贷逾期风险的准确度。
为实现上述目的,本申请提供了一种模型训练方法,包括:
获得多份信贷样本,所述信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据,所述信贷样本标注有信贷风险标签,所述信贷风险标签用于表征所述信贷样本对应的用户是否存在信贷逾期的风险;
利用所述多份信贷样本以及所述信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型;
确定所述多份信贷样本各自归属的信贷样本群,得到至少一个信贷样本群,所述信贷样本群中包括信贷特征数据的种类相同的至少一个信贷样本,且所述至少一个信贷样本中指定类别的信贷特征数据相同;
如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,利用所述综合信贷风险模型分别确定所述信贷样本群中各信贷样本对应的信贷逾期评分,基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于所述信贷样本群的子信贷风险模型;
其中,所述信贷样本群的子信贷风险模型用于预测信贷特征数据与所述信贷样本群匹配的用户存在信贷逾期风险的评分。
在又一种可能的实现方式中,还包括:
如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群不属于低样本数的信贷样本群,基于所述信贷样本群中各信贷样本的信贷特征数据以及信贷风险标签训练第三模型,得到适用于所述信贷样本群的子信贷风险模型。
在又一种可能的实现方式中,所述确定所述多份信贷样本各自归属的信贷样本群,包括:
基于所述信贷样本中表征信贷业务场景的信贷特征数据,将所述多份信贷样本划归到至少一个信贷样本群,每个信贷样本群中表征信贷业务场景的信贷特征数据相同。
在又一种可能的实现方式中,所述基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,包括:
确定所述信贷样本群的信贷样本具有的特殊信贷特征数据,所述特殊信贷特征数据为所述信贷样本群之外的其他信贷样本群中的信贷样本不具有的信贷特征数据;
至少基于所述信贷样本群中各信贷样本的特殊信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型。
在又一种可能的实现方式中,所述基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,包括:
如所述信贷样本群中信贷样本数量与所述多份信贷样本对应的总数量的比值小于设定比值,确定所述信贷样本群属于低样本数的信贷样本群。
又一方面,本申请还提供了一种逾期风险预测方法,包括:
获得待预测的目标用户的目标信贷特征数据;
从多个信贷样本群中,确定所述目标信贷特征数据匹配的目标信贷样本群,所述信贷样本群为基于如上任意一项所述的模型训练方法确定出的;
基于所述目标信贷样本群适用的子信贷风险模型以及所述目标信贷特征数据,确定所述目标用户存在信贷逾期风险的风险评分,所述目标信贷样本群适用的子信贷风险模型为基于如上任意一项所述的模型训练方法训练得到的。
又一方面,本申请还提供了一种模型训练装置,包括:
样本获得单元,用于获得多份信贷样本,所述信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据,所述信贷样本标注有信贷风险标签,所述信贷风险标签用于表征所述信贷样本对应的用户是否存在信贷逾期的风险;
第一模型训练单元,用于利用所述多份信贷样本以及所述信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型;
群分类单元,用于确定所述多份信贷样本各自归属的信贷样本群,得到至少一个信贷样本群,所述信贷样本群中包括信贷特征数据的种类相同的至少一个信贷样本,且所述至少一个信贷样本中指定类别的信贷特征数据相同;
第二模型训练单元,用于如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,利用所述综合信贷风险模型分别确定所述信贷样本群中各信贷样本对应的信贷逾期评分,基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于所述信贷样本群的子信贷风险模型;其中,所述信贷样本群的子信贷风险模型用于预测信贷特征数据与所述信贷样本群匹配的用户存在信贷逾期风险的评分。
又一方面,本申请还提供了一种逾期风险预测装置,包括:
数据获得单元,用于获得待预测的目标用户的目标信贷特征数据;
群确定单元,用于从多个信贷样本群中,确定所述目标信贷特征数据匹配的目标信贷样本群,所述信贷样本群为基于权利要求1至5任意一项所述的模型训练方法确定出的;
风险预测单元,用于基于所述目标信贷样本群适用的子信贷风险模型以及所述目标信贷特征数据,确定所述目标用户存在信贷逾期风险的风险评分,所述目标信贷样本群适用的子信贷风险模型为基于权利要求1至5任意一项所述的模型训练方法训练得到的。
又一方面,本申请还提供了一种电子设备,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上任意一项所述的模型训练方法,或者如上所述的逾期风险预测方法。
又一方面,本申请还提供了一种存储介质,用于存储程序,所述程序被执行时,用于实现如上任意一项所述的模型训练方法,或者如上所述的逾期风险预测方法。
由以上可知,在本申请实施例中,在利用多份信贷样本中的信贷特征数据训练出综合信贷风险模型的同时,还会将多份信贷样本划归到相应的信贷样本群。对于包含信贷样本数量相对较少的信贷样本群,本申请会利用训练出的信贷风险模型来确定该信贷样本群中各信贷样本的信贷逾期评分,在此基础上,本申请会结合该信贷样本群中各信贷样本的信贷特征数据以及信贷逾期评分来训练得到适合该信贷样本群的子信贷风险模型,使得信贷样本群对应的子信贷风险模型的训练既考虑到该信贷样本群中特有的信贷特征,又考虑到的模型的稳定性,从而减少了由于信贷样本群中信贷样本数量较少而使得基于训练出的模型预测用户存在信贷逾期风险的准确性较低,进而提高提升训练出的模型预测信贷逾期风险的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的模型训练方法的一种流程示意图;
图2示出了本申请实施例提供的模型训练方法的又一种流程示意图;
图3示出了本申请实施例提供的逾期风险预测方法的一种流程示意图;
图4示出了本申请实施例提供的模型训练装置的一种组成结构示意图;
图5示出了本申请实施例提供的逾期风险预测装置的一种组成结构示意图。
具体实施方式
本申请的方案可以应用于任意涉及信贷风险管控的场景中,如可以适用于各种商业贷款或者信用贷款等场景中,以对申请借贷的用户进行借贷预期风险的评估等。
通过本申请实施例的方法可以训练出适用于不同客群的信贷风险模型,提升确定用户存在信贷逾期风险的准确度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1,其示出了本申请一种模型训练方法一个实施例的流程示意图,本实施例的方法可以应用于电子设备,该电子设备可以为独立的计算机设备或者服务器等,还可以服务器集群、分布式系统或者云平台中的节点等等,对此不加限制。
本实施例的方法可以包括:
S101,获得多份信贷样本。
其中,信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据。
可以理解的是,每个信贷样本都可以包含至少一种信贷特征数据,一般情况下,每个信贷样本会包括多种信贷特征数据。
如,信贷样本的信贷特征数据可以为信贷用户的用户属性(如,信贷用户的年龄、职业以及学历等等)、信贷用户申请的信贷产品的产品特征(如,信贷产品的名称、类型以及用途等等)以及用户申请信贷的业务场景(申请信贷的用途以及借款应用场所等)以及借贷次数等等多种维度的信贷特征数据。
其中,信贷样本标注有信贷风险标签,信贷风险标签用于表征信贷样本对应的用户是否存在信贷逾期的风险。如,存在信贷逾期的信贷样本可以标注标签1,不存在信贷逾期的信贷样本可以标注标签0,那么如果信贷用户为存在信贷逾期的用户,那么该信贷用户的信贷样本可以被标注为1;否则,可以标注为0。
S102,利用多份信贷样本以及信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型。
其中,该第一模型可以根据需要设置,如第一模型可以为神经网络模型,例如,能够实现分类的神经网络模型等,对此不加限制。该第一模型还可以为树模型,如、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型,或者是,XGB(xgboost)模型等等,对此不加限制。
其中,在对第一模型进行训练时,可以集合信贷样本中各信贷特征数据以及标注的信贷风险标签进行有监督的训练,在此基础上,将训练出的第一模型称为综合信贷风险模型。
可以理解的是,综合信贷风险模型是结合了所有信贷样本的信贷特征数据训练得到的,从而可以充分学习不同信贷样本的特征,使得综合信贷风险模型在信贷样本数量很小的样本客群上仍具有较为稳定的预测能力。
可以理解的是,本申请中信贷样本的获取途径可以有多种可能,而且对于不同业务场景以及生成来源不同的信贷用户对应的信贷样本中信贷特征数量的种类也可能会有所不同。基于此,本申请可以是基于获得的多份信贷样本的信贷特征数据,确定该多份信贷样本均具有的至少一种共有信贷特征数据,共有信贷特征数据为该多份信贷样本数据均具有的一种信贷特征数据。相应的,本申请为利用多份信贷样本各自对应的至少一种共有信贷特征数据以及各信贷样本标注的信贷风险标签训练该第一模型,得到该综合信贷风险模型。
S103,确定多份信贷样本各自归属的信贷样本群,得到至少一个信贷样本群。
其中,信贷样本群中包括信贷特征数据的种类相同的至少一个信贷样本,且至少一个信贷样本中指定类别的信贷特征数据相同。
可以理解的是,信贷样本群实际上对应了一个信贷客群,该信贷样本群中各信贷样本对应的信贷用户属于该信贷客群。本申请中划分信贷样本群的方式可以有多种可能,对此不加限制。
其中,该指定类别可以根据需要设定。
在一种可能的实现方式中,指定类型的信贷特征数据可以为表征信贷业务场景的信贷特征数据。
其中,信贷业务场景可以是信贷用户申请借贷的应用场景,如,信贷用户中借贷的场景贷类型(或者是借贷用途等),如,信贷用户申请的是医美贷款(或者是借贷用途为医美)或者教育贷等等。
信贷业务场景还可以是信贷用户的产生来源,如线下销售人员为信贷用户提供的借贷业务,或者是,信贷用户通过网络申请的借贷业务等等。
相应的,可以基于信贷样本中表征信贷业务场景的信贷特征数据,将该多份信贷样本划归到至少一个信贷样本群,每个信贷样本群中表征信贷业务场景的信贷特征数据相同。
例如,将属于医美借贷的借贷用户对应的信贷样本划归到一个信贷样本群,而将属于教育借贷的借贷用户对应的借贷样本划归到另一个信贷样本群等。
S104,如基于信贷样本群中信贷样本数量确定出信贷样本群属于低样本数的信贷样本群,利用综合信贷风险模型分别确定信贷样本群中各信贷样本对应的信贷逾期评分,基于信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于信贷样本群的子信贷风险模型。
其中,低样本数的信贷样本群是指相对其他信贷样本群而言,具有的信贷样本的数量相对较少。
如,在一种可能的实现方式中,在信贷样本群中信贷样本数量低于设定数量的情况下,可以确定该信贷样本群属于低样本数的信贷样本群。该设定数量可以根据需要设定。
在又一种可能的实现方式中,如果信贷样本群中信贷样本数量与所述多份信贷样本对应的总数量的比值小于设定比值,确定该信贷样本群属于低样本数的信贷样本群。其中,该设定比值可以根据需要设定,如,设定比值可以为20%等,对此不加限制。
其中,信贷样本的信贷逾期评分为将该信贷样本的信贷特征数据,如共有信贷特征数据,输入到该综合信贷风险模型后,该综合信贷风险模型输出的评分。
该第二模型可以为与第一模型相同类型的模型,也可以是与第一模型不同类型的模型,对此不加限制。如,第二模型可以为神经网络模型,还可以是各种树模型等。
其中,训练第二模型的过程同样为一种有监督的训练过程,对于具体训练方式和过程本申请不加限制。
可以理解的是,由于低样本数的信贷样本群中信贷样本的数量相对较少,如果仅仅利用综合风险模型来对该类信贷样本群对应的信贷客群中的用户进行信贷风险逾期预测,则可能忽略该信贷客群中一些特殊的信贷特征对于信贷逾期的影响。基于此,结合该类信贷样本群自身具有的信贷特征数据的特殊性,以及利用综合信贷风险模型确定出的信贷逾期评分,综合训练得到该信贷样本群适用的子信贷风险模型,可以使得子信贷风险模型能够更为全面提取该信贷样本群中信贷特征数据对于信贷逾期风险的影响特征。
其中,信贷样本群的子信贷风险模型用于预测信贷特征数据与该信贷样本群匹配的用户存在信贷逾期风险的评分。用户的信贷特征数据包括该信贷样本群中指定类型的信贷特征数据,则可以认为用户的信贷特征数据与该信贷样本群匹配。
如,用户的信贷特征数据表征该用户的借贷申请的借贷业务场景与该信贷样本群对应的借贷业务场景一致,则该用户的信贷特征数据与该信贷样本群匹配,从而可以利用该信贷样本群适合的子信贷风险模型预测该用户存在信贷逾期风险的评分。例如,用户的信贷特征数据表征用户申请借贷是医美借贷,则可以利用医美借贷对应的信贷样本群适用的子信贷风险模型对该用户存在信贷逾期风险进行评分。
由以上可知,在本申请实施例中,在利用多份信贷样本中的信贷特征数据训练出综合信贷风险模型的同时,还会将多份信贷样本划归到相应的信贷样本群。对于包含信贷样本数量相对较少的信贷样本群,本申请会利用训练出的信贷风险模型来确定该信贷样本群中各信贷样本的信贷逾期评分,在此基础上,本申请会结合该信贷样本群中各信贷样本的信贷特征数据以及信贷逾期评分来训练得到适合该信贷样本群的子信贷风险模型,使得信贷样本群对应的子信贷风险模型的训练既考虑到该信贷样本群中特有的信贷特征,又考虑到的模型的稳定性,从而减少了由于信贷样本群中信贷样本数量较少而使得基于训练出的模型预测用户存在信贷逾期风险的准确性较低,进而提高提升训练出的模型预测信贷逾期风险的准确性。
可以理解的是,在本申请实施例中,对于包含的信贷样本的数量较多的信贷样本群而言,由于信贷样本的数量较大,不存在由于信贷样本数量过少而导致训练出的模型的稳定性不高的情况,因此,可以直接利用该信贷样本群中的信贷样本训练适用于该信贷样本群的子信贷风险模型。
具体的,如果基于信贷样本群中信贷样本数量确定出信贷样本群不属于低样本数的信贷样本群,基于该信贷样本群中各信贷样本的信贷特征数据以及信贷风险标签训练第三模型,得到适用于信贷样本群的子信贷风险模型。
为了便于理解申请的方案,下面以一种可能的情况为例对本申请的模型训练方法进行介绍。
如图2所示,其示出了本申请一种模型训练方法又一个实施例的流程示意图,本实施例的方法可以包括:
S201,获得多份信贷样本。
其中,信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据。
S202,利用多份信贷样本各自的信贷特征数据以及每个信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型。
以上步骤可以参见前面实施例的相关介绍,在此不再赘述。
S203,基于信贷样本中表征信贷业务场景的信贷特征数据,将多份信贷样本划归到至少一个信贷样本群。
其中,每个信贷样本群中表征信贷业务场景的信贷特征数据相同。
如,可以信贷样本可以包括信贷业务场景这一信贷特征,在此基础上,可以将信贷业务场景这一特征的取值相同的信贷样本划归到同一个信贷样本群。
S204,针对每个信贷样本群,判断该信贷样本群中信贷样本的数量与获得的多份信贷样本的总数量的比值是否大于20%,如果否,则执行步骤S205;如果是,则执行步骤S208。
在本实施例中,是以设定比值为20%为例说明,但是可以理解的是,对于设定比值为其他情况也同样适用于本申请,对此不加限制。
可以理解的是,如果信贷样本群中信贷样本的数量与该总数量的比值大于20%,则可以确定该信贷样本群不属于低样本数的信贷样本群;否则,该信贷样本群属于低样本数的信贷样本群。
S205,利用综合信贷风险模型分别确定信贷样本群中各信贷样本对应的信贷逾期评分。
S206,确定该信贷样本群的信贷样本具有的特殊信贷特征数据。
其中,该特殊信贷特征数据为该信贷样本群之外的其他信贷样本群中的信贷样本不具有的信贷特征数据。如,信贷样本群为医美借贷业务对应的信贷样本群,那么该信贷样本群中各信贷样本可能会具有医美借贷的医美机构的等级等特征数据,而这些特征数据是其他信贷样本群中的信贷样本不具有的特征数据,则这些特征数据属于特殊信贷特征数据。
可以理解的是,该步骤S206和S207的顺序并不限于图2所示,在实际应用中,这两个步骤可以互换,也可以同时执行。
S207,至少基于所述信贷样本群中各信贷样本的特殊信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于信贷样本群的子信贷风险模型。
由于特殊信贷特征数据可以反映出该信贷样本群中各信贷样本的特殊特征,因此,本申请在训练第二模型中至少需要考虑这些特殊信贷特征数据,当然,还可以结合用户属性等特征,或者是将所有该信贷样本群中各信贷样本的所有信贷特征数据均作为训练所需的信贷特征数据也同样可以。
S208,基于信贷样本群中各信贷样本的信贷特征数据以及信贷风险标签训练第三模型,得到适用于信贷样本群的子信贷风险模型。
其中,该第三模型可以为神经网络模型或者是树模型等,对此不加限制。该第三模型与第一模型和第二模型的模型类型可以相同,也可以不相同。例如,第一模型、第二模型和第三模型可以均为树模型等。
在本申请实施例,对于一个信贷样本群而言,无论是通过步骤S208还是步骤S209得到适用于该信贷样本群的子信贷风险模型,该信贷样本群对应的子信贷风险模型均可以用于对与该信贷样本群匹配的用户的信贷特征数据进行借贷预期风险的预测。
由图2实施例可知,本申请结合不同信贷样本群中信贷样本的数量,结合信贷样本群中各信贷样本的信贷特征数据采用相应的模型训练方式,从而可以有利于更为合理确定适合该信贷样本群的子信贷风险模型,进而使得每个信贷样本群适用的子信贷风险模型均能够较为准确预测与该信贷样本群匹配的用户存在借贷逾期风险的情况。
为了便于理解基于利用本申请训练的子信贷风险模型预测需要借贷的用户的借贷逾期风险的评分的具体实现,本申请还提供了一种逾期风险预测方法。
如图3所示,其示出了本申请实施例提供的逾期风险预测方法的一种流程示意图,本实施例的方法可以包括:
S301,获得待预测的目标用户的目标信贷特征数据。
其中,待预测的目标用户可以为申请借贷的用户或者是存在借贷申请需求的用户。
为了便于区分,将该目标用户的信贷特征数据称为目标信贷特征数据。可以理解的是,获得的目标用户的目标信贷特征数据可以包括多种维度的信贷特征下的特征数据。如,目标信贷特征数据可以包括目标用户的用户属性、目标用户申请借贷的借贷产品类型以及业务场景特征等等维度的特征数据,对此不加限制。
S302,从多个信贷样本群中,确定该目标信贷特征数据匹配的目标信贷样本群。
其中,信贷样本群为基于前面任意一项所述的模型训练方法确定出的。
为了便于区分,将与该目标信贷特征数据匹配的信贷样本群称为目标信贷样本群。
其中,目标信贷群中信贷样本包含信贷特征数据的种类与该目标用户的目标信贷特征数据的种类相同,且目标信贷特征数据中指定类别的信贷特征数据与该目标信贷样本群中各信贷样本在该指定类别的信贷特征数据相同。
如,在一种可能的情况下,可以将与该目标信贷特征数据中表征信贷业务场景的信贷特征数据匹配的信贷样本群确定为目标信贷样本群。例如,该目标信贷特征数据表征目标用户希望申请的借贷为医美借贷,那么可以确定医美借贷对应的信贷样本群为目标信贷样本群。
S303,基于该目标信贷样本群适用的子信贷风险模型以及该目标信贷特征数据,确定该目标用户存在信贷逾期风险的风险评分。
其中,该目标信贷样本群适用的子信贷风险模型为前面任意一项描述的模型训练方法训练得到的。
如,可以将目标信贷特征数据输入到该目标信贷样本群对应的子信贷风险模型,得到该子信贷风险模型输出的该用户存在信贷逾期风险的风险评分。
可以理解的是,由前面得到信贷样本群适用的子信贷风险模型可知,本申请中信贷样本群的子信贷风险模型的训练充分了考虑到信贷样本群中信贷样本数量的多少,并采用更为合理的方式训练出该信贷样本群的子信贷风险模型,使得子信贷风险模型能够更为准确预测与该信贷样本群匹配的用户的逾期风险,从而可以提高预测用户存在信贷逾期风险的准确性。
对应本申请的一种模型训练方法,本申请还提供了一种模型训练装置。
如图4所示,其示出了本申请一种模型训练装置一个实施例的组成结构示意图,本实施例的装置可以包括:
样本获得单元401,用于获得多份信贷样本,所述信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据,所述信贷样本标注有信贷风险标签,所述信贷风险标签用于表征所述信贷样本对应的用户是否存在信贷逾期的风险;
第一模型训练单元402,用于利用所述多份信贷样本以及所述信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型;
群分类单元403,用于确定所述多份信贷样本各自归属的信贷样本群,得到至少一个信贷样本群,所述信贷样本群中包括信贷特征数据的种类相同的至少一个信贷样本,且所述至少一个信贷样本中指定类别的信贷特征数据相同;
第二模型训练单元404,用于如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,利用所述综合信贷风险模型分别确定所述信贷样本群中各信贷样本对应的信贷逾期评分,基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于所述信贷样本群的子信贷风险模型;其中,所述信贷样本群的子信贷风险模型用于预测信贷特征数据与所述信贷样本群匹配的用户存在信贷逾期风险的评分。
在一种可能的实现方式中,该装置还包括:
第三模型训练单元,用于如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群不属于低样本数的信贷样本群,基于所述信贷样本群中各信贷样本的信贷特征数据以及信贷风险标签训练第三模型,得到适用于所述信贷样本群的子信贷风险模型。
在一种可能的实现方式中,群分类单元包括:
群分类子单元,用于基于所述信贷样本中表征信贷业务场景的信贷特征数据,将所述多份信贷样本划归到至少一个信贷样本群,每个信贷样本群中表征信贷业务场景的信贷特征数据相同。
在一种可能的实现方式中,第二模型训练单元在基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型时具体用于,确定所述信贷样本群的信贷样本具有的特殊信贷特征数据,所述特殊信贷特征数据为所述信贷样本群之外的其他信贷样本群中的信贷样本不具有的信贷特征数据;至少基于所述信贷样本群中各信贷样本的特殊信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型。
在又一种可能的实现方式中,第二模型训练单元在基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群时,具体为,用于如所述信贷样本群中信贷样本数量与所述多份信贷样本对应的总数量的比值小于设定比值,确定所述信贷样本群属于低样本数的信贷样本群。
又一方面,本申请还提供了一种逾期风险预测装置。如图5所示,其示出了本申请一种逾期风险预测装置一个实施例的组成结构示意图,该装置可以包括:
数据获得单元501,用于获得待预测的目标用户的目标信贷特征数据;
群确定单元502,用于从多个信贷样本群中,确定所述目标信贷特征数据匹配的目标信贷样本群,所述信贷样本群为基于如上任意一个实施例所述的模型训练方法确定出的;
风险预测单元503,用于基于所述目标信贷样本群适用的子信贷风险模型以及所述目标信贷特征数据,确定所述目标用户存在信贷逾期风险的风险评分,所述目标信贷样本群适用的子信贷风险模型为基于如上任意一个实施例的模型训练方法训练得到的。
又一方面,本申请还提供了一种电子设备。该电子设备可以包括存储器和处理器。
其中,该存储器用于存储程序;
该处理器用于执行所述程序,该程序被执行时,具体用于实现如上任意一个实施例所描述的模型训练方法,或者如上实施例中描述的逾期风险预测方法。
又一方面,本申请还提供了一种存储介质,用于存储程序,该程序被执行时,用于实现如上任意一个实施例所述的模型训练方法,或者如上实施例所述的逾期风险预测方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获得多份信贷样本,所述信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据,所述信贷样本标注有信贷风险标签,所述信贷风险标签用于表征所述信贷样本对应的用户是否存在信贷逾期的风险;
利用所述多份信贷样本以及所述信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型;
确定所述多份信贷样本各自归属的信贷样本群,得到至少一个信贷样本群,所述信贷样本群中包括信贷特征数据的种类相同的至少一个信贷样本,且所述至少一个信贷样本中指定类别的信贷特征数据相同;
如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,利用所述综合信贷风险模型分别确定所述信贷样本群中各信贷样本对应的信贷逾期评分,基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于所述信贷样本群的子信贷风险模型;
其中,所述信贷样本群的子信贷风险模型用于预测信贷特征数据与所述信贷样本群匹配的用户存在信贷逾期风险的评分。
2.根据权利要求1所述的方法,其特征在于,还包括:
如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群不属于低样本数的信贷样本群,基于所述信贷样本群中各信贷样本的信贷特征数据以及信贷风险标签训练第三模型,得到适用于所述信贷样本群的子信贷风险模型。
3.根据权利要求1所述的方法,其特征在于,所述确定所述多份信贷样本各自归属的信贷样本群,包括:
基于所述信贷样本中表征信贷业务场景的信贷特征数据,将所述多份信贷样本划归到至少一个信贷样本群,每个信贷样本群中表征信贷业务场景的信贷特征数据相同。
4.根据权利要求1所述的方法,其特征在于,所述基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,包括:
确定所述信贷样本群的信贷样本具有的特殊信贷特征数据,所述特殊信贷特征数据为所述信贷样本群之外的其他信贷样本群中的信贷样本不具有的信贷特征数据;
至少基于所述信贷样本群中各信贷样本的特殊信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型。
5.根据权利要求1所述的方法,其特征在于,所述基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,包括:
如所述信贷样本群中信贷样本数量与所述多份信贷样本对应的总数量的比值小于设定比值,确定所述信贷样本群属于低样本数的信贷样本群。
6.一种逾期风险预测方法,其特征在于,包括:
获得待预测的目标用户的目标信贷特征数据;
从多个信贷样本群中,确定所述目标信贷特征数据匹配的目标信贷样本群,所述信贷样本群为基于权利要求1至5任意一项所述的模型训练方法确定出的;
基于所述目标信贷样本群适用的子信贷风险模型以及所述目标信贷特征数据,确定所述目标用户存在信贷逾期风险的风险评分,所述目标信贷样本群适用的子信贷风险模型为基于权利要求1至5任意一项所述的模型训练方法训练得到的。
7.一种模型训练装置,其特征在于,包括:
样本获得单元,用于获得多份信贷样本,所述信贷样本包括存在借贷行为的信贷用户关联的信贷特征数据,所述信贷样本标注有信贷风险标签,所述信贷风险标签用于表征所述信贷样本对应的用户是否存在信贷逾期的风险;
第一模型训练单元,用于利用所述多份信贷样本以及所述信贷样本标注的信贷风险标签训练第一模型,得到训练出的综合信贷风险模型;
群分类单元,用于确定所述多份信贷样本各自归属的信贷样本群,得到至少一个信贷样本群,所述信贷样本群中包括信贷特征数据的种类相同的至少一个信贷样本,且所述至少一个信贷样本中指定类别的信贷特征数据相同;
第二模型训练单元,用于如基于所述信贷样本群中信贷样本数量确定出所述信贷样本群属于低样本数的信贷样本群,利用所述综合信贷风险模型分别确定所述信贷样本群中各信贷样本对应的信贷逾期评分,基于所述信贷样本中各信贷样本的信贷特征数据、信贷逾期评分以及信贷风险标签训练第二模型,得到适用于所述信贷样本群的子信贷风险模型;其中,所述信贷样本群的子信贷风险模型用于预测信贷特征数据与所述信贷样本群匹配的用户存在信贷逾期风险的评分。
8.一种逾期风险预测装置,其特征在于,包括:
数据获得单元,用于获得待预测的目标用户的目标信贷特征数据;
群确定单元,用于从多个信贷样本群中,确定所述目标信贷特征数据匹配的目标信贷样本群,所述信贷样本群为基于权利要求1至5任意一项所述的模型训练方法确定出的;
风险预测单元,用于基于所述目标信贷样本群适用的子信贷风险模型以及所述目标信贷特征数据,确定所述目标用户存在信贷逾期风险的风险评分,所述目标信贷样本群适用的子信贷风险模型为基于权利要求1至5任意一项所述的模型训练方法训练得到的。
9.一种电子设备,其特征在于,包括存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至5任意一项所述的模型训练方法,或者如权利要求6所述的逾期风险预测方法。
10.一种存储介质,其特征在于,用于存储程序,所述程序被执行时,用于实现如权利要求1至5任意一项所述的模型训练方法,或者如权利要求6所述的逾期风险预测方法。
CN202111249432.2A 2021-10-26 2021-10-26 模型训练及逾期风险预测方法、装置、设备和介质 Pending CN113962800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111249432.2A CN113962800A (zh) 2021-10-26 2021-10-26 模型训练及逾期风险预测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111249432.2A CN113962800A (zh) 2021-10-26 2021-10-26 模型训练及逾期风险预测方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113962800A true CN113962800A (zh) 2022-01-21

Family

ID=79467107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111249432.2A Pending CN113962800A (zh) 2021-10-26 2021-10-26 模型训练及逾期风险预测方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113962800A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545912A (zh) * 2022-11-30 2022-12-30 联合赤道环境评价股份有限公司 基于绿色识别信息的信贷风险预测方法及装置
CN116739742A (zh) * 2023-06-02 2023-09-12 北京百度网讯科技有限公司 信贷风控模型的监控方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545912A (zh) * 2022-11-30 2022-12-30 联合赤道环境评价股份有限公司 基于绿色识别信息的信贷风险预测方法及装置
CN115545912B (zh) * 2022-11-30 2023-04-25 联合赤道环境评价股份有限公司 基于绿色识别信息的信贷风险预测方法及装置
CN116739742A (zh) * 2023-06-02 2023-09-12 北京百度网讯科技有限公司 信贷风控模型的监控方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10348550B2 (en) Method and system for processing network media information
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN108399564B (zh) 信用评分方法及装置
Jula et al. Imperialist competitive algorithm with PROCLUS classifier for service time optimization in cloud computing service composition
CN113962800A (zh) 模型训练及逾期风险预测方法、装置、设备和介质
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
CN112667805B (zh) 一种工单类别确定方法、装置、设备及介质
CN113536097B (zh) 基于自动特征分组的推荐方法及装置
CN112070545B (zh) 用于优化信息触达的方法、装置、介质和电子设备
CN111159241B (zh) 一种点击转化预估方法及装置
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN112053245A (zh) 信息评估方法及系统
CN111476657A (zh) 信息推送方法、装置及系统
CN116257758A (zh) 模型训练方法、人群拓展方法、介质、装置和计算设备
US20150269839A1 (en) Assessment device, assessment system, assessment method, and computer-readable storage medium
CN116228484B (zh) 基于量子聚类算法的课程组合方法及装置
CN112200602B (zh) 用于广告推荐的神经网络模型训练方法及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN112541705B (zh) 生成用户行为评估模型的方法、装置、设备以及存储介质
CN114237460B (zh) 标签显示方法、装置、终端、存储介质及计算机程序产品
CN113723611B (zh) 基于因果推断的业务因子生成方法、装置、设备及介质
CN112015975B (zh) 基于牛顿冷却定律的面向金融用户的信息推送方法及装置
CN112308706A (zh) 一种机器学习模型训练方法及装置
CN114218077A (zh) 一种软件的质量评价方法、装置、设备及可读存储介质
CN116127189A (zh) 用户运营方法、装置、设备以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination