CN110909984B - 业务数据处理模型训练方法、业务数据处理方法及装置 - Google Patents
业务数据处理模型训练方法、业务数据处理方法及装置 Download PDFInfo
- Publication number
- CN110909984B CN110909984B CN201911029001.8A CN201911029001A CN110909984B CN 110909984 B CN110909984 B CN 110909984B CN 201911029001 A CN201911029001 A CN 201911029001A CN 110909984 B CN110909984 B CN 110909984B
- Authority
- CN
- China
- Prior art keywords
- user
- data processing
- overdue
- input variables
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开一种业务数据处理模型训练方法、业务数据处理方法及装置,涉及计算机数据处理领域,其中模型训练方法至少包括:获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数,并基于用户信息样本提取目标输入变量;根据逾期催回天数对用户进行分类,获得用户分类结果;以目标输入变量为输入、用户分类结果为输出训练获得业务数据处理模型。该业务数据处理模型训练方法获取的样本数据较全面,训练获得的模型准确性高;其将复杂多样化的问题转化为有监督学习中的二分类问题,简化问题、降低模型训练难度;基于该模型的业务数据处理方法能针对不同情况的逾期客户进行用户风险等级分类以为决策者提供数据支撑。
Description
技术领域
本发明涉及计算机数据处理领域,特别涉及一种业务数据处理模型训练方法、业务数据处理方法及装置。
背景技术
随着我国消费信贷产业的蓬勃发展,信用卡、住房贷款、汽车贷款、消费品贷款等各类贷款产品层出不穷,越来越多的贷款机构加入这一行业,包括银行、小贷公司、互联网金融机构等等。在消费信贷行业不断发展的背后,也存在着一定的风险因素,其中一个不容忽视的风险即信用风险。
信用风险的控制决定着信贷产业能否继续繁荣,决定着贷款业务能否继续开展,决定着贷款机构的存续。风控能力是一家贷款机构的核心竞争力,如何在风险发生后,更好地管控风险并降低损失是每一家贷款机构需要具备的能力。
贷款申请人获得每一笔贷款后,需在指定时间点按时还款。但在实际业务开展中,往往存在一部分逾期未还的用户。发生逾期的原因层出不穷:用户单纯由于忘记而造成逾期,又或者由于一时的资金短缺无法偿还但却有良好的偿还意愿,也存在一部分用户存在恶意骗贷行为,诸此等等。
随着用户提交的信息越来越多,如何能够准确可靠地对用户的逾期情况进行评估,以便为决策者提供数据支撑,是目前亟需解决的问题。
发明内容
为解决上述技术问题,本发明提供了一种业务数据处理模型训练方法、业务数据处理方法及装置,其能准确可靠地对用户的逾期情况进行评估。
本发明实施例提供的技术方案如下:
第一方面,提供一种业务数据处理模型训练方法,其至少包括如下步骤:
获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数,并基于所述用户信息样本提取目标输入变量;
根据所述逾期催回天数及预设的样本分类标准对所述用户进行分类,获得用户分类结果;
以所述目标输入变量作为输入、所述用户分类结果为输出,基于第一基础模型,训练获得所述业务数据处理模型;
在一些较佳的实施方式中,所述训练业务数据处理模型还包括如下步骤:
以所述用户信息样本为输入、所述用户分类结果为输出,基于所述第一基础模型外的其他基础模型,训练获得若干其余业务数据处理模型;
采集若干样本外数据作为输入,以检验每一业务数据处理模型的效果,并将效果最优的模型作为最终的业务数据处理模型。
在一些较佳的实施方式中,所述基于所述用户信息样本提取目标输入变量,至少包括如下子步骤:
基于所述用户信息样本,提取输入变量,所述提取输入变量至少包括:
提取用户基本属性类输入变量;和/或;
提取用户行为信息类输入变量;和/或;
提取用户用信信息类输入变量;和/或
提取用户征信类输入变量;
其中:
所述用户基本属性类输入变量至少包括用户认证类型、用户资料完整度状态;
所述用户行为信息类输入变量至少包括:设定期限内的页面访问次数、设定期限内的产品购买金额;
所述用户用信信息类输入变量至少包括:消费贷已用信金额、历史逾期最大天数;
所述人行征信类输入变量至少包括:当前个人消费贷款笔数、历史贷款逾期单月最高逾期总额。
在一些较佳的实施方式中,所述提取输入变量后,还包括如下步骤:对所述输入变量进行特征工程,具体包括:对所述输入变量进行缺失值处理、数据分布、数据转换及输入变量筛选,获得目标输入变量;其中:
所述缺失值处理至少包括:删除缺失率超过第一预设占比的输入变量;根据所述输入变量的业务含义,进行缺失值填充;
所述数据分布至少包括:删除连续型输入变量中第二预设占比的分位值不超过第一预设值的输入变量;删除离散型输入变量中相同类型占比超过第三预设占比的输入变量;
所述数据转换至少包括:根据业务含义转换输入变量的数据类型;对于不能分箱的输入变量进行等深分箱;
所述输入变量筛选至少包括:选取IV值大于第二预设值的输入变量;计算输入变量贡献程度、筛选输入变量,获得目标输入变量。
第二方面,本发明还提供一种基于所述业务数据处理模型的业务数据处理方法,所述方法至少包括如下子步骤:
获取待测用户在第一时间段内的用户信息及第二时间段内的逾期金额,其中,第一时间段早于所述第二时间段,且以逾期发生日为观测点;
将所述用户信息输入预先训练的业务数据处理模型,获得模型的中间输出,所述中间输出为相应用户逾期不还款的概率值;
基于所述概率值、所述逾期金额、以及所述概率值与所述逾期金额及用户风险等级之间的对应关系,判断所述待测用户的用户风险等级。
在一些较佳的实施方式中,所述基于所述概率值、所述逾期金额、以及所述概率值与所述逾期金额及用户风险等级之间的对应关系,判断所述待测用户的用户风险等级,具体包括如下子步骤:
基于所述概率值及预先设置的第一分类阈值,确定所述用户的第一风险等级;
基于所述逾期金额及预先设置的第二分类阈值,确定所述用户的第二风险等级;
基于所述第一风险等级及第二风险等级,判断所述待测用户的用户风险等级。
在一些较佳的实施方式中,所述方法还包括步骤:训练业务数据处理模型,其至少包括如下子步骤:
获取若干逾期还款样本的用户信息样本及逾期催回天数,并基于所述用户信息样本提取目标输入变量;
根据所述逾期催回天数及预设的样本分类标准对所述用户进行分类,获得用户分类结果;
以所述目标输入变量作为输入、所述用户分类结果为输出,基于第一基础模型,训练获得所述业务数据处理模型。
在一些较佳的实施方式中,所述训练业务数据处理模型还包括如下步骤:
以所述用户信息样本为输入、所述用户分类结果为输出,基于所述第一基础模型外的其他基础模型,训练获得若干其余业务数据处理模型;
采集若干样本外数据作为输入,以检验每一业务数据处理模型的效果,并将效果最优的模型作为最终的业务数据处理模型。
第三方面,本发明还提供一种基于业务数据处理模型训练方法的业务数据模型训练装置,所述业务数据模型训练装置至少包括:
第一获取模块:用于获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数;
第一提取模块:用于基于所述用户信息样本提取目标输入变量;
分类模块:用于根据所述逾期催回天数及预设的样本分类标准对所述用户进行分类,获得用户分类结果;
训练模块:用于以所述目标输入变量作为输入、所述用户分类结果为输出,基于第一基础模型,训练获得所述业务数据处理模型。
在一些较佳的实施方式中,所述训练模块还用于:以所述用户信息样本为输入、所述用户分类结果为输出,基于所述第一基础模型外的其他基础模型,训练获得若干其余业务数据处理模型;
所述业务数据模型训练装置还包括:
模型筛选模块:用于采集若干样本外数据作为输入,以检验每一业务数据处理模型的效果,并将效果最优的模型作为最终的业务数据处理模型。
在一些较佳的实施方式中,所述第一提取模块至少包括:
输入变量提取子模块:用于基于所述用户信息样本,提取输入变量;
所述输入变量子模块至少包括:
第一提取单元:用于提取用户基本属性类输入变量;和/或;
第二提取单元:提取用户行为信息类输入变量;和/或;
第三提取单元:提取用户用信信息类输入变量;和/或
第四提取单元:提取用户征信类输入变量;
其中,所述用户基本属性类输入变量至少包括用户认证类型、用户资料完整度状态;
所述用户行为信息类输入变量至少包括:设定期限内的页面访问次数、设定期限内的产品购买金额;
所述用户用信信息类输入变量至少包括:消费贷已用信金额、历史逾期最大天数;
所述人行征信类输入变量至少包括:当前个人消费贷款笔数、历史贷款逾期单月最高逾期总额。
在一些较佳的实施方式中,所述业务数据模型训练装置还包括:
特征工程模块:用于对所述输入变量进行缺失值处理、数据分布、数据转换及输入变量筛选,获得目标输入变量;
所述特征工程模块至少包括如下子模块:
缺失值处理子模块:用于删除缺失率超过第一预设占比的输入变量;以及根据所述输入变量的业务含义,进行缺失值填充;
数据分布子模块:用于删除连续型输入变量中第二预设占比的分位值不超过第一预设值的输入变量;以及删除离散型输入变量中相同类型占比超过第三预设占比的输入变量;
数据转换子模块:用于根据业务含义转换输入变量的数据类型;以及对于不能分箱的输入变量进行等深分箱;
输入变量筛选子模块:用于选取IV值大于第二预设值的输入变量;以及计算输入变量贡献程度、筛选输入变量,获得目标输入变量。
第四方面,本发明还提供一种基于所述业务数据处理方法的业务数据处理装置,所述业务数据处理装置至少包括:
第一获取模块:用于获取待测用户在第一时间段内的用户信息及第二时间段内的逾期金额;
预测模块:用于将所述用户信息输入预先训练的业务数据处理模型,获得模型的中间输出,所述中间输出为相应用户逾期不还款的概率值;
判断模块:用于基于所述概率值、所述逾期金额、以及所述概率值与所述逾期金额及用户风险等级之间的对应关系,判断所述待测用户的用户风险等级。
在一些较佳的实施方式中,所述判断模块至少包括:
第一风险等级模块:用于基于所述概率值及预先设置的第一分类阈值,确定所述用户的第一风险等级;
第二风险等级模块:用于基于所述逾期金额及预先设置的第二分类阈值,确定所述用户的第二风险等级;
用户风险等级模块:用于基于所述第一风险等级及第二风险等级,判断所述待测用户的用户风险等级。
本发明相比现有技术而言的有益效果在于:
本发明保护一种业务数据处理模型训练方法及装置,其中的模型训练方法至少包括如下步骤:获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数,并基于用户信息样本提取目标输入变量;根据逾期催回天数及预设的样本分类标准对用户进行分类,获得用户分类结果;以目标输入变量作为输入、用户分类结果为输出,基于第一基础模型,训练获得业务数据处理模型。该业务数据处理模型训练方法基于逾期还款样本在获取样本数据时,在早期的第一时间段获取用户的全部特征并作为自变量的计算参考点,在后期的第二时间段收集用户的表现,从而获取的样本数据较全面,训练获得的模型准确性高;进一步,根据逾期催回天数及预设的样本分类标准对所述用户进行分类(好样本或坏样本),并将其作为模型输出,可将复杂多样化的问题转化为有监督学习中的二分类问题,从而简化问题,降低模型训练难度;
本发明还保护一种业务数据处理方法及装置,其中的业务数据处理方法至少包括如下步骤:获取待测用户的在第一时间段内的用户信息及第二时间段内的逾期金额;将用户信息输入预先训练的业务数据处理模型,获得模型的中间输出,中间输出为相应用户逾期不还款的概率值;基于概率值、逾期金额、以及概率值与逾期金额及用户风险等级之间的对应关系,判断待测用户的用户风险等级。该方法结合用户预期不还款的概率值结合逾期金额,将用户分为不同的风险等级,以对用户的逾期情况进行准确、可靠地评估,相较于目前对逾期用户制定统一决策的处理方法,该方法基于逾期用户历史特征表现,可针对不同情况的逾期客户进行分类,以便为决策者提供数据支撑,从而使得决策针对性更强,效果更优,间接提高用户的使用体验。
本申请的方案只要实现其中任一技术效果即可。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中的一种业务数据处理模型训练方法的流程图;
图2是本发明实施例一中催收天数累积分布图;
图3是本发明实施例二中的一种业务数据处理方法的流程图;
图4是本发明实施例三的一种业务数据处理模型训练装置的结构示意图;
图5是本发明实施例四中的一种业务数据处理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本实施例提供一种业务数据处理模型训练方法,属于计算机数据处理领域,其在早期的第一时间段获取用户的全部特征并作为自变量的计算参考点,在后期的第二时间段收集用户的表现,根据逾期催回天数及预设的样本分类标准对所述用户进行分类(好样本或坏样本)并将其作为模型输出,可将复杂多样化的问题转化为有监督学习中的二分类问题,从而简化问题,提高模型训练准确度并降低模型训练难度。
结合图1所示,该业务数据处理模型训练方法至少包括如下步骤:
S1、获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数,并基于用户信息样本提取目标输入变量;其中,第一时间段早于第二时间段,且以逾期发生日为观测点。
具体地,第一时间段为观测期,是早于第二时间段的一段时间,在第一时间段内刻画并描述用户的基本属性、偏好、行为等特征,作为建模的输入自变量。第一时间段的截止时间点即为观测点,作为全部自变量的计算参考点。
第二时间段为表现期,是晚于观测期的一段时间,在这段时间内收集用户的表现,如是否逾期、是否结清欠款、是否购买商品等,来定义建模的目标输入变量。
示例性地,如图2所示为某金融平台的催收天数累积分布图。以入催(用户发生逾期开始)为0天,入催120天之前结案的占比较高,入催超过120天结案的占比极低,即超过120天新增的结案数量很少。因此在本实施例中,将第二时间段(表现期)设为120天,作为预测变量的时间窗,将第一时间段(观测期)设为早于该第二时间段的24个月,作为建模数据时间窗。
进一步地,上述步骤S1中,基于用户信息样本提取目标输入变量至少包括如下子步骤:
Sa1、基于用户信息样本,提取输入变量,提取输入变量至少包括如下子步骤:
提取用户基本属性类输入变量;和/或;
提取用户行为信息类输入变量;和/或;
提取用户用信信息类输入变量;和/或
提取用户征信类输入变量;
其中:
用户基本属性类输入变量至少包括用户认证类型、用户资料完整度状态;
用户行为信息类输入变量至少包括:设定期限内(如近3个月内)的页面访问次数、设定期限内(如近6个月内)的产品购买金额;
用户用信信息类输入变量至少包括:消费贷已用信金额、历史逾期最大天数;
人行征信类输入变量至少包括:当前个人消费贷款笔数、历史贷款逾期单月最高逾期总额。
在一些较佳的实施方式中,通常会对所提取的输入变量进行一定的预处理及变量筛选,以提高数据的利用率及可信度,以便进一步提高训练模型的准确性。
为此,本实施例在提取输入变量后,还包括如下步骤:
Sa2、对输入变量进行特征工程,具体包括:对输入变量进行缺失值处理、数据分布、数据转换及输入变量筛选,获得目标输入变量;其中:
缺失值处理至少包括:删除缺失率超过第一预设占比(如90%)的输入变量;根据输入变量的业务含义,进行缺失值填充;
数据分布至少包括:删除连续型输入变量中第二预设占比(如95%)的分位值不超过第一预设值(如0.1)的输入变量;删除离散型输入变量中相同类型占比超过第三预设占比(如95%)的输入变量;
数据转换至少包括:根据业务含义转换输入变量的数据类型;对于不能分箱的输入变量进行等深分箱;
输入变量筛选至少包括:选取IV值大于第二预设值(如0.08)的输入变量;计算输入变量贡献程度、筛选输入变量,获得目标输入变量。
在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估,特征变量IV值的大小即表示该变量预测能力的强弱。
S2、根据逾期催回天数及预设的样本分类标准对用户进行分类,获得用户分类结果。
将用户发生逾期(入催)到逾期结束(结案)的时间长度(单位为天)称为逾期催回天数。示例性地,就某平台中某一借贷业务而言,根据业务经验可以将逾期催回天数分别划分为1-3天、4-14天、15-30天、31-60天、61-80天、81-100天以及100天以上,并分析不同时间段内的实际催回单数及累积催回单数,具体如下表1及表2所示:
表1. 不同时间段内的实际催回单数
表2. 不同时间段内累积催回单数
由上述表1和表2可知,入催4-14天的案件,后期累积催回率达到了77.9%,绝大部分逾期能够在后期结案,而入催超过80天的案件,后期催回率均小于12.4%。因此将入催1-14天的人定义为好样本,将入催超过80天的人定义为坏样本,而入催15-80天的人暂不纳入样本范围。
因此,本实施例步骤S1中获取的用户信息样本,实际为好样本与坏样本的集合。
S3、以目标输入变量作为输入、用户分类结果为输出,基于第一基础模型,训练获得业务数据处理模型。
在获取了目标输入变量以及输出后,可进行二分类模型的模型训练。本实施例采用常用包括逻辑回归、随机森林、GBDT或SVM等有监督分类机器学习算法为模型基础进行模型训练。
基于上述获取用户信息样本,作为通常的模型训练手段,采用部分用户信息样本数据作为建模数据(如70%),用训练好的模型对余下样本(如30%)的输入数据进行预测并作为模型调参的依据。
作为一种较佳的实施方式,为了获取最佳的业务数据处理模型,该业务数据处理模型训练方法还包括如下步骤:
S4、以用户信息样本为输入、用户分类结果为输出,基于第一基础模型外的其他基础模型,训练获得若干其余业务数据处理模型;
S5、采集若干样本外数据作为输入,以检验每一业务数据处理模型的效果,并将效果最优的模型作为最终的业务数据处理模型。
示例性地,结合步骤S3~S5,在进行模型训练时,以用户信息样本为输入、用户分类结果为输出,基于三个有监督分类机器学习算法:逻辑回归、随机森林、GBDT,训练获得三个业务数据处理模型。采集同一批样本外数据作为输入,通过ROC及KS曲线作为检验每一业务数据处理模型效果的依据,并将效果最优的模型作为最终的业务数据处理模型。
本实施例提供的业务数据处理模型训练方法基于逾期还款样本在获取样本数据时,在早期的第一时间段获取用户的全部特征并作为自变量的计算参考点,在后期的第二时间段收集用户的表现来定义用户的表现,从而获取的样本数据较全面,训练获得的模型准确性高;进一步,根据逾期催回天数及预设的样本分类标准对用户进行分类(好样本或坏样本),并将其作为模型输出,可将复杂多样化的问题转化为有监督学习中的二分类问题,从而简化问题;降低模型训练难度。
实施例二
如图3所示,本实施例提供一种业务数据处理方法,该方法基于逾期用户历史特征表现,获得用户预期不还款的概率值,并结合逾期金额,将用户分为不同的风险等级,对不同情况的逾期客户进行风险评估及分类,以便后期为决策者提供数据支撑。
结合图3所示,该业务数据处理方法至少包括如下步骤:
S1'、获取待测用户的在第一时间段内的用户信息及第二时间段内的逾期金额。
本实施例中的用户信息、第一时间段、第二时间段的具体含义,请参照实施例一种的相应解释。
S2'、将用户信息输入预先训练的业务数据处理模型,获得模型的中间输出,中间输出为相应用户逾期不还款的概率值。
该步骤中涉及的业务数据处理模型,即为实施例一训练获得的业务数据处理模型。相应地,在步骤S1'与S2'之间,同样包括如实施例一中步骤Sa1所述的提取输入变量,并将输入变量输入预先训练的业务数据处理模型的步骤,具体技术方案及技术效果请参照实施例一中的相应描述,此处不再赘述。
S3'、基于概率值、逾期金额、以及概率值与逾期金额及用户风险等级之间的对应关系,判断待测用户的用户风险等级。
因此在步骤S3'之前,需预先构造概率值、逾期金额及用户风险等级之间的对应关系,在获取概率值、逾期金额之后,根据三者的对应关系,即可获知该待测用户的用户风险等级。
具体地,步骤S3'至少包括如下子步骤:
S31'、基于概率值及预先设置的第一分类阈值,确定用户的第一风险等级,该第一风险等级用于刻画用户的催回难易度。
其中,获得的逾期不还款的概率值,可以理解为用户变成坏样本的概率,即数值越大,发生逾期不还的可能性越高。示例性地,如表3所示,为将输入变量输入以GBDT为模型基础训练获得的业务数据处理模型后获得的概率值,将概率值从大到小排列,分为20个区间,根据处于不同区间客群的好样本占比进行划分,通过预设的第一分类阈值,可将所有用户进行第一风险等级划分,分为“难”、“中”、“易”三个等级,可用来刻画用户的催回难易程度,此处的第一分类阈值可根据经验或实际情况设置。如表3所示,将概率值区间0.19-0.38、0.03-0.16、0.00-0.02 分别作为“难”、“中”、“易”三个等级的阈值区间。
表3. 待测用户概率值与好样本占比展示表
S32'、基于逾期金额及预先设置的第二分类阈值,确定用户的第二风险等级。
具体地,将用户逾期的金额作为逾期严重度的评价指标,按照金额大小将第二风险等级划分为“高”、“中”、“低”三个等级。
S33'、基于第一风险等级及第二风险等级,判断待测用户的用户风险等级。
示例性地,基于逾期严重度与催回难易度,组成一个二维矩阵,根据不同的组合将待测用户分为不同的组别。可将用户分为A、B、C、D四个用户风险等级。
其中:等级A的用户性质为:易催回,逾期金额偏低,推荐的催回策略为:语音、短信催收;
等级B的用户性质为:较易催回且逾期金额适中,推荐的催回策略为: 语音、短信、电话催收;
等级C的用户性质为:较难催回,推荐的催回策略为:电话催收,后期可转外催;
等级D的用户性质为:难催回;推荐的策略为:外催。
如此,实现准确可靠地对用户的逾期情况进行评估,以为决策者提供数据支撑。
需要说明的是,本实施例中采用实施例一中业务数据处理模型训练方法所训练获得的业务数据处理模型来获取用户预期不还款的概率值,继而获取用户风险等级,期间涉及的业务数据处理模型训练方法及模型所能获得的效果请具体参照实施例一,此处不再赘述。
本实施例提供的业务数据处理方法,其结合用户预期不还款的概率值结合逾期金额,将用户分为不同的风险等级,以对用户的逾期情况进行准确、可靠地评估,相较于目前对逾期用户制定统一决策的处理方法,该方法基于逾期用户历史特征表现,可针对不同情况的逾期客户进行分类,以便为决策者提供数据支撑,从而使得决策针对性更强,效果更优,间接提高用户的使用体验。
实施例三
为执行上述实施例一中的业务数据处理模型训练方法,本实施例提供一种业务数据处理模型训练装置,图4该业务数据模型训练装置的结构示意图。
如图4所示,该业务数据模型训练装置至少包括:
第一获取模块:用于获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数;
第一提取模块:用于基于用户信息样本提取目标输入变量;
分类模块:用于根据逾期催回天数及预设的样本分类标准对用户进行分类,获得用户分类结果;
训练模块:用于以目标输入变量作为输入、用户分类结果为输出,基于第一基础模型,训练获得业务数据处理模型。
在一些较佳的实施方式中,训练模块还用于:以用户信息样本为输入、用户分类结果为输出,基于第一基础模型外的其他基础模型,训练获得若干其余业务数据处理模型;
所述业务数据模型训练装置还包括:
模型筛选模块:用于采集若干样本外数据作为输入,以检验每一业务数据处理模型的效果,并将效果最优的模型作为最终的业务数据处理模型。
在一些较佳的实施方式中,第一提取模块至少包括:
输入变量提取子模块:用于基于用户信息样本,提取输入变量;
输入变量子模块至少包括:
第一提取单元:用于提取用户基本属性类输入变量;和/或;
第二提取单元:提取用户行为信息类输入变量;和/或;
第三提取单元:提取用户用信信息类输入变量;和/或
第四提取单元:提取用户征信类输入变量;
其中,用户基本属性类输入变量至少包括用户认证类型、用户资料完整度状态;
用户行为信息类输入变量至少包括:设定期限内的页面访问次数、设定期限内的产品购买金额;
用户用信信息类输入变量至少包括:消费贷已用信金额、历史逾期最大天数;
人行征信类输入变量至少包括:当前个人消费贷款笔数、历史贷款逾期单月最高逾期总额。
在一些较佳的实施方式中,业务数据模型训练装置还包括:
特征工程模块:用于对输入变量进行缺失值处理、数据分布、数据转换及输入变量筛选,获得目标输入变量;
特征工程模块至少包括如下子模块:
缺失值处理子模块:用于删除缺失率超过第一预设占比的输入变量;以及根据输入变量的业务含义,进行缺失值填充;
数据分布子模块:用于删除连续型输入变量中第二预设占比的分位值不超过第一预设值的输入变量;以及删除离散型输入变量中相同类型占比超过第三预设占比的输入变量;
数据转换子模块:用于根据业务含义转换输入变量的数据类型;以及对于不能分箱的输入变量进行等深分箱;
输入变量筛选子模块:用于选取IV值大于第二预设值的输入变量;以及计算输入变量贡献程度、筛选输入变量,获得目标输入变量。
需要说明的是:上述实施例提供的业务数据模型训练装置在触发业务数据模型训练业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种业务数据模型训练装置与一种业务数据模型训练方法的实施例属于同一构思,即该装置是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
实施例四
为执行上述实施例二中的一种业务数据处理方法,本实施例提供一种业务数据处理装置。图5为该业务数据处理装置的结构示意图,如图5所示,该业务数据处理装置至少包括:
第一获取模块1:用于获取待测用户在第一时间段内的用户信息及第二时间段内的逾期金额;
预测模块2:用于将用户信息输入预先训练的业务数据处理模型,获得模型的中间输出,中间输出为相应用户逾期不还款的概率值;
判断模块3:用于基于概率值、逾期金额、以及概率值与逾期金额及用户风险等级之间的对应关系,判断待测用户的用户风险等级。
在一些较佳的实施方式中,判断模块至少包括:
第一风险等级模块:用于基于概率值及预先设置的第一分类阈值,确定用户的第一风险等级;
第二风险等级模块:用于基于逾期金额及预先设置的第二分类阈值,确定用户的第二风险等级;
用户风险等级模块:用于基于第一风险等级及第二风险等级,判断待测用户的用户风险等级。
在一些较佳的实施方式中,所述业务数据处理装置还包括业务数据模型训练模块,所述业务数据模型训练模块与实施例三中的业务数据模型训练装置结构及技术效果相同,具体请参照实施例三,此处不再赘述。
需要说明的是:上述实施例提供的一种业务数据处理装置在触发对用户预期情况评估业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的一种业务数据处理装置与一种业务数据处理方法的实施例属于同一构思,即该装置是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种业务数据处理方法,其特征在于,至少包括如下步骤:
获取若干逾期还款样本在第一时间段内的用户信息样本及第二时间段内的逾期催回天数,并基于所述用户信息样本提取目标输入变量;其中,所述第一时间段早于所述第二时间段,且以逾期发生日为观测点;
根据所述逾期催回天数及预设的样本分类标准对所述用户进行分类,获得用户分类结果;
以所述目标输入变量作为输入、所述用户分类结果为输出,基于第一基础模型,训练获得所述业务数据处理模型;
获取待测用户的在第一时间段内的用户信息及第二时间段内的逾期金额;
将第一时间段内的用户信息及第二时间段内的逾期金额输入预先训练的业务数据处理模型,获得模型的中间输出,所述中间输出为相应用户逾期不还款的概率值;
基于所述概率值、所述逾期金额、以及所述概率值与所述逾期金额及用户风险等级之间的对应关系,判断所述待测用户的用户风险等级;其具体包括如下子步骤:基于所述概率值及预先设置的第一分类阈值,确定所述用户的第一风险等级;基于所述逾期金额及预先设置的第二分类阈值,确定所述用户的第二风险等级;基于所述第一风险等级及第二风险等级,判断所述待测用户的用户风险等级。
2.根据权利要求1所述的业务数据处理方法,其特征在于:所述训练获得所述业务数据处理模型还包括如下步骤:
以所述用户信息样本为输入、所述用户分类结果为输出,基于所述第一基础模型外的其他基础模型,训练获得若干其余业务数据处理模型;
采集若干样本外数据作为输入,以检验每一业务数据处理模型的效果,并将效果最优的模型作为最终的业务数据处理模型。
3.根据权利要求1或2所述的业务数据处理方法,其特征在于:所述基于所述用户信息样本提取目标输入变量,至少包括如下子步骤:
基于所述用户信息样本,提取输入变量,所述提取输入变量至少包括如下子步骤:
提取用户基本属性类输入变量;和/或;
提取用户行为信息类输入变量;和/或;
提取用户用信信息类输入变量;和/或
提取用户征信类输入变量;
其中:
所述用户基本属性类输入变量至少包括用户认证类型、用户资料完整度状态;
所述用户行为信息类输入变量至少包括:设定期限内的页面访问次数、设定期限内的产品购买金额;
所述用户用信信息类输入变量至少包括:消费贷已用信金额、历史逾期最大天数;
所述用户征信类输入变量至少包括:当前个人消费贷款笔数、历史贷款逾期单月最高逾期总额。
4.根据权利要求3所述的业务数据处理方法,其特征在于:所述提取输入变量后,还包括如下步骤:对所述输入变量进行特征工程,具体包括:对所述输入变量进行缺失值处理、数据分布、数据转换及输入变量筛选,获得目标输入变量;其中:
所述缺失值处理至少包括:删除缺失率超过第一预设占比的输入变量;根据所述输入变量的业务含义,进行缺失值填充;
所述数据分布至少包括:删除连续型输入变量中第二预设占比的分位值不超过第一预设值的输入变量;删除离散型输入变量中相同类型占比超过第三预设占比的输入变量;
所述数据转换至少包括:根据业务含义转换输入变量的数据类型;对于不能分箱的输入变量进行等深分箱;
所述输入变量筛选至少包括:选取IV值大于第二预设值的输入变量;计算输入变量贡献程度、筛选输入变量,获得目标输入变量。
5.一种基于权利要求1~4任一项所述方法的业务数据处理装置,其特征在于,所述业务数据处理装置至少包括:
第一获取模块:用于获取待测用户在第一时间段内的用户信息及第二时间段内的逾期金额;
预测模块:用于将所述用户信息输入预先训练的业务数据处理模型,获得模型的中间输出,所述中间输出为相应用户逾期不还款的概率值;
判断模块:用于基于所述概率值、所述逾期金额、以及所述概率值与所述逾期金额及用户风险等级之间的对应关系,判断所述待测用户的用户风险等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911029001.8A CN110909984B (zh) | 2019-10-28 | 2019-10-28 | 业务数据处理模型训练方法、业务数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911029001.8A CN110909984B (zh) | 2019-10-28 | 2019-10-28 | 业务数据处理模型训练方法、业务数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909984A CN110909984A (zh) | 2020-03-24 |
CN110909984B true CN110909984B (zh) | 2023-04-07 |
Family
ID=69815166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911029001.8A Active CN110909984B (zh) | 2019-10-28 | 2019-10-28 | 业务数据处理模型训练方法、业务数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909984B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539808A (zh) * | 2020-04-27 | 2020-08-14 | 中国银行股份有限公司 | 信用值处理方法及装置 |
CN111581252A (zh) * | 2020-05-04 | 2020-08-25 | 上海维信荟智金融科技有限公司 | 基于多维度信息数据的动态催收方法及系统 |
CN111882420A (zh) * | 2020-05-26 | 2020-11-03 | 马上消费金融股份有限公司 | 响应率的生成方法、营销方法、模型训练方法及装置 |
CN111738846A (zh) * | 2020-07-27 | 2020-10-02 | 北京淇瑀信息科技有限公司 | 贷后管理策略生成方法、装置及电子设备 |
CN113159084B (zh) * | 2020-12-18 | 2024-04-19 | 国家电网有限公司大数据中心 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
CN113032434A (zh) * | 2021-03-18 | 2021-06-25 | 上海数禾信息科技有限公司 | 用于风险模型训练的数据处理方法和装置 |
CN113556318B (zh) * | 2021-06-07 | 2023-07-07 | 广西叫酒网络科技有限公司 | 基于云安全的电子商务验证方法 |
CN113538125A (zh) * | 2021-06-29 | 2021-10-22 | 百维金科(上海)信息科技有限公司 | 一种基于萤火虫算法优化Hopfield神经网络的风险评级方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919579B (zh) * | 2015-12-24 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置、设备 |
CN106952155A (zh) * | 2017-03-08 | 2017-07-14 | 深圳前海纵腾金融科技服务有限公司 | 一种基于信用评分的催收方法及装置 |
CN109409896B (zh) * | 2018-10-17 | 2020-04-10 | 北京芯盾时代科技有限公司 | 银行欺诈识别模型训练方法、银行欺诈识别方法和装置 |
-
2019
- 2019-10-28 CN CN201911029001.8A patent/CN110909984B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110909984A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909984B (zh) | 业务数据处理模型训练方法、业务数据处理方法及装置 | |
JP6771751B2 (ja) | リスク評価方法およびシステム | |
Verbraken et al. | Development and application of consumer credit scoring models using profit-based classification measures | |
Meuleman et al. | Cross-border private equity syndication: Institutional context and learning | |
AU2020101475A4 (en) | A Financial Data Analysis Method Based on Machine Learning Models | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110634060A (zh) | 一种用户信用风险的评估方法、系统、装置及存储介质 | |
CN112801775A (zh) | 客户信用评价方法及装置 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
Van Thiel et al. | Artificial intelligent credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era | |
CN112862585A (zh) | 基于LightGBM决策树算法的个贷类不良资产风险评级方法 | |
CN109858947B (zh) | 零售用户价值分析系统及方法 | |
Yuping et al. | New methods of customer segmentation and individual credit evaluation based on machine learning | |
Kaniovski et al. | Risk assessment for credit portfolios: a coupled Markov chain model | |
Li et al. | Online investor attention and firm restructuring performance: Insights from an event-based DEA-Tobit model | |
CN111061948A (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
Mirtalaei et al. | A trust-based bio-inspired approach for credit lending decisions | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114219611A (zh) | 贷款额度计算方法、装置、计算机设备和存储介质 | |
CN115860889A (zh) | 一种基于人工智能的金融贷款大数据管理方法及系统 | |
Mugerman et al. | Mortgage loans and bank risk taking: Finding the risk “sweet spot” | |
Zeng | A comparison study on the era of internet finance China construction of credit scoring system model | |
Theuri et al. | The impact of Artficial Intelligence and how it is shaping banking | |
Aleksandrova et al. | Performance evaluation of machine learning models for credit risk prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |