CN117172828A - 贷款需求的确定方法、装置、设备、可读存储介质及产品 - Google Patents

贷款需求的确定方法、装置、设备、可读存储介质及产品 Download PDF

Info

Publication number
CN117172828A
CN117172828A CN202311238214.8A CN202311238214A CN117172828A CN 117172828 A CN117172828 A CN 117172828A CN 202311238214 A CN202311238214 A CN 202311238214A CN 117172828 A CN117172828 A CN 117172828A
Authority
CN
China
Prior art keywords
loan
machine learning
sample
learning model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311238214.8A
Other languages
English (en)
Inventor
陈虹珠
尧俊
陈芷逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202311238214.8A priority Critical patent/CN117172828A/zh
Publication of CN117172828A publication Critical patent/CN117172828A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例提供了贷款需求的确定方法、装置、设备、可读存储介质及产品,方法包括:从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据;将第一收支数据输入训练好的机器学习模型,得到第一输出结果,机器学习模型为梯度提升框架算法建立,并基于样本用户的收支数据和样本用户的贷款结果训练得到;机器学习模型包括多个基学习器,样本用户的收支数据和贷款结果作为训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个基学习器的输出结果的加权平均值;根据第一输出结果,确定目标用户是否存在贷款需求。本申请能够提高对于目标用户的贷款需求判断的准确性。

Description

贷款需求的确定方法、装置、设备、可读存储介质及产品
技术领域
本申请属于人工智能技术领域,尤其涉及一种贷款需求的确定方法、装置、设备、可读存储介质及产品。
背景技术
近年来,国家大力推进发展普惠贷款业务,因此贷款机构对小微企业的贷款需求的判断是很有必要的。贷款机构在对客户进行信贷业务的推广时,需要先确定目标客户,即筛选出可能有贷款资金需求的客户。目前各贷款机构的做法通常是把机构内符合贷款条件的存量客户都列入推广名单,然后将名单分配到执行人员(如客户经理)手上,但这并不能有效地判断客户是否有资金需求,导致营销效果不佳,同时客户经理的工作量也大大增加。
目前的贷款推广方式不管是对满足贷款条件的客户还是对能够获得额度的客户进行推广,都忽视了客户是否需要这个贷款,因此这种针对性不强的推广方式尚存在较大的改善空间。一是满足贷款条件的客户是非常多的,而真正有贷款需求的客户占少数,如果没有选择性地对这些客户进行推广,不能针对资金饥渴度高的客户加强推广,必会损失大量的推广成本;二是对于暂时没有贷款需求的客户,频繁地推广必会给客户带来不必要的打扰,造成客户的流失以及金融机构信誉的损失。因此,若能够建立确定客户贷款需求的机器学习模型是很有必要的。
然而,建立确定客户贷款需求的机器学习模型需要至少两方面的数据,一是客户响应标签,即判断是否有贷款需求;二是解释变量,即能够对客户响应标签y进行解释的自变量X。当具有历史贷款数据时,客户响应标签y自然而然可以定义为是否推广成功,即推广之后客户是否进行了贷款;而当下大多数贷款机构的普惠贷款业务刚刚起步,没有足够多的贷款数据,且没有客户响应标签。因此,客户的贷款需求的难以确定。
发明内容
本申请实施例提供了一种贷款需求的确定方法、装置、设备、可读存储介质及产品,能够提高对于目标用户的贷款需求判断的准确性。
第一方面,本申请实施例提供了一种贷款需求的确定方法,贷款需求的确定方法包括:从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据;将第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果,机器学习模型为基于梯度提升框架算法建立,并基于从目标检查分析系统中获得的样本用户的收支数据和样本用户的贷款结果训练得到;所述机器学习模型包括多个基学习器,一个所述样本用户的收支数据和一个所述样本用户的贷款结果作为一个训练样本,所述训练样本被赋予权重,所述多个基学习器为通过调整所述训练样本的权重依次训练获得,所述机器学习模型的输出结果包括多个训练好的所述基学习器的输出结果的加权平均值;根据第一输出结果,确定目标用户是否存在贷款需求。
根据本申请第一方面的实施方式,在将第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果之前,贷款需求的确定方法还包括:基于梯度提升框架算法,建立机器学习模型;基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
根据本申请第一方面前述任一实施方式,基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,包括:对于任意一个样本用户,将样本用户的收支数据和样本用户的贷款结果作为一个训练样本,并对训练样本赋予权重,其中,至少两个训练样本对应的权重不同;基于赋予权重后的多个训练样本对第一个基学习器进行训练,得到训练好的第一个基学习器;根据第i个基学习器的输出结果,调整训练样本的权重,i为正整数;基于调整权重后的多个训练样本对第i+1个基学习器进行训练,得到训练好的第i+1个基学习器;当i+1小于或等于第一预设阈值时,将i+1更新为i,并返回根据第i个基学习器的输出结果,调整训练样本的权重的步骤,直至i+1大于第一预设阈值;将多个训练好的基学习器的输出结果进行加权处理,作为机器学习模型的输出结果。
根据本申请第一方面前述任一实施方式,基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,还包括:当机器学习模型出现过拟合时,调整机器学习模型的目标模型参数,目标模型参数包括用于调整单棵树的最大叶子数目的第一参数、用于设置树的最大深度的第二参数、用于调整每个叶子的最小样本数的第三参数、用于调整每次训练抽取的样本数的第四参数、用于调整每次训练抽取的特征数的第五参数和用于调整正则项的权重的第六参数中的至少一项。
根据本申请第一方面前述任一实施方式,样本用户包括在目标历史时间段内贷款的第一样本用户和在目标历史时间段内未贷款的第二样本用户;在基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之前,还包括:对第一样本用户进行过采样处理,增加第一样本用户的数量;和/或,对第二样本用户进行欠采样处理,减少第二样本用户的数量;基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,包括:基于过采样处理和/或欠采样处理后的样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
根据本申请第一方面前述任一实施方式,样本用户的收支数据包括多个特征的数据;在基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之前,还包括:根据特征的缺失率、特征的信息比率和/或多个特征之间的相关性,对样本用户的多个特征的数据进行筛选,得到样本用户的目标特征的数据;基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,包括:基于样本用户的目标特征的数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
根据本申请第一方面前述任一实施方式,获取目标用户在至少一个贷款机构的第一收支数据,包括:从目标检查分析系统中,获取目标用户在多个贷款机构的第一收支数据,第一收支数据包括目标用户的基本信息、存款数据、流水数据和/或贷款数据。
根据本申请第一方面前述任一实施方式,第一输出结果包括目标用户存在贷款需求的概率;根据第一输出结果,确定目标用户是否存在贷款需求,包括:当目标用户存在贷款需求的概率大于预设概率阈值时,确定目标用户存在贷款需求。
根据本申请第一方面前述任一实施方式,在基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之后,还包括:将多个样本用户的收支数据输入训练好的机器学习模型,输出多个样本用户各自对应的第二输出结果,第二输出结果包括样本用户存在贷款需求的概率;将多个样本用户存在贷款需求的概率转换为多个分数,并对多个分数进行分段;根据各个分段中的样本用户的总数量和各个分段中的第一样本用户的数量,确定各个分段的第一样本用户的占比,第一样本用户包括在目标历史时间段内贷款的样本用户;根据第一输出结果,确定目标用户是否存在贷款需求,包括:确定第一输出结果对应的目标分段,根据目标分段的第一样本用户的占比,确定目标用户是否存在贷款需求。
第二方面,本申请实施例提供了一种贷款需求的确定装置,贷款需求的确定装置包括:获取模块,用于从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据;输出模块,用于将第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果,机器学习模型为基于梯度提升框架算法建立,并基于从目标检查分析系统中获得的样本用户的收支数据和样本用户的贷款结果训练得到;机器学习模型包括多个基学习器,一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值;第一确定模块,用于根据第一输出结果,确定目标用户是否存在贷款需求。
第三方面,本申请实施例提供了一种电子设备,电子设备包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面提供的贷款需求的确定方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面提供的贷款需求的确定方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品被存储在非易失的存储介质中,计算机程序产品被至少一个处理器执行以实现如第一方面提供的贷款需求的确定方法的步骤。
本申请实施例的贷款需求的确定方法、装置、设备、可读存储介质及产品,预先基于样本用户的收支数据和样本用户的贷款结果训练得到机器学习模型,从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据,将获取的目标用户在至少一个贷款机构的第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果;机器学习模型为基于梯度提升框架算法建立,并基于从目标检查分析系统中获得的样本用户的收支数据和样本用户的贷款结果训练得到;机器学习模型包括多个基学习器,一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值;根据机器学习模型的第一输出结果,确定目标用户是否存在贷款需求。一方面,可以从目标检查分析系统中获取足够数量的样本用户的收支数据和所述样本用户的贷款结果作为训练样本,从而得到训练好的机器学习模型;另一方面,基于训练好的机器学习模型的第一输出结果,可以较为准确的确定目标用户是否存在贷款需求,从而提高对于目标用户的贷款需求判断的准确性,有利于实现对于目标用户贷款的精准帮扶。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的贷款需求的确定方法的一种流程示意图;
图2为本申请实施例提供的贷款需求的确定方法的另一种流程示意图;
图3为本申请实施例提供的贷款需求的确定方法中的S202的一种流程示意图;
图4为本申请实施例提供的贷款需求的确定方法的又一种流程示意图;
图5为本申请实施例提供的贷款需求的确定方法的又一种流程示意图;
图6为本申请实施例提供的贷款需求的确定装置的一种结构示意图;
图7为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在不脱离本申请的精神或范围的情况下,在本申请中能进行各种修改和变化,这对于本领域技术人员来说是显而易见的。因而,本申请意在覆盖落入所对应权利要求(要求保护的技术方案)及其等同物范围内的本申请的修改和变化。需要说明的是,本申请实施例所提供的实施方式,在不矛盾的情况下可以相互组合。
需要说明的是,本申请实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
在阐述本申请实施例所提供的技术方案之前,为了便于对本申请实施例理解,本申请首先对相关技术中存在的问题进行具体说明:
目前,贷款机构在判断客户是否存在贷款需求时,通常是把贷款机构内符合贷款条件的存量客户都列入名单,然后将名单分配到执行人员(如客户经理)手上。但是,这并不能有效地判断客户是否有贷款需求,即判断客户的贷款需求的准确性较低,大大增加了执行人员的工作量,无法实现对于客户(如小微企业)贷款的精准帮扶。
为了解决现有技术问题,本申请实施例提供了一种贷款需求的确定方法、装置、设备、可读存储介质及产品。
本申请实施例的技术构思在于:预先基于样本用户的收支数据和样本用户的贷款结果训练得到机器学习模型,从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据,将获取的目标用户在至少一个贷款机构的第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果;机器学习模型为基于梯度提升框架算法建立,并基于样本用户的收支数据和样本用户的贷款结果训练得到;机器学习模型包括多个基学习器,一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值;根据机器学习模型的第一输出结果,确定目标用户是否存在贷款需求。一方面,可以从目标检查分析系统中获取足够数量的样本用户的收支数据和所述样本用户的贷款结果作为训练样本,从而得到训练好的机器学习模型;另一方面,基于训练好的机器学习模型的第一输出结果,可以较为准确的确定目标用户是否存在贷款需求,从而提高对于目标用户的贷款需求判断的准确性,有利于实现对于目标用户贷款的精准帮扶。
下面首先对本申请实施例所提供的贷款需求的确定方法进行介绍。
图1为本申请实施例提供的贷款需求的确定方法的一种流程示意图。如图1所示,本申请实施例提供的贷款需求的确定方法可以包括以下步骤S101至S103。
S101、从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据。
其中,目标用户可以为任意用户,如中小微企业或者个人等。第一收支数据包括但不限于目标用户的基本信息、存款数据、流水数据和/或贷款数据等。
需要说明的是,本申请实施例中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
获得机器学习模型主要需要两方面的数据,一是用户响应标签,即判断用户是否有贷款需求;二是解释变量,即能够对用户响应标签y进行解释的x。当有历史贷款数据时,用户响应标签y自然而然可以定义为用户是否进行了贷款。而当下大多数贷款机构的贷款业务刚刚起步,没有足够多的贷款样本,没有足够的用户响应标签,则机器学习模型较难建立。
有鉴于此,在一些实施例中,S101具体可以包括以下步骤:
从目标检查分析系统中,获取目标用户在多个贷款机构的第一收支数据。
其中,目标检查分析系统包括但不限于检测分析系统(Examination andAnalysis System Technology,EAST)。EAST可以是监管机构用于检查各个贷款机构的系统。EAST中存储有各个贷款机构的基本信息、存款、流水、贷款等收支数据。在一些实施例中,本申请使用EAST中的历史收支数据来对用户是否有资金需求进行判断,运用EAST数据多方面、全方位的信息,预测用户未来一段时间是否有贷款需求。
这样,充分利用EAST数据信息的特点,将多个贷款机构的多类数据进行全面分析,衍生出大量具有业务含义的特征,对数据价值进行充分挖掘和利用。不同于各个贷款机构利用自身数据建立的模型,本申请实施例的机器学习模型可以观察用户在多个贷款机构的贷款需求,而不是只能看到单个贷款机构的片面需求,所以对用户贷款需求的判断较为准确。
S102、将第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果,机器学习模型为基于梯度提升框架算法建立,并基于从目标检查分析系统中获得的样本用户的收支数据和样本用户的贷款结果训练得到。
梯度提升框架算法(Light Gradient Boosting Machine,LightGBM)是一种实现GBDT算法的框架算法,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。可以基于梯度提升框架算法建立机器学习模型,具体会在下文详细介绍。
在一些实施例中,可以从目标检查分析系统(如EAST)中,获取样本用户的收支数据和样本用户的贷款结果。具体地,样本用户可以包括在目标历史时间段内贷款的第一样本用户和在目标历史时间段内未贷款的第二样本用户。目标历史时间段可以根据实际情况灵活调整,本申请实施例对此不作限定。示例性地,目标历史时间段例如包括但不限于过去三个月、过去六个月或者过去一年等。
样本用户的收支数据包括但不限于样本用户在多个贷款机构的收支数据,样本用户的贷款结果包括但不限于样本用户在目标历史时间段内的贷款结果。
基于样本用户的收支数据和样本用户的贷款结果训练,可以得到训练好的机器学习模型。将第一收支数据输入输入预先训练好的机器学习模型,可以得到机器学习模型的第一输出结果。
在本申请的一些实施例中,机器学习模型可以包括多个基学习器。一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重。多个基学习器可以为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值,具体例如可以参见下文中的步骤S301至S306。
S103、根据第一输出结果,确定目标用户是否存在贷款需求。
本申请实施例的贷款需求的确定方法,预先基于样本用户的收支数据和样本用户的贷款结果训练得到机器学习模型,从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据,将获取的目标用户在至少一个贷款机构的第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果;机器学习模型为基于梯度提升框架算法建立,并基于样本用户的收支数据和样本用户的贷款结果训练得到;机器学习模型包括多个基学习器,一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值;根据机器学习模型的第一输出结果,确定目标用户是否存在贷款需求。一方面,可以从目标检查分析系统中获取足够数量的样本用户的收支数据和所述样本用户的贷款结果作为训练样本,从而得到训练好的机器学习模型;另一方面,基于训练好的机器学习模型的第一输出结果,可以较为准确的确定目标用户是否存在贷款需求,从而提高对于目标用户的贷款需求判断的准确性,有利于实现对于目标用户贷款的精准帮扶。
图2为本申请实施例提供的贷款需求的确定方法的另一种流程示意图。如图2所示,根据本申请的一些实施例,可选地,在S102、将第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果之前,本申请实施例提供的贷款需求的确定方法还可以包括以下步骤S201和S202。
S201、基于梯度提升框架算法,建立机器学习模型。
LightGBM基于GBDT主要做了以下优化:
(1)基于直方图算法,即将特征离散化,根据直方图的离散值,遍历寻找最优的分割点。直方图算法使得它具有内存占用更小、运算更快、鲁棒性强、模型更加稳定等优点;
(2)抛弃了大多数GBDT工具使用的按层生长(Level-wise)的决策树生长策略,而使用了带有深度限制的按叶子生长(Leaf-wise)算法。Leaf-wise的增长策略每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。因此同Level-wise相比,Leaf-wise的优点是:在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更好的精度;Leaf-wise的缺点是:可能会长出比较深的决策树,产生过拟合。因此LightGBM会在Leaf-wise之上增加了一个最大深度的限制,在保证高效率的同时防止过拟合。
LightGBM算法具有如下优点:
(1)训练效率快、准确率高;
(2)能够更好地在高维空间准确刻画自变量和因变量的复杂关系;
(3)特征工程复杂度小,模型开发的效率高。
在本申请的一些实施例中,利用人工智能技术,充分利用EAST数据,包括基本信息、存款、流水和贷款数据,使用机器学习算法评估用户的资产、收入、负债等情况,建立机器学习模型,评估客户响应等级。通过机器学习方法,一方面可以批量衍生出有业务含义的特征,使用集成算法,充分从海量的数据中学习,挖掘EAST数据的价值;另一方面可以对模型进行及时的优化,确保模型的有效性和准确性。
S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
现有的贷款需求的确定方案不管是对满足贷款条件的用户还是对能够获得额度的用户,都忽视了用户是否需要这个贷款,因此这种针对性不强的贷款需求的确定方式尚存在较大的改善空间。
一是满足贷款条件的用户是非常多的,而真正有贷款需求的用户占少数。如果没有选择性地对这些用户进行问询,那么对于暂时没有贷款需求的用户,频繁地问询必会给用户带来不必要的打扰,造成用户的流失以及贷款机构信誉的损失。
本申请实施例提出的贷款需求的确定方法很好地解决了以上问题:
1)全方位准确捕捉:以用户的收支数据为基础,充分利用多家贷款机构的数据,包含用户的基本信息、存款、贷款、流水等多方面数据,衍生出了多维度、全方位的大量指标,保障了数据的系统化、科学化以及广泛化。多维数据的有效利用使得模型在缺失部分数据的情况下依然能够准确地预测用户对资金的需求,使得模型具有了更强的泛化性以及鲁棒性。另外,通过模型结果对用户的贷款需求的进行判断,可优先确定出贷款需求较高的用户,实现精准帮扶;
2)易更新迭代:当代互联网普惠贷款的大环境变化多端,这就要求模型能够快速更新迭代,以适应日新月异变化的贷款市场。与市场上贷款信贷普遍采用的逻辑回归模型不同,本申请实施例采用了LigthGBM算法来预测用户贷款资金需求程度,该算法可以在高维空间上更好地刻画多维度特征与目标变量之间复杂而不可描述的非线性关系,减少了特征工程的复杂度,提高建模的效率,从而能够更高效准确地捕捉贷款市场快速迭代的信息。
根据本申请的一些实施例,可选地,基于LightGBM算法建立的机器学习模型可以是一种以非线性模型GBDT算法为核心,以决策树为基分类器,以生长树为策略的集成学习模型。机器学习模型可以包括多个基学习器。
图3为本申请实施例提供的贷款需求的确定方法中的S202的一种流程示意图。如图3所示,根据本申请的一些实施例,可选地,S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,包括以下步骤S301至S306。
S301、对于任意一个样本用户,将样本用户的收支数据和样本用户的贷款结果作为一个训练样本,并对训练样本赋予权重。
其中,至少两个训练样本对应的权重不同。例如,样本用户可以包括在目标历史时间段内贷款的第一样本用户和在目标历史时间段内未贷款的第二样本用户。第一样本用户对应的训练样本和第二样本用户对应的训练样本的权重可以不同,权重可以用于调整训练样本分布。
S302、基于赋予权重后的多个训练样本对第一个基学习器进行训练,得到训练好的第一个基学习器。
S303、根据第i个基学习器的输出结果,调整训练样本的权重,i为正整数。
例如,当i=1时,可以根据第一个基学习器的输出结果,调整训练样本的权重,从而使得分类错误的样本在迭代过程中得到更多关注。
S304、基于调整权重后的多个训练样本对第i+1个基学习器进行训练,得到训练好的第i+1个基学习器。
即,基于调整权重后的多个训练样本可以对下一个基学习器进行训练,得到训练好的下一个基学习器。
S305、当i+1小于或等于第一预设阈值时,将i+1更新为i,并返回S303根据第i个基学习器的输出结果,调整训练样本的权重的步骤,直至i+1大于第一预设阈值。
即,重复上述步骤S303至S305,直至基学习器的数目达到预先设定的第一预设阈值。第一预设阈值的大小可以根据实际情况灵活调整,本申请实施例对此不作限定。
S306、将多个训练好的基学习器的输出结果进行加权处理,作为机器学习模型的输出结果。
如此,对于机器学习模型的构建,利用先进的复杂的机器学习技术,可以更加充分地利用数据,更全面有效地识别互联网复杂多变的用户需求。LightGBM模型作为一种目前最先进的集成学习模型框架之一,在处理高维稀疏的数据形态、建模效率、刻画解释变量和目标变量之间复杂的非线性关系等方面,相较于传统的逻辑回归模型都具有明显的优势。
根据本申请的一些实施例,可选地,S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,还可以包括以下步骤:
当机器学习模型出现过拟合时,调整机器学习模型的目标模型参数,目标模型参数包括用于调整单棵树的最大叶子数目的第一参数、用于设置树的最大深度的第二参数、用于调整每个叶子的最小样本数的第三参数、用于调整每次训练抽取的样本数的第四参数、用于调整每次训练抽取的特征数的第五参数和用于调整正则项的权重的第六参数中的至少一项。
在一些实施例中,正则项可以包括L1正则项和L2正则项。相应地,第六参数可以包括用于调整L1正则项的权重的第一子参数reg_alpha和用于调整L2正则项的权重的第二子参数reg_lambda。
表1示意性示出了第一参数至第六参数。
表1
如表1所示,当机器学习模型出现过拟合时,可以调整机器学习模型的目标模型参数。目标模型参数包括用于调整单棵树的最大叶子数目的第一参数num_leaves、用于设置树的最大深度的第二参数max_depth、用于调整每个叶子的最小样本数的第三参数min_child_samples、用于调整每次训练抽取的样本数的第四参数subsample、用于调整每次训练抽取的特征数的第五参数colsample_bytree、用于调整L1正则项的权重的第一子参数reg_alpha和用于调整L2正则项的权重的第二子参数reg_lambda中的至少一项。
如此,通过调整目标模型参数,例如可以有效防止机器学习模型过拟合。
根据本申请的一些实施例,可选地,在S202对机器学习模型进行训练之前,本申请实施例提供的贷款需求的确定方法还可以包括以下步骤:建模样本选取。
具体地,在建模样本选取时,可以对目标变量进行定义以及对表现期与观察点进行选取。
对目标变量进行定义时,可以根据贷款机构的数据情况以及业务含义,可定义目标变量如下:
有贷款需求(Y=1):表现期内申请了贷款并支用;
无贷款需求(Y=0):不是“有贷款需求”样本。
在对表现期与观察点进行选取时,可以根据目标变量的业务含义、数据更新频率以及推广(或销售)效率,选取表现期。例如,选取6个月作为表现期,即模型预测的是用户未来6个月内是否有贷款需求。表现期太短,则无法准确体现用户的贷款需求;表现期太长,则模型预测时点与用户实际表现时点可能出现较长间隔,影响模型效果。综合考虑样本表现期、可获得数据的时间窗口,可多选取几个时间点作为观察点;一个用户在不同的观察点可能有不同的表现,这是因为用户的贷款需求也会随着时间的变化而变化,这是符合实际情况的。
此外,本申请的发明人意识到,在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。而在本申请实施例的应用场景中,有贷款需求样本的比例是极低的,可能使得训练模型无法很好地学习如何判别少数类,但是模型训练的目的是希望能更多地关注到有贷款需求的客户。
因此,可以对训练样本进行过采样和欠采样处理。过采样,即根据样本标签少的样本的规律去生成更多该标签样本,这样使得数据趋向于平衡。欠采样,即与过采样相反,减少样本标签多的样本数量,使得数据平衡。
在实际应用中,可根据具体的数据情况,选择合适的不平衡处理方法。例如,有贷款需求样本足够多,而无贷款需求样本过多的情况下,可对无贷款需求样本进行欠采样。
图4为本申请实施例提供的贷款需求的确定方法的又一种流程示意图。如图4所示,根据本申请的一些实施例,可选地,样本用户包括在目标历史时间段内贷款的第一样本用户和在目标历史时间段内未贷款的第二样本用户。
在S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之前,本申请实施例提供的贷款需求的确定方法还可以包括步骤S401和/或S402。
S401、对第一样本用户进行过采样处理,增加第一样本用户的数量。
S402、对第二样本用户进行欠采样处理,减少第二样本用户的数量。
相应地,S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,包括以下步骤:
基于过采样处理和/或欠采样处理后的样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
如此,通过对第一样本用户进行过采样处理,和/或,对第二样本用户进行欠采样处理,可以使得第一样本用户的训练样本的数量与第二样本用户的训练样本的数量达到平衡,从而提高机器学习模型的输出结果的准确度。
根据本申请的一些实施例,可选地,在S202对机器学习模型进行训练之前,还可以对特征进行选取。
对数据集进行特征选择主要基于以下几方面的考虑:
1)冗余的特征会影响阻碍模型找寻数据潜在的规律,若冗余的特征过多,还会造成维度容灾,占用大量的时间空间,使算法运行效率大打折扣。
2)去除不相关的特征会降低学习任务的难度,保留关键的特征更能直观的看出数据潜在的规律。
因此,需要从当前数据集中选出有意义的特征,然后输入到算法模型中进行训练。
图5为本申请实施例提供的贷款需求的确定方法的又一种流程示意图。如图5所示,根据本申请的一些实施例,可选地,样本用户的收支数据可以包括多个特征的数据。
在S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之前,本申请实施例提供的贷款需求的确定方法还可以包括以下步骤S501。
S501、根据特征的缺失率、特征的信息比率和/或多个特征之间的相关性,对样本用户的多个特征的数据进行筛选,得到样本用户的目标特征的数据。
例如,可以根据特征的缺失率,将缺失率过大的特征剔除。例如,可以特征的信息比率(或称信息价值)IV值,保留IV值较大的特征。一般地,IV值>0.02即可认为该特征有预测价值。例如,可以根据任意两个特征之间的相关性进行筛选,当两个特征之间具有相关性时,会带来多重共线性的问题,使得模型不稳定,这时在相关性高的特征中可以只需要保留一个特征。
其中,信息价值(Information Value,IV)用来表示特征对目标预测的贡献程度,即特征的预测能力,IV越高,该特征的预测能力越强。计算公式为:
其中,Pi为第i组中正样本的数量,PT为所有正样本的数量,Ni为第i组中负样本的数量,NT为所有负样本的数量。IV的取值区间为0到正无穷,一般来说,特征的IV大于0.02即可认为该特征有预测价值。
相应地,S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型,可以包括以下步骤:
基于样本用户的目标特征的数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
如此,通过对特征进行筛选,可以提高机器学习模型的运算速率,提高机器学习模型的输出结果的准确度。
根据本申请的一些实施例,可选地,第一输出结果可以包括目标用户存在贷款需求的概率。
相应地,S103、根据第一输出结果,确定目标用户是否存在贷款需求,可以包括以下步骤:
当目标用户存在贷款需求的概率大于预设概率阈值时,确定目标用户存在贷款需求。
预设概率阈值的大小可以根据实际情况灵活调整,本申请实施例对此不作限定。当目标用户存在贷款需求的概率较大时,说明目标用户存在贷款需求的可能性较大。当目标用户存在贷款需求的概率大于预设概率阈值时,则可以确定目标用户存在贷款需求。
根据本申请的一些实施例,可选地,在S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之后,还可以对机器学习模型的输出结果进行验证。
在一些实施例中,机器学习模型的效果可通过洛伦兹曲线(Kolmogorov-Smirnov,KS)、曲线下面积(Area Under the Curve,AUC)进行衡量。KS曲线是以阈值作为横坐标,以假正例率(False Positive Rate,FPR)和真正例率(True Positive Rate,TPR)作为纵坐标,由TPR-FPR的值连接绘制成的曲线。KS曲线的最大值为KS值,即KS=max|TPR-FPR|。KS常用于衡量模型对正负样本的区分度。通常来说,当阈值减小时,TPR和FPR会同时减小,当阈值增大时,TPR和FPR会同时增大。而在实际工作中,希望TPR更大一些,FPR更小一些,即TPR-FPR越大越好。KS值范围在0~1,KS越大,模型区分正负样本的能力越强。一般来说,KS取值小于0.2,模型预测效果差;0.2~0.4之间预测效果一般;0.4~0.5之间预测效果好,0.5~0.75之间预测效果非常好;大于0.75则过高,需要谨慎地验证模型。
AUC值为受试者工作特征(Receiver Operating Characteristic,ROC)曲线与坐标轴围成的区域面积,常用于评价模型能力。AUC越大,则模型分类效果越好。ROC曲线为FPR与TPR之间的关系曲线,其中x轴为FPR,y轴为TPR,通过改变不同阈值,从而得到ROC曲线。这个组合以FPR对TPR,即是以代价对收益,显然收益越高,代价越低,模型的性能就越好。AUC的取值范围一般在0.5到1之间,越接近1说明分类器效果越好。一般来说,AUC取值在0.6以下模型预测效果差;0.6~0.7之间预测效果较差,0.7~0.8之间预测效果一般,0.8~0.9之间预测效果好,0.9以上预测效果非常好。
根据本申请的一些实施例,可选地,在S202、基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型之后,本申请实施例提供的贷款需求的确定方法还可以包括以下步骤。
步骤一、将多个样本用户的收支数据输入训练好的机器学习模型,输出多个样本用户各自对应的第二输出结果,第二输出结果包括样本用户存在贷款需求的概率。
步骤二、将多个样本用户存在贷款需求的概率转换为多个分数,并对多个分数进行分段。
具体地,为了使模型结果具有更强的业务解释性,可将模型预测得到的概率值转换分值,转分公式如下:
Score=A+(-)Blog(Odds) (1)
其中,正负号根据比率和分数的相关关系确定。
假设:
(1)给某个特定的比率Odds设定特定的预期分值P
(2)确定比率翻番增加(减少)的分数为PDO,则比率为2Odds对应的分值应为P+(-)PDO
可得:
P=A+(-)Blog(Odds) (2)
P+(-)PDO=A+(-)Blog(2Odds (3)
求解可得:
A=P-(+)Blog(Odds) (4)
B=PDO/log(2) (5)
由此,可以根据概率转分公式,将多个样本用户存在贷款需求的概率转换为多个分数。
步骤三、根据各个分段中的样本用户的总数量和各个分段中的第一样本用户的数量,确定各个分段的第一样本用户的占比,第一样本用户包括在目标历史时间段内贷款的样本用户。
表2示意性示出了多个分段的对应关系表。
表2
参照表2所示,例如对于任意一个分段,可以根据该分段中的样本用户的总数量和该分段中的第一样本用户的数量,确定该分段的第一样本用户的占比。还可以根据该分段中的各个样本用户的预测结果和实际贷款结果,确定预测的准确率和召回率。
相应地,S103、根据第一输出结果,确定目标用户是否存在贷款需求,可以包括以下步骤四和步骤五。
步骤四、确定第一输出结果对应的目标分段。
可以先将第一输出结果由概率转换成分数,然后确定该分数所在的分段,即为目标分段。
步骤五、根据目标分段的第一样本用户的占比,确定目标用户是否存在贷款需求。
当目标分段的第一样本用户的占比较大时,说明目标分段中的用户存在贷款需求的可能性较大。例如,当目标分段的第一样本用户的占比大于预设占比阈值时,可以确定目标用户在未来一段时间存在贷款需求。当目标分段的第一样本用户的占比小于预设占比阈值时,可以确定目标用户在未来一段时间不存在贷款需求。
根据本申请的一些实施例,可选地,根据各个分段,可以对用户进行分层管理,即对用户设置不同的优先级,可优先考虑分数处于第一样本用户的占比较高的分段的用户。
基于上述实施例提供的贷款需求的确定方法,相应地,本申请还提供了贷款需求的确定装置的具体实现方式。请参见以下实施例。
图6为本申请实施例提供的贷款需求的确定装置的一种结构示意图。
如图6所示,本申请实施例提供的贷款需求的确定装置60包括以下模块:
获取模块601,用于从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据;
输出模块602,用于将第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果,机器学习模型为基于梯度提升框架算法建立,并基于样本用户的收支数据和样本用户的贷款结果训练得到;
机器学习模型包括多个基学习器,一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值;
第一确定模块603,用于根据第一输出结果,确定目标用户是否存在贷款需求。
本申请实施例的贷款需求的确定装置,预先基于样本用户的收支数据和样本用户的贷款结果训练得到机器学习模型,从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据,将获取的目标用户在至少一个贷款机构的第一收支数据输入预先训练好的机器学习模型,得到机器学习模型的第一输出结果;机器学习模型为基于梯度提升框架算法建立,并基于样本用户的收支数据和样本用户的贷款结果训练得到;机器学习模型包括多个基学习器,一个样本用户的收支数据和一个样本用户的贷款结果作为一个训练样本,训练样本被赋予权重,多个基学习器为通过调整训练样本的权重依次训练获得,机器学习模型的输出结果包括多个训练好的基学习器的输出结果的加权平均值;根据机器学习模型的第一输出结果,确定目标用户是否存在贷款需求。一方面,可以从目标检查分析系统中获取足够数量的样本用户的收支数据和所述样本用户的贷款结果作为训练样本,从而得到训练好的机器学习模型;另一方面,基于训练好的机器学习模型的第一输出结果,可以较为准确的确定目标用户是否存在贷款需求,从而提高对于目标用户的贷款需求判断的准确性,有利于实现对于目标用户贷款的精准帮扶。
根据本申请的一些实施例,可选地,本申请实施例提供的贷款需求的确定装置60还包括训练模块,用于基于梯度提升框架算法,建立机器学习模型;基于样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
根据本申请的一些实施例,可选地,机器学习模型包括多个基学习器。训练模块具体用于对于任意一个样本用户,将样本用户的收支数据和样本用户的贷款结果作为一个训练样本,并对训练样本赋予权重,其中,至少两个训练样本对应的权重不同;基于赋予权重后的多个训练样本对第一个基学习器进行训练,得到训练好的第一个基学习器;根据第i个基学习器的输出结果,调整训练样本的权重,i为正整数;基于调整权重后的多个训练样本对第i+1个基学习器进行训练,得到训练好的第i+1个基学习器;当i+1小于或等于第一预设阈值时,将i+1更新为i,并返回根据第i个基学习器的输出结果,调整训练样本的权重的步骤,直至i+1大于第一预设阈值;将多个训练好的基学习器的输出结果进行加权处理,作为机器学习模型的输出结果。
根据本申请的一些实施例,可选地,训练模块具体还用于当机器学习模型出现过拟合时,调整机器学习模型的目标模型参数,目标模型参数包括用于调整单棵树的最大叶子数目的第一参数、用于设置树的最大深度的第二参数、用于调整每个叶子的最小样本数的第三参数、用于调整每次训练抽取的样本数的第四参数、用于调整每次训练抽取的特征数的第五参数和用于调整正则项的权重的第六参数中的至少一项。
根据本申请的一些实施例,可选地,样本用户包括在目标历史时间段内贷款的第一样本用户和在目标历史时间段内未贷款的第二样本用户。本申请实施例提供的贷款需求的确定装置60还包括预处理模块,用于对第一样本用户进行过采样处理,增加第一样本用户的数量;和/或,对第二样本用户进行欠采样处理,减少第二样本用户的数量。训练模块具体用于基于过采样处理和/或欠采样处理后的样本用户的收支数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
根据本申请的一些实施例,可选地,样本用户的收支数据包括多个特征的数据。本申请实施例提供的贷款需求的确定装置60还包括筛选模块,用于根据特征的缺失率、特征的信息比率和/或多个特征之间的相关性,对样本用户的多个特征的数据进行筛选,得到样本用户的目标特征的数据。训练模块具体用于基于样本用户的目标特征的数据和样本用户的贷款结果对机器学习模型进行训练,得到训练好的机器学习模型。
根据本申请的一些实施例,可选地,获取模块601具体用于从目标检查分析系统中,获取目标用户在多个贷款机构的第一收支数据,第一收支数据包括目标用户的基本信息、存款数据、流水数据和/或贷款数据。
根据本申请的一些实施例,可选地,第一输出结果包括目标用户存在贷款需求的概率。第一确定模块603具体用于当目标用户存在贷款需求的概率大于预设概率阈值时,确定目标用户存在贷款需求。
根据本申请的一些实施例,可选地,本申请实施例提供的贷款需求的确定装置60还包括第二确定模块,用于将多个样本用户的收支数据输入训练好的机器学习模型,输出多个样本用户各自对应的第二输出结果,第二输出结果包括样本用户存在贷款需求的概率;将多个样本用户存在贷款需求的概率转换为多个分数,并对多个分数进行分段;根据各个分段中的样本用户的总数量和各个分段中的第一样本用户的数量,确定各个分段的第一样本用户的占比,第一样本用户包括在目标历史时间段内贷款的样本用户。第一确定模块603具体用于确定第一输出结果对应的目标分段,根据目标分段的第一样本用户的占比,确定目标用户是否存在贷款需求。
图6所示装置中的各个模块/单元具有实现上述方法实施例提供的贷款需求的确定方法中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
基于上述实施例提供的贷款需求的确定方法,相应地,本申请还提供了电子设备的具体实现方式。请参见以下实施例。
图7示出了本申请实施例提供的电子设备的硬件结构示意图。
电子设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个示例中,存储器702可以包括可移除或不可移除(或固定)的介质,或者存储器702是非易失性固态存储器。存储器702可在电子设备的内部或外部。
在一个示例中,存储器702可以是只读存储器(Read Only Memory,ROM)。在一个示例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
存储器702可以包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的一方面的方法所描述的操作。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述方法实施例中的方法/步骤,并达到方法实施例执行其方法/步骤达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,电子设备还可包括通信接口703和总线710。其中,如图7所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(IndustryStandard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的贷款需求的确定方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种贷款需求的确定方法。计算机可读存储介质的示例包括非暂态计算机可读存储介质,如电子电路、半导体存储器设备、ROM、随机存取存储器、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘。
结合上述实施例中的贷款需求的确定方法,本申请实施例可提供一种计算机程序产品,计算机程序产品被存储在非易失的存储介质中,计算机程序产品被至少一个处理器执行以实现如上述实施例提供的贷款需求的确定方法的步骤。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (13)

1.一种贷款需求的确定方法,其特征在于,包括:
从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据;
将所述第一收支数据输入预先训练好的机器学习模型,得到所述机器学习模型的第一输出结果,所述机器学习模型为基于梯度提升框架算法建立,并基于从所述目标检查分析系统中获得的样本用户的收支数据和所述样本用户的贷款结果训练得到;
所述机器学习模型包括多个基学习器,一个所述样本用户的收支数据和一个所述样本用户的贷款结果作为一个训练样本,所述训练样本被赋予权重,所述多个基学习器为通过调整所述训练样本的权重依次训练获得,所述机器学习模型的输出结果包括多个训练好的所述基学习器的输出结果的加权平均值;
根据所述第一输出结果,确定所述目标用户是否存在贷款需求。
2.根据权利要求1所述的贷款需求的确定方法,其特征在于,在所述将所述第一收支数据输入预先训练好的机器学习模型,得到所述机器学习模型的第一输出结果之前,还包括:
基于梯度提升框架算法,建立机器学习模型;
基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型。
3.根据权利要求2所述的贷款需求的确定方法,其特征在于,
所述基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型,包括:
对于任意一个所述样本用户,将所述样本用户的收支数据和所述样本用户的贷款结果作为一个训练样本,并对所述训练样本赋予权重,其中,至少两个所述训练样本对应的权重不同;
基于赋予权重后的多个所述训练样本对第一个所述基学习器进行训练,得到训练好的第一个所述基学习器;
根据第i个所述基学习器的输出结果,调整所述训练样本的权重,i为正整数;
基于调整权重后的多个所述训练样本对第i+1个所述基学习器进行训练,得到训练好的第i+1个所述基学习器;
当i+1小于或等于第一预设阈值时,将i+1更新为i,并返回所述根据第i个所述基学习器的输出结果,调整所述训练样本的权重的步骤,直至i+1大于所述第一预设阈值;
将多个训练好的所述基学习器的输出结果进行加权处理,作为所述机器学习模型的输出结果。
4.根据权利要求2所述的贷款需求的确定方法,其特征在于,所述基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型,还包括:
当所述机器学习模型出现过拟合时,调整所述机器学习模型的目标模型参数,所述目标模型参数包括用于调整单棵树的最大叶子数目的第一参数、用于设置树的最大深度的第二参数、用于调整每个叶子的最小样本数的第三参数、用于调整每次训练抽取的样本数的第四参数、用于调整每次训练抽取的特征数的第五参数和用于调整正则项的权重的第六参数中的至少一项。
5.根据权利要求2所述的贷款需求的确定方法,其特征在于,
所述样本用户包括在目标历史时间段内贷款的第一样本用户和在所述目标历史时间段内未贷款的第二样本用户;
在基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型之前,还包括:
对所述第一样本用户进行过采样处理,增加所述第一样本用户的数量;和/或,对所述第二样本用户进行欠采样处理,减少所述第二样本用户的数量;
所述基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型,包括:
基于所述过采样处理和/或所述欠采样处理后的所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型。
6.根据权利要求2所述的贷款需求的确定方法,其特征在于,所述样本用户的收支数据包括多个特征的数据;
在基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型之前,还包括:
根据所述特征的缺失率、所述特征的信息比率和/或多个特征之间的相关性,对所述样本用户的多个特征的数据进行筛选,得到所述样本用户的目标特征的数据;
所述基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型,包括:
基于所述样本用户的目标特征的数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型。
7.根据权利要求1所述的贷款需求的确定方法,其特征在于,所述获取目标用户在至少一个贷款机构的第一收支数据,包括:
从目标检查分析系统中,获取所述目标用户在多个贷款机构的第一收支数据,所述第一收支数据包括所述目标用户的基本信息、存款数据、流水数据和/或贷款数据。
8.根据权利要求1所述的贷款需求的确定方法,其特征在于,所述第一输出结果包括所述目标用户存在贷款需求的概率;
所述根据所述第一输出结果,确定所述目标用户是否存在贷款需求,包括:
当所述目标用户存在贷款需求的概率大于预设概率阈值时,确定所述目标用户存在贷款需求。
9.根据权利要求2所述的贷款需求的确定方法,其特征在于,在基于所述样本用户的收支数据和所述样本用户的贷款结果对所述机器学习模型进行训练,得到训练好的机器学习模型之后,还包括:
将多个所述样本用户的收支数据输入训练好的所述机器学习模型,输出多个所述样本用户各自对应的第二输出结果,所述第二输出结果包括所述样本用户存在贷款需求的概率;
将多个所述样本用户存在贷款需求的概率转换为多个分数,并对所述多个分数进行分段;
根据各个分段中的样本用户的总数量和各个分段中的第一样本用户的数量,确定各个分段的所述第一样本用户的占比,所述第一样本用户包括在目标历史时间段内贷款的样本用户;
所述根据所述第一输出结果,确定所述目标用户是否存在贷款需求,包括:
确定所述第一输出结果对应的目标分段,
根据所述目标分段的所述第一样本用户的占比,确定所述目标用户是否存在贷款需求。
10.一种贷款需求的确定装置,其特征在于,包括:
获取模块,用于从目标检查分析系统中,获取目标用户在至少一个贷款机构的第一收支数据;
输出模块,用于将所述第一收支数据输入预先训练好的机器学习模型,得到所述机器学习模型的第一输出结果,所述机器学习模型为基于梯度提升框架算法建立,并基于从所述目标检查分析系统中获得的样本用户的收支数据和所述样本用户的贷款结果训练得到;
所述机器学习模型包括多个基学习器,一个所述样本用户的收支数据和一个所述样本用户的贷款结果作为一个训练样本,所述训练样本被赋予权重,所述多个基学习器为通过调整所述训练样本的权重依次训练获得,所述机器学习模型的输出结果包括多个训练好的所述基学习器的输出结果的加权平均值;
第一确定模块,用于根据所述第一输出结果,确定所述目标用户是否存在贷款需求。
11.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的贷款需求的确定方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的贷款需求的确定方法的步骤。
13.一种计算机程序产品,其特征在于,所述计算机程序产品被存储在非易失的存储介质中,所述计算机程序产品被至少一个处理器执行以实现如权利要求1至9中任一项所述的贷款需求的确定方法的步骤。
CN202311238214.8A 2023-09-22 2023-09-22 贷款需求的确定方法、装置、设备、可读存储介质及产品 Pending CN117172828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311238214.8A CN117172828A (zh) 2023-09-22 2023-09-22 贷款需求的确定方法、装置、设备、可读存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311238214.8A CN117172828A (zh) 2023-09-22 2023-09-22 贷款需求的确定方法、装置、设备、可读存储介质及产品

Publications (1)

Publication Number Publication Date
CN117172828A true CN117172828A (zh) 2023-12-05

Family

ID=88941235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311238214.8A Pending CN117172828A (zh) 2023-09-22 2023-09-22 贷款需求的确定方法、装置、设备、可读存储介质及产品

Country Status (1)

Country Link
CN (1) CN117172828A (zh)

Similar Documents

Publication Publication Date Title
EP3540652B1 (en) Method, device, chip and system for training neural network model
US20210365963A1 (en) Target customer identification method and device, electronic device and medium
CN107766929B (zh) 模型分析方法及装置
CN111967971B (zh) 银行客户数据处理方法及装置
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN112785441B (zh) 数据处理方法、装置、终端设备及存储介质
CN111582341B (zh) 用户异常操作预测方法及装置
CN112561082A (zh) 生成模型的方法、装置、设备以及存储介质
CN112200659A (zh) 建立风控模型的方法、装置及存储介质
CN110796485A (zh) 一种提高预测模型的预测精度的方法及装置
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
Negi et al. Cryptocurrency Price Analysis using Deep Learning
CN110807159B (zh) 数据标记方法、装置、存储介质及电子设备
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
CN111210347A (zh) 交易风险预警方法、装置、设备及存储介质
CN117172828A (zh) 贷款需求的确定方法、装置、设备、可读存储介质及产品
CN115511187A (zh) 资产回收率的预测方法、装置、设备、介质和计算机程序产品
CN114781937A (zh) 一种预付卡企业风险预警方法和装置以及存储介质
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN113762415A (zh) 一种基于神经网络的汽车金融产品智能匹配方法和系统
CN113793220A (zh) 基于人工智能模型的股市投资决策方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination