CN113792935A - 小微企业信贷违约概率预测方法、装置、设备及存储介质 - Google Patents
小微企业信贷违约概率预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113792935A CN113792935A CN202111132723.3A CN202111132723A CN113792935A CN 113792935 A CN113792935 A CN 113792935A CN 202111132723 A CN202111132723 A CN 202111132723A CN 113792935 A CN113792935 A CN 113792935A
- Authority
- CN
- China
- Prior art keywords
- information
- small
- source domain
- enterprise
- credit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013526 transfer learning Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000011835 investigation Methods 0.000 claims description 12
- 238000001556 precipitation Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000007477 logistic regression Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013508 migration Methods 0.000 description 7
- 230000005012 migration Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机技术领域,公开了一种小微企业信贷违约概率预测方法、装置、设备及存储介质,旨在解决金融机构小微企业信贷业务中面临的数据稀缺、不全面、历史信息沉淀不足等问题,主要方案包括:所述基于迁移学习的小微企业信贷违约概率预测方法包括:步骤1、获取小微企业的信贷申请请求;步骤2、提取所述信贷申请请求中的当前申请特征信息;步骤3、通过源域集成学习模型对所述当前小微企业的申请特征信息进行组合特征提取,把源域集成学习模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,得到组合特征;步骤4、根据提取的组合特征通过目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种小微企业信贷违约概率预测方法、装置、设备及存储介质。
背景技术
自移动互联网技术蓬勃发展以来,无接触信贷业务大爆发,金融机构零售战略转型取得了突破进展,但以往主要是针对个人消费贷款,经过近十年来发展,个人消费贷款已面临杠杆过高、增长乏力、利润收缩、监管收紧等困境,尤其监管也一再强调不宜靠发展消费金融来扩大消费。去年以来,各类监管机构持续大力支持改善小微企业等实体经济金融服务,推进降低小微企业融资成本,各类金融机构以及互联网平台闻风而起,纷纷推出相应的产品与服务;但由于信息不对称、小微企业的特殊性及“小额、高频”的融资需求特点,使得传统金融机构难以触达更广泛的小微企业,让小微企业融资成为世界级的“老大难”问题。不过,随着区块链、大数据、人工智能等新兴技术的应用,小微企业融资难题正在一点点改善。
发明内容
本发明的主要目的在于提出一种小微企业信贷违约概率预测方法、装置、设备及存储介质,旨在解决金融机构小微企业信贷业务中面临的数据稀缺、不全面、历史信息沉淀不足等问题,提升小微企业信贷风控模型效果,从而改善金融机构服务实体经济水平。
为实现上述目的,本发明提供一种小微企业信贷违约概率预测方法,所述小微企业信贷违约概率预测方法包括以下步骤:
步骤1、获取小微企业的信贷申请请求;
步骤2、提取所述信贷申请请求中的当前申请特征信息;
步骤3、通过源域集成学习模型对所述当前小微企业的申请特征信息进行组合特征提取,把源域集成学习模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,这样就得到组合特征;
步骤4、根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
优选地,步骤2中,信贷申请请求中的小微企业以及法人资料信息与预设关键字信息进行比较,将所述小微企业以及法人资料信息中含有所述预设关键字信息的目标资料信息作为所述当前申请特征信息;所述预设关键字信息为来自于企业征信以及个人征信与小微企业的违约概率相关的关键字信息,从而通过关键字信息进行有效信息的提取,提高小微企业的目标违约概率预测的准确性。
优选地,所述通过源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取之前,所述方法还包括:
获取所述源域历史申请特征信息{xi:i=1,2,…,N},以及历史标签信息{yi:i=1,2,…,N},为了保证所述源域集成学习模型能顺利迁移到目标域,要求源域历史申请特征信息与当前申请特征信息保持一致;
根据所述源域历史申请特征信息和历史标签信息通过如下公式得到所述源域集成学习模型:
其中,M表示弱学习器的数量,fm(x|{xi:i=1,2,…,N},{yi:i=1,2,…,N})是根据源域历史申请特征信息和历史标签信息学习到的第m个弱学习器在样本x上的预测结果,fm(x|{xi:i=1,2,…,N},{yi:i=1,2,…,N})一般简写为fm(x),x表示所述源域申请特征信息,其对应的标签信息为y。
优选地,所述通过源域集成学习模型对当前申请特征信息对应的小微企业进行组合特征提取,包括:
定义所述源域集成学习模型的损失函数L(y,f(x)),并设置所述源域集成学习模型中的弱学习器数量M以及弱学习器的初始预测值f0(x);
根据所述源域历史申请特征信息、损失函数对每个弱学习器计算负梯度;
根据所述源域历史申请特征信息、负梯度以及损失函数得到树模型hm(x);
根据所述树模型hm(x)更新强学习器:
fm(x)=fm-1(x)+hm(x),m=1,2,…,M
根据所述源域集成学习模型中的弱学习器数量M,得到最终所述源域集成学习模型:
其中,M表示弱学习器的数量,fm(x)是第m个弱学习器在样本x上的预测结果,x表示所述源域申请特征信息;
根据所述源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取。
优选地,根据所述源域历史申请特征信息、损失函数,对每个弱学习器通过如下公式计算负梯度:
其中,i=1,2,…,N,m=1,2,…,M,xi表示样本i的源域历史申请特征信息,yi表示样本i的历史标签信息,fm-1(x)是第m-1次迭代时的强学习器。
优选地,根据所述源域历史申请特征信息、负梯度以及损失函数通过如下公式得到树模型hm(x):
其中,Rmj表示树模型hm(x)的叶节点区域,j=1,2,…,J,其中J为叶子节点的个数;I(x∈Rmj)是一个示性函数,表示当x∈Rmj时该函数取值为1,否则取值为0;L(yi,fm-1(xi)+c)是源域集成学习模型的损失函数,一般是衡量预测值fm-1(xi)+c与目标值yi之间距离的度量,越小越好,其中i=1,2,…,N,m=1,2,…,M,xi表示样本i的源域历史申请特征信息,yi表示样本i的历史标签信息,fm-1(xi)是第m-1次迭代时的强学习器在样本i上的预测值。
优选地,根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果之前,所述方法还包括:
获取所述目标域历史申请特征信息及其对应的通过所述源域集成学习模型提取的组合特征以及历史标签信息;
根据所述目标域历史申请特征信息和历史标签信息训练得到所述目标域学习模型。
此外,为实现上述目的,本发明还提出一种小微企业信贷违约概率预测装置,所述小微企业信贷违约概率预测装置包括:
信息获取模块,用于获取小微企业的信贷申请请求;
特征提取模块,用于提取所述信贷申请请求中的当前申请特征信息;
特征组合模块,通过源域集成学习模型对所述当前小微企业的申请特征信息进行组合特征提取,把源域集成学习模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,这样就得到组合特征;
预测模块,用于根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
此外,为实现上述目的,本发明还提出一种小微企业信贷违约概率预测设备,所述小微企业信贷违约概率预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的小微企业信贷违约概率预测程序,所述小微企业信贷违约概率预测程序配置为实现如上文所述的小微企业信贷违约概率预测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有小微企业信贷违约概率预测程序,所述小微企业信贷违约概率预测被处理器执行时实现如上文所述的小微企业信贷违约概率预测方法的步骤。
本发明提出的小微企业信贷违约概率预测方法,通过获取小微企业的信贷申请请求;提取所述信贷申请请求中的当前申请特征信息;通过所述源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取;根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。本发明基于迁移学习的小微企业信贷违约概率预测能够有效解决小微企业信贷业务中面临的数据稀缺、不全面、历史信息沉淀不足等问题,相比传统专家模型或者人工决策,利用迁移学习能有效提升金融机构的小微企业信贷风控模型效果,同时风险识别能力的提升可以刺激金融机构加大对小微企业的金融服务与支持。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的小微企业信贷违约概率预测设备结构示意图;
图2为本发明小微企业信贷违约概率预测方法第一实施例的流程示意图;
图3为本发明小微企业信贷违约概率预测方法第二实施例的流程示意图;
图4为本发明小微企业信贷违约概率预测装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的小微企业信贷违约概率预测设备结构示意图。
如图1所示,该小微企业信贷违约概率预测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对小微企业信贷违约概率预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及小微企业信贷违约概率预测程序。
在图1所示的小微企业信贷违约概率预测设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与所述用户设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的小微企业信贷违约概率预测程序,并执行本发明实施例提供的小微企业信贷违约概率预测的实施方法。
基于上述硬件结构,提出本发明小微企业信贷违约概率预测方法实施例。
参照图2,图2为本发明小微企业信贷违约概率预测方法第一实施例的流程示意图。
在第一实施例中,所述小微企业信贷违约概率预测方法包括以下步骤:
步骤S10,获取小微企业的信贷申请请求。
需要说明的是,本实施例的执行主体为小微企业信贷违约概率预测设备,例如小微企业信贷违约概率预测服务器等,还可为其他设备,本实施例对此不作限制。
在本实例中,小微企业可通过客户端,填写所需的信息,例如企业工商信息、法人身份信息,完善企业、法人身份认证,同时完成人脸识别、活体等交互流程,并授权企业以及个人征信查询、第三方数据查询等,其中第三方数据包括但不限于企业工商、司法、税务、发票数据,法人社保、公积金、消费、多头数据等,另外为提升客户体验还可采用光学字符识别(Optical Character Recognition,OCR)等技术获取数据,目的在于确保基础信息的真实性,防止伪冒申请。
步骤S20,提取所述信贷申请请求中的当前申请特征信息。
在本实施例中,可将所述信贷申请请求中的小微企业以及法人资料信息与预设关键字信息进行比较,将所述小微企业以及法人资料信息中含有所述预设关键字信息的目标资料信息作为所述当前申请特征信息,其中,所述预设关键字信息可为来自于企业征信以及个人征信等与小微企业的违约概率相关的关键字信息,从而通过关键字信息进行有效信息的提取,提高小微企业的目标违约概率预测的准确性。
步骤S30,通过源域集成学习模型对所述当前小微企业的申请特征信息进行组合特征提取,把源域集成学习模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,这样就得到组合特征。
在本实施例中,为了弥补当前申请小微企业数据稀缺、不全面、历史信息沉淀不足等问题导致的模型预测效果差,可以利用金融机构在以往应用中已有的模型,如在大中行企业的模型或其他小微企业的模型甚者来自消费贷的模型进行迁移学习,提升当前申请小微企业信贷违约概率预测的准确性。
这里“域”包含两部分:特征空间和概率,“任务”也包括两部分:标记空间和目标预测函数,“源域”:用来训练模型的域和任务,“目标域”:用源域的模型对自己的数据进行预测、分类、聚类等机器学习任务的域和任务。这里我们说的迁移学习就是指将知识从源域迁移到目标域的过程。
本发明利用基于模型的迁移方法,是指将源域学习到的模型应用到目标域上,再根据目标域学习新的模型。这里我们利用源域的历史申请特征信息和历史标签信息学习一个二分类集成学习模型,该二分类集成学习模型可以是GBDT、Xgboost等Boosting算法、也可以是随机森林等Bagging算法。
这里历史标签信息是一个取值为二类别的字段,在业务上是对小微企业未来违约状况预测的一种定性描述,一般为1和0,分别代表高风险(违约可能性大)和低风险(违约可能性小)。未来违约状况的预测是基于过往小微企业历史信息的分析,小微企业数据主要分为两部分,一是申请特征信息,二是放款后还款状况的数据集,即贷后表现数据集,所谓模型即是学习两者之间的关系,当给定小微企业申请特征信息时可以预测贷后表现情况。
与通常做法不同的是,这里当源域集成学习模型训练好做预测的时候,输出的并不是最终的二分类概率值,而是把模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,这样就构造出了新的训练数据或者称为组合特征。
从而,针对当前申请小微企业,其申请特征信息会被转化为新的申请数据或者组合特征。
步骤S40,根据提取的组合特征通过目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
这里我们利用目标域的历史申请特征信息和历史标签信息学习一个逻辑回归模型,目标域的历史申请特征信息需要经过源域集成模型转化为新的训练数据或者组合特征。
新的训练数据或者组合特征与原始历史标签信息一并输入到LogisticRegression分类器中进行最终分类器的训练,考虑到目标域的历史申请特征信息经过源域集成模型后数据不仅变得稀疏,而且由于弱分类器个数、叶子结点个数的影响,可能会导致新的训练数据特征维度过大的问题。因此,在Logistic Regression这一层中,可使用L1正则化来减少过拟合的风险。
从而,针对当前申请小微企业,其申请特征信息经过源域集成模型转化为新的申请数据或者组合特征后,通过Logistic Regression分类器得到最终该申请小微企业信贷违约概率的预测结果。
选定算法后,使用Python为模型主要开发工具,该工具目前已经集成前文所述所有算法,直接调用建模即可。
模型构建好后,使用python将模型封装成桌面程序或程序模块,供金融机构使用,如金融机构具备业务处理IT系统,则将该程序模块部署到系统上。如金融机构不具备IT设施条件,则使用桌面可执行程序(.exe文件),需要手工把建模所需数据输入到程序里,程序处理后返回预测结果。
本实施例通过上述方案,通过获取小微企业的信贷申请请求;提取所述信贷申请请求中的当前申请特征信息;通过所述源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取;根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。本发明基于迁移学习的小微企业信贷违约概率预测能够有效解决小微企业信贷业务中面临的数据稀缺、不全面、历史信息沉淀不足等问题,相比传统专家模型或者人工决策,利用迁移学习能有效提升金融机构的小微企业信贷风控模型效果,同时风险识别能力的提升可以刺激金融机构加大对小微企业的金融服务与支持。
在一实施例中,如图3所示,基于第一实施例提出本发明小微企业信贷违约概率预测方法第二实施例,所述步骤S30之前,所述方法还包括:
步骤S301,获取源域历史申请特征信息{xi:i=1,2,…,N},以及历史标签信息{yi:i=1,2,…,N},为了保证所述源域集成学习模型能顺利迁移到目标域,要求源域历史申请特征信息与当前申请特征信息保持一致。
在本实施例,要求候选的源域和我们的目标域相似性较高,因为如果源域和目标域相似性过小,则很可能造成负迁移,也即最终预测效果不升反降。同时,源域应该有较丰富的历史样本积累,包括历史申请特征信息和历史标签信息,但也应不过于老旧,申请样本观察窗口取近两年较为合宜,同时至少保证半年以上的表现窗口,确保大部分申请样本在表现期内能够充分表现出来。这里源域历史申请特征信息的选取应充分考虑与目标域申请特征信息的兼容性,确保大部分有效申请特征信息在源域和目标域共存,同时在历史申请特征信息和历史标签信息的处理和定义上,源域和目标域也应该保持一致。
步骤S302,定义所述源域集成学习模型的损失函数L(y,f(x)),并设置所述源域集成学习模型中的弱学习器数量M以及弱学习器的初始预测值f0(x)。
在本实施例中,首先定义源域集成学习模型的损失函数L(y,f(x)),它是用来评价模型的预测值和真实值不一样的程度,常见的,比如针对回归任务的平方损失函数和针对分类任务的对数损失函数。其次定义源域集成学习模型中的弱学习器数量M,它是一个超参数,一般可以通过超参数优化方法,比如网格搜索、随机搜索、贝叶斯优化方法取得合适值。接着,初始化弱学习器f0(x):
步骤S303,根据所述源域历史申请特征信息、损失函数对每个弱学习器计算负梯度。
对弱学习器m=1,2,…,M,以及每个样本i=1,2,…,N,计算负梯度:
其中,xi表示样本i的源域历史申请特征信息,yi表示样本i的历史标签信息,fm-1(x)是第m-1次迭代时的强学习器。
步骤S304,根据所述源域历史申请特征信息、负梯度以及损失函数得到树模型hm(x)。
将上步得到的负梯度作为样本新的真实值,并将数据(xi,rim),i=1,2,…,N作为下棵树的训练数据,得到一颗新的树模型hm(x),其对应的叶子节点区域为Rmj,j=1,2,…,J,其中J为叶子节点的个数。
对叶子节点区域为Rmj,j=1,2,…,J,计算最佳拟合值:
从而得到树模型hm(x):
步骤S305,根据所述树模型hm(x)更新强学习器:fm(x)=fm-1(x)+hm(x),m=1,2,…,M。
至此,我们得到强学习器:
至此,我们得到最终学习器:
本实施例提供的方案,通过获取源域历史申请特征信息和历史标签信息,根据所述源域历史申请特征信息和历史标签信息建立所述源域集成学习模型,从而通过源域集成学习模型对当前申请特征信息对应的小微企业进行组合特征提取。
本发明进一步提供一种小微企业信贷违约概率预测装置。
参照图4,图4为本发明小微企业信贷违约概率预测装置第一实施例的功能模块示意图。
本发明小微企业信贷违约概率预测装置第一实施例中,该小微企业信贷违约概率预测装置包括:
信息获取模块10,用于获取小微企业的信贷申请请求。
在本实例中,小微企业可通过客户端,填写所需的信息,例如企业工商信息、法人身份信息,完善企业、法人身份认证,并授权企业以及个人征信查询、第三方数据查询等,为提升客户体验还可采用光学字符识别(Optical Character Recognition,OCR)等技术获取数据,目的在于确保基础信息的真实性,防止伪冒申请。
特征提取模块20,用于提取所述信贷申请请求中的当前申请特征信息。
在本实施例中,可将所述信贷申请请求中的小微企业以及法人资料信息与预设关键字信息进行比较,将所述小微企业以及法人资料信息中含有所述预设关键字信息的目标资料信息作为所述当前申请特征信息,其中,所述预设关键字信息可为企业征信以及个人征信等与小微企业的违约概率相关的关键字信息,从而通过关键字信息进行有效信息的提取,提高小微企业的目标违约概率预测的准确性。
特征组合模块30,用于通过所述源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取;
在本实施例中,为了弥补当前申请小微企业数据稀缺、不全面、历史信息沉淀不足等问题导致的模型预测效果差,可以利用金融机构在以往应用中已有的模型,如在大中行企业的模型或其他小微企业的模型甚者来自消费贷的模型进行迁移学习,提升当前申请小微企业信贷违约概率预测的准确性。
这里“域”包含两部分:特征空间和概率,“任务”也包括两部分:标记空间和目标预测函数,“源域”:用来训练模型的域和任务,“目标域”:用源域的模型对自己的数据进行预测、分类、聚类等机器学习任务的域和任务。这里我们说的迁移学习就是指将知识从源域迁移到目标域的过程。
本发明利用基于模型的迁移方法,是指将源域学习到的模型应用到目标域上,再根据目标域学习新的模型。这里我们利用源域的历史申请特征信息和历史标签信息学习一个二分类集成学习模型,该二分类集成学习模型可以是GBDT、Xgboost等Boosting算法、也可以是随机森林等Bagging算法。
这里历史标签信息是一个取值为二类别的字段,在业务上是对小微企业未来违约状况预测的一种定性描述,一般为1和0,分别代表高风险(违约可能性大)和低风险(违约可能性小)。未来违约状况的预测是基于过往小微企业历史信息的分析,小微企业数据主要分为两部分,一是申请特征信息,二是放款后还款状况的数据集,即贷后表现数据集,所谓模型即是学习两者之间的关系,当给定小微企业申请特征信息时可以预测贷后表现情况。
与通常做法不同的是,这里当源域集成学习模型训练好做预测的时候,输出的并不是最终的二分类概率值,而是把模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,这样就构造出了新的训练数据或者称为组合特征。
从而,针对当前申请小微企业,其申请特征信息会被转化为新的申请数据或者组合特征。
预测模块40,用于根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
这里我们利用目标域的历史申请特征信息和历史标签信息学习一个逻辑回归模型,目标域的历史申请特征信息需要经过源域集成模型转化为新的训练数据或者组合特征。
新的训练数据或者组合特征与原始历史标签信息一并输入到LogisticRegression分类器中进行最终分类器的训练,考虑到目标域的历史申请特征信息经过源域集成模型后数据不仅变得稀疏,而且由于弱分类器个数、叶子结点个数的影响,可能会导致新的训练数据特征维度过大的问题。因此,在Logistic Regression这一层中,可使用L1正则化来减少过拟合的风险。
从而,针对当前申请小微企业,其申请特征信息经过源域集成模型转化为新的申请数据或者组合特征后,通过Logistic Regression分类器得到最终该申请小微企业信贷违约概率的预测结果。
选定算法后,使用Python为模型主要开发工具,该工具目前已经集成前文所述所有算法,直接调用建模即可。
模型构建好后,使用python将模型封装成桌面程序或程序模块,供金融机构使用,如金融机构具备业务处理IT系统,则将该程序模块部署到系统上。如金融机构不具备IT设施条件,则使用桌面可执行程序(.exe文件),需要手工把建模所需数据输入到程序里,程序处理后返回预测结果。
本实施例通过上述方案,通过获取小微企业的信贷申请请求;提取所述信贷申请请求中的当前申请特征信息;通过所述源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取;根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。本发明基于迁移学习的小微企业信贷违约概率预测能够有效解决小微企业信贷业务中面临的数据稀缺、不全面、历史信息沉淀不足等问题,相比传统专家模型或者人工决策,利用迁移学习能有效提升金融机构的小微企业信贷风控模型效果,同时风险识别能力的提升可以刺激金融机构加大对小微企业的金融服务与支持。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有小微企业信贷违约概率预测程序,所述小微企业信贷违约概率预测程序被处理器执行如上文所述的小微企业信贷违约概率预测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于迁移学习的小微企业信贷违约概率预测方法,其特征在于,所述基于迁移学习的小微企业信贷违约概率预测方法包括:
步骤1、获取小微企业的信贷申请请求;
步骤2、提取所述信贷申请请求中的当前申请特征信息;
步骤3、通过源域集成学习模型对所述当前小微企业的申请特征信息进行组合特征提取,把源域集成学习模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,得到组合特征;
步骤4、根据提取的组合特征通过目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
2.如权利要求1所述的小微企业信贷违约概率预测方法,其特征在于,步骤2中,信贷申请请求中的小微企业以及法人资料信息与预设关键字信息进行比较,将所述小微企业以及法人资料信息中含有所述预设关键字信息的目标资料信息作为所述当前申请特征信息;所述预设关键字信息为来自于企业征信以及个人征信与小微企业的违约概率相关的关键字信息,从而通过关键字信息进行有效信息的提取,提高小微企业的目标违约概率预测的准确性。
3.如权利要求1所述的小微企业信贷违约概率预测方法,其特征在于,所述通过源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取之前,所述方法还包括:
获取源域历史申请特征信息{xi:i=1,2,…,N},以及历史标签信息{yi:i=1,2,…,N},为了保证所述源域集成学习模型能顺利迁移到目标域,要求源域历史申请特征信息与当前申请特征信息保持一致;
根据所述源域历史申请特征信息和历史标签信息通过如下公式得到所述源域集成学习模型:
其中,M表示弱学习器的数量,fm(x|{xi:i=1,2,…,N},{yi:i=1,2,…,N})是根据源域历史申请特征信息和历史标签信息学习到的第m个弱学习器在样本x上的预测结果,fm(x|{xi:i=1,2,…,N},{yi:i=1,2,…,N})记为fm(x),x表示所述源域申请特征信息。
4.如权利要求3所述的小微企业信贷违约概率预测方法,其特征在于,所述通过源域集成学习模型对当前申请特征信息对应的小微企业进行组合特征提取,包括:
定义所述源域集成学习模型的损失函数L(y,f(x)),并设置所述源域集成学习模型中的弱学习器数量M以及弱学习器的初始预测值f0(x);
根据所述源域历史申请特征信息、损失函数对每个弱学习器计算负梯度;
根据所述源域历史申请特征信息、负梯度以及损失函数得到树模型hm(x);
根据所述树模型hm(x)更新强学习器:
fm(x)=fm-1(x)+hm(x),m=1,2,…,M
根据所述源域集成学习模型中的弱学习器数量M,得到最终所述源域集成学习模型:
其中,M表示弱学习器的数量,fm(x)是第m个弱学习器在样本x上的预测结果,x表示所述源域申请特征信息;
根据所述源域集成学习模型对所述当前申请特征信息对应的小微企业进行组合特征提取。
6.如权利要求4所述所述的小微企业信贷违约概率预测方法,其特征在于,根据所述源域历史申请特征信息、负梯度以及损失函数通过如下公式得到树模型hm(x):
其中,Rmj表示树模型hm(x)的叶节点区域,j=1,2,…,J,其中J为叶子节点的个数;I(x∈Rmj)是一个示性函数,表示当x∈Rmj时该函数取值为1,否则取值为0;L(yi,fm-1(xi)+c)是源域集成学习模型的损失函数,一般是衡量预测值fm-1(xi)+c与目标值yi之间距离的度量,越小越好,其中i=1,2,…,N,m=1,2,…,M,xi表示样本i的源域历史申请特征信息,yi表示样本i的历史标签信息,fm-1(xi)是第m-1次迭代时的强学习器在样本i上的预测值。
7.如权利要求1至3所述的小微企业信贷违约概率预测方法,其特征在于,根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果之前,所述方法还包括:
获取所述目标域历史申请特征信息及其对应的通过所述源域集成学习模型提取的组合特征以及历史标签信息;
根据所述目标域历史申请特征信息和历史标签信息训练得到所述目标域学习模型。
8.一种小微企业信贷违约概率预测装置,其特征在于,所述小微企业信贷违约概率预测装置包括:
信息获取模块,用于获取小微企业的信贷申请请求;
特征提取模块,用于提取所述信贷申请请求中的当前申请特征信息;
特征组合模块,通过源域集成学习模型对所述当前小微企业的申请特征信息进行组合特征提取,把源域集成学习模型中的每棵树计算得到的预测概率值所属的叶子节点位置记为1,这样就得到组合特征;
预测模块,用于根据提取的组合特征通过所述目标域学习模型进行信贷违约概率预测,得到小微企业信贷违约概率的预测结果。
9.一种小微企业信贷违约概率预测设备,其特征在于,所述小微企业信贷违约概率预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的小微企业信贷违约概率预测程序,所述小微企业信贷违约概率预测程序配置为实现如权利要求1至7中任一项所述的小微企业信贷违约概率预测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有小微企业信贷违约概率预测程序,所述小微企业信贷违约概率预测被处理器执行时实现如权利要求1至7中任一项所述的小微企业信贷违约概率预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111132723.3A CN113792935B (zh) | 2021-09-27 | 2021-09-27 | 小微企业信贷违约概率预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111132723.3A CN113792935B (zh) | 2021-09-27 | 2021-09-27 | 小微企业信贷违约概率预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792935A true CN113792935A (zh) | 2021-12-14 |
CN113792935B CN113792935B (zh) | 2024-04-05 |
Family
ID=78877249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111132723.3A Active CN113792935B (zh) | 2021-09-27 | 2021-09-27 | 小微企业信贷违约概率预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792935B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009911A (zh) * | 2017-11-29 | 2018-05-08 | 上海出版印刷高等专科学校 | 一种识别p2p网络借贷借款人违约风险的方法 |
CN110288459A (zh) * | 2019-04-24 | 2019-09-27 | 武汉众邦银行股份有限公司 | 贷款预测方法、装置、设备及存储介质 |
AU2019101189A4 (en) * | 2019-10-02 | 2020-01-23 | Han, Ming MISS | A financial mining method for credit prediction |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN112767167A (zh) * | 2021-02-07 | 2021-05-07 | 中国工商银行股份有限公司 | 一种基于集成学习的投资交易风险趋势预测方法及装置 |
US20210174257A1 (en) * | 2019-12-04 | 2021-06-10 | Cerebri AI Inc. | Federated machine-Learning platform leveraging engineered features based on statistical tests |
CN113159461A (zh) * | 2021-05-24 | 2021-07-23 | 天道金科股份有限公司 | 基于样本迁移学习的中小微企业信用评价方法 |
-
2021
- 2021-09-27 CN CN202111132723.3A patent/CN113792935B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009911A (zh) * | 2017-11-29 | 2018-05-08 | 上海出版印刷高等专科学校 | 一种识别p2p网络借贷借款人违约风险的方法 |
WO2020037942A1 (zh) * | 2018-08-20 | 2020-02-27 | 平安科技(深圳)有限公司 | 风险预测处理方法、装置、计算机设备和介质 |
CN110288459A (zh) * | 2019-04-24 | 2019-09-27 | 武汉众邦银行股份有限公司 | 贷款预测方法、装置、设备及存储介质 |
AU2019101189A4 (en) * | 2019-10-02 | 2020-01-23 | Han, Ming MISS | A financial mining method for credit prediction |
US20210174257A1 (en) * | 2019-12-04 | 2021-06-10 | Cerebri AI Inc. | Federated machine-Learning platform leveraging engineered features based on statistical tests |
CN112767167A (zh) * | 2021-02-07 | 2021-05-07 | 中国工商银行股份有限公司 | 一种基于集成学习的投资交易风险趋势预测方法及装置 |
CN113159461A (zh) * | 2021-05-24 | 2021-07-23 | 天道金科股份有限公司 | 基于样本迁移学习的中小微企业信用评价方法 |
Non-Patent Citations (3)
Title |
---|
刘华玲 等: "网络广告点击率预估的特征学习及技术研究进展", 《浙江大学学报(理学版)》, vol. 46, no. 5, pages 565 - 573 * |
胡健 等: "基于互信息加权集成迁移学习的入侵检测方法", 《计算机应用》, vol. 39, no. 11, pages 3310 - 3315 * |
许贤泽 等: "基于Spark和梯度提升树模型的短期负荷预测", 华中科技大学学报(自然科学版), vol. 47, no. 05, pages 84 - 89 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792935B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111724083B (zh) | 金融风险识别模型的训练方法、装置、计算机设备及介质 | |
WO2019196546A1 (zh) | 确定业务请求事件的风险概率的方法及装置 | |
WO2020020088A1 (zh) | 神经网络模型的训练方法和系统以及预测方法和系统 | |
WO2021143396A1 (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
WO2022001232A1 (zh) | 一种问答数据增强方法、装置、计算机设备及存储介质 | |
CN110569356A (zh) | 基于智能面试交互系统的面试方法、装置和计算机设备 | |
CN111898550B (zh) | 建立表情识别模型方法、装置、计算机设备及存储介质 | |
US20200218932A1 (en) | Method and system for classification of data | |
US20080313112A1 (en) | Learning machine that considers global structure of data | |
US20230410544A1 (en) | Classifying pharmacovigilance documents using image analysis | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
CN111985207A (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
US20220253746A1 (en) | Systems and Methods for Managing, Distributing and Deploying a Recursive Decisioning System Based on Continuously Updating Machine Learning Models | |
CN116071609B (zh) | 基于目标特征动态自适应提取的小样本图像分类方法 | |
CN116910571A (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
US20220405640A1 (en) | Learning apparatus, classification apparatus, learning method, classification method and program | |
CN113792935B (zh) | 小微企业信贷违约概率预测方法、装置、设备及存储介质 | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
CN115587830A (zh) | 工作任务激励方法、装置、计算机设备及存储介质 | |
US20220292393A1 (en) | Utilizing machine learning models to generate initiative plans | |
Liang et al. | Feature construction using genetic programming for figure-ground image segmentation | |
Sinaga et al. | Data Mining Classification Of Filing Credit Customers Without Collateral With K-Nearest Neighbor Algorithm (Case study: PT. BPR Diori Double) | |
Kumar et al. | Image classification in python using Keras | |
CN111178535A (zh) | 实现自动机器学习的方法和装置 | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |