CN112529699A - 企业授信模型的构建方法、装置、设备及可读存储介质 - Google Patents
企业授信模型的构建方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112529699A CN112529699A CN202011573614.0A CN202011573614A CN112529699A CN 112529699 A CN112529699 A CN 112529699A CN 202011573614 A CN202011573614 A CN 202011573614A CN 112529699 A CN112529699 A CN 112529699A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- enterprise
- training
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims description 17
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000008030 elimination Effects 0.000 claims abstract description 27
- 238000003379 elimination reaction Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 43
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种企业授信模型的构建方法、装置、设备及可读存储介质,该方法包括以下步骤:从企业主的个人信用报告中获取所述企业主的个人信用数据;基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。本发明可以更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面评价企业的风险水平的技术问题。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种企业授信模型的构建方法、装置、设备及可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
现有的企业信用评分技术包括专家评分卡、传统信用评分卡和人行数字数字解读。其中,专家评分模型是根据专家的业务经验,将信用风险分解为多个评价维度,然后人为地给每一个评价维度赋予一定的权重,最终把所有维度的加权评分之和作为最终的评分,但是,专家评分卡对不同评价维度的权重是人为赋值的,存在较大的随意性,难以客观反映不同评价维度对风险判断的贡献度。传统信用评分卡是把风险大小量化为不同评价维度的线性组合,根据历史数据采用逻辑回归算法进行数学建模,得出不同维度的贡献权重,再计算所有维度的加权评分之和,并通过激活函数转换为最终的概率评分,传统信用评分卡的缺点在于评价维度往往只有十余个,难以全面描述客户的风险表现。以及,人行数字解读是在人民银行征信报告中的提供的信用评分,数字解读的缺点在于:数字解读评分模型的训练样本仅包括人民银行的样本数据,因此在不同业务场景下,对于不同的银行机构,个人征信数据对于风险判断的权重会存在差异,直接采用数字解读无法反映小微企业自身的风险特点。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种企业授信模型的构建方法、装置、设备及可读存储介质,旨在解决现有的企业信用评分技术无法全面评价企业的风险水平的技术问题。
为实现上述目的,本发明提供一种企业授信模型的构建方法,所述企业授信模型的构建方法包括以下步骤:
从企业主的个人信用报告中获取所述企业主的个人信用数据;
基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
可选地,所述基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合的步骤之前,还包括:
确定所述个人信用数据的变量类型;
将所述变量类型为字符型或日期型的个人信用数据作为分类变量,以及将所述变量类型为数值型的个人信用数据作为所述个人信用数据的统计变量;
确定所述分类变量对应的分类变量组合,其中,所述分类变量组合为所述分类变量的任意组合。
可选地,所述个人信用数据包括查询信息和信贷信息,所述统计维度包括计数、去重计数、求和、均值、中位数、缺失率、0值率、75%分位数或25分位数中的至少一种。
可选地,所述采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集的步骤包括:
将预设回归模型作为所述递归特征消除算法的底层模型;
构建对应所述底层模型的目标代价函数;
根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集。
可选地,所述根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集的步骤包括:
将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代;
删除所述特征集合中权重低于预设权重阈值的特征,得到待定特征子集;
在每轮迭代结束时确定每轮迭代对应的模型性能,并且在达到最大迭代次数时确定最优的模型性能,以基于所述最优的模型性能将所述最优的模型性能对应的待定特征子集作为目标特征子集。
可选地,所述将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代的步骤包括:
将所述特征集合作为原始特征集合,并随机获取所述特征集合的特征子集;
根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练;
判断所述底层模型在当次训练的误差是否小于前次训练的误差,是则保留所述特征子集中的特征,否则将所述特征子集中的特征从所述特征集合中删除,得到新的特征集合;
将所述新的特征集合作为所述特征集合,循环执行所述根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练的步骤,直至满足训练停止条件。
可选地,所述将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型的步骤包括:
基于所述目标特征子集输入至多个相对独立的回归树组中进行多次迭代计算,计算相邻次迭代计算的残差;
根据残差对所述回归树组进行迭代,在迭代完成后得到企业授信模型。
此外,为实现上述目的,本发明还提供一种企业授信模型的构建装置,所述企业授信模型的构建装置包括:
获取模块,用于从企业主的个人信用报告中获取所述企业主的个人信用数据;
特征统计模块,用于基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
特征筛选模块,用于采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
构建模块,用于将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
此外,为实现上述目的,本发明还提供一种企业授信模型的构建设备,所述企业授信模型的构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业授信模型的构建程序,所述企业授信模型的构建程序被所述处理器执行时实现如上述的企业授信模型的构建方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有企业授信模型的构建程序,所述企业授信模型的构建程序被处理器执行时实现如上述的企业授信模型的构建方法的步骤。
本发明通过从企业主的个人信用报告中获取所述企业主的个人信用数据;基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。在本实施例中,提取企业主个人信用数据的特征得到特征集合,再将特征集合中的所有特征输入至递归消除算法对应的预设回归模型中进行训练,以构建企业授信模型,根据个人信用数据构建企业授信模型可以从企业主的个人信用数据的角度对企业主的企业的风险水平进行预测,使得企业授信模型可以更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面评价企业的风险水平的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的企业授信模型的构建设备结构示意图;
图2为本发明企业授信模型的构建方法第一实施例的流程示意图;
图3为本发明企业授信模型的构建方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的企业授信模型的构建设备结构示意图。
本发明实施例企业授信模型的构建设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该企业授信模型的构建设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,企业授信模型的构建设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在企业授信模型的构建设备移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别企业授信模型的构建设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,企业授信模型的构建设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的企业授信模型的构建设备结构并不构成对企业授信模型的构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及企业授信模型的构建程序。
在图1所示的企业授信模型的构建设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的企业授信模型的构建程序。
在本实施例中,企业授信模型的构建设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的企业授信模型的构建程序,其中,处理器1001调用存储器1005中存储的企业授信模型的构建程序时,并执行以下操作:
从企业主的个人信用报告中获取所述企业主的个人信用数据;
基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
确定所述个人信用数据的变量类型;
将所述变量类型为字符型或日期型的个人信用数据作为分类变量,以及将所述变量类型为数值型的个人信用数据作为所述个人信用数据的统计变量;
确定所述分类变量对应的分类变量组合,其中,所述分类变量组合为所述分类变量的任意组合。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:所述个人信用数据包括查询信息和信贷信息,所述统计维度包括计数、去重计数、求和、均值、中位数、缺失率、0值率、75%分位数或25分位数中的至少一种。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
将预设回归模型作为所述递归特征消除算法的底层模型;
构建对应所述底层模型的目标代价函数;
根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代;
删除所述特征集合中权重低于预设权重阈值的特征,得到待定特征子集;
在每轮迭代结束时确定每轮迭代对应的模型性能,并且在达到最大迭代次数时确定最优的模型性能,以基于所述最优的模型性能将所述最优的模型性能对应的待定特征子集作为目标特征子集。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
将所述特征集合作为原始特征集合,并随机获取所述特征集合的特征子集;
根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练;
判断所述底层模型在当次训练的误差是否小于前次训练的误差,是则保留所述特征子集中的特征,否则将所述特征子集中的特征从所述特征集合中删除,得到新的特征集合;
将所述新的特征集合作为所述特征集合,循环执行所述根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练的步骤,直至满足训练停止条件。
进一步地,处理器1001可以调用存储器1005中存储的企业授信模型的构建程序,还执行以下操作:
基于所述目标特征子集输入至多个相对独立的回归树组中进行多次迭代计算,计算相邻次迭代计算的残差;
根据残差对所述回归树组进行迭代,在迭代完成后得到企业授信模型。
本发明还提供一种企业授信模型的构建方法,参照图2,图2为本发明企业授信模型的构建方法第一实施例的流程示意图。
在本实施例中,该企业授信模型的构建方法包括以下步骤:
步骤S10,从企业主的个人信用报告中获取所述企业主的个人信用数据;
在本实施例中,在征得允许的条件下,根据企业主的个人信息,获取企业主的个人信用报告,其中,个人信用报告为公民个人的“信用档案”,个人信用报告中记录有对应公民的信用活动,如偿还贷款本息、信用卡透支额的情况等,个人信用报告的内容主要包括但不限于以下信息:个人信用报告所属者的基本信息、在银行的贷款信息、信用卡信息、开立银行结算账户的信息、信用报告被查询的记录,以及个人住房公积金缴存信息、社会保障信息、是否按时缴纳电话、水、电、燃气费等公共事业费用的信息,以及法院民事判决、欠税等公共信息。其中,可以在征得允许的条件下,根据企业主的个人信息从征信查询网站获取个人信用报告,或者根据企业主的个人信息从中国人民银行征信系统获取个人信用报告。
步骤S20,基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
在本实施例中,在获取到个人信用数据之后,根据不同的分类变量组合,先将个人信用数据的统计变量分成多个不同类型的分类结果,这个步骤的主要目的的是将个人信用数据的统计类型的数据进行分类,并且各个不同分类变量组合对应不同的分类结果,或者说,分类变量组合与分类结果相对应,即根据一种分类变量的组合,可以分类得到一种分类结果。得到个人信用数据在不同的分类变量组合下的分类结果后,对于所有的分类结果,根据预设的统计维度,确定各个分类结果在不同统计维度下的特征统计结果,收集各个分类结果的特征统计结果,各个分类结果的特征统计结果收集至一个集合中,得到分类结果对应的特征集合。其中,特征集合包括所有分类结果对应的特征统计结果。需要说明的是,分类变量组合为个人信用数据对应的分类变量的任意组合,可以是任意两个分类变量的组合,也可以是任意三个分类变量的组合。
进一步地,个人信用数据包括查询信息和信贷信息,统计维度包括计数、去重计数、求和、均值、中位数、缺失率、0值率、75%分位数或25分位数中的至少一种。
进一步地,所述基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合的步骤之前,还包括:
步骤S21,确定所述个人信用数据的变量类型;
步骤S22,将所述变量类型为字符型或日期型的个人信用数据作为分类变量,以及将所述变量类型为数值型的个人信用数据作为所述个人信用数据的统计变量;
步骤S23,确定所述分类变量对应的分类变量组合,其中,所述分类变量组合为所述分类变量的任意组合。
在本实施例中,个人信用数据包括多种不同类型的变量数据,包括字符型数据、日期型数据和数值型数据等。对个人信用数据进行识别,以确定个人信用数据的变量类型,其中,个人信用数据的变量类型包括字符型、日期型和数值型;之后,将变量类型为字符型或日期型的个人信用数据作为分类变量,以及将变量类型为数值型的个人信用数据作为个人信用数据的统计变量。之后,对分类变量进行任意组合,得到多种不同的分类变量组合,其中,分类变量组合为个人信用数据对应的分类变量的任意组合,可以是任意两个分类变量的组合,也可以是任意三个分类变量的组合。
步骤S30,采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
在本实施例中,在得到分类结果对应的特征统计结果之后,采用递归特征特征消除算法对特征集合进行特征筛选,以从特征集合中进行筛选出使预设回归模型性能最好的特征组合,筛选出来的使预设回归模型性能最好的特征组合则为目标特征子集。具体地,将特征集合中的各个特征统计结果输入至递归特征消除算法对应的预设回归模型中,以对预设回归模型进行训练迭代,以从特征集合中迭代出所述目标特征子集。其中,目标特征子集为特征集合中使预设回归模型性能最好的特征所构成的集合。
步骤S40,将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
在本实施例中,在得到目标特征子集后,基于目标特征子集进行构建企业授信模型。具体地,将目标特征子集输入多个相对独立的回归树组,对各个回归树组进行训练,在训练完成时得到企业授信模型。在构建完成企业授信模型之后,根据企业授信模型可以对任意目标客户进行预测其信用风险,例如,获取任意企业主的个人信用预测数据,将企业主的个人信用预测数据输入至企业授信模型中的各个回归树组,各个回归树组输出该企业主对应的企业的预测结果,之后各个回归树组输出的预测结果进行分析或者分析比较,得到企业的信用风险结果。其中,企业授信模型为将信用风险大小量化为评分的数理统计模型。
进一步地,所述将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型的步骤包括:
步骤S41,基于所述目标特征子集输入至多个相对独立的回归树组中进行多次迭代计算,计算相邻次迭代计算的残差;
步骤S42,根据残差对所述回归树组进行迭代,在迭代完成后得到企业授信模型。
在本实施例中,将目标特征子集中的各个目标特征输入多个相对独立的回归数组,多个相对独立的回归数组包括CART分类回归树;将目标特征子集中的各个目标特征输入多个CART分类回归树进行多次迭代计算,在每一轮迭代计算中,分别计算每一个CART分类回归树的分类结果与上一次的分类结果的残差,判断残差是否满足设定收敛条件,若满足则停止训练回归树组,完成对回归树组训练,得到企业授信模型;若不满足则根据残差进行下一轮训练。
本实施例提出的企业授信模型的构建方法,通过从企业主的个人信用报告中获取所述企业主的个人信用数据;基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。在本实施例中,提取企业主个人信用数据的特征得到特征集合,再将特征集合中的所有特征输入至递归消除算法对应的预设回归模型中进行训练,以构建企业授信模型,根据个人信用数据构建企业授信模型可以从企业主的个人信用数据的角度对企业主的企业的风险水平进行预测,使得企业授信模型可以更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面评价企业的风险水平的技术问题。
基于第一实施例,提出本发明企业授信模型的构建方法的第二实施例,参照图3,在本实施例中,步骤S30包括:
步骤S31,将预设回归模型作为所述递归特征消除算法的底层模型;
步骤S32,构建对应所述底层模型的目标代价函数;
步骤S33,根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集。
在本实施例中,在采用递归特征消除算法从特征集合中进行筛选出使预设回归模型性能最好的目标特征子集的过程中,首先将预设回归模型作为递归特征消除算法的底层模型。其中,对于采用何种回归模型作为递归特征消除算法的底层模型,本申请实施例对此不做具体限制,包括但不限于逻辑回归模型、多项式回归模型、逐步回归模型、岭回归模型、套索回归模型以及弹性回归模型中的一种,比如,本申请实施例中,采用逻辑回归模型作为递归特征消除算法的底层模型。
在确定底层模型之后,进一步构建对应底层模型的目标代价函数,比如,可以基于底层模型的识别精度构建目标代价函数。在确定递归特征消除算法的底层模型,并构建对应的目标代价函数之后,即可根据目标代价函数以及特征集合对底层模型进行迭代训练,最终从特征集合迭代出使预设回归模型性能最好的目标特征子集。
进一步地,所述根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集的步骤包括:
步骤S331,将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代;
步骤S332,删除所述特征集合中权重低于预设权重阈值的特征,得到待定特征子集;
步骤S333,在每轮迭代结束时确定每轮迭代对应的模型性能,并且在达到最大迭代次数时确定最优的模型性能,以基于所述最优的模型性能将所述最优的模型性能对应的待定特征子集作为目标特征子集。
在本实施例中,在该特征集合中获取特征子集,并将特征子集输入至底层模型中,以对底层模型进行迭代。在每轮训练结束后,均从特征集合中删除权重小于预设权重阈值的特征,得到待定特征子集,具体地,一轮训练开始,底层模型从特征集合中按训练的顺序删除权重低于当前训练对应的权重阈值的特征,得到中间特征子集,再将中间特征子集作为特征集合,并循环执行所述将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代的步骤,直至特征集合中的特征为空,此时,一次迭代过程完成,之后再根据原始的特征集合按照迭代的过程对底层模型继续进行迭代。
需要说明的是,一次迭代过程包含多次训练过程,对底层模型迭代过程包含多次迭代过程,一轮迭代完成后,特征集合中权重低于预设权重阈值的特征被删除,得到待定特征子集。最后,在每轮迭代结束时确定每轮迭代对应的模型性能,并且在达到最大迭代次数时确定最优的模型性能,以基于最优的模型性能将最优的模型性能对应的待定特征子集作为目标特征子集。
进一步地,所述将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代的步骤包括:
步骤S3311,将所述特征集合作为原始特征集合,并随机获取所述特征集合的特征子集;
步骤S3312,根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练;
步骤S3313,判断所述底层模型在当次训练的误差是否小于前次训练的误差,是则保留所述特征子集中的特征,否则将所述特征子集中的特征从所述特征集合中删除,得到新的特征集合;
步骤S3314,将所述新的特征集合作为所述特征集合,循环执行所述根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练的步骤,直至满足训练停止条件。
在本实施例中,在一次训练过程中,随机获取特征集合的特征子集,比如,在第一次对底层模型进行训练时,特征集合中包括1000个特征,从前述特征集合的1000个特征中随机抽取出10个特征,得到这10特征构成的前述特征集合的一特征子集。在获取到特征集合的特征子集之后,将获取到的特征子集作为底层模型的输入,根据目标代价函数对底层模型进行训练。
在完成当次对底层模型的训练之后,采用交叉验证获取到底层模型在当次训练的误差,并判断底层模型在当次训练的误差是否小于前次训练的误差,是则保存当次获取的特征子集中的特征,否则删除当次获取的特征子集中的特征,得到新的特征集合,之后将新的特征集合作为所述特征集合,循环执行所述根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练的步骤,直至满足训练停止条件。
本实施例提出的企业授信模型的构建方法,通过将预设回归模型作为所述递归特征消除算法的底层模型;构建对应所述底层模型的目标代价函数;根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集。在本实施例中,提取企业主个人信用数据的特征得到特征集合,再将特征集合中的所有特征输入至递归消除算法对应的预设回归模型中进行训练,以构建企业授信模型,根据个人信用数据构建企业授信模型可以从企业主的个人信用数据的角度对企业主的企业的风险水平进行预测,使得企业授信模型可以更加全面地对企业的信用风险进行评估,从而使得预测目标客户的信用风险结果更加可靠,解决了现有的企业信用评分技术无法全面评价企业的风险水平的技术问题。
此外,本发明实施例还提出一种企业授信模型的构建装置,所述企业授信模型的构建装置包括:
获取模块,用于从企业主的个人信用报告中获取所述企业主的个人信用数据;
特征统计模块,用于基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
特征筛选模块,用于采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
构建模块,用于将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
进一步地,所述特征统计模块,还用于:
确定所述个人信用数据的变量类型;
将所述变量类型为字符型或日期型的个人信用数据作为分类变量,以及将所述变量类型为数值型的个人信用数据作为所述个人信用数据的统计变量;
确定所述分类变量对应的分类变量组合,其中,所述分类变量组合为所述分类变量的任意组合。
进一步地,所述特征筛选模块,还用于:
将预设回归模型作为所述递归特征消除算法的底层模型;
构建对应所述底层模型的目标代价函数;
根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集。
进一步地,所述特征筛选模块,还用于:
将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代;
删除所述特征集合中权重低于预设权重阈值的特征,得到待定特征子集;
在每轮迭代结束时确定每轮迭代对应的模型性能,并且在达到最大迭代次数时确定最优的模型性能,以基于所述最优的模型性能将所述最优的模型性能对应的待定特征子集作为目标特征子集。
进一步地,所述特征筛选模块,还用于:
将所述特征集合作为原始特征集合,并随机获取所述特征集合的特征子集;
根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练;
判断所述底层模型在当次训练的误差是否小于前次训练的误差,是则保留所述特征子集中的特征,否则将所述特征子集中的特征从所述特征集合中删除,得到新的特征集合;
将所述新的特征集合作为所述特征集合,循环执行所述根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练的步骤,直至满足训练停止条件。
进一步地,所述构建模块,还用于:
基于所述目标特征子集输入至多个相对独立的回归树组中进行多次迭代计算,计算相邻次迭代计算的残差;
根据残差对所述回归树组进行迭代,在迭代完成后得到企业授信模型。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有企业授信模型的构建程序,所述企业授信模型的构建程序被处理器执行时实现如上述中任一项所述的企业授信模型的构建方法的步骤。
本发明可读存储介质具体实施例与上述企业授信模型的构建方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种企业授信模型的构建方法,其特征在于,所述企业授信模型的构建方法包括以下步骤:
从企业主的个人信用报告中获取所述企业主的个人信用数据;
基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
2.如权利要求1所述的企业授信模型的构建方法,其特征在于,所述基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合的步骤之前,还包括:
确定所述个人信用数据的变量类型;
将所述变量类型为字符型或日期型的个人信用数据作为分类变量,以及将所述变量类型为数值型的个人信用数据作为所述个人信用数据的统计变量;
确定所述分类变量对应的分类变量组合,其中,所述分类变量组合为所述分类变量的任意组合。
3.如权利要求1所述的企业授信模型的构建方法,其特征在于,所述个人信用数据包括查询信息和信贷信息,所述统计维度包括计数、去重计数、求和、均值、中位数、缺失率、0值率、75%分位数或25分位数中的至少一种。
4.如权利要求1所述的企业授信模型的构建方法,其特征在于,所述采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集的步骤包括:
将预设回归模型作为所述递归特征消除算法的底层模型;
构建对应所述底层模型的目标代价函数;
根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集。
5.如权利要求4所述的企业授信模型的构建方法,其特征在于,所述根据所述目标代价函数以及所述底层模型从所述特征集合中迭代出所述目标特征子集的步骤包括:
将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代;
删除所述特征集合中权重低于预设权重阈值的特征,得到待定特征子集;
在每轮迭代结束时确定每轮迭代对应的模型性能,并且在达到最大迭代次数时确定最优的模型性能,以基于所述最优的模型性能将所述最优的模型性能对应的待定特征子集作为目标特征子集。
6.如权利要求5所述的企业授信模型的构建方法,其特征在于,所述将所述特征集合输入至所述底层模型中,并基于所述目标代价函数,对所述底层模型进行迭代的步骤包括:
将所述特征集合作为原始特征集合,并随机获取所述特征集合的特征子集;
根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练;
判断所述底层模型在当次训练的误差是否小于前次训练的误差,是则保留所述特征子集中的特征,否则将所述特征子集中的特征从所述特征集合中删除,得到新的特征集合;
将所述新的特征集合作为所述特征集合,循环执行所述根据所述特征子集以及所述目标代价函数,对所述底层模型进行训练的步骤,直至满足训练停止条件。
7.如权利要求1至6任一项所述的企业授信模型的构建方法,其特征在于,所述将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型的步骤包括:
基于所述目标特征子集输入至多个相对独立的回归树组中进行多次迭代计算,计算相邻次迭代计算的残差;
根据残差对所述回归树组进行迭代,在迭代完成后得到企业授信模型。
8.一种企业授信模型的构建装置,其特征在于,所述企业授信模型的构建装置包括:
获取模块,用于从企业主的个人信用报告中获取所述企业主的个人信用数据;
特征统计模块,用于基于不同的分类变量组合对应的个人信用数据的统计变量,确定各个分类变量组合下的统计变量在不同统计维度下的特征统计,得到特征集合;
特征筛选模块,用于采用递归特征消除算法对所述特征集合进行特征筛选,得到目标特征子集;
构建模块,用于将所述目标特征子集输入多个相对独立的回归树组,对所述回归树组进行训练,在训练完成时得到企业授信模型。
9.一种企业授信模型的构建设备,其特征在于,所述企业授信模型的构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的企业授信模型的构建程序,所述企业授信模型的构建程序被所述处理器执行时实现如权利要求1至7中任一项所述的企业授信模型的构建方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有企业授信模型的构建程序,所述企业授信模型的构建程序被处理器执行时实现如权利要求1至7中任一项所述的企业授信模型的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573614.0A CN112529699A (zh) | 2020-12-25 | 2020-12-25 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573614.0A CN112529699A (zh) | 2020-12-25 | 2020-12-25 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529699A true CN112529699A (zh) | 2021-03-19 |
Family
ID=74976687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573614.0A Pending CN112529699A (zh) | 2020-12-25 | 2020-12-25 | 企业授信模型的构建方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529699A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538132A (zh) * | 2021-07-26 | 2021-10-22 | 天元大数据信用管理有限公司 | 一种基于回归树算法的信用评分方法、设备及介质 |
-
2020
- 2020-12-25 CN CN202011573614.0A patent/CN112529699A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538132A (zh) * | 2021-07-26 | 2021-10-22 | 天元大数据信用管理有限公司 | 一种基于回归树算法的信用评分方法、设备及介质 |
CN113538132B (zh) * | 2021-07-26 | 2024-04-23 | 天元大数据信用管理有限公司 | 一种基于回归树算法的信用评分方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492772B (zh) | 生成信息的方法和装置 | |
CN111898675B (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN107153847A (zh) | 预测用户是否存在恶意行为的方法和计算设备 | |
CN109298840A (zh) | 基于数据湖的数据集成方法、服务器及存储介质 | |
CN111160473A (zh) | 一种分类标签的特征挖掘方法及装置 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN110264093B (zh) | 信用模型的建立方法、装置、设备及可读存储介质 | |
CN113538070B (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN112529679A (zh) | 企业授信模型的构建方法、装置、设备及可读存储介质 | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及系统 | |
CN110288468B (zh) | 数据特征挖掘方法、装置、电子设备及存储介质 | |
CN112906772A (zh) | 样本处理方法、装置、设备及计算机可读存储介质 | |
CN114066620A (zh) | 基于客户画像的客户信息处理方法及装置 | |
CN112529699A (zh) | 企业授信模型的构建方法、装置、设备及可读存储介质 | |
CN117151855A (zh) | 欺诈风险预测方法、装置、计算机设备和可读存储介质 | |
CN116205726A (zh) | 一种贷款风险预测方法、装置、电子设备及存储介质 | |
CN115186890A (zh) | 预警方法、装置、计算机设备和存储介质 | |
CN114240633A (zh) | 信贷风险评估方法、系统、终端设备及存储介质 | |
CN113362069A (zh) | 风控模型的动态调整方法、装置、设备及可读存储介质 | |
CN112669142B (zh) | 高维行为数据的建模方法、装置、设备及可读存储介质 | |
CN112734568B (zh) | 信用评分卡模型构建方法、装置、设备及可读存储介质 | |
CN117350461B (zh) | 企业异常行为预警方法、系统、计算机设备及存储介质 | |
CN111210146B (zh) | 数据处理方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |