CN116012143A - 一种分箱回归下的变量选择及参数估计方法 - Google Patents
一种分箱回归下的变量选择及参数估计方法 Download PDFInfo
- Publication number
- CN116012143A CN116012143A CN202310002700.3A CN202310002700A CN116012143A CN 116012143 A CN116012143 A CN 116012143A CN 202310002700 A CN202310002700 A CN 202310002700A CN 116012143 A CN116012143 A CN 116012143A
- Authority
- CN
- China
- Prior art keywords
- credit
- preset
- box
- binning
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 74
- 238000009826 distribution Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000611 regression analysis Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000005303 weighing Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 68
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000011156 evaluation Methods 0.000 description 23
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 241000854350 Enicospilus group Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种分箱回归下的变量选择及参数估计方法,包括:通过对采集的初始信用数据进行分箱处理,生成分箱信用数据;通过提取所述分箱信用数据的分箱信用特征变量,并计算分箱信用特征值;通过所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值;通过所述信用分值和预设的分组最小角回归算法,筛选信用预测特征变量,并建立信用预测模型;通过预设的信用优化算法对信用预测模型的进行求解,确定信用参数;通过进行分箱处理,提高信用数据特征提取的准确性和提取效率;根据不同信用特征,采用不同的信用损失函数,通过分组最小角回归算法,提高了信用预测模型的准确性。
Description
技术领域
本发明涉及大数据服务技术领域,特别涉及一种分箱回归下的变量选择及参数估计方法。
背景技术
目前,在信用评估的问题中,经常遇到一些连续型变量如年龄、收入等离散化,需要对不同的离散值分别赋予不同的分值,根据综合分值来评估用户的信用值;再对变量进行离散化,是一个很重要的问题;优良的离散化对信用建模有重要的影响;现有的离散化通常考虑单个变量和结局(如信用)之间的相关性,根据融合临近值的方法去离散化;而实际上离散化的过程就是一个分箱的过程;如申请号为“201910849709.1”的“一种信用评估方法、信用评估装置及电子设备”,其基于申请者的社交数据,构建所述申请者的社交关系网络,利用Node2Vec算法,从所述社交关系网络提取所述申请者的社交属性特征;将所述社交属性特征应用于信用评估模型,以得到对所述申请者的信用评估结果;这种社交评估基于社交数据进行特征提取,与信用评估基于信用数据进行特征提取异曲同工,但其面对复杂的信用问题时,通过调用大量信用数据,在优化过程中需要对整个模型进行优化,极大增多了优化时间,提高了优化难度;而本发明通过分箱,在进行优化时,只需要对特定部分进行优化,大大提高了信用评估过程中优化的便捷性。
发明内容
本发明提供一种分箱回归下的变量选择及参数估计方法,用以解决信用评估过程中,面对大量评估数据无法有效分析和便捷优化,并计算出信用参数,在计算过程中,提高变量选择效率及参数估计准确率的情况。
本发明提供了一种分箱回归下的变量选择及参数估计方法,包括:
步骤S01:通过对采集的初始信用数据进行分箱处理,生成分箱信用数据;
步骤S02:通过提取所述分箱信用数据的分箱信用特征变量,并计算分箱信用特征值;
步骤S03:通过所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值;
步骤S04:通过所述信用分值和预设的分组最小角回归算法,筛选信用预测特征变量,并建立信用预测模型;
步骤S05:通过预设的信用优化算法对信用预测模型的进行求解,确定信用参数。
作为本技术方案的一种实施例,在于所述步骤S01包括:
通过对采集的初始信用数据进行数据分类,确定第一信用数据,所述第一信用数据为连续性信用数据;
通过所述第一信用数据和预设的分箱条件数据表,确定对应的分箱方式;其中,
所述分箱方式包括:哑变量方式、独热编码方式;
通过所述分箱方式对第一信用数据进行分箱处理,生成分箱信用数据。
作为本技术方案的一种实施例,在于所述步骤S02包括:
基于分箱信用数据和预设的矩阵分组数据,确定分箱信用矩阵;
基于所述分箱信用矩阵和预设的卷积对照表,确定对应的卷积核;
基于所述卷积核对分箱信用矩阵进行分箱卷积,提取对应的分箱信用特征变量;
基于所述分箱信用特征变量,生成分箱特征值矩阵,并根据所述分箱信用特征值矩阵,计算分箱信用特征值。
作为本技术方案的一种实施例,在于所述步骤S03包括:
根据分箱信用特征值对分箱信用数据进行分布检验,确定分箱信用分布类别;其中,
所述分布类别包括:伯努利分布、高斯分布、拉普拉斯分布;
根据所述分箱信用分布类别和预设的分布函数对照库进行函数判断,确定对应的信用损失函数,并根据所述信用损失函数计算出信用特征值对应的信用分值;其中,
所述信用损失函数包括:负对数似然函数、均方误差损失函数、绝对值损失函数;
当所述分箱信用分布类别为伯努利分布时,则获取对应的负对数似然函数;
当所述分箱信用分布类别为高斯分布时,则获取对应的均方误差损失函数;
当所述分箱信用分布类别为拉普拉斯分布时,则获取对应的绝对值损失函数。
作为本技术方案的一种实施例,在于所述步骤S04包括:
基于所述信用分值,筛选出对应的分箱截断点;
基于预设的信用惩罚模型对分箱截断点进行约束计算,生成约束特征值;其中,
所述约束特征值为:在预设约束条件内的信用分值所对应的分箱特征值;
基于预设的分组最小角回归算法,对所述约束特征值对应的约束特征进行特征筛选,获取信用预测特征,并基于所述信用预测特征,建立信用预测模型;其中,
所述分组最小角回归算法包括特征筛选回归分析和正则化回归分析。
作为本技术方案的一种实施例,在于所述步骤S05包括:
通过获取信用预测模型的模型类别,并根据所述模型类别,确定信用预测模型对应的信用优化算法;其中,
所述信用优化算法包括:凸优化、最小二乘法、最优权衡法;
通过所述信用优化算法对所述信用预测模型求解,生成信用预测模型对应的模型参数;
通过对所述模型参数进行参数筛选,确定信用参数。
作为本技术方案的一种实施例,在于所述信用损失函数包括负对数似然函数、均方误差损失函数和绝对值损失函数,包括:
所述负对数似然函数用于计算独立分布的不同类别的信用特征对应的信用分值;
所述均方误差损失函数用于通过梯度下降的方法计算出对应的信用分值;
所述绝对值损失函数用于根据信用预测值与信用目标值的绝对值来计算信用分值。
作为本技术方案的一种实施例,在于所述基于预设的分组最小角回归算法,对所述约束特征值对应的约束特征进行特征筛选,获取信用预测特征,并基于所述信用预测特征,建立信用预测模型,包括:
基于预设的分组最小角回归算法,将约束特征值分为不同的小组,并依次提取每一组的系数,根据预设的系数参照表,将每一组的系数转化为对应的小组变量;
基于所述小组变量进行线形判断,判断小组变量之间是否为多重共线性关系,生成线形判断结果;其中,
当所述线形判断结果为小组变量之间不是多重共线性关系,则对约束特征进行特征筛选,获取信用预测特征;
当所述线形判断结果为小组变量之间是多重共线性关系,则进行相关系数共线判断;其中,
当所述相关系数在预设的阈值范围内时,则为正常情况;
当所述相关系数不在预设的阈值范围内时,则为严重共线,进行预设的特征清理。
作为本技术方案的一种实施例,在于所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值,包括:
将获取到的信用特征进行分组,获取t组信用特征变量组{x1,x2,…,xt},计算变量预测权重μ:
其中,μi为信用特征变量组中第i组信用特征变量的变量预测权重,为ri=1在整体数据中占的比例,为ri=0在整体数据中占的比例,ri为信用特征变量中第i个变量,ri=1为信用特征变量中第i个变量ri对预测产生影响,ri=0为信用特征变量中第i个变量ri对预测不产生影响,li为特征变量中第i个变量ri所对应的有影响变量的数量,ε1为第一预测影响参数;
根据所述变量预测权重μ,计算变量存在预测影响的概率:
其中,为信用特征变量组中第i组信用特征变量产生预测影响的概率,为信用特征变量组中第i组信用特征变量不产生预测影响的概率,ε2为第二预测影响参数,e为自然底数,α为预测系数,xi为信用特征变量组中的第i组信用特征变量;
根据所述变量存在预测影响的概率,建立分箱回归的目标函数,并确定分箱信用特征值:
其中,ξ(α)为分箱回归的目标函数,t为变量组总数,且1<t。
作为本技术方案的一种实施例,在于所述基于分箱信用数据和预设的矩阵分组数据,确定分箱信用矩阵,包括:
基于分箱信用数据计算分箱信用划分矩阵;
基于所述分箱信用划分矩阵和预设的矩阵分组数据,进行矩阵更新,生成分箱更新矩阵;
基于所述分箱更新矩阵和预设的矩阵参照表,计算分箱值,并进行判断,获取判断结果;其中,
当所述分箱值在预设的阈值范围内时,则将所述分箱更新矩阵作为分箱信用矩阵;
当所述分箱值不在预设的阈值范围内时,则对所述分箱更新矩阵继续进行矩阵更新,直到对应的分箱值在预设的阈值范围内。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种分箱回归下的变量选择及参数估计方法的流程图;
图2为本发明实施例中一种分箱回归下的变量选择及参数估计方法中步骤S01的流程图;
图3为本发明实施例中一种分箱回归下的变量选择及参数估计方法中步骤S02的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
需说明的是,当部件被称为“固定于”或“设置于”另一个部件,它可以直接在另一个部件上或者间接在该另一个部件上。当一个部件被称为是“连接于”另一个部件,它可以是直接或者间接连接至该另一个部件上。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,“多个”的含义是两个或两个以上,除非另有明确具体的限定。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
本发明通过采用分箱回归对信用评估的信用数据进行了分箱,并分别进行处理,提取影响信用预测结果的特征值,通过不同的损失函数对其进行处理,建立信用预测模型,最终计算出信用参数,提高了信用评估的优化途径,提高信用评估的准确性和对变动的信用参数的及时把握效率。
实施例1:
本发明实施例提供了一种分箱回归下的变量选择及参数估计方法,包括:
步骤S01:通过对采集的初始信用数据进行分箱处理,生成分箱信用数据;
步骤S02:通过提取所述分箱信用数据的分箱信用特征变量,并计算分箱信用特征值;
步骤S03:通过所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值;
步骤S04:通过所述信用分值和预设的分组最小角回归算法,筛选信用预测特征变量,并建立信用预测模型;
步骤S05:通过预设的信用优化算法对信用预测模型的进行求解,确定信用参数;
上述技术方案的工作原理为:现有技术方案中,对信用评估的方法各有不一,随着信用数据种类和数据量的增多,各种方法均有针对性的信用评估优化,而在新增信用数据之后,不同的信用参数是如何分配,这关系着信用评估的侧重和信用评估适用性的大小;申请号为“201810738014.1”的“一种信用评估的方法和装置”,基于数据之间的关联关系,获取一级关联特征及二级关联特征,并通过预先训练的信用评估模型评估待评估用户的信用度,通过关联度的方法进行评估,保证了评估效率,但是随着关联数据的变化,当评估模型进行优化时,则需要进行整体优化,及其耗费时间,并且容易出错;而上述技术方案中,首先分箱处理初始信用数据,获取分箱信用数据;其次,提取分箱信用数据中的分箱信用特征变量,计算出分箱信用特征值;然后,用预设的信用损失函数和分箱信用特征值,计算出信用分值,即信用得分;接着用分组最小角回归算法(即group lasso)和信用分值,筛选出信用预测特征变量,在此基础上,建立出信用预测模型;最后,用预设的信用优化算法求解信用预测模型,解出信用参数;
上述技术方案的有益效果为:通过进行分箱处理,提高信用数据特征提取的准确性和提取效率;根据不同信用特征,采用不同的信用损失函数,增强了信用分值与特征值的适配度,同时,通过分组最小角回归算法,提高了信用预测模型的准确性,最后,解出信用参数,让信用评估更加准确和有针对性。
实施例2:
在一个实施例中,所述步骤S01包括:
通过对采集的初始信用数据进行数据分类,确定第一信用数据,所述第一信用数据为连续性信用数据;
通过所述第一信用数据和预设的分箱条件数据表,确定对应的分箱方式;其中,
所述分箱方式包括:哑变量方式、独热编码方式;
通过所述分箱方式对第一信用数据进行分箱处理,生成分箱信用数据;
上述技术方案的工作原理为:首先,根据预设的数据类型对采集的初始信用数据进行数据分类,筛选出第一信用数据,第一信用数据必须为连续性的信用数据;其次,筛选出来的第一信用数据在分箱条件数据表中检索出对应的分箱方式,包括:哑变量方式、独热编码方式;最后,用检索到的分箱方式,分箱处理第一信用数据,获取到分箱信用数据;
上述技术方案的有益效果为:通过分类,对初始的信用数据进行筛选,提高了筛选后数据的有效性,通过分箱条件对照,提高分箱的准确性。
实施例3:
在一个实施例中,所述步骤S02包括:
基于分箱信用数据和预设的矩阵分组数据,确定分箱信用矩阵;
基于所述分箱信用矩阵和预设的卷积对照表,确定对应的卷积核;
基于所述卷积核对分箱信用矩阵进行分箱卷积,提取对应的分箱信用特征变量;
基于所述分箱信用特征变量,生成分箱特征值矩阵,并根据所述分箱信用特征值矩阵,计算分箱信用特征值;
上述技术方案的工作原理为:与现有技术方案中直接通过预设的某一卷积核进行卷积不同,上述技术方案中先将分箱信用数据按照预设的矩阵分组数据进行分组,得到分箱信用矩阵;其次,用分箱信用矩阵在预设的卷积对照表中对照,对照出卷积核;接着,根据对照出的卷积核对分箱信用矩阵进行分箱卷积,提取出分箱信用特征变量;最后,依据分箱信用特征变量,生成分箱特征值矩阵,同时,计算出分箱信用特征值;
上述技术方案的有益效果为:通过筛选出卷积核,提高了信用矩阵的生成效率和针对性,通过分箱卷积,增强了分箱信用特征值的计算效率和计算准确度。
实施例4:
在一个实施例中,所述步骤S03包括:
根据分箱信用特征值对分箱信用数据进行分布检验,确定分箱信用分布类别;其中,
所述分布类别包括:伯努利分布、高斯分布、拉普拉斯分布;
根据所述分箱信用分布类别和预设的分布函数对照库进行函数判断,确定对应的信用损失函数,并根据所述信用损失函数计算出信用特征值对应的信用分值;其中,
所述信用损失函数包括:负对数似然函数、均方误差损失函数、绝对值损失函数;
当所述分箱信用分布类别为伯努利分布时,则获取对应的负对数似然函数;
当所述分箱信用分布类别为高斯分布时,则获取对应的均方误差损失函数;
当所述分箱信用分布类别为拉普拉斯分布时,则获取对应的绝对值损失函数;
上述技术方案的工作原理为:与现有技术方案中通过预设一种损失函数进行针对计算以此提高效率,但忽视了使用的局限性不同,上述技术方案中,首先根据分箱信用特征值对分箱信用数据进行分布检验,弄清楚分箱信用分布的分布类别,分布类别包括了伯努利分布、高斯分布和拉普拉斯分布;然后,根据分箱信用分布的分布类别和预设的分布函数对照库进行函数判断,这一步是为了选择出信用损失函数,最后根据这个信用损失函数计算出信用特征值对应的信用分值;信用损失函数包括了负对数似然函数、均方误差损失函数和绝对值损失函数;如果分箱信用分布类别为伯努利分布,则获取对应的负对数似然函数;如果分箱信用分布类别为高斯分布,则获取对应的均方误差损失函数;如果分箱信用分布类别为拉普拉斯分布,则获取对应的绝对值损失函数;
上述技术方案的有益效果为:通过检验出信用数据的分布类别,做出有针对性的函数选择,挑选最合适的损失函数,提高了损失函数的有效性。
实施例5:
在一个实施例中,所述步骤S04包括:
基于所述信用分值,筛选出对应的分箱截断点;
基于预设的信用惩罚模型对分箱截断点进行约束计算,生成约束特征值;其中,
所述约束特征值为:在预设约束条件内的信用分值所对应的分箱特征值;
基于预设的分组最小角回归算法,对所述约束特征值对应的约束特征进行特征筛选,获取信用预测特征,并基于所述信用预测特征,建立信用预测模型;其中,
所述分组最小角回归算法包括特征筛选回归分析和正则化回归分析;
上述技术方案的工作原理为:与现有技术方案中进行单一惩罚和约束不同,上述技术方案中,根据信用分值筛选出分箱截断点;再用信用惩罚模型对分箱截断点进行约束计算,计算出对应的约束特征值,包括:在预设约束条件内的信用分值所对应的分箱特征值;
还要根据预设的分组最小角回归算法,包括特征筛选回归分析和正则化回归分析,再筛选约束特征值对应的约束特征,选出信用预测特征,以此为基础,建立信用预测模型;
上述技术方案的有益效果为:通过分箱截断点,缩小了惩罚模型进行约束计算的范围,提高了计算效率,并通过分组最小角回归算法提高了信用特征筛选的准确性和对信用数据处理的完整性。
实施例6:
在一个实施例中,所述步骤S05包括:
通过获取信用预测模型的模型类别,并根据所述模型类别,确定信用预测模型对应的信用优化算法;其中,
所述信用优化算法包括:凸优化、最小二乘法、最优权衡法;
通过所述信用优化算法对所述信用预测模型求解,生成信用预测模型对应的模型参数;
通过对所述模型参数进行参数筛选,确定信用参数;
上述技术方案的工作原理为:先检测信用预测模型的模型类别,再确定出信用预测模型应该采用的信用优化算法,包括:凸优化、最小二乘法、最优权衡法;从其中选出最适合当前模型用的,然后,按照选取的信用优化算法求解信用预测模型,计算出信用预测模型对应的模型参数,最后对筛选模型参数,获取信用参数;
上述技术方案的有益效果为:通过精准的检测模型的类别,根据类别进行不同优化,除此外,通过求解对应的模型参数,再从中筛选信用参数,保证了信用参数在信用评估过程中的有效作用。
实施例7:
在一个实施例中,所述信用损失函数包括负对数似然函数、均方误差损失函数和绝对值损失函数,包括:
所述负对数似然函数用于计算独立分布的不同类别的信用特征对应的信用分值;
所述均方误差损失函数用于通过梯度下降的方法计算出对应的信用分值;
所述绝对值损失函数用于根据信用预测值与信用目标值的绝对值来计算信用分值;
上述技术方案的工作原理为:与现有技术方案中采取单一的损失函数不同,上述技术方案中,通过负对数似然函数,来计算不同类别的信用特征对应的信用分值,其中,这些信用特征需要为独立分布的状态;其次,用均方误差损失函数进行梯度下降法,从而计算信用分值;最后,绝对值损失函数可以根据信用预测值与信用目标值的绝对值进行分析,从而确定信用分值
上述技术方案的有益效果为:通过不同的损失函数,扩大了信用评估的适用范围,同时提高了评估准确性。
实施例8:
在一个实施例中,所述基于预设的分组最小角回归算法,对所述约束特征值对应的约束特征进行特征筛选,获取信用预测特征,并基于所述信用预测特征,建立信用预测模型,包括:
基于预设的分组最小角回归算法,将约束特征值分为不同的小组,并依次提取每一组的系数,根据预设的系数参照表,将每一组的系数转化为对应的小组变量;
基于所述小组变量进行线形判断,判断小组变量之间是否为多重共线性关系,生成线形判断结果;其中,
当所述线形判断结果为小组变量之间不是多重共线性关系,则对约束特征进行特征筛选,获取信用预测特征;
当所述线形判断结果为小组变量之间是多重共线性关系,则进行相关系数共线判断;其中,
当所述相关系数在预设的阈值范围内时,则为正常情况;
当所述相关系数不在预设的阈值范围内时,则为严重共线,进行预设的特征清理;
上述技术方案的工作原理为:一般进行算法约束时,进行一次判断约束即可,而上述技术方案中,通过预设的分组最小角回归算法,可以把约束特征值分为不同的小组,然后再依次的提取出每一组的系数,根据预设的系数参照表,分别将每一组的系数转化为对应的小组变量,有多少小组就有多少对应的小组变量,然后判断小组变量之间有没有多重共线性关系,如果不是多重共线性关系,那么筛选约束特征,获得信用预测特征;如果是多重共线性关系,那么判断相关系数;如果相关系数在预设的阈值范围内时,则为正常情况;如果不在,那么为为严重共线,需要进行清理;
上述技术方案的有益效果为:通过多重线性判断,提高了信用分析的准确性,通过第二次相关系数判断,扩大了安全范围。
实施例9:
在一个实施例中,所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值,包括:
将获取到的信用特征进行分组,获取t组信用特征变量组{x1,x2,…,xt},计算变量预测权重μ:
其中,μi为信用特征变量组中第i组信用特征变量的变量预测权重,为ri=1在整体数据中占的比例,为ri=0在整体数据中占的比例,ri为信用特征变量中第i个变量,ri=1为信用特征变量中第i个变量ri对预测产生影响,ri=0为信用特征变量中第i个变量ri对预测不产生影响,li为特征变量中第i个变量ri所对应的有影响变量的数量,ε1为第一预测影响参数;
根据所述变量预测权重μ,计算变量存在预测影响的概率:
其中,为信用特征变量组中第i组信用特征变量产生预测影响的概率,为信用特征变量组中第i组信用特征变量不产生预测影响的概率,ε2为第二预测影响参数,e为自然底数,α为预测系数,xi为信用特征变量组中的第i组信用特征变量;
根据所述变量存在预测影响的概率,建立分箱回归的目标函数,并确定分箱信用特征值:
其中,ξ(α)为分箱回归的目标函数,t为变量组总数,且1<t;
上述技术方案的工作原理为:首先,对获取到的信用特征分组,确定好信用特征变量组,同时计算变量预测权重;根据变量预测权重,可以计算变量存在预测影响的概率;根据计算出的变量存在预测影响的概率,建立分箱回归的目标函数,最后确定分箱信用特征值;
上述技术方案的有益效果为:通过对信用特征变量中对信用评估有影响的变量进行分析计算,提高了评估效率和评估变量的可视化。
实施例10:
在一个实施例中,所述基于分箱信用数据和预设的矩阵分组数据,确定分箱信用矩阵,包括:
基于分箱信用数据计算分箱信用划分矩阵;
基于所述分箱信用划分矩阵和预设的矩阵分组数据,进行矩阵更新,生成分箱更新矩阵;
基于所述分箱更新矩阵和预设的矩阵参照表,计算分箱值,并进行判断,获取判断结果;其中,
当所述分箱值在预设的阈值范围内时,则将所述分箱更新矩阵作为分箱信用矩阵;
当所述分箱值不在预设的阈值范围内时,则对所述分箱更新矩阵继续进行矩阵更新,直到对应的分箱值在预设的阈值范围内;
上述技术方案的工作原理为:首先,通过分箱信用数据,可以获得分箱信用划分矩阵;其次,根据分箱信用划分矩阵,结合预设的矩阵分组数据,可以对矩阵进行更新,从而生成分箱更新矩阵;再通过分箱更新矩阵和预设的矩阵参照表进行对照,计算出分箱值,判断分箱值在不在预设的阈值范围内,如果在,那么把分箱更新矩阵作为分箱信用矩阵;如果不在,那么继续更新矩阵,直到对应的分箱值在预设的阈值范围内;
上述技术方案的有益效果为:通过对分箱信用数据进行矩阵划分和更新,提高了分箱信用数据的有效率和准确度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种分箱回归下的变量选择及参数估计方法,包括:
步骤S01:通过对采集的初始信用数据进行分箱处理,生成分箱信用数据;
步骤S02:通过提取所述分箱信用数据的分箱信用特征变量,并计算分箱信用特征值;
步骤S03:通过所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值;
步骤S04:通过所述信用分值和预设的分组最小角回归算法,筛选信用预测特征变量,并建立信用预测模型;
步骤S05:通过预设的信用优化算法对信用预测模型的进行求解,确定信用参数。
2.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述步骤S01包括:
通过对采集的初始信用数据进行数据分类,确定第一信用数据,所述第一信用数据为连续性信用数据;
通过所述第一信用数据和预设的分箱条件数据表,确定对应的分箱方式;其中,
所述分箱方式包括:哑变量方式、独热编码方式;
通过所述分箱方式对第一信用数据进行分箱处理,生成分箱信用数据。
3.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述步骤S02包括:
基于分箱信用数据和预设的矩阵分组数据,确定分箱信用矩阵;
基于所述分箱信用矩阵和预设的卷积对照表,确定对应的卷积核;
基于所述卷积核对分箱信用矩阵进行分箱卷积,提取对应的分箱信用特征变量;
基于所述分箱信用特征变量,生成分箱特征值矩阵,并根据所述分箱信用特征值矩阵,计算分箱信用特征值。
4.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述步骤S03包括:
根据分箱信用特征值对分箱信用数据进行分布检验,确定分箱信用分布类别;其中,
所述分布类别包括:伯努利分布、高斯分布、拉普拉斯分布;
根据所述分箱信用分布类别和预设的分布函数对照库进行函数判断,确定对应的信用损失函数,并根据所述信用损失函数计算出信用特征值对应的信用分值;其中,
所述信用损失函数包括负对数似然函数、均方误差损失函数和绝对值损失函数;
当所述分箱信用分布类别为伯努利分布时,则获取对应的负对数似然函数;
当所述分箱信用分布类别为高斯分布时,则获取对应的均方误差损失函数;
当所述分箱信用分布类别为拉普拉斯分布时,则获取对应的绝对值损失函数。
5.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述步骤S04包括:
基于所述信用分值,筛选出对应的分箱截断点;
基于预设的信用惩罚模型对分箱截断点进行约束计算,生成约束特征值;其中,
所述约束特征值为:在预设约束条件内的信用分值所对应的分箱特征值;
基于预设的分组最小角回归算法,对所述约束特征值对应的约束特征进行特征筛选,获取信用预测特征,并基于所述信用预测特征,建立信用预测模型;其中,
所述分组最小角回归算法包括特征筛选回归分析和正则化回归分析。
6.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述步骤S05包括:
通过获取信用预测模型的模型类别,并根据所述模型类别,确定信用预测模型对应的信用优化算法;其中,
所述信用优化算法包括:凸优化、最小二乘法、最优权衡法;
通过所述信用优化算法对所述信用预测模型求解,生成信用预测模型对应的模型参数;
通过对所述模型参数进行参数筛选,确定信用参数。
7.如权利要求4所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述信用损失函数包括负对数似然函数、均方误差损失函数和绝对值损失函数,包括:
所述负对数似然函数用于计算独立分布的不同类别的信用特征对应的信用分值;
所述均方误差损失函数用于通过梯度下降的方法计算出对应的信用分值;
所述绝对值损失函数用于根据信用预测值与信用目标值的绝对值来计算信用分值。
8.如权利要求5所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述基于预设的分组最小角回归算法,对所述约束特征值对应的约束特征进行特征筛选,获取信用预测特征,并基于所述信用预测特征,建立信用预测模型,包括:
基于预设的分组最小角回归算法,将约束特征值分为不同的小组,并依次提取每一组的系数,根据预设的系数参照表,将每一组的系数转化为对应的小组变量;
基于所述小组变量进行线形判断,判断小组变量之间是否为多重共线性关系,生成线形判断结果;其中,
当所述线形判断结果为小组变量之间不是多重共线性关系,则对约束特征进行特征筛选,获取信用预测特征;
当所述线形判断结果为小组变量之间是多重共线性关系,则进行相关系数共线判断;其中,
当所述相关系数在预设的阈值范围内时,则为正常情况;
当所述相关系数不在预设的阈值范围内时,则为严重共线,进行预设的特征清理。
9.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述分箱信用特征值和预设的信用损失函数,计算所述信用特征值对应的信用分值,包括:
将获取到的信用特征进行分组,获取信用特征变量组,并计算变量预测权重;
根据所述变量预测权重,计算变量存在预测影响的概率;
根据所述变量存在预测影响的概率,建立分箱回归的目标函数,并确定分箱信用特征值。
10.如权利要求1所述的一种分箱回归下的变量选择及参数估计方法,其特征在于,所述基于分箱信用数据和预设的矩阵分组数据,确定分箱信用矩阵,包括:
基于分箱信用数据计算分箱信用划分矩阵;
基于所述分箱信用划分矩阵和预设的矩阵分组数据,进行矩阵更新,生成分箱更新矩阵;
基于所述分箱更新矩阵和预设的矩阵参照表,计算分箱值,并进行判断,获取判断结果;其中,
当所述分箱值在预设的阈值范围内时,则将所述分箱更新矩阵作为分箱信用矩阵;
当所述分箱值不在预设的阈值范围内时,则对所述分箱更新矩阵继续进行矩阵更新,直到对应的分箱值在预设的阈值范围内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310002700.3A CN116012143B (zh) | 2023-01-03 | 2023-01-03 | 一种分箱回归下的变量选择及参数估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310002700.3A CN116012143B (zh) | 2023-01-03 | 2023-01-03 | 一种分箱回归下的变量选择及参数估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116012143A true CN116012143A (zh) | 2023-04-25 |
CN116012143B CN116012143B (zh) | 2023-10-13 |
Family
ID=86029644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310002700.3A Active CN116012143B (zh) | 2023-01-03 | 2023-01-03 | 一种分箱回归下的变量选择及参数估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116012143B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082469A1 (en) * | 2008-09-30 | 2010-04-01 | Sas Institute Inc. | Constrained Optimized Binning For Scorecards |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN111507824A (zh) * | 2020-04-15 | 2020-08-07 | 上海勃池信息技术有限公司 | 风控模型入模变量最小熵分箱方法 |
CN114022269A (zh) * | 2021-10-28 | 2022-02-08 | 江苏未至科技股份有限公司 | 一种公共信用领域企业信用风险评估方法 |
CN114140013A (zh) * | 2021-12-08 | 2022-03-04 | 重庆誉存大数据科技有限公司 | 一种基于xgboost的评分卡生成方法、装置及设备 |
CN115271907A (zh) * | 2022-06-24 | 2022-11-01 | 数库(上海)科技有限公司 | 基于公开数据对中小微企业评价的方法及相关设备 |
-
2023
- 2023-01-03 CN CN202310002700.3A patent/CN116012143B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082469A1 (en) * | 2008-09-30 | 2010-04-01 | Sas Institute Inc. | Constrained Optimized Binning For Scorecards |
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN111507824A (zh) * | 2020-04-15 | 2020-08-07 | 上海勃池信息技术有限公司 | 风控模型入模变量最小熵分箱方法 |
CN114022269A (zh) * | 2021-10-28 | 2022-02-08 | 江苏未至科技股份有限公司 | 一种公共信用领域企业信用风险评估方法 |
CN114140013A (zh) * | 2021-12-08 | 2022-03-04 | 重庆誉存大数据科技有限公司 | 一种基于xgboost的评分卡生成方法、装置及设备 |
CN115271907A (zh) * | 2022-06-24 | 2022-11-01 | 数库(上海)科技有限公司 | 基于公开数据对中小微企业评价的方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116012143B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20030033263A1 (en) | Automated learning system | |
CN116108758B (zh) | 滑坡易发性评价方法 | |
CN111090579B (zh) | 基于皮尔森相关性加权关联分类规则的软件缺陷预测方法 | |
CN112801231B (zh) | 用于业务对象分类的决策模型训练方法和装置 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN116737510B (zh) | 一种基于数据分析的键盘智能监测方法及系统 | |
CN114186644A (zh) | 一种基于优化随机森林的缺陷报告严重程度预测方法 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN116881224A (zh) | 一种数据库参数调优方法、装置、设备及存储介质 | |
CN111914943A (zh) | 倾倒式岩溶危岩稳定综合判别的信息向量机方法及装置 | |
CN111507824A (zh) | 风控模型入模变量最小熵分箱方法 | |
CN115145817A (zh) | 一种软件测试方法、装置、设备及可读存储介质 | |
CN112508363B (zh) | 基于深度学习的电力信息系统状态分析方法及装置 | |
KR101462349B1 (ko) | 생산이력 히스토리 매칭의 최적화 방법 | |
CN116012143B (zh) | 一种分箱回归下的变量选择及参数估计方法 | |
CN113177642A (zh) | 一种针对数据不平衡的自动建模系统 | |
Murillo-Morera et al. | A Software Defect-Proneness Prediction Framework: A new approach using genetic algorithms to generate learning schemes. | |
JP6860602B2 (ja) | 汎用人工知能装置及び汎用人工知能プログラム | |
CN110196797B (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
CN111081321B (zh) | 一种cns药物关键特征识别方法 | |
CN114334033A (zh) | 抗乳腺癌候选药物分子描述符的筛选方法、系统及终端 | |
CN114974462A (zh) | 缓蚀效率预测模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |