CN109325792A - 信用评估变量的分箱方法及分箱装置、设备和存储介质 - Google Patents
信用评估变量的分箱方法及分箱装置、设备和存储介质 Download PDFInfo
- Publication number
- CN109325792A CN109325792A CN201710642944.2A CN201710642944A CN109325792A CN 109325792 A CN109325792 A CN 109325792A CN 201710642944 A CN201710642944 A CN 201710642944A CN 109325792 A CN109325792 A CN 109325792A
- Authority
- CN
- China
- Prior art keywords
- branch mailbox
- credit evaluation
- sample
- case
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 245
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000926 separation method Methods 0.000 title claims abstract description 17
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004064 recycling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 230000005484 gravity Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 101100311460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sum2 gene Proteins 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003455 independent Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0217—Discounts or incentives, e.g. coupons or rebates involving input on products or services in exchange for incentives or rewards
- G06Q30/0218—Discounts or incentives, e.g. coupons or rebates involving input on products or services in exchange for incentives or rewards based on score
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Complex Calculations (AREA)
Abstract
本公开实施例提出了一种信用评估变量的分箱方法及分箱装置、计算机设备和计算机可读存储介质,方法包括:判断每个待分箱的信用评估变量是连续变量还是离散变量;当判定信用评估变量为连续变量时,根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;当判定信用评估变量为离散变量时,将信用评估变量的各样本数据分别作为一个箱,并基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;计算最优分箱结果的统计数据并进行输出。该实施例能提高分箱效率和准确性。
Description
技术领域
本公开实施例涉及变量信用评估技术领域,具体而言,涉及信用评估变量的分箱方法、信用评估变量的分箱装置、计算机设备和计算机可读存储介质。
背景技术
目前,在信用风险评估领域,当使用逻辑回归、决策树等模型方法构建评分模型时,需要在将自变量输入模型之前,对自变量进行筛选,而筛选的重要标准是自变量对目标变量的影响程度,其中,分箱是根据自变量对目标变量的影响程度,对自变量指标区间进行划分,最终得到对目标变量影响最大的自变量,以及每个自变量的合理区间划分;同时,由于制作评分卡的精细化要求,通常会在建立评分模型时将自变量做离散化处理。
现有的对网约车平台用户信用评分,包括对司机和乘客的信用评分,都在使用分箱来筛选变量,同时进行变量区间离散化。但是,对于几十上百个的自变量以及上万甚至上百万条的样本数据,采用手动计算的处理方式工作量十分巨大,甚至需要有相关理论知识的人经过几天的时间才能完成,不仅有时候实操性差,而且发生错误的概率也比较高。
另外,业内已有的R软件(一种完整的数据处理、计算和制图软件系统)中的smbinning函数(自动分箱函数)对于连续变量的分箱(bin)效果比较好,而对于离散变量分箱就时常不理想,往往会出现分箱结果只有一两个箱的情况,这对于实际信用模型可用性不高。同时,对于大数据量的处理运算速度十分缓慢,只适用于小样本的统计分析,对大数据的实际处理并不适用。
因此,如何更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,同时改善分箱效果。
发明内容
本公开实施例正是基于上述问题,提出了一种新的技术方案,通过针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,同时改善分箱效果。
有鉴于此,根据本公开实施例的第一方面,提出了一种信用评估变量的分箱方法,包括:判断每个待分箱的信用评估变量是连续变量还是离散变量;当信用评估变量为连续变量时,根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;当信用评估变量为离散变量时,将信用评估变量的各样本数据分别作为一个箱,并基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;计算最优分箱结果的统计数据并进行输出。
在该技术方案中,为了更好地进行信用评估,需要筛选信用评估变量,其依据的标准是根据各信用评估变量对目标评估变量的影响程度,得到对目标评估变量影响最大的信用评估变量,即得到各信用评估变量的最佳分箱结果,为了达到前述目的,具体地可以根据每个待分箱的信用评估变量的变量类型适配不同分箱方案并根据不同分箱方案下信用评估变量对目标评估变量的影响选出最优分箱结果,即充分考虑信用评估变量是连续变量还是离散变量,若为连续变量,需要根据该信用评估变量的取值分布情况对其样本数据进行离散化,即首先将该信用评估变量的样本数据初始化为样本量均匀的多个样本区间,并将每个样本区间分别作为一个箱,即初始化为多个样本量均匀的箱,进而对该多个箱进行分箱处理得到该信用评估变量的最优分箱结果;而作为分箱的另一个分支,当信用评估变量为离散变量时,则可以将其每个样本数据均作为一个箱,并对得到的所有箱得到进行分箱处理得到该信用评估变量的最优分箱结果;进一步地,则可以将信用评估变量的最优分箱结果的统计数据输出呈现给用户,如此,通过针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,以及提升了分箱速度,同时有效地改善了分箱效果。
其中,通过将连续型的信用评估变量的样本数据初始化为样本量均匀的样本区间,可以避免采用按值平均分割得到初始化的样本区间的方式导致各样本区间之间分布不均匀的情况出现,避免了与样本区间对应的箱中的样本数过少甚至没有的情况。
在上述技术方案中,优选地,基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果的步骤包括:对预设个数的箱进行合并的排列组合处理;对于经排列组合处理得到的所有分箱集合中的每个分箱集合,将其包含的所有箱中的样本数据个数小于第一预设阈值的箱过滤掉,得到对应的目标分箱集合;计算每个目标分箱集合的IV值,并按照各目标分箱集合对应的IV值大小对所有目标分箱集合进行降序排列;依次判断经降序排列的每个目标分箱集合是否满足第一预设约束条件,并将第一个满足第一预设约束条件的目标分箱集合作为信用评估变量的最优分箱结果。
在该技术方案中,当信用评估变量为连续变量时,对基于划分其样本数据得到的预设个数的箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:首先找出该多个箱所有可能的合并方案,即对该多个箱进行排列组合得到合并后的所有可能的分箱集合;然后对于每个分箱集合,对其中包含的所有箱进行过滤,即将每个分箱集合中样本数据个数小于第一预设阈值的箱过滤掉,实现对每个分箱集合的精简,分别形成对应的目标分箱集合;继而可以依据每个目标分箱集合的IV值的大小对所有的目标集合进行降序排列,以便于用户方便地进行变量筛选,最后将降序排序后的所有目标分箱集合中第一个满足第一预设约束条件的目标分箱集合作为该信用评估变量的最优分箱结果,如此分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
在上述任一技术方案中,优选地,计算每个目标分箱集合的IV值的步骤包括:统计每个目标分箱集合包含的每个箱的正常样本数和违约样本数;将每个箱的正常样本数和违约样本数分别加和确定每个目标分箱集合的正常样本总量和违约样本总量;根据每个箱的正常样本数和违约样本数、每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的WOE值;根据每个箱的WOE值、正常样本数和违约样本数以及每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的IV值;将每个箱的IV值与每个箱的正常样本量和违约样本量的比值的乘积加和得到每个目标分箱集合的IV值;以及第一预设约束条件为:每个目标分箱集合中每个箱对应的WOE值单调有序,以及每个目标分箱集合中每两个箱的WOE值的差值的绝对值大于第二预设阈值。
在该技术方案中,具体可以通过以下方案计算每个目标分箱集合的IV值,首先确定每个目标分箱集合包含的所有箱中每个箱的正常样本数和违约样本数,并基于此加和得到每个目标分箱集合的正常样本总量和违约样本总量,以通过计算得到每个箱的WOE值,然后可以通过计算得到每个箱的IV值,继而将每个箱的正常样本量和违约样本量的比值作为其IV值的比重系数,通过将每个目标分箱集合中的所有箱各自的IV值及其比重系数的乘积进行加和得到对应目标分箱集合的IV值,从而可以根据各目标分箱集合的IV值实现降序排列,有效地确保了排序结果的准确性和可靠性。
进一步地,当信用评估变量为连续变量时,为了得到其最优分箱结果,从而筛选出有助于信用评估结果预测准确性的变量,能够作为最优分箱结果的目标分箱集合需至少满足:该目标分箱集合中包含的所有箱对应的所有WOE值应单调有序,单调上升或单调下降,且所有箱中任意两个箱的WOE值的差值的绝对值应大于第二预设阈值,以避免各箱的WOE值过于近似。
在上述任一技术方案中,优选地,基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果的步骤包括:循环将所有箱中样本数据的个数最小的两个箱进行合并,直到经合并处理后的所有目标箱中的样本数据的个数均大于或等于第三预设阈值或经多次合并处理后仅余两个目标箱;在循环将所有箱中样本数据的个数最小的两个箱进行合并的过程中,分别计算每个箱的WOE值,将WOE值的差值的绝对值小于或等于第四预设阈值的样本数据的个数最小的最新的两个箱合并,直到经合并处理得到的每两个目标箱的WOE值的差值的绝对值均大于第四预设阈值:将合并完成得到的目标箱的集合作为信用评估变量的最优分箱结果。
该技术方案中,当信用评估变量为离散变量时,对基于其所有样本数据对应的所有箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:对所有箱进行合并操作,合并过程中始终将剩余所有箱中样本数据的个数最小的两个箱进行合并,直到经合并后得到的所有目标箱中每个目标箱的样本数据的个数均达到第三预设阈值时停止合并或者直到经合并处理后仅剩下两个目标箱时停止合并,进一步为了确保分箱结果,在循环合并箱的过程中,同时要考虑每个箱的WOE值,即当样本数据的个数最小的两个箱各自的WOE值之间的差值的绝对值小于或等于第四预设阈值时执行两个箱的合并操作,直至经合并得到的所有目标箱中任意两个目标箱各自的WOE值之间的差值的绝对值大于该第四预设阈值时停止,继而将经合并处理得到所有符合条件的目标箱的集合作为信用评估变量的最优分箱结果,如此,分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
在上述任一技术方案中,优选地,在计算每个箱的WOE值的过程中,若每个箱的正常样本量或违约样本量为0,则将其值调整为1。
在该技术方案中,为了避免在计算每个箱的WOE值时出现WOE为无穷大的情况,可以在计算之前核实每个箱包含的正常样本量和违约样本量,若正常样本量或违约样本量为0,则将其调整为1后开始计算。
在上述任一技术方案中,优选地,在根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间的过程中,当信用评估变量的样本数据取值为0或为空集时,将样本数据作为一个单独的样本空间。
在该技术方案中,当信用评估变量为连续变量,在将其样本数据进行初始样本区间划分得到样本量均匀的样本区间的过程中,若输入的变量的样本数据为0或为空集,则将其初始化作为一个单独的样本空间,然后再基于初始化得到的预设个数的样本空间进行合并的迭代处理,以确保分箱结果的准确性和可靠性。
根据本公开实施例的第二方面,提出了一种信用评估变量的分箱装置,包括:判断模块,用于判断每个待分箱的信用评估变量是连续变量还是离散变量;第一分箱模块,用于当判断模块判定信用评估变量为连续变量时,根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;第二分箱模块,用于当判断模块判定信用评估变量为离散变量时,将信用评估变量的各样本数据分别作为一个箱,并基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;处理模块,用于计算最优分箱结果的统计数据并进行输出。
在该技术方案中,为了更好地进行信用评估,需要筛选信用评估变量,其依据的标准是根据各信用评估变量对目标评估变量的影响程度,得到对目标评估变量影响最大的信用评估变量,即得到各信用评估变量的最佳分箱结果,为了达到前述目的,具体地可以根据每个待分箱的信用评估变量的变量类型适配不同分箱方案并根据不同分箱方案下信用评估变量对目标评估变量的影响选出最优分箱结果,即充分考虑信用评估变量是连续变量还是离散变量,若为连续变量,需要根据该信用评估变量的取值分布情况对其样本数据进行离散化,即首先将该信用评估变量的样本数据初始化为样本量均匀的多个样本区间,并将每个样本区间分别作为一个箱,即初始化为多个样本量均匀的箱,进而对该多个箱进行分箱处理得到该信用评估变量的最优分箱结果;而作为分箱的另一个分支,当信用评估变量为离散变量时,则可以将其每个样本数据均作为一个箱,并对得到的所有箱得到进行分箱处理得到该信用评估变量的最优分箱结果;进一步地,则可以将信用评估变量的最优分箱结果的统计数据输出呈现给用户,如此,通过针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,以及提升了分箱速度,同时有效地改善了分箱效果。
其中,通过将连续型的信用评估变量的样本数据初始化为样本量均匀的样本区间,可以避免采用按值平均分割得到初始化的样本区间的方式导致各样本区间之间分布不均匀的情况出现,避免了与样本区间对应的箱中的样本数过少甚至没有的情况。
在上述技术方案中,优选地,第一分箱模块具体包括:第一合并子模块,用于对预设个数的箱进行合并的排列组合处理;过滤子模块,用于对于经第一合并子模块排列组合处理得到的所有分箱集合中的每个分箱集合,将其包含的所有箱中的样本数据个数小于第一预设阈值的箱过滤掉,得到对应的目标分箱集合;计算子模块,用于计算每个目标分箱集合的IV值,并按照各目标分箱集合对应的IV值大小对所有目标分箱集合进行降序排列;判断子模块,用于依次判断经降序排列的每个目标分箱集合是否满足第一预设约束条件,并将第一个满足第一预设约束条件的目标分箱集合作为信用评估变量的最优分箱结果。
在该技术方案中,当信用评估变量为连续变量时,对基于划分其样本数据得到的预设个数的箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:首先找出该多个箱所有可能的合并方案,即对该多个箱进行排列组合得到合并后的所有可能的分箱集合;然后对于每个分箱集合,对其中包含的所有箱进行过滤,即将每个分箱集合中样本数据个数小于第一预设阈值的箱过滤掉,实现对每个分箱集合的精简,分别形成对应的目标分箱集合;继而可以依据每个目标分箱集合的IV值的大小对所有的目标集合进行降序排列,以便于用户方便地进行变量筛选,最后将降序排序后的所有目标分箱集合中第一个满足第一预设约束条件的目标分箱集合作为该信用评估变量的最优分箱结果,如此分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
在上述任一技术方案中,优选地,计算子模块具体用于:统计每个目标分箱集合包含的每个箱的正常样本数和违约样本数;将每个箱的正常样本数和违约样本数分别加和确定每个目标分箱集合的正常样本总量和违约样本总量;根据每个箱的正常样本数和违约样本数、每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的WOE值;根据每个箱的WOE值、正常样本数和违约样本数以及每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的IV值;将每个箱的IV值与每个箱的正常样本量和违约样本量的比值的乘积加和得到每个目标分箱集合的IV值;以及第一预设约束条件为:每个目标分箱集合中每个箱对应的WOE值单调有序,以及每个目标分箱集合中每两个箱的WOE值的差值的绝对值大于第二预设阈值。
在该技术方案中,具体可以通过以下方案计算每个目标分箱集合的IV值,首先确定每个目标分箱集合包含的所有箱中每个箱的正常样本数和违约样本数,并基于此加和得到每个目标分箱集合的正常样本总量和违约样本总量,以通过计算得到每个箱的WOE值,然后可以通过计算得到每个箱的IV值,继而将每个箱的正常样本量和违约样本量的比值作为其IV值的比重系数,通过将每个目标分箱集合中的所有箱各自的IV值及其比重系数的乘积进行加和得到对应目标分箱集合的IV值,从而可以根据各目标分箱集合的IV值实现降序排列,有效地确保了排序结果的准确性和可靠性。
进一步地,当信用评估变量为连续变量时,为了得到其最优分箱结果,从而筛选出有助于信用评估结果预测准确性的变量,能够作为最优分箱结果的目标分箱集合需至少满足:该目标分箱集合中包含的所有箱对应的所有WOE值应单调有序,单调上升或单调下降,且所有箱中任意两个箱的WOE值的差值的绝对值应大于第二预设阈值,以避免各箱的WOE值过于近似。
在上述任一技术方案中,优选地,第二分箱模块具体包括:第二合并子模块,用于循环将所有箱中样本数据的个数最小的两个箱进行合并,直到经合并处理后的所有目标箱中的样本数据的个数均大于或等于第三预设阈值或经多次合并处理后仅余两个目标箱;第三合并子模块,用于在循环将所有箱中样本数据的个数最小的两个箱进行合并的过程中,分别计算每个箱的WOE值,将WOE值的差值的绝对值小于或等于第四预设阈值的样本数据的个数最小的最新的两个箱合并,直到经合并处理得到的每两个目标箱的WOE值的差值的绝对值均大于第四预设阈值:确定子模块,用于将合并完成得到的目标箱的集合作为信用评估变量的最优分箱结果。
该技术方案中,当信用评估变量为离散变量时,对基于其所有样本数据对应的所有箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:对所有箱进行合并操作,合并过程中始终将剩余所有箱中样本数据的个数最小的两个箱进行合并,直到经合并后得到的所有目标箱中每个目标箱的样本数据的个数均达到第三预设阈值时停止合并或者直到经合并处理后仅剩下两个目标箱时停止合并,进一步为了确保分箱结果,在循环合并箱的过程中,同时要考虑每个箱的WOE值,即当样本数据的个数最小的两个箱各自的WOE值之间的差值的绝对值小于或等于第四预设阈值时执行两个箱的合并操作,直至经合并得到的所有目标箱中任意两个目标箱各自的WOE值之间的差值的绝对值大于该第四预设阈值时停止,继而将经合并处理得到所有符合条件的目标箱的集合作为信用评估变量的最优分箱结果,如此,分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
在上述任一技术方案中,优选地,信用评估变量的分箱装置还包括:调整模块,用于在计算每个箱的WOE值的过程中,当每个箱的正常样本量或违约样本量为0时,将其值调整为1。
在该技术方案中,为了避免在计算每个箱的WOE值时出现WOE为无穷大的情况,可以在计算之前核实每个箱包含的正常样本量和违约样本量,若正常样本量或违约样本量为0,则将其调整为1后开始计算。
在上述任一技术方案中,优选地,第一分箱模块在根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间的过程中,当信用评估变量的样本数据取值为0或为空集时,将样本数据作为一个单独的样本空间。
在该技术方案中,当信用评估变量为连续变量,在将其样本数据进行初始样本区间划分得到样本量均匀的样本区间的过程中,若输入的变量的样本数据为0或为空集,则将其初始化作为一个单独的样本空间,然后再基于初始化得到的预设个数的样本空间进行合并的迭代处理,以确保分箱结果的准确性和可靠性。
根据本公开实施例的第三方面,提出了一种计算机设备,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述第一方面的技术方案中任一项信用评估变量的分箱方法的步骤。
根据本公开实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面的技术方案中任一项信用评估变量的分箱方法的步骤。
本公开实施例的上述技术方案,通过针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,同时改善分箱效果。
附图说明
图1示出了本公开实施例的信用评估变量的分箱方法的流程示意图;
图2示出了本公开实施例的第一方面的处理得到最优分箱结果的方法流程示意图;
图3示出了本公开实施例的计算每个目标分箱集合的IV值的方法流程示意图;
图4示出了本公开实施例的第二方面的处理得到最优分箱结果的方法流程示意图;
图5示出了本公开实施例的信用评估变量的分箱装置的示意框图;
图6示出了图5所示的第一分箱模块的示意框图;
图7示出了图5所示的第二分箱模块的示意框图;
图8示出了本公开实施例的计算机设备的示意框图。
具体实施方式
为了可以更清楚地理解本公开实施例的上述目的、特征和优点,下面结合附图和具体实施方式对本公开实施例进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开实施例,但是,本公开实施例还可以采用其他不同于在此描述的其他方式来实施,因此,本公开实施例的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图4对本公开实施例的信用评估变量的分箱方法进行详细说明。
如图1所示,根据本公开实施例的信用评估变量的分箱方法,具体包括以下流程步骤:
步骤102,判断每个待分箱的信用评估变量是连续变量还是离散变量。
可以理解的是,为了更好地进行信用评估,需要筛选信用评估变量,其依据的标准是根据各信用评估变量对目标评估变量的影响程度,得到对目标评估变量影响最大的信用评估变量,即得到各信用评估变量的最佳分箱结果,为了达到前述目的,具体地可以根据每个待分箱的信用评估变量的变量类型适配不同分箱方案并根据不同分箱方案下信用评估变量对目标评估变量的影响选出最优分箱结果,即充分考虑信用评估变量是连续变量还是离散变量。
进一步地,根据信用评估变量的类型执行不同的分箱方案的实施例具体如下:
实施例一:信用评估变量为连续变量
步骤104,当信用评估变量为连续变量时,根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果。
可以理解的是,若信用评估变量为连续变量,需要根据该信用评估变量的取值分布情况对其样本数据进行离散化,即首先将该信用评估变量的样本数据初始化为样本量均匀的多个样本区间,并将每个样本区间分别作为一个箱,即初始化为多个样本量均匀的箱,进而对该多个箱进行分箱处理得到该信用评估变量的最优分箱结果。
其中,通过将连续型的信用评估变量的样本数据初始化为样本量均匀的样本区间,可以避免采用按值平均分割得到初始化的样本区间的方式导致各样本区间之间分布不均匀的情况出现,避免了与样本区间对应的箱中的样本数过少甚至没有的情况。
进一步地,在上述实施例中,对于步骤104中的基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果的方案可以具体执行为如图2所示的流程步骤,具体包括:
步骤S20,对预设个数的箱进行合并的排列组合处理。
步骤S22,对于经排列组合处理得到的所有分箱集合中的每个分箱集合,将其包含的所有箱中的样本数据个数小于第一预设阈值的箱过滤掉,得到对应的目标分箱集合。
其中,第一预设阈值可以为信用评估变量的所有样本数据总数的5%。
步骤S24,计算每个目标分箱集合的IV值,并按照各目标分箱集合对应的IV值大小对所有目标分箱集合进行降序排列。
步骤S26,依次判断经降序排列的每个目标分箱集合是否满足第一预设约束条件,并将第一个满足第一预设约束条件的目标分箱集合作为信用评估变量的最优分箱结果。
在该实施例中,当信用评估变量为连续变量时,对基于划分其样本数据得到的预设个数的箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:首先找出该多个箱所有可能的合并方案,即对该多个箱进行排列组合得到合并后的所有可能的分箱集合;然后对于每个分箱集合,对其中包含的所有箱进行过滤,即将每个分箱集合中样本数据个数小于第一预设阈值的箱过滤掉,实现对每个分箱集合的精简,分别形成对应的目标分箱集合;继而可以依据每个目标分箱集合的IV值的大小对所有的目标集合进行降序排列,以便于用户方便地进行变量筛选,最后将降序排序后的所有目标分箱集合中第一个满足第一预设约束条件的目标分箱集合作为该信用评估变量的最优分箱结果,如此分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
进一步地,在上述实施例中,对于步骤S24中的计算每个目标分箱集合的IV值的方案可以具体执行为如图3所示的流程步骤,具体包括:
步骤S240,统计每个目标分箱集合包含的每个箱的正常样本数和违约样本数。
步骤S242,将每个箱的正常样本数和违约样本数分别加和确定每个目标分箱集合的正常样本总量和违约样本总量。
步骤S244,根据每个箱的正常样本数和违约样本数、每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的WOE值。
具体地,其中,t1代表每个箱中的正常样本数,t2代表每个箱中的违约样本数,sum1代表每个目标分箱集合的正常样本总量,sum2代表每个目标分箱集合的违约样本总量,log代表对数函数。
步骤S246,根据每个箱的WOE值、正常样本数和违约样本数以及每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的IV值。
具体地,
步骤S248,将每个箱的IV值与每个箱的正常样本量和违约样本量的比值的乘积加和得到每个目标分箱集合的IV值。
在该实施例中,具体可以通过以下方案计算每个目标分箱集合的IV值,首先确定每个目标分箱集合包含的所有箱中每个箱的正常样本数和违约样本数,并基于此加和得到每个目标分箱集合的正常样本总量和违约样本总量,以通过计算得到每个箱的WOE值,然后可以通过计算得到每个箱的IV值,继而将每个箱的正常样本量和违约样本量的比值作为其IV值的比重系数,通过将每个目标分箱集合中的所有箱各自的IV值及其比重系数的乘积进行加和得到对应目标分箱集合的IV值,从而可以根据各目标分箱集合的IV值实现降序排列,有效地确保了排序结果的准确性和可靠性。
进一步地,在上述实施例中,第一预设约束条件为:每个目标分箱集合中每个箱对应的WOE值单调有序,以及每个目标分箱集合中每两个箱的WOE值的差值的绝对值大于第二预设阈值。
可以理解的是,当信用评估变量为连续变量时,为了得到其最优分箱结果,从而筛选出有助于信用评估结果预测准确性的变量,能够作为最优分箱结果的目标分箱集合需至少满足:该目标分箱集合中包含的所有箱对应的所有WOE值应单调有序,单调上升或单调下降,且所有箱中任意两个箱的WOE值的差值的绝对值应大于第二预设阈值,以避免各箱的WOE值过于近似。
其中,第二预设阈值的取值范围可以为0.01~0.03,优选地可以为0.02。
实施例二:信用评估变量为离散变量
步骤106,当信用评估变量为离散变量时,将信用评估变量的各样本数据分别作为一个箱,并基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果。
可以理解的是,若信用评估变量为离散变脸,则可以将其每个样本数据均作为一个箱,并对得到的所有箱得到进行分箱处理得到该信用评估变量的最优分箱结果。
进一步地,在上述实施例中,对于步骤106中的基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果的方案可以具体执行为如图4所示的流程步骤,具体包括:
步骤S40,环将所有箱中样本数据的个数最小的两个箱进行合并,直到经合并处理后的所有目标箱中的样本数据的个数均大于或等于第三预设阈值或经多次合并处理后仅余两个目标箱。
步骤S42,在循环将所有箱中样本数据的个数最小的两个箱进行合并的过程中,分别计算每个箱的WOE值,将WOE值的差值的绝对值小于或等于第四预设阈值的样本数据的个数最小的最新的两个箱合并,直到经合并处理得到的每两个目标箱的WOE值的差值的绝对值均大于第四预设阈值。
步骤S44,将合并完成得到的目标箱的集合作为信用评估变量的最优分箱结果。
在该实施例中,当信用评估变量为离散变量时,对基于其所有样本数据对应的所有箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:对所有箱进行合并操作,合并过程中始终将剩余所有箱中样本数据的个数最小的两个箱进行合并,直到经合并后得到的所有目标箱中每个目标箱的样本数据的个数均达到第三预设阈值时停止合并或者直到经合并处理后仅剩下两个目标箱时停止合并,进一步为了确保分箱结果,在循环合并箱的过程中,同时要考虑每个箱的WOE值,即当样本数据的个数最小的两个箱各自的WOE值之间的差值的绝对值小于或等于第四预设阈值时执行两个箱的合并操作,直至经合并得到的所有目标箱中任意两个目标箱各自的WOE值之间的差值的绝对值大于该第四预设阈值时停止,继而将经合并处理得到所有符合条件的目标箱的集合作为信用评估变量的最优分箱结果,如此,分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
进一步地,在该实施例中,计算每个箱的WOE值的方式与信用评估变量为连续变量时的计算方式相一致。
其中,第三预设阈值可以为信用评估变量的所有样本数据总数的5%;以及第四预设阈值的取值范围可以为0.01~0.03,优选地可以为0.02。
在根据信用评估变量的变量类型执行完对应的分箱方案得到最优分箱结果后,进一步地,如图1所示,可以执行步骤108:
计算最优分箱结果的统计数据并进行输出。
可以理解的是,可以将信用评估变量的最优分箱结果的统计数据输出呈现给用户,具体地,统计数据可以包括:每个信用评估变量的最优分箱结果的每个箱中不良用户率(即违约样本所占的比例)和/或每个箱中优良用户率(即正常样本所占的比例)的分布条形图,以通过实现对所有信用评估变量的最优分箱结果的自动化批量作图,使用户更加直观地分析数据及查看分箱结果;每个信用评估变量的最优分箱结果的每个箱中违约样本量与正常样本量比例、WOE值、IV值。另外,对于不同的信用评估变量,可以根据各自IV值的大小按降序排列输出。
进一步地,在上述任一实施例中,在计算每个箱的WOE值的过程中,若每个箱的正常样本量或违约样本量为0,则将其值调整为1。
在该实施例中,为了避免在计算每个箱的WOE值时出现WOE为无穷大的情况,可以在计算之前核实每个箱包含的正常样本量和违约样本量,若正常样本量或违约样本量为0,则将其调整为1后开始计算。
进一步地,在上述任一实施例中,在根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间的过程中,当信用评估变量的样本数据取值为0或为空集时,将样本数据作为一个单独的样本空间。
在该实施例中,当信用评估变量为连续变量,在将其样本数据进行初始样本区间划分得到样本量均匀的样本区间的过程中,若输入的变量的样本数据为0或为空集,则将其初始化作为一个单独的样本空间,然后再基于初始化得到的预设个数的样本空间进行合并的迭代处理,以确保分箱结果的准确性和可靠性。
综上实施例所述,通过将分箱算法过程工具化,不仅可以提高建模效率,同时针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,以及提升了分箱速度,有效地改善了分箱效果。
下面结合5至图7对本公开实施例的信用评估变量的分箱装置进行详细说明。
如图5所示,根据本公开实施例的信用评估变量的分箱装置50包括:判断模块502、第一分箱模块504、第二分箱模块506和处理模块508。
其中,判断模块502用于判断每个待分箱的信用评估变量是连续变量还是离散变量;第一分箱模块504用于当判断模块502判定信用评估变量为连续变量时,根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于预设个数的箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;第二分箱模块506用于当判断模块502判定信用评估变量为离散变量时,将信用评估变量的各样本数据分别作为一个箱,并基于所有箱对信用评估变量进行分箱处理,得到信用评估变量的最优分箱结果;处理模块508用于计算最优分箱结果的统计数据并进行输出。
在该实施例中,为了更好地进行信用评估,需要筛选信用评估变量,其依据的标准是根据各信用评估变量对目标评估变量的影响程度,得到对目标评估变量影响最大的信用评估变量,即得到各信用评估变量的最佳分箱结果,为了达到前述目的,具体地可以根据每个待分箱的信用评估变量的变量类型适配不同分箱方案并根据不同分箱方案下信用评估变量对目标评估变量的影响选出最优分箱结果,即充分考虑信用评估变量是连续变量还是离散变量,若为连续变量,需要根据该信用评估变量的取值分布情况对其样本数据进行离散化,即首先将该信用评估变量的样本数据初始化为样本量均匀的多个样本区间,并将每个样本区间分别作为一个箱,即初始化为多个样本量均匀的箱,进而对该多个箱进行分箱处理得到该信用评估变量的最优分箱结果;而作为分箱的另一个分支,当信用评估变量为离散变量时,则可以将其每个样本数据均作为一个箱,并对得到的所有箱得到进行分箱处理得到该信用评估变量的最优分箱结果;进一步地,则可以将信用评估变量的最优分箱结果的统计数据输出呈现给用户,如此,通过针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,以及提升了分箱速度,同时有效地改善了分箱效果。
其中,通过将连续型的信用评估变量的样本数据初始化为样本量均匀的样本区间,可以避免采用按值平均分割得到初始化的样本区间的方式导致各样本区间之间分布不均匀的情况出现,避免了与样本区间对应的箱中的样本数过少甚至没有的情况。
进一步地,可以将信用评估变量的最优分箱结果的统计数据输出呈现给用户,具体地,统计数据可以包括:每个信用评估变量的最优分箱结果的每个箱中不良用户率(即违约样本所占的比例)和/或每个箱中优良用户率(即正常样本所占的比例)的分布条形图,以通过实现对所有信用评估变量的最优分箱结果的自动化批量作图,使用户更加直观地分析数据及查看分箱结果;每个信用评估变量的最优分箱结果的每个箱中违约样本量与正常样本量比例、WOE值、IV值。另外,对于不同的信用评估变量,可以根据各自IV值的大小按降序排列输出。
进一步地,在上述实施例中,第一分箱模块504具体包括:第一合并子模块5042、过滤子模块5044、计算子模块5046和判断子模块5048,如图6所示。
其中,第一合并子模块5042用于对预设个数的箱进行合并的排列组合处理;过滤子模块5044用于对于经第一合并子模块5042排列组合处理得到的所有分箱集合中的每个分箱集合,将其包含的所有箱中的样本数据个数小于第一预设阈值的箱过滤掉,得到对应的目标分箱集合;计算子模块5046用于计算每个目标分箱集合的IV值,并按照各目标分箱集合对应的IV值大小对所有目标分箱集合进行降序排列;判断子模块5048用于依次判断经降序排列的每个目标分箱集合是否满足第一预设约束条件,并将第一个满足第一预设约束条件的目标分箱集合作为信用评估变量的最优分箱结果。
在该实施例中,当信用评估变量为连续变量时,对基于划分其样本数据得到的预设个数的箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:首先找出该多个箱所有可能的合并方案,即对该多个箱进行排列组合得到合并后的所有可能的分箱集合;然后对于每个分箱集合,对其中包含的所有箱进行过滤,即将每个分箱集合中样本数据个数小于第一预设阈值的箱过滤掉,实现对每个分箱集合的精简,分别形成对应的目标分箱集合;继而可以依据每个目标分箱集合的IV值的大小对所有的目标集合进行降序排列,以便于用户方便地进行变量筛选,最后将降序排序后的所有目标分箱集合中第一个满足第一预设约束条件的目标分箱集合作为该信用评估变量的最优分箱结果,如此分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
进一步地,在上述实施例中,计算子模块5046具体用于:统计每个目标分箱集合包含的每个箱的正常样本数和违约样本数;将每个箱的正常样本数和违约样本数分别加和确定每个目标分箱集合的正常样本总量和违约样本总量;根据每个箱的正常样本数和违约样本数、每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的WOE值;根据每个箱的WOE值、正常样本数和违约样本数以及每个目标分箱集合的正常样本总量和违约样本总量计算每个箱的IV值;将每个箱的IV值与每个箱的正常样本量和违约样本量的比值的乘积加和得到每个目标分箱集合的IV值;以及第一预设约束条件为:每个目标分箱集合中每个箱对应的WOE值单调有序,以及每个目标分箱集合中每两个箱的WOE值的差值的绝对值大于第二预设阈值。
在该实施例中,具体可以通过以下方案计算每个目标分箱集合的IV值,首先确定每个目标分箱集合包含的所有箱中每个箱的正常样本数和违约样本数,并基于此加和得到每个目标分箱集合的正常样本总量和违约样本总量,以通过计算得到每个箱的WOE值,然后可以通过计算得到每个箱的IV值,继而将每个箱的正常样本量和违约样本量的比值作为其IV值的比重系数,通过将每个目标分箱集合中的所有箱各自的IV值及其比重系数的乘积进行加和得到对应目标分箱集合的IV值,从而可以根据各目标分箱集合的IV值实现降序排列,有效地确保了排序结果的准确性和可靠性。
进一步地,当信用评估变量为连续变量时,为了得到其最优分箱结果,从而筛选出有助于信用评估结果预测准确性的变量,能够作为最优分箱结果的目标分箱集合需至少满足:该目标分箱集合中包含的所有箱对应的所有WOE值应单调有序,单调上升或单调下降,且所有箱中任意两个箱的WOE值的差值的绝对值应大于第二预设阈值,以避免各箱的WOE值过于近似。
进一步地,在上述实施例中,第二分箱模块506具体包括:第二合并子模块5062、第三合并子模块5064和确定子模块5066,如图7所示。
其中,第二合并子模块5062用于循环将所有箱中样本数据的个数最小的两个箱进行合并,直到经合并处理后的所有目标箱中的样本数据的个数均大于或等于第三预设阈值或经多次合并处理后仅余两个目标箱;第三合并子模块5064用于在循环将所有箱中样本数据的个数最小的两个箱进行合并的过程中,分别计算每个箱的WOE值,将WOE值的差值的绝对值小于或等于第四预设阈值的样本数据的个数最小的最新的两个箱合并,直到经合并处理得到的每两个目标箱的WOE值的差值的绝对值均大于第四预设阈值:确定子模块5066用于将合并完成得到的目标箱的集合作为信用评估变量的最优分箱结果。
在该实施例中,当信用评估变量为离散变量时,对基于其所有样本数据对应的所有箱进行分箱处理得到对应的最优分箱结果的过程,具体可以为:对所有箱进行合并操作,合并过程中始终将剩余所有箱中样本数据的个数最小的两个箱进行合并,直到经合并后得到的所有目标箱中每个目标箱的样本数据的个数均达到第三预设阈值时停止合并或者直到经合并处理后仅剩下两个目标箱时停止合并,进一步为了确保分箱结果,在循环合并箱的过程中,同时要考虑每个箱的WOE值,即当样本数据的个数最小的两个箱各自的WOE值之间的差值的绝对值小于或等于第四预设阈值时执行两个箱的合并操作,直至经合并得到的所有目标箱中任意两个目标箱各自的WOE值之间的差值的绝对值大于该第四预设阈值时停止,继而将经合并处理得到所有符合条件的目标箱的集合作为信用评估变量的最优分箱结果,如此,分箱程序配置简单,对信用评估变量原始的样本数据进行很少的处理即可进行分箱处理,有效地提高了分箱效率及准确性,同时可以改善分箱效果。
进一步地,在上述实施例中,如图5所示,信用评估变量的分箱装置50还包括:调整模块510,用于在计算每个箱的WOE值的过程中,当每个箱的正常样本量或违约样本量为0时,将其值调整为1。
在该实施例中,为了避免在计算每个箱的WOE值时出现WOE为无穷大的情况,可以在计算之前核实每个箱包含的正常样本量和违约样本量,若正常样本量或违约样本量为0,则将其调整为1后开始计算。
进一步地,在上述实施例中,第一分箱模块504在根据信用评估变量的取值分布情况将信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间的过程中,当信用评估变量的样本数据取值为0或为空集时,将样本数据作为一个单独的样本空间。
在该实施例中,当信用评估变量为连续变量,在将其样本数据进行初始样本区间划分得到样本量均匀的样本区间的过程中,若输入的变量的样本数据为0或为空集,则将其初始化作为一个单独的样本空间,然后再基于初始化得到的预设个数的样本空间进行合并的迭代处理,以确保分箱结果的准确性和可靠性。
图8示出了本公开实施例的实施例的计算机设备的示意框图。
如图8所示,根据本公开实施例的实施例的计算机设备80,包括存储器802、处理器804及存储在所述存储器802上并可在所述处理器804上运行的计算机程序,其中存储器802和处理器804之间可以通过总线连接,所述处理器804用于执行存储器802中存储的计算机程序时实现如上述实施例中任一项所述信用评估变量的分箱方法的步骤。
本公开实施例的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本公开实施例的信用评估变量的分箱装置和计算机设备中的单元可以根据实际需要进行合并、划分和删减。
根据本公开实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中任一项所述信用评估变量的分箱方法的步骤。
进一步地,本领域普通技术人员可以理解的是,上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(RandomAccess Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,上述计算机设备可以为PC(Personal Computer,个人电脑)端。
以上结合附图详细说明了本公开实施例的技术方案,通过针对不同类型的信用评估变量自动采取不同的分箱分案以得到对应的最优分箱结果,可以更好地实现自变量筛选的自动化,从而提高分箱的效率和准确性,同时改善分箱效果。
在本公开实施例中,术语“第一”、“第二”、“第三”和“第四”仅用于描述的目的,而不能理解为指示或暗示相对重要性,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开实施例中的具体含义。
以上所述仅为本公开实施例的优选实施例而已,并不用于限制本公开实施例,对于本领域的技术人员来说,本公开实施例可以有各种更改和变化。凡在本公开实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开实施例的保护范围之内。
Claims (14)
1.一种信用评估变量的分箱方法,其特征在于,包括:
判断每个待分箱的信用评估变量是连续变量还是离散变量;
当所述信用评估变量为连续变量时,根据所述信用评估变量的取值分布情况将所述信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于所述预设个数的箱对所述信用评估变量进行分箱处理,得到所述信用评估变量的最优分箱结果;
当所述信用评估变量为离散变量时,将所述信用评估变量的各样本数据分别作为一个箱,并基于所有箱对所述信用评估变量进行分箱处理,得到所述信用评估变量的最优分箱结果;
计算所述最优分箱结果的统计数据并进行输出。
2.根据权利要求1所述的信用评估变量的分箱方法,其特征在于,所述基于所述预设个数的箱对所述信用评估变量进行分箱处理,得到所述信用评估变量的最优分箱结果的步骤包括:
对所述预设个数的箱进行合并的排列组合处理;
对于经排列组合处理得到的所有分箱集合中的每个分箱集合,将其包含的所有箱中的样本数据个数小于第一预设阈值的箱过滤掉,得到对应的目标分箱集合;
计算每个目标分箱集合的IV值,并按照各目标分箱集合对应的IV值大小对所有目标分箱集合进行降序排列;
依次判断经降序排列的所述每个目标分箱集合是否满足第一预设约束条件,并将第一个满足所述第一预设约束条件的目标分箱集合作为所述信用评估变量的最优分箱结果。
3.根据权利要求2所述的信用评估变量的分箱方法,其特征在于,所述计算每个目标分箱集合的IV值的步骤包括:
统计所述每个目标分箱集合包含的每个箱的正常样本数和违约样本数;
将所述每个箱的正常样本数和违约样本数分别加和确定所述每个目标分箱集合的正常样本总量和违约样本总量;
根据所述每个箱的正常样本数和违约样本数、所述每个目标分箱集合的正常样本总量和违约样本总量计算所述每个箱的WOE值;
根据所述每个箱的WOE值、正常样本数和违约样本数以及所述每个目标分箱集合的正常样本总量和违约样本总量计算所述每个箱的IV值;
将所述每个箱的IV值与所述每个箱的正常样本量和违约样本量的比值的乘积加和得到所述每个目标分箱集合的IV值;以及
所述第一预设约束条件为:所述每个目标分箱集合中每个箱对应的WOE值单调有序,以及所述每个目标分箱集合中每两个箱的WOE值的差值的绝对值大于第二预设阈值。
4.根据权利要求1所述的信用评估变量的分箱方法,其特征在于,所述基于所有箱对所述信用评估变量进行分箱处理,得到所述信用评估变量的最优分箱结果的步骤包括:
循环将所述所有箱中样本数据的个数最小的两个箱进行合并,直到经合并处理后的所有目标箱中的样本数据的个数均大于或等于第三预设阈值或经多次合并处理后仅余两个目标箱;
在所述循环将所述所有箱中样本数据的个数最小的两个箱进行合并的过程中,分别计算每个箱的WOE值,将WOE值的差值的绝对值小于或等于第四预设阈值的样本数据的个数最小的最新的两个箱合并,直到经合并处理得到的每两个目标箱的WOE值的差值的绝对值均大于所述第四预设阈值:
将合并完成得到的目标箱的集合作为所述信用评估变量的所述最优分箱结果。
5.根据权利要求3或4所述的信用评估变量的分箱方法,其特征在于,在计算每个箱的WOE值的过程中,若每个箱的正常样本量或违约样本量为0,则将其值调整为1。
6.根据权利要求1至3中任一项所述的信用评估变量的分箱方法,其特征在于,在所述根据所述信用评估变量的取值分布情况将所述信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间的过程中,
当所述信用评估变量的样本数据取值为0或为空集时,将所述样本数据作为一个单独的样本空间。
7.一种信用评估变量的分箱装置,其特征在于,包括:
判断模块,用于判断每个待分箱的信用评估变量是连续变量还是离散变量;
第一分箱模块,用于当所述判断模块判定所述信用评估变量为连续变量时,根据所述信用评估变量的取值分布情况将所述信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间,将每个样本区间分别作为一个箱,并基于所述预设个数的箱对所述信用评估变量进行分箱处理,得到所述信用评估变量的最优分箱结果;
第二分箱模块,用于当所述判断模块判定所述信用评估变量为离散变量时,将所述信用评估变量的各样本数据分别作为一个箱,并基于所有箱对所述信用评估变量进行分箱处理,得到所述信用评估变量的最优分箱结果;
处理模块,用于计算所述最优分箱结果的统计数据并进行输出。
8.根据权利要求7所述的信用评估变量的分箱装置,其特征在于,所述第一分箱模块具体包括:
第一合并子模块,用于对所述预设个数的箱进行合并的排列组合处理;
过滤子模块,用于对于经所述第一合并子模块排列组合处理得到的所有分箱集合中的每个分箱集合,将其包含的所有箱中的样本数据个数小于第一预设阈值的箱过滤掉,得到对应的目标分箱集合;
计算子模块,用于计算每个目标分箱集合的IV值,并按照各目标分箱集合对应的IV值大小对所有目标分箱集合进行降序排列;
判断子模块,用于依次判断经降序排列的所述每个目标分箱集合是否满足第一预设约束条件,并将第一个满足所述第一预设约束条件的目标分箱集合作为所述信用评估变量的最优分箱结果。
9.根据权利要求8所述的信用评估变量的分箱装置,其特征在于,所述计算子模块具体用于:
统计所述每个目标分箱集合包含的每个箱的正常样本数和违约样本数;
将所述每个箱的正常样本数和违约样本数分别加和确定所述每个目标分箱集合的正常样本总量和违约样本总量;
根据所述每个箱的正常样本数和违约样本数、所述每个目标分箱集合的正常样本总量和违约样本总量计算所述每个箱的WOE值;
根据所述每个箱的WOE值、正常样本数和违约样本数以及所述每个目标分箱集合的正常样本总量和违约样本总量计算所述每个箱的IV值;
将所述每个箱的IV值与所述每个箱的正常样本量和违约样本量的比值的乘积加和得到所述每个目标分箱集合的IV值;以及
所述第一预设约束条件为:所述每个目标分箱集合中每个箱对应的WOE值单调有序,以及所述每个目标分箱集合中每两个箱的WOE值的差值的绝对值大于第二预设阈值。
10.根据权利要求7所述的信用评估变量的分箱装置,其特征在于,所述第二分箱模块具体包括:
第二合并子模块,用于循环将所述所有箱中样本数据的个数最小的两个箱进行合并,直到经合并处理后的所有目标箱中的样本数据的个数均大于或等于第三预设阈值或经多次合并处理后仅余两个目标箱;
第三合并子模块,用于在所述循环将所述所有箱中样本数据的个数最小的两个箱进行合并的过程中,分别计算每个箱的WOE值,将WOE值的差值的绝对值小于或等于第四预设阈值的样本数据的个数最小的最新的两个箱合并,直到经合并处理得到的每两个目标箱的WOE值的差值的绝对值均大于所述第四预设阈值:
确定子模块,用于将合并完成得到的目标箱的集合作为所述信用评估变量的所述最优分箱结果。
11.根据权利要求9或10所述的信用评估变量的分箱装置,其特征在于,还包括:
调整模块,用于在计算每个箱的WOE值的过程中,当每个箱的正常样本量或违约样本量为0时,将其值调整为1。
12.根据权利要求7至9中任一项所述的信用评估变量的分箱装置,其特征在于,
所述第一分箱模块在所述根据所述信用评估变量的取值分布情况将所述信用评估变量的样本数据初始化为样本量均匀的预设个数的样本区间的过程中,当所述信用评估变量的样本数据取值为0或为空集时,将所述样本数据作为一个单独的样本空间。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任一项所述的信用评估变量的分箱方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的信用评估变量的分箱方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710642944.2A CN109325792A (zh) | 2017-07-31 | 2017-07-31 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710642944.2A CN109325792A (zh) | 2017-07-31 | 2017-07-31 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109325792A true CN109325792A (zh) | 2019-02-12 |
Family
ID=65244971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710642944.2A Pending CN109325792A (zh) | 2017-07-31 | 2017-07-31 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325792A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196797A (zh) * | 2019-06-06 | 2019-09-03 | 苏宁消费金融有限公司 | 适于信用评分卡系统的自动优化方法和系统 |
CN110765216A (zh) * | 2019-10-22 | 2020-02-07 | 中国银行股份有限公司 | 数据挖掘方法、装置、计算机设备及计算机可读存储介质 |
CN111105144A (zh) * | 2019-11-26 | 2020-05-05 | 苏宁金融科技(南京)有限公司 | 数据处理方法、装置和目标对象风险监控方法 |
CN111507822A (zh) * | 2020-04-13 | 2020-08-07 | 深圳微众信用科技股份有限公司 | 一种基于特征工程的企业风险评估方法 |
CN111723831A (zh) * | 2019-03-20 | 2020-09-29 | 北京嘀嘀无限科技发展有限公司 | 一种数据融合方法及装置 |
CN112215703A (zh) * | 2020-10-21 | 2021-01-12 | 中国银行股份有限公司 | 银行业务数据的分箱方法及系统 |
CN114186628A (zh) * | 2021-12-09 | 2022-03-15 | 百融云创科技股份有限公司 | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 |
CN116012143A (zh) * | 2023-01-03 | 2023-04-25 | 睿智合创(北京)科技有限公司 | 一种分箱回归下的变量选择及参数估计方法 |
-
2017
- 2017-07-31 CN CN201710642944.2A patent/CN109325792A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723831A (zh) * | 2019-03-20 | 2020-09-29 | 北京嘀嘀无限科技发展有限公司 | 一种数据融合方法及装置 |
CN111723831B (zh) * | 2019-03-20 | 2023-11-14 | 北京嘀嘀无限科技发展有限公司 | 一种数据融合方法及装置 |
CN110196797A (zh) * | 2019-06-06 | 2019-09-03 | 苏宁消费金融有限公司 | 适于信用评分卡系统的自动优化方法和系统 |
CN110196797B (zh) * | 2019-06-06 | 2022-08-02 | 苏宁消费金融有限公司 | 适于信用评分卡系统的自动优化方法和系统 |
CN110765216A (zh) * | 2019-10-22 | 2020-02-07 | 中国银行股份有限公司 | 数据挖掘方法、装置、计算机设备及计算机可读存储介质 |
CN111105144A (zh) * | 2019-11-26 | 2020-05-05 | 苏宁金融科技(南京)有限公司 | 数据处理方法、装置和目标对象风险监控方法 |
CN111507822A (zh) * | 2020-04-13 | 2020-08-07 | 深圳微众信用科技股份有限公司 | 一种基于特征工程的企业风险评估方法 |
CN112215703B (zh) * | 2020-10-21 | 2023-10-27 | 中国银行股份有限公司 | 银行业务数据的分箱方法及系统 |
CN112215703A (zh) * | 2020-10-21 | 2021-01-12 | 中国银行股份有限公司 | 银行业务数据的分箱方法及系统 |
CN114186628A (zh) * | 2021-12-09 | 2022-03-15 | 百融云创科技股份有限公司 | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 |
CN114186628B (zh) * | 2021-12-09 | 2022-08-26 | 百融云创科技股份有限公司 | 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统 |
CN116012143B (zh) * | 2023-01-03 | 2023-10-13 | 睿智合创(北京)科技有限公司 | 一种分箱回归下的变量选择及参数估计方法 |
CN116012143A (zh) * | 2023-01-03 | 2023-04-25 | 睿智合创(北京)科技有限公司 | 一种分箱回归下的变量选择及参数估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325792A (zh) | 信用评估变量的分箱方法及分箱装置、设备和存储介质 | |
Wang et al. | How many software metrics should be selected for defect prediction? | |
CN108351985A (zh) | 用于大规模机器学习的方法和装置 | |
CN109117380A (zh) | 一种软件质量评价方法、装置、设备及可读存储介质 | |
CN107714038A (zh) | 一种脑电信号的特征提取方法及装置 | |
US20090259521A1 (en) | Method of Identifying Innovations Possessing Business Disrupting Properties | |
CN109816509A (zh) | 评分卡模型的生成方法、终端设备及介质 | |
CN109599182A (zh) | 一种基因靶向治疗方案推荐系统及相关系统 | |
JP6753622B2 (ja) | 表示制御装置、表示制御方法及び表示制御プログラム | |
CN109818961A (zh) | 一种网络入侵检测方法、装置和设备 | |
CN103365829A (zh) | 信息处理装置、信息处理方法和程序 | |
CN109784377A (zh) | 多重识别模型构建方法、装置、计算机设备及存储介质 | |
CN107292338A (zh) | 一种基于样本特征值分布混淆度的特征选择方法 | |
CN108665270A (zh) | 数据欺诈识别方法、装置、计算机设备和存储介质 | |
CN116109139A (zh) | 风控策略生成方法、决策方法、服务器及存储介质 | |
CN111126627B (zh) | 基于分离度指数的模型训练系统 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
KR101827124B1 (ko) | 운전자의 주행 패턴 인식 시스템 및 방법 | |
CN113077271A (zh) | 一种基于bp神经网络的企业信用评级方法及装置 | |
CN110413682A (zh) | 一种数据的分类展示方法及系统 | |
CN110196797B (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
CN113253976B (zh) | 一种基于游戏记录分析的研发模块构建方法及系统 | |
Mallat et al. | Study, evaluation and classification of decision-making methods for evaluating the QoS in the GPRS network | |
Susetyoko et al. | Characteristics of Accuracy Function on Multiclass Classification Based on Best, Average, and Worst (BAW) Subset of Random Forest Model | |
CN109886797A (zh) | 一种信贷批量审批学习及优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |
|
RJ01 | Rejection of invention patent application after publication |