CN112215703A - 银行业务数据的分箱方法及系统 - Google Patents
银行业务数据的分箱方法及系统 Download PDFInfo
- Publication number
- CN112215703A CN112215703A CN202011130461.2A CN202011130461A CN112215703A CN 112215703 A CN112215703 A CN 112215703A CN 202011130461 A CN202011130461 A CN 202011130461A CN 112215703 A CN112215703 A CN 112215703A
- Authority
- CN
- China
- Prior art keywords
- data
- binning
- boxes
- box
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000009826 distribution Methods 0.000 claims abstract description 50
- 238000000926 separation method Methods 0.000 claims abstract description 35
- 238000013499 data model Methods 0.000 claims abstract description 21
- 238000003860 storage Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种银行业务数据的分箱方法及系统,其中,该方法包括:获取银行业务样本数据,进行预处理;对当前数据特征的数据类型进行判断;若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;若离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型,对数据进行分箱处理;计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并,重新上述合并的步骤,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;依次对每一个数据特征进行分箱,记录所有特征的分箱位置,将分箱位置输出至数据模型,并导出至文件进行保存。
Description
技术领域
本发明涉及银行业务数据处理技术领域,尤指一种银行业务数据的分箱方法及系统。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
机器学习是人工智能的核心研究内容之一,其应用已经渗透到人类社会的各个领域。对于机器学习模型而言,其鲁棒性至关重要,目前针对区间型特征,通常通过分箱处理的方法来增强机器学习模型的鲁棒性。在应用机器学习技术解决银行业务场景相关问题时,具有银行业特有风格特性的数据模型处理工作便成为了一个绕不开的课题。
面对复杂的银行业务数据模型,现有传统的逐条分析的特征工程数据分箱方法需要花费较多的时间和人力成本,对人员的业务背景要求也比较高,对数据本身特点了解不足,可能会比较难开展工作。另一方面,由于数据本身可能包含有特定业务场景的特有性质,以及不同的人员对数据特征理解的出入,采用等频分箱、等距分箱方法,或者凭借经验进行分箱时,分箱点很难达到一个较佳的效果。
综上来看,亟需一种可以克服上述问题且能够改善分箱效果的银行业务数据的分箱方案。
发明内容
为解决现有技术存在的问题,本发明提出了一种银行业务数据的分箱方法及系统;该方法及系统可以在数据集样本数量足够多的前提下,针对离散型特征和连续型特征分别做处理:如果离散型特征的数据分布点数目未超过分箱目标数,则不对此特征进行分箱操作,直接输出结果,如果分布点数目超过分箱数目,则此特征的处理与连续型特征处理基本一致;对于连续型特征,先将样本根据此特征数值排序,再将特征的分布空间进行等频或者等距的切分,切分数目要大于分箱目标数,具体数目可以根据模型情况调整。然后跟聚每个切分子集的卡方值,将临近的卡方值最小的区间进行递归合并,直至切分数目与目标分箱数一致,输出此时的切分情况为分箱点结果。由于引入了数据特征的分布特性,得到的分箱结果也要远高于等频或等距分箱的结果。进而提高在银行业务背景下使用机器学习模型解决具体业务问题时进行数据处理的效率,并提升训练出的机器学习模型的泛化能力。
在本发明实施例的第一方面,提出了一种银行业务数据的分箱方法,该方法包括:
获取银行业务样本数据;
对所述银行业务样本数据进行预处理,得到预处理后的数据;
根据所述预处理后的数据,对当前数据特征的数据类型进行判断;
若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;
若离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型,对数据进行分箱处理并生成初始分箱点位;
根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并;
分箱合并后,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
依次对每一个数据特征进行分箱,记录所有特征的分箱位置,将分箱位置输出至数据模型,并导出至文件进行保存。
在本发明实施例的第二方面,提出了一种银行业务数据的分箱系统,该系统包括:
样本数据获取模块,用于获取银行业务样本数据;
预处理模块,用于对所述银行业务样本数据进行预处理,得到预处理后的数据;
判断模块,用于根据所述预处理后的数据,对当前数据特征的数据类型进行判断;若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;
分箱处理模块,用于在离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型时,对数据进行分箱处理并生成初始分箱点位;
分箱合并模块,用于根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并;在分箱合并后,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
调用所述判断模块、分箱处理模块及分箱合并模块,依次对每一个数据特征进行分箱,记录所有特征的分箱位置;
导出模块,用于将所有特征的分箱位置输出至数据模型,并导出至文件进行保存。
在本发明实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现银行业务数据的分箱方法。
在本发明实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现银行业务数据的分箱方法。
本发明提出的银行业务数据的分箱方法及系统可以自动化的识别并输出数据模型的每个特征的分箱点,分箱的分布根据数据样本分布算出,能够规避人工分箱的个人认识干扰,大大提高了分箱操作的机器学习训练的积极作用;并且还可以实现高度的自动化,让分箱操作简单易用,极度地缩减了特征工程分箱操作的工作量。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例的银行业务数据的分箱方法流程示意图。
图2是本发明一具体实施例的银行业务数据的分箱方法流程示意图。
图3是本发明一实施例的银行业务数据的分箱系统的架构示意图。
图4是本发明一实施例的分箱处理模块的架构示意图。
图5是本发明一实施例的计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种银行业务数据的分箱方法及系统。
在应用机器学习处理银行业务场景的相关数据时,可以采用具有银行业特有风格特性的数据模型;通常,银行业的数据模型具有特征维度高,数据类型种类繁多等特点,针对该些特点,采用机器学习对于完成特征工程工作可以产生积极的作用。进一步的,结合本发明提出的银行业务数据的分箱方法及系统,利用该方法及系统无需对数据模型的特征进行逐个人工分析,就可以对整个数据模型的每个特征高自动化地输出指定数目的分箱点,分箱点根据数据模型本身的数据分布算出,这种分箱方法的效果相较于等频、等距或者人工分箱的通常要更好,且分箱效率更高。
在本发明实施例中,需要说明的术语有:
机器学习:一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
特征工程:在机器学习或者统计学中,又称为变量选择、属性选择或者变量子集选择,是在模型构建中,选择相关特征并构成特征子集的过程。常见的特征处理方法包括标准化、归一化等。
卡方检验:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
离散变量:离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。有些性质上属于连续变量的现象也按整数取值,即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量,但一般按整数计算,按离散变量来处理。
连续变量:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。
数据分箱:数据分箱是指将值划分到离散区间;举例而言,将不同大小的苹果归类到几个事先布置的箱子中;将不同年龄的人划分到几个年龄段中。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明一实施例的银行业务数据的分箱方法流程示意图。如图1所示,该方法包括:
步骤S101,获取银行业务样本数据;
步骤S102,对所述银行业务样本数据进行预处理,得到预处理后的数据;
步骤S103,根据所述预处理后的数据,对当前数据特征的数据类型进行判断;
步骤S104,若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;
步骤S105,若离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型,对数据进行分箱处理并生成初始分箱点位;
步骤S106,根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并;
步骤S107,分箱合并后,重复执行步骤S106,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
其中,目标分箱的个数可以有人为进行设定。
步骤S108,重复执行步骤S103-步骤S107,依次对每一个数据特征进行分箱,记录所有特征的分箱位置,将分箱位置输出至数据模型,并导出至文件进行保存。
为了对上述银行业务数据的分箱方法进行更为清楚的解释,下面结合一个具体的实施例来进行说明,然而值得注意的是该实施例仅是为了更好地说明本发明,并不构成对本发明不当的限定。
参考图2,为本发明一具体实施例的银行业务数据的分箱流程示意图。如图2所示,具体流程为:
步骤S201:
获取银行业务样本数据。
步骤S202:
对所述银行业务样本数据中的缺失值及异常值进行处理,其中,将特征值为空的情况填充为特殊值,将特征值位置偏离样本特征数据分布范围的数据,填充为异常值;
经过填充处理,得到预处理后的数据。
步骤S203:
对当前数据特征的数据类型进行判断。其中,数据类型包括离散型数据及连续型数据。
步骤S204:
若为离散型数据,判断数据分布点数是否大于目标分箱个数;
若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点。
步骤S205:
分析当前特征的取值分布范围,并按照特征值的大小排序数据集;
对数据分布点数大于目标分箱个数的离散型数据,采用等距分箱法进行分箱处理,并生成离散型数据相应的初始分箱点位,在分箱处理后,将空箱进行删除。
对数据类型为连续型的数据,采用等频分箱法进行分箱处理,并生成连续型数据相应的初始分箱点位。
在分箱处理过程中,将异常值和缺失值的特殊值点位单独分箱。
步骤S206:
将分箱按照特征值数量的大小进行排序,并对排序后的分箱依次进行编号,得到初始分箱序列;
根据所述初始分箱点位,计算所述初始分箱序列中相邻编号的两个分箱的卡方值,例如,初始分箱有1、2、3、4、5,则计算12、23、34、45的卡方值;
将具有最小卡方值的两个分箱进行合并。
在合并后,重复上述过程,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
步骤S207:
重复执行步骤S203-步骤S206,依次对每一个数据特征进行分箱,记录所有特征的分箱位置,将分箱位置输出至数据模型,并导出至文件进行保存。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的银行业务数据的分箱系统进行介绍。
银行业务数据的分箱系统的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”或者“单元”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
基于同一发明构思,本发明还提出了一种银行业务数据的分箱系统,如图3所示,该系统包括:
样本数据获取模块310,用于获取银行业务样本数据;
预处理模块320,用于对所述银行业务样本数据进行预处理,得到预处理后的数据;
判断模块330,用于根据所述预处理后的数据,对当前数据特征的数据类型进行判断;若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;
分箱处理模块340,用于在离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型时,对数据进行分箱处理并生成初始分箱点位;
分箱合并模块350,用于根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并;在分箱合并后,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
调用所述判断模块330、分箱处理模块340及分箱合并模块350,依次对每一个数据特征进行分箱,记录所有特征的分箱位置;
导出模块360,用于将所有特征的分箱位置输出至数据模型,并导出至文件进行保存。
在一实施例中,所述预处理模块320具体用于:
对所述银行业务样本数据中的缺失值及异常值进行处理,其中,将特征值为空的情况填充为特殊值,将特征值位置偏离样本特征数据分布范围的数据,填充为异常值;
经过填充处理,得到预处理后的数据。
参考图4,为本发明一实施例的分箱处理模块的架构示意图。如图4所示,分箱处理模块340包括:
离散值分箱单元341,用于对数据分布点数大于目标分箱个数的离散型数据,采用等距分箱法进行分箱处理,并生成离散型数据相应的初始分箱点位;
连续值分箱单元342,用于对数据类型为连续型的数据,采用等频分箱法进行分箱处理,并生成连续型数据相应的初始分箱点位。
在一实施例中,离散值分箱单元341还用于:
将分箱处理后的空箱进行删除。
在一实施例中,分箱合并模块350具体用于:
将分箱按照特征值数量的大小进行排序,并对排序后的分箱依次进行编号,得到初始分箱序列;
根据所述初始分箱点位,计算所述初始分箱序列中相邻编号的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并。
应当注意,尽管在上文详细描述中提及了银行业务数据的分箱系统的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
基于前述发明构思,如图5所示,本发明还提出了一种计算机设备500,包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530,所述处理器520执行所述计算机程序530时实现前述银行业务数据的分箱方法。
基于前述发明构思,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述银行业务数据的分箱方法。
本发明提出的银行业务数据的分箱方法及系统可以自动化的识别并输出数据模型的每个特征的分箱点,分箱的分布根据数据样本分布算出,能够规避人工分箱的个人认识干扰,大大提高了分箱操作的机器学习训练的积极作用;并且还可以实现高度的自动化,让分箱操作简单易用,极度地缩减了特征工程分箱操作的工作量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (12)
1.一种银行业务数据的分箱方法,其特征在于,该方法包括:
获取银行业务样本数据;
对所述银行业务样本数据进行预处理,得到预处理后的数据;
根据所述预处理后的数据,对当前数据特征的进行数据类型的判断;
若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;
若离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型,对数据进行分箱处理并生成初始分箱点位;
根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并;
分箱合并后,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
依次对每一个数据特征进行分箱,记录所有特征的分箱位置,将分箱位置输出至数据模型,并导出至文件进行保存。
2.根据权利要求1所述的银行业务数据的分箱方法,其特征在于,对所述银行业务样本数据进行预处理,得到预处理后的数据,包括:
对所述银行业务样本数据中的缺失值及异常值进行处理,其中,将特征值为空的情况填充为特殊值,将特征值位置偏离样本特征数据分布范围的数据,填充为异常值;
经过填充处理,得到预处理后的数据。
3.根据权利要求1所述的银行业务数据的分箱方法,其特征在于,若离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型,对数据进行分箱处理并生成初始分箱点位,包括:
对数据分布点数大于目标分箱个数的离散型数据,采用等距分箱法进行分箱处理,并生成离散型数据相应的初始分箱点位;
对数据类型为连续型的数据,采用等频分箱法进行分箱处理,并生成连续型数据相应的初始分箱点位。
4.根据权利要求3所述的银行业务数据的分箱方法,其特征在于,对数据分布点数大于目标分箱个数的离散型数据,采用等距分箱法进行分箱处理,并生成离散型数据相应的初始分箱点位,还包括:
将分箱处理后的空箱进行删除。
5.根据权利要求1所述的银行业务数据的分箱方法,其特征在于,根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并,还包括:
将分箱按照特征值数量的大小进行排序,并对排序后的分箱依次进行编号,得到初始分箱序列;
根据所述初始分箱点位,计算所述初始分箱序列中相邻编号的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并。
6.一种银行业务数据的分箱系统,其特征在于,该系统包括:
样本数据获取模块,用于获取银行业务样本数据;
预处理模块,用于对所述银行业务样本数据进行预处理,得到预处理后的数据;
判断模块,用于根据所述预处理后的数据,对当前数据特征的数据类型进行判断;若为离散型数据,判断数据分布点数是否大于目标分箱个数;其中,若离散型数据的数据分布点数小于或等于目标分箱个数,记录数据分布点为目标分箱点;
分箱处理模块,用于在离散型数据的数据分布点数大于目标分箱个数或数据类型为连续型时,对数据进行分箱处理并生成初始分箱点位;
分箱合并模块,用于根据所述初始分箱点位,计算相邻的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并;在分箱合并后,重新计算相邻的两个分箱的卡方值,并将具有最小卡方值的两个分箱进行合并,直至当前总分箱个数等于目标分箱个数,记录当前特征的分箱位置;
调用所述判断模块、分箱处理模块及分箱合并模块,依次对每一个数据特征进行分箱,记录所有特征的分箱位置;
导出模块,用于将所有特征的分箱位置输出至数据模型,并导出至文件进行保存。
7.根据权利要求6所述的银行业务数据的分箱系统,其特征在于,所述预处理模块具体用于:
对所述银行业务样本数据中的缺失值及异常值进行处理,其中,将特征值为空的情况填充为特殊值,将特征值位置偏离样本特征数据分布范围的数据,填充为异常值;
经过填充处理,得到预处理后的数据。
8.根据权利要求6所述的银行业务数据的分箱系统,其特征在于,分箱处理模块具体包括:
离散值分箱单元,用于对数据分布点数大于目标分箱个数的离散型数据,采用等距分箱法进行分箱处理,并生成离散型数据相应的初始分箱点位;
连续值分箱单元,用于对数据类型为连续型的数据,采用等频分箱法进行分箱处理,并生成连续型数据相应的初始分箱点位。
9.根据权利要求8所述的银行业务数据的分箱系统,其特征在于,所述离散值分箱单元还用于:
将分箱处理后的空箱进行删除。
10.根据权利要求6所述的银行业务数据的分箱系统,其特征在于,分箱合并模块具体用于:
将分箱按照特征值数量的大小进行排序,并对排序后的分箱依次进行编号,得到初始分箱序列;
根据所述初始分箱点位,计算所述初始分箱序列中相邻编号的两个分箱的卡方值,将具有最小卡方值的两个分箱进行合并。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011130461.2A CN112215703B (zh) | 2020-10-21 | 2020-10-21 | 银行业务数据的分箱方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011130461.2A CN112215703B (zh) | 2020-10-21 | 2020-10-21 | 银行业务数据的分箱方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215703A true CN112215703A (zh) | 2021-01-12 |
CN112215703B CN112215703B (zh) | 2023-10-27 |
Family
ID=74056199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011130461.2A Active CN112215703B (zh) | 2020-10-21 | 2020-10-21 | 银行业务数据的分箱方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215703B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN110648215A (zh) * | 2019-08-15 | 2020-01-03 | 上海新颜人工智能科技有限公司 | 分布式评分卡模型建立方法 |
-
2020
- 2020-10-21 CN CN202011130461.2A patent/CN112215703B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325792A (zh) * | 2017-07-31 | 2019-02-12 | 北京嘀嘀无限科技发展有限公司 | 信用评估变量的分箱方法及分箱装置、设备和存储介质 |
CN110648215A (zh) * | 2019-08-15 | 2020-01-03 | 上海新颜人工智能科技有限公司 | 分布式评分卡模型建立方法 |
Non-Patent Citations (1)
Title |
---|
夏晨琦: "局部最优分箱及其在评分卡模型中的应用", 《统计与决策》, pages 63 - 67 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215703B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711528A (zh) | 基于特征图变化对卷积神经网络剪枝的方法 | |
Neill et al. | Detecting significant multidimensional spatial clusters | |
Frederickson | Upper bounds for time-space trade-offs in sorting and selection | |
CN113434685A (zh) | 一种资讯分类处理的方法及系统 | |
CN111191584A (zh) | 一种人脸识别方法及装置 | |
CN115730947A (zh) | 银行客户流失预测方法及装置 | |
CN113554716A (zh) | 基于知识蒸馏的瓷砖色差检测方法及装置 | |
CN111368707A (zh) | 基于特征金字塔与密集块的人脸检测方法、系统、设备及介质 | |
CN110264392A (zh) | 一种基于多gpu的强连通图检测方法 | |
Zou et al. | A new parallel algorithm for computing formal concepts based on two parallel stages | |
CN112215703A (zh) | 银行业务数据的分箱方法及系统 | |
CN111640012A (zh) | 一种区块链交易追溯的方法及装置 | |
CN111353577B (zh) | 基于多任务的级联组合模型的优化方法、装置及终端设备 | |
CN107203469A (zh) | 基于机器学习的编译器测试加速方法 | |
CN110413682A (zh) | 一种数据的分类展示方法及系统 | |
CN111950753A (zh) | 一种景区客流预测的方法及装置 | |
CN109523031A (zh) | 一种用于深度分析的大数据智能机器学习系统 | |
CN102117380B (zh) | 简化基于矩阵的Boosting算法的系统及方法 | |
CN112069508B (zh) | 机器学习框架漏洞api参数定位方法、系统、设备及介质 | |
CN114492797A (zh) | 模型剪枝方法、装置、设备和存储介质 | |
Rosenthal | Approaches to comparing cut-set enumeration algorithms | |
US7246100B2 (en) | Classifying an analog voltage in a control system using binary classification of time segments determined by voltage level | |
CN111400050A (zh) | 一种分配资源执行任务的方法及装置 | |
CN111581448B (zh) | 卡bin信息入库方法及装置 | |
CN111667107B (zh) | 基于梯度随机森林的研发管控问题预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |