CN108022146A - 征信数据的特征项处理方法、装置、计算机设备 - Google Patents
征信数据的特征项处理方法、装置、计算机设备 Download PDFInfo
- Publication number
- CN108022146A CN108022146A CN201711122160.3A CN201711122160A CN108022146A CN 108022146 A CN108022146 A CN 108022146A CN 201711122160 A CN201711122160 A CN 201711122160A CN 108022146 A CN108022146 A CN 108022146A
- Authority
- CN
- China
- Prior art keywords
- characteristic item
- value
- information
- item
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及一种征信数据的特征项处理方法、装置、计算机设备及存储介质,包括:对征信数据中的样本数据进行分组,从样本数据中提取特征项,计算每个特征项的信息值,提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。由于计算出了信息增益值和基尼系数,可以更加快速的挑选出有效的特征项,而且使用逐步回归算法剔除特征项中的多重共线性特征项,可以使信用评分更加精确。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种征信数据的特征项处理方法、装置、计算机设备及存储介质。
背景技术
随着市场经济的不断发展和征信报告数据的不断增加,征信报告数据中数据的特征项也越来越多。特征项是对目标变量有显著的区分作用的已知变量,在对客户的信用进行评分时,通常需要挑选出有效的特征项用于建模,以用于对客户的信用进行评分。传统的特征项的处理方法都是计算特征项的信息值,选取信息值符合标准的特征项用于建模对客户的信用进行评分。
传统的特征项的处理方法比较单一,都是简单的以信息值大于设定值为标准挑选特征项,使用这种方式挑选特征项后剩余的特征项还是很多,并且不太准确,导致特征项不能被有效的挖掘,从而影响对信用的评分。
发明内容
基于此,有必要针对上述特征项不能被有效的挖掘,影响对信用的评分的问题,提供一种征信数据的特征项处理方法、装置、计算机设备及存储介质。
一种征信数据的特征项处理方法,所述方法包括:
对征信数据中的样本数据进行分组;
从所述样本数据中提取特征项;
计算每个所述特征项的信息值;
提取所述信息值高于预设值的特征项;
计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;
采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。
在一个实施例中,所述样本数据分为正样本和负样本;所述计算每个所述特征项的信息值包括:
获取所述样本数据中的正样本数量总和和负样本数量总和;
对于每一个特征项,获取所述样本数据中任意一组样本数据中的正样本数量和负样本数量,计算所述正样本数量占所述正样本数量总和的第一比率和所述负样本数量占所述负样本数量总和的第二比率;
根据所述第一比率和第二比率计算特征项的信息值。
在一个实施例中,所述计算提取的特征项的信息增益值,包括:
计算提取的特征项的信息熵和条件熵;
所述提取的特征项的信息增益值为所述信息熵与所述条件熵的差值。
在一个实施例中,所述计算提取的特征项的基尼系数,包括:
计算提取的所述信息值高于预设值的特征项的概率;
根据所述概率计算所述提取特征项的基尼系数。
在一个实施例中,所述采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项,包括:
依次对所述筛选后的特征项进行检验,得到检验后的特征项;
当前一个检验后的特征项的显著性低于后一个筛选后的特征项的显著性时,删除前一个筛选后的特征项。
在一个实施例中,在所述得到最终特征项之后,还包括:
根据所述最终特征项建立征信评价模型。
在一个实施例中,所述方法还包括:
获取待评价用户的征信数据,将所述待评价用户的征信数据输入所述征信评价模型中进行验证,得到待评价用户的征信评分。
一种征信数据的特征项处理装置,所述装置包括:
数据分组模块,用于对征信数据中的样本数据进行分组;
第一特征项提取模块,用于从所述样本数据中提取特征项;
信息值计算模块,用于计算每个所述特征项的信息值;
第二特征项提取模块,用于提取所述信息值高于预设值的特征项;
特征项筛选模块,用于计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;
特征项剔除模块,用于采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述征信数据的特征项处理方法、装置、计算机设备及存储介质,通过对征信数据中的样本数据进行分组,从样本数据中提取特征项,计算每个特征项的信息值,提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。由于计算出了信息增益值和基尼系数,可以更加快速的挑选出有效的特征项,而且使用逐步回归算法剔除特征项中的多重共线性特征项,可以使信用评分更加精确。
附图说明
图1为一个实施例中征信数据的特征项处理方法的应用环境图;
图2为一个实施例中图1中服务器的内部结构图;
图3为一个实施例中征信数据的特征项处理方法的流程图;
图4为一个实施例中计算每个特征项信息值的方法流程图;
图5为一个实施例中计算提取的特征项的信息增益值的方法流程图;
图6为一个实施例中计算提取的特征项的基尼系数的方法流程图;
图7为一个实施例中采用逐步回归算法得到最终特征项的方法流程图;
图8为一个实施例中建立征信评价模型以及对模型进行验证的方法流程图;
图9为一个实施例中征信数据的特征项处理装置的结构框图;
图10为另一个实施例中征信数据的特征项处理装置的结构框图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
图1为一个实施例中征信数据的特征项处理方法的应用环境图。如图1所示,该应用环境包括终端110和服务器120,其中,终端110通过网络与服务器120进行通信。终端110可为笔记本电脑、台式计算机、个人数字电脑、便携式膝上型电脑、智能手机等,但并不局限于此。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。首先,终端110可以获取征信数据中的样本数据,再将样本数据上传到服务器120,服务器120对上传的征信数据中的样本数据进行分组,再从样本数据中提取特征项,然后计算出每个特征项的信息值,之后再提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,然后采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项,最后,根据最终特征项建立征信评价模型,将获取到的待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。最后,可以将用户的征信评分发送给终端110。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,图1中的服务器120的内部结构如图2所示,服务器120包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该处理器120用于提供计算和控制能力,支撑整个用户终端的运行。服务器120的存储介质存储有操作系统以及一种征信数据的特征项处理装置的计算机程序,该征信数据的特征项处理装置的计算机程序被处理器执行时,用于实现一种征信数据的特征项处理方法。服务器120中的内存为存储介质中实现征信数据的特征项处理装置的运行提供环境,网络接口用于与终端110进行网络通信,例如,接收终端110上传的征信数据中的样本数据,服务器120还可以通过网络接口发送用户的征信评分。图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种征信数据的特征项处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图3,该征信数据的特征项处理方法具体包括如下步骤:
步骤S302,对征信数据中的样本数据进行分组。
其中,征信数据可以是征信报告中包含的数据,例如,用户的姓名、性别、年龄、学历、工资、工作职位以及借贷记录等。终端可以提取一些征信数据作为样本数据,再将这些样本数据上传到服务器,由服务器对这些样本数据进行分组,这个分组可以是随机的。
步骤S304,从样本数据中提取特征项。
特征项是对目标变量有显著的区分作用的已知变量,具体到样本数据中,特征项是样本数据中可以与其他样本数据区分开的数据。服务器可以从样本数据中将这些具有显著的区分作用的数据,即特征项提取出来。
步骤S306,计算每个特征项的信息值。
信息值衡量的是某一个变量的信息量,相当于是自变量证据权重值的一个加权求和,信息值的大小决定了自变量对于目标变量的影响程度。例如,信息值越大,自变量对于目标变量的影响越大,也就越能将变量区分出来。
信息值的计算有一个计算公式,服务器可以通过这个公式依次对每一个特征项的信息值进行计算。
步骤S308,提取信息值高于预设值的特征项。
预设值是预先设置的一个具体的数值,代表的是一个显著性水平,也可以说是一个经验值,例如,预设值可以是0.02这个具体的数值。
信息值计算出来之后,服务器可以将信息值的大小与预设值的大小进行比较,当信息值高于预设值时,服务器可以提取这个信息值对应的特征项。
步骤S310,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项。
其中,信息增益是特征项选择中的一个重要指标,信息增益是选取按照某个自变量划分所需要的期望信息,该期望信息越小,划分的纯度越高。信息增益还可以定义为一个特征能够为分类带来多少信息,带来的信息越多,该特征越重要。
基尼系数是一个在0和1之间的比例数值,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。基尼系数中有一个重要的概念,叫做基尼不纯度,基尼不纯度用于获取特征项的最佳分组。
服务器可以计算每一个提取的特征项的信息增益值和基尼系数。信息增益值越大,越能将特征项区分出来。而基尼系数值越大,样本的不确定性也就越大。服务器就是通过对特征项的信息增益值和基尼系数值的计算对特征项进行筛选的。
步骤S312,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。
逐步回归算法是一种去掉引起多重共线性的变量的常用算法,通过逐步引入变量并对引入变量进行检测的方式,使得最后留下的变量既是重要的,又没有严重的多重共线性。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
由于计算信息增益值和基尼系数并不能去掉多重共线性特征项,采用逐步回归算法可以剔除特征项中的多重共线性特征项,剩下的特征项就是最终有效的特征项。
通过对征信数据中的样本数据进行分组,从样本数据中提取特征项,计算每个特征项的信息值,提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。由于计算出了信息增益值和基尼系数,可以更加快速的挑选出有效的特征项,而且使用逐步回归算法剔除特征项中的多重共线性特征项,可以使信用评分更加精确。
如图4所示,在一个实施例中,样本数据分为正样本和负样本,提供的一种征信数据的特征项处理方法还包括计算每个特征项的信息值的处理流程,具体步骤包括:
步骤S402,获取样本数据中的正样本数量总和和负样本数量总和。
样本数据分为正样本和负样本,分别对样本数据中的正样本和负样本进行统计,可以得到样本数据中正样本数量总和和负样本数量总和。
步骤S404,对于每一个特征项,获取样本数据中任意一组样本数据中的正样本数量和负样本数量,计算正样本数量占正样本数量总和的第一比率和负样本数量占负样本数量总和的第二比率。
由于对征信数据中的样本数据进行了分组,每一组中的样本数据都是随机的,每一组的样本数据都包括正样本和负样本。对于每一个特征项都可以随机获取一组样本数据,从而获取样本数据中的正样本数量和负样本数量。用正样本数量除以正样本数量的总和就可以得到第一比率,用负样本数量除以负样本数量的总和就可以得到第二比率。例如,假设征信数据中的样本数据分成了10组,样本数据中正样本数量的总和为GT,负样本数量的总和为BT,在对一个特征项进行信息值计算时,随机选取了第i组的样本数据,在第i组的样本数据中,正样本的数量为Gi,负样本的数量为Bi,因此,正样本数量占正样本数量总和的第一比率可以是Gi/GT,而负样本数量占负样本数量总和的第二比率可以是Bi/BT。
步骤S406,根据第一比率和第二比率计算特征项的信息值。
信息值的计算有一个固定的公式,即公式中的i表示第i组,n表示征信数据中的样本数据一共分为了n个组,而IVi表示特征项第i组的信息值,再将每一组特征项的信息值相加,就可以得到特征项的信息值。IVi的计算公式为:IVi=(Gi/GT-Bi/BT)*ln(Gi/GT/Bi/BT),如上所举的例子,Gi是第i组中正样本的数量,GT是样本数据中正样本数量的总和,Bi是第i组中负样本的数量,BT是样本数据中负样本数量的总和。
通过获取样本数据中的正样本数量总和和负样本数量总和,对于每一个特征项,获取样本数据中任意一组样本数据中的正样本数量和负样本数量,计算正样本数量占正样本数量总和的第一比率和负样本数量占负样本数量总和的第二比率,根据第一比率和第二比率计算特征项的信息值。特征项的信息值的计算不仅简单方便,而且可以挑选出一部分特征项。
在一个实施例中,如图5所示,提供的一种征信数据的特征项处理方法还括计算提取的特征项的信息增益值的处理流程,具体步骤包括:
步骤S502,计算提取的特征项的信息熵和条件熵。
信息熵是在特征项挖掘中的一个重要指标,指的是特征项的复杂度,用于衡量某一个特征项出现的概率。
条件熵也是特征项挖掘中的一个重要指标,指的是在一定条件下特征项的复杂度,用于衡量在一定条件下某一个特征项出现的概率。
服务器可以计算提取特征项的信息熵,即计算提取的特征项占所有特征项的比率。服务器还可以计算提取特征项的条件熵,即在一定条件下,提取的特征项占所有特征项的比率。
步骤S504,提取的特征项的信息增益值为信息熵与条件熵的差值。
提取的特征项的信息增益值为信息熵减去条件熵。在大多数情况下,信息熵的值是固定的,因此,影响信息增益值的关键因素为条件熵。特征项的挑选与信息增益值的大小相关,信息增益值越大,越能将特征项区分出来,也就越有可能成为被选出的特征项。
通过对特征项信息增益值的计算,可以根据信息增益值的大小进一步挑选出有效的特征项。
如图6所示,在一个实施例中,提供的一种征信数据的特征项处理方法还包括计算提取的特征项的基尼系数的处理流程,具体步骤包括:
步骤S602,计算提取的信息值高于预设值的特征项的概率。
预设值是预先设置的一个具体的值。服务器可以将计算出的特征项的信息值与预设值进行比较,得到特征项的信息值高于预设值的数量,计算信息值高于预设值的特征项数量占总特征项数量的比率,即为信息值高于预设值的特征项的概率。
步骤S604,根据概率计算提取特征项的基尼系数。
具体的,这里计算的基尼系数主要是指基尼不纯度。基尼不纯度是指将来自集合中的某种结果随机应用在集合中某一数据项的预期误差率,简单来说,基尼不纯度就是随机事件变成对立事件的概率。根据上述计算出的信息值高于预设值的特征项的概率可以计算出基尼不纯度。
通过计算提取的信息值高于预设值的特征项的概率,根据概率计算提取特征项的基尼系数,并计算出基尼不纯度,基尼不纯度越小越能降低变量的不确定性,也就越能快速有效的将特征项区分出来,从而使用区分出来的特征项建立征信评价模型,使信用评分更加精确。
在一个实施例中,如图7所示,提供的一种征信数据的特征项处理方法还包括采用逐步回归算法得到最终特征项的流程,具体步骤包括:
步骤S702,依次对筛选后的特征项进行检验,得到检验后的特征项。
通过信息增益值和基尼系数筛选出特征项后,仍然还会存在一些无效的特征项。使用逐步回归算法时,首先需要对引入的特征项进行检验,这里的检验包括F检验和T检验。其中,F检验又叫方差齐性检验,用来判断引入的特征项是否适合用来做估计。T检验常常和F检验一起使用,用来比较两个特征项的差异是否显著。
要对筛选后引入的特征项依次进行检验,首先是F检验,再是T检验。通过了F检验的特征项往往是适合用来做估计的特征项,而通过了T检验的特征项是显著的特征项。因此,既通过了F检验由通过了T检验的特征项是适合用来做估计的显著特征项。
步骤S704,当前一个检验后的特征项的显著性低于后一个检验后的特征项的显著性时,删除前一个检验后的特征项。
经过F检验和T检验的特征项的显著性都比较强,对特征项进行检验后,可以将前一个检验后的特征项的显著性与后一个检验后的特征项的显著性进行比较。当前一个检验后的特征项的显著性低于后一个检验后的特征项的显著性时,服务器可以删除前一个检验后的特征项。这样,可以确保每次引入新的特征项之前服务器中只包含显著性高的特征项。
通过依次对筛选后的特征项进行检验,得到检验后的特征项,当前一个检验后的特征项的显著性低于后一个检验后的特征项的显著性时,删除前一个检验后的特征项。这种应用逐步回归算法的方法是一个反复的过程,直到既没有显著的特征项引入服务器,也没有不显著的特征项从服务器中剔除为止。由于使用逐步回归算法会结合前向算法、后向算法等对特征项进行迭代选择,利用逐步回归算法可以剔除特征项中的不显著的特征项,还可以剔除多重共线特征项,以保证最后得到的最终特征项都是显著的。
如图8所示,在一个实施例中,提供的一种征信数据的特征项处理方法还包括建立征信评价模型以及对模型进行验证的处理流程,具体步骤包括:
步骤S802,根据最终特征项建立征信评价模型。
最终特征项是经过逐步回归算法得到的显著的并且没有多重共线的特征项。得到的最终特征项就是建模所需要的有效特征项。通过计算特征项的信息值、信息增益值以及基尼系数,再通过逐步回归算法得到最终特征项,根据这些有效信息可以建立征信评价模型,用于评价用户的信誉。
步骤S804,获取待评价用户的征信数据,将待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。
服务器可以获取终端上传的待评价用户的征信数据,由于已经建好了征信评价模型,服务器在获取到待评价用户的征信数据时,可以将征信数据输入征信评价模型中进行验证。根据这个征信评价模型,服务器可以得到待评价用户的征信评分,这个征信评分是一个表示用户信用的具体的分数,服务器可以将这个征信评分发送给终端,终端再将信用评分展示出来。
根据最终特征项建立征信评价模型,获取待评价用户的征信数据,将待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。服务器根据最终特征项建立好模型后,可以对建立好的模型进行验证,由于输出的是征信评分,是一个具体的分数,可以直观的反应出用户的真实信用水平,而且可以使信用评分更加精确。
在一个实施例中,提供了一种征信数据的特征项处理方法,实现该方法的具体步骤如下所述:
首先,对征信数据中的样本数据进行分组。终端可以提取一些征信数据作为样本数据,再将这些样本数据上传到服务器,由服务器对这些样本数据进行分组,这个分组可以是随机的。再从样本数据中提取特征项。特征项是对目标变量有显著的区分作用的已知变量,具体到样本数据中,特征项是样本数据中可以与其他样本数据区分开的数据。服务器可以从样本数据中将这些具有显著的区分作用的数据,即特征项提取出来。
其次,计算每个特征项的信息值。信息值的计算首先需要获取样本数据中的正样本数量总和和负样本数量总和,再对于每一个特征项,获取样本数据中任意一组样本数据中的正样本数量和负样本数量,计算正样本数量占正样本数量总和的第一比率和负样本数量占负样本数量总和的第二比率,根据第一比率和第二比率计算特征项的信息值。信息值的大小决定了自变量对于目标变量的影响程度。例如,信息值越大,自变量对于目标变量的影响越大,也就越能将变量区分出来。信息值的计算有一个计算公式,服务器可以通过这个公式依次对每一个特征项的信息值进行计算。
接着,服务器可以提取信息值高于预设值的特征项。预设值是预先设置的一个具体的数值,代表的是一个显著性水平,也可以说是一个经验值,例如,预设值可以是0.02这个具体的数值。信息值计算出来之后,服务器可以将信息值的大小与预设值的大小进行比较,当信息值高于预设值时,服务器可以提取这个信息值对应的特征项。
然后,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项。其中,信息增益是特征项选择中的一个重要指标,信息增益是选取按照某个自变量划分所需要的期望信息,该期望信息越小,划分的纯度越高。计算信息增益值首先要计算提取的特征项的信息熵和条件熵,再提取的特征项的信息增益值为信息熵与条件熵的差值,这个差值就是信息增益值。信息增益值越大,越能将特征项区分出来。基尼系数是一个在0和1之间的比例数值,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。基尼系数中有一个重要的概念,叫做基尼不纯度,基尼不纯度用于获取特征项的最佳分组。计算基尼系数时,需要先计算提取的信息值高于预设值的特征项的概率,再根据概率计算提取特征项的基尼系数。基尼系数值越大,样本的不确定性也就越大。服务器可以计算每一个提取的特征项的信息增益值和基尼系数。服务器就是通过对特征项的信息增益值和基尼系数值的计算对特征项进行筛选的。
接着,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。逐步回归算法是一种去掉引起多重共线性的变量的常用算法,通过逐步引入变量并对引入变量进行检测的方式,使得最后留下的变量既是重要的,又没有严重的多重共线性。多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。由于计算信息增益值和基尼系数并不能去掉多重共线性特征项,采用逐步回归算法可以剔除特征项中的多重共线性特征项,剩下的特征项就是最终有效的特征项。
进一步的,根据最终特征项建立征信评价模型。最终特征项是经过逐步回归算法得到的显著的并且没有多重共线的特征项。得到的最终特征项就是建模所需要的有效特征项。通过计算特征项的信息值、信息增益值以及基尼系数,再通过逐步回归算法得到最终特征项,根据这些有效信息可以建立征信评价模型,用于评价用户的信誉。
最后,获取待评价用户的征信数据,将待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。服务器可以获取终端上传的待评价用户的征信数据,由于已经建好了征信评价模型,服务器在获取到待评价用户的征信数据时,可以将征信数据输入征信评价模型中进行验证。根据这个征信评价模型,服务器可以得到待评价用户的征信评分,这个征信评分是一个表示用户信用的具体的分数,服务器可以将这个征信评分发送给终端,终端再将信用评分展示出来。
如图9所示,在一个实施例中,提供一种征信数据的特征项处理装置,包括:
数据分组模块910,用于对征信数据中的样本数据进行分组。
第一特征项提取模块920,用于从所述样本数据中提取特征项。
信息值计算模块930,用于计算每个所述特征项的信息值。
第二特征项提取模块940,用于提取所述信息值高于预设值的特征项。
特征项筛选模块950,用于计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项。
特征项剔除模块960,用于采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。
在一个实施例中,信息值计算模块930用于获取样本数据中的正样本数量总和和负样本数量总和,对于每一个特征项,获取样本数据中任意一组样本数据中的正样本数量和负样本数量,计算正样本数量占正样本数量总和的第一比率和负样本数量占负样本数量总和的第二比率,根据第一比率和第二比率计算特征项的信息值。
在一个实施例中,特征项筛选模块950用于计算提取的特征项的信息熵和条件熵,提取的特征项的信息增益值为信息熵与条件熵的差值。特征项筛选模块950还用于计算提取的信息值高于预设值的特征项的概率,根据概率计算提取特征项的基尼系数。
在一个实施例中,特征项剔除模块960用于依次对筛选后的特征项进行检验,得到检验后的特征项,当前一个检验后的特征项的显著性低于后一个检验后的特征项的显著性时,删除前一个检验后的特征项。
如图10所示,在一个实施例中,提供的一种征信数据的特征项处理装置还包括:
模型建立模块970,用于根据最终特征项建立征信评价模型。
模型验证模块980,用于获取待评价用户的征信数据,将待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。
在一个实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:对征信数据中的样本数据进行分组;从样本数据中提取特征项;计算每个特征项的信息值;提取信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。
在一个实施例中,样本数据分为正样本和负样本,计算机程序被处理器执行计算每个所述特征项的信息值包括:获取样本数据中的正样本数量总和和负样本数量总和;对于每一个特征项,获取样本数据中任意一组样本数据中的正样本数量和负样本数量,计算正样本数量占正样本数量总和的第一比率和负样本数量占负样本数量总和的第二比率;根据第一比率和第二比率计算特征项的信息值。
在一个实施例中,计算机程序被处理器执行计算提取的特征项的信息增益值,包括:计算提取的特征项的信息熵和条件熵;提取的特征项的信息增益值为信息熵与条件熵的差值。
在一个实施例中,计算机程序被处理器执行计算提取的特征项的基尼系数,包括:计算提取的信息值高于预设值的特征项的概率;根据概率计算提取特征项的基尼系数。
在一个实施例中,计算机程序被处理器执行采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项,包括:依次对筛选后的特征项进行检验,得到检验后的特征项;当前一个检验后的特征项的显著性低于后一个检验后的特征项的显著性时,删除前一个检验后的特征项。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据最终特征项建立征信评价模型;获取待评价用户的征信数据,将待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的非易失性存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种征信数据的特征项处理方法,其特征在于,所述方法包括:
对征信数据中的样本数据进行分组;
从所述样本数据中提取特征项;
计算每个所述特征项的信息值;
提取所述信息值高于预设值的特征项;
计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;
采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。
2.根据权利要求1所述的方法,其特征在于,所述样本数据分为正样本和负样本;所述计算每个所述特征项的信息值包括:
获取所述样本数据中的正样本数量总和和负样本数量总和;
对于每一个特征项,获取所述样本数据中任意一组样本数据中的正样本数量和负样本数量,计算所述正样本数量占所述正样本数量总和的第一比率和所述负样本数量占所述负样本数量总和的第二比率;
根据所述第一比率和第二比率计算特征项的信息值。
3.根据权利要求1所述的方法,其特征在于,所述计算提取的特征项的信息增益值,包括:
计算提取的特征项的信息熵和条件熵;
所述提取的特征项的信息增益值为所述信息熵与所述条件熵的差值。
4.根据权利要求1所述的方法,其特征在于,所述计算提取的特征项的基尼系数,包括:
计算提取的所述信息值高于预设值的特征项的概率;
根据所述概率计算所述提取特征项的基尼系数。
5.根据权利要求1所述的方法,其特征在于,所述采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项,包括:
依次对所述筛选后的特征项进行检验,得到检验后的特征项;
当前一个检验后的特征项的显著性低于后一个检验后的特征项的显著性时,删除前一个检验后的特征项。
6.根据权利要求1所述的方法,其特征在于,在所述得到最终特征项之后,还包括:
根据所述最终特征项建立征信评价模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取待评价用户的征信数据,将所述待评价用户的征信数据输入所述征信评价模型中进行验证,得到待评价用户的征信评分。
8.一种征信数据的特征项处理装置,其特征在于,所述装置包括:
数据分组模块,用于对征信数据中的样本数据进行分组;
第一特征项提取模块,用于从所述样本数据中提取特征项;
信息值计算模块,用于计算每个所述特征项的信息值;
第二特征项提取模块,用于提取所述信息值高于预设值的特征项;
特征项筛选模块,用于计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;
特征项剔除模块,用于采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711122160.3A CN108022146A (zh) | 2017-11-14 | 2017-11-14 | 征信数据的特征项处理方法、装置、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711122160.3A CN108022146A (zh) | 2017-11-14 | 2017-11-14 | 征信数据的特征项处理方法、装置、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108022146A true CN108022146A (zh) | 2018-05-11 |
Family
ID=62079776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711122160.3A Pending CN108022146A (zh) | 2017-11-14 | 2017-11-14 | 征信数据的特征项处理方法、装置、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108022146A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804640A (zh) * | 2018-06-05 | 2018-11-13 | 重庆小雨点小额贷款有限公司 | 基于最大化iv的数据分组方法、装置、储存介质及设备 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN109241770A (zh) * | 2018-08-10 | 2019-01-18 | 深圳前海微众银行股份有限公司 | 基于同态加密的信息值计算方法、设备及可读存储介质 |
CN109325357A (zh) * | 2018-08-10 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 基于rsa的信息值计算方法、设备及可读存储介质 |
CN110321945A (zh) * | 2019-06-21 | 2019-10-11 | 深圳前海微众银行股份有限公司 | 扩充样本方法、终端、装置及可读存储介质 |
CN110647725A (zh) * | 2019-09-20 | 2020-01-03 | 武汉轻工大学 | 基于多元逐步回归的工程测试缺失数据修复方法及系统 |
CN113781102A (zh) * | 2021-08-11 | 2021-12-10 | 上海数禾信息科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113850532A (zh) * | 2021-10-15 | 2021-12-28 | 深圳市宝龙辉鞋业有限公司 | 一种按摩鞋生产在线连续监控方法及系统 |
CN114240149A (zh) * | 2021-12-16 | 2022-03-25 | 上海冰鉴信息科技有限公司 | 用户特征项筛选方法、装置及电子设备 |
CN114676167A (zh) * | 2022-05-27 | 2022-06-28 | 太平金融科技服务(上海)有限公司深圳分公司 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061228A1 (en) * | 2001-06-08 | 2003-03-27 | The Regents Of The University Of California | Parallel object-oriented decision tree system |
US6675164B2 (en) * | 2001-06-08 | 2004-01-06 | The Regents Of The University Of California | Parallel object-oriented data mining system |
US8301624B2 (en) * | 2009-03-31 | 2012-10-30 | Yahoo! Inc. | Determining user preference of items based on user ratings and user features |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
-
2017
- 2017-11-14 CN CN201711122160.3A patent/CN108022146A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061228A1 (en) * | 2001-06-08 | 2003-03-27 | The Regents Of The University Of California | Parallel object-oriented decision tree system |
US6675164B2 (en) * | 2001-06-08 | 2004-01-06 | The Regents Of The University Of California | Parallel object-oriented data mining system |
US8301624B2 (en) * | 2009-03-31 | 2012-10-30 | Yahoo! Inc. | Determining user preference of items based on user ratings and user features |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
Non-Patent Citations (2)
Title |
---|
周瑞丹: "《网络运营商客户的信用评价研究》", 5 May 2016 * |
王睿雅: "《面向P2P网络借贷的个人信用评价方法研究》", 5 September 2017 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804640A (zh) * | 2018-06-05 | 2018-11-13 | 重庆小雨点小额贷款有限公司 | 基于最大化iv的数据分组方法、装置、储存介质及设备 |
CN108804640B (zh) * | 2018-06-05 | 2021-03-19 | 重庆小雨点小额贷款有限公司 | 基于最大化iv的数据分组方法、装置、储存介质及设备 |
CN109325357A (zh) * | 2018-08-10 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 基于rsa的信息值计算方法、设备及可读存储介质 |
CN109241770A (zh) * | 2018-08-10 | 2019-01-18 | 深圳前海微众银行股份有限公司 | 基于同态加密的信息值计算方法、设备及可读存储介质 |
CN109241770B (zh) * | 2018-08-10 | 2021-11-09 | 深圳前海微众银行股份有限公司 | 基于同态加密的信息值计算方法、设备及可读存储介质 |
CN109325357B (zh) * | 2018-08-10 | 2021-12-14 | 深圳前海微众银行股份有限公司 | 基于rsa的信息值计算方法、设备及可读存储介质 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN110321945A (zh) * | 2019-06-21 | 2019-10-11 | 深圳前海微众银行股份有限公司 | 扩充样本方法、终端、装置及可读存储介质 |
CN110647725A (zh) * | 2019-09-20 | 2020-01-03 | 武汉轻工大学 | 基于多元逐步回归的工程测试缺失数据修复方法及系统 |
CN113781102A (zh) * | 2021-08-11 | 2021-12-10 | 上海数禾信息科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113850532A (zh) * | 2021-10-15 | 2021-12-28 | 深圳市宝龙辉鞋业有限公司 | 一种按摩鞋生产在线连续监控方法及系统 |
CN114240149A (zh) * | 2021-12-16 | 2022-03-25 | 上海冰鉴信息科技有限公司 | 用户特征项筛选方法、装置及电子设备 |
CN114240149B (zh) * | 2021-12-16 | 2024-07-26 | 上海冰鉴信息科技有限公司 | 用户特征项筛选方法、装置及电子设备 |
CN114676167A (zh) * | 2022-05-27 | 2022-06-28 | 太平金融科技服务(上海)有限公司深圳分公司 | 用户存留模型的训练方法、用户存留预测方法和装置 |
CN114676167B (zh) * | 2022-05-27 | 2022-08-30 | 太平金融科技服务(上海)有限公司深圳分公司 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108022146A (zh) | 征信数据的特征项处理方法、装置、计算机设备 | |
CN112036755B (zh) | 一种建筑工程质量检测的监管方法及系统 | |
CN104216349B (zh) | 利用制造设备的传感器数据的成品率分析系统及方法 | |
CN113608916B (zh) | 故障诊断的方法、装置、电子设备及存储介质 | |
WO2021164232A1 (zh) | 用户识别方法、装置、设备及存储介质 | |
CN111915437A (zh) | 基于rnn的反洗钱模型的训练方法、装置、设备及介质 | |
CN107688786A (zh) | 一种基于级联卷积神经网络的人脸检测方法 | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN112711757B (zh) | 一种基于大数据平台的数据安全集中管控方法及系统 | |
CN113052577B (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN112396428B (zh) | 一种基于用户画像数据的客群分类管理方法及装置 | |
CN112948823A (zh) | 一种数据泄露风险评估方法 | |
CN114724218A (zh) | 视频检测方法、装置、设备及介质 | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
CN114140246A (zh) | 模型训练方法、欺诈交易识别方法、装置和计算机设备 | |
CN107077617B (zh) | 指纹提取方法及装置 | |
CN108629506A (zh) | 风控模型的建模方法、装置、计算机设备和存储介质 | |
CN114240928B (zh) | 板卡质量的分区检测方法、装置、设备及可读存储介质 | |
CN106530199B (zh) | 基于窗口式假设检验的多媒体综合隐写分析方法 | |
CN112200272B (zh) | 业务分类方法及装置 | |
CN114266643A (zh) | 基于融合算法的企业挖掘方法、装置、设备及存储介质 | |
CN114493858A (zh) | 一种非法资金转移可疑交易监测方法及相关组件 | |
CN114238280A (zh) | 构建金融敏感信息标准库的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20211105 |
|
AD01 | Patent right deemed abandoned |