CN108764273A - 一种数据处理的方法、装置、终端设备及存储介质 - Google Patents
一种数据处理的方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN108764273A CN108764273A CN201810309823.0A CN201810309823A CN108764273A CN 108764273 A CN108764273 A CN 108764273A CN 201810309823 A CN201810309823 A CN 201810309823A CN 108764273 A CN108764273 A CN 108764273A
- Authority
- CN
- China
- Prior art keywords
- branch mailbox
- sample data
- decision tree
- feature
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000003066 decision tree Methods 0.000 claims abstract description 175
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 230000008878 coupling Effects 0.000 claims description 20
- 238000010168 coupling process Methods 0.000 claims description 20
- 238000005859 coupling reaction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 12
- 230000001737 promoting effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 12
- 238000009826 distribution Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000005520 cutting process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009975 flexible effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理的方法、装置、终端设备及存储介质,所述方法包括:获取配置信息和初始样本数据;根据所述配置信息生成配置文件;根据配置文件中的分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果得到有效样本数据;对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集;对数字化样本集应用梯度提升决策树算法,生成决策树;将每棵决策树的路径包含的特征作为组合特征,使用组合特征进行逻辑回归模型的模型预测。本发明的技术方案实现了对初始样本数据的组合特征的自动准确提取,从而在根据该组合特征进行模型预测时,能够有效提高模型预测的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种据处理的方法、装置、终端设备及存储介质。
背景技术
通常,在各种数据分析和建模过程中,首先需要对样本数据的数据特征进行特征处理。
目前,传统机器学习的特征分析往往依靠人工经验对有限的样本数据进行分析,进而确定特征处理算法,耗时耗力,或者对不同的数据特征均采用单一特征处理算法。然而,无论是人工经验确定的特征处理算法还是单一特征处理算法,均不能满足数据特征的多样化特点,因而得到的特征处理结果往往不能准确反映数据特征的真实特点,导致最终构建的模型的预测结果准确率不高。
发明内容
本发明实施例提供一种数据处理的方法、装置、终端设备及存储介质,以解决现有技术中对数据特征进行特征处理的结果不准确,导致模型预测结果准确率不高的问题。
第一方面,本发明实施例提供一种数据处理的方法,包括:
获取配置信息,并基于所述配置信息获取初始样本数据;
根据所述配置信息,按照预设的配置模板生成配置文件;
获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;
对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;
对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
第二方面,本发明实施例提供一种数据处理的装置,包括:
数据获取模块,用于获取配置信息,并基于所述配置信息获取初始样本数据;
文件生成模块,用于根据所述配置信息,按照预设的配置模板生成配置文件;
分箱模块,用于获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;
数字化模块,用于对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;
决策树构建模块,用于对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
模型预测模块,用于将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
第三方面,本发明实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述数据处理的方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述数据处理的方法的步骤。
本发明实施例提供的一种数据处理的方法、装置、终端设备及存储介质中,在根据配置信息获取初始样本数据,并按照预设的配置模板生成配置文件后,首先获取配置文件中的分箱配置信息,根据该分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果对初始样本数据进行处理,得到有效样本数据,再对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集,接着对数字化样本集应用梯度提升决策树算法,生成包含多棵决策树的决策树模型,最后将决策树模型中每棵决策树的路径包含的特征作为组合特征,使用该组合特征进行逻辑回归模型的模型预测,通过对初始样本数据依次进行分箱、独热编码和决策树构建,实现对初始样本数据进行自动准确的特征提取,使得得到的组合特征能够准确反映初始样本数据的数据特征,从而在根据该组合特征进行模型预测时,能够有效提高模型预测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1中提供的数据处理的方法的流程图;
图2是本发明实施例1中提供的数据处理的方法中回归决策树的简单示例图;
图3是本发明实施例1中提供的数据处理的方法中根据数据描述完成配置文件的自动更新的流程图;
图4是本发明实施例1中提供的数据处理的方法中步骤S4的流程图;
图5是本发明实施例1中提供的数据处理的方法中对数字化样本集中的数字化样本进行交叉变量编码的流程图;
图6是本发明实施例1中提供的数据处理的方法中步骤S6的流程图;
图7是本发明实施例2中提供的数据处理的装置的示意图;
图8是本发明实施例4中提供的终端设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,图1示出了本实施例提供的数据处理的方法的实现流程。该数据处理的方法用于实现特征编码模型的构建,并可应用于对逻辑回归模型的预测。详述如下:
S1:获取配置信息,并基于该配置信息获取初始样本数据。
在本发明实施例中,配置信息包括建模所需的各种参数的参数信息,具体可包括初始样本数据的资源位置信息、空值填充信息、分箱配置信息,以及决策树模型的配置参数等。配置信息可以由用户根据应用的需要进行预先设置。
具体地,获取预先设置的配置信息,从该配置信息中提取初始样本数据的资源位置信息,并根据该资源位置信息获取对应的初始样本数据。
S2:根据配置信息,按照预设的配置模板生成配置文件。
具体地,根据步骤S1获取的配置信息,按照预设的配置模板生成对应的配置文件。
需要说明的是,不同的模型所需的配置参数可能不同,配置文件的结构定义也可能不同,针对不同模型的建模需求,预先设置每个模型对应的配置模板,从而根据待构建模型选择对应的配置模板,按照该配置模板的配置参数需求,从配置信息中获取对应的配置参数信息,并按照该配置模板的文件结构生成对应的配置文件,使得后续在建模过程中能够快速灵活的从配置文件中读取到所需的配置参数。
配置文件可以是可扩展标记语言(Extensible Markup Language,xml)文件,也可以是其他格式的文件,此处不做限制。
其中,xml文件是一种允许用户对自己的标记语言进行定义的源语言文件,是处理分布式结构信息的有效工具,在xml文件中还提供了一种树形层次结构,可以实现快速定位。
S3:获取配置文件中的分箱配置信息,根据该分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果对初始样本数据进行处理,得到有效样本数据,其中,有效样本数据包括分箱特征的分箱特征值。
在本发明实施例中,分箱配置信息包括分箱特征和箱数阈值等,其中,分箱特征为需要进行分箱的特征属性,如年龄,箱数阈值为最大分箱数量。
分箱配置信息可以由用户根据建模需求或者应用需要进行灵活设置。
具体地,根据分箱特征和箱数阈值,对步骤S1得到的初始样本数据进行分箱,得到最终分箱结果,该最终分箱结果包括分箱特征的分箱数和每箱的分箱特征值。然后,基于该最终分箱结果确定初始样本数据的分箱特征的分箱特征值,得到包含分箱特征值的有效样本数据。
需要说明的是,分箱过程可以基于spark分布式计算框架,完成对初始样本数据的自动分箱,在最大程度保存原始样本数据信息的同时,能够快速准确地进行特征提取,实现快速建模。
以分箱特征为年龄为例,若最终分箱结果为[10,35)、[35,45)和[45,80]共三箱,则根据该最终分箱结果,假设某初始样本数据的年龄为20岁,则该初始样本数据的分箱特征的分箱特征值为[10,35),即该初始样本数据对应的有效样本数据中分箱特征的分箱特征值为[10,35)。
S4:对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集。
在本发明实施例中,独热编码即one-hot编码,又称为一位有效编码,其原理是使用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。
具体地,对于有效样本数据的每一个特征,如果它有M个不同的特征值,按照one-hot编码即得到M个二元特征。并且,这些特征值互斥,每次只有一个特征值被激活,被激活的特征值设置为1,其余不被激活的特征值则置为常数0,最终得到特征的每个特征值对应的基础数字编码。
根据基础数字编码,对每个有效样本数据的每个特征进行编码,得到每个特征的数字化编码,再将全部特征的数字化编码进行组合,得到每个有效样本数据对应的数字化样本,构成数字化样本集。
one-hot编码的方式能使原始状态的特征数据变成稀疏数据,能更好地解决数据挖掘对属性特征数据样本分类的问题,以及在一定程度上起到了扩充特征的作用,其中,特征数据指特征及其对应的取值范围。
例如,假设有效样本数据包含三个特征,分别为性别、地区和浏览器,其中,性别的特征值取值范围为:[male,female],地区的特征值取值范围为:[Europe,US,Asia],浏览器的特征值取值范围为:[Firefox,Chrome,Safari,Internet Explorer]。
按照one-hot编码对每个特征的特征值进行编码,得到的基础数字编码为:male=[1,0],female=[0,1],Europe=[1,0,0],US=[0,1,0],Asia=[0,0,1],Firefox=[1,0,0,0],Chrome=[0,1,0,0],Safari=[0,0,1,0],Internet Explorer]=[0,0,0,1]。
若某个有效样本数据的特征值为[male,US,Internet Explorer],则该有效样本数据对应的数字化样本为:[1,0,0,1,0,0,0,0,1]。
S5:对所数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数。
具体地,对包含数字化样本的数字化样本集应用梯度提升决策树算法来对其进行建模,通过构建的决策树模型来对数字化样本的特征进行预测,进而得到多个分支,每个分支包含多个相同特征的样本数据。
其中,梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来作为最终决策树模型的预测结果。
梯度提升决策树中的决策树属于回归树,在这些树的每个节点都会得到该节点对应的分类特征的预测值,对于未确定具体数值的分类特征,使用该分类特征的平均值作为该分类特征的预测值。
S6:将决策树模型中每棵决策树的路径包含的特征作为组合特征,使用该组合特征进行逻辑回归模型的模型预测。
具体地,根据步骤S5生成的决策树模型,针对每个决策树,将不同路径包含的特征的特征值进行特征组合,得到组合特征,并将不同树的相同组合特征的值进行累加,将最终的累加值作为该组合特征的特征值,并将该特征值作为二分类逻辑回归(LogisticRegression,LR)模型中的一个自变量,基于该二分类逻辑回归模型,计算该自变量在预设事件中的发生概论,进而根据预设的概率阈值来预测该事件是否成立。
需要说明的是,步骤S5得到的决策树模型即为构建的特征编码模型,该特征编码模型的输出即为每棵决策树的每条路径的组合特征,该组合特征可直接作为二分类逻辑回归模型的输入特征,进行模型训练和预测,从而省去了人工寻找组合特征的过程,提高了对二分类逻辑回归模型的预测效率和预测准确率。
例如,在一具体实施方式中,请参阅图2,图2示出了使用梯度提升决策树算法得到的一个具体的回归决策树,该回归决策树按照年龄将样本数据分成了未超过30岁和超过30岁这两个节点,再按性别和学历将这两个节点进行划分,得到了5个节点,分别为节点1、节点2、节点3、节点4和节点5,每个节点均为一个组合特征。因此,根据该回归决策树得到五个组合特征分别为:节点1对应的“年龄小于30并且性别为女”,节点2对应的“年龄小于30,性别为男,并且学历为本科及其以上”,节点3对应的“年龄小于30,性别为男,并且学历为本科以下”,节点4对应的“年龄大于等于30并且性别为女”,以及节点5对应的“年龄大于等于30并且性别为男”。
需要说明的是,本发明实施例对数据处理的过程可以基于spark分布式计算框架完成对特征编码模型的构建,充分利用spark分布式框架的优势,根据自动生成的配置文件中的配置信息,对初始样本数据依次进行分箱、独热编码和GBDT编码,高效快速的完成数据处理,提取有效的数据组合特征,实现模型预测。由于spark分布式框架支持大数据量的迭代,因此在面对庞大的初始样本数据时能够高效快速的进行特征处理,提高建模效率,缩短模型从开发到上线发布的时间。
在图1对应的实施例中,在根据配置信息获取初始样本数据,并按照预设的配置模板生成配置文件后,首先获取配置文件中的分箱配置信息,根据该分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果对初始样本数据进行处理,得到有效样本数据,再对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集,接着对数字化样本集应用梯度提升决策树算法,生成包含多棵决策树的决策树模型,最后将决策树模型中每棵决策树的路径包含的特征作为组合特征,使用该组合特征进行逻辑回归模型的模型预测,通过对初始样本数据依次进行分箱、独热编码和决策树构建,实现对初始样本数据进行自动准确的特征提取,使得得到的组合特征能够准确反映初始样本数据的数据特征,从而在根据该组合特征进行模型预测时,能够有效提高模型预测的准确性,同时,经过特征编码模型得到的组合特征能够直接作为二分类逻辑回归模型的输入特征进行模型预测,从而提高预测效率。
接下来,在图1对应的实施例的基础之上,在步骤S2提及的根据所述配置信息,按照预设的配置模板生成配置文件之后,以及在步骤S3提及的获取配置文件中的分箱配置信息之前,还可以根据数据描述完成配置文件的自动更新。
请参阅图3,图3示出了本发明实施例提供的根据数据描述完成配置文件的自动更新的具体实现流程,详述如下:
S81:根据配置文件对初始样本数据进行分析,得到初始样本数据的数据描述。
在本发明实施例中,数据描述是初始样本数据中的预设特征的基本描述,该基本描述包括预设特征的最大值、最小值、分位数值或缺失数量等,数据描述能够直观反映预设特征的分布情况。
其中,最大值和最小值分别指在初始样本数据中该预设特征的最大取值和最小取值,分位数值也称为分位点,是指将一个随机变量的分布范围分为几个等份的数值点,通过分位数值能够分析出该随机变量的变化趋势,常用的分位数值包括中位数、四分位数、百分位数等,缺失数量是指在初始样本数据中该预设特征的取值为空的样本数量。
预设特征具体可以根据具体模型预测的应用需要进行设置,例如,预设特征可以是“客户主动发起投保咨询总次数”、“客户在第一季度主动发起投保咨询总次数”或“客户最近一月主动发起投保咨询次数”等。
具体地,根据配置文件中设置的配置项的参数值,对初始样本数据进行提取,并根据预设特征对初始样本数据进行处理,获取该预设特征的特征值,将预设特征及其对应的特征值构成该初始样本数据的数据描述。
例如,根据配置文件中对选取模型训练集的配置,从初始样本数据中获取对应的训练样本数据,若预设特征为“客户主动发起投保咨询总次数”和“客户最近一月主动发起投保咨询次数”,则从训练样本数据中得到该预设特征的基本描述如表一所示:
表一
S82:将数据描述发送至用户,以便用户根据该数据描述确定待调整参数。
具体地,将步骤S81中得到的数据描述发送给用户,用户根据该数据描述可以充分了解预设特征的具体分布情况,并根据具体分布情况进一步对初始样本数据进行分析确认,及时确定配置文件中需要进行调整的配置参数,并作出合理的调整指令。
继续以步骤S81中的表一为例,当用户接收到表一的数据描述时,若根据该数据描述判断出训练样本数据的选取不合理,则确认选取模型训练集的配置项的参数值需要进行调整,并作出重新设置的选取模型训练集的配置项的参数值的调整指令。
S83:接收用户发送的对待调整参数的调整指令。
在本发明实施例中,调整指令是用于对配置文件中的配置参数进行调整的指令,该调整指令包括待调整的配置项及其对应的调整后的目标参数值。
具体地,接收用户根据步骤S82发出的调整指令。
S84:根据调整指令,更新配置文件。
具体地,根据步骤S83接收到的调整指令,从该调整指令中获取待调整的配置项及其目标参数值,并使用该目标参数值更新配置文件中该配置项的参数值。
在图3对应的实施例中,根据配置文件对初始样本数据进行分析,得到数据描述,可以直观反映初始样本数据的预设特征的分布情况,有利于用户根据数据描述,及时确定需要调整的配置参数,作出合理的调整指令,从而根据接收到调整指令,更新配置文件,得到更新后的配置文件,并基于更新后的配置文件进行后续特征编码模型的构建,实现了对模型参数进行灵活及时的动态调优,提高了配置文件的准确性和合理性,进而有效提高特征编码模型的建模效率和模型准确率。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S4中所提及的获取配置文件中的分箱配置信息,根据该分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果对初始样本数据进行处理,得到有效样本数据的具体实现方法进行详细说明。
请参阅图4,图4示出了本发明实施例提供的步骤S4的具体实现流程,详述如下:
S40:从配置文件中获取空值填充信息,并根据该所述空值填充信息对初始样本数据进行空值填充。
在本发明实施例中,当初始样本数据的某个特征的特征值为空时,需要对该特征值进行空值填充,即给它设置一个预设值。空值填充的作用是为了让特征的空值具有可解析性。
具体地,分箱配置信息包括空值填充信息,从配置文件中获取控制填充信息,该控制填充信息包括待填充特征及其对应的填充值。根据获取到的待填充特征,对初始样本数据进行遍历,若初始样本数据的待填充特征的特征值为空,则使用待填充特征对应的填充值进行填充。S41:从配置文件中获取分箱特征。
在本发明实施例中,分箱配置信息还包括分箱特征,分箱特征为需要进行分箱的特征属性,例如年龄。分箱特征具体可以由用户根据建模需求或者应用需要进行灵活设置。
S42:根据分箱特征,从初始样本数据中确定待分箱的名义变量和该名义变量对应的m个特征值,其中,m为大于1的正整数。
在本发明实施例中,特征属性包括连续变量和名义变量两种类型,连续变量是指其特征值在一定区间内可以任意取值的变量,其特征值是连续不断的,任意两个特征值之间可以无限分割,有单位并且可以排序,例如距离;名义变量是指其特征值可以一一列举,但没有单位也没有顺序,例如性别。
若分箱特征属于连续变量,则首先对连续变量进行离散化,并对离散化后的连续变量提取对应的名义变量及其对应的m个特征值,即将连续变量转化为名义变量;若根箱特征属于名义变量,则直接从样本数据中确定该待分箱的名义变量对应的m个特征值。
例如,假设分箱特征为学历,即名义变量为学历,则从初始样本数据中确定该名义变量的取值范围为:小学、初中、高中、本科、研究生及以上,共5个特征值。
S43:将m个特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k大于等于0,并且小于等于m-1。
在本发明实施例中,将步骤S42获取到的m个特征值保存到预设的特征值集合中,并初始化分箱轮数k,设置k的初始值为0,同时默认k等于0时,第0轮分箱的分箱结果为空,分箱轮数k的取值范围为大于等于0并且小于等于m-1。
需要说明的是,预设的特征值集合用来存放名义变量的特征值,为后续根据特征值进行分箱做准备。
例如,假设名义变量的三个特征值为:1560、2240和3200,则将其全部存入到预设的特征值集合之中,由于还未进行分箱操作,即分箱轮数为0,故不存在分箱结果,第0轮分箱的分箱结果为空。
S44:针对特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m-k个关联指标值。
在本发明实施例中,将特征值集合中的特征值作为测试分裂点,通过该测试分裂点对名义变量进行分箱,根据获取到的m个特征值,得到m个测试分裂点,对每个测试分裂点均进行一次分箱操作,从而执行m次分箱操作。
具体地,当k=0时,即第0轮箱,表示未进行分箱;当进行第1轮分箱操作时,此时在未进行分箱的基础上通过1个分裂点将待分箱的名义变量分为2箱,即在k=0时,在第0轮未进行分箱的基础上将名义变量分为2箱,即是k+2箱;当进行第2轮分箱时,此时在第1轮分箱结果2箱的基础上,通过1个分裂点对其中包含该分裂点的1箱分为2箱,此时总共将名义变量分为3箱,即在k=1时,在第1轮分箱结果2箱的基础上将名义变量分为3箱,即是k+2箱。以此类推,得到在第是k+1轮分箱结果为在第k轮分箱结果的基础上将待分箱的名义变量分为k+2箱。
并且,在每一轮分箱操作的过程中,计算每个测试分裂点对应的关联指标值,其中,关联指标值的个数为当前特征值集合中的特征值个数,即m与分箱轮数k的差值。
需要说明的是,在每一轮分箱操作的过程中,关联指标值可以是信息值(information value,IV)、基尼方差指标值或皮尔逊卡方统计量等。其中,IV值是一种衡量自变量的预测能力大小的系数,基尼方差指标值是指样本集通过特定属性划分后不纯度降低的比例,皮尔逊卡方统计量用于衡量两个名义变量之间的相关性。
S45:将m-k个关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从特征值集合中移除。
在本发明实施例中,从步骤S44计算得到的m-k个关联指标值中,选取其中最大的关联指标值对应的特征值作为目标分裂点,根据该目标分裂点进行分箱,每一轮分箱都基于上一轮分箱结果的基础上,根据目标分裂点将包含该目标分裂点的名义变量分为2箱,故第k+1轮分箱的分箱结果是基于第k轮分箱的分箱结果的基础上加2,即k+2箱为第k+1轮分箱的结果。
同时,作为目标分裂点的最大关联指标值对应的特征值,在执行完分箱操作后将从特征值集合中移除。
S46:若k+2达到预设的箱数阈值,则停止分箱,并将第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回步骤S44继续执行。
具体地,根据步骤S45可得第k+1轮分箱的结果为k+2箱,若分箱结果k+2达到预设的箱数阈值,则不再继续进行分箱,并且将该k+2箱作为最终分箱结果;若分箱结果k+2箱未达到预设的箱数阈值,则对k加1后返回步骤S44继续进行新一轮分箱。
进一步地,在分箱过程中,还可以将关联指标值作为停止分箱的判断条件,即当关联指标值的提升率小于预设的提升率阈值时,停止分箱,否则,对k进行加1操作后返回步骤S44继续进行新一轮分箱。
其中,关联指标值的提升率具体可以按照如下公式进行计算,详述如下:
v=(Xp-Xp-1)/Xp
其中,v为关联指标值的提升率,Xp为第p轮分箱操作确定的目标分裂点对应的关联指标值,p∈[1,m]。
需要说明的是,在面对海量初始样本数据时,本发明实施例的分箱过程可以基于spark分布式计算框架进行,通过spark分布式并行计算,可以提高计算效率,同时,在对大数据量、同时有多个名义变量需要进行分箱的时候,可以有效提高分箱效率。
S47:根据最终分箱结果,确定初始样本数据的分箱特征的分箱特征值,得到有效样本数据。
具体地,步骤S46得到的最终分箱结果包括了分箱特征的分箱数和每箱的分箱特征值,基于该最终分箱结果,根据每个初始样本数据的分箱特征的初始特征值,确定该初始特征值对应的分箱特征值,得到包含该分箱特征值的有效样本数据。
以分箱特征为年龄为例,若最终分箱结果为[10,35)、[35,45)、[45,60)和[60,80]共四箱,即分箱数为4,每箱的分箱特征值分别为[10,35)、[35,45)、[45,60)和[60,80]。假设某初始样本数据的年龄的初始特征值为50,则50属于[60,80]的范围,即该初始特征值对应的分箱特征值为[60,80],因此得到的该初始样本数据对应的有效样本数据中包含的分箱特征值为[60,80]。
在图4对应的实施例中,首先对初始样本数据进行空值填充,使得初始样本数据的每个特征的特征值均具有可解析性,然后从配置文件中获取分箱特征,根据该分箱特征从初始样本数据中确定待分箱的名义变量和该名义变量对应的特征值,并将特征值存储到预设的特征值集合中,在每一轮分箱过程中,以特征值集合中的每个特征值作为测试分裂点将名义变量分为两箱,并计算每个特征值对应的关联指标值,从关联指标值中选取最大值对应的特征值作为目标分裂点执行分箱操作,若分箱结果达到预设的箱数阈值则停止分箱,否则继续执行分箱操作,实现了基于关联指标值对名义变量进行自动分箱,使得在最大程度保存初始样本数据信息的同时,快速准确地进行特征提取,从而减少人工干预及耗时,提高分箱操作的分箱效率,以便能够快速构建特征编码模型。
在图1对应的实施例的基础之上,在步骤S5提及的对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集之后,以及在步骤S6提及的对数字化样本集应用梯度提升决策树算法之前,还可以对数字化样本集中的数字化样本进行交叉变量编码。
请参阅图5,图5示出了本发明实施例提供的对数字化样本集中的数字化样本进行交叉变量编码的具体实现流程,详述如下:
S91:根据配置文件中的交叉配置信息,对数字化样本集中的数字化样本进行交叉变量编码,得到每个数字化样本的交叉特征的交叉特征值。
在本发明实施例中,交叉配置信息包含待交叉组合的特征。
具体地,根据配置文件中的交叉配置信息,对数字化样本进行交叉变量编码,得到每个数字化样本的交叉特征的交叉特征值的具体过程包括步骤a)至步骤c),详述如下:
a)获取待交叉组合的N个基础特征,以及每个基础特征的取值范围。
具体地,读取配置文件中的交叉配置信息,得到待交叉组合的N个基础特征,并从数字化样本集中确定每个基础特征的取值范围,最终得到每个基础特征以及对应的全部特征值,可以理解的是,每个特征值均为根据独热编码方式得到的基础数字编码。
需要说明的是,N为正整数,其最小值为2,即最少可以对2个基础特征进行交叉组合。
b)对每个基础特征的每个特征值对应的基础数字编码进行遍历,从每个基础特征中分别选取一个基础数字编码进行交叉组合计算,得到N个基础特征的特征值的每种组合方式对应的组合数字编码。
具体地,将步骤a)中得到的各个基础特征的每个特征值对应的基础数字编码进行逐个遍历,将每个基础特征的特征值与其它基础特征的特征值进行组合,也就是选取每个基础特征的一个基础数字编码与其它不同于自身所属的基础特征的基础数字编码进行交叉组合,得到每种组合方式对应的组合数字编码,即此时的特征组合是由一串组合数字编码表示。
在本发明实施例中,通过基于spark分布式计算框架能够使任意一个基础特征进行交叉组合,也就是将每个基础特征的一个基础数字编码与其它不同于自身所属的基础特征的基础数字编码进行交叉组合,有效提高了交叉组合计算效率。
例如,假设基础特征为性别和地区,其中,性别的取值范围为[male,female],地区的取值范围为[Europe,US,Asia]。将每个基础特征的特征值进行交叉得到的交叉组合分别为:[male,Europe]、[male,US]、[male,Asia]、[female,Europe]、[female,US]和[female,Asia]共6个组合方式。
以交叉组合[male,US]为例,将male对应的基础数字编码[1,0]中的每一位与US对应的基础数字编码[0,1,0]中的每一位进行交叉组合计算,得到该交叉组合对应的基础数字编码分别为[1,0]、[1,1]、[1,0]、[0,0]、[0,1]和[0,0]六个组合,将每个组合中的两位编码相乘分别得到0、1、0、0、0和0,最终组合得到该交叉组合的组合方式对应的组合数字编码为[0,1,0,0,0,0],同理,其他五个交叉组合的组合方式及其对应的组合数字编码分别为[male,Europe]对应[1,0,0,0,0,0]、[male,Asia]对应[0,0,1,0,0,0]、[female,Europe]对应[0,0,0,1,0,0]、[female,US]对应[0,0,0,0,1,0]和[female,Asia]对应[0,0,0,0,0,1]。
c)根据每种组合方式及其对应的组合数字编码,确定每个数字化样本的交叉特征的交叉特征值。
具体地,读取数字化样本中的基础特征和其所对应的特征值,根据步骤c)得到的每种组合方式及其对应的组合数字编码,确定数字化样本匹配到的组合方式,并将该组合方式对应的组合数字编码作为该数字化样本的交叉特征的交叉特征值。
例如,继续引用步骤c)的例子,根据六种组合方式[male,Europe]、[male,US]、[male,Asia]、[female,Europe]、[female,US]和[female,Asia],以及它们所对应的组合数字编码[1,0,0,0,0,0]、[0,1,0,0,0,0]、[0,0,1,0,0,0]、[0,0,0,1,0,0]、[0,0,0,0,1,0]和[0,0,0,0,0,1],当某个数字化样本的性别为female、地区为Europe时,将组合方式[female,Europe]对应的组合数字编码[0,0,0,1,0,0]作为该数字化样本的交叉特征的交叉特征值。
S92:使用包含交叉特征的数字化样本,更新数字化样本集。
具体地,根据步骤S91的交叉变量编码的结果,对数字化样本增加交叉特征及其对应的交叉特征值,得到更新后的数字化样本集。
需要说明的是,随着N的增大,在交叉变量编码过程中进行交叉组合计算的计算量迅速增大,在本发明实施例中,通过使用spark分布式计算框架能够实现对任意数量的基础特征之间的交叉变量编码,有效提高了交叉组合计算效率。
在图5对应的实施例中,通过对数字化样本集中的数字化样本进行交叉变量编码,从每个基础特征中分别选取一个基础数字编码进行组合计算,得到N个基础特征的特征值的每种组合方式对应的组合数字编码,进而根据该组合数字编码确定每个数字化样本的交叉特征的交叉特征值,实现了对初始样本数据的非线性特征的表达,使得在构建特征编码模型时能够加入特征之间的非线性关系,提高模型构建的准确性。
在图1对应的实施例的基础之上,下面通过一个具体的实施例对步骤S6提及的对数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型的具体实现方法进行详细说明。
请参阅图6,图6示出了本发明实施例提供的步骤S6的具体实现流程,详述如下:
S61:基于Spark分布式计算框架,对数字化样本集中的数字化样本采用分类回归树算法,生成原始决策树。
在本发明实施例中,分类回归树(Classification And Regression Tree,CART)算法又称为最小二乘回归树,CART算法考虑到每个节点都有成为叶子节点的可能,对每个节点都分配类别。分配类别的方法可以用当前节点中出现最多的类别,也可以参考当前节点的分类错误或者其他更复杂的方法,是采用一种基于二分递归分割的方式,该算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个叶子结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树,CART算法适用于样本特征的取值为是或非的场景。
其中,分类回归树的每一个节点都会得一个预测值,以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。在分枝时穷举每一个特征对应的数字化变量值找最好的分割点,但衡量最好的标准不再是最大熵,而是最小化平方误差作为切分误差,也就是被预测出错的人数越多,错的越离谱,切分误差就越大,通过最小化平方误差作为切分误差能够找到最可靠的分枝依据。若最终叶子节点上人的年龄不唯一,则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。
具体地,基于Spark分布式计算框架,对数字化样本集中的数字化样本采用CART算法生成原始决策树。
S62:将原始决策树放入决策树模型中,并将该原始决策树作为当前决策树。
具体地,在原始决策树的生成结束后,将该原始决策树放入到预设的决策树模型中,决策树模型可以包含多棵决策树。
同时,将原始决策树作为当前决策树,以便进行下一轮决策树拟合。
S63:基于数字化样本集,计算当前决策树的残差向量。
具体地,在梯度提升决策树算法中,采用梯度提升的作法来构造弱分类器,在每次迭代的时候,通过使用损失函数来计算当前决策树中数字化样本在每个分类特征上的损失值,进而将该损失值作为下一棵树的预测值来拟合生成新的决策树,该损失值即为残差向量的绝对值。其中,分类特征是指在采用CART算法生成原始决策树时数字化样本每次进行切分所使用的特征属性。
其中,损失函数包括但不限于:0-1损失函数(0-1Loss Function)、平方损失函数(Quadratic Loss Function)、绝对值损失函数(Absolute Loss Function)和对数损失函数(Logarithmic Loss Function)等。
优选地,本发明实施例采用的损失函数为对数损失函数,该损失函数采用了极大似然估计的方法。
S64:依据当前决策树的残差向量拟合新的决策树,并将该新的决策树放入决策树模型中。
具体地,使用数字化样本的分类特征对应的残差向量作为新的决策树在该分类特征上的预测值,按照步骤S61进行新的决策树的拟合,使得新的决策树对当前决策树作进一步的完善,提高了决策树模型对于数字化样本的特征描述的准确率。
S65:若决策树模型中决策树的总数低于预设阈值,则将新的决策树作为当前决策树,返回步骤S63继续执行。
具体地,当新的决策树加入到决策时模型中时,统计决策树模型中的决策树总数,若决策树总数小于预设决策树数量阈值,则认为决策树模型未构建完成,返回步骤S63继续执行,通过计算当前决策树的残差向量来继续拟合新的决策树。
其中,预设决策树数量阈值可以在配置文件中进行设置。
S66:若决策树模型中决策树的总数达到预设阈值,则停止拟合新的决策树。
具体地,当新的决策树加入到决策时模型中时,统计到决策树总数达到预设决策树数量阈值,则认为决策树模型构建完成,停止对新的决策树的拟合,并将此时得到的决策树模型作为最终的决策树模型。
在图6对应的实施例中,基于Spark分布式计算框架,通过CART算法生成原始决策树,将原始决策树放入决策树模型中,并将该原始决策树作为当前决策树,进而计算当前决策树的残差向量,根据当前决策树的残差向量拟合新的决策树,并将该新的决策树放入决策树模型中,如此循环拟合新的决策树,直到决策树模型中决策树的总数达到预设阈值,则停止拟合新的决策树,整个过程采用梯度提升决策树算法,使得每一棵新的决策树都是对当前决策树的拟合,逐步减少了决策树模型的误差,提升了数字化样本的分类特征预测准确率,采用梯度提升决策树算法来获取组合特征的方式,提升了对数字化样本的组合特征预测的准确率,也提高组合特征获取的效率,同时,采用Spark分布式计算框架,提高了对数字化样本的数据处理速度,从而有效提高决策树模型的构建效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
对应于实施例1中的数据处理的方法,图7示出了与实施例1提供的数据处理的方法一一对应的数据处理的装置,为了便于说明,仅示出了与本发明实施例相关的部分。
如图7所示,该数据处理的装置包括:数据获取模块71、文件生成模块72、分箱模块73、数字化模块74、决策树构建模块75和模型预测模块76。各功能模块详细说明如下:
数据获取模块71,用于获取配置信息,并基于该配置信息获取初始样本数据;
文件生成模块72,用于根据配置信息,按照预设的配置模板生成配置文件;
分箱模块73,用于获取配置文件中的分箱配置信息,根据该分箱配置信息对初始样本数据进行分箱,并基于最终分箱结果对初始样本数据进行处理,得到有效样本数据,其中,有效样本数据包括分箱特征的分箱特征值;
数字化模块74,用于对有效样本数据进行独热编码,并根据独热编码的结果构建数字化样本集;
决策树构建模块75,用于对数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
模型预测模块76,用于将决策树模型中每棵决策树的路径包含的特征作为组合特征,使用该组合特征进行逻辑回归模型的模型预测。
进一步的,该数据处理的装置还包括:
数据描述模块771,用于根据配置文件对初始样本数据进行分析,得到初始样本数据的数据描述;
发送模块772,用于将数据描述发送至用户,以便用户根据该数据描述确定待调整参数;
接收模块773,用于接收用户发送的对待调整参数的调整指令;
文件更新模块774,用于根据调整指令,更新配置文件。
进一步地,分箱配置信息包括空值填充信息和分箱特征,分箱模块73包括:
空值填充子模块730,用于从配置文件中获取空值填充信息,并根据该空值填充信息对初始样本数据进行空值填充;
特征获取子模块731,用于从配置文件中获取分箱特征;
变量确定子模块732,用于根据分箱特征,从初始样本数据中确定待分箱的名义变量和该名义变量对应的m个特征值,其中,m为大于1的正整数;
初始化子模块733,用于将m个特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k大于等于0,并且小于等于m-1;
分箱测试子模块734,用于针对特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m-k个关联指标值;
分箱确定子模块735,用于将m-k个关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从特征值集合中移除;
循环分箱子模块736,用于若k+2达到预设的箱数阈值,则停止分箱,并将第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回分箱测试子模块734继续执行;
结果确定子模块737,用于根据最终分箱结果,确定初始样本数据的分箱特征的分箱特征值,得到有效样本数据。
进一步地,该数据处理的装置还包括:
交叉编码模块781,用于根据配置文件中的交叉配置信息,对数字化样本集中的数字化样本进行交叉变量编码,得到每个数字化样本的交叉特征的交叉特征值;
数据更新模块782,用于使用包含交叉特征的数字化样本,更新数字化样本集。
进一步地,决策树构建模块75包括:
原始树构建子模块751,用于对数字化样本集中的数字化样本采用分类回归树算法,生成原始决策树;
决策树更新子模块752,用于将原始决策树放入决策树模型中,并将该原始决策树作为当前决策树;
残差计算子模块753,用于基于数字化样本集,计算当前决策树的残差向量;
拟合子模块754,用于依据当前决策树的残差向量拟合新的决策树,并将该新的决策树放入决策树模型中;
循环拟合子模块755,用于若决策树模型中决策树的总数低于预设阈值,则将新的决策树作为当前决策树,返回残差计算子模块753继续执行;
决策树输出子模块757,用于若决策树模型中决策树的总数达到预设阈值,则停止拟合新的决策树。
本实施例提供的一种数据处理的装置中各模块实现各自功能的过程,具体可参考前述实施例1的描述,此处不再赘述。
实施例3
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中数据处理的方法,或者,该计算机程序被处理器执行时实现实施例2中数据处理的装置中各模块/单元的功能。为避免重复,这里不再赘述。
可以理解地,所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号和电信信号等。
实施例4
图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备80包括:处理器81、存储器82以及存储在存储器82中并可在处理器81上运行的计算机程序83,例如数据处理的程序。处理器81执行计算机程序83时实现上述各个数据处理的方法实施例中的步骤,例如图1所示的步骤S1至步骤S6。或者,处理器81执行计算机程序83时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块71至模块76的功能。
示例性的,计算机程序83可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器82中,并由处理器81执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序83在终端设备80中的执行过程。例如,计算机程序83可以被分割成数据获取模块、文件生成模块、分箱模块、数字化模块、决策树构建模块和模型预测模块,各模块具体功能如实施例2所示,为避免重复,此处不一一赘述。
终端设备80可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备80可包括,但不仅限于,处理器81、存储器82。本领域技术人员可以理解,图8仅仅是终端设备80的示例,并不构成对终端设备80的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备80还可以包括输入输出设备、网络接入设备、总线等。
所称处理器81可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器82可以是终端设备80的内部存储单元,例如终端设备80的硬盘或内存。存储器82也可以是终端设备80的外部存储设备,例如终端设备80上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器82还可以既包括终端设备80的内部存储单元也包括外部存储设备。存储器82用于存储计算机程序以及终端设备80所需的其他程序和数据。存储器82还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据处理的方法,其特征在于,所述方法包括:
获取配置信息,并基于所述配置信息获取初始样本数据;
根据所述配置信息,按照预设的配置模板生成配置文件;
获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;
对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;
对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
2.如权利要求1所述的数据处理的方法,其特征在于,所述根据所述配置信息,按照预设的配置模板生成配置文件之后,并且所述获取所述配置文件中的分箱配置信息之前,所述方法还包括:
根据所述配置文件对初始样本数据进行分析,得到所述初始样本数据的数据描述;
将所述数据描述发送至用户,以便所述用户根据所述数据描述确定待调整参数;
接收所述用户发送的对所述待调整参数的调整指令;
根据所述调整指令,更新所述配置文件。
3.如权利要求1所述的数据处理的方法,其特征在于,所述分箱配置信息包括空值填充信息和分箱特征,所述获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据包括:
从所述配置文件中获取所述空值填充信息,并根据所述空值填充信息对所述初始样本数据进行空值填充;
从所述配置文件中获取所述分箱特征;
根据所述分箱特征,从所述初始样本数据中确定待分箱的名义变量和所述名义变量对应的m个特征值,其中,m为大于1的正整数;
将m个所述特征值存储到预设的特征值集合中,并设置分箱轮数k的初始值为0,以及第0轮分箱的分箱结果为空,其中,k大于等于0,并且小于等于m-1;
针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,计算所述特征值对应的关联指标值,得到m-k个所述关联指标值;
将m-k个所述关联指标值中的最大值对应的特征值作为目标分裂点,在第k轮分箱的分箱结果的基础上将所述名义变量分为k+2箱,作为第k+1轮分箱的分箱结果,并将该特征值从所述特征值集合中移除;
若k+2达到预设的箱数阈值,则停止分箱,并将所述第k+1轮分箱的分箱结果确定为最终分箱结果,否则,对k进行加1操作后返回所述针对所述特征值集合中的每个特征值,以该特征值为测试分裂点,在第k轮分箱的分箱结果的基础上,将所述名义变量分为k+2箱,计算该特征值对应的关联指标值,得到m-k个所述关联指标值的步骤继续执行;
根据所述最终分箱结果,确定所述初始样本数据的所述分箱特征的分箱特征值,得到有效样本数据。
4.如权利要求1所述的数据处理的方法,其特征在于,所述对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集之后,以及所述对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型之前,所述方法还包括:
根据所述配置文件中的交叉配置信息,对所述数字化样本集中的数字化样本进行交叉变量编码,得到每个数字化样本的交叉特征的交叉特征值;
使用包含所述交叉特征的所述数字化样本,更新所述数字化样本集。
5.如权利要求1所述的数据处理的方法,其特征在于,所述对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型包括:
对所述数字化样本集中的数字化样本采用分类回归树算法,生成原始决策树;
将所述原始决策树放入决策树模型中,并将所述原始决策树作为当前决策树;
基于所述数字化样本集,计算所述当前决策树的残差向量;
依据所述残差向量拟合新的决策树,并将该新的决策树放入所述决策树模型中;
若所述决策树模型中决策树的总数低于预设阈值,则将所述新的决策树作为所述当前决策树,返回所述基于所述数字化样本集,计算所述当前决策树的残差向量的步骤继续执行;
若所述决策树模型中决策树的总数达到预设阈值,则停止拟合新的决策树。
6.一种数据处理的装置,其特征在于,所述装置包括:
数据获取模块,用于获取配置信息,并基于所述配置信息获取初始样本数据;
文件生成模块,用于根据所述配置信息,按照预设的配置模板生成配置文件;
分箱模块,用于获取所述配置文件中的分箱配置信息,根据所述分箱配置信息对所述初始样本数据进行分箱,并基于最终分箱结果对所述初始样本数据进行处理,得到有效样本数据,其中,所述有效样本数据包括分箱特征的分箱特征值;
数字化模块,用于对所述有效样本数据进行独热编码,并根据所述独热编码的结果构建数字化样本集;
决策树构建模块,用于对所述数字化样本集应用梯度提升决策树算法,生成包含n棵决策树的决策树模型,其中,n为大于1的正整数;
模型预测模块,用于将所述决策树模型中每棵决策树的路径包含的特征作为组合特征,使用所述组合特征进行逻辑回归模型的模型预测。
7.如权利要求6所述的数据处理的装置,其特征在于,所述装置还包括:
数据描述模块,用于根据所述配置文件对初始样本数据进行分析,得到所述初始样本数据的数据描述;
发送模块,用于将所述数据描述发送至用户,以便所述用户根据所述数据描述确定待调整参数;
接收模块,用于接收所述用户发送的对所述待调整参数的调整指令;
文件更新模块,用于根据所述调整指令,更新所述配置文件。
8.如权利要求6所述的数据处理的装置,其特征在于,所述装置还包括:
交叉编码模块,用于根据所述配置文件中的交叉配置信息,对所述数字化样本集中的数字化样本进行交叉变量编码,得到每个数字化样本的交叉特征的交叉特征值;
数据更新模块,用于使用包含所述交叉特征的所述数字化样本,更新所述数字化样本集。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述数据处理的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据处理的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810309823.0A CN108764273B (zh) | 2018-04-09 | 2018-04-09 | 一种数据处理的方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810309823.0A CN108764273B (zh) | 2018-04-09 | 2018-04-09 | 一种数据处理的方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108764273A true CN108764273A (zh) | 2018-11-06 |
CN108764273B CN108764273B (zh) | 2023-12-05 |
Family
ID=63981389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810309823.0A Active CN108764273B (zh) | 2018-04-09 | 2018-04-09 | 一种数据处理的方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764273B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919783A (zh) * | 2019-01-31 | 2019-06-21 | 德联易控科技(北京)有限公司 | 车险理赔案件的风险识别方法、装置、设备及存储介质 |
CN109978056A (zh) * | 2019-03-26 | 2019-07-05 | 广东工业大学 | 一种基于机器学习的地铁乘客分类方法 |
CN110070270A (zh) * | 2019-03-29 | 2019-07-30 | 广东民航机场建设有限公司 | 用于登机桥固定端的传送设备控制方法和装置 |
CN110084377A (zh) * | 2019-04-30 | 2019-08-02 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110175098A (zh) * | 2019-02-03 | 2019-08-27 | 中国银联股份有限公司 | 一种信息处理方法以及信息处理系统 |
CN110221572A (zh) * | 2019-04-26 | 2019-09-10 | 北京龙鼎源科技股份有限公司 | 系统控制方法及装置 |
CN110245140A (zh) * | 2019-06-12 | 2019-09-17 | 同盾控股有限公司 | 数据分箱处理方法及装置、电子设备和计算机可读介质 |
CN110245688A (zh) * | 2019-05-21 | 2019-09-17 | 中国平安财产保险股份有限公司 | 一种数据处理的方法及相关装置 |
CN110384483A (zh) * | 2019-07-23 | 2019-10-29 | 福建中医药大学 | 运动平衡评估方法及计算机终端 |
CN110472659A (zh) * | 2019-07-05 | 2019-11-19 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机可读存储介质和计算机设备 |
CN110598845A (zh) * | 2019-08-13 | 2019-12-20 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN110688429A (zh) * | 2019-08-14 | 2020-01-14 | 中国平安人寿保险股份有限公司 | 目标员工筛选方法、装置、计算机设备及存储介质 |
CN110706015A (zh) * | 2019-08-21 | 2020-01-17 | 北京大学(天津滨海)新一代信息技术研究院 | 一种面向广告点击率预测的特征选取方法 |
CN110970100A (zh) * | 2019-11-04 | 2020-04-07 | 广州金域医学检验中心有限公司 | 检测项目编码方法、装置、设备和计算机可读存储介质 |
CN110990857A (zh) * | 2019-12-11 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 保护隐私安全的多方联合进行特征评估的方法及装置 |
CN111221517A (zh) * | 2019-10-12 | 2020-06-02 | 中国平安财产保险股份有限公司 | 一种模型创建方法、装置、计算机设备和可读存储介质 |
CN111368901A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于联邦学习的多方联合建模方法、设备和介质 |
CN111782900A (zh) * | 2020-08-06 | 2020-10-16 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN111898765A (zh) * | 2020-07-29 | 2020-11-06 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及可读存储介质 |
CN112183644A (zh) * | 2020-09-29 | 2021-01-05 | 中国平安人寿保险股份有限公司 | 指标稳定性的监控方法、装置、计算机设备及介质 |
CN112367396A (zh) * | 2020-11-06 | 2021-02-12 | 支付宝(杭州)信息技术有限公司 | 分布式集群中的样本特征分位点确定方法及装置 |
CN112698988A (zh) * | 2020-12-30 | 2021-04-23 | 安徽迪科数金科技有限公司 | 一种基于分布式系统的解析超大文本文件处理方法 |
CN113344626A (zh) * | 2021-06-03 | 2021-09-03 | 上海冰鉴信息科技有限公司 | 一种基于广告推送的数据特征优化方法及装置 |
WO2021232588A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 食品安全风险评估方法、装置、设备及存储介质 |
CN114329127A (zh) * | 2021-12-30 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 特征分箱方法、装置及存储介质 |
CN114496209A (zh) * | 2022-02-18 | 2022-05-13 | 青岛市中心血站 | 一种献血智能决策方法及系统 |
CN114816506A (zh) * | 2022-04-21 | 2022-07-29 | 北京金堤科技有限公司 | 模型特征快速处理方法、装置以及存储介质和电子设备 |
CN115168848A (zh) * | 2022-09-08 | 2022-10-11 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN117408787A (zh) * | 2023-12-15 | 2024-01-16 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070185896A1 (en) * | 2006-02-01 | 2007-08-09 | Oracle International Corporation | Binning predictors using per-predictor trees and MDL pruning |
CN105786860A (zh) * | 2014-12-23 | 2016-07-20 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
CN107025228A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 一种问题推荐方法及设备 |
-
2018
- 2018-04-09 CN CN201810309823.0A patent/CN108764273B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070185896A1 (en) * | 2006-02-01 | 2007-08-09 | Oracle International Corporation | Binning predictors using per-predictor trees and MDL pruning |
CN105786860A (zh) * | 2014-12-23 | 2016-07-20 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN107025228A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 一种问题推荐方法及设备 |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919783A (zh) * | 2019-01-31 | 2019-06-21 | 德联易控科技(北京)有限公司 | 车险理赔案件的风险识别方法、装置、设备及存储介质 |
CN110175098A (zh) * | 2019-02-03 | 2019-08-27 | 中国银联股份有限公司 | 一种信息处理方法以及信息处理系统 |
CN110175098B (zh) * | 2019-02-03 | 2023-01-10 | 中国银联股份有限公司 | 一种信息处理方法以及信息处理系统 |
CN109978056A (zh) * | 2019-03-26 | 2019-07-05 | 广东工业大学 | 一种基于机器学习的地铁乘客分类方法 |
CN110070270A (zh) * | 2019-03-29 | 2019-07-30 | 广东民航机场建设有限公司 | 用于登机桥固定端的传送设备控制方法和装置 |
CN110221572A (zh) * | 2019-04-26 | 2019-09-10 | 北京龙鼎源科技股份有限公司 | 系统控制方法及装置 |
CN110221572B (zh) * | 2019-04-26 | 2021-04-20 | 北京龙鼎源科技股份有限公司 | 系统控制方法及装置 |
CN110084377A (zh) * | 2019-04-30 | 2019-08-02 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110084377B (zh) * | 2019-04-30 | 2023-09-29 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110245688B (zh) * | 2019-05-21 | 2024-05-28 | 中国平安财产保险股份有限公司 | 一种数据处理的方法及相关装置 |
CN110245688A (zh) * | 2019-05-21 | 2019-09-17 | 中国平安财产保险股份有限公司 | 一种数据处理的方法及相关装置 |
CN110245140A (zh) * | 2019-06-12 | 2019-09-17 | 同盾控股有限公司 | 数据分箱处理方法及装置、电子设备和计算机可读介质 |
WO2020248356A1 (zh) * | 2019-06-12 | 2020-12-17 | 同盾控股有限公司 | 数据分箱处理方法及装置、电子设备和计算机可读介质 |
CN110472659B (zh) * | 2019-07-05 | 2024-03-08 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机可读存储介质和计算机设备 |
CN110472659A (zh) * | 2019-07-05 | 2019-11-19 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机可读存储介质和计算机设备 |
CN110384483A (zh) * | 2019-07-23 | 2019-10-29 | 福建中医药大学 | 运动平衡评估方法及计算机终端 |
CN110598845A (zh) * | 2019-08-13 | 2019-12-20 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN110598845B (zh) * | 2019-08-13 | 2023-04-07 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN110688429A (zh) * | 2019-08-14 | 2020-01-14 | 中国平安人寿保险股份有限公司 | 目标员工筛选方法、装置、计算机设备及存储介质 |
CN110706015A (zh) * | 2019-08-21 | 2020-01-17 | 北京大学(天津滨海)新一代信息技术研究院 | 一种面向广告点击率预测的特征选取方法 |
CN111221517A (zh) * | 2019-10-12 | 2020-06-02 | 中国平安财产保险股份有限公司 | 一种模型创建方法、装置、计算机设备和可读存储介质 |
CN110970100A (zh) * | 2019-11-04 | 2020-04-07 | 广州金域医学检验中心有限公司 | 检测项目编码方法、装置、设备和计算机可读存储介质 |
CN110990857A (zh) * | 2019-12-11 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 保护隐私安全的多方联合进行特征评估的方法及装置 |
CN111368901A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于联邦学习的多方联合建模方法、设备和介质 |
WO2021232588A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 食品安全风险评估方法、装置、设备及存储介质 |
CN111898765A (zh) * | 2020-07-29 | 2020-11-06 | 深圳前海微众银行股份有限公司 | 特征分箱方法、装置、设备及可读存储介质 |
CN111782900B (zh) * | 2020-08-06 | 2024-03-19 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN111782900A (zh) * | 2020-08-06 | 2020-10-16 | 平安银行股份有限公司 | 异常业务检测方法、装置、电子设备及存储介质 |
CN112183644A (zh) * | 2020-09-29 | 2021-01-05 | 中国平安人寿保险股份有限公司 | 指标稳定性的监控方法、装置、计算机设备及介质 |
CN112183644B (zh) * | 2020-09-29 | 2024-05-03 | 中国平安人寿保险股份有限公司 | 指标稳定性的监控方法、装置、计算机设备及介质 |
CN112367396A (zh) * | 2020-11-06 | 2021-02-12 | 支付宝(杭州)信息技术有限公司 | 分布式集群中的样本特征分位点确定方法及装置 |
CN112698988A (zh) * | 2020-12-30 | 2021-04-23 | 安徽迪科数金科技有限公司 | 一种基于分布式系统的解析超大文本文件处理方法 |
CN113344626A (zh) * | 2021-06-03 | 2021-09-03 | 上海冰鉴信息科技有限公司 | 一种基于广告推送的数据特征优化方法及装置 |
CN114329127A (zh) * | 2021-12-30 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 特征分箱方法、装置及存储介质 |
CN114329127B (zh) * | 2021-12-30 | 2023-06-20 | 北京瑞莱智慧科技有限公司 | 特征分箱方法、装置及存储介质 |
CN114496209B (zh) * | 2022-02-18 | 2022-09-27 | 青岛市中心血站 | 一种献血智能决策方法及系统 |
CN114496209A (zh) * | 2022-02-18 | 2022-05-13 | 青岛市中心血站 | 一种献血智能决策方法及系统 |
CN114816506A (zh) * | 2022-04-21 | 2022-07-29 | 北京金堤科技有限公司 | 模型特征快速处理方法、装置以及存储介质和电子设备 |
CN115168848B (zh) * | 2022-09-08 | 2022-12-16 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN115168848A (zh) * | 2022-09-08 | 2022-10-11 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN117408787A (zh) * | 2023-12-15 | 2024-01-16 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
CN117408787B (zh) * | 2023-12-15 | 2024-03-05 | 江西求是高等研究院 | 一种基于决策树的根因挖掘分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108764273B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764273A (zh) | 一种数据处理的方法、装置、终端设备及存储介质 | |
CN108733631A (zh) | 一种数据评估方法、装置、终端设备及存储介质 | |
US9984336B2 (en) | Classification rule sets creation and application to decision making | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN108446794A (zh) | 一种基于多个卷积神经网络结合架构深度学习预测方法 | |
CN106600067A (zh) | 多维立方体模型的优化方法和装置 | |
CN107169628A (zh) | 一种基于大数据互信息属性约简的配电网可靠性评估方法 | |
Xue et al. | Optimizing ontology alignment through memetic algorithm based on partial reference alignment | |
CN112036483B (zh) | 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质 | |
CN113822315A (zh) | 属性图的处理方法、装置、电子设备及可读存储介质 | |
CN115221396A (zh) | 基于人工智能的信息推荐方法、装置及电子设备 | |
CN116489038A (zh) | 网络流量的预测方法、装置、设备和介质 | |
CN109062867A (zh) | 对象和属性同时增加的矩阵动态属性约简方法 | |
CN114721898A (zh) | 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 | |
CN111898766B (zh) | 基于自动机器学习的以太坊燃料限制预测方法及装置 | |
CN113656692B (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN113779933A (zh) | 商品的编码方法、电子设备及计算机可读存储介质 | |
CN109086373B (zh) | 一种构建公平的链接预测评估系统的方法 | |
CN104615605B (zh) | 用于预测数据对象的类目的方法和装置 | |
CN113190662A (zh) | 基于篇章结构图网络的话题分割方法 | |
CN111026661A (zh) | 一种软件易用性全面测试方法及系统 | |
Xie | Research on Weibo user behavior system for subjective perception and big data mining technology | |
CN115238075B (zh) | 一种基于超图池化的文本情感分类方法 | |
CN112862536B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
Wang | Human Resource Network Information Recommendation Method Based on Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |