CN110659266A

CN110659266A - 一种模型的数据处理方法

Info

Publication number: CN110659266A
Application number: CN201811363487.4A
Authority: CN
Inventors: 刘俊龙; 周鹏程; 张发恩
Original assignee: Innovation Qizhi (nanjing) Technology Co Ltd
Current assignee: Innovation Qizhi (nanjing) Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-01-07

Abstract

本发明涉及数据处理技术领域，尤其涉及一种模型的数据处理方法，包括步骤：提供主模型X；P2、利用特征数据对主模型X进行测试获得测试结果；P3、根据测试结果在特征数据取值的效果分布反馈，选择需要进一步扩展或构造的特征数据；P4、对选择的需要进一步扩展或构造的特征数据进行构造获得新特征数据；P5、利用新构造的新特征数据重新训练主模型X获得模型X₁并筛选构造的新特征数据；P6、利用筛选出的新特征数据更新特征数据集获得更新之后的特征数据集；及重新回到步骤P2，直至模型X_n满足预设的停止条件。根据测试结果在特征数据取值的效果分布反馈，选择需要进一步扩展或构造的特征数据，使筛选出来的特征数据对主模型具有较优的改善空间。

Description

一种模型的数据处理方法

【技术领域】

本发明涉及数据处理技术领域，尤其涉及一种模型的数据处理方法。

【背景技术】

现有的特征工程方法通常根据开发者的业务经验、可视化现象设计特征，随机、启发组合或者变换算子构造新特征，在通过训练模型的测试结果进行筛选。这些方法往往无法全面结合特征数据的属性，对模型性能无法得到较好的优化或者对模型的训练时间较长又或者复杂程度高。

【发明内容】

针对现有的特征筛选规则存在对模型性能评估较差的缺陷，本发明提供一种模型的数据处理方法。

本发明为了解决上述技术问题，提供一种模型的数据处理方法，其包括如下步骤：

P1、提供一个主模型X；

P2、利用特征数据对主模型X进行测试获得测试结果；

P3、根据测试结果在特征数据取值的效果分布反馈，选择需要进一步扩展或构造的特征数据；

P4、对选择的需要进一步扩展或构造的特征数据进行构造获得新特征数据；

P5、利用新构造的新特征数据重新训练主模型X获得模型X₁并筛选构造的新特征数据；

P6、利用筛选出的新特征数据更新特征数据集获得更新之后的特征数据集；及

P7、重新回到步骤P2，直至模型X_n满足预设的停止条件。

优选地，所述步骤P3中选择需要进一步扩展或构造的特征数据包括如下规则及模型：启发式规则、机器学习模型和强化学习模型。

优选地，上述步骤P5中，包括利用新特征数据训练模型获得新模型并筛选构造的新特征数据和利用性能评估函数对新模型进行性能评估，若新模型的性能评估值满足预设条件，则停止算法步骤。

优选地，所述启发式规则包括如下步骤：

S01、训练一个二分模型；

S02、计算二分模型在特征数据上的效果分布；

S03、根据效果分布找出不平衡特征，对不平衡特征做进一步展开或构造获得新特征数据；

S04、利用新特征数据返回步骤S02；

如此反复循环，直至进一步展开或者构造的新特征数据在二分模型上取值均衡为止，停止算法。

优选地，所述机器学习模型包括如下步骤：

T01、提供一个模型M；

T02、提供训练数据集

交叉验证集模型性能评估函数s，特征生成op集合F；

T03、设定最大迭代次数T，性能阈值∈₀,∈₁,∈₂；

T04、基于训练数据集D_tr对所述模型M进行训练获得模型M⁽⁰⁾；

T05、利用交叉验证集D_cv和模型性能评估函数S对所述模型M⁽⁰⁾进行性能评估，

T06、根据模型M⁽⁰⁾的性能决定是否需要对特征数据做进一步扩展或构造。

优选地，强化学习模型包括如下步骤：

R01、对特征数据的特征进行一维运算获得新特征；

R02、根据M01中获得新特征对模型进行训练，获得特征数据集的效果分布；

R03、根据效果分布结果选择是否需要对M01中获得的新特征记性二维运算获得新特征M03；

R04、重复上述步骤M02，直至获得最终的结果。

优选地，上述步骤P4中对选择的需要进行扩展或构造的算子包括传统的特征工程算子，具体地，传统的特征工程算子包括：交叉运算、归一化或者主成分分析。

与现有技术相比，根据测试结果在特征数据取值的效果分布反馈，选择需要进一步扩展或构造的特征数据，使得筛选出来的特征数据对主模型具有较优的改善空间，因此更好的对主模型进行训练，使得主模型得到最大的优化并且，利用新构造的特征数据重新训练主模型X获得模型X1并筛选构造的新特征数据，筛选构造的新特征数据对模型具有较大的提升空间，进一步使得模型获得较优的改善空间。

利用启发式规则、机器学习模型和强化学习模型选择需要进一步扩展或者构造的特征数据，使得选择特征数据具有较大全面性，避免剔除掉相关特征数据，使得构造出来的特征数据对主模型具有更可靠的改善空间，以更好的得到优化的模型。

不仅利用机器学习训练模型的反馈来筛选新特征，并且用其来反向构造新特征，使得更好的筛选或者构造出新特征，对主模型得到更好的训练。

利用强化学习模型选择需要进一步扩展或构造的新特征，对特征数据进行多维运算，避免去除一些具有更优改善空间的特征，使得构造的特征数据对主模型具有全面的测试，更好的获得较优的特征数据。

结合启发式规则、机器学习模型和强化学习模型同时筛选需要做进一步扩展或者构造的特征对象，并且分别通过启发式规则、机器学习模型和强化学习模型中筛选出来的特征数据进行构造后对主模型进行训练，根据测试结果得出最终模型，使得最终模型的效果得到最好的优化。

【附图说明】

图1是本发明中模型的数据处理方法的流程图；

图2是本发明中步骤P2中获得特征数据的流程图；

图3是本发明中利用启发式规则选出需要进一步扩展或者构造的特征数据的流程图；

图4是本发明中利用机器学习模型选出需要进一步扩展或者构造的特征数据的流程图；

图5是本发明中利用强化学习选出需要进一步扩展或者构造的特征数据的流程图。

【具体实施方式】

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供一种模型的数据处理方法，其包括如下步骤：

P1、提供一个主模型X；

P2、利用特征数据对主模型X进行测试获得测试结果；

P7、重新回到步骤P2，直至模型X_n满足预设的停止条件。

其中步骤P7中预设的停止条件为根据提供的模型性能评估函数评估模型X_n的性能是否符合预设的性能值。

上述步骤P1中提供的主模型X为基于基础的未进行特征筛选及构造的数据，选择或建立的模型函数，其用于基于原始数据，输出对应的结果。

请参阅图2，上述步骤P2中特征数据的获得主要是采用特征工程相关软件和方法并结合编码进行特征过程的各项处理，是将数据属性转换为合适算法模型使用的数据特征的过程，从数据中提取与算法模型高度相关的有效特征，去除无关的、冗余的数据属性。

步骤P2中的特征数据的获得主要包括如下步骤：

P21、根据领域知识和经验，通过头脑风暴法对所有数据属性进行分析，挑选合适的数据属性作为候选特征。同时也运用统计规则或机器学习技术对候选特征或者各种组合数据进行计算推导出新的特征；

P22、对候选特征进行特征化处理；

P23、选择和获得模型和算法最好性能的特征集；

P24、降低特征矩阵维度，并形成特征库提供给主模型使用。

上述步骤P22中特征处理的工程方法包括如下处理步骤:P221通过离散化方法对多个连续型特征进行离散处理；P222通过归一化方法对连续型特征进行无量纲化处理，以解决数据之间的可比性问题；P223通常使用哑编码的方式将定性特征转换为定量特征，这种"量化"通常是通过引入"哑变量"未完成的:哑编码是实现One-Hot的一种方式，能够提高模型的精度。

步骤P23中，选择特征集从两方面考虑，一是特征是否发散，二是特征与目标的相关性。本发明在Filter(过滤)、Wrapper(包装)和Embedded(嵌入)这三种特征选择理论方法的指导下，采用如下工程上选择特征集:1)采用Filter的卡方检验、互信息法来计算每一个特征与响应变量的相关性，根据相关性排序选择特征；2)采用Wrapper的逻辑递归消除特征法，使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练；3)采用Embedded的基于惩罚项的特征选择法，使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。

上述步骤P24中采用基于L1惩罚项的特征选择法、主成分分析法(PCA)和线性判别分析(LDA)进行特征降维。PCA是一种无监督的降维方法，让映射后的样本具有最大的发散性；LDA是一种有监督的降维方法，让映射后的样本有最好的分类性能。

上述步骤P4中对经过P3选择出来的需要进一步扩展或构造的特征数据进行扩展或构造的算子包括各类传统的特征工程算子。具体地，传统的特征工程算子包括：交叉运算、归一化或者主成分分析等。

上述步骤P5、利用新构造的新特征数据重新训练主模型X获得模型X₁的同时筛选构造的新特征数据，此处，所筛选出的新特征数据是新生成的新特征数据中对主模型X的性能评估影响比较大的新特征数据。对主模型X影响比较大可以理解为新特征数据在模型X上的取值效果分布反馈中，造成效果分布不均衡的特征。比如A特征数据的分布率为20％，B特征数据的分布率为80％，则特征A为效果不均衡特征，对主模型X具有较大的影响，因此，此处筛选出来的是A特征数据。

利用筛选出的新特征数据更新特征数据获得更新特征数据，获得更新特征数据之后回到步骤P2。当回到步骤P2中时，是利用更新数据特征对模型X1进行测试获得测试结果，然后进行步骤P3、以及P4，到了步骤P5中时，是利用新构造的另一新特征数据重新训练模型X1获得模型X2并筛选构造的新特征数据，利用筛选出的新特征数据更新特征数据获得更新特征数据，重新回到步骤P2，直至模型X_n满足停止条件。每次循环过程中到执行步骤P5时，除了训练模型获得新模型并筛选构造的新特征数据之外，还会利用性能评估函数对新模型进行性能评估，若新模型的性能评估值满足预设条件，则停止。

上述步骤P3中选择需要进一步扩展或构造的特征数据包括如下规则及模型：

启发式规则、机器学习模型和强化学习模型。

请参阅图3，可选地，启发式规则可包括如下步骤：

S01、训练一个二分模型；

S02、计算二分模型在特征数据上的效果分布；

S04、利用新特征数据返回步骤S02；

以下举例对启发式规则做示例描述：

具体利用性别特征“女”和“男”对二分模型进行测试，发现性别特征“女”取值精度远低于“男”，故选择特征“女”对其他数据特征中的其它特征数据做进一步展开。在本实施方式中以“特征交叉”为例进行说明，将特征“女”和特征“学生”进行“特征交叉”构造出了新特征“女学生”，将新特征“女学生”加入原始的特征数据中形成新的特征数据，再利用新形成的特征数据训练二分模型，查看各个特征取值效果是否均衡，如果特征取值的效果已经均衡，获得优选特征数据，则终止算法，否则，继续选出不平衡的特征数据做进一步展开，如此循环，直至获得最终优选特征数据。

在本发明另外的一些实施例中，可基于使用者认为的经验判断，以实现特征数据的筛选。

请参阅图4，机器学习模型包括如下步骤：

T01、提供一个模型M；

T02、提供训练数据集

交叉验证集

模型性能评估函数s，特征生成op集合F；

T03、设定最大迭代次数T，及设定至少一性能阈值∈₀,∈₁,∈₂；

T04、基于训练数据集D_tr对所述模型M进行训练获得模型模型M⁽⁰⁾；

T05、利用交叉验证集D_cv和模型性能评估函数S对所述模型模型M⁽⁰⁾进行性能评估，

T06、根据模型M⁽⁰⁾的性能决定是否需要对训练数据集D_tr中的特征数据做进一步扩展或构造；

上述步骤T06具体的算法流程如下：

若

则返回M⁽⁰⁾，终止算法；否则

令t＝1,F_tried＝{}，并开始如下循环：

步骤(a)：根据模型性能评估函数s得到

中除去已经尝试过的特征集合F_tried后、n^(t-1)个特征数据的不均衡程度，

具体而言，假设第i个特征有个取值，那么利用s可以得到这

个取值的评估，

于是就有

需要说明的是，在步骤(a)中一种或许可以尝试的做法是，只计算

中除去已经尝试过的特征集合F_tried后的特征取值的评估。换句话说，我们不会使用生成的特征来继续生成新的特征、而是只使用原训练数据集Dtr中的原始特征数据来生成新的特征数据；

步骤(b)假设

若

即最不均衡的特征仍然足够均衡；

则返回M^(t-1)，终止算法；否则，利用F与

(第t-1步的j个可尝试的特征)生成新的特征集合F^(t-1)(※)；

步骤(c)取F^(t-1)中的一个或多个新特征加进

中。假设这一步得到了m^(t-1)个新的训练集特征：

根据同样的特征生成规则，得到m^(t-1)个新的交叉验证集特征：

令

利用

训练M^*(t-1)(i)，利用

和s得到M^*(t-1)(i)的性能

步骤(d)假设

若

则返回M^*(t-1)(j)，终止算法；

步骤(e)否则，令

t＝t+1

(i)若此时t≥T，则返回M^*(t-1)( _j ⁾(若)或M^(t-1)(若

)，终止算法；

(ii)若

(新特征的加入带来了足够大的提升)

则令

然后利用

训练M并得到M^(t)、并利用和s得到M^(t)的性能

返回(a)步；

(iii)若

(新特征的加入没有带来足够大的提升)

则令

以及

并返回步骤(b)。

上述步骤(b)中，对于※处如何生成新的特征集合，一个朴素的做法是使用feature importance top K的特征来和目标特征

生成交叉特征。如果详细展开讨论的话，可以考虑采用如下流程：，

(1)加入四则运算、多特征组合、连续特征的离散化、连续特征的标准化等运算规则丰富特征生成op集合F；

在(1)的基础上，加入特征选择的过程，特征选择有许多方法，包括但不限于：

将特征分解为如下几个系列的特征：不相关的特征、冗余的特征、弱相关且非冗余的特征、强相关的特征。然后，一般最优特征子集都应该由所有强相关的特征和某些弱相关且非冗余的特征组成。其中，可以使用互信息(Mutual Information，MI)作为相关性(relevance)和冗余性(redundancy)的衡量；

利用元特征(meta features)给新特征打分，或者专门训练一些MLP来给候选特征打分

有了完备的特征生成步骤(1)和良好的特征选择步骤(2)的话，※处的新特征集合F^(t-1)的性能就会好很多，

上述算法的性能也会随之好很多。由于(1)和(2)这两个步骤相对独立，后期的改善和拓展也会相对简易。

请参阅图5，强化学习模型是一种以环境反馈作为输入，通过试错的方法使系统行为从环境中获得的积累赏值最大，从而获得最优行为策略的机器学习方法。

强化学习模型具体包括如下步骤：

R01、提供一个模型Y；

R02、对特征数据进行一维运算获得新特征数据；

R03、对R02中获得的新特征数据进行二维运算或者更高阶的运算获得的新特征数据；

R04、利用R02或R03中获得的新特征数据对模型Y分别进行训练；

R05、根据R04中新特征数据对模型Y训练获得的效果分布反馈，选出最优特征数据。

以下举例进行说明，比如特征数据包括了性别特征、年龄特征、身高特征、体重特征和学历特征，其中性别特征包括“女”和“男”。在步骤R02中对特征数据进行一维运算具体为：将性别特征“女”和性别特征“男”分别和年龄特征做交叉运算，此时得到第一交叉特征：“女年龄”和“男年龄”，此时对第一交叉特征进行步骤R03中的二维运算，将第一交叉特征“女年龄”和“男年龄”在进行交叉运算获得第二交叉特征：“女男年龄”，依次类推，对特征数据进行多维运算，然后将经过运算之后的特征数据对模型Y训练获得效果分布，根据效果分布反馈找出最优的特征数据。

以上所述仅为本发明较佳实施例而已，并不用以限制本发明，凡在本发明原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种模型的数据处理方法，其特征在于：其包括如下步骤：

P1、提供一个主模型X；

P2、利用特征数据对主模型X进行测试获得测试结果；

P7、重新回到步骤P2，直至模型X_n满足预设的停止条件。

2.如权利要求1所述模型的数据处理方法，其特征在于：所述步骤P3中选择需要进一步扩展或构造的特征数据包括如下规则及模型：启发式规则、机器学习模型和强化学习模型。

3.如权利要求1所述模型的数据处理方法，其特征在于：上述步骤P5中，包括利用新特征数据训练模型获得新模型并筛选构造的新特征数据和利用性能评估函数对新模型进行性能评估，若新模型的性能评估值满足预设条件，则停止算法步骤。

4.如权利要求2所述模型的数据处理方法，其特征在于：所述启发式规则包括如下步骤：

S01、训练一个二分模型；

S02、计算二分模型在特征数据上的效果分布；

S04、利用新特征数据返回步骤S02；

5.如权利要求2所述模型的数据处理方法，其特征在于：所述机器学习模型包括如下步骤：

T01、提供一个模型M；

T02、提供训练数据集

交叉验证集

模型性能评估函数s，特征生成op集合F；

T03、设定最大迭代次数T，性能阈值∈₀,∈₁,∈₂；

T06、根据模型M⁽⁰⁾的性能

决定是否需要对特征数据做进一步扩展或构造。

6.如权利要求2所述模型的数据处理方法，其特征在于：强化学习模型包括如下步骤：

R01、对特征数据的特征进行一维运算获得新特征；

R04、重复上述步骤M02，直至获得最终的结果。

7.如权利要求1所述模型的数据处理方法，其特征在于：上述步骤P4中对选择的需要进行扩展或构造的算子包括传统的特征工程算子，具体地，传统的特征工程算子包括：交叉运算、归一化或者主成分分析。