CN107168965A

CN107168965A - 特征工程策略确定方法及装置

Info

Publication number: CN107168965A
Application number: CN201610127589.0A
Authority: CN
Inventors: 杜玮; 张柯; 施兴; 杨强鹏; 杨军; 谢树坤; 王晓光; 余舟华; 李文鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2017-09-15
Anticipated expiration: 2036-03-07
Also published as: CN107168965B

Abstract

本公开实施例提供了一种特征工程策略确定方法及装置，该方法通过获取用于训练预设模型的预设维度特征的多个特征值；根据所述多个特征值的排序确定多个分位区间；获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例；计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率；根据所有分位区间对应的所述正样本比例之间的正样本变化率，可以确定用于处理所述预设维度特征的目标特征工程策略。本公开能够挖掘每个特征的本质属性，根据每个特征的本质属性自动的选择最适合该特征的特征工程策略，这样不仅可以发挥每个特征最大的“潜能”，而且可以提高数据模型的预测精度，提高处理效率。

Description

特征工程策略确定方法及装置

技术领域

本公开涉及线性模型特征处理技术领域，尤其涉及特征工程策略确定方法及装置。

背景技术

目前在建立芝麻信用分数据模型的过程中，需要利用大规模机器学习算法对海量数据进行分类或回归计算，在将海量数据输入到机器学习算法之前，需要首先对海量数据利用特征工程策略进行处理，再将处理后的海量数据输入到机器学习算法中。

由于不同特征的特征值有不同的特点，不同的特征工程策略也有不同的特点，这样如果对所有特征都采用单一的特征工程策略进行处理，将特征工程策略应用在不适合的特征上，可能导致模型的训练效果不理想。

而且，由于能够运用到可能与建模目标有因果关系的特征种类繁多，具初步统计，能够用来进入芝麻信用分数据模型训练的特征数量有上千个甚至上万个，这样如果利用目前常用的人工观察的方法选择特征工程策略将导致效率非常低。

发明内容

为克服相关技术中存在的问题，本公开提供一种特征工程策略确定方法及装置。

根据本公开实施例的第一方面，提供一种特征工程策略确定方法，包括：

获取用于训练预设模型的预设维度特征的多个特征值；

根据所述多个特征值的排序确定多个分位区间；

获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例；

计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率；

根据所有分位区间对应的所述正样本比例之间的正样本变化率，确定用于处理所述预设维度特征的目标特征工程策略。

可选地，所述根据多个特征值的排序确定多个分位区间，包括：

将多个特征值进行排序；

根据预设区间数量将至少一个的特征值确定为分位点，以及，每个分位点的位置信息；

按照每个分位点的位置信息，利用分位点将排序后的多个特征值分隔成预设区间数量个分位区间，每个所述分位区间包含相同数量个所述特征值。

可选地，所述确定用于处理所述预设维度特征的目标特征工程策略，包括：

判断所有正样本变化率是否满足预设连续化处理条件；

当所有正样本变化率满足预设连续化处理条件时，计算多个特征值的离差系数；

判断所述离差系数是否大于第一预设阈值；

当所述离差系数大于第一预设阈值时，确定预设特征工程策略为等频率连续归一方式；

当所述离差系数小于或等于第一预设阈值时，确定预设特征工程策略为等域宽连续归一方式。

可选地，所述判断所有正样本变化率是否满足预设连续化处理条件，包括：

按照预设先后顺序依次判断所有正样本变化率是否均大于预设变化率阈值；

当所有正样本变化率均大于预设变化率阈值时，确定满足预设连续化处理条件；

当存在小于或等于预设变化率阈值的正样本变化率时，将小于预设变化率阈值的正样本变化率相关联的两个分位区间合并；判断合并后的分位区间的正样本变化率是否大于预设变化率阈值，当合并后分位区间的变化率大于预设变化率阈值时，确定所有正样本变化率满足预设连续化处理条件。

可选地，所述将小于预设变化率阈值的正样本变化率相关联的两个分位区间合并，包括：

当小于或等于预设变化率阈值的正样本变化率是预设先后顺序中第一个正样本变化率时，将所述第一个正样本变化率对应的两个分位区间合并；

当小于或等于预设变化率阈值的正样本变化率不是预设先后顺序中第一个正样本变化率时，将当前正样本变化率在预设先后顺序的前一个正样本变化率对应的两个分位区间合并。

可选地，所述确定用于处理所述预设维度特征的目标特征工程策略，还包括：

当存在不满足预设连续化处理条件的正样本变化率时，判断所述正样本变化率是否满足预设离散化处理条件；

当所述正样本变化率满足预设离散化处理条件时，获取用于分隔所述正样本变化率对应的两个分位区间的分位点，并将所述分位点存入预设分位点集合中；

判断所述预设分位点集合中包含的分位点的数量是否大于第二预设阈值；

当所述预设分位点集合中包含的分位点的数量大于第二预设阈值时，确定预设特征工程策略为多特征离散方式；

当所述分位点集合中包含的分位点的数量小于或等于第二预设阈值时，确定预设特征工程策略为单一特征离散方式。

当所述正样本变化率不满足预设离散化处理条件时，确定预设特征工程策略为WOE方式。

可选地，所述获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例，包括：

获取预设模型的目标维度特征；

将每个分位区间中满足目标维度特征的至少一个特征值确定为正样本；

统计每个分位区间中正样本的数量，以及，分位区间中特征值的数量；

将每个分位区间中正样本的数量与分位区间中特征值的数量的比值确定为正样本比例。

根据本公开实施例的第二方面，提供一种特征工程策略确定装置，包括：

第一获取模块，用于获取用于训练预设模型的预设维度特征的多个特征值；

第一确定模块，用于根据所述多个特征值的排序确定多个分位区间；

第二获取模块，用于获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例；

计算模块，用于计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率；

第二确定模块，用于根据所有分位区间对应的所述正样本比例之间的正样本变化率，确定用于处理所述预设维度特征的目标特征工程策略。

可选地，所述第一确定模块包括：

排序子模块，用于将多个特征值进行排序；

第一确定子模块，用于根据预设区间数量将至少一个的特征值确定为分位点，以及，每个分位点的位置信息；

分隔子模块，用于按照每个分位点的位置信息，利用分位点将排序后的多个特征值分隔成预设区间数量个分位区间，每个所述分位区间包含相同数量个所述特征值。

可选地，所述第二确定模块包括：

第一判断子模块，用于判断所有正样本变化率是否满足预设连续化处理条件；

计算子模块，用于当所有正样本变化率满足预设连续化处理条件时，计算多个特征值的离差系数；

第二判断子模块，用于判断所述离差系数是否大于第一预设阈值；

第二确定子模块，用于当所述离差系数大于第一预设阈值时，确定预设特征工程策略为等频率连续归一方式；

第三确定子模块，用于当所述离差系数小于或等于第一预设阈值时，确定预设特征工程策略为等域宽连续归一方式。

可选地，所述第一判断子模块包括：

判断单元，用于按照预设先后顺序依次判断所有正样本变化率是否均大于预设变化率阈值；

确定单元，用于当所有正样本变化率均大于预设变化率阈值时，确定满足预设连续化处理条件；

合并确定单元，用于当存在小于或等于预设变化率阈值的正样本变化率时，将小于预设变化率阈值的正样本变化率相关联的两个分位区间合并；判断合并后的分位区间的正样本变化率是否大于预设变化率阈值，当合并后分位区间的变化率大于预设变化率阈值时，确定所有正样本变化率满足预设连续化处理条件。

可选地，所述合并确定单元包括：

第一合并子单元，用于当小于或等于预设变化率阈值的正样本变化率是预设先后顺序中第一个正样本变化率时，将所述第一个正样本变化率对应的两个分位区间合并；

第二合并子单元，用于当小于或等于预设变化率阈值的正样本变化率不是预设先后顺序中第一个正样本变化率时，将当前正样本变化率在预设先后顺序的前一个正样本变化率对应的两个分位区间合并。

可选地，第二确定模块还包括：

第三判断子模块，用于当存在不满足预设连续化处理条件的正样本变化率时，判断所述正样本变化率是否满足预设离散化处理条件；

第一获取子模块，用于当所述正样本变化率满足预设离散化处理条件时，获取用于分隔所述正样本变化率对应的两个分位区间的分位点，并将所述分位点存入预设分位点集合中；

第四判断子模块，用于判断所述预设分位点集合中包含的分位点的数量是否大于第二预设阈值；

第四确定子模块，用于当所述预设分位点集合中包含的分位点的数量大于第二预设阈值时，确定预设特征工程策略为多特征离散方式；

第五确定子模块，用于当所述分位点集合中包含的分位点的数量小于或等于第二预设阈值时，确定预设特征工程策略为单一特征离散方式。

可选地，所述第二确定模块还包括：

第六确定子模块，用于当所述正样本变化率不满足预设离散化处理条件时，确定预设特征工程策略为WOE方式。

可选地，所述第二获取模块包括：

第二获取子模块，用于获取预设模型的目标维度特征；

第七确定子模块，用于将每个分位区间中满足目标维度特征的至少一个特征值确定为正样本；

统计子模块，用于统计每个分位区间中正样本的数量，以及，分位区间中特征值的数量；

第八确定子模块，用于将每个分位区间中正样本的数量与分位区间中特征值的数量的比值确定为正样本比例。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过获取用于训练预设模型的预设维度特征的多个特征值；根据所述多个特征值的排序确定多个分位区间；获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例；计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率；根据所有分位区间对应的所述正样本比例之间的正样本变化率，可以确定用于处理所述预设维度特征的目标特征工程策略。

本公开实施例提供的该方法，能够挖掘每个特征的本质属性，根据每个特征的本质属性自动的选择最适合该特征的特征工程策略，这样不仅可以发挥每个特征最大的“潜能”，最重要的是数据模型的预测精度将大大提高，并且提高处理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种特征工程策略确定方法的流程图；

图2是图1中步骤S105的一种流程图；

图3是图2中步骤S201的流程图；

图4是图1中步骤S105的另一种流程图；

图5是图1中步骤S105的另一种流程图；

图6是根据一示例性实施例示出的一种特征工程策略确定装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示，在本公开的一个实施例中，提供一种特征工程策略确定方法，包括以下步骤。

在步骤S101中，获取用于训练预设模型的预设维度特征的多个特征值。

在本公开实施例中，预设模型可以用于根据输入的预设维度特征及特征值判断用户是否满足目标维度特征的人群，例如，预设维度特征可以为身高、体重、消费数额和购物对象等等，当预设维度特征为身高时，特征值可以为160cm、150cm、170cm和180cm等等，当预设维度特征为体重时，特征值可以为60kg、40kg、80kg、50kg、90kg和70kg等等，目标维度特征可以为男人和女人或者好人和坏人等等，当目标特征为男人和女人时，可以用多个维度的预设维度特征训练预设模型，例如：身高、体重和购物对象等。

在该步骤中，可以在事先采集的多个用于训练预设模型的多个不同的预设维度特征中选择一个预设维度特征，并获取该预设维度特征的特征值，例如：获取身高特征的多个特征值。

在步骤S102中，根据所述多个特征值的排序确定多个分位区间。

在本公开实施例中，排序可以指按照从小到大排序，从大到小排序等等，预设区间数量可以指根据特征值的数量确定的分位区间数量，或者是根据实际需要设置的分位区间数量，例如：10个、5个等。

在该步骤中，可以将获取的多个特征值进行排序，根据预设区间数量将至少一个的特征值确定为分位点，以及，每个分位点的位置信息，按照每个分位点的位置信息，利用分位点将排序后的多个特征值分隔成预设区间数量个分位区间，每个所述分位区间包含相同数量个所述特征值。

在实际应用中，假如有100个人，将这100人按身高特征从大到小排序，当预设区间数量为10时，则9个分位点分别就是100个人中第10名、第20名,…第90名的那个人所在的特征值，这样可以把这100个人划分为10个区间，每个区间10个人。

在步骤S103中，获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例。

在本公开实施例中，作为正样本的特征值可以指满足目标维度特征的特征值，例如目标维度特征为男生和女生，这是可以将100个人中为男生的人的身高特征值作为正样本，其余的女生为负样本，或者，将等100个人中为女生的人的身高特征值作为正样本，其余的男生为正样本等。

在该步骤中，可以获取预设模型的目标维度特征，将每个分位区间中满足目标维度特征的至少一个特征值确定为正样本，统计每个分位区间中正样本的数量，以及，分位区间中特征值的数量，将每个分位区间中正样本的数量与分位区间中特征值的数量的比值确定为正样本比例。

在实际应用中，假如按身高从大到小排序的100个人中，第一个区间是第1-10名，10个全是男生，这时第一个区间的正样本比例为10/10等于1，第二个区间是第11-20名，有8个男生2个女生，这时第二个区间的正样本比例为8/10等于0.8，随着区间往后，男生的比例越来越少，正样本比例也越来越小，这说明，身高是判断男女生的有效特征，比如一个人的身高在最矮的那10个人也就是第10个区间里面，那这个人是女生的概率就非常大。

在步骤S104中，计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率。

在本公开实施例中，正样本变化率可以指相邻的两个分位区间的正样本比例之间的差值等，计算公式如下：

α_i→i+1＝P_i+1-P_i i＝1，2，...n-1

其中，特征中各分位点区间的正样本比例为P₁、P₂…P_n，其中n为分位点区间个数。P_n-P₁>0时表示该特征为正向特征，反之为负向特征。

在该步骤中，可以分别计算多个分位区间中每两个相邻的分位区间的、正样本比例之间的差值，例如可以首先计算第一个分位区间和第二个分位区间的正样本比例之间的差值0.8-1＝-0.2，再计算第二个分位区间和第三个分位区间的正样本比例之间的差值……最后计算第九个分位区间和第十个分位区间的正样本比例之间的差值等。

在步骤S105中，根据所有分位区间对应的所述正样本比例之间的正样本变化率，确定用于处理所述预设维度特征的目标特征工程策略。

在本公开实施例中，目标特征工程策略可以指等域宽连续归一方式、等频率连续归一方式、多特征离散方式、单一特征离散方式、WOE(Weight of Evidence，权重证据法)方式等。

在该步骤中，可以根据正样本变化率数值的特点，例如正值，负值以及相对于平均值变化范围的大小等，确定一个或多个用于处理预设维度特征的目标特征工程策略。

如图2所示，在本公开的又一实施例中，所述步骤S105包括以下步骤。

在步骤S201中，判断所有正样本变化率是否满足预设连续化处理条件。

在本公开实施例中预设连续化处理条件可以指所有正样本变化率均为正数。

在该步骤中，可以按照预设先后顺序从第一正样本变化率起始，最后一个正样本变化率截止，逐一判断每个正样本变化率。

当所有正样本变化率满足预设连续化处理条件时，在步骤S202中，计算多个特征值的离差系数。

在本公开实施例中，离差系数可以表示标准差相对于平均数大小的相对量，其计算公式如下：

其中，C_V表示离差系数，表示特征的多个特征值的平均值，n为分位点区间个数。

在步骤S203中，判断所述离差系数是否大于第一预设阈值。

在本公开实施例中，第一预设阈值可以为1。

在该步骤中，可以判断离差系数是否大于1。

当所述离差系数大于第一预设阈值时，在步骤S204中，确定预设特征工程策略为等频率连续归一方式。

在本公开实施例中，等频率连续归一方式可以指后一分位区间与前一分位区间的频率之间的差值是相同的，可以利用频率＝1/区间个数的方式计算得到第一个分位区间的第一频率，第二个分位区间的第二频率可以在第一频率的基础上再加上第一频率，第三个分位区间的第三频率可以在第二频率的基础上再加上第一频率，……，依此类推，这样，就可以确定出所有分位区间的频率，再利用每个分位区间对应的频率乘以对应分位区间中的特征值。

当所述离差系数小于或等于第一预设阈值时，在步骤S205中，确定预设特征工程策略为等域宽连续归一方式。

在本公开实施例中，等域宽连续归一方式可以指等域宽连续归一法的生成公式为：

其中，F_old表示未经等域宽连续归一法处理的特征值，max和min分别表示所有特征值中的最大值与最小值，F_new表示构造完归一化的特征取值。该方法的可以将F_new的取值范围映射到0到1之间，并且值与值之间依然保持按比例缩小的距离。

本公开通过判断所有正样本变化率是否满足预设连续化处理条件，当所有正样本变化率满足预设连续化处理条件时，计算多个特征值的离差系数，判断所述离差系数是否大于第一预设阈值，当所述离差系数大于第一预设阈值时，可以确定预设特征工程策略为等频率连续归一方式，当所述离差系数小于或等于第一预设阈值时，可以确定预设特征工程策略为等域宽连续归一方式。

本公开实施例提供的该方法，能够利用等域宽连续归一法将F_new的取值范围映射到0到1之间，并且值与值之间依然保持按比例缩小的距离，但是由于当特征值中存在个别“脏数据”(超大或超小值)，会让特征大部分值集中在一个很小的范围内，影响处理效果，所以本申请在有可能有“脏数据”时，还提供一种等频率连续归一法，等频率连续归一法可以完美地克服“脏数据”问题。

如图3所示，在本公开的又一实施例中，所述步骤S201包括以下步骤。

在步骤S301中，按照预设先后顺序依次判断所有正样本变化率是否均大于预设变化率阈值。

在本公开实施例中，预设先后顺序可以指从最左边第一个正样本变化率到最右边的正样本变化率，也可以指从最右边第一个正样本变化率到最左边的正样本变化率等，预设变化率阈值可以为0。

在步骤S302中，当所有正样本变化率均大于预设变化率阈值时，确定满足预设连续化处理条件。

在步骤S303中，当存在小于或等于预设变化率阈值的正样本变化率时，将小于预设变化率阈值的正样本变化率相关联的两个分位区间合并；判断合并后的分位区间的正样本变化率是否大于预设变化率阈值，当合并后分位区间的变化率大于预设变化率阈值时，确定所有正样本变化率满足预设连续化处理条件。

在本公开实施例中，合并的目的是为了判断特征是否满足线性性，就是看合并后的分位区间是否能构成一条单调曲线，如果能，就做连续化处理，如果不能就做离散化处理。

例如：就判别男女生而言，身高特征可以是一个满足单调性的特征，身高越高，是男生的概率越大，可以做连续化处理。

在本公开实施例中，所述步骤S303可以包括以下步骤。

当小于或等于预设变化率阈值的正样本变化率是预设先后顺序中第一个正样本变化率时，将所述第一个正样本变化率对应的两个分位区间合并。

例如：如果第一个分位区间为A，第二个分位区间为B，第三个分位区间为C，第四个分位区间为D，第五个分位区间为E，预先顺序可以指A到E，如果A、B之间的正样本变化率小于0，可以将AB合并，合并后的AB两个分位区间形成一个新的分位区间M，假如，A的两端为130cm-140cm，B的两端为140cm-150cm,则合并后的M的两端为130cm-150cm。

例如：在将AB合并完得到M后，此时分位区间为MCDE，再将M和C比较，如果M和C之间的正样本变化率大于0，则M与C不需要合并，此时分位区间仍为MCDE，这时可以以C为基础，与D比较，如果C和D之间的正样本变化率小于0，这时可以将M与C合并，得到新的区间N，此时分位区间为NDE，再将N与D继续比较，……，直至最后形成1个或多个分位区间。

本公开通过按照预设先后顺序依次判断所有正样本变化率是否均大于预设变化率阈值，当所有正样本变化率均大于预设变化率阈值时，确定满足预设连续化处理条件，当存在小于或等于预设变化率阈值的正样本变化率时，将小于预设变化率阈值的正样本变化率相关联的两个分位区间合并；判断合并后的分位区间的正样本变化率是否大于预设变化率阈值，当合并后分位区间的变化率大于预设变化率阈值时，可以确定所有正样本变化率满足预设连续化处理条件。

本公开实施例提供的该方法，能够自动判断正样本变化率是否满足预设连续化处理条件。

如图4所示，在本公开的又一实施例中，所述步骤S105还包括以下步骤。

当存在不满足预设连续化处理条件的正样本变化率时，在步骤S401中，判断所述正样本变化率是否满足预设离散化处理条件。

在本公开实施例中，当存在不满足预设连续化处理条件的正样本变化率时，即存在小于0的正样本变化率时；预设离散化处理条件可以指该不满足预设连续化处理条件的正样本变化率大于2倍的正样本变化率平均值等；不满足预设连续化处理条件的正样本变化率可以为至少0个。

在该步骤中，可以将该不满足预设连续化处理条件的正样本变化率与预设离散化处理条件进行比较，记α_i为第i个分位区间到第i+1个分位区间的变化率，为所有变化率的平均值，如果某个变化率存在即确定该正样本变化率满足预设离散化处理条件。

当所述正样本变化率满足预设离散化处理条件时，在步骤S402中，获取用于分隔所述正样本变化率对应的两个分位区间的分位点，并将所述分位点存入预设分位点集合中。

在本公开实施例中，当存在满足预设离散化处理条件的正样本变化率时，这样的正样本变化率可以为至少一个，预设分位点集合可以指一块预设的存储空间，或者一个预先设置好的空的数据集合等。

在该步骤中，由于正样本变化率为任意两个相邻的分位区间之间的正样本变化率，这时可以将两个相邻的分位区间之间的分位点存入预设分位点集合中。

在步骤S403中，判断所述预设分位点集合中包含的分位点的数量是否大于第二预设阈值。

在本公开实施例中，第二预设阈值可以为2等。

在该步骤中，可以统计预设分位点集合中包含的分位点数量，并将分位点数量与第二预设阈值进行比较，例如：当分位点数量为3个时，3>2，则可以确定预设分位点集合中包含的分位点数量大于第二预设阈值。

当所述预设分位点集合中包含的分位点的数量大于第二预设阈值时，在步骤S404中，确定预设特征工程策略为多特征离散方式。

在本公开实施例中，多特征离散方式可以指将预设维度特征离散成分位点数量加一数量个特征，例如：当预设维度特征为身高特征时，且当分位点数量为3个时，离散后的特征可以为4个身高区间：身高130cm-155cm，身高155cm-180cm，身高180cm-205cm，身高205cm-230cm，这时，可以将每个分位点两端的分位区间中的身高依次与离散后的身高特征进行比较，当一个人的身高落入任意一个离散后的身高区间中时，在该身高区间对应的特征值即为1，未落入其余3个身高区间对应的特征值均为0，例如：当一个人身高为160cm时，其对应的4个特征值为0,1,0，0，每个分位点两端的分位区间中所有人均可以按照同样的方法进行计算。

当所述分位点集合中包含的分位点的数量小于或等于第二预设阈值时，在步骤S405中，确定预设特征工程策略为单一特征离散方式。

在本公开实施例中，单一特征离散方式可以指所述分位点集合中包含的分位点数量小于或等于第二预设阈值，并且大于或等于1(因为若存在满足预设离散化处理条件的正样本变化率，则这样的正样本变化率应至少为1个)时，可以以分位点为界，分别求出分位点两端的分位区间的正样本比例，落入正样本比例较高区间的特征值取1，落入正样本比例较低区间的所有值则取0，例如：当预设维度特征为身高特征时，且当分位点数量为1个时，如果分位点为140cm时,其左侧分位区间为身高小于140cm，其右侧分位区间为身高大于等于140cm，其中右侧分位区间正样本比例较高，左侧分位区间正样本比例较低，则可以将分位点两端的分位区间中的所有身高依次与该分位点进行比较，当第一个人的身高落入右侧分位区间中时，在该分位区间对应的特征值为1，未落入的左分位区间对应的特征值为0，例如：当一个人身高为160cm时，其对应的2个特征值为0,1，分位点两端的分位区间中所有人均可以按照同样的方法进行计算。

本公开通过当存在不满足预设连续化处理条件的正样本变化率时，判断所述正样本变化率是否满足预设离散化处理条件，当所述正样本变化率满足预设离散化处理条件时，获取用于分隔所述正样本变化率对应的两个分位区间的分位点，并将所述分位点存入预设分位点集合中，判断所述预设分位点集合中包含的分位点的数量是否大于第二预设阈值，当所述预设分位点集合中包含的分位点的数量大于第二预设阈值时，可以确定预设特征工程策略为多特征离散方式，当所述分位点集合中包含的分位点的数量小于或等于第二预设阈值时，可以确定预设特征工程策略为单一特征离散方式。

本公开实施例提供的该方法，能够将正样本变化率大于2倍的正样本变化率平均值时，可以确定正样本变化率对应的两个分位区间适合做离散处理，并根据适合做离散处理的正样本变化率的个数，也就是分位点的个数，自动选择对应的离散处理方式。

如图5所示，在本公开的又一实施例中，所述步骤S105还包括以下步骤。

当所述正样本变化率不满足预设离散化处理条件时，在步骤S501中，确定预设特征工程策略为WOE方式。

在本公开实施例中，WOE方式可以很好的贴合线性模型训练，其计算公式如下：

其中，bad_i％表示第i个分位区间的正样本比例，good_i％表示第i个分位区间的负样本比例。

如图6所示，在本公开的又一实施例中，提供一种特征工程策略确定装置，包括：第一获取模块601、第一确定模块602、第二获取模块603、计算模块604和第二确定模块605。

第一获取模块601，用于获取用于训练预设模型的预设维度特征的多个特征值。

第一确定模块602，用于根据所述多个特征值的排序确定多个分位区间。

在本公开实施例中，所述第一确定模块602包括：排序子模块、第一确定子模块和分隔子模块。

其中，排序子模块，用于将多个特征值进行排序；第一确定子模块，用于根据预设区间数量将至少一个的特征值确定为分位点，以及，每个分位点的位置信息；分隔子模块，用于按照每个分位点的位置信息，利用分位点将排序后的多个特征值分隔成预设区间数量个分位区间，每个所述分位区间包含相同数量个所述特征值。

第二获取模块603，用于获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例。

在本公开实施例中，所述第二获取模块包括：第二获取子模块、第七确定子模块、统计子模块和第八确定子模块。

其中，第二获取子模块，用于获取预设模型的目标维度特征；第七确定子模块，用于将每个分位区间中满足目标维度特征的至少一个特征值确定为正样本；统计子模块，用于统计每个分位区间中正样本的数量，以及，分位区间中特征值的数量；第八确定子模块，用于将每个分位区间中正样本的数量与分位区间中特征值的数量的比值确定为正样本比例。

计算模块604，用于计算任意两个相邻的所述分位区间的所述正样本比例之间的正样本变化率。

第二确定模块605，用于根据所有分位区间对应的所述正样本比例之间的正样本变化率，确定用于处理所述预设维度特征的目标特征工程策略。

在本公开的又一实施例中，所述第二确定模块605包括：第一判断子模块、计算子模块、第二判断子模块、第二确定子模块和第三确定子模块。

第一判断子模块，用于判断所有正样本变化率是否满足预设连续化处理条件。

计算子模块，用于当所有正样本变化率满足预设连续化处理条件时，计算多个特征值的离差系数。

第二判断子模块，用于判断所述离差系数是否大于第一预设阈值。

第二确定子模块，用于当所述离差系数大于第一预设阈值时，确定预设特征工程策略为等频率连续归一方式。

在本公开的又一实施例中，所述第一判断子模块包括：判断单元、确定单元和合并确定单元。

判断单元，用于按照预设先后顺序依次判断所有正样本变化率是否均大于预设变化率阈值。

确定单元，用于当所有正样本变化率均大于预设变化率阈值时，确定满足预设连续化处理条件。

在本公开的又一实施例中，所述合并确定单元包括：第一合并子单元和第二合并子单元。

第一合并子单元，用于当小于或等于预设变化率阈值的正样本变化率是预设先后顺序中第一个正样本变化率时，将所述第一个正样本变化率对应的两个分位区间合并。

在本公开的又一实施例中，第二确定模块605还包括：第三判断子模块、第一获取子模块、第四判断子模块、第四确定子模块和第五确定子模块。

第三判断子模块，用于当存在不满足预设连续化处理条件的正样本变化率时，判断所述正样本变化率是否满足预设离散化处理条件。

第一获取子模块，用于当所述正样本变化率满足预设离散化处理条件时，获取用于分隔所述正样本变化率对应的两个分位区间的分位点，并将所述分位点存入预设分位点集合中。

第四判断子模块，用于判断所述预设分位点集合中包含的分位点的数量是否大于第二预设阈值。

第四确定子模块，用于当所述预设分位点集合中包含的分位点的数量大于第二预设阈值时，确定预设特征工程策略为多特征离散方式。

在本公开的又一实施例中，所述第二确定模块605还包括：第六确定子模块。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种特征工程策略确定方法，其特征在于，包括：

获取用于训练预设模型的预设维度特征的多个特征值；

根据所述多个特征值的排序确定多个分位区间；

2.根据权利要求1所述的特征工程策略确定方法，其特征在于，所述根据多个特征值的排序确定多个分位区间，包括：

将多个特征值进行排序；

3.根据权利要求1所述的特征工程策略确定方法，其特征在于，所述确定用于处理所述预设维度特征的目标特征工程策略，包括：

判断所有正样本变化率是否满足预设连续化处理条件；

判断所述离差系数是否大于第一预设阈值；

4.根据权利要求3所述的特征工程策略确定方法，其特征在于，所述判断所有正样本变化率是否满足预设连续化处理条件，包括：

5.根据权利要求4所述的特征工程策略确定方法，其特征在于，所述将小于预设变化率阈值的正样本变化率相关联的两个分位区间合并，包括：

6.根据权利要求3至5任意一项所述的特征工程策略确定方法，其特征在于，所述确定用于处理所述预设维度特征的目标特征工程策略，还包括：

7.根据权利要求6所述的特征工程策略确定方法，其特征在于，所述确定用于处理所述预设维度特征的目标特征工程策略，还包括：

8.根据权利要求1所述的特征工程策略确定方法，其特征在于，所述获取每个分位区间中作为正样本的特征值的数量与所在区间内所有特征值的数量的正样本比例，包括：

获取预设模型的目标维度特征；

9.一种特征工程策略确定装置，其特征在于，包括：

10.根据权利要求9所述的特征工程策略确定装置，其特征在于，所述第一确定模块包括：

排序子模块，用于将多个特征值进行排序；

11.根据权利要求9所述的特征工程策略确定装置，其特征在于，所述第二确定模块包括：

12.根据权利要求11所述的特征工程策略确定装置，其特征在于，所述第一判断子模块包括：

13.根据权利要求12所述的特征工程策略确定装置，其特征在于，所述合并确定单元包括：

14.根据权利要求11至13任意一项所述的特征工程策略确定装置，其特征在于，第二确定模块还包括：

15.根据权利要求14所述的特征工程策略确定装置，其特征在于，所述第二确定模块还包括：

16.根据权利要求9所述的特征工程策略确定装置，其特征在于，所述第二获取模块包括：

第二获取子模块，用于获取预设模型的目标维度特征；