CN111291895A

CN111291895A - 组合特征评估模型的样本生成和训练方法及装置

Info

Publication number: CN111291895A
Application number: CN202010054042.9A
Authority: CN
Inventors: 杨新星; 李龙飞; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-16
Anticipated expiration: 2040-01-17
Also published as: CN111291895B

Abstract

本说明书实施例提供一种组合特征评估模型的样本生成和训练方法及装置。在样本生成阶段，从第一样本包括M1维特征中选取待组合的多个特征维度，对于多个特征维度中的各个特征维度，根据N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征；基于第一组合规则对N1个第一样本在多个特征维度下的特征值进行组合，得到第一组合特征；基于第一组合特征的特征值分布和N1个第一样本的第一标注数据，确定第一组合特征对提升业务预测模型预测效果的第一价值，并基于第一价值生成第二标注数据，通过多个特征维度各自的第一元特征、第一组合规则和第二标注数据，确定第二样本。在模型训练阶段，使用第二样本对组合特征评估模型进行训练。

Description

组合特征评估模型的样本生成和训练方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及组合特征评估模型的样本生成和训练方法及装置。

背景技术

在机器学习领域中，在模型训练阶段，样本特征扮演着重要的角色。样本特征的优劣往往决定了模型训练的最终效果。为了提高模型的训练效果，算法专家们往往会利用自己的专业领域知识，对一些基本特征进行组合，得到组合特征。将组合特征加入样本特征中，能够提高样本特征的丰富度。这些组合特征，由于引入了新的信息，可以很大程度上提高业务预测模型的预测效果。例如，某类型的样本特征包括用户的年龄、性别、收入、最近1天的消费行为和最近一笔消费购买的商品类别等维度。在进行特征组合时，可以将上述特征中的某两个维度进行组合，得到组合特征。特征的选取方式不同，特征的组合方式不同，得到的组合特征也不同，各种组合特征对提升业务预测模型预测效果的价值也不同。

通常，训练样本集中有大量的样本，样本特征的维度也比较高。因此，希望能有改进的方案，可以更加高效地评估组合特征在一定的组合方式下对提高业务预测模型预测效果的价值。

发明内容

本说明书一个或多个实施例描述了组合特征评估模型的样本生成和训练方法及装置，可以更加高效地评估组合特征在一定组合方式下对提升业务预测模型预测效果的价值。具体的技术方案如下。

第一方面，实施例提供了一种用于训练组合特征评估模型的样本生成方法，通过计算机执行；所述组合特征评估模型，用于评估组合特征对提升业务预测模型预测效果的价值；所述方法包括：

获取用于训练业务预测模型的第一训练样本集；其中，所述第一训练样本集包含N1个第一样本，任意一个第一样本包括M1维特征，并具有指示业务的第一标注数据；

从所述M1维特征中选取待组合的多个特征维度；

对于所述多个特征维度中的各个特征维度，根据所述N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征；

基于第一组合规则，对所述N1个第一样本在所述多个特征维度下的特征值进行组合，得到第一组合特征；

基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对提升业务预测模型预测效果的第一价值，基于所述第一价值生成第二标注数据；

基于所述多个特征维度各自的第一元特征、所述第一组合规则和所述第二标注数据，确定用于训练所述组合特征评估模型的第二样本。

在一种实施方式中，所述对于所述多个特征维度中的各个特征维度，根据所述N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征的步骤，包括：

对于所述多个特征维度中的任一特征维度，基于以下中的至少两项，确定该特征维度的第一元特征：

所述N1个第一样本在该特征维度下的特征值的均值；

所述N1个第一样本在该特征维度下的特征值的方差；

所述N1个第一样本在该特征维度下的特征值分布与所述N1个第一样本的第一标注数据之间的相关系数；

所述N1个第一样本在该特征维度下的特征值分布与所述N1个第一样本的第一标注数据之间的互信息。

在一种实施方式中，所述第一组合规则包括组合规则加、减、乘、除中的至少一种。

在一种实施方式中，所述基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对提升业务预测模型预测效果的第一价值的步骤，包括：

采用信息价值IV算法，基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对应的IV值，基于所述IV值确定所述第一组合特征对提升业务预测模型预测效果的第一价值。

基于所述第一组合特征和所述N1个第一样本的第一标注数据，对所述业务预测模型进行训练；

检测训练后的业务预测模型的预测效果的提升能力数据，基于所述提升能力数据确定所述第一组合特征对应的第一价值。

在一种实施方式中，所述第二标注数据为标注分类；所述基于所述第一价值生成第二标注数据的步骤，包括：

根据所述第一价值与第一预设阈值的比较，确定第二标注数据。

在一种实施方式中，所述第二标注数据为标注值；所述基于所述第一价值生成第二标注数据的步骤，包括：

直接将所述第一价值确定为第二标注数据。

第二方面，实施例提供了一种组合特征评估模型的训练方法，通过计算机执行，所述方法包括：

获取包含多个第二样本的第二训练样本集；其中，所述第二样本采用第一方面所述的方法生成，其包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据；

将所述多个特征维度各自的第一元特征和第一组合规则输入所述组合特征评估模型，得到所述多个特征维度对应的组合特征对提升业务预测模型预测效果的价值预测数据；

根据所述价值预测数据与所述第二标注数据的比较，确定预测损失；

向减小所述预测损失的方向，更新所述组合特征评估模型。

第三方面，实施例提供了一种通过组合特征评估模型确定组合特征的方法，通过计算机执行，所述方法包括：

获取用于训练业务预测模型的第三训练样本集；其中，所述第三训练样本集包含N2个第三样本，任意一个第三样本包括M2维特征；

从所述M2维特征中选取待组合的多个特征维度；

对于所述多个特征维度中的各个特征维度，根据所述N2个第三样本在所述多个特征维度的特征值分布，确定该特征维度的第二元特征；

将所述多个特征维度各自的第二元特征和第二组合规则，输入组合特征评估模型，得到所述多个特征维度在所述第二组合规则下生成的组合特征对提升所述业务预测模型预测效果的价值预测结果；其中，所述组合特征评估模型采用第二方面所述的方法训练完成；

当所述价值预测结果满足预设条件时，基于所述第二组合规则，对所述N2个第三样本在所述多个特征维度下的特征值进行组合，得到第二组合特征。

在一种实施方式中，该方法还包括：

将所述第二组合特征对应地添加至所述N2个第三样本的特征中。

第四方面，实施例提供了一种用于训练组合特征评估模型的样本生成装置，部署在计算机中；所述组合特征评估模型，用于评估组合特征对提升业务预测模型预测效果的价值；所述装置包括：

第一获取模块，配置为获取用于训练业务预测模型的第一训练样本集；其中，所述第一训练样本集包含N1个第一样本，任意一个第一样本包括M1维特征，并具有指示业务的第一标注数据；

第一选取模块，配置为从所述M1维特征中选取待组合的多个特征维度；

第一确定模块，配置为对于所述多个特征维度中的各个特征维度，根据所述N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征；

第一组合模块，配置为基于第一组合规则，对所述N1个第一样本在所述多个特征维度下的特征值进行组合，得到第一组合特征；

第二确定模块，配置为基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对提升业务预测模型预测效果的第一价值，基于所述第一价值生成第二标注数据；

第三确定模块，配置为基于所述多个特征维度各自的第一元特征、所述第一组合规则和所述第二标注数据，确定用于训练所述组合特征评估模型的第二样本。

在一种实施方式中，所述第一确定模块，具体配置为：

所述N1个第一样本在该特征维度下的特征值的均值；

所述N1个第一样本在该特征维度下的特征值的方差；

在一种实施方式中，所述第二确定模块，具体配置为：

在一种实施方式中，所述第二标注数据为标注分类；所述第二确定模块，基于所述第一价值生成第二标注数据时，包括：

在一种实施方式中，所述第二标注数据为标注值；所述第二确定模块，基于所述第一价值生成第二标注数据时，包括：

直接将所述第一价值确定为第二标注数据。

第五方面，实施例提供了一种组合特征评估模型的训练装置，通过计算机执行，所述装置包括：

第二获取模块，配置为获取包含多个第二样本的第二训练样本集；其中，所述第二样本采用第四方面所述的装置生成，其包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据；

第一评估模块，配置为将所述多个特征维度各自的第一元特征和第一组合规则输入所述组合特征评估模型，得到所述多个特征维度对应的组合特征对提升业务预测模型预测效果的价值预测数据；

第一损失模块，配置为根据所述价值预测数据与所述第二标注数据的比较，确定预测损失；

第一更新模块，配置为向减小所述预测损失的方向，更新所述组合特征评估模型。

第六方面，实施例提供了一种通过组合特征评估模型确定组合特征的装置，部署在计算机中，所述装置包括：

第三获取模块，配置为获取用于训练业务预测模型的第三训练样本集；其中，所述第三训练样本集包含N2个第三样本，任意一个第三样本包括M2维特征；

第二选取模块，配置为从所述M2维特征中选取待组合的多个特征维度；

第四确定模块，配置为对于所述多个特征维度中的各个特征维度，根据所述N2个第三样本在所述多个特征维度的特征值分布，确定该特征维度的第二元特征；

第二评估模块，配置为将所述多个特征维度各自的第二元特征和第二组合规则，输入组合特征评估模型，得到所述多个特征维度在所述第二组合规则下生成的组合特征对提升所述业务预测模型预测效果的价值预测结果；其中，所述组合特征评估模型采用第五方面所述的装置训练完成；

第二组合模块，配置为当所述价值预测结果满足预设条件时，基于所述第二组合规则，对所述N2个第三样本在所述多个特征维度下的特征值进行组合，得到第二组合特征。

在一种实施方式中，该装置还包括：

第一添加模块，配置为将所述第二组合特征对应地添加至所述N2个第三样本的特征中。

第七方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第三方面中任一项所述的方法。

第八方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第三方面中任一项所述的方法。

本说明书实施例提供的方法和装置，可以基于第一训练样本集中的第一样本得到用于训练组合特征评估模型的第二样本。具体的，从第一样本包含的M1维特征中选取多个特征维度，第二样本的特征包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据。其中，第二标注数据基于第一价值确定，第一价值基于第一组合特征的特征值分布和N1个第一样本的第一标注数据确定。根据以上方式可以得到大量第二样本，采用第二样本可以对组合特征评估模型进行训练，能够使得组合特征评估模型更加高效地评估多个特征维度对应的组合特征对提升业务预测模型预测效果的价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出第一训练样本集中特征的一种示意图；

图2示出一种用于训练组合特征评估模型的样本生成方法的流程示意图；

图3示出与图2对应的第二样本生成过程的另一种示意图；

图4示出一种组合特征评估模型的训练方法的流程示意图；

图5示出一种通过组合特征评估模型确定组合特征的方法的流程示意图；

图6示出一种用于训练组合特征评估模型的样本生成装置的示意性框图；

图7示出一种组合特征评估模型的训练装置的示意性框图；

图8示出一种通过组合特征评估模型确定组合特征的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在机器学习领域，利用大量样本可以训练各种业务预测模型，业务预测模型能够实现不同的业务预测功能。样本可以是文本、图像、音频、对象数据等等。例如，基于图像样本，可以训练用于预测图像中人脸的业务预测模型，或者训练用于预测图像中车辆的业务预测模型。

样本通常包括特征部分和标签(label)部分。特征用来刻画、表征样本，标签用来指示业务，即指示业务预测模型的预测方向。例如，当样本是图像时，样本的特征可以是图像的像素，标签可以是图像中的人脸框；当样本是某服务的用户时，样本的特征可以包括用户的年龄、性别、地域、教育水平、出生日期、职业、星座、收入和近一个月的消费总额等，标签可以是该用户是否参加该服务的某一活动。标签也可以称为标注数据。

在训练业务预测模型时，可以将样本的特征输入业务预测模型，业务预测模型根据模型参数以及一系列运算输出预测结果，根据预测结果与标注数据之间的差异，更新业务预测模型。采用大量样本不断地重复上述更新模型的过程，直至业务预测模型收敛。但是，即便业务预测模型训练到最后达到收敛条件了，业务预测模型的预测效果可能并不是很理想。

为了尽可能地提高业务预测模型的预测效果，可以提高样本特征的质量，使得样本的特征更丰富，能更充分地表征样本。针对包含多维特征的样本，本说明书实施例可以通过对多维特征进行组合，得到组合特征，将组合特征添加至样本特征中。这是一种提高样本特征质量的方式。

针对样本包含的多维特征，特征组合方式有多种，特征维度的选择也有多种，因此可以得到大量不同的组合特征。为了更加高效地评估组合特征在提高业务预测模型的预测效果方面的价值，本说明书实施例中，采用组合特征评估模型，评估组合特征对提升业务预测模型预测效果的价值。并且，根据用于训练业务预测模型的第一训练样本集中的第一样本，生成用于训练组合特征评估模型的第二样本。组合特征评估模型可以采用深度神经网络(Deep Neural Networks，DNN)，具体的，可以采用多层感知器(Multi-LayerPerceptron，MLP)。

其中，第一训练样本集包含N1个第一样本，任意一个第一样本包括M1维特征，并具有指示业务的第一标注数据。参见图1所示的第一训练样本集中特征的示意图，S1～SN1代表N1个第一样本，每个第一样本包括M1维特征，a代表特征值，a_N1M1表示第N1个第一样本的第M1维特征的特征值，每个特征维度采用虚线隔开。N1和M1均取正整数。第一样本的特征可以采用特征向量的形式表示，基于图1中每个括号中的各个特征维度的特征值可以得到每个第一样本的特征向量。

针对同一类型的样本，其具有相同的特征维度。在对样本的特征进行组合时，可以选择多个特征维度，对多个特征维度的特征值分布进行组合，得到组合特征对应的特征值分布。第二样本包含待组合的特征维度的特征、组合方式以及用于表示组合特征对提升业务预测模型预测效果的标准价值。下面详细阐述如何基于第一训练样本集中的样本生成第二样本。

图2实施例为一种用于训练组合特征评估模型的样本生成方法的流程示意图。该方法通过计算机执行，执行主体具体可以为任何具有计算、处理能力的装置、设备、平台或设备集群。其中，组合特征评估模型，用于评估组合特征对提升业务预测模型预测效果的价值。该方法具体包括：步骤S210，获取用于训练业务预测模型的第一训练样本集；步骤S220，从M1维特征中选取待组合的多个特征维度；步骤S230，对于多个特征维度中的各个特征维度，根据N1个第一样本在该特征维度下的特征值分布，确定该特征维度各自的第一元特征；步骤S240，基于第一组合规则，对N1个第一样本在多个特征维度下的特征值进行组合，得到第一组合特征；步骤S250，基于第一组合特征的特征值分布和N1个第一样本的第一标注数据，确定第一组合特征对提升业务预测模型预测效果的第一价值，基于第一价值生成第二标注数据；步骤S260，基于多个特征维度各自的第一元特征、第一组合规则和第二标注数据，确定第二样本。下面针对每个步骤进行具体分析。

在步骤S210中，获取用于训练业务预测模型的第一训练样本集。其中，第一训练样本集包含N1个第一样本，任意一个第一样本包括M1维特征，并具有指示业务的第一标注数据。第一标注数据具体指示的业务可以包括多种类型，例如可以指示图像中人脸区域，或者图像中的车辆区域、车牌区域等。

在步骤S220中，从M1维特征中选取待组合的多个特征维度。其中，选取的特征维度的数量可以是两个，也可以是三个，或者更多个。选取的特征维度的数量可以是预先设定的数量。例如，当预先设定的数量为2时，可以从M1维特征中选择2个特征维度用于特征组合。选取的特征维度包括第i维和第j维等。

在从M1维特征中选取待组合的多个特征维度时，可以按照规定的次序依次选择，也可以随机选择。

在步骤S230中，对于多个特征维度中的各个特征维度，根据N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征。

元特征(metadata)，又称元数据、中继数据，为描述数据的数据(data aboutdata)，主要用于描述特征维度下特征值的分布特征，是更抽象的特征。元特征能够体现特征值分布的集中程度或者分散程度。

在一个例子中，从图1所示的特征维度中选择2个特征维度，第i维和第j维，i和j均为小于等于M1的正整数。参见图3所示的第二样本的生成过程示意图中，第i维所在的一列数据fi＝(a_1i，a_2i，a_3i，……，a_N1i)为该特征维度下的特征值分布，根据该特征值分布fi可以确定第i维的第一元特征vec(fi)。第j维所在的一列数据fj＝(a_1j，a_2j，a_3j，……，a_N1j)为该特征维度下的特征值分布，根据该特征值分布fj可以确定第j维的第一元特征vec(fj)。其中，fi和fj均可以采用特征向量的形式表示。

对于多个特征维度中的任一特征维度，可以基于以下至少两项，确定该特征维度的第一元特征：

N1个第一样本在该特征维度下的特征值的均值；

N1个第一样本在该特征维度下的特征值的方差；

N1个第一样本在该特征维度下的特征值分布与N1个第一样本的第一标注数据之间的相关系数；

N1个第一样本在该特征维度下的特征值分布与N1个第一样本的第一标注数据之间的互信息。

例如，针对第i维，可以基于第i维的特征值分布fi＝(a_1i，a_2i，a_3i，……，a_N1i)，计算a_1i，a_2i，a_3i，……，a_N1i的均值、方差。N1个第一样本的第一标注数据可以采用X1＝(x₁₁，x₁₂，x₁₃，……，x_1N1)表示，在计算相关系数和互信息时，可以计算fi和X1这两组数据之间的相关系数和互信息。

相关系数(Correlation Coefficient，CC)用于表示两组数据之间的相关程度，具体计算相关系数时可以采用皮尔森(Pearson)相关性系数、斯皮尔曼(Spearman)相关性系数或肯德尔(Kendall)相关性系数等方法。

互信息(Mutual Information，MI)用于表示一组数据中包含另一组数据的信息量，是两组数据之间依赖性的一种量度。

当第一元特征包含均值、方差、相关系数和互信息时，可以将包含均值、方差、相关系数和互信息的特征向量作为第一元特征。

在步骤S240中，可以先确定第一组合规则，基于第一组合规则，对N1个第一样本在多个特征维度下的特征值进行组合，得到第一组合特征F。其中，第一组合规则可以包括组合规则加、减、乘、除中的至少一种。

例如，参见图3，当选取的待组合特征维度包括第i维和第j维，且当第一组合规则为加时，可以将第i维的特征值分别与第j维的特征值相加，得到第一组合特征下的各个特征值，即第一组合特征F的特征值分布为Fij＝(a_1i+a_1j，a_2i+a_2j，a_3i+a_3j，……，a_N1i+a_N1j)。其中，图3中仅以第一组合规则为“加”作为例子描述第二样本的生成过程，第一组合规则还可以替代为减、乘、除或其他组合操作。

步骤S240可以在步骤S230之前执行，也可以在步骤S230之后执行，两者也可以同时执行。

在步骤S250中，基于第一组合特征F的特征值分布和N1个第一样本的第一标注数据X1，确定第一组合特征F对提升业务预测模型预测效果的第一价值V1时，可以采用多种实施方式。

在一个例子中，可以采用信息价值(Information Value，IV)算法，基于第一组合特征的特征值分布和N1个第一样本的第一标注数据X1，确定第一组合特征对应的IV值，基于该IV值确定第一组合特征对提升业务预测模型预测效果的第一价值V1。

下面以第一组合特征的特征值分布Fij和第一标注数据X1作为例子，说明确定第一组合特征F对应的IV值的过程。其中，Fij＝(a_1i+a_1j，a_2i+a_2j，a_3i+a_3j，……，a_N1i+a_N1j)，X1＝(x₁₁，x₁₂，x₁₃，……，x_1N1)。Fij中的特征值与X1中的标注值一一对应。假设X1中的数据采用二分类形式表示，包含响应和不响应两个分类。

首先可以按照数据的分布规则对Fij中的特征值进行分组，假设分成k个组，分别为第1组、第2组、第3组、……、第k组(k为大于1的正整数)。基于每一组对应的第一标注数据X1中的数据，可以确定该组中标注数据为响应的特征值的第一数量和标注数据为不响应的特征值的第二数量。第一标注数据X1中，响应分类的第一总数量为Q，不响应分类的第二总数量为N1-Q。

其次，针对每一组的特征值分布，计算该组的IV值，IV＝(py-pn)*ln(py)/ln(pn)。其中，ln是以自然常数e为底的对数，py为该组中响应的特征值占所有第一样本中所有响应的特征值的比例，即第一数量占总数量Q的比例，pn为该组中不响应的特征值占所有第一样本中所有不响应的特征值的比例，即第二数量占第二总数量N1-Q的比例。

根据上述方式计算每个组的IV值，基于每个组的IV值的和值，可以确定第一组合特征对应的IV值。通常，将比值ln(py)/ln(pn)称为证据权重(Weight Of Evidence，WOE)，WOE为该组中响应的特征值和不响应的特征值的比例，与所有第一样本中该比值之间的差异。该WOE越大，该差异越大，该组中响应的可能性越大。IV值越大，体现第一组合特征F中响应的可能性越大，第一组合特征F的预测能力越强。

基于第一组合特征F的IV值确定第一组合特征的第一价值V1时，可以直接将第一组合特征F的IV值确定为第一价值V1。

在步骤S250中确定第一组合特征F对提升业务预测模型预测效果的第一价值V1时，也可以采用模型训练法。具体的，可以基于第一组合特征和N1个第一样本的第一标注数据X1，对业务预测模型进行训练，检测训练后的业务预测模型的预测效果的提升能力数据LA，基于该提升能力数据LA确定第一组合特征对应的第一价值V1。

第一组合特征F中的各个特征值与第一标注数据X1中的各个数据一一对应。将第一组合特征F中的各个特征值分别输入业务预测模型，并根据输出的预测数据与对应的第一标注数据的差异，对业务预测模型进行更新。当第一组合特征F中的所有特征值均训练完成时，可以检测训练后的业务预测模型的预测效果的提升能力数据。例如可以获取待检测数据，将待检测数据分别输入训练前的业务预测模型和训练后的业务预测模型，并分别得到预测结果，基于预测结果之间的差异确定提升能力数据LA。

在训练业务预测模型时，也可以将第一组合特征F下的各个特征值对应地添加至N1个第一样本中，采用添加特征后的第一训练样本集对业务预测模型进行训练。

基于该提升能力数据LA确定第一组合特征F对应的第一价值V1时，可以直接将该提升能力数据LA确定为第一组合特征F对应的第一价值V1，也可以对该提升能力数据LA和第一组合特征F的IV值进行融合，得到第一组合特征F的第一价值V1。

在步骤S250中，当第二标注数据X2为标注分类时，组合特征评估模型为分类模型；基于第一价值V1生成第二标注数据X2时，可以根据第一价值V1与第一预设阈值Th的比较，确定第二标注数据X2。

其中，第一预设阈值Th为预设值。当第一预设阈值Th为一个值时，可以根据第一价值V1与第一预设阈值Th的比较，得到二分类的X2，例如当V1大于Th时标注为1，当V1不大于Th时标注为0。当第一预设阈值包含大小不等的两个值Th1和Th2(Th1<Th2)时，可以根据第一价值V1与第一预设阈值Th1和Th2的比较，确定三分类的X2。

第二标注数据X2为标注值时，基于第一价值V1生成第二标注数据X2的步骤，可以直接将第一价值V1确定为第二标注数据X2。

在步骤S260中，基于多个特征维度各自的第一元特征、第一组合规则和第二标注数据X2，确定用于训练组合特征评估模型的第二样本。参见图3，可以将第一元特征vec(fi)、vec(fj)和组合规则作为第二样本的特征，将第二标注数据X2作为第二样本的标注数据。

再回顾一下步骤S220，在选取待组合的特征维度时，选取的特征维度的数量为设定数量。不同的设定数量可以对应不同的组合特征评估模型。例如，当设定选取2个特征维度时可以训练一种组合特征评估模型，当设定选取3个特征维度时，可以训练另一种组合评估模型。也可以针对不同的设定数量训练同一个组合评估模型。

再回顾一下步骤S240，当第一组合规则为一个组合规则时，基于步骤S240可以得到一个第一组合特征，也就是经过步骤S210～步骤S260可以得到一个第二样本。当第一组合规则包含两个组合规则时，基于步骤S240可以得到多个第一组合特征，也就是经过步骤S210～步骤S260可以得到多个第二样本。

尤其是当选取的特征维度的数量大于2时，在步骤S240中，基于两个组合规则和多个特征维度进行组合，可以得到多个特征值分布之间不同的组合结果。

综上，本实施例可以基于第一训练样本集中的第一样本得到用于训练组合特征评估模型的第二样本。具体的，从第一样本包含的M1维特征中选取多个特征维度，第二样本的特征包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据。其中，第二标注数据基于第一价值确定，第一价值基于第一组合特征的特征值分布和N1个第一样本的第一标注数据确定。根据以上方式可以得到大量第二样本，采用第二样本可以对组合特征评估模型进行训练，使得组合特征评估模型更加高效地评估多个特征维度对应的组合特征对提升业务预测模型预测效果的价值。

根据图2所描述的方法可以生成大量第二样本，大量第二样本可以组成第二样本训练集。第二样本训练集用于对组合特征评估模型进行训练。在实际应用场景中，可以通过不同类型的第一样本训练集生成第二样本，这样能够提高第二样本的多样性。

下面结合图4所示实施例对组合特征评估模型的模型训练过程进行说明。图4实施例示出了一种组合特征评估模型的训练方法的流程示意图。该方法通过计算机执行，执行主体具体可以为任何具有计算、处理能力的装置、设备、平台或设备集群。该方法包括以下步骤S410～S440。

步骤S410，获取包含多个第二样本的第二训练样本集。其中，第二样本采用图2描述的方法生成。第二样本包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据X2。

步骤S420，将多个特征维度各自的第一元特征和第一组合规则输入组合特征评估模型，得到多个特征维度对应的组合特征对提升业务预测模型预测效果的价值预测数据D1。

当第二标注数据X2是标注值时，价值预测数据D1为预测值；当第二标注数据X2是标注分类时，价值预测数据D1通常包括所预测的各个分类下的概率分布。

在步骤S430，根据价值预测数据D1与第二标注数据X2的比较，确定预测损失L1。在确定预测损失L1时，当第二标注数据X2为标注分类时，价值预测数据D1为预测分类，即在分类模型的训练中，可以采用KL(Kullback-Leibler)距离、交叉熵、JS(Jensen-Shannon)距离中的一种，根据价值预测数据D1与第二标注数据X2的比较，确定预测损失L1。

当第二标注数据X2为标注值时，价值预测数据D1为预测值，即在回归模型的训练中，可以采用平方误差函数、对数损失函数中的一种，根据价值预测数据D1与第二标注数据X2的比较，确定预测损失L1。

步骤S440，向减小预测损失L1的方向，更新组合特征评估模型。更新组合特征评估模型可以理解为调整组合特征评估模型的模型参数，使得预测损失L1减小。当针对组合特征评估模型的训练次数大于预设次数阈值，即训练次数足够多，或者预测损失L1小于预设损失阈值时，可以确定模型训练完成，达到收敛的条件。

上述实施例采用图2所述的方法生成的第二样本，对组合特征评估模型进行大量训练，可以训练得到比较准确的组合特征评估模型。该组合特征评估模型可以用于评估组合特征对提升业务预测模型预测效果的价值。在确定组合特征的价值之后，可以基于该价值确定输入数据对应的组合特征。在下面的实施例提供了基于组合特征评估模型确定组合特征的方法。

图5实施例示出了一种通过组合特征评估模型确定组合特征的方法的流程示意图。该方法通过计算机执行，执行主体具体可以为任何具有计算、处理能力的装置、设备、平台或设备集群。该方法包括以下步骤S510～S550。

步骤S510，获取用于训练业务预测模型的第三训练样本集。其中，第三训练样本集包含N2个第三样本，任意一个第三样本包括M2维特征。

本步骤中提及的业务预测模型也可以与步骤S210中提及的业务预测模型相同，也可以不同。第三训练样本集与第一训练样本集可以不同。第三训练样本集中样本的特征维度的形式也可以参见图1所示。N2和M2均为正整数。N2可以与N1相同，也可以不同。M2可以与M1相同，也可以不同。

步骤S520，从M2维特征中选取待组合的多个特征维度。所选取的特征维度的数量，可以为设定值。该设定值与训练组合特征评估模型时设定的选取数量相同。选取的特征维度包括第i维和第j维等。

在从M2维特征中选取待组合的多个特征维度时，可以按照规定的次序依次选择，也可以随机选择。

步骤S530，对于多个特征维度中的各个特征维度，根据N2个第三样本在多个特征维度的特征值分布，确定该特征维度的第二元特征。本步骤具体可以针对每一个特征维度，基于以下至少两项，确定该特征维度的第二元特征：

N2个第三样本在该特征维度下的特征值的均值；

N2个第三样本在该特征维度下的特征值的方差；

N2个第三样本在该特征维度下的特征值分布与N2个第三样本的第三标注数据之间的相关系数；

N2个第三样本在该特征维度下的特征值分布与N2个第三样本的第三标注数据之间的互信息。

具体说明可以参考步骤S230，每个第二元特征可以包括均值、方差、相关系数和互信息中的至少两种。

其中，第i维的特征值分布可以表示为gi＝(a_1i，a_2i，a_3i，……，a_N2i)，第j维的特征值分布可以表示为gj＝(a_1j，a_2j，a_3j，……，a_N2j)，确定的第i维的第二元特征为vec(gi)，第j维的第二元特征为vec(gj)。

步骤S540，将多个特征维度各自的第二元特征和第二组合规则，输入组合特征评估模型，得到多个特征维度在第二组合规则下生成的组合特征对提升业务预测模型预测效果的价值预测结果Re。步骤S550，当价值预测结果Re满足预设条件时，基于第二组合规则，对N2个第三样本在多个特征维度下的特征值进行组合，得到第二组合特征。当价值预测结果不满足预设条件时，可以不进行特征组合。

其中，组合特征评估模型采用图4所示的方法训练完成。当组合特征评估模型为分类模型时，价值预测结果Re可以为预测分类，该预测分类可以为组合特征评估模型所预测的各个分类下的概率分布中最大概率对应的分类。在判断价值预测结果是否满足预设条件时，可以判断价值预测结果对应的预测分类是否在指定分类中，如果是，则确定价值预测结果满足预设条件，否则确定价值预测结果不满足预设条件。

例如，在二分类中，分类可以包括，对提升业务预测模型预测效果有价值(分类1)，和对提升业务预测模型预测效果无价值(分类2)。指定分类为分类1。当价值预测结果对应于分类1时，认为该价值预测结果满足预设条件。

在三分类中，分类可以包括，对提升业务预测模型预测效果有很大价值(分类1)，对提升业务预测模型预测效果有一般价值(分类2)，和对提升业务预测模型预测效果无价值(分类3)。指定分类可以包括分类1和分类2。当价值预测结果对应于分类1或者分类2时，认为该价值预测结果满足预设条件。

当组合特征评估模型为回归模型时，价值预测结果Re可以为预测值。在判断价值预测结果是否满足预设条件时，可以判断价值预测结果对应的预测值是否大于第二预设阈值Th3，如果大于，则确定价值预测结果满足预设条件，否则确定价值预测结果不满足预设条件。第二预设阈值Th3可以为预设值。

在步骤S550中基于第二组合规则，对N2个第三样本在多个特征维度下的特征值进行组合的步骤，可以参考步骤S240中的相关说明，此处不再赘述。

本实施例，可以通过组合特征评估模型，对第三样本中选取的特征维度和第二组合规则对应的组合特征进行评估，得到针对预测效果的价值预测结果，当价值预测结果满足预设条件时进行特征组合，能够得到更加优质的组合特征。

在得到第二组合特征之后，还可以将第二组合特征对应地添加至N2个第三样本的特征中。并且，还可以基于添加特征后的第三样本，对业务预测模型进行训练。添加第二组合特征，能够使得第三样本的特征更加丰富，特征对第三样本的刻画更加完备，利用添加特征后的第三样本对业务预测模型进行训练，能够更加有效地提高模型预测效果。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图6实施例示出了一种用于训练组合特征评估模型的样本生成装置的示意性框图。该装置600部署在计算机中，该装置与图2所示方法实施例相对应。组合特征评估模型，用于评估组合特征对提升业务预测模型预测效果的价值；所述装置600包括：

第一获取模块610，配置为获取用于训练业务预测模型的第一训练样本集；其中，所述第一训练样本集包含N1个第一样本，任意一个第一样本包括M1维特征，并具有指示业务的第一标注数据；

第一选取模块620，配置为从M1维特征中选取待组合的多个特征维度；

第一确定模块630，配置为对于所述多个特征维度中的各个特征维度，根据所述N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征；

第一组合模块640，配置为基于第一组合规则，对所述N1个第一样本在所述多个特征维度下的特征值进行组合，得到第一组合特征；

第二确定模块650，配置为基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对提升业务预测模型预测效果的第一价值，基于所述第一价值生成第二标注数据；

第三确定模块660，配置为基于所述多个特征维度各自的第一元特征、所述第一组合规则和所述第二标注数据，确定用于训练所述组合特征评估模型的第二样本。

在另一实施方式中，第一确定模块630具体配置为：

所述N1个第一样本在该特征维度下的特征值的均值；

所述N1个第一样本在该特征维度下的特征值的方差；

在另一实施方式中，第一组合规则包括组合规则加、减、乘、除中的至少一种。

在另一实施方式中，第二确定模块650具体配置为：

在另一实施方式中，第二标注数据为标注分类；第二确定模块650，基于所述第一价值生成第二标注数据时，包括：

在另一实施方式中，第二标注数据为标注值；第二确定模块650，基于所述第一价值生成第二标注数据时，包括：

直接将所述第一价值确定为第二标注数据。

图7实施例示出了一种组合特征评估模型的训练装置的示意性框图。该装置700通过计算机执行，该装置实施例与图4所示方法实施例相对应。该装置700包括：

第二获取模块710，配置为获取包含多个第二样本的第二训练样本集；其中，所述第二样本采用图6所述的装置生成，第二样本包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据；

第一评估模块720，配置为将所述多个特征维度各自的第一元特征和第一组合规则输入所述组合特征评估模型，得到所述多个特征维度对应的组合特征对提升业务预测模型预测效果的价值预测数据；

第一损失模块730，配置为根据所述价值预测数据与所述第二标注数据的比较，确定预测损失；

第一更新模块740，配置为向减小所述预测损失的方向，更新所述组合特征评估模型。

图8实施例示出了一种通过组合特征评估模型确定组合特征的装置的示意性框图。该装置800部署在计算机中，该装置实施例与图5所示方法实施例相对应。该装置800包括：

第三获取模块810，配置为获取用于训练业务预测模型的第三训练样本集；其中第三训练样本集包含N2个第三样本，任意一个第三样本包括M2维特征；

第二选取模块820，配置为从M2维特征中选取待组合的多个特征维度；

第四确定模块830，配置为对于所述多个特征维度中的各个特征维度，根据所述N2个第三样本在所述多个特征维度的特征值分布，确定该特征维度的第二元特征；

第二评估模块840，配置为将所述多个特征维度各自的第二元特征和第二组合规则，输入组合特征评估模型，得到所述多个特征维度在第二组合规则下生成的组合特征对提升所述业务预测模型预测效果的价值预测结果；其中，所述组合特征评估模型采用图7所述的装置训练完成；

第二组合模块850，配置为当价值预测结果满足预设条件时，基于所述第二组合规则，对所述N2个第三样本在所述多个特征维度下的特征值进行组合，得到第二组合特征。

在一种实施方式中，该装置800还包括：

第一添加模块(图中未示出)，配置为将所述第二组合特征对应地添加至所述N2个第三样本的特征中。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图2至图5所述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图2至图5所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种用于训练组合特征评估模型的样本生成方法，通过计算机执行；所述组合特征评估模型，用于评估组合特征对提升业务预测模型预测效果的价值；所述方法包括：

从所述M1维特征中选取待组合的多个特征维度；

2.根据权利要求1所述的方法，所述对于所述多个特征维度中的各个特征维度，根据所述N1个第一样本在该特征维度下的特征值分布，确定该特征维度的第一元特征的步骤，包括：

所述N1个第一样本在该特征维度下的特征值的均值；

所述N1个第一样本在该特征维度下的特征值的方差；

3.根据权利要求1所述的方法，所述第一组合规则包括组合规则加、减、乘、除中的至少一种。

4.根据权利要求1所述的方法，所述基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对提升业务预测模型预测效果的第一价值的步骤，包括：

5.根据权利要求1所述的方法，所述基于所述第一组合特征的特征值分布和所述N1个第一样本的第一标注数据，确定所述第一组合特征对提升业务预测模型预测效果的第一价值的步骤，包括：

6.根据权利要求1所述的方法，所述第二标注数据为标注分类；所述基于所述第一价值生成第二标注数据的步骤，包括：

7.根据权利要求1所述的方法，所述第二标注数据为标注值；所述基于所述第一价值生成第二标注数据的步骤，包括：

直接将所述第一价值确定为第二标注数据。

8.一种组合特征评估模型的训练方法，通过计算机执行，所述方法包括：

获取包含多个第二样本的第二训练样本集；其中，所述第二样本采用权利要求1所述的方法生成，其包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据；

向减小所述预测损失的方向，更新所述组合特征评估模型。

9.一种通过组合特征评估模型确定组合特征的方法，通过计算机执行，所述方法包括：

从所述M2维特征中选取待组合的多个特征维度；

将所述多个特征维度各自的第二元特征和第二组合规则，输入组合特征评估模型，得到所述多个特征维度在所述第二组合规则下生成的组合特征对提升所述业务预测模型预测效果的价值预测结果；其中，所述组合特征评估模型采用权利要求8所述的方法训练完成；

10.根据权利要求9所述的方法，还包括：

11.一种用于训练组合特征评估模型的样本生成装置，部署在计算机中；所述组合特征评估模型，用于评估组合特征对提升业务预测模型预测效果的价值；所述装置包括：

12.根据权利要求11所述的装置，所述第一确定模块，具体配置为：

所述N1个第一样本在该特征维度下的特征值的均值；

所述N1个第一样本在该特征维度下的特征值的方差；

13.根据权利要求11所述的装置，所述第一组合规则包括组合规则加、减、乘、除中的至少一种。

14.根据权利要求11所述的装置，所述第二确定模块，具体配置为：

15.根据权利要求11所述的装置，所述第二确定模块，具体配置为：

16.根据权利要求11所述的装置，所述第二标注数据为标注分类；所述第二确定模块，基于所述第一价值生成第二标注数据时，包括：

17.根据权利要求11所述的装置，所述第二标注数据为标注值；所述第二确定模块，基于所述第一价值生成第二标注数据时，包括：

直接将所述第一价值确定为第二标注数据。

18.一种组合特征评估模型的训练装置，通过计算机执行，所述装置包括：

第二获取模块，配置为获取包含多个第二样本的第二训练样本集；其中，所述第二样本采用权利要求11所述的装置生成，其包括多个特征维度各自的第一元特征和第一组合规则，并具有第二标注数据；

19.一种通过组合特征评估模型确定组合特征的装置，部署在计算机中，所述装置包括：

第二评估模块，配置为将所述多个特征维度各自的第二元特征和第二组合规则，输入组合特征评估模型，得到所述多个特征维度在所述第二组合规则下生成的组合特征对提升所述业务预测模型预测效果的价值预测结果；其中，所述组合特征评估模型采用权利要求18所述的装置训练完成；

20.根据权利要求19所述的装置，还包括：

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项所述的方法。

22.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。