CN106909931A

CN106909931A - 一种用于机器学习模型的特征生成方法、装置和电子设备

Info

Publication number: CN106909931A
Application number: CN201510977436.0A
Authority: CN
Inventors: 魏溪含
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2017-06-30
Anticipated expiration: 2035-12-23
Also published as: CN106909931B

Abstract

本申请公开了一种用于机器学习模型的特征生成方法、装置和电子设备，一种数据预测方法、装置和电子设备，以及一种信息推荐方法、装置和电子设备。其中所述用于机器学习模型的特征生成方法包括：获取待处理对象的对特定目标产生影响的基础特征；根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征；其中，所述特征构造模型根据已标注特定目标的历史对象集学习获得。采用本申请提供的方法，能够通过自主学习的方式生成特征构造模型，并且通过特征构造模型自动生成待处理对象的组合特征，从而达到降低人工工作量的效果。

Description

一种用于机器学习模型的特征生成方法、装置和电子设备

技术领域

本申请涉及机器学习技术领域，具体涉及一种用于机器学习模型的特征生成方法、装置和电子设备。本申请同时涉及一种数据预测方法、装置和电子设备，以及一种信息推荐方法、装置和电子设备。

背景技术

根据机器学习模型包括的层数，可以将模型分为浅层模型和深层模型两大类别，例如，逻辑回归模型和支持向量机为浅层模型，而具有多个隐层的人工神经网络则为深层模型。下面通过对比方式，对上述两种不同类型的机器学习模型的各自特点进行简要说明。

一方面，浅层模型的预测准确度通常高于深层模型。相对于浅层模型而言，由于深层模型包括的层数较多，因而深层模型在训练过程中的计算量较大。在实际应用中，为了避免深层模型训练过程中计算量过大的问题，深层模型输入层可包括的特征数量通常不超过几百个特征，而浅层模型可包括的特征数量能够达到千万数量级。可见，由于浅层模型实际可依据的特征数量更多，因此浅层模型的预测准确度通常高于深层模型。

另一方面，浅层模型的样本特征通常为人工特征，而深层模型的样本特征可以通过深度学习的方式自动提取。浅层模型有一个重要特点，就是假设靠人工经验来抽取样本特征，而强调模型主要是负责分类或预测。而深层模型不仅负责分类或预测，还能够用于自动提取样本特征，例如，利用深层模型进行图像识别时，深层模型同时能够自动化的无监督学习获得图像的特征。

综上所述，浅层模型的预测准确度高于深层模型，但模型的样本特征为人工特征；深层模型的样本特征可以自动提取，但预测准确度低于浅层模型。在实际应用中，根据具体应用场景，选取浅层模型或深层模型作为预测模型。

目前，浅层模型中的样本特征主要依赖于人力进行提取。在浅层模型确定的前提下，特征的好坏就成为整个系统性能的瓶颈。根据特征获取的难易程度，可以将浅层模型的样本特征分为基础特征和组合特征两大类。其中，基础特征是指能够直接获取到的样本基本属性，例如，一个商品信息的单价、历史销量、库存等属性。组合特征是指在多个基础特征基础上计算生成的复合特征。通过组合特征能够挖掘出不同基础特征之间更深层次的关系，因此，依据组合特征往往能够提高模型的预测精确度。

在利用浅层模型进行预测时，通常一个开发团队中更多的人力是投入到发掘更好的特征上去的，即：从各种组合特征中找到有价值的组合特征。要发现一个好的特征，就要求开发人员对待解决的问题要有很深入的理解。而达到这个程度，往往需要依靠专家知识，并且需要反复地摸索，不仅对人的技能有要求，还将耗费大量的人力资源。因此，人工设计样本特征，不是一个可扩展的途径。

综上所述，现有技术存在无法自动生成组合特征的问题。

发明内容

本申请提供一种用于机器学习模型的特征生成方法、装置和电子设备，以解决现有技术存在无法自动生成组合特征的问题。本申请另外提供一种数据预测方法、装置和电子设备，以及一种信息推荐方法、装置和电子设备。

本申请提供一种用于机器学习模型的特征生成方法，包括：

获取待处理对象的对特定目标产生影响的基础特征；

根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征；

其中，所述特征构造模型根据已标注特定目标的历史对象集学习获得。

可选的，所述预先生成的特征构造模型包括基于深度学习模型的特征构造模型；所述组合特征包括所述基于深度学习模型的特征构造模型的隐层节点。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；根据所述已标注特定目标的历史对象集学习获得所述特征构造模型，包括：

获取所述已标注特定目标的历史对象集；

对各个历史对象进行特征提取，获取各个历史对象的对特定目标产生影响的基础特征；

根据各个历史对象的所述对特定目标产生影响的基础特征和所述已标注特定目标构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

可选的，所述基础特征包括非线性的基础特征；通过所述特征构造模型，将所述非线性的基础特征转换为线性特征。

相应的，本申请还提供一种用于机器学习模型的特征生成装置，包括：

获取单元，用于获取待处理对象的对特定目标产生影响的基础特征；

生成特征单元，用于根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征；

可选的，还包括：

生成模型单元，用于根据所述已标注特定目标的历史对象集学习获得特征构造模型。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成模型单元包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

特征提取子单元，用于对各个历史对象进行特征提取，获取各个历史对象的对特定目标产生影响的基础特征；

训练子单元，用于根据各个历史对象的所述对特定目标产生影响的基础特征和所述已标注特定目标构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器被配置成存储用于机器学习模型的特征生成装置，所述用于机器学习模型的特征生成装置被所述处理器执行时，包括如下步骤：获取待处理对象的对特定目标产生影响的基础特征；根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征；其中所述特征构造模型根据已标注特定目标的历史对象集学习获得。

此外，本申请还提供一种数据预测方法，包括：

获取待预测对象的对特定目标产生影响的基础特征；

根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待预测对象的对特定目标产生影响的组合特征；

根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算所述待预测对象的特定目标预测值。

可选的，所述特征构造模型和所述特定目标预测模型分别根据不同的已标注特定目标的历史对象集学习获得。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；根据已标注特定目标的历史对象集学习获得所述特征构造模型，包括：

获取所述已标注特定目标的历史对象集；

可选的，根据已标注特定目标的历史对象集学习获得所述特定目标预测模型，包括：

获取所述已标注特定目标的历史对象集；

针对各个历史对象，对所述历史对象进行特征提取，获取所述历史对象的对特定目标产生影响的基础特征；以及根据获取到的基础特征，通过所述预先生成的特征构造模型，生成所述历史对象的对特定目标产生影响的组合特征；

根据获取的各个历史对象的对特定目标产生影响的组合特征和/或基础特征、以及所述已标注特定目标构成的向量对集合，学习获得所述特定目标预测模型。

可选的，所述特定目标预测模型包括基于浅层模型的预测模型。

可选的，所述数据预测方法用于预测信息点击率；所述待预测对象包括待推荐信息；所述特定目标包括所述待推荐信息的信息点击率。

相应的，本申请还提供一种数据预测装置，包括：

获取单元，用于获取待预测对象的对特定目标产生影响的基础特征；

生成特征单元，用于根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待预测对象的对特定目标产生影响的组合特征；

预测单元，用于根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算所述待预测对象的特定目标预测值。

可选的，还包括：

生成特征模型单元，用于根据已标注特定目标的历史对象集学习获得所述特征构造模型；

生成预测模型单元，用于根据所述已标注特定目标的历史对象集学习获得所述特定目标预测模型。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成特征模型单元包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

可选的，所述生成预测模型单元包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

特征提取子单元，用于针对各个历史对象，对所述历史对象进行特征提取，获取所述历史对象的对特定目标产生影响的基础特征；以及根据获取到的基础特征，通过所述预先生成的特征构造模型，生成所述历史对象的对特定目标产生影响的组合特征；

训练子单元，用于根据获取的各个历史对象的对特定目标产生影响的组合特征和/或基础特征、以及所述已标注特定目标构成的向量对集合，学习获得所述特定目标预测模型。

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器被配置成存储数据预测装置，所述数据预测装置被所述处理器执行时，包括如下步骤：获取待预测对象的对特定目标产生影响的基础特征；根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待预测对象的对特定目标产生影响的组合特征；根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算所述待预测对象的特定目标预测值。

此外，本申请还提供一种信息推荐方法，包括：

获取待推荐信息；

针对各个待推荐信息，根据所述待推荐信息的基础特征，通过预先生成的特征构造模型，生成所述待推荐信息的组合特征；

根据所述待推荐信息的所述组合特征和/或所述基础特征，通过预先生成的信息得分预测模型，计算所述待推荐信息的得分；

以所述得分为排序依据，对各个待推荐信息进行排序并显示。

可选的，所述特征构造模型和所述信息得分预测模型分别根据不同的历史信息展示处理记录集学习获得。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；根据历史信息展示处理记录集学习获得所述特征构造模型，包括：

获取所述历史信息展示处理记录集；

对各个历史信息展示处理记录进行特征提取，获取各个历史信息展示处理记录的基础特征；

根据各个历史信息展示处理记录的所述基础特征和所述历史信息展示处理记录的处理结果所构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

可选的，根据历史信息展示处理记录集学习获得所述信息得分预测模型，包括：

获取所述历史信息展示处理记录；

针对各个历史信息展示处理记录，对所述历史信息展示处理记录进行特征提取，获取所述历史信息展示处理记录的基础特征；以及根据获取到的基础特征，通过所述预先生成的特征构造模型，生成所述历史信息展示处理记录的组合特征；

根据获取的各个历史信息展示处理记录的组合特征和/或基础特征、以及所述历史信息展示处理记录的处理结果所构成的向量对集合，学习获得所述信息得分预测模型。

可选的，所述信息得分预测模型包括基于浅层模型的预测模型。

相应的，本申请还提供一种信息推荐装置，包括：

获取单元，用于获取待推荐信息；

生成特征单元，用于针对各个待推荐信息，根据所述待推荐信息的基础特征，通过预先生成的特征构造模型，生成所述待推荐信息的组合特征；

预测单元，用于根据所述待推荐信息的所述组合特征和/或所述基础特征，通过预先生成的信息得分预测模型，计算所述待推荐信息的得分；

排序单元，用于以所述得分为排序依据，对各个待推荐信息进行排序并显示。

可选的，还包括：

生成特征模型单元，用于根据历史信息展示处理记录集学习获得所述特征构造模型；

生成预测模型单元，用于根据所述历史信息展示处理记录集学习获得所述信息得分预测模型。

获取子单元，用于获取所述历史信息展示处理记录集；

特征提取子单元，用于对各个历史信息展示处理记录进行特征提取，获取各个历史信息展示处理记录的基础特征；

训练子单元，用于根据各个历史信息展示处理记录的所述基础特征和所述历史信息展示处理记录的处理结果所构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

可选的，所述生成预测模型单元包括：

获取子单元，用于获取所述历史信息展示处理记录；

特征提取子单元，用于针对各个历史信息展示处理记录，对所述历史信息展示处理记录进行特征提取，获取所述历史信息展示处理记录的基础特征；以及根据获取到的基础特征，通过所述预先生成的特征构造模型，生成所述历史信息展示处理记录的组合特征；

训练子单元，用于根据获取的各个历史信息展示处理记录的组合特征和/或基础特征、以及所述历史信息展示处理记录的处理结果所构成的向量对集合，学习获得所述信息得分预测模型。

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器被配置成存储信息推荐装置，所述信息推荐装置被所述处理器执行时，包括如下步骤：获取待推荐信息；针对各个待推荐信息，根据所述待推荐信息的基础特征，通过预先生成的特征构造模型，生成所述待推荐信息的组合特征；根据所述待推荐信息的所述组合特征和/或所述基础特征，通过预先生成的信息得分预测模型，计算所述待推荐信息的得分；以所述得分为排序依据，对各个待推荐信息进行排序并显示。

与现有技术相比，本申请具有以下优点:

本申请提供的用于机器学习模型的特征生成方法、装置和电子设备，通过获取待处理对象的对特定目标产生影响的基础特征，并根据获取到的基础特征，通过预先生成的特征构造模型，生成待处理对象的对特定目标产生影响的组合特征，其中特征构造模型根据已标注特定目标的历史对象集学习获得。由于本方法通过自主学习的方式生成特征构造模型，并且通过特征构造模型自动生成待处理对象的组合特征，采用机器取代专家经验的方式进行特征自动处理，从而达到降低人工工作量的效果。

附图说明

图1是本申请的用于机器学习模型的特征生成方法实施例的流程图；

图2是本申请的用于机器学习模型的特征生成方法实施例生成特征构造模型的具体流程图；

图3是本申请的用于机器学习模型的特征生成装置实施例的示意图；

图4是本申请的用于机器学习模型的特征生成装置实施例的具体示意图；

图5是本申请的电子设备实施例的示意图；

图6是本申请的数据预测方法实施例的流程图；

图7是本申请的数据预测方法实施例生成预测模型的具体流程图；

图8是本申请的数据预测装置实施例的示意图；

图9是本申请的数据预测装置实施例的具体示意图；

图10是本申请的又一电子设备实施例的示意图；

图11是本申请的信息推荐方法实施例的流程图；

图12是本申请的信息推荐装置实施例的示意图；

图13是本申请的再一电子设备实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了一种用于机器学习模型的特征生成方法、装置及电子设备，一种数据预测方法、装置和电子设备，以及一种信息推荐方法、装置和电子设备。在下面的实施例中逐一进行详细说明。

本申请提供的用于机器学习模型的特征生成方法，其基本思想为：通过机器学习方式生成特征构造模型，并通过特征构造模型，根据待处理对象的基础特征自动生成待处理对象的组合特征。由于采用特征构造模型取代大量人工工作，自动生成复杂的组合特征，从而达到无需专家经验且降低人工工作量的效果。

请参考图1，其为本申请的用于机器学习模型的特征方法实施例的流程图。所述方法包括如下步骤：

步骤S101：获取待处理对象的对特定目标产生影响的基础特征。

本申请实施例所述的待处理对象是指具有多个属性的特定事物，例如，待处理对象可以为一个商品或一条待推荐信息。所述的对特定目标产生影响的基础特征是指，能够直接获取到的、对特定目标产生影响的、待处理对象的特征，例如，待处理对象为一个商品，从该商品中能够提取到商品单价、历史销量和商品库存等基础特征，这些基础特征对用户是否购买该商品可能产生影响。所述的特定目标与待处理对象有关，例如，当待处理对象为商品时，对应的特定目标可以为用户是否购买该商品；当待处理对象为广告时，对应的特定目标可以为用户是否点击该广告。

本申请实施例提供的用于机器学习模型的特征生成方法，是在基础特征的基础上生成组合特征的，因此，首先需要获取待处理对象的对特定目标产生影响的基础特征。

步骤S103：根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征。

当获取到待处理对象的对特定目标产生影响的基础特征之后，就可以根据这些基础特征，通过预先生成的特征构造模型，自动生成待处理对象的对特定目标产生影响的组合特征。

要实施本申请提供的用于机器学习模型的特征生成方法，首先需要生成特征构造模型。本申请实施例所述的特征构造模型是指，通过机器学习算法从已标注特定目标的历史对象集学习获得的特征构造模型。所述的历史对象集中的历史对象与待处理对象是属于同类(class)的不同实例(instance)，待处理对象是预测对象，历史对象是训练样本。与人工规则构造组合特征的方法相比，利用海量的训练数据来学习组合特征，更能刻画数据丰富的内在信息。

请参考图2，其为本申请的用于机器学习模型的特征生成方法实施例生成特征构造模型的具体流程图。在本实施例中，通过机器学习算法从已标注特定目标的历史对象集中学习出所述特征构造模型，包括如下步骤：

步骤S201：获取所述已标注特定目标的历史对象集。

本申请实施例所述的特征构造模型是根据训练数据学习生成的。训练数据是指基础特征和特定目标处理结果组成的向量集。要生成训练数据，首先需要获取已标注特定目标的历史对象集。

步骤S203：对各个历史对象进行特征提取，获取各个历史对象的对特定目标产生影响的基础特征。

获取到已标注特定目标的历史对象集之后，需要对各个历史对象进行特征提取，获取各个历史对象的对特定目标产生影响的基础特征，从而形成由基础特征和特定目标处理结果组成的向量集，即：训练数据。

步骤S205：根据各个历史对象的所述对特定目标产生影响的基础特征和所述已标注特定目标构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

在生成训练数据后，就可以对预先选取的特征构造模型进行训练，调整特征构造模型的特征权重，当达到模型的优化目标时，生成最终的特征构造模型。

本申请实施例选取深度学习模型作为特征构造模型，具体的深度学习模型可以为自动编码器或卷积深度网络等。区别于传统的浅层学习，深度学习的不同在于：1.强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2.明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，使分类或预测更加容易。由于具有很多隐层的深度学习模型具有优异的特征学习能力，学习得到的组合特征对数据有更本质的刻画，从而有利于分类或预测。在实际应用中，深度神经网络在训练上的难度，可以通过“逐层初始化(Layer-wise Pre-training)来有效克服，逐层初始化是通过无监督学习实现的。

在基于深度学习模型的特征构造模型里，输入就是待处理对象的基础特征，没有用到人工特征，从而避免了人工抽取组合特征的时间消耗、以及避免依赖专家知识进行组合特征的抽取工作。在训练好特征构造模型后，可以选取其中任意层、任意数量的隐层节点作为待处理对象的组合特征。当获取到待处理对象的基础特征后，通过特征构造模型，自动计算获取预设的各个组合特征。

需要说明的是，由于深度学习模型是非线性模型，即：输入层变量与输出层变量之间的关系可以是非线性关系，因此，还可以利用深度学习的非线性关系来处理非线性的基础特征，将输入层的非线性基础特征转换为线性特征，以获取待处理对象的线性化基础特征。可见，本申请实施例所述的特征构造模型的隐层节点不仅可以表示传统的组合特征，还可以表示线性化的基础特征。通过特征构造模型，不仅可以获取传统的组合特征，还可以获取线性化的基础特征。在实际应用中，可以通过特征构造模型获取线性化的基础特征，然后将线性变换后特征直接输入到基于线性模型的预测模型中，最终得到预测结果。

在上述的实施例中，提供了一种用于机器学习模型的特征生成方法，与之相对应的，本申请还提供一种用于机器学习模型的特征生成装置。该装置是与上述方法的实施例相对应。

请参看图3，其为本申请的用于机器学习模型的特征生成装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种用于机器学习模型的特征生成装置，包括：

获取单元101，用于获取待处理对象的对特定目标产生影响的基础特征；

生成特征单元103，用于根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征；

请参看图4，其为本申请的用于机器学习模型的特征生成装置实施例的具体示意图。可选的，还包括：

生成模型单元201，用于根据所述已标注特定目标的历史对象集学习获得特征构造模型。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成模型单元201包括：

获取子单元2011，用于获取所述已标注特定目标的历史对象集；

特征提取子单元2013，用于对各个历史对象进行特征提取，获取各个历史对象的对特定目标产生影响的基础特征；

训练子单元2015，用于根据各个历史对象的所述对特定目标产生影响的基础特征和所述已标注特定目标构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

请参考图5，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：显示器501；处理器502；以及存储器503，所述存储器503被配置成存储用于机器学习模型的特征生成装置，所述用于机器学习模型的特征生成装置被所述处理器502执行时，包括如下步骤：获取待处理对象的对特定目标产生影响的基础特征；根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待处理对象的对特定目标产生影响的组合特征；其中所述特征构造模型根据已标注特定目标的历史对象集学习获得。

本申请还提供一种数据预测方法，该方法的基本思想为：通过特征构造模型，在待处理对象的基础特征基础上自动生成待处理对象的对特定目标产生影响的组合特征，并通过特定目标预测模型，根据组合特征和/基础特征，对特定目标进行预测。由于采用特征构造模型自动提取复杂的组合特征，从而达到无需专家经验且降低人工工作量的效果。

请参考图6，其为本申请的数据预测方法实施例的流程图。所述方法包括如下步骤：

步骤S601：获取待预测对象的对特定目标产生影响的基础特征。

步骤S603：根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待预测对象的对特定目标产生影响的组合特征。

步骤S601和步骤S603分别与上述步骤S101和步骤S103相对应，两个步骤相同之处此处不再赘述，相关说明详见步骤S101和步骤S103部分。

步骤S605：根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算所述待预测对象的特定目标预测值。

在获取到待预测对象的对特定目标产生影响的组合特征之后，就可以根据这些组合特征，通过预先生成的特定目标预测模型，对待预测对象的特定目标进行预测。在实际应用中，通常根据组合特征和基础特征，计算待预测对象的特定目标预测值，以提高预测准确度。

要实施本申请提供的数据预测方法，首先需要生成特征构造模型和特定目标预测模型。需要说明的是，本申请实施例所述的特征构造模型和所述的特定目标预测模型均根据已标注特定目标的历史对象集学习获得，两个模型的输出均为同一特定目标的预测值。其中特征构造模型的目的在于自动获取组合特征，而特定目标预测模型的目的在于最终预测。在实际应用中，通常特征构造模型的更新频率较低，而特定目标预测模型的更新频率较高，例如，根据不断更新的训练数据，每周更新一次特定目标预测模型。可见，通常根据不同的训练数据分别生成特征构造模型和特定目标预测模型。

关于特征构造模型的概念和生成方法在上述实施例一中已经给出了相关说明，此处不再赘述，相关说明参见实施例一中的步骤S103部分。下面主要就特定目标预测模型的概念和生成方法进行说明。

请参考图7，其为本申请的数据预测方法实施例生成特定目标预测模型的具体流程图。在本实施例中，通过机器学习算法从已标注特定目标的历史对象集中学习出所述特定目标预测模型，包括如下步骤：

步骤S701：获取所述已标注特定目标的历史对象集。

步骤S701分别与上述步骤S201相对应，两个步骤相同之处此处不再赘述，相关说明详见步骤S201部分。

步骤S703：针对各个历史对象，对所述历史对象进行特征提取，获取所述历史对象的对特定目标产生影响的基础特征；以及根据获取到的基础特征，通过所述预先生成的特征构造模型，生成所述历史对象的对特定目标产生影响的组合特征。

步骤S703分别与上述步骤S601和步骤S603相对应，两个步骤相同之处此处不再赘述，相关说明详见步骤S601和步骤S603部分。

步骤S705：根据获取的各个历史对象的对特定目标产生影响的组合特征和/或基础特征、以及所述已标注特定目标构成的向量对集合，学习获得所述特定目标预测模型。

通过步骤S703准备好作为训练数据的、由对特定目标产生影响的组合特征和/或基础特征、以及已标注特定目标组成的向量集后，就可以根据这些训练数据对预先选取的特定目标预测模型进行训练，当达到模型优化目标后，特定目标预测模型训练完毕。

在本实施例中，数据预测方法用于预测推荐系统中待推荐信息的信息点击率，此时，待预测对象为待推荐信息，特定目标为待推荐信息的信息点击率，训练数据中的已标注特定目标为点击或未点击。由于该数据预测问题属于数据分类的预测问题，因此，特定目标预测模型可以采用基于浅层模型的预测模型，例如，逻辑回归模型或支持向量机模型等。不同预测模型的准确度不同，计算复杂度也不相同，在实际应用中，根据具体应用需求，可以选择任意一种机器学习算法生成特定目标预测模型。

在本实施例中，选取逻辑回归模型作为信息点击率预测模型。需要注意的是，逻辑回归模型的本质是线性模型，输入到模型的特征应该是线性特征。然而，从待预测对象中直接抽取的基础特征可能为线性特征或非线性特征，为此，需要预先对非线性特征作线性化变换处理。本申请实施例通过基于深度学习模型的特征构造模型获取线性化的基础特征，然后将线性变换后特征直接输入到基于逻辑回归模型的预测模型中，最终得到预测结果。

在上述的实施例中，提供了一种数据预测方法，与之相对应的，本申请还提供一种数据预测装置。该装置是与上述方法的实施例相对应。

请参看图8，其为本申请的数据预测装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种数据预测装置，包括：

获取单元801，用于获取待预测对象的对特定目标产生影响的基础特征；

生成特征单元803，用于根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待预测对象的对特定目标产生影响的组合特征；

预测单元805，用于根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算所述待预测对象的特定目标预测值。

请参看图9，其为本申请的数据预测装置实施例的具体示意图。可选的，还包括：

生成特征模型单元901，用于根据已标注特定目标的历史对象集学习获得所述特征构造模型；

生成预测模型单元903，用于根据所述已标注特定目标的历史对象集学习获得所述特定目标预测模型。

可选的，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成特征模型单元901包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

可选的，所述生成预测模型单元903包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

请参考图10，其为本申请的又一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的又一种电子设备，该电子设备包括：显示器1001；处理器1002；以及存储器1003，所述存储器1003被配置成存储数据预测装置，所述数据预测装置被所述处理器1002执行时，包括如下步骤：获取待预测对象的对特定目标产生影响的基础特征；根据获取到的基础特征，通过预先生成的特征构造模型，生成所述待预测对象的对特定目标产生影响的组合特征；根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算所述待预测对象的特定目标预测值。

本申请提供的数据预测方法、装置和电子设备，通过获取待处理对象的对特定目标产生影响的基础特征，并根据获取到的基础特征，通过预先生成的特征构造模型，生成待处理对象的对特定目标产生影响的组合特征，再根据生成的组合特征和/或所述基础特征，通过预先生成的特定目标预测模型，计算待预测对象的特定目标预测值。由于本方法通过特征构造模型自动生成待处理对象的组合特征，采用机器取代专家经验的方式进行特征自动处理，从而达到降低人工工作量的效果。

本申请还提供一种信息推荐方法，该方法的基本思想为：通过特征构造模型，根据待推荐信息的基础特征自动生成待推荐信息的对信息得分产生影响的组合特征，并通过信息得分预测模型，根据组合特征和/基础特征，对待推荐信息的信息得分进行预测。由于采用特征构造模型自动提取待推荐信息的组合特征，从而达到无需专家经验且降低人工工作量的效果。

请参考图11，其为本申请的信息推荐方法实施例的流程图。所述方法包括如下步骤：

步骤S1101：获取待推荐信息。

本申请实施例提供的信息推荐方法，用于对待推荐信息进行精准排序，因此，首先需要获取所有待推荐信息。

步骤S1103：针对各个待推荐信息，根据所述待推荐信息的基础特征，通过预先生成的特征构造模型，生成所述待推荐信息的组合特征。

当获取到待推荐信息后，通过预先生成的特征构造模型，根据从待推荐信息中抽取到的基础特征，生成待推荐信息的组合特征。

步骤S1105：根据所述待推荐信息的所述组合特征和/或所述基础特征，通过预先生成的信息得分预测模型，计算所述待推荐信息的得分。

在获取到待推荐信息的组合特征后，就可以根据这些组合特征，通过预先生成的信息得分预测模型，计算待推荐信息的得分，例如，点击率得分(CTR，Click Through Rate)或转化率得分(CVR，Click Value Rate)。在实际应用中，通常根据组合特征和基础特征，计算待推荐信息的得分，以提高预测准确度。

本申请实施例所述的特征构造模型和所述的信息得分预测模型，与上述数据预测方法实施例中的特征构造模型和特定目标预测模型相对应，此处不再赘述，相关说明参见上述数据预测方法实施例中的步骤S605部分。下述描述仅仅是示意性的。

在本实施例中，所述特征构造模型和所述信息得分预测模型分别根据不同的历史信息展示处理记录集学习获得。其中，所述预先生成的特征构造模型采用基于深度学习模型的特征构造模型；所述组合特征包括所述基于深度学习模型的特征构造模型的隐层节点。具体的，根据历史信息展示处理记录集学习获得所述特征构造模型，包括如下步骤：1)获取所述历史信息展示处理记录集；2)对各个历史信息展示处理记录进行特征提取，获取各个历史信息展示处理记录的基础特征；3)根据各个历史信息展示处理记录的所述基础特征和所述历史信息展示处理记录的处理结果所构成的向量对集合，学习获得所述基于深度学习模型的特征构造模型；所述特征构造模型中的隐层节点作为所述组合特征。

在本实施例中，根据历史信息展示处理记录集学习获得所述信息得分预测模型，包括如下步骤：1)获取所述历史信息展示处理记录；2)针对各个历史信息展示处理记录，对所述历史信息展示处理记录进行特征提取，获取所述历史信息展示处理记录的基础特征；以及根据获取到的基础特征，通过所述预先生成的特征构造模型，生成所述历史信息展示处理记录的组合特征；3)根据获取的各个历史信息展示处理记录的组合特征和/或基础特征、以及所述历史信息展示处理记录的处理结果所构成的向量对集合，学习获得所述信息得分预测模型。

为了提高预测模型的准确度，所述信息得分预测模型采用基于浅层模型的预测模型，根据组合特征和基础特征获取预测结果。

在本实施例中，选取逻辑回归模型作为信息得分预测模型。需要注意的是，逻辑回归模型的本质是线性模型，输入到模型的特征应该是线性特征。然而，从待推荐信息中直接抽取的基础特征可能为线性特征或非线性特征，为此，需要预先对非线性特征作线性化变换处理。本申请实施例通过基于深度学习模型的特征构造模型获取线性化的基础特征，然后将线性变换后特征直接输入到基于逻辑回归模型的信息得分预测模型中，最终得到预测结果。

步骤S1107：以所述得分为排序依据，对各个待推荐信息进行排序并显示。

在获取到各个待推荐信息的得分预测值后，以得分为排序依据，对各个待推荐信息进行排序并显示，以供用户用。

在上述的实施例中，提供了一种信息推荐方法，与之相对应的，本申请还提供一种信息推荐装置。该装置是与上述方法的实施例相对应。

请参看图12，其为本申请的信息推荐装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种信息推荐装置，包括：

获取单元1201，用于获取待推荐信息；

生成特征单元1203，用于针对各个待推荐信息，根据所述待推荐信息的基础特征，通过预先生成的特征构造模型，生成所述待推荐信息的组合特征；

预测单元1205，用于根据所述待推荐信息的所述组合特征和/或所述基础特征，通过预先生成的信息得分预测模型，计算所述待推荐信息的得分；

排序单元1207，用于以所述得分为排序依据，对各个待推荐信息进行排序并显示。

可选的，还包括：

获取子单元，用于获取所述历史信息展示处理记录集；

可选的，所述生成预测模型单元包括：

获取子单元，用于获取所述历史信息展示处理记录；

请参考图13，其为本申请的再一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的再一种电子设备，该电子设备包括：显示器1301；处理器1302；以及存储器1303，所述存储器1303被配置成存储信息推荐装置，所述信息推荐装置被所述处理器1302执行时，包括如下步骤：获取待推荐信息；针对各个待推荐信息，根据所述待推荐信息的基础特征，通过预先生成的特征构造模型，生成所述待推荐信息的组合特征；根据所述待推荐信息的所述组合特征和/或所述基础特征，通过预先生成的信息得分预测模型，计算所述待推荐信息的得分；以所述得分为排序依据，对各个待推荐信息进行排序并显示。

本申请提供的信息推荐方法、装置和电子设备，通过获取待推荐信息，并针对各个待推荐信息，根据待推荐信息的基础特征，通过预先生成的特征构造模型，生成待推荐信息的组合特征；然后根据待推荐信息的组合特征和/或基础特征，通过预先生成的信息得分预测模型，计算待推荐信息的得分；最后，以得分为排序依据，对各个待推荐信息进行排序并显示。由于本方法通过特征构造模型自动生成待推荐信息的组合特征，采用机器取代专家经验的方式进行特征自动处理，从而达到降低人工工作量的效果。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种用于机器学习模型的特征生成方法，其特征在于，包括：

获取待处理对象的对特定目标产生影响的基础特征；

2.根据权利要求1所述的用于机器学习模型的特征生成方法，其特征在于，所述预先生成的特征构造模型包括基于深度学习模型的特征构造模型；所述组合特征包括所述基于深度学习模型的特征构造模型的隐层节点。

3.根据权利要求1所述的用于机器学习模型的特征生成方法，其特征在于，所述特征构造模型采用基于深度学习模型的特征构造模型；根据所述已标注特定目标的历史对象集学习获得所述特征构造模型，包括：

获取所述已标注特定目标的历史对象集；

4.根据权利要求1所述的用于机器学习模型的特征生成方法，其特征在于，所述基础特征包括非线性的基础特征；通过所述特征构造模型，将所述非线性的基础特征转换为线性特征。

5.一种用于机器学习模型的特征生成装置，其特征在于，包括：

6.根据权利要求5所述的用于机器学习模型的特征生成装置，其特征在于，还包括：

7.根据权利要求6所述的用于机器学习模型的特征生成装置，其特征在于，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成模型单元包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

8.一种电子设备，其特征在于，包括：

显示器；

处理器；以及

9.一种数据预测方法，其特征在于，包括：

获取待预测对象的对特定目标产生影响的基础特征；

10.根据权利要求9所述的数据预测方法，其特征在于，所述特征构造模型和所述特定目标预测模型分别根据不同的已标注特定目标的历史对象集学习获得。

11.根据权利要求9所述的数据预测方法，其特征在于，所述预先生成的特征构造模型包括基于深度学习模型的特征构造模型；所述组合特征包括所述基于深度学习模型的特征构造模型的隐层节点。

12.根据权利要求9所述的数据预测方法，其特征在于，所述特征构造模型采用基于深度学习模型的特征构造模型；根据已标注特定目标的历史对象集学习获得所述特征构造模型，包括：

获取所述已标注特定目标的历史对象集；

13.根据权利要求9所述的数据预测方法，其特征在于，根据已标注特定目标的历史对象集学习获得所述特定目标预测模型，包括：

获取所述已标注特定目标的历史对象集；

14.根据权利要求9所述的数据预测方法，其特征在于，所述特定目标预测模型包括基于浅层模型的预测模型。

15.根据权利要求9所述的数据预测方法，其特征在于，所述基础特征包括非线性的基础特征；通过所述特征构造模型，将所述非线性的基础特征转换为线性特征。

16.根据权利要求9所述的数据预测方法，其特征在于，所述数据预测方法用于预测信息点击率；所述待预测对象包括待推荐信息；所述特定目标包括所述待推荐信息的信息点击率。

17.一种数据预测装置，其特征在于，包括：

18.根据权利要求17所述的数据预测装置，其特征在于，还包括：

19.根据权利要求18所述的数据预测装置，其特征在于，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成特征模型单元包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

20.根据权利要求18所述的数据预测装置，其特征在于，所述生成预测模型单元包括：

获取子单元，用于获取所述已标注特定目标的历史对象集；

21.一种电子设备，其特征在于，包括：

显示器；

处理器；以及

22.一种信息推荐方法，其特征在于，包括：

获取待推荐信息；

23.根据权利要求22所述的信息推荐方法，其特征在于，所述特征构造模型和所述信息得分预测模型分别根据不同的历史信息展示处理记录集学习获得。

24.根据权利要求22所述的信息推荐方法，其特征在于，所述预先生成的特征构造模型包括基于深度学习模型的特征构造模型；所述组合特征包括所述基于深度学习模型的特征构造模型的隐层节点。

25.根据权利要求22所述的信息推荐方法，其特征在于，所述特征构造模型采用基于深度学习模型的特征构造模型；根据历史信息展示处理记录集学习获得所述特征构造模型，包括：

获取所述历史信息展示处理记录集；

26.根据权利要求22所述的信息推荐方法，其特征在于，根据历史信息展示处理记录集学习获得所述信息得分预测模型，包括：

获取所述历史信息展示处理记录；

27.根据权利要求22所述的信息推荐方法，其特征在于，所述信息得分预测模型包括基于浅层模型的预测模型。

28.根据权利要求22所述的信息推荐方法，其特征在于，所述基础特征包括非线性的基础特征；通过所述特征构造模型，将所述非线性的基础特征转换为线性特征。

29.一种信息推荐装置，其特征在于，包括：

获取单元，用于获取待推荐信息；

30.根据权利要求29所述的信息推荐装置，其特征在于，还包括：

31.根据权利要求29所述的信息推荐装置，其特征在于，所述特征构造模型采用基于深度学习模型的特征构造模型；所述生成特征模型单元包括：

获取子单元，用于获取所述历史信息展示处理记录集；

32.根据权利要求29所述的信息推荐装置，其特征在于，所述生成预测模型单元包括：

获取子单元，用于获取所述历史信息展示处理记录；

33.一种电子设备，其特征在于，包括：

显示器；

处理器；以及