CN113610240A

CN113610240A - 利用嵌套机器学习模型来执行预测的方法及系统

Info

Publication number: CN113610240A
Application number: CN202110772622.6A
Authority: CN
Inventors: 陈雨强; 戴文渊; 杨强; 郭夏玮; 涂威威
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2021-11-05
Also published as: CN107169574A

Abstract

提供了一种利用嵌套机器学习模型来执行预测的方法及系统，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述方法包括：(A)获取预测数据记录；(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。根据所述系统和方法，能够有效地融合多种类型的子模型来协同工作，充分发挥各个子模型的优势以取得较好的综合机器学习效果。

Description

利用嵌套机器学习模型来执行预测的方法及系统

本申请是申请日为2017年5月5日、申请号为201710311867.2、题为“利用嵌套机器学习模型来执行预测的方法及系统”的专利申请的分案申请。

技术领域

本发明的示例性实施例总体说来涉及人工智能领域，更具体地说，涉及一种利用嵌套机器学习模型来执行预测的方法及系统以及一种训练嵌套机器学习模型的方法及系统。

背景技术

随着海量数据的出现，人工智能技术得到了迅速发展，而为了从海量数据中挖掘出价值，需要基于数据记录来产生适用于机器学习的训练和/或预测样本，以有助于训练出机器学习模型和/或利用训练好的机器学习模型来执行预估。

这里，每条数据记录可被看做关于一个事件或对象的描述，对应于一个示例或样例。在数据记录中，包括反映事件或对象在某方面的表现或性质的各个事项，这些事项可称为“属性”。通过对数据记录的属性信息进行诸如特征工程等处理，可产生包括各种特征的机器学习样本。

在实际的机器学习应用中，数据记录的属性信息在形式或含义等方面各有特点，相应地，所产生的特征也在形式或含义等方面存在各种差异，这使得单个机器学习样本中往往存在不同情况的特征。

然而，由于应用机器学习技术的场景必然会面临计算资源有限、样本数据不足、特征处理脱离应用场景等客观问题，所以现实中难以找到一种机器学习模型，使其能够在各种特征上均具有适当的表现。例如，在现有技术中，存在利用线性模型和神经网络模型来融合训练广度和训练深度的方案(请参见Google的论文“Wide&Deep Learning forRecommender Systems”)，但是上述方案存在训练复杂、计算复杂度高、参数调节困难等缺陷，在工业界的应用受到很大限制。

发明内容

本发明的示例性实施例旨在克服单一机器学习模型无法较好地适用于所有类型特征的缺陷。

根据本发明的示例性实施例，提供一种利用嵌套机器学习模型来执行预测的方法，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述方法包括：(A)获取预测数据记录；(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

可选地，在所述方法中，所述上层模型包括一个决策树子模型，并且，所述下层模型包括多个线性子模型，其中，每个线性子模型对应于所述决策树子模型的一个叶子节点。

可选地，在所述方法中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。

可选地，在所述方法中，上层特征子集涵盖取值为连续值的全部特征，并且，下层特征子集涵盖取值为非连续值的全部特征；或者，上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，并且，下层特征子集涵盖其余取值为非连续值的特征。

可选地，在所述方法中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述方法中，上层特征子集涵盖全部非缺失特征，并且，下层特征子集涵盖全部缺失特征和全部非缺失特征。

根据本发明的另一示例性实施例，提供一种利用嵌套机器学习模型来执行预测的系统，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述系统包括：预测数据记录获取装置，用于获取预测数据记录；预测特征子集产生装置，用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；预测装置，用于将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

可选地，在所述系统中，所述上层模型包括一个决策树子模型，并且，所述下层模型包括多个线性子模型，其中，每个线性子模型对应于所述决策树子模型的一个叶子节点。

可选地，在所述系统中，预测特征子集产生装置基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。

可选地，在所述系统中，上层特征子集涵盖取值为连续值的全部特征，并且，下层特征子集涵盖取值为非连续值的全部特征；或者，上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，并且，下层特征子集涵盖其余取值为非连续值的特征。

可选地，在所述系统中，预测特征子集产生装置基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述系统中，上层特征子集涵盖全部非缺失特征，并且，下层特征子集涵盖全部缺失特征和全部非缺失特征。

根据本发明的另一示例性实施例，提供一种利用嵌套机器学习模型来执行预测的计算机可读介质，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，其中，在所述计算机可读介质上记录有用于执行以下步骤的计算机程序：(A)获取预测数据记录；(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

可选地，在所述计算机可读介质中，所述上层模型包括一个决策树子模型，并且，所述下层模型包括多个线性子模型，其中，每个线性子模型对应于所述决策树子模型的一个叶子节点。

可选地，在所述计算机可读介质中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。

可选地，在所述计算机可读介质中，上层特征子集涵盖取值为连续值的全部特征，并且，下层特征子集涵盖取值为非连续值的全部特征；或者，上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，并且，下层特征子集涵盖其余取值为非连续值的特征。

可选地，在所述计算机可读介质中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述计算机可读介质中，上层特征子集涵盖全部非缺失特征，并且，下层特征子集涵盖全部缺失特征和全部非缺失特征。

根据本发明的另一示例性实施例，提供一种利用嵌套机器学习模型来执行预测的计算装置，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，其中，所述计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)获取预测数据记录；(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

可选地，在所述计算装置中，所述上层模型包括一个决策树子模型，并且，所述下层模型包括多个线性子模型，其中，每个线性子模型对应于所述决策树子模型的一个叶子节点。

可选地，在所述计算装置中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。

可选地，在所述计算装置中，上层特征子集涵盖取值为连续值的全部特征，并且，下层特征子集涵盖取值为非连续值的全部特征；或者，上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，并且，下层特征子集涵盖其余取值为非连续值的特征。

可选地，在所述计算装置中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述计算装置中，上层特征子集涵盖全部非缺失特征，并且，下层特征子集涵盖全部缺失特征和全部非缺失特征。

根据本发明的另一示例性实施例，提供一种训练嵌套机器学习模型的方法，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述方法包括：(a)获取训练数据记录；(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

可选地，在所述方法中，在步骤(b)中，基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。

可选地，在所述方法中，在步骤(b)中，基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述方法中，在步骤(c)中，将嵌套机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。

根据本发明的另一示例性实施例，提供一种训练嵌套机器学习模型的系统，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述系统包括：训练数据记录获取装置，用于获取训练数据记录；训练特征子集产生装置，用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及训练装置，用于根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

可选地，在所述系统中，训练特征子集产生装置基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。

可选地，在所述系统中，训练特征子集产生装置基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述系统中，训练特征子集产生装置将嵌套机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。

根据本发明的示例性实施例，提供一种训练嵌套机器学习模型的计算机可读介质，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，其中，在所述计算机可读介质上记录有用于执行以下步骤的计算机程序：(a)获取训练数据记录；(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

可选地，在所述计算机可读介质中，在步骤(b)中，基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。

可选地，在所述计算机可读介质中，在步骤(b)中，基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述计算机可读介质中，在步骤(c)中，将嵌套机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。

根据本发明的示例性实施例，提供一种训练嵌套机器学习模型的计算装置，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，其中，所述计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(a)获取训练数据记录；(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

可选地，在所述计算装置中，在步骤(b)中，基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。

可选地，在所述计算装置中，在步骤(b)中，基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

可选地，在所述计算装置中，在步骤(c)中，将嵌套机器学习模型参数、线性子模型参数和/或决策树子模型参数设置为逐渐变化。

在根据本发明示例性实施例的利用嵌套机器学习模型来执行预测的方法及系统以及训练嵌套机器学习模型的方法及系统中，构成嵌套机器学习模型的上层模型和下层模型被配置为根据嵌套架构训练而成，并且，每个上层模型或下层模型作用于各自的样本特征子集，通过这种方式，能够有效地融合多种类型的子模型来协同工作，充分发挥各个子模型的优势以取得较好的综合机器学习效果。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1示出根据本发明的示例性实施例的利用嵌套机器学习模型来执行预测的系统的框图；

图2示出根据本发明的示例性实施例的利用嵌套机器学习模型来执行预测的方法的流程图；

图3示出根据本发明的示例性实施例的训练嵌套机器学习模型的系统的框图；

图4示出根据本发明的示例性实施例的训练嵌套机器学习模型的方法的流程图；

图5A示出现有技术中的决策树模型的示例；以及

图5B示出根据本发明示例性实施例的嵌套机器学习模型的示例。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。

机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本发明的示例性实施例对能够适用于上下层嵌套框架的具体机器学习算法并不进行特定限制。此外，还应注意，在训练和应用嵌套机器学习模型的过程中，还可利用统计算法、业务规则和/或专家知识等，以进一步提高机器学习的效果。

具体说来，本发明的示例性实施例涉及嵌套机器学习模型的训练和预估，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，每个上层模型或下层模型具有各自的特征子集且根据上下层嵌套框架训练而成。相应地，本发明的示例性实施例需针对数据记录进行特定方式的特征子集划分处理，并将划分出的特征子集应用于相应的上层模型或下层模型。

图1示出根据本发明的示例性实施例的利用嵌套机器学习模型来执行预测的系统的框图。具体说来，所述预测系统可用于针对预测样本，利用嵌套机器学习模型来给出其关于特定业务问题(即，预测目标)的预测结果，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型。

这里，嵌套机器学习模型的上层模型或下层模型在类型上不受限制，任何能够根据上下层嵌套框架训练为嵌套结构模型的机器学习模型均可作为根据本发明示例性实施例的上层模型或下层模型。在嵌套机器学习模型的训练过程中，可通过设置相应的配置项来完成各个上层模型和下层模型的训练。作为示例，嵌套机器学习模型的参数和/或参数变化方式等可在训练过程中被配置。

作为示例，所述上层模型可包括一个决策树子模型，并且，所述下层模型可包括多个线性子模型，其中，每个线性子模型可对应于所述决策树子模型的一个叶子节点。其中，线性子模型的类型为线性模型，而决策树子模型的类型为决策树模型。具体说来，线性模型具有简单、训练速度快等特点，其可以容纳高维度高样本数的大数据集，但是作为线性分类器，这类模型无法抓取特征之间的非线性信息，而模型复杂度较低使其在面对诸如连续特征的情况时，往往无法取得较好的效果。另一方面，决策树模型具有很强的非线性，更容易提取特征的交互性(interaction)。使用集成框架将决策树模型进行集成(例如梯度提升决策树(Gradient Boosting Decision Tree)，灵活性更强，经过正确调参(parametertuning)后往往能获得更好的分类效果。然而，其内存占用大，速度慢，对于大数据(高维度，多样本)训练集与测试集难以运行，尤其是对于存在大量作了一位有效编码(one-hotencoding)的离散特征的数据集，往往会有极其高的维度，使训练和调参变得十分困难，反而不如线性模型。

通过将线性子模型和决策树子模型按照上下层嵌套框架训练为嵌套机器学习模型，不仅能够充分发挥两种模型的优势，而且与工业界已经采用的联合训练线性模型与神经网络的方式相比，在调参难度和训练速度方面都具有明显的改进。然而，应注意，根据本发明示例性实施例的上层模型或下层模型并不受限于上述两种。

图1所示的系统可全部通过计算机程序以软件方式来实现，也可由专门的硬件装置来实现，还可通过软硬件结合的方式来实现。相应地，组成图1所示的系统的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块，也可以是依靠硬件结构来实现所述功能的通用或专用器件，还可以是运行有相应计算机程序的处理器等。

如图1所示，预测数据记录获取装置100用于获取预测数据记录。这些预测数据记录可由任何方以任何方式来产生，例如，可以是客户手动填写的数据、客户在线提交的数据、预先存储或生成的数据、也可以是从外部接收的数据。这些数据的属性信息可涉及客户自身的信息，例如，身份、学历、职业、资产、联系方式等信息。或者，这些数据的属性信息也可涉及业务相关项目的信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意，本发明的示例性实施例中提到的数据的属性可涉及任何对象或事务在某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。实际上，任何能够通过对其进行机器学习的信息数据均可应用于本发明的示例性实施例。

预测数据记录获取装置100可获取不同来源(例如，来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等)的结构化或非结构化数据，例如，文本数据或数值数据等。这些数据可通过输入装置输入到预测数据记录获取装置100，或者由预测数据记录获取装置100根据已有的数据来自动生成，或者可由预测数据记录获取装置100从网络上(例如，网络上的存储介质(例如，数据仓库))获得，此外，诸如服务器的中间数据交换装置可有助于预测数据记录获取装置100从外部数据源获取相应的数据。这里，获取的数据可被预测数据记录获取装置100中的文本分析模块等数据转换模块转换为容易处理的格式。应注意，预测数据记录获取装置100可被配置为由软件、硬件和/或固件组成的各个模块，这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。

预测特征子集产生装置200用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集。具体说来，预测特征子集产生装置200可通过对预测数据记录的属性信息进行筛选、分组或进一步附加处理等而得到多个特征，并通过对所述多个特征进行各种划分而得到多组特征(其中，每个特征可被划分到一个或多个组中)，每组特征可作为预测样本的一个特征子集，这里，预测样本与预测数据记录对应，通常可作为机器学习模型的直接输入。应注意，上述特征子集可包括一部分特征，或者，可包括全部特征，或者，可不包括任何特征。根据本发明的示例性实施例，预测特征子集产生装置200可按照任何适当的方式来生成特征子集，例如，可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素，或者，可结合嵌套机器学习模型中的上层或下层模型的特点等。

预测装置300用于将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

具体说来，预测装置300可有区别地向作为子模型的每个上层模型或下层模型提供一个或多个特征子集，这里，所有子模型得到的特征子集并不完全相同，而任意两个子模型(不论是属于同一分层的子模型还是不同分层的子模型)可被提供完全相同、部分相同或完全不同的特征子集。也就是说，嵌套机器学习模型的各个上层模型或下层模型针对其被提供的特征子集来执行预估，相应地，可综合所有子模型的预估结果而得到嵌套机器学习模型针对预测样本整体的预测结果。

以下将参照图2来描述根据本发明的示例性实施例的利用嵌套机器学习模型来执行预测的方法的流程图。这里，作为示例，图2所示的方法可由图1所示的预测系统来执行，也可完全通过计算机程序以软件方式实现，还可通过特定配置的计算装置来执行图2所示的方法。

为了描述方便，假设图2所示的方法由图1所示的预测系统来执行，如图所示，在步骤S100中，由预测数据记录获取装置100获取预测数据记录。

这里，作为示例，每条预测数据记录可对应于关于特定预测问题的一个待预测项(例如，事件或对象)，相应地，预测数据记录可包括反映事件或对象在某方面的表现或性质(即，属性)的各种属性信息。通过对这些属性信息进行相应的筛选、分组或处理，可进一步获取用于进行机器学习的样本特征。这里，预测数据记录获取装置100可通过手动、半自动或全自动的方式来采集数据，作为示例，预测数据记录获取装置100可批量地采集数据。

预测数据记录获取装置100可通过输入装置(例如，工作站)接收用户手动输入的预测数据记录。此外，预测数据记录获取装置100可通过全自动的方式从数据源系统地取出预测数据记录，例如，通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式，其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下，可在没有人工干预的情况下自动进行数据采集，但应注意，在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了定时器机制。在这种情况下，在接收到特定的用户输入的情况下，才产生提取数据的请求。每次获取数据时，优选地，可将捕获的数据存储在非易失性存储器中。作为示例，可利用数据仓库来存储在获取期间采集的数据。可选地，可借助硬件集群(诸如Hadoop集群)对采集到的数据进行存储和/或后续处理，例如，存储、分类和其他离线操作。此外，也可对采集的数据进行在线的流处理。

作为示例，预测数据记录获取装置100中可包括文本分析模块等数据转换模块，用于将文本等非结构化数据转换为更易于使用的结构化数据以进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、可疑交易报告等。

接下来，在步骤S200中，由预测特征子集产生装置200基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集。

这里，在将预测数据记录转换为可直接输入模型的相应预测样本的过程中，可基于各属性信息来生成预测样本的各个特征。根据本发明的示例性实施例，预测样本可具有多个特征子集，使得每个上层模型或下层模型能够具有各自的特征子集。

预测特征子集产生装置200可采用任何适当的方式，基于预测数据记录的属性信息来产生预测样本的相应特征，并将这些特征按照特定方式组合为各个特征子集。

例如，预测特征子集产生装置200可基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。

具体说来，在生成了预测样本的各个特征之后，可相应地确定每个特征的取值为连续值还是非连续值(即，离散值)，或者，可相应地确定每个特征的取值空间规模(例如，性别特征可对应二维特征空间)等。在此基础上，可按照特定的划分方式来产生各个特征子集。

作为示例，对于上层模型而言，其特征子集可仅包括至少一部分连续值特征，例如，作为上层模型的单个决策树子模型的特征子集可涵盖取值为连续值的一部分或全部特征。

此外，对于上述单个决策树子模型而言，其特征子集除了包括至少一部分连续值特征之外，还可包括一部分非连续值特征，在这种情况下，可考虑非连续值特征的取值空间规模、特征子集的特征总数等因素来确定将被包括在决策树特征子集中的非连续值特征。

作为示例，对于下层模型而言，其特征子集可仅包括至少一部分非连续值特征，例如，每个作为下层模型的线性子模型的特征子集可包括完全相同、部分相同或完全不同的非连续值特征；作为示例，所有线性子模型的特征子集作为整体可涵盖取值为非连续值的一部分或全部特征。

此外，对于上述线性子模型而言，其特征子集除了包括至少一部分非连续值特征之外，还可包括一部分连续值特征。也就是说，每个线性子模型的特征子集可包括完全相同、部分相同或完全不同的连续值特征或非连续值特征；作为示例，所有线性子模型的特征子集作为整体可涵盖至少一部分非连续值特征连同一部分连续值特征。

这里，可协同地生成上层特征子集和下层特征子集。根据本发明的示例性实施例，上层特征子集和下层特征子集可涵盖完全不同的特征，也可涵盖至少一部分相同的特征。作为示例，上层特征子集可涵盖取值为连续值的全部特征，相应地，下层特征子集可涵盖取值为非连续值的全部特征，或者，下层特征子集可涵盖预测样本的所有特征；作为另一示例，上层特征子集可涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，相应地，下层特征子集可涵盖其余取值为非连续值的特征，或者，下层特征子集可涵盖预测样本的所有特征。

此外，预测特征子集产生装置200可基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

具体说来，在机器学习模型的实际应用场景中，训练数据记录中的某些属性信息常常没有出现在预测数据记录中，预测样本中基于这样的缺失属性信息而生成的特征即为缺失特征(其中，缺失属性信息可被设为零值)，相反，没有以缺失属性信息为依据的特征即为非缺失特征。应理解，这种特征的缺失性会导致预测结果的偏差(bias)，而根据本发明的示例性实施例，可通过将缺失特征和非缺失特征划分到适当的特征子集来有效地消除上述偏差。

作为示例，对于上层模型而言，其特征子集可仅包括至少一部分非缺失特征，例如，作为上层模型的单个决策树子模型的特征子集可涵盖一部分非缺失特征或全部非缺失特征。

作为示例，对于下层模型而言，其特征子集可包括至少一部分缺失特征，例如，每个作为下层模型的线性子模型的特征子集可包括完全相同、部分相同或完全不同的缺失特征；作为示例，所有线性子模型的特征子集作为整体可涵盖一部分缺失特征或全部缺失特征。

此外，对于上述线性子模型而言，其特征子集除了包括至少一部分缺失特征之外，还可包括至少一部分非缺失特征，在这种情况下，所有线性子模型的特征子集作为整体可涵盖预测样本的一部分特征或所有特征。

这里，可协同地生成上层特征子集和下层特征子集。根据本发明的示例性实施例，上层特征子集和下层特征子集可涵盖完全不同的特征，也可涵盖至少一部分相同的特征。作为示例，上层特征子集可涵盖全部非缺失特征，相应地，下层特征子集可涵盖全部缺失特征和全部非缺失特征。

应注意，预测特征子集产生装置200在产生特征子集时，可依据任何与属性信息、子模型或数据等有关的因素，本发明的示例性实施例并不限制特征子集的具体产生方式。

此外，在基于属性信息来产生特征的过程中，不仅可进行属性信息的筛选或分组，还可对筛选或分组得到的属性信息进行进一步处理，即，作为可选方式，预测特征子集产生装置200可对获取的预测数据记录进行特征工程处理，例如，预测特征子集产生装置200可对预测数据记录的原始属性信息进行诸如离散化、字段组合、提取部分字段值、取整等各种特征工程的处理，并将处理后的特征按照特定规则组合为各个特征子集。

在步骤S300中，由预测装置300将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

这里，嵌套机器学习模型可保存在图1所示的系统之中，或者，嵌套机器学习模型可保存在图1所示的系统之外；作为示例，可由预测装置300或其他装置读取所述嵌套机器学习模型，使得预测装置300可直接将特征子集提供给读取出的嵌套机器学习模型。

另外，嵌套机器学习模型也可始终位于图1所示的系统之外，而由预测装置300直接或经由其他装置将特征子集提供给位于外部的嵌套机器学习模型。在这种情况下，预测装置300还可从外部接收嵌套机器学习模型的预测结果。

以下结合图3、图4、图5A和图5B来描述根据本发明的示例性实施例的训练嵌套机器学习模型的系统及其训练方法。

这里所述的嵌套机器模型可包括两层模型，并且，根据上下层嵌套框架来训练上层模型和下层模型。如上所述，每层模型在数量上可以是一个或多个，各个子模型之间可具有完全相同、部分相同或完全不同的特征子集，

这里，可考虑到模型、样本、特征、预测问题等来设计嵌套机器学习模型的上层模型和下层模型，例如，所述上层模型可包括一个决策树子模型，并且，所述下层模型可包括多个线性子模型，其中，每个线性子模型可对应于所述决策树子模型的一个叶子节点。

具体说来，图3示出根据本发明的示例性实施例的训练嵌套机器学习模型的系统的框图，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型。图3所示的训练系统可全部通过计算机程序以软件方式来实现，也可由专门的硬件装置来实现，还可通过软硬件结合的方式来实现。相应地，组成图3所示的系统的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块，也可以是依靠硬件结构来实现所述功能的通用或专用器件，还可以是运行有相应计算机程序的处理器等。

如图3所示，训练数据记录获取装置1000用于获取训练数据记录。这里，训练数据记录获取装置1000可采用各种适当的方式来离线或在线地获取训练数据记录。根据本发明的示例性实施例，训练数据记录获取装置1000可采用与预测数据记录获取装置100类似的方式来执行操作，只不过两者获取的具体数据不同，因此这里将不再对其进行详细描述。由训练数据记录获取装置1000获取的训练数据记录除了包括各种属性信息之外，还包括该条数据记录相对于预测问题的标记(label)。

训练特征子集产生装置2000用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集。这里，训练特征子集产生装置2000可按照任何适当的方式来生成特征子集，例如，可考虑属性信息的内容、含义、取值连续性、取值范围、取值空间规模、缺失性、重要性等因素，或者，可结合嵌套机器学习模型中的上层模型或下层模型的特点等。根据本发明的示例性实施例，训练特征子集产生装置2000可按照与预测特征子集产生装置200对应的方式来生成训练样本的各个特征，即，训练样本与特征样本在特征和特征子集方面均具有对应性。应理解，由于实践中预测数据记录相对于训练数据记录可能会存在一些缺失的属性信息，因此，在预测特征子集产生装置200生成与缺失属性信息有关的特征时，预测数据记录中的相应缺失属性信息而被设为零值。

训练装置3000用于根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。这里，训练装置3000可首先按照适当的方式训练出上层模型，继而进一步得到与上层模型相连的各个下层模型。具体说来，训练装置3000可根据配置的参数来执行初始化处理，并确定上层模型或下层模型的类型以及相应的特征子集划分。假设上层模型为单个决策树模型，而下层模型为多个线性模型。相应地，在图5A所示的传统决策树模型中，落在同一个叶子节点上的样本的输出值是完全相同的，而如果把这个常数输出值替换成一个线性模型部分，就可得到一个如图5B所示的上下层嵌套的机器学习模型。训练出的嵌套机器学习模型可被存储在图3的系统中以便后续使用，或者，可将训练出的嵌套机器学习模型提供给外部系统或装置。

以下将参照图4来描述根据本发明的示例性实施例的训练嵌套机器学习模型的方法的流程图。这里，作为示例，图4所示的方法可由图3所示的训练系统来执行，也可完全通过计算机程序以软件方式实现，还可通过特定配置的计算装置来执行图4所示的方法。

为了描述方便，假设图4所示的方法由图3所示的训练系统来执行，如图所示，在步骤S1000中，由训练数据记录获取装置1000获取训练数据记录。这里，可按照与步骤S100类似的方式来执行步骤S1000，只不过在这两个步骤中获取的具体数据不同，例如，训练数据记录除了包括各种属性信息之外，还包括该条数据记录相对于预测问题的标记(label)。

接下来，在步骤S2000中，由训练特征子集产生装置2000基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集。

例如，在步骤S2000中，训练特征子集产生装置2000可基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的取值连续性和/或取值空间规模来生成训练样本的上层特征子集和训练样本的下层特征子集。

相应地，上层特征子集可涵盖取值为连续值的全部特征，并且，下层特征子集可涵盖取值为非连续值的全部特征，或者，下层特征子集可涵盖预测样本的所有特征；或者，上层特征子集可涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，并且，下层特征子集可涵盖其余取值为非连续值的特征，或者，下层特征子集可涵盖预测样本的所有特征。

又例如，在步骤S2000中，训练特征子集产生装置2000可基于训练数据记录的属性信息来生成训练样本的特征，并根据特征的缺失性来生成训练样本的上层特征子集和训练样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

这里，应理解，所谓缺失指的是某些属性信息在训练数据记录中存在而在预测数据记录中缺失，因此，缺失属性信息在预测数据记录中被设置为零值，而在训练数据记录中则可具有实际值。相应地，训练样本的缺失特征或非缺失特征也仅仅是沿用了与预测样本的缺失特征或非缺失特征同样的说法而已，不代表训练样本的这些特征本身具有缺少的属性信息。

相应地，上层特征子集可涵盖全部非缺失特征，并且，下层特征子集可涵盖全部缺失特征和全部非缺失特征。

应理解，可按照与步骤S200对应的方式来执行步骤S2000，这里将不再赘述某些重复内容和细节。

在步骤S3000中，训练装置3000可根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

具体说来，训练装置3000可配置嵌套机器学习模型的以下项目之中的至少一个：上层模型的总数、下层模型的总数、各上层模型的类型、各下层模型的类型、各上层模型的参数、各下层模型的参数、各上层模型的参数变化方式、各下层模型的参数变化方式。所形成的模型训练配置可用于指导后续针对各个子模型的每轮训练。特别地，在该步骤中，可将嵌套机器学习模型参数、上层模型参数(例如，决策树子模型参数)和/或下层模型参数设置为逐渐变化。通过这种参数自适应(parameter adaptation)，可允许模型总体参数(如学习率)和子模型参数(如线性模型迭代轮数，正则化系数，决策树深度等)进行逐渐变化。

例如，当嵌套机器学习模型的上层模型为决策树子模型而下层模型为至少一个线性子模型时，可理解：对于决策树子模型而言，落在同一个叶子节点上的样本的输出值是完全相同的，而如果把这个常数输出值替换成一个线性子模型，就可得到一个上下层嵌套的机器学习模型。具体来说，假设输入训练样本表示为x，则嵌套机器学习模型可以表示为：

在上式中，v_j是第j个叶子节点上的线性权重向量，b_j(x)是一个指示函数，只有x在第j个叶子节点上的时候输出1，其他时候输出0。该嵌套机器学习模型的训练方法分成两步，第一步是生成一个决策树模型，第二步是在生成的模型的基础上求解对应的权重向量。根据本发明的示例性实施例，上层模型和下层模型可分别对应不同的特征子集(即，特征变换结果)，相应地，Φ^t可表示输入决策树子模型的特征变换，Φ^l表示输入线性子模型的特征变换。

为了描述方便，假设将嵌套机器学习模型简化为：

首先，可采用适当的决策树模型训练方法来获得一棵决策树模型∑_jα_jb_j(x)，其中，α_j是第j个叶子节点上的权重，然后，假设存在N(N为大于1的整数)个训练样本组成的训练样本集D＝{(x_i,y_i)|i＝1,2,…,N}，其中，x_i指示第i个训练样本，y_i为x_i的标记，则可根据下式来计算权重向量最优解：

这里，λ^tl和β^tl是正则化系数，l(·,·)为对应的损失函数。该式可采用FTRL-Proximal来求解。

以上列出了嵌套机器学习模型的训练方式，然而，应理解，本发明的示例性实施例并不受限于上述示例。

应理解，图1和图3所示出的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的单元或模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

以上参照图1和图2描述了根据本发明示例性实施例的利用嵌套机器学习模型来执行预测的系统和方法。应理解，上述预测方法可通过记录在计算可读介质上的程序来实现，相应地，根据本发明的示例性实施例，可提供一种利用嵌套机器学习模型来执行预测的介质，其中，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：(A)获取预测数据记录；(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

以上参照图3和图4描述了根据本发明示例性实施例的训练嵌套机器学习模型的系统和方法。应理解，上述训练方法可通过记录在计算可读介质上的程序来实现，相应地，根据本发明的示例性实施例，可提供一种训练嵌套机器学习模型的介质，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：(a)获取训练数据记录；(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照图1到图4进行了描述，这里为了避免重复将不再进行赘述。

应注意，根据本发明示例性实施例的预测系统或训练系统可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的预测功能。

另一方面，图1或图3所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

这里，本发明的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行利用嵌套机器学习模型来执行预测的方法和/或训练所述嵌套机器学习模型的方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本发明示例性实施例的预测方法和训练方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本发明示例性实施例的预测方法和/或训练方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

具体说来，如上所述，根据本发明示例性实施例的利用嵌套机器学习模型来执行预测的计算装置可包括存储部件和处理器，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)获取预测数据记录；(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

应注意，以上已经结合图1和图2描述了根据本发明示例性实施例的利用嵌套机器学习模型来执行预测的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

另外，根据本发明示例性实施例的训练嵌套机器学习模型的计算装置可包括存储部件和处理器，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(a)获取训练数据记录；(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

应注意，以上已经结合图3和图4描述了根据本发明示例性实施例的训练嵌套机器学习模型的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

以上已经描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种利用嵌套机器学习模型来执行预测的方法，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述方法包括：

(A)获取预测数据记录；

(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；

(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

2.如权利要求1所述的方法，其中，所述上层模型包括一个决策树子模型，并且，所述下层模型包括多个线性子模型，

其中，每个线性子模型对应于所述决策树子模型的一个叶子节点。

3.如权利要求1或2所述的方法，其中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。

4.如权利要求3所述的方法，其中，上层特征子集涵盖取值为连续值的全部特征，并且，下层特征子集涵盖取值为非连续值的全部特征；

或者，上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征，并且，下层特征子集涵盖其余取值为非连续值的特征。

5.如权利要求1或2所述的方法，其中，在步骤(B)中，基于预测数据记录的属性信息来生成预测样本的特征，并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集，其中，特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。

6.如权利要求5所述的方法，其中，上层特征子集涵盖全部非缺失特征，并且，下层特征子集涵盖全部缺失特征和全部非缺失特征。

7.一种利用嵌套机器学习模型来执行预测的系统，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述系统包括：

预测数据记录获取装置，用于获取预测数据记录；

预测特征子集产生装置，用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集；

预测装置，用于将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型，以得到嵌套机器学习模型针对预测样本的预测结果。

8.如权利要求7所述的系统，其中，所述上层模型包括一个决策树子模型，并且，所述下层模型包括多个线性子模型，

9.一种训练嵌套机器学习模型的方法，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述方法包括：

(a)获取训练数据记录；

(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及

(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。

10.一种训练嵌套机器学习模型的系统，其中，所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型，所述系统包括：

训练数据记录获取装置，用于获取训练数据记录；

训练特征子集产生装置，用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集；以及

训练装置，用于根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型，其中，上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。