CN108427658A

CN108427658A - 一种数据预测方法、装置及电子设备

Info

Publication number: CN108427658A
Application number: CN201810201828.1A
Authority: CN
Inventors: 赵知纬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2018-08-21

Abstract

本发明实施例提供了一种数据预测方法、装置及电子设备，属于计算机领域。可以根据待测初始特征向量和预先训练的集成树模型，得到待测初始特征向量对应的交叠特征向量，其中，集成树模型是根据训练样本和预设的集成树拟合算法训练得到的，训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果，然后拼接待测初始特征向量和交叠特征向量，得到目标特征向量，最后根据目标特征向量和预先训练的线性回归模型，得到预测结果，其中，线性回归模型是根据训练样本和预设的线性回归模型算法训练得到的。采用本发明实施例提供的数据预测方法，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。

Description

一种数据预测方法、装置及电子设备

技术领域

本发明涉及计算机领域，特别涉及一种数据预测方法、装置及电子设备。

背景技术

随着计算机技术的发展，数据的统计和处理越来越方便，很多行业需要借助计算机技术和统计的数据来预测数据。例如，通过统计已经上映的电影的票房和影响票房的各种因素，来预测一部将要上映的电影的票房。或者，通过统计已经上映的电视剧的播放量和影响播放量的各种因素，来预测一部将要上映的电视剧的播放量。

目前，主要通过线性回归模型预测数据。例如，在预测电影票房时，通过统计相关已上映的电影的票房和影响这些票房的因素(例如，演职人员的热度值、演职人员过去作品的票房、电影的档期或题材等)，先确定具体的线性回归模型，然后将需要预测票房的电影的因素对应的参数输入线性回归模型中，从而预测该电影的票房。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：通过线性回归模型预测数据时，在考虑各影响因素时，各影响因素通常是相对独立的，各影响因素之间的相互关系(可以称为交叠因素)没有体现，这样导致预测的结果不准确。

发明内容

本发明实施例的目的在于提供一种数据预测方法、装置及电子设备，以提高数据预测的精度。具体技术方案如下：

第一方面，提供了一种数据预测方法，所述方法包括：

根据待测初始特征向量和预先训练的集成树模型，得到所述待测初始特征向量对应的交叠特征向量，其中，所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

拼接所述待测初始特征向量和所述交叠特征向量，得到目标特征向量；

根据所述目标特征向量和预先训练的线性回归模型，得到预测结果，其中，所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。

可选的，所述集成树模型的训练过程包括：

获取训练样本，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

根据所述训练样本和预设的集成树模型拟合算法，训练得到集成树模型。

可选的，所述集成树模型为梯度提高集成树模型。

可选的，所述线性回归模型的训练过程包括：

获取所述训练样本，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

根据所述多组样本初始特征向量和所述集成树模型，得到所述多组样本初始特征向量对应的各样本交叠特征向量；

拼接所述多组样本初始特征向量和对应的样本交叠特征向量，得到多组样本目标特征向量；

根据所述多组样本目标特征向量和对应的样本结果，以及预设的线性回归模型算法，训练得到线性回归模型。

可选的，所述预设的线性回归模型算法为最小二乘法。

第二方面，提供了一种数据预测装置，所述装置包括：

交叠特征模块，用于根据待测初始特征向量和预先训练的集成树模型，得到所述待测初始特征向量对应的交叠特征向量，其中，所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

拼接模块，用于拼接所述待测初始特征向量和所述交叠特征向量，得到目标特征向量；

预测模块，用于根据所述目标特征向量和预先训练的线性回归模型，得到预测结果，其中，所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。

可选的，所述装置还包括：

第一获取模块，用于获取训练样本，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

第一训练模块，用于根据所述训练样本和预设的集成树模型拟合算法，训练得到集成树模型。

可选的，所述集成树模型为梯度提高集成树模型。

可选的，所述装置还包括：

第二获取模块，用于获取所述训练样本，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

第一确定模块，用于根据所述多组样本初始特征向量和所述集成树模型，得到所述多组样本初始特征向量对应的各样本交叠特征向量；

第二确定模块，用于拼接所述多组样本初始特征向量和对应的样本交叠特征向量，得到多组样本目标特征向量；

第二训练模块，用于根据所述多组样本目标特征向量和对应的样本结果，以及预设的线性回归模型算法，训练得到线性回归模型。

可选的，所述预设的线性回归模型算法为最小二乘法。

第三方面，一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的数据预测方法的步骤。

第四方面，为了达到上述目的，本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现如上述第一方面所述的数据预测方法的步骤。

本发明实施例提供了一种数据预测方法、装置及电子设备，可以根据待测初始特征向量和预先训练的集成树模型，得到待测初始特征向量对应的交叠特征向量，其中，集成树模型是根据训练样本和预设的集成树拟合算法训练得到的，训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果，然后拼接待测初始特征向量和交叠特征向量，得到目标特征向量，最后根据目标特征向量和预先训练的线性回归模型，得到预测结果，其中，线性回归模型是根据训练样本和预设的线性回归模型算法训练得到的。

本发明实施例提供的数据预测方法，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。当然，实施本发明的任一产品或方法不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种数据预测方法的流程图；

图2为本发明实施例提供的一种CART模型；

图3为本发明实施例提供的一种集成树模型的训练流程图；

图4为本发明实施例提供的一种线性回归模型的训练流程图；

图5为本发明实施例提供的一种数据预测的装置结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例公开了一种数据预测方法、装置及电子设备，本发明实施例的执行主体可以是终端，以下结合预测电影票房为例分别进行详细说明。

如图1所示，图1为本发明实施例的一种数据预测方法的流程图，包括如下步骤：

步骤110，根据待测初始特征向量和预先训练的集成树模型，得到待测初始特征向量对应的交叠特征向量。

其中，集成树模型可以是根据训练样本和预设的集成树拟合算法训练得到的，训练样本可以包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果。

在本发明实施例中，集成树模型包含了一系列的CART(Classification AndRegression Tree，分类回归树)，每棵CART的节点都是依照每个样本的初始特征向量的取值和集成树模型生成的。如图2所示，图中的“Yes or missing”表示“是或不确定”，“No”表示“不是”，叶子节点的编号或叶子节点对应的数值可以用于表示交叠特征值。假设一部电影具有“导演前作票房总和<3亿，以及该影片是以IMAX(Image Maximum，图像最大化)形式公映”的特征，经过这颗CART的映射后，得到的结果是序号为0的叶子节点，该叶子节点对应的数值为100.3，可以用叶子节点的序号0或该叶子节点对应的数值100.3作为该初始特征向量经过这颗树映射得到的交叠特征值。

待测初始特征向量是由影响待预测结果的各影响因素组成的，例如，在预测电影票房时，待测初始特征向量可以由待预测电影的演职人员的热度值、演职人员过去作品的票房、电影的档期、题材或公映方式等组成。终端可以获取待测初始特征向量，然后将其输入预先训练的集成树模型中的各CART进行映射，得到的向量即为待测初始特征向量对应的交叠特征向量。本发明实施例中的集成树模型可以是GBDT(Gradient Boosting DecisionTree，梯度提升决策树)、随机森林模型或者其它集成树模型。这些集成树模型可以通过预先存储的训练样本和预设的集成树拟合算法训练得到，其中，训练样本是通过收集现有的已知数据生成的，训练样本可以包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果。

步骤120，拼接待测初始特征向量和交叠特征向量，得到目标特征向量。

在本发明实施例中，终端可以将待测初始特征向量和交叠特征向量拼接成一个向量，拼接后的向量可以称为目标特征向量。例如，待测初始特征向量x＝[6,10,…,50.8]，交叠特征向量xe＝[0,6,…,2]，拼接后得到的目标特征向量为X＝[6,10,…,50.8,0,6,…,2]。

步骤130，根据目标特征向量和预先训练的线性回归模型，得到预测结果。

其中，线性回归模型是根据训练样本和预设的线性回归模型算法训练得到的。

在本发明实施例中，终端可以预先将训练样本(与集成树模型的训练样本相同)中的各样本初始特征向量分别输入到预先训练的集成树模型中，得到各样本初始特征向量对应的各交叠特征向量，然后分别拼接各样本初始特征向量和对应的交叠特征向量，得到样本目标特征向量。然后，终端可以将训练样本的样本目标特征向量和对应的样本结果输入到预设的线性回归模型算法，通过训练拟合得到具体的线性回归模型。

在数据预测时，当终端得到待测初始特征向量对应的目标特征向量后，其可以将该目标特征向量输入线性回归模型，从而得到预测结果。

本发明实施例提供的数据预测方法，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。

可选的，终端可以通过获取训练样本，其中，训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果；然后根据训练样本和预设的集成树模型拟合算法，训练得到集成树模型。

在本发明实施例中，集成树模型的训练过程可以如图3所示：

步骤310，获取训练样本。

技术人员可以在数据仓库中存储大量的历史数据，这些历史数据可以包括初始特征向量和各初始特征向量对应的各结果，终端可以按照预设的选取训练样本的规则，从数据仓库中获取一定数量的数据作为训练样本；或者，技术人员可以按照数据的类别或训练的精度要求，从数据仓库中选取一定数量的数据作为训练样本，然后将训练样本输入到终端。训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果，其中，初始特征向量指各独立的影响因素对应的数值所组成的向量。例如，训练样本是关于电影票房的历史数据，初始特征向量则可以由已上映电影的演职人员的热度值、演职人员过去作品的票房、电影的档期或题材等特征对应的数据组成；初始特征向量对应的样本结果可以是该电影的票房。

步骤320，根据训练样本和预设的集成树模型拟合算法，训练得到集成树模型。

终端可以通过xgboost或者lightGDM等应用程序，将训练样本输入预设的集成树模型拟合算法中，从而得到集成树模型。例如，预设的集成树模型拟合算法的表达式为其中，obj表示训练损失函数，n表示训练样本包含的样本初始特征向量和对应的样本结果的组数，loss(·)表示模型预估值与真实值的差距，F(x_i)表示将训练样本中第i个样本初始特征向量映射到每一棵树得到的各叶子节点的值之和，x_i表示第i个样本初始特征向量，y_i表示第i个样本初始特征向量对应的样本结果，K表示集成树模型F包含的树的总数目，Ω(·)表示模型复杂度，f_j表示集成树模型中的第j棵树。其中，T表示树f_j的叶子节点的个数，表示树f_j叶子节点值的平方和，γ和λ为预设的参数。训练的目标是得到obj最小值对应的集成树模型F。

本发明实施例提供的方案中，通过训练样本得到具体的集成树模型，这样得到的集成树模型结合了历史数据的变化规律，从而使最终的数据预测结果更准确。

可选的，本发明实施例中的集成树模型可以是GBDT模型。由于GBDT模型可以灵活处理各种类型的数值，包括连续值、离散值、线性值或非线性值，在预测电影票房或预测电视剧点击量等类似数据时，使用GBDT模型能够得到更准确的预测结果。

可选的，线性回归模型的训练过程可以如图4所示：

步骤410，获取训练样本，其中，训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果。

在本发明实施例中，技术人员可以在数据仓库中存储大量的历史数据，终端可以按照预设的选取训练样本的规则，从数据仓库中获取一定数量的数据作为训练样本；或者，技术人员可以按照数据的类别或训练的精度要求，从数据仓库中选取一定数量的数据作为训练样本，然后将训练样本输入到终端。训练样本包括多组样本初始特征向量和多组样本初始特征向量对应的各样本结果，其中，初始特征向量指各独立的影响因素对应的数值所组成的向量。

步骤420，根据多组样本初始特征向量和集成树模型，得到多组样本初始特征向量对应的各样本交叠特征向量。

在本发明实施例中，终端可以将多组样本初始特征向量输入到集成树模型中，从而得到多组样本初始特征向量对应的各样本交叠特征向量。如图2所示，假设有2组样本初始特征向量，这2组样本初始特征向量经过图2的集成树映射后，得到的交叠特征值可能分别为0和1(也可以记录为100.3和90.2)。当这2组样本初始特征向量经过多棵类似的集成树映射后，即分别得到这2组样本初始特征向量对应的各样本交叠特征向量。

步骤430，拼接多组样本初始特征向量和对应的样本交叠特征向量，得到多组样本目标特征向量。

在本发明实施例中，终端可以将多组样本初始特征向量和对应的样本交叠特征向量进行拼接，得到多组样本特征向量。

步骤440，根据多组样本目标特征向量和对应的样本结果，以及预设的线性回归模型算法，训练得到线性回归模型。

在本发明实施例中，终端可以根据多组样本目标特征向量和对应的样本结果，以及预设的线性回归模型算法，得到线性回归模型的参数，从而得到线性回归模型。例如，预设的线性回归模型算法对应的目标函数为其中，f(X)＝w^TX，n表示样本目标特征向量的总数，X_i表示第i个样本目标特征向量，y_i表示X_i对应的样本结果。训练的目标是寻找使目标函数的值最小对应的w。当w确认后，即得到了线性回归模型。

本发明实施例提供的方案中，在训练线性回归模型时，输入量中的样本目标特征向量包含了样本初始特征向量和对应的样本交叠特征向量，不仅体现了各独立影响因素，而且体现了各影响因素直接的交叠因素，这样得到的线性回归模型在预测数据时，预测的结果更准确。

可选的，本发明实施例中的线性回归模型算法可以是最小二乘法。由于最小二乘法的拟合精度较高并且在拟合时需要的样本数据相对较少，所以采用最小二乘法能够提高训练线性回归模型的效率。

基于相同的技术构思，相应于图1所示方法实施例，本发明实施例还提供了一种数据预测装置，如图5所示，该装置包括：

交叠特征模块501，用于根据待测初始特征向量和预先训练的集成树模型，得到所述待测初始特征向量对应的交叠特征向量，其中，所述集成树模型是根据训练样本和预设的集成树拟合算法训练得到的，所述训练样本包括多组样本初始特征向量和所述多组样本初始特征向量对应的各样本结果；

拼接模块502，用于拼接所述待测初始特征向量和所述交叠特征向量，得到目标特征向量；

预测模块503，用于根据所述目标特征向量和预先训练的线性回归模型，得到预测结果，其中，所述线性回归模型是根据所述训练样本和预设的线性回归模型算法训练得到的。

本发明实施例提供的数据预测的装置，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。

可选的，所述装置还包括：

可选的，所述集成树模型为梯度提高集成树模型，使用GBDT模型能够得到更准确的预测结果。

可选的，所述装置还包括：

可选的，所述预设的线性回归模型算法为最小二乘法，采用最小二乘法能够提高训练线性回归模型的效率。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现本发明实施例提供的数据预测方法；具体的，上述数据预测方法，包括：

需要说明的是，上述数据预测方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

本发明实施例提供的数据预测的电子设备，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。

上述电子设备的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数据预测方法。

本发明实施例提供的数据预测的计算机可读存储介质，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数据预测方法。

本发明实施例提供的数据预测的计算机程序产品，可以得到各影响因素之间的交叠因素，即交叠特征向量，从而提高数据预测的精度。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种数据预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述集成树模型的训练过程包括：

3.根据权利要求1或2所述的方法，其特征在于，所述集成树模型为梯度提高集成树模型。

4.根据权利要求1或2所述的方法，其特征在于，所述线性回归模型的训练过程包括：

5.根据权利要求4所述的方法，其特征在于，所述预设的线性回归模型算法为最小二乘法。

6.一种数据预测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述集成树模型为梯度提高集成树模型。

9.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述预设的线性回归模型算法为最小二乘法。

11.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。