CN110942086B

CN110942086B - 数据预测优化方法、装置、设备及可读存储介质

Info

Publication number: CN110942086B
Application number: CN201911042922.8A
Authority: CN
Inventors: 杨冬艳; 王智浩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2024-04-23
Anticipated expiration: 2039-10-30
Also published as: CN110942086A

Abstract

本发明涉及人工智能技术领域，公开了一种数据预测优化方法，包括以下步骤：利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合；通过预置叠加算法对待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集；判断预置候选模型集中的预置候选模型是否满足预置评分标准；若是，则得到所述满足预置评分标准的预置候选模型以及使用所述预置候选模型进行预测，若否，则调节预置候选模型集中待训练模型所占的预置权重。本发明还公开了一种数据预测优化装置、设备及计算机可读存储介质。本发明提供的数据预测优化方法解决了现有的模型预测能力低的技术问题。

Description

数据预测优化方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据预测优化方法、装置、设备及计算机可读存储介质。

背景技术

目前，现有技术中的机器学习服务平台所生成的模型的数量及类型是有限的，只能生成主流模型，所以应用场景比较局限，另外，在平台生成新模型后，则直接使用新模型对实际场景下的需求进行预测，没有对新模型进一步优化，新模型难以适应各种复杂场景。因此，现有技术中机器学习服务平台所生成的模型很难适应各种复杂的实景场景，使得模型预测受应用场景的限制，模型的预测能力降低，由于待预测数据来自于不同的实际场景，而单一的模型很难对不同实际场景下的待预测数据进行预测，其根本原因是模型的预测能力低，这样会造成预测结果的准确率降低，因此，如何对现有的模型进行处理或改进，以提高模型对待预测数据的预测能力，是目前本领域亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种数据预测优化方法、装置、设备及计算机可读存储介质，旨在解决传统预测模型对数据预测能力较低的技术问题。

为实现上述目的，本发明提供一种数据预测优化方法，所述数据预测优化方法包括以下步骤：

利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合，所述待训练模型集合至少包括两个待训练模型，其中，所述模型至少包括：分布式的监督机器学习模型、分布式的无监督机器学习模型和增强学习模型RL,所述分布式的监督机器学习模型包括：聚类模型和离散点检测模型，所述分布式的无监督机器学习模型包括：主成分分析模型和深度卷积神经网络模型，所述增强学习模型包括：时序差分学习模型和Q-learning模型；

通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集，所述预置候选模型集至少包括两个预置候选模型，其中，所述预置叠加算法至少包括：分类器迭代算法、背景梯度提升回归算法和对数提升算法；

判断所述预置候选模型集中的预置候选模型是否满足预置评分标准；

若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型，若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准；

将满足预置评分标准的预置候选模型作为目标优化模型；

通过所述目标优化模型对待预测数据进行预测，得到预测结果。

可选地，所述利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合包括以下步骤：

通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内，其中，所述算法至少包括：分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括：聚类算法，所述分布式的无监督机器学习算法包括：主成分分析算法和深度卷积神经网络算法，所述增强学习算法包括：时序差分学习算法和Q-learning算法；

通过预置API接口调用所述预置机器学习算法包内的多个算法，并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练，得到待训练模型集合。

可选地，在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集的步骤之前，还包括以下步骤：

通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练，得到预测结果，并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率；

判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率；

若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率，则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重，直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。

可选地，在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集的步骤之后，还包括以下步骤：

基于预置训练数据和预置算法，通过预置自动机器学习进行拓展，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集。

可选地，所述通基于预置训练数据和预置算法，通过预置自动机器学习进行拓展，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集包括以下步骤：

利用分布式并行的清洗算法，对训练数据进行清洗，得到预置训练数据；

基于所述预置训练数据和预置算法，通过预置自动机器学习AutoML进行拓展，得到目标候选模型；

利用预置自动机器学习，执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集。

可选地，在所述通过所述目标优化模型对待预测数据进行预测，得到预测结果的步骤之后，还包括以下步骤：

通过预置监控插件yarn对所述预测结果进行监控，得到监控结果；

将所述监控结果进行可视化处理，并进行展示。

可选地，所述若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型，若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准包括以下步骤：

判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率；

若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置准确率，则不处理；

若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置召回率，则得到满足预置评分标准的预置候选模型。

进一步地，为实现上述目的，本发明还提供一种数据预测优化装置，所述数据预测优化装置包括：

训练模块，用于利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合，所述待训练模型集合至少包括两个待训练模型；

叠加模块，用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集，所述预置候选模型集至少包括两个预置候选模型，其中，所述预置叠加算法至少包括：分类器迭代算法、背景梯度提升回归算法和对数提升算法；

判断模块，用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准；

调节模块，用于若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型，用于若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中各个待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准；

转化模块，用于将满足预置评分标准的预置候选模型作为目标优化模型；

预测模块，用于通过所述目标优化模型对待预测数据进行预测，得到预测结果。

可选地，所述训练模块包括以下单元：

部署单元，用于通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内，其中，所述算法至少包括：分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括：聚类算法，所述分布式的无监督机器学习算法包括：主成分分析算法和深度卷积神经网络算法，所述增强学习算法包括：时序差分学习算法和Q-learning算法；

训练单元，用于通过预置API接口调用所述预置机器学习算法包内的多个算法，并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练，得到待训练模型集合。

可选地，所述叠加模块包括以下单元：

计算单元，用于通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练，得到预测结果，并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率；

判断单元，用于判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率；

调节单元，用于若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率，则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重，直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。

可选地，所述数据预测优化装置还包括以下模块：

构建模块，用于基于预置训练数据和预置算法，通过预置自动机器学习AutoML进行拓展，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集。

可选地，所述构建模块包括以下单元：

清洗单元，用于利用分布式并行的清洗算法，对训练数据进行清洗，得到预置训练数据；

构建单元，用于基于所述预置训练数据和预置算法，通过预置自动机器学习AutoML进行拓展，得到目标候选模型；

参数优化单元，用于利用自动机器学习AutoML，执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集。

可选地，所述数据预测优化装置还包括以下模块：

监控模块，用于通过预置监控插件yarn对所述预测结果进行监控，得到监控结果；

展示模块，用于将所述监控结果进行可视化处理，并进行展示。

可选地，所述调节模块包括以下单元：

预测结果判断单元，用于判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率；

召回率判断单元，用于若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置准确率，则不处理；

权重调节单元，用于若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置召回率，则得到满足预置评分标准的预置候选模型。

进一步地，为实现上述目的，本发明还提供一种数据预测优化方法设备，所述数据预测优化方法设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据预测优化方法程序，所述数据预测优化方法程序被所述处理器执行时实现如上述任一项所述的数据预测优化方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据预测优化方法程序，所述数据预测优化方法程序被处理器执行时实现如上述任一项所述的数据预测优化方法的步骤。

现有技术中的机器学习服务平台所生成的模型的数量及类型是有限的，只能生成主流算法模型，所以应用场景比较局限，另外，在平台生成的新模型后，则直接使用新模型对实际场景下的需求进行预测，没有对新模型进一步优化，因此在对实际场景下的数据进行预测时，会出现预测效果不理想的技术问题，本发明先通过采用叠加算法按照准确率或/和召回率的指标进行按照不同权重比例进行叠加，从而使得模型具备更好的预测性能。

附图说明

图1为本发明实施例方案涉及的数据预测优化设备运行环境的结构示意图；

图2为本发明数据预测优化方法第一实施例的流程示意图；

图3为图2中步骤S10的细化流程示意图；

图4为本发明数据预测优化方法第二实施例的流程示意图；

图5为本发明数据预测优化方法第三实施例的流程示意图；

图6为图5中步骤S110的细化流程示意图；

图7为本发明数据预测优化方法第四实施例的流程示意图；

图8为图2中步骤S40的细化流程示意图；

图9为本发明数据预测优化装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种数据预测优化设备。

参照图1，图1为本发明实施例方案涉及的数据预测优化设备运行环境的结构示意图。

如图1所示，该数据预测优化设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据预测优化设备的硬件结构并不构成对数据预测优化设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据预测优化程序。其中，操作系统是管理和控制数据预测优化设备和软件资源的程序，支持数据预测优化程序以及其它软件和/或程序的运行。

在图1所示的数据预测优化设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的数据预测优化程序，并执行以下数据预测优化方法的各实施例的操作。

基于上述数据预测优化设备硬件结构，提出本发明数据预测优化方法的各个实施例。

参照图2，图2为本发明数据预测优化方法第一实施例的流程示意图。本实施例中，所述数据预测优化方法包括以下步骤:

步骤S10，利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合，所述待训练模型集合至少包括两个待训练模型；

本实施例中，在现有技术中一般通过训练样本训练单一模型，由于在本实施例中是利用同一训练样本分别对多个初始待训练模型进行预测训练，因此可以得到至少包括两个待训练模型的训练模型集合，其中，多个初始待训练模型的种类不限，例如可以包括：分布式的监督机器学习模型、分布式的无监督机器学习模型和增强学习模型,所述分布式的监督机器学习模型包括：聚类模型和离散点检测模型，所述分布式的无监督机器学习模型包括：主成分分析模型和深度卷积神经网络模型，所述增强学习模型包括：时序差分学习模型和Q-learning模型。

步骤S20，通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集，其中，所述预置候选模型集至少包括两个预置候选模型，所述预置叠加算法至少包括：分类器迭代算法Ada Boost、背景梯度提升回归算法Contradistinction和对数提升算法Biologist；

本实施例中，在得到待训练模型集合后，并不是马上使用待训练模型集合中的待训练模型对实际场景中的数据进行预测，而是通过预置叠加算法对所述待训练模型进行叠加，因为在很多场景下，单一模型所输出预测结果中存在不符合用于期望的结果，通过将不同的模型进行叠加，可以将不同模型的优势结合在一起，提高数据预测优化结果的准确率。预置叠加算法主要包括：分类器迭代算法Ada Boost、背景梯度提升回归算法Contradistinction和对数提升算法Biologist，因为运用这些算法以实现对模型叠加的思想是一致的，因此，仅以分类器迭代算法Ada Boost为例，介绍叠加的过程：通过同一数据集训练多个模型，得到不同模型的预测结果，评价各个预测结果与真实值之间的误差值的大小，并将各个模型的误差值进行相加得到综合误差值，采用加权多数表决的方法不断强化误差值最小的模型所占的权重，直至综合误差值达到最小。

步骤S30，判断所述预置候选模型集中的预置候选模型是否满足预置评分标准；

本实施例中，在通过预置叠加算法对待训练模型进行叠加，得到预置候选模型集后，并不是直接采用预置候选模型集中的预置候选模型对实际场景下的数据进行预测，因为此时并不知道预置候选模型集中的预置候选模型中，哪些模型对数据的预测的准确率较高，哪些模型对数据的预测的召回率较高，为了使最终得到的预置候选模型可以满足实际场景下的需求，因此需要为预置候选模型预先设置评分标准，并判断预置候选模型是否满足预置评分标准，判断的方式是检测预测结果的准确率或召回率，例如，评分标准为：模型对数据的预测结果的准确率需要高于97％，预测结果的召回率需要高于97％。

在步骤S30之前，还包括根据当前场景的需求设置不同的评分标准，所述评分标准包括：准确率、召回率。

本实施例中，在得到多个预置候选模型后，在向用户推送前，需要先判断用户关注的侧重点，本实施例中，可以实现可视化操作，即用户可以根据当前场景的需求，在web界面勾选其关注的侧重点，若用户关注的是模型的准确率，则选择最大正确率max accuracy作为判断预置候选模型是否符合当前场景需求的标准，并根据此标准向用户推送合适的模型，若用户关注的是模型的召回率，则选择最大召回率max recall作为判断预置候选模型是否符合当前场景需求的标准，并根据此标准向用户推送合适的模型，这样的方式可以极大提高用户的选择范围。

步骤S40，若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准；

步骤S50，若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型；

本实施例中，在得到包含至少两个待训练模型的待训练模型集合后，通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，其目的是得到预置评分标准的模型，判断所述预置候选模型集中的预置候选模型是否满足预置评分标准，若满足，则得到预置候选模型，若不满足则需要调整每个预置候选模型所占的权重。例如，用户可通过预先设置在用户界面上的选择对话框，手动选择其关注的对象，例如，用户关注的对象可以为准确率、覆盖率、召回率，则根据准确率、覆盖率、召回率的评分标准，向用户推送所述预置候选模型。

步骤S60，将满足预置评分标准的预置候选模型作为目标优化模型；

本实施例中，将预置候选模型作为目标优化模型的目的是，便于获取目标优化模型，进而实现对待预测数据的预测。

步骤S70，通过所述目标优化模型对待预测数据进行预测，得到预测结果。

本实施例中，在对待预测数据进行预测时，是通过目标优化模型进行预测的。例如，用户希望得到准确率为80％的图片预测模型，则需要通过满足预置评分标准(即准确率为80％)的目标优化模型对待预测的图片数据进行预测，得到预测结果。

参照图3，图3为图2中步骤S10的细化流程示意图。在本实施例中，步骤S10具体包括以下步骤：

步骤S101，通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内；

在本实施例中，所述算法至少包括：分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括：聚类算法，所述分布式的无监督机器学习算法包括：主成分分析算法和深度卷积神经网络算法，所述增强学习算法包括：时序差分学习算法和Q-learning算法；

本实施例中，预置机器学习算法包具体可以是开源的结构，因此可通过预先设置的自动化部署脚本将多种算法部署至计算框架构内，预置机器学习算法包包括：分布式的监督和无监督机器学习算法，以及Monet、torch和tensor三种框架下的深度学习算法。其中，计算框架构可以是Hardtop/Spark计算框架，由于计算框架内预先部署了算法包，因此当存在对待预测数据进行预测的请求时，可以调用算法包的算法对待预测数据进行计算。通过Hardtop对海量日志分析进行分析，在多次操作特定数据集的应用场合使用Spark计算分析框架。对不同场景下的数进行分别处理，便于运营、维护、管理人员回溯分析数据。

在此之前，还可以使用Sparkling-water将H2O机器学习算法和Spark进行整合,得到H2O+spark平台,所述H2O+spark平台至少包括以下算法：深度学习模型DL、叠加模型GBM、广义线性模型GLM、广义低阶模型GLRM、基于距离的迭代式算法K-means、主成分分析方法PCA、风险比例回归模型Cox、集成学习模型Ensemble learning。在通过H2O+spark平台构建模型之前需要处理原始数据，并将导入的数据转换成H2O机器学习能够处理的格式，在数据转换的过程中，机器学习平台通过获取spark平台上的add数据并将该数据转换成机器学习平台的数据格式H2OFRAME，再对数据进行处理，处理之后的数据可以转换成spark add的数据格式,并提交到Spark Executor JVM上通过spark的计算引擎对数据进行进一步的处理，实现与spark平台的融合。

在整个构建模型的过程中，涉及的底层的数据处理和计算的过程基本都在H2O+spark平台上通过spark的计算引擎来进行处理，在模型的构建过程中，通过公共H2O平台提交代码来实现对模型的构建。

通过H2O将所述预置候选模型转化为MOJO类和/或POJO类,本实施例中，为了使预置候选模型可以转化成便于嵌入其他业务系统的形式，因此通过H2O将所述预置候选模型生成相应的war包，即实现将预置候选模型转化为MOJO类和/或POJO类。具体过程为：根据预置候选模型从数据库业务表中获取代码信息与代码生成方案信息，并利用读取到的信息操作对应的业务数据表，根据业务数据表的数据结构，生成与代码生成信息中的实体名称对应的MOJO类和/或POJO类。H2O是开源的，分布式的，基于内存的，可扩展的机器学习和预测分析框架，适合在企业环境中构建大规模机器学习模型。

通过java的方式将所述MOJO和/或POJO类嵌入到其他的业务系统，或通过预置预测模型标记语言PMML将所述预置候选模型转化为标准语言，以供它业务系统使用。

步骤S102，通过预置API接口调用所述预置机器学习算法包内的多个算法，并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练，得到待训练模型集合。

本实施例中，通过预置API接口调用所述预置机器学习算法包内的多个算法，此算法包为开源结构，因此可通过预先设置的自动化部署脚本将多种算法部署至计算框架构内，通过同一训练样本分别训练由所述多个算法和同一场景数据构建而来的多个初始待训练模型，得到待训练模型集合。例如，算法包可以包括kitsch-learning，kitsch-learning内包含了常用的机器学习数据集和算法，比如，数据集包括：做分类的iris和digit数据集、用于回归的经典数据集Boston house prices，算法包括：逻辑回归算法、SVM算法，随机森林算法，神经网络算法。

参照图4，图4为本发明数据预测优化方法第二实施例的流程示意图。本实施例中，在图2的步骤S20之前，还包括以下步骤:

步骤S80，通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练，得到预测结果，并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率；

本实施例中，需要先通过预先标注好的预置训练数据来对模型进行训练，从而使得模型具备对待预测数据的预测能力，需要预先准备好正、负样本。例如，预先对当前训练数据进行标注，标注的信息分别为：在带有汽车的图片上标注上“有汽车”，在不带有汽车的图片上标注上“无汽车”，将“有汽车”的图片作为正样本，将“无汽车”的图片作为负样本，使用这些样本对模型进行训练，通过训练完的模型对已标注的图片进行预测，假设当前待训练模型集合中包含是三个模型，甲、乙、丙三个模型，这三个模型是训练过预置轮数是模型，例如为1000轮，通过这三个模型分别对当前训练数据进行预测，当前训练数据为数据集，由于当前训练数据的标注信息是预先就知道的，因此这三个模型对当前训练数据进行预测后，得到的预测结果是否正确是可以计算出的。

步骤S90，判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率；

本实施例中，预置预测准确率指的是预先设置的数值，例如60％。即单个待训练模型对数据的预测结果的准确率不能低于60％。由于在步骤S60的实施例中已经得到了各个模型的准确率，例如分别30％，70％，80％，由于预置预测准确率为60％，所以甲待训练模型是低于预置预测准确率的。

步骤S100，若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率，则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重，直至所述待训练模型的所述准确率等于或高于所述预置预测准确率，若否，则不处理。

本实施例中，若待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率，则通过投票算法Voting调节述所述准确率低于所述预置预测准确率的待训练模型的权重，直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。例如，通过投票算法调节述所述准确率低于所述预置预测准确率的待训练模型的权重具体过程为：采用多个待训练模型对同一数据样本进行预测，预测n次，记录各个模型对数据的预测结果中低于预置预测准确率的次数，筛选出低于预置预测准确率的次数最多的待训练模型，并减少其所占的权重。

例如，甲、乙、丙三个模型，分别对待预测的数据进行预测，得到用户购物金额的预测值，分别为30％，70％，80％，由于丙待训练模型准确率较高，而甲待训练模型准确率较低，因此可以通过投票算法,为准确率较低的模型设置更低的权重。

参照图5，图5为本发明数据预测优化方法第三实施例的流程示意图。本实施例中，在图2的步骤S20之后，还包括以下步骤:

步骤S110，基于预置训练数据和预置算法，通过预置自动机器学习AutoML进行拓展，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集。

本实施例中，通过预置自动机器学习AutoML中的神经架构搜索(NeuralArchitecture Search)功能自动化设计神经网络，在设计神经网络时，可以使用强化学习或进化算法。在强化学习中，模型因低准确率而受到惩罚，并因高准确率而获得奖励。使用这种技术，模型将始终努力获得更高的准确率。通过预置自动机器学习AutoML中的迁移学习功能使得预先训练的模型可以将它学习过的知识迁移应用在新的但相似的数据集上，例如，第一预测模型是用来预测儿童保险销售金额的，运用迁移学习功能可以将训练第一模型的过程运用到用于预测老人保险销售金额的模型训练中。这使我们能够用更少的计算时间和计算资源去获得比较高的准确率。神经架构搜索适用于需要设计新模型架构的问题，而迁移学习最适用于数据集类似于预训练模型中使用的数据集的问题。在获取预置候选模型后，该模型可以对该训练过的数据具有很好的预测能力，但是如果转换到其他的场景，该模型则很可能不适用，例如，采用初始模型训练用户购买商品种类的数据，得到的模型可以根据用户数据输出用户下次购买商品的种类的预测，然而却不能预测用户的消费数额。基于此技术问题，在本方案中增加了预置自动机器学习模型AutoML，AutoML可以根据学习到建模规律，将该规律运用到其他的相似场景下，这样单个预置候选模型就可以被扩展为适用于不同场景的预置候选模型，提高了模型训练的效率。

参照图6，图6为图5中步骤S110的细化流程示意图。在本实施例中，步骤S110具体包括以下步骤：

步骤S1101，利用分布式并行的清洗算法，对训练数据进行清洗，得到预置训练数据；

本实施例中，通过清洗算法，例如，通过主成分分析、随机森林可实现对数据的清洗，同时实现降维的效果，本实施例中采用的是分布式并行的方式，通过这种方式可以实现运用多种算法对数据清洗。

步骤S1102，基于所述预置训练数据和预置算法，通过预置自动机器学习AutoML进行拓展，得到目标候选模型；

本实施例中，AutoML可以根据学习到建模规律，将该规律运用到其他场景下，这样单个预置候选模型就可以被扩展为适用于不同场景的预置候选模型，提高了模型训练的效率。

步骤S1103，利用自动机器学习AutoML，执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集。

本实施例中，若拓展出的初始预置候选模型，可以输出符合预置验证规则的预测结果，则说明，当前所拓展出的预置候选模型是完全根据从步骤S10-S60中学习到的规则进行拓展而得到的，唯一不同的是各自所适用的场景不同。网格搜索算法指的是，通过随机的方式从预先准备好的待调整参数集合中获取待调整参数，通过目标候选模型输出对待预测数据的预测结果，检验预测结果的正确率，这样就可以获取到优化后的参数。

通过所述预置AutoML模型训练预置训练数据，得到初始预置候选模型。在训练时，AutoML完全根据步骤S10-S70中学习到的规则训练当前场景的数据，以得到初始预置候选模型。

预置验证规则从步骤S10-S70中学习到的规则，为了检验拓展出的初始预置候选模型是否可以输出正确的预测结果，因此需要先设置验证数据，该验证数据并非人为设定的，而是AutoML从步骤S10-S70中学习到的规则，例如，为得到用于预测用户购买商品类型的甲模型，需要评价各个模型对数据的预测结果与真实值之间的误差值的大小，并将各个模型的误差值进行相加得到综合误差值，采用加权多数表决的方法不断强化误差值最小的模型所占的权重，直至综合误差值达到最小。上述例子就是AutoML学习到的规律，若现在要根据用户数据得到可以预测用户消费数额的乙模型，则不用再需要人工参与，AutoML则可直接根据学些到规律验证拓展出模型所输出的预测结果是否满足综合误差值达到最小的条件。

参照图7，图7为本发明数据预测优化方法第四实施例的流程示意图。本实施例中，在图2的步骤S70之后，还包括以下步骤:

步骤S120，通过预置监控插件yarn对所述预测结果进行监控，得到监控结果；

本实施例中，预先设置了yarn。yarn是一种Hardtop资源管理器，yarn集群每个节点都运行一个节点管理者Node Manager，Node Manager是每个节点上的资源和任务管理器，用于管理节点程序的运行，以及该节点资源的管理和监控。通过yarn集群节点上的节点管理者Node Manager对节点处的资源进行管理和监控。若发现异常，则可以将故障信息通过节点反馈给预置报警系统。为了更有针对性地监控预测结果中特定的数据，可以为集群中的各个节点设置权限或者是监控指标。例如，以Memory消耗为中点关注对象，则可以将监控Memory消耗数据的节点预先设置为优先节点。

步骤S130，将所述监控结果进行可视化处理，并进行展示。

本实施例中，为了使监控的结果可以以一种易于用户理解的方式展现，可以对监控结果中的数据进行可视化处理，并通过人机交互界面进行展示。在获取到监控结果后，根据所述监控结果触发进行可视化处理的任务，调用与所述任务相应的函数，以从预置图形模版库中获取到指定的图形，图片与待可视化的数据之间预先建立了映射关系，当获取到监控结果时，可根据所述映射关系将所述监控结果映射于指定的图形，最后通过DOM渲染，将所述带有数据的图形展示出来。

参照图8，图8为图2中步骤S40的细化流程示意图。在本实施例中，步骤S40具体包括以下步骤：

步骤S401，判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率；

本实施例中，为了全面分析预置候选模型集中的预置候选模型是否符合当前场景，在当前场景下，首先关注的就是预置候选模型集中的预置候选模型输出的预测结果是否小于预置准确率，例如，预置准确率为90％，若预置候选模型输出的预测结果的准确率为80％，则说明当前预置候选模型不满足当前场景的需求。

预置候选模型对数据的测试结果有下面4种情况：TP:预测为正，实际为正；FP:预测为正，实际为负；TN:预测为负，实际为负；FN:预测为负，实际为正。其中，准确率：Accuracy＝(TP+TN)/(TP+TN+FN+FP)。准确率，指的是预置候选模型对待预测数据进行预测后得到正确的预测结果与所有可能出现的预测结果的比值。

步骤S402，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置准确率，则不处理；

步骤S403，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则调节待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率；

本实施例中，以预置候选模型对数据的预测结果的准确率为准，若预置候选模型对数据的预测结果的准确率大于或者等于预置准确率，则该预置候选模型是符合当前场景需求的，因此不必再判断预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率，若预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则需要判断预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率。

步骤S404，若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置召回率，则得到满足预置评分标准的预置候选模型。

本实施例中，若预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则需要判断预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率，若大于，则得到该预置候选模型，若小于获等于，则调节所述待训练模型所占的预置权重，直至预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率。

召回率指的是覆盖面的度量，用于度量有多个正例被预测为正例，对于数据测试结果有下面4种情况：TP:预测为正，实际为正；FP:预测为正，实际为负；TN:预测为负，实际为负；FN:预测为负，实际为正。其中，召回率：R＝TP/(TP+FN)。

参照图9，图9为本发明数据预测优化装置一实施例的功能模块示意图。本实施例中，所述数据预测优化装置包括：

训练模块10，用于利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合，所述待训练模型集合至少包括两个待训练模型；

叠加模块20，用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集，所述预置候选模型集至少包括两个预置候选模型，其中，所述预置叠加算法至少包括：分类器迭代算法、背景梯度提升回归算法和对数提升算法；

判断模块30，用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准；

调节模块40，用于若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型，用于若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中各个待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准；

转化模块50，用于将满足预置评分标准的预置候选模型作为目标优化模型；

预测模块60，用于通过所述目标优化模型对待预测数据进行预测，得到预测结果。

本实施例中，训练模块10，用于利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合，所述待训练模型集合至少包括两个待训练模型；叠加模块20用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集，所述预置候选模型集至少包括两个预置候选模型，其中，所述预置叠加算法至少包括：分类器迭代算法、背景梯度提升回归算法和对数提升算法；判断模块30用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准；调节模块40用于若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型，用于若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中各个待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准；转化模块50用于将满足预置评分标准的预置候选模型作为目标优化模型；预测模块60用于通过所述目标优化模型对待预测数据进行预测，得到预测结果。通过本装置中的模块可增加模型的种类与数量，使得模型的预测能力得到进一步优化，可提高模型对待预测数据的预测准确率。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有数据预测优化程序，所述数据预测优化程序被处理器执行时实现如上述任一项实施例中所述的数据预测优化方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种数据预测优化方法，其特征在于，所述数据预测优化方法包括以下步骤：

利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合，所述待训练模型集合至少包括两个待训练模型；

所述利用同一训练样本分别对多个初始待训练模型进行预测训练，得到待训练模型集合包括以下步骤：

通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内，其中，所述算法至少包括：分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括：聚类算法，所述分布式的无监督机器学习算法包括：主成分分析算法和深度卷积神经网络算法，所述增强学习算法包括：时序差分学习算法；

通过预置API接口调用所述预置机器学习算法包内的多个算法，并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练，得到待训练模型集合；

通过预置叠加算法对所述待训练模型集合中的待训练模型按照预置权重进行叠加，得到预置候选模型集，其中，所述预置叠加算法至少包括：分类器迭代算法、背景梯度提升回归算法和对数提升算法；

所述若所述预置候选模型集中的预置候选模型满足预置评分标准，则得到所述满足预置评分标准的预置候选模型，若所述预置候选模型集中的预置候选模型不满足预置评分标准，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型满足预置评分标准包括以下步骤：

若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率，则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率；

若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率，则调节预置候选模型集中待训练模型所占的预置权重，直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率，若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率，则得到满足预置评分标准的预置候选模型；

将满足预置评分标准的预置候选模型作为目标优化模型；

2.如权利要求1所述的数据预测优化方法，其特征在于，在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集的步骤之前，还包括以下步骤：

3.如权利要求1所述的数据预测优化方法，其特征在于，在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加，得到预置候选模型集的步骤之后，还包括以下步骤：

4.如权利要求3所述的数据预测优化方法，其特征在于，所述基于预置训练数据和预置算法，通过预置自动机器学习进行拓展，得到新的预置候选模型，并将所述新的预置候选模型存储于预置候选模型集包括以下步骤：

基于所述预置训练数据和预置算法，通过预置自动机器学习进行拓展，得到目标候选模型；

5.如权利要求1所述的数据预测优化方法，其特征在于，在所述通过所述目标优化模型对待预测数据进行预测，得到预测结果的步骤之后，还包括以下步骤：

将所述监控结果进行可视化处理，并进行展示。

6.一种数据预测优化装置，其特征在于，所述数据预测优化装置包括：

7.一种数据预测优化设备，其特征在于，所述数据预测优化设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据预测优化程序，所述数据预测优化程序被所述处理器执行时实现如权利要求1-5中任一项所述的数据预测优化方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据预测优化程序，所述数据预测优化程序被处理器执行时实现如权利要求1-5中任一项所述的数据预测优化方法的步骤。