CN110942086B - 数据预测优化方法、装置、设备及可读存储介质 - Google Patents
数据预测优化方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110942086B CN110942086B CN201911042922.8A CN201911042922A CN110942086B CN 110942086 B CN110942086 B CN 110942086B CN 201911042922 A CN201911042922 A CN 201911042922A CN 110942086 B CN110942086 B CN 110942086B
- Authority
- CN
- China
- Prior art keywords
- preset
- trained
- model
- models
- preset candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 178
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000010801 machine learning Methods 0.000 claims description 73
- 238000012544 monitoring process Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000002787 reinforcement Effects 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种数据预测优化方法,包括以下步骤:利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合;通过预置叠加算法对待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集;判断预置候选模型集中的预置候选模型是否满足预置评分标准;若是,则得到所述满足预置评分标准的预置候选模型以及使用所述预置候选模型进行预测,若否,则调节预置候选模型集中待训练模型所占的预置权重。本发明还公开了一种数据预测优化装置、设备及计算机可读存储介质。本发明提供的数据预测优化方法解决了现有的模型预测能力低的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数据预测优化方法、装置、设备及计算机可读存储介质。
背景技术
目前,现有技术中的机器学习服务平台所生成的模型的数量及类型是有限的,只能生成主流模型,所以应用场景比较局限,另外,在平台生成新模型后,则直接使用新模型对实际场景下的需求进行预测,没有对新模型进一步优化,新模型难以适应各种复杂场景。因此,现有技术中机器学习服务平台所生成的模型很难适应各种复杂的实景场景,使得模型预测受应用场景的限制,模型的预测能力降低,由于待预测数据来自于不同的实际场景,而单一的模型很难对不同实际场景下的待预测数据进行预测,其根本原因是模型的预测能力低,这样会造成预测结果的准确率降低,因此,如何对现有的模型进行处理或改进,以提高模型对待预测数据的预测能力,是目前本领域亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种数据预测优化方法、装置、设备及计算机可读存储介质,旨在解决传统预测模型对数据预测能力较低的技术问题。
为实现上述目的,本发明提供一种数据预测优化方法,所述数据预测优化方法包括以下步骤:
利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型,其中,所述模型至少包括:分布式的监督机器学习模型、分布式的无监督机器学习模型和增强学习模型RL,所述分布式的监督机器学习模型包括:聚类模型和离散点检测模型,所述分布式的无监督机器学习模型包括:主成分分析模型和深度卷积神经网络模型,所述增强学习模型包括:时序差分学习模型和Q-learning模型;
通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集,所述预置候选模型集至少包括两个预置候选模型,其中,所述预置叠加算法至少包括:分类器迭代算法、背景梯度提升回归算法和对数提升算法;
判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;
若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;
将满足预置评分标准的预置候选模型作为目标优化模型;
通过所述目标优化模型对待预测数据进行预测,得到预测结果。
可选地,所述利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合包括以下步骤:
通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内,其中,所述算法至少包括:分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括:聚类算法,所述分布式的无监督机器学习算法包括:主成分分析算法和深度卷积神经网络算法,所述增强学习算法包括:时序差分学习算法和Q-learning算法;
通过预置API接口调用所述预置机器学习算法包内的多个算法,并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练,得到待训练模型集合。
可选地,在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集的步骤之前,还包括以下步骤:
通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练,得到预测结果,并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率;
判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率;
若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率,则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重,直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。
可选地,在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集的步骤之后,还包括以下步骤:
基于预置训练数据和预置算法,通过预置自动机器学习进行拓展,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
可选地,所述通基于预置训练数据和预置算法,通过预置自动机器学习进行拓展,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集包括以下步骤:
利用分布式并行的清洗算法,对训练数据进行清洗,得到预置训练数据;
基于所述预置训练数据和预置算法,通过预置自动机器学习AutoML进行拓展,得到目标候选模型;
利用预置自动机器学习,执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
可选地,在所述通过所述目标优化模型对待预测数据进行预测,得到预测结果的步骤之后,还包括以下步骤:
通过预置监控插件yarn对所述预测结果进行监控,得到监控结果;
将所述监控结果进行可视化处理,并进行展示。
可选地,所述若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准包括以下步骤:
判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率;
若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置准确率,则不处理;
若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置召回率,则得到满足预置评分标准的预置候选模型。
进一步地,为实现上述目的,本发明还提供一种数据预测优化装置,所述数据预测优化装置包括:
训练模块,用于利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型;
叠加模块,用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集,所述预置候选模型集至少包括两个预置候选模型,其中,所述预置叠加算法至少包括:分类器迭代算法、背景梯度提升回归算法和对数提升算法;
判断模块,用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;
调节模块,用于若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,用于若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中各个待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;
转化模块,用于将满足预置评分标准的预置候选模型作为目标优化模型;
预测模块,用于通过所述目标优化模型对待预测数据进行预测,得到预测结果。
可选地,所述训练模块包括以下单元:
部署单元,用于通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内,其中,所述算法至少包括:分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括:聚类算法,所述分布式的无监督机器学习算法包括:主成分分析算法和深度卷积神经网络算法,所述增强学习算法包括:时序差分学习算法和Q-learning算法;
训练单元,用于通过预置API接口调用所述预置机器学习算法包内的多个算法,并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练,得到待训练模型集合。
可选地,所述叠加模块包括以下单元:
计算单元,用于通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练,得到预测结果,并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率;
判断单元,用于判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率;
调节单元,用于若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率,则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重,直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。
可选地,所述数据预测优化装置还包括以下模块:
构建模块,用于基于预置训练数据和预置算法,通过预置自动机器学习AutoML进行拓展,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
可选地,所述构建模块包括以下单元:
清洗单元,用于利用分布式并行的清洗算法,对训练数据进行清洗,得到预置训练数据;
构建单元,用于基于所述预置训练数据和预置算法,通过预置自动机器学习AutoML进行拓展,得到目标候选模型;
参数优化单元,用于利用自动机器学习AutoML,执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
可选地,所述数据预测优化装置还包括以下模块:
监控模块,用于通过预置监控插件yarn对所述预测结果进行监控,得到监控结果;
展示模块,用于将所述监控结果进行可视化处理,并进行展示。
可选地,所述调节模块包括以下单元:
预测结果判断单元,用于判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率;
召回率判断单元,用于若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置准确率,则不处理;
权重调节单元,用于若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置召回率,则得到满足预置评分标准的预置候选模型。
进一步地,为实现上述目的,本发明还提供一种数据预测优化方法设备,所述数据预测优化方法设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据预测优化方法程序,所述数据预测优化方法程序被所述处理器执行时实现如上述任一项所述的数据预测优化方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据预测优化方法程序,所述数据预测优化方法程序被处理器执行时实现如上述任一项所述的数据预测优化方法的步骤。
现有技术中的机器学习服务平台所生成的模型的数量及类型是有限的,只能生成主流算法模型,所以应用场景比较局限,另外,在平台生成的新模型后,则直接使用新模型对实际场景下的需求进行预测,没有对新模型进一步优化,因此在对实际场景下的数据进行预测时,会出现预测效果不理想的技术问题,本发明先通过采用叠加算法按照准确率或/和召回率的指标进行按照不同权重比例进行叠加,从而使得模型具备更好的预测性能。
附图说明
图1为本发明实施例方案涉及的数据预测优化设备运行环境的结构示意图;
图2为本发明数据预测优化方法第一实施例的流程示意图;
图3为图2中步骤S10的细化流程示意图;
图4为本发明数据预测优化方法第二实施例的流程示意图;
图5为本发明数据预测优化方法第三实施例的流程示意图;
图6为图5中步骤S110的细化流程示意图;
图7为本发明数据预测优化方法第四实施例的流程示意图;
图8为图2中步骤S40的细化流程示意图;
图9为本发明数据预测优化装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种数据预测优化设备。
参照图1,图1为本发明实施例方案涉及的数据预测优化设备运行环境的结构示意图。
如图1所示,该数据预测优化设备包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的数据预测优化设备的硬件结构并不构成对数据预测优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据预测优化程序。其中,操作系统是管理和控制数据预测优化设备和软件资源的程序,支持数据预测优化程序以及其它软件和/或程序的运行。
在图1所示的数据预测优化设备的硬件结构中,网络接口1004主要用于接入网络;用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的数据预测优化程序,并执行以下数据预测优化方法的各实施例的操作。
基于上述数据预测优化设备硬件结构,提出本发明数据预测优化方法的各个实施例。
参照图2,图2为本发明数据预测优化方法第一实施例的流程示意图。本实施例中,所述数据预测优化方法包括以下步骤:
步骤S10,利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型;
本实施例中,在现有技术中一般通过训练样本训练单一模型,由于在本实施例中是利用同一训练样本分别对多个初始待训练模型进行预测训练,因此可以得到至少包括两个待训练模型的训练模型集合,其中,多个初始待训练模型的种类不限,例如可以包括:分布式的监督机器学习模型、分布式的无监督机器学习模型和增强学习模型,所述分布式的监督机器学习模型包括:聚类模型和离散点检测模型,所述分布式的无监督机器学习模型包括:主成分分析模型和深度卷积神经网络模型,所述增强学习模型包括:时序差分学习模型和Q-learning模型。
步骤S20,通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集,其中,所述预置候选模型集至少包括两个预置候选模型,所述预置叠加算法至少包括:分类器迭代算法Ada Boost、背景梯度提升回归算法Contradistinction和对数提升算法Biologist;
本实施例中,在得到待训练模型集合后,并不是马上使用待训练模型集合中的待训练模型对实际场景中的数据进行预测,而是通过预置叠加算法对所述待训练模型进行叠加,因为在很多场景下,单一模型所输出预测结果中存在不符合用于期望的结果,通过将不同的模型进行叠加,可以将不同模型的优势结合在一起,提高数据预测优化结果的准确率。预置叠加算法主要包括:分类器迭代算法Ada Boost、背景梯度提升回归算法Contradistinction和对数提升算法Biologist,因为运用这些算法以实现对模型叠加的思想是一致的,因此,仅以分类器迭代算法Ada Boost为例,介绍叠加的过程:通过同一数据集训练多个模型,得到不同模型的预测结果,评价各个预测结果与真实值之间的误差值的大小,并将各个模型的误差值进行相加得到综合误差值,采用加权多数表决的方法不断强化误差值最小的模型所占的权重,直至综合误差值达到最小。
步骤S30,判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;
本实施例中,在通过预置叠加算法对待训练模型进行叠加,得到预置候选模型集后,并不是直接采用预置候选模型集中的预置候选模型对实际场景下的数据进行预测,因为此时并不知道预置候选模型集中的预置候选模型中,哪些模型对数据的预测的准确率较高,哪些模型对数据的预测的召回率较高,为了使最终得到的预置候选模型可以满足实际场景下的需求,因此需要为预置候选模型预先设置评分标准,并判断预置候选模型是否满足预置评分标准,判断的方式是检测预测结果的准确率或召回率,例如,评分标准为:模型对数据的预测结果的准确率需要高于97%,预测结果的召回率需要高于97%。
在步骤S30之前,还包括根据当前场景的需求设置不同的评分标准,所述评分标准包括:准确率、召回率。
本实施例中,在得到多个预置候选模型后,在向用户推送前,需要先判断用户关注的侧重点,本实施例中,可以实现可视化操作,即用户可以根据当前场景的需求,在web界面勾选其关注的侧重点,若用户关注的是模型的准确率,则选择最大正确率max accuracy作为判断预置候选模型是否符合当前场景需求的标准,并根据此标准向用户推送合适的模型,若用户关注的是模型的召回率,则选择最大召回率max recall作为判断预置候选模型是否符合当前场景需求的标准,并根据此标准向用户推送合适的模型,这样的方式可以极大提高用户的选择范围。
步骤S40,若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;
步骤S50,若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型;
本实施例中,在得到包含至少两个待训练模型的待训练模型集合后,通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,其目的是得到预置评分标准的模型,判断所述预置候选模型集中的预置候选模型是否满足预置评分标准,若满足,则得到预置候选模型,若不满足则需要调整每个预置候选模型所占的权重。例如,用户可通过预先设置在用户界面上的选择对话框,手动选择其关注的对象,例如,用户关注的对象可以为准确率、覆盖率、召回率,则根据准确率、覆盖率、召回率的评分标准,向用户推送所述预置候选模型。
步骤S60,将满足预置评分标准的预置候选模型作为目标优化模型;
本实施例中,将预置候选模型作为目标优化模型的目的是,便于获取目标优化模型,进而实现对待预测数据的预测。
步骤S70,通过所述目标优化模型对待预测数据进行预测,得到预测结果。
本实施例中,在对待预测数据进行预测时,是通过目标优化模型进行预测的。例如,用户希望得到准确率为80%的图片预测模型,则需要通过满足预置评分标准(即准确率为80%)的目标优化模型对待预测的图片数据进行预测,得到预测结果。
参照图3,图3为图2中步骤S10的细化流程示意图。在本实施例中,步骤S10具体包括以下步骤:
步骤S101,通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内;
在本实施例中,所述算法至少包括:分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括:聚类算法,所述分布式的无监督机器学习算法包括:主成分分析算法和深度卷积神经网络算法,所述增强学习算法包括:时序差分学习算法和Q-learning算法;
本实施例中,预置机器学习算法包具体可以是开源的结构,因此可通过预先设置的自动化部署脚本将多种算法部署至计算框架构内,预置机器学习算法包包括:分布式的监督和无监督机器学习算法,以及Monet、torch和tensor三种框架下的深度学习算法。其中,计算框架构可以是Hardtop/Spark计算框架,由于计算框架内预先部署了算法包,因此当存在对待预测数据进行预测的请求时,可以调用算法包的算法对待预测数据进行计算。通过Hardtop对海量日志分析进行分析,在多次操作特定数据集的应用场合使用Spark计算分析框架。对不同场景下的数进行分别处理,便于运营、维护、管理人员回溯分析数据。
在此之前,还可以使用Sparkling-water将H2O机器学习算法和Spark进行整合,得到H2O+spark平台,所述H2O+spark平台至少包括以下算法:深度学习模型DL、叠加模型GBM、广义线性模型GLM、广义低阶模型GLRM、基于距离的迭代式算法K-means、主成分分析方法PCA、风险比例回归模型Cox、集成学习模型Ensemble learning。在通过H2O+spark平台构建模型之前需要处理原始数据,并将导入的数据转换成H2O机器学习能够处理的格式,在数据转换的过程中,机器学习平台通过获取spark平台上的add数据并将该数据转换成机器学习平台的数据格式H2OFRAME,再对数据进行处理,处理之后的数据可以转换成spark add的数据格式,并提交到Spark Executor JVM上通过spark的计算引擎对数据进行进一步的处理,实现与spark平台的融合。
在整个构建模型的过程中,涉及的底层的数据处理和计算的过程基本都在H2O+spark平台上通过spark的计算引擎来进行处理,在模型的构建过程中,通过公共H2O平台提交代码来实现对模型的构建。
通过H2O将所述预置候选模型转化为MOJO类和/或POJO类,本实施例中,为了使预置候选模型可以转化成便于嵌入其他业务系统的形式,因此通过H2O将所述预置候选模型生成相应的war包,即实现将预置候选模型转化为MOJO类和/或POJO类。具体过程为:根据预置候选模型从数据库业务表中获取代码信息与代码生成方案信息,并利用读取到的信息操作对应的业务数据表,根据业务数据表的数据结构,生成与代码生成信息中的实体名称对应的MOJO类和/或POJO类。H2O是开源的,分布式的,基于内存的,可扩展的机器学习和预测分析框架,适合在企业环境中构建大规模机器学习模型。
通过java的方式将所述MOJO和/或POJO类嵌入到其他的业务系统,或通过预置预测模型标记语言PMML将所述预置候选模型转化为标准语言,以供它业务系统使用。
步骤S102,通过预置API接口调用所述预置机器学习算法包内的多个算法,并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练,得到待训练模型集合。
本实施例中,通过预置API接口调用所述预置机器学习算法包内的多个算法,此算法包为开源结构,因此可通过预先设置的自动化部署脚本将多种算法部署至计算框架构内,通过同一训练样本分别训练由所述多个算法和同一场景数据构建而来的多个初始待训练模型,得到待训练模型集合。例如,算法包可以包括kitsch-learning,kitsch-learning内包含了常用的机器学习数据集和算法,比如,数据集包括:做分类的iris和digit数据集、用于回归的经典数据集Boston house prices,算法包括:逻辑回归算法、SVM算法,随机森林算法,神经网络算法。
参照图4,图4为本发明数据预测优化方法第二实施例的流程示意图。本实施例中,在图2的步骤S20之前,还包括以下步骤:
步骤S80,通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练,得到预测结果,并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率;
本实施例中,需要先通过预先标注好的预置训练数据来对模型进行训练,从而使得模型具备对待预测数据的预测能力,需要预先准备好正、负样本。例如,预先对当前训练数据进行标注,标注的信息分别为:在带有汽车的图片上标注上“有汽车”,在不带有汽车的图片上标注上“无汽车”,将“有汽车”的图片作为正样本,将“无汽车”的图片作为负样本,使用这些样本对模型进行训练,通过训练完的模型对已标注的图片进行预测,假设当前待训练模型集合中包含是三个模型,甲、乙、丙三个模型,这三个模型是训练过预置轮数是模型,例如为1000轮,通过这三个模型分别对当前训练数据进行预测,当前训练数据为数据集,由于当前训练数据的标注信息是预先就知道的,因此这三个模型对当前训练数据进行预测后,得到的预测结果是否正确是可以计算出的。
步骤S90,判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率;
本实施例中,预置预测准确率指的是预先设置的数值,例如60%。即单个待训练模型对数据的预测结果的准确率不能低于60%。由于在步骤S60的实施例中已经得到了各个模型的准确率,例如分别30%,70%,80%,由于预置预测准确率为60%,所以甲待训练模型是低于预置预测准确率的。
步骤S100,若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率,则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重,直至所述待训练模型的所述准确率等于或高于所述预置预测准确率,若否,则不处理。
本实施例中,若待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率,则通过投票算法Voting调节述所述准确率低于所述预置预测准确率的待训练模型的权重,直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。例如,通过投票算法调节述所述准确率低于所述预置预测准确率的待训练模型的权重具体过程为:采用多个待训练模型对同一数据样本进行预测,预测n次,记录各个模型对数据的预测结果中低于预置预测准确率的次数,筛选出低于预置预测准确率的次数最多的待训练模型,并减少其所占的权重。
例如,甲、乙、丙三个模型,分别对待预测的数据进行预测,得到用户购物金额的预测值,分别为30%,70%,80%,由于丙待训练模型准确率较高,而甲待训练模型准确率较低,因此可以通过投票算法,为准确率较低的模型设置更低的权重。
参照图5,图5为本发明数据预测优化方法第三实施例的流程示意图。本实施例中,在图2的步骤S20之后,还包括以下步骤:
步骤S110,基于预置训练数据和预置算法,通过预置自动机器学习AutoML进行拓展,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
本实施例中,通过预置自动机器学习AutoML中的神经架构搜索(NeuralArchitecture Search)功能自动化设计神经网络,在设计神经网络时,可以使用强化学习或进化算法。在强化学习中,模型因低准确率而受到惩罚,并因高准确率而获得奖励。使用这种技术,模型将始终努力获得更高的准确率。通过预置自动机器学习AutoML中的迁移学习功能使得预先训练的模型可以将它学习过的知识迁移应用在新的但相似的数据集上,例如,第一预测模型是用来预测儿童保险销售金额的,运用迁移学习功能可以将训练第一模型的过程运用到用于预测老人保险销售金额的模型训练中。这使我们能够用更少的计算时间和计算资源去获得比较高的准确率。神经架构搜索适用于需要设计新模型架构的问题,而迁移学习最适用于数据集类似于预训练模型中使用的数据集的问题。在获取预置候选模型后,该模型可以对该训练过的数据具有很好的预测能力,但是如果转换到其他的场景,该模型则很可能不适用,例如,采用初始模型训练用户购买商品种类的数据,得到的模型可以根据用户数据输出用户下次购买商品的种类的预测,然而却不能预测用户的消费数额。基于此技术问题,在本方案中增加了预置自动机器学习模型AutoML,AutoML可以根据学习到建模规律,将该规律运用到其他的相似场景下,这样单个预置候选模型就可以被扩展为适用于不同场景的预置候选模型,提高了模型训练的效率。
参照图6,图6为图5中步骤S110的细化流程示意图。在本实施例中,步骤S110具体包括以下步骤:
步骤S1101,利用分布式并行的清洗算法,对训练数据进行清洗,得到预置训练数据;
本实施例中,通过清洗算法,例如,通过主成分分析、随机森林可实现对数据的清洗,同时实现降维的效果,本实施例中采用的是分布式并行的方式,通过这种方式可以实现运用多种算法对数据清洗。
步骤S1102,基于所述预置训练数据和预置算法,通过预置自动机器学习AutoML进行拓展,得到目标候选模型;
本实施例中,AutoML可以根据学习到建模规律,将该规律运用到其他场景下,这样单个预置候选模型就可以被扩展为适用于不同场景的预置候选模型,提高了模型训练的效率。
步骤S1103,利用自动机器学习AutoML,执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
本实施例中,若拓展出的初始预置候选模型,可以输出符合预置验证规则的预测结果,则说明,当前所拓展出的预置候选模型是完全根据从步骤S10-S60中学习到的规则进行拓展而得到的,唯一不同的是各自所适用的场景不同。网格搜索算法指的是,通过随机的方式从预先准备好的待调整参数集合中获取待调整参数,通过目标候选模型输出对待预测数据的预测结果,检验预测结果的正确率,这样就可以获取到优化后的参数。
通过所述预置AutoML模型训练预置训练数据,得到初始预置候选模型。在训练时,AutoML完全根据步骤S10-S70中学习到的规则训练当前场景的数据,以得到初始预置候选模型。
预置验证规则从步骤S10-S70中学习到的规则,为了检验拓展出的初始预置候选模型是否可以输出正确的预测结果,因此需要先设置验证数据,该验证数据并非人为设定的,而是AutoML从步骤S10-S70中学习到的规则,例如,为得到用于预测用户购买商品类型的甲模型,需要评价各个模型对数据的预测结果与真实值之间的误差值的大小,并将各个模型的误差值进行相加得到综合误差值,采用加权多数表决的方法不断强化误差值最小的模型所占的权重,直至综合误差值达到最小。上述例子就是AutoML学习到的规律,若现在要根据用户数据得到可以预测用户消费数额的乙模型,则不用再需要人工参与,AutoML则可直接根据学些到规律验证拓展出模型所输出的预测结果是否满足综合误差值达到最小的条件。
参照图7,图7为本发明数据预测优化方法第四实施例的流程示意图。本实施例中,在图2的步骤S70之后,还包括以下步骤:
步骤S120,通过预置监控插件yarn对所述预测结果进行监控,得到监控结果;
本实施例中,预先设置了yarn。yarn是一种Hardtop资源管理器,yarn集群每个节点都运行一个节点管理者Node Manager,Node Manager是每个节点上的资源和任务管理器,用于管理节点程序的运行,以及该节点资源的管理和监控。通过yarn集群节点上的节点管理者Node Manager对节点处的资源进行管理和监控。若发现异常,则可以将故障信息通过节点反馈给预置报警系统。为了更有针对性地监控预测结果中特定的数据,可以为集群中的各个节点设置权限或者是监控指标。例如,以Memory消耗为中点关注对象,则可以将监控Memory消耗数据的节点预先设置为优先节点。
步骤S130,将所述监控结果进行可视化处理,并进行展示。
本实施例中,为了使监控的结果可以以一种易于用户理解的方式展现,可以对监控结果中的数据进行可视化处理,并通过人机交互界面进行展示。在获取到监控结果后,根据所述监控结果触发进行可视化处理的任务,调用与所述任务相应的函数,以从预置图形模版库中获取到指定的图形,图片与待可视化的数据之间预先建立了映射关系,当获取到监控结果时,可根据所述映射关系将所述监控结果映射于指定的图形,最后通过DOM渲染,将所述带有数据的图形展示出来。
参照图8,图8为图2中步骤S40的细化流程示意图。在本实施例中,步骤S40具体包括以下步骤:
步骤S401,判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率;
本实施例中,为了全面分析预置候选模型集中的预置候选模型是否符合当前场景,在当前场景下,首先关注的就是预置候选模型集中的预置候选模型输出的预测结果是否小于预置准确率,例如,预置准确率为90%,若预置候选模型输出的预测结果的准确率为80%,则说明当前预置候选模型不满足当前场景的需求。
预置候选模型对数据的测试结果有下面4种情况:TP:预测为正,实际为正;FP:预测为正,实际为负;TN:预测为负,实际为负;FN:预测为负,实际为正。其中,准确率:Accuracy=(TP+TN)/(TP+TN+FN+FP)。准确率,指的是预置候选模型对待预测数据进行预测后得到正确的预测结果与所有可能出现的预测结果的比值。
步骤S402,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置准确率,则不处理;
步骤S403,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则调节待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率;
本实施例中,以预置候选模型对数据的预测结果的准确率为准,若预置候选模型对数据的预测结果的准确率大于或者等于预置准确率,则该预置候选模型是符合当前场景需求的,因此不必再判断预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率,若预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则需要判断预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率。
步骤S404,若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率大于或等于预置召回率,则得到满足预置评分标准的预置候选模型。
本实施例中,若预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则需要判断预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率,若大于,则得到该预置候选模型,若小于获等于,则调节所述待训练模型所占的预置权重,直至预置候选模型集中的预置候选模型对数据的预测结果的召回率是否大于预置召回率。
召回率指的是覆盖面的度量,用于度量有多个正例被预测为正例,对于数据测试结果有下面4种情况:TP:预测为正,实际为正;FP:预测为正,实际为负;TN:预测为负,实际为负;FN:预测为负,实际为正。其中,召回率:R=TP/(TP+FN)。
参照图9,图9为本发明数据预测优化装置一实施例的功能模块示意图。本实施例中,所述数据预测优化装置包括:
训练模块10,用于利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型;
叠加模块20,用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集,所述预置候选模型集至少包括两个预置候选模型,其中,所述预置叠加算法至少包括:分类器迭代算法、背景梯度提升回归算法和对数提升算法;
判断模块30,用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;
调节模块40,用于若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,用于若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中各个待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;
转化模块50,用于将满足预置评分标准的预置候选模型作为目标优化模型;
预测模块60,用于通过所述目标优化模型对待预测数据进行预测,得到预测结果。
本实施例中,训练模块10,用于利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型;叠加模块20用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集,所述预置候选模型集至少包括两个预置候选模型,其中,所述预置叠加算法至少包括:分类器迭代算法、背景梯度提升回归算法和对数提升算法;判断模块30用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;调节模块40用于若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,用于若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中各个待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;转化模块50用于将满足预置评分标准的预置候选模型作为目标优化模型;预测模块60用于通过所述目标优化模型对待预测数据进行预测,得到预测结果。通过本装置中的模块可增加模型的种类与数量,使得模型的预测能力得到进一步优化,可提高模型对待预测数据的预测准确率。
本发明还提供一种计算机可读存储介质。
本实施例中,所述计算机可读存储介质上存储有数据预测优化程序,所述数据预测优化程序被处理器执行时实现如上述任一项实施例中所述的数据预测优化方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。
Claims (8)
1.一种数据预测优化方法,其特征在于,所述数据预测优化方法包括以下步骤:
利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型;
所述利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合包括以下步骤:
通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内,其中,所述算法至少包括:分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括:聚类算法,所述分布式的无监督机器学习算法包括:主成分分析算法和深度卷积神经网络算法,所述增强学习算法包括:时序差分学习算法;
通过预置API接口调用所述预置机器学习算法包内的多个算法,并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练,得到待训练模型集合;
通过预置叠加算法对所述待训练模型集合中的待训练模型按照预置权重进行叠加,得到预置候选模型集,其中,所述预置叠加算法至少包括:分类器迭代算法、背景梯度提升回归算法和对数提升算法;
判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;
若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;
所述若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准包括以下步骤:
判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率;
若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率;
若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率,则得到满足预置评分标准的预置候选模型;
将满足预置评分标准的预置候选模型作为目标优化模型;
通过所述目标优化模型对待预测数据进行预测,得到预测结果。
2.如权利要求1所述的数据预测优化方法,其特征在于,在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集的步骤之前,还包括以下步骤:
通过预先标注好的预置训练数据对待训练模型集合中的待训练模型进行预测训练,得到预测结果,并根据所述预先标注好的预置训练数据的标注信息计算所述预测结果的准确率;
判断所述待训练模型集合中的待训练模型的所述准确率是否低于预置预测准确率;
若所述待训练模型集合中的待训练模型的所述准确率低于所述预置预测准确率,则通过投票算法调节所述准确率低于所述预置预测准确率的待训练模型的权重,直至所述待训练模型的所述准确率等于或高于所述预置预测准确率。
3.如权利要求1所述的数据预测优化方法,其特征在于,在所述通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集的步骤之后,还包括以下步骤:
基于预置训练数据和预置算法,通过预置自动机器学习进行拓展,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
4.如权利要求3所述的数据预测优化方法,其特征在于,所述基于预置训练数据和预置算法,通过预置自动机器学习进行拓展,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集包括以下步骤:
利用分布式并行的清洗算法,对训练数据进行清洗,得到预置训练数据;
基于所述预置训练数据和预置算法,通过预置自动机器学习进行拓展,得到目标候选模型;
利用预置自动机器学习,执行自动机器学习流程中的网格搜索算法对所述目标候选模型进行超参数优化,得到新的预置候选模型,并将所述新的预置候选模型存储于预置候选模型集。
5.如权利要求1所述的数据预测优化方法,其特征在于,在所述通过所述目标优化模型对待预测数据进行预测,得到预测结果的步骤之后,还包括以下步骤:
通过预置监控插件yarn对所述预测结果进行监控,得到监控结果;
将所述监控结果进行可视化处理,并进行展示。
6.一种数据预测优化装置,其特征在于,所述数据预测优化装置包括:
训练模块,用于利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合,所述待训练模型集合至少包括两个待训练模型;
所述利用同一训练样本分别对多个初始待训练模型进行预测训练,得到待训练模型集合包括以下步骤:
通过预先设置的自动化部署脚本将多个算法部署至预置机器学习算法包内,其中,所述算法至少包括:分布式的监督机器学习算法、分布式的无监督机器学习算法和增强学习算法,所述分布式的监督机器学习算法包括:聚类算法,所述分布式的无监督机器学习算法包括:主成分分析算法和深度卷积神经网络算法,所述增强学习算法包括:时序差分学习算法;
通过预置API接口调用所述预置机器学习算法包内的多个算法,并通过同一训练样本分别对由所述多个算法和同一场景数据构建的多个初始待训练模型进行预测训练,得到待训练模型集合;
叠加模块,用于通过预置叠加算法对所述待训练模型集合的中的待训练模型按照预置权重进行叠加,得到预置候选模型集,所述预置候选模型集至少包括两个预置候选模型,其中,所述预置叠加算法至少包括:分类器迭代算法、背景梯度提升回归算法和对数提升算法;
判断模块,用于判断所述预置候选模型集中的预置候选模型是否满足预置评分标准;
调节模块,用于若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,用于若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中各个待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准;
所述若所述预置候选模型集中的预置候选模型满足预置评分标准,则得到所述满足预置评分标准的预置候选模型,若所述预置候选模型集中的预置候选模型不满足预置评分标准,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型满足预置评分标准包括以下步骤:
判断所述预置候选模型集中的预置候选模型对数据的预测结果的准确率是否小于预置准确率;
若所述预置候选模型集中的预置候选模型对数据的预测结果的准确率小于预置准确率,则判断所述预置候选模型集中的预置候选模型对数据的预测结果的召回率是否小于预置召回率;
若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率小于预置召回率,则调节预置候选模型集中待训练模型所占的预置权重,直至所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率,若所述预置候选模型集中的预置候选模型对数据的预测结果的召回率大于或等于预置召回率,则得到满足预置评分标准的预置候选模型;
转化模块,用于将满足预置评分标准的预置候选模型作为目标优化模型;
预测模块,用于通过所述目标优化模型对待预测数据进行预测,得到预测结果。
7.一种数据预测优化设备,其特征在于,所述数据预测优化设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据预测优化程序,所述数据预测优化程序被所述处理器执行时实现如权利要求1-5中任一项所述的数据预测优化方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据预测优化程序,所述数据预测优化程序被处理器执行时实现如权利要求1-5中任一项所述的数据预测优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911042922.8A CN110942086B (zh) | 2019-10-30 | 2019-10-30 | 数据预测优化方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911042922.8A CN110942086B (zh) | 2019-10-30 | 2019-10-30 | 数据预测优化方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942086A CN110942086A (zh) | 2020-03-31 |
CN110942086B true CN110942086B (zh) | 2024-04-23 |
Family
ID=69906832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911042922.8A Active CN110942086B (zh) | 2019-10-30 | 2019-10-30 | 数据预测优化方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942086B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI770534B (zh) * | 2020-06-19 | 2022-07-11 | 新加坡商鴻運科股份有限公司 | 自動機器學習系統效能調優方法、裝置、設備及介質 |
CN113821332B (zh) | 2020-06-19 | 2024-02-13 | 富联精密电子(天津)有限公司 | 自动机器学习系统效能调优方法、装置、设备及介质 |
CN111898766B (zh) * | 2020-07-31 | 2023-02-24 | 平安科技(深圳)有限公司 | 基于自动机器学习的以太坊燃料限制预测方法及装置 |
CN112036344A (zh) * | 2020-09-04 | 2020-12-04 | 上海云从汇临人工智能科技有限公司 | 应用于图像处理的聚类效果检测方法、装置、设备及介质 |
CN113239025B (zh) * | 2021-04-23 | 2022-08-19 | 四川大学 | 基于特征选择和超参数优化的船舶轨迹分类方法 |
CN113570162A (zh) * | 2021-08-30 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 基于人工智能的住院费用预测方法、装置及计算机设备 |
CN114037057B (zh) * | 2021-11-05 | 2024-03-15 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备以及存储介质 |
CN116629143A (zh) * | 2023-07-25 | 2023-08-22 | 东方空间技术(山东)有限公司 | 一种火箭模拟发射参数判读方法、计算设备及存储介质 |
CN117369954B (zh) * | 2023-12-08 | 2024-03-05 | 成都乐超人科技有限公司 | 一种面向大数据构建的风险处理框架的jvm优化方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103257921A (zh) * | 2013-04-16 | 2013-08-21 | 西安电子科技大学 | 一种基于改进随机森林算法的软件故障预测系统及其方法 |
CN107506949A (zh) * | 2017-10-10 | 2017-12-22 | 甘肃省电力公司风电技术中心 | 光伏数据聚类方法、光伏功率预测方法、存储介质和设备 |
CN107563539A (zh) * | 2017-07-24 | 2018-01-09 | 佛山市顺德区中山大学研究院 | 基于机器学习模型的短期和中长期电力负荷预测方法 |
CN109344682A (zh) * | 2018-08-02 | 2019-02-15 | 平安科技(深圳)有限公司 | 课堂监控方法、装置、计算机设备及存储介质 |
CN110222762A (zh) * | 2019-06-04 | 2019-09-10 | 恒安嘉新(北京)科技股份公司 | 对象预测方法、装置、设备、及介质 |
CN110363090A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 智能心脏疾病检测方法、装置及计算机可读存储介质 |
CN110363129A (zh) * | 2019-07-05 | 2019-10-22 | 昆山杜克大学 | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 |
WO2019200480A1 (en) * | 2018-04-18 | 2019-10-24 | Rubikloud Technologies Inc. | Method and system for model auto-selection using an ensemble of machine learning models |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417528B2 (en) * | 2018-02-18 | 2019-09-17 | Sas Institute Inc. | Analytic system for machine learning prediction model selection |
-
2019
- 2019-10-30 CN CN201911042922.8A patent/CN110942086B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103257921A (zh) * | 2013-04-16 | 2013-08-21 | 西安电子科技大学 | 一种基于改进随机森林算法的软件故障预测系统及其方法 |
CN107563539A (zh) * | 2017-07-24 | 2018-01-09 | 佛山市顺德区中山大学研究院 | 基于机器学习模型的短期和中长期电力负荷预测方法 |
CN107506949A (zh) * | 2017-10-10 | 2017-12-22 | 甘肃省电力公司风电技术中心 | 光伏数据聚类方法、光伏功率预测方法、存储介质和设备 |
WO2019200480A1 (en) * | 2018-04-18 | 2019-10-24 | Rubikloud Technologies Inc. | Method and system for model auto-selection using an ensemble of machine learning models |
CN109344682A (zh) * | 2018-08-02 | 2019-02-15 | 平安科技(深圳)有限公司 | 课堂监控方法、装置、计算机设备及存储介质 |
CN110222762A (zh) * | 2019-06-04 | 2019-09-10 | 恒安嘉新(北京)科技股份公司 | 对象预测方法、装置、设备、及介质 |
CN110363090A (zh) * | 2019-06-14 | 2019-10-22 | 平安科技(深圳)有限公司 | 智能心脏疾病检测方法、装置及计算机可读存储介质 |
CN110363129A (zh) * | 2019-07-05 | 2019-10-22 | 昆山杜克大学 | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110942086A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942086B (zh) | 数据预测优化方法、装置、设备及可读存储介质 | |
Kim et al. | General model for the risk priority number in failure mode and effects analysis | |
Ngo et al. | Factor-based big data and predictive analytics capability assessment tool for the construction industry | |
US11334831B2 (en) | Predictive risk assessment in system modeling | |
US10530666B2 (en) | Method and system for managing performance indicators for addressing goals of enterprise facility operations management | |
Staron et al. | A method for forecasting defect backlog in large streamline software development projects and its industrial evaluation | |
De Ambroggi et al. | Modelling and assessment of dependent performance shaping factors through Analytic Network Process | |
US9268674B1 (en) | System, method, and computer program for monitoring testing progress of a software testing project utilizing a data warehouse architecture | |
US9208209B1 (en) | Techniques for monitoring transformation techniques using control charts | |
KR101732319B1 (ko) | 목표 지향적 빅데이터 비즈니스 분석 프레임워크 | |
US9799007B2 (en) | Method of collaborative software development | |
JP2018180759A (ja) | システム分析装置、及びシステム分析方法 | |
US11775867B1 (en) | System and methods for evaluating machine learning models | |
Guan et al. | A simulation-based risk interdependency network model for project risk assessment | |
US11593648B2 (en) | Methods and systems for detection and isolation of bias in predictive models | |
Lee et al. | Towards robust technology roadmapping: How to diagnose the vulnerability of organisational plans | |
Jyotish et al. | A state-of-the-art review on performance measurement petri net models for safety critical systems of NPP | |
Zhou et al. | Smart experience-oriented customer requirement analysis for smart product service system: A novel hesitant fuzzy linguistic cloud DEMATEL method | |
CN111901156B (zh) | 一种监控故障的方法及装置 | |
US20220343255A1 (en) | Method and system for identification and analysis of regime shift | |
Zhu et al. | An intelligent collaboration framework of IoT applications based on event logic graph | |
Chatzimparmpas et al. | Maintenance process modeling and dynamic estimations based on Bayesian networks and association rules | |
Pospisil et al. | Business process simulation for predictions | |
US20230214739A1 (en) | Recommendation system for improving support for a service | |
Shastry et al. | Bayesian Network Based Bug-fix Effort Prediction Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |