CN112163620A - 一种stacking模型融合方法 - Google Patents
一种stacking模型融合方法 Download PDFInfo
- Publication number
- CN112163620A CN112163620A CN202011035630.4A CN202011035630A CN112163620A CN 112163620 A CN112163620 A CN 112163620A CN 202011035630 A CN202011035630 A CN 202011035630A CN 112163620 A CN112163620 A CN 112163620A
- Authority
- CN
- China
- Prior art keywords
- model
- model fusion
- data set
- base
- stacking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 20
- 238000002790 cross-validation Methods 0.000 claims description 18
- 230000013016 learning Effects 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 4
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种Stacking模型融合方法,包括:采集数据集并确定模型融合的基模型;基模型的特征提取;下一层数据集的模型融合;本发明采用K‑Folds的方式生成新的特征,同时对特征抽取及分类进行优化实现动态平衡,降低过拟合过程,使得Stacking模型融合精确化,可应用于人工智能领域机器学习的模型融合。
Description
技术领域
本发明涉及人工智能及机器学习技术领域,具体的涉及一种 stacking模型融合方法。
背景技术
随着时代的发展,人类在享受现代化便利的同时,其作业环境的复杂度也在增加,人脑在从事高度复杂工作中容易因经验、心态以及个人能力等因素的影响引发失误或工作效率下降,因此,人工智能应运而生;人工智能(Artificial Intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的机器所表现出来的智能,通常人工智能是指通过普通计算机程序来呈现人类智能的技术;AI的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。当前有大量的工具应用了人工智能,其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学,以及基于概率论和经济学的算法等等也在逐步探索当中。思维来源于大脑,而思维控制行为,行为需要意志去实现,而思维又是对所有数据采集的整理,相当于数据库,所以人工智能最后会演变为机器替换人类。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习的各种算法在于如何使用特定函数与已知的数据集相匹配,从而达到训练和测试的目的,而集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术,当深度学习模型变得很多时,可以把他们都用起来,就进行模型融合。
不同的模型有各自的长处,具有差异性,而模型融合可以使得发挥出各个模型的优势,让这些相对较弱的模型(学习器)通过某种策略结合起来,达到比较强的模型(学习器)。在进行模型融合之前,各个基学习器不能够太差,即“准确性”,第二,它们之间要有区分度,即“差异性”。要满足这两点,把多个学习器结合在一起,它们的效果才能比原先的各个基学习器要好。
模型融合的研究中,最早重视并提出Stacking技术的是David H. Wolpert,他在1992年发表的论文Stacked Generalization它可以看做是交叉验证(cross-validation)的复杂版,通过胜者全得 (winner-takes-all)的方式来进行集成的方法。Stacking具有的灵活和不确定性,使得它既可以来实现Bagging方式,又可以来实现Boosting 方式。理论方面,SG被Wolpert在1992年提出后,Leo Breiman在 1996年把广义线性模型(GeneralizedLinear Model)和SG方法结合起来提出了“Stacked Regressions”。再之后,来自加州伯克利分销 (UC Berkeley)的Mark J.van der Laan在2007的时候在表述Super Learner的时候,从理论上证明了Stacking方法的有效性。实践方面,除了SG理论本身的突破之外,SG应用的广度和深度也在不停的突破,其中一个是训练数据的分配(Blending的出现);而另外一个是深层(3层以上)Stacking的出现。
stacking模型融合简单来说就是把各个基学习器的预测结果作为下一层新的训练集,来学习一个新的学习器。通过元分类器或元回归聚合多个分类或回归模型。基础层次模型(level model)基于完整的训练集进行训练,然后元模型基于基础层次模型的输出进行训练;由于都是先把小的模型训练出来,然后再进行加权融合到账它的模型复杂度过高,容易造成过拟合,因此申请人提出一种Stacking模型融合方法。
发明内容
针对现有技术存在的上述问题,本发明提供了一种Stacking模型融合方法,采用K-Folds的方式生成新的特征,同时对特征抽取及分类进行优化实现动态平衡,降低过拟合过程,使得Stacking模型融合精确化,可应用于人工智能领域机器学习的模型融合。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
一种Stacking模型融合方法,包括以下步骤:
步骤1.采集数据集并确定模型融合的基模型
通过对单位时间范围内的数据采集得到数据集,将数据集划分为若干基模型;
步骤2.基模型的特征提取
对不同基模型进行不同特征的学习能力的定义,同时进行K折交叉验证输出学习特征作为下一层的新特征;
步骤3.下一层数据集的模型融合
将第一层基模型输出结果作为下一层输入数据的分类器,进行模型融合;
所述K折交叉验证将基模型的数据集train随机等分为K份,分别为1-Folds~K-Folds,而基模型对应不同特征的学习能力定义为Mi;
上述i=1,2,……N;
在{Fold1,Fold2,……,FoldF}上对Mi进行训练,得到特征学习能力Mi-1,然后对Fold1进行预测,得到新特征在Fold1上的值 N-1,依次类推获得N-2,N-3,……N-F,最后将N-1,N-2,……N-F 合并到一起获得新特征N;
所述获得的性特征N作为为下一层输入数据的分类器,进行模型融合。
进一步的,所述基模型对应不同特征的学习能力及下一层输入数据的分类器均为变量。
进一步的,所述K折交叉验证将每一次在训练集上得到基学习器后,就对测试数据集test进行预测,然后对K次的预测结果求平均,就得到了test上的新特征;
所述基模型的特征提取对全部训练集进行训练得到Mi,然后用 Mi对测试集预测得到新特征。
进一步的,所述获得的数据集和测试集作为下一层输入数据的分类器,进行模型融合。
进一步的,所述K折交叉验证将数据集均分为若干子集,并依次将其中子集数量-1个子集作为训练集,剩下1个子集作为测试集,每个子集均验证一次,对每一折进行预测,采用两层循环,第一层循环控制基模型,第二层循环控制交叉验证四次,则对每一个基模型会训练四次,最后求均方根拼接得到预测结果。
本发明的另一目的在于,提供一种Stacking模型融合方法在机器学习模型融合中的应用。
本发明的有益效果:
本发明的Stacking模型融合方法,采用K-Folds的方式生成新的特征,同时对特征抽取及分类进行优化实现动态平衡,降低过拟合过程,使得Stacking模型融合精确化,可应用于人工智能领域机器学习的模型融合。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述Stacking模型融合方法的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示
一种Stacking模型融合方法,包括以下步骤:
步骤1.采集数据集并确定模型融合的基模型
通过对单位时间范围内的数据采集得到数据集,将数据集划分为若干基模型;
步骤2.基模型的特征提取
对不同基模型进行不同特征的学习能力的定义,同时进行K折交叉验证输出学习特征作为下一层的新特征;
步骤3.下一层数据集的模型融合
将第一层基模型输出结果作为下一层输入数据的分类器,进行模型融合;
所述K折交叉验证将基模型的数据集train随机等分为K份,分别为1-Folds~K-Folds,而基模型对应不同特征的学习能力定义为Mi;
上述i=1,2,……N;
在{Fold1,Fold2,……,FoldF}上对Mi进行训练,得到特征学习能力Mi-1,然后对Fold1进行预测,得到新特征在Fold1上的值 N-1,依次类推获得N-2,N-3,……N-F,最后将N-1,N-2,……N-F 合并到一起获得新特征N;
所述获得的性特征N作为为下一层输入数据的分类器,进行模型融合。
所述基模型对应不同特征的学习能力及下一层输入数据的分类器均为变量。
所述K折交叉验证将每一次在训练集上得到基学习器后,就对测试数据集test进行预测,然后对K次的预测结果求平均,就得到了 test上的新特征;
所述基模型的特征提取对全部训练集进行训练得到Mi,然后用Mi对测试集预测得到新特征。
所述获得的数据集和测试集作为下一层输入数据的分类器,进行模型融合。
所述K折交叉验证将数据集均分为若干子集,并依次将其中子集数量-1个子集作为训练集,剩下1个子集作为测试集,每个子集均验证一次,对每一折进行预测,采用两层循环,第一层循环控制基模型,第二层循环控制交叉验证四次,则对每一个基模型会训练四次,最后求均方根拼接得到预测结果。
实施例2
一种Stacking模型融合方法在机器学习模型融合中的应用。
采用K-Folds的方式生成新的特征,K折交叉验证将数据集均分为若干子集,并依次将其中子集数量-1个子集作为训练集,剩下1 个子集作为测试集,每个子集均验证一次,对每一折进行预测,采用两层循环,第一层循环控制基模型,第二层循环控制交叉验证四次,则对每一个基模型会训练四次,最后求均方根拼接得到预测结果;
同时对特征抽取及分类进行优化实现动态平衡,对于一层和二层的特征抽取采用动态平衡的设定,第一层模型的结果有遗漏的信息,会在第二层加上原始特征,同时再次使用gradient boosting tree训练, 不少情况下能够提高模型的performance;第一层的特征抽取能力强的时候,第二层尽量简单;弱的时候第二层可以适量复杂。如果第二层模型有很强的抗过拟合的能力,或许较好的捕捉遗漏的信息;
从而降低过拟合过程,使得Stacking模型融合精确化,可应用于人工智能领域机器学习的模型融合。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.一种Stacking模型融合方法,其特征在于:包括以下步骤:
步骤1.采集数据集并确定模型融合的基模型
通过对单位时间范围内的数据采集得到数据集,将数据集划分为若干基模型;
步骤2.基模型的特征提取
对不同基模型进行不同特征的学习能力的定义,同时进行K折交叉验证输出学习特征作为下一层的新特征;
步骤3.下一层数据集的模型融合
将第一层基模型输出结果作为下一层输入数据的分类器,进行模型融合;
所述K折交叉验证将基模型的数据集train随机等分为K份,分别为1-Folds~K-Folds,而基模型对应不同特征的学习能力定义为Mi;
上述i=1,2,……N;
在{Fold1,Fold2,……,FoldF}上对Mi进行训练,得到特征学习能力Mi-1,然后对Fold1进行预测,得到新特征在Fold1上的值N-1,依次类推获得N-2,N-3,……N-F,最后将N-1,N-2,……N-F合并到一起获得新特征N;
所述获得的性特征N作为为下一层输入数据的分类器,进行模型融合。
2.如权利要求1所述的一种Stacking模型融合方法,其特征在于:所述基模型对应不同特征的学习能力及下一层输入数据的分类器均为变量。
3.如权利要求1所述的一种Stacking模型融合方法,其特征在于:所述K折交叉验证将每一次在训练集上得到基学习器后,就对测试数据集test进行预测,然后对K次的预测结果求平均,就得到了test上的新特征;
所述基模型的特征提取对全部训练集进行训练得到Mi,然后用Mi对测试集预测得到新特征。
4.如权利要求3所述的一种Stacking模型融合方法,其特征在于:所述获得的数据集和测试集作为下一层输入数据的分类器,进行模型融合。
5.如权利要求3所述的一种Stacking模型融合方法,其特征在于:所述K折交叉验证将数据集均分为若干子集,并依次将其中子集数量-1个子集作为训练集,剩下1个子集作为测试集,每个子集均验证一次,对每一折进行预测,采用两层循环,第一层循环控制基模型,第二层循环控制交叉验证四次,则对每一个基模型会训练四次,最后求均方根拼接得到预测结果。
6.一种Stacking模型融合方法在机器学习模型融合中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035630.4A CN112163620A (zh) | 2020-09-27 | 2020-09-27 | 一种stacking模型融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011035630.4A CN112163620A (zh) | 2020-09-27 | 2020-09-27 | 一种stacking模型融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163620A true CN112163620A (zh) | 2021-01-01 |
Family
ID=73860647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011035630.4A Pending CN112163620A (zh) | 2020-09-27 | 2020-09-27 | 一种stacking模型融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163620A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991091A (zh) * | 2021-02-09 | 2021-06-18 | 江南大学 | 一种基于Stacking算法的短期电力负荷预测方法及装置 |
CN114913402A (zh) * | 2022-07-18 | 2022-08-16 | 深圳比特微电子科技有限公司 | 一种深度学习模型的融合方法、装置 |
WO2022252596A1 (zh) * | 2021-05-31 | 2022-12-08 | 华为云计算技术有限公司 | 构建ai集成模型的方法、ai集成模型的推理方法及装置 |
-
2020
- 2020-09-27 CN CN202011035630.4A patent/CN112163620A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112991091A (zh) * | 2021-02-09 | 2021-06-18 | 江南大学 | 一种基于Stacking算法的短期电力负荷预测方法及装置 |
WO2022252596A1 (zh) * | 2021-05-31 | 2022-12-08 | 华为云计算技术有限公司 | 构建ai集成模型的方法、ai集成模型的推理方法及装置 |
CN114913402A (zh) * | 2022-07-18 | 2022-08-16 | 深圳比特微电子科技有限公司 | 一种深度学习模型的融合方法、装置 |
CN114913402B (zh) * | 2022-07-18 | 2022-10-18 | 深圳比特微电子科技有限公司 | 一种深度学习模型的融合方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alharin et al. | Reinforcement learning interpretation methods: A survey | |
Hussain et al. | Prediction model on student performance based on internal assessment using deep learning | |
Graupe | Principles of artificial neural networks | |
Blauch et al. | Computational insights into human perceptual expertise for familiar and unfamiliar face recognition | |
CN112163620A (zh) | 一种stacking模型融合方法 | |
RU2504006C1 (ru) | Способ обучения искусственной нейронной сети | |
Stewart et al. | Spaun: A perception-cognition-action model using spiking neurons | |
CN106373057A (zh) | 一种面向网络教育的成绩不良学习者识别方法 | |
Di Nuovo et al. | Developing the knowledge of number digits in a child-like robot | |
Chanaa et al. | Context-aware factorization machine for recommendation in massive open online courses (MOOCs) | |
Jastrzebska et al. | Fuzzy cognitive map-driven comprehensive time-series classification | |
Wei et al. | (Retracted) Image analysis and pattern recognition method of three-dimensional process in physical education teaching based on big data | |
Hoq et al. | Analysis of an Explainable Student Performance Prediction Model in an Introductory Programming Course. | |
Cam et al. | Discovery of Course Success Using Unsupervised Machine Learning Algorithms. | |
Cajic et al. | Neuro-Fuzzy Disease Detection Using Interpolation in Matlab: Unveiling the Hidden Patterns | |
Mezzadri et al. | An order-dependent transfer model in categorization | |
CN114548239A (zh) | 一种基于类哺乳动物视网膜结构人工神经网络的图像识别与分类方法 | |
Aher et al. | Data preparation strategy in e-learning system using association rule algorithm | |
Naydenov et al. | Clustering of non-annotated data | |
Sababa et al. | Classification of Dates Using Deep Learning | |
Mahaweerawa et al. | Applying stacked generalization with the difference of truth and falsity data to predict student’s performance | |
Indrawati | Development of decision support system for employee selection using Adaptive Neuro Fuzzy Inference System | |
Zhong | Non-equilibrium physics: from spin glasses to machine and neural learning | |
Palm | Neural assemblies: an alternative approach to classical artificial intelligence | |
Townsend et al. | Psychology and mathematics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |