CN106874959A - 一种多尺度扫描级联森林学习机的训练方法 - Google Patents

一种多尺度扫描级联森林学习机的训练方法 Download PDF

Info

Publication number
CN106874959A
CN106874959A CN201710117221.0A CN201710117221A CN106874959A CN 106874959 A CN106874959 A CN 106874959A CN 201710117221 A CN201710117221 A CN 201710117221A CN 106874959 A CN106874959 A CN 106874959A
Authority
CN
China
Prior art keywords
cascade
training
scanning
machine
multiple dimensioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710117221.0A
Other languages
English (en)
Inventor
周志华
冯霁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201710117221.0A priority Critical patent/CN106874959A/zh
Publication of CN106874959A publication Critical patent/CN106874959A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种多尺度扫描级联森林学习机的训练方法,包括如下步骤:(1)通过级联扫描的方式,对训练集进行预处理。(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量。(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练。(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。本发明对高维时空数据进行扫描和预处理,使得该学习机可以感知输入数据的结构性,以达到精准识别的目的。

Description

一种多尺度扫描级联森林学习机的训练方法
技术领域
本发明涉及一种多尺度扫描级联森林学习机的训练方法,用于大规模数据下的人工智能与模式识别任务。
背景技术
近年来,深度神经网络技术在人工智能领域的语音,图像,文本识别方面取得了广泛成功,但存在几点不足:1)深度神经网络对训练数据的需求巨大,在中小规模数据上表现不佳。2)深度神经网络需要昂贵的并行计算芯片(诸如图形加速卡),以完成运算。3)深度神经网络技术的超参数极其复杂,使用者需要耗费巨大的时间进行参数调整,以获得满意的性能表现。基于以上不足,本发明提出了一种以随机森林为基础的级联森林学习机的训练方法,在辅以多尺度扫描的独特处理技术下,该学习机一方面可以达到同深度神经网络相媲美的性能表现,另一方面,该装置几乎不需要对超参数进行人工调整,在中小数据下同样具有优异的表现,并且不需要额外的图形加速卡进行辅助运算。
发明内容
发明目的:针对深度神经网络在大规模数据下识别任务的不足,本发明提供一种多尺度扫描级联森林学习机的训练方法。基于随机森林学习器,通过一种级联的机制进行级联训练,以达到特征学习的目的,与此同时,针对时序数据和具有空间关联的数据,本发明提出了一种多尺度扫描的方法,对高维时空数据进行扫描和预处理,使得该学习机可以感知输入数据的结构性,以达到精准识别的目的。
技术方案:一种多尺度扫描级联森林学习机的训练方法,通过以下流程运作:
(1)通过级联扫描的方式,对训练集进行预处理。
(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量。
(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练。
(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。
附图说明
图1是本发明级联训练的流程图;
图2是本发明的细粒度扫描的流程图;
图3是本发明的训练流程图;
图4是本发明的使用流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种多尺度扫描级联森林学习机的目的是对输入数据进行分类,在获得已标记数据(训练集)的前提下,进行自动学习,并具备识别新数据的能力。
为了对输入数据进行识别分类任务,需要先对已标注好的数据集合(按照惯例,这里称作训练集)进行自动学习,训练完毕后,该装置即具备了识别新数据的能力。本说明书将分别介绍该装置的训练过程和使用过程。
I.多尺度扫描级联森林学习机的训练学习过程
该装置的训练过程由如下两个子方面构成:
1.级联训练(如图1)。该装置提出了一种新的级联训练过程,具体流程如下。首先,对训练输入数据,分别拟合N个基于决策树的集成森林(图示为4个),这里N可以是任何正整数。训练完毕后,N个森林可以产生由d*N个元素的向量,其中d是训练集中的类别数目(图中d为3)。将这d*N个元素连同上一层输入一起,形成了(K+d*N)维的向量,这将是下一层级联训练的输入。为了防止过拟合,级连训练的层数L,将以k折交叉验证进行。
2.细粒度扫描训练。针对高维数据或时序/图像类数据,该装置提出了一种新的多尺度扫描的方式,具体过程如图2所示。给定一个输入数据,通过细粒度的扫描窗格对数据进行预处理,将会生成一组维度较低的,具有局部结构特征的数据,然后针对预处理后的数据,分别拟合数个以决策树为基础的集成器,并将预测类别向量的结果连接起来,作为级联学习的输入。(具体训练流程见图2)
基于此,多尺度扫描级联森林学习机的训练过程如图3所示。多尺度级联森林学习机结合了前述1,2两个步骤,将其统一为一个整体流程。具体如下:首先,对输入数据进行多尺度的细粒度扫描。不同的尺度wi将有尺度集合W预先定义,每个扫描尺度所对应的森林数目为N。其次,将多尺度扫描的结果作为级联训练的输入,按照步骤1的方式进行级联训练,每次级联的集成森林数目为M。级连训练的层数L,由其在独立验证集上的性能表现进行自动确定。
训练完毕后,所有集成森林的参数及级联层数,将会作为训练过程的输出,供该装置进行预测识别任务(具体训练流程如图3)
II.多尺度扫描级联森林学习机的使用过程
多尺度扫描级联森林学习机在经历了前述训练过程后,即可投入使用,换言之,该装置即可对输入数据进行自动识别分类。具体使用过程如下(如图4):
1.通过读取细粒度扫描窗口集合W,分别处理输入数据,并获得对应森林集成模型的分类向量,将其拼接为一个整体。
2.将前述步骤产生的结果,作为级联预测的输入,分别获得每级级联中M个森林的分类向量,并同步骤1中的结果进行拼接,作为下一级联的输入数据。该步骤重复L次,其中,L为级联层数。
将最后一层的级联森林输出进行平均,并选择最大预测作为输出。

Claims (1)

1.一种多尺度扫描级联森林学习机的训练方法,其特征在于,包括如下步骤:
(1)通过级联扫描的方式,对训练集进行预处理;
(2)将预处理后的数据,分别通过多组决策树集成下的随机森林进行训练,并获得每个样本的分类向量;
(3)将前述方式获得的所有分类向量结合成一个单独的输入,进行级联训练;
(4)将级联训练的最终结果进行集成平均,获得最终识别预测结果。
CN201710117221.0A 2017-03-01 2017-03-01 一种多尺度扫描级联森林学习机的训练方法 Pending CN106874959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710117221.0A CN106874959A (zh) 2017-03-01 2017-03-01 一种多尺度扫描级联森林学习机的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710117221.0A CN106874959A (zh) 2017-03-01 2017-03-01 一种多尺度扫描级联森林学习机的训练方法

Publications (1)

Publication Number Publication Date
CN106874959A true CN106874959A (zh) 2017-06-20

Family

ID=59169162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710117221.0A Pending CN106874959A (zh) 2017-03-01 2017-03-01 一种多尺度扫描级联森林学习机的训练方法

Country Status (1)

Country Link
CN (1) CN106874959A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107508603A (zh) * 2017-09-29 2017-12-22 南京大学 一种森林压缩编码器的实现方法
CN107944495A (zh) * 2017-12-04 2018-04-20 贵州电网有限责任公司电力科学研究院 一种基于深层森林算法的家庭用电负荷分类识别方法
CN107958255A (zh) * 2017-11-21 2018-04-24 中国科学院微电子研究所 一种基于图像的目标检测方法及装置
CN109857862A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN112884024A (zh) * 2021-02-01 2021-06-01 中南大学 一种基于群体决策集成学习的泡沫浮选工况识别方法
CN113033827A (zh) * 2021-03-03 2021-06-25 南京大学 一种用于深度森林的训练方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107508603A (zh) * 2017-09-29 2017-12-22 南京大学 一种森林压缩编码器的实现方法
CN107958255A (zh) * 2017-11-21 2018-04-24 中国科学院微电子研究所 一种基于图像的目标检测方法及装置
CN107944495A (zh) * 2017-12-04 2018-04-20 贵州电网有限责任公司电力科学研究院 一种基于深层森林算法的家庭用电负荷分类识别方法
CN109857862A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN109857862B (zh) * 2019-01-04 2024-04-19 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN112884024A (zh) * 2021-02-01 2021-06-01 中南大学 一种基于群体决策集成学习的泡沫浮选工况识别方法
CN112884024B (zh) * 2021-02-01 2022-05-13 中南大学 一种基于群体决策集成学习的泡沫浮选工况识别方法
CN113033827A (zh) * 2021-03-03 2021-06-25 南京大学 一种用于深度森林的训练方法和装置
CN113033827B (zh) * 2021-03-03 2024-03-15 南京大学 一种用于深度森林的训练方法和装置

Similar Documents

Publication Publication Date Title
CN106874959A (zh) 一种多尺度扫描级联森林学习机的训练方法
Aszemi et al. Hyperparameter optimization in convolutional neural network using genetic algorithms
CN106096535B (zh) 一种基于双线性联合cnn的人脸验证方法
CN110222773B (zh) 基于不对称分解卷积网络的高光谱图像小样本分类方法
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
CN109325516B (zh) 一种面向图像分类的集成学习方法及装置
CN106022363A (zh) 一种适用于自然场景下的中文文字识别方法
CN108847223A (zh) 一种基于深度残差神经网络的语音识别方法
CN105718889A (zh) 基于GB(2D)2PCANet深度卷积模型的人脸身份识别方法
CN110874563A (zh) 通过cnn的多个图像输出的提供集成的特征图的方法及装置
CN109920021B (zh) 一种基于正则化宽度学习网络的人脸素描合成方法
CN110992374B (zh) 一种基于深度学习的头发精细化分割方法及系统
CN110059625B (zh) 一种基于mixup的人脸训练与识别方法
CN105678381A (zh) 一种性别分类网络训练方法、性别分类方法及相关装置
CN104463194A (zh) 一种人车分类方法及装置
CN104820825A (zh) 基于Adaboost算法的人脸识别优化方法
CN108073978A (zh) 一种人工智能超深度学习模型的构成方法
CN116561614A (zh) 一种基于元学习的小样本数据处理系统
CN113628101B (zh) 基于gan网络结构的三阶段瓷砖图像生成方法
CN112561054B (zh) 一种基于批量特征热图的神经网络滤波器剪枝方法
CN112836755B (zh) 基于深度学习的样本图像生成方法及其系统
CN112767277B (zh) 一种基于参考图像的深度特征排序去模糊方法
CN105389573B (zh) 一种基于局部三值模式分层重构的人脸识别方法
CN116434224A (zh) 一种细粒度图像识别方法及系统
CN108073985A (zh) 一种导入人工智能超深度学习用于语音识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication