CN115294404A - 一种基于随机森林算法的底栖动物高光谱数据分类方法 - Google Patents

一种基于随机森林算法的底栖动物高光谱数据分类方法 Download PDF

Info

Publication number
CN115294404A
CN115294404A CN202211053615.1A CN202211053615A CN115294404A CN 115294404 A CN115294404 A CN 115294404A CN 202211053615 A CN202211053615 A CN 202211053615A CN 115294404 A CN115294404 A CN 115294404A
Authority
CN
China
Prior art keywords
model
random forest
hyperspectral data
data
benthonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211053615.1A
Other languages
English (en)
Inventor
杜增丰
董建江
栾振东
张鑫
田野
张建兴
杜梦迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Oceanology of CAS
Original Assignee
Institute of Oceanology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Oceanology of CAS filed Critical Institute of Oceanology of CAS
Priority to CN202211053615.1A priority Critical patent/CN115294404A/zh
Publication of CN115294404A publication Critical patent/CN115294404A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/70Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于随机森林算法的海洋牧场常见底栖动物高光谱数据分类方法。该方法首先选择多个不同种类的水下底栖动物样品,采集其高光谱图像,提取反射谱光谱数据并归一化。之后建立三种不同的随机森林模型,通过网格搜索参数寻优、提取RF变量重要性获得并改善分类结果。采用随机森林模型可以很好的将特征光谱中变量重要性高,对分类判别贡献大的光谱数据提取出来,分类效果更加优秀。本方法可实现对海洋牧场常见底栖动物的原位识别,同时评估RF、PCA‑RF、RFE‑RF特征选择算法在高光谱数据分析中的效用。该方法利用高光谱技术结合RF模型用于底栖动物的快速识别,其识别对象可以是海洋牧场常见底栖动物,也可推广至其他水下目标物。

Description

一种基于随机森林算法的底栖动物高光谱数据分类方法
技术领域
本发明属于光谱分类识别领域,具体说是一种基于随机森林算法的底栖动物高光谱数据分类方法。
背景技术
近年来近海生态系统受到全球变化和人类活动的多重影响,出现生境退化、资源衰退、生物多样性降低等问题。海洋牧场建设是实现生境恢复和资源增殖的重要手段,是渔业产业结构转型升级的重要抓手。目前,已经有不少海洋牧场企业利用水下摄像系统开始视频数据的收集和利用,实时信息量巨大,数据难以利用人工方法进行生物群落数据的提取,图像分析技术与机器学习等在海洋牧场生物资源监测研究中显得尤为重要。在水产养殖中应用人工智能、机器视觉技术及其他传感器技术,可以实时的监测生态环境等,并结合深度学习、随机森林等算法实现机器视觉的识别分类检测,对海洋生物进行分类识别统一分析,深入挖掘养殖过程数据,提高工作效率和决策可靠性。水下目标探测所使用的传统的红-绿-蓝(RGB)相机取得图像的技术越来越成熟。传统的图像处理方法和基于深度学习的目标检测算法,如基于区域的快速卷积神经网络(Faster R-CNN),You Only Look Once(YOLO),已广泛应用于水下目标检测。在理想的水下成像环境中,检测速度和检测结果均优于传统方法,各种算法的精度都能达到很高的水平。然而,传统的RGB图像检测技术存在一系列问题。当水下成像环境较差且海洋动物具有保护色彩机制时,很难从复杂的背景中有效地检测和识别实验目标。
高光谱成像技术可以提供比RGB图像更高的光谱分辨率,其波段覆盖范围可从紫外、可见光、近红外到中红外波段,提供丰富的光谱信息。高光谱数据一般由数百个相邻的窄光谱波段获取,可以解决传统RGB图像检测技术所遇到的问题,也使其具有较好的目标识别能力和相似目标识别能力。经典的高光谱目标检测算法包括由Reed和Xiaoli开发的异常检测器RXD算法、核RXD(KRXD)算法、正交子空间投影(OSP)算法和约束能量最小化(CEM)算法。目前,文献中关于高光谱水下目标检测与分类的研究较少。
随机森林(Random Forest,RF)算法已成功应用于一系列高维数据分类研究,其中包括高光谱数据分析。RF是一个bagging(即bootstrap聚合)集成过程,其中分类树是从训练数据中获得的随机样本中生长出来的。RF使用套袋和随机变量选择在集合中构建决策树。作为集成分类器,RF算法拥有几个优点:(1)该算法结合了特征之间的交互作用;(2)在计算上比装袋或增压更有效;(3)不容易出现过拟合现象;(4)提供了可变强度估计和内部误差估计。
发明内容
鉴于上述情况,本发明的目的是提供一种基于随机森林算法的海洋牧场常见底栖动物高光谱数据分类方法,解决了感官分析准确度不高,样品预处理复杂、费时、消耗大量溶剂等,分类技术应用范围受限,DNA技术操作繁琐,难以适应批量快速识别检测的问题。本发明利用水下高光谱数据和三种RF算法建立模型,在水下环境中对多种海洋牧场常见的底栖动物进行分类识别;评估RF、PCA-RF和RFE-RF三种算法在水下高光谱数据分类分析中的效用,选择可能产生最佳分类精度的波段子集。比较PCA-RF与RFE-RF算法的分类性能,测试了不同特征选择算法选择的波段组合提高了最终的分类精度。
本发明为实现上述目的所采用的技术方案是:
一种基于随机森林算法的底栖动物高光谱数据分类方法,包括以下步骤:
获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;
分别构建RF模型、PCA-RF模型以及RFE-RF模型,并使用预处理后的高光谱数据对3种模型进行训练;
使用3种训练好的模型分别对底栖动物高光谱数据进行分类。
构建RF模型,包括以下步骤:
1.1)将预处理后的高光谱数据分为训练集和测试集,采用有放回的随机抽样方式从训练集中抽取样本,作为决策树的训练数据,输入RF模型中,生成由多颗决策树组成的随机森林模型;
1.2)调整决策树的深度和数量,重复步骤1.1),取每一次调整后生成的随机森林中所有决策树OOB误差估计的平均值作为随机森林的泛化误差估计,通过调整随机森林模型的模型参数,当随机森林的泛化误差估计在固定范围区间内波动时,选取模型输出的准确度最高时对应的决策树深度和决策树数量,作为最佳决策树深度和最佳决策树数量,得到初始随机森林模型;
1.3)使用测试集检验初始随机森林模型的识别准确度。
对RF模型进行训练,包括以下步骤:
2.1)根据初始随机森林模型输出的变量重要性,将高光谱数据中的光谱特征由大到小排序,令i=l;
2.2)将排序中前i个光谱特征作为初始随机森林模型的训练集样本中的光谱数据,重复步骤1.1)-步骤1.3),重新训练RF模型,确定最佳决策树深度和最佳决策树数量,建立与前i个光谱特征相对应的RF模型,检验与前i个光谱特征相对应的RF模型的识别准确度,i=i+l;
2.3)判断i≤n,n为高光谱数据中的光谱特征总数,如果是,返回步骤2.2),否则,选取步骤2.2)中建立的所有光谱特征量对应的RF模型的平均识别正确率最高的RF模型作为最终的随机森林模型。
构建并训练PCA-RF模型模型,包括以下步骤:
3.1)计算高光谱数据中的相关系数矩阵、特征值以及特征向量,并对特征值排序,保留最大的前k个特征向量,将高光谱数据转换到k个特征向量构建的新空间中完成降维,得到降维后的高光谱数据,作为模型的输入数据;
3.2)执行步骤1.1)-步骤2.3),得到PCA-RF模型。
构建并训练RFE-RF模型模型,包括以下步骤:
4.1)通过RFE方法对高光谱数据的全波段进行筛选,得到最佳波段子集,对全波段进行降维,将最佳波段子集以及对应的光谱特征,作为模型的输入数据;
4.2)执行步骤1.1)-步骤2.3),得到RFE-RF模型。
一种基于随机森林算法的底栖动物高光谱数据分类系统,包括:
数据获取及预处理模块,用于获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;
模型构建及训练模块,用于分别构建RF模型、PCA-RF模型以及RFE-RF模型,并使用预处理后的高光谱数据对3种模型进行训练;
数据输出模块,用于使用3种训练好的模型分别对底栖动物高光谱数据进行分类。
一种基于随机森林算法的底栖动物高光谱数据分类系统,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现所述的一种基于随机森林算法的底栖动物高光谱数据分类方法。
一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的一种基于随机森林算法的底栖动物高光谱数据分类方法。
本发明具有以下有益效果及优点:
1.底栖动物样品准备流程简单,海洋牧场常见经济动物均可以,且无需样品预处理,高光谱反射谱信号强度较好。
2.可拓展性好,通过增加用于构建三种不同特征选择方法的随机森林模型的底栖动物样品种类,可实现对各类水下生物的快速鉴别。
3.相比其他分类方法,如主成分分析(PCA)、支持向量机(SVM)等,采用随机森林模型可以很好的将反射谱的特征光谱中变量重要性高,对分类判别贡献大的弱信号提取出来,可有效提高分类效果。
4.在已有模型的基础上只需几分钟就能够完成对待测水下底栖动物样品的快速识别与分类,且模型预测的识别正确率高,检测结果准确可靠。
附图说明
图1是实施例中五种水下底栖动物样品的归一化高光谱反射谱图像;
图2是实施例中按照变量重要性从高到低提取的360个光谱特征波长与变量重要性的关系图;
图3是实施例中5种底栖动物样品的OOB误差估计与决策树数量的关系图;
图4是实施例中底栖动物样品的混淆矩阵识别结果图;
图5是五种底栖动物的PCA散点图分布图;
图6是五种底栖动物的反射谱通过RFE方法筛选波段子集产生的随着特征数变化的分类精度变化趋势图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
一种基于随机森林算法的海洋牧场常见底栖动物高光谱数据分类方法,具体包括以下步骤:
(1)样品选择:选择不同种类的底栖动物目标样品作为实验对象;
(2)获取高光谱数据:优化实验参数,采集底栖动物样品的高光谱数据;
(3)建立RF、PCA-RF、RFE-RF模型:将步骤(2)中底栖动物样品的一部分高光谱数据作为训练集,建立随机森林模型,剩余部分作为预测集检验模型分类效果;
(4)采用步骤(1)和(2)方法准备好底栖动物样品并采集其高光谱数据,将待测样品的光谱数据输入步骤(3)建立的三种不同的随机森林模型中,进行鉴别,得到分类结果。
所述步骤(3)通过优化随机森林模型中决策树的深度、树木的数量、光谱特征变量的个数、主成分数目以及RFE筛选的波段子集,提高随机森林模型的准确度,所述步骤(3)具体包括以下步骤:
(301)任取全部高光谱数据的70%作为训练集并固定,采用有放回的随机抽样方式从训练集中抽取样本,将其作为决策树的训练数据输入python自带的sklearn模块的RF模型中,最终将生成的多颗决策树组成随机森林模型,每个样本的光谱数据包括n个光谱特征,每个光谱特征为光谱波长对应的光谱强度;
(302)调整决策树的深度和数量,重复步骤(301),取每一次调整后生成的随机森林中所有决策树00B误差估计的平均值,即可得到随机森林的泛化误差估计,泛化误差估计即得到的随机森林OOB误差估计会随着决策树的数量增加而逐渐降低,最后趋于一个范围区间内不断上下波动(如图3),通过它可以选择并输出曲线趋于稳定后的重要参数“n_estimators”,也就是决策树的数量,输入RF中运行得到更好的分类结果。结合网格搜索功能调整参数,确定决策树深度和决策树数量的最佳值,最佳值对应的随机森林模型为初始随机森林模型;
(303)将剩余的30%光谱数据作为测试集检验初始随机森林模型的准确度;
(304)按照初始随机森林模型输出的变量重要性,将光谱特征由大到小排序,令i=l;
(305)将排序中前i个光谱特征作为步骤(301)的训练集样本中的光谱数据,按照步骤(301)-(303)重新训练RF模型,确定最佳决策树深度和决策树数量,建立与前i个光谱特征数量相对应的RF模型,检验与前i个光谱特征数量相对应的RF模型的准确度,得到对不同种类的底栖动物样品的平均识别正确率,i=i+l;
(306)判断i≤n,若是则重复步骤(305),否则对比步骤(305)建立的所有光谱特征量对应的RF模型的平均识别正确率,正确率最高的RF模型为所求的随机森林模型。
(307)在基于主成分分析方法的随机森林(PCA-RF)中对模型贡献度高的主成分数进行训练,得到贡献度最佳的主成分数,输入RF模型,得到PCA-RF的准确度。
(308)在基于递归特征消除方法的随机森林(RFE-RF)中通过RFE对全波段进行筛选,训练得出最佳波段子集,对全波段降维,将最佳的波段子集以及特征数输入模型,得到RFE-RF的最佳分类准确度。RFE(递归特征消除)算法模型有能够评价最佳波段子集个数并输出的功能,可以通过运行得到随着波段子集数(也就是RFE-RF筛选的特征波段个数)数量增加的准确度曲线,得到最佳波段子集个数对应的最高准确度,以此来确定最佳波段子集个数,以及是哪些特征波段。
进一步地,步骤(1)能够采用以下方法准备底栖动物样品:将每一种选择的底栖动物样品放入人工的水下实验环境中,保证样品处于完全的水下环境,模拟其处于海中的场景,后使用高光谱成像实验装置进行数据获取。
实施例:
本实施例涉及一种基于随机森林算法的海洋牧场常见底栖动物高光谱数据分类方法,具体包括以下步骤:
1.样品准备
本实施例中采用的5种海洋牧场常见底栖动物(虾夷扇贝、栉孔扇贝、脉红螺、皱纹盘鲍、仿刺参)均通过科研任务出海捕获。
2.实验与数据处理
2.1优化实验参数,采集底栖动物样品的高光谱反射谱光谱数据。如图1所示,五种样品均具有清晰的光谱信号,仿刺参因为本身颜色的原因对于光的反射较弱,因而归一化光谱信号强度较低,但这并不影响RF对其识别分类。
优化的实验参数包括图像获取位置角度、功率、分辨率等。光源成像范围0.2-5m;扫描方式:电动平台推扫式(静态高分辨率扫描),兼容巡航式扫描(动态快速扫描);照明方式:自带照明光源;电气参数:高光谱仪主机:功率~20W;2个卤素灯:80-260VAC,功率~150W/个;性能指标:光谱范围:400-1000nm;光谱多通道:1440、720、360、176;像素数:1920×1456(空间维×光谱维);光谱分辨率:2.8nm;扫描范围:横向开角约30°;数据融合功能:带内置姿态传感器,预留了GPS,USBL数据接口;尺寸重量:2000米级(含安装架):800×400×280mm;~10/5kg(空气/水)。每种底栖动物样品提取250条光谱。
2.2建立RF模型
(1)任取底栖动物样品全部光谱数据的70%作为训练集并固定,采用有放回的随机抽样方式从训练集中抽取样本,将其作为决策树的训练数据输入python自带的sklearn模块的RF模型中,最终将生成的多颗决策树组成随机森林模型,每个样本的光谱数据包括n个光谱特征,每个光谱特征为光谱波长对应的光谱强度,本实施例检测的每个样本反射谱光谱数据的光谱特征数是360,即n=360。
(2)调整决策树的深度和数量,重复步骤(1),取每一次调整后生成的随机森林中
所有决策树00B误差估计的平均值,即可得到随机森林的泛化误差估计,结合网格搜索调整参数确定最佳值:决策树数量400和决策树深度8,最佳值对应的随机森林模型为初始随机森林模型。
(3)将30%的反射谱光谱数据作为测试集检验随机森林模型的分类精度,得到5种水下底栖动物样品的识别准确度,RF分类结果为90.13%,在n_estimators为400情况下OOB误差为0.0046,kappa系数为0.8767,模型稳定度优异。
2.3优化RF模型
(1)对反射谱光谱特征变量进行筛选,按照随机森林模型输出的变量重要性,将反射谱光谱特征按照对模型分类贡献程度由大到小排序(图2)。从图2可以得出,360个波段中哪些重要特征对应的波长具有较高的变量重要性,同时通过RF程序输出这部分波段,可以提高模型的准确度。
(2)令i=l。
(3)将变量重要性排序中前i个反射谱光谱特征作为2.2步骤(1)的训练集样本中的数据,按照2.2步骤⑴-⑶重新训练RF模型,确定最佳决策树深度和决策树数量,建立与前i个光谱特征数量相对应的RF模型,检验与前i个光谱特征数量相对应的RF模型的准确度,得到对5种底栖动物样品的平均识别正确率,i=i+l。
(4)判断i≥n,若否重复2.3步骤(3),否则对比2.3步骤⑶建立的所有反射谱光谱特征量对应的RF模型的平均识别正确率。随着提取的光谱特征变量个数的增加,样品的识别正确率也随之增大,且在提取到一定特征数后准确度不会再继续提升,便可以选择刚达到最高准确度的特征数、树木数量、深度作为参数输入RF模型,提高RF模型的分类精度,达到了利用高光谱成像技术结合RF模型对海洋牧场常见底栖动物进行分类识别的目的。
图1为五种底栖动物样品的归一化反射谱光谱图像,通过图3的OOB误差估计图可以推出最佳的n_estimators即决策树的数量,通过优化RF参数后可以得到RF的分类准确度,同时得到图4的底栖动物样品分类识别混淆矩阵,可以直观地看到每一种样品的识别精度。
2.4基于主成分分析方法的随机森林(PCA-RF)
首先读入五种底栖动物样品的全部反射谱光谱数据,计算相关系数矩阵及特征值与特征向量,然后对特征值排序,保留最大的k个特征向量(前k个特征向量的累计贡献率达到99%以上),将光谱数据转换到k个特征向量构建的新空间中完成降维。图5为五种底栖动物样品的PCA散点分布图,通过PCA对反射谱光谱进行降维与分类,提取得到最佳主成分数,从而将最佳贡献度对应的最佳主成分数输入PCA-RF模型种,可以得到基于主成分分析方法的随机森林(PCA-RF)的分类精度。PCA-RF分类精度95.20%,Explained variance(解释度)0.9992,kappa系数0.8433,模型稳定度优异。
2.5基于递归特征消除方法的随机森林(RFE-RF)
图6为递归特征消除RFE筛选的随着反射谱光谱特征数变化的分类准确度变化图像。采用RF算法和所有波段进行底栖动物的分类,优化的n_estimators和max_depth值也用于RFE。使用RFE算法对五种样品进行分类得到了最佳的总体分类结果。RFE总共选择了83个波段。总体而言,RFE显著降低了数据维度。与使用RF和所有波段相比,RFE-RF提供了更好的分类结果(分类精度为98.74%,kappa系数0.8766)。
表1为三种随机森林算法的最终分类结果。
Figure BDA0003824196810000101
将数据的分类结果输出混淆矩阵(图4),可以看到五种样品的识别情况。第三种(脉红螺)样品识别精度最低,为64%;第一种(仿刺参)与第四种(栉孔扇贝)的识别精度最高,为100%;第二种(虾夷扇贝)与第五种(仿刺参)的识别精度分别为91%与96%,总体分类精度较高。因为仿刺参与栉孔扇贝的反射谱特征与其他四种样品有明显差异,所以两种样品更容易被识别,分类精度最高。实验所提取的脉红螺反射谱光谱曲线趋势与光谱特征与其他样品在某些波段部分相似,测试集中的75个脉红螺样品有20个被错误识别,因此识别精度最低。通过识别结果可知,脉红螺有36%的几率被识别为皱纹盘鲍。

Claims (8)

1.一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,包括以下步骤:
获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;
分别构建RF模型、PCA-RF模型以及RFE-RF模型,并使用预处理后的高光谱数据对3种模型进行训练;
使用3种训练好的模型分别对底栖动物高光谱数据进行分类。
2.根据权利要求1所述的一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,构建RF模型,包括以下步骤:
1.1)将预处理后的高光谱数据分为训练集和测试集,采用有放回的随机抽样方式从训练集中抽取样本,作为决策树的训练数据,输入RF模型中,生成由多颗决策树组成的随机森林模型;
1.2)调整决策树的深度和数量,重复步骤1.1),取每一次调整后生成的随机森林中所有决策树OOB误差估计的平均值作为随机森林的泛化误差估计,通过调整随机森林模型的模型参数,当随机森林的泛化误差估计在固定范围区间内波动时,选取模型输出的准确度最高时对应的决策树深度和决策树数量,作为最佳决策树深度和最佳决策树数量,得到初始随机森林模型;
1.3)使用测试集检验初始随机森林模型的识别准确度。
3.根据权利要求1所述的一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,对RF模型进行训练,包括以下步骤:
2.1)根据初始随机森林模型输出的变量重要性,将高光谱数据中的光谱特征由大到小排序,令i=l;
2.2)将排序中前i个光谱特征作为初始随机森林模型的训练集样本中的光谱数据,重复步骤1.1)-步骤1.3),重新训练RF模型,确定最佳决策树深度和最佳决策树数量,建立与前i个光谱特征相对应的RF模型,检验与前i个光谱特征相对应的RF模型的识别准确度,i=i+l;
2.3)判断i≤n,n为高光谱数据中的光谱特征总数,如果是,返回步骤2.2),否则,选取步骤2.2)中建立的所有光谱特征量对应的RF模型的平均识别正确率最高的RF模型作为最终的随机森林模型。
4.根据权利要求1所述的一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,构建并训练PCA-RF模型模型,包括以下步骤:
3.1)计算高光谱数据中的相关系数矩阵、特征值以及特征向量,并对特征值排序,保留最大的前k个特征向量,将高光谱数据转换到k个特征向量构建的新空间中完成降维,得到降维后的高光谱数据,作为模型的输入数据;
3.2)执行步骤1.1)-步骤2.3),得到PCA-RF模型。
5.根据权利要求1所述的一种基于随机森林算法的底栖动物高光谱数据分类方法,其特征在于,构建并训练RFE-RF模型模型,包括以下步骤:
4.1)通过RFE方法对高光谱数据的全波段进行筛选,得到最佳波段子集,对全波段进行降维,将最佳波段子集以及对应的光谱特征,作为模型的输入数据;
4.2)执行步骤1.1)-步骤2.3),得到RFE-RF模型。
6.一种基于随机森林算法的底栖动物高光谱数据分类系统,其特征在于,包括:
数据获取及预处理模块,用于获取不同种类的海洋牧场常见底栖动物目标样品,采集其高光谱数据并进行预处理;
模型构建及训练模块,用于分别构建RF模型、PCA-RF模型以及RFE-RF模型,并使用预处理后的高光谱数据对3种模型进行训练;
数据输出模块,用于使用3种训练好的模型分别对底栖动物高光谱数据进行分类。
7.一种基于随机森林算法的底栖动物高光谱数据分类系统,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-5任一项所述的一种基于随机森林算法的底栖动物高光谱数据分类方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-5任一项所述的一种基于随机森林算法的底栖动物高光谱数据分类方法。
CN202211053615.1A 2022-08-30 2022-08-30 一种基于随机森林算法的底栖动物高光谱数据分类方法 Pending CN115294404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211053615.1A CN115294404A (zh) 2022-08-30 2022-08-30 一种基于随机森林算法的底栖动物高光谱数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211053615.1A CN115294404A (zh) 2022-08-30 2022-08-30 一种基于随机森林算法的底栖动物高光谱数据分类方法

Publications (1)

Publication Number Publication Date
CN115294404A true CN115294404A (zh) 2022-11-04

Family

ID=83831240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211053615.1A Pending CN115294404A (zh) 2022-08-30 2022-08-30 一种基于随机森林算法的底栖动物高光谱数据分类方法

Country Status (1)

Country Link
CN (1) CN115294404A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659268A (zh) * 2022-12-28 2023-01-31 杭州开闳流体科技有限公司 基于adcp测流数据的场景识别方法及其应用
CN117593767A (zh) * 2024-01-19 2024-02-23 南昌工程学院 一种河流底栖动物统计方法及系统
CN117589951A (zh) * 2023-12-08 2024-02-23 山东工商学院 一种生鲜食品新鲜度检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659268A (zh) * 2022-12-28 2023-01-31 杭州开闳流体科技有限公司 基于adcp测流数据的场景识别方法及其应用
CN117589951A (zh) * 2023-12-08 2024-02-23 山东工商学院 一种生鲜食品新鲜度检测方法
CN117593767A (zh) * 2024-01-19 2024-02-23 南昌工程学院 一种河流底栖动物统计方法及系统

Similar Documents

Publication Publication Date Title
Al-Hiary et al. Fast and accurate detection and classification of plant diseases
Deep et al. Underwater fish species recognition using deep learning techniques
Gao et al. Recognising weeds in a maize crop using a random forest machine-learning algorithm and near-infrared snapshot mosaic hyperspectral imagery
Safren et al. Detection of green apples in hyperspectral images of apple-tree foliage using machine vision
Farmonov et al. Crop type classification by DESIS hyperspectral imagery and machine learning algorithms
CN115294404A (zh) 一种基于随机森林算法的底栖动物高光谱数据分类方法
Mardanisamani et al. Crop lodging prediction from UAV-acquired images of wheat and canola using a DCNN augmented with handcrafted texture features
Kim et al. Classification of grapefruit peel diseases using color texture feature analysis
CN107103306B (zh) 基于小波分析与支持向量机的冬小麦白粉病遥感监测方法
Hong et al. Comparative study on vision based rice seed varieties identification
NL2025810B1 (en) Method for classifying and evaluating nitrogen content level of brassica rapa subsp. oleifera (brsro) canopy
Hao et al. Growing period classification of Gynura bicolor DC using GL-CNN
CN111950564A (zh) 一种基于ssa-elm算法的猪肉新鲜度检测分类方法
CN116523352B (zh) 一种森林资源信息的管理方法及系统
He et al. Model updating of hyperspectral imaging data for variety discrimination of maize seeds harvested in different years by clustering algorithm
CN110807387A (zh) 一种基于高光谱图像特征的对象分类方法及系统
Saifullah et al. Palm oil maturity classification using K-nearest neighbors based on RGB and L* a* b color extraction
Jordan et al. Hyperspectral image visualization with a 3-D self-organizing map
Tushar et al. Peanut maturity classification by features extracted from selected hyperspectral components
CN112966781A (zh) 基于三元组损失和卷积神经网络的高光谱图像分类方法
Valarmathi et al. Fruit Disease Prediction with Fertilizer Recommendation for Citrus Family using Deep Learning
Robila et al. New approaches for feature extraction in hyperspectral imagery
CN117274236B (zh) 基于高光谱图像的尿液成分异常检测方法及系统
Pal et al. Automatic rice crop extraction using edge based color features and color indices
Carneiro et al. Deep Learning for Automatic Grapevine Varieties Identification: A Brief Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination