CN117690507A - 基于扩增高光谱数据集改善土壤氧化铁预测精度的方法 - Google Patents

基于扩增高光谱数据集改善土壤氧化铁预测精度的方法 Download PDF

Info

Publication number
CN117690507A
CN117690507A CN202311533015.XA CN202311533015A CN117690507A CN 117690507 A CN117690507 A CN 117690507A CN 202311533015 A CN202311533015 A CN 202311533015A CN 117690507 A CN117690507 A CN 117690507A
Authority
CN
China
Prior art keywords
soil
hyperspectral
spectrum
amplified
ferric oxide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311533015.XA
Other languages
English (en)
Inventor
刘娅
卢慧中
惠放
杨乐婵
陈丹艳
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN202311533015.XA priority Critical patent/CN117690507A/zh
Publication of CN117690507A publication Critical patent/CN117690507A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,步骤如下:扩增高光谱数据集,采用分数阶微分算法将原始高光谱进行多分数阶微分变化;然后将分数阶微分光谱与原始光谱组合,形成不同的扩增高光谱数据库,以扩增原始光谱数据量;对最终形成的不同扩增高光谱数据库分别建立以为神经网络1D‑CNN模型,此时自变量为高光谱反射率值,因变量为土壤氧化铁含量;根据不同的扩增数据库所建立的模型,选择最优1D‑CNN模型。本发明有效解决了小样本条件下深度学习模型精度不高的问题,在一定程度上提高了深度学习模型的适用性和有效性,有效改善了基于高光谱数据的土壤氧化铁现有预测精度,为其他土壤属性的高光谱预测研究提供了新的方法和思路。

Description

基于扩增高光谱数据集改善土壤氧化铁预测精度的方法
技术领域
本发明涉及土壤属性预测技术,特别是一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法。
背景技术
土壤氧化铁是衡量土壤肥力和水土保持能力的重要指标之一,同时氧化铁也可反映土壤的淋溶过程、风化发育程度以及土壤的地带性分布特征,因此,土壤氧化铁也是描述土壤发育和土壤分类的最有用指标之一。综上所述,土壤氧化铁含量的快速、精准获取对农业生产和土壤发生分类研究有重要意义。
传统获取土壤氧化铁含量的方法一般为土壤采样和实验室测量相结合的方式,密集的土壤样品采集和实验室测量不仅耗费大量人力物力财力,也拉长了数据获取的周期。近年来,可见-近红外光谱技术被广泛应用土壤属性的快速获取领域,也被证明可用于土壤氧化铁含量的快速精准获取。与此同时,随着人工智能技术的进一步发展,深度学习不需要手工设计的特征提取过程,如预处理过程。各种深度学习卷积神经网络(CNN)模型(即AlexNet,VGGnet,GoogLeNet和ResNet)已经开发和训练了大量数据,其中包括超过1000万的图像数据。近期有研究人员将1DCNN网络用于土壤属性的快速获取中,尽管CNN经常处理图像作为输入数据,但它最近已成功地应用于振动和反射光谱,但是光谱数据的规模往往没有图片数据那么大,因土壤光谱的收集易受土壤样品数量的限制。另有研究表明训练集的规模会影响衍生出来的模型预测土壤属性的能力,在少的样本上使用CNN的优势是不确定的,当光谱数据集的规模<1000条时,CNN的建模效果不及偏最小二乘(PLSR)和Cubist模型。最近一篇关于光谱学的综述表明,有几项研究也曾使用小规模的训练样本进行了深度学习的训练,增加训练样本量能进一步提高模型性能。
对于图片类的数据,往往采用水平翻转,垂直翻转,放大,缩小,改变对比度和亮度等等措施进行数据扩增,而对于高光谱数据目前尚未有人提出相应的扩增数据方法。
发明内容
发明目的:本发明的目的是提供一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,从而改善土壤氧化铁的现有预测精度,从根本上解决小规模数据集应用CNN模型效果不佳的问题,提高CNN模型的可用性和普适性。
技术方案:本发明所述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,包括以下步骤:
(1)扩增高光谱数据集,采用分数阶微分算法将原始高光谱进行多分数阶微分变化;然后将分数阶微分光谱与原始光谱组合,形成不同的扩增高光谱数据库,以扩增原始光谱数据量。
步骤(1)所述的采用分数阶微分算法将原始高光谱进行多分数阶微分变化的公式为:
式中,f(x)为对应波段的光谱反射率;v为微分阶数;Γ(·)为伽玛函数;m为微分的上下限之差,即波段范围;
按照以上公式,v分别取0、0.1、0.2、0.3、……、2,v按照上述规律逐个取值分别对应原始光谱、0.1阶微分光谱、0.2阶微分光谱、0.3阶微分光谱、……、2阶微分光谱,构建扩增光谱数据库,如0、0+0.1阶微分光谱、0+0.1+0.2阶微分光谱、……、0+0.1+0.2+……+2阶微分光谱,其中0阶微分代表原始光谱数据。
(2)对最终形成的不同扩增高光谱数据库分别建立以为神经网络1D-CNN模型,此时自变量为高光谱反射率值,因变量为土壤氧化铁含量。
(2.1)对形成的扩增微分光谱库进行1D-CNN建模,输入数据为光谱数据,输出数据为土壤氧化铁含量;
(2.2)随机将数据集划分为训练集和测试集两部分,然后从训练集中随机抽出一部分作为验证集,用于参数调优;
(2.3)为避免过拟合,当验证集的损失函数loss不再明显下降,就停止训练,并保存最优模型;
(2.4)计算训练集中氧化铁含量实测值和模型预测值的决定系数R2、均方根误差RMSE和相对分析误差RPD,以评价模型的好坏。
(3)根据不同的扩增数据库所建立的模型,选择最优1D-CNN模型。
分别针对不同的扩增数据集,建立1DCNN模型,并计算评价指标,选择R2和RPD高且RMSE最低的模型为最佳模型,用于预测土壤氧化铁含量。
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法。
有益效果:与现有技术相比,本发明具有如下优点:本发明有效解决了小样本条件下深度学习模型精度不高的问题,在一定程度上提高了深度学习模型的适用性和有效性,有效改善了基于高光谱数据的土壤氧化铁现有预测精度,为其他土壤属性的高光谱预测研究提供了新的方法和思路。
附图说明
图1为高光谱数据扩增流程示意图;
图2为不同扩增数据库计算结果比较;
图3为最优模型下测试集土壤氧化铁实测值和预测值散点图;
图4为本发明所述方法的步骤流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图4所示,一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,包括以下步骤:
(1)扩增高光谱数据集,采用分数阶微分算法将原始高光谱进行多分数阶微分变化;然后将分数阶微分光谱与原始光谱组合,形成不同的扩增高光谱数据库,以扩增原始光谱数据量。
步骤(1)所述的采用分数阶微分算法将原始高光谱进行多分数阶微分变化的公式为:
式中,f(x)为对应波段的光谱反射率;v为微分阶数;Γ(·)为伽玛函数;m为微分的上下限之差,即波段范围;
按照以上公式,v分别取0、0.1、0.2、0.3、……、2,v按照上述规律逐个取值分别对应原始光谱、0.1阶微分光谱、0.2阶微分光谱、0.3阶微分光谱、……、2阶微分光谱,构建扩增光谱数据库,如0、0+0.1阶微分光谱、0+0.1+0.2阶微分光谱、……、0+0.1+0.2+……+2阶微分光谱,其中0阶微分代表原始光谱数据。
(2)对最终形成的不同扩增高光谱数据库分别建立以为神经网络1D-CNN模型,此时自变量为高光谱反射率值,因变量为土壤氧化铁含量。
(2.1)对形成的扩增微分光谱库进行1D-CNN建模,输入数据为光谱数据,输出数据为土壤氧化铁含量;
(2.2)随机将70%的数据划分为训练集,30%的数据划分为测试集,然后将训练集中30%的数据再一次随机划分为验证集,用于参数调优;
(2.3)为避免过拟合,当验证集的损失函数loss在10次循环中不下降,就停止训练,并保存最优模型;
(2.4)计算训练集中氧化铁含量实测值和模型预测值的决定系数R2、均方根误差RMSE和相对分析误差RPD,以评价模型的好坏。
(3)根据不同的扩增数据库所建立的模型,选择最优1D-CNN模型。
分别针对不同的扩增数据集,建立1DCNN模型,并计算评价指标,选择R2和RPD高且RMSE最低的模型为最佳模型,用于预测土壤氧化铁含量。
以823组光谱数据和土壤氧化铁数据为例对本发明作进一步详细描述,光谱范围为400~2400nm,但不作为对本发明的限定。
(1)将823组数据读入Python,数据大小为823×2002,即823行×2002列,代表823个样品和2001个波段,1个氧化铁含量,并将其存储为二维矩阵,记为矩阵X0。
(2)按照以下公式逐行分别计算每个样本的分数阶微分光谱,微分阶数从0到2,微分步长为0.1,其公式为
其中式中,f(x)为对应波段的光谱反射率;v为微分阶数;Γ(·)为伽玛(gamma)函数;m为微分的上下限之差,即波段范围。
微分后的分数阶微分光谱矩阵记为X0.1,X0.2,X0.3,……,X2。
(3)将微分光谱矩阵按照依次逐渐增加的方式组合成为扩增光谱矩阵,如X0.1+X0.2,组合方式为矩阵垂直拼接。
(4)针对每一个扩充光谱矩阵,建立1D-CNN模型,输入数据为光谱数据,输出数据为土壤氧化铁含量。随机将70%的数据划分为训练集,30%的数据划分为测试集,然后将训练集中30%的数据再一次随机划分为验证集,用于参数调优。为避免过拟合,当验证集的损失函数loss在10次循环中不下降,就停止训练,并保存最优模型。并计算测试集中氧化铁含量实测值和模型预测值的决定系数R2、均方根误差RMSE和相对分析误差RPD,如图2所示,以评价模型的优劣。
(5)选择决定系数R2和相对分析误差RPD最高、均方根误差RMSE最低的模型为最优模型,进行土壤氧化铁的预测,此数据集对应的为0-1.2阶微分光谱组成的扩增高光谱数据集,测试集R2=0.96,RMSE=4.29g kg-1和RPD=5.01,氧化铁含量实测值和预测值的散点图如图3所示,相较于原始光谱R2=0.55,RMSE=14.58g kg-1和RPD=1.47,土壤氧化铁的预测精度有了很大的改善。

Claims (6)

1.一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,其特征在于,包括以下步骤:
(1)扩增高光谱数据集,采用分数阶微分算法将原始高光谱进行多分数阶微分变化;然后将分数阶微分光谱与原始光谱组合,形成不同的扩增高光谱数据库,以扩增原始光谱数据量;
(2)对最终形成的不同扩增高光谱数据库分别建立以为神经网络1D-CNN模型,此时自变量为高光谱反射率值,因变量为土壤氧化铁含量;
(3)根据不同的扩增数据库所建立的模型,选择最优1D-CNN模型。
2.根据权利要求1所述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,其特征在于,步骤(1)所述的采用分数阶微分算法将原始高光谱进行多分数阶微分变化的公式为:
式中,f(x)为对应波段的光谱反射率;v为微分阶数;Γ(·)为伽玛函数;m为微分的上下限之差,即波段范围;
按照以上公式,v分别取0、0.1、0.2、0.3、……、2,v按照上述规律逐个取值分别对应原始光谱、0.1阶微分光谱、0.2阶微分光谱、0.3阶微分光谱、……、2阶微分光谱,构建扩增光谱数据库,其中0阶微分代表原始光谱数据。
3.根据权利要求1所述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,其特征在于,所述步骤(2)具体为:
(2.1)对形成的扩增微分光谱库进行1D-CNN建模,输入数据为光谱数据,输出数据为土壤氧化铁含量;
(2.2)随机将数据集划分为训练集和测试集两部分,然后从训练集中随机抽出一部分作为验证集,用于参数调优;
(2.3)为避免过拟合,当验证集的损失函数loss不再明显下降,就停止训练,并保存最优模型;
(2.4)计算训练集中氧化铁含量实测值和模型预测值的决定系数R2、均方根误差RMSE和相对分析误差RPD,以评价模型的好坏。
4.根据权利要求1所述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法,其特征在于,所述步骤(3)具体为:
分别针对不同的扩增数据集,建立1DCNN模型,并计算评价指标,选择R2和RPD高且RMSE最低的模型为最佳模型,用于预测土壤氧化铁含量。
5.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法。
6.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的一种基于扩增高光谱数据集改善土壤氧化铁预测精度的方法。
CN202311533015.XA 2023-11-17 2023-11-17 基于扩增高光谱数据集改善土壤氧化铁预测精度的方法 Pending CN117690507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311533015.XA CN117690507A (zh) 2023-11-17 2023-11-17 基于扩增高光谱数据集改善土壤氧化铁预测精度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311533015.XA CN117690507A (zh) 2023-11-17 2023-11-17 基于扩增高光谱数据集改善土壤氧化铁预测精度的方法

Publications (1)

Publication Number Publication Date
CN117690507A true CN117690507A (zh) 2024-03-12

Family

ID=90136141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311533015.XA Pending CN117690507A (zh) 2023-11-17 2023-11-17 基于扩增高光谱数据集改善土壤氧化铁预测精度的方法

Country Status (1)

Country Link
CN (1) CN117690507A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004147A (zh) * 2021-10-27 2022-02-01 金陵科技学院 一种土壤湿润状态下同时预测多种土壤属性的方法
CN115392305A (zh) * 2022-08-23 2022-11-25 桂林理工大学 基于改进时间卷积网络的土壤有机质含量高光谱建模方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114004147A (zh) * 2021-10-27 2022-02-01 金陵科技学院 一种土壤湿润状态下同时预测多种土壤属性的方法
CN115392305A (zh) * 2022-08-23 2022-11-25 桂林理工大学 基于改进时间卷积网络的土壤有机质含量高光谱建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘敬 等: ""基于分数阶微分的高光谱图像特征提取与分类"", 《光学精密工程》, 10 November 2023 (2023-11-10) *

Similar Documents

Publication Publication Date Title
Xie et al. A deep-learning-based real-time detector for grape leaf diseases using improved convolutional neural networks
CN112613536B (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN110309867B (zh) 一种基于卷积神经网络的混合气体识别方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN104866871B (zh) 基于投影结构稀疏编码的高光谱图像分类方法
CN112434662B (zh) 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法
CN112633401B (zh) 一种高光谱遥感图像分类方法、装置、设备及存储介质
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN111126511A (zh) 一种基于植被指数融合的lai定量模型建立的方法
CN115470962A (zh) 一种基于LightGBM的企业失信风险预测模型构建方法
CN112464172A (zh) 生长参数主被动遥感反演方法及装置
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN117315381A (zh) 一种基于二阶有偏随机游走的高光谱图像分类方法
CN114216877A (zh) 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
CN110688934B (zh) 一种空间采样主动学习分类方法、电子设备及存储介质
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
CN117690507A (zh) 基于扩增高光谱数据集改善土壤氧化铁预测精度的方法
CN116863341A (zh) 基于时间序列卫星遥感影像的作物分类和识别方法和系统
Lin et al. Hyperspectral estimation of soil composition contents based on kernel principal component analysis and machine learning model
CN116229288A (zh) 基于无人机多光谱影像的城市河道tsm浓度反演方法
CN116738822A (zh) 一种基于LightGBM的排水管道最大腐蚀深度预测方法
Song A More Efficient Approach for Remote Sensing Image Classification.
CN115293641A (zh) 一种基于金融大数据的企业风险智能识别方法
CN114004147B (zh) 一种土壤湿润状态下同时预测多种土壤属性的方法
CN112881333B (zh) 一种基于改进免疫遗传算法的近红外光谱波长筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination