CN110887798B - 基于极端随机树的非线性全光谱水体浊度定量分析方法 - Google Patents

基于极端随机树的非线性全光谱水体浊度定量分析方法 Download PDF

Info

Publication number
CN110887798B
CN110887798B CN201911182783.9A CN201911182783A CN110887798B CN 110887798 B CN110887798 B CN 110887798B CN 201911182783 A CN201911182783 A CN 201911182783A CN 110887798 B CN110887798 B CN 110887798B
Authority
CN
China
Prior art keywords
spectrum
turbidity
random tree
absorbance
extreme random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911182783.9A
Other languages
English (en)
Other versions
CN110887798A (zh
Inventor
刘嘉诚
于涛
张周锋
刘宏
王雪霁
刘骁
鱼卫星
胡炳樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN201911182783.9A priority Critical patent/CN110887798B/zh
Publication of CN110887798A publication Critical patent/CN110887798A/zh
Application granted granted Critical
Publication of CN110887798B publication Critical patent/CN110887798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry

Abstract

本发明涉及水体浊度检测技术,具体涉及一种基于极端随机树的非线性全光谱水体浊度定量分析方法,解决现有单波长、多波长的光谱浊度测量方法不具有普适性,全波长光谱浊度测量分析方法无法捕捉非线性的特征、存在计算量大、容易过拟合所导致的浊度预测不准确的问题,该方法主要包括第一步、光谱数据的采集;第二步、标准水参比;第三步、吸光度转换;第四步、将步骤三得到吸光度光谱进行KPCA特征提取;第五步、数据正态化;第六步、训练基于极端随机树的浊度预测模型,第七步、用测试数据测试存储的基于极端随机树的浊度预测模型。

Description

基于极端随机树的非线性全光谱水体浊度定量分析方法
技术领域
本发明涉及水体浊度检测技术,具体涉及一种基于极端随机树的非线性全光谱水体浊度定量分析方法。
背景技术
水是自然环境和社会环境中极为重要且活跃的因素,对水质信息的科学监测是实现水资源优化配置与高效利用的基础。水体浊度是水环境和水质状况的重要监测指标,浊度是一种光学效应,它反映了光线在透过水层时收到的阻碍,水体浊度是指均匀分布于水中的可溶性微小颗粒物或可溶性有机与无机化合物等对水体中入射光线的散射、吸收导致光线的衰减程度,浊度的测量方法就是基于光的衰减程度。
传统的浊度测量方法主要有分光光度法和光电式法,此两种方法普遍存在需要使用化学试剂、操作繁琐、需要使用试剂、造成二次污染等缺点,同时无法完成浊度的自动、快速、原位测量。光谱法水质检测技术由于无需化学试剂、无二次污染、快速准确、成本低,可实现实时在线原位测量,现已广泛应用于在线水质检测领域。光谱法水质检测技术是利用水中特定物质吸收特定波长的光,产生分子吸收光谱,从而根据光谱数据定性定量地分析水质参数。
传统的光谱法浊度检测技术主要包括单波长、多波长和全波长分析方法。单波长法测量水体在680nm处的吸光度,通过线性回归的方法来测量水体浊度。多波长法在单波长的基础上,增加了矫正波长,来矫正水体测试时环境因素的干扰,采用486nm、551nm、671nm等多处波长的吸光度,通过加权分析的方法,建立浊度预测模型进行浊度检测。但是,上述单波长、多波长的方法本质上都依赖于水体对特定波长的特征吸收,同一波长组合建模可能适应于特定应用场景,不具有普适性。
全波长分析方法主要包括线性方法和非线性方法两种。线性方法的代表是偏最小二乘法,偏最小二乘法通过不断提取主成分来简化数据,建立回归模型,该方法能很好的寻找线性特征进行回归,但却无法捕捉非线性的特征,导致浊度预测不准确。非线性方法的一个代表是支持向量机法,将低维数据映射到高维空间进行回归,再把高维空间的超平面映射回低维空间,建立回归模型,该方法可以捕捉高维空间的非线性特征,但存在计算量大,容易过拟合等缺点,导致浊度预测速度慢、准确性低。
发明内容
本发明的目的是解决现有单波长、多波长的光谱浊度测量方法不具有普适性,全波长光谱浊度测量分析方法无法捕捉非线性的特征、存在计算量大、容易过拟合所导致的浊度预测不准确的问题,提供一种基于极端随机树的非线性全光谱水体浊度定量分析方法。该方法通过测量水体紫外-可见-近红外透射光谱,建立非线性全光谱水体浊度定量分析模型,完成水体浊度的测量。
为实现上述目的,本发明通过以下技术方案来实现:
一种基于极端随机树的非线性全光谱水体浊度定量分析方法,包括以下步骤:
第一步、光谱数据的采集;
采用紫外-可见-近红外光谱仪测量被测水体和标准去离子水,得到被测水体的紫外-可见-近红外光谱曲线和标准去离子水的光谱曲线;
第二步、标准去离子水参比;
通过公式(1)完成标准去离子水参比,得到两光谱的比值I:
Figure GDA0002636474320000021
式中,I1为被测水体的透射光谱,I0为标准去离子水的透射光谱;
第三步、吸光度转换;
通过公式(2)完成吸光度转换,得到吸光度光谱;
x=-log(I) (2)
式中,x为吸光度光谱;
第四步、将步骤三得到吸光度光谱进行KPCA特征提取;
4.1)定义多层感知器核函数;
K=tanh(αxTxi+c) (3)
其中,tanh是双曲正切函数,xi为第i个输入样本的吸光度光谱,斜率α和常数c为两个参数;
4.2)计算中心化后的核矩阵
Figure GDA0002636474320000031
Figure GDA0002636474320000032
其中,M为样本数,IM∈RM×M为单位矩阵,(IM)ij=1;
4.3)计算核矩阵
Figure GDA0002636474320000036
的特征值λ和特征向量α;
Figure GDA0002636474320000033
其中,eig为矩阵计算特征值与特征向量的函数;
4.4)将特征值λ与特征向量α按降序排序,λ=[λ1,λ2,λ3,...,λn],α=[α1,α2,α3,...,αn];
4.5)将输入吸光度谱x投影到特征空间上,得到KPCA处理后的吸光度谱x0
x0=x*α (6)
第五步、数据正态化;
将特征提取后的吸光度矩阵进行标准正态变换,得到数据正态化后的光谱A;
Figure GDA0002636474320000034
其中,
Figure GDA0002636474320000035
为x0的平均值,s为x0的标准差;
第六步、训练基于极端随机树的浊度预测模型;
选取样本集中的部分数据作为训练集,将训练集的数据进行步骤一到步骤五的预处理,得到训练集样本,然后将训练集样本输入到极端随机树模型中进行训练,得到训练后的基于极端随机树的浊度预测模型,同时存储该训练后的基于极端随机树的浊度预测模型;
第七步、将测试数据输入至存储的基于极端随机树的浊度预测模型中,得到数据分析结果。
同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。
此外,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。
与现有技术相比,本发明具有以下有益效果:
1.本发明将基于极端随机树的非线性全光谱建模方法引入到水质光谱定量分析中,相比于传统的单谱段、多谱段的建模方法,能够更充分的利用光谱信息,挖掘光谱信息在高维空间的非线性特征,建立更为精确的浊度定量分析模型。
2.传统的线性分析建模方法偏最小二乘法相关系数R2=0.7672,均方误差MSE=9.3082;非线性分析建模方法支持向量机法R2=0.6824,均方误差MSE=12.6983。本方法的相关系数R2=0.9954,均方误差MSE=0.1816,基于本方法的模型显著的提高了浊度的预测精度。
附图说明
图1为本发明基于极端随机树的非线性全光谱水体浊度定量分析方法框图;
图2为透射光谱曲线图;
图3a为建立极端随机树的流程图;
图3b为图3a中Split函数的示意图;
图3c为建立极端随机树集合的流程图;
图4为训练模型的效果图;
图5为测试数据输入至基于极端随机树的浊度预测模型中得到的结果图。
具体实施方式
以下结合附图和具体实施例对本发明的内容作进一步详细描述。
本发明提供一中基于极端随机树的非线性全光谱水体浊度定量分析方法,该方法通过测量水体的透射光谱,建立全光谱水体浊度定量分析模型,通过模型对水体浊度进行预测,具有准确度高、鲁棒性强、操作便捷、无二次污染等优点,其主要包括光谱数据获取、吸光度转换、KPCA特征提取、数据标准化、模型训练、模型输出6部分。
如图1所示,本发明提供的基于极端随机树的非线性全光谱水体浊度定量分析方法具体包括以下步骤:
第一步、光谱数据的采集;
采用紫外-可见-近红外光谱仪测量被测水体和标准去离子水,得到被测水体的紫外-可见-近红外光谱曲线和标准去离子水的光谱曲线,如图2所示;
第二步、标准去离子水参比;
通过公式(1)来完成标准去离子水参比:
Figure GDA0002636474320000051
式中,I1为被测水体的透射光谱,I0为标准去离子水的透射光谱,I为两光谱的比值;
第三步、吸光度转换;
通过公式(2)来完成吸光度转换
x=-log(I) (2)
式中,x为吸光度光谱;
第四步、将步骤三得到吸光度光谱进行KPCA特征提取;
4.1)首先定义多层感知器核函数;
K=tanh(αxTxi+c) (3)
其中,tanh是双曲正切函数,xi为第i个输入样本的吸光度光谱,斜率α和常数c为两个参数;
4.2)计算中心化后的核矩阵
Figure GDA0002636474320000061
Figure GDA0002636474320000062
其中,M为样本数,IM∈RM×M为单位矩阵,(IM)ij=1;
4.3)计算核矩阵
Figure GDA0002636474320000066
的特征值λ和特征向量α;
Figure GDA0002636474320000063
其中,eig为矩阵计算特征值与特征向量的函数;
4.4)将特征值λ与特征向量α按降序排序,λ=[λ1,λ2,λ3,...,λn],α=[α1,α2,α3,...,αn];
4.5)将输入吸光度谱x投影到特征空间上,得到KPCA处理后的吸光度谱x0
x0=x*α (6)
第五步、数据正态化;
将特征提取后的吸光度矩阵进行标准正态变换,得到数据正态化后的光谱A;
Figure GDA0002636474320000064
其中,
Figure GDA0002636474320000065
为x0的平均值,s为x0的标准差;
第六步、训练基于极端随机树的浊度预测模型;
选取样本集中的80%作为训练集,将训练集的数据进行步骤一到步骤五的预处理,得到模型的训练集样本,然后将训练集样本输入,按照训练极端随机树模型,具体如图3a至图3c所示进行训练,得到训练后的基于极端随机树的浊度预测模型;
模型中决策树的数量取320,训练模型的效果如图4所示,存储训练出的基于极端随机树的浊度预测模型;
第七步、用测试数据测试存储的基于极端随机树的浊度预测模型,结果如图5所示,相关系数R2=0.9954,均方误差MSE=0.1816。
本发明将基于机器学习的全光谱建模方法引入到水质光谱定量分析中,相比于传统的单谱段、多谱段的建模方法,能够更充分的利用光谱信息,挖掘光谱信息在高维空间的非线性特征,建立更为精确的浊度定量分析模型。
传统的线性分析建模方法偏最小二乘法相关系数R2=0.7672,均方误差MSE=9.3082;非线性分析建模方法支持向量机法R2=0.6824,均方误差MSE=12.6983。本方法的相关系数R2=0.9954,均方误差MSE=0.1816,基于本方法的模型显著的提高了浊度的预测精度。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述方法中描述的根据本发明各种示例性实施方式的步骤。
此外,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备、计算机设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

Claims (3)

1.一种基于极端随机树的非线性全光谱水体浊度定量分析方法,其特征在于,包括以下步骤:
第一步、光谱数据的采集;
采用紫外-可见-近红外光谱仪测量被测水体和标准去离子水,得到被测水体的紫外-可见-近红外光谱曲线和标准去离子水的光谱曲线;
第二步、标准去离子水参比;
通过公式(1)完成标准去离子水参比,得到两光谱的比值I:
Figure FDA0002636474310000011
式中,I1为被测水体的透射光谱,I0为标准去离子水的透射光谱;
第三步、吸光度转换;
通过公式(2)完成吸光度转换,得到吸光度光谱;
x=-log(I) (2)
式中,x为吸光度光谱;
第四步、将步骤三得到吸光度光谱进行KPCA特征提取;
4.1)定义多层感知器核函数;
K=tanh(αxTxi+c) (3)
其中,tanh是双曲正切函数,xi为第i个输入样本的吸光度光谱,斜率α和常数c为两个参数;
4.2)计算中心化后的核矩阵
Figure FDA0002636474310000012
Figure FDA0002636474310000013
其中,M为样本数,IM∈RM×M为单位矩阵,(IM)ij=1;
4.3)计算核矩阵
Figure FDA0002636474310000014
的特征值λ和特征向量α;
Figure FDA0002636474310000015
其中,eig为矩阵计算特征值与特征向量的函数;
4.4)将特征值λ与特征向量α按降序排序,λ=[λ123,…,λn],α=[α123,…,αn];
4.5)将输入吸光度谱x投影到特征空间上,得到KPCA处理后的吸光度谱x0
x0=x*α (6)
第五步、数据正态化;
将特征提取后的吸光度矩阵进行标准正态变换,得到数据正态化后的光谱A;
Figure FDA0002636474310000021
其中,
Figure FDA0002636474310000022
为x0的平均值,s为x0的标准差;
第六步、训练基于极端随机树的浊度预测模型;
选取样本集中的部分数据作为训练集,将训练集的数据进行步骤一到步骤五的预处理,得到训练集样本,然后将训练集样本输入到极端随机树模型中进行训练,得到训练后的基于极端随机树的浊度预测模型,同时存储该训练后的基于极端随机树的浊度预测模型;
第七步、将测试数据输入至训练后的基于极端随机树的浊度预测模型中,得到数据分析结果。
2.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1所述方法的步骤。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现权利要求1所述方法的步骤。
CN201911182783.9A 2019-11-27 2019-11-27 基于极端随机树的非线性全光谱水体浊度定量分析方法 Active CN110887798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911182783.9A CN110887798B (zh) 2019-11-27 2019-11-27 基于极端随机树的非线性全光谱水体浊度定量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911182783.9A CN110887798B (zh) 2019-11-27 2019-11-27 基于极端随机树的非线性全光谱水体浊度定量分析方法

Publications (2)

Publication Number Publication Date
CN110887798A CN110887798A (zh) 2020-03-17
CN110887798B true CN110887798B (zh) 2020-11-17

Family

ID=69749036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911182783.9A Active CN110887798B (zh) 2019-11-27 2019-11-27 基于极端随机树的非线性全光谱水体浊度定量分析方法

Country Status (1)

Country Link
CN (1) CN110887798B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113341091A (zh) * 2021-06-23 2021-09-03 中国科学院精密测量科学与技术创新研究院 基于传感器及智能算法的农田径流总氮总磷快速监测方法
CN116183535B (zh) * 2023-04-23 2023-08-29 中国科学技术大学 分析高分子溶液陈化过程光谱的方法、系统、设备及介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013079188A1 (en) * 2011-11-28 2013-06-06 Ipsogen Methods for the diagnosis, the determination of the grade of a solid tumor and the prognosis of a subject suffering from cancer
CN103500344B (zh) * 2013-09-02 2017-02-08 中国测绘科学研究院 一种遥感影像信息提取与解译方法及其模块
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
KR101697183B1 (ko) * 2015-01-29 2017-01-17 계명대학교 산학협력단 인공위성 영상과 랜덤포레스트 분류기 결합을 이용한 자동 하천 검출 시스템 및 방법
CN105303262A (zh) * 2015-11-12 2016-02-03 河海大学 一种基于核主成分分析和随机森林的短期负荷预测方法
CN105427309B (zh) * 2015-11-23 2018-10-23 中国地质大学(北京) 面向对象高空间分辨率遥感信息提取的多尺度分层处理方法
CN105678281B (zh) * 2016-02-04 2020-06-16 中国农业科学院农业资源与农业区划研究所 基于光谱和纹理特征的地膜覆盖农田遥感监测方法
CN106092916B (zh) * 2016-06-05 2018-12-18 乌鲁木齐职业大学 煤矿瓦斯检测方法
US11263707B2 (en) * 2017-08-08 2022-03-01 Indigo Ag, Inc. Machine learning in agricultural planting, growing, and harvesting contexts
CN108764138B (zh) * 2018-05-29 2021-12-28 南京信息工程大学 一种基于多维多粒度级联森林的高原地区云雪分类方法
CN109858477A (zh) * 2019-02-01 2019-06-07 厦门大学 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法

Also Published As

Publication number Publication date
CN110887798A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN104897607A (zh) 便携式近红外光谱食品建模与快速检测一体化方法和系统
CN110887798B (zh) 基于极端随机树的非线性全光谱水体浊度定量分析方法
Song et al. Chlorophyll content estimation based on cascade spectral optimizations of interval and wavelength characteristics
CN112712108B (zh) 一种拉曼光谱多元数据分析方法
CN111488926A (zh) 一种基于优化模型的土壤有机质测定方法
CN115905881B (zh) 黄珍珠分类的方法以及装置、电子设备、存储介质
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
CN113686811A (zh) 一种基于双传感器的光谱数据处理方法
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
CN117491293A (zh) 一种基于高光谱的高陡岸坡碳酸盐岩体溶蚀快速评估方法
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
CN116399836A (zh) 基于交替梯度下降算法的串扰荧光光谱分解方法
CN112229816B (zh) 基于opls-spa-mix-pls的木材弹性模量预测方法
Sun et al. Visible-NIR spectroscopy and least square support vector machines regression for determination of vitamin C of mandarin fruit
CN111103259B (zh) 基于光谱技术的煎炸油品质快速检测方法
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
Yang et al. The characterization of plant species using first‐derivative fluorescence spectra
CN111562226B (zh) 基于吸收光谱特征峰面积的海水总氮总磷分析方法及系统
CN117169166A (zh) 一种光谱技术和深度学习技术结合的toc快速检测算法
CN108009569B (zh) 一种近红外光谱设备的稳定性判别方法
CN117554325A (zh) 一种新型苹果糖度无损测量方法
Yan et al. Performance of pretreatments and multivariate method on the hyperspectral estimation of soil moisture content.
Phetpan et al. Informative selection of spectra obtained from an online sugar content prediction system of sugarcane by using statistical index
Zhao et al. A Hyperspectral Inversion Model of Forest Soil Organic Carbon in Subtropical Red Soil Area Based on Orthogonal Partial Least Square
CN118035649A (zh) 一种基于频谱图的光谱数据处理和分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant