CN110887798B - 基于极端随机树的非线性全光谱水体浊度定量分析方法 - Google Patents
基于极端随机树的非线性全光谱水体浊度定量分析方法 Download PDFInfo
- Publication number
- CN110887798B CN110887798B CN201911182783.9A CN201911182783A CN110887798B CN 110887798 B CN110887798 B CN 110887798B CN 201911182783 A CN201911182783 A CN 201911182783A CN 110887798 B CN110887798 B CN 110887798B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- turbidity
- random tree
- absorbance
- extreme random
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
Abstract
本发明涉及水体浊度检测技术,具体涉及一种基于极端随机树的非线性全光谱水体浊度定量分析方法,解决现有单波长、多波长的光谱浊度测量方法不具有普适性,全波长光谱浊度测量分析方法无法捕捉非线性的特征、存在计算量大、容易过拟合所导致的浊度预测不准确的问题,该方法主要包括第一步、光谱数据的采集;第二步、标准水参比;第三步、吸光度转换;第四步、将步骤三得到吸光度光谱进行KPCA特征提取;第五步、数据正态化;第六步、训练基于极端随机树的浊度预测模型,第七步、用测试数据测试存储的基于极端随机树的浊度预测模型。
Description
技术领域
本发明涉及水体浊度检测技术,具体涉及一种基于极端随机树的非线性全光谱水体浊度定量分析方法。
背景技术
水是自然环境和社会环境中极为重要且活跃的因素,对水质信息的科学监测是实现水资源优化配置与高效利用的基础。水体浊度是水环境和水质状况的重要监测指标,浊度是一种光学效应,它反映了光线在透过水层时收到的阻碍,水体浊度是指均匀分布于水中的可溶性微小颗粒物或可溶性有机与无机化合物等对水体中入射光线的散射、吸收导致光线的衰减程度,浊度的测量方法就是基于光的衰减程度。
传统的浊度测量方法主要有分光光度法和光电式法,此两种方法普遍存在需要使用化学试剂、操作繁琐、需要使用试剂、造成二次污染等缺点,同时无法完成浊度的自动、快速、原位测量。光谱法水质检测技术由于无需化学试剂、无二次污染、快速准确、成本低,可实现实时在线原位测量,现已广泛应用于在线水质检测领域。光谱法水质检测技术是利用水中特定物质吸收特定波长的光,产生分子吸收光谱,从而根据光谱数据定性定量地分析水质参数。
传统的光谱法浊度检测技术主要包括单波长、多波长和全波长分析方法。单波长法测量水体在680nm处的吸光度,通过线性回归的方法来测量水体浊度。多波长法在单波长的基础上,增加了矫正波长,来矫正水体测试时环境因素的干扰,采用486nm、551nm、671nm等多处波长的吸光度,通过加权分析的方法,建立浊度预测模型进行浊度检测。但是,上述单波长、多波长的方法本质上都依赖于水体对特定波长的特征吸收,同一波长组合建模可能适应于特定应用场景,不具有普适性。
全波长分析方法主要包括线性方法和非线性方法两种。线性方法的代表是偏最小二乘法,偏最小二乘法通过不断提取主成分来简化数据,建立回归模型,该方法能很好的寻找线性特征进行回归,但却无法捕捉非线性的特征,导致浊度预测不准确。非线性方法的一个代表是支持向量机法,将低维数据映射到高维空间进行回归,再把高维空间的超平面映射回低维空间,建立回归模型,该方法可以捕捉高维空间的非线性特征,但存在计算量大,容易过拟合等缺点,导致浊度预测速度慢、准确性低。
发明内容
本发明的目的是解决现有单波长、多波长的光谱浊度测量方法不具有普适性,全波长光谱浊度测量分析方法无法捕捉非线性的特征、存在计算量大、容易过拟合所导致的浊度预测不准确的问题,提供一种基于极端随机树的非线性全光谱水体浊度定量分析方法。该方法通过测量水体紫外-可见-近红外透射光谱,建立非线性全光谱水体浊度定量分析模型,完成水体浊度的测量。
为实现上述目的,本发明通过以下技术方案来实现:
一种基于极端随机树的非线性全光谱水体浊度定量分析方法,包括以下步骤:
第一步、光谱数据的采集;
采用紫外-可见-近红外光谱仪测量被测水体和标准去离子水,得到被测水体的紫外-可见-近红外光谱曲线和标准去离子水的光谱曲线;
第二步、标准去离子水参比;
通过公式(1)完成标准去离子水参比,得到两光谱的比值I:
式中,I1为被测水体的透射光谱,I0为标准去离子水的透射光谱;
第三步、吸光度转换;
通过公式(2)完成吸光度转换,得到吸光度光谱;
x=-log(I) (2)
式中,x为吸光度光谱;
第四步、将步骤三得到吸光度光谱进行KPCA特征提取;
4.1)定义多层感知器核函数;
K=tanh(αxTxi+c) (3)
其中,tanh是双曲正切函数,xi为第i个输入样本的吸光度光谱,斜率α和常数c为两个参数;
其中,M为样本数,IM∈RM×M为单位矩阵,(IM)ij=1;
其中,eig为矩阵计算特征值与特征向量的函数;
4.4)将特征值λ与特征向量α按降序排序,λ=[λ1,λ2,λ3,...,λn],α=[α1,α2,α3,...,αn];
4.5)将输入吸光度谱x投影到特征空间上,得到KPCA处理后的吸光度谱x0;
x0=x*α (6)
第五步、数据正态化;
将特征提取后的吸光度矩阵进行标准正态变换,得到数据正态化后的光谱A;
第六步、训练基于极端随机树的浊度预测模型;
选取样本集中的部分数据作为训练集,将训练集的数据进行步骤一到步骤五的预处理,得到训练集样本,然后将训练集样本输入到极端随机树模型中进行训练,得到训练后的基于极端随机树的浊度预测模型,同时存储该训练后的基于极端随机树的浊度预测模型;
第七步、将测试数据输入至存储的基于极端随机树的浊度预测模型中,得到数据分析结果。
同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。
此外,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。
与现有技术相比,本发明具有以下有益效果:
1.本发明将基于极端随机树的非线性全光谱建模方法引入到水质光谱定量分析中,相比于传统的单谱段、多谱段的建模方法,能够更充分的利用光谱信息,挖掘光谱信息在高维空间的非线性特征,建立更为精确的浊度定量分析模型。
2.传统的线性分析建模方法偏最小二乘法相关系数R2=0.7672,均方误差MSE=9.3082;非线性分析建模方法支持向量机法R2=0.6824,均方误差MSE=12.6983。本方法的相关系数R2=0.9954,均方误差MSE=0.1816,基于本方法的模型显著的提高了浊度的预测精度。
附图说明
图1为本发明基于极端随机树的非线性全光谱水体浊度定量分析方法框图;
图2为透射光谱曲线图;
图3a为建立极端随机树的流程图;
图3b为图3a中Split函数的示意图;
图3c为建立极端随机树集合的流程图;
图4为训练模型的效果图;
图5为测试数据输入至基于极端随机树的浊度预测模型中得到的结果图。
具体实施方式
以下结合附图和具体实施例对本发明的内容作进一步详细描述。
本发明提供一中基于极端随机树的非线性全光谱水体浊度定量分析方法,该方法通过测量水体的透射光谱,建立全光谱水体浊度定量分析模型,通过模型对水体浊度进行预测,具有准确度高、鲁棒性强、操作便捷、无二次污染等优点,其主要包括光谱数据获取、吸光度转换、KPCA特征提取、数据标准化、模型训练、模型输出6部分。
如图1所示,本发明提供的基于极端随机树的非线性全光谱水体浊度定量分析方法具体包括以下步骤:
第一步、光谱数据的采集;
采用紫外-可见-近红外光谱仪测量被测水体和标准去离子水,得到被测水体的紫外-可见-近红外光谱曲线和标准去离子水的光谱曲线,如图2所示;
第二步、标准去离子水参比;
通过公式(1)来完成标准去离子水参比:
式中,I1为被测水体的透射光谱,I0为标准去离子水的透射光谱,I为两光谱的比值;
第三步、吸光度转换;
通过公式(2)来完成吸光度转换
x=-log(I) (2)
式中,x为吸光度光谱;
第四步、将步骤三得到吸光度光谱进行KPCA特征提取;
4.1)首先定义多层感知器核函数;
K=tanh(αxTxi+c) (3)
其中,tanh是双曲正切函数,xi为第i个输入样本的吸光度光谱,斜率α和常数c为两个参数;
其中,M为样本数,IM∈RM×M为单位矩阵,(IM)ij=1;
其中,eig为矩阵计算特征值与特征向量的函数;
4.4)将特征值λ与特征向量α按降序排序,λ=[λ1,λ2,λ3,...,λn],α=[α1,α2,α3,...,αn];
4.5)将输入吸光度谱x投影到特征空间上,得到KPCA处理后的吸光度谱x0;
x0=x*α (6)
第五步、数据正态化;
将特征提取后的吸光度矩阵进行标准正态变换,得到数据正态化后的光谱A;
第六步、训练基于极端随机树的浊度预测模型;
选取样本集中的80%作为训练集,将训练集的数据进行步骤一到步骤五的预处理,得到模型的训练集样本,然后将训练集样本输入,按照训练极端随机树模型,具体如图3a至图3c所示进行训练,得到训练后的基于极端随机树的浊度预测模型;
模型中决策树的数量取320,训练模型的效果如图4所示,存储训练出的基于极端随机树的浊度预测模型;
第七步、用测试数据测试存储的基于极端随机树的浊度预测模型,结果如图5所示,相关系数R2=0.9954,均方误差MSE=0.1816。
本发明将基于机器学习的全光谱建模方法引入到水质光谱定量分析中,相比于传统的单谱段、多谱段的建模方法,能够更充分的利用光谱信息,挖掘光谱信息在高维空间的非线性特征,建立更为精确的浊度定量分析模型。
传统的线性分析建模方法偏最小二乘法相关系数R2=0.7672,均方误差MSE=9.3082;非线性分析建模方法支持向量机法R2=0.6824,均方误差MSE=12.6983。本方法的相关系数R2=0.9954,均方误差MSE=0.1816,基于本方法的模型显著的提高了浊度的预测精度。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述方法中描述的根据本发明各种示例性实施方式的步骤。
此外,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现基于极端随机树的非线性全光谱水体浊度定量分析方法的步骤。用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备、计算机设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
Claims (3)
1.一种基于极端随机树的非线性全光谱水体浊度定量分析方法,其特征在于,包括以下步骤:
第一步、光谱数据的采集;
采用紫外-可见-近红外光谱仪测量被测水体和标准去离子水,得到被测水体的紫外-可见-近红外光谱曲线和标准去离子水的光谱曲线;
第二步、标准去离子水参比;
通过公式(1)完成标准去离子水参比,得到两光谱的比值I:
式中,I1为被测水体的透射光谱,I0为标准去离子水的透射光谱;
第三步、吸光度转换;
通过公式(2)完成吸光度转换,得到吸光度光谱;
x=-log(I) (2)
式中,x为吸光度光谱;
第四步、将步骤三得到吸光度光谱进行KPCA特征提取;
4.1)定义多层感知器核函数;
K=tanh(αxTxi+c) (3)
其中,tanh是双曲正切函数,xi为第i个输入样本的吸光度光谱,斜率α和常数c为两个参数;
其中,M为样本数,IM∈RM×M为单位矩阵,(IM)ij=1;
其中,eig为矩阵计算特征值与特征向量的函数;
4.4)将特征值λ与特征向量α按降序排序,λ=[λ1,λ2,λ3,…,λn],α=[α1,α2,α3,…,αn];
4.5)将输入吸光度谱x投影到特征空间上,得到KPCA处理后的吸光度谱x0;
x0=x*α (6)
第五步、数据正态化;
将特征提取后的吸光度矩阵进行标准正态变换,得到数据正态化后的光谱A;
第六步、训练基于极端随机树的浊度预测模型;
选取样本集中的部分数据作为训练集,将训练集的数据进行步骤一到步骤五的预处理,得到训练集样本,然后将训练集样本输入到极端随机树模型中进行训练,得到训练后的基于极端随机树的浊度预测模型,同时存储该训练后的基于极端随机树的浊度预测模型;
第七步、将测试数据输入至训练后的基于极端随机树的浊度预测模型中,得到数据分析结果。
2.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1所述方法的步骤。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911182783.9A CN110887798B (zh) | 2019-11-27 | 2019-11-27 | 基于极端随机树的非线性全光谱水体浊度定量分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911182783.9A CN110887798B (zh) | 2019-11-27 | 2019-11-27 | 基于极端随机树的非线性全光谱水体浊度定量分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110887798A CN110887798A (zh) | 2020-03-17 |
CN110887798B true CN110887798B (zh) | 2020-11-17 |
Family
ID=69749036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911182783.9A Active CN110887798B (zh) | 2019-11-27 | 2019-11-27 | 基于极端随机树的非线性全光谱水体浊度定量分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110887798B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113341091A (zh) * | 2021-06-23 | 2021-09-03 | 中国科学院精密测量科学与技术创新研究院 | 基于传感器及智能算法的农田径流总氮总磷快速监测方法 |
CN116183535B (zh) * | 2023-04-23 | 2023-08-29 | 中国科学技术大学 | 分析高分子溶液陈化过程光谱的方法、系统、设备及介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013079188A1 (en) * | 2011-11-28 | 2013-06-06 | Ipsogen | Methods for the diagnosis, the determination of the grade of a solid tumor and the prognosis of a subject suffering from cancer |
CN103500344B (zh) * | 2013-09-02 | 2017-02-08 | 中国测绘科学研究院 | 一种遥感影像信息提取与解译方法及其模块 |
CN104572786A (zh) * | 2013-10-29 | 2015-04-29 | 华为技术有限公司 | 随机森林分类模型的可视化优化处理方法及装置 |
KR101697183B1 (ko) * | 2015-01-29 | 2017-01-17 | 계명대학교 산학협력단 | 인공위성 영상과 랜덤포레스트 분류기 결합을 이용한 자동 하천 검출 시스템 및 방법 |
CN105303262A (zh) * | 2015-11-12 | 2016-02-03 | 河海大学 | 一种基于核主成分分析和随机森林的短期负荷预测方法 |
CN105427309B (zh) * | 2015-11-23 | 2018-10-23 | 中国地质大学(北京) | 面向对象高空间分辨率遥感信息提取的多尺度分层处理方法 |
CN105678281B (zh) * | 2016-02-04 | 2020-06-16 | 中国农业科学院农业资源与农业区划研究所 | 基于光谱和纹理特征的地膜覆盖农田遥感监测方法 |
CN106092916B (zh) * | 2016-06-05 | 2018-12-18 | 乌鲁木齐职业大学 | 煤矿瓦斯检测方法 |
US11263707B2 (en) * | 2017-08-08 | 2022-03-01 | Indigo Ag, Inc. | Machine learning in agricultural planting, growing, and harvesting contexts |
CN108764138B (zh) * | 2018-05-29 | 2021-12-28 | 南京信息工程大学 | 一种基于多维多粒度级联森林的高原地区云雪分类方法 |
CN109858477A (zh) * | 2019-02-01 | 2019-06-07 | 厦门大学 | 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 |
-
2019
- 2019-11-27 CN CN201911182783.9A patent/CN110887798B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110887798A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104897607A (zh) | 便携式近红外光谱食品建模与快速检测一体化方法和系统 | |
CN110887798B (zh) | 基于极端随机树的非线性全光谱水体浊度定量分析方法 | |
Song et al. | Chlorophyll content estimation based on cascade spectral optimizations of interval and wavelength characteristics | |
CN112712108B (zh) | 一种拉曼光谱多元数据分析方法 | |
CN111488926A (zh) | 一种基于优化模型的土壤有机质测定方法 | |
CN115905881B (zh) | 黄珍珠分类的方法以及装置、电子设备、存储介质 | |
CN115420707A (zh) | 一种污水近红外光谱的化学需氧量评估方法及系统 | |
CN113686811A (zh) | 一种基于双传感器的光谱数据处理方法 | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
CN117491293A (zh) | 一种基于高光谱的高陡岸坡碳酸盐岩体溶蚀快速评估方法 | |
CN116858822A (zh) | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 | |
CN116399836A (zh) | 基于交替梯度下降算法的串扰荧光光谱分解方法 | |
CN112229816B (zh) | 基于opls-spa-mix-pls的木材弹性模量预测方法 | |
Sun et al. | Visible-NIR spectroscopy and least square support vector machines regression for determination of vitamin C of mandarin fruit | |
CN111103259B (zh) | 基于光谱技术的煎炸油品质快速检测方法 | |
CN117556245B (zh) | 一种四甲基氢氧化铵生产过滤杂质检测方法 | |
Yang et al. | The characterization of plant species using first‐derivative fluorescence spectra | |
CN111562226B (zh) | 基于吸收光谱特征峰面积的海水总氮总磷分析方法及系统 | |
CN117169166A (zh) | 一种光谱技术和深度学习技术结合的toc快速检测算法 | |
CN108009569B (zh) | 一种近红外光谱设备的稳定性判别方法 | |
CN117554325A (zh) | 一种新型苹果糖度无损测量方法 | |
Yan et al. | Performance of pretreatments and multivariate method on the hyperspectral estimation of soil moisture content. | |
Phetpan et al. | Informative selection of spectra obtained from an online sugar content prediction system of sugarcane by using statistical index | |
Zhao et al. | A Hyperspectral Inversion Model of Forest Soil Organic Carbon in Subtropical Red Soil Area Based on Orthogonal Partial Least Square | |
CN118035649A (zh) | 一种基于频谱图的光谱数据处理和分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |