CN115420707A - 一种污水近红外光谱的化学需氧量评估方法及系统 - Google Patents

一种污水近红外光谱的化学需氧量评估方法及系统 Download PDF

Info

Publication number
CN115420707A
CN115420707A CN202211056903.2A CN202211056903A CN115420707A CN 115420707 A CN115420707 A CN 115420707A CN 202211056903 A CN202211056903 A CN 202211056903A CN 115420707 A CN115420707 A CN 115420707A
Authority
CN
China
Prior art keywords
near infrared
sewage
infrared spectrum
oxygen demand
chemical oxygen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211056903.2A
Other languages
English (en)
Inventor
赵顺毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Artificial Intelligence Technology Hangzhou Co ltd
Original Assignee
Hangzhou Artificial Intelligence Technology Hangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Artificial Intelligence Technology Hangzhou Co ltd filed Critical Hangzhou Artificial Intelligence Technology Hangzhou Co ltd
Priority to CN202211056903.2A priority Critical patent/CN115420707A/zh
Publication of CN115420707A publication Critical patent/CN115420707A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及一种污水近红外光谱的化学需氧量评估方法及系统,包括:采集历史污水近红外光谱数据并进行预处理得到污水近红外光谱数据集;对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;将所述特征变换向量输入至多个弱分类器中进行迭代训练,并组合所有弱分类器得到训练好的模型;本发明还提供了一种污水近红外光谱的化学需氧量评估系统,包括:数据采集与预处理模块、数据降维模块和模型训练模块。本发明将adaboost算法应用于污水中的化学需氧量评估领域,即使在污水近红外光谱数据标签值分布不均匀的情况下依然有较高的评估精度。

Description

一种污水近红外光谱的化学需氧量评估方法及系统
技术领域
本发明涉及污水处理技术领域,尤其是指一种污水近红外光谱的化学需氧量评估方法及系统。
背景技术
有机物是水体污染的主要污染物之一,在水质监测中常用COD(化学需氧量)综合指标来反应水体中有机物的污染程度,COD是在一定的条件下,采用一定的强氧化剂处理水样时所消耗的氧化剂量,它是表示水中还原性物质多少的一个指标,水中的还原性物质有各种有机物、亚硝酸盐、硫化物、亚铁盐等,但主要的是有机物。因此,化学需氧量又往往作为衡量水中有机物质含量多少的指标,化学需氧量越大,说明水体受有机物的污染越严重。
近红外光谱技术基于样品分子中的化学键对透射或反射光的吸收程度,得到各个波段的吸光度信息,将其与检测出的目标分析物的组分特性结合并基于数据分析技术获取近红外光谱数据与样品成分信息间的相关性。由于近红外光谱扫描速度快,可以预见,依据污水水质特点匹配好相关数据处理算法,可快速得到目标指标,较好地满足水质实时检测的需求。
但是,由于实际污水样品固有特性,标签值分布不均匀,大部分样品集中在相同浓度区间内,样品间存在离散度差、区分度小的问题,在尝试将一些经典算法(例如,偏最小而成回归、K近邻法、支持向量机等)应用于污水近红外光谱数据集时,并没有考虑到标签值分布不均匀的问题,因此难以建立起样本和标签值之间准确的映射关系,而污水近红外的相关文献中也并没有发现有针对此类问题的研究,然而在对污水实际数据集的建模过程中,若对这些固有特征不进行充分考量,所得模型很难建立起样本和标签值之间准确的映射关系,对于污水中的化学需氧量预测精确度不高。
综上所述,现有的污水化学需氧量评估模型没有考虑实际污水样本中化学需氧量的标签值分布不均匀从而存在模型评估精确度不高的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中污水化学需氧量评估模型没有考虑实际污水样本中化学需氧量的标签值分布不均匀从而存在模型评估精确度不高的问题。
为解决上述技术问题,本发明提供了一种污水近红外光谱的化学需氧量评估方法,包括:
采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集;
对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;
利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到完成训练的污水近红外光谱的化学需氧量评估模型,以便利用所述污水近红外光谱的化学需氧量评估模型对待测污水中的化学需氧量进行评估;
其中,所述adaboost算法采用多个弱分类器分别对所述特征变换向量进行分类,根据每个弱分类器的分类误差计算弱分类器的权重,将所述多个弱分类器按照相应权重组合为强分类器,将所述强分类器作为所述污水近红外光谱的化学需氧量评估模型。
在本发明的一个实施例中,所述污水近红外光谱的化学需氧量评估模型包括污水近红外光谱的化学需氧量浓度预测模型和污水近红外光谱的化学需氧量分类模型。
在本发明的一个实施例中,所述采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集包括:
获取历史污水近红外光谱数据,并获取所述历史污水近红外光谱数据的维度、样本数量、标签值以及数据缺失值比例信息;
删除缺失值比例大于50%的数值列,利用均值填充法填充缺失值比例小于等于50%的数值列;
利用基线校正算法处理存在偏移的光谱数据得到校正后的光谱数据,并对所述校正后的光谱数据进行归一化处理以消除量纲得到污水近红外光谱数据集。
在本发明的一个实施例中,所述基线校正算法的计算公式为:
Xdata=(Xori-Xmin)/Xmean
其中,Xdata为校正后的光谱数据,Xori为原始光谱数据,Xmin为基准光谱数据,Xmean为校正前光谱数据平均值。
在本发明的一个实施例中,所述对预处理后的污水近红外光谱数据集进行降维得到特征变换向量包括:
利用主成分分析法对预处理后的污水近红外光谱数据集进行降维得到变换特征向量。
在本发明的一个实施例中,所述利用主成分分析法对预处理后的污水近红外光谱数据集进行降维得到变换特征向量包括:
将预处理后的污水近红外光谱数据集组成n行m列矩阵,其中,m为污水近红外光谱数据集的维度,n为污水近红外光谱数据集的样本数量;
对所述矩阵中每一行去除平均值得到标准化矩阵Z;
计算标准化矩阵Z的协方差矩阵R,并计算所述协方差矩阵的特征值和特征向量,其中,
Figure BDA0003825605590000031
将所述特征值从大到小排列,选取前M个特征值对应的M个特征向量作为行向量组成特征向量矩阵P,其中,M<n;
将所述标准化矩阵Z与所述特征向量矩阵P相乘得到特征变换向量Y,Y=PZ。
在本发明的一个实施例中,所述污水近红外光谱的化学需氧量浓度预测模型的训练过程包括:
为所述特征变换向量中的行向量分配权重,并输入至弱分类器中进行迭代训练,其中,所述特征变换向量中的行向量的初始权重相等;
计算每次迭代后的预测误差,其中,第t次迭代后预测误差的计算公式为:
Figure BDA0003825605590000041
其中,n为特征变换向量的行向量数,xi为特征变换向量的第i行向量,yi为特征变换向量中第i行向量的标签值,ωt为第t次迭代时特征变换向量的权重矩阵,
Figure BDA0003825605590000042
为每一行向量的相对误差;
根据第t次迭代后的预测误差计算第t次迭代的弱分类器的权重,其计算公式为:
Figure BDA0003825605590000043
根据第t次迭代后的预测误差更新第t+1次迭代时特征变换向量的权重,其计算公式为:
Figure BDA0003825605590000044
其中,Ct为归一化常数;
将更新权重后的特征变换向量输入第t+1次迭代的弱分类器中进行预测,直到达到预设迭代次数后,组合全部弱分类器得到污水近红外光谱的化学需氧量浓度预测模型A(x):
Figure BDA0003825605590000051
其中,T为预设迭代次数,ht(x)表示各弱分类器,x为污水近红外光谱数据。
在本发明的一个实施例中,所述污水近红外光谱的化学需氧量分类模型的训练过程包括:
为所述特征变换向量中的行向量分配权重,并输入至弱分类器中进行迭代训练,其中,所述特征变换向量中的行向量的初始权重相等;
计算每次迭代后的分类误差,其中,第t次迭代后分类误差的计算公式为:
Figure BDA0003825605590000052
其中,n为特征变换向量的行向量数,xi为特征变换向量的第i行向量,yi为特征变换向量中第i行向量的标签值,Γ(yi≠ht(xi))为判断错误的行向量集合,wt为第t次迭代时特征变换向量的权重矩阵;
根据第t次迭代后的分类误差计算第t次迭代的弱分类器的权重,其计算公式为:
Figure BDA0003825605590000053
根据第t次迭代后的分类误差更新第t+1次迭代时特征变换向量的权重,其计算公式为:
Figure BDA0003825605590000054
其中,Ct为归一化常数;
将更新权重后的特征变换向量输入第t+1次迭代的弱分类器中进行分类,直到达到预设迭代次数后,组合全部弱分类器得到污水近红外光谱的化学需氧量分类模型H(x):
Figure BDA0003825605590000061
其中,T为预设迭代次数,Γ(ht(x)=k)表示第i行向量分类结果为第k类的概率,
Figure BDA0003825605590000062
函数选择最大的k输出,ht(x)表示各弱分类器,x为污水近红外光谱数据。
在本发明的一个实施例中,当所述污水近红外光谱的化学需氧量评估模型为污水近红外光谱的化学需氧量浓度预测模型时,利用近红外光谱仪对待检测的污水样本进行扫描,将得到的污水近红外光谱数据输入所述污水近红外光谱的化学需氧量浓度预测模型中,根据预测结果判断水体是否受有机物污染;
当所述污水近红外光谱的化学需氧量评估模型为污水近红外光谱的化学需氧量分类模型时,利用近红外光谱仪对待检测的污水样本进行扫描,将得到的污水近红外光谱数据输入所述污水近红外光谱的化学需氧量分类模型中,根据分类结果判断水体受有机物污染的程度。
本发明还提供了一种污水近红外光谱的化学需氧量评估系统,包括:
数据采集与预处理模块,用于采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集;
数据降维模块,用于对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;
模型训练模块,用于利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到完成训练的污水近红外光谱的化学需氧量评估模型。
本发明所述的污水近红外光谱的化学需氧量浓度预测方法通过采集历史污水近红外光谱数据并进行预处理,减少冗余数据干扰,再对预处理后的数据进行降维,去除冗余特征,减少了过拟合,最后利用多个弱分类器针对降维后的数据进行分类,根据每个弱分类器的分类误差决定其在最后的强分类器中所占的比重,将所有弱分类器组合成一个强分类器作为污水近红外光谱的化学需氧量评估模型。adaboost算法不需要预先知道每个弱分类器的正确率,而是在分类过程中根据分类错误率调整每个弱分类器的权重,最后将所有弱分类器按照相应权重组成强分类器,强分类器的分类精度依赖于每个弱分类器的分类精度,通过多次迭代训练不断增加最后强分类器的预测精度,使得最后得到的强分类器即使在污水近红外光谱数据样本标签值分布不均匀时,也可以更准确的预测污水中的化学需氧量浓度。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1为污水近红外光谱的化学需氧量评估方法流程图;
图2为adaboost算法建立污水近红外光谱的化学需氧量评估模型的流程图;
图3为本发明的污水近红外光谱的化学需氧量浓度预测模型与其他模型预测污水近红外光谱的化学需氧量浓度的均方根误差对比图;
图4为本发明的污水近红外光谱的化学需氧量浓度预测模型与其他模型预测污水近红外光谱的化学需氧量浓度的均方根误差45度线图对比示意图;
图5为本发明的污水近红外光谱的化学需氧量分类模型与其他模型对污水近红外光谱的化学需氧量进行分类的分类指标对比图;
图6为污水近红外光谱的化学需氧量评估系统结构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例1:
参照图1所示,本发明所提供的污水近红外光谱的化学需氧量评估方法包括:
S10:采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集,其具体包括:
S100:获取历史污水近红外光谱数据,并获取所述历史污水近红外光谱数据的维度、样本数量、标签值以及数据缺失值比例信息;
S101:删除缺失值比例大于50%的数值列,利用均值填充法填充缺失值比例小于等于50%的数值列;
S102:利用基线校正算法处理存在偏移的光谱数据得到校正后的光谱数据,并对所述校正后的光谱数据进行归一化处理以消除量纲得到污水近红外光谱数据集;
其中,所述基线校正算法的计算公式为:
Xdata=(Xori-Xmin)/Xmean
其中,Xdata为校正后的光谱数据,Xori为原始光谱数据,Xmin为基准光谱数据,Xmean为校正前光谱数据平均值。
由于近红外光谱所测定的光谱数据除了与污水中的化学成分信息相关以外,还可能受污水状态、检测环境和测量条件这些物理因素的影响,通常近红外光谱分析利用污水的化学信息,而物理信息往往是干扰因素,对建模不利,应该消除或降低,因此本实施例中对所述历史污水近红外光谱数据进行了基线校正,以消除数据中的干扰因素。
S11:对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;
由于污水中不同物质对近红外光的吸收度不同,因此可以根据这些物质对近红外光的吸收强度等信息特征对污水中的物质进行定性定量分析;污水近红外光谱数据集中包含了污水中多种物质对近红外光的吸收信息,因此在进行化学需氧量评估建模前要对所述数据集进行降维,去除数据集中与化学需氧量无关的数据,提取对化学需氧量浓度计算影响较大的特征值,减少污水化学需氧量评估模型的过拟合。
采用主成分分析法对所述污水近红外光谱数据集进行降维,其具体步骤包括:
S110:将预处理后的污水近红外光谱数据集组成n行m列矩阵,其中,m为污水近红外光谱数据集的维度,n为污水近红外光谱数据集的样本数量;
S111:对所述矩阵中每一行去除平均值得到标准化矩阵Z;
S112:计算标准化矩阵Z的协方差矩阵R,并计算所述协方差矩阵的特征值和特征向量,其中,
Figure BDA0003825605590000091
S113:将所述特征值从大到小排列,选取前M个特征值对应的M个特征向量作为行向量组成特征向量矩阵P,其中,M<n;
S114:将所述标准化矩阵Z与所述特征向量矩阵P相乘得到特征变换向量Y,Y=PZ。
本实施例中采用主成分分析法对污水近红外光谱数据集进行降维,作为目前应用最为广泛的降维方法之一,主成分分析法依据方差最大化原理将数据从高维空间映射到低维空间,最大化反映了原始光谱数据中反映的大致规律,在本发明的其他具体实施例中,对所述污水近红外光谱数据集进行降维的方法还可以是低方差滤波法、高相关滤波法、反向特征消除法、独立分量分析法等。
S12:利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到完成训练的污水近红外光谱化学需氧量评估模型,如图2所示,其具体包括:
S120:为所述特征变换向量中的行向量分配权重,并输入至弱分类器中进行迭代训练,其中,所述特征变换向量中的行向量的初始权重相等,即每一行向量的初始权重为
Figure BDA0003825605590000101
S121:计算每次迭代后的预测误差,其中,第t次迭代后预测误差的计算公式为:
Figure BDA0003825605590000102
其中,n为特征变换向量的行向量数,xi为特征变换向量中第i行向量,yi为特征变换向量中第i行向量的标签值,ωt为第t次迭代时特征变换向量的权重矩阵,
Figure BDA0003825605590000103
为每一行向量的相对误差;
根据所述第t次迭代后预测误差计算第t次迭代的弱分类器的权重,所述第t次迭代的弱分类器的权重计算公式为:
Figure BDA0003825605590000104
S122:根据所述第t次迭代后的预测误差更新第t+1次迭代时特征变换向量的权重,其计算公式为:
Figure BDA0003825605590000105
其中,Ct为归一化常数;
S123:将更新权重后的特征变换向量输入第t+1次迭代的弱分类器中进行预测,直到达到预设迭代次数后,组合全部弱分类器得到污水近红外光谱的化学需氧量浓度预测模型A(x):
Figure BDA0003825605590000111
其中,T为预设迭代次数,ht(x)表示各弱分类器,x为污水近红外光谱数据。
获得完成训练的污水近红外光谱的化学需氧量浓度预测模型后,利用近红外光谱仪对待检测的污水样本进行扫描,将得到的污水近红外光谱数据输入所述污水近红外光谱的化学需氧量浓度预测模型中进行预测,根据预测值判断水体是否受有机物污染。
实施例2:
基于上述实施例1,步骤S12所述利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到了完成训练的污水近红外光谱的化学需氧量评估模型还包括:
a、为所述特征变换向量中的行向量分配权重,并输入至弱分类器中进行迭代训练,其中,所述特征变换向量中的行向量的初始权重相等;
b、计算每次迭代后的分类误差,其中,所述第t次迭代后分类误差的计算公式为:
Figure BDA0003825605590000112
其中,n为特征变换向量的行向量数,xi为特征变换向量中第i行向量,yi为特征变换向量中第i行向量的标签值,Γ(yi≠ht(xi))为判断错误的行向量集合,wt为第t次迭代时特征变换向量的权重矩阵;
c、根据所述第t次迭代后分类误差计算第t次迭代的弱分类器的权重,所述第t次迭代的弱分类器的权重计算公式为:
Figure BDA0003825605590000113
d、根据所述第t次迭代后的分类误差更新第t+1次迭代时特征变换向量的权重矩阵,其计算公式为:
Figure BDA0003825605590000121
其中,Ct为归一化常数;
e、将更新权重后的特征变换向量输入第t+1次迭代的弱分类器中进行分类,直到达到预设迭代次数后,组合全部弱分类器得到污水近红外光谱的化学需氧量分类模型H(x):
Figure BDA0003825605590000122
其中,T为预设迭代次数,Γ(ht(x)=k)表示分类结果为第k类的概率,
Figure BDA0003825605590000123
函数选择最大的k输出,ht(x)表示各弱分类器,x为污水近红外光谱数据。
获得完成训练的污水近红外光谱的化学需氧量分类模型后,利用近红外光谱仪对待检测的污水样本进行扫描,将得到的污水近红外光谱数据输入所述污水近红外光谱的化学需氧量分类模型中进行分类,根据分类结果判断水体受有机物污染的程度。
本发明实施例将adaboost算法引入污水近红外光谱的化学需氧量评估模型构建中,不仅得到了污水近红外光谱的化学需氧量浓度预测模型,还得到了污水近红外光谱的化学需氧量分类模型,不但可以对污水中的化学需氧量进行定量分析,还可以对其进行定性分析,在污水近红外光谱数据样本标签值分布不均匀时还能保持高精度的预测和分类。
实施例3:
基于上述实施例,本实施例中利用实验数据集和实际数据集构成的污水近红外光谱数据集进行了模型训练以及对模型的测试评估,其中,实际数据集中样品为浙江省杭州市余杭水务公司某批实际污水样本,实验数据集由该公司化工实验室配置而成。
实验数据集由1g/L的标准溶液定容配置而成,COD数据集以25mg/L为梯度配置了从0到500mg/L共20个类别的溶液,共有2000条数据;本实施例中使用COD的实际数据集包括564条数据,在建模时会对混合数据集分别建立分类和回归模型对比证明本发明所用方法的优越性,建模时,将所用数据集以3:1的比例拆分为训练集和测试集,在利用训练集训练出模型后,使用测试集对建模效果进行了测试评估:
如图3所示,为本发明所提供的采用adadboost算法所建的污水近红外光谱的化学需氧量浓度预测模型与使用其他算法所建模型在相同测试集上的预测均方根误差图,可以看出,在污水近红外光谱实际数据标签值分布不均匀的情况下,本发明所提供的模型在进行污水近红外光谱化学需氧量浓度预测时的的均方根误差小于其他模型,其预测结果相对其他模型也更接近真实值;
如图4所示,为本发明所提供的采用adaboost算法所建的污水近红外光谱的化学需氧量浓度预测模型与使用其他算法所建模型在相同测试集上的回归图,可以看出,在污水近红外光谱实际数据标签值分布不均匀的情况下,本发明所提供的模型在进行污水近红外光谱化学需氧量浓度预测时预测与真实值的比例更稳定;
如图5所示,为本发明所提供的采用adaboost算法所建的污水近红外光谱的化学需氧量分类模型与使用其他算法所建模型在相同测试集上的分类指标图,可以看出,本发明实施例所提供的污水近红外光谱的化学需氧量分类模型的分类准确率、召回率以及f1分数均优于其他模型。
本发明的具体实施例还提供了一种污水近红外光谱的化学需氧量评估系统,如图6所示,包括:
数据采集与预处理模块100,用于采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集;
数据降维模块200,用于对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;
模型训练模块300,用于利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到完成训练的污水近红外光谱的化学需氧量评估模型。
本实施例的污水近红外光谱的化学需氧量评估系统用于实现前述的污水近红外光谱的化学需氧量评估方法,因此,污水近红外光谱的化学需氧量评估系统的具体实施方式可见前文中的污水近红外光谱的化学需氧量评估方法的实施例部分,例如,数据采集与预处理模块100用于实现上述污水近红外光谱的化学需氧量评估方法中步骤S10,数据降维模块200用于实现上述污水近红外光谱的化学需氧量评估方法中步骤S11,模型训练模块300用于实现上述污水近红外光谱的化学需氧量评估方法中步骤S12,所以具体实施方法可以参照相应的实施例的描述,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种污水近红外光谱的化学需氧量评估方法,其特征在于,包括:
采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集;
对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;
利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到完成训练的污水近红外光谱的化学需氧量评估模型,以便利用所述污水近红外光谱的化学需氧量评估模型对待测污水中的化学需氧量进行评估;
其中,所述adaboost算法采用多个弱分类器分别对所述特征变换向量进行分类,根据每个弱分类器的分类误差计算弱分类器的权重,将所述多个弱分类器按照相应权重组合为强分类器,将所述强分类器作为所述污水近红外光谱的化学需氧量评估模型。
2.根据权利要求1所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述污水近红外光谱的化学需氧量评估模型包括污水近红外光谱的化学需氧量浓度预测模型和污水近红外光谱的化学需氧量分类模型。
3.根据权利要求1所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集包括:
获取历史污水近红外光谱数据,并获取所述历史污水近红外光谱数据的维度、样本数量、样本的化学需氧量标签值以及数据缺失值比例信息;
删除缺失值比例大于50%的数值列,利用均值填充法填充缺失值比例小于等于50%的数值列;
利用基线校正算法处理存在偏移的光谱数据得到校正后的光谱数据,并对所述校正后的光谱数据进行归一化处理以消除量纲得到污水近红外光谱数据集。
4.根据权利要求3所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述基线校正算法的计算公式为:
Xdata=(Xori-Xmin)/Xmean
其中,Xdata为校正后的光谱数据,Xori为原始光谱数据,Xmin为基准光谱数据,Xmean为校正前光谱数据平均值。
5.根据权利要求1所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述对预处理后的污水近红外光谱数据集进行降维得到特征变换向量包括:
利用主成分分析法对预处理后的污水近红外光谱数据集进行降维得到变换特征向量。
6.根据权利要求5所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述利用主成分分析法对预处理后的污水近红外光谱数据集进行降维得到变换特征向量包括:
将预处理后的污水近红外光谱数据集组成n行m列矩阵,其中,m为污水近红外光谱数据集的维度,n为污水近红外光谱数据集的样本数量;
对所述矩阵中每一行去除平均值得到标准化矩阵Z;
计算标准化矩阵Z的协方差矩阵R,并计算所述协方差矩阵的特征值和特征向量,其中,
Figure FDA0003825605580000021
将所述特征值从大到小排列,选取前M个特征值对应的M个特征向量作为行向量组成特征向量矩阵P,其中,M<n;
将所述标准化矩阵Z与所述特征向量矩阵P相乘得到特征变换向量Y,Y=PZ。
7.根据权利要求2所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述污水近红外光谱的化学需氧量浓度预测模型的训练过程包括:
为所述特征变换向量中的行向量分配权重,并输入至弱分类器中进行迭代训练,其中,所述特征变换向量中的行向量的初始权重相等;
计算每次迭代后的预测误差,其中,第t次迭代后预测误差的计算公式为:
Figure FDA0003825605580000031
其中,n为特征变换向量的行向量数,xi为特征变换向量的第i行向量,yi为特征变换向量中第i行向量的标签值,ωt为第t次迭代时特征变换向量的权重矩阵,
Figure FDA0003825605580000032
为每一行向量的相对误差;
根据第t次迭代后的预测误差计算第t次迭代的弱分类器的权重,其计算公式为:
Figure FDA0003825605580000033
根据第t次迭代后的预测误差更新第t+1次迭代时特征变换向量的权重,其计算公式为:
Figure FDA0003825605580000034
其中,Ct为归一化常数;
将更新权重后的特征变换向量输入第t+1次迭代的弱分类器中进行预测,直到达到预设迭代次数后,组合全部弱分类器得到污水近红外光谱的化学需氧量浓度预测模型A(x):
Figure FDA0003825605580000035
其中,T为预设迭代次数,ht(x)表示各弱分类器,x为污水近红外光谱数据。
8.根据权利要求2所述的污水近红外光谱的化学需氧量评估方法,其特征在于,所述污水近红外光谱的化学需氧量分类模型的训练过程包括:
为所述特征变换向量中的行向量分配权重,并输入至弱分类器中进行迭代训练,其中,所述特征变换向量中的行向量的初始权重相等;
计算每次迭代后的分类误差,其中,第t次迭代后分类误差的计算公式为:
Figure FDA0003825605580000041
其中,n为特征变换向量的行向量数,xi为特征变换向量的第i行向量,yi为特征变换向量中第i行向量的标签值,Γ(yi≠ht(xi))为判断错误的行向量集合,wt为第t次迭代时特征变换向量的权重矩阵;
根据第t次迭代后的分类误差计算第t次迭代的弱分类器的权重,其计算公式为:
Figure FDA0003825605580000042
根据第t次迭代后的分类误差更新第t+1次迭代时特征变换向量的权重,其计算公式为:
Figure FDA0003825605580000043
其中,Ct为归一化常数;
将更新权重后的特征变换向量输入第t+1次迭代的弱分类器中进行分类,直到达到预设迭代次数后,组合全部弱分类器得到污水近红外光谱的化学需氧量分类模型H(x):
Figure FDA0003825605580000044
其中,T为预设迭代次数,Γ(ht(x)=k)表示第i行向量分类结果为第k类的概率,
Figure FDA0003825605580000051
函数选择最大的k输出,ht(x)表示各弱分类器,x为污水近红外光谱数据。
9.根据权利要求2所述的污水近红外光谱的化学需氧量评估方法,其特征在于,当所述污水近红外光谱的化学需氧量评估模型为污水近红外光谱的化学需氧量浓度预测模型时,利用近红外光谱仪对待检测的污水样本进行扫描,将得到的污水近红外光谱数据输入所述污水近红外光谱的化学需氧量浓度预测模型中,根据预测结果判断水体是否受有机物污染;
当所述污水近红外光谱的化学需氧量评估模型为污水近红外光谱的化学需氧量分类模型时,利用近红外光谱仪对待检测的污水样本进行扫描,将得到的污水近红外光谱数据输入所述污水近红外光谱的化学需氧量分类模型中,根据分类结果判断水体受有机物污染的程度。
10.一种污水近红外光谱的化学需氧量评估系统,其特征在于,包括:
数据采集与预处理模块,用于采集历史污水近红外光谱数据并对所述数据进行预处理得到预处理后的污水近红外光谱数据集;
数据降维模块,用于对预处理后的污水近红外光谱数据集进行降维得到特征变换向量;
模型训练模块,用于利用adaboost算法对所述特征变换向量进行预设次数的迭代训练,得到完成训练的污水近红外光谱的化学需氧量评估模型。
CN202211056903.2A 2022-08-31 2022-08-31 一种污水近红外光谱的化学需氧量评估方法及系统 Withdrawn CN115420707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211056903.2A CN115420707A (zh) 2022-08-31 2022-08-31 一种污水近红外光谱的化学需氧量评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211056903.2A CN115420707A (zh) 2022-08-31 2022-08-31 一种污水近红外光谱的化学需氧量评估方法及系统

Publications (1)

Publication Number Publication Date
CN115420707A true CN115420707A (zh) 2022-12-02

Family

ID=84200307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211056903.2A Withdrawn CN115420707A (zh) 2022-08-31 2022-08-31 一种污水近红外光谱的化学需氧量评估方法及系统

Country Status (1)

Country Link
CN (1) CN115420707A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117035230A (zh) * 2023-08-08 2023-11-10 上海东振环保工程技术有限公司 一种基于大数据分析的污水处理设备运行状态评估方法
CN117059201A (zh) * 2023-07-26 2023-11-14 佛山市南舟智能科技有限公司 一种污水化学需氧量的预测方法、装置、设备及存储介质
CN117059201B (zh) * 2023-07-26 2024-06-11 佛山市南舟智能科技有限公司 一种污水化学需氧量的预测方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059201A (zh) * 2023-07-26 2023-11-14 佛山市南舟智能科技有限公司 一种污水化学需氧量的预测方法、装置、设备及存储介质
CN117059201B (zh) * 2023-07-26 2024-06-11 佛山市南舟智能科技有限公司 一种污水化学需氧量的预测方法、装置、设备及存储介质
CN117035230A (zh) * 2023-08-08 2023-11-10 上海东振环保工程技术有限公司 一种基于大数据分析的污水处理设备运行状态评估方法
CN117035230B (zh) * 2023-08-08 2024-04-30 上海东振环保工程技术有限公司 一种基于大数据分析的污水处理设备运行状态评估方法

Similar Documents

Publication Publication Date Title
CN108362662B (zh) 近红外光谱相似度计算方法、装置和物质定性分析系统
CN112285056B (zh) 一种用于光谱样品个性化校正集选择及建模方法
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
CN115221927A (zh) 一种紫外-可见光谱的溶解有机碳检测方法
US20230029474A1 (en) Machine vision for characterization based on analytical data
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统
CN110887798B (zh) 基于极端随机树的非线性全光谱水体浊度定量分析方法
CN113310934A (zh) 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
Głowacz et al. Comparison of various data analysis techniques applied for the classification of oligopeptides and amino acids by voltammetric electronic tongue
CN116519661A (zh) 一种基于卷积神经网络的大米识别检测方法
CN116187861A (zh) 基于同位素的水质溯源监测方法及相关装置
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
CN115236044A (zh) 荧光光谱法计算水环境中溶解性有机碳浓度的方法和装置
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
CN110632024B (zh) 一种基于红外光谱的定量分析方法、装置、设备以及存储介质
CN113702328A (zh) 一种成品油的性质分析方法、装置、设备及存储介质
CN115398552A (zh) 遗传算法用于基于拉曼光谱识别样品特征的用途
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
CN113674814B (zh) 一种光谱定量分析模型的构建方法及装置
CN117093841B (zh) 小麦透射光谱的异常光谱筛选模型确定方法、装置及介质
CN110286094B (zh) 一种基于聚类分析的光谱模型转移方法
CN109060681B (zh) 痕量金属离子浓度区间预测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221202

WW01 Invention patent application withdrawn after publication