CN117309838A - 一种基于三维荧光特征数据的工业园区水体污染溯源方法 - Google Patents

一种基于三维荧光特征数据的工业园区水体污染溯源方法 Download PDF

Info

Publication number
CN117309838A
CN117309838A CN202311533331.7A CN202311533331A CN117309838A CN 117309838 A CN117309838 A CN 117309838A CN 202311533331 A CN202311533331 A CN 202311533331A CN 117309838 A CN117309838 A CN 117309838A
Authority
CN
China
Prior art keywords
data
dimensional fluorescence
dimensional
characteristic data
fluorescence spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311533331.7A
Other languages
English (en)
Inventor
刘锐
殷新育
兰亚琼
陈吕军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze Delta Region Institute of Tsinghua University Zhejiang
Original Assignee
Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze Delta Region Institute of Tsinghua University Zhejiang filed Critical Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority to CN202311533331.7A priority Critical patent/CN117309838A/zh
Publication of CN117309838A publication Critical patent/CN117309838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6402Atomic fluorescence; Laser induced fluorescence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/20Controlling water pollution; Waste water treatment

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Optics & Photonics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明提供了一种基于三维荧光特征数据的工业园区水体污染溯源方法。该方法包括:对待溯源区域内的污水样本进行采集,获取对应的三维荧光数据,对获取的三维荧光数据进行处理,将处理的数据提取荧光强度指标作为三维荧光特征属性,输入向量机中进行训练,构建污染源三维荧光识别模型。本发明通过预先构建的三维荧光识别模型,可以在发现园区河道内水质异常事件发生后,精确锁定污染源头,避免了传统荧光溯源耗时长,信息利用率不高等缺点,提高了识别的准确率与科学性。

Description

一种基于三维荧光特征数据的工业园区水体污染溯源方法
技术领域
本发明涉及水污染溯源技术领域,尤其涉及一种基于三维荧光特征数据的工业园区水体污染溯源方法。
背景技术
随着中国工业化的高速发展,工业园区发展迅速,工业废水排放量也日渐增多。许多工业废水,即使经过广泛处理,依然比天然水生环境中含有更高的有机物负荷。这种工业废水的排放可能对水体产生有害影响。由于工业园区内企业众多,部分企业生产工艺及产品高度相似,且区域内管网复杂,存在管网老化、偷排漏排等问题,污水泄漏后会影响周边水体。一旦周边水体受到异常水体冲击后,难以追溯到污染源企业。为了能应对突发性工业园区内河道水质异常事件,准确地追溯到水体污染物来源企业,及时阻断污染进一步扩散,如何实现工业园区内水体污染源企业的快速识别成为关键性问题。
三维荧光光谱法是利用不同类别化合物具有不同的荧光响应,依据激发波长(Ex)、发射波长(Em)和荧光强度形成的三维光谱信息,对物质进行半定量分析的方法,具有操作简单、经济高效、灵敏度高、选择性好、信息量大等特点,可为水体污染源的识别提供“指纹”依据。工业园区相关产业集中,废水成分相似,水质波动大,三维荧光光谱相似度高,其荧光特征也容易发生变化。仅仅直接通过三维荧光图谱在相关产业集中的工业园区中难以准确找到对应的排污企业,因此,有必要引入图谱解析方法结合机器学习算法实现工业园区污染源企业的识别。
工业园区废水中有机物种类较多,成分相似并且浓度较高,会出现三维荧光光谱图复杂交织难以区分的情况。传统的峰值法和荧光区域法无法从根本上解决荧光峰重叠的问题,容易造成结果的偏差。平行因子分析法(PARAFAC)是基于三线性分解理论,采用交替最小二乘原理,迭代求解的多维数据分解算法,能将三维荧光光谱的原始数据拆分为不同的特征峰,从而进行解谱。但是目前的研究是将所有样本一起进行拟合分析,拆分为不同的组分,进行物质定性定量分析;并未将平行因子分析法的结果作为特征提取的基础,提取出关键光谱信息,构建与污染源企业的联系,以此实现水体污染物的溯源。
近年来,随着机器学习在目标识别、图像处理等领域的广泛应用,利用支持向量机(SVM)对三维荧光光谱进行研究成为一种趋势。SVM是一类按监督学习方式对数据进行分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。具体来说,就是在线性可分时,在原空间寻找两类样本的最优分类超平面;在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。与逻辑回归和神经网络相比,SVM在解决复杂的小样本非线性数据的分类识别问题时,提供了一种更为清晰,更加强大的方式。
发明内容
本发明提供了一种基于三维荧光特征数据的工业园区水体污染溯源方法,将三维荧光分析手段应用到工业园区水体污染溯源上,对同类型的企业进行模型构建,能够在对河道有机物污染点位进行筛查时,提升有机污染排查效率。
具体技术方案如下:
一种基于三维荧光特征数据的工业园区水体污染溯源方法,包括以下步骤:
(1)采集待溯源区域内相同行业的各企业总废水排口的污水,对污水样本进行三维荧光光谱扫描,获取各样本对应的三维荧光光谱数据;
(2)对获取的三维荧光光谱数据依次进行数据清洗、拉曼校正处理、内滤校正和数据归一化处理,并使用平行因子分析法和比较寻峰法,提取得到三维荧光光谱特征数据;再以各企业为单位,对提取的三维荧光光谱特征数据进行分类,得到分类后的训练集;
(3)将所述训练集输入至支持向量机模型中进行训练,得到用于识别企业污染源的三维荧光识别模型;
(4)将采集到的待溯源的样本数据输入至步骤(3)所述的企业污染源三维荧光识别模型中,得到与待溯源样本匹配的污染企业。
进一步地,步骤(1)中,所述相同行业是指企业的生产类型相似,属于统一行业;所述的涉水企业的污水为经企业污水处理设施后,各企业总废水排口的水样。
进一步地,步骤(1)中,使用日立公司生产的F-4700型荧光光谱仪在室温25℃下测量待测样品。
进一步地,步骤(1)中,F-4700型荧光光谱仪的仪器主要性能参数如下:150W疝灯、700V PMT电压、Ex/Em扫描范围为220-450nm/260-600nm,间隔为5nm,扫描速度为2400nm/min,带宽为5nm。
进一步地,步骤(1)中,通过软件导出三维数据txt文档,获得不同企业的三维荧光光谱数据。
进一步地,步骤(2)中,所述数据清洗包括:将异常的行/列数值进行删除,其中行数值为三维荧光光谱数据中的发射波长数值,列数值为三维荧光光谱数据中的激发波长数值;所述异常行/列数值的判断依照以下公式:
式(1)中,x为异常的行/列数值,为行/列数值的平均值,σ为行/列数值平均值的标准差。
进一步地,步骤(2)中,拉曼校正处理与内滤校正之间还包括拉曼瑞利散射的去除;
所述拉曼瑞利散射的去除方法为:利用超纯水将拉曼校正处理后的三维荧光光谱数据的Ex/Em=350/371-428nm的区域去除,并以0值插入去除区域内进行替换,保留荧光特征最明显的区域。
进一步地,步骤(2)中,使用内滤校正公式将经过拉曼瑞利散射的去除后的三维荧光光谱数据进行内滤校正处理,得到内滤校正处理后的三维荧光光谱数据,所述内滤校正公式为:
式(2)中,Qcorr表示内滤校正后的荧光值,Qobs表示内滤校正前的荧光值,AbsEx表示激发光的吸光度,AbsEm表示发射光的吸光度。
进一步地,步骤(2)中,使用数据归一化处理对内滤校正处理后的三维荧光光谱数据进行处理,所述数据归一化处理的方式包括:
利用mapminmax函数中对经过数据清洗处理后的三维荧光光谱数据进行归一化处理,将数据归一化在[0,1]之间,公式为:
式(3)中,y表示归一化后的值,ymax表示归一化后的最大值,ymin表示归一化后的最小值,x表示原始数据,xmax表示原始数据的最大值,xmin表示原始数据的最小值。
进一步地,步骤(2)中,所述三维荧光光谱特征数据为荧光强度最大的激发/发射波长下对应的荧光强度指标;提取得到三维荧光光谱特征数据的方法为:
步骤(2-1),使用核一致诊断法或拟合残差分析对样本中的荧光物质组成成分进行解析,得到荧光物质组分数F;
步骤(2-2),再使用平行因子分析法对三维数据矩阵进行分解,得到每个组分下对应的发射矩阵B和激发矩阵C,收集在两个矩阵中F个组分荧光强度最大的激发/发射波长,作为三维荧光光谱特征数据的激发/发射波长;
步骤(2-3),对步骤(2-2)获取得到的激发/发射波长进行范围扩展校正,扩展范围为±10nm,将校正后的区域作为三维荧光光谱特征数据的提取区域;
步骤(2-4),对提取区域内的激发/发射波长下对应的荧光强度指标进行提取;
步骤(2-5),利用比较寻峰法,对步骤(2-4)中提取的荧光强度指标进行峰强度的对比,获取最强峰的荧光强度指标,将最强峰的荧光强度指标作为三维荧光光谱特征数据。
核一致诊断法或拟合残差分析是一种对样本中的荧光物质组成成分进行解析的方法,通过对处理后的水样进行解析,确定F个荧光物质成分,F会影响平行因子分析法得到的最终结果,当F过低时,得到的成分不具有物理意义,当F过高时,会导致算法的过拟合或计算结果不稳定;其中核一致诊断法是通过核一致函数对组分数的合理性进行诊断;拟合残差分析是通过残差平方和来评估残差的分布情况对组分数的合理性进行诊断;
三维数据矩阵是将收集到的三维荧光光谱数据表示为一个三维数据矩阵X,其中矩阵的三个维度分别对应于样本S,通常是样品的数量、激发波长E,通常是不同的激发波长、和发射波长M,通常是不同的发射波长;矩阵X的元素(x_s,e,m)表示在第s个样本、第e个激发波长和第m个发射波长下测得的荧光强度值;
核一致诊断法的主要步骤包括:
(1)选择因子数量即F值:选择可能的因子数量F,并对数据进行多次模型拟合,每次使用不同的F值;
(2)计算核矩阵:对于每个尝试的F值,计算一个核矩阵;核矩阵是一个描述因子在不同模型中的一致性的矩阵;这通常涉及到在不同的模型下重新计算模型拟合,并比较它们之间的相似度;
(3)计算核一致性指标:使用核矩阵来计算核一致性指标(Core ConsistencyIndex,CCI);CCI是一个介于0和1之间的值,表示因子结构的一致性。较高的CCI值表示模型中存在较强的因子结构一致性;
(4)选择最佳因子数量:根据CCI值,选择具有最高一致性的因子数量作为最佳模型的F值;通常较高的CCI值对应于更可靠的模型。
拟合残差分析(Residual Analysis):拟合残差分析用于评估模型的拟合质量,以检查模型是否可以充分解释数据或是否存在未解释的变异;具体步骤包括:
(1)计算拟合残差:在模型拟合后,计算每个数据点的拟合残差,即观测值与模型预测值之间的差异;拟合残差可以通过计算原始数据矩阵与重构数据矩阵之间的差异来获得;
(2)检查残差分布:对拟合残差进行统计分析,包括计算残差平方和、绘制残差分布图;如果残差呈正态分布且均值接近零,表示模型的拟合效果较好;
(3)查找异常值:检查是否存在异常值或明显偏离正常分布的残差数据点;这些异常值可能表示模型对某些样本或波长的拟合不佳;
(4)调整模型:如果拟合残差分析表明模型不适合或需要改进,可以尝试调整因子数量F,以获得更好的拟合效果。
进一步地,步骤(2-2)中,所述平行因子分析法公式为:
式(4)中,i为样本,I为最大样本数,f为组分数,F为总组分的个数,j为发射波长,J为最大发射波长,k为激发波长,K为最大激发波长;xijk是三维数据矩阵X(I×J×K)中的元素,表示在发射波长为j、激发波长为k的条件下第i个样品测得的荧光强度;aif为荧光组分强度矩阵A(I×F)的元素,表示第i个样本中第f个组分相对浓度值;bjf为发射矩阵B(J×F)中的元素,表示第f个组分在波长j处的荧光强度;ckf为激发矩阵C(K×F)中的元素,表示第f个组分在波长k处的荧光强度;εijk代表模型无法解释的信号所构成的残差矩阵;
三维荧光光谱数据的矩阵为X(I×J×K),将其分解为三个载荷矩阵,分别为:荧光强度矩阵A(I×F)、发射矩阵B(J×F)、激发矩阵C(K×F)的乘积;
得到三维荧光光谱特征数据后,还应当将三维荧光光谱特征数据以企业为单位进行分类,得到分类后的训练集。
在支持向量机训练过程中,支持向量机的惩罚因子参数c和核函数参数g都是影响模型预测准确率的重要因素,这些参数的值通常是根据经验公式或者人为取得,并没有理论上的支持,存在着不确定性,对污染源的识别结果会有一定的影响;因此,构建模型时需要对这两个参数进行优化,本发明通过灰狼算法对参数c和核函数参数g进行优化得到最优的参数,从而不断地提高支持向量机算法对污染源识别的准确度。
进一步地,步骤(3)中,得到用于识别企业污染源的三维荧光识别模型的方法,包括:
步骤(3-1),利用支持向量机对步骤(2)分类后的训练集进行训练;
步骤(3-2),训练过程中,采用灰狼算法对惩罚参数c和核函数参数g进行优化;得到用于识别每个企业污染源的三维荧光识别模型;
步骤(3-3),在步骤(1)采集的每个污染企业的污水样本中随机选取若干未建模的样本作为预测集,检验模型识别性能;
进一步地,步骤(3-1)中,所述训练集包含各企业对应的虚拟编号和三维荧光特征数据;支持向量机高斯核函数线性模型公式为:
式(5)中,ai为拉格朗日乘子,b为偏差,xi为输入向量,g表示径向基核函数宽度,x为输入向量,y(x)为模型的输出。
式(5)中,选择径向基函数作为核函数后,考虑到容错性,引入惩罚因子c;因此,支持向量机中需要优化的参数为惩罚因子c(c≥0)和核函数参数g(g>0);
进一步地,步骤(3-2)中,使用灰狼算法对支持向量机的惩罚因子参数c和核函数参数g优化,将支持向量机的惩罚因子参数c和核函数参数g组成一个空间向量,作为灰狼群的一个初始位置,通过灰狼算法进行优化,优化的过程为:
(3-2-1)经处理后的各企业废水水样中三维荧光特征作为支持向量机的输入端,输出层为以各企业虚拟编号为名称的模型,设定惩罚因子参数c和核函数参数g的取值范围,随机产生初始化参数值。
(3-2-2)根据初始化的c和g初始化狼群的位置,初始化算法距离控制参数a以及系数A和C,使用训练样本对支持向量机进行训练,并将初始位置输入模型,以计算灰狼个体的适应度值,即平均识别精度。
(3-2-3)保留具有最优适应度值的前三只狼α、β、δ,并根据当前最优适应度值,更新每只狼的位置。
(3-2-4)若已达到最大迭代次数或目标函数值达到最优时,则终止迭代循环,输出由最优位置得出的全局最优参数c和g,否则返回步骤(3-2-3)继续进行迭代。
(3-2-5)输出最优参数c和g,并对训练数据重新进行支持向量机训练。
进一步地,步骤(3-2)中,输出的用于识别企业污染源的三维荧光识别模型,以企业为单位,每家企业具有一个单独的模型。
进一步地,步骤(4)中,得到与待溯源样本匹配的污染企业的过程为:
步骤(4-1),将步骤(4)中采集得到的待溯源的样本数据进行三维荧光光谱数据的获取,对三维荧光光谱数据依次进行数据清洗、数据归一化、拉曼校正处理和内滤校正处理;
步骤(4-2),将步骤(4-1)处理后的数据使用平行因子分析法和比较寻峰法对三维荧光光谱数据特征进行提取;
步骤(4-3),将步骤(4-2)中提取后的特征数据分别输入至步骤(3)中得到的三维荧光识别模型中,通过识别得到污染源头;
步骤(4-4),将得到污染源头的水样数据储存到数据库中,完善数据库中三维荧光特征数据信息。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种基于三维荧光特征数据的工业园区水体污染溯源方法,将三维荧光分析手段应有到应用到工业园区水体污染溯源上,对同类型的企业进行模型构建,能够在对河道有机物污染点位进行筛查时,提升有机污染排查效率,污染溯源的准确性与科学性。
附图说明
图1为实施例中一种基于三维荧光特征数据的水污染溯源方法流程图。
图2为应用例中企业的三维荧光等高线图谱。
图3为实施例中将激发/发射波长上下扩展10nm所确定的三维荧光特征提取区域。
图4为应用例中企业不同批次提取的三维荧光特征数据。
图5为本发明提供的灰狼算法优化支持向量机的具体过程示意图。
图6为将激发/发射波长上下扩展10nm校正前后的模型识别结果对比。
具体实施方式
下面结合具体实施例对本发明作进一步描述,以下列举的仅是本发明的具体实施例,但本发明的保护范围不仅限于此。
实施例1
本案例提供了一种基于三维荧光特征数据的工业园区水体污染溯源方法,具体包括以下步骤:
(1)采集待溯源区域内相同行业的各企业总废水排口的污水,对污水样本进行三维荧光光谱扫描,获取各样本对应的三维荧光光谱数据;
相同行业是指企业的生产类型相似,属于统一行业;涉水企业的污水为经企业污水处理设施后,各企业总废水排口的水样;使用日立公司生产的F-4700型荧光光谱仪在室温25℃下测量待测样品;F-4700型荧光光谱仪的仪器主要性能参数如下:150W疝灯、700VPMT电压、Ex/Em扫描范围为220-450nm/260-600nm,间隔为5nm,扫描速度为2400nm/min,带宽为5nm;通过软件导出三维数据txt文档,获得不同企业的三维荧光光谱数据。
(2)对获取的三维荧光光谱数据依次进行数据清洗、数据归一化、拉曼校正处理和内滤校正,并使用平行因子分析法和比较寻峰法对三维荧光光谱数据特征进行提取,再以各企业为单位,对提取的特征数据进行分类,得到分类后的训练集;
数据清洗包括:将异常的行/列数值进行删除,其中行数值为三维荧光光谱数据中的发射波长数值,列数值为三维荧光光谱数据中的激发波长数值;所述异常行/列数值的判断依照以下公式:
式(1)中,x为异常的行/列数值,为行/列数值的平均值,σ为行/列数值平均值的标准差。
拉曼校正处理与内滤校正之间还包括拉曼瑞利散射的去除;拉曼瑞利散射的去除方法为:利用超纯水将拉曼校正处理后的三维荧光光谱数据的Ex/Em=350/371-428nm的区域去除,并以0值插入去除区域内进行替换,保留荧光特征最明显的区域。
使用内滤校正公式将经过拉曼瑞利散射的去除后的三维荧光光谱数据进行内滤校正处理,得到内滤校正处理后的三维荧光光谱数据,所述内滤校正公式为:
式(2)中,Qcorr表示内滤校正后的荧光值,Qobs表示内滤校正前的荧光值,AbsEx表示激发光的吸光度,AbsEm表示发射光的吸光度。
使用数据归一化处理对内滤校正处理后的三维荧光光谱数据进行处理,数据归一化处理的方式包括:
利用mapminmax函数中对经过数据清洗处理后的三维荧光光谱数据进行归一化处理,将数据归一化在[0,1]之间,公式为:
式(3)中,y表示归一化后的值,ymax表示归一化后的最大值,ymin表示归一化后的最小值,x表示原始数据,xmax表示原始数据的最大值,xmin表示原始数据的最小值。
三维荧光光谱特征数据为荧光强度最大的激发/发射波长下对应的荧光强度指标;提取得到三维荧光光谱特征数据的方法为:
步骤(2-1),使用核一致诊断法或拟合残差分析对样本中的荧光物质组成成分进行解析,得到荧光物质组分数F;
步骤(2-2),再使用平行因子分析法对三维数据矩阵进行分解,得到每个组分下对应的发射矩阵B和激发矩阵C,收集在两个矩阵中F个组分荧光强度最大的激发/发射波长,作为三维荧光光谱特征数据的激发/发射波长;
步骤(2-3),对步骤(2-2)获取得到的激发/发射波长进行范围扩展校正,扩展范围为±10nm,将校正后的区域作为三维荧光光谱特征数据的提取区域;
步骤(2-4),对提取区域内的激发/发射波长下对应的荧光强度指标进行提取;
步骤(2-5),利用比较寻峰法,对步骤(2-4)中提取的荧光强度指标进行峰强度的对比,获取最强峰的荧光强度指标,将最强峰的荧光强度指标作为三维荧光光谱特征数据。
步骤(2-2)中,所述平行因子分析法公式为:
式(4)中,i为样本,I为最大样本数,f为组分数,F为总组分的个数,j为发射波长,J为最大发射波长,k为激发波长,K为最大激发波长;xijk是三维数据矩阵X(i×J×K)中的元素,表示在发射波长为j、激发波长为k的条件下第i个样品测得的荧光强度;aif为荧光组分强度矩阵A(I×F)的元素,表示第i个样本中第f个组分相对浓度值;bjf为发射矩阵B(J×F)中的元素,表示第f个组分在波长j处的荧光强度;ckf为激发矩阵C(K×F)中的元素,表示第f个组分在波长k处的荧光强度;εijk代表模型无法解释的信号所构成的残差矩阵;
三维荧光光谱数据的矩阵为X(I×J×K),将其分解为三个载荷矩阵,分别为:荧光强度矩阵A(I×F)、发射矩阵B(J×F)、激发矩阵C(K×F)的乘积;
得到三维荧光特征后,还应当将三维荧光特征以企业为单位进行分类,得到分类后的训练集。
(3)将所述训练集输入至支持向量机模型中进行训练,得到用于识别企业污染源的三维荧光识别模型;
得到用于识别企业污染源的三维荧光识别模型的方法,包括:
步骤(3-1),利用支持向量机对步骤(2)分类后的训练集进行训练;
步骤(3-2),训练过程中,采用灰狼算法对惩罚参数c和核函数参数g进行优化;输出用于识别企业污染源的三维荧光识别模型。
步骤(3-3),在步骤(1)采集的每个污染企业的污水样本中随机选取若干未建模的样本作为预测集,检验模型识别性能;
步骤(3-1)中,所述训练集包含各企业对应的虚拟编号和三维荧光特征数据;支持向量机高斯核函数线性模型公式为:
式(5)中,ai为拉格朗日乘子,b为偏差,xi为输入向量,g表示径向基核函数宽度,x为输入向量,y(x)为模型的输出。
式(5)中,选择径向基函数作为核函数后,考虑到容错性,引入惩罚因子c;因此,支持向量机中需要优化的参数为惩罚因子c(c≥0)和核函数参数g(g>0);
步骤(3-2)中,使用灰狼算法对支持向量机的惩罚因子参数c和核函数参数g优化,将支持向量机的惩罚因子参数c和核函数参数g组成一个空间向量,作为灰狼群的一个初始位置,通过灰狼算法进行优化,优化的过程为:
(3-2-1)经处理后的各企业废水水样中三维荧光特征作为支持向量机的输入端,输出层为以各企业虚拟编号为名称的模型,设定惩罚因子参数c和核函数参数g的取值范围,随机产生初始化参数值。
(3-2-2)根据初始化的c和g初始化狼群的位置,初始化算法距离控制参数a以及系数A和C,使用训练样本对支持向量机进行训练,并将初始位置输入模型,以计算灰狼个体的适应度值,即平均识别精度。
(3-2-3)保留具有最优适应度值的前三只狼α、β、δ,并根据当前最优适应度值,更新每只狼的位置。
(3-2-4)若已达到最大迭代次数或目标函数值达到最优时,则终止迭代循环,输出由最优位置得出的全局最优参数c和g,否则返回步骤(3-2-3)继续进行迭代。
(3-2-5)输出最优参数c和g,并对训练数据重新进行支持向量机训练。
步骤(3-2)中,输出的用于识别企业污染源的三维荧光识别模型,以企业为单位,每家企业具有一个单独的模型;
(4)将采集到的待溯源的样本数据输入至步骤(3)所述的企业污染源三维荧光识别模型中,得到与待溯源样本匹配的污染企业。
得到与待溯源样本匹配的污染企业的过程为:
步骤(4-1),将步骤(4)中采集得到的待溯源的样本数据进行三维荧光光谱数据的获取,对三维荧光光谱数据依次进行数据清洗、数据归一化、拉曼校正处理和内滤校正处理;
步骤(4-2),将步骤(4-1)处理后的数据使用平行因子分析法和比较寻峰法对三维荧光光谱数据特征进行提取;
步骤(4-3),将步骤(4-2)中提取后的特征数据分别输入至步骤(3)中得到的三维荧光识别模型中,通过识别得到污染源头;
步骤(4-4),将得到污染源头的水样数据储存到数据库中,完善数据库中三维荧光特征数据信息。
应用例1
利用本发明的方法对7家化工企业废水的分类识别。
(1)使用日立公司生产的F-4700型荧光光谱仪在室温25℃下测量7家化工企业的三维荧光光谱;
a.样品准备:采集7家企业总废水排放口水样,每家企业准备10个样本,共70个样本。具体企业信息见表1。将整个样本集划分为训练集(49个水样,每家企业7个)和测试集(21个水样,每家企业3个)。
表1企业相关信息
b.仪器主要性能参数如下:150W疝灯、700V PMT电压、Ex/Em扫描范围为220-450nm/260-600nm,间隔为5nm,扫描速度为2400nm/min,带宽为5nm。
c.通过软件导出三维数据txt文档,获得不同企业的三维荧光光谱数据。图2分别为7家企业的三维荧光等高线图谱。
d.对所有样本的三维荧光光谱数据进行预处理,采用纯水样方法空白扣除法,利用超纯水Ex/Em=350/371-428nm的积分值进行拉曼校正和消除瑞利散射。
e.所有样本采用mapminmax归一化对荧光指标数据进行处理,将数据归一化在[0,1]之间,以消除水样浓度的影响。
(2)平行因子分析法分解及比较寻峰法;
(a)组分数的确定
激发发射矩阵按照样本叠加成三维数据矩阵(47×341×70)。通过核一致诊断法或拟合残差分析,结果如表2所示,可以确定当组分数F=3时,可释方差为98.8%,残差为94.7,核一致达到75.3,模型为三线性模型,平行因子分解准确性较高。
表2平行因子组分估计
(b)荧光特征数据的获得
利用平行因子分解方法对三维数据矩阵进行分解,可以得到三种组分(component1、component2、component3)的激发载荷矩阵A、发射载荷矩阵B以及对应的荧光强度;表3为7家企业的3个组分激发/发射波长汇总表,附图3为将激发/发射波长上下扩展10nm所确定的三维荧光特征提取区域。
表3平行因子波长汇总
(3)支持向量机识别模型构建;
将提取出的荧光特征数据作为支持向量机的输入,建立识别模型。设定支持向量机类型为分类模型,核函数类型为径向基函数,惩罚因子参数c和核函数参数g采用灰狼算法优化后的参数。将企业的名称作为模型的输出值,设定虚拟变量1-7代表不同的企业编号。
(4)模型参数优化及预测;
采用灰狼算法对模型参数进行优化,设置灰狼算法的交叉验证为5,种群规模为20,最大进化次数k为200,惩罚因子参数c和核函数参数g的搜索范围为(0.01,100)。由以上优化后的参数构建的SVM模型对测试集样本的输出结果如图所示。从图中可以看出测试集里除了第1个样本误判为其他企业,其余都识别准确,识别准确率高达95.24%。模型参数和识别结果如表所示。
表4模型性能参数及结果

Claims (10)

1.一种基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,包括以下步骤:
(1)采集待溯源区域内相同行业的各企业总废水排口的污水,对污水样本进行三维荧光光谱扫描,获取各样本对应的三维荧光光谱数据;
(2)对获取的三维荧光光谱数据依次进行数据清洗、拉曼校正处理、内滤校正和数据归一化处理,并使用平行因子分析法和比较寻峰法,提取得到三维荧光光谱特征数据;再以各企业为单位,对提取的三维荧光光谱特征数据进行分类,得到分类后的训练集;
(3)将所述训练集输入至支持向量机模型中进行训练,得到用于识别企业污染源的三维荧光识别模型;
(4)将采集到的待溯源的样本数据输入至步骤(3)所述的企业污染源三维荧光识别模型中,得到与待溯源样本匹配的污染企业。
2.如权利要求1所述的基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(2)中,所述数据清洗包括:将异常的行/列数值进行删除,其中行数值为三维荧光光谱数据中的发射波长数值,列数值为三维荧光光谱数据中的激发波长数值;所述异常行/列数值的判断依照以下公式:
式(1)中,x为异常的行/列数值,为行/列数值的平均值,σ为行/列数值平均值的标准差。
3.如权利要求1所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(2)中,拉曼校正处理与内滤校正之间还包括拉曼瑞利散射的去除;
所述拉曼瑞利散射的去除方法为:利用超纯水将拉曼校正处理后的三维荧光光谱数据的Ex/Em=350/371-428nm的区域去除,并以0值插入去除区域内进行替换,保留荧光特征最明显的区域。
4.如权利要求1所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(2)中,使用内滤校正公式将经过拉曼瑞利散射的去除后的三维荧光光谱数据进行内滤校正处理,得到内滤校正处理后的三维荧光光谱数据,所述内滤校正公式为:
式(2)中,Qcorr表示内滤校正后的荧光值,Qobs表示内滤校正前的荧光值,AbsEx表示激发光的吸光度,AbsEm表示发射光的吸光度。
5.如权利要求1所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(2)中,使用数据归一化处理对内滤校正处理后的三维荧光光谱数据进行处理,所述数据归一化处理的方式包括:
利用mapminmax函数中对经过数据清洗处理后的三维荧光光谱数据进行归一化处理,将数据归一化在[0,1]之间,公式为:
式(3)中,y表示归一化后的值,ymax表示归一化后的最大值,ymin表示归一化后的最小值,x表示原始数据,xmax表示原始数据的最大值,xmin表示原始数据的最小值。
6.如权利要求1所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(2)中,所述三维荧光光谱特征数据为荧光强度最大的激发/发射波长下对应的荧光强度指标;提取得到三维荧光光谱特征数据的方法为:
步骤(2-1),使用核一致诊断法或拟合残差分析对样本中的荧光物质组成成分进行解析,得到荧光物质组分数F;
步骤(2-2),再使用平行因子分析法对三维数据矩阵进行分解,得到每个组分下对应的发射矩阵B和激发矩阵C,收集在两个矩阵中F个组分荧光强度最大的激发/发射波长,作为三维荧光光谱特征数据的激发/发射波长;
步骤(2-3),对步骤(2-2)获取得到的激发/发射波长进行范围扩展校正,扩展范围为±10nm,将校正后的区域作为三维荧光光谱特征数据的提取区域;
步骤(2-4),对提取区域内的激发/发射波长下对应的荧光强度指标进行提取;
步骤(2-5),利用比较寻峰法,对步骤(2-4)中提取的荧光强度指标进行峰强度的对比,获取最强峰的荧光强度指标,将最强峰的荧光强度指标作为三维荧光光谱特征数据。
7.如权利要求6所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(2-2)中,所述平行因子分析法公式为:
式(4)中,i为样本,I为最大样本数,f为组分数,F为总组分的个数,j为发射波长,J为最大发射波长,k为激发波长,K为最大激发波长;xijk是三维数据矩阵X(J×J×K)中的元素,表示在发射波长为j、激发波长为k的条件下第i个样品测得的荧光强度;aif为荧光组分强度矩阵A(I×F)的元素,表示第i个样本中第f个组分相对浓度值;bjf为发射矩阵B(J×F)中的元素,表示第f个组分在波长j处的荧光强度;ckf为激发矩阵C(K×F)中的元素,表示第f个组分在波长k处的荧光强度;εijk代表模型无法解释的信号所构成的残差矩阵。
8.如权利要求1所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(3)中,得到用于识别企业污染源的三维荧光识别模型的方法,包括:
步骤(3-1),利用支持向量机对步骤(2)分类后的训练集进行训练;
步骤(3-2),训练过程中,采用灰狼算法对惩罚参数c和核函数参数g进行优化;得到用于识别每个企业污染源的三维荧光识别模型;
步骤(3-3),在步骤(1)采集的每个污染企业的污水样本中随机选取若干未建模的样本作为预测集,检验模型识别性能。
9.如权利要求8所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(3-1)中,所述训练集包含各企业对应的虚拟编号和三维荧光特征数据;支持向量机高斯核函数线性模型公式为:
式(5)中,ai为拉格朗日乘子,b为偏差,xi为输入向量,g表示径向基核函数宽度,x为输入向量,y(x)为模型的输出。
10.如权利要求1所述基于三维荧光特征数据的工业园区水体污染溯源方法,其特征在于,步骤(4)中,得到与待溯源样本匹配的污染企业的过程为:
步骤(4-1),将步骤(4)中采集得到的待溯源的样本数据进行三维荧光光谱数据的获取,对三维荧光光谱数据依次进行数据清洗、数据归一化、拉曼校正处理和内滤校正处理;
步骤(4-2),将步骤(4-1)处理后的数据使用平行因子分析法和比较寻峰法对三维荧光光谱数据特征进行提取;
步骤(4-3),将步骤(4-2)中提取后的特征数据分别输入至步骤(3)中得到的三维荧光识别模型中,通过识别得到污染源头;
步骤(4-4),将得到污染源头的水样数据储存到数据库中,完善数据库中三维荧光特征数据信息。
CN202311533331.7A 2023-11-16 2023-11-16 一种基于三维荧光特征数据的工业园区水体污染溯源方法 Pending CN117309838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311533331.7A CN117309838A (zh) 2023-11-16 2023-11-16 一种基于三维荧光特征数据的工业园区水体污染溯源方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311533331.7A CN117309838A (zh) 2023-11-16 2023-11-16 一种基于三维荧光特征数据的工业园区水体污染溯源方法

Publications (1)

Publication Number Publication Date
CN117309838A true CN117309838A (zh) 2023-12-29

Family

ID=89285114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311533331.7A Pending CN117309838A (zh) 2023-11-16 2023-11-16 一种基于三维荧光特征数据的工业园区水体污染溯源方法

Country Status (1)

Country Link
CN (1) CN117309838A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522653A (zh) * 2024-01-05 2024-02-06 同济大学 基于三维荧光和市政管网bim模型的雨污混接溯源分析方法
CN117668685A (zh) * 2024-01-31 2024-03-08 江苏省南京环境监测中心 一种地下水污染快速溯源方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522653A (zh) * 2024-01-05 2024-02-06 同济大学 基于三维荧光和市政管网bim模型的雨污混接溯源分析方法
CN117522653B (zh) * 2024-01-05 2024-03-26 同济大学 基于三维荧光和市政管网bim模型的雨污混接溯源分析方法
CN117668685A (zh) * 2024-01-31 2024-03-08 江苏省南京环境监测中心 一种地下水污染快速溯源方法及系统
CN117668685B (zh) * 2024-01-31 2024-04-05 江苏省南京环境监测中心 一种地下水污染快速溯源方法及系统

Similar Documents

Publication Publication Date Title
CN117309838A (zh) 一种基于三维荧光特征数据的工业园区水体污染溯源方法
CN101401101B (zh) 用于通过谱分析鉴定dna模式的方法和系统
Vu et al. An integrated workflow for robust alignment and simplified quantitative analysis of NMR spectrometry data
CN110717368A (zh) 一种纺织品定性分类方法
CN112712108B (zh) 一种拉曼光谱多元数据分析方法
de Boves Harrington Support vector machine classification trees based on fuzzy entropy of classification
CN110702648B (zh) 基于非下采样轮廓波变换的荧光光谱污染物分类方法
CN116187861A (zh) 基于同位素的水质溯源监测方法及相关装置
CN1283791A (zh) 一种测定渣油组分含量的方法
CN117309831A (zh) 一种基于三维荧光lpp-svm的河道有机物的污染的溯源方法
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
Celik et al. Biological cartography: Building and benchmarking representations of life
CN116664944A (zh) 一种基于属性特征知识图谱的葡萄园害虫识别方法
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
CN113408616B (zh) 基于pca-uve-elm的光谱分类方法
CN113138181B (zh) 一种对清香型原酒品质分级的方法
Orlov et al. Computer vision for microscopy applications
CN116595461A (zh) 一种基于随机森林识别的雨水口晴天排污溯源方法
CN112001436A (zh) 一种基于改进的极限学习机的水质分类方法
CN1283790A (zh) 一种测定渣油组分含量的方法
CN116380869A (zh) 一种基于自适应稀疏分解的拉曼光谱去噪方法
CN114262733B (zh) 一种微滴式数字pcr荧光信号处理方法
CN114970722A (zh) 一种污染物识别方法、装置、电子设备及存储介质
CN115508322A (zh) 一种水污染源多维度溯源方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination