CN111426668A

CN111426668A - 一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法

Info

Publication number: CN111426668A
Application number: CN202010350110.6A
Authority: CN
Inventors: 杨宇红; 王欣; 高贝贝; 何鹰; 魏峨尊
Original assignee: Hua Xia An Jian Wu Lian Technology Qingdao Co ltd
Current assignee: Hua Xia An Jian Wu Lian Technology Qingdao Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-07-17
Anticipated expiration: 2040-04-28
Also published as: CN111426668B

Abstract

本发明公开了一种利用荧光光谱特征对污染水体溯源分类识别的方法，该分类识别方法包含根据三维荧光光谱数据，提取其特征，构建基本荧光光谱数据库和特征荧光光谱数据库，用K‑means算法构建荧光光谱聚类的基础模型，并将K‑means聚类结果作为PNN概率神经网络的模式层和求和层进行训练，得到输入样本的所属类别。在此基础上，利用该PNN神经网络对未知污水样本进行预测判定其归属类别。为获得未知样本匹配信息，将该未知样本同类别中所有已知样本的基本荧光光谱数据，特征光谱数据纳入比对识别库中，用相似性比对计算，获得未知样本与同类别中所有已知样本的相似性匹配度，匹配项得分最高者为两个样本最佳匹配，得到未知样本的疑似溯源信息。

Description

一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法

技术领域

本发明属于环境科学领域，特别涉及该领域中的一种利用荧光光谱特征对污染水体溯源分类识别的方法。

背景技术

环保部门对排污企业监管通常依靠在污染源排放口安装在线监测设备的方式，一旦监测或检测到企业排水超过排污标准，对其实施追责。监管部门有时也会采用人工排查的方式对污染事故发生后沿水体流向或排水管网向上游逐步排查，检测和对比异常水样和排污企业水样，以实现非法排放的溯源和追责。上述的监管方式存在一些不足之处，一些不法企业通过人为改动和破坏在线监测设备，或利用在线监测设备运行周期间隔、利用现有在线监测设备检查项目不能及时溯源的特点，采用各种方式方法进行非法偷排。为了加大整治企业非法偷排漏排，监管部门须对众多涉及污染事故的上游企业进行逐一摸排，不仅消耗大量人力物力，而且由于未能及时锁定肇事企业，让一些非法偷排漏排企业逍遥法外。

近年来，随着国家对环境保护和监管要求的提高，一些具有监测预警溯源功能的环保在线监测设备逐渐受到重视。荧光光谱仪由于可以获得污水特有的三维荧光光谱，即污水的“指纹图谱”，这种指纹图谱对不同行业、不同企业排放的废水具有指纹唯一性或排它性，因此在污水的监测预警和溯源中，通常借助于相似度的算法比较两张荧光光谱及其属性的相似性以达到识别比对溯源的目的。污水溯源中较常用的相似度算法有余弦相似性、Peason系数和调整余弦相似性等几种，这几种相似性算法都是基于激发波长—发射波长—荧光强度矩阵的数据结构来进行计算的。然而实践中发现，在数据比较稀疏的情况下，如稀疏矩阵，特别是当荧光峰为单峰且荧光强度值远大于大量背景噪音值时，这些相似性计算方法由于对具体数值的绝对值大小不敏感，均存在一定问题，造成相似性识别比对结果的错误。

发明内容

本发明所要解决的技术问题就是提供一种识别准确且稳定性高的利用三维荧光光谱特征信息对污染水体溯源分类识别的方法。

本发明采用如下技术方案：

一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，包括如下步骤：

(1)信息调查：确定污水排放企业名称及所属行业、地理位置、主要产品及生产工艺、联系人；

(2)样品采集与扫描：对采集的污染排放源的废水样品进行编号，用0.45微米滤膜过滤后上机扫描，获取其荧光光谱；对扫描后的污水样本进行稀释，再次扫描并获取其荧光光谱，样本的稀释倍数，按荧光峰强度的高低设置自动稀释；

(3)数据处理：将上机扫描获得的荧光光谱数据消除瑞利散射、拉曼散射干扰，得到基本荧光光谱，将各个样本基本荧光光谱数据分别构建为发射波长—激发波长—荧光强度数据矩阵；

(4)数据库：将数据处理得到的各个样本数据矩阵组成基本荧光光谱数据库，从基本荧光光谱数据库中的光谱数据提取特征信息，根据特征信息属性分为峰特征数据、平面特征数据和立体特征数据，并根据特征信息属性构建峰特征数据库、平面特征数据库和立体特征数据库；

(5)聚类：对于数据库中众多的样本，采用分类识别的方法以提高识别率，在分类之前，根据特征荧光光谱库中的单峰、双峰、三峰以及多峰数据，分别使用均值聚类算法(K-means算法)进行聚类，其工作原理是对于给定一个数据点集合和需要的聚类数目K，K由用户指定，K-means算法根据某个距离函数反复把数据分入K个聚类中；

对于单峰，将所有N₁个单峰样本的峰中心坐标，即发射波长EM和激发波长EX组成单峰特征数据库，设定类别K₁的数目(K₁<＝N₁)，用K-means算法通过反复迭代运算，逐步降低目标函数的误差值，求得满足方差最小标准的K₁个聚类，这个聚类结果被当作单峰类聚类结果；

对于双峰，将所有N₂个双峰样本的峰中心坐标，按峰强度高低排列，如F1>F2，即峰F1发射波长EM1、激发波长EX1和峰F2发射波长EM2、激发波长EX2组成双峰特征数据库，设定类别K₂的数目(K₂<＝N₂)，用K-means算法通过反复迭代运算，逐步降低目标函数的误差值，求得满足方差最小标准的K₂个聚类，这个聚类结果被当作双峰类聚类结果。

多于双峰的情况参照上述处理过程，获得多峰聚类结果，聚类时以控制同类别中不同企业数量为2-5时为佳。

(6)分类：在获得聚类结果的基础上，将聚类结果引入神经网络模式层构建概率神经网络，即PNN神经网络，该PNN神经网络分为4层：

第一层输入层，将特征向量传入网络，输入层个数就是样本特征的个数，以样本荧光峰数目为特征，以单峰、双峰、三峰或多峰的发射波长和激发波长为特征向量；

第二层模式层，计算输入特征向量与训练集中各个模式的匹配程度，也就是相似度，将其距离送入高斯函数得到模式层的输出，模式层神经元的个数是输入样本矢量的个数，也就是有多少个样本，该层就有多少个神经元，该模式层可以是样本通过K-means算法聚类得到的，但不限于使用K-means算法得到；

第三层求和层，将各个类的模式层单元连接起来，这一层的神经元个数是样本的类别数目，即用K-means算法得到的类别；

第四层输出层，输出求和层根据各类对输入向量概率的估计，采用Bayes分类规则，选择具有最小“风险”的类别，即具有最大后验概率的类别，作为得分最高的那一类输出；

(7)识别比对：对未知企业污水样本在获取三维荧光光谱数据后，经过与上述过程相同的数据处理计算，得到峰特征数据、平面特征数据和立体特征数据。用已构建好的PNN神经网络，对未知企业污水样本峰特征数据进行概率神经网络预测分类，获得该样本的分类结果，由于该分类样本中荧光峰特征信息相似，必须通过其它特征信息的相似性比对计算，才能获得最终的未知企业与疑似企业污水识别比对的结果，因此将该类别中所有已知样本的基本荧光光谱数据，特征光谱数据纳入比对识别库中，借助于相似性比对计算，获得未知样本与同类别中所有已知样本的相似性匹配度，将所有相似匹配项的得分值相加，得分最高者为两个样本最佳匹配，即可获得未知样本的疑似溯源信息。

进一步的，在步骤(4)中，所述的峰特征数据库不限于由发射波长和激发波长组成，亦可由峰强度Q、发射波长EM和激发波长EX组成，或由峰强度Q、峰强度比值、发射波长和激发波长组成。

进一步的，在步骤(5)中，对于单峰、双峰、三峰及多峰数据的聚类，需要结合污水排放企业调查信息，所述的信息包括但不限于企业所属行业、产品生产工艺和排放污水荧光光谱，把性质接近的指定为一类，同时使得每一类中不同企业属性的样本数量以2-5个为宜；

综合污染物化学性质与荧光光谱特征，可以利用K-means算法聚类得到如下类别：类蛋白、芳香族蛋白质类、类络氨酸、类色氨酸、紫外类富里酸、可见类富里酸、类富里酸、类腐殖酸、海洋腐殖酸类和可见腐殖酸类，此外还可以按照企业归属行业和产品性质进行聚类。

进一步的，在步骤(6)中，PNN神经网络构建完成后，通过不断增加样本训练和验证，确保分类结果的可靠，当输出层把最大后验概率的类别输出后，如果其输出结果与K-means算法给定的训练结果不一致，需要人为调整该样本在模式层的类别位置，以适应PNN的预测，不断地进行这样的调整，以使所有的样本经PNN网络训练后误差最小，经过这样处理后的PNN神经网络就可以对未知样本进行分类判别了。

PNN神经网络的构建根据需要可以做适当调整，可在输入层增加峰强度、峰强度比等特征向量与荧光峰数目共同组成新的输入层，当训练样本的期望输出与PNN网络的仿真输出完全重合时，说明网络训练成功，可用来预测未知样本的类别，平滑因子选定为1.5-5。

进一步的，在步骤(7)中，所述的其它特征信息的相似性比对计算包括利用基本荧光光谱数据、峰特征数据、平面特征数据和立体特征数据构建的数据矩阵，进行余弦相似性、Peason系数和调整余弦相似性等的计算。

本发明的有益效果是：

本发明首次提出了按三维荧光光谱特征分类识别比对的方法，根据三维荧光光谱数据，提取其特征，构建基本荧光光谱数据库和特征荧光光谱数据库，借助于K-means算法构建荧光光谱聚类的基础模型，并将K-means算法聚类结果作为PNN概率神经网络的模式层和求和层进行训练，使得PNN训练网络误差最小，得到输入样本的所属类别。利用该PNN神经网络对未知污水样本进行预测判定其归属类别。为进一步获得未知样本匹配信息，将该类别中所有已知样本的基本荧光光谱数据，特征光谱数据纳入比对识别库中，借助于相似性比对计算，获得未知样本与同类别中所有已知样本的相似性匹配度，匹配项得分最高者为两个样本最佳匹配，即可获得未知样本的疑似溯源信息。

本发明提出的利用荧光光谱特征对污染水体溯源分类识别的方法，具有快速处理大量污水荧光光谱相近相似信息、实现现场监测仪器自动运行、准确识别污染源的优势，对污水溯源具有重要意义。

附图说明

图1是本发明实施例1所公开方法的流程示意图；

图2是本发明步骤(4)中单峰平面的峰中心坐标F1(x₁,y₁)；

图3是本发明步骤(4)中单峰平面内由点F1(x₁,z₁)、

和

组成的三角形；

图4是本发明步骤(4)中双峰平面内由点F1(x₁,y₁)、F2(x₂,y₂)和p组成的三角形；

图5是本发明步骤(4)中三峰平面内由点F1(x₁,y₁)、F2(x₂,y₂)和F3(x₃,y₃)组成的三角形；

图6是本发明步骤(4)中多峰平面内由点F1、F2、F3和F4组成的两个三角形；

图7是本发明步骤(4)中单峰的立体特征；

图8是本发明步骤(4)中双峰的立体特征；

图9是本发明步骤(4)中三峰的立体特征；

图10是本发明步骤(4)中多峰的立体特征；

图11是单峰和双峰PNN概率神经网络分类及预测图；

图12是19家企业污水样本分为10类图；

图13是10家企业污水样本分为5类图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1，如图1所示，本实施例公开了一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，包括如下步骤：

(4)数据库：用数据处理得到的各个样本数据矩阵组成基本荧光光谱数据库，从基本荧光光谱数据库中的光谱数据提取特征信息，根据特征信息属性分为峰特征数据、平面特征数据和立体特征数据，并根据特征信息属性构建峰特征数据库、平面特征数据库和立体特征数据库；

所述的峰特征数据库包括单峰库、双峰库、三峰库和多峰库；峰特征数据库中样本荧光峰为单峰的，由发射波长EM和激发波长EX组成；峰特征数据库中样本荧光峰为双峰的，由发射波长EM1、激发波长EX1、发射波长EM2和激发波长EX2组成；峰特征数据库中样本荧光峰为三峰的，由发射波长EM1、激发波长EX1、发射波长EM2、激发波长EX2、发射波长EM3和激发波长EX3组成，多峰库以此类推；

所述的平面特征数据库包括从荧光光谱特征信息中提取荧光峰F的强度值Q，由该强度值Q获得的发射波长EM、激发波长EX构成峰中心坐标(EM,EX)，按样本荧光峰数目计算该样本的其它平面特征，所述的平面特征包括但不限于峰强度比、单峰的半峰宽、峰间距、峰峰连线与x轴间的夹角及多峰连线形成的三角形内角和各边斜率，计算时需要将不同量纲的荧光强度值Q、发射波长EM和激发波长EX进行归一化后进行，归一化的方法包括但不限于将(EM,EX,Q)转换为(x,y,z)；

所述的峰坐标由峰强度Q、发射波长EM和激发波长EX构成；所述的峰中心坐标由发射波长EM和激发波长EX构成；

对于单峰，从荧光光谱特征信息中提取荧光峰F1的强度值Q1、如图2所示，由发射波长EM和激发波长EX构成峰中心坐标F1(x₁,y₁)；

取峰F1强度值Q1的一半时的发射波长值作为半峰宽坐标，即

计算发射波长的变化(x₂-x₁)，如图3所示，由点F1(x₁,z₁)、

和

组成三角形，并计算该三角形的面积，计算各边长度，计算斜边与x轴的夹角α、计算斜边F1(x₁,z₁)和

连线的斜率k；

对于双峰，从荧光光谱特征信息提取荧光峰F1和F2，其荧光强度值分别为Q1和Q2、由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)和F2(x₂,y₂)，计算两荧光峰强度比Q1/Q2，计算两荧光峰中心坐标F1(x₁,y₁)和F2(x₂,y₂)之间的距离|F1F2|，如图4所示，由点F1(x₁,y₁)、F2(x₂,y₂)和p组成三角形，并计算该三角形的面积，p为水平穿过点F1(x₁,y₁)的直线与垂直穿过点F2(x₂,y₂)的直线的交点、三角形三个内角，计算F1(x₁,y₁)和F2(x₂,y₂)连线的斜率k；

对于三峰，从荧光光谱特征信息提取荧光峰F1、F2和F3，其荧光强度值由大到小排列分别为Q1、Q2和Q3，由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)、F2(x₂,y₂)和F3(x₃,y₃)，计算两两荧光峰强度比Q1/Q2、Q1/Q3、Q2/Q3，计算两两荧光峰中心坐标之间的距离|F1F2|、|F1F3|、|F2F3|，如图5所示，由点F1(x₁,y₁)、F2(x₂,y₂)和F3(x₃,y₃)组成三角形，计算该三角形F1F2F3面积、三角形的三个内角α、β和θ，三条边的斜率k1、k2和k3；

对于多峰，即荧光峰有三个以上的样本，从荧光光谱特征信息提取荧光峰F1、F2、F3和F4，按荧光峰强度由大到小排列Q1、Q2、Q3和Q4，由发射波长和激发波长构成峰中心坐标，计算两两荧光峰强度比Q1/Q2、Q1/Q3、Q1/Q4、Q2/Q3……，计算两两荧光峰中心坐标之间的距离|F1F2|、|F1F3|、|F1F4|、|F2F3|、|F2F4|和|F3F4|，如图6所示，由点F1、F2、F3和F4组成两个三角形，分别计算三角形F1F2F3和F1F2F4的面积、计算三角形F1F2F3的内角α、β、θ，计算三角形F1F2F4的内角σ、λ、ω，计算线段F1F2、F1F3、F1F4斜率k1、k2和k3，

所述的立体特征数据库包括从荧光光谱特征信息中提取荧光峰F的强度值Q，由该强度值Q获得由发射波长EM、激发波长EX构成的峰坐标(EM,EX,Q)和峰中心坐标(EM,EX)，按样本荧光峰数目计算该样本的立体特征，所述的立体特征包括但不限于立方体的体积，计算时需要将不同量纲的荧光强度值Q、发射波长EM和激发波长EX进行归一化后进行，归一化的方法包括但不限于将(EM,EX,Q)转换为(x,y,z)；

对于单峰，从荧光光谱特征信息中提取荧光峰F1的强度值Q1、由发射波长EM和激发波长EX构成峰中心坐标F1(x₁,y₁)，由发射波长EM、激发波长EX和荧光强度Q1构成荧光峰坐标F1(x₁,y₁,z₁)；

如图7所示，取峰F1强度值Q1的一半时的发射波长值作为半峰宽坐标，即

计算发射波长的变化(x₂-x₁)，以此作为圆锥的半径，结合已知荧光峰值Q1，可以计算圆锥的体积V1；

如图8所示，对于双峰，从荧光光谱特征信息中提取荧光峰F1和F2，其荧光强度值由大到小排列分别为Q1和Q2、由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)和F2(x₂,y₂)，由发射波长EM1、激发波长EX1和荧光强度Q1构成荧光峰F1坐标F1(x₁,y₁,z₁)；由发射波长EM2、激发波长EX2和荧光强度Q2构成荧光峰F2坐标F2(x₂,y₂,z₂)；计算最大荧光峰Q1的半峰宽及坐标，即当Q1值由z₁变成0.5z₁时，半峰高坐标为F1(x₁,y₁,0.5z₁)，发射波长的变化(x11-x1)，即半峰宽坐标为F1(x₁₁,y₁,0.5z₁)；根据4个空间坐标F1(x₁,y₁,z₁)、F2(x₂,y₂,z₂)、F1(x₁,y₁,0.5z₁)和F1(x₁₁,y₁,0.5z₁)可以组成一个四面体，该四面体有4个面，6条棱，4个顶点，由此可以获得组成该四面体的空间结构各项参数，包括计算该四面体的6个棱的边长、6个二面角，计算该四面体的4个三面角、4个三角形面积，计算该四面体的体积；

如图9所示，对于三峰，从荧光光谱特征信息中提取荧光峰F1、F2和F3，其荧光强度值由大到小排列分别为Q1、Q2和Q3、由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)、F2(x₂,y₂)和F3(x₃,y₃)，分别用a’、b’和c’表示；由发射波长EM1、激发波长EX1和荧光强度Q1构成荧光峰F1坐标F1(x₁,y₁,z₁)；由发射波长EM2、激发波长EX2和荧光强度Q2构成荧光峰F2坐标F2(x₂,y₂,z₂)；由发射波长EM3、激发波长EX3和荧光强度Q3构成荧光峰F3坐标F3(x₃,y₃,z₃)，三个坐标分别用a、b和c表示；将三个峰坐标点与三个峰中心坐标点相连组成一个多面体，该多面体可以看作由两个三角形abc和a’b’c’、三个四边形aa’b’b、aa’c’c和bb’c’c组成；该多面体可由一个截面分拆为一个四面体和一个下底面为四边形的四棱锥，计算四面体和四棱锥的体积；

如图10所示，对于多峰，从荧光光谱特征信息中提取荧光峰F1、F2、F3和F4，其荧光强度值由大到小排列分别为Q1、Q2、Q3和Q4，由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)、F2(x₂,y₂)、F3(x₃,y₃)和F4(x₄,y₄)，分别以a’、b’、c’和d’表示；由发射波长EM1、激发波长EX1和荧光强度Q1构成荧光峰F1坐标F1(x₁,y₁,z₁)，以a表示；由发射波长EM2、激发波长EX2和荧光强度Q2构成荧光峰F2坐标F2(x₂,y₂,z₂)，以b表示；由发射波长EM3、激发波长EX3和荧光强度Q3构成荧光峰F3坐标F3(x₃,y₃,z₃)，以c表示；由发射波长EM4、激发波长EX4和荧光强度Q4构成荧光峰F4坐标F4(x₄,y₄,z₄)，以d表示；将峰坐标点F1(x₁,y₁,z₁)、F2(x₂,y₂,z₂)、F3(x₃,y₃,z₃)与峰中心坐标点F1(x₁,y₁)、F2(x₂,y₂)、F3(x₃,y₃)相连组成一个多面体，F1(x₁,y₁,z₁)、F3(x₃,y₃,z₃)、F4(x₄,y₄,z₄)与峰中心坐标点F1(x₁,y₁)、F3(x₃,y₃)F4(x₄,y₄)相连组成另一个多面体；即由四峰组成的多面体可以拆分为两个小的多面体；

对于上述多峰拆分的两个多面体的处理方法可以与三峰形成的一个多面体的处理方法一样，即首先把多面体拆分为一个四面体和一个四棱锥，然后分别对四面体和四棱锥的体积进行计算；

(5)聚类：根据特征荧光光谱库中的单峰、双峰、三峰以及多峰数据，分别使用K-means算法进行聚类；

对于单峰，将所有N₁个单峰样本的峰中心坐标，即发射波长EM和激发波长EX组成单峰特征数据库，设定类别K₁的数目K₁<＝N₁，用K-means算法通过反复迭代运算，逐步降低目标函数的误差值，求得满足方差最小标准的K₁个聚类，这个聚类结果被当作单峰类聚类结果；

对于双峰，将所有N₂个双峰样本的峰中心坐标，按峰强度高低排列，如F1>F2，即峰F1发射波长EM1、激发波长EX1和峰F2发射波长EM2、激发波长EX2组成双峰特征数据库，设定类别K₂的数目K₂<＝N₂，用K-means算法通过反复迭代运算，逐步降低目标函数的误差值，求得满足方差最小标准的K₂个聚类，这个聚类结果被当作双峰类聚类结果；

多于双峰的情况参照上述处理方法，获得多峰聚类结果；

(7)识别比对：对未知企业污水样本在获取三维荧光光谱数据后，经过与上述过程相同的数据处理计算，得到峰特征数据、平面特征数据和立体特征数据，用已构建好的PNN神经网络，对未知企业污水样本峰特征数据进行概率神经网络预测分类，获得该样本的分类结果，由于该分类样本中荧光峰特征信息相似，必须通过其它特征信息的相似性比对计算，才能获得最终的未知企业与疑似企业污水识别比对的结果，因此将该类别中所有已知样本的基本荧光光谱数据，特征光谱数据纳入比对识别库中，借助于相似性比对计算，获得未知样本与同类别中所有已知样本的相似性匹配度，将所有相似匹配项的得分值相加，得分最高者为两个样本最佳匹配，即可获得未知样本的疑似溯源信息。

在本实施例的步骤(4)中，所述的峰特征数据库不限于由发射波长和激发波长组成，亦可由峰强度Q、发射波长EM和激发波长EX组成，或由峰强度Q、峰强度比值、发射波长和激发波长组成。

在步骤(5)中，对于单峰、双峰、三峰及多峰数据的聚类，需要结合污水排放企业调查信息，所述的信息包括但不限于企业所属行业、产品生产工艺和排放污水荧光光谱，把性质接近的指定为一类，同时使得每一类中不同企业属性的样本数量以2-5个为宜；

在步骤(6)中，PNN神经网络构建完成后，通过不断增加样本训练和验证，确保分类结果的可靠，当输出层把最大后验概率的类别输出后，如果其输出结果与K-means算法给定的训练结果不一致，需要人为调整该样本在模式层的类别位置，以适应PNN的预测，不断地进行这样的调整，以使所有的样本经PNN网络训练后误差最小，经过这样处理后的PNN神经网络就可以对未知样本进行分类判别了。PNN神经网络的构建根据需要可以做适当调整，可在输入层增加峰强度、峰强度比等特征向量与荧光峰数目共同组成新的输入层，当训练样本的期望输出与PNN网络的仿真输出完全重合时，说明网络训练成功，可用来预测未知样本的类别，平滑因子选定为1.5-5。

在步骤(7)中，所述的其它特征信息的相似性比对计算包括利用基本荧光光谱数据、峰特征数据、平面特征数据和立体特征数据构建的数据矩阵，进行余弦相似性、Peason系数和调整余弦相似性等的计算。

以下通过举例的方式对本实施例进行进一步的详细说明：

1.PNN概率神经网络构建：有15家企业，其废水荧光特征峰如下：8家企业污水荧光峰为单峰，7家企业污水荧光峰为双峰。其中对于具有单峰的8家企业污水样本，稀释前后共计获得样本数29个，对于具有双峰的7家企业污水样本，稀释前后共计获得样本数25个。将29个单峰样本的峰坐标数据用K-means算法按3类聚类，聚类结果为A1、A2和A3，其中A1类由3家企业构成分别为a₁₁、a₁₂和a₁₃；A2类由2家企业构成分别为a₂₁和a₂₃；A3类由3家企业构成分别为a₃₁、a₃₂和a₃₃。将25个双峰样本的峰坐标数据用K-means算法按3类聚类，聚类结果为B1、B2和B3，其中B1类由2家企业构成分别为b₁₁和b₁₂；B2类由3家企业构成分别为b₂₁、b₂₂和b₂₃；B3类由2家企业构成分别为b₃₁和b₃₂；将上述K-means聚类结果作为PNN概率神经网络模式层和求和层神经元进行训练，取任意企业的样本进行预测分类，输出层结果与K-means算法聚类结果一致，具体见图11。

2.按荧光光谱峰数目分类识别：某园区有59家工业企业，其中42家排污企业每日废水排放量占园区污水总排放量的91％，涉及石油、化工、制药等行业。污水厂废水进口处COD值范围204-9500mg/L,氨氮范围13-182mg/L,总磷范围0.09-26.7mg/L。采集这42家企业污水样本，样本经稀释或多次稀释，扫描获取稀释前后的三维荧光光谱数据，编号构建为基本荧光光谱数据库。提取荧光光谱特征信息，构建平面特征库和立体特征光谱数据库，按荧光光谱峰数目分类后，具有单个荧光峰的企业数19家，样本数56个；具有两个荧光峰的企业10家，样本数26个；具有三个荧光峰的企业8家，样本数24个；具有三个荧光峰以上的企业5家，样本数17个。如图12所示，对具有单个荧光峰的19家企业污水样本，首先用K-means算法聚类，按10类进行聚类，根据聚类分类的结果，用PNN神经网络进行训练和调整，使得训练后的结果误差最小。如图13所示，对具有双峰的10家企业污水样本，首先用K-means算法聚类，按5类进行聚类，根据聚类分类的结果，用PNN神经网络进行训练和调整，使得训练后的结果误差最小；类似地，对三个荧光峰的8家企业污水样本，按3类聚类，用PNN神经网络进行训练和调整，使得训练后的结果误差最小；对最后5家企业，按2类聚类，用PNN神经网络进行训练和调整，使得训练后的结果误差最小。

任意取上述42家企业中6家的污水样本作为盲样，稀释编号后，扫描获取稀释前后污水的三维荧光光谱数据，提取荧光光谱特征信息，计算各平面特征和立体特征信息。根据6家企业污水荧光光谱峰数目，用PNN神经网络进行分类，获得分类结果后，将PNN神经网络中的同类与其组成相似度比对识别库，逐一进行相似度比对，相似度比对得分最高者视为最大疑似企业。盲样分类比对识别的结果完全正确。

3.按单荧光峰分类识别：某园区有103家工业企业，采集其中71家排污企业废水样本，样本经稀释或多次稀释，共计样本258个，扫描获取稀释前后的三维荧光光谱数据，编号构建为基本荧光光谱数据库。提取荧光光谱特征信息，构建平面特征库和立体特征光谱数据库，按荧光光谱峰数目分类后，具有单个荧光峰的样本数86个，具有两个荧光峰的样本数119个；具有三个荧光峰的样本数38个；具有三个荧光峰以上的样本数15个。对具有单个荧光峰的86个污水样本，首先用K-means算法按15类进行聚类，根据聚类分类的结果，再用PNN神经网络进行训练和调整，使得训练后的结果误差最小。对具有双峰的119个污水样本，将其拆解为两组单峰样本，一组由荧光峰为F1的荧光峰中心坐标组成，另一组由荧光峰为F2的荧光峰中心坐标组成，分别用K-means算法按18类进行聚类，然后用PNN神经网络进行训练和调整，使得训练后的结果误差最小。对具有三个荧光峰的38个污水样本，将其拆解为三组单峰样本，一组由荧光峰为F1的荧光峰中心坐标组成，另一组由荧光峰为F2的荧光峰中心坐标组成，最后一组由荧光峰为F3的荧光峰中心坐标组成。分别用K-means算法按10类进行聚类，然后用PNN神经网络进行训练和调整，使得训练后的结果误差最小。同样地，对于具有三个荧光峰以上的15个污水样本，将其拆解为多组单峰样本，分别用K-means算法按3-5类进行聚类，然后用PNN神经网络进行训练和调整，使得训练后的结果误差最小。

任意取上述企业中10家的污水样本作为盲样，稀释编号后，样本总数为39个。扫描获取稀释前后污水的三维荧光光谱数据，提取荧光光谱特征信息，计算各平面特征和立体特征信息。根据这10家企业污水荧光光谱峰数目进行分类，将单峰类样本，用已建立的PNN神经网络进行分类，获得分类结果后，将PNN神经网络中的同类与其组成相似度比对识别库，逐一进行相似度比对，相似度比对得分最高者视为最大疑似企业。同样地，将非单峰类样本拆解为单峰样本后，按上述相同的方法，用已建立的PNN神经网络进行分类，获得分类结果后，将PNN神经网络中的同类与其组成相似度比对识别库，逐一进行相似度比对，相似度比对得分最高者视为最大疑似企业。盲样分类比对识别的结果完全正确。

Claims

1.一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，其特征在于，包括如下步骤：

对于单峰，从荧光光谱特征信息中提取荧光峰F1的强度值Q1、由发射波长EM和激发波长EX构成峰中心坐标F1(x₁,y₁)；

取峰F1强度值Q1的一半时的发射波长值作为半峰宽坐标，即

计算发射波长的变化(x₂-x₁)，并由此计算点

和

组成的三角形面积，计算各边长度，计算斜边与x轴的夹角α、计算斜边F1(x₁,z₁)和

连线的斜率k；

对于双峰，从荧光光谱特征信息提取荧光峰F1和F2，其荧光强度值分别为Q1和Q2、由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)和F2(x₂,y₂)，计算两荧光峰强度比Q1/Q2，计算两荧光峰中心坐标F1(x₁,y₁)和F2(x₂,y₂)之间的距离|F1F2|，并由此计算点F1(x₁,y₁)、F2(x₂,y₂)和p组成的三角形面积，p为水平穿过点F1(x₁,y₁)的直线与垂直穿过点F2(x₂,y₂)的直线的交点、三角形三个内角，计算F1(x₁,y₁)和F2(x₂,y₂)连线的斜率k；

对于三峰，从荧光光谱特征信息提取荧光峰F1、F2和F3，其荧光强度值由大到小排列分别为Q1、Q2和Q3，由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)、F2(x₂,y₂)和F3(x₃,y₃)，计算两两荧光峰强度比Q1/Q2、Q1/Q3、Q2/Q3，计算两两荧光峰中心坐标之间的距离|F1F2|、|F1F3|、|F2F3|，计算三角形F1F2F3面积、三角形的三个内角α、β和θ，三条边的斜率k1、k2和k3；

对于多峰，即荧光峰有三个以上的样本，从荧光光谱特征信息提取荧光峰F1、F2、F3和F4，按荧光峰强度由大到小排列Q1、Q2、Q3和Q4，由发射波长和激发波长构成峰中心坐标，计算两两荧光峰强度比Q1/Q2、Q1/Q3、Q1/Q4、Q2/Q3……，计算两两荧光峰中心坐标之间的距离|F1F2|、|F1F3|、|F1F4|、|F2F3|、|F2F4|和|F3F4|，分别计算三角形F1F2F3和F1F2F4的面积、计算三角形F1F2F3的内角α、β、θ，计算三角形F1F2F4的内角σ、λ、ω，计算线段F1F2、F1F3、F1F4斜率k1、k2和k3，

取峰F1强度值Q1的一半时的发射波长值作为半峰宽坐标，即

对于双峰，从荧光光谱特征信息中提取荧光峰F1和F2，其荧光强度值由大到小排列分别为Q1和Q2、由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)和F2(x₂,y₂)，由发射波长EM1、激发波长EX1和荧光强度Q1构成荧光峰F1坐标F1(x₁,y₁,z₁)；由发射波长EM2、激发波长EX2和荧光强度Q2构成荧光峰F2坐标F2(x₂,y₂,z₂)；计算最大荧光峰Q1的半峰宽及坐标，即当Q1值由z₁变成0.5z₁时，半峰高坐标为F1(x₁,y₁,0.5z₁)，发射波长的变化(x11-x1)，即半峰宽坐标为F1(x₁₁,y₁,0.5z₁)；根据4个空间坐标F1(x₁,y₁,z₁)、F2(x₂,y₂,z₂)、F1(x₁,y₁,0.5z₁)和F1(x₁₁,y₁,0.5z₁)可以组成一个四面体，该四面体有4个面，6条棱，4个顶点，由此可以获得组成该四面体的空间结构各项参数，包括计算该四面体的6个棱的边长、6个二面角，计算该四面体的4个三面角、4个三角形面积，计算该四面体的体积；

对于三峰，从荧光光谱特征信息中提取荧光峰F1、F2和F3，其荧光强度值由大到小排列分别为Q1、Q2和Q3、由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)、F2(x₂,y₂)和F3(x₃,y₃)，分别用a’、b’和c’表示；由发射波长EM1、激发波长EX1和荧光强度Q1构成荧光峰F1坐标F1(x₁,y₁,z₁)；由发射波长EM2、激发波长EX2和荧光强度Q2构成荧光峰F2坐标F2(x₂,y₂,z₂)；由发射波长EM3、激发波长EX3和荧光强度Q3构成荧光峰F3坐标F3(x₃,y₃,z₃)，三个坐标分别用a、b和c表示；将三个峰坐标点与三个峰中心坐标点相连组成一个多面体，该多面体可以看作由两个三角形abc和a’b’c’、三个四边形aa’b’b、aa’c’c和bb’c’c组成；该多面体可由一个截面分拆为一个四面体和一个下底面为四边形的四棱锥，计算四面体和四棱锥的体积；

对于多峰，从荧光光谱特征信息中提取荧光峰F1、F2、F3和F4，其荧光强度值由大到小排列分别为Q1、Q2、Q3和Q4，由发射波长EM和激发波长EX构成峰中心坐标分别为F1(x₁,y₁)、F2(x₂,y₂)、F3(x₃,y₃)和F4(x₄,y₄)，分别以a’、b’、c’和d’表示；由发射波长EM1、激发波长EX1和荧光强度Q1构成荧光峰F1坐标F1(x₁,y₁,z₁)，以a表示；由发射波长EM2、激发波长EX2和荧光强度Q2构成荧光峰F2坐标F2(x₂,y₂,z₂)，以b表示；由发射波长EM3、激发波长EX3和荧光强度Q3构成荧光峰F3坐标F3(x₃,y₃,z₃)，以c表示；由发射波长EM4、激发波长EX4和荧光强度Q4构成荧光峰F4坐标F4(x₄,y₄,z₄)，以d表示；将峰坐标点F1(x₁,y₁,z₁)、F2(x₂,y₂,z₂)、F3(x₃,y₃,z₃)与峰中心坐标点F1(x₁,y₁)、F2(x₂,y₂)、F3(x₃,y₃)相连组成一个多面体，F1(x₁,y₁,z₁)、F3(x₃,y₃,z₃)、F4(x₄,y₄,z₄)与峰中心坐标点F1(x₁,y₁)、F3(x₃,y₃)F4(x₄,y₄)相连组成另一个多面体；即由四峰组成的多面体可以拆分为两个小的多面体；

多于双峰的情况参照上述处理方法，获得多峰聚类结果；

2.根据权利要求1所述利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，其特征在于：在步骤(4)中，所述的峰特征数据库不限于由发射波长和激发波长组成，亦可由峰强度Q、发射波长EM和激发波长EX组成，或由峰强度Q、峰强度比值、发射波长和激发波长组成。

3.根据权利要求1所述利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，其特征在于：在步骤(5)中，对于单峰、双峰、三峰及多峰数据的聚类，需要结合污水排放企业调查信息，所述的信息包括但不限于企业所属行业、产品生产工艺和排放污水荧光光谱，把性质接近的指定为一类，同时使得每一类中不同企业属性的样本数量以2-5个为宜；

4.根据权利要求1所述利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，其特征在于：在步骤(6)中，PNN神经网络构建完成后，通过不断增加样本训练和验证，确保分类结果的可靠，当输出层把最大后验概率的类别输出后，如果其输出结果与K-means算法给定的训练结果不一致，需要人为调整该样本在模式层的类别位置，以适应PNN的预测，不断地进行这样的调整，以使所有的样本经PNN网络训练后误差最小，经过这样处理后的PNN神经网络就可以对未知样本进行分类判别了；

5.根据权利要求1所述利用三维荧光光谱特征信息对污染水体溯源分类识别的方法，其特征在于：在步骤(7)中，所述的其它特征信息的相似性比对计算包括利用基本荧光光谱数据、峰特征数据、平面特征数据和立体特征数据构建的数据矩阵，进行余弦相似性、Peason系数和调整余弦相似性等的计算。