CN117054386A

CN117054386A - 基于dsift与evm实现三维荧光光谱谱图水样排放源识别追踪的方法及其系统

Info

Publication number: CN117054386A
Application number: CN202311051023.0A
Authority: CN
Inventors: 姜庆超; 穆文豪; 周承宇
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-14

Abstract

本发明涉及一种基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，包括以下步骤：采集不同企业客户的三维荧光谱图，并按照一定比例对数据集进行划分；对预处理后的光谱谱图进行稠密SIFT特征提取，并保存对应每个样本的特征向量；建立基于威布尔分布的EVM模型；将测试样本对应的特征矩阵输入EVM模型进行预测，实现开集识别判定。本发明还涉及一种基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的系统、装置、处理器及存储介质。采用了本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法、系统、装置、处理器及其计算机可读存储介质，所需样本量少、时效性高，在保证已知客户类别分类精度的前提下，有效地提高了未知水样的识别追踪。

Description

基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及其系统

技术领域

本发明涉及环境监管技术领域，尤其涉及水样识别追踪领域，具体是指一种基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法、系统、装置、处理器及其计算机可读存储介质。

背景技术

随着环境保护要求的不断发展，对自然环境水体以及排入水体的水质进行快速在线监测的需求日益迫切。实现全过程水质监控，从供水到污水处理完整的水循环管理，是环境监管领域的重点和难点。为便于后续不同企业客户荧光谱图的相似度比对、水样的异常监测预警、溯源以及异常程度评价，有关环境监管部门常常需要首先实现不同企业客户基于三维荧光光谱的水样识别追踪。三维荧光光谱谱图是一定范围内激发、发射波长条件下荧光强度的集合,含有丰富的有机物荧光信息，可对水样中有机物进行充分的识别和解析。在所需样品量少的情况下可以实现更安全、更完整以及更精确地判别。

不同企业客户的水样溶解有机物构成不同，其荧光光谱也会发生变化。不同时间下，某一时间点下对于当前水样荧光光谱的判别可能并不适用于后几个月甚至后几个星期的情况。现有的方法常常需要工作人员沿着水体流向或排水管网向上游逐步排查，检测和对比各个企业客户水样，以实现不同客户水样的识别及追踪。但这种方法费时费力，难以实现实时监测，同时要求工作人员具有较强的专业知识和经验。

目前，基于三维荧光光谱的分析所取得的许多进展依赖于闭集设置条件，即训练和测试数据有着相同的标签和特征空间。然而在现实情况中，环境往往是开放可变、不可预测的，存在未知水样源，易误判为已知客户。相似性度量方法又存在阈值敏感、模型性能易受影响的问题。同时，工业数据图像难以采集，样本量较少。深度神经网络特征提取方法需要大量不同场景的图像数据，训练困难，计算量大，难以针对性地提取不同企业客户谱图独立的位置、形状、纹理等特征信息。因此，亟需构建一种独立性的特征提取方法以及简单高效的水样排放源开集识别方法或系统。

针对上述问题，本发明提出了一种基于DSIFT和EVM的不同客户三维荧光光谱水样的识别追踪方法及系统。首先提取各个客户光谱样本的特征向量，构建各个企业客户水质信息的特征向量库，同时引入极值机方法(The Extreme Value Machine，EVM)，从样本概率分布角度实现开集判定。从而快速识别已知客户、拒绝未知客户水样，避免单一决策，提高排查效率，为后续的应急处理提供参考。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足效率高、操作简便、适用范围较为广泛的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法、系统、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法、系统、装置、处理器及其计算机可读存储介质如下：

该基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其主要特点是，所述的方法包括以下步骤：

(1)采集不同企业客户的水样，并进行紫外可见吸收光谱测试得到三维荧光光谱谱图，对光谱谱图进行裁剪、缩放的图像预处理操作，并按照一定比例划分为训练集和测试集；

(2)对预处理后的光谱谱图进行稠密SIFT特征提取，获得对应每个像素位置的特征描述子，并保存对应每个样本的特征向量；

(3)将所有训练数据的特征与对应的类别标签作为EVM算法的输入，建立基于威布尔分布的EVM模型；

(4)将测试样本对应的特征矩阵输入训练后的EVM模型进行预测，从样本概率分布角度进行开集判定。

较佳地，所述的步骤(1)具体包括以下步骤：

(1.1)对不同客户的三维荧光谱图进行裁剪，保留对应的荧光强度集合区域裁去其他区域，并将图像缩放为统一像素大小；

(1.2)根据对应数据集和模型按照一定比例，任意选择x个类作为已知类，y个类作为未知类，且未知类设定为同一个类别标签。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)输入统一像素大小的源图像并将其转化为灰度图；创建高斯滤波器，并求出其x、y方向的梯度；分别与源图像作卷积运算生成源图像在x、y方向的方向梯度G_x、G_y，并计算图像的梯度幅值|J(x，y)|和梯度幅角θ_J(x，y)；

(2.2)将图像等分成一个个相同大小的邻域块，并将每个邻域块划分为1个4×4的cell，在每个cell中，使用具有8个bin的方向直方图量化梯度信息，累积cell中所有像素的梯度方向构建直方图，对加权后的量化梯度进行16次采样生成128维的特征向量作为对应位置的特征描述子；

(2.3)将单位特征向量中的值阈值化，重新归一化为单位长度，将其展为一维特征向量；将所有样本的一维特征拼接成n×d维的特征矩阵，其中n表示样本的数目，d表示样本特征的维数。

较佳地，所述的步骤(2.1)中生成源图像在x、y方向的方向梯度G_x、G_y，具体为：

根据以下公式生成源图像在x、y方向的方向梯度G_x、G_y：

所述的步骤(2.1)中计算图像梯度幅值|J(x,y)|和梯度幅角θ_J(x,y)，具体为：

θ_J(x,y)＝atan2(G_x,G_y)……(5)

其中，f为图像特征块，g为高斯核卷积模板，I(x,y)为源图像，g(x,y)为二维高斯函数。

较佳地，所述的步骤(2.2)中量化梯度信息，具体为：

根据以下公式计算幅值权值和量化梯度信息：

ω(θ_J(x,y)-θ_t)＝max(0,cos(θ_J(x,y)-θ_t))；

|J(x,y,θ_t)|＝ω(θ_J(x,t)-θ_t)|J(x,y)|……(6)

其中，θ_t表示8个方向角度，ω(θ_J(x,y)-θ_t)表示源图像在特征点(x,y)处对应方向角度的权重值，|J(x,y,θ_t)|为对应方向角度的梯度大小；

根据以下公式生成128维密集描述符：

其中， k_j(y)是高斯核函数y方向的加权值，k_i(x)是高斯核函数x方向的加权值，σ_win是高斯核函数的方差，*表示卷积运算，mσ是采样范围大小的控制参数。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)拟合训练样本的边界分布，输入所有训练数据的特征向量和类别标签，计算每两个特征向量之间的余弦距离并乘以边界缩放尺度，得到距离矩阵，并根据距离矩阵、对应样本类别标签和排序标号三部分数据进行威布尔拟合；

(3.2)选择边界分布和极值向量的最优组合来覆盖每一类，基于贪婪算法对现有样本模型减少冗余，选择能够表示一类的特征点的最小子集，使其能够覆盖整个类。

较佳地，所述的步骤(3.1)中进行威布尔拟合，具体为：

根据以下公式进行威布尔拟合：

其中，‖x_i-x'‖是x'与样本x_i间的距离，k_i和λ_i分别是对最小的边际估计值m_ij进行威布尔拟合得到的威布尔形状参数和尺度参数。

较佳地，所述的步骤(3.2)中对现有样本模型减少冗余，具体为：

确定x_i为某一类C_i中的一点，ψ(x_i,x',k_i,λ_i)是其对应的威布尔模型，取x_j为类C_i中除x_i外的另一点，对应模型为ψ(x_j,x',k_j,λ_j)，令为冗余概率阈值，即若两个点对应的评估概率/>则对于模型对<x_i,ψ(x_i,x',k_i,λ_i)>来说，模型对<x_j,ψ(x_j,x',k_j,λ_j)>是冗余的；令I(x_i)为指标函数，其基本形式如下式所示：

若x_i和ψ(x_i,x',k_i,λ_i)被保留下来，则组成最终模型的极值向量，优化目标函数的基本形式如下式所示：

其中，N_l为该类所有点的数目，所有被保留点的样本数据v_l(x)、标签y和对应的威布尔模型存储起来即为EVM模型。

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)计算消除冗余后的EVM模型中所有样本数据x和测试样本x'对应的余弦距离矩阵M_l；根据M_l和EVM模型中的weibull模型数据计算测试样本的评估概率ψ(x,x',k_i,λ_i)；

(4.2)对于每一个测试样本x'，选取EVM模型的样本数据x中每一个类别对应的最大的若干个评估概率ψ(x,x',k_i,λ_i)，并计算出每个类的平均评估概率对于任意测试样本x'，计算属于类C_i的概率；

(4.3)基于反向威布尔分布函数得出样本属于未知类的概率，设定概率阈值δ来定义所有已知类和不支持的开放空间之间的边界，得到分类决策函数y^*。

较佳地，所述的步骤(4.2)中计算属于类C_i的概率，具体为：

根据以下公式计算属于类C_i的概率：

其中，i＝0,1,…,k,k代表已知类别总数，M代表训练集中已知类的数量。

较佳地，所述的步骤(4.3)中得到分类决策函数y^*，具体为：

根据以下公式得到分类决策函数y^*：

其中，若最大的平均估计概率则x'的类别为C_i，若/>则x'被识别为未知客户类别。

较佳地，所述的方法在(1)～(3)使用DSIFT对训练数据集提取特征，并建立每个训练样本对应的EVM模型，以离线的形式进行计算，并保存对应的特征矩阵和EVM模型，并在(4)使用建立好的模型对输入的测试数据集进行识别，检测出未知类的同时对已知类别进行分类，以在线的形式对测试数据集进行实时处理。

该基于DSIFT与EVM进行三维荧光光谱谱图水样排放源识别追踪的系统，其主要特点是，所述的系统包括：

光谱预处理模块，用于对经过紫外可见吸收光谱测试得到的三维荧光光谱谱图进行裁剪、缩放的图像预处理操作，并按照一定比例划分为训练集和测试集；

特征提取模块，与所述的光谱预处理模块相连接，用于对预处理后的光谱谱图进行稠密SIFT特征提取，获得图像每个像素位置的特征描述子，并保存对应每个样本的特征向量存储至特征知识库；

识别追踪模块，与所述的特征提取模块相连接，用于利用所有训练数据的特征向量与对应的类别标签，并使用EVM算法建立基于威布尔分布的EVM模型。将待识别光谱样本的特征向量作为EVM模型的输入数据进行预测，实现待识别水样的开集识别。

该用于实现基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

该用于实现基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

采用了本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法、系统、装置、处理器及其计算机可读存储介质，所需样本量少、时效性高，在保证已知客户类别分类精度的前提下，有效地提高了未知水样的识别追踪。

附图说明

图1为本发明的基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的系统的模块结构图。

图2为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统的流程图。

图3为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在光谱预处理时的流程结果图。

图4为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在建立基于威布尔分布的EVM模型时的对光谱特征向量进行极值元识别的流程原理图。

图5为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在利用t-SNE可视化时的训练光谱样本特征分布图。

图6为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在利用EVM缩减样本特征模型时的结果分析图。

图7为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在测试数据上预测时的混淆矩阵结果图。

图8为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在测试数据上预测时的错误分类样本的结果分析图。

图9为本发明的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法及系统在利用对比方法余弦相似性进行特征度量时的混淆矩阵结果图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其中包括以下步骤：

作为本发明的优选实施方式，所述的步骤(1)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(2.1)中生成源图像在x、y方向的方向梯度G_x、G_y，具体为：

根据以下公式生成源图像在x、y方向的方向梯度G_x、G_y：

θ_J(x,y)＝atan2(G_x,G_y)……(5)

作为本发明的优选实施方式，所述的步骤(2.2)中量化梯度信息，具体为：

根据以下公式计算幅值权值和量化梯度信息：

ω(θ_J(x,y)-θ_t)＝max(0,cos(θ_J(x,y)-θ_t))；

|J(x,y,θ_t)|＝ω(θ_J(x,y)-θ_t)|J(x,y)|……(6)

根据以下公式生成128维密集描述符：

作为本发明的优选实施方式，所述的步骤(3)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(3.1)中进行威布尔拟合，具体为：

根据以下公式进行威布尔拟合：

作为本发明的优选实施方式，所述的步骤(3.2)中对现有样本模型减少冗余，具体为：

其中，N_l为该类所有点的数目，所有被保留点的样本数据c_l(x)、标签y和对应的威布尔模型存储起来即为EVM模型。

作为本发明的优选实施方式，所述的步骤(4)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(4.2)中计算属于类C_i的概率，具体为：

根据以下公式计算属于类C_i的概率：

作为本发明的优选实施方式，所述的步骤(4.3)中得到分类决策函数y^*，具体为：

根据以下公式得到分类决策函数y^*：

作为本发明的优选实施方式，所述的方法在(1)～(3)使用DSIFT对训练数据集提取特征，并建立每个训练样本对应的EVM模型，以离线的形式进行计算，并保存对应的特征矩阵和EVM模型，并在(4)使用建立好的模型对输入的测试数据集进行识别，检测出未知类的同时对已知类别进行分类，以在线的形式对测试数据集进行实时处理。

本发明的该基于DSIFT与EVM进行三维荧光光谱谱图水样排放源识别追踪的系统，其中所述的系统包括：

本发明的该用于实现基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的装置，其中所述的装置包括：

处理器，被配置成执行计算机可执行指令；

本发明的该用于实现基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的处理器，其中所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

本发明的该计算机可读存储介质，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

本发明的具体实施方式中，如图1所示，本实施例提供一种基于DSIFT与EVM进行三维荧光光谱谱图水样排放源识别追踪的系统，其包括：光谱预处理模块100、特征提取模块200，以及识别追踪模块300。

如图2所示，采用上述三维荧光光谱谱图水样排放源识别追踪系统进行不同企业客户水样识别的方法包括步骤S1-步骤S4：

步骤S1：采集不同企业客户的水样，并进行紫外-可见吸收光谱测试得到三维荧光光谱谱图，对所述光谱谱图进行裁剪、缩放等图像预处理操作，并按照一定比例划分为训练集和测试集。

光谱预处理模块100用于对经过紫外-可见吸收光谱测试得到的三维荧光光谱谱图进行裁剪、缩放等图像预处理操作，并按照一定比例划分为训练集和测试集。

首先，通过某水质监测公司采集9家不同企业客户的水样，对预处理后的水样进行紫外-可见吸收光谱测试得到所述不同客户水样的光谱谱图。考虑到原始三维荧光光谱谱图包含色阶标尺以及大量的空白区域，不同客户谱图的像素大小不一致，影响后续的特征提取。因此，如图3所示，利用可执行的程序化脚本对不同客户的三维荧光光谱进行裁剪，保留对应的荧光强度集合区域，裁去色标阶尺等其他区域。

然后，将图像统一缩放为384×384像素大小。按照一定比例划分为训练集和测试集。训练集用于构建预测模型；测试集用于后续对预测模型的效果进行验证，将上述所述的9家不同企业客户水样谱图中的5家作为已知类，另外4家客户的水样谱图作为未知类，将未知类的客户谱图设定为同一个类别标签。

步骤S2：对预处理后的光谱谱图进行稠密SIFT特征提取，获得对应每个像素位置的特征描述子，并保存对应每个样本的特征向量。

特征提取模块200用于对预处理后的光谱谱图进行稠密SIFT特征提取，获得图像每个像素位置的特征描述子，并保存对应每个样本的特征向量存储至特征知识库。

首先，输入384×384统一像素大小的源图像并将其转化为灰度图；创建一个5×5的高斯滤波器,并求出其x、y方向的梯度,然后分别与源图像作卷积运算生成源图像在x、y方向的方向梯度G_x、G_y，其基本形式如下式所示：

其中I(x,y)为源图像，g(x,y)为二维高斯函数，通过图像在x、y两个方向的梯度得到图像梯度幅值|J(x,y)|和梯度幅角θ_J(x,y)，其基本形式如下式所示：

θ_J(x,y)＝atan2(G_x,G_y)……(5)

然后，将图像等分成一个个16×16相同大小的邻域块，然后再将每个块划分为1个4×4的cell。在每个cell中，使用具有8个bin的方向直方图量化梯度信息，累积cell中所有像素的梯度方向(按其梯度幅度加权)构建直方图。由于每个采样区域的大小相同，生成一个1×16大小高斯核加权的x方向权值,利用对称性得到16×1大小高斯核加权的y方向权值，对8个加权后的量化梯度进行16次采样生成4×4×8＝128维的特征向量，作为对应像素位置的特征描述子。

其中幅值权值和量化梯度公式如下：

ω(θ_J(x,y)-θ_t)＝max(0,cos(θ_J(x,y)-θ_t))

|J(x,y,θ_t)|＝ω(θ_J(x,y)-θ_t)|J(x,y)|……(6)

在公式(6)中，θ_t表示8个方向角度，其中

通过高斯核函数使远离中心点的重要性降低，生成128维密集描述子，其基本形式如下式所示：

在公式(7)中， k_j(y)是高斯核函数y方向的加权值，k_i(x)是高斯核函数x方向的加权值，σ_win是高斯核函数的方差，*表示卷积运算，mσ是采样范围大小的控制参数。

最后，将单位特征向量中的值阈值化为不大于0.2的特征值，然后重新归一化为单位长度以减少大梯度幅值的影响。由于图像中的所有像素都使用固定大小的块作为邻域，以8×8的采样间距可生成2209×128的特征矩阵，展开为282752维的一维特征。将所有样本的一维特征拼接成n×d维的特征矩阵，并对其进行MinMaxScaler()最大最小值归一化，其中n为样本的数目19，d为样本特征的维数282752。

步骤S3：将所有训练数据的特征与对应的类别标签作为EVM算法的输入，建立基于威布尔分布的EVM模型。

识别追踪模块300用于利用所有训练数据的特征向量与对应的类别标签，并使用EVM算法建立基于威布尔分布的EVM模型。

1、识别追踪模块300用于拟合训练样本的边界分布，利用可扩展的非线性模型极值机，从概率角度来确定水样谱图所属的客户类别，其具体包括以下步骤：

如图4所示，利用极值元识别计算已知类和未知类之间的边界。首先，输入所有训练数据的特征向量和类别标签，计算出每两个特征向量之间的余弦距离并乘以边界缩放尺度margin_scale，得到距离矩阵，其中距离矩阵的每一行是一个样本距离其他样本的余弦距离的一半。然后，计算每个客户类别水样特征的平均向量，并根据它们到平均向量的余弦距离对训练样本降序排序，前m个样本被视为每个类别的极值点。

最后，利用极值理论计算每一类中心的径向包含概率。对任何一个样本，即数据矩阵的每一行，选取与其不是一个类别标签但距离最近的tailsize个样本数据，计算得到最小的边际估计值矩阵M，并根据距离矩阵、对应样本类别标签和排序标号三部分数据进行weibull拟合，得到每一个样本对应的weibull概率模型，weibull拟合的基本形式如下式所示：

在公式(8)中，‖x_i-x'‖是x'与样本x_i间的距离，κ_i和λ_i分别是对最小的边际估计值m_ij进行weibull拟合，得到的weibull分布的形状参数和尺度参数。通过点的分布，实现用极值向量代表一个紧凑的概率表示，更好地总结每一类的特征分布。

2、识别追踪模块300用于选择边界分布和极值向量的最优组合来覆盖每一类，选择训练向量的最佳子集，根据所覆盖的点相对于所使用的参数来优化增益，利用极值模型来估计每个类别中样本包含的可能性，其具体包括以下步骤：

在识别过程中，需要计算特征向量与每一类样本之间的距离，当训练集中样本数量过多时，计算次数过多，会对方法的实际应用造成非常大的影响。因此，考虑减少每一类的特征点，即为每一类选择最小的表征点数。训练集样本经过特征提取后，EVM对特征向量计算所有类别的威布尔分布，接着利用贪婪算法实现属于集合覆盖的样本缩减问题。EVM在建立已知类别的边界时，会拟合数据的分布，自动排列出具备代表性的特征向量，如果一个类中样本x_j与样本x_i之间的距离越小，即属于同一个类的概率1-F||x_j-x_i||越大，则可以剔除这个点，最终可以找到最小子集，即最佳表征类。

首先，确定x_i为某一类C_i中的一点，ψ(x_i,x',k_i,λ_i)是其对应的weibull模型，取x_j为类C_i中除x_i外的另一点，对应模型为ψ(x_j,x',k_j,λ_j)，令为cover_threshold冗余概率阈值，即若两个点对应的评估概率/>则说明对于模型对<x_i,ψ(x_i,x',k_i,λ_i)>来说，模型对<x_j,ψ(x_j,x',k_j,λ_j)>是冗余的。

然后，令I(x_i)为指标函数，其基本形式如下式所示：

最后，如果x_i和ψ(x_i,x',k_i,λ_i)被保留下来，则它们即变成最终模型的极值向量，则优化以下目标函数：

在公式(10)中，N_l为该类所有点的数目，所有被保留点的样本数据v_l(x)、标签y和对应的weibull模型存储起来即为EVM模型。

步骤S4：将测试样本对应的特征矩阵输入训练好的EVM模型进行预测，从样本概率分布角度实现开集判定。

识别追踪模块300用于将待识别光谱样本的特征向量作为EVM模型的输入，并进行预测，实现待识别客户水样的开集识别，其具体包括以下步骤：

首先，计算消除冗余后的EVM模型中所有样本数据x和测试样本x'对应的余弦距离矩阵M_l，根据M_l和EVM模型中的weibull模型，计算测试样本的评估概率ψ(x,x',k_i,λ_i)，对于每一个测试样本x'，选取EVM模型样本数据x中每一个类别对应的最大的num_to_fuse个评估概率ψ(x,x',k_i,λ_i)，并计算出每个类的平均评估概率

然后，通过随距离而递减的概率密度函数，得到测试样本属于已知类的概率，根据这些概率间接计算拒绝概率，基于反向威布尔分布函数得出样本属于未知类的概率。

最后，根据计算出的概率将样本分配给最高概率类别，对于任意测试样本x'，将它最可能属于类C_i的概率计为其基本形式如下式所示：

在公式(11)中，i＝0,1,…,k,k代表已知类别总数，M代表训练集中已知类的数量。

设定概率阈值δ，即ot定义所有已知类和不支持的开放空间之间的边界，得到分类决策函数，其基本形式如下式所示：

即若最大的平均估计概率则x'的类别为C_i，若/>则x'被检测为未知类别。如果将测试样本分配给未知类别，则将其拒绝，避免了类似分类器强行判别为已知类的弊端，提高识别的性能。

预测效果如下：

本发明的所有实验均在PyCharm2023上运行。由于本发明采用无监督的特征提取方法，同时从概率分布的角度实现开集识别判定，因此，在样本量较少的情况下，也可以实现较好的三维荧光谱图识别追踪性能。利用某水质监测公司采集的5家客户的19张光谱图像作为训练数据集，每家客户谱图的数量分别为4、3、4、4、4。同时，从上述5家已知水样客户来源分别采集1张，再另外采集4张未知客户水样的谱图(类别标签为99)，共9张光谱谱图作为测试数据集。为了证实稠密SIFT对光谱图像提取的特征矩阵具备代表性，采用t-SNE对训练数据集中5家客户谱图的特征分布可视化，如图5所示，从样本特征分布可以看出，DSIFT可以抓住每一类客户水样的本质分布特征。

考虑到实际存储和计算的压力以及数据的冗余性，不需要将所有样本的特征向量都存入知识库中，只需要选取具备代表性的样本。在EVM模型构建过程中，采用如下表1所示的参数设置。使用EVM算法对样本的特征向量进行建模，通过极值元识别，获取到每一类三维荧光光谱的特征分布。通过缩减模型，原有样本的特征向量数从19缩减为18，并得到每一类的边界概率分布。如图6所示，被缩减的样本为客户类别2中三张水样谱图中的IU2_3，其原因可能是IU2_2与IU2_3两张谱图过于相似，之间的余弦距离较小。

表1参数设置

利用基于威布尔分布的EVM模型对测试集的特征向量进行预测，衡量该向量与每一类的边界距离，并结合威布尔分布将距离转化为概率估计，计算属于已知类的概率并间接计算拒绝概率。得到的9张测试水样谱图的预测概率值如表2所示。

表2不同客户水样的预测概率值

最后根据置信度ot及相应的预测概率值，判断该测试样本是否属于已知类或未知类。得到的9张测试水样谱图的预测标签值及对应的混淆矩阵如表3和图7所示,可以看出，最终的预测准确率为0.8889。只有1张客户水样谱图预测错误，真实标签为已知类别客户5，而将其错误预测为未知类别客户99。从表2可知，其属于客户5的概率为0.0429，低于概率阈值ot，即0.05，故将其判别为未知类别客户99。类别预测错误的样本如图8(a)所示，该类别的训练样本如图8(b)所示，我们推测其预测错误的原因为测试样本的光谱纹理特征与训练样本存在一定的差别，但仍在可接受的范围内，故其正确的类别预测概率0.0429非常接近置信度0.05。

表3不同客户水样的EVM算法预测标签值

为了验证所提方法的优越性，实验还设计了基于余弦相似性特征度量的识别方法进行对比分析。在获取到与上述训练客户谱图水样对应的特征后，对每个类别的客户水样特征求平均，得到不同客户水样的特征向量库。最后，将待识别样本的特征向量与库中向量进行余弦相似性度量，实现对多个客户水样谱图的识别追踪。

依靠余弦相似性判断库内库外物质。距离大于阈值的，特征向量的夹角过大，则认为是库外未知客户水样，而小于阈值的，则进行库内特征向量库的进一步识别，在特征空间中距离较近的则认为是所属客户类别水样。

将上述测试集中9张客户水样的谱图特征与各个客户的历史水样特征向量库进行比对检索后，获得的特征余弦相似性度量结果如表4所示，列出了9张待识别样本与事先构建的5家客户谱图特征向量库的相似性值。

表4不同客户水样的余弦相似性度量值

/>

将拒绝未知客户水样的相似性阈值设定为0.5，最终得到的待识别样本对应的预测标签值如表5所示，有两张客户水样谱图预测错误，真实标签分别为已知类别客户3和5，而将其错误预测为未知类别客户99。其中混淆矩阵如图9所示，最终的预测准确率为0.7778。

该方法虽然采用无监督的特征相似性度量进行不同客户水样的识别追踪，但是当样本量较少时，待识别水样如果只是从距离最近的角度来分析，很有可能会被邻近的特征所干扰。而EVM从待识别水样与数据的分布来整体考量，使得每个类得到各自的边界分布，对比待识别水样与每一类的关系，而不是与某个样本的关系，可以得到样本包含概率，具备了更大的抗风险能力，避免了很多干扰的影响。

对于余弦相似性度量而言，从表4可以看出，即使阈值发生0.001数量级的变化，其识别的准确率都会发生改变，当出现更大的数量级变化时，准确率会发生非常严重的突变，阈值敏感程度可想而知。这种突变主要源于分布在边缘的一些特征向量，与待识别样本的特征向量之间的距离比较近。而EVM在参数变化时，数据整体分布边界不会有剧烈的变化，因此参数是相对不敏感的。在实际应用中，参数敏感程度过高将会带来很大的挑战，选择参数相对不敏感的EVM更符合实际应用要求。

表5不同客户水样的相似性度量算法预测标签值

因此，从上述实验结果可以看出，所提方法优于基于余弦相似性特征度量的识别方法。本发明的提出是非常有必要的，应用于不同客户水样的识别追踪过程中，显著提高了小样本数据下的预测精度，同时降低了模型复杂度。本发明实施例在保证已知类分类精度的前提下，有效地提高了未知类的识别率。该发明一方面具备缩减样本的能力，找到最佳表征类的最小子集，减少实际应用中的计算和存储压力；另一方面，该方法对于参数变化相对不敏感，更具有实际应用价值。从样本概率分布的角度实现判别，避免单一决策，为后续的应急处理提供参考。

与现有技术相比，本发明具有以下有益效果：

1、本发明的输入仅为三维荧光光谱谱图即可完成所有算法操作，避免了单个客户荧光强度数据矩阵特征难以提取的特点，分类效果好，实时性高，可以快速识别已知客户水样、拒绝未知客户水样，避免单一决策，为后续的应急处理提供参考，减少排查时间和工作量。

2、本发明使用传统的图像特征提取算法DSIFT对三维荧光光谱谱图进行特征提取，避免了深度神经网络所需数据量大，计算资源大等缺点，同时可以针对性地提取基于像素的不同客户水样光谱的位置、形状、纹理等特征信息，并使用该特征作为EVM算法的输入，降低EVM算法的计算复杂性。

3、本发明将EVM算法思想应用到环境监管水样识别追踪领域，通过引入weibull分布使其能够对未知客户类别进行检测，并具备缩减客户水样特征库的能力和参数不敏感性。对于待识别的荧光谱图，可以从概率分布的角度，给出属于库中每一家客户以及未知客户的概率。

本实施例的具体实现方案可以参见上述实施例中的相关说明，此处不再赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其特征在于，所述的步骤(1)具体包括以下步骤：

(1.2)根据对应数据集和模型按照一定比例，任意选择x个类作为已知类，y个类作为未知类，且未知类设定为同一个类别标签；

所述的步骤(2)具体包括以下步骤：

(2.2)将图像等分成一个个相同大小的邻域块，并将每个邻域块划分为1个4×4的cell，在每个cell中，使用具有8个bin的方向直方图量化梯度信息，累积cell中所有像素的梯度方向构建直方图，对加权后的量化梯度进行16次采样生成128维的特征向量，作为对应像素位置的特征描述子；

(2.3)将单位特征向量中的值阈值化，重新归一化为单位长度，将其展为一维特征向量；将所有样本的一维特征拼接成n×d维的特征矩阵，其中n表示样本的数目，d表示样本特征的维数；

所述的步骤(3)具体包括以下步骤：

(3.2)选择边界分布和极值向量的最优组合来覆盖每一类，基于贪婪算法对现有样本模型减少冗余，选择能够表示一类的特征点的最小子集，使其能够覆盖整个类；

所述的步骤(4)具体包括以下步骤：

(4.1)计算消除冗余后的EVM模型中所有样本数据x和测试样本x’对应的余弦距离矩阵M_l；根据M_l和EVM模型中的weibull模型数据计算测试样本的评估概率ψ(x，x’，k_i，λ_i)；

(4.2)对于每一个测试样本x’，选取EVM模型的样本数据x中每一个类别对应的最大的若干个评估概率ψ(x，x’，k_i，λ_i)，并计算出每个类的平均评估概率对于任意测试样本x’，计算属于类C_i的概率；

3.根据权利要求2所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其特征在于，所述的步骤(2.1)中生成源图像在x、y方向的方向梯度G_x、G_y，具体为：

根据以下公式生成源图像在x、y方向的方向梯度G_x、G_y：

其中，f为图像特征块，g为高斯核卷积模板，I(x,y)为源图像，g(x,y)为二维高斯函数；

所述的步骤(2.2)中量化梯度信息，具体为：

根据以下公式计算幅值权值和量化梯度信息：

ω(θ_J(x,y)-θ_t)＝max(0,cos(θ_J(x,y)-θ_t))；

|J(x,y,θ_t)|＝ω(θ_J(x，y)-θ_t)|J(x,y)|......(6)

根据以下公式生成128维密集描述符：

其中，N_x＝4,N_y＝4，T＝(T_x,T_y)^T；k_j(y)是高斯核函数y方向的加权值，k_i(x)是高斯核函数x方向的加权值，σ_win是高斯核函数的方差，*表示卷积运算，mσ是采样范围大小的控制参数。

4.根据权利要求2所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其特征在于，所述的步骤(3.1)中进行威布尔拟合，具体为：

根据以下公式进行威布尔拟合：

其中，||x_i-x’||是x’与样本x_i间的距离，k_i和λ_i分别是对最小的边际估计值m_ij进行威布尔拟合得到的威布尔形状参数和尺度参数。

5.根据权利要求2所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其特征在于，所述的步骤(3.2)中对现有样本模型减少冗余，具体为：

确定x_i为某一类C_i中的一点，ψ(x_i,x’,k_i,λ_i)是其对应的威布尔模型，取x_j为类C_i中除x_i外的另一点，对应模型为ψ(x_j,x’,k_j,λ_j)，令为冗余概率阈值，即若两个点对应的评估概率则对于模型对<x_i,ψ(x_i,x’,k_i,λ_i)>来说，模型对<x_j,ψ(x_j,x’,k_j,λ_j)>是冗余的；令I(x_i)为指标函数，其基本形式如下式所示：

若x_i和ψ(x_i,x’,k_i,λ_i)被保留下来，则组成最终模型的极值向量，优化目标函数的基本形式如下式所示：

6.根据权利要求2所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法，其特征在于，所述的步骤(4.2)中计算属于类C_i的概率，具体为：

根据以下公式计算属于类C_i的概率：

其中，i＝0,1,…,k,k代表已知类别总数，M代表训练集中已知类的数量；

所述的步骤(4.3)中得到分类决策函数y^*，具体为：

根据以下公式得到分类决策函数y^*：

其中，若最大的平均估计概率则x’的类别为C_i，若/>则x’被识别为未知客户类别。

7.一种实现权利要求1所述的方法的基于DSIFT与EVM进行三维荧光光谱谱图水样排放源识别追踪的系统，其特征在于，所述的系统包括：

识别追踪模块，与所述的特征提取模块相连接，用于利用所有训练数据的特征向量与对应的类别标签，并使用EVM算法建立基于威布尔分布的EVM模型；将待识别光谱样本的特征向量作为EVM模型的输入数据进行预测，实现待识别水样的开集识别。

8.一种用于实现基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至6中任一项所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

9.一种用于实现基于DSIFT与EVM的三维荧光光谱谱图水样排放源识别追踪的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至6中任一项所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求1至6中任一项所述的基于DSIFT与EVM实现三维荧光光谱谱图水样排放源识别追踪的方法的各个步骤。