CN117235624A

CN117235624A - 排放数据造假检测方法、装置及系统和存储介质

Info

Publication number: CN117235624A
Application number: CN202311236361.1A
Authority: CN
Inventors: 庞继伟; 孙艺嘉; 张栩; 郭炜; 杨珊珊; 丁杰
Original assignee: Cecep Talroad Technology Co ltd
Current assignee: Cecep Talroad Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-15
Anticipated expiration: 2043-09-22
Also published as: CN117235624B

Abstract

本发明公开一种排放数据造假检测方法、装置及系统和存储介质，对于企业的排放数据，进行多种数学的相关性检验、分布检验、异常检验，在各种检验结果的基础上，构建并训练了一个基于统计量的深度学习模型。利用该模型，可以以数据的异常分布为基础，对环境监测数据进行检测，自动地识别不符合数据分布关系的造假。本发明可以有效地对排放数据造假进行检测，减少了企业在线监测数据造假的可能性。

Description

排放数据造假检测方法、装置及系统和存储介质

技术领域

本发明涉及环境监测与保护技术领域，特别是涉及一种排放数据造假检测方法、装置及系统和存储介质。

背景技术

在线监测数据的造假与造假检测是一场攻防战。在企业现有的造假方法中，通常是基于基本的理化手段，或者是对在线数据进行篡改。

基于理化手段的造假，例如滤芯浸泡碱液、拔管抽空气等手段，往往有着更规律化的对应表征，识别方法相对更明确，例如视频识别等，在此不做阐述。

而篡改数据的手段，也即是本发明主要所针对的造假手段，过去通常以基于人工总结显著数据表征的方法和基于污染物原始数据建立BP神经网络的方法进行识别。在企业方运用一定的数理基础、造假手段升级以后，篡改数据的方法往往可以变得更不容易被察觉。

现有方法的说明及其不足：

1)基于人工总结显著数据表征的方法

在长久的工作中，经验丰富的工程师往往能察觉到企业数据中不合理的部分。其可被数学手段描述的规律，在被经验丰富的工程师总结出来以后，无疑可以通过自动识别的手段置入系统中。

这种方法主要的问题在于，极大地依赖工程师的人工经验，不可避免地有不稳定和不易描述的部分，而且人力物力消耗较大。

2)基于污染物原始数据建立BP神经网络的方法

具体指一种对污染物排放数据原始数据直接建立BP网络做回归模型的做法。

这种方法的主要问题在于，使用实时的污染源排污口各类分值作为输入来计算预测污染源分值和指标计算下的实际污染源分值，实际污染源分值和神经网络预测污染源分值，可能是依照同一个数学关系运作的，在二者有着共同的假输入的情况下，可能会有着近似的假输出。该方法使用BP神经网络建立回归模型，拟合的是各类分值映射到污染源分值的关系，在已有明确的映射关系的情况下，神经网络很可能也就是纯粹地拟合了“各类分值评估指标以传统计算方法得到实际污染源分值”的过程。在这批数据已经造假、也就是输入条件本身即是假的条件下，神经网络和传统的标准计算方法，未必能在判别造假这一点上拉开区别。

这个过程类似于一个用神经网络求解一元二次方程的过程，即使结构复杂，但最后参数矩阵如果训练得足够好、拟合得足够好，拟合的也只是那一个可以用简洁的初等函数表达的数学关系而已。反而如果模型结果与传统计算方法结果不同，很有可能是模型学习得不到位造成的，而不是真正识别到了造假。在模型描述一个更复杂的、通常被传统数学手段验证为难以表达为简洁的数学过程的关系时，神经网络才更能起到效果。

发明内容

提供了本发明以解决现有技术中存在的上述问题。因此，需要一种排放数据造假检测方法、装置及系统和存储介质，以至少解决如下问题：

1、基于人工总结显著数据表征的方法，极大地依赖工程师的人工经验，因此不可避免地有不稳定和不易描述的部分。也因此，人力、物力消耗更大、成本更高，更难以形成规范化、可推广、可复现的做法。

2、基于污染物原始数据建立BP神经网络的方法虽然脱离了上一种方法的误区，但是用模型描述的数学关系，在解决问题上存在一定误区。

本发明主要是在统计分析的方法和神经网络的方法上发展而来。

根据本发明的第一方案，提供了一种排放数据造假检测方法，所述方法包括：

获取在线监测数据，所述在线监测数据包括生产状态数据以及多种污染物的排放数据，每一个时间点记为一个向量Z，Z＝{Z1,Z2…Zn}，其中Zn表示第n个污染物的排放数据，n为污染物的种类数量，以多个时间点的矩阵A记为一个样本，以所有样本的集合作为数据集；

计算污染物之间的互信息，提取作为污染物序列之间关联性的特征；

对每个维度进行单独的正态分布校验，得到统计量参数，所述维度对应每种污染物的多个时间点的序列；

利用不同的分布假设条件下的异常检验算法获取异常评分；

以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型；

基于所述数据集，对所述分类模型进行训练，得到造假检测模型；

基于所述造假检测模型计算得到排放数据造假的概率。

进一步地，通过如下公式计算污染物之间的互信息：

Gain(T，X)＝Enrropy(T)-Entropy(T,X)

其中，E(S)表示污染物的信息熵，i表示污染物的种类，c表示污染物的种类数量，pi表示第i个污染物的边际概率密度函数，Gain(T,X)表示两个污染物之间的互信息，Entropy(T)表示两个污染物中的一个污染物的信息熵，Entropy(T,X)表示两个污染物中的另一个污染物的信息熵。

进一步地，所述对每个维度进行单独的正态分布校验，得到统计量参数，具体包括：

Kolmogorov-Smirnov检验，公式如下：

其中，D_n表示正态分布检验的统计量，sup表示一组距离中的上确界，x表示单种参与检验的污染物数据，F_n(x)表示由x得到的实际分布的累积概率，F(x)表示要服从的理论分布的累积概率；

Anderson-Darling检验，公式如下：

其中，Z表示正态分布检验的统计量，n表示单种参与检验的污染物的数据量，w(x)表示权重函数，f(x)表示理论分布密度函数。

进一步地，所述利用不同的分布假设条件下的异常检验算法获取异常评分，具体包括：

对每个维度使用静态宽度直方图进行区间划分获取异常评分：

在实际计算中，这个公式也会等价于如下公式：

其中，HBOS(p)表示Histogram-based Outlier Score方法下计算出的异常评分，d表示单种参与计算的污染物的数据量，hist_i(p)表示直方图分箱归一化后的频率(相对数量)；

通过马氏距离计算异常值获取异常评分：

其中，表示mahalanobis距离测度，x_i表示某一样本点的值，/>表示总体的均值；

利用二叉搜索树结构来迭代地计算推定为异常值的样本，计算异常值分数：

其中

其中，ψ表示从x所属的数据集中抽取的数据的个数，c(ψ)表示在ψ个数据点下的平均高度，s(x,ψ)表示异常得分，H(ψ-1)是由(ψ-1)计算得到的谐波数(harmonic number)，h(x)表示一个数据点x的高度即从树的根节点需要经历几条边才能到达叶子节点。

进一步地，对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的，先经过正态分布变换再计算异常评分。

进一步地，所述分类模型包括Self-Attention结构、RNN结构以及LuongAttention结构，所述以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型具体包括：

对所述污染物序列之间关联性的特征、统计量参数以及异常评分分别使用Self-Attention结构计算每个block的输出；

对多个Self-Attention的结果以逻辑关系构建含有先后次序的RNN结构计算输出；

以Luong Attention结构计算RNN结构的输入和输出的加权结果，经由两层隐含层的MLP结构计算每种污染物在对应序列中异常的概率。

进一步地，所述基于所述数据集，对所述分类模型进行训练，得到造假检测模型，具体包括：

从所述数据集中抽取预设比例的正样本，更改正样本中超过污染物标准的数值、使所述数值降低到离污染物标准较远的欧式距离，标记为负样本，生成的负样本与原始真实样本集作为总的数据集；

将所述总的数据集划分为训练集、测试集、验证集；

基于所述训练集和所述测试集，使用不同随机种子开启神经网络训练，每个随机种子下取训练效果最好的一个模型所对应的模型参数；所述训练效果根据测试集正确率来确定，所述测试集正确率是每种污染物计算出来的造假概率大于等于0.5计为预测造假，与真实标签相对比，得到的准确率；

以各个模型参数分别配置分类模型，通过验证集对比以验证集效果最好的一个模型作为造假检测模型。

根据本发明的第二技术方案，提供一种排放数据造假检测装置，所述装置包括：

数据获取模块，被配置为获取在线监测数据，所述在线监测数据包括生产状态数据以及多种污染物的排放数据，每一个时间点记为一个向量Z，Z＝{Z1,Z2…Zn}，其中Zn表示第n个污染物的排放数据，n为污染物的种类数量，以多个时间点的矩阵A记为一个样本，以所有样本的集合作为数据集；

特征计算模块，被配置为计算污染物之间的互信息，提取作为污染物序列之间关联性的特征；

参数计算模块，被配置为对每个维度进行单独的正态分布校验，得到统计量参数，所述维度对应每种污染物的多个时间点的序列；

异常评分获取模块，被配置为利用不同的分布假设条件下的异常检验算法获取异常评分；

分类模型构建模块，被配置为以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型；

模型训练模块，被配置为基于所述数据集，对所述分类模型进行训练，得到造假检测模型；

造假检测模块，被配置为基于所述造假检测模型计算得到排放数据造假的概率。

根据本发明的第三技术方案，提供一种排放数据造假检测系统，所述系统包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序以实现如上所述的方法。

根据本发明的第四技术方案，提供一种存储有指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，执行如上所述的方法。

根据本发明各个方案的排放数据造假检测方法、装置及系统和存储介质，其至少具有以下技术效果：

由于本发明综基于多种异常分布的结果进行二次建模，具备多种优势。首先，本发明考虑到了多种统计学假设前提条件，对实际使用中不同的数据分布情况具备适应性。其次，本方法使用深度学习模型描述的是一个复杂数学关系，企业很难找到对抗这个数学关系的数据生成方法。此外，这项方法在推理阶段是可以部署在服务器上、连接数据库自动运行的，仅需要少量人力、物力。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了根据本发明实施例的一种排放数据造假检测方法的流程图。

图2示出了根据本发明实施例的分类模型的结构示意图。

图3示出了根据本发明实施例的一种排放数据造假检测方法的分类模型建立流程图。

图4示出了根据本发明实施例的一种排放数据造假检测方法的造假检测模型建立流程图。

图5示出了根据本发明实施例的一种排放数据造假检测装置的结构图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述，但不作为对本发明的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

本发明实施例提供一种排放数据造假检测方法，具体是基于在线监测数据多种异常分布与深度学习的排放数据造假检测方法。

对于企业的排放数据，进行多种数学的相关性检验、分布检验、异常检验，在各种检验结果的基础上，构建并训练了一个基于统计量的深度学习模型。

该方案适用于对企业在线监测数据标记为正常生产状态的排放数据进行检测，判断其中哪些污染物有排放数据造假的可能。

利用该模型，可以以数据的异常分布为基础，对环境监测数据进行检测，自动地识别不符合数据分布关系的造假。

对于环保部门监管企业，自动识别的方法可以节省大量人力物力、创造经济效益。而以多种分布情况下的异常评分二次建模的方法，是不易被企业察觉检测方法、从而针对性造假的，其威慑力具有对应的社会价值。

具体来说，请参考图1所示，该方法包括如下步骤：

步骤S100，获取在线监测数据，所述在线监测数据包括生产状态数据以及多种污染物的排放数据，每一个时间点记为一个向量Z，Z＝{Z1,Z2…Zn}，其中Zn表示第n个污染物的排放数据，n为污染物的种类数量，以多个时间点的矩阵A记为一个样本，以所有样本的集合作为数据集。

示例性的，假设污染物种类有6种，则每一个时间点记为一个向量Z(Z＝{Z1,Z2,Z3,Z4,Z5,Z6})。以180个时间点的矩阵A记为一个样本，所有的样本集合作为数据集。

步骤S200，计算污染物之间的互信息，提取作为污染物序列之间关联性的特征。

其中污染物之间的互信息指的是一个污染物序列(多个时间点的矩阵A)中各个种类的污染物之间的互信息，如污染物种类具有6种，分别表示为Z1,Z2,Z3,Z4,Z5,Z6，则污染物之间的互信息可以是Z1与Z2、Z2与Z3、Z4与Z5、Z5与Z6等之间的互信息。该污染物之间的互信息体现了数据间关联性或独立性，因此将其提取作为污染物序列之间关联性的特征。

在一些实施例中，通过如下公式计算污染物之间的互信息：

Gain(T，X)＝Entropy(T)-Entropy(T,X)

步骤S300，对每个维度进行单独的正态分布校验，得到统计量参数，所述维度对应每种污染物的多个时间点的序列。

示例性的，假设有6种污染物，则一个矩阵A中包含有6种污染物序列，则一个样本中具有6个维度。

在一些实施例中，所述对每个维度进行单独的正态分布校验，得到统计量参数，具体包括：

Kolmogorov-Smirnov检验，公式如下：

Anderson-Darling检验，公式如下：

步骤S400，利用不同的分布假设条件下的异常检验算法获取异常评分。

在一些实施例中，对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的，先经过正态分布变换再计算异常评分。

在一些实施例中，所述利用不同的分布假设条件下的异常检验算法获取异常评分，具体包括：

在实际计算中，这个公式也会等价于如下公式：

通过马氏距离计算异常值获取异常评分：

其中

步骤S500，以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型。

在一些实施例中，分类模型的结构如图2所示，所述分类模型包括Self-Attention结构、RNN结构以及Luong Attention结构，如图3所示，所述以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型具体包括：

步骤S501，对所述污染物序列之间关联性的特征、统计量参数以及异常评分分别使用Self-Attention结构计算每个block的输出；

步骤S502，对多个Self-Attention的结果以逻辑关系构建含有先后次序的RNN结构计算输出；

步骤S503，以Luong Attention结构计算RNN结构的输入和输出的加权结果，经由两层隐含层的MLP结构计算每种污染物在对应序列中异常的概率。

步骤S600，基于所述数据集，对所述分类模型进行训练，得到造假检测模型。

在一些实施例中，如图4所示，所述基于所述数据集，对所述分类模型进行训练，得到造假检测模型，具体包括：

步骤S601，从所述数据集中抽取预设比例的正样本，更改正样本中超过污染物标准的数值、使所述数值降低到离污染物标准较远的欧式距离，标记为负样本，生成的负样本与原始真实样本集作为总的数据集；

步骤S602，将所述总的数据集划分为训练集、测试集、验证集；

步骤S603，基于所述训练集和所述测试集，使用不同随机种子开启神经网络训练，每个随机种子下取训练效果最好的一个模型所对应的模型参数；所述训练效果根据测试集正确率来确定，所述测试集正确率是每种污染物计算出来的造假概率大于等于0.5计为预测造假，与真实标签相对比，得到的准确率；

步骤S604，以各个模型参数分别配置分类模型，通过验证集对比以验证集效果最好的一个模型作为造假检测模型。

最后在步骤S700中，基于所述造假检测模型计算得到排放数据造假的概率。

具体的，对于已经训练好的模型，在推理阶段直接加载模型结构和参数。对每批数据进行运算时，经过如上描述的步骤S100-S400之后，直接加载模型进行推理，计算得到排放数据造假的概率。

本发明实施例还提供一种排放数据造假检测装置，如图5所示，该装置500包括：

数据获取模块501，被配置为获取在线监测数据，所述在线监测数据包括生产状态数据以及多种污染物的排放数据，每一个时间点记为一个向量Z，Z＝{Z1,Z2…Zn}，其中Zn表示第n个污染物的排放数据，n为污染物的种类数量，以多个时间点的矩阵A记为一个样本，以所有样本的集合作为数据集；

特征计算模块502，被配置为计算污染物之间的互信息，提取作为污染物序列之间关联性的特征；

参数计算模块503，被配置为对每个维度进行单独的正态分布校验，得到统计量参数，所述维度对应每种污染物的多个时间点的序列；

异常评分获取模块504，被配置为利用不同的分布假设条件下的异常检验算法获取异常评分；

分类模型构建模块505，被配置为以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型；

模型训练模块506，被配置为基于所述数据集，对所述分类模型进行训练，得到造假检测模型；

造假检测模块507，被配置为基于所述造假检测模型计算得到排放数据造假的概率。

在一些实施例中，所述特征计算模块被进一步配置为通过如下公式计算污染物之间的互信息：

Gain(T，X)＝Entropy(T)-Entropy(T,X)

在一些实施例中，所述参数计算模块被进一步配置为：：

Kolmogorov-Smirnov检验，公式如下：

Anderson-Darling检验，公式如下：

在一些实施例中，所述异常评分获取模块被进一步配置为：

在实际计算中，这个公式也会等价于如下公式：

通过马氏距离计算异常值获取异常评分：

其中

在一些实施例中，所述异常评分获取模块被进一步配置为：

对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的，先经过正态分布变换再计算异常评分。

在一些实施例中，所述分类模型包括Self-Attention结构、RNN结构以及LuongAttention结构，所述分类模型构建模块被进一步配置为：

在一些实施例中，所述模型训练模块被进一步配置为：

将所述总的数据集划分为训练集、测试集、验证集；

需要说明的是，该排放数据造假检测装置与在先阐述的方法属于同一技术思路，其能起到同样的有益效果，此处不赘述。

本发明实施例提供一种排放数据造假检测系统，所述系统包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上任一实施例所述的方法。

本发明实施例提供一种存储有指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，执行如上任一实施例所述的方法。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的发明的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种排放数据造假检测方法，其特征在于，所述方法包括：

利用不同的分布假设条件下的异常检验算法获取异常评分；

基于所述造假检测模型计算得到排放数据造假的概率。

2.根据权利要求1所述的方法，其特征在于，通过如下公式计算污染物之间的互信息：

Gain(T，X)＝Entropy(T)-Entropy(T，X)

其中，E(S)表示污染物的信息熵，i表示污染物的种类，c表示污染物的种类数量，p_i表示第i个污染物的边际概率密度函数，Gain(T,X)表示两个污染物之间的互信息，Entropy(T)表示两个污染物中的一个污染物的信息熵，Entropy(T,X)表示两个污染物中的另一个污染物的信息熵。

3.根据权利要求1所述的方法，其特征在于，所述对每个维度进行单独的正态分布校验，得到统计量参数，具体包括：

Kolmogorov-Smirnov检验，公式如下：

Anderson-Darling检验，公式如下：

4.根据权利要求1所述的方法，其特征在于，所述利用不同的分布假设条件下的异常检验算法获取异常评分，具体包括：

在实际计算中，这个公式也会等价于如下公式：

通过马氏距离计算异常值获取异常评分：

其中

5.根据权利要求4所述的方法，其特征在于，对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的，先经过正态分布变换再计算异常评分。

6.根据权利要求1所述的方法，其特征在于，所述分类模型包括Self-Attention结构、RNN结构以及Luong Attention结构，所述以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分，作为神经网络的输入，构建分类模型具体包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述数据集，对所述分类模型进行训练，得到造假检测模型，具体包括：

将所述总的数据集划分为训练集、测试集、验证集；

8.一种排放数据造假检测装置，其特征在于，所述装置包括：

9.一种排放数据造假检测系统，其特征在于：所述系统包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至7中任一项所述的方法。

10.一种存储有指令的非暂时性计算机可读存储介质，当所述指令由处理器执行时，执行根据权利要求1至7中任一项所述的方法。