CN117235624A - 排放数据造假检测方法、装置及系统和存储介质 - Google Patents
排放数据造假检测方法、装置及系统和存储介质 Download PDFInfo
- Publication number
- CN117235624A CN117235624A CN202311236361.1A CN202311236361A CN117235624A CN 117235624 A CN117235624 A CN 117235624A CN 202311236361 A CN202311236361 A CN 202311236361A CN 117235624 A CN117235624 A CN 117235624A
- Authority
- CN
- China
- Prior art keywords
- data
- pollutant
- model
- anomaly
- fake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000001514 detection method Methods 0.000 title claims description 47
- 238000009826 distribution Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 21
- 238000012544 monitoring process Methods 0.000 claims abstract description 16
- 239000003344 environmental pollutant Substances 0.000 claims description 74
- 231100000719 pollutant Toxicity 0.000 claims description 74
- 239000000356 contaminant Substances 0.000 claims description 57
- 238000013145 classification model Methods 0.000 claims description 33
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000767 Anderson–Darling test Methods 0.000 claims description 4
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013524 data verification Methods 0.000 claims description 2
- 230000005856 abnormality Effects 0.000 abstract description 3
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000002791 soaking Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Abstract
本发明公开一种排放数据造假检测方法、装置及系统和存储介质,对于企业的排放数据,进行多种数学的相关性检验、分布检验、异常检验,在各种检验结果的基础上,构建并训练了一个基于统计量的深度学习模型。利用该模型,可以以数据的异常分布为基础,对环境监测数据进行检测,自动地识别不符合数据分布关系的造假。本发明可以有效地对排放数据造假进行检测,减少了企业在线监测数据造假的可能性。
Description
技术领域
本发明涉及环境监测与保护技术领域,特别是涉及一种排放数据造假检测方法、装置及系统和存储介质。
背景技术
在线监测数据的造假与造假检测是一场攻防战。在企业现有的造假方法中,通常是基于基本的理化手段,或者是对在线数据进行篡改。
基于理化手段的造假,例如滤芯浸泡碱液、拔管抽空气等手段,往往有着更规律化的对应表征,识别方法相对更明确,例如视频识别等,在此不做阐述。
而篡改数据的手段,也即是本发明主要所针对的造假手段,过去通常以基于人工总结显著数据表征的方法和基于污染物原始数据建立BP神经网络的方法进行识别。在企业方运用一定的数理基础、造假手段升级以后,篡改数据的方法往往可以变得更不容易被察觉。
现有方法的说明及其不足:
1)基于人工总结显著数据表征的方法
在长久的工作中,经验丰富的工程师往往能察觉到企业数据中不合理的部分。其可被数学手段描述的规律,在被经验丰富的工程师总结出来以后,无疑可以通过自动识别的手段置入系统中。
这种方法主要的问题在于,极大地依赖工程师的人工经验,不可避免地有不稳定和不易描述的部分,而且人力物力消耗较大。
2)基于污染物原始数据建立BP神经网络的方法
具体指一种对污染物排放数据原始数据直接建立BP网络做回归模型的做法。
这种方法的主要问题在于,使用实时的污染源排污口各类分值作为输入来计算预测污染源分值和指标计算下的实际污染源分值,实际污染源分值和神经网络预测污染源分值,可能是依照同一个数学关系运作的,在二者有着共同的假输入的情况下,可能会有着近似的假输出。该方法使用BP神经网络建立回归模型,拟合的是各类分值映射到污染源分值的关系,在已有明确的映射关系的情况下,神经网络很可能也就是纯粹地拟合了“各类分值评估指标以传统计算方法得到实际污染源分值”的过程。在这批数据已经造假、也就是输入条件本身即是假的条件下,神经网络和传统的标准计算方法,未必能在判别造假这一点上拉开区别。
这个过程类似于一个用神经网络求解一元二次方程的过程,即使结构复杂,但最后参数矩阵如果训练得足够好、拟合得足够好,拟合的也只是那一个可以用简洁的初等函数表达的数学关系而已。反而如果模型结果与传统计算方法结果不同,很有可能是模型学习得不到位造成的,而不是真正识别到了造假。在模型描述一个更复杂的、通常被传统数学手段验证为难以表达为简洁的数学过程的关系时,神经网络才更能起到效果。
发明内容
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种排放数据造假检测方法、装置及系统和存储介质,以至少解决如下问题:
1、基于人工总结显著数据表征的方法,极大地依赖工程师的人工经验,因此不可避免地有不稳定和不易描述的部分。也因此,人力、物力消耗更大、成本更高,更难以形成规范化、可推广、可复现的做法。
2、基于污染物原始数据建立BP神经网络的方法虽然脱离了上一种方法的误区,但是用模型描述的数学关系,在解决问题上存在一定误区。
本发明主要是在统计分析的方法和神经网络的方法上发展而来。
根据本发明的第一方案,提供了一种排放数据造假检测方法,所述方法包括:
获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量Z,Z={Z1,Z2…Zn},其中Zn表示第n个污染物的排放数据,n为污染物的种类数量,以多个时间点的矩阵A记为一个样本,以所有样本的集合作为数据集;
计算污染物之间的互信息,提取作为污染物序列之间关联性的特征;
对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列;
利用不同的分布假设条件下的异常检验算法获取异常评分;
以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型;
基于所述数据集,对所述分类模型进行训练,得到造假检测模型;
基于所述造假检测模型计算得到排放数据造假的概率。
进一步地,通过如下公式计算污染物之间的互信息:
Gain(T,X)=Enrropy(T)-Entropy(T,X)
其中,E(S)表示污染物的信息熵,i表示污染物的种类,c表示污染物的种类数量,pi表示第i个污染物的边际概率密度函数,Gain(T,X)表示两个污染物之间的互信息,Entropy(T)表示两个污染物中的一个污染物的信息熵,Entropy(T,X)表示两个污染物中的另一个污染物的信息熵。
进一步地,所述对每个维度进行单独的正态分布校验,得到统计量参数,具体包括:
Kolmogorov-Smirnov检验,公式如下:
其中,Dn表示正态分布检验的统计量,sup表示一组距离中的上确界,x表示单种参与检验的污染物数据,Fn(x)表示由x得到的实际分布的累积概率,F(x)表示要服从的理论分布的累积概率;
Anderson-Darling检验,公式如下:
其中,Z表示正态分布检验的统计量,n表示单种参与检验的污染物的数据量,w(x)表示权重函数,f(x)表示理论分布密度函数。
进一步地,所述利用不同的分布假设条件下的异常检验算法获取异常评分,具体包括:
对每个维度使用静态宽度直方图进行区间划分获取异常评分:
在实际计算中,这个公式也会等价于如下公式:
其中,HBOS(p)表示Histogram-based Outlier Score方法下计算出的异常评分,d表示单种参与计算的污染物的数据量,histi(p)表示直方图分箱归一化后的频率(相对数量);
通过马氏距离计算异常值获取异常评分:
其中,表示mahalanobis距离测度,xi表示某一样本点的值,/>表示总体的均值;
利用二叉搜索树结构来迭代地计算推定为异常值的样本,计算异常值分数:
其中
其中,ψ表示从x所属的数据集中抽取的数据的个数,c(ψ)表示在ψ个数据点下的平均高度,s(x,ψ)表示异常得分,H(ψ-1)是由(ψ-1)计算得到的谐波数(harmonic number),h(x)表示一个数据点x的高度即从树的根节点需要经历几条边才能到达叶子节点。
进一步地,对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的,先经过正态分布变换再计算异常评分。
进一步地,所述分类模型包括Self-Attention结构、RNN结构以及LuongAttention结构,所述以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型具体包括:
对所述污染物序列之间关联性的特征、统计量参数以及异常评分分别使用Self-Attention结构计算每个block的输出;
对多个Self-Attention的结果以逻辑关系构建含有先后次序的RNN结构计算输出;
以Luong Attention结构计算RNN结构的输入和输出的加权结果,经由两层隐含层的MLP结构计算每种污染物在对应序列中异常的概率。
进一步地,所述基于所述数据集,对所述分类模型进行训练,得到造假检测模型,具体包括:
从所述数据集中抽取预设比例的正样本,更改正样本中超过污染物标准的数值、使所述数值降低到离污染物标准较远的欧式距离,标记为负样本,生成的负样本与原始真实样本集作为总的数据集;
将所述总的数据集划分为训练集、测试集、验证集;
基于所述训练集和所述测试集,使用不同随机种子开启神经网络训练,每个随机种子下取训练效果最好的一个模型所对应的模型参数;所述训练效果根据测试集正确率来确定,所述测试集正确率是每种污染物计算出来的造假概率大于等于0.5计为预测造假,与真实标签相对比,得到的准确率;
以各个模型参数分别配置分类模型,通过验证集对比以验证集效果最好的一个模型作为造假检测模型。
根据本发明的第二技术方案,提供一种排放数据造假检测装置,所述装置包括:
数据获取模块,被配置为获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量Z,Z={Z1,Z2…Zn},其中Zn表示第n个污染物的排放数据,n为污染物的种类数量,以多个时间点的矩阵A记为一个样本,以所有样本的集合作为数据集;
特征计算模块,被配置为计算污染物之间的互信息,提取作为污染物序列之间关联性的特征;
参数计算模块,被配置为对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列;
异常评分获取模块,被配置为利用不同的分布假设条件下的异常检验算法获取异常评分;
分类模型构建模块,被配置为以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型;
模型训练模块,被配置为基于所述数据集,对所述分类模型进行训练,得到造假检测模型;
造假检测模块,被配置为基于所述造假检测模型计算得到排放数据造假的概率。
根据本发明的第三技术方案,提供一种排放数据造假检测系统,所述系统包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上所述的方法。
根据本发明的第四技术方案,提供一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行如上所述的方法。
根据本发明各个方案的排放数据造假检测方法、装置及系统和存储介质,其至少具有以下技术效果:
由于本发明综基于多种异常分布的结果进行二次建模,具备多种优势。首先,本发明考虑到了多种统计学假设前提条件,对实际使用中不同的数据分布情况具备适应性。其次,本方法使用深度学习模型描述的是一个复杂数学关系,企业很难找到对抗这个数学关系的数据生成方法。此外,这项方法在推理阶段是可以部署在服务器上、连接数据库自动运行的,仅需要少量人力、物力。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出了根据本发明实施例的一种排放数据造假检测方法的流程图。
图2示出了根据本发明实施例的分类模型的结构示意图。
图3示出了根据本发明实施例的一种排放数据造假检测方法的分类模型建立流程图。
图4示出了根据本发明实施例的一种排放数据造假检测方法的造假检测模型建立流程图。
图5示出了根据本发明实施例的一种排放数据造假检测装置的结构图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
本发明实施例提供一种排放数据造假检测方法,具体是基于在线监测数据多种异常分布与深度学习的排放数据造假检测方法。
对于企业的排放数据,进行多种数学的相关性检验、分布检验、异常检验,在各种检验结果的基础上,构建并训练了一个基于统计量的深度学习模型。
该方案适用于对企业在线监测数据标记为正常生产状态的排放数据进行检测,判断其中哪些污染物有排放数据造假的可能。
利用该模型,可以以数据的异常分布为基础,对环境监测数据进行检测,自动地识别不符合数据分布关系的造假。
对于环保部门监管企业,自动识别的方法可以节省大量人力物力、创造经济效益。而以多种分布情况下的异常评分二次建模的方法,是不易被企业察觉检测方法、从而针对性造假的,其威慑力具有对应的社会价值。
具体来说,请参考图1所示,该方法包括如下步骤:
步骤S100,获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量Z,Z={Z1,Z2…Zn},其中Zn表示第n个污染物的排放数据,n为污染物的种类数量,以多个时间点的矩阵A记为一个样本,以所有样本的集合作为数据集。
示例性的,假设污染物种类有6种,则每一个时间点记为一个向量Z(Z={Z1,Z2,Z3,Z4,Z5,Z6})。以180个时间点的矩阵A记为一个样本,所有的样本集合作为数据集。
步骤S200,计算污染物之间的互信息,提取作为污染物序列之间关联性的特征。
其中污染物之间的互信息指的是一个污染物序列(多个时间点的矩阵A)中各个种类的污染物之间的互信息,如污染物种类具有6种,分别表示为Z1,Z2,Z3,Z4,Z5,Z6,则污染物之间的互信息可以是Z1与Z2、Z2与Z3、Z4与Z5、Z5与Z6等之间的互信息。该污染物之间的互信息体现了数据间关联性或独立性,因此将其提取作为污染物序列之间关联性的特征。
在一些实施例中,通过如下公式计算污染物之间的互信息:
Gain(T,X)=Entropy(T)-Entropy(T,X)
其中,E(S)表示污染物的信息熵,i表示污染物的种类,c表示污染物的种类数量,pi表示第i个污染物的边际概率密度函数,Gain(T,X)表示两个污染物之间的互信息,Entropy(T)表示两个污染物中的一个污染物的信息熵,Entropy(T,X)表示两个污染物中的另一个污染物的信息熵。
步骤S300,对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列。
示例性的,假设有6种污染物,则一个矩阵A中包含有6种污染物序列,则一个样本中具有6个维度。
在一些实施例中,所述对每个维度进行单独的正态分布校验,得到统计量参数,具体包括:
Kolmogorov-Smirnov检验,公式如下:
其中,Dn表示正态分布检验的统计量,sup表示一组距离中的上确界,x表示单种参与检验的污染物数据,Fn(x)表示由x得到的实际分布的累积概率,F(x)表示要服从的理论分布的累积概率;
Anderson-Darling检验,公式如下:
其中,Z表示正态分布检验的统计量,n表示单种参与检验的污染物的数据量,w(x)表示权重函数,f(x)表示理论分布密度函数。
步骤S400,利用不同的分布假设条件下的异常检验算法获取异常评分。
在一些实施例中,对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的,先经过正态分布变换再计算异常评分。
在一些实施例中,所述利用不同的分布假设条件下的异常检验算法获取异常评分,具体包括:
对每个维度使用静态宽度直方图进行区间划分获取异常评分:
在实际计算中,这个公式也会等价于如下公式:
其中,HBOS(p)表示Histogram-based Outlier Score方法下计算出的异常评分,d表示单种参与计算的污染物的数据量,histi(p)表示直方图分箱归一化后的频率(相对数量);
通过马氏距离计算异常值获取异常评分:
其中,表示mahalanobis距离测度,xi表示某一样本点的值,/>表示总体的均值;
利用二叉搜索树结构来迭代地计算推定为异常值的样本,计算异常值分数:
其中
其中,ψ表示从x所属的数据集中抽取的数据的个数,c(ψ)表示在ψ个数据点下的平均高度,s(x,ψ)表示异常得分,H(ψ-1)是由(ψ-1)计算得到的谐波数(harmonic number),h(x)表示一个数据点x的高度即从树的根节点需要经历几条边才能到达叶子节点。
步骤S500,以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型。
在一些实施例中,分类模型的结构如图2所示,所述分类模型包括Self-Attention结构、RNN结构以及Luong Attention结构,如图3所示,所述以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型具体包括:
步骤S501,对所述污染物序列之间关联性的特征、统计量参数以及异常评分分别使用Self-Attention结构计算每个block的输出;
步骤S502,对多个Self-Attention的结果以逻辑关系构建含有先后次序的RNN结构计算输出;
步骤S503,以Luong Attention结构计算RNN结构的输入和输出的加权结果,经由两层隐含层的MLP结构计算每种污染物在对应序列中异常的概率。
步骤S600,基于所述数据集,对所述分类模型进行训练,得到造假检测模型。
在一些实施例中,如图4所示,所述基于所述数据集,对所述分类模型进行训练,得到造假检测模型,具体包括:
步骤S601,从所述数据集中抽取预设比例的正样本,更改正样本中超过污染物标准的数值、使所述数值降低到离污染物标准较远的欧式距离,标记为负样本,生成的负样本与原始真实样本集作为总的数据集;
步骤S602,将所述总的数据集划分为训练集、测试集、验证集;
步骤S603,基于所述训练集和所述测试集,使用不同随机种子开启神经网络训练,每个随机种子下取训练效果最好的一个模型所对应的模型参数;所述训练效果根据测试集正确率来确定,所述测试集正确率是每种污染物计算出来的造假概率大于等于0.5计为预测造假,与真实标签相对比,得到的准确率;
步骤S604,以各个模型参数分别配置分类模型,通过验证集对比以验证集效果最好的一个模型作为造假检测模型。
最后在步骤S700中,基于所述造假检测模型计算得到排放数据造假的概率。
具体的,对于已经训练好的模型,在推理阶段直接加载模型结构和参数。对每批数据进行运算时,经过如上描述的步骤S100-S400之后,直接加载模型进行推理,计算得到排放数据造假的概率。
本发明实施例还提供一种排放数据造假检测装置,如图5所示,该装置500包括:
数据获取模块501,被配置为获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量Z,Z={Z1,Z2…Zn},其中Zn表示第n个污染物的排放数据,n为污染物的种类数量,以多个时间点的矩阵A记为一个样本,以所有样本的集合作为数据集;
特征计算模块502,被配置为计算污染物之间的互信息,提取作为污染物序列之间关联性的特征;
参数计算模块503,被配置为对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列;
异常评分获取模块504,被配置为利用不同的分布假设条件下的异常检验算法获取异常评分;
分类模型构建模块505,被配置为以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型;
模型训练模块506,被配置为基于所述数据集,对所述分类模型进行训练,得到造假检测模型;
造假检测模块507,被配置为基于所述造假检测模型计算得到排放数据造假的概率。
在一些实施例中,所述特征计算模块被进一步配置为通过如下公式计算污染物之间的互信息:
Gain(T,X)=Entropy(T)-Entropy(T,X)
其中,E(S)表示污染物的信息熵,i表示污染物的种类,c表示污染物的种类数量,pi表示第i个污染物的边际概率密度函数,Gain(T,X)表示两个污染物之间的互信息,Entropy(T)表示两个污染物中的一个污染物的信息熵,Entropy(T,X)表示两个污染物中的另一个污染物的信息熵。
在一些实施例中,所述参数计算模块被进一步配置为::
Kolmogorov-Smirnov检验,公式如下:
其中,Dn表示正态分布检验的统计量,sup表示一组距离中的上确界,x表示单种参与检验的污染物数据,Fn(x)表示由x得到的实际分布的累积概率,F(x)表示要服从的理论分布的累积概率;
Anderson-Darling检验,公式如下:
其中,Z表示正态分布检验的统计量,n表示单种参与检验的污染物的数据量,w(x)表示权重函数,f(x)表示理论分布密度函数。
在一些实施例中,所述异常评分获取模块被进一步配置为:
对每个维度使用静态宽度直方图进行区间划分获取异常评分:
在实际计算中,这个公式也会等价于如下公式:
其中,HBOS(p)表示Histogram-based Outlier Score方法下计算出的异常评分,d表示单种参与计算的污染物的数据量,histi(p)表示直方图分箱归一化后的频率(相对数量);
通过马氏距离计算异常值获取异常评分:
其中,表示mahalanobis距离测度,xi表示某一样本点的值,/>表示总体的均值;
利用二叉搜索树结构来迭代地计算推定为异常值的样本,计算异常值分数:
其中
其中,ψ表示从x所属的数据集中抽取的数据的个数,c(ψ)表示在ψ个数据点下的平均高度,s(x,ψ)表示异常得分,H(ψ-1)是由(ψ-1)计算得到的谐波数(harmonic number),h(x)表示一个数据点x的高度即从树的根节点需要经历几条边才能到达叶子节点。
在一些实施例中,所述异常评分获取模块被进一步配置为:
对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的,先经过正态分布变换再计算异常评分。
在一些实施例中,所述分类模型包括Self-Attention结构、RNN结构以及LuongAttention结构,所述分类模型构建模块被进一步配置为:
对所述污染物序列之间关联性的特征、统计量参数以及异常评分分别使用Self-Attention结构计算每个block的输出;
对多个Self-Attention的结果以逻辑关系构建含有先后次序的RNN结构计算输出;
以Luong Attention结构计算RNN结构的输入和输出的加权结果,经由两层隐含层的MLP结构计算每种污染物在对应序列中异常的概率。
在一些实施例中,所述模型训练模块被进一步配置为:
从所述数据集中抽取预设比例的正样本,更改正样本中超过污染物标准的数值、使所述数值降低到离污染物标准较远的欧式距离,标记为负样本,生成的负样本与原始真实样本集作为总的数据集;
将所述总的数据集划分为训练集、测试集、验证集;
基于所述训练集和所述测试集,使用不同随机种子开启神经网络训练,每个随机种子下取训练效果最好的一个模型所对应的模型参数;所述训练效果根据测试集正确率来确定,所述测试集正确率是每种污染物计算出来的造假概率大于等于0.5计为预测造假,与真实标签相对比,得到的准确率;
以各个模型参数分别配置分类模型,通过验证集对比以验证集效果最好的一个模型作为造假检测模型。
需要说明的是,该排放数据造假检测装置与在先阐述的方法属于同一技术思路,其能起到同样的有益效果,此处不赘述。
本发明实施例提供一种排放数据造假检测系统,所述系统包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上任一实施例所述的方法。
本发明实施例提供一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行如上任一实施例所述的方法。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
Claims (10)
1.一种排放数据造假检测方法,其特征在于,所述方法包括:
获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量Z,Z={Z1,Z2…Zn},其中Zn表示第n个污染物的排放数据,n为污染物的种类数量,以多个时间点的矩阵A记为一个样本,以所有样本的集合作为数据集;
计算污染物之间的互信息,提取作为污染物序列之间关联性的特征;
对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列;
利用不同的分布假设条件下的异常检验算法获取异常评分;
以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型;
基于所述数据集,对所述分类模型进行训练,得到造假检测模型;
基于所述造假检测模型计算得到排放数据造假的概率。
2.根据权利要求1所述的方法,其特征在于,通过如下公式计算污染物之间的互信息:
Gain(T,X)=Entropy(T)-Entropy(T,X)
其中,E(S)表示污染物的信息熵,i表示污染物的种类,c表示污染物的种类数量,pi表示第i个污染物的边际概率密度函数,Gain(T,X)表示两个污染物之间的互信息,Entropy(T)表示两个污染物中的一个污染物的信息熵,Entropy(T,X)表示两个污染物中的另一个污染物的信息熵。
3.根据权利要求1所述的方法,其特征在于,所述对每个维度进行单独的正态分布校验,得到统计量参数,具体包括:
Kolmogorov-Smirnov检验,公式如下:
其中,Dn表示正态分布检验的统计量,sup表示一组距离中的上确界,x表示单种参与检验的污染物数据,Fn(x)表示由x得到的实际分布的累积概率,F(x)表示要服从的理论分布的累积概率;
Anderson-Darling检验,公式如下:
其中,Z表示正态分布检验的统计量,n表示单种参与检验的污染物的数据量,w(x)表示权重函数,f(x)表示理论分布密度函数。
4.根据权利要求1所述的方法,其特征在于,所述利用不同的分布假设条件下的异常检验算法获取异常评分,具体包括:
对每个维度使用静态宽度直方图进行区间划分获取异常评分:
在实际计算中,这个公式也会等价于如下公式:
其中,HBOS(p)表示Histogram-based Outlier Score方法下计算出的异常评分,d表示单种参与计算的污染物的数据量,histi(p)表示直方图分箱归一化后的频率(相对数量);
通过马氏距离计算异常值获取异常评分:
其中,表示mahalanobis距离测度,xi表示某一样本点的值,/>表示总体的均值;
利用二叉搜索树结构来迭代地计算推定为异常值的样本,计算异常值分数:
其中
其中,ψ表示从x所属的数据集中抽取的数据的个数,c(ψ)表示在ψ个数据点下的平均高度,s(x,ψ)表示异常得分,H(ψ-1)是由(ψ-1)计算得到的谐波数(harmonic number),h(x)表示一个数据点x的高度即从树的根节点需要经历几条边才能到达叶子节点。
5.根据权利要求4所述的方法,其特征在于,对于以正态分布为假设前提条件、而数据检验又未能通过正态分布检验的,先经过正态分布变换再计算异常评分。
6.根据权利要求1所述的方法,其特征在于,所述分类模型包括Self-Attention结构、RNN结构以及Luong Attention结构,所述以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型具体包括:
对所述污染物序列之间关联性的特征、统计量参数以及异常评分分别使用Self-Attention结构计算每个block的输出;
对多个Self-Attention的结果以逻辑关系构建含有先后次序的RNN结构计算输出;
以Luong Attention结构计算RNN结构的输入和输出的加权结果,经由两层隐含层的MLP结构计算每种污染物在对应序列中异常的概率。
7.根据权利要求6所述的方法,其特征在于,所述基于所述数据集,对所述分类模型进行训练,得到造假检测模型,具体包括:
从所述数据集中抽取预设比例的正样本,更改正样本中超过污染物标准的数值、使所述数值降低到离污染物标准较远的欧式距离,标记为负样本,生成的负样本与原始真实样本集作为总的数据集;
将所述总的数据集划分为训练集、测试集、验证集;
基于所述训练集和所述测试集,使用不同随机种子开启神经网络训练,每个随机种子下取训练效果最好的一个模型所对应的模型参数;所述训练效果根据测试集正确率来确定,所述测试集正确率是每种污染物计算出来的造假概率大于等于0.5计为预测造假,与真实标签相对比,得到的准确率;
以各个模型参数分别配置分类模型,通过验证集对比以验证集效果最好的一个模型作为造假检测模型。
8.一种排放数据造假检测装置,其特征在于,所述装置包括:
数据获取模块,被配置为获取在线监测数据,所述在线监测数据包括生产状态数据以及多种污染物的排放数据,每一个时间点记为一个向量Z,Z={Z1,Z2…Zn},其中Zn表示第n个污染物的排放数据,n为污染物的种类数量,以多个时间点的矩阵A记为一个样本,以所有样本的集合作为数据集;
特征计算模块,被配置为计算污染物之间的互信息,提取作为污染物序列之间关联性的特征;
参数计算模块,被配置为对每个维度进行单独的正态分布校验,得到统计量参数,所述维度对应每种污染物的多个时间点的序列;
异常评分获取模块,被配置为利用不同的分布假设条件下的异常检验算法获取异常评分;
分类模型构建模块,被配置为以污染物的维度为准拼接污染物序列之间关联性的特征、统计量参数以及异常评分,作为神经网络的输入,构建分类模型;
模型训练模块,被配置为基于所述数据集,对所述分类模型进行训练,得到造假检测模型;
造假检测模块,被配置为基于所述造假检测模型计算得到排放数据造假的概率。
9.一种排放数据造假检测系统,其特征在于:所述系统包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7中任一项所述的方法。
10.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311236361.1A CN117235624B (zh) | 2023-09-22 | 2023-09-22 | 排放数据造假检测方法、装置及系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311236361.1A CN117235624B (zh) | 2023-09-22 | 2023-09-22 | 排放数据造假检测方法、装置及系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235624A true CN117235624A (zh) | 2023-12-15 |
CN117235624B CN117235624B (zh) | 2024-05-07 |
Family
ID=89090785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311236361.1A Active CN117235624B (zh) | 2023-09-22 | 2023-09-22 | 排放数据造假检测方法、装置及系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235624B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614526A (zh) * | 2018-11-09 | 2019-04-12 | 环境保护部环境工程评估中心 | 基于高维异常检测模型的环境监测数据造假手段识别方法 |
CN110990393A (zh) * | 2019-12-17 | 2020-04-10 | 清华苏州环境创新研究院 | 一种行业企业数据异常行为的大数据识别方法 |
CN111507376A (zh) * | 2020-03-20 | 2020-08-07 | 厦门大学 | 一种基于多种无监督方法融合的单指标异常检测方法 |
US20200382536A1 (en) * | 2019-05-31 | 2020-12-03 | Gurucul Solutions, Llc | Anomaly detection in cybersecurity and fraud applications |
US20200410403A1 (en) * | 2019-06-27 | 2020-12-31 | Royal Bank Of Canada | System and method for detecting data drift |
WO2021068563A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 样本数据处理方法、装置、计算机设备及存储介质 |
US20210133494A1 (en) * | 2018-05-18 | 2021-05-06 | Nec Corporation | Anomaly detection apparatus, anomaly detection method, and program |
CN112785420A (zh) * | 2021-01-26 | 2021-05-11 | 上海明略人工智能(集团)有限公司 | 信用评分模型的训练方法、装置、电子设备及存储介质 |
US20210264209A1 (en) * | 2020-02-24 | 2021-08-26 | MakinaRocks Co., Ltd. | Method for generating anomalous data |
WO2021174751A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安国际智慧城市科技股份有限公司 | 基于大数据的污染源定位方法、装置、设备及存储介质 |
CN114049134A (zh) * | 2021-11-09 | 2022-02-15 | 重庆商勤科技有限公司 | 一种污染源在线监测数据造假识别方法 |
CN114580747A (zh) * | 2022-03-04 | 2022-06-03 | 西安交通大学 | 基于数据相关性和模糊系统的异常数据预测方法及系统 |
CN116308415A (zh) * | 2023-02-15 | 2023-06-23 | 江苏蓝创智能科技股份有限公司 | 一种污水排放数据真伪风险评估方法 |
CN116662899A (zh) * | 2023-05-05 | 2023-08-29 | 河南晶锐冷却技术股份有限公司 | 一种基于自适应策略的含噪数据异常检测方法 |
-
2023
- 2023-09-22 CN CN202311236361.1A patent/CN117235624B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210133494A1 (en) * | 2018-05-18 | 2021-05-06 | Nec Corporation | Anomaly detection apparatus, anomaly detection method, and program |
CN109614526A (zh) * | 2018-11-09 | 2019-04-12 | 环境保护部环境工程评估中心 | 基于高维异常检测模型的环境监测数据造假手段识别方法 |
US20200382536A1 (en) * | 2019-05-31 | 2020-12-03 | Gurucul Solutions, Llc | Anomaly detection in cybersecurity and fraud applications |
US20200410403A1 (en) * | 2019-06-27 | 2020-12-31 | Royal Bank Of Canada | System and method for detecting data drift |
WO2021068563A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 样本数据处理方法、装置、计算机设备及存储介质 |
CN110990393A (zh) * | 2019-12-17 | 2020-04-10 | 清华苏州环境创新研究院 | 一种行业企业数据异常行为的大数据识别方法 |
US20210264209A1 (en) * | 2020-02-24 | 2021-08-26 | MakinaRocks Co., Ltd. | Method for generating anomalous data |
WO2021174751A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安国际智慧城市科技股份有限公司 | 基于大数据的污染源定位方法、装置、设备及存储介质 |
CN111507376A (zh) * | 2020-03-20 | 2020-08-07 | 厦门大学 | 一种基于多种无监督方法融合的单指标异常检测方法 |
CN112785420A (zh) * | 2021-01-26 | 2021-05-11 | 上海明略人工智能(集团)有限公司 | 信用评分模型的训练方法、装置、电子设备及存储介质 |
CN114049134A (zh) * | 2021-11-09 | 2022-02-15 | 重庆商勤科技有限公司 | 一种污染源在线监测数据造假识别方法 |
CN114580747A (zh) * | 2022-03-04 | 2022-06-03 | 西安交通大学 | 基于数据相关性和模糊系统的异常数据预测方法及系统 |
CN116308415A (zh) * | 2023-02-15 | 2023-06-23 | 江苏蓝创智能科技股份有限公司 | 一种污水排放数据真伪风险评估方法 |
CN116662899A (zh) * | 2023-05-05 | 2023-08-29 | 河南晶锐冷却技术股份有限公司 | 一种基于自适应策略的含噪数据异常检测方法 |
Non-Patent Citations (5)
Title |
---|
DAN HU, ET.AL: "Statistical Inference of Rough Set Dependence and Importance Analysis", 《IEEE TRANSACTIONS ON FUZZY SYSTEMS 》, vol. 21, no. 6, 31 December 2013 (2013-12-31), pages 10701079, XP011532941, DOI: 10.1109/TFUZZ.2013.2242474 * |
TAHEREH POURHABIBI. ET.AL: "Fraud detection: a systematic literature review of graph-based anomaly detection approaches", 《DECISION SUPPORT SYSTEMS》, vol. 133, 30 June 2020 (2020-06-30), pages 1 - 15 * |
孙栓柱;宋蓓;李春岩;王皓;: "一种基于贝叶斯后验的异常值在线检测及置信度评估算法", 中国科学技术大学学报, no. 08, 15 August 2017 (2017-08-15), pages 644 - 652 * |
张天宇等: "基于正态检验的瓦斯涌出异常预警方法", 《软件导刊》, vol. 19, no. 3, 31 March 2020 (2020-03-31), pages 99 - 103 * |
李爱华等: "基于多数据源融合的创业板上市公司财务造假异常检测", 《数据分析与知识发现》, vol. 7, no. 5, 31 May 2023 (2023-05-31), pages 33 - 47 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235624B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN107949812A (zh) | 用于检测配水系统中的异常的组合方法 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN112711757B (zh) | 一种基于大数据平台的数据安全集中管控方法及系统 | |
CN111881722A (zh) | 一种跨年龄人脸识别方法、系统、装置及存储介质 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN114913923A (zh) | 针对单细胞染色质开放性测序数据的细胞类型识别方法 | |
CN109617864B (zh) | 一种网站识别方法及网站识别系统 | |
CN113327037A (zh) | 基于模型的风险识别方法、装置、计算机设备和存储介质 | |
CN117235624B (zh) | 排放数据造假检测方法、装置及系统和存储介质 | |
CN111079348B (zh) | 一种缓变信号检测方法和装置 | |
CN117152119A (zh) | 一种基于图像处理的型材瑕疵视觉检测方法 | |
CN116680639A (zh) | 一种基于深度学习的深海潜水器传感器数据的异常检测方法 | |
CN116739764A (zh) | 一种基于机器学习的交易风险检测方法、装置、设备及介质 | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 | |
CN115471122A (zh) | 基于元数据模型的能耗评估方法及系统 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN115496364A (zh) | 幌子企业识别方法及装置、存储介质及电子设备 | |
CN114492614A (zh) | 一种基于集成学习的带钢热轧过程故障分类方法及装置 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN114154617A (zh) | 一种基于vfl的低压居民用户异常用电识别方法及系统 | |
CN117593101B (zh) | 基于多维数据的金融风险数据处理分析方法及系统 | |
CN115797069A (zh) | 一种风险账户的确定方法、装置、设备及存储介质 | |
CN115617011A (zh) | 基于自回归图对抗神经网络的工业设备状态检测方法 | |
CN115293783A (zh) | 风险用户识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 100096 no.258, 2nd floor, building 2, Xisanqi building materials City, Haidian District, Beijing Applicant after: China Energy Conservation Digital Technology Co.,Ltd. Address before: 100096 no.258, 2nd floor, building 2, Xisanqi building materials City, Haidian District, Beijing Applicant before: CECEP TALROAD TECHNOLOGY CO.,LTD. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant |