CN114757296B - 一种基于协同数据的污染物分析方法和装置 - Google Patents

一种基于协同数据的污染物分析方法和装置 Download PDF

Info

Publication number
CN114757296B
CN114757296B CN202210464031.7A CN202210464031A CN114757296B CN 114757296 B CN114757296 B CN 114757296B CN 202210464031 A CN202210464031 A CN 202210464031A CN 114757296 B CN114757296 B CN 114757296B
Authority
CN
China
Prior art keywords
data
value
abnormal
error
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210464031.7A
Other languages
English (en)
Other versions
CN114757296A (zh
Inventor
唐宇
符伊晴
赵晋飞
杨捷鹏
李嘉豪
骆少明
谭志平
黄华盛
郭琪伟
陈尉钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202210464031.7A priority Critical patent/CN114757296B/zh
Publication of CN114757296A publication Critical patent/CN114757296A/zh
Application granted granted Critical
Publication of CN114757296B publication Critical patent/CN114757296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明提供了一种基于协同数据的污染物分析方法和装置,其中,方法包括:通过异常数据集和正常数据集中的数据,计算出对应不同污染物的协同数据,然后对协同数据进行拟合,并计算各个异常数据子集的先验误差,以此作为当前数据集污染物检测凭证,从而实现对当前数据集的污染物的检测,实现了以协同数据对污染物进行判定的目的,相对于单个的数据认定而言,具有更高的精度,可以实现对污染物的精准认定。

Description

一种基于协同数据的污染物分析方法和装置
技术领域
本发明涉及数据分析领域,特别涉及一种基于协同数据的污染物分析方法和装置。
背景技术
随着经济的发展,我国对海洋资源开发利用的程度越来越高,对海洋信息监测也提出了更高的要求。目前,海洋信息的监测数据多种多样,在进行海洋数据分析时,一般是对每个数据进行单独的认定,或者是通过EM算法,对污染物出现的概率进行预测,然而这种方式容易出现较大的误差。
发明内容
本发明的主要目的为提供一种基于协同数据的污染物分析方法和装置,旨在解决现有技术预测污染物容易出现较大误差的问题。
本发明提供了一种基于协同数据的污染物分析方法,包括:
S1:获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据;
S2:根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集;
S3:按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集;
S4:计算所述异常数据子集中两两数据之间的协方差的绝对值;
S5:取所述绝对值大于预设值的数据作为对应所述污染物的协同数据;
S6:通过预设的拟合函数对所述协同数据中的任意两个数据进行拟合,得到对应的拟合函数fij(xi);
S7:根据预设的误差公式L
Figure BDA0003622890760000021
获取每个所述异常数据子集的先验误差;其中,N为所述协同数据中任意两个数据组合的个数,L(fij(xi))表示所述先验误差,xi和xj分别表示异常数据子集中的第i个数据和第j个数据,且i不等于j,c为预设的参数;
S8:获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集;
S9:将所述目标数据集中任意两个数据代入公式fi(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q;
S10:将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0;
S11:将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。
进一步地,所述获取所述指定区域的当前数据集的步骤S8之后,还包括:
S901:根据公式
Figure BDA0003622890760000022
计算所述当前数据集中每个当前数据的异常值;其中Zk表示所述当前数据集中的第k个当前数据的异常值,μ表示所述多个异常数据集中第k个数据的平均值,且
Figure BDA0003622890760000023
σk表示所述多个异常数据集中第k个数据的标准差,n表示异常数据集的个数,xik表示第i个数据集中的第k个数据;且
Figure BDA0003622890760000024
Figure BDA0003622890760000025
xij表示第j个所述当前数据集中第i个元素;
S902:将|Zij|>Zthr对应的异常数据提取出来,并与所述异常数据的信息进行比对,其中Zthr为设定的参数值;
S903:若比对结果为该当前数据错误,则将正确的当前数据替换该异常数据。
进一步地,所述计算所述异常数据子集中两两数据之间的协方差的绝对值的步骤S4之前,还包括:
S301:根据公式
Figure BDA0003622890760000031
计算各个异常数据子集中每个数据的信息熵值,其中,
Figure BDA0003622890760000032
Ei表示第i个数据的所述信息熵值,当pij=0时,定义
Figure BDA0003622890760000033
,pij表示第j个异常数据子集的第i个数据对应的中间值,Yij表示第j个异常数据子集的第i个数据,n表示数据的个数;
S302:将所述信息熵值小于预设的信息熵值的数据从所述异常数据子集中剔除。
进一步地,所述获取每个所述异常数据子集的先验误差的步骤S7之后,还包括:
S801:获取测试集;其中,所述测试集与所述异常数据子集中的数据种类相同;
S802:将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值;
S803:将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0;
S804:根据所述测试数据的相关值计算所述相关值的损失值;
S805:判断所述损失值是否大于预设损失值;
S806:若所述损失值大于预设损失值,则更新所述先验误差或者重新拟合所述拟合函数,直至所述损失值小于或等于预设损失值。
进一步地,所述根据所述目标相关性确定当前所述指定区域对应的目标污染物的步骤S11,包括:
S1101:检测与各个所述污染物的所述目标相关性是否大于预设的相关性;
S1102:当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物。
本发明还提供了一种基于协同数据的污染物分析装置,包括:
数据集获取模块,用于获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据;
指标数据确定模块,用于根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集;
分组模块,用于按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集;
计算模块,用于计算所述异常数据子集中两两数据之间的协方差的绝对值;
取值模块,用于取所述绝对值大于预设值的数据作为对应所述污染物的协同数据;
拟合模块,用于通过预设的拟合函数对所述协同数据中的任意两个数据进行拟合,得到对应的拟合函数fij(xi);
误差计算模块,用于根据预设的误差公式L
Figure BDA0003622890760000041
Figure BDA0003622890760000042
获取每个所述异常数据子集的先验误差;其中,N为所述协同数据中任意两个数据组合的个数,L(fij(xi))表示所述先验误差,xi和xj分别表示异常数据子集中的第i个数据和第j个数据,且i不等于j,c为预设的参数;
目标数据集获取模块,用于获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集;
代入模块,用于将所述目标数据集中任意两个数据代入公式fi(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q;
标记模块,用于将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0;
污染物确定模块,用于将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。
进一步地,还包括:
异常值计算模块,用于根据公式
Figure BDA0003622890760000051
计算所述当前数据集中每个当前数据的异常值;其中Zk表示所述当前数据集中的第k个当前数据的异常值,μ表示所述多个异常数据集中第k个数据的平均值,且
Figure BDA0003622890760000052
σk表示所述多个异常数据集中第k个数据的标准差,n表示异常数据集的个数,xik表示第i个数据集中的第k个数据;且
Figure BDA0003622890760000053
xij表示第j个所述当前数据集中第i个元素;
异常数据提取模块,用于将|Zij|>Zthr对应的异常数据提取出来,并与所述异常数据的信息进行比对,其中Zthr为设定的参数值;
替换模块,用于若比对结果为该当前数据错误,则将正确的当前数据替换该异常数据。
进一步地,基于协同数据的污染物分析装置,还包括:
信息熵值计算模块,用于根据公式
Figure BDA0003622890760000054
计算各个异常数据子集中每个数据的信息熵值,其中,
Figure BDA0003622890760000055
Figure BDA0003622890760000056
Ei表示第i个数据的所述信息熵值,当pij=0时,定义
Figure BDA0003622890760000057
pij表示第j个异常数据子集的第i个数据对应的中间值,Yij表示第j个异常数据子集的第i个数据,n表示数据的个数;
剔除模块,用于将所述信息熵值小于预设的信息熵值的数据从所述异常数据子集中剔除。
进一步地,基于协同数据的污染物分析装置,还包括:
测试集获取模块,用于获取测试集;其中,所述测试集与所述异常数据子集中的数据种类相同;
数据输入模块,用于将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值;
误差值标记模块,用于将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0;
损失值计算模块,用于根据所述测试数据的相关值计算所述相关值的损失值;
判断模块,用于判断所述损失值是否大于预设损失值;
更新模块,用于若所述损失值大于预设损失值,则更新所述先验误差或者重新拟合所述拟合函数,直至所述损失值小于或等于预设损失值。
进一步地,所述污染物确定模块,包括:
检测子模块,用于检测与各个所述污染物的所述目标相关性是否大于预设的相关性;
判定子模块,用于当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物e。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明通过异常数据集和正常数据集中的数据,计算出对应不同污染物的协同数据,然后对协同数据进行拟合,并计算各个异常数据子集的先验误差,以此作为当前数据集污染物检测凭证,实现了以协同数据对污染物进行判定的目的。相对于单个的数据认定而言,具有更高的精度,可以实现对污染物的精准认定。
附图说明
图1是本发明一实施例的一种基于协同数据的污染物分析方法的流程示意图;
图2是本发明一实施例的一种基于协同数据的污染物分析装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种基于协同数据的污染物分析方法,包括:
S1:获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据;
S2:根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集;
S3:按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集;
S4:计算所述异常数据子集中两两数据之间的协方差的绝对值;
S5:取所述绝对值大于预设值的数据作为对应所述污染物的协同数据;
S6:通过预设的拟合函数对所述协同数据中的任意两个数据进行拟合,得到对应的拟合函数fij(xi);
S7:根据预设的误差公式L
Figure BDA0003622890760000081
获取每个所述异常数据子集的先验误差;其中,N为所述协同数据中任意两个数据组合的个数,L(fij(xi))表示所述先验误差,xi和xj分别表示异常数据子集中的第i个数据和第j个数据,且i不等于j,c为预设的参数;
S8:获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集;
S9:将所述目标数据集中任意两个数据代入公式fi(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q;
S10:将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0;
S11:将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。
如上述步骤S1所述,获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据。由于每个指定区域的情况均不相同,其受到污染后的数据会具有一定差异,该指定区域的范围不能太小,否则不能获取到足够多的异常数据集和正常数据集,会导致后续对污染物的判定出现较大的误差,数据可以从历史检测到的原始数据中获取,例如可以是人为获取后上传的数据,该异常数据集和正常数据集中的数据种类数量需要保持一致,例如为PH(Hydrogen ion concentration,氢离子浓度指数)、COD(Chemical Oxygen Demand,化学需氧量)、废水、氨氮、总磷、总铜、PM2.5、SO2、NO2、化学需氧量、二氧化氮、废气流量、烟气流速、电导率中的一种或者多种。
如上述步骤S2所述,根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集。其中,由于指定区域所具备的海洋环境,因此,异常数据集需要与正常数据集相减,才能直观体现出异常数据集中的异常数据,并以差值作为训练数据集,需要说明的是,该差值需要保留符号,以避免出现误差。
如上述步骤S3所述,按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集。即将相同的污染物对应的每组数据进行集合,得到各个污染物对应得到的异常数据子集。
如上述步骤S4所述,计算所述异常数据子集中两两数据之间的协方差的绝对值。其中,协方差的计算期望值分别为E(X)=μ与E(Y)=ν,两个实数随机变量X与Y之间的协方差定义为:COV(X,Y)=E[(X-E(X))(Y-E(Y))],协方差越大说明这两个数据越相关,协方差越小,说明这两个数据越不相关。
如上述步骤S5-S7所述,获取到协同数据后,可以以此建立协同数据集,并重新组合得到每个异常数据子集的先验误差,由于实际情况会存在一定的误差,即实际测量值很难恰好在拟合函数上,因此,在计算先验误差时,需要考虑到误差范围,以参数c进行补充,从而得到先验误差,当测量值误差大于该先验误差时,说明这两个数据不能说明是属于对应的污染物的特征,当小于该先验误差时,可以认为具有一定的概率,当然需要将后续的误差与先验误差都进行比较,最后综合认定是否为对应的污染物。
如上述步骤S8-S10所述,获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集,将所述目标数据集中任意两个数据代入公式fi(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q,将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0。获取指定区域的当前数据集,即实时检测的数据集,然后输入公式计算目标误差。将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0进行统计。从而得到最终相关性。
如上述步骤S11所述,将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。其中,确定目标污染物的方式可以是直接根据目标相关性进行确定,当然,需要对目标相关性进行预先的判定,即其需要大于设定值,当大于该设定值时,才认定其为对应的污染物,当然,若出现了与多个污染物相关,即其对应的目标相关性都大于设定值,可以直接认定其具有多种污染物。
需要说明的是,由于污染物在污染海洋时,部分数据会出现协同性,本申请利用协同数据对污染物进行判定的目的,相对于单个的数据认定而言,具有更高的精度,可以实现对污染物的精准认定。
在一个实施例中,所述获取所述指定区域的当前数据集的步骤S8之后,还包括:
S901:根据公式
Figure BDA0003622890760000101
计算所述当前数据集中每个当前数据的异常值;其中Zk表示所述当前数据集中的第k个当前数据的异常值,μ表示所述多个异常数据集中第k个数据的平均值,且
Figure BDA0003622890760000102
σk表示所述多个异常数据集中第k个数据的标准差,n表示异常数据集的个数,xik表示第i个数据集中的第k个数据;且
Figure BDA0003622890760000103
Figure BDA0003622890760000111
xij表示第j个所述当前数据集中第i个元素;
S902:将|Zij|>Zthr对应的异常数据提取出来,并与所述异常数据的信息进行比对,其中Zthr为设定的参数值;
S903:若比对结果为该当前数据错误,则将正确的当前数据替换该异常数据。
如上述步骤S901-S903所述,为了避免数据的误输入,或者输入了错误的数据,需要提取其中的异常数据重新进行输入,即根据公式
Figure BDA0003622890760000112
计算所述当前数据集中每个当前数据的异常值;需要对获取到的异常数据信息计算各个异常数据的异常值,当异常值超出了设定的参数值时,可以认为该异常数据异常,当然也不排除该异常数据可能会出现异常值,例如,有大量污染物进入的情形,相关的检测数据未能及时反应,还需要过一段时间才可以显示出,此处仅为对异常数据的提取,后续是否需要更改还需要相关人员进一步判定,保证数据的正确度,使结果更加贴近真实值。
在一个实施例中,所述计算所述异常数据子集中两两数据之间的协方差的绝对值的步骤S4之前,还包括:
S301:根据公式
Figure BDA0003622890760000113
计算各个异常数据子集中每个数据的信息熵值,其中,
Figure BDA0003622890760000114
Ei表示第i个数据的所述信息熵值,当pij=0时,定义
Figure BDA0003622890760000115
pij表示第j个异常数据子集的第i个数据对应的中间值,Yij表示第j个异常数据子集的第i个数据,n表示数据的个数;
S302:将所述信息熵值小于预设的信息熵值的数据从所述异常数据子集中剔除。
如上述步骤S301-S302所述,由于部分数据未体现出污染物,因此为了避免对数据的冗余计算,可以计算对应的信息熵值,具体地,若某个数据的信息熵越小,表明数据的变异程度越大,提供的信息量越多,在污染物的认定过程中所能起到的作用也越大。相反,某个数据的信息熵越大,表明数据的变异程度越小,提供的信息量也越少,在污染物的认定过程中所起到的作用也越小,此处将其剔除出异常数据子集,从而可以节约计算成本,避免冗余计算。
在一个实施例中,所述获取每个所述异常数据子集的先验误差的步骤S7之后,还包括:
S801:获取测试集;其中,所述测试集与所述异常数据子集中的数据种类相同;
S802:将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值;
S803:将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0;
S804:根据所述测试数据的相关值计算所述相关值的损失值;
S805:判断所述损失值是否大于预设损失值;
S806:若所述损失值大于预设损失值,则更新所述先验误差或者重新拟合所述拟合函数,直至所述损失值小于或等于预设损失值。
如上述步骤S801-S806所述,实现了对拟合函数的检测,由于拟合函数拟合的程度可能会比较差,因此,需要通过测试集进行测试,即先获取测试集,获取的方式可以通过人为上传数据,或者直接以之前的异常数据集中的数据检测来获取,需要说明的是,由于拟合函数是以差值进行拟合的,因此,此处的测试数据集也应当是差值,即获取到检测数据后,应当与指标数据作差,得到的数据集才为测试集,然后将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值,其中,预设的误差计算公式与前述计算先验误差的计算公式相同,此处不再赘述,然后将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0,根据所述测试数据的相关值计算所述相关值的损失值,计算损失值的方式为,相关值相加除以对应的数据组数,预设损失值为预先设定的损失值,当大于该预设损失值时,认为拟合函数的误差较大,当小于或等于该预设损失值,则认为拟合函数的误差较小,可以继续进行污染物的检测,当拟合函数的误差较大时,此处可以更新先验误差或者重新拟合函数,重新拟合的方式可以是换一种拟合初始函数进行拟合,例如二项式拟合函数,可以换成对数拟合函数。
在一个实施例中,所述根据所述目标相关性确定当前所述指定区域对应的目标污染物的步骤S11,包括:
S1101:检测与各个所述污染物的所述目标相关性是否大于预设的相关性;
S1102:当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物。
如上述步骤S1101-S1102所述,当目标相关性大于预设的相关性时,可以认为其具有对应的污染物,当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物。需要说明的是,此处需要该两种污染物的检测数据至少有两个数据不交叉,即该两个数据仅有一个污染物对其有影响,而另外一个无影响,从而可以实现对多个污染物的检测。
参照图2,本发明还提供了一种基于协同数据的污染物分析装置,包括:
数据集获取模块10,用于获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据;
指标数据确定模块20,用于根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集;
分组模块30,用于按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集;
计算模块40,用于计算所述异常数据子集中两两数据之间的协方差的绝对值;
取值模块50,用于取所述绝对值大于预设值的数据作为对应所述污染物的协同数据;
拟合模块60,用于通过预设的拟合函数对所述协同数据中的任意两个数据进行拟合,得到对应的拟合函数fij(xi);
误差计算模块70,用于根据预设的误差公式L
Figure BDA0003622890760000141
Figure BDA0003622890760000142
获取每个所述异常数据子集的先验误差;其中,N为所述协同数据中任意两个数据组合的个数,L(fij(xi))表示所述先验误差,xi和xj分别表示异常数据子集中的第i个数据和第j个数据,且i不等于j,c为预设的参数;
目标数据集获取模块80,用于获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集;
代入模块90,用于将所述目标数据集中任意两个数据代入公式fi(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q;
标记模块100,用于将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0;
污染物确定模块110,用于将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。
在一个实施例中,基于协同数据的污染物分析装置,还包括:
异常值计算模块,用于根据公式
Figure BDA0003622890760000151
计算所述当前数据集中每个当前数据的异常值;其中Zk表示所述当前数据集中的第k个当前数据的异常值,μ表示所述多个异常数据集中第k个数据的平均值,且
Figure BDA0003622890760000152
σk表示所述多个异常数据集中第k个数据的标准差,n表示异常数据集的个数,xik表示第i个数据集中的第k个数据;且
Figure BDA0003622890760000153
xij表示第j个所述当前数据集中第i个元素;
异常数据提取模块,用于将|Zij|>Zthr对应的异常数据提取出来,并与所述异常数据的信息进行比对,其中Zthr为设定的参数值;
替换模块,用于若比对结果为该当前数据错误,则将正确的当前数据替换该异常数据。
在一个实施例中,基于协同数据的污染物分析装置,还包括:
信息熵值计算模块,用于根据公式
Figure BDA0003622890760000154
计算各个异常数据子集中每个数据的信息熵值,其中,
Figure BDA0003622890760000155
Figure BDA0003622890760000156
Ei表示第i个数据的所述信息熵值,当pij=0时,定义
Figure BDA0003622890760000157
pij表示第j个异常数据子集的第i个数据对应的中间值,Yij表示第j个异常数据子集的第i个数据,n表示数据的个数;
剔除模块,用于将所述信息熵值小于预设的信息熵值的数据从所述异常数据子集中剔除。
在一个实施例中,基于协同数据的污染物分析装置,还包括:
测试集获取模块,用于获取测试集;其中,所述测试集与所述异常数据子集中的数据种类相同;
数据输入模块,用于将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值;
误差值标记模块,用于将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0;
损失值计算模块,用于根据所述测试数据的相关值计算所述相关值的损失值;
判断模块,用于判断所述损失值是否大于预设损失值;
更新模块,用于若所述损失值大于预设损失值,则更新所述先验误差或者重新拟合所述拟合函数,直至所述损失值小于或等于预设损失值。
在一个实施例中,所述污染物确定模块110,包括:
检测子模块,用于检测与各个所述污染物的所述目标相关性是否大于预设的相关性;
判定子模块,用于当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物。
本发明的有益效果:通过异常数据集和正常数据集中的数据,计算出对应不同污染物的协同数据,然后对协同数据进行拟合,并计算各个异常数据子集的先验误差,以此作为当前数据集污染物检测凭证,实现了以协同数据对污染物进行判定的目的。相对于单个的数据认定而言,具有更高的精度,可以实现对污染物的精准认定。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种拍摄画面等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的基于协同数据的污染物分析方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的基于协同数据的污染物分析方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于协同数据的污染物分析方法,其特征在于,包括:
S1:获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据;
S2:根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集;
S3:按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集;
S4:计算所述异常数据子集中两两数据之间的协方差的绝对值;
S5:取所述绝对值大于预设值的数据作为对应所述污染物的协同数据;
S6:通过预设的拟合函数对所述协同数据中的任意两个数据进行拟合,得到对应的拟合函数fij(xi);
S7:根据预设的误差公式
Figure FDA0003928536510000011
获取每个所述异常数据子集的先验误差;其中,N为所述协同数据中任意两个数据组合的个数,L(fij(xi))表示所述先验误差,xi和xj分别表示异常数据子集中的第i个数据和第j个数据,且i不等于j,c为预设的参数;
S8:获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集;
S9:将所述目标数据集中任意两个数据代入公式fij(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q;
S10:将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0;
S11:将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。
2.如权利要求1所述的基于协同数据的污染物分析方法,其特征在于,所述获取所述指定区域的当前数据集的步骤S8之后,还包括:
S901:根据公式
Figure FDA0003928536510000021
计算所述当前数据集中每个当前数据的异常值;其中Zk表示所述当前数据集中的第k个当前数据的异常值,μ表示所述多个异常数据集中第k个数据的平均值,且
Figure FDA0003928536510000022
σk表示所述多个异常数据集中第k个数据的标准差,n表示异常数据集的个数,xik表示第i个异常数据集中的第k个数据;且
Figure FDA0003928536510000023
S902:将|Zij|>Zthr对应的异常数据提取出来,并与所述异常数据的信息进行比对,其中Zthr为设定的参数值;
S903:若比对结果为该当前数据错误,则将正确的当前数据替换该异常数据。
3.如权利要求1所述的基于协同数据的污染物分析方法,其特征在于,所述计算所述异常数据子集中两两数据之间的协方差的绝对值的步骤S4之前,还包括:
S301:根据公式
Figure FDA0003928536510000024
计算各个异常数据子集中每个数据的信息熵值,其中,
Figure FDA0003928536510000025
Ei表示第i个数据的所述信息熵值,当pij=0时,定义
Figure FDA0003928536510000026
pij表示第j个异常数据子集的第i个数据对应的中间值,Yij表示第j个异常数据子集的第i个数据,n表示数据的个数;
S302:将所述信息熵值小于预设的信息熵值的数据从所述异常数据子集中剔除。
4.如权利要求1所述的基于协同数据的污染物分析方法,其特征在于,所述获取每个所述异常数据子集的先验误差的步骤S7之后,还包括:
S801:获取测试集;其中,所述测试集与所述异常数据子集中的数据种类相同;
S802:将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值;
S803:将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0;
S804:根据所述测试数据的相关值计算所述相关值的损失值;
S805:判断所述损失值是否大于预设损失值;
S806:若所述损失值大于预设损失值,则更新所述先验误差或者重新拟合所述拟合函数,直至所述损失值小于或等于预设损失值。
5.如权利要求1所述的基于协同数据的污染物分析方法,其特征在于,所述根据所述目标相关性确定当前所述指定区域对应的目标污染物的步骤S11,包括:
S1101:检测与各个所述污染物的所述目标相关性是否大于预设的相关性;
S1102:当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物。
6.一种基于协同数据的污染物分析装置,其特征在于,包括:
数据集获取模块,用于获取指定区域的多个异常数据集和多个正常数据集,以及每个所述异常数据集对应的污染物及其含量;其中,每个异常数据集或者每个正常数据集均具有单个时间点采样样本的检测数据;
指标数据确定模块,用于根据所述多个正常数据集确定每项检测数据的指标数据,并获取每个异常数据集中每个数据与所述指标数据的差值,以差值作为训练数据集;
分组模块,用于按照每个异常数据集对应的污染物将异常数据集中的每组数据进行分组,得到多个污染物各自对应的异常数据子集;
计算模块,用于计算所述异常数据子集中两两数据之间的协方差的绝对值;
取值模块,用于取所述绝对值大于预设值的数据作为对应所述污染物的协同数据;
拟合模块,用于通过预设的拟合函数对所述协同数据中的任意两个数据进行拟合,得到对应的拟合函数fij(xi);
误差计算模块,用于根据预设的误差公式
Figure FDA0003928536510000041
Figure FDA0003928536510000042
获取每个所述异常数据子集的先验误差;其中,N为所述协同数据中任意两个数据组合的个数,L(fij(xi))表示所述先验误差,xi和xj分别表示异常数据子集中的第i个数据和第j个数据,且i不等于j,c为预设的参数;
目标数据集获取模块,用于获取所述指定区域的当前数据集,并计算与所述指标数据的差值,以此作为目标数据集;
代入模块,用于将所述目标数据集中任意两个数据代入公式fij(mp)-mq,得到每两个误差对应的目标误差,其中,mq和mp分别表示目标数据集中对应的第q个数据和第p个数据,且p不等于q;
标记模块,用于将所述目标误差小于先验误差的相关系数记为1,将所述目标误差大于或等于先验误差的相关系数记为0;
污染物确定模块,用于将所述当前数据集对应的各个污染物的相关系数之和记为与各个污染物的目标相关性,并根据所述目标相关性确定当前所述指定区域对应的目标污染物。
7.如权利要求6所述的基于协同数据的污染物分析装置,其特征在于,还包括:
异常值计算模块,用于根据公式
Figure FDA0003928536510000051
计算所述当前数据集中每个当前数据的异常值;其中Zk表示所述当前数据集中的第k个当前数据的异常值,μ表示所述多个异常数据集中第k个数据的平均值,且
Figure FDA0003928536510000052
σk表示所述多个异常数据集中第k个数据的标准差,n表示异常数据集的个数,xik表示第i个异常数据集中的第k个数据;且
Figure FDA0003928536510000053
异常数据提取模块,用于将|Zij|>Zthr对应的异常数据提取出来,并与所述异常数据的信息进行比对,其中Zthr为设定的参数值;
替换模块,用于若比对结果为该当前数据错误,则将正确的当前数据替换该异常数据。
8.如权利要求6所述的基于协同数据的污染物分析装置,其特征在于,还包括:
信息熵值计算模块,用于根据公式
Figure FDA0003928536510000054
计算各个异常数据子集中每个数据的信息熵值,其中,
Figure FDA0003928536510000055
Figure FDA0003928536510000056
Ei表示第i个数据的所述信息熵值,当pij=0时,定义
Figure FDA0003928536510000061
pij表示第j个异常数据子集的第i个数据对应的中间值,Yij表示第j个异常数据子集的第i个数据,n表示数据的个数;
剔除模块,用于将所述信息熵值小于预设的信息熵值的数据从所述异常数据子集中剔除。
9.如权利要求6所述的基于协同数据的污染物分析装置,其特征在于,还包括:
测试集获取模块,用于获取测试集;其中,所述测试集与所述异常数据子集中的数据种类相同;
数据输入模块,用于将所述测试集中的数据一一输入至所述拟合函数中,并根据预设的误差计算公式计算每个测试数据的误差值;
误差值标记模块,用于将所述误差值小于所述先验误差的相关值记为1,将大于或等于所述先验误差的相关值记为0;
损失值计算模块,用于根据所述测试数据的相关值计算所述相关值的损失值;
判断模块,用于判断所述损失值是否大于预设损失值;
更新模块,用于若所述损失值大于预设损失值,则更新所述先验误差或者重新拟合所述拟合函数,直至所述损失值小于或等于预设损失值。
10.如权利要求6所述的基于协同数据的污染物分析装置,其特征在于,所述污染物确定模块,包括:
检测子模块,用于检测与各个所述污染物的所述目标相关性是否大于预设的相关性;
判定子模块,用于当所述目标相关性存在两个或者两个以上大于所述预设的相关性时,则判定所述指定区域具有对应的两个或者两个以上的污染物。
CN202210464031.7A 2022-04-29 2022-04-29 一种基于协同数据的污染物分析方法和装置 Active CN114757296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210464031.7A CN114757296B (zh) 2022-04-29 2022-04-29 一种基于协同数据的污染物分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210464031.7A CN114757296B (zh) 2022-04-29 2022-04-29 一种基于协同数据的污染物分析方法和装置

Publications (2)

Publication Number Publication Date
CN114757296A CN114757296A (zh) 2022-07-15
CN114757296B true CN114757296B (zh) 2022-12-13

Family

ID=82333530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210464031.7A Active CN114757296B (zh) 2022-04-29 2022-04-29 一种基于协同数据的污染物分析方法和装置

Country Status (1)

Country Link
CN (1) CN114757296B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807577A (zh) * 2019-10-15 2020-02-18 中国石油天然气集团有限公司 污染排放预测方法及装置
CN110991493A (zh) * 2019-11-09 2020-04-10 华东师范大学 一种协同表示和异常剔除的高光谱异常检测方法
CN112884243A (zh) * 2021-03-16 2021-06-01 杭州职业技术学院 一种基于深度学习和贝叶斯模型的空气质量分析预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
CN109063910A (zh) * 2018-08-02 2018-12-21 浙江海洋大学 一种基于大数据的船舶污染物排放实时监测方法
CN111489041B (zh) * 2020-06-23 2020-10-16 平安国际智慧城市科技股份有限公司 预测污染物异常排放的方法、装置、计算机设备
CN112861770A (zh) * 2021-03-02 2021-05-28 清华大学 一种水质污染预警方法及装置
CN113836673A (zh) * 2021-09-06 2021-12-24 西安理工大学 一种基于信息熵的排水管网监测点的布置方法
CN114037064A (zh) * 2021-11-26 2022-02-11 江苏科技大学 一种船舶大气污染物监测方法及系统
CN114267015B (zh) * 2021-12-24 2022-09-09 广东蓝鲲海洋科技有限公司 一种海洋异常区域的智能检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807577A (zh) * 2019-10-15 2020-02-18 中国石油天然气集团有限公司 污染排放预测方法及装置
CN110991493A (zh) * 2019-11-09 2020-04-10 华东师范大学 一种协同表示和异常剔除的高光谱异常检测方法
CN112884243A (zh) * 2021-03-16 2021-06-01 杭州职业技术学院 一种基于深度学习和贝叶斯模型的空气质量分析预测方法

Also Published As

Publication number Publication date
CN114757296A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN109948469B (zh) 基于深度学习的巡检机器人仪表自动检测识别方法
CN110909822B (zh) 一种基于改进的高斯过程回归模型的卫星异常检测方法
CN113516661B (zh) 基于特征融合的缺陷检测方法及装置
CN113518011A (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN113255792B (zh) 一种数据异常点检测方法、装置、系统、以及存储介质
CN113948159B (zh) 一种变压器的故障检测方法、装置及设备
CN115659185A (zh) 一种运维系统的时序数据的处理方法及装置
CN114757296B (zh) 一种基于协同数据的污染物分析方法和装置
Kallas et al. Data‐driven approach for fault detection and isolation in nonlinear system
CN114595113A (zh) 应用系统中的异常检测方法和装置、异常检测功能设置方法
CN116743637B (zh) 一种异常流量的检测方法、装置、电子设备及存储介质
CN107092772B (zh) 一种传感器特征曲线的确定方法及其装置
CN113723467A (zh) 用于缺陷检测的样本收集方法、装置和设备
CN116187596B (zh) 基于在线数据校正的生化需氧量的预测方法及装置
CN109891235B (zh) 基于统计方法,自动在线检测流体的实际状态与流体的参考状态的偏差的方法,特别是用于监测饮用水供应
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
CN115047262A (zh) 基于电能质量数据的设备异常状态通用识别方法
CN114922806A (zh) 柱塞泵的异常检测方法和装置
CN113239075A (zh) 一种施工数据自检方法及系统
CN112949951A (zh) 数据预测方法、装置、电子设备及存储介质
CN112214934A (zh) 一种基于多传感器的悬浮系统寿命预测方法及相关装置
CN111737247A (zh) 用于数据质量管控的实现方法
CN116467102B (zh) 一种基于边缘算法的故障检测方法及装置
CN114580982B (zh) 一种工业设备的数据质量的评估方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant