CN108490115B - 一种基于分布式在线主成分分析的空气质量异常检测方法 - Google Patents

一种基于分布式在线主成分分析的空气质量异常检测方法 Download PDF

Info

Publication number
CN108490115B
CN108490115B CN201810129053.1A CN201810129053A CN108490115B CN 108490115 B CN108490115 B CN 108490115B CN 201810129053 A CN201810129053 A CN 201810129053A CN 108490115 B CN108490115 B CN 108490115B
Authority
CN
China
Prior art keywords
sensor node
principal component
concentration data
moment
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810129053.1A
Other languages
English (en)
Other versions
CN108490115A (zh
Inventor
李春光
苗雪丹
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810129053.1A priority Critical patent/CN108490115B/zh
Publication of CN108490115A publication Critical patent/CN108490115A/zh
Application granted granted Critical
Publication of CN108490115B publication Critical patent/CN108490115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0062General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Combustion & Propulsion (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Air Conditioning Control Device (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于分布式在线主成分分析的空气质量异常检测方法。获取城市的已知空气污染物浓度数据,设计分布式在线主成分分析模型,采用基于分布式在线主成分分析模型的空气质量异常检测方法对空气污染物浓度数据进行处理获得判断结果,从而对空气质量进行异常检测。本发明能便捷地预测某一范围内的整体空气质量,能够抑制异常训练数据带来的影响,起到去噪作用,处理速度更快,用时更短。

Description

一种基于分布式在线主成分分析的空气质量异常检测方法
技术领域
本发明属于分布式信号处理、机器学习以及异常检测领域,特别是涉及一种基于分布式在线主成分分析的空气质量异常检测方法。
背景技术
主成分分析(Principal Component Analysis,简称PCA)是一种常用的无监督降维方法。通过PCA能够得到数据分布的主要方向。常规的PCA通过构造数据协方差矩阵并计算其特征向量来实现主成分分析过程。这些特征向量是原始数据空间中含信息量较多的方向,因此被视为主要成分或主要方向。对于常规的PCA而言,一般需要获得全部的原始数据,生成原始数据的协方差矩阵。显然主成分分析方法可以应用于异常检测领域,通过分析得到训练数据的主要成分,然后根据主要成分判断测试数据是否异常。
在实际中,用于异常检测的数据可以通过无线传感器网络(wireless sensornetworks,简称WSNs)来进行采集。例如,利用气体传感器组成的传感器网络测量空气中污染物的浓度。一般来说,衡量空气质量的主要指标是空气中主要污染物,即SO2、NO2、CO、PM10、PM2.5和O3的浓度。可以通过气体传感器分散地测量空气中各个污染物的浓度,然后通过合理的计算确定最终的空气质量。在这种情况下,数据是分散地被多个传感器节点采集的,因此常规PCA利用数据协方差矩阵求解主成分的方法显然是不太合适的。
发明内容
本发明的目的在于针对数据是分布式采集的这样一种实际情况,提出一种基于分布式在线主成分分析的空气质量异常检测方法,通过不需要数据协方差矩阵的分布式在线主成分分析方法进行空气质量数据的异常检测。
如图1所示,本发明所采用的技术方案具体包括如下步骤:
(1)获取城市的已知空气污染物浓度数据;
(2)设计分布式在线主成分分析模型;
(3)采用基于分布式在线主成分分析模型的空气质量异常检测方法对待测空气污染物浓度数据进行处理获得该城市的判断结果,从而对空气质量进行异常检测。
所述步骤(1)的城市的已知空气污染物浓度数据是包括某一城市在某一时间段内的每日多地点空气污染物浓度数据。
具体实施中,将得到的空气污染物浓度数据分成训练所用空气污染物浓度数据及测试所用空气污染物浓度数据。
具体实施中可在环保部数据中心及相关的网站上获得空气污染物浓度数据,例如在青悦开放环境数据中心获得杭州市每日空气污染物浓度的历史数据。
所述的空气污染物浓度数据是由传感器网络采集获得的,传感器网络是由分布于不同地点的传感器节点用无线/有线方式互相连接而组成,每两个传感器节点具有直接/间接通信连接关系,每个传感器节点采集获得各自监测范围的空气污染物浓度数据,每个传感器节点均能接收其他所有邻居传感器节点依据所采集到的空气污染物浓度数据计算出的每个时刻的特征矩阵信息。
所述的步骤(2)具体建立以下公式表示的传感器节点的目标函数作为分布式在线主成分分析模型(doPCA模型):
在本发明中,首先提出分布式在线主成分分析的目标函数,进而建立整个分布式在线主成分分析模型(doPCA)。根据实际问题,在空气污染物检测传感器网络中,每个传感器节点的数据是被时序地采集的,并且由于传感器节点在存储方面的限制,并不能存储所有的历史数据。在这种情况下,采集的数据时序地到达传感器节点并且被时序地处理。本发明通过在线学习模型很好地利用了这些数据,同时进一步将空气质量异常检测优化问题转化成最小二乘问题,这样就可以通过传统的最小二乘求解法来求解这个问题。
本发明考虑到每个传感器节点的硬件存储的限制,为了克服只有在获得全部数据之后才能对问题进行求解的困难,本发明特别地用前一时刻得到的模型参数近似计算当前时刻传感器节点的特征矩阵即当前时刻的模型参数。
本发明的分布式在线主成分分析模型中,不仅利用了当前采集的空气污染物浓度数据的信息,还充分继承了历史信息。也就是说,每个时刻,虽然只能获得一个空气污染物浓度数据,但依然利用了到此刻为止的所有数据信息。传感器节点的目标函数如下:
Figure BDA0001574313810000021
Figure BDA0001574313810000022
在这里,Wj表示当前时刻传感器节点j的特征矩阵,是该目标函数的待求矩阵,具体是由传感器节点j的p个主成分组成,
Figure BDA0001574313810000031
表示Wj为d行p列的矩阵,j表示传感器网络中的传感器节点的序数,p表示传感器节点j的主成分总数,d表示传感器节点j的一个主成分的维度;特征矩阵Wj中每一列表示一个d维特征向量作为主成分,任意两个特征向量之间相互正交。Wj=[wj1,…,wjp],wj1表示传感器节点j的第1个主成分,wjp表示传感器节点j的第p个主成分,实际来说每个主成分均是d维列向量;
Figure BDA0001574313810000032
表示传感器节点j在k-1时刻的特征矩阵的转置,
Figure BDA0001574313810000033
Figure BDA0001574313810000034
表示传感器节点j在k-1时刻的第1个主成分;xjk表示传感器节点j在k时刻的空气污染物浓度数据,k≤t,
Figure BDA0001574313810000035
表示xjk是d维列向量;
Figure BDA0001574313810000036
表示传感器节点j在t时刻的优化目标函数,
Figure BDA0001574313810000037
表示传感器节点的集合,I是p行p列的单位矩阵。
所述的步骤(3)具体是针对传感器节点采用以下方式计算获得:
任意两个主成分之间应该是相互独立并且线性无关的。由此目标函数是一个非常典型的最小二乘问题。
(3.1)先用已知空气污染物浓度数据处理获得各个传感器节点的最终特征矩阵:
(3.1.1)针对每个传感器节点,利用拉格朗日乘子法并利用主成分单位正交的性质求解目标函数,获得每个时刻传感器节点获得的空气污染物浓度数据对应的主成分,先利用当前时刻的空气污染物浓度数据和前一时刻的模型参数计算第一主成分,再在前一个主成分的基础上计算下一个主成分,直到计算完传感器节点j在当前时刻的全部p个主成分;
具体传感器节点j在t时刻的第m主成分计算为:
Figure BDA0001574313810000038
式中,
Figure BDA0001574313810000039
表示传感器节点j在t时刻的第l个主成分,l<m,l表示主成分的遍历序数;
为了表示清晰并迭代计算,具体采用以下公式计算传感器节点j在t时刻的第m主成分:
Figure BDA0001574313810000041
Figure BDA0001574313810000042
Figure BDA0001574313810000043
式中,
Figure BDA0001574313810000044
Figure BDA0001574313810000045
表示传感器节点j在t时刻的第m主成分计算过程中的第一、第二中间变量,xjt表示传感器节点j在t时刻所采集到的空气污染物浓度数据,
Figure BDA0001574313810000046
表示传感器节点j在t时刻的第m主成分,||·||表示矩阵模的长度;
用相同的方法并行地对当前时刻每一个传感器节点进行处理。一个时刻的一个传感器节点的空气污染物浓度数据对应获得p个主成分。
本发明用前一个时刻计算时所获得的第二中间变量来用于对下一个时刻进行计算,使得迭代计算后所有传感器节点的特征矩阵趋于一致。
(3.1.2)然后,通过传感器节点j与邻居传感器节点进行信息交换采用以下公式表示的扩散式融合方式计算获得传感器节点j在当前时刻的特征矩阵:
Figure BDA0001574313810000047
式中,
Figure BDA0001574313810000048
表示传感器节点j的所有邻居传感器节点的集合,
Figure BDA0001574313810000049
i表示传感器节点j的邻居传感器节点与传感器节点j本身组成的集合的节点序数,ε表示所有边的集合,边表示传感器节点j与其一个邻居传感器节点之间的连接关系;aji表示传感器节点j接收邻居传感器节点i的信息加权系数,aji为一非负标量;至此,计算出了在该时刻传感器网络中所有传感器节点的经信息融合后的特征矩阵。
一个时刻的一个传感器节点的空气污染物浓度数据对应获得一个的特征矩阵。
(3.1.3)按时间顺序重复步骤(3.1.1)和(3.1.2)对每个时刻的各个传感器节点j进行处理,获得传感器网络中各个传感器节点计算的特征矩阵趋于一致稳定的结果,并将最后时刻记为L时刻,获得各个传感器节点在最后时刻L的特征矩阵
Figure BDA00015743138100000410
及第二中间变量
Figure BDA00015743138100000411
(3.2)用各个传感器节点在最后时刻L的特征矩阵对待测空气污染物浓度数据进行处理获得异常结果:
(3.2.1)针对传感器节点待测时刻的空气污染物浓度数据,建立以下公式的目标函数:
Figure BDA0001574313810000051
Figure BDA0001574313810000052
其中,Wj表示当前待测时刻传感器节点j的特征矩阵,是该目标函数的待求矩阵,L表示传感器网络所采集到空气污染物浓度数据包含时间段的最后时刻,L+1表示待测时刻,
Figure BDA0001574313810000053
表示传感器节点j在L+1待测时刻的优化目标函数,
Figure BDA0001574313810000054
表示传感器节点j在最后时刻L的特征矩阵,xj(L+1)表示传感器节点j在待测时刻L+1所采集到的空气污染物浓度数据,α是待测空气污染物浓度数据的权重系数;
通过对权重系数α的调整,可合理扩大待测污空气染物浓度数据对模型产生的影响。
(3.2.2)结合拉格朗日乘子法并利用主成分单位正交的性质对上述待测传感器节点的目标函数进行求解,最终解得传感器节点j在待测时刻L+1的第m个主成分
Figure BDA0001574313810000055
为:
Figure BDA0001574313810000056
式中,
Figure BDA0001574313810000057
表示传感器节点j在最后时刻L的第m主成分计算过程中的第二中间变量,xjk表示传感器节点j在时刻k所采集到的空气污染物浓度数据,
Figure BDA0001574313810000058
表示传感器节点j在最后时刻L的第m个主成分,||·||表示矩阵模的长度;此处得到了单个待测数据进入doPCA模型之后的特征矩阵。
(3.2.3)为了定量地表示待测数据成为异常数据的可能性,采用以下公式的余弦相似性绝对值计算获得传感器节点j在待测时刻的空气污染物浓度数据的度量值scorej
Figure BDA0001574313810000059
其中,
Figure BDA00015743138100000510
表示步骤(3.1)获得的最终结果,即各个传感器节点在最后时刻L的一致的特征矩阵
Figure BDA00015743138100000511
当针对待测的空气污染物浓度数据时,通过(3.2.1)和(3.2.2)的公式进入doPCA模型计算获得的第m主成分
Figure BDA00015743138100000512
然后通过(3.2.3)的公式计算待测的空气污染物浓度数据对doPCA模型的影响,得到相应的度量值scorej
所述步骤(3.2)获得度量值后,将每个传感器节点的度量值与度量阈值h进行比较,判断待测空气污染物浓度数据正常与否(即是否是污染空气)。
当度量值大于度量阈值h时,则认为待测空气污染物浓度数据不正常,结果为污染空气;
当度量值小于等于度量阈值h时,则认为待测空气污染物浓度数据正常,结果为未污染空气。
本发明有益效果:
1)本发明由于采用分布式的处理方式,各个传感器节点都可以处理采集到的数据,因此不需要将原始数据集中到某一个数据处理中心,就能预测某一范围内的整体空气质量,且性能接近甚至优于集中式处理;并且,具有更小的通信代价和更强的鲁棒性,能够适用于分布式异常检测环境。
2)训练阶段,能够在一定程度上抑制异常训练数据带来的影响,能够起到一定的去噪(抑制异常训练数据影响)作用;
3)相比于将原始数据集中到某一数据处理中心处理的方法,本发明处理速度更快,用时更短。
附图说明
附图1是本发明方法的框架流程图。
附图2是本发明的实现流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的阐述。
如附图2所示,本发明方法实现步骤如下:
1、获取空气污染物浓度数据
所述的空气污染物浓度数据是包括某一城市在某一时间段内的每日多地点空气污染物浓度数据。
可在环保部数据中心及相关的网站上获得某一城市在某一时间段内的每日多站点空气污染物测量数据。具体实施例在青悦开放环境数据中心获得杭州市每日空气污染物浓度的历史数据,得到原始数据之后,对获得的原始数据进行贴标签操作作为最终用于后续目标函数处理和计算的空气污染物浓度数据(具体实施例中还将数据分为训练集和测试集),标签是指空气质量分级的标签。
2、生成传感器网络拓扑结构并初始化参数
考虑在某个特定的地理区域的情况下,生成一个由J个节点组成的分布式传感器网络.不失一般性,将网络用一个无向连通图
Figure BDA0001574313810000071
来建模,其中,
Figure BDA0001574313810000072
表示传感器网络上所有传感器节点的集合,ε表示所有边的集合,边表示一个传感器节点与其一个邻居传感器节点之间的连接关系。对于所有传感器节点
Figure BDA0001574313810000073
Figure BDA0001574313810000074
表示传感器节点j的所有邻居传感器节点的集合,
Figure BDA0001574313810000075
i表示传感器节点j的邻居传感器节点的序数。用非负标量aji表示传感器节点j接收邻居传感器节点i的信息的加权系数。也就是说,
Figure BDA0001574313810000076
时,aji=0。便于计算,用J×J矩阵A来表示整个网络的加权系数,其中,aji为矩阵A中第j行第i列的值,表示传感器节点j和传感器节点i之间的通信加权系数。在这里,一般假设矩阵A满足条件
Figure BDA0001574313810000077
Figure BDA0001574313810000078
传感器网络拓扑结构生成之后,初始化每个传感器节点的特征矩阵
Figure BDA0001574313810000079
及第二中间变量
Figure BDA00015743138100000710
3、分布式在线主成分分析模型的训练
对于分布式在线主成分分析模型,每个传感器节点
Figure BDA00015743138100000711
拥有一个训练数据集
Figure BDA00015743138100000712
其中L表示传感器节点j的训练数据总数,xjt表示传感器节点j在t时刻的空气污染物浓度数据,
Figure BDA00015743138100000713
Figure BDA00015743138100000714
表示xjt是d维列向量。将每个传感器节点j的训练数据集用
Figure BDA00015743138100000715
表示,将所有传感器节点的所有训练数据用
Figure BDA00015743138100000716
表示。
针对每个传感器节点,利用拉格朗日乘子法并利用主成分单位正交的性质求解目标函数,每个时刻传感器节点获得的空气污染物浓度数据xjt对应求解该时刻的特征矩阵
Figure BDA00015743138100000717
在求解该时刻的特征矩阵
Figure BDA00015743138100000718
时,应该先利用该时刻的空气污染物浓度数据xjt和前一时刻的特征矩阵
Figure BDA00015743138100000719
及第二中间变量
Figure BDA00015743138100000720
优先计算第一主成分
Figure BDA00015743138100000721
再在前一个主成分的基础上依次计算下一个主成分,直到计算完传感器节点j在当前时刻的全部p个主成分;所以传感器节点j在t时刻第m个主成分的计算方式如下所示:
Figure BDA0001574313810000081
Figure BDA0001574313810000082
Figure BDA0001574313810000083
当所有主成分计算完毕后,我们用相同的方法并行地对每一个传感器节点进行上述处理;
然后,对于每一个传感器节点,通过传感器节点j与邻居传感器节点进行信息交换以得到该传感器节点在该时刻的特征矩阵
Figure BDA0001574313810000084
可采用以下公式表示的扩散式融合方式计算获得:
Figure BDA0001574313810000085
按时间顺序依次对每个时刻的传感器网络的传感器节点重复上述过程直到传感器网络中各个传感器节点的特征矩阵
Figure BDA0001574313810000086
趋于一致,此时认为训练完成。在这里设置每个传感器节点的训练数据总数为L个,并认为可使模型训练完成。此时记录各个传感器节点在最后时刻L的特征矩阵
Figure BDA0001574313810000087
及第二中间变量
Figure BDA0001574313810000088
4、待测空气污染物浓度数据异常检测
当完成步骤3之后,由于传感器网络中各个传感器节点的特征矩阵
Figure BDA0001574313810000089
趋于一致,获得的所有传感器节点的特征矩阵应该是一致的,也就是说,
Figure BDA00015743138100000810
那么对于任意一个节点而言,它都能独立完成对待测空气污染物浓度数据的判断。
考虑待测空气污染物浓度数据对模型产生的影响,正常数据和异常数据会对模型产生不一样的影响。将待测空气污染物浓度数据xj(L+1)作为传感器节点的输入,根据训练好的分布式在线主成分分析模型,即运用以下公式可以计算出新的
Figure BDA00015743138100000811
传感器节点j在待测时刻L+1的第m个主成分
Figure BDA00015743138100000812
为。
Figure BDA00015743138100000813
在这里再次强调,应该先计算第一主成分,然后再计算第二主成分,依此类推,直到计算完传感器节点j在当前时刻的全部p个主成分,组成传感器节点j在当前时刻的特征矩阵
Figure BDA0001574313810000091
至此得到了单个待测数据进入doPCA模型计算之后的特征矩阵。
为了定量地表示待测数据成为异常数据的可能性,采用以下公式的余弦相似性绝对值计算获得待测时刻的空气污染物浓度数据的度量值:
Figure BDA0001574313810000092
其中,
Figure BDA0001574313810000093
表示步骤3获得的最终结果,即各个传感器节点在最后时刻L的一致的特征矩阵
Figure BDA0001574313810000094
获得度量值后,将每个传感器节点的度量值与按经验设置的度量阈值h进行比较,判断待测空气污染物浓度数据正常与否(即是否是污染空气)。当度量值大于度量阈值h时,则认为待测空气污染物浓度数据不正常,结果为污染空气;当度量值小于等于度量阈值h时,则认为待测空气污染物浓度数据正常,结果为未污染空气。
为了验证本发明的性能,按照本发明方法基于空气污染物浓度数据进行仿真实验的实施例及其实施情况是:
在本实验中,考虑一个由5个传感器节点,10条边组成的分布式传感器网络。传感器节点随机分布在一个平面区域中,传感器节点之间的通信距离为1,传感器节点平均度为4。在这次模拟实验中,设置权重系数α=0.1。在训练阶段,对于每个城市的训练数据集,这些训练数据被随机均等地分成5个子集,每个传感器节点分配一个子集。为了更加具有说服力,将基于doPCA的异常检测方法与基于集中式在线PCA(oPCA)的异常检测方法进行比较。
在利用oPCA进行异常检测时,需要将所有训练数据集中到一个数据处理中心上,通过在线学习模式进行特征矩阵的学习,然后利用训练好的特征矩阵进行待测数据的测试。
由于AUC可以对异常检测算法的性能进行综合评估,因此在接下来的实验中,将用AUC来对各个检测方法进行性能评估。AUC的值表示ROC曲线下的面积。表1中给出了50次蒙特卡洛交叉验证实验的平均结果。
表1
Figure BDA0001574313810000095
Figure BDA0001574313810000101
表1中有噪声的情况表示训练数据集中含有污染空气数据1%,无噪声表示训练数据集中不含有污染空气数据。从表1中可以看出,在杭州市、北京市和广州市这三个数据集上,doPCA均表现出了优于oPCA的性能。在分布式信号处理领域中,一般来说,分布式算法都要稍逊于集中式算法,其主要原因在于原始数据分散在各个节点,且只能进行少量的信息交换。理论而言,分布式算法最终能够收敛到集中式算法,对于本文提出的doPCA算法,当传感器节点与其邻居节点的信息融合公式能够使得各个节点的Wj完全一致时,那么参数Wj将能够收敛到集中式的最优解W*。因此出现上述现象完全是在可预料范围内的,也是所期盼的。在成都市和武汉市这两个数据集中,doPCA的性能略逊于oPCA,但已经相当接近oPCA的性能。相较于有噪声情况和无噪声情况,可以看出AUC性能只有非常微弱的减小,起到了去噪作用。
本发明的算法无需将原始数据集中到某一数据处理中心处理,而是每个传感器节点均并行的对自身采集到的数据进行处理并与邻居节点进行信息交换,因此相比于集中式算法,本发明的算法处理速度更快,用时更短。表2中给出了50次蒙特卡洛交叉验证实验的用时
表2
Figure BDA0001574313810000102
从表2中可以看出,各个城市的doPCA模型运行时间均小于oPCA模型的运行时间。因此,总的来说,本发明在空气污染物浓度数据检测上用更少的处理时间取得了接近于甚至超越集中式方法的性能。

Claims (4)

1.一种基于分布式在线主成分分析的空气质量异常检测方法,其特征在于包括以下几个步骤:
(1)获取城市的已知空气污染物浓度数据;
(2)设计分布式在线主成分分析模型;
所述的步骤(2)具体建立以下公式表示的传感器节点的目标函数作为分布式在线主成分分析模型:
Figure FDA0002386114010000011
s.t.Wj TWj=I
在这里,Wj表示当前时刻传感器节点j的特征矩阵,具体是由传感器节点j的p个主成分组成,
Figure FDA0002386114010000012
表示Wj为d行p列的矩阵,p≤d,j表示传感器网络中的传感器节点的序数,p表示传感器节点j的主成分总数,d表示传感器节点j的一个主成分的维度;Wj=[wj1,…,wjp],wj1表示传感器节点j的第1个主成分,wjp表示传感器节点j的第p个主成分;(Wj k-1)T表示传感器节点j在k-1时刻的特征矩阵的转置,
Figure FDA0002386114010000013
Figure FDA0002386114010000014
表示传感器节点j在k-1时刻的第1个主成分;xjk表示传感器节点j在k时刻的空气污染物浓度数据,k≤t,
Figure FDA0002386114010000015
表示xjk是d维列向量;fj t表示传感器节点j在t时刻的优化目标函数,
Figure FDA0002386114010000016
表示传感器节点的集合,I是p行p列的单位矩阵;
(3)采用基于分布式在线主成分分析模型的空气质量异常检测方法对空气污染物浓度数据进行处理获得判断结果,从而对空气质量进行异常检测;
所述的步骤(3)具体是针对传感器节点采用以下方式计算获得:
(3.1)先用已知空气污染物浓度数据处理获得各个传感器节点的最终特征矩阵:
(3.1.1)针对每个传感器节点,利用拉格朗日乘子法并利用主成分单位正交的性质求解目标函数,获得每个时刻传感器节点获得的空气污染物浓度数据对应的主成分;
具体采用以下公式计算传感器节点j在t时刻的第m主成分:
Figure FDA0002386114010000021
Figure FDA0002386114010000022
Figure FDA0002386114010000023
式中,
Figure FDA0002386114010000024
Figure FDA0002386114010000025
表示传感器节点j在t时刻的第m主成分计算过程中的第一、第二中间变量,xjt表示传感器节点j在t时刻所采集到的空气污染物浓度数据,
Figure FDA0002386114010000026
表示传感器节点j在t时刻的第m主成分,||·||表示矩阵模的长度;
(3.1.2)然后,通过传感器节点j与邻居传感器节点进行信息交换采用以下公式表示的扩散式融合方式计算获得传感器节点j在当前时刻的特征矩阵:
Figure FDA0002386114010000027
式中,
Figure FDA0002386114010000028
表示传感器节点j的所有邻居传感器节点的集合,
Figure FDA0002386114010000029
i表示传感器节点j的邻居传感器节点与传感器节点j本身组成的集合的节点序数,ε表示所有边的集合,边表示传感器节点j与其一个邻居传感器节点之间的连接关系;aji表示传感器节点j接收邻居传感器节点i的信息加权系数,aji为一非负标量;
(3.1.3)重复步骤(3.1.1)和(3.1.2)对每个时刻的各个传感器节点j进行处理,并将最后时刻记为L时刻,获得各个传感器节点在最后时刻L的特征矩阵
Figure FDA00023861140100000210
及第二中间变量
Figure FDA00023861140100000211
(3.2)用各个传感器节点在最后时刻L的特征矩阵对待测空气污染物浓度数据进行处理获得异常结果:
(3.2.1)针对传感器节点待测时刻的空气污染物浓度数据,建立以下公式的目标函数:
Figure FDA00023861140100000212
s.t.Wj TWj=I
其中,Wj表示当前待测时刻传感器节点j的特征矩阵,是该目标函数的待求矩阵,L表示传感器网络所采集到空气污染物浓度数据包含时间段的最后时刻,L+1表示待测时刻,
Figure FDA00023861140100000213
表示传感器节点j在L+1待测时刻的优化目标函数,Wj L表示传感器节点j在最后时刻L的特征矩阵,xj(L+1)表示传感器节点j在待测时刻L+1所采集到的空气污染物浓度数据,a是待测空气污染物浓度数据的权重系数;
(3.2.2)结合拉格朗日乘子法并利用主成分单位正交的性质对上述待测传感器节点的目标函数进行求解,最终解得传感器节点j在待测时刻L+1的第m个主成分
Figure FDA0002386114010000031
为:
Figure FDA0002386114010000032
式中,
Figure FDA0002386114010000033
表示传感器节点j在最后时刻L的第m主成分计算过程中的第二中间变量,xjk表示传感器节点j在时刻k所采集到的空气污染物浓度数据,
Figure FDA0002386114010000034
表示传感器节点j在最后时刻L的第m个主成分,||·||表示矩阵模的长度;
(3.2.3)采用以下公式的余弦相似性绝对值计算获得传感器节点j在待测时刻的空气污染物浓度数据的度量值scorej
Figure FDA0002386114010000035
其中,
Figure FDA0002386114010000036
表示步骤(3.1)获得的最终结果,即各个传感器节点在最后时刻L的特征矩阵
Figure FDA0002386114010000037
2.根据权利要求1所述的一种基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述步骤(1)的城市的已知空气污染物浓度数据是包括某一城市在某一时间段内的每日多地点空气污染物浓度数据。
3.根据权利要求1所述的基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述的空气污染物浓度数据是由传感器网络采集获得的,传感器网络是由分布于不同地点的传感器节点用无线/有线方式互相连接而组成,每两个传感器节点具有直接/间接通信连接关系,每个传感器节点采集获得各自监测范围的空气污染物浓度数据。
4.根据权利要求1所述的基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述步骤(3.2)获得度量值后,将每个传感器节点的度量值与度量阈值h进行比较,判断待测空气污染物浓度数据正常与否:
当度量值大于度量阈值h时,则认为待测空气污染物浓度数据不正常,结果为污染空气;
当度量值小于等于度量阈值h时,则认为待测空气污染物浓度数据正常,结果为未污染空气。
CN201810129053.1A 2018-02-08 2018-02-08 一种基于分布式在线主成分分析的空气质量异常检测方法 Active CN108490115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810129053.1A CN108490115B (zh) 2018-02-08 2018-02-08 一种基于分布式在线主成分分析的空气质量异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810129053.1A CN108490115B (zh) 2018-02-08 2018-02-08 一种基于分布式在线主成分分析的空气质量异常检测方法

Publications (2)

Publication Number Publication Date
CN108490115A CN108490115A (zh) 2018-09-04
CN108490115B true CN108490115B (zh) 2020-06-05

Family

ID=63339972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810129053.1A Active CN108490115B (zh) 2018-02-08 2018-02-08 一种基于分布式在线主成分分析的空气质量异常检测方法

Country Status (1)

Country Link
CN (1) CN108490115B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189026B (zh) * 2019-05-30 2021-11-12 京东城市(北京)数字科技有限公司 空气质量改善措施的评估方法及装置、介质、电子设备
CN111025280B (zh) * 2019-12-30 2021-10-01 浙江大学 一种基于分布式最小总体误差熵的运动目标测速方法
CN111914468A (zh) * 2020-06-12 2020-11-10 中国环境科学研究院 一种空气污染智能监控分析方法及装置
CN111650346B (zh) * 2020-07-14 2021-02-12 中科三清科技有限公司 大气污染监测数据的自动审核方法、装置及电子设备
CN114062606B (zh) * 2021-11-11 2023-07-07 南通市第二人民医院 一种空气消毒成分检验的智能分析方法及系统
CN116148951B (zh) * 2023-02-23 2023-08-25 中科三清科技有限公司 空气目标污染物组分预报模型训练方法、预报方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848529A (zh) * 2010-03-31 2010-09-29 中国地质大学(武汉) 一种无线传感器网络的多重主成分分析数据压缩方法
CN106231609A (zh) * 2016-09-22 2016-12-14 北京工商大学 一种基于重点目标区域的水下传感器网络优化部署方法
CN106851767A (zh) * 2016-09-22 2017-06-13 华东理工大学 一种无线传感网络节点融合数据收集方法
CN106878995A (zh) * 2017-04-27 2017-06-20 重庆邮电大学 一种基于感知数据的无线传感器网络异常类型鉴别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848529A (zh) * 2010-03-31 2010-09-29 中国地质大学(武汉) 一种无线传感器网络的多重主成分分析数据压缩方法
CN106231609A (zh) * 2016-09-22 2016-12-14 北京工商大学 一种基于重点目标区域的水下传感器网络优化部署方法
CN106851767A (zh) * 2016-09-22 2017-06-13 华东理工大学 一种无线传感网络节点融合数据收集方法
CN106878995A (zh) * 2017-04-27 2017-06-20 重庆邮电大学 一种基于感知数据的无线传感器网络异常类型鉴别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Review on Synergistic Learning;CHUNGUANG LI等;《IEEE Access》;20151217;第4卷;第119-124页 *
Outsourcing Eigen-Decomposition and Singular Value Decomposition of Large Matrix to a Public Cloud;LIFENG ZHOU等;《IEEE Access》;20160225;第4卷;第869-879页 *
湖泊表面水温预测与可视化方法研究;杨昆等;《仪器仪表学报》;20171231;第38卷(第12期);第3090-3099页 *

Also Published As

Publication number Publication date
CN108490115A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108490115B (zh) 一种基于分布式在线主成分分析的空气质量异常检测方法
Nannen et al. Efficient relevance estimation and value calibration of evolutionary algorithm parameters
CN109116834B (zh) 一种基于深度学习的间歇过程故障检测方法
CN108981957B (zh) 基于自组织神经网络及经验正交函数的水下温度场重构方法
AU1912699A (en) Visualization and self-organization of multidimensional data through equalized orthogonal mapping
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN108520310B (zh) G-L混合噪声特性v-支持向量回归机的风速预报方法
CN106656357B (zh) 一种工频通信信道状态评估系统和方法
CN111680725A (zh) 基于重构贡献的气体传感器阵列多故障隔离算法
CN113240105B (zh) 一种基于图神经网络池化的电网稳态判别方法
CN110334478A (zh) 机器设备异常检测模型构建方法、检测方法及模型
Barua et al. Quality evaluation of gans using cross local intrinsic dimensionality
CN117201122A (zh) 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN105005197B (zh) 基于切比雪夫多项式展开的时变神经动力学系统辨识方法
CN116933962A (zh) 一种面向电力用户负荷特性和可调节潜力的聚类方法
CN117451055A (zh) 一种基于基追踪降噪的水下传感器定位方法和系统
Peng et al. Graphangel: Adaptive and structure-aware sampling on graph neural networks
Gu et al. Distributed regression over sensor networks: An support vector machine approach
Butcher et al. Pruning reservoirs with random static projections
Wu et al. Least square support vector machine ensemble for daily rainfall forecasting based on linear and nonlinear regression
Tan et al. Design of defect diagnosis algorithm with multi-objective feature extraction optimization to assess the M/OD impact damages
Allka et al. Temporal pattern-based denoising and calibration for low-cost sensors in iot monitoring platforms
Sabatini et al. GSP based subsampling of IoT sensor networks
CN116975588B (zh) 用于带式输送机的故障诊断方法
Qu et al. Substructural damage detection using neural networks and ICA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant