CN117216484B - 基于多维数据分析的环境数据监测方法 - Google Patents

基于多维数据分析的环境数据监测方法 Download PDF

Info

Publication number
CN117216484B
CN117216484B CN202311475336.9A CN202311475336A CN117216484B CN 117216484 B CN117216484 B CN 117216484B CN 202311475336 A CN202311475336 A CN 202311475336A CN 117216484 B CN117216484 B CN 117216484B
Authority
CN
China
Prior art keywords
data
sequence
environmental data
probability
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311475336.9A
Other languages
English (en)
Other versions
CN117216484A (zh
Inventor
姜炯炯
潘国栋
李帅
王祥明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huilan Environmental Protection Technology Co ltd
Original Assignee
Shandong Huilan Environmental Protection Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huilan Environmental Protection Technology Co ltd filed Critical Shandong Huilan Environmental Protection Technology Co ltd
Priority to CN202311475336.9A priority Critical patent/CN117216484B/zh
Publication of CN117216484A publication Critical patent/CN117216484A/zh
Application granted granted Critical
Publication of CN117216484B publication Critical patent/CN117216484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及基于多维数据分析的环境数据监测方法。该方法包括:获取每个维度的时序数据序列和每个时刻的第一环境数据序列;获取每个维度的时序数据序列的最终高斯函数,根据最终高斯函数得到每个第一环境数据序列的噪声程度,进而得到噪声数据,根据噪声数据得到第二环境数据序列;获取每个维度的重要程度,获取每个维度的时序数据序列中每个环境数据的标准化数据,进而得到每个环境数据的调整后数据;根据调整后数据和第二环境数据序列得到异常环境数据,进而进行环境判定。从而排除离群分析时数据自身波动造成的欧氏距离计算不准确问题,有效提高离群分析的准确性,进而提高环境分析的准确性。

Description

基于多维数据分析的环境数据监测方法
技术领域
本发明涉及环境数据处理技术领域,具体涉及基于多维数据分析的环境数据监测方法。
背景技术
通过LOF算法对环境数据进行异常数据监测,需要根据不同数据之间的欧氏距离进行离群点的判断,然而在计算包含多个维度的环境数据之间欧氏距离时,由于不同维度数据的取值范围不同,直接计算欧氏距离会导致欧氏距离更多地受到取值范围较大数据的影响,导致最终的计算结果出现偏差。同时每个维度均会存在,在计算欧氏距离时,很容易因为数据波动增大数据之间的欧氏距离,进而容易因为数据波动造成的欧氏距离增大,使得一些数据被误判成离群数据。
发明内容
为了解决如上技术问题,本发明提供基于多维数据分析的环境数据监测方法,所采用的技术方案具体如下:
对环境进行实时检测得到每个维度的时序数据序列,获取每个时刻的第一环境数据序列;
根据每个维度的时序数据序列中环境数据的分布特征得到每个维度的时序数据序列的最终标准差,根据每个维度的时序数据序列的最终标准差得到每个维度的时序数据序列的最终高斯函数,根据每个维度的时序数据序列的最终高斯函数和第一环境数据序列得到每个第一环境数据序列的高概率环境数据和低概率环境数据,根据高概率环境数据和低概率环境数据得到每个第一环境数据序列的噪声程度,根据每个第一环境数据序列的噪声程度得到噪声数据,根据噪声数据得到第二环境数据序列;
根据每个维度的时序数据序列中环境数据的波动情况得到每个维度的重要程度,根据每个维度的时序数据序列的最终高斯函数得到每个维度的时序数据序列中每个环境数据的标准化数据,根据每个维度的重要程度和每个维度的时序数据序列中每个环境数据的标准化数据得到每个环境数据的调整后数据;
根据每个环境数据的调整后数据和第二环境数据序列进行离群分析得到异常环境数据,根据异常环境数据进行环境判定。
优选的,所述根据每个维度的时序数据序列中环境数据的分布特征得到每个维度的时序数据序列的最终标准差,包括的具体步骤为:
对于第i个维度的时序数据序列,设置第一高斯函数,获取序列中所有环境数据的 平均值,将作为序列的第一高斯函数的均值,预设基准标准差,将基准标准差作为 第一标准差,以第一标准差作为序列的第一高斯函数的标准差,根据序列的第一高斯函数 获取序列中每个环境数据的概率值,将属于的范围内的序列中环境 数据记为第一区间数据,计算所有第一区间数据的概率值累加和,记为第一累计概率,计算 第一累计概率与第一个预设概率累计值P1的差值,记为第一累计概率的第一差值,当第一 累计概率的第一差值小于预设差值阈值Y1时,将第一标准差作为第一参考标准差,计算第 一累计概率与第二个预设概率累计值P2的差值,记为第一累计概率的第二差值,当第一累 计概率的第二差值小于预设差值阈值Y1时,将第一标准差作为第二参考标准差,计算第一 累计概率与第三个预设概率累计值P3的差值,记为第一累计概率的第三差值,当第一累计 概率的第三差值小于预设差值阈值Y1时,将第一标准差作为第三参考标准差;
设置第二高斯函数,将作为序列的第二高斯函数的均值,将作为第二 标准差,以第二标准差作为序列的第二高斯函数的标准差,根据序列的第二高斯函数获取 序列中每个环境数据的概率值,将属于范围内的序 列中环境数据记为第二区间数据,计算所有第二区间数据的概率值累加和,记为第二累计 概率,判断是否已经获取第一参考标准差,当未获得第一参考标准差时,计算第二累计概率 与第一个预设概率累计值P1的差值,记为第二累计概率的第一差值,当第二累计概率的第 一差值小于预设差值阈值Y1时,将第二标准差作为第一参考标准差,判断是否已经获得第 二参考标准差,当未获得第二参考标准差时,计算第二累计概率与第二个预设概率累计值 P2的差值,记为第二累计概率的第二差值,当第二累计概率的第二差值小于预设差值阈值 Y1时,将第二标准差作为第二参考标准差,判断是否已经获得第三参考标准差,当未获得第 三参考标准差时,计算第二累计概率与第三个预设概率累计值P3的差值,记为第二累计概 率的第三差值,当第二累计概率的第三差值小于预设差值阈值Y1时,将第二标准差作为第 三参考标准差;
依次类推,直至获取序列的第一参考标准差、第二参考标准差和第三参考标准差;
序列的第一参考标准差、第二参考标准差和第三参考标准差的均值作为序列的最终标准差。
优选的,所述根据每个维度的时序数据序列的最终标准差得到每个维度的时序数据序列的最终高斯函数,包括的具体步骤为:
对于第i个维度的时序数据序列,设置最终高斯函数,将作为序列的最终高斯函 数的均值,将最终标准差作为序列的最终高斯函数的标准差。
优选的,所述根据每个维度的时序数据序列的最终高斯函数和第一环境数据序列得到每个第一环境数据序列的高概率环境数据和低概率环境数据,包括的具体步骤为:
根据每个维度的时序数据序列的最终高斯函数获取每个环境数据的最终概率值,将每个环境数据的最终概率值与预设上限概率值Y2比较,将最终概率值大于Y2的环境数据称为高概率环境数据,将每个环境数据的最终概率值与预设下限概率值Y3比较,将最终概率值小于Y3的环境数据称为低概率环境数据。
优选的,所述根据高概率环境数据和低概率环境数据得到每个第一环境数据序列的噪声程度,包括的具体步骤为:
获取每个第一环境数据序列中包含高概率环境数据的数量,获取每个第一环境数据序列中包含低概率环境数据的数量;
每个第一环境数据序列的噪声程度的计算方法为:
其中,表示第j个第一环境数据序列中低概率环境数据的数量,表 示第j个第一环境数据序列中高概率环境数据的数量,表示第j个第一环境数据序列的 噪声程度。
优选的,所述根据每个第一环境数据序列的噪声程度得到噪声数据,根据噪声数据得到第二环境数据序列,包括的具体步骤为:
将噪声程度大于预设噪声程度阈值的第一环境数据序列判定为噪声数据;
将不是噪声数据的第一环境数据序列称为第二环境数据序列。
优选的,所述根据每个维度的时序数据序列中环境数据的波动情况得到每个维度的重要程度,包括的具体步骤为:
其中,表示第i个维度的时序数据序列中第j个环境数据,表示第i个维度 的时序数据序列中所有环境数据的均值,表示第i个维度的时序数据序列的最终高斯函 数的方差,表示第i个维度的时序数据序列中环境数据的个数,表示第i个维度的波动 程度;
将每个维度的波动程度的倒数作为每个维度的重要程度。
优选的,所述根据每个维度的时序数据序列的最终高斯函数得到每个维度的时序数据序列中每个环境数据的标准化数据,包括的具体步骤为:
其中,表示第i个维度的时序数据序列中第j个环境数据,表示第 i个维度的时序数据序列中第j个环境数据的最终概率,表示第i个维度的时序数据序列 中所有环境数据的均值,表示第i个维度的时序数据序列中第j个环境数据的标准化 数据。
优选的,所述根据每个维度的重要程度和每个维度的时序数据序列中每个环境数据的标准化数据得到每个环境数据的调整后数据,包括的具体步骤为:
将每个维度的时序数据序列中每个环境数据的标准化数据与每个维度的重要程度的乘积作为每个环境数据的调整后数据。
优选的,所述根据每个环境数据的调整后数据和第二环境数据序列进行离群分析得到异常环境数据,根据异常环境数据进行环境判定,包括的具体步骤为:
将第二环境数据序列中每个环境数据替换成调整后数据得到第三环境数据序列;利用LOF算法对所有第三环境数据序列进行离群分析得到离群数据集合和集中数据集合;
将离群数据集合中第三环境数据序列称为异常环境数据;
将异常环境数据个数与第三环境数据序列个数比值称为异常判定标志值,当异常判定标志值大于预设异常阈值时,判定环境存在异常;当异常判定标志值小于等于预设异常阈值时,判定环境不存在异常。
本发明具有如下有益效果:
获取第一环境数据序列,为了实现准确的环境判定需排除噪声数据,因而根据每个第一环境数据序列中环境数据分布特征计算每个第一环境数据序列的噪声程度,根据噪声程度得到噪声数据,进而排除噪声数据后得到第二环境数据序列。为了防止第二环境数据序列中每个维度的环境数据自身波动造成的欧氏距离出现偏差,需获取每个维度的时序数据序列,根据每个维度的时序数据序列中环境数据的波动情况得到每个维度的重要程度,通过每个维度的重要程度可以调整第二环境数据序列中每个维度在欧氏距离计算时的影响程度。为了防止每个维度的数据取值范围不同造成欧氏距离计算出现偏差,因而获取每个维度的时序数据序列中每个环境数据的标准化数据,根据每个环境数据的标准化数据和每个维度的重要程度得到每个维度的调整后数据,通过调整后数据可以降低每个维度数据波动噪声的欧氏距离计算偏差以及降低每个维度取值范围不同导致的欧氏距离计算不准确的问题。
基于每个第二环境数据序列中每个环境数据的调整后数据进行离群分析得到异常环境数据,根据异常环境数据进行环境判定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的基于多维数据分析的环境数据监测方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于多维数据分析的环境数据监测方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
基于多维数据分析的环境数据监测方法实施例:
下面结合附图具体的说明本发明所提供的基于多维数据分析的环境数据监测方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于多维数据分析的环境数据监测方法流程图,该方法包括:
S001:获取每个时刻的第一环境数据序列和每个维度的时序数据序列。
需要说明的是,环境出现问题时所监测到的环境数据与环境正常时监测到的环境数据存在差异,因而可以通过对环境数据进行离群分析来获得离群度较高的环境数据,根据离群较高的环境数据进行环境异常判定。因而需先采集每个时刻的环境数据序列和每个维度的时序数据序列。
具体的,在待监测地点一固定位置设置M种环境传感器,利用每种环境传感器每间隔5分钟采集一次每种类型的环境数据,采集N次。将每个时刻采集的M种类型的环境数据构成的序列称为每个时刻的第一环境数据序列。将N次采集的一种类型的环境数据按时序顺序排列得到一个维度的时序数据序列。M种类型得到M个维度的时序数据序列。环境数据的类型包括但不限于以下方面:气温、湿度、气压、风速,体中的溶解氧、pH值、浊度、水温、电导率、营养物质(如氮、磷)、重金属含量,壤含水量、有机质含量、酸碱度以及降水量、日照时数、蒸发量、相对湿度。本实施例以N取1440,M取50为例进行叙述,其他实施例可以取其他值,本实施例不进行具体限制。
S002:获取每个维度的时序数据序列的最终标准差,根据每个维度的最终标准差得到每个维度的的时序数据序列的最终高斯函数,根据最终高斯函数和第一环境数据序列获取噪声数据,根据噪声数据得到第二环境数据序列。
需要说明的是,外界因素会对传感器的产生干扰,导致有些时刻采集的第一环境数据序列为噪声数据,为了准确的获得由于环境异常造成的离群环境数据,需排除噪声数据的干扰。其中噪声数据一般不太符合整体数据的分布特征,因而需根据每个第一环境数序列中各环境数据偏离整体数据分布特征的情况对每个第一环境数据进行异常分析。
具体的,对于第i个维度的时序数据序列,设置第一高斯函数,获取序列中所有环 境数据的平均值,将作为序列的第一高斯函数的均值。预设基准标准差,将基准标 准差作为第一标准差,以第一标准差作为序列的第一高斯函数的标准差,根据序列的第一 高斯函数获取序列中每个环境数据的概率值,将属于的范围内的序 列中环境数据记为第一区间数据,计算所有第一区间数据的概率值累加和,记为第一累计 概率,计算第一累计概率与第一个预设概率累计值P1的差值,记为第一累计概率的第一差 值,当第一累计概率的第一差值小于预设差值阈值Y1时,将第一标准差作为第一参考标准 差,计算第一累计概率与第二个预设概率累计值P2的差值,记为第一累计概率的第二差值, 当第一累计概率的第二差值小于预设差值阈值Y1时,将第一标准差作为第二参考标准差, 计算第一累计概率与第三个预设概率累计值P3的差值,记为第一累计概率的第三差值,当 第一累计概率的第三差值小于预设差值阈值Y1时,将第一标准差作为第三参考标准差。
设置第二高斯函数,将作为序列的第二高斯函数的均值,将作为第二 标准差,以第二标准差作为序列的第二高斯函数的标准差,根据序列的第二高斯函数获取 序列中每个环境数据的概率值,将属于范围内的序 列中环境数据记为第二区间数据,计算所有第二区间数据的概率值累加和,记为第二累计 概率,判断是否已经获取第一参考标准差,当未获得第一参考标准差时,计算第二累计概率 与第一个预设概率累计值P1的差值,记为第二累计概率的第一差值,当第二累计概率的第 一差值小于预设差值阈值Y1时,将第二标准差作为第一参考标准差,判断是否已经获得第 二参考标准差,当未获得第二参考标准差时,计算第二累计概率与第二个预设概率累计值 P2的差值,记为第二累计概率的第二差值,当第二累计概率的第二差值小于预设差值阈值 Y1时,将第二标准差作为第二参考标准差,判断是否已经获得第三参考标准差,当未获得第 三参考标准差时,计算第二累计概率与第三个预设概率累计值P3的差值,记为第二累计概 率的第三差值,当第二累计概率的第三差值小于预设差值阈值Y1时,将第二标准差作为第 三参考标准差。
依次类推,直至获取序列的第一参考标准差、第二参考标准差和第三参考标准差。
进一步的,设置最终高斯函数,将作为第i个维度的时序数据序列的最终高斯函 数的均值,将第i个维度的时序数据序列的第一参考标准差、第二参考标准差和第三参考标 准差的均值作为第i个维度的时序数据序列的最终标准差;将第i个维度的时序数据序列的 最终标准差作为第i个维度的时序数据序列的最终高斯函数的标准差。表示预设步长,本 实施例以取0,P1取0.6826、P2取0.9544,P3取0.9973,Y1取0.05和v取0.1为例进行叙述, 其他实施例可以取其他值,本实施例不进行具体限制。
至此,得到每个维度的最终高斯函数,通过每个维度的最终高斯函数能够反映每个维度的时序数据序列中所有数据的分布特征。
进一步的,根据每个维度的时序数据序列的最终高斯函数获取每个环境数据的最终概率值,将每个环境数据的最终概率值与预设上限概率值Y2比较,将最终概率值大于Y2的环境数据称为高概率环境数据,将每个环境数据的最终概率值与预设下限概率值Y3比较,将最终概率值小于Y3的环境数据称为低概率环境数据。本实施例以Y2取0.7,Y3取0.3为例进行叙述,其他实施例可以取其他值,本实施例不进行具体限制。
获取每个第一环境数据序列中包含高概率环境数据的数量,获取每个第一环境数据序列中包含低概率环境数据的数量。
每个第一环境数据序列的噪声程度的计算方法为:
其中,表示第j个第一环境数据序列中低概率环境数据的数量,该值越大说 明第j个第一环境数据序列中包含较多的不符合整体环境数据分布的环境数据,因而第j个 第一环境数据序列的噪声程度越大,表示第j个第一环境数据序列中高概率环境数 据的数量,该值越大说明第j个第一环境数据序列中包含较多的符合整体环境数据分布的 环境数据,因而第j个第一环境数据序列的噪声程度越小,表示第j个第一环境数据序列 的噪声程度。
进一步的,将噪声程度大于预设噪声程度阈值Y4的第一环境数据序列判定为噪声数据。本实施例以Y4取0.7为例进行叙述,其他实施例可以取其他值,本实施例不进行具体限制。
进一步的,将不是噪声数据的第一环境数据序列称为第二环境数据序列。
至此,得到排除噪声数据之后的第二环境数据序列。
S003:根据每个维度的时序数据序列得到每个维度的波动程度,根据每个维度的波动程度得到每个维度的重要程度,根据最终高斯函数得到每个维度的每个环境数据的标准化数据,根据每个维度的重要程度和每个维度的每个环境数据的标准化数据得到每个环境数据的调整后数据。
需要说明的是,第二环境数据序列为排除噪声干扰之后的数据。为了准确的获取由于环境异常造成的离群的第二环境数据序列,需对每个第二环境数据序列进行离群分析,利用LOF算法对第二环境数据序列进行离群分析时,一般会通过分析不同第二环境数据序列之间的欧氏距离来进行离群判定。而现实生活中,有些类型的环境数据,在不存在异常环境时,也会存在波动现象,因而直接通过数据之间的欧氏距离来进行分析时,很容易因为自身波动造成数据之间的欧氏距离增大。进而造成离群数据误判现象。为了防止出现该现象,需分析每种维度的时序数据序列的波动情况进行分析。
具体的,每个维度的波动程度的计算方式为:
其中,表示第i个维度的时序数据序列中第j个环境数据,表示第i个维度 的时序数据序列中所有环境数据的均值,表示第i个维度的时序数据序列的最终高斯函 数的方差。表示第i个维度的时序数据序列中环境数据的个数,表示第i个维度的波动 程度,该值越大说明第i个维度的环境数据的波动较大,因而需降低该维度的数据在离群分 析中欧氏距离计算时的影响。
进一步的,将每个维度的波动程度的倒数作为每个维度的重要程度。
需要说明的是,由于不同维度之间的环境数据的取值范围不同,其中有些维度的环境数据的取值范围较大,有些维度的环境数据的取值范围较小,而取值范围较大的环境数据之间的差异较大,因而取值范围较大的环境数据在离群分析的欧氏距离计算时的影响较大,进而导致欧氏距离准确性降低。
进一步的,每个维度的时序数据序列中每个环境数据的标准化数据的获取方法为:
其中,表示第i个维度的时序数据序列中第j个环境数据,表示第 i个维度的时序数据序列中第j个环境数据的最终概率,表示第i个维度的时序数据序列 中所有环境数据的均值,也表示第i个维度的时序数据序列的最终高斯函数的均值。 表示第i个维度的时序数据序列中第j个环境数据的标准化数据。通过该调整方法可以将每 个环境数据归一化处理,使得每个维度的环境数据的取值范围相同,有效排除由于每种维 度的环境数据取值范围不同导致的欧氏距离计算不准确的问题。同时通过该调整方法能够 将防止不同的环境数据取相同的取值。
进一步的,将每个维度的时序数据序列中每个环境数据的标准化数据与每个维度的重要程度的乘积作为每个环境数据的调整后数据。
至此,得到每个环境数据的调整后数据,该调整后数据能够降低每个维度的环境数据波动造成的欧氏距离计算不准确的问题,同时还能降低由于不同维度的环境数据取值范围不同导致的欧氏距离计算不准确的问题。
S004:根据每个环境数据的调整后数据和第二环境数据序得到异常环境数据,根据异常环境数据进行环境判定。
具体的,将第二环境数据序列中每个环境数据替换成调整后数据得到第三环境数据序列。利用LOF算法对所有第三环境数据序列进行离群分析得到离群数据集合和集中数据集合。
将离群数据集合中第三环境数据序列称为异常环境数据。
将异常环境数据个数与第三环境数据序列个数比值称为异常判定标志值,当异常判定标志值大于预设异常阈值Y5时,判定环境存在异常。当异常判定标志值小于等于预设异常阈值Y5时,判定环境不存在异常。本实施例以Y5取1%为例进行叙述,其他实施例可以取其他值,本实施例不进行具体限制。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (8)

1.基于多维数据分析的环境数据监测方法,其特征在于,所述方法包括:
对环境进行实时检测得到每个维度的时序数据序列,获取每个时刻的第一环境数据序列;
根据每个维度的时序数据序列中环境数据的分布特征得到每个维度的时序数据序列的最终标准差,根据每个维度的时序数据序列的最终标准差得到每个维度的时序数据序列的最终高斯函数,根据每个维度的时序数据序列的最终高斯函数和第一环境数据序列得到每个第一环境数据序列的高概率环境数据和低概率环境数据,根据高概率环境数据和低概率环境数据得到每个第一环境数据序列的噪声程度,根据每个第一环境数据序列的噪声程度得到噪声数据,根据噪声数据得到第二环境数据序列;
根据每个维度的时序数据序列中环境数据的波动情况得到每个维度的重要程度,根据每个维度的时序数据序列的最终高斯函数得到每个维度的时序数据序列中每个环境数据的标准化数据,根据每个维度的重要程度和每个维度的时序数据序列中每个环境数据的标准化数据得到每个环境数据的调整后数据;
根据每个环境数据的调整后数据和第二环境数据序列进行离群分析得到异常环境数据,根据异常环境数据进行环境判定;
所述根据每个维度的时序数据序列中环境数据的分布特征得到每个维度的时序数据序列的最终标准差,包括的具体步骤为:
对于第i个维度的时序数据序列,设置第一高斯函数,获取序列中所有环境数据的平均值,将/>作为序列的第一高斯函数的均值,预设基准标准差/>,将基准标准差作为第一标准差,以第一标准差作为序列的第一高斯函数的标准差,根据序列的第一高斯函数获取序列中每个环境数据的概率值,将属于/>的范围内的序列中环境数据记为第一区间数据,计算所有第一区间数据的概率值累加和,记为第一累计概率,计算第一累计概率与第一个预设概率累计值P1的差值,记为第一累计概率的第一差值,当第一累计概率的第一差值小于预设差值阈值Y1时,将第一标准差作为第一参考标准差,计算第一累计概率与第二个预设概率累计值P2的差值,记为第一累计概率的第二差值,当第一累计概率的第二差值小于预设差值阈值Y1时,将第一标准差作为第二参考标准差,计算第一累计概率与第三个预设概率累计值P3的差值,记为第一累计概率的第三差值,当第一累计概率的第三差值小于预设差值阈值Y1时,将第一标准差作为第三参考标准差;
设置第二高斯函数,将作为序列的第二高斯函数的均值,将/>作为第二标准差,以第二标准差作为序列的第二高斯函数的标准差,根据序列的第二高斯函数获取序列中每个环境数据的概率值,将属于/>范围内的序列中环境数据记为第二区间数据,计算所有第二区间数据的概率值累加和,记为第二累计概率,判断是否已经获取第一参考标准差,当未获得第一参考标准差时,计算第二累计概率与第一个预设概率累计值P1的差值,记为第二累计概率的第一差值,当第二累计概率的第一差值小于预设差值阈值Y1时,将第二标准差作为第一参考标准差,判断是否已经获得第二参考标准差,当未获得第二参考标准差时,计算第二累计概率与第二个预设概率累计值P2的差值,记为第二累计概率的第二差值,当第二累计概率的第二差值小于预设差值阈值Y1时,将第二标准差作为第二参考标准差,判断是否已经获得第三参考标准差,当未获得第三参考标准差时,计算第二累计概率与第三个预设概率累计值P3的差值,记为第二累计概率的第三差值,当第二累计概率的第三差值小于预设差值阈值Y1时,将第二标准差作为第三参考标准差;
依次类推,直至获取序列的第一参考标准差、第二参考标准差和第三参考标准差;
序列的第一参考标准差、第二参考标准差和第三参考标准差的均值作为序列的最终标准差;
所述根据每个第一环境数据序列的噪声程度得到噪声数据,根据噪声数据得到第二环境数据序列,包括的具体步骤为:
将噪声程度大于预设噪声程度阈值的第一环境数据序列判定为噪声数据;
将不是噪声数据的第一环境数据序列称为第二环境数据序列。
2.如权利要求1所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据每个维度的时序数据序列的最终标准差得到每个维度的时序数据序列的最终高斯函数,包括的具体步骤为:
对于第i个维度的时序数据序列,设置最终高斯函数,将作为序列的最终高斯函数的均值,将最终标准差作为序列的最终高斯函数的标准差。
3.如权利要求1所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据每个维度的时序数据序列的最终高斯函数和第一环境数据序列得到每个第一环境数据序列的高概率环境数据和低概率环境数据,包括的具体步骤为:
根据每个维度的时序数据序列的最终高斯函数获取每个环境数据的最终概率值,将每个环境数据的最终概率值与预设上限概率值Y2比较,将最终概率值大于Y2的环境数据称为高概率环境数据,将每个环境数据的最终概率值与预设下限概率值Y3比较,将最终概率值小于Y3的环境数据称为低概率环境数据。
4.如权利要求1所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据高概率环境数据和低概率环境数据得到每个第一环境数据序列的噪声程度,包括的具体步骤为:
获取每个第一环境数据序列中包含高概率环境数据的数量,获取每个第一环境数据序列中包含低概率环境数据的数量;
每个第一环境数据序列的噪声程度的计算方法为:
其中,表示第j个第一环境数据序列中低概率环境数据的数量,/>表示第j个第一环境数据序列中高概率环境数据的数量,/>表示第j个第一环境数据序列的噪声程度。
5.如权利要求1所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据每个维度的时序数据序列中环境数据的波动情况得到每个维度的重要程度,包括的具体步骤为:
其中,表示第i个维度的时序数据序列中第j个环境数据,/>表示第i个维度的时序数据序列中所有环境数据的均值,/>表示第i个维度的时序数据序列的最终高斯函数的方差,/>表示第i个维度的时序数据序列中环境数据的个数,/>表示第i个维度的波动程度;
将每个维度的波动程度的倒数作为每个维度的重要程度。
6.如权利要求3所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据每个维度的时序数据序列的最终高斯函数得到每个维度的时序数据序列中每个环境数据的标准化数据,包括的具体步骤为:
其中,表示第i个维度的时序数据序列中第j个环境数据,/>表示第i个维度的时序数据序列中第j个环境数据的最终概率,/>表示第i个维度的时序数据序列中所有环境数据的均值,/>表示第i个维度的时序数据序列中第j个环境数据的标准化数据。
7.如权利要求1所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据每个维度的重要程度和每个维度的时序数据序列中每个环境数据的标准化数据得到每个环境数据的调整后数据,包括的具体步骤为:
将每个维度的时序数据序列中每个环境数据的标准化数据与每个维度的重要程度的乘积作为每个环境数据的调整后数据。
8.如权利要求1所述的基于多维数据分析的环境数据监测方法,其特征在于,所述根据每个环境数据的调整后数据和第二环境数据序列进行离群分析得到异常环境数据,根据异常环境数据进行环境判定,包括的具体步骤为:
将第二环境数据序列中每个环境数据替换成调整后数据得到第三环境数据序列;利用LOF算法对所有第三环境数据序列进行离群分析得到离群数据集合和集中数据集合;
将离群数据集合中第三环境数据序列称为异常环境数据;
将异常环境数据个数与第三环境数据序列个数比值称为异常判定标志值,当异常判定标志值大于预设异常阈值时,判定环境存在异常;当异常判定标志值小于等于预设异常阈值时,判定环境不存在异常。
CN202311475336.9A 2023-11-08 2023-11-08 基于多维数据分析的环境数据监测方法 Active CN117216484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311475336.9A CN117216484B (zh) 2023-11-08 2023-11-08 基于多维数据分析的环境数据监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311475336.9A CN117216484B (zh) 2023-11-08 2023-11-08 基于多维数据分析的环境数据监测方法

Publications (2)

Publication Number Publication Date
CN117216484A CN117216484A (zh) 2023-12-12
CN117216484B true CN117216484B (zh) 2024-01-26

Family

ID=89046584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311475336.9A Active CN117216484B (zh) 2023-11-08 2023-11-08 基于多维数据分析的环境数据监测方法

Country Status (1)

Country Link
CN (1) CN117216484B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473464B (zh) * 2023-12-28 2024-04-02 中山市环境保护技术中心 基于大数据分析的企业环境治理数据处理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6313516B1 (ja) * 2017-03-30 2018-04-18 三菱総研Dcs株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
WO2022142628A1 (zh) * 2020-12-29 2022-07-07 华为技术有限公司 一种点云数据处理方法及装置
CN115017977A (zh) * 2022-05-16 2022-09-06 上海大学 一种高斯过程回归树分类器多元合金异常数据识别方法
CN115796100A (zh) * 2022-09-15 2023-03-14 上海集成电路研发中心有限公司 一种基于高斯过程回归的器件参数提取方法及装置
CN116089405A (zh) * 2022-10-09 2023-05-09 国网江苏省电力有限公司营销服务中心 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法
CN116226745A (zh) * 2023-05-09 2023-06-06 海阳市辛安镇畜牧兽医站 基于孵化间环境数据的孵化异常报警方法
CN116659589A (zh) * 2023-07-25 2023-08-29 澳润(山东)药业有限公司 基于数据分析的阿胶糕保存环境监测方法
CN116881745A (zh) * 2023-09-07 2023-10-13 深圳市特安工业科技有限公司 基于大数据的压力变送器异常监测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3022997B1 (fr) * 2014-06-25 2016-06-10 Snecma Procede de surveillance d'une degradation d'un dispositif embarque d'un aeronef incluant la determination d'un seuil de comptage

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6313516B1 (ja) * 2017-03-30 2018-04-18 三菱総研Dcs株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
WO2022142628A1 (zh) * 2020-12-29 2022-07-07 华为技术有限公司 一种点云数据处理方法及装置
CN115017977A (zh) * 2022-05-16 2022-09-06 上海大学 一种高斯过程回归树分类器多元合金异常数据识别方法
CN115796100A (zh) * 2022-09-15 2023-03-14 上海集成电路研发中心有限公司 一种基于高斯过程回归的器件参数提取方法及装置
CN116089405A (zh) * 2022-10-09 2023-05-09 国网江苏省电力有限公司营销服务中心 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法
CN116226745A (zh) * 2023-05-09 2023-06-06 海阳市辛安镇畜牧兽医站 基于孵化间环境数据的孵化异常报警方法
CN116659589A (zh) * 2023-07-25 2023-08-29 澳润(山东)药业有限公司 基于数据分析的阿胶糕保存环境监测方法
CN116881745A (zh) * 2023-09-07 2023-10-13 深圳市特安工业科技有限公司 基于大数据的压力变送器异常监测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
High fidelity sampling schedules for NMR spectra of high dynamic range;Sven G. Hyberts等;Journal of Magnetic Resonance;全文 *
基于异方差高斯过程的时间序列数据离群点检测;严宏;杨波;杨红雨;;计算机应用(05);全文 *
基于时序数据动态天气划分的短期风电功率预测方法;熊音笛等;CNKI;全文 *
服务于智能交通系统的离群交通数据识别;陈淑燕;王炜;瞿高峰;;东南大学学报(自然科学版)(04);全文 *

Also Published As

Publication number Publication date
CN117216484A (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN117216484B (zh) 基于多维数据分析的环境数据监测方法
CN111562108A (zh) 一种基于cnn和fcmc的滚动轴承智能故障诊断方法
CN112284440B (zh) 一种传感器数据偏差自适应修正方法
US20140149325A1 (en) System monitor and method of system monitoring
CN116659589A (zh) 基于数据分析的阿胶糕保存环境监测方法
CN116304898B (zh) 基于机器学习的传感器数据智能存储系统
CN116992322B (zh) 一种智慧城市数据中心管理系统
CN115290316B (zh) 一种偏心旋转阀故障诊断方法
CN117196353B (zh) 基于大数据的环境污染评估与监测方法及系统
CN116881745B (zh) 基于大数据的压力变送器异常监测方法
CN104921736A (zh) 一种包含参数估计功能滤波模块的连续血糖监测设备
CN112288597A (zh) 一种基于层次聚类和直方图算法的能耗在线异常检测方法
CN116066343A (zh) 一种输油泵机组故障模型的智能预警方法及系统
CN115824993B (zh) 水体化学需氧量的确定方法、装置、计算机设备及介质
CN111368428A (zh) 一种基于监控二阶统计量的传感器精度下降故障检测方法
CN109211564B (zh) 一种用于滚珠丝杠副健康评估的自适应阈值检测方法
CN113858566B (zh) 一种基于机器学习的注塑机能耗预测方法及系统
CN116804668B (zh) 一种食盐碘含量检测数据标识方法及系统
CN111695735B (zh) 一种基于流计算的铁路弓网实时预警方法、系统及装置
CN112949735A (zh) 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法
CN114355846B (zh) 一种基于sbr仿真模型的造纸污水处理过程故障诊断方法
CN108733812B (zh) 基于全局信息的时间序列数据中异常数据点的识别方法
CN117433591B (zh) 基于多传感器数据的自动化设备监测系统
CN117688498B (zh) 基于船岸协同的船舶综合安全状态监控系统
CN117668684B (zh) 基于大数据分析的电网电能数据异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant