CN117150283B - 一种基于大数据分析的突发环境事件安全预警方法 - Google Patents
一种基于大数据分析的突发环境事件安全预警方法 Download PDFInfo
- Publication number
- CN117150283B CN117150283B CN202311421959.8A CN202311421959A CN117150283B CN 117150283 B CN117150283 B CN 117150283B CN 202311421959 A CN202311421959 A CN 202311421959A CN 117150283 B CN117150283 B CN 117150283B
- Authority
- CN
- China
- Prior art keywords
- data
- degree
- main component
- indicate
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000007405 data analysis Methods 0.000 title claims abstract description 20
- 230000007613 environmental effect Effects 0.000 title claims description 20
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 48
- 231100000719 pollutant Toxicity 0.000 claims abstract description 46
- 238000012544 monitoring process Methods 0.000 claims abstract description 31
- 230000009467 reduction Effects 0.000 claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 230000005856 abnormality Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 8
- 239000000356 contaminant Substances 0.000 description 10
- 238000009792 diffusion process Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 239000000758 substrate Substances 0.000 description 3
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002091 carbon monoxide Inorganic materials 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013618 particulate matter Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于大数据分析的突发环境事件安全预警方法,包括:获取环境监测数据和污染物数据,根据任意一种数据中极值点得到数据的异常程度,根据异常程度的差异得到任意两种数据之间的相关性,得到多个聚类簇,获取任意一种数据作为主成分的可能程度和聚类簇中数据作为主成分的影响值,根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到降维后的数据,根据降维后的数据进行预警。本发明能够去除无关数据的影响,并且能够减小因为在采集数据部分数据因为存在异常时对降维效果的影响,使得降维后的数据能够体现对污染物泄露时的准确数据变化,进而预警更加准确。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于大数据分析的突发环境事件安全预警方法。
背景技术
污染物泄露的过程通常受到许多复杂因素的影响,比如气候条件如:温度、湿度、风速、风向等,地理环境、物质的化学性质等。预测泄露污染物的扩散方向、范围、浓度以及可能的影响,需要大量的数据和复杂的分析。采集得到的高维数据不利于环境场景中数据的特征的进一步提取和计算,因此需要根据获得的数据之间关联耦合特点进行优化降维。
在现有技术中,对于高维数据的降维算法中,主成分分析算法具有较好的效果,其是通过对协方差矩阵进行特征分解来找出其特征值和对应的特征向量,可以有效地帮助我们理解高维数据的结构,减少数据的复杂性和噪声,并减少计算的资源需求。但是由于PCA是基于方差进行计算的,因此它对异常值非常敏感,一个或几个异常值可能会极大地扭曲主成分,从而影响降维的效果。因此需要根据采集获得的数据的变化来确定合适的数据结构,从而能够更好的对数据进行降维。
发明内容
为解决上述问题,本发明提供一种基于大数据分析的突发环境事件安全预警方法。
本发明的一种基于大数据分析的突发环境事件安全预警方法采用如下技术方案:
本发明一个实施例提供了一种基于大数据分析的突发环境事件安全预警方法,该方法包括以下步骤:
获取环境监测数据和污染物数据,所述环境监测数据和污染物数据中都包含多种数据;
根据每种数据中极值点对应的幅值得到每种数据的异常程度,根据任意两种数据的异常程度的差异、任意两种数据对应数据点的幅值差异得到任意两种数据之间的相关性;
根据所有数据之间的相关性进行聚类得到多个聚类簇,根据任意一个聚类簇中数据之间的相关性、数据的异常程度,得到任意一个聚类簇中任意一种数据作为主成分的可能程度,根据任意一个聚类簇中所有种数据作为主成分的可能程度得到任意一个聚类簇中数据作为主成分的影响值,根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到任意一个聚类簇的可能程度序列和聚类簇影响值序列,根据聚类簇的可能程度序列和聚类簇影响值序列得到降维后的数据;
根据降维后的数据进行预警。
进一步地,所述根据每种数据中极值点对应的幅值得到每种数据的异常程度,包括的具体步骤如下:
获取每种数据中所有极大值点的最大幅值以及所有极小值点的最小幅值,将最大幅值与最小幅值的差异记为第一差异,根据每种数据中每一个极值点的幅值、第一差异,以及每种数据的平均幅值,得到每种数据的异常程度。
进一步地,所述根据每种数据中每一个极值点的幅值、第一差异,以及每种数据的平均幅值,得到每种数据的异常程度,包括的具体步骤如下:
式中,表示第/>种数据中第/>个极值点的幅值,/>表示第/>种数据中所有极大值点中的最大幅值,/>表示第/>种数据中所有极小值点的最小幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示第/>种数据的平均幅值,/>表示第/>种数据中极值点的数量,/>表示数据中数据点的数量,/>表示线性归一化函数,/>表示第/>种数据的异常程度,为第一差异。
进一步地,所述根据任意两种数据的异常程度的差异、任意两种数据对应数据点的幅值差异得到任意两种数据之间的相关性,包括的具体步骤如下:
式中,表示第/>种数据与第/>种数据之间的相关性,/>表示第/>种数据的异常程度,/>表示第/>种数据的异常程度,/>表示第/>种数据的平均幅值,/>表示第/>种数据的平均幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示以自然常数为底的指数函数,/>表示数据中数据点的数量,/>为取绝对值。
进一步地,所述根据所有数据之间的相关性进行聚类得到多个聚类簇,包括的具体步骤如下:
获取所有数据之间的相关性,将所有数据之间的相关性取倒数作为聚类距离,根据聚类距离利用聚类算法对所有数据进行聚类,得到多个聚类簇。
进一步地,所述根据任意一个聚类簇中数据之间的相关性、数据的异常程度,得到任意一个聚类簇中任意一种数据作为主成分的可能程度,包括的具体步骤如下:
式中,表示第/>个聚类簇中第/>种数据作为主成分的可能程度,/>表示第/>个聚类簇中第/>种数据与第/>种数据之间的相关性,/>表示第/>个聚类簇中数据种类的总个数,/>表示第/>种数据的异常程度。
进一步地,所述根据任意一个聚类簇中所有种数据作为主成分的可能程度得到任意一个聚类簇中数据作为主成分的影响值,包括的具体步骤如下:
式中,表示第/>个聚类簇中数据作为主成分的影响值,/>表示第/>个聚类簇中第种数据作为主成分的可能程度,/>表示聚类簇的数量,/>表示第/>个聚类簇中数据种类的总个数。
进一步地,所述根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到任意一个聚类簇的可能程度序列和聚类簇影响值序列,包括的具体步骤如下:
将任意一个聚类簇中所有种数据作为主成分的可能程度按照从大到小的顺序排列,得到任意一个聚类簇的可能程度序列,将所有聚类簇中数据作为主成分的影响值按照从大到小的顺序进行排列,得到聚类簇影响值序列。
进一步地,所述根据聚类簇的可能程度序列和聚类簇影响值序列得到降维后的数据,包括的具体步骤如下:
对于聚类簇影响值序列中任意相邻两个聚类簇中数据作为主成分的影响值,第一个聚类簇中数据作为主成分的影响值记为,第二个聚类簇中数据作为主成分的影响值记为/>,若/>,/>为预设影响阈值,选择/>对应的聚类簇的可能程度序列中的前TH1种数据作为主成分数据,TH1为预设第一数量,若/>,选择/>对应的聚类簇的可能程度序列中第一个数据作为主成分数据,以及/>对应的聚类簇的可能程度序列中第一个数据作为主成分数据,获取所有主成分数据,通过/>算法对所有主成分数据进行降维,得到降维后的数据。
进一步地,所述根据降维后的数据进行预警,包括的具体步骤如下:
降维后的数据类型为目标污染物的监测数据,所述目标污染物的监测数据为污染物数据中的一种数据,预设污染物阈值,若降维后的数据中存在大于预设污染物阈值的数值时,存在污染物的泄露,进行预警。
本发明的技术方案的有益效果是:在对突发环境事件进行预警时,需要采集环境数据,其中包含多种数据类型,而直接对多种数据进行分析复杂程度较高,计算量大。因此本发明通过数据的变化来对获得的数据进行降维,从而减少无关的数据类型,那么再根据降维后的数据进行预警时,就能够快速与准确的监测污染物的实时变化,能进行准确的预警。
在对数据进行降维时,通过PCA算法对数据进行降维,但是PCA算法对异常数据敏感,因此本发明通过对每一种数据进行分析,来获得每一种数据的异常程度,然后再根据数据的变化获得数据之间的相关性,进而根据数据之间的相关性对数据进行挑选,获得目标降维数据的数量。该方法能够去除无关数据的影响,并且能够减小因为在采集数据部分数据因为存在异常时对降维效果的影响,使得降维后的数据能够体现对污染物泄露时的准确数据变化,进而预警更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于大数据分析的突发环境事件安全预警方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据分析的突发环境事件安全预警方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据分析的突发环境事件安全预警方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于大数据分析的突发环境事件安全预警方法的步骤流程图,该方法包括以下步骤:
步骤S001、获取环境监测数据和污染物数据,并对数据预处理。
需要说明的是,本实施例的主要目的是为了对污染物泄露进行监测,因此需要采集获得各项监测数据,从而来对突发的污染物泄露事件进行预警。
具体的,由于污染物泄露后,不同的自然环境会对污染物的扩散产生重大的影响,因此首先通过温度传感器、湿度传感器、风速传感器、风向传感器采集获得环境监测数据,其中包括:温度、湿度、风速、风向数据;还需要监测环境的中的污染物数据,其中包含:目标污染物的监测数据、环境污染物的监测数据;并且还需要获得目标污染物的化学性质等数据。
需要说明的是,上述的目标污染物表示在监测的范围内因为存在化工厂、化学物品储藏室等所包含的化学物品,因此需要监测其是否发生泄露;环境污染物表示大气污染物:如二氧化硫、二氧化氮、颗粒物(PM2.5和PM10)、臭氧、一氧化碳等。
具体的,为了保持监测数据的频率保持一致,对监测获得的数据进行数据插值处理,在这里使用线性插值法对数据进行插值,该算法为现有公知技术,在此不再进行赘述,需要说明的是,本实施例将线性插值后的环境监测数据和污染物数据仍记为环境监测数据和污染物数据。
至此,得到环境监测数据和污染物数据,环境监测数据和污染物数据都包含多种数据,且数据都是时序数据。
步骤S002、根据任意一种数据中极值点对应的幅值得到任意一种数据的异常程度,根据任意两种数据的异常程度的差异、任意两种数据对应数据点的幅值差异得到任意两种数据之间的相关性。
需要说明的是,在通过PCA算法来对数据进行降维时,通过对原始数据进行矩阵转化,来获得对应的特征值和特征向量,特征向量即主成分代表了新的特征空间的方向,特征值表示了数据在该方向上的方差大小,然后根据特征值挑选前K个特征数据,将其作为降维后的数据,这些重要的特征即主成分捕获了原始数据中的大部分变异信息,从而实现将原始的高维数据映射到由少数重要特征构成的新的低维空间中。由于该算法是根据方差来获得特征值与特征矩阵的,因此如果数据受到异常数据点的影响,就会增大数据的方差,从而造成该数据的特征值与特征向量增大,那么在进行数据挑选时,就可能将原本需要的数据作为目标数据挑选出来,从而影响了对降维后的数据的分析。因此需要根据数据的变化特征来确定该数据是否受到异常值的影响,然后再根据数据之间的相关性来确定目标数据的种类,从而完成数据的降维。
进一步需要说明的是,首先对每一种数据进行分析,来获得该数据的异常程度值,因为不同的数据表示在监测环境中污染物泄露具有不同的作用,例如:环境监测数据中的温度、湿度、风速、风向等数据对污染物的扩散影响程度较大,而污染物监测指标是直接监测污染物是否发生泄露,因此当污染物未发生泄露时,污染物监测指标更重要,而当污染物发生泄露时,为了能够减小对人的伤害,就需要根据环境的变化来对污染物的扩散速度以及扩散方向进行预警,此时环境监测数据也同样的重要。因此需要根据每一种数据的变化来确定该数据的异常程度,然后根据数据的异常程度来确定该数据作为主成分的概率。
具体的,对于任意一种数据,根据任意一种数据中极值点对应的幅值得到任意一种数据的异常程度,具体如下:
式中,表示第/>种数据中第/>个极值点的幅值,/>表示第/>种数据中所有极大值点中的最大幅值,/>表示第/>种数据中所有极小值点的最小幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示第/>种数据的平均幅值,/>表示第/>种数据中极值点的数量,/>表示数据中数据点的数量,/>表示线性归一化函数,其归一化的范围为/>,/>表示第/>种数据的异常程度。
需要说明的是,表示第/>个极值点的幅值与其极差之间的比值,由于极值点表示数据的存在的异常情况,极值点的数量越多,说明数据的波动性是越大的,数据存在突变的可能性越大的,因此根据每个极值点与极差之间的数据变化来确定数据点的异常程度,其值越大,说明该种数据存在的异常程度越大。/>表示第/>种数据的方差,方差表示的是数据的波动程度,波动程度越大,说明该数据的变化程度越大,因此其可能存在的异常越大。
需要说明的是,根据上述计算获得的不同类型数据的异常程度,然后根据数据之间的变化获得数据之间的关联性,数据之间的关联性表示的是在监测突发的环境污染时,因为不同的监测指标对后期污染物的预警所带来的效果是不一样的,而根据数据之间的关联性来确定数据的维度时,能够很好的消除无关数据的影响,进而根据数据的变化来对突发的环境污染进行预警。
具体的,对环境监测数据和污染物数据中每一种数据进行线性归一化处理,得到归一化后的每一种数据,本实施例将归一化后的第th种数据仍然记为第th种数据,第th种数据表示任意一种数据,目的是将每一种数据量化到同一数量级中,便于后续分析计算。
进一步地,根据任意两种数据的异常程度的差异、任意两种数据对应数据点的幅值差异得到任意两种数据之间的相关性,具体如下:
式中,表示第/>种数据与第/>种数据之间的相关性,/>表示第/>种数据的异常程度,/>表示第/>种数据的异常程度,/>表示第/>种数据的平均幅值,/>表示第/>种数据的平均幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示以自然常数为底的指数函数,/>表示数据中数据点的数量,/>为取绝对值。
需要说明的是,表示第/>种数据与第/>种数据异常程度之间的差异,因为在采集数据时分为环境监测数据与污染物数据,而相同类型的数据存在联系,例如:风速与风向、温度、湿度都是有关系,一种数据存在变化,会因为其他数据的波动变化,因此通过数据的异常程度来表示数据之间的相关性,其差异越小,说明该数据可能是相同类型的数据,因此其数据的相关性较大。/>表示第/>种数据与第/>种数据的平均幅值之间的差异,因为在计算数据之间的相关性时先对数据进行了归一化,因此当不同类型的数据之间存在波动变化,且其变化程度相近时,也就是的平均幅值的大小差异越小,说明其数据之间的相关性越大。/>表示第/>种数据与第/>种数据点幅值之间的差异,幅值之间差异表示了数据都出现波动时,其在相同时间点上的波动程度的差异,若两种数据本身就是具有相关关系的,那么其在相同的时间点上的都会出现数据的波动,因此其数据幅值之间的差异会较小,则这两种数据之间的相关性越大。
至此,得到任意两种数据之间的相关性。
步骤S003、根据所有数据之间的相关性进行聚类得到多个聚类簇,根据任意一个聚类簇中数据之间的相关性、数据的异常程度,得到任意一个聚类簇中任意一种数据作为主成分的可能程度,根据任意一个聚类簇中所有种数据作为主成分的可能程度得到任意一个聚类簇中数据作为主成分的影响值,根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到任意一个聚类簇的可能程度序列和聚类簇影响值序列,根据聚类簇的可能程度序列和聚类簇影响值序列得到降维后的数据。
需要说明的是,因为在对突发环境问题进行预警时,需要考虑各方面的原因,那么在进行数据降维时,所保留的数据直接关系到后续预警的准确性,而不同类型的数据表示在突发环境问题是不同的危险程度,因此数据降维后不但需要保留主要影响因素,还需要保留部分其他类型数据,这样才能综合数据变化来进行系统预警。
进一步需要说明的是,根据上述方法计算获得的两种数据之间的相关性,然后对数据进行聚类,因为数据之间的相关性大小可以在二维坐标系中进行表示,相关性越大,则点与点之间的距离应该越近,则需要对相关性取倒数,在进行聚类时,本实施例使用聚类算法对数据点进行聚类,预设聚类半径为TR,本实施例以TR=1.1,预设最小聚类数为TS,本实施例以TS=2,然后获得多个目标聚类簇。上述阈值为经验阈值,实施者可根据不同的实时环境自行设定。进而根据不同聚类簇中数据之间的相关性来确定主成分。
具体的,获取所有数据之间的相关性,将所有数据之间的相关性取倒数作为聚类距离,根据聚类距离利用聚类算法对所有数据进行聚类,得到多个聚类簇,需要说明的是,聚类簇中包含若干不同种类的数据。
进一步地,根据任意一个聚类簇中数据之间的相关性、数据的异常程度得到任意一个聚类簇中任意一种数据作为主成分的可能程度,具体如下:
式中,表示第/>个聚类簇中第/>种数据作为主成分的可能程度,/>表示第/>个聚类簇中第/>种数据与第/>种数据之间的相关性,/>表示第/>个聚类簇中数据种类的总个数,/>表示第/>种数据的异常程度。
需要说明的是,表示第/>个聚类簇中数据相关性的均值,其值越大,说明在该聚类簇中数据相关性都是比较大的,那么在对数据进行筛选时,就需要根据不同聚类簇中数据的相关性进行筛选。/>表示在第/>个聚类簇中第/>中数据与该聚类簇中其他数据的异常程度的比值,其比值越大,说明该种数据在该聚类簇所有数据中的变化程度越大,因此需要将其作为主成分数据。
进一步需要说明的是,根据上述计算获得的不同聚类簇中不同种数据作为主成分数据的可能程度,然后对数据进行判断。
具体的,根据任意一个聚类簇中所有种数据作为主成分的可能程度得到任意一个聚类簇中数据作为主成分的影响值,具体如下:
式中,表示第/>个聚类簇中数据作为主成分的影响值,/>表示第/>个聚类簇中第种数据作为主成分的可能程度,/>表示聚类簇的数量,/>表示第/>个聚类簇中数据种类的总个数。需要说明的是,其比值越大,说明第/>个聚类簇中数据的波动程度越大,因此其作为主成分的数据量越多。
进一步地,根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到任意一个聚类簇的可能程度序列和聚类簇影响值序列,根据聚类簇的可能程度序列和聚类簇影响值序列得到降维后的数据,具体如下:
将任意一个聚类簇中所有种数据作为主成分的可能程度按照从大到小的顺序排列,得到任意一个聚类簇的可能程度序列,将所有聚类簇中数据作为主成分的影响值按照从大到小的顺序进行排列,得到聚类簇影响值序列,对于聚类簇影响值序列中任意相邻两个聚类簇中数据作为主成分的影响值,分别记为和/>,若/>,/>为预设影响阈值,本实施例以/>进行叙述,则说明/>对应的聚类簇与/>对应的聚类簇之间的差异大,此时选择/>对应的聚类簇的可能程度序列中的前TH1种数据作为主成分数据,TH1为预设第一数量,本实施例以TH1=3进行叙述,若/>,说明聚类簇之间的数据差异不大,此时选择/>对应的聚类簇的可能程度序列中第一个数据作为主成分数据,以及/>对应的聚类簇的可能程度序列中第一个数据作为主成分数据,获取所有主成分数据,通过PCA算法对所有主成分数据进行降维,得到降维后的数据。需要说明的是,PCA算法为现有公知技术,本实施例不再进行赘述。
至此,得到降维后的数据。
步骤S004、根据降维后的数据进行预警。
需要说明的是,上述得到了降维后的数据,则可以根据降维后的数据来对突发的环境事件进行预警。
具体的,由于获得的不同类型的数据表示突发环境时间的过程不相同,主要分为两类,第一种是降维后的数据类型为目标污染物的监测数据,此时根据获得的监测数据来进行判断,预设污染物阈值,若降维后的数据中存在大于预设污染物阈值的数值时,存在污染物的泄露,此时进行预警。本实施例以预设污染物阈值为0.8进行叙述。
第二种是降维后的数据类型是环境监测数据和污染物数据同时存在,此时需要根据环境监测数据的变化与污染物数据的变化来进行预警,例如:发生污染物泄露后,风力越大,污染物的扩散程度越大,并且风向决定了污染物扩散的方向,此时就需要来根据实时监测的数据来预警污染物的扩散方向,从而提前疏通人流、车流等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于大数据分析的突发环境事件安全预警方法,其特征在于,该方法包括以下步骤:
获取环境监测数据和污染物数据,所述环境监测数据和污染物数据中都包含多种数据;
根据每种数据中极值点对应的幅值得到每种数据的异常程度,根据任意两种数据的异常程度的差异、任意两种数据对应数据点的幅值差异得到任意两种数据之间的相关性;
根据所有数据之间的相关性进行聚类得到多个聚类簇,根据任意一个聚类簇中数据之间的相关性、数据的异常程度,得到任意一个聚类簇中任意一种数据作为主成分的可能程度,根据任意一个聚类簇中所有种数据作为主成分的可能程度得到任意一个聚类簇中数据作为主成分的影响值,根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到任意一个聚类簇的可能程度序列和聚类簇影响值序列,根据聚类簇的可能程度序列和聚类簇影响值序列得到降维后的数据;
根据降维后的数据进行预警;
所述根据聚类簇的可能程度序列和聚类簇影响值序列得到降维后的数据,包括的具体步骤如下:
对于聚类簇影响值序列中任意相邻两个聚类簇中数据作为主成分的影响值,第一个聚类簇中数据作为主成分的影响值记为第二个聚类簇中数据作为主成分的影响值记为,若/>,/>为预设影响阈值,选择/>对应的聚类簇的可能程度序列中的前TH1种数据作为主成分数据,TH1为预设第一数量,若/>,选择/>对应的聚类簇的可能程度序列中第一个数据作为主成分数据,以及/>对应的聚类簇的可能程度序列中第一个数据作为主成分数据,获取所有主成分数据,通过PCA算法对所有主成分数据进行降维,得到降维后的数据。
2.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据每种数据中极值点对应的幅值得到每种数据的异常程度,包括的具体步骤如下:
获取每种数据中所有极大值点的最大幅值以及所有极小值点的最小幅值,将最大幅值与最小幅值的差异记为第一差异,根据每种数据中每一个极值点的幅值、第一差异,以及每种数据的平均幅值,得到每种数据的异常程度。
3.根据权利要求2所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据每种数据中每一个极值点的幅值、第一差异,数据的平均幅值,得到每种数据的异常程度,包括的具体步骤如下:
式中,表示第/>种数据中第/>个极值点的幅值,/>表示第/>种数据中所有极大值点中的最大幅值,/>表示第/>种数据中所有极小值点的最小幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示第/>种数据的平均幅值,/>表示第/>种数据中极值点的数量,/>表示数据中数据点的数量,/>表示线性归一化函数,/>表示第/>种数据的异常程度,为第一差异。
4.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据任意两种数据的异常程度的差异、任意两种数据对应数据点的幅值差异得到任意两种数据之间的相关性,包括的具体步骤如下:
式中,表示第/>种数据与第/>种数据之间的相关性,/>表示第/>种数据的异常程度,/>表示第/>种数据的异常程度,/>表示第/>种数据的平均幅值,/>表示第/>种数据的平均幅值,/>表示第/>种数据中第/>个数据点的幅值,/>表示第/>种数据中第/>个数据点的幅值,表示以自然常数为底的指数函数,/>表示数据中数据点的数量,/>为取绝对值。
5.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据所有数据之间的相关性进行聚类得到多个聚类簇,包括的具体步骤如下:
获取所有数据之间的相关性,将所有数据之间的相关性取倒数作为聚类距离,根据聚类距离利用聚类算法对所有数据进行聚类,得到多个聚类簇。
6.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据任意一个聚类簇中数据之间的相关性、数据的异常程度,得到任意一个聚类簇中任意一种数据作为主成分的可能程度,包括的具体步骤如下:
式中,表示第/>个聚类簇中第/>种数据作为主成分的可能程度,/>表示第/>个聚类簇中第/>种数据与第/>种数据之间的相关性,/>表示第/>个聚类簇中数据种类的总个数,/>表示第/>种数据的异常程度。
7.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据任意一个聚类簇中所有种数据作为主成分的可能程度得到任意一个聚类簇中数据作为主成分的影响值,包括的具体步骤如下:
式中,表示第/>个聚类簇中数据作为主成分的影响值,/>表示第/>个聚类簇中第/>种数据作为主成分的可能程度,/>表示聚类簇的数量,/>表示第/>个聚类簇中数据种类的总个数。
8.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据任意一个聚类簇中数据作为主成分的可能程度、所有聚类簇中数据作为主成分的影响值,得到任意一个聚类簇的可能程度序列和聚类簇影响值序列,包括的具体步骤如下:
将任意一个聚类簇中所有种数据作为主成分的可能程度按照从大到小的顺序排列,得到任意一个聚类簇的可能程度序列,将所有聚类簇中数据作为主成分的影响值按照从大到小的顺序进行排列,得到聚类簇影响值序列。
9.根据权利要求1所述一种基于大数据分析的突发环境事件安全预警方法,其特征在于,所述根据降维后的数据进行预警,包括的具体步骤如下:
降维后的数据类型为目标污染物的监测数据,所述目标污染物的监测数据为污染物数据中的一种数据,预设污染物阈值,若降维后的数据中存在大于预设污染物阈值的数值时,存在污染物的泄露,进行预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421959.8A CN117150283B (zh) | 2023-10-31 | 2023-10-31 | 一种基于大数据分析的突发环境事件安全预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421959.8A CN117150283B (zh) | 2023-10-31 | 2023-10-31 | 一种基于大数据分析的突发环境事件安全预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150283A CN117150283A (zh) | 2023-12-01 |
CN117150283B true CN117150283B (zh) | 2024-01-12 |
Family
ID=88912381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311421959.8A Active CN117150283B (zh) | 2023-10-31 | 2023-10-31 | 一种基于大数据分析的突发环境事件安全预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150283B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828379B (zh) * | 2024-03-05 | 2024-05-07 | 山东省地质测绘院 | 基于多源数据融合的地下资源探测方法 |
CN117851815B (zh) * | 2024-03-07 | 2024-05-10 | 哈能(浙江)电力科技有限公司 | 一种开关柜安全状态实时预警方法及系统 |
CN118356169B (zh) * | 2024-06-19 | 2024-08-27 | 济南宝林信息技术有限公司 | 一种医疗护理自动监测系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685140A (zh) * | 2018-12-25 | 2019-04-26 | 上海海事大学 | 一种基于主成分分析的dbscan算法岸桥状态分类方法 |
CN112818491A (zh) * | 2021-01-23 | 2021-05-18 | 西安交通大学 | 基于主成分分析和聚类算法的风电场聚合等值建模方法 |
CN115270986A (zh) * | 2022-08-08 | 2022-11-01 | 贵州电网有限责任公司电力科学研究院 | 数据异常检测方法、装置和计算机设备 |
CN115950557A (zh) * | 2023-03-08 | 2023-04-11 | 深圳市特安电子有限公司 | 一种基于压力变送器的温度智能补偿方法 |
CN116308963A (zh) * | 2023-05-19 | 2023-06-23 | 北京十环信息有限公司 | 一种政务数据分析方法及系统 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7533070B2 (en) * | 2006-05-30 | 2009-05-12 | Honeywell International Inc. | Automatic fault classification for model-based process monitoring |
US9514388B2 (en) * | 2008-08-12 | 2016-12-06 | Halliburton Energy Services, Inc. | Systems and methods employing cooperative optimization-based dimensionality reduction |
TWI706149B (zh) * | 2019-12-04 | 2020-10-01 | 財團法人資訊工業策進會 | 產生一馬達診斷模型的裝置及方法 |
-
2023
- 2023-10-31 CN CN202311421959.8A patent/CN117150283B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685140A (zh) * | 2018-12-25 | 2019-04-26 | 上海海事大学 | 一种基于主成分分析的dbscan算法岸桥状态分类方法 |
CN112818491A (zh) * | 2021-01-23 | 2021-05-18 | 西安交通大学 | 基于主成分分析和聚类算法的风电场聚合等值建模方法 |
CN115270986A (zh) * | 2022-08-08 | 2022-11-01 | 贵州电网有限责任公司电力科学研究院 | 数据异常检测方法、装置和计算机设备 |
CN115950557A (zh) * | 2023-03-08 | 2023-04-11 | 深圳市特安电子有限公司 | 一种基于压力变送器的温度智能补偿方法 |
CN116308963A (zh) * | 2023-05-19 | 2023-06-23 | 北京十环信息有限公司 | 一种政务数据分析方法及系统 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
Non-Patent Citations (4)
Title |
---|
Real time change point detection by incremental PCA in large scale sensor data;Dmitry Mishin et al;《IEEE Xplore》;1-6 * |
城市天气类型及其对污染物质量浓度的影响;贺广兴 等;《中南大学学报(自然科学版)》;第44卷(第02期);799-804 * |
基于大数据统计分析的全国PM2.5污染特征研究;任鹏举 等;《计算机与网络》(第14期);53 * |
广州市大气PM_(2.5)中元素特征及重金属健康风险评价;符小晴 等;《环境与健康杂志》(第02期);64-68 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150283A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117150283B (zh) | 一种基于大数据分析的突发环境事件安全预警方法 | |
Toth et al. | Probability and ensemble forecasts | |
CN111562108A (zh) | 一种基于cnn和fcmc的滚动轴承智能故障诊断方法 | |
CN112179691B (zh) | 基于对抗学习策略的机械装备运行状态异常检测系统和方法 | |
CN102736546A (zh) | 一种流程工业复杂机电系统的状态监测装置及方法 | |
CN114399719B (zh) | 一种变电站火灾视频监测方法 | |
CN106874686A (zh) | 指标关系网构建方法 | |
CN116308963B (zh) | 一种政务数据分析方法及系统 | |
CN117454283A (zh) | 一种用于风电机组运行检测数据的状态评估方法 | |
CN114217025A (zh) | 评估空气质量浓度预测中气象数据对其影响的分析方法 | |
CN114371677B (zh) | 基于谱半径-区间主成分分析的工业过程状态监测方法 | |
CN113672658B (zh) | 基于复相关系数的电力设备在线监测错误数据识别方法 | |
CN115994431A (zh) | 基于风险评价的氢气探测器空间布置方案优化方法及系统 | |
CN112397404B (zh) | 半导体制程检测方法及检测系统 | |
CN112763678A (zh) | 一种基于pca的污水处理过程监控方法及系统 | |
CN118413265B (zh) | 一种卫星在线状态监测系统及方法 | |
CN117906937B (zh) | 一种水压试验方法、试验系统及存储介质 | |
Puchalski et al. | Stable distributions, generalised entropy, and fractal diagnostic models of mechanical vibration signals | |
CN114003590B (zh) | 一种海洋浮标表层环境要素数据的质控方法 | |
CN113495550B (zh) | 一种基于黎曼度量的航天器故障检测方法 | |
CN117969769B (zh) | 基于传感技术的大气污染物含量监测方法 | |
CN113609207B (zh) | 一种边坡形变监测数据的数据预处理方法 | |
CN113945329B (zh) | 一种sf6气体泄漏缺陷研判方法及系统 | |
CN118200950B (zh) | 一种电信基站的巡检方法及系统 | |
Yao et al. | MTS-HMM for Rolling Bearing Health State Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |