CN117436005B - 一种环境空气自动监测过程中异常数据处理方法 - Google Patents
一种环境空气自动监测过程中异常数据处理方法 Download PDFInfo
- Publication number
- CN117436005B CN117436005B CN202311763182.3A CN202311763182A CN117436005B CN 117436005 B CN117436005 B CN 117436005B CN 202311763182 A CN202311763182 A CN 202311763182A CN 117436005 B CN117436005 B CN 117436005B
- Authority
- CN
- China
- Prior art keywords
- data point
- path
- data points
- weight value
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 66
- 238000012544 monitoring process Methods 0.000 title claims abstract description 22
- 239000012080 ambient air Substances 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 239000003550 marker Substances 0.000 claims abstract description 81
- 230000007613 environmental effect Effects 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 19
- 239000003570 air Substances 0.000 abstract description 10
- 238000011156 evaluation Methods 0.000 abstract description 3
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D21/00—Measuring or testing not otherwise provided for
- G01D21/02—Measuring two or more variables by means not covered by a single other subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
Abstract
本发明涉及数据异常检测技术领域,具体涉及一种环境空气自动监测过程中异常数据处理方法;根据孤立森林算法构建环境变化特征序列的孤立树模型;根据孤立树模型的孤立树结构特征获得数据点的路径权重值;根据路径权重值划分标记数据点和常规数据点;在环境变化特征序列中根据标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度;根据权重可信度获得修正路径权重值。本发明根据路径权重值和修正路径权重值获得加权路径长度;根据加权路径长度通过孤立森林算法获得异常数据点并对环境空气质量进行检测,提高了异常数据点的检测准确性以及环境质量的评估准确性。
Description
技术领域
本发明涉及数据异常检测技术领域,具体涉及一种环境空气自动监测过程中异常数据处理方法。
背景技术
随着城市化进程的加速和工业化的推进,环境污染问题引起了人们的关注;环境空气质量监测系统被广泛应用,自动监测设备大量部署于城市和工业区域,实时采集大量环境数据;并对环境数据进行分析检测,评估环境空气质量情况。
现有的异常检测方法通常为孤立森林算法,在孤立森林中构建多颗孤立树,通过计算所有孤立树的平均路径长度进而筛选异常数据点。但在孤立森林算法的计算机制中,只对于全局数据范围内明显的异常数据点有较好的检测效果;但对于局部范围内的异常数据,使得异常样本和正常样本所计算的路径长度相似,导致难以区分异常数据点。例如在实际的监测过程中,由于天气变化因素和其他干扰因素,使得异常样本和正常样本的数据特征相似,在算法中计算的路径长度接近,难以突出异常数据点的特征,造成异常数据点检测效果准确率低,使得对环境质量评估的准确性降低。
发明内容
为了解决上述通过孤立森林算法监测环境质量准确性低的技术问题,本发明的目的在于提供一种环境空气自动监测过程中异常数据处理方法,所采用的技术方案具体如下:
获取监测环境空气的环境变化特征序列;根据孤立森林算法构建所述环境变化特征序列中数据点的孤立树模型;
根据数据点在所述孤立树模型中的任意叶节点所对应的父节点的孤立树结构特征获得数据点的路径子权重值;根据数据点的所述路径子权重值获得路径权重值;根据所述路径权重值划分标记数据点和常规数据点;
在所述环境变化特征序列中根据所述标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度;根据所述权重可信度对标记数据点的路径权重值进行修正获得修正路径权重值;根据所述常规数据点的路径权重值和所述标记数据点的修正路径权重值获得加权路径长度;
根据所述加权路径长度通过孤立森林算法获得异常数据点;根据异常数据点对环境空气质量进行检测。
进一步地,所述根据数据点在所述孤立树模型中的任意叶节点所对应的父节点的孤立树结构特征获得数据点的路径子权重值的步骤包括:
计算所述任意叶节点所对应的父节点包含的叶节点与所述父节点所在孤立树内包含的叶节点的数量比值,获得所述数据点的路径子权重值。
进一步地,所述根据数据点的所述路径子权重值获得路径权重值的步骤包括:
计算所述数据点在所有孤立树的所述路径子权重值的平均值,获得所述数据点的路径权重值。
进一步地,所述根据所述路径权重值划分标记数据点和常规数据点的步骤包括:
当数据点的所述路径权重值超过预设权重阈值时,所述数据点为所述标记数据点,否则为所述常规数据点。
进一步地,所述在所述环境变化特征序列中根据所述标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度的步骤包括:
在所述环境变化特征序列中的任意环境特征下计算所述标记数据点的预设关联范围内其他数据点的方差,获得标记数据点的子可信度;计算标记数据点在所有环境特征下的所述子可信度的平均值,获得所述标记数据点的权重可信度。
进一步地,所述根据所述权重可信度对标记数据点的路径权重值进行修正获得修正路径权重值的步骤包括:
当标记数据点的权重可信度超过预设可信阈值时,将所述标记数据点的路径权重值作为所述标记数据点的修正路径权重值;当标记数据点的权重可信度不超过预设可信阈值时,将所述预设权重阈值作为所述标记数据点的修正路径权重值。
进一步地,所述根据所述常规数据点的路径权重值和所述标记数据点的修正路径权重值获得加权路径长度的步骤包括:
根据所述孤立树模型分别获得常规数据点和标记数据点的平均路径长度;
计算预设第一常数与常规数据点的所述路径权重值的差值,获得常规数据点的权重系数;计算所述权重系数与所述常规数据点的平均路径长度的乘积;获得常规数据点的所述加权路径长度;
计算预设第一常数与标记数据点的所述修正路径权重值的差值,获得标记数据点的修正权重系数;计算所述修正权重系数与所述标记数据点的平均路径长度的乘积,获得标记数据点的所述加权路径长度。
进一步地,所述根据所述加权路径长度通过孤立森林算法获得异常数据点的步骤包括:
根据常规数据点和标记数据点二者的加权路径长度通过孤立森林算法获得每个数据点的异常分数;将所述异常分数超过预设异常阈值的数据点作为异常数据点。
本发明具有如下有益效果:
在本发明实施例中,构建孤立树模型能够确定不同数据点在孤立树中的分布特征,从而能够根据异常数据点和正常数据点在孤立树模型中的结构分布的差异特征获得不同数据点的路径权重值,进而可根据路径权重值对路径权重进行加权,提高异常数据点和正常数据点之间的路径长度的差异,提高异常数据点的检测准确性。获得标记数据点和常规数据点能够区分正常数据点和可能异常的数据点,单独对可能异常的标记数据点进行分析能够减少大量计算量。获得权重可信度能够根据异常数据和噪声数据在环境变化特征序列中的分布特征对标记数据点的路径权重值进行修正;提高路径权重值的准确性;同时减少噪声数据被误认为异常数据的概率,提高异常检测的准确性。获得加权路径长度能够增加不同数据点之间的路径长度差异,进而更准确地获得异常数据点,避免异常数据点和正常数据点之间的路径长度相似导致异常检测准确性降低的问题,最终根据加权路径长度获得异常数据点提高了异常数据点的检测准确性以及环境质量的评估准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种环境空气自动监测过程中异常数据处理方法流程图;
图2为本发明一个实施例所提供的一种局部孤立树模型示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种环境空气自动监测过程中异常数据处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种环境空气自动监测过程中异常数据处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种环境空气自动监测过程中异常数据处理方法流程图,该方法包括以下步骤:
步骤S1,获取监测环境空气的环境变化特征序列;根据孤立森林算法构建环境变化特征序列中数据点的孤立树模型。
在本发明实施例中,实施场景为对环境空气的质量监测;首先获取监测环境空气的环境变化特征序列,环境空气监测通常覆盖多个维度的环境特征,例如颗粒物浓度,通过颗粒物传感器采集;气体浓度,包括二氧化硫、臭氧等,通过气体传感器进行采集;温度和湿度,通过温湿度传感器采集。本发明实施例通过采集颗粒物浓度、二氧化硫、臭氧、温度和湿度共五个维度的环境特征时序数据,并构建五维的环境变化特征序列,每个维度的数据采集频率相同;在环境变化特征序列中每个数据点对应五个维度的环境特征数据;需要说明的是,实施者可根据实施场景自行确定环境变化特征序列中包含的环境特征以及采集频率。
进一步地,因现有的孤立森林算法对环境变化特征序列中异常数据点的检测准确率不高,导致环境空气监测容易出现误差,因此需要对孤立森林算法进行改进,提高异常数据点的检测准确性。在孤立森林中异常样本和正常样本的路径长度可能出现相似的情况,导致异常数据点的检测准确性低,故需要对不同数据点的路径长度根据实际场景进行赋予不同的权重,增加路径长度之间的差异,提高检测准确性。
首先,根据孤立森林算法构建环境变化特征序列中数据点的孤立树模型,该孤立树模型指在每个环境特征下对环境变化特征序列中的数据点构建孤立树并组成孤立森林,如图2示出了一种局部孤立树模型示意图,该图表示了一个环境特征下的部分数据点的切分过程。
步骤S2,根据数据点在孤立树模型中的任意叶节点所对应的父节点的孤立树结构特征获得数据点的路径子权重值;根据数据点的路径子权重值获得路径权重值;根据路径权重值划分标记数据点和常规数据点。
根据孤立树模型和图2中的局部孤立树模型示意图可知,由于异常数据和正常数据存在差异,故在构建孤立树的过程中,异常数据能够提前被区分出来,异常数据通常处于孤立树的浅层,即异常数据点更靠近根节点;因此异常数据点对应的父节点所包括的孤立树分支较大较长,而正常数据远离根节点,正常数据点的父节点包括的孤立树分支较小。因此可基于孤立树模型中不同数据点对应的父节点的孤立树分支结构获得该数据点的路径长度的权重,进而增加路径长度的差异;故根据数据点在孤立树模型中的任意叶节点所对应的父节点的孤立树结构特征获得数据点的路径子权重值;根据数据点的路径子权重值获得路径权重值。
优选地,在本发明一个实施例中,获取数据点的路径权重值包括:计算数据点在孤立树模型中的任意叶节点所对应的父节点包含的叶节点与该父节点所在孤立树内包含的叶节点的数量比值,获得数据点的路径子权重值。因为一个数据点包括不同环境特征的数据,每个环境特征都会构建一个孤立树模型,故该任意叶节点指该数据点在任意环境特征下构建的孤立树中的一个叶节点。父节点包含的叶节点指该父节点下的孤立树分支中所有的叶节点,在图2中,异常数据点的父节点包含的叶节点的数量明显多于正常数据点的父节点包含的叶节点数量;父节点所在孤立树内包含的叶节点指该环境特征下的孤立树中所有叶节点的数量。故当该数据点为异常数据点,其父节点包含的叶节点的数量越多,该数据点对应的路径子权重值越大;反之当该数据点为正常数据点,其父节点包含的叶节点的数量越少,对应的路径子权重值越小。计算该数据点在所有孤立树的路径子权重值的平均值,即在每个环境特征下的路径子权重值的平均值,获得该数据点的路径权重值;当路径权重值越大,该数据点越可能为异常数据点。获取数据点的路径权重值的公式包括:
式中,表示数据点的路径权重值;/>表示孤立树模型中孤立树的数量,/>表示第/>颗孤立树中该数据点的父节点包含的叶节点的数量,/>表示第/>颗孤立树中该数据点的父节点所在孤立树内包含的叶节点的数量;/>表示数据点的路径子权重值。
当数据点的路径权重值越大,意味着该数据点越有可能为异常数据点;但在实际场景中,可能由于天气变化因素或其他干扰因素导致出现噪声数据,使得噪声数据的路径权重值较大。为了提高异常数据点的检测准确度,需要对路径权重值的可信度进行分析,由于对所有数据点进行路径权重的可信度分析导致计算量过大,故可根据路径权重值划分标记数据点和常规数据点;具体包括:当数据点的路径权重值超过预设权重阈值时,该数据点为标记数据点,否则为常规数据点,标记数据点指异常程度较大的数据点;在本发明实施例中,预设权重阈值为0.4,实施者可根据实施场景自行确定。
步骤S3,在环境变化特征序列中根据标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度;根据权重可信度对标记数据点的路径权重值进行修正获得修正路径权重值;根据常规数据点的路径权重值和标记数据点的修正路径权重值获得加权路径长度。
由于噪声数据的出现较为随机,而异常数据通常是在一段时间范围内高频出现,该时间范围内数据的波动特征较为明显,故可在环境变化特征序列中根据标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度,具体包括:在环境变化特征序列中的任意环境特征下计算标记数据点的预设关联范围内其他数据点的方差并归一化,获得标记数据点的子可信度;当任意环境特征下的标记数据点的邻域范围内其他数据点的波动特征越大,方差越大,则该标记数据点越可能为异常数据点,对应的路径权重值的可信度越大;在本发明实施例中,预设关联范围指在该任意环境特征下以该标记数据点为窗口中心,序列长度为11的窗口范围,若该标记数据点在序列边缘,则以该标记数据点最接近窗口中心的区域作为预设关联范围,实施者可根据实施场景自行确定。计算标记数据点在所有环境特征下的子可信度的平均值,获得标记数据点的权重可信度;当权重可信度越大,则该标记数据点为异常数据点的可能性越大,其路径权重值的准确性越高。获取权重可信度的公式包括:
式中,表示标记数据点的权重可信度,/>表示环境特征的数量,/>表示该标记数据点在第/>个环境特征下的子可信度,/>表示归一化函数。
进一步地,获得标记数据点的权重可信度后,可根据权重可信度对标记数据点的路径权重值进行修正获得修正路径权重值,具体包括:当标记数据点的权重可信度超过预设可信阈值时,此时意味着该路径权重值的准确性较高,该标记数据点为异常数据的可能性较大,不需要对路径权重值进行修改,将该标记数据点的路径权重值作为该标记数据点的修正路径权重值。当标记数据点的权重可信度不超过预设可信阈值时,此时意味着该标记数据点为异常数据点的可能性较小,该路径权重值的准确性较低,需要降低该标记数据点的路径权重值,将预设权重阈值作为该标记数据点的修正路径权重值,在本发明实施例中,预设可信阈值为0.6,实施者可根据实施场景自行确定。
获得标记数据点的修正路径权重值和常规数据点的路径权重值后,可根据常规数据点的路径权重值和标记数据点的修正路径权重值获得加权路径长度,具体包括:根据孤立树模型分别获得常规数据点和标记数据点的平均路径长度;需要说明的是,通过孤立森林算法计算平均路径长度的步骤属于现有技术,具体步骤不再赘述。计算预设第一常数与常规数据点的路径权重值的差值,获得常规数据点的权重系数;计算权重系数与常规数据点的平均路径长度的乘积;获得常规数据点的加权路径长度;计算预设第一常数与标记数据点的修正路径权重值的差值,获得标记数据点的修正权重系数;计算修正权重系数与标记数据点的平均路径长度的乘积,获得标记数据点的加权路径长度。在本发明实施例中,预设第一常数为1,实施者可根据实施场景自行确定。通过对不同数据点进行赋予不同的路径权重后,将不同数据点的加权路径长度之间的差异增大,使得异常数据点比正常数据点的加权路径长度更短,避免异常数据和正常数据的路径长度相似的问题,同时降低了噪声数据点被误认为异常数据点的情况,提高异常检测的准确性。
步骤S4,根据加权路径长度通过孤立森林算法获得异常数据点;根据异常数据点对环境空气质量进行检测。
获得不同数据点的加权路径长度后,可根据加权路径长度通过孤立森林算法获得异常数据点,具体包括:根据常规数据点和标记数据点二者的加权路径长度通过孤立森林算法获得每个数据点的异常分数;将异常分数超过预设异常阈值的数据点作为异常数据点,需要说明的是,通过孤立森林算法计算异常分数属于现有技术,具体计算步骤不再赘述,当加权路径长度越短,异常分数越大;实施者可根据实施场景自行确定预设异常阈值。获得环境变化特征序列中的异常数据点后,可根据异常数据点对环境空气质量进行检测,例如通过异常数据点的出现频率,评估环境空气质量等级;实施者也可根据实施场景自行确定检测方法,在此不做限定。至此,通过对孤立森林中数据点的路径长度进行加权,增加异常样本和正常样本之间的路径长度差异,同时减少噪声数据点被误认为噪声数据点的概率,提高了异常数据点的检测准确性,最终提高了判断环境空气质量的准确性。
综上所述,本发明实施例提供了一种环境空气自动监测过程中异常数据处理方法;根据孤立森林算法构建环境变化特征序列的孤立树模型;根据孤立树模型的孤立树结构特征获得数据点的路径权重值;根据路径权重值划分标记数据点和常规数据点;在环境变化特征序列中根据标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度;根据权重可信度获得修正路径权重值。本发明根据路径权重值和修正路径权重值获得加权路径长度;根据加权路径长度通过孤立森林算法获得异常数据点并对环境空气质量进行检测,提高了异常数据点的检测准确性以及环境质量的评估准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (2)
1.一种环境空气自动监测过程中异常数据处理方法,其特征在于,所述方法包括以下步骤:
获取监测环境空气的环境变化特征序列;根据孤立森林算法构建所述环境变化特征序列中数据点的孤立树模型;
根据数据点在所述孤立树模型中的任意叶节点所对应的父节点的孤立树结构特征获得数据点的路径子权重值;根据数据点的所述路径子权重值获得路径权重值;根据所述路径权重值划分标记数据点和常规数据点;
在所述环境变化特征序列中根据所述标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度;根据所述权重可信度对标记数据点的路径权重值进行修正获得修正路径权重值;根据所述常规数据点的路径权重值和所述标记数据点的修正路径权重值获得加权路径长度;
根据所述加权路径长度通过孤立森林算法获得异常数据点;根据异常数据点对环境空气质量进行检测;
所述根据数据点在所述孤立树模型中的任意叶节点所对应的父节点的孤立树结构特征获得数据点的路径子权重值的步骤包括:
计算所述任意叶节点所对应的父节点包含的叶节点与所述父节点所在孤立树内包含的叶节点的数量比值,获得所述数据点的路径子权重值;
所述根据数据点的所述路径子权重值获得路径权重值的步骤包括:
计算所述数据点在所有孤立树的所述路径子权重值的平均值,获得所述数据点的路径权重值;
所述根据所述路径权重值划分标记数据点和常规数据点的步骤包括:
当数据点的所述路径权重值超过预设权重阈值时,所述数据点为所述标记数据点,否则为所述常规数据点;
所述在所述环境变化特征序列中根据所述标记数据点的预设关联范围内其他数据点的波动特征获得权重可信度的步骤包括:
在所述环境变化特征序列中的任意环境特征下计算所述标记数据点的预设关联范围内其他数据点的方差,获得标记数据点的子可信度;计算标记数据点在所有环境特征下的所述子可信度的平均值,获得所述标记数据点的权重可信度;
所述根据所述权重可信度对标记数据点的路径权重值进行修正获得修正路径权重值的步骤包括:
当标记数据点的权重可信度超过预设可信阈值时,将所述标记数据点的路径权重值作为所述标记数据点的修正路径权重值;当标记数据点的权重可信度不超过预设可信阈值时,将所述预设权重阈值作为所述标记数据点的修正路径权重值;
所述根据所述常规数据点的路径权重值和所述标记数据点的修正路径权重值获得加权路径长度的步骤包括:
根据所述孤立树模型分别获得常规数据点和标记数据点的平均路径长度;
计算预设第一常数与常规数据点的所述路径权重值的差值,获得常规数据点的权重系数;计算所述权重系数与所述常规数据点的平均路径长度的乘积;获得常规数据点的所述加权路径长度;
计算预设第一常数与标记数据点的所述修正路径权重值的差值,获得标记数据点的修正权重系数;计算所述修正权重系数与所述标记数据点的平均路径长度的乘积,获得标记数据点的所述加权路径长度。
2.根据权利要求1所述的一种环境空气自动监测过程中异常数据处理方法,其特征在于,所述根据所述加权路径长度通过孤立森林算法获得异常数据点的步骤包括:
根据常规数据点和标记数据点二者的加权路径长度通过孤立森林算法获得每个数据点的异常分数;将所述异常分数超过预设异常阈值的数据点作为异常数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311763182.3A CN117436005B (zh) | 2023-12-21 | 2023-12-21 | 一种环境空气自动监测过程中异常数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311763182.3A CN117436005B (zh) | 2023-12-21 | 2023-12-21 | 一种环境空气自动监测过程中异常数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117436005A CN117436005A (zh) | 2024-01-23 |
CN117436005B true CN117436005B (zh) | 2024-03-15 |
Family
ID=89558587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311763182.3A Active CN117436005B (zh) | 2023-12-21 | 2023-12-21 | 一种环境空气自动监测过程中异常数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436005B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688500A (zh) * | 2024-02-02 | 2024-03-12 | 山东万洋石油科技有限公司 | 一种三维电阻率异常数据提取方法 |
CN117828282A (zh) * | 2024-03-06 | 2024-04-05 | 山东泰霖信息工程有限公司 | 一种基于自适应滤波的数据高效处理方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN108921440A (zh) * | 2018-07-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 污染物异常监测方法、系统、计算机设备和存储介质 |
US10902062B1 (en) * | 2017-08-24 | 2021-01-26 | Amazon Technologies, Inc. | Artificial intelligence system providing dimension-level anomaly score attributions for streaming data |
CN112633395A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN115577275A (zh) * | 2022-11-11 | 2023-01-06 | 山东产业技术研究院智能计算研究院 | 一种基于lof和孤立森林的时序数据异常监测系统及方法 |
CN115994629A (zh) * | 2023-03-23 | 2023-04-21 | 南京信息工程大学 | 一种基于gn-rbf的空气湿度预测方法及系统 |
CN116861354A (zh) * | 2023-07-17 | 2023-10-10 | 国家电网有限公司华北分部 | 电力变压器监测数据的异常识别及模式区分方法及系统 |
CN117148194A (zh) * | 2023-08-14 | 2023-12-01 | 上海砺群科技有限公司 | 一种电动汽车电池组故障探测方法及系统 |
CN117194920A (zh) * | 2023-09-06 | 2023-12-08 | 万仁企业管理技术(深圳)有限公司 | 一种基于大数据分析的数据系统处理平台及处理方法 |
CN117235632A (zh) * | 2023-08-15 | 2023-12-15 | 中国长江电力股份有限公司 | 一种大型蒸发传感器水位异常数据检测方法 |
CN117238058A (zh) * | 2023-11-10 | 2023-12-15 | 无锡明诚汽车部件有限公司 | 基于数据分析的汽车用起动机监测方法 |
CN117235647A (zh) * | 2023-11-03 | 2023-12-15 | 中色紫金地质勘查(北京)有限责任公司 | 基于边缘计算的矿产资源勘查业务hse数据管理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11436507B2 (en) * | 2019-11-21 | 2022-09-06 | International Business Machines Corporation | Normalizing weights of weighted tree leaf nodes |
-
2023
- 2023-12-21 CN CN202311763182.3A patent/CN117436005B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902062B1 (en) * | 2017-08-24 | 2021-01-26 | Amazon Technologies, Inc. | Artificial intelligence system providing dimension-level anomaly score attributions for streaming data |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN108921440A (zh) * | 2018-07-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 污染物异常监测方法、系统、计算机设备和存储介质 |
CN112633395A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 异常数据的检测方法、装置、计算机设备和存储介质 |
CN115577275A (zh) * | 2022-11-11 | 2023-01-06 | 山东产业技术研究院智能计算研究院 | 一种基于lof和孤立森林的时序数据异常监测系统及方法 |
CN115994629A (zh) * | 2023-03-23 | 2023-04-21 | 南京信息工程大学 | 一种基于gn-rbf的空气湿度预测方法及系统 |
CN116861354A (zh) * | 2023-07-17 | 2023-10-10 | 国家电网有限公司华北分部 | 电力变压器监测数据的异常识别及模式区分方法及系统 |
CN117148194A (zh) * | 2023-08-14 | 2023-12-01 | 上海砺群科技有限公司 | 一种电动汽车电池组故障探测方法及系统 |
CN117235632A (zh) * | 2023-08-15 | 2023-12-15 | 中国长江电力股份有限公司 | 一种大型蒸发传感器水位异常数据检测方法 |
CN117194920A (zh) * | 2023-09-06 | 2023-12-08 | 万仁企业管理技术(深圳)有限公司 | 一种基于大数据分析的数据系统处理平台及处理方法 |
CN117235647A (zh) * | 2023-11-03 | 2023-12-15 | 中色紫金地质勘查(北京)有限责任公司 | 基于边缘计算的矿产资源勘查业务hse数据管理方法 |
CN117238058A (zh) * | 2023-11-10 | 2023-12-15 | 无锡明诚汽车部件有限公司 | 基于数据分析的汽车用起动机监测方法 |
Non-Patent Citations (4)
Title |
---|
Shaozhi Chen.A Random Forest and Model-Based Hybrid Method of Fault Diagnosis for Satellite Attitude Control Systems.《IEEE Transactions on Instrumentation and Measurement》.2023,第72卷1-13. * |
张郁.基于异常检测的防盗链的应用研究.《万方学位导航》.2023,1-61. * |
艾鑫等.基于iForest-Adaboost的核电厂一回路故障诊断技术研究.《核动力工程》.2020,第41卷(第03期),208-213. * |
赵臣啸等.基于孤立森林算法的取用水量异常数据检测方法.《中国水利水电科学研究院学报》.2020,第18卷(第01期),31-39. * |
Also Published As
Publication number | Publication date |
---|---|
CN117436005A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117436005B (zh) | 一种环境空气自动监测过程中异常数据处理方法 | |
WO2017036363A1 (zh) | 光纤周界入侵信号的识别方法、装置及周界入侵报警系统 | |
CN117238058B (zh) | 基于数据分析的汽车用起动机监测方法 | |
CN110087207B (zh) | 无线传感器网络缺失数据重建方法 | |
CN111931601B (zh) | 齿轮箱错误类别标签修正系统及方法 | |
Mechefske et al. | Fault detection and diagnosis in low speed rolling element bearings Part II: The use of nearest neighbour classification | |
CN110888186A (zh) | 基于gbdt+lr模型的冰雹和短时强降水预报方法 | |
CN113526282B (zh) | 一种电梯中长期老化故障诊断方法、装置、介质和设备 | |
CN112978128B (zh) | 基于大数据和图像分析技术的冷链物流运输商品品质监测管理系统 | |
CN110830946A (zh) | 混合型在线数据异常检测方法 | |
CN114841920A (zh) | 基于图像处理的火焰识别方法、装置及电子设备 | |
CN113887324A (zh) | 基于卫星遥感数据的火点检测方法 | |
CN114355298B (zh) | 一种雷达复合调制脉冲信号识别方法 | |
CN115598738A (zh) | 一种冰雹预警方法和装置 | |
CN116308963A (zh) | 一种政务数据分析方法及系统 | |
CN110995713A (zh) | 一种基于卷积神经网络的僵尸网络检测系统及方法 | |
CN114330120A (zh) | 一种基于深度神经网络预测24小时pm2.5浓度的方法 | |
CN113515678A (zh) | 一种异常数据筛选方法 | |
CN113515450A (zh) | 一种环境异常检测方法和系统 | |
CN117150283A (zh) | 一种基于大数据分析的突发环境事件安全预警方法 | |
CN109740118B (zh) | 一种质量控制方法、装置、设备及存储介质 | |
CN117235632A (zh) | 一种大型蒸发传感器水位异常数据检测方法 | |
CN111860688B (zh) | 一种目标类型识别方法、系统及电子设备 | |
CN111025288A (zh) | 安防雷达监测装置及系统 | |
CN115236676B (zh) | 一种基于滑动时空匹配的冰雹数据集生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |