CN113627322A - 一种用于剔除异常点的方法、系统及电子设备 - Google Patents
一种用于剔除异常点的方法、系统及电子设备 Download PDFInfo
- Publication number
- CN113627322A CN113627322A CN202110908266.6A CN202110908266A CN113627322A CN 113627322 A CN113627322 A CN 113627322A CN 202110908266 A CN202110908266 A CN 202110908266A CN 113627322 A CN113627322 A CN 113627322A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- dimensional
- confidence
- water quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005070 sampling Methods 0.000 claims abstract description 146
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 95
- 238000010586 diagram Methods 0.000 claims abstract description 53
- 210000000746 body region Anatomy 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 117
- 239000013598 vector Substances 0.000 claims description 29
- 238000012544 monitoring process Methods 0.000 claims description 24
- 239000000126 substance Substances 0.000 claims description 12
- 238000002310 reflectometry Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种用于剔除异常点的方法、系统及电子设备,包括:获取监测水体区域采样点的水质参数和多光谱遥感数据;对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;基于所述二维平面散点图绘制置信区间;若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常数据并将所述异常数据剔除。本发明利用二维降维的思想设置置信椭圆剔除异常数据,在信息损失尽可能少的情况下,降低数据维度,在新的数据维度上,使它们反映事物的主要特征。
Description
技术领域
本发明涉及数据监测技术领域,具体为一种用于剔除异常点的方法、系统及电子设备。
背景技术
随着水污染问题的日益严重,水质监测成为社会经济可持续发展必须解决的重大问题,尤其是内陆水体,其水质已经对国民的生产和生活用水安全产生威胁,实现对内陆水质准确、快速监测对保障国民用水安全具有重要意义。常规水质监测多采用实验室分析手段,虽然监测精度高,但费时、费力且只能获取监测断面上水质状况,难以满足对水质进行大范围、多时相动态监测的需求;遥感技术作为一种区域性监测手段,可克服常规水质监测方法的不足。
随着遥感技术的不断发展,遥感技术应用于水质监测的研究越来越多,反演模型的精度要求越来越高。但在水体样本的采集、处理、保存和分析都会带来不同程度的误差,特别是人为测量的误差会影响到后期的数据分析和建模;无人机获取的多光谱数据,由于仪器噪声、外界环境干扰、操作不当及其他偶发因素的影响,采集到的光谱数据中往往存在异常数据;获得的多光谱数据进行影像拼接时,由于水体特征点选取的错误,有时会发生拼接错误;对于这些带有前处理和测试误差的样本,称为异常点,如果直接使用这些异常点进行建模分析,势必会影响模型的准确性和稳定性。因此,有必要识别出异常数据并将其剔除,以减少其对后续研究的影响并获得更为准确的反演模型。
目前样本化学属性异常数据的鉴别方法主要有:标准偏差法、马氏距离法、箱线图法,光谱数据异常数据剔除方法有主成分分析法。其中样本化学属性异常数据鉴别方法中除了箱线图法,其它两种方法(如标准偏差法、马氏距离法)均在实际应用中只考虑一组具有近似于正态分布的概率分布的数据,但在实际采样中,样本数量及属性无法保证该组数据符合正态分布,因此该种方法在非正态分布中判断异常数据具有局限性;而箱线图法的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,不对数据做任何限制性要求,从而直观地表现数据形状的本来面貌,客观展现异常数据分布,但箱线图每次只能展示一组化学属性的异常数据分布,由于内陆水环境的复杂性,一组化学属性往往不能代表研究水体的特性,不能综合考虑化学属性和光学参数,在异常数据的选取上有一定的局限性。已有的主成分分析法汇总所有数据进行检验,如果在该汇总数据中,其中一组数据有特殊的化学组分结构,明显区别于其他组数据,将会对该组数据进行错误剔除,即会把正常的数据也会一起剔除。
发明内容
本发明的目的在于克服现有的水质监测方法效果不好的问题,提供了一种用于剔除异常点的方法、系统及电子设备。
为了实现上述目的,本发明提供一种用于剔除异常点的方法,包括:获取水体监测区域内采样点的水质参数和多光谱遥感数据;对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;基于所述二维平面散点图绘制置信区间;若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除。
作为一种可实施方式,获取水体监测区域内采样点的水质参数和多光谱遥感数据具体包括:获取不同时间段内多条河流区域的多个采样点,每个所述采样点的样本数据都包括水质实测浓度和多光谱遥感反射率数据。
作为一种可实施方式,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图,基于所述二维平面散点图绘制置信区间,若所述二维平面散点图的采样点位于所述置信区间之外,则将该所述采样点判定为异常点并将所述异常点剔除的步骤具体包括:
将在同一个时间段内的同一条河流区域获取的所述采样点分为一组,得到多组样本数据,即同一组的所述样本数据包括在同一个时间段内的同一条河流区域获取的所述采样点的水质参数和多光谱遥感数据,不同组的所述样本数据分别是在不同时间段内或不同河流区域内获取的所述采样点的水质参数和多光谱遥感数据;分别对每一组所述样本数据进行二维降维,生成对应每一组所述样本数据的二维平面散点图,针对不同的所述二维平面散点图,分别绘制相对应的置信区间;分别对每组所述样本数据进行异常值的判断,若与每组所述样本数据相对应的所述二维平面散点图的采样点位于与该所述二维平面散点图相对应的所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,得到与多组所述样本数据相对应的多个判断结果。
作为一种可实施方式,利用主成分分析PCA原理进行二维降维,包括如下计算步骤:对原始矩阵Z进行数据中心化,根据数据中心化后的矩阵Z’计算样本矩阵的协方差矩阵D(Z’),对所述协方差矩阵D(Z’)进行特征值分解得到特征向量矩阵W,根据特征向量矩阵W得到二维平面散点图。
作为一种可实施方式,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图的步骤具体包括:
获取m行n列以矩阵形式排列的原始数据,所述原始数据包括:m个所述采样点的样本数据Zi,所述样本数据Zi包括n个所述水质参数Xi和n个所述多光谱遥感数据Yi,n个所述水质实测浓度 表示第i个采样点的第j个所述水质参数,n个所述多光谱遥感反射率数据 表示第i个采样点的第j个所述多光谱遥感反射率数据,i=1、2、3、…、m,j=1、2、3、…、n;将水质实测浓度和所述多光谱遥感反射率数据合并为一组,得到得到所述样本数据 得到所述原始矩阵其中,表示所述原始矩阵Z的第i行第j列;
对所述原始矩阵Z进行数据中心化,经预处理的水质实测浓度和多光谱反射率数据统一归一化到0-1之间,即式中,i=1、2、3、…、m,k=1、2、…、m,j=1、2、3、…、n,表示所述原始矩阵Z的第i行第j列,表示所述原始矩阵Z的第k行第j列,得到矩阵表示经数据中心化后的所述矩阵Z’的第i行第j列,;
求解所述协方差矩阵D(Z’)的特征值λi,i=1、2、…、n,求解公式为:
式中,E表示单位矩阵,λE表示n阶单位矩阵的λ倍,|D(Z’)-λE|表示所述协方差矩阵D(Z’)的特征多项式,λ1、λ2、λ3、…、λn分别表示特征向量对应的特征值,将最大的两个特征值分别定义为λmax1、λmax2;
求解所述协方差矩阵D(Z’)的特征向量矩阵W,求取特征向量Wi,i=1、2、…、n、求解公式为:
将所述特征值λmax1、λmax2对应的特征向量分别命名为Wmax1、Wmax2,组成特征向量矩阵W’(Wmax1,Wmax2),将所述特征向量矩阵W’的所述特征向量Wmax1、Wmax2标准化后,得到特征向量矩阵W;
将所述特征向量矩阵W进行转置得到特征向量矩阵WT后,根据所述特征向量矩阵WT和所述原始矩阵Z得到二维降维后的矩阵B,即所述矩阵 根据所述矩阵B绘制二维平面散点图;其中,表示所述矩阵B的第i行第j列,i=1、2、…、m,m表示采样点的个数,j=1、2,表示每个所述采样点有2个变量,第一个变量为二维降维后的第一主成分的值,第二变量为二维降维后的第二主成分的值,以第一主成分为横轴,第二主成分为纵轴绘制二维平面散点图。
作为一种可实施方式,基于所述二维平面散点图,绘制置信区间;若二维降维后的所述采样点位于置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,具体包括:
所述置信区间为置信椭圆,所述置信椭圆的置信度为95%,所述置信椭圆的标准方程为:其中,a表示所述置信椭圆的半长轴,b表示所述置信区间的半短轴,x表示所述二维降维后的第一主成分的值,y表示所述二维降维后的第二主成分的值;
通过查询卡方分布的卡方表,得到:P(S<5.991)=1-0.05=0.95,其中,S=5.991即为95%置信区间,表示有一组数据,其x方向方差为σx,y方向方差为σy时,如果S=5.991,那么95%的采样点在所述置信椭圆内,得到所述置信椭圆的所述长轴所述短轴因此,当将采样点的x,y值带入公式,若所述采样点在95%的置信椭圆内,判定为正常点,当所述采样点落在95%置信椭圆之外,判定为异常点;
根据所述协方差矩阵D(Z’)得到的特征值代表特征向量方向上数据的方差,以及在所述误差椭圆(即协方差等于零)的情况下,所述特征值等于协方差矩阵的方差,所述特征向量等于x轴和y轴的定义,因此根据所述协方差矩阵D(Z’)计算得到的所述特征向量Wmax1,Wmax2和所述特征值λmax1、λmax2,定义所述置信椭圆长轴方向的特征向量为Wmax1,所述置信椭圆短轴方向的特征向量为Wmax2,定义所述置信椭圆长轴方向的特征值为λmax1,所述置信椭圆短轴方向的特征值为λmax2,得到x方向方差y方向方差此时,所述置信椭圆的长轴短轴
相应的,本发明还提供一种水体监测方法,包括:获取监测水体区域的采样点的水质参数和多光谱遥感数据;对所述水质参数和所述多光谱遥感数据进行二维降维,生成二维平面散点图;基于所述二维平面散点图的所述采样点,绘制置信区间;若所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除;根据剔除所述异常点后得到的所述采样点的水质参数和多光谱遥感数据进行水体监测。
相应的,本发明还提供一种用于剔除异常点的系统,包括:获取模块,获取监测水体区域采样点的水质参数和多光谱遥感数据;降维模块,对所述水质参数和所述多光谱遥感数据进行二维降维,生成二维平面散点图;绘制模块,基于所述二维平面散点图的所述采样点,绘制置信区间;判断模块,若所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除。
相应的,本发明还提供一种电子设备,包括:至少一个处理器,与至少一个所述处理器通信连接的存储器;至少一个所述处理器用于读取所述存储器中的程序,用于执行上面任一项所述方法。
相应的,本发明还提供一种计算机可读存储介质,所述介质上存储有指令,当所述指令在计算机上运行时,使得计算机执行上面任一项所述的方法。
本发明的有益效果:本发明公开了一种用于剔除异常点的方法、系统及电子设备,包括:获取监测水体区域采样点的水质参数和多光谱遥感数据;对所述水质参数和所述多光谱遥感数据进行二维降维,生成二维平面散点图;基于所述二维平面散点图的所述采样点,绘制置信区间;若所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除;本发明利用二维降维的思想设置95%置信椭圆剔除异常数据,在信息损失尽可能少的情况下,降低数据维度,在新的数据维度上,使它们反映事物的主要特征,本发明还增加了对不同河流和不同时间段进行分类的步骤,综合考虑了不同河流和不同时间段的理化性质和光谱性质,更进一步的优化了最后异常数据剔除的结果。
附图说明
图1为本发明用于剔除异常点的方法整体流程示意图;
图2为本发明用于剔除异常点的方法具体实施例中没有对同一时间段四条不同河流内采样点的样本数据进行区分处理得到的结果示意图;
图3为本发明用于剔除异常点的方法具体实施例中对同一时间段河流I内采样点的样本数据进行单独处理得到的结果示意图;
图4为本发明用于剔除异常点的方法具体实施例中对同一时间段的河流II内采样点的样本数据进行单独处理得到的结果示意图;
图5为本发明用于剔除异常点的方法具体实施例中对同一时间段的河流III内采样点的样本数据进行区分处理得到的结果示意图;
图6为本发明用于剔除异常点的方法具体实施例中对同一时间段的河流IV内采样点的样本数据进行区分处理得到的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本实施例提供一种技术方案:一种用于剔除异常数据的方法,包括以下步骤:
步骤S100:获取水体监测区域内采样点的水质参数和多光谱遥感数据;
步骤S200:对所述水质参数和所述多光谱遥感数据进行二维降维,生成二维平面散点图;
步骤S300:基于所述二维平面散点图的所述采样点,绘制置信区间;
步骤S400:若所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,例如在实际情况中,所述采样点落在桥上、落在岸边树上或落在获取所述多光谱遥感数据的图像拼接异常处,都会被判定为异常点并将之剔除。
获取多光谱遥感数据的具体过程为:
获取多光谱相机拍摄的多光谱遥感图像;
将所述多光谱遥感图像进行拼接;
对拼接后的所述多光谱遥感图像进行图像处理,得到多光谱遥感反射率数据。
在本实施例中,获取水体监测区域内采样点的水质参数和多光谱遥感数据的步骤具体包括:获取不同时间段内在多条河流区域内采集的多个采样点,每个所述采样点的样本数据都包括水质实测浓度和多光谱遥感反射率数据。
在本实施例中,所述时间段按天数计算,同一时间段内即为同一天,不同时间段内即为不同天,通过获取不同天数内多条河流区域的多个采样点的水质实测浓度和多光谱遥感反射率数据进行异常点即异常数据的剔除,提高效率。
在本实施例中,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图,基于所述二维平面散点图绘制置信区间,若二维降维后的所述采样点位于所述置信区间之外,则将该所述采样点判定为异常点并将所述异常点剔除的步骤具体包括:
将在同一个时间段内的同一条河流区域获取的所述采样点分为一组,得到多组样本数据,即同一组的所述样本数据包括在同一个时间段内的同一条河流区域获取的所述采样点的水质参数和多光谱遥感数据,不同组的所述样本数据分别是在不同时间段内或不同河流区域内获取的所述采样点的水质参数和多光谱遥感数据;分别对每一组所述样本数据进行二维降维,生成对应每一组所述样本数据的二维平面散点图,针对不同的所述二维平面散点图,分别绘制相对应的置信区间;分别对每组所述样本数据进行异常值的判断,若与每组所述样本数据相对应的所述二维平面散点图的采样点位于与该所述二维平面散点图相对应的所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,得到与多组所述样本数据相对应的多个判断结果。
在本实施中,同一个所述二维平面散点图内的采样点数据都是来自于同一天以及同一条河流区域内的,不同天数或不同河流区域内获取的采样点的样本数据要进行区分,分别进行二维降维,得到不同的二维平面散点图,即如果采集的数据是同一天同一河流的数据,可以直接进行二维降维,根据得到的所述二维平面散点图并绘制相对应的所述置信椭圆,但如果所述样本数据是在不同河流区域或不同时间段内采集的,不同河流有着不同的河流标记,不同天数也有不同的天数标记,需要把具有相同河流标记和相同天数标记的采样点进行提取,得到含有不同天数标记或不同河流标记的多组样本数据,即每一组样本数据所包含的河流标记一样、天数标记一样,根据得到的多组所述样本数据进行分别处理得到相对应的多个结果,然后再把多个结果整合起来,就完成了对所有采样点进行异常点的剔除过程;这样通过对不同河流以及不同时间段内的参数数据进行分类,避免了某条河流与其他河流的性质差异过大,整条河流都被作为异常点被剔除,同时对于不同段内的河流采样点数据进行分别处理,有效提高了后续水质建模的精度和准确性,例如如图2所示为本实施例中没有对同一时间段四条不同河流内采样点的样本数据进行区分处理得到的结果示意图,可以看出,得到的异常点有10个,而图3-图6为在同一时间段内对河流I、河流II、河流III、河流IV内获取的采样点的样本数据进行单独处理得到的结果示意图,可以看出,从河流I获取的采样点中判定出的异常点有1个,从河流II获取的采样点中判定出的异常点有2个,从河流III获取的采样点中判定出的异常点有2个,从河流IV获取的采样点中判定出的异常点有1个,即共得到6个异常点,比将四条河流内所有采样点的样本数据进行一起处理得到的异常点少了4个,避免了不是异常点但被判定为异常点情况的发生。
在本实施例中,利用了主成分分析PCA的原理进行二维降维,包括如下计算步骤:对原始矩阵Z进行数据中心化,根据数据中心化后的所述原始矩阵Z’计算样本矩阵的协方差矩阵D(Z’),对所述协方差矩阵D(Z’)进行特征值分解得到特征向量矩阵W,根据特征向量矩阵W得到二维平面散点图,其中所述原始矩阵Z所包含的原始数据是属于同一组的所述样本数据,同一组的所述样本数据所包含的数据都是来自同一个时间段内以及同一条河流区域内获取的所述采样点的水质实测浓度和多光谱遥感反射率数据;而多组样本数据就是会形成与每组所述样本数据相对应的多个不同的原始矩阵Z;
对每一组的所述样本数据都根据以下方式进行二维降维和绘制置信区间,具体计算过程表现如下:
获取m行n列以矩阵形式排列的原始数据,所述原始数据包括:m个所述采样点的样本数据Zi,所述样本数据Zi包括n个所述水质参数Xi和n个所述多光谱遥感数据Yi,n个所述水质参数 表示第i个采样点的第j个所述水质参数,n个所述多光谱遥感数据 表示第i个采样点的第j个所述多光谱遥感反射率数据,i=1、2,、3、…、m,j=1、2、3、…、n;将所述水质参数和所述多光谱遥感反射率数据合并为一组,得到得到所述采样点样本数据得到所述原始矩阵其中,表示所述原始矩阵Z的第i行第j列;
对所述原始矩阵Z进行数据中心化,即式中,i=1、2、3、…、m,k=1、2、…、m,j=1、2、3、…、n,表示所述原始矩阵Z的第i行第j列,表示矩阵Z的第k行第j列,得到矩阵表示所述矩阵Z’的第i行第j列;
求解所述协方差矩阵D(Z’)的特征值λi,i=1、2、…、n,求解公式为:
式中,E表示单位矩阵,λE表示n阶单位矩阵的λ倍,|D(Z’)-λE|表示所述协方差矩阵D(Z’)的特征多项式,λ1、λ2、λ3、…、λn分别表示特征向量对应的特征值,将最大的两个特征值分别定义为λmax1、λmax2;
求解所述协方差矩阵D(Z’)的特征向量矩阵W,求取特征向量Wi,i=1、2、…、n,求解公式为:
将所述特征值λmax1、λmax2对应的特征向量分别命名为Wmax1、Wmax2,组成特征向量矩阵W’(Wmax1,Wmax2),将所述特征向量矩阵W’的所述特征向量Wmax1、Wmax2标准化后,得到特征向量矩阵W;
将所述特征向量矩阵W进行转置得到特征向量矩阵WT后,根据所述特征向量矩阵WT和所述原始矩阵Z即得到二维降维后的矩阵B,即所述矩阵 根据所述矩阵B绘制二维平面散点图;其中,表示矩阵B的第i行第j列,i=1、2、...、m,m表示采样点的个数,i=1、2,表示每个所述采样点有2个变量,第一个变量为二维降维后的第一主成分的值,第二变量为二维降维后的第二主成分的值,最终形成以第一主成分为横轴,第二主成分为纵轴绘制的二维平面散点图。例如如图2-图6所示,对四条河流的采样点一起进行二维降维得到的第一主成分的值为65.85%,第二主成分的值为15.28%,对河流I进行二维降维得到的第一主成分的值为84.17%,第二主成分的值为8.86%,对河流II进行二维降维得到的第一主成分的值为41.62%,第二主成分的值为33.81%,对河流III进行二维降维得到的第一主成分的值为57.83%,第二主成分的值为16.39%,对河流IV进行二维降维得到的第一主成分的值为76.08%,第二主成分的值为7.45%。
基于所述二维平面散点图的采样点,绘制置信区间;若所述采样点位于置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,具体包括:
所述置信区间为置信椭圆,所述置信椭圆的置信度为95%,所述置信椭圆的标准方程为:其中,a表示所述置信椭圆的半长轴,b表示所述置信区间的半短轴,x表示所述二维降维后的第一主成分的值,y表示所述二维降维后的第二主成分的值;
通过查询卡方分布的卡方表,得到:P(S<5.991)=1-0.05=0.95,其中,S=5.991即为95%置信区间,表示有一组数据,其x方向方差为σx,y方向方差为σy时,如果S=5.991,那么95%的采样点在所述置信椭圆内,得到所述置信椭圆的所述长轴所述短轴因此,当将采样点的x,y值带入公式,若所述采样点在95%的置信椭圆内,判断为正常点,当所述采样点落在95%置信椭圆之外,判断为异常点;
根据所述协方差矩阵D(Z’)得到的特征值代表特征向量方向上数据的方差,以及在所述误差椭圆(即协方差等于零)的情况下,所述特征值等于协方差矩阵的方差,所述特征向量等于x轴和y轴的定义,根据所述协方差矩阵D(Z’)计算得到的所述特征向量Wmax1,Wmax2和所述特征值λmax1、λmax2,定义所述置信椭圆长轴方向的特征向量为Wmax1,所述置信椭圆短轴方向的特征向量为Wmax2,定义所述置信椭圆长轴方向的特征值为λmax1,所述置信椭圆短轴方向的特征值为λmax2,得到x方向方差y方向方差此时,所述置信椭圆的长轴短轴
在本实施例中,在同一天分别获取到了四条河流的多个采样点如图3-图6所示为在河流I、II、III、IV内获取的四组样本数据分别进行二维降维和绘制置信区间得到的4个结果示意图,可以看出,从河流I中判定出的异常点有1个,从河流II中判定出的异常点有2个,从河流III中判定出的异常点有2个,从河流IV中判定出的异常点有1个,即共剔除6个异常点,本实施例精确的找出了异常点,即不会将正常的采集点误认为异常点而将正常的采集点剔除,在信息损失尽可能少的情况下,降低数据维度,在新的数据维度上,使它们反映事物的主要特征。
基于同一发明构思,本发明实施例还提供一种水体监测方法,关于具体介绍,可参见前述相关说明,重复之处不再冗述,包括以下步骤:
获取监测水体区域的采样点的水质参数和多光谱遥感数据;
对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;
基于所述二维平面散点图绘制置信区间;
若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除;
根据剔除所述异常点后得到的所述采样点的水质参数和多光谱遥感数据进行水体监测。
基于同一发明构思,本发明实施例还提供一种用于剔除异常点的系统,包括:
获取模块,获取监测水体区域采样点的水质参数和多光谱遥感数据;
降维模块,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;
绘制模块,基于所述二维平面散点图绘制置信区间;
判断模块,若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除。
基于同一发明构思,本发明实施例还提供一种电子设备,包括:至少一个处理器,与所述至少一个处理器通信连接的存储器;所述至少一个处理器用于读取所述存储器中的程序,用于执行上面任一项所述方法。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,所述介质上存储有指令,当所述指令在计算机上运行时,使得计算机执行上面任一项所述方法。
本发明公开了一种用于剔除异常点的方法、系统及电子设备,包括:获取水体监测区域内采样点的水质参数和多光谱遥感数据;对采样点的所述水质参数和所述多光谱遥感数据进行二维降维,生成二维平面散点图;基于所述二维平面散点图,绘制置信区间;若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除。本发明利用二降维的思想设置95%置信椭圆剔除异常数据,通过二维降维的方法,在信息损失尽可能少的情况下,降低数据维度,在新的数据维度上,使它们反映事物的主要特征,本发明还增加了对不同河流和不同天数进行分类的步骤,综合考虑了不同河流和不同天数的理化性质和光谱性质,更进一步的优化了最后异常数据剔除的结果。
本发明虽然己以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (10)
1.一种用于剔除异常点的方法,其特征在于,包括:
获取水体监测区域内采样点的水质参数和多光谱遥感数据;
对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;
基于所述二维平面散点图绘制置信区间;
若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除。
2.根据权利要求1所述的用于剔除异常点的方法,其特征在于,获取水体监测区域内采样点的水质参数和多光谱遥感数据具体包括:获取不同时间段内多条河流区域的多个采样点,每个所述采样点的样本数据都包括水质实测浓度和多光谱遥感反射率数据。
3.根据权利要求1所述的用于剔除异常点的方法,其特征在于,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图,基于所述二维平面散点图绘制置信区间,若二维降维后的所述采样点位于所述置信区间之外,则将该所述采样点判定为异常点并将所述异常点剔除的步骤具体包括:
将在同一个时间段内的同一条河流区域获取的所述采样点分为一组,得到多组样本数据,即同一组的所述样本数据包括在同一个时间段内的同一条河流区域获取的所述采样点的水质参数和多光谱遥感数据,不同组的所述样本数据分别是在不同时间段内或不同河流区域内获取的所述采样点的水质参数和多光谱遥感数据;分别对每一组所述样本数据进行二维降维,生成对应每一组所述样本数据的二维平面散点图,针对不同的所述二维平面散点图,分别绘制相对应的置信区间;分别对每组所述样本数据进行异常值的判断,若与每组所述样本数据相对应的所述二维平面散点图的采样点位于与该所述二维平面散点图相对应的所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,得到与多组所述样本数据相对应的多个判断结果。
4.根据权利要求1所述的用于剔除异常点的方法,其特征在于,利用主成分分析PCA原理进行二维降维,包括如下计算步骤:对原始矩阵Z进行数据中心化,根据数据中心化后的矩阵Z’计算样本矩阵的协方差矩阵D(Z’),对所述协方差矩阵D(Z’)进行特征值分解得到特征向量矩阵W,根据特征向量矩阵W得到二维平面散点图。
5.根据权利要求1所述的用于剔除异常点的方法,其特征在于,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图的步骤具体包括:
获取m行n列以矩阵形式排列的原始数据,所述原始数据包括:m个所述采样点的样本数据Zi,所述样本数据Zi包括n个所述水质参数Xi和n个所述多光谱遥感数据Yi,其中,n个所述水质参数 表示第i个采样点的第j个所述水质参数,n个所述多光谱遥感数据 表示第i个采样点的第j个所述多光谱遥感反射率数据,i=1、2、3、…、m,j=1、2、3、…、n;将所述水质参数和所述多光谱遥感反射率数据合并为一组,得到得到所述样本数据 得到所述原始矩阵其中,表示所述原始矩阵Z的第i行第j列;
对所述原始矩阵Z进行数据中心化,即式中,i=1、2、3、…、m,k=1、2、…、m,j=1、2、3、…、n,表示所述原始矩阵Z的第i行第j列,表示所述原始矩阵Z的第k行第j列,得到矩阵 表示经数据中心化后的所述矩阵Z’的第i行第j列;
求解所述协方差矩阵D(Z’)的特征值λi,i=1、2、…、n,求解公式为:
式中,E表示单位矩阵,λE表示n阶单位矩阵的λ倍,|D(Z’)-λE|表示所述协方差矩阵D(Z’)的特征多项式,λ1、λ2、λ3、…、λn分别表示特征向量对应的特征值,将最大的两个特征值分别定义为λmax1、λmax2;
求解所述协方差矩阵D(Z’)的特征向量矩阵W,求取特征向量Wi,i=1、2、…、n,求解公式为:
将所述特征值λmax1、λmax2对应的特征向量分别命名为Wmax1、Wmax2,组成特征向量矩阵W’(Wmax1,Wmax2),将所述特征向量矩阵W’的所述特征向量Wmax1、Wmax2标准化后,得到特征向量矩阵W;
6.根据权利要求5所述的用于剔除异常点的方法,其特征在于,基于所述二维平面散点图,绘制置信区间;若二维降维后的所述采样点位于置信区间之外,将所述采样点判定为异常点并将所述异常点剔除,具体包括:
所述置信区间为置信椭圆,所述置信椭圆的置信度为95%,所述置信椭圆的标准方程为:其中,a表示所述置信椭圆的半长轴,b表示所述置信区间的半短轴,x表示所述二维降维后的第一主成分的值,y表示所述二维降维后的第二主成分的值;
通过查询卡方分布的卡方表,得到:P(S<5.991)=1-0.05=0.95,其中,S=5.991即为95%置信区间,表示有一组数据,其x方向方差为σx,y方向方差为σy时,如果S=5.991,那么95%的采样点在所述置信椭圆内,得到所述置信椭圆的长轴短轴因此,将采样点的x,y值带入公式,若当所述采样点在95%的置信椭圆内,判定为正常点,当所述采样点落在95%置信椭圆之外,判定为异常点;
根据所述协方差矩阵D(Z’)得到的特征值代表特征向量方向上数据的方差,以及在所述误差椭圆的情况下,所述特征值等于协方差矩阵的方差,所述特征向量等于x轴和y轴的定义,因此根据所述协方差矩阵D(Z’)计算得到的所述特征向量Wmax1,Wmax2和所述特征值λmax1、λmax2,定义所述置信椭圆长轴方向的特征向量为Wmax1,所述置信椭圆短轴方向的特征向量为Wmax2,定义所述置信椭圆长轴方向的特征值为λmax1,所述置信椭圆短轴方向的特征值为λmax2,得到x方向方差y方向方差此时,所述置信椭圆的长轴短轴
7.一种水体监测方法,其特征在于,包括:
获取监测水体区域的采样点的水质参数和多光谱遥感数据;
对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;
基于所述二维平面散点图绘制置信区间;
若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除;
根据剔除所述异常点后得到的所述采样点的水质参数和多光谱遥感数据进行水体监测。
8.一种用于剔除异常点的系统,其特征在于,包括:
获取模块,获取监测水体区域采样点的水质参数和多光谱遥感数据;
降维模块,对所述采样点的水质参数和多光谱遥感数据进行二维降维,生成二维平面散点图;
绘制模块,基于所述二维平面散点图绘制置信区间;
判断模块,若二维降维后的所述采样点位于所述置信区间之外,将所述采样点判定为异常点并将所述异常点剔除。
9.一种电子设备,其特征在于,包括:至少一个处理器,与至少一个所述处理器通信连接的存储器;至少一个所述处理器用于读取所述存储器中的程序,用于执行如权利要求1-7中任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述介质上存储有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908266.6A CN113627322A (zh) | 2021-08-09 | 2021-08-09 | 一种用于剔除异常点的方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908266.6A CN113627322A (zh) | 2021-08-09 | 2021-08-09 | 一种用于剔除异常点的方法、系统及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627322A true CN113627322A (zh) | 2021-11-09 |
Family
ID=78383619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110908266.6A Pending CN113627322A (zh) | 2021-08-09 | 2021-08-09 | 一种用于剔除异常点的方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627322A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104359847A (zh) * | 2014-12-08 | 2015-02-18 | 中国科学院遥感与数字地球研究所 | 获取代表典型水体类别的质心集的方法及装置 |
WO2016091017A1 (zh) * | 2014-12-09 | 2016-06-16 | 山东大学 | 一种高光谱图像分类中光谱向量互相关特征的抽取方法 |
CN105912790A (zh) * | 2016-04-15 | 2016-08-31 | 重庆大学 | 基于深度回归模型的遥感水质监测方法 |
CN106600602A (zh) * | 2016-12-30 | 2017-04-26 | 哈尔滨工业大学 | 基于聚类自适应窗高光谱图像异常检测方法 |
CN109145996A (zh) * | 2018-08-31 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 异常环境下的指标数据生成方法、装置及电子设备 |
CN109523510A (zh) * | 2018-10-11 | 2019-03-26 | 浙江大学 | 基于多光谱遥感影像的河道水质空间异常区域检测方法 |
CN111898639A (zh) * | 2020-06-30 | 2020-11-06 | 河海大学 | 基于降维的分层时间记忆工业异常检测方法与装置 |
CN112783885A (zh) * | 2021-01-29 | 2021-05-11 | 浙江大学 | 光伏出力数据异常值的剔除方法 |
CN112990313A (zh) * | 2021-03-16 | 2021-06-18 | 中国科学院长春光学精密机械与物理研究所 | 高光谱图像异常检测方法、装置、计算机设备及存储介质 |
-
2021
- 2021-08-09 CN CN202110908266.6A patent/CN113627322A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104359847A (zh) * | 2014-12-08 | 2015-02-18 | 中国科学院遥感与数字地球研究所 | 获取代表典型水体类别的质心集的方法及装置 |
WO2016091017A1 (zh) * | 2014-12-09 | 2016-06-16 | 山东大学 | 一种高光谱图像分类中光谱向量互相关特征的抽取方法 |
CN105912790A (zh) * | 2016-04-15 | 2016-08-31 | 重庆大学 | 基于深度回归模型的遥感水质监测方法 |
CN106600602A (zh) * | 2016-12-30 | 2017-04-26 | 哈尔滨工业大学 | 基于聚类自适应窗高光谱图像异常检测方法 |
CN109145996A (zh) * | 2018-08-31 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 异常环境下的指标数据生成方法、装置及电子设备 |
CN109523510A (zh) * | 2018-10-11 | 2019-03-26 | 浙江大学 | 基于多光谱遥感影像的河道水质空间异常区域检测方法 |
CN111898639A (zh) * | 2020-06-30 | 2020-11-06 | 河海大学 | 基于降维的分层时间记忆工业异常检测方法与装置 |
CN112783885A (zh) * | 2021-01-29 | 2021-05-11 | 浙江大学 | 光伏出力数据异常值的剔除方法 |
CN112990313A (zh) * | 2021-03-16 | 2021-06-18 | 中国科学院长春光学精密机械与物理研究所 | 高光谱图像异常检测方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
唐顺发: "基于主成分分析的我国开放式基金风险分散优化应用研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》, no. 12, 15 December 2018 (2018-12-15), pages 160 - 350 * |
李冠稳: "基于可见-近红外光谱和回归技术 的土壤有机质含量估算研究", 《中国优秀硕士学位论文全文数据库农业科技辑》, no. 02, 15 February 2019 (2019-02-15), pages 043 - 85 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11586913B2 (en) | Power equipment fault detecting and positioning method of artificial intelligence inference fusion | |
CN106529559A (zh) | 一种指针式圆形多仪表盘实时读数识别方法 | |
CN113487533B (zh) | 一种基于机器学习的零件装配质量数字化检测系统及方法 | |
Wang et al. | Surface defects detection using non-convex total variation regularized RPCA with kernelization | |
CN113838054A (zh) | 基于人工智能的机械零件表面损伤检测方法 | |
CN112365497A (zh) | 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统 | |
CN117152152B (zh) | 检测试剂盒的生产管理系统及方法 | |
CN113658174B (zh) | 基于深度学习和图像处理算法的微核组学图像检测方法 | |
CN112347894A (zh) | 基于迁移学习和高斯混合模型分离的单株植被提取方法 | |
Tian et al. | CASDD: Automatic surface defect detection using a complementary adversarial network | |
CN110716500A (zh) | 用于确定温度敏感区间分段建模点的方法与系统 | |
CN110516920B (zh) | 基于指标融合的陀螺仪质量等级评估方法 | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
Chou et al. | SHM data anomaly classification using machine learning strategies: A comparative study | |
CN105654042B (zh) | 玻璃温度计的检定温度字符识别方法 | |
KR101782364B1 (ko) | 케이평균군집화를 통한 학습기반의 비전검사 방법 | |
CN113627322A (zh) | 一种用于剔除异常点的方法、系统及电子设备 | |
CN111786999A (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
CN116720079A (zh) | 基于多特征融合的风力发电机故障模式识别方法及系统 | |
CN114782362B (zh) | 一种基于深度迁移学习的焊接智能检测系统 | |
Fan et al. | Supervised Machine Learning–Based Detection of Concrete Efflorescence | |
CN113870328A (zh) | 一种液体异物视觉检测方法及系统 | |
Guo et al. | A Hybrid clustering method for bridge structure health monitoring | |
CN111914889B (zh) | 一种基于简略核主元分析的精馏塔异常状态识别方法 | |
CN113033683B (zh) | 一种基于静态与动态联合分析的工业系统工况监测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |