CN116304963A

CN116304963A - 一种适用于地质灾害预警的数据处理系统

Info

Publication number: CN116304963A
Application number: CN202310594476.1A
Authority: CN
Inventors: 张晔; 姚英强; 赵菲; 王秉顺; 张志国; 张玉燕; 解磊
Original assignee: Shandong Provincial Land And Space Ecological Restoration Center Shandong Geological Disaster Prevention And Control Technology Guidance Center Shandong Land Reserve Center
Current assignee: Shandong Provincial Land And Space Ecological Restoration Center Shandong Geological Disaster Prevention And Control Technology Guidance Center Shandong Land Reserve Center
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-06-23
Anticipated expiration: 2043-05-25
Also published as: CN116304963B

Abstract

本发明涉及数据处理技术领域，具体涉及一种适用于地质灾害预警的数据处理系统。该系统包括：数据获取模块，用于获取每时刻下的数据点；数据分析模块，用于获取每类地质灾害预警数据点的类别波动度，并获取任意两个数据点之间的设定距离；K值分析模块，用于根据数据点以邻域半径形成的邻域内的数据点是否满足待选条件，获取数据点的待选K值；数据处理模块，用于基于从待选K值中筛选出最优K值使用离群点检测算法对地质灾害预警数据进行数据处理。本发明基于数据点邻域内数据点变化情况筛选出的最优K值完成异常数据检测，提高了地质灾害预警数据检测的精度与效率。

Description

一种适用于地质灾害预警的数据处理系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种适用于地质灾害预警的数据处理系统。

背景技术

我国地质灾害频发，地质灾害发生时会影响降水量、地下水位和大气参数等数据。在对地质灾害进行预警时，往往是基于数据设置一定的阈值，用于判断是否发生地质灾害。异常数据会对数据质量产生明显的影响，导致阈值设定不准确，进而降低预警系统的处理效率，故需要对地质灾害相关数据进行异常数据检测。

现有技术通过离群点检测算法获取数据中的异常数据，离群点检测算法通过数据点与邻近数据点密度的比值获取LOF值，数据点邻域内密度不均匀容易导致离群点检测算法中的参数K设置不合理，可能导致异常数据识别不准确，降低异常数据检测的精度与效率。

发明内容

为了解决对地质灾害预警数据进行离群点检测算法时参数K值设置不合理，导致异常数据识别不准确的技术问题，本发明的目的在于提供一种适用于地质灾害预警的数据处理系统，所采用的技术方案具体如下：

本发明提出了一种适用于地质灾害预警的数据处理系统，所述系统包括：

数据获取模块，用于获取每个时刻下的数据点，所述数据点包含至少两类地质灾害预警数据的数据值；

距离分析模块，用于获取每类地质灾害预警数据的类别波动度；根据任意两个数据点的每类地质灾害预警数据的数据值之间的差异与其所述类别波动度，获取对应两个数据点之间的设定距离；

K值分析模块，用于依据数据点之间的所述设定距离，确定每个数据点的初始的邻域半径，并对每个数据点的初始的邻域半径进行更新；当数据点以当前更新后的邻域半径形成的邻域内的数据点不满足待选条件时，对每个数据点的更新后的邻域半径继续进行更新，直至数据点以更新后的邻域半径形成的邻域内的数据点满足待选条件；当满足待选条件时，获取数据点的待选K值；

数据处理模块，用于从所述待选K值中筛选出最优K值；根据所述最优K值使用异常点检测算法对地质灾害预警数据进行数据处理。

进一步地，所述类别波动度的获取方法，包括：

将每类地质灾害预警数据的数据值的极差与最小值的比值，作为对应类别地质灾害预警数据的所述类别波动度。

进一步地，所述设定距离的获取方法，包括：

将所述类别波动度进行归一化并负相关映射得到每类地质灾害预警数据的波动度；

将任意两个数据点的每类地质灾害预警数据的数据值之间的差异与对应类别地质灾害预警数据的所述波动度的乘积，作为对应两个数据点之间对应类别地质灾害预警数据的类别距离；将任意两个数据点的每类地质灾害预警数据的所述类别距离进行累加，得到对应两个数据点之间的所述设定距离。

进一步地，所述初始的邻域半径的获取方法，包括：

将每个数据点与其他数据点之间最小的所述设定距离与预设常数的乘积，作为每个数据点的初始的邻域半径。

进一步地，所述邻域半径的更新方法，为：

将数据点在当前更新前对应的邻域半径与扩充常数的乘积，作为对应数据点的当前更新后对应的邻域半径。

进一步地，所述待选条件，为：

确定每个数据点在当前邻域半径更新次数下对应的密度变化特征值；

对每个数据点在邻域半径更新次数下的密度变化特征值进行归一化，得到对应数据点在邻域半径更新次数下的归一密度变化特征值；

所述待选条件为：数据点在邻域半径更新次数下的所述归一密度变化特征值大于或者等于所述密度判断阈值，或者更新次数等于所述更新阈值。

进一步地，所述密度变化特征值的获取方法，包括：

将每个数据点以当前更新前的邻域半径形成的邻域内数据点，作为对应数据点在当前更新后的邻域半径对应的更新前邻域数据点；

将从每个数据点以当前更新后的邻域半径形成的邻域内数据点中除去所述更新前邻域数据点后余下的数据点，作为对应数据点在当前更新后的邻域半径对应的扩充邻域数据点；所述扩充邻域数据点至少有一个；

将每个数据点在当前更新后的邻域半径对应的所述扩充邻域数据点的个数与所述更新前邻域数据点的个数的比值，作为对应数据点在当前更新后的邻域半径对应的数量变化值；将每个数据点在当前更新后的邻域半径对应的各扩充邻域数据点与对应数据点之间的所述设定距离，与对应数据点的初始的邻域半径的差值绝对值进行累加，得到对应数据点在当前更新后的邻域半径对应的距离差异值；

将每个数据点在当前更新后的邻域半径对应的各扩充邻域数据点与对应数据点之间的所述设定距离的方差、所述数量变化值和所述距离差异值的乘积，作为对应数据点在邻域半径更新次数下的所述密度变化特征值。

进一步地，所述待选K值的获取方法，包括：

当数据点以当前更新后的邻域半径形成的邻域内的数据点满足待选条件时，将数据点以当前更新前对应的邻域半径形成的邻域内数据点的个数，作为对应数据点的所述待选K值。

进一步地，所述最优K值的获取方法，包括：

对于每个待选K值，将同一待选K值对应的数据点作为对应待选K值对应的投票数据点；

当数据点以当前更新后的邻域半径形成的邻域内的数据点满足待选条件时，将数据点在当前更新前对应的邻域半径对应的所述密度变化特征值作为对应数据点的判断密度变化特征值；

将每个待选K值的各所述投票数据点的所述判断密度变化特征值进行归一化并负相关映射，得到对应投票数据点的初始误判特征值；将每个待选K值的所有投票数据点的所述初始误判特征值进行累加，得到对应待选K值的误判特征值；将每个待选K值的所述投票数据点的个数与所述误判特征值的乘积，作为对应待选K值的最优概率值；将最大的所述最优概率值对应的待选K值作为最优K值。

本发明具有如下有益效果：

在本发明实施例中数据点包含多类地质灾害预警数据，每类地质灾害预警数据的数据值波动范围不同，获取每类地质灾害预警数据的类别波动度，基于数据点在不同维度的数据值的差异完成数据点之间的设定距离构建时，结合类别波动度，使设定距离准确呈现数据点之间的距离；现有的离群点检测算法通过数据点与邻近数据点密度的比值获取LOF值，当数据点邻域内密度不均匀容易导致LOF值出现误差，因此，本发明针对数据点邻域内数据点变化进行分析；待选条件主要是通过数据点在邻域半径更新情况下邻域内数据点变化情况进行设置，使数据点的待选K值符合地质灾害预警数据的检测，为了能通过离群点检测算法更好的检测出数据点中的异常数据，需要从待选K值中筛选出的最优K值，提高最优K值的选取的合理性，则基于最优K值的离群点检测算法对地质灾害预警数据进行检测，提高了异常数据检测精度与效率，增加了地质灾害检测数据的检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明一个实施例所提供的一种适用于地质灾害预警的数据处理系统的系统框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种建筑吊篮的智能监控系统及监控方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明所针对的具体场景：在通过地质灾害相关数据对地质灾害进行预警分析时，当传感器发生一定故障，存在外界干扰，数据传输过程出现异常或数据清洗过程出现问题时，采集到的数据中存在异常数据，对地质灾害预警分析产生干扰，使得预警系统效率与精度较低。

下面结合附图具体的说明本发明所提供的一种适用于地质灾害预警的数据处理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种适用于地质灾害预警的数据处理系统的系统框图，该系统包括：数据获取模块101，距离分析模块102，K值分析模块103，数据处理模块104。

数据获取模块101，用于获取每个时刻下的数据点，数据点包含至少两类地质灾害预警数据的数据值。

具体的，由于地质灾害在不同的地质条件下会产生较多类型的数据信息，数据信息的结构非常复杂，则在监测点处使用多传感器的方式来获取地质灾害预警数据。本发明实施例中使用了N种传感器对数据进行采集，即获取N类地质灾害预警数据，例如泥石流地质数据、降水量数据、地下水水位数据和大气参数等数据，所采集的每类地质灾害预警数据均为时序数据。需要说明的是，至少获取两个时刻下的数据点，即至少有两个数据点。

距离分析模块102，用于获取每类地质灾害预警数据的类别波动度；根据任意两个数据点的每类地质灾害预警数据的数据值之间的差异与其类别波动度，获取对应两个数据点之间的设定距离。

具体的，通常对地质灾害预警数据的时序数据进行监测完成对地质灾害预警，对于某一时刻可获取N类地质灾害预警数据，即每时刻下的数据点包含N类地质灾害预警数据。以T时刻下的数据点为例，T时刻的数据点Q

，其中，/>

为数据点Q的第1类地质灾害预警数据的数据值，/>

为数据点Q的第i类地质灾害预警数据的数据值，/>

为数据点Q的第N类地质灾害预警数据的数据值。

地质灾害发生时会影响多类地质灾害数据的数据值，每类地质灾害预警的监测数据通常为时序上的连续数据，故传统的直接使用数据的差值作为离群点检测算法中的距离不够准确。不同种类的地质灾害预警数据的数据值的波动范围不同，需要获取每类地质灾害预警数据的类别波动值。

优选地，本发明实施例中类别波动度的获取方法为：将每类地质灾害预警数据的数据值的极差与最小值的比值，作为对应类别地质灾害预警数据的类别波动度。

需要说明的是，通常将与正常数据差异较大的数据点作为离散点。每个数据点包含多类地质灾害预警数据的数据值，某类地质灾害预警数据的数据值在1-10范围内波动，其数据值为9时为正常数据点；而另一类地质灾害预警数据的数据值在1-2范围内波动，其数据值为9时为离散数据点。因此，获取每类地质灾害预警数据的类别波动度。类别波动度的计算公式如下：

，

式中，

为第i类地质灾害预警数据的类别波动度，/>

为第i类地质灾害预警数据的最大数据值，/>

为第i类地质灾害预警数据的最小数据值。

需要说明的是，当第i类地质灾害预警数据的数据值的极差

越小时，说明第i类地质灾害预警数据在较小范围内变化，数据值的波动程度较小，则第i类地质灾害预警数据的类别波动度/>

越小；由于地质灾害预警数据反映与地质灾害相关数情况，则地质灾害预警数据的数据值不为0，即第i类地质灾害预警数据的最小数据值/>

不为0。

每类地质灾害预警数据的数据值在不同范围内波动，为减少其对设定距离计算产生误差，在计算数据点之间每类地质灾害数据的数据值的差异时，需要考虑对应类别的地质灾害预警数据的类别波动度，提高数据点之间的设定距离的准确性。

优选地，本发明实施例中设定距离的获取方法为：将类别波动度进行归一化并负相关映射得到每类地质灾害预警数据的波动度；将任意两个数据点的每类地质灾害预警数据的数据值之间的差异与对应类别地质灾害预警数据的波动度的乘积，作为对应两个数据点之间对应类别地质灾害预警数据的类别距离；将任意两个数据点的每类地质灾害预警数据的类别距离进行累加，得到对应两个数据点之间的设定距离。

作为一个示例，以数据点Q与数据点W为例，在计算数据点Q与数据点W之间设定距离时，每类地质灾害预警数据的波动度相当于数据点之间对应类地质灾害预警数据的数据值之间差异的权重。由于数据点包含多类地质灾害预警数据，直接将数据点之间每类地质灾害预警数据的数据值之间的差异作为离群点检测算法中的距离不够准确，将数据值在较大波动范围的类别的地质灾害预警数据的数据值之间差异在计算设定距离时的权重调小，能够增加数据点之间设定距离的准确性。其中，离群点检测算法为本领域技术人员公知技术，在此不作赘述。

在本发明实施例中使用归一化函数对每类地质灾害预警数据的类别波动值进行归一化处理，在本发明其他实施例中也可选择其他对类别波动度进行归一化的方法，例如函数转化和最大最小规范化等归一化方法，在此不做限定。

根据数据点Q与数据点W的每类地质灾害预警数据的数据值之间的差异和其类别波动度，获取两个数据点之间的设定距离。设定距离的计算公式如下：

，

，

式中，

为数据点Q与数据点W之间的设定距离，N为地质灾害预警数据的类别数量，/>

为数据点Q与数据点W的第i类地质灾害预警数据的类别距离，/>

为第i类地质灾害预警数据的类别波动值，/>

为数据点Q的第i类地质灾害预警数据的数据值，/>

为数据点W的第i类地质灾害预警数据的数据值；Norm为归一化函数，/>

为绝对值函数。

需要说明的是，数据点Q与数据点W的每类地质灾害预警数据的数据值之间的差异

越大，以数据点W为基准，则数据点Q为离群数据点的可能性越大；以每类地质灾害预警数据的波动度作为两个数据点的对应类别的地质灾害预警数据的数据值之间差异的权重，提高了数据点之间的设定距离/>

的准确性；两个数据点之间的设定距离越大，说明两个数据点越不相似，以数据点W为基准，数据点Q越可能为离散数据点。

根据上述获取数据点Q与数据点W之间设定距离的方法，获取任意两个数据点之间的设定距离。

至此，任意两个数据点之间均有对应的设定距离。

K值分析模块103，用于依据数据点之间的设定距离，确定每个数据点的初始的邻域半径，并对每个数据点的初始的邻域半径进行更新；当数据点以当前更新后的邻域半径形成的邻域内的数据点不满足待选条件时，对每个数据点的更新后的邻域半径继续进行更新，直至数据点以更新后的邻域半径形成的邻域内的数据点满足待选条件；当满足待选条件时，获取数据点的待选K值。

具体的，使用离群点检测获取检测数据点中的离群点，以数据点Q为例进行分析，离群点检测算法中获取数据点Q距离最近的k个点，则数据点Q距离最近的k个点与数据点Q之间的最大距离记为数据点Q的K-邻近距离，即K-distance（Q）。基于K-邻近距离与数据点之间的距离完成数据点Q的局部可达密度的获取，通过数据点Q的局部相对密度为点Q邻近点的平均局部可达密度和点Q的局部可达密度的比值完成LOF值的获取。数据点的邻域半径更新导致邻域改变时密度变化越大，说明数据点邻域内出现密度不均匀现象，离群点检测算法通过数据点与邻近数据点密度的比值来完成LOF值的获取，则数据点邻域内密度不均匀容易导致LOF值出现误差。因此，本发明针对数据点邻域内密度变化进行分析，以获取数据点准确的待选K值。

数据点之间的设定距离反映数据点在不同维度下数据点之间的准确距离，则基于设定距离对邻域半径进行更新便于观察邻域内数据点情况。优选的，数据点的初始的邻域半径的获取方法为：将每个数据点与其他数据点之间最小的设定距离与预设常数的乘积，作为每个数据点的初始的邻域半径。

作为一个示例，以数据点Q为例进行分析，将数据点Q与其他数据点之间的最小设定距离

与预设常数的乘积，作为数据点Q的初始的邻域半径，本发明实施例中预设常数取经验值2，实施者可根据实际情况自行设定；即数据点Q的初始的邻域半径/>

。

对数据点的邻域半径的更新的方法为：将每个数据点与其他数据点之间最小的设定距离与预设常数的乘积，作为每个数据点的初始邻域半径；将数据点在当前的更新次数下对应的邻域半径与扩充常数的乘积，作为对应数据点的下一次的更新次数下的邻域半径。

作为一个示例，数据点Q在当前更新后对应的邻域半径，即邻域半径更新次数n下的邻域半径

，其中，/>

为扩充常数，/>

为数据点Q在当前更新前对应的邻域半径，即邻域半径更新次数n-1下的邻域半径。本发明实施例中数据点的邻域半径每更新一次，更新次数加1，邻域半径的更新次数从1开始计数。需要说明的是，本发明实施例中扩充常数/>

取经验值1.1，实施者可根据实际情况自行设定。

数据点在邻域半径更新次数下的密度变化特征值的具体获取方法：将每个数据点以当前更新前的邻域半径形成的邻域内数据点，作为对应数据点在当前更新后的邻域半径对应的更新前邻域数据点；将从每个数据点以当前更新后的邻域半径形成的邻域内数据点中除去更新前邻域数据点后余下的数据点，作为对应数据点在当前更新后的邻域半径对应的扩充邻域数据点；扩充邻域数据点至少有一个；将每个数据点在当前更新后的邻域半径对应的扩充邻域数据点的个数与更新前邻域数据点的个数的比值，作为对应数据点在当前更新后的邻域半径对应的数量变化值；将每个数据点在当前更新后的邻域半径对应的各扩充邻域数据点与对应数据点之间的设定距离，与对应数据点的初始的邻域半径的差值绝对值进行累加，得到对应数据点在当前更新后的邻域半径对应的距离差异值；将每个数据点在当前更新后的邻域半径对应的各扩充邻域数据点与对应数据点之间的设定距离的方差、数量变化值和距离差异值的乘积，作为对应数据点在邻域半径更新次数下的密度变化特征值。

作为一个示例，以数据点Q为例，由于获取数据点Q在当前更新后的邻域半径对应的扩充邻域数据点的过程中，需要数据点Q在当前更新前的邻域半径。以数据点Q邻域半径更新次数1下对应的扩充邻域数据点的获取过程为例进行分析，以数据点Q为中心，将数据点Q在当前更新前的邻域半径即初始的邻域半径

形成的邻域内数据点，作为数据点Q在当前更新后的邻域半径即邻域半径更新次数1下对应的更新前邻域数据点；获取数据点Q以在当前更新后的邻域半径即邻域半径更新次数1下对应的邻域半径形成的邻域内数据点，去除其中的更新前邻域数据点，将余下的数据点作为在更新次数1下对应的扩充邻域数据点。依据上述获取数据点Q在更新次数1下对应的扩充邻域数据点的方法，获取每个数据点在邻域半径每次更新下对应的扩充邻域数据点。

需要说明的是，在计算数据点在邻域半径更新次数下的密度变化特征值时，需要获取数据点在当前更新后的邻域半径对应的更新前邻域数据点，即数据点在以当前更新前的邻域半径形成的邻域内数据点，所以数据点的初始的邻域半径不存在密度变化特征值

以数据点Q为例，根据数据点Q在当前的更新次数下扩充邻域数据点的个数，及其与数据点Q之间的设定距离，获取数据点Q在当前的更新次数n下的密度变化特征值。密度变化特征值的计算公式如下：

，

式中，

为数据点Q在邻域半径更新次数n下的密度变化特征值，/>

为数据点Q在邻域半径更新次数n下的扩充邻域数据点的个数，/>

为数据点Q在邻域半径更新次数n下的更新前邻域数据点的个数，/>

为数据点Q在邻域半径更新次数n下各扩充邻域数据点与数据点Q之间的设定距离的方差，/>

为数据点Q在邻域半径更新次数n下第j个扩充邻域数据点与数据点Q之间的设定距离，R为数据点Q的初始邻域半径；/>

为绝对值函数。

需要说明的是，当数据点Q在邻域半径更新次数n下的扩充邻域数据点的个数

越多，使数据点Q在邻域半径更新次数n下的数量变化值/>

越大，说明数据点在当前的更新次数下邻域内新增的数据点的数量越多，则密度变化特征值/>

越大；数据点Q在当前的更新次数下的各扩充邻域数据点与对应数据点之间的设定距离/>

越大，使/>

越大，说明扩充邻域数据点分布在数据点Q以当前的更新次数下邻域半径形成的邻域内的边缘位置，则密度变化特征值/>

越大；当/>

越大，说明数据点Q的数据点增加不是均匀增加的可能性较大，则数据点越可能出现密度变化，即密度变化特征值/>

越大。

根据上述获取数据点Q在邻域半径更新次数n下的密度变化特征值的方法，获取每个数据点在每次半径更新时的密度变化特征值。

密度变化特征值呈现数据点的邻域半径更新时邻域内数据点密度变化的均匀情况，离群点检测算法通过数据点与邻近数据点密度的比值来完成LOF值的获取，则数据点的邻域内密度变化的均匀程度影响待选K值的准确性，待选条件主要通过数据点在邻域半径更新情况下邻域内数据点变化情况进行设置。

优选地，待选条件为：确定每个数据点在当前邻域半径更新次数下对应的密度变化特征值；对每个数据点在邻域半径更新次数下的密度变化特征值进行归一化，得到对应数据点在邻域半径更新次数下的归一密度变化特征值；待选条件为：数据点在邻域半径更新次数下的归一密度变化特征值大于或者等于密度判断阈值，或者更新次数等于更新阈值。

需要说明的是，在本发明实施例中可以选择对数据点在当前邻域半径更新次数下的密度变化特征值进行归一化的方法，例如归一化函数、函数转化和最大最小规范化等归一化方法，在此不做限定。本发明实施例中密度判断阈值取经验值0.8，更新阈值取经验值20，实施者可根据实际情况自行设定。即当数据在当前邻域半径更新次数下的归一密度变化特征值大于或者等于0.8，或者更新次数等于20时，满足待选条件。其中，数据点每更新一次邻域半径，更新次数加一，更新次数呈现递增。

待选K值的获取方法为：当数据点以当前更新后的邻域半径形成的邻域内的数据点满足待选条件时，将数据点以当前更新前对应的邻域半径形成的邻域内数据点的个数，作为对应数据点的待选K值。

以数据点Q为例分析数据点的待选K值的获取过程：数据点Q在邻域半径更新次数下1对应的邻域半径为

，当数据点Q在邻域半径更新次数下1下的归一密度变化特征值大于或者等于密度判断阈值时，说明数据点Q在更新次数1下邻域半径形成邻域内数据点的密度变化较大，则更新次数1下的邻域半径/>

为无意义更新，无需对邻域半径进行下一次分析，即不满足待选条件；则将数据点Q以当前更新前对应的邻域半径形成的邻域内数据点的个数，即数据点Q以初始的邻域半径R形成的邻域内数据点的个数，作为数据点Q的待选K值。当数据点Q在邻半径更新次数1下的归一密度变化特征值小于密度判断阈值时，说明数据点Q在更新次数1下的密度变化较小，则数据点Q在更新次数1下的邻域半径/>

为有意义更新，需要对邻域半径进下一次更新；将数据点Q在当前更新前对应的邻域半径即更新次数1下对应的邻域半径/>

与扩充常数的乘积，作为数据点的当前更新后即更新次数2对应的邻域半径/>

，其中，/>

为扩充常数，/>

为数据点Q在更新次数1下对应的邻域半径，并将更新次数加1。重复上述判断，直至，数据点Q在邻域半径更新次数下的归一密度变化特征值大于或者密度判断阈值，或者更新次数等于更新阈值时，停止判断，即满足待选条件。假设停止判断时数据点Q的邻域半径的更新次数为L，停止判断说明数据点在更新次数L下的密度变化较大，进而说明数据点在更新次数L下的邻域半径/>

为无意义更新，则将数据点以当前更新前对应的邻域半径形成的邻域内数据点的个数，即数据点在更新次数L-1下对应的邻域半径形成的邻域内数据点的个数，作为数据点Q的待选K值。

根据上述获取数据点的待选K值的方法，获取每个数据点的待选K值。

数据处理模块104，用于从待选K值中筛选出最优K值；根据最优K值使用异常点检测算法对地质灾害预警数据进行数据处理。

每个数据点均对应有待选K值，为了能通过离群点检测算法更好的检测出数据点中的异常数据，需要对待选K值进行进一步判断，使筛选出的待选K值更加符合地质灾害预警数据中异常数据的检测。

优选地，本发明实施例中最优概率值得获取方法为：对于每个待选K值，将同一待选K值对应的数据点作为对应待选K值对应的投票数据点；当数据点以当前更新后的邻域半径形成的邻域内的数据点满足待选条件时，将数据点在当前更新前对应的邻域半径对应的密度变化特征值作为对应数据点的判断密度变化特征值；将每个待选K值的各投票数据点的判断密度变化特征值进行归一化并负相关映射，得到对应投票数据点的初始误判特征值；将每个待选K值的所有投票数据点的初始误判特征值进行累加，得到对应待选K值的误判特征值；将每个待选K值的投票数据点的个数与误判特征值的乘积，作为对应待选K值的最优概率值；将最大的最优概率值对应的待选K值作为最优K值。

需要说明的是，每个数据点均有对应的待选K值，会出现待选K值重复的情况，则待选K值的个数不等于数据点的个数。将具有相同待选K值的数据点作为对应待选K值的投票数据点，基于待选K值的投票数据点的进行信息进行分析，使得针对待选K值的分析而更加准确。数据点在当前的邻域半径更新次数下的归一密度变化特征值大于或者密度判断阈值，或者更新次数等于更新阈值时，停止判断，假设停止判断时数据点的更新次数为L，停止判断说明数据点在更新次数L下的密度变化较大，进而说明数据点在更新次数L下的邻域半径为无意义更新，则将数据点在邻域半径更新次数L-1下的密度变化特征值作为判断密度变化特征值，此时数据点的密度变化特征值呈现邻域内密度变化具有较强的参考性。

根据具有待选K值的数据点的数量和密度变化特征值，获取待选K值的最优概率值。最优概率值的计算公式如下：

，

式中，P为待选K值的最优概率值，

为待选K值的投票数据点的个数，/>

为待选K值的第r个投票数据点的判断密度变化特征值，/>

为待选K值的第r个投票数据点的初始误判特征值，/>

为待选K值的误判特征值；Norm为归一化函数。

需要说明的是，待选K值的投票数据点的判断密度变化特征值

越大，说明待选K值发生误判的可能性越大，则待选K值为最优K值的可能性越小；当待选K值的投票数据点的个数越多，说明存在数据点的待选K值为当前的待选K值的数据点的数量越多，说明待选K值越可能为最优K值。

根据上述获取待选K值的最优概率值方法获取每个待选K值的最优概率值，将最大的最优概率值对应的待选K值作为最优K值。

本发明实施例中基于最优K值使用局部异常因子（Local-Outlier-Factor，LOF）算法对地质灾害预警数据进行处理，获取每个数据点的LOF值，获取数据点中的异常数据点。将地质灾害预警数据中的异常数据进行检测与剔除，降低异常数据点对数据质量造成的影响，提高了异常数据检测的精度与效率，进而增加地质灾害预警的准确性。其中，LOF算法为本领域技术人员公知技术，在此不作赘述。

至此，本发明完成。

综上所述，在本发明实施例中，数据获取模块，用于获取每时刻下的数据点；数据分析模块，用于获取每类地质灾害预警数据点的类别波动度，并获取任意两个数据点之间的设定距离；K值分析模块，用于根据数据点以邻域半径形成的邻域内的数据点是否满足待选条件，获取数据点的待选K值；数据处理模块，用于基于从待选K值中筛选出最优K值使用离群点检测算法对地质灾害预警数据进行数据处理。本发明基于数据点邻域内数据点变化情况筛选出的最优K值完成异常数据检测，提高了地质灾害预警数据检测的精度与效率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于地质灾害预警的数据处理系统，其特征在于，该系统包括：

2.根据权利要求1所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述类别波动度的获取方法，包括：

3.根据权利要求1所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述设定距离的获取方法，包括：

4.根据权利要求1所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述初始的邻域半径的获取方法，包括：

5.根据权利要求1所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述邻域半径的更新方法，为：

6.根据权利要求1所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述待选条件，为：

7.根据权利要求6所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述密度变化特征值的获取方法，包括：

8.根据权利要求1所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述待选K值的获取方法，包括：

9.根据权利要求7所述的一种适用于地质灾害预警的数据处理系统，其特征在于，所述最优K值的获取方法，包括：