CN115829143A

CN115829143A - 一种基于时空数据清洗技术的水环境治理预测系统及其方法

Info

Publication number: CN115829143A
Application number: CN202211618841.XA
Authority: CN
Inventors: 李琪; 庄子槺; 谢冠武; 方嘉炜; 宋巍巍; 魏祖帅; 潘翠红; 梁旻轩
Original assignee: Guangdong Huihangwei Technology Co ltd; South China Institute of Environmental Science of Ministry of Ecology and Environment
Current assignee: Guangdong Huihangwei Technology Co ltd; South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-21

Abstract

本发明公开了一种基于时空数据清洗技术的水环境治理预测系统及其方法，包括数据采集模块和监测中心，所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏，实时数据和历史数据均存储在检测中心的数据库中，通过求取有序集合的交计算相似度，时间复杂度为0(m+n)，在召回率相同的情况下，提高了算法的时间效率，有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题，通过采用低复杂度的匹配方法分步聚类，进一步达到提高算法的时间效率的目的，可以快速准确地找到且清洗掉数据中的重复记录，确保用于水环境治理预测模块的数据的质量，从而提高水环境治理预测的准确度。

Description

一种基于时空数据清洗技术的水环境治理预测系统及其方法

技术领域

本发明涉及水环境治理技术领域，特别是一种基于时空数据清洗技术的水环境治理预测系统及其方法。

背景技术

水环境的治理具有重要的意义，通过各种各样的水质检测装置从河水中进行取样，对河水进行分析，从而获得河水的含氧量、氮磷浓度、污染物浓度等数据，通过大数据对数据进行整理、分析，从而可以对河水未来的含氧量、氮磷浓度等发展趋势进行预测，常见的预测方法有数字模型法、物理模型法、类比分析法。

水环境治理预测对数据的依赖性很强，但是从多个数据源导入数据库的数据会存在各种质量问题，比如缺失数据、冗余数据(重复数据)、范围异常数据、异常数据。通过时空数据清洗技术发现、清理数据中的错误来提高数据的质量。处理后的数据质量、准确性提高，促进应用于数据仓库前端的决策支持系统产生的分析结果的准确度提高，预测的结果更加贴合实际情况，水环境治理预测的准确度提高。常见的数据中的错误为重复记录，水环境检测时在同一时间、同一地点、同一采集项目的数据在数据库或者数据仓库中应该只有一条与之对应的记录，但是多个数据源进行集成时会产生大量的重复记录。

但是现有的邻近排序法在运行过程中，尽管将数据比较的范围限制在窗口大小为Q的范围内，但是在实际数据中，针对数据表而言，出现重复记录的记录还是很少的，大部分数据是没有重复的，这样窗口内的重复记录应该还是有限的，如果仍然将窗口的每条记录都和其他记录进行类似性比较，会导致求取记录相似性的复杂度大于0(m*n)，对重复数据查找、去除的效率低，数据记录的匹配和合并的完整性和准确性有待提高；现有技术汇中可以通过编辑距离函数对于由输入错误而导致的字符串匹配有一定的效果，但是编辑距离函数对于长单词的插入和删除，其效果很差，而且该函数无法同时解决单词的位置交换问题、算法复杂度高，从而导致数据库中汇合的数据质量、真实性有待提高，导致水环境治理预测的结果偏离实际，准确度较低。

发明内容

鉴于上述现有的水环境治理预测系统中存在的问题，提出了本发明。

因此，本发明的一个目的是利用TI-similarity字符匹配方法和Canopy聚类技术改进的排序邻居法，并改善数据记录的匹配和合并问题，从而降低匹配方法的复杂度，提高算法的时间效率。

为解决上述技术问题，本发明提供如下技术方案：一种基于时空数据清洗技术的水环境治理预测系统，包括数据采集模块和监测中心，所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏；

所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存；

所述数据库用于进行数据的存储和管理；

所述时空数据清洗模块用于对数据库中的数据进行处理，特别是字段的匹配，过滤掉错误、重复字段；

作为本发明的一种优选方案，所述数据采集模块由若干耐压传感器组成，安装在水质采集装置外壁上，所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心，该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。

作为本发明的一种优选方案，所述中央处理器采用Window系统，算法由Java语言编写，所述数据库使用AQLServer2014。

一种基于时空数据清洗技术的水环境治理预测方法，通过传感器组实时采集所检测河段的水质数据，将采集的数据通过北斗模块发送到监测中心的中央处理器，实时数据和历史数据均存储在监测中心的数据库中，通过时空数据清洗模块对数据库中的记录进行处理，将处理后的高质量的数据提供给水环境治理预测模块，水环境治理预测模块运行对数据进行分析、得到水质预测的结果，通过触摸显示屏展示出来。

作为本发明的一种优选方案，所述时空数据清洗模块中清洗重复记录的具体流程如下：

步骤一：预处理；第一，选择属性，选择用于记录匹配的属性，第二，给属性分配权值，根据属性再决定两条记录相似性中重要程度的不同，为每个属性分配不同的权重；

步骤二：重复记录检测；第一，使用快排序算法将每条记录的字段的字符集合排序，使之成为有序集合，两个大小为m和n的集合分别排序；第二，对有序集合求交，计算字段的相似度；对任意的三条记录A、B和C，应用TI-Similarity定义的相似度函数公式得到：

A和B的相似度值为

B和C的相似度值为

通过A、B和B、C的相似度值带入TI-similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度，当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录；当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的，即代表不同现实实体；当计算的相似度值不满足以上任何一种关系时，再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录；该字段匹配方法不需要A、C进行字符串的比较算法，可以减少记录之间比较的次数，从而提高进行清洗的时间效率；

步骤三：数据库级的重复记录聚类；第一阶段，使用近似地计算距离的函数approxDist粗略地创建一些重叠的子集，称为Canopy；

第二阶段，在每个Canopy内运用系统聚类方法精确地计算Canopy内的数据点，对Canopy内的重复记录进行聚类，如果距离最近的两类的距离大于阈值k，或者聚类数已经为1,则结束聚类操作。假设Canopy_i内共有n(n>＝2)个点，d_i和d_j(1＝<i，j<＝n)为Canopy_i内任意两点，具体的聚类步骤如下：

(1)计算n个数据点两两间的距离{d_ij}，记作D＝{d_ij}；

(2)构造n个类，每个类只包含一个数据点；

(3)比较得到距离最近的两个类，如果距离小于值k，把两类合并，转到步骤(4)，否则转到步骤(5)；

(4)用最大距离法计算新类与当前类的距离，若类的个数等于1，转到步骤(5)，否则回到步骤(3)；

(5)输出记录数大于等于2的聚类；

重复记录聚类中正确的那条记录被保存在数据库中，可以避免对整个数据表进行排列，通过系统聚类技术对数据库的近似重复记录进行聚类，得到重复记录后，做合并/删除重复记录的操作；

步骤四：冲突处理；采用基于密度聚类的技术，同一类中的数据记录可以看作近似重复记录，只保留一个离聚类中心点最近的数据记录，其他数据记录就视为近似重复记录,将所述步骤三中检测出的重复记录合并，从而完成了近似重复记录的清洗。

作为本发明的一种优选方案，所述步骤二中使用TI-similarity不等式关系距离函数d(A,B)的具体步骤如下：

令L_B(A,C)＝Sim _F(A,B)+Sim _F(B,C)-1，

U_B(A,C)＝1-|Sim _F(A,B)-Sim _F(B,C)|，

即Sim _F(A,C)≥L_B(A,C)；Sim _F(A,C)≤U_B(A,C)；计算出Sim _F(A,C)的上下界，得到A、C的相似度的最大值为U_B(A,C)，最小值为L_B(A,C)。

作为本发明的一种优选方案，所述水环境治理预测模块的运行过程如下：

S1：从数据库库中提取过滤后的数据；

S2：河水水质概念模型的建立；

S3：选择数学模型；

S4：求解数学模型；

S5：模型的识别、检测及其预测；

S6：得到水质预测的结果。

作为本发明的一种优选方案，所述步骤一中的属性可以为流量字段、流速字段、水位字段、水温字段、泥沙字段、浊度字段、酸碱度字段、电导度字段、溶解氧字段、生化需氧量字段、化学需氧量字段、营养盐字段、全景图像字段、GPS坐标字段和叶绿素参数字段中任意一个。

作为本发明的一种优选方案，所述步骤三中创建Canopy的步骤如下：

(1)把数据库中所有点放进一个列表中，作为中心点的备选；

(2)随机选取列表中一个点作为中心点，把与中心点距离小于等于T₁(T为创建Canopy的数据阀值)的点放进Canopy，从中心点列表中删除与中心点距离小于等于T₂(T₁≥T₂)的点(包括原来的中心点)；

(3)检查中心点列表是否已是空集，如果是，则结束操作，如果不是空集，重复步骤(2)。

作为本发明的一种优选方案，所述步骤一中为每个属性分配的权重值的选取范围为0-10。

本发明的有益效果：引入TI-similarity字符匹配方法对排序邻居法进行改进，改进后的排序邻居法的时复杂度优于传统算法，该字段匹配方法不需要A、C进行字符串的比较算法，有效的减少了记录的比较次数，通过求取有序集合的交计算相似度，时间复杂度为0(m+n)，在召回率相同的情况下，提高算法的时间效率，由于TI-similarity通过对字符串的字符排序后求交，所以对于单词置换也有很好的适应性，提高了计算字符串相似度的时间效率，使其对大数据集合有更好的适应性；利用Canopy聚类技术改进排序邻居法，通过在数据库级中应用重复记录聚类的算法，以减少记录比较的范围，对整个数据集中的重复记录进行聚类，Canopy聚类技术则从经典的“排序-合并”思想中跳出，有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题，通过采用低复杂度的匹配方法分步聚类，达到提高算法的时间效率的目的，可以快速准确地找到且清洗掉数据中的重复记录，确保用于水环境治理预测模块的数据的质量，从而提高水环境治理预测的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明实施例中基于时空数据清洗技术的水环境治理预测系统的结构示意图；

图2为本发明实施例中水环境治理预测模块的运行过程；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

由于在传统的排序邻居法在运行过程中，求取记录相似性的复杂度大于0(m*n)，对重复数据查找、去除的效率低；现有技术汇中可以通过编辑距离函数对于由输入错误而导致的字符串匹配有一定的效果，但是编辑距离函数对于长单词的插入和删除，其效果很差，而且该函数无法同时解决单词的位置交换问题、算法复杂度高，

基于此，参照图1，为本发明的一个实施例，该实施例提供了一种基于时空数据清洗技术的水环境治理预测系统，包括数据采集模块和监测中心，所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏；所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存；所述数据库用于进行数据的存储和管理；所述时空数据清洗模块用于对数据库中的数据进行处理，特别是字段的匹配，过滤掉错误、重复字段。

所述数据采集模块由若干耐压传感器组成，安装在水质采集装置外壁上，所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心，该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。

所述中央处理器采用Window系统，算法由Java语言编写，所述数据库使用AQLServer2014。

还提供了一种基于时空数据清洗技术的水环境治理预测方法，通过传感器组实时采集所检测河段的水质数据，将采集的数据通过北斗模块发送到监测中心的中央处理器，实时数据和历史数据均存储在监测中心的数据库中，通过时空数据清洗模块对数据库中的记录进行处理，将处理后的高质量的数据提供给水环境治理预测模块，水环境治理预测模块运行对数据进行分析、得到水质预测的结果，通过触摸显示屏展示出来。

所述时空数据清洗模块中清洗重复记录的具体流程如下：

A和B的相似度值为

B和C的相似度值为

通过A、B和B、C的相似度值带入TI-similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度。算法描述如下：

float getTI-Similarity(OrderLinkList A，OrderLinkList B)

{m＝ListLength(A)；n＝Listlength(B)；//分别求得表长

i＝1；j＝1；score＝0；

while(i<＝m&&j<＝n)//顺序考察表中元素

{

if(GetPos(A,i)&&GetPos(B,j))

{//两个表中都还有元素未曾考察

GetCurElem(A,ea)；

GetCurElem(B,eb)；

if(ea<eb)++i；

else if(ea>eb)++j；

else

{++i；

++j；

score++；

}

else{

break；

}

return score/float(max(m,n))；

}

当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录；当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的，即代表不同现实实体；当计算的相似度值不满足以上任何一种关系时，再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录；该字段匹配方法不需要A、C进行字符串的比较算法，可以减少记录之间比较的次数，从而提高进行清洗的时间效率；

(1)计算n个数据点两两间的距离{d_ij}，记作D＝{d_ij}；

(2)构造n个类，每个类只包含一个数据点；

(5)输出记录数大于等于2的聚类；

所述步骤二中使用TI-similarity不等式关系距离函数d(A,B)的具体步骤如下：

令L_B(A,C)＝Sim _F(A,B)+Sim _F(B,C)-1，

U_B(A,C)＝1-|Sim _F(A,B)-Sim _F(B,C)|，

S1：从数据库库中提取过滤后的数据；

S2：河水水质概念模型的建立；

S3：选择数学模型；

S4：求解数学模型；

S5：模型的识别、检测及其预测；

S6：得到水质预测的结果。

(1)把数据库中所有点放进一个列表中，作为中心点的备选；

所述步骤一中为每个属性分配的权重值的选取范围为0-10。

综上所述，引入TI-similarity字符匹配方法对排序邻居法进行改进，改进后的排序邻居法的时复杂度优于传统算法，该字段匹配方法不需要A、C进行字符串的比较算法，有效的减少了记录的比较次数，通过求取有序集合的交计算相似度，时间复杂度为0(m+n)，在召回率相同的情况下，提高算法的时间效率，由于TI-similarity通过对字符串的字符排序后求交，所以对于单词置换也有很好的适应性，提高了计算字符串相似度的时间效率，使其对大数据集合有更好的适应性；利用Canopy聚类技术改进排序邻居法，通过在数据库级中应用重复记录聚类的算法，以减少记录比较的范围，对整个数据集中的重复记录进行聚类，Canopy聚类技术则从经典的“排序-合并”思想中跳出，有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题，通过采用低复杂度的匹配方法分步聚类，达到提高算法的时间效率的目的，可以快速准确地找到且清洗掉数据中的重复记录，确保用于水环境治理预测模块的数据的质量，从而提高水环境治理预测的准确度。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时空数据清洗技术的水环境治理预测系统，其特征在于：包括数据采集模块和监测中心，所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏；

所述数据库用于进行数据的存储和管理；

所述时空数据清洗模块用于对数据库中的数据进行处理，特别是字段的匹配，过滤掉错误、重复字段。

2.如权利要求1所述的一种基于时空数据清洗技术的水环境治理预测系统，其特征在于：所述数据采集模块由若干耐压传感器组成，安装在水质采集装置外壁上，所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心，该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。

3.如权利要求1所述的一种基于时空数据清洗技术的水环境治理预测系统，其特征在于：所述中央处理器采用Window系统，算法由Java语言编写，所述数据库使用AQLServer2014。

4.如权利要求1-3任意一项所述的一种基于时空数据清洗技术的水环境治理预测方法，其特征在于:通过传感器组实时采集所检测河段的水质数据，将采集的数据通过北斗模块发送到监测中心的中央处理器，实时数据和历史数据均存储在监测中心的数据库中，通过时空数据清洗模块对数据库中的记录进行处理，将处理后的高质量的数据提供给水环境治理预测模块，水环境治理预测模块运行对数据进行分析、得到水质预测的结果，通过触摸显示屏展示出来。

5.如权利要求4所述的一种基于时空数据清洗技术的水环境治理预测方法，其特征在于：所述时空数据清洗模块中清洗重复记录的具体流程如下：

A和B的相似度值为

B和C的相似度值为

(1)计算n个数据点两两间的距离{d_ij}，记作D＝{d_ij}；

(2)构造n个类，每个类只包含一个数据点；

(5)输出记录数大于等于2的聚类；

6.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测系统及其方法，其特征在于：所述步骤二中使用TI-similarity不等式关系距离函数d(A,B)的具体步骤如下：

令L_B(A,C)＝Sim _F(A,B)+Sim _F(B,C)-1，

U_B(A,C)＝1-|Sim _F(A,B)-Sim _F(B,C)|，

7.如权利要求4所述的一种基于时空数据清洗技术的水环境治理预测方法，其特征在于：所述水环境治理预测模块的运行过程如下：

S1：从数据库库中提取过滤后的数据；

S2：河水水质概念模型的建立；

S3：选择数学模型；

S4：求解数学模型；

S5：模型的识别、检测及其预测；

S6：得到水质预测的结果。

8.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测方法，其特征在于：所述步骤一中的属性可以为流量字段、流速字段、水位字段、水温字段、泥沙字段、浊度字段、酸碱度字段、电导度字段、溶解氧字段、生化需氧量字段、化学需氧量字段、营养盐字段、全景图像字段、GPS坐标字段和叶绿素参数字段中任意一个。

9.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测方法，其特征在于：所述步骤三中创建Canopy的步骤如下：

(1)把数据库中所有点放进一个列表中，作为中心点的备选；

10.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测系统，其特征在于：所述步骤一中为每个属性分配的权重值的选取范围为0-10。