CN115829143A - 一种基于时空数据清洗技术的水环境治理预测系统及其方法 - Google Patents

一种基于时空数据清洗技术的水环境治理预测系统及其方法 Download PDF

Info

Publication number
CN115829143A
CN115829143A CN202211618841.XA CN202211618841A CN115829143A CN 115829143 A CN115829143 A CN 115829143A CN 202211618841 A CN202211618841 A CN 202211618841A CN 115829143 A CN115829143 A CN 115829143A
Authority
CN
China
Prior art keywords
data
similarity
water environment
records
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211618841.XA
Other languages
English (en)
Inventor
李琪
庄子槺
谢冠武
方嘉炜
宋巍巍
魏祖帅
潘翠红
梁旻轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Huihangwei Technology Co ltd
South China Institute of Environmental Science of Ministry of Ecology and Environment
Original Assignee
Guangdong Huihangwei Technology Co ltd
South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Huihangwei Technology Co ltd, South China Institute of Environmental Science of Ministry of Ecology and Environment filed Critical Guangdong Huihangwei Technology Co ltd
Priority to CN202211618841.XA priority Critical patent/CN115829143A/zh
Publication of CN115829143A publication Critical patent/CN115829143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于时空数据清洗技术的水环境治理预测系统及其方法,包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏,实时数据和历史数据均存储在检测中心的数据库中,通过求取有序集合的交计算相似度,时间复杂度为0(m+n),在召回率相同的情况下,提高了算法的时间效率,有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题,通过采用低复杂度的匹配方法分步聚类,进一步达到提高算法的时间效率的目的,可以快速准确地找到且清洗掉数据中的重复记录,确保用于水环境治理预测模块的数据的质量,从而提高水环境治理预测的准确度。

Description

一种基于时空数据清洗技术的水环境治理预测系统及其方法
技术领域
本发明涉及水环境治理技术领域,特别是一种基于时空数据清洗技术的水环境治理预测系统及其方法。
背景技术
水环境的治理具有重要的意义,通过各种各样的水质检测装置从河水中进行取样,对河水进行分析,从而获得河水的含氧量、氮磷浓度、污染物浓度等数据,通过大数据对数据进行整理、分析,从而可以对河水未来的含氧量、氮磷浓度等发展趋势进行预测,常见的预测方法有数字模型法、物理模型法、类比分析法。
水环境治理预测对数据的依赖性很强,但是从多个数据源导入数据库的数据会存在各种质量问题,比如缺失数据、冗余数据(重复数据)、范围异常数据、异常数据。通过时空数据清洗技术发现、清理数据中的错误来提高数据的质量。处理后的数据质量、准确性提高,促进应用于数据仓库前端的决策支持系统产生的分析结果的准确度提高,预测的结果更加贴合实际情况,水环境治理预测的准确度提高。常见的数据中的错误为重复记录,水环境检测时在同一时间、同一地点、同一采集项目的数据在数据库或者数据仓库中应该只有一条与之对应的记录,但是多个数据源进行集成时会产生大量的重复记录。
但是现有的邻近排序法在运行过程中,尽管将数据比较的范围限制在窗口大小为Q的范围内,但是在实际数据中,针对数据表而言,出现重复记录的记录还是很少的,大部分数据是没有重复的,这样窗口内的重复记录应该还是有限的,如果仍然将窗口的每条记录都和其他记录进行类似性比较,会导致求取记录相似性的复杂度大于0(m*n),对重复数据查找、去除的效率低,数据记录的匹配和合并的完整性和准确性有待提高;现有技术汇中可以通过编辑距离函数对于由输入错误而导致的字符串匹配有一定的效果,但是编辑距离函数对于长单词的插入和删除,其效果很差,而且该函数无法同时解决单词的位置交换问题、算法复杂度高,从而导致数据库中汇合的数据质量、真实性有待提高,导致水环境治理预测的结果偏离实际,准确度较低。
发明内容
鉴于上述现有的水环境治理预测系统中存在的问题,提出了本发明。
因此,本发明的一个目的是利用TI-similarity字符匹配方法和Canopy聚类技术改进的排序邻居法,并改善数据记录的匹配和合并问题,从而降低匹配方法的复杂度,提高算法的时间效率。
为解决上述技术问题,本发明提供如下技术方案:一种基于时空数据清洗技术的水环境治理预测系统,包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏;
所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存;
所述数据库用于进行数据的存储和管理;
所述时空数据清洗模块用于对数据库中的数据进行处理,特别是字段的匹配,过滤掉错误、重复字段;
作为本发明的一种优选方案,所述数据采集模块由若干耐压传感器组成,安装在水质采集装置外壁上,所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心,该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。
作为本发明的一种优选方案,所述中央处理器采用Window系统,算法由Java语言编写,所述数据库使用AQLServer2014。
一种基于时空数据清洗技术的水环境治理预测方法,通过传感器组实时采集所检测河段的水质数据,将采集的数据通过北斗模块发送到监测中心的中央处理器,实时数据和历史数据均存储在监测中心的数据库中,通过时空数据清洗模块对数据库中的记录进行处理,将处理后的高质量的数据提供给水环境治理预测模块,水环境治理预测模块运行对数据进行分析、得到水质预测的结果,通过触摸显示屏展示出来。
作为本发明的一种优选方案,所述时空数据清洗模块中清洗重复记录的具体流程如下:
步骤一:预处理;第一,选择属性,选择用于记录匹配的属性,第二,给属性分配权值,根据属性再决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
步骤二:重复记录检测;第一,使用快排序算法将每条记录的字段的字符集合排序,使之成为有序集合,两个大小为m和n的集合分别排序;第二,对有序集合求交,计算字段的相似度;对任意的三条记录A、B和C,应用TI-Similarity定义的相似度函数公式得到:
A和B的相似度值为
Figure BDA0004001346380000031
B和C的相似度值为
Figure BDA0004001346380000032
通过A、B和B、C的相似度值带入TI-similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度,当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录;当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的,即代表不同现实实体;当计算的相似度值不满足以上任何一种关系时,再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录;该字段匹配方法不需要A、C进行字符串的比较算法,可以减少记录之间比较的次数,从而提高进行清洗的时间效率;
步骤三:数据库级的重复记录聚类;第一阶段,使用近似地计算距离的函数approxDist粗略地创建一些重叠的子集,称为Canopy;
第二阶段,在每个Canopy内运用系统聚类方法精确地计算Canopy内的数据点,对Canopy内的重复记录进行聚类,如果距离最近的两类的距离大于阈值k,或者聚类数已经为1,则结束聚类操作。假设Canopyi内共有n(n>=2)个点,di和dj(1=<i,j<=n)为Canopyi内任意两点,具体的聚类步骤如下:
(1)计算n个数据点两两间的距离{dij},记作D={dij};
(2)构造n个类,每个类只包含一个数据点;
(3)比较得到距离最近的两个类,如果距离小于值k,把两类合并,转到步骤(4),否则转到步骤(5);
(4)用最大距离法计算新类与当前类的距离,若类的个数等于1,转到步骤(5),否则回到步骤(3);
(5)输出记录数大于等于2的聚类;
重复记录聚类中正确的那条记录被保存在数据库中,可以避免对整个数据表进行排列,通过系统聚类技术对数据库的近似重复记录进行聚类,得到重复记录后,做合并/删除重复记录的操作;
步骤四:冲突处理;采用基于密度聚类的技术,同一类中的数据记录可以看作近似重复记录,只保留一个离聚类中心点最近的数据记录,其他数据记录就视为近似重复记录,将所述步骤三中检测出的重复记录合并,从而完成了近似重复记录的清洗。
作为本发明的一种优选方案,所述步骤二中使用TI-similarity不等式关系距离函数d(A,B)的具体步骤如下:
令LB(A,C)=Sim F(A,B)+Sim F(B,C)-1,
UB(A,C)=1-|Sim F(A,B)-Sim F(B,C)|,
即Sim F(A,C)≥LB(A,C);Sim F(A,C)≤UB(A,C);计算出Sim F(A,C)的上下界,得到A、C的相似度的最大值为UB(A,C),最小值为LB(A,C)。
作为本发明的一种优选方案,所述水环境治理预测模块的运行过程如下:
S1:从数据库库中提取过滤后的数据;
S2:河水水质概念模型的建立;
S3:选择数学模型;
S4:求解数学模型;
S5:模型的识别、检测及其预测;
S6:得到水质预测的结果。
作为本发明的一种优选方案,所述步骤一中的属性可以为流量字段、流速字段、水位字段、水温字段、泥沙字段、浊度字段、酸碱度字段、电导度字段、溶解氧字段、生化需氧量字段、化学需氧量字段、营养盐字段、全景图像字段、GPS坐标字段和叶绿素参数字段中任意一个。
作为本发明的一种优选方案,所述步骤三中创建Canopy的步骤如下:
(1)把数据库中所有点放进一个列表中,作为中心点的备选;
(2)随机选取列表中一个点作为中心点,把与中心点距离小于等于T1(T为创建Canopy的数据阀值)的点放进Canopy,从中心点列表中删除与中心点距离小于等于T2(T1≥T2)的点(包括原来的中心点);
(3)检查中心点列表是否已是空集,如果是,则结束操作,如果不是空集,重复步骤(2)。
作为本发明的一种优选方案,所述步骤一中为每个属性分配的权重值的选取范围为0-10。
本发明的有益效果:引入TI-similarity字符匹配方法对排序邻居法进行改进,改进后的排序邻居法的时复杂度优于传统算法,该字段匹配方法不需要A、C进行字符串的比较算法,有效的减少了记录的比较次数,通过求取有序集合的交计算相似度,时间复杂度为0(m+n),在召回率相同的情况下,提高算法的时间效率,由于TI-similarity通过对字符串的字符排序后求交,所以对于单词置换也有很好的适应性,提高了计算字符串相似度的时间效率,使其对大数据集合有更好的适应性;利用Canopy聚类技术改进排序邻居法,通过在数据库级中应用重复记录聚类的算法,以减少记录比较的范围,对整个数据集中的重复记录进行聚类,Canopy聚类技术则从经典的“排序-合并”思想中跳出,有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题,通过采用低复杂度的匹配方法分步聚类,达到提高算法的时间效率的目的,可以快速准确地找到且清洗掉数据中的重复记录,确保用于水环境治理预测模块的数据的质量,从而提高水环境治理预测的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明实施例中基于时空数据清洗技术的水环境治理预测系统的结构示意图;
图2为本发明实施例中水环境治理预测模块的运行过程;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
由于在传统的排序邻居法在运行过程中,求取记录相似性的复杂度大于0(m*n),对重复数据查找、去除的效率低;现有技术汇中可以通过编辑距离函数对于由输入错误而导致的字符串匹配有一定的效果,但是编辑距离函数对于长单词的插入和删除,其效果很差,而且该函数无法同时解决单词的位置交换问题、算法复杂度高,
基于此,参照图1,为本发明的一个实施例,该实施例提供了一种基于时空数据清洗技术的水环境治理预测系统,包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏;所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存;所述数据库用于进行数据的存储和管理;所述时空数据清洗模块用于对数据库中的数据进行处理,特别是字段的匹配,过滤掉错误、重复字段。
所述数据采集模块由若干耐压传感器组成,安装在水质采集装置外壁上,所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心,该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。
所述中央处理器采用Window系统,算法由Java语言编写,所述数据库使用AQLServer2014。
还提供了一种基于时空数据清洗技术的水环境治理预测方法,通过传感器组实时采集所检测河段的水质数据,将采集的数据通过北斗模块发送到监测中心的中央处理器,实时数据和历史数据均存储在监测中心的数据库中,通过时空数据清洗模块对数据库中的记录进行处理,将处理后的高质量的数据提供给水环境治理预测模块,水环境治理预测模块运行对数据进行分析、得到水质预测的结果,通过触摸显示屏展示出来。
所述时空数据清洗模块中清洗重复记录的具体流程如下:
步骤一:预处理;第一,选择属性,选择用于记录匹配的属性,第二,给属性分配权值,根据属性再决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
步骤二:重复记录检测;第一,使用快排序算法将每条记录的字段的字符集合排序,使之成为有序集合,两个大小为m和n的集合分别排序;第二,对有序集合求交,计算字段的相似度;对任意的三条记录A、B和C,应用TI-Similarity定义的相似度函数公式得到:
A和B的相似度值为
Figure BDA0004001346380000071
B和C的相似度值为
Figure BDA0004001346380000072
通过A、B和B、C的相似度值带入TI-similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度。算法描述如下:
float getTI-Similarity(OrderLinkList A,OrderLinkList B)
{m=ListLength(A);n=Listlength(B);//分别求得表长
i=1;j=1;score=0;
while(i<=m&&j<=n)//顺序考察表中元素
{
if(GetPos(A,i)&&GetPos(B,j))
{//两个表中都还有元素未曾考察
GetCurElem(A,ea);
GetCurElem(B,eb);
if(ea<eb)++i;
else if(ea>eb)++j;
else
{++i;
++j;
score++;
}
}
else{
break;
}
}
return score/float(max(m,n));
}
当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录;当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的,即代表不同现实实体;当计算的相似度值不满足以上任何一种关系时,再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录;该字段匹配方法不需要A、C进行字符串的比较算法,可以减少记录之间比较的次数,从而提高进行清洗的时间效率;
步骤三:数据库级的重复记录聚类;第一阶段,使用近似地计算距离的函数approxDist粗略地创建一些重叠的子集,称为Canopy;
第二阶段,在每个Canopy内运用系统聚类方法精确地计算Canopy内的数据点,对Canopy内的重复记录进行聚类,如果距离最近的两类的距离大于阈值k,或者聚类数已经为1,则结束聚类操作。假设Canopyi内共有n(n>=2)个点,di和dj(1=<i,j<=n)为Canopyi内任意两点,具体的聚类步骤如下:
(1)计算n个数据点两两间的距离{dij},记作D={dij};
(2)构造n个类,每个类只包含一个数据点;
(3)比较得到距离最近的两个类,如果距离小于值k,把两类合并,转到步骤(4),否则转到步骤(5);
(4)用最大距离法计算新类与当前类的距离,若类的个数等于1,转到步骤(5),否则回到步骤(3);
(5)输出记录数大于等于2的聚类;
重复记录聚类中正确的那条记录被保存在数据库中,可以避免对整个数据表进行排列,通过系统聚类技术对数据库的近似重复记录进行聚类,得到重复记录后,做合并/删除重复记录的操作;
步骤四:冲突处理;采用基于密度聚类的技术,同一类中的数据记录可以看作近似重复记录,只保留一个离聚类中心点最近的数据记录,其他数据记录就视为近似重复记录,将所述步骤三中检测出的重复记录合并,从而完成了近似重复记录的清洗。
所述步骤二中使用TI-similarity不等式关系距离函数d(A,B)的具体步骤如下:
令LB(A,C)=Sim F(A,B)+Sim F(B,C)-1,
UB(A,C)=1-|Sim F(A,B)-Sim F(B,C)|,
即Sim F(A,C)≥LB(A,C);Sim F(A,C)≤UB(A,C);计算出Sim F(A,C)的上下界,得到A、C的相似度的最大值为UB(A,C),最小值为LB(A,C)。
作为本发明的一种优选方案,所述水环境治理预测模块的运行过程如下:
S1:从数据库库中提取过滤后的数据;
S2:河水水质概念模型的建立;
S3:选择数学模型;
S4:求解数学模型;
S5:模型的识别、检测及其预测;
S6:得到水质预测的结果。
作为本发明的一种优选方案,所述步骤一中的属性可以为流量字段、流速字段、水位字段、水温字段、泥沙字段、浊度字段、酸碱度字段、电导度字段、溶解氧字段、生化需氧量字段、化学需氧量字段、营养盐字段、全景图像字段、GPS坐标字段和叶绿素参数字段中任意一个。
作为本发明的一种优选方案,所述步骤三中创建Canopy的步骤如下:
(1)把数据库中所有点放进一个列表中,作为中心点的备选;
(2)随机选取列表中一个点作为中心点,把与中心点距离小于等于T1(T为创建Canopy的数据阀值)的点放进Canopy,从中心点列表中删除与中心点距离小于等于T2(T1≥T2)的点(包括原来的中心点);
(3)检查中心点列表是否已是空集,如果是,则结束操作,如果不是空集,重复步骤(2)。
所述步骤一中为每个属性分配的权重值的选取范围为0-10。
综上所述,引入TI-similarity字符匹配方法对排序邻居法进行改进,改进后的排序邻居法的时复杂度优于传统算法,该字段匹配方法不需要A、C进行字符串的比较算法,有效的减少了记录的比较次数,通过求取有序集合的交计算相似度,时间复杂度为0(m+n),在召回率相同的情况下,提高算法的时间效率,由于TI-similarity通过对字符串的字符排序后求交,所以对于单词置换也有很好的适应性,提高了计算字符串相似度的时间效率,使其对大数据集合有更好的适应性;利用Canopy聚类技术改进排序邻居法,通过在数据库级中应用重复记录聚类的算法,以减少记录比较的范围,对整个数据集中的重复记录进行聚类,Canopy聚类技术则从经典的“排序-合并”思想中跳出,有效避免了由于对排序键依赖性强而可能使重复记录排序后位置相距较远的问题,通过采用低复杂度的匹配方法分步聚类,达到提高算法的时间效率的目的,可以快速准确地找到且清洗掉数据中的重复记录,确保用于水环境治理预测模块的数据的质量,从而提高水环境治理预测的准确度。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:包括数据采集模块和监测中心,所述监测中心包括数据库、时空数据清洗模块、中央处理器、水环境治理预测模块和触摸显示屏;
所述数据采集模块中采集的数据被转化为可传输的字段传输至数据库中进行保存;
所述数据库用于进行数据的存储和管理;
所述时空数据清洗模块用于对数据库中的数据进行处理,特别是字段的匹配,过滤掉错误、重复字段。
2.如权利要求1所述的一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:所述数据采集模块由若干耐压传感器组成,安装在水质采集装置外壁上,所述传感器组通过其内部的北斗模块实时将所检测河段的数据发生至监控中心,该数据的具体采集项目包括流量、流速、水位、水温、泥沙、浊度、酸碱度、电导度、溶解氧、生化需氧量、化学需氧量、营养盐、全景图像、GPS坐标和叶绿素参数。
3.如权利要求1所述的一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:所述中央处理器采用Window系统,算法由Java语言编写,所述数据库使用AQLServer2014。
4.如权利要求1-3任意一项所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:通过传感器组实时采集所检测河段的水质数据,将采集的数据通过北斗模块发送到监测中心的中央处理器,实时数据和历史数据均存储在监测中心的数据库中,通过时空数据清洗模块对数据库中的记录进行处理,将处理后的高质量的数据提供给水环境治理预测模块,水环境治理预测模块运行对数据进行分析、得到水质预测的结果,通过触摸显示屏展示出来。
5.如权利要求4所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:所述时空数据清洗模块中清洗重复记录的具体流程如下:
步骤一:预处理;第一,选择属性,选择用于记录匹配的属性,第二,给属性分配权值,根据属性再决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
步骤二:重复记录检测;第一,使用快排序算法将每条记录的字段的字符集合排序,使之成为有序集合,两个大小为m和n的集合分别排序;第二,对有序集合求交,计算字段的相似度;对任意的三条记录A、B和C,应用TI-Similarity定义的相似度函数公式得到:
A和B的相似度值为
Figure FDA0004001346370000021
B和C的相似度值为
Figure FDA0004001346370000022
通过A、B和B、C的相似度值带入TI-similarity不等式关系距离函数d(A,B)来计算A、C的最大相似度和最小相似度,当A和C的最小相似度大于相似性判定的阈值时则认为A和C是重复记录;当A和C的最大相似度值小于相似性判定的阈值时则认为A和C是非重复的,即代表不同现实实体;当计算的相似度值不满足以上任何一种关系时,再采用精确的记录匹配方法计算A和C的相似性A和C是否重复记录;该字段匹配方法不需要A、C进行字符串的比较算法,可以减少记录之间比较的次数,从而提高进行清洗的时间效率;
步骤三:数据库级的重复记录聚类;第一阶段,使用近似地计算距离的函数approxDist粗略地创建一些重叠的子集,称为Canopy;
第二阶段,在每个Canopy内运用系统聚类方法精确地计算Canopy内的数据点,对Canopy内的重复记录进行聚类,如果距离最近的两类的距离大于阈值k,或者聚类数已经为1,则结束聚类操作。假设Canopyi内共有n(n>=2)个点,di和dj(1=<i,j<=n)为Canopyi内任意两点,具体的聚类步骤如下:
(1)计算n个数据点两两间的距离{dij},记作D={dij};
(2)构造n个类,每个类只包含一个数据点;
(3)比较得到距离最近的两个类,如果距离小于值k,把两类合并,转到步骤(4),否则转到步骤(5);
(4)用最大距离法计算新类与当前类的距离,若类的个数等于1,转到步骤(5),否则回到步骤(3);
(5)输出记录数大于等于2的聚类;
重复记录聚类中正确的那条记录被保存在数据库中,可以避免对整个数据表进行排列,通过系统聚类技术对数据库的近似重复记录进行聚类,得到重复记录后,做合并/删除重复记录的操作;
步骤四:冲突处理;采用基于密度聚类的技术,同一类中的数据记录可以看作近似重复记录,只保留一个离聚类中心点最近的数据记录,其他数据记录就视为近似重复记录,将所述步骤三中检测出的重复记录合并,从而完成了近似重复记录的清洗。
6.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测系统及其方法,其特征在于:所述步骤二中使用TI-similarity不等式关系距离函数d(A,B)的具体步骤如下:
令LB(A,C)=Sim F(A,B)+Sim F(B,C)-1,
UB(A,C)=1-|Sim F(A,B)-Sim F(B,C)|,
即Sim F(A,C)≥LB(A,C);Sim F(A,C)≤UB(A,C);计算出Sim F(A,C)的上下界,得到A、C的相似度的最大值为UB(A,C),最小值为LB(A,C)。
7.如权利要求4所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:所述水环境治理预测模块的运行过程如下:
S1:从数据库库中提取过滤后的数据;
S2:河水水质概念模型的建立;
S3:选择数学模型;
S4:求解数学模型;
S5:模型的识别、检测及其预测;
S6:得到水质预测的结果。
8.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:所述步骤一中的属性可以为流量字段、流速字段、水位字段、水温字段、泥沙字段、浊度字段、酸碱度字段、电导度字段、溶解氧字段、生化需氧量字段、化学需氧量字段、营养盐字段、全景图像字段、GPS坐标字段和叶绿素参数字段中任意一个。
9.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测方法,其特征在于:所述步骤三中创建Canopy的步骤如下:
(1)把数据库中所有点放进一个列表中,作为中心点的备选;
(2)随机选取列表中一个点作为中心点,把与中心点距离小于等于T1(T为创建Canopy的数据阀值)的点放进Canopy,从中心点列表中删除与中心点距离小于等于T2(T1≥T2)的点(包括原来的中心点);
(3)检查中心点列表是否已是空集,如果是,则结束操作,如果不是空集,重复步骤(2)。
10.如权利要求5所述的一种基于时空数据清洗技术的水环境治理预测系统,其特征在于:所述步骤一中为每个属性分配的权重值的选取范围为0-10。
CN202211618841.XA 2022-12-15 2022-12-15 一种基于时空数据清洗技术的水环境治理预测系统及其方法 Pending CN115829143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211618841.XA CN115829143A (zh) 2022-12-15 2022-12-15 一种基于时空数据清洗技术的水环境治理预测系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211618841.XA CN115829143A (zh) 2022-12-15 2022-12-15 一种基于时空数据清洗技术的水环境治理预测系统及其方法

Publications (1)

Publication Number Publication Date
CN115829143A true CN115829143A (zh) 2023-03-21

Family

ID=85547529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211618841.XA Pending CN115829143A (zh) 2022-12-15 2022-12-15 一种基于时空数据清洗技术的水环境治理预测系统及其方法

Country Status (1)

Country Link
CN (1) CN115829143A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183206A (ja) * 2000-12-15 2002-06-28 Mitsubishi Electric Corp 類似オブジェクト検索方法及び類似オブジェクト検索装置
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN104699796A (zh) * 2015-03-18 2015-06-10 浪潮集团有限公司 一种基于数据仓库的数据清洗方法
CN106092195A (zh) * 2016-06-21 2016-11-09 杨州 一种水环境监测系统
US20170308557A1 (en) * 2016-04-21 2017-10-26 LeanTaas Method and system for cleansing and de-duplicating data
CN107832450A (zh) * 2017-11-23 2018-03-23 安徽科创智慧知识产权服务有限公司 用于清洗数据重复记录的方法
CN108268876A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于聚类的近似重复记录的检测方法及装置
CN110689179A (zh) * 2019-09-18 2020-01-14 北京工商大学 基于时空序列混合模型的水华预测方法
CN110728320A (zh) * 2019-10-11 2020-01-24 福建工程学院 一种基于自编码和聚类结合的水质监测预警方法及系统
CN111723084A (zh) * 2020-06-28 2020-09-29 广东科创工程技术有限公司 一种水环境数据快速清洗识别的治理方法
CN113010505A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种水环境大数据清洗方法
CN113777257A (zh) * 2021-09-02 2021-12-10 湖南汇青环保科技有限公司 一种水质在线监测大数据分析方法、系统及存储介质
CN114066211A (zh) * 2021-11-11 2022-02-18 北京师范大学 一种流域水环境管理大数据平台

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183206A (ja) * 2000-12-15 2002-06-28 Mitsubishi Electric Corp 類似オブジェクト検索方法及び類似オブジェクト検索装置
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN104699796A (zh) * 2015-03-18 2015-06-10 浪潮集团有限公司 一种基于数据仓库的数据清洗方法
US20170308557A1 (en) * 2016-04-21 2017-10-26 LeanTaas Method and system for cleansing and de-duplicating data
CN106092195A (zh) * 2016-06-21 2016-11-09 杨州 一种水环境监测系统
CN108268876A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于聚类的近似重复记录的检测方法及装置
CN107832450A (zh) * 2017-11-23 2018-03-23 安徽科创智慧知识产权服务有限公司 用于清洗数据重复记录的方法
CN110689179A (zh) * 2019-09-18 2020-01-14 北京工商大学 基于时空序列混合模型的水华预测方法
CN110728320A (zh) * 2019-10-11 2020-01-24 福建工程学院 一种基于自编码和聚类结合的水质监测预警方法及系统
CN111723084A (zh) * 2020-06-28 2020-09-29 广东科创工程技术有限公司 一种水环境数据快速清洗识别的治理方法
CN113010505A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种水环境大数据清洗方法
CN113777257A (zh) * 2021-09-02 2021-12-10 湖南汇青环保科技有限公司 一种水质在线监测大数据分析方法、系统及存储介质
CN114066211A (zh) * 2021-11-11 2022-02-18 北京师范大学 一种流域水环境管理大数据平台

Similar Documents

Publication Publication Date Title
CN110263230B (zh) 一种基于密度聚类的数据清洗方法及装置
CN101315631B (zh) 一种新闻视频故事单元关联方法
CN110389950B (zh) 一种快速运行的大数据清洗方法
US7562067B2 (en) Systems and methods for estimating functional relationships in a database
CN111914550B (zh) 一种面向限定领域的知识图谱更新方法及系统
CN113343012B (zh) 一种新闻配图方法、装置、设备及存储介质
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN112965960A (zh) 一种智慧警务数据融合清洗研判装置
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN115114352B (zh) 一种用于典型污染物快速分析管理系统
CN118331952B (zh) 一种基于大数据的财务数据清洗管理系统及方法
CN115829143A (zh) 一种基于时空数据清洗技术的水环境治理预测系统及其方法
van Erp et al. Georeferencing animal specimen datasets
CN114124576A (zh) 一种基于知识图谱的诈骗网站关联方法及系统
TW200409046A (en) Optical character recognition device, document searching system, and document searching program
CN110457370A (zh) 基于人工智能的数据挖掘中孤立点检测系统及清理方法
CN113033694B (zh) 一种基于深度学习的数据清洗方法
CN113886667A (zh) 一种时空数据聚类方法
CN113706459A (zh) 一种自闭症患者异常脑区的检测及模拟修复装置
Ursul et al. Unsupervised detection of anomalous running patterns using cluster analysis
Huang et al. Construction and application of Bayesian network model for spatial data mining
CN117787864B (zh) 一种动物组织采样管溯源入库管理方法
CN117786182B (zh) 基于erp系统的业务数据存储系统及方法
CN116595389B (zh) 识别异常客户端的方法、装置、计算机设备和存储介质
CN113553825B (zh) 一种电子公文脉络关系分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination