CN115827621B - 基于云计算和数据分析的水务数据管理系统 - Google Patents

基于云计算和数据分析的水务数据管理系统 Download PDF

Info

Publication number
CN115827621B
CN115827621B CN202310126632.1A CN202310126632A CN115827621B CN 115827621 B CN115827621 B CN 115827621B CN 202310126632 A CN202310126632 A CN 202310126632A CN 115827621 B CN115827621 B CN 115827621B
Authority
CN
China
Prior art keywords
water service
data
water
service data
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310126632.1A
Other languages
English (en)
Other versions
CN115827621A (zh
Inventor
张自力
牛豫海
田志民
张增烁
张添禹
于凯
王嘉铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Construction & Investment Water Investment Co ltd
Hebei Xiong'an Ruitian Technology Co ltd
Original Assignee
Hebei Construction & Investment Water Investment Co ltd
Hebei Xiong'an Ruitian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Construction & Investment Water Investment Co ltd, Hebei Xiong'an Ruitian Technology Co ltd filed Critical Hebei Construction & Investment Water Investment Co ltd
Priority to CN202310126632.1A priority Critical patent/CN115827621B/zh
Publication of CN115827621A publication Critical patent/CN115827621A/zh
Application granted granted Critical
Publication of CN115827621B publication Critical patent/CN115827621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开基于云计算和数据分析的水务数据管理系统,涉及水务管理技术领域。本发明包括,水务终端,用于收集水务数据并上传;云端,用于接收水务终端上传的数据;根据水务终端上传的水务数据随机获取多个水务数据集合以及数据正确性识别结果;根据多个水务数据集合中的水务数据以及数据正确性识别结果获取多个数据识别决策树;将若干个数据识别决策树下载至水务终端;水务终端,还用于根据数据识别决策树对接收到的水务数据进行正确性识别得到清洗后水务数据;将清洗后水务数据上传至云端。本发明通过云端和本地段进行联动数据处理,实现了水务数据高效准确清洗。

Description

基于云计算和数据分析的水务数据管理系统
技术领域
本发明属于水务管理技术领域,特别是涉及基于云计算和数据分析的水务数据管理系统。
背景技术
水务数据包括用水量、用水时间以及用水性质等诸多信息,并且随着用户的不断使用持续产生,由于物联网水务终端例如物联网水表等设备本身的硬件局限性,导致产生的水务数据不仅数据量大,而且可能具有部分错误。如果采用人工的方式进行核实验证,效率极低不具有可操作性。
如果在每一个水务终端按照人工数据分析核实的方式,这样会导致成本过高。
在公开号为CN111427965A的专利中公开了一种水务数据的管理方法和管理系统,包括:区块链服务器端将满足预设的硬件要求的设备设置为区块链终端,硬件要求包括:数据处理能力、数据存储能力以及网速;区块链服务器端将待管理水务数据存储在本地,并根据预设的管理策略将待管理水务数据发送到区块链终端;区块链终端存储待管理数据,并与区块链服务器端进行待管理数据的核对,如果核对通过,则结束对待管理水务数据的管理。但是上述方案没有针对服务器端和区块链终端的硬件特点,对水务数据分析进行分工协作处理。
发明内容
本发明的目的在于提供基于云计算和数据分析的水务数据管理系统,通过云端和本地段进行联动数据处理,实现了水务数据高效准确清洗。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供基于云计算和数据分析的水务数据管理系统,包括,
水务终端,用于收集水务数据并上传;
云端,用于接收所述水务终端上传的数据;
根据所述水务终端上传的水务数据随机获取多个水务数据集合以及数据正确性识别结果;
根据多个水务数据集合中的水务数据以及数据正确性识别结果获取多个所述数据识别决策树;
将若干个所述数据识别决策树下载至所述水务终端;
水务终端,还用于根据所述数据识别决策树对接收到的水务数据进行正确性识别得到清洗后水务数据;
将清洗后水务数据上传至所述云端。
在本发明的一个实施例中,所述根据所述水务终端上传的水务数据随机获取多个水务数据集合以及数据正确性识别结果的步骤,包括,
根据所述水务数据产生的水务终端的位置坐标,得到所述水务数据的获取位置;
根据所述水务数据的获取位置、获取时间或用户身份对所述水务数据进行特征提取得到所述水务数据的数据特征;
根据所述水务数据的数据特性将所述水务终端上传的水务数据分类至若干个水务分析单元;
获取每个水务分析单元对应的所述水务终端和水务数据;
在每个所述水务分析单元内随机抽取水务数据以及对应的数据正确性识别结果。
在本发明的一个实施例中,所述根据所述水务数据的数据特性将所述水务终端上传的水务数据分类至若干个水务分析单元的步骤,包括,
获取每个所述水务终端的位置坐标;
在所述终端的位置坐标中选择若干个作为初始坐标;
计算其余所述终端的位置坐标与所述初始坐标的距离;
对于每个其余所述终端的位置坐标,根据其余所述终端的位置坐标与所述初始坐标的距离,选择距离最近的所述初始坐标组成地理坐标组合;
根据每个其余所述终端的位置坐标与初始坐标的地理坐标组合,得到每个初始坐标对应的所述地理坐标组合内的其余所述终端的位置坐标;
获取每个所述地理坐标组合内的其余所述终端的位置坐标的圆形包络线的圆心;
获取与圆形包络线的圆心最近的所述终端的位置坐标作为迭代坐标;
根据所述迭代坐标以及其余所述终端的位置坐标获取迭代后的所述地理坐标组合;
根据迭代后的所述地理坐标组合生成新的迭代后的所述迭代坐标,直至迭代后的圆形包络线的圆心最近的所述终端的位置坐标不再发生改变,得到团块地理坐标组合;
将同一个所述团块地理坐标组合内的所述水务终端上传的水务数据分类至同一个所述水务分析单元。
在本发明的一个实施例中,所述根据所述水务数据的数据特性将所述水务终端上传的水务数据分类至若干个水务分析单元的步骤,包括,
获取每个所述水务数据的获取时间;
在时间轴上标注每个所述水务数据的获取时间;
在所述时间轴上选取若干个所述水务数据的获取时间作为初始获取时间;
获取所述时间轴上其余所述水务数据的获取时间与初始获取时间的时间差;
对于每一个其余所述水务数据的获取时间,根据其余所述水务数据的获取时间与初始获取时间的时间差,选择时间差最短的所述初始获取时间组成获取时间组合;
根据每个其余所述水务数据的获取时间与所述初始获取时间组成获取时间组合,得到每个所述初始获取时间对应的所述获取时间组合内的其余所述水务数据的获取时间;
获取每个所述初始获取时间对应的其余所述水务数据的获取时间的在所述时间轴上的分布时间段;
获取分布时间段的中值时刻;
获取与所述中值时刻时间差最短的所述水务数据的获取时间作为迭代获取时间;
根据所述迭代获取时间以及其余所述水务数据的获取时间获取迭代后的所述获取时间组合;
根据迭代后的所述获取时间组合生成迭代后的所述迭代获取时间,直至迭代后的其余所述水务数据的获取时间的在所述时间轴上的分布时间段的中值时刻最接近的所述水务数据的获取时间不再发生改变,得到集中获取时间组合;
将同一个所述集中获取时间组合内的所述水务数据分类至同一个所述水务分析单元。
在本发明的一个实施例中,所述在每个所述水务分析单元内随机抽取水务数据以及对应的数据正确性识别结果的步骤,包括,
将所述水务分析单元内的水务数据划分至多个水务子单元;
对每个所述水务子单元进行编号;
对每个所述水务子单元内的所述水务数据进行编号;
生成正整数随机数列;
去除所述正整数随机数列中重复的数字以及相邻的数字,得到排序数列;
在每个所述水务子单元内,按照所述排序数列的顺序对水务数据的编号进行重新排列得到所述水务数据的编号序列;
将所述水务子单元的编号按照所述排序数列的反向顺序进行重新排列得到所述水务子单元的编号序列;
根据所述水务数据的编号序列以及所述水务子单元的编号序列对所述水务分析单元内的水务数据进行重新排列,得到重排后所述水务分析单元内的水务数据;
提取所述水务分析单元内前若干个水务数据以及对应的数据正确性识别结果。
在本发明的一个实施例中,所述将若干个所述数据识别决策树下载至所述水务终端的步骤,包括,
获取所述数据识别决策树的节点参数;
根据每个所述数据识别决策树的节点参数分布,获取每种节点参数对应的所述数据识别决策树的数量分布;
根据每种节点参数对应的所述数据识别决策树的数量获取每种节点参数对应的所述数据识别决策树的比例;
获取所述水务终端存储所述数据识别决策树的数量;
根据所述水务终端存储所述数据识别决策树的数量,按照每种节点参数对应的所述数据识别决策树的比例从所述水务终端下载若干个所述数据识别决策树至所述水务终端。
在本发明的一个实施例中,所述获取所述水务终端存储所述数据识别决策树的数量的步骤,包括,
获取所述水务终端的设定数据分析允许误差率;
将水务数据以及对应的数据正确性识别结果带入验证每种节点参数对应的所述数据识别决策树,获取每种节点参数对应的所述数据识别决策树的正确率;
根据所述设定数据分析允许误差率、每种节点参数对应的所述数据识别决策树的正确率以及每种节点参数对应的所述数据识别决策树的比例,得到所述水务终端所需的每种节点参数对应的所述数据识别决策树的数量分布;
将所述水务终端所需的每种节点参数对应的所述数据识别决策树的数量分布存储至所述水务终端。
在本发明的一个实施例中,所述云端向所述水务终端发出数据矫正指令,要求所述水务终端将部分未清洗的水务数据以及对应的数据正确性识别结果上传至所述云端;
所述云端根据部分未清洗的水务数据以及对应的数据正确性识别结果获取所述水务终端的误差率;
根据所述水务终端的设定数据分析允许误差率以及所述水务终端的误差率对所述水务终端内存储的决策树进行调整,使得调整后的所述水务终端的误差率小于设定数据分析允许误差率。
在本发明的一个实施例中,所述根据所述水务终端的设定数据分析允许误差率以及所述水务终端的误差率对所述水务终端内存储的决策树进行调整的步骤,包括,
获取所述水务终端发送部分未清洗的水务数据的时间;
将所述水务终端发送部分未清洗的水务数据的时间以及对应的所述水务终端的误差率进行配对,得到数据矫正指令响应时间以及对应的所述水务终端的误差率;
获取所述水务终端的误差率关于对应数据矫正指令响应时间的函数;
若所述水务终端的误差率关于对应数据矫正指令响应时间的函数的一次导数持续为正值的时间长度超过设定的警戒时长,则,
按照每种节点参数对应的所述数据识别决策树的比例逐渐增加所述水务终端内存储的所述数据识别决策树的数量,直至水务终端的误差率关于对应数据矫正指令响应时间的函数的一次导数持续为正值的时间不再超过设定的警戒时长。
在本发明的一个实施例中,所述水务终端在上传水务数据之前,获取所述水务数据的标准格式;
剔除不符合标准格式的水务数据。
本发明通过云端分析计算得到多个决策树,之后在根据水务终端收集到的水务数据的数据特征筛选出部分决策树存储在水务终端内,水务终端再根据存储的决策树对新收集到的水务数据进行识别,得到正确的水务数据。上述过程中将数据分析的过程进行拆分,由云端进行算力消耗较大的决策树生成,再由算力较弱的水务终端根据决策树得到清洗后的水务数据,最后再由水务终端将清洗后的水务数据上传至云端。通过云端和本地段进行联动数据处理,实现了水务数据高效准确清洗。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述基于云计算和数据分析的水务数据管理系统的模块连接以及信息流向示意图一;
图2为本发明所述基于云计算和数据分析的水务数据管理系统的步骤流程示意图一;
图3为本发明所述步骤S3的步骤流程示意图;
图4为本发明所述步骤S33的步骤流程示意图一;
图5为本发明所述步骤S33的步骤流程示意图二;
图6为本发明所述步骤S35的步骤流程示意图;
图7为本发明所述步骤S5的步骤流程示意图;
图8为本发明所述步骤S54的步骤流程示意图;
图9为本发明所述基于云计算和数据分析的水务数据管理系统的模块连接以及信息流向示意图二;
图10为本发明所述基于云计算和数据分析的水务数据管理系统的步骤流程示意图二;
图11为本发明所述步骤S10的步骤流程示意图;
图12为本发明所述基于云计算和数据分析的水务数据管理系统的步骤流程示意图三。
附图中,各标号所代表的部件列表如下:
1-水务终端,2-云端。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其余实施例,都属于本发明保护的范围。
为了在水务终端的硬件性能限制下能够对收集到的水务数据进行高效准确的清洗,本发明提供以下方案。
请参阅图1至2所示,本发明提供了基于云计算和数据分析的水务数据管理系统,在系统架构上包括靠近数据生产端的水务终端1,以及位于机房的云端2。在实施的过程中,水务终端1用于执行步骤S1收集水务数据并上传之云端2。云端2用于执行步骤S2接收水务终端1上传的水务数据,之后可以执行步骤S3根据水务终端1上传的水务数据随机获取多个水务数据集合以及数据正确性识别结果。接下来云端2可以执行步骤S4根据多个水务数据集合中的水务数据以及数据正确性识别结果获取多个数据识别决策树,之后可以执行步骤S5将若干个数据识别决策树下载至对应的水务终端1中。水务终端1还用于执行步骤S6根据数据识别决策树对接收到的水务数据进行正确性识别得到清洗后水务数据,具体而言是多个决策树对同一个新获取的水务数据进行处理,得到多个判断结果,结合多个决策树的判断结果,既可以得到清洗后的水务数据。最后可以执行步骤S7将清洗后水务数据上传至云端2。云端2在接收清洗后的水务数据之后进行存储。在此过程中,充分利用云端2的计算性能计算得到决策树,由计算性能较弱的水务终端1对每个水务数据进行具体判断,从而经济快速准确的获取清洗后的水务数据。
请参阅图3所示,由于云端获取的水务数据来源复杂,往往和水务终端1以及用户的具体情况息息相关,为了避免具体情况差异产生的决策树对水务终端1的数据判断造成不良影响,因此需要针对不同的水务终端2生成不同的决策树,在执行的过程中,首先可以执行步骤S31根据水务数据产生的水务终端1的位置坐标得到水务数据的获取位置。接下来可以执行步骤S32根据水务数据的获取位置、获取时间或用户身份对水务数据进行特征提取得到水务数据的数据特征,在实际操作过程中,获取时间指的是水务数据的生成时间,用户身份可以是用户的水费缴费户号,也可以是用户的居民身份证号码,只要能够对用户进行唯一性标识即可。水务终端1在向云端2上传水务数据的过程中,会将各种信息打包到水务数据的数据包内,换言之,水务数据中包括有获取位置、获取时间、用户身份、水压、用水量或者水温等各种信息,为了后续对水务数据进行分析,需要提取水务数据的数据特征,也就是将水务数据中的部分信息提取出来对水务数据本身进行标注。在本方案的处理过程中就是把水务数据中的获取位置、获取时间或用户身份提取出来对水务数据进行标注,从而起到特征提取的作用。接下来可以执行步骤S33根据水务数据的数据特性将水务终端1上传的水务数据分类至若干个水务分析单元,接下来可以执行步骤S34获取每个水务分析单元对应的水务终端1和水务数据。最后可以执行步骤S35在每个水务分析单元内随机抽取水务数据以及对应的数据正确性识别结果。通过上述步骤产生符合每个水务终端1特性的决策树,提高水务数据清洗的精确度。
请参阅图4所示,考虑到不同区域的用水用户用水习惯趋同,因此可以根据此特征对水务数据进行分类,在执行的过程中首先以执行步骤S3311获取每个水务终端1的位置坐标。接下来可以执行步骤S3312在水务终端1的位置坐标中选择若干个作为初始坐标,接下来可以执行步骤S3313计算其余水务终端的位置坐标与初始坐标的距离。接下来可以执行步骤S3314对于每个其余水务终端的位置坐标,根据其余水务终端的位置坐标与初始坐标的距离,选择距离最近的初始坐标组成地理坐标组合。接下来可以执行步骤S3315根据每个其余水务终端的位置坐标与初始坐标的地理坐标组合,得到每个初始坐标对应的地理坐标组合内的其余终端的位置坐标。接下来可以执行步骤S3316获取每个地理坐标组合内的其余水务终端的位置坐标的圆形包络线的圆心,接下来可以执行步骤S3317获取与圆形包络线的圆心最近的水务终端的位置坐标作为迭代坐标。接下来可以执行步骤S3318根据迭代坐标以及其余终端的位置坐标获取迭代后的地理坐标组合。接下来可以执行步骤S3319根据迭代后的地理坐标组合生成新的迭代后的迭代坐标,直至距离迭代后的圆形包络线的圆心最近的水务终端的位置坐标不再发生改变,得到团块地理坐标组合。最后以执行步骤S33110将同一个团块地理坐标组合内的水务终端1上传的水务数据分类至同一个水务分析单元。通过上述方式将聚集在一起的水务终端1产生的水务数据分类到同一个水务分析单元内。
请参阅图5所示,不同的用户在临近时刻的用户习惯也具有趋同性,考虑到此特性,上述的步骤S33在执行的过程中首先可以执行步骤S3321获取每个水务数据的获取时间。接下来可以执行步骤S3322在时间轴上标注每个水务数据的获取时间,接下来可以执行步骤S3323在时间轴上选取若干个水务数据的获取时间作为初始获取时间。接下来可以执行步骤S3324获取时间轴上其余水务数据的获取时间与初始获取时间的时间差,接下来可以执行步骤S3325对于每一个其余水务数据的获取时间,根据其余水务数据的获取时间与初始获取时间的时间差,选择时间差最短的初始获取时间组成获取时间组合。接下来可以执行步骤S3326根据每个其余水务数据的获取时间与初始获取时间组成获取时间组合,得到每个初始获取时间对应的获取时间组合内的其余水务数据的获取时间。接下来可以执行步骤S3327获取每个初始获取时间对应的其余水务数据的获取时间在时间轴上的分布时间段,接下来可以执行步骤S3328获取分布时间段的中值时刻。接下来可以执行步骤S3329获取与中值时刻时间差最短的水务数据的获取时间作为迭代获取时间。接下来可以执行步骤S33210根据迭代获取时间以及其余水务数据的获取时间得到迭代后的获取时间组合。接下来可以执行步骤S33211根据迭代后的获取时间组合生成迭代后的迭代获取时间,直至迭代后的其余水务数据的获取时间的在时间轴上的分布时间段的中值时刻最接近的水务数据的获取时间不再发生改变,得到集中获取时间组合。接下来可以执行步骤S33212将同一个集中获取时间组合内的水务数据分类至同一个水务分析单元。通过上述方案,将临近时段产生的水务数据分类到同一个水务分析单元内。
请参阅图6所示,为了确保后续数据清洗的准确性,需要确保决策树的随机性,因此上述步骤S35在执行的过程中首先可以执行步骤S351将水务分析单元内的水务数据划分至多个水务子单元。接下来可以执行步骤S352对每个水务子单元进行编号,接下来可以执行步骤S353对每个水务子单元内的水务数据进行编号。接下来可以执行步骤S354生成正整数随机数列,接下来可以执行步骤S355去除正整数随机数列中重复的数字以及相邻的数字,得到排序数列。接下来可以执行步骤S356在每个水务子单元内,按照排序数列的顺序对水务数据的编号进行重新排列得到水务数据的编号序列,接下来可以执行步骤S357将水务子单元的编号按照排序数列的反向顺序进行重新排列得到水务子单元的编号序列。接下来可以执行步骤S358根据水务数据的编号序列以及水务子单元的编号序列对水务分析单元内的水务数据进行重新排列,得到重排后水务分析单元内的水务数据。接下来可以执行步骤S359提取水务分析单元内前若干个水务数据以及对应的数据正确性识别结果。上述方案避免真随机可能导致的聚集,提高决策树的随机性。
请参阅图7所示, 由于云端2产生的决策树数量众多,无法把所有的决策树都存储在水务终端1,因此需要挑选一些高频决策树,同时为了判断的全面性也需要挑取一些低频决策树存储到水务终端1,具体的实施的过程中,首先可以执行步骤S51获取数据识别决策树的节点参数。接下来可以执行步骤S52根据每个数据识别决策树的节点参数分布,获取每种节点参数对应的数据识别决策树的数量分布。接下来可以执行步骤S53根据每种节点参数对应的数据识别决策树的数量获取每种节点参数对应的数据识别决策树的比例。接下来可以执行步骤S54获取水务终端1存储数据识别决策树的数量。最后可以执行步骤S55根据水务终端1存储数据识别决策树的数量,按照每种节点参数对应的数据识别决策树的比例从水务终端1下载若干个数据识别决策树至水务终端。通过上述方式兼顾了决策树的准确性和水务终端1的存储容量。
请参阅图8所示,如果水务终端1内决策树的数量太少,产生的判断结果无法对水务数据进行准确清洗,为了避免此种情况,上述的步骤S54在实施的过程中首先可以执行步骤S541获取水务终端1的设定数据分析允许误差率。接下来可以执行步骤S542将水务数据以及对应的数据正确性识别结果带入验证每种节点参数对应的数据识别决策树,获取每种节点参数对应的数据识别决策树的正确率。接下来可以执行步骤S543根据设定数据分析允许误差率、每种节点参数对应的数据识别决策树的正确率以及每种节点参数对应的数据识别决策树的比例,得到水务终端1所需的每种节点参数对应的数据识别决策树的数量分布。最后可以执行步骤S544将水务终端1所需的每种节点参数对应的数据识别决策树的数量分布存储至水务终端1。通过以上方式调整水务终端1内决策树的数量,从而确保了每个水务终端1进行数据清洗的主准确性。
请参阅图9至10所示,由于水务终端1收集的水务数据可能随着用户的使用习惯变化发生迁移,导致之前存储的决策树数据清洗效果降低,为了避免此种情况,在执行步骤S7之后,还可以执行步骤S8云端2向水务终端1发出数据矫正指令,要求水务终端1将部分未清洗的水务数据以及对应的数据正确性识别结果上传至云端2。之后可以执行步骤S9云端2根据部分未清洗的水务数据以及对应的数据正确性识别结果获取水务终端1的误差率。最后可以执行步骤S10根据水务终端1的设定数据分析允许误差率以及水务终端1的误差率对水务终端1内存储的决策树进行调整,使得调整后的水务终端1的误差率小于设定数据分析允许误差率。通过对水务终端1的数据清洗效果进行抽检,有效避免水务终端1的数据清洗错误率提高。
请参阅图11所示,即使水务终端1的数据清洗错误率没有超过设置值,但是错误率在不断提高,为了防患于未然提前部署,上述步骤S10在执行的过程中首先可以执行步骤S101获取水务终端1发送部分未清洗的水务数据的时间。接下来可以执行步骤S102将水务终端1发送部分未清洗的水务数据的时间以及对应的水务终端1的误差率进行配对,得到数据矫正指令响应时间以及对应的水务终端1的误差率。接下来可以执行步骤S103获取水务终端1的误差率关于对应数据矫正指令响应时间的函数。接下来可以执行步骤S104水务终端1的误差率关于对应数据矫正指令响应时间的函数的一次导数持续为正值的时间长度是否超过设定的警戒时长,若是则接下来可以执行步骤S105按照每种节点参数对应的数据识别决策树的比例逐渐增加水务终端1内存储的数据识别决策树的数量,直至水务终端1的误差率关于对应数据矫正指令响应时间的函数的一次导数持续为正值的时间不再超过设定的警戒时长。通过监督水务终端1的错误率,一旦错误率不断增加则增加水务终端1中决策树的数量,从而降低错误率。
请参阅图12所示,由于水务终端1采集到的水务数据可能由于各种原因产生重复、错漏等格式不正确的数据,此部分数据无法用于后续的决策树生成,而且可以判断格式不正确的水务数据必然应该被清洗,因此在执行步骤S1之前,还可以获取水务数据的标准格式,之后根据标准格式执行步骤S0剔除不符合标准格式的水务数据,从而避免对决策树生成造成不良干扰,同时也减少后续数据清洗的算力负载。
综上所述,本方案在实施的过程中,通过将生成决策树的步骤放在算力较强的云端实施,将算力要求较低的数据清洗工作放在水务终端实施,充分利用到云端和水务终端的算力特性,在兼顾计算硬件经济性的同时保障了数据分析管理的准确性和效率。不仅如此,本方案还根据水务终端和水务数据的特性给不同的水务终端输入不同的决策树,进一步提高了水务数据清洗的效率和准确性。
本发明所示实施例的上述描述(包括在说明书摘要中的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例,但是正如本领域技术人员将认识和理解的,各种等效修改是可以在本发明的精神和范围内的。如所指出的,可以按照本发明实施例的上述描述来对本发明进行这些修改,并且这些修改将在本发明的精神和范围内。
本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外,已经给出了各种具体细节以提供本发明实施例的总体理解。然而,相关领域的技术人员将会认识到,本发明的实施例可以在没有一个或多个具体细节的情况下进行实践,或者利用其余装置、系统、配件、方法、组件、材料、部分等进行实践。在其余情况下,并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。
因而,尽管本发明在本文已参照其具体实施例进行描述,但是修改自由、各种改变和替换意在上述公开内,并且应当理解,在某些情况下,在未背离所提出发明的范围和精神的前提下,在没有对应使用其他特征的情况下将采用本发明的一些特征。因此,可以进行许多修改、,以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例,但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而,本发明的范围将只由所附的权利要求书进行确定。

Claims (9)

1.基于云计算和数据分析的水务数据管理系统,其特征在于,包括,
水务终端,用于收集水务数据并上传;
云端,用于接收所述水务终端上传的数据;
根据所述水务终端上传的水务数据随机获取多个水务数据集合以及数据正确性识别结果;
根据多个水务数据集合中的水务数据以及数据正确性识别结果获取多个所述数据识别决策树;
将若干个所述数据识别决策树下载至对应的所述水务终端;
水务终端,还用于根据所述数据识别决策树对接收到的水务数据进行正确性识别得到清洗后水务数据;
将清洗后水务数据上传至所述云端;
所述根据所述水务终端上传的水务数据随机获取多个水务数据集合以及数据正确性识别结果的步骤,包括,
根据所述水务数据产生的水务终端的位置坐标得到所述水务数据的获取位置;
根据所述水务数据的获取位置、获取时间或用户身份对所述水务数据进行特征提取得到所述水务数据的数据特征;
根据所述水务数据的数据特性将所述水务终端上传的水务数据分类至若干个水务分析单元;
获取每个水务分析单元对应的所述水务终端和水务数据;
在每个所述水务分析单元内随机抽取水务数据以及对应的数据正确性识别结果。
2.根据权利要求1所述的系统,其特征在于,所述根据所述水务数据的数据特性将所述水务终端上传的水务数据分类至若干个水务分析单元的步骤,包括,
获取每个所述水务终端的位置坐标;
在所述水务终端的位置坐标中选择若干个作为初始坐标;
计算其余所述水务终端的位置坐标与所述初始坐标的距离;
对于每个其余所述水务终端的位置坐标,根据其余所述水务终端的位置坐标与所述初始坐标的距离,选择距离最近的所述初始坐标组成地理坐标组合;
根据每个其余所述水务终端的位置坐标与初始坐标的地理坐标组合,得到每个初始坐标对应的所述地理坐标组合内的其余所述水务终端的位置坐标;
获取每个所述地理坐标组合内的其余所述水务终端的位置坐标的圆形包络线的圆心;
获取与圆形包络线的圆心最近的所述水务终端的位置坐标作为迭代坐标;
根据所述迭代坐标以及其余所述水务终端的位置坐标获取迭代后的所述地理坐标组合;
根据迭代后的所述地理坐标组合生成新的迭代后的所述迭代坐标,直至距离迭代后的圆形包络线的圆心最近的所述水务终端的位置坐标不再发生改变,得到团块地理坐标组合;
将同一个所述团块地理坐标组合内的所述水务终端上传的水务数据分类至同一个所述水务分析单元。
3.根据权利要求1所述的系统,其特征在于,所述根据所述水务数据的数据特性将所述水务终端上传的水务数据分类至若干个水务分析单元的步骤,包括,
获取每个所述水务数据的获取时间;
在时间轴上标注每个所述水务数据的获取时间;
在所述时间轴上选取若干个所述水务数据的获取时间作为初始获取时间;
获取所述时间轴上其余所述水务数据的获取时间与初始获取时间的时间差;
对于每一个其余所述水务数据的获取时间,根据其余所述水务数据的获取时间与初始获取时间的时间差,选择时间差最短的所述初始获取时间组成获取时间组合;
根据每个其余所述水务数据的获取时间与所述初始获取时间组成获取时间组合,得到每个所述初始获取时间对应的所述获取时间组合内的其余所述水务数据的获取时间;
获取每个所述初始获取时间对应的其余所述水务数据的获取时间在所述时间轴上的分布时间段;
获取分布时间段的中值时刻;
获取与所述中值时刻时间差最短的所述水务数据的获取时间作为迭代获取时间;
根据所述迭代获取时间以及其余所述水务数据的获取时间得到迭代后的所述获取时间组合;
根据迭代后的所述获取时间组合生成迭代后的所述迭代获取时间,直至迭代后的其余所述水务数据的获取时间的在所述时间轴上的分布时间段的中值时刻最接近的所述水务数据的获取时间不再发生改变,得到集中获取时间组合;
将同一个所述集中获取时间组合内的所述水务数据分类至同一个所述水务分析单元。
4.根据权利要求1所述的系统,其特征在于,所述在每个所述水务分析单元内随机抽取水务数据以及对应的数据正确性识别结果的步骤,包括,
将所述水务分析单元内的水务数据划分至多个水务子单元;
对每个所述水务子单元进行编号;
对每个所述水务子单元内的所述水务数据进行编号;
生成正整数随机数列;
去除所述正整数随机数列中重复的数字以及相邻的数字,得到排序数列;
在每个所述水务子单元内,按照所述排序数列的顺序对水务数据的编号进行重新排列得到所述水务数据的编号序列;
将所述水务子单元的编号按照所述排序数列的反向顺序进行重新排列得到所述水务子单元的编号序列;
根据所述水务数据的编号序列以及所述水务子单元的编号序列对所述水务分析单元内的水务数据进行重新排列,得到重排后所述水务分析单元内的水务数据;
提取所述水务分析单元内前若干个水务数据以及对应的数据正确性识别结果。
5.根据权利要求1所述的系统,其特征在于,所述将若干个所述数据识别决策树下载至所述水务终端的步骤,包括,
获取所述数据识别决策树的节点参数;
根据每个所述数据识别决策树的节点参数分布,获取每种节点参数对应的所述数据识别决策树的数量分布;
根据每种节点参数对应的所述数据识别决策树的数量获取每种节点参数对应的所述数据识别决策树的比例;
获取所述水务终端存储所述数据识别决策树的数量;
根据所述水务终端存储所述数据识别决策树的数量,按照每种节点参数对应的所述数据识别决策树的比例从所述水务终端下载若干个所述数据识别决策树至所述水务终端。
6.根据权利要求5所述的系统,其特征在于,所述获取所述水务终端存储所述数据识别决策树的数量的步骤,包括,
获取所述水务终端的设定数据分析允许误差率;
将水务数据以及对应的数据正确性识别结果带入验证每种节点参数对应的所述数据识别决策树,获取每种节点参数对应的所述数据识别决策树的正确率;
根据所述设定数据分析允许误差率、每种节点参数对应的所述数据识别决策树的正确率以及每种节点参数对应的所述数据识别决策树的比例,得到所述水务终端所需的每种节点参数对应的所述数据识别决策树的数量分布;
将所述水务终端所需的每种节点参数对应的所述数据识别决策树的数量分布存储至所述水务终端。
7.根据权利要求1所述的系统,其特征在于,所述云端向所述水务终端发出数据矫正指令,要求所述水务终端将部分未清洗的水务数据以及对应的数据正确性识别结果上传至所述云端;
所述云端根据部分未清洗的水务数据以及对应的数据正确性识别结果获取所述水务终端的误差率;
根据所述水务终端的设定数据分析允许误差率以及所述水务终端的误差率对所述水务终端内存储的决策树进行调整,使得调整后的所述水务终端的误差率小于设定数据分析允许误差率。
8.根据权利要求7所述的系统,其特征在于,所述根据所述水务终端的设定数据分析允许误差率以及所述水务终端的误差率对所述水务终端内存储的决策树进行调整的步骤,包括,
获取所述水务终端发送部分未清洗的水务数据的时间;
将所述水务终端发送部分未清洗的水务数据的时间以及对应的所述水务终端的误差率进行配对,得到数据矫正指令响应时间以及对应的所述水务终端的误差率;
获取所述水务终端的误差率关于对应数据矫正指令响应时间的函数;
若所述水务终端的误差率关于对应数据矫正指令响应时间的函数的一次导数持续为正值的时间长度超过设定的警戒时长,则,
按照每种节点参数对应的所述数据识别决策树的比例逐渐增加所述水务终端内存储的所述数据识别决策树的数量,直至水务终端的误差率关于对应数据矫正指令响应时间的函数的一次导数持续为正值的时间不再超过设定的警戒时长。
9.根据权利要求1所述的系统,其特征在于,所述水务终端在上传水务数据之前,获取所述水务数据的标准格式;
剔除不符合标准格式的水务数据。
CN202310126632.1A 2023-02-17 2023-02-17 基于云计算和数据分析的水务数据管理系统 Active CN115827621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310126632.1A CN115827621B (zh) 2023-02-17 2023-02-17 基于云计算和数据分析的水务数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310126632.1A CN115827621B (zh) 2023-02-17 2023-02-17 基于云计算和数据分析的水务数据管理系统

Publications (2)

Publication Number Publication Date
CN115827621A CN115827621A (zh) 2023-03-21
CN115827621B true CN115827621B (zh) 2023-05-16

Family

ID=85521708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310126632.1A Active CN115827621B (zh) 2023-02-17 2023-02-17 基于云计算和数据分析的水务数据管理系统

Country Status (1)

Country Link
CN (1) CN115827621B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994837B (zh) * 2023-03-23 2023-06-30 河北雄安睿天科技有限公司 一种水务数据的管理系统及方法
CN116074324B (zh) * 2023-03-30 2023-06-30 清华大学 一种供水管网独立计量分区系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN107924166A (zh) * 2015-04-03 2018-04-17 绿仕环保科技(上海)有限公司 环境控制系统
CN110110628A (zh) * 2019-04-24 2019-08-09 华为技术有限公司 一种频率综合器劣化的检测方法及检测设备
CN111443161A (zh) * 2020-01-23 2020-07-24 华东理工大学 电子鼻气敏-色谱信息融合和风味物质现场检测分析方法
CN112328577A (zh) * 2020-11-18 2021-02-05 布瑞克农业大数据科技集团有限公司 一种基于县域的农业大数据管理系统及方法
CN114933339A (zh) * 2022-07-11 2022-08-23 大唐融合通信股份有限公司 一种污水处理的控制方法、云端服务器及边缘侧设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784408A (zh) * 2019-01-17 2019-05-21 济南浪潮高新科技投资发展有限公司 一种边缘端的嵌入式时间序列决策树分类方法及系统
CN113128612B (zh) * 2021-04-26 2022-11-29 国网河北省电力有限公司营销服务中心 电力数据中异常值的处理方法及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN107924166A (zh) * 2015-04-03 2018-04-17 绿仕环保科技(上海)有限公司 环境控制系统
CN110110628A (zh) * 2019-04-24 2019-08-09 华为技术有限公司 一种频率综合器劣化的检测方法及检测设备
CN111443161A (zh) * 2020-01-23 2020-07-24 华东理工大学 电子鼻气敏-色谱信息融合和风味物质现场检测分析方法
CN112328577A (zh) * 2020-11-18 2021-02-05 布瑞克农业大数据科技集团有限公司 一种基于县域的农业大数据管理系统及方法
CN114933339A (zh) * 2022-07-11 2022-08-23 大唐融合通信股份有限公司 一种污水处理的控制方法、云端服务器及边缘侧设备

Also Published As

Publication number Publication date
CN115827621A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN115827621B (zh) 基于云计算和数据分析的水务数据管理系统
CN112926897A (zh) 基于联邦学习的客户端贡献计算方法和装置
CN107404541B (zh) 一种对等网络传输邻居节点选择的方法及系统
CN109889397B (zh) 抽签方法、区块生成方法、设备及存储介质
CN110659284A (zh) 基于树图结构的区块定序方法及系统、数据处理终端
CN106790529A (zh) 计算资源的调度方法、调度中心及调度系统
CN110874702A (zh) 物流分拣场景下的模型训练方法、装置以及电子设备
CN115712834A (zh) 一种告警误报检测方法、装置、设备及存储介质
CN107515876B (zh) 一种特征模型的生成、应用方法及装置
CN113609393B (zh) 一种基于数据服务和数据管理的数字化平台
CN113037791A (zh) 运维方法和系统、计算机可读存储介质
CN108463813B (zh) 一种进行数据处理的方法和装置
CN112257332B (zh) 一种仿真模型的评估方法及装置
CN116930667A (zh) 一种台区电网边缘测试方法、装置、设备及存储介质
CN116302874A (zh) 模型能力测试方法、装置、电子设备、存储介质及产品
CN114610234A (zh) 一种存储系统参数推荐方法及相关装置
CN114595146A (zh) Ab测试方法、装置、系统、电子设备及介质
TWI653587B (zh) 基於機台多級別穩態生產速率之派工方法及系統
CN112580268A (zh) 基于业务处理的机器学习模型选择方法及装置
CN107659634B (zh) 邻居节点选择的方法、装置、设备及计算机存储介质
CN111737136A (zh) 基于物联网平台的对象测试方法装置
CN115796421B (zh) 配网设备运行监控自动巡视方法、系统及终端设备
CN116701350B (zh) 自动优化方法及训练方法、装置、电子设备
CN114372507B (zh) 基于区块链与联邦学习的模型训练方法、装置及区块链
CN113577777B (zh) 一种游戏数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant