CN117708459A - 一种水利多变量时序数据加载处理优化方法及终端 - Google Patents
一种水利多变量时序数据加载处理优化方法及终端 Download PDFInfo
- Publication number
- CN117708459A CN117708459A CN202311469553.7A CN202311469553A CN117708459A CN 117708459 A CN117708459 A CN 117708459A CN 202311469553 A CN202311469553 A CN 202311469553A CN 117708459 A CN117708459 A CN 117708459A
- Authority
- CN
- China
- Prior art keywords
- data
- water conservancy
- target
- sequence
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 298
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 title claims abstract description 38
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 230000002159 abnormal effect Effects 0.000 claims abstract description 133
- 238000010586 diagram Methods 0.000 claims abstract description 44
- 238000007906 compression Methods 0.000 claims abstract description 21
- 230000006835 compression Effects 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供了一种水利多变量时序数据加载处理优化方法及终端,获取采集到的水利数据按时间顺序排序的原始水利数据序列;以预设时间间隔将水利数据序列分为多个水利数据集,计算每一水利数据集对应的箱形图,并根据箱形图得到每一水利数据集对应的异常数据;获取查询请求,根据查询请求中的时间段从原始水利数据序列中获取目标水利数据,并确定时间段对应的目标异常数据;从目标水利数据中剔除目标异常数据,并压缩剔除了目标异常数据的目标水利数据得到压缩数据;展示压缩数据以及目标异常数据。本发明在进行压缩时将目标异常数据剔除,能够在压缩的过程中保留异常数据供人员查看,并且能够根据时间段锁定查找范围从而加快数据处理的效率。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种水利多变量时序数据加载处理优化方法及终端。
背景技术
现有通用的实现对数据处理优化的数据加载处理方法主要包括以下几种:(1)数据分区、分页加载:数据分区是将数据表分成若干部分,存储在不同的物理位置的技术;数据分页是将数据分成多个页面加载,每次加载部分数据,减少一次性加载大量数据对浏览器的压力;(2)数据压缩和缓存:对数据进行压缩和缓存,减少数据传输时间和浏览器加载时间;(3)使用索引:对于经常被查询的字段,可以创建索引或者是对数据库中的表进行索引优化,提高查询效率;(4)优化数据处理算法:对数据处理的算法进行优化,提高数据处理效率;(5)使用异步加载:使用异步加载数据的方式,可以减少对浏览器主线程的阻塞,提高页面的响应速度;(6)使用浏览器缓存:对一些静态数据进行浏览器缓存,减少重复加载数据的时间;(7)数据库配置优化:根据数据库的实际情况,可以调整数据库的配置参数来提高性能。例如,可以增加数据库的缓冲区大小、调整并发连接数等;
但是上述技术不能完全适用于大数据场景尤其是水利大数据的加载处理优化。首先,随着物联网技术发展,水利行业中大量使用雨水情监测、GNSS(Global NavigationSatellite System,全球导航卫星系统)位移监测、地震动监测等设备,其数据采样频率能够达到每秒200次(条)且为多种变量,也就是说每次系统客户端查询1个站点1种监测要素1小时的数据量就达了72万条。而且,通常查询结果需要以曲线的方式展示,以方便业务人员查看数据的正常监测变化和异常跳变。通过传统方法,一次性调取大量数据可能会导致浏览器内存占用过高,从而导致浏览器性能下降,让目前市面上主流的浏览器卡顿甚至死锁,无法满足管理业务的需求。而还需要对大量数据进行作图,就更加拖慢响应时间;
而现有技术中有对海量数据进行压缩展示的方法,即在作图过程中并不绘制所有的数据点,但是传统的数据压缩和缓存方法无法有效判断哪些是数据的正常监测变化、哪些是数据的异常跳变,容易造成数据丢失,绘制的数据曲线存在失真的情况。此外,在业务使用过程中,1个站点1小时的数据一般需要完整地查询和展示,一般的分区或者分页技术不适用该场景。
一般而言,物联网实时采集的数据是通过网络传输到服务端后,再响应客户端的调用请求返回至浏览器的,而网络传输速度较慢,会导致数据加载时间过长,从而导致浏览器卡顿。因此,数据量的大小和网络传输速率是十分重要的因素,而网络传输速率的不可控性更大。
发明内容
本发明所要解决的技术问题是:提供一种水利多变量时序数据加载处理优化方法及终端,提高对大数据量的水利数据的处理效率。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种水利多变量时序数据加载处理优化方法,包括步骤:
获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;
以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据;
获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据;
从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据;展示所述压缩数据以及目标异常数据。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种水利多变量时序数据加载处理优化终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;
以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据;
获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据;
从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据;展示所述压缩数据以及目标异常数据。
本发明的有益效果在于:将获取到的原始水利数据序列按照预设时间间隔划分为多个水利数据集,根据每一水利数据集得到对应的箱形图,根据箱形图获取水利数据集中的异常数据,在接收到查询请求后,根据查询请求中的时间段匹配到对应的目标水利数据以及目标异常数据,因每一水利数据集是按照预设时间间隔划分的,故每一水利数据集有对应的时间段,与查询请求中的时间段匹配就能够获取到查询请求中的时间段对应的水利数据集,从而获取到查询请求中的时间段对应的目标异常数据,在进行压缩时将目标异常数据剔除,能够在压缩的过程中保留异常数据供人员查看,并且根据预设时间间隔划分多个水利数据集能够根据时间段锁定查找范围或同时查找多个水利数据集,从而加快数据处理的效率。
附图说明
图1为本发明实施例的一种水利多变量时序数据加载处理优化方法的步骤流程图;
图2为本发明实施例的一种水利多变量时序数据加载处理优化方法的优化方法实现方式示意图;
图3为本发明实施例的一种水利多变量时序数据加载处理优化终端的结构示意图;
标号说明:
1、一种水利多变量时序数据加载处理优化终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,一种水利多变量时序数据加载处理优化方法,包括步骤:
获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;
以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据;
获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据;
从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据;展示所述压缩数据以及目标异常数据。
从上述描述可知,本发明的有益效果在于:将获取到的原始水利数据序列按照预设时间间隔划分为多个水利数据集,根据每一水利数据集得到对应的箱形图,根据箱形图获取水利数据集中的异常数据,在接收到查询请求后,根据查询请求中的时间段匹配到对应的目标水利数据以及目标异常数据,因每一水利数据集是按照预设时间间隔划分的,故每一水利数据集有对应的时间段,与查询请求中的时间段匹配就能够获取到查询请求中的时间段对应的水利数据集,从而获取到查询请求中的时间段对应的目标异常数据,在进行压缩时将目标异常数据剔除,能够在压缩的过程中保留异常数据供人员查看,并且根据预设时间间隔划分多个水利数据集能够根据时间段锁定查找范围或同时查找多个水利数据集,从而加快数据处理的效率。
进一步地,所述以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据包括:
至少以每一所述水利数据集中的第一四分位数以及第三四分位数绘制箱形图;
获取所述第一四分位数与所述第三四分位数之间的第一距离;
获取所述水利数据集中每一水利数据与所述第一四分位数的第二距离以及与所述第三四分位数的第三距离,比较得到所述第二距离以及第三距离之间的较小距离;
若所述较小距离大于所述第一距离的预设倍数,则将所述水利数据标记为异常数据。
由上述描述可知,计算的是每个预设间隔时间段内的水利数据集对应的箱形图,将水利数据的计算通过时间分隔开,能够更好地反映在特定时间区间上的特征,并且能够同时计算多个时间段所对应的箱形图从而减少计算所需的整体时间,相较于针对所有数据一起计算,能够计算单次计算中所需要计算的计算量,进一步节约内存。
进一步地,所述确定所述时间段对应的目标异常数据包括:
获取与所述时间段对应的目标水利数据集,所述目标水利数据集的集合时段包括所述时间段;
获取所述目标水利数据集对应的异常数据,若所述异常数据的时间在所述时间段内,则标记为目标异常数据。
由上述描述可知,因水利数据集是按照预设时间间隔划分的,则每一水利数据集都有对应的数据集的时间段,与查询请求中的时间段能够对应,从而能够快速获取到对应时间段的异常数据,而不用遍历完整的数据集,进一步加快查询时间并且减少计算量。
进一步地,所述压缩剔除了所述目标异常数据的目标水利数据得到压缩数据包括:
获取预设的压缩倍数以及剔除了所述目标异常数据的目标水利数据的编号;
计算所述编号除以所述压缩倍数的余数作为分组的组号,对所述剔除了所述目标异常数据的目标水利数据进行分组得到多个目标水利数据组;
随机选择一个所述目标水利数据组作为压缩数据。
由上述描述可知,编号按照时间顺序排序,则通过获取余数能够快速时间相近的水利数据分到不同的目标水利数据组中,则在固定的时间段内,每一个水利数据组中的水利数据都能够完整反映出这段时间的变化趋势,通过取模进行分组,在达到分组效果的同时计算方式简单,从而能够减少对资源的消耗,并且如果需要调整压缩的倍数,只需要直接调整作为被除数的压缩倍数即可,更加灵活。
进一步地,所述获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序包括:
将所述原始水利数据序列存储在时序数据库中。
由上述描述可知,通过时序数据库存储水利数据序列,能够利用时序数据库中存储时序数据以唯一的时间作为主键的特性,加快对水利数据的查询效率,避免通过关系型数据库存储大量数据时拖慢查询速度的问题,并且时序数据库有较优的插入性能,因为通常不存在索引,故在写入的同时不会影响查询,较为适配水利数据序列的查询场景。
请参照图3,一种利多变量时序数据加载处理优化终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;
以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据;
获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据;
从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据;展示所述压缩数据以及目标异常数据。
从上述描述可知,本发明的有益效果在于:将获取到的原始水利数据序列按照预设时间间隔划分为多个水利数据集,根据每一水利数据集得到对应的箱形图,根据箱形图获取水利数据集中的异常数据,在接收到查询请求后,根据查询请求中的时间段匹配到对应的目标水利数据以及目标异常数据,因每一水利数据集是按照预设时间间隔划分的,故每一水利数据集有对应的时间段,与查询请求中的时间段匹配就能够获取到查询请求中的时间段对应的水利数据集,从而获取到查询请求中的时间段对应的目标异常数据,在进行压缩时将目标异常数据剔除,能够在压缩的过程中保留异常数据供人员查看,并且根据预设时间间隔划分多个水利数据集能够根据时间段锁定查找范围或同时查找多个水利数据集,从而加快数据处理的效率。
进一步地,所述以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据包括:
至少以每一所述水利数据集中的第一四分位数以及第三四分位数绘制箱形图;
获取所述第一四分位数与所述第三四分位数之间的第一距离;
获取所述水利数据集中每一水利数据与所述第一四分位数的第二距离以及与所述第三四分位数的第三距离,比较得到所述第二距离以及第三距离之间的较小距离;
若所述较小距离大于所述第一距离的预设倍数,则将所述水利数据标记为异常数据。
由上述描述可知,计算的是每个预设间隔时间段内的水利数据集对应的箱形图,将水利数据的计算通过时间分隔开,能够更好地反映在特定时间区间上的特征,并且能够同时计算多个时间段所对应的箱形图从而减少计算所需的整体时间,相较于针对所有数据一起计算,能够计算单次计算中所需要计算的计算量,进一步节约内存。
进一步地,所述确定所述时间段对应的目标异常数据包括:
获取与所述时间段对应的目标水利数据集,所述目标水利数据集的集合时段包括所述时间段;
获取所述目标水利数据集对应的异常数据,若所述异常数据的时间在所述时间段内,则标记为目标异常数据。
由上述描述可知,因水利数据集是按照预设时间间隔划分的,则每一水利数据集都有对应的数据集的时间段,与查询请求中的时间段能够对应,从而能够快速获取到对应时间段的异常数据,而不用遍历完整的数据集,进一步加快查询时间并且减少计算量。
进一步地,所述压缩剔除了所述目标异常数据的目标水利数据得到压缩数据包括:
获取预设的压缩倍数以及剔除了所述目标异常数据的目标水利数据的编号;
计算所述编号除以所述压缩倍数的余数作为分组的组号,对所述剔除了所述目标异常数据的目标水利数据进行分组得到多个目标水利数据组;
随机选择一个所述目标水利数据组作为压缩数据。
由上述描述可知,编号按照时间顺序排序,则通过获取余数能够快速时间相近的水利数据分到不同的目标水利数据组中,则在固定的时间段内,每一个水利数据组中的水利数据都能够完整反映出这段时间的变化趋势,通过取模进行分组,在达到分组效果的同时计算方式简单,从而能够减少对资源的消耗,并且如果需要调整压缩的倍数,只需要直接调整作为被除数的压缩倍数即可,更加灵活。
进一步地,所述获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序包括:
将所述原始水利数据序列存储在时序数据库中。
由上述描述可知,通过时序数据库存储水利数据序列,能够利用时序数据库中存储时序数据以唯一的时间作为主键的特性,加快对水利数据的查询效率,避免通过关系型数据库存储大量数据时拖慢查询速度的问题,并且时序数据库有较优的插入性能,因为通常不存在索引,故在写入的同时不会影响查询,较为适配水利数据序列的查询场景。
本发明上述一种水利多变量时序数据加载处理优化方法及终端能够适用于需要存储大数据量水利数据的场景中,特别是带有时间特征的水利数据,以下通过具体实施方式进行说明。
请参照图1-2,本发明的实施例一为:
一种水利多变量时序数据加载处理优化方法,包括步骤:
S1、获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;例如,可以按照水利数据的时间戳排序实现按时间顺序排序;
在一种可选的实施方式中,将原始水利数据序列存储在时序数据库中,时序数据库专门用于存储和处理时间序列数据,具有高效的时间序列数据加载和查询能力;例如InfluxDB、TimescaleDB等;因在水利建设场景中,除了包括时间特征能够按时间顺序排序的水利数据之外,还会有一些基础数据(例如传感器的安装位置、传感器型号、传感器对应的水利项目等),故可以采用其他类型数据库配合时序数据库的方式实现对所有水利数据的存储,其他类型数据库可以是关系型数据库(例如MySQL、PostgreSQL等),关系型数据库具有成熟的事务处理和查询功能,适用于复杂的数据关系和多表关联查询;
以MySQL和InfluxDB的配合为例,时序数据中每一条数据都有唯一的时间作为主键,时间精度到纳秒级别,数据增长比较快,基本不会去修改。比如大坝的位移监测,每秒就要测量多次数据,而且有很多个这样的测量仪,在不停地测量上传数据,这么多数据要放到MySQL压力是非常大的,数据量一旦大了查询速度就会非常慢,严重影响使用体验,而InfluxDB在存储时自动为数据以时间分片压缩存储,在有时间范围条件下,即使数据量很大,查询速度依然很快。InfluxDB还有着优秀的插入性能,没有像MySQL那样的索引存在,在写入的同时不会对查询造成影响,这在物联网领域是迫切需要的。但是时序数据库弱化了关系,所以通常不作为项目中唯一的数据库,需要配合MySQL这样的关系型数据库一起使用,MySQL存储一些需要关联查询并且数据量不会增长到很大的水利基础数据,InfluxDB存储有时间序列的水利监测感知数据;
在一种可选的实施方式中,可对存储水利数据的数据库中的表结构进行进一步的优化,包括:(1)分表分区:根据时间维度将水利数据分散到多个表或分区中,可以提高数据加载和查询的效率;可以根据不同的常用查询需求按照年、月、日等时间粒度进行分表分区;(2)冗余字段:根据查询需求,将常用的字段冗余到主表中,避免频繁的多表关联查询,提高查询性能;(3)索引优化:根据查询需求和数据访问模式,创建合适的索引,加快数据查询速度;可以考虑创建时间字段的索引,以及其他常用查询字段的索引;
在一种可选的实施方式中,可对存储水利数据的数据库的配置进行进一步的优化,包括:(1)内存配置:增加数据库的内存缓存,提高数据的读取速度。可以调整数据库的缓存大小,提高缓存命中率;(2)并发连接数:根据系统的并发访问量,调整数据库的最大连接数,避免连接池过载导致访问数据库的请求阻塞;(3)日志配置:根据需求调整数据库的日志级别和日志存储方式,减少日志对性能的影响;
在一种可选的实施方式中,可针对常用到的具体的查询需求对数据库查询语言(SQL)进行优化,包括:(1)选择合适的查询方式:根据查询需求和数据特点,选择合适的查询方式,如使用JOIN查询、子查询、UNION等;(2)避免全表扫描:通过创建索引、优化查询条件等方式,避免全表扫描,提高查询效率;(3)合理使用缓存:对于频繁查询的结果,可以考虑使用缓存,减少数据库的访问次数;(4)分页查询优化:对于大数据量的分页查询,可以使用LIMIT和OFFSET进行优化,避免加载全部数据;
在一种可选的实施方式中,当发生地震时,需要UNION联合查询地震监测站点时序数据与水工程位移监测数据,便于掌握地震活动对于水工程的影响;当一个物理监测站点有多个分量要素时可用JOIN连接查询,以便查询到同一物理监测站点的所有监测信息和基础信息;
S2、以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图(Box Plot),并根据所述箱形图得到每一所述水利数据集对应的异常数据,本实施例中的箱形图为分段迭代箱形图,包括:
S20、以预设时间间隔将所述水利数据序列分为多个水利数据集;例如,预设时间间隔可以为1秒,水利数据集内的水利数据保持水利数据序列的顺序;
初始化空的箱子列表,从水利数据序列中的首个水利数据开始遍历,若与前一水利数据的时间戳的差值小于预设时间间隔或不存在前一水利数据,则加入同一个箱子,否则创建新的箱子,放入新的箱子;对于每一个箱子计算下列步骤S21-S24得到箱形图;
S21、至少以每一所述水利数据集中的第一四分位数以及第三四分位数绘制箱形图;
水利数据集中的数据可以是连续型数据或离散型数据;
在一种可选的实施方式中,获取最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)以及最大值,构成上边界为第三四分位数,下边界为第一四分位数、内部线为中位数的箱;还可以根据具体的需求在箱形图的基础上进行进一步分析,例如:中位数表示数据的中间值,可以用来判断数据的集中趋势;第一四分位数与所述第三四分位数之间的第一距离(IQR)表示数据的离散程度,越大表示数据的离散程度越大;最小值和最大值可以用来判断数据的范围;
在一种可选的实施方式中,可通过各种数据可视化工具自动绘制箱形图,例如通过Python的Matplotlib库或R语言的ggplot2库中自带的函数自动绘制箱形图;
S22、获取所述第一四分位数与所述第三四分位数之间的第一距离;
S23、获取所述水利数据集中每一水利数据与所述第一四分位数的第二距离以及与所述第三四分位数的第三距离,比较得到所述第二距离以及第三距离之间的较小距离;
S24、若所述较小距离大于所述第一距离的预设倍数,则将所述水利数据标记为异常数据;
可以通过添加“须”来表示正常数据的波动范围,例如将“须”延长到高于第三四分位数1.5倍第一距离的位置,则高于“须”的数据为异常值;将“须”延长到低于第一四分位数1.5倍第一距离的位置,则低于“须”的数据为异常值,可以直接根据箱形图快速对异常数据进行区分;
在一种可选的实施方式中,还包括差值分析,可以根据具体需求选择不同的差值分析方法,例如方差分析(ANOVA)或多重比较等,进而将异常数据进行保留;传统方法主要是根据经验设定一个上、下限值,超过该限值则为异常,但是无法适用于水利监测场景,因为出现险情时,数据波动相较平时可能会有几十倍甚至百倍的差别,因此无法设定相对固定的预警限值。水利行业监测数据类型多、数据采集频率高,其数据采样频率能够达到每秒200次(条),因此需要按照分段箱形图,例如以秒为单位,将一秒内的数据形成一个箱形图,这样可以提高数据筛选效率;分段迭代箱形图可以帮助检测大数据量的时序数据中的异常值;异常值通常是指与其他数据相比明显偏离的数值,通过箱形图可以直观地发现这些异常值,从而进行进一步的分析和处理;
在一种可选的实施方式中,可根据实际需要使用差值分析方法替代箱型图,或者在箱型图得到结果之后使用差值分析法进行进一步的筛选,在此不再赘述;箱型图主要用于展示数据的分布情况和离散程度,帮助了解数据的整体特征,适合用于同一监测对象数据样本分析;而方差分析主要用于比较多个样本均值是否存在显著差异,帮助确定不同因素对于观测变量的影响程度,合适用于同一监测对象的不同监测手段数据样本分析;
其中,水利监测到的数据有三种情况:一种是设备或者环境受干扰产生的异常波动数据,一种是特定事件发生时记录到的预警数据,还有一种是正常波动数据,通过步骤S2中的数据筛选方法,能够筛选出异常波动数据或预警数据,从而在步骤S4进行压缩时只压缩正常波动数据,保留信息量大的数据,避免工作人员错过重要信号;
S3、获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据,包括:
S31、获取与所述时间段对应的目标水利数据集,所述目标水利数据集的集合时段包括所述时间段;
具体的,水利数据集是由水利数据序列切割得到的,故水利数据集也有其对应的时间区间,即水利数据集中所包括的水利数据的时间戳的时间区间;若该时间区间包括了查询请求中的时间段,相应的水利数据集即为目标水利数据集;例如,时间段为2020年3月8日8时至12时,获取到对应的目标水利数据集为2020年3月8日7时至9时以及2020年3月8日9时至12时;
S32、获取所述目标水利数据集对应的异常数据,若所述异常数据的时间在所述时间段内,则标记为目标异常数据;例如上述目标水利数据集中异常数据的时间为11时,则标记为目标异常数据;若异常数据的时间为7时,不在8时至12时的范围内,则不标记为目标异常数据;
S4、从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据,包括:
S41、获取预设的压缩倍数n以及剔除了所述目标异常数据的目标水利数据的编号i;具体的,在原始水利数据序列中,从首位水利数据开始,按时间顺序从默认起始编号进行递增得到每一水利数据的编号,即后续划分的水利数据集中的水利数据(异常或正常)都能够通过编号唯一标识并反映其在原始水利数据序列中的位置即时间上的先后次序;可通过数据库的自动编号直接实现;
S42、计算所述编号除以所述压缩倍数的余数作为分组的组号a,对所述剔除了所述目标异常数据的目标水利数据进行分组得到多个目标水利数据组;
具体的,a=i mod n;传统方法主要是根据经验,选择固定时间点或者是间隔一定时间段,将其对应的数值记录下,其余时间区间的数值则忽略;这种压缩方式最终是否能够准确反映数据的原始特征依赖于工作人员的经验;而取模的方式则更为灵活,可以根据压缩倍数需要,调整n的数值即可,能够更加科学地在保留数据整体特征的同时实现对数据量的压缩;
S43、随机选择一个所述目标水利数据组作为压缩数据,返回给所述查询请求的发起方,例如客户端浏览器;
S5、展示所述压缩数据以及目标异常数据;例如,可以将压缩后的数据和目标异常数据根据时间戳排列之后绘制曲线展示;将异常数据剔除之后对正常的数据进行压缩,不会损失异常数据中的信息量,同时在展示时再将异常数据根据时间戳与正常数据合并后再进行号展示,在保留单个异常数据的信息量的同时保留了随时间变化的特性,能够帮助工作人员更好地分析异常。
请参照图2,本发明的实施例二为:
一种水利多变量时序数据加载处理优化终端1,包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现实施例一中的各个步骤。
综上所述,本发明提供了一种水利多变量时序数据加载处理优化方法及终端,通过预先根据预设时间间隔将原始水利数据序列进行切割得到多个水利数据集,再为每个水利数据集创建箱形图筛选出异常数据,则在接收到带有时间段的查询请求时,无需遍历完整的原始水利数据序列,能够通过查找时间段对应的水利数据集进行进一步分析,减少需要处理的数据量;从而能够对每小时数以十万计条数的水利监测数据进行筛选、压缩,避免同时一次性加载导致客户端浏览器卡顿甚至死锁的问题。同时,能够检测并提取出异常值,在对水利数据进行压缩时将异常数据剔除,避免异常数据中的信息在压缩过程中丢失,在最终展示时保留与其他数据相比明显偏离的数值,满足水利管理业务数据分析和处理的要求。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种水利多变量时序数据加载处理优化方法,其特征在于,包括步骤:
获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;
以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据;
获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据;
从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据;展示所述压缩数据以及目标异常数据。
2.根据权利要求1所述的一种水利多变量时序数据加载处理优化方法,其特征在于,所述以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据包括:
至少以每一所述水利数据集中的第一四分位数以及第三四分位数绘制箱形图;
获取所述第一四分位数与所述第三四分位数之间的第一距离;
获取所述水利数据集中每一水利数据与所述第一四分位数的第二距离以及与所述第三四分位数的第三距离,比较得到所述第二距离以及第三距离之间的较小距离;
若所述较小距离大于所述第一距离的预设倍数,则将所述水利数据标记为异常数据。
3.根据权利要求1所述的一种水利多变量时序数据加载处理优化方法,其特征在于,所述确定所述时间段对应的目标异常数据包括:
根据所述时间段获取与所述时间段对应的目标水利数据集,所述目标水利数据集的集合时段包括所述时间段;
获取所述目标水利数据集对应的异常数据,若所述异常数据的时间在所述时间段内,则标记为目标异常数据。
4.根据权利要求1所述的一种水利多变量时序数据加载处理优化方法,其特征在于,所述压缩剔除了所述目标异常数据的目标水利数据得到压缩数据包括:
获取预设的压缩倍数以及剔除了所述目标异常数据的目标水利数据的编号;
计算所述编号除以所述压缩倍数的余数作为分组的组号,对所述剔除了所述目标异常数据的目标水利数据进行分组得到多个目标水利数据组;
随机选择一个所述目标水利数据组作为压缩数据。
5.根据权利要求1所述的一种水利多变量时序数据加载处理优化方法,其特征在于,所述获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序包括:
将所述原始水利数据序列存储在时序数据库中。
6.一种水利多变量时序数据加载处理优化终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序;
以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据;
获取查询请求,根据所述查询请求中的时间段从所述原始水利数据序列中获取目标水利数据,并确定所述时间段对应的目标异常数据;
从所述目标水利数据中剔除所述目标异常数据,并压缩剔除了所述目标异常数据的目标水利数据得到压缩数据;展示所述压缩数据以及目标异常数据。
7.根据权利要求6所述的一种水利多变量时序数据加载处理优化终端,其特征在于,所述以预设时间间隔将所述水利数据序列分为多个水利数据集,计算每一所述水利数据集对应的箱形图,并根据所述箱形图得到每一所述水利数据集对应的异常数据包括:
至少以每一所述水利数据集中的第一四分位数以及第三四分位数绘制箱形图;
获取所述第一四分位数与所述第三四分位数之间的第一距离;
获取所述水利数据集中每一水利数据与所述第一四分位数的第二距离以及与所述第三四分位数的第三距离,比较得到所述第二距离以及第三距离之间的较小距离;
若所述较小距离大于所述第一距离的预设倍数,则将所述水利数据标记为异常数据。
8.根据权利要求6所述的一种水利多变量时序数据加载处理优化终端,其特征在于,所述确定所述时间段对应的目标异常数据包括:
根据所述时间段获取与所述时间段对应的目标水利数据集,所述目标水利数据集的集合时段包括所述时间段;
获取所述目标水利数据集对应的异常数据,若所述异常数据的时间在所述时间段内,则标记为目标异常数据。
9.根据权利要求6所述的一种水利多变量时序数据加载处理优化终端,其特征在于,所述压缩剔除了所述目标异常数据的目标水利数据得到压缩数据包括:
获取预设的压缩倍数以及剔除了所述目标异常数据的目标水利数据的编号;
计算所述编号除以所述压缩倍数的余数作为分组的组号,对所述剔除了所述目标异常数据的目标水利数据进行分组得到多个目标水利数据组;
随机选择一个所述目标水利数据组作为压缩数据。
10.根据权利要求6所述的一种水利多变量时序数据加载处理优化终端,其特征在于,所述获取采集到的原始水利数据序列,所述原始水利数据序列中的水利数据按时间顺序排序包括:
将所述原始水利数据序列存储在时序数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311469553.7A CN117708459A (zh) | 2023-11-07 | 2023-11-07 | 一种水利多变量时序数据加载处理优化方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311469553.7A CN117708459A (zh) | 2023-11-07 | 2023-11-07 | 一种水利多变量时序数据加载处理优化方法及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117708459A true CN117708459A (zh) | 2024-03-15 |
Family
ID=90145016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311469553.7A Pending CN117708459A (zh) | 2023-11-07 | 2023-11-07 | 一种水利多变量时序数据加载处理优化方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708459A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975742A (zh) * | 2024-03-29 | 2024-05-03 | 大连禾圣科技有限公司 | 基于大数据的智慧城市交通管理系统及方法 |
CN117997353A (zh) * | 2024-04-07 | 2024-05-07 | 吉林省吉龙芯科技有限公司 | 一种水利工程水位数据处理方法 |
-
2023
- 2023-11-07 CN CN202311469553.7A patent/CN117708459A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975742A (zh) * | 2024-03-29 | 2024-05-03 | 大连禾圣科技有限公司 | 基于大数据的智慧城市交通管理系统及方法 |
CN117997353A (zh) * | 2024-04-07 | 2024-05-07 | 吉林省吉龙芯科技有限公司 | 一种水利工程水位数据处理方法 |
CN117997353B (zh) * | 2024-04-07 | 2024-06-18 | 吉林省吉龙芯科技有限公司 | 一种水利工程水位数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117708459A (zh) | 一种水利多变量时序数据加载处理优化方法及终端 | |
US8671111B2 (en) | Determination of rules by providing data records in columnar data structures | |
CN1894652B (zh) | 用于揭示有意义变化的动态过程指标的自动监视和统计分析 | |
CN102073712B (zh) | 基于动态变化帧的过程数据全息归档和反演方法 | |
CN111737244A (zh) | 数据质量检查方法、装置、计算机系统及存储介质 | |
CN113761013B (zh) | 时序数据预统计方法、装置及存储介质 | |
JP2020057416A (ja) | 分散データベースにおけるデータブロックを処理する方法およびデバイス | |
CN111190792A (zh) | 一种日志存储的方法、装置、电子设备及可读存储介质 | |
CN104462606A (zh) | 一种基于日志数据确定诊断处理措施的方法 | |
CN116662371A (zh) | 一种跨域数据融合方法 | |
US11295555B2 (en) | Systems and methods for analyzing machine performance | |
CN115098740B (zh) | 一种基于多源异构数据源的数据质量检测方法及装置 | |
US20120246189A1 (en) | Comparing histograms | |
US11036701B2 (en) | Data sampling in a storage system | |
CN108416047B (zh) | 一种面向农药残留数据的多维交叉分析方法与系统 | |
CN117809438A (zh) | 一种边坡联合预警方法、系统、设备及存储介质 | |
CN103605744A (zh) | 网站搜索引擎流量数据的分析方法及装置 | |
US10713232B2 (en) | Efficient data processing | |
CN116506186A (zh) | 网络安全等级保护测评数据的大数据分层分析方法 | |
CN111143335A (zh) | 一种数据质量问题发现方法 | |
CN113297307B (zh) | 数据库请求识别、异常检测方法、装置、设备及介质 | |
CN112765553B (zh) | 一种基于大数据的工程项目管理系统 | |
Lee et al. | A system architecture for monitoring sensor data stream | |
CN113760879A (zh) | 数据库异常监测方法、系统、电子设备及介质 | |
CN111949644A (zh) | 一种面向电力行业业务系统的数据质量评价方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |