CN113486126A - 一种地下水大数据平台 - Google Patents
一种地下水大数据平台 Download PDFInfo
- Publication number
- CN113486126A CN113486126A CN202110817134.2A CN202110817134A CN113486126A CN 113486126 A CN113486126 A CN 113486126A CN 202110817134 A CN202110817134 A CN 202110817134A CN 113486126 A CN113486126 A CN 113486126A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- unit
- container
- subunit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
Abstract
本发明涉及大数据及其算法领域,具体而言涉及一种地下水大数据平台;所述地下水大数据平台,包括:实时数据包单元、处理单元、筛分单元和容器单元;所述实时数据包单元按照先后顺序对传感器数据添加标号转变为原始数据;将原始数据输入处理单元,处理单元对原始数据处理后转变为筛选数据;筛分单元将不同的筛选数据送入不同的容器单元;通过处理单元将实时数据包单元接收的若干个数据处理后,能够更高效地将所有数据分类存储至相应地容器内。
Description
技术领域
本发明涉及大数据及其算法领域,具体而言涉及一种地下水大数据平台。
背景技术
长期以来,由于地表河流断流,随着人们生产生活用水增大,对地下水的需求日益增加,导致地下水超采、水位下降,部分地区已形成"漏斗“沉降区。同时地下水污染日益严重,严重影响国民的身体健康。
为了进一步遏制水资源浪费,合理有序、规范的开发利用地下水资源,需要实时对地下水位、水质、温度、流量等数据取水计量监测系统。
本系统采用遥测终端机对当地主要取水位置的地下水位、水温、水质和取水量进行远程、自动监测,由于每天都存在大量的检测数据,需要对数据进行分类存储。
发明内容
本发明要解决的技术问题是:克服现有数据存储后分类的问题,提供一种地下水大数据平台。
本发明提供了一种地下水大数据平台,包括:实时数据包单元、处理单元、筛分单元和容器单元;所述实时数据包单元按照先后顺序对传感器数据添加标号转变为原始数据;将原始数据输入处理单元,处理单元对原始数据处理后转变为筛选数据;筛分单元将不同的筛选数据送入不同的容器单元。
进一步,所述实时数据包单元包括时间子单元和库存容器;所述时间子单元再获取到系统时间后,将时间数据与传感器数据结合后转变为原始数据,并将原始数据存储再库存容器内。
进一步,所述处理单元包括取值子单元;所述取值子单元从所述库存容器内取原始数据;所述原始数据由时间数据、类型值和数据值复合而成;所述取值子单元读取原始数据的类型值,并将类型值替换成相对应的字母值。
进一步,所述处理单元还包括数据处理子单元;所述数据处理子单元将数据值乘设定倍数后转变为倍数值;将倍数值字符末端的“0”字符的个数用数字代替,获得密码值;将密码值、字母值和时间数据复合组成加密数值。
进一步,所述筛分单元能够读取位于加密数值的字母值;根据字母值将相应的加密数值送至相应的容器单元。
进一步,所述地下水大数据平台还包括数据解密子单元;所述数据解密子单元将加密数值的密码值的“0”字符还原成相应数量的“0”字符,即为还原数值;对还原数值除以相应的倍数为获得数据值;将数据值和时间数据复合后组成存储值,将存储值存储至相应的容器单元。
进一步,所述容器单元包括若干容器子单元;各容器子单元赋予相应的仓库ID值;所述仓库ID值与所述字母值一一对应。
进一步,所述地下水大数据平台还包括计数单元;所述计数单元用于统计存储数据值的数量。
本发明的有益效果是,本发明的处理单元将实时数据包单元接收的若干个数据处理后,能够更高效地将所有数据分类存储至相应地容器内。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明地下水大数据平台的原理框图;
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,为了便于理解本申请中地相关技术方案,现对本申请中地相关技术特征做阐述;遥测终端机对当地主要取水位置的地下水位、水温、水质和取水量进行远程测量时,需要远程采用有线或者远程无线回传数据,由于数据量的庞大,需要对数据处理后发生。
采集数据
首先需要收集各个传感器的数据,再对收集后的数据进行处理;各个传感器采集数据的速度不一样,处理器处理数据的速度不一样,如果采用实时处理的方式对处理的要求较高;采用分段式处理,有效降低了处理的性能要求,能够适用于性能更低的处理平台上。
本发明提供了一种地下水大数据平台,包括:实时数据包单元、处理单元、筛分单元和容器单元;所述实时数据包单元按照先后顺序对传感器数据添加标号转变为原始数据;通过对实时数据的排序,能够在系统停电时能够追溯到最近时间段的数据,便于最大限度地保证意外发生时所留存的数据。
将原始数据输入处理单元,处理单元对原始数据处理后转变为筛选数据;通过处理单元将各种不同的数据转变为统一制式的数据,便于筛分单元将不同的筛选数据送入不同的容器单元。
数据的收集
所述实时数据包单元包括时间子单元和库存容器;所述库存容器为非易失性存储单元,一般采用机械硬盘存储,在获取到数据时,第一时间将获取到的传感器数据进行存储,有效规避意外情况下的数据损失。
所述时间子单元再获取到系统时间后,时间数据量化为数值数据,即“2021-01-01-13:01:51”转变为“20210101130151”,并将这个数值附加到所述传感器数据上,即为原始数据。
按照时间顺序排序,能够避免出现重复的数据值,导致出现逻辑死循环,从而增加系统算力的负担。
收集到的数据预处理
所述处理单元包括取值子单元;所述取值子单元从所述库存容器内取原始数据;所述原始数据由时间数据、类型值和数据值复合而成;在传感器发生数据时一般是传感器的简称、物理地址值或者顺序标号值的引导数值+传感器的数据值组成,用于区分各个不同传感器所发出的数据值,正常使用是没有问题的,但是在地下水的采样时,采用频率高,采样的数据种类多,所需采样的数据量大,短时间内会产生大量的数据值,所以需要缩短数据所占用的空间,所述取值子单元读取原始数据的类型值,并将类型值替换成相对应的字母值;一般在系统内部对各种简称一一对应一个相应的字母值,统一所述引导数值的字符值,便于对原始数据进行压缩。
数据的处理
所述处理单元还包括数据处理子单元;所述数据处理子单元主要时针对数据值的处理,在传感器采集数据时,为了保证数据的准确性,一般采集到的数据都带有小数点,且根据采集精度的不同,小时点后的数值量也不同,在数据处理时,较为麻烦,对处理器的算力要求有较大的要求。
此时先将数据值乘以设定倍数转变为倍数值,这个固定倍数一般去具有最多小数点余数值的数值,比如典型值为“1.4351487”那么这个倍数值设定为10000000倍,此时倍数值为“14351487”,同样采集到数据值“3.25”的倍数值为“32500000”;此时将倍数值字符末端的“0”字符的个数用数字代替,获得密码值;即所述“14351487”的密码值为“14351487”,而“32500000”的密码值为“3255”,统一了数值类型,同时还缩短了部分数据的长度,将密码值、字母值和时间数据复合组成加密数值;此时通过有线网络或者无线网络传输数据,传输时所需传输的数据的类型值统一,且最大程度上缩减了数据的长度,能够提高数据的传输速度。
传输后数据的筛选
所述筛分单元能够读取位于加密数值的字母值;根据字母值将相应的加密数值送至相应的容器单元;在遥测的接收处,同样存在非易失性存储单元,一般采用机械硬盘存储,在内部的存储池分成若干的容器单元,各个容器单元用于存放不同传感器的数据;每个容器单元用字母值代表,容器单元的字母值和类型值的字母值一一对应,进而将不同的数据送至相应的容器单元。
除了上述的处理方式外,还可以采用布隆过滤器;如果想要判断某个元素在不在集合当中,经典的结构应该是平衡树和hash table。但是无论是哪一种方法,都需要存储原值。
常见的场景有,如在网络中的爬虫场景当中,我们需要记录下之前爬过的网站。我们要将之前的网址全部都存储在容器里,然后在遇到新网站的时候去判断是否已经爬过了。一方面用于判断当前数据是否已经存在,另一方面能对于重复的数据进行计数处理,能够减小数据的体积。
利用平衡树或者是Trie或者是AC自动机等数据结构和算法可以实现高效的查找,但是都离不开存储下所有的字符串。一个网址大概上百个字符,大约0.1KB,如果是一亿个网址,就需要10GB了,如果数据量上升至一百亿一千亿;显然对存储的要求大大提升,在当前发明的应用场景中,地下水大数据的使用环境下所采集的数据是时时刻刻存在的,随需要存储的数据值远大于网页存储的需要。
布隆过滤器本身的结构就是一个一维的bool型的数组,也就是说每一位只有0或者1,是一个bit,这个数组的长度是m。对于每个新增的项,使用K种不同的hash算法对它计算hash值。所以可以得到K个hash值,用hash值对m取模,假设是x。刚开始的时候数组内全部都是0,把所有x对应的位置标记为1。
举个例子,假设一开始m是10,K是3。遇到第一个插入的值是“温度数据“,对它hash之后得到1,3,5,那么将对应的位置标记成1,然后又遇到了一个值是“流量数据”,hash之后得到1,8,9,还是将对应位置赋值成1,会发现1这个位置对应的值已经是1了,忽略就好;如果这个时候想要判断“湿度数据”有没有出现过,对“湿度数据”再计算hash值。假设得到1,4,5,去遍历一下对应的位置,发现4这个位置是0,说明之前没有添加过“湿度数据”,显然“概率统计”没有出现过。
但是如果“湿度数据”hash之后的结果是1,3,8呢?判断它出现过就错了,因为虽然1,3,8这个hash组合之前没有出现过,但是对应的位置都在其他元素中出现过了,这样就出现误差了。布隆过滤器对于不存在的判断是准确的,但是对于存在的判断是有可能有错误的;在使用是需要更具使用的场景和数据量综合判断。
布隆过滤器会存在bad case,也就是判断错误的情况;由于数组长度是mm,所以插入一个bit它被置为1的概率是1m1m,插入一个元素需要插入k个hash值,所以插入一个元素,某一位没有被置为1的概率是(1-1m)k(1-1m)k。插入n个元素之后,某一位依旧为0的概率是(1-1m)nk(1-1m)nk,它变成1的概率是1-(1-1m)nk1-(1-1m)nk。
如果在某次判断当中,有一个没有出现过的元素被认为已经在集合当中了,那么也就是说它hash得到的位置均已经在之前被置为1了,这个时间发生的概率为:
[1-(1-1m)nk]k≈(1-e-knm)k[1-(1-1m)nk]k≈(1-e-knm)k
这里用到了一个极限:
limx→-∞(1-1x)-x=elimx→-∞(1-1x)-x=e
我们来求一下冲突率最低时k的取值,为了方便计算,我们令b=enmb=enm,代入计算后就能得到误差值。
传输后数据的解密
所述地下水大数据平台还包括数据解密子单元;所述数据解密子单元将加密数值的密码值的“0”字符还原成相应数量的“0”字符,即为还原数值;即“3255”转变为“32500000”,“14351487”转变为“14351487”;然后再根据当时设备的倍数值还原原始数据值;即“32500000”转变为“3.25”,“14351487”转变为“1.4351487”;将数据值和时间数据复合后组成存储值,将存储值存储至相应的容器单元。
容器单元
所述容器单元包括若干容器子单元;各容器子单元赋予相应的仓库ID值;所述仓库ID值与所述字母值一一对应;当一个容器子单元的数值存满时,通过更换字母所对应的仓库ID值能够更好的存储数据。
所述地下水大数据平台还包括计数单元;所述计数单元用于统计存储数据值的数量,便于最后的统计汇总。
综上所述,本发明处理单元将实时数据包单元接收的若干个数据处理后,对采集的数据进行加密,在统一数据值的情况下,能够减小传输时数据的大小,能够更高效地传输数据。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (8)
1.一种地下水大数据平台,其特征在于,包括:实时数据包单元、处理单元、筛分单元和容器单元;
所述实时数据包单元按照先后顺序对传感器数据添加标号转变为原始数据;
将原始数据输入处理单元,处理单元对原始数据处理后转变为筛选数据;
筛分单元将不同的筛选数据送入不同的容器单元。
2.根据权利要求1所述的地下水大数据平台,其特征在于:
所述实时数据包单元包括时间子单元和库存容器;
所述时间子单元再获取到系统时间后,将时间数据与传感器数据结合后转变为原始数据,并将原始数据存储再库存容器内。
3.根据权利要求2所述的地下水大数据平台,其特征在于:
所述处理单元包括取值子单元;
所述取值子单元从所述库存容器内取原始数据;
所述原始数据由时间数据、类型值和数据值复合而成;
所述取值子单元读取原始数据的类型值,并将类型值替换成相对应的字母值。
4.根据权利要求3所述的地下水大数据平台,其特征在于:
所述处理单元还包括数据处理子单元;
所述数据处理子单元将数据值乘设定倍数后转变为倍数值;
将倍数值字符末端的“0”字符的个数用数字代替,获得密码值;
将密码值、字母值和时间数据复合组成加密数值。
5.根据权利要求4所述的地下水大数据平台,其特征在于:
所述筛分单元能够读取位于加密数值的字母值;
根据字母值将相应的加密数值送至相应的容器单元。
6.根据权利要求5所述的地下水大数据平台,其特征在于:
所述地下水大数据平台还包括数据解密子单元;
所述数据解密子单元将加密数值的密码值的“0”字符还原成相应数量的“0”字符,即为还原数值;
对还原数值除以相应的倍数为获得数据值;
将数据值和时间数据复合后组成存储值,将存储值存储至相应的容器单元。
7.根据权利要求6所述的地下水大数据平台,其特征在于:
所述容器单元包括若干容器子单元;
各容器子单元赋予相应的仓库ID值;
所述仓库ID值与所述字母值一一对应。
8.根据权利要求7所述的地下水大数据平台,其特征在于:
所述地下水大数据平台还包括计数单元;
所述计数单元用于统计存储数据值的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110817134.2A CN113486126A (zh) | 2021-07-20 | 2021-07-20 | 一种地下水大数据平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110817134.2A CN113486126A (zh) | 2021-07-20 | 2021-07-20 | 一种地下水大数据平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486126A true CN113486126A (zh) | 2021-10-08 |
Family
ID=77942352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110817134.2A Pending CN113486126A (zh) | 2021-07-20 | 2021-07-20 | 一种地下水大数据平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486126A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100073687A (ko) * | 2008-12-23 | 2010-07-01 | 한국원자력연구원 | 실시간 지하수 모니터링 시스템 |
KR101790325B1 (ko) * | 2017-07-26 | 2017-10-25 | 주식회사 차칵 | 암호화 및 복호화 시스템 |
CN107391571A (zh) * | 2017-06-16 | 2017-11-24 | 深圳市盛路物联通讯技术有限公司 | 传感器数据的处理方法及装置 |
CN110516129A (zh) * | 2019-08-30 | 2019-11-29 | 吉林大学 | 一种数据处理方法及装置 |
CN110650148A (zh) * | 2019-09-30 | 2020-01-03 | 广西科技大学 | 一种基于随机加密的信息安全传输系统 |
CN112054804A (zh) * | 2020-09-11 | 2020-12-08 | 杭州海康威视数字技术股份有限公司 | 压缩数据、解压数据的方法及装置 |
CN112533168A (zh) * | 2020-11-30 | 2021-03-19 | 南京林业大学 | 一种无线传感器网络节点的数据处理方法 |
-
2021
- 2021-07-20 CN CN202110817134.2A patent/CN113486126A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100073687A (ko) * | 2008-12-23 | 2010-07-01 | 한국원자력연구원 | 실시간 지하수 모니터링 시스템 |
CN107391571A (zh) * | 2017-06-16 | 2017-11-24 | 深圳市盛路物联通讯技术有限公司 | 传感器数据的处理方法及装置 |
KR101790325B1 (ko) * | 2017-07-26 | 2017-10-25 | 주식회사 차칵 | 암호화 및 복호화 시스템 |
CN110516129A (zh) * | 2019-08-30 | 2019-11-29 | 吉林大学 | 一种数据处理方法及装置 |
CN110650148A (zh) * | 2019-09-30 | 2020-01-03 | 广西科技大学 | 一种基于随机加密的信息安全传输系统 |
CN112054804A (zh) * | 2020-09-11 | 2020-12-08 | 杭州海康威视数字技术股份有限公司 | 压缩数据、解压数据的方法及装置 |
CN112533168A (zh) * | 2020-11-30 | 2021-03-19 | 南京林业大学 | 一种无线传感器网络节点的数据处理方法 |
Non-Patent Citations (1)
Title |
---|
何书前,陆娜,蒋文娟,吴淑雷: "现代网络视频编码技术", 湖北科学技术出版社, pages: 78 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241241A (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
CN111046035A (zh) | 数据自动化处理方法、系统、计算机设备及可读存储介质 | |
CN107341258B (zh) | 一种日志数据采集方法及系统 | |
CN101583951B (zh) | 关键字管理系统和关键字管理方法 | |
CN102082792A (zh) | 钓鱼网页检测方法及设备 | |
CN102171702A (zh) | 机密信息的检测 | |
CN104965905A (zh) | 一种网页分类的方法和装置 | |
CN103970842A (zh) | 一种面向防洪减灾领域的水利大数据存取系统及方法 | |
CN104468107A (zh) | 校验数据处理方法及装置 | |
CN110516129B (zh) | 一种数据处理方法及装置 | |
CN117251414B (zh) | 一种基于异构技术的数据存储及处理方法 | |
CN116150191A (zh) | 一种用于云端数据架构的数据运算加速方法及系统 | |
CN105743721A (zh) | 数据上报方法、对上报数据进行处理的方法和装置 | |
CN113486126A (zh) | 一种地下水大数据平台 | |
US7139801B2 (en) | Systems and methods for monitoring events associated with transmitted electronic mail messages | |
JP4756003B2 (ja) | データ圧縮転送装置、データ圧縮転送システム、データ圧縮転送方法、およびデータ圧縮転送プログラム | |
CN111431821A (zh) | 一种在网络大流量中快速检测与识别特定信息的方法 | |
CN110243408B (zh) | 桥梁监测系统的设备监控方法、装置、设备和存储介质 | |
CN112486985A (zh) | 一种锅炉数据的查询方法、装置、设备及存储介质 | |
CN101819603A (zh) | 基于嵌入式系统的信息记录的检索方法和装置 | |
CN116842174A (zh) | 基于网络数据的农业资源数据库平台搭建方法 | |
CN110443590B (zh) | 一种电子人力资源档案管理系统及其管理方法 | |
JP2009295104A (ja) | ウェブサイト検索装置、画像情報収集サーバ、及びウェブサイト検索方法 | |
CN112418449A (zh) | 一种供电线路故障定位模型的生成方法、定位方法、装置 | |
CN108023880B (zh) | 一种数据包处理方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |