CN116109441A - 基于物联网数据流式处理的热网数据治理系统 - Google Patents
基于物联网数据流式处理的热网数据治理系统 Download PDFInfo
- Publication number
- CN116109441A CN116109441A CN202310160374.9A CN202310160374A CN116109441A CN 116109441 A CN116109441 A CN 116109441A CN 202310160374 A CN202310160374 A CN 202310160374A CN 116109441 A CN116109441 A CN 116109441A
- Authority
- CN
- China
- Prior art keywords
- data
- data stream
- module
- analysis
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 58
- 238000013523 data management Methods 0.000 title claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 196
- 238000005206 flow analysis Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 18
- 238000007405 data analysis Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000001105 regulatory effect Effects 0.000 abstract description 3
- 230000001276 controlling effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010438 heat treatment Methods 0.000 description 3
- 230000000284 resting effect Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005111 flow chemistry technique Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physical Or Chemical Processes And Apparatus (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及基于物联网数据流式处理的热网数据治理系统,涉及热网数据治理技术领域,包括:数据流获取模块,用以获取热网中各单位产生的数据流;数据流识别模块,用以识别数据流中的结构化数据和非结构化数据;数据流记录模块,用以记录数据流中结构化数据的流量和数据流的总流量;数据结构化模块,用以对非结构化数据进行解析得到结构化数据;存储模块,用以对不可解析数据或搁置数据进行存储;数据流分析模块,用以对数据进行计算分析;数据流分类模块,用以将结构化数据进行分类;控制模块,用以对相应模块进行调控。本发明能够快速且不间断的对海量热网数据进行治理,用以解决现有技术处理速度慢、延迟性高和数据吞吐量低的问题。
Description
技术领域
本发明涉及热网数据治理技术领域,尤其涉及基于物联网数据流式处理的热网数据治理系统。
背景技术
随着近些年科技进步和经济增长,集中供热逐渐淘汰分散式供热,成为主流。随着集中供热管网的信息化水平提高和物联网技术的快速发展,大量的运行监测数据、图像信息数据和文本数据等被采集和存储,有助于系统的安全管理和运行。随着热网数据越来越庞大复杂,对于数据的快速调取和查看提出了很大挑战,因此数据的治理显得越发重要。传统的数据处理和治理方法一般是以数据库为中心,以批量的方式进行,适用于存储事务性数据的处理,处理速度较慢,处理数据量也较为有限。然而热网中产生的数据具有实时性,且数据量庞大,传统数据治理方法逐渐难以满足需求。
随着物联网技术、自动驾驶技术和工业机器人等技术的快速发展,流式数据处理技术越发成熟,应用场景越发广泛,流式处理具有低延迟、高吞吐和可容错等优点,适合应用于热网数据的治理当中。
中国专利公开号CN109542943A公开了一种集中供热物联网系统的供热计量管理服务平台,包括用于存储用户热耗信息的云数据库,与云数据库通过第一无线通信模块进行无线通信的用于远程查询热耗信息、热费查询的热用户终端,与云数据库通过第二无线通信模块进行无线通信的用于根据热用户终端热耗信息进行量化管理的供热公司终端,与云数据库通过第三无线通信模块进行无线通信的用于调整供热辅助策略的技术人员终端,与云数据库通过第四无线通信模块进行无线通信的用于热网状态监控的供热行办终端;该发明所提供的技术方案能够有效克服现有技术所存在的不具有数据实时共享的功能,且不具有调整供热辅助策略功能的缺陷。然而该发明仍然采用的是传统的数据治理方法,无法避免传统数据治理方法存在的缺陷。
现有技术对热网数据大都采用传统的数据治理方法,存在处理速度慢、延迟性高和数据吞吐量低的问题。
发明内容
为此,本发明提供一种基于物联网数据流式处理的热网数据治理系统,能够快速且不间断的对海量热网数据进行治理,用以解决现有技术处理速度慢、延迟性高和数据吞吐量低的问题。
为实现上述目的,本发明提供一种基于物联网数据流式处理的热网数据治理系统,包括:
数据流获取模块,用以获取热网中各单位产生的数据流;
数据流识别模块,其与所述数据流获取模块相连接,用以将所述数据流进行识别以确定所述数据流中的结构化数据和非结构化数据;
数据流记录模块,其与所述数据流识别模块相连接,用以记录所述数据流中结构化数据的流量和数据流的总流量;
数据结构化模块,其分别与所述数据流识别模块和数据流记录模块连接,数据结构化模块包括数据预解析单元,用以判断所述数据流识别模块识别的非结构化数据是否为可解析数据,若判定为可解析数据,则根据可解析数据的数据量确定初步解析时长,并将可解析数据发送至连续解析单元,若判定为不可解析数据,则将不可解析数据发送至存储模块;
连续解析单元,其与所述数据预解析单元相连接,用以对所述可解析数据进行解析得到结构化数据,若所述可解析数据的实际解析时长大于初步解析时长,则终止对可解析数据的解析并将其发送至存储模块;
间歇解析单元,用以间歇性对存储模块中存储的非结构化数据进行解析,得到搁置数据的数据量和结构化数据;
存储模块,其与所述数据结构化模块相连接,用以对所述不可解析数据或搁置数据进行存储;
数据流分析模块,其与所述数据流记录模块和所述数据结构化模块相连接,用以对所述数据流记录模块和所述数据结构化模块产生的数据进行计算分析;
数据流分类模块,其与所述数据流记录模块和所述数据结构化模块相连接,用以将结构化数据根据其来源进行分类;
控制模块,其与所述数据流获取模块、数据结构化模块和数据流分析模块相连接,用以根据所述数据分析模块的分析结果确定对数据流处理过程的调控方式;
其中,所述搁置数据为所述连续解析单元存储至所述存储模块的可解析数据。
进一步地,所述数据流获取模块以标准速度v0获取数据流,并发送至所述数据流识别模块,所述数据流识别模块对数据流进行识别并按结构化数据和非结构化数据对数据流进行区分,同时将数据流发送至所述数据流记录模块以使所述数据流记录模块记录所述结构化数据的流量和非结构化数据的流量。
进一步地,所述数据流记录模块记录标准时长t内数据流中结构化数据的流量F1和数据流的总流量F,并将结构化数据发送至所述数据流分类模块,将非结构化数据发送至所述数据结构化模块。
进一步地,所述数据流分析模块根据所述数据流记录模块记录的数据计算结构化数据的流量百分比P,以判定所述数据流中结构化数据的占比水平,
所述数据流分析模块中设有流量百分比上限P0,所述数据流分析模块将所述流量百分比P与流量百分比上限P0进行比对,所述控制模块根据该比对结果确定对所述数据流的处理过程采用第一调节方式,其中,第一调节方式为所述控制模块控制对所述数据流获取模块对数据流获取速度进行调节,
若所述数据流分析模块判定所述数据流中结构化数据处于第一占比水平,所述控制模块控制所述数据流获取模块增大数据流获取速度;
若所述数据流分析模块判定所述数据流中结构化数据处于第二占比水平,所述数据结构化模块判定所述连续解析单元的解析效率是否达标;
其中,所述第一占比水平为P>P0,第二占比水平为P≤P0。
进一步地,所述数据流分析模块判定所述数据流中结构化数据处于第一占比水平,所述数据流分析模块计算流量百分比超差D,并与超差标准进行比对,以确定数据流获取速度的调节系数,所述数据流分析模块设有第一超差标准D1和第二超差标准D2,所述数据流获取模块中预设有第一速度调节系数K1、第二速度调节系数K2和第三速度调节系数K3,设定D1<D2,1<K1<K2<K3,
在第一超差对比结果下,所述控制模块控制所述数据流获取模块采用第一速度调节系数K1对所述数据流获取速度进行调节;
在第二超差对比结果下,所述控制模块控制所述数据流获取模块采用第二速度调节系数K2对所述数据流获取速度进行调节;
在第三超差对比结果下,所述控制模块控制所述数据流获取模块采用第三速度调节系数K3对所述数据流获取速度进行调节;
所述第一超差对比结果为D≤D1,第二超差对比结果为D1<D≤D2,第三超差对比结果为D>D2;
所述数据流获取模块经过调节后的数据流获取速度为vi,vi=v0×Ki,i=1,2,3。
进一步地,所述数据流分析模块判定所述数据流中结构化数据处于第二占比水平,所述间歇解析单元每隔预设周期T对所述存储模块在周期T时间内存储的非结构化数据进行一次解析,得到搁置数据的数据量,并将解析得到的结构化数据发送至所述数据流分类模块,将不可解析数据返回至所述存储模块,所述数据流分析模块计算搁置百分比G,以判定所述间歇解析单元的解析效率,
其中,E1为本次解析中搁置数据的数据量,E为本次解析非结构化数据的总数据量。
进一步地,所述数据流分析模块中设有搁置百分比标准G0,G0>0%,将其与所述搁置百分比G进行比对,所述控制模块根据比对结果确定对所述数据流的处理过程采用第二调节方式或第三调节方式进行调节,其中,第二调节方式为所述控制模块控制对所述数据流获取模块对所述连续解析单元的解析等级进行调节,第三调节方式为所述控制模块控制所述连续解析单元调整解析等级且控制所述数据流获取模块减小数据获取速度;
若所述数据流分析模块确定所述搁置数据处于第一搁置水平,随即判定所述连续解析单元的解析效率达标,所述控制模块不采取任何调节动作;
若所述数据流分析模块确定所述搁置数据处于第二搁置水平,即判定所述连续解析单元的解析效率符合第一不达标条件,所述控制模块采用第二调节方式对所述数据流的处理过程进行调节;
若所述数据流分析模块确定所述搁置数据处于第三搁置水平,即判定所述连续解析单元的解析效率符合第二不达标条件,所述控制模块采用第三调节方式对所述数据流的处理过程进行调节;
所述第一搁置水平为G=0%,第二搁置水平为0%<G≤G0,第三搁置水平为G>G0。
进一步地,所述连续解析单元设有第一解析等级、第二解析等级和第三解析等级,其对应的解析速度依次递增,即第一解析等级<第二解析等级<第三解析等级,所述连续解析单元的初始解析等级为第一解析等级。
进一步地,在第一不达标条件下,所述数据流分析模块计算搁置百分比超差C,C=|G-G0|,并与第一搁置百分比超差标准进行比对,以调整所述解析等级,所述数据流分析模块设有第一搁置百分比超差标准C1,
在第一判别结果下,所述控制模块控制所述连续解析单元调整解析等级为第二解析等级;
在第二判别结果下,所述控制模块控制所述连续解析单元调整解析等级为第三解析等级;
所述第一判别结果为C≤C1,第二判别结果为C>C1。
进一步地,在第二不达标条件下,所述控制模块控制所述连续解析单元调整解析等级为第三解析等级,所述数据流分析模块计算搁置百分比超差C,并与第二搁置百分比超差标准进行比对,以确定数据流获取速度的调节系数,所述数据流分析模块设有第二搁置百分比超差标准C2,C2>C1,所述数据流获取模块中预设有第四速度调节系数K4和第五速度调节系数K5设定0<K5<K4<1,
在第三判别结果下,所述控制模块控制所述数据流获取模块采用第四速度调节系数K4对所述数据流获取速度进行调节;
在第四判别结果下,所述控制模块控制所述数据流获取模块采用第五速度调节系数K5对所述数据流获取速度进行调节;
所述第三判别结果为C≤C2,第四判别结果为C>C2;
所述数据流获取模块经过调节后的数据流获取速度为vj,vj=v0×Kj,j=4,5。
进一步地,所述存储模块每隔预设时长t1对距离清理日期n天以前的不可解析数据进行清理,t1和n可根据实际情况进行设定。
进一步地,所述数据流分类模块根据结构化数据的来源对数据进行分类备注,完成对数据流的治理,用户可根据需要对不同分类的数据进行下一步处理。
与现有技术相比,本发明的有益效果在于,本发明采用流式处理技术,首先获取热网中各单位产生的数据流,并通过数据流识别模块识别其为结构化数据或非结构化数据,数据流记录模块记录其流量后,直接将结构化数据发送至数据流分类单元进行分类,随后便完成治理提供给用户,其中数据的识别、记录和分类均为简单逻辑,可在极短的时间内完成,有效提高了热网数据治理的速度,保证了热网数据的实时性。
进一步地,本发明对于结构化数据的处理并不包含存储,不会由于存储空间的限制而影响数据处理速度和数据流量,也避免了数据处理过程中的卡死现象,因此可实现数据的大吞吐量和对数据的不间断处理,进一步提高了热网数据治理的速度,保证了热网数据的实时性。
进一步地,本发明的数据流记录模块记录数据流中结构化数据的流量和数据流的总流量并由数据流分析模块计算结构化数据的流量百分比,由于结构化数据的治理速度远高于非结构化数据,所以结构化数据的占比越高,数据治理的速度越快,当结构化数据的流量百分比高于一定数值时,系统的数据处理能力过剩,可增大数据流获取速度以在相同时间内处理更多数据,从而进一步增大了数据的吞吐量,提高了热网数据治理的速度。
进一步地,本发明在处理非结构化数据时,首先对数据进行预解析,判断数据为可解析数据或不可解析数据,对于不可解析数据则直接存储至存储模块,对于可解析数据则估算其解析时长以方便进行下一步处理,从而节省了后续的解析时间,减少了数据处理资源的浪费,进一步提高了热网数据治理的速度。
进一步地,本发明的连续解析单元对可解析数据进行连续性的解析,得到结构化数据,由于非结构化数据的解析复杂度各不相同,若可解析数据的实际解析时长大于估算时长,则终止对所述可解析数据的解析并将其发送至存储模块,直接进行后续的数据解析任务,从而保证了数据流的治理速度,以及防止系统在数据处理过程中出现卡死情况,保证了数据流的治理连续性。
进一步地,本发明的间歇解析单元,周期性对存储模块中存储的非结构化数据进行解析,得到结构化数据和搁置数据的数据量,保证了搁置数据被解析,根据搁置数据的比例判断连续解析单元的解析效率是否达标,若搁置数据量较少则采取提高解析等级的措施进行解决,若搁置数据量过多,难以通过提高解析等级来解决,说明系统的处理能力接近极限,则减小数据流的获取速度,降低吞吐量,从而保证系统正常运行,避免出现数据遗失或卡死现象,保证热网数据的连续性和完整性。
附图说明
图1为本发明所述基于物联网数据流式处理的热网数据治理系统的结构示意图;
图2为本发明所述基于物联网数据流式处理的热网数据治理系统中数据结构化模块的结构示意图;
图3为本发明实施例中基于物联网数据流式处理的热网数据治理系统中连续解析单元的结构示意图。
图4为本发明所述基于物联网数据流式处理的热网数据治理系统的工作逻辑示意图;
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1至图3所示,图1为本发明所述基于物联网数据流式处理的热网数据治理系统的结构示意图,图2为本发明所述基于物联网数据流式处理的热网数据治理系统中数据结构化模块的结构示意图,图3为本发明实施例中基于物联网数据流式处理的热网数据治理系统中连续解析单元的结构示意图。
本发明实施例基于物联网数据流式处理的热网数据治理系统,包括:
数据流获取模块,用以获取热网中各单位产生的数据流;
数据流识别模块,其与所述数据流获取模块相连接,用以将所述数据流进行识别以确定所述数据流中的结构化数据和非结构化数据;
本发明实施例中,结构化数据为热网中能够用数字或统一的结构加以表示的信息,如温度、湿度、压力等,非结构化数据为热网中不能够用数字或统一的结构加以表示的信息,如文本、各类表格、图像等;
数据流记录模块,其与所述数据流识别模块相连接,用以记录所述数据流中结构化数据的流量和数据流的总流量;
数据结构化模块,其分别与所述数据流识别模块和数据流记录模块连接,数据结构化模块包括数据预解析单元,用以判断所述数据流识别模块识别的非结构化数据是否为可解析数据,若判定为可解析数据,则根据可解析数据的数据量的大小确定初步解析时长,并将可解析数据发送至连续解析单元,若判定为不可解析数据,则将不可解析数据发送至存储模块;
本发明实施例中,数据预解析单元通过不同方式判断非结构化数据是否为可解析数据,对图像数据进行灰度调整同时判断非结构化数据的特征是否清晰来判定图像数据是否为可解析数据,将文本、表格类数据直接判定为可解析数据,若判定为可解析数据,则根据该可解析数据的数据量的大小确定初步解析时长,数据量越大则判定初步解析时长越长;
连续解析单元,其与所述数据预解析单元相连接,包括文本表格解析子单元和图像解析子单元,用以对所述可解析数据进行解析得到结构化数据,若所述可解析数据的实际解析时长大于初步解析时长,则终止对可解析数据的解析并将其发送至存储模块;
间歇解析单元,用以间歇性对存储模块中存储的非结构化数据进行解析,得到搁置数据的数据量和结构化数据;本发明实施例中,间歇解析单元每隔预设周期T对所述存储模块在周期T时间内存储的非结构化数据进行一次解析。
本发明实施例中,数据结构化模块采用图像识别技术对图像类数据进行解析,采用文字识别技术对文本、表格类数据进行解析,图像识别技术和文字识别技术为现有技术,此处不做赘述。
存储模块,其与所述数据结构化模块相连接,用以对所述不可解析数据或搁置数据进行存储;
数据流分析模块,其与所述数据流记录模块和所述数据结构化模块相连接,用以对所述数据流记录模块和所述数据结构化模块产生的数据进行计算分析;
数据流分类模块,其与所述数据流记录模块和所述数据结构化模块相连接,用以将结构化数据根据其来源进行分类;
控制模块,其与所述数据流获取模块、数据结构化模块和数据流分析模块相连接,用以根据所述数据分析模块的分析结果确定对数据流处理过程的调控方式;
其中,所述搁置数据为所述连续解析单元存储至所述存储模块的可解析数据。
请参阅图4所示,图4为本发明所述基于物联网数据流式处理的热网数据治理系统的工作逻辑示意图。
具体而言,所述数据流获取模块以标准速度v0获取数据流,并发送至所述数据流识别模块,所述数据流识别模块对数据流进行识别并按结构化数据和非结构化数据对数据流进行区分,同时将数据流发送至所述数据流记录模块以使所述数据流记录模块记录所述结构化数据的流量和非结构化数据的流量。
具体而言,所述数据流记录模块记录标准时长t内数据流中结构化数据的流量F1和数据流的总流量F,并将结构化数据发送至所述数据流分类模块,将非结构化数据发送至所述数据结构化模块。
具体而言,所述数据流分析模块根据所述数据流记录模块记录的数据计算结构化数据的流量百分比P,以判定所述数据流中结构化数据的占比水平,
所述数据流分析模块中设有流量百分比上限P0,所述数据流分析模块将所述流量百分比P与流量百分比上限P0进行比对,所述控制模块根据该比对结果确定对所述数据流的处理过程采用第一调节方式,其中,第一调节方式为所述控制模块控制对所述数据流获取模块对数据流获取速度进行调节,
若所述数据流分析模块判定所述数据流中结构化数据处于第一占比水平,所述控制模块控制所述数据流获取模块增大数据流获取速度;
若所述数据流分析模块判定所述数据流中结构化数据处于第二占比水平,所述数据结构化模块判定所述连续解析单元的解析效率是否达标;
其中,所述第一占比水平为P>P0,第二占比水平为P≤P0。
本发明实施例中,流量百分比上限P0的取值为65%,本领技术人员也可根据实际需要对该百分比上限进行自定义。
具体而言,所述数据流分析模块判定所述数据流中结构化数据处于第一占比水平,所述数据流分析模块计算流量百分比超差D,并与超差标准进行比对,以确定数据流获取速度的调节系数,所述数据流分析模块设有第一超差标准D1和第二超差标准D2,所述数据流获取模块中预设有第一速度调节系数K1、第二速度调节系数K2和第三速度调节系数K3,设定D1<D2,1<K1<K2<K3<1.5,
在第一超差对比结果下,所述控制模块控制所述数据流获取模块采用第一速度调节系数K1对所述数据流获取速度进行调节;
在第二超差对比结果下,所述控制模块控制所述数据流获取模块采用第二速度调节系数K2对所述数据流获取速度进行调节;
在第三超差对比结果下,所述控制模块控制所述数据流获取模块采用第三速度调节系数K3对所述数据流获取速度进行调节;
所述第一超差对比结果为D≤D1,第二超差对比结果为D1<D≤D2,第三超差对比结果为D>D2;
所述数据流获取模块经过调节后的数据流获取速度为vi,vi=v0×Ki,i=1,2,3。
本发明实施例中,第一超差标准D1的取值为10%,第二超差标准的取值为15%,本领技术人员也可根据实际需要对该百分比上限进行自定义。
具体而言,所述数据流分析模块判定所述数据流中结构化数据处于第二占比水平,所述间歇解析单元每隔预设周期T对所述存储模块在周期T时间内存储的非结构化数据进行一次解析,得到搁置数据的数据量,并将解析得到的结构化数据发送至所述数据流分类模块,将不可解析数据返回至所述存储模块,所述数据流分析模块计算搁置百分比G,以判定所述间歇解析单元的解析效率,
其中,E1为本次解析中搁置数据的数据量,E为本次解析非结构化数据的总数据量。
具体而言,所述数据流分析模块中设有搁置百分比标准G0,G0>0%,将其与所述搁置百分比G进行比对,所述控制模块根据比对结果确定对所述数据流的处理过程采用第二调节方式或第三调节方式进行调节,其中,第二调节方式为所述控制模块控制对所述数据流获取模块对所述连续解析单元的解析等级进行调节,第三调节方式为所述控制模块控制所述连续解析单元调整解析等级且控制所述数据流获取模块减小数据获取速度;
若所述数据流分析模块确定所述搁置数据处于第一搁置水平,随即判定所述连续解析单元的解析效率达标,所述控制模块不采取任何调节动作;
若所述数据流分析模块确定所述搁置数据处于第二搁置水平,即判定所述连续解析单元的解析效率符合第一不达标条件,所述控制模块采用第二调节方式对所述数据流的处理过程进行调节;
若所述数据流分析模块确定所述搁置数据处于第三搁置水平,即判定所述连续解析单元的解析效率符合第二不达标条件,所述控制模块采用第三调节方式对所述数据流的处理过程进行调节;
所述第一搁置水平为G=0%,第二搁置水平为0%<G≤G0,第三搁置水平为G>G0。
具体而言,所述连续解析单元设有第一解析等级、第二解析等级和第三解析等级,其对应的解析速度依次递增,即第一解析等级<第二解析等级<第三解析等级,所述连续解析单元的初始解析等级为第一解析等级。
具体而言,在第一不达标条件下,所述数据流分析模块计算搁置百分比超差C,C=|G-G0|,并与第一搁置百分比超差标准进行比对,以调整所述解析等级,所述数据流分析模块设有第一搁置百分比超差标准C1,
在第一判别结果下,所述控制模块控制所述连续解析单元调整解析等级为第二解析等级;
在第二判别结果下,所述控制模块控制所述连续解析单元调整解析等级为第三解析等级;
所述第一判别结果为C≤C1,第二判别结果为C>C1。
具体而言,在第二不达标条件下,所述控制模块控制所述连续解析单元调整解析等级为第三解析等级,所述数据流分析模块计算搁置百分比超差C,并与第二搁置百分比超差标准进行比对,以确定数据流获取速度的调节系数,所述数据流分析模块设有第二搁置百分比超差标准C2,C2>C1,所述数据流获取模块中预设有第四速度调节系数K4和第五速度调节系数K5设定0<K5<K4<1,
在第三判别结果下,所述控制模块控制所述数据流获取模块采用第四速度调节系数K4对所述数据流获取速度进行调节;
在第四判别结果下,所述控制模块控制所述数据流获取模块采用第五速度调节系数K5对所述数据流获取速度进行调节;
所述第三判别结果为C≤C2,第四判别结果为C>C2;
所述数据流获取模块经过调节后的数据流获取速度为vj,vj=v0×Kj,j=4,5。
具体而言,所述存储模块每隔7天对距离清理日期60天以前的不可解析数据进行清理。
具体而言,所述数据流分类模块根据结构化数据的来源对数据进行分类备注,完成对数据流的治理,用户可根据需要对治理完成的数据进行下一步处理。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于物联网数据流式处理的热网数据治理系统,其特征在于,包括:
数据流获取模块,用以获取热网中各单位产生的数据流;
数据流识别模块,其与所述数据流获取模块相连接,用以将所述数据流进行识别以确定所述数据流中的结构化数据和非结构化数据;
数据流记录模块,其与所述数据流识别模块相连接,用以记录所述数据流中结构化数据的流量和数据流的总流量;
数据结构化模块,其分别与所述数据流识别模块和数据流记录模块连接,数据结构化模块包括数据预解析单元,用以判断所述数据流识别模块识别的非结构化数据是否为可解析数据,若判定为可解析数据,则根据可解析数据的数据量确定初步解析时长,并将可解析数据发送至连续解析单元,若判定为不可解析数据,则将不可解析数据发送至存储模块;
连续解析单元,其与所述数据预解析单元相连接,用以对所述可解析数据进行解析得到结构化数据,若所述可解析数据的实际解析时长大于初步解析时长,则终止对可解析数据的解析并将其发送至存储模块;
间歇解析单元,用以间歇性对存储模块中存储的非结构化数据进行解析,得到搁置数据的数据量和结构化数据;
存储模块,其与所述数据结构化模块相连接,用以对所述不可解析数据或搁置数据进行存储;
数据流分析模块,其与所述数据流记录模块和所述数据结构化模块相连接,用以对所述数据流记录模块和所述数据结构化模块产生的数据进行计算分析以将结构化数据的流量百分比与流量百分比上限进行比对,并根据比对结果确定对所述数据流的处理过程采用的调节方式;
数据流分类模块,其与所述数据流记录模块和所述数据结构化模块相连接,用以将结构化数据根据其来源进行分类;
控制模块,其与所述数据流获取模块、数据结构化模块和数据流分析模块相连接,用以根据所述数据分析模块的分析结果确定对数据流处理过程的调控方式;
其中,所述搁置数据为所述连续解析单元存储至所述存储模块中的可解析数据。
2.根据权利要求1所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,所述数据流获取模块以标准速度v0获取数据流,并发送至所述数据流识别模块,所述数据流识别模块对数据流进行识别并按结构化数据和非结构化数据对数据流进行区分,同时将数据流发送至所述数据流记录模块以使所述数据流记录模块记录所述结构化数据的流量和非结构化数据的流量。
3.根据权利要求2所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,所述数据流记录模块记录标准时长t内数据流中结构化数据的流量F1和数据流的总流量F,并将结构化数据发送至所述数据流分类模块,将非结构化数据发送至所述数据结构化模块。
4.根据权利要求3所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,所述数据流分析模块根据所述数据流记录模块记录的数据计算结构化数据的流量百分比P,以判定所述数据流中结构化数据的占比水平,
所述数据流分析模块中设有流量百分比上限P0,所述数据流分析模块将所述流量百分比P与流量百分比上限P0进行比对,所述控制模块根据该比对结果确定对所述数据流的处理过程采用第一调节方式,其中,第一调节方式为所述控制模块控制对所述数据流获取模块对数据流获取速度进行调节,
若所述数据流分析模块判定所述数据流中结构化数据处于第一占比水平,所述控制模块控制所述数据流获取模块增大数据流获取速度;
若所述数据流分析模块判定所述数据流中结构化数据处于第二占比水平,所述数据结构化模块判定所述连续解析单元的解析效率是否达标;
其中,所述第一占比水平为P>P0,第二占比水平为P≤P0。
5.根据权利要求4所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,所述数据流分析模块判定所述数据流中结构化数据处于第一占比水平,所述数据流分析模块计算流量百分比超差D,并与超差标准进行比对,以确定数据流获取速度的调节系数,所述数据流分析模块设有第一超差标准D1和第二超差标准D2,所述数据流获取模块中预设有第一速度调节系数K1、第二速度调节系数K2和第三速度调节系数K3,设定D1<D2,1<K1<K2<K3,
在第一超差对比结果下,所述控制模块控制所述数据流获取模块采用第一速度调节系数K1对所述数据流获取速度进行调节;
在第二超差对比结果下,所述控制模块控制所述数据流获取模块采用第二速度调节系数K2对所述数据流获取速度进行调节;
在第三超差对比结果下,所述控制模块控制所述数据流获取模块采用第三速度调节系数K3对所述数据流获取速度进行调节;
所述第一超差对比结果为D≤D1,第二超差对比结果为D1<D≤D2,第三超差对比结果为D>D2;
所述数据流获取模块经过调节后的数据流获取速度为vi,vi=v0×Ki,i=1,2,3。
7.根据权利要求6所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,所述数据流分析模块中设有搁置百分比标准G0,G0>0%,将其与所述搁置百分比G进行比对,所述控制模块根据比对结果确定对所述数据流的处理过程采用第二调节方式或第三调节方式进行调节,其中,第二调节方式为所述控制模块控制对所述数据流获取模块对所述连续解析单元的解析等级进行调节,第三调节方式为所述控制模块控制所述连续解析单元调整解析等级且控制所述数据流获取模块减小数据获取速度;
若所述数据流分析模块确定所述搁置数据处于第一搁置水平,随即判定所述连续解析单元的解析效率达标,所述控制模块不采取任何调节动作;
若所述数据流分析模块确定所述搁置数据处于第二搁置水平,即判定所述连续解析单元的解析效率符合第一不达标条件,所述控制模块采用第二调节方式对所述数据流的处理过程进行调节;
若所述数据流分析模块确定所述搁置数据处于第三搁置水平,即判定所述连续解析单元的解析效率符合第二不达标条件,所述控制模块采用第三调节方式对所述数据流的处理过程进行调节;
所述第一搁置水平为G=0%,第二搁置水平为0%<G≤G0,第三搁置水平为G>G0。
8.根据权利要求7所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,所述连续解析单元设有第一解析等级、第二解析等级和第三解析等级,其对应的解析速度依次递增,即第一解析等级<第二解析等级<第三解析等级,所述连续解析单元的初始解析等级为第一解析等级。
9.根据权利要求8所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,在第一不达标条件下,所述数据流分析模块计算搁置百分比超差C,C=|G-G0|,并与第一搁置百分比超差标准进行比对,以调整所述解析等级,所述数据流分析模块设有第一搁置百分比超差标准C1,
在第一判别结果下,所述控制模块控制所述连续解析单元调整解析等级为第二解析等级;
在第二判别结果下,所述控制模块控制所述连续解析单元调整解析等级为第三解析等级;
所述第一判别结果为C≤C1,第二判别结果为C>C1。
10.根据权利要求9所述的基于物联网数据流式处理的热网数据治理系统,其特征在于,在第二不达标条件下,所述控制模块控制所述连续解析单元调整解析等级为第三解析等级,所述数据流分析模块计算搁置百分比超差C,并与第二搁置百分比超差标准进行比对,以确定数据流获取速度的调节系数,所述数据流分析模块设有第二搁置百分比超差标准C2,C2>C1,所述数据流获取模块中预设有第四速度调节系数K4和第五速度调节系数K5设定0<K5<K4<1,
在第三判别结果下,所述控制模块控制所述数据流获取模块采用第四速度调节系数K4对所述数据流获取速度进行调节;
在第四判别结果下,所述控制模块控制所述数据流获取模块采用第五速度调节系数K5对所述数据流获取速度进行调节;
所述第三判别结果为C≤C2,第四判别结果为C>C2;
所述数据流获取模块经过调节后的数据流获取速度为vj,vj=v0×Kj,j=4,5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310160374.9A CN116109441B (zh) | 2023-02-24 | 2023-02-24 | 基于物联网数据流式处理的热网数据治理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310160374.9A CN116109441B (zh) | 2023-02-24 | 2023-02-24 | 基于物联网数据流式处理的热网数据治理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116109441A true CN116109441A (zh) | 2023-05-12 |
CN116109441B CN116109441B (zh) | 2024-03-19 |
Family
ID=86258006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310160374.9A Active CN116109441B (zh) | 2023-02-24 | 2023-02-24 | 基于物联网数据流式处理的热网数据治理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109441B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011111235A1 (ja) * | 2010-03-08 | 2011-09-15 | 株式会社日立製作所 | ストリームデータ処理システム、ストリームデータ処理方法及びストリームデータ流量制御プログラム |
CN105045820A (zh) * | 2015-06-25 | 2015-11-11 | 浙江立元通信技术股份有限公司 | 一种处理海量级数据的视频图像信息的方法及数据库系统 |
CN111078765A (zh) * | 2019-11-13 | 2020-04-28 | 北京中盾安全技术开发公司 | 基于Hadoop体系架构的视图库系统及其构建方法 |
CN112966015A (zh) * | 2021-02-01 | 2021-06-15 | 杭州博联智能科技股份有限公司 | 大数据分析处理和存储方法、装置、设备及介质 |
CN113141368A (zh) * | 2021-04-27 | 2021-07-20 | 天翼电子商务有限公司 | 一种支持海量数据实时安全威胁关联分析的系统 |
-
2023
- 2023-02-24 CN CN202310160374.9A patent/CN116109441B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011111235A1 (ja) * | 2010-03-08 | 2011-09-15 | 株式会社日立製作所 | ストリームデータ処理システム、ストリームデータ処理方法及びストリームデータ流量制御プログラム |
CN105045820A (zh) * | 2015-06-25 | 2015-11-11 | 浙江立元通信技术股份有限公司 | 一种处理海量级数据的视频图像信息的方法及数据库系统 |
CN111078765A (zh) * | 2019-11-13 | 2020-04-28 | 北京中盾安全技术开发公司 | 基于Hadoop体系架构的视图库系统及其构建方法 |
CN112966015A (zh) * | 2021-02-01 | 2021-06-15 | 杭州博联智能科技股份有限公司 | 大数据分析处理和存储方法、装置、设备及介质 |
CN113141368A (zh) * | 2021-04-27 | 2021-07-20 | 天翼电子商务有限公司 | 一种支持海量数据实时安全威胁关联分析的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116109441B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180225346A1 (en) | Data processing method, device and system | |
CN114498641A (zh) | 一种分布式灵活资源聚合控制装置及控制方法 | |
CN116109441B (zh) | 基于物联网数据流式处理的热网数据治理系统 | |
CN115968088A (zh) | 隧道智慧调光方法、系统及计算机储存介质 | |
CN115642652A (zh) | 一种基于人工智能的电力调节装置 | |
CN113691308B (zh) | 一种光模块监控方法 | |
CN111262783B (zh) | 一种动态路由的方法及装置 | |
CN116599858A (zh) | 一种响应时间保障型集群系统及其规模调整方法 | |
CN111970484A (zh) | 适于视频监控设备的运维系统和运维方法 | |
US20230034061A1 (en) | Method for managing proper operation of base station and system applying the method | |
CN106341325A (zh) | 移动云计算中一种离散数据均匀量化算法 | |
CN116415714A (zh) | 风电功率预测方法、装置、电子设备及可读存储介质 | |
CN116304988A (zh) | 一种基于数据融合的情景感知多指标质量管理系统及方法 | |
CN111598404A (zh) | 一种智能群控群调方法及装置 | |
CN114004715A (zh) | 一种基于大数据智能推荐算法的学习环境构建方法 | |
CN117407250B (zh) | 基于运行环境实时处理的计算机性能控制系统 | |
CN114738925B (zh) | 一种基于大数据的空调全状态自动控制方法 | |
CN115511417B (zh) | 一种基于大数据的储备粮实时监测管控系统及监控方法 | |
CN109491345A (zh) | 一种基于关键工序质量控制的研究方法 | |
CN116719630B (zh) | 案件调度方法、设备、存储介质及装置 | |
CN117544516A (zh) | 一种基于正态分布曲线的带宽自动调度方法、介质及设备 | |
CN117196881B (zh) | 基于大数据的智慧养殖信息管理系统 | |
CN114845372A (zh) | 一种智能设备流量监控方法及系统 | |
CN110609856B (zh) | 一种基于人工智能推荐ab报表统计的方法 | |
CN110297145B (zh) | 一种基于多用户电能量数据深度分析的电压暂降检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |