CN118093729A - 一种物联网数据湖的流批一体方法、设备及介质 - Google Patents
一种物联网数据湖的流批一体方法、设备及介质 Download PDFInfo
- Publication number
- CN118093729A CN118093729A CN202410517717.7A CN202410517717A CN118093729A CN 118093729 A CN118093729 A CN 118093729A CN 202410517717 A CN202410517717 A CN 202410517717A CN 118093729 A CN118093729 A CN 118093729A
- Authority
- CN
- China
- Prior art keywords
- data
- equipment
- lake
- time sequence
- written
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 238000005192 partition Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 230000005856 abnormality Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 abstract description 10
- 230000008859 change Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种物联网数据湖的流批一体方法、设备及介质,方法包括:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。本申请通过上述方法解决了现有技术存在的额外成本高、数据一致性差、系统小文件问题、数据链路过长等技术问题。
Description
技术领域
本申请涉及物联网数据处理技术领域,尤其涉及一种物联网数据湖的流批一体方法、设备及介质。
背景技术
随着物联网的快速发展以及传统企业数字化转型的趋势,让数据体量以前所未有的速度增长,数据时效性在企业运营中的显得尤为重要,企业对海量数据的处理有了更高要求,除了通过离线批量方式将数据同步到存储系统,还需要应对实时数据低延迟写入存储,并快速对外提供低延迟的数据服务,以满足企业根据数据报表进行战略决策调整、数据分析人员进行数据在线分析、工厂设备实时异常告警等需求。
对于实时性要求高的场景比如实时告警,实时分析查询场景,将数据存储在低延迟的存储,比如时序数据库或者消息队列中进行实时计算,而对于离线计算将数据存储在hive、clickhouse等数据库中进行离线计算。现有技术具有的技术问题如下:额外成本高、数据一致性差、系统小文件问题、长数据链路以及快速响应性能限制。
发明内容
本申请实施例提供了一种物联网数据湖的流批一体方法、设备及介质,解决了现有技术存在的额外成本高、数据一致性差、系统小文件问题、数据链路过长以及快速响应性能限制的技术问题。
第一方面,本申请实施例提供了一种物联网数据湖的流批一体方法,方法包括:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;其中,设备时序写入法用于确定设备时序数据的写入间隔;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
在本申请的一种实现方式中,将待写入物模型数据通过数据同步方法写入预设的数据湖表,具体包括:判断待写入物模型数据是否支持开启CDC模式,在待写入物模型数据支持开启CDC模式的情况下,确定第一检查点,并基于检查点,进行数据增量采集;其中,第一检查点用于写入待写入物模型数据;在待写入物模型数据不支持开启CDC模式的情况下,通过查询对应的客户端接口。
在本申请的一种实现方式中,通过设备时序写入法将设备时序数据写入数据湖表,具体包括:基于设备时序数据,在数据湖中确定设备时序数据表;根据设备时序数据表,确定第二检查点;其中,第二检查点用于写入设备时序数据;基于第二检查点,将设备时序数据写入数据湖。
在本申请的一种实现方式中,将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据,具体包括:基于mqtt协议,实时获取设备时序入湖数据,得到待处理设备时序数据;对待处理设备时序数据进行状态设置处理,得到更新设备数据;其中,状态设置处理包括:数据状态设置、无效数据清理;通过对比,确定数据实时写入更新缓存中的更新设备数据;其中,更新缓存包括:redis、state。
在本申请的一种实现方式中,将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据,具体包括:基于设备实时指标数据,确定数据湖规则计算结果表和数据湖规则计算结果表;实时获取设备时序入湖数据,并将预设的数据湖规则表与设备时序入湖数据进行数据关联;对数据湖规则表进行聚合实时运算,得到实时运算结果;将实时运算结果写入数据湖规则计算结果表,得到待过滤数据湖规则计算结果表;将待过滤数据湖规则计算结果表进行异常过滤,并通过湖里预设的异常过滤规则对数据湖规则计算结果表进行过滤,以得到设备异常预警数据。
在本申请的一种实现方式中,根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据,具体包括:基于设备时序入湖数据,确定设备分区;根据设备分区,确定业务分析的时间粒度;基于时间粒度,获取对应的业务维表,以得到数据湖分析数据;其中,业务维表包括:产品维表、时间维表、地区维表、其他维表。
在本申请的一种实现方式中,在将待写入物模型数据通过数据同步方法写入预设的数据湖表之后,方法还包括:根据数据湖表,确定更新规则数据;其中更新规则数据包括:设备规则数据、设备告警数据;将更新规则数据实时同步至预设的数据湖告警表中。
在本申请的一种实现方式中,在根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据之后,方法还包括:基于数据湖分析数据,得到可视化报表。
第二方面,本申请实施例还提供了一种流批一体的物联网数据湖构建设备,设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;其中,设备时序写入法用于确定设备时序数据的写入间隔;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
第三方面,本申请实施例还提供了一种物联网数据湖的流批一体方法的非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表;其中,设备时序写入法用于确定设备时序数据的写入间隔;将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据;将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
本申请实施例提供了一种物联网数据湖的流批一体方法、设备及介质,通过将实时数据采集入湖以及构建湖内数据自主分析模块,解决了现有技术存在的额外成本高、数据一致性差、系统小文件问题、数据链路过长以及快速响应性能限制的技术问题,提升了数据处理效率、降低了数据管理成本、实现了实时数据和离线数据的同时处理、提高数据的一致性、降低小文件问题以及数据的预测和预警。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种物联网数据湖的流批一体方法流程图;
图2为本申请实施例提供的一种物联网设备物模型数据实时采集入湖流程图;
图3为本申请实施例提供的一种物联网设备时序数据以及物联网规则、告警模型数据实时采集入湖流程图;
图4为本申请实施例提供的一种设备实时信息模型构建流程图;
图5为本申请实施例提供的一种实时规则告警模型构建流程图;
图6为本申请实施例提供的一种基于历史规则计算结果预测告警模型构建流程图;
图7为本申请实施例提供的一种设备时序分析的模型构建流程图;
图8为本申请实施例提供的一种自主分析模型构建流程图;
图9为本申请实施例提供的一种流批一体的物联网数据湖构建设备内部结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种物联网数据湖的流批一体方法、设备及介质,通过将实时数据采集入湖以及构建湖内数据自主分析模块,解决了现有技术存在的额外成本高、数据一致性差、系统小文件问题、数据链路过长以及快速响应性能限制的技术问题,提升了数据处理效率、降低了数据管理成本、实现了实时数据和离线数据的同时处理、提高数据的一致性、降低小文件问题以及数据的预测和预警。下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种物联网数据湖的流批一体方法流程图。如图1所示,本申请实施例提供的一种物联网数据湖的流批一体方法,具体包括以下步骤:
步骤101、将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表。
具体包括:判断待写入物模型数据是否支持开启CDC模式,在待写入物模型数据支持开启CDC模式的情况下,确定第一检查点,并基于检查点,进行数据增量采集;其中,第一检查点用于写入待写入物模型数据;在待写入物模型数据不支持开启CDC模式的情况下,通过查询对应的客户端接口。
在将待写入物模型数据通过数据同步方法写入预设的数据湖表之后,方法还包括:根据数据湖表,确定更新规则数据;其中更新规则数据包括:设备规则数据、设备告警数据;将更新规则数据实时同步至预设的数据湖告警表中。
本申请通过扩展待更新设备物模型数据的入湖策略和入湖方法,提高了设备模型数据的获取效率和入湖精确度。
在本申请实施例中,通过下述例1进行详细解释。
例1:系统将物联网设备物模型数据实时采集入湖,如图2所示。图2为本申请实施例提供的一种物联网设备物模型数据实时采集入湖流程图,本申请实施例提供的一种物联网设备物模型数据实时采集入湖流程,具体包括:
首先,新建主键(主键用于唯一标识数据库表中每一行或记录的关键字或字段)更新模型数据湖表,该模型表一方面支持根据主键实时更新;另一方面可根据上游表结构变更实时更新自身表结构,该变更目前只支持字段的增减,即数据湖字段的 add column和drop column操作。
当产品对应的物模型数据发生变更时,flink获取到cdc的变更信息,通知下游自动进行表结构的动态更新。
对于因为字段变更导致下游历史数据类型不兼容的情况,在物模型管理系统进行相关限制,保证物模型变更带来的下游数据湖表结构变更不会带来数据湖表历史数据的不兼容。
对于可以开启cdc模式的数据库,通过flink-cdc技术将物模型数据从关系型数据库实时同步到数据湖物模型表中,使用flink cdc initial模式启动,该模式下flink会先将表中全量数据同步至数据湖表,然后根据上次全量获取的checkpoint位置继续以cdc的方式进行增量采集。
对于不支持开启cdc模式的数据库,可直接通过轮询请求客户端接口的方式将数据实时写入数据湖中。
对于物联网规则、告警模型数据的实时采集入湖,首先新建主键更新模型数据湖表,该表模型支持根据主键实时更新,并可根据上游表结构变更实时更新自身表结构。
对于可以开启cdc模式的数据库,通过flink-cdc技术全增量模式将规则、告警信息数据实时同步到数据湖规则、告警表中。
对于不支持开启cdc模式的数据库,可直接通过轮询请求客户端接口的方式将数据近实时写入数据湖中。通过该步骤,规则引擎下发的计算规则实时将实时同步到湖存储中,并以changelog的方式提供给flink计算引擎流读。
步骤102、获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法将设备时序数据写入数据湖表。
其中,设备时序写入法用于确定设备时序数据的写入间隔。
具体包括:基于设备时序数据,在数据湖中确定设备时序数据表;根据设备时序数据表,确定第二检查点;其中,第二检查点用于写入设备时序数据;基于第二检查点,将设备时序数据写入数据湖。
本申请通过全增量一体实时同步和时序物联网协议,提高了设备时序数据的获取效率和入湖精确度。
具体流程如图3所示。图3为本申请实施例提供的一种物联网设备时序数据以及物联网规则、告警模型数据实时采集入湖流程图,通过下述例2进行详细解释。
例2:新建追加写入模型数据湖的设备时序数据表,该表支持追加数据的高效顺序写入。
该模型因为不存在更新功能,只需要按照flink指定的checkpoint间隔进行数据顺序写入。
设备数据通过物模型定义的产品属性动态生成对应的数据湖表结构,接入过程自动建表,自动分区。
使用flink计算引擎+mqtt协议将设备时序数据实时写入数据湖表中。
步骤103、将数据湖表中的历史设备时序数据与设备时序数据进行对比,以确定设备实时指标数据。
具体包括:基于mqtt协议,实时获取设备时序入湖数据,得到待处理设备时序数据;对待处理设备时序数据进行状态设置处理,得到更新设备数据;其中,状态设置处理包括:数据状态设置、无效数据清理;通过对比,确定数据实时写入更新缓存中的更新设备数据;其中,更新缓存包括:redis、state。
本申请通过对状态存储和缓存数据进行设置,实现了在系统物模型下,对设备的实时指标查询,降低了下游redis的更新频次、提升了系统性能。
模型构建流程如图4所示。图4为本申请实施例提供的一种设备实时信息模型构建流程图,通过下述例3进行详细解释。
例3:flink通过mqtt协议实时获取设备时序数据,并以流读的方式实时获取设备物模型数据,将最新的设备最新的数据缓存到状态存储中。
由于设备数量比较多,通过rocksdb state backend作为flink状态存储后端,通过设置状态的ttl及时清理僵尸设备数据,避免随着时间变化flink状态越来越大导致查询效率降低的问题。
获取到新数据后首先跟状态数据进行对比,将被更新的设备数据实时写入到redis中,通过state缓存可大大减少下游redis的更新频次,提供给应用侧查询设备最新状态以及指标信息。
步骤104、将设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据。
具体包括:基于设备实时指标数据,确定数据湖规则计算结果表和数据湖规则计算结果表;实时获取设备时序入湖数据,并将预设的数据湖规则表与设备时序入湖数据进行数据关联;对数据湖规则表进行聚合实时运算,得到实时运算结果;将实时运算结果写入数据湖规则计算结果表,得到待过滤数据湖规则计算结果表;将待过滤数据湖规则计算结果表进行异常过滤,并通过湖里预设的异常过滤规则对数据湖规则计算结果表进行过滤,以得到设备异常预警数据。
本申请通过实时对设备规则和告警数据进行处理,实现了设备的实时状态监控,并根据设备的历史数据进行预警,具有避免了设备异常不被及时发现以及降低设备异常率的技术效果。
其中,设备异常数据分析如图5所示。图5为本申请实施例提供的一种实时规则告警模型构建流程图,通过下述例4进行详细解释。
例4:规则数据湖表开启changelog模式,该模式会根据flink同步上游数据的特征生成额外的changelog文件,该changelog文件可以支持流模式下flink高性能实时读取能力,从而实时获取到上游计算规则的变更。
新建追加写入模型数据湖规则计算结果表,该表支持追加数据的高效顺序写入。
flink以流模式读取数据湖规则表,该表定义了计算逻辑,涉及到物模型中需要聚合的属性,聚合函数,以及阈值等信息。
flink通过mqtt协议实时获取时序数据,并关联规则流表。
flink实时解析规则表数据,通过keyedProcessFunction+state存储的方式动态根据聚合字段、函数、进行聚合实时计算,并将计算结果写入到下游数据湖计算结果表中。
flink以流模式实时读取数据湖计算结果表,通过filter算子过滤出异常数据。调用告警系统接口将异常数据信息发出,并通过mqtt协议将指令发送到设备侧,完成设备异常状态的修复。
比如设备温度过高,系统将降温指令发送到设备控制系统,完成设备的及时降温。
其中,设备异常预测告警模型如图6所示。图6为本申请实施例提供的一种基于历史规则计算结果预测告警模型构建流程图,通过下述例5进行详细解释。
例5:创建设备物模型预测结果表并开启changelog流模式。
将上述例4中得到的基于规则计算的结果表数据使用flink流式读取,获取全增量数据样本。
通过flink+flinkML框架自带的高效算法库Alink,使用线性回归预测算法,以mini batch的流模式进行计算,实时获取一个小时后的各个监控指标的预测值,将预测数据实时写入湖内预测结果表。
flink实时读取预测结果表,并与其对应指标定义的阈值进行比较,对超出阈值范围的预测值进行过滤,然后将异常值以异常预警信息通过消息事件的方式反馈给应用平台,对外提供预警能力。
通过设备预警,预测设备的异常是发生在一个小时后,可及时通过人工干预的方式对设备进行响应的调整,避免异常的发生。
模块通过预测告警值与真实值自动对比,优化算法模型参数,调整各个影响因素的权重,不断提高预警准确性。
步骤105、根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
具体包括:基于设备时序入湖数据,确定设备分区;根据设备分区,确定业务分析的时间粒度;基于时间粒度,获取对应的业务维表,以得到数据湖分析数据;其中,业务维表包括:产品维表、时间维表、地区维表、其他维表。
在根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据之后,方法还包括:基于数据湖分析数据,得到可视化报表。
本申请通过湖内数据自主分析,得到可视化报表,减少了数据加工链路,降低了计算资源的使用,提升了系统计算效率。
其中,湖内数据自主分析模块的构建如图7、图8所示。
图7为本申请实施例提供的一种设备时序分析的模型构建流程图,通过下述例6进行详细解释。
例6:设备数据、数据湖表通过设备ID进行分区,通过分区存储,构建数据湖事实表。
从数据湖物模型数据中获取所需的度量值,即将设备数据按照业务分析时间粒度,例如5秒、30s进行时间窗口聚合对应的物模型指标,生成设备时序分析模型数据。
图8为本申请实施例提供的一种自主分析模型构建流程图,通过下述例7进行详细解释。
例7:数据湖构建设备数据事实明细表。
数据湖构建产品维表、时间维表、地区维表、其他维表等。
通过星型模型对外提供物联网设备数据自主分析能力。
通过jdbc对接可视化组件,用户可通过拖拉拽进行自主分析,生成应用的可视化报表。
最后根据可视化报表涉及的分析维度(维表)创建数据湖维表。
以上为本申请提出的方法实施例。基于同样的发明构思,本申请实施例还提供了一种物联网数据湖的流批一体设备,其结构如图9所示。
图9为本申请实施例提供的一种物联网数据湖的流批一体设备内部结构示意图。如图9所示,设备包括:
至少一个处理器901;
以及,与至少一个处理器通信连接的存储器902;
其中,存储器902存储有可被至少一个处理器执行的指令,指令被至少一个处理器901执行,以使至少一个处理器901能够:
将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法写入设备时序数据,得到设备时序入湖数据;其中,设备时序写入法用于确定设备时序数据的写入间隔;根据设备时序入湖数据,通过设备数据更新对比,得到设备实时指标数据;基于设备实时指标数据,通过预设的预测告警方法,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
本申请的一些实施例提供的对应于图1的一种物联网数据湖的流批一体方法的非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将待写入物模型数据通过数据同步方法写入预设的数据湖表;获取待写入物模型数据对应的设备时序数据,并通过设备时序写入法写入设备时序数据,得到设备时序入湖数据;其中,设备时序写入法用于确定设备时序数据的写入间隔;根据设备时序入湖数据,通过设备数据更新对比,得到设备实时指标数据;基于设备实时指标数据,通过预设的预测告警方法,得到设备异常预警数据;根据设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于物联网设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的系统和介质与方法是一一对应的,因此,系统和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述系统和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种物联网数据湖的流批一体方法,其特征在于,所述方法包括:
将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将所述待写入物模型数据通过数据同步方法写入预设的数据湖表;
获取所述待写入物模型数据对应的设备时序数据,并通过设备时序写入法将所述设备时序数据写入所述数据湖表;其中,所述设备时序写入法用于确定所述设备时序数据的写入间隔;
将所述数据湖表中的历史设备时序数据与所述设备时序数据进行对比,以确定设备实时指标数据;
将所述设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;
根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
2.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,将所述待写入物模型数据通过数据同步方法写入预设的数据湖表,具体包括:
判断所述待写入物模型数据是否支持开启CDC模式,在所述待写入物模型数据支持开启CDC模式的情况下,确定第一检查点,并基于所述检查点,进行数据增量采集;其中,所述第一检查点用于写入所述待写入物模型数据;
在所述待写入物模型数据不支持开启CDC模式的情况下,通过查询对应的客户端接口。
3.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,通过设备时序写入法将所述设备时序数据写入所述数据湖表,具体包括:
基于所述设备时序数据,在所述数据湖中确定设备时序数据表;
根据所述设备时序数据表,确定第二检查点;其中,所述第二检查点用于写入所述设备时序数据;
基于所述第二检查点,将所述设备时序数据写入所述数据湖。
4.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,将所述数据湖表中的历史设备时序数据与所述设备时序数据进行对比,以确定设备实时指标数据,具体包括:
基于mqtt协议,实时获取所述设备时序入湖数据,得到待处理设备时序数据;
对所述待处理设备时序数据进行状态设置处理,得到更新设备数据;其中,所述状态设置处理包括:数据状态设置、无效数据清理;
通过所述对比,确定数据实时写入更新缓存中的更新设备数据;其中,所述更新缓存包括:redis、state。
5.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,将所述设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据,具体包括:
基于所述设备实时指标数据,确定数据湖规则计算结果表和数据湖规则计算结果表;
实时获取所述设备时序入湖数据,并将预设的数据湖规则表与所述设备时序入湖数据进行数据关联;
对所述数据湖规则表进行聚合实时运算,得到实时运算结果;
将所述实时运算结果写入所述数据湖规则计算结果表,得到待过滤数据湖规则计算结果表;
将所述待过滤数据湖规则计算结果表进行异常过滤,并通过湖里预设的异常过滤规则对所述数据湖规则计算结果表进行过滤,以得到设备异常预警数据。
6.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据,具体包括:
基于所述设备时序入湖数据,确定设备分区;
根据所述设备分区,确定业务分析的时间粒度;
基于所述时间粒度,获取对应的业务维表,以得到数据湖分析数据;其中,所述业务维表包括:产品维表、时间维表、地区维表、其他维表。
7.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,在将所述待写入物模型数据通过数据同步方法写入预设的数据湖表之后,所述方法还包括:
根据所述数据湖表,确定更新规则数据;其中所述更新规则数据包括:设备规则数据、设备告警数据;
将所述更新规则数据实时同步至预设的数据湖告警表中。
8.根据权利要求1所述的一种物联网数据湖的流批一体方法,其特征在于,在根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据之后,所述方法还包括:
基于所述数据湖分析数据,得到可视化报表。
9.一种流批一体的物联网数据湖构建设备,其特征在于,所述设备包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将所述待写入物模型数据通过数据同步方法写入预设的数据湖表;
获取所述待写入物模型数据对应的设备时序数据,并通过设备时序写入法将所述设备时序数据写入所述数据湖表;其中,所述设备时序写入法用于确定所述设备时序数据的写入间隔;
将所述数据湖表中的历史设备时序数据与所述设备时序数据进行对比,以确定设备实时指标数据;
将所述设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;
根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
10.一种物联网数据湖的流批一体方法的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
将待更新设备物模型数据进行数据更新,得到待写入物模型数据,并将所述待写入物模型数据通过数据同步方法写入预设的数据湖表;
获取所述待写入物模型数据对应的设备时序数据,并通过设备时序写入法将所述设备时序数据写入所述数据湖表;其中,所述设备时序写入法用于确定所述设备时序数据的写入间隔;
将所述数据湖表中的历史设备时序数据与所述设备时序数据进行对比,以确定设备实时指标数据;
将所述设备实时指标数据输入预设的预测告警模型,得到设备异常预警数据;
根据所述设备时序入湖数据,通过分区分析法,得到数据湖分析数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410517717.7A CN118093729A (zh) | 2024-04-28 | 2024-04-28 | 一种物联网数据湖的流批一体方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410517717.7A CN118093729A (zh) | 2024-04-28 | 2024-04-28 | 一种物联网数据湖的流批一体方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118093729A true CN118093729A (zh) | 2024-05-28 |
Family
ID=91155160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410517717.7A Pending CN118093729A (zh) | 2024-04-28 | 2024-04-28 | 一种物联网数据湖的流批一体方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118093729A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367984A (zh) * | 2020-03-11 | 2020-07-03 | 中国工商银行股份有限公司 | 高时效的数据加载入数据湖的方法及系统 |
CN116842055A (zh) * | 2023-06-29 | 2023-10-03 | 中科云谷科技有限公司 | 用于物联网数据批流一体处理的系统及方法 |
US11816081B1 (en) * | 2021-03-18 | 2023-11-14 | Amazon Technologies, Inc. | Efficient query optimization on distributed data sets |
CN117131138A (zh) * | 2023-08-30 | 2023-11-28 | 中国联合网络通信集团有限公司 | 基于数据湖的数据处理方法、装置、设备和介质 |
CN117149873A (zh) * | 2023-08-30 | 2023-12-01 | 中电信数智科技有限公司 | 一种基于流批一体化的数据湖服务平台构建方法 |
CN117762865A (zh) * | 2023-12-19 | 2024-03-26 | 山东雅图软件科技有限公司 | 大数据平台的数据入湖方法及系统 |
-
2024
- 2024-04-28 CN CN202410517717.7A patent/CN118093729A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111367984A (zh) * | 2020-03-11 | 2020-07-03 | 中国工商银行股份有限公司 | 高时效的数据加载入数据湖的方法及系统 |
US11816081B1 (en) * | 2021-03-18 | 2023-11-14 | Amazon Technologies, Inc. | Efficient query optimization on distributed data sets |
CN116842055A (zh) * | 2023-06-29 | 2023-10-03 | 中科云谷科技有限公司 | 用于物联网数据批流一体处理的系统及方法 |
CN117131138A (zh) * | 2023-08-30 | 2023-11-28 | 中国联合网络通信集团有限公司 | 基于数据湖的数据处理方法、装置、设备和介质 |
CN117149873A (zh) * | 2023-08-30 | 2023-12-01 | 中电信数智科技有限公司 | 一种基于流批一体化的数据湖服务平台构建方法 |
CN117762865A (zh) * | 2023-12-19 | 2024-03-26 | 山东雅图软件科技有限公司 | 大数据平台的数据入湖方法及系统 |
Non-Patent Citations (2)
Title |
---|
ZHAO Z.等: "Design and Implementation of Power Big Data Platform", 2023 INTERNATIONAL CONFERENCE ON BIG DATA, INFORMATION AND INTELLIGENT ENGINEERING, 31 December 2023 (2023-12-31) * |
周维 等: "基于有状态实时流的流批一体数据处理平台的设计与研究", 现代信息科技, 25 March 2024 (2024-03-25) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240184785A1 (en) | Continuous functions in a time-series database | |
US20180060385A1 (en) | Progressive Processing for Querying System Behavior | |
US7877233B2 (en) | Selectively presenting timestamped time-series data values for retrieved supervisory control and manufacturing/production parameters | |
CN111177178B (zh) | 一种数据处理方法及相关设备 | |
JP5111719B2 (ja) | 時系列なリアルタイムのデータおよび非リアルタイムのデータを収集し検索する方法およびシステム | |
US20200167355A1 (en) | Edge processing in a distributed time-series database | |
JP2018128855A (ja) | イベント解析装置、イベント解析システム、イベント解析方法、イベント解析プログラム、および記録媒体 | |
US20070143246A1 (en) | Method and apparatus for analyzing the effect of different execution parameters on the performance of a database query | |
US20090198648A1 (en) | System and method for adaptively retrieving parameter trend data from a supervisory control manufacturing/production database | |
CN103595416A (zh) | 压缩生产数据流并以不同标准过滤压缩数据的系统和方法 | |
WO2017162086A1 (zh) | 任务调度方法和装置 | |
CN111459698A (zh) | 一种数据库集群故障自愈方法及装置 | |
WO2017099772A1 (en) | Distributed embedded data and knowledge management system integrated with plc historian | |
CN111459761A (zh) | 一种Redis配置的方法、装置、存储介质及设备 | |
CN116842055A (zh) | 用于物联网数据批流一体处理的系统及方法 | |
WO2023103626A1 (zh) | 数据降采样和数据查询方法、系统及存储介质 | |
Lehmann et al. | Big Data architecture for intelligent maintenance: a focus on query processing and machine learning algorithms | |
CN113268530A (zh) | 海量异构数据采集方法、系统、计算机设备和存储介质 | |
US20090119077A1 (en) | Use of simulation to generate predictions pertaining to a manufacturing facility | |
CN117131138A (zh) | 基于数据湖的数据处理方法、装置、设备和介质 | |
CN118093729A (zh) | 一种物联网数据湖的流批一体方法、设备及介质 | |
CN114969083B (zh) | 一种实时数据分析方法及系统 | |
CN110471914A (zh) | 一种实时数据处理中维度关联的方法及系统 | |
CN113918636A (zh) | 一种基于etl的数据处理量分析方法 | |
CN110955196A (zh) | 一种生产工艺指标数据的处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |