CN115168474A

CN115168474A - 一种基于大数据模型的物联中台系统搭建方法

Info

Publication number: CN115168474A
Application number: CN202210883530.XA
Authority: CN
Inventors: 宋志国; 饶龙强; 丁强; 张刚; 叶超; 杨飞
Original assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Current assignee: Chengdu Zhiyuanhui Information Technology Co Ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-10-11
Anticipated expiration: 2042-07-26
Also published as: CN115168474B

Abstract

本发明公开了一种基于大数据模型的物联中台系统搭建方法，包括以下步骤：(S1)选择消息中间件Kafka作为数据采集和物联中台的中间桥梁，用于接收物联感知系统接入的设备数据；(S2)选择Flink分布式数据处理引擎对Kafka接收的不同设备的数据进行清洗过滤、规则匹配；(S3)选择分布式计算引擎Spark批次抽取IoTDB不同设备的数据；(S4)选择Atlas工具构建元数据管理体系，对业务元数据、技术元数据和操作元数据进行管理；(S5)二次开发AJ‑Report进行数据报表可视化展示。本发明方法构建的物联中台系统可扩展性和维护性更好，比较容易扩展节点，且统一数据接入、出口和使用规范，能够适应各个数据需求方的使用场景，不用重复造轮子和定制化开发，降低人员和维护成本。

Description

一种基于大数据模型的物联中台系统搭建方法

技术领域

本发明属于计算机领域，具体地说，是一种基于大数据模型的物联中台系统搭建方法。

背景技术

随着经济社会的高速发展，科学技术的进步，人们在联网科技设备上交流越来越频繁，产生的数据信息越来越多，为了利用好数据，充分发挥数据的价值，大数据技术就是在这一环境下的技术产物。

万物互联的时代，用户通过物联网技术来实现人与物、物与物之间的链接和数据交换与控制，并利用信息和通信技术来提升物联技术的功能。人们可以使用智能装置和感知技术，采集装置数据，同时通过技术手段，实现对物理世界的控制，辅助做出明智的决策。

使用物联网技术能够收集、转发终端设备的实时数据，然后使用大数据技术对海量数据进行转换、存储、分析，为管理者提供有效地数据支撑，并发现问题，解决问题。

传统的物联网中台架构无法满足海量数据的存储和查询分析，扩展性比较差，对数据的多样式存储不能很好的满足且系统的稳定性和实时性得不到保证。

发明内容

本发明的目的在于提供一种基于大数据模型的物联中台系统搭建方法，主要解决现有物联网中台架构扩展性差及系统无法保证稳定性和实时性的问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于大数据模型的物联中台系统搭建方法，包括以下步骤：

(S1)选择消息中间件Kafka作为数据采集和物联中台的中间桥梁，用于接收物联感知系统接入的设备数据；

(S2)选择Flink分布式数据处理引擎对Kafka接收的不同设备的数据进行清洗过滤、规则匹配，并将设备数据发送到Clickhouse的设备信息表中，设备的日志数据发送到IoTDB中；

(S3)选择分布式计算引擎Spark批次抽取IoTDB不同设备的数据，动态分区，动态创建hive表，将数据加载到hive用作离线分析使用，并利用hadoop的纠删码特性归档冷数据；

(S4)选择Atlas工具构建元数据管理体系，对业务元数据、技术元数据和操作元数据进行管理；

(S5)二次开发AJ-Report进行数据报表可视化展示，构建属于适合本中台的可拖拽、可快速构建物联设备数据、集群状态信息的可视化展示平台。

进一步地，在本发明中，所述业务元数据包括数据库表和业务规则；所述技术元数据包括数据库对象属性、任务执行信息和上下游依赖数据；所述操作元数据包括批处理的执行日志和报表访问数据。

进一步地，在本发明中，在步骤(S2)中，Flink分布式数据处理引擎对数据的处理过程如下：在Kafka规则rule_topic中解析规则字符串为可用规则，在Kafka设备日志topic中解析日志数据需要匹配的字段；将解析的可用规则及字段发送到siddhi规则引擎中，利用flink_job根据规则匹配生成的事件输出到Kafka_topic中。

进一步地，在本发明中，在步骤(S3)中，动态分区、动态创建hive表的过程如下：分布式计算引擎Spark请求IoTDB得到所有的时间序列，对时间序列进行处理，除“_”下划线之外的所有符号都替换为下划线；spark sql根据表名和时间端where过去取得的数据，根据查询的DataFrame schema和存在的hive表的schema比较是否发生了schema的变化，如果发生变化，则根据变化后的schema，同表名+n后缀新建表，随后，spark DataFrame根据p_date字段分区，通过算子saveAs Table`写hive表；如果没发生变化，则直接根据sparkDataFrame根据p_date字段分区，通过算子saveAs Table`写hive表。

进一步地，在本发明中，在步骤(S5)中，可视化展示品台的构建方法如下：登录ar-report web页面，添加数据源，新建dashboard，拖拽可视化的图表组件，再利用图表组件绑定数据源即可。

与现有技术相比，本发明具有以下有益效果：

(1)本发明方法构建的物联中台系统可扩展性和维护性更好，比较容易扩展节点，增加计算和存储的能力，且统一数据接入、出口和使用规范，能够适应各个数据需求方的使用场景，不用重复造轮子和定制化开发，降低人员和维护成本。

(2)本发明方法构建的物联中台系统使用Flink、Kafka、Clickhouse和IoTDB技术能够实时提供数据的访问需求，及时响应，并且单节点的数据处理能力能达到每分钟200万数据级的处理。

(3)本发明方法构建的物联中台系统统一的接口、统一的数据规范进行业务迭代；可以开展各种数据分析和智能运维管理；且能够很好的保证数据的安全性，同时可以利用白名单、身份验证以及敏感数据脱敏等技术手段，保证数据泄露的安全；采用分布式多副本存储的方式保证数据的存储安全。

附图说明

图1为本发明方法的流程示意图。

图2为本发明中Flink分布式数据处理引擎对数据的处理过程的流程示意图。

图3为本发明中动态分区、动态创建hive表的流程示意图。

图4为本发明中可视化展示品台的构建的流程示意图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1所示，本发明公开的一种基于大数据模型的物联中台系统搭建方法，该方法选择消息中间件Kafka作为数据采集和物联中台的中间桥梁，用于接收物联感知系统接入的设备数据；利用Kafka消息中间件的处理能力，可以应对不同类型的协议、不同品牌的设备以及不同数据格式的设备数据。

如图2所示，选择Flink分布式数据处理引擎对Kafka接收的不同设备的数据进行清洗过滤、规则匹配，并将设备数据发送到Clickhouse的设备信息表中，设备的日志数据发送到IoTDB中；Flink的基于事件时间、状态以及Checkpoint、savepoint机制保证了数据的时效性、一致性和准确性。其中，不同设备的数据在Kafka规则rule_topic中解析规则字符串为可用规则，在Kafka设备日志topic中解析日志数据需要匹配的字段；将解析的可用规则及字段发送到siddhi规则引擎中，利用flink_job根据规则匹配生成的事件输出到Kafka_topic中。

如图3所示，选择分布式计算引擎Spark批次抽取IoTDB不同设备的数据，动态分区，动态创建hive表，将数据加载到hive用作离线分析使用，并利用hadoop的纠删码特性归档冷数据；减少存储空间。其中，动态分区，动态创建hive表的过程为：分布式计算引擎Spark请求IoTDB得到所有的时间序列，对时间序列进行处理，除“_”下划线之外的所有符号都替换为下划线；spark sql根据表名和时间端where过去取得的数据，根据查询的DataFrame schema和存在的hive表的schema比较是否发生了schema的变化，如果发生变化，则根据变化后的schema，同表名+n后缀新建表，随后，spark DataFrame根据p_date字段分区，通过算子saveAs Table`写hive表；如果没发生变化，则直接根据spark DataFrame根据p_date字段分区，通过算子saveAs Table`写hive表。

选择Atlas工具构建元数据管理体系，对业务元数据、技术元数据和操作元数据进行管理；比如对数据库表、业务规则等业务元数据，数据库对象属性、任务执行信息、上下游依赖等技术元数据，批处理的执行日志、报表访问等操作元数据进行统一模型管理，构建血缘关系来回答有哪些数据、有多少数据、如何查找数据、数据如何流转等一些列问题。

如图4所示，二次开发AJ-Report进行数据报表可视化展示，构建属于适合本中台的可拖拽、可快速构建物联设备数据、集群状态信息的可视化展示平台。具体构建方法如下：登录ar-report web页面，添加数据源，新建dashboard，拖拽可视化的图表组件，再利用图表组件绑定数据源即可。

通过上述设计，本发明方法构建的物联中台系统可扩展性和维护性更好，比较容易扩展节点，增加计算和存储的能力，且统一数据接入、出口和使用规范，能够适应各个数据需求方的使用场景，不用重复造轮子和定制化开发，降低人员和维护成本。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于大数据模型的物联中台系统搭建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据模型的物联中台系统搭建方法，其特征在于，所述业务元数据包括数据库表和业务规则；所述技术元数据包括数据库对象属性、任务执行信息和上下游依赖数据；所述操作元数据包括批处理的执行日志和报表访问数据。

3.根据权利要求1所述的一种基于大数据模型的物联中台系统搭建方法，其特征在于，在步骤(S2)中，Flink分布式数据处理引擎对数据的处理过程如下：在Kafka规则rule_topic中解析规则字符串为可用规则，在Kafka设备日志topic中解析日志数据需要匹配的字段；将解析的可用规则及字段发送到siddhi规则引擎中，利用flink_job根据规则匹配生成的事件输出到Kafka_topic中。

4.根据权利要求1所述的一种基于大数据模型的物联中台系统搭建方法，其特征在于，在步骤(S3)中，动态分区、动态创建hive表的过程如下：分布式计算引擎Spark请求IoTDB得到所有的时间序列，对时间序列进行处理，除“_”下划线之外的所有符号都替换为下划线；spark sql根据表名和时间端where过去取得的数据，根据查询的DataFrame schema和存在的hive表的schema比较是否发生了schema的变化，如果发生变化，则根据变化后的schema，同表名+n后缀新建表，随后，spark DataFrame根据p_date字段分区，通过算子saveAsTable`写hive表；如果没发生变化，则直接根据spark DataFrame根据p_date字段分区，通过算子saveAs Table`写hive表。

5.根据权利要求1所述的一种基于大数据模型的物联中台系统搭建方法，其特征在于，在步骤(S5)中，可视化展示品台的构建方法如下：登录ar-report web页面，添加数据源，新建dashboard，拖拽可视化的图表组件，再利用图表组件绑定数据源即可。