CN116680090B

CN116680090B - 一种基于大数据的边缘计算网络管理方法及平台

Info

Publication number: CN116680090B
Application number: CN202310969077.9A
Authority: CN
Inventors: 王笑笑
Original assignee: Ruizhi Technology Group Co ltd
Current assignee: Ruizhi Technology Group Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-12-19
Anticipated expiration: 2043-08-03
Also published as: CN116680090A

Abstract

本发明公开一种基于大数据的边缘计算网络管理方法及平台，涉及数据处理技术领域，所述方法包括：接入边缘计算网络，获取边缘计算网络中的数据；利用大数据技术对数据进行分析存储；根据分析结果对边缘计算能力优化；添加负载均衡策略实现任务卸载均衡。结合大数据技术对边缘计算网络进行管理，实现利用大数据技术的分布式存储解决边缘计算网络服务器存储压力，对数据的分析挖掘与高效利用提高计算效率。

Description

一种基于大数据的边缘计算网络管理方法及平台

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于大数据的边缘计算网络管理方法及平台。

背景技术

边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。而云端计算，仍然可以访问边缘计算的历史数据。

关于大数据，麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

那么边缘计算网络的特点就是吞吐量大，数据实时，结合大数据技术对边缘计算网络进行管理，实现利用大数据技术的分布式存储解决边缘计算网络服务器存储压力，对数据分析挖掘与高效利用提高计算效率。

发明内容

本发明提供了一种基于大数据的边缘计算网络管理方法，包括：

Step1、接入边缘计算网络，获取边缘计算网络中的数据；

Step2、利用大数据技术对数据进行分析存储；

Step3、根据分析结果对边缘计算能力优化；

Step4、添加负载均衡策略实现任务卸载均衡。

如上所述的一种基于大数据的边缘计算网络管理方法，其中，大数据技术采用分布式系统基础框架+计算引擎，获取到的数据存储在分布式系统基础框架中的分布式数据库中，数据分析由计算引擎处理。

如上所述的一种基于大数据的边缘计算网络管理方法，其中，数据分析包括：将智能设备的状态进行列举，根据设备状态对设备使用记录分类；将外界环境因素与分类指标做关联；数据挖掘的关联度计算。

如上所述的一种基于大数据的边缘计算网络管理方法，其中，在分布式系统基础框架集群中每个机器都提供本地计算和存储。

如上所述的一种基于大数据的边缘计算网络管理方法，其中，负载均衡策略采用异构集群负载均衡策略，为负载因子增加阈值，通过心跳机制获取负载因子运行情况，如果节点运行中的某一项负载因子超过阈值，则视该节点为忙碌状态，不予分配任务。

本发明还提供一种基于大数据的边缘计算网络管理平台，包括：数据获取模块，数据分析模块，优化模块和负载均衡模块；

数据获取模块用于接入边缘计算网络，获取边缘计算网络中的数据；

数据分析模块用于利用大数据技术对数据进行分析存储；

优化模块用于根据分析结果对边缘计算能力优化；

负载均衡模块用于添加负载均衡策略实现任务卸载均衡。

如上所述的一种基于大数据的边缘计算网络管理平台，其中，大数据技术采用分布式系统基础框架+计算引擎，获取到的数据存储在分布式系统基础框架中的分布式数据库中，数据分析由计算引擎处理。

如上所述的一种基于大数据的边缘计算网络管理平台，其中，数据分析模块具体用于将智能设备的状态进行列举，根据设备状态对设备使用记录分类；将外界环境因素与分类指标做关联；数据挖掘的关联度计算。

如上所述的一种基于大数据的边缘计算网络管理平台，其中，在分布式系统基础框架集群中每个机器都提供本地计算和存储。

如上所述的一种基于大数据的边缘计算网络管理平台，其中，负载均衡策略采用异构集群负载均衡策略，为负载因子增加阈值，通过心跳机制获取负载因子运行情况，如果节点运行中的某一项负载因子超过阈值，则视该节点为忙碌状态，不予分配任务。

本发明实现的有益效果如下：结合大数据技术对边缘计算网络进行管理，实现利用大数据技术的分布式存储解决边缘计算网络服务器存储压力，对数据分析挖掘与高效利用提高计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于大数据的边缘计算网络管理方法流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例一提供一种基于大数据的边缘计算网络管理方法，包括：

步骤S10：接入边缘计算网络，获取边缘计算网络中的数据；

边缘网络实际上就是离用户最近的网络区域，边缘计算就是对边缘网络内的智能设备进行调度、数据计算，接入边缘计算网络即通过连接网关，接入到网关所涉及的某段网络范围，实现通讯，有了通讯就可以获取该网段内所有设备之间的传输数据，边缘计算数据。

以智能家居为例，接入边缘网关之后，可以连接智能家居设备，如智能门锁、智能照明、智能家电等，实现智能化的家居管理和控制，同时智能设备的使用记录、连接记录以及配置记录都可以获取到，这些数据几乎每天都在变动、增加，再加上使用智能家居的家庭基数大，每日数据吞吐量，计算量是十分庞大的，因此，边缘计算网络管理基于网段进行数据处理、计算，大大减轻云计算中心的压力，存储也更安全，且靠近用户的特点使传输速度更快。

步骤S20：利用大数据技术对数据进行分析存储；

大数据技术采用Hadoop+spark，Hadoop（分布式系统基础框架）是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的开源框架，是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储；Spark是通用的大数据快速处理引擎。Spark（计算引擎）使用Spark RDD、 Spark SQL、 Spark Streaming、MLLib、GraphX成功解决了大数据领域中，离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。

步骤S10获取到的数据存储在Hadoop框架中的Hbase数据库中，Hbase是一种基于列存储的数据库，适合存储图片、视频、日志信息等非结构化数据。

数据分析则交给Spark，Spark可实现对数据的复杂计算，基于DAG有向无环图（ A经过相关运算产生B，B经过相关运算产生C，D经过运算产生E， C和E经过相关运算产生F）可以实现对大数据的高速计算，MLLib负责对海量数据的数据挖掘。

以智能家居中的智能管家为例，智能管家可根据用户使用设备习惯与外界信息结合对智能设备发起控制，用户使用设备习惯就是MLLib根据日常设备的使用记录分析的结果，具体地：

（1）将智能设备的状态进行列举，根据设备状态对设备使用记录分类；

智能设备的状态包括：智能空调的开启、关闭状态，温度在21、22、23等的状态，智能照明的各个亮度状态，智能门锁状态等，这些设备状态与设备名称作为记录分类的指标，Spark sql对原始数据从Hbase中读取出来并按照指标进行分组，分组完成后放入RDD1（RDD分布式数据集）中；

（2）将外界环境因素与分类指标做关联；

外界环境因素可分为两个维度，时间维度与天气维度，时间维度分为24小时，天气维度分为温度，湿度和风速，根据这两个维度对RDD1数据进行再分类，并关联设置关联标签，结果存入RDD2中。如：空调A在RDD1中使用记录为下午两点时设置温度为26度，那么时间维度的标签为下午两点，天气维度标签为当日的温度、湿度、风速（可通过调取外部天气数据查询接口根据时间查询）。

（3）数据挖掘的关联度计算。

采用Apriori关联算法来计算RDD2数据集中数据与用户人群的关联度，因为在同一标签中有不同的设备操作记录，为了更贴切用户使用范围，再加入用户人群进行进行关联度计算，关联度高的记录操作将被视为第一方案。

用户人群根据设备使用用户注册信息进行设备关联，RDD2中的数据按照标签分组形成RDD3，关联度计算代码为：freq = apriori(df, min_support=0.05, use_colnames=True)；其中df为根据RDD3生成的数据集，min_support为给定的最小支持度，use_colnames默认False，则返回的记录组合用ID显示，为True的话直接记录中设备的操作信息，一个项集的支持度被定义为数据集中包含该项集的记录所占的比例，支持度计算公式为，其中p为标签内包含此用户人群的使用记录，t为标签内使用记录总数，k为关联标签，m为关联标签总数。

步骤S30：根据分析结果对边缘计算能力优化；

自动化事实上是一个以“控制”为核心。控制是基于“信号”的，而“计算”则是基于数据进行的，更多意义是指“策略”、“规划”，因此，它更多聚焦于在“调度、优化、路径”，大数据分析的结果是通过大量数据的深度挖掘获取其隐含的信息，这些隐含信息才是数据的价值所在，边缘计算固然传输速度快，反应速度快，但缺少了对数据的深度利用，根据大数据的分析结果为边缘计算提供决策上的帮助，优化其计算能力，使其更好的对设备进行个性化的控制，实现更智能的调度。

步骤S40：添加负载均衡策略实现任务卸载均衡。

Hadoop+Spark为分布式框架，由多台服务器共同工作，那么负载均衡策略是必不可少的，而边缘计算网络有异构的特点，因此同构下的心跳检测负载是不可行的，需采用基于资源的异构集群负载均衡策略，将CPU、内存、IO、磁盘、任务数、剩余槽数等作为节点的负载因子，在任务调度时结合这些负载因子统一考虑，具体地：

TaskTracker节点通过心跳机制获取每个节点的负载因子运行情况，为每一个负载因子设置阈值，如果当前节点运行中的某一项负载因子超过了该阈值，则不宜在接收任务，应该分配给剩余资源相对充足的节点。计算公式为，FZ_i为每一项负载因子，/>为该项负载因子的阈值，n为负载因子总数，当计算结果JD大于0时，说明该节点存在负载因子超过阈值的情况，不再分配任务，反之则可以分配。

实施例二

本发明实施例二提供一种基于大数据的边缘计算网络管理平台，包括：数据获取模块，数据存储模块，数据分析模块和负载均衡模块。

（1）数据获取模块是通过接入边缘网关获取存在于边缘计算网络中数据的模块，边缘网络实际上就是离用户最近的网络区域，边缘计算就是对边缘网络内的智能设备进行调度、数据计算，接入边缘计算网络即通过连接网关，接入到网关所涉及的某段网络范围，实现通讯，有了通讯就可以获取该网段内所有设备之间的传输数据，边缘计算数据。

（2）数据存储模块是对数据获取模块获取到的数据进行持久化的模块，大数据技术采用Hadoop+spark，Hadoop是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的开源框架，是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储；Spark是通用的大数据快速处理引擎。Spark使用Spark RDD、Spark SQL、 Spark Streaming、 MLLib、GraphX成功解决了大数据领域中，离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。

数据获取模块获取到的数据存储在Hadoop框架中的Hbase数据库中，Hbase是一种基于列存储的数据库，适合存储图片、视频、日志信息等非结构化数据。

（3）数据分析模块是基于大数据技术对边缘计算网络获取的数据进行分析以达到边缘计算对数据深度利用的模块，数据分析则交给Spark，Spark可实现对数据的复杂计算，基于DAG有向无环图（ A经过相关运算产生B，B经过相关运算产生C，D经过运算产生E， C和E经过相关运算产生F）可以实现对大数据的高速计算，MLLib负责对海量数据的数据挖掘。

①将智能设备的状态进行列举，根据设备状态对设备使用记录分类；

②将外界环境因素与分类指标做关联；

③数据挖掘的关联度计算；

用户人群根据设备使用用户注册信息进行设备关联，RDD2中的数据按照标签分组形成RDD3，关联度计算代码为：freq = apriori(df, min_support=0.05, use_colnames=True)；其中df为根据RDD3生成的数据集，min_support为给定的最小支持度，use_colnames默认False，则返回的记录组合用ID显示，为True的话直接记录中设备的操作信息，一个项集的支持度被定义为数据集中包含该项集的记录所占的比例，也就是支持度=标签内包含此用户人群的使用记录/标签内使用记录总数。

④根据分析结果对边缘计算能力优化。

大数据分析的结果是通过大量数据的深度挖掘获取其隐含的信息，这些隐含信息才是数据的价值所在，边缘计算固然传输速度快，反应速度快，但缺少了对数据的深度利用，根据大数据的分析结果为边缘计算提供决策上的帮助，优化其计算能力，使其更好的对设备进行个性化的控制，实现更智能的调度。

（4）负载均衡模块是为整个平台服务器提供负载均衡策略，Hadoop+Spark为分布式框架，由多台服务器共同工作，那么负载均衡策略是必不可少的，而边缘计算网络有异构的特点，因此同构下的心跳检测负载是不可行的，需采用基于资源的异构集群负载均衡策略，将CPU、内存、IO、磁盘、任务数、剩余槽数等作为节点的负载因子，在任务调度时结合这些负载因子统一考虑，具体地：

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于大数据的边缘计算网络管理方法，其特征在于，包括：

Step1、接入边缘计算网络，获取边缘计算网络中的数据；

Step2、利用大数据技术对数据进行分析存储；

Step3、根据分析结果对边缘计算能力优化；

Step4、添加负载均衡策略实现任务卸载均衡；

利用大数据技术对数据进行分析存储，具体为根据用户使用设备习惯与外界信息结合对智能设备发起控制，用户使用设备习惯就是机器学习库根据日常设备的使用记录分析的结果，具体地：

智能设备的状态与设备名称作为记录分类的指标，读取原始数据并按照指标进行分组，分组完成后放入第一分布式数据集中；

（2）将外界环境因素与分类指标做关联；

根据外界环境因素维度对第一分布式数据集数据进行再分类，并关联设置关联标签，结果存入第二分布式数据集中；

（3）数据挖掘的关联度计算；

采用关联算法来计算第二分布式数据集中数据与用户人群的关联度，关联度高的记录操作将被视为第一方案；

用户人群根据设备使用用户注册信息进行设备关联，第二分布式数据集中的数据按照标签分组形成第三分布式数据集，根据第三分布式数据集、支持度计算关联度，支持度计算公式为，其中p为标签内包含此用户人群的使用记录，t为标签内使用记录总数，k为关联标签，m为关联标签总数。

2.根据权利要求1所述的一种基于大数据的边缘计算网络管理方法，其特征在于，大数据技术采用分布式系统基础框架+计算引擎，获取到的数据存储在分布式系统基础框架中的分布式数据库中，数据分析由计算引擎处理。

3.根据权利要求1所述的一种基于大数据的边缘计算网络管理方法，其特征在于，数据分析包括：将智能设备的状态进行列举，根据设备状态对设备使用记录分类；将外界环境因素与分类指标做关联；数据挖掘的关联度计算。

4.根据权利要求1所述的一种基于大数据的边缘计算网络管理方法，其特征在于，在分布式系统基础框架集群中每个机器都提供本地计算和存储。

5.根据权利要求1所述的一种基于大数据的边缘计算网络管理方法，其特征在于，负载均衡策略采用异构集群负载均衡策略，为负载因子增加阈值，通过心跳机制获取负载因子运行情况，超过阈值则视该节点为忙碌状态，不予分配任务。

6.一种基于大数据的边缘计算网络管理平台，其特征在于，包括：数据获取模块，数据分析模块，优化模块和负载均衡模块；

数据分析模块用于利用大数据技术对数据进行分析存储；

优化模块用于根据分析结果对边缘计算能力优化；

负载均衡模块用于添加负载均衡策略实现任务卸载均衡；

（2）将外界环境因素与分类指标做关联；

（3）数据挖掘的关联度计算；

7.根据权利要求6所述的一种基于大数据的边缘计算网络管理平台，其特征在于，大数据技术采用分布式系统基础框架+计算引擎，获取到的数据存储在分布式系统基础框架中的分布式数据库中，数据分析由计算引擎处理。

8.根据权利要求6所述的一种基于大数据的边缘计算网络管理平台，其特征在于，数据分析模块具体用于将智能设备的状态进行列举，根据设备状态对设备使用记录分类；将外界环境因素与分类指标做关联；数据挖掘的关联度计算。

9.根据权利要求6所述的一种基于大数据的边缘计算网络管理平台，其特征在于，在分布式系统基础框架集群中每个机器都提供本地计算和存储。

10.根据权利要求6所述的一种基于大数据的边缘计算网络管理平台，其特征在于，负载均衡策略采用异构集群负载均衡策略，为负载因子增加阈值，通过心跳机制获取负载因子运行情况，超过阈值则视该节点为忙碌状态，不予分配任务。