CN115499300A

CN115499300A - 嵌入式设备集群化运行架构、方法及装置

Info

Publication number: CN115499300A
Application number: CN202211137152.7A
Authority: CN
Inventors: 伊尚丰; 籍天亮; 潘景刚; 张路
Original assignee: Baweitong Technology Co ltd
Current assignee: Baweitong Technology Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-20
Anticipated expiration: 2042-09-19
Also published as: CN115499300B

Abstract

本发明公开一种嵌入式设备集群化运行架构及方法，包括若干嵌入式设备模块，包括业务软件单元、监控软件单元、容器单元、接口操作单元及硬件单元，硬件单元通过接口操作单元连接所述容器单元，监控软件单元分别与业务软件单元及容器单元相互配合，当其中之一硬件单元作为主设备，剩余其余硬件单元作为为从设备时，若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备，通过本发明的方法和架构，能够实现若干硬件单元之间的监控通信，实现对集群内所有嵌入式设备模块相互监控，及时发现因异常停机的设备；在发现异常后，能够及时选举集群内另一个从设备作为主设备，并使其上面部署的业务软件运行，使得业务处理能力迅速恢复，方便快捷。

Description

嵌入式设备集群化运行架构、方法及装置

技术领域

本发明涉及嵌入式技术领域，尤其涉及一种嵌入式设备集群化运行架构、方法及装置。

背景技术

在现有技术中，如工业物联网、交通物联网或者智能家居技术领域中，一般都是采用多种硬件的智能系统，在一个多硬件的系统中，如工业物联网、交通物联网、智能家居等，终端侧是各式各样的嵌入式硬件设备，数量多、种类多，每种嵌入式硬件设备在系统中负责的职能(采集的数据、运行的逻辑、控制的设备)各不相同；在上述的技术背景中，存在两个问题：(1)不同于PC端软件，一种嵌入式设备运行一种软件，且不同设备之间的软件不能通用，所以当系统内硬件种类增多时，软件的种类与版本的管控将是个复杂的任务(一种设备配一种软件，而每个软件会存在多个版本)；(2)随着设备的增多，服务端处理连接的线程数量也将增多，每个连接常分配一个线程取处理，对服务器内存容量、处理器性能也有着一定的要求。

发明内容

本发明针对现有技术中的缺点，提供了一种嵌入式设备集群化运行架构、方法及装置。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种嵌入式设备集群化运行架构，包括相互通信的若干嵌入式设备模块，每个嵌入式设备模块包括业务软件单元、监控软件单元、容器单元、接口操作单元及硬件单元，所述硬件单元通过接口操作单元连接所述容器单元，所述监控软件单元分别与业务软件单元及容器单元相互配合，其中，每个嵌入式设备模块中的所述业务软件单元为相同设计的业务软件单元；

所述业务软件单元通过所述监控软件单元基于所述接口操作单元来监控所述硬件单元；

所述容器单元用于构建虚拟化的运行环境，以使得每个嵌入式设备模块能运行相同设计的业务软件单元；

当其中之一硬件单元作为主设备，剩余其余硬件单元作为为从设备时，若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备。

作为一种可实施方式，所述接口操作单元包括抽象硬件接口子单元及操作系统子单元，所述操作系统子单元及抽象硬件接口连接创建于硬件单元上；

所述抽象硬件接口为硬件标准化调用接口并用于调用相应硬件单元的信息资源，所述抽象硬件接口包括若干个同种类接口或者不同种类接口，所述所述抽象硬件接口与相应硬件单元一一对应；

所述业务软件单元通过所述抽象硬件接口获取所述硬件单元的类型和位置，以实现对所述硬件单元的控制。

作为一种可实施方式，所述若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

基于每个所述的硬件单元对应的监控软件单元通过所述接口操作单元对所述硬件单元进行监控；

当主设备或者主设备对应的业务软件单元出现异常并无法运行时；

则所有所述监控软件单元进行异常响应，并选举剩余硬件单元的其中之一的作为新主设备。

作为一种可实施方式，所述每个所述的硬件单元对应的监控软件单元对所述硬件单元进行监控，包括以下步骤：

每个硬件单元通过每个监控软件单元通过监控端口广播的心跳数据进行相互监控；

当每个硬件单元能接收到的心跳数据，则将对应的心跳数据写入预设在线列表并进行更新；

若某个硬件单元出现异常时，则所述监控端口广播的心跳数据出现异常或者停止；

若所述硬件单元的连续响应次数超过预设次数，则将在线列表中所述主设备的状态更改为离线状态。

作为一种可实施方式，所述所有所述监控软件单元进行异常响应并选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

若当主设备处于离线状态时，则执行选举新主设备流程；

所述选举新主设备流程包括：获取集群在线列表所有在线设备的IP地址，得到每个在线设备对应的MD5值以形成MD5值集；

在所述MD5值集中选择所有MD5值的最大值，并将所述最大值对应IP地址的设备选举为新的主设备；

其中，当运行新主设备时，除处于离线状态的主设备外，剩余所有硬件单元都维持原状态；当处于离线状态的主设备被修复后，则恢复心跳数据的发送与接收。

一种嵌入式设备集群化运行架构构建方法，包括以下步骤：

创建若干嵌入式设备模块，每个嵌入式设备模块包括业务软件单元、监控软件单元、容器单元、接口操作单元及硬件单元；

将所述硬件单元通过接口操作单元连接所述容器单元，所述监控软件单元分别与业务软件单元及容器单元相互配合，其中，每个嵌入式设备模块中的所述业务软件单元为相同设计的业务软件单元；

若当主设备处于离线状态时，则执行选举新主设备流程；

一种嵌入式设备集群化运行架构构建装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法步骤。

本发明由于采用了以上技术方案，具有显著的技术效果：

通过本发明的方法和架构，能够实现若干硬件单元之间的监控通信，实现对集群内所有嵌入式设备模块相互监控，及时发现因异常停机的设备；在发现异常后，能够及时选举集群内另一个从设备作为主设备，并使其上面部署的业务软件运行，使得业务处理能力迅速恢复，方便快捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明具体的架构示意图；

图2-图3是本发明实现方法的示意图；

图4-图5是一个具体实施例的示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1：

一种嵌入式设备集群化运行架构，如图1所示，包括相互通信的若干嵌入式设备模块，每个嵌入式设备模块包括业务软件单元、监控软件单元、容器单元、接口操作单元及硬件单元，所述硬件单元通过接口操作单元连接所述容器单元，所述监控软件单元分别与业务软件单元及容器单元相互配合，其中，每个嵌入式设备模块中的所述业务软件单元为相同设计的业务软件单元；所述业务软件单元通过所述监控软件单元基于所述接口操作单元来监控所述硬件单元；所述容器单元用于构建虚拟化的运行环境，以使得每个嵌入式设备模块能运行相同设计的业务软件单元；当其中之一硬件单元作为主设备，剩余其余硬件单元作为为从设备时，若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备。本发明能够实现若干硬件单元之间的监控通信，实现对集群内所有嵌入式设备模块相互监控，及时发现因异常停机的设备；在发现异常后，能够及时选举集群内另一个从设备作为主设备，并使其上面部署的业务软件运行，使得业务处理能力迅速恢复，方便快捷。

在一个实施例中，所述接口操作单元包括抽象硬件接口子单元及操作系统子单元，所述操作系统子单元及抽象硬件接口连接创建于硬件单元上；所述抽象硬件接口为硬件标准化调用接口并用于调用相应硬件单元的信息资源，所述抽象硬件接口包括若干个同种类接口或者不同种类接口，所述所述抽象硬件接口与相应硬件单元一一对应；所述业务软件单元通过所述抽象硬件接口获取所述硬件单元的类型和位置，以实现对所述硬件单元的控制。

具体地，在本实施例中所述若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

基于每个所述的硬件单元对应的监控软件单元通过所述接口操作单元对所述硬件单元进行监控；当主设备或者主设备对应的业务软件单元出现异常并无法运行时；则所有所述监控软件单元进行异常响应，并选举剩余硬件单元的其中之一的作为新主设备。

另外，所述每个所述的硬件单元对应的监控软件单元对所述硬件单元进行监控，包括以下步骤：

具体地，所述所有所述监控软件单元进行异常响应并选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

若当主设备处于离线状态时，则执行选举新主设备流程；所述选举新主设备流程包括：获取集群在线列表所有在线设备的IP地址，得到每个在线设备对应的MD5值以形成MD5值集；

在所述MD5值集中选择所有MD5值的最大值，并将所述最大值对应IP地址的设备选举为新的主设备；其中，当运行新主设备时，除处于离线状态的主设备外，剩余所有硬件单元都维持原状态；当处于离线状态的主设备被修复后，则恢复心跳数据的发送与接收。

实施例2：

一种嵌入式设备集群化运行架构构建方法，如图1-图3所示，包括以下步骤：

整个方法中，其实包括两个部分，一部分就是为了监控预设的主设备是否出现异常，另一部分是当主设备出现异常时，会直接推选新主设备；

那么，当主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

基于每个所述的硬件单元对应的监控软件单元通过所述接口操作单元对所述硬件单元进行监控，具体地，每个硬件单元通过每个监控软件单元通过监控端口广播的心跳数据进行相互监控；当每个硬件单元能接收到的心跳数据，则将对应的心跳数据写入预设在线列表并进行更新；若某个硬件单元出现异常时，则所述监控端口广播的心跳数据出现异常或者停止；若所述硬件单元的连续响应次数超过预设次数，则将在线列表中所述主设备的状态更改为离线状态；

出现异常之后，会选举新主设备，包括以下步骤：

若当主设备处于离线状态时，则执行选举新主设备流程；

以下结合附图4和附图5来说明本申请的架构及方法：

假设一个集群中包括了若干个嵌入式设备模块，业务软件单元对硬件单元都是通过网络完成的，通过消息的TCP消息的方式，调用send函数传递控制行为；这种方式，业务软件单元无需区分具体的硬件单元属于集群中的哪一个硬件单元，也就是说可以是自己这个硬件单元也可以是其他的硬件单元，而在整个过程中，业务软件单元其实设计的是相同的业务软件流程。

若出现异常时，执行以下流程：

为集群内的所有设备配置相同的UDP监控端口；(举例：6786端口)

各设备内的监控软件以一定的时间间隔(如：1秒)，向6786端口广播发送UDP心跳；正常时集群内的设备可以相互收到心跳数据，并写入、更新各自的集群在线列表；

当某个设备异常时，其UDP广播的心跳停止；

当其余无法此设备心跳连续3次，在集群在线列表中标记为“离线”；

仅在“主设备”处于离线状态时，启动“选举新主设备流程”；

心跳数据至少包含以下内容：

{"cluster_id":"10001","dev_id":"P0001","role":"master/slave"}，其中，cluster_id：集群ID；dev_id：设备ID；

role：集群中角色，master主设备，slave从设备。

选举新主设备流程：

在线所有设备计算集群在线列表中的IP地址MD5值；选择MD5值最大的IP地址为新的主设备，设备CMD5值小于设备BMD5值；

设备B启动业务软件，称为新的master主设备，设备C维持不动，保持slave角色；

若当设备A被修复后，其心跳的发送与接收恢复，从接收的UDP心跳数据中的“role”字段总发现，“192.168.0.2”已成为了新的“master”，本机业务软件不启动；

MD5计算值：MD5(192.168.0.1)＝daaf1d27fd83421a66e32ea8d7f37e68(已离线)；

MD5(192.168.0.2)＝4893de2a4f53f94480e669e318e68f18；

MD5(192.168.0.3)＝2108e510e2b3d5675d893cc65eaf16d9。

以上流程即为当主设备出现异常时执行的操作，不仅操作快捷而且简单并且不容易出现偏差。在本发明中，构建的容器单元是为了方便服务端软件的部署和运行，通过在每台设备上构建容器，并在容器内运行软件，使多种嵌入式设备在核心处理器不同、操作系统不同的情况下，运行相同编译器构建出来的软件，解决嵌入式设备软件构建环境、运行环境的差异化问题。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种嵌入式设备集群化运行架构，其特征在于，包括相互通信的若干嵌入式设备模块，每个嵌入式设备模块包括业务软件单元、监控软件单元、容器单元、接口操作单元及硬件单元，所述硬件单元通过接口操作单元连接所述容器单元，所述监控软件单元分别与业务软件单元及容器单元相互配合，其中，每个嵌入式设备模块中的所述业务软件单元为相同设计的业务软件单元；

2.根据权利要求1所述的嵌入式设备集群化运行架构，其特征在于，所述接口操作单元包括抽象硬件接口子单元及操作系统子单元，所述操作系统子单元及抽象硬件接口连接创建于硬件单元上；

3.根据权利要求1所述的嵌入式设备集群化运行架构，其特征在于，所述若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

4.根据权利要求3所述的嵌入式设备集群化运行方法，其特征在于，所述每个所述的硬件单元对应的监控软件单元对所述硬件单元进行监控，包括以下步骤：

5.根据权利要求3所述的嵌入式设备集群化运行架构，其特征在于，所述所有所述监控软件单元进行异常响应并选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

若当主设备处于离线状态时，则执行选举新主设备流程；

6.一种嵌入式设备集群化运行架构构建方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的嵌入式设备集群化运行架构构建方法，其特征在于，所述若主设备出现异常，则选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

8.根据权利要求6所述的嵌入式设备集群化运行方法，其特征在于，所述每个所述的硬件单元对应的监控软件单元对所述硬件单元进行监控，包括以下步骤：

9.根据权利要求7所述的嵌入式设备集群化运行架构，其特征在于，所述所有所述监控软件单元进行异常响应并选举剩余硬件单元的其中之一的作为新主设备，包括以下步骤：

若当主设备处于离线状态时，则执行选举新主设备流程；

10.一种嵌入式设备集群化运行架构构建装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求6至9任意一项所述的方法步骤。