CN105592139A - 一种分布式文件系统管理平台的ha实现方法及装置 - Google Patents

一种分布式文件系统管理平台的ha实现方法及装置 Download PDF

Info

Publication number
CN105592139A
CN105592139A CN201510715990.1A CN201510715990A CN105592139A CN 105592139 A CN105592139 A CN 105592139A CN 201510715990 A CN201510715990 A CN 201510715990A CN 105592139 A CN105592139 A CN 105592139A
Authority
CN
China
Prior art keywords
node
data
management platform
client
clustered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510715990.1A
Other languages
English (en)
Other versions
CN105592139B (zh
Inventor
戴新春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou H3C Technologies Co Ltd
Original Assignee
Hangzhou H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou H3C Technologies Co Ltd filed Critical Hangzhou H3C Technologies Co Ltd
Priority to CN201510715990.1A priority Critical patent/CN105592139B/zh
Publication of CN105592139A publication Critical patent/CN105592139A/zh
Application granted granted Critical
Publication of CN105592139B publication Critical patent/CN105592139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Abstract

本发明提供一种分布式文件系统管理平台的HA实现方法及装置,该方法包括:当自身所在集群节点被选举为主控leader节点时,该节点上管理平台在管理网卡上配置第一虚拟互联网协议地址VIP,并发送包括所述第一VIP的免费地址解析协议ARP报文;接收客户端发送的用于数据获取的目标操作指令;确定所述目标操作指令对应的目标命令行;根据所述目标命令行从集群节点中获取对应的数据,并将获取到的数据返回给所述客户端。应用本发明实施例可以减少由于数据同步带来的网络带宽的占用以及组网负担。

Description

一种分布式文件系统管理平台的HA实现方法及装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种分布式文件系统管理平台的HA实现方法及装置。
背景技术
分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是可以通过计算机网络与节点相连。通过将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。用户在使用分布式文件系统时,无需关心数据是存储在哪个节点上或者是从哪个节点获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据。
由于用户直接使用分布式文件系统时,需要通过在分布式文件系统中的集群节点上输入命令行来实现各种操作功能,用户操作较为不便,因此,为了提高用户的操作便利性,可以通过引入管理平台实现对分布式文件系统的界面化操作。
请参见图1,为现有分布式文件系统管理平台的HA(HighAvailable,高可用性)实现方案的组网示意图,其中,为满足管理平台的HA特性,需要使用HA工具(如keepalived(保活))实现,如图1所示,管理平台可以分为活动节点和备用节点两部分,HA工具会在活动节点A上配置一个VIP(VirtualInternetProtocolAddress,虚拟互联网协议地址)(如IPV1),用户通过IPV1访问管理平台时,请求的实际IP地址为节点A的IP地址(IPA)。
在该组网中,当活动节点A故障时,HA工具通过各个节点之间的心跳检测可以感知到,从而将VIP配置到备用节点上,如备用节点B,并将节点B标记为活动节点,当用户此时通过IPV1访问管理平台时,请求的实际IP地址为节点B的IP地址(IPB)。
由此可见,为保证活动节点故障后用户仍然能通过预先配置的虚拟IP地址(如IPV1)访问到正确的集群数据,管理平台中的节点A、B、C之间需要保证数据(如数据库)是同步的;此外,由于用户通过虚拟IP地址访问得到数据是活动节点上保存的集群数据,为了保证该数据的可靠性,需要在分布式文件系统中的集群节点与管理平台进行数据同步,上述数据同步增加了网络带宽的占用,并增加了组网负担。
发明内容
本发明提供一种分布式文件系统管理平台的HA实现方法及装置,以解决现有分布式文件系统管理平台的HA实现方案中网络带宽占用过大,以及组网负担过大的问题。
根据本发明实施例的第一方面,提供一种分布式文件系统管理平台的高可用性HA实现方法,所述分布式文件系统包括多个集群节点,各集群节点上分别部署有管理平台,所述方法包括:
当自身所在集群节点被选举为主控leader节点时,该节点上管理平台在管理网卡上配置第一虚拟互联网协议地址VIP,并发送包括所述第一VIP的免费地址解析协议ARP报文;
接收客户端发送的用于数据获取的目标操作指令;
确定所述目标操作指令对应的目标命令行;
根据所述目标命令行从集群节点中获取对应的数据,并将获取到的数据返回给所述客户端。
根据本发明实施例的第二方面,提供一种分布式文件系统管理平台的高可用性HA实现装置,所述分布式文件系统包括多个集群节点,各集群节点上分别部署有管理平台,所述装置应用于所述管理平台,所述装置包括:
配置单元,用于当所述装置所在集群节点被选举为主控leader节点时,在管理网卡上配置第一虚拟互联网协议地址VIP;
发送单元,用于发送包括所述第一VIP的免费地址解析协议ARP报文;
接收单元,用于接收客户端发送的用于数据获取的目标操作指令;
确定单元,用于确定所述目标操作指令对应的目标命令行;
获取单元,用于根据所述目标命令行从集群节点中获取对应的数据;
所述发送单元,还用于将获取到的数据返回给所述客户端。
应用本发明实施例,通过将管理平台部署在集群节点上,并预先将用户在管理平台对应的页面上的操作指令封装为对应的集群命令行,从而当管理平台接收到用于数据获取的目标操作指令时,可以根据该目标操作指令对应的目标命令行从集群节点中获取对应的数据,并返回给客户端。由于分布式文件系统的特性,在集群任意一个节点上输入集群命令行获取到的数据都是一致的,因此,管理平台之间不需要考虑数据同步的问题;同时,由于管理平台上并不保存集群数据到数据库中,因此,也不需要考虑管理平台数据库与集群数据的同步问题,与现有分布式文件系统管理平台的HA实现方案相比,减少了由于数据同步带来的网络带宽的占用以及组网负担。
附图说明
图1是现有技术中一种分布式文件系统管理平台的HA实现方案的组网示意图;
图2是本发明实施例提供的一种分布式文件系统管理平台的HA实现方法的流程示意图;
图3是本发明实施例提供的一种分布式文件系统管理平台的HA实现方案的组网示意图;
图4是本发明实施例提供的一种分布式文件系统管理平台的HA实现装置的结构示意图;
图5是本发明实施例提供的另一种分布式文件系统管理平台的HA实现装置的结构示意图;
图6是本发明实施例提供的另一种分布式文件系统管理平台的HA实现装置的结构示意图;
图7是本发明实施例提供的分布式文件系统管理平台的HA实现装置所在设备的一种硬件结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
请参见图2,为本发明实施例提供的一种分布式文件系统管理平台的HA实现方法的流程示意图,其中,分布式文件管理系统包括多个集群节点,各集群节点上分别部署有管理平台,如图2所示,该方法可以包括以下步骤:
步骤201、当自身所在集群节点被选举为leader节点时,该节点上管理平台在管理网卡上配置第一VIP,并发送包括该第一VIP的免费ARP报文。
本发明实施例中,上述方法的执行主体可以为集群节点上部署的管理平台。
本发明实施例中,区别于现有分布式文件系统管理平台组网方案中分布式文件系统与管理平台分开部署的实现方式,分布式管理系统软件直接部署于分布式文件系统中的各集群节点上,即直接将管理平台部署在分布式文件系统的各集群节点上,当用户通过访问管理平台获取集群节点中的数据时,管理平台直接从集群节点中获取相应数据,而不需要再将集群节点中的数据同步到自身(管理平台)数据库中。
本发明实施例中,所有集群节点之间会通过相应心跳检测机制来监控集群状态,该心跳检测机制可以使用分布式文件系统原有的心跳检测机制,而不需要借助额外的HA工具。
当集群启动后,各集群节点之间会选举出一个leader(主控)节点,其中,集群节点选举leader节点的实现方式可以参见现有分布式文件系统中的相关实现,在此不再赘述。
本发明实施例中,当某集群节点(假设为集群节点A,以下简称为节点A)被选举为leader节点时,节点A上部署的管理平台可以在节点A的管理网卡配置一个VIP(如第一VIP,以下称为IPV1),并发送免费ARP(AddressResolutionProtocol,地址解析协议)报文,以通知网段内其他节点VIP1已经由节点A使用,当用户通过IPV1访问管理平台时,请求到的实际IP地址为节点A的IP地址(假设为IPA)。
本发明实施例中,当leader节点故障时,分布式文件系统中的其它集群节点可以通过心跳检测机制感知到,此时,将会选举出新的leader节点(假设为节点B),此时,节点B上部署的管理平台也会在节点B的管理网卡上配置上述VIP(即IPV1),并发送免费ARP报文,进而,当用户再通过IPV1访问管理平台时,请求到的实际IP地址为节点B的IP地址(假设为IPB)。
需要注意的是,在某些分布式文件系统中,故障的leader节点恢复正常后,可能会重新被选举为leader节点,如Ceph系统,此时,该leader节点处于故障状态时的新选举出来的leader节点将会重新变为member(成员)节点,为了避免VIP使用冲突,该由leader节点变为member节点的集群节点,需要删除管理网卡上配置的VIP(如IPV1)。
举例来说,假设Ceph系统中包括节点A、节点B以及节点C,当集群启动时,选举出的leader节点为节点A,在节点A上会收到becomeLeader(成为主控)事件,此时,可以在现有Ceph系统处理流程的基础上新增一个处理流程,即节点A上的管理平台会在节点A的管理网卡上配置IPV1,并发送免费ARP报文。
当节点A故障时,节点B和节点C会通过心跳检测机制感知到,从而,节点B和节点C会重新选举出新的leader节点(假设为节点B),节点B会收到becomeLeader事件,相应地,节点B上的管理平台会在节点B的管理网关上配置IPV1,并发送免费ARP报文。
当节点A从故障状态恢复正常时,会被重新选举为leader节点(其具体实现参见Ceph系统中的相关处理流程),节点A再次收到becomeLeader事件,相应处理流程同上,在此不再赘述;而节点B会收到becomeMember(成为成员)事件,即节点B由leader节点变为member节点,此时,需要在Ceph的原有处理流程基础上增加另外一个处理流程,即节点B上的管理平台将节点B的管理网卡上配置的IPV1删除,从而,用户通过IPV1访问管理平台时,实际访问的IP地址重新变为IPA。
步骤202、接收客户端发送的用于数据获取的目标操作指令。
步骤203、确定该目标操作指令对应的目标命令行。
本发明实施例中,由于管理平台不将集群数据保存到管理平台的数据库中,而是直接存储在集群节点中,而集群节点中存储的数据需要通过在任一集群节点上输入相应命令行的方式获取,因此,为了实现用户直接通过在管理平台对应的页面上输入操作指令来获取集群节点中存储的数据,需要预先将用户在管理平台对应的页面上的操作指令封装为对应的集群命令行。
相应地,当leader节点上的管理平台接收到客户端发送的用于数据获取的目标操作指令,如用户在客户端上通过IPV1访问管理平台,并在管理平台对应的页面中输入用于获取数据的操作指令时,管理平台可以查询确定该目标操作指令对应的集群命令行(即目标命令行),以便根据该目标命令行从集群节点中获取对应的数据。
步骤204、根据目标命令行从集群节点中获取对应的数据,并将该数据返回给客户端。
本发明实施例中,管理平台确定目标操作指令对应的目标命令行之后,可以根据该目标命令行从集群节点中获取对应的数据,并将获取到的数据返回给客户端,以展示给用户。
可见,在本发明实施例中,由于分布式文件系统的特性,在集群中任意一个节点输入集群命令行获取到的数据都是一致的,因此,管理平台之间不需要考虑数据同步的问题;同时,由于管理平台上并不保存集群数据到数据库中,因此,也不需要考虑管理平台数据库与集群数据的同步问题。
进一步地,在本发明实施例中,由于管理平台不保存数据到数据库中,因此,当集群出现故障导致集群命令行不可用时,管理平台通过集群命令行将无法获取到集群数据,进而导致用户数据获取失败。
考虑到上述问题,作为一种实施方式,leader节点上的管理平台可以在leader节点所在设备的内存或系统盘中缓存一份集群数据,当集群故障导致集群命令行不可用时,管理平台可以获取缓存的集群数据。
可选地,leader节点上的管理平台可以周期性地(可以根据具体场景设定,如每半分钟、每分钟等)更新缓存的集群数据。
相应地,在本发明实施例中,上述根据目标命令行从集群节点中获取对应的数据之后,以及上述将获取到的数据返回给所述客户端之前,还可以包括以下步骤:
11)、判断目标命令行是否可用;若是,转至步骤12;否则,转至步骤13;
12)、确定执行将获取到的数据返回给客户端的步骤;
13)、根据目标操作指令从leader节点所在设备的内存或系统盘中缓存的集群数据中获取对应的数据,当获取到对应的数据时,确定执行将获取到的数据返回给客户端的步骤,并发送告警信息;当未获取到对应的数据时,向客户端发送数据获取失败响应,并发送告警信息,该告警信息用于提示集群故障。
在该实施方式中,管理平台接收到客户端发送的目标操作指令,并确定该目标操作指令对应的目标命令行之后,可以运行该目标命令行,以从集群节点中获取对应的数据;若集群节点在预设时间内返回数据,则可以认为命令行可用,管理平台可以将获取到的数据返回给客户端;若集群节点在预设时间内未返回数据,则可以认为命令行不可用,此时,管理平台可以根据目标操作指令从缓存的集群数据中获取对应的数据,若获取到对应的数据,管理平台可以将获取到的数据返回给客户端;若未获取到对应的数据,管理平台可以向客户端发送数据获取失败响应。
其中,由于缓存的集群数据在大多数情况下并不是最新的集群数据,即缓存的集群数据可能与集群节点中存储的实际数据可能会不一致,因此,管理平台在确定命令行不可用时,还可以发送告警信息,以提示用户(如运维人员)集群故障,以便用户能及时获知集群发生故障,并采取相应措施。
进一步地,作为一种实施方式,本发明实施例中的管理平台还可以具备集群日志收集和查看功能,从而,当集群故障时,用户可以通过管理平台查看各集群节点的集群日志,以帮助定位集群故障。
相应地,本发明实施例提供的分布式文件系统的HA实现方法还可以包括以下步骤:
21)、接收客户端发送的集群日志查看指令;
22)、将多个集群节点的集群日志返回给客户端。
在该实施方式中,由于集群中各节点的集群日志保存在节点所在设备的系统盘上,集群故障通常不会影响集群日志的获取和查看,因此,通过在管理平台上增加集群日志收集和查看功能,当用户发现集群故障,如根据上述告警信息确定集群故障时,用户可以向管理平台发送集群日志查看指令,以请求查看集群日志;管理平台接收到集群日志查看指令之后,可以将集群中各节点的集群日志返回给客户端,以便用户根据该集群日志定位集群故障。
其中,管理平台可以周期性或定时获取集群中各节点各自所在设备系统盘中存储的集群日志,或者,管理平台也可以在接收到日志查看指令时,响应该日志查看指令获取集群中各节点各自所在设备系统盘中存储的集群日志,其具体实现本发明实施例在此不再赘述。
进一步地,考虑到分布式文件系统并不支持通过命令行查看所有节点的监控信息,如CPU(CenterProcessUnit,中央处理单元)使用率、内存使用率、磁盘使用率、磁盘IOPS(Input/OutputOperationsPerSecond,每秒进行读写操作的次数)等,而这些信息又是管理平台很重要的展现数据,因此,在本发明实施例中,可以通过在集群中各节点上均安装相应的软件,如开源Linux(一种操作系统)软件diamond(钻石),并将diamond配置文件中的host(主机)配置为IPV1,从而,集群中所有节点的监控信息均会上报给IPV1对应的节点,即leader节点,leader节点接收到其它节点上报的监控信息之后,可以将接收到的监控信息,以及自身监控到的监控信息保存至挂载在本地的专用于存储监控信息的块设备,当需要查看集群中各节点的监控信息时,可以直接从leader节点上挂载的块设备中获取。
相应地,上述步骤201中,发送包括第一VIP的免费ARP报文之后,还可以包括以下步骤:
31)、接收member节点发送的节点监控信息;
32)、将接收到的节点监控信息,以及自身所在集群节点监控到的节点监控信息存储到挂载在自身所在集群节点的块设备中。
在该实施方式中,当集群节点被选举为leader节点时,该集群节点上的管理平台可以在集群中创建一个块设备,并将该块设备挂载在该leader节点上,进而,member节点的监控信息,以及leader节点的监控信息均可以保存至该块设备中。
进一步地,在该实施方式中,当leader节点(假设为节点A)故障,新的leader节点(假设为节点B)被选举出来后,新的leader节点(即节点B)上的管理平台会将节点A上挂载的块设备挂载到本地,且后续监控信息将保存至新的leader节点上挂载的块设备中;若故障的leader节点(即节点A)由故障状态恢复正常,并重新被选举为leader节点之后,该恢复后的leader节点上的管理平台需要先取消之前挂载的块设备,后重新将节点B上挂载的块设备挂载到本地,且后续监控信息将保存至节点A上挂载的块设备中。
为了使本领域技术人员更好地理解本发明实施例提供的技术方案,下面结合具体的应用场景对本发明实施例提供的技术方案进行描述。
请参见图3,为本发明实施例提供的一种具体应用场景的示意图,在该实施例中,以分布式文件系统为Ceph系统为例,假设Ceph系统中包括节点A、节点B以及节点C,且节点A、节点B以及节点C上分别部署有管理平台。节点A、节点B和节点C上的管理网卡(以eth0为例)的实际IP地址分别为IPA、IPB和IPC。
在该实施例中,节点A、节点B以及节点C之间可以通过相应的心跳机制(Ceph系统中原有的心跳检测机制)来监控集群状态,集群启动后,各节点之间会选举出一个leader节点(假设为节点A),节点A上会收到becomeLeader事件,此时,可以(在Ceph系统原有处理流程的基础上)新增一个处理流程,即节点A上的管理平台在节点A的管理网卡上配置VIP-IPV1,并发送免费ARP,以通知网段内其它节点,该VIP(即IPV1)已经由节点A使用,用户通过IPV1访问管理平台时,请求到的实际为IPA所在的节点A。
当节点A出现故障时,Ceph系统中其它节点会通过心跳机制感知到,此时会选举出新的leader节点(假设为节点B),节点B会收到becomeLeader事件,相类似地,节点B上的管理平台可以在节点B的管理网卡上配置上述IPV1,并发送免费ARP,更新节点C中的ARP表项,此时,用户通过IPV1访问管理平台时实际访问的则是IPB所在的节点B。
当节点A从故障状态恢复正常后,会被重新选举为leader节点,节点A会再次收到becomeLeader事件,处理流程同上,在此不再赘述。而节点B会收到becomeMember事件,即节点B由Leader节点变为member节点,此时,可以(在Ceph系统原有处理流程的基础上)新增另一个处理流程,即删除节点B的管理网卡上的IPV1。此时,用户通过IPV1访问管理平台时,实际访问的又变为节点A。
在该实施例中,由于管理平台直接部署在集群节点上,且管理平台不将集群数据保存至数据库中,因此,为了实现通过管理平台对应的页面上的操作指令,从集群节点中获取数据,可以预先将用户在该页面上的各操作指令封装为对应的集群命令行,进而,当leader节点上的管理平台接收到客户端发送的操作指令时,可以直接调用该操作指令对应的集群命令行,从集群节点中获取数据并返回给客户端。
由于分布式文件系统的特性,在集群任意一个节点上输入集群命令行获取到的数据都是一致的,因此,管理平台之间不需要考虑数据同步的问题;同时,由于管理平台上并不保存集群数据到数据库中,因此,也不需要考虑管理平台数据库与集群数据的同步问题。
进一步地,在该实施例中,由于管理平台上不保存集群数据到数据库中,因此,当集群出现故障导致集群命令行不可用时,管理平台将获取不到集群数据。
考虑到上述问题,在该实施例中,一方面,leader节点上的管理平台可以在集群节点所在设备的内存或系统盘中缓存一份集群数据,当管理平台根据接收到的操作指令对应的集群命令行未获取到数据时,即集群命令行不可用时,管理平台可以根据接收到的操作指令从缓存的集群数据中获取对应的数据返回给客户端,并发送告警信息,以提示用户集群故障。
另一方面,由于集群日志保存在集群节点所在设备的系统盘中,集群故障通常不会影响管理平台获取集群日志,因此,可以在管理平台上增加收集和查看集群日志的功能,当用户根据告警信息获知集群故障时,可以通过管理平台获取集群日志,以便更快地定位集群故障。
进一步地,在该实施例中,可以通过在节点A、节点B以及节点C上安装开源Linux软件diamond,并将diamond配置文件中的host配置为IPV1,从而,节点B和节点C的监控信息均会上报给节点A(假设节点A为leader节点),节点A并不将这些监控数据实时同步给节点B和节点C,而是在集群中创建一个专门用于存储主机监控信息的块设备并挂载在本地,然后将监控信息均保存至该块设备中。
当节点A出现故障,假设节点B被选举为新的leader节点;节点B也可以在集群中创建一个挂载在本地的块设备,并将节点A上挂载的块设备中的数据同步过来,此外,由于节点B被选举为新的leader节点时,节点B上的管理平台会发送免费ARP,通知其他节点更新ARP表项,因此,diamond收集到的监控信息会被发送至节点B上,并保存至块设备中。
通过以上描述可以看出,在本发明实施例提供的技术方案中,通过将管理平台部署在集群节点上,并预先将用户在管理平台对应的页面上的操作指令封装为对应的集群命令行,从而当管理平台接收到用于数据获取的目标操作指令时,可以根据该目标操作指令对应的目标命令行从集群节点中获取对应的数据,并返回给客户端。由于分布式文件系统的特性,在集群任意一个节点上输入集群命令行获取到的数据都是一致的,因此,管理平台之间不需要考虑数据同步的问题;同时,由于管理平台上并不保存集群数据到数据库中,因此,也不需要考虑管理平台数据库与集群数据的同步问题,与现有分布式文件系统管理平台的HA实现方案相比,减少了由于数据同步带来的网络带宽的占用以及组网负担。
请参见图4,为本发明实施例提供的一种分布式文件系统管理平台的HA实现装置的结构示意图,其中,该分布式文件系统包括多个集群节点,各集群节点上分别部署有管理平台,该装置可以应用于该管理平台,如图4所述,该装置可以包括:
配置单元410,用于当所述装置所在集群节点被选举为主控leader节点时,在管理网卡上配置第一虚拟互联网协议地址VIP;
发送单元420,用于发送包括所述第一VIP的免费地址解析协议ARP报文;
接收单元430,用于接收客户端发送的用于数据获取的目标操作指令;
确定单元440,用于确定所述目标操作指令对应的目标命令行;
获取单元450,用于根据所述目标命令行从集群节点中获取对应的数据;
所述发送单元420,还用于将获取到的数据返回给所述客户端。
在一实施例中,所述配置单元410,还可以用于当所述装置所在集群节点由leader节点变为成员member节点时,删除所述管理网卡上的第一VIP。
请参见图5,为本发明实施例提供的另一种分布式文件系统管理平台的HA实现装置的结构示意图,该实施例在前述图4所示实施例的基础上,所述装置还可以包括:判断单元460;其中:
判断单元460,用于判断所述命令行是否可用;
相应地,所述获取单元450,还可以用于当所述判断单元460判断结果为否时,从leader节点所在设备的内存或系统盘中缓存的集群数据中获取对应的数据;
所述发送单元420,可以具体用于当所述获取单元450获取到对应的数据时,将所述获取单元450获取到的数据返回给所述客户端;当所述获取单元450未获取到对应的数据时,向客户端发送数据获取失败响应;
所述发送单元420,还可以用于当所述判断单元460的判断结果为否时,发送告警信息,所述告警信息用于提示所述集群故障。
在一实施例中,所述接收单元430,还可以用于接收客户端发送的集群日志查看指令;
所述发送单元420,还可以用于将所述多个集群节点的集群日志返回给所述客户端。
在一实施例中,所述接收单元430,还可以用于接收member节点发送的节点监控信息;
相应地,请参见图6,为本发明实施例提供的另一种分布式文件系统管理平台的HA实现装置的结构示意图,该实施例在前述图4所示实施例的基础上,所述装置还可以包括:存储单元470;其中:
存储单元470,用于将接收到的节点监控信息,以及所述装置所在集群节点监控到的节点监控信息存储到挂载在自身所在集群节点的块设备中。
请参见图7,为本发明实施例提供的配置改变处理装置所在设备的一种硬件结构图,包括处理器710和非易失性存储器720,处理器710和非易失性存储器720通过总线相连。其中,处理器710用于执行非易失性存储器720存储的机器可读指令模块。非易失性存储器720存储有处理器710可执行的机器可读指令模块。当存储在非易失性存储器720中的指令模块被处理器710执行时,可实现前述配置单元410、发送单元420、接收单元430、确定单元440、获取单元450、判断单元460以及存储单元470的功能。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
由上述实施例可见,通过将管理平台部署在集群节点上,并预先将用户在管理平台对应的页面上的操作指令封装为对应的集群命令行,从而当管理平台接收到用于数据获取的目标操作指令时,可以根据该目标操作指令对应的目标命令行从集群节点中获取对应的数据,并返回给客户端。由于分布式文件系统的特性,在集群任意一个节点上输入集群命令行获取到的数据都是一致的,因此,管理平台之间不需要考虑数据同步的问题;同时,由于管理平台上并不保存集群数据到数据库中,因此,也不需要考虑管理平台数据库与集群数据的同步问题,与现有分布式文件系统管理平台的HA实现方案相比,减少了由于数据同步带来的网络带宽的占用以及组网负担。。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种分布式文件系统管理平台的高可用性HA实现方法,其特征在于,所述分布式文件系统包括多个集群节点,各集群节点上分别部署有管理平台,所述方法包括:
当自身所在集群节点被选举为主控leader节点时,该节点上管理平台在管理网卡上配置第一虚拟互联网协议地址VIP,并发送包括所述第一VIP的免费地址解析协议ARP报文;
接收客户端发送的用于数据获取的目标操作指令;
确定所述目标操作指令对应的目标命令行;
根据所述目标命令行从集群节点中获取对应的数据,并将获取到的数据返回给所述客户端。
2.根据权利要求1所述的方法,其特征在于,在管理网卡上配置第一虚拟互联网协议地址VIP,并发送包括所述第一VIP的免费ARP报文之后,还包括:
当自身所在集群节点由leader节点变为成员member节点时,删除所述管理网卡上的第一VIP。
3.根据所述权利要求1所述的方法,其特征在于,所述根据所述目标命令行从集群节点中获取对应的数据之后,以及所述将获取到的数据返回给所述客户端之前,还包括:
判断所述目标命令行是否可用;
若是,则确定执行所述将获取到的数据返回给所述客户端的步骤;
否则,根据所述目标操作指令从leader节点所在设备的内存或系统盘中缓存的集群数据中获取对应的数据,当获取到对应的数据时,确定执行所述将获取到的数据返回给所述客户端的步骤,并发送告警信息;当未获取到对应的数据时,向所述客户端发送数据获取失败响应,并发送告警信息,所述告警信息用于提示所述集群故障。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收客户端发送的集群日志查看指令;
将所述多个集群节点的集群日志返回给所述客户端。
5.根据权利要求1所述的方法,其特征在于,所述发送包括所述第一VIP的免费ARP报文之后,还包括:
接收member节点发送的节点监控信息;
将接收到的节点监控信息,以及自身所在集群节点监控到的节点监控信息存储到挂载在自身所在集群节点的块设备中。
6.一种分布式文件系统管理平台的高可用性HA实现装置,其特征在于,所述分布式文件系统包括多个集群节点,各集群节点上分别部署有管理平台,所述装置应用于所述管理平台,所述装置包括:
配置单元,用于当所述装置所在集群节点被选举为主控leader节点时,在管理网卡上配置第一虚拟互联网协议地址VIP;
发送单元,用于发送包括所述第一VIP的免费地址解析协议ARP报文;
接收单元,用于接收客户端发送的用于数据获取的目标操作指令;
确定单元,用于确定所述目标操作指令对应的目标命令行;
获取单元,用于根据所述目标命令行从集群节点中获取对应的数据;
所述发送单元,还用于将获取到的数据返回给所述客户端。
7.根据权利要求6所述的装置,其特征在于,
所述配置单元,还用于当所述装置所在集群节点由leader节点变为成员member节点时,删除所述管理网卡上的第一VIP。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
判断单元,用于判断所述命令行是否可用;
所述获取单元,还用于当所述判断单元判断结果为否时,从leader节点所在设备的内存或系统盘中缓存的集群数据中获取对应的数据;
所述发送单元,具体用于当所述获取单元获取到对应的数据时,将所述获取单元获取到的数据返回给所述客户端;当所述获取单元未获取到对应的数据时,向客户端发送数据获取失败响应;
所述发送单元,还用于当所述判断单元的判断结果为否时,发送告警信息,所述告警信息用于提示所述集群故障。
9.根据权利要求6所述的装置,其特征在于,
所述接收单元,还用于接收客户端发送的集群日志查看指令;
所述发送单元,还用于将所述多个集群节点的集群日志给所述客户端。
10.根据权利要求6所述的装置,其特征在于,
所述接收单元,还用于接收member节点发送的节点监控信息;
所述装置还包括:
存储单元,用于将接收到的节点监控信息,以及所述装置所在集群节点监控到的节点监控信息存储到挂载在自身所在集群节点的块设备中。
CN201510715990.1A 2015-10-28 2015-10-28 一种分布式文件系统管理平台的ha实现方法及装置 Active CN105592139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510715990.1A CN105592139B (zh) 2015-10-28 2015-10-28 一种分布式文件系统管理平台的ha实现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510715990.1A CN105592139B (zh) 2015-10-28 2015-10-28 一种分布式文件系统管理平台的ha实现方法及装置

Publications (2)

Publication Number Publication Date
CN105592139A true CN105592139A (zh) 2016-05-18
CN105592139B CN105592139B (zh) 2019-03-15

Family

ID=55931344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510715990.1A Active CN105592139B (zh) 2015-10-28 2015-10-28 一种分布式文件系统管理平台的ha实现方法及装置

Country Status (1)

Country Link
CN (1) CN105592139B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107453932A (zh) * 2017-09-29 2017-12-08 郑州云海信息技术有限公司 一种分布式存储系统管理方法及其装置
CN108234630A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 基于分布式一致性协议实现的数据读取方法及装置
CN108809729A (zh) * 2018-06-25 2018-11-13 郑州云海信息技术有限公司 一种分布式系统中ctdb服务的故障处理方法及装置
CN109327544A (zh) * 2018-11-21 2019-02-12 新华三技术有限公司 一种领导节点的确定方法和装置
CN110677441A (zh) * 2018-07-02 2020-01-10 中国移动通信集团有限公司 一种对象存储集群的访问方法及装置
CN111314098A (zh) * 2018-12-11 2020-06-19 杭州海康威视系统技术有限公司 一种ha系统中实现vip地址漂移的方法和装置
CN115473766A (zh) * 2022-08-22 2022-12-13 苏州思萃工业互联网技术研究所有限公司 一种基于分布式网关的vip实现方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309167A (zh) * 2008-06-27 2008-11-19 华中科技大学 基于集群备份的容灾系统及方法
CN102122306A (zh) * 2011-03-28 2011-07-13 中国人民解放军国防科学技术大学 一种数据处理方法及应用该方法的分布式文件系统
CN102868754A (zh) * 2012-09-26 2013-01-09 北京联创信安科技有限公司 一种实现集群存储高可用性的方法、节点装置和系统
CN102882973A (zh) * 2012-10-11 2013-01-16 北京邮电大学 基于p2p技术的分布式负载均衡系统和方法
CN103297268A (zh) * 2013-05-13 2013-09-11 北京邮电大学 基于p2p技术的分布式数据一致性维护系统和方法
CN103475732A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种基于虚拟地址池的分布式文件系统数据卷部署方法
CN103944769A (zh) * 2014-05-05 2014-07-23 江苏物联网研究发展中心 基于rpc协议的集群资源统一管理系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309167A (zh) * 2008-06-27 2008-11-19 华中科技大学 基于集群备份的容灾系统及方法
CN102122306A (zh) * 2011-03-28 2011-07-13 中国人民解放军国防科学技术大学 一种数据处理方法及应用该方法的分布式文件系统
CN102868754A (zh) * 2012-09-26 2013-01-09 北京联创信安科技有限公司 一种实现集群存储高可用性的方法、节点装置和系统
CN102882973A (zh) * 2012-10-11 2013-01-16 北京邮电大学 基于p2p技术的分布式负载均衡系统和方法
CN103297268A (zh) * 2013-05-13 2013-09-11 北京邮电大学 基于p2p技术的分布式数据一致性维护系统和方法
CN103475732A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种基于虚拟地址池的分布式文件系统数据卷部署方法
CN103944769A (zh) * 2014-05-05 2014-07-23 江苏物联网研究发展中心 基于rpc协议的集群资源统一管理系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107453932A (zh) * 2017-09-29 2017-12-08 郑州云海信息技术有限公司 一种分布式存储系统管理方法及其装置
CN107453932B (zh) * 2017-09-29 2020-12-01 苏州浪潮智能科技有限公司 一种分布式存储系统管理方法及其装置
CN108234630A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 基于分布式一致性协议实现的数据读取方法及装置
CN108809729A (zh) * 2018-06-25 2018-11-13 郑州云海信息技术有限公司 一种分布式系统中ctdb服务的故障处理方法及装置
CN110677441A (zh) * 2018-07-02 2020-01-10 中国移动通信集团有限公司 一种对象存储集群的访问方法及装置
CN110677441B (zh) * 2018-07-02 2022-05-06 中国移动通信集团有限公司 一种对象存储集群的访问方法及装置
CN109327544A (zh) * 2018-11-21 2019-02-12 新华三技术有限公司 一种领导节点的确定方法和装置
CN109327544B (zh) * 2018-11-21 2021-06-18 新华三技术有限公司 一种领导节点的确定方法和装置
CN111314098A (zh) * 2018-12-11 2020-06-19 杭州海康威视系统技术有限公司 一种ha系统中实现vip地址漂移的方法和装置
CN115473766A (zh) * 2022-08-22 2022-12-13 苏州思萃工业互联网技术研究所有限公司 一种基于分布式网关的vip实现方法和系统
CN115473766B (zh) * 2022-08-22 2024-01-26 苏州思萃工业互联网技术研究所有限公司 一种基于分布式网关的vip实现方法和系统

Also Published As

Publication number Publication date
CN105592139B (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN105592139A (zh) 一种分布式文件系统管理平台的ha实现方法及装置
CN106790595B (zh) 一种Docker容器主动负载均衡装置及方法
US11888933B2 (en) Cloud service processing method and device, cloud server, cloud service system and storage medium
CN106713487A (zh) 数据的同步方法和装置
CN108696581B (zh) 分布式信息的缓存方法、装置、计算机设备以及存储介质
CN110830283B (zh) 故障检测方法、装置、设备和系统
CN102340410A (zh) 集群管理系统及方法
US11075813B2 (en) Proactively deploying analytics to a computerized edge device
CN108063832B (zh) 一种云存储系统及其存储方法
CN111211925B (zh) 告警信息同步方法、装置、计算机设备和存储介质
US11153173B1 (en) Dynamically updating compute node location information in a distributed computing environment
WO2016067299A1 (en) Location aware failover solution
CN115794769B (zh) 高可用数据库管理的方法、电子设备及存储介质
CN106534758B (zh) 会议备份方法和装置
CN114884805B (zh) 数据传输方法、装置、终端及存储介质
CN111382132A (zh) 医学影像数据云存储系统
CN112787868B (zh) 一种信息同步的方法和装置
CN112685486B (zh) 数据库集群的数据管理方法、装置、电子设备及存储介质
US20230146880A1 (en) Management system and management method
US11432172B2 (en) Channel establishment method and base station
CN113391759B (zh) 一种通信方法和设备
CN110032601B (zh) 一种实时数据同步的方法、装置及存储介质
JP6394212B2 (ja) 情報処理システム、ストレージ装置及びプログラム
CN110071949B (zh) 一种跨地理区域管理计算应用的系统、方法和装置
CN105721531A (zh) 一种消息同步方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Applicant after: Xinhua three Technology Co., Ltd.

Address before: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Applicant before: Huasan Communication Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant