CN108173959A - 一种集群存储系统 - Google Patents

一种集群存储系统 Download PDF

Info

Publication number
CN108173959A
CN108173959A CN201810018795.7A CN201810018795A CN108173959A CN 108173959 A CN108173959 A CN 108173959A CN 201810018795 A CN201810018795 A CN 201810018795A CN 108173959 A CN108173959 A CN 108173959A
Authority
CN
China
Prior art keywords
cmc
controller node
standby
bmc
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810018795.7A
Other languages
English (en)
Other versions
CN108173959B (zh
Inventor
葛冬玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810018795.7A priority Critical patent/CN108173959B/zh
Publication of CN108173959A publication Critical patent/CN108173959A/zh
Application granted granted Critical
Publication of CN108173959B publication Critical patent/CN108173959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种集群存储系统,该系统包括主CMC、备CMC、多个控制器节点和多个BMC;每个控制器节点均连接有独立的BMC;主CMC和备CMC通过预设链路保持数据同步,多个控制器节点均分别与主CMC和备CMC相连。通过BMC获取控制器节点的机箱信息,并将机箱信息反馈给主CMC;主CMC根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。这样,利用CMC代替内部交换机,降低集群存储系统的设备成本;且设置主备CMC,在控制器节点发送故障时,切换其它CMC来接管控制器节点,实现多控存储系统的冗余性和高可用性。

Description

一种集群存储系统
技术领域
本发明涉及存储技术领域,特别涉及一种集群存储系统。
背景技术
随着云计算、云存储的发展,集群存储系统正在逐渐成为云计算和云存储的重要角色之一。
集群存储系统可以在单个节点故障时提供有效的故障恢复策略,可以确保高性能进程的负载均衡,提高存储系统的并行性,大大提高后端存储系统的存储和访问效率。集群系统中,多控存储系统的存在对存储的冗余性、高可用性提出更高的要求。
目前,多控存储系统内的多控制器之间常常通过一种内部交换机进行互联,但是内部交换机成本高、不稳定,无统一管理机制和设备,为管理和排查故障位置提出了严峻的考验。
发明内容
本发明的目的是提供一种集群存储系统,以降低集群存储系统的设备成本,实现多控存储系统的冗余性和高可用性。
为实现上述目的,本发明提供一种集群存储系统,包括主CMC、备CMC、多个控制器节点和多个BMC;每个所述控制器节点均连接有独立的所述BMC;
所述主CMC和所述备CMC通过预设链路保持数据同步,所述多个控制器节点均分别与所述主CMC和所述备CMC相连;
所述BMC用于获取所述控制器节点的机箱信息,并将所述机箱信息反馈给所述主CMC;
所述主CMC用于根据所述机箱信息,判断所述控制器节点是否发生故障;若发生故障,则通过所述预设链路通知所述备CMC接管所述控制器节点。
优选地,所述主CMC和所述备CMC均还包括集中管理模块,用于管理各个所述控制器节点的机箱,各个所述BMC与CMC间的内部网络分配,以及同步CMC与各个所述BMC、所述控制器节点的数据。
优选地,所述集中管理模块包括定时同步子模块,用于通过内部网络与各个所述BMC、所述控制器节点进行定时时钟同步和硬件信息同步。
优选地,所述主CMC和所述备CMC均还包括日志记录模块,用于记录发生故障的控制器节点的节点信息。
优选地,所述主CMC和所述备CMC还包括故障定位模块,用于根据所记录的日志信息,定位故障控制器节点。
优选地,所述BMC具体通过IPMI接口获取所述机箱信息。
优选地,所述预设链路为心跳链路。
本发明所提供的一种集群存储系统,该系统包括主CMC、备CMC、多个控制器节点和多个BMC;每个控制器节点均连接有独立的BMC;主CMC和备CMC通过预设链路保持数据同步,多个控制器节点均分别与主CMC和备CMC相连。通过BMC获取控制器节点的机箱信息,并将机箱信息反馈给主CMC;主CMC根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。这样,利用CMC代替内部交换机,降低集群存储系统的设备成本;且设置主备CMC,在控制器节点发送故障时,切换其它CMC来接管控制器节点,实现多控存储系统的冗余性和高可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种集群存储系统的结构示意框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例提供的一种集群存储系统的结构示意框图,该系统包括主CMC11、备CMC12、多个控制器节点13和多个BMC14;每个控制器节点均连接有独立的BMC;
主CMC11和备CMC12通过预设链路保持数据同步,多个控制器节点均分别与主CMC11和备CMC12相连;
BMC用于获取控制器节点的机箱信息,并将机箱信息反馈给主CMC11;
主CMC11用于根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。
需要说明,主备CMC之间用于保持数据同步的预设链路可以具体为但不限于心跳链路,即主备CMC之间可以通过心跳链路来进行信息同步,且该心跳链路可以作为主备CMC之间的通信链路。主备CMC间数据的实时同步,可实现主备CMC间的无缝切换接管,提高系统的冗余性和可用性。
具体地,BMC可以通过IPMI接口来实时获取各个控制器节点的机箱信息,然后将该机箱信息反馈给主CMC,主CMC可以根据这些机箱信息判断每个控制器节点是否发生故障。当节点发生故障时,该控制器节点与主CMC之间的单条NIC链路中断,此时,主CMC可以通过心跳链路通知被BMC接管该故障控制器节点,以防止控制器节点与CMC间的通信中断。这样,可以防止多控存储集群内出现单点连接故障引起的系统宕机等问题。
本实施例中,主CMC和备CMC均还可以包括集中管理模块,用于管理各个控制器节点的机箱,各个BMC与CMC间的内部网络分配,以及同步CMC与各个BMC、控制器节点的数据。进一步地,集中管理模块可以包括定时同步子模块,用于通过内部网络与各个BMC、控制器节点进行定时时钟同步和硬件信息同步。
具体地,主备CMC会制定一定的网络规则,通过这些网络规则对多个控制器节点进行内部网络配置和内部网络管理。主备CMC的网络规则会通过链路与控制器节点的操作系统以及各个BMC进行定时同步,以实现系统内的数据同步,保证控制器节点之间的网络连通性和节点之间的互通性。
这样,主备CMC还可以实现多控制器集中管理功能,使得CMC可以更加灵活的处理故障情况。
本实施例中,主CMC和备CMC均还可以包括日志记录模块,用于记录发生故障的控制器节点的节点信息。进一步地,主CMC和备CMC还可以包括故障定位模块,用于根据所记录的日志信息,定位故障控制器节点。这样,通过记录故障控制器节点信息,即可快速定位出故障所在,能提高多控存储系统故障的排查效率。
本发明实施例所提供的一种集群存储系统,该系统包括主CMC、备CMC、多个控制器节点和多个BMC;每个控制器节点均连接有独立的BMC;主CMC和备CMC通过预设链路保持数据同步,多个控制器节点均分别与主CMC和备CMC相连。通过BMC获取控制器节点的机箱信息,并将机箱信息反馈给主CMC;主CMC根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。这样,利用CMC代替内部交换机,降低集群存储系统的设备成本;且设置主备CMC,在控制器节点发送故障时,切换其它CMC来接管控制器节点,实现多控存储系统的冗余性和高可用性。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的集群存储系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种集群存储系统,其特征在于,包括主CMC、备CMC、多个控制器节点和多个BMC;每个所述控制器节点均连接有独立的所述BMC;
所述主CMC和所述备CMC通过预设链路保持数据同步,所述多个控制器节点均分别与所述主CMC和所述备CMC相连;
所述BMC用于获取所述控制器节点的机箱信息,并将所述机箱信息反馈给所述主CMC;
所述主CMC用于根据所述机箱信息,判断所述控制器节点是否发生故障;若发生故障,则通过所述预设链路通知所述备CMC接管所述控制器节点。
2.如权利要求1所述的集群存储系统,其特征在于,所述主CMC和所述备CMC均还包括集中管理模块,用于管理各个所述控制器节点的机箱,各个所述BMC与CMC间的内部网络分配,以及同步CMC与各个所述BMC、所述控制器节点的数据。
3.如权利要求2所述的集群存储系统,其特征在于,所述集中管理模块包括定时同步子模块,用于通过内部网络与各个所述BMC、所述控制器节点进行定时时钟同步和硬件信息同步。
4.如权利要求1所述的集群存储系统,其特征在于,所述主CMC和所述备CMC均还包括日志记录模块,用于记录发生故障的控制器节点的节点信息。
5.如权利要求4所述的集群存储系统,其特征在于,所述主CMC和所述备CMC还包括故障定位模块,用于根据所记录的日志信息,定位故障控制器节点。
6.如权利要求1所述的集群存储系统,其特征在于,所述BMC具体通过IPMI接口获取所述机箱信息。
7.如权利要求1至6任一项所述的集群存储系统,其特征在于,所述预设链路为心跳链路。
CN201810018795.7A 2018-01-09 2018-01-09 一种集群存储系统 Active CN108173959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810018795.7A CN108173959B (zh) 2018-01-09 2018-01-09 一种集群存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810018795.7A CN108173959B (zh) 2018-01-09 2018-01-09 一种集群存储系统

Publications (2)

Publication Number Publication Date
CN108173959A true CN108173959A (zh) 2018-06-15
CN108173959B CN108173959B (zh) 2020-09-04

Family

ID=62517854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810018795.7A Active CN108173959B (zh) 2018-01-09 2018-01-09 一种集群存储系统

Country Status (1)

Country Link
CN (1) CN108173959B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833189A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种存储节点管理系统及方法
CN109245950A (zh) * 2018-11-01 2019-01-18 郑州云海信息技术有限公司 一种链路失效位置确定的方法以及相关装置
CN109361543A (zh) * 2018-10-30 2019-02-19 郑州云海信息技术有限公司 一种整机柜监控方法、装置、终端及存储介质
CN110377460A (zh) * 2019-07-26 2019-10-25 苏州浪潮智能科技有限公司 一种冗余管理系统及存储服务器
CN110399254A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种服务器cmc双机热活方法、系统、终端及存储介质
CN111385107A (zh) * 2018-12-27 2020-07-07 大唐移动通信设备有限公司 一种服务器的主备切换处理方法及装置
CN112368982A (zh) * 2018-07-19 2021-02-12 思科技术公司 用于机箱管理的多节点发现和主选举过程
TWI795991B (zh) * 2021-11-10 2023-03-11 神雲科技股份有限公司 資料同步方法
WO2023178975A1 (zh) * 2022-03-22 2023-09-28 苏州浪潮智能科技有限公司 机箱管理系统及机箱管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929760A (zh) * 2012-10-19 2013-02-13 浪潮电子信息产业股份有限公司 一种远程监控系统上电过程宕机的方法
CN103428033A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种刀片服务器管理网络主动式检测方法
CN104035831A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 一种高端容错计算机管理系统及方法
CN105656836A (zh) * 2014-11-11 2016-06-08 中兴通讯股份有限公司 安全监听方法及系统
CN106383770A (zh) * 2016-09-26 2017-02-08 郑州云海信息技术有限公司 一种服务器监控管理的方法及服务器
CN106603329A (zh) * 2016-12-02 2017-04-26 曙光信息产业(北京)有限公司 一种服务器集群的监控方法和系统
US20170220419A1 (en) * 2016-02-03 2017-08-03 Mitac Computing Technology Corporation Method of detecting power reset of a server, a baseboard management controller, and a server

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929760A (zh) * 2012-10-19 2013-02-13 浪潮电子信息产业股份有限公司 一种远程监控系统上电过程宕机的方法
CN103428033A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种刀片服务器管理网络主动式检测方法
CN104035831A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 一种高端容错计算机管理系统及方法
CN105656836A (zh) * 2014-11-11 2016-06-08 中兴通讯股份有限公司 安全监听方法及系统
US20170220419A1 (en) * 2016-02-03 2017-08-03 Mitac Computing Technology Corporation Method of detecting power reset of a server, a baseboard management controller, and a server
CN106383770A (zh) * 2016-09-26 2017-02-08 郑州云海信息技术有限公司 一种服务器监控管理的方法及服务器
CN106603329A (zh) * 2016-12-02 2017-04-26 曙光信息产业(北京)有限公司 一种服务器集群的监控方法和系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112368982A (zh) * 2018-07-19 2021-02-12 思科技术公司 用于机箱管理的多节点发现和主选举过程
CN112368982B (zh) * 2018-07-19 2023-05-26 思科技术公司 用于操作节点集群的方法、装置及可读存储介质
CN108833189A (zh) * 2018-07-27 2018-11-16 郑州云海信息技术有限公司 一种存储节点管理系统及方法
CN109361543A (zh) * 2018-10-30 2019-02-19 郑州云海信息技术有限公司 一种整机柜监控方法、装置、终端及存储介质
CN109245950A (zh) * 2018-11-01 2019-01-18 郑州云海信息技术有限公司 一种链路失效位置确定的方法以及相关装置
CN109245950B (zh) * 2018-11-01 2021-09-17 郑州云海信息技术有限公司 一种链路失效位置确定的方法以及相关装置
CN111385107A (zh) * 2018-12-27 2020-07-07 大唐移动通信设备有限公司 一种服务器的主备切换处理方法及装置
CN111385107B (zh) * 2018-12-27 2021-07-06 大唐移动通信设备有限公司 一种服务器的主备切换处理方法及装置
CN110399254A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种服务器cmc双机热活方法、系统、终端及存储介质
CN110377460A (zh) * 2019-07-26 2019-10-25 苏州浪潮智能科技有限公司 一种冗余管理系统及存储服务器
TWI795991B (zh) * 2021-11-10 2023-03-11 神雲科技股份有限公司 資料同步方法
WO2023178975A1 (zh) * 2022-03-22 2023-09-28 苏州浪潮智能科技有限公司 机箱管理系统及机箱管理方法

Also Published As

Publication number Publication date
CN108173959B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN108173959A (zh) 一种集群存储系统
CN106341454B (zh) 跨机房多活分布式数据库管理系统和方法
WO2019154394A1 (zh) 分布式数据库集群系统、数据同步方法及存储介质
CN104320401B (zh) 一种基于分布式文件系统的大数据存储访问系统及方法
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
CN105471622B (zh) 一种基于Galera的控制节点主备切换的高可用方法及系统
US10216589B2 (en) Smart data replication recoverer
CN103647668A (zh) 一种高可用集群内主机群体决策系统及切换方法
KR101670343B1 (ko) 피어투피어 데이터 복제를 위한 방법, 장치, 및 시스템 및 마스터 노드 전환을 위한 방법, 장치, 및 시스템
CN104994168A (zh) 分布式存储方法及分布式存储系统
JP2008059583A (ja) クラスタ・システムならびにクラスタ・システム内でレプリカをバックアップする方法およびプログラム製品
CN106301938A (zh) 一种高可用性和强一致性的数据库集群系统及其节点管理方法
JP2005209201A (ja) 高可用性クラスタにおけるノード管理
CN104506625A (zh) 一种提升云数据库元数据节点可靠性的方法
CN102467508A (zh) 提供数据库服务的方法及数据库系统
WO2012145963A1 (zh) 数据管理系统及方法
CN108306955A (zh) 一种车载终端大规模互联集群方法
CN106919473A (zh) 一种数据灾备系统及业务处理方法
CN103532753A (zh) 一种基于内存换页同步的双机热备方法
CN103618788A (zh) 一种支持b/s结构系统高可用的方法
CN111045602A (zh) 集群系统控制方法及集群系统
CN103516734B (zh) 数据处理方法、设备和系统
WO2017014814A1 (en) Replicating memory volumes
CN108964986A (zh) 协同办公系统应用级双活灾备系统
CN103095837A (zh) 一种实现lustre元数据服务器冗余的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant