CN101488105A - 实现存储双控制器高可用性的方法及存储双控制器系统 - Google Patents

实现存储双控制器高可用性的方法及存储双控制器系统 Download PDF

Info

Publication number
CN101488105A
CN101488105A CNA2008100041398A CN200810004139A CN101488105A CN 101488105 A CN101488105 A CN 101488105A CN A2008100041398 A CNA2008100041398 A CN A2008100041398A CN 200810004139 A CN200810004139 A CN 200810004139A CN 101488105 A CN101488105 A CN 101488105A
Authority
CN
China
Prior art keywords
controller
baseboard management
storage
memory controller
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100041398A
Other languages
English (en)
Other versions
CN101488105B (zh
Inventor
杨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2008100041398A priority Critical patent/CN101488105B/zh
Publication of CN101488105A publication Critical patent/CN101488105A/zh
Application granted granted Critical
Publication of CN101488105B publication Critical patent/CN101488105B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种实现存储双控制器高可用性的方法及存储双控制器系统,包括,每个存储控制器通过使用基板管理控制器实现带外管理,其中基板管理控制器和所述存储控制器交互,获得存储控制器的工作状态,同时两个基板管理控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信,实现存储双控制器的高可用性。应用本发明,采用应用处理器和管理芯片硬件分离的方法,减少应用程序对管理软件流程的影响,提高了存储双控制器的可用性;管理芯片之间使用高可靠的IPMB总线接口,同时管理信息传递使用IPMI消息格式,使管理信息传递更可靠,更易于扩展;提出了实现存储双控制器高可用性的关键处理流程。

Description

实现存储双控制器高可用性的方法及存储双控制器系统
技术领域
本发明涉及IT领域,更具体地说,涉及一种实现存储系统中双控制器的高可用性的方法及存储双控制器系统。
背景技术
存储控制器是存储产品中的核心模块,它处理来自服务器访问磁盘阵列的IO请求,使用先进的cache同步技术、RAID(独立冗余磁盘阵列)技术、逻辑卷管理和IO调度等高效、可靠的处理算法,对外提供一个高带宽的存储接口。
存储系统中使用双控制器,可以提高系统的可靠性和处理能力。正常情况下,两个控制器工作在负载均衡模式,提供较高的IO处理能力;当某个控制器出现异常,则正常的控制器处理全部的IO请求操作,保证系统不间断的工作。正常控制器可以向异常控制器发出服务指令,等待异常控制器正常工作后,两个控制器再进入负载均衡工作模式。
双控制器存储系统中的一个关键技术是如何实现两个控制器之间工作状态的交互,如何判断某个控制器进入异常状态,如何接管异常控制器的工作,当某个异常控制器恢复为正常工作时,系统如何恢复为负载均衡工作模式。即如何使双控制器更加可靠稳定的工作,实现双控制器的高可用性(HA)能力。
现行市场上的存储控制器一般使用基于SCSI(Small Computer SystemInterface,小型计算机系统接口)协议族的SES管理标准,但该管理标准依赖于SCSI协议族,扩展性不强。另外,采用的是带内管理的方法,管理信息和用户数据使用相同的通道,操作系统在处理用户数据的同时,还要处理管理信息,降低了存储服务效率。管理信息处理和用户数据处理都由控制器承担,当用户数据处理故障时很可能影响双控制器之间的管理信息交互,使得双控制器之间的工作状态交互出现故障,降低了控制器的可使用性。
因此,需要一种新的实现存储双控制器高可用性的技术方案,将管理数据从用户数据中分离,实现更为可靠的带外管理。并且,从硬件上将双控制器管理信息处理功能从主处理器上分离,极大的提高了双控制器的可用性。
发明内容
本发明所要解决的技术问题是提供一种实现存储双控制器高可用性的方法及存储双控制器系统,使用带外管理,利用单独的硬件控制器处理管理信息,并提出了双控制器的状态信息交互流程、异常处理和恢复流程。
为了解决上述问题,本发明提供了一种实现存储双控制器高可用性的方法,包括,
每个存储控制器通过使用基板管理控制器实现带外管理,其中基板管理控制器和所述存储控制器交互,获得存储控制器的工作状态,同时两个基板管理控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信,实现存储双控制器的高可用性。
进一步地,上述方法还可包括,所述存储双控制器的带外管理接口为智能平台管理总线接口;
所述基板管理控制器通过少针脚型接口和存储控制器交互,获得存储控制器的工作状态。
进一步地,上述方法还可包括,在正常工作流程中,两个基板管理控制器通过智能平台管理总线接口每间隔一个固定的时间互相发送同步消息,对方的基板管理控制器接收到消息后发送该同步消息的响应,所述同步消息的格式使用智能平台管理界面规范格式。
进一步地,上述方法还可包括,所述基板管理控制器实时检测存储控制器的环境信息,如果出现环境监控信息异常,则执行异常处理流程。
进一步地,上述方法还可包括,所述基板管理控制器根据存储控制器的环境信息单板环境的温度值决定需要调节的风扇转速,如果温度高,则提高风扇转速,如果温度低,则降低风扇转速;
所述存储控制器的环境信息,包括电压、温度、风扇转速。
进一步地,上述方法还可包括,在正常工作流程中,当基板管理控制器接收到来自主处理器的关于存储应用软件运行的异常信息,执行异常处理流程。
进一步地,上述方法还可包括,在异常工作流程中,首先基板管理控制器判断异常的种类,如果是主存储控制器应用出现异常,则复位主存储控制器;如果需要复位基板管理控制器,则相应的复位基板管理控制器。
进一步地,上述方法还可包括,在复位操作之前,将发生故障的存储控制器的IO负载转移到正常的存储控制器上。
进一步地,上述方法还可包括,在复位基板管理控制器时,使用基板管理控制器复位信号互锁机制,使得在复位对端基板管理控制器之间,自身的基板管理控制器不被复位。
进一步地,上述方法还可包括,在异常恢复的流程,包括通过复位操作恢复正常的情况,以及通过更换异常存储控制器单板恢复正常操作的情况;
在异常恢复的流程中,首先,两个基板管理控制器之间重新实现正常同步,然后运行主存储控制器中的应用软件,并得到应用软件正常运行状态信息后,将IO负载通过负载均衡算法转移到恢复正常运行的主存储控制器上。
本发明还提供了一种存储双控制器系统,包括两个存储控制器,
其中每个存储控制器上包含一个基板管理控制器,用于实现存储双控制器的带外管理,其中基板管理控制器和所述存储控制器交互,获得存储控制器的工作状态,同时两个基板管理控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信,实现存储双控制器的高可用性。
进一步地,上述系统还可包括,所述存储控制器上还包含一个主处理器,主处理器用于运行存储应用软件,响应来自主机光纤通道的存储IO请求;来自主机的光纤分别接到主处理器的两个输入口,主处理器输出口接磁盘组;正常情况下,两个主处理器以负载均衡方式处理来自主机端的IO请求,当出现异常情况时,异常的主处理器处理的IO请求全部转移到正常的主处理器上。
进一步地,上述系统还可包括,两个基板管理控制器直接通过智能平台管理总线接口相连;
基板管理控制器和主处理器之间通过少针脚型接口通讯,当主处理器软件运行异常时,通过该少针脚型接口通知基板管理控制器,以便基板管理控制器进行异常情况处理。
与现有技术相比,应用本发明,可以有效地达到以下的有益效果:
(1)采用应用处理器和管理芯片硬件分离的方法,减少应用程序对管理软件流程的影响,提高了存储双控制器的可用性(HA);
(2)管理芯片之间使用高可靠的IPMB总线接口,同时管理信息传递使用IPMI消息格式,使管理信息传递更可靠,更易于扩展;
(3)提出了实现存储双控制器高可用性的关键处理流程。
附图说明
图1是本发明具体实施方式中存储双控制器的硬件模块框图;
图2是本发明具体实施方式中正常工作状态下管理信息交互流程图;
图3是本发明具体实施方式中异常工作状态下管理信息交互流程图;
图4是本发明具体实施方式中异常恢复管理信息交互流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
本发明的主要构思是:存储双控制器使用带外管理。每个存储控制器通过使用一个BMC(Baseboard Management Controller,基板管理控制器)硬件芯片,由该芯片实现带外管理。存储双控制器的带外管理接口为IPMB(智能平台管理总线)接口,通信协议使用IPMI(Intelligent Platform ManagementInterface,智能平台管理界面)规范。BMC控制器通过LPC(少针脚型接口)和存储控制器交互,获得存储控制器的工作状态。
存储控制器在工作期间,两个BMC控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信。
实现存储双控制器高可用性的一些关键流程,包括,
在正常工作流程中,两个BMC控制器通过IPMB接口每间隔一个固定的时间互相发送同步消息,对方的BMC控制器接收到消息后发送该同步消息的响应,其中消息格式使用IPMI规范格式;BMC控制器实时检测存储控制器的环境信息,包括电压、温度、风扇转速等等,可以通过一定的算法实现风扇自动调速;
在异常工作流程中,首先判断异常的种类,如果是主存储控制器应用出现异常,则复位主存储控制器,需要复位BMC控制器的,则相应的复位BMC控制器。在复位操作之前,需要将发生故障的存储控制器的IO负载转移到正常的存储控制器上;
在异常恢复的流程中,从异常中恢复,包括通过复位操作可以恢复正常的情况,以及通过更换异常存储控制器单板恢复正常操作的情况。首先,两个BMC控制器之间重新实现正常同步,然后运行主存储控制器中的应用软件,并得到应用软件正常运行状态信息后,将IO负载通过一定的均衡算法转移到恢复正常运行的主存储控制器上。
图1是根据本发明实施的双控制器硬件模块框图,
其中,存储控制器A、B,每个存储控制器上包含一个主处理器和一个BMC控制器。主处理器用于运行存储应用软件,响应来自主机光纤通道的存储IO请求。来自主机的光纤分别接到主处理器的两个输入口,主处理器输出口接磁盘组。正常情况下,两个主处理器以负载均衡方式处理来自主机端的IO请求,当出现异常情况时,异常的主处理器处理的IO请求全部转移到正常的主处理器上。
BMC控制器是实现存储双控制器高可用性的关键器件,BMC控制器用于实现存储双控制器的带外管理,其中基板管理控制器和所述存储控制器交互,获得存储控制器的工作状态,同时两个基板管理控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信,实现存储双控制器的高可用性。
两个BMC控制器直接通过IPMB总线相连,定时互传同步消息等其他管理信息。BMC控制器和主处理器之间通过LPC接口通讯,当主处理器软件运行异常时,可以通过该LPC接口通知BMC控制器,以便BMC控制器进行异常情况处理。
图2是根据本发明实施的正常工作状态下管理信息交互流程图。其具体步骤如下:
步骤S201,BMC控制器通过IPMB总线向对端BMC控制器发送同步命令;
步骤S202,判断是否接收到对端BMC控制器发来的同步命令响应消息。如果收到同步命令响应消息,则执行步骤S204,否则执行步骤S203;
步骤S203,判断发送同步命令重试次数是否超过门限值,如果重试次数大于等于门限值,则表示BMC控制器之间通讯异常,执行异常处理流程;如果重试次数小于门限值,则重试次数加1,执行步骤S204;
步骤S204,通过定时机制,在两次发送同步命令之间间隔一段时间,执行步骤S201。
通过定时机制,在两次发送同步命令之间间隔一段时间,执行步骤S201,再次发送同步命令。
在上述过程中,当BMC控制器接收到来自主处理器的关于存储应用软件运行的异常信息,执行异常处理流程。
在上述过程中,BMC控制器监控单板环境信息,如果出现环境监控信息异常,则执行异常处理流程。
BMC控制器监控单板环境信息,包括查询电压、温度、风扇转速等等是否正常。
BMC控制器根据单板环境的温度值决定需要调节的风扇转速,如果温度高,则提高风扇转速,如果温度低,则降低风扇转速。
图3是根据本发明实施的异常工作状态下管理信息交互流程图,其具体步骤如下:
步骤S301,根据系统异常消息的严重性,判断是否要复位BMC控制器;
如果需要复位对端的BMC控制器,则执行步骤S302,否则执行步骤S304;
例如,当对端BMC不响应同步命令,需要复位对端的BMC控制器。
步骤S302,使BMC控制器复位信号互锁;
使用BMC控制器复位信号互锁机制,使得在复位对端BMC控制器之间,自身不被复位。
步骤S303,给出复位信号,复位对端异常的BMC控制器;
步骤S304,判断是否要复位主处理器,如果需要复位主处理器,则执行步骤S305;否则执行步骤S307;
步骤S305,通过负载均衡算法,将需要复位的异常主处理器的IO请求转移到正常的主处理器上;
步骤S306,负载转移后,复位异常主处理器;
步骤S307,处理其他异常情况,然后等待异常恢复。
处理其他异常情况,例如包括根据告警级别点亮告警灯、或者驱动蜂鸣器发声等等,然后等待异常恢复。
图4是根据本发明实施的异常恢复管理信息交互流程图,异常恢复可以是通过复位操作后,控制器运行正常,或者通过热插拔方式在线更换异常的存储主控制器单板,其具体步骤如下:
步骤S401,判断BMC控制器之间是否同步,如果建立同步,则执行步骤S402,否则继续等待;
步骤S402,判断主处理器软件是否运行正常;
BMC控制器可以采用主动查询方式或接收来自主处理器的软件运行正常的事件获知。
步骤S403,主处理器应用软件运行正常后,通过负载均衡算法,使两个主控制器工作在负载均衡状态。并进入双控制器的正常工作流程处理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (13)

1、一种实现存储双控制器高可用性的方法,其特征在于,包括,
每个存储控制器通过使用基板管理控制器实现带外管理,其中基板管理控制器和所述存储控制器交互,获得存储控制器的工作状态,同时两个基板管理控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信,实现存储双控制器的高可用性。
2、如权利要求1所述的方法,其特征在于,
所述存储双控制器的带外管理接口为智能平台管理总线接口;
所述基板管理控制器通过少针脚型接口和存储控制器交互,获得存储控制器的工作状态。
3、如权利要求2所述的方法,其特征在于,
在正常工作流程中,两个基板管理控制器通过智能平台管理总线接口每间隔一个固定的时间互相发送同步消息,对方的基板管理控制器接收到消息后发送该同步消息的响应,所述同步消息的格式使用智能平台管理界面规范格式。
4、如权利要求3所述的方法,其特征在于,
还包括,所述基板管理控制器实时检测存储控制器的环境信息,如果出现环境监控信息异常,则执行异常处理流程。
5、如权利要求4所述的方法,其特征在于,
所述基板管理控制器根据存储控制器的环境信息单板环境的温度值决定需要调节的风扇转速,如果温度高,则提高风扇转速,如果温度低,则降低风扇转速;
所述存储控制器的环境信息,包括电压、温度、风扇转速。
6、如权利要求5所述的方法,其特征在于,
在正常工作流程中,当基板管理控制器接收到来自主处理器的关于存储应用软件运行的异常信息,执行异常处理流程。
7、如权利要求6所述的方法,其特征在于,
在异常工作流程中,首先基板管理控制器判断异常的种类,如果是主存储控制器应用出现异常,则复位主存储控制器;如果需要复位基板管理控制器,则相应的复位基板管理控制器。
8、如权利要求7所述的方法,其特征在于,
在复位操作之前,将发生故障的存储控制器的IO负载转移到正常的存储控制器上。
9、如权利要求8所述的方法,其特征在于,
在复位基板管理控制器时,使用基板管理控制器复位信号互锁机制,使得在复位对端基板管理控制器之间,自身的基板管理控制器不被复位。
10、如权利要求9所述的方法,其特征在于,
在异常恢复的流程,包括通过复位操作恢复正常的情况,以及通过更换异常存储控制器单板恢复正常操作的情况;
在异常恢复的流程中,首先,两个基板管理控制器之间重新实现正常同步,然后运行主存储控制器中的应用软件,并得到应用软件正常运行状态信息后,将IO负载通过负载均衡算法转移到恢复正常运行的主存储控制器上。
11、一种存储双控制器系统,包括两个存储控制器,其特征在于,
其中每个存储控制器上包含一个基板管理控制器,用于实现存储双控制器的带外管理,其中基板管理控制器和所述存储控制器交互,获得存储控制器的工作状态,同时两个基板管理控制器进行存储控制器的状态信息交互,并和存储控制器进行事件信息通信,实现存储双控制器的高可用性。
12、如权利要求11所述的系统,其特征在于,
所述存储控制器上还包含一个主处理器,主处理器用于运行存储应用软件,响应来自主机光纤通道的存储IO请求;来自主机的光纤分别接到主处理器的两个输入口,主处理器输出口接磁盘组;正常情况下,两个主处理器以负载均衡方式处理来自主机端的IO请求,当出现异常情况时,异常的主处理器处理的IO请求全部转移到正常的主处理器上。
13、如权利要求12所述的系统,其特征在于,
两个基板管理控制器直接通过智能平台管理总线接口相连;
基板管理控制器和主处理器之间通过少针脚型接口通讯,当主处理器软件运行异常时,通过该少针脚型接口通知基板管理控制器,以便基板管理控制器进行异常情况处理。
CN2008100041398A 2008-01-18 2008-01-18 实现存储双控制器高可用性的方法及存储双控制器系统 Expired - Fee Related CN101488105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100041398A CN101488105B (zh) 2008-01-18 2008-01-18 实现存储双控制器高可用性的方法及存储双控制器系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100041398A CN101488105B (zh) 2008-01-18 2008-01-18 实现存储双控制器高可用性的方法及存储双控制器系统

Publications (2)

Publication Number Publication Date
CN101488105A true CN101488105A (zh) 2009-07-22
CN101488105B CN101488105B (zh) 2011-09-21

Family

ID=40891006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100041398A Expired - Fee Related CN101488105B (zh) 2008-01-18 2008-01-18 实现存储双控制器高可用性的方法及存储双控制器系统

Country Status (1)

Country Link
CN (1) CN101488105B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541471A (zh) * 2011-12-28 2012-07-04 创新科软件技术(深圳)有限公司 一种多控制器存储系统
CN102541792A (zh) * 2011-12-19 2012-07-04 云海创想信息技术(北京)有限公司 一种双控bmc之间串口通讯的方法
CN102591717A (zh) * 2012-02-06 2012-07-18 华为技术有限公司 外接设备和虚拟设备的业务信息处理方法、装置和系统
CN106844162A (zh) * 2017-02-25 2017-06-13 郑州云海信息技术有限公司 基于bmc的存储服务器机箱管理系统及方法
CN107766181A (zh) * 2017-09-12 2018-03-06 中国电子科技集团公司第五十二研究所 一种基于PCIe非透明桥的双控制器存储高可用子系统
CN112286727A (zh) * 2020-10-29 2021-01-29 成都银汉易科技有限公司 一种基于增量快照的时空隔离域快速恢复方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293863A (ja) * 2005-04-13 2006-10-26 Hitachi Ltd ディスクアレイ装置及びその制御方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541792A (zh) * 2011-12-19 2012-07-04 云海创想信息技术(北京)有限公司 一种双控bmc之间串口通讯的方法
CN102541471A (zh) * 2011-12-28 2012-07-04 创新科软件技术(深圳)有限公司 一种多控制器存储系统
CN102591717A (zh) * 2012-02-06 2012-07-18 华为技术有限公司 外接设备和虚拟设备的业务信息处理方法、装置和系统
CN106844162A (zh) * 2017-02-25 2017-06-13 郑州云海信息技术有限公司 基于bmc的存储服务器机箱管理系统及方法
CN107766181A (zh) * 2017-09-12 2018-03-06 中国电子科技集团公司第五十二研究所 一种基于PCIe非透明桥的双控制器存储高可用子系统
CN112286727A (zh) * 2020-10-29 2021-01-29 成都银汉易科技有限公司 一种基于增量快照的时空隔离域快速恢复方法和系统
CN112286727B (zh) * 2020-10-29 2023-11-21 成都银汉易科技有限公司 一种基于增量快照的时空隔离域快速恢复方法和系统

Also Published As

Publication number Publication date
CN101488105B (zh) 2011-09-21

Similar Documents

Publication Publication Date Title
US10715411B1 (en) Altering networking switch priority responsive to compute node fitness
CN101488105B (zh) 实现存储双控制器高可用性的方法及存储双控制器系统
CN102629225B (zh) 双控制器磁盘阵列、存储系统以及数据存储路径切换方法
US7543190B2 (en) System and method for detecting false positive information handling system device connection errors
JP5561622B2 (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
JP2006195821A (ja) 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム
CN103955441B (zh) 一种设备管理系统、方法及一种io扩展接口
CN102591717B (zh) 外接设备和虚拟设备的业务信息处理方法、装置和系统
CN102394914A (zh) 集群脑裂处理方法和装置
CN107729190B (zh) 一种io路径故障转移处理方法和系统
CN103532753A (zh) 一种基于内存换页同步的双机热备方法
CN105072029A (zh) 一种双活双控存储系统的冗余链路设计方法及系统
US8285893B2 (en) System and method for adaptively setting connections to input/output hubs within an information handling system
CN104333586A (zh) 一种基于光纤链路的san存储设计方法
CN108469996A (zh) 一种基于自动快照的系统高可用方法
US20060235937A1 (en) System and method for processing commands in a storage enclosure
WO2020238747A1 (zh) 串口输出路径切换方法、系统及装置和交换机
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN107357800A (zh) 一种数据库高可用零丢失解决方法
CN114090184A (zh) 一种虚拟化集群高可用性的实现方法和设备
US11368356B2 (en) Computer having an embedded switch
CN107294759A (zh) 服务器系统及数据存取方法
KR20090056124A (ko) 듀얼 프로세서 제어 장치의 고장 안전 구조
JP2002136000A (ja) 無停電電源システム
CN107423167A (zh) 一种基于双控存储的ISCSI target冗余控制方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110921

Termination date: 20180118

CF01 Termination of patent right due to non-payment of annual fee