CN101465769A - 双控制器磁盘阵列的动态故障检测系统 - Google Patents

双控制器磁盘阵列的动态故障检测系统 Download PDF

Info

Publication number
CN101465769A
CN101465769A CNA2009100605535A CN200910060553A CN101465769A CN 101465769 A CN101465769 A CN 101465769A CN A2009100605535 A CNA2009100605535 A CN A2009100605535A CN 200910060553 A CN200910060553 A CN 200910060553A CN 101465769 A CN101465769 A CN 101465769A
Authority
CN
China
Prior art keywords
heartbeat
controller
time
advent
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100605535A
Other languages
English (en)
Other versions
CN101465769B (zh
Inventor
冯丹
万亚平
曾令仿
陈俭喜
毛波
吴素贞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2009100605535A priority Critical patent/CN101465769B/zh
Publication of CN101465769A publication Critical patent/CN101465769A/zh
Application granted granted Critical
Publication of CN101465769B publication Critical patent/CN101465769B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

双控制器磁盘阵列的动态故障检测系统,属于计算机存储技术领域,解决现有故障检测系统需要大量的样本信息或者对样本要求满足特定概率分布,存储系统的负载较大,计算过程复杂、不稳定的问题。本发明由并行的主、从控制器构成,主、从控制器之间通过第二千兆以太网接口进行心跳故障检测,通过光纤通道适配器进行数据同步;主、从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块。本发明启动双心跳检测机制,以防止单心跳检测失效导致的单点故障问题;采用动态心跳设定机制,减少系统开销;故障切换和故障恢复的过程对于用户完全透明;各功能模块执行于应用层,系统易于实现和使用,具有较好的灵活性和可扩展性。

Description

双控制器磁盘阵列的动态故障检测系统
技术领域
本发明属于计算机存储技术领域,具体涉及一种双控制器磁盘阵列的动态故障检测系统。
背景技术
越来越多的证据表明,网络存储将成为继个人计算机和互联网络后第三次IT浪潮的引导者。个人计算机引领了第一次IT浪潮,互联网络把孤立的主机通过网络互联起来引领了第二次IT浪潮。第一次浪潮和第二次浪潮是以数据计算为中心,而网络存储将引领以数据存储为中心的第三次IT浪潮。为了保证存储系统的高可用性以及应对日渐频繁出现的故障,对存储系统的多个节点或者多个磁盘阵列控制器之间进行高效准确的检测已经成为必然。故障的频繁发生已经成为困扰科学家、工程技术人员和存储用户的主要问题之一,高效的动态故障检测算法和故障恢复机制是存储界的研究难点之一。在故障检测算法方面,针对存储系统高度动态异构、包丢失率及消息传输延迟较大等特点,故障检测在必须满足完整性、准确性等基本要求的基础上,还应该能够满足系统的及时性、可扩展性、灵活性等特殊需求,并据此提出了一些故障检测算法。
故障检测是使计算机系统发生故障后能及时有效恢复的前提。当前故障检测的方式分为静态心跳检测和动态心跳检测两种。一般的静态心跳故障检测的设计思想是:给定两个进程p和q,假定由p监控q,q会按照一个固定的时间间隔周期性的给p发送心跳消息;若在预定的时间段内p没有收到q的心跳消息,则p认为q故障。一般认为这是一种静态的心跳机制,它的心跳消息到达时间上限固定,不能满足网络存储系统的动态性需求。见J H Abawajy等.Fault detection service architecture for gridcomputing systems[G].In:Proc of ICCSA 2004,Lecture Note in ComputerScience 3044.Berlin:Springer,2004.107-115;而动态心跳故障检测根据最近的n次心跳消息到达的时间估计第n+1次的心跳消息到达时间,并据此判断故障的发生,一般采取加权平均方法或者线性回归的方法利用曲线拟和估计第n+1次心跳到达的时间。这些方法需要大量的样本信息或者样本需要满足某种概率分布特征,并不适合于存储系统的需求。见WChen,S Toueg,M K Aguilera.On the quality of service of failure detectors[J].IEEE Trans on Computers,2002,51(2):13-32.以及Xuanhua Shi,HaiJin,Zongfen Han,et al.ALTER:Adaptive failure detection services for grids[C].In:Proc of the 2005 IEEE Int’l Conf on Services Computing(SCC’05).Los Alamitos,CA:IEEE Computer Society Press,2005.355-358。
在现有的对数据存储的业务需求中,需要一种高效适用的故障检测系统,以提高存储系统的可靠性和可用性。
发明内容
本发明提出一种双控制器磁盘阵列的动态故障检测系统,解决现有动态心跳故障检测系统需要大量的样本信息或者对样本要求满足特定概率分布,存储系统的负载较大,计算过程复杂、不稳定,导致不适合于存储系统需求的问题。
本发明的双控制器磁盘阵列的动态故障检测系统,由并行的主控制器和从控制器构成,主控制器和从控制器分别包括CPU、Cache、IDE硬盘、串控制器、第一千兆网卡和第二千兆网卡,它们通过PCI总线互连,主控制器和从控制器还分别包括光纤通道适配器;主控制器和从控制器之间通过第二千兆网卡进行心跳故障检测,通过光纤通道适配器进行数据同步;其特征在于:
所述主控制器和从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块;
所述心跳模块根据本控制器服务监控模块发送过来的值设置心跳发送周期,然后周期性向对方控制器发送心跳消息,心跳消息包括每个控制器自检信息和心跳信息;
所述信息监控模块将对方控制器心跳模块发送过来的心跳消息到达时间放入时间窗中,达到设定的数量以后,利用无偏灰色预测模型,预测下一次心跳消息到达时间,并结合心跳到达时间修正值设定判断故障的时限;在判断故障的时限内没有收到对方控制器发送过来的心跳消息,则认为对方控制器失效,通知故障切换模块;
所述故障切换模块根据信息监控模块的结果进行相应动作,若对方控制器工作不正常,则切换服务的对象,把对方控制器高速缓存中的数据镜像到本控制器,对第一千兆网卡进行重定向;
所述服务监控模块收集本控制器I/O服务的信息,根据系统所提供I/O服务的密集程度设置相应的心跳发送周期并且通知心跳模块。
所述的动态故障检测系统,其特征在于,所述信息监控模块中,利用无偏灰色预测模型,预测下一次心跳消息到达时间,并结合心跳到达时间修正值设定判断故障的时限,根据如下步骤进行:
(1)对原始心跳到达时间序列做一阶累加形成生成数据序列:
t ( 1 ) ( K ) = Σ m = 1 k t ( 0 ) ( m )   k=1,2,…,n;
其中,原始心跳到达时间序列:t(0)(1),t(0)(2),…,t(0)(n),满足t(0)(k)≥0,k=1,2,…,n;
(2)对一阶累加生成数据序列t(1)(K)建立一阶微分方程:
dt ( 1 ) ( k ) dk + at ( 1 ) ( k ) = u
其中a为发展系统,u为灰色作用量;
(3)确定数据矩阵A和Xn
A = - 1 2 [ t ( 1 ) ( 1 ) + t ( 1 ) ( 2 ) ] 1 - 1 2 [ t ( 1 ) ( 2 ) + t ( 1 ) ( 3 ) ] 1 · · · · · · - 1 2 [ t ( 1 ) ( n - 1 ) + t ( 1 ) ( n ) ] 1 ,
X n = t ( 0 ) ( 2 ) t ( 0 ) ( 3 ) · · · t ( 0 ) ( n ) ,
(4)求灰色预测模型的参数列:
a ^ u ^ T = A T A - 1 A T X n ;
(5)设原始心跳达到时间序列为指数序列:
t(0)(k)=Bea(k-1)  k=1,2,…,N
令无偏灰色预测模型的参数
Figure A200910060553D0008094517QIETU
分别为:
a ^ ′ = ln 2 - a ^ 2 + a ^ , B ^ = 2 u ^ 2 + a ^ ;
(6)求得N次心跳到达时间预测值:
t ^ ( 0 ) ( 1 ) = t ( 0 ) ( 1 )
t ^ ( 0 ) ( k ) = B ^ e a ^ ′ ( k - 1 )   k=2,3,…,N,
(7)由N次心跳到达时间预测值,结合心跳到达时间修正值σ,生成N+1次心跳消息到达时间预测值
Figure A200910060553D0008094547QIETU
作为判断故障的时限:
t ^ ( 0 ) ( N + 1 ) = B ^ e a ^ ′ ( N ) + σ ,
心跳到达时间修正值σ:
σ = i × Σ k = 1 n ( t ( 0 ) ( k ) - t ^ ( 0 ) ( k ) ) N ,
其中i为权值且0<i<2,t(0)(k)为每次原始心跳到达时间,
Figure A200910060553D0009094612QIETU
为每次预测的心跳到达时间。
所述的动态故障检测系统,其特征在于:
所述主控制器和从控制器还分别具有RS-232串口,在预测的时间内信息监控模块没有收到心跳消息,则启用RS-232串口,若检测对方控制器失效,启动故障切换模块;若检测对方控制器未失效,则通知用户对第二千兆网卡进行检测。
所述的动态故障检测系统,其特征在于:
所述主控制器和从控制器的心跳模块根据服务监控模块获得的I/O服务请求的密集程度动态修改心跳发送周期,当I/O服务请求稀疏时,增大心跳消息发送周期;当I/O服务请求密集时,则缩短心跳消息发送周期。
传统的故障检测通常是被监控对象每隔一个固定的时间周期ξ向监控对象发送心跳信息,报告自己的故障状态,这个过程通常会因为设备或者网络的原因导致一个传输延时td;而监控对象会按照一个固定的时限timeout(ξ+td)来对心跳信息进行判断,一旦超过了这个时间没有接受到心跳信息,则认为被监控对象出现故障。这种方法缺乏灵活性,故障检测的错误率偏高,并且检测的时间固定不变,容易受到设备或者网络链接故障的影响。本发明采用动态机制来检测故障的发生,对心跳信息的到达时间进行动态设定,能较好的满足用户对存储系统的性能要求。
本发明根据信息监控模块获得的I/O负载特征值λ来动态的设定心跳消息的发送周期ξ,可以较好的适应外部环境的数据请求的变化特征。
本发明为了减少单心跳检测导致的错误故障判断结果,还采用了双心跳机制来提高故障检测的可靠性。在心跳检测硬件方面,这里也采用了冗余措施。一方面,采用第二千兆网卡来进行心跳检测信息的交互,同时另一方面,采用RS-232串口来进行心跳检测上硬件的冗余。这一切都是为了保证存储系统中关键数据不致丢失,减少用户的损失。RS-232是电子工业协会(EIA)制定并发布的,它是PC机与通信工业中应用最广泛的一种串行接口。RS-232被定义为一种在低速率串行通讯中增加通讯距离的单端标准。RS-232采取不平衡传输方式,即所谓单端通讯。
本发明采用的无偏灰色预测模型与传统灰色预测模型相比,不存在传统灰色预测模型固有的偏差,消除了原始序列增长率较大时失效的现象,并且无须进行累减还原,简化了建模步骤,减少了计算时间和降低了系统的负载。
本发明支持对多个磁盘阵列控制器的故障进行检测,通过在存储系统内采用动态心跳故障检测的方式实现多个节点或者多个磁盘阵列控制器之间的故障检测功能,最大限度的减少故障检测的时间和降低故障检测的错误率,达到故障检测的完整性需求,并且节省存储系统的网络有效带宽,提高存储系统发生故障后及时有效故障恢复的能力,增强存储网络的健壮性。本发明虽然是基于双控制器磁盘阵列系统提出的,但可以广泛适用于一般的分布式计算机系统。
本发明的软件模块运行于应用层,易于用户操作,并且能根据用户的需求进行灵活的配置,增加或者删除一些功能模块。
附图说明
图1为本发明的一个实施例结构示意图;
图2为本发明主控制器和从控制器加载的功能模块示意图;
图3为单心跳线检测流程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明的实施例,由并行的主控制器和从控制器构成,主控制器和从控制器分别包括CPU、Cache、IDE硬盘、串控制器、第一千兆网卡和第二千兆网卡,它们通过PCI总线互连,主控制器和从控制器还分别包括光纤通道适配器;主控制器和从控制器之间通过第二千兆网卡进行心跳故障检测,通过光纤通道适配器进行数据同步;
串控制器使用LSI Logic公司的LSI22320 Ultra320 SCSI适配器,该适配器包括两条320MBps SCSI通道,可以提供640MBps的通道带宽。每条SCSI通道可以连接最多达15个SCSI硬盘,两条通道就可以连接30个硬盘,同时可以通过增加SCSI适配器来增加容量。光纤通道适配器采用了Agilent的Tachyon DE4(HPFC-6700A),具有双端口,每个端口都支持全双工工作模式,提供高达4Gbps的带宽。PCI插槽上有两个千兆的网卡,作为第一千兆网卡和第二千兆网卡,第一千兆网卡用来连接主机的主机通道接口,用来接受主机来的命令和数据;第二千兆网卡用来进行心跳检测,以便得知控制器之间的存活状态。此外,为了保证心跳检测的冗余性,加入了RS-232串口。本发明硬件配置相对灵活,SCSI适配器、千兆网卡都是直接插到主板的PCI插槽上,光纤通道适配器是直接插到主板的PCI-E插槽上,都可以通过更换或增加更快的主机通道适配器来提高性能,同时也可以通过增加串控制器来提高阵列容量。
如图2所示,主控制器和从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块。
当本发明只配备第二千兆以太网接口作为心跳线时,单心跳线主控制器故障检测的步骤如图3所示:
(1)设定心跳消息发送周期;
(2)根据信息监控模块设定的故障判断时间,判断在每次设定的时限内是否收到心跳信息,是则转步骤(4),否则认为主控制器出现故障,转步骤(3);
(3)从控制器进行故障处理:
从控制器接替主控制器的工作,进行下列操作实现故障的迁移:
根据状态将Cache中未写入磁盘中的数据写入到磁盘中;
修改IP地址,并且向网关发送ARP请求;
根据配置文件映射设备;
(4)接收通过心跳线传送过来备份的“配置文件”和主控制器“自检信息”,“配置文件”交由备份程序处理,“自检信息”交由互检程序处理;转步骤(1)。
本发明同时配备RS-232串口作为心跳线时,双心跳线的检测过程基本同上。

Claims (5)

1.一种双控制器磁盘阵列的动态故障检测系统,由并行的主控制器和从控制器构成,主控制器和从控制器分别包括CPU、Cache、IDE硬盘、串控制器、第一千兆以太网接口和第二千兆以太网接口,它们通过PCI总线互连,主控制器和从控制器还分别包括光纤通道适配器;主控制器和从控制器之间通过第二千兆以太网接口进行心跳故障检测,通过光纤通道适配器进行数据同步;其特征在于:
所述主控制器和从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块;
所述心跳模块根据本控制器服务监控模块发送过来的值设置心跳发送周期,然后周期性向对方控制器发送心跳消息,心跳消息包括每个控制器自检信息和心跳信息;
所述信息监控模块将对方控制器心跳模块发送过来的心跳消息到达时间放入时间窗中,达到设定的数量以后,利用无偏灰色预测模型,预测下一次心跳消息到达时间,并结合心跳到达时间修正值设定判断故障的时限;在判断故障的时限内没有收到对方控制器发送过来的心跳消息,则认为对方控制器失效,通知故障切换模块;
所述故障切换模块根据信息监控模块的结果进行相应动作,若对方控制器工作不正常,则切换服务的对象,把对方控制器高速缓存中的数据镜像到本控制器,对第一千兆网卡进行重定向;
所述服务监控模块收集本控制器I/O服务的信息,根据系统所提供I/O服务的密集程度设置相应的心跳发送周期并且通知心跳模块。
2.如权利要求1所述的动态故障检测系统,其特征在于,所述信息监控模块中,利用无偏灰色预测模型,预测下一次心跳消息到达时间,并结合心跳到达时间修正值设定判断故障的时限,根据如下步骤进行:
(1)对原始心跳到达时间序列做一阶累加形成生成数据序列:
t ( 1 ) ( K ) = &Sigma; m = 1 k t ( 0 ) ( m )      k=1,2,…,n;
其中,原始心跳到达时间序列:t(0)(1),t(0)(2),…,t(0)(n),满足t(0)(k)≥0,k=1,2,…,n;
(2)对一阶累加生成数据序列t(1)(K)建立一阶微分方程:
dt ( 1 ) ( k ) dk + at ( 1 ) ( k ) = u
其中a为发展系统,u为灰色作用量;
(3)确定数据矩阵A和Xn
A = - 1 2 [ t ( 1 ) ( 1 ) + t ( 1 ) ( 2 ) ] 1 - 1 2 [ t ( 1 ) ( 2 ) + t ( 1 ) ( 3 ) ] 1 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; - 1 2 [ t ( 1 ) ( n - 1 ) + t ( 1 ) ( n ) ] 1 ,
X n = t ( 0 ) ( 2 ) t ( 0 ) ( 3 ) &CenterDot; &CenterDot; &CenterDot; t ( 0 ) ( n ) ,
(4)求灰色预测模型的参数列:
a ^ u ^ T = ( A T A ) - 1 A T X n ;
(5)设原始心跳达到时间序列为指数序列:
t(0)(k)=Bea(k-1)  k=1,2,…,N
令无偏灰色预测模型的参数
Figure A200910060553C00036
分别为:
a ^ &prime; = ln 2 - a ^ 2 + a ^ , B ^ = 2 u ^ 2 + a ^ ;
(6)求得N次心跳到达时间预测值:
t ^ ( 0 ) ( 1 ) = t ( 0 ) ( 1 )
t ^ ( 0 ) ( k ) = B ^ e a ^ &prime; ( k - 1 )    k=2,3,…,N,
(7)由N次心跳到达时间预测值,结合心跳到达时间修正值σ,生成N+1次心跳消息到达时间预测值
Figure A200910060553C0004175718QIETU
作为判断故障的时限:
t ^ ( 0 ) ( N + 1 ) = B ^ e a ^ &prime; ( N ) + &sigma; ,
心跳到达时间修正值σ:
&sigma; = i &times; &Sigma; k = 1 n ( t ( 0 ) ( k ) - t ^ ( 0 ) ( k ) ) N ,
其中i为权值且0<i<2,t(0)(k)为每次原始心跳到达时间,
Figure A200910060553C0004175732QIETU
为每次预测的心跳到达时间。
3.如权利要求1或2所述的动态故障检测系统,其特征在于:
所述主控制器和从控制器还分别具有RS-232串口,在预测的时间内信息监控模块没有收到心跳消息,则启用RS-232串口,若检测对方控制器失效,则启动故障切换模块;若检测对方控制器未失效,则通知用户对第二千兆网卡进行检测。
4.如权利要求1或2所述的动态故障检测系统,其特征在于:
所述主控制器和从控制器的心跳模块根据服务监控模块获得的I/O服务请求的密集程度动态修改心跳发送周期,当I/O服务请求稀疏时,增大心跳消息的发送周期;当I/O服务请求密集时,则缩短心跳消息的发送周期。
5.如权利要求3所述的动态故障检测系统,其特征在于:
所述主控制器和从控制器的心跳模块根据服务监控模块获得的I/O服务请求的密集程度动态修改心跳发送周期,当I/O服务请求稀疏时,增大心跳消息发送周期;当I/O服务请求密集时,则缩短心跳消息发送周期。
CN2009100605535A 2009-01-16 2009-01-16 双控制器磁盘阵列的动态故障检测系统 Expired - Fee Related CN101465769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100605535A CN101465769B (zh) 2009-01-16 2009-01-16 双控制器磁盘阵列的动态故障检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100605535A CN101465769B (zh) 2009-01-16 2009-01-16 双控制器磁盘阵列的动态故障检测系统

Publications (2)

Publication Number Publication Date
CN101465769A true CN101465769A (zh) 2009-06-24
CN101465769B CN101465769B (zh) 2011-01-19

Family

ID=40806144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100605535A Expired - Fee Related CN101465769B (zh) 2009-01-16 2009-01-16 双控制器磁盘阵列的动态故障检测系统

Country Status (1)

Country Link
CN (1) CN101465769B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699389A (zh) * 2009-10-30 2010-04-28 中兴通讯股份有限公司 磁盘热拔除的处理方法及装置
CN101815099A (zh) * 2010-04-20 2010-08-25 中兴通讯股份有限公司 双控磁盘阵列中双控制器配置信息同步的方法和装置
CN101957786A (zh) * 2010-09-30 2011-01-26 中兴通讯股份有限公司 双控系统中实现启动及故障切换控制的方法和装置
CN101763882B (zh) * 2009-11-26 2012-06-06 中兴通讯股份有限公司 一种磁盘阵列的监控方法及系统
CN101764846B (zh) * 2009-12-18 2012-07-11 西南交通大学 一种远程集中式磁盘阵列运行监控系统的实现方法
CN102629225A (zh) * 2011-12-31 2012-08-08 成都市华为赛门铁克科技有限公司 双控制器磁盘阵列、存储系统以及数据存储路径切换方法
CN102799394A (zh) * 2012-06-29 2012-11-28 华为技术有限公司 一种实现高可用集群的心跳服务的方法及装置
CN102833326A (zh) * 2012-08-15 2012-12-19 广东工业大学 一种基于灰色预测的云存储负载均衡方法
CN103049225A (zh) * 2013-01-05 2013-04-17 浪潮电子信息产业股份有限公司 一种双控双活的存储系统
CN103246585A (zh) * 2013-05-06 2013-08-14 浙江宇视科技有限公司 一种存储控制器故障检测方法
CN103257908A (zh) * 2013-05-24 2013-08-21 浪潮电子信息产业股份有限公司 一种软硬件协同的多控制器磁盘阵列设计方法
CN103440177A (zh) * 2013-08-23 2013-12-11 浪潮电子信息产业股份有限公司 一种基于numa多物理层分区的存储控制冗余方法
CN104881246A (zh) * 2015-03-30 2015-09-02 北京飞杰信息技术有限公司 应用于集群存储系统的输出入传递方法及系统
CN106375137A (zh) * 2016-12-09 2017-02-01 国网山西省电力公司忻州供电公司 电力通信网络的节点故障检测方法
CN107678891A (zh) * 2017-10-13 2018-02-09 郑州云海信息技术有限公司 一种存储系统的双控方法、装置及可读存储介质
CN108833213A (zh) * 2018-08-08 2018-11-16 迈普通信技术股份有限公司 一种以太网链路检测方法及装置
CN108897644A (zh) * 2018-06-22 2018-11-27 山东超越数控电子股份有限公司 一种双控制器故障处理方法与系统
CN109117294A (zh) * 2018-07-16 2019-01-01 上交所技术有限责任公司 适用于证券交易系统的故障检测方法及装置
CN109117323A (zh) * 2018-08-31 2019-01-01 中国电子科技集团公司第二十研究所 一种双机热备系统中的主备切换方法
CN110119111A (zh) * 2019-02-26 2019-08-13 北京龙鼎源科技股份有限公司 通信方法及装置、存储介质、电子装置
CN111566575A (zh) * 2017-12-04 2020-08-21 法国航空公司 预测组件的一个或多个设备项工作异常的方法
CN112230625A (zh) * 2020-10-30 2021-01-15 北京汽车研究总院有限公司 智能驾驶控制器的车辆控制方法及存储介质与计算机设备
CN112911185A (zh) * 2021-01-18 2021-06-04 浙江大华技术股份有限公司 一种双控设备故障处理方法及装置
CN113868086A (zh) * 2021-09-28 2021-12-31 东风电子科技股份有限公司 实现针对双芯片通信状态进行监控及恢复的方法、装置、处理器及其计算机可读存储介质

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699389A (zh) * 2009-10-30 2010-04-28 中兴通讯股份有限公司 磁盘热拔除的处理方法及装置
CN101699389B (zh) * 2009-10-30 2014-12-10 中兴通讯股份有限公司 磁盘热拔除的处理方法及装置
CN101763882B (zh) * 2009-11-26 2012-06-06 中兴通讯股份有限公司 一种磁盘阵列的监控方法及系统
CN101764846B (zh) * 2009-12-18 2012-07-11 西南交通大学 一种远程集中式磁盘阵列运行监控系统的实现方法
CN101815099A (zh) * 2010-04-20 2010-08-25 中兴通讯股份有限公司 双控磁盘阵列中双控制器配置信息同步的方法和装置
CN101957786B (zh) * 2010-09-30 2014-08-20 中兴通讯股份有限公司 双控系统中实现启动及故障切换控制的方法和装置
CN101957786A (zh) * 2010-09-30 2011-01-26 中兴通讯股份有限公司 双控系统中实现启动及故障切换控制的方法和装置
CN102629225A (zh) * 2011-12-31 2012-08-08 成都市华为赛门铁克科技有限公司 双控制器磁盘阵列、存储系统以及数据存储路径切换方法
CN102629225B (zh) * 2011-12-31 2014-05-07 华为技术有限公司 双控制器磁盘阵列、存储系统以及数据存储路径切换方法
US8930608B2 (en) 2011-12-31 2015-01-06 Huawei Technologies Co., Ltd. Switch disk array, storage system and data storage path switching method
WO2014000430A1 (zh) * 2012-06-29 2014-01-03 华为技术有限公司 一种实现高可用集群的心跳服务的方法及装置
CN102799394A (zh) * 2012-06-29 2012-11-28 华为技术有限公司 一种实现高可用集群的心跳服务的方法及装置
CN102799394B (zh) * 2012-06-29 2015-02-25 华为技术有限公司 一种实现高可用集群的心跳服务的方法及装置
US9658912B2 (en) 2012-06-29 2017-05-23 Huawei Technologies Co., Ltd. Method and apparatus for implementing heartbeat service of high availability cluster
CN102833326A (zh) * 2012-08-15 2012-12-19 广东工业大学 一种基于灰色预测的云存储负载均衡方法
CN103049225A (zh) * 2013-01-05 2013-04-17 浪潮电子信息产业股份有限公司 一种双控双活的存储系统
CN103246585A (zh) * 2013-05-06 2013-08-14 浙江宇视科技有限公司 一种存储控制器故障检测方法
CN103246585B (zh) * 2013-05-06 2017-04-19 浙江宇视科技有限公司 一种存储控制器故障检测方法
CN103257908A (zh) * 2013-05-24 2013-08-21 浪潮电子信息产业股份有限公司 一种软硬件协同的多控制器磁盘阵列设计方法
CN103440177A (zh) * 2013-08-23 2013-12-11 浪潮电子信息产业股份有限公司 一种基于numa多物理层分区的存储控制冗余方法
CN104881246A (zh) * 2015-03-30 2015-09-02 北京飞杰信息技术有限公司 应用于集群存储系统的输出入传递方法及系统
CN104881246B (zh) * 2015-03-30 2018-01-12 北京华胜天成软件技术有限公司 应用于集群存储系统的输出入传递方法及系统
CN106375137A (zh) * 2016-12-09 2017-02-01 国网山西省电力公司忻州供电公司 电力通信网络的节点故障检测方法
CN107678891A (zh) * 2017-10-13 2018-02-09 郑州云海信息技术有限公司 一种存储系统的双控方法、装置及可读存储介质
CN107678891B (zh) * 2017-10-13 2021-06-29 郑州云海信息技术有限公司 一种存储系统的双控方法、装置及可读存储介质
CN111566575A (zh) * 2017-12-04 2020-08-21 法国航空公司 预测组件的一个或多个设备项工作异常的方法
CN111566575B (zh) * 2017-12-04 2023-08-15 法国航空公司 预测组件的一个或多个设备项工作异常的方法
CN108897644A (zh) * 2018-06-22 2018-11-27 山东超越数控电子股份有限公司 一种双控制器故障处理方法与系统
CN109117294A (zh) * 2018-07-16 2019-01-01 上交所技术有限责任公司 适用于证券交易系统的故障检测方法及装置
CN109117294B (zh) * 2018-07-16 2022-04-19 上交所技术有限责任公司 适用于证券交易系统的故障检测方法及装置
CN108833213B (zh) * 2018-08-08 2022-02-22 迈普通信技术股份有限公司 一种以太网链路检测方法及装置
CN108833213A (zh) * 2018-08-08 2018-11-16 迈普通信技术股份有限公司 一种以太网链路检测方法及装置
CN109117323A (zh) * 2018-08-31 2019-01-01 中国电子科技集团公司第二十研究所 一种双机热备系统中的主备切换方法
CN110119111A (zh) * 2019-02-26 2019-08-13 北京龙鼎源科技股份有限公司 通信方法及装置、存储介质、电子装置
CN112230625A (zh) * 2020-10-30 2021-01-15 北京汽车研究总院有限公司 智能驾驶控制器的车辆控制方法及存储介质与计算机设备
CN112911185A (zh) * 2021-01-18 2021-06-04 浙江大华技术股份有限公司 一种双控设备故障处理方法及装置
CN113868086A (zh) * 2021-09-28 2021-12-31 东风电子科技股份有限公司 实现针对双芯片通信状态进行监控及恢复的方法、装置、处理器及其计算机可读存储介质

Also Published As

Publication number Publication date
CN101465769B (zh) 2011-01-19

Similar Documents

Publication Publication Date Title
CN101465769B (zh) 双控制器磁盘阵列的动态故障检测系统
US20030079154A1 (en) Mothed and apparatus for improving software availability of cluster computer system
US20210200616A1 (en) Multi-factor cloud service storage device error prediction
US9456365B2 (en) Virtualized wireless communication system and establishing method thereof
CN104123198A (zh) 管理数据复制模式的方法和装置
Liu et al. Software rejuvenation based fault tolerance scheme for cloud applications
WO2023000611A1 (zh) 数据存储方法、系统、装置、介质与电子设备
Hoffmann et al. Advanced failure prediction in complex software systems
US10732873B1 (en) Timeout mode for storage devices
CN107766181B (zh) 一种基于PCIe非透明桥的双控制器存储高可用子系统
JP7191059B2 (ja) ストレージシステムおよびストレージシステムの分析方法
US11563671B2 (en) Routing engine switchover based on health determined by support vector machine
CN111027591A (zh) 一种面向大规模集群系统的节点故障预测方法
CN111225302B (zh) 基于虚拟化技术的卫星接收站监控系统
CN106534262A (zh) 一种网络信息系统故障的切换方法
CN103718536A (zh) 用于为冗余组件供电的系统和方法
US10904778B1 (en) Detection and deduction of urgent messages in low power and lossy networks
US8935695B1 (en) Systems and methods for managing multipathing configurations for virtual machines
CN108196985A (zh) 一种基于智能预测的存储系统故障预测方法与装置
CN103390429B (zh) 一种硬盘的在线检测方法及服务器
CN114244692A (zh) 一种适用于超大规模互连网络的故障快速定位方法
CN112463521B (zh) 一种提升串行高速总线设备可靠性的容错方法、装置
CN114595000B (zh) 一种面向边缘智能的高弹性多节点协同模型卸载方法
US20230315954A1 (en) Method and device for dynamic failure mode effect analysis and recovery process recommendation for cloud computing applications
CN107562580A (zh) 一种计算机集成系统及故障自动切换方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110119