CN103577284A - 非透明桥芯片的异常检测与恢复方法 - Google Patents

非透明桥芯片的异常检测与恢复方法 Download PDF

Info

Publication number
CN103577284A
CN103577284A CN201310468413.8A CN201310468413A CN103577284A CN 103577284 A CN103577284 A CN 103577284A CN 201310468413 A CN201310468413 A CN 201310468413A CN 103577284 A CN103577284 A CN 103577284A
Authority
CN
China
Prior art keywords
chip
controller
dual control
normal
expander
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310468413.8A
Other languages
English (en)
Other versions
CN103577284B (zh
Inventor
冯葆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Technology Co., Ltd.
Shenzhen Innovation Technology Co., Ltd.
Original Assignee
Innovation And Technology Storage Technology Co Ltd
UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation And Technology Storage Technology Co Ltd, UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd filed Critical Innovation And Technology Storage Technology Co Ltd
Priority to CN201310468413.8A priority Critical patent/CN103577284B/zh
Publication of CN103577284A publication Critical patent/CN103577284A/zh
Application granted granted Critical
Publication of CN103577284B publication Critical patent/CN103577284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种非透明桥芯片的异常检测与恢复方法,该方法中操作系统利用底层的存储扩展固件(Expander)提供的基础信息,实时检测双控构架系统中非透明桥(NT)芯片连接是否成功,并在检测到连接异常时,执行一系列异常恢复过程,从而可以实现对NT芯片状态异常的及时获知与处理,确保系统的正常运行,并且不影响系统的正常服务。

Description

非透明桥芯片的异常检测与恢复方法
技术领域
本发明涉及存储领域,特别是涉及一种双控架构中非透明桥(Non-Transparentbridge,NT)芯片的异常检测与恢复方法。
背景技术
非透明桥(Non-Transparent bridge,NT)芯片,通常应用于PCI Express总线技术的执行高可用性系统或智能I/O模块上。NT芯片应用于存储领域时,允许系统分割地址空间,NT芯片则可用于连接两个独立的地址域。
目前为了提高存储系统的可靠性,采用双控构架的存储阵列,该系统中将会有两块存储区域,每块存储区域配置有一个控制器进行独立控制,每个控制器各配置一个操作系统进行控制管理,每个控制器配置有一个控制主板,控制主板上设置有NT芯片。利用两个控制主板上的NT芯片,可以实现双控构架的存储阵列中两个控制器间的通讯。
在实际应用中,当插拔控制器或设备上电时可能会导致NT芯片状态异常的情况发生,此时,两个控制器将无法获知对端控制器的存在,从而分别接管双控状态下对端控制器的业务,各自转入单控制器的工作模式。这样,在NT芯片发生异常时由于两个控制器均无法察觉到该异常并进行恢复,使得两个控制器各自独立工作,从而会对数据存储造成破坏,影响系统的可靠性。
发明内容
有鉴于此,本发明的主要目的在于提供一种NT芯片的异常检测与恢复方法,该方法可实现对NT芯片状态异常的及时检测与恢复,确保NT芯片所在系统的可靠性。
为了达到上述目的,本发明提出的技术方案为:
一种非透明桥芯片的异常检测与恢复方法,包括:
a、对于双控构架存储阵列中的每个控制器,该控制器的操作系统OS通过本端的存储扩展固件Expander实时检测双控NT连接是否正常;
b、当所述OS检测到所述双控NT连接不正常时,执行连接异常恢复过程;
其中,所述连接异常恢复过程包括:
所述OS判断本端控制器的NT芯片是否处于正常工作状态;
当判定所述NT芯片处于非正常工作状态时,所述OS触发对所述NT芯片进行复位,触发执行本端的NT芯片异常处理过程;
当判定所述NT芯片处于正常工作状态时,所述OS利用本端控制器的所述Expander执行本端的NT端口复位操作,并在所述NT端口复位操作完成后,检测双控NT连接是否正常,如果不正常,则触发对本端控制器的所述NT芯片进行复位,触发执行本端的所述NT芯片异常处理过程。
综上所述,本发明提出的NT芯片的异常检测与恢复方法,OS利用存储扩展固件Expander可以实现对NT芯片工作异常的实时检测与恢复,确保NT芯片所在系统的可靠性。
附图说明
图1为本发明实施例一的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:操作系统利用底层的存储扩展固件(Expander)提供的基础信息,实时检测双控构架系统中NT芯片连接是否成功,并在检测到连接异常时,执行一系列异常恢复过程,从而可以实现对NT芯片状态异常的及时获知与处理,确保系统的正常运行,并且不影响系统的正常服务。
图1为本发明实施例一的流程示意图,如图1所示,该实施例主要包括:
步骤101、对于双控构架存储阵列中的每个控制器,该控制器的操作系统OS通过本端的存储扩展固件Expander实时检测双控NT连接是否正常。
本步骤中,操作系统OS需要实时检测双控NT连接是否正常,即NT芯片作为连接两个控制器的通信桥梁是否正常工作,以便在出现异常时及时进行相应的修复处理。
这里需要说明的是,这里考虑到在现有的双控构架系统中,每个主板上都会配置有一个底层固件Expander,该Expander能判断出对端控制器(即双控制构架系统中的另一控制器)的主板是否正在工作,这样,在发现NT芯片不能与对端控制器进行正常通信时,可以利用Expander核查双控NT连接是否异常,从而可以利用Expander实现对双控NT连接状态的检测。具体地,可以采用下述方法实现对双控NT连接是否正常的检测:
OS监测本端控制器的主板是否可以与对端控制器的主板进行正常通信;如果是,则确定双控NT连接正常;否则,通过本端的Expander获知对端控制器的主板是否在工作,如果是,则确定双控NT连接不正常,否则,确定双控NT连接正常。
具体地,可以通过心跳方式对两个主板间是否可以正常通信进行实时监测,具体方法为本领域技术人员所掌握,在此不再赘述。
这里,当通过心跳发现本端主板无法跟对端主板通讯时,需要通过本端的底层固件Expander来确定对端主板是否一样在工作(即是否处于工作模式),如果对端主板没有在工作,则说明本端主板无法与对端主板进行通讯是由于对端主板没有在工作所致,此时可以视为当前双控NT连接为正常的,不需要进行异常处理。而如果对端主板在工作,则说明当前双控NT连接发生异常,此时,则需要在后续步骤102中进行相应的异常处理,确保系统的正常运行。
步骤102、当所述OS检测到所述双控NT连接不正常时,执行连接异常恢复过程。
其中,所述异常恢复过程将采用下述步骤实现:
步骤1021、所述OS判断本端控制器的NT芯片是否处于正常工作状态。
这里,具体判断方法即通过读取NT芯片的状态信息来确定NT芯片是否正常工作。
步骤1022、当判定所述NT芯片处于非正常工作状态时,所述OS触发对本端控制器的NT芯片进行复位,触发执行本端的NT芯片异常处理过程。
这里,当NT芯片的状态获取失败时,说明NT芯片本身有问题,此时,不仅需要对NT芯片本身执行复位操作,还需要执行本端的NT芯片异常处理过程,以使NT芯片恢复正常工作状态,确保对端控制器可以对本端控制器进行正常识别,以进入双控模式。
本步骤中对NT芯片本身执行复位操作的方法同现有系统,即对NT芯片的参数配置进行初始化,在此不再赘述。
本步骤中所述NT芯片异常处理过程同现有系统,包括,判断NT芯片复位是否成功,检查复位后NT芯片与对端主板的通信是否正常等操作,其作用是尽可能的使NT芯片恢复正常工作状态,在此不再赘述。
步骤1023、当判定所述NT芯片处于正常工作状态时,所述OS利用本端的所述Expander执行本端的NT端口复位操作,并在所述NT端口复位操作完成后,检测双控NT连接是否正常,如果不正常,则触发对本端控制器的所述NT芯片进行复位,触发执行本端的所述NT芯片异常处理过程。
本步骤用于在判定NT芯片处于正常工作状态时所进行的异常处理。NT芯片处于正常工作状态说明NT芯片本身没有发生问题,可能是NT端口(主板与NT芯片之间的接口)出现了问题,此时,需要执行NT端口的复位操作,并在复位结束后对双控NT连接进行检测,如果还不正常,则需要通过对NT芯片进行复位以及执行本端的NT芯片异常处理过程,来恢复两控制器之间的正常通讯。
较佳地,所述NT端口的复位操作可以采用下述步骤实现:
步骤a1、本端OS关闭本端的NT芯片接口,并通过本端和对端的Expander通知对端OS。
这里,具体的通知方法为:本端OS通过本端Expander将本端的NT芯片接口关闭的信息通知给对端Expander,对端Expander根据该通知更新其保存的对端NT芯片接口状态,对端OS根据自身端的Expander的所述保存获知另一端控制器的NT芯片接口关闭。
步骤a2、所述对端OS根据所述通知,关闭自身所在端的NT芯片接口,并通过自身所在端的Expander通知所述本端OS。
步骤a3、每个所述OS重新开启自身所在端的NT芯片接口。
本步骤中,每个所述OS在获知对端NT芯片接口关闭后,重新开启本端的NT芯片接口,以进行两控制器间的正常通讯。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种非透明桥芯片的异常检测与恢复方法,其特征在于,包括:
a、对于双控构架存储阵列中的每个控制器,该控制器的操作系统OS通过本端的存储扩展固件Expander实时检测双控NT连接是否正常;
b、当所述OS检测到所述双控NT连接不正常时,执行连接异常恢复过程;
其中,所述连接异常恢复过程包括:
所述OS判断本端控制器的NT芯片是否处于正常工作状态;
当判定所述NT芯片处于非正常工作状态时,所述OS触发对所述NT芯片进行复位,触发执行本端的NT芯片异常处理过程;
当判定所述NT芯片处于正常工作状态时,所述OS利用本端控制器的所述Expander执行本端的NT端口复位操作,并在所述NT端口复位操作完成后,检测双控NT连接是否正常,如果不正常,则触发对本端控制器的所述NT芯片进行复位,触发执行本端的所述NT芯片异常处理过程。
2.根据权利要求1所述的方法,其特征在于,所述NT端口的复位操作包括:
所述OS关闭本端的NT芯片接口,并通过本端和对端控制器的所述Expander通知对端OS;
所述对端OS根据所述通知关闭自身所在端的NT芯片接口,并通过自身所在端的所述Expander通知另一端控制器的所述OS;
每个所述OS重新开启自身所在端的NT芯片接口。
3.根据权利要求1所述的方法,其特征在于,步骤a中所述检测双控NT连接是否正常包括:
所述OS监测本端控制器的主板是否可以与对端控制器的主板进行正常通信;如果是,则确定双控NT连接正常;否则,通过本端的所述Expander获知对端控制器的主板是否在工作,如果是,则确定双控NT连接不正常,否则,确定双控NT连接正常。
CN201310468413.8A 2013-10-09 2013-10-09 非透明桥芯片的异常检测与恢复方法 Active CN103577284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310468413.8A CN103577284B (zh) 2013-10-09 2013-10-09 非透明桥芯片的异常检测与恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310468413.8A CN103577284B (zh) 2013-10-09 2013-10-09 非透明桥芯片的异常检测与恢复方法

Publications (2)

Publication Number Publication Date
CN103577284A true CN103577284A (zh) 2014-02-12
CN103577284B CN103577284B (zh) 2016-08-17

Family

ID=50049116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310468413.8A Active CN103577284B (zh) 2013-10-09 2013-10-09 非透明桥芯片的异常检测与恢复方法

Country Status (1)

Country Link
CN (1) CN103577284B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354594A (zh) * 2016-08-26 2017-01-25 浪潮(北京)电子信息产业有限公司 多控制器通信的容错方法、装置及ntb设备
CN108664361A (zh) * 2017-03-27 2018-10-16 杭州宏杉科技股份有限公司 Pcie非透明通道修复方法及装置
CN109245950A (zh) * 2018-11-01 2019-01-18 郑州云海信息技术有限公司 一种链路失效位置确定的方法以及相关装置
CN109254887A (zh) * 2018-09-25 2019-01-22 郑州云海信息技术有限公司 一种ntb故障检测方法及系统
CN109408454A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种芯片管理的方法以及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645029A (zh) * 2008-08-07 2010-02-10 英业达股份有限公司 周边连接接口的测试系统及其测试方法
US20110238909A1 (en) * 2010-03-29 2011-09-29 Pankaj Kumar Multicasting Write Requests To Multiple Storage Controllers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645029A (zh) * 2008-08-07 2010-02-10 英业达股份有限公司 周边连接接口的测试系统及其测试方法
US20110238909A1 (en) * 2010-03-29 2011-09-29 Pankaj Kumar Multicasting Write Requests To Multiple Storage Controllers

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354594A (zh) * 2016-08-26 2017-01-25 浪潮(北京)电子信息产业有限公司 多控制器通信的容错方法、装置及ntb设备
CN108664361A (zh) * 2017-03-27 2018-10-16 杭州宏杉科技股份有限公司 Pcie非透明通道修复方法及装置
CN108664361B (zh) * 2017-03-27 2021-07-16 杭州宏杉科技股份有限公司 Pcie非透明通道修复方法及装置
CN109254887A (zh) * 2018-09-25 2019-01-22 郑州云海信息技术有限公司 一种ntb故障检测方法及系统
CN109245950A (zh) * 2018-11-01 2019-01-18 郑州云海信息技术有限公司 一种链路失效位置确定的方法以及相关装置
CN109408454A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种芯片管理的方法以及相关装置
CN109245950B (zh) * 2018-11-01 2021-09-17 郑州云海信息技术有限公司 一种链路失效位置确定的方法以及相关装置
CN109408454B (zh) * 2018-11-01 2021-10-22 郑州云海信息技术有限公司 一种芯片管理的方法以及相关装置

Also Published As

Publication number Publication date
CN103577284B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
US8468389B2 (en) Firmware recovery system and method of baseboard management controller of computing device
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN103577284A (zh) 非透明桥芯片的异常检测与恢复方法
CN109284207A (zh) 硬盘故障处理方法、装置、服务器和计算机可读介质
US9734015B2 (en) Pre-boot self-healing and adaptive fault isolation
CN103491134B (zh) 一种监控容器的方法、装置与代理服务系统
CN105388982B (zh) 多处理器上电复位电路
US8527788B2 (en) Network wake up system with protection function
CN106936616A (zh) 备份通信方法和装置
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
TWI576706B (zh) 用於早期啟動階段之方法及相關裝置
CN104834575A (zh) 一种固件恢复方法及装置
CN103955414A (zh) USB Host故障自恢复的方法及装置
CN109358893A (zh) 一种fpga程序的在线升级方法、装置及系统
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
CN107729190B (zh) 一种io路径故障转移处理方法和系统
US20230289249A1 (en) Detecting and recovering from fatal storage errors
CN104734904B (zh) 旁路设备的自动测试方法及系统
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN101178678A (zh) 一种flash的写操作处理方法、系统及设备
WO2023065601A1 (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN106559288A (zh) 一种基于icmp报文的快速故障检测方法
CN102662787A (zh) 一种保护系统盘raid的方法
CN105119765A (zh) 一种智能处理故障体系架构
CN105224416B (zh) 修复方法及相关电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518057 Shenzhen Software Park, No. 9, 501, 502, Science and Technology Middle Road, Nanshan District, Shenzhen City, Guangdong Province

Co-patentee after: Innovation Technology Co., Ltd.

Patentee after: Shenzhen Innovation Technology Co., Ltd.

Address before: 518057 Shenzhen Software Park, No. 9, 501, 502, Science and Technology Middle Road, Nanshan District, Shenzhen City, Guangdong Province

Co-patentee before: Innovation and Technology Storage Technology Co., Ltd.

Patentee before: UIT Storage Technology (Shenzhen) Co., Ltd.

CP01 Change in the name or title of a patent holder