CN110740066B - 一种席位不变的跨机故障迁移方法和系统 - Google Patents

一种席位不变的跨机故障迁移方法和系统 Download PDF

Info

Publication number
CN110740066B
CN110740066B CN201911041649.7A CN201911041649A CN110740066B CN 110740066 B CN110740066 B CN 110740066B CN 201911041649 A CN201911041649 A CN 201911041649A CN 110740066 B CN110740066 B CN 110740066B
Authority
CN
China
Prior art keywords
unit
server unit
server
standby
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911041649.7A
Other languages
English (en)
Other versions
CN110740066A (zh
Inventor
韩琼
尚晓东
吴磊
孙大东
张明庆
陈卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201911041649.7A priority Critical patent/CN110740066B/zh
Publication of CN110740066A publication Critical patent/CN110740066A/zh
Application granted granted Critical
Publication of CN110740066B publication Critical patent/CN110740066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种席位不变的跨机故障迁移系统,其中,包括:A服务器的第一个服务器单元为活动服务器单元,B服务器第一个服务器单元为备用服务器单元;活动服务器单元后台定时保存虚拟机内存快照,备用服务器单元通过不断发送心跳包对活动服务器单元进行监测,当检测到网络断开时,启动另一虚拟机恢复最近成功保存的虚拟机快照,备用服务器单元向A服务器的共享存储单元上的远程桌面管理软件发送远程桌面请求,将备用服务器单元的界面远程显示到共享存储单元上,将共享存储单元的显示、USB以及串口迁移至故障服务器单元的座席,从而实现座席不变和状态恢复。

Description

一种席位不变的跨机故障迁移方法和系统
技术领域
本发明涉及一种国产处理器的多单元服务器故障维护技术,特别涉及一种席位不变的跨机故障迁移方法和系统。
背景技术
随着国家对自主可控产业的逐步推进和大力扶持,基于国产处理器的多单元服务器开始在各领域推广应用。然而,目前国产多单元服务器普遍存在硬件稳定性不高、故障频发等问题,严重影响自主可控服务器在高可靠要求场景中的应用。
目前,国产多单元服务器的故障迁移主要是对应用服务进行迁移,主要方法是搭建服务集群,集群上运行高可用集群软件。当服务器某个单元硬件或应用程序出现故障时,其他服务器单元自动重新启动应用程序,从而达到故障迁移的目的。
采用高可用集群方式的故障迁移仅适用于应用服务的故障迁移,迁移时应用服务需重新执行,无法保证运行状态的连续性;且迁移后无法保持外接设备连接关系不变。
发明内容
本发明的目的在于提供一种席位不变的跨机故障迁移方法和系统,用于解决上述现有技术的问题。
本发明一种席位不变的跨机故障迁移系统,其中,包括:相互网络互连的两组国产三单元服务器A和B;每组三单元服务器包括多个服务器单元、一个共享存储单元、一个网络交换单元及一个KVM切换单元构成;该服务器单元将显示输出接口和usb接口连接到KVM切换单元上,切换单元对外提供显示输出接口、usb接口及串口;各服务器单元与KVM切换单元通过交换机单元进行互联;网络交换单元通过整机对外网络接口可连接另一台服务器的网络交换单元;A服务器的第一个服务器单元为活动服务器单元,B服务器第一个服务器单元为备用服务器单元;活动服务器单元后台定时保存虚拟机内存快照,备用服务器单元通过不断发送心跳包对活动服务器单元进行监测,当检测到网络断开时,启动另一虚拟机恢复最近成功保存的虚拟机快照,备用服务器单元向A服务器的共享存储单元上的远程桌面管理软件发送远程桌面请求,将备用服务器单元的界面远程显示到共享存储单元上,将共享存储单元的显示、USB以及串口迁移至故障服务器单元的座席,从而实现座席不变和状态恢复。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,KVM切换单元提供网络命令操作进行接口切换以及网络转串口。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,各服务器单元和共享存储单元安装国产操作系统并安装虚拟机系统。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,所有虚拟机镜像全部存储在共享存储单元上,且各服务器单元通过网络共享能够访问这些镜像。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,虚拟机系统中安装虚拟网络转串口软件。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,虚拟机系统随物理机开机自启动。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,共享存储单元上的虚拟机系统里安装远程桌面管理软件。
根据本发明的席位不变的跨机故障迁移系统的一实施例,其中,两组三单元服务器A和B能够相互访问对方的共享存储位置,该位置存放各自所有的虚拟机镜像。
本发明席位不变的跨机故障迁移的方法,其中,包括:步骤1:服务器正常启动;步骤2:设定活动服务器单元和备用服务器单元及相应的优先级;步骤3:各服务器单元检测自己所处的角色及优先级,若服务器单元角色未被设定,则进入待机状态;若服务器单元被设定为活动服务器单元,则进入第4步骤;若服务器单元被设定为备用服务器单元,则进入第5步骤;步骤4:执行定时保存虚拟机内存快照操作;步骤5:向活动服务器单元发送网络心跳包,对活动服务器单元状态进行监测,当备用服务器监测到网络中断时,进入步骤6;步骤6:备用服务器单元判定自己被设定的优先级,若备用服务器单元为第一优先级,则直接进入步骤9;若备用服务器单元为非第一优先级,则进行步骤7;步骤7:向第一优先级备用服务器单元发送心跳包,若第一优先级备用服务器单元网络不正常,则进入步骤8;若正常,则进入待机状态;步骤8:向比自己优先级高的下一优先级备用服务器单元发送心跳包,若正常,则进入待机状态;若不正常,重复此步骤,直至自己优先级最高后,进入步骤9;步骤9:备用服务器单元启动虚拟机并恢复最高优先级的故障服务器虚拟机快照;步骤10:备用服务器单元通知故障单元所在服务器的共享存储单元内的远程桌面管理程序,发起针对备用服务器单元的远程桌面请求;步骤11:完成迁移至故障服务器单元的座席。
根据本发明的跨机故障迁移的方法的一实施例,其中,步骤11包括:备用服务器单元通过网络向故障服务器单元的KVM切换单元发送KVM切换命令将共享存储单元的显示、键鼠以及串口终端迁移至故障服务器单元的座席。
本发明的提供一种席位不变的基于国产三单元服务器的跨机故障迁移方法,能够实现在一个服务器单元发生故障时,其上运行的系统、任务及其连接的显示器、键鼠、串口等外设自动迁移至另一个预先设定的另一台三单元服务器的某一单元上,并按原状态继续运行。满足操作人员座席不变、外接设备连接关系不变的需求。
附图说明
图1所示为席位不变的国产三单元服务器跨机故障迁移系统级联方式示意图;
图2所为本发明的故障迁移方法的处理流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为席位不变的国产三单元服务器跨机故障迁移系统级联方式示意图,如图1所示,本发明所述的席位不变的国产三单元服务器跨机故障迁移系统包括,相互网络互连的两组国产三单元服务器;每组三单元服务器由三个服务器单元、一个共享存储单元、一个网络交换单元及一个KVM切换单元构成,服务器单元将显示输出接口和usb接口连接到KVM切换单元上,切换单元对外提供显示输出接口、usb接口及串口等;各服务器单元与KVM切换单元通过交换机单元进行互联;网络交换单元通过整机对外网络接口可连接另一台服务器的网络交换单元。
如图1所示,KVM切换单元提供网络命令操作进行接口切换、提供网络转串口功能;各服务器单元和共享存储单元安装国产操作系统并安装虚拟机系统;所有虚拟机镜像全部存储在共享存储单元上,且各服务器单元通过网络共享能够访问这些镜像。虚拟机系统中安装虚拟网络转串口软件。虚拟机系统随物理机开机自启动;共享存储单元上的虚拟机系统里安装远程桌面管理软件。
如图1所示,工作时,两台三单元服务器A和B通过网线进行级联,且AB两服务器能够相互访问对方的共享存储位置,该位置存放各自所有的虚拟机镜像。
如图1所示,假设A服务器的第一个服务器单元A1为活动服务器单元。B服务器第一个服务器单元B1为备用服务器单元;活动服务器单元后台定时保存虚拟机内存快照,备用服务器单元通过不断发送心跳包对活动服务器单元进行监测,当检测到网络断开时,首先立即启动另一虚拟机恢复最近成功保存的虚拟机快照,其次,B1向A服务器的共享存储单元上的远程桌面管理软件发送远程桌面请求,将B1单元的界面远程显示到共享存储单元上。最后,将共享存储单元的显示、USB、串口等接口迁移至故障服务器单元A1的座席,从而实现座席不变和状态恢复。此过程中网络自动恢复连接,因此串口也自动恢复连接。通过配置管理软件,可实现一个或多个备用服务器单元监测多个或一个活动服务器单元,并按照预先设定的优先级进行故障迁移恢复。
图2所为本发明的故障迁移方法的处理流程图,如图2所示,本发明的故障迁移方法的处理流程包括以下步骤:
步骤1:服务器级联、加电、各功能单元正常启动;
步骤2:设定活动服务器单元和备用服务器单元及相应的优先级;
步骤3:各服务器单元检测自己所处的角色及优先级。若服务器单元角色未被设定,则进入待机状态;若服务器单元被设定为活动服务器单元,则进入第4步骤;若服务器单元被设定为备用服务器单元,则进入第5步骤;
步骤4:立即执行定时保存虚拟机内存快照操作;
步骤5:向活动服务器单元发送网络心跳包,对活动服务器单元状态进行监测。当备用服务器监测到网络中断时,进入下一步骤;
步骤6:备用服务器单元判定自己被设定的优先级。若备用服务器单元为第一优先级,则直接进入第9骤;若备用服务器单元为非第一优先级,则进行下一步骤;
步骤7:向第一优先级备用服务器单元发送心跳包。若第一优先级备用服务器单元网络不正常,则进入第8步骤;若正常,则进入待机状态;
步骤8:向比自己优先级高的下一优先级备用服务器单元发送心跳包,若正常,则进入待机状态;若不正常,重复此步骤,直至自己优先级最高,进入第9步骤;
步骤9:备用服务器单元启动虚拟机并恢复最高优先级的故障服务器虚拟机快照;
步骤10:备用服务器单元通知故障单元所在服务器的共享存储单元内的远程桌面管理程序,发起针对备用服务器单元的远程桌面请求。
步骤11:备用服务器单元通过网络向故障服务器单元的KVM切换单元发送KVM切换命令将共享存储单元的显示、键鼠、串口等终端迁移至故障服务器单元的座席。
本发明在实施国产三单元服务器跨机故障迁移时,关键在于虚拟机系统能够近实时进行在线内存快照,并在需要时即刻恢复最新的快照;同时,利用服务器中的存储单元作为远程桌面的显示中介,结合远程控制KVM切换单元进行接口切换,实现故障恢复且席位保持不变。
与现有技术相比,本发明提出的技术方法提高了国产服务器的运行可靠性。实现两台服务器级联情况下的故障迁移,当故障发生时,系统自动恢复故障前的所有运行状态,且外设连接关系保持不变,不对用户工作造成影响。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种席位不变的跨机故障迁移系统,其特征在于,包括:相互网络互连的两组国产三单元服务器A和B;
每组三单元服务器包括多个服务器单元、一个共享存储单元、一个网络交换单元及一个KVM切换单元;该服务器单元将显示输出接口和usb接口连接到KVM切换单元上,切换单元对外提供显示输出接口、usb接口及串口;各服务器单元与KVM切换单元通过交换机单元进行互联;网络交换单元通过整机对外网络接口可连接另一台服务器的网络交换单元;
A服务器的第一个服务器单元为活动服务器单元,B服务器第一个服务器单元为备用服务器单元;活动服务器单元后台定时保存虚拟机内存快照,备用服务器单元通过不断发送心跳包对活动服务器单元进行监测,当检测到网络断开时,启动另一虚拟机恢复最近成功保存的虚拟机快照,备用服务器单元向A服务器的共享存储单元上的远程桌面管理软件发送远程桌面请求,将备用服务器单元的界面远程显示到共享存储单元上,将共享存储单元的显示、USB以及串口迁移至故障服务器单元的坐席,从而实现坐席不变和状态恢复。
2.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,KVM切换单元提供网络命令操作进行接口切换以及网络转串口。
3.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,各服务器单元和共享存储单元安装国产操作系统并安装虚拟机系统。
4.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,所有虚拟机镜像全部存储在共享存储单元上,且各服务器单元通过网络共享能够访问这些镜像。
5.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,虚拟机系统中安装虚拟网络转串口软件。
6.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,虚拟机系统随物理机开机自启动。
7.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,共享存储单元上的虚拟机系统里安装远程桌面管理软件。
8.如权利要求1所述的席位不变的跨机故障迁移系统,其特征在于,两组三单元服务器A和B能够相互访问对方的共享存储位置,该位置存放各自所有的虚拟机镜像。
9.一种通过权利要求1-8任一系统实现席位不变的跨机故障迁移的方法,其特征在于,包括:
步骤1:服务器正常启动;
步骤2:设定活动服务器单元和备用服务器单元及相应的优先级;
步骤3:各服务器单元检测自己所处的角色及优先级,若服务器单元角色未被设定,则进入待机状态;若服务器单元被设定为活动服务器单元,则进入第4步骤;若服务器单元被设定为备用服务器单元,则进入第5步骤;
步骤4:执行定时保存虚拟机内存快照操作;
步骤5:向活动服务器单元发送网络心跳包,对活动服务器单元状态进行监测,当备用服务器监测到网络中断时,进入步骤6;
步骤6:备用服务器单元判定自己被设定的优先级,若备用服务器单元为第一优先级,则直接进入步骤9;若备用服务器单元为非第一优先级,则进行步骤7;
步骤7:向第一优先级备用服务器单元发送心跳包,若第一优先级备用服务器单元网络不正常,则进入步骤8;若正常,则进入待机状态;
步骤8:向比自己优先级高的下一优先级备用服务器单元发送心跳包,若正常,则进入待机状态;若不正常,重复此步骤,直至自己优先级最高后,进入步骤9;
步骤9:备用服务器单元启动虚拟机并恢复最高优先级的故障服务器虚拟机快照;
步骤10:备用服务器单元通知故障单元所在服务器的共享存储单元内的远程桌面管理程序,发起针对备用服务器单元的远程桌面请求;
步骤11:完成迁移至故障服务器单元的坐席。
10.如权利要求9所述的跨机故障迁移的方法,其特征在于,步骤11包括:备用服务器单元通过网络向故障服务器单元的KVM切换单元发送KVM切换命令将共享存储单元的显示、键鼠以及串口终端迁移至故障服务器单元的坐席。
CN201911041649.7A 2019-10-30 2019-10-30 一种席位不变的跨机故障迁移方法和系统 Active CN110740066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911041649.7A CN110740066B (zh) 2019-10-30 2019-10-30 一种席位不变的跨机故障迁移方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911041649.7A CN110740066B (zh) 2019-10-30 2019-10-30 一种席位不变的跨机故障迁移方法和系统

Publications (2)

Publication Number Publication Date
CN110740066A CN110740066A (zh) 2020-01-31
CN110740066B true CN110740066B (zh) 2022-07-08

Family

ID=69270461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911041649.7A Active CN110740066B (zh) 2019-10-30 2019-10-30 一种席位不变的跨机故障迁移方法和系统

Country Status (1)

Country Link
CN (1) CN110740066B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714185B (zh) * 2020-12-30 2022-03-18 威创集团股份有限公司 一种接入坐席系统
CN115208843B (zh) * 2022-07-13 2023-06-30 天津津航计算技术研究所 一种板级国产交换机级联实现系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7721138B1 (en) * 2004-12-28 2010-05-18 Acronis Inc. System and method for on-the-fly migration of server from backup
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN103605562A (zh) * 2013-12-10 2014-02-26 浪潮电子信息产业股份有限公司 一种kvm虚拟机在物理主机之间迁移的方法
CN107547260A (zh) * 2017-07-24 2018-01-05 杭州沃趣科技股份有限公司 一种长距infiniband链路检测切换修复的方法
CN108255639A (zh) * 2017-12-12 2018-07-06 深圳市科思科技股份有限公司 一种服务器系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100146592A1 (en) * 2008-12-04 2010-06-10 Dell Products L. P. Systems and methods for providing session continuity across a chassis management controller failover

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7721138B1 (en) * 2004-12-28 2010-05-18 Acronis Inc. System and method for on-the-fly migration of server from backup
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN103605562A (zh) * 2013-12-10 2014-02-26 浪潮电子信息产业股份有限公司 一种kvm虚拟机在物理主机之间迁移的方法
CN107547260A (zh) * 2017-07-24 2018-01-05 杭州沃趣科技股份有限公司 一种长距infiniband链路检测切换修复的方法
CN108255639A (zh) * 2017-12-12 2018-07-06 深圳市科思科技股份有限公司 一种服务器系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于VMware的高可用性集群在电力信息系统中的应用;耿新民等;《上海电力学院学报》;20100415(第02期);全文 *

Also Published As

Publication number Publication date
CN110740066A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
US6622261B1 (en) Process pair protection for complex applications
CN103346903A (zh) 一种双机备份的方法和装置
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
CN103019889A (zh) 分布式文件系统及其故障处理方法
KR20010062749A (ko) 정보 처리 장치 등의 원격 전력 관리 시스템
CN105159798A (zh) 一种虚拟机的双机热备方法、双机热备管理服务器和系统
CN109471759B (zh) 一种基于sas双控设备的数据库故障切换方法及设备
CN110740066B (zh) 一种席位不变的跨机故障迁移方法和系统
CN103532753A (zh) 一种基于内存换页同步的双机热备方法
CN111767244A (zh) 基于国产龙芯平台的双冗余计算机设备
CN104010034A (zh) 一种高可用集群关于组依赖的管理方法
CN104484243A (zh) 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
CN108469996A (zh) 一种基于自动快照的系统高可用方法
US6954884B2 (en) System and method for effecting recovery of a network
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN113438111A (zh) 基于Raft分布式恢复RabbitMQ网络分区的方法及应用
CN110752955A (zh) 一种席位不变故障迁移系统和方法
CN111221683A (zh) 数据中心交换机双flash热备份方法、系统、终端及存储介质
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
CN113535471A (zh) 集群服务器
CN112667428A (zh) Bmc故障处理电路、方法、装置、电子设备及存储介质
US20150301911A1 (en) Information processing apparatus, control method for information processing apparatus, and computer-readable recording medium
CN111026586B (zh) 一种集群设备的主备状态切换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant