CN116225835A - 云主机持续可用的方法、装置、电子设备及存储介质 - Google Patents

云主机持续可用的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116225835A
CN116225835A CN202211703697.XA CN202211703697A CN116225835A CN 116225835 A CN116225835 A CN 116225835A CN 202211703697 A CN202211703697 A CN 202211703697A CN 116225835 A CN116225835 A CN 116225835A
Authority
CN
China
Prior art keywords
value
threshold
memory
difference
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211703697.XA
Other languages
English (en)
Inventor
孙国斌
周涛
陶亚辉
周晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Best Tone Information Service Corp Ltd
Original Assignee
Best Tone Information Service Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Best Tone Information Service Corp Ltd filed Critical Best Tone Information Service Corp Ltd
Priority to CN202211703697.XA priority Critical patent/CN116225835A/zh
Publication of CN116225835A publication Critical patent/CN116225835A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种云主机持续可用的方法、装置、电子设备及存储介质。云主机持续可用方法包括步骤:S1、采样测试模块获取服务器内存CE值;S2、采样收集模块负责周期性的收集采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比;S3、预警提醒模块按照预设CE值判断逻辑判断内存预故障,触发预警提醒阈值时发送告警,触发迁移管理模块发送云主机热迁移指令;S4、迁移管理模块收到预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。依据本发明云主机持续可用的方法可以提前规避当内存真正故障时带来的系统宕机,保证业务的连续可用。

Description

云主机持续可用的方法、装置、电子设备及存储介质
技术领域
本发明涉及IT与软件开发领域,具体而言,涉及一种基于EDAC的云主机持续可用的方法、装置、电子设备及存储介质。
背景技术
EDAC(Error Detection And Correction,错误检测与纠正)是现今操作系统的纠正错误和检测框架,主要目的在于当操作系统在运行的过程中,能够发现并且报告出发现的硬件错误。
CE(correctable error)指可纠正的错误,服务器会对内存中错误的数据进行修复,判断内存的健康状态通常就是通过CE值得大小并结合基准数来做判断。
现如今用上公有云的企业越来越多,公有云服务厂商的底层宿主机的规模越来越大,随之而来的底层宿主机故障率也呈指数级增长,经统计服务器硬件故障率中,排在高故障率前三位的硬件有:硬盘,电源,内存。而其中硬盘有raid阵列技术提供冗余支撑,一般硬盘故障不会对在运行的宿主机产生影响,宿主机电源也有多电源作为冗余提供保障。内存作为没有冗余硬件技术提供支撑的高故障率配件,如果内存一但出现故障,随之系统就会产生系统宕机,主机奔溃,主机蓝屏等各种异常现象,随即宿主机上的业务即停止服务。若运行云主机的宿主机发生内存故障后,故障宿主机上的云主机将会无法正常运行操作系统,严重的内存故障会导致宿主机重启,云主机将发生冷迁移至其余集群中正常的宿主机中,导致业务中断,影响业务连续可用。现有的宿主机内存故障告警获取手段大多都是通过服务器的BMC的硬件状态记录的,当BMC中告警时内存实际已存在不可用及已经故障的现象,导致故障处理十分被动。
因此,如何能够提早发现内存故障,成为目前亟需解决的一个问题。
发明内容
本发明要解决的技术问题是如何能够提早发现宿主机内存故障,在内存发生无法正常使用前,提前进行预警提醒,同时,若判定为预故障内存后,可以自动将宿主机上的云主机热迁移至集群中正常的宿主机上,保证业务的连续可用。
为解决上述技术问题,根据本发明的一个方面,提供一种云主机持续可用的方法,方法基于云主机持续可用的装置实现,装置包括采样测试模块、采样收集模块、预警提醒模块和迁移管理模块。云主机持续可用的方法包括如下步骤:S1、采样测试模块获取服务器内存CE值,采样测试模块负责周期性的获取宿主机上的系统内存信息及对应宿主机内存槽位信息,周期性的获取每根内存所对应的CE值,并将内存基础信息与CE值信息作匹配;S2、采样收集模块负责周期性的收集采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比;S3、预警提醒模块按照预设CE值判断逻辑,判断逻辑通过CE差值对比和CE值累计总和两个维度来进行判断,在CE差值或CE值累计总和达到触发预警提醒阈值时发送告警,判断内存为预故障、触发迁移管理模块发送云主机热迁移指令;S4、迁移管理模块收到预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。
根据本发明的实施例,采样收集模块中设置CE差值第一阈值和CE差值第二阈值,其中,CE差值第一阈值小于CE差值第二阈值,其中,采样收集模块负责周期性的CE差值计算,采样收集模块对每次收集的CE差值与设定的CE差值第一阈值、CE差值第二阈值进行对比,其中,若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内;若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中;若获取的CE差值大于CE差值第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
进一步地,观察验证在用同品牌或批次的内存故障时的CE值,确定故障CE差值,CE差值第一阈值为故障CE差值的50~70%,优选55~65%,更优选60%;CE差值第二阈值为故障CE差值的75~90%,优选78~95%,更优选80%。
根据本发明的实施例,在采样收集模块中设置CE总和第一阈值和CE总和第二阈值,其中,CE总和第一阈值小于CE总和第二阈值,其中,采样收集模块负责周期性的CE值总和计算,采样收集模块对每次计算的获取的CE值总和与设定的CE值总和第一阈值、CE值总和第二阈值进行对比,其中,若获取的CE值总和小于CE值总和第一阈值,表示获取的CE总和的变化在正常范围内;若获取的CE值总和大于CE值总和第一阈值小于CE总和第二阈值,表示获取的CE总和的变化超出正常范围,则列入观察列表中;若获取的CE值总和大于CE值总和第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
进一步地,观察验证在用同品牌或批次的内存故障时的CE值,确定故障CE值总和,CE值总和第一阈值为故障CE值总和的50~70%,优选55~65%,更优选60%;CE值总和第二阈值为故障CE值总和的75~90%,优选78~95%,更优选80%。
根据本发明的实施例,步骤S4包括如下步骤:S41、针对迁移管理模块热迁移云主机操作,首先获取内存CE值大于第二阈值的宿主机IP地址;S42、通过宿主机IP地址获取宿主机上正在运行的所有云主机列表;S43、通过迁移管理模块向预故障内存虚拟化集群发送指令,对云主机进行逐台热迁移至集群正常宿主机上;S44、检测云主机迁移任务是否成功,若成功则继续下一台,直至全部热迁移完成,若任务失败则发送告警,后续进行人为干预。
进一步地,步骤S4还包括:
S45.将记录的预内存故障宿主机信息进行内存报修,待云主机迁移完成后,进行内存的故障维修。
根据本发明的第二个方面,提供一种云主机持续可用的装置,包括:采样测试模块,采样测试模块获取服务器内存CE值,采样测试模块负责周期性的获取宿主机上的系统内存信息及对应宿主机内存槽位信息,周期性的获取每根内存所对应的CE值,并将内存基础信息与CE值信息作匹配;采样收集模块,采样收集模块负责周期性的收集采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比;预警提醒模块,预警提醒模块按照预设CE值判断逻辑,判断逻辑通过CE差值对比和CE值累计总和两个维度来进行判断,在CE差值或CE值累计总和达到触发预警提醒阈值时发送告警,判断内存为预故障、触发迁移管理模块发送云主机热迁移指令;迁移管理模块,迁移管理模块收到预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。其中,采样收集模块中设置CE差值第一阈值和CE差值第二阈值,其中,CE差值第一阈值小于CE差值第二阈值,采样收集模块负责周期性的CE差值计算,采样收集模块对每次收集的CE差值与设定的CE差值第一阈值、CE差值第二阈值进行对比,其中,若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内;若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中;若获取的CE差值大于CE差值第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。其中,在采样收集模块中设置CE总和第一阈值和CE总和第二阈值,其中,CE总和第一阈值小于CE总和第二阈值,采样收集模块负责周期性的CE值总和计算,采样收集模块对每次计算的获取的CE值总和与设定的CE值总和第一阈值、CE值总和第二阈值进行对比,其中,若获取的CE值总和小于CE值总和第一阈值,表示获取的CE总和的变化在正常范围内;若获取的CE值总和大于CE值总和第一阈值小于CE总和第二阈值,表示获取的CE总和的变化超出正常范围,则列入观察列表中;若获取的CE值总和大于CE值总和第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的云主机持续可用程序,云主机持续可用程序被处理器执行时实现上述的云主机持续可用方法的步骤。
根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有云主机持续可用程序,云主机持续可用程序被处理器执行时实现上述的云主机持续可用方法的步骤。
与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:
本发明通过检测获取宿主机内存运行状态,获取内存CE值判断是否会将要发生故障,来提前规避当内存真正故障时带来的系统宕机,宿主机重启等影响业务的异常现象。结合虚拟化热迁移技术提前将云主机运行无间断的迁出预故障宿主机。
本发明可以避免大部分宿主机宕机故障场景,泛用性很广,部署简单,对于需要持续可用连续性的业务,如金融行业,公共服务行业等可以极大的避免重大故障发生,提升数据安全,系统稳定,保证业务的最大可用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1是示出根据本发明实施例的云主机持续可用的方法流程图;
图2是示出根据本发明实施例的预警提醒判断逻辑图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
图1是示出根据本发明实施例的云主机持续可用的方法流程图。
如图1所示,云主机持续可用的方法,方法基于云主机持续可用的装置实现,装置包括采样测试模块、采样收集模块、预警提醒模块和迁移管理模块。
云主机持续可用的方法包括如下步骤:
S1、采样测试模块获取服务器内存CE值,采样测试模块负责周期性的获取宿主机上的系统内存信息及对应宿主机内存槽位信息,周期性的获取每根内存所对应的CE值,并将内存基础信息与CE值信息作匹配。
S2、采样收集模块负责周期性的收集采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比。
S3、预警提醒模块按照预设CE值判断逻辑,判断逻辑通过CE差值对比和CE值累计总和两个维度来进行判断,在CE差值或CE值累计总和达到触发预警提醒阈值时发送告警,判断内存为预故障、触发迁移管理模块发送云主机热迁移指令。
S4、迁移管理模块收到预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。
本发明通过检测获取宿主机内存运行状态,获取内存CE值判断是否会将要发生故障,来提前规避当内存真正故障时带来的系统宕机,宿主机重启等影响业务的异常现象。结合虚拟化热迁移技术提前将云主机运行无间断的迁出预故障宿主机。
图2是示出根据本发明实施例的预警提醒判断逻辑图。
如图2所示,采样收集模块中设置CE差值第一阈值和CE差值第二阈值,其中,CE差值第一阈值小于CE差值第二阈值,其中,采样收集模块负责周期性的CE差值计算,采样收集模块对每次收集的CE差值与设定的CE差值第一阈值、CE差值第二阈值进行对比:
若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内;若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中;若获取的CE差值大于CE差值第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
进一步地,观察验证在用同品牌或批次的内存故障时的CE值,确定故障CE差值,CE差值第一阈值为故障CE差值的50~70%,优选55~65%,更优选60%;CE差值第二阈值为故障CE差值的75~90%,优选78~95%,更优选80%。
根据本发明的一个或一些实施例,在采样收集模块中设置CE总和第一阈值和CE总和第二阈值,其中,CE总和第一阈值小于CE总和第二阈值,其中,采样收集模块负责周期性的CE值总和计算,采样收集模块对每次计算的获取的CE值总和与设定的CE值总和第一阈值、CE值总和第二阈值进行对比:
若获取的CE值总和小于CE值总和第一阈值,表示获取的CE总和的变化在正常范围内;若获取的CE值总和大于CE值总和第一阈值小于CE总和第二阈值,表示获取的CE总和的变化超出正常范围,则列入观察列表中;若获取的CE值总和大于CE值总和第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
进一步地,观察验证在用同品牌或批次的内存故障时的CE值,确定故障CE值总和,CE值总和第一阈值为故障CE值总和的50~70%,优选55~65%,更优选60%;CE值总和第二阈值为故障CE值总和的75~90%,优选78~95%,更优选80%。
根据本发明的一个或一些实施例,步骤S4包括如下步骤:
S41、针对迁移管理模块热迁移云主机操作,首先获取内存CE值大于第二阈值的宿主机IP地址。
S42、通过宿主机IP地址获取宿主机上正在运行的所有云主机列表。
S43、通过迁移管理模块向预故障内存虚拟化集群发送指令,对云主机进行逐台热迁移至集群正常宿主机上。
S44、检测云主机迁移任务是否成功,若成功则继续下一台,直至全部热迁移完成。若任务失败则发送告警,后续进行人为干预。
S45.将记录的预内存故障宿主机信息进行内存报修,待云主机迁移完成后,进行内存的故障维修。
根据本发明的第二个方面,提供一种云主机持续可用的装置,其包括:采样测试模块、采样收集模块、预警提醒模块和迁移管理模块。
采样测试模块,采样测试模块获取服务器内存CE值,采样测试模块负责周期性的获取宿主机上的系统内存信息及对应宿主机内存槽位信息,周期性的获取每根内存所对应的CE值,并将内存基础信息与CE值信息作匹配;
采样收集模块,采样收集模块负责周期性的收集采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比;
预警提醒模块,预警提醒模块按照预设CE值判断逻辑,判断逻辑通过CE差值对比和CE值累计总和两个维度来进行判断,在CE差值或CE值累计总和达到触发预警提醒阈值时发送告警,判断内存为预故障、触发迁移管理模块发送云主机热迁移指令;
迁移管理模块,迁移管理模块收到预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。
其中,采样收集模块中设置CE差值第一阈值和CE差值第二阈值,其中,CE差值第一阈值小于CE差值第二阈值,采样收集模块负责周期性的CE差值计算,采样收集模块对每次收集的CE差值与设定的CE差值第一阈值、CE差值第二阈值进行对比,其中,若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内;若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中;若获取的CE差值大于CE差值第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作,
其中,在采样收集模块中设置CE总和第一阈值和CE总和第二阈值,其中,CE总和第一阈值小于CE总和第二阈值,采样收集模块负责周期性的CE值总和计算,采样收集模块对每次计算的获取的CE值总和与设定的CE值总和第一阈值、CE值总和第二阈值进行对比,其中,若获取的CE值总和小于CE值总和第一阈值,表示获取的CE总和的变化在正常范围内;若获取的CE值总和大于CE值总和第一阈值小于CE总和第二阈值,表示获取的CE总和的变化超出正常范围,则列入观察列表中;若获取的CE值总和大于CE值总和第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
本发明可以避免大部分宿主机宕机故障场景,泛用性很广,部署简单,对于需要持续可用连续性的业务,如金融行业,公共服务行业等可以极大的避免重大故障发生,提升数据安全,系统稳定,保证业务的最大可用性。
使用时,宿主机内存采样通过linux的EDAC框架工具获取每台宿主机的具体内存CE值参数。每台宿主机需部署edac-utils工具,并确认宿主机CPU硬件架构,安装匹配的驱动模块。
采样测试模块可以模拟错误数据写入进行模拟测试。
采样测试模块的信息采集可以采用通用型的监控agent作为代理,通过正则表达式针对相应的格式筛选,获取内存的CE数值。采样测试模块负责周期性的获取宿主机上的系统内存信息及对应的内存槽位信息。采样测试模块负责周期性的获取每根内存所对应的CE值。并将内存基础信息与CE值信息作匹配。
判断内存硬件状态可以通过两个维度进行判断,前一次和后一次获取的CE值的差值的大小差异,和每根内存CE值的累计总和。
采样收集模块负责周期性的收集CE差值计算。通过在采样收集模块中配置相关策略,对于内存CE值获取后的差值差异的大小做出对应的策略操作。
采样收集模块中设定CE差值第一阈值及第二阈值,阈值的设置得根据实际硬件情况作相应调整,无绝对的适配数值,每个厂家的硬件体质及质量都是有所差异的,先期可以进行阈值基准统计与收集,观察验证在用同品牌或批次的内存故障时的CE值为多少,已此值为基准设定第二阈值。一般为故障CE值的80%。第一阈值则为故障CE值的60%。利用调整至适合自己硬件的阈值后进行第一阈值和第二阈值的设定。
获取CE数值后对每次计算的CE差值进行对比,若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内。
若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中,并发出告警。告警形式可以通过短信,邮件等各种形式进行配置。
若获取的CE差值大于CE差值第二阈值,表示内存预故障,记录宿主机IP地址,预故障内存槽位信息,并发出告警信息,告警方式如上也可以自定义配置。并且在迁移管理模块中发送进行云主机热迁移操作指令,操作指令可以通过调用虚拟化集群API接口进行云主机热迁移操作。
采样收集模块负责周期性的收集CE值总和的计算。通过在采样收集模块中配置相关策略,对于内存CE值总和获取后的总和大小做出对应的策略操作。
采样收集模块中设定CE值总和第一阈值及第二阈值。对每次计算的获取的CE值总和进行对比,若获取的CE值总和小于CE值总和第一阈值,表示获取的CE值总和的变化在正常范围内。
若获取的CE值总和大于CE值总和第一阈值小于CE值总和第二阈值,表示获取的CE值总和的变化超出正常范围,则列入观察列表中,并发出告警。告警形式可以通过短信,邮件等各种形式进行配置。
若获取的CE值总和大于CE值总和第二阈值,表示内存预故障,记录宿主机IP地址,预故障内存槽位信息,并发出告警信息,告警方式如上也可自定义配置。并且在迁移管理模块中发送进行云主机热迁移操作指令,操作指令可以通过调用虚拟化集群API接口进行云主机热迁移操作。
针对上述迁移管理模块热迁移云主机操作,首先获取大于第二阈值的宿主机IP地址。
通过宿主机IP地址获取宿主机上正在运行的所有云主机列表。
通过迁移管理模块向预故障宿主机所在的虚拟化集群调用API接口发送指令,对云主机进行逐台热迁移。
检测云主机迁移任务是否成功,若成功则继续下一台,直至全部热迁移完成。若任务失败则发送告警,后续进行人为干预。
将记录的预内存故障宿主机信息进行内存报修,待云主机迁移完成后,进行内存的故障维修。
根据本发明的又一方面,提供一种云主机持续可用的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的云主机持续可用程序,云主机持续可用程序被处理器执行时实现上述的云主机持续可用方法的步骤。
根据本发明还提供一种计算机存储介质。
计算机存储介质上存储有云主机持续可用程序,云主机持续可用程序被处理器执行时实现上述的云主机持续可用方法的步骤。
其中,在所述处理器上运行的云主机持续可用程序被执行时所实现的方法可参照本发明云主机持续可用方法各个实施例,此处不再赘述。
本发明还提供一种计算机程序产品。
本发明计算机程序产品包括云主机持续可用程序,所述云主机持续可用程序被处理器执行时实现如上所述的云主机持续可用方法的步骤。
其中,在所述处理器上运行的云主机持续可用程序被执行时所实现的方法可参照本发明云主机持续可用方法各个实施例,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。

Claims (10)

1.一种云主机持续可用的方法,所述方法基于云主机持续可用的装置实现,所述装置包括采样测试模块、采样收集模块、预警提醒模块和迁移管理模块,
所述云主机持续可用的方法包括如下步骤:
S1、所述采样测试模块获取服务器内存CE值,采样测试模块负责周期性的获取宿主机上的系统内存信息及对应宿主机内存槽位信息,周期性的获取每根内存所对应的CE值,并将内存基础信息与CE值信息作匹配;
S2、所述采样收集模块负责周期性的收集所述采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比;
S3、所述预警提醒模块按照预设CE值判断逻辑,所述判断逻辑通过CE差值对比和CE值累计总和两个维度来进行判断,在CE差值或CE值累计总和达到触发预警提醒阈值时发送告警,判断内存为预故障、触发迁移管理模块发送云主机热迁移指令;
S4、所述迁移管理模块收到所述预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。
2.如权利要求1所述的方法,其中,所述采样收集模块中设置CE差值第一阈值和CE差值第二阈值,其中,所述CE差值第一阈值小于所述CE差值第二阈值,
其中,采样收集模块负责周期性的CE差值计算,所述采样收集模块对每次收集的CE差值与设定的所述CE差值第一阈值、CE差值第二阈值进行对比,
其中,若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内;若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中;若获取的CE差值大于CE差值第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发所述迁移管理模块进行云主机热迁移操作。
3.如权利要求2所述的方法,其中,观察验证在用同品牌或批次的内存故障时的CE值,确定故障CE差值,所述CE差值第一阈值为故障CE差值的50~70%,优选55~65%,更优选60%;所述CE差值第二阈值为故障CE差值的75~90%,优选78~95%,更优选80%。
4.如权利要求1所述的方法,其中,在所述采样收集模块中设置CE总和第一阈值和CE总和第二阈值,其中,所述CE总和第一阈值小于所述CE总和第二阈值,
其中,采样收集模块负责周期性的CE值总和计算,所述采样收集模块对每次计算的获取的CE值总和与设定的所述CE值总和第一阈值、CE值总和第二阈值进行对比,
其中,若获取的CE值总和小于CE值总和第一阈值,表示获取的CE总和的变化在正常范围内;若获取的CE值总和大于CE值总和第一阈值小于CE总和第二阈值,表示获取的CE总和的变化超出正常范围,则列入观察列表中;若获取的CE值总和大于CE值总和第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
5.如权利要求4所述的方法,其中,观察验证在用同品牌或批次的内存故障时的CE值,确定故障CE值总和,所述CE值总和第一阈值为故障CE值总和的50~70%,优选55~65%,更优选60%;所述CE值总和第二阈值为故障CE值总和的75~90%,优选78~95%,更优选80%。
6.如权利要求1所述的方法,其中,步骤S4包括如下步骤:
S41、针对迁移管理模块热迁移云主机操作,首先获取内存CE值大于第二阈值的宿主机IP地址;
S42、通过宿主机IP地址获取宿主机上正在运行的所有云主机列表;
S43、通过迁移管理模块向预故障内存虚拟化集群发送指令,对云主机进行逐台热迁移至集群正常宿主机上;
S44、检测云主机迁移任务是否成功,若成功则继续下一台,直至全部热迁移完成,若任务失败则发送告警,后续进行人为干预。
7.如权利要求6所述的方法,其中,步骤S4还包括:
S45.将记录的预内存故障宿主机信息进行内存报修,待云主机迁移完成后,进行内存的故障维修。
8.一种云主机持续可用的装置,包括:
采样测试模块,所述采样测试模块获取服务器内存CE值,采样测试模块负责周期性的获取宿主机上的系统内存信息及对应宿主机内存槽位信息,周期性的获取每根内存所对应的CE值,并将内存基础信息与CE值信息作匹配;
采样收集模块,所述采样收集模块负责周期性的收集所述采样测试模块采样的内存信息并作记录处理服务器内存CE值,并和预先设定阈值进行对比;
预警提醒模块,所述预警提醒模块按照预设CE值判断逻辑,所述判断逻辑通过CE差值对比和CE值累计总和两个维度来进行判断,在CE差值或CE值累计总和达到触发预警提醒阈值时发送告警,判断内存为预故障、触发迁移管理模块发送云主机热迁移指令;
迁移管理模块,所述迁移管理模块收到所述预警提醒模块的告警,触发故障处理阈值,发送迁移管理命令进行虚拟机迁移。
其中,所述采样收集模块中设置CE差值第一阈值和CE差值第二阈值,其中,所述CE差值第一阈值小于所述CE差值第二阈值,采样收集模块负责周期性的CE差值计算,所述采样收集模块对每次收集的CE差值与设定的所述CE差值第一阈值、CE差值第二阈值进行对比,其中,若获取的CE差值小于CE差值第一阈值,表示获取的CE差值的变化在正常范围内;若获取的CE差值大于CE差值第一阈值小于CE差值第二阈值,表示获取的CE差值的变化超出正常范围,则列入观察列表中;若获取的CE差值大于CE差值第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发所述迁移管理模块进行云主机热迁移操作,
其中,在所述采样收集模块中设置CE总和第一阈值和CE总和第二阈值,其中,所述CE总和第一阈值小于所述CE总和第二阈值,采样收集模块负责周期性的CE值总和计算,所述采样收集模块对每次计算的获取的CE值总和与设定的所述CE值总和第一阈值、CE值总和第二阈值进行对比,其中,若获取的CE值总和小于CE值总和第一阈值,表示获取的CE总和的变化在正常范围内;若获取的CE值总和大于CE值总和第一阈值小于CE总和第二阈值,表示获取的CE总和的变化超出正常范围,则列入观察列表中;若获取的CE值总和大于CE值总和第二阈值,判断为内存预故障,记录宿主机IP地址、预故障内存槽位信息,触发迁移管理模块进行云主机热迁移操作。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云主机持续可用程序,所述云主机持续可用程序被所述处理器执行时实现如权利要求1至7中任一项所述的云主机持续可用方法的步骤。
10.一种计算机存储介质,其中,所述计算机存储介质上存储有云主机持续可用程序,所述云主机持续可用程序被处理器执行时实现如权利要求1至7中任一项所述的云主机持续可用方法的步骤。
CN202211703697.XA 2022-12-29 2022-12-29 云主机持续可用的方法、装置、电子设备及存储介质 Pending CN116225835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211703697.XA CN116225835A (zh) 2022-12-29 2022-12-29 云主机持续可用的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211703697.XA CN116225835A (zh) 2022-12-29 2022-12-29 云主机持续可用的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116225835A true CN116225835A (zh) 2023-06-06

Family

ID=86586344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211703697.XA Pending CN116225835A (zh) 2022-12-29 2022-12-29 云主机持续可用的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116225835A (zh)

Similar Documents

Publication Publication Date Title
US7281040B1 (en) Diagnostic/remote monitoring by email
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
CN113176963B (zh) 一种PCIe故障自修复方法、装置、设备及可读存储介质
US7278048B2 (en) Method, system and computer program product for improving system reliability
CN112732477B (zh) 一种带外自检故障隔离的方法
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
JP2013505512A (ja) コンピュータ装置のシステムヘルス及びパフォーマンスのケア
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
WO2022088861A1 (zh) 数据库故障处理方法和装置
WO2017220013A1 (zh) 业务处理方法及装置、存储介质
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN114675791B (zh) 一种磁盘处理方法、系统及电子设备
US20140201566A1 (en) Automatic computer storage medium diagnostics
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN106411643B (zh) Bmc检测方法以及装置
CN111880992A (zh) 一种存储设备中控制器状态的监测及维护方法
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
CN116719657A (zh) 一种固件故障日志生成方法、装置、服务器及可读介质
CN116225835A (zh) 云主机持续可用的方法、装置、电子设备及存储介质
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
CN115964218A (zh) 高速串行计算机扩展总线设备故障的识别方法及装置
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
CN117573405A (zh) 多路径异常处理方法、装置、计算机设备及存储介质
CN107438259B (zh) 一种网管系统性能模块故障的定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination