CN115543527A - 一种监控方法、装置、设备及可读存储介质 - Google Patents

一种监控方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN115543527A
CN115543527A CN202110730177.7A CN202110730177A CN115543527A CN 115543527 A CN115543527 A CN 115543527A CN 202110730177 A CN202110730177 A CN 202110730177A CN 115543527 A CN115543527 A CN 115543527A
Authority
CN
China
Prior art keywords
server
information
server control
request
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110730177.7A
Other languages
English (en)
Inventor
谭文贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Chongqing Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Chongqing Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110730177.7A priority Critical patent/CN115543527A/zh
Publication of CN115543527A publication Critical patent/CN115543527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Abstract

本申请公开了一种监控方法、装置、设备及可读存储介质。监控方法包括:获取服务器控制集群中每个服务器的工作状况;当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;向服务器控制集群发送服务器控制请求,以用于服务器集群根据服务器控制请求进行存储业务处理。根据本申请实施例,能够实现实时监测异常情况,并对应异常情况进行及时的处理。

Description

一种监控方法、装置、设备及可读存储介质
技术领域
本申请属于云存储技术领域,尤其涉及一种监控方法、装置、设备及可读存储介质。
背景技术
随着开源软件的大量使用,现有虚拟化资源例如基于Openstack架构下的虚拟化平台的使用量越来越多。
目前,基于Openstack架构下的虚拟化平台,虚拟机对外的存储卷访问的稳定性方案却不够完善,根据现有的异常情况的监控方案,难以及时监控到发生的异常情况。
若无法及时的对异常情况进行处理,继续提供外的存储卷访问的服务,则容易出现虚拟机文件系统损坏,甚至数据丢失的情况。基于此,需要一种监控方案,实现实时监测异常情况,并对应异常情况进行及时的处理。
发明内容
本申请实施例提供一种监控方法、装置、设备及可读存储介质,能够实现实时监测异常情况,并对应异常情况进行及时的处理。
第一方面,本申请实施例提供一种监控方法,方法包括:
获取服务器控制集群中每个服务器的工作状况;
当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;
向服务器控制集群发送服务器控制请求,以用于服务器集群根据服务器控制请求进行存储业务处理。
在第一方面的一些可实现方式中,在向服务器控制集群发送服务器控制请求之后,方法还包括:
接收服务器控制集群的反馈信息;
当反馈信息包括服务器控制请求的请求失败信息时,在预设请求次数范围内,重新向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行业务处理。
在第一方面的一些可实现方式中,当工作异常信息包括管理员权限占用信息时,服务器控制请求包括服务器控制集群暂停服务请求;当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,包括:
当工作异常信息包括管理员权限占用信息时,将管理员权限占用信息与预设指令生成条件进行对比;
当管理员权限占用信息满足预设指令生成条件时,生成服务器控制集群暂停服务请求。
在第一方面的一些可实现方式中,在向服务器控制集群发送服务器控制请求之后,方法还包括:
当检测到管理员权限占用解除信息时,将管理员权限占用解除信息与预设指令生成条件进行对比;
当管理员权限占用解除信息满足预设指令生成条件时,生成服务器控制集群启动服务请求;
向服务器控制集群发送服务器控制集群启动服务请求,以用于服务器控制集群根据服务器控制集群启动服务请求启动存储服务器业务。
在第一方面的一些可实现方式中,当工作异常信息包括目标服务器的链路异常信息时,服务器控制请求包括服务器第一切换请求;当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,包括:
当工作异常信息包括目标服务器的链路异常信息时,将目标服务器的链路异常信息与预设指令生成条件进行对比;
当目标服务器的链路异常信息满足预设指令生成条件时,获取服务器控制集群中除目标服务器之外的其他服务器的链路信息;
当其他服务器的链路信息为可用状态时,生成服务器第一切换请求,其中,服务器第一切换请求包括将存储业务切换到至少一个可用状态的链路对应的服务器。
在第一方面的一些可实现方式中,当工作异常信息包括目标服务器的存储资源不可用信息时,服务器控制请求包括服务器第二切换请求;当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,包括:
当工作异常信息包括目标服务器的存储资源不可用信息时,将目标服务器的存储资源不可用信息与预设指令生成条件进行对比;
当目标服务器的存储资源不可用信息满足预设指令生成条件时,获取服务器控制集群中除目标服务器之外的其他服务器的存储资源信息;
当至少一个其他服务器的存储资源信息为可用状态时,生成服务器第二切换请求,其中,服务器第二切换请求包括将存储业务切换到至少一个存储资源可用状态对应的服务器。
第二方面,本申请实施例提供一种监控装置,装置包括:
获取模块,用于获取服务器控制集群中每个服务器的工作状况;
处理模块,用于当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;
发送模块,用于向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行存储业务处理。
在第二方面的一些可实现方式中,装置还包括:
接收模块,用于接收服务器控制集群的反馈信息;
发送模块,还用于当反馈信息包括服务器控制请求的请求失败信息时,在预设请求次数范围内,重新向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行业务处理。
第三方面,本申请提供一种监控设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一可实现方式中的监控方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一可实现方式中的监控方法。
本申请实施例提供了一种监控方法、装置、设备及可读存储介质。通过获取服务器控制集群中每个服务器的工作状况信息。通过设置预设指令生成条件,可以在工作状况信息包括工作异常信息且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;并向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行存储业务处理,可以实现对服务器控制集群的实时监控,并对应异常情况进行及时的处理,以确保服务器控制集群的服务质量。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种虚拟化存储系统的架构示意图;
图2是本申请实施例提供的一种监控方法的流程示意图;
图3是本申请实施例提供的一种监控装置的结构示意图;
图4是本申请实施例提供的一种监控设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
随着开源软件的大量使用,现有虚拟化资源例如基于Openstack架构下的虚拟化平台的使用量越来越多。
目前,基于Openstack架构下的虚拟化平台,虚拟机对外端存储卷访问的稳定性方案却不够完善,根据现有的异常情况的监控方案,难以及时监控到发生的异常情况,例如,整个OpenStack control集群提供cinder服务时的相关权限是否正常、存储状况是否正常、cinder服务与存储器之间进行信息交互的指令装置(Command Device)即链路是否正常,其中,指令装置可以简称为“CMD”,均难以及时有效的监控到。
若无法及时的对异常情况进行处理,继续提供外端存储卷访问的服务,则容易出现虚拟机文件系统损坏,甚至数据丢失的情况。
例如,存储服务出现异常,若不及时切换服务主机,则会导致虚拟机迁移失败或虚拟机迁移过程中存储LUN丢失的情况;又例如,CMD链路存在抖动等异常情况,会影响影响存储卷的识别和访问,甚至会导致虚拟机的存储LUN链路混乱,文件系统损坏或数据丢失的情况出现;再例如,服务被占用时,容易导致多路径混乱的情况,文件系统损坏或数据丢失的情况出现。
基于此,需要一种监控方案,实现实时监测异常情况,并对应异常情况进行及时的处理。针对上述提到的问题,本申请实施例提供了一种监控方法、装置、设备和计算机可读存储介质,通过获取服务器控制集群中每个服务器的工作状况信息。通过设置预设指令生成条件,可以在工作状况信息包括工作异常信息且工作异常信息满足预设指令生成条件时,生成服务器控制请求,之后,向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行存储业务处理,可以实现对服务器控制集群的实时监控,并对应异常情况进行及时的处理,以确保服务器控制集群的服务质量。
为了便于清楚的描述本申请实施例,图1是本申请实施例提供的一种虚拟化存储系统的架构示意图。
虚拟化存储系统能够提供存储服务,结合图1所示,OpenStack cinder服务是指存储资源管理服务,通过OpenStack cinder可以了解服务器的存储资源状况。例如,通过Openstack cinder服务控制如何为存储空间添加、修改或者删除存储LUN操作,在本申请实施例中OpenStack cinder服务可以以主备模式运行在服务器控制集群上,示例性的,在服务器控制集群中可以包括多个服务器,其中每个服务器均可控制如何为后端的存储空间添加、修改或者删除存储LUN操作,其中,存储空间被划分为磁盘资源的最小存储对象。
具体地,服务器例如图1中示出的OpenStack control 1、OpenStack control 2以及OpenStack control 3。作为一个具体的示例,可以将OpenStack cinder服务设置为默认运行在Openstack control 1上。
CMD链路是指OpenStack cinder服务与服务器控制集群进行信息交互的CommandDevice,其中,CMD链路具体可以包括多条链路,分别与服务器控制集群中的每台服务器连接。
为了能够实现实时监测虚拟化存储系统是否异常情况,并对应异常情况进行及时的处理,在虚拟化存储系统设置了监控系统,例如图1中示出的Monitor APP。为了提高监控质量,避免出现停止服务的情况,可以将Monitor APP分别设置在两台设备上,得到MonitorAPP 1和Monitor APP 2,其中Monitor APP 1和Monitor APP可以设置为互为备份的关系。
在一些实施例中,监控系统可以通过以太网与服务器集群连接,实现实时监控服务器集群中,每个服务器的链路连接状况、服务器的存储资源状况和服务器的权限状况等等。
此外,为适应各种异常情况的出现,在监控系统还可以设置预设指令库,以便于应对各种异常情况,并及时相应的处理,也就是说,在预设指令库中,可以自定义和调整各种对权限、链路以及链路的监控参数,并配置生成控制请求的触发条件。
图2示出了本申请一个实施例提供的监控方法的流程示意图。如图2所示,该方法可以包括步骤210至步骤230。
步骤210,获取服务器控制集群中每个服务器的工作状况。
基于监控系统,可以监控到服务器控制集群中每个服务器的工作状况例如可以包括服务器的链路连接状况、服务器的存储资源状况和服务器的权限状况等等。
步骤220,当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求。
其中,工作异常信息可以包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种。
在监控系统实时监控虚拟化存储系统的过程中,在工作状况的信息包括工作异常信息时,会将工作异常信息与预设指令库中的预设指令生成条件进行比较,当工作异常信息满足预设指令生成条件时,生成服务器控制请求。
接下来,可以执行步骤230。
步骤230,向服务器控制集群发送服务器控制请求,以用于服务器集群根据服务器控制请求进行存储业务处理。
在本申请实施例中,通过向服务器控制集群发送服务器控制请求,可以使服务器集群中的服务器根据服务器控制请求及时的进行存储业务处理,实现对异常情况进行及时的处理,以确保服务器控制集群的服务质量。
服务器集群接收到服务器控制请求后,会根据服务控制请求,执行相应的服务控制操作,例如,切换链路、切换服务器以及暂停存储服务等等。
在一些实施例中,在向服务器控制集群发送服务器控制请求之后,为了确保服务器集群能够即使执行服务控制请求,还可以包括步骤240和步骤250。
步骤240,接收服务器控制集群的反馈信息。
具体地,在服务器控制集群接收到服务器控制请求后,无论是否成功执行,都会生成一个反馈信息,该反馈信息用于发送给监控系统,已确保监控系统及时获知服务器集群的当前状态。
在服务器集群发送反馈信息之后,接下来可以执行S250。
步骤250,当反馈信息包括服务器控制请求的请求失败信息时,在预设请求次数范围内,重新向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行业务处理。
为了确保服务器控制集群的服务质量,当反馈信息包括服务器控制请求的请求失败信息时,可以重新向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行业务处理,确保存储服务业务顺利运行。
其中,预设请求次数可以根据具体应用的实际情况,进行设置,在此并不具体限定。
当工作异常信息包括管理员权限占用信息时,服务器控制请求包括服务器控制集群暂停服务请求。
作为一个具体的示例,本申请实施例步骤220具体地,可以包括以下操作:
当工作异常信息包括管理员权限占用信息时,将管理员权限占用信息与预设指令生成条件进行对比;当管理员权限占用信息满足预设指令生成条件时,生成服务器控制集群暂停服务请求。
具体地,当存储进行硬件维护、微码升级、扩容等变更操作时,存储管理员权限被占用,或者称root权限被占用。预设指令库中会设置有对应管理员权限占用信息是否被占用的指令生成条件。当监控系统监控到管理员权限被占用时,会生成管理员权限占用信息,并将管理员权限占用信息与预设指令生成条件进行对比,只有在管理员权限占用信息满足预设指令生成条件时,生成服务器控制集群暂停服务请求。
此外,为了更好分析异常状况出现的原因,以减少异常状况的出现,在一些实施例中,预设指令库会对应当前生成的管理员权限占用信息进行信息记录。
具体地,服务器控制集群暂停服务请求例如可以是存储LUN操作锁请求,目的是为了使服务器暂停存储服务,具体例如暂时阻止用户通过cinder服务提交LUN操作请求。
在一些实施例中,服务器暂停存储服务后,即表示暂停服务的请求成功,服务器集群可以向监控系统反馈一个请求成功的代码。
若服务器未暂停存储服务,则可以向监控系统反馈一个请求失败的代码。监控系统收到该代码后,可以在预设请求次数内再次发起请求,其中,预设请求次数可以根据具体应用的实际情况,进行设置,在此并不具体限定。
若在预设请求次数内仍无法成功完成服务器控制集群暂停服务的请求,则在预设指令库中会生成当前请求失败的记录,并保存。同时,还可以发出告警信息,以及时通知管理人员。
在一些实施例中,在向服务器控制集群发送服务器控制请求之后,若存储进行硬件维护、微码升级、扩容等变更操作完成,则管理员权限会被释放,由于监控系统持续监控服务器集群,因此,当检测到管理员权限占用解除信息时,将管理员权限占用解除信息与预设指令生成条件进行对比;当管理员权限占用解除信息满足预设指令生成条件时,生成服务器控制集群启动服务请求;向服务器控制集群发送服务器控制集群启动服务请求,以用于服务器控制集群根据服务器控制集群启动服务请求启动存储服务器业务。
在管理员权限被释放后,说明服务器集群可以正常的提供服务,例如用户通过cinder服务提交LUN操作请求。
在一些实施例中,预设指令库可以记录管理员权限释放时间。
向服务器控制集群发送服务器控制集群启动服务请求,以用于服务器控制集群根据服务器控制集群启动服务请求启动存储服务器业务。
在一些实施例中,服务器启动存储服务后,即表示启动服务的请求成功,服务器集群可以向监控系统反馈一个请求成功的代码。
若服务器未启动存储服务,则可以向监控系统反馈一个请求失败的代码。监控系统收到该代码后,可以在预设请求次数内再次发起请求,其中,预设请求次数可以根据具体应用的实际情况进行设置,在此并不具体限定。
若在预设请求次数内仍无法成功完成服务器控制集群启动服务的请求,则在预设指令库中会生成当前请求失败的记录,并保存。同时,还可以发出告警信息,以及时通知管理人员。
在一些实施例中,在监控系统持续监控服务器集群的工作状况的过程中,当工作异常信息包括目标服务器的链路异常信息时,服务器控制请求可以包括服务器第一切换请求。
示例性的,链路异常信息例如CMD链路发生抖动等。
作为一个具体的示例,本申请实施例步骤220,具体地,可以包括以下操作:
当工作异常信息包括目标服务器的链路异常信息时,将目标服务器的链路异常信息与预设指令生成条件进行对比;当目标服务器的链路异常信息满足预设指令生成条件时,获取服务器控制集群中除目标服务器之外的其他服务器的链路信息。当其他服务器的链路信息为可用状态时,生成服务器第一切换请求,其中,服务器第一切换请求包括将存储业务切换到至少一个可用状态的链路对应的服务器。
作为一个具体的示例,在预设指令库中可以包括与链路异常信息对应的预设指令生成条件。
以OpenStack cinder服务运行在Openstack control 1上为例,Openstackcontrol 1即目标服务器。若Openstack control 1对应的CMD链路发生抖动,则Openstackcontrol 1难以继续提供正常的存储业务。或者是在Openstack control 1运行的cinder服务出现存储资源不可用的故障时,Openstack control 1也难以继续提供正常的存储业务。因此,需要切换链路或者目标服务器。
以Openstack control 1对应的CMD链路发生抖动为例,目标服务器对应的链路需要切换。在本申请实施例中,为了确保链路切换顺利,实现正常的存储业务的连续性,监控系统可以获取服务器控制集群中除目标服务器之外的其他服务器的链路信息,当其他服务器的链路信息为可用状态时,生成服务器第一切换请求,例如,向服务器集群发送链路切换至可用链路的请求。
若无可用链路,则停止执行链路切换请求,在预设指令库中进行记录,以及,生成向管理员发出告警信息,例如“cinder服务不可用”等,在此并不具体限定。
在一些实施例中,除目标服务器对应的链路,其他链路均可正常使用的情况下,服务器集群在切换链路时,可以根据预设的链路切换优先级,切换链路,以Openstackcontrol 2对应的链路的优先级高于Openstack control 3对应的链路优先级为例,在链路切换时,服务器集群会控制OpenStack control 1启动存储LUN操作锁,用来暂时阻止用户对存储LUN的操作。当Openstack control 2对应的链路切换成功后,关闭OpenStackcontrol 2存储LUN操作锁,接下来,用户对存储LUN的操作。
在一些实施例中,若向Openstack control 2对应的链路切换失败,则会重新尝试预设次数的向Openstack control 2对应的链路切换,若超过预设次数,则尝试向Openstack control 3对应的链路切换。若向Openstack control 3对应的链路切换时,在预设次数内仍然切换失败,则在预设指令库中进行记录,以及,生成向管理员发出告警信息,例如“cinder服务不可用”等,在此并不具体限定。
可选的,尝试向Openstack control 2对应的链路切换的预设次数,以及尝试向Openstack control 3对应的链路切换的预设次数,分别可以根据实际情况进行设置,在此并不具体限定。
在一些实施例中,服务器链路切换成功后,服务器集群可以向监控系统反馈一个请求成功的代码。
若服务器链路切换失败,则可以向监控系统反馈一个请求失败的代码。监控系统收到该代码后,可以在预设请求次数内再次发起请求,其中,预设请求次数可以根据具体应用的实际情况,进行设置,在此并不具体限定。
若在预设请求次数内服务器控制集群仍无法成功完成链路切换,则在预设指令库中会生成当前请求失败的记录,并保存。同时,还可以发出告警信息,以及时通知管理人员。
在一些实施例中,在监控系统持续监控服务器集群的工作状况的过程中,当工作异常信息包括目标服务器的存储资源不可用信息时,服务器控制请求可以包括服务器第二切换请求。
作为一个具体的示例,本申请实施例步骤220,具体地,可以包括以下操作:
当工作异常信息包括目标服务器的存储资源不可用信息时,将目标服务器的存储资源不可用信息与预设指令生成条件进行对比;当目标服务器的存储资源不可用信息满足预设指令生成条件时,获取服务器控制集群中除目标服务器之外的其他服务器的存储资源信息;当至少一个其他服务器的存储资源信息为可用状态时,生成服务器第二切换请求,其中,服务器第二切换请求包括将存储业务切换到至少一个存储资源可用状态对应的服务器。
在本申请实施例中,在预设指令库中可以包括与存储资源是否可用对应的预设指令生成条件。
以Openstack control 1运行的cinder服务出现存储资源为例,需要切换服务器。在本申请实施例中,为了确保服务器切换顺利,实现正常的存储业务的连续性,监控系统可以获取服务器控制集群中除目标服务器之外的其他服务器的链路信息,当其他服务器为可用状态时,生成服务器第二切换请求,例如,向服务器集群发送换至可用服务器的请求。
若无可用服务器,则停止执行服务器切换请求,在预设指令库中进行记录,以及,生成向管理员发出告警信息,例如“cinder服务不可用”等,在此并不具体限定。
在一些实施例中,除目标服务器,其他服务器均可正常使用的情况下,在切换服务器时,可以根据预设的服务器切换优先级,切换服务器,以Openstack control 2的先级高于Openstack control 3的优先级为例,在切换服务器时,服务器集群会控制OpenStackcontrol 1启动存储LUN操作锁,用来暂时阻止用户对存储LUN的操作。当Openstackcontrol 2切换成功后,关闭OpenStack control 2存储LUN操作锁,接下来,用户可以对存储LUN的操作。
在一些实施例中,若向Openstack control 2切换失败,则会重新尝试预设次数的向Openstack control 2切换,若超过预设次数,则尝试向Openstack control 3切换。若向Openstack control 3切换时,在预设次数内仍然切换失败,则在预设指令库中进行记录,以及,生成向管理员发出告警信息,例如“cinder服务不可用”等,在此并不具体限定。
可选的,尝试向Openstack control 2切换的预设次数,以及尝试向Openstackcontrol 3的预设次数,分别可以根据实际情况进行设置,在此并不具体限定。
在一些实施例中,服务器切换成功后,服务器集群可以向监控系统反馈一个请求成功的代码。
若服务器切换失败,则可以向监控系统反馈一个请求失败的代码。监控系统收到该代码后,可以在预设请求次数内再次发起请求,其中,预设请求次数可以根据具体应用的实际情况,进行设置,在此并不具体限定。
若在预设请求次数内服务器控制集群仍无法成功完成服务器切换,则在预设指令库中会生成当前请求失败的记录,并保存。同时,还可以发出告警信息,以及时通知管理人员。
通过本申请实施例提供的监控方法,可以实时获取服务器控制集群中每个服务器的工作状况信息,通过设置预设指令生成条件,可以在工作状况信息包括工作异常信息且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;并向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行存储业务处理,可以实现对服务器控制集群的实时监控,并对应异常情况进行及时的处理,以确保服务器控制集群的服务质量。
图3是本申请实施例提供的一种监控装置的结构示意图,如图3所示,该监控装置300可以包括:获取模块310、处理模块320和发送模块330。
获取模块310,用于获取服务器控制集群中每个服务器的工作状况;
处理模块320,用于当工作状况的信息包括工作异常信息,且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;
发送模块330,用于向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行存储业务处理。
在一些实施例中,监控装置300还包括:
接收模块,用于接收服务器控制集群的反馈信息;
发送模块330,还用于当反馈信息包括服务器控制请求的请求失败信息时,在预设请求次数范围内,重新向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行业务处理。
在一些实施例中,当工作异常信息包括管理员权限占用信息时,服务器控制请求包括服务器控制集群暂停服务请求;
处理模块320,还用于当工作异常信息包括管理员权限占用信息时,将管理员权限占用信息与预设指令生成条件进行对比;
当管理员权限占用信息满足预设指令生成条件时,生成服务器控制集群暂停服务请求。
在一些实施例中,处理模块320,还用于当检测到管理员权限占用解除信息时,将管理员权限占用解除信息与预设指令生成条件进行对比;
处理模块320,还用于当管理员权限占用解除信息满足预设指令生成条件时,生成服务器控制集群启动服务请求;
发送模块330,还用于向服务器控制集群发送服务器控制集群启动服务请求,以用于服务器控制集群根据服务器控制集群启动服务请求启动存储服务器业务。
在一些实施例中,当工作异常信息包括目标服务器的链路异常信息时,服务器控制请求包括服务器第一切换请求;
处理模块320,还用于当工作异常信息包括目标服务器的链路异常信息时,将目标服务器的链路异常信息与预设指令生成条件进行对比;
处理模块320,还用于当目标服务器的链路异常信息满足预设指令生成条件时,获取服务器控制集群中除目标服务器之外的其他服务器的链路信息;
处理模块320,还用于当其他服务器的链路信息为可用状态时,生成服务器第一切换请求,其中,服务器第一切换请求包括将存储业务切换到至少一个可用状态的链路对应的服务器。
在一些实施例中,当工作异常信息包括目标服务器的存储资源不可用信息时,服务器控制请求包括服务器第二切换请求;所
处理模块320,还用于当工作异常信息包括目标服务器的存储资源不可用信息时,将目标服务器的存储资源不可用信息与预设指令生成条件进行对比;
处理模块320,还用于当目标服务器的存储资源不可用信息满足预设指令生成条件时,获取服务器控制集群中除目标服务器之外的其他服务器的存储资源信息;
处理模块320,还用于当至少一个其他服务器的存储资源信息为可用状态时,生成服务器第二切换请求,其中,服务器第二切换请求包括将存储业务切换到至少一个存储资源可用状态对应的服务器。
可以理解的是,本申请实施例的监控装置300,可以对应于本申请实施例提供的监控方法的执行主体,监控装置300的各个模块/单元的操作和/或功能的具体细节可以参见上述本申请实施例提供的监控方法中的相应部分的描述,为了简洁,在此不再赘述。
本申请实施例提供的监控装置,通过获取服务器控制集群中每个服务器的工作状况信息。通过设置预设指令生成条件,可以在工作状况信息包括工作异常信息且工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;并向服务器控制集群发送服务器控制请求,以用于服务器根据服务器控制请求进行存储业务处理,可以实现对服务器控制集群的实时监控,并对应异常情况进行及时的处理,以确保服务器控制集群的服务质量。
图4示出了本申请一个实施例提供的监控设备的结构示意图。如图4所示,该设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器402可以包括可移除或不可移除(或固定)的介质,或者存储器402是非易失性固态存储器。存储器402可在监控设备的内部或外部。
在一个实例中,存储器402可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现本申请实施例所描述的方法,并达到本申请实施例执行其方法达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,该监控设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将在线信息流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该监控设备可以执行本申请实施例中的企业用户服务的推荐方法,从而实现本申请实施例描述的监控方法的相应技术效果。
另外,结合上述实施例中的监控方法,本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种监控方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory,EROM)、软盘、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种监控方法,其特征在于,包括:
获取服务器控制集群中每个服务器的工作状况;
当所述工作状况的信息包括工作异常信息,且所述工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,所述工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;
向服务器控制集群发送所述服务器控制请求,以用于所述服务器集群根据服务器控制请求进行存储业务处理。
2.根据权利要求1所述的方法,其特征在于,在所述向服务器控制集群发送所述服务器控制请求之后,所述方法还包括:
接收所述服务器控制集群的反馈信息;
当所述反馈信息包括所述服务器控制请求的请求失败信息时,在预设请求次数范围内,重新向服务器控制集群发送所述服务器控制请求,以用于所述服务器根据服务器控制请求进行业务处理。
3.根据权利要求1所述的方法,其特征在于,当所述工作异常信息包括管理员权限占用信息时,所述服务器控制请求包括服务器控制集群暂停服务请求;所述当所述工作状况的信息包括工作异常信息,且所述工作异常信息满足预设指令生成条件时,生成服务器控制请求,包括:
当所述工作异常信息包括管理员权限占用信息时,将管理员权限占用信息与所述预设指令生成条件进行对比;
当管理员权限占用信息满足所述预设指令生成条件时,生成服务器控制集群暂停服务请求。
4.根据权利要求1或3所述的方法,其特征在于,在所述向服务器控制集群发送所述服务器控制请求之后,所述方法还包括:
当检测到管理员权限占用解除信息时,将所述管理员权限占用解除信息与预设指令生成条件进行对比;
当管理员权限占用解除信息满足预设指令生成条件时,生成服务器控制集群启动服务请求;
向服务器控制集群发送所述服务器控制集群启动服务请求,以用于所述服务器控制集群根据所述服务器控制集群启动服务请求启动所述存储服务器业务。
5.根据权利要求1所述的方法,其特征在于,当所述工作异常信息包括目标服务器的链路异常信息时,所述服务器控制请求包括服务器第一切换请求;所述当所述工作状况的信息包括工作异常信息,且所述工作异常信息满足预设指令生成条件时,生成服务器控制请求,包括:
当所述工作异常信息包括目标服务器的链路异常信息时,将目标服务器的链路异常信息与预设指令生成条件进行对比;
当目标服务器的链路异常信息满足预设指令生成条件时,获取所述服务器控制集群中除目标服务器之外的其他服务器的链路信息;
当其他服务器的链路信息为可用状态时,生成服务器第一切换请求,其中,所述服务器第一切换请求包括将所述存储业务切换到至少一个可用状态的链路对应的服务器。
6.根据权利要求1所述的方法,其特征在于,当所述工作异常信息包括目标服务器的存储资源不可用信息时,所述服务器控制请求包括服务器第二切换请求;所述当所述工作状况的信息包括工作异常信息,且所述工作异常信息满足预设指令生成条件时,生成服务器控制请求,包括:
当所述工作异常信息包括目标服务器的存储资源不可用信息时,将目标服务器的存储资源不可用信息与预设指令生成条件进行对比;
当目标服务器的存储资源不可用信息满足预设指令生成条件时,获取所述服务器控制集群中除目标服务器之外的其他服务器的存储资源信息;
当至少一个其他服务器的存储资源信息为可用状态时,生成服务器第二切换请求,其中,所述服务器第二切换请求包括将所述存储业务切换到至少一个存储资源可用状态对应的服务器。
7.一种监控装置,其特征在于,所述装置包括:
获取模块,用于获取服务器控制集群中每个服务器的工作状况;
处理模块,用于当所述工作状况的信息包括工作异常信息,且所述工作异常信息满足预设指令生成条件时,生成服务器控制请求,其中,所述工作异常信息包括管理员权限占用信息、目标服务器的链路异常信息和存储资源不可用信息中的至少一种;
发送模块,用于向服务器控制集群发送所述服务器控制请求,以用于所述服务器根据服务器控制请求进行存储业务处理。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收所述服务器控制集群的反馈信息;
所述发送模块,还用于当所述反馈信息包括所述服务器控制请求的请求失败信息时,在预设请求次数范围内,重新向服务器控制集群发送所述服务器控制请求,以用于所述服务器根据服务器控制请求进行业务处理。
9.一种监控设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-6任意一项所述的监控方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的监控方法。
CN202110730177.7A 2021-06-29 2021-06-29 一种监控方法、装置、设备及可读存储介质 Pending CN115543527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110730177.7A CN115543527A (zh) 2021-06-29 2021-06-29 一种监控方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110730177.7A CN115543527A (zh) 2021-06-29 2021-06-29 一种监控方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115543527A true CN115543527A (zh) 2022-12-30

Family

ID=84705855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110730177.7A Pending CN115543527A (zh) 2021-06-29 2021-06-29 一种监控方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115543527A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934358A (zh) * 2023-01-05 2023-04-07 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934358A (zh) * 2023-01-05 2023-04-07 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的控制方法
CN115934358B (zh) * 2023-01-05 2023-06-27 摩尔线程智能科技(北京)有限责任公司 数据处理装置集群的控制方法

Similar Documents

Publication Publication Date Title
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN110740072B (zh) 一种故障检测方法、装置和相关设备
CN109714230B (zh) 一种流量监控方法、装置和计算设备
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
CN111147567A (zh) 服务调用方法、装置、设备及介质
CN112783444A (zh) 集群磁盘共享方法、系统及存储介质
CN112764956A (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
CN113630443A (zh) 服务管理方法、装置、服务器及介质
CN111381835A (zh) 技术服务组件的注册与发现的方法、装置、设备及介质
CN115543527A (zh) 一种监控方法、装置、设备及可读存储介质
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN114911644A (zh) 一种vpx服务器管理模块冗余备份方法及系统
CN105210043A (zh) 信息处理装置
US9882779B2 (en) Software version maintenance in a software defined network
US20210342213A1 (en) Processing Device, Control Unit, Electronic Device, Method and Computer Program
JP2004088570A (ja) ネットワーク計算機システムおよび管理装置
US20160197994A1 (en) Storage array confirmation of use of a path
CN110008681B (zh) 访问控制方法、设备及系统
CN110134546B (zh) 批量重启windows系统方法、电子装置及存储介质
CN116340058A (zh) 主备切换方法及装置
CN105824622A (zh) 数据处理方法及电子设备
CN111897681A (zh) 一种报文转发方法、装置、计算设备及存储介质
CN110764827A (zh) 计算机外围设备的管控系统及方法
CN105511848A (zh) 一种动态链接库的检测方法和装置
CN114928533B (zh) 虚拟网元故障处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination