CN118143967A - 运维方法与巡检机器人 - Google Patents

运维方法与巡检机器人 Download PDF

Info

Publication number
CN118143967A
CN118143967A CN202410352161.0A CN202410352161A CN118143967A CN 118143967 A CN118143967 A CN 118143967A CN 202410352161 A CN202410352161 A CN 202410352161A CN 118143967 A CN118143967 A CN 118143967A
Authority
CN
China
Prior art keywords
maintenance
operated
equipment
standard
maintenance personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410352161.0A
Other languages
English (en)
Inventor
张家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
XFusion Digital Technologies Co Ltd
Filing date
Publication date
Application filed by XFusion Digital Technologies Co Ltd filed Critical XFusion Digital Technologies Co Ltd
Publication of CN118143967A publication Critical patent/CN118143967A/zh
Pending legal-status Critical Current

Links

Abstract

本申请实施例提供了一种运维方法与巡检机器人,方法应用于巡检机器人,包括:对服务器设备进行巡检,确定待运维设备与待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;若运维人员的实际运维操作不规范,输出警告信息。基于本申请实施例提供的方法,可以降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。

Description

运维方法与巡检机器人
技术领域
本申请涉及数据中心的运维技术领域,尤其涉及一种运维方法与巡检机器人。
背景技术
当前对大部分数据中心的自动化运维由运维人员主责,设施辅助共同完成运维,运维工作复杂,对运维人员技术要求高,在运维工作中,由人为失误导致的运维事故占比高,导致运维的可靠性较低。
因此,如何提高运维的可靠性是本领域急需解决的问题。
发明内容
本申请实施例提供一种运维方法与巡检机器人,可提高运维的可靠性。
第一方面,本申请实施例提供一种运维方法,方法包括:
对服务器设备进行巡检,确定服务器设备中的待运维设备和待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;
基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;
若运维人员的实际运维操作不规范,输出警告信息。
上述方案中,对运维人员的实际运维操作进行监测,并在运维人员的实际运维操作不规范时,通过警告信息提醒运维人员,可以提高运维人员对待运维设备进行运维的可靠性。
一种可能的实现方式中,监测运维人员对待运维设备执行的实际运维操作是否规范,之前,方法还包括:
对待运维设备的运维范围进行监测;
当监测到运维人员进入运维范围,启动对运维人员的实际运维操作的监测。
上述方案中,可保障开启对运维人员的实际运维操作进行监测时,运维人员已到达待运维设备的监测范围中。
一种可能的实现方式中,监测运维人员对待运维设备执行的实际运维操作是否规范,之前,方法还包括:
接收到启动监测操作,监测运维人员对待运维设备执行的实际运维操作是否规范。
上述方案中,可防止对运维人员的实际运维操作进行监测的操作不会误开启。
一种可能的实现方式中,监测运维人员对待运维设备执行的实际运维操作是否规范,包括:
对标准运维操作的操作信息和实际运维操作的操作信息进行一致性检测,若满足一致性,则判定运维人员当前的实际运维操作规范,若不满足一致性,则判定运维人员当前的实际运维操作不规范;操作信息包括动作类别、操作对象类别和操作对象状态中的一项或多项。
上述方案中,通过多项操作信息判定运维人员的实际运维操作是否规范,可以提高判定的准确度。
一种可能的实现方式中,若运维人员的实际运维操作不规范,输出警告信息,包括:
若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量为一个,则输出第一警告信息,第一警告信息用于提示运维人员停止或调整操作;
若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量超过一个,则输出第二警告信息,第二警告信息用于提示运维人员重新执行待运维流程。
上述方案中,根据操作信息不一致的数量,输出不同的警告信息,可提高在维护人员存在错误操作时给出对应解决方案的灵活性。
一种可能的实现方式中,在输出第一警告信息之后,方法还包括:
获取运维人员输入的第一操作确认信息,第一操作确认信息用于指示运维人员的实际运维操作规范;
基于第一操作确认信息,继续执行一致性检测。
上述方案中,可基于运维人员输入第一操作确认信息判定运维人员的实际运维操作规范,可提高判定维人员的实际运维操作是否规范的正确性。
一种可能的实现方式中,在输出第二警告信息之后,方法还包括:
获取运维人员输入的第二操作确认信息,第二操作确认信息用于指示运维人员重新开始执行待运维流程;
基于第二操作确认信息,重新执行一致性检测。
上述方案中,可基于运维人员输入第二操作确认信息,实现重新开始判定运维人员的实际运维操作是否规范的目的。
一种可能的实现方式中,方法还包括:
从输出第一警告信息或第二警告信息开始计时,在经过预设时间后没有获取得到运维人员输入的第一操作确认信息或第二操作确认信息,则判定当前的运维人员对待运维设备的运维失败。
上述方案中,提供了判定运维人员对待运维设备的运维失败的条件。
一种可能的实现方式中,在判定当前的运维人员对待运维设备的运维失败之后,方法还包括:
向运维管理平台反馈,以使运维管理平台发送协助指令。
上述方案中,在当前的运维人员对待运维设备的运维失败后,可使技术则人员协作运维。
另一方面,本申请提供一种巡检机器人,巡检机器人包括:处理器与显示部件;
处理器用于对服务器设备进行巡检,确定服务器设备中的待运维设备和待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;
处理器还用于基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;
若运维人员的实际运维操作不规范,显示部件用于输出警告信息。
上述方案中,处理器可以对运维人员的实际运维操作进行监测,并在运维人员的实际运维操作不规范时,显示部件通过警告信息提醒运维人员,可以提高运维人员对待运维设备进行运维的可靠性。
一种可能的实现方式中,巡检机器人还包括:传感器;
传感器用于对待运维设备的运维范围进行监测;
传感器还用于当监测到运维人员进入运维范围,启动对运维人员的实际运维操作的监测。
上述方案中,可保障开启对运维人员的实际运维操作进行监测时,运维人员已到达待运维设备的监测范围中。
一种可能的实现方式中,巡检机器人还包括:处理器;
处理器用于接收到启动监测操作,监测运维人员对待运维设备执行的实际运维操作是否规范。
上述方案中,可防止对运维人员的实际运维操作进行监测的操作不会误开启。
一种可能的实现方式中,处理器具体用于对标准运维操作的操作信息和实际运维操作的操作信息进行一致性检测,若满足一致性,则判定运维人员当前的实际运维操作规范,若不满足一致性,则判定运维人员当前的实际运维操作不规范;操作信息包括动作类别、操作对象类别和操作对象状态中的一项或多项。
上述方案中,处理器通过多项操作信息判定运维人员的实际运维操作是否规范,可以提高判定的准确度。
一种可能的实现方式中,巡检机器人还包括:显示部件;
若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量为一个,则显示部件用于输出第一警告信息,第一警告信息用于提示运维人员停止或调整操作;
若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量超过一个,则显示部件还用于输出第二警告信息,第二警告信息用于提示运维人员重新执行待运维流程。
上述方案中,显示部件根据操作信息不一致的数量,输出不同的警告信息,可提高在维护人员存在错误操作时给出对应解决方案的灵活性。
一种可能的实现方式中,巡检机器人还包括:交互接口;
交互接口用于获取运维人员输入的第一操作确认信息,第一操作确认信息用于指示运维人员的实际运维操作规范;
处理器还用于基于第一操作确认信息,继续执行一致性检测。
上述方案中,处理器可基于运维人员输入第一操作确认信息判定运维人员的实际运维操作规范,可提高判定维人员的实际运维操作是否规范的正确性。
一种可能的实现方式中,交互接口还用于获取运维人员输入的第二操作确认信息,第二操作确认信息用于指示运维人员重新开始执行待运维流程;
处理器还用于基于第二操作确认信息,重新执行一致性检测。
上述方案中,处理器可基于运维人员输入第二操作确认信息,实现重新开始判定运维人员的实际运维操作是否规范的目的。
一种可能的实现方式中,处理器还用于从输出第一警告信息或第二警告信息开始计时,在经过预设时间后没有获取得到运维人员输入的第一操作确认信息或第二操作确认信息,则判定当前的运维人员对待运维设备的运维失败。
上述方案中,处理器提供了判定运维人员对待运维设备的运维失败的条件。
一种可能的实现方式中,巡检机器人还包括:通信部件;
通信部件用于向运维管理平台反馈,以使运维管理平台发送协助指令。
上述方案中,在当前的运维人员对待运维设备的运维失败后,可使技术则人员协作运维。
又一方面,本申请提供一种运维装置,包括:
处理模块,用于对服务器设备进行巡检,确定服务器设备中的待运维设备和待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;
处理模块,还用于基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;
输出模块,用于若运维人员的实际运维操作不规范,输出警告信息。
上述方案中,处理模块可以对运维人员的实际运维操作进行监测,并在运维人员的实际运维操作不规范时,输出模块通过输出警告信息提醒运维人员,可以提高运维人员对待运维设备进行运维的可靠性。
一种可能的实现方式中,运维装置还包括:监测模块;
监测模块用于对待运维设备的运维范围进行监测;
处理模块还用于当监测到运维人员进入运维范围,启动对运维人员的实际运维操作的监测。
上述方案中,处理模块可保障开启对运维人员的实际运维操作进行监测时,运维人员已到达待运维设备的监测范围中。
一种可能的实现方式中,处理模块具体用于接收到启动监测操作,监测运维人员对待运维设备执行的实际运维操作是否规范。
上述方案中,可防止对运维人员的实际运维操作进行监测的操作不会误开启。
一种可能的实现方式中,处理模块具体用于对标准运维操作的操作信息和实际运维操作的操作信息进行一致性检测,若满足一致性,则判定运维人员当前的实际运维操作规范,若不满足一致性,则判定运维人员当前的实际运维操作不规范;操作信息包括动作类别、操作对象类别和操作对象状态中的一项或多项。
上述方案中,处理模块通过多项操作信息判定运维人员的实际运维操作是否规范,可以提高判定的准确度。
一种可能的实现方式中,输出模块具体用于若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量为一个,则输出第一警告信息,第一警告信息用于提示运维人员停止或调整操作;
输出模块具体还用于若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量超过一个,则输出第二警告信息,第二警告信息用于提示运维人员重新执行待运维流程。
上述方案中,输出模块根据操作信息不一致的数量,输出不同的警告信息,可提高在维护人员存在错误操作时给出对应解决方案的灵活性。
一种可能的实现方式中,运维装置还包括:获取模块;
获取模块,用于获取运维人员输入的第一操作确认信息,第一操作确认信息用于指示运维人员的实际运维操作规范;
获取模块,还用于基于第一操作确认信息,继续执行一致性检测。
上述方案中,可基于运维人员输入第一操作确认信息判定运维人员的实际运维操作规范,可提高判定维人员的实际运维操作是否规范的正确性。
一种可能的实现方式中,获取模块还用于获取运维人员输入的第二操作确认信息,第二操作确认信息用于指示运维人员重新开始执行待运维流程;
获取模块还用于基于第二操作确认信息,重新执行一致性检测。
上述方案中,可基于运维人员输入第二操作确认信息,实现重新开始判定运维人员的实际运维操作是否规范的目的。
一种可能的实现方式中,处理模块还用于从输出第一警告信息或第二警告信息开始计时,在经过预设时间后没有获取得到运维人员输入的第一操作确认信息或第二操作确认信息,则判定当前的运维人员对待运维设备的运维失败。
上述方案中,处理模块提供了判定运维人员对待运维设备的运维失败的条件。
一种可能的实现方式中,处理模块还用于向运维管理平台反馈,以使运维管理平台发送协助指令。
上述方案中,在当前的运维人员对待运维设备的运维失败后,可使技术则人员协作运维。
本申请实施例提供的运维方法与巡检机器人,向运维人员提供协作运维的方式,可对运维人员的运维操作进行监控,并在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种应用场景示意图;
图2为一示例的运维方法的流程示意图;
图3为另一示例的运维方法的流程示意图;
图4为又一示例的运维方法的流程示意图;
图5为又一示例的运维方法的流程示意图;
图6为又一示例的运维方法的流程示意图;
图7为一示例的运维系统的结构示意图;
图8为另一示例的运维系统的结构示意图;
图9为一示例的运维系统的流程示意图;
图10为一示例的动作监控模块的结构示意图;
图11为一示例的运维装置的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所设计的名词进行解释:
可编程逻辑器件(programmable logic device,简称PLD):是指通用集成电路产生的,其逻辑功能按照用户对器件编程来确定。可编程逻辑器件由以下两种主要类型:现场可编程门阵列(Field Programmable Gate Array,简称FPGA)和复杂可编程逻辑器件(Complex Programmable logic device,简称CPLD);
协作运维:与运维人员共同工作,协同完成设备检查、巡检、故障处理等任务;
动作监控:利用计算机视觉、传感器技术和数据分析方法来实时识别、监控和分析运维人员动作的技术;
运维管理平台:集成式软件系统,用于监控、管理和优化数据中心,包括设备、网络、系统、安全和环境等,其主要目标是确保数据中心的稳定运行。
当前对大部分数据中心的自动化运维由运维人员主责,设施辅助共同完成运维,并且对现有的数据中心进行自动化改造难度大,受限于如机房工程特性、管道布线、系统联动等问题。在低自动化运维水平的数据中心中,对运维人员技术要求高,要求熟悉各种平台、业务、工具等,在消除故障的执行阶段,硬件层面例如上下架、部件更换,软件层面例如界面操作、终端命令输入等,存在人为失误概率。由于运维工作复杂,对运维人员技术要求高,在运维工作中,所以由人为失误导致的运维事故占比高,比如在运维过程中出现的问题,人为操作问题和流程设计问题各占40%,技术问题占20%,在数据中心故障宕机场景中,人为操作的事故占比超过60%。导致运维的可靠性较低,因此,如何提高运维的可靠性是本领域急需解决的问题。
在目前的运维过程中,巡检机器人的功能是检测数据中心的服务器设备是否需要运维,巡检机器人本质上是一个远程操作平台,完成环境信息采集、数据上传等,由电子记录代替人工记录。首先由巡检机器人对数据中心的服务器设备进行检测,运维人员待命,在巡检机器人发现异常服务器设备后,通知运维人员,运维人员达到异常服务器设备处时,巡检机器人离开并待命。或者运维人员达到异常服务器设备处时,巡检机器人为运维人员提供知识库查询,运维人员通过查询知识库得到运维方案。但是目前的运维方法,主要由运维人员完成,无法确定运维人员的运维操作是否正确,无法降低在运维过程中由人为失误导致的运维事故占比。
图1为本申请实施例提供的一种应用场景示意图,如图1所示,本申请实施例提供的运维方法与巡检机器人,巡检机器人巡检发现数据中心的异常服务器,并将发现的异常服务器作为待运维设备;根据待运维设备,从标准库中查询得到对应的待运维流程,并从待运维流程中得到标准运维操作;向运维人员发送运维任务,以使运维人员前往待运维设备所在位置后对待运维设备进行运维操作;根据待运维流程中的标准运维操作,对运维人员的实际运维操作进行监控,检测运维人员对待运维设备执行的每个实际运维操作是否规范;若当前的实际运维操作规范,则输出提示信息,提示信息用于提示运维人员执行下一运维操作;若当前的实际运维操作不规范,则输出警告信息。本申请实施例通过向运维人员提供协作运维的方式,可对运维人员的运维操作进行监控,并在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。在本申请的描述中,除非另有明确的规定和限定,各术语应在本领域内做广义理解。下面将结合附图,对本申请的实施例进行描述。
图2为一示例的运维方法的流程示意图,该方法应用于巡检机器人,巡检机器人是一种能够自主导航、高清影像记录、异常检测、环境监测、数据分析与报告生成以及远程控制的智能设备,比如可以通过在数据中心内部移动,检测数据中心的服务器设备是否存在异常。
该方法的执行主体可以为巡检机器人,也可以为巡检机器人的处理芯片,或者,执行主体也可以实现为存储有相关计算机程序的介质,例如,U盘、云盘等;再或者,执行主体还可以通过集成或安装有相关计算机程序的实体装置实现,例如,芯片、服务器等。执行主体也可以通过集成电路实现,例如可编程逻辑器件CPLD、FPGA。下面仅以执行主体为设置在巡检机器人的处理芯片为例进行说明。
参见图2,该方法可以包括:
S201、对服务器设备进行巡检,确定服务器设备中的待运维设备和待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;
在数据中心中,存在多个服务器设备,将每个服务器设备所在的位置均作为需要巡检的定点,可以提前根据各个定点预设巡检路线,巡检机器人的处理芯片可以控制巡检机器人进行移动,以使巡检机器人按照预设巡检路线巡检每个定点处的服务器设备,具体的,巡检机器人到达每个定点后,基于安装在巡检机器人上的传感器获取的服务器设备的外观或运行环境判断此定点的服务器设备是否存在异常,并可将存在异常的服务器设备作为待运维设备,对异常的服务器设备进行运维操作。比如,通过安装在巡检机器人上的视觉传感器采集服务器设备的外观信息,视觉传感器可以采用2D相机采集服务器设备的指示灯信息,巡检机器人的处理芯片通过服务器设备的指示灯信息判断服务器设备是否存在异常,指示灯信息可以为颜色、数量或者运行状态。以指示灯的运行状态为例,若服务器设备正常运行时,指示灯可以为常亮状态,服务器设备异常运行时,指示灯可以为闪烁状态。也可以基于安装在巡检机器人上用于采集运行环境的传感器,采集服务器设备的运行环境是否异常,比如温度传感器、湿度传感器、噪声传感器、红外传感器、三维激光雷达等,若服务器设备的运行环境存在异常,则将运行环境存在异常的服务器设备作为待运维设备,对异常的服务器设备进行运维操作。
在巡检机器人的处理芯片确定了待运维设备后,可根据待运维设备的异常情况确定关于待运维设备的待运维流程,也可以直接通过接收数据中心的运维管理平台的指令确定待运维设备所需的运维流程。比如,若待运维设备的指示灯异常,可以确定待运维设备需要被更换,巡检机器人的处理芯片可从标准库中查询找到在线更换服务器设备的待运维流程。巡检机器人通知运维人员对待运维设备进行运维,通知的方法,可以通过与运维人员建立无线连接或有线连接,向运维人员发送关于对待运维设备的运维任务;或者在存在运维管理平台的情况下,先将待运维设备的运维任务发送至运维管理平台,由运维管理平台安排对应的运维人员。
S202、基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;
巡检机器人的处理芯片从标准库中提取的待运维流程中包括至少一个预设的按照顺序执行的标准运维操作,以待运维的服务器设备为硬盘,待运维设备对应的待运维流程为硬盘在线更换为例,硬盘在线更换中的标准运维操作包括:状态灯检查、打开硬盘卡扣、取出硬盘、插入硬盘、关闭硬盘卡口与再次状态灯检查。可以将待运维流程中的标准运维操作为基准,将运维人员对待运维设备的实际运维操作与标准运维操作进行对照,判断运维人员的实际运维操作是否规范。
判定运维人员实际运维操作是否规范,可以从以下三个方面进行监测,第一方面,待运维流程中预设的标准运维步骤存在预设的先后顺序,监测运维人员的实际运维操作步骤之间的顺序与标准运维步骤之间的顺序是否相符,比如,硬盘在线更换对应的待运维流程中,打开硬盘卡扣在取出硬盘之前,若运维人员先取出硬盘,则判定运维人员实际运行操作不规范;第二方面,监测运维人员的实际操作步骤是否存在遗漏,在待运维流程中,插入硬盘之后为关闭硬盘卡口,若运维人员在插入硬盘后,没有关闭硬盘卡口,则可判定运维人员实际运行操作不规范;第三方面,监测运维人员的实际运维操作是否正确,比如运维人员在执行取出硬盘这个步骤时,有没有按照正确的操作方法取出硬盘,若运维人员的实际运维操作不正确,则可判定运维人员实际运行操作不规范。
S203、若运维人员的实际运维操作不规范,输出警告信息。
在运维人员的实际运维操作不规范时,巡检机器人的处理芯片可以通过安装在巡检机器人上的语音功能以语音的形式发出警告信息,或者通过开启巡检机器人上的指示灯发出警告信息,也可以通过显示屏输出警告信息。若运维人员的实际运维操作规范,可通过显示屏输出提示信息的方式提醒运维人员可以进行下一个运维操作。
本示例中,巡检机器人的处理芯片可对运维人员每个实际运维操作进行监控,并在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
进一步地,作为示例,图3为另一示例的运维方法的流程示意图,如图3所示,在S202之前,还包括:
S301、对待运维设备的运维范围进行监测;
S302、当监测到运维人员进入运维范围,启动对运维人员的实际运维操作的监测。
结合场景示例,待运维设备的运维范围可以预设为以待运维设备对应的定点为圆心,预设半径所形成的圆形区域,预设半径可以根据实际情况中待运维设备的体积确定,本示例可保障开启对运维人员的实际运维操作进行监测时,运维人员已到达待运维设备的监测范围中。
进一步地,作为示例,在S202之前,还包括:
接收到启动监测操作,监测运维人员对待运维设备执行的实际运维操作是否规范。
结合场景示例,运维人员在到达待运维设备的运维范围后,可通过安装在巡检机器人上的启动按钮启动监测,巡检机器人的处理芯片在接收到运维人员的启动监测操作后,再开启对运维人员实际运维操作的监测,可防止对运维人员的实际运维操作进行监测的操作不会误开启。
进一步地,作为示例,S202中,基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范,包括:
对标准运维操作的操作信息和实际运维操作的操作信息进行一致性检测,若满足一致性,则判定运维人员当前的实际运维操作规范,若不满足一致性,则判定运维人员当前的实际运维操作不规范;操作信息包括动作类别、操作对象类别和操作对象状态中的一项或多项。
结合场景示例,以硬盘在线更换的待运维流程为例,若状态灯检查、打开硬盘卡扣与取出硬盘对应的标准运维操作均检测为规范,说明“状态灯检查”、“打开硬盘卡扣”与“取出硬盘”对应的标准运维操作均已经完成一致性检测,那么接下来巡检机器人的处理芯片应该进行一致性检测的标准运维操作为“插入硬盘”。
表1为示例的硬盘在线更换的待运维流程中的监控内容。
表1
标准运维操作 运维人员的动作类别 作业对象类别 作业对象状态
状态灯检查 不动作 硬盘状态灯 显示异常
打开硬盘卡扣 打开硬盘卡扣 硬盘卡扣 打开
取出硬盘 取出硬盘 硬盘 离开服务器
插入硬盘 插入硬盘 硬盘 进入服务器
关闭硬盘卡扣 关闭硬盘卡扣 硬盘卡扣 闭合
再次状态灯检查 不动作 硬盘状态灯 显示正常
由表1可知,每个标准运维操作可存在3个维度的操作信息,操作信息分别为运维人员的动作类别、操作对象类别与操作对象状态。
结合场景示例,一致性检测指的是,以表1中示例的操作信息为标准,巡检机器人的处理芯片判断运维人员的实际运维操作中的操作信息是否与表1中的操作信息相一致,若三个维度的操作信息均与表1中示例的操作信息一致,巡检机器人的处理信息则判定运维人员的实际运维操作规范,一致性检测通过。可选的,可通过传感器中的2D相机和三维激光雷达,感知运维人员的动作,由PoseC3D模型判断运维人员的动作类别,由YOLOv8模型识别运维人员的操作对象类别与操作对象状态。若运维人员的动作类别为插入硬盘,操作对象类别为硬盘,操作对象状态为进入服务器,巡检机器人的处理芯片则判定运维人员对“插入硬盘”的实际运维操作规范,反之,巡检机器人的处理芯片则判定运维人员对“插入硬盘”的实际运维操作不规范。
本示例中,巡检机器人的处理芯片基于3个维度的操作信息的操作信息对运维人员的实际运维操作进行一致性检测,并在3个维度的操作信息均一致时,才判定运维人员的实际运维操作为规范的,可以提高检测标准,提高了判定运维人员的实际运维操作为规范的准确性。
进一步地,作为示例,图4为又一示例的运维方法的流程示意图,如图4所示,S203中,若运维人员的实际运维操作不规范,输出警告信息,包括:
S401、若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量为一个,则输出第一警告信息,第一警告信息用于提示运维人员停止或调整操作;
结合场景示例,运维人员当前的实际运维操作不规范可分为两种,第一种情况为:在对标准运维操作的操作信息进行一致性检测中,操作信息不一致的数量为一个,这时实际运维操作不规范的程度较低,不能排除误判的可能性,所以不能说明运维人员的操作完成不正确。比如,巡检机器人的处理芯片对“插入硬盘”对应的标准运维操作进行一致性检测时,YOLOv8模型识别运维人员的操作对象类别与操作对象状态分别为“硬盘”与“进入服务器”,但是PoseC3D模型判断出的运维人员的动作类别不是“插入硬盘”,这时,不能排除PoseC3D模型的误判。这时巡检机器人的处理芯片发出的警告信息可以为第一警告信息,第一警告信息主要包括不一致的操作信息,比如,由于检测出运维人员的动作类别不是“插入硬盘”,所以第一警告信息主要用于提示运维人员停下当前的操作,由运维人员可自行判断当前的动作类别是不是“插入硬盘”,若运维人员自行判断出的当前的动作类别不是“插入硬盘”,说明运维人员的动作类别确实存在问题,这时运维人员也可以及时根据第一警告信息调整自己的操作。但是,若运维人员自行判断出的当前的动作类别为“插入硬盘”,说明运维人员的动作类别不存在问题,为PoseC3D模型的误判。
S402、若实际运维操作不规范,且一致性检测中不满足一致性的操作信息数量超过一个,则输出第二警告信息,第二警告信息用于提示运维人员重新执行待运维流程。
另一种情况为:巡检机器人的处理芯片在对标准运维操作的操作信息进行一致性检测中,操作信息不一致的数量超过一个,这时实际运维操作不规范的程度较高,误判的可能性较低,大概率由运维人员的错误操作引起。这时巡检机器人的处理芯片发出的警告信息可以为第二警告信息,由于这时,操作信息不一致的数量较多,所以为了保障数据中心整体的安全性,运维人员在停下当前的操作的同时,可从首个运维操作开始,重新对待运维设备进行运维操作,所以第二警告信息主要用于提示运维人员重新执行对待运维设备的运维流程。
本示例中,巡检机器人的处理芯片根据操作信息不一致的数量,输出不同的警告信息,可提高在维护人员存在错误操作时给出对应解决方案的灵活性。
进一步地,作为示例,图5为又一示例的运维方法的流程示意图,如图5所示,输出第一警告信息之后,还包括:
S501、获取运维人员输入的第一操作确认信息,第一操作确认信息用于指示运维人员的实际运维操作规范;
结合场景示例,在上述的第一种情况下,巡检机器人的处理芯片输出第一警告信息之后,由运维人员判断自己的运维操作是否正确,若运维人员判断自身的运维操作无误,或者及时调整错误的运维操作,可向巡检机器人输入第一操作确认信息,第一操作确认信息可以为权限密码。
S502、基于第一操作确认信息,继续执行一致性检测。
巡检机器人的处理芯片在接收到第一操作确认信息后,可判定运维人员自身的运维操作无误,或者及时调整了错误的运维操作,则按照上述的方法继续判定运维人员下一个实际运维操作是否规范。
本示例中,巡检机器人的处理芯片通过运维人员输入的第一操作确认信息,判定运维人员的实际运维操作规范,可提高判定维人员的实际运维操作是否规范的正确性。
进一步地,作为示例,图6为又一示例的运维方法的流程示意图,如图6所示,输出第二警告信息之后,还包括:
步骤601、获取运维人员输入的第二操作确认信息,第二操作确认信息用于指示运维人员重新开始执行待运维流程;
步骤601、基于第二操作确认信息,重新执行一致性检测。
结合场景示例,在巡检机器人的处理芯片输出第二警告信息后,运维人员应该根据第二警告信息,重新从第一个运维操作开始执行运维流程,巡检机器人的处理芯片通过运维输入第二操作确认信息,重新开始从第一个标准运维操作进行一致性检测,第二操作确认信息可以为重新开始执行待运维流程的确认信号。
以硬盘在线更换的待运维流程为例,在巡检机器人的处理芯片输出第二警告信息后,“状态灯检查”的运维操作不需要运维人员做出实际动作,也就是说,运维人员重新执行“打开硬盘卡扣”的运维操作。巡检机器人的处理芯片在接收到第二操作确认信息后,检测运维人员对于“打开硬盘卡扣”的实际运维操作是否规范。
本示例中,基于运维人员输入第二操作确认信息,实现重新开始判定运维人员的实际运维操作是否规范的目的。
进一步地,作为示例,方法还包括:
从输出第一警告信息或第二警告信息开始计时,在经过预设时间后没有获取得到运维人员输入的第一操作确认信息或第二操作确认信息,则判定当前的运维人员对待运维设备的运维失败。
结合场景示例,若预设时间为两分钟,巡检机器人的处理芯片在输出第一警告信息后,在经过两分钟后,一直没有接收到运维人员输入的第一操作确认信息,则可以判定当前运维人员对待运维设备的运维失败。同样的,若巡检机器人的处理芯片在输出第二警告信息后,在经过两分钟后,一直没有接收到运维人员输入的第二操作确认信息,则可以判定当前运维人员对待运维设备的运维失败。值得一提的是,若同一个运维人员在对待运维设备进行运维的过程中,巡检机器人的处理芯片输出第二警告信息的次数超过预设阈值,比如,巡检机器人的处理芯片输出第二警告信息的次数超过3次,则同样判定当前运维人员对待运维设备的运维失败。
进一步地,作为示例,方法还包括:向运维管理平台反馈,以使运维管理平台向待运维设备的技术负责人员发送协助指令。
结合场景示例,在运维人员对待运维设备的运维失败后,可向运维管理平台反馈运维人员对待运维设备的运维失败的情况,这时运维管理平台可向待运维设备的技术负责人员发送协助指令,以使技术负责人员前往待运维设备的运维范围内,向运维人员提供帮助。本示例在当前的运维人员对待运维设备的运维失败后,可使技术则人员协作运维。
本申请实施例提供的运维方法中,巡检机器人的处理芯片通过对运维人员的运维操作进行监控,并在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
本申请实施例提供一种巡检机器人,其技术效果可参照实施例一,不再赘述。
作为示例,在一示例中提供的巡检机器人包括:处理器与显示部件;
处理器用于对服务器设备进行巡检,确定服务器设备中的待运维设备和待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;
处理器还用于基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;
若运维人员的实际运维操作不规范,显示部件用于输出警告信息。
在数据中心中,存在多个服务器设备,将每个服务器设备所在的位置均作为需要巡检的定点,可以提前根据各个定点预设巡检路线,巡检机器人的运动执行机构可以控制巡检机器人进行移动,以使巡检机器人按照预设巡检路线巡检每个定点处的服务器设备,具体的,巡检机器人到达每个定点后,处理器基于安装在巡检机器人上的传感器获取的服务器设备的外观或运行环境判断此定点的服务器设备是否存在异常,并可将存在异常的服务器设备作为待运维设备,对异常的服务器设备进行运维操作。
处理器在确定了待运维设备后,可根据待运维设备的异常情况确定关于待运维设备的待运维流程,也可以直接通过接收运维管理平台的指令确定待运维设备所需的运维流程。比如,若待运维设备的指示灯异常,可以确定待运维设备需要被更换,处理器可从标准库中查询找到在线更换服务器设备的待运维流程。巡检机器人通知运维人员对待运维设备进行运维,通知的方法,可以通过与运维人员建立无线连接或有线连接,向运维人员发送关于对待运维设备的运维任务;或者在存在运维管理平台的情况下,先将待运维设备的运维任务发送至运维管理平台,由运维管理平台安排对应的运维人员。
处理器从标准库中提取的待运维流程中包括至少一个预设的按照顺序执行的标准运维操作,以待运维的服务器设备为硬盘,待运维设备对应的待运维流程为硬盘在线更换为例,硬盘在线更换中的标准运维操作包括:状态灯检查、打开硬盘卡扣、取出硬盘、插入硬盘、关闭硬盘卡口与再次状态灯检查。可以将待运维流程中的标准运维操作为基准,将运维人员对待运维设备的实际运维操作与标准运维操作进行对照,判断运维人员的实际运维操作是否规范。具体的,当监测到运维人员进入待运维设备的运维范围后,处理器开启对运维人员实际运维操作的监测,待运维设备的运维范围可以预设为以待运维设备对应的定点为圆心,预设半径所形成的圆形区域,预设半径可以根据实际情况中待运维设备的体积确定。
在运维人员的实际运维操作不规范时,显示部件可以通过安装在巡检机器人上的语音功能以语音的形式发出警告信息,或者通过开启巡检机器人上的指示灯发出警告信息,也可以通过显示屏输出警告信息。若运维人员的实际运维操作规范,可通过显示屏输出提示信息的方式提醒运维人员可以进行下一个运维操作。
本示例中,处理器可对运维人员每个实际运维操作进行监控,并在运维人员的运维操作不规范时,显示部件向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
进一步地,通过安装视觉传感器采集服务器设备的外观信息,比如采用2D相机采集服务器设备的指示灯信息,处理器通过服务器设备的指示灯信息判断服务器设备是否存在异常,指示灯信息可以为颜色、数量或者运行状态。以指示灯的运行状态为例,若服务器设备正常运行时,指示灯可以为常亮状态,服务器设备异常运行时,指示灯可以为闪烁状态。可选的,也可以通过安装用于采集运行环境的传感器,采集服务器设备的运行环境是否异常,比如温度传感器、湿度传感器、噪声传感器、红外传感器、三维激光雷达等。
以硬盘在线更换的待运维流程为例,若状态灯检查、打开硬盘卡扣与取出硬盘对应的标准运维操作均检测为规范,说明“状态灯检查”、“打开硬盘卡扣”与“取出硬盘”对应的标准运维操作均已经完成一致性检测,那么接下来处理器应该进行一致性检测标准运维操作应该为“插入硬盘”。
每个标准运维操作可存在3个维度的操作信息,操作信息分别为运维人员的动作类别、操作对象类别与操作对象状态。一致性检测指的是,以表1中示例的操作信息为标准,判断运维人员的实际运维操作中的操作信息是否与表1中的操作信息相一致,若三个维度的操作信息均与表1中示例的操作信息一致,处理器判定运维人员的实际运维操作规范,一致性检测通过。具体的,可由传感器中的2D相机和三维激光雷达,感知运维人员的动作,由PoseC3D模型判断运维人员的动作类别,由YOLOv8模型识别运维人员的操作对象类别与操作对象状态。若运维人员的动作类别为插入硬盘,操作对象类别为硬盘,操作对象状态为进入服务器,处理器判定运维人员对“插入硬盘”的实际运维操作规范,反之,处理器判定运维人员对“插入硬盘”的实际运维操作不规范。
本示例中,处理器基于传感器采集的3个维度的操作信息的操作信息对运维人员的实际运维操作进行一致性检测,并在3个维度的操作信息均一致时,才判定运维人员的实际运维操作为规范的,可以提高检测标准,提高了判定运维人员的实际运维操作为规范的准确性。
进一步地,运维人员当前的实际运维操作不规范可分为两种,第一种情况为:在对标准运维操作的操作信息进行一致性检测中,操作信息不一致的数量为一个,这时实际运维操作不规范的程度较低,不能排除误判的可能性,所以不能说明运维人员的操作完成不正确。比如,处理器对“插入硬盘”对应的标准运维操作进行一致性检测时,YOLOv8模型识别运维人员的操作对象类别与操作对象状态分别为“硬盘”与“进入服务器”,但是PoseC3D模型判断出的运维人员的动作类别不是“插入硬盘”,这时,不能排除PoseC3D模型的误判。这时显示部件发出的警告信息可以为第一警告信息,第一警告信息主要包括不一致的操作信息,比如,由于检测出运维人员的动作类别不是“插入硬盘”,所以第一警告信息主要用于提示运维人员停下当前的操作,由运维人员可自行判断当前的动作类别是不是“插入硬盘”,若运维人员自行判断出的当前的动作类别不是“插入硬盘”,说明运维人员的动作类别确实存在问题,这时运维人员也可以及时根据第一警告信息调整自己的操作。但是,若运维人员自行判断出的当前的动作类别为“插入硬盘”,说明运维人员的动作类别不存在问题,为PoseC3D模型的误判。
另一种情况为:在对标准运维操作的操作信息进行一致性检测中,操作信息不一致的数量超过一个,这时实际运维操作不规范的程度较高,误判的可能性较低,大概率由运维人员的错误操作引起。这时显示部件发出的警告信息可以为第二警告信息,由于这时,操作信息不一致的数量较多,所以为了保障数据中心整体的安全性,运维人员在停下当前的操作的同时,可从首个运维操作开始,重新对待运维设备进行运维操作,所以第二警告信息主要用于提示运维人员重新执行对待运维设备的运维流程。
本示例中,显示部件根据操作信息不一致的数量,输出不同的警告信息,可提高在维护人员存在错误操作时给出对应解决方案的灵活性。
进一步地,交互接口用于运维人员和巡检机器人进行交互的数据传输方式,可选择键盘、鼠标、触摸屏等,也可选语音交互形式,比如麦克风或扬声器等。
结合场景示例,在上述的第一种情况下,显示部件输出第一警告信息之后,由运维人员判断自己的运维操作是否正确,若运维人员判断自身的运维操作无误,或者及时调整错误的运维操作,可通过交互接口输入第一操作确认信息,第一操作确认信息可以为权限密码,交互接口在收到第一操作确认信息后,处理器检可继续下一个标准运维操作进行一致性检测。
在上述的第二种情况下,在显示部件输出第二警告信息后,运维人员应该根据第二警告信息,重新从第一个运维操作开始执行运维流程,运维人员可通过交互接口输入第二操作确认信息,第二操作确认信息可以为重新开始执行待运维流程的确认信号。
进一步地,若预设时间为两分钟,若显示部件在输出第一警告信息后,在经过两分钟后,交互接口若一直没有接收到运维人员输入的第一操作确认信息,处理器则可以判定当前运维人员对待运维设备的运维失败。同样的,显示部件在输出第二警告信息后,在经过两分钟后,交互接口若一直没有接收到运维人员输入的第二操作确认信息,则可以判定当前运维人员对待运维设备的运维失败。值得一提的是,若同一个运维人员在对待运维设备进行运维的过程中,显示部件输出第二警告信息的次数超过预设阈值,比如,显示部件输出第二警告信息的次数超过3次,处理器则同样判定当前运维人员对待运维设备的运维失败。
本示例中,巡检机器人通过验证运维人员输入的第一操作确认信息,判定是否继续下一个标准运维操作进行一致性检测,提高了对运维人员实际运维操作检测的正确性。
进一步地,在又一示例中提供的巡检机器人的硬件还包括:通信部件;
结合场景示例,通信部件可用于巡检机器人与运维管理平台或待运维设备进行数据传输,可选的通讯方式为无线网络,有线连接可选局域网、串口、或通用串行总线(Universal Serial Bus,简称,USB)等。结合场景示例,在运维人员对待运维设备的运维失败后,通信部件可向运维管理平台反馈运维人员对待运维设备的运维失败的情况,这时运维管理平台可向待运维设备的技术负责人员发送协助指令,以使技术负责人员前往待运维设备的运维范围内,向运维人员提供帮助。
本申请实施例提供的巡检机器人中,传感器用于采集服务器设备的外观信息、运行环境以及感知运维人员的动作,处理器通过服务器设备的外观信息与运行环境判断服务器设备是否异常,并对运维人员的运维操作进行监控,显示部件在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
在上述实施例的基础上,本申请实施例提供一种运维系统,其技术效果可参照实施例一,不再赘述。
图7为一示例的运维系统的结构示意图,如图7所示,运维系统包括:运维管理平台、服务器设备、巡检机器人与运维人员。其中,巡检机器人通过检测数据中心中的服务器设备,发现运行异常的异常服务器设备,并将异常服务器设备作为待运维设备,通过直接向运维人员发送关于待运维设备的运维任务,或者先将待运维设备的运维任务发送至运维管理平台,由运维管理平台安排对应的运维人员,在运维人员接收到关于待运维设备的运维任务后,前往待运维设备所在的位置对待运维设备进行运维处理。巡检机器人执行运维监测处理,直至运维流程结束。
进一步地,图8为另一示例的运维系统的结构示意图,如图8所示,巡检机器人包括:处理器、显示部件、传感器、交互接口、通信部件与运动执行机构,其中,处理器可集成多个处理程序,比如,在处理器上可集成动作监控模块与运动控制模块。动作监控模块用于执行运维监测处理,直至运维流程结束,运动控制模块用于控制巡检机器人的运动执行机构移动。
图9为一示例的运维系统的流程示意图,如图9所示,运动控制模块可控制正处于待命状态的巡检机器人的运动执行机构移动,控制巡检机器人按照预设巡检路线巡检每个定点处的服务器设备。传感器可以为视觉传感器采集服务器设备的外观信息,或者可以为采集运行环境的传感器,采集服务器设备的运行环境是否异常,处理器基于服务器设备的外观信息与运行环境判定服务器设备是否存在异常。在服务器设备异常时,通信部件通过与待命的运维人员建立无线连接或有线连接,向待命的运维人员发送关于对待运维设备的运维任务;或者在存在运维管理平台的情况下,先将待运维设备的运维任务发送至运维管理平台,由运维管理平台安排对应的运维人员。通信部件也可与服务器设备建立信息交互,通过将服务器设备内部的运行数据,传输至处理器,处理器根据服务器设备内部的运行数据判断服务器设备是否存在异常。运维人员在接收到运维任务后,前往异常的服务器设备所在的位置,可称为作业现场,运动控制模块控制巡检机器人在作业现场待命,等待运维人员前来对异常的服务器设备进行运维操作,动作监控模块将异常的服务器设备作为待运维设备,传感器采集运维人员当前对待运维设备执行的实际运维操作,动作监控模块检测运维人员当前的实际运维操作是否规范,若运维人员实际运维操作规范,显示部件可提示运维人员进行下一个运维操作,若运维人员实际运维操作不规范,显示部件可输出警告信息,在运维人员处理完成警告信息后,显示部件再提示运维人员进行下一个运维操作,直到运维人员完成所有的运维操作,动作监控模块提示运维人员对待运维设备的运维已完成。
进一步地,图10为一示例的动作监控模块的结构示意图,如图10所示,动作监控模块由数据处理单元、对比单元、标准库与交互单元构成,其中,数据处理单元基于传感器采集的数据,也就是运维人员当前对待运维设备执行的实际运维操作,识别出运维人员实际运维操作中的操作信息,操作信息包络三个维度的操作信息,分别为运维人员的动作类别、操作对象类别与操作对象状态,对比模块从标准库中提取待运维流程,基于待运维流程中的标准运维操作的操作信息对运维人员实际运维操作中的操作信息进行一致性检测,得到对比结果。若对比结果为三个维度的操作信息均与标准运维操作的操作信息一致,处理器可判定运维人员的实际运维操作规范,一致性检测通过,交互单元输出提示信息至显示部件,提示信息用于提示运维人员执行下一运维操作。若对比结果为操作信息不一致的数量为一个,处理器可判定运维人员的实际运维操作不规范,交互单元输出第一警告信息至显示部件,第一警告信息主要包括不一致的操作信息,第一警告信息主要用于提示运维人员停下当前的操作,运维人员可通过交互接口输入第一操作确认信息,处理器接收第一操作确认信息继续执行一致性检测。若对比结果为操作信息不一致的数量超过一个,处理器可判定运维人员的实际运维操作不规范,交互单元输出第二警告信息至显示部件,第二警告信息主要用于提示运维人员重新开始运维操作。运维人员可通过交互接口输入第二操作确认信息,处理器接收第二操作确认信息重新执行一致性检测。
本申请实施例提供的运维系统中,通信部件向运维人员发送运维任务,传感器用于采集服务器设备的外观信息、运行环境以及感知运维人员的动作,处理器通过服务器设备的外观信息与运行环境判断服务器设备是否异常,动作监控模块对运维人员的运维操作进行监控,显示部件在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,并通过交互接口输入第一操作确认信息与第二操作确认信息,可降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
在上述实施例的基础上,本申请实施例提供一种运维装置,其技术效果可参照实施例一,不再赘述。
图11为一示例的运维装置的结构示意图,如图11,运维装置包括:处理模块111与输出模块112;
处理模块111,用于对服务器设备进行巡检,确定服务器设备中的待运维设备和待运维设备的待运维流程,待运维设备为运行异常的服务器设备,待运维流程包括至少一个标准运维操作;
处理模块111,还用于基于待运维流程中的标准运维操作,监测运维人员对待运维设备执行的实际运维操作是否规范;
输出模块112,用于若运维人员的实际运维操作不规范,输出警告信息。
在数据中心中,存在多个服务器设备,将每个服务器设备所在的位置均作为需要巡检的定点,处理模块111可以提前根据各个定点预设巡检路线,处理模块111可以控制巡检机器人进行移动,以使巡检机器人按照预设巡检路线巡检每个定点处的服务器设备,具体的,巡检机器人到达每个定点后,基于安装在巡检机器人上的传感器获取的服务器设备的外观或运行环境判断此定点的服务器设备是否存在异常,并可将存在异常的服务器设备作为待运维设备,对异常的服务器设备进行运维操作。比如,通过安装在巡检机器人上的视觉传感器采集服务器设备的外观信息,视觉传感器可以采用2D相机采集服务器设备的指示灯信息,处理模块111通过服务器设备的指示灯信息判断服务器设备是否存在异常,指示灯信息可以为颜色、数量或者运行状态。以指示灯的运行状态为例,若服务器设备正常运行时,指示灯可以为常亮状态,服务器设备异常运行时,指示灯可以为闪烁状态。也可以基于安装在巡检机器人上用于采集运行环境的传感器,采集服务器设备的运行环境是否异常,比如温度传感器、湿度传感器、噪声传感器、红外传感器、三维激光雷达等,若服务器设备的运行环境存在异常,则将运行环境存在异常的服务器设备作为待运维设备,对异常的服务器设备进行运维操作。
在处理模块111确定了待运维设备后,可根据待运维设备的异常情况确定关于待运维设备的待运维流程,也可以直接通过接收数据中心的运维管理平台的指令确定待运维设备所需的运维流程。比如,若待运维设备的指示灯异常,可以确定待运维设备需要被更换,处理模块111可从标准库中查询找到在线更换服务器设备的待运维流程。巡检机器人通知运维人员对待运维设备进行运维,通知的方法,可以通过与运维人员建立无线连接或有线连接,向运维人员发送关于对待运维设备的运维任务;或者在存在运维管理平台的情况下,先将待运维设备的运维任务发送至运维管理平台,由运维管理平台安排对应的运维人员。
处理模块111从标准库中提取的待运维流程中包括至少一个预设的按照顺序执行的标准运维操作,以待运维的服务器设备为硬盘,待运维设备对应的待运维流程为硬盘在线更换为例,硬盘在线更换中的标准运维操作包括:状态灯检查、打开硬盘卡扣、取出硬盘、插入硬盘、关闭硬盘卡口与再次状态灯检查。可以将待运维流程中的标准运维操作为基准,将运维人员对待运维设备的实际运维操作与标准运维操作进行对照,判断运维人员的实际运维操作是否规范。
判定运维人员实际运维操作是否规范,可以从以下三个方面进行监测,第一方面,待运维流程中预设的标准运维步骤存在预设的先后顺序,监测运维人员的实际运维操作步骤之间的顺序与标准运维步骤之间的顺序是否相符,比如,硬盘在线更换对应的待运维流程中,打开硬盘卡扣在取出硬盘之前,若运维人员先取出硬盘,则判定运维人员实际运行操作不规范;第二方面,监测运维人员的实际操作步骤是否存在遗漏,在待运维流程中,插入硬盘之后为关闭硬盘卡口,若运维人员在插入硬盘后,没有关闭硬盘卡口,则可判定运维人员实际运行操作不规范;第三方面,监测运维人员的实际运维操作是否正确,比如运维人员在执行取出硬盘这个步骤时,有没有按照正确的操作方法取出硬盘,若运维人员的实际运维操作不正确,则可判定运维人员实际运行操作不规范。
在运维人员的实际运维操作不规范时,输出模块112可以通过安装在巡检机器人上的语音功能以语音的形式发出警告信息,或者通过开启巡检机器人上的指示灯发出警告信息,也可以通过显示屏输出警告信息。若运维人员的实际运维操作规范,可通过显示屏输出提示信息的方式提醒运维人员可以进行下一个运维操作。
本示例中,处理模块111可对运维人员每个实际运维操作进行监控,并在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
可选的,待运维设备的运维范围可以预设为以待运维设备对应的定点为圆心,预设半径所形成的圆形区域,预设半径可以根据实际情况中待运维设备的体积确定,本示例可保障开启对运维人员的实际运维操作进行监测时,运维人员已到达待运维设备的监测范围中。
可选的,运维装置还包括:监测模块;
监测模块用于监测运维人员在到达待运维设备的运维范围后,可通过安装在巡检机器人上的启动按钮启动监测,处理模块111在接收到运维人员的启动监测操作后,再开启对运维人员实际运维操作的监测,可防止对运维人员的实际运维操作进行监测的操作不会误开启。
可选的,处理模块111基于3个维度的操作信息的操作信息对运维人员的实际运维操作进行一致性检测,并在3个维度的操作信息均一致时,才判定运维人员的实际运维操作为规范的,可以提高检测标准,提高了判定运维人员的实际运维操作为规范的准确性。
结合场景示例,运维人员当前的实际运维操作不规范可分为两种,第一种情况为:在对标准运维操作的操作信息进行一致性检测中,操作信息不一致的数量为一个,这时实际运维操作不规范的程度较低,不能排除误判的可能性,所以不能说明运维人员的操作完成不正确。这时输出模块112发出的警告信息可以为第一警告信息,第一警告信息主要包括不一致的操作信息,比如,由于检测出运维人员的动作类别不是“插入硬盘”,所以第一警告信息主要用于提示运维人员停下当前的操作,由运维人员可自行判断当前的动作类别是不是“插入硬盘”,若运维人员自行判断出的当前的动作类别不是“插入硬盘”,说明运维人员的动作类别确实存在问题,这时运维人员也可以及时根据第一警告信息调整自己的操作。但是,若运维人员自行判断出的当前的动作类别为“插入硬盘”,说明运维人员的动作类别不存在问题,为PoseC3D模型的误判。
另一种情况为:处理模块111在对标准运维操作的操作信息进行一致性检测中,操作信息不一致的数量超过一个,这时实际运维操作不规范的程度较高,误判的可能性较低,大概率由运维人员的错误操作引起。这时输出模块112发出的警告信息可以为第二警告信息,由于这时,操作信息不一致的数量较多,所以为了保障数据中心整体的安全性,运维人员在停下当前的操作的同时,可从首个运维操作开始,重新对待运维设备进行运维操作,所以第二警告信息主要用于提示运维人员重新执行对待运维设备的运维流程。
本示例中,处理模块111根据操作信息不一致的数量,输出不同的警告信息,可提高在维护人员存在错误操作时给出对应解决方案的灵活性。
结合场景示例,在上述的第一种情况下,输出模块112输出第一警告信息之后,由运维人员判断自己的运维操作是否正确,若运维人员判断自身的运维操作无误,或者及时调整错误的运维操作,可向巡检机器人输入第一操作确认信息,第一操作确认信息可以为权限密码。
可选的,运维装置还包括:获取模块;
获取模块在接收到第一操作确认信息后,可判定运维人员自身的运维操作无误,或者及时调整了错误的运维操作,则按照上述的方法继续判定运维人员下一个实际运维操作是否规范。
结合场景示例,在输出模块112输出第二警告信息后,运维人员应该根据第二警告信息,重新从第一个运维操作开始执行运维流程,处理模块111通过运维输入第二操作确认信息,重新开始从第一个标准运维操作进行一致性检测,第二操作确认信息可以为重新开始执行待运维流程的确认信号。
以硬盘在线更换的待运维流程为例,在输出模块112输出第二警告信息后,“状态灯检查”的运维操作不需要运维人员做出实际动作,也就是说,运维人员重新执行“打开硬盘卡扣”的运维操作。获取模块在接收到第二操作确认信息后,检测运维人员对于“打开硬盘卡扣”的实际运维操作是否规范。
可选的,若预设时间为两分钟,输出模块112在输出第一警告信息后,在经过两分钟后,一直没有接收到运维人员输入的第一操作确认信息,则可以判定当前运维人员对待运维设备的运维失败。同样的,若输出模块112在输出第二警告信息后,在经过两分钟后,一直没有接收到运维人员输入的第二操作确认信息,则可以判定当前运维人员对待运维设备的运维失败。值得一提的是,若同一个运维人员在对待运维设备进行运维的过程中,输出模块112输出第二警告信息的次数超过预设阈值,比如,输出模块112输出第二警告信息的次数超过3次,则同样判定当前运维人员对待运维设备的运维失败。
可选的,处理模块111在运维人员对待运维设备的运维失败后,可向运维管理平台反馈运维人员对待运维设备的运维失败的情况,这时运维管理平台可向待运维设备的技术负责人员发送协助指令,以使技术负责人员前往待运维设备的运维范围内,向运维人员提供帮助。本示例在当前的运维人员对待运维设备的运维失败后,可使技术则人员协作运维。
本申请实施例提供的运维装置通过对运维人员的运维操作进行监控,并在运维人员的运维操作不规范时,向运维人员发出警告,以使运维人员及时更正不规范的运维操作,降低运维人员在运维过程中由人为失误导致的运维事故占比,提高了运维的可靠性。
本领域技术人员在考虑说明书及实践里公开的发明后,将容易想到本申请的其它实施方案。本申请实施例旨在涵盖本申请实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请实施例的一般性原理并包括本申请实施例未公开的本技术领域中的公知常识或惯用技术手段。

Claims (10)

1.一种运维方法,其特征在于,所述方法包括:
对服务器设备进行巡检,确定所述服务器设备中的待运维设备和所述待运维设备的待运维流程,所述待运维设备为运行异常的服务器设备,所述待运维流程包括至少一个标准运维操作;
基于所述待运维流程中的标准运维操作,监测运维人员对所述待运维设备执行的实际运维操作是否规范;
若所述运维人员的实际运维操作不规范,输出警告信息。
2.根据权利要求1所述的方法,其特征在于,所述监测运维人员对所述待运维设备执行的实际运维操作是否规范,之前,所述方法还包括:
对所述待运维设备的运维范围进行监测;
当监测到运维人员进入所述运维范围,启动对所述运维人员的实际运维操作的监测。
3.根据权利要求1所述的方法,其特征在于,所述监测运维人员对所述待运维设备执行的实际运维操作是否规范,之前,所述方法还包括:
接收到启动监测操作,监测运维人员对所述待运维设备执行的实际运维操作是否规范。
4.根据权利要求1所述的方法,其特征在于,监测运维人员对所述待运维设备执行的实际运维操作是否规范,包括:
对所述标准运维操作的操作信息和实际运维操作的操作信息进行一致性检测,若满足一致性,则判定运维人员当前的实际运维操作规范,若不满足一致性,则判定运维人员当前的实际运维操作不规范;所述操作信息包括动作类别、操作对象类别和操作对象状态中的一项或多项。
5.根据权利要求4所述的方法,其特征在于,所述若所述运维人员的实际运维操作不规范,输出警告信息,包括:
若所述实际运维操作不规范,且所述一致性检测中不满足一致性的操作信息数量为一个,则输出第一警告信息,第一警告信息用于提示运维人员停止或调整操作;
若所述实际运维操作不规范,且所述一致性检测中不满足一致性的操作信息数量超过一个,则输出第二警告信息,第二警告信息用于提示运维人员重新执行待运维流程。
6.根据权利要求5所述的方法,其特征在于,在所述输出第一警告信息之后,所述方法还包括:
获取运维人员输入的第一操作确认信息,所述第一操作确认信息用于指示所述运维人员的实际运维操作规范;
基于所述第一操作确认信息,继续执行一致性检测。
7.根据权利要求5所述的方法,其特征在于,在所述输出第二警告信息之后,所述方法还包括:
获取运维人员输入的第二操作确认信息,所述第二操作确认信息用于指示所述运维人员重新开始执行待运维流程;
基于所述第二操作确认信息,重新执行一致性检测。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
从输出第一警告信息或第二警告信息开始计时,在经过预设时间后没有获取得到运维人员输入的第一操作确认信息或第二操作确认信息,则判定当前的运维人员对待运维设备的运维失败。
9.根据权利要求8所述的方法,其特征在于,在所述判定当前的运维人员对待运维设备的运维失败之后,所述方法还包括:
向运维管理平台反馈,以使所述运维管理平台发送协助指令。
10.一种巡检机器人,其特征在于,所述巡检机器人包括:处理器与显示部件;
所述处理器用于对服务器设备进行巡检,确定所述服务器设备中的待运维设备和所述待运维设备的待运维流程,所述待运维设备为运行异常的服务器设备,所述待运维流程包括至少一个标准运维操作;
所述处理器还用于基于所述待运维流程中的标准运维操作,监测运维人员对所述待运维设备执行的实际运维操作是否规范;
若所述运维人员的实际运维操作不规范,所述显示部件用于输出警告信息。
CN202410352161.0A 2024-03-26 运维方法与巡检机器人 Pending CN118143967A (zh)

Publications (1)

Publication Number Publication Date
CN118143967A true CN118143967A (zh) 2024-06-07

Family

ID=

Similar Documents

Publication Publication Date Title
WO2020215907A1 (zh) 机房巡检系统
CN109001649B (zh) 一种电源智能诊断系统及保护方法
CN110989594A (zh) 一种智能机器人巡检系统及方法
CN109597393B (zh) 一种核电厂事故处理策略中关键安全功能的设计实施方法
CN109493985A (zh) 核电厂数字化辅助控制盘系统,设计方法以及控制系统
CN108053041B (zh) 变电站多关联场景下二次系统异常识别和防误系统及方法
CN107231267A (zh) 一种通讯网络巡检的方法、装置及巡检客户端
CN111336100A (zh) 水泵故障诊断系统
CN112578690B (zh) 一种楼宇能耗智能管控系统及方法
CN114202906A (zh) 具有自测试部件的火灾控制系统的视觉检查的验证
WO2014173276A1 (zh) 通过hra判定dcs人机界面的可靠性的方法、系统
CN112488898B (zh) 一种基于楼宇智能管控的突发事件处理系统及方法
CN108909773A (zh) 一种信号设备故障综合分析系统
CN106248415A (zh) 设备故障监控方法、装置及系统
US11579602B2 (en) Method for commissioning and maintenance of alarm systems
CN114860518A (zh) 功能安全系统的检测方法、系统、电子设备、存储介质
CN117613908A (zh) 基于配电网络的智能运维方法及系统
CN113888024A (zh) 操作监控方法、装置、电子设备及存储介质
CN109131937A (zh) 一种分布式无人机自动检测系统及方法
CN118143967A (zh) 运维方法与巡检机器人
EP3762877A1 (en) Method for identifying and evaluating common cause failures of system components
CN113516374B (zh) 一种电子设备和无人值守场所室内的消防系统
JPH06186140A (ja) プラント設備診断装置
CN115346164A (zh) 组件识别模型的自动模型重建方法及系统
CN112666386A (zh) 一种基于电流检测学习的机加工设备状态识别分析方法

Legal Events

Date Code Title Description
PB01 Publication