CN116594798A - 一种基于巡检机器人的数据中心维护方法、设备及介质 - Google Patents

一种基于巡检机器人的数据中心维护方法、设备及介质 Download PDF

Info

Publication number
CN116594798A
CN116594798A CN202310439722.6A CN202310439722A CN116594798A CN 116594798 A CN116594798 A CN 116594798A CN 202310439722 A CN202310439722 A CN 202310439722A CN 116594798 A CN116594798 A CN 116594798A
Authority
CN
China
Prior art keywords
data
software
fault
hardware
hardware device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310439722.6A
Other languages
English (en)
Other versions
CN116594798B (zh
Inventor
付港
杨小林
刘超
田甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Intelligent Technology Co Ltd
Original Assignee
Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Intelligent Technology Co Ltd filed Critical Inspur Intelligent Technology Co Ltd
Priority to CN202310439722.6A priority Critical patent/CN116594798B/zh
Publication of CN116594798A publication Critical patent/CN116594798A/zh
Application granted granted Critical
Publication of CN116594798B publication Critical patent/CN116594798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/261Functional testing by simulating additional hardware, e.g. fault simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites

Abstract

本说明书实施例公开了一种基于巡检机器人的数据中心维护方法、设备及介质,涉及巡检机器人技术领域,方法包括:通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,设备软硬件数据包括资源配置数据;对每个资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个配置资源的逻辑表达,对数据中心的每个软硬件设备的运行环境进行模拟,确定每个软硬件设备的运行状态数据;基于每个软硬件设备的运行状态数据和预先设置的大数据分析库,对每个软硬件设备进行故障预判,生成每个软硬件设备的故障预判结果,通过每个软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于数据调度方案,对数据中心进行维护。

Description

一种基于巡检机器人的数据中心维护方法、设备及介质
技术领域
本说明书涉及巡检机器人技术领域,尤其涉及一种基于巡检机器人的数据中心维护方法、设备及介质。
背景技术
随着计算机技术的发展,数据中心的应用越来越广泛,各类数据库与数据中心的联系日益密切。配置管理数据库(Configuration Management Database,CMDB)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系,包括物理关系、实时通信关系、非实时通信关系和依赖关系。配置管理数据库CMDB通过识别、控制、维护,检查企业的IT资源,从而高效控制与管理不断变化的IT基础架构与IT服务,建立自动化、智能化运维体系,从应用的角度规划管理各种运维场景,全面梳理和分析行内的运维对象及关系,可帮助应用运维在日常工作中快速查询和了解整体应用资源对象和拓扑关系,提升变更发布、故障分析等运维工作效能。
现有的配置管理数据库维护系统存在一定的弊端,使用巡检机器人对此类数据中心进行运维时,巡检机器人都是需要依靠人工进行工作,无法实现自动形成相关的故障预判和排除故障的方案。尤其是设备发生损坏或故障时,配置管理数据库之间的数据切换或者数据的转移都存在问题,导致在数据库硬件设备发生故障后数据丢失,无法形成完善的故障排除或者解决方案。综上所述,现有的巡检机器人对数据中心的运维方法无法对数据中心的设备故障进行预判,并且无法形成运维方案,导致设备维护的即时性较差,且运维效果无法满足需求。
发明内容
本说明书一个或多个实施例提供了一种基于巡检机器人的数据中心维护方法、设备及介质,用于解决如下技术问题:现有的巡检机器人对数据中心的运维方法无法对数据中心的设备故障进行预判,并且无法形成运维方案,导致设备维护的即时性较差,且运维效果无法满足需求。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种基于巡检机器人的数据中心维护方法,其特征在于,所述方法包括:通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,所述设备软硬件数据包括资源配置数据;对每个所述资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据;基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,其中,所述大数据分析库用于存储设备故障数据,所述故障预判结果包括故障状态、故障类型和故障原因;通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于所述数据调度方案,对所述数据中心进行维护。
进一步地,通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据,具体包括:通过每个所述配置资源的逻辑表达,构建所述数据中心的每个软硬件设备的虚拟运行环境;获取所述数据中心的每个软硬件设备的实时运行参数;基于每个所述实时运行参数和所述虚拟运行环境,对每个所述软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的模拟运行过程;基于所述模拟运行过程,确定每个所述软硬件的运行状态数据。
进一步地,基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,具体包括:确定每个所述软硬件设备的运行状态数据,所述运行状态数据包括所述软硬件设备的设备参数和设备预测运行数据;基于每个所述软硬件设备的设备参数,在所述大数据分析库中,确定出与每个所述软硬件对应的故障运行数据;通过每个所述设备预测运行数据和所述故障运行数据,对每个所述软硬件设备进行故障预判,生成故障预判结果。
进一步地,通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案之前,所述方法还包括:根据每个所述故障预判结果的故障类型,在所述大数据分析库中进行故障信息查找,确定所述故障类型对应的多个故障解决方案;基于所述故障预判结果的故障原因,在所述多个故障解决方案中确定出与每个所述故障预判结果对应的指定故障解决方案;通过多个所述指定故障解决方案,对所述数据中心进行维护。
进一步地,通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,具体包括:通过每个所述软硬件设备的所述故障预判结果中的故障状态,确定出符合要求的至少一个指定软硬件设备,其中,所述指定软硬件设备的故障状态为故障,其中,所述故障状态包括故障和非故障中的任意一项;基于所述指定软硬件设备的设备参数,在预先构建的备用设备库中,选择对应的指定备用设备;将所述指定软硬件设备的数据进行数据迁移,迁移至所述指定备用设备中进行数据覆盖。
进一步地,通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案之后,所述方法还包括:确定维护后或调度后的数据中心的多个预设软硬件设备,并获取每个所述预设软硬件设备的设备参数;基于每个所述预设软硬件设备的设备参数,对所述维护后的数据中心进行设备稳定性分析,以对所述故障解决方案和所述数据调度方案进行评估,生成评估结果。
进一步地,基于所述数据调度方案,对所述数据中心进行维护,具体包括:根据所述数据调度方案,确定所述数据调度方案中的机器人执行方案以及硬件设备执行方案;基于所述机器人执行方案,生成调度方案机器人执行指令;基于所述硬件设备执行方案,生成调度方案硬件设备执行指令;通过所述调度方案机器人执行指令和所述调度方案硬件设备执行指令,对所述数据中心进行维护。
进一步地,基于所述数据调度方案,对所述数据中心进行维护之前,所述方法还包括:将所述数据调度方案发送至预设的维护平台,以便于通过所述维护平台对所述数据调度方案进行审核,并将审核后的数据调度方案在所述巡检机器人和所述维护平台中进行展示。
本说明书一个或多个实施例提供一种基于巡检机器人的数据中心维护设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,所述设备软硬件数据包括资源配置数据;对每个所述资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据;基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,其中,所述大数据分析库用于存储设备故障数据,所述故障预判结果包括故障状态、故障类型和故障原因;通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于所述数据调度方案,对所述数据中心进行维护。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,所述设备软硬件数据包括资源配置数据;对每个所述资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据;基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,其中,所述大数据分析库用于存储设备故障数据,所述故障预判结果包括故障状态、故障类型和故障原因;通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于所述数据调度方案,对所述数据中心进行维护。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过上述技术方案,采集数据中心的多个设备软硬件数据,对每个该资源配置数据进行逻辑运算,并对该数据中心的每个软硬件设备的运行环境进行模拟,对设备故障进行预判,通过资源配置逻辑运算和运行环境模拟,将各个设备或者系统有机结合在一起,利用大数据分析库对设备的故障进行预判,可以通过对各个软硬件数据进行备份,提供了数据调度方案,便于对故障的解决以及故障定位,方便后期设备发生故障后将相关数据备份到新的设备中,且该数据也为大数据分析库提供数据支撑,对于大数据分析库的分析提供更加细致的分析。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书实施例提供的一种基于巡检机器人的数据中心维护方法的流程示意图;
图2为本说明书实施例提供的一种基于巡检机器人的数据中心维护方法的应用场景示意图;
图3为本说明书实施例提供的一种基于巡检机器人的数据中心维护设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
随着计算机技术的发展,数据中心的应用越来越广泛,各类数据库与数据中心的联系日益密切。配置管理数据库(Configuration Management Database,CMDB)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系,包括物理关系、实时通信关系、非实时通信关系和依赖关系。配置管理数据库CMDB通过识别、控制、维护,检查企业的IT资源,从而高效控制与管理不断变化的IT基础架构与IT服务,建立自动化、智能化运维体系,从应用的角度规划管理各种运维场景,全面梳理和分析行内的运维对象及关系,可帮助应用运维在日常工作中快速查询和了解整体应用资源对象和拓扑关系,提升变更发布、故障分析等运维工作效能。
现有的配置管理数据库维护系统存在一定的弊端,使用巡检机器人对此类数据中心进行运维时,巡检机器人都是需要依靠人工进行工作,无法实现自动形成相关的故障预判和排除故障的方案。尤其是设备发生损坏或故障时,配置管理数据库之间的数据切换或者数据的转移都存在问题,导致在数据库硬件设备发生故障后数据丢失,无法形成完善的故障排除或者解决方案。综上所述,现有的巡检机器人对数据中心的运维方法无法对数据中心的设备故障进行预判,并且无法形成运维方案,导致设备维护的即时性较差,且运维效果无法满足需求。
本说明书实施例提供一种基于巡检机器人的数据中心维护方法,需要说明的是,本说明书实施例中的执行主体可以是服务器,也可以是任意一种具备数据处理能力的设备。图1为本说明书实施例提供的一种基于巡检机器人的数据中心维护方法的流程示意图,如图1所示,主要包括如下步骤:
步骤S101,通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据。
其中,设备软硬件数据包括资源配置数据;
在本说明书的一个实施例中,本说明书实施例中的方法应用于数据中心维护系统,图2为本说明书实施例提供的一种基于巡检机器人的数据中心维护方法的应用场景示意图,如图2所示,数据中心维护系统包括机器人维护系统和数据中心CMDB,机器人维护系统包括机器人采集模块、机器人处理模块和机器人指令输出模块。数据中心CMDB包括若干服务器、若干网络设备和若干数据机房,对每个服务器、网络设备和数据机房的IP地址、存储配置、网络使用情况和机房配置进行记载,并通过机器人对数据中心CMDB的运维情况开放API接口与CMDB联动实现运维数据的实时更新。
机器人采集模块包括机器人巡检模块和采集设备硬件数据模块,通过采集设备硬件数据模块,采集软硬件设备的配置数据,此处的配置数据包括IP地址配置、存储配置、网络配置和机房配置;采集设备硬件数据模块将设备的IP地址、存储配置、网络配置和机房配置的数据进行输送到机器人处理模块,从而丰富对硬件设备配置运算模块和对硬件设备配置控制模块的数据。机器人巡检模块包括设备报警模块、设备监测模块、日志记录模块和故障分析模块,设备报警模块是对数据中心的硬件设备发生故障进行预警,设备检测模块是对数据中心的硬件设备进行监测,并通过日志记录模块对设备报警或者设备检测情况进行记录备份,故障分析模块可以对设备现有的监测数据进行故障分析。
在本说明书的一个实施例中,通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据。其中,设备软硬件数据包括资源配置数据。
步骤S102,对每个资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个配置资源的逻辑表达,对数据中心的每个软硬件设备的运行环境进行模拟,确定每个软硬件设备的运行状态数据。
通过每个该配置资源的逻辑表达,对该数据中心的每个软硬件设备的运行环境进行模拟,确定每个该软硬件设备的运行状态数据,具体包括:通过每个该配置资源的逻辑表达,构建该数据中心的每个软硬件设备的虚拟运行环境;获取该数据中心的每个软硬件设备的实时运行参数;基于每个该实时运行参数和该虚拟运行环境,对每个该软硬件设备的运行环境进行模拟,确定每个该软硬件设备的模拟运行过程;基于该模拟运行过程,确定每个该软硬件的运行状态数据。
在本说明书的一个实施例中,如图2所示,机器人处理模块包括对硬件设备配置运算模块和对硬件设备配置控制模块,对硬件设备配置运算模块是对运行设备中的数据进行运算,硬件配置逻辑运算是对资源配置的逻辑运算和对设备软硬件运行模拟,通过机器人维护系统的软硬件运行环境模拟,实现对数据中心CMDB维护,根据模拟出来的动画或者数据判断是否存在资源配置异常的情况。也就是说,通过对硬件设备配置逻辑运算模块,对每个资源配置数据进行逻辑运算,生成配置资源的逻辑表达,此处的逻辑表达是将资源配置数据转换为机器语言,以便于通过每个配置资源的逻辑表达,对数据中心的每个软硬件设备的运行环境进行模拟,确定每个软硬件设备的运行状态数据。对硬件设备配置控制模块包括对机器人的控制和对数据配置的控制,通过软硬件运行模拟来对数据库的数据配置进行调配,例如更换对应配置的软硬件设备,并且对巡检机器人本体进行相应控制。
步骤S103,基于每个软硬件设备的运行状态数据和预先设置的大数据分析库,对每个软硬件设备进行故障预判,生成每个软硬件设备的故障预判结果。
基于每个该软硬件设备的运行状态数据和预先设置的大数据分析库,对每个该软硬件设备进行故障预判,生成每个该软硬件设备的故障预判结果,具体包括:确定每个该软硬件设备的运行状态数据,该运行状态数据包括该软硬件设备的设备参数和设备预测运行数据;基于每个该软硬件设备的设备参数,在该大数据分析库中,确定出与每个该软硬件对应的故障运行数据;通过每个该设备预测运行数据和该故障运行数据,对每个该软硬件设备进行故障预判,生成故障预判结果。
在本说明书的一个实施例中,在对软硬件设备的运行环境进行模拟时,确定每个软硬件设备的运行状态数据,运行状态数据包括软硬件设备的设备参数和设备预测运行数据,设备参数可以是设备规格参数,也可以是型号参数,基于每个软硬件设备的设备参数,在预先设置的大数据分析库中,确定出与每个该软硬件对应的故障运行数据。需要说明的是,大数据分析库中存储了不同设备的不同故障的故障运行数据,以及多种故障的解决方案、不同设备的资源设备的数据配置和数据占用情况。根据大数据分析库中的故障运行数据和设备预测运行数据进行数据对比,对每个软硬件设备进行故障预判,生成故障预判结果,该故障预判结果包括故障状态、故障类型和故障原因,需要说明的是,故障状态包括故障和非故障,用于表示软硬件设备是否会出现故障。
步骤S104,通过每个软硬件设备的该故障预判结果,确定对应的数据调度方案,以基于数据调度方案,对数据中心进行维护。
通过每个该软硬件设备的该故障预判结果,确定对应的数据调度方案之前,该方法还包括:根据每个该故障预判结果的故障类型,在该大数据分析库中进行故障信息查找,确定该故障类型对应的多个故障解决方案;基于该故障预判结果的故障原因,在该多个故障解决方案中确定出与每个该故障预判结果对应的指定故障解决方案;通过多个该指定故障解决方案,对该数据中心进行维护。
在本说明书的一个实施例中,根据故障预判结果的故障类型,在大数据分析库中进行故障信息查找,得到该类型对应的多个故障解决方案,此外,由于不同的软硬件设备存在的故障类型相同,但是由于设备不同、故障原因不同,其对应的解决方案也存在差异,因此,根据故障预判结果中的故障原因,在多个故障解决方案中确定出与每个故障预判结果对应的指定故障解决方案。通过多个该指定故障解决方案,对指定的故障设备进行解决,实现对该数据中心进行维护。
在本说明书的一个实施例中,故障解决方案是将大数据分析库中的解决的故障问题和解决方案进行一一对应,并且可以根据故障问题和故障解决方案实时更新大数据分析库,实现数据的扩充,便于下次使用。
通过每个该软硬件设备的该故障预判结果,确定对应的数据调度方案,具体包括:通过每个该软硬件设备的该故障预判结果中的故障状态,确定出符合要求的至少一个指定软硬件设备,其中,该指定软硬件设备的故障状态为故障,其中,该故障状态包括故障和非故障中的任意一项;基于该指定软硬件设备的设备参数,在预先构建的备用设备库中,选择对应的指定备用设备;将该指定软硬件设备的数据进行数据迁移,迁移至该指定备用设备中进行数据覆盖。
在本说明书的一个实施例中,通过每个该软硬件设备的该故障预判结果中的故障状态,确定出故障状态为故障的至少一个指定软硬件设备,基于指定软硬件设备的设备参数,在预先构建的备用设备库中,选择对应的指定备用设备;将指定软硬件设备的数据进行数据迁移,迁移至指定备用设备中进行数据覆盖。也就是说,当一个软硬件设备发生故障后,选择备用的软硬件设备进行替换,并且将两个软硬件设备的资源设备数据进行数据覆盖。
通过每个该软硬件设备的该故障预判结果,确定对应的数据调度方案之后,该方法还包括:确定维护后或调度后的数据中心的多个预设软硬件设备,并获取每个该预设软硬件设备的设备参数;基于每个该预设软硬件设备的设备参数,对该维护后的数据中心进行设备稳定性分析,以对该故障解决方案和该数据调度方案进行评估,生成评估结果。
在本说明书的一个实施例中,在设备软硬件运行模拟后,对被修复的系统中各个软硬件之间的稳定性或者效果进行分析。确定维护后或调度后的数据中心的多个预设软硬件设备,也就是替换了故障设备的备用软硬件设备,并获取每个预设软硬件设备的设备参数;基于每个该预设软硬件设备的设备参数,对该维护后的数据中心进行设备稳定性分析,需要说明的是,此处的稳定性分析是指更换了备用软硬件之后,与数据中心的其他软硬件设备在运行时是否为稳定运行,可以通过运行环境模拟的方式得到。根据稳定性分析结果,对该故障解决方案和该数据调度方案进行评估,生成评估结果。
基于该数据调度方案,对该数据中心进行维护,具体包括:根据该数据调度方案,确定该数据调度方案中的机器人执行方案以及硬件设备执行方案;基于该机器人执行方案,生成调度方案机器人执行指令;基于该硬件设备执行方案,生成调度方案硬件设备执行指令;通过该调度方案机器人执行指令和该调度方案硬件设备执行指令,对该数据中心进行维护。
在本说明书的一个实施例中,根据数据调度方案,确定数据调度方案中的机器人执行方案以及硬件设备执行方案;基于机器人执行方案,生成调度方案机器人执行指令,通过机器人指令输出模块,将机器人执行控制指令发送至巡检机器人,此处的机器人执行控制指令也就是调度方案机器人执行指令。基于硬件设备执行方案,生成调度方案硬件设备执行指令,通过机器人指令输出模块,将硬件设备执行控制指令发送至软硬件设备端,此处的硬件设备执行控制指令也就是调度方案硬件设备执行指令。通过调度方案机器人执行指令和调度方案硬件设备执行指令,对数据中心进行维护。
基于该数据调度方案,对该数据中心进行维护之前,该方法还包括:将该数据调度方案发送至预设的维护平台,以便于通过该维护平台对该数据调度方案进行审核,并将审核后的数据调度方案在该巡检机器人和该维护平台中进行展示。
在本说明书的一个实施例中,将数据调度方案发送至预设的维护平台,以便于通过该维护平台对该数据调度方案进行审核,所述维护平台/终端使用者通过维护平台/终端对传递的指令进行确定是否执行或者对其指令进行干预。并将审核后的数据调度方案在巡检机器人和维护平台中进行展示。
通过上述技术方案,采集数据中心的多个设备软硬件数据,对每个该资源配置数据进行逻辑运算,并对该数据中心的每个软硬件设备的运行环境进行模拟,对设备故障进行预判,通过资源配置逻辑运算和运行环境模拟,将各个设备或者系统有机结合在一起,利用大数据分析库对设备的故障进行预判,可以通过对各个软硬件数据进行备份,提供了数据调度方案,便于对故障的解决以及故障定位,方便后期设备发生故障后将相关数据备份到新的设备中,且该数据也为大数据分析库提供数据支撑,对于大数据分析库的分析提供更加细致的分析。
本说明书实施例还提供一种基于巡检机器人的数据中心维护设备,如图3所示,设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,该设备软硬件数据包括资源配置数据;对每个该资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个该配置资源的逻辑表达,对该数据中心的每个软硬件设备的运行环境进行模拟,确定每个该软硬件设备的运行状态数据;基于每个该软硬件设备的运行状态数据和预先设置的大数据分析库,对每个该软硬件设备进行故障预判,生成每个该软硬件设备的故障预判结果,其中,该大数据分析库用于存储设备故障数据,该故障预判结果包括故障状态、故障类型和故障原因;通过每个该软硬件设备的该故障预判结果,确定对应的数据调度方案,以基于该数据调度方案,对该数据中心进行维护。
本说明书实施例还提供一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,该设备软硬件数据包括资源配置数据;对每个该资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个该配置资源的逻辑表达,对该数据中心的每个软硬件设备的运行环境进行模拟,确定每个该软硬件设备的运行状态数据;基于每个该软硬件设备的运行状态数据和预先设置的大数据分析库,对每个该软硬件设备进行故障预判,生成每个该软硬件设备的故障预判结果,其中,该大数据分析库用于存储设备故障数据,该故障预判结果包括故障状态、故障类型和故障原因;通过每个该软硬件设备的该故障预判结果,确定对应的数据调度方案,以基于该数据调度方案,对该数据中心进行维护。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种基于巡检机器人的数据中心维护方法,其特征在于,所述方法包括:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,所述设备软硬件数据包括资源配置数据;
对每个所述资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据;
基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,其中,所述大数据分析库用于存储设备故障数据,所述故障预判结果包括故障状态、故障类型和故障原因;
通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于所述数据调度方案,对所述数据中心进行维护。
2.根据权利要求1所述的一种基于巡检机器人的数据中心维护方法,其特征在于,通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据,具体包括:
通过每个所述配置资源的逻辑表达,构建所述数据中心的每个软硬件设备的虚拟运行环境;
获取所述数据中心的每个软硬件设备的实时运行参数;
基于每个所述实时运行参数和所述虚拟运行环境,对每个所述软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的模拟运行过程;
基于所述模拟运行过程,确定每个所述软硬件的运行状态数据。
3.根据权利要求1所述的一种基于巡检机器人的数据中心维护方法,其特征在于,基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,具体包括:
确定每个所述软硬件设备的运行状态数据,所述运行状态数据包括所述软硬件设备的设备参数和设备预测运行数据;
基于每个所述软硬件设备的设备参数,在所述大数据分析库中,确定出与每个所述软硬件对应的故障运行数据;
通过每个所述设备预测运行数据和所述故障运行数据,对每个所述软硬件设备进行故障预判,生成故障预判结果。
4.根据权利要求1所述的一种基于巡检机器人的数据中心维护方法,其特征在于,通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案之前,所述方法还包括:
根据每个所述故障预判结果的故障类型,在所述大数据分析库中进行故障信息查找,确定所述故障类型对应的多个故障解决方案;
基于所述故障预判结果的故障原因,在所述多个故障解决方案中确定出与每个所述故障预判结果对应的指定故障解决方案;
通过多个所述指定故障解决方案,对所述数据中心进行维护。
5.根据权利要求4所述的一种基于巡检机器人的数据中心维护方法,其特征在于,通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,具体包括:
通过每个所述软硬件设备的所述故障预判结果中的故障状态,确定出符合要求的至少一个指定软硬件设备,其中,所述指定软硬件设备的故障状态为故障,其中,所述故障状态包括故障和非故障中的任意一项;
基于所述指定软硬件设备的设备参数,在预先构建的备用设备库中,选择对应的指定备用设备;
将所述指定软硬件设备的数据进行数据迁移,迁移至所述指定备用设备中进行数据覆盖。
6.根据权利要求5所述的一种基于巡检机器人的数据中心维护方法,其特征在于,通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案之后,所述方法还包括:
确定维护后或调度后的数据中心的多个预设软硬件设备,并获取每个所述预设软硬件设备的设备参数;
基于每个所述预设软硬件设备的设备参数,对所述维护后的数据中心进行设备稳定性分析,以对所述故障解决方案和所述数据调度方案进行评估,生成评估结果。
7.根据权利要求1所述的一种基于巡检机器人的数据中心维护方法,其特征在于,基于所述数据调度方案,对所述数据中心进行维护,具体包括:
根据所述数据调度方案,确定所述数据调度方案中的机器人执行方案以及硬件设备执行方案;
基于所述机器人执行方案,生成调度方案机器人执行指令;
基于所述硬件设备执行方案,生成调度方案硬件设备执行指令;
通过所述调度方案机器人执行指令和所述调度方案硬件设备执行指令,对所述数据中心进行维护。
8.根据权利要求1所述的一种基于巡检机器人的数据中心维护方法,其特征在于,基于所述数据调度方案,对所述数据中心进行维护之前,所述方法还包括:
将所述数据调度方案发送至预设的维护平台,以便于通过所述维护平台对所述数据调度方案进行审核,并将审核后的数据调度方案在所述巡检机器人和所述维护平台中进行展示。
9.一种基于巡检机器人的数据中心维护设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,所述设备软硬件数据包括资源配置数据;
对每个所述资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据;
基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,其中,所述大数据分析库用于存储设备故障数据,所述故障预判结果包括故障状态、故障类型和故障原因;
通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于所述数据调度方案,对所述数据中心进行维护。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
通过巡检机器人的采集模块,采集数据中心的多个设备软硬件数据,其中,所述设备软硬件数据包括资源配置数据;
对每个所述资源配置数据进行逻辑运算,生成配置资源的逻辑表达,以通过每个所述配置资源的逻辑表达,对所述数据中心的每个软硬件设备的运行环境进行模拟,确定每个所述软硬件设备的运行状态数据;
基于每个所述软硬件设备的运行状态数据和预先设置的大数据分析库,对每个所述软硬件设备进行故障预判,生成每个所述软硬件设备的故障预判结果,其中,所述大数据分析库用于存储设备故障数据,所述故障预判结果包括故障状态、故障类型和故障原因;
通过每个所述软硬件设备的所述故障预判结果,确定对应的数据调度方案,以基于所述数据调度方案,对所述数据中心进行维护。
CN202310439722.6A 2023-04-19 2023-04-19 一种基于巡检机器人的数据中心维护方法、设备及介质 Active CN116594798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439722.6A CN116594798B (zh) 2023-04-19 2023-04-19 一种基于巡检机器人的数据中心维护方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439722.6A CN116594798B (zh) 2023-04-19 2023-04-19 一种基于巡检机器人的数据中心维护方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116594798A true CN116594798A (zh) 2023-08-15
CN116594798B CN116594798B (zh) 2024-02-20

Family

ID=87598238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439722.6A Active CN116594798B (zh) 2023-04-19 2023-04-19 一种基于巡检机器人的数据中心维护方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116594798B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120060167A1 (en) * 2010-09-08 2012-03-08 Salsburg Michael A Method and system of simulating a data center
CN102460442A (zh) * 2009-05-18 2012-05-16 罗莫奈特有限公司 数据中心模拟器
US9128899B1 (en) * 2012-07-31 2015-09-08 Google Inc. Predictive failover planning
CN106095651A (zh) * 2016-06-15 2016-11-09 浪潮(北京)电子信息产业有限公司 一种3d虚拟机房监控管理方法及系统
CN106685539A (zh) * 2016-11-25 2017-05-17 云南电网有限责任公司电力科学研究院 综合实景的测试分析评价方法、装置及平台
CN108833141A (zh) * 2018-05-28 2018-11-16 广州供电局有限公司 数据中心运维管理装置与系统
CN109784504A (zh) * 2018-12-24 2019-05-21 贵州宇豪科技发展有限公司 数据中心远程智能运维管理方法及系统
CN109889358A (zh) * 2018-07-20 2019-06-14 广东电网有限责任公司 一种3d可视化it监控管理系统
CN109927025A (zh) * 2017-12-18 2019-06-25 广州供电局有限公司 巡维机器人控制方法、装置、计算机设备以及存储介质
CN111316238A (zh) * 2017-07-12 2020-06-19 利兹大学 数据中心利用率预测系统和方法
CN111798572A (zh) * 2020-06-12 2020-10-20 广东电网有限责任公司揭阳供电局 一种机房虚拟巡检方法及系统
CN113190421A (zh) * 2021-03-16 2021-07-30 北京中大科慧科技发展有限公司 一种用于数据中心的设备健康状态的检测分析方法
CN115460121A (zh) * 2022-11-07 2022-12-09 联通(广东)产业互联网有限公司 一种基于大数据和数字孪生的数据中心监测方法及系统
US20230021715A1 (en) * 2021-07-23 2023-01-26 Dell Products L.P. Simulated Data Center

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102460442A (zh) * 2009-05-18 2012-05-16 罗莫奈特有限公司 数据中心模拟器
US20120060167A1 (en) * 2010-09-08 2012-03-08 Salsburg Michael A Method and system of simulating a data center
US9128899B1 (en) * 2012-07-31 2015-09-08 Google Inc. Predictive failover planning
CN106095651A (zh) * 2016-06-15 2016-11-09 浪潮(北京)电子信息产业有限公司 一种3d虚拟机房监控管理方法及系统
CN106685539A (zh) * 2016-11-25 2017-05-17 云南电网有限责任公司电力科学研究院 综合实景的测试分析评价方法、装置及平台
CN111316238A (zh) * 2017-07-12 2020-06-19 利兹大学 数据中心利用率预测系统和方法
CN109927025A (zh) * 2017-12-18 2019-06-25 广州供电局有限公司 巡维机器人控制方法、装置、计算机设备以及存储介质
CN108833141A (zh) * 2018-05-28 2018-11-16 广州供电局有限公司 数据中心运维管理装置与系统
CN109889358A (zh) * 2018-07-20 2019-06-14 广东电网有限责任公司 一种3d可视化it监控管理系统
CN109784504A (zh) * 2018-12-24 2019-05-21 贵州宇豪科技发展有限公司 数据中心远程智能运维管理方法及系统
CN111798572A (zh) * 2020-06-12 2020-10-20 广东电网有限责任公司揭阳供电局 一种机房虚拟巡检方法及系统
CN113190421A (zh) * 2021-03-16 2021-07-30 北京中大科慧科技发展有限公司 一种用于数据中心的设备健康状态的检测分析方法
US20230021715A1 (en) * 2021-07-23 2023-01-26 Dell Products L.P. Simulated Data Center
CN115460121A (zh) * 2022-11-07 2022-12-09 联通(广东)产业互联网有限公司 一种基于大数据和数字孪生的数据中心监测方法及系统

Also Published As

Publication number Publication date
CN116594798B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
Dang et al. Aiops: real-world challenges and research innovations
US10310968B2 (en) Developing software project plans based on developer sensitivity ratings detected from monitoring developer error patterns
CN110162471B (zh) 一种基于容器云的压力测试方法及系统
CN112214280B (zh) 一种电力系统仿真的云化方法及系统
CN111314137A (zh) 信息通信网络自动化运维方法、装置、存储介质和处理器
WO2023207689A1 (zh) 一种变更风险评估方法、设备及存储介质
US11212173B2 (en) Model-driven technique for virtual network function rehoming for service chains
CN111309570A (zh) 压力测试方法、介质、装置和计算设备
CN112965882B (zh) 一种数据故障分析的方法及装置
CN116594798B (zh) 一种基于巡检机器人的数据中心维护方法、设备及介质
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
CN116527553A (zh) 一种交换机自动化测试报告的处理方法、系统及存储介质
CN115080309A (zh) 数据备份系统、方法、存储介质以及电子设备
CN111913706B (zh) 一种调度自动化系统拓扑构建方法、存储介质和计算设备
CN115114275A (zh) 一种数据采集方法、设备及介质
CN212322281U (zh) 一种开放式的电力ai应用平台
CN114116503A (zh) 一种测试方法、装置、电子设备及存储介质
Reitze Using commercial web services to build Automated Test Equipment cloud based applications
Alenezi et al. Can Artificial Intelligence Transform DevOps?
CN112559157A (zh) 基于Kubernetes的轨道交通软件应用调度方法
CN111881885A (zh) 一种开放式的电力ai应用平台
CN109614330A (zh) 存储系统业务测试方法、装置、系统、存储控制器及介质
CN112468327B (zh) 一种基于icos集群的地址更改方法、装置和介质
CN114692382B (zh) 核电仿真模型开发数据的管理方法、装置及计算机设备
CN117151281B (zh) 一种装备备品备件方案的优化方法、装置以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant