CN117520999A - 一种边缘数据中心设备的智能运维方法和系统 - Google Patents

一种边缘数据中心设备的智能运维方法和系统 Download PDF

Info

Publication number
CN117520999A
CN117520999A CN202410021041.2A CN202410021041A CN117520999A CN 117520999 A CN117520999 A CN 117520999A CN 202410021041 A CN202410021041 A CN 202410021041A CN 117520999 A CN117520999 A CN 117520999A
Authority
CN
China
Prior art keywords
abnormal
maintenance
similar
abnormality
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410021041.2A
Other languages
English (en)
Other versions
CN117520999B (zh
Inventor
蔡幸波
周立忠
胡建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dtct Data Technology Co ltd
Original Assignee
Zhejiang Dtct Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dtct Data Technology Co ltd filed Critical Zhejiang Dtct Data Technology Co ltd
Priority to CN202410021041.2A priority Critical patent/CN117520999B/zh
Publication of CN117520999A publication Critical patent/CN117520999A/zh
Application granted granted Critical
Publication of CN117520999B publication Critical patent/CN117520999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种边缘数据中心设备的智能运维方法和系统,智能运维方法包括:建立异常数据库,记录历史异常维修的时间点并进行分类,实时监测设备的数据信息,获取异常信息;查询异常数据库,将异常信息与历史异常维修记录进行比对,判断是否存在相似异常记录;若存在,则获取相似数量,根据相似数量计算异常发生间隔;根据相似数量和异常发生间隔确定当前异常等级;将相似异常记录整合为第一模板,匹配对应运维人员,记录当前维修记录为目标异常维修记录;将目标异常维修记录与第一模板进行比对,对第一模板进行校准;若不存在,则根据第一判断结果匹配对应分类下的运维人员前往维修。本发明提高了运维的效率。

Description

一种边缘数据中心设备的智能运维方法和系统
技术领域
本发明涉及运维技术领域,具体而言,涉及一种边缘数据中心设备的智能运维方法和系统。
背景技术
随着5G、IOT、AI等新一代信息技术深度发展,边缘数据中心建设进一步加快,由于边缘数据中心数量众多、地域分散,传统的边缘数据中心设施设备运维效率低下、设备故障率高,不能很好的满足新一代信息技术发展。
而且在日常的对数据中心设备的运维中,目前采用的大多为采用人工的运维团队进行运维,但单一的人工非常依赖当前运维团队中运维人员的技能熟练度和水平,同时也受到运维人员主观判断的影响,导致日常设备运维的效果具有不确定性,进而导致设备运维效率低下。
发明内容
因此,本发明实施例提供一种边缘数据中心设备的智能运维方法,提高了运维的效率。
为解决上述问题,本发明提供一种边缘数据中心设备的智能运维方法,智能运维方法包括:建立异常数据库,储存历史异常维修记录,并记录历史异常维修的时间点并按异常维修种类对历史异常维修记录进行分类,得到第一分类结果;实时监测设备的数据信息,当发生设备异常时,获取异常信息;查询异常数据库,将异常信息与历史异常维修记录进行比对,判断异常数据库中是否存在相似异常记录;若存在,则获取相似异常记录的数量,得到相似数量,根据相似数量计算异常发生间隔;根据相似数量和异常发生间隔确定当前异常等级;将相似异常记录整合为第一模板,根据异常等级和第一模板和第一分类结果匹配对应运维人员,在运维人员维修完成后,记录当前维修记录为目标异常维修记录;将目标异常维修记录与第一模板进行比对,得到第一比较结果,根据第一比较结果,对第一模板进行校准;若不存在,则根据第一分类结果,判断异常信息的分类,得到第一判断结果,根据第一判断结果匹配对应分类下的运维人员前往维修。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置异常数据库来日常保持所有设备的维修记录,使得每次维修的记录都能被保存和查询,同时根据维修种类来进行分类,使得后续对应查询时更加方便,再通过在新的异常发生时,通过比对异常数据库中记录的历史异常维修记录来判断当前异常是否存在相似异常记录,使得当前异常能借助之前修理的经验和方法,使得修理和维护更加方便快捷,不需要再重新进行规划,提高了维修效率,同时也使得整个运维过程更加标准化,更具有效率,以及再通过设置异常等级和第一模板,使得对异常发生时的整个运维流程更加快捷,也更加精细,同时有了异常等级和第一模板,使得运维人员能更加直观的了解当前异常的情况以及后续的处理方式,使得运维效率更高,并且还设置了对第一模板的校准方式,使得第一模板能进行更新,使得第一模板能适应当前最新的情况,也使得运维人员再使用时更加方便快捷,进而达到提高运维效率的目的。
在本发明的一个实例中,获取相似异常记录的数量,得到相似数量,根据相似数量计算异常发生间隔还包括:获取每个相似异常记录的时间点,计算相邻两个相似异常记录之间的时间间隔,得到多个第一间隔;将每个第一间隔与第一阈值进行比较,得到比较结果,根据比较结果来计算异常发生间隔。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置获取每个相似异常记录的时间点,并获取对应相邻两个之间的时间间隔,通过获取每个相似记录之间的时间间隔使得每次相似异常发生之间的间隔时间,进而能得知相似异常发生的频率,进而得知该异常是否发生的过于频繁,使得获取的异常发生间隔更具有实际意义,保障后续的运维判断更加准确,同时得到的数据保障运维的效率更高。
在本发明的一个实例中,将每个第一间隔与第一阈值进行比较,得到比较结果,根据比较结果来计算异常发生间隔还包括:当多个第一间隔均大于第一阈值时,取多个第一间隔中的最小值作为异常发生间隔;当多个第一间隔中有至少一个小于等于第一阈值时,对多个第一间隔中小于等于第一阈值的部分进行筛选计算,得到筛选结果,根据筛选结果计算异常发生间隔。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置多个第一间隔都大于第一阈值时,则说明当前异常发生的较为正常,只需要去其中的最小值最为异常发生间隔即可,而当有一个小于等于第一阈值时,则说明这两次异常发生之间时间间隔短,需要进一步关注原因,使得后续对于当前异常的重要程度的判断更加准确,也提供了数据支撑,使得后续运维的效率更高。
在本发明的一个实例中,对多个第一间隔中小于等于第一阈值的部分进行筛选计算,得到筛选结果,根据筛选结果计算异常发生间隔还包括:当只有一个第一间隔小于等于第一阈值时,则取该第一间隔作为异常发生间隔;当小于等于第一阈值的第一间隔数量大于1时,则将多个第一间隔中小于等于第一阈值的部分取平均值,将平均值作为异常发生间隔。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置当只有一个第一间隔小于第一阈值时去该值为异常发生间隔,说明当前第一间隔对应的异常设备存在问题,间隔过短,需要进行排查,使得对设备的运维更加精准和方便,同时设置小于等于第一阈值的第一间隔数量大于1时,则将多个第一间隔中小于等于第一阈值的部分取平均值,通过取平均值来使得当前所获得的异常发生间隔更加贴合实际,保障后续在制定异常等级时更加精准,具有更好的实际使用意义,进而使得后续的运维制定更加具有效率。
在本发明的一个实例中,根据相似数量和异常发生间隔确定当前异常等级还包括:当相似数量大于等于第一预警值,且异常发生间隔小于等于第一异常值,则判断当前异常等级为第一等级,并执行第一预警操作;当相似数量小于第一预警值,且异常发生间隔小于等于第一异常值,则判断当前异常等级为第二等级;当相似数量小于第一预警值,且异常发生间隔大于第一异常值,则判断当前异常等级为第三等级。
与现有技术相比,采用该技术方案所达到的技术效果:通过根据相似数量和第一预警值的关系,以及异常发生间隔和第一异常值的关系来定义异常等级,使得异常等级的制定更加符合实际使用情况,同时相似数量能代表当前异常历史发生次数,而异常发生间隔能代表当前异常的发生间隔,继而能判断当前异常是否发生过于频繁,频率是否过高,进而得到的异常等级能更加贴合当前异常的实际情况,进而使得后续的异常方式时的日常运维更加方便快捷,效率更高。
在本发明的一个实例中,判断当前异常等级为第一等级,并执行第一预警操作还包括:将所有与当前异常信息相似的相似异常记录进行整合,并提取相似异常记录中记载的异常原因和运维人员;将异常原因进行分类筛选,并统计各分类下的异常原因,得到第二分类结果;根据第二分类结果获取各分类下的异常原因的对应数量,得到分析标准值;对运维人员进行统计,判断是否为同一运维人员,得到统计结果;根据分析标准值、第二分类结果和统计结果,判断当前异常是否需要执行预警操作。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置将异常信息进行整合,并提取异常原因和运维人员,并进行分类筛选和得到对应的异常原因的数量以及运维人员的数量,并根据上述数据进行判断是否需要进行预警操作,由于不同的异常原因下的处理方式和运维人员存在不同,因此根据同一分类下的异常原因来判断当前异常是否由于当前原因发生的过于频繁,进而再根据运维人员来判断是否存在修理不当的问题,使得后续对运维人员的改善提供数据基础,使得整个运维过程更加合理,同时再改善后应能保障运维系统的正常运维以及保障运维的效率。
在本发明的一个实例中,根据分析标准值、第二分类结果和统计结果,判断当前异常是否需要执行预警操作还包括:若异常原因处于同一分类下,且对应的分析标准值大于目标阈值,同时为同一运维人员处理的异常,则判断当前异常需要派遣另一组运维人员前往处理异常。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置当异常原因在同一分类下且分析标准值大于目标阈值,且还是同一运维人员,说明当前异常发生是由于当前运维人员的问题导致该异常发生过于频繁,需要进行更换,因此当前运维系统能通过这个方式来达到对运维人员进行实时更新的目的,保障当前的运维人员能最好的适应当前的设备情况,使得整个数据中心的设备运维更加合理和具有效率,能更好的保障设备的正常运行。
在本发明的一个实例中,将目标异常维修记录与第一模板进行比对,得到第一比较结果,根据第一比较结果,对第一模板进行校准还包括:根据目标异常维修记录在第一模板中查找对应相似信息,得到第一校准信息;判断第一校准信息是否符合安全阈值;若是,则将第一校准信息对应的内容更新到第一模板中对应的相似信息内;若否,则将第一校准信息发送至异常数据库内。
与现有技术相比,采用该技术方案所达到的技术效果:通过设置根据目标异常维修记录和第一目标来进行对第一模板的校准,进而使得第一模板能进行持续更新,保障第一模板的正确指导性,同时借助安全阈值来对第一校准信息进行判断,使得第一校准信息更新到第一模板中更加准确,同时也避免了误导信息和个例信息的导入模板,保障模板的通用性,使得日常后续的运维更加效率,同时将这些个例和误导信息导入异常数据库,使得后续发生相似异常时也有参考意义,进而使得整个运维系统更加全面,达到实时更新的效果,使得后续运维人员借助运维系统进行的日常运维的效率更高。
在本发明的一个实例中,还提供一种边缘数据中心设备的智能运维系统,如上述任意一项的智能运维方法应用于智能运维系统中,智能运维系统包括:储存模块,储存模块用于储存异常数据库;检测获取模块,检测获取模块用于检测和获取数据信息;判断计算模块,判断计算模块用于判断异常数据库中是否存在相似异常记录以及计算异常发生间隔;匹配校准模块,匹配校准模块用于匹配运维人员和校准第一模板。
该智能运维系统具有上述智能运维方法的所有特征,因此也具有相同的技术效果,此处不再一一赘述。
采用本发明的技术方案后,能够达到如下技术效果:
(1)通过设置异常数据库来日常保持所有设备的维修记录,使得每次维修的记录都能被保存和查询,同时根据维修种类来进行分类,使得后续对应查询时更加方便,再通过在新的异常发生时,通过比对异常数据库中记录的历史异常维修记录来判断当前异常是否存在相似异常记录,使得当前异常能借助之前修理的经验和方法,使得修理和维护更加方便快捷,不需要再重新进行规划,提高了维修效率,同时也使得整个运维过程更加标准化,更具有效率,以及再通过设置异常等级和第一模板,使得对异常发生时的整个运维流程更加快捷,也更加精细,同时有了异常等级和第一模板,使得运维人员能更加直观的了解当前异常的情况以及后续的处理方式,使得运维效率更高,并且还设置了对第一模板的校准方式,使得第一模板能进行更新,使得第一模板能适应当前最新的情况,也使得运维人员再使用时更加方便快捷,进而达到提高运维效率的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中待要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1为本发明实施例提供的一种边缘数据中心设备的智能运维方法的流程图;
图2为本发明实施例提供的一种边缘数据中心设备的智能运维系统的模块图;
附图标记说明:
100为智能运维系统;110为储存模块;120为检测获取模块;130为判断计算模块;140为匹配校准模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
【第一实施例】
参见图1-图2,本发明提供一种边缘数据中心设备的智能运维方法,智能运维方法包括:
步骤S100:建立异常数据库,储存历史异常维修记录,并记录历史异常维修的时间点并按异常维修种类对历史异常维修记录进行分类,得到第一分类结果;
步骤S200:实时监测设备的数据信息,当发生设备异常时,获取异常信息;查询异常数据库,将异常信息与历史异常维修记录进行比对,判断异常数据库中是否存在相似异常记录;
步骤S210:若存在,则获取相似异常记录的数量,得到相似数量,根据相似数量计算异常发生间隔;根据相似数量和异常发生间隔确定当前异常等级;
步骤S300:将相似异常记录整合为第一模板,根据异常等级和第一模板和第一分类结果匹配对应运维人员,在运维人员维修完成后,记录当前维修记录为目标异常维修记录;
步骤S400:将目标异常维修记录与第一模板进行比对,得到第一比较结果,根据第一比较结果,对第一模板进行校准;
若步骤S200判断异常数据库中不存在相似异常记录,则执行以下步骤;
步骤S220:若不存在,则根据第一分类结果,判断异常信息的分类,得到第一判断结果,根据第一判断结果匹配对应分类下的运维人员前往维修。
具体的,在建立异常数据库时,储存每次历史异常维修记录,还包括纸质记录以及口述等维修情况,维修情况可包括但不限于,异常原因,解决方法,解决问题后设备运行的效果,维修人员等。并对其进行分类,分类可为设备电路连接问题,硬件问题,程序设置问题等,可根据实际情况进行设置分类项目,并对异常数据库中记录的所有历史异常维修进行分类划分,得到第一分类结果。
进一步的,日常运维时,通过运维系统对所有数据中心的设备进行实时监控,异常监控可为当设备无法正常运作时,自动智能检测设备异常问题,如硬件故障或者电路故障或程序无法正常运行等,智能检测的方式可通过设定程序的检测元件进行监测,检测元件连接运维系统以及控制终端,控制终端可为数据中心的设备管理中心的电脑以及运维人员的移动终端,可随时查询设备状态以及接受到设备的异常信息。
进一步的,当异常发生时,设备自动进行识别异常情况,得到该异常的具体分类,进而再异常数据库中进行比对查询,在对应分类中进行比对,查找相似异常记录,并对查找到的相似异常记录进行统计和计算,得到对应的相似异常记录的数量。相似的判断中,可以理解的是,如异常原因相同,举例来说,异常原因都为电力连接故障,其中的小类别可根据实际情况进行对应设定,此处不进行列举。
具体的,当不存在相似记录时,运维系统根据当前异常发生的类别,匹配具有对应技能的运维人员,并将异常发生区域告知运维人员,运维人员对异常进行运维后,将对应的异常维修记录上传至异常数据库进行存储。
优选的,通过设置异常数据库来日常保持所有设备的维修记录,使得每次维修的记录都能被保存和查询,同时根据维修种类来进行分类,使得后续对应查询时更加方便,再通过在新的异常发生时,通过比对异常数据库中记录的历史异常维修记录来判断当前异常是否存在相似异常记录,使得当前异常能借助之前修理的经验和方法,使得修理和维护更加方便快捷,不需要再重新进行规划,提高了维修效率,同时也使得整个运维过程更加标准化,更具有效率,以及再通过设置异常等级和第一模板,使得对异常发生时的整个运维流程更加快捷,也更加精细,同时有了异常等级和第一模板,使得运维人员能更加直观的了解当前异常的情况以及后续的处理方式,使得运维效率更高,并且还设置了对第一模板的校准方式,使得第一模板能进行更新,使得第一模板能适应当前最新的情况,也使得运维人员再使用时更加方便快捷,进而达到提高运维效率的目的。
具体的,获取相似异常记录的数量,得到相似数量,根据相似数量计算异常发生间隔还包括:获取每个相似异常记录的时间点,计算相邻两个相似异常记录之间的时间间隔,得到多个第一间隔;将每个第一间隔与第一阈值进行比较,得到比较结果,根据比较结果来计算异常发生间隔。
优选的,通过设置获取每个相似异常记录的时间点,并获取对应相邻两个之间的时间间隔,通过获取每个相似记录之间的时间间隔使得每次相似异常发生之间的间隔时间,进而能得知相似异常发生的频率,进而得知该异常是否发生的过于频繁,使得获取的异常发生间隔更具有实际意义,保障后续的运维判断更加准确,同时得到的数据保障运维的效率更高。
具体的,将每个第一间隔与第一阈值进行比较,得到比较结果,根据比较结果来计算异常发生间隔还包括:当多个第一间隔均大于第一阈值时,取多个第一间隔中的最小值作为异常发生间隔;当多个第一间隔中有至少一个小于等于第一阈值时,对多个第一间隔中小于等于第一阈值的部分进行筛选计算,得到筛选结果,根据筛选结果计算异常发生间隔。
具体的,第一阈值为人为设定值,可根据实际情况进行设定。
优选的,通过设置多个第一间隔都大于第一阈值时,则说明当前异常发生的较为正常,只需要去其中的最小值最为异常发生间隔即可,而当有一个小于等于第一阈值时,则说明这两次异常发生之间时间间隔短,需要进一步关注原因,使得后续对于当前异常的重要程度的判断更加准确,也提供了数据支撑,使得后续运维的效率更高。
具体的,对多个第一间隔中小于等于第一阈值的部分进行筛选计算,得到筛选结果,根据筛选结果计算异常发生间隔还包括:当只有一个第一间隔小于等于第一阈值时,则取该第一间隔作为异常发生间隔;当小于等于第一阈值的第一间隔数量大于1时,则将多个第一间隔中小于等于第一阈值的部分取平均值,将平均值作为异常发生间隔。
具体的,在日常运维过程中,还能设定根据多个第一间隔来计算浮动区间。具体来说,在浮动区间小于设定阈值时,则判断当前异常为第一异常等级需要进行第一预警操作,在浮动区间大于等于设定阈值时,则判断当前异常等级为第三等级。
具体的,由于在日常监测中,设备的运行状况存在波动,也存在不同情况,因此根据浮动区间来进行判断,会使得对异常等级的判断更加精准和科学,进而使得后续的日常运维更加具有效率。
优选的,通过设置当只有一个第一间隔小于第一阈值时去该值为异常发生间隔,说明当前第一间隔对应的异常设备存在问题,间隔过短,需要进行排查,使得对设备的运维更加精准和方便,同时设置小于等于第一阈值的第一间隔数量大于1时,则将多个第一间隔中小于等于第一阈值的部分取平均值,通过取平均值来使得当前所获得的异常发生间隔更加贴合实际,保障后续在制定异常等级时更加精准,具有更好的实际使用意义,进而使得后续的运维制定更加具有效率。
具体的,根据相似数量和异常发生间隔确定当前异常等级还包括:当相似数量大于等于第一预警值,且异常发生间隔小于等于第一异常值,则判断当前异常等级为第一等级,并执行第一预警操作;当相似数量小于第一预警值,且异常发生间隔小于等于第一异常值,则判断当前异常等级为第二等级;当相似数量小于第一预警值,且异常发生间隔大于第一异常值,则判断当前异常等级为第三等级。
具体的,第一预警值和第一异常值为人为设定值,可根据实际情况进行设定。
优选的,通过根据相似数量和第一预警值的关系,以及异常发生间隔和第一异常值的关系来定义异常等级,使得异常等级的制定更加符合实际使用情况,同时相似数量能代表当前异常历史发生次数,而异常发生间隔能代表当前异常的发生间隔,继而能判断当前异常是否发生过于频繁,频率是否过高,进而得到的异常等级能更加贴合当前异常的实际情况,进而使得后续的异常方式时的日常运维更加方便快捷,效率更高。
具体的,判断当前异常等级为第一等级,并执行第一预警操作还包括:将所有与当前异常信息相似的相似异常记录进行整合,并提取相似异常记录中记载的异常原因和运维人员;将异常原因进行分类筛选,并统计各分类下的异常原因,得到第二分类结果;根据第二分类结果获取各分类下的异常原因的对应数量,得到分析标准值;对运维人员进行统计,判断是否为同一运维人员,得到统计结果;根据分析标准值、第二分类结果和统计结果,判断当前异常是否需要执行预警操作。
优选的,通过设置将异常信息进行整合,并提取异常原因和运维人员,并进行分类筛选和得到对应的异常原因的数量以及运维人员的数量,并根据上述数据进行判断是否需要进行预警操作,由于不同的异常原因下的处理方式和运维人员存在不同,因此根据同一分类下的异常原因来判断当前异常是否由于当前原因发生的过于频繁,进而再根据运维人员来判断是否存在修理不当的问题,使得后续对运维人员的改善提供数据基础,使得整个运维过程更加合理,同时再改善后应能保障运维系统的正常运维以及保障运维的效率。
具体的,根据分析标准值、第二分类结果和统计结果,判断当前异常是否需要执行预警操作还包括:若异常原因处于同一分类下,且对应的分析标准值大于目标阈值,同时为同一运维人员处理的异常,则判断当前异常需要派遣另一组运维人员前往处理异常。
具体的,分析标准值和目标阈值为人为设定值,可根据实际情况进行设定,其中可以理解的是,在当前异常的所有相似异常记录中,其中的异常原因在同一分类下,如电路故障分类下,且相同异常原因的数量即分析标准值大于目标阈值,且为同一运维人员记录的相似异常记录,即说明当前异常的维修存在异常,即该运维人员的运维能力存在疑问,需要派遣另一组运维人员进行运维操作。举例来说,当同一运维人员处理电力故障分类下,电力连接问题的异常数量超过了目标阈值,且该异常又以同一个原因在此发生,且异常发生间隔又短,即说明该运维人员的运维能力不足以胜任当前运维操作,需要重新选定人员进行运维。使得整个运维团队能进行持续改善优化,保障数据中心设备的日常运维的高效进行。
优选的,通过设置当异常原因在同一分类下且分析标准值大于目标阈值,且还是同一运维人员,说明当前异常发生是由于当前运维人员的问题导致该异常发生过于频繁,需要进行更换,因此当前运维系统能通过这个方式来达到对运维人员进行实时更新的目的,保障当前的运维人员能最好的适应当前的设备情况,使得整个数据中心的设备运维更加合理和具有效率,能更好的保障设备的正常运行。
具体的,将目标异常维修记录与第一模板进行比对,得到第一比较结果,根据第一比较结果,对第一模板进行校准还包括:根据目标异常维修记录在第一模板中查找对应相似信息,得到第一校准信息;判断第一校准信息是否符合安全阈值;若是,则将第一校准信息对应的内容更新到第一模板中对应的相似信息内;若否,则将第一校准信息发送至异常数据库内。
具体的,安全阈值为人为设定值,可根据实际情况进行设定。具体来说,当前异常维修完成后记录的异常维修记录即目标异常维修记录,运维人员上传该记录后,运维系统将其与第一模板中记录的内容进行比对,如不同异常原因下对应的最优解决方法,以及对应的维修人员或者运维费用等,并将不同的地方进行提取,并与安全阈值进行比较,如相同原因下解决异常所花的时间是否超过安全阈值等,并将最优化的内容更新到第一模板中,方便后续运维人员进行高效运维以及日常巡检。
优选的,通过设置根据目标异常维修记录和第一目标来进行对第一模板的校准,进而使得第一模板能进行持续更新,保障第一模板的正确指导性,同时借助安全阈值来对第一校准信息进行判断,使得第一校准信息更新到第一模板中更加准确,同时也避免了误导信息和个例信息的导入模板,保障模板的通用性,使得日常后续的运维更加效率,同时将这些个例和误导信息导入异常数据库,使得后续发生相似异常时也有参考意义,进而使得整个运维系统更加全面,达到实时更新的效果,使得后续运维人员借助运维系统进行的日常运维的效率更高。
在本发明的一个实例中,还提供一种边缘数据中心设备的智能运维系统100,如上述的智能运维方法应用于智能运维系统100中,智能运维系统100包括:储存模块110,储存模块110用于储存异常数据库;检测获取模块120,检测获取模块120用于检测和获取数据信息;判断计算模块130,判断计算模块130用于判断异常数据库中是否存在相似异常记录以及计算异常发生间隔;匹配校准模块140,匹配校准模块140用于匹配运维人员和校准第一模板。
该智能运维系统100具有上述运维方法的所有特征,因此也具有相同的技术效果,此处不再一一赘述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种边缘数据中心设备的智能运维方法,其特征在于,所述智能运维方法包括:
建立异常数据库,储存历史异常维修记录,并记录历史异常维修的时间点并按异常维修种类对所述历史异常维修记录进行分类,得到第一分类结果;
实时监测设备的数据信息,当发生设备异常时,获取异常信息;
查询所述异常数据库,将所述异常信息与所述历史异常维修记录进行比对,判断所述异常数据库中是否存在相似异常记录;
若存在,则获取相似异常记录的数量,得到相似数量,根据所述相似数量计算异常发生间隔;
根据所述相似数量和所述异常发生间隔确定当前异常等级;
将所述相似异常记录整合为第一模板,根据所述异常等级和所述第一模板和所述第一分类结果匹配对应运维人员,在运维人员维修完成后,记录当前维修记录为目标异常维修记录;
将所述目标异常维修记录与所述第一模板进行比对,得到第一比较结果,根据所述第一比较结果,对所述第一模板进行校准;
若不存在,则根据第一分类结果,判断所述异常信息的分类,得到第一判断结果,根据所述第一判断结果匹配对应分类下的运维人员前往维修。
2.根据权利要求1所述的边缘数据中心设备的智能运维方法,其特征在于,所述获取相似异常记录的数量,得到相似数量,根据所述相似数量计算异常发生间隔还包括:
获取每个相似异常记录的时间点,计算相邻两个相似异常记录之间的时间间隔,得到多个第一间隔;
将每个第一间隔与第一阈值进行比较,得到比较结果,根据比较结果来计算异常发生间隔。
3.根据权利要求2所述的边缘数据中心设备的智能运维方法,其特征在于,所述将每个第一间隔与第一阈值进行比较,得到比较结果,根据比较结果来计算异常发生间隔还包括:
当所述多个第一间隔均大于所述第一阈值时,取所述多个第一间隔中的最小值作为所述异常发生间隔;
当所述多个第一间隔中有至少一个小于等于所述第一阈值时,对所述多个第一间隔中小于等于所述第一阈值的部分进行筛选计算,得到筛选结果,根据所述筛选结果计算所述异常发生间隔。
4.根据权利要求3所述的边缘数据中心设备的智能运维方法,其特征在于,所述对所述多个第一间隔中小于等于所述第一阈值的部分进行筛选计算,得到筛选结果,根据所述筛选结果计算所述异常发生间隔还包括:
当只有一个第一间隔小于等于第一阈值时,则取该第一间隔作为异常发生间隔;
当小于等于第一阈值的第一间隔数量大于1时,则将所述多个第一间隔中小于等于第一阈值的部分取平均值,将所述平均值作为所述异常发生间隔。
5.根据权利要求1所述的边缘数据中心设备的智能运维方法,其特征在于,根据所述相似数量和所述异常发生间隔确定当前异常等级还包括:
当所述相似数量大于等于第一预警值,且所述异常发生间隔小于等于第一异常值,则判断当前异常等级为第一等级,并执行第一预警操作;
当所述相似数量小于第一预警值,且所述异常发生间隔小于等于第一异常值,则判断当前异常等级为第二等级;
当所述相似数量小于第一预警值,且所述异常发生间隔大于第一异常值,则判断当前异常等级为第三等级。
6.根据权利要求5所述的边缘数据中心设备的智能运维方法,其特征在于,所述判断当前异常等级为第一等级,并执行第一预警操作还包括:
将所有与当前异常信息相似的相似异常记录进行整合,并提取相似异常记录中记载的异常原因和运维人员;
将所述异常原因进行分类筛选,并统计各分类下的异常原因,得到第二分类结果;
根据所述第二分类结果获取各分类下的异常原因的对应数量,得到分析标准值;
对所述运维人员进行统计,判断是否为同一运维人员,得到统计结果;
根据所述分析标准值、所述第二分类结果和所述统计结果,判断当前异常是否需要执行预警操作。
7.根据权利要求6所述的边缘数据中心设备的智能运维方法,其特征在于,所述根据所述分析标准值、所述第二分类结果和所述统计结果,判断当前异常是否需要执行预警操作还包括:
若所述异常原因处于同一分类下,且对应的分析标准值大于目标阈值,同时为同一运维人员处理的异常,则判断当前异常需要派遣另一组运维人员前往处理异常。
8.根据权利要求1所述的边缘数据中心设备的智能运维方法,其特征在于,所述将所述目标异常维修记录与所述第一模板进行比对,得到第一比较结果,根据所述第一比较结果,对所述第一模板进行校准还包括:
根据所述目标异常维修记录在所述第一模板中查找对应相似信息,得到第一校准信息;
判断所述第一校准信息是否符合安全阈值;
若是,则将所述第一校准信息对应的内容更新到所述第一模板中对应的相似信息内;
若否,则将所述第一校准信息发送至所述异常数据库内。
9.一种边缘数据中心设备的智能运维系统,其特征在于,如权利要求1至8中任意一项所述的智能运维方法应用于所述智能运维系统中,所述智能运维系统包括:
储存模块,所述储存模块用于储存所述异常数据库;
检测获取模块,所述检测获取模块用于检测和获取所述数据信息;
判断计算模块,所述判断计算模块用于判断所述异常数据库中是否存在相似异常记录以及计算异常发生间隔;
匹配校准模块,所述匹配校准模块用于匹配运维人员和校准所述第一模板。
CN202410021041.2A 2024-01-08 2024-01-08 一种边缘数据中心设备的智能运维方法和系统 Active CN117520999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410021041.2A CN117520999B (zh) 2024-01-08 2024-01-08 一种边缘数据中心设备的智能运维方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410021041.2A CN117520999B (zh) 2024-01-08 2024-01-08 一种边缘数据中心设备的智能运维方法和系统

Publications (2)

Publication Number Publication Date
CN117520999A true CN117520999A (zh) 2024-02-06
CN117520999B CN117520999B (zh) 2024-04-05

Family

ID=89746057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410021041.2A Active CN117520999B (zh) 2024-01-08 2024-01-08 一种边缘数据中心设备的智能运维方法和系统

Country Status (1)

Country Link
CN (1) CN117520999B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930350A (zh) * 2016-04-07 2016-09-07 国电南瑞科技股份有限公司 基于定制模板的电网事故关联信息提取方法
JP2017146632A (ja) * 2016-02-15 2017-08-24 神奈川トヨタ自動車株式会社 買い替え時期判断方法、買い替え時期判断システム、及びプログラム
CN108345282A (zh) * 2018-02-09 2018-07-31 杭州亚大自动化有限公司 一种基于人工智能的泵站运行异常诊断方法及系统
CN109040278A (zh) * 2018-08-20 2018-12-18 山东润智能科技有限公司 医院电气及动力系统安全智能管理云平台、方法及系统
CN109325601A (zh) * 2018-08-21 2019-02-12 国网江苏省电力有限公司泰州供电分公司 物流设备故障监测运维管理方法
US10949814B1 (en) * 2019-05-09 2021-03-16 Ccc Information Services Inc. Intelligent vehicle repair estimation system
CN112785160A (zh) * 2021-01-25 2021-05-11 杭州易达光电有限公司 一种光伏运维管理信息展示平台
CN113869791A (zh) * 2021-10-20 2021-12-31 深圳供电局有限公司 一种基于日志模型的电网运维修复方法
CN115458144A (zh) * 2022-09-29 2022-12-09 筑加智慧城市建设有限公司 一种智慧医院的运维管理方法及系统
KR102479755B1 (ko) * 2021-11-30 2022-12-23 팩트얼라이언스 주식회사 실시간 센싱 데이터 기반의 중전기기 예방정비 권고 시스템 및 그 방법
CN116756021A (zh) * 2023-06-21 2023-09-15 中山大学 基于事件分析的故障定位方法、装置、电子设备及介质
CN116797404A (zh) * 2023-05-29 2023-09-22 青岛钰贝建筑工程科技有限公司 基于大数据和数据处理的智能建筑运维监管系统
CN116911829A (zh) * 2023-07-25 2023-10-20 广东电网有限责任公司 一种配电房运维管理方法及系统
JP7383207B1 (ja) * 2023-03-31 2023-11-17 三菱電機株式会社 モータの異常判定システム
CN117150418A (zh) * 2023-10-31 2023-12-01 国网浙江省电力有限公司宁波供电公司 基于状态特征故障树的变压器运检周期制定方法和系统
CN117314244A (zh) * 2023-10-07 2023-12-29 中节能(石家庄)环保能源有限公司 一种基于数据分析的工艺流程数据监管系统及方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146632A (ja) * 2016-02-15 2017-08-24 神奈川トヨタ自動車株式会社 買い替え時期判断方法、買い替え時期判断システム、及びプログラム
CN105930350A (zh) * 2016-04-07 2016-09-07 国电南瑞科技股份有限公司 基于定制模板的电网事故关联信息提取方法
CN108345282A (zh) * 2018-02-09 2018-07-31 杭州亚大自动化有限公司 一种基于人工智能的泵站运行异常诊断方法及系统
CN109040278A (zh) * 2018-08-20 2018-12-18 山东润智能科技有限公司 医院电气及动力系统安全智能管理云平台、方法及系统
CN109325601A (zh) * 2018-08-21 2019-02-12 国网江苏省电力有限公司泰州供电分公司 物流设备故障监测运维管理方法
US10949814B1 (en) * 2019-05-09 2021-03-16 Ccc Information Services Inc. Intelligent vehicle repair estimation system
CN112785160A (zh) * 2021-01-25 2021-05-11 杭州易达光电有限公司 一种光伏运维管理信息展示平台
CN113869791A (zh) * 2021-10-20 2021-12-31 深圳供电局有限公司 一种基于日志模型的电网运维修复方法
KR102479755B1 (ko) * 2021-11-30 2022-12-23 팩트얼라이언스 주식회사 실시간 센싱 데이터 기반의 중전기기 예방정비 권고 시스템 및 그 방법
CN115458144A (zh) * 2022-09-29 2022-12-09 筑加智慧城市建设有限公司 一种智慧医院的运维管理方法及系统
JP7383207B1 (ja) * 2023-03-31 2023-11-17 三菱電機株式会社 モータの異常判定システム
CN116797404A (zh) * 2023-05-29 2023-09-22 青岛钰贝建筑工程科技有限公司 基于大数据和数据处理的智能建筑运维监管系统
CN116756021A (zh) * 2023-06-21 2023-09-15 中山大学 基于事件分析的故障定位方法、装置、电子设备及介质
CN116911829A (zh) * 2023-07-25 2023-10-20 广东电网有限责任公司 一种配电房运维管理方法及系统
CN117314244A (zh) * 2023-10-07 2023-12-29 中节能(石家庄)环保能源有限公司 一种基于数据分析的工艺流程数据监管系统及方法
CN117150418A (zh) * 2023-10-31 2023-12-01 国网浙江省电力有限公司宁波供电公司 基于状态特征故障树的变压器运检周期制定方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘娜;刘渊康;: "基于智能感知的监控运维故障诊断技术探讨", 中国交通信息化, no. 03, 15 March 2020 (2020-03-15) *
王志强;吴庆;张拯;胡斌;杨乐;宋潇杨;: "基于异常分析的电力信息通信系统运维策略", 陕西电力, no. 04, 20 April 2016 (2016-04-20) *

Also Published As

Publication number Publication date
CN117520999B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN108445410B (zh) 一种监测蓄电池组运行状态的方法及装置
JP6356304B2 (ja) 保守有効性推定に基づく保守推奨システム
EP3105644B1 (en) Method of identifying anomalies
CN112929613B (zh) 一种基于图像识别进行设备运维的巡检方法及系统
CN110727531A (zh) 一种线上系统的故障预测及处理方法及系统
CN115174639B (zh) 一种基于物联网的工业设备管理方法和系统
CN116028887B (zh) 一种连续性工业生产数据的分析方法
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN111994137A (zh) 一种基于铁路信号集中监测的报警分析方法
CN108763966B (zh) 一种尾气检测作弊监管系统及方法
CN116166983A (zh) 一种基于机器学习的列车弓网故障检测方法
CN117078227A (zh) 一种基于标识解析的环境监测运维平台
CN117474357A (zh) 基于深度学习的配电房运维管理方法及系统
CN117150418B (zh) 基于状态特征故障树的变压器运检周期制定方法和系统
CN117520999B (zh) 一种边缘数据中心设备的智能运维方法和系统
CN117607780A (zh) 一种电能计量装置异常分析系统及其分析方法
CN108664696B (zh) 一种冷水机组运行状态的测评方法及装置
CN115587312A (zh) 一种基于多维大数据分析的故障点定位方法和系统
CN115270982A (zh) 一种基于多元数据神经网络的开关柜故障预测方法
CN115147236A (zh) 一种处理方法、处理装置和电子设备
CN112114242B (zh) 一种自动化ic测试的在线监测和分析方法
CN117310422B (zh) 一种火工品电阻器性能测试方法及系统
CN116453437B (zh) 显示屏模组的测试方法、装置、设备及存储介质
CN117420811B (zh) 一种用于自动化生产的生产线质量监测方法及系统
CN117473394A (zh) 变电站二次设备可靠性评估方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant