CN117614862A - 设备运行数据的检测方法及装置、存储介质及电子设备 - Google Patents

设备运行数据的检测方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117614862A
CN117614862A CN202311647185.0A CN202311647185A CN117614862A CN 117614862 A CN117614862 A CN 117614862A CN 202311647185 A CN202311647185 A CN 202311647185A CN 117614862 A CN117614862 A CN 117614862A
Authority
CN
China
Prior art keywords
operation data
devices
ith
type
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311647185.0A
Other languages
English (en)
Inventor
李军
尚俊坤
杨逍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp Hubei Branch
Original Assignee
China Construction Bank Corp Hubei Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp Hubei Branch filed Critical China Construction Bank Corp Hubei Branch
Priority to CN202311647185.0A priority Critical patent/CN117614862A/zh
Publication of CN117614862A publication Critical patent/CN117614862A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种设备运行数据的检测方法及装置、存储介质及电子设备,其中,该方法包括:根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合;根据预设的M个参考数值范围,检测M个运行数据集合中的运行数据是否在M个参考数值范围中对应参考数值范围之外;在检测出第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据时,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作。

Description

设备运行数据的检测方法及装置、存储介质及电子设备
技术领域
本申请实施例涉及车辆技术领域,具体而言,涉及一种设备运行数据的检测方法及装置、存储介质及电子设备。
背景技术
数据中心是全球协作的大型设备网络,用来在因特网的网络基础设施上传递、加速、展示、计算和存储数据信息。随着计算机和数据量的增多,数据中心能够为大量人员提供信息,是信息化时代的重要标志之一。
数据中心功能极为复杂重要,一旦数据中心出现故障则损失巨大。当监控环境中出现严重告警和故障时,若不能及时处理而出现停运和宕机的现象,那么可能造成数据丢失、数据紊乱等难以估量的损失。因此,对于大型的对监控运维要求特别高的数据中心,能够做到全天监控尤其重要,这就需要为数据中心定制监控平台,以保证数据中心健康安全运行。
然而,传统的采集工具的检测功能以及检测数据的阈值较为固定,在设备发生更新或者更换的情况下,传统采集工具可能无法准确检测出该设备在运行中出现的异常。由此可见,相关技术中的设备运行数据的检测方法,存在检测成本较高的问题。
发明内容
本申请实施例提供了一种设备运行数据的检测方法及装置、存储介质及电子设备,以至少解决相关技术中的设备运行数据的检测方法存在检测成本较高的问题。
根据本申请的一个实施例,提供了设备运行数据的检测方法,包括:根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,所述第一类型指示信息用于指示需要获取的运行数据的所述M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,所述M个运行数据集合中的一个运行数据集合的类型是所述M个类型中对应的一个类型;根据预设的M个参考数值范围,检测所述M个运行数据集合中的每个运行数据集合中的运行数据是否位于所述M个参考数值范围中对应的参考数值范围之外;在检测出所述M个运行数据集合中的第i个运行数据集合中的P个运行数据位于所述M个参考数值范围中的第i个参考数值范围之外、所述第i个运行数据集合的类型是所述M个类型中的第i个类型、且所述P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与所述i个类型对应的第i个处置脚本,以对所述P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,所述第i个模块用于产生所述第i个类型的运行数据,所述第i个修复操作用于使得所述P个设备中的每个设备的所述第i个类型的运行数据位于所述第i个参考数值范围之内。
根据本申请的又一个实施例,提供了一种设备运行数据的检测装置,包括:第一获取单元,用于根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,所述第一类型指示信息用于指示需要获取的运行数据的所述M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,所述M个运行数据集合中的一个运行数据集合的类型是所述M个类型中对应的一个类型;第一检测单元,用于根据预设的M个参考数值范围,检测所述M个运行数据集合中的每个运行数据集合中的运行数据是否位于所述M个参考数值范围中对应的参考数值范围之外;第一触发单元,用于在检测出所述M个运行数据集合中的第i个运行数据集合中的P个运行数据位于所述M个参考数值范围中的第i个参考数值范围之外、所述第i个运行数据集合的类型是所述M个类型中的第i个类型、且所述P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与所述i个类型对应的第i个处置脚本,以对所述P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,所述第i个模块用于产生所述第i个类型的运行数据,所述第i个修复操作用于使得所述P个设备中的每个设备的所述第i个类型的运行数据位于所述第i个参考数值范围之内。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述设备运行数据的检测方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述设备运行数据的检测方法。
通过本申请实施例,采用基于预设类型指示信息和预设参考数值范围确定设备运行中的异常并自动处置异常的方式,由于对设备的运行数据的采集是按照预设类型指示信息进行的,改变预设的类型指示信息,即可改变采集的设备的运行数据的类型,在当前设备发生更新或者更换的情况下,采集工具可以按照新的类型指示信息进行数据的采集,并按照新的参考数值范围进行数据检测,无需对采集工具进行更换,可以降低采集分析工具的维护成本。此外,在检测到数据异常的情况下,可以根据异常数据自动确定对异常的处置脚本,可以实现在一个采集工具中同时完成对数据的采集、分析和处理的操作,从而达到降低检测成本技术效果,解决了相关技术中的设备运行数据的检测方法存在检测成本较高的问题。
附图说明
图1是本申请实施例的一种可选的设备运行数据的检测方法的硬件结构框图;
图2是根据本申请实施例的一种可选的设备运行数据的检测方法的流程示意图;
图3是根据本申请实施例的一种可选的设备运行数据的检测方法的示意图;
图4是根据本申请实施例的另一种可选的设备运行数据的检测方法的流程示意图;
图5是根据本申请实施例的又一种可选的设备运行数据的检测方法的流程示意图;
图6是根据本申请实施例的又一种可选的设备运行数据的检测方法的流程示意图;
图7是根据本申请实施例的一种可选的设备运行数据的检测装置的结构框图;
图8是根据本申请实施例的一种可选的电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种设备运行数据的检测方法。可选地,在本实施例中,上述设备运行数据的检测方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI,蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑等设备。
本申请实施例的设备运行数据的检测方法可以由服务器104来执行,也可以由服务器104和终端设备102共同执行。以由服务器104来执行本实施例中的设备运行数据的检测方法为例,图2是根据本申请实施例的一种可选的设备运行数据的检测方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,M个运行数据集合中的一个运行数据集合的类型是M个类型中对应的一个类型。
本实施例中的设备运行数据的检测方法可以应用到对运行中的设备进行监控处置的场景。这里对设备进行的监控处置,可以包括对处于运行状态的设备进行监控,根据监控到的异常生成告警,并为告警内容匹配对应的自动化脚本及工具以处置告警。
传统的监控工具存在以下问题:
传统的监控工具功能和监控指标的扩展性较差,维护成本高,管理复杂、使用和推广难度大;
传统的监控工具监控告警的阈值不够灵活,监控告警的误报、漏报较高,同时缺乏对监控告警的分析能力和自动化处置能力,运维效率低;
传统独立的“竖井式”运维监控工具数据分散,无法有效融合互通,无法覆盖运维过程中所需的“监、管、控、析”场景。
为了至少部分解决上述问题,可以通过构建新的监控处置流程平台,借助中台化架构,实现故障智能化处置运维场景。在本实施例中,可以按照预设的类型指示信息,对监控对象(即,设备)进行运行数据的采集。这里的预设类型指示信息,可以是指根据当前监控需求所预设的监控指标。可以是根据当前设备的类型或者设备规模所确定的监控指标,也可以是根据用户操作(如,基于用户在平台上所显示的一组监控指标中进行的选择,或者根据用户输入的监控脚本等)所确定的监控指标。
上述平台可以是由三层结构组成,分别是面向用户交互界面的运维前台、资源整合和应用的运维业务中台和数据(采集、存储和转发)服务的运维中台底座。如图3所示,运维前台包括运维门户,用户登录平台入口,可以执行以下操作:对用户角色、系统功能的权限进行分配;数据采集的参数设置和管控;自动化工具的编写、使用和运行结果查看;访问可视化大屏;查看受控对象的监控指标和告警信息。通过设计、配置和展示可视化大屏,可以用于监控室值班对采集到的数据进行查看。在运维前台,还可以进行报表管理,根据业务需求,统计和图形化展示各种指标的数据报表。
运维业务中台包括资源配置管理,对采集的受控对象,以及采集指标,按特定规则进行分类归档和层叠显示。在运维中台,可以编写自动化脚本,支持多对象地批量执行,执行后可查看并导出运行结果。还可以将各类受控对象的告警信息统一推送到告警管理平台,以对象类型、时间先后、告警级别分类管理和查阅。
运维中台底座可以包括采控平台、数据平台、运维服务总线,在采控平台,可以对各类受控对象的监控指标数据通过Agent代理或其它采控协议进行数据采集和管控。在数据平台,可以对采集的数据按类别(监控指标、运行日志、审计分析)进行集中存储,分类归档。运维服务总线主要用于对不同服务对象、组件和系统间,进行统一管理系统组件、调用接口、功能模块和消息转发等。
图3中的运维资源对象可以是被平台所监控的对象,包括但不限于操作系统、数据库、中间件、应用、日志、云平台、服务器、存储装置、网络、安全设备等。
上述N个设备中的每个设备可以是实体设备,如服务器、网络设备、安全设备等,还可以是实体设备中的软件资源,如操作系统、数据库、中间件等。上述运行数据可以是在设备运行过程中,采集到的设备状态数据,如CPU(Central Processing Unit,中央处理器)或者内存的使用率等。
上述M个运行数据集合中的一个运行数据集合所对应的设备,可以是上述N个设备中、有与该运行数据集合所对应的类型的数据的设备。
步骤S204,根据预设的M个参考数值范围,检测M个运行数据集合中的每个运行数据集合中的运行数据是否位于M个参考数值范围中对应的参考数值范围之外。
需要说明的是,本实施例中的M个参考数值范围中的每个参考数值范围,可以是按照不同的运行数据类型所进行设置的,不同类型的运行数据可以有不同的参考数值范围,不同类型的设备所对应的同一类型的参考数值范围可以相同,也可以不同。每个参考数值范围所对应的具体数值可以是根据当前设备类型确定的。
以采集到的设备的运行数据为内存的使用率为例,可以通过计算设备的swap(Swap space,即,虚拟内存)空闲率来确定内存的使用率,如果swap空闲率低,说明系统内存资源紧张,需要增加物理内存或优化内存使用,可以基于经验选择适当的数值(如10%~20%),作为与swap空闲率对应的一个参考数值范围。
可选地,对于采集到的M个运行数据集合,在进行上述数值分析的同时,还可以按照预设规则进行分类和储存,并按照类型、时间以及故障所对应的等级进行分类管理。这里,对数据进行分类和存储,可以是由ElasticSearch(一种分布式全文搜索引擎)数据集群完成的。
步骤S206,在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,第i个模块用于产生第i个类型的运行数据,第i个修复操作用于使得P个设备中的每个设备的第i个类型的运行数据位于第i个参考数值范围之内。
需要说明的是,对一个或者多个设备来说,可以在检测到具有一定关联的、多种类型的数据同时位于对应参考数值范围之外的情况下,确定发生故障,并触发相应的处置脚本,也可以在检测到一种类型的数据位于对应参考数值范围之外的情况下,就确定发生故障,并触发相应的处置脚本。
可选地,检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,还可以在平台上显示与该故障对应的设备的实时数据以及该设备的历史数据,这里的实时数据可以是当前采集到的运行数据,历史数据可以是历史采集到的运行数据和历史发生过故障报警信息。
上述处置脚本,可以是在检测到故障时自动运行的,也可以是在检测到故障后,响应于检测到的确认执行的指令信息所启动运行的。
通过上述步骤S202至步骤S206,根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,M个运行数据集合中的一个运行数据集合的类型是M个类型中对应的一个类型;根据预设的M个参考数值范围,检测M个运行数据集合中的每个运行数据集合中的运行数据是否位于M个参考数值范围中对应的参考数值范围之外;在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,第i个模块用于产生第i个类型的运行数据,第i个修复操作用于使得P个设备中的每个设备的第i个类型的运行数据位于第i个参考数值范围之内,解决了相关技术中的设备运行数据的检测方法存在检测成本较高的问题。
在一个示例性实施例中,根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,包括:
S11,根据第一类型指示信息,在一组采集工具采集到的N个设备的运行数据中获取M个运行数据集合,其中,一组采集工具中的第一部分采集工具用于采用第一采集方式采集N个设备中的第一部分设备的运行数据,一组采集工具中的第二部分采集工具用于采用第二采集方式采集N个设备中的第二部分设备的运行数据,第一采集方式与第二采集方式不同;或者,一组采集工具中的第一部分采集工具用于采用第一采集方式采集N个设备中第一部分类型的运行数据,一组采集工具中的第二部分采集工具用于采用第二采集方式采集N个设备中第二部分类型的运行数据,第一采集方式与第二采集方式不同。
需要说明的是,对N个设备的M个类型的运行数据,可以是通过一个采集工具所采集到的,也可以是通过多个不同的采集工具所采集到的。不同采集工具的采集方式或者采集功能可以不完全相同。
在本实施例中,一组采集工具可以分为两种类型的工具,即第一部分采集工具和第二部分采集工具。属于不同部分的采集工具可以分别用于采集N个设备中的部分设备,即N个设备中部分设备的运行数据被第一部分采集工具采集,N个设备中的另一部分设备的运行数据被第二部分采集工具采集。此外,数据不同部分的采集工具也可以分别用于采集每个设备的不同类型的运行数据,即N个设备中每个设备的部分运行数据被第一部分采集工具采集,N个设备中每个设备的另一部分运行数据被第二部分采集工具采集。
可选地,在一组采集工具采集到的N个设备的运行数据中获取M个运行数据集合之前,上述方法还包括以下之一:
通过第一部分采集工具采用第一采集方式采集第一部分设备的运行数据,并通过第二部分采集工具采用第二采集方式采集第二部分设备的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与第一部分设备建立通信连接,并通过第一部分采集工具与第一部分设备建立的通信连接获取第一部分设备的运行数据,第二采集方式是指第二部分采集工具直接与第二部分设备建立通信连接,并通过第二部分采集工具与第二部分设备建立的通信连接获取第二部分设备的运行数据;
通过第一部分采集工具采用第一采集方式采集第一部分设备的运行数据,并通过第二部分采集工具采用第二采集方式采集第二部分设备的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与第一部分设备建立通信连接,并通过第一部分采集工具与第一部分设备建立的通信连接获取第一部分设备的运行数据,第二采集方式是指第二部分采集工具通过第二代理工具与第二部分设备建立通信连接,并通过第二部分采集工具与第二部分设备建立的通信连接获取第二部分设备的运行数据,第一代理工具与第二代理工具不同;
通过第一部分采集工具采用第一采集方式采集N个设备中第一部分类型的运行数据,并通过第二部分采集工具采用第二采集方式采集N个设备中第二部分类型的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与N个设备建立通信连接,并通过第一部分采集工具与N个设备建立的通信连接获取N个设备中第一部分类型的运行数据,第二采集方式是指第二部分采集工具直接与N个设备建立通信连接,并通过第二部分采集工具与N个设备建立的通信连接获取N个设备中第二部分类型的运行数据;
通过第一部分采集工具采用第一采集方式采集N个设备中第一部分类型的运行数据,并通过第二部分采集工具采用第二采集方式采集N个设备中第二部分类型的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与N个设备建立通信连接,并通过第一部分采集工具与N个设备建立的通信连接获取N个设备中第一部分类型的运行数据,第二采集方式是指第二部分采集工具通过第二代理工具与N个设备建立通信连接,并通过第二部分采集工具与N个设备建立的通信连接获取N个设备中第二部分类型的运行数据。
需要说明的是,前述第一部分采集工具和第二部分采集工具可以均需要依靠代理工具(但是是两种不同的代理工具)进行数据采集,也可以只有其中之一需要依靠代理工具来采集数据,另一部分为可直接采集设备数据的工具。代理工具可以是Agent(代理)工具,通过在待采集的设备上安装Agent工具,可以实现对该设备的数据的采集。
例如,与图3对应的监控数据的流向过程,可以如图4所示,数据由各类监控工具采集,上传至运维采控平台,再经由运维数据中台进行数据处理,最后由统一监控平台进行数据展示。数据的具体流向分析过程如图5所示,性能数据(即,类型指示信息所指示的运行数据)可以由Agent、开源监控工具或者其他监控工具上传至运维采控平台,Agent工具可以直接将数据上传至采控平台,也可以是通过Proxy(一种代理软件)上传至采控平台,开源监控工具可以以数据表的形式将数据上传至运维采控平台,各类监控工具采集到的数据通过数据同步器(包括二进制文件同步和其他格式数据的同步)进行数据同步,并进入运维数据中台进行数据处理。数据处理过程中,通过Kafka(一种高吞吐量的分布式发布订阅消息系统)、Spark(一种快速通用的集群计算平台)等转发至ElasticSearch进行数据处理,得到处理后的指标数据,指标数据上传至监控服务,此外,经Kafka处理过的与告警相关的数据转发至Flink(一种面向分布式数据流处理和批量数据处理的开源计算平台)中进行告警数据的判别,此外,开源监控工具和其他监控工具也可以直接上传告警数据至运维数据中台,结合Flink判别的告警数据,由Kafka处理后上传至告警服务。告警服务可以提高调用配置数据、指标数据和缓存数据的功能。监控服务也可以通过API(Application ProgrammingInterface,应用程序编程接口)接口(包括开源监控API接口、采控API接口等),调用配置数据、指标数据和缓存数据以及采控平台实时采集到的数据。
在本实施例中,可以是第一部分采集工具通过代理工具与部分设备连接,第二部分采集工具直接与另一部分设备连接;也可以是第一部分采集工具通过代理工具与部分设备连接,第二部分采集工具通过代理工具与另一部分设备连接;还可以是第一部分采集工具通过代理工具与全部设备连接,第二部分采集工具直接与全部设备连接;还可以是第一部分采集工具通过代理工具与全部设备连接,第二部分采集工具通过代理工具与全部设备连接。
直接与设备连接以完成数据采集的工具,可以是开源监控工具,也可以是第三方监控工具,还可以同时包含开源监控工具和第三方监控工具。
可选地,对于不同工具所采集到的不同运行数据,可以通过数据同步器进行数据同步,以保证数据的一致性和实效性。
通过本实施例,通过不同类型的采集工具采用不同的采集方式对设备的运行数据进行采集,可以提高采集到的数据的全面性,从而提高对设备监控的准确性。
在一个示例性实施例中,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,包括以下之一:
S21,在第i个模块是硬件模块的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行硬件修复操作,其中,第i个修复操作包括硬件修复操作;
S22,在第i个模块是软件模块的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行软件修复操作,其中,第i个修复操作包括软件修复操作。
需要说明的是,在确定设备出现故障的情况下,可以针对故障类型,先确定对设备中的硬件进行修复还是设备中运行的软件进行修复。不同故障对应不同的处置脚本。
上述处置脚本可以是预先设置的处置脚本,也可以是根据历史故障处置方式,采集到的处置脚本。
可选地,在同时确定出现多个故障的情况下,可以同时多个处置脚本对对应的硬件或者软件进行修复,也可以按照预先设置的优先级,结合当前多个故障发生的类型、重要程度等信息按照先后顺序执行处置脚本。
可选地,在第i个模块是硬件模块的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行硬件修复操作,包括:
在第i个模块是内存的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行内存清理操作或内存扩展操作,其中,硬件修复操作包括内存清理操作或内存扩展操作,内存清理操作用于清理内存,内存扩展操作用于扩展内存的容量;或者
在第i个模块是处理器的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行资源释放操作,其中,硬件修复操作包括资源释放操作,资源释放操作用于释放处理器的运算资源。
需要说明的是,在运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的内存执行第i个修复操作时,第i个类型可以的数据可以是内存占用率高于对应预设阈值,也可以是内存剩余容量低于对应预设阈值。
在运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的处理器执行第i个修复操作时,第i个类型可以的数据可以是处理器的运算资源的占用率高于对应预设阈值。
通过本实施例,对于位于预设数之范围之外的不同类型的数据,分别采用对应的处置脚本对对应的模块进行修复,可以提高故障的修复效率。
在一个示例性实施例中,上述方法还包括:
S31,在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,显示与i个类型对应的第i个告警信息,其中,第i个告警信息用于提示第i个类型的运行数据出现异常,或者,用于提示P个设备的运行数据出现异常,或者,用于提示P个设备的第i个类型的运行数据出现异常。
需要说明的是,对于数据是否位于对应参考数值范围之外的判断,可以是由Flink进行的。通过Flink判别后的数据,对于有异常的数据可以转发给告警服务的消息总线,以在前述平台上显示与该数据对应的告警信息。这里的告警信息可以表示第i个类型的运行数据出现异常,也可以表示P个设备的运行数据出现异常,还可以表示P个设备的第i个类型的运行数据出现异常。
在显示告警信息的同时,还可以关联出与该告警信息对应的历史告警信息,可以直接在显示告警信息的同时显示历史告警信息,也可以在显示告警信息的同时显示指示历史告警信息的链接,以由用户通过该链接查看历史告警信息。此外,在显示告警信息的同时,还可以显示与该告警信息对应的实时运行数据,可以通过链接的方式显示。
可选地,在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,还可以通过Redis(一种基于内存的数据结构存储系统)调取频繁使用的缓存数据信息,通过ElasticSearch(一种分布式全文搜索引擎)调阅历史性能数据和告警数据信息,并通过调用采控API实现对受控对象(即,被采集数据的设备)的功能和性能的管控。
通过本实施例,对于异常的数据在对应平台上显示与该异常对应的告警信息,可以提高用户对异常原因的判断效率。
在一个示例性实施例中,在根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合之后,上述方法还包括:
S41,根据预设的第二类型指示信息,获取N个设备中的每个设备的Q个类型的运行数据,得到Q个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的Q个类型,Q为大于或者等于1的正整数,Q个运行数据集合中的一个运行数据集合的类型是Q个类型中对应的一个类型,Q个类型与M个类型部分不同或完全不同;
S42,根据预设的Q个参考数值范围,检测Q个运行数据集合中的每个运行数据集合中的运行数据是否位于Q个参考数值范围中对应的参考数值范围之外;
S43,在检测出Q个运行数据集合中的第j个运行数据集合中的K个运行数据位于Q个参考数值范围中的第j个参考数值范围之外、第j个运行数据集合的类型是Q个类型中的第j个类型、且K个运行数据是N个设备中的K个设备的运行数据的情况下,触发运行与j个类型对应的第j个处置脚本,以对K个设备中的每个设备中的第j个模块执行第j个修复操作,其中,j为大于或等于1、且小于或等于Q的正整数,K为大于或等于1、且小于或等于N的正整数,第j个模块用于产生第j个类型的运行数据,第j个修复操作用于使得K个设备中的每个设备的第j个类型的运行数据位于第j个参考数值范围之内。
需要说明的是,本实施例中的类型指示信息和不同类型数据的参考数值范围都是可以修改和更新的,用户可以编写代码或者在平台相关界面输入数据等方式,修改或者更新类型指示信息和不同类型数据的参考数值范围。对于修改或者更新后的类型指示信息和不同类型数据的参考数值范围的使用方式,可以与前述实施例相同,本实施例在此不做赘述,
通过本实施例,通过修改或者更新后的类型指示信息和不同类型数据的参考数值范围,可以在待监控设备发生更新或者更换时,无需对监控平台进行复杂的更新,从而降低检测成本。
下面结合可选示例对本实施例中的设备运行数据的检测方法进行解释说明。在本实施例中,类型指示信息为性能指标,参考数值范围为数据阈值。
本可选示例中提供了一种监控联动处置方法系统装置,采用中台化架构,围绕运维业务,下沉通用能力,采用微服务化运维app(application,应用程序),可以提供灵活快速的场景扩展能力。同时,支持采用代理和非代理两种方式对设备进行监控,对于不同的监控指标采用不同的数据采集方式,可以实现全范围的监控信息采集。此外,支持分布式采控汇聚,通过proxy进行跨网络、多域的统一纳管,可以实现多网络分区环境下的资源纳管。在监控处置平台中,提供常规监控模板,通过监控模板实现对某类监控对象的监控指标进行统一管理、包含指标定义、采集频率、告警阈值等内容,可以提高监控指标定义的复用性。通过告警详情匹配自动关联到运维工具箱中的处置脚本,可以实现故障的告警和联动处理。
如图6所示,设备运行数据的检测流程可以包括:
步骤1,按照预设的性能指标,通过代理工具和其他监控工具进行数据采集。
通过统一的Agent及其集群代理,开源监控工具和第三方监控工具采集操作系统、数据库、中间件等性能指标数据和告警数据,性能指标可以修改。
步骤2,将通过代理工具采集到的数据推送到采控平台,并结合其他监控工具采集到的数据进行数据同步。
自研的Agent及其集群代理采集性能指标数据推送到采控平台;开源监控工具采集监控指标数据经数据库入库后推送到数据同步器;第三方监控工具采集性能指标数据推送到数据同步器,告警数据直接转发给告警服务的消息总线。
步骤3,对数据进行清洗、分类并推送至监控服务,并将异常数据转发给告警服务。
采控平台和数据同步器的监控指标数据经监控服务的消息总线,转发给ElasticSearch数据集群进行数据清洗、分类整理和归档入库。性能数据中包含告警信息部分的数据经Flink判别后,转发给告警服务的消息总线。对数据进行判别的数据阈值支持修改。
步骤4,显示当前各对象的性能指标数据以及异常数据的告警信息,并提供查看历史数据的服务。
监控服务和警告服务可分别查看受控对象的各类性能指标数据和对应的实时和历史告警信息。通过Redis调取频繁使用的缓存数据信息;通过ElasticSearch调阅历史性能数据和告警数据信息;通过调用采控API接口,实现对受控对象的功能和性能管控。
通过本可选示例,通过一个平台实现对运维过程中所需的“监、管、控、析”场景的融合,可以有效降低检测成本,并提高监控效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件服务器的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述设备运行数据的检测方法的设备运行数据的检测装置,该设备运行数据的检测装置可以应用于智能设备上。图7是根据本申请实施例的一种可选的设备运行数据的检测装置的结构框图,如图7所示,该装置可以包括:
第一获取单元702,用于根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,M个运行数据集合中的一个运行数据集合的类型是M个类型中对应的一个类型;
第一检测单元704,与第一获取单元702相连,用于根据预设的M个参考数值范围,检测M个运行数据集合中的每个运行数据集合中的运行数据是否位于M个参考数值范围中对应的参考数值范围之外;
第一触发单元706,与第一检测单元704相连,用于在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,第i个模块用于产生第i个类型的运行数据,第i个修复操作用于使得P个设备中的每个设备的第i个类型的运行数据位于第i个参考数值范围之内。
通过本申请实施例,通过根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,M个运行数据集合中的一个运行数据集合的类型是M个类型中对应的一个类型;根据预设的M个参考数值范围,检测M个运行数据集合中的每个运行数据集合中的运行数据是否位于M个参考数值范围中对应的参考数值范围之外;在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,第i个模块用于产生第i个类型的运行数据,第i个修复操作用于使得P个设备中的每个设备的第i个类型的运行数据位于第i个参考数值范围之内,解决了相关技术中的设备运行数据的检测方法存在检测成本较高的问题,降低了检测成本。
在一个示例性实施例中,第一获取单元包括:
第一获取模块,用于根据第一类型指示信息,在一组采集工具采集到的N个设备的运行数据中获取M个运行数据集合,其中,一组采集工具中的第一部分采集工具用于采用第一采集方式采集N个设备中的第一部分设备的运行数据,一组采集工具中的第二部分采集工具用于采用第二采集方式采集N个设备中的第二部分设备的运行数据,第一采集方式与第二采集方式不同;或者,一组采集工具中的第一部分采集工具用于采用第一采集方式采集N个设备中第一部分类型的运行数据,一组采集工具中的第二部分采集工具用于采用第二采集方式采集N个设备中第二部分类型的运行数据,第一采集方式与第二采集方式不同。
在一个示例性实施例中,上述装置还包括以下之一:
第一采集单元,用于在一组采集工具采集到的N个设备的运行数据中获取M个运行数据集合之前,通过第一部分采集工具采用第一采集方式采集第一部分设备的运行数据,并通过第二部分采集工具采用第二采集方式采集第二部分设备的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与第一部分设备建立通信连接,并通过第一部分采集工具与第一部分设备建立的通信连接获取第一部分设备的运行数据,第二采集方式是指第二部分采集工具直接与第二部分设备建立通信连接,并通过第二部分采集工具与第二部分设备建立的通信连接获取第二部分设备的运行数据;
第二采集单元,用于通过第一部分采集工具采用第一采集方式采集第一部分设备的运行数据,并通过第二部分采集工具采用第二采集方式采集第二部分设备的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与第一部分设备建立通信连接,并通过第一部分采集工具与第一部分设备建立的通信连接获取第一部分设备的运行数据,第二采集方式是指第二部分采集工具通过第二代理工具与第二部分设备建立通信连接,并通过第二部分采集工具与第二部分设备建立的通信连接获取第二部分设备的运行数据,第一代理工具与第二代理工具不同;
第三采集单元,用于通过第一部分采集工具采用第一采集方式采集N个设备中第一部分类型的运行数据,并通过第二部分采集工具采用第二采集方式采集N个设备中第二部分类型的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与N个设备建立通信连接,并通过第一部分采集工具与N个设备建立的通信连接获取N个设备中第一部分类型的运行数据,第二采集方式是指第二部分采集工具直接与N个设备建立通信连接,并通过第二部分采集工具与N个设备建立的通信连接获取N个设备中第二部分类型的运行数据;
第四采集单元,用于通过第一部分采集工具采用第一采集方式采集N个设备中第一部分类型的运行数据,并通过第二部分采集工具采用第二采集方式采集N个设备中第二部分类型的运行数据,其中,第一采集方式是指第一部分采集工具通过第一代理工具与N个设备建立通信连接,并通过第一部分采集工具与N个设备建立的通信连接获取N个设备中第一部分类型的运行数据,第二采集方式是指第二部分采集工具通过第二代理工具与N个设备建立通信连接,并通过第二部分采集工具与N个设备建立的通信连接获取N个设备中第二部分类型的运行数据。
在一个示例性实施例中,第一触发单元包括以下之一:
第一触发模块,用于在第i个模块是硬件模块的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行硬件修复操作,其中,第i个修复操作包括硬件修复操作;
第二触发模块,用于在第i个模块是软件模块的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行软件修复操作,其中,第i个修复操作包括软件修复操作。
在一个示例性实施例中,第一触发模块包括:
第一触发子模块,用于在第i个模块是内存的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行内存清理操作或内存扩展操作,其中,硬件修复操作包括内存清理操作或内存扩展操作,内存清理操作用于清理内存,内存扩展操作用于扩展内存的容量;或者
第二触发子模块,用于在第i个模块是处理器的情况下,触发运行第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行资源释放操作,其中,硬件修复操作包括资源释放操作,资源释放操作用于释放处理器的运算资源。
在一个示例性实施例中,上述装置还包括:
显示单元,用于在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,显示与i个类型对应的第i个告警信息,其中,第i个告警信息用于提示第i个类型的运行数据出现异常,或者,用于提示P个设备的运行数据出现异常,或者,用于提示P个设备的第i个类型的运行数据出现异常。
在一个示例性实施例中,上述装置还包括:
第二获取单元,用于在根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合之后,根据预设的第二类型指示信息,获取N个设备中的每个设备的Q个类型的运行数据,得到Q个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的Q个类型,Q为大于或者等于1的正整数,Q个运行数据集合中的一个运行数据集合的类型是Q个类型中对应的一个类型,Q个类型与M个类型部分不同或完全不同;
第二检测单元,用于根据预设的Q个参考数值范围,检测Q个运行数据集合中的每个运行数据集合中的运行数据是否位于Q个参考数值范围中对应的参考数值范围之外;
第二触发单元,用于在检测出Q个运行数据集合中的第j个运行数据集合中的K个运行数据位于Q个参考数值范围中的第j个参考数值范围之外、第j个运行数据集合的类型是Q个类型中的第j个类型、且K个运行数据是N个设备中的K个设备的运行数据的情况下,触发运行与j个类型对应的第j个处置脚本,以对K个设备中的每个设备中的第j个模块执行第j个修复操作,其中,j为大于或等于1、且小于或等于Q的正整数,K为大于或等于1、且小于或等于N的正整数,第j个模块用于产生第j个类型的运行数据,第j个修复操作用于使得K个设备中的每个设备的第j个类型的运行数据位于第j个参考数值范围之内。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项设备运行数据的检测方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,M个运行数据集合中的一个运行数据集合的类型是M个类型中对应的一个类型;
S2,根据预设的M个参考数值范围,检测M个运行数据集合中的每个运行数据集合中的运行数据是否位于M个参考数值范围中对应的参考数值范围之外;
S3,在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,第i个模块用于产生第i个类型的运行数据,第i个修复操作用于使得P个设备中的每个设备的第i个类型的运行数据位于第i个参考数值范围之内。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种用于实施上述设备运行数据的检测方法的电子装置,该电子装置可以是智能设备,该电子装置可以是服务器、终端、或者其组合。
图8是根据本申请实施例的一种可选的电子装置的结构框图,如图8所示,包括处理器802、通信接口804、存储器806和通信总线808,其中,处理器802、通信接口804和存储器806通过通信总线808完成相互间的通信,其中,
存储器806,用于存储计算机程序;
处理器802,用于执行存储器806上所存放的计算机程序时,实现如下步骤:
S1,根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,第一类型指示信息用于指示需要获取的运行数据的M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,M个运行数据集合中的一个运行数据集合的类型是M个类型中对应的一个类型;
S2,根据预设的M个参考数值范围,检测M个运行数据集合中的每个运行数据集合中的运行数据是否位于M个参考数值范围中对应的参考数值范围之外;
S3,在检测出M个运行数据集合中的第i个运行数据集合中的P个运行数据位于M个参考数值范围中的第i个参考数值范围之外、第i个运行数据集合的类型是M个类型中的第i个类型、且P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与i个类型对应的第i个处置脚本,以对P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,第i个模块用于产生第i个类型的运行数据,第i个修复操作用于使得P个设备中的每个设备的第i个类型的运行数据位于第i个参考数值范围之内。
可选地,通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线、或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器806中可以但不限于包括上述设备运行数据的检测装置中的第一获取单元702、第一检测单元704和第一触发单元706。此外,还可以包括但不限于上述设备运行数据的检测装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图8所示的结构仅为示意,实施上述设备运行数据的检测方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种设备运行数据的检测方法,其特征在于,包括:
根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,所述第一类型指示信息用于指示需要获取的运行数据的所述M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,所述M个运行数据集合中的一个运行数据集合的类型是所述M个类型中对应的一个类型;
根据预设的M个参考数值范围,检测所述M个运行数据集合中的每个运行数据集合中的运行数据是否位于所述M个参考数值范围中对应的参考数值范围之外;
在检测出所述M个运行数据集合中的第i个运行数据集合中的P个运行数据位于所述M个参考数值范围中的第i个参考数值范围之外、所述第i个运行数据集合的类型是所述M个类型中的第i个类型、且所述P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与所述i个类型对应的第i个处置脚本,以对所述P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,所述第i个模块用于产生所述第i个类型的运行数据,所述第i个修复操作用于使得所述P个设备中的每个设备的所述第i个类型的运行数据位于所述第i个参考数值范围之内。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,包括:
根据所述第一类型指示信息,在一组采集工具采集到的所述N个设备的运行数据中获取所述M个运行数据集合,其中,所述一组采集工具中的第一部分采集工具用于采用第一采集方式采集所述N个设备中的第一部分设备的运行数据,所述一组采集工具中的第二部分采集工具用于采用第二采集方式采集所述N个设备中的第二部分设备的运行数据,所述第一采集方式与所述第二采集方式不同;或者,所述一组采集工具中的所述第一部分采集工具用于采用所述第一采集方式采集所述N个设备中第一部分类型的运行数据,所述一组采集工具中的所述第二部分采集工具用于采用所述第二采集方式采集所述N个设备中第二部分类型的运行数据,所述第一采集方式与所述第二采集方式不同。
3.根据权利要求2所述的方法,其特征在于,在所述在一组采集工具采集到的所述N个设备的运行数据中获取所述M个运行数据集合之前,所述方法还包括以下之一:
通过所述第一部分采集工具采用所述第一采集方式采集所述第一部分设备的运行数据,并通过所述第二部分采集工具采用所述第二采集方式采集所述第二部分设备的运行数据,其中,所述第一采集方式是指所述第一部分采集工具通过第一代理工具与所述第一部分设备建立通信连接,并通过所述第一部分采集工具与所述第一部分设备建立的通信连接获取所述第一部分设备的运行数据,所述第二采集方式是指所述第二部分采集工具直接与所述第二部分设备建立通信连接,并通过所述第二部分采集工具与所述第二部分设备建立的通信连接获取所述第二部分设备的运行数据;
通过所述第一部分采集工具采用所述第一采集方式采集所述第一部分设备的运行数据,并通过所述第二部分采集工具采用所述第二采集方式采集所述第二部分设备的运行数据,其中,所述第一采集方式是指所述第一部分采集工具通过所述第一代理工具与所述第一部分设备建立通信连接,并通过所述第一部分采集工具与所述第一部分设备建立的通信连接获取所述第一部分设备的运行数据,所述第二采集方式是指所述第二部分采集工具通过第二代理工具与所述第二部分设备建立通信连接,并通过所述第二部分采集工具与所述第二部分设备建立的通信连接获取所述第二部分设备的运行数据,所述第一代理工具与所述第二代理工具不同;
通过所述第一部分采集工具采用所述第一采集方式采集所述N个设备中所述第一部分类型的运行数据,并通过所述第二部分采集工具采用所述第二采集方式采集所述N个设备中所述第二部分类型的运行数据,其中,所述第一采集方式是指所述第一部分采集工具通过所述第一代理工具与所述N个设备建立通信连接,并通过所述第一部分采集工具与所述N个设备建立的通信连接获取所述N个设备中所述第一部分类型的运行数据,所述第二采集方式是指所述第二部分采集工具直接与所述N个设备建立通信连接,并通过所述第二部分采集工具与所述N个设备建立的通信连接获取所述N个设备中所述第二部分类型的运行数据;
通过所述第一部分采集工具采用所述第一采集方式采集所述N个设备中所述第一部分类型的运行数据,并通过所述第二部分采集工具采用所述第二采集方式采集所述N个设备中所述第二部分类型的运行数据,其中,所述第一采集方式是指所述第一部分采集工具通过所述第一代理工具与所述N个设备建立通信连接,并通过所述第一部分采集工具与所述N个设备建立的通信连接获取所述N个设备中所述第一部分类型的运行数据,所述第二采集方式是指所述第二部分采集工具通过所述第二代理工具与所述N个设备建立通信连接,并通过所述第二部分采集工具与所述N个设备建立的通信连接获取所述N个设备中所述第二部分类型的运行数据。
4.根据权利要求1所述的方法,其特征在于,所述触发运行与所述i个类型对应的第i个处置脚本,以对所述P个设备中的每个设备中的第i个模块执行第i个修复操作,包括以下之一:
在所述第i个模块是硬件模块的情况下,触发运行所述第i个处置脚本,以对所述P个设备中的每个设备中的所述第i个模块执行硬件修复操作,其中,所述第i个修复操作包括所述硬件修复操作;
在所述第i个模块是软件模块的情况下,触发运行所述第i个处置脚本,以对所述P个设备中的每个设备中的所述第i个模块执行软件修复操作,其中,所述第i个修复操作包括所述软件修复操作。
5.根据权利要求4所述的方法,其特征在于,所述在所述第i个模块是硬件模块的情况下,触发运行所述第i个处置脚本,以对所述P个设备中的每个设备中的所述第i个模块执行硬件修复操作,包括:
在所述第i个模块是内存的情况下,触发运行所述第i个处置脚本,以对所述P个设备中的每个设备中的所述第i个模块执行内存清理操作或内存扩展操作,其中,所述硬件修复操作包括所述内存清理操作或所述内存扩展操作,所述内存清理操作用于清理所述内存,所述内存扩展操作用于扩展所述内存的容量;或者
在所述第i个模块是处理器的情况下,触发运行所述第i个处置脚本,以对所述P个设备中的每个设备中的所述第i个模块执行资源释放操作,其中,所述硬件修复操作包括所述资源释放操作,所述资源释放操作用于释放所述处理器的运算资源。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测出所述M个运行数据集合中的第i个运行数据集合中的P个运行数据位于所述M个参考数值范围中的第i个参考数值范围之外、所述第i个运行数据集合的类型是所述M个类型中的第i个类型、且所述P个运行数据是N个设备中的P个设备的运行数据的情况下,显示与所述i个类型对应的第i个告警信息,其中,所述第i个告警信息用于提示所述第i个类型的运行数据出现异常,或者,用于提示所述P个设备的运行数据出现异常,或者,用于提示所述P个设备的所述第i个类型的运行数据出现异常。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合之后,所述方法还包括:
根据预设的第二类型指示信息,获取N个设备中的每个设备的Q个类型的运行数据,得到Q个运行数据集合,其中,所述第一类型指示信息用于指示需要获取的运行数据的所述Q个类型,Q为大于或者等于1的正整数,所述Q个运行数据集合中的一个运行数据集合的类型是所述Q个类型中对应的一个类型,所述Q个类型与所述M个类型部分不同或完全不同;
根据预设的Q个参考数值范围,检测所述Q个运行数据集合中的每个运行数据集合中的运行数据是否位于所述Q个参考数值范围中对应的参考数值范围之外;
在检测出所述Q个运行数据集合中的第j个运行数据集合中的K个运行数据位于所述Q个参考数值范围中的第j个参考数值范围之外、所述第j个运行数据集合的类型是所述Q个类型中的第j个类型、且所述K个运行数据是N个设备中的K个设备的运行数据的情况下,触发运行与所述j个类型对应的第j个处置脚本,以对所述K个设备中的每个设备中的第j个模块执行第j个修复操作,其中,j为大于或等于1、且小于或等于Q的正整数,K为大于或等于1、且小于或等于N的正整数,所述第j个模块用于产生所述第j个类型的运行数据,所述第j个修复操作用于使得所述K个设备中的每个设备的所述第j个类型的运行数据位于所述第j个参考数值范围之内。
8.一种设备运行数据的检测装置,其特征在于,包括:
第一获取单元,用于根据预设的第一类型指示信息,获取N个设备中的每个设备的M个类型的运行数据,得到M个运行数据集合,其中,所述第一类型指示信息用于指示需要获取的运行数据的所述M个类型,N为大于或者等于1的正整数,M为大于或者等于1的正整数,所述M个运行数据集合中的一个运行数据集合的类型是所述M个类型中对应的一个类型;
第一检测单元,用于根据预设的M个参考数值范围,检测所述M个运行数据集合中的每个运行数据集合中的运行数据是否位于所述M个参考数值范围中对应的参考数值范围之外;
第一触发单元,用于在检测出所述M个运行数据集合中的第i个运行数据集合中的P个运行数据位于所述M个参考数值范围中的第i个参考数值范围之外、所述第i个运行数据集合的类型是所述M个类型中的第i个类型、且所述P个运行数据是N个设备中的P个设备的运行数据的情况下,触发运行与所述i个类型对应的第i个处置脚本,以对所述P个设备中的每个设备中的第i个模块执行第i个修复操作,其中,i为大于或等于1、且小于或等于M的正整数,P为大于或等于1、且小于或等于N的正整数,所述第i个模块用于产生所述第i个类型的运行数据,所述第i个修复操作用于使得所述P个设备中的每个设备的所述第i个类型的运行数据位于所述第i个参考数值范围之内。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
CN202311647185.0A 2023-11-30 2023-11-30 设备运行数据的检测方法及装置、存储介质及电子设备 Pending CN117614862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311647185.0A CN117614862A (zh) 2023-11-30 2023-11-30 设备运行数据的检测方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311647185.0A CN117614862A (zh) 2023-11-30 2023-11-30 设备运行数据的检测方法及装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117614862A true CN117614862A (zh) 2024-02-27

Family

ID=89956048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311647185.0A Pending CN117614862A (zh) 2023-11-30 2023-11-30 设备运行数据的检测方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117614862A (zh)

Similar Documents

Publication Publication Date Title
JP6461246B2 (ja) インダストリアル・インターネットオペレーションシステムに基づく安全性の検査方法と装置
CN101206569B (zh) 用于动态识别促使服务劣化的组件的方法和系统
CN107958337A (zh) 一种信息资源可视化移动管理系统
CN108197261A (zh) 一种智慧交通操作系统
CN111355610A (zh) 一种基于边缘网络的异常处理方法及装置
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN108052358B (zh) 一种分布式部署的系统和方法
CN110532322B (zh) 运维交互方法、系统、计算机可读存储介质及设备
CN113495820B (zh) 异常信息收集、处理方法和装置以及异常监控系统
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
US10372572B1 (en) Prediction model testing framework
CN111078695B (zh) 计算企业内元数据关联关系的方法及装置
CN111782672B (zh) 多领域数据管理方法及相关装置
CN111130867B (zh) 一种基于物联网的智能家居设备告警方法及装置
CN111082998A (zh) 一种运维监控校园汇聚层的架构系统
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
CN113760634A (zh) 一种数据处理方法和装置
CN108248641A (zh) 一种城市轨道交通数据处理方法及装置
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN116136801B (zh) 云平台的数据处理方法、装置、电子设备及存储介质
CN117614862A (zh) 设备运行数据的检测方法及装置、存储介质及电子设备
CN114756301A (zh) 日志处理方法、装置和系统
CN114138762A (zh) 数据加工方法、装置、存储介质以及终端
CN113778800B (zh) 一种报错信息处理方法、装置、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination