CN113468022B - 一种对产品集中监控的自动化运维方法 - Google Patents

一种对产品集中监控的自动化运维方法 Download PDF

Info

Publication number
CN113468022B
CN113468022B CN202110745952.6A CN202110745952A CN113468022B CN 113468022 B CN113468022 B CN 113468022B CN 202110745952 A CN202110745952 A CN 202110745952A CN 113468022 B CN113468022 B CN 113468022B
Authority
CN
China
Prior art keywords
product
data
monitoring
target
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110745952.6A
Other languages
English (en)
Other versions
CN113468022A (zh
Inventor
丁鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110745952.6A priority Critical patent/CN113468022B/zh
Publication of CN113468022A publication Critical patent/CN113468022A/zh
Application granted granted Critical
Publication of CN113468022B publication Critical patent/CN113468022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明提供了一种对产品集中监控的自动化运维方法,包括:设置产品检测点,对产品检测点进行集中监控,并对监控数据进行处理;监测平台基于系统架构图将处理结果可视化展示,判断产品是否发生故障,在发生故障时对故障进行智能分析,并将分析结果发送至自动化运维终端;按照产品各部件对应的可执行脚本文件的业务逻辑对可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件;将目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维。通过对产品的各部件进行集中监控,并在产品出现故障时,将故障详情发送至运维终端,实现对产品的自动化运维,提高了监控准确性和及时性,降低了人力成本以及提高了运维效率。

Description

一种对产品集中监控的自动化运维方法
技术领域
本发明涉及数据监测及智能化运维技术领域,特别涉及一种对产品集中监控的自动化运维方法。
背景技术
目前,随着信息技术的发展和人力成本的增加,人们对业务管理效率和及时性的要求也会越来越高;传统的站点运营数据监控需要对海量的站点数据进行逐一分析,该方式会导致人力成本较高,且数据繁杂也不便于工作人员及时审看并快速定位问题站点,同时对于较为复杂的地域性网络拓扑和多重关系的网络结构拓扑及站点监控,没有一套成熟的可定制化通用展示方案,也不便于管理人员准确了解各站点的实时状态。
IT运维是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT软硬运行环境、IT业务系统和IT运维人员进行的综合管理。在电信运维领域存在许多日常维护作业,包括定期进行检查的指标、执行的任务或者类似的维护行为,维护人员日常工作中包含了大量重复性的劳动。
因此,本发明提供了一种对产品集中监控的自动化运维方法,用以将监控和运维进行结合,对产品的各部件进行集中监控,并在产品出现故障时,将故障详情发送至运维终端,实现对产品的自动化运维,降低人力成本,提高运维效率。
发明内容
本发明提供一种对产品集中监控的自动化运维方法,用以对产品的各部件进行集中监控,并在产品出现故障时,将故障详情发送至运维终端,实现对产品的自动化运维,提高了监控准确性和及时性,降低了人力成本以及提高了运维效率。
本发明提供了一种对产品集中监控的自动化运维方法,包括:
步骤1:设置产品检测点,基于预设监控规则对产品检测点进行集中监控,并对得到的监控数据进行统一处理;
步骤2:监测平台基于系统架构图将处理结果进行可视化展示,同时,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,并将分析结果发送至自动化运维终端;
步骤3:所述自动化运维终端根据分析结果,按照产品各部件对应的可执行脚本文件的业务逻辑对所述可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件;
步骤4:将所述目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维。
优选的,一种对产品集中监控的自动化运维方法,步骤1中,设置产品检测点,基于预设监控规则对产品检测点进行集中监控,包括:
获取待监控的目标检测点,并确定所述目标检测点对应的监控规则,其中,目标检测点包括开放式的运维能力库、标准应用、中间件、数据库、虚拟化、网络设备、服务器以及主机硬件,且所述目标检测点之间相互关联;基于所述目标检测点在产品自动化运维中的重要程度对所述目标检测点的监控级别进行划分,并基于划分结果确定各个目标检测点对应的监控级别;基于所述监控级别,对所述目标检测点进行监控,并将获得的监控数据进行集中管理,实现对产品的集中监控。
优选的,一种对产品集中监控的自动化运维方法,步骤1中,对得到的监控数据进行统一处理,包括:
获取对产品进行集中监控得到的监控数据,并将所述监控数据进行格式化处理,得到初始监控数据;
构建数据清洗模型,并基于所述数据清洗模型对所述初始监控数据进行清洗,滤除所述初始监控数据中的干扰数据,得到目标监控数据;
提取所述目标监控数据中的特征数据,并对所述特征数据进行训练计算得到对应的特征值;
将所述特征值作为对所述目标监控数据进行分类的分类特征,并通过预设的深度强化学习模型对所述分类特征进行训练,得到数据分类决策模型;基于所述数据分类决策模型完成对所述目标监控数据的分类。
优选的,一种对产品集中监控的自动化运维方法,步骤2中,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,并将分析结果发送至自动化运维终端,包括:
基于预设数据采集周期,获取处理后的监控数据,并根据所述预设数据采集周期,确定当前预设数据采集周期内获取到的处理后的监控数据与下一预设数据采集周期获取到的处理后的监控数据之间监控数据变化率,得到每组监控数据对应的变化率;
将所述变化率与预设监控数据变化率进行比较,并统计所述变化率大于所述预设监控数据变化率的数量,且当统计出的数量大于预设数量时,判定产品发生故障;
确定产品发生故障的故障症状,并提取所述故障症状对应的数据特性量;基于所述数据特性量,确定所述数据特性量与预设故障类型库中的每一种故障特征的相似度及相关度,其中,所述相关度表示数据特性量与不同故障特征之间的关联程度;
基于所述相似度及相关度,确定所述产品发生故障的原因;
基于故障原因,确定产品发生故障时的运行参数,并通过故障等级模型对所述运行参数进行训练,得到产品故障的严重程度;
基于所述产品故障的严重程度,获取产品当前的性能数据,并基于快速傅里叶变换确定所述性能数据的周期性波形;
将所述周期性波形分解为M个波形,并计算每个波形的波段变化量,同时构建波段变化量与性能数据之间的回归方程;
基于所述回归方程,预测每个波段长期的变化趋势,并将每个波段长期的变化趋势对应的波形进行合并,得到产品在当前故障严重程度影响下的性能发展趋势;
将所述产品发生故障的原因、产品故障的严重程度以及产品在当前故障严重程度影响下的性能发展趋势生成对应的数据报表,并基于预设数据传输链路,将所述数据报表传输至自动化运维终端。
优选的,一种对产品集中监控的自动化运维方法,步骤2中,监测平台基于系统架构图将处理结果进行可视化展示,包括:
获取对监控数据进行统一处理的处理结果,其中监控数据包括检测点自身运行数据、检测点及检测点周边的环境数据;
基于预配置的可视化列表中确定所述处理结果对应的的目标数据格式,其中,所述可视化列表中存储多种数据对应的数据格式,并基于所述目标数据格式从预设系统架构图库中匹配出初始系统架构图;
基于所述初始系统架构图将所述处理结果进行图像化,得到目标系统架构图,并将所述目标系统架构图在所述监测平台上面进行可视化展示。
优选的,一种对产品集中监控的自动化运维方法,判断产品发生故障的过程中,还包括:
获取产品发生故障的原因以及所述故障的严重程度,并将所述故障的原因以及所述故障的严重程度进行编码,得到待传输数据;
构建数据传输链路,并基于所述数据传输链路,以预设告警方式将所述待传输数据传输至告警终端,完成对产品故障的告警;
其中,所述预设告警方式包括短信、监控视图、邮件中的任一种或多种。
优选的,一种对产品集中监控的自动化运维方法,步骤3中,所述自动化运维终端根据分析结果,按照产品各部件对应的可执行脚本文件的业务逻辑对所述可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件,包括:
获取对故障进行智能分析的分析结果,并确定所述分析结果中发生故障的部件信息;
基于发生故障的部件信息,从预设处理方法脚本中查找对应的目标处理方法,并将所述目标处理方法进行标准化操作,得到所述目标处理方法对应的待替换可执行软件脚本;
确定发生故障部件在产品中的上下行为逻辑关系,并基于所述上下行为逻辑关系将所述待替换可执行软件脚本对产品当前的可执行脚本文件进行替换;基于预设规则,对替换后的可执行软件脚本进行配置及权限优化,得到目标可执行脚本文件。
优选的,一种对产品集中监控的自动化运维方法,步骤4中,将所述目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维,包括:
获取目标可执行脚本文件,并提取所述目标可执行脚本文件的脚本标识,同时获取产品各部件的地址数据集;
其中,所述地址数据集中包含产品各部件对应的具体地址信息;将所述目标可执行脚本文件进行标号,并按标号递增的顺序将所述目标可执行脚本存入待传输任务队列;
基于所述目标可执行脚本的脚本标识以及在待传输任务队列中的顺序,依次在所述地址数据集中查找所述目标可执行脚本对应的子地址信息;
根据查找到的具体地址信息,将所述目标可执行脚本按照待传输任务队列中的顺序发送至各个部件,并对目标可执行脚本进行运行检验,完成对产品集中监控的自动化运维。
优选的,一种对产品集中监控的自动化运维方法,步骤2中,基于处理结果,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,还包括:
获取对产品是否发生故障的判定结果,且在判定产品发生故障时,计算所述产品发生故障的严重程度值,并根据所述产品发生故障的严重程度值计算对产品性能发展趋势预测的准确率,具体步骤包括:
根据如下公式计算所述产品发生故障的严重程度值:
其中,α表示所述产品发生故障的严重程度值;γ表示故障因子,且取值范围为(0.1,0.3);f表示所述产品发生故障的频率值;i表示所述产品发生故障的次数;n表示所述产品发生故障的总次数;ti表示维修第i次故障所用的时间长度值;δi表示所述产品第i次故障的受损程度值;μ表示所述产品抵抗外界破坏的能力因子,且取值范围为(0.6,0.8);
根据如下公式计算对产品性能发展趋势预测的准确率:
其中,β表示对产品性能发展趋势预测的准确率,且取值范围为(0,1);α表示所述产品发生故障的严重程度值;θ表示对产品性能发展趋势进行预测的实际值;ρ表示对产品性能发展趋势进行预测的理想值;ω表示所述产品性能波动的幅度值;表示准确因子,且取值范围为(0.5,0.8);λ表示误差系数,且取值范围为(0.1,0.15);
将计算得到的准确率与预设准确率进行比较;
若所述准确率小于所述预设准确率,判定对产品性能发展趋势的预测不合格,并重新根据所述产品发生故障的严重程度值对产品性能的发展趋势进行预测,直至所述准确率大于或等于所述预设准确率;
若所述准确率大于或等于所述预设准确率,判定对产品性能发展趋势的预测合格,并分析所述产品性能发展趋势是否能够满足预设工作要求,若能满足,则对产品发生的故障进行维修优化,否则,将所述产品进行更新替换,直至所述产品性能发展趋势满足预设工作要求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种对产品集中监控的自动化运维方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本实施例提供了一种对产品集中监控的自动化运维方法,如图1所示,包括:
步骤1:设置产品检测点,基于预设监控规则对产品检测点进行集中监控,并对得到的监控数据进行统一处理;
步骤2:监测平台基于系统架构图将处理结果进行可视化展示,同时,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,并将分析结果发送至自动化运维终端;
步骤3:所述自动化运维终端根据分析结果,按照产品各部件对应的可执行脚本文件的业务逻辑对所述可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件;
步骤4:将所述目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维。
该实施例中,统一处理指的是对得到的监控数据进行清洗、分类,便于后续对产品的监控数据进行分析。
该实施例中,对所述故障进行智能分析指的是分析产品发生故障的原因以及故障的严重程度,并根据故障的严重程度确定产品未来一定时间段内的性能发展趋势。
该实施例中,可执行脚本文件指的是将产品的执行动作转化为对应的文件代码或底层函数形式。
该实施例中,业务逻辑指的是不同的脚本文件在整体中的上下联系关系。
该实施例中,目标可执行脚本文件指的是对原有的脚本文件进行修改后得到的最终的可执行脚本文件。
该实施例中,监测平台包括告警、监控、视图、统计报表、系统管理和系统配置等点击选项,其中,监控选项中包括:监控列表、WEB、主机、网络设备、数据库、中间件、应用、硬件和虚拟化。工作人员可点击相应的选项查看对应的监控数据。
该实施例中,监测平台可适用于公司、IT经理和工程师,不同的适用领域可产生不同的价值。
该实施例中,对产品进行集中监控,提高了链路、拓扑的连通性、速率等。
该实施例中,通过自动化运维,解决了人手短缺、设备数量多、需要专业技能、受时间限制、逻辑关系复杂的缺点、同时提高了安全系数。
该实施例中,对产品进行自动化运维时还包括脚本编辑、单步控制、批作业操作、自动巡查、故障检查、软件分发和应急切换等,并将自动化运维标准化、流程化、参数化,采用参数化配置,便于灵活维护脚本,降低后期维护成本,同时,将大量软件执行动作固化为底层函数,满足各种自动操作的需要。
该实施例中,采用自动化运维提升工作效率、节约时间成本、优化管理流程、杜绝了人为出错造成的系统故障、缩短系统故障的平均修复时间、释放人力资源。
上述技术方案的有益效果是:通过对产品的各部件进行集中监控,并在产品出现故障时,将故障详情发送至运维终端,实现对产品的自动化运维,提高了监控准确性和及时性,降低了人力成本以及提高了运维效率。
实施例2:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤1中,设置产品检测点,基于预设监控规则对产品检测点进行集中监控,包括:
获取待监控的目标检测点,并确定所述目标检测点对应的监控规则,其中,目标检测点包括开放式的运维能力库、标准应用、中间件、数据库、虚拟化、网络设备、服务器以及主机硬件,且所述目标检测点之间相互关联;基于所述目标检测点在产品自动化运维中的重要程度对所述目标检测点的监控级别进行划分,并基于划分结果确定各个目标检测点对应的监控级别;基于所述监控级别,对所述目标检测点进行监控,并将获得的监控数据进行集中管理,实现对产品的集中监控。
该实施例中,产品检测点是根据实际情况人为确定的,用来对产品的运行情况进行监控。
该实施例中,监控规则是提前设定好的,可以是连续不间断的监控、也可以是间隔十分钟有间隔性的监控。
该实施例中,目标对象除上述所述的运维能力库、标准应用、中间件、数据库、虚拟化、网络设备、服务器以及主机硬件之外,还包括:操作系统、路由器、交换机、防火墙、无线控制器、安全设备、负载均衡、虚拟机、宿主机、存储设备等。
该实施例中,产品自动化运维中所起作用的重要程度是根据不同的目标对象在产品工作过程中所以作用进行确定的。
该实施例中,监控级别指的是对目标监控对象的监控力度。
上述技术方案的有益效果是:通过对产品的各个部件进行集中监控,便于及时发现产品各部件出现的故障,提高了部件故障监测效率,提高了产品自动化运维效率。
实施例3:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤1中,对得到的监控数据进行统一处理,包括:
获取对产品进行集中监控得到的监控数据,并将所述监控数据进行格式化处理,得到初始监控数据;
构建数据清洗模型,并基于所述数据清洗模型对所述初始监控数据进行清洗,滤除所述初始监控数据中的干扰数据,得到目标监控数据;
提取所述目标监控数据中的特征数据,并对所述特征数据进行训练计算得到对应的特征值;
将所述特征值作为对所述目标监控数据进行分类的分类特征,并通过预设的深度强化学习模型对所述分类特征进行训练,得到数据分类决策模型;基于所述数据分类决策模型完成对所述目标监控数据的分类。
该实施例中,格式化处理是为了将监控数据的格式进行统一,便于对数据继续处理判断。
该实施例中,初始监控数据指的是对监控数据进行格式转换后得到的数据。
该实施例中,干扰数据指的是初始监控数据中影响数据表达效果,对监控数据表达的东西起到干扰的数据,例如监控数据中的噪声数据。
该实施例中,特征数据指的是监控数据中能够体现监控数据作用的关键数据段或词。
该实施例中,分类特征指的是用来将数据进行分类的分类指标,根据分类特征可将数据分成多个类别。
该实施例中,分类决策模型是用来将数据进行分类的,是经过多次训练得到的。
上述技术方案的有益效果是:通过对获取到的监控数据进行格式化,且对数据进行清洗分类,提高了数据处理效率,同时提高了根据数据判断产盘发生故障的准确率,提高了监控准确性和及时性,降低了人力成本以及提高了运维效率。
实施例4:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤2中,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,并将分析结果发送至自动化运维终端,包括:
基于预设数据采集周期,获取处理后的监控数据,并根据所述预设数据采集周期,确定当前预设数据采集周期内获取到的处理后的监控数据与下一预设数据采集周期获取到的处理后的监控数据之间监控数据变化率,得到每组监控数据对应的变化率;
将所述变化率与预设监控数据变化率进行比较,并统计所述变化率大于所述预设监控数据变化率的数量,且当统计出的数量大于预设数量时,判定产品发生故障;
确定产品发生故障的故障症状,并提取所述故障症状对应的数据特性量;基于所述数据特性量,确定所述数据特性量与预设故障类型库中的每一种故障特征的相似度及相关度,其中,所述相关度表示数据特性量与不同故障特征之间的关联程度;
基于所述相似度及相关度,确定所述产品发生故障的原因;
基于故障原因,确定产品发生故障时的运行参数,并通过故障等级模型对所述运行参数进行训练,得到产品故障的严重程度;
基于所述产品故障的严重程度,获取产品当前的性能数据,并基于快速傅里叶变换确定所述性能数据的周期性波形;
将所述周期性波形分解为M个波形,并计算每个波形的波段变化量,同时构建波段变化量与性能数据之间的回归方程;
基于所述回归方程,预测每个波段长期的变化趋势,并将每个波段长期的变化趋势对应的波形进行合并,得到产品在当前故障严重程度影响下的性能发展趋势;
将所述产品发生故障的原因、产品故障的严重程度以及产品在当前故障严重程度影响下的性能发展趋势生成对应的数据报表,并基于预设数据传输链路,将所述数据报表传输至自动化运维终端。
该实施例中,预设数据采集周期是人为提前设定好的,用于在一定时间间隔内获取产品的监控数据,可以是5秒、10秒等。
该实施例中,监控数据变化率指的是两组相邻时间段内的数据组中数据值的变化量,例如当前数据组的数据值为5,下一相邻数据组的数据指为15,时间间隔为5,故变化率为2。
该实施例中,预设监控数据变化率是提前设定好的,是经过对监控数据多次训练得出的一个标准值,用来衡量监控数据变化率是否合格的一个指标。
该实施例中,预设数量是人为提前设定好的,用于衡量数据变化率超过预设监控数据变化率的数据组的数量,从而便于判断产品是否发生故障。
该实施例中,故障症状指的是当产品发生故障时,外在的表现形式,例如计算机出现问题时,计算机屏幕显示的蓝屏和黑屏分别表示不同的故障类型。
该实施例中,数据特性量指的是能够体现产品故障症状的数据,是将故障症状采用数据的形式进行体现。
该实施例中,性能数据的周期性波形指的是根据一定时间段内产品故障症状对应的数据特性量在确定产品发生故障的原因后,对产品受到的故障进行评定后,得到产品在受到故障严重程度的影响下,在一定时间间隔段内性能变化的波形图,具有周期性。
该实施例中,波段变化量指的是产品性能变化波形中,波谷和波峰之间的差值。
上述技术方案的有益效果是:通过采集对产品的监控数据,并对监控数据进行分析处理,准确判断出产品是否发生故障,且在发生故障后准确分析产品故障的原因以及故障的严重程度,其次根据故障对产品性能的影响,预测产品性能在未来一定时间段内的变化趋势,有利于提前对产品的性能发展趋势进行判断,从而提高了对产品自动化运维的效率,及时排除故障,提高产品的运行能力,节省了大量的人力资源,提高了监控准确性和及时性。
实施例5:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤2中,监测平台基于系统架构图将处理结果进行可视化展示,包括:
获取对监控数据进行统一处理的处理结果,其中监控数据包括检测点自身运行数据、检测点及检测点周边的环境数据;
基于预配置的可视化列表中确定所述处理结果对应的的目标数据格式,其中,所述可视化列表中存储多种数据对应的数据格式,并基于所述目标数据格式从预设系统架构图库中匹配出初始系统架构图;
基于所述初始系统架构图将所述处理结果进行图像化,得到目标系统架构图,并将所述目标系统架构图在所述监测平台上面进行可视化展示。
该实施例中,目标数据格式指的是从视化列表中存储多种数据对应的数据格式中挑选出的处理结果对应的数据格式。
该实施例中,初始系统架构图指的是预设系统架构图库中与目标数据格式对应的系统构架图,只是单纯的系统架构图模板,没有具体的数据。
该实施例中,目标系统架构图指的是将处理结果对应的数据与初始系统架构图进行融合,可以进行可视化展示的系统架构图。
该实施例中,可视化展示还可以包括告警统计报表、性能排名报表、对比分析报表以及性能趋势报表。
上述技术方案的有益效果是:通过将处理结果进行可视化展示,便于将检测点自身的运行情况及周围的环境进行直观的展现,提高了对检测点是否发生故障的判断准确率。
实施例6:
在上述实施例4的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,判断产品发生故障的过程中,还包括:
获取产品发生故障的原因以及所述故障的严重程度,并将所述故障的原因以及所述故障的严重程度进行编码,得到待传输数据;
构建数据传输链路,并基于所述数据传输链路,以预设告警方式将所述待传输数据传输至告警终端,完成对产品故障的告警;
其中,所述预设告警方式包括短信、监控视图、邮件中的任一种或多种。
该实施例中,故障的严重程度指的是产品故障受损的程度,且包括对产品运行的影响程度。
该实施例中,待传输数据指的是将数据进行编码,可在编码后进行直接传输的数据。
该实施例中,产品故障的告警支持多条件告警,支持多种告警方式。
上述技术方案的有益效果是:通过在确定产品发生故障后,及时将产品的故障情况进行通报,便于工作人员及时发现产品故障情况,提高了故障发现的及时性,同时提高了工作人员及时根据告警情况对产品进行运维,提高了产品运维的效率。
实施例7:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤3中,所述自动化运维终端根据分析结果,按照产品各部件对应的可执行脚本文件的业务逻辑对所述可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件,包括:
获取对故障进行智能分析的分析结果,并确定所述分析结果中发生故障的部件信息;
基于发生故障的部件信息,从预设处理方法脚本中查找对应的目标处理方法,并将所述目标处理方法进行标准化操作,得到所述目标处理方法对应的待替换可执行软件脚本;
确定发生故障部件在产品中的上下行为逻辑关系,并基于所述上下行为逻辑关系将所述待替换可执行软件脚本对产品当前的可执行脚本文件进行替换;基于预设规则,对替换后的可执行软件脚本进行配置及权限优化,得到目标可执行脚本文件。
该实施例中,部件信息指的是产品发生故障的位置以及位置的地址信息,同时包括部件发生故障的故障类型等。
该实施例中,预设处理方法脚本是提前设定好的,是对多种故障问题进行训练得到的。
该实施例中,目标处理方法指的是从多个处理方法查找出的能够解决故障问题的处理方法,是预设处理方法脚本中的一个或多个组合。
该实施例中,标准化操作指的是通过一定规则将目标处理方法进行规则化,得到处理方法对应的脚本文件。
上述技术方案的有益效果是:通过根据发生故障的部件信息,查找对应的处理方法,并将处理方法进行转换,得到对应的脚本文件,提高了产品自动化运维效率,同时,采用参数化装置,灵活维护脚本,降低了产品自动化运维成本。
实施例8:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤4中,将所述目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维,包括:
获取目标可执行脚本文件,并提取所述目标可执行脚本文件的脚本标识,同时获取产品各部件的地址数据集;
其中,所述地址数据集中包含产品各部件对应的具体地址信息;将所述目标可执行脚本文件进行标号,并按标号递增的顺序将所述目标可执行脚本存入待传输任务队列;
基于所述目标可执行脚本的脚本标识以及在待传输任务队列中的顺序,依次在所述地址数据集中查找所述目标可执行脚本对应的子地址信息;根据查找到的具体地址信息,将所述目标可执行脚本按照待传输任务队列中的顺序发送至各个部件,并对目标可执行脚本进行运行检验,完成对产品集中监控的自动化运维。
该实施例中,脚本标识是用来识别目标可执行脚本文件的一种标签,例如脚本标识可以是数字1、2、3等,根据脚本标识可快速查找对应的部件地址。
该实施例中,待传输任务队列中存储有多个待传输的脚本文件,存储在待传输任务队列中的脚本文件可直接进行传输。
该实施例中,子地址信息为具体地址信息中的一部分,从属于地址数据集。
上述技术方案的有益效果是:通过将目标可执行脚本文件进行标号,并按顺序进行依次分发,提高了脚本文件分发的灵活性,同时提高了产品自动化运维的效率,降低了产品自动化运维成本及人力消耗。
实施例9:
在上述实施例1的基础上,本实施例提供了一种对产品集中监控的自动化运维方法,步骤2中,基于处理结果,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,还包括:
获取对产品是否发生故障的判定结果,且在判定产品发生故障时,计算所述产品发生故障的严重程度值,并根据所述产品发生故障的严重程度值计算对产品性能发展趋势预测的准确率,具体步骤包括:
根据如下公式计算所述产品发生故障的严重程度值:
其中,α表示所述产品发生故障的严重程度值;γ表示故障因子,且取值范围为(0.1,0.3);f表示所述产品发生故障的频率值;i表示所述产品发生故障的次数;n表示所述产品发生故障的总次数;ti表示维修第i次故障所用的时间长度值;δi表示所述产品第i次故障的受损程度值;μ表示所述产品抵抗外界破坏的能力因子,且取值范围为(0.6,0.8);
根据如下公式计算对产品性能发展趋势预测的准确率:
其中,β表示对产品性能发展趋势预测的准确率,且取值范围为(0,1);α表示所述产品发生故障的严重程度值;θ表示对产品性能发展趋势进行预测的实际值;ρ表示对产品性能发展趋势进行预测的理想值;ω表示所述产品性能波动的幅度值;表示准确因子,且取值范围为(0.5,0.8);λ表示误差系数,且取值范围为(0.1,0.15);
将计算得到的准确率与预设准确率进行比较;
若所述准确率小于所述预设准确率,判定对产品性能发展趋势的预测不合格,并重新根据所述产品发生故障的严重程度值对产品性能的发展趋势进行预测,直至所述准确率大于或等于所述预设准确率;
若所述准确率大于或等于所述预设准确率,判定对产品性能发展趋势的预测合格,并分析所述产品性能发展趋势是否能够满足预设工作要求,若能满足,则对产品发生的故障进行维修优化,否则,将所述产品进行更新替换,直至所述产品性能发展趋势满足预设工作要求。
该实施例中,故障因子是用来表示产品发生故障的一种参数,通常用具体的数值来表示。
该实施例中,产品抵抗外界破坏的能力因子指的是产品在受到外界干扰时,抵抗外界干扰对自身功能破坏的一种能力,将这种能力以具体的参数进行表示。
该实施例中,准确因子指的是在计算准确率时,对准确率造成的影响程度。
该实施例中,误差系数指的是在计算准确率时,因外界干扰对计算准确率造成的影响程度值。
该实施例中,预设准确率是提前设定好的,用来衡量计算准确率的标准,是经过多次训练得到的。
上述技术方案的有益效果是:通过计算产品发生故障的严重程度值,并根据产品发生故障的严重程度值计算对产品性能发展趋势预测的准确率。在计算严重程度时,涉及产品发生故障的总次数以及每次故障的受损程度,确保了计算得到的结果准确可信,在计算准确率时,涉及实际值与理想值的比较结果,便于提高计算结果的可靠性,同时涉及误差系数等,使得计算结果准确可靠,此方案确保了对产品性能发展趋势的准确预测,便于对产品及时进行运行维护,提高了产品自动化运维的效率,降低了产品自动化运维成本。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种对产品集中监控的自动化运维方法,其特征在于,包括:
步骤1:设置产品检测点,基于预设监控规则对产品检测点进行集中监控,并对得到的监控数据进行统一处理;
步骤2:监测平台基于系统架构图将处理结果进行可视化展示,同时,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,并将分析结果发送至自动化运维终端;
步骤3:所述自动化运维终端根据分析结果,按照产品各部件对应的可执行脚本文件的业务逻辑对所述可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件;
步骤4:将所述目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维;
其中,步骤2中,基于处理结果,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,还包括:
获取对产品是否发生故障的判定结果,且在判定产品发生故障时,计算所述产品发生故障的严重程度值,并根据所述产品发生故障的严重程度值计算对产品性能发展趋势预测的准确率,具体步骤包括:
根据如下公式计算所述产品发生故障的严重程度值:
其中,α表示所述产品发生故障的严重程度值;γ表示故障因子,且取值范围为(0.1,0.3);f表示所述产品发生故障的频率值;i表示所述产品发生故障的次数;n表示所述产品发生故障的总次数;ti表示维修第i次故障所用的时间长度值;δi表示所述产品第i次故障的受损程度值;μ表示所述产品抵抗外界破坏的能力因子,且取值范围为(0.6,0.8);
根据如下公式计算对产品性能发展趋势预测的准确率:
其中,β表示对产品性能发展趋势预测的准确率,且取值范围为(0,1);α表示所述产品发生故障的严重程度值;θ表示对产品性能发展趋势进行预测的实际值;ρ表示对产品性能发展趋势进行预测的理想值;ω表示所述产品性能波动的幅度值;表示准确因子,且取值范围为(0.5,0.8);λ表示误差系数,且取值范围为(0.1,0.15);
将计算得到的准确率与预设准确率进行比较;
若所述准确率小于所述预设准确率,判定对产品性能发展趋势的预测不合格,并重新根据所述产品发生故障的严重程度值对产品性能的发展趋势进行预测,直至所述准确率大于或等于所述预设准确率;
若所述准确率大于或等于所述预设准确率,判定对产品性能发展趋势的预测合格,并分析所述产品性能发展趋势是否能够满足预设工作要求,若能满足,则对产品发生的故障进行维修优化,否则,将所述产品进行更新替换,直至所述产品性能发展趋势满足预设工作要求。
2.根据权利要求1所述的一种对产品集中监控的自动化运维方法,其特征在于,步骤1中,设置产品检测点,基于预设监控规则对产品检测点进行集中监控,包括:
获取待监控的目标检测点,并确定所述目标检测点对应的监控规则,其中,目标检测点包括开放式的运维能力库、标准应用、中间件、数据库、虚拟化、网络设备、服务器以及主机硬件,且所述目标检测点之间相互关联;
基于所述目标检测点在产品自动化运维中的重要程度对所述目标检测点的监控级别进行划分,并基于划分结果确定各个目标检测点对应的监控级别;
基于所述监控级别,对所述目标检测点进行监控,并将获得的监控数据进行集中管理,实现对产品的集中监控。
3.根据权利要求1所述的一种对产品集中监控的自动化运维方法,其特征在于,步骤1中,对得到的监控数据进行统一处理,包括:
获取对产品进行集中监控得到的监控数据,并将所述监控数据进行格式化处理,得到初始监控数据;
构建数据清洗模型,并基于所述数据清洗模型对所述初始监控数据进行清洗,滤除所述初始监控数据中的干扰数据,得到目标监控数据;
提取所述目标监控数据中的特征数据,并对所述特征数据进行训练计算得到对应的特征值;
将所述特征值作为对所述目标监控数据进行分类的分类特征,并通过预设的深度强化学习模型对所述分类特征进行训练,得到数据分类决策模型;
基于所述数据分类决策模型完成对所述目标监控数据的分类。
4.根据权利要求1所述的一种对产品集中监控的自动化运维方法,其特征在于,步骤2中,判断产品是否发生故障,且在发生故障时对所述故障进行智能分析,并将分析结果发送至自动化运维终端,包括:
基于预设数据采集周期,获取处理后的监控数据,并根据所述预设数据采集周期,确定当前预设数据采集周期内获取到的处理后的监控数据与下一预设数据采集周期获取到的处理后的监控数据之间监控数据变化率,得到每组监控数据对应的变化率;
将所述变化率与预设监控数据变化率进行比较,并统计所述变化率大于所述预设监控数据变化率的数量,且当统计出的数量大于预设数量时,判定产品发生故障;
确定产品发生故障的故障症状,并提取所述故障症状对应的数据特性量;
基于所述数据特性量,确定所述数据特性量与预设故障类型库中的每一种故障特征的相似度及相关度,其中,所述相关度表示数据特性量与不同故障特征之间的关联程度;
基于所述相似度及相关度,确定所述产品发生故障的原因;
基于故障原因,确定产品发生故障时的运行参数,并通过故障等级模型对所述运行参数进行训练,得到产品故障的严重程度;
基于所述产品故障的严重程度,获取产品当前的性能数据,并基于快速傅里叶变换确定所述性能数据的周期性波形;
将所述周期性波形分解为M个波形,并计算每个波形的波段变化量,同时构建波段变化量与性能数据之间的回归方程;
基于所述回归方程,预测每个波段长期的变化趋势,并将每个波段长期的变化趋势对应的波形进行合并,得到产品在当前故障严重程度影响下的性能发展趋势;
将所述产品发生故障的原因、产品故障的严重程度以及产品在当前故障严重程度影响下的性能发展趋势生成对应的数据报表,并基于预设数据传输链路,将所述数据报表传输至自动化运维终端。
5.根据权利要求1所述的一种对产品集中监控的自动化运维方法,其特征在于,步骤2中,监测平台基于系统架构图将处理结果进行可视化展示,包括:
获取对监控数据进行统一处理的处理结果,其中监控数据包括检测点自身运行数据、检测点及检测点周边的环境数据;
基于预配置的可视化列表中确定所述处理结果对应的的目标数据格式,其中,所述可视化列表中存储多种数据对应的数据格式,并基于所述目标数据格式从预设系统架构图库中匹配出初始系统架构图;
基于所述初始系统架构图将所述处理结果进行图像化,得到目标系统架构图,并将所述目标系统架构图在所述监测平台上面进行可视化展示。
6.根据权利要求4所述的一种对产品集中监控的自动化运维方法,其特征在于,判断产品发生故障的过程中,还包括:
获取产品发生故障的原因以及所述故障的严重程度,并将所述故障的原因以及所述故障的严重程度进行编码,得到待传输数据;
构建数据传输链路,并基于所述数据传输链路,以预设告警方式将所述待传输数据传输至告警终端,完成对产品故障的告警;
其中,所述预设告警方式包括短信、监控视图、邮件中的任一种或多种。
7.根据权利要求1所述的一种对产品集中监控的自动化运维方法,其特征在于,步骤3中,所述自动化运维终端根据分析结果,按照产品各部件对应的可执行脚本文件的业务逻辑对所述可执行脚本文件进行配置修改并统一权限,得到目标可执行脚本文件,包括:
获取对故障进行智能分析的分析结果,并确定所述分析结果中发生故障的部件信息;
基于发生故障的部件信息,从预设处理方法脚本中查找对应的目标处理方法,并将所述目标处理方法进行标准化操作,得到所述目标处理方法对应的待替换可执行软件脚本;
确定发生故障部件在产品中的上下行为逻辑关系,并基于所述上下行为逻辑关系将所述待替换可执行软件脚本对产品当前的可执行脚本文件进行替换;
基于预设规则,对替换后的可执行软件脚本进行配置及权限优化,得到目标可执行脚本文件。
8.根据权利要求1所述的一种对产品集中监控的自动化运维方法,其特征在于,步骤4中,将所述目标可执行脚本文件分发至对应的产品各部件并运行,完成对产品集中监控的自动化运维,包括:
获取目标可执行脚本文件,并提取所述目标可执行脚本文件的脚本标识,同时获取产品各部件的地址数据集;
其中,所述地址数据集中包含产品各部件对应的具体地址信息;
将所述目标可执行脚本文件进行标号,并按标号递增的顺序将所述目标可执行脚本存入待传输任务队列;
基于所述目标可执行脚本的脚本标识以及在待传输任务队列中的顺序,依次在所述地址数据集中查找所述目标可执行脚本对应的子地址信息;
根据查找到的具体地址信息,将所述目标可执行脚本按照待传输任务队列中的顺序发送至各个部件,并对目标可执行脚本进行运行检验,完成对产品集中监控的自动化运维。
CN202110745952.6A 2021-07-01 2021-07-01 一种对产品集中监控的自动化运维方法 Active CN113468022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110745952.6A CN113468022B (zh) 2021-07-01 2021-07-01 一种对产品集中监控的自动化运维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110745952.6A CN113468022B (zh) 2021-07-01 2021-07-01 一种对产品集中监控的自动化运维方法

Publications (2)

Publication Number Publication Date
CN113468022A CN113468022A (zh) 2021-10-01
CN113468022B true CN113468022B (zh) 2024-02-09

Family

ID=77877444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110745952.6A Active CN113468022B (zh) 2021-07-01 2021-07-01 一种对产品集中监控的自动化运维方法

Country Status (1)

Country Link
CN (1) CN113468022B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115348293A (zh) * 2022-06-13 2022-11-15 深圳市玄羽科技有限公司 一种工业互联网设备智能管控远程运维方法及平台
CN117351440B (zh) * 2023-12-06 2024-02-20 浙江华是科技股份有限公司 基于开放式文本检测的半监督船舶检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
KR20160081321A (ko) * 2014-12-31 2016-07-08 (주)엔키아 It 인프라 품질 감시 시스템 및 방법
CN107862393A (zh) * 2017-10-31 2018-03-30 广西宜州市联森网络科技有限公司 一种it运维管理系统
CN110298455A (zh) * 2019-06-28 2019-10-01 西安因联信息科技有限公司 一种基于多变量估计预测的机械设备故障智能预警方法
CN111274087A (zh) * 2020-01-15 2020-06-12 国网湖南省电力有限公司 一种it集中监控的业务系统的健康度评估方法
WO2020259421A1 (zh) * 2019-06-28 2020-12-30 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置
CN112383412A (zh) * 2020-10-26 2021-02-19 北京精一强远科技有限公司 一种用于it监控运维的智能语音系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11921573B2 (en) * 2019-12-02 2024-03-05 Accenture Global Solutions Limited Systems and methods for predictive system failure monitoring

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160081321A (ko) * 2014-12-31 2016-07-08 (주)엔키아 It 인프라 품질 감시 시스템 및 방법
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
CN107862393A (zh) * 2017-10-31 2018-03-30 广西宜州市联森网络科技有限公司 一种it运维管理系统
CN110298455A (zh) * 2019-06-28 2019-10-01 西安因联信息科技有限公司 一种基于多变量估计预测的机械设备故障智能预警方法
WO2020259421A1 (zh) * 2019-06-28 2020-12-30 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置
CN111274087A (zh) * 2020-01-15 2020-06-12 国网湖南省电力有限公司 一种it集中监控的业务系统的健康度评估方法
CN112383412A (zh) * 2020-10-26 2021-02-19 北京精一强远科技有限公司 一种用于it监控运维的智能语音系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
全生命周期健康监测诊断系统研究;吴天舒;陈蜀宇;吴朋;;仪器仪表学报(08);全文 *
基于移动运维IT综合监控系统实现研究;杨战胜;刘燕;郑兵;;信息通信(02);全文 *

Also Published As

Publication number Publication date
CN113468022A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113597634B (zh) 使用人工智能的过程映射和监控
CN113468022B (zh) 一种对产品集中监控的自动化运维方法
CN106020154A (zh) 一种用于乙烯生产的安全动态健康评估方法及评估系统
CN114267178B (zh) 一种车站的智能运营维护方法及装置
CN112462734B (zh) 一种工业生产设备故障预测分析方法及模型
CN111949429A (zh) 基于密度聚类算法的服务器故障监测方法及系统
CN117055502A (zh) 基于物联网和大数据分析的智能控制系统
Tichý et al. Predictive diagnostics usage for telematic systems maintenance
CN116010456A (zh) 设备的处理方法、服务器和轨道交通系统
Becherer et al. Intelligent choice of machine learning methods for predictive maintenance of intelligent machines
CN111306051B (zh) 一种输油泵机组探针式状态监测预警方法、装置及系统
JP2023520066A (ja) 産業用機械学習のためのデータ処理
CN112182233A (zh) 用于存储设备故障记录的知识库、及利用其辅助定位设备故障的方法及系统
CN114912678A (zh) 电网调控异常操作在线自动检测预警方法及系统
CN114896096A (zh) 基于图像识别算法的数据中心设备故障预测系统及方法
US11334061B2 (en) Method to detect skill gap of operators making frequent inadvertent changes to the process variables
Daouayry et al. Data-centric helicopter failure anticipation: The mgb oil pressure virtual sensor case
Vicêncio et al. An intelligent predictive maintenance approach based on end-of-line test logfiles in the automotive industry
CN111309537A (zh) 一种检测服务器诊断系统报错的方法和设备
CN117724882A (zh) 热泵机器的工单生成方法、装置、设备及存储介质
Jin et al. Anomaly detection and health-status analysis in a core router system
CN113138875B (zh) 一种故障检测方法、终端以及计算机存储介质
Nwadinobi et al. Development of Simulation for Condition Monitoring and Evaluation of Manufacturing Systems
CN117521478A (zh) 一种基于机器学习的云计算带外管理设备辅助告警方法
CN113435689A (zh) 一种标签化数仓建模的自动化设备状态评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant