CN114637654B - 基于AIOps智慧运营中心的故障监测分析方法 - Google Patents

基于AIOps智慧运营中心的故障监测分析方法 Download PDF

Info

Publication number
CN114637654B
CN114637654B CN202210326529.7A CN202210326529A CN114637654B CN 114637654 B CN114637654 B CN 114637654B CN 202210326529 A CN202210326529 A CN 202210326529A CN 114637654 B CN114637654 B CN 114637654B
Authority
CN
China
Prior art keywords
fault
module
judges
analysis
analysis module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210326529.7A
Other languages
English (en)
Other versions
CN114637654A (zh
Inventor
詹越
张倚榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxin Wanglian Technology Co ltd
Original Assignee
Beijing Guoxin Wanglian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxin Wanglian Technology Co ltd filed Critical Beijing Guoxin Wanglian Technology Co ltd
Priority to CN202210326529.7A priority Critical patent/CN114637654B/zh
Publication of CN114637654A publication Critical patent/CN114637654A/zh
Application granted granted Critical
Publication of CN114637654B publication Critical patent/CN114637654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及故障分析技术领域,尤其涉及一种基于AIOps智慧运营中心的故障监测分析方法,包括以下步骤:步骤s1,将检测单元分别与分析单元和传输单元中的各部件相连,步骤s2,辨析模块对检测单元测得的数据进行分析以判定传输单元的运行状态是否正常,步骤s3,辨析模块对检测单元进一步测得的数据进行分析以判定传输单元运行不正常的具体原因,步骤s4,显示模块以直观的形式对辨析模块的分析结果进行显示。本发明在完成对海量的故障进行检测后,通过算法对故障内容进行甄别并对故障类型进行统计分析,在分析完成后以直观的图表的形式展示故障内容,使人员可以针对重要故障进行集中维修处理,减小了人员进行运维的时间成本,提高了企业的运维效率。

Description

基于AIOps智慧运营中心的故障监测分析方法
技术领域
本发明涉及故障分析技术领域,尤其涉及一种基于AIOps智慧运营中心的故障监测分析方法。
背景技术
AIOps,即AI+Operations,可以直观理解为用AI解决运维问题的技术。AI 是由机器模拟人类行为的复杂过程;由此推及,AIOps可以定义为“任何模拟运维人员行为的计算机技术”;基于运维领域专家知识的、专家经验的、自动化、深度学习的,或基于它们的某种组合的人工智能技术,都可称为AIOps。
中国发明专利公开号CN106951465A公开了一种系统故障定位用数据分析方法及装置。该方法包括:获取在线数据和离线数据,根据离线数据,确定不同维度下的指标和每个指标的指标阈值,根据每个指标阈值,实时监控在线数据,获取异常指标,将异常指标所对应的在线数据进行划分切片,定位异常指标的位置,根据异常指标和关联方式,获取关联事件,根据异常指标的位置或关联事件,确定系统故障位置。
由此可见,所述系统故障定位用数据分析方法及装置存在以下问题:单一的对故障的类型进行判定,对海量的故障均进行上报,而没有通过算法对故障内容进行甄别,且无法直观的获取故障内容,导致人员无法针对重要故障进行维修处理,增加了人员进行运维的时间成本,降低了企业的运维效率。
发明内容
为此,本发明提供一种基于AIOps智慧运营中心的故障监测分析方法,用以克服现有技术中无法直观的获取故障内容的问题。
为实现上述目的,本发明提供一种基于AIOps智慧运营中心的故障监测分析方法,其中,包括以下步骤:
步骤s1,将检测单元与传输单元中的各部件相连,将分析单元与检测单元相连;
步骤s2,所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,分析单元中的辨析模块对记录模块中的运行状态参数数据进行分析以判定传输单元的运行状态是否正常,若是,则转至步骤s4,若否,则转至步骤s3;
步骤s3,所述辨析模块根据分析结果控制所述检测单元对所述传输单元中各部件的工作参数进行检测,检测单元将结果记录至所述记录模块,辨析模块对记录模块中的工作参数数据进行分析以判定传输单元运行不正常的具体原因并结合运行状态参数对故障进行分级;
所述辨析模块对所述传输单元的故障情况进行统计分析并根据统计分析结果对故障的根因进行分析;
步骤s4,所述分析单元中的显示模块以直观的形式对辨析模块的分析结果进行显示。
进一步地,在所述步骤s2中,所述检测单元测得所述传输单元的数据传输速率η并将检测结果上传至所述记录模块,所述辨析模块根据η判定传输单元的数据传输速率是否符合标准,辨析模块中设有预设传输速率η0;
若η≥η0,所述辨析模块判定所述传输单元的数据传输速率符合标准并转至所述步骤s4;
若η<η0,所述辨析模块判定所述传输单元的数据传输速率不符合标准并转至所述步骤s3,辨析模块根据测得的上游和下游的数据发送量判定数据传输速率不符合标准的原因。
进一步地,在所述步骤s3中,当所述辨析模块判定所述传输单元的数据传输速率不符合标准时,辨析模块控制所述检测单元依次测得传输单元中处理器的上游数据发送量B1和下游数据接受量B2,辨析模块将B1与B2进行比较、根据比较结果判定上下游数据关系并根据上下游数据关系分情况判定处理器的故障原因;
若B1<B2,所述辨析模块判定上游数据发送量小于下游数据接受量并控制所述检测单元测得处理器的数据传输负载量L、将L与L0进行比较并根据比较结果判定处理器的输送电缆是否故障;所述辨析模块中设有预设数据传输负载量 L0,若L≥L0,辨析模块判定所述处理器的输送电缆运行正常,若L<L0,辨析模块判定处理器的输送电缆故障并判定其故障等级为3级故障;
若B1≥B2,所述辨析模块判定上游数据发送量大于下游数据接受量并计算上游数据发送量和下游数据接受量的数据传输差值ΔB,设定ΔB=B1-B2,辨析模块将ΔB与ΔB0进行比较并根据比较结果判定所述处理器的输送数据量是否正常;所述辨析模块中设有预设数据传输差值量ΔB0,若ΔB<ΔB0,辨析模块判定所述处理器的输送数据量正常,若ΔB≥ΔB0,辨析模块判定处理器的输送数据量异常。
进一步地,当所述辨析模块判定所述处理器的输送数据量异常时,辨析模块控制所述检测单元测得上游端口的预设数据发送量B1’和下游端口的预设数据接受量B2’,辨析模块分别将B1与B1’进行比较、将B2与B2’进行比较并根据比较结果判定端口是否故障;
若B1<B1’,所述辨析模块判定所述上游端口故障并判定其故障等级为1级故障;
若B2>B2’,所述辨析模块判定所述下游端口故障并判定其故障等级为1级故障;
若B1≥B1’或B2≤B2’,所述辨析模块判定端口与所述处理器的连接发生故障并根据测得的网络延迟率对端口与处理器之间连接的具体故障位置进行判定。
进一步地,当所述辨析模块判定端口与所述处理器的连接发生故障时,辨析模块控制所述检测单元测得网络延迟率P、将P分别与P1和P2进行比较并根据比较结果判定端口与处理器之间连接的具体故障位置;所述辨析模块中设有第一预设网络延迟率P1和第二预设网络延迟率P2,其中,P1<P2;
若P≤P1,所述辨析模块判定所述上游端口或下游端口与所述处理器之间的连接出现故障并判定其故障等级为1级故障;
若P1<P≤P2,所述辨析模块判定网络与所述处理器之间的连接出现故障并判定其故障等级为2级故障;
若P>P2,所述辨析模块判定端口与所述处理器之间没有故障、判定网络波动并判定其故障等级为2级故障。
进一步地,在所述步骤s3中,所述辨析模块根据η对传输等级进行判定,辨析模块中设有第一预设传输速率临界值η1和第二预设传输速率临界值η2,其中,η1<η2;
若η<η1,所述辨析模块判定当前传输等级为1级传输速率;
若η1≤η<η2,所述辨析模块判定当前传输等级为2级传输速率;
若η≥η2,所述辨析模块判定当前传输等级为3级传输速率。
进一步地,在所述步骤s3中,在将故障等级和传输等级的分级过程完成时,所述辨析模块计算故障优先级Y,辨析模块将故障等级记为G并将传输等级记为 S,设定Y=G×S,其中,G=1,2,3,S=1,2,3。
进一步地,在所述步骤s4中,所述辨析模块控制所述检测单元对每次故障的时间节点和持续时间进行检测并将检测结果上传至所述记录模块,辨析模块根据记录模块中的故障时间、持续时间和故障类型生成故障类型时序图,故障类型时序图的横坐标为时间、纵坐标为故障类型,辨析模块根据记录模块中的故障类型及其发生次数生成故障类型饼状图,所述显示模块以直观的形式对辨析模块的分析生成的故障类型时序图和故障类型饼状图进行显示。
进一步地,在生成故障时序图的过程完成时,所述辨析模块计算同一时间段内故障的故障系数C,设定C为同一时段内存在故障的故障优先级之和,辨析模块将C与辨析模块中设置的预设故障系数临界值C0进行比较并根据比较结果判定该时段内的数据传输有效率是否符合标准;
若C≤C0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率符合标准;
若C>C0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率不符合标准。
进一步地,在生成故障类型饼状图的过程完成时,所述辨析模块计算发生次数最多的故障类型并将该故障类型标记为根因,辨析模块根据故障的发生次数以及持续时间的排序以根因为中心生成告警瞭望塔,所述显示模块以直观的形式对告警瞭望塔进行显示。
与现有技术相比,本发明的有益效果在于,本发明在完成对海量的故障进行检测后,通过算法对故障内容进行甄别并对故障类型进行统计分析,在分析完成后以直观的图表的形式展示故障内容,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
进一步地,本发明所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,便于人员在维修过程中查看传输单元的历史运行情况,使人员在AIOps无法判断故障原因时进行人工参与,提高了AIOps智慧运营中心的应用广泛性,进一步提高了企业的运维效率。
进一步地,本发明使用实时的数据传输速率作为判定数据传输单元是否故障的标准,数据传输速率受到各种因素的影响,不光对数据传输量进行了监测还对传输单位数据量的传输时间进行了监测,提高了AIOps智慧运营中心对故障判定的准确性,进一步提高了企业的运维效率。
进一步地,本发明辨析模块从传输单元的主要部件处理器为出发点对传输数据的具体故障位置进行判定,先对处理器本身的运行情况进行监测,更为快速的对主要故障进行定位,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
进一步地,本发明辨析模块不光考虑到了各部件本身的故障问题,还考虑到了各部件连接之间的故障问题,并通过逐级检测的方式以最快的速度定位到具体故障原因,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
进一步地,本发明对故障划分优先级,在传输量较大的时期为故障定义较高的优先级,在及时维护的基础上减小了故障对数据的总体传输量的影响,减少了企业因故障导致的损失,提高了人员对故障的解决效率。
进一步地,本发明通过多种方式对分析后的故障情况进行概述和展示,且通过时序图、饼状图和告警瞭望塔等直观的形式对故障内容进行展示,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
进一步地,本发明智能对分析后的故障内容进行更进一步分析,节省了人员对图表分析的时间,使AIOps智慧运营中心对故障的监测分析更为彻底,进一步提高了AIOps智慧运营中心的智能化水平。
附图说明
图1为本发明实施例基于AIOps智慧运营中心的故障监测分析方法的系统流程图;
图2为本发明实施例传输单元、检测单元和分析单元的结构示意图;
图3为本发明实施例故障类型时序图的结构示意图;
图4为本发明实施例告警瞭望塔的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1和图2所示,图1为本发明实施例基于AIOps智慧运营中心的故障监测分析方法的系统流程图,图2为本发明实施例传输单元、检测单元和分析单元的结构示意图,本发明提供一种基于AIOps智慧运营中心的故障监测分析方法,包括以下步骤:
步骤s1,将检测单元与传输单元中的各部件相连,将分析单元与检测单元相连;
步骤s2,所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,分析单元中的辨析模块对记录模块中的运行状态参数数据进行分析以判定传输单元的运行状态是否正常,若是,则转至步骤s4,若否,则转至步骤s3;
步骤s3,所述辨析模块根据分析结果控制所述检测单元对所述传输单元中各部件的工作参数进行检测,检测单元将结果记录至所述记录模块,辨析模块对记录模块中的工作参数数据进行分析以判定传输单元运行不正常的具体原因并结合运行状态参数对故障进行分级;
所述辨析模块对所述传输单元的故障情况进行统计分析并根据统计分析结果对故障的根因进行分析;
步骤s4,所述分析单元中的显示模块以直观的形式对辨析模块的分析结果进行显示。
具体而言,本发明在完成对海量的故障进行检测后,通过算法对故障内容进行甄别并对故障类型进行统计分析,在分析完成后以直观的图表的形式展示故障内容,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
具体而言,本发明所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,便于人员在维修过程中查看传输单元的历史运行情况,使人员在AIOps无法判断故障原因时进行人工参与,提高了 AIOps智慧运营中心的应用广泛性,进一步提高了企业的运维效率。
具体而言,请继续参阅图1所示,在所述步骤s2中,所述检测单元测得所述传输单元的数据传输速率η并将检测结果上传至所述记录模块,所述辨析模块将η与η0进行比较并根据比较结果判定传输单元的数据传输速率是否符合标准,辨析模块中设有预设传输速率η0;
若η≥η0,所述辨析模块判定所述传输单元的数据传输速率符合标准并转至步骤s4;
若η<η0,所述辨析模块判定所述传输单元的数据传输速率不符合标准并转至步骤s3,辨析模块根据测得的上游和下游的数据发送量判定数据传输速率不符合标准的原因。
具体而言,本发明使用实时的数据传输速率作为判定数据传输单元是否故障的标准,数据传输速率受到各种因素的影响,不光对数据传输量进行了监测还对传输单位数据量的传输时间进行了监测,提高了AIOps智慧运营中心对故障判定的准确性,进一步提高了企业的运维效率。
具体而言,在所述步骤s3中,当所述辨析模块判定所述传输单元的数据传输速率不符合标准时,辨析模块控制所述检测单元测得传输单元中处理器的上游数据发送量B1和下游数据接受量B2,辨析模块将B1与B2进行比较、根据比较结果判定上下游数据关系并根据上下游数据关系分情况判定处理器的故障原因;
若B1<B2,所述辨析模块判定上游数据发送量小于下游数据接受量并控制所述检测单元测得处理器的数据传输负载量L,辨析模块将L与L0进行比较并根据比较结果判定处理器的输送电缆是否故障,辨析模块中设有预设数据传输负载量L0;若L≥L0,所述辨析模块判定所述处理器的输送电缆运行正常;若L< L0,所述辨析模块判定所述处理器的输送电缆故障并判定其故障等级为3级故障;
若B1≥B2,所述辨析模块判定上游数据发送量大于下游数据接受量并计算上游数据发送量和下游数据接受量的数据传输差值ΔB,设定ΔB=B1-B2,辨析模块将ΔB与ΔB0进行比较并根据比较结果判定所述处理器的输送数据量是否正常,辨析模块中设有预设数据传输差值量ΔB0;若ΔB<ΔB0,所述辨析模块判定所述处理器的输送数据量正常;若ΔB≥ΔB0,所述辨析模块判定所述处理器的输送数据量异常。
具体而言,本发明辨析模块从传输单元的主要部件处理器为出发点对传输数据的具体故障位置进行判定,先对处理器本身的运行情况进行监测,更为快速的对主要故障进行定位,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
具体而言,当所述辨析模块判定所述处理器的输送数据量异常时,辨析模块控制所述检测单元测得上游端口的预设数据发送量B1’和下游端口的预设数据接受量B2’,辨析模块分别将B1与B1’和B2与B2’进行比较并根据比较结果判定端口是否故障;
若B1<B1’,所述辨析模块判定所述上游端口故障并判定其故障等级为1级故障;
若B2>B2’,所述辨析模块判定所述下游端口故障并判定其故障等级为1级故障;
若B1≥B1’或B2≤B2’,所述辨析模块判定端口与所述处理器的连接发生故障并根据测得的网络延迟率对端口与处理器之间连接的具体故障位置进行判定。
具体而言,当所述辨析模块判定端口与所述处理器的连接发生故障时,辨析模块控制所述检测单元测得网络延迟率P、将P分别与P1和P2进行比较并根据比较结果判定端口与处理器之间连接的具体故障位置,辨析模块中设有第一预设网络延迟率P1和第二预设网络延迟率P2,其中,P1<P2;
若P≤P1,所述辨析模块判定所述上游端口或下游端口与所述处理器之间的连接出现故障并判定其故障等级为1级故障;
若P1<P≤P2,所述辨析模块判定网络与所述处理器之间的连接出现故障并判定其故障等级为2级故障;
若P>P2,所述辨析模块判定端口与所述处理器之间没有故障、判定网络波动并判定其故障等级为2级故障。
具体而言,本发明辨析模块不光考虑到了各部件本身的故障问题,还考虑到了各部件连接之间的故障问题,并通过逐级检测的方式以最快的速度定位到具体故障原因,缩短了人员进行运维的时间成本,进一步提高了企业的运维效率。
具体而言,在所述步骤s3中,所述辨析模块将η分别与η1和η2进行比较并根据比较结果对传输等级进行判定,辨析模块中设有第一预设传输速率临界值η1和第二预设传输速率临界值η2,其中,η1<η2<η0;
若η<η1,所述辨析模块判定当前传输等级为1级传输速率;
若η1≤η<η2,所述辨析模块判定当前传输等级为2级传输速率;
若η≥η2,所述辨析模块判定当前传输等级为3级传输速率。
具体而言,在所述步骤s3中,在将故障等级和传输等级的分级过程完成时,所述辨析模块计算故障优先级Y,辨析模块将故障等级记为G并将传输等级记为 S,设定Y=G×S,其中,G=1,2,3,S=1,2,3,若故障等级为i级,则G=i,若传输等级为j级,则G=j,辨析模块将计算出的故障优先级上传至所述记录模块。
具体而言,本发明对故障划分优先级,在传输量较大的时期为故障定义较高的优先级,在及时维护的基础上减小了故障对数据的总体传输量的影响,减少了企业因故障导致的损失,提高了人员对故障的解决效率。
具体而言,请参阅图3所示,其为本发明实施例故障类型时序图的结构示意图,在所述步骤s4中,所述辨析模块控制所述检测单元对每次故障的时间节点和持续时间进行检测并将检测结果上传至所述记录模块,辨析模块根据记录模块中的故障时间、持续时间和故障类型生成故障类型时序图,故障类型时序图的横坐标为时间、纵坐标为故障类型,辨析模块根据记录模块中的故障类型及其发生次数生成故障类型饼状图,所述显示模块以直观的形式对辨析模块的分析生成的故障类型时序图和故障类型饼状图进行显示。
具体而言,在生成故障时序图的过程完成时,所述辨析模块计算同一时间段内故障的故障系数C,设定C为同一时段内存在故障的故障优先级之和,辨析模块将C与C0进行比较并根据比较结果判定该时段内的数据传输有效率是否符合标准,辨析模块中设有预设故障系数临界值C0;
若C≤C0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率符合标准;
若C>C0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率不符合标准。
具体而言,本发明智能对分析后的故障内容进行更进一步分析,节省了人员对图表分析的时间,使AIOps智慧运营中心对故障的监测分析更为彻底,进一步提高了AIOps智慧运营中心的智能化水平。
具体而言,请参阅图4所示,其为本发明实施例告警瞭望塔的结构示意图,在生成故障类型饼状图的过程完成时,所述辨析模块计算发生次数最多的故障类型并将该故障类型标记为根因,辨析模块根据故障的发生次数以及持续时间的排序以根因为中心生成告警瞭望塔,所述显示模块以直观的形式对告警瞭望塔进行显示。
具体而言,本发明通过多种方式对分析后的故障情况进行概述和展示,且通过时序图、饼状图和告警瞭望塔等直观的形式对故障内容进行展示,使人员可以针对重要故障进行集中维修处理,从而减小了人员进行运维的时间成本,进一步提高了企业的运维效率。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于AIOps智慧运营中心的故障监测分析方法,其特征在于,包括以下步骤:
步骤s1,将检测单元与传输单元中的各部件相连,将分析单元与检测单元相连;
步骤s2,所述检测单元对所述传输单元中的运行状态参数进行检测并将结果记录至所述分析单元中的记录模块,分析单元中的辨析模块对记录模块中的运行状态参数数据进行分析以判定传输单元的运行状态是否正常,若是,则转至步骤s4,若否,则转至步骤s3;
步骤s3,所述辨析模块根据分析结果控制所述检测单元对所述传输单元中各部件的工作参数进行检测,检测单元将结果记录至所述记录模块,辨析模块对记录模块中的工作参数数据进行分析以判定传输单元运行不正常的具体原因并结合运行状态参数对故障进行分级;
所述辨析模块对所述传输单元的故障情况进行统计分析并根据统计分析结果对故障的根因进行分析;
步骤s4,所述分析单元中的显示模块以直观的形式对辨析模块的分析结果进行显示;
在所述步骤s3中,当所述辨析模块判定所述传输单元的数据传输速率不符合标准时,辨析模块控制所述检测单元依次测得传输单元中处理器的上游数据发送量B1和下游数据接受量B2,辨析模块将B1与B2进行比较、根据比较结果判定上下游数据关系并根据上下游数据关系分情况判定处理器的故障原因;
若B1<B2,所述辨析模块判定上游数据发送量小于下游数据接受量并控制所述检测单元测得处理器的数据传输负载量L、将L与L0进行比较并根据比较结果判定处理器的输送电缆是否故障;所述辨析模块中设有预设数据传输负载量L0,若L≥L0,辨析模块判定所述处理器的输送电缆运行正常,若L<L0,辨析模块判定处理器的输送电缆故障并判定其故障等级为3级故障;
若B1≥B2,所述辨析模块判定上游数据发送量大于下游数据接受量并计算上游数据发送量和下游数据接受量的数据传输差值ΔB,设定ΔB=B1-B2,辨析模块将ΔB与ΔB0进行比较并根据比较结果判定所述处理器的输送数据量是否正常;所述辨析模块中设有预设数据传输差值量ΔB0,若ΔB<ΔB0,辨析模块判定所述处理器的输送数据量正常,若ΔB≥ΔB0,辨析模块判定处理器的输送数据量异常。
2.根据权利要求1所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,在所述步骤s2中,所述检测单元测得所述传输单元的数据传输速率η并将检测结果上传至所述记录模块,所述辨析模块根据η判定传输单元的数据传输速率是否符合标准,辨析模块中设有预设传输速率η0;
若η≥η0,所述辨析模块判定所述传输单元的数据传输速率符合标准并转至所述步骤s4;
若η<η0,所述辨析模块判定所述传输单元的数据传输速率不符合标准并转至所述步骤s3,辨析模块根据测得的上游和下游的数据发送量判定数据传输速率不符合标准的原因。
3.根据权利要求2所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,当所述辨析模块判定所述处理器的输送数据量异常时,辨析模块控制所述检测单元测得上游端口的预设数据发送量B1’和下游端口的预设数据接受量B2’,辨析模块分别将B1与B1’进行比较、将B2与B2’进行比较并根据比较结果判定端口是否故障;
若B1<B1’,所述辨析模块判定所述上游端口故障并判定其故障等级为1级故障;
若B2>B2’,所述辨析模块判定所述下游端口故障并判定其故障等级为1级故障;
若B1≥B1’或B2≤B2’,所述辨析模块判定端口与所述处理器的连接发生故障并根据测得的网络延迟率对端口与处理器之间连接的具体故障位置进行判定。
4.根据权利要求3所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,当所述辨析模块判定端口与所述处理器的连接发生故障时,辨析模块控制所述检测单元测得网络延迟率P、将P分别与P1和P2进行比较并根据比较结果判定端口与处理器之间连接的具体故障位置;所述辨析模块中设有第一预设网络延迟率P1和第二预设网络延迟率P2,其中,P1<P2;
若P≤P1,所述辨析模块判定所述上游端口或下游端口与所述处理器之间的连接出现故障并判定其故障等级为1级故障;
若P1<P≤P2,所述辨析模块判定网络与所述处理器之间的连接出现故障并判定其故障等级为2级故障;
若P>P2,所述辨析模块判定端口与所述处理器之间没有故障、判定网络波动并判定其故障等级为2级故障。
5.根据权利要求2所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,在所述步骤s3中,所述辨析模块根据η对传输等级进行判定,辨析模块中设有第一预设传输速率临界值η1和第二预设传输速率临界值η2,其中,η1<η2;
若η<η1,所述辨析模块判定当前传输等级为1级传输速率;
若η1≤η<η2,所述辨析模块判定当前传输等级为2级传输速率;
若η≥η2,所述辨析模块判定当前传输等级为3级传输速率。
6.根据权利要求2所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,在所述步骤s3中,在将故障等级和传输等级的分级过程完成时,所述辨析模块计算故障优先级Y,辨析模块将故障等级记为G并将传输等级记为S,设定Y=G×S,其中,G=1,2,3,S=1,2,3。
7.根据权利要求2所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,在所述步骤s4中,所述辨析模块控制所述检测单元对每次故障的时间节点和持续时间进行检测并将检测结果上传至所述记录模块,辨析模块根据记录模块中的故障时间、持续时间和故障类型生成故障类型时序图,故障类型时序图的横坐标为时间、纵坐标为故障类型,辨析模块根据记录模块中的故障类型及其发生次数生成故障类型饼状图,所述显示模块以直观的形式对辨析模块的分析生成的故障类型时序图和故障类型饼状图进行显示。
8.根据权利要求7所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,在生成故障时序图的过程完成时,所述辨析模块计算同一时间段内故障的故障系数C,设定C为同一时段内存在故障的故障优先级之和,辨析模块将C与辨析模块中设置的预设故障系数临界值C0进行比较并根据比较结果判定该时段内的数据传输有效率是否符合标准;
若C≤C0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率符合标准;
若C>C0,所述辨析模块判定当前时段内所述传输单元的数据传输有效率不符合标准。
9.根据权利要求7所述的基于AIOps智慧运营中心的故障监测分析方法,其特征在于,在生成故障类型饼状图的过程完成时,所述辨析模块计算发生次数最多的故障类型并将该故障类型标记为根因,辨析模块根据故障的发生次数以及持续时间的排序以根因为中心生成告警瞭望塔,所述显示模块以直观的形式对告警瞭望塔进行显示。
CN202210326529.7A 2022-03-30 2022-03-30 基于AIOps智慧运营中心的故障监测分析方法 Active CN114637654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210326529.7A CN114637654B (zh) 2022-03-30 2022-03-30 基于AIOps智慧运营中心的故障监测分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210326529.7A CN114637654B (zh) 2022-03-30 2022-03-30 基于AIOps智慧运营中心的故障监测分析方法

Publications (2)

Publication Number Publication Date
CN114637654A CN114637654A (zh) 2022-06-17
CN114637654B true CN114637654B (zh) 2022-12-02

Family

ID=81951994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210326529.7A Active CN114637654B (zh) 2022-03-30 2022-03-30 基于AIOps智慧运营中心的故障监测分析方法

Country Status (1)

Country Link
CN (1) CN114637654B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684181B (zh) * 2018-11-20 2020-08-07 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111597204A (zh) * 2020-05-20 2020-08-28 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN113079367B (zh) * 2021-03-11 2023-02-03 广州国交润万交通信息有限公司 一种监控设备的状态检测方法及装置

Also Published As

Publication number Publication date
CN114637654A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN109001649B (zh) 一种电源智能诊断系统及保护方法
CN115425764B (zh) 一种电力系统智能网络风险实时监控方法、系统及存储介质
CN104866632B (zh) 家电设备的故障数据获取方法、装置及终端
CN116859857B (zh) 基于远程控制的燃油泵装配生产线智能管理系统
CN112162878A (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN109766334A (zh) 用于电力设备在线监测异常数据的处理方法及系统
CN109741927B (zh) 微型变压器生产线的设备故障和潜在不良品智能预测系统
CN116880412B (zh) 一种基于云的可视化生产管理平台
CN105041631A (zh) 一种气体压缩机的驱动轴振动信号的检测方法和系统
CN115372816B (zh) 基于数据分析的配电开关设备运行故障预测系统及方法
CN112286771A (zh) 一种针对全域资源监控的告警方法
CN115576738A (zh) 一种基于芯片分析实现设备故障确定的方法及系统
CN114594349A (zh) 一种储能系统中直流绝缘监测方法及终端
CN117486029B (zh) 基于传感器网络的电梯能耗实时监控方法及系统
KR102648377B1 (ko) 네트워크 케이블 품질 모니터링이 가능한 ai 통합배선반 및 이를 이용한 방법
CN114637654B (zh) 基于AIOps智慧运营中心的故障监测分析方法
CN117235460B (zh) 一种基于电力时序数据的数据传输处理方法及系统
KR20220132824A (ko) 배전설비 상태 이상 개소 감시 시스템 및 방법
CN116611953A (zh) 基于物联网的电能表生产制造实时数据管理方法和系统
CN117221145A (zh) 基于物联网平台的设备故障预测性维护系统
CN107844894B (zh) 一种基于大数据的配电网终端运维状态判断方法
CN114500178B (zh) 一种自运维的智慧物联网关
CN107147526A (zh) 智能网络故障检测方法及系统
CN117371978B (zh) 一种基于物联网平台的供水项目设备故障溯源方法
US11047833B2 (en) Method for automatic determination of trend in graphic analysis of turbomachines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant