CN108683517B - 一种基于机器学习的运维机器人网络故障检测系统 - Google Patents

一种基于机器学习的运维机器人网络故障检测系统 Download PDF

Info

Publication number
CN108683517B
CN108683517B CN201810252213.1A CN201810252213A CN108683517B CN 108683517 B CN108683517 B CN 108683517B CN 201810252213 A CN201810252213 A CN 201810252213A CN 108683517 B CN108683517 B CN 108683517B
Authority
CN
China
Prior art keywords
data
deviation
network
broadcast
broadcast transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810252213.1A
Other languages
English (en)
Other versions
CN108683517A (zh
Inventor
来骥
张少军
马跃
彭柏
许大卫
张实君
陈重韬
吴佳
吴舜
万莹
李贤�
孟德
王海峰
李硕
王艺霏
辛霆麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810252213.1A priority Critical patent/CN108683517B/zh
Publication of CN108683517A publication Critical patent/CN108683517A/zh
Application granted granted Critical
Publication of CN108683517B publication Critical patent/CN108683517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/24Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using dedicated network management hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer And Data Communications (AREA)
  • Manipulator (AREA)

Abstract

本发明提供了一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,还包括运维机器人以及收发器,每一收发器对应一网络设备设置,运维机器人通过无线或有线的方式分别连接每一终端收发器、接入层收发器、分布层收发器的第一收发器以及第二收发器;通过在每一网络设备的物理层上直接建立收发器,运维机器人通过收发器直接获取数据,而无需通过原有网络,整个结构可以直接嵌套到任意现有的网络结构中起到运维服务,更重要的是,通过故障诊断策略生成广播传递数据,通过随机以及比对的方式可以直接得到对应的比对结果,通过数据监测获取到每一数据的实际值,从而判断故障的节点,快速方便且数据内容更加详细可靠。

Description

一种基于机器学习的运维机器人网络故障检测系统
技术领域
本发明涉及智能运维技术领域,具体是涉及一种基于机器学习的运维机器人网络故障检测系统。
背景技术
运维工程师(Operations),负责维护并确保整个服务的高可用性,同时不断优化系统架构、提升部署效率、优化资源利用率提高整体的ROI。运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好几十万台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同得作用,因此运维工程师的工作内容和方向非常多:事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。在这方面主要工作内容有:问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。问题跟踪:通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具。变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作。在这方面运维主要工作内容有:配置管理:通过配置管理平台(自研、开源)管理服务涉及到的多个模块、多个版本的关系以及配置的准确性。发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化之。在这方面主要工作内容有:容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案。比如通过调整系统参数、优化服务部署架构等方法来高效的提升系统容量。架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整。以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。
而目前市场上出现了一种运维机器人,用以替代运维工程师,而对于运维机器人最重要的功能之一是及时发现网络故障,而现有的模式是通过直接将运维机器人组网到局域网中,局域网络的组成一般包括若干终端、若干接入层交换机、若干分布层交换机以及第一核心交换机、第二核心交换机,第一核心交换机通过局域网服务器连接局域网数据库,而第二核心交换机连接广域网,通过运维机器人的组网动作实现组网系统,而一旦网络故障,则需要运维机器人判断故障的节点以及故障的情况,现有的运维机器人显然难以完全实现对故障节点的判断。
发明内容
针对现有技术中存在的上述问题,现旨在提供一种基于机器学习的运维机器人网络故障检测系统,以解决上述问题。具体技术方案如下:一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,还包括运维机器人以及收发器,每一收发器对应一网络设备设置;
所述运维机器人,用于发送广播检测数据,当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成一广播传递数据发送至所有与该网络设备连接的其他网络设备;以及当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;
所述运维机器人根据接收到的广播传递数据以及协议反馈数据建立反馈数据表,所述运维机器人根据检测位置调用所述标准数据表,所述运维机器人比较所述反馈数据表以及所述标准数据表,确定偏差数据;
所述运维机器人根据偏差数据从运维数据库中匹配处理策略。
进一步地:所述运维机器人连接于一运维数据库以及后台处理端,所述运维数据库配置有若干标准数据表、偏差数据以及与偏差数据配对的处理策略,所述运维机器人配置有故障诊断策略以及所述故障学习策略;所述故障诊断策略包括随机生成若干检测位置,每一检测位置对应有一标准数据表,每一检测位置对应所述运维机器人网络故障检测系统中的一个网络设备;
所述运维机器人向所述检测位置对应的收发器发送所述广播检测数据;
所述运维机器人比较所述反馈数据表以及所述标准数据表,确定偏差数据后还包括:若所述反馈数据表和所述标准数据表不存在偏差,那么判断为无故障;若所述反馈数据表以及所述标准数据表存在偏差,那么根据所述偏差得到偏差数据;
所述运维机器人根据偏差数据从运维数据库中匹配处理策略后还包括:若运维数据库中存在所述偏差数据配对的处理策略,那么执行所述处理策略;若运维数据库中不存在所述偏差数据配对的处理策略,将所述偏差数据发送至所述后台处理端;所述故障学习策略包括当所述偏差数据被输出到后台处理端时,根据所述后台处理端输入的处理结果生成一新的所述处理策略,并将新的所述处理策略与所述偏差数据配对并存入所述运维数据库。
进一步地:所述网络设备包括终端侧设备和网络侧设备;
所述收发器包括若干终端侧收发器和网络侧收发器;
所述终端侧收发器分别安装于每一终端的网络信号端并与所述终端侧设备建立物理连接;
每一所述网络侧设备配置有网络侧镜像端口,所述网络侧镜像端口用于镜像所述网络侧设备的其他端口,每一所述网络侧收发器分别安装于所述网络侧镜像端口并与所述网络侧设备建立物理连接。
进一步地:所述网络设备包括若干终端、若干接入层交换机、若干分布层交换机以及第一核心交换机、第二核心交换机,第一核心交换机通过内网服务器连接内网数据库,而第二核心交换机连接广域网;
所述收发器包括若干终端收发器、若干接入层收发器、若干分布层收发器、第一收发器以及第二收发器,所述运维机器人通过无线或有线的方式分别连接每一所述终端收发器、所述接入层收发器、所述分布层收发器、所述的第一收发器以及第二收发器;
所述终端收发器分别安装于每一终端的网络信号端并与所述终端建立物理连接;
每一所述接入层交换机设置有接入层镜像端口,所述接入层镜像端口用于镜像所述接入层交换机的其他端口,每一所述接入层收发器分别安装于所述接入层镜像端口并与所述接入层交换机建立物理连接;
每一所述分布层交换机设置有分布层镜像端口,所述分布层镜像端口用于镜像所述分布层交换机的其他端口,每一所述分布层收发器分别安装于所述分布层镜像端口并与所述分布层交换机建立物理连接;
每一所述第一核心交换机设置有第一核心镜像端口,所述第一核心镜像端口用于镜像所述第一核心交换机的其他端口,每一所述第一收发器分别安装于所述第一核心镜像端口并与所述第一核心交换机建立物理连接;
每一所述第二核心交换机设置有第二核心镜像端口,所述第二核心镜像端口用于镜像所述第二核心交换机的其他端口,每一所述第二收发器分别安装于所述第二核心镜像端口并与所述第二核心交换机建立物理连接。
进一步地:所述广播传递数据包括传递路径信息,所述传递路径信息反映该广播传递数据所经过的网络设备以及经过网络设备的顺序。
进一步地:所述广播传递数据配置有预设的传递值,每一广播传递数据经过一网络设备值,该广播传递数据的对应的传递值减小,当广播传递数据的传递值小于零时,对应的网络设备不再将该广播传递数据发送至其他网络设备中。
进一步地:在一次检测策略中,所述的检测位置至少对应包括所述终端、所述接入层交换机、所述分布层交换机、所述第一核心交换机、所述第二核心交换机。
进一步地:所述广播传递数据还包括辨识信息以及协议基准信息,当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述协议基准信息得到协议反馈数据,每一所述广播传递数据的辨识信息不同,每一所述广播传递数据的协议基准信息相同。
进一步地:所述广播传递数据还包括传递时间,所述传递时间反映所述广播传递数据到达所述网络设备的时间。
进一步地:所述运维机器人配置有网络虚拟模型,所述网络虚拟模型与运维机器人网络故障检测系统的实际网络模型相同,所述运维机器人根据所述故障诊断策略生成的检测位置在所述网络虚拟模型中模拟所述广播数据的传递以获得每一所述检测位置对应的标准数据表。
进一步地:所述反馈数据表以及所述标准数据表之间的偏差包括时间偏差、协议信息偏差、接收偏差以及发送偏差;
所述标准数据表配置有一第一时间裕量,当所述反馈数据表中一广播传递数据所对应的传递时间超过所述第一时间裕量时,输出所述时间偏差;所述标准数据表配置有一第二时间裕量,当所述反馈数据表中一协议反馈数据所对应的协议反馈时间超过所述第二时间裕量时,输出所述时间偏差;
所述标准数据表配置有标准协议信息,当所述反馈数据表中的一协议反馈数据所对应的协议反馈信息与标准协议信息不匹配时,输出所述协议信息偏差;
所述标准数据表配置有标准广播数据,当所述反馈数据表中的一广播传递数据在所述标准数据表中没有对应的标准广播数据时,输出所述发送偏差,若在所述标准数据表中的一标准广播数据在所述反馈数据表中没有对应的广播传递数据时,输出所述接收偏差;每一所述标准广播数据均包括有所述辨识信息,当一所述广播传递数据和所述标准广播数据的辨识信息相同时,判断该广播传递数据和标准广播数据对应。
本发明的第二目的在于:一种基于机器学习的运维机器人网络故障检测系统的故障诊断方法,包括如下步骤:
运维机器人发送广播检测数据;
当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成一广播传递数据发送至所有与该网络设备连接的其他网络设备;
当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;
所述运维机器人根据接收到的广播传递数据以及协议反馈数据确定偏差数据;并根据偏差数据确定网络故障。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:
预先配置标准数据表;并在所述运维机器人侧配置故障诊断策略,该故障诊断策略包括随机生成的若干检测位置,每一检测位置对应有一标准数据表,每一所述检测位置对应所述运维机器人网络故障检测系统中的一个网络设备;
所述运维机器人,根据接收到的广播传递数据以及协议反馈数据确定偏差数据的步骤包括;
所述运维机器人根据接收到的广播传递数据以及协议反馈数据建立反馈数据表,所述运维机器人根据检测位置调用标准数据表,所述运维机器人比较所述反馈数据表以及所述标准数据表,若所述反馈数据表和所述标准数据表不存在偏差,那么判断为无故障;若所述反馈数据表以及所述标准数据表存在偏差,则根据所述偏差得到偏差数据。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法中,所述运维机器人根据偏差数据确定网络故障包括:
预先还配置有偏差数据以及偏差数据配对的处理策略;并配置故障学习策略;
所述运维机器人根据偏差数据匹配处理策略,若运维数据库中存在所述偏差数据配对的处理策略,那么执行所述处理策略;若运维数据库中不存在所述偏差数据配对的处理策略,则执行所述故障学习策略,根据所述偏差数据生成一新的处理策略,并将新的所述处理策略与所述偏差数据配对并保存。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:所述广播传递数据包括传递路径信息,所述传递路径信息反映该广播传递数据所经过的网络设备以及经过网络设备的顺序。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:所述广播传递数据配置有预设的传递值,每一广播传递数据经过一网络设备值,该广播传递数据的对应的传递值减小,当广播传递数据的传递值小于零时,对应的网络设备不再将该广播传递数据发送至其他网络设备中。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:所述广播传递数据还包括辨识信息以及协议基准信息,当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述协议基准信息得到协议反馈数据,每一所述广播传递数据的辨识信息不同,每一所述广播传递数据的协议基准信息相同。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:所述广播传递数据还包括传递时间,所述传递时间反映所述广播传递数据到达所述网络设备的时间。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:所述运维机器人配置有网络虚拟模型,所述网络虚拟模型与运维机器人网络故障检测系统的实际网络模型相同,所述运维机器人根据所述故障诊断策略生成的检测位置在所述网络虚拟模型中模拟所述广播数据的传递以获得每一所述检测位置对应的标准数据表。
进一步地:该机器学习的运维机器人网络故障检测系统的故障诊断方法,还包括:所述反馈数据表以及所述标准数据表之间的偏差包括时间偏差、协议信息偏差、接收偏差以及发送偏差;
所述标准数据表配置有一第一时间裕量,当所述反馈数据表中一广播传递数据所对应的传递时间超过所述第一时间裕量时,输出所述时间偏差;所述标准数据表配置有一第二时间裕量,当所述反馈数据表中一协议反馈数据所对应的协议反馈时间超过所述第二时间裕量时,输出所述时间偏差;
所述标准数据表配置有标准协议信息,当所述反馈数据表中的一协议反馈数据所对应的协议反馈信息与标准协议信息不匹配时,输出所述协议信息偏差;
所述标准数据表配置有标准广播数据,当所述反馈数据表中的一广播传递数据在所述标准数据表中没有对应的标准广播数据时,输出所述发送偏差,若在所述标准数据表中的一标准广播数据在所述反馈数据表中没有对应的广播传递数据时,输出所述接收偏差;每一所述标准广播数据均包括有所述辨识信息,当一所述广播传递数据和所述标准广播数据的辨识信息相同时,判断该广播传递数据和标准广播数据对应。
上述技术方案的积极效果是:
上述的基于机器学习的运维机器人网络故障检测系统和方法,通过这样设置,通过在每一网络设备的物理层上直接建立收发器,运维机器人通过收发器直接获取数据,而无需通过原有网络,整个结构可以直接嵌套到任意现有的网络结构中起到运维服务,更重要的是,通过故障诊断策略生成广播传递数据,通过随机以及比对的方式可以直接得到对应的比对结果,通过数据监测获取到每一数据的实际值,从而判断故障的节点,快速方便且数据内容更加详细可靠。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明为现有技术一般局域网网络系统架构图;
图2为本发明系统架构示意图。
附图中:1、终端;11、终端收发器;2、接入层交换机;21、接入层收发器;3、分布层交换机; 31、分布层收发器;4、第一核心交换机;31、第一收发器;5、第二核心交换机;51、第二收发器;6、局域网服务器;7、局域网数据库;8、广域网;100、运维机器人;110、运维数据库。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图 1-2对本发明提供的技术方案作具体阐述,但以下内容不作为本发明的限定。
参照图1所示,首先,针对一种基于机器学习的运维机器人100网络故障检测系统,包括网络设备,所述网络设备包括若干终端1、若干接入层交换机2、若干分布层交换机3以及第一核心交换机4、第二核心交换机5,第一核心交换机4通过局域网服务器连接局域网数据库,而第二核心交换机5连接广域网8,还包括运维机器人100以及收发器,每一收发器对应一网络设备设置,所述收发器包括若干终端1收发器、若干接入层收发器21、若干分布层收发器31、第一收发器31以及第二收发器51,所述运维机器人100通过无线或有线的方式分别连接每一所述终端1收发器、所述接入层收发器21、所述分布层收发器31、所述的第一收发器31以及第二收发器51;首先对收发器的设置进行说明,直接连接于网络设备的接口中,通过在端口直接连接,并配置相应的数据获取模块以获取对应网络设备在局域网内传输数据时产生的数据包,起到一个抓包的效果,而收发器优选通过无线信号向运维机器人100传递数据,保证运维机器人100方便活动,提高自由度,可以发现,运维机器人100和原有的局域网处于两个网络,所以当局域网出现网络问题时,不会影响运维机器人100的检测功能,具体如下:
所述终端1收发器分别安装于每一终端1的网络信号端并与所述终端1建立物理连接;一般常见的终端1都是通过电脑、打印机、传真机,终端1收发器直接连接在其端口,目的在于获取数据传输信息,在此不做赘述,而具体实现不做局限。
每一所述接入层交换机2设置有接入层镜像端口,所述接入层镜像端口用于镜像所述接入层交换机2的其他端口,每一所述接入层收发器21分别安装于所述接入层镜像端口并与所述接入层交换机2 建立物理连接;镜像端口的原理是使用端口镜像,将需要监控的一个或多个端口监控到某一端口上,然后监控该端口的数据即可,接收数据就采用数据接收装置即可,在此不做赘述。
每一所述分布层交换机3设置有分布层镜像端口,所述分布层镜像端口用于镜像所述分布层交换机3的其他端口,每一所述分布层收发器31分别安装于所述分布层镜像端口并与所述分布层交换机3 建立物理连接;镜像端口的原理是使用端口镜像,将需要监控的一个或多个端口监控到某一端口上,然后监控该端口的数据即可,接收数据就采用数据接收装置即可,在此不做赘述。
每一所述第一核心交换机4设置有第一核心镜像端口,所述第一核心镜像端口用于镜像所述第一核心交换机4的其他端口,每一所述第一收发器31分别安装于所述第一核心镜像端口并与所述第一核心交换机4建立物理连接;镜像端口的原理是使用端口镜像,将需要监控的一个或多个端口监控到某一端口上,然后监控该端口的数据即可,接收数据就采用数据接收装置即可,在此不做赘述。
每一所述第二核心交换机5设置有第二核心镜像端口,所述第二核心镜像端口用于镜像所述第二核心交换机5的其他端口,每一所述第二收发器51分别安装于所述第二核心镜像端口并与所述第二核心交换机5建立物理连接;镜像端口的原理是使用端口镜像,将需要监控的一个或多个端口监控到某一端口上,然后监控该端口的数据即可,接收数据就采用数据接收装置即可,在此不做赘述。
以下,对运维机器人100的工作方式进行详述,所述运维机器人100连接于一运维数据库110以及后台处理端,所述运维数据库110配置有若干标准数据表、偏差以及与偏差配对的处理策略,所述运维机器人100配置有故障诊断策略以及所述故障学习策略;
首先针对故障检测策略进行详述,为了方便理解,本发明将所述故障诊断策略拆分成若干步骤:
步骤1:包括随机生成若干检测位置,每一检测位置对应有一标准数据表,每一检测位置对应所述运维机器人100网络故障检测系统中的一个网络设备;步骤1的目的在于首先生成检测位置,也就是广播的起始点,起始点作为数据的发送位置,通过随机的方式生成检测位置,可以减少系统检测盲点,提高检测效率。定义终端1的检测位置分别为A1-An,定义接入层交换机2的检测位置分别为B1-Bn,定义分布层交换机3的检测位置分别为C1-Cn,定义第一核心交换机4的位置为D,第二核心交换机5 的位置为E,进行详述,每次生成一个检测位置,例如生成检测位置A3进入步骤2。在一次检测策略中,所述的检测位置至少对应包括所述终端1、所述接入层交换机2、所述分布层交换机3、所述第一核心交换机4、所述第二核心交换机5。由于需要对数据的检测、下载、局域网服务器6数据上传,下载均进行检测,所以需要对每一层至少选择一个检测位置,所以至少需要执行4次。
步骤2:所述运维机器人100向所述检测位置对应的收发器发送一广播检测数据;例如此时生成的检测位置为A3,那么就将这个广播检测数据发送至A3,进入步骤3;
步骤3:当对应的网络设备通过所述收发器接收到所述广播检测数据时,根据所述广播检测数据生成一广播传递数据发送至所有与该网络设备连接的其他网络设备,例如广播检测数据发送到A3终端 1,那么如果A3终端1连接有A4终端1和B3接入层交换机2,那么将经过A3处理的广播传递数据通过A3终端1发送到A4和B3;如果运维机器人100已经将数据发送到A3,但是A4没有接收 到对应的数据,而B3接收 到对应的数据了,那么则故障发生的位置则是A4位置和A3位置之间。所述广播传递数据包括传递路径信息,所述传递路径信息反映该广播传递数据所经过的网络设备以及经过网络设备的顺序。所述广播传递数据还包括辨识信息以及协议基准信息,当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述协议基准信息得到协议反馈数据,每一所述广播传递数据的辨识信息不同,每一所述广播传递数据的协议基准信息相同。首先需要对广播传递数据进行说明,例如如果A3的广播传递数据分别传递到A4和B3那么应该理解为两个广播传递数据,A3-B3以及A3-A4,如果B3又连接有B4\B5\B6,则此时广播传递数据为A3-B3-B4、A3-B3-B6、A3-B3-B5、A3-A4,四个广播传递数据,而上述的经过的网络设备的编号及顺序则定义为传递路径信息,这样可以清楚获知,每一个广播传递信息在哪个节点未完成传递,而辨识信息的设置,为了区分每一个广播传递数据,保证每一个广播传递数据都是唯一的,辨识信息可以以传递路径信息为基准,在此不做赘述。
步骤4包括步骤4-1以及步骤4-2,当网络设备接收所述广播传递数据时,步骤4-1,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人100,步骤4-2,将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;例如如果A4终端1接收到这个广播传递数据了,那么就将 广播传递数据通过网络协议进行处理,就会得到一个协议的反馈数据,这样就可以知道A4终端1对于网络协议处理的功能有无出现故障,这个数据是直接通过物理层被送到收发器从而送回运维机器人100,所以能直接得到判断,同时,如果A4终端1接收到这个广播传递数据,A4如果连接有A5终端1,则将该广播传递数据传输到A5,而如果A4没有连接到任何网络设备,就不再向外发送信号,但是需要说明的是,有两种广播数据的传输逻辑,第一、A4也可以将数据回传到A3,A3接收该数据时重复步骤4,第二、也可以限制数据的回传,例如如果这个广播数据中已经存在经过A3 终端1的标记,则另一与A3直接连接的网络设备即使有接收到广播传递数据,也不会再向A3发送信息,第一种方式检测较为全面可靠,但是耗时更大,获取的数据内容更多,第二种方式获取的数据内容较少,但是效率更高。所述广播传递数据配置有预设的传递值,每一广播传递数据经过一网络设备值,该广播传递数据的对应的传递值减小,当广播传递数据的传递值小于零时,对应的网络设备不再将该广播传递数据发送至其他网络设备中。例如传递值设置为3时,就A3而言,每一个由A3为起始传输点的广播传递数据最多可以传输4个距离,例如A3-A4-B3-C2,那么即使C2还连接D,也不会将数据传输到D,因为传递值已经小于0了,这样设置,可以根据每一网络的复杂程度设置传递值,以提高数据传输效率。所述广播传递数据还包括传递时间,所述传递时间反映所述广播传递数据到达所述网络设备的时间。所述协议反馈数据包括协议反馈信息以及生成所述协议反馈信息的协议反馈时间,所述协议反馈信息根据网络协议处理所述协议基准信息生成。而网络问题诊断中较为关键的因素还存在,数据传输的时间和输出处理的时间,而数据传输的时间直接影响了数据传输的快慢,保证数据传输的效率,而数据处理的时间则反映了终端1对于数据的处理速度,所以这两个数据也可以判断网络故障或网络延迟现象,数据内容丰富,起到的故障判断效果更加准确。
步骤5:所述运维机器人100根据接收到的广播传递数据以及协议反馈数据建立反馈数据表,所述于运维机器人100根据检测位置调用所述标准数据表,所述运维机器人100比较所述反馈数据表以及所述标准数据表;所述运维机器人100配置有网络虚拟模型,所述网络虚拟模型与运维机器人100网络故障检测系统的实际网络模型相同,所述运维机器人100根据所述故障诊断策略生成的检测位置在所述网络虚拟模型中模拟所述广播数据的传递以获得每一所述检测位置对应的标准数据表。标准数据表的建立方式较为简单,由于每一网络设备的吞吐量,平均传输速率、连接关系、功能均为已知量,所以通过运维机器人100很容易建立网络虚拟模型,模拟在健康网络环境下,模拟故障诊断策略,得到一个标准的数据表。
若所述反馈数据表和所述标准数据表不存在偏差,那么判断为无故障;若所述反馈数据表以及所述标准数据表存在偏差,那么根据所述偏差得到偏差;所述反馈数据表以及所述标准数据表之间的偏差包括时间偏差、协议信息偏差、接收偏差以及发送偏差;而偏差的情况多种多样,以下仅通过几种典型的情况对整个系统作出详细的介绍;
首先是传输速率和处理速率的问题,通过时间偏差反映:所述标准数据表配置有一第一时间裕量,当所述反馈数据表中一广播传递数据所对应的传递时间超过所述第一时间裕量时,输出所述时间偏差;所述标准数据表配置有一第二时间裕量,当所述反馈数据表中一协议反馈数据所对应的协议反馈时间超过所述第二时间裕量时,输出所述时间偏差;例如对应A3-A4-B3这一路径上的广播传递数据的传递,数据到达B3时,虚拟网络模型获得的传递时间为0.134秒,如果配置第一时间裕量为0.05秒,如果实际的传递时间超过0.184秒则判断该广播数据的传递时间存在偏差,应该排查故障,而同样的,例如对 B3终端1对广播传递数据通过网络协议处理得到协议反馈时间为0.155秒,第二时间裕量为0.07秒,则如果实际的协议反馈时间超过0.07秒,则应当排查故障。
而后是对网络协议是否正确的问题进行解释,所述标准数据表配置有标准协议信息,当所述反馈数据表中的一协议反馈数据所对应的协议反馈信息与标准协议信息不匹配时,输出所述协议信息偏差;也就是说,如果反馈数据表通过虚拟网络模拟的标准协议信息与实际通过对应的网络设备处理产生的协议反馈信息不对应时,判断为协议偏差,为了减少数据处理量,提高处理效率将广播传递数据的协议基准信息设置为相同,而需要说明的是由于不同的处理设备的网络协议可能不同,所以针对不同的收发器,通过不同的网络协议进行解码,从而判断生成的内容是否为基准协议信息,如果不同,则存在偏差,说明网络协议出现问题,而根据产生的数据,可以诊断故障的具体内容,在此不做赘述。
所述标准数据表配置有标准广播数据,当所述反馈数据表中的一广播传递数据在所述标准数据表中没有对应的标准广播数据时,输出所述发送偏差,若在所述标准数据表中的一标准广播数据在所述反馈数据表中没有对应的广播传递数据时,输出所述接收偏差;每一所述标准广播数据均包括有所述辨识信息,当一所述广播传递数据和所述标准广播数据的辨识信息相同时,判断该广播传递数据和标准广播数据对应。而标准广播数据则是对一个检测位置的所有产生的广播传递数据进行的模拟,而例如定义对应A3为起始位置的广播传递数据,此时有内容分别为X1-XN的广播传递数据也存在有Y1-YN的标准广播数据,而如果其中X3没有对应的标准广播数据,则说明数据产生X3这个广播传递数据,所以输出发送偏差,而如果Y3没有对应的广播传递数据,则说明缺少了一个广播传递数据,则记载为Y3缺省的状态。
步骤6:所述运维机器人100根据偏差从所述运维数据库110中匹配处理策略,若运维数据库110 中存在所述偏差配对的处理策略,那么执行所述处理策略;若运维数据库110中不存在所述偏差配对的处理策略,将所述偏差发送至所述后台处理端。处理策略可以预先配置,例如对应交换机而言增加某一接口的带宽一提高传输速率解决时间偏差,例如通过输出位置信息,提醒使用者目标位置的连接断开提醒使用者维修,例如通过接入一个备用的交换机解决连接断开的问题,在此不做赘述,而需要说明的是,步骤5中列举了多种偏差的类型,而不仅仅局限于根据单一偏差制定对应的处理策略,还可以根据多种不同的偏差指定一处理策略,对于系统故障的组合多种多样,情况复杂在此不做赘述。
步骤7:所述故障学习策略包括当所述偏差被输出到后台处理端时,根据所述后台处理端输入的处理结果生成一新的所述处理策略,并将新的所述处理策略与所述偏差配对并存入所述运维数据库110。而故障学习策略可以保存产生的数据,形成新的处理策略,由于数据量的增加,就可以实现更加智能化的运维方式,通过自主学习的方式提高故障处理的功能,保证处理效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (1)

1.一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,其特征在于,还包括运维机器人以及收发器,每一收发器对应一网络设备设置;
所述运维机器人,用于发送广播检测数据;
当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成广播传递数据;以及当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;
所述运维机器人,根据接收到的广播传递数据以及协议反馈数据确定偏差数据;并根据偏差数据确定网络故障;
预先配置标准数据表;并在所述运维机器人侧配置故障诊断策略,该故障诊断策略包括随机生成的若干检测位置,每一检测位置对应有一标准数据表,每一所述检测位置对应所述运维机器人网络故障检测系统中的一个网络设备;
所述运维机器人,根据接收到的广播传递数据以及协议反馈数据确定偏差数据,包括:
所述运维机器人根据接收到的广播传递数据以及协议反馈数据建立反馈数据表,所述运维机器人根据检测位置调用标准数据表,所述运维机器人比较所述反馈数据表以及所述标准数据表,若所述反馈数据表和所述标准数据表不存在偏差,那么判断为无故障;若所述反馈数据表以及所述标准数据表存在偏差,则根据所述偏差得到偏差数据;
所述运维机器人根据偏差数据确定网络故障包括:
预先还配置有偏差数据以及偏差数据配对的处理策略;并配置故障学习策略;
所述运维机器人根据偏差数据匹配处理策略,若运维数据库中存在所述偏差数据配对的处理策略,那么执行所述处理策略;若运维数据库中不存在所述偏差数据配对的处理策略,则执行所述故障学习策略,根据所述偏差数据生成一新的处理策略,并将新的所述处理策略与所述偏差数据配对并保存;
所述广播传递数据包括传递路径信息,所述传递路径信息反映该广播传递数据所经过的网络设备以及经过网络设备的顺序;
所述广播传递数据配置有预设的传递值,每一广播传递数据经过一网络设备值,该广播传递数据的对应的传递值减小,当广播传递数据的传递值小于零时,对应的网络设备不再将该广播传递数据发送至其他网络设备中;
所述广播传递数据还包括辨识信息以及协议基准信息,当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述协议基准信息得到协议反馈数据,每一所述广播传递数据的辨识信息不同,每一所述广播传递数据的协议基准信息相同;
所述广播传递数据还包括传递时间,所述传递时间反映所述广播传递数据到达所述网络设备的时间;
所述运维机器人配置有网络虚拟模型,所述网络虚拟模型与运维机器人网络故障检测系统的实际网络模型相同,所述运维机器人根据所述故障诊断策略生成的检测位置在所述网络虚拟模型中模拟所述广播传递数据的传递以获得每一所述检测位置对应的标准数据表;
所述反馈数据表以及所述标准数据表之间的偏差包括时间偏差、协议信息偏差、接收偏差以及发送偏差;
所述标准数据表配置有一第一时间裕量,当所述反馈数据表中一广播传递数据所对应的传递时间超过所述第一时间裕量时,输出所述时间偏差;所述标准数据表配置有一第二时间裕量,当所述反馈数据表中一协议反馈数据所对应的协议反馈时间超过所述第二时间裕量时,输出所述时间偏差;
所述标准数据表配置有标准协议信息,当所述反馈数据表中的一协议反馈数据所对应的协议反馈信息与标准协议信息不匹配时,输出所述协议信息偏差;
所述标准数据表配置有标准广播数据,当所述反馈数据表中的一广播传递数据在所述标准数据表中没有对应的标准广播数据时,输出所述发送偏差,若在所述标准数据表中的一标准广播数据在所述反馈数据表中没有对应的广播传递数据时,输出所述接收偏差;每一所述标准广播数据均包括有所述辨识信息,当一所述广播传递数据和所述标准广播数据的辨识信息相同时,判断该广播传递数据和标准广播数据对应;
基于机器学习的运维机器人网络故障检测系统的故障诊断方法,包括如下步骤:
运维机器人发送广播检测数据;
当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成一广播传递数据;
当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;
所述运维机器人根据接收到的广播传递数据以及协议反馈数据确定偏差数据;并根据偏差数据确定网络故障。
CN201810252213.1A 2018-03-26 2018-03-26 一种基于机器学习的运维机器人网络故障检测系统 Active CN108683517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810252213.1A CN108683517B (zh) 2018-03-26 2018-03-26 一种基于机器学习的运维机器人网络故障检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810252213.1A CN108683517B (zh) 2018-03-26 2018-03-26 一种基于机器学习的运维机器人网络故障检测系统

Publications (2)

Publication Number Publication Date
CN108683517A CN108683517A (zh) 2018-10-19
CN108683517B true CN108683517B (zh) 2021-03-23

Family

ID=63800459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810252213.1A Active CN108683517B (zh) 2018-03-26 2018-03-26 一种基于机器学习的运维机器人网络故障检测系统

Country Status (1)

Country Link
CN (1) CN108683517B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319501B (zh) * 2023-05-25 2023-09-05 深圳市英创立电子有限公司 一种获取设备运行参数的网络系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903408A (zh) * 2014-04-04 2014-07-02 内蒙古大唐国际新能源有限公司 设备故障侦查预警方法和系统
CN106789323A (zh) * 2017-01-05 2017-05-31 深圳奇迹智慧网络有限公司 一种通信网络管理方法及其装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7817564B2 (en) * 2006-07-31 2010-10-19 Cisco Technology, Inc. Method and system for handling fault messages in a network
CN102413127A (zh) * 2011-11-09 2012-04-11 中国电力科学研究院 一种数据库综合安全防护方法
US9699205B2 (en) * 2015-08-31 2017-07-04 Splunk Inc. Network security system
CN107612733A (zh) * 2017-09-19 2018-01-19 杭州安恒信息技术有限公司 一种基于工控系统的网络审计和监测方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903408A (zh) * 2014-04-04 2014-07-02 内蒙古大唐国际新能源有限公司 设备故障侦查预警方法和系统
CN106789323A (zh) * 2017-01-05 2017-05-31 深圳奇迹智慧网络有限公司 一种通信网络管理方法及其装置

Also Published As

Publication number Publication date
CN108683517A (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN106034051B (zh) 网络监控数据处理方法及网络监控数据处理装置
CN106685676B (zh) 一种节点切换方法及装置
CN103414916B (zh) 一种故障诊断系统及方法
CN110716842B (zh) 集群故障检测方法和装置
WO2013071125A1 (en) Systems and methods for automatic replacement and repair of communications network devices
CN102638375A (zh) 一种网络故障识别方法及装置
CN105450472A (zh) 一种自动获取服务器物理部件状态的方法及装置
CN106776243B (zh) 一种针对监控软件的监控方法及装置
WO2022151815A1 (zh) 一种终端设备的安全状态判断方法及装置
CN109104335A (zh) 一种工控设备网络攻击测试方法与系统
CN112994972B (zh) 一种分布式探针监测平台
CN110457176A (zh) 用于分布式系统的监控方法、装置、存储介质及电子设备
CN110968072A (zh) 一种基于人工智能的电气自动化设备监测系统和方法
US20120105074A1 (en) Method and system for interoperability testing
CN110275793B (zh) 一种用于MongoDB数据分片集群的检测方法及设备
CN108683517B (zh) 一种基于机器学习的运维机器人网络故障检测系统
CN109412902B (zh) 一种电力调度数据网系统的智能监测方法、存储设备、终端和系统
CN104950832B (zh) 钢铁厂控制系统
CN113448947B (zh) 一种mongo数据库分布式部署运维的方法和装置
CN114513404A (zh) 时间敏感网络的配置方法、装置及计算机可读存储介质
CN101252477A (zh) 一种网络故障根源的确定方法及分析装置
CN107294802A (zh) 一种端对端性能测试系统
CN100421381C (zh) 一种获取网络设备运行和故障状态信息的方法及装置
CN105550094B (zh) 一种高可用系统状态自动监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant