CN114143160B - 一种云平台自动化运维系统 - Google Patents
一种云平台自动化运维系统 Download PDFInfo
- Publication number
- CN114143160B CN114143160B CN202111242005.1A CN202111242005A CN114143160B CN 114143160 B CN114143160 B CN 114143160B CN 202111242005 A CN202111242005 A CN 202111242005A CN 114143160 B CN114143160 B CN 114143160B
- Authority
- CN
- China
- Prior art keywords
- network
- checking
- self
- equipment
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0213—Standardised network management protocols, e.g. simple network management protocol [SNMP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明提供了一种云平台自动化运维系统,包括:运行管理模块,用于监控网络设备的工作状态以及网络数据的流动状态;需求服务模块,用于获取管理员和云平台用户的配置变更需求、软件部署需求以及服务器管理需求;需求执行模块,用于根据管理员或云平台用户的配置变更需求、软件部署需求以及服务器管理需求对网络设备进行网络配置变更操作,通过本发明提供的一种云平台自动化运维系统,用以实现通过云端平台对网络运行状态进行监测,从而使运维人员不必亲临现场便能确定网络故障来源,并能在云端获取用户的操作需求对网络设备完成配置变更及软件部署工作。
Description
技术领域
本发明涉及互联网自动化管理领域,特别涉及一种云平台自动化运维系统。
背景技术
网络运维管理是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,该阶段主要用于IT部门内部日常运营管理,网络维护是维护网络安全和网络通畅的,像是局域网的维护或者是其他等,主要管理多个网络设备每天的正常运作,防止它出现什么状况,以及对各个网络设备内部资料进行维护和备份等。
现有的网络管理系统往往使用SNMP(Simple Network Management Protocol,简单网络管理协议)来实现这些功能,通过SNMP协议对所监控网络设备的MIB库中的某些OID值进行获取,并监测这些设备的具体指标值,诸如CPU使用率、内存使用率等。由于SNMP协议的局限性,现有网络管理系统至少存在一些缺陷。具体而言,系统通过MIB库获取到的信息有限,当设备出现异常时,网管系统并不能灵活地对异常设备进行可视化定位;并且网管系统通过SNMP协议并不能对所监控设备进行有效的操作。
因此,急需一种自动化运维系统,来实现对灵活地对异常设备进行可视化定位,并能远程通过云端获取用户的操作需求对网络设备完成配置变更及软件部署工作等各项运维工作。
发明内容
本发明提供一种云平台自动化运维系统,用以实现通过云端平台对网络运行状态进行监测,从而使运维人员不必亲临现场便能快速确定网络故障来源,并能在云端获取用户的操作需求对网络设备完成配置变更及软件部署工作。
本发明提供的一种云平台自动化运维系统,包括:
运行管理模块,用于监控网络设备的工作状态以及网络数据的流动状态;
需求服务模块,用于获取管理员和云平台用户的配置变更需求以及软件部署需求;
需求执行模块,用于根据管理员或云平台用户的配置变更需求以及软件部署需求对网络设备进行网络配置变更操作。
优选的,所述运行管理模块包括:
监控子模块,用于监控网络设备的工作状态以及网络数据的流动状态;
安全子模块,用于对网络设备中流动的网络数据进行安全行为管控。
优选的,所述监控子模块包括:
流量监控单元,用于实时监控网络活动,通过流量分析工具对网络数据进行分析,得到网络流量构成成分、协议分布以及用户活动信息并生成流量监控报表;
设备监控单元,用于实时获取网络设备的配置信息变更情况、外来接入设备以及通过网络设备管理工具分析网络设备的故障情况,并根据配置信息变更情况、外来接入设备及网络设备的故障情况生成可视化的网络拓扑监控图表;
分析管理单元,用于对流量监控报表以及网络拓扑监控图表进行异常状态分析得到网络设备上异常情况的分析结果;
状态显示单元,用于根据分析结果与网络设备的对应关系在网络拓扑监控图表所对应网络设备上显示异常流量、异常接入以及网络设备的运行状态;
显示单元,用于将所述网络拓扑监控图表在云平台的用户主页面进行显示。
优选的,所述安全子模块包括:
用户认证单元,用于根据网络数据对请求接入的设备及用户进行身份认证;
安全防御单元,包括多个安全防御设备,用于识别并抵御网络数据中的病毒攻击、异常流量以及非法行为;
日志管理单元,用于收集并存储网络设备、安全防御设备以及云端平台所产生的日志和事件信息。
优选的,所述需求服务模块包括:
网页显示单元,用于提供网页版的交互平台,用户可在该交互平台上观测各网络设备的运行情况;
服务列表单元,用于向所述客户端推送或者所述客户端向所述云服务器主动获取预设的软件服务列表,为用户显示该软件服务列表,供用户选择;
客户端单元,用于获取管理员和云平台用户的配置变更需求、软件部署需求以及其他管理需求。
优选的,所述需求执行模块包括:
权限分析单元,用于对管理员或云平台用户的操作需求进行权限分析,确定是否具有执行该操作需求的操作权限;
需求分析单元,用于对所述操作需求进行需求分析,确定执行该操作需求所要用到的网络设备,以及各个网络设备各自需要执行的配置任务或部署任务;
设备选取单元,用于选取所述操作需求需要用到的网络设备并使其进入待命状态;
命令下发单元,用于将配置任务或部署任务下发至对应的网络设备上;
动作执行单元,用于控制各个网络设备开始执行对应的配置任务或部署任务。
优选的,还包括设备分析模块;
所述设备分析模块用于计算网络设备的网络稳态能力值,并在网络设备的网络稳态能力值过低时发出网络设备更换提示,步骤如下:
步骤S100、按照预设周期采集网络设备中的故障事件,并将所述故障事件进行事件分析得到分析结果,然后将分析结果录入故障事件库;
所述分析结果包括每个故障事件的故障设备、事件类型、事件产生时间、事件持续时间、危害等级;其中,
所述事件类型包括设备线路故障、遭受网络攻击、设备配置故障以及数据传输异常;
步骤S101、利用故障事件库中的故障事件的重复发生率确定网络设备的网络稳态能力值,计算公式如下:
式中,P表示网络稳态能力值,L为一个预设的计算常量,S(t-ΔT1,t)表示t-ΔT1到t两个时间点之间的时间段内所发生事件类型的类目,S(t-ΔT2,t-ΔT1)表示t-ΔT2到t-ΔT1时间段内所发生事件类型的类目,S(t-ΔT1,t)∩S(t-ΔT2,t-ΔT1)表示t-ΔT1到t两个时间点之间的时间段内所发生的故障事件同时在过去t-ΔT2到t-ΔT1时间段内也发生了的数量,其中ΔT2>ΔT1,β为一个预设的网络稳态能力值计算常数,K1为预设的第一数量值,K2为预设的第二数量值,PMAX为一个预设的最大值,P0为一个预设的承受值,所述承受值大于预设的稳态能力阈值;
步骤S102、当网络设备的网络稳态能力值低于预设的稳态能力阈值时,发出网络设备更换提示。
优选的,所述设备分析模块还利用所述故障事件库中的故障事件来确定企业网络的稳定数值,当稳定数值过低时提醒用户对企业网络进行升级;执行步骤如下:
确定所述企业网络内部所包含的多个网络设备,并确定每个所述网络设备预设的故障影响等级;
根据所述故障事件库查找所述企业网络内部某个网络设备上所发生的多个故障事件,并确定每个故障事件的事件产生时间;
根据多个故障事件的事件产生时间,筛选出该网络设备在最近的预设时间范围内所发生的所有故障事件,并确定每个故障事件的事件类型、事件持续时间以及危害等级;
根据该网络设备在最近的预设时间范围内所发生的所有故障事件的事件类型、事件持续时间以及危害等级,计算该网络设备的故障风险系数,计算公式如下:
式中,F表示故障风险系数,Li,t表示在最近的预设时间范围内第i种事件类型的第t次发生时的持续时长,Ki表示第i种事件的危害等级所对应预设的危害系数,n表示事件类型的总数,mi表示第i某种事件类型发生的总次数。
根据企业网络内部的多个网络设备各自的故障风险系数,确定该企业网络的稳定数值;
当所述稳定数值小于预设的稳定阈值时,提醒用户对企业网络进行升级。
优选的,还包括网络自检模块;
所述网络自检模块用于对企业网络进行连接性检验得到自检结果,所述检验步骤如下:
步骤S200、向所述企业网络发送自检指令;
步骤S201、所述企业网络在接收到所述自检命令后,根据该企业网络对应预设的多条主要自检线路,确定每条主要自检线路的起点设备、中间设备以及终点设备;
步骤S202、所述企业网络根据所述自检指令产生自检报文并通过每条主要自检线路的起点设备进行发送;
步骤S203、所述自检报文经由所述主要自检线路的中间设备传递自检报文到终点设备,并由所述终点设备生成反馈报文;
步骤S204、根据所述反馈报文相对于自检报文的变化,确定该条主要自检线路的线路检验结果;
步骤S205、根据多条主要自检线路的线路检验结果,统计得到所述企业网络的自检结果。
优选的,还包括根据所述线路检验结果确定该条主要自检线路的抗干扰措施,其具体包括:
通过信息差异度计算方法计算所述反馈报文与所述自检报文的差异值;
若差异值小于预设的第一阈值,则确定所述主要自检线路为正常状态,若所述差异值大于预设的第一阈值小于预设的第二阈值,则确定所述主要自检线路为第一级误差线路,并确定对所述第一级误差线路的抗干扰措施包括:确定相邻两个所述中间设备之间的传输距离与传输方式,当所述传输距离大于预设的距离值时,在两个所述中间设备之间添加新的中间设备,或者将电缆传输方式改为光纤传输方式;
若所述差异值大于第二阈值,则确定所述主要自检线路为第二级误差线路,并确定对所述第二级误差线路的抗干扰措施包括:对第二级误差线路进行中分自检,确定产生误差的误差线路段,将该误差线路段两端的中间设备进行更换后检验是否恢复正常,若未恢复正常则将该误差线路段的网线更换为屏蔽网线;
所述中分自检步骤包括:
将所述第二误差线路最中间的设备作为临时终点设备,从所述起点设备发送自检报文到该临时终点设备,并由该临时终点设备生成反馈报文,根据反馈报文相对于自检报文的变化,确定前半段线路的第一检验结果;
选择所述第二误差线路最中间的设备为临时起点设备,从所述临时起点设备发送自检报文到终点设备,并由终点设备生成反馈报文,根据反馈报文相对于自检报文的变化,确定后半段线路的第二检验结果;
比较所述第一检验结果和所述第二检验结果,将变化较大的检验结果所对应的线路段继续进行中分自检,直到线路不可分时,确定最终的线路为误差线路段。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一种云平台自动化运维系统的结构示意图;
图2为本发明实施例设备分析模块的执行步骤流程图;
图3为本发明实施例中自检步骤流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种云平台自动化运维系统,如图1,包括:
运行管理模块1,用于监控网络设备的工作状态以及网络数据的流动状态;
需求服务模块2,用于获取管理员和云平台用户的配置变更需求以及软件部署需求;
需求执行模块3,用于根据管理员或云平台用户的配置变更需求以及软件部署需求对网络设备进行网络配置变更及软件部署操作。
上述技术方案的工作原理和有益效果为:通过运行管理模块1监控网络设备的工作状态和网络数据的流动状态,能够将各个网络设备的工作状态信息和网络数据的流动状态信息发送到云端平台,云端平台只需将工作状态信息和网络数据的流动状态信息按照对应预设的网络拓扑进行信息填入形成可视化的网络监控图,便能够直观地对网络的运行状态进行显示。通过需求服务模块2从用户终端获取用户的配置变更需求、软件部署需求以及服务器管理需求,再通过需求执行模块3对应需求进行执行,从而让用户通过云端平台对网络进行运行维护,用户可直接通过云端平台对网络的运行状态进行查看,从而确定故障点,如果是网络设备配置出现问题或者软件出现问题,便可直接提出配置变更需求、软件部署需求及其他的管理需求,云平台根据这些操作需求对网络设备进行管理,运维过程快捷简便,能够有效地提高运维人员的工作效率。
在一个优选实施例中,运行管理模块包括:
监控子模块,用于监控网络设备的工作状态以及网络数据的流动状态;
安全子模块,用于对网络设备中流动的网络数据进行安全行为管控。
上述技术方案的工作原理和有益效果为:通过监控子模块对网络设备的工作状态以及网络数据的流动状态进行监控,收集各个网络设备上的工作状态信息以及网络数据的流动状态信息,实现对用户企业网络的监控,通过安全子模块对网络设备中流动的网络数据进行安全行为管控,实现对设备接入时的认证,并对网络中的病毒、攻击行为进行防御。
在一个优选实施例中,监控子模块包括:
流量监控单元,用于实时监控网络活动,通过流量分析工具对网络数据进行分析,得到网络流量构成成分、协议分布以及用户活动信息并生成流量监控报表;
设备监控单元,用于实时获取网络设备的配置信息变更情况、外来接入设备以及通过网络设备管理工具分析网络设备的故障情况,并根据配置信息变更情况、外来接入设备及网络设备的故障情况生成可视化的网络拓扑监控图表;
分析管理单元,用于对流量监控报表以及网络拓扑监控图表进行异常状态分析得到网络设备上异常情况的分析结果;
状态显示单元,用于根据分析结果与网络设备的对应关系在网络拓扑监控图表所对应网络设备上显示异常流量、异常接入以及网络设备的运行状态;
显示单元,用于将网络拓扑监控图表在云平台的用户主页面进行显示。
上述技术方案的工作原理和有益效果为:通过流量监控单元实时监控网络活动,通过多种流量分析工具包括NetFlow、sFlow、cflow、J-Flow、FNF、IPFIX、NetStream、Appflow等,可解析多达100K Flw/秒的大流量数据,从而实现对网络数据进行分析,得到网络流量构成成分、协议分布以及用户活动信息,最后生成流量监控报表,通过丰富的报表,能够为合理有效分配和规划网络带宽提供科学的依据。通过设备监控单元,实时获取网络设备的配置信息变更情况、外来接入设备以及通过网络设备管理工具分析网络设备的故障情况,并根据配置信息变更情况、外来接入设备及网络设备的故障情况生成可视化的网络拓扑监控图表,实现对路由器、交换机、防火墙等网络设备的配置进行统一集中管理。在进行统一管理时支持批量配置海量设备、自动备份配置文件、实时跟踪配置变更、快速回复正确配置等操作,从而确保配置的合规性,提供网络管理的效率,降低人力配置成本。同时实现发现、扫描和管理用户的企业网络中的IP地址,映射与交换机端口相连的设备以及物理位置、及时发现进入网络的外来设备并进行阻止,从而帮助用户监控网络排除故障和威胁。对于企业网络还设置了网络存储管理模块,支持监控包含多厂商、多设备(如存储阵列、光纤交换机、主机服务器、HBA等)的存储网络环境,实现管理存储区域网络(SAN)和网络附加存储(NAS),提供存储环境的拓扑结构视图,实时监测性能问题或故障,并通过预设的告警手段通知管理员,该网络存储管理模块支持EMC,HP,Hitachi,IBM,Promise,Fibrenetix,Cisco,Brocade,Dell,ADIC,SUN,QLogic,Emulex,JNI等多种的主流存储设备。分析管理单元对流量监控报表以及网络拓扑监控图表进行异常状态分析得到分析结果;状态显示单元根据分析结果在网络拓扑监控图表对应网络设备上显示异常流量、异常接入以及网络设备的运行状态;显示单元将网络拓扑监控图表在云平台的用户主页面进行显示。从而使网络监控管理可视化,方便用户进行网络运维工作,提高网络运维工作的效率。
在一个优选实施例中,安全子模块包括:
用户认证单元,用于根据网络数据对请求接入的设备及用户进行身份认证;
安全防御单元,包括多个安全防御设备,用于识别并抵御网络数据中的病毒攻击、异常流量以及非法行为;
日志管理单元,用于收集并存储网络设备、安全防御设备以及云端平台所产生的日志和事件信息。
上述技术方案的工作原理和有益效果为:通过用户认证单元对用户接入云平台时进行身份认证,确定该用户的账户信息所对应的企业网络管理页面。通过安全防御单元设置的多个安全防御设备,识别并抵御网络数据中的病毒攻击、异常流量以及其他的一些非法行为,通过日志管理单元收集并存储网络设备、安全防御设备以及云端平台所产生的日志和事件信息,通过日志和事件信息来实现问题的溯源。
在一个优选实施例中,需求服务模块包括:
网页显示单元,用于提供网页版的交互平台,用户可在该交互平台上观测各网络设备的运行情况;
服务列表单元,用于向客户端推送或者客户端向云服务器主动获取预设的软件服务列表,为用户显示该软件服务列表,供用户选择;
客户端单元,用于获取管理员和云平台用户的配置变更需求、软件部署需求以及其他管理需求。
上述技术方案的工作原理和有益效果为:通过网页显示单元提供网页版的交互平台,用户可在该交互平台上观测各网络设备的运行情况,实现网络拓扑可视化、并能够将每个网络节点及网络设备节点的工作状态信息、数据流量信息通过网络拓扑图进行显示,当发现故障或者异常情况时,也能在网络拓扑图上对出现故障或发生异常情况、发现异常行为活动的网络设备进行对应标注,用户可迅速对异常点进行定位。通过服务列表单元将一些常用的管理服务进行打包,通过客户端推送或者客户端向云服务器主动获取可提供的软件服务列表,为用户显示该软件服务列表供用户选择,使用户可以不用自己编辑管理服务策略,直接一键选择管理服务进行管理。通过客户端单元获取管理员和云平台用户的配置变更需求、软件部署需求以及其他管理需求,用户可通过移动客户端远程对企业网络进行运维管理。
在一个优选实施例中,需求执行模块包括:
权限分析单元,用于对管理员或云平台用户的操作需求进行权限分析,确定是否具有执行该操作需求的操作权限;
需求分析单元,用于对操作需求进行需求分析,确定执行该操作需求所要用到的网络设备,以及各个网络设备各自需要执行的配置任务或部署任务;
设备选取单元,用于选取操作需求需要用到的网络设备并使其进入待命状态;
命令下发单元,用于将配置任务或部署任务下发至对应的网络设备上;
动作执行单元,用于控制各个网络设备开始执行对应的配置任务或部署任务。
上述技术方案的工作原理和有益效果为:对同一个企业网络,用户可以设定多个登录账号,并为每个登录账号设定各自的操作权限,如一个企业的运维部门有多个运维人员,每个运维人员均可以拥有一个登录账号,但可以给重要成员给权限最高的账号,比如给部门总管给管理员权限,给其他工作人员给监管权限,通过权限分析单元,便能够根据账号的权限以及该账号对应成员的操作需求进行权限分析,确定该账号是否具有执行该操作需求的操作权限,实现多人的不同层次的管理模式。通过需求分析单元,对操作需求进行需求分析,确定执行该操作需求所要用到的网络设备,以及各个网络设备各自需要执行的配置任务或部署任务,通过设备选取单元选取操作需求需要用到的网络设备并使其进入待命状态,从而给各个网络设备一个准备时间防止各网络设备进行重要任务时突然断开来不及保存数据。各网络设备在进入待命状态后将会暂停网络服务并将正在进行的工作执行完毕,随后通过命令下发单元将配置任务或部署任务下发至对应的网络设备上,确定各个网络设备各自将要执行的任务。最后动作执行单元控制各个网络设备开始执行对应的配置任务或部署任务,完成配置或部署工作。
在一个优选实施例中,还包括设备分析模块;
设备分析模块用于计算网络设备的网络稳态能力值,并在网络设备的网络稳态能力值过低时发出网络设备更换提示,如图2,执行步骤如下:
步骤S100、按照预设周期采集网络设备中的故障事件,并将所述故障事件进行事件分析得到分析结果,然后将分析结果录入故障事件库;
所述分析结果包括每个故障事件的故障设备、事件类型、事件产生时间、事件持续时间、危害等级;其中,
所述事件类型包括设备线路故障、遭受网络攻击、设备配置故障以及数据传输异常;
步骤S101、利用故障事件库中的故障事件的重复发生率确定网络设备的网络稳态能力值,计算公式如下:
式中,P表示网络稳态能力值,L为一个预设的计算常量,S(t-ΔT1,t)表示t-ΔT1到t两个时间点之间的时间段内所发生事件类型的类目,S(t-ΔT2,t-ΔT1)表示t-ΔT2到t-ΔT1时间段内所发生事件类型的类目,S(t-ΔT1,t)∩S(t-ΔT2,t-ΔT1)表示t-ΔT1到t两个时间点之间的时间段内所发生的故障事件同时在过去t-ΔT2到t-ΔT1时间段内也发生了的数量,其中ΔT2>ΔT1,β为一个预设的网络稳态能力值计算常数,K1为预设的第一数量值,K2为预设的第二数量值,PMAX为一个预设的最大值,P0为一个预设的承受值,所述承受值大于预设的稳态能力阈值;
步骤S102、当网络设备的网络稳态能力值低于预设的稳态能力阈值时,发出网络设备更换提示。
上述技术方案的工作原理和有益效果为:按照预设周期采集网络设备中的故障事件,并将故障事件进行分析得到分析结果后录入故障事件库,从而方便根据分析结果对故障事件进行筛选,分析结果包括每个故障事件的故障设备、事件类型、事件产生时间、事件持续时间、危害等级等;其中,事件类型包括设备线路故障、遭受网络攻击、设备配置故障以及数据传输异常等,然后对某个网络设备进行网络稳态能力值,根据过去一段时间内已经发生过的故障事件在近段时间重复发生的率,以网络稳态能力值作为该网络设备处理故障事件的能力,当这个能力值过低时,说明该网络设备处理故障事件的能力较低,此时发出网络设备更换提示提醒用户对该网络设备进行更换。例如,当t-ΔT1到t两个时间点之间的时间段内发生事件类目为10件,并且该事件类目在t-ΔT2到t-ΔT1时间段内也发生的数量为100件时,设L取值为0.5、β取值为1,则计算出网络设备的网络稳态能力值P=10.05,很显然该网络设备在逐渐降低各种故障事件的发生次数,预设的稳态能力阈值为1,P=10.05>1,代表网络设备的网络稳态能力足够,不需要对网络设备进行更换;而当近段时间发生事件类目为100件,并且该事件类目在过去段时间也发生的数量为10件时,计算出网络设备的网络稳态能力值P=0.105<1,代表该网络设备在逐渐增大各种故障事件的发生次数,代表网络设备的网络稳态能力不够,则需要对网络设备进行更换。
在一个优选实施例中,设备分析模块还利用故障事件库中的故障事件来确定企业网络的稳定数值,当稳定数值过低时提醒用户对企业网络进行升级;执行步骤如下:
确定企业网络内部所包含的多个网络设备,并确定每个网络设备预设的故障影响等级;
根据故障事件库查找企业网络内部某个网络设备上所发生的多个故障事件,并确定每个故障事件的事件产生时间;
根据多个故障事件的事件产生时间,筛选出该网络设备在最近的预设时间范围内所发生的所有故障事件,并确定每个故障事件的事件类型、事件持续时间以及危害等级;
根据该网络设备在最近的预设时间范围内所发生的所有故障事件的事件类型、事件持续时间以及危害等级,计算该网络设备的故障风险系数;计算公式如下:
式中,F表示故障风险系数,Li,t表示在最近的预设时间范围内第i种事件类型的第t次发生时的持续时长,Ki表示第i种事件的危害等级所对应预设的危害系数,n表示事件类型的总数,mi表示第i某种事件类型发生的总次数。
根据企业网络内部的多个网络设备各自的故障风险系数,确定该企业网络的稳定数值;
当稳定数值小于预设的稳定阈值时,提醒用户对企业网络进行升级。
上述技术方案的工作原理和有益效果为:对于某个网络设备,通过该设备在一段时间内所发生的多个事件,根据这多个事件的事件类型、事件持续时长、事件危害等级,来计算该网络设备的故障风险系数,通过企业网络内部的多个网络设备各自的故障风险系数,确定该企业网络的稳定数值。实现通过单个设备的故障黑历史来对该设备的风险情况进行评定分析,方法科学并且简单有效。
在一个优选实施例中,还包括网络自检模块;
网络自检模块用于对企业网络进行连接性检验得到自检结果,如图3,检验步骤如下:
步骤S200、向企业网络发送自检指令;
步骤S201、企业网络在接收到自检命令后,根据该企业网络对应预设的多条主要自检线路,确定每条主要自检线路的起点设备、中间设备以及终点设备;
步骤S202、企业网络根据自检指令产生自检报文并通过每条主要自检线路的起点设备进行发送;
步骤S203、自检报文经由主要自检线路的中间设备传递自检报文到终点设备,并由终点设备生成反馈报文;
步骤S204、根据反馈报文相对于自检报文的变化,确定该条主要自检线路的线路检验结果;
步骤S205、根据多条主要自检线路的线路检验结果,统计得到企业网络的自检结果。
上述技术方案的工作原理和有益效果为:通过对企业网络发送自检指令,企业网络在接收到自检命令后,根据该企业网络对应预设的多条主要自检线路,从而确定每条主要自检线路的起点设备、中间设备以及终点设备,从而确定自检报文的传递线路,对该条线路进行检验,判断该条线路是否出现问题;企业网络根据自检指令产生自检报文并通过每条主要自检线路的起点设备进行发送;自检报文经由主要自检线路的中间设备传递自检报文到终点设备,并由终点设备生成反馈报文;根据反馈报文相对于自检报文的变化,确定自检报文在传递过程中所发生的信息紊乱、数据丢失、时间延迟等一些问题,作为该条主要自检线路的线路检验结果;根据多条主要自检线路的线路检验结果,统计得到企业网络的自检结果。最后可根据自检确定数据紊乱、数据丢失严重的主要自检线路出现了故障,从而通知用户对该条线路进行检查。
在一个优选实施例中,还包括根据线路检验结果确定该条主要自检线路的抗干扰措施,其具体包括:
通过信息差异度计算方法计算所述反馈报文与所述自检报文的差异值;
若差异值小于预设的第一阈值,则确定主要自检线路为正常状态,若差异值大于预设的第一阈值小于预设的第二阈值,则确定主要自检线路为第一级误差线路,并确定对第一级误差线路的抗干扰措施包括:确定相邻两个中间设备之间的传输距离与传输方式,当传输距离大于预设的距离值时,在两个中间设备之间添加新的中间设备,或者将电缆传输方式改为光纤传输方式;
若差异值大于第二阈值,则确定主要自检线路为第二级误差线路,并确定对第二级误差线路的抗干扰措施包括:对第二级误差线路进行中分自检,确定产生误差的误差线路段,将该误差线路段两端的中间设备进行更换后检验是否恢复正常,若未恢复正常则将该误差线路段的网线更换为屏蔽网线;
中分自检步骤包括:
将第二误差线路最中间的设备作为临时终点设备,从起点设备发送自检报文到该临时终点设备,并由该临时终点设备生成反馈报文,根据反馈报文相对于自检报文的变化,确定前半段线路的第一检验结果;
选择第二误差线路最中间的设备为临时起点设备,从临时起点设备发送自检报文到终点设备,并由终点设备生成反馈报文,根据反馈报文相对于自检报文的变化,确定后半段线路的第二检验结果;
比较第一检验结果和第二检验结果,将变化较大的检验结果所对应的线路段继续进行中分自检,直到线路不可分时,确定最终的线路为误差线路段。
上述技术方案的工作原理和有益效果为:通过反馈报文与自检报文的差异程度来判断该条线路的信息丢失情况严不严重,若得到的差异值小于预设的第一阈值,则说明信息丢失在正常范围内,不会产生严重后果,若差异值小于预设的第一阈值,则确定主要自检线路为正常状态,若差异值大于预设的第一阈值小于预设的第二阈值,则确定主要自检线路为第一级误差线路,对于这一程度的误差,不太可能是设备出现故障,反而可能是线路距离过长所引发的问题,所以可以对线路进行优化确定对第一级误差线路的抗干扰措施包括:确定相邻两个中间设备之间的传输距离与传输方式,当传输距离大于预设的距离值时,在两个中间设备之间添加新的中间设备,或者将电缆传输方式改为光纤传输方式。若差异值大于第二阈值,则确定主要自检线路为第二级误差线路,对于这一程度的的误差,不太可能是线路出现问题,反而有可能是出现外部电磁环境影响或者设备出现故障,所以确定对第二级误差线路的抗干扰措施包括:对第二级误差线路进行中分自检,确定产生误差的误差线路段,将该误差线路段两端的中间设备进行更换后检验是否恢复正常,若未恢复正常则将该误差线路段的网线更换为屏蔽网线以防止外部电磁环境的影响。在对误差线路段进行定位时,采用中分自检方式对误差线路进行夹逼定位,实现对故障设备或故障线路进行精准定位,中分自检时,以线路中间的网络设备作为分界点,检测两边线路的状况,确定其中问题最大的一段线路再进行中分自检,直到线路不可分,对最后的线路进行设备更换或者线路升级,如果问题仍未解决,则可重复循环对误差线路段进行定位,将影响严重的多个误差线路段都执行抗干扰措施,以降低差异值。通过差异值的大小来对故障程度来确定故障发生的主要原因,以及确定事情的紧要程度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种云平台自动化运维系统,其特征在于,包括:
运行管理模块,用于监控网络设备的工作状态以及网络数据的流动状态;
需求服务模块,用于获取管理员和云平台用户的配置变更需求以及软件部署需求;
需求执行模块,用于根据管理员和云平台用户的配置变更需求以及软件部署需求对网络设备进行网络配置变更及软件部署操作;
设备分析模块,用于计算网络设备的网络稳态能力值,并在网络设备的网络稳态能力值低于预设的稳态能力阈值时发出网络设备更换提示,步骤如下:
步骤S100、按照预设周期采集网络设备中的故障事件,并将所述故障事件进行事件分析得到分析结果,然后将分析结果录入故障事件库;
所述分析结果包括每个故障事件的故障设备、事件类型、事件产生时间、事件持续时间、危害等级;其中,
所述事件类型包括设备线路故障、遭受网络攻击、设备配置故障以及数据传输异常;
步骤S101、利用故障事件库中的故障事件的重复发生率确定网络设备的网络稳态能力值,计算公式如下:
式中,P表示网络稳态能力值,L为一个预设的计算常量,S(t-ΔT1,t)表示t-ΔT1到t两个时间点之间的时间段内所发生事件类型的类目,S(t-ΔT2,t-ΔT1)表示t-ΔT2到t-ΔT1时间段内所发生事件类型的类目,S(t-ΔT1,t)∩S(t-ΔT2,t-ΔT1)表示t-ΔT1到t两个时间点之间的时间段内所发生的故障事件同时在过去t-ΔT2到t-ΔT1时间段内也发生了的数量,其中ΔT2>ΔT1,β为一个预设的网络稳态能力值计算常数,K1为预设的第一数量值,K2为预设的第二数量值,PMAX为一个预设的最大值,P0为一个预设的承受值,所述承受值大于预设的稳态能力阈值;
步骤S102、当网络设备的网络稳态能力值低于预设的稳态能力阈值时,发出网络设备更换提示。
2.根据权利要求1所述的一种云平台自动化运维系统,其特征在于,所述运行管理模块包括:
监控子模块,用于监控网络设备的工作状态以及网络数据的流动状态;
安全子模块,用于对网络设备中流动的网络数据进行安全行为管控。
3.根据权利要求2所述的一种云平台自动化运维系统,其特征在于,所述监控子模块包括:
流量监控单元,用于实时监控网络活动,通过流量分析工具对网络数据进行分析,得到网络流量构成成分、协议分布以及用户活动信息并生成流量监控报表;
设备监控单元,用于实时获取网络设备的配置信息变更情况、外来接入设备以及通过网络设备管理工具分析网络设备的故障情况,并根据配置信息变更情况、外来接入设备及网络设备的故障情况生成可视化的网络拓扑监控图表;
分析管理单元,用于对流量监控报表以及网络拓扑监控图表进行异常状态分析得到网络设备上异常情况的分析结果;
状态显示单元,用于根据分析结果与网络设备的对应关系在网络拓扑监控图表所对应网络设备上显示异常流量、异常接入以及网络设备的运行状态;
显示单元,用于将所述网络拓扑监控图表在云平台的用户主页面进行显示。
4.根据权利要求2所述的一种云平台自动化运维系统,其特征在于,所述安全子模块包括:
用户认证单元,用于根据网络数据对请求接入的设备及用户进行身份认证;
安全防御单元,包括多个安全防御设备,用于识别并抵御网络数据中的病毒攻击、异常流量以及非法行为;
日志管理单元,用于收集并存储网络设备、安全防御设备以及云端平台所产生的日志和事件信息。
5.根据权利要求1所述的一种云平台自动化运维系统,其特征在于,所述需求服务模块包括:
网页显示单元,用于提供网页版的交互平台,用户可在所述交互平台上观测各网络设备的运行情况;
服务列表单元,用于向客户端推送或者客户端向云服务器主动获取预设的软件服务列表,为用户显示该软件服务列表,供用户选择;
客户端单元,用于获取管理员和云平台用户的配置变更需求、软件部署需求以及管理需求。
6.根据权利要求1所述的一种云平台自动化运维系统,其特征在于,所述需求执行模块包括:
权限分析单元,用于对管理员或云平台用户的操作需求进行权限分析,确定是否具有执行该操作需求的操作权限;
需求分析单元,用于对所述操作需求进行需求分析,确定执行该操作需求所要用到的网络设备,以及各个网络设备各自需要执行的配置任务或部署任务;
设备选取单元,用于选取所述操作需求需要用到的网络设备并使其进入待命状态;
命令下发单元,用于将配置任务或部署任务下发至对应的网络设备上;
动作执行单元,用于控制各个网络设备开始执行对应的配置任务或部署任务。
7.根据权利要求1所述的一种云平台自动化运维系统,其特征在于,所述设备分析模块还利用所述故障事件库中的故障事件来确定企业网络的稳定数值,当稳定数值小于预设的稳定阈值时提醒用户对企业网络进行升级,执行步骤如下:
确定所述企业网络内部所包含的多个网络设备,并确定每个所述网络设备预设的故障影响等级;
根据所述故障事件库查找所述企业网络内部某个网络设备上所发生的多个故障事件,并确定每个故障事件的事件产生时间;
根据多个故障事件的事件产生时间,筛选出该网络设备在最近的预设时间范围内所发生的所有故障事件,并确定每个故障事件的事件类型、事件持续时间以及危害等级;
根据该网络设备在最近的预设时间范围内所发生的所有故障事件的事件类型、事件持续时间以及危害等级,计算该网络设备的故障风险系数,计算公式如下:
式中,F表示故障风险系数,Li,t表示在最近的预设时间范围内第i种事件类型的第t次发生时的持续时长,Ki表示第i种事件的危害等级所对应预设的危害系数,n表示事件类型的总数,mi表示第i某种事件类型发生的总次数;
根据企业网络内部的多个网络设备各自的故障风险系数,确定该企业网络的稳定数值;
当所述稳定数值小于预设的稳定阈值时,提醒用户对企业网络进行升级。
8.根据权利要求1所述的一种云平台自动化运维系统,其特征在于,还包括网络自检模块;
所述网络自检模块用于对企业网络进行连接性检验得到自检结果,检验步骤如下:
步骤S200、向所述企业网络发送自检指令;
步骤S201、所述企业网络在接收到所述自检指令后,根据该企业网络对应预设的多条主要自检线路,确定每条主要自检线路的起点设备、中间设备以及终点设备;
步骤S202、所述企业网络根据所述自检指令产生自检报文并通过每条主要自检线路的起点设备进行发送;
步骤S203、所述自检报文经由所述主要自检线路的中间设备传递自检报文到终点设备,并由所述终点设备生成反馈报文;
步骤S204、根据所述反馈报文相对于自检报文的变化,确定该条主要自检线路的线路检验结果;
步骤S205、根据多条主要自检线路的线路检验结果,统计得到所述企业网络的自检结果。
9.根据权利要求8所述的一种云平台自动化运维系统,其特征在于,还包括根据所述线路检验结果确定该条主要自检线路的抗干扰措施,其具体包括:
通过信息差异度计算方法计算所述反馈报文与所述自检报文的差异值;
若差异值小于预设的第一阈值,则确定所述主要自检线路为正常状态,若所述差异值大于预设的第一阈值小于预设的第二阈值,则确定所述主要自检线路为第一级误差线路,并确定对所述第一级误差线路的抗干扰措施,具体包括:确定相邻两个所述中间设备之间的传输距离与传输方式,当所述传输距离大于预设的距离值时,在两个所述中间设备之间添加新的中间设备,或者将电缆传输方式改为光纤传输方式;
若所述差异值大于第二阈值,则确定所述主要自检线路为第二级误差线路,并确定对所述第二级误差线路的抗干扰措施,具体包括:对第二级误差线路进行中分自检,确定产生误差的误差线路段,将该误差线路段两端的中间设备进行更换后检验是否恢复正常,若未恢复正常则将该误差线路段的网线更换为屏蔽网线;
所述中分自检步骤包括:
将所述第二级误差线路最中间的设备作为临时终点设备,从所述起点设备发送自检报文到该临时终点设备,并由该临时终点设备生成反馈报文,根据反馈报文相对于自检报文的变化,确定前半段线路的第一检验结果;
选择所述第二级误差线路最中间的设备为临时起点设备,从所述临时起点设备发送自检报文到终点设备,并由终点设备生成反馈报文,根据反馈报文相对于自检报文的变化,确定后半段线路的第二检验结果;
比较第一检验结果和第二检验结果,将变化较大的检验结果所对应的线路段继续进行中分自检,直到线路不可分时,确定最终的线路为误差线路段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111242005.1A CN114143160B (zh) | 2021-10-25 | 2021-10-25 | 一种云平台自动化运维系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111242005.1A CN114143160B (zh) | 2021-10-25 | 2021-10-25 | 一种云平台自动化运维系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114143160A CN114143160A (zh) | 2022-03-04 |
CN114143160B true CN114143160B (zh) | 2023-07-18 |
Family
ID=80395156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111242005.1A Active CN114143160B (zh) | 2021-10-25 | 2021-10-25 | 一种云平台自动化运维系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114143160B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106936858A (zh) * | 2015-12-29 | 2017-07-07 | 研祥智能科技股份有限公司 | 一种云平台监控系统及方法 |
CN107070692A (zh) * | 2017-01-16 | 2017-08-18 | 中国联合网络通信有限公司广东省分公司 | 一种基于大数据分析的云平台监控服务系统及方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103763117A (zh) * | 2011-12-31 | 2014-04-30 | 华茂云天科技(北京)有限公司 | 服务和运营管理系统 |
CN104506393B (zh) * | 2015-01-06 | 2017-12-08 | 北京海量数据技术股份有限公司 | 一种基于云平台的系统监控方法 |
CN106897193A (zh) * | 2017-02-28 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种基于itil的云数据中心的监控运维管理系统 |
CN106970880B (zh) * | 2017-04-28 | 2021-01-01 | 中国科学院软件研究所 | 一种分布式自动化软件测试方法及系统 |
CN110298381B (zh) * | 2019-05-24 | 2022-09-20 | 中山大学 | 一种云安全服务功能树网络入侵检测系统 |
CN111682638A (zh) * | 2020-04-17 | 2020-09-18 | 南京大全自动化科技有限公司 | 一种基于配变终端的移动运维装置和方法 |
-
2021
- 2021-10-25 CN CN202111242005.1A patent/CN114143160B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106936858A (zh) * | 2015-12-29 | 2017-07-07 | 研祥智能科技股份有限公司 | 一种云平台监控系统及方法 |
CN107070692A (zh) * | 2017-01-16 | 2017-08-18 | 中国联合网络通信有限公司广东省分公司 | 一种基于大数据分析的云平台监控服务系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114143160A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021008031A1 (zh) | 基于微服务实现监控智能化的处理方法及电子装置 | |
US7007104B1 (en) | Method and apparatus for integrated network management and systems management in communications networks | |
EP0994602B1 (en) | Computer system and network performance monitoring | |
US7685269B1 (en) | Service-level monitoring for storage applications | |
CN105282772A (zh) | 无线网数通设备监控系统及设备监控方法 | |
CN107947998B (zh) | 一种基于应用系统的实时监测系统 | |
CN103716173A (zh) | 一种存储监控系统及监控告警发布的方法 | |
CN114244676A (zh) | 一种智能it综合网关系统 | |
CN111488258A (zh) | 一种用于软硬件运行状态分析与预警的系统 | |
Safrianti et al. | Real-time network device monitoring system with simple network management protocol (snmp) model | |
CN103166788A (zh) | 一种集控控制管理系统 | |
CN112141832A (zh) | 一种电梯物联网可视化运营平台 | |
US7120633B1 (en) | Method and system for automated handling of alarms from a fault management system for a telecommunications network | |
CN111082998A (zh) | 一种运维监控校园汇聚层的架构系统 | |
EP1622310B1 (en) | Administration method and system for network management systems | |
CN114143160B (zh) | 一种云平台自动化运维系统 | |
CN205647545U (zh) | 智能网络运维管理系统 | |
Muller | Improving network operations with intelligent agents | |
JPH10229396A (ja) | サービス管理方法及びシステム | |
Cisco | Fault Management | |
Cisco | Fault Management | |
Cisco | Fault Management | |
CN113794586A (zh) | 一种网络拓扑的快照与回放方法及系统 | |
CN105656724A (zh) | 一种服务器的监控方法及系统 | |
KR101016444B1 (ko) | 텔넷 프로토콜을 이용한 네트워크 관리 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |