CN109039781B - 一种网络设备故障诊断方法、执行节点、服务器和系统 - Google Patents

一种网络设备故障诊断方法、执行节点、服务器和系统 Download PDF

Info

Publication number
CN109039781B
CN109039781B CN201811106919.3A CN201811106919A CN109039781B CN 109039781 B CN109039781 B CN 109039781B CN 201811106919 A CN201811106919 A CN 201811106919A CN 109039781 B CN109039781 B CN 109039781B
Authority
CN
China
Prior art keywords
diagnosis
distribution
data
allocation
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811106919.3A
Other languages
English (en)
Other versions
CN109039781A (zh
Inventor
谢俊平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruijie Networks Co Ltd
Original Assignee
Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruijie Networks Co Ltd filed Critical Ruijie Networks Co Ltd
Priority to CN201811106919.3A priority Critical patent/CN109039781B/zh
Publication of CN109039781A publication Critical patent/CN109039781A/zh
Application granted granted Critical
Publication of CN109039781B publication Critical patent/CN109039781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种网络设备故障诊断方法、执行节点、服务器和系统,包括:获取网络设备列表;为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。提高了诊断实时性。

Description

一种网络设备故障诊断方法、执行节点、服务器和系统
技术领域
本发明涉及数据通信领域,尤其是一种网络设备故障诊断方法、执行节点、服务器和系统。
背景技术
网络设备是网络中通信线路连接起来的各种设备的总称,包括交换机、网关、路由器、无线控制器AC和无线接入点AP设备等,网络设备在运行过程中可能因软件缺陷、硬件异常和网络攻击等因素发生故障,导致网络通信受到影响,直接影响用户的上网体验,甚至给用户带来直接的经济损失。
在故障发生前后,网络设备有可能会打印一些系统日志(syslog),生成设备中各应用和端口的流量使用情况(流量快照)。另外设备也支持通过管理协议下发cli(命令行接口)命令查询设备配置、资源使用和软件协议运行情况等。自动实时地采集设备syslog,流量快照和cli命令执行结果列表数据,从这些数据中及时诊断出设备可能存在的故障,并通告给网络管理人员和设备厂商,最终及时解决故障,恢复网络正常运行是网络运维的迫切需要解决的问题。
现有的自动化故障诊断系统,一般都将数据采集和诊断过程强耦合,即每次收集到设备即调用诊断过程进行诊断,对数据采集和诊断节点机器性能要求高,同时故障诊断节点单一,当该节点发生故障时,诊断过程可用性低,在收集的诊断数据量增大时,诊断告警的输出实时性会受到影响,无法灵活的扩展诊断的性能。
发明内容
为了解决上述技术问题,本发明的实施例采用如下技术方案:
一种网络设备故障诊断方法,包括:
获取网络设备列表;
为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,还包括:
当所述诊断执行节点将所述待诊断数据表项中的记录都诊断完成后,接收所述诊断执行节点发送的包含所述分配标识的诊断结果;
根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述根据所述第一分配表为诊断执行节点分配待诊断数据表项的步骤具体包括:
顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间,将所述前N个分配标识为空的表项发送给诊断执行节点,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
可选的,还包括:
启动定时器,当定时器到期后,置所述第一分配表的表项中的分配标识为空。
可选的,还包括:
当所述诊断执行节点的数量少于所述网络设备的数量时,定时对所述第一分配表中的诊断时间片区间的诊断完成时间进行升序排序。
本发明实施例的另一方面在于提供一种网络设备故障诊断方法,包括:
接收服务器根据第一分配表分配的待诊断数据表项;其中,所述第一分配表是所述服务器在获取网络设备列表后为所述列表中的第一网络设备设置的,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
根据待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型;
执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,还包括,
将所述诊断告警结果列表存入数据库中。
可选的,还包括,
将所述待诊断数据表项中的记录都诊断完成后,将包含所述分配标识的诊断结果发送给所述服务器,以便于所述服务器根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述接收服务器根据第一分配表分配的待诊断数据表项的步骤具体包括:
接收服务器在顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间后,发送的所述前N个分配标识为空的表项,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
本发明实施例的另一方面在于提供一种网络设备故障诊断服务器,包括:
获取模块,用于获取网络设备列表;
设置模块,用于为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
分配模块,用于根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,还包括:
接收模块,用于当所述诊断执行节点将所述待诊断数据表项中的记录都诊断完成后,接收所述诊断执行节点发送的包含所述分配标识的诊断结果;
更新模块,用于根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述分配模块具体用于:
顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间,将所述前N个分配标识为空的表项发送给诊断执行节点,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
可选的,还包括:
定时模块,用于启动定时器,
所述更新模块,还用于当定时器到期后,置所述第一分配表的表项中的分配标识为空。
可选的,还包括:
排序模块,用于当所述诊断执行节点的数量少于所述网络设备的数量时,定时对所述第一分配表中的诊断时间片区间的诊断完成时间进行升序排序。
本发明实施例的另一方面在于提供一种网络设备故障诊断执行节点,包括:
第一接收模块,用于接收服务器根据第一分配表分配的待诊断数据表项;其中,所述第一分配表是所述服务器在获取网络设备列表后为所述列表中的第一网络设备设置的,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
第一获取模块,用于根据待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型;
执行模块,用于执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,还包括,
存储模块,用于将所述诊断告警结果列表存入数据库中。
可选的,还包括,
发送模块,用于将所述待诊断数据表项中的记录都诊断完成后,将包含所述分配标识的诊断结果发送给所述服务器,以便于所述服务器根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述第一接收模块具体用于:
接收服务器在顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间后,发送的所述前N个分配标识为空的表项,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
本发明实施例的另一方面在于提供一种网络设备故障诊断系统,包括:
上述实施例中描述的服务器以及诊断执行节点。
本发明实施例的有益效果在于,通过获取网络设备列表;为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。这样,多个诊断执行节点同时诊断,且过程互相独立,相比单节点的诊断,提高了诊断实时性。同时,当待诊断的设备数增多且收集数据量增大时,只需新增诊断执行节点即可完成性能扩展,也提高可扩展性。另外,当某些诊断执行节点因为某些原因故障时,由于诊断执行节点相互独立,其他诊断过程不会受影响,也提高了可用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的方法流程图;
图2为本发明一实施例提供的方法流程图;
图3为本发明一实施例提供的方法流程图;
图4为本发明一实施例提供的方法流程图;
图5为本发明一实施例提供的方法流程图;
图6为本发明一实施例提供的方法流程图;
图7为本发明一实施例提供的方法流程图;
图8为本发明一实施例提供的装置结构图;
图9为本发明一实施例提供的装置结构图;
图10为本发明一实施例提供的装置结构图;
图11为本发明一实施例提供的装置结构图;
图12为本发明一实施例提供的装置结构图;
图13为本发明一实施例提供的装置结构图;
图14为本发明一实施例提供的装置结构图;
图15为本发明一实施例提供的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决上述技术问题,本发明的实施例采用如下技术方案:
一种网络设备故障诊断方法,如图1所示,包括:
S101,获取网络设备列表;
S103,为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
S105,根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,如图2所示,还包括:
S107,当所述诊断执行节点将所述待诊断数据表项中的记录都诊断完成后,接收所述诊断执行节点发送的包含所述分配标识的诊断结果;
S109,根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述步骤S105具体包括:
顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间,将所述前N个分配标识为空的表项发送给诊断执行节点,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
可选的,如图3所示,还包括:
S111,启动定时器,当定时器到期后,置所述第一分配表的表项中的分配标识为空。
这里,为了避免诊断执行节点在诊断过程中发生故障,无法诊断,在表项处于分配状态后,启动定时器,当定时器到期后置表项分配标识为空,保证当前分配数据重新处于可分配状态。
其中,步骤S111可以在步骤S105之后,也可以在步骤S109之后,可以根据具体实施例进行设置。
可选的,如图4所示,还包括:
S113,当所述诊断执行节点的数量少于所述网络设备的数量时,定时对所述第一分配表中的诊断时间片区间的诊断完成时间进行升序排序。
这里,为了处理当前部署的诊断执行节点少于N时,有可能会使得部分设备数据无法被诊断情况,可以定时对第一分配表中的诊断时间片区间的诊断完成时间升序排序。
其中,步骤S113可以在步骤S105之后,也可以在步骤S109之后,可以根据具体实施例进行设置。
本发明实施例的有益效果在于,通过获取网络设备列表;为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。这样,多个诊断执行节点同时诊断,且过程互相独立,相比单节点的诊断,提高了诊断实时性。同时,当待诊断的设备数增多且收集数据量增大时,只需新增诊断执行节点即可完成性能扩展,也提高可扩展性。另外,当某些诊断执行节点因为某些原因故障时,由于诊断执行节点相互独立,其他诊断过程不会受影响,也提高了可用性。
本发明实施例的另一方面在于提供一种网络设备故障诊断方法,如图5所示,包括:
S201,接收服务器根据第一分配表分配的待诊断数据表项;其中,所述第一分配表是所述服务器在获取网络设备列表后为所述列表中的第一网络设备设置的,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
S203,根据待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型;
S205,执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,如图6所示,还包括,
S207,将所述诊断告警结果列表存入数据库中。
可选的,如图7所示,还包括,
S209,将所述待诊断数据表项中的记录都诊断完成后,将包含所述分配标识的诊断结果发送给所述服务器,以便于所述服务器根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
其中,步骤S209可以在步骤S205之后,也可以在步骤S207之后,可以根据具体实施例进行设置。
可选的,所述步骤S201具体包括:
接收服务器在顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间后,发送的所述前N个分配标识为空的表项,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
本发明实施例的有益效果在于,通过获取网络设备列表;为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。这样,多个诊断执行节点同时诊断,且过程互相独立,相比单节点的诊断,提高了诊断实时性。同时,当待诊断的设备数增多且收集数据量增大时,只需新增诊断执行节点即可完成性能扩展,也提高可扩展性。另外,当某些诊断执行节点因为某些原因故障时,由于诊断执行节点相互独立,其他诊断过程不会受影响,也提高了可用性。
本发明实施例的另一方面在于提供一种网络设备故障诊断服务器,如图8所示,包括:
获取模块301,用于获取网络设备列表;
设置模块303,用于为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
分配模块305,用于根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,如图9所示,还包括:
接收模块307,用于当所述诊断执行节点将所述待诊断数据表项中的记录都诊断完成后,接收所述诊断执行节点发送的包含所述分配标识的诊断结果;
更新模块309,用于根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述分配模块305具体用于:
顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间,将所述前N个分配标识为空的表项发送给诊断执行节点,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
可选的,如图10所示,还包括:
定时模块311,用于启动定时器,
所述更新模块309,还用于当定时器到期后,置所述第一分配表的表项中的分配标识为空。
可选的,如图11所示,还包括:
排序模块313,用于当所述诊断执行节点的数量少于所述网络设备的数量时,定时对所述第一分配表中的诊断时间片区间的诊断完成时间进行升序排序。
可以理解的,排序模块313也可以应用于如图10所示的包含定时模块311的实施例中。
本发明实施例的有益效果在于,通过获取网络设备列表;为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。这样,多个诊断执行节点同时诊断,且过程互相独立,相比单节点的诊断,提高了诊断实时性。同时,当待诊断的设备数增多且收集数据量增大时,只需新增诊断执行节点即可完成性能扩展,也提高可扩展性。另外,当某些诊断执行节点因为某些原因故障时,由于诊断执行节点相互独立,其他诊断过程不会受影响,也提高了可用性。
本发明实施例的另一方面在于提供一种网络设备故障诊断执行节点,如图12所示,包括:
第一接收模块401,用于接收服务器根据第一分配表分配的待诊断数据表项;其中,所述第一分配表是所述服务器在获取网络设备列表后为所述列表中的第一网络设备设置的,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
第一获取模块403,用于根据待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型;
执行模块405,用于执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
可选的,如图13所示,还包括,
存储模块407,用于将所述诊断告警结果列表存入数据库中。
可选的,如图14所示,还包括,
发送模块409,用于将所述待诊断数据表项中的记录都诊断完成后,将包含所述分配标识的诊断结果发送给所述服务器,以便于所述服务器根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
可选的,所述第一接收模块401具体用于:
接收服务器在顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间后,发送的所述前N个分配标识为空的表项,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
本发明实施例的另一方面在于提供一种网络设备故障诊断系统,如图15所示,包括:
上述实施例中描述的服务器501以及诊断执行节点503。
其中,诊断执行节点503的数量可以为多个,诊断执行节点503的数量可以根据网络设备的数量进行调整,也可以根据诊断负载的大小进行调整。
本发明实施例的有益效果在于,通过获取网络设备列表;为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取与所述第一数据类型对应的脚本,得到诊断告警结果列表。这样,多个诊断执行节点同时诊断,且过程互相独立,相比单节点的诊断,提高了诊断实时性。同时,当待诊断的设备数增多且收集数据量增大时,只需新增诊断执行节点即可完成性能扩展,也提高可扩展性。另外,当某些诊断执行节点因为某些原因故障时,由于诊断执行节点相互独立,其他诊断过程不会受影响,也提高了可用性。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (19)

1.一种网络设备故障诊断方法,其特征在于,包括:
获取网络设备列表;
为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
2.如权利要求1所述的方法,其特征在于,还包括:
当所述诊断执行节点将所述待诊断数据表项中的记录都诊断完成后,接收所述诊断执行节点发送的包含所述分配标识的诊断结果;
根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
3.如权利要求1-2任一所述的方法,其特征在于,所述根据所述第一分配表为诊断执行节点分配待诊断数据表项的步骤具体包括:
顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间,将所述前N个分配标识为空的表项发送给诊断执行节点,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
4.如权利要求1-2任一所述的方法,其特征在于,还包括:
启动定时器,当定时器到期后,置所述第一分配表的表项中的分配标识为空。
5.如权利要求1-2任一所述的方法,其特征在于,还包括:
当所述诊断执行节点的数量少于所述网络设备的数量时,定时对所述第一分配表中的诊断时间片区间的诊断完成时间进行升序排序。
6.一种网络设备故障诊断方法,其特征在于,包括:
接收服务器根据第一分配表分配的待诊断数据表项;其中,所述第一分配表是所述服务器在获取网络设备列表后为所述列表中的第一网络设备设置的,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
根据待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型;
执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
7.如权利要求6所述的方法,其特征在于,还包括,
将所述诊断告警结果列表存入数据库中。
8.如权利要求6-7任一所述的方法,其特征在于,还包括,
将所述待诊断数据表项中的记录都诊断完成后,将包含所述分配标识的诊断结果发送给所述服务器,以便于所述服务器根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
9.如权利要求6-7任一所述的方法,其特征在于,所述接收服务器根据第一分配表分配的待诊断数据表项的步骤具体包括:
接收服务器在顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间后,发送的所述前N个分配标识为空的表项,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
10.一种网络设备故障诊断服务器,其特征在于,包括:
获取模块,用于获取网络设备列表;
设置模块,用于为所述列表中的第一网络设备设置第一分配表,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
分配模块,用于根据所述第一分配表为诊断执行节点分配待诊断数据表项;以便于所述诊断执行节点根据所述待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型并执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
11.如权利要求10所述的服务器,其特征在于,还包括:
接收模块,用于当所述诊断执行节点将所述待诊断数据表项中的记录都诊断完成后,接收所述诊断执行节点发送的包含所述分配标识的诊断结果;
更新模块,用于根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
12.如权利要求10-11任一所述的服务器,其特征在于,所述分配模块具体用于:
顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间,将所述前N个分配标识为空的表项发送给诊断执行节点,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
13.如权利要求11所述的服务器,其特征在于,还包括:
定时模块,用于启动定时器,
所述更新模块,还用于当定时器到期后,置所述第一分配表的表项中的分配标识为空。
14.如权利要求10-11任一所述的服务器,其特征在于,还包括:
排序模块,用于当所述诊断执行节点的数量少于所述网络设备的数量时,定时对所述第一分配表中的诊断时间片区间的诊断完成时间进行升序排序。
15.一种网络设备故障诊断执行节点,其特征在于,包括:
第一接收模块,用于接收服务器根据第一分配表分配的待诊断数据表项;其中,所述第一分配表是所述服务器在获取网络设备列表后为所述列表中的第一网络设备设置的,所述第一分配表包括需要对所述第一网络设备进行诊断的数据类型,以及每个数据类型对应的诊断进度和每个数据类型对应的分配标识;
第一获取模块,用于根据待诊断数据表项中的诊断进度对应的时间片区间从数据库中获取与所述时间片区间对应的第一数据类型;
执行模块,用于执行从规则脚本库中选取的与所述第一数据类型对应的脚本,得到诊断告警结果列表。
16.如权利要求15所述的诊断执行节点,其特征在于,还包括,
存储模块,用于将所述诊断告警结果列表存入数据库中。
17.如权利要求15-16任一所述的诊断执行节点,其特征在于,还包括,
发送模块,用于将所述待诊断数据表项中的记录都诊断完成后,将包含所述分配标识的诊断结果发送给所述服务器,以便于所述服务器根据所述分配标识更新与所述分配标识对应的所述第一分配表中分配表项的诊断进度中的诊断数据完成时间,并置所述分配标识为空。
18.如权利要求15-16任一所述的诊断执行节点,其特征在于,所述第一接收模块具体用于:
接收服务器在顺序遍历所述第一分配表,找到前N个分配标识为空的表项,随机生成N个唯一标识并分别设置表项的分配标识,为每个表项生成诊断时间片区间后,发送的所述前N个分配标识为空的表项,所述第一分配表中每一表项字段包含:网络设备序列号、数据类型标识、诊断时间片区间和/或分配标识,其中,N为自然数。
19.一种网络设备故障诊断系统,其特征在于,包括:
如权利要求10-14任一所述的服务器,以及
如权利要求15-18任一所述的诊断执行节点。
CN201811106919.3A 2018-09-21 2018-09-21 一种网络设备故障诊断方法、执行节点、服务器和系统 Active CN109039781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811106919.3A CN109039781B (zh) 2018-09-21 2018-09-21 一种网络设备故障诊断方法、执行节点、服务器和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811106919.3A CN109039781B (zh) 2018-09-21 2018-09-21 一种网络设备故障诊断方法、执行节点、服务器和系统

Publications (2)

Publication Number Publication Date
CN109039781A CN109039781A (zh) 2018-12-18
CN109039781B true CN109039781B (zh) 2021-08-17

Family

ID=64617551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811106919.3A Active CN109039781B (zh) 2018-09-21 2018-09-21 一种网络设备故障诊断方法、执行节点、服务器和系统

Country Status (1)

Country Link
CN (1) CN109039781B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112615857B (zh) * 2020-12-17 2023-02-17 杭州迪普科技股份有限公司 网络数据处理方法、装置与系统
CN113364638B (zh) * 2021-08-11 2021-11-02 浙江国利信安科技有限公司 用于epa组网的方法、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494573A (zh) * 2009-03-17 2009-07-29 杭州华三通信技术有限公司 一种故障的诊断方法、系统和设备
CN103390130A (zh) * 2013-07-18 2013-11-13 北京奇虎科技有限公司 基于云安全的恶意程序查杀的方法、装置和服务器
KR101403685B1 (ko) * 2012-10-31 2014-06-05 한국수력원자력 주식회사 원자력발전소의 기능적중요도결정 기기목록을 활용한 고장설비와 정비효과성감시모듈 성능기준간 자동 연계 시스템 및 그 방법
CN105117316A (zh) * 2015-08-07 2015-12-02 北京思特奇信息技术股份有限公司 一种服务器的自动检查维护方法及系统
CN106656654A (zh) * 2016-10-28 2017-05-10 锐捷网络股份有限公司 一种网络故障诊断方法及故障诊断装置
CN107145421A (zh) * 2016-03-01 2017-09-08 中国移动通信集团福建有限公司 一种异常信息获取方法和装置
CN107862052A (zh) * 2017-11-08 2018-03-30 国网电力科学研究院武汉南瑞有限责任公司 一种故障案例库、故障树及故障谱构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494573A (zh) * 2009-03-17 2009-07-29 杭州华三通信技术有限公司 一种故障的诊断方法、系统和设备
KR101403685B1 (ko) * 2012-10-31 2014-06-05 한국수력원자력 주식회사 원자력발전소의 기능적중요도결정 기기목록을 활용한 고장설비와 정비효과성감시모듈 성능기준간 자동 연계 시스템 및 그 방법
CN103390130A (zh) * 2013-07-18 2013-11-13 北京奇虎科技有限公司 基于云安全的恶意程序查杀的方法、装置和服务器
CN105117316A (zh) * 2015-08-07 2015-12-02 北京思特奇信息技术股份有限公司 一种服务器的自动检查维护方法及系统
CN107145421A (zh) * 2016-03-01 2017-09-08 中国移动通信集团福建有限公司 一种异常信息获取方法和装置
CN106656654A (zh) * 2016-10-28 2017-05-10 锐捷网络股份有限公司 一种网络故障诊断方法及故障诊断装置
CN107862052A (zh) * 2017-11-08 2018-03-30 国网电力科学研究院武汉南瑞有限责任公司 一种故障案例库、故障树及故障谱构建方法

Also Published As

Publication number Publication date
CN109039781A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN106992903B (zh) 一种基于网络设备的数据采集系统及方法
CN108023773B (zh) 一种实现网络设备零配置上线的方法和配置服务器
CN106533753B (zh) 一种分布式系统的角色配置方法及装置
CN110719209B (zh) 一种集群网络配置方法、系统、设备及可读存储介质
CN109698871B (zh) 一种光纤分布式接入系统及其管理方法
CN108259215B (zh) 一种设备管理方法及装置
CN106936618A (zh) 一种数据采集方法和系统
CN107870948A (zh) 任务调度方法和装置
CN109039781B (zh) 一种网络设备故障诊断方法、执行节点、服务器和系统
CN110532096B (zh) 一种多节点分组并行部署的系统和方法
CN110858810B (zh) 网络链路状态监测方法、设备、系统及介质
CN105100280A (zh) 任务分配方法和装置
CN111092752A (zh) 跨多个网络切片的故障定位方法及装置
CN111090519B (zh) 任务执行方法、装置、存储介质及电子设备
CN110083504B (zh) 分布式任务的运行状态监控方法及装置
CN111953560A (zh) 一种分布式集群故障测试方法及装置
CN111784185A (zh) 一种分布式配电通信网定时任务调度系统
CN107835097B (zh) 告警信息同步方法及装置、网元
CN107547622B (zh) 一种资源调整方法及装置
CN115421891A (zh) 一种任务分发方法、装置、设备及介质
CN111277463B (zh) Bmc获取网关地址准确性测试方法、系统、终端及存储介质
CN114090211A (zh) 协调单任务主从程序的方法、装置和相关多服务器系统
CN114090386A (zh) 一种监控Kubernetes运行的方法及系统
CN112000442A (zh) 一种基于kubernetes平台的集群状态自动获取方法及装置
CN115509676A (zh) 一种容器集的部署方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant