CN114167181A

CN114167181A - 监测本地和异地线路故障溯源的方法及系统

Info

Publication number: CN114167181A
Application number: CN202111470809.7A
Authority: CN
Inventors: 朱文进; 刘少卿; 郭士魏; 房杰
Original assignee: China Telecom Group System Integration Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-11
Anticipated expiration: 2041-12-03
Also published as: CN114167181B

Abstract

本发明公开了一种监测本地和异地线路故障溯源的方法，包括以下步骤：在客户端和各服务器上均部署NETCONF协议，以执行接收和响应消息；设置订阅监控事件，按预设频率采集各监测指标的监测值，并且当触发阈值时，则发出故障消息，通知采集各监测指标的监测值，并分别标识本地根源标识和异地根源标识，回传至管理端集中显示。本发明具有快速定位到故障发生所在位置的有益效果。本发明公开了一种监测本地和异地线路故障溯源的系统，包括：客户端，其上部署NETCONF协议；被管理组网内的各服务器和/或设备，其上均部署NETCONF协议，并设置订阅监控事件。具有硬件设备少，易实现，易操作，且故障溯源能力显著提升的有益效果。

Description

监测本地和异地线路故障溯源的方法及系统

技术领域

本发明涉及网络设备监测技术领域。更具体地说，本发明涉及一种监测本地和异地线路故障溯源的方法及系统。

背景技术

随着数字化发展的逐渐深入，各单位的在运设备逐渐增加，即便运维已经在从手工运维向工具运维和平台运维发展，但仍然无法满足当前大型组网的运维监测要求。如此大的规模下，靠人工经验、自动化运维去监测网络设备的监控时长就成为了制约运维工作的技术瓶颈。同时针对异地线路之间发生故障定位本地还是异地的时效性差、溯源效率低的实际情况以及现有技术很难达到监测时效性要求，如何更智能化、高效的方法来提高管理网络设备的运维保障能力，是需要解决的重点问题。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种监测本地和异地线路故障溯源的方法，可以快速定位到故障发生所在位置。

提供了一种监测本地和异地线路故障溯源的系统，需要硬件设备少，易实现，易操作，且故障溯源能力显著提升。

为了实现根据本发明的这些目的和其它优点，提供了一种监测本地和异地线路故障溯源的方法，包括以下步骤：

在客户端、被管理组网内的各服务器和/或设备上均部署NETCONF协议，以执行接收和响应消息；

其中，在服务器和设备上的NETCONF协议内设置订阅监控事件，所述监控事件为按预设频率采集对应服务器或对应设备中的各预设的监测指标的监测值，并且当监测值触发预设的对应监测指标的告警阈值时，则发出故障消息，故障消息中包括该服务器和/或设备的端口索引ID，该服务器和/或设备为告警设备；

以及，告警设备根据该端口索引ID，查询到与告警设备关联的本地关联服务器和/或设备和异地关联服务器和/或设备，然后通知本地关联服务器和/或设备和异地关联服务器和/或设备采集各监测指标的监测值，并分别标识本地根源标识和异地根源标识，回传至管理端集中显示，告警设备的各监测指标的监测值也同时回传至管理端集中显示。

优选的是，服务器和/或设备的监测指标包括端口信息、设备IP、光衰值、板卡信息、CPU使用率、内存占用率。

优选的是，本地根源标识与异地根源标识基于服务器之间连接的分线器端口区分，与告警设备所在的分线器的端口位于同一端的标识为本地根源标识，位于对端的标识为异地根源标识。

优选的是，采用分类法标识本地根源标识和异地根源标识，具体包括：

根据服务器的端口信息与采集的光衰值抽象生成本地根源标识1或异地根源标识1；

根据服务器和/或设备的板卡信息、CPU使用率、内存占用率生成本地根源标识2或异地根源标识2；

根据服务器和/或设备的设备IP与告警设备的关联关系抽象生成本地根源标识3或异地根源标识3。

优选的是，预设频率为1s/次。

优选的是，采用环形数据库的数据处理展示方法显示各本地根源标识和异地根源标识。

优选的是，还包括采集各设备的设备日志，并对设备日志的各文件标记有设备IP，以及对各文件中日志数据进行是否出错分别标识，生成设备IP、是否出错标识关联生成本地根源标识4或异地根源标识4，再回传至客户端集中显示。

优选的是，采用分类法对各设备日志的各文件进行分析，具体为：将文件中的数据按照关键字标识分成一级分类，得到一级分类结果，其中，一级分类关键字包括“数据库”、“中间件”、“服务”、“进程”；

然后对一级分类结果下需要分析的数据进行二次分类，其中，分类关键字包括“中间件类型”、“插件类型”、“数据库类型”，得到二级分类结果，并且分析各二级分类结果中的各日志数据是否出现错误进行区别标识；

将设备IP、一级分类结果、二级分类结果、区别标识关联生成本地根源标识4或异地根源标识4。

提供一种监测本地和异地线路故障溯源的系统，包括：

客户端，其上部署NETCONF协议，以执行接收和响应消息；

被管理组网内的各服务器和/或设备，其上均部署NETCONF协议，以执行接收和响应消息；

优选的是，还包括日志服务器，其上部署NETCONF协议，以执行接收和响应消息；

其中，各服务器和/或设备采集的设备日志，标记上设备IP后，传送至日志服务器，日志服务器采用分类法对各设备日志的各文件进行分析，具体为：将文件中的数据按照关键字标识分成一级分类，得到一级分类结果，其中，一级分类关键字包括“数据库”、“中间件”、“服务”、“进程”；

然后对一级分类结果下需要分析的数据进行二次分类，其中，分类关键字包括“中间件类型”、“插件类型”、“数据库类型”，得到二级分类结果，并且分析各二级分类结果中各日志数据是否出现错误进行区别标识；

将设备IP、一级分类结果、二级分类结果、区别标识关联生成本地根源标识4或异地根源标识4，并传送到客户端进行集中显示。

本发明至少包括以下有益效果：本发明针对异地线路之间发生故障定位本地还是定位异地时效性差、溯源效率低的实际情况。创造性的基于NETCONF协议结合分线器开发了监测异地线路之间故障溯源的可视化方案。当网络设备订阅监控事件触发告警阈值的故障发送告警消息时，通过消息里的设备端口索引从资产数据库获取本地关联设备及监测信息。生成“本地根源标识”。同时通过分线器厂商提供的接口获得连接异地网络之间的分线器的端口光衰值指标，及连接对端分线器端口的对端网络设备端口索引信息从资产数据库获取所有与该告警设备端口关联的异地设备数据。生成“异地根源标识”。“本地根源标识”和监测数值、“异地根源标识”和监测数值一起打包给可视化场景中进行实时展示。另外，采用环形数据处理展示还能简化数据库表，便于扩展，且图形支持秒级监控，支持多租户使用。可视化的方案，也减轻了当下机房运维环境的运维压力。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的其中一种技术方案的所述故障溯源的方法的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得；在本发明的描述中，术语指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种监测本地和异地线路故障溯源的方法，包括以下步骤：

在上述技术方案中，客户端(实质上是相当于一个管理端、控制中心)和基于光纤连接的被管理组网内的各服务器和设备(实质上是被运维监测的对象)均是可以支持NETCONF协议的，这样只需要在上述硬件上部署NETCONF协议即可，然后在NETCONF协议的消息层布置接收响应消息任务，这样实现客户端与被运维监测的对象之间的信息的自动交互。以及通过NETCONF协议订阅监控事件，该订阅监控事件可以通过NETCONF协议的操作层预先将对应程序设置，以实现对服务器和设备的监控，该订阅事件为按预设频率(比如1s/次)采集对应服务器或对应设备中的各预设的监测指标(比如CPU使用率)的监测值，并且当监测值触发预设的对应监测指标的告警阈值(比如将CPU使用率的告警阈值设置为95％)时，则发出故障消息，故障消息中包括该服务器和/或设备的端口索引ID，该服务器和/或设备为告警设备，端口索引ID用于标记根源，以及查找与告警设备相关联的其它网络设备；

通过上述步骤可以实现实时监测组网内的所有服务器和设备，当某一服务器或设备发生告警时，可以实现秒级告警，及时得到出现故障的告警信息，而导致出现该告警信息，即引发某一或多个监测指标触发告警阈值的原因是在本告警设备，还是与其关联的其它设备发生故障，则可以通过下面的步骤进行排查定位。

其于故障消息中的端口索引ID，告警设备先查找到关联设备，然后向关联设备下发监测数据通知，关联设备收到通知消息后，可以及时响应，并根据通知消息中的监测要求，比如需要哪些监测指标的监测值，按监测要求采集监测值，并汇总，汇总时，还需要按照端口信息进行本地根源标识和异地根源标识，从而当监测值出现问题时，可以很快的定位到故障发生所在位置。

上述监测值和本地根源标识和异地根源标识均编一汇集到客户端进行显示，进行统一管理，有助于提升用户运维监测的管理体验。

在另一种技术方案中，服务器和/或设备的监测指标包括端口信息、设备IP、光衰值、板卡信息、CPU使用率、内存占用率。上述监测指标可以比较全面、精准的反应服务器和设备的运行状态，板卡信息与CPU使用率具有对应关系，可以精准的知晓是哪一块板卡出现了问题，可以提高故障找出的效率。

在另一种技术方案中，本地根源标识与异地根源标识基于服务器之间连接的分线器端口区分，与告警设备所在的分线器的端口位于同一端的标识为本地根源标识，位于对端的标识为异地根源标识。基于目前网络连接的关系通常在本地和异地之间(比如北京和郑州)采用分线器进行布设，并且分线器在布设时即会将本端端口和对端端口的连接信息进行记录，分线器本端与对端之间的光衰值也布置有采用模块，因此，可以充分利用现有的资源，进行本地根源和异地根源的区别，以及可以将光衰值做为监测指标，监测是否为分线器传输出现了故障。

在另一种技术方案中，采用分类法标识本地根源标识和异地根源标识，具体包括：

在上述技术方案中，通过本地根源标识1或异地根源标识1可以直观快速的知晓是在端口连接过程中出现了问题，相当于是一个最上层最直观的故障问题，这样分层展示有利于提高故障定位效率和故障排查效率。通过本地根源标识2或异地根源标识2可以快速的定位知晓是设备内部出现了问题，从而可以安排人员对设备进行进一步查看排查。通过本地根源标识3或异地根源标识3可以知晓当某一告警设备发出告警消息后，若是其它设备的故障引起的，可以通过该关联关系快速的定位到故障设备。

在另一种技术方案中，预设频率为1s/次。可以实现秒级监控。

在另一种技术方案中，采用环形数据库的数据处理展示方法显示各本地根源标识和异地根源标识。

在上述技术方案中，环形数据库，简称：RRD。环形数据库自带有插件rrdtool，可以将数据生成图形在可视化场景中进行实时展示。而且环形数据库做为文件数据库还能简化数据库表，便于扩展，且图形支持秒级监控，支持多租户使用，可以减轻当下机房运维环境的运维压力。

在另一种技术方案中，还包括采集各设备的设备日志，并对设备日志的各文件标记有设备IP，以及对各文件中日志数据进行是否出错分别标识，生成设备IP、是否出错标识关联生成本地根源标识4或异地根源标识4，再回传至客户端集中显示。

在上述技术方案中，若要对设备中更具体的故障进行定位，则可以采集设备日志，通过对设备日志的分析，可以定位到具体的什么文件出现了故障，提升了故障定位的精准性。

在另一种技术方案中，采用分类法对各设备日志的各文件进行分析，具体为：将文件中的数据按照关键字标识分成一级分类，得到一级分类结果，其中，一级分类关键字包括“数据库”、“中间件”、“服务”、“进程”；

在上述技术方案中，由于设备日志的文件量通常较大，为了使得分析结果更加准确，效果更接近真实，将文件通过分成两部分进行分析，比如：

首先将文件中的数据按照关键字标识进行分类，包括数据库、中间件、服务、进程等一级分类，得到一级分类结果，这是第一部分。

第二部分：二级分类，对需要分析的一级分类下的数据进行二次分类，分类包含中间件类型(比如：apache、tomcat、Resin)、插件类型(比如：jquery、php、python、java、C++、C、vb、vc、delphin、html5等开发语言或脚本)、数据库类型(比如：mysql、sqlserver、oracle、mangodb、rrd、sqlite、DB2、Azure SQL Database、BigQuery、国产达梦数据库、GBase南大通用、神通数据库、金仓数据库、浪潮K-DB数据库等)从而得到二级分类分析结果，即：二级分类结果。其中，apache为Web服务器软件名称，tomcat、Resin均为Web应用服务器名称，jquery为JavaScript代码库、php、python、java、C++、C、vb、vc、delphin均为现有计算机编程语言名称，html5为构建Web内容的一种语言描述方式等开发语言或脚本，mysql、sqlserver、oracle、mangodb、rrd、sqlite、DB2、Azure SQL Database、BigQuery均为各现有数据库名称。

如果二级分类日志结果数据中出现error。则生成errorlog标识＝1，反之errorlog标识＝0。例如：关联设备的mysql数据库出现错误则，errorlog＝1@mysql，如果是中间件出现错误则，errorlog＝1@apache。

一级分类和二级分类合并并将关联关系抽象生成标识4。例如：errorlog＝数据库

@1@mysql，标识关联设备上部署的数据库有错误，且数据库为mysql。

通过上述分类分析，并给合抽象标识，可以直观的定位到故障所在处。

提供一种监测本地和异地线路故障溯源的系统，包括：

客户端，其上部署NETCONF协议，以执行接收和响应消息；

上述技术方案的系统是基于本申请的监测异地线路故障溯源方法建立的，通过配置客户端、被管理组网内的各服务器和设备，并且在上述硬件设备中部署NETCONF协议，以及将订阅监控事件设置成配置文件，对各服务器和/或设备进行配置，从而当客户端向各服务器和设备发出订阅监控事件通知后，各服务器和设备即可根据配置文件进行响应，执行实时监测、告警、通知、传送等任务，达到将故障进行本地根源标识和异地根源标识并显示的目的。实现上述功能的设备只需要能够支持NETCONF协议即可，所以所需要资源简单，易实现，易操作，且故障溯源能力显著提升。

在另一种技术方案中，还包括日志服务器，其上部署NETCONF协议，以执行接收和响应消息；

在上述技术方案中，由于被管理的服务器和设备量大，再结合每一个服务器或设备的设备日志的文件量也大，因此，单独设置一个日志服务器，可以更高效快速的对设备日志进行分析处理，提高故障溯源效率。

本发明的方法针对机房运维场景下业务规模大，应用关系复杂，依赖层次多，排查问题困难的问题，同时针对异地线路之间发生故障定位本地还是异地时效性差、溯源效率低的实际情况。引入了更高效的NETCONF协议结合日志的方法，日志由于有不需要检测系统运行时、更改应用程序代码，或利用更高级的监控技术的优势以及直观反映服务的执行情况的特点。可以更好的辅助NETCONF协议综合提高管理网络设备、线路以及相关服务应用的运维保障能力。

<实施例>

步骤一、通过采用NETCONF协议来管理组网内本地及异地的服务器简称：CPE，在支持NETCONF协议的(CPE)上将NETCONF协议的RPC消息相关指令的集合编写到程序中来执行接收和响应消息，并订阅监控事件，同时部署一台日志服务器。

具体流程为：首先，客户端向CPE发送远程过程调用NETCONF协议RPC请求订阅监控事件指令，CPE上的程序接收客户端的RPC请求指令后，在CPE生成事件通知并从预设的【阈值数据库】获取监测指标，例如：网络流量、CPU使用率、设备内存占用率等告警阈值一起放入订阅监控事件中，NETCONF协议订阅监控事件各监测指标的监测时间设置为1秒，从而完成了对CPE的秒级监控。

步骤二、与告警设备相关的本地关联设备及监测信息获取：当CPE收到订阅监控事件触发告警阈值的故障消息时，通过消息中CPE的端口索引ID为查询条件，访问预设的【监测数据库】获取所有与该端口索引ID关联的设备数据。包括直接或间接关联的设备IP、设备板卡、设备PU使用率、设备内存占用率等监测指标，转换成NETCONF协议接受的<rpc>数据结构文件，下发到这些关联CPE上。关联CPE收到并通过解析<rpc>数据结构文件里的监测指标对关联CPE进行数据采集。

根源标识：

【本地根源标识1】通过采集的光衰值获得关联CPE设备对应的端口信息(端口IP、端口索引、端口名称)并将关联关系抽象生成标识1。

【本地根源标识2】通过采集的直接或间接关联的设备设备CPU使用率、设备内存占用率属于设备上哪块板块的信息等数值将关联关系抽象生成标识2。

【本地根源标识3】通过采集的直接或间接关联的设备IP与告警设备的关联关系抽象生成标识3。

【本地根源标识4】通过日志服务器部署的程序执行发送采集本地关联CPE设备日志指令，关联CPE设备收到指令后将本机log文件上传到日志服务器。日志服务器收到log文件后进行数据分析。由于log文件通常较大，为了使得分析结果更加准确，效果更接近真实。将log文件分为二部分分析。

第一部分：首先将log文件中的数据按照关键字标识进行分类包括(数据库、中间件、服务、进程)等一级分类，即得一级分类结果。

第二部分：二级分类，对需要分析的一级分类下的数据进行二次分类，分类包含中间件类型(apache、tomcat、Resin)、插件类型(jquery、php、python、java、C++、C、vb、vc、delphin、html5等开发语言或脚本)、数据库类型(mysql、sqlserver、oracle、mangodb、rrd、sqlite、DB2、Azure SQL Database、BigQuery、国产达梦数据库、GBase南大通用、神通数据库、金仓数据库、浪潮K-DB数据库等)从而得到二级分类分析结果，即：二级分类结果。如果二级分类日志结果数据中出现error。则生成errorlog标识＝1，反之errorlog标识＝0。例如：关联设备的mysql数据库出现错误则，errorlog＝1@mysql、如果是中间件出现错误则，errorlog＝1@apache。

异地关联设备及监测信息获取：同时执行部署在客户端设备上的程序，通过分线器厂商提供的数据接口获得连接异地网络服务器之间的异地分线器的端口光衰值数值，及连接对端分线器端口的对端网络设备端口索引信息为查询条件，访问【资产数据库】获取所有与该告警设备端口关联的异地设备数据。将关联设备的IP、光衰值、板块、CPU、内存等监测指标转换成NETCONF协议接受的<rpc>数据结构文件，下发到这些关联设备上。异地关联CPE设备收到并解析<rpc>数据结构文件里的监测指标对关联CPE设备进行数据采集。

【异地根源标识1】通过采集的光衰值获得异地关联CPE设备对应的端口信息(端口IP、端口索引、端口名称)并将关联关系抽象生成标识1。

【异地根源标识2】通过采集的直接或间接异地关联的设备设备CPU使用率、设备内存占用率属于设备上哪块板块的信息等数值将关联关系抽象生成标识2。

【异地根源标识3】通过采集的直接或间接异地关联的设备IP与告警设备的关联关系抽象生成标识3。

【异地根源标识4】通过日志服务器部署的程序执行发送采集异地关联CPE设备日志指令，异地关联CPE设备收到指令后将本机log文件上传到日志服务器。日志服务器收到log文件后进行数据分析。由于log文件通常较大，为了使得分析结果更加准确，效果更接近真实。将log文件分为二部分分析。

第二部分：二级分类，对需要分析的一级分类下的数据进行二次分类，分类包含中间件类型(apache、tomcat、Resin)、插件类型(jquery、php、python、java、C++、C、vb、vc、delphin、html5等开发语言或脚本)、数据库类型(mysql、sqlserver、oracle、mangodb、rrd、sqlite、DB2、Azure SQL Database、BigQuery、国产达梦数据库、GBase南大通用、神通数据库、金仓数据库、浪潮K-DB数据库等)从而得到二级分类分析结果，即：二级分类结果。如果二级分类日志结果数据中出现error。则生成errorlog标识＝1，反之errorlog标识＝0.例如：关联设备的mysql数据库出现错误则，errorlog＝1@mysql、如果是中间件出现错误则，errorlog＝1@apache。

从而快速收集及定位故障消息发送的本地关联设备及异地关联设备状况，快速定位故障根源。

步骤三、将本地CPE设备和异地关联CPE生成的【本地根源标识】和采集的监测指标数值、【异地根源标识】和采集的监测指标数值一起发生给部署在客户端设备上的环形数据库，简称：RRD。并通过RRD自带的插件rrdtool将数据生成图形在可视化场景中进行实时展示。另外，RRD做为文件数据库还能简化数据库表，便于扩展，且图形支持秒级监控，支持多租户使用。减轻了当下机房运维环境的运维压力。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.监测本地和异地线路故障溯源的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的监测本地和异地线路故障溯源的方法，其特征在于，服务器和/或设备的监测指标包括端口信息、设备IP、光衰值、板卡信息、CPU使用率、内存占用率。

3.如权利要求1所述的监测本地和异地线路故障溯源的方法，其特征在于，本地根源标识与异地根源标识基于服务器之间连接的分线器端口区分，与告警设备所在的分线器的端口位于同一端的标识为本地根源标识，位于对端的标识为异地根源标识。

4.如权利要求2所述的监测本地和异地线路故障溯源的方法，其特征在于，采用分类法标识本地根源标识和异地根源标识，具体包括：

5.如权利要求1所述的监测本地和异地线路故障溯源的方法，其特征在于，预设频率为1s/次。

6.如权利要求1所述的监测本地和异地线路故障溯源的方法，其特征在于，采用环形数据库的数据处理展示方法显示各本地根源标识和异地根源标识。

7.如权利要求1所述的监测本地和异地线路故障溯源的方法，其特征在于，还包括采集各设备的设备日志，并对设备日志的各文件标记有设备IP，以及对各文件中日志数据进行是否出错分别标识，生成设备IP、是否出错标识关联生成本地根源标识4或异地根源标识4，再回传至客户端集中显示。

8.如权利要求7所述的监测本地和异地线路故障溯源的方法，其特征在于，采用分类法对各设备日志的各文件进行分析，具体为：将文件中的数据按照关键字标识分成一级分类，得到一级分类结果，其中，一级分类关键字包括“数据库”、“中间件”、“服务”、“进程”；

9.基于权利要求1～8任一项所述的方法的监测本地和异地线路故障溯源系统，其特征在于，包括：

客户端，其上部署NETCONF协议，以执行接收和响应消息；

10.如权利要求9所述的监测本地和异地线路故障溯源系统，其特征在于，还包括日志服务器，其上部署NETCONF协议，以执行接收和响应消息；