CN109905268A

CN109905268A - 网络运维的方法及装置

Info

Publication number: CN109905268A
Application number: CN201810026962.2A
Authority: CN
Inventors: 潘璐伽; 张家劲; 张建锋; 叶君健
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2019-06-18
Anticipated expiration: 2038-01-11
Also published as: WO2019137052A1; CN109905268B

Abstract

本申请提供一种网络运维的方法及装置，属于网络技术领域。该方法包括：服务器获取m种业务的网络数据，m≥2，再根据m种业务的网络数据确定n个第一故障信息，每个第一故障信息用于指示对应的业务出现网络故障，1≤n≤m，然后，服务器将n个第一故障信息的部分或全部划分为k组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，1≤k≤n，之后，服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应。进一步的，服务器还可以预测网络中的潜在故障，解决了相关技术中网络运维方式无法对多种业务进行综合处理的问题，达到了对多种业务进行综合处理，提高故障预测的准确性，提高故障的处理效率的效果，用于网络运维。

Description

网络运维的方法及装置

技术领域

本申请涉及网络技术领域，特别涉及一种网络运维的方法及装置。

背景技术

在数据业务时代，用户体验是服务的核心，稳定可靠的网络配合良好的用户体验，能够帮助运营商快速发展业务，网络运维用于保证网络与业务安全有效运行，如何进行网络运维，保障用户体验是十分重要的问题。

相关技术中有一种网络运维方式，这种网络运维方式是先采用非监督学习模型对业务的网络数据进行异常检测，然后将检测结果呈现给工作人员，工作人员对检测结果的准确性进行判断，将正确的检测结果作为训练样本，接着对该训练样本进行训练得到监督学习模型，之后采用该监督学习模型对业务的网络数据进行异常检测。

但上述网络运维方式仅能够对一种业务进行处理，无法对多种业务进行综合处理，而随着网络技术的快速发展，网络业务越来越丰富，亟需一种针对多种业务进行综合处理的网络运维方式。

发明内容

本发明实施例提供了一种网络运维的方法及装置，可以解决相关技术中网络运维方式无法对多种业务进行综合处理的问题，所述技术方案如下：

第一方面，提供了一种网络运维的方法，该方法包括：服务器先获取m种业务的网络数据，m≥2，再根据m种业务的网络数据确定n个第一故障信息，每个第一故障信息用于指示对应的业务出现网络故障，1≤n≤m。然后，服务器将n个第一故障信息的部分或全部划分为k组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，任一第一故障信息所指示的网络故障的上级故障为引起该任一第一故障信息所指示的网络故障的故障，1≤k≤n。之后服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应。

可选的，m种业务可以包括预测类业务、告警压缩类业务和异常检测类业务等。

可选的，服务器可以显示k组故障信息以及k个上级故障。

在本发明实施例中，服务器能够根据多种业务的网络数据确定第一故障信息和上级故障，以便于工作人员进行故障处理。进一步的，工作人员还可以根据服务器输出的上级故障和第一故障信息得到网络中的潜在故障，并对潜在故障进行处理。

可选的，在输出k组故障信息以及k个上级故障之后，该方法还可以包括：服务器根据k个上级故障和每个上级故障对应的第一故障信息，获取与每个上级故障相关的关联网络数据，再根据关联网络数据预测与每个上级故障相关的第二故障信息，第二故障信息与第一故障信息不同。之后，服务器输出k个上级故障、k组故障信息和预测的所有第二故障信息。

在本发明实施例中，与上级故障相关的第二故障信息所指示的网络故障指的是该上级故障能够引起的网络故障。

可选的，服务器可以显示k个上级故障、k组故障信息和预测的所有第二故障信息。

由于网络数据之间的关联性较强，所以在本发明实施例中，服务器在得到上级故障和第一故障信息时，可以根据上级故障和第一故障信息，预测上级故障可能引起的其余网络故障，这种上级扩散标注选择方式使得工作人员能够根据上级故障、第一故障信息和第二故障信息对网络中的故障和潜在故障进行及时处理，提高网络的稳定性，保证网络正常运行。

可选的，在输出k组故障信息以及k个上级故障之后，该方法还可以包括：服务器接收第一标注指令，该第一标注指令用于指示k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障。接着，服务器基于第一标注指令获取第一样本集，该第一样本集包括第一标注指令所指示的信息。然后，服务器根据第一样本集获取与第一样本集中每个上级故障相关的关联网络数据，再根据关联网络数据预测与每个上级故障相关的第二故障信息，第二故障信息与第一故障信息不同。之后服务器输出第一样本集和预测的所有第二故障信息。

可选的，服务器可以发出提示信息，用于提示工作人员采用第一标注符号来标注服务器预测正确的上级故障和预测正确的第一故障信息，并采用第二标注符号来标注服务器预测错误的上级故障和预测错误的第一故障信息。

可选的，服务器可以显示第一样本集和预测的所有第二故障信息。

在本发明实施例中，由于服务器是根据k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障得到第二故障信息，所以第二故障信息的准确度更高。

在本发明实施例中，服务器可以根据工作人员的标注指令，预测出正确的上级故障可能引起的网络故障，使得工作人员能够根据预测正确的第一故障信息、预测正确的上级故障和预测的所有第二故障信息对网络中的故障和潜在故障进行及时处理。且由于第二故障信息的准确度较高，因此还提高了故障的处理效率。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息，在输出第一样本集和预测的第二故障信息之后，该方法还可以包括：服务器将预测的所有第二故障信息确定为待标注样本集，再接收第二标注指令，第二标注指令用于指示待标注样本集内预测正确的第二故障信息。然后服务器基于第二标注指令获取第二样本集，该第二样本集包括第二标注指令所指示的信息，接着服务器将第一样本集和第二样本集确定为目标样本集，之后，服务器根据目标样本集确定第一运维模型的评价指标，该第一运维模型为m个运维模型中的任一运维模型。当第一运维模型的评价指标不属于指定评价指标范围时，服务器再采用目标样本集对第一运维模型进行更新。

可选的，第一运维模型的评价指标可以为第一运维模型的精度、查准率或错误发现率等。指定评价指标范围可以根据确定的第一运维模型的评价指标来确定。

在发明实施例中，服务器可以根据工作人员的标注指令，得到预测正确的第二故障信息，进而根据预测正确的第一故障信息、预测正确的上级故障和预测正确的第二故障信息对评价指标不满足业务要求的运维模型进行更新，提高故障预测的准确性，进而提高故障的处理效率。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息，服务器根据关联网络数据预测与每个上级故障相关的第二故障信息，可以包括：服务器先向关联运维模型输入关联网络数据，以得到关联运维模型输出的信息，该关联运维模型为m个运维模型中与关联网络数据相对应的运维模型，当该关联运维模型输出的信息为故障信息时，将关联运维模型输出的信息确定为与每个上级故障相关的第二故障信息。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同。服务器根据m种业务的网络数据确定n个第一故障信息，可以包括：服务器向m个运维模型输入对应业务的网络数据，以得到m个运维模型输出的信息，每个运维模型输出的信息为故障信息或非故障信息，m个运维模型输出的信息包括n个故障信息。之后，服务器将该n个故障信息确定为n个第一故障信息。

第二方面，提供了一种网络运维的装置，该网络运维的装置包括至少一个模块，至少一个模块用于实现上述第一方面所述的网络运维的方法。

第三方面，提供了一种网络运维的装置，该装置包括处理器、存储器、网络接口和总线。其中，总线用于连接处理器、存储器和网络接口。网络接口用于实现服务器与通信设备之间的通信连接。处理器用于执行存储器中存储的程序来实现第一方面所述的网络运维的方法。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该计算机可读存储介质在计算机上运行时，使得计算机执行第一方面所述的网络运维的方法。

第五方面，提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第一方面所述的网络运维的方法。

上述第二方面至第五方面所获得的技术效果与第一方面中对应的技术手段所获得的技术效果近似，在这里不再赘述。

本发明实施例提供的技术方案带来的有益效果是：

服务器能够根据m(m≥2)种业务的网络数据确定n(1≤n≤m)个第一故障信息，然后将n个第一故障信息的部分或全部划分为k(1≤k≤n)组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，之后，服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应，进而使得工作人员能够及时处理网络中的故障和潜在故障，通过本发明实施例，能够对多种业务进行综合处理，还能够对评价指标不满足业务要求的运维模型进行自动更新，提高了故障预测的准确性，提高了故障的处理效率。

附图说明

图1是本发明实施例所涉及的实施环境示意图；

图2是本发明实施提供的一种网络运维的方法的方法流程图；

图3是本发明实施提供的一种确定第一故障信息的方法流程图；

图4是本发明实施提供的一种第一故障信息和上级故障的示意图；

图5是本发明实施提供的一种预测第二故障信息的方法流程图；

图6是本发明实施提供的另一种网络运维的方法的方法流程图；

图7是本发明实施提供的图4所示的上级故障和第一故障信息图的标注示意图；

图8是本发明实施提供的图4所示的上级故障和第一故障信息图的标注示意图；

图9是本发明实施例提供的一种网络运维的装置的结构示意图；

图10是本发明实施例提供的另一种网络运维的装置的结构示意图；

图11是本发明实施例提供的再一种网络运维的装置的结构示意图；

图12是本发明实施例提供的一种网络运维的装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本发明实施例所涉及的实施环境示意图，如图1所示，该实施环境可以包括服务器001和通信设备002，示例的，通信设备002可以为基站。基站用于使小区中的终端10进行通信，服务器001可以从基站上获取多种业务的网络数据。服务器001可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

在本发明实施例中，服务器001用于获取m(m≥2)种业务的网络数据，根据该多种业务的网络数据确定n(1≤n≤m)个第一故障信息，然后将该n个第一故障信息的部分或全部划分为k(1≤k≤n)组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，之后，输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应，进而使得工作人员进行故障处理。进一步的，在一种可实现方式中，为了避免潜在故障对网络造成影响，服务器还可以根据上级故障和第一故障信息预测潜在故障；在另一种可实现方式中，为了提高故障预测的准确性，服务器还可以根据工作人员的标注指令确定预测正确的上级故障和预测正确的第一故障信息，然后再基于预测正确的上级故障和预测正确的第一故障信息预测潜在故障。下面以这两种可实现方式为例对本发明实施例提供的网络运维的方法进行说明。

在一种可实现方式中，本发明实施例提供的网络运维的方法如图2所示，可以包括：

步骤201、服务器获取m种业务的网络数据，m≥2。

参见图1，服务器从通信设备上获取业务的网络数据，示例的，服务器可以从基站上获取业务的网络数据。

示例的，服务器获取的m种业务可以包括预测类业务、告警压缩类业务和异常检测类业务等。其中，预测类业务可以包括硬件失效预测业务、性能预测业务和资源预测业务等；告警压缩类业务可以包括单域告警压缩业务、跨域告警压缩业务和根因告警分析业务等；异常检测类业务可以包括关键性能指标(Key Performance Indicator，KPI)异常检测业务和业务劣化异常检测业务，下面对每种业务做一简要说明。

硬件失效预测业务用于对即将失效的硬件进行预测，进而及时更换或维修即将失效的硬件，比如可以根据硬件的相关性能指标和设置在硬件上的传感器采集的硬件数据进行预测，示例的，预测的硬件可以为单板、硬盘或光模块等。性能预测业务用于对网络性能指标(比如带宽、吞吐量和时延等)进行预测。资源预测业务用于对网络资源(比如中央处理器(Central Processing Unit，CPU)占用率等)进行预测。告警压缩类业务用于对网络中产生的大量告警数据进行压缩，得到影响网络的重要告警数据，告警压缩类业务中的单域告警压缩业务用于对同一产品域内的告警数据进行压缩，比如，可以将接入层的网络设备看作是同一产品域的通信设备。跨域告警压缩业务用于对不同产品域的告警数据进行压缩。根因告警分析业务用于对影响网络的基本告警数据进行分析。异常检测类业务用于对网络中各种指标进行实时监控并上报异常信息。异常检测类业务中的KPI异常检测业务用于对KPI(比如丢包率的KPI和通话质量的KPI等)进行实时监控。业务劣化异常检测业务用于对关键质量指标(Key Quality Indicator，KQI)进行实时监控。其中，KPI用于监测网络的运行状态，KQI用于度量业务的好坏。

示例的，服务器获取的硬件失效预测业务的网络数据可以包括硬件的相关性能指标和传感器采集的硬件数据等，获取的性能预测业务的网络数据可以包括网络性能指标等数据，获取的资源预测业务的网路数据可以包括网络资源等数据，获取的单域告警压缩业务的网络数据可以包括同一产品域内的告警数据，获取的跨域告警压缩业务的网络数据可以包括不同产品域的告警数据，获取的KPI异常检测业务的网络数据可以包括KPI等数据，获取的业务劣化异常检测业务的网络数据可以包括KQI等数据。

需要说明的是，服务器获取每种业务的网络数据的周期可以根据对应业务需要来确定，比如，该周期可以为20分钟或者1小时。

步骤202、服务器根据m种业务的网络数据确定n个第一故障信息，每个第一故障信息用于指示对应的业务出现网络故障，1≤n≤m。

可选的，在本发明实施例中，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，相应的，如图3所示，步骤202可以包括：

步骤2021、服务器向m个运维模型输入对应业务的网络数据，以得到m个运维模型输出的信息，每个运维模型输出的信息为故障信息或非故障信息，m个运维模型输出的信息包括n个故障信息。

在本发明实施例中，服务器可以采用运维模型根据业务的网络数据确定第一故障信息，假设步骤201中的m种业务包括预测类业务、告警压缩类业务和异常检测类业务，那么用于确定第一故障信息的运维模型可以包括：预测类模型、告警压缩类模型和异常检测类模型。假设在步骤201中，服务器获取到8种业务的网络数据，这8种业务分别为：硬件失效预测业务、性能预测业务、资源预测业务、单域告警压缩业务、跨域告警压缩业务、根因告警分析业务、KPI异常检测业务和业务劣化异常检测业务，那么，预测类模型可以包括硬件失效预测模型、性能预测模型和资源预测模型；告警压缩类模型可以包括单域告警压缩模型、跨域告警压缩模型和根因告警分析模型；异常检测类模型可以包括KPI异常检测模型和业务劣化异常检测模型，运维模型的总数量为8。8种业务的网络数据与8个运维模型一一对应，8个运维模型互不相同。

服务器向这8个运维模型输入对应业务的网络数据，以得到8个运维模型输出的信息，比如，服务器向硬件失效预测模型输入硬件失效预测业务的网络数据，得到硬件失效预测模型输出的故障信息。又比如，服务器向性能预测模型输入性能预测业务的网络数据，得到性能预测模型输出的故障信息。

步骤2022、服务器将n个故障信息确定为n个第一故障信息。

如果每个运维模型输出的信息均为故障信息，那么服务器可以得到m个第一故障信息。

步骤203、服务器将n个第一故障信息的部分或全部划分为k组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，任一第一故障信息所指示的网络故障的上级故障为引起该任一第一故障信息所指示的网络故障的故障，1≤k≤n。

示例的，当某一第一故障信息为“小区231业务劣化”，那么该第一故障信息所指示的网络故障的上级故障可以是基站设备故障。该基站管理的小区包括小区231。

现以步骤2021中的8种业务的网络数据和8个运维模型为例进行说明，服务器向8个运维模型输入对应业务的网络数据，假设8个运维模型输出的信息均为故障信息，这样一来，服务器得到了8个第一故障信息。假设服务器对这8个第一故障信息的全部进行分组，比如8个第一故障信息被划分为2组故障信息，第一组故障信息包括3个第一故障信息，这3个第一故障信息所指示的网络故障的上级故障为基站设备故障，第二组故障信息包括5个第一故障信息，这5个第一故障信息所指示的网络故障的上级故障为另一传输设备故障。

图4示例性示出了1组故障信息和该组故障信息对应的上级故障的示意图，该组故障信息包括3个第一故障信息：“小区231业务劣化”，“以太网(Ethernet，ETH)链路连接异常”，“CPU占用率较高”，其中，“小区231业务劣化”是服务器向业务劣化异常检测模型输入对应业务的网络数据，该业务劣化异常检测模型输出的故障信息。“ETH链路连接异常”是服务器向KPI异常检测模型输入对应业务的网络数据，该KPI异常检测模型输出的故障信息。“CPU占用率较高”是服务器向资源预测模型输入对应业务的网络数据，该资源预测模型输出的故障信息。这3个第一故障信息所指示的网络故障的上级故障为基站设备故障。

步骤204、服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应。

服务器输出k组故障信息以及k个上级故障，以便于工作人员根据k组故障信息和k个上级故障进行故障处理。进一步的，工作人员还可以根据服务器输出的上级故障和第一故障信息得到网络中的潜在故障，并对潜在故障进行处理。

可选的，服务器可以显示k组故障信息以及k个上级故障。示例的，服务器显示出的1组故障信息和对应的上级故障的结果可以如图4所示。

步骤205、服务器根据k个上级故障和每个上级故障对应的第一故障信息，获取与每个上级故障相关的关联网络数据。

由于网络数据之间的关联性较强，比如某一基站管理3个小区，当该基站出现故障时，该基站管理的小区可能都会受到影响。因此，服务器在得到上级故障和第一故障信息时，可以进一步确定网络中的潜在故障。为了确定潜在故障，服务器可以先获取与上级故障相关的关联网络数据。

假设，在步骤202中，服务器根据8种业务的网络数据确定出8个第一故障信息，在步骤203中，服务器将这8个第一故障信息划分为2组故障信息，第一组故障信息包括3个第一故障信息：x1、x2和x3，这3个第一故障信息所指示的网络故障的上级故障为A11；第二组故障信息包括5个第一故障信息：y1、y2、y3、y4和y5，这5个第一故障信息所指示的网络故障的上级故障为B11。那么服务器分别获取与A11相关的关联网络数据，以及与B11相关的关联网络数据。

比如第一故障信息为：“小区231业务劣化”，该第一故障信息所指示的网络故障的上级故障为：基站设备故障，那么服务器获取的与该上级故障相关的关联网络数据可以为：小区232的KQI。该基站管理的小区包括小区232和小区231。

步骤206、服务器根据关联网络数据预测与每个上级故障相关的第二故障信息，该第二故障信息与第一故障信息不同。

与上级故障相关的第二故障信息所指示的网络故障指的是该上级故障能够引起的网络故障。

现以步骤205中的上级故障A11和B11为例对本步骤进行说明，服务器获取与A11相关的关联网络数据p1，然后根据该关联网络数据p1预测与A11相关的第二故障信息；同时，服务器获取与B11相关的关联网络数据p2，然后根据该关联网络数据p2预测与B11相关的第二故障信息。

比如第一故障信息为：“小区231业务劣化”，该第一故障信息所指示的网络故障的上级故障为：基站设备故障，服务器获取的与该上级故障相关的关联网络数据为：小区232的KQI，那么服务器根据该关联网络数据预测的与该上级故障相关的第二故障信息可以为：“小区232业务劣化”。该基站管理的小区包括小区232和小区231。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息。相应的，如图5所示，步骤206可以包括：

步骤2061、服务器向关联运维模型输入关联网络数据，以得到该关联运维模型输出的信息，该关联运维模型为m个运维模型中与关联网络数据相对应的运维模型。

步骤2062、当关联运维模型输出的信息为故障信息时，服务器将关联运维模型输出的信息确定为与每个上级故障相关的第二故障信息。

假设8种业务分别为：硬件失效预测业务、性能预测业务、资源预测业务、单域告警压缩业务、跨域告警压缩业务、根因告警分析业务、KPI异常检测业务和业务劣化异常检测业务，那么可以存在8个运维模型，这8个运维模型分别为：硬件失效预测模型、性能预测模型、资源预测模型、单域告警压缩模型、跨域告警压缩模型、根因告警分析模型、KPI异常检测模型和业务劣化异常检测模型。

现以图4所示的上级故障和第一故障信息为例进行说明，上级故障为基站设备故障，3个第一故障信息分别为：“小区231业务劣化”，“ETH链路连接异常”，以及“CPU占用率较高”。服务器获取的与该上级故障相关的关联网络数据可以为：小区232的KQI。然后，服务器向对应的业务劣化异常检测模型输入该关联网络数据，得到该业务劣化异常检测模型输出的故障信息：“小区232业务劣化”，之后，服务器将“小区232业务劣化”确定为第二故障信息。

步骤207、服务器输出k个上级故障、k组故障信息和预测的所有第二故障信息。

服务器输出k个上级故障、k组故障信息和预测的所有第二故障信息，以便于工作人员根据k个上级故障、k组故障信息和预测的所有第二故障信息进行故障处理。

在本发明实施例中，服务器可以根据上级故障和第一故障信息，预测上级故障可能引起的其余网络故障。本发明实施例提供的这种上级扩散标注选择方式使得工作人员能够根据上级故障、第一故障信息和第二故障信息对网络中的故障和潜在故障进行处理，提高网络的稳定性，保证网络正常运行。

综上所述，本发明实施例提供的网络运维的方法，服务器能够根据m(m≥2)种业务的网络数据确定n(1≤n≤m)个第一故障信息，然后将n个第一故障信息的部分或全部划分为k(1≤k≤n)组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，之后，服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应，进而使得以便于工作人员能够及时处理网络中的故障和潜在故障，通过该方法，能够对多种业务进行综合处理。

在第二种可实现方式中，如图6所示，本发明实施例提供的网络运维的方法可以包括：

步骤601、服务器获取m种业务的网络数据，m≥2。

步骤601可以参考步骤201。

步骤602、服务器根据m种业务的网络数据确定n个第一故障信息。

每个第一故障信息用于指示对应的业务出现网络故障，1≤n≤m。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，相应的，步骤602可以包括：服务器向m个运维模型输入对应业务的网络数据，以得到m个运维模型输出的信息，每个运维模型输出的信息为故障信息或非故障信息，m个运维模型输出的信息包括n个故障信息；服务器将该n个故障信息确定为n个第一故障信息。

步骤602可以参考步骤202。

步骤603、服务器将n个第一故障信息的部分或全部划分为k组故障信息。

每组故障信息中的第一故障信息所指示的网络故障的上级故障相同。任一第一故障信息所指示的网络故障的上级故障为引起该任一第一故障信息所指示的网络故障的故障，1≤k≤n。

步骤603可以参考步骤203。

步骤604、服务器输出k组故障信息以及k个上级故障。

k个上级故障与k组故障信息一一对应。

服务器输出k组故障信息以及k个上级故障，以便于工作人员根据k个上级故障和k组故障信息进行故障处理。进一步的，工作人员还可以根据服务器输出的上级故障和第一故障信息得到网络中的潜在故障，并对潜在故障进行处理。

可选的，服务器可以显示k组故障信息以及k个上级故障。

步骤605、服务器接收第一标注指令，该第一标注指令用于指示k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障。

示例的，服务器显示出k组故障信息以及k个上级故障之后，工作人员可以根据网络的实际故障情况对服务器显示出来的第一故障信息和上级故障进行标注，标注出服务器预测正确的第一故障信息和上级故障。比如，服务器可以发出提示信息，用于提示工作人员采用第一标注符号来标注服务器预测正确的第一故障信息和预测正确的上级故障，并采用第二标注符号来标注服务器预测错误的第一故障信息和预测错误的上级故障，之后，工作人员采用第一标注符号来标注服务器预测正确的第一故障信息和预测正确的上级故障，采用第二标注符号来标注服务器预测错误的第一故障信息和预测错误的上级故障。其中，第一标注符号和第二标注符号不同。示例的，第一标注符号可以为对号“√”，第二标注符号可以为错号“×”。

以图4所示的上级故障和该组故障信息为例，假设工作人员确定出服务器关于基站设备故障，ETH链路连接异常，以及CPU占用率较高的预测是正确的，而关于小区231业务劣化的预测是错误的，那么工作人员可以采用“√”对“基站设备故障”，“ETH链路连接异常”，以及“CPU占用率较高”这3个预测结果进行标注，并采用“×”对“小区231业务劣化”这一预测结果进行标注，标注结果如图7所示。

假设工作人员确定出服务器关于ETH链路连接异常的预测是正确的，关于其他3个预测都是错误的，那么工作人员可以采用“√”对“ETH链路连接异常”这一预测结果进行标注，并采用“×”对其他3个预测结果进行标注，标注结果如图8所示。

步骤606、服务器基于第一标注指令获取第一样本集，该第一样本集包括第一标注指令所指示的信息。

服务器基于步骤605中的第一标注指令获取第一样本集，该第一样本集包括k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障。

示例的，k等于2，第一组故障信息包括3个第一故障信息：x1、x2和x3，这3个第一故障信息所指示的网络故障的上级故障为A11；第二组故障信息包括5个第一故障信息：y1、y2、y3、y4和y5，这5个第一故障信息所指示的网络故障的上级故障为B11。假设第一标注指令用于指示第一组故障信息中的x1和x2，第二组故障信息中的y4和y5，以及上级故障A11的预测是正确的，那么第一样本集包括的信息为：x1、x2、y4、y5和A11。

步骤607、服务器根据第一样本集获取与第一样本集中每个上级故障相关的关联网络数据。

假设步骤605中的第一样本集包括的信息为：x1、x2、y4、y5和A11，服务器可以根据该第一样本集获取与上级故障A11相关的关联网络数据，比如，A11为基站设备故障，那么与A11相关的关联网络数据可以是：小区232的KQI。该基站管理的小区包括小区232。

步骤608、服务器根据关联网络数据预测与每个上级故障相关的第二故障信息，该第二故障信息与第一故障信息不同。

与上级故障相关的第二故障信息所指示的网络故障指的是该上级故障能够引起的网络故障。在本发明实施例中，由于服务器是根据k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障得到第二故障信息，所以第二故障信息的准确度更高。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息，相应的，步骤608可以包括：服务器向关联运维模型输入关联网络数据，以得到该关联运维模型输出的信息，该关联运维模型为m个运维模型中与关联网络数据相对应的运维模型；当该关联运维模型输出的信息为故障信息时，服务器将该关联运维模型输出的信息确定为与每个上级故障相关的第二故障信息。

步骤608可以参考步骤206。

步骤609、服务器输出第一样本集和预测的所有第二故障信息。

第一样本集包括k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障。服务器输出第一样本集和预测的所有第二故障信息，以便于工作人员根据服务器预测正确的第一故障信息、预测正确的上级故障和预测的所有第二故障信息进行故障处理。

在本发明实施例中，通过步骤605至步骤609，服务器可以根据工作人员的标注指令，预测出正确的上级故障可能引起的网络故障，使得工作人员能够根据预测正确的第一故障信息、预测正确的上级故障和预测的所有第二故障信息对网络中的故障和潜在故障进行及时处理。且由于第二故障信息的准确度较高，因此还提高了故障的处理效率。

步骤610、服务器将预测的所有第二故障信息确定为待标注样本集。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息。在本发明实施例中，进一步的，为了对评价指标不满足业务要求的运维模型进行更新，进一步提高故障预测的准确性，服务器可以将步骤608中通过运维模型预测的所有第二故障信息确定为待标注样本集，以便于工作人员对该待标注样本集进行标注，得到预测正确的第二故障信息。

步骤611、服务器接收第二标注指令，该第二标注指令用于指示待标注样本集内预测正确的第二故障信息。

示例的，服务器显示出预测的所有第二故障信息之后，工作人员可以根据网络的实际故障情况对服务器显示出来的第二故障信息进行标注，标注出服务器预测正确的第二故障信息。标注方式可以参考步骤605中的图7和图8。

步骤612、服务器基于第二标注指令获取第二样本集，该第二样本集包括第二标注指令所指示的信息。

服务器基于步骤611中的第二标注指令获取第二样本集，该第二样本集包括待标注样本集内预测正确的第二故障信息。

示例的，步骤608中预测的所有第二故障信息包括z1、z2、z3和z4。假设第二标注指令用于指示z1和z2的预测是正确的，那么第二样本集包括的信息为：z1和z2。

步骤613、服务器将第一样本集和第二样本集确定为目标样本集。

第一样本集包括k组故障信息内预测正确的第一故障信息和k个上级故障内预测正确的上级故障，第二样本集包括待标注样本集内预测正确的第二故障信息，服务器将第一样本集和第二样本集确定为目标样本集，该目标样本集用于对评价指标不满足业务要求的运维模型进行更新。

步骤614、服务器根据目标样本集确定第一运维模型的评价指标，该第一运维模型为m个运维模型中的任一运维模型。

服务器根据预测正确的第一故障信息、预测正确的上级故障和预测正确的第二故障信息确定第一运维模型的评价指标。

可选的，第一运维模型的评价指标可以为第一运维模型的精度。模型的精度为模型预测正确的结果个数与预测的总结果个数的比值，模型的精度越高，该模型的预测效果就越好。

步骤615、当第一运维模型的评价指标不属于指定评价指标范围时，服务器采用目标样本集对第一运维模型进行更新。

当第一运维模型的评价指标为第一运维模型的精度时，对应的指定评价指标范围可以是[f，1]，示例的，f可以等于0.4，服务器可以在第一运维模型的评价指标小于0.4时，采用目标样本集对该第一运维模型进行更新。比如，可以采用机器学习算法中的监督学习算法来训练第一运维模型，模型训练过程可以参考相关技术，在此不再赘述。

可选的，第一运维模型的评价指标也可以为第一运维模型的查准率,模型的查准率越高，该模型的预测效果就越好。第一运维模型的评价指标也可以为错误发现率,模型的错误发现率越小，该模型的预测效果就越好。第一运维模型的评价指标也可以为错误遗漏率等，本发明实施例对第一运维模型的评价指标不做限定，指定评价指标范围可以根据确定的第一运维模型的评价指标来确定。

可选的，m个运维模型中每个运维模型由一对应用单元和模型训练器来管理，应用单元用于根据目标样本集确定第一运维模型的评价指标，并在第一运维模型的评价指标不属于指定评价指标范围时，向模型训练器发送模型更新请求，模型训练器用于根据应用单元发送的模型更新请求采用目标样本集对第一运维模型进行更新。

在本发明实施例中，通过步骤610至步骤615，服务器可以根据工作人员的标注指令，得到预测正确的第二故障信息，进而根据预测正确的第一故障信息、预测正确的上级故障和预测正确的第二故障信息对评价指标不满足业务要求的运维模型进行更新，提高故障预测的准确性，进而提高故障的处理效率。

本发明实施例借助工作人员的运维经验对网络中的故障和潜在故障进行有效预测，在本发明实施例中，服务器能够对运维模型进行及时更新，实现了及时预测和准确预测的目的，降低了人力成本，提高了故障的处理效率。通过本发明实施例提供的主动预防被动处理的网络运维的方法，工作人员能够快速获知网络的运行状态，及时对网络中的故障和潜在故障进行处理，提高了网络的稳定性，保证了网络正常运行。

综上所述，本发明实施例提供的网络运维的方法，服务器能够根据m(m≥2)种业务的网络数据确定n(1≤n≤m)个第一故障信息，然后将n个第一故障信息的部分或全部划分为k(1≤k≤n)组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，之后，服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应，进而使得工作人员能够及时处理网络中的故障和潜在故障，通过该方法，能够对多种业务进行综合处理，还能够对评价指标不满足业务要求的运维模型进行自动更新，提高了故障预测的准确性，提高了故障的处理效率。

需要说明的是，本发明实施例提供的网络运维的方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本发明实施例提供了一种网络运维的装置，该网络运维的装置可以用于图1所示的服务器，如图9所示，该网络运维的装置900，包括：

第一获取模块910，用于执行上述实施例中的步骤201或步骤601。

第一确定模块920，用于执行上述实施例中的步骤202或步骤602。

划分模块930，用于执行上述实施例中的步骤203或步骤603。

第一输出模块940，用于执行上述实施例中的步骤204或步骤604。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，第一确定模块920，用于执行上述实施例中的步骤2021或步骤2022。

进一步的，如图10所示，该网络运维的装置900还可以包括：

第二获取模块950，用于执行上述实施例中的步骤205。

第一预测模块960，用于执行上述实施例中的步骤206。

第二输出模块970，用于执行上述实施例中的步骤207。

图10中其他标记含义可以参考图9。

进一步的，如图11所示，该网络运维的装置900还可以包括：

第一接收模块980，用于执行上述实施例中的步骤605。

第三获取模块990，用于执行上述实施例中的步骤606。

第四获取模块991，用于执行上述实施例中的步骤607。

第二预测模块992，用于执行上述实施例中的步骤608。

第三输出模块993，用于执行上述实施例中的步骤609。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息。进一步的，如图11所示，该网络运维的装置900还可以包括：

第二确定模块994，用于执行上述实施例中的步骤610。

第二接收模块995，用于执行上述实施例中的步骤611。

第五获取模块996，用于执行上述实施例中的步骤612。

第三确定模块997，用于执行上述实施例中的步骤613。

第四确定模块998，用于执行上述实施例中的步骤614。

更新模块999，用于执行上述实施例中的步骤615。

图11中其他标记含义可以参考图9。

可选的，m种业务的网络数据与m个运维模型一一对应，m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息，图10中的第一预测模块960或图11中的第二预测模块992，用于执行上述实施例中的步骤2061和步骤2062，包括：

向关联运维模型输入关联网络数据，以得到关联运维模型输出的信息，该关联运维模型为m个运维模型中与关联网络数据相对应的运维模型；

当该关联运维模型输出的信息为故障信息时，将该关联运维模型输出的信息确定为与每个上级故障相关的第二故障信息。

综上所述，本发明实施例提供的网络运维的装置，服务器能够根据m(m≥2)种业务的网络数据确定n(1≤n≤m)个第一故障信息，然后将n个第一故障信息的部分或全部划分为k(1≤k≤n)组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，之后，服务器输出k组故障信息以及k个上级故障，k个上级故障与k组故障信息一一对应，进而使得工作人员能够及时处理网络中的故障和潜在故障，通过该装置，能够对多种业务进行综合处理，还能够对评价指标不满足业务要求的运维模型进行更新，提高了故障预测的准确性，提高了故障的处理效率。

图12是本发明实施例提供的一种网络运维的装置的结构示意图，该装置可以用于图1所示的服务器。如图12所示，该装置包括处理器1201(如CPU)、存储器1202、网络接口1203和总线1204。其中，总线1204用于连接处理器1201、存储器1202和网络接口1203。存储器1202可能包含随机存取存储器(Random Access Memory，RAM)，也可能包含非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过网络接口1203(可以是有线或者无线)实现服务器与通信设备之间的通信连接。存储器1202中存储有程序12021，该程序12021用于实现各种应用功能，处理器1201用于执行存储器1202中存储的程序12021来实现图2或图6所示的网络运维的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质，或者半导体介质(例如固态硬盘)等。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种网络运维的方法，其特征在于，所述方法包括：

获取m种业务的网络数据，m≥2；

根据所述m种业务的网络数据确定n个第一故障信息，每个所述第一故障信息用于指示对应的业务出现网络故障，1≤n≤m；

将所述n个第一故障信息的部分或全部划分为k组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，任一第一故障信息所指示的网络故障的上级故障为引起所述任一第一故障信息所指示的网络故障的故障，1≤k≤n；

输出所述k组故障信息以及k个上级故障，所述k个上级故障与所述k组故障信息一一对应。

2.根据权利要求1所述的方法，其特征在于，在所述输出所述k组故障信息以及k个上级故障之后，所述方法还包括：

根据所述k个上级故障和每个上级故障对应的第一故障信息，获取与所述每个上级故障相关的关联网络数据；

根据所述关联网络数据预测与所述每个上级故障相关的第二故障信息，所述第二故障信息与所述第一故障信息不同；

输出所述k个上级故障、所述k组故障信息和预测的所有第二故障信息。

3.根据权利要求1所述的方法，其特征在于，在所述输出所述k组故障信息以及k个上级故障之后，所述方法还包括：

接收第一标注指令，所述第一标注指令用于指示所述k组故障信息内预测正确的第一故障信息和所述k个上级故障内预测正确的上级故障；

基于所述第一标注指令获取第一样本集，所述第一样本集包括所述第一标注指令所指示的信息；

根据所述第一样本集获取与所述第一样本集中每个上级故障相关的关联网络数据；

输出所述第一样本集和预测的所有第二故障信息。

4.根据权利要求3所述的方法，其特征在于，所述m种业务的网络数据与m个运维模型一一对应，所述m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息；

在所述输出所述第一样本集和预测的第二故障信息之后，所述方法还包括：

将预测的所有第二故障信息确定为待标注样本集；

接收第二标注指令，所述第二标注指令用于指示所述待标注样本集内预测正确的第二故障信息；

基于所述第二标注指令获取第二样本集，所述第二样本集包括所述第二标注指令所指示的信息；

将所述第一样本集和所述第二样本集确定为目标样本集；

根据所述目标样本集确定第一运维模型的评价指标，所述第一运维模型为所述m个运维模型中的任一运维模型；

当所述第一运维模型的评价指标不属于指定评价指标范围时，采用所述目标样本集对所述第一运维模型进行更新。

5.根据权利要求2或3所述的方法，其特征在于，所述m种业务的网络数据与m个运维模型一一对应，所述m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息；

所述根据所述关联网络数据预测与所述每个上级故障相关的第二故障信息，包括：

向关联运维模型输入所述关联网络数据，以得到所述关联运维模型输出的信息，所述关联运维模型为所述m个运维模型中与所述关联网络数据相对应的运维模型；

当所述关联运维模型输出的信息为故障信息时，将所述关联运维模型输出的信息确定为与所述每个上级故障相关的第二故障信息。

6.根据权利要求1所述的方法，其特征在于，所述m种业务的网络数据与m个运维模型一一对应，所述m个运维模型互不相同；

所述根据所述m种业务的网络数据确定n个第一故障信息，包括：

向所述m个运维模型输入对应业务的网络数据，以得到所述m个运维模型输出的信息，每个所述运维模型输出的信息为故障信息或非故障信息，所述m个运维模型输出的信息包括n个故障信息；

将所述n个故障信息确定为所述n个第一故障信息。

7.一种网络运维的装置，其特征在于，所述装置包括：

第一获取模块，用于获取m种业务的网络数据，m≥2；

第一确定模块，用于根据所述m种业务的网络数据确定n个第一故障信息，每个所述第一故障信息用于指示对应的业务出现网络故障，1≤n≤m；

划分模块，用于将所述n个第一故障信息的部分或全部划分为k组故障信息，每组故障信息中的第一故障信息所指示的网络故障的上级故障相同，任一第一故障信息所指示的网络故障的上级故障为引起所述任一第一故障信息所指示的网络故障的故障，1≤k≤n；

第一输出模块，用于输出所述k组故障信息以及k个上级故障，所述k个上级故障与所述k组故障信息一一对应。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于根据所述k个上级故障和每个上级故障对应的第一故障信息，获取与所述每个上级故障相关的关联网络数据；

第一预测模块，用于根据所述关联网络数据预测与所述每个上级故障相关的第二故障信息，所述第二故障信息与所述第一故障信息不同；

第二输出模块，用于输出所述k个上级故障、所述k组故障信息和预测的所有第二故障信息。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第一接收模块，用于接收第一标注指令，所述第一标注指令用于指示所述k组故障信息内预测正确的第一故障信息和所述k个上级故障内预测正确的上级故障；

第三获取模块，用于基于所述第一标注指令获取第一样本集，所述第一样本集包括所述第一标注指令所指示的信息；

第四获取模块，用于根据所述第一样本集获取与所述第一样本集中每个上级故障相关的关联网络数据；

第二预测模块，用于根据所述关联网络数据预测与所述每个上级故障相关的第二故障信息，所述第二故障信息与所述第一故障信息不同；

第三输出模块，用于输出所述第一样本集和预测的所有第二故障信息。

10.根据权利要求9所述的装置，其特征在于，所述m种业务的网络数据与m个运维模型一一对应，所述m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息，

所述装置还包括：

第二确定模块，用于将预测的所有第二故障信息确定为待标注样本集；

第二接收模块，用于接收第二标注指令，所述第二标注指令用于指示所述待标注样本集内预测正确的第二故障信息；

第五获取模块，用于基于所述第二标注指令获取第二样本集，所述第二样本集包括所述第二标注指令所指示的信息；

第三确定模块，用于将所述第一样本集和所述第二样本集确定为目标样本集；

第四确定模块，用于根据所述目标样本集确定第一运维模型的评价指标，所述第一运维模型为所述m个运维模型中的任一运维模型；

更新模块，用于当所述第一运维模型的评价指标不属于指定评价指标范围时，采用所述目标样本集对所述第一运维模型进行更新。

11.根据权利要求8或9所述的装置，其特征在于，所述m种业务的网络数据与m个运维模型一一对应，所述m个运维模型互不相同，每个运维模型用于对对应业务的网络数据进行预测，输出故障信息或非故障信息，

所述第一预测模块或所述第二预测模块，用于：

12.根据权利要求7所述的装置，其特征在于，所述m种业务的网络数据与m个运维模型一一对应，所述m个运维模型互不相同，

所述第一确定模块，用于：

将所述n个故障信息确定为所述n个第一故障信息。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得计算机执行权利要求1至6任一所述的网络运维的方法。

14.一种网络运维的装置，其特征在于，所述装置包括：处理器、存储器、网络接口和总线，

所述总线用于连接所述处理器、所述存储器和所述网络接口，所述处理器用于执行所述存储器中存储的程序来实现权利要求1至6任一所述的网络运维的方法。