CN113179172A - 故障检测模型的训练方法、装置及系统 - Google Patents

故障检测模型的训练方法、装置及系统 Download PDF

Info

Publication number
CN113179172A
CN113179172A CN202010077206.XA CN202010077206A CN113179172A CN 113179172 A CN113179172 A CN 113179172A CN 202010077206 A CN202010077206 A CN 202010077206A CN 113179172 A CN113179172 A CN 113179172A
Authority
CN
China
Prior art keywords
service
state
service flow
network object
kpi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010077206.XA
Other languages
English (en)
Other versions
CN113179172B (zh
Inventor
薛莉
张亮
程剑
叶浩楠
司晓云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010077206.XA priority Critical patent/CN113179172B/zh
Priority to PCT/CN2020/119031 priority patent/WO2021147370A1/zh
Priority to EP20915373.3A priority patent/EP4084410A4/en
Publication of CN113179172A publication Critical patent/CN113179172A/zh
Priority to US17/871,498 priority patent/US20220368606A1/en
Application granted granted Critical
Publication of CN113179172B publication Critical patent/CN113179172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0895Configuration of virtualised networks or elements, e.g. virtualised network function or OpenFlow elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种故障检测模型的训练方法、装置及系统,属于通信领域。所述方法包括:转发设备接收至少一个业务流;所述转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。本申请能够减小对网络资源的消耗。

Description

故障检测模型的训练方法、装置及系统
技术领域
本申请涉及通信领域,特别涉及一种故障检测模型的训练方法、装置及系统。
背景技术
数据通信网络或数据中心网络包括大量的终端或服务器等网络对象,网络对象连接到接入设备,接入设备再通过转发设备连接到广域网,这样网络对象可以通过该接入设备、该转发设备和广域网来传输业务流。
其中,网络对象出现故障时,可能导致业务中断,造成严重损失,因此需要对网络对象的健康度进行检测,基于检测的结果可以及时发现网络对象出现的故障,然后采取相应措施对该网络对象进行处理。目前可以部署一个分析平台,首先在分析平台上训练出一个故障检测模型,分析平台通过该故障检测模型对任一网络对象的健康度进行检测。
在训练故障检测模型时,对于任一网络对象的业务流,数据通信网络或数据中心网络中的接入设备或转发设备在接收到该业务流时,对该业务流进行镜像,向分析平台发送镜像得到的该业务流。分析平台可以接收各网络对象的业务流,根据各网络对象的业务流训练出故障检测模型。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:
由于故障检测模型是基于网络对象的业务流训练得到的,所以要求接入设备或转发设备对业务流进行镜像,然后将镜像得到的该业务流发送至分析平台,这样会消耗大量的网络资源。
发明内容
本申请提供了一种故障检测模型的训练方法、装置及系统,以减小对网络资源的消耗。
所述技术方案如下:
第一方面,本申请提供了一种故障检测模型的训练方法,在所述方法中:转发设备接收至少一个业务流。转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备。所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。
由于转发设备获取的训练信息包括网络对象的标识信息和M个KPI,或基于网络对象的M个KPI获取的特征集合,所以训练信息的数据量远小于业务流,向第一设备发送业务信息所需要的网络资源远小于发送业务流所需要的网络资源,从而可以减少对网络资源的消耗。
在一种可能的实现方式,所述转发设备根据配置策略信息,从所述业务流中获取至少一个目标业务报文,所述配置策略信息包括至少一个预设报文类型。所述转发设备根据所述至少一个目标业务报文,获取所述业务流的M个KPI。由于从业务流中的获取目标业务报文,根据目标业务报文获取业务流的M个KPI,这样可以减少需要分析的报文数目,提高获取KPI的效率。
在另一种可能的实现方式,所述M个KPI包括所述转发设备与所述网络对象之间的网络时延,所述网络对象发送的属于所述业务流的数据量和所述网络对象接收的属于所述业务流的数据量中的至少一个。所述至少一个目标业务报文包括第一目标业务报文和第二目标业务报文,所述转发设备根据接收所述第一目标业务报文的第一时间和接收所述第二目标业务报文的第二时间,获取所述转发设备与所述网络对象之间的网络时延,所述第一目标业务报文是发送给所述网络对象的报文,所述第二目标业务报文是所述网络对象发送的与所述第一目标业务报文相对应的报文。和/或,所述至少一个目标业务报文包括第一起始报文和第一结束报文,所述转发设备根据所述第一起始报文的序列号和所述第一结束报文的序列号,获取所述网络对象发送的属于所述业务流的数据量,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。和/或,所述至少一个目标业务报文包括第二起始报文和第二结束报文,所述转发设备根据所述第二起始报文的序列号和所述第二结束报文的序列号,获取所述网络对象接收的属于所述业务流的数据量,所述第二起始报文是所述网络对象接收的所述业务流的第一个报文,所述第二结束报文是所述网络对象接收的所述业务流的最后一个报文。如此可以准确地获取到网络时延,网络对象发送的数据量或接收的数据量。
在另一种可能的实现方式,所述M个KPI包括状态标识,所述状态标识用于标识所述业务流的状态。所述至少一个目标业务报文包括第一起始报文,所述转发设备在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置所述状态标识标识的状态为成功状态;如果未接收到所述第一结束报文,设置所述状态标识标识的状态为失败状态,所述第三时间为接收所述第一起始报文的时间,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。如此可以准确地获取到业务流的状态标识,提高获取状态标识的准确性。
在另一种可能的实现方式,所述转发设备从所述至少一个业务流中获取第一周期内的属于目标网络对象的N个业务流的KPI,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象,N为大于0的整数。所述转发设备基于所述N个业务流的KPI获取特征集合。由于特征集合包括基于属于目标网络对象的每个业务流的KPI获取的特征,这样该特征集合更能反应网络状态的健康状态,根据该特征集合训练的故障检测模型更加精确。
在另一种可能的实现方式,所述特征集合包括至少一个统计特征。所述转发设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同。所述转发设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。由于将统计出不同的统计特征组成特征集合,从而丰富了特征集合包括的特征,使得特征集合更能反应网络对象的健康状况。
在另一种可能的实现方式,所述特征集合还包括至少一个时域特征。所述转发设备通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征。其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。由于时域特征是基于K个周期的统计特征得到的,且特征集合还包括该时域特征,使得特征集合包括具有时序性的特征。
在另一种可能的实现方式,所述任一个KPI集合包括的所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例。根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。由于特征集合还包括状态标识,从而更加丰富了特征集合中的特征。
在另一种可能的实现方式,所述第一设备为云平台、分析器平台或所述转发设备的上游设备。
在另一种可能的实现方式,所述网络对象是终端、服务器、客户端、虚拟机、路由器、交换机、虚拟局域网VLAN中的设备或指定网段中的设备。
在另一种可能的实现方式,所述M个KPI用于描述所述业务流的特征。
第二方面,本申请提供了一种故障检测模型的训练方法,在所述方法中:第一设备接收第一转发设备发送的至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备。所述第一设备根据所述至少一个业务流的业务信息训练故障检测模型,或者,根据所述至少一个业务流的业务信息获取用于训练故障检测模型的至少一个故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。由于转发设备发送的业务信息包括网络对象的标识信息和KPI,使得业务信息的数据量远小于业务流的数据量,从而减少第一设备接收业务信息所消耗的网络资源。
在一种可能的实现方式,所述第一设备获取至少一个特征集合,任一个特征集合包括基于属于目标网络对象的每个业务流的KPI获取的至少一个特征,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象。所述第一设备根据所述至少一个特征集合训练故障检测模型。由于特征集合包括基于属于目标网络对象的每个业务流的KPI获取的特征,这样该特征集合更能反应网络状态的健康状态,根据该特征集合训练的故障检测模型更加精确。
在另一种可能的实现方式中,所述第一设备获取第一周期内的属于所述目标网络对象的N个业务流的KPI,所述第一周期位于所述第一时间段内,N为大于0的整数。所述第一设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同。所述第一设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。由于统计出不同的统计特征组成特征集合,从而丰富了特征集合包括的特征,使得特征集合更能反应网络对象的健康状况。
在另一种可能的实现方式中,所述任一个特征集合还包括至少一个时域特征。过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征。其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。由于时域特征是基于K个周期的统计特征得到的,且特征集合还包括该时域特征,使得特征集合包括具有时序性的特征。
在另一种可能的实现方式中,所述任一个KPI集合包括所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述任一个特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例。根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。由于特征集合还包括状态标识,从而更加丰富了特征集合中的特征。
在另一种可能的实现方式中,生成训练样本,所述训练样本包括所述任一个特征集合和所述训练样本的标签,在所述目标网络对象处于故障状态的情况下,所述标签用于标识所述故障状态,在所述目标网络对象处于正常状态的情况下,所述标签用于标识所述正常状态。由于设置了训练样本的标签,这样可以采用监督方式训练故障检测模型。
在另一种可能的实现方式中,所述第一设备向训练设备发送所述至少一个特征集合,所述至少一个特征集合用于所述训练设备训练故障检测模型。所述第一设备接收所述训练设备发送的所述故障检测模型。这样可以采用一个性能较高的训练设备做故障检测模型的训练,提高训练的效率。
在另一种可能的实现方式中,所述业务流的M个KPI包括所述网络对象与所述转发设备之间的网络时延,所述网络对象发送的属于所述业务流的数据量,所述网络对象接收的属于所述业务流的数据量,或,所述业务流的状态标识中的至少一个,所述状态标识信息用于标识所述业务流的状态。
在另一种可能的实现方式中,所述第一设备是云平台、分析器平台或是所述转发设备的上游设备。
在另一种可能的实现方式中,所述网络对象是终端、服务器、客户端、虚拟机、路由器、交换机、虚拟局域网VLAN中的设备或指定网段中的设备。
在另一种可能的实现方式中,所述M个KPI用于描述所述业务流的特征。
第三方面,本申请提供了一种故障检测模型的训练装置,用于执行第一方面或第一方面的任意一种可能实现方式中的方法。具体地,所述装置包括用于执行第一方面或第一方面的任意一种可能实现方式的方法的单元。
第四方面,本申请提供了一种故障检测模型的训练装置,用于执行第二方面或第二方面的任意一种可能实现方式中的方法。具体地,所述装置包括用于执行第二方面或第二方面的任意一种可能实现方式的方法的单元。
第五方面,本申请提供了一种故障检测模型的训练装置,所述装置包括:处理器、存储器和收发器。其中,所述处理器、所述存储器和所述收发器之间可以通过总线系统相连。所述存储器用于存储一个或多个程序,所述处理器用于执行所述存储器中的一个或多个程序,使得所述迁移装置完成第一方面或第一方面的任意可能实现方式中的方法。
第六方面,本申请提供了一种故障检测模型的训练装置,所述装置包括:处理器、存储器和收发器。其中,所述处理器、所述存储器和所述收发器之间可以通过总线系统相连。所述存储器用于存储一个或多个程序,所述处理器用于执行所述存储器中的一个或多个程序,使得所述迁移装置完成第二方面或第二方面的任意可能实现方式中的方法。
第七方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,当其在计算机上运行时,使得计算机执行上述第一方面、第二方面、第一方面的任意可能实现方式或第二方面的任意可能实现方式中的方法。
第八方面,本申请提供了一种包含程序代码的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面、第二方面、第一方面的任意可能实现方式或第二方面的任意可能实现方式中的方法。
第九方面,本申请提供了一种故障检测模型的训练系统,所述系统包括第三方面所述的装置和第四方面所述的装置;或者,所述系统包括第五方面所述的装置和第六方面所述的装置。
附图说明
图1是本申请实施例提供的一种网络架构的示意图;
图2是本申请实施例提供的一种数据通信网络的结构示意图;
图3是本申请实施例提供的一种数据中心网络的结构示意图;
图4是本申请实施例提供的一种故障检测模型的训练方法流程图;
图5是本申请实施例提供的一种传输业务流的流程图;
图6是本申请实施例提供的一种故障检测方法流程图;
图7是本申请实施例提供的另一种故障检测模型的训练方法流程图;
图8是本申请实施例提供的另一种故障检测方法流程图;
图9是本申请实施例提供的一种故障检测模型的训练装置结构示意图;
图10是本申请实施例提供的另一种故障检测模型的训练装置结构示意图;
图11是本申请实施例提供的另一种故障检测模型的训练装置结构示意图;
图12是本申请实施例提供的另一种故障检测模型的训练装置结构示意图;
图13是本申请实施例提供的一种故障检测模型的训练系统结构示意图。
具体实施方式
下面将结合附图对本申请实施方式作进一步地详细描述。
参见图1,本申请实施例提供了网络架构,该网络架构包括:
网络对象、转发设备和第一设备,转发设备与网络对象之间建立有网络连接,转发设备与第一设备之间也建立有网络连接。
其中,对于属于网络对象的业务流,用于传输该业务流的业务路径经过转发设备。也就是说,网络对象与转发设备之间的网络连接是该业务路径的一部分。对于属于该网络对象的业务流包括的任一个业务报文,该任一个业务报文可能是该网络对象发送的,网络对象在发送该任一个业务报文后,会被转发设备接收到,再由转发设备向其上游设备转发该任一个业务报文。或者,该任一个业务报文可能是需要发送给该网络对象的,转发设备会先接收到该任一个业务报文,再向该网络对象转发该任一个业务报文。
可选的,该网络架构还可以包括训练设备,第一设备与训练设备之间可以建立有网络连接。
可选的,网络对象可以为终端、服务器、路由器、交换机、客户端、虚拟机、虚拟局域网(virtual local area network,VLAN)中的设备或指定网段中的设备等。其中,网段是一地址范围,包括多个设备的地址。
可选的,在网络对象为终端、服务器、路由器、交换机、客户端或虚拟机等的情况下,网络对象的标识信息为网络对象的地址。在网络对象为VLAN或网段的情况下,网络对象的标识信息为VLAN的标识信息或网段的标识信息。
可选的,第一设备为转发设备的上游设备,或者,第一设备为云平台或分析器平台。在第一设备为转发设备的上游设备的情况下,用于传输该业务流的业务路径可以经过该第一设备,也就是说:转发设备与第一设备之间的网络连接也是该业务路径的一部分,第一设备可以用于转发该网络对象的业务流包括的报文。
可选的,该网络架构还包括网管设备,网管设备可以与该网络架构中的各网络对象之间建立有网络连接,与该网络架构中的第一设备之间建立有网络连接。
可选的,上述网络架构可以应用于数据通信网络,参见图2所示的数据通信网络,该数据通信网络包括至少一个终端、至少一个光网络终端(optical network terminal,ONT)、至少一个光网络终端(optical network terminal,OLT)、宽带接入服务器(broadband remote access server,BRAS)、核心路由器(core router,CR)。针对任一个终端,该任一个终端接入到一个ONT。针对任一个ONT,该任一个ONT与一个OLT相连。该至少一个OLT中的每个OLT还与BRAS相连,BRAS还与CR相连,CR可以连接到广域网。
可选的,在数据通信网络中还可设置云平台或分析器平台,该云平台或该分析器平台与数据通信网络中的各ONT之间建立有网络连接,和/或,云平台或该分析器平台与数据通信网络中的各OLT之间建立有网络连接,和/或,云平台或该分析器平台与数据通信网络中的BRAS之间建立有网络连接。或者,在数据通信网络中还可设置分析器平台,该分析器平台与数据通信网络中的各ONT之间建立有网络连接,和/或,该分析器平台与数据通信网络中的各OLT之间建立有网络连接,和/或,云平台或该分析器平台与数据通信网络中的BRAS之间建立有网络连接。
在数据通信网络中,转发设备可以为ONT、OLT或BRAS等。网络对象可以为终端。第一设备可以为转发设备的上游设备,例如转发设备为ONT或OLT,第一设备可以为BRAS。或者,第一设备可以为与转发设备之间建立有网络连接的云平台或分析器平台。
可选的,上述网络架构可以应用于数据中心网络,参见图3所示的数据中心网络,该数据中心网络包括至少一个服务器、至少一个叶子(Leaf)、至少一个骨干交换机(Spine)和网关(gateway,GW)。针对任一个服务器,该任一个服务器接入到一个Leaf。针对任一个Leaf,该任一个Leaf与至少一个Spine相连。该至少一个Spine中的每个Spine还与GW相连,GW还可以连接到广域网。
可选的,在数据中心网络中还可设置云平台,该云平台与数据中心网络中的各Leaf之间建立有网络连接。或者,在数据中心网络中还可设置分析器平台,该分析器平台与数据中心网络中的各Leaf之间建立有网络连接。
在数据中心网络中,转发设备可以为Leaf、Spine或GW等。网络对象可以为服务器。第一设备可以为转发设备的上游设备,例如转发设备为Leaf,第一设备可以为Spine。或者,第一设备可以为与各转发设备之间存在网络连接的云平台或分析器平台。
本申请实施例提供的网络架构包括的网络对象可能会出现故障,当网络对象出现故障时,可能会出现业务中断,造成严重损失,因此需要及时检测出出现故障的网络对象。为此,第一设备可以训练出故障检测模型,或者通过训练设备训练出故障检测模型,该故障检测模型用于检测网络对象是否处于故障状态,这样第一设备可以通过该故障检测模型及时检测出出现故障的网络对象。
为了能够训练出故障检测模型,网管设备可以配置网络架构中的部分网络对象在第一时间段内处于某种故障状态。对于该网络架构中的转发设备,转发设备在接收到网络对象的业务流时,获取该业务流的业务信息,该业务信息包括网络对象的标识信息和M个关键性能指标(key performance indicator,KPI),M为大于0的整数,向第一设备发送训练信息,该训练信息包括该业务流的业务信息或基于该业务信息获取的特征集合。第一设备接收该网络架构包括的转发设备发送的训练信息,根据接收的训练信息,训练智能模型,得到故障检测模型,该故障检测模型可用于检测网络架构中的网络对象是否处于该故障状态。
其中,转发设备获取检测信息的详细获取过程,以及第一设备训练故障检测模型的详细训练过程,将在后续图4或图7所示的实施例进行详细说明,在此先不介绍。
可选的,故障状态可以为时延故障状态或建链故障状态等。
在第一设备训练出故障检测模型后,转发设备在接收到网络对象的业务流时,获取该业务流的业务信息,向第一设备发送检测信息,该检测信息包括该业务流的业务信息或基于该业务信息获取的特征集合。第一设备接收该网络架构包括的转发设备发送的检测信息,根据接收的检测信息,通过故障检测模型检测该网络架构中处于该故障状态的网络对象。
其中,在检测网络对象是否处于该故障状态的阶段内,转发设备获取检测信息的详细获取过程,以及第一设备检测网络对象的详细检测过程,将在后续图6或图8所示的实施例进行详细说明,在此先不介绍。
参见图4,本申请实施例提供了一种故障检测模型的训练方法,该训练方法可以应用于图1至3所示的任一实施例提供的网络架构。在该方法中,转发设备获取业务流的业务信息,向第一设备发送业务流的业务信息,第一设备接收该业务信息并训练故障检测模型。该方法包括:
步骤101:转发设备接收业务流。
转发设备是用于传输该业务流的业务路径经过的设备,所以转发设备会接收到属于该业务流的任一个业务报文。在转发设备接收到业务流包括的业务报文时,转发设备就可继续执行如下步骤102的操作。
需要说明的是:在执行本申请实施例之前,网管设备还可以向该网络架构中的部分网络对象和第一设备发送故障配置信息,故障配置信息包括第一时间段的起始时间和一种故障状态。以及,网管设备向转发设备发送配置策略信息,配置策略信息包括至少一个预设报文类型和协议类型等中的至少一个。
可选的,该故障配置信息还包括第一时间段的结束时间。该配置策略信息还包括该故障状态。
第一时间段是训练故障检测模型的时间,即在第一时间段内通过本申请实施例提供的训练方法训练出故障检测模型。
网管设备还向第一设备发送对象集合,该对象集合包括在第一时间段内处于故障状态的各网络对象的标识信息。
对于接收到故障配置信息的网络对象,在该故障配置信息包括第一时间段的起始时间和故障状态的情况下,网络对象根据第一时间段的起始时间和时长阈值,确定第一时间段。在该故障配置信息还包括第一时间段的结束时间的情况下,网络对象根据第一时间段的起始时间和结束时间,确定第一时间段。然后该网络对象在第一时间段工作在该故障状态。
对于第一设备,在该故障配置信息包括第一时间段的起始时间和故障状态的情况下,第一设备根据第一时间段的起始时间和时长阈值,确定第一时间段。在该故障配置信息还包括第一时间段的结束时间的情况下,第一设备根据第一时间段的起始时间和结束时间,确定第一时间段。然后第一设备在第一时间段内开始执行训练故障检测模型的流程。
第一设备在接收对象集合时,还保存接收的该对象集合。
对于配置策略信息,在配置策略信息包括的协议类型为传输控制协议(transmission control protocol,TCP)的情况下,该配置策略信息包括至少一个预设报文类型。至少一个预设报文类型可以包括同步(synchronous,SYN)报文、同步确认(synchronous acknowledgement,SYN ACK)报文、结束(finish,FIN)报文或重置(reset,RST)报文等中的至少一个。在配置策略信息包括的协议类型为用户数据报协议(userdatagram protocol,UDP)的情况下,该配置策略信息可以不包括预设报文类型。
可选的,技术人员在网管设备中输入第一时间段的起始时间和故障状态。网管设备接收第一时间段的起始时间和故障状态。技术人员还可向网管设备输入第一时间段的结束时间,网管设备还可接收第一时间段的结束时间。网管设备基于接收的信息生成故障配置信息。
可选的,技术人员在网管设备中输入网络架构中的部分网络对象的标识信息,然后网管设备根据该部分网络对象的标识信息,向该部分网络对象发送故障配置信息。
可选的,转发设备可以图2所示的数据通信网络中的ONT或OLT,或者,为图3所示的数据中心网络中的Leaf等接入设备。第一设备为云平台、分析器平台、数据通信网络中的BRAS、数据中心网络中的Spine或其他第三方设备等。或者,
可选的,转发设备可以图2所示的数据通信网络中的BRAS,或者,为图3所示的数据中心网络中的Spine或GW等设备。第一设备为云平台、分析器平台或其他第三方设备等。
步骤102:转发设备根据配置策略信息,从该业务流中获取至少一个目标业务报文。
在本步骤中,在该配置策略信息包括的协议类型为TCP的情况下,当转发设备接收到一个业务报文时,转发设备检测该业务报文包括的协议类型是否为TCP,以及该业务报文的报文类型是否是该配置策略信息包括的某个预设报文类型,如果该协议类型是TCP且该报文类型是某个预设报文类型,则将该业务报文作为一个目标业务报文并保存该目标业务报文。
参见图5,终端与服务器如果采用TCP协议来传输业务流时,终端首先向服务器发送SYN报文,该SYN报文用于请求建立终端与服务器之间的TCP连接,该TCP连接是用于传输终端与服务器之间的业务流的业务路径。服务器接收该SYN报文后,向终端发送SYN ACK报文,终端接收该SYN ACK报文,此时终端与服务器之间的TCP连接建立完成。然后终端与服务器之间使用该TCP连接来传输业务报文。在终端发送完或接收完业务流时,终端向服务器发送FIN报文。服务器接收该FIN报文,向终端发送FIN报文或RST报文,终端接收该FIN报文或RST报文,断开与服务器之间的TCP连接。
基于上述终端与服务器传输业务流的过程,可以得出:终端向服务器发送业务流的第一个业务报文为SYN报文,该SYN报文也是用于建立业务路径的起始报文。服务器向终端发送业务流的第一个业务报文为SYN ACK报文,该SYN ACK报文也是用于建立业务路径的结束报文。终端向服务器发送业务流的最后一个业务报文是FIN报文,服务器向终端发送业务流的最后一个业务报文是FIN报文或RST报文。
在该配置策略信息包括的协议类型为TCP的情况下,在本步骤中转发设备从业务流中获取目标业务报文包括SYN报文、SYN ACK报文、FIN报文或RST报文等中的至少一个。
在该配置策略信息包括的协议类型为UDP的情况下,当转发设备接收到一个业务报文时,转发设备检测该业务报文包括的协议类型是否为UDP,如果该协议类型是UDP,则将该业务报文作为一个目标业务报文并保存该目标业务报文。
步骤103:转发设备根据该至少一个目标业务报文,获取该业务流的业务信息,该业务信息包括该业务流属于的至少一个网络对象的标识信息和该业务流的M个KPI,该M个KPI用于描述该业务流的特征。
网络对象的标识信息可以为网络对象的地址等。该地址可以为IP地址或MAC地址等。
在该配置策略信息包括的协议类型为TCP的情况下,该M个KPI包括转发设备与网络对象之间的网络时延,网络对象发送的属于该业务流的数据量、网络对象接收的属于该业务流的数据量或状态标识等中的至少一个,该状态标识用于标识业务流的状态。该网络对象可以为终端或服务器等。
在该配置策略信息包括的协议类型为UDP的情况下,该M个KPI包括网络对象发送的属于该业务流的数据量或网络对象接收的属于该业务流的数据量等中的至少一个。
在本步骤中,转发设备从该至少一个目标业务报文中获取属于同一业务流的目标业务报文,根据属于该业务流的目标业务报文,获取该业务流的M个KPI。
每个目标业务报文中包括五元组信息,该五元组信息用于标识该业务报文属于的业务流。该五元组信息可以包括源设备的地址、目的设备的地址、源设备的端口号、目的设备的端口号和协议类型。
可选的,转发设备从该至少一个目标业务报文中获取包括相同的五元组信息的目标业务报文,作为属于同一业务流的目标业务报文。
对于属于同一业务流的目标业务报文的协议类型为TCP的情况下,接下来,一一说明转发设备获取各KPI的过程,详细说明如下:
对于转发设备与网络对象之间的网络时延,该网络对象可以为服务器或终端,转发设备在获取的目标业务报文包括第一目标业务报文和第二目标业务报文的情况下,转发设备根据接收第一目标业务报文的第一时间和接收第二目标业务报文的第二时间,获取转发设备与网络对象之间的网络时延,第一目标业务报文是发送给网络对象的报文,第二目标业务报文是网络对象发送的与第一目标业务报文对应的报文。
可选的,第一目标业务报文是用于建立业务路径的起始报文,第二目标业务报文是用于建立业务路径的结束报文。
可选的,将第二时间减去第一时间,得到转发设备与网络对象之间的网络时延。
可选的,第一目标业务报文可以为终端发送的SYN报文,第二目标业务报文可以为服务器发送的SYN ACK报文。
对于网络对象发送的属于该业务流的数据量,该网络对象可以为服务器或终端,转发设备在获取的目标业务报文包括第一起始报文和第一结束报文的情况下,转发设备根据第一起始报文的序列号和第一结束报文的序列号,获取网络对象发送的属于业务流的数据量,第一起始报文是网络对象发送的该业务流的第一个报文,第一结束报文是该网络对象发送的该业务流的最后一个报文。
可选的,将第一结束报文的序列号减去第一起始报文的序列号,得到网络对象发送的属于业务流的数据量。
在该网络对象为终端的情况下,第一起始报文为终端发送的SYN报文,第一结束报文为终端发送的FIN报文。转发设备将该FIN报文的序列号减去该SYN报文的序列号,得到终端发送的属于该业务流的数据量。
在该网络对象为服务器的情况下,第一起始报文为服务器发送的SYN ACK报文,第一结束报文为服务器发送的FIN报文或RST报文。转发设备将该FIN报文的序列号减去该SYNACK报文的序列号,得到服务器发送的属于该业务流的数据量。或者,转发设备将该RST报文的序列号减去该SYN ACK报文的序列号,得到服务器发送的属于该业务流的数据量。
对于网络对象接收的属于该业务流的数据量,该网络对象可以为服务器或终端,转发设备在获取的目标业务报文包括第二起始报文和第二结束报文的情况下,转发设备根据第二起始报文的序列号和第二结束报文的序列号,获取网络对象接收的属于业务流的数据量,第二起始报文是网络对象接收的该业务流的第一个报文,第二结束报文是该网络对象接收的该业务流的最后一个报文。
可选的,将第二结束报文的序列号减去第二起始报文的序列号,得到网络对象发送的属于业务流的数据量。
在该网络对象为终端的情况下,第二起始报文为终端接收的SYN ACK报文,第二结束报文为终端接收的FIN报文或RST报文。转发设备将该FIN报文的序列号减去该SYN ACK报文的序列号,得到终端接收的属于该业务流的数据量。或者,转发设备将该RST报文的序列号减去该SYN ACK报文的序列号,得到终端接收的属于该业务流的数据量。
在该网络对象为服务器的情况下,第二起始报文为服务器接收的SYN报文,第二结束报文为服务器接收的FIN报文。转发设备将该FIN报文的序列号减去该SYN报文的序列号,得到服务器接收的属于该业务流的数据量。
对于状态标识,转发设备在获取的目标业务报文包括第一起始报文的情况下,转发设备在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置该状态标识标识的业务流的状态为成功状态;如果未接收到第一结束报文,设置该状态标识标识的业务流的状态为失败状态,第三时间为接收第一起始报文的时间。第一起始报文为服务器发送的SYN ACK报文,第一结束报文为服务器发送的FIN报文或RST报文。
对于属于同一业务流的目标业务报文的协议类型为UDP的情况下,接下来,一一说明转发设备获取各KPI的过程,详细说明如下:
对于网络对象发送的属于该业务流的数据量,转发设备判断距离接收属于该业务流的最后一个业务报文的时间长度是否达到第二时间长度,如果达到,表示网络对象已传输完该业务流。转发设备从属于该业务流的目标业务报文中获取源设备的地址是该网络对象的地址的目标业务报文,获取的每个目标业务报文均是该网络对象发送的业务报文,对获取的每个目标业务报文的数据量进行累加,得到网络对象发送的属于该业务流的数据量。
例如,在该网络对象为终端时,转发设备从属于该业务流的目标业务报文中获取源设备的地址是该终端的地址的目标业务报文,对获取的每个目标业务报文的数据量进行累加,得到该终端发送的属于该业务流的数据量。或者,在该网络对象为服务器时,转发设备从属于该业务流的目标业务报文中获取源设备的地址是该服务器的地址的目标业务报文,对获取的每个目标业务报文的数据量进行累加,得到服务器发送的属于该业务流的数据量。
对于网络对象接收的属于该业务流的数据量,转发设备在判断出网络对象已传输完该业务流时,从属于该业务流的目标业务报文中获取目的设备的地址是该网络对象的地址的目标业务报文,获取的每个目标业务报文均是该网络对象接收的业务报文,对获取的每个目标业务报文的数据量进行累加,得到网络对象接收的属于该业务流的数据量。
例如,在该网络对象为终端时,转发设备从属于该业务流的目标业务报文中获取目的设备的地址是该终端的地址的目标业务报文,对获取的每个目标业务报文的数据量进行累加,得到该终端接收的属于该业务流的数据量。或者,在该网络对象为服务器时,转发设备从属于该业务流的目标业务报文中获取目的设备的地址是该服务器的地址的目标业务报文,对获取的每个目标业务报文的数据量进行累加,得到该服务器接收的属于该业务流的数据量。
可选的,在配置策略信息还包括故障状态的情况下,转发设备可基于配置策略信息包括的故障状态,确定待获取的KPI的类型,然后通过本步骤获取该业务流的属于确定类型的KPI,获取的KPI为与该故障状态相关的KPI。
可选的,转发设备可以保存故障状态与KPI的类型的对应关系,转发设备可以基于配置策略信息包括的故障状态和该对应关系,确定待获取的KPI的类型。
步骤104:转发设备向第一设备发送该业务流的业务信息,该业务信息包括该业务流属于的至少一个网络对象的标识信息和该业务流的M个KPI。
可选的,该业务信息还可以采集该M个KPI中的各KPI的采集时间,各KPI的采集时间用于确定各KPI所属的周期。
在第一设备为分析器平台或云平台的情况下,转发设备与分析器平台或云平台之间建立有网络连接,转发设备向分析器平台或云平台发送该业务流的业务信息。
在第一设备为与转发设备相连的上游设备的情况下,转发设备向第一设备发送该业务流的业务信息。例如,在转发设备为ONT或OLT的情况下,与转发设备相连的上游设备为BRAS,转发设备向BRAS发送该业务流的业务信息。在转发设备为Leaf的情况下,与转发设备相连的上游设备为spine,转发设备向spine发送该业务流的业务信息。
对于该网络架构中的任一个转发设备,该任一个转发设备对接收的业务流,执行上述101至104的步骤得到并发送业务流的业务信息。
步骤105:第一设备接收至少一个业务流的业务信息。
第一设备持续接收该网络架构中不同的转发设备发送的业务流的业务信息。
步骤106:第一设备获取第一周期内的属于目标网络对象的N个业务流的KPI,N为大于0的整数,第一周期位于第一时间段内,目标网络对象是在第一周期内的任一个业务流属于的网络对象。
该N个业务流的KPI的采集时间均位于第一周期内,第一周期可以是任一个周期。
可选的,第一周期可以为当前周期。
在本步骤中,从第一周期内接收的业务流的业务信息中,获取包括目标网络对象的标识信息的N个业务信息,从该N个业务信息中获取N个业务流的KPI。
步骤107:第一设备根据该N个业务流的KPI,生成一个训练样本,该训练样本包括基于该N个业务流的KPI获取的特征集合。
可选的,针对任一个业务流的KPI,如果该任一个业务流的KPI除了包括与该故障状态相关的KPI外,还包括其他KPI,则第一设备可基于故障配置信息包括的故障状态,确定待选择的KPI的类型,然后从该任一个业务流的KPI中选择属于确定类型的KPI,即选择与该故障状态相关的KPI。对于其他N-1个业务流的KPI,也按上述相同的方式处理,得到N个业务流的与该故障类型相关的KPI,然后根据该N个业务流的与该故障类型相关的KPI,获取该故障状态对应的该训练样本。可以通过如下1071至1074的操作生成该故障状态对应的训练样本。
在本步骤中,可以通过如下1071至1074的操作生成一个训练样本,该1071至1074的操作可以为:
1071:第一设备获取M个KPI集合,任一个KPI集合包括该N个业务流中的每个业务流的一个KPI,该任一个KPI集合包括的KPI的类型相同。
例如,任一个业务流的M个KPI包括转发设备与网络对象之间的网络时延,网络对象发送的属于该业务流的数据量、网络对象接收的属于该业务流的数据量和状态标识。所以第一设备获取的M个KPI集合包括网络时延集合、发送数据量集合、接收数据量集合和状态标识集合。
网络时延集合包括N个网络时延,该N个网络时延分别属于该N个业务流的。发送数据量集合包括N个发送数据量,该N个发送数据量分别属于该N个业务流的。接收数据量集合包括N个接收数据量,该N个接收数据量分别属于该N个业务流的。状态标识集合包括该N个业务流的状态标识。
1072:针对该M个KPI集合中的任一个KPI集合,第一设备通过至少一个第一计算方式,对该任一个KPI集合包括的KPI进行计算,得到该任一个KPI集合对应的至少一个统计特征。
该至少一个第一计算方式包括如下一种或多种:对该任一个KPI集合中的KPI进行统计,计算该任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
对于该任一个KPI集合包括的KPI的离散度,该离散度等于该任一个KPI集合包括的KPI方差与该任一个KPI集合包括的KPI均值之间的比值。
对于该任一个KPI集合包括的KPI的偏度,该偏度为
Figure BDA0002378802290000131
其中,Xi为该任一个KPI集合中的第i个KPI,σ为该任一个KPI集合包括的KPI方差,μ为该任一个KPI集合包括的KPI均值,E为求期望值运算。
对于该任一个KPI集合包括的KPI的峰度,该峰度为
Figure BDA0002378802290000132
其中,i=1、2、……、N。
对于网络时延集合,第一设备可以计算该网络时延集合包括的N个网络时延的均值、方差、离散度、偏度或峰度等中的至少一个,得到网络时延集合对应的至少一个统计特征包括网络时延均值、网络时延方差、网络时延离散度、网络时延偏度或网络时延峰度等中至少一个。
对于发送数据量集合,第一设备可以计算该发送数据量集合包括的N个发送数据量的均值、方差、离散度、偏度或峰度等中的至少一个,得到发送数据量集合对应的至少一个统计特征包括发送数据量均值、发送数据量方差、发送数据量离散度、发送数据量偏度或发送数据量峰度等中至少一个。
对于接收数据量集合,第一设备可以计算该接收数据量集合包括的N个接收数据量的均值、方差、离散度、偏度或峰度等中的至少一个,得到接收数据量集合对应的至少一个统计特征包括接收数据量均值、接收数据量方差、接收数据量离散度、接收数据量偏度或接收数据量峰度等中至少一个。
对于状态标识集合,第一设备可以统计该状态标识集合中用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目,即状态标识集合对应的至少一个统计特征包括用于标识成功状态的状态标识数目和/或用于标识失败状态的状态标识数目。
可选的,第一设备根据该用于标识成功状态的状态标识数目和该状态标识集合包括的状态标识数目N,计算成功状态的业务流比例。和/或,第一设备根据用于标识失败状态的状态标识数目和该状态标识集合包括的状态标识数目N,计算失败状态的业务流比例。
可选的,第一设备还获取至少一个统计特征集合,针对任一个统计特征集合,该任一个统计特征集合包括K个统计特征,该K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征。通过至少一个第二计算方式,对该任一个统计特征集合包括的统计特征进行计算,得到该任一个统计特征集合对应的至少一个时域特征。
其中K个周期包括第一周期和位于第一周期之前的K-1个周期,至少一个第二计算方式包括如下一种或多种:计算统计特征集合中的相邻两个统计特征之间的环比值或差分值,对统计特征集合中的统计特征进行特征拟合。
假设第K个周期为第一周期,则统计特征集合的环比值包括第2个周期的统计特征与第1个周期的统计特征之间的比值,第3个周期的统计特征与第2个周期的统计特征之间的比值,……,第K个周期的统计特征与第K-1个周期的统计特征之间的比值。以及,统计特征集合的差分值包括第2个周期的统计特征与第1个周期的统计特征之间的差值,第3个周期的统计特征与第2个周期的统计特征之间的差值,……,第K个周期的统计特征与第K-1个周期的统计特征之间的差值。
可选的,第一设备可以通过如下第一公式,对统计特征集合中的统计特征进行特征拟合,得到时域特征;
第一公式为:v=λ1*v12*v2+……+λK*vK
在第一公式中,v为经过特征拟合后得到的时域特征,λ1、λ2、……、λK分别为第1个周期、第2个周期、……、第K个周期对应的权重,对于离第一周期越近的周期,该周期对应的权重越大,v1、v2、……、vK分别为第1个周期的统计特征、第2个周期的统计特征、……、第K个周期的统计特征。
例如,对于网络时延集合对应的统计特征,第一设备获取的统计特征集合可以为网络时延均值集合、网络时延方差集合、网络时延离散度集合、网络时延偏度集合或网络时延峰度集合。网络时延均值集合包括转发设备在K周期计算得到的网络时延均值。网络时延方差集合包括转发设备在K个周期计算得到的网络时延方差。网络时延偏度集合包括转发设备在K个周期计算得到的网络时延偏度。网络时延离散度集合包括转发设备在K个周期计算得到的网络时延离散度。网络时延峰度集合包括转发设备在K个周期计算得到的网络时延峰度。
接下来以网络时延均值集合为例进行说明,对于网络时延均值集合中的相邻两个网络时延均值之间的环比值,第一设备计算第2个周期的网络时延均值与第1个周期的网络时延均值之间的比值,第3个周期的网络时延均值与第2个周期的网络时延均值之间的比值,……,第K个周期的网络时延均值与第K-1个周期的网络时延均值之间的比值,从而得到网络时延均值集合中的相邻两个网络时延均值之间的环比值。
对于网络时延均值集合中的相邻两个网络时延均值之间的差分值,第一设备计算第2个周期的网络时延均值与第1个周期的网络时延均值之间的差值,第3个周期的网络时延均值与第2个周期的网络时延均值之间的差值,……,第K个周期的网络时延均值与第K-1个周期的网络时延均值之间的差值,从而得到网络时延均值集合中的相邻两个网络时延均值之间的差分值。
对于对网络时延均值集合中的K个网络时延均值进行特征拟合,第一设备将第一公式中的v1、v2、……、vK分别替换为该K个网络时延均值,然后通过上述第一公式对该K个网络时延均值进行特征拟合,得到时域特征,该时域特征为滑动均值。
接下来还以网络时延方差集合为例进行说明,对于网络时延方差集合中的相邻两个网络时延方差之间的环比值,第一设备计算第2个周期的网络时延方差与第1个周期的网络时延方差之间的比值,第3个周期的网络时延方差与第2个周期的网络时延方差之间的比值,……,第K个周期的网络时延方差与第K-1个周期的网络时延方差之间的比值,从而得到网络时延方差集合中的相邻两个网络时延方差之间的环比值。
对于网络时延方差集合中的相邻两个网络时延方差之间的差分值,第一设备计算第2个周期的网络时延方差与第1个周期的网络时延方差之间的差值,第3个周期的网络时延方差与第2个周期的网络时延方差之间的差值,……,第K个周期的网络时延方差与第K-1个周期的网络时延方差之间的差值,从而得到网络时延方差集合中的相邻两个网络时延方差之间的差分值。
对于对网络时延方差集合中的K个网络时延方差进行特征拟合,第一设备将第一公式中的v1、v2、……、vK分别替换为该K个网络时延方差,然后通过上述第一公式对该K个网络时延方差进行特征拟合,得到时域特征,该时域特征为滑动波动值。
对于网络时延离散度集合、网络时延偏度集合或网络时延峰度集合,第一设备按上述对网络时延均值集合执行相同的操作,得到各集合对应的至少一个时域特征。
以及,对于其他任一个KPI集合对应的统计特征,第一设备按上述对网络时延集合执行相同的操作,获取其他任一个KPI集合对应的至少一个统计特征集合,然后通过至少一种第二计算方式,对每个统计特征集合进行计算处理,得到每个统计特征集合对应的至少一个时域特征。详细实现过程就不再一一列举说明。
1073:第一设备获取特征集合,该特征集合包括该M个KPI集合中的每个KPI集合对应的至少一个统计特征。
可选的,该特征集合还包括各统计特征集合对应的至少一个时域特征、成功状态的业务流比例或失败状态的业务流比例等中的至少一个。
1074:第一设备生成训练样本,该训练样本包括该特征集合,或者,该训练样本包括该特征集合和该训练样本的标签。
可选的,第一设备在目标网络对象在第一时间段内的状态为故障状态时,该训练样本的标签用于标识该故障状态;在目标网络对象在第一时间段内的状态为正常状态时,该训练样本的标签用于标识该正常状态。
可选的,第一设备判断对象集合中是否包括目标网络对象的标识信息,在该对象集合中包括目标网络对象的标识信息时,确定目标网络对象在第一时间段内的状态为故障状态;在该对象集合中不包括目标网络对象的标识信息时,确定目标网络对象在第一时间段内的状态为正常状态。
第一设备在第一时间段内重复执行上述步骤106至107的操作,从而得到大量的训练样本,将得到的大量训练样本组成训练样本集合。然后执行如下步骤108的操作。
步骤108:第一设备根据训练样本集合,训练智能模型,得到故障检测模型。
在本步骤中,第一设备可以采用监督训练方式或无监督训练方式,训练智能模型。
在采用监督训练方式时,训练样本集合中的每个训练样本存在对应的标注信息,训练过程可以为:
1081:第一设备将训练样本集合输入到智能模型。
可选的,第一设备可以分多次向智能模型输入训练样本集合包括的训练样本,每次向智能模型输入A个训练样本,A为大于0的整数。
1082:智能模型对训练样本集合中的每个训练样本进行处理,每个训练样本对应的处理结果。
可选的,智能模型对输入的A个训练样本进行处理,得到该A个训练样本中的每个训练样本对应的处理结果。
1083:智能模型根据每个训练样本对应的标注信息和处理结果,通过参数集合包括的每个网络参数对应的梯度下降函数,计算梯度矩阵,根据该梯度矩阵调整智能模型中的至少一个网络参数,该参数集合包括该至少一个网络参数。
对于参数集合中的任一个网络参数,根据每个训练样本对应的标注信息和处理结果,通过该任一个网络参数对应的梯度下降函数,计算得到每个训练样本对应的梯度值,将每个训练样本对应的梯度值组成梯度矩阵的一行。
可选的,智能模型根据该A个训练样本中的每个训练样本对应的标注信息和处理结果,通过该任一个网络参数对应的梯度下降函数,计算得到每个训练样本对应的梯度值。
如果训练样本集合中还有未输入的训练样本,则第一设备再向智能模型输入A未输入的训练样本给智能模型,然后智能模型再执行上述1082至1083的操作。如果训练样本集合中没有未输入的训练样本,则执行如下1084的操作,
1084:智能模型根据训练样本集合中的每个训练样本对应的标注信息和处理结果,利用损失函数计算损失函数值,根据该损失函数值确定是否继续训练,在确定继续训练时,返回执行1081,在确定停止训练时,将此时的智能模型作为故障检测模型,结束返回。
在本步骤中,在该损失函数值小于损失阈值,则确定停止训练,否则,确定继续训练。
可选的,监督训练方式采用的智能模型为支持向量机(support vector machine,SVM)、逻辑(logistic)回归算法、随机森林算法或者神经网络模型。神经网络模型可以为深度神经网络(deep neural networks,DNN)、卷积神经网络(convolutional neuralnetworks,CNN)、循环神经网络(recurrent neural network,RNN)或长短期记忆网络(longshort-term memory,LSTM)等。
在采用无监督训练方式时,智能模型包括编码器和解码器,训练样本集合中的每个训练样本不存在对应的标注信息,训练过程可以为:
1181:第一设备将训练样本集合输入到智能模型。
可选的,第一设备可以分多次向智能模型输入训练样本集合包括的训练样本,每次向智能模型输入A个训练样本。
1182:智能模型对训练样本集合中的每个训练样本进行处理,每个训练样本对应的第一处理结果。
可选的,智能模型包括的编码器对输入的A个训练样本进行编码处理,得到该A个训练样本中的每个训练样本对应的第二处理结果。智能模型包括的解码器对每个训练样本对应的第二处理结果进行恢复处理,得到每个训练样本对应的第一处理结果。
智能模型包括的解码器对训练样本对应的第二处理结果进行恢复处理,以尽量恢复出该训练样本,但解码器恢复出的训练样本与原始的该训练样本可能还存在差异,即就是说原始的该训练样本和该训练样本对应的第一处理结果之间可能存在差异。
1183:智能模型根据每个训练样本和每个训练样本对应的第一处理结果,通过参数集合包括的每个网络参数对应的梯度下降函数,计算梯度矩阵,根据该梯度矩阵调整智能模型中的至少一个网络参数,该参数集合包括该至少一个网络参数。
对于参数集合中的任一个网络参数,根据每个训练样本和每个训练样本对应的第一处理结果,通过该任一个网络参数对应的梯度下降函数,计算得到每个训练样本对应的梯度值,将每个训练样本对应的梯度值组成梯度矩阵的一行。
可选的,智能模型根据该A个训练样本中的每个训练样本和每个训练样本对应的第一处理结果,通过该任一个网络参数对应的梯度下降函数,计算得到每个训练样本对应的梯度值。
如果训练样本集合中还有未输入的训练样本,则第一设备再向智能模型输入A未输入的训练样本给智能模型,然后智能模型再执行上述1182至1183的操作。如果训练样本集合中没有未输入的训练样本,则执行如下1184的操作,
1184:智能模型根据训练样本集合中的每个训练样本和每个训练样本对应的第一处理结果,利用损失函数计算损失函数值,根据该损失函数值确定是否继续训练,在确定继续训练时,返回执行1181,在确定停止训练时,将此时的智能模型作为故障检测模型,结束返回。
在本步骤中,在该损失函数值小于损失阈值,则确定停止训练,否则,确定继续训练。
可选的,无监督训练方式采用的智能模型为变分自编码器(variationalautoencoder,VAE)模型或kmeans等。
可选的,第一设备训练出的故障检测模型用于检测网络对象是否处于故障状态,该故障状态是网管设备发送的故障配置信息中的故障状态。
网络对象的故障状态可能有多种,对于其他各种故障状态,网管设备向网络架构中的部分网络对象和第一设备发送其他各种故障状态对应的故障配置信息。其中,对于其个各种中的任一种故障状态,该任一种故障状态对应的故障配置信息是指包括该任一种故障状态的故障配置信息。然后转发设备和第一设备按上述步骤101至108的流程训练智能模型,得到用于检测该任一种故障状态的故障检测模型。如此得到每种故障状态对应的故障检测模型。
针对不同的故障状态,第一设备也可以按上述步骤101至108的流程训练同一个智能模型,得到一个故障检测模型,使该故障检测模型可以用于检测不同的故障状态。
可选的,第一设备可以将得到的特征集合发送给训练设备,训练设备接收特征集合,生成训练样本,该训练样本包括该特征集合,或者,该训练样本包括该特征集合和该训练样本的标签。
训练设备可以生成大量的训练样本,使用生成的训练样本训练故障检测模型。训练设备同第一设备一样可以采集上述两种训练方式训练出故障检测模型,在此不再详细说明。
可选的,训练设备还可以向第一设备发送训练出的故障检测模型。第一设备接收该故障检测模型。
可选的,训练设备也可以不向第一设备发送故障检测模型,这样在检测网络对象时,训练设备可以充当检测设备的角色,来检测网络对象。
在本申请实施例中,由于转发设备在接收业务流时,获取业务流的业务信息包括网络对象的标识信息和M个KPI,这样使得该业务信息的数据量远小于该业务流的数据量,从而转发设备向第一设备发送该业务流的业务信息时,会大量减少对网络资源的消耗,由其是大量减小对带宽资源的消耗。另外,上述第一设备可以是云平台或分析器平台,网络架构中所有的转发设备将业务流的业务信息发送给云平台或分析器平台,云平台或分析器平台可以统一训练出故障检测模型,但由于转发设备的数量多,云平台或分析器平台的带宽资源有限,在接收业务信息时可能需要较长时间,导致延长了训练时间。然而上述第一设备可以是与转发设备相连的转发设备,每个转发设备接收与其相连的转发设备发送的业务流的业务信息,这样由不同的转发设备分别来训练,可以提高训练效率。
参见图6,本申请实施例提供了一种故障检测方法,该检测方法可以应用于图1至3所示的任一实施例提供的网络架构,在该方法中,转发设备获取其接收的业务流的业务信息,向第一设备发送该业务流的业务信息。第一设备接收转发设备发送的业务流的业务信息,根据接收的业务信息生成检测样本,根据该检测样本通过故障检测模型来对网络对象进行检测,该故障检测模型可以通过上述图4所示的实施例训练得到的。该方法包括:
步骤201至205:分别与步骤101至105相同,在此不再详细说明。
其中,需要说明的是:转发设备获取业务流的业务信息,该业务信息中的KPI包括与至少一个故障状态中的各故障状态相关的KPI。
可选的,该业务信息还可以采集KPI的采集时间,KPI的采集时间用于确定KPI所属的周期。
步骤206:第一设备获取当前周期内的属于目标网络对象的N个业务流的KPI,N为大于0的整数,目标网络对象是在当前周期内的任一个业务流属于的网络对象。
该N个业务流的KPI的采集时间均位于当前周期内。
可选的,转发设备可以图2所示的数据通信网络中的ONT或OLT,或者,为图3所示的数据中心网络中的Leaf等接入设备。第一设备为云平台、分析器平台、数据通信网络中的BRAS、数据中心网络中的Spine或其他第三方设备等。或者,
可选的,转发设备可以图2所示的数据通信网络中的BRAS,或者,为图3所示的数据中心网络中的Spine等设备。第一设备为云平台、分析器平台或其他第三方设备等。
步骤207:第一设备根据该N个业务流的KPI,生成一个检测样本,该检测样本包括基于该N个业务流的KPI获取的特征集合。
第一设备生成检测样本的过程与上述图4所示实施例的步骤107中生成训练样本的过程相同,在此不再详细说明。
可选的,针对任一个业务流的KPI,第一设备可基于一种故障状态,确定待选择的KPI的类型,然后从该任一个业务流的KPI中选择属于确定类型的KPI,即选择与该一种故障状态相关的KPI。对于其他N-1个业务流的KPI,也按上述相同的方式处理,得到N个业务流的与该一种故障类型相关的KPI,然后根据该N个业务流的与该一种故障类型相关的KPI,生成该故障状态对应的一个检测样本。生成该故障状态对应的一个检测样本的过程,可以参见图4所示的步骤1071至1074的操作生成该故障状态对应的一个训练样本的过程。如此,第一设备可以生成出不同故障状态对应的检测样本。
可选的,第一设备可以不区分不同的故障状态,即根据该N个业务流的KPI,生成一个检测样本,该检测样本包括不同故障状态对应的检测样本。
步骤208:第一设备根据该检测样本,通过故障检测模型检测目标网络对象是否处于故障状态。
可选的,第一设备中包括多个不同故障状态对应的故障检测模型,针对任一种故障状态对应的故障检测模型,第一设备根据该任一种故障状态对应的检测样本,通过该任一种故障状态对应的故障检测模型,检测目标网络对象是否处于该任一种故障状态。这样通过每种故障状态对应的故障检测模型分别对目标网络对象进行检测,检测出目标网络对象可能处于一种或多种故障状态。
可选的,第一设备包括多个不同故障状态的故障检测模型,第一设备根据不同故障状态对应的检测样本,通过不同故障状态对应的故障检测模型可以检测出目标网络对象可能处于的一种或多种故障状态。
可选的,第一设备中包括一个可检测不同故障状态的故障检测模型,第一设备在步骤207中生成一个检测样本,根据该检测样本,通过该故障检测模型,检测目标网络对象是否处于该一种或多种故障状态。
可选的,在检测出目标网络对象处于故障状态时,第一设备获取目标网络对象的至少一个KPI和/或目标网络对象的业务流,根据目标网络对象的至少一个KPI和/或目标网络对象的业务流,进行故障定位。
目标网络对象的至少一个KPI可以包括目标网络对象的CPU使用率,内存使用率或吞吐率等中的至少一个。
第一设备可以确定出目标转发设备,目标转发设备是发送属于目标网络对象的业务流的业务信息的转发设备,向目标转发设备发送采集指令,该采集指令包括目标网络对象的标识信息。
目标转发设备接收该采集指令,根据该采集指令包括的目标网络对象的标识信息,对接收的属于目标网络对象的业务流进行镜像,向第一设备发送镜像得到的业务流。
由于在检测出目标网络对象处于故障状态时,才让转发设备对接收的属于目标网络对象的业务流进行镜像,向第一设备发送镜像得到的业务流。这样实现按需采集,避免对全部网络对象的业务流进行采集,节省了带宽资源,节省了第一设备在进行故障定位时对不必要的数据解析所需要的计算资源。
如果第一设备中不包括故障检测模型,故障检测模型位于第三方设备中,第一设备可以向第三方设备发送得到的检测样本。第三方设备接收该检测样本,根据该检测样本,通过故障检测模型检测目标网络对象是否处于故障状态。
在本申请实施例中,由于转发设备在接收业务流时,获取业务流的业务信息包括网络对象的标识信息和M个KPI,这样使得该业务信息的数据量远小于该业务流的数据量,从而转发设备向第一设备发送该业务流的业务信息时,会大量减少对网络资源的消耗,由其是大量减小对带宽资源的消耗。另外,上述第一设备可以是云平台或分析器平台,网络架构中所有的转发设备将业务流的业务信息发送给云平台或分析器平台,云平台或分析器平台可以统一对网络对象进行检测。但由于转发设备的数量多,云平台或分析器平台的带宽资源有限,在接收业务信息时可能需要较长时间,导致延长了检测时间。然而上述第一设备可以是与转发设备相连的上游设备,上游设备接收与其相连的转发设备发送的业务流的业务信息,这样由该上游设备来检测,可以提高检测效率,达到实时检测的目的。
参见图7,本申请实施例提供了一种故障检测模型的训练方法,该训练方法可以应用于图1至3所示的任一实施例提供的网络架构。在该方法中,转发设备获取业务流的业务信息,基于该业务信息获取特征集合,向第一设备发送特征集合,第一设备接收该特征集合并训练故障检测模型。该方法包括:
步骤301至303:分别与步骤101至103相同,在此不再详细说明。
步骤304:转发设备获取第一周期内的属于目标网络对象的N个业务流的KPI,N为大于0的整数,第一周期位于第一时间段内,目标网络对象是在第一周期内的任一个业务流属于的网络对象。
该N个业务流的KPI的采集时间均位于第一周期内,第一周期可以是任一个周期。可选的,第一周期可以为当前周期。
步骤305:转发设备根据该N个业务流的KPI,生成目标网络对象对应的一个特征集合。
转发设备可以参考图4所示实施例中的1071至1073中的第一设备生成特征集合的过程,在此不再详细说明。
步骤306:转发设备向第一设备发送该目标网络对象对应的特征集合。
转发设备可以重复执行上述步骤301至306的操作,得到不同网络对象的特征集合,向第一设备发送不同网络对象对应的特征集合。
步骤307:第一设备接收该目标网络对象的特征集合,生成训练样本,该训练样本包括该特征集合,或者,该训练样本包括该特征集合和该训练样本的标签。
在该目标网络对象处于故障状态下,该训练样本的标签用于标识该故障状态,在该目标网络对象处理正常状态下,该训练样本的标签用于标识正常状态。
第一设备可以接收不同转发设备发送的至少一个网络对象的特征集合,并生成大量的训练样本,然后通过如下步骤308的操作训练故障检测模型。
步骤308:与步骤108相同,在此不再详细说明。
可选的,转发设备可以图2所示的数据通信网络中的BRAS,或者,为图3所示的数据中心网络中的Spine等设备。第一设备为云平台、分析器平台或其他第三方设备等。
在本申请实施例中,由于转发设备在接收业务流时,获取业务流的业务信息包括网络对象的标识信息和M个KPI,基于该网络对象的业务信息,获取特征集合。这样使得该特征集合的数据量远小于该业务流的数据量,从而转发设备向第一设备发送该特征集合时,会大量减少对网络资源的消耗,由其是大量减小对带宽资源的消耗。
参见图8,本申请实施例提供了一种故障检测方法,该检测方法可以应用于图1至3所示的任一实施例提供的网络架构,在该方法中,转发设备获取其接收的业务流的业务信息,根据业务流的业务信息,生成特征集合,向第一设备发送该特征集合,第一设备接收的特征集合,根据该特征集合生成检测样本,根据该检测样本通过故障检测模型来对网络对象进行检测,该故障检测模型可以通过上述图4或图7所示的实施例训练得到的。该方法包括:
步骤401至403:分别与步骤301至303相同,在此不再详细说明。
步骤404:转发设备获取当前周期内的属于目标网络对象的N个业务流的KPI,N为大于0的整数,目标网络对象是在当前周期内的任一个业务流属于的网络对象。
该N个业务流的KPI的采集时间均位于当前周期内。
步骤405-406:分别与步骤305-306相同,在此不再详细说明。
步骤407:第一设备接收该目标网络对象的特征集合,生成检测样本,该检测样本包括该特征集合。
步骤408:与步骤208相同,在此不再详细说明。
可选的,转发设备可以图2所示的数据通信网络中的BRAS,或者,为图3所示的数据中心网络中的Spine等设备。第一设备为云平台、分析器平台或其他第三方设备等。
在本申请实施例中,由于转发设备在接收业务流时,获取业务流的业务信息包括网络对象的标识信息和M个KPI,基于该业务流的业务信息获取特征集合,这样使得该特征集合的数据量远小于该业务流的数据量,从而转发设备向第一设备发送该特征集合时,会大量减少对网络资源的消耗,由其是大量减小对带宽资源的消耗。
参见图9、本申请实施例提供了一种故障检测模型的训练装置500,所述装置500可以部署在上述任一实施例的转发设备上,包括:
接收单元501,用于接收至少一个业务流;
处理单元502,用于获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
发送单元503,用于向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。
可选的,所述业务流的协议类型为传输控制协议TCP,所述处理单元502,用于:
根据配置策略信息,从所述业务流中获取至少一个目标业务报文,所述配置策略信息包括至少一个预设报文类型;
根据所述至少一个目标业务报文,获取所述业务流的M个KPI。
可选的,所述M个KPI包括所述装置与所述网络对象之间的网络时延,所述网络对象发送的属于所述业务流的数据量和所述网络对象接收的属于所述业务流的数据量中的至少一个;
所述处理单元502,用于:
所述至少一个目标业务报文包括第一目标业务报文和第二目标业务报文,根据接收所述第一目标业务报文的第一时间和接收所述第二目标业务报文的第二时间,获取所述装置与所述网络对象之间的网络时延,所述第一目标业务报文是发送给所述网络对象的报文,所述第二目标业务报文是所述网络对象发送的与所述第一目标业务报文相对应的报文;和/或,
所述至少一个目标业务报文包括第一起始报文和第一结束报文,根据所述第一起始报文的序列号和所述第一结束报文的序列号,获取所述网络对象发送的属于所述业务流的数据量,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文;和/或,
所述至少一个目标业务报文包括第二起始报文和第二结束报文,根据所述第二起始报文的序列号和所述第二结束报文的序列号,获取所述网络对象接收的属于所述业务流的数据量,所述第二起始报文是所述网络对象接收的所述业务流的第一个报文,所述第二结束报文是所述网络对象接收的所述业务流的最后一个报文。
可选的,所述M个KPI包括状态标识,所述状态标识用于标识所述业务流的状态;
所述处理单元502,用于
所述至少一个目标业务报文包括第一起始报文,在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置所述状态标识标识的状态为成功状态;如果未接收到所述第一结束报文,设置所述状态标识标识的状态为失败状态,所述第三时间为接收所述第一起始报文的时间,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。
可选的,所述处理单元502,还用于:
从所述至少一个业务流中获取第一周期内的属于目标网络对象的N个业务流的KPI,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象,N为大于0的整数;
基于所述N个业务流的KPI获取特征集合。
可选的,所述特征集合包括至少一个统计特征,所述处理单元502,用于:
获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
可选的,所述特征集合还包括至少一个时域特征,所述处理单元502,还用于:
通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。
可选的,所述任一个KPI集合包括的所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述处理单元502,还用于:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。
可选的,所述第一设备为云平台、分析器平台或所述装置的上游设备。
可选的,所述网络对象是终端、服务器、客户端、虚拟机、路由器、交换机虚拟局域网VLAN中的设备或指定网段中的设备。
可选的,所述M个KPI用于描述所述业务流的特征。
在本申请实施例中,接收单元接收至少一个业务流。处理单元获取所述至少一个业务流的业务信息,业务流的业务信息包括业务流属于的网络对象的标识信息和该业务流的M个关键性能指标KPI。发送单元向第一设备发送训练信息。由于处理单元获取的训练信息包括网络对象的标识信息和M个KPI,或基于网络对象的M个KPI获取的特征集合,所以训练信息的数据量远小于业务流,发送单元向第一设备发送训练信息所需要的网络资源远小于发送业务流所需要的网络资源,从而可以减少对网络资源的消耗。
参见图10、本申请实施例提供了一种故障检测模型的训练装置600,所述装置600部署在上述任一实施例所述的第一设备上,包括:
接收单元601,用于接收第一转发设备发送的至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
处理单元602,用于根据所述至少一个业务流的业务信息训练故障检测模型,或者,根据所述至少一个业务流的业务信息获取用于训练故障检测模型的至少一个特征集合,所述故障检测模型用于检测所述网络对象是否处于故障状态。
可选的,所述处理单元602,用于:
获取至少一个特征集合,任一个特征集合包括基于属于目标网络对象的每个业务流的KPI获取的至少一个特征,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象;
根据所述至少一个特征集合训练故障检测模型。
可选的,所述任一个特征集合包括至少一个统计特征,所述处理单元602,用于:
获取第一周期内的属于所述目标网络对象的N个业务流的KPI,所述第一周期位于所述第一时间段内,N为大于0的整数;
获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
可选的,所述任一个特征集合还包括至少一个时域特征,所述处理单元602,还用于:
通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。
可选的,所述任一个KPI集合包括所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述任一个特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述处理单元602,还用于:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。
可选的,所述处理单元602,还用于:
生成训练样本,所述训练样本包括所述任一个特征集合和所述训练样本的标签,在所述目标网络对象处于故障状态的情况下,所述标签用于标识所述故障状态,在所述目标网络对象处于正常状态的情况下,所述标签用于标识所述正常状态。
可选的,所述装置600还包括:发送单元603,
所述发送单元603,用于向训练设备发送所述至少一个特征集合,所述至少一个特征集合用于所述训练设备训练故障检测模型;
所述接收单元601,用于接收所述训练设备发送的所述故障检测模型。
在本申请实施例中,接收单元接收第一转发设备发送的至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI。处理单元根据所述至少一个业务流的业务信息训练故障检测模型,或者,获取用于训练故障检测模型的至少一个特征集合。由于转发设备发送的业务信息包括网络对象的标识信息和KPI,使得业务信息的数据量远小于业务流的数据量,从而减少接收单元接收业务信息所消耗的网络资源。
参见图11,本申请实施例提供了一种故障检测模型的训练装置700示意图。该装置700可以是上述任一实施例中的转发设备。该装置700包括至少一个处理器701,总线系统702,存储器703以及至少一个收发器704。
该装置700是一种硬件结构的装置,可以用于实现图9所述的装置500中的功能模块。例如,本领域技术人员可以想到图9所示的装置500中的处理单元502可以通过该至少一个处理器701调用存储器703中的代码来实现,图9所示的装置500中的接收单元501和发送单元503可以通过该收发器704来实现。
可选的,上述处理器701可以是一个通用中央处理器(central processing unit,CPU),网络处理器(network processor,NP),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
上述总线系统702可包括一通路,在上述组件之间传送信息。
上述收发器704,用于与其他设备或通信网络通信。
上述存储器703可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器703用于存储执行本申请方案的应用程序代码,并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码,从而实现本专利方法中的功能。
在具体实现中,作为一种实施例,处理器701可以包括一个或多个CPU,例如图11中的CPU0和CPU1。
在具体实现中,作为一种实施例,该装置700可以包括多个处理器,例如图11中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
参见图12,本申请实施例提供了一种故障检测模型的训练装置800示意图。该装置800可以是上述任一实施例中的转发设备。该装置800包括至少一个处理器801,总线系统802,存储器803以及至少一个收发器804。
该装置800是一种硬件结构的装置,可以用于实现图10所述的装置600中的功能模块。例如,本领域技术人员可以想到图10所示的装置600中的处理单元602可以通过该至少一个处理器801调用存储器803中的代码来实现,图10所示的装置600中的接收单元601和发送单元603可以通过该收发器804来实现。
可选的,上述处理器801可以是一个通用中央处理器(central processing unit,CPU),网络处理器(network processor,NP),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
上述总线系统802可包括一通路,在上述组件之间传送信息。
上述收发器804,用于与其他设备或通信网络通信。
上述存储器803可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器803用于存储执行本申请方案的应用程序代码,并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码,从而实现本专利方法中的功能。
在具体实现中,作为一种实施例,处理器801可以包括一个或多个CPU,例如图12中的CPU0和CPU1。
在具体实现中,作为一种实施例,该装置800可以包括多个处理器,例如图12中的处理器801和处理器807。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
参见图13,本申请实施例提供了一种故障检测模型的训练系统900,所述系统900包括:如图9所述实施例的装置和如图10所述实施例的装置,或者,如图11所述实施例的装置和如图12所述实施例的装置。
如图9或图11所述实施例的装置可以为转发设备901,如图10或图12所述实施例的装置可以为第一设备902。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (37)

1.一种故障检测模型的训练方法,其特征在于,所述方法包括:
转发设备接收至少一个业务流;
所述转发设备获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
所述转发设备向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。
2.如权利要求1所述的方法,其特征在于,所述业务流的协议类型为传输控制协议TCP,所述转发设备获取所述业务流的至少一个关键性能指标KPI,包括:
所述转发设备根据配置策略信息,从所述业务流中获取至少一个目标业务报文,所述配置策略信息包括至少一个预设报文类型;
所述转发设备根据所述至少一个目标业务报文,获取所述业务流的M个KPI。
3.如权利要求2所述的方法,其特征在于,所述M个KPI包括所述转发设备与所述网络对象之间的网络时延,所述网络对象发送的属于所述业务流的数据量和所述网络对象接收的属于所述业务流的数据量中的至少一个;
所述转发设备根据所述至少一个目标业务报文,获取所述业务流的M个KPI,包括:
所述至少一个目标业务报文包括第一目标业务报文和第二目标业务报文,所述转发设备根据接收所述第一目标业务报文的第一时间和接收所述第二目标业务报文的第二时间,获取所述转发设备与所述网络对象之间的网络时延,所述第一目标业务报文是发送给所述网络对象的报文,所述第二目标业务报文是所述网络对象发送的与所述第一目标业务报文相对应的报文;和/或,
所述至少一个目标业务报文包括第一起始报文和第一结束报文,所述转发设备根据所述第一起始报文的序列号和所述第一结束报文的序列号,获取所述网络对象发送的属于所述业务流的数据量,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文;和/或,
所述至少一个目标业务报文包括第二起始报文和第二结束报文,所述转发设备根据所述第二起始报文的序列号和所述第二结束报文的序列号,获取所述网络对象接收的属于所述业务流的数据量,所述第二起始报文是所述网络对象接收的所述业务流的第一个报文,所述第二结束报文是所述网络对象接收的所述业务流的最后一个报文。
4.如权利要求2或3所述的方法,其特征在于,所述M个KPI包括状态标识,所述状态标识用于标识所述业务流的状态;
所述转发设备根据所述至少一个目标业务报文,获取所述业务流的至少一个KPI,包括:
所述至少一个目标业务报文包括第一起始报文,所述转发设备在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置所述状态标识标识的状态为成功状态;如果未接收到所述第一结束报文,设置所述状态标识标识的状态为失败状态,所述第三时间为接收所述第一起始报文的时间,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。
5.如权利要求1至4任一项所述的方法,其特征在于,所述转发设备向第一设备发送训练信息之前,还包括:
所述转发设备从所述至少一个业务流中获取第一周期内的属于目标网络对象的N个业务流的KPI,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象,N为大于0的整数;
所述转发设备基于所述N个业务流的KPI获取特征集合。
6.如权利要求5所述的方法,其特征在于,所述特征集合包括至少一个统计特征,所述转发设备基于所述N个业务流的KPI获取特征集合,包括:
所述转发设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
所述转发设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
7.如权利要求6所述的方法,其特征在于,所述特征集合还包括至少一个时域特征,所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
所述转发设备通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。
8.如权利要求6或7所述的方法,其特征在于,所述任一个KPI集合包括的所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。
9.如权利要求1至8任一项所述的方法,其特征在于,所述第一设备为云平台、分析器平台或所述转发设备的上游设备。
10.如权利要求1至9任一项所述的方法,其特征在于,所述网络对象是终端、服务器、客户端、虚拟机、路由器、交换机、虚拟局域网VLAN中的设备或指定网段中的设备。
11.如权利要求1至10任一项所述的方法,其特征在于,所述M个KPI用于描述所述业务流的特征。
12.一种故障检测模型的训练方法,其特征在于,所述方法包括:
第一设备接收第一转发设备发送的至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
所述第一设备根据所述至少一个业务流的业务信息训练故障检测模型,或者,根据所述至少一个业务流的业务信息获取用于训练故障检测模型的至少一个特征集合,所述故障检测模型用于检测所述网络对象是否处于故障状态。
13.如权利要求12所述的方法,其特征在于,所述第一设备根据所述至少一个业务流的业务信息训练故障检测模型,包括:
所述第一设备获取至少一个特征集合,任一个特征集合包括基于属于目标网络对象的每个业务流的KPI获取的至少一个特征,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象;
所述第一设备根据所述至少一个特征集合训练故障检测模型。
14.如权利要求12或13所述的方法,其特征在于,任一个特征集合包括至少一个统计特征,所述第一设备获取任一个特征集合,包括:
所述第一设备获取第一周期内的属于所述目标网络对象的N个业务流的KPI,所述第一周期位于所述第一时间段内,N为大于0的整数;
所述第一设备获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
所述第一设备通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
15.如权利要求14所述的方法,其特征在于,所述任一个特征集合还包括至少一个时域特征,所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。
16.如权利要求14或15所述的方法,其特征在于,所述任一个KPI集合包括所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述任一个特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述对所述任一个KPI集合包括的KPI进行计算之后,还包括:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。
17.如权利要求14至16任一项所述的方法,其特征在于,所述第一设备获取所述任一个特征集合之后,还包括:
生成训练样本,所述训练样本包括所述任一个特征集合和所述训练样本的标签,在所述目标网络对象处于故障状态的情况下,所述标签用于标识所述故障状态,在所述目标网络对象处于正常状态的情况下,所述标签用于标识所述正常状态。
18.如权利要求13所述的方法,其特征在于,所述第一设备根据所述至少一个特征集合训练故障检测模型,包括:
所述第一设备向训练设备发送所述至少一个特征集合,所述至少一个特征集合用于所述训练设备训练故障检测模型;
所述第一设备接收所述训练设备发送的所述故障检测模型。
19.一种故障检测模型的训练装置,其特征在于,所述装置包括:
接收单元,用于接收至少一个业务流;
处理单元,用于获取所述至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
发送单元,用于向第一设备发送训练信息,所述训练信息包括所述至少一个业务流的业务信息或基于所述至少一个业务流的业务信息获取的特征集合,所述训练信息用于训练故障检测模型,所述故障检测模型用于检测所述网络对象是否处于故障状态。
20.如权利要求19所述的装置,其特征在于,所述业务流的协议类型为传输控制协议TCP,所述处理单元,用于:
根据配置策略信息,从所述业务流中获取至少一个目标业务报文,所述配置策略信息包括至少一个预设报文类型;
根据所述至少一个目标业务报文,获取所述业务流的M个KPI。
21.如权利要求20所述的装置,其特征在于,所述M个KPI包括所述装置与所述网络对象之间的网络时延,所述网络对象发送的属于所述业务流的数据量和所述网络对象接收的属于所述业务流的数据量中的至少一个;
所述处理单元,用于:
所述至少一个目标业务报文包括第一目标业务报文和第二目标业务报文,根据接收所述第一目标业务报文的第一时间和接收所述第二目标业务报文的第二时间,获取所述装置与所述网络对象之间的网络时延,所述第一目标业务报文是发送给所述网络对象的报文,所述第二目标业务报文是所述网络对象发送的与所述第一目标业务报文相对应的报文;和/或,
所述至少一个目标业务报文包括第一起始报文和第一结束报文,根据所述第一起始报文的序列号和所述第一结束报文的序列号,获取所述网络对象发送的属于所述业务流的数据量,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文;和/或,
所述至少一个目标业务报文包括第二起始报文和第二结束报文,根据所述第二起始报文的序列号和所述第二结束报文的序列号,获取所述网络对象接收的属于所述业务流的数据量,所述第二起始报文是所述网络对象接收的所述业务流的第一个报文,所述第二结束报文是所述网络对象接收的所述业务流的最后一个报文。
22.如权利要求20或21所述的装置,其特征在于,所述M个KPI包括状态标识,所述状态标识用于标识所述业务流的状态;
所述处理单元,用于:
所述至少一个目标业务报文包括第一起始报文,在第三时间之后的第一时间长度内,如果接收到第一结束报文,设置所述状态标识标识的状态为成功状态;如果未接收到所述第一结束报文,设置所述状态标识标识的状态为失败状态,所述第三时间为接收所述第一起始报文的时间,所述第一起始报文是所述网络对象发送的所述业务流的第一个报文,所述第一结束报文是所述网络对象发送的所述业务流的最后一个报文。
23.如权利要求19至22任一项所述的装置,其特征在于,所述处理单元,还用于:
从所述至少一个业务流中获取第一周期内的属于目标网络对象的N个业务流的KPI,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象,N为大于0的整数;
基于所述N个业务流的KPI获取特征集合。
24.如权利要求23所述的装置,其特征在于,所述特征集合包括至少一个统计特征,所述处理单元,用于:
获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
25.如权利要求24所述的装置,其特征在于,所述特征集合还包括至少一个时域特征,所述处理单元,还用于:
通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。
26.如权利要求24或25所述的装置,其特征在于,所述任一个KPI集合包括的所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述处理单元,还用于:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。
27.如权利要求19至26任一项所述的装置,其特征在于,所述第一设备为云平台、分析器平台或所述装置的上游设备。
28.如权利要求19至27任一项所述的装置,其特征在于,所述网络对象是终端、服务器、客户端、虚拟机、路由器、交换机、虚拟局域网VLAN中的设备或指定网段中的设备。
29.如权利要求19至28任一项所述的装置,其特征在于,所述M个KPI用于描述所述业务流的特征。
30.一种故障检测模型的训练装置,其特征在于,所述装置包括:
接收单元,用于接收第一转发设备发送的至少一个业务流的业务信息,业务流的业务信息包括所述业务流属于的网络对象的标识信息和所述业务流的M个关键性能指标KPI,M为大于0的整数,所述网络对象包括一个或多个设备;
处理单元,用于根据所述至少一个业务流的业务信息训练故障检测模型,或者,根据所述至少一个业务流的业务信息获取用于训练故障检测模型的至少一个特征集合,所述故障检测模型用于检测所述网络对象是否处于故障状态。
31.如权利要求30所述的装置,其特征在于,所述处理单元,用于:
获取至少一个特征集合,任一个特征集合包括基于属于目标网络对象的每个业务流的KPI获取的至少一个特征,所述目标网络对象是所述至少一个业务流中的任一个业务流所属于的网络对象;
根据所述至少一个特征集合训练故障检测模型。
32.如权利要求30或31所述的装置,其特征在于,所述任一个特征集合包括至少一个统计特征,所述处理单元,用于:
获取第一周期内的属于所述目标网络对象的N个业务流的KPI,所述第一周期位于所述第一时间段内,N为大于0的整数;
获取M个KPI集合,任一个KPI集合包括所述N个业务流中的每个业务流的一个KPI,所述任一个KPI集合包括的KPI的类型相同;
通过至少一个第一计算方式,对所述任一个KPI集合包括的KPI进行计算,得到所述任一个KPI集合对应的至少一个统计特征,所述至少一个第一计算方式包括如下一种或多种:对所述任一个KPI集合中的KPI进行统计,计算所述任一个KPI集合包括的KPI的均值、方差、离散度、偏度或峰度。
33.如权利要求32所述的装置,其特征在于,所述任一个特征集合还包括至少一个时域特征,所述处理单元,还用于:
通过至少一个第二计算方式,对统计特征集合包括的统计特征进行计算,得到至少一个时域特征;
其中,所述统计特征集合包括K个统计特征,所述K个统计特征分别是在K个周期内计算得到的属于同一类型的统计特征,所述K个周期包括所述第一周期和位于所述第一周期之前的K-1个周期,所述至少一个第二计算方式包括如下一种或多种:计算所述统计特征集合中的相邻两个统计特征之间的环比值或差分值,对所述统计特征集合中的统计特征进行特征拟合。
34.如权利要求32或33所述的装置,其特征在于,所述任一个KPI集合包括所述N个业务流的状态标识,所述N个业务流中的任一个业务流的状态标识用于标识所述任一个业务流的状态;所述任一个KPI集合的统计特征包括用于标识成功状态的状态标识数目和用于标识失败状态的状态标识数目;所述任一个特征集合还包括成功状态的业务流比例和/或失败状态的业务流比例;
所述处理单元,还用于:
根据所述用于标识成功状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算成功状态的业务流比例;和/或,
根据所述用于标识失败状态的状态标识数目和所述任一个KPI集合包括的KPI数目,计算失败状态的业务流比例。
35.如权利要求32至34任一项所述的装置,其特征在于,所述处理单元,还用于:
生成训练样本,所述训练样本包括所述任一个特征集合和所述训练样本的标签,在所述目标网络对象处于故障状态的情况下,所述标签用于标识所述故障状态,在所述目标网络对象处于正常状态的情况下,所述标签用于标识所述正常状态。
36.如权利要求31所述的装置,其特征在于,所述装置还包括:发送单元,
所述发送单元,用于向训练设备发送所述至少一个特征集合,所述至少一个特征集合用于所述训练设备训练故障检测模型;
所述接收单元,用于接收所述训练设备发送的所述故障检测模型。
37.一种故障检测模型的训练系统,其特征在于,所述系统包括:如权利要求19至29任一项所述的装置和如权利要求30至36任一项所述的装置。
CN202010077206.XA 2020-01-24 2020-01-24 故障检测模型的训练方法、装置及系统 Active CN113179172B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010077206.XA CN113179172B (zh) 2020-01-24 2020-01-24 故障检测模型的训练方法、装置及系统
PCT/CN2020/119031 WO2021147370A1 (zh) 2020-01-24 2020-09-29 故障检测模型的训练方法、装置及系统
EP20915373.3A EP4084410A4 (en) 2020-01-24 2020-09-29 Method, apparatus and system for training fault detection model
US17/871,498 US20220368606A1 (en) 2020-01-24 2022-07-22 Fault Detection Model Training Method, Apparatus, and System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077206.XA CN113179172B (zh) 2020-01-24 2020-01-24 故障检测模型的训练方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113179172A true CN113179172A (zh) 2021-07-27
CN113179172B CN113179172B (zh) 2022-12-30

Family

ID=76921406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077206.XA Active CN113179172B (zh) 2020-01-24 2020-01-24 故障检测模型的训练方法、装置及系统

Country Status (4)

Country Link
US (1) US20220368606A1 (zh)
EP (1) EP4084410A4 (zh)
CN (1) CN113179172B (zh)
WO (1) WO2021147370A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023124468A1 (zh) * 2021-12-31 2023-07-06 中兴通讯股份有限公司 业务质量的检测方法、装置、服务器和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884883B (zh) * 2022-06-16 2024-01-30 深圳星云智联科技有限公司 一种流量转发方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201322571D0 (en) * 2013-12-19 2014-02-05 Bae Systems Plc Network fault detection and location
CN103973496A (zh) * 2014-05-21 2014-08-06 华为技术有限公司 故障诊断方法及装置
WO2018149294A1 (zh) * 2017-02-20 2018-08-23 华为技术有限公司 一种分组网络中处理业务流的方法及装置
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN109446049A (zh) * 2018-11-01 2019-03-08 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法和装置
CN109617715A (zh) * 2018-11-27 2019-04-12 中盈优创资讯科技有限公司 网络故障诊断方法、系统
CN110502398A (zh) * 2019-08-21 2019-11-26 吉林吉大通信设计院股份有限公司 一种基于人工智能的交换机故障预测系统及方法
CN110650052A (zh) * 2019-09-26 2020-01-03 科大国创软件股份有限公司 一种基于智能算法的客户原因故障识别处理方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160088502A1 (en) * 2013-05-14 2016-03-24 Nokia Solutions And Networks Oy Method and network device for cell anomaly detection
WO2015119544A1 (en) * 2014-02-10 2015-08-13 Telefonaktiebolaget L M Ericsson (Publ) Management system and network element for handling performance monitoring in a wireless communications system
KR102029849B1 (ko) * 2015-01-27 2019-10-08 노키아 솔루션스 앤드 네트웍스 오와이 트래픽 흐름 모니터링
CN105554782B (zh) * 2015-12-09 2019-01-01 中国联合网络通信集团有限公司 用户感知指标的预测方法和装置
US20170215094A1 (en) * 2016-01-22 2017-07-27 Hitachi, Ltd. Method for analyzing and inferring wireless network performance
WO2017137091A1 (en) * 2016-02-12 2017-08-17 Telefonaktiebolaget Lm Ericsson (Publ) Calculating service performance indicators
EP3473034B1 (en) * 2016-06-16 2021-03-31 Telefonaktiebolaget LM Ericsson (publ) Method for volte voice quality fault localization
CN107623924A (zh) * 2016-07-15 2018-01-23 中兴通讯股份有限公司 一种验证影响关键质量指标kqi相关的关键性能指标kpi的方法和装置
US11018958B2 (en) * 2017-03-14 2021-05-25 Tupl Inc Communication network quality of experience extrapolation and diagnosis
CN108737193A (zh) * 2018-06-05 2018-11-02 亚信科技(中国)有限公司 一种故障预测方法及装置
CN109547251B (zh) * 2018-11-27 2022-05-10 广东电网有限责任公司 一种基于监控数据的业务系统故障与性能预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201322571D0 (en) * 2013-12-19 2014-02-05 Bae Systems Plc Network fault detection and location
CN103973496A (zh) * 2014-05-21 2014-08-06 华为技术有限公司 故障诊断方法及装置
WO2018149294A1 (zh) * 2017-02-20 2018-08-23 华为技术有限公司 一种分组网络中处理业务流的方法及装置
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN109446049A (zh) * 2018-11-01 2019-03-08 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法和装置
CN109617715A (zh) * 2018-11-27 2019-04-12 中盈优创资讯科技有限公司 网络故障诊断方法、系统
CN110502398A (zh) * 2019-08-21 2019-11-26 吉林吉大通信设计院股份有限公司 一种基于人工智能的交换机故障预测系统及方法
CN110650052A (zh) * 2019-09-26 2020-01-03 科大国创软件股份有限公司 一种基于智能算法的客户原因故障识别处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李鹏园等: "基于神经网络的数据中心故障预测方法的研究", 《智能计算机与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023124468A1 (zh) * 2021-12-31 2023-07-06 中兴通讯股份有限公司 业务质量的检测方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
US20220368606A1 (en) 2022-11-17
EP4084410A4 (en) 2023-06-28
EP4084410A1 (en) 2022-11-02
CN113179172B (zh) 2022-12-30
WO2021147370A1 (zh) 2021-07-29

Similar Documents

Publication Publication Date Title
CN111193666B (zh) 使用自适应机器学习探测预测应用体验质量度量
CN111052668B (zh) 用于优化网络服务的驻留时间测量
US20220368606A1 (en) Fault Detection Model Training Method, Apparatus, and System
CN112311614B (zh) 评估网络节点相关传输性能的系统、方法以及相关设备
US10237192B2 (en) Apparatus and system for optimizing communication networks
EP2266254A2 (en) Available bandwidth estimation in a packet-switched communication network
EP4195594A1 (en) Congestion control method and apparatus, network node device and computer-readable storage medium
US11888745B2 (en) Load balancer metadata forwarding on secure connections
US11902133B2 (en) Network performance monitoring using an active measurement protocol and relay mechanism
US11843615B2 (en) Attack response point selecting apparatus and attack response point selecting method
CN116545936B (zh) 拥塞控制方法、系统、装置、通信设备及存储介质
Chen et al. SDATP: An SDN-based traffic-adaptive and service-oriented transmission protocol
US10862805B1 (en) Intelligent offloading of services for a network device
Wette et al. DCT2Gen: A traffic generator for data centers
Lei et al. Deploying QoS-assured service function chains with stochastic prediction models on VNF latency
Attar et al. E-health communication system with multiservice data traffic evaluation based on a G/G/1 analysis method
CN113179171B (zh) 故障检测方法、装置及系统
CN114500218A (zh) 一种控制网络设备的方法及装置
JP4222567B2 (ja) 輻輳制御方法および輻輳制御装置
CN115914115A (zh) 网络拥塞控制方法、装置及通信系统
CN110891077A (zh) Cdn节点检测方法及装置
CN112583818B (zh) 针对移动Web服务的自适应传输协议选择方法和装置
Qiao et al. Fine-Grained Active Queue Management in the Data Plane with P4
CN114785716B (zh) 一种基于自诱导拥塞和单向延迟的可用带宽测量方法
US20230009602A1 (en) Path Assurance in Shared Transport

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant