CN111970156A - 网络故障根因分析方法、装置、计算机设备及存储介质 - Google Patents

网络故障根因分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111970156A
CN111970156A CN202010880052.8A CN202010880052A CN111970156A CN 111970156 A CN111970156 A CN 111970156A CN 202010880052 A CN202010880052 A CN 202010880052A CN 111970156 A CN111970156 A CN 111970156A
Authority
CN
China
Prior art keywords
dimension
matrix
abnormal
index
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010880052.8A
Other languages
English (en)
Other versions
CN111970156B (zh
Inventor
温子将
冯迅
陈凌
孟俊萍
陈展
钟裕滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202010880052.8A priority Critical patent/CN111970156B/zh
Publication of CN111970156A publication Critical patent/CN111970156A/zh
Application granted granted Critical
Publication of CN111970156B publication Critical patent/CN111970156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开一种网络故障根因分析方法、装置、计算机设备及存储介质,包括:获取目标节点的维度信息,其中,所述维度信息包括所述目标节点至少一种运行维度的第一运行数据;将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵;根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;根据所述维度指标确定所述目标节点的异常维度。通过对目标节点的数据进行分析,能够快速的确定造成运行异常的异常维度,缩短了异常排查时长,降低了排查难度。而将数组矩阵转化为低冗余度的低秩矩阵和稀疏矩阵,有效降低了数据处理量,提高了数据处理效率。

Description

网络故障根因分析方法、装置、计算机设备及存储介质
技术领域
本申请涉及网络传输领域,尤其涉及一种网络故障根因分析方法,相应也涉及一种网络故障根因分析装置、计算机设备及非易失性存储介质。
背景技术
网络直播吸取和延续了互联网的优势,利用视讯方式进行网上现场直播,可以将产品展示、相关会议、背景介绍、方案测评、网上调查、对话访谈、在线培训等内容现场发布到互联网上,利用互联网的直观、快速,表现形式好、内容丰富、交互性强、地域不受限制、受众可划分等特点,加强活动现场的推广效果。
网络直播的数据流量较大而传输实时性要求较高,对其服务架构的网络稳定性的要求也就较高,然而,限于全球通信网络基础建设现状,在一些网络直播实际应用过程中,例如直播平台中的直播活动、教学活动和会议活动等,常因一些异常导致活动无法正常举行。一旦异常出现,网络支持的各方一般通过与异常相关的数据来排查问题所在,相关解决方案也层出不穷。
本申请创造的申请人在研究中发现,目前基于音视频观众端的统计的核心指标,在发生大范围异常时,如卡顿率突然增高,则会产生告警,但当前的告警中,只起到了提示作用,并无法立刻定位原因,通常只能够通过人力进行排查,这个过程的耗时较为严重。
申请内容
本申请提供一种网络故障根因分析方法,相应也提供一种网络故障根因分析装置、计算机设备及存储介质。
为解决上述技术问题,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种网络故障根因分析方法,包括:
获取目标节点的维度信息,其中,所述维度信息包括所述目标节点至少一种运行维度的第一运行数据;
将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵;
根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;
根据所述维度指标确定所述目标节点的异常维度。
可选的实施例中,所述将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵包括:
将所述第一运行数据进行二维转化生成数组矩阵;
对所述数组矩阵进行归一化处理,使所述数据矩阵中的元素数值均位于预设的第一阈值区间内;
基于预设的鲁棒主成分分析法,对所述归一化处理后的数组矩阵进行分解处理生成所述低秩矩阵和稀疏矩阵。
可选的实施例中,所述维度信息包括多个运行维度的第一运行数据,所述根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标包括:
基于所述低秩矩阵和所述数组矩阵,计算各运行维度的第一皮尔森相关系数;
基于所述稀疏矩阵和所述数组矩阵,计算各运行维度的第二皮尔森相关系数;
根据所述第一皮尔森相关系数和第二皮尔森相关系数,筛选符合预设第一筛选条件的异常指标对应的运行维度;
根据所述稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标。
可选的实施例中,所述根据所述稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标包括:
对所述稀疏矩阵中所述异常指标对应的元素数值,进行累加求和生成第一指标参数;
对所述数组矩阵中所述异常指标对应的元素数值进行异常值检测,并计算所述异常指标中异常数据占比生成第二指标参数;
根据所述第一指标参数和第二指标参数,确定所述各异常指标对应运行维度的维度指标。
可选的实施例中,所述根据所述第一指标参数和第二指标参数,确定所述各异常指标对应运行维度的维度指标包括:
对所述第一指标参数和第二指标参数进行乘法运算;
基于预设的激活函数,将所述乘法运算的结果映射至预设的第二阈值区间内,生成所述各异常指标对应运行维度的维度指标。
进一步的实施例中,所述获取目标节点的维度信息之前,包括:
获取目标频道链路的链路信息,其中,所述目标频道链路包括多个频道节点,各频道节点构建具有多级连接关系的拓扑图谱,所述链路信息包括各频道节点不同运行维度产生的第二运行数据;
将所述链路信息输入至预设的模型集中,其中,所述模型集包括多个分析模型,各分析模型根据所述拓扑图谱和所述第二运行数据,分级判断所述多个频道节点中是否存在异常节点;
当确定所述多个频道节点中存在所述异常节点时,确定所述异常节点为所述目标节点。
进一步的实施例中,所述获取目标频道链路的链路信息之前,包括:
采集音视频传输的目标链路的状态信息,其中,所述目标链路包括多个频道链路,所述状态信息用于表征各频道链路至少一项运行状态的第三运行数据;
根据预设的标记规则,将所述第三运行数据划分为正样本数集和负样本数集;
基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
根据所述维度指标确定影响所述目标链路运行状态的频道链路为目标频道链路。
为解决上述技术问题,适应本申请的目的之一,还提供一种网络故障根因分析装置,包括:
获取模块,用于获取目标节点的维度信息,其中,所述维度信息包括所述目标节点至少一种运行维度的第一运行数据;
转化模块,用于将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵;
处理模块,用于根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;
执行模块,用于根据所述维度指标确定所述目标节点的异常维度。
可选地,所述网络故障根因分析装置还包括:
第一转化子模块,用于将所述第一运行数据进行二维转化生成数组矩阵;
第一处理子模块,用于对所述数组矩阵进行归一化处理,使所述数据矩阵中的元素数值均位于预设的第一阈值区间内;
第一执行子模块,用于基于预设的鲁棒主成分分析法,对所述归一化处理后的数组矩阵进行分解处理生成所述低秩矩阵和稀疏矩阵。
可选地,所述维度信息包括多个运行维度的第一运行数据,所述网络故障根因分析装置还包括:
第一计算子模块,用于基于所述低秩矩阵和所述数组矩阵,计算各运行维度的第一皮尔森相关系数;
第二计算子模块,用于基于所述稀疏矩阵和所述数组矩阵,计算各运行维度的第二皮尔森相关系数;
第一筛选子模块,用于根据所述第一皮尔森相关系数和第二皮尔森相关系数,筛选符合预设第一筛选条件的异常指标对应的运行维度;
第二执行子模块,用于根据所述稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标。
可选地,所述网络故障根因分析装置还包括:
第三计算子模块,用于对所述稀疏矩阵中所述异常指标对应的元素数值,进行累加求和生成第一指标参数;
第四计算子模块,用于对所述数组矩阵中所述异常指标对应的元素数值进行异常值检测,并计算所述异常指标中异常数据占比生成第二指标参数;
第三执行子模块,用于根据所述第一指标参数和第二指标参数,确定所述各异常指标对应运行维度的维度指标。
可选地,所述网络故障根因分析装置还包括:
第五计算子模块,用于对所述第一指标参数和第二指标参数进行乘法运算;
第四执行子模块,用于基于预设的激活函数,将所述乘法运算的结果映射至预设的第二阈值区间内,生成所述各异常指标对应运行维度的维度指标。
可选地,所述网络故障根因分析装置还包括:
第一获取子模块,用于获取目标频道链路的链路信息,其中,所述目标频道链路包括多个频道节点,各频道节点构建具有多级连接关系的拓扑图谱,所述链路信息包括各频道节点不同运行维度产生的第二运行数据;
第二处理子模块,用于将所述链路信息输入至预设的模型集中,其中,所述模型集包括多个分析模型,各分析模型根据所述拓扑图谱和所述第二运行数据,分级判断所述多个频道节点中是否存在异常节点;
第五执行子模块,用于当确定所述多个频道节点中存在所述异常节点时,确定所述异常节点为所述目标节点。
可选地,所述网络故障根因分析装置还包括:
第一采集子模块,用于采集音视频传输的目标链路的状态信息,其中,所述目标链路包括多个频道链路,所述状态信息用于表征各频道链路至少一项运行状态的第三运行数据;
第一划分子模块,用于根据预设的标记规则,将所述第三运行数据划分为正样本数集和负样本数集;
第三处理子模块,用于基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
第六执行子模块,用于根据所述维度指标确定影响所述目标链路运行状态的频道链路为目标频道链路。
本申请为解决上述技术问题而提供的一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述网络故障根因分析方法的步骤。
本申请为解决上述技术问题而提供的一种非易失性存储介质,其存储有所述的网络故障根因分析方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
相对于现有技术,本申请实施例的有益效果是:
本申请在确定影响网络传输链路运行的目标节点后,对该目标节点进行不同运行维度的运行数据进行采集,将采集的运行数据转化为数组矩阵后,对数组矩阵进行低冗余处理,将数组矩阵分解为低秩矩阵和稀疏矩阵。通过对低秩矩阵和稀疏矩阵包含的数据进行指标化分析,得到各个运行维度的维度指标,再从维度指标中确定造成目标节点运行异常的异常维度。通过对目标节点的数据进行分析,能够快速的确定造成运行异常的异常维度,缩短了异常排查时长,降低了排查难度。而将数组矩阵转化为低冗余度的低秩矩阵和稀疏矩阵,有效降低了数据处理量,提高了数据处理效率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个具体实施例的网络故障根因分析方法的基本流程示意图;
图2为本申请一个具体实施例的分解数组矩阵的流程示意图;
图3为本申请一具体实施例的通过异常指标确定异常运行维度的流程示意图;
图4为本申请一个具体实施例的根据稀疏矩阵和数组矩阵计算维度指标的流程示意图;
图5为本申请一个具体实施例的维度指标的运算流程示意图;
图6为本申请一个具体实施例的确定目标节点的流程示意图;
图7为本申请一个具体实施例的确定目标频道链路的流程示意图;
图8为本申请一个实施例的网络故障根因分析装置基本结构原理示意图;
图9为本申请一个实施例的计算机设备的基本结构原理框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
请参阅图1,图1为本申请网络故障根因分析方法在其典型实施例中的基本流程示意图。如图1所示,一种网络故障根因分析方法,在其典型实施例中,包括:
步骤S1100、获取目标节点的维度信息,其中,所述维度信息包括所述目标节点至少一种运行维度的第一运行数据;
通过链路网络故障根因分析和/或频道链路分析确定引起网络传输链路异常的原因在于节点异常时,确定该节点为目标节点。目标节点的设备能够为组成网络链路的任意设备,包括(不限于):终端设备、网关、物理链路、服务器设备和云端设备。
在一些实施方式中,当目标节点为音视频传输链路中的频道链路组成部分时,目标链路包括(不限于):主播设备、avp(Attribute-Value Pair,数据标识名称)服务器和CDN(Content Delivery Network,内容分发网络)设备。
确定目标节点后,对目标节点的运行数据进行采集,采集运行数据时,需要采集目标节点不同运行维度的运行数据。采集的运行维度包括(不限于):采集时延、数据堆积时延、丢包率、处理速率或者渲染时延等影响目标节点正常运行的维度数据,将采集的运行维度的运行数据定义为第一运行数据。
在一些实施方式中,为降低后期进行数据处理的难度,在进行链路网络故障根因分析和/或频道链路网络故障根因分析时,通过对历史数据进行分析,根据不同的数据异常表现,确定可能导致网络传输链路异常的运行维度信息。然后,在进行目标节点第一运行数据采集时,则只采集确定的引起网络传输链路异常可能的运行维度。以此,降低全维度运行数据提取导致的数据体量过大,运算耗时的问题。
在一些实施方式中,第一运行数据的数据格式为:JSON(JavaScript ObjectNotation,JS对象简谱)数据,JSON数据是一种轻量级的数据交换格式。但是,第一运行数据的数据格式不局限于此,根据具体应用场景的不同,在一些实施方式中,第一运行数据的数据格式包括(不限于):HTML(Hyper Text Markup Language,超文本标记语言)系列、XML(Extensible Markup Language,可扩展标记语言)系列或Web脚本系列数据格式。
步骤S1200、将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵;
将采集的第一运行数据进行数据转化,转化的方式为:运行维度的类别为区分,将每个运行维度的数据作为数组矩阵的一行或者一列,依次将不同运行维度的第一运行数据转化为数组矩阵的列或者行。将目标节点采集的运行维度转化为一个完整的二维数组矩阵。
本实施方式中,通过RPCA(Robust Principal Component Analysis,鲁棒主成分分析法)对数组矩阵进行降维分解。降维分解的过程就是将一个矩阵分解为一个尽可能低秩矩阵L和一个尽可能稀疏的矩阵S。稀疏和低秩的相同点在于都表明矩阵的信息冗余比较大。具体来说,稀疏意味着有很多零,即可以压缩;低秩意味着矩阵有很多行(列)是线性相关的。秩可以理解为图像所包含的信息的丰富程度,秩越低表示数据冗余性越大,因为用很少几个基就可以表达所有数据了。相反,秩越大表示数据冗余性越小。
在一些实施方式中,对数组矩阵的降维分解还能够通过PCA(PrincipalComponent Analysis,主成分分析法)进行。
步骤S1300、根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;
在一些实施方式中,当分解生成数组矩阵的秩矩阵和稀疏矩阵后,将秩矩阵和稀疏矩阵分别输入至预设的双通道神经网络模型中,其中,第一通道对低秩矩阵进行特征提取,第二通道对稀疏矩阵进行特征提取,然后,在全连接层对两个特征数据进行拼接和分类,根据分类结果得到各个运行维度的维度指标。
在一些实施方式中,以运行维度为分类统计的条件,将稀疏矩阵或低秩矩阵中各运行维度的元素数值进行累加,计算出各运行维度的第一指标参数。通过异常检测算法对数组矩阵中各个运行维度的异常数据进行检测,并计算出各个运行维度中异常数据的占比,将该占比值记为第二指标参数。其中,组成矩阵任意一点的数值为元素数值。通过对第一指标参数和第二指标参数进行乘积运算后,得到个运行维度的维度指标。在一些实施方式中,需要通过激活函数将乘积运算后的结果映射到(0,1)之间的数值区间内,以规范维度指标的数值范围。
在一些实施方式中,通过稀疏矩阵计算第一指标参数,通过低秩矩阵计算第二指标参数。具体计算方式与前述实施方式相同,但用于计算的数据矩阵发生变化。
在一些实施方式中,统计低秩矩阵和数组矩阵中各运行维度的第一皮尔森相关系数;统计稀疏矩阵和数组矩阵中各运行维度的第二皮尔森相关系数。然后,筛选第一皮尔森相关系数大于第一阈值的运行维度;筛选第二皮尔森相关系数小于第二阈值的运行维度。将筛选得到的两类运行维度求其交集,得到异常候选集。对异常候选集中的运行维度进行第一指标参数和第二指标参数计算,并通过第一指标参数和第二指标参数计算得到异常候选集各运行维度的维度指标。
步骤S1400、根据所述维度指标确定所述目标节点的异常维度。
计算出各个运行维度的维度指标后,筛选维度指标中异常的维度指标所表征的运行维度为异常维度。需要指出的是,异常维度指标的辨识能够通过阈值进行辨识,例如,将维度指标大于0.5的运行维度确定为异常维度。但是,异常维度的筛选方式不局限于此,根据具体应用场景的不同,在一些实施方式中,异常候选集中的运行维度均为异常维度。
在一些实施方式中,异常维度的维度指标输出格式为:{故障时间,异常频道,异常节点,[异常指标1:得分1,...,异常指标n:得分n]},其中,异常指标为具体的异常运行维度,得分是异常运行维度的维度指标。
上述实施方式在确定影响链路运行的目标节点后,对该目标节点进行不同运行维度的运行数据进行采集,将采集的运行数据转化为数组矩阵后,对数组矩阵进行低冗余处理,将数组矩阵分解为低秩矩阵和稀疏矩阵。通过对低秩矩阵和稀疏矩阵包含的数据进行指标化分析,得到各个运行维度的维度指标,再从维度指标中确定造成目标节点运行异常的异常维度。通过对目标节点的数据进行分析,能够快速的确定造成运行异常的异常维度,缩短了异常排查时长,降低了排查难度。而将数组矩阵转化为低冗余度的低秩矩阵和稀疏矩阵,有效降低了数据处理量,提高了数据处理效率。
在一些实施方式中,需要通过数据转化,将数字矩阵进行简化和分解。请参阅图2,图2为分解数组矩阵的在其代表实施例中的流程示意图。
如图2所示,步骤S1200包括:
步骤S1211、将所述第一运行数据进行二维转化生成数组矩阵;
将采集的第一运行数据进行数据转化,转化的方式为:运行维度的类别为区分,将每个运行维度的数据作为数组矩阵的一行或者一列,依次将不同运行维度的第一运行数据转化为数组矩阵的列或者行。将目标节点采集的运行维度转化为一个完整的二维数组矩阵。
步骤S1212、对所述数组矩阵进行归一化处理,使所述数据矩阵中的元素数值均位于预设的第一阈值区间内;
在对数组矩阵进行进一步的分解处理之前,为降低后续数据处理的难度和运算量,需要对数组矩阵进行归一下处理。具体地,我们将数组矩阵中的每一个元素数值定义为X_i,然后,确定数组矩阵中元素数值最大的一个记为X_max,最后,通过X_i/X_max求取每一个元素数值归一化后的数值。归一化完成后数组矩阵中的元素数值则均位于[0,1]区间内,定义该区间为第一阈值区间。
步骤S1213、基于预设的鲁棒主成分分析法,对所述归一化处理后的数组矩阵进行分解处理生成所述低秩矩阵和稀疏矩阵。
对归一化处理有的数组矩阵进行分解处理,分解处理使用的方法为:通过RPCA(Robust Principal Component Analysis,鲁棒主成分分析法)对数组矩阵进行降维分解。降维分解的过程就是将一个矩阵分解为一个尽可能低秩矩阵L和一个尽可能稀疏的矩阵S。稀疏和低秩的相同点在于都表明矩阵的信息冗余比较大。具体来说,稀疏意味着有很多零,即可以压缩;低秩意味着矩阵有很多行(列)是线性相关的。秩可以理解为图像所包含的信息的丰富程度,秩越低表示数据冗余性越大,因为用很少几个基就可以表达所有数据了。相反,秩越大表示数据冗余性越小。
通过将数组矩阵进行归一化转化和去冗余转化后,降低了整个数组矩阵后续运算的冗余度,提高了处理效率。
在一些实施方式中,为进一步的降低数据处理的数据量,需要确定运行维度中的异常运行维度,然后,再计算各个异常运行维度的维度指标,通过这种方式,能够降低维度指标计算的数据量,进一步的提升计算效率。具体请参阅图3,图3为本实施例通过异常指标确定异常运行维度的流程示意图。
如图3所示,步骤S1300包括:
步骤S1311、基于所述低秩矩阵和所述数组矩阵,计算各运行维度的第一皮尔森相关系数;
在确定异常运行维度之前,需要计算低秩矩阵和数组矩阵之间的第一皮尔森相关系数。Pearson相关系数(Pearson Correlation Coefficient,皮尔森相关系数)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
具体地,通过低秩矩阵和数组矩阵计算各个运行维度在两个矩阵中的协方差和标准差,然后,求取协方差和标准差的商,即为第一皮尔森相关系数。
步骤S1312、基于所述稀疏矩阵和所述数组矩阵,计算各运行维度的第二皮尔森相关系数;
计算得到第一皮尔森相关系数后,需要通过稀疏矩阵和数组矩阵计算各运行维度的第二皮尔森相关系数。具体地,通过稀疏矩阵和数组矩阵计算各个运行维度在两个矩阵中的协方差和标准差,然后,求取协方差和标准差的商,即为第二皮尔森相关系数。
需要指出的是步骤S1311和步骤S1312在步骤上不具有明确的先后顺序,理论上两个步骤谁先谁后执行,均不影响计算结果,以及后续运算的进行。
步骤S1313、根据所述第一皮尔森相关系数和第二皮尔森相关系数,筛选符合预设第一筛选条件的异常指标对应的运行维度;
计算得到第一皮尔森相关系数和第二皮尔森相关系数后,需要根据第一皮尔森相关系数和第二皮尔森相关系数确认异常指标,进而确定异常指标对应的异常运行维度。
具体地,设第一皮尔森相关系数为A1,第二皮尔森相关系数为A2。第一筛选条件为筛选A1大于0.9,且A2小于0.3的指标为异常指标,满足上述条件的运行维度组成的集合为异常候选集。但是,第一筛选条件不局限于,根据具体应用场景的不同,A1的筛选条件为大于0到1之间的任意数,A2的筛选条件为小于0到1之间的任意数。
步骤S1314、根据所述稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标。
筛选得到异常指标对应的运行维度后,根据各个异常运行维度在稀疏矩阵和数组矩阵中的元素数值计算得到,各个异常运行维度的维度指标。
具体请参阅图4,图4为本实施例根据稀疏矩阵和数组矩阵计算维度指标的流程示意图。
如图4所示,步骤S1314包括:
步骤S1321、对所述稀疏矩阵中所述异常指标对应的元素数值,进行累加求和生成第一指标参数;
每个异常指标对应一个异常运行维度,每个异常运行维度在稀疏矩阵中均对应有一行或者一列的元素数值,因此,每一个异常指标均对应有一串元素数值。
在稀疏矩阵中将各个异常指标对应的多个元素数值进行累加求和,累加求和得到的数值我们记为第一指标参数,标记为R1。
步骤S1322、对所述数组矩阵中所述异常指标对应的元素数值进行异常值检测,并计算所述异常指标中异常数据占比生成第二指标参数;
每个异常指标对应一个异常运行维度,每个异常运行维度在数组矩阵中均对应有一行或者一列的元素数值,因此,每一个异常指标在数组矩阵均对应有一串元素数值。
通过预设的异常值检测方法,计算每个异常指标对应元素数值中的异常值。具体地,异常检测使用3sigma(Three Sigma Guidelines,三西格玛算法),先假设各异常运行维度在数组矩阵只含有随机误差,在数组矩阵中对各运行维度对应的元素数值串进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的元素数值为异常数据。其中,概率区间的取值能够根据实际需求灵活设置。
计算出各个异常指标对应的异常数据数量后,将其与各个异常指标对应的元素数值的数量进行占比计算,计算出各个异常指标对应的异常数据的占比,将计算得到的占比值记为第二指标参数,标记为R2。
步骤S1323、根据所述第一指标参数和第二指标参数,确定所述各异常指标对应运行维度的维度指标。
根据第一指标参数和第二指标参数,确定各个异常指标对应运行维度的维度指标,即异常运行维度的维度指标。
在一些实施方式中,将各个异常指标对应运行维度的第一指标参数和第二指标参数进行求和。求和得到的结果即各个异常指标对应运行维度的维度指标。
在一些实施方式中,将各个异常指标对应运行维度的第一指标参数和第二指标参数进行乘积运算。乘积运算得到的结果即各个异常指标对应运行维度的维度指标。
在一些实施方式中,为使各异常运行维度的维度指标归一化,需要对输出的结果进行归一化运算。请参阅图5,图5为本实施例维度指标的运算流程示意图。
如图5所示,步骤S1323包括:
步骤S1331、对所述第一指标参数和第二指标参数进行乘法运算;
将各个异常指标对应运行维度的第一指标参数和第二指标参数进行乘积运算,即R1*R2。
步骤S1332、基于预设的激活函数,将所述乘法运算的结果映射至预设的第二阈值区间内,生成所述各异常指标对应运行维度的维度指标。
基于将Sigmoid函数(Sigmoid function,激活函数)对乘法运算的结果进行归一化。Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。因此,第二阈值区间为(0,1)。记各异常运行维度的维度指标为:score,则维度指标的特征描述为:score=Sigmoid(R1)*R2。
在一些实施方式中,当目标节点属于频道链路时,在进行目标节点的异常运行维度时分析之前,需要先确定异常运行维度对应的节点在。具体请参阅图6,图6为本实施例确定目标节点的流程示意图。
如图6所示,步骤S1100之前包括:
步骤S1010、获取目标频道链路的链路信息,其中,所述目标频道链路包括多个频道节点,各频道节点构建具有多级连接关系的拓扑图谱,所述链路信息包括各频道节点不同运行维度产生的第二运行数据;
当确定传输音视频或者其他网络信息的传输链路出现异常时,首先,在整个传输链路中进行根因分析,当根因分析的结果指示是频道链路出现异常,导致整个传输网络出现数据异常时,需要对异常的频道链路进行各项指标的采集。
其中,频道链路是指传播音视频信息的主播端网络链路。频道链路是由多个频道节点连接而成包括:主播设备、avp(Attribute-Value Pair,数据标识名称)服务器和CDN(Content Delivery Network,内容分发网络)设备。主播设备、avp服务器和CDN设备均属于频道节点。
各个频道节点组成一个用于数据传输的多级传输网络,例如,主播设备与avp服务器连接,avp服务器与CDN设备连接,如此,构成一个二级数据传输网络,主播设备、avp服务器和CDN设备组成一个双向级联的拓扑图谱。但是,组成频道链路的频道节点不局限于此,根据具体应用场景的不同,在一些实施方式中频道链路还包括网关或转码服务器等设备。根据频道节点的增加,更多的频道节点能够组成更加复杂的拓扑图谱。
链路信息包括各个频道节点不同维度的运行数据,因此,第二运行数据包括(不限于):采集时延、数据堆积时延、丢包率、端到端时延或者渲染时延等影响目标链路传输效率的运行数据。具体地,在采集第二运行数据时,以频道节点为采集对象采集频道节点之间端到端之间数据传输时产生的第二运行数据。
具体地,当确定目标频道链路为引起整个传输网络传输链路异常的原因后,对目标频道链路进行第二运行数据采集。采集时,采集目标链路10分钟内进行数据传输产生的不同维度的第二运行数据。但是,对第二运行数据的采集时长不局限于此,根据具体应用场景的不同,在一些实施方式中,采集时长能够为:1分钟、5分钟、20分钟或者例举值以外更短或者更长的时间段。
步骤S1020、将所述链路信息输入至预设的模型集中,其中,所述模型集包括多个分析模型,各分析模型根据所述拓扑图谱和所述第二运行数据,分级判断所述多个频道节点中是否存在异常节点;
将采集得到的目标频道链路的链路信息输入至预设的模型集中。模型集是由多个分析模型组成的算法集合,模型集中各个分析模型能够独立的对各个维度的第二运行数据进行分析。
各分析模块对各个维度的第二运行数据进行分析时,需要分级对第二运行数据进行分析。分级的依据在于根据拓扑图谱中记载的连接关系进行分级。例如,根据拓扑图谱中记载的音视频数据传输的起始点开始,依次的对频道节点之间的第二运行数据进行分析。当主播设备、avp服务器和CDN设备组成一个频道链路时,音视频数据由主播设备生成后依次传输至avp服务器和CDN设备。则进行分析时,先分析主播设备和avp服务器之间的第二运行数据,然后,分析avp服务器和CDN设备之间的第二运行数据。分级分析的次序不局限于此,根据具体应用场景的不同,在一些实施方式中,分级分析的次序能够按CDN设备—avp服务器—主播设备的次序进行。
在一些实施方式中,当同一级别中存在多个端到端的数据传输链路时,优先对传输链路较短的频道节点的第二运行数据进行分析。例如,当频道链路包括:主播设备、avp服务器、CDN设备和内容诊断设备时,其中,主播设备分别于avp服务器和内容诊断设备连接,avp服务器又跟CDN设备连接,此时,由于内容诊断设备仅仅与主播设备连接,无其他设备与它再发生数据传输,因此,主播设备和内容诊断设备的传输链路较短,同级链路中优先对主播设备和内容诊断设备之间的第二运行数据进行分析。
本实施方式中,模型集包括:孤立森林模型、支持向量机模型和局部异常因子模型。但是模型集中的分析模型不局限于此,根据具体应用场景的不同,模型集中还能包括(不限于):近邻算法模型、决策树模型、朴素贝叶斯、K均值算法模型、自编码器模型或主成分分析模型等有监督或者无监督模型。
模型集中的多个分析模型分别对同一级别中的第二运行数据进行分析,根据预先训练的分类逻辑或者数据之间的相互作用关系,每个分析模型根据各自的分析逻辑得到该第二运行数据是否异常的判断结果,并输出该判断结果。
在一些实施方式中,当且仅当模型集中的多个分析模型中,有一个模型分析第二运行数据的结果为异常时,则确定该第二运行数据对应的频道节点为异常。但是,判断方式不局限于此,根据具体应用场景的不同,在一些实施方式中,当且仅当异常判断结果的占比在整个分析模型的判断结论中超过50%时,则确定该第二运行数据对应的频道节点为异常。在另一些实施方式中,当且仅当所有分析模型输出的判断结果均为异常时,则确定该第二运行数据对应的频道节点为异常。
步骤S1030、当确定所述多个频道节点中存在所述异常节点时,确定所述异常节点为所述目标节点。
当确定目标频道链路中的频道节点存在异常节点时,需要向对应的维护人员的终端发送异常节点的节点信息,节点信息中包括异常节点的ID信息,以便于维护人员能够快速确定异常节点并对应异常原因进行快速排查。本实施方式中,将异常节点记为目标节点。
在一些实施方式中,节点信息中还包括异常节点执行的任务信息,任务信息的发送有利于异常节点回复或者修复后,对任务数据进行断点传输,避免数据丢失,也能够防止重复进行数据传输。
本实施方式中,先对整个频道链路进行异常排查,当排查结果表明造成频道网络传输链路异常的病症在某个异常节点中时,进一步的对异常节点的异常原因进行下钻分析,提高了网络故障根因分析的准确度,同时,通过由大到小分级别的分析策略,提高了整个网络故障根因分析的效率。
在一些实施方式中,当音视频传输网络出现异常时,需要在整个传输链路中进行确定异常链路,当确定异常链路为频道链路时,确定对该异常频道链路进行进一步的网络故障根因分析。请参阅图7,图7为本实施例确定目标频道链路的流程示意图。
如图7所示,步骤S1010之前包括:
步骤S1001、采集音视频传输的目标链路的状态信息,其中,所述目标链路包括多个频道链路,所述状态信息用于表征各频道链路至少一项运行状态的第三运行数据;
在具体的网络音视频直播场景中,一个完整的音视频传播链路包含了从主播设备端到观众设备端的过程,音视频流从主播端被采集上传到avp(Attribute-Value Pair,数据标识名称)服务器中,再经过混画转码,最后通过CDN(Content Delivery Network,内容分发网络)等渠道下发到观众端,这一过程构成了完整的音视频传输。
在上述场景中,数据的传输终端涉及:主播设备、服务器端和观众端。音视频数据在上述三个设备之间进行传输时,无论在任何一个设备位置处或者在传输链路中穿线卡顿或者延时,均会导致音视频传输出现卡顿或者延时。
目标链路包括:主播设备、服务器端、观众端以及各设备之间的网络链路。
在音视频数据传输过程中,通过实时或者定时的方式对目标链路的状态信息进行采集。
在正常的使用过程中,由于,造成目标链路传输数据出现卡顿或者延误的原因有所不同,因此,在进行第三运行数据采集时,需要采集不同的维度的状态信息。例如,采集时延、数据堆积时延、丢包率、端到端时延或者渲染时延等影响目标链路传输效率的运行数据。其中,每种类型的运行数据均象征目标链路的一种运行状态。运行数据还包括生成上述状态信息的物理节点的设备信息。
步骤S1002、根据预设的标记规则,将所述第三运行数据划分为正样本数集和负样本数集;
对目标链路中的采集的各个维度的运行状态的运行数据的进行正样本数集和负样本数集的划分。
例如,视频卡顿,我们首先对实时存储的每条音视频流进行是否异常判断,若采集到的运行数据是非连续型变量,则通常将其枚举值通过业务含义归类成二值变量,如卡顿则最终转换是否卡顿的正负状态标记,若为连续型变量,则通常通过告警阈值划分为正负状态标记,如视频连麦时延,大于阈值,则为时延过高,否则为正常,特别地,通常将异常数据成为正样本数据。
由上述举例可知,在进行正样本数集和负样本数集的划分的划分时,我们通过标记规则:枚举值标记或者阈值标记,将采集的同一类型但不同时域内的运行数据进行标记。标记时将异常的运行数据标记为正样本数据,将正常数据标记为负样本数据。例如,将卡顿标记为正样本数据,将正常运行标记为负样本数据。将多个不同时域的正样本数据或者负样本数据组成数集,生成运行数据的正样本数集和负样本数集。
步骤S1003、基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
不同类型的运行数据代表目标链路的不同运行维度,即每种运行状态对应一种运行维度。因此,基于各个运行维度的运行数据对应的正样本数集和负样本数集,能够计算出各运行维度的维度指标。
首先,对各个正样本数集和负样本数集中连续变化的数据进行分箱处理,分箱处理的目的在于,将连续变化的数据通过采取等频法或基于业务定义进行离散化,将其转化为非连续变量。记X_i为X变量离散化后某一分箱,其中i属于[1,...,n],基于X_i进行正负样本汇总,X每一个分箱的正样本数记为bad_i,负样本数记为good_i,计算各个分箱的证据权重值,记为WOE_i=ln((bad_i/bad_all)/(good_i/good_all),计算各个分箱的信息价值,记为IV_i=WOE_i*((bad_i/bad_all)-(good_i/good_all)),对WOE_i<0且正负样本合计数小于阈值的IV_i,对满足条件的IV_i进行求和,记为IV=sum(IV_i)。IV即为对应运行维度的维度指标,每一个运行维度的维度指标都表征该运行维度对目标链路正常运行的影响因子。其中,IV值越大,对目标链路正常运行的影响就越大。需要指出的是,对于WOE_i和IV_i的筛选条件在不同的实施方式中有所不同,例如,WOE_i的筛选条件能够为小于1、2、3或者其他任意实数,正负样本合计数小于1、2、3或者其他任意实数的IV_i。
步骤S1004、根据所述维度指标确定影响所述目标链路运行状态的频道链路为目标频道链路。
计算得到各个运行维度的维度指标后,通过排序的方式确定维度指标最大的值为聚集性维度。在一些实施方式中,根据IV值降序筛选出对目标链路影响最大的维度指标,并选取IV排序最大且信息价值大于0的维度指标作为聚集性维度。
当聚集性维度对应的设备或者链路为频道链路时,则该频道链路为目标频道链路。
当目标链路出现警示信息时,表明目标链路的某个环节出现了问题,导致目标链路传输数据不能够达到常规标准,此时,需要对目标链路中各个运行维度的数据进行采集,并计算各个运行维度的维度指标,然后,在维度指标中计算出聚集性维度。此时,聚集性维度即为确定的出现问题的根因节点对应的维度指标。由于,在进行运行数据采集时,会采集其对应设备的设备信息,因此,能够通过聚集性维度确定对应设备的频道链路,然后对该频道链路再进行异常排查,通过由大到小的排查方式,提高了排查的效率。
本实施方式中,先对整个传输链路进行异常排查,当排查结果表明造成传输网络传输链路异常的病症在某个频道链路中时,进一步的对频道链路的异常原因进行下钻分析,提高了网络故障根因分析的准确度,同时,通过由大到小分级别的分析策略,提高了整个网络故障根因分析的效率。
进一步,本申请可以根据所述的网络故障根因分析方法实现为计算机程序,当其在计算机设备中运行后便能构造出本申请的一种网络故障根因分析装置。具体请参阅图8,图8为本实施例网络故障根因分析装置基本结构示意图。
如图8所示,一种网络故障根因分析装置,包括:获取模块、转化模块、处理模块和执行模块。其中,获取模块用于获取目标节点的维度信息,其中,维度信息包括目标节点至少一种运行维度的第一运行数据;转化模块用于将第一运行数据转化为数组矩阵,并将数组矩阵分解为低秩矩阵和稀疏矩阵;处理模块用于根据低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;执行模块用于根据所述维度指标确定所述目标节点的异常维度。
网络故障根因分析装置在确定影响链路运行的目标节点后,对该目标节点进行不同运行维度的运行数据进行采集,将采集的运行数据转化为数组矩阵后,对数组矩阵进行低冗余处理,将数组矩阵分解为低秩矩阵和稀疏矩阵。通过对低秩矩阵和稀疏矩阵包含的数据进行指标化分析,得到各个运行维度的维度指标,再从维度指标中确定造成目标节点运行异常的异常维度。通过对目标节点的数据进行分析,能够快速的确定造成运行异常的异常维度,缩短了异常排查时长,降低了排查难度。而将数组矩阵转化为低冗余度的低秩矩阵和稀疏矩阵,有效降低了数据处理量,提高了数据处理效率。
在一些实施方式中,网络故障根因分析装置还包括:第一转化子模块、第一处理子模块和第一执行子模块。其中,第一转化子模块用于将第一运行数据进行二维转化生成数组矩阵;第一处理子模块用于对数组矩阵进行归一化处理,使数据矩阵中的元素数值均位于预设的第一阈值区间内;第一执行子模块用于基于预设的鲁棒主成分分析法,对归一化处理后的数组矩阵进行分解处理生成低秩矩阵和稀疏矩阵。
在一些实施方式中,维度信息包括多个运行维度的第一运行数据,网络故障根因分析装置还包括:第一计算子模块、第二计算子模块、第一筛选子模块和第二执行子模块。其中,第一计算子模块用于基于低秩矩阵和数组矩阵,计算各运行维度的第一皮尔森相关系数;第二计算子模块用于基于稀疏矩阵和数组矩阵,计算各运行维度的第二皮尔森相关系数;第一筛选子模块用于根据第一皮尔森相关系数和第二皮尔森相关系数,筛选符合预设第一筛选条件的异常指标对应的运行维度;第二执行子模块用于根据稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标。
在一些实施方式中,网络故障根因分析装置还包括:第三计算子模块、第四计算子模块和第三执行子模块。其中,第三计算子模块用于对稀疏矩阵中异常指标对应的元素数值,进行累加求和生成第一指标参数;第四计算子模块用于对数组矩阵中异常指标对应的元素数值进行异常值检测,并计算异常指标中异常数据占比生成第二指标参数;第三执行子模块用于根据第一指标参数和第二指标参数,确定各异常指标对应运行维度的维度指标。
在一些实施方式中,网络故障根因分析装置还包括:第五计算子模块和第四执行子模块。其中,第五计算子模块用于对第一指标参数和第二指标参数进行乘法运算;第四执行子模块用于基于预设的激活函数,将乘法运算的结果映射至预设的第二阈值区间内,生成各异常指标对应运行维度的维度指标。
在一些实施方式中,网络故障根因分析装置还包括:第一获取子模块、第二处理子模块和第五执行子模块。其中,第一获取子模块用于获取目标频道链路的链路信息,其中,目标频道链路包括多个频道节点,各频道节点构建具有多级连接关系的拓扑图谱,链路信息包括各频道节点不同运行维度产生的第二运行数据;第二处理子模块用于将链路信息输入至预设的模型集中,其中,模型集包括多个分析模型,各分析模型根据拓扑图谱和第二运行数据,分级判断多个频道节点中是否存在异常节点;第五执行子模块用于当确定多个频道节点中存在异常节点时,确定异常节点为目标节点。
在一些实施方式中,网络故障根因分析装置还包括:第一采集子模块、第一划分子模块、第三处理子模块和第六执行子模块。其中,第一采集子模块用于采集音视频传输的目标链路的状态信息,其中,目标链路包括多个频道链路,状态信息用于表征各频道链路至少一项运行状态的第三运行数据;第一划分子模块用于根据预设的标记规则,将第三运行数据划分为正样本数集和负样本数集;第三处理子模块用于基于正样本数集和负样本数集,计算目标链路各运行维度的维度指标,其中,维度指标用于表征各运行维度对目标链路运行状态的影响因子;第六执行子模块用于根据维度指标确定影响目标链路运行状态的频道链路为目标频道链路。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种网络故障根因分析方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种网络故障根因分析方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中获取模块2100、转化模块2200、处理模块2300和执行模块2400的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有网络故障根因分析装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备在确定影响链路运行的目标节点后,对该目标节点进行不同运行维度的运行数据进行采集,将采集的运行数据转化为数组矩阵后,对数组矩阵进行低冗余处理,将数组矩阵分解为低秩矩阵和稀疏矩阵。通过对低秩矩阵和稀疏矩阵包含的数据进行指标化分析,得到各个运行维度的维度指标,再从维度指标中确定造成目标节点运行异常的异常维度。通过对目标节点的数据进行分析,能够快速的确定造成运行异常的异常维度,缩短了异常排查时长,降低了排查难度。而将数组矩阵转化为低冗余度的低秩矩阵和稀疏矩阵,有效降低了数据处理量,提高了数据处理效率。
本申请还提供一种非易失性存储介质,其以计算机可读指令的形式存储有依据所述的网络故障根因分析方法所实现的计算机程序,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例网络故障根因分析方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims (10)

1.一种网络故障根因分析方法,其特征在于,包括:
获取目标节点的维度信息,其中,所述维度信息包括所述目标节点至少一种运行维度的第一运行数据;
将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵;
根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;
根据所述维度指标确定所述目标节点的异常维度。
2.根据权利要求1所述的网络故障根因分析方法,其特征在于,所述将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵包括:
将所述第一运行数据进行二维转化生成数组矩阵;
对所述数组矩阵进行归一化处理,使所述数据矩阵中的元素数值均位于预设的第一阈值区间内;
基于预设的鲁棒主成分分析法,对所述归一化处理后的数组矩阵进行分解处理生成所述低秩矩阵和稀疏矩阵。
3.根据权利要求1所述的网络故障根因分析方法,其特征在于,所述维度信息包括多个运行维度的第一运行数据,所述根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标包括:
基于所述低秩矩阵和所述数组矩阵,计算各运行维度的第一皮尔森相关系数;
基于所述稀疏矩阵和所述数组矩阵,计算各运行维度的第二皮尔森相关系数;
根据所述第一皮尔森相关系数和第二皮尔森相关系数,筛选符合预设第一筛选条件的异常指标对应的运行维度;
根据所述稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标。
4.根据权利要求3所述的网络故障根因分析方法,其特征在于,所述根据所述稀疏矩阵和数组矩阵确定各异常指标对应运行维度的维度指标包括:
对所述稀疏矩阵中所述异常指标对应的元素数值,进行累加求和生成第一指标参数;
对所述数组矩阵中所述异常指标对应的元素数值进行异常值检测,并计算所述异常指标中异常数据占比生成第二指标参数;
根据所述第一指标参数和第二指标参数,确定所述各异常指标对应运行维度的维度指标。
5.根据权利要求4所述的网络故障根因分析方法,其特征在于,所述根据所述第一指标参数和第二指标参数,确定所述各异常指标对应运行维度的维度指标包括:
对所述第一指标参数和第二指标参数进行乘法运算;
基于预设的激活函数,将所述乘法运算的结果映射至预设的第二阈值区间内,生成所述各异常指标对应运行维度的维度指标。
6.根据权利要求1所述的网络故障根因分析方法,其特征在于,所述获取目标节点的维度信息之前,包括:
获取目标频道链路的链路信息,其中,所述目标频道链路包括多个频道节点,各频道节点构建具有多级连接关系的拓扑图谱,所述链路信息包括各频道节点不同运行维度产生的第二运行数据;
将所述链路信息输入至预设的模型集中,其中,所述模型集包括多个分析模型,各分析模型根据所述拓扑图谱和所述第二运行数据,分级判断所述多个频道节点中是否存在异常节点;
当确定所述多个频道节点中存在所述异常节点时,确定所述异常节点为所述目标节点。
7.根据权利要求6所述的网络故障根因分析方法,其特征在于,所述获取目标频道链路的链路信息之前,包括:
采集音视频传输的目标链路的状态信息,其中,所述目标链路包括多个频道链路,所述状态信息用于表征各频道链路至少一项运行状态的第三运行数据;
根据预设的标记规则,将所述第三运行数据划分为正样本数集和负样本数集;
基于所述正样本数集和负样本数集,计算所述目标链路各运行维度的维度指标,其中,所述维度指标用于表征所述各运行维度对所述目标链路运行状态的影响因子;
根据所述维度指标确定影响所述目标链路运行状态的频道链路为目标频道链路。
8.一种网络故障根因分析装置,其特征在于,包括:
获取模块,用于获取目标节点的维度信息,其中,所述维度信息包括所述目标节点至少一种运行维度的第一运行数据;
转化模块,用于将所述第一运行数据转化为数组矩阵,并将所述数组矩阵分解为低秩矩阵和稀疏矩阵;
处理模块,用于根据所述低秩矩阵和稀疏矩阵确定所述至少一种运行维度的维度指标;
执行模块,用于根据所述维度指标确定所述目标节点的异常维度。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述网络故障根因分析方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述网络故障根因分析方法的步骤。
CN202010880052.8A 2020-08-27 2020-08-27 网络故障根因分析方法、装置、计算机设备及存储介质 Active CN111970156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010880052.8A CN111970156B (zh) 2020-08-27 2020-08-27 网络故障根因分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010880052.8A CN111970156B (zh) 2020-08-27 2020-08-27 网络故障根因分析方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111970156A true CN111970156A (zh) 2020-11-20
CN111970156B CN111970156B (zh) 2023-04-18

Family

ID=73400870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010880052.8A Active CN111970156B (zh) 2020-08-27 2020-08-27 网络故障根因分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111970156B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112436968A (zh) * 2020-11-23 2021-03-02 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
CN114723082A (zh) * 2022-04-19 2022-07-08 镇江西门子母线有限公司 一种智能低压成套设备的异常预警方法及系统
CN115577226A (zh) * 2022-12-08 2023-01-06 南方电网数字电网研究院有限公司 强迫振荡源定位方法、装置、设备、存储介质
CN117033876A (zh) * 2023-07-26 2023-11-10 北京半人科技有限公司 一种基于多级耦合算法的数字矩阵处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013143102A (ja) * 2012-01-12 2013-07-22 Nikon Corp 移動物体検出装置、移動物体検出方法およびプログラム
CN104220979A (zh) * 2009-05-27 2014-12-17 章寅 时空压缩感知方法及装置
CN105335653A (zh) * 2014-07-21 2016-02-17 华为技术有限公司 一种异常数据检测方法及装置
CN106301950A (zh) * 2016-09-07 2017-01-04 中国联合网络通信集团有限公司 一种od流量的分析方法及分析装置
CN107404471A (zh) * 2017-04-05 2017-11-28 青海民族大学 一种基于admm算法网络流量异常检测方法
US10484411B1 (en) * 2016-10-07 2019-11-19 Hrl Laboratories, Llc System for anomaly detection on CAN bus data with sparse and low rank decomposition of transfer entropy matrix

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104220979A (zh) * 2009-05-27 2014-12-17 章寅 时空压缩感知方法及装置
JP2013143102A (ja) * 2012-01-12 2013-07-22 Nikon Corp 移動物体検出装置、移動物体検出方法およびプログラム
CN105335653A (zh) * 2014-07-21 2016-02-17 华为技术有限公司 一种异常数据检测方法及装置
CN106301950A (zh) * 2016-09-07 2017-01-04 中国联合网络通信集团有限公司 一种od流量的分析方法及分析装置
US10484411B1 (en) * 2016-10-07 2019-11-19 Hrl Laboratories, Llc System for anomaly detection on CAN bus data with sparse and low rank decomposition of transfer entropy matrix
CN107404471A (zh) * 2017-04-05 2017-11-28 青海民族大学 一种基于admm算法网络流量异常检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112436968A (zh) * 2020-11-23 2021-03-02 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
CN112436968B (zh) * 2020-11-23 2023-10-17 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
CN114723082A (zh) * 2022-04-19 2022-07-08 镇江西门子母线有限公司 一种智能低压成套设备的异常预警方法及系统
CN114723082B (zh) * 2022-04-19 2023-08-18 镇江西门子母线有限公司 一种智能低压成套设备的异常预警方法及系统
CN115577226A (zh) * 2022-12-08 2023-01-06 南方电网数字电网研究院有限公司 强迫振荡源定位方法、装置、设备、存储介质
CN115577226B (zh) * 2022-12-08 2023-03-03 南方电网数字电网研究院有限公司 强迫振荡源定位方法、装置、设备、存储介质
CN117033876A (zh) * 2023-07-26 2023-11-10 北京半人科技有限公司 一种基于多级耦合算法的数字矩阵处理方法

Also Published As

Publication number Publication date
CN111970156B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN112019932B (zh) 网络故障根因定位方法、装置、计算机设备及存储介质
CN111970156B (zh) 网络故障根因分析方法、装置、计算机设备及存储介质
CN111177095B (zh) 日志分析方法、装置、计算机设备及存储介质
CN101945009B (zh) 基于案例和模式匹配的电力通信网故障定位方法及装置
CN113743675B (zh) 一种云服务QoS深度学习预测模型的构建方法和系统
CN114221790A (zh) 一种基于图注意力网络的bgp异常检测方法及系统
CN115237717A (zh) 一种微服务异常检测方法和系统
Xie et al. Neural tensor completion for accurate network monitoring
Wang et al. A multi-dimensional aesthetic quality assessment model for mobile game images
CN113707175B (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN114528434A (zh) 一种基于自注意力机制的iptv直播频道融合推荐方法
CN113536952A (zh) 一种基于动作捕捉的注意力网络的视频问答方法
CN111970157B (zh) 网络故障根因检测方法、装置、计算机设备及存储介质
CN110991219B (zh) 一种基于双路3d卷积网络的行为识别方法
CN117176417A (zh) 网络流量异常确定方法、装置、电子设备和可读存储介质
CN114071232B (zh) 音视频质量可视化方法及其装置、设备、介质、产品
CN115296933A (zh) 一种工业生产数据风险等级评估方法及系统
Harper et al. The application of neural networks to predicting the root cause of service failures
CN110348958A (zh) 一种个性化推荐方法和系统
Ickin Automated Feature Selection with Local Gradient Trajectory in Split Learning
CN114401398B (zh) 智能视频运维管理系统
US20240056459A1 (en) Stream extraction administration system
Krishnathasan Movie Recommendation System Using Concurrent Hybrid Variational Autoencoders
CN117520802B (zh) 一种电力工程现场轻量级审计事件识别方法、系统及设备
CN114139615A (zh) 基于混合神经网络cnn-dnn的入侵检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant