CN110896544B - 故障定界方法及装置 - Google Patents

故障定界方法及装置 Download PDF

Info

Publication number
CN110896544B
CN110896544B CN201811067998.1A CN201811067998A CN110896544B CN 110896544 B CN110896544 B CN 110896544B CN 201811067998 A CN201811067998 A CN 201811067998A CN 110896544 B CN110896544 B CN 110896544B
Authority
CN
China
Prior art keywords
fault
index
terminal
wireless side
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811067998.1A
Other languages
English (en)
Other versions
CN110896544A (zh
Inventor
李宗璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shandong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shandong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shandong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811067998.1A priority Critical patent/CN110896544B/zh
Publication of CN110896544A publication Critical patent/CN110896544A/zh
Application granted granted Critical
Publication of CN110896544B publication Critical patent/CN110896544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例提供一种故障定界方法及装置。所述方法包括:监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。本发明实施例解决了现有技术中通用OTT业务的故障定界方式,流程繁琐,对人工的依赖程度较高的问题。

Description

故障定界方法及装置
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种故障定界方法及装置。
背景技术
现阶段,分组交换(Packet Switch,PS)域在进行故障定界时,通常依据PS业务监控、PS业务质量评估或者第三方网络评估等数据,对具体指标或者网络中影响用户感知的潜在因素进行根因排查,最终输出定界结果进行优化提升。通常情况下,信令平台对整体业务感知类指标主要从设备层、管道层、业务层以及互联网应用服务(Over The Top,OTT)业务层等四个维度进行评估,而针对PS业务问题的故障定界主要采用通用的OTT业务定界规则。
具体地,OTT业务层主要包括通用类的即时通信(Instant Messaging,IM),业务、社交网络服务(Social Networking Services,SNS)业务、网络电话(Voice over InternetProtocol,VOIP)和文件存取(File Access)四类业务,以及OTT业务建模;OTT业务层的各种指标定界面向网元或者终端、无线、核心网、服务提供商(Service Provider,SP)四个方向。
由于目前视频业务激增,对于快速定界视频业务的故障,是提升视频感知的重要手段。网络级通用OTT业务的指标中,只有速率和流量是属于OTT业务特有的,而其他指标都是基础的传输控制协议(Transmission Control Protocol,TCP)指标。
流量指标在用于故障定界时,通常是当业务流量发生突降时,若网络中其他WEB/Streaming业务未发生通断类故障的情况,此时可能是具体业务的SP服务器或业务网到服务器之间的路由发生了问题,可通过查看该大类中TOP业务,针对SP的分析将问题定界到具体业务服务器上。
而对于速率或时延类指标,该类关键质量指标(Key Quality Indicators,KQI)主要受端到端因素的影响。在进行故障定界时,若其他WEB/Streaming业务速率或时延类KQI未发生同步异常,则对具体业务KQI的终端、网络中对该类业务的限速因素、对应SP进行多维度分析,判断问题根因所在。若其他业务和OTT类速率或时延类指标发生同步异常,则使用TCP指标辅助进行问题隔离定界。
目前,对于通用OTT业务的故障定界方式,对于速率类指标的通用分析,通用定界工具原则上是基于故障树平台承载的,对于不具备故障树支持能力的场景,可以使用信令平台的多维数据查询,按照分析逻辑,逐步获取分析维度数据并进行人工分析定界。
然而,通用OTT业务的故障定界流程繁琐,无线侧的故障定界主要还是依据无线侧的常规指标进行分析,无法快速定界是否为无线侧原因;且需要结合其他平台分析,跨平台较多,其中存在较多的人工分析定界,对人工的依赖程度较高,导致故障定界的效率低,精准度较差。
发明内容
本发明实施例提供一种故障定界方法及装置,用以解决现有技术中通用OTT业务的故障定界方式,流程繁琐,对人工的依赖程度较高的问题。
一方面,本发明实施例提供一种故障定界方法,所述方法包括:
监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
另一方面,本发明实施例提供一种故障定界装置,所述装置包括:
数据获取模块,用于监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
进程确定模块,用于根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
指标确定模块,用于根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
故障界定模块,用于根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述故障定界方法中的步骤。
再一方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述故障定界方法中的步骤。
本发明实施例提供的故障定界方法及装置,监测到终端当前进行OTT业务发生故障时,获取所述终端在故障时刻的信令数据,并根据所述信令数据,确定所述终端当前所处的进程;根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;根据所述关键业务指标值,确定所述故障对应的故障类型,实现自动对通用OTT业务的故障定界,无需依赖人工操作。且故障定界过程中,主要依据终端的信令数据实现,涉及的网元较少,过程简单,无需从设备层、管道层、业务层等逐层进行评估;从进程、预设规则以及多个关键业务指标值,综合考虑多个因素进行评估,提高故障定界的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的故障定界方法的流程示意图;
图2为本发明实施例的第一示例的流程示意图;
图3为本发明实施例的第二示例的流程示意图;
图4为本发明实施例的第三示例的流程图;
图5为本发明实施例的第四示例的流程图;
图6为本发明实施例提供的故障定界装置的结构示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
图1示出了本发明实施例提供的一种故障定界方法的流程示意图。
如图1所示,本发明实施例提供的故障定界方法,所述方法具体包括以下步骤:
步骤101,监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据。
其中,OTT业务指互联网公司基于开放互联网的各种视频及数据服务业务。在终端进行OTT业务时,监测终端的数据的网络之间互连的协议(Internet Protocol,IP)数据包以及(Domain Name System,DNS)数据包,根据IP数据包以及DNS数据包确定终端当前进行的OTT业务发生故障时,获取终端在故障时刻的信令数据。
信令是指在无线通信系统中,除了传输用户信息之外,为使全网有轶序地进行工作,用来保证正常通信所需要的控制信号。信令数据通常包括在程控交换、网络数据库或网络中其它节点之间交换的下列信息:呼叫建立、监控(Supervision)、拆除(Teardown)、分布式应用进程所需的信息(即进程之间的询问、响应或用户到用户的数据)、网络管理信息。
步骤102,根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段。
其中,信令数据中包括进程请求,因此,可根据终端所发送的进程请求,确定当前进程,比如,若当前时刻之前最后的请求为建链请求,则终端当前的进程为建链接段。
具体地,建链阶段即建立与目标网址或服务器之间的链接的阶段,当建链阶段完成之后,发送初缓请求进入初缓阶段;初缓阶段中,缓冲一部分数据,终端发送播放请求,进入播放阶段,比如,以视频业务为例,通常需缓存一部分必要数据之后,才可进入播放阶段。
步骤103,根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值。
其中,预设规则中包括每个进程的关键业务指标,还可包括关键业务指标对应的阈值;关键业务指标值即关键业务指标在当前进程中的实际值,当确定当前进程之后,根据预设规则,确定该进程的关键业务指标,提取关键业务指标值,以判断故障类型。
步骤104,根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
其中,关键业务指标值确定之后,根据该关键业务指标对应的阈值,确定当前故障对应的故障类型,每个故障类型包括对一个或多个关键业务指标的阈值要求,比如,对于无线侧故障,若与无线侧故障对应的关键业务指标均满足各自的阈值要求,则可确定当前故障为无线侧故障。
故障类型包括无线侧故障和非无线侧故障;其中,无线侧故障可能存在的问题原因包括:终端异常、弱覆盖、高干扰、基站负荷高(容量不足或单板CPU负荷高)等。非无线侧故障可能存在的问题原因包括:传输受限、核心网元异常和业务侧故障等;且非无线侧故障包括无线侧上游故障、非空口故障等具体类型。
需要说明的是,本发明实施例中,所述预设规则、各个故障类型对应的关键业务指标以及每个关键业务指标的阈值,均为通过历史经验数据确定的,可信度高;且历史经验数据可以依据预设地理范围划分。
本发明上述实施例中,监测到终端当前进行OTT业务发生故障时,获取所述终端在故障时刻的信令数据,并根据所述信令数据,确定所述终端当前所处的进程;根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;根据所述关键业务指标值,确定所述故障对应的故障类型,实现自动对通用OTT业务的故障定界,无需依赖人工操作。且故障定界过程中,主要依据终端的信令数据实现,涉及的网元较少,过程简单,无需从设备层、管道层、业务层等逐层进行评估;从进程、预设规则以及多个关键业务指标值,综合考虑多个因素进行评估,提高故障定界的精确度。本发明实施例解决了现有技术中通用OTT业务的故障定界方式,流程繁琐,对人工的依赖程度较高的问题。
可选地,本发明实施例中,步骤101中,获取所述终端在故障时刻的信令数据包括:
获取所述终端所属基站的测量报告MR数据;
根据所述MR数据,判断所述终端所属小区当前是否处于弱覆盖和/或重叠覆盖情况:
若判断结果为是,则确定所述故障对应的故障类型为无线侧故障;
否则,获取所述终端在故障时刻的信令数据。
其中,当监测到终端当前OTT业务发生故障时,首先判断终端所属小区是否处于弱覆盖或重叠覆盖情况。具体地,首先确定终端所属基站,提取所属基站的测量报告(Measurement Report,MR)数据,并依据MR数据判断所述终端所属小区当前是否处于弱覆盖和/或重叠覆盖情况,所属小区为所属基站的小区;
若所属小区处于弱覆盖和/或重叠覆盖情况,则表明故障类型为无线侧故障,则不再执行后续流程;
否则,获取所述终端在故障时刻的信令数据,并执行后续流程。
可选地,本发明实施例中,所述监测到终端当前进行的互联网应用服务OTT业务发生故障的步骤,包括:
获取终端的网络之间互连的协议IP数据包以及域名系统DNS数据包;
当判断所述IP数据包以及DNS数据包满足预设故障判别模型时,确定所述终端当前进行的互联网应用服务OTT业务发生故障;其中,所述预设故障判别模型为对所述IP数据包以及DNS数据包进行深度学习得到的。
其中,本发明实施例中,还包括一预设故障判别模型,预设故障判别模型对所述IP数据包以及DNS数据包进行深度学习得到的,通过深度学习,得到对IP数据包以及DNS数据包的判断依据;比如,DNS数据包包括提供OTT业务的预设网址的域名,IP数据包中包括终端与服务对端地址之间传输的数据;当DNS数据包指示终端当前进行的业务的服务对端域名为提供OTT业务的预设网址,且与该服务对端之间传输的数据包异常时,确定终端当前的OTT业务发生故障。
可选地,本发明实施例中,步骤103包括:
当所述进程为建链阶段时,所述终端的关键业务指标值包括第一时延值、第一指标值以及第二指标值;其中,所述第一指标值包括传输控制协议TCP建链上游时延值、DNS响应时延值以及获取数据GET响应时延值;所述第二指标值包括TCP建链空口时延值;
当所述进程为初缓阶段或播放阶段时,所述终端的关键业务指标值包括第二时延值,还包括第三指标值以及第四指标值;所述第三指标值包括:无线侧空口速率指标、无线侧入口速率指标以及时延占比指标;所述第四指标值包括窗口指标。
其中,预设规则中包括进程与关键业务指标值之间的对应关系。
一方面,当所述进程为建链阶段时,所述终端的关键业务指标值包括第一时延值,第一时延值即预设的建链时延值;关键业务指标值还包括第一指标值以及第二指标值,第一指标值包括TCP建链上游时延值、DNS响应时延值以及获取数据GET响应时延值,第一指标值对应的具体故障类型为非无线侧故障中的无线侧上游故障;所述第二指标值包括TCP建链空口时延值,第二指标值对应的故障类型为无线侧故障。
另一方面,当所述进程为初缓阶段或播放阶段时,关键业务指标值包括第二时延值,第二时延值即初缓阶段的初缓时延值,播放阶段的播放时延值;且初缓阶段或播放阶段各自的第二时延值可能相同或不同。
关键业务指标值还包括第三指标值以及第四指标值;第三指标值中每个指标对应一具体故障类型,第三指标值中包括无线侧空口速率指标、无线侧入口速率指标以及时延占比指标;
无线侧故障还包括终端故障;所述第四指标值包括窗口指标,比如窗口指标可以是TCP窗口zero count值或终端最小接收窗口门限;具体的,TCP窗口zero count值为TCP窗口发送zero Window消息的次数,zero Window消息为通信过程中,接收方没有及时回复消息,导致接收缓冲区满,即滑动窗口为0,接收方发送TCP Zero Window告知发送方不能继续发送消息。终端最小接收窗口门限即终端接收窗口的最小流量值。
当满足窗口指标对应的阈值要求时,对应的故障为终端故障。
进一步地,本发明实施例中,所述非无线侧故障包括无线侧上游故障;
在建链阶段,步骤104包括:
当所述进程为建链阶段且所述第一时延值大于第一预设时延阈值时;
若所述第一指标值中的各个指标均大于对应的阈值,则所述故障对应的故障类型为无线侧上游故障;或
若所述第二指标值小于对应的阈值,则所述故障对应的故障类型为无线侧故障。
其中,建链阶段首先判断第一时延值是否大于第一预设时延阈值,若大于,则表明建链异常,继续判断第一指标值或第二指标值。
且第一指标值中的各个指标均大于其对应的阈值时,故障类型为无线侧上游故障;而第二指标值小于其对应的阈值时,故障类型为无线侧故障。
作为第一示例,参见图2,图2为建链阶段的故障定界过程,主要包括以下步骤:
步骤201,判断建链时延值是否大于第一预设时延阈值;
若大于,则表明建链异常,执行步骤202或步骤203,继续判断第一指标值或第二指标值。
若小于,则结束流程,并继续进行初缓阶段故障定界;并且在初缓阶段确定无故障之后,继续进行播放阶段故障定界。
步骤202,若TCP建链上游时延值、DNS响应时延值以及获取数据GET响应时延值均大于各自对应的阈值,则输出故障类型为无线侧上游故障,并结束流程;
步骤203,若TCP建链空口时延小于其对应的阈值,则输出故障类型为无线侧故障并结束流程。
进一步地,本发明实施例中,所述第三指标值中的各个指标具有一预设判断次序;所述根据所述关键业务指标值,确定所述故障对应的故障类型的步骤,包括:
当所述进程为初缓阶段或播放阶段且所述第二时延值大于第二预设时延阈值时,
依据预设判断次序依次判断所述第三指标值中的指标是否满足对应的阈值要求;
若满足,根据该指标确定所述故障对应的故障类型;
若不满足,则继续判断所述第三指标值中的下一指标。
也就是说,当第二时延值大于与该进程对应的第二预设时延阈值时,依据该预设判断次序依次进行故障定界,比如,第三指标值中包括A、B、C三个指标,首先判断A指标,当确定A指标无问题之后再判断B指标;而A指标若异常,则根据A指标进行故障定界,不再继续判断B、C指标。
作为第二示例,参见图3,图3为初缓阶段或播放阶段的故障定界过程,主要包括以下步骤:
步骤301,当第二时延值大于第二预设时延阈值时,判断无线侧空口速率指标是否满足其对应的阈值要求:
若是,则执行步骤302,根据该指标确定所述故障对应的故障类型;
否则,执行步骤303,判断无线侧入口速率指标是否满足其对应的阈值要求:
若是,则执行步骤302;
否则,执行步骤304,判断时延占比指标是否满足其对应的阈值要求:
若是,则执行步骤302;
否则,执行步骤305,获取MR数据中的无线侧上游丢包率以及无线侧上游乱序率;
步骤306,若无线侧上游丢包率以及无线侧上游乱序率均大于各自对应的阈值,则输出故障类型为无线侧上游故障并结束流程;
否则,执行步骤307,继续进行下一阶段故障定界或结束流程。
进一步地,本发明实施例中,所述根据该指标确定所述故障对应的故障类型的步骤,包括:情况一,情况二以及情况三;
具体地,情况一,当所述第三指标值为所述无线侧空口速率指标,且所述无线侧空口速率指标大于对应的第一速率指标阈值时,
若所述终端的下行满调度数据量大于对应的阈值,则故障类型为无线侧故障;否则,故障类型为非空口故障;或若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障。
情况一中,作为第三示例,参见图4,根据该指标确定所述故障对应的故障类型包括以下步骤:
步骤401,当所述无线侧空口速率指标大于对应的第一速率指标阈值时,执行步骤402;
步骤402,判断所述终端的下行满调度数据量是否大于其对应的阈值;
若是,执行步骤403,输出故障类型为无线侧故障;
否则,执行步骤404,判断终端的最小接收窗口是否大于对应的阈值;
若是,执行步骤405,输出故障类型为无线侧上游故障;
否则,执行步骤406,继续判断无线侧入口速率指标。
情况二,当所述第三指标值为所述无线侧入口速率指标,且所述无线侧入口速率指标大于对应的第二速率指标阈值时,
若所述终端的无线侧下游往返时延RTT大于对应的阈值,则故障类型为无线侧故障;其中,往返时间(Round Trip Time,RTT)是指一个数据包从发送端发送到接收端,接收端给出反馈,反馈再回到发送端后,这时发送端识别到的时间差,当往返时间超出正常情况下的往返时间范围,即造成了RTT时延,无线RTT时延是衡量从终端侧到基站侧每一个数据包传送的回环时长的指标。
若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;或若所述终端的无线侧下游RTT大于对应的阈值、TCP下游丢包率大于对应的阈值且所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障。
情况二中,作为第四示例,参见图5,根据该指标确定所述故障对应的故障类型包括以下步骤:
步骤501,当无线侧入口速率指标大于对应的第二速率指标阈值时,执行步骤502;
步骤502,判断所述终端的无线侧下游往返时延RTT是否大于对应的阈值;
若是,执行步骤503,输出故障类型为无线侧故障;
否则,执行步骤504,判断终端的最小接收窗口是否大于对应的阈值;
若是,执行步骤505,输出故障类型为无线侧上游故障;
否则,执行步骤506,判断是否满足无线侧下游RTT大于对应的阈值、TCP下游丢包率大于对应的阈值且所述终端的最小接收窗口均大于各自对应的阈值;
若是,执行步骤505;
否则,执行步骤507;继续判断时延占比指标。
情况三,当所述第三指标值为所述时延占比指标,且所述时延占比指标大于对应的第三预设时延阈值时,若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障。
其中,时延占比指标包括饥饿时延占比以及片段时延占比;即饥饿时延占比无数据传输的时延,比如在视频播放时的卡顿阶段;片段时延占比即两相邻视频片段之间的时延。
若时延占比指标大于对应的第三预设时延阈值,且所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障。
本发明上述实施例中,监测到终端当前进行OTT业务发生故障时,获取所述终端在故障时刻的信令数据,并根据所述信令数据,确定所述终端当前所处的进程;根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;根据所述关键业务指标值,确定所述故障对应的故障类型,实现自动对通用OTT业务的故障定界,无需依赖人工操作。且故障定界过程中,主要依据终端的信令数据实现,涉及的网元较少,过程简单,无需从设备层、管道层、业务层等逐层进行评估;从进程、预设规则以及多个关键业务指标值,综合考虑多个因素进行评估,提高故障定界的精确度。
以上介绍了本发明实施例提供的故障定界方法,下面将结合附图介绍本发明实施例提供的故障定界装置。
参见图6,本发明实施例提供了一种故障定界装置,包括:
数据获取模块601,用于监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据。
其中,OTT业务指互联网公司基于开放互联网的各种视频及数据服务业务。在终端进行OTT业务时,监测终端的数据的网络之间互连的协议(Internet Protocol,IP)数据包以及(Domain Name System,DNS)数据包,根据IP数据包以及DNS数据包确定终端当前进行的OTT业务发生故障时,获取终端在故障时刻的信令数据。
信令是指在无线通信系统中,除了传输用户信息之外,为使全网有轶序地进行工作,用来保证正常通信所需要的控制信号。信令数据通常包括在程控交换、网络数据库或网络中其它节点之间交换的下列信息:呼叫建立、监控(Supervision)、拆除(Teardown)、分布式应用进程所需的信息(即进程之间的询问、响应或用户到用户的数据)、网络管理信息。
进程确定模块602,用于根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段。
其中,信令数据中包括进程请求,因此,可根据终端所发送的进程请求,确定当前进程,比如,若当前时刻之前最后的请求为建链请求,则终端当前的进程为建链接段。
具体地,建链阶段即建立与目标网址或服务器之间的链接的阶段,当建链阶段完成之后,发送初缓请求进入初缓阶段;初缓阶段中,缓冲一部分数据,终端发送播放请求,进入播放阶段,比如,以视频业务为例,通常需缓存一部分必要数据之后,才可进入播放阶段。
指标确定模块603,用于根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值。
其中,预设规则中包括每个进程的关键业务指标,还可包括关键业务指标对应的阈值;关键业务指标值即关键业务指标在当前进程中的实际值,当确定当前进程之后,根据预设规则,确定该进程的关键业务指标,提取关键业务指标值,以判断故障类型。
故障界定模块604,用于根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
其中,关键业务指标值确定之后,根据该关键业务指标对应的阈值,确定当前故障对应的故障类型,每个故障类型包括对一个或多个关键业务指标的阈值要求,比如,对于无线侧故障,若与无线侧故障对应的关键业务指标均满足各自的阈值要求,则可确定当前故障为无线侧故障。
故障类型包括无线侧故障和非无线侧故障;其中,无线侧故障可能存在的问题原因包括:终端异常、弱覆盖、高干扰、基站负荷高(容量不足或单板CPU负荷高)等。非无线侧故障可能存在的问题原因包括:传输受限、核心网元异常和业务侧故障等;且非无线侧故障包括无线侧上游故障、非空口故障等具体类型。
可选地,本发明实施例中,所述数据获取模块601包括:
第一获取子模块,用于获取所述终端所属基站的测量报告MR数据;
第一判断子模块,用于根据所述MR数据,判断所述终端所属小区当前是否处于弱覆盖和/或重叠覆盖情况:
若判断结果为是,则确定所述故障对应的故障类型为无线侧故障;
否则,获取所述终端在故障时刻的信令数据。
可选地,本发明实施例中,所述数据获取模块601包括:
第二获取子模块,用于获取终端的网络之间互连的协议IP数据包以及域名系统DNS数据包;
第二判断子模块,用于当判断所述IP数据包以及DNS数据包满足预设故障判别模型时,确定所述终端当前进行的互联网应用服务OTT业务发生故障;其中,所述预设故障判别模型为对所述IP数据包以及DNS数据包进行深度学习得到的。
可选地,本发明实施例中,所述指标确定模块603包括:
第一确定子模块,用于当所述进程为建链阶段时,所述终端的关键业务指标值包括第一时延值、第一指标值以及第二指标值;其中,所述第一指标值包括传输控制协议TCP建链上游时延值、DNS响应时延值以及获取数据GET响应时延值;所述第二指标值包括TCP建链空口时延值;
第二确定子模块,用于当所述进程为初缓阶段或播放阶段时,所述终端的关键业务指标值包括第二时延值,还包括第三指标值以及第四指标值;所述第三指标值包括:无线侧空口速率指标、无线侧入口速率指标以及时延占比指标;所述第四指标值包括窗口指标。
可选地,本发明实施例中,所述非无线侧故障包括无线侧上游故障;
所述故障界定模块604包括:
第一界定子模块,用于当所述进程为建链阶段且所述第一时延值大于第一预设时延阈值时;
若所述第一指标值中的各个指标均大于对应的阈值,则所述故障对应的故障类型为无线侧上游故障;或
若所述第二指标值小于对应的阈值,则所述故障对应的故障类型为无线侧故障。
可选地,本发明实施例中,所述第三指标值中的各个指标具有一预设判断次序;
所述故障界定模块604包括:
第一界定子模块,用于当所述进程为初缓阶段或播放阶段且所述第二时延值大于第二预设时延阈值时,
依据预设判断次序依次判断所述第三指标值中的指标是否满足对应的阈值要求;
若满足,根据该指标确定所述故障对应的故障类型;
若不满足,则继续判断所述第三指标值中的下一指标。
可选地,本发明实施例中,所述第一界定子模块包括:
第一界定单元,用于当所述第三指标值为所述无线侧空口速率指标,且所述无线侧空口速率指标大于对应的第一速率指标阈值时,
若所述终端的下行满调度数据量大于对应的阈值,则故障类型为无线侧故障;否则,故障类型为非空口故障;或若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;
第二界定单元,用于当所述第三指标值为所述无线侧入口速率指标,且所述无线侧入口速率指标大于对应的第二速率指标阈值时,
若所述终端的无线侧下游往返时延RTT大于对应的阈值,则故障类型为无线侧故障;若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;或若所述终端的无线侧下游RTT大于对应的阈值、TCP下游丢包率大于对应的阈值且所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;
第三界定单元,用于当所述第三指标值为所述时延占比指标,且所述时延占比指标大于对应的第三预设时延阈值时,若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障。
本发明上述实施例中,数据获取模块601监测到终端当前进行OTT业务发生故障时,获取所述终端在故障时刻的信令数据,进程确定模块602根据所述信令数据,确定所述终端当前所处的进程;指标确定模块603根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;故障界定模块604根据所述关键业务指标值,确定所述故障对应的故障类型,实现自动对通用OTT业务的故障定界,无需依赖人工操作。且故障定界过程中,主要依据终端的信令数据实现,涉及的网元较少,过程简单,无需从设备层、管道层、业务层等逐层进行评估;从进程、预设规则以及多个关键业务指标值,综合考虑多个因素进行评估,提高故障定界的精确度。
图7示出了本发明又一实施例提供的一种电子设备的结构示意图。
参见图7,本发明实施例提供的电子设备,所述电子设备包括存储器(memory)71、处理器(processor)72、总线73以及存储在存储器71上并可在处理器上运行的计算机程序。其中,所述存储器71、处理器72通过所述总线73完成相互间的通信。
所述处理器72用于调用所述存储器71中的程序指令,以执行所述程序时实现如本发明上述实施例中提供的方法。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
本发明实施例提供的电子设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。
本发明实施例提供的电子设备,通过所述处理器执行所述程序时实现在监测到终端当前进行OTT业务发生故障时,获取所述终端在故障时刻的信令数据,并根据所述信令数据,确定所述终端当前所处的进程;根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;根据所述关键业务指标值,确定所述故障对应的故障类型,实现自动对通用OTT业务的故障定界,无需依赖人工操作。且故障定界过程中,主要依据终端的信令数据实现,涉及的网元较少,过程简单,无需从设备层、管道层、业务层等逐层进行评估;从进程、预设规则以及多个关键业务指标值,综合考虑多个因素进行评估,提高故障定界的精确度。
本发明又一实施例提供的一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,所述程序被处理器执行时实现如本发明上述实施例中提供的方法中的步骤。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
本发明实施例提供的非暂态计算机可读存储介质,所述程序被处理器执行时实现上述方法实施例的方法,本实施不再赘述。
本发明实施例提供的非暂态计算机可读存储介质,监测到终端当前进行OTT业务发生故障时,获取所述终端在故障时刻的信令数据,并根据所述信令数据,确定所述终端当前所处的进程;根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;根据所述关键业务指标值,确定所述故障对应的故障类型,实现自动对通用OTT业务的故障定界,无需依赖人工操作。且故障定界过程中,主要依据终端的信令数据实现,涉及的网元较少,过程简单,无需从设备层、管道层、业务层等逐层进行评估;从进程、预设规则以及多个关键业务指标值,综合考虑多个因素进行评估,提高故障定界的精确度。
本发明又一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种故障定界方法,其特征在于,包括:
监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障;
所述根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值的步骤,包括:
当所述进程为建链阶段时,所述终端的关键业务指标值包括第一时延值、第一指标值以及第二指标值;其中,所述第一指标值包括传输控制协议TCP建链上游时延值、DNS响应时延值以及获取数据GET响应时延值;所述第二指标值包括TCP建链空口时延值;
当所述进程为初缓阶段或播放阶段时,所述终端的关键业务指标值包括第二时延值,还包括第三指标值以及第四指标值;所述第三指标值包括:无线侧空口速率指标、无线侧入口速率指标以及时延占比指标;所述第四指标值包括窗口指标;
所述非无线侧故障包括无线侧上游故障;
所述根据所述关键业务指标值,确定所述故障对应的故障类型的步骤,包括:
当所述进程为建链阶段且所述第一时延值大于第一预设时延阈值时;
若所述第一指标值中的各个指标均大于对应的阈值,则所述故障对应的故障类型为无线侧上游故障;或
若所述第二指标值小于对应的阈值,则所述故障对应的故障类型为无线侧故障。
2.根据权利要求1所述的方法,其特征在于,所述获取所述终端在故障时刻的信令数据的步骤,包括:
获取所述终端所属基站的测量报告MR数据;
根据所述MR数据,判断所述终端所属小区当前是否处于弱覆盖和/或重叠覆盖情况:
若判断结果为是,则确定所述故障对应的故障类型为无线侧故障;
否则,获取所述终端在故障时刻的信令数据。
3.根据权利要求1所述的方法,其特征在于,所述监测到终端当前进行的互联网应用服务OTT业务发生故障的步骤,包括:
获取终端的网络之间互连的协议IP数据包以及域名系统DNS数据包;
当判断所述IP数据包以及DNS数据包满足预设故障判别模型时,确定所述终端当前进行的互联网应用服务OTT业务发生故障;其中,所述预设故障判别模型为对所述IP数据包以及DNS数据包进行深度学习得到的。
4.根据权利要求1所述的方法,其特征在于,所述第三指标值中的各个指标具有一预设判断次序;
所述根据所述关键业务指标值,确定所述故障对应的故障类型的步骤,包括:
当所述进程为初缓阶段或播放阶段且所述第二时延值大于第二预设时延阈值时,依据预设判断次序依次判断所述第三指标值中的指标是否满足对应的阈值要求;
若满足,根据该指标确定所述故障对应的故障类型;
若不满足,则继续判断所述第三指标值中的下一指标。
5.根据权利要求4所述的方法,其特征在于,所述根据该指标确定所述故障对应的故障类型的步骤,包括:
当所述第三指标值为所述无线侧空口速率指标,且所述无线侧空口速率指标大于对应的第一速率指标阈值时,
若所述终端的下行满调度数据量大于对应的阈值,则故障类型为无线侧故障;否则,故障类型为非空口故障;或若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;
当所述第三指标值为所述无线侧入口速率指标,且所述无线侧入口速率指标大于对应的第二速率指标阈值时,
若所述终端的无线侧下游往返时延RTT大于对应的阈值,则故障类型为无线侧故障;若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;或若所述终端的无线侧下游RTT大于对应的阈值、TCP下游丢包率大于对应的阈值且所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障;
当所述第三指标值为所述时延占比指标,且所述时延占比指标大于对应的第三预设时延阈值时,若所述终端的最小接收窗口大于对应的阈值,则故障类型为无线侧上游故障。
6.一种故障定界装置,其特征在于,包括:
数据获取模块,用于监测到终端当前进行的互联网应用服务OTT业务发生故障时,获取所述终端在故障时刻的信令数据;
进程确定模块,用于根据所述信令数据,确定所述终端当前所处的进程,所述进程包括建链阶段、初缓阶段和/或播放阶段;
指标确定模块,用于根据所述进程以及预设规则,确定所述信令数据中的关键业务指标值;
故障界定模块,用于根据所述关键业务指标值,确定所述故障对应的故障类型,所述故障类型包括无线侧故障以及非无线侧故障;
所述指标确定模块,还用于当所述进程为建链阶段时,所述终端的关键业务指标值包括第一时延值、第一指标值以及第二指标值;其中,所述第一指标值包括传输控制协议TCP建链上游时延值、DNS响应时延值以及获取数据GET响应时延值;所述第二指标值包括TCP建链空口时延值;
当所述进程为初缓阶段或播放阶段时,所述终端的关键业务指标值包括第二时延值,还包括第三指标值以及第四指标值;所述第三指标值包括:无线侧空口速率指标、无线侧入口速率指标以及时延占比指标;所述第四指标值包括窗口指标;
所述非无线侧故障包括无线侧上游故障;
所述故障界定模块,还用于当所述进程为建链阶段且所述第一时延值大于第一预设时延阈值时;
若所述第一指标值中的各个指标均大于对应的阈值,则所述故障对应的故障类型为无线侧上游故障;或
若所述第二指标值小于对应的阈值,则所述故障对应的故障类型为无线侧故障。
7.一种电子设备,其特征在于,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的故障定界方法中的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1至5中任一项所述的故障定界方法中的步骤。
CN201811067998.1A 2018-09-13 2018-09-13 故障定界方法及装置 Active CN110896544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811067998.1A CN110896544B (zh) 2018-09-13 2018-09-13 故障定界方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811067998.1A CN110896544B (zh) 2018-09-13 2018-09-13 故障定界方法及装置

Publications (2)

Publication Number Publication Date
CN110896544A CN110896544A (zh) 2020-03-20
CN110896544B true CN110896544B (zh) 2023-04-25

Family

ID=69785288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811067998.1A Active CN110896544B (zh) 2018-09-13 2018-09-13 故障定界方法及装置

Country Status (1)

Country Link
CN (1) CN110896544B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257573B (zh) * 2020-09-22 2023-09-19 中国移动通信集团广东有限公司 一种检测volte语音功能异常的方法和装置
CN115988438A (zh) * 2022-12-14 2023-04-18 中国联合网络通信集团有限公司 呼叫业务数据处理方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856789B (zh) * 2014-03-13 2017-07-14 北京赛特斯信息科技股份有限公司 基于用户行为分析实现ott业务质量保障的系统及方法
CN107493183B (zh) * 2016-06-13 2020-06-05 中国移动通信集团北京有限公司 一种故障定位方法及装置
CN107509121B (zh) * 2016-06-14 2020-06-02 华为技术有限公司 确定视频质量的方法和装置、定位网络故障的方法和装置
CN107087159B (zh) * 2017-04-18 2018-12-28 天津市德力电子仪器有限公司 Iptv和ott视频质量的评估装置及评估方法

Also Published As

Publication number Publication date
CN110896544A (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
US10326640B2 (en) Knowledge base radio and core network prescriptive root cause analysis
US10412550B2 (en) Remote driving of mobile device diagnostic applications
US10237144B2 (en) Quality of user experience analysis
US9325568B2 (en) Technique for determining correlated events in a communication system
CN111786804B (zh) 一种链路故障监控方法及装置
CN106034051B (zh) 网络监控数据处理方法及网络监控数据处理装置
JP4748226B2 (ja) 品質劣化検知装置、有線無線判定装置
CN111327539B (zh) 一种业务调度的方法、装置及设备
EP3304818B1 (en) Quality of user experience analysis using echo locate
CN109525736B (zh) 一种语音拨测环回方法及装置
EP2741439B1 (en) Network failure detecting method and monitoring center
CN112383421B (zh) 一种故障定位方法及装置
WO2015003551A1 (zh) 网络测试方法及其数据采集方法、网络测试装置及系统
CN103023815B (zh) 聚合链路负载分担方法及装置
CN110896544B (zh) 故障定界方法及装置
CN103416022A (zh) 分布式路由器/交换机架构中的服务中吞吐量测试
CN110650488B (zh) 一种通信质量的监控方法及系统
CN117242754A (zh) 用于自主网络测试用例生成的方法、系统和计算机可读介质
CN110875825B (zh) 故障判决方法及装置
JP6033058B2 (ja) 通信路識別装置
CN114244737A (zh) 网络质量的评估方法、装置和系统
CN109962801B (zh) 通信质量异常定位方法、装置、设备及介质
CN109474940B (zh) 业务质量检测方法及装置
CN110838950A (zh) 一种网络性能抖动值的确定方法及装置
CN115550978A (zh) 一种基于大数据的5g投诉预处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant