CN117294584A - 一种故障定位方法、装置、电子设备及存储介质 - Google Patents

一种故障定位方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117294584A
CN117294584A CN202311291871.9A CN202311291871A CN117294584A CN 117294584 A CN117294584 A CN 117294584A CN 202311291871 A CN202311291871 A CN 202311291871A CN 117294584 A CN117294584 A CN 117294584A
Authority
CN
China
Prior art keywords
rate
network
fault
target system
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311291871.9A
Other languages
English (en)
Inventor
卿晓春
刘知青
曾凡宏
康忠兴
蒋杨
刘静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202311291871.9A priority Critical patent/CN117294584A/zh
Publication of CN117294584A publication Critical patent/CN117294584A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种故障定位方法、装置、电子设备及存储介质,方法包括:从拨测探针获取目标系统的响应数据,并基于所述响应数据获得指标参数;所述拨测探针与所述目标系统存在TCP链接;所述指标参数包括网络时延、下载速率和网络丢包率;基于所述指标参数,得到所述拨测探针到所述目标系统的网络可达速率;根据所述网络可达速率和所述下载速率的第一比对结果,定位所述目标系统的服务器故障;根据所述网络时延中各类时延数据的第二比对结果,确定所述服务器故障的故障类型。本发明实施例能够便捷高效实现故障定位,并且通过参数比对特性能够准确进行故障类型判断,可广泛应用于数据处理技术领域。

Description

一种故障定位方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种故障定位方法、装置、电子设备及存储介质。
背景技术
IPTV是一种利用宽带IP网络,向家庭用户提供包括数字电视在内的多种交互式服务的新技术。EPG系统为IPTV用户提供业务服务的入口界面,用户通过此系统完成节目的浏览、点播、直播,及其他与用户相关的自服务项目。
EPG系统的界面与EPG页面类似,在EPG界面上提供各类菜单、按钮、链接等,可供用户选择节目时直接点击的组件;EPG的界面上也可以包含各类供用户浏览的动态或静态的多媒体内容。
为保证EPG的服务质量,需要在网络中部署PEG拨测探针。EPG拨测探针部署于不同区域,以真实终端用户使用场景为视角,提供模拟终端用户体验的拨测服务。EPG拨测可实现对网络质量、页面性能、端口性能、文件传输、音视频体验等场景进行周期性监控,支持多维度分析性能指标。利用可视化性能数据和告警通知,及时对业务质量作出反应,保证业务稳定正常运行。
当拨测探针发现某个EPG用户体验差,页面响应慢时,往往需要比对分布在不同区域的探针对同一个EPG服务器的页面的测试结果,才能初步判断是网络的问题还是EPG服务本身的问题。目前区分网络和EPG故障或性能差的方式需要多台探针综合分析,但某些场合的拨测探针数不够。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明提出一种故障定位方法、装置、电子设备及存储介质,能够准确进行故障定位。
一方面,本发明实施例提供了一种故障定位方法,包括:
从拨测探针获取目标系统的响应数据,并基于响应数据获得指标参数;拨测探针与目标系统存在TCP链接;指标参数包括网络时延、下载速率和网络丢包率;
基于指标参数,得到拨测探针到目标系统的网络可达速率;
根据网络可达速率和下载速率的第一比对结果,定位目标系统的服务器故障;
根据网络时延中各类时延数据的第二比对结果,确定服务器故障的故障类型。
可选地,方法还包括:
响应于拨测探针的部署请求,建立拨测探针与目标系统的TCP链接;拨测探针部署在目标系统的网络侧,目标系统通过网络侧为目标对象提供业务服务;
基于TCP链接,通过拨测探针向目标系统发起HTTP请求;以使得目标系统响应于HTTP请求,将响应数据传输到拨测探针。
可选地,基于指标参数,得到拨测探针到目标系统的网络可达速率,包括:
获取拨测探针的接入宽带作为第一速率指标;
基于TCP链接确定TCP滑动窗口,进而根据TCP滑动窗口与网络时延的比值,得到第二速率指标;
基于TCP链接确定最大报文段长度,进而根据最大报文段长度与网络时延和网络丢包参数的乘积的比值,得到第三速率指标;网络丢包参数通过对网络丢包率进行开方运算得到;
根据第一速率指标、第二速率指标和第三速率指标,得到网络可达速率。
可选地,根据第一速率指标、第二速率指标和第三速率指标,得到网络可达速率,包括:
对第一速率指标、第二速率指标和第三速率指标进行取最小值运算,获取第一速率指标、第二速率指标和第三速率指标中的最小值作为网络可达速率。
可选地,根据网络可达速率和下载速率的第一比对结果,定位目标系统的服务器故障,包括:
当下载速率与网络可达速率的比值小于第一预设阈值,确定目标系统的服务器存在故障。
可选地,网络时延包括TCP时延和HTTP时延;根据网络时延中各类时延数据的第二比对结果,确定服务器故障的故障类型,包括:
计算获得TCP时延与HTTP时延的比值数值,基于比值数值的数值范围确定服务器故障的故障类型。
可选地,基于比值数值的数值范围确定服务器故障的故障类型,包括:
当比值数值属于预设数值范围,确定服务器故障为计算性能故障;
当比值数值小于第二预设阈值,确定服务器故障为网络服务故障。
另一方面,本发明实施例提供了一种故障定位装置,包括:
第一模块,用于从拨测探针获取目标系统的响应数据,并基于响应数据获得指标参数;拨测探针与目标系统存在TCP链接;指标参数包括网络时延、下载速率和网络丢包率;
第二模块,用于基于指标参数,得到拨测探针到目标系统的网络可达速率;
第三模块,用于根据网络可达速率和下载速率的第一比对结果,定位目标系统的服务器故障;
第四模块,用于根据网络时延中各类时延数据的第二比对结果,确定服务器故障的故障类型。
可选地,装置还包括:
第五模块,用于响应于拨测探针的部署请求,建立拨测探针与目标系统的TCP链接;拨测探针部署在目标系统的网络侧,目标系统通过网络侧为目标对象提供业务服务;
第六模块,用于基于TCP链接,通过拨测探针向目标系统发起HTTP请求;以使得目标系统响应于HTTP请求,将响应数据传输到拨测探针。
可选地,第二模块具体用于:
获取拨测探针的接入宽带作为第一速率指标;
基于TCP链接确定TCP滑动窗口,进而根据TCP滑动窗口与网络时延的比值,得到第二速率指标;
基于TCP链接确定最大报文段长度,进而根据最大报文段长度与网络时延和网络丢包参数的乘积的比值,得到第三速率指标;网络丢包参数通过对网络丢包率进行开方运算得到;
根据第一速率指标、第二速率指标和第三速率指标,得到网络可达速率。
可选地,第二模块中,根据第一速率指标、第二速率指标和第三速率指标,得到网络可达速率这一具体步骤,包括:
对第一速率指标、第二速率指标和第三速率指标进行取最小值运算,获取第一速率指标、第二速率指标和第三速率指标中的最小值作为网络可达速率。
可选地,第三模块具体用于:
当下载速率与网络可达速率的比值小于第一预设阈值,确定目标系统的服务器存在故障。
可选地,网络时延包括TCP时延和HTTP时延;第四模块具体用于:
计算获得TCP时延与HTTP时延的比值数值,基于比值数值的数值范围确定服务器故障的故障类型。
可选地,第四模块中,基于比值数值的数值范围确定服务器故障的故障类型这一具体步骤,包括:
当比值数值属于预设数值范围,确定服务器故障为计算性能故障;
当比值数值小于第二预设阈值,确定服务器故障为网络服务故障。
另一方面,本发明实施例提供了一种电子设备,包括:处理器以及存储器;存储器用于存储程序;处理器执行程序实现上述故障定位方法。
另一方面,本发明实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现上述故障定位方法。
本发明实施例通过从拨测探针获取目标系统的响应数据,并基于响应数据获得指标参数;拨测探针与目标系统存在TCP链接;指标参数包括网络时延、下载速率和网络丢包率;基于指标参数,得到拨测探针到目标系统的网络可达速率;根据网络可达速率和下载速率的第一比对结果,定位目标系统的服务器故障;根据网络时延中各类时延数据的第二比对结果,确定服务器故障的故障类型。本发明实施例通过拨测探针的与目标系统的响应数据,获取相关指标参数,并基于指标参数得到网络可达速率,进而与拨测探针实际的下载速率比较便能够发现服务器故障;进一步还可通过拨测探针获得的不同网络时延的比对,确定服务器故障的具体类型。本发明实施例能够仅通过单个探针获取参数数据,进而基于预设逻辑实现故障定位,本发明实施例能够便捷高效实现故障定位,并且通过参数比对特性能够准确进行故障类型判断。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的进行故障定位的一种实施环境示意图;
图2是本发明实施例提供的一种故障定位方法的流程示意图;
图3为本发明实施例提供的结合建立TCP链接的故障定位的流程示意图;
图4为本发明实施例提供的EPG系统架构示意图;
图5为本发明实施例提供的EPG监测架构示意图;
图6为本发明实施例提供的计算网络可达速率的流程示意图;
图7为本发明实施例提供的故障定位方法的整体流程示意图;
图8为本发明实施例提供的一种故障定位装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图;
图10为本发明实施例提供的适于用来实现本发明实施例的电子设备的计算机系统结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一/S100”、“第二/S200”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
可以理解的是,本发明实施例提供的故障定位方法,是能够应用于任意一种具备数据处理计算能力计算机设备,而这一计算机设备可以是各类终端或是服务器。当实施例中的计算机设备是服务器时,该服务器是独立的物理服务器,或者,是多个物理服务器构成的服务器集群或者分布式系统,或者,是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑以及台式计算机等,但也并不局限于此。
如图1所示,是发明实施例提供的一种实施环境示意图。参照图1,该实施环境包括至少一个终端102和服务器101。终端102和服务器101之间可以通过无线或者有线的方式进行网络连接,完成数据传输交换。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,服务器101还可以是区块链网络中的一个节点服务器。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。
终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端102以及服务器101可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例在此不做限制。
示例性地基于图1所示的实施环境,本发明实施例提供了一种故障定位方法,下面以该故障定位方法应用于服务器101中为例子进行说明,可以理解的是,该故障定位方法也可以应用于终端102中。
参照图2,图2为本发明实施例提供的应用于服务器的故障定位方法的流程图,该故障定位方法的执行主体可以是前述的任意一种计算机设备(包括服务器或者终端)。参照图2,该方法包括以下步骤:
S100、从拨测探针获取目标系统的响应数据,并基于响应数据获得指标参数;
需要说明的是,拨测探针与目标系统存在TCP链接;指标参数包括网络时延、下载速率和网络丢包率;
一些实施例中,如图3所示,方法还可以包括:S500、响应于拨测探针的部署请求,建立拨测探针与目标系统的TCP链接;拨测探针部署在目标系统的网络侧,目标系统通过网络侧为目标对象提供业务服务;S600、基于TCP链接,通过拨测探针向目标系统发起HTTP请求;以使得目标系统响应于HTTP请求,将响应数据传输到拨测探针。
一些具体实施例中,本发明实施例可应用于EPG系统的故障定位。示例性地,通过拨测探针访问EPG页面,从而建立TCP链接、发起HTTP请求到响应数据的接收过程,拨测探针可采集到各种质量指标和参数(即指标参数)。
其中,如图4所示。EPG系统采用两级架构,分为中心EPG和边缘EPG。中心EPG将模板与内容元数据分发至各个边缘EPG节点,各节点间需进行数据同步。用户接入时,中心EPG负责将用户调度至边缘EPG节点提供服务。其中,通过拨测探针的EPG监测架构如图5所示,在网络侧部署拨测探针,可以以爬虫方式访问EPG,分析EPG页面的服务质量。
S200、基于指标参数,得到拨测探针到目标系统的网络可达速率;
需要说明的是,一些实施例中,如图6所示,步骤S200可以包括:S201、获取拨测探针的接入宽带作为第一速率指标;S202、基于TCP链接确定TCP滑动窗口,进而根据TCP滑动窗口与网络时延的比值,得到第二速率指标;S203、基于TCP链接确定最大报文段长度,进而根据最大报文段长度与网络时延和网络丢包参数的乘积的比值,得到第三速率指标;网络丢包参数通过对网络丢包率进行开方运算得到;S204、根据第一速率指标、第二速率指标和第三速率指标,得到网络可达速率。
其中,一些实施例中,根据第一速率指标、第二速率指标和第三速率指标,得到网络可达速率,可以包括:对第一速率指标、第二速率指标和第三速率指标进行取最小值运算,获取第一速率指标、第二速率指标和第三速率指标中的最小值作为网络可达速率。
一些具体实施例中,可以通过前述步骤获取的质量指标和参数(即指标参数)计算出拨测针到EPG服务器的网络可达速率。
可达速率可基于以下公式计算:
上式中,TCP Throuput是理论可达速率。BW是网络带宽,该数值为拨测探针的接入带宽。WindowSize是TCP滑动窗口。RTT是网络时延,具体采用TCP时延,TCP中的RTT指的是“往返时延”(Round-Trip Time),即从发送方发送数据开始,到发送方接收到来自接收方的确认消息所经过的时间。RTT时延通常由三部分决定:链路的传播时间、末端系统的处理时间、路由器等网络中间节点的缓存和排队时间。正常情况下报文的传输时间和在应用处理时间相对固定,在网络拥堵情况下会出现RTT时延的波动,RTT是衡量网络传输性能的重要指标之一,能够反映出数据在网络中传输的速度和稳定性。通常情况下,RTT越短,网络传输的速度就越快,反之则越慢。因此,通过监测TCP中的RTT时延,可以初步判断网络的性能如何。MSS是指TCP层所能够接收的最大段大小,最大报文段长度(MSS)是TCP协议的一个选项,用于在TCP连接建立时,收发双方协商通信时每一个报文段所能承载的最大数据长度(不包括文段头)。ρ是网络丢包率。上式中,在min括号中有三个算法,取三个算法的最小值作为网络可达速率。
S300、根据网络可达速率和下载速率的第一比对结果,定位目标系统的服务器故障;
需要说明的是,一些实施例中,步骤S300可以包括:当下载速率与网络可达速率的比值小于第一预设阈值,确定目标系统的服务器存在故障。
一些具体实施例中,通过比对拨测探针的实际HTTP下载速率和计算出来的可达速率。如果实际下载速率远小于可达速率(示例性地,如小于可达速率的70%,即下载速率与网络可达速率的比值小于0.7,即第一预设阈值为0.7,第一预设阈值可以根据需求进行调整),则可判断为EPG服务器存在问题。
S400、根据网络时延中各类时延数据的第二比对结果,确定服务器故障的故障类型。
需要说明的是,网络时延包括TCP时延和HTTP时延;一些实施例中,步骤S400可以包括:计算获得TCP时延与HTTP时延的比值数值,基于比值数值的数值范围确定服务器故障的故障类型。
其中,一些实施例中,基于比值数值的数值范围确定服务器故障的故障类型,包括:当比值数值属于预设数值范围,确定服务器故障为计算性能故障;当比值数值小于第二预设阈值,确定服务器故障为网络服务故障。
一些具体实施例中,进一步比对TCP时延和HTTP时延,如果HTTP时延和TCP时延接近(如TCP时延与HTTP时延的比值数值落入0.9至1.1的范围,预设数值范围即为[0.9,1.1],预设数值范围可根据具体精确度需求进行调整),那么可以判断为EPG服务器的计算能力不足;如果HTTP时延远大于TCP时延(如TCP时延与HTTP时延的比值数值小于0.7,即表征TCP时延小于HTTP时延的70%,原理与速率对比类似,即第二预设阈值为0.7,第二预设阈值可以根据需求进行调整),那么可判断为EPG服务器网络服务能力不足。
为详细解释本发明技术方案的原理,下面结合一些具体实施例对本发明的整体流程进行说明,容易理解的是,下述为对本发明技术原理的解释,不能看做对本发明的限制。
首先需要说明的是,当EPG拨测发现某个EPG页面用户体验差,页面响应慢时,往往需要比对分布在不同区域的探针对同一个EPG服务器的同一个页面的测试结果,才能初步判断是网络的问题还是EPG服务本身的问题。
例如,A探针发现某EPG页面响应缓慢,但在另一个区域的B探针对某EPG页面的请求响应迅速,则可初步判断A探针所在的网络有问题。如果在不同网络中的A、B探针对某EPG页面的请求响应都是缓慢的,则可初步判断EPG服务的问题。
这种技术方案需要关联多个EPG拨测探针,EPG拨测探针数量越多,判断的准确率越高。但实际场合的EPG拨测探针不足于用于综合分析。
鉴于此,一些具体实施例中,本发明提出一种通过单个EPG探针访问某EPG页面的指标参数来区分网络或EPG服务的问题。并且具有非常高的准确率。
其中,如图4所示。EPG系统采用两级架构,分为中心EPG和边缘EPG。中心EPG将模板与内容元数据分发至各个边缘EPG节点,各节点间需进行数据同步。用户接入时,中心EPG负责将用户调度至边缘EPG节点提供服务。其中,通过拨测探针的EPG监测架构如图5所示,在网络侧部署拨测探针,可以以爬虫方式访问EPG,分析EPG页面的服务质量。
如图7所示,本发明实施例进行故障定位的流程步骤如下:
1)EPG拨测质量指标:
EPG拨测对EPG页面进行拨测(例如,请求某个页面),从而建立TCP链接、发起HTTP请求到响应数据的接收过程的指标可以有:
TCP请求响应时延:拨测探针模拟用户发起一个url请求,在建立http连接请求前,需要建立TCP连接,TCP请求时延是从探针发出TCP SYN到探针收到TCP ACK的时长。
HTTP请求响应时延:拨测探针模拟用户发起一个url请求,在TCP建链成功后发起HTTP请求,HTTP请求时延是从探针发出http get报文到收到response报文第一个字节的时长。
HTTP下载速率:拨测探针请求EPG页面响应数据的下载速率,即:下载数据字节数/时长
TCP重传率:拨测探针请求EPG页面响应的TCP数据中,重传TCP报文的比例。
2)估算探针到EPG服务器的理论可达速率:
探针到EPG服务器的理论可达速率计算公式为:
上式中,TCP Throuput是理论可达速率。
BW是网络带宽,该数值为拨测探针的接入带宽。WindowSize是TCP为了获得最优的连接速率,使用TCP窗口来控制流速率(flow control),这个窗口允许源端在给定连接传送数据分段而不用等待目标端返回ACK,即:窗口的大小决定在不需要对端响应(acknowledgement)情况下传送数据的数量。该数值可以由拨测探针读取。
RTT是网络时延,本发明采用TCP时延代为网络时延。RTT是网络时延,具体采用TCP时延,TCP中的RTT指的是“往返时延”(Round-Trip Time),即从发送方发送数据开始,到发送方接收到来自接收方的确认消息所经过的时间。RTT时延通常由三部分决定:链路的传播时间、末端系统的处理时间、路由器等网络中间节点的缓存和排队时间。正常情况下报文的传输时间和在应用处理时间相对固定,在网络拥堵情况下会出现RTT时延的波动,RTT是衡量网络传输性能的重要指标之一,能够反映出数据在网络中传输的速度和稳定性。通常情况下,RTT越短,网络传输的速度就越快,反之则越慢。因此,通过监测TCP中的RTT时延,可以初步判断网络的性能如何。
MSS是指TCP层所能够接收的最大段大小,最大报文段长度(MSS)是TCP协议的一个选项,用于在TCP连接建立时,收发双方协商通信时每一个报文段所能承载的最大数据长度(不包括文段头),该值只包括TCP段的数据部分,不包括选项部分。该数值可以由拨测探针读取。
ρ是网络丢包率,本专利用TCP重传率来代替。
上式中,在min括号中有三个算法,取三个算法的最小值作为网络可达速率。
因此,基于上述公式,拨测探针访问EPG应用后,根据获取的指标可以计算出理论上的网络可达速率。
3)分析网络可达速率:
如果网络可达速率远小于EPG页面所需要的带宽,例如小于可达速率的70%,那么可判断拨测探针到EPG服务器的网络性能无法满足业务的需要。
4)比对实际下载速率和网络可达速率:
实际下载速率为拨测探针访问EPG应用时的HTTP下载速率。如果网络可达速率达标,但是实际下载速率远小于网络可达速率,那么可判断为EPG服务器存在性能不足的问题。
5)进一步分析网络时延
如判断为EPG服务性能不足的问题,进一步比对HTTP时延和TCP时延。如果HTTP时延和TCP时延接近,那么可以判断为EPG的计算能力不足;如果HTTP时延远大于TCP时延,那么可判断为EPG的网络服务能力不足。
综上,目前区分网络和EPG故障或性能差的方式需要多台探针综合分析,但某些场合的拨测探针数不够,所以需要解决单个拨测探针,或少量拨测探针的情况下如何判断是网络问题还是EPG服务的问题。鉴于此,本发明提出一种通过单个EPG探针访问某EPG页面的指标参数来区分网络或EPG服务的问题。并且具有非常高的准确率。本发明具体通过拨测针访问EPG页面,从而建立TCP链接、发起HTTP请求到响应数据的接收过程,拨测探针可采集到各种质量指标和参数。通过这些质量指标和参数可计算出拨测针到EPG服务器的网络可达速率。进而比对拨测探针的实际HTTP下载速率和计算出来的可达速率。如果实际下载速率远小于可达速率(如小于可达速率的70%),则可判断为EPG服务器存在问题。进一步比对TCP时延和HTTP时延,如果HTTP时延和TCP时延接近,那么可以判断为EPG服务器的计算能力不足;如果HTTP时延远大于TCP时延,那么可判断为EPG服务器网络服务能力不足。
本发明既能识别EPG故障,还可判断是网络问题还是EPG服务的问题。本发明仅仅通过单个拨测探针即可识别EPG故障,并对故障原因进行判断:网络问题或EPG服务的问题。其中,本发明通过单台探针设备即可完成故障识别与判断,大大降低了采购成本,提升了设备利用效率与效益比。并且,本发明能够有效提升设备利用效率,节约使用成本。
另一方面,如图8所示,本发明实施例提供了一种故障定位装置800,包括:第一模块810,用于从拨测探针获取目标系统的响应数据,并基于响应数据获得指标参数;拨测探针与目标系统存在TCP链接;指标参数包括网络时延、下载速率和网络丢包率;第二模块820,用于基于指标参数,得到拨测探针到目标系统的网络可达速率;第三模块830,用于根据网络可达速率和下载速率的第一比对结果,定位目标系统的服务器故障;第四模块840,用于根据网络时延中各类时延数据的第二比对结果,确定服务器故障的故障类型。
一些实施例中,装置还可以包括:第五模块,用于响应于拨测探针的部署请求,建立拨测探针与目标系统的TCP链接;拨测探针部署在目标系统的网络侧,目标系统通过网络侧为目标对象提供业务服务;第六模块,用于基于TCP链接,通过拨测探针向目标系统发起HTTP请求;以使得目标系统响应于HTTP请求,将响应数据传输到拨测探针。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
另一方面,如图9所示,本发明实施例还提供了一种电子设备900,该电子设备包括至少一个处理器910,还包括至少一个存储器920,用于存储至少一个程序;以一个处理器910及一个存储器920为例。
处理器910和存储器920可以通过总线或者其他方式连接。
存储器920作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器920可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器920可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
以上所描述的电子设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
具体地,图10示意性地示出了用于实现本发明实施例的电子设备的计算机系统结构框图。
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理器1001(Central Processing Unit,CPU),其可以根据存储在只读存储器1002(Read-Only Memory,ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中,还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口,即I/O接口)也连接至总线1004。
以下部件连接至输入/输出接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时,执行本发明的系统中限定的各种功能。
需要说明的是,本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现前面的方法。
本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用,或结合这些指令执行装置、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种故障定位方法,其特征在于,包括:
从拨测探针获取目标系统的响应数据,并基于所述响应数据获得指标参数;所述拨测探针与所述目标系统存在TCP链接;所述指标参数包括网络时延、下载速率和网络丢包率;
基于所述指标参数,得到所述拨测探针到所述目标系统的网络可达速率;
根据所述网络可达速率和所述下载速率的第一比对结果,定位所述目标系统的服务器故障;
根据所述网络时延中各类时延数据的第二比对结果,确定所述服务器故障的故障类型。
2.根据权利要求1所述的故障定位方法,其特征在于,所述方法还包括:
响应于所述拨测探针的部署请求,建立所述拨测探针与所述目标系统的所述TCP链接;所述拨测探针部署在所述目标系统的网络侧,所述目标系统通过所述网络侧为目标对象提供业务服务;
基于所述TCP链接,通过所述拨测探针向所述目标系统发起HTTP请求;以使得所述目标系统响应于所述HTTP请求,将所述响应数据传输到所述拨测探针。
3.根据权利要求1所述的故障定位方法,其特征在于,所述基于所述指标参数,得到所述拨测探针到所述目标系统的网络可达速率,包括:
获取所述拨测探针的接入宽带作为第一速率指标;
基于所述TCP链接确定TCP滑动窗口,进而根据所述TCP滑动窗口与所述网络时延的比值,得到第二速率指标;
基于所述TCP链接确定最大报文段长度,进而根据所述最大报文段长度与所述网络时延和网络丢包参数的乘积的比值,得到第三速率指标;所述网络丢包参数通过对所述网络丢包率进行开方运算得到;
根据所述第一速率指标、所述第二速率指标和所述第三速率指标,得到所述网络可达速率。
4.根据权利要求3所述的故障定位方法,其特征在于,所述根据所述第一速率指标、所述第二速率指标和所述第三速率指标,得到所述网络可达速率,包括:
对所述第一速率指标、所述第二速率指标和所述第三速率指标进行取最小值运算,获取所述第一速率指标、所述第二速率指标和所述第三速率指标中的最小值作为所述网络可达速率。
5.根据权利要求1所述的故障定位方法,其特征在于,所述根据所述网络可达速率和所述下载速率的第一比对结果,定位所述目标系统的服务器故障,包括:
当所述下载速率与所述网络可达速率的比值小于第一预设阈值,确定所述目标系统的服务器存在故障。
6.根据权利要求1所述的故障定位方法,其特征在于,所述网络时延包括TCP时延和HTTP时延;所述根据所述网络时延中各类时延数据的第二比对结果,确定所述服务器故障的故障类型,包括:
计算获得所述TCP时延与所述HTTP时延的比值数值,基于所述比值数值的数值范围确定所述服务器故障的故障类型。
7.根据权利要求1所述的故障定位方法,其特征在于,所述基于所述比值数值的数值范围确定所述服务器故障的故障类型,包括:
当所述比值数值属于预设数值范围,确定所述服务器故障为计算性能故障;
当所述比值数值小于第二预设阈值,确定所述服务器故障为网络服务故障。
8.一种故障定位装置,其特征在于,包括:
第一模块,用于从拨测探针获取目标系统的响应数据,并基于所述响应数据获得指标参数;所述拨测探针与所述目标系统存在TCP链接;所述指标参数包括网络时延、下载速率和网络丢包率;
第二模块,用于基于所述指标参数,得到所述拨测探针到所述目标系统的网络可达速率;
第三模块,用于根据所述网络可达速率和所述下载速率的第一比对结果,定位所述目标系统的服务器故障;
第四模块,用于根据所述网络时延中各类时延数据的第二比对结果,确定所述服务器故障的故障类型。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1至7任一项所述的方法。
CN202311291871.9A 2023-10-08 2023-10-08 一种故障定位方法、装置、电子设备及存储介质 Pending CN117294584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311291871.9A CN117294584A (zh) 2023-10-08 2023-10-08 一种故障定位方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311291871.9A CN117294584A (zh) 2023-10-08 2023-10-08 一种故障定位方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117294584A true CN117294584A (zh) 2023-12-26

Family

ID=89238744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311291871.9A Pending CN117294584A (zh) 2023-10-08 2023-10-08 一种故障定位方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117294584A (zh)

Similar Documents

Publication Publication Date Title
US9992093B2 (en) Method and system for detecting slow page load
US11550870B2 (en) Method and system for detecting slow page load
US11778006B2 (en) Data transmission method and apparatus
CN110730105B (zh) 图片数据传输方法、装置、设备及存储介质
CN113169896B (zh) 网络度量的连续校准
US11558302B2 (en) Data transmission method and apparatus
JP2004516693A (ja) 通信帯域幅の自動検出に基づく通信コンテンツの選択
CN112738548B (zh) 一种流媒体调度方法、装置、设备及存储介质
US11848845B2 (en) Content delivery network server testing
JP2021505081A (ja) ビデオ伝送方法、ビデオ伝送装置、およびビデオ伝送システム、ならびにコンピュータ可読記憶媒体
CN108259576B (zh) 一种软硬件实时信息传输系统和方法
CN117294584A (zh) 一种故障定位方法、装置、电子设备及存储介质
US11368400B2 (en) Continuously calibrated network system
CN110324608B (zh) 视频流质量的检测方法、装置和计算机设备
CN113439416B (zh) 连续校准的网络系统
CN105359485A (zh) 由客户终端获得多媒体内容的内容部分的方法
US10931553B1 (en) Evaluating network speed by multiple parallel data exchanges between a client device and multiple servers via the network
US20200195496A1 (en) Continuously calibrated network system
US20120131213A1 (en) Network device and point to point connection distinguishing method
CN116962258A (zh) 一种带宽探测方法、装置、系统、设备及存储介质
CN117938718A (zh) 一种测速方法、装置、设备和存储介质
KR20150058711A (ko) 소셜 네트워크 시스템을 위한 적응형 컨텐츠 전송 방법
CN115622880A (zh) 网络配置方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination