CN100356733C - 记录介质、故障分析设备以及故障分析方法 - Google Patents

记录介质、故障分析设备以及故障分析方法 Download PDF

Info

Publication number
CN100356733C
CN100356733C CNB2005100062189A CN200510006218A CN100356733C CN 100356733 C CN100356733 C CN 100356733C CN B2005100062189 A CNB2005100062189 A CN B2005100062189A CN 200510006218 A CN200510006218 A CN 200510006218A CN 100356733 C CN100356733 C CN 100356733C
Authority
CN
China
Prior art keywords
window size
throughput
communication window
estimated value
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005100062189A
Other languages
English (en)
Other versions
CN1713594A (zh
Inventor
胜山恒男
森永正信
宫崎英明
野村祐士
安家武
福山训行
若本雅晶
野岛聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1713594A publication Critical patent/CN1713594A/zh
Application granted granted Critical
Publication of CN100356733C publication Critical patent/CN100356733C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/0864Round trip delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/22Traffic shaping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/25Flow control; Congestion control with rate being modified by the source upon detecting a change of network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种记录有程序的计算机可读记录介质,该程序能够分析客户机系统、服务器系统等的甚端点处出现性能故障的原因。在通信应用执行过程中捕获流出和流入的分组以测量往返时间,并根据捕获的流入分组估算发送源的通信窗口大小。根据往返时间和通信窗口大小计算吞吐量的估算值,并且在例如显示器上显示吞吐量的估算值和实际测量值,以及包括通信窗口大小和往返时间的各种其他通信参数,由此通过定量分析可以准确确定性能故障的原因。

Description

记录介质、故障分析设备以及故障分析方法
技术领域
本发明涉及计算机可读记录介质、故障分析设备以及故障分析方法。更具体来说,本发明涉及记录有程序的计算机可读记录介质、故障分析设备以及故障分析方法,所述程序用于分析网络上出现性能故障的原因。
背景技术
由于基于IP(因特网协议)的网络已经开始用作社会基础设施,就需要各种能够快捷恰当地处理诸如不能通信的功能故障和诸如响应时间缓慢的性能故障的技术。
为了监测网络上出现的故障,传统上已经采用了一种使用SNMP(简单网络管理协议)的方法,SNMP是与TCP(传输控制协议)/IP相关联的典型网络管理协议。根据SNMP,将收集和分析称为MIB(管理信息库)的信息以及从系统产生和发送的系统消息。MIB保存业务量信息(如流出/流入的IP分组的数量),以及丢失分组的计数,并且根据该信息网络设备等的故障得到检测。而且,系统消息包括由设备直接检测到的非正常状态的描述,因此被用于故障检测。
传统网络管理系统采用了一种方法,其中,例如,MIB和系统消息指示的故障信息的收集和跟踪由系统管理员操作的网络监测终端(SNMP管理器)进行集中管理。Kato和Sekiya的论文“Analysis of DNS Trafficat a DNS Server in an ISP”(Transactions of the Institute ofElectronics,Information and Communication Engineers,B,J87-B,No.3,pp.327-335,March 2004)处理了收集和分析商业ISP(因特网业务供应商)中的DNS(域名系统)服务器的业务量信息的技术。
然而,由于网络规模的扩大以及网络设备的多样化/功能复杂化,需要收集的信息也在越来越增多,这将导致下述问题的产生,即由于信息的规模,几乎不可能集中管理诸如单个流出/流入分组的记录的具体信息。例如,上述论文提出,对于商业ISP的情况,由DNS服务器收集的分组信息达到0.7吉字节/小时。而且,要从大量收集的信息中选出并恰当地分析相关信息尤其困难。因此,通过集中化的管理方法分析性能故障具有局限性。
作为非集中化管理的示例,已经采用了一种分析方法,其中引入了一种测量分析设备(Sniffer等),其在出现故障时用于跟踪分组直到故障地点。当网络运行正常但其性能存在诸如Web访问缓慢或IP电话语音质量差的问题时,为了发现这类故障的原因,需要利用分组跟踪功能对单个分组的发送/接收时间、状态等进行具体跟踪。然而,传统的测量分析设备只能收集诸如丢失率的有限信息项,而在吞吐量是由于分组丢失以外的原因降低的情况下,很难发现原因。而且,由于实际的分析由人工进行操作,他/她需要具有很高的分析技能。
发明内容
鉴于上述情况提出了本发明,本发明的一个目的是提供一种记录有程序的计算机可读记录介质、以及故障分析设备和故障分析方法,利用该程序可以在客户机系统、服务器系统等的甚端点(very end point)处收集分组以获得具体信息,并根据所获信息的定量分析可以准确确定性能故障的原因。
为了达到这个目的,提供了一种记录有程序的计算机可读记录介质,该程序用于使计算机执行分析网络上出现性能故障的原因的过程。该记录介质使计算机充当:分组捕获单元,用于在通信应用执行期间捕获流出和流入分组;往返时间测量单元,用于测量往返时间;通信窗口大小估算单元,用于根据捕获的流入分组估算发送源的通信窗口大小;吞吐量估算值计算单元,用于根据通信窗口大小和往返时间计算吞吐量的估算值;以及分析结果呈现单元,用于呈现吞吐量的估算值和实际测量值以及包括通信窗口大小和往返时间的各种通信参数。
本发明的上述及其他目的、特征和优点根据下述结合附图所做的描述将变得更加明显,所述附图通过示例示出了本发明的优选实施例。
附图说明
图1示出了本发明故障分析设备的原理。
图2示出了根据窗口控制的分组的发送/接收。
图3显示了TCP吞吐量和RTT之间的典型关系。
图4显示了故障分析设备的示例配置。
图5A和5B例示了窗口大小控制算法,其中,图5A显示了塔霍(Tahoe)算法,图5B显示了里诺/新里诺(Reno/New-Reno)算法。
图6显示了流入分组流和分组间隔之间的关系。
图7显示了流入分组间隔和分组分布计数之间的关系。
图8A和8B例示了由于分组丢失导致的RTO的发生,其中,图8A示出了重发分组再次丢失的情况,图8B示出了窗口大小数据中的最后一个分组丢失的情况。
图9例示了故障分析屏面。
具体实施方式
下面将参照附图描述本发明的优选实施例。
图1示出了根据本发明的故障分析设备的原理。
故障分析设备10例如是客户机PC(个人电脑),并且包括分组捕获单元S1、往返时间测量单元S2、通信窗口大小估算单元S3、吞吐量估算值计算单元S4以及分析结果呈现单元S5。
分组捕获单元S1在诸如FTP(文件传输协议)软件或Web的通信应用11执行期间捕获流出和流入分组。流入分组是从发送源(下面假定为服务器20)通过网络30传送的分组。
往返时间测量单元S2测量往返时间(RTT)。
通信窗口大小估算单元S3根据捕获的流入分组估算服务器20的通信窗口大小(下面简称为“窗口大小”)。
图2示出了根据窗口控制的分组发送/接收。
根据窗口控制,多个分组51被从发送侧逐个(例如,以1毫秒或更小的间隔)发送。可在接收到确认分组52之前发送的分组群53的大小称为窗口大小。确认分组52用于通知发送侧,接收侧已接收到分组51,并且在确认分组到达发送侧之前需要RTT(例如,10毫秒或更多)。
故障分析设备10的窗口大小可以从流出分组的TCP报头中的信息获取,而服务器20的窗口大小由故障分析设备10的通信窗口大小估算单元S3进行估算。通信窗口大小估算单元S3根据在一等于图2中所示RTT的累计到达时间内从服务器20接收到的流入分组的总数据量来估算服务器20的窗口大小,这将会在下面进行详细描述。在分组丢失的情况下进行的窗口大小的估算将在后面进行说明。
吞吐量估算值计算单元S4根据窗口大小和RTT计算吞吐量的估算值。吞吐量受故障分析设备10的窗口大小和通信窗口大小估算单元S3估算的服务器20的窗口大小中的较小一个限制。因此,利用较小的窗口大小,根据下列公式计算吞吐量的估算值:吞吐量估算值=窗口大小/RTT。吞吐量估算值计算单元S4还具有如下所述计算补偿分组丢失的影响时的吞吐量估算值的功能。
图3显示了考虑多个窗口大小的情况下的TCP吞吐量和RTT之间的典型关系,其中纵轴表示吞吐量(估算值)(Mbps),横轴表示RTT(毫秒)。从图示的关系可以理解,吞吐量随着RTT的增加而降低。而且,窗口大小越大,吞吐量越高。这是因为,为了从通信差错中进行恢复,执行了用于在保持恒定窗口大小的同时发送分组的窗口控制,但是由于RTT对于确认响应到达发送侧是必要的,如图2所示,所以超出窗口大小的信息至少不能在RTT内被传播。然而,需要注意,该图显示了理想状态下的吞吐量上限,并且由于在实际情况下窗口大小因为分组丢失而动态改变(后面将进行详细描述),所以实际吞吐量低于该图中所示的值。
分析结果呈现单元S5在显示器10a上显示由吞吐量估算值计算单元S4获得的吞吐量的估算值和吞吐量的实际测量值(可以根据在一固定时间内由分组捕获单元S1捕获的流出和流入分组的信息量来计算出),以及要呈现给用户各种不同的通信参数(包括窗口大小和RTT)。
可以将故障分析设备10的操作总结如下:
在通信应用11执行时,分组捕获单元S1捕获流出和流入的分组,往返时间测量单元S2测量RTT。而且,通信窗口大小估算单元S3根据捕获的流入分组估算服务器20的窗口大小。吞吐量估算值计算单元S4利用故障分析设备10的窗口大小和通信窗口大小估算单元S3估算的服务器20的窗口大小中的较小值,根据下列公式计算吞吐量的估算值:吞吐量估算值=窗口大小/RTT。在获得吞吐量估算值后,分析结果呈现单元S5在显示器10a上显示吞吐量的估算值和实际测量值,以及各种不同的通信参数(包括窗口大小和RTT),以向用户呈现分析结果。
采用这种方式,定量地呈现了用于比较的吞吐量的估算值和实际测量值,以及各种其他通信参数(包括窗口大小和RTT),因此即使在吞吐量由于分组丢失以外的原因降低的情况下,也可以防止这种原因被忽略。
下面将详细描述本发明。
图4显示了故障分析设备的示例配置。
在TCP/IP通信中,有必要在吞吐量受到巨大影响的客户机系统或服务器系统的端点(协议端点)处进行分组的捕获和分析。相应地,该图示出了将能够进行Web访问的客户机PC用作故障分析设备100的情况。
故障分析设备100包括分析/控制单元101、用户接口102、数据存储部103、通信参数测量单元104、通信单元105以及通信应用106。
分析/控制单元101控制图1中示出的各种分析,如吞吐量估算值的计算和对分组丢失影响的补偿,还控制故障分析设备100的各部分。分析/控制单元101可以是例如CPU(中央处理单元)。
用户接口102具有接收用户响应(通过鼠标110和键盘111的输入)以及向分析/控制单元101通知用户响应的功能。另外,用户接口102还具有如下功能,即根据GUI(图形用户接口)处理分析/控制单元101产生的给用户的指令,以及在显示器112上显示要呈现给用户的指令。
数据存储部103存储分组信息和诸如通信参数的数据。数据存储部103例如是硬盘驱动器(HDD)或RAM(随机存取存储器)。
通信参数测量单元104在分析/控制单元101的控制下测量通信参数,如分组丢失率、RTT以及窗口大小。测量单元104还获得吞吐量的实际测量值。
通信单元105建立与诸如因特网或IP-VPN(因特网协议-虚拟专网)的IP网络300的连接。另外,在分析/控制单元101的控制下,通信单元105捕获通信应用106执行期间的流出和流入分组。为使通信参数测量单元104能够测量RTT,可以执行ICMP(因特网控制消息协议)的ping(分组网际搜索器)命令,ICMP是与TCP/IP相关联的因特网层协议。然而,当在诸如FTP的通信应用106执行期间测量RTT时,通过测量从发送TCP确认请求分组(下面称为“SYN分组”)到接收对此进行响应的确认分组(下面称为“SYNACK分组”)的响应时间,也可以获得约等于RTT的时间。
诸如FTP的通信应用106例如存储在HDD中,并且一旦接收到用户指令就在分析/控制单元101的控制下执行。
下面将描述故障分析设备100的操作。
用户例如利用鼠标110或键盘111,键入指令以执行通信应用,其中,该指令由用户接口102接收并传送到分析/控制单元101,并且,指定的通信应用106在分析/控制单元101的控制下执行。当执行的通信应用106是通过IP网络300与服务器200进行通信的软件时,通信单元105响应于来自通信参数测量单元104的分组捕获请求,捕获在通信应用106执行期间发送和接收的分组。关于所捕获的分组的信息存储在数据存储部103中,并且被作为分组捕获结果传送给通信参数测量单元104。
通信参数测量单元104对来自分析/控制单元101的测量请求进行响应,以根据关于捕获分组的信息测量不同的通信参数值。
如上所述,故障分析设备100通过测量从发送SYN分组到接收SYNACK分组(该分组是服务器200在接收到SYN分组以后立即返回的分组)之间的时间,来获得RTT。
通过监测丢失的分组序号来获得接收或流入方向上的分组丢失率,通过监测重发分组的数量获得发送或流出方向上的分组丢失率。
可以从故障分析设备100发送的分组的TCP报头中的信息获得窗口大小,该故障分析设备100是客户机PC。另一方面,根据在等于RTT的累计到达时间内接收到的流入分组的总数据量来估算服务器200的窗口大小。具体来说,如图2所示,按短间隔(例如,按1毫秒或更短的间隔)传送对应于窗口大小的分组51,而RTT则比该间隔长得多。相应地,等于RTT的分组间隔用来界定窗口大小,因此到此为止接收到的分组的总数据量被视为窗口大小(参照图6,将在后面说明)。
根据在一固定时间内捕获的流出和流入分组的信息量来测量吞吐量的实际值。
上述测量到的不同通信参数存储在数据存储部103中,并且还被作为测量结果传送给分析/控制单元101。分析/控制单元101然后根据窗口大小和RTT计算吞吐量的估算值。吞吐量受故障分析设备100的窗口大小和服务器200的窗口大小中的较小值限制。因此,利用较小的窗口大小,根据下列公式计算吞吐量的估算值:吞吐量=窗口大小/RTT。然而,由于窗口大小随着分组丢失而变化,需要对窗口大小进行修正。下面将描述补偿分组丢失影响的修正方法。
根据TCP,按这种方式进行控制(下面称为“窗口控制”):即,使得在检测到分组丢失的时候减小窗口大小,而在没有分组丢失从而判断IP网络300没有的阻塞情况下增大窗口大小,从而改变传输速率。窗口控制的细节在Nishida的“Detailed Explanation of TCP”(Internet Week99 Pacifico Yokohama,December 14,1999(2004年6月17日执行搜索),因特网URL:<http://www.nic.ad.jp/ja/materials/iw/1999/notes/c3.PDF>)(可在线访问)中有详细说明。用于控制窗口大小的算法包括以下两种典型算法。
图5A和5B例示了两种窗口大小控制算法,其中,图5A显示了塔霍算法,图5B显示了里诺/新里诺算法。
在两个图中,纵轴都表示窗口大小,横轴都表示时间。窗口大小被在两个独立阶段(即慢启动阶段F1和阻塞避免阶段F2)中进行控制,不同的通信阶段具有不同的增长速率。具体来说,在慢启动阶段F1,每当接收到SYNACK分组时窗口大小以指数方式增长,而在阻塞避免阶段F2,每当接收到SYNACK分组时窗口大小以线性方式增长。根据如图5A所示的塔霍算法,在检测到发生分组丢失的时候,窗口大小减小到“1”。另一方面,根据如图5B所示的里诺/新里诺算法,在检测到发生分组丢失的时候,窗口大小减小到前一大小的1/2。
考虑到分组丢失对动态窗口大小控制的影响,故障分析设备100根据捕获的流入分组的结果估算服务器200的窗口大小。
图6显示了流入分组流与分组间隔之间的关系,其中纵轴表示分组间隔(毫秒),横轴表示分组序号。
在长间隔后接收到的分组,比如在10毫秒或更长间隔后接收到的分组,被估计为Ack等待分组(该分组的间隔约等于RTT)501,其是服务器200响应于来自故障分析设备100的Ack分组(通知服务器200接收分组的分组)发送的分组。然后,在Ack等待分组之间接收到的分组的数据大小的总和被算作是服务器200的窗口大小。在没有分组丢失的情况下,窗口大小处于最大值(图6中所示的“8192”字节),但是如果出现分组丢失,窗口大小将如图5A和5B所示减小。因此,如图6所示的窗口大小的平均值被视为考虑了分组丢失的估算窗口大小。另选地,考虑了分组丢失的估算窗口大小可以根据最大窗口大小(根据捕获的流入分组的结果估算得到,如图6所示)、通信参数测量单元104测量到的丢失率以及图5A和5B所示的窗口大小控制算法估算来导出。
下面将要描述的方法也可以用于修正考虑了分组丢失的窗口大小。
图7显示了流入分组间隔和分组分布计数之间的关系,其中纵轴表示分组分布计数,横轴表示分组间隔(毫秒)。
首先,使用测量到的RTT为标准,按间隔将多个分组分成三组G1、G2和G3。组G1是按短分组间隔“0”到RTT(1-α)接收到的一组分组。组G2是分组间隔在RTT(1-α)到RTT(1+α)之间并且接近RTT的一组分组(被估计为是Ack等待分组)。组G3是由于重发延迟等按超出RTT(1+α)的长分组间隔接收到的一组分组。例如,考虑到分组间隔的分散(波动),将α的值设置为0.2到0.5。可以根据下列公式估算窗口大小:窗口大小=每个分组的平均数据大小/组G2与总量的比。
按这种方式,故障分析设备100的分析/控制单元101可以利用考虑了分组丢失影响下导出的窗口大小来获得吞吐量的估算值。
同时,在一些情况下,由于Ack分组需要重发而不能检测到分组丢失的发生。在这种情况下,通常设置一个大约3秒的重发延迟时间(后面称为“RTO(重发超时)等待时间”),在此期间不传送分组。RTO是由于以下两个原因之一产生的。
图8A和8B例示了由于分组丢失而导致的RTO,其中,图8A示出了重发分组再次丢失的情况,图8B示出了窗口大小数据中的最后一个分组丢失的情况。
如图8A所示,如果具有编号“4”的分组502丢失,则发送侧在接收到来自接收侧的分组丢失通知后再次发送具有编号“4”的重发分组503。然而,如果该分组再次丢失,则发送侧在经过RTO等待时间之后再次发送重发分组503。这类丢失分组502的数量可以由以下列公式进行估算:
估算的丢失分组数量=数据大小/平均段大小×(丢失率)2    (1)
其中数据大小是流入分组的总数据大小,平均段大小是每个分组的平均数据大小。至于丢失率,采用上述的由通信参数测量单元104测量到的丢失率。
另一方面,如图8B所示,如果窗口大小数据中的最后一个分组504丢失,则发送侧在经过RTO等待时间后再次发送重发分组505。这类重发分组505的数量可以由以下公式进行估算:
估算的重发分组数量=数据大小/平均段大小×平均段大小/估算窗口大小×丢失率    (2)
至于公式中的估算窗口大小,采用上述的参照图6和7说明的估算窗口大小。
考虑上述两种情况,故障分析设备100的分析/控制单元101计算吞吐量的估算值。
吞吐量的估算值由下列公式给出:
吞吐量估算值=数据大小/(RTT延迟总和+RTO延迟总和)    (3)
其中RTT延迟总和等于:分组间隔近似为RTT的分组的数量×RTT。分组间隔近似为RTT的分组对应于图6中的分组501和图7中属于组G2的分组,并且等于:数据大小/估算窗口大小。
公式(3)中的RTO延迟总和按下列公式计算:参照图8A和8B说明的造成RTO延迟的分组的数量×平均RTO延迟时间。造成RTO延迟的分组的数量等于上述公式(1)和(2)的结果的总和。平均RTO延迟时间可以从以下公式得到:RTT×丢失率×β,其中β例如是根据经验获得的值。
因此,故障分析设备100的分析/控制单元101可以计算补偿分组丢失影响时的吞吐量的估算值。
最后,在分析/控制单元101的控制下,用户接口102在显示器112上显示吞吐量的估算值和实际测量值,以及各种其他通信参数(如丢失率、窗口大小和RTT),作为要呈现给用户的故障分析结果。
图9例示了故障分析屏面。
故障分析屏面包括用于启动分组捕获的捕获开始按钮510。当某个通信应用在执行的时候,用户指定捕获时间等,并且利用鼠标110等来选择屏面上的捕获开始按钮510,由此可以启动故障分析进程。为每个通信目标获得分析结果。图9所示的示例表明服务器地址为“10.25.144.173”的服务器200的端口“20”和客户机地址为“10.25.144.121”的客户机PC(故障分析设备)100的端口“2149”已经被选中。从数据存储部103检索分析结果并对其进行显示。例如,作为通信参数测量结果,显示下列内容:通信时间、发送数据量、接收数据量、比特率、从客户机PC100到服务器200的数据传送的上行丢失率、以及从服务器200到客户机PC100的数据传送的下行丢失率。
而且,由分析/控制单元101的上述过程计算得到的吞吐量的估算值(图9中的“模型值”)和实际测量值,与从TCP报头信息中获得的客户机PC 100的窗口大小(在图中为“RWIN最大值(max.)”)、服务器200的估算窗口大小(在图中为“估算SWIN”)、RTT以及丢失率一起显示。在示出的示例中,测量了从服务器200到客户机PC 100的数据传送的吞吐量,但是也可以测量相反方向的数据传送的吞吐量。而且,如图9所示,分析结果可以作为吞吐量诊断结果显示。示出的诊断结果表明:从服务器200到客户机PC 100的数据传送吞吐量较低,该低吞吐量是由小的平均传送窗口大小(估算SWIN)造成的,客户机侧的RWIN最大值是合适的,以及丢失率高达5.3%。
由图9可见,可以改变通信参数来对模型值进行仿真。在输入通信参数后,按下重新计算按钮511,在此,在分析/控制单元101的控制下重新计算并显示模型值。而且,估算的传送线路速度可以被这样输入,即,使得在模型值超过线路速度时将模型值限制为估算的线路速度。这就使得用户不仅可以获知测量结果,而且可以推断通过改进分组丢失率等可以增加多大的吞吐量,因此有助于用户制定从性能故障进行恢复的计划。
如上所述,呈现吞吐量的估算值和实际测量值以进行比较,由此,用户可以确定实际系统是否按照通信协议正常运行以及是否出现了性能故障。即,如果分组丢失大则吞吐量小,并且由于可以定量地估算吞吐量,所以可以定量地评价因果关系。在传统设备中,分组丢失等的测量结果是按绝对尺度进行检验的(例如,如果丢失率是1%或更多,则判断存在一些故障)。然而,在这种情况下,如果由于分组丢失以外的原因导致吞吐量较低,那么性能故障的原因就会被忽视。根据本发明,对吞吐量的实际测量值和估算值进行定量的比较,以此消除原因被忽视的可能性。
上述进程可以由计算机执行。在这种情况下,需要准备其中对用于执行故障分析设备100的功能的过程进行了描述的程序。该程序由计算机执行,其中上述处理功能由计算机完成。描述所需过程的程序可以记录在计算机可读的记录介质上。计算机可读的记录介质包括磁记录器件、光盘、磁光记录介质、半导体存储器等。磁记录器件可以是硬盘驱动器(HDD)、软盘(FD)以及磁带等。作为光盘,可以使用DVD(数字多媒体盘)、DVD-RAM、CD-ROM、CD-R(可记录)/RW(可复写)等。磁光记录介质包括MO(磁光盘)等。
要销售该程序,可以采用便携式记录介质,如其上记录有程序的DVD和CD-ROM。另选地,该程序可以存储在服务器计算机的存储装置中,并且可以从服务器计算机通过网络传输给其他计算机。
例如,在发生性能故障时或在合适的时间,要执行该程序的计算机在它的存储装置中存储记录在便携式记录介质上或者从服务器计算机传送来的程序。然后,该计算机从其存储装置加载该程序并按该程序执行所述过程。该计算机可以直接从便携式记录介质加载程序,以按所述程序执行所述过程。另外,由于所述程序是从服务器计算机传输的,该计算机也可以按照接收到的程序顺序执行过程。
虽然已经描述了本发明的优选实施例,需要注意本发明并不限于上述实施例,相反,可以在不偏离所附权利要求所述的发明范围的条件下按各种方式对本发明进行修改。
根据本发明,在通信应用执行期间捕获流出和流入分组,以测量往返时间,并且根据捕获的流入分组估算发送源的通信窗口大小。然后,根据通信窗口大小和往返时间计算吞吐量的估算值,并且将吞吐量的估算值和实际测量值与各种其他通信参数(包括通信窗口大小和往返时间)一起呈现。相应地,即使在客户机系统、服务器系统等的甚端点处,也可以根据定量分析准确地确定性能故障的原因。
上述仅被视为对本发明原理的示例。此外,由于熟悉本领域技术的人可以容易地进行许多修改和改变,所以本发明并不限于所示出和描述的具体构造和应用,相应地,所有合适的修改和等同物都被视为落入所附权利要求及其等同物所述的本发明的范围内。

Claims (8)

1、一种用于分析网络上出现性能故障的原因的故障分析设备,该故障分析装置包括:
分组捕获装置,用于在通信应用执行期间捕获流出和流入分组;
往返时间测量装置,用于通过测量从发送确认请求分组到接收到确认分组的响应时间,来测量往返时间;
通信窗口大小估算装置,用于根据捕获的流入分组估算发送源的通信窗口大小;
吞吐量估算值计算装置,用于根据通信窗口大小和往返时间计算吞吐量的估算值;以及
分析结果呈现装置,用于呈现吞吐量的估算值和实际测量值以及包括通信窗口大小和往返时间的各种通信参数。
2、根据权利要求1的故障分析设备,其中,所述通信窗口大小估算装置根据在等于往返时间的累计到达时间内所接收到的流入分组的总数据量估算通信窗口大小。
3、根据权利要求1的故障分析设备,其中,所述吞吐量估算值计算装置,通过利用将分组丢失考虑在内而估算出的通信窗口大小,来计算补偿分组丢失影响时的吞吐量的估算值。
4、根据权利要求1的故障分析设备,其中,所述通信窗口大小是根据分组间隔偏离往返时间的程度在一定范围内的流入分组与考虑到分组间隔的分散而计算出的时间之比来估算的。
5、根据权利要求1的故障分析设备,其中,估算往返时间中的往返时间延迟和由于分组丢失引起的重发延迟,并且根据往返时间延迟的总和及重发延迟的总和来计算吞吐量的估算值。
6、根据权利要求5的故障分析设备,其中,所述重发延迟的总和是通过将第一值和第二值的和乘以平均重发延迟时间获得的时间,其中,第一值是通信期间可能丢失的重发分组的估算数量,第一值与分组丢失率的平方成比例,而第二值是可能在通信窗口大小数据中丢失的最后流入分组的估算数量,第二值与分组丢失率成比例。
7、根据权利要求1的故障分析设备,其中,所述吞吐量的估算值是在改变各种通信参数的测量值的情况下来重新计算的。
8、一种故障分析方法,用于使计算机执行分析网络上出现性能故障的原因的过程,
其中,该计算机执行:
分组捕获步骤,用于在通信应用执行期间捕获流出和流入分组;
往返时间测量步骤,用于通过测量从发送确认请求分组到接收到确认分组的响应时间,来测量往返时间;
通信窗口大小估算步骤,用于根据捕获的流入分组估算发送源的通信窗口大小;
吞吐量估算值计算步骤,用于根据通信窗口大小和往返时间计算吞吐量的估算值;以及
分析结果呈现步骤,用于呈现吞吐量的估算值和实际测量值以及包括通信窗口大小和往返时间的各种通信参数。
CNB2005100062189A 2004-06-25 2005-01-17 记录介质、故障分析设备以及故障分析方法 Active CN100356733C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004188517 2004-06-25
JP2004188517A JP4429095B2 (ja) 2004-06-25 2004-06-25 障害解析プログラム、障害解析装置、記録媒体及び障害解析方法

Publications (2)

Publication Number Publication Date
CN1713594A CN1713594A (zh) 2005-12-28
CN100356733C true CN100356733C (zh) 2007-12-19

Family

ID=34940343

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100062189A Active CN100356733C (zh) 2004-06-25 2005-01-17 记录介质、故障分析设备以及故障分析方法

Country Status (5)

Country Link
US (1) US7197014B2 (zh)
EP (1) EP1610495A1 (zh)
JP (1) JP4429095B2 (zh)
KR (1) KR100768387B1 (zh)
CN (1) CN100356733C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474608A (zh) * 2013-08-08 2016-04-06 株式会社理光 程序、通信质量估计方法、信息处理装置、通信质量估计系统以及存储介质

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126894A (ja) * 2004-10-26 2006-05-18 Sony Corp コンテンツ配信方法、プログラムおよび情報処理装置
US20060176832A1 (en) * 2005-02-04 2006-08-10 Sean Miceli Adaptive bit-rate adjustment of multimedia communications channels using transport control protocol
US20060274760A1 (en) * 2005-06-07 2006-12-07 Level 3 Communications, Inc. Internet packet quality monitor
KR100739710B1 (ko) * 2005-06-14 2007-07-13 삼성전자주식회사 패킷의 손실 타입을 판별하는 방법 및 장치
GB2438017A (en) 2006-05-02 2007-11-14 Skype Ltd Controlling communication quality by generating instructions providing a remedy to users to improve communication quality
KR100755716B1 (ko) * 2006-07-10 2007-09-05 삼성전자주식회사 패킷의 손실 타입을 판별하는 장치 및 방법
KR100737678B1 (ko) * 2006-07-25 2007-07-09 한국정보통신대학교 산학협력단 멀티미디어 스트리밍 서비스에 대한 지연시간 분석방법
US7978617B2 (en) * 2006-09-15 2011-07-12 Citrix Systems, Inc. Methods for providing performance improvement recommendations
US8078972B2 (en) 2006-09-15 2011-12-13 Citrix Systems, Inc. Methods and interfaces for displaying performance data related to a current remote access session
US7788198B2 (en) 2006-12-14 2010-08-31 Microsoft Corporation Method for detecting anomalies in server behavior using operational performance and failure mode monitoring counters
JP4883801B2 (ja) * 2007-08-14 2012-02-22 キヤノン株式会社 通信制御装置、通信制御方法、及びコンピュータプログラム
US7742418B2 (en) * 2007-08-24 2010-06-22 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for determining latency and throughput of a data communication
DE102008011346B4 (de) 2008-02-27 2010-10-21 Phoenix Contact Gmbh & Co. Kg Selbstdiagnostizierende Kommunikationsvorrichtung
JP5139859B2 (ja) 2008-03-28 2013-02-06 キヤノン株式会社 情報処理装置及びその制御方法、プログラム、記憶媒体
KR101068946B1 (ko) * 2008-12-22 2011-09-30 한국전자통신연구원 다중 관측윈도우들에서의 실패한 세션 분포 측정장치 및 그방법
KR101045956B1 (ko) * 2009-03-26 2011-07-04 한국과학기술정보연구원 데이터 전송성능 진단 시스템 및 방법과, 그 방법을 실행하기 위한 프로그램이 기록된 기록매체
ATE542330T1 (de) * 2009-08-18 2012-02-15 Abb Technology Ag Analyse einer kommunikationsleistung einer ied
US8363554B2 (en) * 2009-12-23 2013-01-29 At&T Intellectual Property I, Lp Method and system for fault detection using round trip time
KR101875987B1 (ko) * 2011-02-14 2018-07-06 톰슨 라이센싱 상이한 변조율들로 전송된 패킷들의 라운드 트립 시간의 측정에 의한 wi-fi 접속성의 문제해결
KR101272670B1 (ko) * 2011-11-28 2013-06-10 엔에이치엔(주) 사용자 단말의 접속 네트워크 식별 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
JP5838787B2 (ja) * 2011-12-21 2016-01-06 富士通株式会社 通信装置、および通信方法
US8832274B2 (en) * 2012-03-09 2014-09-09 Business Objects Software Limited Apportioned queue for resource allocation
EP2688334B1 (en) 2012-07-17 2018-10-03 LG Electronics Inc. Method and apparatus for measuring data burst throughput in a wireless communications system
JP6033069B2 (ja) * 2012-12-11 2016-11-30 Kddi株式会社 通信品質推定装置
US9432458B2 (en) 2013-01-09 2016-08-30 Dell Products, Lp System and method for enhancing server media throughput in mismatched networks
US9094336B2 (en) 2013-03-15 2015-07-28 Ixia Methods, systems, and computer readable media for assisting with the debugging of conditions associated with the processing of test packets by a device under test
US9388733B2 (en) * 2014-01-02 2016-07-12 Ford Global Technologies, Llc Methods and system for inferring throttle inlet pressure
JP6390167B2 (ja) * 2014-05-23 2018-09-19 日本電気株式会社 通信スループット予測装置、通信スループット予測方法、及び、プログラム
CN105306284A (zh) * 2014-05-27 2016-02-03 中兴通讯股份有限公司 检测虚拟专用网络的用户网络侧接口连通性的方法及装置
JP2016082497A (ja) 2014-10-21 2016-05-16 富士通株式会社 品質推測プログラム、品質推測方法及び品質推測装置
JP6055852B2 (ja) * 2015-01-27 2016-12-27 Kddi株式会社 通信装置、通信システム、算出方法及び通信プログラム
US9979663B2 (en) * 2015-06-08 2018-05-22 Accedian Networks Inc. TCP performance predictor
US10826785B2 (en) 2015-09-25 2020-11-03 International Business Machines Corporation Data traffic monitoring tool
US9992276B2 (en) 2015-09-25 2018-06-05 International Business Machines Corporation Self-expanding software defined computing cluster
US9798474B2 (en) 2015-09-25 2017-10-24 International Business Machines Corporation Software-defined storage system monitoring tool
JP2017079412A (ja) * 2015-10-20 2017-04-27 富士通株式会社 パケット解析プログラム、パケット解析装置およびパケット解析方法
WO2017077704A1 (ja) * 2015-11-06 2017-05-11 日本電気株式会社 スループット計測装置、方法および記録媒体
CN105827537B (zh) * 2016-06-01 2018-12-07 四川大学 一种基于quic协议的拥塞改进方法
IT201900010362A1 (it) * 2019-06-28 2020-12-28 Telecom Italia Spa Abilitazione della misura di perdita di pacchetti round-trip in una rete di comunicazioni a commutazione di pacchetto
JP7235967B2 (ja) * 2019-07-24 2023-03-09 富士通株式会社 ネットワーク分析プログラム、ネットワーク分析装置及びネットワーク分析方法
US11533215B2 (en) * 2020-01-31 2022-12-20 Juniper Networks, Inc. Programmable diagnosis model for correlation of network events
CN113206749B (zh) 2020-01-31 2023-11-17 瞻博网络公司 网络事件的相关性的可编程诊断模型
US11269711B2 (en) 2020-07-14 2022-03-08 Juniper Networks, Inc. Failure impact analysis of network events
JP7481627B2 (ja) * 2020-09-02 2024-05-13 富士通株式会社 異常検知方法及び異常検知プログラム
CN116456380A (zh) * 2022-01-07 2023-07-18 华为技术有限公司 故障定位的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174216A1 (en) * 2001-05-17 2002-11-21 International Business Machines Corporation Internet traffic analysis tool
US20020181494A1 (en) * 2000-11-21 2002-12-05 Injong Rhee Methods and systems for rate-based flow control between a sender and a receiver
WO2003081873A1 (en) * 2002-03-22 2003-10-02 Nokia Corporation Method, system and device for controlling a transmission window size

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2961432B2 (ja) 1990-05-28 1999-10-12 株式会社タツノ・メカトロニクス ヘリポート用給油設備
US6108800A (en) * 1998-02-10 2000-08-22 Hewlett-Packard Company Method and apparatus for analyzing the performance of an information system
US6219713B1 (en) * 1998-07-07 2001-04-17 Nokia Telecommunications, Oy Method and apparatus for adjustment of TCP sliding window with information about network conditions
JP3602972B2 (ja) * 1998-07-28 2004-12-15 富士通株式会社 通信性能測定装置及びその測定方法
JP2001237882A (ja) * 2000-02-23 2001-08-31 Nec Corp パケットデータ転送におけるパケットサイズ制御装置及びその制御方法
JP4310984B2 (ja) 2002-02-06 2009-08-12 株式会社日立製作所 有機発光表示装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020181494A1 (en) * 2000-11-21 2002-12-05 Injong Rhee Methods and systems for rate-based flow control between a sender and a receiver
US20020174216A1 (en) * 2001-05-17 2002-11-21 International Business Machines Corporation Internet traffic analysis tool
WO2003081873A1 (en) * 2002-03-22 2003-10-02 Nokia Corporation Method, system and device for controlling a transmission window size

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"TCP Vegas revisited".HENGARTNER U ET AL:ISBN: 0.7803.5880.5.INFOCOM 2000. NINETEENTH ANNUAL JOINT CONFERENCE OF THE IEEE COMPUTER AND COMMUNICATIONS SOCIETIES.PROCEEDINGS.IEEE TEL AVIV,ISRAEL 26.30 MARCH 2000,PISCATAWAY,NJ,USA,IEEE,US,26 March 2000,Vol.vol.3,. 2000 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474608A (zh) * 2013-08-08 2016-04-06 株式会社理光 程序、通信质量估计方法、信息处理装置、通信质量估计系统以及存储介质

Also Published As

Publication number Publication date
US7197014B2 (en) 2007-03-27
EP1610495A1 (en) 2005-12-28
CN1713594A (zh) 2005-12-28
KR20050123047A (ko) 2005-12-29
JP4429095B2 (ja) 2010-03-10
KR100768387B1 (ko) 2007-10-18
US20050289395A1 (en) 2005-12-29
JP2006013920A (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
CN100356733C (zh) 记录介质、故障分析设备以及故障分析方法
US5913041A (en) System for determining data transfer rates in accordance with log information relates to history of data transfer activities that independently stored in content servers
JP4578515B2 (ja) Tcp接続における制限因子の自動検出
Sun et al. Identifying performance bottlenecks in CDNs through TCP-level monitoring
CN101933290B (zh) 基于流信息对网络设备上的acl进行配置的方法
EP1742416B1 (en) Method, computer readable medium and system for analyzing and management of application traffic on networks
EP1422871B1 (en) Network monitoring system responsive to changes in packet arrival variance and mean
Kalyanakrishnan et al. Reliability of internet hosts: A case study from the end user's perspective
US20120278485A1 (en) Monitoring network performance to identify sources of network performance degradation
US20060029016A1 (en) Debugging application performance over a network
US20090222555A1 (en) Network performance monitor
US7782796B2 (en) Method for generating an annotated network topology
US7903657B2 (en) Method for classifying applications and detecting network abnormality by statistical information of packets and apparatus therefor
KR20010101075A (ko) 통신 데이터를 수집하여 분석하는 장치 및 방법
JP2008283621A (ja) ネットワーク輻輳状況監視装置、ネットワーク輻輳状況監視方法及びプログラム
JP3868939B2 (ja) 通信ネットワークの障害を検出する装置
JP4583312B2 (ja) 通信状況判定方法、通信状況判定システム及び判定装置
Feamster Revealing utilization at internet interconnection points
Wu et al. Lossdetection: Real-time packet loss monitoring system for sampled traffic data
JP2011142473A (ja) ユーザ待ち時間推定装置、ユーザ待ち時間推定方法、及びプログラム
Tlaiss et al. Automated slow-start detection for anomaly root cause analysis and BBR identification
JP2013243534A (ja) 遅延時間評価装置および遅延時間評価方法
JP4282556B2 (ja) フローレベル通信品質管理装置と方法およびプログラム
CN113542044A (zh) 网络质量监测方法、装置及计算设备
Borzemski et al. An Empirical Study of Web Quality: Measuring the Web from Wroclaw University of Technology Campus.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant