CN107645398A - 一种诊断网络性能和故障的方法和装置 - Google Patents

一种诊断网络性能和故障的方法和装置 Download PDF

Info

Publication number
CN107645398A
CN107645398A CN201610586315.8A CN201610586315A CN107645398A CN 107645398 A CN107645398 A CN 107645398A CN 201610586315 A CN201610586315 A CN 201610586315A CN 107645398 A CN107645398 A CN 107645398A
Authority
CN
China
Prior art keywords
information
data
counted
traffic flow
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610586315.8A
Other languages
English (en)
Inventor
王生新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201610586315.8A priority Critical patent/CN107645398A/zh
Publication of CN107645398A publication Critical patent/CN107645398A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种诊断网络性能和故障的方法和装置,该方法通过采用pcap文件来抓取数据中心的全部的流量数据,对pcap文件进行数据处理后,可以获取到该pcap文件中包含的数据流信息和对应的五元组信息,通过统计这些全面的信息,就可以全面诊断网络性能和故障错误,从而使得能够全面的了解网络的性能,并通过五元组信息作为数据流信息的索引,可以精确定位到网络故障所对应的数据信息,以便快速准确地解决网络故障。

Description

一种诊断网络性能和故障的方法和装置
技术领域
本发明涉及计算机通信技术领域,尤指一种诊断网络性能和故障的方法和装置。
背景技术
目前,随着网络技术的不断创新和市场的发展,越来越多的网络设备基础架构开始向基于通用处理器平台的架构方向融合,承载着提供快速安全的网络服务,也对网络管理中网络性能和故障的检测提出了更高的要求,尤其是对服务器监管、流量监控等方面。
现有技术中,通常监测网络性能和故障的的全过程具体是:前期,通过简单网络管理协议(简单网络管理协议,简称:SNMP)将交换机或路由设备的设备本身的流量数据进行统计;中期,由设备厂商将报文数据进行采样聚合后通过netflow或者sflow发出;后期,通过辅助手段在各个节点通过smokeping这种类似的软件对服务做ping或者http监控,进而可以全程进行网络管理。
但是,采用现有技术,统计的数据流量粒度不足,一般只有流量信息,甚者有包含五元组信息,但是,一旦网络出现问题,会由于没有足够的数据信息,无法复现当时的流量交互信息,导致无法全面诊断网络性能和故障错误。
发明内容
为了解决上述技术问题,本发明提供了一种诊断网络性能和故障的方法和装置,能够全面的了解网络的性能,精确地诊断到网络的故障,尤其可以精确定位到网络故障所对应的数据信息,以便快速准确地解决网络故障。
为了达到本发明目的,第一方面,本发明实施例提供了一种诊断网络性能和故障方法,该方法包括:
获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件;
对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引;
统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。
本发明实施例提供的一种诊断网络性能和故障方法,该方法包括:获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件,将所获取的流量数据保存为pcap文件,对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引,统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。该方法通过采用pcap文件来抓取数据中心的全部的流量数据,对pcap文件进行数据处理后,可以获取到该pcap文件中包含的数据流信息和对应的五元组信息,通过统计这些全面的信息,就可以全面诊断网络性能和故障错误,从而使得能够全面的了解网络的性能,并通过五元组信息作为数据流信息的索引,可以精确定位到网络故障所对应的数据信息,以便快速准确地解决网络故障。
进一步地,统计所述数据流信息,包括:
分别统计至少包括应用层协议信息、传输控制协议TCP信息和非协议信息数据其中之一的数据流信息。
通过分类统计数据流的应用层协议信息、传输控制协议信息和非协议信息数据,可以获取网络的全方面数据,从而便于对网络的性能和故障进行诊断。
进一步地,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的应用层协议信息中的结构化查询语言sql的查询响应时间或者超文本传输协议http事务的响应时间和响应状态,分别诊断网络中关系型数据库管理系统mysql事务或者超文本传输协议http事务的性能。
通过根据所统计的应用层协议信息的数据,便于精确地对网络的性能和故障进行诊断。
可选地,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的传输控制协议TCP信息中的往返时延RTT时间或者建立连接时使用的握手信号与重传次数的比例或者拥塞窗口的CWR状态或者关闭连接FIN、重置连接RST、连接超时TIMEOUT的数据,分别诊断网络中传输链路的状态、拒绝服务攻击的攻击情况、工作的状态和连接的状态。
通过根据所统计的传输控制协议TCP信息中的数据,便于精确地对网络的性能和故障进行诊断。
可选地,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的非协议信息数据的报文长度的比例或者流量分布情况或者重传数据与丢包数据之间的比例,分别诊断网络的攻击状态、工作的状态和链路的状态。
通过根据所统计的非协议信息数据,便于精确地对网络的性能和故障进行诊断。
第二方面,本发明实施例提供了一种网络性能和故障定位装置,该装置包括:流量获取模块、数据处理模块和统计诊断模块。
所述流量获取模块,设置为获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件;
所述数据处理模块,设置为对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引;
所述统计诊断模块,设置为统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。
本发明实施例提供的一种诊断网络性能和故障装置,该装置包括:流量获取模块、数据处理模块和统计诊断模块;通过采用pcap文件来抓取数据中心的全部的流量数据,对pcap文件进行数据处理后,可以获取到该pcap文件中包含的数据流信息和对应的五元组信息,通过统计这些全面的信息,就可以全面诊断网络性能和故障错误,从而使得能够全面的了解网络的性能,并通过五元组信息作为数据流信息的索引,可以精确定位到网络故障所对应的数据信息,以便快速准确地解决网络故障。
进一步地,所述统计诊断模块设置为统计所述数据流信息,是指:
所述统计诊断模块设置为分别统计至少包括应用层协议信息、传输控制协议TCP信息和非协议信息数据其中之一的数据流信息。
通过分类统计数据流的应用层协议信息、传输控制协议信息和非协议信息数据,可以获取网络的全方面数据,从而便于对网络的性能和故障进行诊断。
进一步地,所述统计诊断模块设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块设置为根据所统计的应用层协议信息中的结构化查询语言sql的查询响应时间或者超文本传输协议http事务的响应时间和响应状态,分别诊断网络中关系型数据库管理系统mysql事务或者超文本传输协议http事务的性能。
通过根据所统计的应用层协议信息的数据,便于精确地对网络的性能和故障进行诊断。
所述统计诊断模块设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块设置为根据所统计的传输控制协议TCP信息中的往返时延RTT时间或者建立连接时使用的握手信号与重传次数的比例或者拥塞窗口的CWR状态或者关闭连接FIN、重置连接RST、连接超时TIMEOUT的数据,分别诊断网络中传输链路的状态、拒绝服务攻击的攻击情况、工作的状态和连接的状态。
通过根据所统计的传输控制协议TCP信息中的数据,便于精确地对网络的性能和故障进行诊断。
进一步地,所述统计诊断模块设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块设置为根据所统计的非协议信息数据的报文长度的比例或者流量分布情况或者重传数据与丢包数据之间的比例,分别诊断网络的攻击状态、工作的状态和链路的状态。
通过根据所统计的非协议信息数据,便于精确地对网络的性能和故障进行诊断。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的一种诊断网络性能和故障方法实施例一的流程示意图;
图2为本发明实施例提供的一种诊断网络性能和故障方法实施二流程示意图;
图3为本发明实施例提供的一种诊断网络性能和故障装置实施例一的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例涉及的方法是应用于互联网数据中心(IDC),该互联网数据中心可以为互联网内容提供商(ICP)、企业、媒体和各类网站提供大规模、高质量、安全可靠的专业化服务器托管、空间租用、网络批发带宽以及ASP、EC等业务。
本发明实施例涉及的方法,旨在解决现有技术中由于统计的数据流量粒度不足,一旦网络出现问题,导致无法全面诊断网络性能和故障错误的技术问题。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的一种诊断网络性能和故障方法实施例一的流程示意图。本实施例涉及的是实现网络性能和故障诊断的方法的具体过程。如图1所示,该方法包括:
S101、获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件,将所获取的流量数据保存为pcap文件。
具体的,获取数据中心IDC全部的流量数据,单纯的从流量数据的采集方式上来看,可以分为简单网络管理协议(Simple Network Management Protocol简称:SNMP),端口镜像/探针/旁路,Flow,RMON等几种主要方式,其中SNMP主要应用于设备接口的流量数据采集,如采集某个交换机端口的流入流出字节数,包数等;端口镜像/探针/旁路主要应用于千兆以下的端口的全流量采集,这种方式下采集的数据可以进行数据包内容的分析,也即现在非常热的所谓的DPI(深度包检测),而各种FLOW技术则是设备按照一定的采样比进行网络五元组(源IP+源端口+目的IP+目的端口+协议类型)的统计,然后输出统计后的流记录,但并不以此为限。
将上述所获取的流量数据保存为pcap文件,该pcap文件的格式一般都是标准格式,例如:文件头24字节
数据包头+数据包数据包头为16字节,后面紧跟数据包
数据包头+数据包......,这个抓包库给抓包系统提供了一个高层次的接口,这样所有网络上的数据包,甚至是那些发送给其他主机的,都可以通过这种机制来捕获的,它也支持把捕获的数据包保存为本地文件和从本地文件读取信息,然后对该pcap文件进行数据处理,例如:
在一个Pcap文件中存在1个Pcap文件头和多个数据包,其中每个数据包都有自己的头和包内容,其中,
magic为文件识别头,pcap固定为:0xA1B2C3D4。(4个字节)
magor version为主版本号(2个字节)
minor version为次要版本号(2个字节)
timezone为当地的标准时间(4个字节)
sigflags为时间戳的精度(4个字节)
snaplen为最大的存储长度(4个字节)
linktype为链路类型(4个字节)。
S102、对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引。
具体的,对pcap文件进行数据处理获取网络的数据流信息(NetFlow)和对应的五元组信息,一个NetFlow即为一个源IP地址和目的IP地址间传输的单向数据包流,且所有数据包具有共同的传输层源、目的端口号,其中,五元组信息是指源IP地址,源端口,目的IP地址,目的端口,协议这五个量组成的一个集合,可以作为数据流信息的索引,可以快速定位,协议信息一般包括应用层协议和传输控制协议,其中,应用层协议是运行在不同端系统上的应用程序进程如何相互传递报文,而传输层协议是一种面向连接的、可靠的、基于字节流的传输层通信协议,还有一些非协议信息数据,如报文长度的比例、流量统计、丢失/重传报文比例等,但并不限于此。
S103、统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。
具体的,可以统计数据处理后的数据流信息,然后根据统计后的信息来诊断网络的性能和故障,例如:可以统计数据处理后的应用层mysql查询语句的时间、应用层http事务的时间、流量统计、TCP层的RTT时间等,根据这些统计信息可以定位到最耗时间的sql查询,为sql查询语句优化提供支持,以及定位其他如:慢的http事务、非200状态码、预警web服务不可用或者出问题等网络故障。
本发明实施例提供的一种诊断网络性能和故障方法,该方法包括:获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件,将所获取的流量数据保存为pcap文件,对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引,统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。该方法通过采用pcap文件来抓取数据中心的全部的流量数据,对pcap文件进行数据处理后,可以获取到该pcap文件中包含的数据流信息和对应的五元组信息,通过统计这些全面的信息,就可以全面诊断网络性能和故障错误,从而使得能够全面的了解网络的性能,并通过五元组信息作为数据流信息的索引,可以精确定位到网络故障所对应的数据信息,以便快速准确地解决网络故障。
进一步地,图2为本发明实施例提供的一种诊断网络性能和故障方法实施二流程示意图,如图2所示,在一个实施例中,统计所述数据流信息,包括:
分别统计至少包括应用层协议信息、传输控制协议TCP信息和非协议信息数据其中之一的数据流信息。
具体的,获取数据中心IDC全部的流量数据,其中,通过对pcap文件进行回溯分析,即统计应用层协议信息,如:统计SQL查询语句耗时量、统计非200状态码、HTTP会话完成时间等;或者统计TCP协议信息,如:RTT时间统计、SYN/SYN ACK包统计、FCN/FIN ACK统计、拥塞窗口的CWR状态等,或者非协议信息数据,如:统计报文长度比例、统计流量、统计丢包/重传报文比例等,分别统计上述应用层协议信息、TCP协议信息和非协议信息其中之一的数据流信息,但并不限于此。
通过分类统计数据流的应用层协议信息、传输控制协议信息和非协议信息数据,可以获取网络的全方面数据,从而便于对网络的性能和故障进行诊断。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的应用层协议信息中结构化查询语言sql的查询响应时间,诊断网络中关系型数据库管理系统mysql事务的性能。
具体的,根据统计后的应用层mysql查询语句的时间,可以定位到最耗时间的sql查询,看看查询慢的原因有哪些,具体的有:没有索引或者没有用到索引、I/O吞吐量小,形成了瓶颈效应、没有创建计算列导致查询不优化、内存不足、网络速度慢、查询出的数据量过大、锁或者死锁、sp_lock,sp_who,活动的用户查看,原因是读写竞争资源、返回了不必要的行和列、查询语句不好,没有优化等等,实际举例说明:如果发现有一个页面无法正确获取数据,SQL查询达到20多秒,就可以初步断定应该是嵌套的子查询部分占用了大部分的时间,但并不限于此。
通过查询sql查询语句的时间,可以为sql查询语句优化提供支持。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的应用层协议信息中超文本传输协议http事务的响应时间和响应状态,诊断网络中超文本传输协议http事务的性能。
具体的,HTTP在TCP的上一层,位于应用层,在一个HTTP事务的整个过程中的延时可以描述出TCP性能瓶颈的问题所在,其中,整个HTTP事务的延时主要有以下几种:
1)解析时延DNS解析与DNS缓存
客户端首先需要根据URL确定Web服务器的IP地址和端口号,如果最近没有对URL中的主机名进行访问,那么DNS将URL中的主机名转换为IP地址可能会花费数十秒的时间。如果是近期访问过的主机名,那么在HTTP客户端的DNS缓存中,就会保存该主机名对应的IP地址。
2)连接时延TCP连接的建立
接下来,客户端会向服务器发送一条TCP连接请求,并等待服务器回送一个请求接受应答。每条新的TCP连接都会有连接新建时延,这个时间虽然很短,但是如果一次性新建多条TCP连接,那么这个时延叠加起来就很长了。
3)传输时延HTTP请求发送HTTP响应返回
一旦连接建立起来之后,客户端就会通过新建的TCP信道来发送HTTP请求,数据到达时,web服务器会从TCP链接中读取请求报文,并处理。因特网传输请求报文以及服务器处理请求报文都需要时间
4)处理时延HTTP报文处理
服务器会回送HTTP响应,这也需要花费时间。
根据统计后的应用层协议中超文本传输协议http事务的响应时间和响应状态,分析网络中超文本传输协议http事务。
实际举例说明:如果监控某一个网站的非200统计特别多,可能网站存在的问题,例如:页面不存在,服务器内部调用出错;
如果发现http的会话时间特别长,可能服务器的负载已经满负荷。
通过统计分析应用层http事务的时间,可以精确定位web服务的工作性能。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的传输控制协议TCP信息中的往返时延RTT时间,诊断网络中传输链路的故障。
具体的,SYN(synchronous)是TCP/IP建立连接时使用的握手信号,判断TCP的三次握手时间,确定网路时延RTT,在建立一条新的TCP连接时,甚至是在发送任意数据钱,TCP软件之间会交换一系列的IP分组,对连接的有关参数进行沟通。一般TCP握手需要经过以下几个步骤:
1)请求新的TCP连接时,客户端要服务器发送一个小的TCP分组,这个分组中设置了一个特殊的SYN标记,说明这是一个连接请求。
2)如果服务器接收了连接,就会对一些连接参数进行计算,并向客户端回送一个TCP分组,这个分组中的SYN和ACK标记都被置位,说明连接请求已被接受。
3)最后,客户端向服务器回送一条确认信息,通知它连接已成功建立。现代的TCP栈都允许客户端在这个确认分组中发送数据。
通常HTTP事务的交换数据量都不会太多,所以SYN/SYN+ACK握手就占用了大部分的时间,一般的小的HTTP事务可能会在TCP建立上花费50%,或更多的时间。
这样当业务系统访问慢时,可以通过此方法来快速确定是网络问题还是应用问题;如果RTT的时间是正常的,说明网络链路没有问题。
实际举例说明:某个ip发现RTT的时间比较长,经过统计分析RTT的时间比较长的来源IP都是来自某个地区的某个ISP线路,可以第一时间通知对方链路存在问题。
通过统计后的传输控制协议TCP信息中的往返时延RTT时间,可以诊断网络中TCP的传输链路的质量,快速定位网络传输链路的故障。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的传输控制协议TCP信息中的建立连接时使用的握手信号与重传次数的比例,诊断网络中的拒绝服务攻击的攻击情况。
具体的,SYN Flood是一种广为人知的DoS(拒绝服务攻击)与DDoS(分布式拒绝服务攻击)的方式之一,这是一种利用TCP协议缺陷,发送大量伪造的TCP连接请求,从而使得被攻击方资源耗尽(CPU满负荷或内存不足)的攻击方式,可以通过SYN/SYN_ACK的比例,确定是否遭受攻击,一般如果阈值超过3,很有可能遭受SYN Flood攻击。
实际应用例如:如果当发现入口的某个IP的SYN和SYN/ACK的比例为3:1甚至更大的时候,就很有可能正在遭受SYN FLOOD攻击。
通过统计后的传输控制协议TCP信息中的SYN/SYN_ACK的比例,可以诊断网络是否有SYN Flood攻击。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的传输控制协议TCP信息中拥塞窗口的CWR状态,分析网络的工作性能。
具体的,拥塞窗口cwnd(congestion window)拥塞窗口是TCP维护的一个内部变量,用来管理发送窗口大小,拥塞窗口的大小取决于网络的拥塞程度,并且动态地在变化,一般采用CWR作为拥塞窗口的减少标志。
一般发送方控制拥塞窗口的原则是:只要网络没有出现拥塞,拥塞窗口就再增大一些,以便把更多的分组发送出去。但只要网络出现拥塞,拥塞窗口就减小一些,以减少注入到网络中的分组数。
慢开始算法:当主机开始发送数据时,如果立即所大量数据字节注入到网络,那么就有可能引起网络拥塞,因为现在并不清楚网络的负荷情况。因此,较好的方法是先探测一下,即由小到大逐渐增大发送窗口,也就是说,由小到大逐渐增大拥塞窗口数值。通常在刚刚开始发送报文段时,先把拥塞窗口cwnd设置为一个最大报文段MSS的数值。而在每收到一个对新的报文段的确认后,把拥塞窗口增加至多一个MSS的数值。用这样的方法逐步增大发送方的拥塞窗口cwnd,可以使分组注入到网络的速率更加合理。
当发现入口IP的拥塞窗口特别小的时候,则可以怀疑服务端已经处理不过来了,存在性能瓶颈或者整个链路的质量存在问题。
例如:会话流量总计为1.631KB,传输的有效数据为902+146=1048字节,那另622字节的带宽则用于连接建立、关闭和数据封装。其中,固定开销是无法避免的,但我们可以尽量的让数据包携带更多的有效数据来减少开销,当然这与MSS、MTU有关。
通过统计后的传输控制协议TCP信息中的拥塞窗口,分析网络的工作性能。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据统计后的传输控制协议TCP信息中的关闭连接FIN、重置连接RST、连接超时TIMEOUT的数据,诊断网络的连接性能和故障。
具体的,FIN表示关闭连接、RST表示连接重置、TIMEOUT表示连接超时,分别统计FIN、RST、TIMEOUT的关闭的数据,其中如果RST次数过多,可能服务器已经不能响应,就需要进行处理。
实际举例说明:如果发现某个IP的RST回复特别多,可以怀疑这个服务不可用,如果FIN的原因是TIMEOUT特别多,则怀疑服务端的程序存在问题。
通过根据统计后的传输控制协议TCP信息中的连接状态,可以分析网络中TCP的传输链路的连接情况,便于定位网络故障。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的非协议信息数据的报文长度的比例,诊断网络的攻击状态。
具体的,报文也是网络传输的单位,传输过程中会不断的封装成分组、包、帧来传输,封装的方式就是添加一些信息段,那些就是报文头以一定格式组织起来的数据。如果报文封装的小包或者大包的比例超过50%很有可能正在遭受攻击,通常将小于128字节的包称作小包,大于512字节的包称作大包,小包定义:(小于64字节和65字节-127字节),大包定义:(1024字节-1517字节和大于1518字节)。
通过统计的非协议信息数据的报文长度的比例,可以诊断网络的攻击状态。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的非协议信息数据的流量分布情况,诊断网络的工作性能。
具体的,防止过多的数据注入到网络中,这样可以使网络中的路由器或链路不致过载。可以对流量进行拥塞控制,从而保证网络能够承受现有的网络负荷,拥塞控制是一个全局性的过程,涉及到所有的主机、路由器,以及与降低网络传输性能有关的所有因素。
流量控制:指点对点通信量的控制,是端到端正的问题。流量控制所要做的就是抑制发送端发送数据的速率,以便使接收端来得及接收。
拥塞控制代价:需要获得网络内部流量分布的信息,在实施拥塞控制之前,还需要在结点之间交换信息和各种命令,以便选择控制的策略和实施控制。这样就产生了额外的开销,拥塞控制还需要将一些资源分配给各个用户单独使用,使得网络资源不能更好地实现共享。
网络中的业务系统运行状态以及主要的用户,并与总流量、利用率进行关联分析,可以掌握网络中流量分布情况,对网络升级规划、带宽分配都具有重要意义,需要在业务高峰、空闲期分时段地行分别采集、统计,然后做成业务系统全局基线表,当业务系统出现问题时,通过对这些值进行综合分析,可以快速定位问题出在哪一环节。
具体举例说明:业务高峰、空闲期分时段地行分别采集、统计,比如:白天的流量高峰是10G,晚上是5G,再分别统计一周,一个月的流量统计,然后做成业务系统全局基线表,可以在规划网络中,采购多大的带宽,和运营商谈计费方式。
根据统计后的传输控制协议TCP信息中的流量分布情况,便于对网络进行规划。
可选地,在一个实施例中,如图2所示,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的非协议信息数据的重传数据与丢包数据之间的比例,诊断网络中的链路性能。
具体的,统计非协议信息数据的重传数据与丢包数据之间的比例,如果重传次数多的话,就说明在网络中存在数据传输问题,重传会导致会话间歇性停顿、通讯时间延长等问题,将极大的影响业务系统的工作效率,当业务系统通讯出现重传时,需要对原因进行深入的分析,详情定位可以通过回溯到时时间段的报文。
具体举例说明:发现某个ip的业务交互的TCP会话存在严重丢包现象,说明链路存在阻塞,链路质量不好,可以定位分析,比如发现是边界路由器出口光模块存在CRC校验和错误,还是链路出口已经阻塞。
通过所统计的非协议信息数据的重传数据与丢包数据之间的比例,可以快速精确地诊断网络中的链路性能。
本发明实施例提供的一种诊断网络性能和故障方法,通过将数据中心的流量数据保存为pcap文件,通过数据处理分析如:应用服务器响应时间分析、网络时间分析、特定应用的流量分析、特定应用响应量分析、响应量最大的服务器分析、响应时间随时间分布图、服务响应次数、应用服务响应分布、重传分析、应用的客户端数量分析、响应最差的客户端等等,并且可以通过五元组信息回溯到出现问题的数据流信息,从而进一步地诊断网络的性能和故障。
图3为本发明实施例提供的一种诊断网络性能和故障的实施例一的结构示意图,如图3所示,该装置包括:流量获取模块10、数据处理模块20和统计诊断模块30;
所述流量获取模块10,设置为获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件,将所获取的流量数据保存为pcap文件;
所述数据处理模块20,设置为对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引;
所述统计诊断模块30,设置为统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。
本发明实施例提供的一种诊断网络性能和故障装置,该装置包括:流量获取模块、数据处理模块和统计诊断模块;通过采用pcap文件来抓取数据中心的全部的流量数据,对pcap文件进行数据处理后,可以获取到该pcap文件中包含的数据流信息和对应的五元组信息,通过统计这些全面的信息,就可以全面诊断网络性能和故障错误,从而使得能够全面的了解网络的性能,并通过五元组信息作为数据流信息的索引,可以精确定位到网络故障所对应的数据信息,以便快速准确地解决网络故障。
进一步地,在一个实施例中,所述统计诊断模块30设置为统计所述数据流信息,是指:
所述统计诊断模块30设置为分别统计至少包括应用层协议信息、传输控制协议TCP信息和非协议信息数据其中之一的数据流信息。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的应用层协议信息中结构化查询语言sql的查询响应时间,诊断网络中关系型数据库管理系统mysql事务的性能。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的应用层协议信息中超文本传输协议http事务的响应时间和响应状态,诊断网络中超文本传输协议http事务的性能。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的传输控制协议TCP信息中的往返时延RTT时间,诊断网络中传输链路的故障。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的传输控制协议TCP信息中的建立连接时使用的握手信号与重传次数的比例,诊断网络中的拒绝服务攻击的攻击情况。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的传输控制协议TCP信息中的拥塞窗口的CWR状态,分析网络的工作性能。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据统计后的传输控制协议TCP信息中的关闭连接FIN、重置连接RST、连接超时TIMEOUT的数据,诊断网络的连接情况。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的非协议信息数据的报文长度的比例,诊断网络的攻击状态。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的非协议信息数据的流量分布情况,诊断网络的工作性能。
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
可选地,在一个实施例中,所述统计诊断模块30设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块30设置为根据所统计的非协议信息数据的重传数据与丢包数据之间的比例,诊断网络中的链路性能。
本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种诊断网络性能和故障方法,其特征在于,所述方法包括:
获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件;
对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引;
统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。
2.根据权利要求1所述的方法,其特征在于,统计所述数据流信息,包括:
分别统计至少包括应用层协议信息、传输控制协议TCP信息和非协议信息数据其中之一的数据流信息。
3.根据权利要求2所述的方法,其特征在于,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的应用层协议信息中的结构化查询语言sql的查询响应时间或者超文本传输协议http事务的响应时间和响应状态,分别诊断网络中关系型数据库管理系统mysql事务或者超文本传输协议http事务的性能。
4.根据权利要求2所述的方法,其特征在于,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的传输控制协议TCP信息中的往返时延RTT时间或者建立连接时使用的握手信号与重传次数的比例或者拥塞窗口的CWR状态或者关闭连接FIN、重置连接RST、连接超时TIMEOUT的数据,分别诊断网络中传输链路的状态、拒绝服务攻击的攻击情况、工作的状态和连接的状态。
5.根据权利要求2所述的方法,其特征在于,根据所统计的数据流信息诊断网络性能和故障,包括:
根据所统计的非协议信息数据的报文长度的比例或者流量分布情况或者重传数据与丢包数据之间的比例,分别诊断网络的攻击状态、工作的状态和链路的状态。
6.一种网络性能和故障定位装置,其特征在于,所述装置包括:流量获取模块、数据处理模块和统计诊断模块;
所述流量获取模块,设置为获取数据中心全部的流量数据,将所获取的流量数据保存为pcap文件;
所述数据处理模块,设置为对所述pcap文件进行数据处理获取数据流信息和对应的五元组信息,其中所述五元组信息作为所述数据流信息的索引;
所述统计诊断模块,设置为统计所述数据流信息,根据所统计的数据流信息诊断网络性能和故障。
7.根据权利要求6所述的装置,其特征在于,所述统计诊断模块设置为统计所述数据流信息,是指:
所述统计诊断模块设置为分别统计至少包括应用层协议信息、传输控制协议TCP信息和非协议信息数据其中之一的数据流信息。
8.根据权利要求7所述的装置,其特征在于,所述统计诊断模块设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块设置为根据所统计的应用层协议信息中的结构化查询语言sql的查询响应时间或者超文本传输协议http事务的响应时间和响应状态,分别诊断网络中关系型数据库管理系统mysql事务或者超文本传输协议http事务的性能。
9.根据权利要求7所述的装置,其特征在于,所述统计诊断模块设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块设置为根据所统计的传输控制协议TCP信息中的往返时延RTT时间或者建立连接时使用的握手信号与重传次数的比例或者拥塞窗口的CWR状态或者关闭连接FIN、重置连接RST、连接超时TIMEOUT的数据,分别诊断网络中传输链路的状态、拒绝服务攻击的攻击情况、工作的状态和连接的状态。
10.根据权利要求7所述的装置,其特征在于,所述统计诊断模块设置为根据所统计的数据流信息诊断网络性能和故障,是指:
所述统计诊断模块设置为根据所统计的非协议信息数据的报文长度的比例或者流量分布情况或者重传数据与丢包数据之间的比例,分别诊断网络的攻击状态、工作的状态和链路的状态。
CN201610586315.8A 2016-07-22 2016-07-22 一种诊断网络性能和故障的方法和装置 Pending CN107645398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610586315.8A CN107645398A (zh) 2016-07-22 2016-07-22 一种诊断网络性能和故障的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610586315.8A CN107645398A (zh) 2016-07-22 2016-07-22 一种诊断网络性能和故障的方法和装置

Publications (1)

Publication Number Publication Date
CN107645398A true CN107645398A (zh) 2018-01-30

Family

ID=61109526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610586315.8A Pending CN107645398A (zh) 2016-07-22 2016-07-22 一种诊断网络性能和故障的方法和装置

Country Status (1)

Country Link
CN (1) CN107645398A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600049A (zh) * 2018-04-16 2018-09-28 苏州云杉世纪网络科技有限公司 一种数据中心网络tcp连接的性能测量方法及装置
CN108650229A (zh) * 2018-04-03 2018-10-12 国家计算机网络与信息安全管理中心 一种网络应用行为解析还原方法及系统
CN108696450A (zh) * 2018-07-05 2018-10-23 深圳华信系统技术有限公司 一种网络tcp流量处理方法及其装置
CN109714209A (zh) * 2018-12-29 2019-05-03 中国科学院计算技术研究所 一种网站访问故障的诊断方法及系统
CN110704998A (zh) * 2019-06-25 2020-01-17 眸芯科技(上海)有限公司 多媒体ip带宽性能的验证方法及装置
CN110784375A (zh) * 2019-10-24 2020-02-11 新华三信息安全技术有限公司 网络数据监控方法、装置、电子设备及存储介质
CN110798429A (zh) * 2018-08-01 2020-02-14 深信服科技股份有限公司 一种网络安全防御中的威胁追捕方法、装置及设备
CN110830325A (zh) * 2019-11-05 2020-02-21 北京云杉世纪网络科技有限公司 一种自适应的网络旁路路径网流方向推测方法及系统
CN110912752A (zh) * 2019-12-06 2020-03-24 成都安恒信息技术有限公司 一种基于网络抓包的网络故障智能定位分析方法
CN111629025A (zh) * 2020-04-02 2020-09-04 深圳亿维锐创科技股份有限公司 一种医疗信息对接用调试系统
CN112069021A (zh) * 2020-08-21 2020-12-11 北京五八信息技术有限公司 流量数据的存储方法、装置、电子设备和存储介质
WO2021013205A1 (zh) * 2019-07-25 2021-01-28 华为技术有限公司 丢包定位方法、装置及系统、计算机存储介质
CN112905852A (zh) * 2021-03-04 2021-06-04 睿石网云(杭州)科技有限公司 一种基于会话索引的应用性能报文存储装置
CN113590910A (zh) * 2021-09-26 2021-11-02 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113645092A (zh) * 2021-07-07 2021-11-12 深圳市优克联新技术有限公司 网络质量评估方法、装置、终端设备和存储介质
CN113992546A (zh) * 2021-12-29 2022-01-28 中科南京信息高铁研究院 Sdn网络基于业务流信息的链路状态预测方法及系统
CN114500334A (zh) * 2021-12-31 2022-05-13 钉钉(中国)信息技术有限公司 服务端应用架构的诊断方法及装置
CN115550217A (zh) * 2022-09-28 2022-12-30 浙江大学 针对云网络中七层负载均衡场景的网络诊断方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152427A1 (en) * 2001-04-13 2002-10-17 Lg Electronics Inc. Debugging apparatus and method
CN102158401A (zh) * 2011-03-03 2011-08-17 江苏方天电力技术有限公司 基于电力自动化系统的流量监测模型
CN102882884A (zh) * 2012-10-13 2013-01-16 山东电力集团公司电力科学研究院 信息化生产环境下基于蜜网的风险预警系统及方法
CN103296755A (zh) * 2013-05-10 2013-09-11 国家电网公司 一种变电站网络在线监测系统
CN104660463A (zh) * 2015-01-22 2015-05-27 贵州电网公司信息通信分公司 一种基于ns-3的大型综合数据网网络模拟仿真系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152427A1 (en) * 2001-04-13 2002-10-17 Lg Electronics Inc. Debugging apparatus and method
CN102158401A (zh) * 2011-03-03 2011-08-17 江苏方天电力技术有限公司 基于电力自动化系统的流量监测模型
CN102882884A (zh) * 2012-10-13 2013-01-16 山东电力集团公司电力科学研究院 信息化生产环境下基于蜜网的风险预警系统及方法
CN103296755A (zh) * 2013-05-10 2013-09-11 国家电网公司 一种变电站网络在线监测系统
CN104660463A (zh) * 2015-01-22 2015-05-27 贵州电网公司信息通信分公司 一种基于ns-3的大型综合数据网网络模拟仿真系统

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650229B (zh) * 2018-04-03 2021-07-16 国家计算机网络与信息安全管理中心 一种网络应用行为解析还原方法及系统
CN108650229A (zh) * 2018-04-03 2018-10-12 国家计算机网络与信息安全管理中心 一种网络应用行为解析还原方法及系统
CN108600049A (zh) * 2018-04-16 2018-09-28 苏州云杉世纪网络科技有限公司 一种数据中心网络tcp连接的性能测量方法及装置
CN108600049B (zh) * 2018-04-16 2020-07-07 苏州云杉世纪网络科技有限公司 数据中心网络tcp连接的性能测量方法、装置及存储介质
CN108696450A (zh) * 2018-07-05 2018-10-23 深圳华信系统技术有限公司 一种网络tcp流量处理方法及其装置
CN110798429A (zh) * 2018-08-01 2020-02-14 深信服科技股份有限公司 一种网络安全防御中的威胁追捕方法、装置及设备
CN109714209A (zh) * 2018-12-29 2019-05-03 中国科学院计算技术研究所 一种网站访问故障的诊断方法及系统
CN110704998B (zh) * 2019-06-25 2023-04-18 眸芯科技(上海)有限公司 多媒体ip带宽性能的验证方法及装置
CN110704998A (zh) * 2019-06-25 2020-01-17 眸芯科技(上海)有限公司 多媒体ip带宽性能的验证方法及装置
WO2021013205A1 (zh) * 2019-07-25 2021-01-28 华为技术有限公司 丢包定位方法、装置及系统、计算机存储介质
CN110784375A (zh) * 2019-10-24 2020-02-11 新华三信息安全技术有限公司 网络数据监控方法、装置、电子设备及存储介质
CN110784375B (zh) * 2019-10-24 2021-10-12 新华三信息安全技术有限公司 网络数据监控方法、装置、电子设备及存储介质
CN110830325A (zh) * 2019-11-05 2020-02-21 北京云杉世纪网络科技有限公司 一种自适应的网络旁路路径网流方向推测方法及系统
CN110830325B (zh) * 2019-11-05 2021-05-14 北京云杉世纪网络科技有限公司 一种自适应的网络旁路路径网流方向推测方法及系统
CN110912752B (zh) * 2019-12-06 2022-03-29 成都安恒信息技术有限公司 一种基于网络抓包的网络故障智能定位分析方法
CN110912752A (zh) * 2019-12-06 2020-03-24 成都安恒信息技术有限公司 一种基于网络抓包的网络故障智能定位分析方法
CN111629025A (zh) * 2020-04-02 2020-09-04 深圳亿维锐创科技股份有限公司 一种医疗信息对接用调试系统
CN111629025B (zh) * 2020-04-02 2023-08-25 深圳亿维锐创科技股份有限公司 一种医疗信息对接用调试系统
CN112069021A (zh) * 2020-08-21 2020-12-11 北京五八信息技术有限公司 流量数据的存储方法、装置、电子设备和存储介质
CN112069021B (zh) * 2020-08-21 2024-02-20 北京五八信息技术有限公司 流量数据的存储方法、装置、电子设备和存储介质
CN112905852A (zh) * 2021-03-04 2021-06-04 睿石网云(杭州)科技有限公司 一种基于会话索引的应用性能报文存储装置
CN113645092A (zh) * 2021-07-07 2021-11-12 深圳市优克联新技术有限公司 网络质量评估方法、装置、终端设备和存储介质
CN113645092B (zh) * 2021-07-07 2022-12-30 深圳市优克联新技术有限公司 网络质量评估方法、装置、终端设备和存储介质
CN113590910B (zh) * 2021-09-26 2021-12-24 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113590910A (zh) * 2021-09-26 2021-11-02 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113992546A (zh) * 2021-12-29 2022-01-28 中科南京信息高铁研究院 Sdn网络基于业务流信息的链路状态预测方法及系统
CN114500334A (zh) * 2021-12-31 2022-05-13 钉钉(中国)信息技术有限公司 服务端应用架构的诊断方法及装置
CN114500334B (zh) * 2021-12-31 2024-04-09 钉钉(中国)信息技术有限公司 服务端应用架构的诊断方法及装置
CN115550217A (zh) * 2022-09-28 2022-12-30 浙江大学 针对云网络中七层负载均衡场景的网络诊断方法及装置

Similar Documents

Publication Publication Date Title
CN107645398A (zh) 一种诊断网络性能和故障的方法和装置
EP3151470B1 (en) Analytics for a distributed network
Balakrishnan et al. TCP behavior of a busy Internet server: Analysis and improvements
US7623466B2 (en) Symmetric connection detection
Chen et al. Measuring TCP round-trip time in the data plane
Mazurczyk et al. Retransmission steganography and its detection
CN108040057B (zh) 适于保障网络安全、网络通信质量的sdn系统的工作方法
Yu et al. {dShark}: A general, easy to program and scalable framework for analyzing in-network packet traces
US6321264B1 (en) Network-performance statistics using end-node computer systems
US20060029016A1 (en) Debugging application performance over a network
Sengupta et al. Continuous in-network round-trip time monitoring
US9634851B2 (en) System, method, and computer readable medium for measuring network latency from flow records
CN111314179B (zh) 网络质量检测方法、装置、设备和存储介质
CN110073639A (zh) 分组丢失容忍传输控制协议拥塞控制
CN104092588B (zh) 一种基于SNMP与NetFlow结合的网络异常流量检测方法
CN106572190A (zh) 信息通信运行数据自主采集方法
CN106789728A (zh) 一种基于NetFPGA的VoIP流量实时识别方法
Kfoury et al. Dynamic Router's Buffer Sizing using Passive Measurements and P4 Programmable Switches
CN114338439A (zh) 一种通用的网络流量解析装置和方法
CN103227781A (zh) 基于用户数据报协议的网络诊断及性能评估系统和方法
WO2022270767A1 (ko) 지능형 네트워크 관리 시스템의 정보묶음 생성관리 장치 및 그 방법
US20140086091A1 (en) Method, apparatus, and system for analyzing network transmission characteristic
JP5192451B2 (ja) ネットワーク品質算出システムと方法およびプログラム
KR100862727B1 (ko) 트래픽 분석 방법 및 그 시스템
Cisco NetFlow Services Solutions Guide

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180130

RJ01 Rejection of invention patent application after publication