CN103888300B - Web服务系统中网络故障分析系统与方法 - Google Patents

Web服务系统中网络故障分析系统与方法 Download PDF

Info

Publication number
CN103888300B
CN103888300B CN201410141380.0A CN201410141380A CN103888300B CN 103888300 B CN103888300 B CN 103888300B CN 201410141380 A CN201410141380 A CN 201410141380A CN 103888300 B CN103888300 B CN 103888300B
Authority
CN
China
Prior art keywords
network
web service
service
quality
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410141380.0A
Other languages
English (en)
Other versions
CN103888300A (zh
Inventor
高俊
周维贵
敖洪
周全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NO 63818 CORPS OF CHINESE PEOPLE'S LIBERATION ARMY
Original Assignee
NO 63818 CORPS OF CHINESE PEOPLE'S LIBERATION ARMY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NO 63818 CORPS OF CHINESE PEOPLE'S LIBERATION ARMY filed Critical NO 63818 CORPS OF CHINESE PEOPLE'S LIBERATION ARMY
Priority to CN201410141380.0A priority Critical patent/CN103888300B/zh
Publication of CN103888300A publication Critical patent/CN103888300A/zh
Application granted granted Critical
Publication of CN103888300B publication Critical patent/CN103888300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的目的是面向Web服务系统提供一种自适应网络故障分析系统与方法,同时为Web服务系统的性能优化提供辅助方法。本发明的分析方法和系统中包括Web服务及报文配置模块、Web服务质量分析模块、网络事件分析模块以及网络状态与Web服务质量关联分析模块。本方法采用的检测方法只需通过配置Web服务的报文结构,整合网络设备的日志数据与Web服务质量数据,从而自动检测导致Web服务系统异常的网络故障。由于本方法不需要编程或者更改现有系统的运行与配置方式,因此不会影响被检测系统的性能与稳定性。

Description

Web服务系统中网络故障分析系统与方法
技术领域
本发明涉及Web故障分析领域,尤其涉及一种Web服务系统中网络故障分析系统与方法。
背景技术
以Web服务为代表的软件系统构建技术正在快速发展,特别是基于SOA松散耦合、平台无关性适合于广域网、局域网环境和数据中心内复杂信息系统的构建。用户在选择各类Web服务时,除了要满足其对功能方面的需求,Web服务质量(Quality of Web Services)是用户选择的重要标准。
由于SOA为代表的Web服务系统构建技术,影响其服务质量的一个重要因素是其网络运行环境。需要通过调整网络设施的配置来改善Web服务系统的服务质量,也需要及时定位和修复可能导致SOA系统异常的网络故障。
对于Web服务质量评估主要是针对系统中Web服务的响应时间,平均无故障工作时间,服务吞吐率等监测指标的基础上按照某种评价标准进行评估。导致Web服务质量发生变化的因素包括负载水平、服务器运行状态、基础软件系统(如数据库系统、存储系统等)以及网络基础设施的变化等。其服务质量与服务的负载水平、服务器运行状态以及基础软件系统之间的依赖关系较为直接,那么对于运行和维护人员较为容易分析和处理相关的问题。但是对于大中型的网络环境,其网络拓扑关系、配置方式与SOA系统之间的依赖关系动态变化,这导致了难以分析和评估网络配置和运行状态与Web服务性能间的关系。因此,解决上述问题对于Web服务系统的管理、运行和维护具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种Web服务系统中网络故障分析系统与方法。
为了实现本发明的上述目的,本发明提供了一种Web服务系统中网络故障分析系统,其关键在于,包括:Web服务及报文配置模块、Web服务质量分析模块、网络事件分析模块以及网络状态与Web服务质量关联分析模块;
所述Web服务及报文配置模块,用于管理各Web服务系统中约定服务质量相关属性,管理各Web服务系统的质量评估模型,以及所述质量评估模型中评估指标的参数以及参数的取值情况;
所述Web服务质量分析模块,用于获取网络数据报文,过滤出服务调用与响应的数据报文,并记录在Web服务事件库中;在Web服务事件库的基础上,按照所述质量评估模型对在线Web服务质量进行分析评估;
所述网络事件分析模块,用于网络基础设施中提供的网络设备运行日志获取接口来获取网络基础设施中的网络事件数据,从所述网络事件数据基础上,获取网络基础设施中发生的网络事件数据,将所述网络事件数据存储到网络事件数据库中;
所述网络状态与Web服务质量关联分析模块,用于通过记录网络运行状态变化前后Web服务系统的服务质量的波动情况,并利用数据分析技术来分析网络运行状态与Web服务质量之间的关联关系,从而识别网络运行状态变化对Web服务系统的服务质量影响的规律,判断网络故障。
所述的Web服务系统中网络故障分析系统,优选的,所述Web服务及报文配置模块的约定服务质量相关属性为服务请求和响应的报文格式、Web服务故障以及异常响应的报文格式。
所述的Web服务系统中网络故障分析系统,优选的,所述Web服务质量分析模块还包括:
事件生成模块,采用Sniffer技术从在线Web服务端与在线Web客户端之间的信息交换装置上获取网络数据报文,过滤出服务调用与响应的数据报文,且根据所述数据报文分别生成服务请求事件和服务响应事件。
所述的Web服务系统中网络故障分析系统,优选的,所述Web服务质量分析模块的Web服务质量的评估指标为平均响应时间、最大响应时间、平均无故障时间和响应时间的分布情况。
所述的Web服务系统中网络故障分析系统,优选的,所述质量评估模型,分析评估过程中请求与响应消息数据报文的时间戳来获得每一次Web服务请求事件、响应事件和异常事件的时间,其中Web服务质量根据两次网络故障事件之间收集的Web服务质量数据来进行计算。
所述的Web服务系统的网络故障分析系统,优选的,所述服务质量根据网络故障事件发生之后到该故障被清除之前收集的Web服务质量数据来进行计算。
所述的Web服务系统的网络故障分析系统,优选的,所述网络状态与Web服务质量关联分析模块包括:
选定一个网络配置没有发生变化的时间段Ta,将该时段内网络事件分析模块获得的网络事件数据和Web服务质量分析模块获得的网络数据报文读出到所述网络状态与Web服务质量关联分析模块,其中下标a为标识该时间段;
查找该时间段内所有网络正常运行状态下,即两次网络故障事件之间的服务响应的性能数据来计算Web服务系统中各个Web服务质量,采用服务平均响应时间作为Web服务质量的评价标准,且假定该参数符合正态分布,如果Web服务WSi在该分析时间段内共获得了n个平均响应时间值
{R1,R2,...,Rn};
根据n个值计算该Web服务响应时间的分布特征,如平均响应时间和均方差S,所述下标i为网络服务其中之一的标识,n为正整数;其中:
假定网络设备故障到该故障被修复期间Tf,所述下标f为修复期限的标识,在Web服务日志数据库中获取Web服务WSi在该时间段内共获得了nf个平均响应时间{Rf1,Rf2,...,Rfn},其平均响应时间Re和均方差Se分别为
通过T检验来度量Re与的偏离程度;统计量t为:
根据设定的显著性水平α和计算出的T检验统计量t,通过假设检验来判断网络设备故障状态下的Web服务平均响应时间Re与网络正常状态下该Web服务的平均响应时间的相比是否有显著变化;
如果Re的取值偏离了网络正常状态下该Web服务平均响应时间则认为该网络设备故障将显著影响WSi的服务质量,否则认为该网络设备故障与此Web服务没有任何关系。
本发明还公开一种Web服务系统的网络故障分析方法,其关键在于,包括如下步骤:
步骤1,对需要监测与分析的Web服务系统中的服务以及其对应的消息进行配置,包括Web服务的名称和端口等基本属性、服务请求和响应消息的基本结构、服务质量的评估方法信息,管理各Web服务系统的质量评估模型,以及所述质量评估模型中评估指标的参数以及参数的取值情况;
步骤2,采用Sniffer技术从在线Web服务端与在线Web客户端之间的信息交换装置上获取网络数据报文,过滤出服务调用与响应的数据报文,且根据所述数据报文分别生成服务请求事件和服务响应事件,并记录在Web服务事件库中;在Web服务事件库的基础上,按照所述质量评估模型对在线Web服务质量进行分析评估;
步骤3,网络基础设施中提供的网络设备运行日志获取接口,来获取网络基础设施中的网络事件数据,从所述网络事件数据基础上,获取网络基础设施中发生的网络事件数据,将所述网络事件数据存储到网络事件数据库中;
步骤4,通过记录网络运行状态变化前后Web服务系统的服务质量的波动情况,并利用数据分析技术来分析网络运行状态与Web服务质量之间的关联关系,从而识别网络运行状态变化对Web服务系统的服务质量影响的规律,判断网络故障。
所述的Web服务系统的网络故障分析方法,优选的,所述步骤4包括:
步骤4-1,选定一个网络配置没有发生变化的时间段Ta,将该时段内网络事件分析模块获得的网络事件数据和Web服务质量分析模块获得的网络数据报文读出到所述网络状态与Web服务质量关联分析模块,其中下标a为标识该时间段;
步骤4-2,查找该时间段内所有网络正常运行状态下,即两次网络故障事件之间的服务响应的性能数据来计算Web服务系统中各个Web服务质量,采用服务平均响应时间作为Web服务质量的评价标准,且假定该参数符合正态分布,如果Web服务WSi在该分析时间段内共获得了n个平均响应时间值
{R1,R2,...,Rn};
步骤4-3,根据n个值计算该Web服务响应时间的分布特征,如平均响应时间和均方差S,所述下标i为网络服务其中之一的标识,n为正整数;其中:
步骤4-4,假定网络设备故障到该故障被修复期间Tf,所述下标f为修复期限的标识,在Web服务日志数据库中获取Web服务WSi在该时间段内共获得了nf个平均响应时间{Rf1,Rf2,...,Rfn},其平均响应时间Re和均方差Se分别为
通过T检验来度量Re与的偏离程度;统计量t为,
步骤4-5,根据设定的显著性水平α和计算出的T检验统计量t,通过假设检验来判断网络设备故障状态下的Web服务平均响应时间Re与网络正常状态下该Web服务的平均响应时间的相比是否有显著变化;
如果Re的取值偏离了网络正常状态下该Web服务平均响应时间则认为该网络设备故障将显著影响WSi的服务质量,否则认为该网络设备故障与此Web服务没有任何关系。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
所述服务质量根据网络故障事件发生之后到该故障被清除之前收集的Web服务质量数据来进行计算,能够更准确的定位故障点。
能够识别出对上层应用系统最具影响力的设备和网络故障,从而帮助网络管理人员更加有效的判断网络故障的等级与响应速度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明中Web服务网络故障分析工作原理图;
图2是本发明中Web服务质量与网络故障关联分析流程;
图3是本发明中Web服务网络故障分析的总体流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供了一种Web服务系统中网络故障分析系统,其关键在于,包括:Web服务及报文配置模块、Web服务质量分析模块、网络事件分析模块以及网络状态与Web服务质量关联分析模块;
所述Web服务及报文配置模块,用于管理各Web服务系统中约定服务质量相关属性,管理各Web服务系统的质量评估模型,以及所述质量评估模型中评估指标的参数以及参数的取值情况;其中质量评估模型为Web服务系统的常用模型,属于本领域技术人员通常使用的术语。
所述Web服务质量分析模块,用于获取网络数据报文,过滤出服务调用与响应的数据报文,并记录在Web服务事件库中;在Web服务事件库的基础上,按照所述质量评估模型对在线Web服务质量进行分析评估;
所述网络事件分析模块,用于网络基础设施中提供的网络设备运行日志获取接口来获取网络基础设施中的网络事件数据,从所述网络事件数据基础上,获取网络基础设施中发生的网络事件数据,将所述网络事件数据存储到网络事件数据库中;
所述网络状态与Web服务质量关联分析模块,用于通过记录网络运行状态变化前后Web服务系统的服务质量的波动情况,并利用数据分析技术来分析网络运行状态与Web服务质量之间的关联关系,从而识别网络运行状态变化对Web服务系统的服务质量影响的规律,判断网络故障。
该Web服务系统网络故障分析系统包括Web服务及报文配置模块、Web服务质量分析模块、网络事件分析模块以及网络状态与Web服务质量关联分析模块,其中Web客户端与Web服务端之间设置有信息交换装置,Web服务质量分析模块从信息交换装置中获取Web服务调用与响应相关的网络数据报文的时间来获取Web服务质量数据,该信息交换装置包括但不限于网络交换机或路由器。该Web服务及报文配置模块的主要功能为:维护需要监测、评估的Web服务的基本信息和报文结构,即维护Web服务系统中Web服务的基本属性(诸如URI、传输协议类型等)、服务请求和响应消息的结构、服务故障或者异常消息的结构;管理Web服务的服务质量评价的方法。
Web服务质量分析模块主要功能为:采用Sniffer技术从Web服务端与在线Web客户端之间的信息交换装置上获取报文数据,利用配置的服务调用与响应相关消息结构定义来过滤服务调用与响应的网络数据报文,然后根据这些数据报文的时间戳来生成每一次Web服务请求事件、响应事件和异常事件。其中Sniffer是一种基于被动侦听原理的网络分析方式,使用这种技术方式,可以监视网络的状态、数据流情况以及网络上传输的信息,其属于成熟技术,在此不对其予以累述。该模块将按照Web服务质量分析定义的统计指标来记录每次服务调用相关的质量参数,例如服务响应时间、是否出现超时、是否出现异常情况等。该模块将每次服务调用情况数据存储到Web服务调用日志数据库中,因此可以按照指定的时间段统计Web服务服务质量,例如该时间段上的平均的响应时间、服务调用的超时概率、最大响应时间、最小响应时间等。
网络事件分析模块主要的功能:将利用网络基础设施中提供的网络设备运行日志获取接口,例如采用简单网管协议(SNMP)来获取各种网络基础设施中获取的网络运行日志数据,该模块通过分析这些日志数据中,提取网络基础设施中的故障事件以及设备变更事件,并将这些事件数据存储到网络事件数据库中,其中网络事件数据可以采用类似于<事件ID,事件类型,设备编号,事件发生时间,事件描述>5元组的方式记录。
所述网络状态与Web服务质量关联分析模块,通过记录在网络事件数据库中的事件来分析网络运行状态与Web系统服务质量之间关联关系。
如图2所示的是建立某个设备故障与Web服务质量之间关系具体实现方式,该过程的主要步骤为:
S21、选定待一个网络配置没有发生变化的时间段Ta,将该时段内网络事件分析模块获得的网络事件数据和Web服务质量分析模块获得的Web服务日志数据读出到本模块;
S22、查找该时间段内所有网络正常运行状态下,即两次网络故障事件之间(前一个故障已经被清除,后一个故障还未发生的时间段)的服务响应的性能数据来计算Web服务系统中各个Web服务质量,具体实现时可采用服务平均响应时间作为Web服务质量的评价标准,且假定该参数符合正态分布,如果Web服务WSi(WebService)在该分析时间段内共获得了n个平均响应时间值{R1,R2,...,Rn},可以根据这n个值计算该Web服务响应时间的分布特征,如平均响应时间和均方差S等值;其中:
S23、假定某个网络设备故障到该故障被修复期间Tf,在Web服务日志数据库中获取Web服务WSi在该时间段内共获得了nf个平均响应时间{Rf1,Rf2,...,Rfn},其平均响应时间Re和均方差Se分别为:
由于我们假设其平均响应时间符合正太分布,因此,我们就可以通过T检验来度量Re与的偏离程度。又根据其特征,我们采用双总体独立样本的T检验,统计量为:
根据事先设定好的显著性水平α和计算出的T检验统计量,我们就可以通过假设检验来判断网络设备故障状态下的Web服务平均响应时间Re与网络正常状态下该Web服务的平均响应时间的相比是否有显著变化。
S24、如果Re的取值偏离了网络正常状态下该Web服务平均响应时间则可以认为该网络设备故障将显著影响WSi的服务质量,否则认为该网络设备故障与此Web服务没有任何关系。在实际分析过程中,可能在Tf中没有WSi的请求,那么此时就不能确定该网络设备与该服务之间的关联关系。
采用类似与上述的方法,我们也可以分析不同网络设备的配置与Web服务质量之间的关联方式,从而辅助网络管理人员来进行有针对性的优化。
如图3所示,面向Web服务系统的网络故障分析方法,其主要的步骤如下:
S1、对需要监测与分析的Web服务系统中的服务以及其对应的消息进行配置,包括Web服务的名称和端口等基本属性、服务请求和响应消息的基本结构、服务质量的评估方法等信息;
在本发明的一个实施例中,设定待评估的Web服务系统中的一个订单查询服务QueryOrderService,其对应的URI为http://127.0.0.1/QueryOrder。其中的一个Web服务提供简单的订单查询操作getLastOrder来获得某个用户的最新订单,其服务请求和响应消息采用HTTP传输协议以及SOAP封装协议,Web服务质量为Web服务的平均响应时间。
具体地,其配置的方法是,将Web服务系统网络故障分系统连接到Web客户端和Web服务端之间的路由器或者交换机上,其中Web服务器上所有的网络流量通过镜像的方式转到故障分析系统的路由端口上。
系统对该订单查询服务QueryOrderService进行配置,本实施例中需要配置的主要信息如下:
服务的名称:QueryOrderService;
服务对应的URI:127.0.0.1/QueryOrder;
服务传输协议:HTTP;
消息封装的方式:SOAP;
服务的会话标识:<t:TransactionID/>;
服务中的操作集合:{getLastOrder};
服务操作请求标签:<m:GetLastTradeOrder/>;
服务响应消息标签:<m:GetLastTradeOrderDetailed/>;
服务异常消息标签:<SOAP-ENV:Fault/>;
服务响应超时:4000ms;
服务质量:{Web服务响应时间}。
S2、采用Sniffer技术从网络交换机或者路由器上过滤出检测与分析的Web服务相关的网络报文,并根据消息的类型提取与服务请求和响应活动相关的报文,并在此基础上根据服务质量评估方法获得Web服务质量数据;
本系统根据Web服务请求和响应消息的格式来过滤Web服务器上的报文,假设获取到QueryOrderService服务请求消息与响应消息的时间戳分别为Tq和Tr,那么本次服务的响应时间可以由Tq与Tr之间的时间间隔来近似估计,其中下标q代表服务请求时间戳、r代表响应消息时间戳。如果只过滤到服务请求消息,而接收到响应消息,那么判定本次Web服务调用异常,将响应时间设置为一个极大的数值,且在计算服务的平均响应时间时忽略此次调用。
S3、利用网络基础设施提供的日志数据获取接口获得每个网络基础设施运行状态数据,利用管理员和专家知识,从日志数据中识别网络设备运行状态变化的事件,如故障事件或者配置变化事件等事件。
假定网络设施中的一个网络故障事件,从日志数据中获得对应的五元组数据:<事件ID:N100,事件类型:网络故障,设备编号:ZKZX-CR-001,事件发生时间:01/11/201315:18:48,事件描述:设备NE40E-X3链路断开>。
如果上述故障在20分钟后被修复后,可以从日志数据中获得网络事件数据,其对应的五元组:<事件ID:N200,事件类型:故障修复,设备编号:ZKZX-CR-001,事件发生时间:01/11/201315:28:48,事件描述:设备NE40E-X3链路断开故障修复>。
如果上述故障在2小时后又发送了另一个故障,那么在事件数据库中记录了另一个五元组:<事件ID:N300,事件类型:故障修复,设备编号:ZKZX-CR-002,事件发生时间:01/11/201317:28:48,事件描述:设备NE40E-X4链路断开故障>,期间没有其它故障事件或者网络配置变更的事件。
S4、根据网络事件的分类,识别网络运行状态的变化情况,根据需要分析的Web服务在网络正常状态下的性能数据,建立在正常状态下Web服务质量的分布情况。如果Web服务质量的分布在某个网络设备的故障或者配置变化后导致相关Web服务质量发生显著的变化(用T检验度量),那么该网络设备将影响相关的Web服务的质量。
在具体实施过程中可假定理想的服务响应时间符合正态分布。如步骤S3所述的网络事件序列,可将网络事件N200和N300之间发生的QueryOrderService服务的响应时间数据来估计该服务质量的分布情况。将事件N100到N200之间获得的QueryOrderService服务的响应时间的数据作为网络异常状态下的服务质量评估数据。假设,系统在网络事件N200和N300之间的时间段内共获得了n个响应时间{R1,R2,...,Rn},其中n为正整数,在网络事件N100到N200之间的时间段内功获得了nf个响应时间{Rf1,Rf2,...,Rfn},假设上述两个响应时间序列均服从正态分布,由此我们可以分别计算两个响应时间序列的平均值和方差如下:
网络正常状态下的系统平均响应时间其方差网络异常状态下的系统平均响应时间其方差计算T检验统计量为
根据显著性水平α(可自行设定)查找对应的界值表可得标准t值ts=tα(n+nf-2),其中下标s代表标准值,所述下标f为修复期限的标识。将计算出的t值与查找出的ts进行比较即可得出两种平均响应时间的偏离程度。
如果异常状态下的平均响应时间和均方差严重偏离了正常状态下的取值,即t>ts,则认为该网络故障会影响此服务的质量,其结果可能是提高了Web服务质量也可能是降低了Web服务质量;如果平均响应时间和均方差与正常条件下分布没有明显的差异,即t<ts,则认为该网络故障对本Web服务没有任何影响;如果所有的QueryOrderService服务的响应都超时,那么可以确定该故障将导致QueryOrderService服务故障。
此外有可能在此次网络正常状态下可能没有此服务的调用,那么可以利用之前(相同的网络配置)的正常状态下的数据来进行分析。如果在异常状态下没有服务调用,那么就不能分析此网络故障对QueryStockService服务的影响。
同样,采用类似的方法,我们可以分析在不同网络配置条件下服务质量的变化情况,从而辅助管理者进行合理配置网络基础设施。
当我们建立起不同网络设备与服务质量之间的关联关系之后,能够识别出对上层应用系统最具影响力的设备和网络故障,从而帮助网络管理人员更加有效的判断网络故障的等级与响应速度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种Web服务系统中网络故障分析系统,其特征在于,包括:Web服务及报文配置模块、Web服务质量分析模块、网络事件分析模块以及网络状态与Web服务质量关联分析模块;
所述Web服务及报文配置模块,用于管理各Web服务系统中约定服务质量相关属性,管理各Web服务系统的质量评估模型,以及所述质量评估模型中评估指标的参数以及参数的取值情况;
所述Web服务质量分析模块,用于获取网络数据报文,过滤出服务调用与响应的数据报文,并记录在Web服务事件库中;在Web服务事件库的基础上,按照所述质量评估模型对在线Web服务质量进行分析评估;
所述网络事件分析模块,用于网络基础设施中提供的网络设备运行日志获取接口来获取网络基础设施中的网络事件数据,从所述网络事件数据基础上,获取网络基础设施中发生的网络事件数据,将所述网络事件数据存储到网络事件数据库中;
所述网络状态与Web服务质量关联分析模块,用于通过记录网络运行状态变化前后Web服务系统的服务质量的波动情况,并利用数据分析技术来分析网络运行状态与Web服务质量之间的关联关系,从而识别网络运行状态变化对Web服务系统的服务质量影响的规律,判断网络故障;
所述质量评估模型,分析评估过程中请求与响应消息数据报文的时间戳来获得每一次Web服务请求事件、响应事件和异常事件的时间,其中Web服务质量根据两次网络故障事件之间收集的Web服务质量数据来进行计算;
所述网络状态与Web服务质量关联分析模块包括:
选定一个网络配置没有发生变化的时间段Ta,将该时间段内网络事件分析模块获得的网络事件数据和Web服务质量分析模块获得的网络数据报文读出到所述网络状态与Web服务质量关联分析模块,其中下标a为标识该时间段;
查找该时间段内所有网络正常运行状态下,即两次网络故障事件之间的服务响应的性能数据来计算Web服务系统中各个Web服务质量,采用服务平均响应时间作为Web服务质量的评价标准,且假定该参数符合正态分布,如果Web服务WSi在该分析时间段内共获得了n个平均响应时间值
{R1,R2,...,Rn};
根据n个值计算该Web服务响应时间的分布特征,如平均响应时间和均方差S,所述下标i为网络服务其中之一的标识,n为正整数;其中:
R &OverBar; = 1 n &Sigma; i = 1 n R i , S = 1 n &Sigma; i = 1 n ( R i - R &OverBar; ) 2 ;
假定网络设备故障到该故障被修复期间Tf,所述下标f为修复期限的标识,在Web服务日志数据库中获取Web服务WSi在该时间段内共获得了nf个平均响应时间{Rf1,Rf2,...,Rfn},其平均响应时间Re和均方差Se分别为
Re = 1 n f &Sigma; i = 1 n f R f i , S e = 1 n f &Sigma; i = 1 n f ( R f i - Re ) 2
通过T检验来度量Re与的偏离程度;统计量t为:
t = Re - R &OverBar; ( n - 1 ) S 2 + ( n f - 1 ) Se 2 n + n f - 2 ( 1 n + 1 n f ) ;
根据设定的显著性水平α和计算出的T检验统计量t,通过假设检验来判断网络设备故障状态下的Web服务平均响应时间Re与网络正常状态下该Web服务的平均响应时间的相比是否有显著变化;
如果Re的取值偏离了网络正常状态下该Web服务平均响应时间则认为该网络设备故障将显著影响WSi的服务质量,否则认为该网络设备故障与此Web服务没有任何关系。
2.根据权利要求1所述的Web服务系统中网络故障分析系统,其特征在于,所述Web服务及报文配置模块的约定服务质量相关属性为服务请求和响应的报文格式、Web服务故障以及异常响应的报文格式。
3.根据权利要求1所述的Web服务系统中网络故障分析系统,其特征在于,所述Web服务质量分析模块还包括:
事件生成模块,采用Sniffer技术从在线Web服务端与在线Web客户端之间的信息交换装置上获取网络数据报文,过滤出服务调用与响应的数据报文,且根据所述数据报文分别生成服务请求事件和服务响应事件。
4.根据权利要求1所述的Web服务系统中网络故障分析系统,其特征在于,所述Web服务质量分析模块的Web服务质量的评估指标为平均响应时间、最大响应时间、平均无故障时间和响应时间的分布情况。
5.根据权利要求1所述的Web服务系统中网络故障分析系统,其特征在于,所述服务质量根据网络故障事件发生之后到该故障被清除之前收集的Web服务质量数据来进行计算。
6.一种Web服务系统中网络故障分析方法,其特征在于,包括如下步骤:
步骤1,对需要监测与分析的Web服务系统中的服务以及其对应的消息进行配置,包括Web服务的名称和端口基本属性、服务请求和响应消息的基本结构、服务质量的评估方法信息,管理各Web服务系统的质量评估模型,以及所述质量评估模型中评估指标的参数以及参数的取值情况;
步骤2,采用Sniffer技术从在线Web服务端与在线Web客户端之间的信息交换装置上获取网络数据报文,过滤出服务调用与响应的数据报文,且根据所述数据报文分别生成服务请求事件和服务响应事件,并记录在Web服务事件库中;在Web服务事件库的基础上,按照所述质量评估模型对在线Web服务质量进行分析评估;
步骤3,网络基础设施中提供的网络设备运行日志获取接口,来获取网络基础设施中的网络事件数据,从所述网络事件数据基础上,获取网络基础设施中发生的网络事件数据,将所述网络事件数据存储到网络事件数据库中;
步骤4,通过记录网络运行状态变化前后Web服务系统的服务质量的波动情况,并利用数据分析技术来分析网络运行状态与Web服务质量之间的关联关系,从而识别网络运行状态变化对Web服务系统的服务质量影响的规律,判断网络故障;
步骤4-1,选定一个网络配置没有发生变化的时间段Ta,将该时间段内网络事件分析模块获得的网络事件数据和Web服务质量分析模块获得的网络数据报文读出到所述网络状态与Web服务质量关联分析模块,其中下标a为标识该时间段;
步骤4-2,查找该时间段内所有网络正常运行状态下,即两次网络故障事件之间的服务响应的性能数据来计算Web服务系统中各个Web服务质量,采用服务平均响应时间作为Web服务质量的评价标准,且假定该参数符合正态分布,如果Web服务WSi在该分析时间段内共获得了n个平均响应时间值
{R1,R2,...,Rn};
步骤4-3,根据n个值计算该Web服务响应时间的分布特征,如平均响应时间和均方差S,所述下标i为网络服务其中之一的标识,n为正整数;其中:
R &OverBar; = 1 n &Sigma; i = 1 n R i , S = 1 n &Sigma; i = 1 n ( R i - R &OverBar; ) 2 ;
步骤4-4,假定网络设备故障到该故障被修复期间Tf,所述下标f为修复期限的标识,在Web服务日志数据库中获取Web服务WSi在该时间段内共获得了nf个平均响应时间{Rf1,Rf2,...,Rfn},其平均响应时间Re和均方差Se分别为
Re = 1 n f &Sigma; i = 1 n f R f i , S e = 1 n f &Sigma; i = 1 n f ( R f i - Re ) 2
通过T检验来度量Re与的偏离程度;统计量t为:
t = Re - R &OverBar; ( n - 1 ) S 2 + ( n f - 1 ) Se 2 n + n f - 2 ( 1 n + 1 n f ) ;
步骤4-5,根据设定的显著性水平α和计算出的T检验统计量t,通过假设检验来判断网络设备故障状态下的Web服务平均响应时间Re与网络正常状态下该Web服务的平均响应时间的相比是否有显著变化;
如果Re的取值偏离了网络正常状态下该Web服务平均响应时间则认为该网络设备故障将显著影响WSi的服务质量,否则认为该网络设备故障与此Web服务没有任何关系。
CN201410141380.0A 2014-04-09 2014-04-09 Web服务系统中网络故障分析系统与方法 Expired - Fee Related CN103888300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410141380.0A CN103888300B (zh) 2014-04-09 2014-04-09 Web服务系统中网络故障分析系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410141380.0A CN103888300B (zh) 2014-04-09 2014-04-09 Web服务系统中网络故障分析系统与方法

Publications (2)

Publication Number Publication Date
CN103888300A CN103888300A (zh) 2014-06-25
CN103888300B true CN103888300B (zh) 2017-02-15

Family

ID=50957027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410141380.0A Expired - Fee Related CN103888300B (zh) 2014-04-09 2014-04-09 Web服务系统中网络故障分析系统与方法

Country Status (1)

Country Link
CN (1) CN103888300B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470112A (zh) * 2015-08-17 2017-03-01 中兴通讯股份有限公司 充电设备的管理方法及装置
CN109308243B (zh) * 2018-09-12 2022-11-18 杭州朗和科技有限公司 数据处理方法、装置、计算机设备和介质
CN113127305B (zh) * 2021-04-22 2024-02-13 北京百度网讯科技有限公司 异常检测方法及装置
CN115037782B (zh) * 2022-08-12 2022-11-18 南瑞轨道交通技术有限公司 一种基于双网双链路的实时数据传输方法及系统
CN115695220B (zh) * 2022-12-14 2023-06-06 深圳富联富桂精密工业有限公司 服务性能指标效应值计算方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364951A (zh) * 2008-09-26 2009-02-11 北京邮电大学 无线传感器网络的服务质量保障系统
CN101789899A (zh) * 2009-12-21 2010-07-28 中兴通讯股份有限公司 一种网络服务质量分析方法及系统
EP2372954A2 (en) * 2003-11-28 2011-10-05 Insightix Ltd Method and system for collecting information relating to a communication network
CN102333007A (zh) * 2011-09-28 2012-01-25 重庆大学 在线Web服务质量监测系统及方法
CN102739469A (zh) * 2012-05-28 2012-10-17 重庆大学 一种基于时间序列的Web服务响应时间预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2372954A2 (en) * 2003-11-28 2011-10-05 Insightix Ltd Method and system for collecting information relating to a communication network
CN101364951A (zh) * 2008-09-26 2009-02-11 北京邮电大学 无线传感器网络的服务质量保障系统
CN101789899A (zh) * 2009-12-21 2010-07-28 中兴通讯股份有限公司 一种网络服务质量分析方法及系统
CN102333007A (zh) * 2011-09-28 2012-01-25 重庆大学 在线Web服务质量监测系统及方法
CN102739469A (zh) * 2012-05-28 2012-10-17 重庆大学 一种基于时间序列的Web服务响应时间预测方法

Also Published As

Publication number Publication date
CN103888300A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103888300B (zh) Web服务系统中网络故障分析系统与方法
CN104796273B (zh) 一种网络故障根源诊断的方法和装置
CN102158360B (zh) 一种基于时间因子因果关系定位的网络故障自诊断方法
CN107054410B (zh) 道岔转辙机的智能诊断系统及诊断方法
CN102752142B (zh) 一种基于多维建模的信息系统的监控方法及监控系统
CN106199276A (zh) 一种用电信息采集系统中异常信息的智能诊断系统及方法
Nováczki An improved anomaly detection and diagnosis framework for mobile network operators
CN105262210A (zh) 一种变电站网络安全性分析预警系统和方法
CN107065824A (zh) 一种水电机组远程故障诊断开放式平台
CN102333007B (zh) 在线Web服务质量监测系统及方法
CN108871434A (zh) 一种旋转设备的在线监测系统及方法
CN109783552A (zh) 一种数据清洗修复方法
CN106610617B (zh) 一种蓄能机组故障分析系统及方法
CN102111797A (zh) 一种故障的诊断方法和设备
CN104639368A (zh) 通信网络设备的故障处理方法及装置
CN102014020A (zh) 一种用于对网络设备进行网络监控的设备及其方法
CN202886956U (zh) 基于相似性原理的发电设备性能监测系统
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN110531656A (zh) 一种水电机组性能的监测系统和方法
CN107547228A (zh) 一种基于大数据的安全运维管理平台的实现架构
CN107656156A (zh) 一种基于云平台的设备故障诊断及运行状态评估方法与系统
CN107658980A (zh) 一种用于复核电网监控告警信息的分析方法和系统
CN116738163A (zh) 基于规则引擎的能源消耗监控管理系统和方法
CN112731062B (zh) 一种利用电信端设备诊断低压用户停电的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215