CN115086156B - 存储区域网络中异常应用的定位方法 - Google Patents

存储区域网络中异常应用的定位方法 Download PDF

Info

Publication number
CN115086156B
CN115086156B CN202210870285.9A CN202210870285A CN115086156B CN 115086156 B CN115086156 B CN 115086156B CN 202210870285 A CN202210870285 A CN 202210870285A CN 115086156 B CN115086156 B CN 115086156B
Authority
CN
China
Prior art keywords
application
applications
data
difference
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210870285.9A
Other languages
English (en)
Other versions
CN115086156A (zh
Inventor
倪文亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210870285.9A priority Critical patent/CN115086156B/zh
Publication of CN115086156A publication Critical patent/CN115086156A/zh
Application granted granted Critical
Publication of CN115086156B publication Critical patent/CN115086156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0733Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a data processing system embedded in an image processing device, e.g. printer, facsimile, scanner
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种存储区域网络中异常应用的定位方法,存储区域网络包括若干应用服务器,若干应用服务器装载有若干应用,定位方法包括:获取时间段、应用服务器的ID以及目标指标;根据ID获取相应的应用服务器中所有应用在时间段所产生的数据作为初始数据;从初始数据中选取与目标指标相对应的数据作为基准数据;根据基准数据判断应用中是否存在故障应用;当存在故障应用时,从初始数据中选取与预设指标相对应的数据作为目标数据;计算应用的目标数据和故障应用的基准数据之间的差异得到差值;以及根据差值和吞吐量从应用中选取若干应用作为异常应用。本发明技术方案能够快速定位异常应用,提高排查效率。

Description

存储区域网络中异常应用的定位方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种存储区域网络中异常应用的定位方法、主控设备及存储区域网络。
背景技术
存储区域网络(Storage Area Network,SAN)是一种集中式存储,包括应用服务器和存储设备。应用服务器上一般会承载多个不同类型的应用,多个应用共用SAN的控制器、端口、网络等资源。一般情况下,各个应用之间相互独立互不影响,但是在一些异常情况下,比如某些应用的读写特征发生改变,瞬时占用SAN的公共资源,导致其它应用的读写性能变差。
面对应用服务器中大量的应用,想要快速找出异常应用,传统方法是先查看流量和IO较大的应用,然后对这些应用逐一查看其性能特征曲线,最后用肉眼比对各个应用的曲线是否有相似的特征。这种方式需要消耗大量的时间,且准确率高低完全依赖工程师的个人经验,假设此时异常应用的流量和IO在SAN上占比不大,这会大大延长排查时间,严重影响其它应用。
发明内容
有鉴于此,实有必要提供一种存储区域网络中异常应用的定位方法、主控设备及存储区域网络,快速定位异常应用,提高排查效率。
第一方面,本发明实施例提供一种存储区域网络中异常应用的定位方法,所述存储区域网络包括若干应用服务器,所述若干应用服务器装载有若干应用,所述异常应用的定位方法包括:
获取时间段、应用服务器的ID以及目标指标,其中,所述目标指标为与应用相关的性能测试指标中的一个或者多个指标,所述时间段、所述ID以及所述目标指标均由人工输入;
根据所述ID获取相应的应用服务器中所有应用在所述时间段所产生的数据作为初始数据;
从所述初始数据中选取与所述目标指标相对应的数据作为基准数据;
根据所述基准数据判断所述应用中是否存在故障应用,其中,所述故障应用与所述异常应用不同;
当存在故障应用时,从所述初始数据中选取与预设指标相对应的数据作为目标数据,其中,所述预设指标包括流量和读写次数;
计算所述应用的目标数据和所述故障应用的基准数据之间的差异得到差值;以及
根据所述差值和吞吐量从所述应用中选取若干应用作为所述异常应用。
优选地,根据所述差值和吞吐量从所述应用中选取若干应用作为所述异常应用具体包括:
根据所述差值从所述应用中选取若干应用作为待定应用;以及
根据吞吐量从所述待定应用中选取若干待定应用作为所述异常应用。
优选地,计算所述应用的目标数据和所述故障应用的基准数据之间的差异得到差值还包括:
判断所述目标数据所对应的预设指标与所述基准数据所对应的目标指标是否一致;
当所述目标数据所对应的预设指标与所述基准数据所对应的目标指标不一致时,对所述基准数据和所述目标数据进行归一化处理以得到归一化数据;
计算所述应用的归一化数据和所述故障应用的归一化数据之间的差异得到所述差值;以及
当所述目标数据所对应的预设指标与所述基准数据所对应的目标指标一致时,分别计算所述应用中除所述故障应用之外的每一应用的目标数据和所述故障应用的基准数据之间的差异得到所述差值。
优选地,计算所述应用的归一化数据和所述故障应用的归一化数据之间的差异得到所述差值具体包括:
分别计算所述应用中除所述故障应用之外的每一应用的归一化数据和所述故障应用的归一化数据之间的差异得到所述差值。
优选地,分别计算所述应用中除所述故障应用之外的每一应用的目标数据和所述故障应用的基准数据之间的差异得到所述差值具体包括:
根据所述应用中除所述故障应用之外的每一应用的目标数据与所述故障应用的基准数据分别构建与所述应用相对应的距离矩阵;以及
根据所述距离矩阵计算所述差值。
优选地,根据所述差值从所述应用中选取若干应用作为待定应用具体包括:
按照所述差值从小到大的顺序对所述应用进行排序;以及
从与最小的差值所对应的应用开始选取第一预设数量的应用作为所述待定应用。
优选地,根据吞吐量从所述待定应用中选取若干待定应用作为所述异常应用具体包括:
按照所述吞吐量从大到小的顺序对所述待定应用进行排序;以及
从与最大的吞吐量所对应的待定应用开始选取第二预设数量的待定应用作为所述异常应用。
优选地,所述存储区域网络中异常应用的定位方法还包括:
根据所述目标数据绘制所述异常应用的性能曲线;以及
展示所述性能曲线。
第二方面,本发明实施例提供一种主控设备,所述主控设备包括:
存储器,用于存储程序指令;以及
处理器,用于执行所述程序指令以实现如上所述的存储区域网络中异常应用的定位方法。
第三方面,本发明实施例提供一种存储区域网络,所述存储区域网络包括:
网络连接设备;
若干存储设备;
若干应用服务器,所述若干应用服务器通过所述网络连接设备与所述若干存储设备通讯连接;以及
如上所述的主控设备,所述主控设备与所述若干应用服务器通讯连接。
上述存储区域网络中异常应用的定位方法、主控设备及存储区域网络,根据人工输入的时间段和应用服务器的ID获取初始数据,再根据初始数据得到与目标指标相对应的基准数据和与预设指标相对应的目标数据,根据基准数据判断故障应用,根据应用的目标数据和故障应用的基准数据之间的差异定位出异常应用。根据差值能够快速找到与故障应用的数据变化较相似,即相关性较强的待定应用,再结合待定应用的吞吐量,能够极大提高定位的准确性。整个定位排障过程采用自动化的方式完成,替代管理员人工排查,管理员只需要输入时间段、应用服务器的ID以及目标指标就能够自动对相应应用的数据进行分析,从而能够快速定位到异常应用,定位排障过程从原来的几十分钟甚至几个小时能够缩短到几分钟,节省了排查时间,极大提高了定位的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的定位方法的流程图。
图2为本发明实施例提供的定位方法的第一子流程图。
图3为本发明实施例提供的定位方法的第二子流程图。
图4为本发明实施例提供的定位方法的第三子流程图。
图5为本发明实施例提供的定位方法的第四子流程图。
图6为本发明实施例提供的定位方法的第五子流程图。
图7为本发明实施例提供的定位方法的第六子流程图。
图8为本发明实施例提供的定位方法的应用场景示意图。
图9为本发明实施例提供的主控设备的内部结构示意图。
图10为本发明实施例提供的存储区域网络的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的规划对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,换句话说,描述的实施例根据除了这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,还可以包含其他内容,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于只清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请结合参看图1和图8,图1为本发明实施例提供的定位方法的流程图,图8为本发明实施例提供的定位方法的应用场景示意图。定位方法应用于存储区域网络10,用于定位存储区域网络10中的异常应用。在本实施例中,存储区域网络10包括若干应用服务器11,若干应用服务器11装载有若干应用。异常应用的定位方法具体包括如下步骤。
步骤S102,获取时间段、应用服务器的ID以及目标指标。其中,目标指标为与应用相关的性能测试指标中的一个或者多个指标。目标指标包括但不限于响应时间、吞吐量、CPU使用率、输入/输出(IO)等。在本实施例中,时间段、ID以及目标指标均由人工输入。举例来说,存储区域网络10包括三个应用服务器11,三个应用服务器11的ID分别为A、B、C。若管理员发现存储区域网络10在9:00时,装载在应用服务器A的某个应用的响应时间出现了异常情况,则可以输入时间段为8:50-9:00,应用服务器11的ID为A,目标指标为响应时间。若管理员发现存储区域网络10在12:30时,整体每秒的读写次数(Input/Output OperationsPer Second,IOPS)出现了异常情况,则可以输入时间段为12:10-12:30,应用服务器11的ID为A、B和C,目标指标为IOPS。可以理解的是,存储区域网络10的管理员可以根据实际异常情况输入时间段、应用服务器11的ID以及目标指标。
步骤S104,根据ID获取相应的应用服务器中所有应用在时间段产生的数据作为初始数据。具体地,将与ID所对应的应用服务器11中,每一应用在时间段所产生的数据作为与该应用一一对应的初始数据。
步骤S106,从初始数据中选取与目标指标相对应的数据作为基准数据。
步骤S108,根据基准数据判断应用中是否存在故障应用。通过对基准数据进行分析,若基准数据中存在波动较大的数据,则可以说明与该基准数据相对应的应用为故障应用。其中,故障应用与异常应用不同。在本实施例中,异常应用为引发异常情况的应用,故障应用为受异常应用影响的应用。当存在故障应用时,执行步骤S110;当不存在故障应用时,发送错误警告。管理员可以根据错误警告重新输入时间段、ID以及目标指标。
步骤S110,从初始数据中选取与预设指标相对应的数据作为目标数据。其中,预设指标包括流量和读写次数。由于在存储区域网络10中,异常应用影响其它应用的原因大概率是流量或者每秒的读写次数,即IOPS。因此,可以将预设指标设置为流量和读写次数。
步骤S112,计算应用的目标数据和故障应用的基准数据之间的差异得到差值。分析目标数据和基准数据之间的差异,可以得到目标数据与基准数据之间的相关性。其中,目标数据和基准数据之间的差异越小,表示目标数据和基准数据之间的相关性越强;目标数据和基准数据之间的差异越大,表示目标数据和基准数据之间的相关性越弱。计算应用的目标数据和故障应用的基准数据之间的差异得到差值的具体过程将在下文详细描述。
步骤S114,根据差值和吞吐量从应用中选取若干应用作为异常应用。在本实施例中,根据差值从应用中选取若干应用作为待定应用,再根据吞吐量从待定应用中选取若干待定应用作为异常应用。由于异常应用会影响故障应用,因此,异常应用的目标数据与故障应用的基准数据之间的相关性较强。此外,一般情况下,导致存储区域网络10出现异常情况很有可能是异常应用的吞吐量发生突变。因此,根据差值和吞吐量能够排查出可能的异常应用。根据差值从应用中选取若干应用作为待定应用,根据吞吐量从待定应用中选取若干待定应用作为异常应用的具体过程将在下文详细描述。
上述实施例中,根据人工输入的时间段和应用服务器的ID获取初始数据,再根据初始数据得到与目标指标相对应的基准数据和与预设指标相对应的目标数据,根据基准数据判断故障应用,根据应用的目标数据和故障应用的基准数据之间的差异定位出异常应用。根据差值能够快速找到与故障应用的数据变化较相似,即相关性较强的待定应用,再结合待定应用的吞吐量,能够极大提高定位的准确性。整个定位排障过程采用自动化的方式完成,替代管理员人工排查,管理员只需要输入时间段、应用服务器的ID以及目标指标就能够自动对相应应用的数据进行分析,从而能够快速定位到异常应用,定位排障过程从原来的几十分钟甚至几个小时能够缩短到几分钟,节省了排查时间,极大提高了定位的效率。
请结合参看图2,其为本发明实施例提供的定位方法的第一子流程图。步骤S112具体包括如下步骤。
步骤S202,判断目标数据所对应的预设指标与基准数据所对应的目标指标是否一致。由于预设指标和目标指标可能不是相同的指标,因此,需要对预设指标和目标指标的一致性进行判断。当目标数据所对应的预设指标与基准数据所对应的目标指标不一致时,执行步骤S204;当目标数据所对应的预设指标与基准数据所对应的目标指标一致时,执行步骤S208。
步骤S204,对基准数据和目标数据进行归一化处理以得到归一化数据。在本实施例中,目标数据所对应的预设指标与基准数据所对应的目标指标不一致,表示目标数据和基准数据的维度不同。因此,需要对基准数据和目标数据进行归一化处理,将基准数据与目标数据处理为维度一致的归一化数据。
步骤S206,计算应用的归一化数据和故障应用的归一化数据之间的差异得到差值。分别计算应用中除故障应用之外的每一应用的归一化数据和故障应用的归一化数据之间的差异得到差值。可以理解的是,所有应用中除故障应用之外的每一应用都分别与故障应用对应有一个差值。即是说,若故障应用为一个,则所有应用中除故障应用以外的每一应用均对应有一个差值;若故障应用为n个,则所有应用中除故障应用以外的每一应用均对应有n个差值。分别计算应用中除故障应用之外的每一应用的归一化数据和故障应用的归一化数据之间的差异得到差值的具体过程将在下文详细描述。
步骤S208,分别计算应用中除故障应用之外的每一应用的目标数据和故障应用的基准数据之间的差异得到差值。在本实施例中,目标数据所对应的预设指标与基准数据所对应的目标指标一致,表示目标数据和基准数据的维度相同。因此,可以直接利用目标数据和基准数据进行计算。相应地,所有应用中除故障应用之外的每一应用都分别与故障应用对应有一个差值。即,若故障应用为n个,则所有应用中除故障应用以外的每一应用均对应有n个差值。分别计算应用中除故障应用之外的每一应用的目标数据和故障应用的基准数据之间的差异得到差值的具体过程将在下文详细描述。
上述实施例中,为了能够更好地分析目标数据和基准数据之间的差异,需要对目标数据所对应的预设指标和基准数据所对应的目标指标进行一致性判断。若目标数据所对应的预设指标与基准数据所对应的目标指标不一致,则对目标数据和基准数据进行归一化处理,将目标数据和基准数据转化为维度一致的归一化数据,从而方便计算目标数据和基准数据之间的差异。若目标数据所对应的预设指标与基准数据所对应的目标指标一致,则可以直接利用目标数据和基准数据计算差异。
请结合参看图3,其为本发明实施例提供的定位方法的第二子流程图。步骤S206中,分别计算应用中除故障应用之外的每一应用的归一化数据和故障应用的归一化数据之间的差异得到差值具体包括如下步骤。
步骤S302,根据应用中除故障应用之外的每一应用的归一化数据与故障应用的归一化数据分别构建与应用相对应的距离矩阵。具体地,根据每一应用的归一化数据中的数值与故障应用的归一化数据中的数值构建距离矩阵。可以理解的是,所有应用中除故障应用之外的每一应用都分别与故障应用对应有一个距离矩阵。
步骤S304,根据距离矩阵计算差值。在本实施例中,利用动态时间归整(DynamicTime Warping,DTW)算法根据距离矩阵计算差值。
上述实施例中,异常应用对故障应用的影响可能存在延时,获取应用在时间段产生的数据时可能存在滞后或者丢点的情况,导致异常应用的归一化数据与故障应用的归一化数据之间存在由于时间差以及数据采集误差导致的不一致。因此,利用DTW算法能够有效处理不同长度、不同节奏的归一化数据,避免数据之间的不一致对差值的结果产生影响。
请结合参看图4,其为本发明实施例提供的定位方法的第三子流程图。步骤S208中,分别计算应用中除故障应用之外的每一应用的目标数据和故障应用的基准数据之间的差异得到差值具体包括如下步骤。
步骤S402,根据应用中除故障应用之外的每一应用的目标数据与故障应用的基准数据分别构建与应用相对应的距离矩阵。具体地,根据每一应用的目标数据中的数值与故障应用的基准数据中的数值构建距离矩阵。可以理解的是,所有应用中除故障应用之外的每一应用都分别与故障应用对应有一个距离矩阵。
步骤S404,根据距离矩阵计算差值。在本实施例中,利用DTW算法根据距离矩阵计算差值。
上述实施例中,异常应用对故障应用的影响可能存在延时,获取应用在时间段产生的数据时可能存在滞后或者丢点的情况,导致异常应用的目标数据与故障应用的基准数据之间存在由于时间差以及数据采集误差导致的不一致。因此,利用DTW算法能够有效处理不同长度、不同节奏的归一化数据,避免数据之间的不一致对差值的结果产生影响。
请结合参看图5,其为本发明实施例提供的定位方法的第四子流程图。步骤S114中,根据差值从应用中选取若干应用作为待定应用具体包括如下步骤。
步骤S502,按照差值从小到大的顺序对应用进行排序。
步骤S504,从与最小的差值所对应的应用开始选取第一预设数量的应用作为待定应用。在本实施例中,第一预设数量为10。在一些可行的实施例中,第一预设数量可以为8-12之间的任意数值。可以理解的是,目标数据和基准数据之间的差异越小,差值越小,则目标数据和基准数据之间的相关性越强;目标数据和基准数据之间的差异越大,差值越大,则目标数据和基准数据之间的相关性越弱。由于异常应用的目标数据与故障应用的基准数据之间存在较强的相关性,因此,从最小差值对应的应用开始选取的若干应用可以作为判断是否为异常应用的待定应用。
上述实施例中,按照差值的大小对应用进行排序,并从与最小差值对应的应用开始选取若干可以用于判断是否为异常应用的应用作为待定应用,即根据差值缩小定位的范围,从而能够更加精确地定位到异常应用。
请结合参看图6,其为本发明实施例提供的定位方法的第五子流程图。步骤S114中,根据吞吐量从待定应用中选取若干待定应用作为异常应用具体包括如下步骤。
步骤S602,按照吞吐量从大到小的顺序对待定应用进行排序。根据ID获取相应的应用服务器11中所有应用在时间段内的吞吐量,根据吞吐量对待定应用进行排序。
步骤S604,从与最大的吞吐量所对应的待定应用开始选取第二预设数量的待定应用作为异常应用。在本实施例中,第二预设数量为3。在一些可行的实施例中,第二预设数量可以为3-5之间的任意数值。可以理解的是,由于异常应用的吞吐量可能会发生突变,因此,从最大吞吐量对应的待定应用开始选取的若干待定应用可以作为是否为真正引起故障的异常应用。
上述实施例中,按照吞吐量的大小对待定应用进行排序,并从与最大吞吐量对应的待定应用开始选取若干可以用于判断是否为真正引起故障的待定应用作为异常应用。当存在应用的吞吐量突变,且变化的绝对值较大时,会造成存储区域网络链路拥堵,使存储区域网络的存储设备和链路达到性能瓶颈,从而干扰其它应用。因此,结合吞吐量能够进一步地缩小定位的范围,即结合吞吐量能够更加精确地、快速地定位出引起故障的异常应用。
请结合参看图7,其为本发明实施例提供的定位方法的第六子流程图。异常应用的定位方法还包括如下步骤。
步骤S116,根据目标数据绘制异常应用的性能曲线。选取与定位得到的异常应用相对应的目标数据,根据目标数据绘制相应的性能曲线。
步骤S118,展示性能曲线。通过展示窗口(图未示)展示性能曲线。
上述实施例中,绘制并展示异常应用的性能曲线,管理员可以根据性能曲线进行分析,从若干异常应用中快速找到真正引起故障的应用,即吞吐量较大、数据与故障应用的数据相关性较强的应用。
请结合参看图9,其为本发明实施例提供的主控设备的内部结构示意图。主控设备20包括存储器21和处理器22。其中,存储器21用于存储程序指令,处理器22用于执行程序指令以实现上述存储区域网络中异常应用的定位方法。在本实施例中,主控设备20还包括分别与处理器22连接的输入模块23和显示模块24。输入模块23用于接收管理员输入的时间段、应用服务器的ID以及目标指标,显示模块24用于展示性能曲线。其中,输入模块23包括但不限于鼠标、键盘、触摸屏等交互设备,显示模块24包括但不限于显示屏等显示设备。
其中,处理器22在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器或其它数据处理芯片,用于运行存储器21中存储的程序指令。
存储器21至少包括一种类型的可读存储介质,该可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器21在一些实施例中可以是计算机设备的内部存储单元,例如计算机设备的硬盘。存储器21在另一些实施例中也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(FlashCard)等。进一步地,存储器21还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器21不仅可以用于存储安装于计算机设备的应用软件及各类数据,例如实现存储区域网络中异常应用的定位方法的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
请结合参看图10,其为本发明实施例提供的存储区域网络的内部结构示意图。存储区域网络10包括网络连接设备12、若干存储设备13、若干应用服务器11以及主控设备20。在本实施例中,若干应用服务器11通过网络连接设备12与若干存储设备13通讯连接,主控设备20与若干应用服务器11通讯连接。每一应用服务器11均装载有若干应用。其中,主控设备20的具体结构参照上述实施例。由于存储区域网络10采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (10)

1.一种存储区域网络中异常应用的定位方法,所述存储区域网络包括若干应用服务器,所述若干应用服务器装载有若干应用,其特征在于,所述异常应用的定位方法包括:
获取时间段、应用服务器的ID以及目标指标,其中,所述目标指标为与应用相关的性能测试指标中的一个或者多个指标,所述时间段、所述ID以及所述目标指标均由人工输入;
根据所述ID获取相应的应用服务器中所有应用在所述时间段所产生的数据作为初始数据;
从所述初始数据中选取与所述目标指标相对应的数据作为基准数据;
根据所述基准数据判断所述应用中是否存在故障应用,其中,所述故障应用与所述异常应用不同;
当存在故障应用时,从所述初始数据中选取与预设指标相对应的数据作为目标数据,其中,所述预设指标包括流量和读写次数;
计算所述应用的目标数据和所述故障应用的基准数据之间的差异得到差值;以及
根据所述差值和吞吐量从所述应用中选取若干应用作为所述异常应用。
2.如权利要求1所述的存储区域网络中异常应用的定位方法,其特征在于,根据所述差值和吞吐量从所述应用中选取若干应用作为所述异常应用具体包括:
根据所述差值从所述应用中选取若干应用作为待定应用;以及
根据吞吐量从所述待定应用中选取若干待定应用作为所述异常应用。
3.如权利要求1所述的存储区域网络中异常应用的定位方法,其特征在于,计算所述应用的目标数据和所述故障应用的基准数据之间的差异得到差值还包括:
判断所述目标数据所对应的预设指标与所述基准数据所对应的目标指标是否一致;
当所述目标数据所对应的预设指标与所述基准数据所对应的目标指标不一致时,对所述基准数据和所述目标数据进行归一化处理以得到归一化数据;
计算所述应用的归一化数据和所述故障应用的归一化数据之间的差异得到所述差值;以及
当所述目标数据所对应的预设指标与所述基准数据所对应的目标指标一致时,分别计算所述应用中除所述故障应用之外的每一应用的目标数据和所述故障应用的基准数据之间的差异得到所述差值。
4.如权利要求3所述的存储区域网络中异常应用的定位方法,其特征在于,计算所述应用的归一化数据和所述故障应用的归一化数据之间的差异得到所述差值具体包括:
分别计算所述应用中除所述故障应用之外的每一应用的归一化数据和所述故障应用的归一化数据之间的差异得到所述差值。
5.如权利要求3所述的存储区域网络中异常应用的定位方法,其特征在于,分别计算所述应用中除所述故障应用之外的每一应用的目标数据和所述故障应用的基准数据之间的差异得到所述差值具体包括:
根据所述应用中除所述故障应用之外的每一应用的目标数据与所述故障应用的基准数据分别构建与所述应用相对应的距离矩阵;以及
根据所述距离矩阵计算所述差值。
6.如权利要求2所述的存储区域网络中异常应用的定位方法,其特征在于,根据所述差值从所述应用中选取若干应用作为待定应用具体包括:
按照所述差值从小到大的顺序对所述应用进行排序;以及
从与最小的差值所对应的应用开始选取第一预设数量的应用作为所述待定应用。
7.如权利要求2所述的存储区域网络中异常应用的定位方法,其特征在于,根据吞吐量从所述待定应用中选取若干待定应用作为所述异常应用具体包括:
按照所述吞吐量从大到小的顺序对所述待定应用进行排序;以及
从与最大的吞吐量所对应的待定应用开始选取第二预设数量的待定应用作为所述异常应用。
8.如权利要求1所述的存储区域网络中异常应用的定位方法,其特征在于,所述存储区域网络中异常应用的定位方法还包括:
根据所述目标数据绘制所述异常应用的性能曲线;以及
展示所述性能曲线。
9.一种主控设备,其特征在于,所述主控设备包括:
存储器,用于存储程序指令;以及
处理器,用于执行所述程序指令以实现如权利要求1至8中任一项所述的存储区域网络中异常应用的定位方法。
10.一种存储区域网络,其特征在于,所述存储区域网络包括:
网络连接设备;
若干存储设备;
若干应用服务器,所述若干应用服务器通过所述网络连接设备与所述若干存储设备通讯连接;以及
如权利要求9所述的主控设备,所述主控设备与所述若干应用服务器通讯连接。
CN202210870285.9A 2022-07-22 2022-07-22 存储区域网络中异常应用的定位方法 Active CN115086156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210870285.9A CN115086156B (zh) 2022-07-22 2022-07-22 存储区域网络中异常应用的定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210870285.9A CN115086156B (zh) 2022-07-22 2022-07-22 存储区域网络中异常应用的定位方法

Publications (2)

Publication Number Publication Date
CN115086156A CN115086156A (zh) 2022-09-20
CN115086156B true CN115086156B (zh) 2022-10-25

Family

ID=83242500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210870285.9A Active CN115086156B (zh) 2022-07-22 2022-07-22 存储区域网络中异常应用的定位方法

Country Status (1)

Country Link
CN (1) CN115086156B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3547057A1 (en) * 2018-03-30 2019-10-02 Omron Corporation Abnormality detection system, support device, and abnormality detection method
CN112783725A (zh) * 2021-01-26 2021-05-11 中国工商银行股份有限公司 指标采集方法及装置
CN113094284A (zh) * 2021-04-30 2021-07-09 中国工商银行股份有限公司 应用故障检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3547057A1 (en) * 2018-03-30 2019-10-02 Omron Corporation Abnormality detection system, support device, and abnormality detection method
CN112783725A (zh) * 2021-01-26 2021-05-11 中国工商银行股份有限公司 指标采集方法及装置
CN113094284A (zh) * 2021-04-30 2021-07-09 中国工商银行股份有限公司 应用故障检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
计算机终端及网络故障定位分析工具的研制;侯婧媖;《数字技术与应用》;20161215(第12期);全文 *

Also Published As

Publication number Publication date
CN115086156A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN107329894B (zh) 应用程序系统测试方法、装置及电子设备
CN110059068B (zh) 一种分布式存储系统中的数据校验方法及数据校验系统
CN114357812A (zh) 产品可靠性试验方法、装置、计算机设备和存储介质
CN113837596A (zh) 一种故障确定方法、装置、电子设备及存储介质
CN108399115B (zh) 一种运维操作检测方法、装置及电子设备
CN114490375A (zh) 应用程序的性能测试方法、装置、设备及存储介质
CN115841046A (zh) 基于维纳过程的加速退化试验数据处理方法和装置
CN110471912B (zh) 一种员工属性信息校验方法、装置及终端设备
CN105164647A (zh) 生成表示应用对外部服务的故障的模拟的响应的指纹
CN113946983A (zh) 产品可靠性薄弱环节评估方法、装置和计算机设备
CN115086156B (zh) 存储区域网络中异常应用的定位方法
US20120310849A1 (en) System and method for validating design of an electronic product
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN112882956B (zh) 一种通过数据组合计算自动生成全场景自动化测试案例的方法、装置、存储介质及电子设备
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN111223516B (zh) Raid卡检测方法以及装置
CN114546799A (zh) 埋点日志校验方法、装置、电子设备、存储介质及产品
CN113779926A (zh) 一种电路的检测方法、装置、电子设备及可读存储介质
CN108255715B (zh) 一种测试结果处理方法及终端设备
CN114301904A (zh) 大数据集群的监控方法、装置、监控系统及可读存储介质
CN107102938B (zh) 测试脚本的更新方法及装置
CN114564853B (zh) 一种基于fmea数据的评价报告的生成方法及电子设备
CN115576850B (zh) 数据指标测试方法、装置、电子设备及存储介质
CN112699101B (zh) 基于存储与处理的服务器系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant