CN112764994A - 一种容器云存储系统的灰色故障检测方法 - Google Patents
一种容器云存储系统的灰色故障检测方法 Download PDFInfo
- Publication number
- CN112764994A CN112764994A CN202110101191.0A CN202110101191A CN112764994A CN 112764994 A CN112764994 A CN 112764994A CN 202110101191 A CN202110101191 A CN 202110101191A CN 112764994 A CN112764994 A CN 112764994A
- Authority
- CN
- China
- Prior art keywords
- application
- gray
- performance
- model
- interference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000015654 memory Effects 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000005259 measurement Methods 0.000 claims abstract description 9
- 230000006403 short-term memory Effects 0.000 claims abstract description 6
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 3
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000001960 triggered effect Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013178 mathematical model Methods 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种容器云存储系统的灰色故障检测方法。所述方法包括:定义应用性能干扰情境,如内存资源、位置、负载均衡等之间的关联关系,在关联关系条件约束下,通过计算关联关系的性能干扰度确定干扰情境和灰色故障之间关联程度,为故障检测建立关联关系度量;之后利用所有关联度度量关系式组成关联模型。利用收集的应用性能数据,进行模型自动建模和更新。通过长短期记忆网络(Long Short Term Memory,LSTM)和双向长短期记忆网络(Bidriectional Long Short‑Term Memory,BLSTM)结合的方法来对模型进行深度学习训练,提高自学性和精准性。本发明考虑多应用共享资源因素以及部署环境改变与灰色故障的关联性,分析应用性能干扰与灰色故障的关系,以提高灰色故障检测的准确性。
Description
技术领域
本发明属于计算机技术领域,更具体地,涉及一种容器云存储系统的灰色故障检测方法。
背景技术
容器云存储系统由于其固有的复杂性和大规模性,使得各种故障情境经常发生,引起应用服务失效。容器云存储出现的故障情境与其应用运行情境有一定关系。应用情境中的主要可用性故障和性能异常往往是由细微的潜在故障引起的,称之为灰色故障。灰色故障是系统的故障检测器难以发觉,或忽视过去以至没有异常或者错误通知的,但会在应用运行过程中出现的故障问题。灰色故障通常会带来严重的性能下降、随机数据包丢失、片状I/O、内存抖动等异常情况。灰色故障与应用程序运行故障有一定的逻辑关系。在灰色故障检测和预测方面,现有的研究工作主要集中在研究使用侵入式技术来进行故障定位等方面,不多关注由于资源隔离,带来的应用间性能干扰产生的关联性灰色故障问题,以及部署环境改变带来的灰色故障传播问题。
在容器云存储中运行的应用程序通常作为云服务提供商的黑盒子出现,这使得获取有关应用程序的详细运行场景并应用理想的API侵入式诊断技术是不可行的。容器云存储管理系统希望自动预防任何性能异常的发生,以最小化损失。像Docker Swarm、Kubernetes等现有容器调度系统的反应性异常管理不足以满足这些要求。
现有的针对灰色故障的检测方法多是在原有的云存储环境下的故障检测方法基础上进行,对灰色故障导致的系统和应用程序之间的差异具有较差的可观察性。灰色故障检测方法有代表性的有通过API注入的方法。但是,这种类型的方法在容器云存储中有一定的不适应性,因为容器之间是相互隔离的,容器监控信息的指令依赖于低层的操作系统指令。因此侵入式的方法无法通过名称明确标识特定容器(或包含它的容器的节点),也不能明确标识容器正在运行的应用,因为这些容器在应用程序上下文的的生命周期中可能会发生动态变化。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了容器云存储系统的灰色故障检测方法方法,其目的在于达到通过应用干扰情境与灰色故障之间的关联,并基于这种关联实现精准检出灰色故障。
为实现上述目的,本发明提供了一种容器云存储系统的灰色故障检测方法,包括如下步骤:
(1)通过定义应用性能干扰情境来确定性能干扰度:根据云存储的软硬件故障以及灰色故障与应用之间的性能干扰的关联性,定义基于内存资源、位置、负载均衡的关联关系以及其判断和约束条件;在约束条件下通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间的关联程度,为后续灰色故障检测建立关联关系度量库;
(2)用应用性能干扰度求性能干扰情境与灰色故障的关联关系度:应用之间的关联关系满足某一种约束关系,通过获取灰色故障情境与应用间的性能干扰情境,求得应用干扰情境与灰色故障之间的关联关系度。
(3)建立关联度组成关联模型(Relational Model based on the Relationshipbetween Application Interference Situationcontext and Grey Fault,简称RMAIG):所有的灰色故障利用之前求出来的关联度组成关联模型RMAIG,使用模型RMAIG检测灰色故障的发生场景,同时利用监控收集到的应用性能数据,进行关联模型的自动建模和更新。当当前应用情境模型与所给出的关联模型有很高的相似度时,则认为有灰色故障发生。
(4)LSTM和BLSTM结合方法对关联模型进行深度学习训练:当前时刻的数据输入和过去一个时刻内的RMAG模型作为输入,基于数据和模型,通过BLSTM来决定要保留RMAIG模型向量的哪些部分,之后输入到LSTM中,最终实现RMAIG模型的更新。
与现有技术相比,本发明具有如下有益效果:
通过利用这个模型,得出应用性能干扰环境的关键度量值,并进行自动化应用情境比对,以此来评估应用情境是否发生灰色故障。所建立的模型能通过对容器云系统内部的资源性能瓶颈进行监控,来跟踪资源瓶颈带来的故障区域的变化特性,这样能够及时找到遏制故障传播的恢复模式,进行故障检测与预测。
附图说明
图1是本发明实施例中灰色故障检测方法实现的示意图;
图2是本发明实施例中灰色故障概念模型图;
图3是本发明实施例中灰色故障检测方法的应用情境感知机制示意图;
图4是本发明实施例中灰色故障检测方法的关系模型建立算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
灰色故障的出现来源于系统与应用程序之间的故障观察差异性。如图2所示。除了系统内部自带的故障检测器外,应用程序也会对系统的运行状况进行自己的检测。灰色故障包括严重的性能下降、随机数据包丢失、片状I/O内存抖动、容量压力等非致命异常。它的模糊性和时间特性使其与典型的失效模型中的假设明显不同,例如,进程的关键线程可能会被锁住,而其他线程(包括故障检测器)会继续运行。因为灰色故障的发生,容器云系统中的节点里的应用在运行过程中可能会遇到随机数据包丢失、慢速硬件失效、静默挂起或状态损坏等故障,灰色故障这种细小的失败是许多现实云存储集群故障的原因。严重的灰色故障可能会延迟服务器中每个前端请求,减少系统中的总可用存储量,并对剩余的健康服务器施加压力,导致更多服务器降级并体验相同的故障命运。随着云存储的不断扩展,不被系统关注的灰色故障问题会成为系统高可用性的一个巨大挑战。因此对于灰色故障的及时检测等处理工作显得非常重要。
如图1所示,本发明提供一种容器云存储系统的灰色故障检测方法,包括:
(1)通过定义应用性能干扰情境来确定性能干扰度:根据云存储的软硬件故障以及灰色故障与应用之间的性能干扰的关联性,定义了基于内存资源、位置、负载均衡的关联关系以及其判断和约束条件;在约束条件下通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间的关联程度,为后续灰色故障检测建立关联关系度量库;
(2)用应用性能干扰度求性能干扰情境与灰色故障的关联关系度:应用之间的关联关系满足某一种约束关系,通过获取灰色故障情境与应用间的性能干扰情境,通过绝对差性质,最终可以求得应用干扰情境与灰色故障之间的关联关系度。
(3)关联度组成关联模型RMAIG:所有的灰色故障利用之前求出来的关联度组成关联模型RMAIG,使用RMAIG可以检测灰色故障的发生场景同时利用操作期间监控收集的应用性能数据,来进行关联模型的自动建模和更新。当检测到关联关系达到关联模型的范围时,则认为有灰色故障发生。
(4)LSTM和BLSTM结合方法对关联模型进行深度学习训练:基于RMAIG模型创建一个候选关联状态,再通过关键模型建立算法求出来的关键度度量集计算要保留上一次状态的信息,最后通过输出层门来决定输出新的RMAIG模型向量的部分输入到LSTM层,之后被馈送到聚集层,通过集成前向和后向层的输出来更新输出层,得到新的RMAIG模型。
针对于步骤(1)具体包括:
(1.1)定义应用之间关联关系:两个应用共同竞争共享内存资源,或者共处于同一节点,或者在同一时刻下两个应用都在同一组被系统控制器进行负载均衡,并且都拥有特定的判断和约束条件,关联关系被准确的定义;
(1.2)性能干扰度:两个应用之间的性能干扰度定义为在资源受限和不受限的情况下运行性能比值的乘积,引入性能干扰度可以定量地确定应用干扰情境和灰色故障之间关联程度的大小,受限制的运行性能满足由应用CPU、磁盘空间、网络读写带宽、内存的请求率组成的约束条件;
(1.3)应用性能干扰与灰色故障的关系模型:满足特定约束条件的性能干扰度集合就是应用性能干扰情境,通过已有历史数据中应用干扰情境与产生的灰色故障情境进行拟合处理,最终可以得出灰色故障情境与应用性能干扰的关联度,所有的关联度组成关联模型。
针对于步骤(1)中三种关联关系的判断和约束条件具体如下:
(1)对于应用之间由基于内存资源的关联关系触发的性能干扰情境:
memory_requestrate[i]+memory_requestrate[j]>M-M[N] (1)
其中,M是节点N中的内存总量。memory_requestrate[i]和memory_requestrate[j]分别为应用的内存请求率,内存请求率指应用向节点请求内存的次数在应用所有所需资源请求次数的占比。
(2)对于应用之间由基于位置的关联关系触发的性能干扰情境:
AIC[N]={i,j} (2)
其中,AIC[N]是节点N中同节点中运行的应用程序实例。
(3)对于应用之间由基于负载均衡的关联关系触发的性能干扰情境:
LBG[i]=LBG[j] (3)
Applicationavalable[i]=Applicationavalable[j] (4)
其中,LBG[i]和LBG[j]分别为应用i和应用j所属的负载均衡的组;Applicationavaliable[i]和Applicationavailable[j]分别表示应用程序i和j是否在线并且可用,若其值为1,表示可用;若其值为0,表示不可用,当应用i和j同时分在同一个负载均衡的组中,且都在线可用时,发生负载均衡,会触发性能干扰。
在应用之间的关联关系条件约束下,应用间的性能干扰情境可以使用应用之间的性能干扰度来进行描述,性能干扰度可以定义为应用在资源受限情况与资源不受限情况下运行的性能比值的积通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间关联程度的大小,可以能为后面灰色故障检测建立关联关系度量库,计算方法如下式:
其中是应用i在资源不受限即所属节点资源足够的情况下的运行时的性能;为应用i被应用j干扰,在节点N的磁盘读写带宽(D[N])、内存(M[N])、容器网络带宽(读带宽IOr[N]和写带宽IOW[N])和CPU的限制CPU[N]下执行时的性能。这个性能干扰度量化了由于同时与其他应用程序共享资源而导致的性能干扰情境。它取决于许多因素,例如应用程序申请资源的时间、应用程序对应用程序间争用的敏感性有多高、消息在系统中争用的时间有多长等等。
进一步,针对于步骤(2),应用所需要满足的约束条件通过以下方式得出,设该时刻下应用i的CPU请求率CPUrequestrate[i],内存请求率为memoryrequestrate[i],磁盘空间请求率为diskrequestrate[i],其网络读带宽为IOreadrate[i],网络写带宽为IOwriterate[i],但是其得到的CPU利用率为CPUgetrate[i],内存利用率为memorygetrate[i],磁盘空间请求率为diskgetrate[i],网络读带宽为IOgetreadrate[i],网络写带宽为IOgetwriterate[i];设该时刻下应用j的CPU请求率为CPUrequestrate[j],内存请求率为memoryrequestrate[j],磁盘空间请求率为diskrequestrate[j],其网络读带宽为IOreadrate[j],网络写带宽为IOwriterate[j],但是其得到的CPU利用率为CPU getrate[j],内存利用率为memorygetrate[j],磁盘空间请求率为diskgetrate[j],网络读带宽为IOgetreadrate[j],网络写带宽为IOgetwriterate[j];
CPUgetrate[i]+CPUgetrate[j]<CPU[N] (10)
memorygetrate[i]+memorygetrate[j]<M[N] (11)
diskgetrate[i]+diskgetrate[j]<D[N] (12)
IOgetreadrate[i]+IOgetreadrate[j]<IOr[N] (13)
IOgetwriterate[i]+IOgetwriterate[j]<IOw[N] (14)
其中,ER[i]和ER[j]是错误率,分别是应用i和j运行日志中出现的错误和异常占应用运行总日志数的比例。pij介于0和1之间。
针对于步骤(3),所求出的应用之间的性能干扰度作为干扰情境与灰色故障之间的关联关系度的度量。把监控以及历史数据转化为数学模型以便进行建模,设已有的历史数据中应用干扰情境产生的灰色故障情境G表示为XG(k)={xc(1),xc(2),...,xc(k)},c=1,2,...,Ni,其中:c为与灰色故障G发生有关的应用干扰情境类别,Ni是应用干扰情境类别总数,k为与灰色故障发生有关的应用情境的特征向量个数,xc(k)是应用i与应用j产生的应用性能干扰情境。应用i与应用j之间的关联关系满足前面三种关系中的某一种关系的约束条件:
xc(k)={ρij|Applicationavailable[i]=Applicationavailable[j],i,j∈(1,N) (15)
设前面XG(k)数列除去xc(k)情境之后的数列为Xb(k),Xb(k)表示为与灰色故障无关的应用干扰情境,b=c-{Ni},则b表示为与灰色故障无关的应用干扰类别总数。Xb(k)={xb(1),xb(2),...,xb(n)}。求xc(k)与Xb(k)之间的关联关系度,可以求出应用干扰情境与灰色故障G之间的关联关系度。记xc(k)对Xb(k)的关联关系度为ηcb(k),计算方法如下:
上式中,Δcb(k)为xc(k)与Xb(k)的差的绝对值:表示在Xb(k)上找出各点与xc(k)点的差值的最小值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最小差值;表示在Xb(k)的曲线上找出各点与xc(k)点的差值的最大值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最大差值。ρ为应用情境xc(k)情况下应用性能干扰度与Xb(k)中各个情境的应用性能干扰度的比值,ρ∈(0,1]。
故灰色故障情境G与其有关的应用性能干扰情境的关联度为:
εg={ηcb(k)|c=1,2,...,Ni;b=c-{Ni}} (17)
所有的灰色故障情境利用上面的式子所求出来的关联度组成关联模型RMAIG,设一共有M个灰色故障情境,则关联模型RMAIG可表示为:
θ={εg|g=1,2,...,M} (18)
因为RMAIG反映了在灰色故障发生时,应用之间的性能干扰度,可用它检测灰色故障的发生场景。同时利用操作期间监控收集的应用性能数据,来进行关联模型的自动建模和更新。当检测到关联关系达到关联模型的范围时,则认为有灰色故障发生。
更进一步地,针对步骤(3),所述关联模型RMAIG的具体建模过程为:
首先为模型设立应用情境感知机制,如图2所示。为了进行应用之间的关联关系约束条件判断,应用情境感知机制监控每个存储节点的异构数据,其收集的数据分为以下三种类型:
(1)存储节点时间数据:直接表示节点在某一时刻的状态(例如性能计数器,IO吞吐量,存储资源使用量,存储响应延迟等),以及日志事件、错误/异常事件等数据。
(2)存储节点空间数据:指示各个节点之间的、在系统中的显式或隐式的依赖关系。这些功能的示例包括部署段、机架位置、负载平衡组、策略组、更新域等。
(3)应用性能数据:包括平均响应时间、错误率(应用程序中未处理和记录的错误的数量)、应用实例计数、CPU请求率、内存请求率、磁盘空间请求率、I/O请求率等。对集群中应用的性能数据进行监控,基于应用之间的关联关系约束条件来进行初步情境感知判断和处理,感知机制监控每个节点的数据。为了能提取可以求出应用性能干扰和灰色故障环境的有效数据,以提高可处理性和精度,在检测到灰色故障之后,将通过感知机制收集到的时间和空间数据、应用性能数据进行衡量关联关系的主要度量提取,求出故障与干扰情境的关联关系度,更新关联模型,算法流程图如图3所示。
针对于步骤(4),如图4所示,基于RMAIG模型的灰色故障检测方法中采用LSTM(Long Short-Term Memory)和BLSTM(bidirectional long short-term memory)模型结合的方法,来对时间数据和应用性能数据中和关键度量集中数据同类的数据进行深度学习训练,提高方法的自学习性。LSTM可以很好地捕获时间序列数据背后的模式,BLSTM(双向LSTM)模型能处理两个方向上的时间序列变化,因为在BLSTM模型中,在前向和后向层之间的交互之后获得输出的过程很复杂,而且有很大的时间上的开销,所以选择用LSTM层替换BLSTM模型中的流线性单元(ReLU)层,可以减少模型的相互作用和复杂性。所以基于RMAIG模型的灰色故障检测策略使用LSTM和BLSTM结合的方法来进行深度学习训练。
设xi是发生灰色故障的时刻所有时间数据的输入向量,对{x1,x2,...,xn}序列数据使用BLSTM,根据RMAIG模型创建一个候选关联状态Ct,
Ct=tanh(WC*[θt-1,xt-1]+bc) (19)
Wc为此时C状态向量的权重,θt-1是过去一个时刻内的关联模型,bc为C状态向量的偏差。在数据中增加一行θt。
Et为当前时刻的关键度量集。
最后通过输出门层决定输出新的RMAIG模型向量的哪些部分,LSTM层的输入数据是此时刻产生新序列v1,v2,...,vn,其被馈送到聚集层,得到新的RMAIG模型。
Claims (7)
1.一种容器云存储系统的灰色故障检测方法,其特征在于,包括如下步骤:
(1)定义应用性能干扰情境来确定性能干扰度:根据云存储的软硬件故障以及灰色故障与应用之间的性能干扰的关联性,定义基于内存资源、位置、负载均衡的关联关系以及其判断和约束条件;在约束条件下通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间的关联程度,为后续灰色故障检测建立关联关系度量库;
(2)使用应用性能干扰度求性能干扰情境与灰色故障的关联关系度:应用之间的关联关系满足某一种约束关系,通过获取灰色故障情境与应用间的性能干扰情境,求得应用干扰情境与灰色故障之间的关联关系度;
(3)建立关联度组成关联模型(Relational Model based on the Relationshipbetween Application Interference Situationcontext and Grey Fault,RMAIG):所有的灰色故障利用之前求出来的关联度组成关联模型RMAIG,使用模型RMAIG检测灰色故障的发生场景,同时利用监控收集到的应用性能数据,来进行关联模型的自动建模和更新,若当前应用情境模型与所给出的关联模型有很高的相似度时,则认为有灰色故障发生;
(4)利用长短期记忆网络(Long Short Term Memory,LSTM)和双向长短期记忆网络(Bidriectional Long Short-Term Memor,BLSTM)结合方法对关联模型进行深度学习训练:当前时刻的数据输入和过去一个时刻内的RMAG模型作为输入,通过BLSTM来决定要保留RMAIG模型向量的哪些部分,之后输入到LSTM中,实现RMAIG模型的更新。
2.如权利要求1所述的容器云存储系统的灰色故障检测方法,其特征在于,所述步骤(1)具体包括:
(1.1)定义应用之间关联关系:两个应用共同竞争共享内存资源,或者共处于同一节点,或者在同一时刻下两个应用都在同一组被系统控制器进行负载均衡,上述的这些关联关系都拥有自己的判断和约束条件;
(1.2)性能干扰度:两个应用之间的性能干扰度定义为在资源受限和不受限的情况下运行性能比值的乘积,引入性能干扰度定量地确定应用干扰情境和灰色故障之间关联程度的大小,计算方法如下:
(1.3)应用性能干扰与灰色故障的关系模型:应用性能干扰情境是满足特定约束条件的性能干扰度集合,通过已有历史数据中应用干扰情境与产生的灰色故障情境进行拟合处理,最终得出灰色故障情境与应用性能干扰的关联度,所有的关联度组成关联模型。
3.如权利要求1或2所述的容器云存储系统的灰色故障检测方法,其特征在于,所述步骤(1)中三种关联关系的判断和约束条件具体如下:
(1)对于应用之间由基于内存资源的关联关系触发的性能干扰情境:
memory_requestrate[i]+memory_requestrate[j]>M-M[N] (2)
其中,M是节点N中的内存总量,memory_requestrate[i]和memory_requestrate[j]分别为应用的内存请求率,内存请求率指应用向节点请求内存的次数在应用所有所需资源请求次数的占比。
(2)对于应用之间由基于位置的关联关系触发的性能干扰情境:
AIC[N]={i,j} (3)
其中,AIC[N]表示节点N中同节点中运行的应用程序实例,当只有应用i和j都运行在节点N中,会触发性能干扰;
(3)对于应用之间由基于负载均衡的关联关系触发的性能干扰情境:
LBG[i]=LBG[j] (4)
Applicationavalable[i]=Applicationavalable[j] (5)
其中,LBG[i]和LBG[j]分别表示为应用i和应用j所属的负载均衡的组;Applicationavaliable[i]和Applicationavailable[j]分别表示应用程序i和j是否在线并且可用,若其值为1,表示可用;若其值为0,表示不可用,当应用i和j同时分在同一个负载均衡的组中,且都在线可用时,发生负载均衡,会触发性能干扰;
在应用之间的关联关系条件约束下,应用间的性能干扰情境使用应用之间的性能干扰度来进行描述,性能干扰度定义为应用在资源受限情况与资源不受限情况下运行的性能比值的积通过计算关联关系的性能干扰度来定量地确定应用干扰情境和灰色故障之间关联程度的大小,计算方法如下式:
4.如权利要求1或2所述的容器云存储系统的灰色故障检测方法,其特征在于,应用所需要满足的约束条件通过以下方式得出:
设在某时刻,应用i的CPU请求率CPUrequestrate[i],内存请求率为memoryrequestrate[i],磁盘空间请求率为diskrequestrate[i],其网络读带宽为IOreadrate[i],网络写带宽为IOwriterate[i],但是其得到的CPU利用率为CPUgetrate[i],内存利用率为memorygetrate[i],磁盘空间请求率为diskgetrate[i],网络读带宽为IOgetreadrate[i],网络写带宽为IOgetwriterate[i];应用j的CPU请求率为CPUrequestrate[j],内存请求率为memoryrequestrate[j],磁盘空间请求率为diskrequestrate[j],其网络读带宽为IOreadrate[j],网络写带宽为IOwriterate[j],但是其得到的CPU利用率为CPUgetrate[j],内存利用率为memorygetrate[j],磁盘空间请求率为diskgetrate[j],网络读带宽为IOgetreadrate[j],网络写带宽为IOgetwriterate[j],应用的运行性能由以下公式表示;
CPUgetrate[i]+CPUgetrate[j]<CPU[N] (11)
memorygetrate[i]+memorygetrate[j]<M[N] (12)
diskgetrate[i]+diskgetrate[j]<D[N] (13)
IOgetreadrate[i]+IOgetreadrate[j]<IOr[N] (14)
IOgetwriterate[i]+IOgetwriterate[j]<IOw[N] (16)
其中,ER[i]和ER[j]是错误率,分别是应用i和j运行日志中出现的错误和异常占应用运行总日志数的比例,pij介于0和1之间。
5.如权利要求1或2所述的容器云存储系统的灰色故障检测方法,其特征在于,所述步骤(3)包括:
将所求出的应用之间的性能干扰度作为干扰情境与灰色故障之间的关联关系度的度量,把监控以及历史数据转化为数学模型以便进行建模,设已有的历史数据中应用干扰情境产生的灰色故障情境G表示为:
XG(k)={xc(1),xc(2),…,xc(k)},c=1,2,…,Ni (17)
其中:c为与灰色故障G发生有关的应用干扰情境类别,Ni是应用干扰情境类别总数,k为与灰色故障发生有关的应用情境的特征向量个数,xc(k)是应用i与应用j产生的应用性能干扰情境;应用i与应用j之间的关联关系满足前面三种关系中的某一种关系的约束条件:
xc(k)={ρij|Applicationavailable[i]=Applicationavailable[j]},i,j∈(1,N) (18)
设XG(k)数列除去xc(k)情境之后的数列为Xb(k),Xb(k)表示为与灰色故障无关的应用干扰情境,b=c-{Ni},则b表示为与灰色故障无关的应用干扰类别总数;Xb(k)={xb(1),xb(2),…,xb(n)};求xc(k)与Xb(k)之间的关联关系度,求出应用干扰情境与灰色故障G之间的关联关系度;记xc(k)对Xb(k)的关联关系度为ηcb(k),计算方法如下:
其中,Δcb(k)为xc(k)与Xb(k)的差的绝对值:表示在Xb(k)上找出各点与xc(k)点的差值的最小值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最小差值;表示在Xb(k)的曲线上找出各点与xc(k)点的差值的最大值基础上,再按b=c-{Ni}找出所有曲线Xb(k)中的最大差值;ρ为应用情境xc(k)情况下应用性能干扰度与Xb(k)中各个情境的应用性能干扰度的比值,ρ∈(0,1];
故灰色故障情境G与其有关的应用性能干扰情境的关联度为:
εg={ηcb(k)|c=1,2,...,Ni;b=c-{Ni}} (20)
所有的灰色故障情境利用上面的式子所求出来的关联度组成关联模型RMAIG,设一共有M个灰色故障情境,则关联模型RMAIG可表示为:
θ={εg|g=1,2,...,M} (21)
利用操作期间监控收集的应用性能数据,来进行关联模型的自动建模和更新;若当前应用情境模型与所给出的关联模型有很高的相似度时,则认为有灰色故障发生。
6.如权利要求1或2所述的容器云存储系统的灰色故障检测方法,其特征在于,所述步骤(3)中的关联模型RMAIG的具体建模过程为:
首先为模型设立应用情境感知机制,对集群中应用的性能数据进行监控,基于应用之间的关联关系约束条件来进行初步情境感知判断和处理,感知机制监控每个节点的异构数据,在检测到灰色故障之后,将通过感知机制收集到的时间和空间数据、应用性能数据进行衡量关联关系的主要度量提取,求出故障与干扰情境的关联关系度,更新关联模型。
7.如权利要求1或2所述的容器云存储系统的灰色故障检测方法,其特征在于,所述步骤(4)具体为基于RMAIG模型的灰色故障检测策略使用LSTM和BLSTM结合的方法来进行深度学习训练,包括:
设xi是发生灰色故障的时刻所有时间数据的输入向量,对{x1,x2,...,xn}序列数据使用BLSTM,根据RMAIG模型创建一个候选关联状态Ct:
Ct=tanh(WC*[θt-1,xt-1]+bc) (22)
其中,Wc为此时C状态向量的权重,θt-1是过去一个时刻内的关联模型,bc为C状态向量的偏差;
在数据中增加一行θt:
其中,Et为当前时刻的关键度量集;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101191.0A CN112764994B (zh) | 2021-01-26 | 2021-01-26 | 一种容器云存储系统的灰色故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101191.0A CN112764994B (zh) | 2021-01-26 | 2021-01-26 | 一种容器云存储系统的灰色故障检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112764994A true CN112764994A (zh) | 2021-05-07 |
CN112764994B CN112764994B (zh) | 2022-08-30 |
Family
ID=75707381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110101191.0A Active CN112764994B (zh) | 2021-01-26 | 2021-01-26 | 一种容器云存储系统的灰色故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112764994B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404409A (zh) * | 2017-09-01 | 2017-11-28 | 广西大学 | 面向突变负载的容器云弹性供给容器数量预测方法与系统 |
US20200065213A1 (en) * | 2018-08-24 | 2020-02-27 | Vmware, Inc. | Processes and systems for forecasting metric data and anomaly detection in a distributed computing system |
CN111126824A (zh) * | 2019-12-19 | 2020-05-08 | 中国移动通信集团江苏有限公司 | 多指标关联模型训练方法及多指标异常分析方法 |
US20200160211A1 (en) * | 2018-11-21 | 2020-05-21 | Sap Se | Machine learning based database anomaly prediction |
CN111190804A (zh) * | 2019-12-28 | 2020-05-22 | 同济大学 | 一种云原生系统的多层次的深度学习日志故障检测方法 |
CN111552609A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 一种异常状态检测方法、系统、存储介质、程序、服务器 |
-
2021
- 2021-01-26 CN CN202110101191.0A patent/CN112764994B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404409A (zh) * | 2017-09-01 | 2017-11-28 | 广西大学 | 面向突变负载的容器云弹性供给容器数量预测方法与系统 |
US20200065213A1 (en) * | 2018-08-24 | 2020-02-27 | Vmware, Inc. | Processes and systems for forecasting metric data and anomaly detection in a distributed computing system |
US20200160211A1 (en) * | 2018-11-21 | 2020-05-21 | Sap Se | Machine learning based database anomaly prediction |
CN111126824A (zh) * | 2019-12-19 | 2020-05-08 | 中国移动通信集团江苏有限公司 | 多指标关联模型训练方法及多指标异常分析方法 |
CN111190804A (zh) * | 2019-12-28 | 2020-05-22 | 同济大学 | 一种云原生系统的多层次的深度学习日志故障检测方法 |
CN111552609A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 一种异常状态检测方法、系统、存储介质、程序、服务器 |
Non-Patent Citations (2)
Title |
---|
张海霞等: "基于车辆行为分析的智能车联网关键技术研究", 《电子与信息学报》 * |
王子勇 等: "一种基于执行轨迹监测的微服务故障诊断方法", 《软件学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112764994B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | Localizing failure root causes in a microservice through causality inference | |
CN103986625B (zh) | 一种基于统计监测的云应用故障诊断系统 | |
CN108306756B (zh) | 一种基于电力数据网全息评估系统及其故障定位方法 | |
US10318366B2 (en) | System and method for relationship based root cause recommendation | |
Yang et al. | A time efficient approach for detecting errors in big sensor data on cloud | |
WO2017167686A1 (en) | A method and system for scaling resources, and a computer program product | |
JP2011521380A (ja) | 大規模装置内での問題の決定のための警報の重要性のランク付け | |
CN104268260A (zh) | 一种流数据的分类方法及其装置和系统 | |
WO2020220437A1 (zh) | 一种基于AdaBoost-Elman的虚拟机软件老化预测方法 | |
US8180716B2 (en) | Method and device for forecasting computational needs of an application | |
CN111027591B (zh) | 一种面向大规模集群系统的节点故障预测方法 | |
US11853330B1 (en) | Data structure navigator | |
Mdhaffar et al. | Reactive performance monitoring of Cloud computing environments | |
CN112764994B (zh) | 一种容器云存储系统的灰色故障检测方法 | |
Zhou et al. | Performance evaluation method for network monitoring based on separable temporal exponential random graph models with application to the study of autocorrelation effects | |
US10936657B2 (en) | Affinity determination using graphs | |
CN116541728A (zh) | 一种基于密度聚类的故障诊断方法及装置 | |
CN104794031A (zh) | 结合自调整策略和虚拟化技术的云系统故障检测方法 | |
CN109067598A (zh) | 一种基于图中心度的云计算系统物理设备故障检测方法 | |
Leelipushpam et al. | Fault tree analysis based virtual machine migration for fault-tolerant cloud data center | |
CN113572639A (zh) | 一种载波网络故障的诊断方法、系统、设备和介质 | |
CN113076232A (zh) | 一种健康数据指标的异常检测方法及系统 | |
Dąbrowski et al. | Manufacturing Line-Level Root Cause Analysis and Bottleneck Detection Using the Digital Shadow Concept and Cloud Computing | |
CN110322136B (zh) | 一种发布/订阅分布式系统健康度评价方法 | |
Glaub | Modeling interferences of CEP operators on limited resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |