CN106776288B - 一种基于Hadoop的分布式系统的健康度量方法 - Google Patents

一种基于Hadoop的分布式系统的健康度量方法 Download PDF

Info

Publication number
CN106776288B
CN106776288B CN201611064041.2A CN201611064041A CN106776288B CN 106776288 B CN106776288 B CN 106776288B CN 201611064041 A CN201611064041 A CN 201611064041A CN 106776288 B CN106776288 B CN 106776288B
Authority
CN
China
Prior art keywords
health
software
characterization element
hadoop
distributed system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611064041.2A
Other languages
English (en)
Other versions
CN106776288A (zh
Inventor
李秋英
翟友志
尤行超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianhang Changying (Jiangsu) Technology Co.,Ltd.
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201611064041.2A priority Critical patent/CN106776288B/zh
Publication of CN106776288A publication Critical patent/CN106776288A/zh
Application granted granted Critical
Publication of CN106776288B publication Critical patent/CN106776288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明提出了一种基于Hadoop的分布式系统的健康度量方法,属于软件健康监测领域。本方法选取分布式系统由于老化缺陷的存在而引起变化的健康表征元素,并分别监测在期望正常状态和待度量运行状态下健康表征元素的变化数据,建立两种状态下的高斯混合模型,并通过所观测的数据对模型中参数进行估计,最后将得到的两个高斯混合模型代入所建立的软件健康度量模型中,计算出软件健康度,并可根据健康度阈值来监测软件是否需要维护。本发明实现了对Hadoop的分布式系统软件的健康度量,为软件的故障告警和故障预测提供了依据,从而在系统出现异常情况之前提前告警,使维护人员及时采取措施,保证系统的运行稳定。

Description

一种基于Hadoop的分布式系统的健康度量方法
技术领域
本发明属于软件健康监测领域,主要涉及软件健康的度量,适用于Hadoop的分布式系统,具体地说,是指一种收集分布式系统软件的健康表征数据,应用高斯模型计算软件健康度的技术方案。
背景技术
Hadoop的分布式系统是以Hadoop为基础架构进行开发的。Hadoop是由Apache软件基金会设计的分布式系统基础架构,它的主要功能是用来存储和计算海量数据,用户可以在不了解Hadoop分布式底层细节的情况下,以Hadoop为基础开发分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop的分布式系统的典型结构如图1所示,它具有高可靠性、高可拓展性、高容错性和高效性的特点,因此备受大企业的青睐,例如百度用Hadoop分布式系统处理每周200TB的数据,从而进行搜索日志分析和网页数据挖掘工作;中国移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop分布式系统用于存储并处理电子商务交易的相关数据等。
随着网络发展的日新月异,人们面对的数据规模非常庞大,分布式系统的使用场景变化复杂,尽管Hadoop的分布式系统被设计成有着很高的容错机制,但是在使用过程中很少有方法能对它进行故障预警,来提醒客户及时对软件系统进行维护,以免发生故障造成损失。
基于此,本发明的核心思想是引入“软件健康”来表征Hadoop的分布式系统的使用情况是否正常,是“系统健康”在软件研究领域的一个新分支。所谓的软件健康是指在使用过程中,软件完成规定任务的能力程度。
目前系统健康度量技术主要是解决系统中硬件部件的健康度量和预警问题,并没有应用于解决系统中软件的健康问题,比如如何利用软件健康度来对12306火车订票系统的软件崩溃进行提前告警。究其原因主要是因为,目前的研究成果仅仅将软件健康度量与软件质量评估进行笼统地研究,或者单纯地从软件是否失效来判断软件是否健康,不能起到提前为系统故障预警的作用。
综上,目前软件健康领域已有的研究成果,并不是专门应用于在使用过程中为基于Hadoop的分布式系统的使用情况进行预警的,更没有形成一套能够直接应用在基于Hadoop的分布式系统上的健康度量方法。
发明内容
本发明针对Hadoop的分布式系统软件尚不存在具体的软件健康度量方法的问题,提出了一种基于Hadoop的分布式系统的健康度量方法,通过监测分布式系统在使用过程中,由于Aging-related Bugs(老化缺陷)的存在而引起的健康表征元素的变化,收集期望正常状态和待度量运行状态下的数据,建立健康度量模型,计算出软件健康度,为软件的故障告警和故障预测提供依据。
一种基于Hadoop的分布式系统的健康度量方法,针对分布式系统软件,实现步骤如下:
步骤一、选取软件健康表征元素。考虑老化缺陷的影响,选取的健康表征元素容易受到使用时间的影响,并且易于获取数据。
步骤二、数据收集。运行软件,分别在期望正常状态下以及待度量运行状态下,收集健康表征元素的数据。
步骤三、建立健康度量高斯混合模型。
设共选取n个健康表征元素,表示为集合X=(X1,X2,...,Xi,...,Xn),其中第i个健康表征元素为Xi,1≤i≤n;第i个健康表征元素Xi的一组观测值表示为(xi1,xi2,…,xij,…,xim),m为观测值个数,xij表示对健康表征元素Xi的第j次观测值,1≤j≤m;用表示第i个健康表征元素的高斯分布概率密度,xi表示第i个健康表征元素的变量,μi表示第i个健康表征元素的均值,表示第i个健康表征元素的方差。
软件健康表征元素X的高斯混合模型的概率密度G(x1,x2,...,xi,...,xn)表示为:
其中,wi为第i个健康表征元素的权重;
分别利用期望正常状态下和待度量运行状态下的健康表征元素的数据估计高斯混合模型的参数μi和wi,得到对应两种情况下的高斯混合模型的概率密度G1(x1,x2,...,xn)和G2(x1,x2,...,xn)。
步骤四、获取分布式系统软件的健康度h。
根据步骤三获得的期望正常状态下的高斯混合模型的概率密度函数G1(x1,x2,...,xn),待度量运行状态下的高斯混合模型的概率密度函数G2(x1,x2,...,xn),确定软件的健康度h如下:
其中,Ci表示第i个健康表征元素的最大值,i=1,2,…,n。软件健康度h的取值范围是[0,1],当软件健康度h=1时,表示软件运行正常,此时处于健康态;当软件健康度h=0时,表示软件性能状态恶化,此时的软件处于失效态;当软件健康度处于(0,1)之间时,表示软件稳定性、可用性逐渐下降,此时的软件处于亚健康状态。
根据软件可接受的运行状态,设置健康度的阈值,来判断软件是否需要进行维护以防止性能状态的进一步恶化。当高于该阈值时,说明软件运行状态处于可以接受的范围之内,当低于该阈值时,说明软件出现不可接受的衰退,应采取相应的软件健康管理措施,防止进一步恶化,这样便方便了维护人员对软件进行维护。
本发明方法的优点和积极效果在于:首次提出了软件健康的概念和在健康理论指导下的健康度量方法,提供了能直接应用在基于Hadoop的分布式系统上的健康度量方法,通过监测由于老化缺陷的存在而引起的健康表征元素的变化,收集期望正常状态和当前运行状态下的数据,建立健康度量模型,计算出软件健康度,为软件的故障告警和故障预测提供依据,从而在系统出现异常情况之前提前告警,使维护人员及时采取措施,保证系统的运行稳定。
附图说明
图1是典型的基于Hadoop的分布式系统架构图;
图2是Hadoop的体系结构示意图;
图3是HDFS的结构图;
图4是HDFS文件读取流程图;
图5是本发明的基于Hadoop的分布式系统的健康度量方法的步骤流程图;
图6是虚拟机建立的Hadoop系统结构图;
图7是期望正常状态下的标准数据示例图;
图8是待度量运行状态的数据示例图。
具体实施方式
下面结合附图,将本发明的具体方法应用于Hadoop的分布式文件系统(HDFS),此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提出的基于Hadoop的分布式系统的健康度量方法,用于度量Hadoop的分布式系统运行状态是否正常。可通过设置系统故障预警阀值,在系统出现异常情况之前提前告警,使维护人员及时采取措施,保证系统的运行稳定。由于Aging-related Bugs(老化缺陷)的存在而引起的健康表征元素的变化,因此本发明方法在分布式系统的使用过程中,收集期望正常状态和当前运行状态下的数据,建立健康度量模型,计算出软件健康度,为软件的故障告警和故障预测提供依据。
所谓的老化缺陷是指与软件退化有关的缺陷,它产生的原因是软件运行时错误条件的积累或者在系统交互过程中运行环境的改变,而错误的条件并没有马上导致失效,而是会有一个变化甚至延迟发生的过程。对于Hadoop的分布式系统,这些缺陷会引起软件使用资源的耗竭、数据损坏、错误累积,最终导致系统服务瘫痪,可以说老化缺陷是导致系统资源的损耗和性能衰退的根本原因。
如图2所示,Hadoop的基础架构是由许多元素构成的,框架最核心的设计就是:Hadoop Distributed File System(Hadoop的文件分布式系统,HDFS)、MapReduce和Hbase(列式内存数据库)。Hadoop分布式文件系统HDFS的结构如图3所示。从图中可以看到,多个DataNode节点与一个NameNode节点组成了HDFS集群,对外提供数据服务。其中,DataNode提供数据文件的存储功能,是数据存放节点。一个DataNode节点是运行在安装有Linux操作系统的机器的一个进程。当用户需要写入文件的时候,写入的这个文件会分成若干个数据块,分放于多个DataNode节点上。DataNode节点可以运行在任意一台可以工作的、并安装有HDFS软件的机器上。NameNode节点是HDFS系统中的中心节点,主要负责来自HDFS客户端以及DataNode节点请求任务的调度。
由上述分析可知HDFS的主要功能是为海量的数据提供了存储,在实际运行过程中HDFS实现的文件读取流程如图4所示,客户端向NameNode发起文件读取的请求,NameNode返回DataNode存储的文件信息,再由客户端读取文件信息。
本发明提供的基于Hadoop的分布式系统的健康度量方法的实现流程如图5所示,整体包括:选取健康表征元素、收集期望正常状态及待度量状态的数据、建立健康度量高斯混合模型以及计算获取分布式系统的健康度。下面结合HDFS,通过计算它的健康度,来说明本发明方法的使用。
步骤一、选取软件健康表征元素。选取软件健康表征元素的理由可作为元素选取的约束条件,通常都是能够反映软件健康的重要因素。对于Hadoop的分布式系统软件,重点关注影响其存储功能有关的元素以及计算功能的元素。
步骤1.1,确定软件的运行环境。
本实施例是在虚拟机Linux系统中运行Hadoop,建立1台主服务器(namenode),3台子节点(datanode),运行Hadoop软件来模拟分布式系统的运行,针对HDFS的使用情况来度量它的健康度。模拟的分布式系统的架构如图6,具体的主机规划见表1,4台虚拟机的配置见表2。虚拟机的建立可在同一台物理机上建立,也可使用多台物理机。
表1 HDFS主机规划
IP地址 主机名 角色
192.168.1.128 tong1 NameNode,JobTracker
192.168.1.129 tong2 DataNode,TaskTracker
192.168.1.130 tong3 DataNode,TaskTracker
192.168.1.131 tong4 DataNode,TaskTracker
表2 实验配置信息
步骤1.2,选取HDFS软件的健康表征元素。
根据系统的不同特点以及软件的使用功能,确定软件的健康表征元素。由于主要考虑的是老化缺陷的影响,选取的健康表征元素应该容易受到使用时间的影响。对于某些系统能够使用Hadoop的分布式系统,例如Windows系统、Linux系统等,主要考虑的健康表征元素可以在CPU、内存、缓存、磁盘的使用情况中选取。在选取健康表征元素时并不是选取的表征元素越多越好,也不可能把全部表征元素都考虑进去,只能选取一些最能反映软件健康的表征元素,而且这些元素要易于获取数据信息。
对于HDFS软件来说,主要是客户端节点和系统软件之间进行数据存储管理。当HDFS软件功能出现明显的衰退现象时,它通常会出现以下2种表现:
(1)系统内存资源耗尽、导致HDFS响应时间长、存取数据效率低;
(2)CPU长时间处于高使用率、并且部分任务响应时间过长。
内存对HDFS软件的影响是在发生内存泄漏时,HDFS软件可用内存被某个进程逐渐消耗,最终耗竭,从而影响HDFS软件任务的完成。CPU对HDFS软件的影响是在发生CPU“泄漏”时,指多个进程抢占CPU,导致CPU无暇处理其他任务,从而影响软件任务的完成。通过分析内存和CPU的使用情况来选取软件健康表征元素,在具体选取软件健康表征元素的过程中,可参照如表3所示的软件健康表征元素。
表3 HDFS软件健康表征类别及软件健康表征元素
由于老化缺陷的激活而导致HDFS对Java虚拟机(JVM)内存不断的消耗,当JVM中的内存不足以维持HDFS软件运行时,就会触发JVM的垃圾回收机制,垃圾回收机制的作用是为了后续HDFS软件运行提供更多的内存。尽管有JVM垃圾回收机制的存在,但是在回收的阶段所有运行的Java线程都必须停止工作。如果内存持续性的泄漏,频繁地发生这种停止工作的情况,最直接的影响是服务的响应时间不断变长、服务的吞吐量不断的下降。并且老化缺陷引起的软件使用内存泄露而导致的内存耗尽是影响软件健康衰退的主要原因。因此内存泄漏问题变得十分关键,即使每次运行少量泄漏,长期运行之后,系统也会面临崩溃的问题。基于此,选取Java虚拟机(JVM)的内存可用量作为HDFS健康的表征元素。
步骤二、数据收集。针对健康表征元素收集相关的数据,数据收集是后续软件健康度量的基础。对于Hadoop的分布式系统,本发明方法收集来自于主服务器运行状态的数据。
步骤2.1,运行软件,根据选取的健康表征元素收集数据。
打开各系统里的终端,本发明实施例中打开表1所示的各主机,使用root权限,输入运行Hadoop软件的命令,命令中必须包含启动文件的存放路径,否则会报错。或是用终端打开路径,输入./start-all.sh,即可运行软件。
步骤2.2,收集数据可使用分布式系统自带的收集工具。也可以在系统里安装一些辅助工具插件来采集数据,使用的插件对系统的影响很小,可以忽略,不会影响到收集的数据的准确性。为方便起见,也可以执行操作系统提供的资源查看命令行来监测Hadoop的分布式系统的运行情况。不同的操作系统提供了不同的命令行工具,例如在Linux系统里可使用Jconsole命令、Jstat命令等来对JVM内存进行监控。
步骤2.3,在期望正常状态下,收集软件健康表征元素的数据。所述的期望正常状态是由软件开发人员给出的、健康度为1的系统状态,在这个状态下,软件不会出现功能异常,这种状态是绝对正常状态。在此状态下可获得软件健康表征元素的数据。
在本实例应用中,在安装配置完成Hadoop软件,使其能够稳定运行,这一状态可近似看作期望正常状态。
使用sysstat软件工具包(若Linux系统未装有此工具包,可自行安装)的pidstat命令来收集主服务器节点上的JVM内存的使用量的数据,实验数据采集的时间间隔为10s,共采集5500次。在主服务器的终端中运行命令如下:
pidstat-r-p 3624 10 5500
收集的部分示例数据如图7,其中:
minflt/s:表示进程每秒minor faults的总数。
majflt/s:表示进程每秒major faults的总数。
VSZ:表示进程使用的虚拟内存大小(KB)
RSS:表示进程使用的物理内存大小(KB)
%MEM:表示占用内存比率。
3624为主服务器namenode的进程ID号码,软件每次运行ID号码是不同的,可通过jps命令查询。
经过处理后,选取的数据如下表4所示。
表4期望正常状态下收集的标准数据
序号 内存使用百分比(a%) 内存可用量百分比(b%) 内存可用量(1024*b%MB)
1 14.04 85.96 880.2304
2 14.25 85.75 878.08
3 14.25 85.75 878.08
4 14.25 85.75 878.08
5 14.26 85.74 877.9776
6 14.26 85.74 877.9776
7 14.27 85.73 877.8752
8 14.27 85.73 877.8752
9 14.27 85.73 877.8752
10 14.28 85.72 877.7728
11 14.28 85.72 877.7728
12 14.29 85.71 877.6704
13 14.32 85.68 877.3632
14 14.32 85.68 877.3632
15 14.32 85.68 877.3632
16 14.33 85.67 877.2608
17 14.34 85.66 877.1584
18 14.35 85.65 877.056
19 14.35 85.65 877.056
20 14.37 85.63 876.8512
21 14.38 85.62 876.7488
22 14.39 85.61 876.6464
23 14.38 85.62 876.7488
24 14.38 85.62 876.7488
25 14.39 85.61 876.6464
26 14.41 85.59 876.4416
27 14.41 85.59 876.4416
28 14.42 85.58 876.3392
29 14.42 85.58 876.3392
30 14.42 85.58 876.3392
步骤2.4,收集待度量运行状态的健康表征元素的数据。收集待度量的运行状态下的数据是指收集软件在使用过程中指定的任意一段时间内的健康表征元素的数据。以软件指定运行的时间T作为起点,通过命令设置获取数据的规则,定位软件的进程,获取软件进程对系统资源的使用情况,得到软件健康表征元素的数据。
确定时刻T为开始时刻,通过Hadoop自带的nnbench软件工具可以逐步加大对HDFS软件访问,模拟内存泄漏,加速HDFS软件衰退,使HDFS软件执行任务期间出现JVM可用内存逐渐减少的现象。例如输入nnbench命令使用12个mapper和6个reducer来创建1000个文件,代码如下:
$hadoop jar hadoop-2.6.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.3-tests.jar nnbench\-operation create_write-maps 12-reduces 6-blockSize 1\-bytesToWrite 0-numberOfFiles 1000-replicationFactorPerFile 3\-readFileAfterOpen true-baseDir/benchmarks/NNBench-`hostname-s`
使用mrbench命令来重复进行上述任务5000次,代码如下:
$hadoop jar hadoop-2.6.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.3-tests.jar mrbench-numRuns 5000
收集到的示例数据如图8所示,经过处理后,选取的数据如下表5所示。
表5收集指定运行状态下的数据
步骤三、建立健康度量高斯混合模型。
步骤3.1,建立软件健康表征函数的高斯混合模型。
高斯混合模型是概率论与数理统计中非常关键的模型,其本质上是一个多维概率密度函数,只要有足够多的数据,从理论的角度来讲,就可以对数据空间的任何分布使用高斯混合模型来精确拟合。
本发明采用高斯混合模型来度量Hadoop的分布式系统的软件健康。假设选取的软件健康表征元素为X=(X1,X2,...,Xi,...,Xn),即X是n维随机变量,n为步骤1中选取的健康表征元素的个数,1≤i≤n。可以根据实际的软件健康度量需求,收集每个健康表征元素Xi在(0,t)时间段内的取值序列,设(xi1,xi2,…,xij,…,xim)表示对第i个健康表征元素Xi在(0,t)时间内的一组观测值,其中,xij表示对健康表征元素Xi的第j次观测值,1≤j≤m,m表示对选取的健康表征元素Xi在(0,t)时间段内共观测了m次。
表示选取的第i个健康表征元素的高斯分布概率密度,其中μi表示第i个健康表征元素的均值,表示第i个健康表征元素的方差,xi是用于表示第i个软件健康表征元素的变量,其概率密度表达式为:
X由n个健康表征元素组成,其高斯混合模型的概率密度G(x1,x2,...,xi,...,xn),即简写为G(x)表示为:
其中,wi为第i个健康表征元素的权重,表示第i个健康表征元素的高斯分布概率密度。
步骤3.2,估计两种情况下高斯混合模型的参数。
步骤3.2.1,使用最大似然估计计算中的μi
使用极大似然估计(Maximum Likehood Estimation,MLE)是因为MLE是一种具有渐进最优性质的参数估计方法,其满足的准则是让观测值出现的概率最大。
可利用软件健康表征元素Xi的观测值(xi1,xi2,…,xij,…,xim)对第i个软件健康表征元素的高斯概率密度函数进行参数估计,步骤如下:
的对数似然函数如式(3)所示:
通过对似然函数(3)的未知参数μi求偏导数,并令偏导函数等于0,得到如下表达式:
解得μi的参数估计结果如下:
根据参数估计的无偏性对结果(8)进行偏差修正,修正后的结果如下公式(8):
使得将标准数据和收集到的数据代入上述过程(6)和(8),便可估计出两种情况下的μi的值。代入公式(1),即可求得两种情况下的高斯混合模型。
3.2.2,计算高斯混合模型公式中的权值wi
为求解权重系数wi,先求混合模型的似然函数:
为方便计算,且对求解的参数进行验证,定义一个函数βi(xi1,xi2,…,xim),表达式如下:
因其满足引入拉格朗日乘子λ,然后得到新的目标函数,定义如下:
对wi求偏导数,并令其结果为零,如下:
解得结果如下:
将式(13)的左右项分别相加,可得:
可知λ=m,因此可得:
联立n个wi(i=1,2,…,n)组成的方程组,求得w1,w2,…,wn的值。
将根据(6)、(8)得到的μi估计值和获取的w1,w2,…,wn的值代入公式(2),即可求得两种情况下的高斯模型G1(x1,x2,...,xn)、G2(x1,x2,...,xn),分别简写为G1(x)、G2(x),G1(x)表示期望正常运行状态的软件健康表征元素的标准概率密度函数,G2(x)表示待度量运行状态下的健康表征元素的概率密度函数。
对于本发明实施例,执行如下过程:
1.利用matlab软件工具将表4中期望正常状态下收集的数据代入。利用matlab计算得到的期望正常状态下单高斯模型的参数估计为:θ1={μ,σ2}={877.339,0.6402};
得到期望正常状态下的基准单高斯模型为:
2.利用matlab软件工具将表5中收集到的指定运行状态下的数据代入。
得到当前运行状态下的高斯模型的参数估计为:θ2={μ,σ2}={836.134,0.05954};
得到当前运行状态下的高斯模型为:
步骤四,将上述求得两个高斯模型代入软件健康度公式,求得健康度。
软件健康度是对软件健康一种定量化的评价指标,软件偏离预期正常状态的相对数值,它表征软件健康能力的百分比,用符号h表示。预期正常状态就是指的是期望正常状态。
令C=[C1,C2,…,Ci,...,Cn],分别对应n个软件健康表征元素x1,x2,...,xn的最大值,其中,Ci表示第i个健康表征元素的最大值。
软件健康度h的取值范围是[0,1],当软件健康度h=1时,表示软件运行正常,此时处于健康态;当软件健康度h=0时,表示软件性能状态恶化,此时的软件处于失效态;当软件健康度处于(0,1)之间时,表示软件稳定性、可用性逐渐下降,此时的软件处于亚健康状态。
不同运行状态下经过计算得到的健康度有所不同,如果定义某一种状态为“可接受”的状态,那么可以把这种状态所对应的健康度作为一个阈值,比如h=0.8。如果高于这个阈值,就说明运行状态处于可以接受的范围之内,如果低于这个阈值,则说明软件出现不可接受的衰退,应采取相应的软件健康管理措施,防止进一步恶化,这样便方便了维护人员对软件进行维护。
本发明实施例中由于只选取了一个健康表征元素,健康度量公式可简化如下:
其中,C表示系统运行时健康表征元素的最大值。
此时C=1024MB,通过健康度公式计算HDFS的健康度,代码如下:
syms x
y=normpdf(x,877.339,0.8001)
g=normpdf(x,836.134,0.244)
F=int(y*g,0,1024)
G=sqrt(int(y^2,0,1024)*int(g^2,0,1024))
h=F/G
运行后可得当前HDFS健康度h=0.8233。

Claims (5)

1.一种基于Hadoop的分布式系统的健康度量方法,其特征在于,针对基于Hadoop的分布式系统软件,执行以下步骤:
步骤一、选取软件的健康表征元素;考虑老化缺陷的影响,选取的健康表征元素要求容易受到使用时间的影响,并且易于获取数据;
步骤二、运行软件,分别在期望正常状态下以及待度量运行状态下,收集健康表征元素的数据;
步骤三、建立健康度量的高斯混合模型;
设共选取n个健康表征元素,表示为集合X=(X1,X2,...,Xi,...,Xn),其中第i个健康表征元素为Xi,1≤i≤n;第i个健康表征元素Xi的一组观测值表示为(xi1,xi2,…,xij,…,xim),m为观测值个数,xij表示对健康表征元素Xi的第j次观测值,1≤j≤m;用表示第i个健康表征元素的高斯分布概率密度,xi表示第i个健康表征元素的变量,μi表示第i个健康表征元素的均值,表示第i个健康表征元素的方差;
软件健康表征元素X的高斯混合模型的概率密度函数G(x1,x2,...,xi,...,xn)表示为:
其中,wi为第i个健康表征元素的权重;
分别利用期望正常状态下和待度量运行状态下的健康表征元素的数据来估计高斯混合模型的参数μi和wi,得到对应两种情况下的高斯混合模型的概率密度函数;
步骤四、获取软件的健康度h;
根据步骤三获得的期望正常状态下的高斯混合模型的概率密度函数G1(x1,x2,...,xn),待度量运行状态下的高斯混合模型的概率密度函数G2(x1,x2,...,xn),确定软件的健康度h如下:
其中,Ci表示第i个健康表征元素的最大值,i=1,2,…,n;
软件健康度h的取值范围是[0,1],当软件健康度h=1时,表示软件运行正常,处于健康态;当软件健康度h=0时,表示软件性能状态恶化,处于失效态;当软件健康度处于(0,1)之间时,表示软件稳定性、可用性逐渐下降,软件处于亚健康状态;根据软件可接受的运行状态,设置健康度的阈值,来判断软件是否需要进行维护以防止性能状态的进一步恶化。
2.根据权利要求1所述的一种基于Hadoop的分布式系统的健康度量方法,其特征在于,所述的步骤一中,在内存和CPU的使用情况中选取健康表征元素,选取的健康表征元素包括内存使用量和/或内存可用量,以及CPU使用率和/或CPU平均负载。
3.根据权利要求1所述的一种基于Hadoop的分布式系统的健康度量方法,其特征在于,所述的步骤二中,所述的期望正常状态是由软件开发人员给出的、健康度为1的系统状态,在该状态下,软件不会出现功能异常,是绝对正常状态。
4.根据权利要求1所述的一种基于Hadoop的分布式系统的健康度量方法,其特征在于,所述的步骤三中,所述的第i个健康表征元素的高斯分布概率密度的表达式为:
5.根据权利要求1或4所述的一种基于Hadoop的分布式系统的健康度量方法,其特征在于,所述的步骤三中,估计高斯混合模型的参数的过程为:
步骤3.2.1,使用最大似然估计确定中的μi
建立的对数似然函数:
对对数似然函数的未知参数μi分别求偏导数,并令偏导函数等于0,得到:
解得μi的参数估计结果为:
根据参数估计的无偏性对进行偏差修正,修正后的结果为:
分别利用期望正常状态下以及待度量运行状态下健康表征元素的观测值,获取两种情况下μi的估计值;
步骤3.2.2,计算高斯混合模型公式中的权值wi
首先,求取混合模型的似然函数:
定义函数为:
引入拉格朗日乘子λ,得到新的目标函数如下:
然后,对wi求偏导数,并令其结果为零,如下:
解得结果为:
进而得到得到λ=m;
获得权重i=1,2,…,n;
联立n个wi(i=1,2,…,n)组成的方程组,求得w1,w2,…,wn的值。
CN201611064041.2A 2016-11-25 2016-11-25 一种基于Hadoop的分布式系统的健康度量方法 Active CN106776288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611064041.2A CN106776288B (zh) 2016-11-25 2016-11-25 一种基于Hadoop的分布式系统的健康度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611064041.2A CN106776288B (zh) 2016-11-25 2016-11-25 一种基于Hadoop的分布式系统的健康度量方法

Publications (2)

Publication Number Publication Date
CN106776288A CN106776288A (zh) 2017-05-31
CN106776288B true CN106776288B (zh) 2019-11-19

Family

ID=58904385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611064041.2A Active CN106776288B (zh) 2016-11-25 2016-11-25 一种基于Hadoop的分布式系统的健康度量方法

Country Status (1)

Country Link
CN (1) CN106776288B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107345860B (zh) * 2017-07-11 2019-05-31 南京康尼机电股份有限公司 基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法
CN107392401A (zh) * 2017-09-08 2017-11-24 上海理工大学 重型轧辊装载智能机器人的故障预测方法
CN107957934B (zh) * 2017-10-31 2023-10-13 国家计算机网络与信息安全管理中心 一种服务器运行时状态的跨层度量方法及系统
CN108874640B (zh) * 2018-05-07 2022-09-30 北京京东尚科信息技术有限公司 一种集群性能的评估方法和装置
CN110083518B (zh) * 2019-04-29 2021-11-16 东北大学 一种基于AdaBoost-Elman的虚拟机软件老化预测方法
CN110222980A (zh) * 2019-06-05 2019-09-10 上海电气集团股份有限公司 轨道交通轴承的健康评估方法及系统
CN110569203B (zh) * 2019-08-09 2021-11-30 华为技术有限公司 一种输入控制方法、装置及存储设备
CN113177676B (zh) * 2020-08-26 2024-02-06 北京合众伟奇科技股份有限公司 一种基于自然对数函数的运维健康评估系统和评估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605610A (zh) * 2013-12-10 2014-02-26 浪潮电子信息产业股份有限公司 一种基于Hadoop 的软件测试系统与方法
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN103605610A (zh) * 2013-12-10 2014-02-26 浪潮电子信息产业股份有限公司 一种基于Hadoop 的软件测试系统与方法
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于模糊预测的数据复制优化模型的研究;王理想等;《计算机技术与发展》;20131231;第23卷(第12期);第82-91页 *

Also Published As

Publication number Publication date
CN106776288A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776288B (zh) 一种基于Hadoop的分布式系统的健康度量方法
Alipourfard et al. {CherryPick}: Adaptively unearthing the best cloud configurations for big data analytics
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
US20080228459A1 (en) Method and Apparatus for Performing Capacity Planning and Resource Optimization in a Distributed System
US20130318538A1 (en) Estimating a performance characteristic of a job using a performance model
CN105893541B (zh) 一种基于混合存储的流式数据自适应持久化方法及系统
US20170372212A1 (en) Model based root cause analysis
WO2022016808A1 (zh) 一种kubernetes集群资源动态调整方法及电子设备
CN110502431B (zh) 系统服务评测方法、装置及电子设备
CN110109733B (zh) 面向不同老化场景的虚拟机工作队列和冗余队列更新方法
CN112751726B (zh) 一种数据处理方法、装置、电子设备和存储介质
Beis et al. Benchmarking graph databases on the problem of community detection
CN106534291A (zh) 基于大数据处理的电压监测方法
Tribastone et al. Fluid rewards for a stochastic process algebra
CN110633194B (zh) 一种硬件资源在特定环境下的性能评估方法
CN111459761B (zh) 一种Redis配置的方法、装置、存储介质及设备
Liu et al. Predicting of job failure in compute cloud based on online extreme learning machine: a comparative study
Aral et al. Quality of service channelling for latency sensitive edge applications
CN109254865A (zh) 一种基于统计分析的云数据中心服务异常根因定位方法
CN108647137A (zh) 一种作业性能预测方法、装置、介质、设备及系统
CN110209467A (zh) 一种基于机器学习的弹性资源扩展方法和系统
Chen et al. Cost-effective resource provisioning for spark workloads
WO2023207689A1 (zh) 一种变更风险评估方法、设备及存储介质
CN114356577A (zh) 一种系统容量预估方法以及装置
WO2020220437A1 (zh) 一种基于AdaBoost-Elman的虚拟机软件老化预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220121

Address after: 215488 No. 301, building 11, phase II, Taicang University Science Park, No. 27, Zigang Road, science and education new town, Taicang City, Suzhou City, Jiangsu Province

Patentee after: Tianhang Changying (Jiangsu) Technology Co.,Ltd.

Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIHANG University

TR01 Transfer of patent right