CN105897503B - 基于资源信息增益的Hadoop集群瓶颈检测方法 - Google Patents

基于资源信息增益的Hadoop集群瓶颈检测方法 Download PDF

Info

Publication number
CN105897503B
CN105897503B CN201610192350.1A CN201610192350A CN105897503B CN 105897503 B CN105897503 B CN 105897503B CN 201610192350 A CN201610192350 A CN 201610192350A CN 105897503 B CN105897503 B CN 105897503B
Authority
CN
China
Prior art keywords
node
bottleneck
resource
sample
information gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610192350.1A
Other languages
English (en)
Other versions
CN105897503A (zh
Inventor
郝志峰
谭造乐
蔡瑞初
温雯
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610192350.1A priority Critical patent/CN105897503B/zh
Publication of CN105897503A publication Critical patent/CN105897503A/zh
Application granted granted Critical
Publication of CN105897503B publication Critical patent/CN105897503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公布了基于资源信息增益的Hadoop集群瓶颈检测算法。该算法包括三部分:监测集群中每个节点的响应满意度RS,当RS下降到一定阈值时,则判断该节点出现瓶颈;针对出现瓶颈的节点采集样本,并对样本进行离散化处理;根据样本,计算出各资源的在样本中的信息增益,将信息增益较大的作为瓶颈资源。本发明方法可清楚地了解各个组件运行情况,优化资源利用率,提高Hadoop系统的可扩展性。

Description

基于资源信息增益的Hadoop集群瓶颈检测方法
技术领域
本发明涉及大数据架构优化领域,主要涉及一种基于资源信息增益的Hadoop集群瓶颈检测方法。
背景技术
当今正处于大数据时代,传统的数据处理架构已经难以应对当今海量数据的处理。而 Hadoop的出现很好地解决海量数据分析处理的难题。Hadoop集群基于主从模式,不同类型节点在集群中扮演着不同角色。其通过分布式存储机制将数据集分散的保存在集群的各个节点当中,并通过MapReduce编程模型使得作业能在分布式集群里高度并行地执行。由于 Hadoop具有强的容错性、高可靠性和高可扩展性,其已经成为当今大数据处理的主流框架。
近几年来,学者们针对Hadoop的研究重点主要集中在对Hadoop优化方法上。如董新华,曾婉琳等通过MapReduce参数调整优化了提高Hadoop性能。而张呈在2014提出一种基于小文件的Hadoop优化算法,该方法通过mapFile,Hbase等Hadoop生态系统的相关组件,对小文件处理进行优化;随后,唐霞则在2015年针对底层的调度器方面对Hadoop进行优化。这些学者对Hadoop的研究局限于优化方法上,而忽略了对Hadoop瓶颈检测的研究。而在瓶颈检测方面,国外的Villela等人用机器学习的方法来计算SLO满意度并对系统瓶颈进行检测,随后国内学者朱显杰提出一种基于决策树的瓶颈检测方法。但这些瓶颈检测方法均针对运行 Web服务的平台进行检测。
发明内容
本发明的目的在于解决海量数据分析处理的难题,优化资源利用率,提高Hadoop系统的可扩展性。
为实现上述目的,本发明采用以下技术方案:
本发明公开了基于资源信息增益的Hadoop集群瓶颈检测方法。在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1)检测并记录集群中各节点的资源使用率情况和响应满意度RS,响应满意度RS用于评价各个节点的性能,当响应满意度RS低于阈值60%时,则判断该节点出现瓶颈;
(2)对检测到出现瓶颈的节点,采集各种资源的使用率及响应满意度RS的样本数据,并对样本进行离散化处理;
(3)通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。
其中,步骤(1)中记Tm为期待最小响应时间,Ts为实际响应时间;当Tm大于Ts时,节点的响应满意度RS为100%;当Tm小于等于Ts时,节点的响应满意度RS为Tm/Ts×100%。步骤(2)中通过划分等级的方法对样本进行离散化,其中资源使用率分5类:veryLow(0-20%), low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%),而响应满意度分 3类:low(0-60%),middle(60%-80%)和high(80%-100%)。步骤(3)中所述的信息增益为样本划分前后信息熵的差值,即样本中资源A的信息增益=整个样本集所含的信息熵-按资源A 划分后的样本子集的信息熵。
本发明针对Hadoop分布式处理平台,充分利用资源信息增益的性质,将之切实地运用到对集群的瓶颈检测当中。此方法不仅能检测出瓶颈出现的节点位置,还能在出现瓶颈的节点上检测出造成瓶颈的资源,优化资源利用率,提高Hadoop系统的可扩展性。将瓶颈结果进行分析,可以清楚地了解各个组件运行情况,同时将异常组件的运行状态反映给用户,在改进Hadoop平台性能、提高服务质量方面为用户提供依据和合理的建议。
附图说明
图1为本发明的算法流程架构图。
具体实施方案
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明 进行进一步详细说明。
如图1所示,本发明公开了一种基于资源信息增益的Hadoop集群瓶颈检测方法,在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1).检测并记录集群中各节点的资源使用率情况和响应满意度RS,并通过响应满意度RS 的值来判断节点是否出现瓶颈。其中响应满意度RS用于评价各个节点的性能,其值为:
其中,Tm为期待最小响应时间,Ts为实际响应时间。当响应满意度RS低于一定阈值(设为60%)时,则判断该节点出现瓶颈。
(2).对检测到出现瓶颈的节点,采集(各种资源的使用率;响应满意度RS)样本数据,并对样本进行离散化处理。由于影响集群系统性能的资源有很多,且检测初期并不知道可能成为瓶颈的资源有哪些,故将可能导致系统瓶颈的资源都考虑进去。如CPU,内存,硬盘IO,网络带宽等。通过划分等级的方法对样本集进行离散化。
其中资源使用率分5类:
veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%)。
响应满意度分3类:low(0-60%)、middle(60%-80%)和high(80%-100%)。
例如有样本
s={CPU:45%,Mem:25%,IO:13%,Network:66%;RS:85%}
则其经过离散化后样本变为
s’={CPU:middle,Mem:low,IO:veryLow,Network:high;RS:high}。
(3).通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。首先需要计算样本集的信息熵。这里的信息熵可以理解用于衡量系统复杂性的信息量。由上已经知道的目标属性响应满意度RS有3种可能等级,这里记为RSi(i=1,2,3)。假设在整个数据集S中,RSi出现的概率为Pi,则数据集S所含的信息熵为:
然后计算根据资源划分后样本子集的信息熵。假定资源A有在数据集中存在k个不同的值,那么可以根据资源A将S划分为k个样本子集{S1,S2,...,Sk},则按资源A划分后的样本子集信息熵为
其中,|Si|(i=1,2,...,k)为子集Si的样本数,|S|为总样本数。而信息增益则是样本划分前后信息熵的差值,则按资源A划分总数据集S的信息增益为:
Gain(S,A)=Entropy(S)-EntropyA(S)
信息增益越大,则说明该资源对系统响应满意度RS的影响就越大。故将信息增益最大的资源作为瓶颈资源。
根据以上方法,一实施例中,Hadoop集群中4个节点,1个Master节点,3个Slave节点(Slave1,Slave2,Slave3)。根据步骤(1)通过增加集群负载检测各节点的响应满意度,如下表1所示:
表1集群各节点随负载增加的响应满意度RS(单位:%)
由表1易知集群在Master节点阈值低于60%,即判断在Master节点发生瓶颈。根据步骤(2),通过采集其各个资源使用率,响应满意度样本得到表2。然后根据步骤(3)通过算法计算得到IO的信息增益最大(0.2275)。故磁盘IO是瓶颈资源。
表2Master节点各资源使用率和响应满意度数据样本(单位:%)
IO CPU Mem Network RS
17.5 94.5 31.5 20.4 98.4
31.6 93.2 38.7 20.7 97.1
45.7 94.7 44.6 21.3 97.4
62.6 95.2 49.3 20.6 98.0
70.4 94.5 55.8 19.5 98.6
79.3 95.7 59.4 20.3 98.3
87.4 95.1 63.5 20.7 97.9
95.8 94.8 68.3 21.5 98.3
96.6 78.6 71.1 19.3 59.4
96.8 87.3 73.7 20.6 45.5
97.1 89.4 76.9 20.2 30.6
97.4 90.6 79.4 19.8 15.8
97.3 90.2 82.6 20.4 8.7
97.5 89.6 86.1 21.1 7.9
97.6 90.7 88.9 20.4 7.4
综上,本发明方法通过实时监控Hadoop集群中各个节点的响应满意度RS,来判断集群瓶颈的出现。然后针对出现瓶颈的节点来进行资源使用率和响应满意度RS相对应的样本集合。在进行算法前通过利用划分等级的方法对样本集进行离散化处理。离散化处理完后,首先计算整个样本集所含的信息熵Entropy(S),然后根据资源对样本集进行划分子样本值,计算按资源划分后的样本子集信息熵Entropy资源(S)。由此计算出各个资源的信息增益Gain(S,资源)= Entropy(S)-Entropy资源(S)。通过比较,选择信息增益最大的作为瓶颈资源。将瓶颈结果进行分析,可以清楚地了解各个组件运行情况,同时将异常组件的运行状态反映给用户,便于进一步打破瓶颈以提高Hadoop平台性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种基于资源信息增益的Hadoop集群瓶颈检测方法,其特征在于,在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1)检测并记录集群中各节点的资源使用率情况和响应满意度RS,响应满意度RS用于评价各个节点的性能,当响应满意度RS低于阈值60%时,则判断该节点出现瓶颈;记Tm为期待最小响应时间,Ts为实际响应时间;当Tm大于Ts时,节点的响应满意度RS为100%;当Tm小于等于Ts时,节点的响应满意度RS为Tm/Ts×100%;
(2)对检测到出现瓶颈的节点,采集各种资源的使用率及响应满意度RS的样本数据,并对样本进行离散化处理;
(3)通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源;所述的信息增益为样本划分前后信息熵的差值,即样本中资源A的信息增益=整个样本集所含的信息熵-按资源A划分后的样本子集的信息熵。
2.根据权利要求1所述的基于资源信息增益的Hadoop集群瓶颈检测方法,其特征在于:步骤(2)中通过划分等级的方法对样本进行离散化,其中资源使用率分5类:veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%),而响应满意度分3类:low(0-60%),middle(60%-80%)和high(80%-100%)。
CN201610192350.1A 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法 Active CN105897503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610192350.1A CN105897503B (zh) 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610192350.1A CN105897503B (zh) 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法

Publications (2)

Publication Number Publication Date
CN105897503A CN105897503A (zh) 2016-08-24
CN105897503B true CN105897503B (zh) 2019-02-19

Family

ID=57014709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610192350.1A Active CN105897503B (zh) 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法

Country Status (1)

Country Link
CN (1) CN105897503B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911762A (zh) * 2017-11-15 2018-04-13 国网安徽省电力公司宿州供电公司 一种基于决策树的onu故障诊断方法
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150088442A (ko) * 2014-01-24 2015-08-03 한국전자통신연구원 정보 중심 네트워크 기반 분산파일 관리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Also Published As

Publication number Publication date
CN105897503A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
CN105325023B (zh) 用于小区异常检测的方法和网络设备
WO2018059402A1 (zh) 确定故障类型的方法和装置
US7778715B2 (en) Methods and systems for a prediction model
US20190163552A1 (en) System and method for contextual event sequence analysis
US20160124792A1 (en) Fault analysis apparatus, fault analysis method, and recording medium
CN112114986B (zh) 数据异常识别方法、装置、服务器和存储介质
CN106407052B (zh) 一种检测磁盘的方法及装置
CN107391369A (zh) 一种基于数据筛选和数据过采样的跨项目缺陷预测方法
US20190036795A1 (en) Method and system for proactive anomaly detection in devices and networks
CN111930526B (zh) 负载预测方法、装置、计算机设备和存储介质
EP4042654A1 (en) Dynamic configuration of anomaly detection
TWI684139B (zh) 基於自動學習的基地台異常之預測的系統與方法
WO2021217637A1 (zh) 终端策略配置方法、装置、计算机设备和存储介质
CN113572625A (zh) 故障预警方法、预警装置、设备及计算机介质
CN109117350A (zh) 自动监控计算机软硬件的告警方法、装置及服务器
US20180174072A1 (en) Method and system for predicting future states of a datacenter
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
KR20190001501A (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
CN113409555B (zh) 一种基于物联网的实时报警联动方法及系统
CN108875365A (zh) 一种入侵检测方法及入侵检测检测装置
CN105897503B (zh) 基于资源信息增益的Hadoop集群瓶颈检测方法
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及系统
CN113254250B (zh) 数据库服务器异常成因检测方法、装置、设备和存储介质
CN114598719A (zh) 智慧城市物联事件管理方法、装置及可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant