CN105897503B - 基于资源信息增益的Hadoop集群瓶颈检测方法 - Google Patents
基于资源信息增益的Hadoop集群瓶颈检测方法 Download PDFInfo
- Publication number
- CN105897503B CN105897503B CN201610192350.1A CN201610192350A CN105897503B CN 105897503 B CN105897503 B CN 105897503B CN 201610192350 A CN201610192350 A CN 201610192350A CN 105897503 B CN105897503 B CN 105897503B
- Authority
- CN
- China
- Prior art keywords
- node
- bottleneck
- resource
- sample
- information gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公布了基于资源信息增益的Hadoop集群瓶颈检测算法。该算法包括三部分:监测集群中每个节点的响应满意度RS,当RS下降到一定阈值时,则判断该节点出现瓶颈;针对出现瓶颈的节点采集样本,并对样本进行离散化处理;根据样本,计算出各资源的在样本中的信息增益,将信息增益较大的作为瓶颈资源。本发明方法可清楚地了解各个组件运行情况,优化资源利用率,提高Hadoop系统的可扩展性。
Description
技术领域
本发明涉及大数据架构优化领域,主要涉及一种基于资源信息增益的Hadoop集群瓶颈检测方法。
背景技术
当今正处于大数据时代,传统的数据处理架构已经难以应对当今海量数据的处理。而 Hadoop的出现很好地解决海量数据分析处理的难题。Hadoop集群基于主从模式,不同类型节点在集群中扮演着不同角色。其通过分布式存储机制将数据集分散的保存在集群的各个节点当中,并通过MapReduce编程模型使得作业能在分布式集群里高度并行地执行。由于 Hadoop具有强的容错性、高可靠性和高可扩展性,其已经成为当今大数据处理的主流框架。
近几年来,学者们针对Hadoop的研究重点主要集中在对Hadoop优化方法上。如董新华,曾婉琳等通过MapReduce参数调整优化了提高Hadoop性能。而张呈在2014提出一种基于小文件的Hadoop优化算法,该方法通过mapFile,Hbase等Hadoop生态系统的相关组件,对小文件处理进行优化;随后,唐霞则在2015年针对底层的调度器方面对Hadoop进行优化。这些学者对Hadoop的研究局限于优化方法上,而忽略了对Hadoop瓶颈检测的研究。而在瓶颈检测方面,国外的Villela等人用机器学习的方法来计算SLO满意度并对系统瓶颈进行检测,随后国内学者朱显杰提出一种基于决策树的瓶颈检测方法。但这些瓶颈检测方法均针对运行 Web服务的平台进行检测。
发明内容
本发明的目的在于解决海量数据分析处理的难题,优化资源利用率,提高Hadoop系统的可扩展性。
为实现上述目的,本发明采用以下技术方案:
本发明公开了基于资源信息增益的Hadoop集群瓶颈检测方法。在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1)检测并记录集群中各节点的资源使用率情况和响应满意度RS,响应满意度RS用于评价各个节点的性能,当响应满意度RS低于阈值60%时,则判断该节点出现瓶颈;
(2)对检测到出现瓶颈的节点,采集各种资源的使用率及响应满意度RS的样本数据,并对样本进行离散化处理;
(3)通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。
其中,步骤(1)中记Tm为期待最小响应时间,Ts为实际响应时间;当Tm大于Ts时,节点的响应满意度RS为100%;当Tm小于等于Ts时,节点的响应满意度RS为Tm/Ts×100%。步骤(2)中通过划分等级的方法对样本进行离散化,其中资源使用率分5类:veryLow(0-20%), low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%),而响应满意度分 3类:low(0-60%),middle(60%-80%)和high(80%-100%)。步骤(3)中所述的信息增益为样本划分前后信息熵的差值,即样本中资源A的信息增益=整个样本集所含的信息熵-按资源A 划分后的样本子集的信息熵。
本发明针对Hadoop分布式处理平台,充分利用资源信息增益的性质,将之切实地运用到对集群的瓶颈检测当中。此方法不仅能检测出瓶颈出现的节点位置,还能在出现瓶颈的节点上检测出造成瓶颈的资源,优化资源利用率,提高Hadoop系统的可扩展性。将瓶颈结果进行分析,可以清楚地了解各个组件运行情况,同时将异常组件的运行状态反映给用户,在改进Hadoop平台性能、提高服务质量方面为用户提供依据和合理的建议。
附图说明
图1为本发明的算法流程架构图。
具体实施方案
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明 进行进一步详细说明。
如图1所示,本发明公开了一种基于资源信息增益的Hadoop集群瓶颈检测方法,在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1).检测并记录集群中各节点的资源使用率情况和响应满意度RS,并通过响应满意度RS 的值来判断节点是否出现瓶颈。其中响应满意度RS用于评价各个节点的性能,其值为:
其中,Tm为期待最小响应时间,Ts为实际响应时间。当响应满意度RS低于一定阈值(设为60%)时,则判断该节点出现瓶颈。
(2).对检测到出现瓶颈的节点,采集(各种资源的使用率;响应满意度RS)样本数据,并对样本进行离散化处理。由于影响集群系统性能的资源有很多,且检测初期并不知道可能成为瓶颈的资源有哪些,故将可能导致系统瓶颈的资源都考虑进去。如CPU,内存,硬盘IO,网络带宽等。通过划分等级的方法对样本集进行离散化。
其中资源使用率分5类:
veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%)。
响应满意度分3类:low(0-60%)、middle(60%-80%)和high(80%-100%)。
例如有样本
s={CPU:45%,Mem:25%,IO:13%,Network:66%;RS:85%}
则其经过离散化后样本变为
s’={CPU:middle,Mem:low,IO:veryLow,Network:high;RS:high}。
(3).通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。首先需要计算样本集的信息熵。这里的信息熵可以理解用于衡量系统复杂性的信息量。由上已经知道的目标属性响应满意度RS有3种可能等级,这里记为RSi(i=1,2,3)。假设在整个数据集S中,RSi出现的概率为Pi,则数据集S所含的信息熵为:
然后计算根据资源划分后样本子集的信息熵。假定资源A有在数据集中存在k个不同的值,那么可以根据资源A将S划分为k个样本子集{S1,S2,...,Sk},则按资源A划分后的样本子集信息熵为
其中,|Si|(i=1,2,...,k)为子集Si的样本数,|S|为总样本数。而信息增益则是样本划分前后信息熵的差值,则按资源A划分总数据集S的信息增益为:
Gain(S,A)=Entropy(S)-EntropyA(S)
信息增益越大,则说明该资源对系统响应满意度RS的影响就越大。故将信息增益最大的资源作为瓶颈资源。
根据以上方法,一实施例中,Hadoop集群中4个节点,1个Master节点,3个Slave节点(Slave1,Slave2,Slave3)。根据步骤(1)通过增加集群负载检测各节点的响应满意度,如下表1所示:
表1集群各节点随负载增加的响应满意度RS(单位:%)
由表1易知集群在Master节点阈值低于60%,即判断在Master节点发生瓶颈。根据步骤(2),通过采集其各个资源使用率,响应满意度样本得到表2。然后根据步骤(3)通过算法计算得到IO的信息增益最大(0.2275)。故磁盘IO是瓶颈资源。
表2Master节点各资源使用率和响应满意度数据样本(单位:%)
IO | CPU | Mem | Network | RS |
17.5 | 94.5 | 31.5 | 20.4 | 98.4 |
31.6 | 93.2 | 38.7 | 20.7 | 97.1 |
45.7 | 94.7 | 44.6 | 21.3 | 97.4 |
62.6 | 95.2 | 49.3 | 20.6 | 98.0 |
70.4 | 94.5 | 55.8 | 19.5 | 98.6 |
79.3 | 95.7 | 59.4 | 20.3 | 98.3 |
87.4 | 95.1 | 63.5 | 20.7 | 97.9 |
95.8 | 94.8 | 68.3 | 21.5 | 98.3 |
96.6 | 78.6 | 71.1 | 19.3 | 59.4 |
96.8 | 87.3 | 73.7 | 20.6 | 45.5 |
97.1 | 89.4 | 76.9 | 20.2 | 30.6 |
97.4 | 90.6 | 79.4 | 19.8 | 15.8 |
97.3 | 90.2 | 82.6 | 20.4 | 8.7 |
97.5 | 89.6 | 86.1 | 21.1 | 7.9 |
97.6 | 90.7 | 88.9 | 20.4 | 7.4 |
综上,本发明方法通过实时监控Hadoop集群中各个节点的响应满意度RS,来判断集群瓶颈的出现。然后针对出现瓶颈的节点来进行资源使用率和响应满意度RS相对应的样本集合。在进行算法前通过利用划分等级的方法对样本集进行离散化处理。离散化处理完后,首先计算整个样本集所含的信息熵Entropy(S),然后根据资源对样本集进行划分子样本值,计算按资源划分后的样本子集信息熵Entropy资源(S)。由此计算出各个资源的信息增益Gain(S,资源)= Entropy(S)-Entropy资源(S)。通过比较,选择信息增益最大的作为瓶颈资源。将瓶颈结果进行分析,可以清楚地了解各个组件运行情况,同时将异常组件的运行状态反映给用户,便于进一步打破瓶颈以提高Hadoop平台性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于资源信息增益的Hadoop集群瓶颈检测方法,其特征在于,在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1)检测并记录集群中各节点的资源使用率情况和响应满意度RS,响应满意度RS用于评价各个节点的性能,当响应满意度RS低于阈值60%时,则判断该节点出现瓶颈;记Tm为期待最小响应时间,Ts为实际响应时间;当Tm大于Ts时,节点的响应满意度RS为100%;当Tm小于等于Ts时,节点的响应满意度RS为Tm/Ts×100%;
(2)对检测到出现瓶颈的节点,采集各种资源的使用率及响应满意度RS的样本数据,并对样本进行离散化处理;
(3)通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源;所述的信息增益为样本划分前后信息熵的差值,即样本中资源A的信息增益=整个样本集所含的信息熵-按资源A划分后的样本子集的信息熵。
2.根据权利要求1所述的基于资源信息增益的Hadoop集群瓶颈检测方法,其特征在于:步骤(2)中通过划分等级的方法对样本进行离散化,其中资源使用率分5类:veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%),而响应满意度分3类:low(0-60%),middle(60%-80%)和high(80%-100%)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192350.1A CN105897503B (zh) | 2016-03-30 | 2016-03-30 | 基于资源信息增益的Hadoop集群瓶颈检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192350.1A CN105897503B (zh) | 2016-03-30 | 2016-03-30 | 基于资源信息增益的Hadoop集群瓶颈检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105897503A CN105897503A (zh) | 2016-08-24 |
CN105897503B true CN105897503B (zh) | 2019-02-19 |
Family
ID=57014709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610192350.1A Active CN105897503B (zh) | 2016-03-30 | 2016-03-30 | 基于资源信息增益的Hadoop集群瓶颈检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105897503B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107911762A (zh) * | 2017-11-15 | 2018-04-13 | 国网安徽省电力公司宿州供电公司 | 一种基于决策树的onu故障诊断方法 |
CN113495840A (zh) * | 2021-06-22 | 2021-10-12 | 北京交通大学 | 基于瓶颈资源定位及参数调优的大数据平台测试方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929667A (zh) * | 2012-10-24 | 2013-02-13 | 曙光信息产业(北京)有限公司 | 一种hadoop集群性能的优化方法 |
CN105224445A (zh) * | 2015-10-28 | 2016-01-06 | 北京汇商融通信息技术有限公司 | 分布式跟踪系统 |
CN105245617A (zh) * | 2015-10-27 | 2016-01-13 | 江苏电力信息技术有限公司 | 一种基于容器的服务器资源供给方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150088442A (ko) * | 2014-01-24 | 2015-08-03 | 한국전자통신연구원 | 정보 중심 네트워크 기반 분산파일 관리 방법 및 장치 |
-
2016
- 2016-03-30 CN CN201610192350.1A patent/CN105897503B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929667A (zh) * | 2012-10-24 | 2013-02-13 | 曙光信息产业(北京)有限公司 | 一种hadoop集群性能的优化方法 |
CN105245617A (zh) * | 2015-10-27 | 2016-01-13 | 江苏电力信息技术有限公司 | 一种基于容器的服务器资源供给方法 |
CN105224445A (zh) * | 2015-10-28 | 2016-01-06 | 北京汇商融通信息技术有限公司 | 分布式跟踪系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105897503A (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102522005B1 (ko) | 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법 | |
CN105325023B (zh) | 用于小区异常检测的方法和网络设备 | |
WO2018059402A1 (zh) | 确定故障类型的方法和装置 | |
US7778715B2 (en) | Methods and systems for a prediction model | |
US20190163552A1 (en) | System and method for contextual event sequence analysis | |
US20160124792A1 (en) | Fault analysis apparatus, fault analysis method, and recording medium | |
CN112114986B (zh) | 数据异常识别方法、装置、服务器和存储介质 | |
CN106407052B (zh) | 一种检测磁盘的方法及装置 | |
CN107391369A (zh) | 一种基于数据筛选和数据过采样的跨项目缺陷预测方法 | |
US20190036795A1 (en) | Method and system for proactive anomaly detection in devices and networks | |
CN111930526B (zh) | 负载预测方法、装置、计算机设备和存储介质 | |
EP4042654A1 (en) | Dynamic configuration of anomaly detection | |
TWI684139B (zh) | 基於自動學習的基地台異常之預測的系統與方法 | |
WO2021217637A1 (zh) | 终端策略配置方法、装置、计算机设备和存储介质 | |
CN113572625A (zh) | 故障预警方法、预警装置、设备及计算机介质 | |
CN109117350A (zh) | 自动监控计算机软硬件的告警方法、装置及服务器 | |
US20180174072A1 (en) | Method and system for predicting future states of a datacenter | |
CN113313280B (zh) | 云平台的巡检方法、电子设备及非易失性存储介质 | |
KR20190001501A (ko) | 통신망의 인공지능 운용 시스템 및 이의 동작 방법 | |
CN113409555B (zh) | 一种基于物联网的实时报警联动方法及系统 | |
CN108875365A (zh) | 一种入侵检测方法及入侵检测检测装置 | |
CN105897503B (zh) | 基于资源信息增益的Hadoop集群瓶颈检测方法 | |
CN113486983A (zh) | 一种用于反欺诈处理的大数据办公信息分析方法及系统 | |
CN113254250B (zh) | 数据库服务器异常成因检测方法、装置、设备和存储介质 | |
CN114598719A (zh) | 智慧城市物联事件管理方法、装置及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |