CN108733532B - 大数据平台的健康度管控方法、装置、介质及电子设备 - Google Patents
大数据平台的健康度管控方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN108733532B CN108733532B CN201710253040.0A CN201710253040A CN108733532B CN 108733532 B CN108733532 B CN 108733532B CN 201710253040 A CN201710253040 A CN 201710253040A CN 108733532 B CN108733532 B CN 108733532B
- Authority
- CN
- China
- Prior art keywords
- health degree
- index
- big data
- data platform
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种大数据平台的健康度管控方法、装置、介质及计算设备,其中,所述健康度管控方法包括:获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标;根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度;根据所述每类指标的健康度,计算所述大数据平台的总体健康度。通过本发明的技术方案,可以掌握每类指标的健康度,以及大数据平台的总体健康度,从而为大数据平台的运行和管控提供直观的数据化决策支持。
Description
技术领域
本发明涉及数据管理技术领域,具体而言,涉及一种大数据平台的健康度管控方法、装置、可读介质及电子设备。
背景技术
目前很多中大型企业基于Hadoop(一种分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储)技术生态系统建设了大数据平台与云平台,以便于掌握此类平台的底层软硬件、平台资源队列、平台计算与存储等方面是否合理高效运行。
现有的Hadoop技术生态系统中普遍采用各类Hadoop服务器运维管理系统等静态数据形式,采用人工方式记录每台Hadoop服务器或客户端机器的运行情况,其预警和管控也均是针对单个服务器或客户端级别来实现,例如采用人工在集群后台各服务器或客户端修改相关配置文件形式。并且只能通过查看集群队列内存资源使用、存储资源使用等单一指标形式查看集群运行情况,采用针对个别特定指标的阈值预警,集群整体健康情况不够准确。
由于没有集群健康度指标体系规划,因此没有相配套的健康度综合管控机制。因此,需要一种新的大数据平台与集群健康度的管控方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种大数据平台的健康度管控方法、装置、可读介质及计算设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的第一方面,提供了一种大数据平台的健康度管控方法,包括:获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标;根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度;根据所述每类指标的健康度,计算所述大数据平台的总体健康度。
在本发明的一些实施例中,基于前述方案,计算所述每类指标的健康度的步骤,包括:确定所述每类指标的各个指标值的权重;根据所述各个指标值的权重,对所述各个指标值进行加权求和计算,得到所述每类指标的健康度。
在本发明的一些实施例中,基于前述方案,计算所述大数据平台的总体健康度的步骤,包括:确定所述每类指标的权重;根据所述指标的权重,对所述至少一类指标进行加权求和计算,得到所述大数据平台的总体健康度。
在本发明的一些实施例中,基于前述方案,还包括:基于可视化界面展示所述每类指标的各个指标值。
在本发明的一些实施例中,基于前述方案,基于可视化界面展示所述每类指标的各个指标值的步骤,包括:配置报表模板;基于所述报表模板展示所述每类指标的各个指标值。
在本发明的一些实施例中,基于前述方案,还包括:基于所述总体健康度和预设的健康度阈值,对所述大数据平台进行预警。
在本发明的一些实施例中,基于前述方案,还包括:每经过预定时长,均再次计算所述大数据平台的总体健康度。
在本发明的一些实施例中,基于前述方案,还包括:保存每次计算得到的所述大数据平台的总体健康度;基于保存的每次计算得到的所述大数据平台的总体健康度,对所述大数据平台的总体健康度进行统计分析。
在本发明的一些实施例中,基于前述方案,所述至少一类指标包括:所述大数据平台的存储使用情况、所述大数据平台的计算资源使用情况、所述大数据平台的JOB执行情况。
根据本发明的第二方面,提供了一种大数据平台的健康度管控装置,包括:获取单元,用于获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标;第一计算单元,用于根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度;第二计算单元,用于根据所述每类指标的健康度,计算所述大数据平台的总体健康度。
根据本发明的第三方面,提供了一种可读介质,其上存储有程序,该程序被处理器执行时实现如上述第一方面所述的大数据平台的健康度管控方法。
根据本发明的第四方面,提供了一种电子设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如上述第一方面所述的大数据平台的健康度管控方法。
在本发明的一些实施例所提供的技术方案中,通过根据大数据平台的健康度指标体系中的至少一类指标中每类指标的各个指标值,计算每类指标的健康度,并根据每类指标的健康度,计算大数据平台的总体健康度,使得能够掌握每类指标的健康度,以及大数据平台的总体健康度,从而为大数据平台的运行和管控提供直观的数据化决策支持。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明的一个实施例的大数据平台的健康度管控方法的流程图;
图2示意性示出根据本发明一实施例中Hadoop集群与大数据平台产品架构的示意图;
图3示意性示出根据本发明一实施例中集群健康度的UML类图;
图4示意性示出了根据本发明的一个实施例的大数据平台的健康度管控装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性示出了根据本发明的一个实施例的大数据平台的健康度管控方法的流程图。
参照图1,根据本发明的一个实施例的大数据平台的健康度管控方法,包括:
步骤S102,获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标。
根据本发明的示例性实施例,所述至少一类指标包括:所述大数据平台的存储使用情况、所述大数据平台的计算资源使用情况、所述大数据平台的JOB执行情况。
步骤S104,根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度。
根据本发明的示例性实施例,步骤S104中计算所述每类指标的健康度的步骤,包括:确定所述每类指标的各个指标值的权重;根据所述各个指标值的权重,对所述各个指标值进行加权求和计算,得到所述每类指标的健康度。
步骤S106,根据所述每类指标的健康度,计算所述大数据平台的总体健康度。
根据本发明的示例性实施例,步骤S106中计算所述大数据平台的总体健康度的步骤,包括:确定所述每类指标的权重;根据所述指标的权重,对所述至少一类指标进行加权求和计算,得到所述大数据平台的总体健康度。
在本发明的一些实施例中,基于前述方案,还包括:基于可视化界面展示所述每类指标的各个指标值。
根据本发明的示例性实施例,基于可视化界面展示所述每类指标的各个指标值的步骤,包括:配置报表模板;基于所述报表模板展示所述每类指标的各个指标值。
此外,在本发明的其它实施例中,也可以通过仪表盘、折线图、柱状图等图形化的可视界面来展示每类指标的各个指标值,以便于用户直观地进行查看。
在本发明的一些实施例中,基于前述方案,还包括:基于所述总体健康度和预设的健康度阈值,对所述大数据平台进行预警。比如,在大数据平台的总体健康度大于预设的健康度阈值时,进行报警提示。
在本发明的一些实施例中,基于前述方案,还包括:每经过预定时长,均再次计算所述大数据平台的总体健康度。比如,可以每天或每小时对大数据平台的总体健康度进行一次计算。
在本发明的一些实施例中,基于前述方案,还包括:保存每次计算得到的所述大数据平台的总体健康度;基于保存的每次计算得到的所述大数据平台的总体健康度,对所述大数据平台的总体健康度进行统计分析。比如可以进行同比、环比分析等。
以下以Hadoop大数据平台为例,对本发明实施例的技术方案进行详细说明:
如图2所示为本发明实施例的Hadoop集群与大数据平台产品架构的示意图,具体包括数据存储层、数据处理层、数据访问层和大数据平台层。底层为HDFS(HadoopDistributed File System,Hadoop分布式文件系统)数据存储层;中间为Yarn(YetAnother Resource Negotiator,另一种资源协调者)资源管理、MapReduce(一种编程模型)与Spark(一种开源计算环境)等数据处理层;之后是UDF(Universal Disc Format,统一光盘格式)、Hive(基于Hadoop的一个数据仓库工具)、Shark(一种加密法前身的区块加密)等数据访问层;顶层为大数据平台产品,如任务调度平台、数据开发平台、BI(BusinessIntelligence,商务智能)分析平台等。其中Hadoop的框架最核心的设计是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。
另外,根据Hadoop集群与大数据平台产品架构组成,针对平台范围和平台特征,结合hadoop集群的队列和资源情况,本实施例还设计和规划出hadoop集群和平台的健康度指标体系架构。本发明实施例中的大数据集群健康度指标体系包括基础数据和健康度指标体系。
基础数据包括存储资源主题、计算资源主题和JOB主题的数据,存储资源主题的数据包括存储指标和维度两方面,存储指标包括HDFS存储空间配额、已用存储大小、文件数、文件平均大小、小文件数、冷数据大小、热数据大小、block的数量和block的大小,维度包括按日、周、月统计增量的时间维度、集市和文件类型。计算资源主题的数据包括计算资源指标和计算资源维度,计算资源指标包括分配内存、占用内存、分配核数、占用核数和JOB数量,计算资源维度包括按日、周、月统计增量的时间维度、任务状态(其粒度有问题的删除)集市和队列。JOB主题的数据包括JOB指标和JOB维度,JOB指标包括JOB运行时长、Map数、Reduce数、Map阶段耗时、Reduce阶段耗时、Map阶段消耗CPU时间、Reduce阶段消耗CPU时间、Map阶段消耗内存、Reduce阶段消耗内存、Map阶段所读入HDFS文件系统字节数、Reduce阶段消耗所读入HDFS文件系统字节数、MR阶段读入HDFS总字节、Map阶段所写入HDFS文件系统字节数、Reduce阶段所写入HDFS文件系统字节数、MR阶段写入HDFS总字节、Map读HDFS的次数、Reduce读HDFS的次数、MR读取HDFS次数、Map写入HDFS的次数、Reduce写入HDFS的次数和MR写入HDFS次数,JOB维度包括集市、队列、提交人ERP、客户端ID和JOB完成状态。
健康度指标体系包括集市HDFS存储健康度、集市计算健康度和集市JOB健康度,这三个健康度指标均是复合指标。其中集市HDFS存储健康度包括统计指标和纬度两方面,指标包括空间使用率、小文件比率和冷热数据比率。纬度包括按日统计的时间维度和集市(其中一成员为所有集市)。集市计算健康度包括指标和纬度两方面,指标包括内存饱和时长比率、CPU饱和时长比率、内存空闲时长比率、CPU空闲时长比率和JOB pening比率,纬度包括按日统计的时间维度和集市(其中一成员为所有集市)。集市JOB健康度包括指标和纬度两方面,指标包括JOB运行时长分布、JOB运行资源分布、JOB运行IO读写量分布和JOB运行IO读写次数分布,具体的,基于JOB运行时长进行JOB运行时长分布的统计,基于JOB内存资源使用数量进行JOB运行资源分布的统计,基于MR阶段读入HDFS总字节和MR阶段写入HDFS总字节进行JOB运行IO读写量分布的统计,基于MR读取HDFS次数和MR写入HDFS次数进行JOB运行IO读写次数分布。纬度包括按日统计的时间维度、集市(其中一成员为所有集市)和渠道(包括IDE、调度、CU和其他)。
根据本发明上述实施例的大数据集群与平台健康度体系,可以实现整个集群的健康度指标体系,也可以根据上述指标层级构成、各平台的健康度,通过如下算法实现整个集群和平台的健康度。
假设由n类大数据平台与集群的健康度分类构成,每类的健康度指标权重为Wn,每类健康度中有i个指标X,则通过加权Wi求和计算出该单一类的大数据平台与集群健康度=Σ(Xi*Wi),进一步计算得到大数据平台与集群总体健康度=Σ(Σ(Xi*Wi)*Wn),其中i大于或等于1。
其中大数据平台和集群的健康度每类权重(简称类权重),按照该类别的影响程度、影响范围、是否可控、出现频率等因素综合分配;每类健康度构成的指标的权重(简称指标权重)与上述类似,也是由指标的影响程度、影响范围等因素综合分配。类权重和指标权重这两类权重,可以在WEB可视化功能中进行权重灵活配置。
图3示出本发明实施例中集群健康度的UML(Unified Modeling Language)类图,其中UML又称统一建模语言或标准建模语言,是始于1997年一个OMG标准,它是一个支持模型化和软件系统开发的图形化语言,为软件开发的所有阶段提供模型化和可视化支持,包括由需求分析到规格,到构造和配置。
如图3所示,本发明实施例中集群健康度的UML包括:基础数据(包括维度基础数据和指标基础数据)、健康度分类、大数据平台健康度和大数据平台健康预警。
其中,纬度基础数据(Class_Basic_data_Dim)可以实现对纬度基础数据信息的读写操作,包含纬度id、纬度名称、纬度描述等信息。指标基础数据(Class_Basic_data_Index)可以实现对指标基础数据信息的读写操作,包含指标id、名称、指标值、指标权重等属性信息。健康度分类(Class_Hadoop_healthtype)可以实现对每类健康度的加权计算方法。BDP(Big data platform大数据平台英文简称)健康度(Class_Hadoop_BDP),可以实现每天或每小时计算一次Hadoop平台和集群的健康度综合加权计算,并保留历史变化轨迹,提供同比、环比等功能。BDP健康预警(Class_HADOOP_BDP_WARNING)可以在大数据平台与集群健康度计算结果基础上,根据预警阈值范围和预警信息模板来触发短信、邮件等预警信息。
可见,基于得到的大数据平台与集群总体健康度,还可以对大数据平台进行管理、监控和预警,这一部分功能可以基于Java功能模块来完成。
需要说明的是,在本发明的实施例中,管理功能包括资源管理、数据管理和预警管理。资源管理可以实现集群资源队列的拆分管理、队列资源参数调整管理、队列用户权限管理。该功能通过Java程序与Yarn资源管理结合实现。数据管理可以实现用户在集群上HDFS文件目录的注册和保护,采用Java与HDFS系统权限管理机制结合实现;通过接受用户配置的hive表和HDFS目录的有效期信息,实现对hive表、HDFS目录的有效期控制(要求hive表和HDFS目录采用标准的目录规范)。预警管理可以实现对实时预警和离线预警的相关参数设置,如:预警阈值、预警形式、预警频率、预警人群等。在实现过程中采用java开发预警管理web界面和功能。
监控功能主要是进行监控与分析,通过Java报表插件(如:JasperReports、iReport)开发监控和分析报表,对大数据集群的存储、计算、JOB情况进行监控和分析。其中JasperReport是一个强大、灵活的报表生成工具,是开放源代码组织sf.net中的一个Java报表打印工程。能够展示丰富的页面内容,并将之转换成PDF,HTML,XML,Excel(通过POI或JExcelAPI实现)和Rtf(通过POI实现)格式。iReport为开源组织sf.net中的一款免费软件,是为JasperReport设计的强大的、直观的、易于使用的可视化报表设计器,采用纯Java开发。该工具允许用户可视化编辑包含charts、图片、子报表等的复杂报表。
在本发明的一个示例性实施例中,以JasperReports+iReport为例,说明监控与统计分析报表的实现方法:
在开源工具JasperReports和iReport下载安装后,将其jar包加入到javaclassPath下,然后使用iReport制定报表模板或者直接写jrxml文件,将jrxml文件编译后生成jasper模板文件。其次是填充数据,一般使用二种方式,一种方式是通过JDBC连接提供数据源,一种就是通过JavaBean的集合提供数据源,根据连接的数据源的情况可选上述之一来实现。最后,将JasperReport生成的文件直接显示出来,点击执行报表按钮。
预警功能包括实时预警和离线预警,实时预警可以采用java程序实时解析Hadoop集群上的HDFS存储使用情况、解析Yarn资源管理中的计算资源使用情况、解析集群jobhistory任务执行情况,然后按照健康度指标体系和算法进行健康度计算,结合预警管理中的预警阈值调用短信接口和邮件服务器接口进行实时预警。离线预警是指每日对前一周期的健康度指标进行短信、邮件预警的功能,可采用Java程序触发短信接口、邮件发送接口来实现。
需要说明的是,本实施例在实现过程中可以采用各类编程语言实现,如:Java、C#、C++、C等,也可以采用数据库中的存储过程或函数等形式将本发明中各个单元模块进行封装和实现。而人机交互窗口也不限于某一类型编程方式,可采用Java、C#、C++、C等编程语言,也可采用各类数据库中的函数、存储过程等形式采用接口实现,因此所采用的语言并不做限定。
综上所述,本发明实施例提供的技术方案支持单一类和总体的健康度指标体系,支持大数据平台的健康度管控,如:任务调度平台、数据开发平台、BI统计分析平台,还支持大数据集群的健康度管控,如:Hadoop集群资源队列、JOB执行时效、HDFS小文件、HDFS文件使用等。该方法采用指标加权求和以及单一类健康度加权求和的形式,能够最大化合理体系集群和平台的整体健康情况,同时本实施例采用实时健康度实时预警形式,能够在第一时间发现并处理集群的健康隐患,可以实现健康度预警的管理功能,并且在预警方式上支持短信与邮件两种预警通道,从而提供更加全面的保护。
图4示意性示出了根据本发明的一个实施例的大数据平台的健康度管控装置的框图。
参照图4,根据本发明的一个实施例的大数据平台的健康度管控装置400,包括:获取单元402、第一计算单元404和第二计算单元406。
具体地,获取单元402用于获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标;第一计算单元404用于根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度;第二计算单元406用于根据所述每类指标的健康度,计算所述大数据平台的总体健康度。
需要说明的是,上述大数据平台的健康度管控装置400中各模块/单元的具体细节已经在对应的大数据平台的健康度管控方法中进行了详细的描述,因此此处不再赘述。
此外,本发明的实施方式还提供一种电子设备,可以包括:处理器和存储器,其中,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如本发明上述实施例中所述的大数据平台的健康度管控方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成在示例性实施例中的上述技术方案。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (9)
1.一种大数据平台的健康度管控方法,其特征在于,所述大数据平台包括HDFS数据存储层、数据处理层、数据访问层和大数据平台层,所述数据访问层包括Hive,所述健康度管控方法包括:
获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标,所述指标包括集市HDFS存储健康度、集市计算健康度和集市JOB健康度,所述指标包括集市HDFS存储健康度、集市计算健康度和集市JOB健康度均包括指标值和维度,所述维度包括按日统计的时间维度和集市;
根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度,所述集市HDFS存储健康度的指标值包括空间使用率、小文件比率和冷热数据比率,所述集市计算健康度的指标值包括内存饱和时长比率、CPU饱和时长比率、内存空闲时长比率、CPU空闲时长比率和JOB pening比率,所述集市JOB健康度包括JOB运行时长分布、JOB运行资源分布、JOB运行IO读写量分布和JOB运行IO读写次数分布;
根据所述每类指标的健康度,计算所述大数据平台的总体健康度,具体包括:
确定所述每类指标的权重,所述每类指标的权重的分配因素包括类别的影响程度、影响范围、是否可控、出现频率;
根据所述指标的权重,对所述至少一类指标进行加权求和计算,得到所述大数据平台的总体健康度,具体包括:n类大数据平台与集群的健康度分类构成,每类的健康度指标权重为Wn,每类健康度中有i个指标X,则通过加权Wi求和计算出所述每类的大数据平台与集群健康度=Σ(Xi*Wi),进一步计算得到大数据平台与集群总体健康度=Σ(Σ(Xi*Wi)*Wn),其中i大于或等于1;
基于所述总体健康度和预设的健康度阈值,对所述大数据平台进行预警,所述预警包括实时预警和离线预警,所述实时预警包括:
采用java程序实时解析Hadoop集群上的HDFS存储使用情况、解析Yarn资源管理中的计算资源使用情况、解析集群jobhistory任务执行情况,然后按照健康度指标体系和算法进行健康度计算,结合预警管理中的所述健康度阈值调用短信接口和邮件服务器接口进行实时预警;
所述健康度管控方法还包括:
采用Java与HDFS系统权限管理机制结合;
接受用户配置的hive表和HDFS目录的有效期信息,对所述hive表和所述HDFS目录的有效期控制。
2.根据权利要求1所述的健康度管控方法,其特征在于,计算所述每类指标的健康度的步骤,包括:
确定所述每类指标的各个指标值的权重;
根据所述各个指标值的权重,对所述各个指标值进行加权求和计算,得到所述每类指标的健康度。
3.根据权利要求1所述的健康度管控方法,其特征在于,还包括:基于可视化界面展示所述每类指标的各个指标值。
4.根据权利要求3所述的健康度管控方法,其特征在于,基于可视化界面展示所述每类指标的各个指标值的步骤,包括:
配置报表模板;
基于所述报表模板展示所述每类指标的各个指标值。
5.根据权利要求1至4中任一项所述的健康度管控方法,其特征在于,还包括:
每经过预定时长,均再次计算所述大数据平台的总体健康度。
6.根据权利要求5所述的健康度管控方法,其特征在于,还包括:
保存每次计算得到的所述大数据平台的总体健康度;
基于保存的每次计算得到的所述大数据平台的总体健康度,对所述大数据平台的总体健康度进行统计分析。
7.一种大数据平台的健康度管控装置,其特征在于,所述大数据平台包括HDFS数据存储层、数据处理层、数据访问层和大数据平台层,所述数据访问层包括Hive,所述健康度管控装置包括:
获取单元,用于获取大数据平台的健康度指标体系,所述健康度指标体系包含用于衡量所述大数据平台的健康度的至少一类指标,所述指标包括集市HDFS存储健康度、集市计算健康度和集市JOB健康度;
第一计算单元,用于根据所述至少一类指标中每类指标的各个指标值,计算所述每类指标的健康度,所述集市HDFS存储健康度的指标值包括空间使用率、小文件比率和冷热数据比率,所述集市计算健康度的指标值包括内存饱和时长比率、CPU饱和时长比率、内存空闲时长比率、CPU空闲时长比率和JOB pening比率,所述集市JOB健康度包括JOB运行时长分布、JOB运行资源分布、JOB运行IO读写量分布和JOB运行IO读写次数分布;
第二计算单元,用于根据所述每类指标的健康度,计算所述大数据平台的总体健康度,具体包括:
确定所述每类指标的权重,所述每类指标的权重的分配因素包括类别的影响程度、影响范围、是否可控、出现频率;根据所述指标的权重,对所述至少一类指标进行加权求和计算,得到所述大数据平台的总体健康度,具体包括:n类大数据平台与集群的健康度分类构成,每类的健康度指标权重为Wn,每类健康度中有i个指标X,则通过加权Wi求和计算出所述每类的大数据平台与集群健康度=Σ(Xi*Wi),进一步计算得到大数据平台与集群总体健康度=Σ(Σ(Xi*Wi)*Wn),其中i大于或等于1;
预警模块,用于基于所述总体健康度和预设的健康度阈值,对所述大数据平台进行预警,所述预警包括实时预警和离线预警,所述预警模块还用于:
采用java程序实时解析Hadoop集群上的HDFS存储使用情况、解析Yarn资源管理中的计算资源使用情况、解析集群jobhistory任务执行情况,然后按照健康度指标体系和算法进行健康度计算,结合预警管理中的所述健康度阈值调用短信接口和邮件服务器接口进行实时预警;
所述健康度管控装置还包括:
控制模块,用于采用Java与HDFS系统权限管理机制结合;以及
接受用户配置的hive表和HDFS目录的有效期信息,对所述hive表和所述HDFS目录的有效期控制。
8.一种可读介质,其上存储有程序,该程序被处理器执行时实现如权利要求1至6中任一项所述的大数据平台的健康度管控方法。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至6中任一项所述的大数据平台的健康度管控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710253040.0A CN108733532B (zh) | 2017-04-18 | 2017-04-18 | 大数据平台的健康度管控方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710253040.0A CN108733532B (zh) | 2017-04-18 | 2017-04-18 | 大数据平台的健康度管控方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733532A CN108733532A (zh) | 2018-11-02 |
CN108733532B true CN108733532B (zh) | 2022-03-04 |
Family
ID=63925122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710253040.0A Active CN108733532B (zh) | 2017-04-18 | 2017-04-18 | 大数据平台的健康度管控方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733532B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131068A (zh) * | 2019-06-24 | 2020-12-25 | 北京京东尚科信息技术有限公司 | 数据监控方法及装置、电子设备、存储介质 |
CN110457941B (zh) * | 2019-07-15 | 2024-08-23 | 中国平安人寿保险股份有限公司 | 一种公共测试库的管理方法及装置、电子设备 |
CN110489300A (zh) * | 2019-08-20 | 2019-11-22 | 北京市燃气集团有限责任公司 | 备份数据统计方法和装置 |
CN110704540B (zh) * | 2019-10-10 | 2023-05-02 | 云南中烟工业有限责任公司 | 一种采集数据过程中评估源端及目标端数据质量的方法 |
CN110865924B (zh) * | 2019-11-29 | 2023-05-16 | 国网四川省电力公司信息通信公司 | 电力信息系统内部服务器健康度诊断方法与健康诊断框架 |
CN111475377A (zh) * | 2020-03-27 | 2020-07-31 | 联通(广东)产业互联网有限公司 | 一种数据中心健康度的检测方法、系统及存储介质 |
CN111698301A (zh) * | 2020-05-29 | 2020-09-22 | 成都新希望金融信息有限公司 | 一种保证服务延续的服务管理方法、装置及存储介质 |
CN112988542B (zh) * | 2021-04-08 | 2021-11-30 | 马上消费金融股份有限公司 | 一种应用评分方法、装置、设备和可读存储介质 |
CN113192228B (zh) * | 2021-04-30 | 2023-04-07 | 中国工商银行股份有限公司 | 集群自动化巡检方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104320795A (zh) * | 2014-10-17 | 2015-01-28 | 四川公用信息产业有限责任公司 | 一种多维度的无线网络健康度评估方法 |
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复系统 |
CN105635085A (zh) * | 2014-11-19 | 2016-06-01 | 上海悦程信息技术有限公司 | 基于动态健康度模型的安全大数据分析系统及方法 |
-
2017
- 2017-04-18 CN CN201710253040.0A patent/CN108733532B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104320795A (zh) * | 2014-10-17 | 2015-01-28 | 四川公用信息产业有限责任公司 | 一种多维度的无线网络健康度评估方法 |
CN105635085A (zh) * | 2014-11-19 | 2016-06-01 | 上海悦程信息技术有限公司 | 基于动态健康度模型的安全大数据分析系统及方法 |
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复系统 |
Non-Patent Citations (2)
Title |
---|
Hadoop集群监控系统的研究与应用;李晋;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150115;第I140-760页 * |
Java报表工具 JasperReports & iReport;左小轩的博客;《https://blog.csdn.net/qq_37380557/article/details/67633116》;20170328;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108733532A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733532B (zh) | 大数据平台的健康度管控方法、装置、介质及电子设备 | |
US11755452B2 (en) | Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system | |
US9367601B2 (en) | Cost-based optimization of configuration parameters and cluster sizing for hadoop | |
US10116534B2 (en) | Systems and methods for WebSphere MQ performance metrics analysis | |
CN111159157B (zh) | 一种企业报表数据的指标化处理方法及装置 | |
WO2018106589A1 (en) | Differencing of executable dataflow graphs | |
CN110928740A (zh) | 云计算中心运维数据集中可视化方法及其系统 | |
CN109885624A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112860777B (zh) | 数据处理方法、装置及设备 | |
CN111078695B (zh) | 计算企业内元数据关联关系的方法及装置 | |
CN108768790A (zh) | 分布式搜索集群监控方法及装置、计算设备、存储介质 | |
Muslim et al. | A modular and extensible framework for open learning analytics | |
Plazonic et al. | Jobstats: A Slurm-Compatible Job Monitoring Platform for CPU and GPU Clusters | |
US9104573B1 (en) | Providing relevant diagnostic information using ontology rules | |
CN115757023A (zh) | 业务流程处理方法、装置和有限状态机模型 | |
CN113852204A (zh) | 一种于数字孪生的变电站三维全景监视系统及方法 | |
Weeden et al. | The Data Analytics Framework for XDMoD | |
US20140143278A1 (en) | Application programming interface layers for analytical applications | |
Wang et al. | A tool for IMA system configuration verification and case study | |
Xue | Improving Computing Efficiency and Reducing Carbon Footprint for Turing Cluster | |
RU2783782C1 (ru) | Система и способ управления оповещениями | |
CN117555541B (zh) | 数据页面展示方法、装置、设备及存储介质 | |
Schwarzer | Explaining and visualizing autoscaling behavior of microservice systems deployed on Kubernetes | |
Blascheck et al. | Towards Automated Analysis of Eye Tracking Studies using the Workflow Technology. | |
Jones et al. | The application of knowledge-based techniques to the monitoring of computers in a large heterogeneous distributed environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |