CN111581001A - 一种大数据集群的运行维护方法及装置 - Google Patents

一种大数据集群的运行维护方法及装置 Download PDF

Info

Publication number
CN111581001A
CN111581001A CN202010346166.4A CN202010346166A CN111581001A CN 111581001 A CN111581001 A CN 111581001A CN 202010346166 A CN202010346166 A CN 202010346166A CN 111581001 A CN111581001 A CN 111581001A
Authority
CN
China
Prior art keywords
strategy
scanning
big data
error
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010346166.4A
Other languages
English (en)
Inventor
张彩霞
王向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN202010346166.4A priority Critical patent/CN111581001A/zh
Publication of CN111581001A publication Critical patent/CN111581001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)

Abstract

本发明公开一种大数据集群的运行维护方法及装置,包括:对大数据集群组件进行预处理,采用机器学习算法构建策略模型并生成运行维护策略,判断个组件被测进程是否存在错误,并提取错误类型进行修复;本发明可以自动执行检测、修复工作,提高大数据平台的运行维护效率,减少运维人员的工作量,节省人力,较为便捷;本发明可用于大数据的运行维护。

Description

一种大数据集群的运行维护方法及装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据集群的运行维护方法及装置。
背景技术
大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据处理依赖众多服务,如HDFS(分布式文件系统)、YARN(资源管理系统)、Spark(分布式内存计算框架)、HBASE(分布式面向列的数据库)、HIVE(基于hadoop的数据仓库工具)等等。由于网络震荡、电压不稳、资源抢占、误操作等原因都可能造成某些组件挂掉,需要维护人员定期巡检平台运行情况,发现异常进行排查处理,需要对大量的平台组件进行测试、运行维护,工作繁杂,浪费人力,较为麻烦。
发明内容
本发明的目的在于提出一种大数据集群的运行维护方法及装置,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
为解决上述技术问题所采用的技术方案:一种大数据集群的运行维护方法,所述方法包括以下步骤:
S100、采集大数据集群中各组件的进程信息,将采集的各组件的进程信息进行预处理操作;
S200、采用机器学习算法构建策略模型;依据所述策略模型,根据预处理后的进程信息,生成运行维护策略;
S300、获取各组件的被测进程的进程运行信息,根据所述进程运行信息扫描所述被测进程是否存在程序错误;
S400、如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;
S500、根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修复指令及策略修复所述程序错误。
作为以上技术方案的进一步改进,步骤S100的预处理操作包括:对各组件的进程信息进行过滤,去除不符合要求的数据;对过滤后的进程信息进行数据抽取,以获得进程信息的有用特性;将数据抽取后获得的有用特征进行数据转换,以获得适合于策略模型训练的数据类型。
作为以上技术方案的进一步改进,步骤S200具体为:基于神经网络算法构建策略模型,数据传递给神经网络预测模型,由神经网络预测模型模块进行在线构建策略模型;预处理后的进程信息数据输入策略模型生成运行维护策略。
作为以上技术方案的进一步改进,步骤S300中,根据所述进程运行信息扫描所述被测进程是否存在程序错误,包括:
根据所述进程运行信息扫描各组件的被测进程是否存在异常;如果扫描所述被测进程存在异常,则扫描异常服务日志,判断是否存在程序错误;如果扫描所述被测进程不存在异常,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
作为以上技术方案的进一步改进,步骤S400还包括:如果扫描所述被测进程不存在程序错误,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描。
一种大数据集群的运行维护装置,包括:预处理模块、建模模块、策略生成模块、获取模块、扫描模块、错误类型提取模块和修复模块。
采集模块,用于采集大数据集群中各组件的进程信息。
预处理模块,用于将采集的各组件的进程信息进行预处理操作。
建模模块,用于采用机器学习算法构建策略模型。
策略生成模块,用于依据所述策略模型,根据预处理后的进程信息,生成运行维护策略。
获取模块,用于获取各组件的被测进程的进程运行信息。
扫描模块,用于根据所述进程运行信息扫描所述被测进程是否存在程序错误。
错误类型提取模块,用于扫描程序错误触发点的错误日志,提取所述程序错误的错误类型。
修复模块,用于根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修复指令及策略修复所述程序错误。
本发明的有益效果:本发明可以自动执行检测、修复工作,提高大数据平台的运行维护效率,减少运维人员的工作量,节省人力,较为便捷。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明提供的一种大数据集群的运行维护方法及装置的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
请参照图1,一种大数据集群的运行维护方法,所述方法包括以下步骤:
S100、采集大数据集群中各组件的进程信息,将采集的各组件的进程信息进行预处理操作;
其中,预处理操作包括:对各组件的进程信息进行过滤,去除不符合要求的数据;对过滤后的进程信息进行数据抽取,以获得进程信息的有用特性;将数据抽取后获得的有用特征进行数据转换,以获得适合于策略模型训练的数据类型。
S200、采用机器学习算法构建策略模型;依据所述策略模型,根据预处理后的进程信息,生成运行维护策略;
具体地,基于神经网络算法构建策略模型,数据传递给神经网络预测模型,由神经网络预测模型模块进行在线构建策略模型;预处理后的进程信息数据输入策略模型生成运行维护策略。
S300、获取各组件的被测进程的进程运行信息,根据所述进程运行信息扫描所述被测进程是否存在程序错误;
其中,根据所述进程运行信息扫描所述被测进程是否存在程序错误包括:根据所述进程运行信息扫描各组件的被测进程是否存在异常;如果扫描所述被测进程存在异常,则扫描异常服务日志,判断是否存在程序错误;如果扫描所述被测进程不存在异常,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
S400、如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;
S500、根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修复指令及策略修复所述程序错误。
具体地,根据该错误类型在预设的运行维护策略错误码库中查询是否存在匹配的修复策略;如果预设的运行维护策略错误码库中存在匹配的修复策略,则提取修复策略。
当错误类型提取模块根据被测进程的运行信息检测出其存在bug时,则根据bug的错误类型在运行维护策略错误码库中查找相匹配的bug修复策略,并由此生成修复指令。将修复指令及具体的bug修复策略发送至修复模块,由修复模块执行相应的修复策略,完成对bug的自动修复。
一种大数据集群的运行维护装置,包括:预处理模块、建模模块、策略生成模块、获取模块、扫描模块、错误类型提取模块和修复模块。
采集模块用于采集大数据集群中各组件的进程信息。
预处理模块用于将采集的各组件的进程信息进行预处理操作。
建模模块用于采用机器学习算法构建策略模型。
策略生成模块用于依据所述策略模型,根据预处理后的进程信息,生成运行维护策略。
获取模块用于获取各组件的被测进程的进程运行信息。
扫描模块用于根据所述进程运行信息扫描所述被测进程是否存在程序错误。
错误类型提取模块用于扫描程序错误触发点的错误日志,提取所述程序错误的错误类型。
修复模块用于根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修复指令及策略修复所述程序错误。
本发明可以自动执行检测、修复工作,提高大数据平台的运行维护效率,减少运维人员的工作量,节省人力,较为便捷。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种大数据集群的运行维护方法,其特征在于:所述方法包括以下步骤:
S100、采集大数据集群中各组件的进程信息,将采集的各组件的进程信息进行预处理操作;
S200、采用机器学习算法构建策略模型;依据所述策略模型,根据预处理后的进程信息,生成运行维护策略;
S300、获取各组件的被测进程的进程运行信息,根据所述进程运行信息扫描所述被测进程是否存在程序错误;
S400、如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;
S500、根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修复指令及策略修复所述程序错误。
2.根据权利要求1所述的一种大数据集群的运行维护方法,其特征在于:步骤S100的预处理操作包括:对各组件的进程信息进行过滤,去除不符合要求的数据;对过滤后的进程信息进行数据抽取,以获得进程信息的有用特性;将数据抽取后获得的有用特征进行数据转换,以获得适合于策略模型训练的数据类型。
3.根据权利要求1所述的一种大数据集群的运行维护方法,其特征在于:步骤S200具体为:基于神经网络算法构建策略模型,数据传递给神经网络预测模型,由神经网络预测模型模块进行在线构建策略模型;预处理后的进程信息数据输入策略模型生成运行维护策略。
4.根据权利要求1所述的一种大数据集群的运行维护方法,其特征在于:步骤S400还包括:如果扫描所述被测进程不存在程序错误,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描。
5.一种大数据集群的运行维护装置,其特征在于:包括:
采集模块,用于采集大数据集群中各组件的进程信息;
预处理模块,用于将采集的各组件的进程信息进行预处理操作;
建模模块,用于采用机器学习算法构建策略模型;
策略生成模块,用于依据所述策略模型,根据预处理后的进程信息,生成运行维护策略;
获取模块,用于获取各组件的被测进程的进程运行信息;
扫描模块,用于根据所述进程运行信息扫描所述被测进程是否存在程序错误;
错误类型提取模块,用于扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;
修复模块,用于根据所述错误类型查询对应的运行维护策略,并生成修复指令;根据所述修复指令及策略修复所述程序错误。
CN202010346166.4A 2020-04-27 2020-04-27 一种大数据集群的运行维护方法及装置 Pending CN111581001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010346166.4A CN111581001A (zh) 2020-04-27 2020-04-27 一种大数据集群的运行维护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010346166.4A CN111581001A (zh) 2020-04-27 2020-04-27 一种大数据集群的运行维护方法及装置

Publications (1)

Publication Number Publication Date
CN111581001A true CN111581001A (zh) 2020-08-25

Family

ID=72115231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010346166.4A Pending CN111581001A (zh) 2020-04-27 2020-04-27 一种大数据集群的运行维护方法及装置

Country Status (1)

Country Link
CN (1) CN111581001A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077061A (zh) * 2021-02-20 2021-07-06 上海琥崧智能科技股份有限公司 一种基于生产数据挖掘的设备预测性维护系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197251A (zh) * 2017-12-29 2018-06-22 百度在线网络技术(北京)有限公司 一种大数据运行维护分析方法、装置及服务器
CN109960690A (zh) * 2019-03-18 2019-07-02 新华三大数据技术有限公司 一种大数据集群的运行维护方法及装置
CN110908823A (zh) * 2019-12-03 2020-03-24 徐州生物工程职业技术学院 一种大数据集群的运行维护方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197251A (zh) * 2017-12-29 2018-06-22 百度在线网络技术(北京)有限公司 一种大数据运行维护分析方法、装置及服务器
CN109960690A (zh) * 2019-03-18 2019-07-02 新华三大数据技术有限公司 一种大数据集群的运行维护方法及装置
CN110908823A (zh) * 2019-12-03 2020-03-24 徐州生物工程职业技术学院 一种大数据集群的运行维护方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077061A (zh) * 2021-02-20 2021-07-06 上海琥崧智能科技股份有限公司 一种基于生产数据挖掘的设备预测性维护系统

Similar Documents

Publication Publication Date Title
CN113112086B (zh) 一种基于边缘计算和标识解析的智能生产系统
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN110794800B (zh) 一种智慧工厂信息管理的监控系统
CN101470426B (zh) 一种故障检测的方法和系统
CN111160804A (zh) 一种基于物联网的矿用设备管理方法、装置及系统
CN105740140A (zh) 软件系统故障诊断方法、服务器及系统
CN113516244B (zh) 一种智能运维方法、装置、电子设备及存储介质
CN117118781A (zh) 一种智能化工业网关设计方法及装置
CN111581001A (zh) 一种大数据集群的运行维护方法及装置
CN114238474A (zh) 基于排水系统的数据处理方法、装置、设备及存储介质
CN111800299A (zh) 一种边缘云的运营维护系统及其方法
CN113807713A (zh) 一种产品质量评估方法及工业互联网标识解析系统
CN117591594A (zh) 一种站控层监控信息表规范化审查及比对校验方法及工具
CN112636960A (zh) 一种边缘计算设备内网协同维护方法、系统、装置、服务器及其存储介质
CN113392154A (zh) 基于soa构架与分布式部署的数据库的数据系统
CN109284204B (zh) 一种基于虚拟化计算的大数据平台运维方法以及系统
CN113472881B (zh) 在线终端设备的统计方法和装置
CN115495214A (zh) 一种泛it服务切片作业辅助系统及方法
CN111061580B (zh) 计算机系统应急预案演练方法、服务器及系统
CN116258603A (zh) 一种基于电力系统设备状态预警的方法和系统
CN115705259A (zh) 故障处理方法、相关设备及存储介质
CN112445641B (zh) 一种大数据集群的运行维护方法和系统
CN112134727A (zh) 基于容器技术的网关机运行数据交换方法
CN112667469A (zh) 一种多元化大数据统计报告自动生成方法、系统及可读介质
CN111539642A (zh) 一种基于面向对象的电厂数据采集处理系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825

RJ01 Rejection of invention patent application after publication