CN105071954B - 基于探针技术的资源池故障诊断与定位处理方法 - Google Patents

基于探针技术的资源池故障诊断与定位处理方法 Download PDF

Info

Publication number
CN105071954B
CN105071954B CN201510423410.1A CN201510423410A CN105071954B CN 105071954 B CN105071954 B CN 105071954B CN 201510423410 A CN201510423410 A CN 201510423410A CN 105071954 B CN105071954 B CN 105071954B
Authority
CN
China
Prior art keywords
cloud computing
resource pool
data
probe
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510423410.1A
Other languages
English (en)
Other versions
CN105071954A (zh
Inventor
耿贞伟
薛永军
钏涛
向华伟
杨泳丹
郭威
彭秋霞
吕垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201510423410.1A priority Critical patent/CN105071954B/zh
Publication of CN105071954A publication Critical patent/CN105071954A/zh
Application granted granted Critical
Publication of CN105071954B publication Critical patent/CN105071954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于探针技术的资源池故障诊断与定位处理方法,其特征在于可完整实现服务器、网络、存储等层面的基础设施资源池故障探查和关联性分析。本发明的有益效果是:探针技术研究将推动云计算资源池运维管理的规范化和集约化,增加资源池的运行稳定,为业务系统虚拟机提供高稳定性的运行环境,对提高云计算资源服务SLA的推进有极大的意义。探针技术的引入对云计算管理技术也带来新的技术方法,通过构建不同的探针技术进行云计算运行数据的收集,能全面掌控云计算的运行管理,为将来云计算发展奠定基础技术理论条件。

Description

基于探针技术的资源池故障诊断与定位处理方法
技术领域
本发明属于资源池运维故障监测和处理方法技术研究,尤其是可完整实现服务器、网络、存储等层面的基础设施资源池故障探查和关联性分析技术领域。
背景技术
企业私有云的核心是以虚拟化技术为基础实现硬件资源池,在资源池中承载更多企业级业务系统,这些系统对虚拟机稳定运行有更高要求,因此应从故障预警和快速故障定位两个方面加强资源池运维相关技术研究以提高计算资源池的运行稳定性和承载能力。本研究引入了资源池故障探针的概念,通过针对资源池中的不同对象构建针对性的探针,将相关的状态、日志等信息通过探针收集,并进行集中存储和分析,对这些数据分析将采用大数据分析方法的理念,构建适合企业私有云的云计算资源池的分析模型。
务器运行保障出现一定的风险,HA的触发几率也随之提高,目前大部分企业已经具备计算资源池运行情况监控能力。通过这个模型对探针采集的数据进行分析,为资源池运维提供故障的预测和故障快速定位,减少人员逐个对资源池中的对象进行故障排除判断的繁杂人工劳动,提高故障处理效率和预防效率
为了提高自我技术控制即研发程度,建议选择基于各品牌虚拟化产品提供的事件API接口来做二次开发,通过采集事件的分级和告警做故障的判断、日志分析、运行状态判断,可在资源池中物理服务器众多、承载大量虚拟服务器情况下,快速发现已发生的故障,并提供控制台来准确预测和定位故障。
发明内容
一种基于探针技术的资源池故障诊断与定位处理方法,其特征在于可完整实现服务器、网络、存储等层面的基础设施资源池故障探查和关联性分析,其方法是:
1)、数据采集探针技术构建:对企业云计算资源池中的物理服务器、虚拟服务器、网络交换机(包含物理和虚拟)、和存储设备资源对象数据进行探测采集,通过构建相应的探针对生产环境中各资源对象进行探测检查和数据收集;目的在于解决目前运行数据不全面的问题,获取每一个环节的运行信息;
2)、运行对象数据分析:采用大数据分析技术对采集的各项指标数据进行分析,构建一个适应多种数据类型分析和预测的算法模型,通过该模型能对不同资源类型的数据和日志进行综合分析,从这些数据中捕获隐患信息和故障发生点的位置信息,通过将这些信息加工处理后以标准方式提供云计算的管理系统或IT服务的管理监控系统进行呈现,及时发现安全隐患和加快故障处理效率和质量;
3)、云计算资源监控的中间件构建:资源池探针技术和大数据分析技术的联合为云计算的资源监控带来了新的技术处理方式,通过对开源服务器虚拟化技术、SDN网络等的前瞻性探针技术研究,可构建多种云计算资源对象探针,通过这些探针技术和大数据分析技术的联合,可成为一个通用的云计算资源监控中间件,这个中间件将成为云管理系统和IT资源服务管理系统获取云计算环境信息的标准接口,避免多重资源获取带来的资源开销和重复开发,并能提供一致的数据信息,确保管理的高效一致;
4)、云计算资源池运维和管理模型建立:通过资源池的运行数据和日志数据,能对资源池的运行全像进行描绘,对计算、网络、存储、服务提供等进行全面管理,能有效提升运维水平和管理等级,不仅对企业信息管理系统提供可靠的运行环境,也为云计算的发展提供有效的评估和管理工具,促进有目标有计划的云计算建设。
本发明的有益效果是:探针技术研究将推动云计算资源池运维管理的规范化和集约化,增加资源池的运行稳定,为业务系统虚拟机提供高稳定性的运行环境,对提高云计算资源服务SLA的推进有极大的意义。探针技术的引入对云计算管理技术也带来新的技术方法,通过构建不同的探针技术进行云计算运行数据的收集,能全面掌控云计算的运行管理,为将来云计算发展奠定基础技术理论条件。
附图说明
图1是本发明探针技术原理图。
参照说明书附图对本发明的方法作以下详细地说明。
正如发明内容中所描述的,本发明的体系结构主要包括:
云计算资源池各种探针技术都将对应相应的资源池对象探针,这些探针在工作中,根据预先进行的配置进行数据的探测和状态探测,并将数据统一通过TCP网络传输到日志收集服务器中,这些数据并不是结构化的数据,而且这些数据可能以文本、HTML、XML等形式存在,因此需要采用一种新的分析技术来进行数据的分析处理,从中抽取出我们需要的信息,如故障定位信息、故障预测信息。
云计算资源池环境中以物理服务器、虚拟服务器、网络交换机(包含物理和虚拟)、和存储设备对象的探针技术,通过探针技术获取资源池对象运行状态数据,并将这些运行状态数据集中进行分析,用于故障的诊断和预测;研究采用大数据分析算法来进行运行数据的实时分析诊断,结合历史数据对故障发生的可能性做出预测。相关研究具备一定的前瞻度,对开源资源池环境、SDN等未来云计算技术进行探针技术研究。
具体实施方式
见图1,根据研究对象,探针并不是一个实体物理部件,而是一组程序,由于云计算是软件定义的,因此要获取这些数据就应当采用软件探针,通过这些软件探针来获取云计算资源池内的情况。在获取到相应的探测数据后,研究成果将构建一套分析程序,通过构建基于大数据分析算法思想的分析算法,对多种类的日志进行联合分析。本发明方法包括下列四个部分:1)、服务器探针技术:服务器探针技术包含物理服务器探针和虚拟服务器探针两种,服务器探针主要用于探测资源池中物理或虚拟服务器的运行情况和收集相关的日志,并将这些日志保存到日志收集服务器中;服务器探针采集的目标包括但不限于CPU、内存、硬盘等使用情况以及SNMP相关日志、system相关日志信息。数据采集到后,传输采用TCP协议传输到日志收集服务器中。服务器探针技术针对云计算资源池环境,能适应云计算资源池环境中的采集任务,并能具备可配置性,更具配置进行相应的探测工作。2)、网络探针技术:在云计算环境中,各资源服务器(即物理服务器)是靠网络连接在一起形成资源池的,如果网络出现异常将导致资源池的形成,从而影响对外提供的资源服务。因此需要一个针对网络交换机的探针对云计算资源池中网络交换机设备的运行进行探测以确认网络的正常情况,网络探针将分为两种,一种在虚拟化环境内部运行,以虚拟机为承载,主要检查从虚拟化环境到外部网络的情况和虚拟化环境内部网络的情况,另外一种为外部探针,在被探测的虚拟化环境之外,主要探测从虚拟化环境外到虚拟化环境的网络是否正常,以及虚拟化环境网络发生故障时的网络情况判断。网络交换机探针技术探测的目标包括网络端口的情况,网络流量情况,网络响应情况等网络数据,并通过交换机OS相应的协议接口采集交换机运行日志,并将这些日志通过TCP网络协议传输到日志服务器中。云计算环境的网络交换机探针技术将重点关注虚拟交换网络和物理交换网络之间的链接情况,确保网络的正常运行,并不是单纯的交换机监控,而是具备目标分析需求驱动的云计算资源池网络探针。3)、存储探针技术:云计算资源池环境中,存储设备和存储链路是非常重要的,因为核心的虚拟化技术要求存储资源在资源池内多个主机之间是共享的,因此采用存储和存储链路SAN连接计算节点和存储节点是大量数据中心的首选方式,要确保虚拟机的正常运行就要确保存储和SAN链路的正常运行。存储探针技术包含对存储设备和SAN网络链路的探测,包括收集存储和SAN链路的运行情况以及相应设备的日志和告警信息,并将这些信息通过TCP协议传输到日志收集服务器中。云计算环境的存储探针技术重点在于对资源池使用的存储和存储链路进行探测,这些存储和存储链路都是资源池必备的,将采集到的信息进行分析后就可以及时作出预估和判断,防止存储故障风险。4)、探针管理技术:对云计算资源池中各资源对象的探针构建和日志分析,资源池中的对象包括物理服务器、虚拟服务器、网络交换机(包含物理和虚拟)、和存储设备,这些对象的信息都需要通过构建的探针来进行获取,而主机运行过程产生的日志需要进行集中分析,其关键在于采用大数据分析思维构建一个分析算法模型,通过对日志、探针采集的状态信息等进行分析来进行资源池的故障预测以及发生故障时的定位。大数据分析算法的构建则是预测的难点,由于需要对众多的采集信息结果进行分析,而这些结果并非是统一结构的,处于半非结构化状态,部分数据甚至可能是非结构化的日志数据,因此需要构建一个有效的算法是本研究的创新点也是重点和难点。

Claims (1)

1.一种基于探针技术的资源池故障诊断与定位处理方法,其特征在于可完整实现服务器、网络、存储层面的基础设施资源池故障探查和关联性分析,其方法是:
1)、数据采集探针技术构建:对企业云计算资源池中的物理服务器、虚拟服务器、包含物理和虚拟的网络交换机、和存储设备资源对象数据进行探测采集,通过构建相应的探针对生产环境中各资源对象进行探测检查和数据收集;目的在于解决目前运行数据不全面的问题,获取每一个环节的运行信息;
2)、运行对象数据分析:采用大数据分析技术对采集的各项指标数据进行分析,构建一个适应多种数据类型分析和预测的算法模型,通过该模型能对不同资源类型的数据和日志进行综合分析,从这些数据中捕获隐患信息和故障发生点的位置信息,通过将这些信息加工处理后以标准方式提供给云计算的管理系统或IT服务的管理监控系统进行呈现,及时发现安全隐患和加快故障处理效率和质量;
3)、云计算资源监控的中间件构建:资源池探针技术和大数据分析技术的联合为云计算的资源监控带来了新的技术处理方式,通过对开源服务器虚拟化技术、SDN网络的前瞻性探针技术研究,可构建多种云计算资源对象探针,通过这些探针技术和大数据分析技术的联合,可成为一个通用的云计算资源监控中间件,这个中间件将成为云管理系统和IT资源服务管理系统获取云计算环境信息的标准接口,避免多重资源获取带来的资源开销和重复开发,并能提供一致的数据信息,确保管理的高效一致;
4)、云计算资源池运维和管理模型建立:通过资源池的运行数据和日志数据,能对资源池的运行全像进行描绘,对计算、网络、存储、服务提供进行全面管理,能有效提升运维水平和管理等级,不仅对企业信息管理系统提供可靠的运行环境,也为云计算的发展提供有效的评估和管理工具,促进有目标有计划的云计算建设。
CN201510423410.1A 2015-07-17 2015-07-17 基于探针技术的资源池故障诊断与定位处理方法 Active CN105071954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510423410.1A CN105071954B (zh) 2015-07-17 2015-07-17 基于探针技术的资源池故障诊断与定位处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510423410.1A CN105071954B (zh) 2015-07-17 2015-07-17 基于探针技术的资源池故障诊断与定位处理方法

Publications (2)

Publication Number Publication Date
CN105071954A CN105071954A (zh) 2015-11-18
CN105071954B true CN105071954B (zh) 2018-12-25

Family

ID=54501241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510423410.1A Active CN105071954B (zh) 2015-07-17 2015-07-17 基于探针技术的资源池故障诊断与定位处理方法

Country Status (1)

Country Link
CN (1) CN105071954B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452881B (zh) * 2016-10-21 2019-12-20 用友网络科技股份有限公司 一种基于云加端模式的运维数据处理系统
CN107135100A (zh) * 2017-05-02 2017-09-05 国网辽宁省电力有限公司 一种sdn网络的故障节点探测方法
CN107171832A (zh) * 2017-05-02 2017-09-15 国网辽宁省电力有限公司 一种sdn网络的故障节点探测系统
CN107508721B (zh) * 2017-08-01 2018-11-02 南京云利来软件科技有限公司 一种基于元数据的数据采集方法
CN109542011B (zh) * 2018-12-05 2021-10-22 国网江西省电力有限公司信息通信分公司 一种多源异构监测数据的标准化采集系统
CN109818782A (zh) * 2018-12-31 2019-05-28 南京红柑桔信息技术有限公司 一种对服务器进行分类的方法
CN110351247B (zh) * 2019-06-13 2022-09-20 视联动力信息技术股份有限公司 一种参数采集方法、装置及系统
CN114024825A (zh) * 2021-11-02 2022-02-08 中邮科通信技术股份有限公司 一种云计算环境下业务端到端的故障监测方法
CN115242688B (zh) * 2022-07-27 2024-06-14 郑州浪潮数据技术有限公司 一种网络故障检测方法、装置以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143022A (zh) * 2011-03-16 2011-08-03 北京邮电大学 用于ip网络的云测量装置和测量方法
CN102724313A (zh) * 2012-06-19 2012-10-10 招商局重庆交通科研设计院有限公司 基于云计算的集群式桥梁运营安全监控系统
CN102917032A (zh) * 2012-09-25 2013-02-06 浙江图讯科技有限公司 一种工矿企业的安全生产云服务平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143022A (zh) * 2011-03-16 2011-08-03 北京邮电大学 用于ip网络的云测量装置和测量方法
CN102724313A (zh) * 2012-06-19 2012-10-10 招商局重庆交通科研设计院有限公司 基于云计算的集群式桥梁运营安全监控系统
CN102917032A (zh) * 2012-09-25 2013-02-06 浙江图讯科技有限公司 一种工矿企业的安全生产云服务平台

Also Published As

Publication number Publication date
CN105071954A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105071954B (zh) 基于探针技术的资源池故障诊断与定位处理方法
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN107943668B (zh) 计算机服务器集群日志监控方法及监控平台
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
CN106656627A (zh) 一种基于业务的性能监控和故障定位的方法
CN103069749B (zh) 虚拟环境中的问题的隔离的方法和系统
CN107547273B (zh) 一种电力系统虚拟实例高可用的保障方法及系统
CN103812699A (zh) 基于云计算的监控管理系统
CN107295010A (zh) 一种企业网络安全管理云服务平台系统及其实现方法
CN105531680A (zh) 远程监视系统、远程监视方法以及程序
CN106940678B (zh) 一种系统实时健康度评估分析方法及装置
JP2011141658A (ja) プラント解析システム
CN110245053A (zh) 故障预测诊断方法及系统
KR20160132698A (ko) 지능형 시스템 진단 장치 및 방법
JP4819014B2 (ja) ログ解析方法、ログ格納装置及びプログラム
CN110398927A (zh) 一种集成数据信息监测平台及监控系统
Li et al. Fighting the fog of war: Automated incident detection for cloud systems
CN103378991A (zh) 一种在线服务异常监测方法及其监测系统
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
US10733514B1 (en) Methods and apparatus for multi-site time series data analysis
CN114493203A (zh) 一种安全编排及自动化响应的方法和装置
CN110381047A (zh) 一种网络攻击面追踪的方法、服务器和系统
CN109615218A (zh) 核电信息系统性能监测系统及方法
CN107533492A (zh) 中继装置和程序
CN113645215A (zh) 异常网络流量数据的检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant