CN108737197A - 一种云环境下的故障预测方法及装置 - Google Patents

一种云环境下的故障预测方法及装置 Download PDF

Info

Publication number
CN108737197A
CN108737197A CN201810637533.9A CN201810637533A CN108737197A CN 108737197 A CN108737197 A CN 108737197A CN 201810637533 A CN201810637533 A CN 201810637533A CN 108737197 A CN108737197 A CN 108737197A
Authority
CN
China
Prior art keywords
business
resource
failure
failure predication
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810637533.9A
Other languages
English (en)
Inventor
吕广杰
李宪状
王旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810637533.9A priority Critical patent/CN108737197A/zh
Publication of CN108737197A publication Critical patent/CN108737197A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种云环境下的故障预测方法及装置,涉及云计算的应用领域中故障预测技术。本发明公开的云环境下的故障预测方法,包括:针对业务内的各个资源分别进行监控,当任一资源发生非正常事件后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。本申请技术方案设计了可动态调节的预警策略,以整体业务为监控单位,对云环境进行故障预测,适用于各种客户环境,帮助用户提前预知未来可能发生的问题,且方案易开发、易扩展、易维护。

Description

一种云环境下的故障预测方法及装置
技术领域
本发明涉及云计算的应用领域中故障预测技术,特别涉及一种云环境下的故障预测方案。
背景技术
随着信息科技的发展,云计算逐步成为业界的发展热点,国内外各大厂商的云管理平台也开始纷纷投入到科学、教育、文化、卫生、政府、高性能计算、电子商务、物联网等多个领域进行使用。
在云环境中,服务器、网络、存储或软件出现故障,将对企业的整个经营活动产生巨大影响。为了解决这一问题,云计算厂商往往将系统各项软硬件性能指标提供给企业客户,并针对内置的阈值机制进行告警。然而,此种告警方式都是事后告警,即出现问题后才进行告警。对于企业用户来说,事后告警很大程度上已经耽误了最佳的问题修复时间,他们更希望通过故障预测软件,在故障发生之前预测未来可能发生的问题,防患于未然。
发明内容
本发明公开了一种云环境下的故障预测方法及装置,可以最大程度的提前发现问题,实现故障的预测。
本发明公开了一种云环境下的故障预测方法,包括:
针对业务内的各个资源分别进行监控,当任一资源发生非正常事件后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;
针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。
可选地,上述方法中,所述针对业务内的各个资源分别进行监控包括:
将业务内相关联的所有资源进行组合,根据所有资源之间的关联或网络连接关系绘制业务拓扑形成业务视图,所述业务视图直观展现业务的整体运行情况;
针对业务视图中的各个资源分别进行监控。
可选地,上述方法中,所述预设的故障预测规则中单个资源的故障预测指标为可调整的指标。
可选地,上述方法中,所述业务内对应有一个预设的故障预测规则,或者所述业务内各个资源分别对应有一个预设的故障预测规则。
可选地,上述方法中,所述生成的以业务为单位的故障预测信息至少包括故障状态、故障位置以及故障描述。
本发明还公开了一种云环境下的故障预测装置,包括:
单资源故障预测模块,针对业务内的各个资源分别进行监控,当任一资源发生非正常事件后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;
业务预警模块,针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。
可选地,上述装置,还包括:业务视图生成模块,将业务内相关联的所有资源进行组合,根据所有资源之间的关联或网络连接关系绘制业务拓扑形成业务视图,所述业务视图直观展现业务的整体运行情况;
所述单资源故障预测模块,针对所述业务视图中的各个资源分别进行监控。
可选地,上述装置中,所述预设的故障预测规则中单个资源的故障预测指标为可调整的指标。
可选地,上述装置中,所述业务内对应有一个预设的故障预测规则,或者所述业务内各个资源分别对应有一个预设的故障预测规则。
可选地,上述装置中,所述业务预警模块生成的以业务为单位的故障预测信息至少包括故障状态、故障位置以及故障描述。
本申请技术方案设计了可动态调节的预警策略,以整体业务为监控单位,对云环境进行故障预测,适用于各种客户环境,帮助用户提前预知未来可能发生的问题,且方案易开发、易扩展、易维护。与现在技术相比,本申请技术方案具有如下有益效果:
1、通过设计业务视图,以整体业务的角度监控资源、预测故障,防止以偏概全;
2、设计普适性高的故障预测方法,通过可配置的故障预测策略,实现故障的提前发现。
附图说明
图1为本申请实施例中云环境下的故障预测方法中业务视图的示意图;
图2为本申请实施例中云环境下的故障预测方法中业务预警生成过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合具体实施方式对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
实施例1
目前的云环境监控软件,主要在存在以下问题:
1、只是将各项系统性能指标(如服务器使用率、CPU使用率、内存使用率、网络平均丢包率、网络传输速率等)进行一一罗列,并基于预置的阈值进行告警。虽然这些告警能反应系统的问题,但这都是事后告警,很大程度上耽误了用户解决问题的最佳时间。
2、资源的监控和告警,只能体现单个资源的问题。而企业业务一般包含多个资源,传统的监控软件无法从业务的整体角度发现问题。
本申请发明人针对上述云环境监控软件的弊端,结合长期的云数据中心运维经验,新提出一种故障预测方案来解决上述问题,即新定义一种故障预测策略,实施云环境下的故障智能预测方法。
基于上述思想,本实施例提供一种云环境下的故障预测方法,主要包括如下操作:
针对业务内的各个资源分别进行监控,当任一资源出现告警(即某一资源出现非正常事件)后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;
针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。
其中,本实施例中所涉及的资源间的依赖关系主要指资源间的网络连接拓扑,例如一个Web服务要连接中间件和数据库,即Web服务的依赖关系包含了中间件和数据库。这样,生成的综合预警也是基于整个业务的整体描述,并非仅仅是单个资源的故障预警之和。
按照上述方法,针对业务内的各个资源分别进行监控时,可以基于一个业务视图来实现,即预先将业务内相关联的所有资源进行组合,根据所有资源之间的关联或网络连接关系绘制业务拓扑形成业务视图,该业务视图可以直观展现业务的整体运行情况。这样,即可针对业务视图中的各个资源分别进行监控即可。
要说明的是,基于预设的故障预测规则,对该资源的监控数据进行分析时,一般是基于预设的故障预测规则,对设定周期内该资源的的监控数据进行分析以得到故障预测结果。而本实施例中预设的故障预测规则中单个资源的故障预测指标可以根据系统配置或用户需求进行调整,即预设的故障预测规则中单个资源的故障预测指标为可调整的指标。一般故障预测指标为经验值,在不同的环境下可以设置故障预测指标的值不同,但在同一个环境下故障预测指标的值按照系统配置或用户需求设置后,一般可以使用固定的值,不必经常修改。
另外,预设的故障预测规则可以是针对一个业务进行对应配置,即一个业务对应有一个故障预测规则,也可以针对业务内的各个资源分别对应配置,即业务内的各个资源分别对应有一个预设的故障预测规则。
下面结合具体应用场景及附图说明上述方法的具体实施。
如上所述,本发明提供的云环境下的故障预测方法的完整过程包括了三大部分的操作:构成业务视图(1),单资源故障预测(2),业务预警(3)。
其中,构成业务视图(1)主要定义了本方法的监控对象。如图1,可以将业务内相关联的资源组合起来,做为统一的业务单位,根据资源间的关联或网络连接关系绘制业务拓扑,从而更加直观的展现业务的整体运行情况。
在构成业务视图后,可进行单资源故障预测(2),即针对业务视图中的单个资源分别进行故障预测。具体步骤如下:
S1,预先定义告警级别:一级告警为轻微告警,二级告警为严重告警,级别越大问题越严重;
具体地,告警级别的定义可以根据经验预先设定,也可根据用户需求设定,在此本实施例对告警级别的设定不做特别限定。
S2,针对业务内的各个资源进行单独监控,当任一单个资源出现告警后,基于如表1的故障预测规则表(本故障预测规则表为多年运维经验形成的经验值,也可根据不同使用场景,动态调节预测规则中的指标),对监控数据进行分析,生成故障的准确预测描述,并将故障预测结果(其中含有预测故障描述)暂存供下一步使用。
表1故障预测规则表
最后,业务预警(3),即以业务为单位,进行预警。如图2所示,业务视图的预警建立在资源关联关系上。可以针对业务内资源的依赖关系,将业务内各资源的告警事件和故障预测结果进行整合拼接,生成业务的综合预警通知及故障预测信息。其中,故障预测信息至少包括:故障状态、故障位置以及故障描述。
实施例2
本实施例提供一种云环境下的故障预测装置,可以实施上述实施例1提供的方法,该装置至少包括如下模块。
单资源故障预测模块,针对业务内的各个资源分别进行监控,当任一资源出现告警(即任一资源出现了非正常事件)后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;
其中,单资源故障预测模块对资源的监控数据进行分析时,一般是基于预设的故障预测规则,对设定周期内该资源的的监控数据进行分析以得到故障预测结果。
而本实施例中预设的故障预测规则中单个资源的故障预测指标可以根据系统配置或用户需求进行调整。预设的故障预测规则可以是针对一个业务进行对应配置,也可以针对业务内的各个资源分别对应配置。
业务预警模块,针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。
其中,本实施例中生成的以业务为单位的故障预测信息中至少包括故障状态、故障位置以及故障描述。
另外,在上述装置的基础上,还可以包括:业务视图生成模块,即将业务内相关联的所有资源进行组合,根据所有资源之间的关联或网络连接关系绘制业务拓扑形成业务视图,业务视图直观展现业务的整体运行情况。此时单资源故障预测模块对资源进行监控操作时,就可以基于此业务视图内的各个资源分别进行监控。
由于本实施例提供的装置,可以实施上述实施例1提供的方法,因此针对此装置的其他具体功能描述可参见上述实施例1的相应内容,在此不再赘述。
从上述实施例可以看出,本申请技术方案设计了可动态调节的预警策略,一方面,本申请技术方案提出业务视图的概念,以整体业务的角度监控云环境下的资源,防止用户只见树木不见树林;另一方面,本申请技术方案提供的故障预测规则可根据用户的实际需求,动态调节规则中的指标,适合于各种用户场景。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种云环境下的故障预测方法,其特征在于,包括:
针对业务内的各个资源分别进行监控,当任一资源发生非正常事件后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;
针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。
2.如权利要求1所述的方法,其特征在于,所述针对业务内的各个资源分别进行监控包括:
将业务内相关联的所有资源进行组合,根据所有资源之间的关联或网络连接关系绘制业务拓扑形成业务视图,所述业务视图直观展现业务的整体运行情况;
针对业务视图中的各个资源分别进行监控。
3.如权利要求1或2所述的方法,其特征在于,所述预设的故障预测规则中单个资源的故障预测指标为可调整的指标。
4.如权利要求3所述的方法,其特征在于,所述业务内对应有一个预设的故障预测规则,或者所述业务内各个资源分别对应有一个预设的故障预测规则。
5.如权利要求1或2所述的方法,其特征在于,所述生成的以业务为单位的故障预测信息至少包括故障状态、故障位置以及故障描述。
6.一种云环境下的故障预测装置,其特征在于,包括:
单资源故障预测模块,针对业务内的各个资源分别进行监控,当任一资源发生非正常事件后,基于预设的故障预测规则,对该资源的监控数据进行分析,生成含有预测故障描述的故障预测结果;
业务预警模块,针对业务内各个资源之间的依赖关系,将业务内所有资源的故障预测结果进行整合,生成以业务为单位的综合预警通知及故障预测信息。
7.如权利要求6所述的装置,其特征在于,还包括:
业务视图生成模块,将业务内相关联的所有资源进行组合,根据所有资源之间的关联或网络连接关系绘制业务拓扑形成业务视图,所述业务视图直观展现业务的整体运行情况;
所述单资源故障预测模块,针对所述业务视图中的各个资源分别进行监控。
8.如权利要求6或7所述的装置,其特征在于,所述预设的故障预测规则中单个资源的故障预测指标为可调整的指标。
9.如权利要求8所述的装置,其特征在于,所述业务内对应有一个预设的故障预测规则,或者所述业务内各个资源分别对应有一个预设的故障预测规则。
10.如权利要求6或7所述的装置,其特征在于,所述业务预警模块生成的以业务为单位的故障预测信息至少包括故障状态、故障位置以及故障描述。
CN201810637533.9A 2018-06-20 2018-06-20 一种云环境下的故障预测方法及装置 Pending CN108737197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810637533.9A CN108737197A (zh) 2018-06-20 2018-06-20 一种云环境下的故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810637533.9A CN108737197A (zh) 2018-06-20 2018-06-20 一种云环境下的故障预测方法及装置

Publications (1)

Publication Number Publication Date
CN108737197A true CN108737197A (zh) 2018-11-02

Family

ID=63930378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810637533.9A Pending CN108737197A (zh) 2018-06-20 2018-06-20 一种云环境下的故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN108737197A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159224A (zh) * 2020-01-03 2020-05-15 珠海格力电器股份有限公司 储能系统控制方法、装置及园区级储能系统
CN111897702A (zh) * 2020-07-16 2020-11-06 中国工商银行股份有限公司 用于业务系统的预警处理方法和装置、计算机系统和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719842A (zh) * 2009-11-20 2010-06-02 中国科学院软件研究所 一种基于云计算环境的分布式网络安全预警方法
CN103236948A (zh) * 2013-04-24 2013-08-07 中国电信股份有限公司重庆分公司 一种电信网告警方法及系统
CN103475544A (zh) * 2013-09-18 2013-12-25 浪潮电子信息产业股份有限公司 一种基于云资源监控平台的业务监控方法
CN105183610A (zh) * 2015-09-22 2015-12-23 浪潮集团有限公司 一种基于资源依赖关系的云数据中心业务监控系统及方法
CN105471625A (zh) * 2015-11-16 2016-04-06 杭州东信北邮信息技术有限公司 一种资源池业务健康的监控方法和系统
CN106656583A (zh) * 2016-12-02 2017-05-10 郑州云海信息技术有限公司 一种动态阈值告警方法及装置
CN106681840A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种云操作系统的任务调度方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719842A (zh) * 2009-11-20 2010-06-02 中国科学院软件研究所 一种基于云计算环境的分布式网络安全预警方法
CN103236948A (zh) * 2013-04-24 2013-08-07 中国电信股份有限公司重庆分公司 一种电信网告警方法及系统
CN103475544A (zh) * 2013-09-18 2013-12-25 浪潮电子信息产业股份有限公司 一种基于云资源监控平台的业务监控方法
CN105183610A (zh) * 2015-09-22 2015-12-23 浪潮集团有限公司 一种基于资源依赖关系的云数据中心业务监控系统及方法
CN105471625A (zh) * 2015-11-16 2016-04-06 杭州东信北邮信息技术有限公司 一种资源池业务健康的监控方法和系统
CN106656583A (zh) * 2016-12-02 2017-05-10 郑州云海信息技术有限公司 一种动态阈值告警方法及装置
CN106681840A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种云操作系统的任务调度方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159224A (zh) * 2020-01-03 2020-05-15 珠海格力电器股份有限公司 储能系统控制方法、装置及园区级储能系统
CN111897702A (zh) * 2020-07-16 2020-11-06 中国工商银行股份有限公司 用于业务系统的预警处理方法和装置、计算机系统和介质
CN111897702B (zh) * 2020-07-16 2024-01-05 中国工商银行股份有限公司 用于业务系统的预警处理方法和装置、计算机系统和介质

Similar Documents

Publication Publication Date Title
US11616703B2 (en) Scalable visualization of health data for network devices
US20200034216A1 (en) Router management by an event stream processing cluster manager
US10423469B2 (en) Router management by an event stream processing cluster manager
CA3093925C (en) Router management by an event stream processing cluster manager
US20220245462A1 (en) Training a digital twin in artificial intelligence-defined networking
US11606265B2 (en) Network control in artificial intelligence-defined networking
CN104243196B (zh) 一种sdn架构下的虚拟网络映射保护方法及系统
CN110663030A (zh) 用于处理极端数据的边缘设备、系统和方法
US20220245441A1 (en) Reinforcement-learning modeling interfaces
Gonzalez et al. Root cause analysis of network failures using machine learning and summarization techniques
WO2017080161A1 (zh) 云计算中报警信息的处理方法及装置
CN107861856A (zh) 云数据系统中告警信息的处理方法和计算机存储介质
US10466686B2 (en) System and method for automatic configuration of a data collection system and schedule for control system monitoring
CN110555038A (zh) 一种数据处理系统、方法及装置
CA3210058A1 (en) Systems and methods for artificial intelligence-defined networking
CN111934793B (zh) 一种互联网架构全链路监控方法及装置
CN108737197A (zh) 一种云环境下的故障预测方法及装置
Kejariwal et al. The art of capacity planning: scaling web resources in the cloud
CN115941441A (zh) 系统链路自动化监控运维方法、系统、设备以及介质
CN107528724A (zh) 一种节点集群的优化处理方法及装置
US11334558B2 (en) Adaptive metadata refreshing
Dobie et al. Network System of Systems Manager
US20170286189A1 (en) Graph-enhanced event management
US20230385279A1 (en) Dynamic classification and optimization of computing resource utilization
Carchiolo et al. Integration of Monitoring and Alarm Management in Power Plants.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181102

RJ01 Rejection of invention patent application after publication