CN115065511A - 一种处理集群异常事件的方法及系统 - Google Patents

一种处理集群异常事件的方法及系统 Download PDF

Info

Publication number
CN115065511A
CN115065511A CN202210603919.4A CN202210603919A CN115065511A CN 115065511 A CN115065511 A CN 115065511A CN 202210603919 A CN202210603919 A CN 202210603919A CN 115065511 A CN115065511 A CN 115065511A
Authority
CN
China
Prior art keywords
cluster
cloud platform
events
queue
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210603919.4A
Other languages
English (en)
Inventor
王会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210603919.4A priority Critical patent/CN115065511A/zh
Publication of CN115065511A publication Critical patent/CN115065511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种处理集群异常事件的方法及系统,方法包括集群端采集自身集群内事件,将事件与预设的匹配规则进行比对,识别异常事件;将异常事件上传至云平台,通过云平台进行异常事件告警。本发明在集群中添加筛选模块,可以直接在集群中进行事件的采集。同时云平台下发异常事件匹配规则,以便集群可以直接识别异常事件。这样将事件的采集和匹配下放到底层集群中,云平台接收到的事件即为异常事件,可以进行告警处理。另外在云平台中添加队列,云平台对队列进行监听,及时处理队列中的数据,并进行告警和通知。这样云平台可以按照队列中的数据进行有序处理,避免事件的瞬时积压,减轻系统压力,也降低了模块间的耦合,便于扩展。

Description

一种处理集群异常事件的方法及系统
技术领域
本发明涉及网络安全技术领域,尤其是一种处理集群异常事件的方法及系统。
背景技术
现在,越来越多的公司开发了自己的云平台项目,可以纳管多个kubenetes集群进行管理。同时,kubenetes集群中都有自己的事件系统(Event),Kubernetes的每一个组件都会发出事件。通过这些事件我们可以了解kubenetes集群的运行状况。这些事件中也包含了一些异常场景,可以提示kubenetes的异常信息,以便运维人员及时发现kubenetes中的异常状况进行处理,以便保障kubenetes集群的正常运行。
面对多个kubenetes集群,云平台的处理方法往往是,在云平台里添加定时任务,定时轮询多个kubenetes集群,获取kubenetes集群的事件,然后对这些事件进行筛选,筛选出异常事件,然后传递给Alerter(告警器)处理进行告警和通知,这种方式可以达到基于kubenetes事件进行告警的目的。
当云平台纳管的kubenetes集群较多时,采用轮询的方式一方面存在时间间隔,另一方面会给云平台的定时任务模块造成较大压力,当规模到达一定程度时,会影响云平台的性能,影响整个系统的使用。同时,不同的kubenetes集群,往往也有不同的侧重点,对异常事件的定义也不尽相同,都在云平台中处理,需要针对不同的集群定制不同的匹配规则,增加了开发和维护成本,也不利于扩展
发明内容
本发明提供了一种处理集群异常事件的方法及系统,用于解决现有云平台对异常事件的处理策略成本较高、且不利于扩展的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种处理集群异常事件的方法,所述方法包括以下步骤:
集群端采集自身集群内事件,将所述事件与预设的匹配规则进行比对,识别异常事件;
将所述异常事件上传至云平台,通过云平台进行异常事件告警。
进一步地,所述集群内自身事件的采集通过集群端安装的Cloud-Eventer实现。
进一步地,所述匹配规则通过云平台下发给当前集群。
进一步地,所述云平台中设置队列,所述异常事件上传至云平台的所述队列中。
进一步地,所述方法还包括:
云平台对所述队列进行监听,在队列中新增事件时,进行告警提示。
本发明第二方面提供了一种处理集群异常事件的系统,包括集群端和云平台,所述集群端包括筛选模块和比对模块;
所述筛选模块用于获取集群中的事件,所述比对模块用于将所述事件与预设的匹配规则进行比对,识别异常事件,并将所述异常事件发送至云平台;
所述云平台对接收到的异常事件给出报警提示。
进一步地,所述系统包括若干集群端,云平台向每个集群端发送不同的匹配规则。
进一步地,所述云平台包括告警器,所述告警器用于匹配规则的初始化、更新及下发。
进一步地,所述云平台包括队列,所述队列用于存储所述异常事件。
本发明第三方面提供了一种计算机存储介质,所述存储介质内存储有计算机指令,其特征是,所述计算机指令在所述系统上运行时,使所述系统执行所述方法的步骤。
本发明第二方面的所述处理集群异常事件的系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明在集群中添加Cloud-Eventer筛选模块,可以直接在集群中进行事件的采集。同时云平台可以通过接口向Cloud-Eventer下发异常事件匹配规则,以便集群可以直接识别异常事件。这样将事件的采集和匹配下放到底层集群中,云平台接收到的事件即为异常事件,可以进行告警处理。另外在云平台中添加队列,底层集群将异常事件上传到云平台上的队列中,云平台的Alerter告警器对队列进行监听,及时处理队列中的数据,并进行告警和通知。这样云平台可以按照队列中的数据进行有序处理,避免kubenetes事件的瞬时积压,减轻系统压力,也降低了模块间的耦合,便于扩展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法实施例的流程示意图;
图2是本发明系统实施例的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例提供的一种处理集群异常事件的方法,包括以下步骤:
S1,集群端采集自身集群内事件,将所述事件与预设的匹配规则进行比对,识别异常事件;
S2,将所述异常事件上传至云平台,通过云平台进行异常事件告警。
上述方法实施的前提是云平台对多个集群进行了纳管。
步骤S1之前包括步骤,在云平台中设置初始化的匹配规则以及相关的队列信息。
云平台可以初始化匹配规则,也可以根据不同的集群定制不同的异常事件匹配规则。
云平台中设置的队列,包括队列的名称,用户名和密码等。
在云平台中因为纳管了集群,可以通过插件的形式,将Cloud-Eventer安装到集群中,插件安装是可以写入云平台的队列信息,以及匹配规则。后续如果有变化可以通过云平台Alerter进行重新下发。
设置完成后,可以启动上报,观察云平台队列中是否产生了事件,并且都是符合规则的异常事件。
步骤S1中,所述集群内自身事件的采集通过集群端安装的Cloud-Eventer实现。
所述匹配规则通过云平台下发给当前集群。
步骤S2中,所述云平台中设置队列,所述异常事件上传至云平台的所述队列中。
云平台对所述队列进行监听,在队列中新增事件时,进行告警提示。
如图2所示,本发明实施例还提供了了一种处理集群异常事件的系统,包括集群端1和云平台2,所述集群端包括筛选模块11和比对模块12;
所述筛选模块11用于获取集群中的事件,所述比对模块12用于将所述事件与预设的匹配规则进行比对,识别异常事件,并将所述异常事件发送至云平台;
所述云平台对接收到的异常事件给出报警提示。
所述系统包括若干集群端,云平台向每个集群端发送不同的匹配规则。
所述云平台2包括告警器21,所述告警器21用于匹配规则的初始化、更新及下发。
所述云平台2还包括队列22,所述队列22用于存储所述异常事件。
本发明实施例通过Cloud-Eventer筛选模块,通过底层筛选的方式,将kubenetes集群事件的采集和匹配处理下放到kubenetes层面,一方面减轻云平台的筛选压力,另一方面,云平台可以向不同的kubenetes集群中下发不同的异常事件的匹配规则,达到精确匹配的目的。
云平台获取kubenetes中的异常事件不再基于接口调用,而是kubenetes直接上报到云平台中的队列中。这样云平台Alerter告警器通过监听队列对事件进行处理,一方面相对于定时拉取的方式提高了实时性,另一方面筛选模块和告警器不再直接交互,而是通过队列进行联系,降低了模块间的耦合,提高性能的同时也增强了扩展性。
本发明实施例通过Cloud-Eventer筛选模块的下沉方式,将事件筛选的压力下沉到kubenetes集群中,而不是将压力集中于云平台,同时,因为底层筛选模块Cloud-Eventer中包含了具体的异常事件的匹配规则,可以只上传异常事件,减少了数据量的处理,使告警更快速和精确。另外,Cloud-Eventer筛选模块不再和告警模块Alerter直接交互,而是通过队列的方式,Cloud-Eventer将筛选后的事件存放到队列中,告警模块监听队列,取出事件进行告警处理。这种队列连接的方式,减少了模块间的耦合,同时队列监听的方式相对于定时拉取提高了实时性,使得告警的处理更加的快速。
本发明实施例还提供了一种计算机存储介质,所述存储介质内存储有计算机指令,所述计算机指令在所述系统上运行时,使所述系统执行所述方法的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种处理集群异常事件的方法,其特征是,所述方法包括以下步骤:
集群端采集自身集群内事件,将所述事件与预设的匹配规则进行比对,识别异常事件;
将所述异常事件上传至云平台,通过云平台进行异常事件告警。
2.根据权利要求1所述处理集群异常事件的方法,其特征是,所述集群内自身事件的采集通过集群端安装的Cloud-Eventer实现。
3.根据权利要求1所述处理集群异常事件的方法,其特征是,所述匹配规则通过云平台下发给当前集群。
4.根据权利要求1所述处理集群异常事件的方法,其特征是,所述云平台中设置队列,所述异常事件上传至云平台的所述队列中。
5.根据权利要求4所述处理集群异常事件的方法,其特征是,所述方法还包括:
云平台对所述队列进行监听,在队列中新增事件时,进行告警提示。
6.一种处理集群异常事件的系统,包括集群端和云平台,其特征是,所述集群端包括筛选模块和比对模块;
所述筛选模块用于获取集群中的事件,所述比对模块用于将所述事件与预设的匹配规则进行比对,识别异常事件,并将所述异常事件发送至云平台;
所述云平台对接收到的异常事件给出报警提示。
7.根据权利要求6所述处理集群异常事件的系统,其特征是,所述系统包括若干集群端,云平台向每个集群端发送不同的匹配规则。
8.根据权利要求7所述处理集群异常事件的系统,其特征是,所述云平台包括告警器,所述告警器用于匹配规则的初始化、更新及下发。
9.根据权利要求6所述处理集群异常事件的系统,其特征是,所述云平台包括队列,所述队列用于存储所述异常事件。
10.一种计算机存储介质,所述存储介质内存储有计算机指令,其特征是,所述计算机指令在权利要求6-9任一项所述系统上运行时,使所述系统执行如权利要求1-5任一项所述方法的步骤。
CN202210603919.4A 2022-05-30 2022-05-30 一种处理集群异常事件的方法及系统 Pending CN115065511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210603919.4A CN115065511A (zh) 2022-05-30 2022-05-30 一种处理集群异常事件的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210603919.4A CN115065511A (zh) 2022-05-30 2022-05-30 一种处理集群异常事件的方法及系统

Publications (1)

Publication Number Publication Date
CN115065511A true CN115065511A (zh) 2022-09-16

Family

ID=83198834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210603919.4A Pending CN115065511A (zh) 2022-05-30 2022-05-30 一种处理集群异常事件的方法及系统

Country Status (1)

Country Link
CN (1) CN115065511A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212834A1 (en) * 2002-05-01 2003-11-13 Tim Potter High availability for event forwarding
CN102611642A (zh) * 2012-02-27 2012-07-25 杭州闪亮科技有限公司 处理异步消息的系统及其发送消息、监听处理任务的方法
CN103905533A (zh) * 2014-03-13 2014-07-02 广州杰赛科技股份有限公司 基于云存储的分布式告警监控方法和系统
CN106383776A (zh) * 2016-08-30 2017-02-08 北京北信源软件股份有限公司 一种分布式搜索集群系统的监控及自愈方法、装置
CN106533782A (zh) * 2016-12-01 2017-03-22 北京雷石天地电子技术有限公司 一种实时发现线下场所业务故障的方法和系统
CN108965049A (zh) * 2018-06-28 2018-12-07 深信服科技股份有限公司 提供集群异常解决方案的方法、设备、系统及存储介质
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN109302324A (zh) * 2018-11-23 2019-02-01 快云信息科技有限公司 一种私有云监控预警方法及系统
CN112364342A (zh) * 2020-11-04 2021-02-12 深圳供电局有限公司 一种基于云平台的安全防护系统
CN112437145A (zh) * 2020-11-18 2021-03-02 北京浪潮数据技术有限公司 一种服务器集群管理方法、装置及相关组件
CN113535449A (zh) * 2021-07-08 2021-10-22 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN113687867A (zh) * 2021-08-24 2021-11-23 济南浪潮数据技术有限公司 一种云平台集群的关机方法、系统、设备及存储介质
CN114157679A (zh) * 2021-11-30 2022-03-08 招商局金融科技有限公司 基于云原生分布式应用监控方法、装置、设备及介质
CN114416200A (zh) * 2022-01-11 2022-04-29 浪潮云信息技术股份公司 声明式云平台监控采集配置动态管理和加载的系统及方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212834A1 (en) * 2002-05-01 2003-11-13 Tim Potter High availability for event forwarding
CN102611642A (zh) * 2012-02-27 2012-07-25 杭州闪亮科技有限公司 处理异步消息的系统及其发送消息、监听处理任务的方法
CN103905533A (zh) * 2014-03-13 2014-07-02 广州杰赛科技股份有限公司 基于云存储的分布式告警监控方法和系统
CN106383776A (zh) * 2016-08-30 2017-02-08 北京北信源软件股份有限公司 一种分布式搜索集群系统的监控及自愈方法、装置
CN106533782A (zh) * 2016-12-01 2017-03-22 北京雷石天地电子技术有限公司 一种实时发现线下场所业务故障的方法和系统
CN108965049A (zh) * 2018-06-28 2018-12-07 深信服科技股份有限公司 提供集群异常解决方案的方法、设备、系统及存储介质
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN109302324A (zh) * 2018-11-23 2019-02-01 快云信息科技有限公司 一种私有云监控预警方法及系统
CN112364342A (zh) * 2020-11-04 2021-02-12 深圳供电局有限公司 一种基于云平台的安全防护系统
CN112437145A (zh) * 2020-11-18 2021-03-02 北京浪潮数据技术有限公司 一种服务器集群管理方法、装置及相关组件
CN113535449A (zh) * 2021-07-08 2021-10-22 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN113687867A (zh) * 2021-08-24 2021-11-23 济南浪潮数据技术有限公司 一种云平台集群的关机方法、系统、设备及存储介质
CN114157679A (zh) * 2021-11-30 2022-03-08 招商局金融科技有限公司 基于云原生分布式应用监控方法、装置、设备及介质
CN114416200A (zh) * 2022-01-11 2022-04-29 浪潮云信息技术股份公司 声明式云平台监控采集配置动态管理和加载的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王伟军;: "基于Kubernetes的容器云平台建设", 电脑知识与技术, no. 36 *

Similar Documents

Publication Publication Date Title
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
US10796242B2 (en) Robust training technique to facilitate prognostic pattern recognition for enterprise computer systems
CN109245966A (zh) 云平台的服务状态的监控方法和装置
CN107707415B (zh) 一种基于SaltStack的服务器配置自动监控与告警方法
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN113704052B (zh) 一种微服务架构的运维系统、方法、设备及介质
CN112799909A (zh) 一种服务器自动化管理系统及方法
CN103067209A (zh) 一种心跳模块自检测方法
CN108415817A (zh) Bmc获取时间的方法、装置、设备及可存储介质
CN101141292B (zh) 一种实现网络管理系统中告警自动刷新的方法
CN111045889A (zh) 封闭网络设备状态监测系统、方法、装置及可读存储介质
CN108696371B (zh) 网络故障确定方法及系统
CN103986607A (zh) 一种智能数据中心语音声光报警监控系统
CN109460311A (zh) 固件异常状态的管理方法和装置
CN204389937U (zh) 交通设备全过程运营监控装置
CN115065511A (zh) 一种处理集群异常事件的方法及系统
CN113806045A (zh) 一种任务分配方法、系统、设备以及介质
CN108064054B (zh) 一种lte系统中的ftp文件传输监控方法及系统
CN113112038A (zh) 智能监测与诊断分析系统、装置、电子设备及存储介质
CN116149957B (zh) 一种通过bmc保存服务器上下电记录的方法
CN111679950A (zh) 接口级动态数据采样方法及装置
CN109245937B (zh) 一种pim平台的告警方法及装置
CN111343047A (zh) 一种监控ib网络流量的方法及系统
CN115102862A (zh) 一种用于sdn设备的自动同步方法及装置
CN115705259A (zh) 故障处理方法、相关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination