CN115314403A - 一种混沌工程平台集成私有云的方法、系统及装置 - Google Patents

一种混沌工程平台集成私有云的方法、系统及装置 Download PDF

Info

Publication number
CN115314403A
CN115314403A CN202210913290.3A CN202210913290A CN115314403A CN 115314403 A CN115314403 A CN 115314403A CN 202210913290 A CN202210913290 A CN 202210913290A CN 115314403 A CN115314403 A CN 115314403A
Authority
CN
China
Prior art keywords
private cloud
monitoring
information
cluster
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210913290.3A
Other languages
English (en)
Other versions
CN115314403B (zh
Inventor
李二真
张新玲
赵慧
周培烁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210913290.3A priority Critical patent/CN115314403B/zh
Publication of CN115314403A publication Critical patent/CN115314403A/zh
Application granted granted Critical
Publication of CN115314403B publication Critical patent/CN115314403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种混沌工程平台集成私有云的方法、系统及装置,方法包括响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。本发明通过混沌工程的输入界面,获取私有云用户信息,基于该信息及私有云的开放接口获取实时的机器信息,将机器作为监控主体,构建监控主体间的复合场景库,并分场景式对纳管私有云进行故障注入,结合场景进行监控项与场景的耦合,实现了混沌工程对私有云的纳管。

Description

一种混沌工程平台集成私有云的方法、系统及装置
技术领域
本发明涉及集群管理技术领域,尤其是一种混沌工程平台集成私有云的方法、系统及装置。
背景技术
ChaosBlade是阿里巴巴2019年开源的混沌工程项目,包含混沌工程实验工具chaosblade和混沌工程平台chaosblade-box,旨在通过混沌工程帮助企业解决云原生过程中高可用问题。实验工具chaosblade支持3大系统平台,4种编程语言应用,共涉及200多个实验场景,3000多个实验参数,可以精细化地控制实验范围。混沌工程平台chaosblade-box支持实验工具托管,除已托管chaosblade外,还支持Litmuschaos实验工具。
混沌工程平台chaosblade-box当前提供了主机和K8S集群维度的机器管理,而实际的应用中,这远远不够,各个公司都有自己的私有云,若想使用混沌工程原生的故障库,则需要对私有云进行纳管,现有技术中缺乏对私有云纳管的通用方法。
发明内容
本发明提供了一种混沌工程平台集成私有云的方法、系统及装置,用于解决现有技术中缺乏对私有云纳管通用方法的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种混沌工程平台集成私有云的方法,所述方法包括以下步骤:
响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;
基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。
进一步地,所述私有云用户信息包括集群IP、集群登录的用户名和密码。
进一步地,所述数据库内包括群表和机器表;所述群表存储集群IP、用户名、密码和集群状态信息,所述机器表存储机器类型、所属集群ID、集群名称、及其状态和更新时间信息。
进一步地,所述将当前私有云用户信息对应的集群内设备信息收集至数据库中的具体过程为:
将私有云用户信息写入群表中,基于群表中当前私有云用户信息,分别获取交换机列表信息、存储池列表信息、主机列表信息和虚拟机列表信息,并将获取到的列表信息写入机器表中。
进一步地,所述将当前私有云用户信息对应的集群内设备信息收集至数据库中,还包括:
设置定时机制,更新机器表内的列表信息。
进一步地,所述监控主体为主机,且对当前故障场景的监控过程通过主机本体得到;或所述监控主体为虚拟机,且对当前故障场景的监控过程通过虚拟机本体得到,则当前监控主体独立,否则不独立。
进一步地,所述根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略具体为:
监控主体独立时,配置当前监控主体无依赖的故障场景监控项;
监控主体不独立时,基于故障场景,选择当前监控主体的依赖主体,并配置当前监控主体对应维度的监控项。
本发明第二方面提供了一种混沌工程平台集成私有云的系统,所述系统包括:
信息采集单元,响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;
复合场景监控单元,基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。
本发明第三方面提供了一种混沌工程平台集成私有云的装置,包括混沌平台和私有云,所述装置还包括设置在混沌平台内所述的系统,所述系统在运行时,采集私有云用户信息,并构建复合场景,结合所述复合场景设置对应的监控项。
本发明第四方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在所述系统上运行时,使所述系统执行所述方法的步骤。
本发明第二方面的所述混沌工程平台集成私有云的系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明通过混沌工程的输入界面,获取私有云用户信息,基于该信息及私有云的开放接口获取实时的机器信息,将机器作为监控主体,构建监控主体间的复合场景库,并分场景式对纳管私有云进行故障注入,结合场景进行监控项与场景的耦合,实现了混沌工程对私有云的纳管。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法实施例的流程示意图;
图2是本发明所述方法步骤S1的实现流程示意图;
图3是本发明所述方法步骤S2的实现流程示意图;
图4是本发明所述系统实施例的结构示意图;
图5是本发明所述装置实施例的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例提供了一种混沌工程平台集成私有云的方法,包括以下步骤:
S1,响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;
S2,基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。
如图2所示,步骤S1中,通过私有云用户信息将私有云纳管入数据库。
界面输入:私有云用户信息包含:集群IP,登录集群所需用户名和密码。
所述数据库在混沌工程中,包括群表clusters和机器表machines:群表clusters表中包含ID,集群IP,用户名,密码,集群状态;机器表machines中包含ID,机器类型,所属集群ID,机器名称,机器状态,更新时间。
通过界面输入私有云用户信息,将私有云信息写入群表clusters记录一行line,集群状态为正常,其他按照输入参数即可;
通过line,调用私有云开放接口进行机器信息收集,调用获取交换机列表信息,写入machines表,每个交换机写入一行信息,具体为:
调用获取存储池列表信息,写入machines表,每个存储池写入一行信息;
调用获取主机列表信息,写入machines表,每台主机写入一行信息;
调用获取虚拟机列表信息,写入machines表,每台虚拟机写入一行信息;
在混沌平台设置数据库时,同时设置定时机制,如每30秒,对数据库进行一次数据同步。
每30秒,进行clusters表数据遍历,通过数据库中保存的集群IP,用户名,密码来登录环境,若环境可登录,则保持原状态不表,若环境不可登录则状态更新为异常。
若状态正常,则进行machines表的交换机、存储池、云主机、虚拟机的同步遍历,将新获取的信息与历史信息进行比较,进行machines表的更新,具体为:
比较通过接口重新获取的交换机信息,若一致则进行更新时间的更新,若被删除,则删除该行记录;若信息改变,则更新改变行的数据和更新时间;
比较通过接口重新获取的存储池信息,若一致则进行更新时间的更新,若被删除,则删除该行记录;若信息改变,则更新改变行的数据和更新时间;
比较通过接口重新获取的云主机信息,若一致则进行更新时间的更新,若被删除,则删除该行记录;若信息改变,则更新改变行的数据和更新时间;
比较通过接口重新获取的虚拟机信息,若一致则进行更新时间的更新,若被删除,则删除该行记录;若信息改变,则更新改变行的数据和更新时间。
若状态异常,则将machines表的所属该异常集群的交换机、存储池、云主机、虚拟机的状态更新为不可用,并更新时间。
步骤S2中,构建CPU、网络、内存、磁盘复合场景库,并从代码层分场景式对纳管私有云进行故障注入,并结合场景进行监控项与场景的耦合。
如图2所示,进行故障场景的设置,判断当前故障的监控主体是否独立,若独立,则基于故障场景的选择,配置监控信息。独立基于故障场景判断,如对于主机或虚拟机CPU性能的监控,仅通过主机或虚拟机即可实现,无需依赖其他机器,则称当前故障场景对应的监控主体独立;若不独立,则选择所依赖的环境类型,进行监控项的设置,具体为:
若监控主体类型为主机,则选择主机下的虚拟机,选择CPU,内存,磁盘,网络的任意一种,进行故障设置,并通过接口调用主机维度的监控;如故障场景为主机IO性能的监控,需要依赖网络,则选择网络进行监控项的设置。
若监控主体类型为交换机,则可选择交换机所属主机,并选择所属主机中虚拟机,选择网络,进行故障设置,并通过接口调用选择交换机维度的网络监控;如故障场景为交换容量的监控,涉及数据发送端和接收端,需要依赖主机或虚拟机,则选择主机或虚拟机进行监控项的设置。
若监控主体类型为存储池,则可选择存储池所属主机,并选择所属主机中虚拟机,选择存储,进行故障设置,并通过接口调用选择存储维度的磁盘等等的监控。
若监控主体类型为虚拟机,则可选择多台虚拟机,并通过所属主机,选择CPU,内存,磁盘,网络的任意一种,进行故障设置,并通过接口调用选择虚拟机、交换机、存储、主机维度的监控。
如图4所示,本发明实施例还提供了一种混沌工程平台集成私有云的系统,系统包括信息采集单元1和复合场景监控单元2。
信息采集单元1响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;复合场景监控单元2基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。
如图5所示,本发明实施例还提供了一种混沌工程平台集成私有云的装置,包括混沌平台和私有云,所述装置还包括设置在混沌平台内的上述实施例所述的系统,所述系统在运行时,采集私有云用户信息,并构建复合场景,结合所述复合场景设置对应的监控项。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在所述系统上运行时,使所述系统执行所述方法的步骤。
本发明上述实施例使用java语言将私有云集成到混沌工程平台,从而更扩宽了混沌平台的适用性。除此之外,打破了混沌平台故障库仅支持独立主机的故障注入限制,从集群维度来管理,这种丰富了混沌平台与私有云产品的结合,其场景更易用且切合实际,从而使混沌平台能有更多的市场。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种混沌工程平台集成私有云的方法,其特征是,所述方法包括以下步骤:
响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;
基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。
2.根据权利要求1所述混沌工程平台集成私有云的方法,其特征是,所述私有云用户信息包括集群IP、集群登录的用户名和密码。
3.根据权利要求1所述混沌工程平台集成私有云的方法,其特征是,所述数据库内包括群表和机器表;所述群表存储集群IP、用户名、密码和集群状态信息,所述机器表存储机器类型、所属集群ID、集群名称、及其状态和更新时间信息。
4.根据权利要求3所述混沌工程平台集成私有云的方法,其特征是,所述将当前私有云用户信息对应的集群内设备信息收集至数据库中的具体过程为:
将私有云用户信息写入群表中,基于群表中当前私有云用户信息,分别获取交换机列表信息、存储池列表信息、主机列表信息和虚拟机列表信息,并将获取到的列表信息写入机器表中。
5.根据权利要求4所述混沌工程平台集成私有云的方法,其特征是,所述将当前私有云用户信息对应的集群内设备信息收集至数据库中,还包括:
设置定时机制,更新机器表内的列表信息。
6.根据权利要求1所述混沌工程平台集成私有云的方法,其特征是,所述监控主体为主机,且对当前故障场景的监控过程通过主机本体得到;或所述监控主体为虚拟机,且对当前故障场景的监控过程通过虚拟机本体得到,则当前监控主体独立,否则不独立。
7.根据权利要求6所述混沌工程平台集成私有云的方法,其特征是,所述根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略具体为:
监控主体独立时,配置当前监控主体无依赖的故障场景监控项;
监控主体不独立时,基于故障场景,选择当前监控主体的依赖主体,并配置当前监控主体对应维度的监控项。
8.一种混沌工程平台集成私有云的系统,其特征是,所述系统包括:
信息采集单元,响应于界面输入的私有云用户信息,将当前私有云用户信息对应的集群内设备信息收集至数据库中,所述设备信息通过私有云开放接口获取;
复合场景监控单元,基于预设的故障场景,根据监控主体的独立性,选择环境类型,并基于当前监控主体配置监控策略。
9.一种混沌工程平台集成私有云的装置,包括混沌平台和私有云,其特征是,所述装置还包括设置在混沌平台内的权利要求8所述的系统,所述系统在运行时,采集私有云用户信息,并构建复合场景,结合所述复合场景设置对应的监控项。
10.一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在权利要求8所述系统上运行时,使所述系统执行如权利要求1-7任一项所述方法的步骤。
CN202210913290.3A 2022-07-29 2022-07-29 一种混沌工程平台集成私有云的方法、系统及装置 Active CN115314403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210913290.3A CN115314403B (zh) 2022-07-29 2022-07-29 一种混沌工程平台集成私有云的方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210913290.3A CN115314403B (zh) 2022-07-29 2022-07-29 一种混沌工程平台集成私有云的方法、系统及装置

Publications (2)

Publication Number Publication Date
CN115314403A true CN115314403A (zh) 2022-11-08
CN115314403B CN115314403B (zh) 2024-05-28

Family

ID=83859031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210913290.3A Active CN115314403B (zh) 2022-07-29 2022-07-29 一种混沌工程平台集成私有云的方法、系统及装置

Country Status (1)

Country Link
CN (1) CN115314403B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109302324A (zh) * 2018-11-23 2019-02-01 快云信息科技有限公司 一种私有云监控预警方法及系统
CN109687986A (zh) * 2017-10-18 2019-04-26 飞狐信息技术(天津)有限公司 一种基于私有云平台的Redis运维方法及系统
KR101984714B1 (ko) * 2018-08-23 2019-05-31 (주) 글루시스 가상화 자원 모니터링 시스템
CN111459750A (zh) * 2020-03-18 2020-07-28 平安科技(深圳)有限公司 基于非扁平网络的私有云监控方法、装置、计算机设备及存储介质
CN111597011A (zh) * 2020-04-10 2020-08-28 联通(广东)产业互联网有限公司 一种基于私有云资源模型的连接方法和系统
CN111641676A (zh) * 2020-04-28 2020-09-08 广州市申迪计算机系统有限公司 一种第三方云监控服务的构建方法及装置
US20210279157A1 (en) * 2018-07-19 2021-09-09 Namu Tech Co., Ltd. Method for monitoring plurality of clusters and applications in cloud platform
CN113687918A (zh) * 2021-08-30 2021-11-23 北京同创永益科技发展有限公司 一种兼容云原生和传统环境的可扩展的混沌工程实验架构

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109687986A (zh) * 2017-10-18 2019-04-26 飞狐信息技术(天津)有限公司 一种基于私有云平台的Redis运维方法及系统
US20210279157A1 (en) * 2018-07-19 2021-09-09 Namu Tech Co., Ltd. Method for monitoring plurality of clusters and applications in cloud platform
KR101984714B1 (ko) * 2018-08-23 2019-05-31 (주) 글루시스 가상화 자원 모니터링 시스템
CN109302324A (zh) * 2018-11-23 2019-02-01 快云信息科技有限公司 一种私有云监控预警方法及系统
CN111459750A (zh) * 2020-03-18 2020-07-28 平安科技(深圳)有限公司 基于非扁平网络的私有云监控方法、装置、计算机设备及存储介质
WO2021184586A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 基于非扁平网络的私有云监控方法、装置、计算机设备及存储介质
CN111597011A (zh) * 2020-04-10 2020-08-28 联通(广东)产业互联网有限公司 一种基于私有云资源模型的连接方法和系统
CN111641676A (zh) * 2020-04-28 2020-09-08 广州市申迪计算机系统有限公司 一种第三方云监控服务的构建方法及装置
CN113687918A (zh) * 2021-08-30 2021-11-23 北京同创永益科技发展有限公司 一种兼容云原生和传统环境的可扩展的混沌工程实验架构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨光;谢锐;薛广涛;: "私有云平台资源监控与优化系统", 计算机工程, no. 03, 31 May 2017 (2017-05-31) *

Also Published As

Publication number Publication date
CN115314403B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
EP3352433B1 (en) Node connection method and distributed computing system
US9276959B2 (en) Client-configurable security options for data streams
US9858322B2 (en) Data stream ingestion and persistence techniques
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
CN108319623A (zh) 一种数据重分布方法、装置及数据库集群
CN103532731A (zh) 一种防止虚拟机网络配置丢失的方法和装置
CN107666493B (zh) 一种数据库配置方法及其设备
CN109327332B (zh) 一种Ceph云存储下基于LIO的iSCSI GateWay高可用实现方法
CN105635311A (zh) 一种云管理平台中资源池信息同步的方法
CN104793981B (zh) 一种虚拟机集群的在线快照管理方法及装置
KR101357135B1 (ko) 로그 정보 수집 장치
CN108512753B (zh) 一种集群文件系统中消息传输的方法及装置
CN108021431B (zh) 基于Web数据交互管理Hive的方法及其系统
CN102647308A (zh) 一种分布式文件系统的自动测试方法
CN113032356B (zh) 一种客舱分布式文件存储系统及实现方法
CN108733808B (zh) 大数据软件系统切换方法、系统、终端设备及存储介质
US9307015B1 (en) Cloud black box for cloud infrastructure
CN112948055A (zh) 一种基于云计算的创新型课程实验自动管理方法及系统
CN103714089B (zh) 一种实现云数据库回滚的方法及系统
CN115314403A (zh) 一种混沌工程平台集成私有云的方法、系统及装置
CN111008095A (zh) 一种面向边缘云的状态快照生成和恢复方法
CN115292004A (zh) 故障应急方法、装置、电子设备及存储介质
CN107832093A (zh) 一种在私有云中免驱动对接标准iscsi/fc存储的方法
CN103197992B (zh) GlusterFS脑裂的自动化恢复方法
CN113835625A (zh) 一种基于子路径的数据存储方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240425

Address after: Room 1801, Floor 18, Jiyun Investment Building, No. 278, Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province, 450000

Applicant after: Zhengzhou Inspur Data Technology Co.,Ltd.

Country or region after: China

Address before: Room s311, building S05, Inspur Science Park, No. 1036, Inspur Road, Jinan area, China (Shandong) pilot Free Trade Zone, Jinan City, Shandong Province

Applicant before: Ji'nan tide data Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant