CN111538562A - 云计算平台上Linux云主机业务连续性测试方法及装置 - Google Patents

云计算平台上Linux云主机业务连续性测试方法及装置 Download PDF

Info

Publication number
CN111538562A
CN111538562A CN202010290800.7A CN202010290800A CN111538562A CN 111538562 A CN111538562 A CN 111538562A CN 202010290800 A CN202010290800 A CN 202010290800A CN 111538562 A CN111538562 A CN 111538562A
Authority
CN
China
Prior art keywords
virtual machine
linux
tenant
cloud
linux virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010290800.7A
Other languages
English (en)
Other versions
CN111538562B (zh
Inventor
刘超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inesa R&d Center
Original Assignee
Inesa R&d Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inesa R&d Center filed Critical Inesa R&d Center
Priority to CN202010290800.7A priority Critical patent/CN111538562B/zh
Publication of CN111538562A publication Critical patent/CN111538562A/zh
Application granted granted Critical
Publication of CN111538562B publication Critical patent/CN111538562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种云计算平台上Linux云主机业务连续性测试方法及装置,该方法包括:接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机;实时对所述第一Linux虚机进行秒级快照;在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离;比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,若相同,则产生连续指示,否则产生报警指示。与现有技术相比,本发明具有自动化程度高、有效提升云主机业务连续性等优点。

Description

云计算平台上Linux云主机业务连续性测试方法及装置
技术领域
本发明涉及云计算技术领域,尤其是涉及一种云计算平台上Linux云主机业务连续性测试方法及装置。
背景技术
云计算技术用于高效地管理数据中心中的服务器资源。随着云规模的不断增加,服务器的硬盘、主板和内存损坏等物理故障时常发生。当发生故障时,云操作系统一般会基于“分布式存储”加“虚拟机疏散”技术把发生故障的物理服务器上的虚拟机“自动漂移”到其他物理服务器上,以保证用户的虚拟机不因为物理故障而无法访问。但实际上,由于“虚拟机疏散技术”会造成虚拟机重启,而虚拟机中的许多服务程序并未配置开机启动,这样当虚拟机“自动漂走”后,虽然虚拟机能正常启动运行,但其上应用并没有启动,造成服务不可用,进而造成业务损失。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种云计算平台上Linux云主机业务连续性测试方法及装置。
本发明的目的可以通过以下技术方案来实现:
一种云计算平台上Linux云主机业务连续性测试方法,该方法包括:
接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机;
实时对所述第一Linux虚机进行秒级快照;
在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离;
比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,若相同,则产生连续指示,否则产生报警指示。
进一步地,基于所述Linux虚机启动指令通过云硬盘启动Linux虚机。
进一步地,采用ceph作为分布式存储系统,用ceph中的rbd命令进行所述秒级快照。
进一步地,所述第二租户为系统租户。
进一步地,基于Python的sets数据结构进行比对所述进程名称集合。
本发明还提供一种一种云计算平台上Linux云主机业务连续性测试装置,包括:
虚机启动模块,用于接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机;
快照模块,用于实时对所述第一Linux虚机进行秒级快照;
重启动模块,用于在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离;
测试结果输出模块,用于比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,若相同,则产生连续指示,否则产生报警指示。
进一步地,所述虚机启动模块中,基于所述Linux虚机启动指令通过云硬盘启动Linux虚机。
进一步地,所述快照模块中,采用ceph作为分布式存储系统,用ceph中的rbd命令进行所述秒级快照。
进一步地,所述第二租户为系统租户。
进一步地,所述测试结果输出模块中,基于Python的sets数据结构进行比对所述进程名称集合。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过对用户的Linux虚拟机做“秒级快照”,然后在一个与用户所使用的租户完全隔离的租户中用该快照重新启动系统,并对该系统的对外服务的进程列表与原虚以机的进程列表做比对,判断是否有一些进程没有启动,如果发现有进程没有启动,则对用户发出警告,从而达到帮助用户提升业务连续性的目的。
2、本发明采用云硬盘启动Linux虚机可以方便用分布式存储系统进行秒级快照,提高自动化性能。
3、本发明通过自动化的手段提醒用户业务连续性的风险,从而达到帮助用户提升业务连续性的目的,提高业务连续性。
附图说明
图1为本发明的技术架构图;
图2为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种云计算平台上Linux云主机业务连续性测试方法,该方法通过对Linux虚拟机做“秒级快照”,然后在一个与用户所使用的租户完全隔离的另一租户中用该快照重新启动系统,并对该系统的对外服务的进程列表与原虚机的进程列表做比对,判断是否有一些进程没有启动,如果发现有进程没有启动,则对用户发出警告,从而达到帮助用户提升业务连续性的目的。该方法具体包括如下步骤:
接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机,可通过云硬盘启动Linux虚机;
实时对所述第一Linux虚机进行秒级快照,可采用ceph作为分布式存储系统,用ceph中的rbd命令进行所述秒级快照;
在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离,本实施例中的第二租户为系统租户;
比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,可基于Python的sets数据结构进行比对所述进程名称集合,若相同,则产生连续指示,否则产生报警指示。
本实施例的上述方法应用的技术架构如图1所示,其中涉及的技术要素解释如下:
1)硬件服务器。包括但不限于x86,ARM架构的硬件服务器。它们一般被部署在数据中心中,通过交换机连接构成服务器集群。
2)分布式存储系统。将底层硬件服务器的存储资源软件化,以高效、灵活、统一的方式为上层虚拟机提供存储资源。
3)私有云操作系统,常见的是基于OpenStack、CloudStack等开源软件构建的私有云操作系统。它被安装在硬件服务器所组成的服务器集群上,主要作用是将硬件资源软件化,高效管理硬件服务器的资源,并提供给上层软件所使用。
4)虚机A1。“虚机A1”是“用户A”在其“租户A”环境中启动的一台业务虚机。实际环境中“用户A”可能有不止一台虚机,这里的“A1”只是其中的一个代表。该虚机的操作系统属于Linux内核,典型的如Ubuntu、CentOS、银河麒麟等操作系统,在操作系统之上安装有云平台的“代理软件”(agent),通过该“代理软件”,云平台可以在虚机中执行指令,另外,在虚拟机的Linux操作系统中运行有用户的业务应用,这些应用以web的形式对外提供服务。
5)租户A。“租户”是云中的一块独立的资源空间,这些资源有CPU、内存、硬盘、网络等。一个租户空间可以被分配给一个或多个用户。本实施例假设“租户A”被分配给了“用户A”。
6)系统租户。为系统(而非“用户”)单独开辟的一块资源空间。
7)虚机A2。它是从“虚机A1”的快照中重建并启动的虚机,它运行在独立的计算、存储与网络空间中,不会与“虚机A1”产生资源冲突。
8)进程对比。比较“虚机A1”和“虚机A2”的“对外监听端口的进程集合”,如果发现不一致,云操作系统就会通知用户A具有业务连续性风险。
9)用户A。用户A被分配使用租户A中的资源(如计算、存储和网络资源),并使用这些资源运行业务应用。
本实施例中,上述测试方法如图1所示,包括:
1)通过云硬盘启动Linux虚机,形成“虚机A1”。从云硬盘启动的虚机可以用“分布式存储系统”所提供的接口做“秒级”快照,这样在后续步骤中对该虚机做快照不会影响业务的连续性(相反,用镜像启动的虚拟机,做快照需要虚拟机先关机,再启动,影响业务的连续性)。
2)在接收到连续性检查指令时,开始进行业务连续性测试。本实施例中,通过云服务的图形化界面,产生连续性检查指令。
3)对“虚机A1”进行云硬盘快照。
本实施例中,采用ceph作为分布式存储系统,用ceph重的rbd命令对云硬盘做快照,其用法为rbd--pool{pool-name}snap create--snap{snap-name}{image-name},例如rbd--pool rbd snap create--snap snapname foo。
4)从云硬盘快照启动虚机A2,该虚机A2是启动在“系统租户”中,与“租户A”完全隔离,不会影响虚机A1的正常业务。
5)对比“虚机A1”和“虚机A2”对外服务端口对应的进程名称集合。
获取A1的对外监听进程集合的一种实施方式是:通过云操作系统上的qemu-guest-agent工具在虚机A1中运行sudo netstat-tulpn,并对输出字符进行操作,过滤出对外监听的进程名称集合。
用类似方式获取A2的对外监听进程集合
6)如果“虚机A1”与“虚机A2”的进程名称集合相同,则通知用户业务重启不会影响业务连续性的信息,否则通知用户重启会影响业务连续性,建议用户将进程做开机自启动化处理。本实施例将比较结果通过图形化界面或者邮件的方式反馈给用户。
实施例2
本实施例提供一种云计算平台上Linux云主机业务连续性测试装置,包括虚机启动模块、快照模块、重启动模块和测试结果输出模块,其中,虚机启动模块用于接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机;快照模块用于实时对所述第一Linux虚机进行秒级快照;重启动模块用于在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离;测试结果输出模块用于比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,若相同,则产生连续指示,否则产生报警指示。其余同实施例1。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (10)

1.一种云计算平台上Linux云主机业务连续性测试方法,其特征在于,该方法包括:
接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机;
实时对所述第一Linux虚机进行秒级快照;
在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离;
比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,若相同,则产生连续指示,否则产生报警指示。
2.根据权利要求1所述的云计算平台上Linux云主机业务连续性测试方法,其特征在于,基于所述Linux虚机启动指令通过云硬盘启动Linux虚机。
3.根据权利要求1所述的云计算平台上Linux云主机业务连续性测试方法,其特征在于,采用ceph作为分布式存储系统,用ceph中的rbd命令进行所述秒级快照。
4.根据权利要求1所述的云计算平台上Linux云主机业务连续性测试方法,其特征在于,所述第二租户为系统租户。
5.根据权利要求1所述的云计算平台上Linux云主机业务连续性测试方法,其特征在于,基于Python的sets数据结构进行比对所述进程名称集合。
6.一种云计算平台上Linux云主机业务连续性测试装置,其特征在于,包括:
虚机启动模块,用于接收Linux虚机启动指令,在第一租户的环境中启动第一Linux虚机;
快照模块,用于实时对所述第一Linux虚机进行秒级快照;
重启动模块,用于在接收到连续性检查指令时,基于所述秒级快照在第二租户的环境中启动第二Linux虚机,所述第二租户与第一租户完全隔离;
测试结果输出模块,用于比对所述第一Linux虚机和第二Linux虚机对外服务端口对应的进程名称集合,若相同,则产生连续指示,否则产生报警指示。
7.根据权利要求6所述的云计算平台上Linux云主机业务连续性测试装置,其特征在于,所述虚机启动模块中,基于所述Linux虚机启动指令通过云硬盘启动Linux虚机。
8.根据权利要求6所述的云计算平台上Linux云主机业务连续性测试装置,其特征在于,所述快照模块中,采用ceph作为分布式存储系统,用ceph中的rbd命令进行所述秒级快照。
9.根据权利要求6所述的云计算平台上Linux云主机业务连续性测试装置,其特征在于,所述第二租户为系统租户。
10.根据权利要求6所述的云计算平台上Linux云主机业务连续性测试装置,其特征在于,所述测试结果输出模块中,基于Python的sets数据结构进行比对所述进程名称集合。
CN202010290800.7A 2020-04-14 2020-04-14 云计算平台上Linux云主机业务连续性测试方法及装置 Active CN111538562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010290800.7A CN111538562B (zh) 2020-04-14 2020-04-14 云计算平台上Linux云主机业务连续性测试方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010290800.7A CN111538562B (zh) 2020-04-14 2020-04-14 云计算平台上Linux云主机业务连续性测试方法及装置

Publications (2)

Publication Number Publication Date
CN111538562A true CN111538562A (zh) 2020-08-14
CN111538562B CN111538562B (zh) 2024-02-23

Family

ID=71973012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010290800.7A Active CN111538562B (zh) 2020-04-14 2020-04-14 云计算平台上Linux云主机业务连续性测试方法及装置

Country Status (1)

Country Link
CN (1) CN111538562B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948055A (zh) * 2021-03-04 2021-06-11 华东理工大学 一种基于云计算的创新型课程实验自动管理方法及系统
CN113535336A (zh) * 2021-09-16 2021-10-22 深圳创新科技术有限公司 一种Cloudstack在国产服务器的部署运行方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946433A (zh) * 2012-11-22 2013-02-27 合肥华云通信技术有限公司 云公共服务平台下的大规模计算机资源的监控和调度方法
US20140082166A1 (en) * 2011-04-13 2014-03-20 Netapp, Inc. Identification of virtual applications for backup in a cloud computing system
US20170006053A1 (en) * 2015-06-30 2017-01-05 Microsoft Technology Licensing Llc Automatically preventing and remediating network abuse

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140082166A1 (en) * 2011-04-13 2014-03-20 Netapp, Inc. Identification of virtual applications for backup in a cloud computing system
CN102946433A (zh) * 2012-11-22 2013-02-27 合肥华云通信技术有限公司 云公共服务平台下的大规模计算机资源的监控和调度方法
US20170006053A1 (en) * 2015-06-30 2017-01-05 Microsoft Technology Licensing Llc Automatically preventing and remediating network abuse

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵旭彤;贾京峰;李志明;: "云主机秒级可用技术的设计与实现" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948055A (zh) * 2021-03-04 2021-06-11 华东理工大学 一种基于云计算的创新型课程实验自动管理方法及系统
CN113535336A (zh) * 2021-09-16 2021-10-22 深圳创新科技术有限公司 一种Cloudstack在国产服务器的部署运行方法及装置

Also Published As

Publication number Publication date
CN111538562B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
US11068277B2 (en) Memory allocation techniques at partially-offloaded virtualization managers
US11023589B2 (en) Secure booting of virtualization managers
US10372565B2 (en) Method and apparatus for failover processing
US11429414B2 (en) Virtual machine management using partially offloaded virtualization managers
US8874954B1 (en) Compatibility of high availability clusters supporting application failover with shared storage in a virtualization environment without sacrificing on virtualization features
US9697068B2 (en) Building an intelligent, scalable system dump facility
US10489232B1 (en) Data center diagnostic information
US20030033512A1 (en) Method, system, and product for booting a partition using one of multiple, different firmware images
CN106130763A (zh) 服务器集群及适用于该集群的数据库资源组切换控制方法
CN111538562A (zh) 云计算平台上Linux云主机业务连续性测试方法及装置
US20180357137A1 (en) Selective mirroring of predictively isolated memory
CN114691304B (zh) 实现集群虚拟机高可用的方法和装置、设备和介质
CN115543393A (zh) 升级方法、电子设备及存储介质
CN111338763A (zh) 一种基于nova的允许卸载和挂载系统卷的方法
Kandan et al. A Generic Log Analyzer for automated troubleshooting in container orchestration system
US20240020103A1 (en) Parallelizing data processing unit provisioning
CN117370054A (zh) 一种故障自愈方法及装置
CN115145766A (zh) 一种系统异常恢复的方法和装置
CN115562927A (zh) 异构服务器稳定性测试方法、装置、电子设备及可读介质
CN116431289A (zh) Docker容器维护系统、方法、设备及存储介质
CN116566804A (zh) 一种云环境下智能网卡硬件卸载的单点故障避免方法
CN115373943A (zh) 一种新增资源的检查方法及装置
CN113645056A (zh) 一种定位智能网卡故障的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant