CN108446207A - 计算机系统容灾能力评估方法、装置及系统 - Google Patents

计算机系统容灾能力评估方法、装置及系统 Download PDF

Info

Publication number
CN108446207A
CN108446207A CN201710084095.3A CN201710084095A CN108446207A CN 108446207 A CN108446207 A CN 108446207A CN 201710084095 A CN201710084095 A CN 201710084095A CN 108446207 A CN108446207 A CN 108446207A
Authority
CN
China
Prior art keywords
rehearsal
module
task
disaster tolerance
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710084095.3A
Other languages
English (en)
Other versions
CN108446207B (zh
Inventor
张鑫龙
吴伟明
崔长远
郑礼雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710084095.3A priority Critical patent/CN108446207B/zh
Publication of CN108446207A publication Critical patent/CN108446207A/zh
Application granted granted Critical
Publication of CN108446207B publication Critical patent/CN108446207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3442Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Alarm Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种计算机系统容灾能力评估方法、装置及系统,属于信息安全领域。所述容灾能力评估方法包括:在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;对所述演练任务中的所述演练目标执行模拟宕机操作;采集与所述演练任务对应的实时演练数据;根据基准曲线与所述实时演练数据,得到匹配度;根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果;根据所述模块的容灾效果评估结果,得到所述模块对应的系统的容灾能力评估结果。本发明的技术方案实现了容灾能力评估的自动化,节约人力成本,形成统一评估标准,实现系统容灾能力的横向对比,为系统容灾架构部署调整提供了指导性依据。

Description

计算机系统容灾能力评估方法、装置及系统
技术领域
本发明涉及信息安全领域,特别涉及一种计算机系统容灾能力评估方法、装置及系统。
背景技术
容灾技术是系统的高可用性技术的一个组成部分,容灾系统强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能,容灾技术包括数据级容灾和应用级容灾,数据级容灾是指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏;应用级容灾是在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,使系统所提供的服务是完整的、可靠的和安全的。系统的容灾能力体现了系统的安全性和生命力,若系统容灾能力弱,则需要对系统进行部署调整,使其容灾能力达到并保持在安全值,综上,在系统设计容灾部署方案时,对容灾能力的评估显得尤为重要。
现有技术中,一般都是运营人员手工执行容灾演练步骤,最后得到容灾演练的总结报告,报告的评估结果通常仅包括系统是否正常,而无法反应现网运营系统的健康状态及有损服务的具体损项情况,对容灾能力的评估结果单一而不精确,现有技术至少存在以下缺点:
1、缺乏统一的评估标准,评估过程中是否发送告警,宕机覆盖度及比率、指标变化情况等都未纳入评估考虑范围,评估标准不全面;
2、评估维度单一,现有的容灾能力评估值考虑日志的特殊标志等,评估结果无法展示系统间容灾能力的横向对比结果;
3、评估结果仅展现系统是否正常,无法详细描述容灾能力的大小高低,具有盲目性;
4、人工操作容灾评估步骤,容易出现差错。
发明内容
为了解决现有技术的问题,本发明提供了一种计算机系统容灾能力评估方法及装置。所述技术方案如下:
一方面,本发明提供了一种计算机系统容灾能力评估方法,所述方法包括:
在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;
对所述演练任务的所述演练目标执行模拟宕机操作;
采集与演练任务对应的实时演练数据;
根据基准曲线与所述实时演练数据,得到匹配度;
根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果;
根据所述模块的容灾效果评估结果,得到所述模块对应的系统的容灾能力评估结果。
另一方面,本发明提供了一种计算机系统容灾能力评估装置,所述装置包括:
选取模块,用于在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;
宕机模块,用于对所述演练任务的所述演练目标执行模拟宕机操作;
采集模块,用于采集与演练任务对应的实时演练数据;
比对模块,用于根据基准曲线与所述实时演练数据,得到匹配度;
模块容灾评估模块,用于根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果;
系统容灾评估模块,用于根据所述模块的容灾效果评估结果,得到所述模块对应的系统的容灾能力评估结果。
本发明还提供了一种计算机系统容灾能力评估系统,包括如上所述的计算机系统容灾能力评估装置。
本发明提供的技术方案带来的有益效果如下:
1)实现容灾演练的平台化、自动化和常态化,节约演练实习的人力成本;
2)统一评估标准,客观展示系统容灾能力排名,实现系统能力横向对比,排名数据可靠性高;
3)后端容灾能力数据结果与前端交互良好,为系统容灾架构部署提供指导性的调整依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的容灾能力评估方法及装置的实施环境示意图;
图2是本发明实施例提供的容灾能力评估方法的流程图;
图3是本发明实施例提供的容灾演练的操作时序图;
图4是本发明实施例提供的容灾任务评分方法的流程图;
图5是本发明实施例提供的容灾能力评估装置的模块框图;
图6是本发明实施例提供的容灾任务报告示例图;
图7是本发明实施例提供的容灾能力评估系统的框架图;
图8是本发明实施例提供的容灾能力评估装置的计算机终端的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了一种计算机系统容灾能力评估方法及装置,参考图1,其示出了本发明实施例提供的计算机系统容灾能力评估方法及装置所涉及的实施环境的结构示意图。该实施环境包括配置有用户终端101、容灾能力评估装置102和数据库103。
其中,容灾能力评估装置102如下述装置实施例所述,每个用户终端101通过容灾能力评估装置102对待评估的计算机系统进行容灾能力评估。所述容灾能力评估装置102可以配置在用户终端101中,也可以独立于用户终端101而配置。实施环境中可以有一至多个容灾能力评估装置102,组成一个容灾能力评估装置的集群,当需要进行容灾能力评估的用户终端101的个数较多时,多个容灾能力评估装置102可以并行操作,从而提高容灾能力的评估速度。
数据库103中存储有容灾能力评估装置102在评估过程中所需的数据,如对所述计算机系统进行容灾演练的方案表和任务表,及评估过程中收集的业务指标曲线数据和告警数据等。
数据库103除了可以独立于容灾能力评估装置102和用户终端101配置之外,还可以配置在容灾能力评估装置102中,使得容灾能力评估装置102可以直接从自身配置的数据库中获取所需的数据,或者数据库103还可以配置在用户终端101中,使得容灾能力评估装置102从用户终端101配置的数据库中获取所需的数据,本发明实施例在此不对数据库103的配置方式进行具体限定。
用户终端101与容灾能力评估装置102之间通过网络进行通信,容灾能力评估装置102与数据库103之间也通过网络进行通信,该网络可以为无线网络或有线网络,本发明实施例在此不对通信方式进行具体限定。
在本发明的一个实施例中,提供了一种计算机系统容灾能力评估方法,参见图2,方法流程包括:
S201、在预设的容灾演练范围内,选取演练目标。
容灾能力是指现网系统容忍灾难的能力,在本发明中,灾难是指通过模拟机器宕 机效果,即现网系统/集群中的部分机器宕机时,根据自身恢复机制表现出的保护系统健康 的能力,模拟机器宕机效果的可选方式为修改iptables方式,本发明中,容灾能力值是在根 据容灾方案进行容灾演练中,对系统的容灾能力根据一定规则进行打分。所述容灾方案中 预设了所述容灾演练范围,容灾演练范围为从配置中心拉取的业务系统部署相关信息,所 述配置中心配置的部署架构为服务->系统->集群->模块,具体的架构从属关系如下:一个 或多个机器组成模块,一个或多个模块组成集群,系统包括一个或多个所述集群,最后由一 个或多个系统组成服务,预设的容灾演练范围内的机器为具备允许宕机的机器,从容灾演 练范围内选取的演练目标即为模块架构下的一个或多个机器,同一个模块架构下的一个或 多个机器(即演练目标)组成一个演练任务。
S202、对演练目标执行模拟宕机操作。
宕机的定义为计算机主机出现意外故障而死机,而在本发明中,并非执行真正的 宕机,而是模拟宕机的效果,所述模拟宕机可以通过iptables将机器封住,使其从现网中隔 离,达到模拟宕机的效果。
S203、采集与演练任务对应的实时演练数据。
具体地,所述业务为能够反映自身健康状态的指标,比如请求量、成功量等业务指标,根据接收到的业务请求,对所述业务指标进行监控采集,得到与所述业务请求相对应的演练数据,并以时间维度进行标记。
S204、将所述实时演练数据拟合为演练曲线。
具体地,采用曲线拟合算法将实时标记的演练数据拟合成曲线,定义为演练曲线。
S205、比对基准曲线与所述演练曲线,得到匹配度。
所述基准曲线为在非容灾演练状态下,响应于相同的演练任务,得到对应的实时基准数据,并将所述实时基准数据拟合得到的曲线,定义为基准曲线;所述相同的演练任务是指所述基准数据与所述演练数据是基于同一个演练任务得到,所述演练任务是为容灾演练制定的演练方案中的内容,但是其可以在非容灾演练状态(健康状态)下执行,得到基准数据(即健康状态下的健康数据),由演练数据与健康数据各自拟合的曲线比对得到匹配度,将所述基准曲线与演练曲线进行比对,若可重合度高,则匹配度高,若可重合度低,则匹配度低,优选地,采集不同日而同期(时间分钟相同)的基准数据,前提为该同期内的不处于容灾演练状态,最后拟合得到同期的基准曲线。
S206、根据所述匹配度,得到演练任务的任务执行度结果。
具体地,根据所述匹配度和预设的计算公式,计算演练目标的任务评分,得到演练任务的任务执行度结果。
S207、根据演练任务的任务执行度结果,得到与演练任务对应的模块的容灾效果评估结果。
具体地,根据所述演练任务的任务执行度结果,计算单任务执行或者多任务并行的模块得分,得到模块的容灾效果评估结果。
S208、根据模块的容灾效果评估结果,得到模块对应的系统的容灾能力评估结果。
具体地,同一个系统下具有多个模块,统计属于同一系统的模块的容灾效果评估结果,根据统计结果得到系统得分,即为系统容灾能力评估数据。
在本发明的一个实施例中,提供了一种计算机系统容灾演练的操作方法,参见图3可知,本发明中的演练方案是基于数据平台的容灾演练平台,完整的容灾演练操作流程如下:运维终端首先创建一个容灾方案,所述容灾方案创建成功后,评审终端在运维终端对所述容灾方案进行评审,如果容灾方案需要修改,则修改后再次由相关评审终端进行评审,直至评审通过,经过评审确认后的容灾方案才能发起一个容灾任务,成功发起容灾任务后,需要更高一级的审核终端在运维端对容灾任务进行审核,只有在审核通过后,所述容灾任务才能正式启动,即为开始容灾演练,演练开始后,在容灾对象(待评估的系统或服务)和容灾能力评估装置之间进行交互,同时,在容灾演练期间,所述容灾对象与运维web端也进行实时交互,而运维web端的用户在容灾任务执行期间可随时人工干预终止,终止后交由用户终端自己恢复。在遇到异常情况下,比如按宕机策略计算得到的宕机数量大于等于集群的机器数量总和,则及时通知操作中心,并实时反馈给web端供运维人员查看,完成恢复后,会生成评估报告以评估此次的容灾演练详情,并得到评估排名,实现系统容灾能力的横向对比。
为了详细说明对系统容灾能力的评估流程,在本发明的一个实施例中,提供了完整的评估方法,参见图4,包括以下方法流程:
S301、创建容灾方案并通过评审。
具体地,由前端创建容灾方案,所述容灾方案包括容灾演练范围、容灾时长、宕机策略和业务指标,其中,
所述容灾演练范围定义了进行模拟宕机操作的机器对象,所述容灾演练范围从配置中心拉取“服务->系统->集群->模块”的部署架构信息,并从中选取与容灾方案对应的模块及该模块所属的集群;
所述容灾时长即为容灾演练时长,具体以开始宕机为起点、结束宕机恢复机器为终点计算评估有效时长;
所述宕机策略分为主控模块宕机策略和非主控模块宕机策略,主控模块定义为任务调度模块,非主控模块定义为任务执行模块,比如在分布式系统中以多进程的方式在多台机器上进行并行任务处理,常采用master和slave模块,其中,master就是主控模块,为任务的调度者,给多个slave分配任务;slave就是非主控模块,为任务的执行者,服从master的调度管理并接受执行任务,具体的宕机策略为:主控模块按指定台数执行宕机,并区分有损与无损,有损是指宕机可能会损害系统并需要人工干预以降低损害的程度,无损则无须干预;非主控模块按比例执行宕机;另一方面,为了防止意外,当后台按宕机策略计算出具体的宕机数大于等于集群的机器(没有故障)总数时,容灾任务会报异常并自行终止;
所述业务指标为已经上报给秒级监控、并且能够反映系统业务是否正常的指标,如请求量、成功量等业务参数。
为了保障容灾演练的安全性,需要对容灾方案进行评审,在评审通过后再进行发起容灾任务,具体的评审内容包括对所述容灾演练范围进行核查,核查容灾演练范围是否包括多个集群复用的机器或标记有故障的机器,也包括对容灾时长、宕机策略及业务指标进行校验等等。
S302、发起容灾任务并通过审核。
执行一个容灾方案,可以发起一个容灾任务,所述容灾任务即指对业务机器执行宕机任务。当成功发起容灾任务后,需要比方案评审的管理等级更高一级的用户终端对容灾任务进行审核,审核内容包括判断执行该任务是否会系统造成有损,避免容灾演练对系统造成实际损害,在审核通过后执行S303。
S303、启动容灾任务。
启动容灾任务,即前端向后台发送演练指令,后台根据所述演练指令执行容灾演练。
S304、选取演练目标,执行模拟宕机。
后台根据前端创建的容灾方案,在预设的容灾演练范围内选取演练目标,对所述 演练目标执行模拟宕机操作。所述演练目标基于“服务->系统->集群->模块”的部署架构信 息,具体可以为模块下的一个或多个机器,这里的宕机为通过iptables指令将选取的目标 机器从现网中隔离,所述iptables是用来设置、维护和检查Linux内核的IP包过滤规则的, iptables定义规则的方式比较复杂:
iptables[-t table]COMMAND chain CRETIRIA-j ACTION
其中,-t table为3个filter nat mangle,COMMAND为定义如何对规则进行管理,chain指定接下来的规则在哪个链上操作(当定义策略的时候,可以省略),CRETIRIA为指定匹配标准,-j ACTION为指定如何进行处理,比如:不允许172.16.0.0/24进行访问。
iptables-t filter-A INPUT-s 172.16.0.0/16-p udp--dport 53-j DROP
除此,可以采用iptables以外的其他方式对目标机器进行模拟宕机操作,使得目 标机器断开网络,同样可以实现本发明的技术方案,本发明对模拟宕机的方式不做具体限 定。
S305、采集业务指标。
上述的容灾方案中包括业务指标,前端根据容灾方案,向后台发送具体的业务指标请求,后台响应该请求,开启对业务指标的秒级监控,采集业务指标的时间范围可以从容灾演练的前一日0点开始直至容灾结束,所述业务指标是针对于能体现一个模块业务被影响程度的指标,而一个模块包括一个或多个演练目标(宕机机器),属于同一模块的演练目标组成一个演练任务,则所述业务指标即为与演练任务对应的演练数据,所述演练数据以采集时间分布在二维平面内。从0点开始采集的目的是适应用户在秒级监控上的查看习惯,能看到长时间范围内非容灾状态/容灾状态的业务指标比对情况。
秒级监控为优选监控方式,除此,采用毫秒粒度或分钟粒度进行监控同样可以实现本发明的技术方案,对此,秒级监控的方式不应该限定本发明的保护范围;采集指标的时间也可以延长到容灾结束后一天的同期,使得两种状态下(容灾/非容灾状态)的业务指标可以进行同期比对,甚至可以提前/延后N天进行采集,或者将两种状态下不同期的业务指标数据进行比对同样可以实现本发明的技术方案,在此不作具体限定。
S306、判断容灾演练是否结束,若演练结束,则执行S307,若演练未结束,则返回S305继续执行采集业务指标操作。
具体判断容灾演练是否结束的依据为容灾方案中的容灾时长,从执行模拟宕机开始计时,达到所述容灾时长,则判定为容灾演练结束。
S307、结束宕机。
当容灾演练时间达到预设的容灾时长时,对所述演练目标停止模拟宕机操作,即 通过iptables对演练目标进行解封或者采用其他方式对所述演练目标恢复网络。
S308、拟合基准曲线和演练曲线。
在容灾演练期内采集的业务指标为演练数据,在前一日同期(也可以后一日同期)采集相同业务的指标数据为基准数据,采用相同的拟合算法或者不同的拟合算法将演练数据/基准数据拟合为演练曲线/基准曲线。
实际上,所述容灾演练过程中的大部分曲线在短期(比如一个小时)内,曲线近似一条直线,即使曲线不似直线,也可以把曲线分成几段,每段用直线拟合,通过直线拟合,能够简化问题。假设当前业务曲线点及近几个曲线点组成的直线为y=a+bx,采用最小二乘法计算直线参数a和b:
其中:xi和yi分别为用于拟合的点的横坐标和纵坐标,N为拟合点的个数。之所以采用同期数据进行匹配比对,是因为两条同期曲线使匹配度更直观,若不采用同期比对的方式,通过计算各自的斜率,同样可以实现计算匹配率,本发明对是否采集同期业务指标数据进行曲线匹配度计算不作具体限定。
S309、比对曲线,得到匹配度。
将演练曲线和基准曲线进行比对,两个曲线贴合度越高,则演练数据和基准数据的匹配度就越高,进一步说明容灾能力越强。所述匹配度是计算容灾能力的重要参数,所述匹配度的计算方式如下:
通过上边的公式,我们可以在容灾区间内及前一日(或后一日)同期取得取样点,代入可以分别求出容灾期间和前一日(或后一日)同期的两条直线斜率k1和k2,通过斜率可以计算出两条直线的夹角,计算夹角公式如下:
通过夹角的大小判断得出两条曲线的匹配度,具体的曲线匹配度计算规则如下:
若夹角<5°,则匹配度=1.0;
若夹角>=5°且夹角<10°,则匹配度=0.8;
若夹角>=10°且夹角<15°,则匹配度=0.7;
若夹角>=15°,则匹配度=0.6。
以上为计算曲线匹配度的优选规则,但是本发明对曲线匹配度的计算规则的具体数值不作具体限定,所有以此思路计算曲线匹配度的方法都属于本发明的保护范围。同时,若在容灾演练过程中的业务指标曲线分成若干个段,每段用直线拟合,计算得到若干段业务指标对应的匹配度,然后根据时间比例,计算综合匹配度,所述综合匹配度的计算公式如下:其中,为综合匹配度,ti是第i个时间段时长,t为总时长,mi为与ti对应的匹配度,比如,容灾演练时长为1小时,前20分钟的曲线匹配度为1.0,后40分钟的曲线匹配度为0.8,则综合匹配度为0.867(四舍五入)。
S310、任务评估打分。
一个模块相应执行一个任务,每个任务都对应有一个模块任务评分,所述模块任务评分的计算公式为:
模块任务评分=模块基础分*曲线匹配度+附加分,
其中:在演练有损的情况下,主控模块的模块基础分为90分,在演练无损的情况下,主控模块的模块基础分为95分;在宕机数大于2或宕机比例大于等于50%的情况下,非主控模块的模块基础分为95分,在宕机数等于2的情况下,非主控模块的模块基础分为80分,在宕机数等于1的情况下,非主控模块的模块基础分为60分,
附加分项目包括:若在停止容灾演练后5分钟之内业务曲线恢复到容灾之前的曲线,则附加分为+5分,否则不得分;针对主控模块,若在容灾期间未产生DOSS告警,则附加分为-5分,反之不得分。
S311、生成任务报告。
在容灾演练过程中或者容灾演练完成后,会生产任务报告,并显示在web前端,参见图6,可见任务报告显示了演练曲线和基准曲线的比对图,曲线分别以时间为横轴,以业务数据为纵轴,并显示当前任务的宕机台数和宕机比例、匹配度结果、恢复时常,以及最后的模块任务评分,由图6中可以看出,当前容灾方案中包括两个模块,一个为PctrServer模块,另一个为MixerServer模块,由图中类型一栏可以判定,这两个模块均为非主控模块,其中,PctrServer模块的宕机比例为10%,宕机数为3台,按照上述规则可以得到,该模块的模块基础分为95分,图6显示界面的右侧为任务时间轴,上面显示了容灾任务创建成功的时间、容灾开始时间,PctrServer模块和MixerServer模块对宕机对象解封IP的开始和结束时间,根据解封IP的开始和结束时间在图TRE2.0_Pctr请求量的曲线图(演练曲线和基准曲线)中计算匹配度为1(量曲线的夹角小于5°),由恢复时长一栏中的2-5分钟可以得到附加分+5分,根据公式模块任务评分=模块基础分*曲线匹配度+附加分可以得到,PctrServer模块的任务得分为100分;同理可以得到MixerServer模块模块任务得分为85分,当前任务分取两个模块任务得分的平均分,并将所述平均分(即92分)显示在任务报告中。
S312、任务并行,模块评估打分。
所述模块可以执行多个任务,每个任务都根据上述计算方式得到模块任务评分,再由模块任务评分计算模块得分:
模块得分=(∑(模块任务评分)/执行任务数)*模块集群接入率,
其中,模块集群接入率为在预设的容灾演练范围中选取演练目标时,演练目标所属的集群被纳入容灾方案的百分比,一个演练目标对应于一个模块,而一个模块可以同时存在于不同的集群中,假如演练目标对应的模块同时存在于10个集群中,其中,有4个集群中为重要模块组成,设定于容灾方案的容灾演练范围之外,其余6个集群被纳入容灾方案的容灾演练范围之内,则所述模块集群接入率为60%。
S313、模块并行,计算系统得分。
同一个系统中存在有一个或多个模块执行容灾演练,每个参与容灾演练的模块即为接入模块,一个系统中参与容灾演练的模块数量即为接入模块数,每个接入模块根据以上模块得分的计算方式获得接入模块得分,进一步可以计算所在系统的系统得分,即为系统容灾能力得分,计算公式为:
系统得分=∑(接入模块得分)/接入模块数。
S314、生成系统容灾能力排名。
在同一个服务器下存在有多个系统,每个系统的容灾能力得分都根据以上计算方式获取,再根据各系统的容灾能力得分进行排序,并在web前端上显示上述系统容灾能力排名。
S315、系统并行,计算服务得分。
计算在同一个服务器下的多个系统的容灾能力得分(即系统得分),然后计算服务得分,即为服务的容灾能力得分,计算公式为:
服务得分=∑(接入系统得分)/接入系统数。
在本发明的一个实施例中,提供了一种计算机系统容灾能力评估装置,所述装置的模块架构参见图5,所述装置包括以下模块:
接收模块570,用于接收由前端创建的容灾方案,所述容灾方案包括容灾演练范围、容灾时长、宕机策略和业务指标;
选取模块510,用于在预设的容灾演练范围内,选取演练目标;
宕机模块520,用于对演练目标执行模拟宕机操作;
采集模块530,用于接收业务请求,采集与所述业务请求对应的实时演练数据;
拟合模块540,用于将所述实时演练数据拟合为演练曲线;
比对模块550,用于比对基准曲线与所述演练曲线,得到匹配度;
任务评估模块561,用于根据所述匹配度,得到演练任务的任务执行度结果;
模块容灾评估模块562,用于根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果;
系统容灾评估模块563,用于统计属于同一系统的模块的容灾效果评估结果,并得到系统容灾能力评估结果。
任务评估模块561,根据匹配度、模块基础参数和附加参数,得到所述演练任务的任务执行度结果,其中,所述模块基础参数包括主控模块基础参数和非主控模块基础参数,主控模块基础参数根据演练有损或无损设定相应的参数值,非主控模块基础参数根据宕机的数量或者比例设定相应的参数值,所述附加参数根据恢复容灾速度和告警情况设定相应的参数值,演练任务的任务执行度结果的计算公式为:模块任务评分=模块基础分*匹配度+附加分,其中,演练目标包括主控目标和非主控目标,主控目标的模块基础分根据演练有损或无损设定相应的分值,非主控目标的模块基础分根据宕机的数量或者比例设定相应的分值,所述附加分根据恢复容灾速度和产生告警设定相应的分值;
模块容灾评估模块562根据所述演练任务的任务执行度结果、执行任务数量及模块集群接入率,得到对应的模块的容灾效果评估结果,其中,所述模块集群接入率为选取容灾演练范围时,模块所属的集群被纳入容灾方案的比例,模块的容灾效果评估结果的计算公式为:模块得分=(∑(模块任务评分)/执行任务数量)*模块集群接入率,其中,一个模块可能同时存在在多个集群中,所述模块集群接入率为选取容灾演练范围时,模块所属的集群被纳入容灾方案的比例;
系统容灾评估模块563,根据同一系统内所有模块的容灾效果评估结果和模块数量,得到系统容灾能力评估结果,计算公式为:系统得分=∑(接入模块得分)/接入模块数量;
服务容灾评估模块564,用于根据同一服务器下的所有系统容灾能力评估结果和系统数量,得到服务器容灾能力评估结果,计算公式为:服务的容灾能力得分=∑(接入系统得分)/接入系统数量。
进一步地,本发明实施例提供的容灾能力评估装置还包括基准模块541,用于在非容灾演练状态下,响应于相同的演练任务,得到对应的实时基准数据,并将所述实时基准数据拟合得到基准曲线。
所述基准模块541和拟合模块540向所述比对模块550输入比对数据,所述比对模块550包括夹角模块551,所述夹角模块551用于获取演练曲线与基准曲线之间的夹角大小,并根据预设的夹角大小与匹配度的对应规则,得到所述演练曲线与基准曲线的匹配度,本实施例中,提供一种匹配度计算规则,本发明不限定于以下匹配度计算规则的具体值:
若夹角<5°,则匹配度=1.0;
若夹角>=5°且夹角<10°,则匹配度=0.8;
若夹角>=10°且夹角<15°,则匹配度=0.7;
若夹角>=15°,则匹配度=0.6。
进一步地,本发明实施例提供的容灾能力评估装置还包括告警模块581和停止模块582,所述告警模块581用于在容灾演练过程中,发出告警;所述停止模块582用于在采集与演练任务对应的实时演练数据之后,停止对演练目标执行模拟宕机操作。
进一步地,本发明实施例提供的容灾能力评估装置还包括报告模块591和排名模块592,所述报告模块591用于生成容灾任务报告,所述排名模块592用于在计算得到系统得分后生成系统容灾能力排名。
需要说明的是:上述实施例提供的物联网控制装置在进行统一管理控制时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将物联网控制装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例提供的物联网控制装置实施例与上述实施例提供物联网控制方法属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在本发明的一个实施例中,提供了一种计算机系统容灾能力评估系统,参见图7,包括web前端、数据库和如上所述的容灾能力评估装置(即后台SVR,support vectorregression),所述web前端包括四个部分:方案管理、任务管理、演练报告和综合排名,其中,方案管理为用户增删改容灾方案,任务管理为用户对容灾方案发起实施会产生一次任务,而每次任务都将得到评估评分,演练报告为用户在任务执行过程中,或者执行任务完毕后,可以查看单次任务的报告详情,综合排名为查看每个系统之间容灾能力的横向对比;
数据库包括两个部分:容灾方案和评估数据,具体地,所述数据库中存储有容灾方案表和任务表,以及在任务执行过程中,收集的业务指标曲线数据和告警数据;
所述SVR包括两部分:发起方案(方案解析+驱动方案)和方案评估(监控指标+任务评分),后台SVR从数据库获取容灾方案,所述容灾方案包括的容灾演练范围从配置中心中拉取业务系统部署信息,根据宕机策略和容灾演练范围,随机抽取需要宕机的ip列表组成演练集群,继而发起对指定机器的模拟宕机行为,方案评估是有根据当前的容灾时长内的告警情况、业务曲线匹配度结合当前容灾方案得出的评估得分,所述业务曲线匹配度通过秒级监控进行监控采集,所述告警情况通过DOSS(Data Operation Support System)获取告警信息,所述秒级监控和DOSS均为收归系统,所述秒级监控收归业务曲线信息,所述DOSS收归告警情况信息。
本发明实施例提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行,在本发明的一个实施例中,以运行在计算机终端上为例,图8是本发明实施例的容灾能力评估装置的计算机终端的硬件结构框图。如图8所示,终端800可以包括RF(RadioFrequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图8中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图8中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端800还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端800移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端800之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端800的通信。
WiFi属于短距离无线传输技术,终端800通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块170,但是可以理解的是,其并不属于终端800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端800的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端800的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选地,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端800还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端800还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;
对演练目标执行模拟宕机操作;
采集与演练任务对应的实时演练数据,并将所述实时演练数据拟合为演练曲线;
比对基准曲线与所述演练曲线,得到匹配度;
根据所述匹配度,得到演练任务的任务执行度结果;
根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果;
统计属于同一系统的模块的容灾效果评估结果,并得到系统容灾能力评估结果。
具体地,终端的处理器还用于执行以下操作的指令:在非容灾演练状态下,响应于相同的演练任务,得到对应的实时基准数据,并将所述实时基准数据拟合得到基准曲线。
具体地,终端的处理器还用于执行以下操作的指令:获取演练曲线与基准曲线之间的夹角大小,并根据预设的夹角大小与匹配度的对应规则,得到所述演练曲线与基准曲线的匹配度。
具体地,终端的处理器还用于执行以下操作的指令:根据匹配度、模块基础参数和附加参数,得到所述演练任务的任务执行度结果,其中,所述模块基础参数包括主控模块基础参数和非主控模块基础参数,主控模块基础参数根据演练有损或无损设定相应的参数值,非主控模块基础参数根据宕机的数量或者比例设定相应的参数值,所述附加参数根据恢复容灾速度和告警情况设定相应的参数值。
具体地,终端的处理器还用于执行以下操作的指令:根据所述演练任务的任务执行度结果、执行任务数量及模块集群接入率,得到对应的模块的容灾效果评估结果,其中,所述模块集群接入率为选取容灾演练范围时,模块所属的集群被纳入容灾方案的比例。
具体地,终端的处理器还用于执行以下操作的指令:基于同一系统,根据所有模块的容灾效果评估结果和模块数量,得到系统容灾能力评估结果。
具体地,终端的处理器还用于执行以下操作的指令:接收由前端创建的容灾方案,所述容灾方案包括容灾演练范围、容灾时长、宕机策略和业务指标。
具体地,终端的处理器还用于执行以下操作的指令:在容灾演练过程中,发出告警;所述采集与演练任务对应的实时演练数据之后还包括:停止对演练目标执行模拟宕机操作。
具体地,终端的处理器还用于执行以下操作的指令:生成容灾任务报告和系统容灾能力排名。
具体地,终端的处理器还用于执行以下操作的指令:基于同一服务器,根据所有系统容灾能力评估结果和系统数量,得到服务器容灾能力评估结果。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解到本发明提供的容灾能力评估技术方案可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本发明的一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,一个或者一个以上程序被一个或者一个以上的处理器用来执行容灾能力评估的方法指令,所述方法指令包括:
在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;
对演练目标执行模拟宕机操作;
采集与演练任务对应的实时演练数据,并将所述实时演练数据拟合为演练曲线;
比对基准曲线与所述演练曲线,得到匹配度;
根据所述匹配度,得到演练任务的任务执行度结果;
根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果;
统计属于同一系统的模块的容灾效果评估结果,并得到系统容灾能力评估结果。
具体地,所述根据基准曲线与所述实时演练数据,得到匹配度之前还包括:在非容灾演练状态下,响应于相同的演练任务,得到对应的实时基准数据,并将所述实时基准数据拟合得到基准曲线。
优选地,所述比对基准曲线与所述演练曲线包括:获取演练曲线与基准曲线之间的夹角大小,并根据预设的夹角大小与匹配度的对应规则,得到所述演练曲线与基准曲线的匹配度。
进一步地,根据匹配度、模块基础参数和附加参数,得到所述演练任务的任务执行度结果,其中,所述模块基础参数包括主控模块基础参数和非主控模块基础参数,主控模块基础参数根据演练有损或无损设定相应的参数值,非主控模块基础参数根据宕机的数量或者比例设定相应的参数值,所述附加参数根据恢复容灾速度和告警情况设定相应的参数值。
优选地,所述根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果包括:根据匹配度,得到所述演练任务的任务执行度结果,进而根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果;所述根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果包括:根据所述演练任务的任务执行度结果、执行任务数量及模块集群接入率,得到对应的模块的容灾效果评估结果,其中,所述模块集群接入率为选取容灾演练范围时,模块所属的集群被纳入容灾方案的比例。
进一步地,基于同一系统,根据所有模块的容灾效果评估结果和模块数量,得到系统容灾能力评估结果。
进一步地,所述选取演练目标之前还包括:接收由前端创建的容灾方案,所述容灾方案包括容灾演练范围、容灾时长、宕机策略和业务指标。
本发明实施例提供的计算机系统容灾能力评估方法还包括:在容灾演练过程中,发出告警;所述采集与演练任务对应的实时演练数据之后还包括:停止对演练目标执行模拟宕机操作。
本发明实施例提供的计算机系统容灾能力评估方法还包括:生成容灾任务报告和系统容灾能力排名,或者还包括:基于同一服务器,根据所有系统容灾能力评估结果和系统数量,得到服务器容灾能力评估结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种计算机系统容灾能力评估方法,其特征在于,所述方法包括:
在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;
对所述演练任务中的所述演练目标执行模拟宕机操作;
采集与所述演练任务对应的实时演练数据;
根据基准曲线与所述实时演练数据,得到匹配度;
根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果;
根据所述模块的容灾效果评估结果,得到所述模块对应的系统的容灾能力评估结果。
2.根据权利要求1所述的方法,其特征在于,所述根据基准曲线与所述实时演练数据,得到匹配度之前还包括:在非容灾演练状态下,响应于相同的演练任务,得到对应的实时基准数据,并将所述实时基准数据拟合得到基准曲线。
3.根据权利要求1所述的方法,其特征在于,所述根据基准曲线与所述实时演练数据,得到匹配度包括:将所述实时演练数据拟合为演练曲线,获取演练曲线与基准曲线之间的夹角大小,并根据预设的夹角大小与匹配度的对应规则,得到所述演练曲线与基准曲线的匹配度;
根据匹配度、模块基础参数和附加参数,得到所述演练任务的任务执行度结果,其中,所述模块基础参数包括主控模块基础参数和非主控模块基础参数,主控模块基础参数根据演练有损或无损设定相应的参数值,非主控模块基础参数根据宕机的数量或者比例设定相应的参数值,所述附加参数根据恢复容灾速度和告警情况设定相应的参数值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果包括:根据匹配度,得到所述演练任务的任务执行度结果,进而根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果;
所述根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果包括:根据所述演练任务的任务执行度结果、执行任务数量及模块集群接入率,得到对应的模块的容灾效果评估结果,其中,所述模块集群接入率为选取容灾演练范围时,模块所属的集群被纳入容灾方案的比例;
基于同一系统,根据所有模块的容灾效果评估结果和模块数量,得到系统的容灾能力评估结果。
5.根据权利要求1所述的方法,其特征在于,所述选取演练目标之前还包括:接收由前端创建的容灾方案,所述容灾方案包括容灾演练范围、容灾时长、宕机策略和业务指标。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,还包括:在容灾演练过程中,发出告警;
所述采集与演练任务对应的实时演练数据之后还包括:停止对演练目标执行模拟宕机操作。
7.根据权利要求6所述的方法,其特征在于,还包括:生成容灾任务报告和系统容灾能力排名,或者还包括:基于同一服务器,根据所有系统容灾能力评估结果和系统数量,得到服务器容灾能力评估结果。
8.一种计算机系统容灾能力评估装置,其特征在于,包括:
选取模块,用于在预设的容灾演练范围内,选取演练目标,属于同一模块的演练目标组成一个演练任务;
宕机模块,用于对所述演练任务中的所述演练目标执行模拟宕机操作;
采集模块,用于采集与所述演练任务对应的实时演练数据;
比对模块,用于根据基准曲线与所述实时演练数据,得到匹配度;
模块容灾评估模块,用于根据所述匹配度,得到与所述演练任务对应的模块的容灾效果评估结果;
系统容灾评估模块,用于根据所述模块的容灾效果评估结果,得到所述模块对应的系统的容灾能力评估结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括基准模块,用于在非容灾演练状态下,响应于相同的演练任务,得到对应的实时基准数据,并将所述实时基准数据拟合得到基准曲线。
10.根据权利要求8所述的装置,其特征在于,所述比对模块包括拟合模块和夹角模块,所述拟合模块用于将所述实时演练数据拟合为演练曲线,所述夹角模块用于获取演练曲线与基准曲线之间的夹角大小,并根据预设的夹角大小与匹配度的对应规则,得到所述演练曲线与基准曲线的匹配度;
所述任务评估模块根据匹配度、模块基础参数和附加参数,得到所述演练任务的任务执行度结果,其中,所述模块基础参数包括主控模块基础参数和非主控模块基础参数,主控模块基础参数根据演练有损或无损设定相应的参数值,非主控模块基础参数根据宕机的数量或者比例设定相应的参数值,所述附加参数根据恢复容灾速度和告警情况设定相应的参数值。
11.根据权利要求8所述的装置,其特征在于,所述模块容灾评估模块还包括任务评估模块,所述任务评估模块用于根据匹配度,得到所述演练任务的任务执行度结果,所述模块容灾评估模块根据所述演练任务的任务执行度结果,得到与所述演练任务对应的模块的容灾效果评估结果,包括:根据所述演练任务的任务执行度结果、执行任务数量及模块集群接入率,得到对应的模块的容灾效果评估结果,其中,所述模块集群接入率为选取容灾演练范围时,模块所属的集群被纳入容灾方案的比例;
所述系统容灾评估模块,根据同一系统内所有模块的容灾效果评估结果和模块数量,得到系统容灾能力评估结果。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括接收模块,用于接收由前端创建的容灾方案,所述容灾方案包括容灾演练范围、容灾时长、宕机策略和业务指标。
13.根据权利要求8-12中任意一项所述的装置,其特征在于,所述装置还包括告警模块和停止模块,
所述告警模块用于在容灾演练过程中,发出告警;
所述停止模块用于在采集与演练任务对应的实时演练数据之后,停止对演练目标执行模拟宕机操作。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括报告模块和排名模块,所述报告模块用于生成容灾任务报告,所述排名模块用于生成系统容灾能力排名;
所述装置还包括服务容灾评估模块,用于根据同一服务器下的所有系统容灾能力评估结果和系统数量,得到服务器容灾能力评估结果。
15.一种计算机系统容灾能力评估系统,其特征在于,包括如权利要求8-14任一所述的计算机系统容灾能力评估装置。
CN201710084095.3A 2017-02-16 2017-02-16 计算机系统容灾能力评估方法、装置及系统 Active CN108446207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710084095.3A CN108446207B (zh) 2017-02-16 2017-02-16 计算机系统容灾能力评估方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710084095.3A CN108446207B (zh) 2017-02-16 2017-02-16 计算机系统容灾能力评估方法、装置及系统

Publications (2)

Publication Number Publication Date
CN108446207A true CN108446207A (zh) 2018-08-24
CN108446207B CN108446207B (zh) 2022-09-23

Family

ID=63190684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710084095.3A Active CN108446207B (zh) 2017-02-16 2017-02-16 计算机系统容灾能力评估方法、装置及系统

Country Status (1)

Country Link
CN (1) CN108446207B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502431A (zh) * 2019-07-16 2019-11-26 阿里巴巴集团控股有限公司 系统服务评测方法、装置及电子设备
CN111752787A (zh) * 2019-03-26 2020-10-09 中移(苏州)软件技术有限公司 一种资源池容灾演练方法、装置及存储介质
CN111813643A (zh) * 2020-07-08 2020-10-23 上海燕汐软件信息科技有限公司 一种用于故障管理系统的数据处理方法、装置及系统
CN112711510A (zh) * 2020-12-29 2021-04-27 长威信息科技发展股份有限公司 一种业务连续性运行监测自动适配方法及系统
CN114389849A (zh) * 2021-12-17 2022-04-22 中电信数智科技有限公司 一种网络安全的灾备演练方法及系统
CN116185723A (zh) * 2023-04-28 2023-05-30 杭州美创科技股份有限公司 数据库容灾切换演练方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122926A1 (en) * 2012-10-31 2014-05-01 Internation Business Machines Corporation Simulation engine for use in disaster recovery virtualization
CN103984309A (zh) * 2014-05-09 2014-08-13 浙江中烟工业有限责任公司 一种具有容灾功能的卷烟生产系统及其容灾演练方法
CN104809933A (zh) * 2015-05-13 2015-07-29 国网智能电网研究院 一种电网无脚本应急演练系统、演练方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122926A1 (en) * 2012-10-31 2014-05-01 Internation Business Machines Corporation Simulation engine for use in disaster recovery virtualization
CN103984309A (zh) * 2014-05-09 2014-08-13 浙江中烟工业有限责任公司 一种具有容灾功能的卷烟生产系统及其容灾演练方法
CN104809933A (zh) * 2015-05-13 2015-07-29 国网智能电网研究院 一种电网无脚本应急演练系统、演练方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘明锦: "基于虚拟化的多校区容灾系统实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752787A (zh) * 2019-03-26 2020-10-09 中移(苏州)软件技术有限公司 一种资源池容灾演练方法、装置及存储介质
CN110502431A (zh) * 2019-07-16 2019-11-26 阿里巴巴集团控股有限公司 系统服务评测方法、装置及电子设备
CN110502431B (zh) * 2019-07-16 2023-01-17 创新先进技术有限公司 系统服务评测方法、装置及电子设备
CN111813643A (zh) * 2020-07-08 2020-10-23 上海燕汐软件信息科技有限公司 一种用于故障管理系统的数据处理方法、装置及系统
CN112711510A (zh) * 2020-12-29 2021-04-27 长威信息科技发展股份有限公司 一种业务连续性运行监测自动适配方法及系统
CN114389849A (zh) * 2021-12-17 2022-04-22 中电信数智科技有限公司 一种网络安全的灾备演练方法及系统
CN114389849B (zh) * 2021-12-17 2024-04-16 中电信数智科技有限公司 一种网络安全的灾备演练方法及系统
CN116185723A (zh) * 2023-04-28 2023-05-30 杭州美创科技股份有限公司 数据库容灾切换演练方法、装置、计算机设备及存储介质
CN116185723B (zh) * 2023-04-28 2023-08-08 杭州美创科技股份有限公司 数据库容灾切换演练方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108446207B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN108446207A (zh) 计算机系统容灾能力评估方法、装置及系统
CN107376353B (zh) 关卡配置方法及装置
CN104679969B (zh) 防止用户流失的方法及装置
CN106937158A (zh) 直播显示方法、装置及系统
CN112364439A (zh) 自动驾驶系统的仿真测试方法、装置以及存储介质
CN108268366A (zh) 测试用例执行方法及装置
CN110209639A (zh) 信息处理方法、装置及系统
CN105320701B (zh) 功能点测试实现方式的筛选方法、装置及终端
CN108712276A (zh) 基于区块链技术的共识网络管理方法、装置、设备及存储介质
CN105224556B (zh) 瀑布流界面显示方法及装置
CN103473011A (zh) 一种移动终端性能检测方法、装置及移动终端
CN108681498A (zh) 一种cpu占用率的监测方法、装置以及移动终端
CN106294168B (zh) 一种进行应用程序测试的方法和系统
CN103530520A (zh) 一种数据获取的方法及终端
CN109934512A (zh) 一种预测模型的训练方法及系统
CN107894950A (zh) 一种设备检测方法、装置、服务器及存储介质
CN110069375A (zh) 一种压力测试的方法以及相关装置
CN106512405B (zh) 一种虚拟对象的外挂资源获取的方法及装置
CN108541009A (zh) 一种通信状态的检测方法和终端设备
CN107734170A (zh) 一种通知消息处理方法、移动终端及穿戴设备
CN109523977A (zh) 背光调节方法、装置、移动终端和存储介质
CN106201816A (zh) 提醒方法及装置
CN109246233A (zh) 基于在线监控的数据处理方法、装置、设备及存储介质
CN109582565A (zh) 防止应用崩溃的方法、终端及计算机存储介质
CN108170559A (zh) 一种数据备份方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant