CN107645397B - 一种在分布式系统进行故障模拟的系统、装置及方法 - Google Patents

一种在分布式系统进行故障模拟的系统、装置及方法 Download PDF

Info

Publication number
CN107645397B
CN107645397B CN201610581699.4A CN201610581699A CN107645397B CN 107645397 B CN107645397 B CN 107645397B CN 201610581699 A CN201610581699 A CN 201610581699A CN 107645397 B CN107645397 B CN 107645397B
Authority
CN
China
Prior art keywords
fault simulation
fault
distributed system
rule
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610581699.4A
Other languages
English (en)
Other versions
CN107645397A (zh
Inventor
周洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610581699.4A priority Critical patent/CN107645397B/zh
Publication of CN107645397A publication Critical patent/CN107645397A/zh
Application granted granted Critical
Publication of CN107645397B publication Critical patent/CN107645397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提供了一种在分布式系统进行故障模拟的系统、装置及方法,其方法包括:接收访问请求;从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求;针对所述特定访问请求,在分布式系统上进行故障模拟。根据本申请的方法及装置,本申请可以有效地控制故障影响的范围并且由于本申请可以在真实的业务环境中直接实施,从而有效节省搭建独立测试环境所带来的运维成本。

Description

一种在分布式系统进行故障模拟的系统、装置及方法
技术领域
本申请涉及计算机领域,尤其涉及一种在分布式系统进行故障模拟的系统、装置及方法。
背景技术
分布式系统通常包括多个应用组件(或称多个子系统),经常会有一些应用组件发生故障。为了解决这些故障,现有技术通常会在独立的测试环境中模拟一些故障,以通过度量分布式系统在模拟故障下的表现来确定解决所模拟故障的方案,从而将该方案用于解决真实业务环境下的故障。
现有技术中,为了度量分布式系统在故障下的表现,通常模拟的是服务器集群级别的故障,此类故障对真实业务环境容易造成很大的影响。为了避免此类大的影响,需要搭建与真实业务环境隔离的测试环境来进行故障的模拟,这一方面需要耗费较大的运维成本,另一方面在隔离的测试环境下进行故障模拟,所得到的系统的表现结果并不一定与真实业务环境下系统的真实结果相符,从而不利于获得切实可行的用于解决实际故障的方案。
发明内容
本申请的一个目的是有效控制在分布式系统上模拟故障的影响范围。
根据本申请的一个实施例,提供了一种在分布式系统进行故障模拟的系统,包括分布式系统外的故障控制端和分布式系统中的故障模拟装置,所述故障控制端,用于接收预先配置的故障模拟规则并将所述故障模拟规则发送至所述故障模拟装置,其中该故障模拟规则用于指示故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟;所述故障模拟装置,用于接收访问请求以及来自故障控制端的故障模拟规则,从所述访问请求中筛选出符合预定故障模拟规则预定故障模拟规则的特定访问请求,针对该特定访问请求在分布式系统上进行故障模拟。
根据本申请的一个实施例,提供了在分布式系统进行故障模拟的系统,包括分布式系统中的故障控制端和分布式系统中的故障模拟装置,所述故障控制端,用于接收预先配置的故障模拟规则并将所述故障模拟规则发送至所述故障模拟装置,其中该故障模拟规则用于指示故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟;所述故障模拟装置,用于接收访问请求以及来自故障控制端的故障模拟规则,从所述访问请求中筛选出符合预定故障模拟规则预定故障模拟规则的特定访问请求,针对该特定访问请求在分布式系统上进行故障模拟。
根据本申请的一个实施例,提供了一种故障控制方法,该方法包括:接收预先配置的故障模拟规则,其中该故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟;将所配置好的故障模拟规则发送至分布式系统,以使该分布式系统的故障模拟装置基于该故障模拟规则进行故障模拟。
根据本申请的一个实施例,提供了一种在分布式系统进行故障模拟的方法,该方法包括以下步骤:接收访问请求;从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求;针对所述特定访问请求,在分布式系统上进行故障模拟。
根据本申请的一个实施例,提供了一种故障控制装置,该装置包括:规则接收单元,用于接收预先配置的故障模拟规则,其中该故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟;规则发送单元,用于将所述故障模拟规则发送至分布式系统,以使该分布式系统的故障模拟装置基于该故障模拟规则进行故障模拟。
根据本申请的一个实施例,提供了一种在分布式系统进行故障模拟的装置,该装置包括:请求接收单元,用于接收访问请求;请求筛选单元,用于从所接收的访问请求中筛选出符合预定故障模拟规则预定故障模拟规则的特定访问请求;故障模拟单元,用于针对所述特定访问请求,在分布式系统上进行故障模拟。
与现有技术相比,本申请的实施例具有以下优点:
本申请的实施例通过将故障的影响范围控制在特定的访问请求,即从限定访问请求的新维度对故障影响的面或故障的粒度进行控制,也即当本申请应用到分布式系统,可以有效对分布式系统真实业务环境下的故障范围进行有效控制,从而较大地节省了搭建独立的测试环境所带来的运维成本。进而,由于本申请可以直接应用于分布式系统的真实业务环境而不需要单独搭建隔离环境进行故障模拟,从而因真实环境下的模拟,提升了模拟故障下系统表现结果的真实性,有利于为解决故障提供更真实的数据支撑。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请一个实施例的对本申请的在分布式系统进行故障模拟的系统进行描述的系统性框图;
图2为本申请一个实施例的在分布式系统进行故障模拟的方法流程图;
图3为本申请一个实施例的对图1中的步骤S102进行描述的流程图;
图4为本申请一个实施例的进行故障模拟的分布式系统所包括的组件示意图;
图5为本申请一个实施例的故障模拟的场景示意图;
图6为本申请一个实施例的在分布式系统进行故障模拟的方法还包括的步骤的流程图;
图7为本申请一个实施例的故障控制方法的流程图;
图8为本申请一个实施例的故障控制方法还包括的步骤的流程图;
图9为本申请一个实施例的在分布式系统进行故障模拟的装置的示意性框图;
图10为本申请一个实施例的对图9中的单元102进行描述的示意图;
图11为本申请一个实施例的在分布式系统进行故障模拟的装置还包括的单元的示意性框图;
图12为本申请一个实施例的故障控制装置的示意性框图;
图13为本申请一个实施例的故障控制装置还包括的单元的示意性框图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本申请作进一步详细描述。
图1为根据本申请一个实施例的对本申请的在分布式系统进行故障模拟的系统进行描述的系统性框图。
对于本申请的系统,在一个例子中,包括分布式系统外的故障控制端和分布式系统中的故障模拟装置;在另一个例子中,包括包括分布式系统中的故障控制端和分布式系统中的故障模拟装置。也即,对于故障控制端而言,其既可以独立于分布式系统以外,也可以包含于分布式系统中。
具体地,如图1,所述系统包括故障控制端1和故障模拟装置2,
其中故障控制端1,用于接收预先配置的故障模拟规则并将所述故障模拟规则发送至所述故障模拟装置,其中该故障模拟规则用于指示故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟;
其中故障模拟装置2,用于接收访问请求以及来自故障控制端的故障模拟规则,从所述访问请求中筛选出符合预定故障模拟规则预定故障模拟规则的特定访问请求,针对该特定访问请求在分布式系统上进行故障模拟。
下文将结合相应的流程图分别对故障模拟装置2和故障控制端1上所执行的各步骤进行详述。
请参考图2,图2为本申请一个实施例的在分布式系统进行故障模拟的方法流程图。
本申请的方法可以由分布式系统中的故障模拟装置来执行,该故障模拟装置可以指分布式系统中的应用组件之一,用于在特定条件下进行故障的模拟,该特定条件例如为该故障模拟装置接收到某个特定类型的应用请求(如访问“电子购物车”的请求)。
根据图2,本申请在分布式系统进行故障模拟的方法至少包括步骤S101、步骤S102和步骤S103。
在步骤S101,接收访问请求。
具体地,所述访问请求可以由分布式系统的至少一个应用组件来接收。其中,分布式系统的多个应用组件可以安装在同一台主机上,也可以分别安装在不同主机上,每个应用组件都有一套独立完整的应用程序,各自提供相应的服务,例如对于一个购物网站类型的分布式系统而言,其中有的应用组件用于提供商品描述详情信息,有的应用组件负责提供用户电子购物车中商品的统计,有的应用组件负责提供商家的打折信息等等,这些应用组件通过计算机的相应通信协议进行协作。
其中,所述访问请求包括但不限于对网页或/和应用程序等进行访问的请求。
在步骤S102,从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求。
对于分布式系统而言,通常其接收到海量的访问请求。以电子购物网站类型的分布式系统而言,其接收到的访问请求有:对网站收藏夹中收藏的宝贝、店铺、对网站所有商品的分类或/和对个人电子购物车的商品等等进行访问的请求。
本实施例为了控制所模拟的故障对访问请求的影响范围,控制不必要的访问请求受到所模拟的故障的影响,本实施例的分布式系统从所接收到的访问请求中筛选出特定的访问请求,以确保将故障的影响范围控制在这些特定的访问请求中,而将其他的访问请求有效地隔离在故障之外。
可选地,所述预定故障模拟规则包括但不限于以下中的至少一个条件:
-访问请求所访问的应用程序的名称是特定应用程序的名称;
-访问请求所访问的网页地址的名称是特定网站名称;
-发出访问请求的用户是包含特定特征信息的用户。
则,所述步骤S102包括:
-从所接收的访问请求中筛选出符合预定故障模拟规则至少一个条件的特定访问请求。
例如,筛选出其访问的应用程序的名称是特定应用程序的名称的访问请求,或者,筛选出其对应的用户是包含特定特征信息的访问请求,或者,筛选出其对应的用户是包含特定特征信息且其访问的应用程序的名称是特定应用程序的名称的访问请求。
具体地,在一个实施例中,所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤S102包括:
-判断所接收的访问请求中是否存在其访问的应用程序被包含于判断所接收的访问请求中是否存在其访问的应用程序的名称被包含于预定故障模拟规则中设定的应用程序集合的特定访问请求设定的应用程序名称集合的特定访问请求;
-如果存在,则筛选出该特定访问请求。
具体地,所述预定故障模拟规则中设定的应用程序名称集合所对应的应用程序包括分布式系统中的一个或多个应用程序(或称应用组件)。例如,预定故障模拟规则中设定的应用程序集合所包括的应用程序有:提供收藏夹收藏的宝贝和店铺等信息的应用;提供网站所有商品分类信息的应用;或/和,提供电子购物车商品信息的应用。
如果所接收的访问请求中的某个访问请求是:访问电子购物车商品信息,则由于该访问请求被包含于上述预定故障模拟规则中设定的应用程序集合,则该访问请求被筛选为特定访问请求。
在另一个实施例中,所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤S102包括:
-判断所接收的访问请求中是否存在其访问的网页链接地址被包含于预定故障模拟规则中设定的网页链接地址集合的特定访问请求;
-如果存在,则筛选出该特定访问请求。
具体地,预定故障模拟规则中设定的网页链接地址集合包括由分布式系统中至少一个应用程序(或称应用组件)提供网页服务的一个或多个网页链接地址。例如,预定故障模拟规则中设定的网页链接地址有:由某某应用提供收藏夹中收藏的宝贝和店铺等网页信息服务的网页链接地址;或/和,由另一某某应用提供所有商品分类信息的网页服务的网页链接地址。
如果所接收的访问请求中的某个访问请求是:访问用于提供收藏夹中收藏的宝贝和店铺信息的网页链接地址,则由于该访问请求被包含于上述预定故障模拟规则中设定的网页链接地址集合,则该访问请求被筛选为特定访问请求。
在还一个实施例中,请参考图3,所述步骤S102还包括:
步骤S201,获取发出所述特定访问请求的用户的特征信息。
其中,用户的特征信息包括但不限于用户的IP地址、登录账户或/和其他可以用于区别于其他用户的个性化信息,例如用户归属地等。
所述特征信息的获取可以由用户主动提供,也可以从第三方网络设备或通过现有的分析规则来从用户登录的客户端中得到。
步骤S202,滤掉其用户的特征信息未被包含于所述设定的用户特征信息集中的特定访问请求。
在该实施例中,为了进一步控制所模拟的故障对用户访问请求的影响范围,控制不必要的用户的访问请求受到所模拟的故障的影响,本实施例的分布式系统进一步从所接收到的特定访问请求中滤掉部分访问请求,以确保将故障的影响范围控制在特定用户的特定的访问请求中。
例如,为了只针对IP地址在X1~X2范围内的用户的特定访问请求进行故障的模拟,从而有利于保证IP地址位于该范围以外的用户的所有访问请求都正常进行,避免受到故障的影响,则本申请实施例的步骤S302中,设定的用户特征为用户的IP地址在X1~X2范围内,则对于用户的IP地址位于X1~X2范围以外的特定访问请求,在该步骤中将其滤掉,从而这些被滤掉的特定访问请求不进入到步骤S103的处理,被隔离在故障之外。
可选地,在所述步骤S102之前,本申请实施例的方法还包括:
-接收预先设置的故障模拟规则,或从所接收的访问请求中解析得到故障模拟规则。
具体地,对于接收预先设置的故障模拟规则而言,请参考图4,图4示出了根据本申请的一个实施例的接收预先设置的故障模拟规则的分布式系统的组件示意图。
在图4所示的分布式系统中,该分布式系统包括多个应用组件,如应用组件A至E以及故障控制端。
虽然图4所示的故障控制端位于分布式系统内,在其他实施例中故障控制端也可以独立于分布式系统,即位于分布式系统以外。
在图4中,该故障控制端可以视为分布式系统的某服务器,用于将故障模拟规则发送至应用组件A至应用组件E中的故障装置,其上的故障模拟规则可以是预先写入的,也可以是通过接收用户的输入不断更新或/和补充;所述应用组件A至应用组件E中的故障装置可以视为安装在这些应用组件中的应用程序,这些应用程序具有从故障控制端接收故障模拟规则的功能。
图4所示出的由故障控制端负责下发故障模拟规则到各应用组件中的故障装置的好处是:由于故障控制端可以对各应用组件的故障模拟规则进行统一的管理,因而,当需要向多个应用组件发送故障模拟规则时,只需要预先在该故障控制端存入故障发生规则,即可由其统一向多个应用组件分发故障发生规则,而无需由用户向各应用组件分别发送或输入一次故障模拟规则,因而提升了规则下发和管理的效率。
而对于从所接收的访问请求中解析得到故障模拟规则而言,在一些情况下,为了节省服务器的成本,可以省略图4所示的故障控制端。通过图4所示的应用组件A至应用组件D对其所接收的访问请求进行解析,从而得到故障模拟规则。
例如,在一些情况下,由专门负责系统测试的测试人员在其所发出的请求中写入一些命令参数,例如在其所发出的访问请求中的网页链接地址上加入一些命令参数,从而应用组件A至应用组件D通过对其所接收到的访问请求中的这些命令参数的解析来得到故障模拟规则。
继续参考图2,在步骤S103,针对所述特定访问请求,在分布式系统上进行故障模拟。
其中,在分布式系统上所进行的故障模拟包括但不限于网络延迟、网络丢包、访问中断、系统报错(如抛出异常)等类型。更具体地而言,所述故障既包括阻断访问请求的故障,也包括不阻断访问请求仅是影响用户体验的故障,如耗费内存或/和修改服务器系统的返回值等等。
可选地,上述步骤S102中的预定故障模拟规则中的每一个条件(如上文示例的访问请求所访问的应用程序的名称是特定应用程序的名称)与特定类型的待模拟故障对应,如条件A对应待模拟的网络丢包故障,条件B对应待模拟的访问中断故障,则所述步骤S103包括:
-针对符合所述至少一个条件的特定访问请求,在分布式系统上进行与该至少一个条件对应的特定类型的待模拟故障的模拟。
例如,当接收到的该特定访问请求满足预定故障模拟规则中的如下条件:该访问请求所访问的应用程序的名称是特定应用程序的名称,而该条件与待模拟的网络延迟的故障对应,则针对该访问请求,在分布式系统上进行待模拟的网络延迟的故障的模拟。
可选地,针对本申请的故障模拟规则,除上文所述的示例外,在所述故障模拟规则中还可以包括对多种故障(诸如网络延迟、抛出异常等)的设置,其中所设置的多种故障可以在访问请求满足该规则时同时执行,也可以按照预设顺序先后执行。
在其他实施例中,根据所述故障模拟规则,还可以在预设时段或预设条件下进行故障模拟。
其中,预设时段的模拟,如针对特定用户的访问请求,每间隔特定时长即模拟一次故障,或在每个预定时刻进行一次故障的模拟。
其中,所述预设条件包括但不限于以下中的至少一项:
-所述分布式系统所接收到的访问的总流量超过预设阈值。例如,在某个时间点,同时访问同一分布式系统的用户数(即用于表征用户访问总流量的一种)超过其预设的某个值。
-分布式系统的资源消耗超过预设阈值。例如,在某个时间点,分布式系统同时处理的任务数(即用于表征分布式系统资源消耗情况的一种)超过预设的峰值。
为了更清楚地描述本申请,根据本申请的一个实施例,以在分布式系统的应用组件上所模拟的网络中断的故障为例,请仍然参考图4,图4包括分布式系统的应用组件A~E,当应用组件A接收到的特定访问请求,在应用组件A上进行如下的故障模拟:应用组件A将该特定访问请求传递给应用组件B时出现网络中断的故障,从而由于网络中断故障的发生,该特定访问请求不能正常地传递至其他应用组件。
根据本申请的一个实施例,对于本申请的分布式系统,其所包括的各应用组件在接收到访问请求时可以根据既有的逻辑顺序将该访问请求依次传递到其他应用组件。
例如,对于图4所示的应用组件A至E,有一些访问请求先经过应用组件A然后到达应用组件E;而有一些访问请求先经过应用组件A然后达到应用组件B进而到达应用组件D。由此,根据不同的访问请求可能在不同的访问阶段模拟不同的故障。例如,某访问请求在经过应用组件A后模拟网络中断故障而无法正常到达应用组件B;又如某访问请求在达到应用组件B时模拟网络丢包进而无法将完整的数据传递至应用组件D。
下文给出了根据本申请的一个实施例的故障模拟的场景示意图。如图5所示,分布式系统中的应用组件A接收到用户1的两个请求,分别用请求①和请求②表示,并且还接收到用户2的一个请求,用请求③表示,如果根据故障控制端下发到各应用组件的故障装置中的故障模拟规则,只有用户1的请求①符合预定故障模拟规则,而用户1的请求②和用户2的请求③均不符合预定故障模拟规则,在正常情况下,如果没有模拟故障,对于请求①②③分别而言,有:
应用组件A接收到请求①后,将其正常传递至应用组件B,由应用组件B对该请求进一步处理;
应用组件A接收到请求②后,将其正常传递至应用组件E,由应用组件E对该请求进一步处理;
应用组件A接收到请求③后,将其正常传递至应用组件B,在应用组件B对该请求进一步处理后将其再传递至应用组件D。
而在故障模拟的情况下,则有:
应用组件A将用户1的请求①传递至应用组件B的过程中模拟网络中断的故障(在图5中以符号“Χ”表示网络中断),从而该请求①不能正常传递至应用组件B;
应用组件A将用户1的请求②正常传递至应用组件E,由应用组件E对该请求进一步处理;
应用组件A将用户2的请求③正常传递至应用组件B,在应用组件B对该请求进一步处理后将其再传递至应用组件D。
也即,在故障模拟的请求下,由于只有用户1的①符合预定故障模拟规则,因而只针对该请求进行故障的模拟,而对于用户1的其他请求以及其他用户的任何请求不进行故障的模拟,从而有效地将故障的范围控制在特定用户的特定请求,避免其他不必要的用户以及特定用户的非特定请求受到不必要的故障影响。
从而由于本实施例可以有效地控制故障影响的范围,因而本实施例的方法及对应的装置可以直接应用在真实的业务环境(或用户环境),而避免了单独部署一套测试环境所需要的巨大的运维成本,并且相对于单独部署测试环境来模拟故障而言,本申请在真实的业务环境下模拟出的故障,可以更获取分布式系统更真实的表现,从而对分布式系统在故障下的表现进行更准确的评估。
可选地,为了在验证完分布式系统在模拟故障的表现后,清除故障发生的条件,从而使各应用组件恢复到之前正常的工作状态,从而及时消除对应用环境的故障影响,请参考图6,本申请的方法还包括:
步骤S301,在所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤之前,接收来自故障控制端发送的故障模拟规则。
具体地,所述用于筛选访问请求的预定故障模拟规则是由分布式系统的信息收发装置从故障控制端接收而来的,该接收可以基于相应的通信协议来实现。
步骤S302,向所述故障控制端发送故障模拟反馈信息。
具体地,为了使故障控制端获取分布式系统中各故障模拟的信息,以便于故障控制端基于该信息进行后续的处理,分布式系统的故障模拟装置会向故障控制端发送故障模拟反馈信息,而故障控制端接收到分布式系统反馈的故障模拟信息后,如下文的步骤S303所述,向分布式系统发送诸如指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟的指令,以使分布式系统的一些访问请求得到正常的响应,即恢复常态。
步骤S303,接收来自故障控制端基于其接收到的清除故障模拟规则中至少一个条件的指令而发送的针对该反馈信息的特定信息,该特定信息用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
具体地,当故障模拟装置接收到来自故障控制端的用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟的特定信息,则对于原符合该被清除的至少一个条件的访问请求,不再进行故障模拟。例如,故障模拟包括条件a、b和c,当被清除的条件是a,如果某访问请求符合条件a,则当故障模拟装置接收到来自故障控制端的用于指示针对符合该被清除的条件a的访问请求不再进行故障模拟的特定信息,不再在分布式系统上针对该访问请求进行故障模拟。
在一个例子中,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
-针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
例如,故障模拟包括条件a、b和c,当被清除的条件是a,如果某访问请求符合条件a且不符合条件b也不符合条件c,则不再在分布式系统上针对该访问请求进行故障模拟;而如果某访问请求符合条件a且符合条件b或/和c,则仍然针对该访问请求进行故障模拟。
根据本申请的一个实施例,本申请还提供了一种故障控制方法,该方法可以由负责向分布式系统下发故障模拟规则的装置(例如终端或服务器,更具体地如图3所示的故障控制端)来执行。
请参考图7,该故障控制方法包括:
步骤S401,接收预先配置的故障模拟规则,其中该故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟。
具体地,以图4所示的故障控制端为例,该故障控制端可以包含于分布式系统,属于分布式系统的组件之一,在其他实施例中该故障控制端也可以独立于分布式系统,位于分布式系统以外。
在该故障控制端中,可以预先存储一些配置好的故障模拟规则,也可以根据用户新的输入不断补充新的故障模拟规则。
该故障模拟规则如上文所述,例如包括但不限于以下内容至少之一:
-在该规则中设定了大量应用程序的名称,这些名称对应的应用程序中的至少之一被访问时,则触发在分布式系统上进行故障模拟;
-在该规则中设定了大量网页地址的名称,这些名称对应的网页地址中的至少之一被访问时,则触发在分布式系统上进行故障模拟;
-在该规则中包括特定的多个用户的特征信息(如用户的IP地址等等),这些特征信息对应的多个用户中的之一访问分布式系统或访问分布式系统中的某个应用程序或某个具体网页地址,则触发在分布式系统上进行故障模拟。
其中,所模拟的故障包括但不限于在分布式系统上阻断访问请求的故障、或/和不阻断访问请求仅是影响用户体验的故障,如耗费内存或/和修改服务器系统的返回值等等。
可选地,所述预定故障模拟规则包括至少一个条件,故障模拟规则用于指示分布式系统针对符合该故障模拟规则至少一个条件的访问请求进行故障模拟。
步骤S402,将所配置好的故障模拟规则发送至分布式系统,以使该分布式系统的故障模拟装置基于该故障模拟规则进行故障模拟。
具体地,故障控制端可以通过与分布式系统中的组件进行计算机内部通信或基于网络通信协议等,将所配置好的故障模拟规则发送至分布式系统,使该分布式系统基于该故障模拟规则进行故障模拟。
可选地,所述预定故障模拟规则包括至少一个条件,故障模拟规则用于指示分布式系统针对符合该故障模拟规则至少一个条件的访问请求进行故障模拟。
可选地,请参考图8,该故障控制方法还包括:
步骤S501,接收来自分布式系统发送的故障模拟反馈信息。
具体地,可以由故障控制端基于相应的通信协议接收来自分布式系统的信息收发装置发送的故障模拟反馈信息。
步骤S502,响应于接收到清除故障模拟规则中至少一个条件的指令,向反馈故障模拟信息的分布式系统发送特定信息,该特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
所述用于清除故障模拟规则中至少一个条件的指令可以通过用户对故障控制端的输入装置进行输入来获取,也可以通过其他方式来获取,例如基于通信协议从特定的第三方设备来获取。
所述特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟的情形例如,故障模拟包括条件a、b和c,而某特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的条件a的访问请求不再进行故障模拟。
其中,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
-针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
例如,故障模拟包括条件a、b和c,而某特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的条件a且不符合条件b也不符合条件c的访问请求不再进行故障模拟。
基于与上文所述的在分布式系统进行故障模拟的方法同样的发明构思,本申请还提供一种在分布式系统进行故障模拟的装置。
请参考图9,该装置包括:
请求接收单元101,用于接收访问请求;
请求筛选单元102,用于从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求;
故障模拟单元103,用于针对所述特定访问请求,在分布式系统上进行故障模拟。
可选地,所述预定故障模拟规则包括至少一个条件,所述请求筛选单元102用于:从所接收的访问请求中筛选出符合预定故障模拟规则至少一个条件的特定访问请求。
在一个实施例中,请求筛选单元102具体用于:
-判断所接收的访问请求中是否存在其访问的应用程序的名称被包含于预定故障模拟规则中设定的应用程序名称集合的特定访问请求;
-如果存在,则筛选出该特定访问请求。
在一个实施例中,请求筛选单元102,具体用于:
-判断所接收的访问请求中是否存在其访问的网页链接地址被包含于预定故障模拟规则中设定的网页链接地址集合的特定访问请求;
-如果存在,则筛选出该特定访问请求。
根据本申请的一个实施例,请参考图10,请求筛选单元102还包括:
特征信息获取模块201,用于获取发出所述特定访问请求的用户的特征信息;
过滤模块202,用于滤掉其用户的特征信息未被包含于所述设定的用户特征信息集中的特定访问请求。
根据本申请的一个实施例,所述预定故障模拟规则中的每一个条件与特定类型的待模拟故障对应,所述故障模拟单元103具体用于:针对符合所述至少一个条件的特定访问请求,在分布式系统上进行与该至少一个条件对应的特定类型的待模拟故障的模拟。
根据本申请的一个实施例,所述故障模拟单元103用于:针对所述特定访问请求,于预设时段或/和预设条件下在分布式系统上进行故障模拟。
其中,所述预设条件可以包括:分布式系统所接收到的访问的总流量超过预设阈值,或/和,分布式系统的资源消耗超过预设阈值。
可选地,该装置还包括:故障模拟规则得到单元(图中未示出),用于接收预先设置的故障模拟规则,或从所接收的访问请求中解析得到故障模拟规则。
可选地,请参考图11,该装置还包括:
故障模拟规则接收单元301,用于接收来自故障控制端发送的故障模拟规则;
反馈信息发送单元302,用于向所述故障控制端发送故障模拟反馈信息;
特定信息接收单元303,用于接收来自故障控制端基于其接收到的清除故障模拟规则中至少一个条件的指令而发送的针对该反馈信息的特定信息,该特定信息用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
其中,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
基于与上文所述的故障控制方法同样的发明构思,本申请还提供一种故障控制装置。请参考图12,该装置包括:
规则接收单元401,用于接收预先配置的故障模拟规则,其中该故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟;
规则发送单元402,用于将所述故障模拟规则发送至分布式系统,以使该分布式系统基于该故障模拟规则进行故障模拟。
可选地,所述预定故障模拟规则包括至少一个条件,故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则至少一个条件的访问请求进行故障模拟。
可选地,请参考图13,该装置还包括:
反馈接收单元501,用于接收来自分布式系统发送的故障模拟反馈信息;
特定信息发送单元502,用于响应于接收到清除故障模拟规则中至少一个条件的指令,向反馈故障模拟信息的分布式系统发送特定信息,该特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
其中,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
-针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,本申请的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。

Claims (24)

1.一种在分布式系统进行故障模拟的系统,其特征在于,包括分布式系统外的故障控制端和分布式系统中的故障模拟装置,
所述故障控制端,用于接收预先配置的故障模拟规则并将所述故障模拟规则发送至所述故障模拟装置,其中该故障模拟规则用于指示故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟,接收来自分布式系统发送的故障模拟反馈信息,响应于接收到清除故障模拟规则中至少一个条件的指令,向反馈故障模拟信息的分布式系统发送特定信息,该特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟;
所述故障模拟装置,用于接收访问请求以及来自故障控制端的故障模拟规则,从所述访问请求中筛选出符合预定故障模拟规则预定故障模拟规则的特定访问请求,针对该特定访问请求在分布式系统上进行故障模拟,向故障控制端发送故障模拟反馈信息,接收来自故障控制端基于其接收到的清除故障模拟规则中至少一个条件的指令而发送的针对该反馈信息的特定信息,该特定信息用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
2.一种在分布式系统进行故障模拟的系统,其特征在于,包括分布式系统中的故障控制端和分布式系统中的故障模拟装置,
所述故障控制端,用于接收预先配置的故障模拟规则并将所述故障模拟规则发送至所述故障模拟装置,其中该故障模拟规则用于指示故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟,接收来自分布式系统发送的故障模拟反馈信息,响应于接收到清除故障模拟规则中至少一个条件的指令,向反馈故障模拟信息的分布式系统发送特定信息,该特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟;
所述故障模拟装置,用于接收访问请求以及来自故障控制端的故障模拟规则,从所述访问请求中筛选出符合预定故障模拟规则预定故障模拟规则的特定访问请求,针对该特定访问请求在分布式系统上进行故障模拟,向故障控制端发送故障模拟反馈信息,接收来自故障控制端基于其接收到的清除故障模拟规则中至少一个条件的指令而发送的针对该反馈信息的特定信息,该特定信息用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
3.一种故障控制方法,其特征在于,该方法包括:
接收预先配置的故障模拟规则,其中该故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟,所述预先配置的故障模拟规则包括至少一个条件,故障模拟规则用于指示分布式系统针对符合该故障模拟规则至少一个条件的访问请求进行故障模拟;
将所配置好的故障模拟规则发送至分布式系统,以使该分布式系统的故障模拟装置基于该故障模拟规则进行故障模拟;
接收来自分布式系统发送的故障模拟反馈信息;
响应于接收到清除故障模拟规则中至少一个条件的指令,向反馈故障模拟信息的分布式系统发送特定信息,该特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
4.根据权利要求3所述的故障控制方法,其特征在于,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
5.一种在分布式系统进行故障模拟的方法,其特征在于,该方法包括以下步骤:
接收访问请求;从所接收的访问请求中筛选出符合预定故障模拟规则至少一个条件的特定访问请求,其中所述预定故障模拟规则包括至少一个条件;针对所述特定访问请求,在分布式系统上进行故障模拟;
接收来自故障控制端发送的故障模拟规则;
向所述故障控制端发送故障模拟反馈信息;
接收来自故障控制端基于其接收到的清除故障模拟规则中至少一个条件的指令而发送的针对该反馈信息的特定信息,该特定信息用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
6.根据权利要求5所述的方法,其特征在于,所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤包括:
判断所接收的访问请求中是否存在其访问的应用程序的名称被包含于预定故障模拟规则中设定的应用程序名称集合的特定访问请求;
如果存在,则筛选出该特定访问请求。
7.根据权利要求5所述的方法,其特征在于,所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤包括:
判断所接收的访问请求中是否存在其访问的网页链接地址被包含于预定故障模拟规则中设定的网页链接地址集合的特定访问请求;
如果存在,则筛选出该特定访问请求。
8.根据权利要求5-7任一项所述的方法,其特征在于,所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤还包括:
获取发出所述特定访问请求的用户的特征信息;
滤掉其用户的特征信息未被包含于设定的用户特征信息集中的特定访问请求。
9.根据权利要求5所述的方法,其特征在于,所述预定故障模拟规则中的每一个条件与特定类型的待模拟故障对应,所述针对所述特定访问请求,在分布式系统上进行故障模拟包括:
针对符合所述至少一个条件的特定访问请求,在分布式系统上进行与该至少一个条件对应的特定类型的待模拟故障的模拟。
10.根据权利要求5所述的方法,其特征在于,所述在分布式系统上进行故障模拟具体包括:
于预设时段或/和预设条件下在分布式系统上进行故障模拟。
11.根据权利要求10所述的方法,其特征在于,所述预设条件包括:
所述分布式系统所接收到的访问的总流量超过预设阈值,或/和
分布式系统的资源消耗超过预设阈值。
12.根据权利要求5所述的方法,其特征在于,在所述从所接收的访问请求中筛选出符合预定故障模拟规则的特定访问请求的步骤之前还包括:
接收预先设置的故障模拟规则,或
从所接收的访问请求中解析得到故障模拟规则。
13.根据权利要求5所述的方法,其特征在于,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
14.一种故障控制装置,其特征在于,该装置包括:
规则接收单元,用于接收预先配置的故障模拟规则,其中该故障模拟规则用于指示分布式系统的故障模拟装置针对符合该故障模拟规则的访问请求进行故障模拟,所述预先配置的故障模拟规则包括至少一个条件,故障模拟规则用于指示分布式系统针对符合该故障模拟规则至少一个条件的访问请求进行故障模拟;
规则发送单元,用于将所述故障模拟规则发送至分布式系统,以使该分布式系统的故障模拟装置基于该故障模拟规则进行故障模拟;
反馈接收单元,用于接收来自分布式系统发送的故障模拟反馈信息;
特定信息发送单元,用于响应于接收到清除故障模拟规则中至少一个条件的指令,向反馈故障模拟信息的分布式系统发送特定信息,该特定信息用于指示该分布式系统的故障模拟装置针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
15.根据权利要求14所述的故障控制装置,其特征在于,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
16.一种在分布式系统进行故障模拟的装置,其特征在于,该装置包括:
请求接收单元,用于接收访问请求;
请求筛选单元,用于从所接收的访问请求中筛选出符合预定故障模拟规则至少一个条件的特定访问请求,其中所述预定故障模拟规则包括至少一个条件;
故障模拟单元,用于针对所述特定访问请求,在分布式系统上进行故障模拟;
故障模拟规则接收单元,用于接收来自故障控制端发送的故障模拟规则;
反馈信息发送单元,用于向所述故障控制端发送故障模拟反馈信息;
特定信息接收单元,用于接收来自故障控制端基于其接收到的清除故障模拟规则中至少一个条件的指令而发送的针对该反馈信息的特定信息,该特定信息用于指示针对符合该被清除的至少一个条件的访问请求不再进行故障模拟。
17.根据权利要求16所述的装置,其特征在于,所述请求筛选单元具体用于:
判断所接收的访问请求中是否存在其访问的应用程序的名称被包含于预定故障模拟规则预定故障模拟规则中设定的应用程序名称集合的特定访问请求;
如果存在,则筛选出该特定访问请求。
18.根据权利要求16所述的装置,其特征在于,所述请求筛选单元具体用于:
判断所接收的访问请求中是否存在其访问的网页链接地址被包含于预定故障模拟规则中设定的网页链接地址集合的特定访问请求;
如果存在,则筛选出该特定访问请求。
19.根据权利要求16-18任一项所述的装置,其特征在于,所述请求筛选单元还包括:
特征信息获取模块,用于获取发出所述特定访问请求的用户的特征信息;
过滤模块,用于滤掉其用户的特征信息未被包含于设定的用户特征信息集中的特定访问请求。
20.根据权利要求16所述的装置,其特征在于,所述预定故障模拟规则中的每一个条件与特定类型的待模拟故障对应,所述故障模拟单元,具体用于:
针对符合所述至少一个条件的特定访问请求,在分布式系统上进行与该至少一个条件对应的特定类型的待模拟故障的模拟。
21.根据权利要求16所述的装置,其特征在于,所述故障模拟单元用于:
针对所述特定访问请求,于预设时段或/和预设条件下在分布式系统上进行故障模拟。
22.根据权利要求21所述的装置,其特征在于,所述预设条件包括:
分布式系统所接收到的访问的总流量超过预设阈值,或/和
分布式系统的资源消耗超过预设阈值。
23.根据权利要求16所述的装置,其特征在于,该装置还包括:
故障模拟规则得到单元,用于接收预先设置的故障模拟规则,或从所接收的访问请求中解析得到故障模拟规则。
24.根据权利要求23所述的装置,其特征在于,所述针对符合该被清除的至少一个条件的访问请求不再进行故障模拟包括:
针对符合该被清除的至少一个条件且不符合未被清除的条件的访问请求不再进行故障模拟。
CN201610581699.4A 2016-07-21 2016-07-21 一种在分布式系统进行故障模拟的系统、装置及方法 Active CN107645397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610581699.4A CN107645397B (zh) 2016-07-21 2016-07-21 一种在分布式系统进行故障模拟的系统、装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610581699.4A CN107645397B (zh) 2016-07-21 2016-07-21 一种在分布式系统进行故障模拟的系统、装置及方法

Publications (2)

Publication Number Publication Date
CN107645397A CN107645397A (zh) 2018-01-30
CN107645397B true CN107645397B (zh) 2021-01-05

Family

ID=61109841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610581699.4A Active CN107645397B (zh) 2016-07-21 2016-07-21 一种在分布式系统进行故障模拟的系统、装置及方法

Country Status (1)

Country Link
CN (1) CN107645397B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763039B (zh) * 2018-04-02 2021-09-21 创新先进技术有限公司 一种业务故障模拟方法、装置及设备
CN111385147B (zh) * 2020-03-06 2021-07-27 腾讯科技(深圳)有限公司 故障模拟方法、装置和计算机可读存储介质
CN111930548B (zh) * 2020-08-12 2024-03-01 湖南快乐阳光互动娱乐传媒有限公司 一种多集群分布式服务的故障模拟系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103780646A (zh) * 2012-10-22 2014-05-07 中国长城计算机深圳股份有限公司 一种云资源的调度方法及系统
CN104461865A (zh) * 2014-11-04 2015-03-25 哈尔滨工业大学 云环境下分布式文件系统可靠性测试套件
US9075788B1 (en) * 2012-06-15 2015-07-07 Amazon Technologies, Inc. Account state simulation service for cloud computing environments
CN105656684A (zh) * 2016-02-05 2016-06-08 北京润科通用技术有限公司 故障模拟方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9075788B1 (en) * 2012-06-15 2015-07-07 Amazon Technologies, Inc. Account state simulation service for cloud computing environments
CN103780646A (zh) * 2012-10-22 2014-05-07 中国长城计算机深圳股份有限公司 一种云资源的调度方法及系统
CN104461865A (zh) * 2014-11-04 2015-03-25 哈尔滨工业大学 云环境下分布式文件系统可靠性测试套件
CN105656684A (zh) * 2016-02-05 2016-06-08 北京润科通用技术有限公司 故障模拟方法及装置

Also Published As

Publication number Publication date
CN107645397A (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
US10462027B2 (en) Cloud network stability
CN103477325A (zh) 分析根本原因的管理计算机及方法
US20150074450A1 (en) Hard disk drive (hdd) early failure detection in storage systems based on statistical analysis
WO2013140608A1 (ja) イベントの根本原因の解析を支援する方法及びシステム
CN107534570A (zh) 虚拟化网络功能监控
CN107483572A (zh) 一种服务器的部署方法和装置
JP5200970B2 (ja) 品質管理システムおよび品質管理装置および品質管理プログラム
CN107645397B (zh) 一种在分布式系统进行故障模拟的系统、装置及方法
CN114095567B (zh) 数据访问请求的处理方法、装置、计算机设备及介质
CN106776243A (zh) 一种针对监控软件的监控方法及装置
US11824716B2 (en) Systems and methods for controlling the deployment of network configuration changes based on weighted impact
JP2017207894A (ja) 統合監視運用システムおよび方法
US9866466B2 (en) Simulating real user issues in support environments
JP2017516202A (ja) プロモーション状況データの監視方法、装置、デバイス及び非発揮性コンピューター記憶媒体
CN104967532A (zh) Toc技术运维系统及应用方法
US10360614B1 (en) Assessing and rating deployments of resources
US20160246695A1 (en) Lightweight functional testing
CN102546652B (zh) 一种服务器负载平衡系统及方法
CN103731315A (zh) 一种服务器故障检测方法
US8438271B2 (en) Performing services in a network data processing system
US20200133252A1 (en) Systems and methods for monitoring performance of a building management system via log streams
EP3062228B1 (en) Lightweight functional testing
CN114095394B (zh) 网络节点故障检测方法、装置、电子设备及存储介质
CN108170561B (zh) 一种容灾备份方法、装置及系统
CN103297480A (zh) 一种应用服务自动检测系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230605

Address after: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Aliyun Computing Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.