CN113221096A - 一种在混沌工程中随机事件相关性分析方法及系统 - Google Patents

一种在混沌工程中随机事件相关性分析方法及系统 Download PDF

Info

Publication number
CN113221096A
CN113221096A CN202110627325.2A CN202110627325A CN113221096A CN 113221096 A CN113221096 A CN 113221096A CN 202110627325 A CN202110627325 A CN 202110627325A CN 113221096 A CN113221096 A CN 113221096A
Authority
CN
China
Prior art keywords
correlation
index
follows
value
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110627325.2A
Other languages
English (en)
Inventor
刘小成
梁景明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiyin Financial Technology Co ltd
Original Assignee
Beiyin Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiyin Financial Technology Co ltd filed Critical Beiyin Financial Technology Co ltd
Priority to CN202110627325.2A priority Critical patent/CN113221096A/zh
Publication of CN113221096A publication Critical patent/CN113221096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Nonlinear Science (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及系统运维的技术领域,特别是涉及一种在混沌工程中随机事件相关性分析方法及系统,其通过收集混沌实验过程中的历史数据,从中提取有效数据进行相关性分析,计算出故障和系统指标的相关性系数。通过相关性系数,优化人员可以针对强相关的关系对进行针对性优化,提高混沌实验的有效性和系统优化效率。

Description

一种在混沌工程中随机事件相关性分析方法及系统
技术领域
本发明涉及系统运维的技术领域,特别是涉及一种在混沌工程中随机事件相关性分析方法及系统。
背景技术
在传统软件系统中,系统组件较少且组件之间的耦合度较高,一般通过高可用和故障演练机制来保证系统的稳定性和可靠性。随着云计算的发展,通过微服务拆分实现系统组件解耦;不断增长的数据和用户规模促使基础设施向大规模分布式方向演进。分布式系统天生有着各种相互依赖,可以出错的地方数不胜数,处理不好就会导致业务受损,或者是其他各种无法预期的异常行为。在复杂的分布式系统中,无法阻止这些故障的发生,应该致力于在这些异常行为被触发之前,尽可能多地识别风险。然后,针对性地进行加固,防范,从而避免故障发生时所带来的严重后果。
混沌工程通过在生产分布式系统上进行实验,主动找出系统中的脆弱环节的方法学。这种通过实证的验证方法显然可以为我们打造更具弹性的系统,同时让我们更透彻的掌握系统运维时的各种行为规律。我们能够在不断打造更具弹性(弹性:系统应对故障、从故障中恢复的能力)系统的同时,树立运行高可用分布式系统的信心。
在混沌工程中,当实验模拟的随机故障触发了系统稳定状态的变化(如服务异常、性能衰减等),则需要分析如何优化系统架构、配置或者逻辑等来提高系统面对实验所含故障场景的应对能力。如何判断系统故障是否由实验直接或间接引起,即故障与系统服务指标的相关性问题,是提升混沌工程实验的有效性和系统优化效率的重要因素;
目前,在混沌工程的实践过程中,最早由Netflix开源了其混沌工程项目ChaosMonkey,以及阿里巴巴的ChaosBlade等,这些工程主要通过周期性地故障注入来验证系统的稳定性,故障场景和系统服务指标之间的相关性主要由经验丰富的工程师来识别和分析,同时也带来了以下问题:
1.效率低,分析人员需要识别无效或间接相关的故障场景。
2.准确性低,分析人员容易在分析过程中因个别现象出现误判或者遗漏。
发明内容
为解决上述技术问题,本发明提供一种通过收集混沌实验过程中的历史数据,从中提取有效数据进行相关性分析,计算出故障和系统指标的相关性系数。通过相关性系数,优化人员可以针对强相关的关系对进行针对性优化,提高混沌实验的有效性和系统优化效率的在混沌工程中随机事件相关性分析方法及系统。
本发明的一种在混沌工程中随机事件相关性分析方法,包括以下步骤:
S1、选择系统服务指标,所述服务指标为可量化的数值类指标,所述服务指标用于直观衡量系统的服务运行情况;
S2、配置系统服务指标期望值,所述期望值为系统设计中系统正常运行的指标值;
S3、实施混沌工程,进行随机故障注入实验,记录每次实验的启动时间;
S4、持续采集系统指标运行状态,指标统计分为两类,包括:累计值:为上一采集周期到当前采集周期的增量值;瞬时值:为直接获取系统当前指标状态值;
S5、按采集间隔计算每个采集点与上一次故障注入时间的时间间隔,计算公式为:
时间间隔=采集时间-上一次故障注入时间;
S6、按采集间隔计算每个采集点的指标变化率,计算公式:
变化率=|当前值-期望值|/期望值*100%;
S7、计算系统指标与故障相关性系数:
S8、根据S7中计算得出的相关性系数定义相关性系数级别;
S9、根据相关性系数分析结果,筛选出强相关组合,作为续系统优化依据。
本发明的一种在混沌工程中随机事件相关性分析方法,所述S7中将时间差和指标变化率作为阶梯数组,采用Spearman等级相关系数计算公式计算得出相关性系数,所述Spearman等级相关系数计算公式为:
Figure BDA0003102068520000031
本发明的一种在混沌工程中随机事件相关性分析方法,所述S8中相关性系数等级参考梯度为:
ρ位于0.8-1.0之间,相关等级为:极强相关;
ρ位于0.6-0.8之间,相关等级为:强相关;
ρ位于0.4-0.6之间,相关等级为:中等程度相关;
ρ位于0.2-0.4之间,相关等级为:弱相关;
ρ位于0.0-0.2之间,相关等级为:极弱相关或无相关。
本发明的一种在混沌工程中随机事件相关性分析系统,包括:
调度模块,用于系统定时任务的调度和控制,包括发起故障注入实验和周期性数据采集;
采集模块,用于通过系统接口和数据源采集系统服务指标数据;
分析模块,用于计算数据采集点系统指标变化率和采集点与上一个故障注入点的时间间隔;
展示模块,用于展示故障注入时间间隔和系统指标变化率的散列关系和滑动窗口曲线图。
与现有技术相比本发明的有益效果为:通过收集混沌实验过程中的历史数据,从中提取有效数据进行相关性分析,计算出故障和系统指标的相关性系数;通过相关性系数,优化人员可以针对强相关的关系对进行针对性优化,提高混沌实验的有效性和系统优化效率;通过系统指标变化率和实际间隔进行相关性分析,有效筛选无效或间接故障因素,提升系统优化效率。
附图说明
图1是在混沌工程中随机事件相关性分析系统的流程图;
图2是相关性系数散列关系图;
图3是相关性系数滑动窗口曲线图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例一:
1.启动混沌实验,模拟服务进程异常退出故障,记录每次故障模拟触发时间。
2.采集服务可用性状态数据并存入文本中:service_available.log。
3.计算每个采集点与上一个故障模拟点的时间间隔,计算结果存入文本中:service_available.csv,部分内容如下:
times_delay,available_rate
18.635961832483133,18.918898455096535
24.22867155757581,25.018793856051484
23.06889817707555,24.04433275708009
20.39912668852203,20.622725369224906
17.329176286844326,17.639748930886626
14.48293214764584,14.675301739083658。
4.计算相关性系数;绘制散列关系和滑动窗口曲线图,如图2和3所示。
5.相关性分析;对照相关性系数等级,示例中故障与服务可用指标相关性性系数为1,等级为极强相关。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种在混沌工程中随机事件相关性分析方法,其特征在于,包括以下步骤:
S1、选择系统服务指标,所述服务指标为可量化的数值类指标,所述服务指标用于直观衡量系统的服务运行情况;
S2、配置系统服务指标期望值,所述期望值为系统设计中系统正常运行的指标值;
S3、实施混沌工程,进行随机故障注入实验,记录每次实验的启动时间;
S4、持续采集系统指标运行状态,指标统计分为两类,包括:累计值:为上一采集周期到当前采集周期的增量值;瞬时值:为直接获取系统当前指标状态值;
S5、按采集间隔计算每个采集点与上一次故障注入时间的时间间隔,计算公式为:
时间间隔=采集时间-上一次故障注入时间;
S6、按采集间隔计算每个采集点的指标变化率,计算公式:
变化率=|当前值-期望值|/期望值*100%;
S7、计算系统指标与故障相关性系数:
S8、根据S7中计算得出的相关性系数定义相关性系数级别;
S9、根据相关性系数分析结果,筛选出强相关组合,作为续系统优化依据。
2.如权利要求1所述的一种在混沌工程中随机事件相关性分析方法,其特征在于,所述S7中将时间差和指标变化率作为阶梯数组,采用Spearman等级相关系数计算公式计算得出相关性系数,所述Spearman等级相关系数计算公式为:
Figure FDA0003102068510000021
3.如权利要求2所述的一种在混沌工程中随机事件相关性分析方法,其特征在于,所述S8中相关性系数等级参考梯度为:
ρ位于0.8-1.0之间,相关等级为:极强相关;
ρ位于0.6-0.8之间,相关等级为:强相关;
ρ位于0.4-0.6之间,相关等级为:中等程度相关;
ρ位于0.2-0.4之间,相关等级为:弱相关;
ρ位于0.0-0.2之间,相关等级为:极弱相关或无相关。
4.一种在混沌工程中随机事件相关性分析系统,其特征在于,包括:
调度模块,用于系统定时任务的调度和控制,包括发起故障注入实验和周期性数据采集;
采集模块,用于通过系统接口和数据源采集系统服务指标数据;
分析模块,用于计算数据采集点系统指标变化率和采集点与上一个故障注入点的时间间隔;
展示模块,用于展示故障注入时间间隔和系统指标变化率的散列关系和滑动窗口曲线图。
CN202110627325.2A 2021-06-04 2021-06-04 一种在混沌工程中随机事件相关性分析方法及系统 Pending CN113221096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110627325.2A CN113221096A (zh) 2021-06-04 2021-06-04 一种在混沌工程中随机事件相关性分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110627325.2A CN113221096A (zh) 2021-06-04 2021-06-04 一种在混沌工程中随机事件相关性分析方法及系统

Publications (1)

Publication Number Publication Date
CN113221096A true CN113221096A (zh) 2021-08-06

Family

ID=77082940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110627325.2A Pending CN113221096A (zh) 2021-06-04 2021-06-04 一种在混沌工程中随机事件相关性分析方法及系统

Country Status (1)

Country Link
CN (1) CN113221096A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240264A (zh) * 2022-02-24 2022-03-25 成都四方伟业软件股份有限公司 一种城管事件指标间的因果关系检验方法及装置
CN115834404A (zh) * 2022-11-08 2023-03-21 湖南快乐阳光互动娱乐传媒有限公司 一种混沌演练方法、装置及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633905A (zh) * 2019-09-06 2019-12-31 武汉理工大学 智能车云平台可靠性计算方法
CN111157839A (zh) * 2019-12-10 2020-05-15 重庆邮电大学 一种基于混沌信号的低压电网故障定位方法
US20200366588A1 (en) * 2019-05-17 2020-11-19 Keysight Technologies, Inc. Indirect testing using impairment rules
CN112540887A (zh) * 2020-12-16 2021-03-23 北京奇艺世纪科技有限公司 故障演练方法、装置、电子设备及存储介质
CN112685290A (zh) * 2020-12-23 2021-04-20 北京字跳网络技术有限公司 系统的混沌工程实验方法、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200366588A1 (en) * 2019-05-17 2020-11-19 Keysight Technologies, Inc. Indirect testing using impairment rules
CN110633905A (zh) * 2019-09-06 2019-12-31 武汉理工大学 智能车云平台可靠性计算方法
CN111157839A (zh) * 2019-12-10 2020-05-15 重庆邮电大学 一种基于混沌信号的低压电网故障定位方法
CN112540887A (zh) * 2020-12-16 2021-03-23 北京奇艺世纪科技有限公司 故障演练方法、装置、电子设备及存储介质
CN112685290A (zh) * 2020-12-23 2021-04-20 北京字跳网络技术有限公司 系统的混沌工程实验方法、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240264A (zh) * 2022-02-24 2022-03-25 成都四方伟业软件股份有限公司 一种城管事件指标间的因果关系检验方法及装置
CN115834404A (zh) * 2022-11-08 2023-03-21 湖南快乐阳光互动娱乐传媒有限公司 一种混沌演练方法、装置及计算机可读介质

Similar Documents

Publication Publication Date Title
CN110888788A (zh) 异常检测方法、装置、计算机设备及存储介质
US10558545B2 (en) Multiple modeling paradigm for predictive analytics
EP2808797B1 (en) Operation management device, operation management method, and program
JP6354755B2 (ja) システム分析装置、システム分析方法、及びシステム分析プログラム
CN113221096A (zh) 一种在混沌工程中随机事件相关性分析方法及系统
JP6781594B2 (ja) プラント監視装置及びプラント監視方法
CN109976975B (zh) 一种磁盘容量预测方法、装置、电子设备及存储介质
US9621679B2 (en) Operation task managing apparatus and method
CN104426696A (zh) 一种故障处理的方法及装置
US20080215601A1 (en) System monitoring program, system monitoring method, and system monitoring apparatus
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN113196311A (zh) 用于识别和预测机器的异常感测行为模式的系统和方法
KR20210010194A (ko) 딥러닝 기반의 화력 발전소 재과열기 튜브의 누설 감지 방법 및 이를 수행하는 장치
JPWO2017150286A1 (ja) システム分析装置、システム分析方法、及び、プログラム
KR101936240B1 (ko) 예방 정비 시뮬레이션 시스템 및 방법
Singh et al. Verification of safety critical and control systems of Nuclear Power Plants using Petri nets
CN106201753B (zh) 一种基于linux中PCIE错误的处理方法及系统
JPWO2019049523A1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN115118621A (zh) 一种基于依赖关系图的微服务性能诊断方法及系统
JP6875199B2 (ja) 機器診断システム
US10157113B2 (en) Information processing device, analysis method, and recording medium
Brenner et al. Modelling Grid5000 point availability with SAN
CN110990223A (zh) 一种基于系统日志的监控告警方法及装置
WO2023181241A1 (ja) 監視サーバ装置、システム、方法、及びプログラム
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806