CN117332212B - 一种基于混沌工程故障实验的智能化风险探索方法及系统 - Google Patents

一种基于混沌工程故障实验的智能化风险探索方法及系统 Download PDF

Info

Publication number
CN117332212B
CN117332212B CN202311380283.2A CN202311380283A CN117332212B CN 117332212 B CN117332212 B CN 117332212B CN 202311380283 A CN202311380283 A CN 202311380283A CN 117332212 B CN117332212 B CN 117332212B
Authority
CN
China
Prior art keywords
service
fault
weight
features
experiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311380283.2A
Other languages
English (en)
Other versions
CN117332212A (zh
Inventor
朱柯
郑阳
潘星文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongchuang Yongyi Technology Development Co ltd
Original Assignee
Beijing Tongchuang Yongyi Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongchuang Yongyi Technology Development Co ltd filed Critical Beijing Tongchuang Yongyi Technology Development Co ltd
Priority to CN202311380283.2A priority Critical patent/CN117332212B/zh
Publication of CN117332212A publication Critical patent/CN117332212A/zh
Application granted granted Critical
Publication of CN117332212B publication Critical patent/CN117332212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Accounting & Taxation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于混沌工程故障实验的智能化风险探索方法及系统,方法包括抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征;对特征进行特征值编码;提取数据的特征,并对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型;基于训练好的场景推荐模型,利用实际的特征数据,排序输出故障推荐列表;故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重。优点是:降低混沌工程实验的实施难度,从而达到非专业工程师也可以实施混沌实验,探索系统可能存在的风险,提升系统的稳定性。

Description

一种基于混沌工程故障实验的智能化风险探索方法及系统
技术领域
本发明涉及混沌工程技术领域,尤其涉及一种基于混沌工程故障实验的智能化风险探索方法及系统。
背景技术
对于工程师而言,人工识别有风险的软件版本是非常耗时耗力的,因为异常行为有多种模式,随着时间的推移这些模式还会发生变化,这就可能会导致误报。
混沌工程可以确保系统的可用性,将风险扼杀在襁褓之中的。混沌工程结合机器学习算法,以及和智能运维监控、自动化系统联动,从各个监控系统中抽取数据、面向用户提供服务、并执行智能运维,产生决策模型,形成智能化实验模式。及早发现有缺陷的软件版本,防止其部署到线上对用户造成重大影响。
各式各样的故障使人眼花缭乱,如何有针对性的实验成为非专业工程师的痛点。因此,如何结合机器学习算法,自动化推荐混沌实验故障,自动化故障注入是解决问题的关键,基于此,本发明提出了一种基于混沌工程故障实验的智能化风险探索方法及系统。
发明内容
本发明的目的在于提供一种基于混沌工程故障实验的智能化风险探索方法及系统,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于混沌工程故障实验的智能化风险探索方法,包括如下步骤,
S1、业务特征抽取:
抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征;
S2、特征值编码:
利用Labe l Encod i ng对特征进行特征值编码;
S3、推荐模型训练:
选取注意力机制的神经网络模型作为场景推荐模型,按照S1提取清洗后的训练数据中的特征,并按照S2中的方式对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型;
S4、故障推荐:
基于训练好的场景推荐模型,利用实际的特征数据,根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表;
S5、风险探索:
故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重。
优选的,所述业务类型特征包括,业务行业特征、业务类型特征、业务性能特征;
所述业务技术架构特征包括设备特征、开发语言特征、微服务架构特征、容器特征、数据库特征、中间件特征;
所述业务指标特征包括CPU资源类特征、内存资源类特征、磁盘资源类特征、网络资源类特征;
业务故障特征包括故障种类特征、故障致命度特征。
优选的,步骤S3具体包括如下内容,
S31、训练数据:收集历史的实验记录,整理成训练数据,所述历史的实验记录包括故障、参数、业务信息、指标信息、实验结果;
S32、清洗数据:对训练数据进行过滤、清洗,将执行不成功的数据从训练数据中过滤掉;
S33、特征选取和编码:按照步骤S1的方式提取训练数据的特征,并利用步骤S2的方式对提取的特征进行特征值编码;
S34、训练模型:利用相应特征的特征值训练场景推荐模型,以获取训练好的场景推荐模型。
优选的,步骤S4中根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表具体为,
将故障的召回通道权重、业务类型权重、业务技术架构权重、业务指标权重和业务故障权重相加,获取故障权重,将各个故障按照权重值的大小进行顺序排序,获取故障推荐列表。
优选的,风险探索具体包括如下内容,
S51、判断探索是否完成,若是,则结束探索,否则,进入S52;
S52、按照权重随机获取故障推荐列表中的故障;
S53、将原子故障封装成混沌故障实验场景;
S54、基于历史实验数据自动填充故障参数;
S55、开始混沌故障实验;
S56、判断是否发生风险,若是,则调整同类型的原子故障的权重到最高权重,并返回S51;否则,进入S57;
S57、判断该故障是否达到最大执行次数,若是,则将该原子故障的权重下降预设百分比,并返回S51,否则,直接返回S51。
优选的,步骤S5中,权重随机具体为,将所有的权重值相加,形成一个整体的区间[W1,W2],将每个权重都划分为小到子区间[w1,w2],每次做随机选择时,在整体的区间[W1,W2]中随机选择一个数,查看该数位于哪个子区间中,确定对应的权重值。
优选的,步骤S5中,动态更新权重具体为,基于就近原则更新权重,当某权重的场景实验完成后,发现风险,则同类型场景的权重值自动更新为该场景的权重值,并将该场景的权重值下降预设百分比;若实验完成后,未发现风险,则对权重值高的场景进行统计,若超过预设次的实验仍未发生风险,则将相应场景的权重降低预设百分比。
本发明的目的还在于提供一种基于混沌工程故障实验的智能化风险探索系统,系统能够实现上述任一所述方法,系统包括,
业务特征抽取模块:用于抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征;
特征值编码模块:用于利用Labe l Encod i ng对特征进行特征值编码;
推荐模型训练模块:用于选取注意力机制的神经网络模型作为场景推荐模型,利用业务特征抽取模块提取清洗后的训练数据中的特征,并利用特征编码模块对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型;
故障推荐模块:用于基于训练好的场景推荐模型,利用实际的特征数据,根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表;
风险探索模块:用于故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重。
本发明的有益效果是:1、降低混沌工程实验的实施难度,从而达到非专业工程师也可以实施混沌实验,探索系统可能存在的风险,提升系统的稳定性。2、通过抽取应用特征、故障特征,使用机器学习推荐算法训练推荐模型,基于实际的业务特征推荐混沌实验故障,基于动态排序算法注入故障。
附图说明
图1是本发明实施例中方法的流程示意图;
图2是本发明实施例中故障推荐的原理图;
图3是本发明实施例中风险探索的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本实施例中,提供了一种基于应用特征、故障特征、以及算法的智能化推荐混沌实验故障、自动化故障注入的方法,以降低混沌工程实验的实施难度,从而达到非专业工程师也可以实施混沌实验,探索系统可能存在的风险,提升系统的稳定性。该方法通过抽取应用特征、故障特征,使用机器学习推荐算法训练推荐模型,基于实际的业务特征推荐混沌实验故障,基于动态排序算法注入故障,包含的主要步骤为:
一、业务特征抽取:
抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征。
1、业务类型特征:梳理反应业务相关的特性,比如行业特征,银行、券商。业务类型,如券商的证券交易、期货交易、证券托管等。不同业务类型,对系统的稳定性要求是有差异。可以反映到非功能指标上。如,可抽取的特征包含:
(1)业务行业特性:银行[0]、证券[1]等。
(2)业务类型特性:实时交易[0]、24H交易[1]等。
(3)业务性能特性:业务性能特征可参考行业标准,抽取必要的指标。可抽取的特征包括:QPS/TPS每秒请求数量/每秒交易数量、RT(平均服务)响应时间、TSR交易成功率、QSR请求成功率、RTO恢复时间目标、RPO恢复点目标、MTTR平均故障修复时间、MTBF平均无故障工作时间、系统可用性MTTR/(MTTR+MTBF)*100%。
2、业务技术架构特征:技术架构特征可提取容器类型、服务器品牌、配置信息等。比如戴尔,I BM,华为,中科,中兴,硬件配置上包括存储、CPU、散热情况等。这种主要为了某一品牌型号容易出现某些问题而准备,或者是在某些条件下容易触发的故障。如,可抽取的业务架构特征可包含:
(1)设备特征:服务器数量、服务器CPU配置、服务器内存配置、服务CPU架构[0/1]等。
(2)开发语言特征:Java[0]、C/C++[1]、Python[2]、Nodejs[3]等。
(3)微服务架构特征:服务数量、是否有服务治理[0/1]、是否具备熔断[0/1],降级[0/1]等配置。
(4)容器特征:容器运行时[Docker:0、CR I-O:1、conta i nerd:2]、工作负载类型[Dep l oyment:0、Statefu l Set:1、DaemonSet:2、Job:3、CronJob:4]、是否具备HPA[0/1]等。
(5)数据库特征:数据库类型[MySQL:0、Orac l e:1、Sq l Server:2...]、部署类型[单机:0、主从:1、分布式:2、容器化:3...]等。
(6)中间件特征:中间件类型[Red i s:0、Kafka:1、...]、部署类型[单机:0、主从:1、分布式:2、容器化:3...]等。
3、业务指标特征:这类特征采集当前值,与历史值进行对比。比如当前值高于最近两天最高值、或者低于最近两天最低值就是,建议做某个实验。当前指标高于或低于最近1个月的极值,强烈建议做某个实验。每个指标关联一个故障列表,列表中每个故障有个相关系数。每个指标本身有个权重系数和严重等级系数。这样我们能得到不同故障优先级顺序。指标内容包括目前现有指标库的内容。也应该针对故障,开展指标采集。思路就是实施某一故障,应该存在哪些条件。采集相关指标,当这些指标表现不稳定的时候进行相关故障。如,指标特征可包含如下:
(1)CPU资源类:CPU使用率[0-100%]、1分钟CPU使用率[0-100%]、15分钟CPU使用率[0-100%]等。
(2)内存资源类:内存使用率[0-100%]、内存使用量。
(3)磁盘资源类:磁盘使用率[0-100%]、磁盘写入速率、磁盘读取速率[0-100%]等。
(4)网络资源类:网络传输速率、网络接受速率。
4、故障特征:实验场景中编排的故障特征如下:
(1)故障种类:将原子故障进行编码从1~N,特征值[1-N]。
(2)故障致命度:故障严重等级、故障发生频率。
二、特征值编码:
对抽取的业务特征,采用Labe l Encod i ng进行特征值编码,形成数据集用于训练推荐模型。
由于机器学习算法都是在矩阵上执行线性代数计算,所以参加计算的特征必须是数值型的,对于非数值型的特征需要进行编码处理。本方法采用Labe l Encod i ng进行特征值编码。Labe l Encod i ng是一种特征编码方法,它将每个特征的取值映射到一个整数,用整数表示特征的取值。具体来说,对于一个特征,将其所有不同的取值按照字典序排序,并将其映射到0到N-1的整数,其中N是特征取值的个数。例如,对于一个颜色特征,可能有三个不同的取值:红色、绿色和蓝色,那么可以将它们分别映射为0、1、2三个整数。这样就可以将字符型的特征转化为数值型的特征,方便机器学习算法的处理。针对S1中抽取的特征值,进行编码如下:
表1业务特征的特征值编码结果
三、推荐模型训练:
选取注意力机制的神经网络模型作为场景推荐模型,按照S1提取清洗后的训练数据中的特征,并按照S2中的方式对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型。
场景推荐模型主要选取注意力机制(Attent i on Mechan i sm)的神经网络模型,作为训练的模型,如常用的Tranformer、SNAI L、神经图灵机(Neura l Tur i ng Machi nes)等。模型训练按照常规的机器学习模型训练流程,其中需要涉及的主要内容包括:
1、训练数据:收集历史的实验记录,整理成训练数据,所述历史的实验记录包括故障、参数、业务信息、指标信息、实验结果;
2、清洗数据:对训练数据进行过滤、清洗,将执行不成功的数据从训练数据中过滤掉;
3、特征选取和编码:按照步骤S1的方式提取训练数据的特征,并利用步骤S2的方式对提取的特征进行特征值编码;
4、训练模型:利用相应特征的特征值训练场景推荐模型,以获取训练好的场景推荐模型。
四、故障推荐:
基于训练好的场景推荐模型,利用实际的特征数据,根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表,如图2所示。
根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表具体为,
将故障的召回通道权重、业务类型权重、业务技术架构权重、业务指标权重和业务故障权重相加(如下式),获取故障权重,将各个故障按照权重值的大小进行顺序排序,获取故障推荐列表。
We i ght=召回通道We i ght+业务类型We i ght+业务技术架构We i ght+业务指标We i ght+业务故障We i ght。
机器学习算法根据实际的特征数据,产生推荐结果。召回结果根据业务、架构、指标、故障画像等特征计算优先级,并排序,输出推荐列表。
S5、风险探索:
故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重。
故障注入过程中,对推荐的故障列表进行混沌实验,并且实验过程中基于故障致命度以及就近法则,动态调整场景的优先级,确保尽早发现风险,提升混沌实验的效率。
如图3所示,风险探索具体包括如下内容,
1、判断探索是否完成,若是,则结束探索,否则,进入2;
2、按照权重随机获取故障推荐列表中的故障;
3、将原子故障封装成混沌故障实验场景;
4、基于历史实验数据自动填充故障参数;
5、开始混沌故障实验;
6、判断是否发生风险,若是,则调整同类型的原子故障的权重到最高权重,并返回1;否则,进入7;
7、判断该故障是否达到最大执行次数,若是,则将该原子故障的权重下降预设百分比,并返回1,否则,直接返回1。
本实施例中,权重随机具体为,将所有的权重值(故障致命度)相加,形成一个整体的区间[W1,W2],将每个权重都划分为小到子区间[w1,w2],每次做随机选择时,在整体的区间[W1,W2]中随机选择一个数S。查看S是在哪个子区间中就出现对应的值。
本实施例中,动态更新权重具体为,基于就近原则更新权重,当某权重的场景实验完成后,发现风险,则同类型场景的权重值自动更新为该场景的权重值,并将该场景的权重值下降预设百分比(如百分之50);若实验完成后,未发现风险,则对权重值高的场景进行统计,若超过预设次(如10次)的实验仍未发生风险,则将相应场景的权重降低预设百分比(如百分之50)。
实施例二
本实施例中,提供了一种基于混沌工程故障实验的智能化风险探索系统,系统能够实现上述所述方法,系统包括,
业务特征抽取模块:用于抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征;
特征值编码模块:用于利用Labe l Encod i ng对特征进行特征值编码;
推荐模型训练模块:用于选取注意力机制的神经网络模型作为场景推荐模型,利用业务特征抽取模块提取清洗后的训练数据中的特征,并利用特征编码模块对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型;
故障推荐模块:用于基于训练好的场景推荐模型,利用实际的特征数据,根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表;
风险探索模块:用于故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种基于混沌工程故障实验的智能化风险探索方法及系统,降低混沌工程实验的实施难度,从而达到非专业工程师也可以实施混沌实验,探索系统可能存在的风险,提升系统的稳定性。通过抽取应用特征、故障特征,使用机器学习推荐算法训练推荐模型,基于实际的业务特征推荐混沌实验故障,基于动态排序算法注入故障。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (6)

1.一种基于混沌工程故障实验的智能化风险探索方法,其特征在于:包括如下步骤,
S1、业务特征抽取:
抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征;
S2、特征值编码:
利用Label Encoding对特征进行特征值编码;
S3、推荐模型训练:
选取注意力机制的神经网络模型作为场景推荐模型,按照S1提取清洗后的训练数据中的特征,并按照S2中的方式对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型;
S4、故障推荐:
基于训练好的场景推荐模型,利用实际的特征数据,根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表;
步骤S4中根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表具体为,
将故障的召回通道权重、业务类型权重、业务技术架构权重、业务指标权重和业务故障权重相加,获取故障权重,将各个故障按照权重值的大小进行顺序排序,获取故障推荐列表;
S5、风险探索:
故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重;
风险探索具体包括如下内容,
S51、判断探索是否完成,若是,则结束探索,否则,进入S52;
S52、按照权重随机获取故障推荐列表中的故障;
S53、将原子故障封装成混沌故障实验场景;
S54、基于历史实验数据自动填充故障参数;
S55、开始混沌故障实验;
S56、判断是否发生风险,若是,则调整同类型的原子故障的权重到最高权重,并返回S51;否则,进入S57;
S57、判断该故障是否达到最大执行次数,若是,则将该原子故障的权重下降预设百分比,并返回S51,否则,直接返回S51。
2.根据权利要求1所述的基于混沌工程故障实验的智能化风险探索方法,其特征在于:所述业务类型特征包括,业务行业特征、业务类型特征、业务性能特征;
所述业务技术架构特征包括设备特征、开发语言特征、微服务架构特征、容器特征、数据库特征、中间件特征;
所述业务指标特征包括CPU资源类特征、内存资源类特征、磁盘资源类特征、网络资源类特征;
业务故障特征包括故障种类特征、故障致命度特征。
3.根据权利要求1所述的基于混沌工程故障实验的智能化风险探索方法,其特征在于:步骤S3具体包括如下内容,
S31、训练数据:收集历史的实验记录,整理成训练数据,所述历史的实验记录包括故障、参数、业务信息、指标信息、实验结果;
S32、清洗数据:对训练数据进行过滤、清洗,将执行不成功的数据从训练数据中过滤掉;
S33、特征选取和编码:按照步骤S1的方式提取训练数据的特征,并利用步骤S2的方式对提取的特征进行特征值编码;
S34、训练模型:利用相应特征的特征值训练场景推荐模型,以获取训练好的场景推荐模型。
4.根据权利要求1所述的基于混沌工程故障实验的智能化风险探索方法,其特征在于:步骤S5中,权重随机具体为,将所有的权重值相加,形成一个整体的区间[W1,W2],将每个权重都划分为小到子区间[w1,w2],每次做随机选择时,在整体的区间[W1,W2]中随机选择一个数,查看该数位于哪个子区间中,确定对应的权重值。
5.根据权利要求1所述的基于混沌工程故障实验的智能化风险探索方法,其特征在于:步骤S5中,动态更新权重具体为,基于就近原则更新权重,当某权重的场景实验完成后,发现风险,则同类型场景的权重值自动更新为该场景的权重值,并将该场景的权重值下降预设百分比;若实验完成后,未发现风险,则对权重值高的场景进行统计,若超过预设次的实验仍未发生风险,则将相应场景的权重降低预设百分比。
6.一种基于混沌工程故障实验的智能化风险探索系统,其特征在于:系统能够实现上述权利要求1至5任一所述方法,系统包括,
业务特征抽取模块:用于抽取业务的业务类型特征、业务技术架构特征、业务指标特征以及业务故障特征,定义故障发生时业务特征;
特征值编码模块:用于利用Label Encoding对特征进行特征值编码;
推荐模型训练模块:用于选取注意力机制的神经网络模型作为场景推荐模型,利用业务特征抽取模块提取清洗后的训练数据中的特征,并利用特征编码模块对提取出的特征进行特征值编码,利用特征对应的特征值训练场景推荐模型;
故障推荐模块:用于基于训练好的场景推荐模型,利用实际的特征数据,根据业务类型、业务技术架构、业务指标和业务故障特征计算故障优先级,并排序输出故障推荐列表;
风险探索模块:用于故障注入过程中,对故障推荐列表中的故障进行混沌实验,基于故障的致命度进行带权重的随机,并在实验完成后基于实验的结果,再次动态更新权重。
CN202311380283.2A 2023-10-24 2023-10-24 一种基于混沌工程故障实验的智能化风险探索方法及系统 Active CN117332212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311380283.2A CN117332212B (zh) 2023-10-24 2023-10-24 一种基于混沌工程故障实验的智能化风险探索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311380283.2A CN117332212B (zh) 2023-10-24 2023-10-24 一种基于混沌工程故障实验的智能化风险探索方法及系统

Publications (2)

Publication Number Publication Date
CN117332212A CN117332212A (zh) 2024-01-02
CN117332212B true CN117332212B (zh) 2024-05-28

Family

ID=89279096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311380283.2A Active CN117332212B (zh) 2023-10-24 2023-10-24 一种基于混沌工程故障实验的智能化风险探索方法及系统

Country Status (1)

Country Link
CN (1) CN117332212B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101163047A (zh) * 2007-11-23 2008-04-16 上海华为技术有限公司 一种实现主设备和备用设备倒换的方法和装置
CN109582550A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种获取全量业务场景故障集合的方法、装置及服务器
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN114218402A (zh) * 2021-12-17 2022-03-22 迈创企业管理服务股份有限公司 一种计算机硬件故障更换件推荐的方法
CN116010853A (zh) * 2023-02-13 2023-04-25 深圳市田科信息技术有限公司 充电桩设备故障预测方法及系统、计算机可读存储介质
CN116318834A (zh) * 2023-01-16 2023-06-23 南京信息工程大学 一种基于优化相关向量机的互联网入侵检测方法及装置
CN116776205A (zh) * 2023-06-29 2023-09-19 国网山东综合能源服务有限公司 一种综合能源故障精准快速诊断方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122999A (ja) * 2001-10-11 2003-04-25 Honda Motor Co Ltd 故障に対する対応方法を提供するシステム、プログラムおよび方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101163047A (zh) * 2007-11-23 2008-04-16 上海华为技术有限公司 一种实现主设备和备用设备倒换的方法和装置
CN109582550A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种获取全量业务场景故障集合的方法、装置及服务器
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN114218402A (zh) * 2021-12-17 2022-03-22 迈创企业管理服务股份有限公司 一种计算机硬件故障更换件推荐的方法
CN116318834A (zh) * 2023-01-16 2023-06-23 南京信息工程大学 一种基于优化相关向量机的互联网入侵检测方法及装置
CN116010853A (zh) * 2023-02-13 2023-04-25 深圳市田科信息技术有限公司 充电桩设备故障预测方法及系统、计算机可读存储介质
CN116776205A (zh) * 2023-06-29 2023-09-19 国网山东综合能源服务有限公司 一种综合能源故障精准快速诊断方法及系统

Also Published As

Publication number Publication date
CN117332212A (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN102012918B (zh) 一种规律挖掘和执行系统及其方法
CN110086666A (zh) 一种告警方法、装置及系统
CN109725899B (zh) 数据流式处理方法及装置
CN106656536A (zh) 一种用于处理服务调用信息的方法与设备
CN114186626A (zh) 一种异常检测方法、装置、电子设备及计算机可读介质
CN102496126A (zh) 一种托管资产交易数据监控设备
CN113298638A (zh) 根因定位方法、电子设备及存储介质
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN108140051B (zh) 基于全球检索的数据实时生成全球商业评级的全球联网系统
CN111800292A (zh) 基于历史流量的预警方法、装置、计算机设备及存储介质
CN112995155A (zh) 金融异常报文识别方法及装置
CN117332212B (zh) 一种基于混沌工程故障实验的智能化风险探索方法及系统
CN114997879B (zh) 一种支付路由方法、装置、设备和存储介质
CN117036001A (zh) 交易业务的风险识别处理方法、装置、设备及存储介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN113343577B (zh) 一种基于机器学习的参数优化方法、装置、设备及介质
CN109324963A (zh) 自动测试收益结果的方法及终端设备
CN113592529B (zh) 债券产品的潜在客户推荐方法和装置
CN114819944A (zh) 云产品计费系统、方法、装置及设备
CN111008078A (zh) 数据的批量处理方法、装置、设备及计算机存储介质
CN111932131A (zh) 业务数据处理方法及装置
CN111062800A (zh) 数据处理方法、装置、电子设备及计算机可读介质
CN110544165A (zh) 一种信用风险评分卡创建方法、装置及电子设备
CN114331227B (zh) 数据分析的方法、装置、电子设备和可读介质
CN114036174B (zh) 数据更新方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant