CN116302762B - 一种基于红蓝对抗的故障定位应用的评测方法与系统 - Google Patents

一种基于红蓝对抗的故障定位应用的评测方法与系统 Download PDF

Info

Publication number
CN116302762B
CN116302762B CN202310532288.6A CN202310532288A CN116302762B CN 116302762 B CN116302762 B CN 116302762B CN 202310532288 A CN202310532288 A CN 202310532288A CN 116302762 B CN116302762 B CN 116302762B
Authority
CN
China
Prior art keywords
fault
application
data
subsystem
blue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310532288.6A
Other languages
English (en)
Other versions
CN116302762A (zh
Inventor
陈哲康
温希道
汤汝鸣
聂晓辉
程世文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202310532288.6A priority Critical patent/CN116302762B/zh
Publication of CN116302762A publication Critical patent/CN116302762A/zh
Application granted granted Critical
Publication of CN116302762B publication Critical patent/CN116302762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种基于红蓝对抗的故障定位应用的评测方法与系统,其中所述方法包括:步骤S101、将故障流量注入红方故障诊断子系统;步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。本发明在兼顾故障种类的同时,对故障的评测标准和红方算法的评测标准进行了详细的制定,量化各种算法的优劣程度和各种故障的严重程度,使得对应用的评测更加客观,结论更加精确。

Description

一种基于红蓝对抗的故障定位应用的评测方法与系统
技术领域
本发明属于计算机系统工程领域,尤其涉及一种基于红蓝对抗的故障定位应用的评测方法与系统。
背景技术
红蓝对抗是属于混沌工程领域极为重要的组成部分,其通过反复的模拟故障注入和故障恢复的攻防实验以及对算法和系统因地制宜的调整,最终发展成为红蓝对抗实践。红蓝对抗的实施目标是帮助业务系统进行全面摸底,也可认为是对业务系统的稳定性建设目标的一次集中验证。红蓝对抗的思想吸收自Gremlin介绍的chaos gameday,GameDays是Jesse Robbins在亚马逊创造的一个红蓝对抗的工具。GameDays是通过有目的地定期创建重大故障来提高可靠性以及混沌工程的价值。通常,GameDay将运行2-4小时,并且涉及开发应用程序或支持它的工程师团队,但理想情况下,它涉及应用程序双方的成员。
Chaos Gameday在故障注入做了较多的工作,但并未关注对抗过程中蓝方对各种故障的评测过程和标准以及对红方算法的评测过程和标准。
发明内容
针对上述现有技术中存在的缺陷,本发明提供一种基于红蓝对抗的系统故障定位应用的评测方法,包括以下步骤:
步骤S101、将故障流量注入红方故障诊断子系统;
步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;
步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;
步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。
其中,所述故障流量来自真实系统数据或仿真平台模拟数据。
其中,所述真实系统借助故障生成单元注入故障后生成真实流量,所述仿真平台借助流量模拟以及故障生成单元生成注入故障的仿真流量。
其中,所述蓝方评测子系统包含故障生成单元,其用于对真实流量或仿真流量注入故障。
其中,所述步骤S107包括:
所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,得到第一评测结果。
其中,所述所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,具体包括:
假设共注入N次故障,第i次故障的发生时间为Ti,收集应用在故障发生开始时间a之前最后一次提交的答案,其中i≤N,a为常量,设答案提交时间为t,则应用故障定位耗时latency定义为t-Ti;
计算应用提交的答案与标准答案间的F_beta_score,记作f;
计算应用命中答案的[cmdb_id,kpi_name]数量TP;
应用在第i次故障的定位效果Ei为:
其中ceil为取上整函数,用于忽略微小差距、beta取0.5、F_0.5_score用于惩罚答案多对的少的情况、TP用于惩罚答案少速度快的情况、Latency用以评估应用时间、k值则为经验参数,根据成绩分布进行调整,在不影响整体得分情况下,使得得分分布更加平滑。
其中,得到第一评测结果包括:
将每个应用得到的结果Ei按照从小到大排序,则最终应用的总得分计算方式为:
其中,所述标准化数据包括监控日志数据、监控指标数据和调用链数据。
其中,不同的数据匹配不同的应用。
本发明还提出了一种基于红蓝对抗的应用的评测系统,其包括:流量注入子系统、红方故障诊断子系统和蓝方评测子系统,其中
流量注入子系统,其包括:
流量生成模块,其用于获取真实流量或仿真流量;
故障流量注入模块,其用于对红方故障诊断子系统注入故障流量;
所述红方故障诊断子系统,其包括:
数据标准化模块,其用于所述故障流量进行数据清洗和预处理;
红方应用数据库,其用于存储待评测的应用;
诊断模块,其用于基于所述标准化数据,对所述应用进行诊断;
所述蓝方评测子系统,其包括:
故障生成单元,其用于生成注入真实流量或仿真流量的故障;
评测模块,其用于基于诊断结果,输出第一评测结果。
与现有技术相比,本发明在兼顾故障种类的同时,对故障的评测标准和红方算法的评测标准进行了详细的制定,量化各种算法的优劣程度和各种故障的严重程度,使得对应用的评测更加客观,结论更加精确。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种基于红蓝对抗的应用的评测方法流程图。
图2是示出根据本发明实施例的调用链的数据排查流程图。
图3是示出根据本发明实施例的一种基于红蓝对抗的应用的评测系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例一、
如图1所示,本发明公开了一种基于红蓝对抗的系统故障定位应用的评测方法,包括以下步骤:
步骤S101、将故障流量注入红方故障诊断子系统;
步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;
步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;
步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。
实施例二、
本发明提出的一种基于红蓝对抗的系统故障定位应用的评测方法,包括以下步骤:
步骤S101、将故障流量注入红方故障诊断子系统;
步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;
步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;
步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。
其中,所述故障流量来自真实系统数据或仿真平台模拟数据。
其中,所述真实系统借助故障生成单元注入故障后生成真实流量,所述仿真平台借助流量模拟以及故障生成单元生成注入故障的仿真流量。
其中,所述蓝方评测子系统包含故障生成单元,其用于对真实流量或仿真流量注入故障。
其中,所述步骤S107包括:
所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,得到第一评测结果。
其中,所述所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,具体包括:
假设共注入N次故障,第i次故障的发生时间为Ti,收集应用在故障发生开始时间a之前最后一次提交的答案,其中i≤N,a为常量,设答案提交时间为t,则应用故障定位耗时latency定义为t-Ti;
计算应用提交的答案与标准答案间的F_beta_score,记作f;
计算应用命中答案的[cmdb_id, kpi_name]数量TP;
应用在第i次故障的定位效果Ei为:
其中ceil为取上整函数,用于忽略微小差距、beta取0.5、F_0.5_score用于惩罚答案多对的少的情况、TP用于惩罚答案少速度快的情况、Latency用以评估应用时间、k值则为经验参数,根据成绩分布进行调整,在不影响整体得分情况下,使得得分分布更加平滑。
其中,得到第一评测结果包括:
将每个应用得到的结果Ei按照从小到大排序,则最终应用的总得分计算方式为:
其中,所述标准化数据包括监控日志数据、监控指标数据和调用链数据。
其中,不同的数据匹配不同的应用。
实施例三、
举例来说,本发明包括如下过程:
(1)流量注入
故障流量可以来自真实系统或仿真平台,真实系统借助故障生成单元(chaosblade等)对系统注入故障后生成真实流量,仿真平台则借助流量模拟以及故障注入等方式在系统生成注入故障的仿真流量。
接受真实系统或者仿真平台所提供的带有故障的异常流量数据,对数据进行清洗与预处理后推送,将流量处理为三种不同的标准化的数据并推送至红方故障诊断子系统。
(2)数据清洗与预处理:
数据包括:监控日志、监控指标和调用链数据。
其中,数据为监控日志时,使用flume、logstash等对服务日志进行采集,按照一定的数据收集模板对有用的数据进行收集
其中,数据为监控指标时,使用prometheus对系统机器、系统业务的一级和二级指标进行模板化的采集和统计,用以查看系统中相关指标的瞬时和区间变化情况,举例:
节点CPU一级指标统计语句模板:
node_cpu_seconds_total{mode!=”idle”}
该公式统计瞬时情况下当前系统每个节点CPU的使用率。
节点CPU二级指标统计语句模板:
该公式统计以节点的instance分组,每个instance的五分钟区间中cpu使用率变化情况。
其中,数据为调用链数据时,使用jaeger结合elasticsearch提取调用链数据,提取语句举例:
elasticdump --input --output --type=data --searchBody="{ \"size\" :10000, \"query\": {\"range\": {\"startTimeMillis\": {\"gte\":,\"lte\": }}}}"--limit 1000
以上语句允许系统查询指定时间的调用链数据,并且借助searchBody控制所要获取数据的字段。
此外,由于调用链数据数量巨大,从而导致数据采集过程存在着一些数据丢失情况。我们对elasticsearch采集到的数据通过一些模板函数对数据进行断链的排查,流程图如图2所示。
红方故障诊断子系统,其借助蓝方提供的三种标准数据接口适配应用库中的应用进行故障诊断并给出最后结果。红方故障诊断子系统维护一个红方应用库,用于存储运维人员所想要验证的应用列表,当执行故障诊断时,数据库逐一调用库中应用与当前数据进行结合,得到应用评测的结果,经过标准化整合,其中标准化整合指的是,以指定数据格式生成各类数据,以指标数据为例:数据由时间戳、指标名称、指标值组成。调用链数据则由时间戳、span_id、parent_id、trace_id、duration等部分组成。后输出至蓝方评测模块。
标准化输出模块,其以json列表的形式提交至蓝方评测子系统,具体结果样例如下:
其中,M为找到的根因数量,列表中的第i个元素为一个长度为2的列表:,表示找到的第i个根因出现在实体cmdb_id_i上,root_cause_i可能为kpi名称或者日志名称。用json中的列表形式提交产生根因的(cmdb_id,kpi_name)或者(cmdb_id,log_name)。
蓝方评测子系统基于红方故障诊断子系统给出的输出结果,蓝方评测子系统对每个应用进行打分,具体的打分应用如下所示:
整个对抗过程中,蓝方的故障生成模块会注入N次故障,假设第i次故障的发生时间为Ti(故障需要应用自行判断,T和N不会告知),蓝方系统会根据每次故障发生时,红方应用定位的准确率与速度为应用进行排名,评分。 以故障为单位对应用进行评分,对于第i次故障,系统收集应用在故障发生开始十分钟前最后一次提交的答案,即,系统收集应用在时间区间[Ti,Ti+10min]中的最后一次提交作为应用对第i次故障的答案。设应用提交时间为t,则应用的定位耗时latency定义为t-Ti;结合事先准备好的标准答案(同样位json列表),可以计算出应用提交的答案与标准答案间的F_beta_score,记作f,我们的系统中beta取0.5,即F_0.5_score,同时也可以计算出应用命中的[cmdb_id, kpi_name]数量TP。最终,应用在第i次故障的定位效果Ei为:
其中ceil为取上整函数,用于忽略微小差距。F_0.5_score用于惩罚答案多对的少的情况。TP用于惩罚答案少速度快的情况。Latency用以评估应用时间。k值则为经验参数,根据成绩分布进行调整,在不影响整体得分情况下,使得得分分布更加平滑(具体选择方式在下面有图详解)。系统将每个应用得到的结果Ei按照从小到大排序,前10名的应用按照名次从小到大获得10至1分,即第1名获得10分,第2名获得9分,以此类推。对于所有Ei为无穷的应用,他们的第i次故障得分为0。若F0.5score为0,则Ei为无穷。还有一种情况会使得Ei为无穷:应用提交的列表中命中数不足一半。对于Ei不为无穷的应用,最终应用的总得分计算方式为:
实施例四、
如图3所示,本发明还提出了一种基于红蓝对抗的应用的评测系统,其包括:
流量注入子系统1,其包括:
流量生成模块,其用于获取真实流量或仿真流量;
故障流量注入模块,其用于对红方故障诊断子系统注入故障流量;
所述红方故障诊断子系统2,其包括:
数据标准化模块,其用于所述故障流量进行数据清洗和预处理;
红方应用数据库,其用于存储待评测的应用;
诊断模块,其用于基于所述标准化数据,对所述应用进行诊断;
所述蓝方评测子系统3,其包括:
故障生成单元,其用于生成注入真实流量或仿真流量的故障;
评测模块,其用于基于诊断结果,输出第一评测结果。
实施例四、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (5)

1.一种基于红蓝对抗的应用的评测方法,包括以下步骤:
步骤S101、将故障流量注入红方故障诊断子系统;
步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;
步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;
其中,红方故障诊断子系统借助蓝方提供的三种标准数据接口适配应用库中的应用进行故障诊断,红方故障诊断子系统维护一个红方应用库,用于存储运维人员所想要验证的应用列表,当执行故障诊断时,数据库逐一调用库中应用与当前数据进行结合,得到应用评测的结果;
其中所述标准化数据包括监控日志数据、监控指标数据和调用链数据;
其中不同的数据匹配不同的应用;
步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果;
其中所述步骤S107包括:
所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,得到第一评测结果;
其中所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,具体包括:
假设共注入N次故障,第i次故障的发生时间为Ti,收集应用在故障发生开始时间a之前最后一次提交的答案,其中i≤N,a为常量,设答案提交时间为t,则应用故障定位耗时latency定义为t-Ti;
计算应用提交的答案与标准答案间的F_beta_score;
计算应用命中答案的[cmdb_id,kpi_name]数量TP;
应用在第i次故障的定位效果Ei为:
其中ceil为取上整函数,用于忽略微小差距,beta取0.5、F_0.5_score用于惩罚答案多对的少的情况、TP用于惩罚答案少速度快的情况、Latency用以评估应用时间、k值则为经验参数,根据成绩分布进行调整,在不影响整体得分情况下,使得得分分布更加平滑;
其中得到第一评测结果包括:
将每个应用得到的结果Ei按照从小到大排序,则最终应用的总得分计算方式为:
2.如权利要求1所述方法,其中所述故障流量来自真实系统数据或仿真平台模拟数据。
3.如权利要求2所述方法,其中所述真实系统借助故障生成单元注入故障后生成真实流量,所述仿真平台借助流量模拟以及故障生成单元生成注入故障的仿真流量。
4.如权利要求3所述方法,其中所述蓝方评测子系统包含故障生成单元,其用于对真实流量或仿真流量注入故障。
5.一种基于红蓝对抗的应用的评测系统,其包括:流量注入子系统、红方故障诊断子系统和蓝方评测子系统,其中
流量注入子系统,其包括:
流量生成模块,其用于获取真实流量或仿真流量;
故障流量注入模块,其用于对红方故障诊断子系统注入故障流量;
所述红方故障诊断子系统,其包括:
数据标准化模块,其用于所述故障流量进行数据清洗和预处理;
红方应用数据库,其用于存储待评测的应用;
诊断模块,其用于基于标准化数据,对所述应用进行诊断;
所述蓝方评测子系统,其包括:
故障生成单元,其用于生成注入真实流量或仿真流量的故障;
评测模块,其用于基于诊断结果,输出第一评测结果;
其中所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,得到第一评测结果;
其中,红方故障诊断子系统借助蓝方提供的三种标准数据接口适配应用库中的应用进行故障诊断,红方故障诊断子系统维护一个红方应用库,用于存储运维人员所想要验证的应用列表,当执行故障诊断时,数据库逐一调用库中应用与当前数据进行结合,得到应用评测的结果;
其中所述标准化数据包括监控日志数据、监控指标数据和调用链数据;
其中不同的数据匹配不同的应用;
其中所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,具体包括:
假设共注入N次故障,第i次故障的发生时间为Ti,收集应用在故障发生开始时间a之前最后一次提交的答案,其中i≤N,a为常量,设答案提交时间为t,则应用故障定位耗时latency定义为t-Ti;
计算应用提交的答案与标准答案间的F_beta_score,记作f;
计算应用命中答案的[cmdb_id,kpi_name]数量TP;
应用在第i次故障的定位效果Ei为:
其中ceil为取上整函数,用于忽略微小差距、beta取0.5、F_0.5_score用于惩罚答案多对的少的情况、TP用于惩罚答案少速度快的情况、Latency用以评估应用时间、k值则为经验参数,根据成绩分布进行调整,在不影响整体得分情况下,使得得分分布更加平滑;
其中得到第一评测结果包括:
将每个应用得到的结果Ei按照从小到大排序,则最终应用的总得分计算方式为:
CN202310532288.6A 2023-05-12 2023-05-12 一种基于红蓝对抗的故障定位应用的评测方法与系统 Active CN116302762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310532288.6A CN116302762B (zh) 2023-05-12 2023-05-12 一种基于红蓝对抗的故障定位应用的评测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310532288.6A CN116302762B (zh) 2023-05-12 2023-05-12 一种基于红蓝对抗的故障定位应用的评测方法与系统

Publications (2)

Publication Number Publication Date
CN116302762A CN116302762A (zh) 2023-06-23
CN116302762B true CN116302762B (zh) 2023-08-18

Family

ID=86830846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310532288.6A Active CN116302762B (zh) 2023-05-12 2023-05-12 一种基于红蓝对抗的故障定位应用的评测方法与系统

Country Status (1)

Country Link
CN (1) CN116302762B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336249A (zh) * 2013-06-18 2013-10-02 北京空间飞行器总体设计部 一种导航卫星电源系统自主管理仿真验证系统
CN106202886A (zh) * 2016-06-29 2016-12-07 中国铁路总公司 基于模糊粗糙集与决策树的轨道电路红光带故障定位方法
CN108229049A (zh) * 2018-01-17 2018-06-29 中国航空综合技术研究所 基于性能模型进行多状态系统任务可靠性建模的方法
CN113591982A (zh) * 2021-07-30 2021-11-02 山东建筑大学 一种故障检测与诊断算法的性能评估方法及系统
WO2022011754A1 (zh) * 2020-07-16 2022-01-20 苏州大学 一种基于自适应流形嵌入动态分布对齐的故障诊断方法
CN115392009A (zh) * 2022-08-16 2022-11-25 哈尔滨新光光电科技股份有限公司 一种全功能复杂场景生成软件架构

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336249A (zh) * 2013-06-18 2013-10-02 北京空间飞行器总体设计部 一种导航卫星电源系统自主管理仿真验证系统
CN106202886A (zh) * 2016-06-29 2016-12-07 中国铁路总公司 基于模糊粗糙集与决策树的轨道电路红光带故障定位方法
CN108229049A (zh) * 2018-01-17 2018-06-29 中国航空综合技术研究所 基于性能模型进行多状态系统任务可靠性建模的方法
WO2022011754A1 (zh) * 2020-07-16 2022-01-20 苏州大学 一种基于自适应流形嵌入动态分布对齐的故障诊断方法
CN113591982A (zh) * 2021-07-30 2021-11-02 山东建筑大学 一种故障检测与诊断算法的性能评估方法及系统
CN115392009A (zh) * 2022-08-16 2022-11-25 哈尔滨新光光电科技股份有限公司 一种全功能复杂场景生成软件架构

Also Published As

Publication number Publication date
CN116302762A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
WO2017185945A1 (zh) 一种故障处理方法及装置
EP4075281A1 (en) Ann-based program test method and test system, and application
Wang et al. Ietcr: An information entropy based test case reduction strategy for mutation-based fault localization
CN108306997B (zh) 域名解析监控方法及装置
CN112801434A (zh) 性能指标健康度的监测方法、装置、设备和存储介质
CN117035563B (zh) 产品质量安全风险监测方法、设备、监测系统及介质
Huang et al. Dissimilarity‐based test case prioritization through data fusion
CN116302762B (zh) 一种基于红蓝对抗的故障定位应用的评测方法与系统
CN113609216A (zh) 基于区块链的产品质量诊断方法、装置、设备及存储介质
CN112598326A (zh) 模型迭代方法、装置、电子设备及存储介质
CN116480534A (zh) 一种风电机组健康度评估和检修方法、系统、设备及介质
CN114519437B (zh) 一种基于云的故障诊断分析及报修的微服务方法及系统
CN116248393A (zh) 一种内网数据传输漏洞扫描装置及系统
CN112906914B (zh) 轨道交通it设备故障分析方法、装置和电子设备
CN113825162B (zh) 电信网络故障原因定位方法及装置
CN115564247A (zh) 一种核电厂事故智能识别及决策的方法及系统
CN114022022A (zh) 工业网络安全风险评估方法、装置、设备及存储介质
Lima et al. Test case prioritization based on data reuse an experimental study
CN116383020B (zh) 一种基于区块链的互联网数据分析管理系统及方法
CN115473788B (zh) 一种存储告警测试方法、装置、设备、存储介质
CN116108331A (zh) 工业设备监测数据预测曲线的生成方法及装置
CN117520027A (zh) 一种基于观测云进行根因分析的结果输出方法及系统
CN118034978A (zh) 混沌工程故障演练方法、装置、设备、存储介质及产品
CN116996318A (zh) 安全防护策略的可行性评估方法、装置、设备及介质
CN117407318A (zh) 一种基于物流系统质量监测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant