CN117215639A - 一种基于观测云进行根因分析的配置管理方法及系统 - Google Patents

一种基于观测云进行根因分析的配置管理方法及系统 Download PDF

Info

Publication number
CN117215639A
CN117215639A CN202311226196.1A CN202311226196A CN117215639A CN 117215639 A CN117215639 A CN 117215639A CN 202311226196 A CN202311226196 A CN 202311226196A CN 117215639 A CN117215639 A CN 117215639A
Authority
CN
China
Prior art keywords
management
configuration
observability
platform
providing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311226196.1A
Other languages
English (en)
Inventor
范莹莹
蒋烁淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Observation Future Information Technology Co ltd
Original Assignee
Shanghai Observation Future Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Observation Future Information Technology Co ltd filed Critical Shanghai Observation Future Information Technology Co ltd
Priority to CN202311226196.1A priority Critical patent/CN117215639A/zh
Publication of CN117215639A publication Critical patent/CN117215639A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于观测云进行根因分析的配置管理方法及系统,方法包括:任务管理、策略管理、资源管理、环境管理、流程编排;任务管理包括基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;策略管理包括配置异常的触发规则;配置异常后置行为;资源管理包括对不同类型的资源进行分类管理;环境管理包括自动发现组件依赖关系,并动态维护系统拓扑图;流程编排包括编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程。本发明基于观测云进行根因分析配置管理,通过任务管理、策略管理、资源管理、环境管理、流程编排等过程,保证所有配置项的完整性、一致性、关联性和可回溯性,提高了根因分析处理效率。

Description

一种基于观测云进行根因分析的配置管理方法及系统
技术领域
本发明涉及根因分析技术领域,具体而言,涉及一种基于观测云进行根因分析的配置管理方法及系统。
背景技术
根本原因分析(Root Cause Analysis,RCA)是一种结构化的问题处理方法,用以逐步找出问题的根本原因并加以解决,而不是仅仅关注问题的表征。根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。
根因分析的目标是确定问题的根本原因,以便采取适当的措施来解决问题并防止类似问题再次发生。
然而,传统的运维系统在解决运维场景时有着难以逾越的技术问题,比如,缺乏获取高质量高时效的监控数据的能力,以及缺乏整个软件生命周期的配置管理,包括版本管理。并且现阶段的运维系统无法支持多技术栈和混合架构下的不断增大的复杂性,对于根因分析的处理效果较差。
发明内容
鉴于此,本发明的目的在于提出一种基于观测云进行根因分析的配置管理方法,基于观测云进行根因分析的配置管理,保证所有配置项的完整性、一致性、关联性和可回溯性,为根因分析提供高质量高时效的配置调度服务,更加快速更加准确地定位到事件发生的根本原因,并且支持多技术栈和混合架构下的不断增大的复杂性,从而提高根因分析的处理效率。
本发明提供一种基于观测云进行根因分析的配置管理方法,包括:任务管理(对不同任务进行场景化管理,针对应用,集群,分组和节点进行任务配置的能力)、策略管理(对根因分析的算法、异常触发的规则、触发后执行的行为等进行管理的能力)、资源管理(对应用、集群、分组、节点等信息进行维护和管理,同时包括对各个层级资源关联信息的维护与管理的能力)、环境管理(对根因分析支持的环境信息进行维护和管理的能力)、流程编排(对根因分析定位的流程进行编排的能力);
其中,所述任务管理的方法包括:
基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;对任务分场景进行管理;提供多级层级的任务管理配置;提供自定义任务类型;
本发明通过观测云Datakit平台采集多层多级的任务;
所述策略管理的方法包括:
配置异常的触发规则;配置异常后置行为;提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景;定义多层级的异常上下文,根据不同分支配置不同的执行策略;
所述资源管理的方法包括:
对不同类型的资源进行分类管理;提供组织管理应用与节点信息,并在两个层级关联维护信息;对可观测性平台与部署在节点上的代理agent的配置进行展示与编辑;提供分组与集群管理的能力,并在新增两个层级关联维护信息;提供用户中心与可观测性平台的动态更新配置;提供自定义编排组织资源结构;
其中,所述用户中心与可观测性平台的动态更新配置的方法,包括以下步骤:
S1、对接用户中心,包括以下步骤:
S11、输入可观测性平台的域名,跳转到用户中心的登录界面;配置用户中心的redirect_url参数,跳转到可观测性平台;
S12、由可观测性平台向用户中心发起认证授权请求,用户中心返回代码code;
S13、由可观测性平台携带所述code向func函数发出请求,func函数携带所述code调用用户中心的code转token接口;
S14、由用户中心返回access_token给func函数式接口,func函数式接口返回access_token给可观测性平台;
S15、由可观测性平台携带access_token向func函数式接口做请求,func函数式接口携带access_token调用用户中心的userInfo接口;
S16、由用户中心返回userInfo信息,func函数使用userInfo中的short_name在RDS的关系表中查询到工作空间的uuid;进入工作空间;
单点登录(sso)是整合企业系统的解决方案之一,用于统一用户身份认证,用户只需要登录一次就可访问所有企业相互信任的应用系统。可观测性平台支持基于标准OAuth2协议,实现可观测性平台对接用户中心的单点登录功能。
S2、对接配置管理数据库CMDB系统;
S3、初始化CMDB系统;
观测云DataKit平台集成了版本管理Git客户端功能,定期(默认1min)拉取Git仓库里最新的配置数据,通过加载这些最新的配置来实现DataKit的配置更新;本发明把配置放在配置中心(etcd)或者Git上。
配置中心的思路就是把项目中各种配置、各种参数、各种开关,全部都放到一个集中的地方进行统一管理,并提供一套标准的接口。当各个服务需要获取配置的时候,就来配置中心的接口拉取。当配置中心中的各种参数有更新时,也能通知到各个服务实时地过来同步最新的信息,使各个服务动态更新。
所述环境管理的方法包括:
提供手动的方式维护系统环境的组件和依赖关系,包括硬件和软件环境;自动发现系统环境组件;自动发现组件依赖关系,并动态维护系统拓扑图;
本发明支持基于服务(service)和服务环境版本(service+env+version)两种维度绘制链路拓扑图,开启区分环境和版本后,将按照不同的环境版本绘制服务拓扑图。比如金丝雀发布,通过开启环境和版本,即可查看不同环境版本下的服务调用情况。另可以通过tags字段提供运行环境的信息。
所述流程编排的方法包括:
编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程;提供人工定义编排的根因分析规则,系统自动化执行分析流程;提供逻辑判断与循环等编排能力;提供自定义流程;提供自定义流程触发器,自动触发流程调度;提供自动生成流程编排。
进一步地,所述S3步骤的初始化CMDB系统的方法,包括以下步骤:
S31、分页调用CMDB系统中/instance/model_name接口,model_name参数设为biz,每次调用取一个系统的信息;
S32、使用返回值中的short_name在关系表中查询工作空间的uuid;
如工作空间不存在,则调用可观测性平台的OpenAPI创建工作空间,将所述工作空间的uuid和short_name保存到关系表中,取返回值中管理者的username和工作空间的uuid,权限是管理员,保存到映射表中;取返回值中的运维人员的username和工作空间的uuid,权限是标准成员,保存到映射表中;
如short_name在关系表中查到工作空间的uuid,根据uuid查询映射表中所有该空间的用户;
查到的用户如果在系统信息中不存在,则删除该用户;系统信息中的用户如果没查到,则删除该用户;
S33、循环执行S32步骤的操作。
进一步地,所述S2步骤的对接CMDB系统的方法包括:
所述可观测性平台通过func函数实现定时任务,定时任务数小时执行一次,将用户系统名称作为工作空间名称,自动创建不存在的工作空间;
同时将用户系统中维护的管理者和运维人员的username、对应的工作空间uuid记录到可观测性平台的映射表中。
进一步地,所述任务管理的方法中的基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置包括:
按service/resource/project/env级别进行单独的任务配置。
进一步地,所述策略管理的方法中的配置异常的触发规则包括:
基线规则、时序规则或多维度规则。
进一步地,所述策略管理的方法中的配置异常后置行为包括:
采集数据、上报数据、自动抓取信息。
进一步地,所述资源管理的方法中的对不同类型的资源进行分类管理包括:
对应用、服务器、数据库、存储进行分类管理。
进一步地,所述任务管理的方法中的对任务分场景进行管理包括:
按字段进行任务分场景管理。
进一步地,所述任务管理的方法中的自定义任务类型包括:
自定义巡检,自定义数据源,自定义通知,自定义事件。
本发明还提供一种基于观测云进行根因分析的配置管理系统,执行如上述所述的基于观测云进行根因分析的配置管理方法,包括:
任务管理模块:用于基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;对任务分场景进行管理;提供多级层级的任务管理配置;提供自定义任务类型;
策略管理模块:用于配置异常的触发规则;配置异常后置行为;提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景;定义多层级的异常上下文,根据不同分支配置不同的执行策略;
资源管理模块:用于对不同类型的资源进行分类管理;提供组织管理应用与节点信息,并在两个层级关联维护信息;对可观测性平台与部署在节点上的代理agent的配置进行展示与编辑;提供分组与集群管理的能力,并在新增两个层级关联维护信息;提供用户中心与可观测性平台的动态更新配置;提供自定义编排组织资源结构;
其中,所述用户中心与可观测性平台的动态更新配置的方法包括以下步骤:
对接用户中心,包括以下步骤:
输入可观测性平台的域名,跳转到用户中心的登录界面;配置用户中心的redirect_url参数,跳转到可观测性平台;
由可观测性平台向用户中心发起认证授权请求,用户中心返回代码code;
由可观测性平台携带所述code向func函数发出请求,func函数携带所述code调用用户中心的code转token接口;
由用户中心返回access_token给func函数式接口,func函数式接口返回access_token给可观测性平台;
由可观测性平台携带access_token向func函数式接口做请求,func函数式接口携带access_token调用用户中心的userInfo接口;
由用户中心返回userInfo信息,func函数使用userInfo中的short_name在RDS的关系表中查询到工作空间的uuid;进入工作空间;
对接配置管理数据库CMDB系统;
初始化CMDB系统;
环境管理模块:用于提供手动的方式维护系统环境的组件和依赖关系;自动发现系统环境组件;自动发现组件依赖关系,并动态维护系统拓扑图;
流程编排模块:用于编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程;提供人工定义编排的根因分析规则,系统自动化执行分析流程;提供逻辑判断与循环等编排能力;提供自定义流程;提供自定义流程触发器,自动触发流程调度;提供自动生成流程编排。
观测云根因分析拥有强壮完整的数据体系,底层采用多模数据湖形态,将时序,日志,对象,链路,事件等数据结构进行统一的存储,通过行协议(Line Protocol)经过统一的Dataway接口实现一致性高效低延时的写入,并通过datakit的pipeline和auto-tagging来进行前置数据治理,最后由自研的查询语言DataFlux Query Language(DQL)进行统一的查询与分析,真正做到了采集及治理无需额外的ETL工程;观测云根因分析还可以通过DataFlux Func提供智能巡检的Pipeline编写与调度支持,并通过丰富的脚本市场提供预测、异常检测、error grouping等开箱及用的检测库;其次观测云智能巡检可以协同观测云studio,实现任意的视图关联绑定,利用一个界面即可完成所有相关异常线索的可视化,最后观测云智能巡检还可以通过DataFlux Func提供的强大事件结构支持,以及高度自由的自定义巡检框架进行灵活实现各种巡检策略,并根据业务需要来定制巡检报告。
观测云采用统一的存储方案,底层采用多模数据湖形态,将时序,日志,对象,链路,事件等数据结构进行了统一的存储;
观测云作为一个数据分析监测平台,为用户系统提供全链路的数据可观测性云服务平台。平台强大的数据监测能力来源基础是申请人自主研发的一套强大的数据采集方案,数据采集客户端-DataKit,集成了全面的数据采集能力,包括主机、容器、进程、中间件、数据库、消息队列、各种语言开发的应用性能、网络访问性能、黑盒拨测、安全巡检等并提供了基于自研的查询语言DataFlux Query Language(DQL)进行统一的查询与分析。DataFluxFunc(是一款函数开发、管理、执行平台。简单易用、无需从零搭建Web服务,无需管理服务器等基础设施,只需编写代码并发布,简单配置即可为函数生成HTTP API的接口)作为函数开发平台,为根因分析提供获取数据、数据勘察、开发巡检函数、部署巡检函数、配置调度及设定自定义的巡检报告样式的能力。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述基于观测云进行根因分析的配置管理方法的步骤。
本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述基于观测云进行根因分析的配置管理方法的步骤。
与现有技术相比,本发明的有益效果是:
本发明基于观测云进行根因分析配置管理的全面方案,通过任务管理、策略管理、资源管理、环境管理、流程编排等软件配置管理过程,保证所有配置项的完整性、一致性、关联性和可回溯性,为根因分析提供高质量高时效的配置调度服务,能够更加快速更加准确地定位到事件发生的根本原因,比传统的手动定位根因更加地全面,快速,便捷,可解释,并且支持多技术栈和混合架构下的不断增大的复杂性,有效提高了根因分析处理效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术用户员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1是本发明实施例基于资源管理的限定维度进行最粗粒度到应用的实际界面图;
图2是本发明实施例按service/resource/project/env等级别进行单独的任务配置的实际界面图;
图3是本发明实施例按字段进行任务分场景管理的实际界面图;
图4、5是本发明实施例多级层级的任务管理配置的实际界面图;
图6是本发明实施自定义巡检的实际界面图;
图7是本发明实施例自定义数据源的实际界面图;
图8是本发明实施例自定义通知的实际界面图;
图9是本发明实施例自定义事件的实际界面图;
图10、11是本发明实施例配置异常的触发规则的实际界面图;
图12是本发明实施例配置异常后置行为的实际界面图;
图13、14是本发明实施例提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景的实际界面图;
图15、16是本发明实施例定义多层级的异常上下文,根据不同分支配置不同的执行策略的实际界面图;
图17-19是本发明实施例对不同类型的资源进行分类管理,例如应用、服务器、数据库、存储等的实际界面图;
图20、21是本发明实施例组织管理应用与节点信息,并在两个层级关联维护信息的实际界面图;
图22、23是本发明实施例对可观测性平台本身与部署在节点上的agent的配置进行展示与编辑的实际界面图;
图24是本发明实施例提供分组与集群管理的能力,并在新增两个层级关联维护信息的实际界面图;
图25是本发明实施例提供用户中心与可观测性平台的动态更新配置的实际界面图;
图26是本发明实施例实现DataKit的配置更新的实际界面图;
图27、28本发明实施例自定义编排组织资源结构的实际界面图;
图29是本发明实施例手动的方式维护系统环境的组件和依赖关系的实际界面图;
图30是本发明实施例自动发现系统环境组件的实际界面图;
图31是本发明实施例自动发现组件依赖关系,并动态维护系统拓扑图的实际界面图;
图32是本发明实施例编排在特定异常触发后要执行的分析逻辑,支持线性的任务流程的实际界面图;
图33是本发明实施例人工定义编排的根因分析规则,系统自动化执行分析流程的实际界面图;
图34是本发明实施例提供逻辑判断与循环等编排能力的实际界面图;
图35是本发明实施例自定义流程的实际界面图;
图36是本发明实施例自定义流程触发器,自动触发流程调度的实际界面图;
图37是本发明实施例自动生成流程编排的实际界面图;
图38是本发明实施例计算机设备的构成架构图;
图39是本发明实施例用户中心与可观测性平台(观测云)动态更新配置的原理框图;
图40是本发明实施例CMDB初始化流程示意图;
图41是本发明实施例用户中心与可观测性平台的动态更新配置的方法流程图;
图42是本发明实施例对接用户中心的方法流程图;
图43是本发明实施例对接CMDB系统的方法流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三来描述各种信号,但这些信号不应限于这些术语。这些术语仅用来将同一类型的信号彼此区分开。例如,在不脱离本公开范围的情况下,第一信号也可以被称为第二信号,类似地,第二信号也可以被称为第一信号。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明实施例提供一种基于观测云进行根因分析的配置管理方法,包括:结果展示、异常告警、方案推荐、外部运维体系对接;
任务管理、策略管理、资源管理、环境管理、流程编排;
其中,所述任务管理的方法包括:
基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;对任务分场景进行管理;提供多级层级的任务管理配置;提供自定义任务类型;参见图1-9所示。
本实施例通过观测云Datakit平台采集多层多级的任务。
所述策略管理的方法包括:
配置异常的触发规则,包括基线规则、时序规则或多维度规则等;配置异常后置行为,包括但不限于采集数据、上报数据、自动抓取信息等;提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景;定义多层级的异常上下文,根据不同分支配置不同的执行策略;参见图10-16所示。
所述资源管理的方法包括:
对不同类型的资源进行分类管理,包括对应用、服务器、数据库、存储等进行分类管理;提供组织管理应用与节点信息,并在两个层级关联维护信息;对可观测性平台与部署在节点上的代理agent的配置进行展示与编辑;提供分组与集群管理的能力,并在新增两个层级关联维护信息;提供用户中心与可观测性平台的动态更新配置;提供自定义编排组织资源结构;参见图17-28所示。
其中,所述用户中心与可观测性平台的动态更新配置的方法,参见图41所示,包括以下步骤:
S1、对接用户中心,参见图42所示,包括以下步骤:
S11、输入可观测性平台的域名,跳转到用户中心的登录界面;配置用户中心的redirect_url参数,跳转到可观测性平台;
S12、由可观测性平台向用户中心发起认证授权请求,用户中心返回代码code;
S13、由可观测性平台携带所述code向func函数发出请求,func函数携带所述code调用用户中心的code转token接口;
S14、由用户中心返回access_token给func函数式接口,func函数式接口返回access_token给可观测性平台;
S15、由可观测性平台携带access_token向func函数式接口做请求,func函数式接口携带access_token调用用户中心的userInfo接口;
S16、由用户中心返回userInfo信息,func函数使用userInfo中的short_name在RDS的关系表中查询到工作空间的uuid;进入工作空间;
单点登录(sso)是整合企业系统的解决方案之一,用于统一用户身份认证,用户只需要登录一次就可访问所有企业相互信任的应用系统。可观测性平台支持基于标准OAuth2协议,实现可观测性平台对接用户中心的单点登录功能。
S2、对接配置管理数据库CMDB系统,包括:
所述可观测性平台通过func函数实现定时任务,定时任务数小时执行一次,将用户系统名称作为工作空间名称,自动创建不存在的工作空间;
同时将用户系统中维护的管理者和运维人员的username、对应的工作空间uuid记录到可观测性平台的映射表中。
S3、初始化CMDB系统,参见图43所示,包括以下步骤:
S31、分页调用CMDB系统中/instance/model_name接口,model_name参数设为biz,每次调用取一个系统的信息;
S32、使用返回值中的short_name在关系表中查询工作空间的uuid;
如工作空间不存在,则调用可观测性平台的OpenAPI创建工作空间,将所述工作空间的uuid和short_name保存到关系表中,取返回值中管理者的username和工作空间的uuid,权限是管理员,保存到映射表中;取返回值中的运维人员的username和工作空间的uuid,权限是标准成员,保存到映射表中;
如short_name在关系表中查到工作空间的uuid,根据uuid查询映射表中所有该空间的用户;
查到的用户如果在系统信息中不存在,则删除该用户;系统信息中的用户如果没查到,则删除该用户;
S33、循环执行S32步骤的操作。
参见图39所示是实施例用户中心与可观测性平台(观测云)动态更新配置的原理框图;参见图40所示是本发明实施例CMDB初始化流程示意。
观测云DataKit平台集成了版本管理Git客户端功能,默认每1min拉取Git仓库里最新的配置数据,通过加载这些最新的配置来实现DataKit的配置更新;本实施例把配置放在配置中心(etcd)或者Git上。
所述环境管理的方法包括:
提供手动的方式维护系统环境的组件和依赖关系,包括硬件和软件环境;自动发现系统环境组件;自动发现组件依赖关系,并动态维护系统拓扑图;
本实施例支持基于服务(service)和服务环境版本(service+env+version)两种维度绘制链路拓扑图,开启区分环境和版本后,将按照不同的环境版本绘制服务拓扑图。另通过tags字段提供运行环境的信息。参见图29-31所示。
所述流程编排的方法包括:
编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程;提供人工定义编排的根因分析规则,系统自动化执行分析流程;提供逻辑判断与循环等编排能力;提供自定义流程;提供自定义流程触发器,自动触发流程调度;提供自动生成流程编排。参见图32-37所示。
所述任务管理的方法中的基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置包括:
按service/resource/project/env级别进行单独的任务配置。
所述任务管理的方法中的对任务分场景进行管理包括:
按字段进行任务分场景管理。
所述任务管理的方法中的自定义任务类型包括:
自定义巡检,自定义数据源,自定义通知,自定义事件。
本发明实施例还提供一种基于观测云进行根因分析的配置管理系统,执行如上述所述的基于观测云进行根因分析的配置管理方法,包括:
任务管理模块:用于基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;对任务分场景进行管理;提供多级层级的任务管理配置;提供自定义任务类型;
策略管理模块:用于配置异常的触发规则;配置异常后置行为;提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景;定义多层级的异常上下文,根据不同分支配置不同的执行策略;
资源管理模块:用于对不同类型的资源进行分类管理;提供组织管理应用与节点信息,并在两个层级关联维护信息;对可观测性平台与部署在节点上的代理agent的配置进行展示与编辑;提供分组与集群管理的能力,并在新增两个层级关联维护信息;提供用户中心与可观测性平台的动态更新配置;提供自定义编排组织资源结构;
其中,所述用户中心与可观测性平台的动态更新配置的方法包括以下步骤:
对接用户中心,包括以下步骤:
输入可观测性平台的域名,跳转到用户中心的登录界面;配置用户中心的redirect_url参数,跳转到可观测性平台;
由可观测性平台向用户中心发起认证授权请求,用户中心返回代码code;
由可观测性平台携带所述code向func函数发出请求,func函数携带所述code调用用户中心的code转token接口;
由用户中心返回access_token给func函数式接口,func函数式接口返回access_token给可观测性平台;
由可观测性平台携带access_token向func函数式接口做请求,func函数式接口携带access_token调用用户中心的userInfo接口;
由用户中心返回userInfo信息,func函数使用userInfo中的short_name在RDS的关系表中查询到工作空间的uuid;进入工作空间;
对接配置管理数据库CMDB系统;
初始化CMDB系统;
环境管理模块:用于提供手动的方式维护系统环境的组件和依赖关系;自动发现系统环境组件;自动发现组件依赖关系,并动态维护系统拓扑图;
流程编排模块:用于编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程;提供人工定义编排的根因分析规则,系统自动化执行分析流程;提供逻辑判断与循环等编排能力;提供自定义流程;提供自定义流程触发器,自动触发流程调度;提供自动生成流程编排。
本实施例的测试环境为观测云可观测性平台管理界面和Func数据处理平台。在多个站点进行多次实验验证。
本发明实施例还提供了一种计算机设备,图38是本发明实施例提供的一种计算机设备的结构示意图;参见附图图38所示,该计算机设备包括:输入装置23、输出装置24、存储器22和处理器21;所述存储器22,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器21执行,使得所述一个或多个处理器21实现如上述实施例提供的基于观测云进行根因分析的配置管理方法;其中输入装置23、输出装置24、存储器22和处理器21可以通过总线或者其他方式连接,图38中以通过总线连接为例。
存储器22作为一种计算设备可读写存储介质,可用于存储软件程序、计算机可执行程序,如本发明实施例所述的基于观测云进行根因分析的配置管理方法对应的程序指令;存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等;此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;在一些实例中,存储器22可进一步包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置23可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入;输出装置24可包括显示屏等显示设备。
处理器21通过运行存储在存储器22中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于观测云进行根因分析的配置管理方法。
上述提供的计算机设备可用于执行上述实施例提供的基于观测云进行根因分析的配置管理方法,具备相应的功能和有益效果。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于观测云进行根因分析的配置管理方法,存储介质是任何的各种类型的存储器设备或存储设备,存储介质包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等;存储介质可以还包括其它类型的存储器或其组合;另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统;第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上实施例所述的基于观测云进行根因分析的配置管理方法,还可以执行本发明任意实施例所提供的基于观测云进行根因分析的配置管理方法中的相关操作。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术用户员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术用户员可以对相关技术特征做出同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术用户员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于观测云进行根因分析的配置管理方法,其特征在于,包括:任务管理、策略管理、资源管理、环境管理、流程编排;
其中,所述任务管理的方法包括:
基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;对任务分场景进行管理;提供多级层级的任务管理配置;提供自定义任务类型;
所述策略管理的方法包括:
配置异常的触发规则;配置异常后置行为;提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景;定义多层级的异常上下文,根据不同分支配置不同的执行策略;
所述资源管理的方法包括:
对不同类型的资源进行分类管理;提供组织管理应用与节点信息,并在两个层级关联维护信息;对可观测性平台与部署在节点上的代理agent的配置进行展示与编辑;提供分组与集群管理的能力,并在新增两个层级关联维护信息;提供用户中心与可观测性平台的动态更新配置;提供自定义编排组织资源结构;
其中,所述用户中心与可观测性平台的动态更新配置的方法包括以下步骤:
S1、对接用户中心,包括以下步骤:
S11、输入可观测性平台的域名,跳转到用户中心的登录界面;配置用户中心的redirect_url参数,跳转到可观测性平台;
S12、由可观测性平台向用户中心发起认证授权请求,用户中心返回代码code;
S13、由可观测性平台携带所述code向func函数发出请求,func函数携带所述code调用用户中心的code转token接口;
S14、由用户中心返回access_token给func函数式接口,func函数式接口返回access_token给可观测性平台;
S15、由可观测性平台携带access_token向func函数式接口做请求,func函数式接口携带access_token调用用户中心的userInfo接口;
S16、由用户中心返回userInfo信息,func函数使用userInfo中的short_name在RDS的关系表中查询到工作空间的uuid;进入工作空间;
S2、对接配置管理数据库CMDB系统;
S3、初始化CMDB系统;
所述环境管理的方法包括:
提供手动的方式维护系统环境的组件和依赖关系,包括硬件和软件环境;自动发现系统环境组件;自动发现组件依赖关系,并动态维护系统拓扑图;
所述流程编排的方法包括:
编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程;提供人工定义编排的根因分析规则,系统自动化执行分析流程;提供逻辑判断与循环编排能力;提供自定义流程;提供自定义流程触发器,自动触发流程调度;提供自动生成流程编排。
2.根据权利要求1所述的基于观测云进行根因分析的配置管理方法,其特征在于,所述S3步骤的初始化CMDB系统的方法包括以下步骤:
S31、分页调用CMDB系统中/instance/model_name接口,model_name参数设为biz,每次调用取一个系统的信息;
S32、使用返回值中的short_name在关系表中查询工作空间的uuid;
如工作空间不存在,则调用可观测性平台的OpenAPI创建工作空间,将所述工作空间的uuid和short_name保存到关系表中,取返回值中管理者的username和工作空间的uuid,权限是管理员,保存到映射表中;取返回值中的运维人员的username和工作空间的uuid,权限是标准成员,保存到映射表中;
如short_name在关系表中查到工作空间的uuid,根据uuid查询映射表中所有该空间的用户;
查到的用户如果在系统信息中不存在,则删除该用户;系统信息中的用户如果没查到,则删除该用户;
S33、循环执行S32步骤的操作。
3.根据权利要求1所述的基于观测云进行根因分析的配置管理方法,其特征在于,所述S2步骤的对接CMDB系统的方法包括:
所述可观测性平台通过func函数实现定时任务,定时任务数小时执行一次,将用户系统名称作为工作空间名称,自动创建不存在的工作空间;
同时将用户系统中维护的管理者和运维人员的username、对应的工作空间uuid记录到可观测性平台的映射表中。
4.根据权利要求1所述的基于观测云进行根因分析的配置管理方法,其特征在于,所述任务管理的方法中的基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置包括:
按service/resource/project/env级别进行单独的任务配置。
5.根据权利要求1所述的基于观测云进行根因分析的配置管理方法,其特征在于,所述策略管理的方法中的配置异常的触发规则包括:
基线规则、时序规则或多维度规则。
6.根据权利要求1所述的基于观测云进行根因分析的配置管理方法,其特征在于,所述策略管理的方法中的配置异常后置行为包括:采集数据、上报数据、自动抓取信息;所述资源管理的方法中的对不同类型的资源进行分类管理包括:对应用、服务器、数据库、存储进行分类管理。
7.根据权利要求1所述的基于观测云进行根因分析的配置管理方法,其特征在于,所述任务管理的方法中的对任务分场景进行管理包括:按字段进行任务分场景管理;所述任务管理的方法中的自定义任务类型包括:自定义巡检,自定义数据源,自定义通知,自定义事件。
8.一种基于观测云进行根因分析的配置管理系统,其特征在于,执行如权利要求1-7任一项所述的基于观测云进行根因分析的配置管理方法,包括:
任务管理模块:用于基于资源管理的限定维度进行最粗粒度到应用、最细粒度到节点级别的单独任务配置;对任务分场景进行管理;提供多级层级的任务管理配置;提供自定义任务类型;
策略管理模块:用于配置异常的触发规则;配置异常后置行为;提供场景的创建、修改与删除,将异常、流程、任务、算法、策略与解决方案关联至特定场景;定义多层级的异常上下文,根据不同分支配置不同的执行策略;
资源管理模块:用于对不同类型的资源进行分类管理;提供组织管理应用与节点信息,并在两个层级关联维护信息;对可观测性平台与部署在节点上的代理agent的配置进行展示与编辑;提供分组与集群管理的能力,并在新增两个层级关联维护信息;提供用户中心与可观测性平台的动态更新配置;提供自定义编排组织资源结构;
其中,所述用户中心与可观测性平台的动态更新配置的方法包括以下步骤:
对接用户中心,包括以下步骤:
输入可观测性平台的域名,跳转到用户中心的登录界面;配置用户中心的redirect_url参数,跳转到可观测性平台;
由可观测性平台向用户中心发起认证授权请求,用户中心返回代码code;
由可观测性平台携带所述code向func函数发出请求,func函数携带所述code调用用户中心的code转token接口;
由用户中心返回access_token给func函数式接口,func函数式接口返回access_token给可观测性平台;
由可观测性平台携带access_token向func函数式接口做请求,func函数式接口携带access_token调用用户中心的userInfo接口;
由用户中心返回userInfo信息,func函数使用userInfo中的short_name在RDS的关系表中查询到工作空间的uuid;进入工作空间;
对接配置管理数据库CMDB系统;
初始化CMDB系统;
环境管理模块:用于提供手动的方式维护系统环境的组件和依赖关系;自动发现系统环境组件;自动发现组件依赖关系,并动态维护系统拓扑图;
流程编排模块:用于编排在特定异常触发后要执行的分析逻辑,提供线性的任务流程;提供人工定义编排的根因分析规则,系统自动化执行分析流程;提供逻辑判断与循环编排能力;提供自定义流程;提供自定义流程触发器,自动触发流程调度;提供自动生成流程编排。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7任一项所述基于观测云进行根因分析的配置管理方法的步骤。
10.一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述基于观测云进行根因分析的配置管理方法的步骤。
CN202311226196.1A 2023-09-21 2023-09-21 一种基于观测云进行根因分析的配置管理方法及系统 Pending CN117215639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311226196.1A CN117215639A (zh) 2023-09-21 2023-09-21 一种基于观测云进行根因分析的配置管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311226196.1A CN117215639A (zh) 2023-09-21 2023-09-21 一种基于观测云进行根因分析的配置管理方法及系统

Publications (1)

Publication Number Publication Date
CN117215639A true CN117215639A (zh) 2023-12-12

Family

ID=89038713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311226196.1A Pending CN117215639A (zh) 2023-09-21 2023-09-21 一种基于观测云进行根因分析的配置管理方法及系统

Country Status (1)

Country Link
CN (1) CN117215639A (zh)

Similar Documents

Publication Publication Date Title
US20210352099A1 (en) System for automatically discovering, enriching and remediating entities interacting in a computer network
US11372749B2 (en) Dependency mapping between program code and tests to rapidly identify error sources
CN111930355B (zh) 一种web后端开发框架及其构建方法
US20210218711A1 (en) Dynamic discovery of executing applications
US20220357733A1 (en) Detection and Correction of Robotic Process Automation Failures
US11275580B2 (en) Representing source code as implicit configuration items
US11232021B2 (en) Database record locking for test parallelization
US11635953B2 (en) Proactive notifications for robotic process automation
US11424984B2 (en) Autodiscovery with dynamic configuration launching
US20200167444A1 (en) Systems and methods for software license management
US11057276B2 (en) Bulk service mapping
US20210224102A1 (en) Characterizing operation of software applications having large number of components
CN103248511B (zh) 一种单点业务性能的分析方法、装置和系统
AU2017276243A1 (en) System And Method For Generating Service Operation Implementation
US20230196240A1 (en) Multi-Dimensional Process Mining and Analysis
CN117215639A (zh) 一种基于观测云进行根因分析的配置管理方法及系统
EP2869245A2 (en) Service modeling and execution
US11989538B2 (en) Orchestration for robotic process automation
Di Carlo et al. TM Services: an architecture for monitoring and controlling the Square Kilometre Array (SKA) Telescope Manager (TM)
US20240097992A1 (en) Smart Detection for Determination of Database Accuracy
EP4307636A1 (en) Rapid error detection through command validation
US12039328B2 (en) Configuration items for supporting automations and efficacies thereof
US20240111524A1 (en) Configuration Items for Supporting Automations and Efficacies Thereof
US20240193051A1 (en) Centralized Configuration and Change Tracking for a Computing Platform
Gianola Exploring the OCSF Framework in AWS: Design, Implementation and Performance Analysis of a Security Lake Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination