CN114500250B

CN114500250B - 一种云模式下体系联动的综合运维系统及方法

Info

Publication number: CN114500250B
Application number: CN202210401114.1A
Authority: CN
Inventors: 何锡点; 崔隽; 张晓兵; 刘鹏忠; 谢荣平; 童彬祥
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-06-28
Anticipated expiration: 2042-04-18
Also published as: CN114500250A

Abstract

本发明公开了一种云模式下体系联动的综合运维系统及方法，系统包括：通用运维管理平台，用于提供整个体系联动的综合运维系统的公共的运维管理；基础设施运维平台，用于提供云环境的基础设施资源和平台集群的监控和运维管理；通用软件运维平台，用于提供云环境中涉及的通用软件、服务、中间件的状态监视和运维管理；以及业务系统运维平台，用于提供部署在云环境中的业务应用系统本身的监视和运维。该系统从业务应用维、关联资源维以及关联应用维三个维度，提供从基础设施到共性服务，再到业务应用的综合故障分析能力，全面提升业务应用系统和云中心的综合运维、故障排查定位、故障分析预警能力。

Description

一种云模式下体系联动的综合运维系统及方法

技术领域

本发明涉及应用系统运维技术，更具体地涉及一种云模式下体系联动的综合运维系统及方法。

背景技术

IT领域的传统运维模式多以独立的业务应用系统与基础设施为单位，分别构建业务应用系统和基础设施的两套监控运维体系，是一种平面化、层次式、割裂的运维体系，分别解决了业务应用系统和基础设施资源的监控运维能力，实现了各类业务应用系统和基础设施的基本运维，但是从支撑信息系统的整体运维管理方面而言还有较大的差距，具体如下：

（1）随着云计算、大数据以及容器云的发展，很多业务应用系统是部署云上，服务多基于容器运行，造成业务应用系统故障时，可能是本身的模块或服务、相关的中间件、共用服务以及关联的资源（物理资源、虚拟资源、容器等）出现问题，单纯的进行业务应用系统运维或基础设施运维，很难进行关联分析，定位问题所在。

（2）当业务应用系统运维过程中发生故障时，可能所承载的资源、服务、中间件、相关联的应用存在关联故障，但现有的业务应用的运维系统多关注于业务应用本身的问题，无法从业务应用、关联应用、中间件、所在的宿主资源的一体联动式的综合故障定位。

因此，特别是在云模式下的IT领域业务应用和基础设施运维，亟需一种联动式综合运维系统和运维方法。

发明内容

发明目的：本发明的目的是提供一种云模式下体系联动的综合运维系统，提供从云环境的基础设施、通用中间件、业务应用到它们之间关联关系的立体式运维功能。

本发明的另一目的是提供一种云模式下体系联动的综合运维方法，当业务应用系统出现故障时，能够实现从云平台到资源，到共性应用平台，再到应用的联动式综合故障定位。

技术方案：根据本发明的第一方面，提供一种云模式下体系联动的综合运维系统，包括：

通用运维管理平台，用于提供整个体系联动的综合运维系统的公共的运维管理，包括资源数据采集、监控逻辑处理和运维业务管理；

基础设施运维平台，用于提供云环境的基础设施资源和平台集群的监控和运维管理，其中基础设施资源包括物理资源、虚拟资源、动力环境资源、安全资源；

通用软件运维平台，用于提供云环境中涉及的通用软件、服务、中间件的状态监视和运维管理；

以及业务系统运维平台，用于提供部署在云环境中的业务应用系统的监视和运维，包括业务应用监视和根因分析与故障定位。

进一步地，所述通用运维管理平台包括资源数据采集模块、监控逻辑处理模块和运维业务管理模块，所述资源数据采集模块提供一种或多种采集方式用于完成各类资源的数据采集；所述监控逻辑处理模块提供资源前置通讯、资源监视数据处理、资源状态缓存管理、告警配置以及监控告警上报中的一种或多种逻辑处理功能；所述运维业务管理模块提供运维态势、资源监控、资源告警、故障处置支撑、系统巡检、统计分析、运维工单管理、资产管理、值班管理功能中的一项或多项。

进一步地，所述基础设施运维平台至少包括以下一个模块：物理资源监视模块、虚拟资源监视模块、安全资源监视模块、动力环境监视模块以及集群监视模块，其中所述物理资源监视模块对云环境中的计算资源、存储资源、网络资源进行监视，所述虚拟资源监视模块对云环境中的虚拟机、虚拟存储、虚拟网络以及容器进行监视，所述动力环境监视模块对云环境中的动力设备以及安防设备进行监视，所述安全资源监视模块对云环境中的所有安全设备进行监视，所述集群监视模块对云环境中的云计算集群、大数据集群、容器云集群、缓存集群以及消息队列集群进行监视。

进一步地，对计算资源的监视包括对以下至少一项的监视：CPU使用率、CPU空闲率、内存总量、内存利用率、内存可用率、磁盘总量、磁盘使用量、磁盘使用率、磁盘I/O速率、进程数、线程数、TCP连接数、系统句柄数、主机资源占用TopN；对存储资源的监视包括对以下至少一项的监视：控制器状态、总容量、使用量、硬盘容量、硬盘状态、LUN容量、存储I/O；对存储资源的监视包括对以下至少一项的监视：包括交换机、路由器的网络设备的状态情况、端口状态、端口发送速率、端口接收速率。

进一步地，所述通用软件运维平台至少包括以下一个模块：数据库监视模块、大数据平台监视模块、缓存数据库监视模块、消息中间件监视模块以及Web容器监视模块，其中所述数据库监视模块提供数据库服务状态、SQL执行情况、缓冲池情况、数据库连接情况、死锁信息、表空间情况的运行监视，所述大数据平台监视模块提供对各种大数据平台组件服务的运行情况监视，所述缓存数据库监视模块提供对各类缓存库的服务运行状态的监视，所述消息中间件监视模块提供对各类消息中间件服务组件运行状态的监视，所述Web容器监视模块提供对各类Web容器服务运行状态、堆内存、线程、会话情况的运行监视。

进一步地，对缓存库的服务运行状态的监视包括对以下至少一项的监视：服务集群健康状态、集群数据槽分配情况、服务存活状态、连接个数、连接数使用率、拒绝的连接个数、新建连接个数、被阻塞的连接个数、内存使用情况、处理命令数、每秒执行的命令数；对消息中间件服务组件运行状态的监视包括对以下至少一项的监视：socket当前连接数、socket最大连接数、socket连接率、内存使用量、内存使用率、内存限制值、总消息数、待处理消息数、未确认消息数、消息传送速率、消息发送速率、文件描述符总数、文件描述符已使用量、文件描述符使用率、队列数、队列状态、刷新状态、队列交换器数。

进一步地，所述业务系统运维平台包括业务应用监视模块和根因分析与故障定位模块，其中业务应用监视模块提供针对应用系统的应用态势、进程监视、服务监视、业务应用关联资源监视、关联应用监视中的一项或多项功能；所述根因分析与故障定位模块基于通用运维管理平台、基础设施运维平台、通用软件运维平台的支撑，对云环境中所承载的业务应用提供基于业务应用视角的资源、应用、业务一站式监控与分析，对资源、中间件、应用的指标进行监控和关联分析，并基于分析实现故障定位。

进一步地，所述根因分析与故障定位模块包括：关联资源分析模块、关联应用分析模块、调用链追踪分析模块、SQL分析模块、事务分析模块、日志分析模块、告警分析模块以及故障诊断模块，其中，

关联资源分析模块根据应用、服务、实例与所在资源的关联关系对业务应用系统的关联资源进行监视；

关联应用分析模块根据业务应用与其他业务应用、中间件之间的关联关系提供业务应用系统的运行依赖关系分析，并实时监视关联应用模块和中间件的运行状态信息；

调用链追踪分析模块记录业务的调用过程情况，并实时监视业务应用在运行过程中的程序的执行轨迹和状态；

SQL分析模块对业务应用系统中数据库操作的SQL语句执行情况实时监视；

事务分析模块通过业务应用系统调用的周期情况获取业务应用系统中执行周期异常的事务；

日志分析模块将虚拟机上的日志进行集中采集并进行清洗、实时分析、智能聚类处理；

告警分析模块根据告警条件对各种告警进行过滤、筛选，对系统的运行故障信息进行告警；

智能诊断模块基于业务应用与资源关联关系、与其他应用关联关系、业务应用调用链关系，利用机器学习算法自动进行关联资源分析、关联应用分析、调用链追踪分析、SQL分析、事务分析以及日志分析，实现业务应用系统、中间件、基础设施资源故障自动、智能化定位。

根据本发明第二方面，提供一种云模式下体系联动的综合运维方法，基于第一方面所述的综合运维系统，所述方法包括以下步骤：

（1）面向业务建立从云平台到资源、平台服务、共性应用服务，再到应用的监控和业务应用调用链以及应用拓扑关系的全方位、立体化运维体系；

（2）查看应用系统每个模块的软件和服务的运行状态是否正常，如果有运行状态不正常的服务，重启相关的服务；

（3）进入业务应用系统的监控运维界面，查看某业务应用系统每个软件与资源关联关系，通过查看其资源对象拓扑图及告警情况来定位原因，排除与应用相关联的资源的故障；

（4）通过关联应用分析以及相关应用的日志分析，排除相关联的应用以及各类中间件对该应用可能产生的影响；

（5）进行业务应用自身的调用链追踪、SQL分析以及日志分析，根据告警信息以及基于系统运行日志信息和监视数据方法，逐级定位故障并发现系统瓶颈，排除业务应用系统本身的故障。

进一步地，所述步骤（1）具体包括：

建立业务应用与资源关联关系，包括业务应用的服务实例、所在容器、虚拟机、物理机之间的关联关系；

建立业务应用与其他应用关联关系，包括业务应用与其他业务应用、中间件之间的关联关系；

建立业务应用调用链关系，包括业务应用的各种调用链关系、业务应用拓扑。

有益效果：本发明提出的体系联动的综合运维系统，从业务应用维、关联资源维以及关联应用维三个维度，对基于云的业务应用系统进行体系联动式监控，从基础设施、通用中间件、业务应用到它们之间关联关系进行实时状态统一监控、运维流程统一规范、故障分级分类处置，能够支持运维人员掌控云环境的整体运行状态信息和软硬件资源的总体态势信息，实现整个云环境的全方位、立体式监控运维。本系统可以支撑各类业务应用系统和云中心的运行维护，实现系统故障智能告警，资源运维自动处置，保障业务应用系统和云中心的稳定运行，全面提升了业务应用系统和云中心的可靠性。本发明所述体系联动综合运维系统和方法同样适用非云模式下基础设施、中间件、业务应用系统综合运维，在非云模式下，关闭虚拟资源监视和运维功能即可。

附图说明

图1是根据本发明实施例的体系联动的综合运维系统的构建思路的概念的图；

图2是根据本发明实施例的体系联动的综合运维系统的结构框图；

图3是根据本发明实施例的体系联动的综合运维系统的构建方法的流程图；

图4(a)是根据本发明实施的基于体系联动的综合运维系统的故障分析总流程图；

图4(b)是根据本发明实施的业务应用的故障分析流程图；

图4(c)是根据本发明实施的资源关联分析流程图；

图4(d)是根据本发明实施的相关应用的关联分析流程图；

图4(e)是根据本发明实施的业务应用根因分析流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

图1示出了云模式下体系联动的综合运维方法和系统的总体思路，如图1所示，本发明基于体系联动的思维，将平面化、层次式、割裂的运维体系进行联动分析，实现一种立体式的运维方法，从业务应用维（业务应用本身故障分析）、关联资源维（应用与资源关联分析）以及关联应用维（关联应用、中间件）三个维度构建立体式的综合运维体系，能够对业务应用系统进行体系联动式综合运维和故障定位。由于关联应用维和业务应用维都要依赖于关联资源维，因此一旦关联资源维出现故障，相应的关联应用维和业务应用维就对应出现故障，此外，由于业务应用维依赖于关联应用维和关联资源维度，因此如果业务应用维出现故障，除了要定位业务应用维的问题之外，还需要继续定位关联应用维和关联资源维度的故障。基于此，业务应用的故障定位，需要从业务应用维本身的问题开始定位，至关联应用维，直至关联资源维，因此是一种采用体系联动的立体式的综合运维方法。

体系联动的综合运维系统的技术架构及组成如图2所示，主要由通用运维管理平台、基础设施运维平台、通用软件运维平台、业务系统运维平台等四大部分组成。

（1）通用运维管理平台，主要提供整个体系联动的综合运维系统的公共的运维管理功能，包括资源数据采集模块、监控逻辑处理模块和运维业务管理模块，形成一套通用完整的运维管理流程，为构建上层的基础设施运维、通用软件运维以及业务系统运维提供平台支撑。

1）资源数据采集模块

资源数据采集模块是部署于资源端的软件，实现对资源的状态进行采集，以及执行监控逻辑处理模块下发控制令的功能，下文中也称为资源代理。资源数据采集模块提供采集代理、采用简单网络管理协议（SNMP）采集、采用业务应用提供的接口（API）采集、采用智能平台管理接口（IPMI）采集、通过安全外壳协议（SSH）执行命令采集、基于超文本传输协议（HTTP）进行采集等采集方式，完成计算、存储、网络、应用、中间件、安全、动力环境等资源的数据采集。

2）监控逻辑处理模块

提供资源前置通讯、资源监视数据处理、资源状态缓存管理、告警配置以及监控告警上报的逻辑处理等功能。

其中，资源前置通讯，提供从资源代理和综合运维系统之间通讯功能，包括资源代理的资源状态数据接入通讯以及从综合运维系统下发控制指令至资源代理的通讯功能。

资源监视数据处理，提供资源代理上报报文队列管理、状态数据解析、状态数据入库，以及控制指令的封装成指令报文下发至资源代理。

资源监视信息量庞大，资源状态缓存管理通过将实时信息存储至内存中，忽略部分无效数据，筛选出重要信息存储，减少磁盘操作，降低对数据库压力。资源状态缓存管理，包括状态数据写入、读取、状态数据变位处理、状态数据筛选过滤等功能。

告警配置，提供资源告警的触发规则设定，能够设定告警分级和分类，主要是对采集事件项、资源关联信息以及告警信息进行配置。

监控告警上报，根据资源告警的触发规则，产生告警信息并上报运维管理系统，告警信息主要包括告警级别、告警状态、资源名称、告警描述、产生告警时间等信息。

3）运维业务管理模块

提供运维态势、资源监控、资源告警、故障处置支撑、系统巡检、统计分析、运维工单管理、资产管理、值班管理等功能。

其中，运维态势，提供对云环境的所有基础设施资源、中间件、业务应用系统整体运行概况的监视功能，包括基础设施资源、中间件、业务应用系统的总体资源使用情况、总体告警情况、总体的故障情况、业务应用系统的整体运行情况的统计以及运行趋势的展示。

资源监控，提供整个云环境中所有资源监控的通用功能，包括资源实时状态展现、资源控制指令下发、资源告警展示、故障处置流程等。

资源告警，提供告警阈值设置、告警事件展现以及告警分析处理功能：提供告警条件的设置和判定，在超过阈值时产生告警事件；能够对各类告警信息进行汇集和归并，统一分级分类展现。

故障处置支撑，提供基于工作流的人工运维支撑能力，能够为运维值班、故障处置提供全周期的运维支撑，提供运维规范、处置规范的信息化支撑能力，具备运维日志功能，对运维操作进行全面记录，便于追溯。

系统巡检，提供从基础设施、基础软件、中间件、应用软件等方面综合巡检功能，能够根据系统结构，开展全系统状态遍历和状态分析，能够生成巡检报告。

统计分析，以集中数据展现的手段和方式，反映系统中性能在过去、现在以及未来的数据走向情况，形成趋势报表，提供各类资产报表、性能报表、告警报表、各类资源使用情况报表的统计、筛选、导出和打印功能。

运维工单管理，根据整个云环境中所有资源的告警和故障信息的需要人工处理情况，提供运维工单的派送、审批、工单处理结果反馈等相关流程的管理。

资产管理，提供对云环境中涉及的各类资源（包括计算资源、存储资源、网络资源、软件资源、动力环境、安全设备等）统一管理，建立各类资产的监控模型、配置模型、统一的资产目录，生成资产态势以及进行资源维护等功能。

值班管理，提供云中心的运维人员值班、排班日程管理、值班情况、值班日志等功能管理。

（2）基础设施运维平台，主要提供云环境的基础设施资源的监控和运维管理，包括物理资源监视、虚拟资源监视、安全资源监视、动力环境监视以及集群监视。其中，物理资源监视提供对云环境中的计算、存储、网络资源的运行情况监视；虚拟资源监视提供对云环境中的虚拟机、虚拟存储、虚拟网络以及容器的运行情况监视；安全资源监视主要提供对云环境中的所有安全设备的监视和运维；动力环境监视主要提供对云环境中的动力设备以及安防设备的监视和运维；集群监视主要基于物理资源监视和虚拟资源监视，对云环境中涉及的通用平台的集群提供集中的监视和运维视图，分别提供对云环境中的云计算集群、大数据集群、容器云集群、缓存集群以及消息队列集群的监视功能。

（3）通用软件运维平台，提供整个云环境中涉及的通用软件、服务、中间件的状态监视和运维。目前，在业务应用系统中常用的通用软件、服务、中间件主要包括关系型数据库、大数据平台、缓存数据库、消息队列以及Web容器等几大类，通用软件运维平台采用开放式集成架构，可根据需要增加常用的中间件监视插件，实现对新增类型的中间件进行监视。因此，在本发明中的通用软件运维平台主要包括关系型数据库监视、大数据平台监视、缓存数据库监视、消息队列监视以及Web容器监视等。

其中，关系型数据库监视主要提供对各类数据库服务状态、SQL执行情况、缓冲池情况、数据库连接情况、死锁信息、表空间情况的运行监视，数据库的示例包括Mysql、Oracle、达梦等；

大数据平台监视主要提供各类大数据平台组件服务的运行情况监视，大数据平台组件服务的示例包括hdfs、yarm、zookeeper、storm、spark、hbase等；

缓存数据库监视主要提供各种缓存库的服务运行状态的监视，缓存库的示例包括业界常用的redis、memcache等；

消息队列监视主要提供各种消息中间件服务组件运行状态的监视，服务组件的示例包括业界常用的消息中间件，诸如ActiveMQ、RabbitMQ、ZeroMQ、RocketMQ等；

Web容器监视主要提供对各类Web容器的服务运行状态、堆内存、线程、会话等情况的运行监视，Web容器的示例包括业界常用的Tomcat、JBoss、Weblogic等。

（4）业务系统运维平台，主要提供部署云环境中的业务应用系统的监视和运维，包括业务应用监视和智能化根因分析与故障定位两部分。

1）业务应用监视模块

基于某一应用系统视角，提供应用态势、进程监视、服务监视、业务应用关联资源监视、关联应用监视等功能。同时，在同一视图下集成关联资源、关联应用、中间件的监视。

其中，应用态势提供某一应用系统中各类监控对象运维状态综合展现功能，包括应用中所有关联资源的总体资源使用情况、总体告警情况、总体的故障情况、进程服务、关联应用运行情况的统计以运行趋势的展示。

进程监视提供某一应用系统中所有进程监视功能，监视进程存活状态、进程占用的CPU、内存、磁盘以及网络使用情况，端口连接数、文件描述符、线程数量和状态。

服务监视提供某一应用系统中所有服务监视功能，监视服务存活状态、服务对CPU、内存、磁盘以及网络使用情况，端口占用情况等。

业务应用关联资源监视提供同一视图上展示某一应用系统中所有关联资源的总体运行情况、资源详细状态监视，包括关联的容器、虚拟机、物理资源的监视。

关联应用监视提供同一视图上展示相关联的应用以及各类中间件（数据库、缓存、消息队列、NoSQL等各类开源组件）运行情况监视。

2）智能化根因分析与故障定位模块

智能化根因分析与故障定位模块主要针对云环境中所承载的业务应用提供快速故障分析与定位，在通用运维管理平台、基础设施运维平台、通用软件运维平台支撑下，提供基于业务应用视角的资源、应用、业务一站式监控与分析，通过集群、物理机、虚拟机、容器、通用中间件与应用统一建模，将资源、中间件、应用的指标监控起来，并提供各种指标智能关联分析，运维人员通过统一的告警入口即可定位故障原因。参照图2，智能化根因分析与故障定位模块提供关联资源分析、关联应用分析、调用链追踪分析、SQL分析、事务分析、日志分析、智能告警分析以及故障智能化诊断等功能。

①关联资源分析

该体系联动的综合运维系统在应用时，面向特定的业务应用系统，将会构建应用、服务、实例与所在资源的关联关系，根据该关联关系可以系统地集成关联资源，并在一个视图中对这些资源进行监视，从而可以直接定位异常影响情况。如果资源异常，可以查看其资源对象拓扑图及告警情况等信息来定位原因。提供对基于任务视角的资源链监控，辅助解决业务应用系统故障告警无处追踪、无处可查的问题，能够从任务视角快速支持任务的各项资源的运行状态信息。

②关联应用分析

该体系联动的综合运维系统在应用时，面向特定的业务应用系统，将会构建业务应用与其他业务应用、中间件之间的关联关系，根据上述建立的关联关系，业务系统运维平台自动关联并集成关联相关的中间件、关联应用，以便在一个视图中对其进行监视，业务系统运维平台根据上述建立的关联关系可以进行运行依赖关系分析，查看关联应用模块的运行状态信息，通过实时监视业务应用系统整体运行拓扑，了解系统的健康状态，并有针对性的进行系统优化和保障。关联应用拓扑是对应用间调用关系和依赖关系的可视化展示，包括应用状态、时延、错误、负载、依赖关系等指标。

③调用链追踪分析

调用链跟踪是记录业务应用的调用过程情况，通过实时监视业务应用在运行过程中的程序的执行轨迹和状态，定位分析业务应用识别异常原因。在业务应用的方法、接口被调用时，调用链追踪分析模块可自动捕获该方法的调用者、详细堆栈以及各类参数，帮助开发人员快速定位问题。

④SQL分析

提供对业务应用系统中数据库操作的SQL语句执行情况（错误、耗时、响应时间等）实时监视，重点关注响应时间长的SQL语句（例如，耗时长大于10秒）以及异常出错的SQL语句，通过SQL分析，定位出那些耗时长、效率低、调用出错的SQL语句，并对其进行分析和优化，排除业务应用系统运行隐患。

⑤事务分析

提供事务分析能力，通过业务调用的周期情况，定位业务应用系统中执行周期异常的事务，发现业务应用系统事务故障的关键点。

⑥日志分析

将虚拟机上的应用、开源组件、系统等日志集中采集起来，通过清洗、实时分析、智能聚类等处理，实现日志的高性能搜索和业务分析，挖掘业务应用系统中所涉及的日志价值，辅助运维人员定位故障原因。

智能化告警分析

提供对云环境中所有资源的各种告警进行过滤、筛选，根据运维系统事先配置的过滤和筛选规则，能够准确对系统的运行故障信息进行准确及时告警，了解系统运行风险，辅助运维人员提前进行系统维护保障，确保业务应用系统稳定运行。

故障智能诊断

故障智能诊断是在①-⑦基础上，通过体系联动的运维系统构建的业务应用与资源关联关系、与其他应用关联关系、业务应用调用链关系，基于机器学习算法自动进行关联资源分析、关联应用分析、调用链追踪分析、SQL分析、事务分析以及日志分析，实现业务应用系统、中间件、基础设施资源故障自动、智能化定位。

体系联动的立体运维系统的构建过程如图3所示，具体如下：

（1）构建通用运维管理平台，主要提供整个体系联动的综合运维系统的公共的运维管理功能，从资源数据采集、监控逻辑处理到运维业务管理一套通用完整的运维管理流程，为构建上层的基础设施运维、通用软件运维以及业务系统运维提供平台支撑。

（2）构建基础设施运维平台

实现对云中心的基础设施的监控运维管理，包括对实现对物理资源（计算、存储、网络）、虚拟资源（虚拟机、虚拟存储、虚拟网络、容器）、动环、安全等监控。具体基础设施监视数据如下：

①平台集群数据

包括：云计算平台、容器云集群、大数据集群状态；

②计算资源数据（物理机、虚拟机、容器）

包括：CPU（使用率、空闲率）、内存（总量、利用率、可用率）、磁盘（总量、使用量、使用率I/O速率）、进程数、线程数、TCP连接数、系统句柄数、主机资源占用靠前的应用（例如top10）等情况。

③存储资源数据（物理存储、存储虚拟）

包括：控制器状态、总容量、使用量、硬盘容量、硬盘状态、LUN容量、存储I/O等数据。

④网络资源数据（物理网络、虚拟网络）

交换机、路由器等网络连接设备的状态情况，端口状态、端口发送速率、端口接收速率等数据。

⑤动环资源数据；

⑥安全资源数据。

（3）构建通用软件运维平台

实现对通用中间件的监控运维管理，包括：关系型数据库、NoSQL等各类开源组件、缓存数据库、消息队列以及Web容器Tomcat等，具体各中间件监视数据如下：

①关系型数据库监视数据：

包括：数据库服务状态、SQL执行情况（查询数据、执行时间）、缓冲池情况（缓冲池剩余页数、缓冲池总页数、缓冲池大小）、数据库连接情况（尝试连接失败数、当前打开的连接数、最大连接数、并发连接数）、死锁信息、表空间情况（总大小、己使用量、剩余量）等数据。

②大数据平台监视数据

包括hdfs、yarm、zookeeper、storm、spark、hbase等平台服务数据，如hdfs服务监视数据包括：NameNode、DataNode、Failover Controller、JournalNode运行情况等数据。

③缓存数据库的监视数据

包括：集群健康状态、集群数据槽分配情况、服务存活状态、连接个数、连接数使用率、拒绝的连接个数、新建连接个数、被阻塞的连接个数、内存使用情况、处理命令数、每秒执行的命令数等数据。

④消息队列的监视数据

包括：socket（当前连接数、最大连接数、连接率）、内存（内存使用量、内存使用率、内存限制值）、消息（总消息数、待处理消息数、未确认消息数、消息传送速率、消息发送速率）、文件描述符（总数、已使用量、使用率）、队列（队列数、队列状态、刷新状态、队列交换器数）等数据。

⑤Web容器监视数据

类信息（总计、已加载、已卸载）、堆内存（最大、已提交、已使用）、线程（总量、峰值、活动数）、会话（总数、当前活动数、最大活动数、拒绝数）等数据。

（4）构建业务系统运维平台

实现对业务应用系统本身的运维监控管理，包括业务应用系统的各大软件模块/服务状态、进程数、线程数、接口调用情况数据（调用成功与否、接口调用耗时）。

（5）构建面向业务系统的体系联动综合运维管理

面向业务应用建立从云平台到资源、平台服务、共性应用服务，再到应用的监控和业务应用调用链以及应用拓扑关系的全方位、立体化运维体系统，具体包括：

①建立业务应用与资源关联关系，包括业务应用的服务实例、所在容器、虚拟机、物理机之间的关联关系；

②建立与其他应用关联关系，包括业务应用与其他业务应用、中间件之间的关联关系，例如：相关联的业务应用、关系型数据库、大数据平台、缓存、消息队列、WEB容器的关系等；

③建立业务应用调用链关系，包括业务应用的各种调用链关系、业务应用拓扑等。

体系联动的综合运维，通过采用应用与资源关联分析、关联应用分析、调用链追踪、告警信息以及基于系统运行日志信息和监视数据等全方位、全维度、立体式的故障分析手段对故障进行综合分析，发现系统瓶颈和故障点，实现故障源实时定位，并协调各专业管理系统处置故障。以某业务应用系统突然崩溃，需紧急排查故障根源并修复为示例，阐述体系联动的综合运维实施流程，故障分析总流程如图4(a)所示，包括以下步骤：

（1）业务应用故障分析

业务应用故障分析流程如图4(b)所示，按照常规的故障排查顺序，从大小到小，先排除大的模块，再定位到模块中的某一服务。查看某业务应用系统每个模块的软件和服务的运行状态是否正常，如果有运行状态不正常的服务，重启相关的服务。

（2）业务应用与资源关联分析

业务应用与资源关联分析流程如图4(c)所示，具体分析流程如下：

1）先调用基础设施运维平台监视界面，查看云环境下各类集群是否存在故障信息，分别排查云计算集群、大数据存储集群、容器集群的监视状态。

2）进入某业务应用系统的监控运维界面，查看某业务应用系统每个软件与资源关联关系，可以查看其资源（计算、存储、网络）对象拓扑图及告警情况等信息来定位原因，排除与应用相关联的资源的故障，重点排查CPU、内存负载情况、磁盘存储情况和剩余量以及存储I/O失败等告警信息。

3）如果存在故障，根据故障或告警的资源类型，值班人员进行运维派单，运维人员根据工单完成故障处置。

（3）相关应用关联分析

关应用关联分析流程如图4(d)所示，采用关联应用分析以及相关应用的日志分析等故障分析手段，进一步排除相关联的应用以及各类中间件（数据库、缓存、消息队列、Web容器等各类开源组件）对其可能产生的影响。

关系型数据库故障分析：查看数据库服务状态、缓冲池情况、数据库连接情况、死锁信息、表空间剩余量等情况数据，分析是否存在问题。

大数据平台故障分析：检查某业务应用系统中大数据平台的硬件资源和软件服务运行情况是否正常，重点检查各组件服务是否存储告警和故障情况，包括：hdfs、yarm、zookeeper、storm、spark、hbase等组件服务运行情况进行分析和故障定位。

缓存数据库故障分析：检查该应用中使用的缓存数据库的硬件资源和软件服务运行情况是否正常，包括：集群健康状态、集群数据槽分配情况、服务存活状态、连接情况以及内存使用情况等。

消息队列故障分析：检查该应用中使用的消息队列的软件服务运行情况是否正常，重点查看连接情况、内存使用情况、消息处理情况、队列状态等监视数据是否存在告警和故障信息。

Web容器故障分析：检查该应用中使用的Web容器的软件服务运行情况是否正常，查看类信息情况、堆内存使用情况、线程运行情况、会话情况等监视数据是否存在告警和故障信息。

（4）业务应用根因分析

业务应用根因分析流程如图4(e)所示，在排除了关联资源故障后，进行业务应用自身的调用链追踪、SQL分析以及日志分析，根据告警信息以及基于系统运行日志信息和监视数据等方法，逐级定位故障并发现系统瓶颈，排除业务应用系统本身的“软故障”。

①调用链追踪分析：在某业务应用系统的后台服务中分别执行9项典型流程（某服务登录、域内发送、跨域发送、文件接收、文件存储、文件回执、名录解析、文件下载以及消息通知等），进入系统调用链追踪界面，查看某业务应用系统逐级调用情况，包括接口调用是否成功以及耗时情况，并进行分析和定位。

②SQL分析：在某业务应用系统的分别执行9项典型流程时，查看业务应用系统的后台服务数据库中SQL语句执行监控，重点关注慢SQL和异常SQL语句，通过错误耗时、响应时间等关键指标对数据库进行监控，定位出那些耗时长、效率低、调用出错的SQL语句，并对其进行分析和优化。

③日志分析：进入日志监控并重点查看主机操作系统、存储的日志以及系统配置数据故障或警告信息，检查是否有I/O错误或I/O超时等严重的故障或警告信息。

通过以上4大步骤完成对某业务应用系统的故障定位。

本发明提出一种云模式下体系联动的综合运维系统和方法，从业务应用维、关联资源维以及关联应用维三个维度构建立体式的综合运维体系，提供对基础设施、通用中间件、业务应用和它们之间关联关系的实时状态统一监控、运维流程统一规范、故障分级分类处置等能力，实现对从基础设施到通用中间件，再到业务应用的体系联动式、全方位、立体化综合运维和故障定位。利用本发明可以大大减轻云中心和业务应用系统的综合运维的工作量。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种云模式下体系联动的综合运维系统，其特征在于，包括：

业务系统运维平台，用于提供部署在云环境中的业务应用系统的监视和运维，包括业务应用监视和根因分析与故障定位。

2.根据权利要求1所述的云模式下体系联动的综合运维系统，其特征在于，所述通用运维管理平台包括资源数据采集模块、监控逻辑处理模块和运维业务管理模块，所述资源数据采集模块提供一种或多种采集方式用于完成各类资源的数据采集；所述监控逻辑处理模块提供资源前置通讯、资源监视数据处理、资源状态缓存管理、告警配置以及监控告警上报中的一种或多种逻辑处理功能；所述运维业务管理模块提供运维态势、资源监控、资源告警、故障处置支撑、系统巡检、统计分析、运维工单管理、资产管理、值班管理功能中的一项或多项。

3.根据权利要求1所述的云模式下体系联动的综合运维系统，其特征在于，所述基础设施运维平台至少包括以下一个模块：物理资源监视模块、虚拟资源监视模块、安全资源监视模块、动力环境监视模块以及集群监视模块，其中，所述物理资源监视模块对云环境中的计算资源、存储资源、网络资源进行监视，所述虚拟资源监视模块对云环境中的虚拟机、虚拟存储、虚拟网络以及容器进行监视，所述动力环境监视模块对云环境中的动力设备以及安防设备进行监视，所述安全资源监视模块对云环境中的所有安全设备进行监视，所述集群监视模块对云环境中的云计算集群、大数据集群、容器云集群、缓存集群以及消息队列集群进行监视。

4.根据权利要求3所述的云模式下体系联动的综合运维系统，其特征在于，对计算资源的监视包括对以下至少一项的监视：CPU使用率、CPU空闲率、内存总量、内存利用率、内存可用率、磁盘总量、磁盘使用量、磁盘使用率、磁盘I/O速率、进程数、线程数、TCP连接数、系统句柄数、主机资源占用TopN；对存储资源的监视包括对以下至少一项的监视：控制器状态、总容量、使用量、硬盘容量、硬盘状态、LUN容量、存储I/O；对网络资源的监视包括对以下至少一项的监视：包括交换机、路由器的网络设备的状态情况、端口状态、端口发送速率、端口接收速率。

5.根据权利要求1所述的云模式下体系联动的综合运维系统，其特征在于，所述通用软件运维平台至少包括以下一个模块：数据库监视模块、大数据平台监视模块、缓存数据库监视模块、消息中间件监视模块以及Web容器监视模块，其中，所述数据库监视模块提供数据库服务状态、SQL执行情况、缓冲池情况、数据库连接情况、死锁信息、表空间情况的运行监视，所述大数据平台监视模块提供对各种大数据平台组件服务的运行情况监视，所述缓存数据库监视模块提供对各类缓存库的服务运行状态的监视，所述消息中间件监视模块提供对各类消息中间件服务组件运行状态的监视，所述Web容器监视模块提供对各类Web容器服务运行状态、堆内存、线程、会话情况的运行监视。

6.根据权利要求5所述的云模式下体系联动的综合运维系统，其特征在于，对缓存库的服务运行状态的监视包括对以下至少一项的监视：服务集群健康状态、集群数据槽分配情况、服务存活状态、连接个数、连接数使用率、拒绝的连接个数、新建连接个数、被阻塞的连接个数、内存使用情况、处理命令数、每秒执行的命令数；对消息中间件服务组件运行状态的监视包括对以下至少一项的监视：socket当前连接数、socket最大连接数、socket连接率、内存使用量、内存使用率、内存限制值、总消息数、待处理消息数、未确认消息数、消息传送速率、消息发送速率、文件描述符总数、文件描述符已使用量、文件描述符使用率、队列数、队列状态、刷新状态、队列交换器数。

7.根据权利要求1所述的云模式下体系联动的综合运维系统，其特征在于，所述业务系统运维平台包括业务应用监视模块和根因分析与故障定位模块，其中业务应用监视模块提供针对应用系统的应用态势、进程监视、服务监视、业务应用关联资源监视、关联应用监视中的一项或多项功能；所述根因分析与故障定位模块基于通用运维管理平台、基础设施运维平台、通用软件运维平台的支撑，对云环境中所承载的业务应用提供基于业务应用视角的资源、中间件、业务应用一站式监控与分析，对资源、中间件、应用的指标进行监控和关联分析，并基于关联的根因分析实现故障定位。

8.根据权利要求7所述的云模式下体系联动的综合运维系统，其特征在于，所述根因分析与故障定位模块包括：关联资源分析模块、关联应用分析模块、调用链追踪分析模块、SQL分析模块、事务分析模块、日志分析模块、告警分析模块以及故障诊断模块，

其中，关联资源分析模块根据应用、服务、实例与所在资源的关联关系对业务应用系统的关联资源进行监视；

调用链追踪分析模块记录业务应用的调用过程情况，并实时监视业务应用在运行过程中的程序的执行轨迹和状态；

9.一种云模式下体系联动的综合运维方法，其特征在于，基于权利要求1-8任一项所述的综合运维系统，所述方法包括以下步骤：

（1）面向业务应用建立从云平台到资源、平台服务、共性应用服务，再到应用的监控和业务应用调用链以及应用拓扑关系的全方位、立体化运维体系；

10.根据权利要求9所述的云模式下体系联动的综合运维方法，其特征在于，所述步骤（1）具体包括：