CN111679955B

CN111679955B - 用于应用服务器的监控诊断和快照分析系统

Info

Publication number: CN111679955B
Application number: CN202010798123.XA
Authority: CN
Inventors: 于洋; 李蕾; 王鹏亮; 黄锋; 蒋平川; 李利军; 于滨峰; 张春林
Original assignee: Beijing Dongfangtong Software Co ltd; Beijing Tongtech Co Ltd
Current assignee: Beijing Dongfangtong Software Co ltd; Beijing Tongtech Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-18
Anticipated expiration: 2040-08-11
Also published as: CN111679955A

Abstract

本发明提供了一种用于应用服务器的监控诊断和快照分析系统，包括服务器、数据采集模块、快照抓取模块和分析诊断模块；所述数据采集模块用于收集服务器运行状态信息；所述快照抓取模块用于利用快照规则从服务器抓取服务器的故障响应信息；所述分析诊断模块根据服务器的运行状态信息和故障响应信息，分析出服务器的故障原因。本发明的用于应用服务器的监控诊断和快照分析系统，同时采用数据采集模块和快照抓取模块对服务器的运行进行实时监测和数据采集，能够全面地反映出服务器运行的情况，确保不会对服务器故障监测发生漏检情况，综合全面监测的数据和信息进行分析诊断，能够提高服务器故障诊断的准确性。

Description

用于应用服务器的监控诊断和快照分析系统

技术领域

本发明涉及应用服务器技术领域，特别涉及一种用于应用服务器的监控诊断和快照分析系统。

背景技术

互联网的发展让集群中的应用服务器数量越来越庞大，集群中的应用服务器如果发生故障，排查工作量较大，而故障往往持续时间短暂，所以很难在第一时间被运维人员排查到，造成运维人员无法对故障进行诊断，使得应用服务器的工作情况的监控力度逐渐降低。由此迫切需求能够掌握应用服务器在运行阶段的故障情况监测以及采集，应用服务器的快照分析就应运而生。快照分析在应用服务器出现故障时能够快速响应，并根据快照规则采集响应故障情况下的软硬件运行情况信息，为解决应用服务器故障提供了有利的帮助。

专利号为201410614080.X的专利文献公开了一种种快照抓取方法和数据监控装置，该方法包括：数据监控工具获取Tomcat服务器的繁忙线程数；所述繁忙线程数表示Tomcat服务器中实际正在处理具体事务的HTTP线程的数目；当确定所述繁忙线程数大于预置线程阈值时，所述数据监控工具获取所述Tomcat服务器的HTTP请求快照和JVM线程快照；根据所述HTTP请求快照和JVM线程快照，分析所述Tomcat服务器中WEB应用的性能；其中，所述根据所述HTTP请求快照和JVM线程快照，分析所述Tomcat服务器中WEB应用的性能具体包括：当所述HTTP请求快照中对同一目标地址进行访问的线程的数目超出预置数值时，所述数据监控工具记录所述对同一目标地址进行访问的线程的线程名；所述数据监控工具在所述JVM线程快照中查找记录的所述线程名，确定所述对同一目标地址进行访问的线程执行的操作；根据所述对同一目标地址进行访问的线程执行的操作，确定所述繁忙线程数大于预置线程阈值时所述Tomcat服务器中WEB应用存在的问题。该装置包括：线程获取模块，用于获取Tomcat服务器的繁忙线程数；所述繁忙线程数表示Tomcat服务器中实际正在处理具体事务的HTTP线程的数目；快照获取模块，用于当确定所述线程获取模块获取的繁忙线程数大于预置线程阈值时，获取所述Tomcat服务器的HTTP请求快照和JVM线程快照；分析模块，用于根据所述HTTP请求快照和JVM线程快照，分析所述Tomcat服务器中WEB应用的性能；其中，所述分析模块具体包括：记录单元，用于当所述HTTP请求快照中对同一目标地址进行访问的线程的数目超出预置数值时，记录所述对同一目标地址进行访问的线程的线程名；查找单元，用于在所述JVM线程快照中查找记录的所述线程名，确定所述对同一目标地址进行访问的线程执行的操作；确定单元，用于根据所述对同一目标地址进行访问的线程执行的操作，确定所述繁忙线程数大于预置线程阈值时所述Tomcat服务器中WEB应用存在的问题。

现有技术中对应用服务器故障的监测与诊断，由于采用的监测方法比较单一，使得影响诊断准确性，有时存在错过监测或者诊断错误情况。

发明内容

为了解决上述技术问题，本发明提供了一种用于应用服务器的监控诊断和快照分析系统，包括服务器、数据采集模块、快照抓取模块和分析诊断模块；

所述数据采集模块用于收集服务器运行状态信息；

所述快照抓取模块用于利用快照规则从服务器抓取服务器的故障响应信息；

所述分析诊断模块根据服务器的运行状态信息和故障响应信息，分析出服务器的故障原因。

可选的，所述系统还包括存储器，所述存储器与服务器连接，用于存储运行状态信息、故障响应信息和故障原因。

可选的，所述系统还包括输入模块和导出模块，所述导出模块与服务器连接，所述导出模块设有条件框，通过所述输入模块在条件框内输入自定义条件后，所述导出模块根据自定义条件从运行状态信息、故障响应信息和故障原因中查找匹配信息并导出。

可选的，所述快照抓取模块包括计时器、设定子模块和规则获取子模块，所述计时器和设定子模块连接；其中所述规则获取子模块用于获取至少两种快照规则；所述计时器用于控制快照规则的执行时间；所述设定子模块用于在计时器中设定所述快照规则的执行时间；所述快照抓取模块用于控制所述计时器根据所述执行时间依次执行所述快照规则来抓取服务器的故障响应信息。

可选的，所述服务器包括运行日志模块，所述运行日志模块与服务连接，所述运行日志模块收集并记录服务器运行日志，所述分析诊断模块对故障原因进行分析时，能够提取服务器运行日志作为分析的基础材料。

可选的，所述分析诊断模块对服务器的故障原因分析过程如下：

先从故障响应信息中获取故障的搜查关键词；

再根据搜查关键词，确定对应的检测节点，并就该检测节点构建故障排查树；

根据运行状态信息和服务器运行日志建立核函数矩阵，以故障排查树中记载的各因素作为数据点，对各数据点采用以下算法进行核密度估计：

上式中，

表示故障排查树的排查数据点的核密度估计；

表示故障排查树的数据点数量；

表示核函数矩阵；

表示核函数；

表示初始数据点；

表示排查数据点；

选择故障排查树的核密度估计最大值的数据点所对应的因素为故障原因，输出故障诊断结果。

可选的，所述系统还包括自动修复模块，所述自动修复模块与服务器连接，所述自动修复模块根据分析出的故障原因，查找解决方法，然后按照解决方法执行并修复。

可选的，所述自动修复模块对服务器的修复具体过程如下：

首先，所述自动修复模块获取分析诊断模块的故障原因分析结果，启动故障修复；

其次，根据故障原因，抓取服务器指定的debug信息，得到故障定位原始数据；

最后，按照debug信息执行实现服务器自动修复，修复完成后，所述服务器跳转至继续执行故障发生前指令动作。

可选的，所述系统还包括评估模块，所述评估模块与服务器连接，所述服务器运行的可靠度符合正态分布，所述评估模块采用以下算法对服务器进行运行的可靠度评估：

上式中，

表示服务器的可靠度函数；

表示正态分布的标准差；

表示初始时间，即服务器每次启动的时间；

表示运行时间；

表示正态分布的中位数；

设定可靠度阈值，当服务器运行的可靠度函数计算结果低于可靠度阈值，则对服务器进行调试优化。

可选的，所述服务器的调试优化前进行以下处理：

扫描并检测服务器运行的网络环境，清理网络垃圾，关闭超过设定闲置时间的后台应用软件；

利用服务器节点对连接的客户端进行测量参数配置并计算资源需求，当检测其他服务器的计算余量，将客户端的计算负载迁移至计算余量超过资源需求的其他服务器。

本发明的用于应用服务器的监控诊断和快照分析系统，同时采用数据采集模块和快照抓取模块对服务器的运行进行实时监测和数据采集，利用数据采集模块所采集的数据能够全面地反映出服务器运行的情况，确保不会对服务器故障监测发生漏检情况，利用快照抓取模块能够快速捕捉故障时段的响应信息，两者进行综合实现全面监测和重点关注的结合，完善或者弥补数据和信息采集，然后以这些数据进行分析诊断，能够提高服务器故障诊断的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于应用服务器的监控诊断和快照分析系统示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种用于应用服务器的监控诊断和快照分析系统，包括服务器、数据采集模块、快照抓取模块和分析诊断模块；

所述数据采集模块用于收集服务器运行状态信息；

上述技术方案的工作原理和有益效果为：本发明的用于应用服务器的监控诊断和快照分析系统，同时采用数据采集模块和快照抓取模块对服务器的运行进行实时监测和数据采集，利用数据采集模块所采集的数据能够全面地反映出服务器运行的情况，确保不会对服务器故障监测发生漏检情况，利用快照抓取模块能够快速捕捉故障时段的响应信息，两者进行综合实现全面监测和重点关注的结合，完善或者弥补数据和信息采集，然后以这些数据进行分析诊断，能够提高服务器故障诊断的准确性。

在一个实施例中，所述系统还包括存储器，所述存储器与服务器连接，用于存储运行状态信息、故障响应信息和故障原因。

上述技术方案的工作原理和有益效果为：该方案采用存储器对运行状态信息、故障响应信息和故障原因进行保存，以方便过后进行数据查询与分析，实现故障情况追溯，充分了解服务器的运行情况，还可以提供数据资料供服务器改进使用。

在一个实施例中，所述系统还包括输入模块和导出模块，所述导出模块与服务器连接，所述导出模块设有条件框，通过所述输入模块在条件框内输入自定义条件后，所述导出模块根据自定义条件从运行状态信息、故障响应信息和故障原因中查找匹配信息并导出。

上述技术方案的工作原理和有益效果为：本方案可以通过输入模块在导出模块的条件框设定自定义条件，在运行状态信息、故障响应信息和故障原因中查找匹配信息，然后信息导出；方便使用者根据自身需要进行数据与信息的筛选，快速取得希望获取的数据与信息，提高数据使用效率。

在一个实施例中，所述快照抓取模块包括计时器、设定子模块和规则获取子模块，所述计时器和设定子模块连接；其中所述规则获取子模块用于获取至少两种快照规则；所述计时器用于控制快照规则的执行时间；所述设定子模块用于在计时器中设定所述快照规则的执行时间；所述快照抓取模块用于控制所述计时器根据所述执行时间依次执行所述快照规则来抓取服务器的故障响应信息。

上述技术方案的工作原理和有益效果为：本方案通过采用计时器、设定子模块和规则获取子模块，可以采用多种快照规则，自主设置快照规则的执行时间；还可以减少快照抓取模块失效风险，保障快照抓取模块的可靠性和高效性。

在一个实施例中，所述服务器包括运行日志模块，所述运行日志模块与服务连接，所述运行日志模块收集并记录服务器运行日志，所述分析诊断模块对故障原因进行分析时，能够提取服务器运行日志作为分析的基础材料。

上述技术方案的工作原理和有益效果为：本方案中采用运行日志模块收集记录服务器运行情况，并把服务器运行日志纳入到分析诊断模块的基础材料中，实现对服务器运行更多角度的监测和分析诊断，进一步增加诊断的准确性。

在一个实施例中，所述分析诊断模块对服务器的故障原因分析过程如下：

先从故障响应信息中获取故障的搜查关键词；

上式中，

表示故障排查树的排查数据点的核密度估计；

表示故障排查树的数据点数量；

表示核函数矩阵；

表示核函数；

表示初始数据点；

表示排查数据点；

上述技术方案的工作原理和有益效果为：本方案具体限定了分析诊断模块对服务器的故障原因分析方式，从故障响应信息中获取的关键词确定检测节点，引入故障排查树，依据故障排查树，使得故障原因的查找过程更为有序严密，结合运行状态信息和服务器运行日志构建核函数矩阵，以故障排查树记载的各因素为数据点，采用核密度估计算法逐一进行计算，取计算最大值的数据点，其所记载的因素为故障原因，该算法计算量较小，这种量化分析方式，可以减少主观的影响，快速得到相应结果，该故障原因分析方式可以减少错误。

在一个实施例中，所述系统还包括自动修复模块，所述自动修复模块与服务器连接，所述自动修复模块根据分析出的故障原因，查找解决方法，然后按照解决方法执行并修复；所述自动修复模块对服务器的修复具体过程如下：

上述技术方案的工作原理和有益效果为：本方案通过在系统中增加自动修复模块，在分析诊断模块找出故障原因后，通过上述步骤，查找和定位故障对应的debug信息，然后按照debug信息执行实现服务器自动修复，不需要人工干预，提高了服务器修复效率，增强的服务器的计算处理能力，降低了服务器故障带来的不良影响，保障了服务器的运行可靠性。

在一个实施例中，所述系统还包括评估模块，所述评估模块与服务器连接，所述服务器运行的可靠度符合正态分布，所述评估模块采用以下算法对服务器进行运行的可靠度评估：

上式中，

表示服务器的可靠度函数；

表示正态分布的标准差；

表示初始时间，即服务器每次启动的时间；

表示运行时间；

表示正态分布的中位数；

上述技术方案的工作原理和有益效果为：本方案通过设置评估模块，由于服务器行的可靠度符合正态分布，结合正态分布理论，采用时间积分函数形成的上述算法来计算服务器的可靠度，把计算结果与预先设定的可靠度阈值进行比较，若服务器的可靠度低于可靠度阈值时，认为服务器运行的故障风险已经比较大，这时对服务器进行调试优化，化解服务器发生故障的风险。服务器每次给过调试优化或者重新启动时，都对算法中的初始时间进行重新初始化或者归零处理，以保证采用该算法进行的可靠度评估的有效性。

在一个实施例中，所述服务器的调试优化前进行以下处理：

上述技术方案的工作原理和有益效果为：本方案中对服务器的调试优化增加了前置处理过程，在前置处理过程中，对服务器运行的网络环境进行的清理，给调试优化腾出了网络空间；然后查找了网络其他可用服务器，为需要进行调试优化的服务器上所承载的客户端业务提供的业务迁移服务，客户端的业务可以在完成服务器的调试优化后再迁移回来，这样，一方面为服务器的调试做准备，另一方面，可以使得客户端业务免受到服务器调试的影响。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于应用服务器的监控诊断和快照分析系统，其特征在于，包括服务器、数据采集模块、快照抓取模块、分析诊断模块和评估模块；

所述数据采集模块用于收集服务器运行状态信息；

所述分析诊断模块根据服务器的运行状态信息和故障响应信息，分析出服务器的故障原因；

所述评估模块与服务器连接，所述服务器运行的可靠度符合正态分布，所述评估模块采用以下算法对服务器进行运行的可靠度评估：

上式中，

表示服务器的可靠度函数；

表示正态分布的标准差；

表示初始时间，即服务器每次启动的时间；

表示运行时间；

表示正态分布的中位数；

设定可靠度阈值，当服务器运行的可靠度函数计算结果低于可靠度阈值，则对服务器进行调试优化；

所述服务器包括运行日志模块，所述运行日志模块与服务连接，所述运行日志模块收集并记录服务器运行日志，所述分析诊断模块对故障原因进行分析时，能够提取服务器运行日志作为分析的基础材料；

所述分析诊断模块对服务器的故障原因分析过程如下：

先从故障响应信息中获取故障的搜查关键词；

上式中，

表示故障排查树的排查数据点的核密度估计；

表示故障排查树的数据点数量；

表示核函数矩阵核函数矩阵；

表示核函数；

表示初始数据点；

表示排查数据点；

选择故障排查树的核密度估计最大值的数据点所对应的因素为故障原因，输出故障诊断结果；

所述系统还包括自动修复模块，所述自动修复模块与服务器连接，所述自动修复模块根据分析出的故障原因，查找解决方法，然后按照解决方法执行并修复，其中，所述自动修复模块对服务器的修复具体过程如下：

2.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统，其特征在于，所述系统还包括存储器，所述存储器与服务器连接，用于存储运行状态信息、故障响应信息和故障原因。

3.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统，其特征在于，所述系统还包括输入模块和导出模块，所述导出模块与服务器连接，所述导出模块设有条件框，通过所述输入模块在条件框内输入自定义条件后，所述导出模块根据自定义条件从运行状态信息、故障响应信息和故障原因中查找匹配信息并导出。

4.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统，其特征在于，所述快照抓取模块包括计时器、设定子模块和规则获取子模块，所述计时器和设定子模块连接；其中所述规则获取子模块用于获取至少两种快照规则；所述计时器用于控制快照规则的执行时间；所述设定子模块用于在计时器中设定所述快照规则的执行时间；所述快照抓取模块用于控制所述计时器根据所述执行时间依次执行所述快照规则来抓取服务器的故障响应信息。

5.根据权利要求1所述的用于应用服务器的监控诊断和快照分析系统，其特征在于，所述服务器的调试优化前进行以下处理：