CN115687052A

CN115687052A - 运行状态可视化监测方法、服务器和系统

Info

Publication number: CN115687052A
Application number: CN202310000839.4A
Authority: CN
Inventors: 王亚飞
Original assignee: Beijing Yusys Technologies Group Co ltd
Current assignee: Beijing Yusys Technologies Group Co ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-02-03
Anticipated expiration: 2043-01-03
Also published as: CN115687052B

Abstract

本发明提供运行状态可视化监测方法、服务器和系统，该方法包括：获取被监测系统内部的状态数据；根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分；若运行状态评分低于预设值，则发出异常警告。该方法通过在被监测系统内部设置多个数据采集探针，获取被监测系统内多种形式的状态数据，并通过对所获取的状态数据进行分析和计算，对被监测系统的运行状态进行预判。当被监测系统存在运行风险时，能够发出警报；该方法融合了被监测系统内部的多监测部分的状态数据，并且将所有状态数据进行综合分析，使监测维度更全面，故障风险预测的更准确，并且能够精准定位可能存在故障风险的位置。

Description

运行状态可视化监测方法、服务器和系统

技术领域

本发明涉及故障检测领域，具体涉及运行状态可视化监测方法、服务器和系统。

背景技术

计算机系统的健康状态关系到系统在未来的时间段内能否正常运行，目前市面上的监控工具很多但功能基本相似。上述监控工具共同的缺陷在于只能监控到系统相关参数的大小，却无法得知系统未来的健康情况。

当系统存在安全隐患时，无法及时预测未来的健康情况并对用户给予提示，使得一旦系统出现故障，则损失非常严重。

发明内容

针对上述问题，本发明实施例的一个目的是提供一种运行状态可视化监测方法、服务器和系统，以实现对被监测系统的运行状态实时可视化监测，并根据所获取的系统内部的状态数据对被监测系统的运行状态进行评估或者预警。

为达上述目的，第一方面，本发明实施例提供了一种运行状态可视化监测方法，所述方法包括：

获取被监测系统内部的状态数据；

根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分；

若运行状态评分低于预设值，则发出异常警告。

进一步地，根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分，具体包括：

根据预先设定的容忍值以及当前运行过程中的状态数据，确定当前的运行状态评分。

进一步地，根据预先设定的容忍值以及当前运行过程中的状态数据，确定当前的运行状态评分，具体包括：根据如下公式计算得到当前的运行状态评分：

S = (N_z-N_m) * (N_m/N_z) ；

其中，S为当前的运行状态评分，N_z为预先设定的容忍值，N_m为当前运行过程中的状态数据。

进一步地，根据多个不同类型的状态数据对应的运行状态评分确定当前总体的运行状态评分，具体计算公式如下：

S’= w₁*S₁ + w₂*S₂ + ...+w_n*S_n；

其中，S’为当前总体的运行状态评分，S_n为对应第n个状态数据的运行状态评分，w_n为对应第n个状态数据的运行状态评分的权值，n大于或者等于1，且为整数。

进一步地，预设值包括多个健康预警值，以及总健康预警值；

多个健康预警值分别对应多个不同类型的状态数据的运行状态评分；

总健康预警值对应当前总体的运行状态评分；

若运行状态评分低于预设值，则发出异常警告，具体包括：

若一个或多个不同类型的状态数据的运行状态评分低于对应的健康预警值，则发出异常警告，并显示对应状态数据的监测位置；

若多个不同类型的状态数据的运行状态评分均高于对应的健康预警值，则继续判断当前总体的运行状态评分是否低于总健康预警值，如果所述当前总体的运行状态评分低于所述总健康预警值，则发出异常警告。

进一步地，状态数据包括异常日志数量；当监测到被监测系统的日志输出为n次异常级别时，则异常日志数量进行n次累加，其中n是正整数。

进一步地，状态数据包括HTTP请求数据；HTTP请求数据包括HTTP请求失败数以及HTTP请求总数；当监测到被监测系统的HTTP请求时，则将HTTP请求总数行进累加；若当前HTTP请求为异常请求时，则同时HTTP请求失败数行进累加。

进一步地，状态数据包括JVM线程信息；当监测到被监测系统的JVM线程执行命令时，则将JVM线程信息行进累加；JVM线程信息包括JVM线程状态以及JVM线程数。

进一步地，状态数据包括垃圾回收数据；垃圾回收数据包括之前被占用但当前不再使用的被释放的内存数据；

进一步地，状态数据包括内存使用数据，内存包括堆内存与非堆内存；

进一步地，状态数据包括TOMCAT运行数据和/或数据库连接池使用数据；

第二方面，本发明实施例提供一种运行状态可视化监测服务器，所述服务器包括：

接收器，用于从一个或多个数据采集探针接收被监测系统的至少一种类型的状态数据，每种类型的状态数据包括：获取时间、监测位置和统计数据；其中，所述监测位置是所述数据采集探针连接的被监测系统的数据接口的位置；

数据存储器，用于存储被监测系统的至少一种类型的状态数据；

数据处理器，用于根据所述状态数据对所述被监测系统的当前运行状态进行评分，得到运行状态评分；若所述运行状态评分低于预设值，则生成包含监测位置的异常警告，并且根据所述状态数据生成可视化图表；

发送器，用于将所述包含监测位置的异常警告和所述可视化图表发送到终端设备，以在所述终端设备上进行可视化展示。

第三方面，本发明实施例提供了一种运行状态可视化监测系统，包括：

数据采集探针，与被监测系统的数据接口连接，用于获取被监测系统内部的状态数据；

服务器，服务器包括数据存储器和数据处理器；

数据存储器，用于存储状态数据；

数据处理器，用于根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分；若运行状态评分低于预设值，则发出异常警告。

可视化窗口，用于将所获取的状态数据进行可视化展示；

进一步地，被监测系统的数据接口，包括如下中的至少一个：

被监测系统的日志输出端；

被监测系统的HTTP请求端；

被监测系统的JVM线程标准接口；

被监测系统的垃圾回收标准接口；

被监测系统的内存标准接口；

被监测系统的TOMCAT标准接口；

被监测系统的连接池标准接口。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任意一种所述的运行状态可视化监测方法。

第五方面，本发明实施例提供了一种计算机设备，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上任意一种所述的运行状态可视化监测方法。

本发明实施例提供的运行状态可视化监测方法、服务器、系统、可读存储介质和计算机设备，具有如下有益效果：

根据本发明实施例的运行状态可视化监测方法以及系统，通过在被监测系统内部设置一个或多个数据采集探针，获取被监测系统内多种形式的状态数据，存储于数据存储器中，并通过对所获取的状态数据进行分析和计算，对被监测系统的运行状态进行预判。当被监测系统存在运行风险时，能够及时地发出警报。该方法融合了被监测系统内部的多监测部分的状态数据，并且将所有状态数据进行综合分析，使监测维度更全面，故障风险预测的更准确，并且能够精准定位可能存在故障风险的位置。

通过可视化窗口，能够实时显示被监测系统内部各监测部分的状态数据，使用户更直观的监测被监测系统的运行状态。并且能够结合对历史故障数据的分析，通过当前系统运行的状态数据对系统进行健康评估，使得运维人员可以针对性的对系统做修复，防范于未然。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例示出的一种运行状态可视化监测方法的示意性流程图；

图2是根据本发明实施例示出的一种运行状态可视化监测方法的示意性架构图；

图3是图1中步骤S1对应操作的优选方式示意性架构图；

图4是图3所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图5是图1中步骤S1对应操作的另一优选方式示意性架构图；

图6是图5所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图7是图1中步骤S1对应操作的另一优选方式示意性架构图；

图8是图7所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图9是图1中步骤S1对应操作的另一优选方式示意性架构图；

图10是图9所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图11是图9所示实施例的一种运行状态可视化监测方法的另一示意性可视化窗口；

图12是图1中步骤S1对应操作的另一优选方式示意性架构图；

图13是图12所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图14是图12所示实施例示出的一种运行状态可视化监测方法的另一可视化窗口；

图15是图1中步骤S1对应操作的另一优选方式示意性架构图；

图16是图15所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图17是图1中步骤S1对应操作的另一优选方式示意性架构图；

图18是图17所示实施例示出的一种运行状态可视化监测方法的示意性可视化窗口；

图19是根据本发明实施例示出的一种运行状态可视化监测系统的结构示意图；

图20是根据本发明实施例示出的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好地理解本发明，下面结合图1至图20对本发明实施例提供的运行状态可视化监测方法、系统、可读存储介质和计算机设备进行详细描述。应注意，这些实施例并不是用来限制本发明公开的范围。

本发明实施例的技术方案涉及如下两类对象：

被监测系统，例如指计算机系统或由计算机群组成的系统，具体的，被监测系统可以为IT系统。

监测系统，例如指嵌入到被监测系统的监测系统，用于监测被监测系统的内部运行状态的健康情况。

图1是根据本发明实施例示出的一种运行状态可视化监测方法的示意性流程图。如图1所示，该方法具体可以包括如下步骤：

S101：获取被监测系统内部的状态数据。

具体的，通过设置在被监测系统内部的数据采集探针获取被监测系统的状态数据，该状态数据用于分析被监测系统的运行状态。其中，数据采集探针可以包括一个或多个，可以通过连接被监测系统的数据接口等方式进行数据获取，对应数据采集探针连接不同的数据接口获取不同类型的状态数据。

数据采集探针是获取监控数据的源头，通过将数据采集探针部署在被监测系统上，可以将采集的状态数据定时回传给数据存储器。数据存储器部署在服务器上，数据存储器的功能是将状态数据写入到文件中保存，供下次使用时获取。

图2是根据本发明实施例示出的一种运行状态可视化监测方法的示意性架构图。在一个可选的实施例中，如图2所示，通过设置于被监测系统的数据采集探针进行状态数据采集，采集后的状态数据回传给数据存储器，并通过数据处理器对回传到数据存储器中的状态数据进行计算和分析，最后通过可视化窗口将数据处理器的分析结果进行实时的读取和展示。其中，可视化窗口可加载于计算机设备以及可移动电子设备等，用户可通过可视化窗口随时查看被监测系统目前的运行状态。若采集的状态数据存在异常，通过数据处理器对当前的运行状态进行评分，获得评分值，若计算的运行状态评分低于预先设置的健康预警值，则通过可视化窗口发出异常警告。

数据存储格式如下：

键{标签n=标签n值}值，其中n为大于或等于1的正整数。

例如：http_request{instance="2.0.1.82:9999",application="yusp-monitor"}3.0。

其中，http_request称为键，3.0称为值，instance称为标签1，2.0.1.82:9999称为标签1的值，application称为标签2，yusp-monitor称为标签2的值。键值对是一次采集的对象及其表现的值，标签是对应键值对的一种符号，便于搜索对应的键值对。

在一个实施例中，可以将所获取的状态数据通过可视化窗口进行可视化展示。具体的，通过可视化窗口，显示所获取的状态数据，包括但不限于以图形或表格表达的状态数据。其中，用户可通过选择自由的显示状态数据的明细信息或关联信息，包括但不限于展示时间，获取状态数据的位置，显示历史数据，计算统计数据，显示数据分布情况，以及预测状态数据趋势等。

更具体的，展示时间可以包括但不限于获取状态数据的时间以及设置显示状态数据的时间长度，例如显示最近一天，最近一周，最近一个月或最近一年的状态数据等。

获取状态数据的位置可以包括但不限于状态数据的具体来源信息。例如，数据采集探针具体连接的数据接口的位置。

显示历史数据可以包括但不限于通过设置显示状态数据的时间长度，自由调取任意时长的历史状态数据，历史故障数据，故障类型等。

计算统计数据可以包括但不限于对状态数据进行统计计算，例如数据的累加，故障数据占所选时长内的总数据的比例，设置的时间长度内发生故障数据的概率等。

显示数据分布情况可以包括但不限于对统计数据进行图形和/或表格表示，例如对于多个数据采集探针所获取的多个状态数据，可以包括各状态数据的统计分析，以及多个不同类型的状态数据汇总的统计分析的图表显示。

预测状态数据趋势包括但不限于在对应设置的一段时间长度内的状态数据的发展趋势，例如通过对所选择的一段时间内的状态数据的分析，输出未来一段时间内预测的状态数据的拟合曲线，并根据预测的状态数据对被监测系统的运行健康情况进行判断，作出综合评分，其中对现有状态数据的选择时长以及预测时长均可自由设置。

S102：根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分。

具体的，通过对状态数据的分析，判断被监测系统当前是否存在故障隐患，可选的，还可以通过对当前获取的状态数据以及历史故障数据进行对比分析，判断被监测系统当前是否存在故障隐患，并结合历史故障数据，对被监测系统的当前运行状态进行评分。

在一个实施例中，可以根据预先设定的容忍值以及当前运行过程中的状态数据确定当前的运行状态评分。具体的评分规则可以根据用户的实际情况确定。

在一个实施例中，根据预先设定的容忍值以及当前运行过程中的状态数据确定当前的运行状态评分的步骤包括：根据如下公式（1）计算得到当前的运行状态评分：

S = (N_z-N_m) * (N_m/N_z) （1）；

其中，S为当前的运行状态评分，N_z为用户预先设定的容忍值，N_m为当前运行过程中的状态数据。

在一个实施例中，可以根据多个不同类型的状态数据对应的运行状态评分确定当前总体的运行状态评分。

具体的，针对多个不同类型的状态数据，可分别对多个状态数据进行评分，并在可视化窗口进行可选择行的显示，以及根据对多个状态数据的评分进行综合计算，得到当前总体的运行状态评分。具体计算过程如公式（2）和公式（3）所示：

S’= w₁*S₁ + w₂*S₂ + ...+w_n*S_n（2）；

S_n=(N_zn-N_mn) * (N_mn/N_zn) （3）；

其中，S’为当前总体的运行状态评分，S_n为对应第n个状态数据的运行状态评分，w_n为对应第n个状态数据的运行状态评分的权值，N_zn为用户预先设定的对应第n个状态数据的容忍值，N_mn为当前运行过程中的第n个状态数据，n大于或者等于1，且为整数。其中，w_n可根据实际对应的第n个状态数据对总体运行状态的影响程度确定。

S103：若运行状态评分低于预设值，则发出异常警告。

具体的，预先对运行状态评分设置健康预警值，判断若运行状态评分低于预先设置的健康预警值，则发出异常警告。

在一个实施例中，预设值包括多个健康预警值，以及总健康预警值；多个健康预警值分别对应多个不同类型的状态数据的运行状态评分；总健康预警值对应当前总体的运行状态评分；步骤S103具体可以包括：

若多个不同类型的状态数据的运行状态评分均高于对应的健康预警值，则继续判断当前总体的运行状态评分是否低于总健康预警值，如果当前总体的运行状态评分低于总健康预警值，则发出异常警告。

具体的，针对多个状态数据，可分别设置不同的健康预警值，以及总健康预警值。分别对不同类型的状态数据对应的运行状态评分进行判断，若存在一个或多个运行状态评分低于预先设置的健康预警值，则发出健康预警，并显示对应运行状态评分低的状态数据所在位置。具体的，通过一个或者多个数据采集探针连接不同的数据接口获取不同类型的状态数据，因此每个类型的状态数据对应不同的监测位置，通过监测不同类型的状态数据，能够及时定位存在健康隐患的监测位置，监测位置即数据采集探针具体连接的数据接口的位置。若多个不同类型的状态数据对应的运行状态评分均高于预先设置的健康预警值，则继续对多个运行状态评分进行综合计算得到的总体的运行状态评分。其中，总体的运行状态评分可通过对历史故障数据分析，针对不同类型的状态数据对故障的影响设置不同权值，即影响产生故障概率大的状态数据，则设置的对应的运行状态评分权值越大。判断总体的运行状态评分是否低于总健康预警值，若总体的状态评分低于总健康预警值，则继续发出健康预警，并显示预警结果。其中，预警结果可包括但不限于，例如各不同类型的状态数据对应的运行状态评分，权值，历史数据以及结合历史数据对总评分的影响分析等。具体的，结合历史数据对总评分的影响分析可以包括：可通过对历史数据进行统计学分析，计算出不同类型的状态数据对总体评分的影响程度，并预测不同类型监测区域或监测位置存在风险的概率。其中，历史数据可以包括：多个不同类型的状态数据的历史数据，以及对应的历史运行状态评分数据，历史故障数据等。

在一个实施例中，状态数据可以包括异常日志数量，当监测到被监测系统的日志输出为n次异常级别时，则异常日志数量进行n次累加，其中n是正整数。

具体的，数据采集探针可用于部署或设置于被监测系统的日志输出端，如图3所示，被监测系统运行过程中，其执行到不同的阶段都会输出对应的日志，日志级别分为正常级别和异常级别。当输出异常级别的日志时，则表明此时被监测系统发生了异常。数据采集探针在被监测系统输出日志时，对当前输出的日志信息进行拦截，并判断当前输出日志的日志级别，如果当前输出日志的日志级别为异常级别（ERROR），则会将异常日志数量进行累加。如果当前输出日志的日志级别为正常级别，则结束此次日志信息的拦截。每发生一次异常级别日志（ERROR）输出时，数据采集探针获取的异常日志数量就会加1，并将获取的日志数据以及异常日志数量值存入数据存储器。通过将异常日志数量回传，即可知道当前被监测系统的运行健康情况。最后，如图4所示，异常日志数量可通过可视化窗口进行实时的显示与更新，图4中显示了某一时间段内的异常日志数量的变化情况。其中，当异常日志数量超过一定值或预设阈值，例如100，则说明被监测系统有不健康的风险。

可选的，当系统的异常日志容忍数量为N_z1，通过比较回传的异常日志数量为N_n1，若异常日志数量超过系统预先设定的异常日志容忍数量N_z1，则表示当前系统运行的状态不健康，对应异常日志数量的运行状态评分S₁计算过程如公式（3）所示，若运行状态评分S₁过低或者异常时，则发出异常警告。其中，运行状态评分异常对应异常日志数量N_n1超过异常日志容忍数量N_z1的情况。

在一个实施例中，状态数据可以包括HTTP请求数据，HTTP请求数据包括HTTP请求失败数和HTTP请求总数；当监测到被监测系统的HTTP请求时，则将HTTP请求总数行进累加；若当前HTTP请求为异常请求时，则同时将HTTP请求失败数行进累加。

具体的，数据采集探针可部署或设置于被监测系统的HTTP请求端，当监测到被监测系统的HTTP请求时，则数据采集探针中的HTTP请求总数行进累加，并且判断若当前HTTP请求为异常请求时，则同时将数据采集探针中的HTTP请求失败数行进累加。

具体的，如图5所示，被监测系统对外提供的服务，例如被监测系统为IT系统时，均是通过HTTP请求完成。对外提供服务正常时，HTTP请求恢复的状态码值为200，对外提供服务发生异常时，返回的状态码值为其他值。

数据采集探针对HTTP请求的返回结果做拦截，此时HTTP请求总数加1，并且存入数据存储器。然后判断HTTP请求的返回结果是否为200，当HTTP请求的返回结果为200时，说明HTTP请求成功，当HTTP请求的返回结果为非200时，说明HTTP请求失败。当HTTP请求失败时，HTTP请求失败数加1，并且存入数据存储器。最后，如图6所示，HTTP请求数据可通过可视化窗口进行实时的显示与更新，图6中分别显示了某一时间段内的HTTP请求成功数（successrequests）和HTTP请求失败数（error requests）的变化情况。

可选的，HTTP请求失败容忍值为N_z2，HTTP请求失败数为N_n2，对应HTTP请求数据的运行状态评分S₂计算过程可以如公式（3）所示。若运行状态评分S₂过低或者异常时，或当HTTP请求失败数（error requests）和HTTP请求成功数（success requests）的比例超过一定值，例如50%，即（HTTP请求失败数/HTTP请求成功数）大于或者等于50%时，则表示被监测系统不健康，则发出异常警告。其中，运行状态评分异常对应HTTP请求失败数N_n2超过HTTP请求失败容忍值N_z2的情况。

通过对HTTP请求总数进行监测能够反映被监测系统阶段性的繁忙程度，通过对HTTP请求失败数进行监测，能够得知当前被监测系统的运行健康情况。

在一个实施例中，状态数据包括JVM（Java Virtual Machine，Java虚拟机）线程信息；当监测到被监测系统的JVM线程执行命令时，则对JVM线程信息行进累加；JVM线程信息包括JVM线程状态以及JVM线程数据。

具体的，数据采集探针可用于连接被监测系统的JVM线程标准接口；根据JVM线程信息，判断被监测系统的繁忙情况。如图7所示，数据采集探针通过被监测系统的JVM线程标准接口获取JVM线程信息，并将所获得的JVM线程信息回传给数据存储器，其中，JVM线程信息可以包括JVM线程状态以及JVM线程数据，其中，JVM线程状态可以包括：堵塞线程数（blocked），新建线程数（new），运行中的线程数（runnable），打断的线程数（terminated），正在等待的到一定时间不等待的线程数（timed-waiting）以及正在等待的线程数（waiting）。JVM线程数据可以包括：守护线程数（DaemonThreadCount），活跃线程数峰值（PeakThreadCount），活跃线程总数（ThreadCount）。最后，如图8所示，JVM线程信息可通过可视化窗口进行实时显示与更新，图8中分别显示了某一时间段内的JVM线程数据的变化情况。其中，当堵塞线程数超过1时，说明当前被监测系统有运行堵塞的线程，表示被监测系统不健康。当被监测系统中运行的活跃线程数峰值超过一定值，例如100，则说明被监测系统运行繁忙，有不健康的风险。

可选的，堵塞线程容忍值为N_z3，堵塞线程数为N_n3，对应JVM线程信息的运行状态评分S₃计算过程可以如公式（3）所示。若运行状态评分S₃过低或者异常时，则发出异常警告。其中，运行状态评分异常对应堵塞线程数N_n3超过堵塞线程容忍值N_z3的情况。

可选的，活跃线程数容忍峰值为N_z4，活跃线程数峰值为N_n4，对应JVM线程信息的运行状态评分S₄计算过程可以如公式（3）所示。若运行状态评分S₄过低或者异常时，则发出异常警告。其中，运行状态评分异常对应活跃线程数峰值N_n4超过活跃线程数容忍峰值N_z4的情况。

被监测系统接收请求并完成相应的业务功能需要通过JVM线程去执行。一个JVM线程对应一次请求，多个请求进入被监测系统时，多个JVM线程将并行运行。但当被监测系统接收的请求超出了当前机器CPU的处理能力时，将会有部分已经运行的JVM线程中断或者短暂的暂停。本发明实施例通过监测被监测系统的线程运行状态，可以评估出当前被监测系统的繁忙情况，其中JVM线程信息由被监测系统的JVM线程标准接口提供。

在一个实施例中，状态数据包括垃圾回收数据；垃圾回收数据包括之前被占用但当前不再使用的被释放的内存数据。

具体的，数据采集探针可用于连接被监测系统的垃圾回收标准接口；根据垃圾回收数据，判断被监测系统的繁忙情况。如图9所示，数据采集探针通过被监测系统的垃圾回收标准接口获取垃圾回收数据，并将所获得的垃圾回收数据回传给数据存储器，其中，垃圾回收数据可以包括：老年代内存与新生代内存，其中，垃圾回收是指对之前使用的目前不使用的内存进行回收，垃圾回收数据包括之前被占用但当前不再用的被释放的内存数据，目前不使用的内存根据之前被使用的次数多少分为老年代内存与新生代内存，被使用的次数多的内存属于老年代内存，被使用的次数少的内存属于新生代内存。最后，如图10以及图11所示，垃圾回收数据可通过可视化窗口进行实时的显示与更新，图10显示了某一时间段内的垃圾回收数据的回收次数，图11显示了某一时间段内的垃圾回收数据的回收总时间。其中，当老年代内存回收次数超过一定值，例如80，则说明被监测系统有不健康的风险。老年代内存垃圾回收时间越长，代表回收的老年代内存垃圾越大，当老年代内存垃圾回收时间超过一定值，例如100ms，则说明被监测系统有不健康的风险。

可选的，老年代内存垃圾回收次数容忍值为N_z6，老年代内存垃圾回收次数为N_n6，对应垃圾回收数据的运行状态评分S₆计算过程可以如公式（3）所示。若运行状态评分S₆过低或者异常时，则发出异常警告。其中，运行状态评分异常对应老年代内存垃圾回收次数N_n6超过老年代内存垃圾回收次数容忍值N_z6的情况。

可选的，老年代内存垃圾回收时间容忍值为N_z7，老年代内存垃圾回收时间为N_n7，对应垃圾回收数据的运行状态评分S₇计算过程可以如公式（3）所示。若运行状态评分S₇过低或者异常时，则发出异常警告。其中，运行状态评分异常对应老年代内存垃圾回收次数N_n7超过老年代内存垃圾回收次数容忍值N_z7的情况。

被监测系统，例如IT系统，运行在操作系统的一部分内存中，提供服务的过程需要内存资源，但内存资源是有限的，当接收到新的请求时，IT系统需要分配新的内存，此时若剩余的新的内存块不够，则需要释放之前被占用过但当前不再需要占用的内存给新的请求使用。这种释放被占用过但当前无需占用的内存的过程称为垃圾回收。当垃圾回收数据的回收次数以及垃圾回收数据的回收总时间越大，表明垃圾回收越频繁，而垃圾回收频繁程度能够反映出当前被监测系统的繁忙情况。

在一个实施例中，状态数据包括内存使用数据，内存包括堆内存与非堆内存。具体的，数据采集探针可用于连接被监测系统的内存标准接口；根据内存使用数据，判断被监测系统的繁忙情况。如图12所示，数据采集探针通过被监测系统的内存标准接口获取内存使用数据，其中，内存包括堆内存与非堆内存，并将所获得的内存使用数据回传给数据存储器。其中，堆内存包括堆内存新生代Eden区（PS Eden Space），堆内存老年代区（PS OldGen）以及堆内存幸存者区（PS Survivor Space）；非堆内存包括非堆内存元空间（Metaspace），非堆内存压缩类空间（Compressed Class Space）以及非堆内存内存池（CodeCache）。最后，如图13和图14内存使用数据可通过可视化窗口进行实时显示与更新，图13显示了某一时间段内的内存使用数据中的堆内存新生代Eden区（PS Eden Space）使用情况，纵坐标为占用空间大小，单位为MiB。图14显示了某一时间段内的内存使用数据的堆内存老年代区（PS Old Gen）使用情况，纵坐标为占用空间大小，单位为MiB。

各不同区的内存使用数据可以分别包括：临时内存（commited），允许最大内存（max），已占用内存（used），其中，允许最大内存为该内存区的可接收的最大内存容量，临时内存为该内存区的接收请求申请占用的内存容量，已占用内存为该内存区当前已被占用的内存容量。其中，临时内存和已占用内存越大，表明当前被监测系统越繁忙，有不健康的风险。

可选的，临时内存容忍值为N_z8，临时内存为N_n8，对应内存使用数据的运行状态评分S₈计算过程可以如公式（3）所示。若运行状态评分S₈过低或者异常时，则发出异常警告。其中，运行状态评分异常对应临时内存N_n8超过临时内存容忍值N_z8的情况。

可选的，已占用内存容忍值为N_z9，已占用内存为N_n9，对应内存使用数据的运行状态评分S₉计算过程可以如公式（3）所示。若运行状态评分S₉过低或者异常时，则发出异常警告。其中，运行状态评分异常对应已占用内存N_n9超过已占用内存容忍值N_z9的情况。

被监测系统，例如IT系统，运行在操作系统的一部分内存中，内存包括堆内存和非堆内存两种。在上述垃圾回收过程中，可能会触发IT系统短暂的停顿无法对外提供功能，因此对堆内存与非堆内存的监控可以一定程度反映IT系统的繁忙情况，其次当内存紧张时可以通过监控得到的内存使用情况的数据，给未来系统扩容提供参考。

在一个实施例中，状态数据包括TOMCAT运行数据和/或数据库连接池使用数据。具体的，数据采集探针可用于连接被监测系统的TOMCAT标准接口；根据TOMCAT运行数据，判断被监测系统的繁忙情况。如图15所示，数据采集探针通过被监测系统的TOMCAT标准接口获取TOMCAT运行数据，并将所获得的TOMCAT运行数据回传给数据存储器，其中，TOMCAT运行数据可以包括：当前接收请求的数量（acceptCount），当前接收线程请求的数量（acceptorThreadCount），当前连接的数量（connectionCount），当前线程的数量（currentThreadsBusy），当前维持连接的数量（keepAliveCount），最大连接的数量（maxConnections）以及最大线程（maxThreads）。最后，如图16所示，TOMCAT运行数据可通过可视化窗口进行实时显示与更新，图16中分别显示了某一时间段内的TOMCAT运行数据的变化情况。其中，当前线程超过一定值，例如100，则说明被监测系统运行繁忙，有不健康的风险。

可选的，当前线程容忍值为N_z5，当前线程为N_n5，对应TOMCAT运行数据的运行状态评分S₅计算过程可以如公式（3）所示。若运行状态评分S₅过低或者异常时，则发出异常警告。其中，运行状态评分异常对应当前线程N_n5超过当前线程容忍值N_z5的情况。

被监测系统对外提供HTTP服务时，例如IT系统，最终由TOMCAT服务器接收后进行处理。被监测系统对于HTTP服务的接收能力由TOMCAT服务器的资源决定，因此本发明实施例通过TOMCAT服务器提供的TOMCAT标准接口可以将相关的TOMCAT运行数据采集出来，用于评估出当前被监测系统的繁忙情况。

可选的，数据采集探针可用于连接被监测系统的连接池标准接口；根据数据库连接池使用数据，判断被监测系统的繁忙情况。如图17所示，数据采集探针通过被监测系统的连接池标准接口获取数据库连接池使用数据，并将所获得的数据库连接池使用数据回传给数据存储器，本发明实施例通过数据库连接池提供的连接池标准接口，利用数据采集探针可以将被监测系统运行时每个时间点内的数据库连接池的使用情况回传到数据存储器用于监控被监测系统的运行状态，其中，数据库连接池使用数据可以包括：使用连接（active），空闲连接（idle），最大连接（max），补充连接（pending）以及总连接（total）。最后，如图18所示，数据库连接池使用数据可通过可视化窗口进行实时的显示与更新，图18显示了某一时间段内的数据库连接池使用数据。其中，当使用连接等于总连接时，表明数据库连接活跃的数量已经超过最大数量，当前被监测系统异常繁忙，有不健康的风险。

可选的，总连接为N_z10，使用连接为N_n10，对应数据库连接池使用数据的运行状态评分S₁₀计算过程可以如公式（3）所示。若运行状态评分S₁₀过低或者异常时，则发出异常警告。其中，运行状态评分异常对应使用连接N_n10超过总连接N_z10的情况。

具体的，例如，若用户的数据库的总连接数为100，且当前使用连接数为100，则说明资源使用趋于饱和，此时运行状态评分打0分。若用户的数据库的总连接数为200，且当前的使用连接数为100，则说明资源使用趋于饱和，此时运行状态评分为：

（200-100）*（100/200）=50分，打分依据根据用户实际使用场景。

被监测系统，例如IT系统，在提供服务时保存的数据一般存储在数据库中，IT系统操作数据库需要通过数据库连接池，数据库连接池的使用情况可以一定程度反映IT系统的繁忙情况。

在一个可选的实施例中，被监测系统当前的运行状态总评分S可由上述运行状态评分S₁~S₁₀中的任意一项或多项确定，具体计算过程如公式（2）所示，其中，对应的w_n可根据实际对应的第n个状态数据对总体运行状态的影响程度确定，n为1~10中的任意整数。

上文描述了根据本发明实施例的运行状态可视化监测方法，下面分别结合图19至图20描述根据本发明实施例的运行状态可视化监测系统及计算机设备。

图19是根据本发明实施例示出的一种运行状态可视化监测系统200的结构示意图，如图19所示，运行状态可视化监测系统200包括：

数据采集探针201，与被监测系统的数据接口连接，用于获取被监测系统内部的状态数据；

服务器202，服务器202包括数据存储器2021和数据处理器2022；

数据存储器2021，用于存储状态数据；

数据处理器2022，用于根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分；以及用于判断若运行状态评分低于预设值，则发出异常警告；

可视化窗口203，用于将所获取的状态数据进行可视化展示。

在一个可选的实施例中，被监测系统的数据接口，包括如下中的至少一个：

被监测系统的日志输出端；被监测系统的HTTP请求端；被监测系统的JVM线程标准接口；被监测系统的垃圾回收标准接口；被监测系统的内存标准接口；被监测系统的TOMCAT标准接口；被监测系统的连接池标准接口。

根据本发明实施例的运行状态可视化监测方法以及系统，通过在被监测系统内部设置一个或多个数据采集探针，获取被监测系统内多种形式的状态数据，存储与数据存储器中，并通过对所获取的状态数据进行分析和计算，对被监测系统的运行状态进行预判。当被监测系统存在运行风险时，能够及时的发出警报。该方法融合了被监测系统内部的多监测部分的状态数据，并且将所有状态数据进行综合分析，使监测维度更全面，故障风险预测的更准确，并且能够精准定位可能存在故障风险的位置。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述运行状态可视化监测方法的各步骤。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

图20是示出能够实现根据本发明实施例的运行状态可视化监测方法的计算机设备的示例性硬件架构的结构图。如图20所示，计算机设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中，输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1007相互连接，输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1007连接，进而与计算机设备1000的其他组件连接。

具体地，输入设备1001接收来自外部的输入信息，并通过输入接口1002将输入信息传送到中央处理器1003；中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1004中，然后通过输出接口1005将输出信息传送到输出设备1006；输出设备1006将输出信息输出到计算机设备1000的外部供用户使用。

在一个实施例中，图20所示的计算机设备1000可以被实现为一种运行状态可视化监测系统，该运行状态可视化监测系统可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的运行状态可视化监测方法。

根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以从网络上被下载和安装，和/或从可拆卸存储介质被安装。

本发明实施例还提供一种运行状态可视化监测服务器，该服务器包括：

接收器，用于从一个或多个数据采集探针接收被监测系统的至少一种类型的状态数据，每种类型的状态数据包括：获取时间、监测位置和统计数据；其中，监测位置是数据采集探针连接的被监测系统的数据接口的位置；

数据处理器，用于根据状态数据对被监测系统的当前运行状态进行评分，得到运行状态评分；若运行状态评分低于预设值，则生成包含监测位置的异常警告，并且根据状态数据生成可视化图表；

发送器，用于将包含监测位置的异常警告和可视化图表发送到终端设备，以在终端设备上进行可视化展示。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令，当其在计算机上运行时，使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘）等。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种运行状态可视化监测方法，其特征在于，包括：

获取被监测系统内部的状态数据；

根据所述状态数据对所述被监测系统的当前运行状态进行评分，得到运行状态评分；

若所述运行状态评分低于预设值，则发出异常警告。

2.根据权利要求1所述的运行状态可视化监测方法，其特征在于，所述的根据所述状态数据对所述被监测系统的当前运行状态进行评分，得到运行状态评分，具体包括：

根据预先设定的容忍值以及当前运行过程中的所述状态数据，确定当前的运行状态评分。

3.根据权利要求2所述的运行状态可视化监测方法，其特征在于，所述的根据预先设定的容忍值以及当前运行过程中的所述状态数据，确定当前的运行状态评分，具体包括：

根据如下公式计算得到当前的运行状态评分：

S = (N_z-N_m) * (N_m/N_z)；

其中，S为当前的运行状态评分，N_z为预先设定的所述容忍值，N_m为当前运行过程中的所述状态数据。

4.根据权利要求3所述的运行状态可视化监测方法，其特征在于，还包括：

根据多个不同类型的所述状态数据对应的所述运行状态评分确定当前总体的运行状态评分，具体计算公式如下：

S’= w₁*S₁ + w₂*S₂ + ...+w_n*S_n；

其中，S’为当前总体的运行状态评分，S_n为对应第n个所述状态数据的运行状态评分，w_n为对应第n个所述状态数据的运行状态评分的权值，n大于或者等于1，且为整数。

5.根据权利要求4所述的运行状态可视化监测方法，其特征在于，所述预设值包括多个健康预警值，以及总健康预警值；

所述多个健康预警值分别对应多个不同类型的所述状态数据的运行状态评分；

所述总健康预警值对应所述当前总体的运行状态评分；

所述的若所述运行状态评分低于预设值，则发出异常警告，具体包括：

若一个或多个不同类型的所述状态数据的运行状态评分低于对应的所述健康预警值，则发出异常警告，并显示对应所述状态数据的监测位置；

若多个不同类型的所述状态数据的运行状态评分均高于对应的所述健康预警值，则继续判断所述当前总体的运行状态评分是否低于所述总健康预警值，如果所述当前总体的运行状态评分低于所述总健康预警值，则发出异常警告。

6.根据权利要求1所述的运行状态可视化监测方法，其特征在于，所述状态数据包括异常日志数量；当监测到所述被监测系统的日志输出为n次异常级别时，则所述异常日志数量进行n次累加，其中n是正整数。

7.根据权利要求1所述的运行状态可视化监测方法，其特征在于，所述状态数据包括HTTP请求数据；所述HTTP请求数据包括HTTP请求失败数以及HTTP请求总数；

当监测到所述被监测系统的HTTP请求时，则将所述HTTP请求总数行进累加；

若当前所述HTTP请求为异常请求时，则同时将所述HTTP请求失败数行进累加。

8.根据权利要求1所述的运行状态可视化监测方法，其特征在于，所述状态数据包括JVM线程信息；当监测到所述被监测系统的JVM线程执行命令时，则将所述JVM线程信息行进累加；所述JVM线程信息包括JVM线程状态以及JVM线程数据。

9.根据权利要求1所述的运行状态可视化监测方法，其特征在于，所述状态数据包括垃圾回收数据；所述垃圾回收数据包括之前被占用但当前不再使用的被释放的内存数据。

10.根据权利要求1所述的运行状态可视化监测方法，其特征在于，所述状态数据包括TOMCAT运行数据和/或数据库连接池使用数据。

11.一种运行状态可视化监测服务器，其特征在于，所述服务器包括：

12.一种运行状态可视化监测系统，其特征在于，包括：

服务器，所述服务器包括数据存储器和数据处理器；

所述数据存储器，用于存储所述状态数据；

所述数据处理器，用于根据所述状态数据对所述被监测系统的当前运行状态进行评分，得到运行状态评分；若所述运行状态评分低于预设值，则发出异常警告；

可视化窗口，用于将所获取的状态数据进行可视化展示。

13.根据权利要求12所述的系统，其特征在于，所述被监测系统的数据接口，包括如下中的至少一个：

所述被监测系统的日志输出端；

所述被监测系统的HTTP请求端；

所述被监测系统的JVM线程标准接口；

所述被监测系统的垃圾回收标准接口；

所述被监测系统的内存标准接口；

所述被监测系统的TOMCAT标准接口；

所述被监测系统的连接池标准接口。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10中任意一项所述的运行状态可视化监测方法。

15.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器

实现如权利要求1-10中任意一项所述的运行状态可视化监测方法。