CN114115751B

CN114115751B - 一种大规模分布式存储的操作耗时自动监控方法与系统

Info

Publication number: CN114115751B
Application number: CN202210084786.4A
Authority: CN
Inventors: 董元昊; 张大帅
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-19
Anticipated expiration: 2042-01-25
Also published as: CN114115751A

Abstract

本发明提供了一种大规模分布式存储的操作耗时自动监控方法与系统，本发明分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化，实现大规模集群下耗时情况的快速定位、自动分析，通过提前预测在大规模分布式存储中可能出现的超时问题，使得集群运行更加稳定，且集群出现超时问题后可快速定位原因，不影响集群的正常使用，提高定位效率。

Description

一种大规模分布式存储的操作耗时自动监控方法与系统

技术领域

本发明涉及分布式存储技术领域，特别是一种大规模分布式存储的操作耗时自动监控方法与系统。

背景技术

在大规模存储集群下，节点数量达到上百个时，命令容易出现超时等意外情况。部分操作在所有节点执行命令，当出现某个节点系统资源不足，或者是网络出现异常状况，会出现某个操作耗时较长的情况，出现各种不可预知的错误。如今存储节点不断增加，问题定位会变得更加繁琐。在分布式存储系统上会有日志记录，但是目前的日志记录比较简略，有些操作只在本节点执行和记录，主节点无法查询。另外日志记录会占用较多的磁盘空间，可能会对集群性能产生影响。

发明内容

本发明的目的是提供一种大规模分布式存储的操作耗时自动监控方法与系统，旨在解决现有技术中操作超时问题无法准确定位的问题，实现大规模集群下耗时情况的快速定位、自动分析。

为达到上述技术目的，本发明提供了一种大规模分布式存储的操作耗时自动监控方法，所述方法包括以下操作：

设置超时原因，当出现操作超时时，解析前端下发请求，查找函数调用堆栈中的底层函数，取出调用的命令进行分析，根据超时原因的出现次数以及影响程度进行排序，逐个匹配分析超时原因，生成异常报告；

对导入的历史日志数据进行分析，综合计算不同超时原因出现频率与重要程度，对可能出现耗时的命令的代码进行标注；

对日志文件进行压缩和过滤，将各个节点向主节点上报的信息，保留不同部分，将相同内容集中归类。

优选地，所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。

优选地，所述异常报告中体现异常的节点、命令以及出错原因。

优选地，所述对导入的历史日志数据进行分析包括：对集群命令的执行状况、代码逻辑进行综合分析，对串行执行的命令、循环中频繁调用的命令进行分析。

本发明还提供了一种大规模分布式存储的操作耗时自动监控系统，所述系统包括：

日志自动分析模块，用于设置超时原因，当出现操作超时时，解析前端下发请求，查找函数调用堆栈中的底层函数，取出调用的命令进行分析，根据超时原因的出现次数以及影响程度进行排序，逐个匹配分析超时原因，生成异常报告；

超时预测模块，用于对导入的历史日志数据进行分析，综合计算不同超时原因出现频率与重要程度，对可能出现耗时的命令的代码进行标注；

日志过滤模块，用于对日志文件进行压缩和过滤，将各个节点向主节点上报的信息，保留不同部分，将相同内容集中归类。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化，实现大规模集群下耗时情况的快速定位、自动分析，通过提前预测在大规模分布式存储中可能出现的超时问题，使得集群运行更加稳定，且集群出现超时问题后可快速定位原因，不影响集群的正常使用，提高定位效率。

附图说明

图1为本发明实施例中所提供的一种大规模分布式存储的操作耗时自动监控方法流程图；

图2为本发明实施例中所提供的日志自动分析逻辑示意图；

图3为本发明实施例中所提供的超时预测逻辑示意图；

图4为本发明实施例中所提供的一种大规模分布式存储的操作耗时自动监控系统框图。

具体实施方式

本发明的目的为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种大规模分布式存储的操作耗时自动监控方法与系统进行详细说明。

如图1-3所示，本发明公开了一种大规模分布式存储的操作耗时自动监控方法，所述方法包括以下操作：

设置超时或出错原因，当出现操作超时时，解析前端下发请求，查找函数调用堆栈中的底层函数，取出调用的命令进行分析，根据超时原因的出现次数以及影响程度进行排序，逐个匹配分析超时原因，生成异常报告；

对导入的历史日志数据进行过滤分析，综合计算不同超时原因出现频率与重要程度，对可能出现耗时的命令的代码进行标注；

当技术人员对日志进行分析时，遇到的问题就是节点过多、数据量过大导致的分析困难，因此需要进行日志的自动分析，生成简洁易懂的分析报告。

本发明实施例通过提前设置超时或出错原因，当出现异常情况需要检测时，可快速生成相关模块的报告，从而从报告中快速分析获取有效信息；导入历史日志，并自动分析日志中的历史性能数据，根据提前设置的超时或出错原因，对大规模集群存储场景或其他特殊情况下可能出现的异常模块进行预测、告警提示；对导入的历史日志进行数据过滤，综合超时预测，对某个操作执行速度没有影响的命令进行过滤，对同类型的命令进行归类，减少耗时，同时对保存本地的日志文件进行压缩。

对于日志自动分析，一般大规模集群下命令超时有以下几个原因：较为耗时命令各节点串行执行、for循环频繁调用，节点间网络问题导致某个节点耗时较长，一个操作需要等待另一个操作执行完毕，或等待某个模块状态恢复正常。这些原因置为初始原因，在用户发现某个操作耗时后，开发人员需要在该模块下输入该操作在前端下发的请求，该模块在代码中通过堆栈保存所调用的函数，再从中取出需要执行的命令行。在确定了所执行的命令后，再从各个节点的日志记录中取出相关命令进行分析。属于同一次操作的命令会在记录时加上一个该操作独有ID。超时原因有网络问题、等待其他操作、等待其他模块以及for循环调用串行执行，调用超时预测模块，根据超时原因的出现次数、影响程度进行排序，按照次序逐个匹配分析是否属于该原因。在分析出原因后，根据提前设置好的关键词，在检测报告中体现异常的节点、命令以及出错原因。

在导入历史日志数据后，对历史数据进行分析。在当前情况下对集群命令的执行状况，代码逻辑进行综合分析，对串行执行的命令、循环中频繁调用的命令进行分析，由此来预测在大规模集群中可能出现的超时问题，并对不同原因的出现频次、重要程度设定权重。首先对日志进行分析，将各个节点一段时间内相同的命令进行收集，再对所对应的代码进行扫描，确定可能会出现问题的代码。

在大规模集群下，日志文件可能会占用许多磁盘空间，因此除了对历史日志进行压缩之外，还需要对日志内容做过滤处理，在各个节点向主节点上报的信息只保留上报信息中不同的部分，对相同的内容集中并作标记。在日志自动分析和超时预测模块进行日志分析时，需要调用本模块对日志进行过滤，加快分析速度。

本发明实施例分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化，实现大规模集群下耗时情况的快速定位、自动分析，通过提前预测在大规模分布式存储中可能出现的超时问题，使得集群运行更加稳定，且集群出现超时问题后可快速定位原因，不影响集群的正常使用，提高定位效率。

如图4所示，本发明实施例还公开了一种大规模分布式存储的操作耗时自动监控系统，所述系统包括：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大规模分布式存储的操作耗时自动监控方法，其特征在于，所述方法包括以下操作：

设置超时原因，当出现操作超时时，解析前端下发请求，查找函数调用堆栈中的底层函数，取出调用的命令进行分析，根据超时原因的出现次数以及影响程度进行排序，逐个匹配分析超时原因，生成异常报告；所述异常报告中体现异常的节点、命令以及超时原因；

2.根据权利要求1所述的一种大规模分布式存储的操作耗时自动监控方法，其特征在于，所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。

3.根据权利要求1所述的一种大规模分布式存储的操作耗时自动监控方法，其特征在于，所述对导入的历史日志数据进行分析包括：对集群命令的执行状况、代码逻辑进行综合分析，对串行执行的命令、循环中频繁调用的命令进行分析。

4.一种大规模分布式存储的操作耗时自动监控系统，其特征在于，所述系统包括：

日志自动分析模块，用于设置超时原因，当出现操作超时时，解析前端下发请求，查找函数调用堆栈中的底层函数，取出调用的命令进行分析，根据超时原因的出现次数以及影响程度进行排序，逐个匹配分析超时原因，生成异常报告；所述异常报告中体现异常的节点、命令以及超时原因；

5.根据权利要求4所述的一种大规模分布式存储的操作耗时自动监控系统，其特征在于，所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。

6.根据权利要求4所述的一种大规模分布式存储的操作耗时自动监控系统，其特征在于，所述对导入的历史日志数据进行分析包括：对集群命令的执行状况、代码逻辑进行综合分析，对串行执行的命令、循环中频繁调用的命令进行分析。