CN114115751A - 一种大规模分布式存储的操作耗时自动监控方法与系统 - Google Patents

一种大规模分布式存储的操作耗时自动监控方法与系统 Download PDF

Info

Publication number
CN114115751A
CN114115751A CN202210084786.4A CN202210084786A CN114115751A CN 114115751 A CN114115751 A CN 114115751A CN 202210084786 A CN202210084786 A CN 202210084786A CN 114115751 A CN114115751 A CN 114115751A
Authority
CN
China
Prior art keywords
overtime
reasons
command
distributed storage
analyzing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210084786.4A
Other languages
English (en)
Other versions
CN114115751B (zh
Inventor
董元昊
张大帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210084786.4A priority Critical patent/CN114115751B/zh
Publication of CN114115751A publication Critical patent/CN114115751A/zh
Application granted granted Critical
Publication of CN114115751B publication Critical patent/CN114115751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种大规模分布式存储的操作耗时自动监控方法与系统,本发明分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化,实现大规模集群下耗时情况的快速定位、自动分析,通过提前预测在大规模分布式存储中可能出现的超时问题,使得集群运行更加稳定,且集群出现超时问题后可快速定位原因,不影响集群的正常使用,提高定位效率。

Description

一种大规模分布式存储的操作耗时自动监控方法与系统
技术领域
本发明涉及分布式存储技术领域,特别是一种大规模分布式存储的操作耗时自动监控方法与系统。
背景技术
在大规模存储集群下,节点数量达到上百个时,命令容易出现超时等意外情况。部分操作在所有节点执行命令,当出现某个节点系统资源不足,或者是网络出现异常状况,会出现某个操作耗时较长的情况,出现各种不可预知的错误。如今存储节点不断增加,问题定位会变得更加繁琐。在分布式存储系统上会有日志记录,但是目前的日志记录比较简略,有些操作只在本节点执行和记录,主节点无法查询。另外日志记录会占用较多的磁盘空间,可能会对集群性能产生影响。
发明内容
本发明的目的是提供一种大规模分布式存储的操作耗时自动监控方法与系统,旨在解决现有技术中操作超时问题无法准确定位的问题,实现大规模集群下耗时情况的快速定位、自动分析。
为达到上述技术目的,本发明提供了一种大规模分布式存储的操作耗时自动监控方法,所述方法包括以下操作:
设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
优选地,所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。
优选地,所述异常报告中体现异常的节点、命令以及出错原因。
优选地,所述对导入的历史日志数据进行分析包括:对集群命令的执行状况、代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析。
本发明还提供了一种大规模分布式存储的操作耗时自动监控系统,所述系统包括:
日志自动分析模块,用于设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
超时预测模块,用于对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
日志过滤模块,用于对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
优选地,所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。
优选地,所述异常报告中体现异常的节点、命令以及出错原因。
优选地,所述对导入的历史日志数据进行分析包括:对集群命令的执行状况、代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化,实现大规模集群下耗时情况的快速定位、自动分析,通过提前预测在大规模分布式存储中可能出现的超时问题,使得集群运行更加稳定,且集群出现超时问题后可快速定位原因,不影响集群的正常使用,提高定位效率。
附图说明
图1为本发明实施例中所提供的一种大规模分布式存储的操作耗时自动监控方法流程图;
图2为本发明实施例中所提供的日志自动分析逻辑示意图;
图3为本发明实施例中所提供的超时预测逻辑示意图;
图4为本发明实施例中所提供的一种大规模分布式存储的操作耗时自动监控系统框图。
具体实施方式
本发明的目的为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种大规模分布式存储的操作耗时自动监控方法与系统进行详细说明。
如图1-3所示,本发明公开了一种大规模分布式存储的操作耗时自动监控方法,所述方法包括以下操作:
设置超时或出错原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
对导入的历史日志数据进行过滤分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
当技术人员对日志进行分析时,遇到的问题就是节点过多、数据量过大导致的分析困难,因此需要进行日志的自动分析,生成简洁易懂的分析报告。
本发明实施例通过提前设置超时或出错原因,当出现异常情况需要检测时,可快速生成相关模块的报告,从而从报告中快速分析获取有效信息;导入历史日志,并自动分析日志中的历史性能数据,根据提前设置的超时或出错原因,对大规模集群存储场景或其他特殊情况下可能出现的异常模块进行预测、告警提示;对导入的历史日志进行数据过滤,综合超时预测,对某个操作执行速度没有影响的命令进行过滤,对同类型的命令进行归类,减少耗时,同时对保存本地的日志文件进行压缩。
对于日志自动分析,一般大规模集群下命令超时有以下几个原因:较为耗时命令各节点串行执行、for循环频繁调用,节点间网络问题导致某个节点耗时较长,一个操作需要等待另一个操作执行完毕,或等待某个模块状态恢复正常。这些原因置为初始原因,在用户发现某个操作耗时后,开发人员需要在该模块下输入该操作在前端下发的请求,该模块在代码中通过堆栈保存所调用的函数,再从中取出需要执行的命令行。在确定了所执行的命令后,再从各个节点的日志记录中取出相关命令进行分析。属于同一次操作的命令会在记录时加上一个该操作独有ID。超时原因有网络问题、等待其他操作、等待其他模块以及for循环调用串行执行,调用超时预测模块,根据超时原因的出现次数、影响程度进行排序,按照次序逐个匹配分析是否属于该原因。在分析出原因后,根据提前设置好的关键词,在检测报告中体现异常的节点、命令以及出错原因。
在导入历史日志数据后,对历史数据进行分析。在当前情况下对集群命令的执行状况,代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析,由此来预测在大规模集群中可能出现的超时问题,并对不同原因的出现频次、重要程度设定权重。首先对日志进行分析,将各个节点一段时间内相同的命令进行收集,再对所对应的代码进行扫描,确定可能会出现问题的代码。
在大规模集群下,日志文件可能会占用许多磁盘空间,因此除了对历史日志进行压缩之外,还需要对日志内容做过滤处理,在各个节点向主节点上报的信息只保留上报信息中不同的部分,对相同的内容集中并作标记。在日志自动分析和超时预测模块进行日志分析时,需要调用本模块对日志进行过滤,加快分析速度。
本发明实施例分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化,实现大规模集群下耗时情况的快速定位、自动分析,通过提前预测在大规模分布式存储中可能出现的超时问题,使得集群运行更加稳定,且集群出现超时问题后可快速定位原因,不影响集群的正常使用,提高定位效率。
如图4所示,本发明实施例还公开了一种大规模分布式存储的操作耗时自动监控系统,所述系统包括:
日志自动分析模块,用于设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
超时预测模块,用于对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
日志过滤模块,用于对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
本发明实施例通过提前设置超时或出错原因,当出现异常情况需要检测时,可快速生成相关模块的报告,从而从报告中快速分析获取有效信息;导入历史日志,并自动分析日志中的历史性能数据,根据提前设置的超时或出错原因,对大规模集群存储场景或其他特殊情况下可能出现的异常模块进行预测、告警提示;对导入的历史日志进行数据过滤,综合超时预测,对某个操作执行速度没有影响的命令进行过滤,对同类型的命令进行归类,减少耗时,同时对保存本地的日志文件进行压缩。
对于日志自动分析,一般大规模集群下命令超时有以下几个原因:较为耗时命令各节点串行执行、for循环频繁调用,节点间网络问题导致某个节点耗时较长,一个操作需要等待另一个操作执行完毕,或等待某个模块状态恢复正常。这些原因置为初始原因,在用户发现某个操作耗时后,开发人员需要在该模块下输入该操作在前端下发的请求,该模块在代码中通过堆栈保存所调用的函数,再从中取出需要执行的命令行。在确定了所执行的命令后,再从各个节点的日志记录中取出相关命令进行分析。属于同一次操作的命令会在记录时加上一个该操作独有ID。超时原因有网络问题、等待其他操作、等待其他模块以及for循环调用串行执行,调用超时预测模块,根据超时原因的出现次数、影响程度进行排序,按照次序逐个匹配分析是否属于该原因。在分析出原因后,根据提前设置好的关键词,在检测报告中体现异常的节点、命令以及出错原因。
在导入历史日志数据后,对历史数据进行分析。在当前情况下对集群命令的执行状况,代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析,由此来预测在大规模集群中可能出现的超时问题,并对不同原因的出现频次、重要程度设定权重。首先对日志进行分析,将各个节点一段时间内相同的命令进行收集,再对所对应的代码进行扫描,确定可能会出现问题的代码。
在大规模集群下,日志文件可能会占用许多磁盘空间,因此除了对历史日志进行压缩之外,还需要对日志内容做过滤处理,在各个节点向主节点上报的信息只保留上报信息中不同的部分,对相同的内容集中并作标记。在日志自动分析和超时预测模块进行日志分析时,需要调用本模块对日志进行过滤,加快分析速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种大规模分布式存储的操作耗时自动监控方法,其特征在于,所述方法包括以下操作:
设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
2.根据权利要求1所述的一种大规模分布式存储的操作耗时自动监控方法,其特征在于,所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。
3.根据权利要求1所述的一种大规模分布式存储的操作耗时自动监控方法,其特征在于,所述异常报告中体现异常的节点、命令以及出错原因。
4.根据权利要求1所述的一种大规模分布式存储的操作耗时自动监控方法,其特征在于,所述对导入的历史日志数据进行分析包括:对集群命令的执行状况、代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析。
5.一种大规模分布式存储的操作耗时自动监控系统,其特征在于,所述系统包括:
日志自动分析模块,用于设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
超时预测模块,用于对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
日志过滤模块,用于对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
6.根据权利要求5所述的一种大规模分布式存储的操作耗时自动监控系统,其特征在于,所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。
7.根据权利要求5所述的一种大规模分布式存储的操作耗时自动监控系统,其特征在于,所述异常报告中体现异常的节点、命令以及出错原因。
8.根据权利要求5所述的一种大规模分布式存储的操作耗时自动监控系统,其特征在于,所述对导入的历史日志数据进行分析包括:对集群命令的执行状况、代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析。
CN202210084786.4A 2022-01-25 2022-01-25 一种大规模分布式存储的操作耗时自动监控方法与系统 Active CN114115751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210084786.4A CN114115751B (zh) 2022-01-25 2022-01-25 一种大规模分布式存储的操作耗时自动监控方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210084786.4A CN114115751B (zh) 2022-01-25 2022-01-25 一种大规模分布式存储的操作耗时自动监控方法与系统

Publications (2)

Publication Number Publication Date
CN114115751A true CN114115751A (zh) 2022-03-01
CN114115751B CN114115751B (zh) 2022-04-19

Family

ID=80361098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210084786.4A Active CN114115751B (zh) 2022-01-25 2022-01-25 一种大规模分布式存储的操作耗时自动监控方法与系统

Country Status (1)

Country Link
CN (1) CN114115751B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162384A (zh) * 2019-04-19 2019-08-23 深圳壹账通智能科技有限公司 基于Redis分布式锁的超时时间动态调整方法及系统
CN111078447A (zh) * 2019-11-24 2020-04-28 杭州安恒信息技术股份有限公司 一种微服务架构中的异常定位方法、装置、设备、介质
CN112328335A (zh) * 2020-11-30 2021-02-05 深圳前海微众银行股份有限公司 一种并发请求超时的诊断方法及装置、设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162384A (zh) * 2019-04-19 2019-08-23 深圳壹账通智能科技有限公司 基于Redis分布式锁的超时时间动态调整方法及系统
CN111078447A (zh) * 2019-11-24 2020-04-28 杭州安恒信息技术股份有限公司 一种微服务架构中的异常定位方法、装置、设备、介质
CN112328335A (zh) * 2020-11-30 2021-02-05 深圳前海微众银行股份有限公司 一种并发请求超时的诊断方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN114115751B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN105207806A (zh) 分布式服务的监控方法及装置
CN104965754A (zh) 任务调度方法及任务调度装置
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
CN110471945B (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
CN113657715A (zh) 一种基于核密度估计调用链的根因定位方法及系统
US20220083939A1 (en) Electronic device for detecting business system and detection method thereof
US11640401B2 (en) Alert rule evaluation for monitoring of late arriving data
CN110659147B (zh) 一种基于模块自检行为的自修复方法和系统
CN114385551B (zh) 日志分时管理方法、装置、设备及存储介质
CN111274090A (zh) 作业处理方法、装置、介质及电子设备
CN114115751B (zh) 一种大规模分布式存储的操作耗时自动监控方法与系统
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN101515864B (zh) 告警信息配制系统及其配制方法
CN112543127A (zh) 一种微服务架构的监控方法及装置
CN111045779B (zh) 系统内存回收配置方法、存储介质
Kang et al. Spatiotemporal real-time anomaly detection for supercomputing systems
JP5251718B2 (ja) データ変換プログラム、データ変換方法、およびデータ変換装置
US11416187B2 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium
CN117971605B (zh) 基于数据库异常的自动化日志信息收集方法及系统
CN117806890B (zh) 一种基于分布式存储的慢盘检测处理方法
CN116302637A (zh) 一种基于容器管理平台的异常根因分析方法和系统
CN118055015A (zh) 一种超算系统节点故障异常预测方法及装置
CN116185770A (zh) 数据采集方法、装置、电子设备及存储介质
CN116820879A (zh) 硬盘健康监测方法、装置、电子设备和存储介质
CN116185956A (zh) 分布式系统中设备故障巡检方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant