CN117914687B

CN117914687B - 一种工业计算机服务器的管理方法及系统

Info

Publication number: CN117914687B
Application number: CN202410319215.3A
Authority: CN
Inventors: 贾建华
Original assignee: Shenzhen Paiqin Electronic Technology Co ltd
Current assignee: Shenzhen Paiqin Electronic Technology Co ltd
Priority date: 2024-03-20
Filing date: 2024-03-20
Publication date: 2024-05-14
Anticipated expiration: 2044-03-20
Also published as: CN117914687A

Abstract

本发明提供了一种工业计算机服务器的管理方法及系统，运用于服务器管理领域；本发明通过实时监测服务器的CPU使用率、内存使用率和磁盘I/O的关键指标，能够快速检测服务器是否超出预设的工作指标，实现自动化的过载检测和响应，同时监控服务器接收的网络请求，并采集服务器当前的进程数量，通过捕捉资源消耗最大的单个进程内容，并从服务器日志中收集错误日志数量，一旦错误日志数量高于预设数目，系统将自动切换至后备服务器群，并将请求内容的静态资源缓存至CDN节点上，以分担原始服务器的负载，提高系统的稳定性和可用性。

Description

一种工业计算机服务器的管理方法及系统

技术领域

本发明涉及服务器管理领域，特别涉及为一种工业计算机服务器的管理方法及系统。

背景技术

工业计算机服务器存储着重要的数据和应用程序，因此需要保持高可用性和稳定性，以确保生产和业务的连续性。

当这些工业计算机服务器在遇到过载时，工作人员无法在第一时间内快速查出过载原因，如若遭受到大规模的DDoS攻击，通过向服务器发送大量的恶意流量，使服务器资源耗尽会导致服务器过载，但是如果过载原因并非来自DDoS攻击，而是常见的资源损耗问题，就无需工作人员对过载情况进行干涉，因此在工业计算机服务器发生过载情况时，快速查出过载原因非常重要。

发明内容

本发明旨在解决在工业计算机服务器发生过载情况时，如何快速查出过载原因的问题，提供一种工业计算机服务器的管理方法及系统。

本发明为解决技术问题采用如下技术手段：

本发明提供一种工业计算机服务器的管理方法，包括：

基于服务器预设的指标类型，获取所述服务器的各项实时指标，其中，所述指标类型具体包括CPU 使用率、内存使用率和磁盘I/O；

判断所述实时指标是否超出预设的工作指标；

若是，则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求，采集所述服务器当前的进程数量，依据所述进程数量捕捉资源消耗最大的单个进程内容，同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量；

判断所述错误日志数量是否高于预设数目；

若高于，则使用预设的后备服务器群分发所述服务器的请求内容，将所述请求内容的静态资源缓存至预设的CDN节点上，同时基于预设的过载机制限定所述服务器的并发连接数，对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息，其中，所述优化内容具体包括HTTP压缩、网络拓扑和资源清理。

进一步地，所述则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求的步骤中，还包括：

基于预设的流量分析工具，实时采集服务器的流量信息，从所述流量信息中提取对应的流量特征，其中，所述流量信息具体包括IP地址、端口和数据包；

判断所述流量特征是否匹配预设的攻击特征，其中，所述攻击特征具体包括大量请求、异常请求频率和异常请求来源；

若是，则将所述流量特征输入至预训练的神经模型，根据所述神经模型检测到的所述流量特征，触发所述服务器执行预设的防御措施，其中，所述防御措施具体包括流量清洗、黑洞路由和IP封锁。

进一步地，所述则将所述流量特征输入至预训练的神经模型的步骤前，还包括：

从所述流量特征中分类出流量类别，分别为所述流量类别进行数据标记，将所述流量特征划分为预设比例的数据集，其中，所述流量类别具体包括正常流量和DDos攻击流量，所述数据集具体包括训练集、验证集和测试集；

判断所述流量特征能否对所述神经模型进行搭建；

若能，则应用预设的反向传播算法通过所述神经模型的前向传播过程，计算所述神经模型的输出，将输出结果与预设的真实标签进行比较，生成所述神经模型的损失函数，并将所述损失函数对神经模型参数的梯度反向传播回所述神经模型中，获取各个所述神经模型参数对所述损失函数的梯度，使用预设的梯度下降算法根据所述损失函数的梯度更新迭代所述神经模型参数，直至所述神经模型的损失函数收敛，得到训练完毕的神经模型。

进一步地，所述同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量的步骤后，还包括：

从所述错误日志数量中解析出对应的错误日志类型，检测错误日志的生成频率，其中，所述错误日志类型具体包括错误代码、错误信息和错误堆栈；

判断所述生成频率是否大于预设频率；

若是，则采集所述错误日志的生成节点，从所述生成节点中筛选出所述错误日志类型的相同错误日志，识别所述相同错误日志的生成来源内容，基于所述生成来源内容将所述错误日志上传至云端服务器，其中，所述生成来源内容具体包括系统错误、数据库错误和网络错误。

进一步地，所述同时基于预设的过载机制限定所述服务器的并发连接数的步骤中，包括：

基于所述服务器的负载状态，识别所述服务器预设的资源利用率，其中，所述负载状态具体包括轻负载、中负载和高负载；

判断所述资源利用率是否低于预设效率；

若是，则根据所述资源利用率更正所述服务器的实时负载状态，依据所述实时负载状态实施对所述服务器的并发连接数限制措施，其中，所述限制措施具体包括当服务器处于轻负载时逐步增加并发连接数限制、当服务器处于中负载时保持当前的并发连接数限制和当服务器处于高负载时逐步减少并发连接数限制。

进一步地，所述对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息的步骤后，还包括：

检测所述服务器对应用程序和配置文件的当前控制版本，记录所述优化迭代后的版本内容；

判断所述版本内容能否替代所述当前控制版本；

若能，则获取所述服务器对所述版本内容的备份数据，基于所述备份数据构建对所述服务器的备份事件内容，根据所述备份事件内容划分所述服务器的回溯节点，其中，所述备份事件内容具体包括备份频率、备份数量和备份时间。

进一步地，所述基于服务器预设的指标类型，获取所述服务器的各项实时指标的步骤中，还包括：

检测预设的外部环境要素对所述服务器产生的影响参数，其中，所述外部环境要素具体包括网络延迟、带宽限制和环境温湿度；

判断所述影响参数是否超出预设参数上限；

若是，则对所述各项实时指标基于所述影响参数进行协方差分析，得到所述各项实时指标与所述影响参数之间的线性关系和非线性关系，应用预设的相关系数算法量化所述线性关系和所述非线性关系之间的关联程度，生成相关系数的取值，依据所述取值采集所述各项实时指标与所述影响参数的关联关系，其中，所述关联关系具体包括正相关、负相关和无关联。

本发明还提供一种工业计算机服务器的管理系统，包括：

获取模块，用于基于服务器预设的指标类型，获取所述服务器的各项实时指标，其中，所述指标类型具体包括CPU 使用率、内存使用率和磁盘I/O；

判断模块，用于判断所述实时指标是否超出预设的工作指标；

执行模块，用于若是，则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求，采集所述服务器当前的进程数量，依据所述进程数量捕捉资源消耗最大的单个进程内容，同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量；

第二判断模块，用于判断所述错误日志数量是否高于预设数目；

第二执行模块，用于若高于，则使用预设的后备服务器群分发所述服务器的请求内容，将所述请求内容的静态资源缓存至预设的CDN节点上，同时基于预设的过载机制限定所述服务器的并发连接数，对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息，其中，所述优化内容具体包括HTTP压缩、网络拓扑和资源清理。

进一步地，所述执行模块还包括：

提取单元，用于基于预设的流量分析工具，实时采集服务器的流量信息，从所述流量信息中提取对应的流量特征，其中，所述流量信息具体包括IP地址、端口和数据包；

判断单元，用于判断所述流量特征是否匹配预设的攻击特征，其中，所述攻击特征具体包括大量请求、异常请求频率和异常请求来源；

执行单元，用于若是，则将所述流量特征输入至预训练的神经模型，根据所述神经模型检测到的所述流量特征，触发所述服务器执行预设的防御措施，其中，所述防御措施具体包括流量清洗、黑洞路由和IP封锁。

进一步地，还包括：

标记单元，用于从所述流量特征中分类出流量类别，分别为所述流量类别进行数据标记，将所述流量特征划分为预设比例的数据集，其中，所述流量类别具体包括正常流量和DDos攻击流量，所述数据集具体包括训练集、验证集和测试集；

第二判断单元，用于判断所述流量特征能否对所述神经模型进行搭建；

第二执行单元，用于若能，则应用预设的反向传播算法通过所述神经模型的前向传播过程，计算所述神经模型的输出，将输出结果与预设的真实标签进行比较，生成所述神经模型的损失函数，并将所述损失函数对神经模型参数的梯度反向传播回所述神经模型中，获取各个所述神经模型参数对所述损失函数的梯度，使用预设的梯度下降算法根据所述损失函数的梯度更新迭代所述神经模型参数，直至所述神经模型的损失函数收敛，得到训练完毕的神经模型。

本发明提供了工业计算机服务器的管理方法及系统，具有以下有益效果：

本发明通过实时监测服务器的CPU 使用率、内存使用率和磁盘I/O的关键指标，能够快速检测服务器是否超出预设的工作指标，实现自动化的过载检测和响应，同时监控服务器接收的网络请求，并采集服务器当前的进程数量，通过捕捉资源消耗最大的单个进程内容，并从服务器日志中收集错误日志数量，一旦错误日志数量高于预设数目，系统将自动切换至后备服务器群，并将请求内容的静态资源缓存至CDN节点上，以分担原始服务器的负载，提高系统的稳定性和可用性。

附图说明

图1为本发明工业计算机服务器的管理方法一个实施例的流程示意图；

图2为本发明工业计算机服务器的管理系统一个实施例的结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明，本发明为目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

下面将结合本发明的实施例中的附图，对本发明的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考附图1，为本发明一实施例中的工业计算机服务器的管理方法，包括：

S1：基于服务器预设的指标类型，获取所述服务器的各项实时指标，其中，所述指标类型具体包括CPU 使用率、内存使用率和磁盘I/O；

S2：判断所述实时指标是否超出预设的工作指标；

S3：若是，则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求，采集所述服务器当前的进程数量，依据所述进程数量捕捉资源消耗最大的单个进程内容，同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量；

S4：判断所述错误日志数量是否高于预设数目；

S5：若高于，则使用预设的后备服务器群分发所述服务器的请求内容，将所述请求内容的静态资源缓存至预设的CDN节点上，同时基于预设的过载机制限定所述服务器的并发连接数，对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息，其中，所述优化内容具体包括HTTP压缩、网络拓扑和资源清理。

在本实施例中，系统基于工业计算机服务器预先设定好的可用指标类型，获取当前工业计算机服务器的各项实时指标数据，包括CPU 使用率、内存使用率和磁盘I/O，而后系统判断这些实时指标数据是否超出预先设有的工作指标，以执行对应的步骤；例如，当系统判定到工业计算机服务器的实时指标数据并未超出预先设有的工作指标时，则系统会认为工业计算机服务器当前不存在负载，系统会记录实时指标数据，并进行分析和存档，有助于建立历史数据库，为后续的性能评估和趋势分析提供参考，同时在负载较轻的时候，安排定期的系统维护和更新工作，包括系统补丁的安装、软件更新和数据库优化，以保持系统的稳定性和安全性，并且定期进行备份测试，通过更新备份策略和恢复计划，以适应系统环境和业务需求的变化；例如，当系统判定到工业计算机服务器的实时指标数据超出了预先设有的工作指标时，此时系统会认为工业计算机服务器可能遭遇了DDoS攻击或是常规过载，系统会识别实时指标数据超出预先设有的工作指标的持续时长，根据持续时长检测工业计算机服务器所接收到的网络请求，采集工业计算机服务器当前的执行进程数量，依据进程数量捕捉当前资源消耗最大的单个进程内容，同时获取进程内容对应生成的服务器日志信息，从这些服务器日志信息中收集错误日志数量，系统通过识别实时指标数据超出预先设定的工作指标的持续时长，系统能够快速发现服务器发生过载的情况，有助于及时采取应对措施，减轻服务器负载，防止系统性能下降或服务中断，同时通过检测服务器接收到的网络请求以及采集的执行进程数量，系统能够区分DDoS攻击与常规过载，因为如果发现网络请求异常或执行进程数量异常增加，可能存在DDoS攻击的可能性，可以进一步采取防御措施，并且识别当前资源消耗最大的单个进程，有助于确定造成服务器过载的主要原因，如果通过定位问题进程确定过载原因并非来自DDoS攻击，可以更快速地采取针对性的解决方案，提高故障排除的效率，从服务器日志信息中收集错误日志数量，有助于进一步分析服务器发生过载的具体原因，通过分析错误日志，可以识别出可能存在的系统故障、异常操作或安全漏洞，为后续的修复和优化提供参考；而后系统判断收集到的错误日志数量是否高于预先设有的数目，以执行对应的步骤；例如，当系统判定到收集到的错误日志数量并未高于预先设有的数目时，则系统会认为工业计算机服务器的过载情况持续时间不长，系统仍需要持续监控服务器的性能指标和日志信息，通过持续观察，可以及时发现过载情况的变化和趋势，以便及时调整和优化，同时记录当前的性能指标数据和日志信息，进行分析和存档，有助于建立历史数据记录，为后续的性能评估和问题排查提供参考，并且利用过载情况不严重或持续时间较短的时机，可以安排定期的系统维护和更新工作，包括系统补丁的安装、软件更新和数据库优化，以保持系统的稳定性和安全性；例如，当系统判定到收集到的错误日志数量高于预先设有的数目时，此时系统会认为工业计算机服务器的过载情况持续时间太长，系统会使用预先设有的后备服务器群分发工业计算机服务器的请求内容，将这些请求内容的静态资源缓存至预先设有的CDN节点上，同时基于预先设有的过载机制限定工业计算机服务器的并发连接数，对工业计算机服务器预先收录有的应用程序在预先设好的时段内进行优化迭代，根据优化内容生成工业计算机服务器在过载后的维护日志信息；系统通过使用后备服务器群和CDN节点，以及限制并发连接数等方式，能够有效分担服务器负载，减轻服务器压力，从而快速恢复正常的服务状态，同时通过将请求内容的静态资源缓存至CDN节点上，能够加速用户对静态资源的访问速度，提高用户体验和服务响应速度，通过限制并发连接数和优化应用程序，能够降低服务器的负载压力，保障服务器的稳定性和可用性，并且在过载情况发生时，自动使用预先设定的后备服务器群和CDN节点，以及过载机制限定和应用程序优化迭代的方式进行维护和优化，这种自动化的方式能够减少人工干预，在不需要人工干预的情况下提高系统对常规过载的自适应处理效率，最后根据优化内容生成的维护日志信息，人工干预可以对系统进行进一步分析和评估，为后续的改进和优化提供参考和指导。

在本实施例中，则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求的步骤S3中，还包括：

S31：基于预设的流量分析工具，实时采集服务器的流量信息，从所述流量信息中提取对应的流量特征，其中，所述流量信息具体包括IP地址、端口和数据包；

S32：判断所述流量特征是否匹配预设的攻击特征，其中，所述攻击特征具体包括大量请求、异常请求频率和异常请求来源；

S33：若是，则将所述流量特征输入至预训练的神经模型，根据所述神经模型检测到的所述流量特征，触发所述服务器执行预设的防御措施，其中，所述防御措施具体包括流量清洗、黑洞路由和IP封锁。

在本实施例中，系统基于预先设有的流量分析工具，实时采集工业计算机服务器的流量信息，从这些流量信息中提取出对应的流量特征，而后系统判断这些流量特征是否匹配预先设有的DDoS攻击特征，以执行对应的步骤；例如，当系统判定到提取到的流量特征无法匹配预先设有的DDoS攻击特征时，则系统会认为工业计算机服务器的过载原因并非来自于DDoS的攻击，系统仍会进一步分析提取到的流量特征，通过深入挖掘流量数据，分析流量来源、目的地、协议类型、请求频率等信息，以确定可能的过载原因，同时除了DDoS攻击外，服务器过载可能还有其他原因，如系统配置不当、应用程序缺陷、网络拓扑问题，系统会进一步排查这些可能性，以确定过载的真实原因，并且根据分析结果，系统会采取相应的应对措施，如优化服务器配置、调整网络拓扑或排查应用程序问题，有助于缓解服务器的负载压力，恢复服务器的正常运行状态；例如，当系统判定到提取到的流量特征能够匹配预先设有的DDoS攻击特征，此时系统会认为工业计算机服务器的过载原因可能来自于DDoS攻击，系统会将流量特征输入至预先训练好的神经模型中，根据神经模型检测到的流量特征，触发服务器自动执行预先设有的防御措施，包括流量清洗、黑洞路由和IP封锁；系统通过匹配提取到的流量特征与预先设有的DDoS攻击特征，系统能够快速识别工业计算机服务器是否遭受DDoS攻击，有助于及时采取应对措施，防止攻击造成严重的服务中断和数据泄露的问题，同时一旦识别到DDoS攻击，系统会自动将流量特征输入预先训练好的神经模型中，以检测攻击流量的特征，根据神经模型检测到的流量特征，系统会自动触发预先设有的防御措施，包括流量清洗、黑洞路由和IP封锁，这种自动化的防御方式可以在攻击发生时快速响应，减少人工的手动干预，提高系统的反应速度和防御效率，并且通过自动执行预先设有的防御措施，系统能够有效降低DDoS攻击对服务器和网络的影响，因为流量清洗可以过滤掉恶意流量，保护正常流量不受影响，而黑洞路由可以将攻击流量引流至虚拟黑洞，避免对真实服务器造成过大压力，且IP封锁可以暂时阻止攻击源的访问，进一步减轻攻击带来的影响。

在本实施例中，则将所述流量特征输入至预训练的神经模型的步骤S33前，还包括：

S331：从所述流量特征中分类出流量类别，分别为所述流量类别进行数据标记，将所述流量特征划分为预设比例的数据集，其中，所述流量类别具体包括正常流量和DDos攻击流量，所述数据集具体包括训练集、验证集和测试集；

S332：判断所述流量特征能否对所述神经模型进行搭建；

S333：若能，则应用预设的反向传播算法通过所述神经模型的前向传播过程，计算所述神经模型的输出，将输出结果与预设的真实标签进行比较，生成所述神经模型的损失函数，并将所述损失函数对神经模型参数的梯度反向传播回所述神经模型中，获取各个所述神经模型参数对所述损失函数的梯度，使用预设的梯度下降算法根据所述损失函数的梯度更新迭代所述神经模型参数，直至所述神经模型的损失函数收敛，得到训练完毕的神经模型。

在本实施例中，系统从提取到的流量特征中分类出流量类别，分别为流量类别进行数据标记，进而将这些流量特征划分为预先设定好比例的数据集，而后系统判定这些流量特征能否对神经模型进行搭建，以执行对应的步骤；例如，当系统判定到这些流量特征无法对神经模型进行搭建时，则系统会认为流量特征可能不足以区分DDoS攻击和正常流量，或者特征之间的区别不够明显，导致无法构建有效的神经模型，系统会建议增加数据样本的数量和质量，可以提高模型的训练效果，通过收集更多的流量数据，并进行数据清洗和预处理，以提高数据的质量和可用性，同时重新审视流量特征的选择和提取方法，通过增加特征维度、改进特征提取算法等方式来提高特征的质量和效果；例如，当系统判定到这些流量特征能够对神经模型进行搭建时，此时系统会认为流量特征足以区分DDoS攻击和正常流量，能够用于训练和构建空白的神经模型，系统会应用预先设有的反向传播算法通过空白神经模型的前向传播过程，计算空白神经模型的输出，将输出结果与预先设有的真实标签进行比较，以生成空白神经模型的损失函数，将损失函数对神经模型参数的梯度反向传播回空白神经模型中，以获取到各个神经模型参数对损失函数的梯度，最后使用预先设有的梯度下降算法根据损失函数的梯度更新迭代神经模型参数，直至空白神经模型的损失函数发生收敛，即可得到训练完毕的神经模型；系统通过使用反向传播算法，系统可以根据预先设定的真实标签和模型输出结果，计算损失函数，并根据损失函数的梯度更新神经模型的参数，有助于模型不断优化和调整，提高模型的精度和准确性，同时神经模型能够根据训练数据自适应地调整模型参数，从而适应不同的DDoS攻击特征和正常流量特征，使得模型具有较强的适应性和泛化能力，能够有效应对不同类型和变化多端的攻击，并且通过训练完毕的神经模型，系统可以更准确地识别和分类流量特征，从而提高系统对DDoS攻击的检测和防御能力。

需要说明的是，对神经模型的训练过程具体示例如下：

假设有一个数据集，包含了各种网络流量数据，其中包括正常流量和DDoS攻击流量，而系统目标是训练一个神经网络模型，能够自动识别DDoS攻击；首先需要选择一个简单的多层感知机（Multilayer Perceptron, MLP）作为系统的神经网络模型，定义一个包含输入层、隐藏层和输出层的神经网络结构，输入层的神经元数量与流量特征的维度相同，输出层包含一个神经元，表示二分类（正常流量和DDoS攻击），系统选择交叉熵作为损失函数；然后，系统通过反向传播算法对模型进行训练，将数据集划分为训练集和验证集，使用训练集训练模型，使用验证集评估模型的性能，在训练过程中，系统通过不断调整模型的参数和超参数，使得损失函数尽可能减小；最后，系统评估训练好的模型在测试集上的性能，以确定模型的泛化能力，如果模型性能满足要求，即可将其应用于工业计算机服务器实际的DDoS攻击检测和防御中。

在本实施例中，同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量的步骤S3后，还包括：

S301：从所述错误日志数量中解析出对应的错误日志类型，检测错误日志的生成频率，其中，所述错误日志类型具体包括错误代码、错误信息和错误堆栈；

S302：判断所述生成频率是否大于预设频率；

S303：若是，则采集所述错误日志的生成节点，从所述生成节点中筛选出所述错误日志类型的相同错误日志，识别所述相同错误日志的生成来源内容，基于所述生成来源内容将所述错误日志上传至云端服务器，其中，所述生成来源内容具体包括系统错误、数据库错误和网络错误。

在本实施例中，系统从收集到的错误日志数量中解析出对应的错误日志类型，检测错误日志的生成频率，而后系统判断该生成频率是否大于预先设有的频率，以执行对应的步骤；例如，当系统判定到错误日志的生成频率并未大于预先设有的频率时，则系统会认为工业计算机服务器的过载情况并不严重，或者错误日志并未达到异常的程度，系统会持续监控服务器的运行情况，观察是否存在其他异常情况，通过关注其他指标如 CPU 使用率、内存使用率、网络流量等，以综合判断服务器的运行状态，同时对已经生成的错误日志进行分析，检查是否存在与系统配置、应用程序或网络通信相关的异常情况，并且根据日志分析结果，对系统进行优化和调整，包括优化系统配置、更新应用程序版本和调整网络设置的措施，以改善服务器的性能和稳定性，减少错误日志的生成频率；例如，当系统判定到错误日志的生成频率大于预先设有的频率时，此时系统会认为工业计算机服务器的过载情况严重，系统会采集这些错误日志的生成节点，从生成节点中筛选出错误日志类型的相同错误日志，识别出相同错误日志的生成来源内容，生成来源内容具体包括系统错误、数据库错误和网络错误，基于不同的生成来源内容将这些错误日志上传至云端服务器中；系统通过采集并筛选错误日志，系统能够快速识别出错误日志生成的节点和类型，有助于定位工业计算机服务器过载的具体源头，例如系统错误、数据库错误或网络错误，从而有针对性地采取相应的解决措施，同时采集错误日志的生成节点，并筛选出错误日志类型的相同错误日志，能够精准地定位问题发生的节点和内容，有助于管理员快速定位服务器的故障点，准确识别问题的根源，并且通过识别错误日志的生成来源内容，具体包括系统错误、数据库错误和网络错误，系统能够有效归类和分析错误类型，有助于管理员更好地理解服务器的问题类型和严重程度，有针对性地制定相应的应对措施和解决方案，最后将错误日志上传至云端服务器中，可以实现集中管理和分析，因为云端服务器具有更大的存储和计算能力，能够承载大量的错误日志数据，并提供强大的分析工具和算法，从而帮助人工更好地理解和分析错误日志的特征和趋势。

在本实施例中，同时基于预设的过载机制限定所述服务器的并发连接数的步骤S5中，包括：

S51：基于所述服务器的负载状态，识别所述服务器预设的资源利用率，其中，所述负载状态具体包括轻负载、中负载和高负载；

S52：判断所述资源利用率是否低于预设效率；

S53：若是，则根据所述资源利用率更正所述服务器的实时负载状态，依据所述实时负载状态实施对所述服务器的并发连接数限制措施，其中，所述限制措施具体包括当服务器处于轻负载时逐步增加并发连接数限制、当服务器处于中负载时保持当前的并发连接数限制和当服务器处于高负载时逐步减少并发连接数限制。

在本实施例中，系统基于工业计算机服务器的负载状态，识别工业计算机服务器预先设有的资源利用率，而后系统判断该资源利用率是否低于预先设有的效率，以执行对应的步骤；例如，当系统判定到工业计算机服务器预先设有的资源利用率并未低于预先设有的效率时，则系统会认为工业计算机服务器的负载较重，系统会建议人工根据性能分析的结果，对资源配置进行优化，通过增加硬件资源（如更换更高性能的 CPU、增加内存容量、使用高速磁盘等）或者优化软件配置（如调整应用程序参数、优化数据库索引、优化网络设置等），来提升服务器的性能和资源利用率，同时对于频繁访问的资源或数据，使用缓存技术进行优化，通过将数据缓存在内存或者其他高速存储介质中，可以减少对数据库或者其他资源的访问频率，从而提高系统的响应速度和资源利用率；例如，当系统判定到工业计算机服务器预先设有的资源利用率低于预先设有的效率时，此时系统会认为工业计算机服务器的负载变化较大，系统会根据资源利用率更正工业计算机服务器的实时负载状态，依据实时负载状态实施对工业计算机服务器的并发连接数限制措施；系统通过根据实时资源利用率更正工业计算机服务器的负载状态，系统能够及时反映服务器的负载情况，有助于系统更准确地感知和响应服务器的负载变化，确保负载状态的准确性和实时性，同时动态调整并发连接数限制能够使系统更加灵活地适应不同负载情况，能够根据负载状态自动调整资源分配，确保服务器在不同负载下都能够保持良好的性能和稳定性，提高系统的鲁棒性和可靠性，并且通过合理设置并发连接数限制，系统可以更有效地利用服务器资源，提高资源利用率，在轻负载时增加并发连接数限制，可以充分利用闲置资源，而在高负载时减少并发连接数限制，可以有效降低服务器的负载压力，避免资源浪费和性能下降。

在本实施例中，对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息的步骤S5后，还包括：

S501：检测所述服务器对应用程序和配置文件的当前控制版本，记录所述优化迭代后的版本内容；

S502：判断所述版本内容能否替代所述当前控制版本；

S503：若能，则获取所述服务器对所述版本内容的备份数据，基于所述备份数据构建对所述服务器的备份事件内容，根据所述备份事件内容划分所述服务器的回溯节点，其中，所述备份事件内容具体包括备份频率、备份数量和备份时间。

在本实施例中，系统通过检测工业计算机服务器对应用程序和配置文件的当前控制版本，记录优化迭代后的版本内容，而后系统判断该版本内容能否替代工业计算机服务器的当前控制版本，以执行对应的步骤；例如，当系统判定到优化迭代后的版本内容无法替代工业计算机服务器的当前控制版本时，则系统会认为优化迭代后的版本存在一些问题或者不足以满足工业计算机服务器当前的需求，系统会建议人工对当前控制版本和优化迭代后的版本进行详细的比较和分析，了解它们之间的差异和特点，检查优化迭代后的版本是否满足了之前设定的优化目标，同时在调整和修复的过程中，需要确保对服务器的状态进行备份和回滚，保留当前控制版本的备份，以防修复过程中出现问题或无法解决的情况，可以随时回滚到原始状态，保证系统的稳定性和可靠性，并且调整和修复后，重新评估优化迭代版本的性能和稳定性。进行系统性能测试和稳定性评估，验证修复后的版本是否能够满足服务器的要求和预期，以确保修复过的版本能够顺利替代当前控制版本，并带来更好的性能和稳定性；例如，当系统判定到优化迭代后的版本内容能够替代工业计算机服务器的当前控制版本时，此时系统会认为优化迭代后的版本可以平替当前控制版本，系统会获取工业计算机服务器对版本内容的备份数据，基于这些备份数据构建对服务器的备份事件内容，根据各个备份事件内容划分工业计算机服务器的回溯节点；系统通过获取工业计算机服务器对版本内容的备份数据，并根据备份数据构建备份事件内容，可以确保服务器的数据得到有效的保护和恢复，因为备份数据包含了服务器的重要信息和数据，能够在服务器发生故障或数据丢失时提供有效的恢复手段，保障系统的数据安全和完整性，同时通过划分工业计算机服务器的回溯节点，并设定备份事件内容，能够实现容灾备份策略，在发生重大故障或灾难时，可以根据备份事件内容选择合适的回溯节点进行数据恢复，最大程度地减少数据损失和业务中断，保障系统的连续性和可用性，并且备份事件内容包括备份频率、备份数量和备份时间的信息，有助于对服务器版本进行有效管理和跟踪，人工可以根据备份频率和备份数量选择合适的备份策略，定期对服务器进行备份，保留多个备份版本，以应对不同的恢复需求和场景。

在本实施例中，基于服务器预设的指标类型，获取所述服务器的各项实时指标的步骤S1中，还包括：

S11：检测预设的外部环境要素对所述服务器产生的影响参数，其中，所述外部环境要素具体包括网络延迟、带宽限制和环境温湿度；

S12：判断所述影响参数是否超出预设参数上限；

S13：若是，则对所述各项实时指标基于所述影响参数进行协方差分析，得到所述各项实时指标与所述影响参数之间的线性关系和非线性关系，应用预设的相关系数算法量化所述线性关系和所述非线性关系之间的关联程度，生成相关系数的取值，依据所述取值采集所述各项实时指标与所述影响参数的关联关系，其中，所述关联关系具体包括正相关、负相关和无关联。

在本实施例中，系统通过检测预先设定的外部环境要素对工业计算机服务器产生的影响参数，而后系统判断这些影响参数是否超出预先设有的参数上限，以执行对应的步骤；例如，当系统判定到外部环境要素对工业计算机服务器产生的影响参数并未超出预先设有的参数上限时，则系统会认为当前外部环境的影响尚未对服务器造成严重影响或超出系统的容忍范围，系统会持续监控和观察外部环境的变化，外部环境的影响因素可能随时发生变化，因此及时的监控能够帮助系统快速响应和适应环境变化，同时针对当前外部环境的影响参数，优化工业计算机服务器的配置，以适应外部环境的变化，因为通过调整服务器的资源分配、优化网络设置的措施，可以提高服务器的性能和稳定性，从而更好地应对外部环境的影响，并且在外部环境影响参数未超出上限时，建议人工加强备份和灾备计划的制定和执行，及时备份服务器数据，并建立灾备方案，以备不时之需，这样可以在外部环境发生突发变化时，保障服务器数据的安全和系统的连续性；例如，当系统判定到外部环境要素对工业计算机服务器产生的影响参数超出了预先设有的参数上限时，此时系统会认为当前外部环境对服务器造成严重影响，系统会对工业计算机服务器的各项实时指标数据基于影响参数进行协方差分析，以得到各项实时指标数据与影响参数之间的线性关系和非线性关系，应用预先设有的相关系数算法量化线性关系和非线性关系之间的关联程度，生成相关系数的取值，依据该取值采集各项实时指标与影响参数的关联关系，关联关系包括正相关、负相关和无关联；系统通过对工业计算机服务器的各项实时指标数据基于影响参数进行协方差分析，可以帮助系统发现外部环境要素对服务器性能的影响因素，因为通过量化各项指标与影响参数之间的线性关系和非线性关系，可以准确地评估外部环境对服务器的影响程度，找出最主要的影响因素，同时应用预先设定的相关系数算法量化线性关系和非线性关系之间的关联程度，能够清晰地评估各项实时指标数据与影响参数之间的关系强度，再通过相关系数的取值，可以直观地了解各项指标与影响参数之间的关联程度，有助于系统更准确地判断外部环境对服务器的影响，并且生成各项实时指标与影响参数的关联关系，包括正相关、负相关和无关联，有助于系统更全面地理解外部环境要素与服务器性能之间的关系，找出影响服务器性能的关键因素，基于这些关联关系，可以采取针对性的措施来调整服务器的配置或应对外部环境的影响，提高服务器的稳定性和性能。

参考附图2，为本发明一实施例中工业计算机服务器的管理系统，包括：

获取模块10，用于基于服务器预设的指标类型，获取所述服务器的各项实时指标，其中，所述指标类型具体包括CPU 使用率、内存使用率和磁盘I/O；

判断模块20，用于判断所述实时指标是否超出预设的工作指标；

执行模块30，用于若是，则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求，采集所述服务器当前的进程数量，依据所述进程数量捕捉资源消耗最大的单个进程内容，同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量；

第二判断模块40，用于判断所述错误日志数量是否高于预设数目；

第二执行模块50，用于若高于，则使用预设的后备服务器群分发所述服务器的请求内容，将所述请求内容的静态资源缓存至预设的CDN节点上，同时基于预设的过载机制限定所述服务器的并发连接数，对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息，其中，所述优化内容具体包括HTTP压缩、网络拓扑和资源清理。

在本实施例中，获取模块10基于工业计算机服务器预先设定好的可用指标类型，获取当前工业计算机服务器的各项实时指标数据，包括CPU 使用率、内存使用率和磁盘I/O，而后判断模块20判断这些实时指标数据是否超出预先设有的工作指标，以执行对应的步骤；例如，当系统判定到工业计算机服务器的实时指标数据并未超出预先设有的工作指标时，则系统会认为工业计算机服务器当前不存在负载，系统会记录实时指标数据，并进行分析和存档，有助于建立历史数据库，为后续的性能评估和趋势分析提供参考，同时在负载较轻的时候，安排定期的系统维护和更新工作，包括系统补丁的安装、软件更新和数据库优化，以保持系统的稳定性和安全性，并且定期进行备份测试，通过更新备份策略和恢复计划，以适应系统环境和业务需求的变化；例如，当系统判定到工业计算机服务器的实时指标数据超出了预先设有的工作指标时，此时执行模块30会认为工业计算机服务器可能遭遇了DDoS攻击或是常规过载，系统会识别实时指标数据超出预先设有的工作指标的持续时长，根据持续时长检测工业计算机服务器所接收到的网络请求，采集工业计算机服务器当前的执行进程数量，依据进程数量捕捉当前资源消耗最大的单个进程内容，同时获取进程内容对应生成的服务器日志信息，从这些服务器日志信息中收集错误日志数量，系统通过识别实时指标数据超出预先设定的工作指标的持续时长，系统能够快速发现服务器发生过载的情况，有助于及时采取应对措施，减轻服务器负载，防止系统性能下降或服务中断，同时通过检测服务器接收到的网络请求以及采集的执行进程数量，系统能够区分DDoS攻击与常规过载，因为如果发现网络请求异常或执行进程数量异常增加，可能存在DDoS攻击的可能性，可以进一步采取防御措施，并且识别当前资源消耗最大的单个进程，有助于确定造成服务器过载的主要原因，如果通过定位问题进程确定过载原因并非来自DDoS攻击，可以更快速地采取针对性的解决方案，提高故障排除的效率，从服务器日志信息中收集错误日志数量，有助于进一步分析服务器发生过载的具体原因，通过分析错误日志，可以识别出可能存在的系统故障、异常操作或安全漏洞，为后续的修复和优化提供参考；而后第二判断模块40判断收集到的错误日志数量是否高于预先设有的数目，以执行对应的步骤；例如，当系统判定到收集到的错误日志数量并未高于预先设有的数目时，则系统会认为工业计算机服务器的过载情况持续时间不长，系统仍需要持续监控服务器的性能指标和日志信息，通过持续观察，可以及时发现过载情况的变化和趋势，以便及时调整和优化，同时记录当前的性能指标数据和日志信息，进行分析和存档，有助于建立历史数据记录，为后续的性能评估和问题排查提供参考，并且利用过载情况不严重或持续时间较短的时机，可以安排定期的系统维护和更新工作，包括系统补丁的安装、软件更新和数据库优化，以保持系统的稳定性和安全性；例如，当系统判定到收集到的错误日志数量高于预先设有的数目时，此时第二执行模块50会认为工业计算机服务器的过载情况持续时间太长，系统会使用预先设有的后备服务器群分发工业计算机服务器的请求内容，将这些请求内容的静态资源缓存至预先设有的CDN节点上，同时基于预先设有的过载机制限定工业计算机服务器的并发连接数，对工业计算机服务器预先收录有的应用程序在预先设好的时段内进行优化迭代，根据优化内容生成工业计算机服务器在过载后的维护日志信息；系统通过使用后备服务器群和CDN节点，以及限制并发连接数等方式，能够有效分担服务器负载，减轻服务器压力，从而快速恢复正常的服务状态，同时通过将请求内容的静态资源缓存至CDN节点上，能够加速用户对静态资源的访问速度，提高用户体验和服务响应速度，通过限制并发连接数和优化应用程序，能够降低服务器的负载压力，保障服务器的稳定性和可用性，并且在过载情况发生时，自动使用预先设定的后备服务器群和CDN节点，以及过载机制限定和应用程序优化迭代的方式进行维护和优化，这种自动化的方式能够减少人工干预，在不需要人工干预的情况下提高系统对常规过载的自适应处理效率，最后根据优化内容生成的维护日志信息，人工干预可以对系统进行进一步分析和评估，为后续的改进和优化提供参考和指导。

在本实施例中，执行模块还包括：

在本实施例中，还包括：

检测模块，用于从所述错误日志数量中解析出对应的错误日志类型，检测错误日志的生成频率，其中，所述错误日志类型具体包括错误代码、错误信息和错误堆栈；

第三判断模块，用于判断所述生成频率是否大于预设频率；

第三执行模块，用于若是，则采集所述错误日志的生成节点，从所述生成节点中筛选出所述错误日志类型的相同错误日志，识别所述相同错误日志的生成来源内容，基于所述生成来源内容将所述错误日志上传至云端服务器，其中，所述生成来源内容具体包括系统错误、数据库错误和网络错误。

在本实施例中，第二执行模块还包括：

识别单元，用于基于所述服务器的负载状态，识别所述服务器预设的资源利用率，其中，所述负载状态具体包括轻负载、中负载和高负载；

第三判断单元，用于判断所述资源利用率是否低于预设效率；

第三执行单元，用于若是，则根据所述资源利用率更正所述服务器的实时负载状态，依据所述实时负载状态实施对所述服务器的并发连接数限制措施，其中，所述限制措施具体包括当服务器处于轻负载时逐步增加并发连接数限制、当服务器处于中负载时保持当前的并发连接数限制和当服务器处于高负载时逐步减少并发连接数限制。

在本实施例中，还包括：

第二检测模块，用于检测所述服务器对应用程序和配置文件的当前控制版本，记录所述优化迭代后的版本内容；

第四判断模块，用于判断所述版本内容能否替代所述当前控制版本；

第四执行模块，用于若能，则获取所述服务器对所述版本内容的备份数据，基于所述备份数据构建对所述服务器的备份事件内容，根据所述备份事件内容划分所述服务器的回溯节点，其中，所述备份事件内容具体包括备份频率、备份数量和备份时间。

在本实施例中，获取模块还包括：

检测单元，用于检测预设的外部环境要素对所述服务器产生的影响参数，其中，所述外部环境要素具体包括网络延迟、带宽限制和环境温湿度；

第四判断单元，用于判断所述影响参数是否超出预设参数上限；

第四执行单元，用于若是，则对所述各项实时指标基于所述影响参数进行协方差分析，得到所述各项实时指标与所述影响参数之间的线性关系和非线性关系，应用预设的相关系数算法量化所述线性关系和所述非线性关系之间的关联程度，生成相关系数的取值，依据所述取值采集所述各项实时指标与所述影响参数的关联关系，其中，所述关联关系具体包括正相关、负相关和无关联。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种工业计算机服务器的管理方法，其特征在于，包括以下步骤：

判断所述实时指标是否超出预设的工作指标；

判断所述错误日志数量是否高于预设数目；

2.根据权利要求1所述的工业计算机服务器的管理方法，其特征在于，所述则识别所述实时指标的持续超出时长，根据所述持续超出时长检测所述服务器接收的网络请求的步骤中，还包括：

3.根据权利要求2所述的工业计算机服务器的管理方法，其特征在于，所述则将所述流量特征输入至预训练的神经模型的步骤前，还包括：

判断所述流量特征能否对所述神经模型进行搭建；

4.根据权利要求1所述的工业计算机服务器的管理方法，其特征在于，所述同时获取所述进程内容对应生成的服务器日志信息，从所述服务器日志信息中收集错误日志数量的步骤后，还包括：

判断所述生成频率是否大于预设频率；

5.根据权利要求1所述的工业计算机服务器的管理方法，其特征在于，所述同时基于预设的过载机制限定所述服务器的并发连接数的步骤中，包括：

判断所述资源利用率是否低于预设效率；

6.根据权利要求1所述的工业计算机服务器的管理方法，其特征在于，所述对所述服务器预收录的应用程序在预设时段内进行优化迭代，根据优化内容生成所述服务器在过载后的维护日志信息的步骤后，还包括：

判断所述版本内容能否替代所述当前控制版本；

7.根据权利要求1所述的工业计算机服务器的管理方法，其特征在于，所述基于服务器预设的指标类型，获取所述服务器的各项实时指标的步骤中，还包括：

判断所述影响参数是否超出预设参数上限；

8.一种工业计算机服务器的管理系统，其特征在于，包括：

9.根据权利要求8所述的工业计算机服务器的管理系统，其特征在于，所述执行模块还包括：

10.根据权利要求9所述的工业计算机服务器的管理系统，其特征在于，还包括：