CN116521489B - 一种计算机用服务器故障预警方法 - Google Patents

一种计算机用服务器故障预警方法 Download PDF

Info

Publication number
CN116521489B
CN116521489B CN202310807617.3A CN202310807617A CN116521489B CN 116521489 B CN116521489 B CN 116521489B CN 202310807617 A CN202310807617 A CN 202310807617A CN 116521489 B CN116521489 B CN 116521489B
Authority
CN
China
Prior art keywords
server
value
time
early warning
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310807617.3A
Other languages
English (en)
Other versions
CN116521489A (zh
Inventor
唐斌
冯葆
党德华
姚玲
赵美玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tong Tai Yi Information Technology Co ltd
Original Assignee
Shenzhen Tong Tai Yi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tong Tai Yi Information Technology Co ltd filed Critical Shenzhen Tong Tai Yi Information Technology Co ltd
Priority to CN202310807617.3A priority Critical patent/CN116521489B/zh
Publication of CN116521489A publication Critical patent/CN116521489A/zh
Application granted granted Critical
Publication of CN116521489B publication Critical patent/CN116521489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及安全预警技术领域,具体为一种计算机用服务器故障预警方法;通过对服务器数据信息中的数据进行异常值的删除和保留,并对空缺位和删除位进行数据填充,去除异常数据干扰,以保证数据的可靠性和准确性,提高预测模型的准确性;通过对服务器内存数据信息和服务器CPU数据信息分别进行多模型综合分析进行服务器存储容量、CPU运行和服务器运行状态进行准确故障预警,利用多数据模型综合分析判断,提高服务器运行预警的准确率,实现服务器故障预警的优化;依据接收到的服务器故障预警类型进行优化预警通知,便于在服务器故障预警时能够第一时间进行服务器故障预警通知并选取合适的人员进行管理,实现服务预警通知的优化。

Description

一种计算机用服务器故障预警方法
技术领域
本发明涉及安全预警技术领域,具体为一种计算机用服务器故障预警方法。
背景技术
计算机用服务器故障预警方法从数据采集到故障预测、预警通知到故障诊断分析,通过对服务器性能指标数据进行实时监控和预测分析。
存在以下方面的缺陷:
1、故障预测准确率有限:当前服务器故障预警方法主要使用数据挖掘和机器学习算法进行故障预测,使用的数据质量不高,预警准确率不够高,容易误报或漏报;
2、预警通知不够完善:当前服务器故障预警方法通常是通过邮件、短信等方式向管理员发出故障预警,但在某些情况下,这种方式无法及时对预警通知进行有效处理,不够实时,尤其是在管理员不在办公室的时候。
发明内容
本发明的目的在于提供一种计算机用服务器故障预警方法。
本发明的目的可以通过以下技术方案实现:一种计算机用服务器故障预警方法,包括以下步骤:
S1:采集服务器数据信息,并将其保存至数据库;其中服务器数据信息包括服务器内存数据信息和服务器CPU数据信息;
S2:将服务器数据进行处理之后发送至数据库保存;
S3:对服务器内存数据信息进行分析以得到服务器存储指数或触发存储容量故障预警,具体为:
S31:提取服务器内存数据信息,按照时间先后顺序生成内存使用报表;依据内存使用报表识别出操作点,统计操作点的数量,并计算操作点对应的释放内存的释放值;
S32:取相邻释放值对应的相邻时刻进行差值计算得到相隔时长,同时将相隔时长和释放变化值/>通过设定的公式/>计算得到相邻操作变化值,其中b1和b2分别为设定的比例系数;
S33:将相邻操作变化值与设定的变化区间进行比较分析,当相邻操作变化值大于设定的变化区间中的最大值时,则将该两个相邻操作点对应时刻内的时间段记为强操作时间段;当相邻操作变化值处于设定的变化区间之内时,则将该两个相邻操作点对应时刻内的时间段记为中操作时间段;当相邻操作变化值小于设定的变化区间中的最小值时,则将该两个相邻操作点对应时刻内的时间段记为弱操作时间段;
S34:分别统计强操作时间段的数量tm2、中操作时间段的数量tm3和弱操作时间段的数量tm4,将其与操作点的总数n1通过设定的公式计算得到服务器存储指数TMZ,其中c1、c2、c3和c4分别为设定的比利系数;将服务器存储指数与设定的存储阈值进行比较分析,当服务器存储指数大于设定的存储阈值时,则直接触发存储容量故障预警;否则直接输出服务器存储指数;
S4:对服务器CPU数据信息运行进行CPU运行分析以得到服务器CPU运行指数或触发CPU运行故障预警。
S5:将服务器存储指数TMZ、服务器CPU运行指数CYZ通过设定的公式P=g1×TMZ+g2×CYZ计算得到服务器运行状态指数P,其中g1和g2分别为设定比例系数;据此判断服务器运行状态以触发服务器自检修复操作或者触发服务器运行状态故障预警;当触发服务器自检修复操作时,服务器进行自检修复完成之后再次对服务器进行存储状态和CPU运行分析,直至触发存储容量故障预警或CPU运行故障预警或服务器运行状态故障预警其中一种为止;
S6:依据接收到的服务器故障预警类型进行优化预警通知。
优选地,数据处理的具体步骤为:
S21:提取数据以生成数据条形报表,识别出异常值和空缺位;提取异常值和异常值对应的时刻,将任意两个异常值对应的时刻进行差值计算得到间隔时长,将对应两个异常值进行差值计算得到异常差;间隔时长和设定的时长区间进行比较分析以生成对应的间隔关联系数;
S22:将异常差与设定的异常区间进行比较分析以生成对应的差值关联系数为;
S23:将任意两个异常值的间隔时长Rat1、异常差Rat2、间隔关联系数αk和差值关联系数βk通过设定的公式计算得到两个异常值之间的关联值RAT;将关联值与设定的关联阈值进行比较分析,生成有效关联值,有效关联值对应两个时刻的异常值记为有效关联;
S24:统计所有有效关联值对应的两个时刻,并将该两个时刻记为有效时刻;当任意两个有效关联值中对应的时刻有重叠时,则该两个有效关联值属于连续关联值;以此类推,将所有的关联值进行分析得到连续关联值,并提取连续关联值对应的有效时刻,按照时间先后顺序将对应的异常值排列得到连续异常值,其他时刻对应的异常值记为单点异常值;
S25:利用拉格朗日插值法将空缺位和删除位进行数据填充以得到完整数据,并将其发送至数据存储。
优选地,CPU运行分析的具体步骤为:
S41:设定每个CPU型号均对应一个类型值,将CPU型号与设定的所有类型进行比较匹配得到对应的类型值;
S42:将时钟频率除以使用率到效能值;
S43:设定温度区间;将温度与温度区间进行比较,生成高温、中温和低温,并分别统计高温、中温和低温的数量,并将其分别记为q1、q2和q3;当q1≥q2+q3时,则将CPU温度状态记为第一温度状态;当q1≥q2+q3时,则将CPU温度状态记为第三温度状态;其他情况则将CPU温度状态记为第二温度状态;设定第一温度状态、第二温度状态和第三温度状态分别对应一个温度系数;
S44:将所有的温度、低温进行求和计算得到总高温和总低温,总高温除以总低温得到温差比;再将温度系数Cw1和温差比率Cw2利用设定的公式Cm3=h1×Cw1+h2×Cw2计算得到温异值Cm3,其中h1和h2为设定的比例系数;
S45:将类型值Cm1、效能值Cm2和温异值Cm3通过设定的公式计算得到服务器CPU运行指数CYZ,其中d1、d2和d3分别为设定比例系数,μ为校正因子;
S46:将服务器CPU运行指数和设定的运行阈值进行比较分析,当服务器CPU运行指数大于设定的运行阈值时,则直接触发CPU运行故障预警;否则直接输出服务器CPU运行指数。
优选地,优化预警通知的具体步骤为:
步骤一:当接收到故障预警时,分别调取对应故障类型的空闲状态工作人员,并将其记为备选人员;
步骤二:提取备选员工距离服务器端的距离,将在预设距离范围内备选员工记为复选员工;提取复选员工与服务器端的距离记为管理距离;
步骤三:设定工作人员分别对一个效处值,将复选人员与所有工作人员进行匹配得到对应的效处值;
步骤四:提取复选人员的管理次数和每次管理的管理日期;获取服务器在该管理日期之后的下一次管理日期;将下一次管理日期与该管理日期作时间的差值计算得到管间时长;将复选员工所有维修次数的管间时长进行均值计算得到平均管间时长;
步骤五:提取复选人员年龄Yu,将其与管理距离Gu、效处值η和平均管间时长Cu通过设定的公式计算得到管理值GMZ,其中d1、d2和d3分别为设定的比例系数,λ为设定的误差因子;将管理值最大的复选人员记为目标管理员,并将故障信息和管理指令发送至目标管理员;目标管理员的管理次数增加一次,同时目标管理员的工作状态从空闲状态变更为工作状态。
优选地,对目标管理员进行效率分析以得到效处值的具体步骤为:
步骤一:提取发送管理指令时刻和接收到目标管理员回复确认管理时刻,并将其分别记为开始时刻和确认时刻,将两者通过计算得到平均确认时长;当预设时间内没有收到目标管理员回复确认管理时,则该目标管理员记一次确认延迟并统计确认延迟次数;
步骤二:获取目标管理员的实时位置,将目标管理员的位置与服务器端的位置一致的时刻记为准备结束时刻,并将其与确认时刻进行计算得到准备时长;
步骤三:调取目标管理员历史管理距离和对应的历史准备时长,将两者通过计算得到历史速度;
步骤四:调取管理距离,并将管理距离除以历史速度得到预计准备时长,再将其与准备时长进行计算得到平均准备时长;
步骤五:调取目标管理员的工作时长Hu4,并将其与平均确认时长Hu2、确认延迟次数Hu1和平均准备时长Hu3利用公式计算得到效处值η,其中f1、f2、f3和f4分别为设定的比例系数。
本发明的有益效果:
1、通过对数据信息形成的数据报表识别出异常值和空缺位,分析任意两个异常值之间的关联值得到连续异常值和单点异常值,并将单点异常值进行删除得到删除位;便于分析判定异常数据之间的关联,删除无关的异常值,保留相关异常值,去除异常数据干扰,以提高预测模型的准确性;采用拉格朗日插值法将空缺位和删除位进行数据填充得到完整数据信息,以保证数据的可靠性和准确性。
2、通过服务器内存报表识别出内存操作点和操作点对应的释放值,其数值化分析得到相邻操作变化值;将相邻操作变化值与设定的变化区间进行定性分析得到强操作时间段、中操作时间段和弱操作时间段,并分别统计三者数量;再将三者数量和操作点数量进行综合数值化分析得到服务器存储指数,据此触发存储容量故障预警或输出服务器存储指数;同时将服务器CPU数据信息进行分析得到服务器CPU运行指数,据此触发CPU运行故障预警或直接输出服务器CPU运行指数;最后将服务器存储指数、服务器CPU运行指数经过数值化分析得到服务器运行状态指数,据此触发服务器自检修复操作或者触发服务器运行状态故障预警;利用多数据模型综合分析判断,提高服务器运行预警的准确率,实现服务器故障预警的优化。
3、通过接收到故障类型,调取对应故障类型所属工作人员,并将工作状态为空闲状态的工作人员记为备选人员,将一定距离范围内的备选员工记为复选员工;再将复选员工的管理距离、管理服务器故障预警的次数、年龄和效处值进行数值化分析得到管理值,并将管理值最大的选人员记为目标管理员,并将故障信息和管理指令发送至目标管理员;便于在服务器故障预警时能够第一时间进行服务器故障预警通知并选取合适的人员进行管理,实现服务预警通知的优化。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的预警优化步骤图;
图2为本发明的原理示意图;
图3为本发明的数据处理步骤图;
图4为本发明的预警通知优化步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
请参阅图1-3所示,本发明为一种计算机用服务器故障预警方法,包括以下步骤:
A1:采集模块采集服务器数据信息,并将其保存至数据库;服务器数据信息包括服务器内存数据信息和服务器CPU数据信息;
A2:预警优化模块将服务器数据信息中数据进行处理,具体为:
A21:提取数据以生成数据条形报表,识别出异常值和空缺位,需要说明的是空缺位指的是时刻点没有对应数据值;提取异常值和异常值对应的时刻,将任意两个异常值对应的时刻进行差值计算得到间隔时长,将对应两个异常值进行差值计算得到异常差;间隔时长和设定的时长区间进行比较分析,当间隔时长大于设定的时长区间中的最大值时,说明两个异常值的间隔时间非常长,两个异常值之间的关联可能性非常小,则该两个异常值匹配到间隔关联系数α1;当间隔时长处于设定的时长区间之内时,说明两个异常值之间的间隔时间较长,两个异常值之间的关联可能性较小,则该两个异常值匹配得到的间隔关联系数α2;当异常值小于设定的时长区间中的最小值时,说明两个异常值之间的间隔时间很短,两个异常值之间的关联可能性较大,则该两个异常值匹配得到的间隔关联系数α3;其中间隔关联系数记为αk,k=1,2,3;且k3>k2>k1;
A22:将异常差与设定的异常区间进行比较分析,当异常差大于设定的异常区间中的最大值时,说明两个异常之间的差异非常,关联可能性非常小,则该两个异常值匹配到的差值关联系数为β1;当异常值处于设定的异常区间值之内时,说明两个异常值之间的差异较大,关联可能性比较小,则该两个异常值匹配到的差值关联系数为β2;当差值小于设定的时长区间中最小值时,说明两个异常值之间的差异较小,关联可能性较大,则该两个异常值之间匹配到的差值关联系数为β3;其中差值关联系数记为βk,k=1,2,3;且β3>β2>β1;
A23:将任意两个异常值的间隔时长Rat1、异常差Rat2、间隔关联系数αk和差值关联系数βk通过设定的公式计算得到两个异常值之间的关联值RAT;将关联值与设定的关联阈值进行比较分析,当关联值大于设定的关联阈值时,则将关联值记为有效关联值,对应的两个时刻的异常值记为有效关联;
A24:统计所有有效关联值对应的两个时刻,并将该两个时刻记为有效时刻;当任意两个有效关联值中对应的时刻有重叠时,则该两个有效关联值属于连续关联值;以此类推,将所有的关联值进行分析得到连续关联值,并提取连续关联值对应的有效时刻,按照时间先后顺序将对应的异常值排列得到连续异常值,其他时刻对应的异常值记为单点异常值;具体表现为:a、b、c、d时刻的异常值分别为Ra、Rb、Rc和Rd;任意计算两个异常值之间的关联值,则有RATab、RATac、RATad、RATbc、RATbd和RATcd六个关联度;当关联度RATbc和RATbd大于设定的关联阈值时,则关联度RATbc和RATbd记为有效关联值;有效关联值中出现是有效时刻分别为b、c和d,因此判定b、c和d三个时刻对应的异常值Rb、Rc和Rd为连续异常值,a时刻对应的异常值Ra为单点异常值;将单点异常直接进行删除得到删除位;便于分析判定异常数据之间的关联,删除无关的异常值,保留相关异常值,去除异常数据干扰,以提高预测模型的准确性;
A25:设定存在时刻i并将其记为xi和时刻i对应的数据值并将其记为yi,其中i=1,2,3……n2,n2取值为正整数,n2表示时刻总数;以此建立数据值和时间的二维直角坐标系得到数据值的坐标记为(xi,yi);现作一条函数f(x)使其图像经过这n2个点,将空缺位和删除位对应的时刻代入函数f(x)得到对应数据值,并将该数据值插入对应的空缺位和删除位;将空缺位和删除位依据拉格朗日插值法进行填充,以保证数据的可靠性和准确性;
A26:经过上述处理后得到清洗数据信息发送至数据库保存。
A3:预警优化模块对服务器内存数据信息进行分析的步骤为:
A31:提取服务器内存数据信息,按照时间先后顺序生成内存使用报表;依据内存使用报表识别出操作点,并将操作点记为r,其中r=1,2,3……n1,n1取值为正整数,n1表示的是操作点的总数;需要说明的是,操作点指的是服务器内存使用到达一定程度进行内存释放的操作;操作点的特点是,操作点前服务器可用内存随着时间而变小,在操作点之后由于释放内存,因此服务器可用内存变大;计算操作点对应的释放内存的释放值Gr
A32:依据操作点对应的时刻的时间先后顺序将对应的释放值进行排序,以时间为横坐标,释放值为纵坐标建立二维直角坐标系;将每个操作点对应的时刻的释放值在二维直角坐标系上描点,并依据时间先后顺序依次将各点用折线连接得到释放值随时间变化的折线关系图;
A33:取相邻释放值Gr、Gr+1对应的相邻时刻进行差值计算得到相隔时长,并将其记为,同时将相邻释放值Gr、Gr+1进行差值计算得到释放变化值,并将其记为/>;将相隔时长和释放变化值通过设定的公式/>计算得到相邻操作变化值,其中b1和b2分别为设定的比例系数;由公式可知,当间隔时长越小,释放变化值负数时,说明释放的内存越小,服务器内存可操作性越小,相邻操作变化值越小;
A34:将相邻操作变化值与设定的变化区间进行比较分析,当相邻操作变化值大于设定的变化区间中的最大值时,说明服务器在该相邻操作点对应时刻内的时间段服务器内存可操作性很大,则将该两个相邻操作点对应时刻内的时间段记为强操作时间段;当相邻操作变化值处于设定的变化区间之内时,说明服务器在该相邻操作点对应时刻内的时间段服务器内存可操作性较大,则将该两个相邻操作点对应时刻内的时间段记为中操作时间段;当相邻操作变化值小于设定的变化区间中的最小值时,说明服务器在该相邻操作点对应时刻内的时间段服务器内存可操作性较小,则将该两个相邻操作点对应时刻内的时间段记为弱操作时间段;
A35:分别统计强操作时间段、中操作时间段和弱操作时间段的数量、并将其分别记为tm2、tm3和tm4;将n1、tm2、tm3和tm4通过设定的公式计算得到服务器存储指数TMZ,其中c1、c2、c3和c4分别为设定的比利系数;将服务器存储指数与设定的存储阈值进行比较分析,当服务器存储指数大于设定的存储阈值进时,说明服务器存储不足,则直接触发存储容量故障预警;否则直接输出服务器存储指数;
A4:预警优化模块对服务器CPU数据信息运行进行分析预警的步骤为:
A41:提取服务器CPU数据信息,其中CPU数据信息包括CPU型号、使用率、温度、时钟频率和缓存使用率;设定每个CPU型号均对应一个类型值,将CPU型号与设定的所有类型进行比较匹配得到对应的类型值,并将其记为Cm1;
A42:设定温度区间R1、R2和R3,其中R1>R2>R3;将温度与设定温度区间进行比较,当温度处于温度区间R1之内时,则说明此时CPU的温度处于高温状态,CPU运行状态异常的可能性越大,则将该温度记为高温;当温度处于温度区间R2之内时,则将该温度记为中温;当温度处于温度区间R3之内时,则将该温度记为低温;分别统计高温、中温和低温的数量,并将其分别记为q1、q2和q3;当q1≥q2+q3时,说明服务器CPU温度整体温度处于较高温度状态;则将CPU温度状态记为第一温度状态;当q1≥q2+q3时,说明服务器CPU温度整体温度处于较低温度状态,则将CPU温度状态记为第三温度状态;其他情况则将CPU温度状态记为第二温度状态;设定第一温度状态、第二温度状态和第三温度状态分别对应一个温度系数Cw1;
A43:将所有记为高温的温度进行求和计算得到总高温,再将所有记为低温的温度进行求和计算得到总低温,总高温除以总低温得到温差比率Cw2,温差比率越大说明CPU温度的变化程度越大;利用设定的公式Cm3=h1×Cw1+h2×Cw2计算得到温异值Cm3,其中h1和h2为设定的比例系数;
A44:将时钟频率除以使用率到效能值Cm2,效能值越大,则表示CPU的运算处理能力越强;
A45:将类型值Cm1、效能值Cm2和温异值Cm3通过设定的公式计算得到服务器CPU运行指数CYZ,其中d1、d2和d3分别为设定比例系数,μ为校正因子;
A46:将服务器CPU运行指数和设定的运行阈值进行比较分析,当服务器CPU运行指数大于设定的运行阈值时,则直接触发CPU运行故障预警;否则直接输出服务器CPU运行指数;
A5:将服务器存储指数TMZ、服务器CPU运行指数CYZ通过设定的公式P=g1×TMZ+g2×CYZ计算得到服务器运行状态指数P,其中g1和g2分别为设定比例系数;将服务器运行状态指数与设定的状态区间进行比较分析,当服务器运行状态指数大于设定的状态区间中的最大值时,则说明服务器运行状态优良,无需进行任何操作;当服务器运行状态指数处于设定的状态区间之内时,说明服务器运行状态不佳,触发服务器自检修复操作;自检修复完成之后再次对服务器进行存储状态和CPU运行分析,直至触发存储容量故障预警或CPU运行故障预警或服务器运行状态故障预警其中一种为止;服务器运行状态指数小于设定的状态区间中的最小值时,则直接触达服务器运行状态故障预警;利用多数据模型综合分析判断,提高服务器运行预警的准确率,实现服务器故障预警的优化。
实施例2:
在实施例1的基础上,数据库还与注册登录模块、通知优化模块通讯连接;通知优化模块通过接收到服务器预警信号进行预警通知的优化,服务器预警信号包括存储容量故障预警、CPU运行故障预警和服务器运行状态故障预警;
注册登录模块用于工作人员进行注册登录并将注册成功的工作人员的个人信息上传至数据库保存;其中个人信息包括姓名、联系方式、年龄和工作时长;
请参阅图4所示,优化预警通知的具体步骤为:
步骤一:当接收到储容量故障预警、CPU运行故障预警和服务器运行状态故障时,分别调取对应的工作人员,并将该工作人员中处于空闲状态的工作人员记为备选人员;
步骤二:提取备选员工距离服务器端的距离,将在一定距离范围内备选员工记为复选员工;提取复选员工与服务器端的距离,并将其记为管理距离Gu;
步骤三:提取复选人员的管理次数和每次管理的管理日期;依据该管理日期调取数据库中服务器的管理日志得到服务器在该管理日期之后的下一次管理日期;将下一次管理日期与该管理日期作时间的差值计算得到管间时长;将复选员工所有维修次数的管间时长进行均值计算得到平均管间时长并将其记为Cu;
步骤四:提取复选人员的年龄,并将其记为Yu;利用公式计算得到管理值GMZ,其中d1、d2和d3分别为设定的比例系数,η为效处值,λ为设定的误差因子;将管理值最大的复选人员记为目标管理员,并将故障信息和管理指令发送至目标管理员,其中故障信息包括故障预警类型;将发送管理指令时刻记为开始时刻;
步骤五:目标管理员通过移动端接收到故障信息和管理指令并进行管理指令的确认回复;当接收到目标管理员回复确认管理时,则将该回复时刻记为确认时刻,并且目标管理员的管理次数增加一次,目标管理员的工作状态从空闲状态变更为工作状态;当一定时间内没有收到目标管理员回复确认管理时,则该目标管理员记一次确认延迟;将开始时刻和确认时刻进行差值计算得到单次确认时长;统计确认延迟次数并将其记为Hu1,再将目标管理员的所有单次确认时长进行均值计算得到平均确认时长并向其记为Hu2;
步骤六:向目标管理员的移动端发送位置指令以获取目标管理员的实时位置,当目标管理员的位置与服务器端的位置一致时,则将该时刻记为准备结束时刻,并将准备结束时刻与确认时刻进行差值计算得到准备时长;
步骤七:调取目标管理员历史管理距离和对应的历史准备时长,将历史管理距离进行均值计算得到平均管理距离,同时将对应的历史准备时长进行均值计算得到平均准备时长,将平均管理距离处于平均准备时长得到目标管理员的历史速度;
步骤八:调取管理距离,并将管理距离除以历史速度得到预计准备时长,再将预计准备时长与准备时长进行差值计算得到单次提前准备时长;调取目标管理员所有单次提前准备时长并将其进行均值计算得到平均准备时长,并将其记为Hu3;
步骤九:调取目标管理员的工作时长,并将其记为Hu4;利用公式计算得到效处值η,其中f1、f2、f3和f4分别为设定的比例系数;便于在服务器故障预警时能够第一时间进行服务器故障预警通知并选取合适的人员进行管理,实现服务预警通知的优化。
进一步地,本发明通过对数据信息形成的数据报表识别出异常值和空缺位,将相邻时刻的异常值进行差值计算得到异常差,同时将相邻时刻进行差值计算得到间隔时长;异常差和间隔时长分别与设定的时长区间和异常区间进行比较分析得到差值关联系数和间隔关联系数;将任意两个异常值的间隔时长、异常差、间隔关联系数和差值关联系数通过公式化计算分析得到两个异常值之间的关联值,关联值是用于衡量任意两个异常值之间的关联度的值,关联值越大,表示两个异常值之间的关系越大,同一原因造成异常的可能性越大;将大于设定的关联阈值的关联值记为有效关联值,并将有效关联值存在重叠时刻的有效关联值记为连续关联值,其中对应的有效时刻和异常值按照先后顺序排列得到连续异常值;其他时刻对应的异常值为单点异常值并进行删除得到删除位;便于分析判定异常数据之间的关联,删除无关的异常值,保留相关异常值,去除异常数据干扰,以提高预测模型的准确性;采用拉格朗日插值法将空缺位和删除位进行数据填充得到完整数据信息,以保证数据的可靠性和准确性;
进一步地,本发明通过服务器内存报表识别出内存操作点和操作点对应的释放值,将相邻操作点的释放值进行差值计算得到释放变化值,对应的相邻时刻进行差值计算得到相隔时长,释放变化值和相隔时长进行数值化分析得到相邻操作变化值;将相邻操作变化值与设定的变化区间进行定性分析得到强操作时间段、中操作时间段和弱操作时间段,并分别统计三者数量;再将三者数量和操作点数量进行综合数值化分析得到服务器存储指数,将其与设定的存储阈值进行比较分析,触发存储容量故障预警或输出服务器存储指数;同时将服务器的CPU类型值、使用率、温度、时钟频率和缓存使用率通过公式化分析得到服务器CPU运行指数,将服务器CPU运行指数和设定的运行阈值进行比较分析,触发CPU运行故障预警或直接输出服务器CPU运行指数;最后将服务器存储指数、服务器CPU运行指数经过数值化分析得到服务器运行状态指数,将其与设定的状态区间进行比较分析,触发服务器自检修复操作或者触发服务器运行状态故障预警;利用多数据模型综合分析判断,提高服务器运行预警的准确率,实现服务器故障预警的优化;
进一步地,本发明通过接收到故障类型,调取对应故障类型所属工作人员,并将工作状态为空闲状态的工作人员记为备选人员,将一定距离范围内的备选员工记为复选员工;再将复选员工的管理距离、管理服务器故障预警的次数、年龄和效处值进行数值化分析得到管理值,并将管理值最大的选人员记为目标管理员,并将故障信息和管理指令发送至目标管理员,目标管理员的管理次数增加一次;便于在服务器故障预警时能够第一时间进行服务器故障预警通知并选取合适的人员进行管理,实现服务预警通知的优化;提取目标管理员回复确认时刻、确认延迟次数、到达服务器端的准备结束时刻,将开始时刻与确认时刻、确认时刻与准备结束时刻进行差值计算得到单次确认时长和准备时长,再将目标管理员的所有单次确认时长进行均值计算得到平均确认时长;调取历史管理距离和历史准备时长,通过计算得到历史速度;将管理距离除以历史速度得到预计准备时长,将其与准备时长进行差值计算得到单次提前准备时长,并将所有单次提前准备时长进行均值计算得到平均准备时长;最后将工作时长、平均确认时长、确认延迟次数和平均准备时长通过数值化分析得到效处值,便于监管工作人员管理效率。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (4)

1.一种计算机用服务器故障预警方法,其特征在于,包括以下步骤:
S1:采集服务器数据信息;
S2:将数据进行处理之后发送至数据库保存;
S3:对服务器内存数据信息进行分析以得到服务器存储指数或触发存储容量故障预警,具体为:
S31:提取服务器内存数据信息,按照时间先后顺序生成内存使用报表;依据内存使用报表识别出操作点,统计操作点的总数,并计算操作点对应的释放内存的释放值;
S32:取相邻释放值对应的相邻时刻进行差值计算得到相隔时长,同时将相邻释放值进行差值计算得到释放变化值;将相隔时长、释放变化值进行归一化处理并取其数值,对数值进行分析得到相邻操作变化值;
S33:将相邻操作变化值与设定的区间进行比较分析,当相邻操作变化值大于设定的区间中的最大值时,则将两个相邻操作点对应时刻内的时间段记为强操作时间段;当相邻操作变化值处于设定的区间之内时,则将两个相邻操作点对应时刻内的时间段记为中操作时间段;当相邻操作变化值小于设定的区间中的最小值时,则将两个相邻操作点对应时刻内的时间段记为弱操作时间段;
S34:分别统计强操作时间段、中操作时间段和弱操作时间段的数量,将其与操作点的数量通过数值化分析得到服务器存储指数;将服务器存储指数与设定的阈值进行比较分析,当服务器存储指数大于设定的阈值时,则直接触发存储容量故障预警;否则直接输出服务器存储指数;
S4:对服务器CPU数据信息进行CPU运行分析以得到服务器CPU运行指数或触发CPU运行故障预警;
S5:将服务器存储指数和服务器CPU运行指数进行归一化处理并取其数值,对数值进行分析得到服务器运行状态指数,据此判断服务器运行状态以触发服务器自检修复操作或者触发服务器运行状态故障预警;当触发服务器自检修复操作时,服务器进行自检修复完成之后再次对服务器进行存储状态和CPU运行分析,直至触发存储容量故障预警或CPU运行故障预警或服务器运行状态故障预警其中一种为止;
S6:依据接收到的服务器故障预警类型进行优化预警通知,具体为:
B41:当接收到故障预警时,分别调取对应故障类型的空闲状态工作人员,并将其记为备选人员;
B42:提取备选员工距离服务器端的距离,将在预设距离范围内备选员工记为复选员工;提取复选员工与服务器端的距离记为管理距离;
B43:设定工作人员分别对应一个效处值,将复选人员与所有工作人员进行匹配得到对应的效处值;
B44:提取复选人员的管理次数和每次管理的管理日期;获取服务器在该管理日期之后的下一次管理日期;将下一次管理日期与该管理日期作时间的差值计算得到管间时长;将复选员工所有维修次数的管间时长进行均值计算得到平均管间时长;
B45:提取复选人员年龄,将其与管理距离、效处值和平均管间时长进行数值化分析得到管理值,将管理值最大的复选人员记为目标管理员,并将故障信息和管理指令发送至目标管理员;目标管理员的管理次数增加一次,同时目标管理员的工作状态从空闲状态变更为工作状态。
2.根据权利要求1所述的一种计算机用服务器故障预警方法,其特征在于,数据处理的具体步骤为:
S21:提取数据以生成数据条形报表,识别出异常值和空缺位;提取异常值和异常值对应的时刻,将任意两个异常值对应的时刻进行差值计算得到间隔时长,将对应两个异常值进行差值计算得到异常差;间隔时长和设定的区间进行比较分析以生成对应的间隔关联系数;
S22:将异常差与设定的区间进行比较分析以生成对应的差值关联系数为;
S23:将任意两个异常值的间隔时长、异常差、间隔关联系数和差值关联系数进行归一化处理并取其数值,对数值分析得到两个异常值之间的关联值;将关联值与设定的关联阈值进行比较分析,生成有效关联值,有效关联值对应两个时刻的异常值记为有效关联;
S24:统计所有有效关联值对应的两个时刻,并将该两个时刻记为有效时刻;当任意两个有效关联值中对应的时刻有重叠时,则该两个有效关联值属于连续关联值;以此类推,将所有的关联值进行分析得到连续关联值,并提取连续关联值对应的有效时刻,按照时间先后顺序将对应的异常值排列得到连续异常值,其他时刻对应的异常值记为单点异常值;
S25:利用拉格朗日插值法将空缺位和删除位进行数据填充以得到完整数据,并将其发送至数据存储。
3.根据权利要求1所述的一种计算机用服务器故障预警方法,其特征在于,CPU运行分析的具体步骤为:
S41:设定每个CPU型号均对应一个类型值,将CPU型号与设定的所有类型进行比较匹配得到对应的类型值;
S42:将时钟频率除以使用率得到效能值;
S43:设定温度区间;将温度与温度区间进行比较,以生成高温、中温和低温,并分别统计高温、中温和低温的数量,并将其分别记为q1、q2和q3;当q1≥q2+q3时,则将CPU温度状态记为第一温度状态;当q3≥q1+q2时,则将CPU温度状态记为第三温度状态;其他情况则将CPU温度状态记为第二温度状态;设定第一温度状态、第二温度状态和第三温度状态分别对应一个温度系数;
S44:将所有的高温、低温进行求和计算得到总高温和总低温,总高温除以总低温得到温差比率;再将温度系数和温差比率进行数值化分析得到温异值;
S45:将类型值、效能值和温异值进行归一化处理并取其数值,对数值进行分析得到服务器CPU运行指数;
S46:将服务器CPU运行指数和设定的阈值进行比较分析,当服务器CPU运行指数大于设定的阈值时,则直接触发CPU运行故障预警;否则直接输出服务器CPU运行指数。
4.根据权利要求1所述的一种计算机用服务器故障预警方法,其特征在于,对目标管理员进行效率分析以得到效处值的具体步骤为:
B51:提取发送管理指令时刻和接收到目标管理员回复确认管理时刻,并将其分别记为开始时刻和确认时刻,将两者通过计算得到平均确认时长;当预设时间内没有收到目标管理员回复确认管理时,则该目标管理员记一次确认延迟并统计确认延迟次数;
B52:获取目标管理员的实时位置,将目标管理员的位置与服务器端的位置一致的时刻记为准备结束时刻,并将其与确认时刻进行计算得到准备时长;
B53:调取目标管理员历史管理距离和对应的历史准备时长,将两者通过计算得到历史速度;
B54:调取管理距离,并将管理距离除以历史速度得到预计准备时长,再将其与准备时长进行计算得到平均准备时长;
B55:调取目标管理员的工作时长,并将其与平均确认时长、确认延迟次数和平均准备时长进行归一化处理并取其数值,对数值分析得到效处值。
CN202310807617.3A 2023-07-04 2023-07-04 一种计算机用服务器故障预警方法 Active CN116521489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310807617.3A CN116521489B (zh) 2023-07-04 2023-07-04 一种计算机用服务器故障预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310807617.3A CN116521489B (zh) 2023-07-04 2023-07-04 一种计算机用服务器故障预警方法

Publications (2)

Publication Number Publication Date
CN116521489A CN116521489A (zh) 2023-08-01
CN116521489B true CN116521489B (zh) 2024-03-15

Family

ID=87392581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310807617.3A Active CN116521489B (zh) 2023-07-04 2023-07-04 一种计算机用服务器故障预警方法

Country Status (1)

Country Link
CN (1) CN116521489B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117097572A (zh) * 2023-10-19 2023-11-21 吉林省东启铭网络科技有限公司 一种家居物联网终端及其操作方法
CN117687873B (zh) * 2023-12-20 2024-04-30 中安华邦(北京)安全生产技术研究院股份有限公司 一种基于ai的安全信息构建方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073458A (zh) * 2017-12-28 2018-05-25 努比亚技术有限公司 内存回收方法、移动终端及计算机可读存储介质
CN109298959A (zh) * 2017-07-25 2019-02-01 华为技术有限公司 一种内存异常检测方法及设备
CN110347558A (zh) * 2019-07-16 2019-10-18 深圳市同泰怡信息技术有限公司 一种服务器设备故障诊断方法和装置以及设备
CN111831466A (zh) * 2020-07-17 2020-10-27 深圳市同泰怡信息技术有限公司 一种系统设备报错的方法、装置、存储介质和计算机设备
KR20210023127A (ko) * 2019-08-22 2021-03-04 한국전력공사 배전계통 고장구간 식별 시스템
CN114356581A (zh) * 2022-01-12 2022-04-15 平安消费金融有限公司 一种内存的清理方法及相关设备
CN116185636A (zh) * 2023-02-24 2023-05-30 深圳威科软件科技有限公司 一种内存管理方法、装置、设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109298959A (zh) * 2017-07-25 2019-02-01 华为技术有限公司 一种内存异常检测方法及设备
CN108073458A (zh) * 2017-12-28 2018-05-25 努比亚技术有限公司 内存回收方法、移动终端及计算机可读存储介质
CN110347558A (zh) * 2019-07-16 2019-10-18 深圳市同泰怡信息技术有限公司 一种服务器设备故障诊断方法和装置以及设备
KR20210023127A (ko) * 2019-08-22 2021-03-04 한국전력공사 배전계통 고장구간 식별 시스템
CN111831466A (zh) * 2020-07-17 2020-10-27 深圳市同泰怡信息技术有限公司 一种系统设备报错的方法、装置、存储介质和计算机设备
CN114356581A (zh) * 2022-01-12 2022-04-15 平安消费金融有限公司 一种内存的清理方法及相关设备
CN116185636A (zh) * 2023-02-24 2023-05-30 深圳威科软件科技有限公司 一种内存管理方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
智能化网格电信系统的故障预测方法;蔡珩;戈磊;;电信科学(第06期);189-197 *

Also Published As

Publication number Publication date
CN116521489A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN116521489B (zh) 一种计算机用服务器故障预警方法
CN110825579B (zh) 服务器性能监控方法、装置、计算机设备及存储介质
CN111064614B (zh) 一种故障根因定位方法、装置、设备及存储介质
CN109766334B (zh) 用于电力设备在线监测异常数据的处理方法及系统
CN110058977A (zh) 基于流式处理的监控指标异常检测方法、装置及设备
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN116342073B (zh) 一种书刊印刷数字信息管理系统及其方法
CN112254972A (zh) 挖掘机油温预警方法、装置、服务器及挖掘机
CN111612647B (zh) 计量表异常数据检测方法、装置、计量表及可读存储介质
CN115225463A (zh) 一种基于it运维的硬件故障监测方法及系统
AU2015204320A1 (en) Warranty cost estimation based on computing a projected number of failures of products
CN113312200A (zh) 一种事件处理方法、装置、计算机设备及存储介质
CN115150248B (zh) 网络流量异常检测方法、装置、电子设备和存储介质
CN112118127B (zh) 一种基于故障相似度的服务可靠性保障方法
RU2326442C1 (ru) Способ оценки эффективности управления и устройство для его осуществления
CN117235664A (zh) 配电通信设备的故障诊断方法、系统和计算机设备
CN115774159A (zh) 高压变频器功率单元故障检测系统
CN109739841B (zh) 一种针对于电力设备在线监测重复数据的整合系统及方法
US8924537B2 (en) Business processes tracking
CN110599245A (zh) 一种工程项目造价数据管理系统
CN116226644A (zh) 设备故障类型的确定方法、装置、电子设备及存储介质
CN115951172A (zh) 一种母线电量不平衡异常计量点定位方法、装置及设备
US20230336409A1 (en) Combination rules creation device, method and program
CN114398200A (zh) 一种系统报错处理方法、装置、电子设备及存储介质
CN112541538B (zh) 贫信息条件下的大坝异常监测数据自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant