CN115495309A - 共用存储服务器的数据库服务器io处理方法及装置 - Google Patents

共用存储服务器的数据库服务器io处理方法及装置 Download PDF

Info

Publication number
CN115495309A
CN115495309A CN202211114643.XA CN202211114643A CN115495309A CN 115495309 A CN115495309 A CN 115495309A CN 202211114643 A CN202211114643 A CN 202211114643A CN 115495309 A CN115495309 A CN 115495309A
Authority
CN
China
Prior art keywords
preset
database server
ratio
response time
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211114643.XA
Other languages
English (en)
Inventor
杨红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202211114643.XA priority Critical patent/CN115495309A/zh
Publication of CN115495309A publication Critical patent/CN115495309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Abstract

本发明提供一种共用存储服务器的数据库服务器IO处理方法及装置,通过定时向共用存储服务器的数据库服务器发起IO响应时间检查指令;获取数据库服务器反馈第一IO响应时间和符合当前占用IO大小要求的操作;基于获取到的第一IO响应时间计算超过预设时间的数据库服务器比率,将数据库服务器比率与预设比率进行比较,并得到比较结果;并根据比较结果执行相应的处置。在本发明中,通过定时任务监控全部数据库服务器的IO情况,自动监控IO的响应信息,并根据该响应信息确定是否发生异常或者需要检查,并执行相应的决策处理流程,能够及时预警或者进行对应处置,实现IO自动化管理。降低运维难度、缩短故障处置时间和提高工作效率的目的。

Description

共用存储服务器的数据库服务器IO处理方法及装置
技术领域
本发明涉及数据库服务技术领域,尤其涉及一种共用存储服务器的数据库服务器IO处理方法及装置。
背景技术
目前,大型企业IT系统通常使用计算与存储分离的架构,通过使用交换机将多个系统连接至一台存储服务器,进行存储集中式管理。
在具体实践中,因同时共用一台存储服务器的多个系统必须分享该存储服务器的整体IO带宽,因此,如果其中一个系统的数据库服务器IO流量非常大,占据了存储服务器大部分带宽,会导致整个存储网络发生拥塞,连接使用该存储服务器的数据库服务器IO的响应时间都会变长甚至无法响应。
现有在发生该类问题时,通常是由存储管理员与数据库管理员协同排查共用存储服务器的所有系统的数据库服务器IO情况,找到IO流量较高的数据库服务器并进行分析解决。但该种方式,从发现异常到处理完成时间较长,可能造成较大影响,并且检查过程中还需登录到目的设备,输入相应的查询命令,过程繁琐,而且人力成本还会随着数据库数量增加而增加。此外人工操作繁琐,可能因为失误带来新的问题。
发明内容
有鉴于此,本发明实施例提供一种共用存储服务器的数据库服务器IO处理方法及装置,以解决现有采用人工方式发现并解决数据库服务器IO流量大的过程中,操作繁琐、效率低且容易产生新失误的问题。
为解决上述问题,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种共用存储服务器的数据库服务器IO处理方法,所述方法包括:定时向共用存储服务器的数据库服务器发起IO响应时间检查指令;
获取所述数据库服务器反馈的响应信息,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作;
基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器的数据库服务器比率,所述预设时间的取值大于等于10毫秒;
将所述数据库服务器比率与预设比率进行比较,并得到比较结果;
若比较结果指示正常,结束本次检查;
若比较结果指示待查,执行第一决策处理流程;
若比较结果指示异常,执行第二决策处理流程。
可选的,将所述数据库服务器比率与预设比率进行比较,并得到比较结果,包括:
将所述数据库服务器比率与第一预设比率进行比较,所述第一预设比率的取值大于等于20%;
若所述数据库服务器比率小于所述第一预设比率,得到指示正常的比较结果;
若所述数据库服务器比率大于所述第一预设比率,将所述数据库服务器比率与第二预设比率进行比较,所述第二预设比率大于所述第一预设比率,所述第二预设比率的取值大于等于50%;
若所述数据库服务器比率小于第二预设比率,得到指示待查的比较结果;
若所述数据库服务器比率大于第二预设比率,得到指示异常的比较结果。
可选的,所述第一决策处理流程包括:
检测所述存储服务器的带宽使用率,并将检测到的带宽使用率与预设使用率进行比较,所述预设使用率的取值大于等于50%;
若所述带宽使用率小于或等于所述预设使用率,向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;
若所述带宽使用率大于所述预设使用率,执行所述第二决策处理流程。
可选的,所述第二决策处理流程包括:
将每一数据库服务器的第一IO响应时间与各自对应的预设值进行比较,查找超过预设值的数据库服务器;其中,所述预设值为所述每一数据库服务器各自对应的历史加权值与预设百分比的乘积,所述预设百分比的取值范围包括120%至180%,或者所述预设百分比为120%或150%;
若存在,将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器;
在设定时间之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过对应的预设值;
若所述第二IO响应时间不超过所述预设值,则向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令,再次检查所有数据库服务器的IO响应时间;
若所述第二IO响应时间超过所述预设值,将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器;
向所述第二目标数据库服务器所属的系统发送运维通知,所述运维通知携带有手动确认时间。
可选的,还包括:
检测是否在所述手动确认时间内收到反馈信息,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息;
若收到所述进入手动处理信息,停止本次检查;
若收到所述不进入手动处理信息或者若未收到所述反馈信息,向所述第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作,所述操作包括进程或SQL语句。
本发明实施例第二方面公开了一种共用存储服务器的数据库服务器IO处理装置,包括:
发起模块,用于定时向共用存储服务器的数据库服务器发起IO响应时间检查指令;
获取模块,用于获取所述数据库服务器反馈的响应信息,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作;
计算模块,用于基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器的数据库服务器比率,所述预设时间的取值大于等于10毫秒;
比较模块,用于将所述数据库服务器比率与预设比率进行比较,并得到比较结果;
执行模块,用于若比较结果指示正常,结束本次检查;若比较结果指示待查,触发执行第一决策处理模块;若比较结果指示异常,触发执行第二决策处理模块。
可选的,所述比较模块包括:
第一比较单元,将所述数据库服务器比率与第一预设比率进行比较,所述第一预设比率的取值大于等于20%;若所述数据库服务器比率小于所述第一预设比率,得到指示正常的比较结果;若所述数据库服务器比率大于所述第一预设比率,执行第二比较单元;
所述第二比较单元,用于将所述数据库服务器比率与第二预设比率进行比较,所述第二预设比率大于所述第一预设比率,所述第二预设比率的取值大于等于50%;若所述数据库服务器比率小于第二预设比率,得到指示待查的比较结果;若所述数据库服务器比率大于第二预设比率,得到指示异常的比较结果。
可选的,所述第一决策处理模块,具体用于:
检测所述存储服务器的带宽使用率,并将检测到的带宽使用率与预设使用率进行比较,所述预设使用率的取值大于等于50%;若所述带宽使用率小于或等于所述预设使用率,触发所述发起模块向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;若所述带宽使用率大于所述预设使用率,触发所述第二决策处理模块。
可选的,所述第二决策处理模块包括:
第三比较单元,用于将每一数据库服务器的第一IO响应时间与各自对应的预设值进行比较,查找超过预设值的数据库服务器;其中,所述预设值为所述每一数据库服务器各自对应的历史加权值与预设百分比的乘积,所述预设百分比的取值范围包括120%至180%,或者所述预设百分比为120%或150%;
第一标记单元,用于将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器;
第四比较单元,用于在设定时间之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过对应的预设值;若所述第二IO响应时间不超过所述预设值,触发所述发起模块向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;若所述第二IO响应时间超过所述预设值,执行第二标记单元;
所述第二标记单元,用于将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器;
发送单元,用于向所述第二目标数据库服务器所属的系统发送运维通知,所述运维通知携带有手动确认时间。
可选的,所述装置还包括:
检测模块,用于检测是否在所述手动确认时间内收到反馈信息,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息;若收到所述进入手动处理信息,停止本次检查;若收到所述不进入手动处理信息或者若未收到所述反馈信息,执行所述执行模块;
所述执行模块,还用于向所述第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作,所述操作包括进程或SQL语句。
基于上述本发明实施例提供的一种共用存储服务器的主机IO处理方法及装置,通过定时向共用存储服务器的数据库服务器发起IO响应时间检查指令;获取所述数据库服务器反馈的响应信息,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作;基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器比率,所述预设时间的取值大于等于10毫秒;将所述数据库服务器比率与预设比率进行比较,并得到比较结果;若比较结果指示正常,结束本次检查;若比较结果指示待查,执行第一决策处理流程;若比较结果指示异常,执行第二决策处理流程。在本发明实施例中,通过定时任务监控全部数据库服务器的IO情况,自动监控IO的响应信息,并根据该响应信息确定是否发生异常或者需要检查,并执行相应的决策处理流程,能够及时预警或者进行对应处置,实现IO自动化管理。降低运维难度、缩短故障处置时间和提高工作效率的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种共用存储服务器的主机IO处理方法的流程示意图;
图2为本发明实施例公开的第一决策处理流程示意图;
图3为本发明实施例公开的第二决策处理流程示意图;
图4为本发明实施例公开的一种共用存储服务器的主机IO处理方法的应用流程示意图;
图5为本发明实施例公开的一种共用存储服务器的主机IO处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以下为本发明实施例中所用的缩略语和关键术语定义:
IO:Input Output,输入输出。
数据库服务器:是指运行数据库系统的专用服务器,其功能就是为数据库系统的高性能运行提供硬件支持和保障。
历史加权值:指先记录一台数据库服务器每分钟IO响应时间,形成一周历史记录,然后基于历史曲线拟合得到一个IO响应时间趋势预测公式。具体的,历史加权值=一周前IO响应时间*0.28+一天前IO响应时间*0.25+一小时前IO响应时间*0.05+半小时前IO响应时间*0.05+10分钟前IO响应时间*0.12+一分钟前IO响应时间*0.25。基于该历史加权值预测结果与实际值比较相关性约0.89,相关性较高。
如图1所示,为本发明实施例公开的一种共用存储服务器的数据库服务器IO处理方法的流程图,该方法以脚本的方式部署于共用存储服务器和数据库服务器上。其中,存储服务器指管理机,数据库服务器指被管机。
该共用存储服务器的数据库服务器IO处理方法包括如下步骤:
S101:定时向共用存储服务器的数据库服务器发起IO响应时间检查指令。
在执行S101的过程中,在存储服务器上,IO管理模块通过定时任务每隔一定时间发起一次IO响应时间检查指令。在IO响应时间检查指令发起后,各个共用该存储服务器的数据库服务器会接收到该IO响应时间检查指令,并检查各自的IO响应时间和当前占用IO较大的SQL语句或者进程。
S102:获取所述数据库服务器反馈的响应信息。
在S102中,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作。
其中,符合当前占用IO大小要求的操作包括但不限于当前占用IO较大的SQL语句或者进程。
在执行S102的过程中,存储服务器上的IO管理模块获取所述数据库服务器反馈的响应信息。
S103:基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器的数据库服务器比率。
在S103中,所述预设时间的取值大于等于10毫秒。但本发明实施例对于预设时间的最小值并不限于10毫秒,可以根据需求设置为5毫秒、8毫秒等更小的时间。
在执行S102的过程中,存储服务器上的IO管理模块将获取到的各个数据库服务器的第一IO响应时间与预设时间进行比较,确定超过预设时间的数据库服务器,并计算该数据库服务器的比率。
例如,假设预设时间的取值为10毫秒,数据库服务器A的第一IO响应时间为15毫秒,数据库服务器B的第一IO响应时间为5毫秒。数据库服务器A的第一IO响应时间大于预设时间,数据库服务器B的第一IO响应时间小于预设时间。则计算数据库服务器A的比率。
S104:将所述数据库服务器比率与预设比率进行比较,并得到比较结果;若比较结果指示正常,执行S105;若比较结果指示待查,执行S106;若比较结果指示异常,执行S107。
在执行S104的过程中,将所述数据库服务器比率与预设比率进行比较,并得到比较结果的具体过程如下:
将所述数据库服务器比率与第一预设比率进行比较,所述第一预设比率的取值大于等于20%。
若所述数据库服务器比率小于所述第一预设比率,得到指示正常的比较结果,即说明目前的数据库服务器的IO响应均正常,执行S105。
若所述数据库服务器比率大于所述第一预设比率,将所述数据库服务器比率与第二预设比率进行比较,所述第二预设比率大于所述第一预设比率,所述第二预设比率的取值大于等于50%。
若所述数据库服务器比率小于第二预设比率,得到指示待查的比较结果,即说明该数据库服务器的数据库服务器比率在第一预设比率到第二预设比率之间,需要检查存储服务器整体的带宽使用率,则执行S106。
若所述数据库服务器比率大于第二预设比率,得到指示异常的比较结果,则执行S107。
S105:结束本次检查,并等待下一次定时任务调起检查。
S106:执行第一决策处理流程。
该第一决策处理流程具体如图2所示,主要包括如下步骤:
S201:检测所述存储服务器的带宽使用率。
S202:将检测到的带宽使用率与预设使用率进行比较,若所述带宽使用率小于或等于所述预设使用率,执行S203;若所述带宽使用率大于所述预设使用率,执行S107。
在S202中,所述预设使用率的取值大于等于50%。
S203:向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令。
在执行S203的过程中,向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令,以便于再次检查所有数据库服务器的IO响应时间。实际上则相当于进入实时监控阶段,需要反复执行检查,且不受定时任务的影响。
S107:执行第二决策处理流程。
该第二决策处理流程具体如图3所示,主要包括如下步骤:
S301:将每一数据库服务器的第一IO响应时间与各自对应的预设值进行比较,查找超过预设值的数据库服务器。
在S301中,所述预设值为所述每一数据库服务器各自对应的历史加权值与预设百分比的乘积。
也就是说,每一个数据服务器所对应的预设值是与其对应的历史加权值相关的,若每个数据服务器所对应的历史加权值是不同的,那么各个数据服务器所对应的预设值也可能是不一样的。
在本发明一实施例中,所述预设百分比的取值范围包括120%至180%。
在本发明一实施例中,所述预设百分比为120%或150%。
例如:预设百分比为150%,数据库服务器A的历史加权值为11毫秒,数据库服务器B的历史加权值为5毫秒。则数据库服务器A对应的预设值为16.5毫秒,数据库服务器B对应的预设值为7.5毫秒。
S302:将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器。
例如,数据库服务器A的第一IO响应时间为15毫秒,数据库服务器B的第一IO响应时间为5毫秒。数据库服务器A对应的预设值为16.5毫秒,数据库服务器B对应的预设值为7.5毫秒。则将数据库服务器A记为第一目标数据库服务器。
S303:在设定时间之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过对应的预设值,若不超过,执行S306;若超过,执行S304。
在S303中,设定时间包括但不限于1分钟。
S304:将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器。
S305:向所述第二目标数据库服务器所属的系统发送运维通知。
在S305中,所述运维通知携带有手动确认时间。该手动确认时间可根据需求设置,包括但不限于5分钟。
S306:向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令
在执行S306的过程中,向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令,以便于再次检查所有数据库服务器的IO响应时间。实际上则相当于进入实时监控阶段,需要反复执行检查,且不受定时任务的影响。
在本发明一实施例中,在执行S305之后,还包括:
检测是否在所述手动确认时间内收到反馈信息,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息。
若收到所述进入手动处理信息,停止本次检查。
若收到所述不进入手动处理信息或者若未收到所述反馈信息,向所述第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作。
在本发明实施例中,通过定时任务监控全部数据库服务器的IO情况,自动监控IO的响应信息,并根据该响应信息确定是否发生异常或者需要检查,并执行相应的决策处理流程,能够及时预警或者进行对应处置,实现IO自动化管理。降低运维难度、缩短故障处置时间和提高工作效率的目的。
基于上述发明实施例公开的一种共用存储服务器的数据库服务器IO处理方法,这里举例说明,假设预设时间为10毫秒,第一预设比率为20%,第二预设比率为50%,预设使用率为50%,预设百分比为120%,设定时间为1分钟,手动确认时间为5分钟。如图4所示,主要包括如下步骤:
S401:定时向共用存储服务器的数据库服务器发起IO响应时间检查指令。
S402:获取所述数据库服务器反馈的响应信息。
S403:基于获取到的所述第一IO响应时间计算超过10毫秒的数据库服务器的数据库服务器比率。
S404:将所述数据库服务器比率与20%进行比较,若小于执行S401;若不小于,执行S405。
S405:将所述数据库服务器比率与50%进行比较,若小于,执行S406;若大于,执行S407。
S406:检测所述存储服务器的带宽使用率,并将检测到的带宽使用率与50%进行比较。若小于或等于50%,向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令,并执行S402。若大于50%,执行S407。
S407,将每一数据库服务器的第一IO响应时间与各自对应的历史加权值的120%进行比较,查找存在超过预设值的数据库服务器。
S408:将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器。
S409:在1分钟之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过历史加权值的120%;若所述第二IO响应时间不超过历史加权值的120%,向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令,并执行S402。若所述第二IO响应时间超过历史加权值的120%,执行S410。
S410:将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器。
S411:向所述第二目标数据库服务器所属的系统发送运维通知。
S412:检测是否在手动确认时间内收到反馈信息,若收到所述进入手动处理信息,停止本次检查,并等待下一次定时任务调起检查;若收到所述不进入手动处理信息或者若未收到所述反馈信息,执行S413。
在S412中,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息。
S413:向所述第二目标数据库服务器所属的系统发送停止指令。
在执行S413的过程中,向第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作,所述操作包括进程或SQL语句。
本发明实施例中,通过定时任务监控全部数据库服务器的IO情况,自动监控IO的响应信息,并根据该响应信息确定是否发生异常或者需要检查,并执行相应的决策处理流程,能够及时预警或者进行对应处置,实现IO自动化管理。降低运维难度、缩短故障处置时间和提高工作效率的目的。
基于上述本发明实施例公开的一种共用存储服务器的数据库服务器IO处理方法,本发明实施例还对应方法公开了一种共用存储服务器的数据库服务器IO处理装置,如图5所示,该数据库服务器IO处理装置包括:发起模块501、获取模块502、计算模块503、比较模块504、执行模块505、第一决策处理模块506和第二决策处理模块507。
发起模块501,用于定时向共用存储服务器的数据库服务器发起IO响应时间检查指令。
获取模块502,用于获取所述数据库服务器反馈的响应信息,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作。
计算模块503,用于基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器比率,所述预设时间的取值大于等于10毫秒。
比较模块504,用于将所述数据库服务器比率与预设比率进行比较,并得到比较结果。
执行模块505,用于若比较结果指示正常,结束本次检查;若比较结果指示待查,触发执行第一决策处理模块506;若比较结果指示异常,触发执行第二决策处理模块507。
在本发明一实施例中,所述比较模块504包括:
第一比较单元,将所述数据库服务器比率与第一预设比率进行比较,所述第一预设比率的取值大于等于20%;若所述数据库服务器比率小于所述第一预设比率,得到指示正常的比较结果;若所述数据库服务器比率大于所述第一预设比率,执行第二比较单元;
所述第二比较单元,用于将所述数据库服务器比率与第二预设比率进行比较,所述第二预设比率大于所述第一预设比率,所述第二预设比率的取值大于等于50%;若所述数据库服务器比率小于第二预设比率,得到指示待查的比较结果。若所述数据库服务器比率大于第二预设比率,得到指示异常的比较结果。
在本发明一实施例中,所述第一决策处理模块506,具体用于:
检测所述存储服务器的带宽使用率,并将检测到的带宽使用率与预设使用率进行比较,所述预设使用率的取值大于等于50%;若所述带宽使用率小于或等于所述预设使用率,触发所述发起模块向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;若所述带宽使用率大于所述预设使用率,触发所述第二决策处理模块507。
在本发明一实施例中,所述第二决策处理模块507包括:
第三比较单元,用于将每一数据库服务器的第一IO响应时间与各自对应的预设值进行比较,查找超过预设值的数据库服务器;其中,所述预设值为所述每一数据库服务器各自对应的历史加权值与预设百分比的乘积,所述预设百分比的取值范围包括120%至180%,或者所述预设百分比为120%或150%;
第一标记单元,用于将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器;
第四比较单元,用于在设定时间之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过对应的预设值;若所述第二IO响应时间不超过所述预设值,触发所述发起模块向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;若所述第二IO响应时间超过所述预设值,执行第二标记单元;
所述第二标记单元,用于将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器;
发送单元,用于向所述第二目标数据库服务器所属的系统发送运维通知,所述运维通知携带有手动确认时间。
在本发明一实施例中,所述数据库服务器IO处理装置还包括:
检测模块,用于检测是否在所述手动确认时间内收到反馈信息,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息;若收到所述进入手动处理信息,停止本次检查;若收到所述不进入手动处理信息或者若未收到所述反馈信息,执行所述执行模块;
所述执行模块,还用于向所述第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作,所述操作包括进程或SQL语句。
在本发明实施例中,通过定时任务监控全部数据库服务器的IO情况,自动监控IO的响应信息,并根据该响应信息确定是否发生异常或者需要检查,并执行相应的决策处理流程,能够及时预警或者进行对应处置,实现IO自动化管理。降低运维难度、缩短故障处置时间和提高工作效率的目的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种共用存储服务器的数据库服务器IO处理方法,其特征在于,所述方法包括:
定时向共用存储服务器的数据库服务器发起IO响应时间检查指令;
获取所述数据库服务器反馈的响应信息,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作;
基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器的数据库服务器比率,所述预设时间的取值大于等于8毫秒或10毫秒;
将所述数据库服务器比率与预设比率进行比较,并得到比较结果;
若比较结果指示正常,结束本次检查;
若比较结果指示待查,执行第一决策处理流程;
若比较结果指示异常,执行第二决策处理流程。
2.根据权利要求1所述的方法,其特征在于,将所述数据库服务器比率与预设比率进行比较,并得到比较结果,包括:
将所述数据库服务器比率与第一预设比率进行比较,所述第一预设比率的取值大于等于20%;
若所述数据库服务器比率小于所述第一预设比率,得到指示正常的比较结果;
若所述数据库服务器比率大于所述第一预设比率,将所述数据库服务器比率与第二预设比率进行比较,所述第二预设比率大于所述第一预设比率,所述第二预设比率的取值大于等于50%;
若所述数据库服务器比率小于第二预设比率,得到指示待查的比较结果;
若所述数据库服务器比率大于第二预设比率,得到指示异常的比较结果。
3.根据权利要求1或2所述的方法,其特征在于,所述第一决策处理流程包括:
检测所述存储服务器的带宽使用率,并将检测到的带宽使用率与预设使用率进行比较,所述预设使用率的取值大于等于50%;
若所述带宽使用率小于或等于所述预设使用率,向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;
若所述带宽使用率大于所述预设使用率,执行所述第二决策处理流程。
4.根据权利要求1或2所述的方法,其特征在于,所述第二决策处理流程包括:
将每一数据库服务器的第一IO响应时间与各自对应的预设值进行比较,查找超过预设值的数据库服务器;其中,所述预设值为所述每一数据库服务器各自对应的历史加权值与预设百分比的乘积,所述预设百分比的取值范围包括120%至180%,或者所述预设百分比为120%或150%;
将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器;
在设定时间之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过对应的预设值;
若所述第二IO响应时间不超过所述预设值,则向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令,再次检查所有数据库服务器的IO响应时间;
若所述第二IO响应时间超过所述预设值,将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器;
向所述第二目标数据库服务器所属的系统发送运维通知,所述运维通知携带有手动确认时间。
5.根据权利要求4所述的方法,其特征在于,还包括:
检测是否在所述手动确认时间内收到反馈信息,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息;
若收到所述进入手动处理信息,停止本次检查;
若收到所述不进入手动处理信息或者若未收到所述反馈信息,向所述第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作,所述操作包括进程或SQL语句。
6.一种共用存储服务器的数据库服务器IO处理装置,其特征在于,包括:
发起模块,用于定时向共用存储服务器的数据库服务器发起IO响应时间检查指令;
获取模块,用于获取所述数据库服务器反馈的响应信息,所述响应信息包括所述数据库服务器的第一IO响应时间和符合当前占用IO大小要求的操作;
计算模块,用于基于获取到的所述第一IO响应时间计算超过预设时间的数据库服务器的数据库服务器比率,所述预设时间的取值大于等于10毫秒;
比较模块,用于将所述数据库服务器比率与预设比率进行比较,并得到比较结果;
执行模块,用于若比较结果指示正常,结束本次检查;若比较结果指示待查,触发执行第一决策处理模块;若比较结果指示异常,触发执行第二决策处理模块。
7.根据权利要求6所述的装置,其特征在于,所述比较模块包括:
第一比较单元,将所述数据库服务器比率与第一预设比率进行比较,所述第一预设比率的取值大于等于20%;若所述数据库服务器比率小于所述第一预设比率,得到指示正常的比较结果;若所述数据库服务器比率大于所述第一预设比率,执行第二比较单元;
所述第二比较单元,用于将所述数据库服务器比率与第二预设比率进行比较,所述第二预设比率大于所述第一预设比率,所述第二预设比率的取值大于等于50%;若所述数据库服务器比率小于第二预设比率,得到指示待查的比较结果;若所述数据库服务器比率大于第二预设比率,得到指示异常的比较结果。
8.根据权利要求6或7所述的装置,其特征在于,所述第一决策处理模块,具体用于:
检测所述存储服务器的带宽使用率,并将检测到的带宽使用率与预设使用率进行比较,所述预设使用率的取值大于等于50%;若所述带宽使用率小于或等于所述预设使用率,触发所述发起模块向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;若所述带宽使用率大于所述预设使用率,触发所述第二决策处理模块。
9.根据权利要求6或7所述的装置,其特征在于,所述第二决策处理模块包括:
第三比较单元,用于将每一数据库服务器的第一IO响应时间与各自对应的预设值进行比较,查找超过预设值的数据库服务器;其中,所述预设值为所述每一数据库服务器各自对应的历史加权值与预设百分比的乘积,所述预设百分比的取值范围包括120%至180%,或者所述预设百分比为120%或150%;
第一标记单元,用于将第一IO响应时间超过预设值的数据库服务器记为第一目标数据库服务器;
第四比较单元,用于在设定时间之后,获取第一目标数据库服务器的第二IO响应时间,检测所述第二IO响应时间是否仍超过对应的预设值;若所述第二IO响应时间不超过所述预设值,触发所述发起模块向共用所述存储服务器的数据库服务器再次发起IO响应时间检查指令;若所述第二IO响应时间超过所述预设值,执行第二标记单元;
所述第二标记单元,用于将所述第二IO响应时间超过预设值的第一目标数据库服务器记为第二目标数据库服务器;
发送单元,用于向所述第二目标数据库服务器所属的系统发送运维通知,所述运维通知携带有手动确认时间。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
检测模块,用于检测是否在所述手动确认时间内收到反馈信息,所述反馈信息中携带有进入手动处理信息或不进入手动处理信息;若收到所述进入手动处理信息,停止本次检查;若收到所述不进入手动处理信息或者若未收到所述反馈信息,执行所述执行模块;
所述执行模块,还用于向所述第二目标数据库服务器所属的系统发送停止指令,使所述系统基于所述停止指令停止所述符合当前占用IO大小要求的操作,所述操作包括进程或SQL语句。
CN202211114643.XA 2022-09-14 2022-09-14 共用存储服务器的数据库服务器io处理方法及装置 Pending CN115495309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211114643.XA CN115495309A (zh) 2022-09-14 2022-09-14 共用存储服务器的数据库服务器io处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211114643.XA CN115495309A (zh) 2022-09-14 2022-09-14 共用存储服务器的数据库服务器io处理方法及装置

Publications (1)

Publication Number Publication Date
CN115495309A true CN115495309A (zh) 2022-12-20

Family

ID=84468034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211114643.XA Pending CN115495309A (zh) 2022-09-14 2022-09-14 共用存储服务器的数据库服务器io处理方法及装置

Country Status (1)

Country Link
CN (1) CN115495309A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303624A (zh) * 2023-05-17 2023-06-23 山东建筑大学 农业数据处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303624A (zh) * 2023-05-17 2023-06-23 山东建筑大学 农业数据处理方法、装置、电子设备及存储介质
CN116303624B (zh) * 2023-05-17 2023-09-19 山东建筑大学 农业数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108710544B (zh) 一种数据库系统的进程监控方法及轨道交通综合监控系统
CN106469098A (zh) 一种设备的故障处理方法和装置
CN110212645B (zh) 一种用电信息采集终端停电事件上报方法及装置
WO2019006654A1 (zh) 金融自助设备维修派单生成方法、手持终端及电子设备
JP2021121956A (ja) 故障予測方法、装置、電子設備、記憶媒体、及びプログラム
CN102195813A (zh) 一种智能创建运维工单的方法和装置
CN111104260B (zh) 服务升级的监测方法、装置、服务器及存储介质
CN113645085B (zh) 智能网卡的异常检测方法、装置、电子设备及存储介质
CN112765161B (zh) 报警规则匹配方法、装置、电子设备及存储介质
CN115495309A (zh) 共用存储服务器的数据库服务器io处理方法及装置
CN113312200A (zh) 一种事件处理方法、装置、计算机设备及存储介质
CN113592337A (zh) 故障处理方法、装置、电子设备及存储介质
US11657321B2 (en) Information processing device, non-transitory storage medium and information processing method
JP2008059413A (ja) 障害管理支援システム及びその情報管理方法
CN114172921A (zh) 一种调度录音系统的日志审计方法及装置
CN114793132A (zh) 一种光模块的检测方法、装置、电子设备及存储介质
CN115037653B (zh) 业务流量监控方法、装置、电子设备和存储介质
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
CN115016976A (zh) 一种根因定位方法、装置、设备及存储介质
CN111464357A (zh) 资源配置方法及装置
CN113138872A (zh) 数据库系统的异常处理装置及方法
CN113507721B (zh) 一种网络状态监测方法、装置、系统及存储介质
JP7189085B2 (ja) 異常箇所推定装置及び方法
US11329868B2 (en) Automated network monitoring and control
CN111722983A (zh) 一种可配置化的事件操作控制方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination