CN111831511A - 一种云服务的业务主机的检测处理方法、装置及介质 - Google Patents

一种云服务的业务主机的检测处理方法、装置及介质 Download PDF

Info

Publication number
CN111831511A
CN111831511A CN202010680694.3A CN202010680694A CN111831511A CN 111831511 A CN111831511 A CN 111831511A CN 202010680694 A CN202010680694 A CN 202010680694A CN 111831511 A CN111831511 A CN 111831511A
Authority
CN
China
Prior art keywords
service
exception
host
abnormality
service host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010680694.3A
Other languages
English (en)
Inventor
周吉飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202010680694.3A priority Critical patent/CN111831511A/zh
Publication of CN111831511A publication Critical patent/CN111831511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种云服务的业务主机的检测处理方法、装置及介质,所述方法包括:管理主机实时收集每个业务主机信息;根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理所述异常;判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对所述业务主机是否可以进行提供下载服务进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。本发明的云服务检测处理方法,能保障业务的持续、稳定运行的功能,解决了自动化监测处理云服务主机故障的技术问题。

Description

一种云服务的业务主机的检测处理方法、装置及介质
技术领域
本发明涉及云服务技术领域,尤其是涉及一种云服务的业务主机的检测处理方法、装置及介质。
背景技术
随着业务上云之后,业务均衡的在各个云化主机上运行,其中某台主机宕机之后,业务也能正常运行,但是如果主机性能下降、业务处理效率降低,那么云化的弊端也会凸显出来,主机太多,排查时间较长,比较浪费时间,为了能够解决这一问题,需要一个自动化监测和处理工具。
发明内容
现有技术存在的问题:
现有技术没有自动化监测和处理云服务器主机故障的工具。
针对现有技术存在的缺陷,第一方面,本发明提供了一种云服务的业务主机的检测处理方法,包括:
管理主机实时收集每个业务主机信息;
根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;
读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理所述异常;
判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对所述业务主机是否可以进行提供下载服务进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。
进一步,所述根据所述业务主机信息对异常进行分类具体包括:
根据所述业务主机信息对异常划分为以下异常类型之一:空间异常、CPU使用异常或内存使用异常。
进一步,当所述异常类型为空间异常时,删除指定文件,重新写入指定文件并迁移指定文件到其他主机,其中,所述指定文件为用户预先配置好的文件;
当所述异常类型为CPU使用异常或内存使用异常时,关闭所述配置文件中用户预先配置好的进程并判断所述异常是否恢复,如果恢复则执行后续步骤,如果未恢复则关闭高使用频率的进程。
进一步,所述若未恢复则根据预设规则对主机是否可以进行下载进行判断具体包括:
若判断结果为是则进行主机下载,若判断结果为否则形成告警信号,并通知技术人员处理。
第二方面,本发明提供了一种云服务的业务主机的检测处理装置,包括:
收集模块,用于管理主机实时收集每个业务主机信息;
分类模块,用于根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;
处理模块,用于读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理;
判断模块,用于判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对主机是否可以进行下载进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。
进一步,所述分类模块具体包括:
根据所述业务主机信息对异常划分为以下异常类型之一:空间异常、CPU使用异常或内存使用异常。
进一步,当所述异常类型为空间异常时,删除指定文件,重新写入指定文件并迁移指定文件到其他主机,其中,所述指定文件为用户预先配置好的文件;
当所述异常类型为CPU使用异常或内存使用异常时,关闭所述配置文件中用户预先配置好的进程并判断所述异常是否恢复,如果恢复则执行后续步骤,如果未恢复则关闭高使用频率的进程。
进一步,所述判断模块具体包括:
若判断结果为是则进行主机下载,若判断结果为否则形成告警信号,并通知技术人员处理。
第三方面,本发明提供了一种计算机存储介质,其上存储有计算机程序指令,所述程序指令被处理器执行时用于实现上述的云服务的业务主机的检测处理方法对应的步骤。
本发明的有益效果是:
通过本发明的云服务检测处理方法,可以保障业务的持续、稳定运行的功能,解决了自动化监测处理云服务主机故障的技术问题。
附图说明
图1是本发明的一种云服务的业务主机的检测处理方法的流程示意图;
图2是本发明的一种云服务的业务主机的检测处理的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装备结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
如图1所示,第一方面,本发明提供了一种云服务的业务主机的检测处理方法,包括:
S1:管理主机实时收集每个业务主机信息;
S2:根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;
S3:读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理所述异常;
S4:判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对所述业务主机是否可以进行提供下载服务进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。
在一些说明性实施例中,所述根据所述业务主机信息对异常进行分类具体包括:
根据所述业务主机信息对异常划分为以下异常类型之一:空间异常、CPU使用异常或内存使用异常。
在一些说明性实施例中,当所述异常类型为空间异常时,对配置文件的配置数据进行异常处理,主要是包括:删除指定文件,重新写入指定文件并迁移指定文件到其他主机,其中,所述指定文件为用户预先配置好的文件;
所述配置好的文件类型如:业务主机空间地址文件信息。
当所述异常类型为CPU使用异常或内存使用异常时,关闭所述配置文件中用户预先配置好的进程并判断所述异常是否恢复,如果恢复则执行后续步骤,如果未恢复则关闭高使用频率的进程。
在一些说明性实施例中,所述若未恢复则根据预设规则对主机是否可以进行下载进行判断具体包括:
若判断结果为是则进行主机下载,若判断结果为否则形成告警信号,并通知技术人员处理。
第二方面,本发明提供了一种云服务的业务主机的检测处理装置,包括:
收集模块100,用于管理主机实时收集每个业务主机信息;
分类模块200,用于根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;
处理模块300,用于读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理;
判断模块400,用于判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对主机是否可以进行下载进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。
在一些说明性实施例中,所述分类模块200具体包括:
根据所述业务主机信息对异常划分为以下异常类型之一:空间异常、CPU使用异常或内存使用异常。
在一些说明性实施例中,当所述异常类型为空间异常时,删除指定文件,重新写入指定文件并迁移指定文件到其他主机,其中,所述指定文件为用户预先配置好的文件;
当所述异常类型为CPU使用异常或内存使用异常时,关闭所述配置文件中用户预先配置好的进程并判断所述异常是否恢复,如果恢复则执行后续步骤,如果未恢复则关闭高使用频率的进程。
在一些说明性实施例中,所述判断模块400具体包括:
若判断结果为是则进行主机下载,若判断结果为否则形成告警信号,并通知技术人员处理。
第三方面,本发明提供了一种计算机存储介质,其上存储有计算机程序指令,所述程序指令被处理器执行时用于实现上述的云服务的业务主机的检测处理方法对应的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,物流管理服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种云服务的业务主机的检测处理方法,其特征在于,包括:
管理主机实时收集每个业务主机信息;
根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;
读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理所述异常;
判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对所述业务主机是否可以进行提供下载服务进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。
2.根据权利要求1所述的,其特征在于,所述根据所述业务主机信息对异常进行分类具体包括:
根据所述业务主机信息对异常划分为以下异常类型之一:空间异常、CPU使用异常或内存使用异常。
3.根据权利要求2所述的,其特征在于,当所述异常类型为空间异常时,删除指定文件,重新写入指定文件并迁移指定文件到其他主机,其中,所述指定文件为用户预先配置好的文件;
当所述异常类型为CPU使用异常或内存使用异常时,关闭所述配置文件中用户预先配置好的进程并判断所述异常是否恢复,如果恢复则执行后续步骤,如果未恢复则关闭高使用频率的进程。
4.根据权利要求1所述的,其特征在于,所述若未恢复则根据预设规则对主机是否可以进行下载进行判断具体包括:
若判断结果为是则进行主机下载,若判断结果为否则形成告警信号,并通知技术人员处理。
5.一种云服务的业务主机的检测处理装置,其特征在于,包括:
收集模块,用于管理主机实时收集每个业务主机信息;
分类模块,用于根据所述业务主机信息对包含在收集在业务主机信息中的异常进行分类;其中,所述异常来自所述业务主机信息;
处理模块,用于读取配置文件,并根据所述异常和所述配置文件中的配置数据进行处理;
判断模块,用于判断所述异常是否恢复,若恢复则结束流程,若未恢复则根据预设规则对主机是否可以进行下载进行判断,其中,所述预设规则为判断所述业务主机数量的中存在异常的数量是否超过预定阈值,若是则进行后续步骤流程。
6.根据权利要求5所述的,其特征在于,所述分类模块具体包括:
根据所述业务主机信息对异常划分为以下异常类型之一:空间异常、CPU使用异常或内存使用异常。
7.根据权利要求6所述的,其特征在于,当所述异常类型为空间异常时,删除指定文件,重新写入指定文件并迁移指定文件到其他主机,其中,所述指定文件为用户预先配置好的文件;
当所述异常类型为CPU使用异常或内存使用异常时,关闭所述配置文件中用户预先配置好的进程并判断所述异常是否恢复,如果恢复则执行后续步骤,如果未恢复则关闭高使用频率的进程。
8.根据权利要求5所述的,其特征在于,所述判断模块具体包括:
若判断结果为是则进行主机下载,若判断结果为否则形成告警信号,并通知技术人员处理。
9.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求1~4中任一项所述的云服务的业务主机的检测处理方法对应的步骤。
CN202010680694.3A 2020-07-15 2020-07-15 一种云服务的业务主机的检测处理方法、装置及介质 Pending CN111831511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010680694.3A CN111831511A (zh) 2020-07-15 2020-07-15 一种云服务的业务主机的检测处理方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010680694.3A CN111831511A (zh) 2020-07-15 2020-07-15 一种云服务的业务主机的检测处理方法、装置及介质

Publications (1)

Publication Number Publication Date
CN111831511A true CN111831511A (zh) 2020-10-27

Family

ID=72923358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010680694.3A Pending CN111831511A (zh) 2020-07-15 2020-07-15 一种云服务的业务主机的检测处理方法、装置及介质

Country Status (1)

Country Link
CN (1) CN111831511A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377627A (zh) * 2021-06-10 2021-09-10 广州朗国电子科技有限公司 一种业务服务器异常检测方法、系统、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN108959045A (zh) * 2018-06-08 2018-12-07 郑州云海信息技术有限公司 一种nas集群故障切换性能的测试方法和系统
CN110505177A (zh) * 2018-05-16 2019-11-26 杭州海康威视数字技术股份有限公司 一种信息收集系统、终端设备及远程主机

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN110505177A (zh) * 2018-05-16 2019-11-26 杭州海康威视数字技术股份有限公司 一种信息收集系统、终端设备及远程主机
CN108959045A (zh) * 2018-06-08 2018-12-07 郑州云海信息技术有限公司 一种nas集群故障切换性能的测试方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377627A (zh) * 2021-06-10 2021-09-10 广州朗国电子科技有限公司 一种业务服务器异常检测方法、系统、设备、存储介质
CN113377627B (zh) * 2021-06-10 2023-12-05 广州朗国电子科技股份有限公司 一种业务服务器异常检测方法、系统、设备、存储介质

Similar Documents

Publication Publication Date Title
CN107870832B (zh) 基于多维度健康诊断方法的多路径存储设备
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
CN114328102A (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN109460343A (zh) 基于日志的系统异常监控方法、装置、设备及存储介质
CN106502814B (zh) 一种记录pcie设备错误信息的方法及装置
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
US20240272975A1 (en) Method and system for upgrading cpe firmware
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN108255620A (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN111478792B (zh) 一种割接信息处理方法、系统及装置
CN111858244A (zh) 一种硬盘的监控方法、系统、设备以及介质
CN115878356A (zh) 磁盘故障预测方法及装置
CN111831511A (zh) 一种云服务的业务主机的检测处理方法、装置及介质
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
US9378082B1 (en) Diagnosis of storage system component issues via data analytics
CN111654405B (zh) 通信链路的故障节点方法、装置、设备及存储介质
CN117591351A (zh) 磁盘故障检测模型的训练方法以及磁盘故障检测方法
CN112416896A (zh) 数据异常的报警方法和装置、存储介质、电子装置
CN111176950A (zh) 一种监控服务器集群的网卡的方法和设备
CN112084097A (zh) 一种磁盘告警方法及装置
CN115373916A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
CN114218001A (zh) 故障修复方法、装置、电子设备及可读存储介质
CN110968456A (zh) 分布式存储系统中故障磁盘的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination