CN111917576B - 存储集群的控制方法、装置、计算机可读存储介质、处理器 - Google Patents

存储集群的控制方法、装置、计算机可读存储介质、处理器 Download PDF

Info

Publication number
CN111917576B
CN111917576B CN202010740183.6A CN202010740183A CN111917576B CN 111917576 B CN111917576 B CN 111917576B CN 202010740183 A CN202010740183 A CN 202010740183A CN 111917576 B CN111917576 B CN 111917576B
Authority
CN
China
Prior art keywords
storage cluster
failure
closing
shutdown
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010740183.6A
Other languages
English (en)
Other versions
CN111917576A (zh
Inventor
卢俊宏
张旭明
王豪迈
胥昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingchen Tianhe Technology Co ltd
Original Assignee
Beijing Xingchen Tianhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xingchen Tianhe Technology Co ltd filed Critical Beijing Xingchen Tianhe Technology Co ltd
Priority to CN202010740183.6A priority Critical patent/CN111917576B/zh
Publication of CN111917576A publication Critical patent/CN111917576A/zh
Application granted granted Critical
Publication of CN111917576B publication Critical patent/CN111917576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明公开了一种存储集群的控制方法、装置、计算机可读存储介质、处理器。其中,该方法包括:在接收到关机指令之后,控制存储集群关机;在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件;如果失败原因满足预设条件,则控制存储集群继续关机;如果失败原因不满足预设条件,则发送通知消息,并控制存储集群停止关机。本发明解决了相关技术中存储集群的控制方法控制存储集群关机容易导致数据丢失,导致存储集群的可靠性和稳定性较差的技术问题。

Description

存储集群的控制方法、装置、计算机可读存储介质、处理器
技术领域
本发明涉及存储集群领域,具体而言,涉及一种存储集群的控制方法、装置、计算机可读存储介质、处理器。
背景技术
目前的集群关闭方法,对集群关闭过程中出现的错误处理单一,当超时时间到达时,可以直接将集群中无法关闭的节点强制关闭。但是,上述方法不适应于存储集群,对于存储集群,强制关闭存储节点可能会导致数据丢失,出现数据不一致。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种存储集群的控制方法、装置、计算机可读存储介质、处理器,以至少解决相关技术中存储集群的控制方法控制存储集群关机容易导致数据丢失,导致存储集群的可靠性和稳定性较差的技术问题。
根据本发明实施例的一个方面,提供了一种存储集群的控制方法,包括:在接收到关机指令之后,控制存储集群关机;在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件;如果失败原因满足预设条件,则控制存储集群继续关机;如果失败原因不满足预设条件,则发送通知消息,并控制存储集群停止关机;其中,判断失败原因是否满足预设条件包括:判断失败原因是否为异常结束;如果失败原因是异常结束,则判断失败原因是否满足数据一致性条件;如果失败原因不满足数据一致性条件,则确定失败原因不满足预设条件;如果失败原因不是异常结束,或失败原因满足数据一致性条件,则确定失败原因满足预设条件。
可选地,控制存储集群关机包括:检测存储集群是否异常结束;如果存储集群未异常结束,则关闭存储集群的数据接口;在数据接口关闭成功之后,关闭存储集群的保活服务;在保活服务关闭成功之后,关闭存储集群的统计和告警服务;关闭存储集群的存储服务;在存储服务关闭成功之后,存储操作日志;关闭存储集群的数据库;在数据库关闭成功之后,关闭存储集群的节点。
可选地,在数据接口或保活服务关闭失败的情况下,重新关闭数据接口或保活服务,其中,如果重新关闭数据接口或保活服务的次数超过预设次数,则控制存储集群停止关机。
可选地,在统计和告警服务关闭失败的情况下,在操作日志中存储对应的失败记录。
可选地,关闭存储集群的存储服务包括:按照存储层从上到下的顺序,逐层对存储数据进行更新;在存储数据更新完毕之后,按照存储层从上到下的顺序,逐层关闭存储层。
可选地,在存储层关闭失败的情况下,该方法还包括:判断导致存储层关闭失败的错误是否为异常错误;如果导致存储层关闭失败的错误是异常错误,则发送通知消息,并控制存储集群停止关机;如果导致存储层关闭失败的错误不是异常错误,则在操作日志中存储对应的失败记录,并执行存储操作日志的步骤。
可选地,在关闭存储集群的数据库之前,该方法还包括:将存储集群中主节点的节点信息和主数据库的数据库信息进行存储,其中,节点信息和数据库信息用于在存储集群重启之后恢复主节点和主数据库;在节点信息和数据库信息存储完成之后,关闭数据库。
可选地,在数据库关闭失败的情况下,该方法还包括:在操作日志中存储对应的失败记录,并执行关闭存储集群的节点的步骤。
可选地,关闭存储集群的节点包括:通过主节点发送关闭请求至从节点,并按照预设周期获取从节点的关闭结果;在预设时间段到达之前,如果关闭结果是关闭成功,则关闭主节点;在预设时间段到达之后,如果关闭结果是关闭失败,则发送通知消息,并控制存储集群停止关机。
根据本发明实施例的另一方面,还提供了一种存储集群的控制装置,包括:控制模块,用于在接收到关机指令之后,控制存储集群关机;判断模块,用于在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件;控制模块还用于如果失败原因满足预设条件,则控制存储集群继续关机;发送模块,用于如果失败原因不满足预设条件,则发送通知消息;停止模块,用于如果失败原因不满足预设条件,则控制存储集群停止关机;其中,判断失败原因是否满足预设条件包括:判断失败原因是否为异常结束;如果失败原因是异常结束,则判断失败原因是否满足数据一致性条件;如果失败原因不满足数据一致性条件,则确定失败原因不满足预设条件;如果失败原因不是异常结束,或失败原因满足数据一致性条件,则确定失败原因满足预设条件。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述的存储集群的控制方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的存储集群的控制方法。
在本发明实施例中,在接收到关机指令之后,可以控制存储集群关机,在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件,如果失败原因满足预设条件,则控制存储集群继续关机;如果失败原因不满足预设条件,则发送通知消息,并控制存储集群停止关机,从而实现了在存储集群关闭的过程中,针对不同的失败原因执行不同的关机流程的目的,达到了减少关闭存储集群时的人为干预,并简化了关闭存储集群过程的运维难度的技术效果,进而解决了相关技术中存储集群的控制方法控制存储集群关机容易导致数据丢失,导致存储集群的可靠性和稳定性较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种存储集群的控制方法的流程图;
图2是根据本发明实施例的一种可选的存储集群关机流程的示意图;以及
图3是根据本发明实施例的一种存储集群的控制装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种存储集群的控制方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种存储集群的控制方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,在接收到关机指令之后,控制存储集群关机。
上述步骤中的关机指令可以是存储集群的关机按钮被用户点击或按压后生成的指令,通过该指令可以将整个存储集群中所有集群节点关机,达到一键关机的目的。上述的存储集群可以包含多个集群节点,并且可以划分为主节点和从节点,其中,从节点的关闭是在接收到主节点发送的关闭请求之后执行。
需要说明的是,为了确保存储集群正常关机,可以停止接收新的业务请求,并在超时时间内,等待现有业务处理完成。
在一种可选的实施例中,存储集群关机可以通过依次执行几个关机步骤实现,在所有关机步骤全部执行完毕之后,可以确定存储集群关机成功。
步骤S104,在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件。
上述步骤中的预设条件可以是指不会影响存储集群正常关闭的条件,例如,可以是非异常结束的错误,或者异常结束但不影响数据一致性的错误。
在一种可选的实施例中,在存储集群关机的过程中,任意一个关机步骤执行失败,都可以检测到存储集群关机失败,因此,上述步骤中的失败原因可以是某一个关机步骤执行失败的失败原因,也即,在执行某个关机步骤过程中遇到的错误。对于不同的关机步骤,失败原因不同,例如,关机检查步骤的失败原因可以是已知异常,也即,属于异常结束的错误。
步骤S106,如果失败原因满足预设条件,则控制存储集群继续关机。
在一种可选的实施例中,在确定导致存储集群关机失败的失败原因是非异常结束的错误,或者异常结束但不影响数据一致性的错误之后,可以继续控制执行关机流程,也即继续执行下一个关机步骤。
步骤S108,如果失败原因不满足预设条件,则发送通知消息,并控制存储集群停止关机。
上述步骤中的通知消息可以是通知用户需要进行人工干预的消息,但不仅限于此。
在一种可选的实施例中,在确定导致存储集群关机失败的失败原因是异常结束且会影响数据一致性的错误之后,可以实时推送通知人工干预,同时停止执行关机流程。
通过本发明上述实施例,在接收到关机指令之后,可以控制存储集群关机,在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件,如果失败原因满足预设条件,则控制存储集群继续关机;如果失败原因不满足预设条件,则发送通知消息,并控制存储集群停止关机,从而实现了在存储集群关闭的过程中,针对不同的失败原因执行不同的关机流程的目的,达到了减少关闭存储集群时的人为干预,并简化了关闭存储集群过程的运维难度的技术效果,进而解决了相关技术中存储集群的控制方法控制存储集群关机容易导致数据丢失,导致存储集群的可靠性和稳定性较差的技术问题。
可选地,本发明上述实施例中,判断失败原因是否满足预设条件包括:判断失败原因是否为异常结束;如果失败原因是异常结束,则判断失败原因是否满足数据一致性条件;如果失败原因不满足数据一致性条件,则确定失败原因不满足预设条件;如果失败原因不是异常结束,或失败原因满足数据一致性条件,则确定失败原因满足预设条件。
在一种可选的实施例中,上述的预设条件可以是非异常结束的错误,或者异常结束但不影响数据一致性的错误,在此基础上,在某个关机步骤执行失败时,可以判断导致该关机步骤执行失败的错误是否是异常结束的错误,如果不是,则可以确定失败原因满足预设条件,可以重试该关机步骤,并继续执行关机流程;如果是,则可以进一步确定该错误是否满足数据一致性条件,也即判断该错误是否会影响存储集群中存储的数据一致性的错误,如果不是,则可以确定失败原因满足预设条件,可以重试该关机步骤,并继续执行关机流程;如果是,则可以确定失败原因不满足预设条件,可以实时推送通知人工干预,整个关机流程终止。
可选地,本发明上述实施例中,控制存储集群关机包括:检测存储集群是否异常结束;如果存储集群未异常结束,则关闭存储集群的数据接口;在数据接口关闭成功之后,关闭存储集群的保活服务;在保活服务关闭成功之后,关闭存储集群的统计和告警服务;关闭存储集群的存储服务;在存储服务关闭成功之后,存储操作日志;关闭存储集群的数据库;在数据库关闭成功之后,关闭存储集群的节点。
在一种可选的实施例中,存储集群关机可以依次执行如下关机流程:关机检查,检查存储集群是否异常结束;为了避免继续接收业务请求,导致无尽等待,可以关闭业务API(Application Programming Interface,应用程序接口),并等待业务处理完成;为了避免后续关闭的服务被保活服务再拉起,可以关闭保活服务;由于后续关闭服务产生的统计和告警不具参考价值,可以事先关闭统计和告警服务;关闭存储服务;记录操作日志,该操作日志在关闭业务API时已经开启,在该步骤之后闭合操作日志,并标记记录完成;管理数据已经记录完毕,数据库服务至此可以正常关闭;关闭集群节点,在上述几个步骤全部执行完毕之后,可以确定存储集群关机成功。
需要说明的是,对于关机检查,对于已知异常导致关机失败,为了避免重新开始,可以终止整个关机流程。
可选地,本发明上述实施例中,在数据接口或保活服务关闭失败的情况下,重新关闭数据接口或保活服务,其中,如果重新关闭数据接口或保活服务的次数超过预设次数,则控制存储集群停止关机。
上述步骤中的数据接口可以是指业务API,但不仅限于此。预设次数可以是预先设置的允许存储集群重试关闭的次数,例如,是3次,但不仅仅限于此。
需要说明的是,API关闭失败的情况较少。在一种可选的实施例中,在业务API或保活服务关闭失败时,可以进行重试,多次重试后如果仍旧关闭失败,则可以终止整个关机流程。
可选地,本发明上述实施例中,在统计和告警服务关闭失败的情况下,在操作日志中存储对应的失败记录。
在一种可选的实施例中,关机流程中后续关闭服务产生的统计和告警不具备参考价值,因此,可以事先关闭统计和告警服务,失败后记录日志并继续,也即,将统计和告警服务的失败记录存储在操作日志中。
可选地,本发明上述实施例中,关闭存储集群的存储服务包括:按照存储层从上到下的顺序,逐层对存储数据进行更新;在存储数据更新完毕之后,按照存储层从上到下的顺序,逐层关闭存储层。
在一种可选的实施例中,关闭存储服务的过程可以是在存储层从上到下,逐层下刷存储数据,下刷数据完成之后可以逐层关闭。
可选地,本发明上述实施例中,在存储层关闭失败的情况下,该方法还包括:判断导致存储层关闭失败的错误是否为异常错误;如果导致存储层关闭失败的错误是异常错误,则发送通知消息,并控制存储集群停止关机;如果导致存储层关闭失败的错误不是异常错误,则在操作日志中存储对应的失败记录,并执行存储操作日志的步骤。
在一种可选的实施例中,对于存储服务的关闭,如果是非异常错误导致的失败,则可以记录日志,也即,将存储服务的失败记录存储在操作日志中,由于相关存储服务已经提供一致性保证,因此,可以继续执行关机流程;如果是异常错误导致的失败,则可以通知人工干预,并终止关机流程。
可选地,本发明上述实施例中,在关闭存储集群的数据库之前,该方法还包括:将存储集群中主节点的节点信息和主数据库的数据库信息进行存储,其中,节点信息和数据库信息用于在存储集群重启之后恢复主节点和主数据库;在节点信息和数据库信息存储完成之后,关闭数据库。
目前集群关闭后不能保证还原关闭前,集群的主从状态。因此,集群重启后主节点、主数据库可能发生切换,导致从节点落后于主节点,也即关闭后的数据落后于关闭前的数据的时间窗口,进而导致管理数据在重启后和关闭前不一致。此时发生读写,可能会导致主从数据不一致。
为了解决上述问题,在关闭数据库之前,可以记录存储集群的状态,功存储集群重启后恢复状态。在一种可选的实施例中,可以记录主节点、主数据库信息,从而在存储集群重启后,可以根据记录的信息恢复主节点、主数据库,避免重启后主节点、主数据库发生切换。信息记录完毕之后,可以确定管理数据已经记录完毕,数据库服务可以正常关闭,可以确定数据库提供了一致性保证。
可选地,本发明上述实施例中,在数据库关闭失败的情况下,该方法还包括:在操作日志中存储对应的失败记录,并执行关闭存储集群的节点的步骤。
在一种可选的实施例中,在数据库关闭失败时,可以记录日志并继续,也即,将存储服务的失败记录存储在操作日志中,并继续执行关机流程。
可选地,本发明上述实施例中,关闭存储集群的节点包括:通过主节点发送关闭请求至从节点,并按照预设周期获取从节点的关闭结果;在预设时间段到达之前,如果关闭结果是关闭成功,则关闭主节点;在预设时间段到达之后,如果关闭结果是关闭失败,则发送通知消息,并控制存储集群停止关机。
上述步骤中的预设周期可以是预先设置的主节点检测从节点关闭状况的周期。
在一种可选的实施例中,存储集群的关闭由主节点依次执行关机流程完毕,从节点接收主节点广播的关闭请求,处理请求并响应处理结果。主节点可以根据响应是否异常,作相应处理,响应正常时可以继续执行关机流程。具体地,在超时之前,从节点完成关闭之后,主节点关闭;超时之后,从节点未完成关闭,主节点可以向用户推送需要人工接入通知,终止整个关机流程。
下面结合图2对本发明一种优选的实施例进行详细说明。如图2所示,关机流程如下:
步骤S21,关机检查。
可选地,检查通过进入步骤S22;已知异常导致关机失败,已知失败需避免开始,关机流程结束。
步骤S22,关闭业务API。
可选地,正常关闭后进入步骤S23;关闭失败后重试,多次重试仍旧失败时,关机流程结束。
步骤S23,关闭保活服务。
可选地,正常关闭后进入步骤S24;关闭失败后重试,多次重试仍旧失败时,关机流程结束。
步骤S24,关闭统计和告警服务。
可选地,正常关闭后进入步骤S25;关闭失败后记日志并继续执行步骤S25。
步骤S25,关闭存储服务。
可选地,在存储层从上到下,逐层下刷存储数据。下刷数据完成后逐层关闭。对于非异常错误导致的失败,记日志并继续执行步骤S26;对于异常错误导致的失败,通知人工干预,关机流程结束。
步骤S26,记录操作日志。
可选地,闭合失败后继续执行步骤S27,系统重启后可以处理未闭合的操作日志。
步骤S27,关闭数据库。
可选地,关闭数据库之前,需记录主节点、主数据库信息,供集群重启时恢复关机前的状态。此后,管理数据至此已经记录完毕,数据库服务至此可以正常关闭。关闭失败后记录日志并继续执行步骤S28。
步骤S28,关闭集群节点。
可选地,主节点广播并周期检查从节点关闭状况。超时之前,从节点完成关闭之后,主节点关闭;超时之后,从节点未完成关闭,主节点向用户推送需要人工介入通知,关机流程结束。
通过上述步骤,本发明提供了一种易用的关闭存储集群的方案。减少了关闭存储集群时的人为干预;简化了关闭存储集群过程的运维难度;并保证了集群再次启动后的可靠运行。
实施例2
根据本发明实施例,还提供了一种存储集群的控制装置。该装置可以执行上述实施例1中提供的存储集群的控制方法,具体实现方案、优选的实施例和应用场景与上述实施例1相同,在此不做赘述。
图3是根据本发明实施例的一种存储集群的控制装置的示意图,如图3所示,该装置包括:
控制模块32,用于在接收到关机指令之后,控制存储集群关机。
判断模块34,用于在检测到存储集群关机失败的情况下,判断导致存储集群关机失败的失败原因是否满足预设条件。
控制模块32还用于如果失败原因满足预设条件,则控制存储集群继续关机。
在一种可选的实施例中,在确定导致存储集群关机失败的失败原因是非异常结束的错误,或者异常结束但不影响数据一致性的错误之后,可以继续控制执行关机流程,也即继续执行下一个关机步骤。
发送模块36,用于如果失败原因不满足预设条件,则发送通知消息;
停止模块38,用于如果失败原因不满足预设条件,则控制存储集群停止关机。
可选地,本发明上述实施例中,判断模块包括:第一判断单元,用于判断失败原因是否为异常结束;第二判断单元,用于如果失败原因是异常结束,则判断失败原因是否满足数据一致性条件;第一确定单元,用于如果失败原因不满足数据一致性条件,则确定失败原因不满足预设条件;第二确定单元,用于如果失败原因不是异常结束,或失败原因满足数据一致性条件,则确定失败原因满足预设条件。
可选地,本发明上述实施例中,控制模块包括:检测单元,用于检测存储集群是否异常结束;第一关闭单元,用于如果存储集群未异常结束,则关闭存储集群的数据接口;第二关闭单元,用于在数据接口关闭成功之后,关闭存储集群的保活服务;第三关闭单元,用于在保活服务关闭成功之后,关闭存储集群的统计和告警服务;第四关闭单元,用于关闭存储集群的存储服务;存储单元,用于在存储服务关闭成功之后,存储操作日志;第六关闭单元,用于关闭存储集群的数据库;第七关闭单元,用于在数据库关闭成功之后,关闭存储集群的节点。
可选地,本发明上述实施例中,第二关闭单元还用于在数据接口关闭失败的情况下,重新关闭数据接口;第三关闭单元还用于在保活服务关闭失败的情况下,重新关闭保活服务;其中,停止模块还用于如果重新关闭数据接口或保活服务的次数超过预设次数,则控制存储集群停止关机。
可选地,本发明上述实施例中,该装置还包括:存储模块,用于在统计和告警服务关闭失败的情况下,在操作日志中存储对应的失败记录。
可选地,本发明上述实施例中,第四关闭单元还用于按照存储层从上到下的顺序,逐层对存储数据进行更新,并在存储数据更新完毕之后,按照存储层从上到下的顺序,逐层关闭存储层。
可选地,本发明上述实施例中,判断模块还用于在存储层关闭失败的情况下,判断导致存储层关闭失败的错误是否为异常错误;发送模块还用于如果导致存储层关闭失败的错误是异常错误,则发送通知消息;停止模块还用于如果导致存储层关闭失败的错误是异常错误,则控制存储集群停止关机;存储模块还用于如果导致存储层关闭失败的错误不是异常错误,则在操作日志中存储对应的失败记录;存储单元还用于如果导致存储层关闭失败的错误不是异常错误,则执行存储操作日志的步骤。
可选地,本发明上述实施例中,该装置还包括:存储模块,用于在关闭存储集群的数据库之前,将存储集群中主节点的节点信息和主数据库的数据库信息进行存储,其中,节点信息和数据库信息用于在存储集群重启之后恢复主节点和主数据库;第六关闭单元还用于在节点信息和数据库信息存储完成之后,关闭数据库。
可选地,本发明上述实施例中,该装置还包括:存储模块,用于在数据库关闭失败的情况下,在操作日志中存储对应的失败记录,第七关闭单元还用于在数据库关闭失败的情况下,执行关闭存储集群的节点的步骤。
可选地,本发明上述实施例中,第七关闭单元还用于通过主节点发送关闭请求至从节点,并按照预设周期获取从节点的关闭结果,在预设时间段到达之前,如果关闭结果是关闭成功,则关闭主节点;发送模块还用于在预设时间段到达之后,如果关闭结果是关闭失败,则发送通知消息;停止模块还用于在预设时间段到达之后,如果关闭结果是关闭失败,则控制存储集群停止关机。
实施例3
根据本发明实施例,提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例1中的存储集群的控制方法。
实施例4
根据本发明实施例,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述实施例1中的存储集群的控制方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种存储集群的控制方法,其特征在于,包括:
在接收到关机指令之后,控制所述存储集群关机;
在检测到所述存储集群关机失败的情况下,判断导致所述存储集群关机失败的失败原因是否满足预设条件;
如果所述失败原因满足所述预设条件,则控制所述存储集群继续关机;
如果所述失败原因不满足所述预设条件,则发送通知消息,并控制所述存储集群停止关机;
其中,判断所述失败原因是否满足预设条件包括:判断所述失败原因是否为异常结束;如果所述失败原因是所述异常结束,则判断所述失败原因是否满足数据一致性条件;如果所述失败原因不满足所述数据一致性条件,则确定所述失败原因不满足所述预设条件;如果所述失败原因不是所述异常结束,或所述失败原因满足所述数据一致性条件,则确定所述失败原因满足所述预设条件。
2.根据权利要求1所述的方法,其特征在于,控制所述存储集群关机包括:
检测所述存储集群是否异常结束;
如果所述存储集群未异常结束,则关闭所述存储集群的数据接口;
在所述数据接口关闭成功之后,关闭所述存储集群的保活服务;
在所述保活服务关闭成功之后,关闭所述存储集群的统计和告警服务;
关闭所述存储集群的存储服务;
在所述存储服务关闭成功之后,存储操作日志;
关闭所述存储集群的数据库;
在所述数据库关闭成功之后,关闭所述存储集群的节点。
3.根据权利要求2所述的方法,其特征在于,在所述数据接口或所述保活服务关闭失败的情况下,重新关闭所述数据接口或所述保活服务,其中,如果重新关闭所述数据接口或所述保活服务的次数超过预设次数,则控制所述存储集群停止关机。
4.根据权利要求2所述的方法,其特征在于,在所述统计和告警服务关闭失败的情况下,在所述操作日志中存储对应的失败记录。
5.根据权利要求2所述的方法,其特征在于,关闭所述存储集群的存储服务包括:
按照存储层从上到下的顺序,逐层对存储数据进行更新;
在所述存储数据更新完毕之后,按照存储层从上到下的顺序,逐层关闭所述存储层。
6.根据权利要求5所述的方法,其特征在于,在所述存储层关闭失败的情况下,所述方法还包括:
判断导致所述存储层关闭失败的错误是否为异常错误;
如果导致所述存储层关闭失败的错误是所述异常错误,则发送所述通知消息,并控制所述存储集群停止关机;
如果导致所述存储层关闭失败的错误不是所述异常错误,则在所述操作日志中存储对应的失败记录,并执行所述存储操作日志的步骤。
7.根据权利要求2所述的方法,其特征在于,在关闭所述存储集群的数据库之前,所述方法还包括:
将所述存储集群中主节点的节点信息和主数据库的数据库信息进行存储,其中,所述节点信息和所述数据库信息用于在所述存储集群重启之后恢复所述主节点和所述主数据库;
在所述节点信息和所述数据库信息存储完成之后,关闭所述数据库。
8.根据权利要求7所述的方法,其特征在于,在所述数据库关闭失败的情况下,所述方法还包括:
在所述操作日志中存储对应的失败记录,并执行所述关闭所述存储集群的节点的步骤。
9.根据权利要求2所述的方法,其特征在于,关闭所述存储集群的节点包括:
通过主节点发送关闭请求至从节点,并按照预设周期获取所述从节点的关闭结果;
在预设时间段到达之前,如果所述关闭结果是关闭成功,则关闭所述主节点;
在所述预设时间段到达之后,如果所述关闭结果是关闭失败,则发送所述通知消息,并控制所述存储集群停止关机。
10.一种存储集群的控制装置,其特征在于,包括:
控制模块,用于在接收到关机指令之后,控制所述存储集群关机;
判断模块,用于在检测到所述存储集群关机失败的情况下,判断导致所述存储集群关机失败的失败原因是否满足预设条件;
所述控制模块还用于如果所述失败原因满足所述预设条件,则控制所述存储集群继续关机;
发送模块,用于如果所述失败原因不满足所述预设条件,则发送通知消息;
停止模块,用于如果所述失败原因不满足所述预设条件,则控制所述存储集群停止关机;
其中,所述判断模块包括:第一判断单元,用于判断所述失败原因是否为异常结束;第二判断单元,用于如果所述失败原因是所述异常结束,则判断所述失败原因是否满足数据一致性条件;第一确定单元,用于如果所述失败原因不满足所述数据一致性条件,则确定所述失败原因不满足所述预设条件;第二确定单元,用于如果所述失败原因不是所述异常结束,或所述失败原因满足所述数据一致性条件,则确定所述失败原因满足所述预设条件。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的存储集群的控制方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的存储集群的控制方法。
CN202010740183.6A 2020-07-28 2020-07-28 存储集群的控制方法、装置、计算机可读存储介质、处理器 Active CN111917576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010740183.6A CN111917576B (zh) 2020-07-28 2020-07-28 存储集群的控制方法、装置、计算机可读存储介质、处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010740183.6A CN111917576B (zh) 2020-07-28 2020-07-28 存储集群的控制方法、装置、计算机可读存储介质、处理器

Publications (2)

Publication Number Publication Date
CN111917576A CN111917576A (zh) 2020-11-10
CN111917576B true CN111917576B (zh) 2023-05-16

Family

ID=73286781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010740183.6A Active CN111917576B (zh) 2020-07-28 2020-07-28 存储集群的控制方法、装置、计算机可读存储介质、处理器

Country Status (1)

Country Link
CN (1) CN111917576B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783603A (zh) * 2021-01-18 2021-05-11 深圳市科思科技股份有限公司 集群关机控制方法、系统及存储介质
CN113687867B (zh) * 2021-08-24 2023-12-29 济南浪潮数据技术有限公司 一种云平台集群的关机方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280125A (zh) * 2011-04-25 2011-12-14 杭州海康威视数字技术股份有限公司 一种对异常关机所丢失数据进行恢复的方法及硬盘录像机
CN102546719A (zh) * 2010-12-31 2012-07-04 研祥智能科技股份有限公司 一种网络远程控制系统、方法及节点机
WO2018036148A1 (zh) * 2016-08-23 2018-03-01 东方网力科技股份有限公司 一种服务器集群系统
CN109408220A (zh) * 2017-08-17 2019-03-01 北京国双科技有限公司 一种任务处理方法及装置
CN111147565A (zh) * 2019-12-22 2020-05-12 北京浪潮数据技术有限公司 一种集群节点控制方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546719A (zh) * 2010-12-31 2012-07-04 研祥智能科技股份有限公司 一种网络远程控制系统、方法及节点机
CN102280125A (zh) * 2011-04-25 2011-12-14 杭州海康威视数字技术股份有限公司 一种对异常关机所丢失数据进行恢复的方法及硬盘录像机
WO2018036148A1 (zh) * 2016-08-23 2018-03-01 东方网力科技股份有限公司 一种服务器集群系统
CN109408220A (zh) * 2017-08-17 2019-03-01 北京国双科技有限公司 一种任务处理方法及装置
CN111147565A (zh) * 2019-12-22 2020-05-12 北京浪潮数据技术有限公司 一种集群节点控制方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于任务负载监测的高性能集群节点启停机制;曹宗雁等;《计算机应用研究》;20111215;第4663-4680页 *

Also Published As

Publication number Publication date
CN111917576A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
US7802128B2 (en) Method to avoid continuous application failovers in a cluster
JP6291248B2 (ja) ファームウェアアップグレードエラー検出および自動ロールバック
US7716520B2 (en) Multi-CPU computer and method of restarting system
WO2017177941A1 (zh) 主备数据库切换方法和装置
CN111917576B (zh) 存储集群的控制方法、装置、计算机可读存储介质、处理器
CN109726046B (zh) 机房切换方法及切换装置
US9946600B2 (en) Method of detecting power reset of a server, a baseboard management controller, and a server
US8713553B2 (en) Disk array apparatus and firmware update method therefor
US20120109919A1 (en) High availability database management system and database management method using same
CN109144789B (zh) 一种重启osd的方法、装置及系统
US20020112198A1 (en) Method and apparatus for recovering from failure of a mirrored boot device
CN113064757A (zh) 一种服务器固件自恢复系统及服务器
CN112631820A (zh) 软件系统的故障恢复方法及装置
CN114675998A (zh) 一种监控定时快照任务的方法、装置、设备及介质
US20110173233A1 (en) Database system and database control method
CN112650624B (zh) 一种集群升级方法、装置、设备及计算机可读存储介质
JP2010067115A (ja) データ記憶システム、データ記憶方法
WO2010135966A1 (zh) 成对冗余结构中器件的升级方法及设备
CN116149932A (zh) 软件系统状态的检测方法、装置及电子设备
CN111427721B (zh) 异常恢复方法及装置
JPH07183891A (ja) 計算機システム
JP3335779B2 (ja) プラント性能監視システム
KR20030062793A (ko) 리눅스 운영 시스템의 백업 및 복원을 위한 운영 장치 및방법
CN105320615A (zh) 数据存储方法和数据存储装置
CN116521622B (zh) 一种基于数据快照自动化管理数据的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100094 101, floors 1-5, building 7, courtyard 3, fengxiu Middle Road, Haidian District, Beijing

Applicant after: Beijing Xingchen Tianhe Technology Co.,Ltd.

Address before: 100097 room 806-1, block B, zone 2, Jinyuan times shopping center, indigo factory, Haidian District, Beijing

Applicant before: XSKY BEIJING DATA TECHNOLOGY Corp.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant