CN116846501A - 一种时间同步的方法及相关组件 - Google Patents
一种时间同步的方法及相关组件 Download PDFInfo
- Publication number
- CN116846501A CN116846501A CN202310576293.7A CN202310576293A CN116846501A CN 116846501 A CN116846501 A CN 116846501A CN 202310576293 A CN202310576293 A CN 202310576293A CN 116846501 A CN116846501 A CN 116846501A
- Authority
- CN
- China
- Prior art keywords
- time
- server
- slave
- master
- synchronization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012937 correction Methods 0.000 claims abstract description 54
- 230000001360 synchronised effect Effects 0.000 claims abstract description 20
- 238000012423 maintenance Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011084 recovery Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 238000007726 management method Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/0635—Clock or time synchronisation in a network
- H04J3/0638—Clock or time synchronisation among nodes; Internode synchronisation
- H04J3/0658—Clock or time synchronisation among packet nodes
- H04J3/0661—Clock or time synchronisation among packet nodes using timestamps
- H04J3/0667—Bidirectional timestamps, e.g. NTP or PTP for compensation of clock drift and for compensation of propagation delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种时间同步的方法及相关组件,涉及服务器集群技术领域,在发现时间不同步的情况后,停止从服务器与主时间服务器的自动时间校正,避免服务器集群产生告警误报;基于用户操作通过远程连接协议对时间进行手动调整,每次可以调节较大量的时间,且调节速度快,调节时间的效率相比自动时间校正来说更高;同时在完成时间同步后,恢复从服务器与主时间服务器的自动时间校正,保留服务器集群的自动校正功能的同时,保证了服务器集群信息展示的准确性。
Description
技术领域
本发明涉及服务器集群技术领域,特别是涉及一种时间同步的方法及相关组件。
背景技术
时间同步的目的是将不同服务器的时间进行校准,使其各自时间相对偏差为0或者是非常微小。对于大型的服务器集群,时间同步是服务器集群正常工作及各服务器信息交互的基础,是建立各服务器连接链路的前提。具体的,在服务器集群环境搭建的过程中,将处于服务器集群中的某个服务器作为主时间服务器,其他服务器作为从服务器,从服务器以主时间服务器为时钟源,以使整个服务器集群的时间均与时钟源保持一致,从而完成时间同步。
相关技术中,当服务器集群中出现从服务器与主时间服务器的时间出现偏差的情况时,通过NTP(Network Time Protocol,网络时间协议)服务进行自动时间校正,即在从服务器与主时间服务器之间进行时间信息交互,获取主时间服务器的时间信息,并对出现时间偏差的从服务器进行多次调制校正,实现对该从服务器上的本地时间的调节。但由于通过NTP服务进行时间同步时,每次只能调节少量时间,且每次调节操作之间的间隔长,这种时间同步方式对于时间偏差较大的情况调节速度慢,导致服务器集群中的服务器持续上报告警信息,影响服务器集群信息展示的准确性。
发明内容
本发明的目的是提供一种时间同步的方法及相关组件,每次可以调节较大量的时间,且调节速度快,调节时间的效率相比自动时间校正来说更高,保证了服务器集群信息展示的准确性。
为解决上述技术问题,本发明提供了一种时间同步的方法,应用于服务器集群,所述服务器集群包括主时间服务器和多个与所述主时间服务器连接的从服务器,所述方法包括:
当检测到存在所述从服务器与所述主时间服务器的时间不同步的情况时,停止所述从服务器与所述主时间服务器的自动时间校正;
基于用户操作通过远程连接协议对所述从服务器的时间进行调整,以使所述从服务器与所述主时间服务器的时间同步;
当所述从服务器与所述主时间服务器的时间同步后,恢复所述从服务器与所述主时间服务器的自动时间校正。
一方面,在检测到存在所述从服务器与所述主时间服务器的时间不同步的情况之前,还包括:
获取所述从服务器与所述主时间服务器之间的时间差;
判断所述时间差是否大于预设的时间差阈值;
若是,则判定存在所述从服务器与所述主时间服务器的时间不同步的情况。
一方面,在检测到存在所述从服务器与所述主时间服务器的时间不同步的情况之后,还包括:
将所述服务器集群中的存储磁盘设置为维护状态;
在所述从服务器与所述主时间服务器的时间同步之后,还包括:
取消为所述服务器集群中的存储磁盘设置的维护状态。
另一方面,在检测到存在所述从服务器与所述主时间服务器的时间不同步之后,还包括:
将所述从服务器向所述主时间服务器发送心跳的心跳时间间隔从第一心跳间隔调整为预设的第二心跳间隔,所述第一心跳间隔的时长小于所述第二心跳间隔的时长;
在所述从服务器与所述主时间服务器的时间同步之后,还包括:
将所述从服务器向所述主时间服务器发送心跳的心跳时间间隔从所述第二心跳间隔调整为所述第一心跳间隔。
一方面,在停止所述从服务器与所述主时间服务器的时间校正之前,还包括:
判断所述从服务器的存储高可用服务的功能是否正常;
若是,则进入停止所述从服务器与所述主时间服务器的时间校正的步骤;
若否,则对所述从服务器的存储高可用服务进行修复。
一方面,在恢复所述从服务器与所述主时间服务器的自动时间校正之后,还包括:
判断所述服务器集群在预设验证时长内是否未出现告警信息;
若是,则判定所述服务器集群处于正常状态。
另一方面,在恢复所述从服务器与所述主时间服务器的自动时间校正之前,还包括:
获取所述从服务器与所述主时间服务器之间的时间差;
判断所述时间差是否大于预设的时间差阈值;
若是,则判定存在所述从服务器与所述主时间服务器的时间不同步的情况。
本发明还提供了一种时间同步的装置,应用于服务器集群中的处理器,所述服务器集群还包括主时间服务器和多个与所述主时间服务器连接的从服务器,所述装置包括:
自动校正停止模块,用于当检测到存在所述从服务器与所述主时间服务器的时间不同步的情况时,停止所述从服务器与所述主时间服务器的自动时间校正;
远程校正模块,用于基于用户操作通过远程连接协议对所述从服务器的时间进行调整,以使所述从服务器与所述主时间服务器的时间同步;
自动校正恢复模块,用于当所述从服务器与所述主时间服务器的时间同步后,恢复所述从服务器与所述主时间服务器的自动时间校正。
本发明还提供了一种服务器集群,包括主时间服务器和多个与所述主时间服务器连接的从服务器,还包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述的时间同步的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述目标计算机可读存储介质上储存有计算机程序,所述目标计算机程序被处理器执行时实现如上述所述的时间同步的方法的步骤。
本发明提供的一种时间同步的方法及相关组件,在发现时间不同步的情况后,停止从服务器与主时间服务器的自动时间校正,避免服务器集群产生告警误报;基于用户操作通过远程连接协议对时间进行手动调整,每次可以调节较大量的时间,且调节速度快,调节时间的效率相比自动时间校正来说更高;同时在完成时间同步后,恢复从服务器与主时间服务器的自动时间校正,保留服务器集群的自动校正功能的同时,保证了服务器集群信息展示的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种时间同步的方法的流程图;
图2为本发明实施例提供的另一种时间同步的方法的流程图;
图3为本发明实施例提供的一种时间同步的装置的结构示意图;
图4为本发明实施例提供的一种服务器集群的结构示意图;
图5为本发明实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
本发明的核心是提供一种时间同步的方法及相关组件,每次可以调节较大量的时间,且调节速度快,调节时间的效率相比自动时间校正来说更高,保证了服务器集群信息展示的准确性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例提供的一种时间同步的方法的流程图,应用于服务器集群,服务器集群包括主时间服务器和多个与主时间服务器连接的从服务器,方法包括:
S101:当检测到存在从服务器与主时间服务器的时间不同步的情况时,停止从服务器与主时间服务器的自动时间校正;
具体实施例中,可用性更高定期检测服务器集群的状态,确认是否有时间不同步的问题存在,一般来说每10分钟进行一次检测。若存在从服务器与主时间服务器的时间不同步的情况,且两服务器之间的误差较大时,则停止从服务器与主时间服务器的自动时间校正,即通过systemctl stop ntpd指令停止集群中所有服务器的NTP服务,以便后续根据用户操作对服务器的时间进行调节。
需要说明的是,本实施例并不限制服务器集群的具体类型,在一些实施例中,本实施例的时间同步的方法主要针对分布式存储系统:分布式存储系统是一款面向中高端存储应用需求的存储平台,它具有高可靠性、高可扩展性、高性能等特点,同时提供了专门的界面管理平台,可以进行服务设置、告警监控和统计信息显示等。集群节点的服务设置,告警监控和统计信息展示等均需要依托集群的时钟同步,如果时间不一致,会导致部分服务设置失败,告警误报和统计信息显示异常。
存储系统环境搭建过程中,选定一个服务器作为主时间服务器,服务器集群中其他服务器以该主时间服务器为时钟源,作为时间同步的基准。对于节点上出现的时间偏小的误差,可以通过NTP服务实现时间同步,一旦集群节点出现时间较大的误差,或者主时间服务器出现时间误差,就无法保证集群各节点间的时间一致性。
默认情况下服务器的NTP服务是从外网时间服务器来更新时间的,在集群中使用只要保证集群中所有的服务器时间一致即可,所以先配置其中一台服务器为主时间服务器,其他服务器相对来说为这台时间服务器的客户端,从主时间服务器上获取时间数据,从而避免联网。具体选择主时间服务器的过程,一般是根据服务器集群中的服务器的IP网段进行配置,这个配置根据自己的网关和网段配置,只要能保证局域网主机通信就可以,这个配置就是授权局域网内能从本地同步时间的主机范围。所以,对于时间不同步的情况出现,可能是从服务器由于关机、断电等问题和主时间服务器出现时间偏差,也可能是主时间服务器自身的时间与正确时间出现偏差。
本实施例并不限定检测从服务器与主时间服务器的时间不同步的具体方法,例如可以预设时间阈值,定期对从服务器和主时间服务器之间的时间差进行判断,当时间差超过时间阈值则判定从服务器与主时间服务器的时间不同步,或者可以是通过时间异常告警信息进行判定,或者可以是其他对从服务器与主时间服务器之间的时间进行检测的方法,操作人员可以根据实际情况进行设定。
S102:基于用户操作通过远程连接协议对从服务器的时间进行调整,以使从服务器与主时间服务器的时间同步;
具体实施例中,当时间不同步的情况是由于从服务器自身和主时间服务器出现偏差导致时,操作人员可以选择服务器集群中的任一服务器,通过远程连接协议登录到时间不同步的从服务器上,使用date-s命令对该从服务器进行时间调整,date命令的功能是可以用来显示或者设定系统的时间和日期。如果在实际的操作过程中,只输入单独的date的命令,那么系统会以默认的格式显示当前的系统时间。date命令修改时间,后面可以跟不同的命令参数,以达到不同的时间修改效果,如date-s“2023-03-10 15:51:50”,即将从服务器的时间调整到2023-03-10 15:51:50,即将服务器的时间设置为2023年3月10日15时51分50秒。
需要说明的是,每次调整时间间隔不超过20s,如果每次调整的时间间隔过大,服务器的告警系统可能会出现误判的情况,即认为某一端时钟出了故障,自动进行报警,可能会造成业务风险;所以当时间误差较多时,需要进行多次调整,且每一次调整前都需要确保服务器集群处于正常状态。
如果时间不同步的情况是由于主时间服务器自身的时间与正确时间出现偏差,则操作人员选择服务器集群中的任一服务器,通过远程连接协议登录到主时间服务器上,使用date-s命令对主时间服务器的时间进行调整。
本实施例并不限定远程连接协议的具体类型,在本实施例中采用ssh协议(SecureShell,安全外壳协议)在时间不同步的服务器和操作人员进行操作的服务器中建立连接,当然也可以是其他具有通信功能的远程连接协议,只要能实现在两个服务器之间建立通信连接,且可以通过该远程连接协议对时间不同步的服务器下发时间调整的指令即可。
S103:当从服务器与主时间服务器的时间同步后,恢复从服务器与主时间服务器的自动时间校正。
具体实施例中,当集群各服务器的时间一致后,重启集群中所有服务器的NTP服务,并对NTP服务的状态进行检验,当NTP服务的状态正常时,则结束时间同步的流程。
本发明提供的一种时间同步的方法及相关组件,在发现时间不同步的情况后,停止从服务器与主时间服务器的自动时间校正,避免服务器集群产生告警误报;基于用户操作通过远程连接协议对时间进行手动调整,每次可以调节较大量的时间,且调节速度快,调节时间的效率相比自动时间校正来说更高;同时在完成时间同步后,恢复从服务器与主时间服务器的自动时间校正,保留服务器集群的自动校正功能的同时,保证了服务器集群信息展示的准确性。
在上述实施例的基础上:
在一些实施例中,在S101检测到存在从服务器与主时间服务器的时间不同步的情况之前,还包括:
获取从服务器与主时间服务器之间的时间差;
具体实施例中,通过ntpq-p命令查询网络中的NTP服务器,同时显示主时间服务器和每个从服务器的关系,具体会得到一个记录了详细信息的列表,表中的offset表示主时间服务器与从服务器的时间偏移,单位为毫秒(ms)。offset越接近于0,从服务器与主时间服务器的时间越接近。
判断时间差是否大于预设的时间差阈值;
若是,则判定存在从服务器与主时间服务器的时间不同步的情况。
具体实施例中,观察ntpq-p命令下发后返回的值中的offset值,若误差在超过1000,即超过预设的时间差阈值,则判定存在从服务器与主时间服务器的时间不同步的情况。
本实施例通过offset值来获取从服务器与主时间服务器之间的时间差,并根据时间差阈值判断是否存在时间不同步的情况,即使时间异常告警未检测出时间异常的故障,以极大提高运维可操作性和系统可靠性,方便操作人员管理和维护。
在一些实施例中,在S101检测到存在从服务器与主时间服务器的时间不同步的情况之后,还包括:
将服务器集群中的存储磁盘设置为维护状态;
具体实施例中,当检测到存在从服务器与主时间服务器的时间不同步的情况时,通过icfs osd set noout指令将服务器集群中的存储磁盘设置为维护状态,即对osd(Object Storage Device,对象存储设备)设置noout状态,此种状态下osd不会被out出集群,以避免在进行时间调整的过程中,由于时间出现变化,osd被设置为down并且被out出集群,此时该osd中的数据会被转移到其他的osd中,在确定oad状态正常后,又会将数据回迁到该osd中;其中osd一般指服务器中用于存储数据的存储磁盘,当然也可以是其他的存储设备,每台服务器可能有多个osd,osd之间可以进行数据的同步和转移。
在从服务器与主时间服务器的时间同步之后,还包括:
取消为服务器集群中的存储磁盘设置的维护状态。
本实施例通过将服务器集群中的存储磁盘设置为维护状态,避免由于osd中数据反复进行转移和回迁造成占据服务器的处理渠道,进而造成资源的浪费,提高服务器集群的性能。
在一些实施例中,在S101检测到存在从服务器与主时间服务器的时间不同步之后,还包括:
将从服务器向主时间服务器发送心跳的心跳时间间隔从第一心跳间隔调整为预设的第二心跳间隔,第一心跳间隔的时长小于第二心跳间隔的时长;
对于服务器集群来说,判断一台服务器是否依然和其他服务器保持连接,可以检查这台服务器是不是经常发送消息给其他服务器。如果经常收到该服务器发出的消息,那么证明服务器之间的连接没问题。但是有些服务器并不经常向其他服务器发送消息。对于这种服务器,可以使用类似心跳时间机制来判断服务器是否在线。具体的,从服务器每经过第一心跳间隔向主时间服务器发送特定数据,若主时间服务端在第一心跳时间间隔内没有收到从服务器的数据消息,则认为该从服务器掉线,即从服务器与主时间服务器之间的连接断开。
从服务器向主时间服务器发送心跳后,主时间服务器会相应返回特定数据,从服务器会根据返回的心跳来设置本地时间。具体实施例中,为了避免对从服务器的时间进行修正的过程中,由于心跳时间机制,出现针对时间调整的异常操作,将心跳间隔时间延长,一般是延长至1分钟,心跳间隔时间也可以更长。
在从服务器与主时间服务器的时间同步之后,还包括:
将从服务器向主时间服务器发送心跳的心跳时间间隔从第二心跳间隔调整为第一心跳间隔。
具体实施例中,当时间同步操作结束后,将从服务器向主时间服务器发送心跳的心跳时间间隔从1分钟恢复至6秒,即将心跳时间机制恢复至原本状态。
本实施例通过对心跳时间间隔的调节,避免由于心跳时间机制对基于用户操作的时间同步操作产生影响,提高了时间同步的效率和准确性。
在一些实施例中,在S101停止从服务器与主时间服务器的时间校正之前,还包括:
判断从服务器的存储高可用服务的功能是否正常;
若是,则进入停止从服务器与主时间服务器的自动时间校正的步骤;
若否,则对从服务器的存储高可用服务进行修复。
存储高可用,是为了满足生产系统高实时性和生产数据的高可用性要求,任一存储设备出现故障时,为保证业务不中断,令另一台存储设备能够继续提供完整的数据服务,过程中主要通过IP地址进行存储设备的匹配;具体的,每一台服务器均有自己本身的物理IP,每个物理IP均有自己对应的虚拟IP,当某一台服务器出现故障时,虚拟IP自动和另一台服务器的物理IP进行匹配,故障转移切换自动完成无需人工干预,整个过程不会影响其他服务器对数据的读写,实现数据零丢失,保证业务的连续性。
具体实施例中,由于服务器出现故障、服务器断电、服务器被out出集群等情况,可能导致从服务器的存储高可用服务的功能出现异常,故而在进行时间校正前,要对从服务器的存储高可用服务的功能进行检测,若发现有异常情况出现,则及时进行修复,以保证存储高可用服务的功能的可用性。
本实施例通过对存储高可用功能的检测,保证了从服务器的存储高可用服务的功能的可用,保证在时间同步过程中业务不中断,提高服务器集群的可靠性。
在一些实施例中,在S103恢复从服务器与主时间服务器的自动时间校正之后,还包括:
判断服务器集群在预设验证时长内是否未出现告警信息;
若是,则判定服务器集群处于正常状态。
具体实施例中,对集群状态进行连续30分钟的观察,如果一直为正常状态,即一直未出现任何的告警信息,则结束集群服务器的时间同步流程。
具体的,对于服务器集群中的一些存储性能、资源等情况,it系统管理员以及对应的开发人员、监控人员都必须第一时间了解并作出调整,以减少对产线正常业务的影响。当设备发生故障或某些原因导致系统处于不正常的工作状态时,系统能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。若配置了网管系统,则该告警信息会通过SNMP(Simple Network Management Protocol)协议向网管系统发送。设备能检测设备所处的环境,若超出设备正常工作的环境要求,会发出相应的告警信息。
告警按照对系统的影响又可分为:事件和故障,事件是指系统正常运行时记录下来的关键事件,一般对系统没有影响;故障是指可能影响系统的正常运行的告警。本实施例中提到的告警信息主要指服务器集群中出现故障导致的告警信息。
服务器集群中的服务器的告警信息上报、告警恢复以及统计信息显示都需要依靠集群的时钟信息,及时对集群节点时间进行同步,避免了告警误报,保证告警和统计信息展示的准确性。
本实施例通过在时间同步完成后对告警信息进行监控,对服务器集群的状态进行监控,以保证在出现异常时可以及时对服务器集群进行处理,提高服务器集群的可靠性的同时,也提高了服务器集群的性能。
在一些实施例中,在S103恢复从服务器与主时间服务器的自动时间校正之前,还包括:
获取从服务器与主时间服务器之间的时间差;
判断时间差是否大于预设的时间差阈值;
若是,则判定存在从服务器与主时间服务器的时间不同步的情况。
具体实施例中,通过ntpq-p命令查询网络中的NTP服务器,同时显示主时间服务器和每个从服务器的关系,具体会得到一个记录了详细信息的列表,表中的offset表示主时间服务器与从服务器的时间偏移,单位为毫秒(ms)。offset越接近于0,从服务器与主时间服务器的时间越接近。
具体实施例中,观察ntpq-p命令下发后返回的值中的offset值,若误差在超过1000,即超过预设的时间差阈值,则判定存在从服务器与主时间服务器的时间不同步的情况。
当经过用户操作的手动调节后,服务器集群仍有可能存在时间不同步的情况,此时可以重新进行手动调节,若时间差没有特别大,也可以通过NTP服务自动进行时间校正。
本实施例通过offset值来获取从服务器与主时间服务器之间的时间差,并根据时间差阈值判断是否存在时间不同步的情况,即使时间异常告警未检测出时间异常的故障,以极大提高运维可操作性和系统可靠性,方便操作人员管理和维护。
请参考图2,图2为本发明实施例提供的另一种时间同步的方法的流程图:
S201:定时检查分布式存储集群状态,确认是否有时间不同步的问题;
S202:当检测到有集群节点时间不同步时,设置维护模式icfs osd set noout,即对osd设置noout状态,此种状态下osd不会被out出集群;
S203:检查确认存储高可用的服务状态;
S204:如果存储高可用服务状态不正常,先对高可用服务进行修复,使其恢复为正常状态;
S205:如果存储高可用服务状态正常,则调整存储高可用服务的心跳时间间隔为1分钟;
S206:通过systemctl stop ntpd停止集群所有节点的NTP服务;
S207:通过ssh登录到时间不同步的节点上,使用date-s命令进行时间调整,如date-s“2023-03-10 15:51:50”,每次调整时间间隔不超过20s,如果时间误差较多,需要进行多次调整,每一次调整前需要确保集群状态已经恢复到正常状态;
S208:集群各节点时间一致后,重启所有节点的ntp服务,并确认ntp状态正常;
S209:集群状态恢复正常后,恢复存储高可用服务心跳配置,将心跳时间间隔设置为6秒;
S210:检查集群状态和存储高可用服务及状态,确保状态均为正常;
S211:通过icfs osd unset noout指令取消维护模块;
S212:对集群状态进行连续30分钟的观察,如果一直为正常状态,则集群节点时间同步流程结束。
请参考图3,图3为本发明实施例提供的一种时间同步的装置的结构示意图,应用于服务器集群中的处理器,服务器集群还包括主时间服务器和多个与主时间服务器连接的从服务器,装置包括:
自动校正停止模块301,用于当检测到存在从服务器与主时间服务器的时间不同步的情况时,停止从服务器与主时间服务器的自动时间校正;
远程校正模块302,用于基于用户操作通过远程连接协议对从服务器的时间进行调整,以使从服务器与主时间服务器的时间同步;
自动校正恢复模块303,用于当从服务器与主时间服务器的时间同步后,恢复从服务器与主时间服务器的自动时间校正。
在一些实施例中,还包括:
第一时间差获取模块,用于获取从服务器与主时间服务器之间的时间差;
第一时间差判断模块,用于判断时间差是否大于预设的时间差阈值;
第一时间不同步判定模块,用于当时间差大于预设的时间差阈值时,判定存在从服务器与主时间服务器的时间不同步的情况。
在一些实施例中,还包括:
维护状态设定模块,用于将服务器集群中的存储磁盘设置为维护状态;
还包括:
维护状态取消模块,用于取消为服务器集群中的存储磁盘设置的维护状态。
在一些实施例中,还包括:
心跳间隔调整模块,用于将从服务器向主时间服务器发送心跳的心跳时间间隔从第一心跳间隔调整为预设的第二心跳间隔,第一心跳间隔的时长小于第二心跳间隔的时长;
还包括:
心跳间隔恢复模块,用于将从服务器向主时间服务器发送心跳的心跳时间间隔从第二心跳间隔调整为第一心跳间隔。
在一些实施例中,还包括:
存储高可用检测模块,用于判断从服务器的存储高可用服务的功能是否正常;
存储高可用正常模块,用于当从服务器的存储高可用服务的功能正常时,进入停止从服务器与主时间服务器的自动时间校正的步骤;
存储高可用修复模块,用于当从服务器的存储高可用服务的功能不正常时,对从服务器的存储高可用服务进行修复。
在一些实施例中,还包括:
告警检测模块,用于判断服务器集群在预设验证时长内是否未出现告警信息;
集群正常判定模块,用于当服务器集群在预设验证时长内未出现告警信息时,判定服务器集群处于正常状态。
在一些实施例中,还包括:
第二时间差获取模块,用于获取从服务器与主时间服务器之间的时间差;
第二时间差判断模块,用于判断时间差是否大于预设的时间差阈值;
第二时间不同步判定模块,用于当时间差大于预设的时间差阈值时,判定存在从服务器与主时间服务器的时间不同步的情况。
对于本发明提供的一种时间同步的装置的介绍请参考上述实施例,本发明在此不做赘述。
请参考图4,图4为本发明实施例提供的一种服务器集群的结构示意图,包括主时间服务器和多个与主时间服务器连接的从服务器,还包括:
存储器401,用于存储计算机程序;
处理器402,用于执行计算机程序时实现如上述的时间同步的方法的步骤。
其中,处理器402可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器402可以采用DSP(Digital Signal Processor,数字信号处理器)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器402也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器;协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器402可以集成GPU(graphics processing unit,图形处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器402还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器401可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器401还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器401至少用于存储以下计算机程序,其中,该计算机程序被处理器402加载并执行之后,能够实现前述任意一个实施例公开的元数据管理方法的相关步骤。另外,存储器401所存储的资源还可以包括操作系统和数据等,存储方式可以是短暂存储或者永久存储。其中,操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于元数据管理方法的数据等。
在一些实施例中,元数据缓存装置还可包括有显示屏、输入输出接口、通信接口、电源以及通信总线。
本领域技术人员可以理解的是,图4中示出的结构并不构成对元数据缓存装置的限定,可以包括比图示更多或更少的组件。
对于本发明提供的一种服务器集群的介绍请参考上述实施例,本发明在此不做赘述。
请参考图5,图5为本发明实施例提供的一种计算机可读存储介质的结构示意图,目标计算机可读存储介质501上储存有计算机程序502,目标计算机程序502被处理器执行时实现如上述的时间同步的方法的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质501中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。具体地,计算机可读存储介质501可以包括但不限于任何类型的盘,包括软盘、光盘及移动硬盘等,或适合于存储指令、数据的任何类型的媒介或设备等等,本申请在此不做特别的限定。
对于本发明提供的一种计算机可读存储介质的介绍请参考上述实施例,本发明在此不做赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
Claims (10)
1.一种时间同步的方法,其特征在于,应用于服务器集群,所述服务器集群包括主时间服务器和多个与所述主时间服务器连接的从服务器,所述方法包括:
当检测到存在所述从服务器与所述主时间服务器的时间不同步的情况时,停止所述从服务器与所述主时间服务器的自动时间校正;
基于用户操作通过远程连接协议对所述从服务器的时间进行调整,以使所述从服务器与所述主时间服务器的时间同步;
当所述从服务器与所述主时间服务器的时间同步后,恢复所述从服务器与所述主时间服务器的自动时间校正。
2.如权利要求1所述的时间同步的方法,其特征在于,在检测到存在所述从服务器与所述主时间服务器的时间不同步的情况之前,还包括:
获取所述从服务器与所述主时间服务器之间的时间差;
判断所述时间差是否大于预设的时间差阈值;
若是,则判定存在所述从服务器与所述主时间服务器的时间不同步的情况。
3.如权利要求1所述的时间同步的方法,其特征在于,在检测到存在所述从服务器与所述主时间服务器的时间不同步的情况之后,还包括:
将所述服务器集群中的存储磁盘设置为维护状态;
在所述从服务器与所述主时间服务器的时间同步之后,还包括:
取消为所述服务器集群中的存储磁盘设置的维护状态。
4.如权利要求1所述的时间同步的方法,其特征在于,在检测到存在所述从服务器与所述主时间服务器的时间不同步之后,还包括:
将所述从服务器向所述主时间服务器发送心跳的心跳时间间隔从第一心跳间隔调整为预设的第二心跳间隔,所述第一心跳间隔的时长小于所述第二心跳间隔的时长;
在所述从服务器与所述主时间服务器的时间同步之后,还包括:
将所述从服务器向所述主时间服务器发送心跳的心跳时间间隔从所述第二心跳间隔调整为所述第一心跳间隔。
5.如权利要求1所述的时间同步的方法,其特征在于,在停止所述从服务器与所述主时间服务器的时间校正之前,还包括:
判断所述从服务器的存储高可用服务的功能是否正常;
若是,则进入停止所述从服务器与所述主时间服务器的时间校正的步骤;
若否,则对所述从服务器的存储高可用服务进行修复。
6.如权利要求1所述的时间同步的方法,其特征在于,在恢复所述从服务器与所述主时间服务器的自动时间校正之后,还包括:
判断所述服务器集群在预设验证时长内是否未出现告警信息;
若是,则判定所述服务器集群处于正常状态。
7.如权利要求1至6任一项所述的时间同步的方法,其特征在于,在恢复所述从服务器与所述主时间服务器的自动时间校正之前,还包括:
获取所述从服务器与所述主时间服务器之间的时间差;
判断所述时间差是否大于预设的时间差阈值;
若是,则判定存在所述从服务器与所述主时间服务器的时间不同步的情况。
8.一种时间同步的装置,其特征在于,应用于服务器集群中的处理器,所述服务器集群还包括主时间服务器和多个与所述主时间服务器连接的从服务器,所述装置包括:
自动校正停止模块,用于当检测到存在所述从服务器与所述主时间服务器的时间不同步的情况时,停止所述从服务器与所述主时间服务器的自动时间校正;
远程校正模块,用于基于用户操作通过远程连接协议对所述从服务器的时间进行调整,以使所述从服务器与所述主时间服务器的时间同步;
自动校正恢复模块,用于当所述从服务器与所述主时间服务器的时间同步后,恢复所述从服务器与所述主时间服务器的自动时间校正。
9.一种服务器集群,其特征在于,包括主时间服务器和多个与所述主时间服务器连接的从服务器,还包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的时间同步的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述目标计算机可读存储介质上储存有计算机程序,所述目标计算机程序被处理器执行时实现如权利要求1至8任一项所述的时间同步的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576293.7A CN116846501A (zh) | 2023-05-19 | 2023-05-19 | 一种时间同步的方法及相关组件 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576293.7A CN116846501A (zh) | 2023-05-19 | 2023-05-19 | 一种时间同步的方法及相关组件 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116846501A true CN116846501A (zh) | 2023-10-03 |
Family
ID=88158864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310576293.7A Pending CN116846501A (zh) | 2023-05-19 | 2023-05-19 | 一种时间同步的方法及相关组件 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116846501A (zh) |
-
2023
- 2023-05-19 CN CN202310576293.7A patent/CN116846501A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106331098B (zh) | 一种服务器集群系统 | |
JP6827501B2 (ja) | ホットバックアップシステム、ホットバックアップ方法、及びコンピュータ機器 | |
CN108737574B (zh) | 一种节点离线判断方法、装置、设备及可读存储介质 | |
CN112506702B (zh) | 数据中心容灾方法、装置、设备及存储介质 | |
EP2273371A2 (en) | Failover procedure for server system | |
EP3285168A1 (en) | Disaster tolerance method and apparatus in active-active cluster system | |
CN111290918A (zh) | 服务器运行状态监控方法、装置及计算机可读存储介质 | |
CN111953566B (zh) | 一种基于分布式故障监控的方法和虚拟机高可用系统 | |
US8156319B2 (en) | Self-restarting network devices | |
CA2734616A1 (en) | Method and systems for synchronization of process control servers | |
US20210320977A1 (en) | Method and apparatus for implementing data consistency, server, and terminal | |
CN105471622A (zh) | 一种基于Galera的控制节点主备切换的高可用方法及系统 | |
CN110659158A (zh) | 基于双机热备环境的Influx DB数据备份方法 | |
CN111752488B (zh) | 存储集群的管理方法、装置、管理节点及存储介质 | |
CN113946448B (zh) | 一种服务器集群的时序管理方法、装置及电子设备 | |
CN116069373A (zh) | 一种bmc固件升级方法、装置及其介质 | |
CN111737037A (zh) | 基板管理控制方法、主从异构bmc控制系统及存储介质 | |
JP2015088123A (ja) | 監視制御システム、監視制御装置および設定情報バックアップ方法 | |
CN111752962B (zh) | 一种保证mha集群高可用及一致性的系统及方法 | |
CN116185697B (zh) | 容器集群管理方法、装置、系统、电子设备及存储介质 | |
CN116846501A (zh) | 一种时间同步的方法及相关组件 | |
CN114124803B (zh) | 设备管理方法、装置、电子设备及存储介质 | |
CN106326042B (zh) | 一种运行状态确定方法及装置 | |
CN112468330B (zh) | 一种故障节点的设置方法、系统、设备以及介质 | |
CN112787868B (zh) | 一种信息同步的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |