CN113946448B - 一种服务器集群的时序管理方法、装置及电子设备 - Google Patents

一种服务器集群的时序管理方法、装置及电子设备 Download PDF

Info

Publication number
CN113946448B
CN113946448B CN202111266962.8A CN202111266962A CN113946448B CN 113946448 B CN113946448 B CN 113946448B CN 202111266962 A CN202111266962 A CN 202111266962A CN 113946448 B CN113946448 B CN 113946448B
Authority
CN
China
Prior art keywords
event
timestamp
server
servers
local process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111266962.8A
Other languages
English (en)
Other versions
CN113946448A (zh
Inventor
王斯
袁传博
张秀波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111266962.8A priority Critical patent/CN113946448B/zh
Publication of CN113946448A publication Critical patent/CN113946448A/zh
Application granted granted Critical
Publication of CN113946448B publication Critical patent/CN113946448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/547Messaging middleware

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器集群的时序管理方法、装置及电子设备,其中方法包括:当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳。通过启用逻辑时钟同步功能并根据事件产生方式在本地进程中对事件进行时间戳标记,保证了对事件时序记录的准确性。

Description

一种服务器集群的时序管理方法、装置及电子设备
技术领域
本发明涉及服务器管理技术领域,具体涉及一种服务器集群的时序管理方法、装置及电子设备。
背景技术
随着计算机系统的发展以及互联网在各行各业的海量应用,服务器的使用数量也越来越多。如何搭建服务器集群管理系统以更高效地管理服务器集群就成为了各企业,尤其是大量使用服务器的互联网企业重点关注的问题。传统的服务器集群的管理方式是设置一个中心节点,其上搭建了一套服务器集群管理软件,通过此管理软件与每台服务器上的BMC(Baseboard Management Controller,基板管理控制器)进行交互,从而获取服务器集群信息以用于维护服务器。服务器集群管理常遇到时间同步的问题,虽然服务器BMC已经有了两种同步物理时钟的方法:用于使时间同步化的协议NTP(Network Time Protocol)以及使用Intel ME(Intel Management Engine,因特尔管理引擎)。在使用NTP、ME方法同步过时间后,服务器BMC即按本身的计时器来更新时间。
然而,由于服务器BMC个体之间不可避免存在差异,即使每台服务器BMC在同一时间,其本身记录的物理时间也可能有所不同,这就导致在同一个服务器集群中每台服务器BMC所记录的事件日志时间并不能反映出真实的先后顺序。比如,服务器A记录11点的关机事件日志,服务器B记录11点1分的关机事件日志;而由于硬件上不可避免的误差,当A服务器的硬件计时器计时较慢导致服务器A的时间有偏差,可能导致服务器A实际记录的是11点2分的关机事件日志。由于事件日志时间记录不准确,将导致服务器运维人员对事件发生顺序出现了误解,在一个服务器集群中,如果判断错了第一台发生故障而关机的机器,会大大增加故障恢复的难度,不利于正常的运维操作。
发明内容
因此,本发明要解决的技术问题在于克服现有服务器集群中的事件日志时间记录方式不准确的缺陷,从而提供一种服务器集群的时序管理方法、装置及电子设备。
根据第一方面,本发明实施例公开了一种服务器集群的时序管理方法,应用于服务器集群中具有交互关系的多个服务器中的任一服务器,所述方法包括:当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳。
可选地,所述方法还包括:当监听到的事件为发送本地事件,将所述本地事件的事件日志以及所述本地事件对应的时间戳进行递增处理后广播给具有交互关系的其他服务器。
可选地,所述方法还包括:对监听同一事件的所有服务器设置相同的初始时间戳。
可选地,所述方法还包括:对每一个事件对应的事件日志进行记录。
可选地,所述方法还包括:当接收到服务器集群管理系统发送的日志搜集请求,将事件日志以及对应的事件时间戳发送至所述服务器集群管理系统。
可选地,所述方法还包括:当服务器启动时,触发NTP物理时间同步功能和/或ME物理时间同步功能。
可选地,所述方法还包括:当服务器启动时,触发NTP物理时间同步功能;当通过所述NTP物理时间同步功能完成物理时间同步操作,响应对所述逻辑时钟同步功能的触发操作;当通过所述NTP物理时间同步功能未完成物理时间同步操作,触发ME物理时间同步功能。
根据第二方面,本发明实施例还公开了一种服务器集群的时序管理装置,应用于服务器集群中具有交互关系的多个服务器中的任一服务器,所述装置包括:事件监听模块,用于当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;第一时间戳确定模块,用于当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;第二时间戳确定模块,用于当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;第三时间戳确定模块,用于对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳。
根据第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的服务器集群的时序管理方法的步骤。
根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的服务器集群的时序管理方法的步骤。
本发明技术方案,具有如下优点:
本发明提供的服务器集群的时序管理方法/装置,应用于服务器集群中具有交互关系的多个服务器中的任一服务器,当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作,当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳,当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳,对第一时间戳和第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳。通过启用逻辑时钟同步功能,并根据事件产生方式在本地进程中对事件进行时间戳标记,当是本地进程产生的事件时通过在前一个事件对应的时间戳的基础上进行递增操作,通过递增操作后使得后一个事件对应的时间戳大于前一个事件对应的时间戳并以此来准确区分本地进程的事件先后时序;当事件为其他服务器发送的事件,则将从其他服务器接收到的事件的时间戳以及当前自身已有的最新的时间戳中获取最大时间戳,然后在最大时间戳的基础上进行递增操作,保证了在不同服务器中对相同事件进行监听处理时记录的事件先后时序的准确性,避免了硬件差异引起的时间不准确问题对运维过程造成影响。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中服务器集群的时序管理方法的一个具体示例的流程图;
图2为本发明实施例中服务器集群的时序管理方法的一个具体示例的示意图;
图3为本发明实施例中服务器集群的时序管理方法的一个具体示例的示意图;
图4为本发明实施例中服务器集群的时序管理装置的一个具体示例的原理框图;
图5为本发明实施例中电子设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“连接”应做广义理解,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例公开了一种服务器集群的时序管理方法,应用于服务器集群中具有交互关系的多个服务器中的任一服务器,每一个服务器上设置有BMC(BaseboardManagement Controller,基板管理控制器),在每一个服务器BMC上预先集成Lamport逻辑时钟同步功能;如图1所示,该方法包括如下步骤:
步骤101,当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;
示例性地,当服务器BMC监测到服务器启动时,触发逻辑时钟同步功能启用并响应事件监听操作。待监听的事件可以是服务器集群可以提供日志记录服务的任意类型的事件,如客户端的关机事件、异常下电事件等。本申请实施例对监听的事件类型不作限定,本领域技术人员可以根据实际需要确定。
步骤102,当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;
示例性地,当监听到的事件为当前服务器本地进程内产生的事件,则在上一个本地进程内相应事件对应的时间戳进行递增得到当前新产生的事件对应的时间戳;例如若上一个本地进程内相应事件对应的时间戳为“1”,则可以将当前新产生的事件对应的时间戳在上一个事件对应的时间戳的基础上进行递增处理,如可以将当前新产生的事件对应的时间戳设置为“2”。本申请实施例对递增处理得到的时间戳大小不作限定,只要可以根据时间戳大小确定事件发生的先后顺序即可,如也可以将前后发生的事件对应的时间戳设置为“1”、“3”、“5”等,本申请实施例对相邻发生的事件对应的时间戳间隔大小不作限定。
步骤103,当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;示例性地,对于服务器集群来说一般会同时使用多个服务器来为客户端提供一项服务,提供同一项服务的服务器之间相互通信连接,将自身监听到的进程中事件信息同步给其他服务器,其中事件信息可以包含事件内容以及相应事件发生的时间戳。
步骤104,对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳。
示例性地,通过获取第一时间戳和第二时间戳之间的最大值,并在获取到的最大值的基础上作递增处理,若第二时间戳大于第一时间戳,则当前监听到的事件对应的时间戳可以为“第二时间戳+1”,使得在本地进程中当前监听到的事件对应的时间戳大于本地进程中历史事件对应的时间戳;若第一时间戳大于第二时间戳,则当前监听到的事件对应的时间戳可以为“第一时间戳+1”,通过在本地进程将从其他服务器发过来的事件的时间戳设置为大于该事件在其原始服务器上的时间戳,保证具有交互关系的多个服务器之间对在相互之间同步的事件可以确定该事件的传输线路。当接收到BMC结束运行指令时,关闭BMC,停止运行逻辑时钟同步功能。
作为本申请一个具体实施方式,如图2所示,图2中包含三个服务器A、B、C,图2中的“横线”表征服务器监听的线程,“方框”中的数字表征事件的时间戳,“箭头”表征事件日志数据传输方向,Ai、Bi和Ci分别为三个服务器BMC记录的服务器事件日志,其中i可取值为1,2,…n。以服务器B为例,从线程自左至右,其初始事件对应的时间戳为“0”,当接收到服务器C同步的事件日志数据“B1”时,在接收到的事件日志数据中包含的时间戳“1”和其初始事件对应的时间戳“0”进行比对得到最大时间戳“1”,则对接收到的事件日志数据“B1”设置的时间戳为“2”;当监听到的事件为其本地进程内产生的事件,则该事件对应表的时间戳设置为“3”;图2中其他事件时间戳的设置方式以此类推,在此不再赘述。可以看出根据本申请实施例提供的事件时序管理方法可以准确地记录具有因果关系的事件在多个服务器之间的发生顺序,便于后续根据多个服务器记录的日志的顺序以及日志内容进行故障排查和设备维护处理。
本发明提供的服务器集群的时序管理方法,通过启用逻辑时钟同步功能,并根据事件产生方式在本地进程中对事件进行时间戳标记,当是本地进程产生的事件时通过在前一个事件对应的时间戳的基础上进行递增操作,通过递增操作后使得后一个事件对应的时间戳大于前一个事件对应的时间戳并以此来准确区分本地进程的事件先后时序;当事件为其他服务器发送的事件,则将从其他服务器接收到的事件的时间戳以及当前自身已有的最新的时间戳中获取最大时间戳,然后在最大时间戳的基础上进行递增操作,保证了在不同服务器中对相同事件进行监听处理时记录的事件先后时序的准确性,避免了硬件差异引起的时间不准确问题对运维过程造成影响。
作为本发明一个可选实施方式,所述方法还包括:当监听到的事件为发送本地事件,将所述本地事件的事件日志以及所述本地事件对应的时间戳进行递增处理后广播给具有交互关系的其他服务器。
示例性地,当每个BMC有新的事件日志产生时,会将日志广播给集群中的其他BMC,并借此将时间同步给其他BMC。在需要将本地进程产生的事件同步给具有交互关系的其他服务器时,对该事件在本地对应的时间戳进行递增处理后连同事件日志广播给其他服务器,通过对时间戳进行递增处理便于在本地进程中准确区分事件产生事件和事件发送的先后顺序的同时也进一步保证了在接收到该事件的服务器中形成的时间戳可以明显滞后于事件产生时的时间戳,以准确区分开同一事件在不同服务器记录的先后顺序。
作为本发明一个可选实施方式,所述方法还包括:对监听同一事件的所有服务器设置相同的初始时间戳。示例性地,当事件监听开始时,将对监听同一事件的所有服务器设置成相同的事件初始时间戳,以保证时间戳可以准备确定事件在不同服务器监听到的先后顺序。如图2所示,将三个服务器中事件的初始时间戳设置为“0”。本申请实施例对该初始时间戳大小不作限定。
作为本发明一个可选实施方式,所述方法还包括:对每一个事件对应的事件日志进行记录。
作为本发明一个可选实施方式,所述方法还包括:当接收到服务器集群管理系统发送的日志搜集请求,将事件日志以及对应的事件时间戳发送至所述服务器集群管理系统。
示例性地,如图3所示的服务器集群管理系统与三个BMC通信连接,每一个BMC中包含有日志记录模块、通信模块以及逻辑时钟同步模块,BMC之间相互同步逻辑时钟,服务器集群管理系统中的日志搜集模块从日志记录模块搜集到的日志中带有逻辑时钟的时间戳,根据时间戳大小很容易辨别不同服务器上每条日志的前后顺序,继而实现对服务器集群的管理。
作为本发明一个可选实施方式,所述方法还包括:当服务器启动时,触发NTP物理时间同步功能和/或ME物理时间同步功能。示例性地,在服务器启动的同时触发NTP物理时间同步功能和/或ME物理时间同步功能以实现物理时间同步,可以结合逻辑时钟同步功能进一步保证对服务器集群的时序管理的准确性。
作为本发明一个可选实施方式,所述方法还包括:当服务器启动时,触发NTP物理时间同步功能;当通过所述NTP物理时间同步功能完成物理时间同步操作,响应对所述逻辑时钟同步功能的触发操作;当通过所述NTP物理时间同步功能未完成物理时间同步操作,触发ME物理时间同步功能。
示例性地,通过在服务器启动时,先触发NTP物理时间同步功能,在不能完成物理时间同步操作时再触发启用ME物理时间同步功能,在进一步可靠实现物理时间同步的同时通过结合逻辑时钟同步功能进一步保证对服务器集群的时序管理的准确性。
本发明实施例提供的服务器集群的时序管理方法,将分布式技术的基础—Lamport逻辑时钟应用在服务器集群管理系统中,提供了一种软件上的方法,区分每台服务器事件日志先后发生的时序,避免了硬件差异引起的时间不准确问题对运维人员造成的困扰。
本发明实施例还公开了一种服务器集群的时序管理装置,该装置用于实现上述实施例及可选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。该装置应用于服务器集群中具有交互关系的多个服务器中的任一服务器,如图4所示,该装置包括:
事件监听模块201,用于当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;具体参见上述实施例中步骤101的描述,在此不再赘述。
第一时间戳确定模块202,用于当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;具体参见上述实施例中步骤102的描述,在此不再赘述。
第二时间戳确定模块203,用于当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;具体参见上述实施例中步骤103的描述,在此不再赘述。
第三时间戳确定模块204,用于对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳。具体参见上述实施例中步骤104的描述,在此不再赘述。
本发明提供的服务器集群的时序管理装置,通过启用逻辑时钟同步功能,并根据事件产生方式在本地进程中对事件进行时间戳标记,当是本地进程产生的事件时通过在前一个事件对应的时间戳的基础上进行递增操作,通过递增操作后使得后一个事件对应的时间戳大于前一个事件对应的时间戳并以此来准确区分本地进程的事件先后时序;当事件为其他服务器发送的事件,则将从其他服务器接收到的事件的时间戳以及当前自身已有的最新的时间戳中获取最大时间戳,然后在最大时间戳的基础上进行递增操作,保证了在不同服务器中对相同事件进行监听处理时记录的事件先后时序的准确性,避免了硬件差异引起的时间不准确问题对运维过程造成影响。
作为本发明一个可选实施方式,该装置还包括:时间戳发送模块,用于当监听到的事件为发送本地事件,将所述本地事件的事件日志以及所述本地事件对应的时间戳进行递增处理后广播给具有交互关系的其他服务器。具体参见上述实施例中对应部分的描述,在此不再赘述。
作为本发明一个可选实施方式,该装置还包括:初始时间戳设置模块,用于对监听同一事件的所有服务器设置相同的初始时间戳。具体参见上述实施例中对应部分的描述,在此不再赘述。
作为本发明一个可选实施方式,该装置还包括:日志记录模块,用于对每一个事件对应的事件日志进行记录。具体参见上述实施例中对应部分的描述,在此不再赘述。
作为本发明一个可选实施方式,该装置还包括:日志发送模块,用于当接收到服务器集群管理系统发送的日志搜集请求,将事件日志以及对应的事件时间戳发送至所述服务器集群管理系统。具体参见上述实施例中对应部分的描述,在此不再赘述。
作为本发明一个可选实施方式,该装置还包括:第一物理时间同步功能触发模块,用于当服务器启动时,触发NTP物理时间同步功能和/或ME物理时间同步功能。具体参见上述实施例中对应部分的描述,在此不再赘述。
作为本发明一个可选实施方式,该装置还包括:第二物理时间同步功能触发模块,用于当服务器启动时,触发NTP物理时间同步功能;逻辑时钟同步功能触发模块,用于当通过所述NTP物理时间同步功能完成物理时间同步操作,响应对所述逻辑时钟同步功能的触发操作;第三物理时间同步功能触发模块,用于当通过所述NTP物理时间同步功能未完成物理时间同步操作,触发ME物理时间同步功能。具体参见上述实施例中对应部分的描述,在此不再赘述。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器401和存储器402,其中处理器401和存储器402可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器401可以为中央处理器(Central Processing Unit,CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器402作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的服务器集群的时序管理方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的服务器集群的时序管理方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器401所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至处理器401。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器402中,当被所述处理器401执行时,执行如图1所示实施例中的服务器集群的时序管理方法。
上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (9)

1.一种服务器集群的时序管理方法,其特征在于,应用于服务器集群中具有交互关系的多个服务器中的任一服务器,服务器集群管理系统与BMC通信连接,BMC中包含有日志记录模块、通信模块以及逻辑时钟同步模块,BMC之间相互同步逻辑时钟,服务器集群管理系统中的日志搜集模块从日志记录模块搜集到的日志中带有逻辑时钟的时间戳,所述方法包括:
当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;
当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;
当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;
对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳;
当监听到的事件为发送本地事件,将所述本地事件的事件日志以及所述本地事件对应的时间戳进行递增处理后广播给具有交互关系的其他服务器,在将本地进程产生的事件同步给具有交互关系的其他服务器时,对所述事件在本地对应的时间戳进行递增处理后连同事件日志广播给其他服务器,通过对时间戳进行递增处理区分事件产生事件和事件发送的先后顺序,使得接收到本地进程产生的时间的其他服务器形成的时间戳滞后于本地进程产生事件时的时间戳,得到同一事件在不同服务器记录的先后顺序。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对监听同一事件的所有服务器设置相同的初始时间戳。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对每一个事件对应的事件日志进行记录。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当接收到服务器集群管理系统发送的日志搜集请求,将事件日志以及对应的事件时间戳发送至所述服务器集群管理系统。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当服务器启动时,触发NTP物理时间同步功能和/或ME物理时间同步功能。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当服务器启动时,触发NTP物理时间同步功能;
当通过所述NTP物理时间同步功能完成物理时间同步操作,响应对所述逻辑时钟同步功能的触发操作;
当通过所述NTP物理时间同步功能未完成物理时间同步操作,触发ME物理时间同步功能。
7.一种服务器集群的时序管理装置,其特征在于,应用于服务器集群中具有交互关系的多个服务器中的任一服务器,服务器集群管理系统与BMC通信连接,BMC中包含有日志记录模块、通信模块以及逻辑时钟同步模块,BMC之间相互同步逻辑时钟,服务器集群管理系统中的日志搜集模块从日志记录模块搜集到的日志中带有逻辑时钟的时间戳,所述装置包括:
事件监听模块,用于当服务器启动时,触发逻辑时钟同步功能并响应事件监听操作;
第一时间戳确定模块,用于当监听到的事件为在本地进程内产生的事件,则在本地进程中对上一个事件对应的时间戳作递增处理得到在本地进程中当前监听到的事件对应的时间戳;
第二时间戳确定模块,用于当监听到的事件为接收到其他服务器发送的事件,确定其他服务器发送的消息中包含的事件对应的第一时间戳和在本地进程中最新事件对应的第二时间戳;
第三时间戳确定模块,用于对所述第一时间戳和所述第二时间戳中的最大值进行递增操作得到当前监听到的事件对应的时间戳;
当监听到的事件为发送本地事件,将所述本地事件的事件日志以及所述本地事件对应的时间戳进行递增处理后广播给具有交互关系的其他服务器,在将本地进程产生的事件同步给具有交互关系的其他服务器时,对所述事件在本地对应的时间戳进行递增处理后连同事件日志广播给其他服务器,通过对时间戳进行递增处理区分事件产生事件和事件发送的先后顺序,使得接收到本地进程产生的时间的其他服务器形成的时间戳滞后于本地进程产生事件时的时间戳,得到同一事件在不同服务器记录的先后顺序。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6任一所述的服务器集群的时序管理方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的服务器集群的时序管理方法的步骤。
CN202111266962.8A 2021-10-28 2021-10-28 一种服务器集群的时序管理方法、装置及电子设备 Active CN113946448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111266962.8A CN113946448B (zh) 2021-10-28 2021-10-28 一种服务器集群的时序管理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111266962.8A CN113946448B (zh) 2021-10-28 2021-10-28 一种服务器集群的时序管理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113946448A CN113946448A (zh) 2022-01-18
CN113946448B true CN113946448B (zh) 2024-05-28

Family

ID=79336971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111266962.8A Active CN113946448B (zh) 2021-10-28 2021-10-28 一种服务器集群的时序管理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113946448B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627769A (zh) * 2022-09-26 2023-08-22 北京奥星贝斯科技有限公司 处理事务日志的方法及装置
CN117539659A (zh) * 2023-11-07 2024-02-09 上海介方信息技术有限公司 基于soa架构下逻辑时钟的事件运行控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453594A (zh) * 2016-10-26 2017-02-22 成都易云知科技有限公司 一种全局逻辑时钟同步分布式方法
CN107181805A (zh) * 2017-05-26 2017-09-19 上交所技术有限责任公司 一种在微服务架构下实现全局有序重演的方法
CN108829497A (zh) * 2018-05-31 2018-11-16 阿里巴巴集团控股有限公司 事务因果序的校正方法及装置、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396216B2 (en) * 2012-05-04 2016-07-19 Box, Inc. Repository redundancy implementation of a system which incrementally updates clients with events that occurred via a cloud-enabled platform

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453594A (zh) * 2016-10-26 2017-02-22 成都易云知科技有限公司 一种全局逻辑时钟同步分布式方法
CN107181805A (zh) * 2017-05-26 2017-09-19 上交所技术有限责任公司 一种在微服务架构下实现全局有序重演的方法
CN108829497A (zh) * 2018-05-31 2018-11-16 阿里巴巴集团控股有限公司 事务因果序的校正方法及装置、电子设备

Also Published As

Publication number Publication date
CN113946448A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
CN113946448B (zh) 一种服务器集群的时序管理方法、装置及电子设备
CN107508722B (zh) 一种业务监控方法和装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
WO2016183967A1 (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
WO2015007091A1 (zh) 一种数据记录生成方法及装置
CN104754035A (zh) 一种ntp和rtc芯片配合确保管理主板时间的方法
CN103699063A (zh) 一种制造执行系统mes中离线数据的采集装置和方法
WO2014206099A1 (zh) 一种多节点服务器系统的故障现场信息的收集方法及装置
CN111092865A (zh) 一种安全事件分析方法及系统
CN116319618A (zh) 交换机运行控制方法、装置、系统、设备及存储介质
CN106487852B (zh) 实现客户端文件同步的方法、装置、终端设备及系统
KR100650584B1 (ko) 이엠에스의 성능관리모듈에서 통계데이터 오류 통보방법
CN105703942A (zh) 一种日志采集方法及装置
CN115604088A (zh) 组件集群系统的主备切换方法、装置、设备及存储介质
CN114328093A (zh) 一种基于Hadoop的监控方法、系统、存储介质及设备
CN113127435A (zh) 一种主备系统文件智能同步方法及系统
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
CN113014346A (zh) 服务器时间偏差监测方法、装置、计算机设备和存储介质
CN114281615B (zh) 一种存储数据一致性自动化测试系统及方法
CN115396290B (zh) 一种故障自动恢复方法、装置及服务系统
JP7442751B1 (ja) 制御プログラム、監視制御システム、ゲートウェイ装置及び制御方法
CN114461494A (zh) 风电场分布式服务器的资源监控系统、方法和介质
CN116846501A (zh) 一种时间同步的方法及相关组件
CN114168553A (zh) 数据处理方法、装置及电子设备
CN116775624A (zh) 一种选煤厂数据管理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant