CN113765697B - 管理数据处理系统的日志的方法和系统及计算机可读介质 - Google Patents

管理数据处理系统的日志的方法和系统及计算机可读介质 Download PDF

Info

Publication number
CN113765697B
CN113765697B CN202110424674.4A CN202110424674A CN113765697B CN 113765697 B CN113765697 B CN 113765697B CN 202110424674 A CN202110424674 A CN 202110424674A CN 113765697 B CN113765697 B CN 113765697B
Authority
CN
China
Prior art keywords
node
leader
cluster
leader node
console
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110424674.4A
Other languages
English (en)
Other versions
CN113765697A (zh
Inventor
E·D·雅各布森
C·M·波克
P·K·阿玛古姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Enterprise Development LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Enterprise Development LP filed Critical Hewlett Packard Enterprise Development LP
Publication of CN113765697A publication Critical patent/CN113765697A/zh
Application granted granted Critical
Publication of CN113765697B publication Critical patent/CN113765697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种多节点数据处理系统的日志管理。计算机可读介质包括指令,所述指令在由多节点数据处理系统中的节点执行时使节点能够通过以下操作充当第一领导节点:从多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;以及将系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点和第三领导节点使用以保存多节点数据处理系统的第二集群和第三集群中的计算节点的系统日志数据。所述指令进一步使节点能够响应于第二领导节点和第三领导节点中的任一个的故障而自动承担与故障领导节点相关联的集群中的计算节点的系统日志记录职责。所述指令还使节点能够充当控制台桥并将控制台日志数据保存在共享存储装置中。

Description

管理数据处理系统的日志的方法和系统及计算机可读介质
技术领域
本公开总体涉及多节点数据处理系统的日志管理。
背景技术
具有传统分层管理的多节点数据处理系统可以包括数千个计算节点,以及多个领导节点和一个头节点。计算节点可以在最低层级处组织成集群。中间层级可以包括领导节点,每个领导节点管理一个集群。头节点可以在最高层级处操作。
发明内容
根据本公开的一方面,提供了一种包括指令的非暂态计算机可读介质,所述指令在由多节点数据处理系统中的节点执行时,使所述节点能够通过进行以下操作充当第一领导节点:从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点使用以保存用于所述多节点数据处理系统的第二集群中的计算节点的系统日志数据,以及由第三领导节点使用以保存用于所述多节点数据处理系统的第三集群中的计算节点的系统日志数据;以及响应于所述第二领导节点和所述第三领导节点中的任一个的故障,通过将发生故障的领导节点的集群中的计算节点的因特网协议IP地址添加到所述第一领导节点中的监听列表来自动承担与所述发生故障的领导节点相关联的集群中的计算节点的系统日志记录职责。
根据本公开的另一方面,提供了一种用于管理日志的系统,包括:处理器;计算机可读介质,所述计算机可读介质耦接至所述处理器;以及所述计算机可读介质中的指令,所述指令当由所述处理器执行时,使所述系统能够通过进行以下操作充当多节点数据处理系统的第一领导节点:从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点使用以保存用于所述多节点数据处理系统的第二集群中的计算节点的系统日志数据,以及由第三领导节点使用以保存用于所述多节点数据处理系统的第三集群中的计算节点的系统日志数据;以及响应于所述第二领导节点和所述第三领导节点中的任一个的故障,通过将发生故障的领导节点的集群中的计算节点的因特网协议IP地址添加到所述第一领导节点中的监听列表来自动承担与所述发生故障的领导节点相关联的集群中的计算节点的系统日志记录职责。
根据本公开的另一方面,提供了一种用于管理多节点数据处理系统的日志的方法,所述方法包括:使用所述多节点数据处理系统的第一领导节点中的监听列表,在所述第一领导节点处从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据,其中,所述监听列表包括要由所述第一集群中的所述计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的第一因特网协议IP地址;将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点和第三领导节点使用以保存所述多节点数据处理系统的第二集群和第三集群中的计算节点的系统日志数据;响应于所述第二领导节点的故障,在所述第一领导节点处通过将第二IP地址添加到所述第一领导节点中的所述监听列表来自动承担用于所述第二集群的系统日志记录职责;响应于所述第二领导节点的恢复,通过从所述第一领导节点中的所述监听列表移除所述第二IP地址来自动让与用于所述第二集群的系统日志记录职责;以及响应于所述第三领导节点的故障,在所述第一领导节点处自动承担用于所述第三集群的系统日志记录职责。
附图说明
图1为根据示例实施方式的具有用于系统日志数据的弹性日志记录的技术的多节点数据处理系统的框图。
图2为图示了根据示例实施方式的用于系统日志数据的弹性日志记录的过程的流程图。
图3为根据示例实施方式的具有用于弹性控制台管理的技术的多节点数据处理系统的框图。
图4为图示了根据示例实施方式的用于弹性控制台管理的过程的流程图。
图5为包括指令的计算机可读介质的框图,所述指令在由多节点数据处理系统中的节点执行时,使节点能够充当领导节点。
图6为具有用于系统日志数据的弹性日志记录的技术的系统的框图。
图7为图示了用于管理多节点数据处理系统中的日志的方法的流程图。
具体实施方式
本公开描述了用于为多节点数据处理系统内的领导节点提供故障切换(failover)的高效方法。出于本公开的目的,多节点数据处理系统可以被称为“多节点系统”。
由领导节点执行的管理操作可以包括针对该领导节点下的每个计算节点处理保存系统日志和控制台日志的负载。在传统的方法中,每个领导直接与节点的集合相关联,并且直接处理那些控制台日志和系统日志。然后,系统管理员可以登录领导节点以访问由该领导节点保存的控制台日志和系统日志。
由领导节点执行的管理操作还可以包括控制台连接转发。领导节点通过充当中间件以使头节点能够经由领导节点访问计算节点的系统控制台来执行控制台连接转发。具体地,头节点可以连接至领导节点,并且领导节点可以将该连接转发至计算节点的系统控制台。领导节点可以通过指示头节点连接至作为中间件的领导节点而非直接连接至计算节点来提供控制台连接转发。
分层多节点数据处理系统所面临的挑战之一是领导节点可能发生故障的风险。针对日志记录和针对控制台连接转发的故障切换可能无法实施,或者如果实施,可能是基于每个集群具有两个领导节点的系统,这是昂贵且限制性的。例如,为了提供计算资源的高可用性,每个集群可以具有:主领导节点,所述主领导节点通常处理用于集群的日志记录和控制台连接转发;以及备份领导节点,所述备份领导节点仅在主领导节点发生故障后执行日志记录和控制台连接转发职责。这样的备份领导节点可以被称为“冗余领导节点”。然而,配备具有冗余领导节点的多节点数据处理系统可能是昂贵的。例如,如果具有十个集群和十个主领导节点的系统使用了冗余领导节点,则该系统可能需要十个备份领导节点。
根据一个示例,多节点系统以分层方式在网络内组织,头节点位于顶部、领导节点的集合位于中部、并且许多计算节点位于底部。头节点配置领导节点以提供用于计算节点的控制台管理和日志记录功能。运行面向用户的工作的计算节点被组织到集群中。头节点向每个计算节点分配日志记录地址以指定该计算节点将通过网络发送的日志记录数据的目的地。日志记录地址可以为例如因特网协议(IP)地址或主机名称。而且,每个计算节点运行操作系统(OS),所述操作系统经由该日志记录地址将操作系统日志数据推送至领导节点。操作系统日志数据可以被称为“系统日志数据(system log data或syslog data)”。领导节点将所述系统日志数据保存到共享存储装置,所述共享存储装置是领导节点和头节点可访问的。
出于本公开的目的,术语“系统日志数据”是指由节点的OS的日志记录服务所产生的数据,其用于记录在该节点的操作期间发生的事件。不同的OS可以使用不同的用于日志记录服务的名称。例如,Unix OS可以使用名为“syslog”的守护进程(daemon)。如Linux等的类Unix OS也可以使用名为“syslog”的守护进程或如名为“syslogd”的守护进程或名为“syslogr”的守护进程等的类似的守护进程。另外或替代性地,类Unix OS可以使用名为“systemd”的另一守护进程内的日志记录功能。然而,其他类型的OS可以使用具有其他名称的日志记录服务。而且,进行日志记录的数据(即,由OS的日志记录服务所产生的数据)可以源于OS,或其可以源于另一部件,所述另一部件然后将数据发送至OS以供日志记录。例如,OS可以在启动过程期间生成用于记录启动事件(例如,记录各种服务已经启动或启动失败)的日志数据。OS还可以在启动后的操作期间生成日志数据以用于记录由OS检测到的事件。那些事件可以包括检测到的硬件状况或错误、认证事件等。检测到的硬件状况可以包括存储器故障、磁盘故障、过热等。认证事件的日志数据可以利用如所涉及的用户标识符(ID)、时间、以及尝试是成功还是失败等的信息来记录每次登录尝试。由OS在启动后的操作期间生成的日志数据也可以包括来自OS服务的日志数据。例如,OS中的动态主机配置协议(DHCP)服务器可以接收来自节点中的硬件部件的因特网协议(IP)地址请求,并且DHCP服务器可以生成日志数据以用于记录每个这样的请求以及所述请求是如何处理的。例如,与成功地处理IP地址请求有关,DHCP服务器可以生成诸如如下的系统日志数据:
·May 22 15:23:50 indeed dhcpd[8756]:DHCPACK on 172.24.0.9 to 52:54:00:62:cd:f5 via bond0
并且与拒绝IP地址请求有关,DHCP服务器可以生成如下系统日志数据:
·dhcpd-20191219:Dec 18 18:31:54 indeed dhcpd[16611]:DHCPDISCOVERfrom 52:54:00:62:cd:f5 via bond0:network cluster-networks:no free leases
如上文所指示的,进行日志记录的数据还可以源于OS外部。例如,应用程序可以将数据发送至OS以被包括在系统日志数据中。类似地,用户可以利用OS的命令行接口(CLI)来将数据发送至系统日志。因此,当出现问题(包括环境问题、硬件问题、系统服务问题和软件问题)时,OS产生系统日志数据来描述那些问题。然后,系统日志数据可以被用于调试问题并从问题中恢复,以执行安全性审计等。
在一个示例中,计算节点中的OS被配置成将由该计算节点产生的日志数据发送至特定目的地。例如,在一个示例中,计算节点被配置成将其日志数据发送至特定的网络地址,如上文所指出的。而且,对应的领导节点被配置成监听该地址,并将经由该地址接收的日志数据保存到共享存储装置。例如,如下文更详细地描述的,领导节点可以将每个计算节点的系统日志数据保存在单独的文件中。
每个节点以系统控制台为特征。系统控制台(或简称“控制台”)是可以由系统管理员使用以与节点的基本输入/输出系统(BIOS)交互并且在基本层级上与节点的OS交互的接口。例如,控制台可以提供接受命令并显示结果的命令行接口(CLI)。在一个实施例或场景中,控制台提供了在操作系统启动之前访问BIOS设置的手段,并且控制台将显示来自OS启动过程的所有消息。一旦启动系统,控制台就提供在低层级上访问和登录节点的手段。而且,如果用于访问系统的其他方法变得难以达到(例如,由于网络或软件问题),则控制台可以被用于调试问题。系统日志数据还可以包括系统控制台输入和输出。然而,调试和错误消息可以出现在控制台上,即使所述调试和错误消息由于网络问题或硬件问题(如磁盘故障)而没有出现在系统日志中。
在一个示例中,系统管理员可以使用连接至节点的(I/O)设备来与该节点的控制台交互。在另一个示例中,系统管理员使用一个节点来与另一个节点的控制台交互。例如,系统管理员可以使用头节点来与计算节点的控制台交互。当第一节点用于与第二节点的控制台交互时,第一节点可以被称为“控制台服务器”,并且所述第二节点可以被称为“受管理节点”。为了建立控制台连接,控制台服务器可以连接至受管理节点的管理处理器。
在另一个示例中,客户端节点使用中间节点与受管理节点的控制台交互。具体地,头节点可以是客户端,并且所述头节点可以使用领导节点来与计算节点的控制台交互。在这样的示例中,头节点和领导节点都是控制台服务器,因为所述头节点和领导节点中的每一者都(直接或间接地)用于与计算节点的控制台交互。然而,领导节点也可以更具体地被称为“控制台桥(console bridge)”,因为领导节点充当中间件以使头节点能够与计算节点的控制台交互。换言之,“控制台桥”是领导节点,所述领导节点已被配置成从头节点接受到计算节点的控制台连接的请求,并且通过建立与该计算节点的连接以使头节点能够经由领导节点与计算节点的控制台交互来响应于这种请求。例如,一旦桥节点已连接至计算节点的控制台,头节点就可以使用桥节点来与计算节点上的OS的CLI交互。因此,为了使头节点与计算节点的控制台交互,头节点实际上连接至控制台桥,并且控制台桥然后将该连接转发至计算节点。如下文更详细地描述的,利用配置数据来配置头节点和/或控制台桥以将控制台桥与特定计算节点相关联,并使头节点能够连接至用于期望的计算节点的适当的控制台桥。
要由领导节点执行的控制台管理功能可以包括控制台连接转发和控制台日志记录。出于本公开的目的,“控制台连接转发”表示由领导节点提供的服务,所述服务使头节点能够经由该领导节点与计算节点的控制台交互。因此,控制台桥是提供控制台连接转发的节点。
在一个示例中,当领导节点提供控制台连接转发时,系统管理员可以使用头节点上的单一命令连接至任何计算节点上的控制台,无论当前是哪个领导节点正在管理该控制台。领导节点可以向头节点提供使头节点能够进行这种连接的配置数据。换言之,领导节点用配置数据来配置头节点以能够实现连接转发。该配置数据可以被称为“控制台连接转发配置数据”(CCFCD)。领导节点也可以从计算节点拉取控制台日志数据,并同样将该日志数据保存到共享存储装置。例如,当领导节点提供控制台连接转发时,领导节点也可以将对应的控制台日志数据保存到共享存储装置。头节点也可以参与共享存储装置,使得控制台日志和系统日志都可经由头节点在本地对系统管理员可用。
每个领导节点通常管理计算节点的集群。然而,任何领导节点还可以从任何故障领导节点接管如日志记录和控制台管理等的管理职责。换言之,任何领导节点都可以充当故障切换节点。而且,一旦故障节点已经恢复操作,已恢复节点就可以从故障切换节点收回其原始职责。可以被认为发生故障的节点的条件包括节点冻结或关闭、节点中的存储装置不正常工作、服务异常停止等。
在一个示例中,每个领导节点运行高可用性(HA)管理程序或(“HA管理器”),所述HA管理程序或(“HA管理器”)可以检测另一个领导节点何时发生故障,并且可以通过从故障节点接管管理职责来响应。具体地,HA管理器使领导节点能够决定在所述领导节点之间哪个领导节点将充当故障领导节点的故障切换节点。而且,一旦故障领导节点已经恢复操作,该已恢复节点就可以从故障切换节点收回其原始职责。
领导节点可以使用被称为“监听列表”的日志记录地址列表以在领导节点之间动态转移管理职责。出于本公开的目的,领导节点中的监听列表为要由该节点服务或处理的日志记录地址列表。因此,每个领导节点可以基于该领导节点中的监听列表来服务系统日志数据。
在一个示例中,头节点向集群中的每个计算节点分配同一日志记录地址。在该示例中,集群中的所有计算节点可以将其系统日志发送至同一日志记录地址。头节点还可以为每个集群使用不同的日志记录地址。因此,每个集群可以将其系统日志发送至不同的日志记录地址。
而且,每个领导节点可以在正常情况下服务由一个集群所使用的日志记录地址。例如,多节点系统的初始配置可以为每个领导节点提供含有一个日志记录地址的监听列表。这样的配置也可以被称为“默认配置”或“正常配置”,这样的监听列表可以被称为“默认监听列表”或“正常监听列表”,并且领导节点的默认监听列表中的日志记录地址可以被称为该领导节点的“主”日志记录地址。例如,多节点系统的默认配置可以为每个领导节点提供含有一个主日志记录地址的默认监听列表。
当领导节点发生故障时,该领导节点的监听列表中的日志记录地址可以被称为“孤立日志记录地址”。类似地,正在使用孤立日志记录地址的计算节点可以被称为“孤立节点”或统称为“孤立集群”。在故障切换时,可以被称为“故障切换领导节点”的领导节点可以接管处理孤立集群的系统日志的责任。故障切换节点可以承担将孤立日志记录地址添加到故障切换节点的监听列表的责任。然后,故障切换领导节点可以服务于第一集群所使用的主日志记录地址和孤立集群所使用的孤立日志记录地址。
如上文所指出的,日志记录地址可以是例如IP地址。而且,这种IP地址可以被称为“IP别名”,因为该地址或多或少地充当了当前负责保存发送至该地址的系统日志数据的领导节点的名称,并且因为处理日志记录地址的责任可以随时间在领导节点之间转移。
根据本公开的多节点系统可以提供高可用性而不需要用于每个主领导节点的冗余领导节点。相反,所有领导节点通常可以是活跃的,并且每个领导节点都可以充当任何其他领导节点的故障切换领导节点。因此,这样的系统可以提供高可用性,而不需要如为每个集群提供主领导节点和专用的备份领导节点那样可能所需的多个领导节点。
图1为根据示例实施方式的多节点系统100的框图,所述多节点系统100具有用于系统日志数据的弹性日志记录的技术。多节点系统100以分层方式组织,头节点110位于顶部、多个领导节点(例如,领导节点120A、领导节点120B等)位于中部,并且多个集群(例如,集群A、集群B等)位于底部。每个集群包括多个计算节点。例如,集群A包括计算节点130AA、130AB等,并且集群B包括计算节点130BA、130BB等。
多节点系统100还包括共享存储装置140,所述共享存储装置可以由头节点110和领导节点访问。另外,即使任何领导节点发生故障(并且即使头节点发生故障),共享存储装置140仍然可被其他领导节点和头节点110访问。例如,共享存储装置140可以使用如通常以名称或商标Gluster提及的文件系统、通常以名称或商标Oracle Cluster File System(OCFS)或OCFS2提及的文件系统等的技术来实施。然而,在其他示例中,领导节点和头节点可以使用驻留在多节点系统外部的共享存储装置。例如,共享存储装置可以由外部存储设备提供,所述外部存储设备经由以下各项连接至多节点系统:网络连接;光纤通道连接;涉及小型计算机系统接口(SCSI)标准的连接,如串行附接SCSI(SAS)连接;等。
在一个示例中,头节点110运行服务器管理程序。服务器管理程序还可以被称为“服务器管理器114”。头节点110可以使用服务器管理器114来配置多节点系统100以用于HA操作。例如,服务器管理器114可以创建IP地址列表以由计算节点用于系统日志记录。该IP地址列表可以被称为“地址池”。例如,图1示出了头节点110中的包括这样的地址池118的配置数据库116。
头节点110还可以使每个计算节点将其系统日志发送至来自地址池118的特定IP地址。具体地,头节点110中的服务器管理器114可以将来自地址池188的第一IP地址分配给第一集群中的每个计算节点,将来自地址池118的第二IP地址分配给第二集群中的每个计算节点等,每个计算节点使用为其分配的IP地址进行系统日志记录。
在一个示例中,服务器管理器114通过将该日志记录地址包括在用于该计算节点的OS配置数据中来向每个计算节点分配日志记录地址。例如,服务器管理器114可以为计算节点130AA创建OS配置数据132AA,并且OS配置数据132AA可以包括要由计算节点130AA用于系统日志记录的日志记录地址。例如,服务器管理器114可以通过将日志记录地址作为选项传递至计算节点的内核参数列表来为所述计算节点配置该地址。
在图1中,为计算节点130AA分配的日志记录地址被描绘为日志记录地址134AA。服务器管理器114也可以将该日志记录地址分配给集群A中的其他计算节点。并且如上文所指出的,服务器管理器114可以向其他集群中的计算节点分配不同的日志记录地址。例如,服务器管理器114可以向集群A中的计算节点分配第一日志记录地址(例如,IP地址A),向集群B中的计算节点分配第二日志记录地址(例如,IP地址B)等。
每个计算节点基于用于该计算节点的OS配置数据来启动到特定配置中,并且所述OS配置数据使该计算节点将其系统日志数据发送至被分配的日志记录地址。在一个示例中,服务器管理器114为计算节点配置网络启动文件,其方式使得为每个计算节点定义日志记录地址。在另一个示例中,计算节点可以使用本地启动文件,并且服务器管理器114可以为那些本地启动文件配置日志记录地址。每个计算节点中的OS可以包括日志记录软件,并且服务器管理器114也可以确保该日志记录软件被配置成将所有日志消息发送至被分配的日志记录地址。
在其他示例中,头节点可以使用其他技术为每个计算节点配置被分配的日志记录地址。例如,头节点可以为所有计算节点配置同一日志记录地址,并且监听该地址的节点可以通过将不同计算节点的日志记录数据分布给不同的领导节点而作为负载平衡节点来操作。这种负载平衡节点还可以动态调整哪些领导节点处理哪些计算节点。
当服务器管理器114向每个计算节点集群分配不同的日志记录地址时,服务器管理器114可以使用相同或类似的集群大小,以使系统日志记录的负载能够以相对均匀的方式跨领导节点分布。例如,如果多节点系统中有10个领导节点和10,000个计算节点,则头节点可以为日志记录地址池定义10个日志记录地址,头节点可以将计算节点分组成大小为1,000的集群,并且头节点可以向每个集群分配不同的日志记录地址,集群内的每个节点得到同一日志记录地址。这种类型的方法可以被称为“静态平衡”。通常,对于具有X个领导节点和Y个计算节点的多节点系统,头节点可以使用大约X个不同的日志记录地址,并且头节点可以将计算节点分组成具有每集群大约Y/X个计算节点的大小的集群。
如上文所指出的,多节点系统100包括多个领导节点(例如,领导节点120A、领导节点120B等)。如下文更详细地描述的,领导节点120A包括日志管理程序(或“日志管理器”)122A、HA管理器124A、本地HA设置126A和全局HA设置128A。HA管理器124A包括如健康监测器125A等的程序。本地HA设置126A具体地包括用于配置领导节点120A的数据,如监听列表127A。换言之,领导节点中的本地HA设置包括在该节点上活跃的设置。全局HA设置包括数据,所述数据由所有领导节点使用以用于HA操作,如地址池118的副本。因此,全局HA设置可以被认为是系统范围的共享数据库,所述共享数据库由领导节点使用以协调计算节点的管理。
多节点系统100中的每个领导节点(例如,领导节点120B等)可以包括与领导节点120A中所描绘的那些特征相同种类的特征。例如,领导节点120B可以包括日志管理器122B、具有如健康监测器等的程序的HA管理器124B、具有监听列表127B的本地HA设置126B以及全局HA设置128B。
服务器管理器114将每个领导节点配置成处理这样的任务,如从计算节点接收系统日志数据并将这些数据保存到共享存储装置140等。在一个示例中,服务器管理器114通过以下来完成所述任务:为每个领导节点的OS镜像配置如日志管理器等的必要软件,并且然后将该OS镜像保存在每个领导节点的根磁盘驱动器上。另外,服务器管理器114可以随后将领导节点的配置数据推送至该根磁盘驱动器。例如,服务器管理器114可以使用安全外壳(SSH)协议来将文件传输至领导节点的根磁盘驱动器。
头节点110推送至每个领导节点的配置数据可以包括全局HA设置。如上文所指出的,全局HA设置可以包括地址池118。全局HA设置还可以包括附加数据以使领导节点能够协作地处理系统日志记录和控制台管理。所述附加数据可以包括:例如,用于识别所有领导节点的列表、以及用于识别共享存储装置140中的充当领导资源锁146(要由领导节点使用以进行协作)的文件的数据。例如,领导节点可以使用领导资源锁146来确保原子操作,并确保所有活跃的领导节点同意任何配置更改。
因此,头节点110可以将所有领导节点配置成系统日志(或“系统日志(syslog)”)监听器以用于任何可能的计算节点,并将任何接收到的系统日志数据写入到共享存储装置140。如下文更详细地描述的,领导节点然后可以协作以将日志记录地址中的不同的日志记录地址分配给每个领导节点中的监听列表。然而,在其他示例中,头节点可以使用其他技术来配置每个领导节点。例如,每个领导节点可以包括服务器管理守护进程(daemon),所述服务器管理守护进程将领导节点配置成处理计算节点的日志记录。
如图1中所示出的,每个领导节点运行日志管理器的实例和HA管理器的实例。日志管理器包括指令,所述指令当在领导节点中执行时使该领导节点能够执行如从计算节点接收系统日志数据并将这些系统日志数据保存在共享存储装置140中等的操作。
HA管理器使领导节点能够在启动时协作地在所述领导节点之间分配日志记录职责,并通过响应于领导节点的故障和恢复来调整日志记录职责而协作地且动态地提供故障切换。为了在多节点系统100启动时分配日志记录职责,领导节点使用其HA管理器来决定默认配置或正常配置,其中每个领导节点处理一个集群的系统日志记录。具体地,领导节点可以通过协作以将不同的日志记录地址添加到每个领导节点中的监听列表来采用该配置。如上文所指出的,领导节点的监听列表中的初始日志记录地址或默认日志记录地址可以被认为是要由该领导节点服务的主日志记录地址。
HA管理器还使领导节点能够提供故障切换。例如,每个领导节点中的HA管理器可以使用全局HA设置来跟踪哪些领导节点是可操作的,以及哪些领导节点在处理哪些日志记录地址。每个领导节点中的HA管理器还可以检测任何其他领导节点的故障。然后,HA管理器可以通过自动地(即,不需要人为干预)选择领导节点来充当故障节点的故障切换节点而作出响应。例如,如果领导节点120B发生故障,则HA管理器124A可以将领导节点120A配置成充当领导节点120B的故障切换节点。或者如果领导节点120A发生故障,则HA管理器124B可以将领导节点120B配置成充当领导节点120A的故障切换节点。具体地,通过将故障切换节点配置成处理多个日志记录地址(包括故障切换节点的主日志记录地址以及故障节点正在处理的孤立日志记录地址),第一领导节点中的HA管理器可以将该领导节点配置成充当第二领导节点的故障切换节点。而且,领导节点可以使用领导资源锁146来协作地决定哪个领导节点将充当故障切换节点。
HA管理器还可以在每当全局配置已经更改时(例如,响应于领导节点被配置成充当故障切换节点,或响应于故障领导节点恢复并且从故障切换节点收回日志记录职责)更新每个领导节点中的全局HA设置。
如上文所指出的,领导节点中的监听列表识别该领导节点要处理的(多个)IP地址。换言之,每个领导节点中的日志管理器基于该领导节点中的监听列表从计算节点接收系统日志数据。例如,图1示出了领导节点120A中的本地HA设置126A中的监听列表127A,并且图1示出了领导节点120B中的本地HA设置126B中的监听列表127B。如上文所指出的,领导节点可以建立这样的配置作为正常配置或默认配置,其中,每个领导节点处理一个日志记录地址。图1描绘了一个示例的这样的默认配置,在所述示例中,监听列表127A包括集群A中的计算节点要使用的日志记录地址(即,日志记录地址“IP地址A”),并且监听列表127B包括集群B中的计算节点要使用的日志记录地址(即,日志记录地址“IP地址B”)。所以,监听列表127A使领导节点120A处理集群A的系统日志数据,并且监听列表127B使领导节点120B处理集群B的系统日志数据。然而,如下文更详细地描述的,如果(例如)领导节点120B发生故障,则(例如)领导节点120A可以通过将IP地址B添加到领导节点120A中的监听列表127A来自动地接管对集群B的日志记录职责。
在一个示例中,领导节点将每个计算节点的系统日志数据保存在单独的文件中。例如,领导节点120A可以将计算节点130AA和130AB的系统日志数据保存在相应的系统日志文件142AA和142AB中,并且领导节点120B可以将计算节点130BA和130BB的系统日志数据保存在相应的系统日志文件142BA和142BB中。因此,日志管理器可以被称为“系统日志服务器”。例如,日志管理器可以使用以名称或商标“rsyslog”已知的程序来实施。另外,日志管理器可以被配置成使用特定路径将系统日志数据保存到共享存储装置140(例如,如“/var/log/HOSTS/hostname”等的路径,其中,“hostname”是生成系统日志数据的计算节点的标识符)。在其他示例中,领导节点可以以不同的方式处理系统日志数据。例如,领导节点可以将每个计算节点的系统日志数据拆分到单独的文件中。
在一个示例中,头节点110作为客户端参与共享存储装置140,从而允许系统管理员使用头节点110来从单一来源读取所有计算节点的所有系统日志,即使多个领导节点可能正在将多个计算节点的系统日志数据写入到该来源。
如下文更详细地描述的,领导节点还可以提供用于计算节点的控制台管理(例如,通过将计算节点的控制台日志文件144保存到共享存储装置140)。
图2为图示了根据示例实施方式的用于系统日志数据的弹性日志记录的过程的流程图。本公开在如图1中所图示的多节点系统100的背景下描述图2。如框210和212处所示出的,图2的过程可以开始于头节点110中的服务器管理器114对领导节点和计算节点进行软件和配置设置的配置以用于系统日志记录,如上文所描述的。
如框214处所示出的,领导节点然后可以协作地采用正常配置或默认配置。具体地,领导节点可以使用其HA管理器和全局HA设置来验证所有领导节点正在运行。然后,领导节点可以使用其HA管理器和地址池118来向每个领导节点分配一个日志记录地址。换言之,领导节点可以协作以将日志记录地址中的不同的日志记录地址分配给每个领导节点。作为采用正常配置的一部分,每个领导节点可以将为其被分配的日志记录地址保存在其监听列表中。因此,领导节点建立默认配置,其中,每个领导节点负责处理一个计算节点集群的系统日志记录。
而且,作为建立默认配置的一部分,领导节点可以使用其HA管理器来选择领导节点之一作为主节点,这将有助于协调领导节点之间的动态故障切换和恢复。例如,主节点可以使用其HA管理器中的健康监测器来监测其余领导节点的健康。而且,其他领导节点可以使用其健康监测器来监测主节点的健康,并且如果主节点发生故障,则其他领导节点可以选择一领导节点来充当新的主节点。在每个领导节点中,HA管理器可以在全局HA设置中维护当前主节点的标识符。
如框216处所示出的,多节点系统100然后可以进行如下操作:领导节点基于领导节点中的监听列表中的日志记录地址来处理计算节点的系统日志记录。换言之,每个领导节点可以接收被寻址到该节点的监听列表中的日志记录地址的系统日志数据,并将这些系统日志数据保存到共享存储装置140。流程可以在框216处保持(领导节点处理来自其相应集群的系统日志数据),直到领导节点之一发生故障。
如框220处所示出的,当领导节点中的任何领导节点发生故障时,其他领导节点可以检测到该故障。例如,如上文所指出的,如果主节点检测到领导节点的故障,则主节点可以向其他领导节点通知该故障。
如框222处所示出的,响应于领导节点的故障,其余领导节点可以自动更改多节点系统100的日志记录配置。具体地,领导节点中的HA管理器可以协作地选择一个领导节点来充当故障节点的故障切换节点,并且该故障切换节点可以将孤立日志记录地址添加到故障切换节点的监听列表。并且如上文所指出的,当作出这种协作决策和更改时,HA管理器可以使用共享存储装置140中的领导资源锁146来确保原子操作,并确保所有活跃的领导节点同意任何配置更改。
所述过程然后可以返回至框216,其中领导节点根据新的/当前的配置来处理系统日志记录。
另外,如框230处所示出的,当故障领导节点恢复操作时,其他领导节点可以检测到该恢复。例如,主节点中的健康监测器可以检测到已恢复节点,并且主节点中的HA管理器可以通过向其他领导节点中的HA管理器通知所述恢复来作出响应。
如框222处所示出的,响应于故障领导节点的恢复,领导节点可以更改多节点系统100的日志记录配置以将一个日志记录地址的日志记录职责从故障切换节点转移到已恢复节点。例如,如果领导节点120A正在充当领导节点120B的故障切换节点并且然后领导节点120B恢复,则领导节点120A中的HA管理器124A可以从监听列表127A中移除IP地址B,并且领导节点120B中的HA管理器124B可以将IP地址B添加到监听列表127B。所述过程然后可以返回至框216,领导节点根据新的/当前的配置来处理系统日志记录。然后,领导节点可以继续处理系统日志数据并动态地对领导节点的健康上的更改作出响应,如上文所指出的。
图3为根据示例实施方式的具有用于弹性控制台管理的技术的多节点系统的框图。具体地,图3描绘了这样的示例,在所述示例中,多节点系统100如上文关于图1和图2所描述的提供系统日志记录,同时还提供如控制台连接转发和控制台日志记录等的控制台管理任务。然而,尽管图1图示了涉及系统日志记录的部件,但图3更多地关注涉及控制台管理的部件。因此,多节点系统100的一些部件在图3中未进行描绘,或以不同的方式进行了描绘。例如,共享存储装置140中的系统日志文件被共同描绘为系统日志文件142。
在图3的示例中,每个领导节点运行控制台管理程序(或“控制台管理器”),所述控制台管理程序(或“控制台管理器”)促进对计算节点的控制台的受管理访问,并促进所有对应的控制台数据的日志记录。领导节点中的控制台管理器使该领导节点能够充当中间件,以使头节点110能够与计算节点的控制台交互。换言之,领导节点中的控制台管理器使头节点110能够经由该领导节点与计算节点的控制台交互。如下文更详细地描述的,在一个示例中,领导节点中的控制台管理器使用配置文件来建立与计算节点的连接,并且那些配置文件是该领导节点中的本地HA设置的一部分。
另外,领导节点中的HA管理器可以配置头节点110用于连接转发,并且HA管理器可以提供从故障领导节点到故障切换领导节点的控制台管理责任的自动故障切换。HA管理器还可以在故障领导节点恢复时提供控制台管理责任的自动恢复。
例如,HA管理器可以首先为头节点110提供CCFCD 117以使系统管理员能够使用头节点110来与任何计算节点上的控制台交互,而系统管理员无需获知哪个领导节点将提供与该计算节点上的控制台的连接。例如,HA管理器可以将CCFCD 117存储在配置数据库116中。CCFCD 117可以包括列表或表,所述列表或表指示哪些领导节点被配置为到哪些计算节点的控制台桥。换言之,作为设置控制台连接转发配置的一部分,每个领导节点中的HA管理器可以与头节点110通信,以将头节点110中的CCFCD 117填充具有该领导节点所管理的计算节点的列表。头节点110随后可以使用那些列表来将对特定计算节点的任何控制台访问请求路由到正在管理该计算节点的领导节点。文件加锁、使用包括声明的单独的配置文件、或其他机制,可以用来防止由于多个领导节点试图同时写入而导致多个领导对CCFCD 117的损坏。在一个示例中,领导节点可以使用SSH在头节点110上创建锁文件,并且然后可以使用SSH重新写入CCFCD 117的一部分。其他示例可以使用包括文件或其他机制来防止损坏。
如上文所指出的,HA管理器还提供控制台管理责任的故障切换。例如,如下文更详细地描述的,故障切换领导节点中的HA管理器可以使用事件处理器脚本来重新配置该节点,以处理故障节点正在处理的控制台管理职责(例如,控制台连接转发和控制台日志记录)。那些管理职责还可以包括根据新的配置来更新CCFCD 117。
在图3的示例中,控制台管理器152A和控制台管理器152B描绘了分别在领导节点120A和120B上运行的控制台管理器的不同实例。
控制台管理器还使领导节点能够将每个控制台会话的日志保存在共享存储装置140中。在一个示例中,控制台管理器将每个计算节点的控制台日志数据保存在单独的文件中。例如,控制台管理器152A可以将计算节点130AA和130AB的控制台日志数据保存在相应的控制台日志文件144AA和144AB中,并且领导节点120B中的控制台管理器152B可以将计算节点130BA和130BB的控制台日志数据保存在相应的控制台日志文件144BA和144BB中。
在一个示例中,每个计算节点包括管理处理器(MP),并且领导节点使用那些管理处理器来访问计算节点上的控制台。在图3的示例中,计算节点130AA包括MP 136AA,计算节点130AB包括MP 136AB,等等。同样,计算节点130BA包括MP 136BA,计算节点130BB包括MP136BB,等等。
管理处理器可以被实施为微控制器、片上系统(SoC)、嵌入式处理器或任何其他合适类型的处理器。在一些示例中,节点的管理处理器充当节点控制器或基板管理控制器(BMC),所述节点控制器或BMC提供节点的无人值守管理(LOM)或集成无人值守(iLO)管理。在其他示例中,多个节点可以共享单一的管理处理器。
如本文所使用的,术语“BMC”是指专用服务处理器,所述专用服务处理器使用传感器来监测计算机系统的物理状态,并通过独立的“带外”连接与管理系统通信。“计算机系统”可以指服务器计算机、用户计算机或任何电子设备或电子设备的集合。BMC还可以通过以下各项与在OS层级执行的应用程序通信:输入/输出控制器(IOCTL)接口驱动程序、SSH、表述性状态转移(REST)应用程序接口(API)、或促进BMC与应用程序之间的通信的某种其他系统软件代理。BMC可以对位于计算机系统中的硬件部件进行硬件层级的访问。BMC可以能够直接修改硬件部件。BMC可以独立于BMC所位于的计算机系统的OS进行操作。BMC可以位于要被监测的计算机系统的母板或主电路板上。BMC安装在受管理的计算机系统的母板上或者以其他方式连接或附接至受管理的计算机系统的事实并不妨碍BMC被认为是与执行OS的处理资源分离的。BMC具有管理计算机系统的部件的管理能力。BMC的管理能力的示例可以包括以下各项中的任一项或某种组合:电力控制、热监测和控制、风扇控制、系统健康监测、计算机系统远程访问、计算机系统远程重启、系统设置和部署、系统安全性等等。
在一些示例中,BMC可以为计算设备提供所谓的“无人值守”功能。即使计算机系统上没有安装OS或OS在所述计算机系统上不起作用,无人值守功能也可以允许如系统管理员等的用户在计算机系统上执行管理操作。此外,在一些示例中,BMC可以在辅助电源(例如,电池电源)上运行;因此,计算机系统不必上电就可以允许BMC执行其操作。由BMC提供的服务可以被认为是“带外”服务,因为OS可能没有运行,并且在一些情况下计算机系统可能断电或不能适当地起作用(例如,计算机系统出现故障或硬件失效)。
BMC可以包括如网络接口和/或串行接口等的通信接口,管理员或其他实体可以使用所述通信接口来与BMC进行远程通信。“带外”服务可以由BMC经由专用管理通道(例如,通信接口)提供,并且无论计算机系统是否处于上电状态,“带外”服务都可以是可用的。
图4为图示了根据示例实施方式的用于弹性控制台管理的过程的流程图。然而,图4的过程可以与图2的过程并行地运行。例如,如框410处所示出的,图4的过程开始于服务器管理器114配置用于控制台管理的领导节点。并且服务器管理器可以执行该操作作为如图2的框210处所示出的配置用于集群管理的领导节点的操作的一部分。配置用于控制台管理的领导节点可以包括将控制台管理数据从头节点110推送至领导节点,以使领导节点能够向计算节点提供控制台连接转发。例如,控制台管理数据可以包括表,所述表识别每个计算节点并指示每个计算节点被分配哪个日志记录地址,并且服务器管理器114可以在推送至领导节点的全局HA设置中包括控制台管理数据。
如框414处所示出的,领导节点然后可以使用其HA管理器来协作地采用默认控制台管理配置。该操作可以这样来执行,例如作为如图2的框214处所示出的协作地采用默认集群管理配置的操作的一部分。在一个实施例中,HA管理器被设计成建立默认控制台管理配置,所述默认控制台管理配置将系统日志记录配置进行镜像,其中每个领导节点充当用于集群中的计算节点的控制台管理器,该领导节点正在为所述集群处理系统日志记录。例如,关于图3,HA管理器可以建立默认配置,其中领导节点120A将充当用于集群A中的计算节点的控制台管理器,并且领导节点120B将充当用于集群B中的计算节点的控制台管理器。当领导节点充当控制台管理器时,所述领导节点可以执行如控制台连接转发和控制台日志记录等的控制台管理职责。
采用默认集群管理配置的一部分可以是针对每个领导节点为其控制台管理器创建配置文件,以使控制台管理器能够连接至所述领导节点下的每个计算节点的控制台。出于本公开的目的,用于使领导节点能够连接至计算节点的控制台的配置文件可以被称为“控制台管理器配置文件”(CMCF)。领导节点可以将其CMCF保存在本地HA设置中。例如,当领导节点120A将要充当到集群A中的计算节点的控制台桥时,HA管理器124A可以创建如下内容:用于使控制台管理器152A能够连接至计算节点103AA的控制台的第一CMCF;用于使控制台管理器152A能够连接至计算节点130AB的控制台的第二CMCF,等等。HA管理器124A可以将那些CMCF 119保存在本地HA设置126A中。
每个领导节点中的HA管理器还可以用CCFCD 117更新头节点中的配置数据库116。如上文所指示的,CCFCD 117是这样的配置数据,其用于使头节点110能够使用控制台连接转发而经由领导节点来访问计算节点上的控制台。
如图4的框416处所示出的,领导节点然后可以充当控制台桥并按需保存任何相关联的控制台日志数据。例如,控制台管理器152A可以使人类系统管理员能够使用头节点110经由领导节点120A访问计算节点130AA的控制台。并且控制台管理器152A可以将相关联的控制台日志数据保存在共享存储装置140中。并且框416的操作可以与如图2的框216处所示出的处理计算节点的系统日志记录的操作并行地执行。
如图4中的框420(其还可以对应于图2的框220)所示出的,HA管理器可以检测领导节点的故障。如果是,则如框422(其可以与图2的框220并行地执行)所示出的,HA管理器可以通过协作地采用用于控制台管理的新的配置来作出响应。例如,每当HA管理器为系统日志记录选择故障切换节点时,HA管理器可以为控制台管理选择该同一故障切换节点。
在一个示例中,每个领导节点中的HA管理器包括事件处理器脚本,在每当向该领导节点中的监听列表添加日志记录地址或从其中移除日志记录地址时,所述事件处理器脚本都会自动执行,并且HA管理器使用那些事件处理器脚本来采用新的配置。例如,在涉及领导节点120A被选择为故障领导节点120B的故障切换节点的场景中,HA管理器124A将IP地址B添加到监听列表127A。作为响应,HA管理器124A中的事件处理器脚本154A从全局HA设置128A中取得集群B中的计算节点的列表。(如上文所指出的,全局HA设置可以包括用于标识哪些计算节点属于哪个集群的控制台管理数据。)事件处理器脚本154A然后创建新的CMCF以使控制台管理器152A能够连接至集群B中的计算节点的控制台。并且事件处理器脚本154A可以将那些CMCF保存到本地HA设置126A中。
如框424处所示出的,故障切换节点中的HA管理器然后可以通知头节点110关于对控制台管理配置的更改,以使头节点110能够将故障切换节点用于到故障节点下的计算节点的控制台连接转发。换言之,在适应新的配置时,领导节点将更新头节点110中的CCFCD117以反映所述新的配置。换言之,HA管理器重新配置头节点110以使头节点110使用故障切换节点来访问现在正在由故障切换节点管理的计算节点上的控制台。然后,人类管理员可以从头节点110为任何计算节点运行控制台命令,即使该计算节点可能是由任何领导节点提供服务的。
然后过程可以返回至框416,其中领导节点充当控制台桥并根据多节点系统100的当前配置保存控制台日志数据。
然而,如果领导节点检测到领导节点的恢复,则过程可以通过框430到达框422,然后领导节点采用新的配置,所述新的配置将控制台管理职责从故障切换节点转移回到已恢复节点。所以,前故障切换节点可以从其监听列表中移除日志记录地址,这可能会触发事件处理器脚本,所述事件处理器脚本可以通过将计算节点的正在被转移回已恢复节点的CMCF删除来更新本地HA设置。并且如框424处所示出的,领导节点可以通知头节点110关于该新的/已恢复的配置。
另外,当协作地采用配置时,领导节点可以使用领导资源锁146来确保用于更改监听列表的原子操作等。
另外的实施方式
图5为包括指令520的计算机可读介质510的框图,所述指令在由多节点数据处理系统中的节点执行时,使所述节点能够充当领导节点。具体地,指令520通过以下操作使所述节点能够充当第一领导节点:从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点使用以保存所述多节点数据处理系统的第二集群中的计算节点的系统日志数据,以及由第三领导节点使用以保存所述多节点数据处理系统的第三集群中的计算节点的系统日志数据;并且响应于所述第二领导节点和所述第三领导节点中的任一者的故障而自动承担与故障的领导节点相关联的集群中的计算节点的系统日志记录职责。
在可以与前述示例组合的一些示例中,所述指令使所述第一领导节点能够基于所述第一领导节点中的监听列表从所述第一集群中的计算节点接收系统日志数据,并且所述监听列表包括要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的IP地址。
在可以与前述示例中的任何示例组合的一些示例中,要由所述第一集群中的计算节点使用以将系统日志数据发送至当前领导节点的所述IP地址包括第一IP地址,并且所述指令使所述第一领导节点能够通过将第二IP地址添加到所述第一领导节点中的监听列表而自动承担所述第二集群的系统日志记录职责,其中,所述第二IP地址要由所述第二集群中的计算节点使用以将系统日志数据发送至所述第二集群的当前领导节点。
在可以与前述示例中的任何示例组合的一些示例中,作为初始化过程的一部分,所述指令进一步使所述第一领导节点能够与所述多节点数据处理系统中的其他领导节点协作以在所述领导节点之间分配系统日志记录职责。
在可以与前述示例中的任何示例组合的一些示例中,所述指令使所述第一领导节点能够基于所述第一领导节点中的监听列表从计算节点接收系统日志数据。而且,在所述领导节点之间分配系统日志记录职责包括:将要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的IP地址添加到所述第一领导节点中的所述监听列表。
在可以与前述示例中的任何示例组合的一些示例中,所述指令使所述第一领导节点在承担用于所述第二集群的系统日志记录职责之后能够自动确定所述第二领导节点是否已经恢复,并且响应于确定所述第二领导节点已经恢复而自动将用于所述第二集群的系统日志记录职责让与给所述第二领导节点。
在可以与前述示例中的任何示例组合的一些示例中,所述指令进一步使所述第一领导节点能够充当控制台桥,以使所述多节点数据处理系统中的头节点能够经由所述第一领导节点访问所述第一集群中的计算节点的控制台。所述指令进一步使所述第一领导节点能够将所述计算节点的控制台日志数据保存在所述共享存储装置中。
在可以与前述示例中的任何示例组合的一些示例中,所述指令进一步使所述第一领导节点能够响应于所述第二领导节点的故障而自动承担用于所述第二集群的控制台桥职责。
图6为具有用于系统日志数据的弹性日志记录的技术的系统610的框图。系统610包括处理器620、耦接至处理器620的计算机可读介质630和计算机可读介质中的指令640。当由处理器620执行时,指令640通过以下操作使系统610能够充当多节点数据处理系统中的第一领导节点:从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点使用以保存所述多节点数据处理系统的第二集群中的计算节点的系统日志数据,以及由第三领导节点使用以保存所述多节点数据处理系统的第三集群中的计算节点的系统日志数据;并且响应于所述第二领导节点和所述第三领导节点中的任一个的故障而自动承担与故障领导节点相关联的集群中的所述计算节点的系统日志记录职责。
在可以与先前的示例组合的一些示例中,所述指令使所述系统能够基于所述系统中的监听列表从所述第一集群中的计算节点接收系统日志数据,所述监听列表包括要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的第一IP地址,并且所述指令使所述系统能够通过将第二IP地址添加到所述系统中的监听列表而自动承担所述第二集群的系统日志记录职责,其中,所述第二IP地址要由所述第二集群中的计算节点使用以将系统日志数据发送至所述第二集群的当前领导节点。
在可以与前述示例中的任何示例组合的一些示例中,所述指令使所述系统能够基于所述系统中的监听列表从计算节点接收系统日志数据。而且,作为初始化过程的一部分,所述指令进一步使所述系统能够与所述多节点数据处理系统中的其他领导节点协作以在所述领导节点之间分布系统日志记录职责,其中,在所述领导节点之间分配系统日志记录职责包括:将要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的IP地址添加到所述系统中的监听列表。
在可以与前述示例中的任何示例组合的一些示例中,所述指令使所述系统在承担所述第二集群的系统日志记录职责之后能够自动确定所述第二领导节点是否已经恢复,并且响应于确定所述第二领导节点已经恢复而自动将所述第二集群的系统日志记录职责让与给所述第二领导节点。
在可以与前述示例中的任何示例组合的一些示例中,所述指令进一步使所述系统能够充当控制台桥,以使所述多节点数据处理系统中的头节点能够经由所述系统访问所述第一集群中的计算节点的控制台。所述指令还使所述系统能够将所述计算节点的控制台日志数据保存在所述共享存储装置中。
在可以与前述示例中的任何示例组合的一些示例中,所述指令进一步使所述系统能够响应于所述第二领导节点的故障而自动承担所述第二集群的控制台桥职责。
在可以与前述示例中的任何示例组合的一些示例中,所述指令使所述系统能够使用所述计算节点的管理处理器来访问所述头节点的计算节点的控制台。
图7为图示了用于管理多节点数据处理系统中的日志的方法710的流程图。如框720处所示出的,所述方法包括使用所述多节点数据处理系统的第一领导节点中的监听列表在所述第一领导节点处从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据,其中,所述监听列表包括要由所述第一集群中的所述计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的第一IP地址。如框730处所示出的,所述方法还包括将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点和第三领导节点使用以保存所述多节点数据处理系统的第二集群和第三集群中的计算节点的系统日志数据。如框740处所示出的,所述方法还包括响应于所述第二领导节点的故障而在所述第一领导节点处通过将第二IP地址添加到所述第一领导节点中的所述监听列表来自动承担所述第二集群的系统日志记录职责。如框750处所示出的,所述方法还包括:响应于所述第二领导节点的恢复,通过从所述第一领导节点中的所述监听列表中移除所述第二IP地址来自动让与所述第二集群的系统日志记录职责。如框760处所示出的,所述方法还包括:响应于所述第三领导节点的故障,在所述第一领导节点处自动承担所述第三集群的系统日志记录职责。
在可以与前述示例组合的一些示例中,所述方法进一步包括:在所述第一领导节点处充当控制台桥,以使所述多节点数据处理系统中的头节点能够经由所述第一领导节点访问所述第一集群中的计算节点的控制台。并且所述方法进一步包括将所述计算节点的控制台日志数据保存在所述共享存储装置中。
在可以与前述示例中的任何示例组合的一些示例中,所述方法进一步包括:在所述第一领导节点处,响应于所述第二领导节点的故障而自动承担所述第二集群的控制台桥职责。
在可以与前述示例中的任何示例组合的一些示例中,充当控制台桥以使所述头节点能够访问所述计算节点的控制台的操作包括:使用所述计算节点的管理处理器来访问所述头节点的计算节点的控制台。
在可以与前述示例中的任何示例组合的一些示例中,所述方法进一步包括:在所述第一领导节点处确定所述多节点数据处理系统中的任何其他领导节点是否发生故障;并且响应于确定所述多节点数据处理系统中的任何其他领导节点发生故障,自动承担故障领导节点的系统日志记录职责。
结论
如上文所描述的,多节点系统中的领导节点包括HA管理器,所述HA管理器通过确保来自故障领导节点的IP别名被移动到工作领导节点来提供故障切换并且服务被重新分配。
HA管理器包括事件/通知机制。在初始设置领导节点时,这种机制由服务器管理程序配置。这种机制用于向如控制台管理器等的部件通知需要重新计算配置文件,因为领导节点现在可能正在与不同于以前的计算节点的集合一起工作。
此外,即使头节点丢失(例如,由于头节点故障,为了维护而重新启动头节点等),多节点系统也可以继续操作,并且提供自动故障切换。即使头节点丢失,即使领导节点丢失,并且即使头节点和领导节点(或多个领导节点)丢失,所有计算节点也可以继续操作。从头节点到计算节点中的视见性可能丢失,但计算节点上的工作可以继续运行。例如,如果头节点已经死亡,则领导节点试图为控制台连接转发而配置头节点的配置操作将失败。然而,当头节点复原时,所述头节点可以在启动时运行脚本或程序,所述脚本或程序告诉所有领导节点更新头节点中的CCFCD以与领导节点到计算节点的当前映射相匹配以便进行控制台管理。当头节点宕机时,不会丢失控制台日志,因为即使在头节点宕机时,领导节点也会继续将所述控制台日志写入到共享存储装置。
头节点可以使用服务器管理程序来初始设置领导节点和计算节点。响应于多节点系统的组成中的更改(例如,如果系统的状态更改,如当系统管理员添加或移除设备时),头节点还可以使用服务器管理程序来调整配置。然而,一旦初始化完成,多节点系统就可以在没有头节点的情况下运行,并且领导节点可以协作以跟踪领导节点的健康并在必要时适应于故障。
如上文所指出的,设备可以包括处理器以及指令和其他数据,所述指令和其他数据当由处理器访问时使设备执行或使设备能够执行特定操作。出于本公开的目的,使设备执行或使设备能够执行操作的指令通常可以被称为“软件”。软件还可以被称为“控制逻辑”。启动过程期间使用的软件可以被称为“固件”。存储在非易失性存储器中的软件也可以被称为“固件”。软件可以使用任何合适的结构或结构的组合来组织。因此,类似于“程序”等的术语通常可以用于覆盖广泛的软件构造,包括但不限于应用程序、子程序、例程、函数、过程、驱动程序、库、进程、微代码和其他类型的软件部件。而且,应理解的是,软件模块(例如,程序)可以包括多于一个部件,并且那些部件可以协作以完成模块的操作。而且,软件使设备执行的操作可以包括创建操作背景、实例化特定数据结构等。示例实施方式可以包括用于在可编程系统上执行的软件,所述可编程系统包括耦接至含有所述软件的存储设备的处理器。
虽然已经关于有限数量的实施方式或示例对本公开进行了描述,但得益于本公开的本领域技术人员将了解诸多修改和由此发生的变化。所附权利要求旨在覆盖所有这样的修改和变化。

Claims (20)

1.一种包括指令的非暂态计算机可读介质,所述指令在由多节点数据处理系统中的节点执行时,使所述节点能够通过进行以下操作充当第一领导节点:
从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;
将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点使用以保存用于所述多节点数据处理系统的第二集群中的计算节点的系统日志数据,以及由第三领导节点使用以保存用于所述多节点数据处理系统的第三集群中的计算节点的系统日志数据;以及
响应于所述第二领导节点和所述第三领导节点中的任一个的故障,通过将发生故障的领导节点的集群中的计算节点的因特网协议IP地址添加到所述第一领导节点中的监听列表来自动承担与所述发生故障的领导节点相关联的集群中的计算节点的系统日志记录职责。
2.根据权利要求1所述的非暂态计算机可读介质,其中:
所述指令使所述第一领导节点能够基于所述第一领导节点中的所述监听列表从所述第一集群中的所述计算节点接收系统日志数据;并且
所述监听列表包括要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的因特网协议IP地址。
3.根据权利要求2所述的非暂态计算机可读介质,其中:
要由所述第一集群中的计算节点使用以将系统日志数据发送至当前领导节点的所述IP地址包括第一IP地址;并且
所述指令使所述第一领导节点能够通过将第二IP地址添加到所述第一领导节点中的所述监听列表来自动承担用于所述第二集群的系统日志记录职责,其中,所述第二IP地址要由所述第二集群中的计算节点使用以将系统日志数据发送至所述第二集群的当前领导节点。
4.根据权利要求1所述的非暂态计算机可读介质,其中,作为初始化过程的一部分,所述指令进一步使所述第一领导节点能够与所述多节点数据处理系统中的其他领导节点协作,以在所述领导节点之间分配系统日志记录职责。
5.根据权利要求4所述的非暂态计算机可读介质,其中:
所述指令使所述第一领导节点能够基于所述第一领导节点中的所述监听列表从计算节点接收系统日志数据;并且
在所述领导节点之间分配系统日志记录职责包括:将要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的因特网协议IP地址添加到所述第一领导节点中的所述监听列表。
6.根据权利要求1所述的非暂态计算机可读介质,其中,所述指令使所述第一领导节点在承担用于所述第二集群的系统日志记录职责之后能够:
自动确定所述第二领导节点是否已经恢复;并且
响应于确定所述第二领导节点已经恢复,自动将用于所述第二集群的系统日志记录职责让与给所述第二领导节点。
7.根据权利要求1所述的非暂态计算机可读介质,其中,所述指令进一步使所述第一领导节点能够:
充当控制台桥以使所述多节点数据处理系统中的头节点能够经由所述第一领导节点访问所述第一集群中的计算节点的控制台;并且
将所述计算节点的控制台日志数据保存在所述共享存储装置中。
8.根据权利要求7所述的非暂态计算机可读介质,其中,所述指令进一步使所述第一领导节点能够响应于所述第二领导节点的故障而自动承担用于所述第二集群的控制台桥职责。
9.一种用于管理日志的系统,包括:
处理器;
计算机可读介质,所述计算机可读介质耦接至所述处理器;以及
所述计算机可读介质中的指令,所述指令当由所述处理器执行时,使所述系统能够通过进行以下操作充当多节点数据处理系统的第一领导节点:
从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据;
将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点使用以保存用于所述多节点数据处理系统的第二集群中的计算节点的系统日志数据,以及由第三领导节点使用以保存用于所述多节点数据处理系统的第三集群中的计算节点的系统日志数据;以及
响应于所述第二领导节点和所述第三领导节点中的任一个的故障,通过将发生故障的领导节点的集群中的计算节点的因特网协议IP地址添加到所述第一领导节点中的监听列表来自动承担与所述发生故障的领导节点相关联的集群中的计算节点的系统日志记录职责。
10.根据权利要求9所述的系统,其中:
所述指令使所述系统能够基于所述系统中的所述监听列表从所述第一集群中的所述计算节点接收系统日志数据;
所述监听列表包括要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的第一因特网协议IP地址;并且
所述指令使所述系统能够通过将第二IP地址添加到所述系统中的所述监听列表来自动承担用于所述第二集群的系统日志记录职责,其中,所述第二IP地址要由所述第二集群中的计算节点使用以将系统日志数据发送至所述第二集群的当前领导节点。
11.根据权利要求9所述的系统,其中:
所述指令使所述系统能够基于所述系统中的所述监听列表从计算节点接收系统日志数据;并且
作为初始化过程的一部分,所述指令进一步使所述系统能够与所述多节点数据处理系统中的其他领导节点协作以在所述领导节点之间分配系统日志记录职责,其中,在所述领导节点之间分配系统日志记录职责包括:将要由所述第一集群中的计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的因特网协议(IP)地址添加到所述系统中的所述监听列表。
12.根据权利要求9所述的系统,其中,所述指令使所述系统在承担用于所述第二集群的系统日志记录职责之后能够:
自动确定所述第二领导节点是否已经恢复;并且
响应于确定所述第二领导节点已经恢复,自动将用于所述第二集群的系统日志记录职责让与给所述第二领导节点。
13.根据权利要求9所述的系统,其中,所述指令进一步使所述系统能够:
充当控制台桥以使所述多节点数据处理系统中的头节点能够经由所述系统来访问所述第一集群中的计算节点的控制台;并且
将所述计算节点的控制台日志数据保存在所述共享存储装置中。
14.根据权利要求13所述的系统,其中,所述指令进一步使所述系统能够响应于所述第二领导节点的故障而自动承担用于所述第二集群的控制台桥职责。
15.根据权利要求13所述的系统,其中,所述指令使所述系统能够使用所述计算节点的管理处理器来访问用于所述头节点的所述计算节点的控制台。
16.一种用于管理多节点数据处理系统的日志的方法,所述方法包括:
使用所述多节点数据处理系统的第一领导节点中的监听列表,在所述第一领导节点处从所述多节点数据处理系统的第一集群中的多个计算节点接收系统日志数据,其中,所述监听列表包括要由所述第一集群中的所述计算节点使用以将系统日志数据发送至所述第一集群的当前领导节点的第一因特网协议IP地址;
将所述系统日志数据保存在共享存储装置中,所述共享存储装置也由第二领导节点和第三领导节点使用以保存所述多节点数据处理系统的第二集群和第三集群中的计算节点的系统日志数据;
响应于所述第二领导节点的故障,在所述第一领导节点处通过将第二IP地址添加到所述第一领导节点中的所述监听列表来自动承担用于所述第二集群的系统日志记录职责;
响应于所述第二领导节点的恢复,通过从所述第一领导节点中的所述监听列表移除所述第二IP地址来自动让与用于所述第二集群的系统日志记录职责;以及
响应于所述第三领导节点的故障,在所述第一领导节点处自动承担用于所述第三集群的系统日志记录职责。
17.根据权利要求16所述的方法,进一步包括:
在所述第一领导节点处充当控制台桥以使所述多节点数据处理系统中的头节点能够经由所述第一领导节点访问所述第一集群中的计算节点的控制台;以及
将所述计算节点的控制台日志数据保存在所述共享存储装置中。
18.根据权利要求17所述的方法,进一步包括:
响应于所述第二领导节点的故障,在所述第一领导节点处自动承担用于所述第二集群的控制台桥职责。
19.根据权利要求18所述的方法,其中,充当控制台桥以使所述头节点能够访问所述计算节点的控制台的操作包括:
使用所述计算节点的管理处理器来访问用于所述头节点的所述计算节点的控制台。
20.根据权利要求16所述的方法,进一步包括:
在所述第一领导节点处确定所述多节点数据处理系统中的任何其他领导节点是否已经故障;以及
响应于确定所述多节点数据处理系统中的任何其他领导节点已经故障,自动承担用于故障的领导节点的系统日志记录职责。
CN202110424674.4A 2020-06-02 2021-04-20 管理数据处理系统的日志的方法和系统及计算机可读介质 Active CN113765697B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/889,898 2020-06-02
US16/889,898 US11119872B1 (en) 2020-06-02 2020-06-02 Log management for a multi-node data processing system

Publications (2)

Publication Number Publication Date
CN113765697A CN113765697A (zh) 2021-12-07
CN113765697B true CN113765697B (zh) 2022-10-28

Family

ID=77665641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110424674.4A Active CN113765697B (zh) 2020-06-02 2021-04-20 管理数据处理系统的日志的方法和系统及计算机可读介质

Country Status (3)

Country Link
US (1) US11119872B1 (zh)
CN (1) CN113765697B (zh)
DE (1) DE102021107655A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7133000B2 (ja) * 2020-12-17 2022-09-07 エヌ・ティ・ティ・アドバンステクノロジ株式会社 シナリオ実行システム、ログ管理装置、ログ記録方法及びプログラム
US20220237090A1 (en) * 2021-01-25 2022-07-28 Core Scientific, Inc. Autonomous organization and role selection of homogenous workers
US11818021B2 (en) * 2022-01-13 2023-11-14 Dell Products L.P. Resilient consensus-based control plane
US20240134879A1 (en) * 2022-10-12 2024-04-25 Oracle International Corporation Keeping stable leadership in raft-based protocol with fast automatic failover
US12117896B2 (en) * 2023-03-16 2024-10-15 Bank Of America Corporation Stand-alone IOT device for repairing failures on a computing device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108466A (zh) * 2017-12-29 2018-06-01 咪咕文化科技有限公司 一种分布式系统日志查询分析方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153558A1 (en) * 2002-10-31 2004-08-05 Mesut Gunduc System and method for providing java based high availability clustering framework
US20050283658A1 (en) * 2004-05-21 2005-12-22 Clark Thomas K Method, apparatus and program storage device for providing failover for high availability in an N-way shared-nothing cluster system
US7721152B1 (en) * 2004-12-21 2010-05-18 Symantec Operating Corporation Integration of cluster information with root cause analysis tool
US7653682B2 (en) * 2005-07-22 2010-01-26 Netapp, Inc. Client failure fencing mechanism for fencing network file system data in a host-cluster environment
US7890626B1 (en) 2008-09-11 2011-02-15 Gadir Omar M A High availability cluster server for enterprise data management
US8145838B1 (en) * 2009-03-10 2012-03-27 Netapp, Inc. Processing and distributing write logs of nodes of a cluster storage system
US8327186B2 (en) * 2009-03-10 2012-12-04 Netapp, Inc. Takeover of a failed node of a cluster storage system on a per aggregate basis
US9288177B2 (en) 2011-12-14 2016-03-15 International Business Machines Corporation Inventory updating of an internet protocol (IP) alias within a highly available computing cluster
JP2014081811A (ja) 2012-10-17 2014-05-08 Hitachi Solutions Ltd ログ管理システム、および、ログ管理方法
US10069677B2 (en) * 2013-04-06 2018-09-04 Citrix Systems, Inc. Systems and methods to collect logs from multiple nodes in a cluster of load balancers
WO2014171926A1 (en) * 2013-04-16 2014-10-23 Hewlett-Packard Development Company, L.P. Distributed event correlation system
US9251017B2 (en) * 2014-03-25 2016-02-02 International Business Machines Corporation Handling failed cluster members when replicating a database between clusters
US10177994B2 (en) * 2014-08-13 2019-01-08 Microsoft Technology Licensing, Llc Fault tolerant federation of computing clusters
US9807154B2 (en) * 2014-09-26 2017-10-31 Lenovo Enterprise Solutions (Singapore) Pte, Ltd. Scalable logging control for distributed network devices
US20170220431A1 (en) * 2016-02-01 2017-08-03 International Business Machines Corporation Failover of a database in a high-availability cluster
US10783046B2 (en) * 2016-11-22 2020-09-22 Nutanix, Inc. Executing resource management operations in distributed computing systems
US11347774B2 (en) * 2017-08-01 2022-05-31 Salesforce.Com, Inc. High availability database through distributed store
CN109729129B (zh) * 2017-10-31 2021-10-26 华为技术有限公司 存储集群系统的配置修改方法、存储集群及计算机系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108466A (zh) * 2017-12-29 2018-06-01 咪咕文化科技有限公司 一种分布式系统日志查询分析方法及装置

Also Published As

Publication number Publication date
CN113765697A (zh) 2021-12-07
US11119872B1 (en) 2021-09-14
DE102021107655A1 (de) 2021-12-02

Similar Documents

Publication Publication Date Title
CN113765697B (zh) 管理数据处理系统的日志的方法和系统及计算机可读介质
US7890792B2 (en) Server switching method and server system equipped therewith
US9405640B2 (en) Flexible failover policies in high availability computing systems
JP4496093B2 (ja) 高可用性システムの遠隔エンタープライズ管理
US8713362B2 (en) Obviation of recovery of data store consistency for application I/O errors
US8260893B1 (en) Method and system for automated management of information technology
US7657786B2 (en) Storage switch system, storage switch method, management server, management method, and management program
CN111989681A (zh) 自动部署的信息技术(it)系统和方法
US20160011894A1 (en) Methods and apparatus to configure virtual resource managers for use in virtual server rack deployments for virtual computing environments
US8015559B2 (en) System software update method
JP4448878B2 (ja) 障害回復環境の設定方法
US9448615B2 (en) Managing power savings in a high availability system at a redundant component level of granularity
JP2008517358A (ja) ストレージ管理を容易にするための装置、システム、および方法
US10430082B2 (en) Server management method and server for backup of a baseband management controller
CN106657167B (zh) 管理服务器、服务器集群、以及管理方法
US8990608B1 (en) Failover of applications between isolated user space instances on a single instance of an operating system
Glider et al. The software architecture of a san storage control system
US10884878B2 (en) Managing a pool of virtual functions
JP5486038B2 (ja) サーバ切り替え方法、およびサーバシステム
US20210019221A1 (en) Recovering local storage in computing systems
JP5744259B2 (ja) サーバ切り替え方法、サーバシステム、及び管理計算機
US20230216607A1 (en) Systems and methods to initiate device recovery
Schmidt Operating Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant