CN116339902A - 超融合基础设施环境中的事件消息管理 - Google Patents

超融合基础设施环境中的事件消息管理 Download PDF

Info

Publication number
CN116339902A
CN116339902A CN202111593266.8A CN202111593266A CN116339902A CN 116339902 A CN116339902 A CN 116339902A CN 202111593266 A CN202111593266 A CN 202111593266A CN 116339902 A CN116339902 A CN 116339902A
Authority
CN
China
Prior art keywords
heartbeat
central controller
nodes
event
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111593266.8A
Other languages
English (en)
Inventor
胡丽霞
李天河
张倬
周凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dell Products LP
Original Assignee
Dell Products LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dell Products LP filed Critical Dell Products LP
Priority to CN202111593266.8A priority Critical patent/CN116339902A/zh
Priority to US17/695,611 priority patent/US11748176B2/en
Publication of CN116339902A publication Critical patent/CN116339902A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/065Generation of reports related to network devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种用于在采用超融合基础设施(HCI)架构的分布式计算环境中管理事件消息的信息处置系统和方法,其中中央控制器被配置为向控制器的管理域内的多个节点发送指示所述中央控制器的消息处置能力的心跳。每个节点基于所述心跳维护所述中央控制器的事件消息传送状态。当节点检测到发生可报告事件时,所述节点确定对应于所述中央控制器的所述事件消息传送状态的报告策略,并根据所述报告策略采取事件消息动作。所述事件消息动作可包括没有延迟地发送所述事件消息或存储所述事件消息以供后续发送。

Description

超融合基础设施环境中的事件消息管理
技术领域
本公开涉及系统管理,并且更具体地涉及虚拟化环境中的消息的管理。
背景技术
随着信息的价值和用途持续增长,个人和企业寻求用于处理和存储信息的另外的方式。用户可用的一个选项是信息处置系统。信息处置系统通常处理、编译、存储和/或传达用于商业、个人或其他目的的信息或数据,从而允许用户利用这些信息的价值。由于技术和信息处置需要和需求在不同的用户或应用程序之间有所不同,因此信息处置系统也可关于以下方面有所不同:处置什么信息,如何处置信息,处理、存储或传达多少信息,以及可如何快速且高效地处理、存储或传达信息。信息处置系统的变化允许信息处置系统是通用的或针对具体用户或具体用途(诸如金融交易处理、航班预订、企业数据存储或全球通信)而配置的。另外,信息处置系统可包括多种硬件和软件部件,所述多种硬件和软件部件可被配置为处理、存储和传达信息,并且可包括一个或多个计算机系统、数据存储系统和联网系统。
包括(作为非限制性示例)基于x86的服务器的标准硬件越来越多地用于超融合基础设施(HCI)环境中。出于本公开的目的,HCI可表征为信息技术(IT)范式,其中计算、存储、联网和管理功能全部在虚拟化节点中实现。
在HCI环境中,管理资源可至少部分地基于节点响应于各种事件或状况而发送的事件消息来监视每个节点的运作状况。HCI环境可能涵盖成百上千个服务器,从而导致来自大量源的可能大量的事件消息。如果事件消息流量接近或超过管理资源处理每条消息而几乎没有或没有明显延迟的能力,则管理资源的响应可能变慢,并且环境的性能和/或服务质量参数可能受到负面影响。
发明内容
根据本文所公开的教义,通过一种用于管理事件消息的信息处置系统和方法解决与分布式系统中的事件消息处置相关联的常见问题,其中中央控制器被配置为向多个节点发送指示所述中央控制器的消息处理能力的心跳(heartbeat)消息,在本文中也简称为心跳。节点中的每一个被配置为接收来自所述中央控制器的心跳,并基于所述心跳维护所述中央控制器的事件消息传送状态。当节点检测到发生可报告事件时,所述节点确定对应于所述中央控制器的所述事件消息传送状态的报告策略,并根据所述报告策略采取事件消息动作。所述事件消息动作可包括没有延迟地发送所述事件消息或存储所述事件消息以供后续发送。在至少一些实施方案中,多个节点包括由中央控制器管理的每个节点,并且每个心跳包括由所述中央控制器向受管理节点多播的一个或多个符合统一数据报协议(UDP)的数据包。
一些实施方案实现一组有限心跳类型和一组有限事件消息传送状态,其中每个心跳的类型选自所述一组心跳类型并且每个事件消息传送状态选自所述一组事件消息传送状态。在至少一个实施方案中,心跳类型包括正常心跳类型并且事件消息传送状态包括活动状态,其中每个节点被配置为响应于接收到来自中央控制器的正常心跳,而将所述活动状态分配到所述中央控制器。此外,对应于所述活动状态的报告策略可要求每个节点或使每个节点能够立即或没有明显延迟地向中央控制器报告新事件。
所述心跳类型还可包括流控制心跳类型,其中所述中央控制器被配置为响应于检测到低于阈值能力的消息处置能力,而发送流控制心跳。在包括和/或支持流控制心跳类型的实施方案中,所述一组事件消息传送状态可包括与所述流控制心跳类型相关联的受限状态,并且每个节点可响应于接收到来自中央控制器的流控制心跳,而将所述中央控制器的事件消息传送状态转换为所述受限状态。对应于所述受限状态的报告策略可在所述节点中的一个或多个上在事件消息之间强加最小间隔,其中所述最小间隔可在流控制心跳内明确指示,或者以其他方式作为所述流控制心跳的一部分。流控制心跳可包括心跳意图用于哪些节点的指示。
心跳类型还可包括暂停心跳,并且中央控制器被配置为在中央控制器重启之前发送暂停消息。在一些实施方案中,事件消息传送状态可包括未决状态,并且每个节点可被配置为响应于接收到暂停心跳,而将事件消息传送状态转换为所述未决状态,其中所述未决状态阻止多个节点发送报告消息。在至少一些此类实施方案中,接收暂停心跳的每个节点记录最后报告的消息的标识符,其后存储新的事件消息而不将它们报告给控制控制器,直到中央控制器诸如通过发送正常心跳转换出未决状态为止。
心跳类型可包括恢复心跳,并且节点可被配置为响应于接收到所述恢复心跳,而将事件消息传送状态从受限状态或未决状态转换为活动状态。其中事件消息传送状态为未决的任何节点可通过将在最后记录的消息之后发生的所存储消息发送到中央控制器来响应接收到所述恢复心跳。
根据本文所包括的附图、说明书和权利要求,本公开的技术优点对于本领域技术人员而言可以是显而易见的。实施方案的目的和优点将至少通过权利要求中特别指出的元素、特征和组合来实现和获得。
应当理解,前述总体描述和以下详细描述均是示例和解释性的,并且不限制本公开中阐述的权利要求。
附图说明
通过参考结合附图进行的以下描述,可获得对本发明实施方案及其优点的更加完整的理解,在附图中相同的附图标号指示相同的特征,并且在附图中:
图1示出HCI平台的框图;
图2示出HCI节点的框图;
图3示出事件消息处置资源的框图;
图4示出与心跳相关联的事件消息传送状态和状态转换;
图5示出事件消息管理方法的流程图;以及
图6示出示例性信息处置系统的框图。
具体实施方式
通过参考图1至图6最佳地理解示例性实施方案及其优点,其中除非另外明确指示,否则相同的编号用于指示相同和对应的部分。
出于本公开的目的,信息处置系统可以包括可操作来出于商业、科学、控制、娱乐或其他目的而计算、分类、处理、传输、接收、检索、发起、交换、存储、显示、显现、检测、记录、重现、处置或利用任何形式的信息、情报或数据的任何工具或工具集合。例如,信息处置系统可以是个人计算机、个人数字助理(PDA)、消费型电子装置、网络存储装置或任何其他合适的装置,并且可在大小、形状、性能、功能和价格方面有所不同。信息处置系统可包括存储器、一个或多个处理资源(诸如中央处理单元(“CPU”))、微控制器或者硬件或软件控制逻辑。信息处置系统的另外的部件可包括一个或多个存储装置、用于与外部装置通信的一个或多个通信端口以及各种输入/输出(“I/O”)装置(诸如键盘、鼠标和视频显示器)。信息处置系统还可以包括可操作来在各种硬件部件之间传输通信的一条或多条总线。
另外,信息处置系统可包括用于控制例如硬盘驱动器、网络电路、存储器装置、I/O装置和其他外围装置和/或与所述各者通信的固件。例如,管理程序和/或其他部件可包括固件。如本公开中所用,固件包括嵌入在用于执行预定义任务的信息处置系统部件中的软件。固件通常存储在非易失性存储器中或在断电后不会丢失所存储数据的存储器中。在某些实施方案中,与信息处置系统部件相关联的固件存储在一个或多个信息处置系统部件可访问的非易失性存储器中。在相同或替代的实施方案中,与信息处置系统部件相关联的固件存储在专用于该部件并且包括该部件的一部分的非易失性存储器中。
出于本公开的目的,计算机可读介质可包括可保留数据和/或指令达一段时间的任何工具或工具集合。计算机可读介质可包括但不限于:存储介质,诸如直接存取存储装置(例如,硬盘驱动器或软盘)、顺序存取存储装置(例如,磁带磁盘驱动器)、光盘、CD-ROM、DVD、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)和/或闪存存储器;以及通信介质,诸如电线、光纤、微波、无线电波和其他电磁和/或光学载波;和/或前述项的任何组合。
出于本公开的目的,信息处置资源在广义上可指信息处置系统的任何部件系统、装置或设备,包括但不限于处理器、服务处理器、基本输入/输出系统(BIOS)、总线、存储器、I/O装置和/或接口、存储资源、网络接口、主板和/或信息处置系统的任何其他部件和/或元件。
在以下描述中,通过示例的方式阐述细节以促进对所公开主题的讨论。然而,对本领域普通技术人员应显而易见的是,所公开的实施方案是示例性的,并非穷尽所有可能的实施方案。
贯穿本公开,附图标号的带连字符的形式指的是元件的具体实例,而附图标号的未带连字符的形式泛指元件。因此,例如,“装置12-1”指的是装置类别的一个实例,所述装置类别可统称为“装置12”,并且其中的任一个可泛称为“装置12”。
如本文所用,当两个或更多个元件称为彼此“耦合”时,这种术语指示此类两个或更多个元件如在适用的情况下处于电子通信、机械连通,包括热和流体连通、热连通或机械连通,无论是间接还是直接连接,具有还是不具有中间元件都是如此。
在描述用于在分布式计算环境中监视和管理事件消息的公开特征之前,提供了适合于实现这些特征的示例性HCI平台。现在参考附图,图1和图2示出示例性信息处置系统100。图1和图2所示的信息处置系统100包括平台101,所述平台通信地耦合到平台管理员102。图1中所示的平台101是HCI平台,其中计算、存储和网络资源被虚拟化以提供软件定义的信息技术(IT)基础设施。管理员102可以是具有用于监督与HCI平台101的硬件、软件和/或固件元件有关的操作和维护的功能的任何计算系统。平台管理员102可以通过对应用程序编程接口(API)(未明确描绘)的请求和来自API的响应来与HCI平台101交互。在此类实施方案中,请求可以与下面描述的事件消息传送监视和事件消息传送状态管理有关。图1中所示的HCI平台101可以实现为数据中心和/或云计算资源或在所述数据中心和/或云计算资源内实现,所述数据中心和/或云计算资源的特征在于各种信息处置资源的软件定义集成和虚拟化,包括但不限于服务器、存储、网络资源、管理资源等。
图1中所示的HCI平台101包括一个或多个HCI集群106-1至106-N,其彼此通信地耦合并耦合到平台资源监视器(PRM)114。图1中所示的每个HCI集群106涵盖一组被配置为共享信息处置资源的HCI节点110-1至110-M。在一些实施方案中,资源共享可能需要虚拟化每个HCI节点110中的资源以创建该资源的逻辑池,所述逻辑池随后可以根据需要跨HCI集群106中的所有HCI节点110提供。例如,当考虑存储资源时,代表每个HCI节点110上的本地存储资源的一个或多个物理装置(例如,硬盘驱动器(HDD)、固态驱动器(SSD)等)可以被虚拟化以形成集群分布式文件系统(DFS)112。在至少一些此类实施方案中,集群DFS 112对应于由HCI集群106内的一些或全部存储形成的存储容量的逻辑池。
HCI集群106和所述集群内的一个或多个HCI节点110可以代表或对应于整个应用程序或实现所述应用程序的多个微服务中的一个或多个。作为一个示例,HCI集群106可以专用于特定微服务,其中多个HCI节点110提供冗余并支持高可用性。在另一个示例中,HCI集群106内的HCI节点110包括对应于与特定应用程序相关联的每个微服务的一个或多个节点。
图1中所示的HCI集群106-1还包括集群网络装置(CND)108,其促进HCI集群106-1的HCI节点110与其他集群106、PRM 114和/或一个或多个外部实体之间的通信和/或信息交换,所述一个或多个外部实体包括(作为一个示例)平台管理员102。在至少一些实施方案中,CND 108被实现为物理装置,其示例包括但不限于网络交换机、网络路由器、网络网关、网桥或它们的任何组合。
PRM 114可以用一个或多个服务器来实现,所述一个或多个服务器中的每一个可以对应于数据中心中的物理服务器、基于云的虚拟服务器或其组合。PRM 114可以通信地耦合到跨HCI平台101中的所有HCI集群106的所有HCI节点110以及耦合到平台管理员102。PRM114可以包括具有监视与HCI平台101相关联的资源利用参数(RUP)的功能的资源利用监视(RUM)服务或特征。
图2示出根据所公开的主题的示例性HCI节点110。可以用物理器具(例如,服务器(未示出))实现的HCI节点110实现超融合架构,从而将虚拟化、计算、存储和网络资源集成到单个解决方案中。HCI节点110可以包括资源利用代理(RUA)202,所述RUA通信地耦合到网络资源204、计算资源206和节点控制器216。图2中所示的节点控制器216耦合到支持一个或多个虚拟机(VM)210-1至210-L的管理程序208,所述虚拟机中的每一个被示出为具有操作系统(OS)214和一个或多个应用程序212。所示的节点控制器216还耦合到包括零个或多个可选存储控制器220的存储部件(例如小型计算机系统接口(SCSI)控制器),以及存储部件222。
在一些实施方案中,RUA 202的任务是监视HCI节点110上的虚拟化、计算、存储和/或网络资源的利用。因此,节点RUA 202可以包括以下功能:监视网络资源204的利用以获得网络资源利用参数(RUP);监视计算资源206的利用以获得计算RUP;监视虚拟机210的利用以获得虚拟化RUP;监视存储资源222的利用以获得存储RUP。RUA 202可以通过牵拉和/或推动机制周期性地向环境资源监视器(ERM)226提供一些或全部RUP。
现在转向用于在分布式计算环境中监视和管理事件消息的公开特征,图3示出与图1所示的HCI平台101结合使用的示例性事件消息传送资源300。图3中所示的事件消息传送资源300包括一个或多个中央控制器301,其中的两个在图3中被示出为中央控制器1(301-1)和中央控制器2(301-2)。所示的事件消息传送资源300还包括多个节点310,其中的两个在图3中被示出为节点1(310-1)和节点K(310-K)。
图3中所示的每个节点310可对应于图1中所示的HCI节点110的实例。在至少一些实施方案中,与任何特定中央控制器301通信的节点310可包括已与特定中央控制器建立管理信任关系的所有节点。已与中央控制器301建立管理信任关系的一组节点310可称为受管理节点,并且术语管理域在本文中可用于统称所有此类受管理节点。因此,图3示出由中央控制器1(301-1)的受管理节点(即,由中央控制器1(301-1),例如中央控制器301-1,管理的节点310)组成的管理域303。
图3中描绘的每个中央控制器301包括服务质量(QoS)控制资源302和事件侦听器304,而每个节点310包括事件消息(EM)控制器311和用于存储对应于每个中央控制器301的事件消息状态321的存储装置320。每个中央控制器301可实现为图1所示的基于HCI的信息处置系统100的部件或在其内实现。作为示例,中央控制器301可在平台管理员102(图1)、平台资源监视器114(图1)、环境资源监视器226(图2)或另一个合适的物理或虚拟系统、装置或资源内实现。
在至少一个实施方案中,QoS控制资源302被配置为产生心跳330,并将心跳330广播到由中央控制器301管理的每个节点310。中央控制器301可产生心跳330以传达中央控制器的事件消息处置能力。为了说明,QoS控制资源302使得在事件消息处置能力相对高时产生第一类型的心跳,当事件消息处置能力相对低时产生第二类型的心跳,以及产生包括以下关于图4描述的心跳类型的零个或多个其他类型的心跳。
每个事件消息控制器311中的心跳侦听器312从管理节点310的一个或多个方面的每个中央控制器301接收并处理心跳330。在至少一些实现方式中,每个事件消息控制器311为每个中央控制器301维护一组事件消息状态321。这些事件消息状态321在图3中示出为存储在每个节点310的存储资源320中。在至少一个实施方案中,中央控制器的事件消息传送状态321确定或影响节点310产生事件消息340并将事件消息340发送到适用的中央控制器以报告节点操作期间不时发生的节点事件316的方式。举例来说,可报告的事件可包括节点310的配置的任何变化,包括节点310的硬件、软件和/或固件关于任何计算、存储、网络和/或管理资源的任何变化。以此方式,每个中央控制器301和中央控制器301的管理域303内的节点310至少部分地基于中央控制器301的事件消息处置能力来协调事件消息的发送。本文描述的事件消息传送处置和管理的益处是能够在各种节点之间区分事件消息传送策略,从而促进支持不同节点的不同QoS级别的能力。另一个益处是能够检测和响应在操作期间将不可避免地发生的事件消息传送流量的变化。
现在参考图4,状态转换图示出可由图3所示的事件消息传送资源300采用的示例性事件消息传送策略400。图4中所示的事件消息传送策略400是基于采用由每个节点维护的四个事件消息状态的实现方式,其中每个事件消息状态可对应于中央控制器的消息处置能力,以及由中央控制器产生并从中央控制器发送的四种心跳类型,以发信号通知中央控制器的消息处置能力并且根据消息传送策略400在适用节点中转换事件消息传送状态。
图4的状态转换图中所示的事件消息状态包括活动状态401、未决状态402、受限状态403和无效状态404。图4所示的心跳包括正常心跳411、暂停心跳412、流控制心跳413和恢复心跳414。此外,图4示出心跳超时状况415,每当自最后心跳由中央控制器产生以来的时间间隔超过指定的超时值,就可发生心跳超时状况。普通技术人员将容易理解,使用四种事件消息状态和四种心跳类型是实现方式特定的设计选择,并且其他实现方式可采用更多、更少和/或不同的事件消息状态以及更多、更少和/或不同的心跳类型。
在至少一个实施方案中,每当中央控制器301的事件消息处置能力超过或低于指定阈值时,中央控制器301可发出流控制(F)心跳413。中央控制器301的消息处置能力可根据消息/秒、最大等待时间或这些和/或其他参数的组合来测量。流控制心跳413可包括最小间隔参数的指示,其中最小间隔参数的值可指示从任何给定节点发送的连续消息之间所需的最小时间间隔。流控制心跳413还可包括或以其他方式指示范围参数,所述范围参数指示受限状态应用于的一个或多个特定节点310。在此上下文中,范围可指受限事件消息传送状态应用于的节点310。流控制心跳的范围特征可促进节点310之间的QoS的差异化水平。作为一个示例,可将优先化节点310排除在流控制心跳的范围之外以允许该优先化节点310保持在活动状态。同时,其他节点可转换到受限状态403,其中事件消息报告受制于先前引用的最小间隔。
图4还示出响应于暂停心跳412从活动状态401到未决状态402的转换。暂停心跳可由中央控制器301在预期在中央控制器的计划中断之前的重置、系统引导或类似事件时产生,以实施配置改变或执行一些其他管理或维护任务。在这些实施方案中,未决状态402可对应于事件消息报告策略,其中适用节点存储而不是发送对应于可报告事件并且在暂停心跳被处理之后发生的新节点事件消息316,并且长达事件消息传送状态保持处于未决状态的时间。在图4所示的实施方案中,中央控制器可保持未决状态直到:接收到正常心跳为止,在这种情况下,中央控制器事件消息状态可转换为活动状态401;或者接收到流控制心跳为止,在这种情况下,事件消息传送状态转换为受限状态403。在至少一些实施方案中,节点310可通过记录由节点处理和/或发送的最后事件消息的标识符来响应暂停心跳412。在一些实施方案中,事件消息被分配随时间单调增加的唯一值或以其他方式与所述唯一值相关联。暂停心跳还可包括下一个心跳参数,所述心跳参数指示对中央控制器何时将回到操作状态的估计。每个节点310可使用下一个心跳参数的值来确定何时恢复对心跳的监视和处理。
图4的状态转换图说明了一种实现方式,其中每当节点310在超过指定阈值(在本文中可称为超时值)的持续时间内未能检测到来自中央控制器的心跳信号时,中央控制器301的事件消息传送状态就转换到无效状态404。
现在参考图5,流程图示出一种用于在分布式计算环境(诸如图1中所示的HCI环境)中管理和监视事件消息的方法500。方法500在图5中示出,其中左侧是由中央控制器执行的动作并且右手侧是由受管理节点中的一个或多个执行的动作。
所示方法开始于中央控制器将初始心跳广播(操作502)到所有受管理节点。在至少一些实施方案中,初始心跳是将受管理节点中的每一个转换到活动事件消息状态401(图4中所示)的正常心跳。初始心跳和所有后续心跳可例如通过UDP多播同时广播到所有受管理节点。
在广播初始心跳之后,中央控制器监视(操作504)其事件消息加载和/或其处理未决事件消息的能力。在至少一个实施方案中,中央控制器可区分至少两个事件消息处置能力,包括其中没有立即或没有明显延迟地处理事件消息的正常事件消息处置能力。在一些实现方式中,根据QoS参数确定正常事件消息处置能力,所述QoS参数可指示与事件消息处置相关联的最大等待时间。
基于在操作504中由中央控制件做出的事件消息处置能力确定,中央控制器可基于所确定的事件消息传送处置能力或受其影响来发送(操作506)合适的心跳。
如图5的右侧所示,每个受管理节点可通过将中央控制器的事件消息状态初始化为活动状态(操作520)来响应从中央控制器接收到初始心跳。受管理节点然后可监视(操作522)来自中央控制器的任何新的心跳。在接收到新的心跳时,每个受管理节点可基于当前事件消息状态和心跳类型来更新(操作524)中央控制器的事件消息状态,如上面关于图3和图4所讨论。当受管理节点接下来检测到(操作530)可报告事件时,所述受管理节点基于中央控制器的事件消息状态和对应的事件消息策略来确定(操作532)事件动作,如图3和图4所示以及如上所述。
本文所示或所述的HCI部件中的任一个或全部(包括虚拟化部件和资源)可以在图6所示的信息处置系统600上实例化。所示的信息处置系统包括一个或多个通用处理器或中央处理单元(CPU)601,其通信地耦合到存储器资源610和输入/输出集线器620,各种I/O资源和/或部件通信地耦合到所述输入/输出集线器。图6中明确描绘的I/O资源包括通常称为NIC(网络接口卡)的网络接口640、存储资源630和另外的I/O装置、部件或资源,包括作为非限制性示例,键盘、鼠标、显示器、打印机、扬声器、传声器等。未在图6中明确描绘,信息处置系统600的一些实施方案(包括一些服务器实施方案)可以包括基板管理控制器,所述基板管理控制器除其他特征和服务之外,提供可以耦合到管理装置的带外管理资源。类似地,虽然未在图6中明确描绘,但信息处置系统600的至少一些笔记本、膝上型计算机和/或平板计算机实施方案可以包括提供一些管理功能的嵌入式控制器(EC),这些管理功能可以包括由一些服务器实施方案中的基板管理控制器提供的至少一些功能、特征或服务。
本公开涵盖本领域普通技术人员将理解的对本文的示例性实施方案的所有改变、替换、变化、变更和修改。类似地,在适当的情况下,所附权利要求涵盖本领域普通技术人员将理解的对本文的示例性实施方案的所有改变、替换、变化、变更和修改。此外,所附权利要求中对被调适成、被布置成、有能力、被配置为、被启用来、能够操作来或可操作来执行特定功能的设备或系统或者设备或系统的部件的引用涵盖该设备、系统或部件,无论其或该特定功能是否被激活、开启或解锁,只要该设备、系统或部件是如此调适、布置、有能力、配置、启用、能够操作或可操作的即可。
本文所叙述的所有示例和条件语言均意图用于帮助读者理解本公开和由发明人提供的推进本领域的概念的教学目的,并且应当解释为不限于此类具体叙述的示例和条件。尽管已对本公开的实施方案进行了详细描述,但应当理解,在不脱离本公开的精神和范围的情况下,可对本公开的实施方案做出各种改变、替换和变更。

Claims (20)

1.一种信息处置系统管理方法,其中所述方法包括:
将中央控制器配置为向多个节点发送心跳,其中所述心跳指示所述中央控制器的消息处置能力;以及
将所述多个节点中的每一个配置为:
接收来自所述中央控制器的心跳,并基于所述心跳维护所述中央控制器的事件消息传送状态;以及
响应于可报告事件的发生,确定对应于所述事件消息传送状态的报告策略,并根据所述报告策略向所述中央控制器发送指示所述可报告事件的消息。
2.如权利要求1所述的方法,其中:
每个心跳包括一个或多个符合统一数据报协议(UDP)的数据包;
所述多个节点包括多个受管理节点,其中每个受管理节点包括由所述中央控制器管理的节点;以及
将所述中央控制器配置为发送所述心跳包括将所述中央控制器配置为向所述多个受管理节点多播所述一个或多个符合UDP的数据包。
3.如权利要求1所述的方法,其中:
所述心跳中的每一个的类型选自一组心跳类型;
所述事件消息传送状态选自一组事件消息传送状态;
所述一组心跳类型包括正常心跳,并且所述一组事件消息传送状态包括活动状态,其中所述多个节点被配置为响应于接收到正常心跳而分配所述活动状态;以及
对应于所述活动状态的所述报告策略使所述多个节点能够没有延迟地报告新事件。
4.如权利要求3所述的方法,其中:
所述一组心跳类型包括流控制心跳,并且所述中央控制器被配置为响应于检测到低于阈值能力的消息处置能力而发送流控制心跳;
所述一组事件消息传送状态包括受限状态,并且所述多个节点被配置为响应于接收到流控制心跳而将所述事件消息传送状态转换为所述受限状态;
对应于所述受限状态的所述报告策略在事件消息之间强加最小间隔。
5.如权利要求4所述的方法,其中所述流控制心跳包括所述最小间隔的指示。
6.如权利要求4所述的方法,其中所述流控制心跳包括所述流控制心跳应用于的节点的指示。
7.如权利要求4所述的方法,其中:
所述一组心跳类型包括暂停心跳,并且所述中央控制器被配置为在中央控制器重启之前发送心跳;
所述一组事件消息传送状态包括未决状态,并且所述多个节点被配置为响应于接收到暂停心跳而将所述事件消息传送状态转换为所述未决状态;以及
对应于所述未决状态的所述报告策略阻止所述多个节点发送报告消息。
8.如权利要求7所述的方法,其中接收所述暂停心跳的每个节点记录最后报告的消息的标识符,并且在所述中央控制器保持处于所述未决状态时存储新消息。
9.如权利要求8所述的方法,其中
所述一组心跳类型包括恢复心跳;以及
所述多个节点被配置为响应于接收到恢复心跳而将所述事件消息传送状态从所述受限状态或所述未决状态转换为所述活动状态。
10.如权利要求9所述的方法,其中,其中所述事件消息传送状态为未决的所述多个节点被配置为通过将在所述最后记录的消息之后发生的所存储消息发送到所述中央控制器来响应接收到所述恢复心跳。
11.一种信息处置系统,其包括:
处理器;
非暂时性存储装置,所述非暂时性存储装置通信地耦合到所述处理器,并且包括处理器可执行指令,所述处理器可执行指令在被执行时,使所述信息处置系统执行管理操作,所述管理操作包括:
将中央控制器配置为向多个节点发送心跳,其中所述心跳指示所述中央控制器的消息处置能力;以及
将所述多个节点中的每一个配置为:
接收来自所述中央控制器的心跳,并基于所述心跳维护所述中央控制器的事件消息传送状态;
响应于可报告事件的发生,确定对应于所述事件消息传送状态的报告策略,并根据所述报告策略向所述中央控制器发送指示所述可报告事件的消息。
12.如权利要求11所述的信息处置系统,其中:
每个心跳包括一个或多个符合统一数据报协议(UDP)的数据包;
所述多个节点包括多个受管理节点,其中每个受管理节点包括由所述中央控制器管理的节点;
将所述中央控制器配置为发送所述心跳包括将所述中央控制器配置为向所述多个受管理节点多播所述一个或多个符合UDP的数据包。
13.如权利要求11所述的信息处置系统,其中:
所述心跳中的每一个的类型选自一组心跳类型;
所述事件消息传送状态选自一组事件消息传送状态;
所述一组心跳类型包括正常心跳,并且所述一组事件消息传送状态包括活动状态,其中所述多个节点被配置为响应于接收到正常心跳而分配所述活动状态;以及
对应于所述活动状态的所述报告策略使所述多个节点能够没有延迟地报告新事件。
14.如权利要求13所述的信息处置系统,其中:
所述一组心跳类型包括流控制心跳,并且所述中央控制器被配置为响应于检测到低于阈值能力的消息处置能力而发送流控制心跳;
所述一组事件消息传送状态包括受限状态,并且所述多个节点被配置为响应于接收到流控制心跳而将所述事件消息传送状态转换为所述受限状态;
对应于所述受限状态的所述报告策略在事件消息之间强加最小间隔。
15.如权利要求14所述的信息处置系统,其中所述流控制心跳包括所述最小间隔的指示。
16.如权利要求14所述的信息处置系统,其中所述流控制心跳包括所述流控制心跳应用于的节点的指示。
17.如权利要求14所述的信息处置系统,其中
所述一组心跳类型包括暂停心跳,并且所述中央控制器被配置为在中央控制器重启之前发送心跳;
所述一组事件消息传送状态包括未决状态,并且所述多个节点被配置为响应于接收到暂停心跳而将所述事件消息传送状态转换为所述未决状态;以及
对应于所述未决状态的所述报告策略阻止所述多个节点发送报告消息。
18.如权利要求17所述的信息处置系统,其中接收所述暂停心跳的每个节点记录最后报告的消息的标识符,并且在所述中央控制器保持处于所述未决状态时存储新消息。
19.如权利要求18所述的信息处置系统,其中
所述一组心跳类型包括恢复心跳;以及
所述多个节点被配置为响应于接收到恢复心跳而将所述事件消息传送状态从所述受限状态或所述未决状态转换为所述活动状态。
20.如权利要求19所述的信息处置系统,其中,其中所述事件消息传送状态为未决的所述多个节点被配置为通过将在所述最后记录的消息之后发生的所存储消息发送到所述中央控制器来响应接收到所述恢复心跳。
CN202111593266.8A 2021-12-23 2021-12-23 超融合基础设施环境中的事件消息管理 Pending CN116339902A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111593266.8A CN116339902A (zh) 2021-12-23 2021-12-23 超融合基础设施环境中的事件消息管理
US17/695,611 US11748176B2 (en) 2021-12-23 2022-03-15 Event message management in hyper-converged infrastructure environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593266.8A CN116339902A (zh) 2021-12-23 2021-12-23 超融合基础设施环境中的事件消息管理

Publications (1)

Publication Number Publication Date
CN116339902A true CN116339902A (zh) 2023-06-27

Family

ID=86890105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593266.8A Pending CN116339902A (zh) 2021-12-23 2021-12-23 超融合基础设施环境中的事件消息管理

Country Status (2)

Country Link
US (1) US11748176B2 (zh)
CN (1) CN116339902A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240098052A1 (en) * 2022-09-16 2024-03-21 Itron, Inc. Messaging among agents in a mesh network

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881071B2 (en) * 2014-06-10 2018-01-30 Red Hat, Inc. Transport layer abstraction for clustering implementation
JP6724998B2 (ja) * 2016-10-20 2020-07-15 日本電気株式会社 サーバ装置、クラスタシステム、クラスタ制御方法およびプログラム
US10659371B1 (en) * 2017-12-11 2020-05-19 Amazon Technologies, Inc. Managing throttling limits in a distributed system

Also Published As

Publication number Publication date
US11748176B2 (en) 2023-09-05
US20230205611A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
US11895016B2 (en) Methods and apparatus to configure and manage network resources for use in network-based computing
US10635558B2 (en) Container monitoring method and apparatus
US10609159B2 (en) Providing higher workload resiliency in clustered systems based on health heuristics
US10841235B2 (en) Methods and apparatus to optimize memory allocation in response to a storage rebalancing event
US20190227845A1 (en) Methods and apparatus to improve resource allocation for virtualized server systems
US9110717B2 (en) Managing use of lease resources allocated on fallover in a high availability computing environment
US7519167B2 (en) System and method for communicating system management information during network interface teaming
JP2014186652A (ja) データ転送装置、データ転送システム、データ転送方法及びプログラム
US20170199694A1 (en) Systems and methods for dynamic storage allocation among storage servers
US10616339B2 (en) System and method to configure, manage, and monitor stacking of ethernet devices in a software defined network
US10348814B1 (en) Efficient storage reclamation for system components managing storage
US20160147657A1 (en) System and method for optimized disk io ram caching for a vdi environment
US11748176B2 (en) Event message management in hyper-converged infrastructure environment
US20170123657A1 (en) Systems and methods for back up in scale-out storage area network
US10402357B1 (en) Systems and methods for group manager based peer communication
US10630550B2 (en) Method for determining a primary management service for a client device in a hybrid management system based on client telemetry
US11838149B2 (en) Time division control of virtual local area network (vlan) to accommodate multiple virtual applications
US11809299B2 (en) Predicting storage array capacity
US20230195534A1 (en) Snapshot based pool of virtual resources for efficient development and test of hyper-converged infrastructure environments
US11799714B2 (en) Device management using baseboard management controllers and management processors
US20240214327A1 (en) Dynamic configuration of switch network port bandwidth based on server priority
US11360798B2 (en) System and method for internal scalable load service in distributed object storage system
KR20230067755A (ko) 가상머신의 메모리관리장치
CN116301567A (zh) 一种数据处理系统、方法及设备
CN116266139A (zh) 在混合模式下优化dc持久性内存模块(dcpmm)上的内存与存储容量划分

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination