CN116467116A - 计算机设备、数据处理器、处理系统及切换方法 - Google Patents

计算机设备、数据处理器、处理系统及切换方法 Download PDF

Info

Publication number
CN116467116A
CN116467116A CN202310323944.1A CN202310323944A CN116467116A CN 116467116 A CN116467116 A CN 116467116A CN 202310323944 A CN202310323944 A CN 202310323944A CN 116467116 A CN116467116 A CN 116467116A
Authority
CN
China
Prior art keywords
data
memory
data processor
processing device
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310323944.1A
Other languages
English (en)
Inventor
张先国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310323944.1A priority Critical patent/CN116467116A/zh
Publication of CN116467116A publication Critical patent/CN116467116A/zh
Priority to PCT/CN2024/071541 priority patent/WO2024198629A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请实施例提供一种计算机设备、数据处理器、处理系统及切换方法。其中,计算机设备包括第一数据处理器以及第二数据处理器;所述第一数据处理器与所述第二数据处理器通过线缆建立目标连接;所述第一数据处理器,用于根据所述第一数据处理器的运行状态,生成心跳数据,并基于所述目标连接将所述心跳数据发送至所述第二数据处理器;所述第二数据处理器,用于根据所述心跳数据,确定所述第一数据处理器运行异常情况下,基于所述目标连接从所述第一数据处理器获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。本申请实施例提供的技术方案提高了切换效率,保证了切换可靠性。

Description

计算机设备、数据处理器、处理系统及切换方法
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种计算机设备、数据处理器、处理系统以及切换方法。
背景技术
在一些网络计算场景如云计算场景中,为了提高云计算性能、降低成本并提高服务质量等,通常会引入DPU(Data Processing Unit,数据处理器)来释放CPU(centralprocessing unit,中央处理器)算力,以提高CPU的处理效率,例如,可以使用DPU作为智能网卡为物理主机中创建的云服务器提供网络服务等。
为了提高可靠性等,目前,通常会设置多个DPU以进行冗余备份,在一个DPU故障之后可以切换至另一个DPU继续提供服务。
现有技术中,一个DPU发生故障之后,如果切换至另一个DPU,另一个DPU需要重新进行初始化并重新建立连接等才能再接替故障DPU的工作,这种方式会导致DPU所提供的数据处理服务产生长时间的中断,切换效率低,导致切换可靠性差。
发明内容
本申请实施例提供一种计算机设备、数据处理器、处理系统及切换方法,用以解决现有技术中切换效率低、切换可靠性差的技术问题。
第一方面,本申请实施例中提供了一种计算机设备,包括第一数据处理器以及第二数据处理器;所述第一数据处理器与所述第二数据处理器通过线缆建立目标连接;
所述第一数据处理器,用于根据所述第一数据处理器的运行状态,生成心跳数据,并基于所述目标连接将所述心跳数据发送至所述第二数据处理器;
所述第二数据处理器,用于根据所述心跳数据,确定所述第一数据处理器运行异常情况下,基于所述目标连接从所述第一数据处理器获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。
第二方面,本申请实施例中提供了一种处理系统,包括多个处理设备,所述多个处理设备通过线缆连接;所述处理设备包括服务器或者部署于物理主机中的线路板;所述线路板包括数据处理器、中央处理器、图形处理器或网卡;
其中,所述多个处理设备中的第一处理设备,用以根据所述第一处理设备的运行状态,生成心跳数据,并基于与所述多个处理设备中的第二处理设备的目标连接,向所述第二处理设备发送心跳数据;
所述第二处理设备用于根据所述心跳数据,确定所述第一处理设备运行异常情况下,基于所述目标连接从所述第一处理设备获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。
第三方面,本申请实施例中提供了一种数据处理器,包括控制单元、内存及连接接口;所述连接接口通过线缆连接第二数据处理器的连接接口;
所述控制单元,用以根据所述第二数据处理器的运行状态,生成心跳数据;并将所述心跳数据写入所述第二数据处理器中的内存中;
所述内存,用以存储连接状态数据,并向所述第二数据处理器提供所述连接状态数据。
第四方面,本申请实施例中提供了一种切换方法,应用于第一处理设备,所述第一处理设备与至少一个处理设备通过线缆连接,所述方法包括:
根据所述第一处理设备的运行状态,生成心跳数据;
基于与第二处理设备的目标连接,向所述第二处理设备发送所述心跳数据;所述心跳数据用以触发所述第二处理设备检测所述第一处理设备是否运行异常;
基于所述目标连接,向所述第二处理设备提供连接状态数据。
第五方面,本申请实施例中提供了一种切换方法,应用于第二处理设备,所述第二处理设备与至少一个处理设备通过线缆连接,所述方法包括:
基于第一处理设备发送的心跳数据,确定所述第一处理设备是否运行异常;
在所述第一处理设备运行异常情况下,基于所述目标连接,从所述第一处理设备获取连接状态数据;
基于所述连接状态数据,提供对应的数据处理服务。
第六方面,本申请实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第四方面所述的切换方法或如上述第五方面所述的切换方法。
本申请实施例中,计算机设备包括第一数据处理器以及第二数据处理器,所述第一数据处理器与所述第二数据处理器通过线缆建立目标连接;所述第一数据处理器,用于根据所述第一数据处理器的运行状态,生成心跳数据,并基于所述目标连接将所述心跳数据发送至所述第二数据处理器;所述第二数据处理器,用于根据所述心跳数据,确定所述第一数据处理器运行异常情况下,基于所述目标连接从所述第一数据处理器获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。本申请实施例,通过心跳数据方式,实现了第一数据处理器的运行异常判定,并在运行异常时从第一数据处理器中获取连接状态数据,无需故障的第一数据处理器参与,即可实现连接状态数据的同步备份,且通过线缆建立物理连接,可以提高数据备份的实时性和效率,从而提高切换效率,不会造成所提供数据处理服务的长时间中断,保证了切换可靠性。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种处理系统一个实施例的结构示意图;
图2示出了本申请提供的一种计算机设备一个实施例的结构示意图;
图3示出了本申请提供的一种计算机设备又一个实施例的结构示意图;
图4示出了本申请提供的一种计算机设备又一个实施例的结构示意图;
图5示出了本申请提供的一种数据处理器一个实施例的结构示意图;
图6示出了本申请提供的一种切换方法一个实施例的流程图;
图7示出了本申请提供的一种切换方法又一个实施例的流程图;
图8示出了本申请提供的一种切换方法又一个实施例的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例的技术方案可以应用于设备冗余备份场景中,设备冗余备份是是提高可靠性的有效方法之一,任何独立的设备由于单点故障存在的可能性,可靠性低。因此,通过使用多个设备进行冗余备份,可以大大提升整个系统的可靠性。
以云计算场景中,DPU(Data Processing Unit,数据处理器)冗余备份为例,如背景技术中所述,目前,在一个DPU发生故障之后,如果切换至另一个DPU,另一个DPU需要重新进行初始化,并重新建立连接等以接替故障DPU的工作,这种方式会导致DPU所提供的数据处理服务产生中断,切换可靠性低。
发明人想到,可以将多个DPU同时运行,主用DPU处于正常工作状态,例如可以为云服务器提供网络服务,负责数据转换和转发等,主用DPU与备用DPU可以采用数据备份方式将用以提供数据处理服务所需的连接状态数据备份至备用DPU,主用DPU以及备用DPU可以采用通信协议进行数据备份。但是这种实现方式,如果实时进行数据备份,消耗资源较大,而如果主用DPU故障之后,数据又可能无法成功拷贝,因此,这种切换方式的可靠性也较低。
为了提高切换可靠性,发明人又经过一系列研究提出了本申请实施例的技术方案,在本申请实施例在中,多个处理设备之间通过线缆建立物理连接,使得多个处理设备中的第一处理设备与第二处理设备可以直接互相访问,第一处理设备可以基于自身运行状态而生成心跳数据,并可以直接将心跳数据写入第二处理设备,第二处理设备可以基于心跳数据判定第一处理设备是否运行异常,并可以在运行异常情况下,基于彼此建立的物理连接,从第一处理设备中直接获取连接状态数据,从而可以基于连接状态数据继续提供对应的数据处理服务,保证了数据处理服务不中断,且可以在故障发生时实现数据备份,可以降低资源消耗,且无需故障的设备参与,基于物理连接可以保证切换实时性和效率,从而提高了切换可靠性。
本申请实施例中所涉及的处理设备例如可以是指提供网络服务的服务器或者物理主机中的处理器件等,处理器件例如可以是CPU(Central Processing Unit,中央处理器)、GPU(GraphicProcessing Unit,图形处理器)、DPU、FPGA(Field-Programmable GateArray,即现场可编程门阵列)或者智能网卡或者其它处理类型的芯片器件等。本申请对此不进行限制,为了便于理解,下面一个或多个实施例中主要以DPU为例对本申请实施例的技术方案进行介绍。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种处理系统一个实施例的结构示意图,该处理系统中可以包括多个处理设备10;该多个处理设备10之间通过线缆建立连接。可选地,可以是多个处理设备10彼此之间均通过线缆建立连接,当然,也可以是一个处理设备与指定的一个或多个处理设备通过线缆建立连接等。
其中,多个处理设备10中的第一处理设备101用于根据第一处理设备101的运行状态,生成心跳数据,并基于与多个处理设备10中的第二处理设备102的目标连接,向第二处理设备102发送心跳数据;
第二处理设备102用于根据心跳数据,确定第一处理设备101运行异常情况下,基于目标连接从第一处理设备101获取连接状态数据,并基于连接状态数据提供对应的数据处理服务。
其中,第一处理设备101可以是指处理正常运行状态并提供数据处理服务的主用处理设备,第二处理设备102可以是第一处理设备101所选择的任一个处理设备,用以作为备用处理设备。
其中,第一处理设备101可以定时生成心跳数据,也即可以按照心跳周期,每间隔预定时间间隔而生成心跳数据。第一处理设备101运行异常情况下,就无法继续发送心跳数据,从而基于心跳数据即可以判定第一处理设备101的健康状况。
第一处理设备101每生成一个心跳数据即可以基于线缆所建立的连接发送至第二处理设备102中,第二处理设备102即可以根据心跳数据来判定第一处理设备101是否存活,可选地,第二处理设备102备例如可以是在检测心跳数据超时,比如在超过预定时间间隔未收到心跳数据,则可以确定第一处理设备101运行异常。
第二处理设备102确定第一处理设备101运行异常的情况下,则可以基于该目标连接从第一处理设备101中获取连接状态数据,并基于连接状态数据提供对应的数据处理服务。第二处理设备102基于连接状态数据提供对应的数据处理服务之后,即切换成为第一处理设备101,以作为主用处理设备。
上述连接状态数据例如可以包括配置数据、会话控制数据(Session)如会话表等,此外还可以包括硬件资源数据等。
其中,硬件资源数据用于第二处理设备102进行初始化操作,配置数据可以用于第二处理设备102据此进行配置,以实现与第一处理设备101的相同配置,会话控制数据用以第二处理设备102据此继续提供对应的数据处理服务,如保持连接以据此进行数据转换、转发等处理。其中,会话控制数据也即是指信息交互数据,如保存服务端与客户端之间的临时的、交互式的传递信息。
在本实施例中,第一处理设备与第二处理设备通过线缆建立物理连接,通过心跳数据方式,第一处理设备可以直接将心跳数据写入第二处理设备,使得第二处理设备可以及时识别第一处理设备是否运行异常,并在运行异常时从第一处理设备中获取连接状态数据,从而无需故障的第一处理设备参与,即可以实现连接状态数据的同步备份,且通过线缆建立物理连接,可以提高数据备份的实时性和效率,从而提高切换效率,不会造成所提供数据处理服务的长时间中断,保证了切换可靠性。
其中,上述多个处理设备10之间可以是基于总线标准通过线缆建立物理连接,用以连接的线缆也即为总线,本申请实施例中,多个处理设备10建立物理连接之后,可以直接访问彼此内存。因此,一些实施例中,第一处理设备101基于目标连接将心跳数据发送至第二处理设备102可以是:基于目标连接,访问第二处理设备102的第二内存,并将心跳数据写入第二内存;
第二处理设备102基于目标连接从第一处理设备获取连接状态数据可以是:基于目标连接访问第一处理设备101的第一内存,并从第一内存中获取连接状态数据。
可选地,多个处理设备10之间例如可以基于CXL(Compute Express Link,计算快速链路)协议建立物理连接,从而可以根据CXL.mem协议实现内存访问。
其中,CXL是一种高速缓存一致性互连协议,基于PCIE((peripheral componentinterconnect express,高速串行计算机扩展总线))发展而来的,运行在PCIE物理层上的,具有相同的电器特性,针对缓存和内存优化的一个新协议,物理上与PCIE兼容。
CXL协议主要包括CXL.io、CXL.cache以及CXL.mem;CXL.io是用于初始化、链接、设备发现和枚举以及注册访问的协议。CXL.cache是定义设备之间交互的协议,CXL.mem是为提供使用加载/存储命令直接访问设备附加内存的协议。
其中,多个处理设备10的内存可以采用内存统一编址方式设置内存地址,从而使得多个处理设备可以获知彼此内存的内存地址,以发起直接访问。
例如,第一处理设备101可以根据第二内存的内存地址访问第二内存,第二处理设备102可以根据第一内存的内存地址访问第一内存。
可选地,可以是由任一个处理设备对多个处理设备的内存进行内存统一编址,并可以将所确定的多个处理设备的内存地址通知各个处理设备或者仅将每个处理设备的内存地址通知每个处理设备,由每个处理设备结合自身内存地址以及内存统一编址方式确定其它处理设备的内存地址等。该任一个处理设备可以是预先指定的一个处理设备,或者随机选择的一个处理设备。
其中,对多个处理设备的内存采用内存统一编址方式设置内存地址可以是将多个处理设备的内存共用同一个地址空间,在该地址空间的一个地址分配给一个内存之后,另一个内存就无法占用该地址。
一些实施例中,第二处理设备102确定第一处理设备101运行异常情况下,还可以基于目标连接在第一处理设备101的第一内存中设置备份标识,并在获得连接状态数据之后,在第一内存中设置成功标识等。
上述备份标识及成功标识可以用于确定备份状态,备份状态例如可以包括备份进行中以及备份成功,如第一处理设备中仅存在备份标识的情况下,备份状态为备份进行中,存在备份标识以及成功标识的情况下,备份状态即为备份成功。
第一处理设备可以根据备份状态,确定是否执行目标处理操作,该目标处理设备例如可以是重启操作等,第一处理设备在运行异常情况下可以执行重启操作,为了不影响备份操作,可以是在备份成功之后执行重启操作。因此,若备份状态为备份进程中,则暂停目标处理操作,若备份状态为备份成功,则可以执行目标处理操作等。
此外,备份标识及成功标识确定备份是否成功,比如若仅存在备份标识而不存在成功标识,则表示备份失败,从而相关人员可以在数据处理服务存在异常情况下,结合备份标识以及成功标识确定故障原因等。
此外,一些实施例中,第一处理设备101可以是选择未设置备份标识或成功标识的处理设备作为第二处理设备102,也即备用处理设备。备份标识或成功表示可以表示对应的处理设备可能存在故障等,因此,可以结合备用标识或成功标识确定未存在故障的第二处理设备102。
可选地,第二处理设备102确定第一处理设备101运行异常情况下,还可以向控制设备发送故障提示信息,该故障提示信息用于提示第一处理设备101运行异常等。
控制设备可以将故障提示信息反馈给相应人员,以便相应人员进行维护等。相应人员结合备份标识以及成功标识即可以确定是否备份成功等。
由上文描述可知,实际应用中,上述所涉及的处理设备例如可以是指服务器或者部署于物理主机中的处理器件等。处理器件例如可以是指DPU、CPU、GPU等等。
上述数据处理服务根据设备类型或者所提供的服务类型不同而不同,例如可以是指网络服务、存储服务、计算服务或者通信服务等。
例如,处理设备为服务器的情况下,服务器可以与不同客户端建立通信连接,并提供通信服务等,为了保证通信服务质量等,可以设置多个服务器,客户端与主用服务器建立通信连接,在主用服务器运行异常的情况下,备用服务器可以继续提供通信服务,保证通信连接不中断等。
又如,处理设备为智能网卡或网卡情况下,可以为物理主机中运行的应用程序提供网络服务等,通过设置多个网卡或多个智能网卡,在主用网卡或主用智能网卡运行异常的情况下,可以选择备用网卡或备用智能网卡继续为应用程序提供网络服务,保证服务不中断等。其中,网卡,也叫网络接口卡(network interface card,NIC),是一种连接网络和服务器的网络硬件设备,方便网络数据传输与通信。智能网卡(smart network interfaceCard,SmartNIC)是一种灵活可编程的网卡。智能网卡可以具备计算能力,为了释放CPU算力,可以将担负网络、安全、存储中不适合CPU相关的数据处理功能卸载至智能网卡片,降低CPU的消耗。在互联网行业,智能网卡在数据中心应用十分广泛。智能网卡可用于数据传输、虚拟交换、数据安全和数据存储等场景。
又如,处理设备为CPU情况下,可以为物理主机中运行的应用程序提供网络服务、存储服务、计算服务或通信服务等,通过设置多个CPU,在主用CPU运行异常的情况下,可以选择备用CPU继续为应用程序提供相应服务,保证服务不中断等。
又如,处理设备为DPU情况下,DPU一种实现方式可以实现如上述智能网卡的功能,此外还可以提供计算服务、或存储服务等,以将CPU的部分算力卸载至CPU上,提高CPU的处理效率。通过设置多个DPU,在主用DPU运行异常的情况下,可以选择备用DPU继续为应用程序提供相应服务,保证服务不中断等。
需要说明的是,上述仅是列举了几种可能的应用场景,本申请并不限定于此,而通过采用本申请实施例的技术方案,可以提高切换可靠性。
为了便于理解,下面的一个或多个实施例中,主要以DPU的切换为例对本申请实施例的技术方案进行介绍。
如图2所示,为本申请实施例提供的一种计算机设备一个实施例的结构示意图,该计算机设备可以是一个物理主机,该计算机设备可以包括第一DPU201以及第二DPU202;第一DPU201与第二DPU202通过线缆建立目标连接;
第一DPU201,用于根据第一DPU的运行状态,生成心跳数据,并基于目标连接将心跳数据发送至第二DPU;
第二DPU202,用于根据心跳数据,确定第一DPU201运行异常情况下,基于目标连接从第一DPU201获取连接状态数据,并基于连接状态数据提供对应的数据处理服务。
可选地,该计算机设备中可以包括两个或两个以上的DPU,上述第一DPU可以是当前主用DPU,第二DPU可以是备用DPU。第二DPU获得连接状态数据,提供对应的数据处理服务之后,即切换成为第一DPU,可以继续执行本申请实施例的技术方案。
可选地,该第二DPU可以是预先指定的与第一DPU对应的一个DPU,当然,也可以是第一DPU从多个DPU中所选择的任意一个未存在故障的DPU。
可选地,上述连接状态数据例如可以包括配置数据、会话控制数据(Session)如会话表等,此外还可以包括硬件资源数据等。
其中,第一DPU可以定时生成心跳数据,也即可以按照心跳周期,每间隔预定时间间隔而生成心跳数据。第一DPU运行异常情况下,就无法继续发送心跳数据,从而基于心跳数据即可以判定第一DPU的健康状况。
第一DPU每生成一个心跳数据即可以基于线缆所建立的连接发送至第二DPU中,第二DPU即可以根据心跳数据来判定第一处理设备是否存活,可选地,第二DPU例如可以是在检测心跳数据超时,比如在超过预定时间间隔未收到心跳数据,则可以确定第一DPU运行异常。
本实施例中,第一DPU与第二DPU通过线缆建立物理连接,通过心跳数据方式,第一DPU可以直接将心跳数据写入第二DPU,使得第二DPU可以及时识别第一DPU是否运行异常,并在运行异常时从第一DPU中获取连接状态数据,从而无需故障的第一DPU参与,即可以实现连接状态数据的同步备份,且通过线缆建立物理连接,可以提高数据备份的实时性和效率,从而提高切换效率,不会造成所提供数据处理服务的长时间中断,保证了切换可靠性。
其中,第一DPU与第二DPU之间可以是基于总线标准通过线缆建立物理连接,用以连接的线缆也即为总线,本申请实施例中,第一DPU与第二DPU建立物理连接之后,可以直接访问彼此内存。因此,一些实施例中,第一DPU基于目标连接将心跳数据发送至第二DPU包括:基于目标连接,访问第二DPU的第二内存,并将心跳数据写入第二内存;
第二DPU基于目标连接从第一DPU获取连接状态数据包括:基于目标连接访问第一DPU的第一内存,并从第一内存中获取连接状态数据。
可选地,第一DPU与第二DPU之间例如可以基于CXL协议建立物理连接,从而可以根据CXL.mem协议实现内存访问。
如图3中所示,作为又一个实施例中,第一DPU201可以包括第一控制单元21、第一内存22以及第一连接接口23;第二DPU202包括第二控制单元24、第二内存25以及第二连接接口26;
其中,第一连接接口23与第二连接接口26通过线缆连接,使得第一DPU与第二DPU建立目标连接。
第一连接接口23以及第二连接接口26可以为支持CXL协议的互连接口等。
第一控制单元21,用于根据第一DPU的运行状态,生成心跳数据,并将心跳数据基于目标连接写入第二内存25;
第二控制单元24,用于根据心跳数据,确定第一DPU运行异常情况下,通过目标连接从第一内存22中获取连接状态数据,并基于连接状态数据提供对应的数据处理服务。
一些实施例中,第一内存22与第二内存25可以采用内存统一编址方式设置内存地址;从而使得第一控制单元21与第二控制单元24可以获知彼此内存的内存地址,以发起直接访问。
第一控制单元21将心跳数据通过目标连接写入第二内存25包括:确定第二内存25的内存地址,并根据第二内存25的内存地址,将心跳数据通过总线写入第二内存25;
第二控制单元24通过目标连接从第一内存22中获取连接状态数据包括:确定第一内存22的内存地址,并根据第一内存22的内存地址,从第一内存22中获取连接状态数据。
其中,在计算机设备包括多个DPU,可以是由指定的一个DPU对多个DPU中的内存进行内存统一编址等,并分别通知各个DPU等。
例如,一些实施例中,第一控制单元21还用于,对第一内存22以及第二内存25进行内存统一编址,并将第一内存22的内存地址以及第二内存25的内存地址基于目标连接通知第二控制单元24。
又如,一些实施例中,第二控制单元24,还用于对第一内存22以及第二内存25进行内存统一编址,并将第一内存22的内存地址以及第二内存25的内存地址基于目标连接通知第一控制单元21。
当然,第一控制单元21或第二控制单元24也可以是获取第三控制单元所通知的各个DPU分别对应的内存地址等。第三控制单元可以是多个DPU中的任一个DPU中所包括的控制单元,该第三控制单元也可以是预先指定的一个DPU所包括的控制单元。
当然,也可以由计算机设备中的CPU执行内存统一编址操作等,本申请对此不进行具体限定。
其中,采用内存统一编址方式设置内存地址可以是将多个内存共用同一个地址空间,在该地址空间的一个地址分配给一个内存之后,另一个内存就无法占用该地址。
一些实施例中,第二控制单元24,还可以用于在确定第一DPU运行异常情况下,在第一内存22中设置备份标识,以及获得连接状态数据之后,在第一内存22中设置成功标识。
其中,备份标识及成功标识用于确定备份状态。第一控制单元还可以用户根据所述备份标识或所述成功标识确定备份状态,并根据所述备份状态是否执行目标处理操作。
备份状态例如可以包括备份进行中以及备份成功,如第一控制单元中仅存在备份标识的情况下,备份状态为备份进行中,存在备份标识以及成功标识的情况下,备份状态即为备份成功。
第一控制单元可以根据备份状态,确定是否执行目标处理操作,该目标处理设备例如可以是重启操作等,第一控制单元在运行异常情况下可以执行重启操作以期重新启动第一DPU,为了不影响备份操作,可以是在备份成功之后执行重启操作。因此,若备份状态为备份进程中,则暂停目标处理操作,若备份状态为备份成功,则可以执行目标处理操作等。
此外,备份标识及成功标识可以确定是否备份成功。比如若仅存在备份标识而不存在成功标识,则表示备份失败,从而相关人员可以在数据处理服务存在异常情况下,结合备份标识以及成功标识确定故障原因等。
此外,一些实施例中,第二控制单元24还用于确定第一DPU运行异常情况下,向控制端发送故障提示信息。
此外,实际应用中,第一控制单元21以及第二控制单元24例如可以采用ASIC(Application Specific Integrated Circuit,专用集成电路)实现,为了降控制单元的设计复杂度等,如图3中所示,第一DPU中还可以包括第一处理单元27,第二DPU中还可以包括第二处理单元28;
第二控制单元24,还用于根据心跳数据,确定第一DPU运行异常情况下,向第二处理单元28发送故障通知;
第二处理单元28,用于基于故障通知,向控制端发送故障提示信息,以供控制端输出故障提示信息。
该故障提示信息可以提示第一DPU运行异常等。
控制端可以将故障提示信息反馈给相应人员,以便相应人员进行维护等。相应人员结合备份标识以及成功标识即可以确定是否备份成功等。
其中,上述第一处理单元27以及上述第二处理单元28例如可以实现为CPU等。
可选地,上述第一内存以及第二内存例如可以为SDRAM(Synchronous DynamicRandom Access Memory,同步动态随机存储器)、DDR SDRM(Double data Rate SDRAM,简称DDRs,双倍速率同步动态随机存储器)、PMEM(Persistent Memory,永久内存)等,当然,内存中还可以包括ROM(只读存储器)、CACHE(高速缓存存储器)等,本申请对此不进行具体限定。
在一个实际应用,本申请实施例的技术方案可以应用于云计算场景中,上述计算机设备为云计算系统所提供的物理主机,如图4中所示,与图2所示结构不同之处在于,该计算机设备还可以包括处理组件40,在该处理组件40中可以运行至少一个云服务器41。
该处理组件可以通过第一DPU或第二DPU为至少一个云服务器41分别提供网络服务。
也即第一DPU或第二DPU可以提供网卡功能,以提供对应的网络服务等。第一DPU或第二DPU通过构建虚拟网卡以为云服务器提供网路服务等。
在该实现场景中,上述连接状态数据所包括的配置数据例如可以包括ENI(Elastic Network Interface,弹性网络接口)、EBS(弹性块存储,Elastic BlockStorage)、IP(Internet Protocol,网络互连协议)地址等。
会话控制数据例如可以包括会话表、路由表等。会话表记录了具体的交互数据,路由表记录了数据转发地址等。
硬件资源信息例如可以包括所支持的PCIE以及VirtIO(一种I/O半虚拟化标准)等初始化信息,以便于进行初始化操作等。
结合上述连接状态数据,第二DPU可以按照PCIE以及VirtIO进行初始化以构建ENI、EBS并分配IP地址,之后即可以基于会话表以及路由表提供对应的网路服务等。
可选地,该计算机设备还可以包括存储组件,该存储组件存储一条或多条计算机指令,一条或多条计算机指令用以被处理组件调用并执行,以运行至少一个云服务器,并通过第一DPU或第二DPU为至少一个云服务器分别提供网络服务;
上述第二DPU基于连接状态数据提供对应的数据处理服务也即具体是基于连接状态数据为至少一个云服务器提供网络服务。
其中,处理组件可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
在云计算场景中,上述计算机设备可以是云计算平台提供的弹性计算主机等。
此外,如图5中所述,本申请实施例还提供了一种数据处理器,该数据处理器可以包括控制单元501、内存502及连接接口503;连接接口503通过线缆连接第二DPU的连接接口;
控制单元501,用以根据第二DPU的运行状态,生成心跳数据;并将心跳数据写入第二DPU中的内存中;
内存502,用以存储连接状态数据,并向第二DPU提供连接状态数据。
图5所示的数据处理器可以具体实现为上述任一实施例中的第一数据处理器等,也即作为主用数据处理器。
此外,在一些场景下,图5所示的数据处理器也可以作为备用处理器等,可以具体实现为上述任一实施例中的第二数据处理器,因此,一些实施例中,
内存502还可以用于保存第一DPU写入的心跳数据;
控制单元501还可以还用于根据内存502写入的心跳数据,确定第一DPU运行异常的情况下,从第一DPU的内存中获取连接状态数据,并基于连接状态数据提供对应的数据处理服务。
一些实施例中,该数据处理器还可以包括处理单元504,用以接收控制单元501发送的故障通知,并基于所述故障通知,向控制端发送故障提示信息。
控制单元501还可以在确定第一数据处理器运行异常情况下,向处理单元504发送该故障通知。
此外,对应于图1所示的处理系统,如图6所示,为本申请实施例提供的一种切换方法一个实施例的流程图,本实施例的技术方案应用于第一处理设备中,第一处理设备可以与至少一个处理设备通过线缆连接,该方法可以包括以下几个步骤:
601:根据第一处理设备的运行状态,生成心跳数据。
602:基于与第二处理设备的目标连接,向第二处理设备发送心跳数据。
其中,心跳数据用以触发第二处理设备检测第一处理设备是否运行异常;
603:基于目标连接,向第二处理设备提供连接状态数据。
第二处理设备可以在确定第一处理设备运行异常情况下,基于目标连接从第一处理设备获得该连接状态数据。
一些实施例中,第一处理设备可以是基于与第二处理设备的目标连接,向第二处理设备的第二内存中写入心跳数据。
第二处理设备可以基于目标连接访问第一处理设备中的第一内存,以获取连接状态数据中。
需要说明的是,图6所示实施例所述的切换方法所涉及的各个步骤操作的具体方式已经在上述图1所示实施例所述的处理系统中进行了详细描述,此处将不做详细阐述说明。
图7为本申请实施例提供的一种切换方法又一个实施例的流程图,本实施例的技术方案由第二处理设备执行,第二处理设备与至少一个处理设备通过线缆连接,该方法可以包括以下几个步骤:
701:基于第一处理设备发送的心跳数据,确定第一处理设备是否运行异常,若是,执行步骤702。
702:基于目标连接,从第一处理设备获取连接状态数据。
703:基于连接状态数据,提供对应的数据处理服务。
一些实施例中,第一处理设备可以是写入第二处理设备的第二内存中,第二处理设备可以是基于第二内存中的心跳数据来确定第一处理设备是否运行异常。
可选地,第二处理设备可以是基于目标连接,从第一处理设备的第一内存中获取连接状态数据。
需要说明的是,图7所示实施例所述的切换方法所涉及的各个步骤操作的具体方式已经在上述图1所示实施例所述的处理系统中进行了详细描述,此处将不做详细阐述说明。
图8为本申请实施例提供的一种切换方法又一个实施例的信令流程图,图8以DPU为例对本申请实施例的技术方案进行介绍,该方法可以包括如下几个步骤:
801:第一控制单元根据第一DPU的运行状态,生成心跳数据,并将心跳数据基于目标连接写入第二DPU中的第二内存。
802:第二控制单元根据心跳数据,确定第一DPU运行异常。
803:第二控制单元在第一内存中设置备份标识。
804:第二控制单元通过目标连接从第一内存中获取连接状态数据。
该连接状态数据可直接写入第二内存中。
805:第二控制单元在第一内存中设置成功标识。
806:第二控制单元基于连接状态数据提供对应的数据处理服务。
第二控制单元即可以基于第二内存中存入的连接状态数据,提供数据处理服务。
807:第二控制单元向第二处理单元发送故障通知。
808:第二处理单元基于故障通知,向控制端发送故障提示信息。
需要说明的是,图8所示实施例所述的切换方法所涉及的各个步骤操作的具体方式已经在上述图2或图3或图4所示实施例所述的计算机设备中进行了详细描述,此处将不做详细阐述说明。
本申请实施例中,通过远程内存刷新方式,利用心跳数据实现了健康度识别,通过物理连接方式,无需通信协议连接,使得数据备份实时性和效率更高,且无需故障设备参与,实现看跨设备的数据复制,以保持继续提供数据处理服务,而不产生中断,提高了切换可靠性,性能得到大大提升。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被计算机执行时可以实现上述图6所示实施例所述的切换方法或图7所示实施例所述的切换方法。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本申请实施例还提供了一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,计算机程序被计算机执行时可以实现如上述如图6所示实施例的切换方法或图7所示实施例所述的切换方法。在这样的实施例中,计算机程序可以是从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被处理器执行时,执行本申请的系统中限定的各种功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种计算机设备,其特征在于,包括第一数据处理器以及第二数据处理器;所述第一数据处理器与所述第二数据处理器通过线缆建立目标连接;
所述第一数据处理器,用于根据所述第一数据处理器的运行状态,生成心跳数据,并基于所述目标连接将所述心跳数据发送至所述第二数据处理器;
所述第二数据处理器,用于根据所述心跳数据,确定所述第一数据处理器运行异常情况下,基于所述目标连接从所述第一数据处理器获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。
2.根据权利要求1所述的设备,其特征在于,所述第一数据处理器基于所述目标连接将所述心跳数据发送至所述第二数据处理器包括:基于所述目标连接,访问所述第二数据处理器的第二内存,并将所述心跳数据写入所述第二内存;
所述第二数据处理器基于所述目标连接从所述第一数据处理器获取连接状态数据包括:基于所述目标连接访问所述第一数据处理器的第一内存,并从所述第一内存中获取连接状态数据。
3.根据权利要求2所述的设备,其特征在于,所述第一数据处理器包括第一控制单元以及所述第一内存;所述第二数据处理器包括第二控制单元以及所述第二内存;
所述第一控制单元,用于根据所述第一数据处理器的运行状态,生成心跳数据,并将所述心跳数据基于所述目标连接写入所述第二内存;
所述第二控制单元,用于根据所述心跳数据,确定所述第一数据处理器运行异常情况下,通过所述目标连接从所述第一内存中获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。
4.根据权利要求3所述的设备,其特征在于,所述第一内存与所述第二内存采用内存统一编址方式设置内存地址;
所述第一控制单元将所述心跳数据通过所述目标连接写入所述第二内存包括:确定所述第二内存的内存地址,并根据所述第二内存的内存地址,将所述心跳数据通过所述线缆写入所述第二内存;
所述第二控制单元通过所述目标连接从所述第一内存中获取连接状态数据包括:确定所述第一内存的内存地址,并根据所述第一内存的内存地址,从所述第一内存中获取连接状态数据。
5.根据权利要求4所述的设备,其特征在于,所述第一控制单元还用于,对所述第一内存以及所述第二内存进行内存统一编址,并将所述第一内存的内存地址以及所述第二内存的内存地址基于所述目标连接通知所述第二控制单元;
或者,所述第二控制单元,还用于对所述第一内存以及所述第二内存进行内存统一编址,并将所述第一内存的内存地址以及所述第二内存的内存地址基于所述目标连接通知所述第一控制单元。
6.根据权利要求3所述的设备,其特征在于,所述第一数据处理器还包括第一处理单元,所述第二数据处理器还包括第二处理单元;
所述第二控制单元,还用于根据所述心跳数据,确定所述第一数据处理器运行异常情况下,向所述第二处理单元发送故障通知;
所述第二处理单元,用于基于所述故障通知,向控制端发送故障提示信息,以供所述控制端输出所述故障提示信息。
7.根据权利要求3所述的设备,其特征在于,所述第二控制单元,还用于在所述第一内存中设置备份标识,以及获得所述连接状态数据之后,在所述第一内存中设置成功标识;所述备份标识及所述成功标识用于确定备份状态。
8.根据权利要求1所述的设备,其特征在于,所述设备还包括处理组件;所述处理组件用以运行至少一个云服务器,并通过所述第一数据处理器或所述第二数据处理器为所述至少一个云服务器提供网络服务。
9.一种处理系统,其特征在于,包括多个处理设备,所述多个处理设备通过线缆连接;所述处理设备包括服务器或者部署于物理主机中的线路板;所述线路板包括数据处理器、中央处理器、图形处理器或网卡;
其中,所述多个处理设备中的第一处理设备,用以根据所述第一处理设备的运行状态,生成心跳数据,并基于与所述多个处理设备中的第二处理设备的目标连接,向所述第二处理设备发送心跳数据;
所述第二处理设备用于根据所述心跳数据,确定所述第一处理设备运行异常情况下,基于所述目标连接从所述第一处理设备获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。
10.一种数据处理器,其特征在于,包括控制单元、内存及连接接口;所述连接接口通过线缆连接第二数据处理器的连接接口;
所述控制单元,用以根据所述第二数据处理器的运行状态,生成心跳数据;并将所述心跳数据写入所述第二数据处理器中的内存中;
所述内存,用以存储连接状态数据,并向所述第二数据处理器提供所述连接状态数据。
11.根据权利要求10所述的数据处理器,其特征在于,所述内存,还用于保存第一数据处理器写入的心跳数据;
所述控制单元,还用于根据所述内存写入的心跳数据,确定所述第二数据处理器运行异常的情况下,从所述第二数据处理器的内存中获取连接状态数据,并基于所述连接状态数据提供对应的数据处理服务。
12.一种切换方法,其特征在于,应用于第一处理设备,所述第一处理设备与至少一个处理设备通过线缆连接,所述方法包括:
根据所述第一处理设备的运行状态,生成心跳数据;
基于与第二处理设备的目标连接,向所述第二处理设备发送所述心跳数据;所述心跳数据用以触发所述第二处理设备检测所述第一处理设备是否运行异常;
基于所述目标连接,向所述第二处理设备提供连接状态数据。
13.一种切换方法,其特征在于,应用于第二处理设备,所述第二处理设备与至少一个处理设备通过线缆建立目标连接,所述方法包括:
基于第一处理设备发送的心跳数据,确定所述第一处理设备是否运行异常;
在所述第一处理设备运行异常情况下,基于所述目标连接,从所述第一处理设备获取连接状态数据;
基于所述连接状态数据,提供对应的数据处理服务。
14.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求12所述的切换方法或如权利要求13所述的切换方法。
CN202310323944.1A 2023-03-24 2023-03-24 计算机设备、数据处理器、处理系统及切换方法 Pending CN116467116A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310323944.1A CN116467116A (zh) 2023-03-24 2023-03-24 计算机设备、数据处理器、处理系统及切换方法
PCT/CN2024/071541 WO2024198629A1 (zh) 2023-03-24 2024-01-10 计算机设备、数据处理器、处理系统及切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310323944.1A CN116467116A (zh) 2023-03-24 2023-03-24 计算机设备、数据处理器、处理系统及切换方法

Publications (1)

Publication Number Publication Date
CN116467116A true CN116467116A (zh) 2023-07-21

Family

ID=87176337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310323944.1A Pending CN116467116A (zh) 2023-03-24 2023-03-24 计算机设备、数据处理器、处理系统及切换方法

Country Status (2)

Country Link
CN (1) CN116467116A (zh)
WO (1) WO2024198629A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024198629A1 (zh) * 2023-03-24 2024-10-03 杭州阿里云飞天信息技术有限公司 计算机设备、数据处理器、处理系统及切换方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050097015A (ko) * 2004-03-30 2005-10-07 삼성탈레스 주식회사 대형시스템에서 고장 감내 기능 구현을 위한 이중화 방법
EP2199914A1 (en) * 2008-12-12 2010-06-23 BAE Systems PLC An apparatus and method for processing data streams
CN108282907B (zh) * 2018-01-29 2023-04-07 深圳市同科联赢科技有限公司 电子设备、无线组网系统、装置及其控制方法和存储装置
CN110874926A (zh) * 2018-08-31 2020-03-10 百度在线网络技术(北京)有限公司 智能路侧单元
CN115022159A (zh) * 2022-06-27 2022-09-06 汉中一零一航空电子设备有限公司 一种控制设备主控制器冗余备份系统及方法
CN116467116A (zh) * 2023-03-24 2023-07-21 阿里巴巴(中国)有限公司 计算机设备、数据处理器、处理系统及切换方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024198629A1 (zh) * 2023-03-24 2024-10-03 杭州阿里云飞天信息技术有限公司 计算机设备、数据处理器、处理系统及切换方法

Also Published As

Publication number Publication date
WO2024198629A1 (zh) 2024-10-03

Similar Documents

Publication Publication Date Title
CN109842651B (zh) 一种业务不间断的负载均衡方法和系统
CN102567227B (zh) 共享缓存设备的双控制器存储系统和方法
US9886358B2 (en) Information processing method, computer-readable recording medium, and information processing system
WO2024198629A1 (zh) 计算机设备、数据处理器、处理系统及切换方法
US20210286747A1 (en) Systems and methods for supporting inter-chassis manageability of nvme over fabrics based systems
CN116881053B (zh) 数据处理方法及交换板、数据处理系统、数据处理装置
CN112612769B (zh) 文件处理方法、装置及存储介质
CN113515408A (zh) 一种数据容灾方法、装置、设备及介质
US20210271420A1 (en) Method and apparatus for performing data access management of all flash array server
WO2021012169A1 (zh) 一种提高存储系统可靠性的方法和相关装置
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN114265753A (zh) 消息队列的管理方法、管理系统和电子设备
CN114448828B (zh) 存储双活功能测试方法、系统、终端及存储介质
CN116126457A (zh) 容器迁移方法和服务器集群
US10067841B2 (en) Facilitating n-way high availability storage services
CN109474694A (zh) 一种基于san存储阵列的nas集群的管控方法及装置
CN105607872A (zh) 一种存储装置
US20160011929A1 (en) Methods for facilitating high availability storage services in virtualized cloud environments and devices thereof
CN110620684A (zh) 一种存储双控防脑裂方法、系统、终端及存储介质
CN104702693B (zh) 两节点系统分区的处理方法和节点
CN112685803A (zh) 热备状态切换方法、装置、设备和存储介质
CN115202803A (zh) 一种故障处理方法及装置
US11947431B1 (en) Replication data facility failure detection and failover automation
CN118646641A (zh) 故障处理方法、装置及智能网卡
US11921605B2 (en) Managing applications in a cluster

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination