CN116361114A - 一种ai板卡监控保活方法、装置、设备及介质 - Google Patents

一种ai板卡监控保活方法、装置、设备及介质 Download PDF

Info

Publication number
CN116361114A
CN116361114A CN202310301791.0A CN202310301791A CN116361114A CN 116361114 A CN116361114 A CN 116361114A CN 202310301791 A CN202310301791 A CN 202310301791A CN 116361114 A CN116361114 A CN 116361114A
Authority
CN
China
Prior art keywords
keep
alive
monitoring
core
board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310301791.0A
Other languages
English (en)
Inventor
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN202310301791.0A priority Critical patent/CN116361114A/zh
Publication of CN116361114A publication Critical patent/CN116361114A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种AI板卡监控保活方法、装置、设备及介质,应用于服务器端的监控服务子进程,涉及计算机技术领域,方法包括:对相应的处理核心的核心处理进程进行状态监控;若监控结果表示核心处理进程处于异常状态,则发送针对核心处理进程的保活命令至AI板卡,以便AI板卡对核心处理进程进行保活操作;继续对核心处理进程进行状态监控,若监控结果表示核心处理进程处于异常状态,则跳转至发送针对核心处理进程的保活命令至AI板卡的步骤,直至连续发送保活命令的第一次数不小于第一预设阈值且核心处理进程仍处于异常状态时,发送AI板卡的重启命令至AI板卡,以便进行板卡重启。本申请能够在完成板卡保活的基础上提高板卡工作效率。

Description

一种AI板卡监控保活方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,特别涉及一种AI板卡监控保活方法、装置、设备及介质。
背景技术
随着人工智能领域的兴起,AI(Artificial intelligence,人工智能)加速卡的大规模部署以及长时间运行成为常态。AI板卡能够正常工作需要一种监控机制来保证,当AI板卡系统异常不能响应服务请求时需要通过触发保活机制来完成异常修复,一种实时监控板卡状态并异常保活的服务成为板卡正常运行的重要组成部分。
当前,常见的保活方法包括两种,第一种方法具体为:服务器端的业务请求在板卡端不能正常响应时,服务器端业务程序通过请求响应超时来感知板卡异常,然后终止正常执行程进入异常处理程序。这种处理方法是将板卡问题交给上层业务层来处理,这种将异常暴露给客户的处理方法,客户受限于对底层板卡操作的限制采取的手段有限,例如只能重启板卡,这对业务效率影响很大;第二种方法具体为:服务器端通过加入板卡监控后台服务程序,当检测到板卡异常时主动触发重启操作,这种监控一般是检测到板卡完全宕机时的场景,对于板卡软件问题导致无法响应服务程序场景无法解决,此外一般是以板卡下电上电的方式重启,此时,多核心板卡如果有1个核心出现异常那么整张板卡都会重启,导致整张板卡的多个正常执行的业务中断,降低了效率。
综上所述,如何在完成板卡保活的基础上提高板卡工作效率是当前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种AI板卡监控保活方法、装置、设备及介质,能够在完成板卡保活的基础上提高板卡工作效率。其具体方案如下:
第一方面,本申请公开了一种AI板卡监控保活方法,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;所述方法包括:
对相应的所述处理核心的核心处理进程进行状态监控;
若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;
继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
可选的,所述对相应的所述处理核心的核心处理进程进行状态监控,包括:
以心跳包方式对相应的所述处理核心的核心处理进程进行状态监控。
可选的,所述以心跳包方式对相应的所述处理核心的核心处理进程进行状态监控,包括:
根据预设检测周期,向相应的所述处理核心的核心处理进程发送监控服务请求,并判断是否获取到所述核心处理进程基于所述监控服务请求返回的监控响应。
可选的,所述若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,包括:
若连续未获取到所述监控响应的第二次数不小于第二预设阈值,则监控结果表示所述处理核心处于异常状态,然后发送针对所述核心处理进程的保活命令至所述AI板卡。
可选的,所述向相应的所述处理核心的核心处理进程发送监控服务请求,包括:
通过PCIE接口向相应的所述处理核心的核心处理进程发送监控服务请求。
可选的,所述若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作,包括:
若监控结果表示所述核心处理进程处于异常状态,则发送针对所述处理核心的第二重启命令至所述AI板卡的保活服务进程,以便所述保活服务进程基于所述第二重启命令删除所述处理核心的所述核心处理进程,并为所述处理核心创建新核心处理进程。
可选的,所述监控服务主进程通过进程判断机制判断所述处理核心对应的所述监控服务子进程是否处于异常状态,若处于异常状态,则删除所述监控服务子进程,并为所述处理核心创建新监控服务子进程。
第二方面,本申请公开了一种AI板卡监控保活装置,其特征在于,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;所述装置包括:
监控模块,用于对相应的所述处理核心的核心处理进程进行状态监控;
第一命令发送模块,用于若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;
第二命令发送模块,用于继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
第三方面,本申请公开了一种电子设备,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现前述公开的AI板卡监控保活方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的AI板卡监控保活方法。
可见,对相应的所述处理核心的核心处理进程进行状态监控;若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。由此可见,本申请服务器端为每个处理核心创建监控服务子进程,监控服务子进程智能对相应的处理核心的核心处理进程进行监控,防止了各个核心处理进程之间相互影响;本申请是对核心处理进程检测,实现了对所有软件问题场景的检测;本申请在核心处理进程异常时对核心处理进程进行保活操作,而不是只能在板卡系统宕机时发现异常然后对板卡进行重启,两者相比,对核心处理进程进行保活操作不会影响其它核心处理进程,提高了板卡工作效率;本申请在多次未能对核心处理进程保活成功时,对板卡进行重启操作,多次保活的过程避免了因事务未能对核心处理进程保活成功的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种AI板卡监控保活方法流程图;
图2为本申请提供的一种具体的AI板卡监控保活方法流程图;
图3为本申请提供的一种AI板卡监控保活方法流程示意图;
图4为本申请提供的一种AI板卡监控保活方法架构图;
图5本申请提供的一种AI板卡监控保活装置结构示意图;
图6本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,常见的保活方法包括两种,第一种方法具体为:服务器端的业务请求在板卡端不能正常响应时,服务器端业务程序通过请求响应超时来感知板卡异常,然后终止正常执行程进入异常处理程序。这种处理方法是将板卡问题交给上层业务层来处理,这种将异常暴露给客户的处理方法,客户受限于对底层板卡操作的限制采取的手段有限,例如只能重启板卡,这对业务效率影响很大;第二种方法具体为:服务器端通过加入板卡监控后台服务程序,当检测到板卡异常时主动触发重启操作,这种监控一般是检测到板卡完全宕机时的场景,对于板卡软件问题导致无法响应服务程序场景无法解决,此外一般是以板卡下电上电的方式重启,此时,多核心板卡如果有1个核心出现异常那么整张板卡都会重启,导致整张板卡的多个正常执行的业务中断,降低了效率。
为了克服上述问题,本申请提供了一种AI板卡监控保活方案,能够在完成板卡保活的基础上提高板卡工作效率。
参见图1所示,本申请实施例公开了一种AI板卡监控保活方法,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;该方法包括:
步骤S11:对相应的所述处理核心的核心处理进程进行状态监控。
本申请所使用的场景为AI加速卡以板卡形式与服务器主机通过pcie(PCI-Express,peripheral component interconnect express)槽相连通信,其中服务器和AI加速卡一般使用Linux系统,业务程序位于服务器端,业务程序利用AI加速卡的核心处理单元完成硬件加速;另外,AI加速卡一般包含多个处理单元,每个处理单元可独立完成硬件加速操作,即神经网络推理或训练等功能,一般板卡端会为各个处理单元建立一个进程用于处理该处理单元的请求。需要指出的是,AI板卡用于加速神经网络计算的板卡,该板卡通过AIPU处理单元(处理核心)完成对神经网络的快速计算,提升训练、推理性能;加速卡内部一般集成了多个处理单元(核心),每个单元包含处理标量、向量、卷积计算的硬件逻辑,加速卡通过这些处理单元内部的硬件逻辑完成整个神经网络的计算。
本申请实施例中,预先在所述服务器端设置监控服务主进程,所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建监控服务子进程。需要指出的是,监控服务子进程与处理核心是一一对应关系,一个监控服务子进程只对对应的处理核心的核心处理进程进行相应操作,这样可以避免不同核心处理进程之间相互影响。
本申请实施例中,所述对相应的所述处理核心的核心处理进程进行状态监控,包括:以心跳包方式对相应的所述处理核心的核心处理进程进行状态监控。需要指出的是,监控服务子进程与对应的处理核心的核心处理进程之间需要建立心跳检测连接以进行心跳包检测。
需要指出的是,核心处理进程为板卡端各个核心对应的处理进程,例如板卡有16个处理核心,那么对应16个和核心处理进程,该进程进行服务器端的业务请求处理响应,通过与该进程进行心跳检测可以精确地感知该核心是否正常工作(状态监控)。
本申请实施例中,所述监控服务主进程通过进程判断机制判断所述处理核心对应的所述监控服务子进程是否处于异常状态,若处于异常状态,则删除所述监控服务子进程,并为所述处理核心创建新监控服务子进程。
本申请实施例中,对相应的所述处理核心的核心处理进程进行状态监控的过程,是在软件响应层面监控板卡是否可以正常处理服务器请求,通过这种方式可以覆盖到所有软件问题导致的板卡异常场景。
步骤S12:若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作。
本申请实施例中,所述若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作,包括:若监控结果表示所述核心处理进程处于异常状态,则发送针对所述处理核心的第二重启命令至所述AI板卡的保活服务进程,以便所述保活服务进程基于所述第二重启命令删除所述处理核心的所述核心处理进程,并为所述处理核心创建新核心处理进程。
本申请实施例中,在所述核心处理进程处于异常状态时,发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作的方式,可以不用只在板卡系统宕机时才能检测到异常,然后重启板卡。需要指出的是,在某核心处理进程异常时,只需要对该核心处理进程进行保活,并不会对其它核心处理进程产生影响,因此与重启板卡相比,提高了板卡工作效率。
步骤S13:继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
本申请实施例中,若第一次对核心处理进程发送保活命令后,继续检测所述核心处理进程的状态时,检测到核心处理进程仍处于异常状态,则继续发送保活命令,当连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,就需要发送重启命令来重启板卡。需要指出的是,多次发送保活命令的过程,避免了由于失误未对核心处理进程实现保活的情况。
需要指出的是,所述第一预设阈值为不小于2的整数。
本申请实施例中,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启,具体是进行电源重启,也即对板卡进行下点后再次上电的过程。
可见,对相应的所述处理核心的核心处理进程进行状态监控;若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。由此可见,本申请服务器端为每个处理核心创建监控服务子进程,监控服务子进程智能对相应的处理核心的核心处理进程进行监控,防止了各个核心处理进程之间相互影响;本申请是对核心处理进程检测,实现了对所有软件问题场景的检测;本申请在核心处理进程异常时对核心处理进程进行保活操作,而不是只能在板卡系统宕机时发现异常然后对板卡进行重启,两者相比,对核心处理进程进行保活操作不会影响其它核心处理进程,提高了板卡工作效率;本申请在多次未能对核心处理进程保活成功时,对板卡进行重启操作,多次保活的过程避免了因事务未能对核心处理进程保活成功的情况。
参见图2所示,本申请实施例公开了一种具体的AI板卡监控保活方法,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;该方法包括:
步骤S21:根据预设检测周期,向相应的所述处理核心的核心处理进程发送监控服务请求,并判断是否获取到所述核心处理进程基于所述监控服务请求返回的监控响应。
本申请实施例中,所述向相应的所述处理核心的核心处理进程发送监控服务请求,包括:通过PCIE接口向相应的所述处理核心的核心处理进程发送监控服务请求。
本申请实施例中,向相应的所述处理核心的核心处理进程发送监控服务请求,需要按照预设检测周期来进行;例如,每5秒钟发送一次监控服务请求。需要指出的是,按照预设检测周期发送监控服务请求的方式,能够及时发现核心处理进程的异常。
步骤S22:若连续未获取到所述监控响应的第二次数不小于第二预设阈值,则监控结果表示所述处理核心处于异常状态,然后发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作。
本申请实施例中,所述第二预设阈值可根据实际情况进行设定,在此不做具体限定。需要指出的是,当连续未获取到所述监控响应的第二次数不小于第二预设阈值时,监控结果表示所述处理核心处于异常状态的判断,避免了由于失误导致的为获取到监控响应的情况,提高了监控服务的准确性,避免了对核心处理进程进行不必要的保活操作,提高了核心处理进程的工作效率。
本申请实施例中,发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作,包括:发送针对所述处理核心的第二重启命令至所述AI板卡的保活服务进程,以便所述保活服务进程基于所述第二重启命令删除所述处理核心的所述核心处理进程,并为所述处理核心创建新核心处理进程。
步骤S23:继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
其中,关于步骤S23的更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请根据预设检测周期,向相应的所述处理核心的核心处理进程发送监控服务请求,并判断是否获取到所述核心处理进程基于所述监控服务请求返回的监控响应;若连续未获取到所述监控响应的第二次数不小于第二预设阈值,则监控结果表示所述处理核心处于异常状态,然后发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。由此可见,本申请服务器端为每个处理核心创建监控服务子进程,监控服务子进程智能对相应的处理核心的核心处理进程进行监控,防止了各个核心处理进程之间相互影响;本申请是对核心处理进程检测,实现了对所有软件问题场景的检测;本申请在核心处理进程异常时对核心处理进程进行保活操作,而不是只能在板卡系统宕机时发现异常然后对板卡进行重启,两者相比,对核心处理进程进行保活操作不会影响其它核心处理进程,提高了板卡工作效率;本申请在多次未能对核心处理进程保活成功时,对板卡进行重启操作,多次保活的过程避免了因事务未能对核心处理进程保活成功的情况。
参见图3所示,为AI板卡监控保活方法流程示意图,步骤S1:服务器端监控进程,通过为板卡端核心单元单独创建子进程来完成对各个核心状态的监控,通过心跳包检测完成状态检测,即服务器端子进程通过pcie接口发送监控服务请求,板卡端该核心单元对应的处理进程能够接收该请求并返回响应结果完成一次心跳检测。步骤S2:如果存在某个板卡核心没有返回心跳响应,那么尝试N(N一般为3)次请求操作一直没响应认为该核心状态异常(也即板卡检测异常),进入步骤S3;如果各个子进程均能正常返回响应那么认为板卡正常,进入步骤S6继续监控即可。步骤S3:检测到某个核心响应异常后的处理操作,即给板卡端保活服务进程发送重启该核心命令,保活服务给该核心的进程实行重启操作。步骤S4:服务器端子进程继续对该核心进程下发心跳检测,如果心跳检测正常那么认为保活成功,如果一直未收到该核心响应,那么认为保活失败,如果保活成功那么进入步骤S6继续正常监控,如果保活失败那么进入步骤S5。步骤S5:保活失败后的板卡硬件下电上电重启操作,通过板卡重启完成板卡的各个处理核心的正常工作。需要指出的是,步骤S6:监控到板卡正常工作后的持续监控。
参见图4所示,为AI板卡监控保活方法架构图,图中服务器端监控保活服务为服务器端的监控服务程序,该程序通过对板卡端各个核心创建对应的监控服务子进程来进行状态监控,这样可以避免各个进程之间的影响,之后各个子进程与板卡端各个核心单元(处理核心)对应的核心处理进程建立心跳检测连接,进行心跳包检测;核心处理进程为板卡端各个核心对应的处理进程,例如板卡有16个处理核心,那么对应16个处理进程,该进程进行服务器端的业务请求处理响应,通过监控服务子进程对该进程进行心跳检测可以精确地感知该核心是否正常工作;保活服务为板卡端的一个服务进程,该进程能够对上文核心处理进程保活,即当处理进程异常时能够清除该进程并重新创建新进程,使之继续正常工作;电源重启为板卡端的硬件重启操作,即给板卡下电在上电完成一次板卡重启,该操作可以比较彻底的解决软件重启(保活服务启动)无法正常启动进程的问题。图4中的具体流程步骤参照图3介绍,在此不做具体阐述。
综上所述,本申请在服务器端设置一个监控保活的服务,该服务通过创建子进程来与板卡端各个处理进程相连接,通过心跳包的方式监控各处理进程状态;在板卡端设置一个保活服务进程,该进程接收到服务器端重启命令后对异常的处理进程进行清除和重启操作,以使其重启正常工作;当保活服务进程多次保活重启该核心处理进程仍不能正常工作后,服务器端监控保活服务进程下发板卡重启命令,该命令通过执行板卡下点上电操作完成板卡的重启。
参见图5所示,本申请实施例公开了一种AI板卡监控保活装置,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;所述装置包括:
监控模块11,用于对相应的所述处理核心的核心处理进程进行状态监控;
第一命令发送模块12,用于若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;
第二命令发送模块13,用于继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请服务器端为每个处理核心创建监控服务子进程,监控服务子进程智能对相应的处理核心的核心处理进程进行监控,防止了各个核心处理进程之间相互影响;本申请是对核心处理进程检测,实现了对所有软件问题场景的检测;本申请在核心处理进程异常时对核心处理进程进行保活操作,而不是只能在板卡系统宕机时发现异常然后对板卡进行重启,两者相比,对核心处理进程进行保活操作不会影响其它核心处理进程,提高了板卡工作效率;本申请在多次未能对核心处理进程保活成功时,对板卡进行重启操作,多次保活的过程避免了因事务未能对核心处理进程保活成功的情况。
进一步的,本申请实施例还提供了一种电子设备,图6是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、输入输出接口24、通信接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任意实施例公开的AI板卡监控保活方法的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口25能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口24,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,存储器22作为可以包括作为运行内存的随机存取存储器和用于外部内存的存储用途的非易失性存储器,其上的存储资源包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制源主机上电子设备20上的各硬件设备以及计算机程序222,操作系统221可以是Windows、Unix、Linux等。计算机程222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的AI板卡监控保活方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
本实施例中,所述输入输出接口24具体可以包括但不限于USB接口、硬盘读取接口、串行接口、语音输入接口、指纹输入接口等。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的AI板卡监控保活方法。
关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory,RAM)、内存、只读存储器(Read-Only Memory,ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中,所述计算机程序被处理器执行时实现前述AI板卡监控保活方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的AI板卡监控保活方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种AI板卡监控保活方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种AI板卡监控保活方法,其特征在于,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;所述方法包括:
对相应的所述处理核心的核心处理进程进行状态监控;
若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;
继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
2.根据权利要求1所述的AI板卡监控保活方法,其特征在于,所述对相应的所述处理核心的核心处理进程进行状态监控,包括:
以心跳包方式对相应的所述处理核心的核心处理进程进行状态监控。
3.根据权利要求2所述的AI板卡监控保活方法,其特征在于,所述以心跳包方式对相应的所述处理核心的核心处理进程进行状态监控,包括:
根据预设检测周期,向相应的所述处理核心的核心处理进程发送监控服务请求,并判断是否获取到所述核心处理进程基于所述监控服务请求返回的监控响应。
4.根据权利要求3所述的AI板卡监控保活方法,其特征在于,所述若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,包括:
若连续未获取到所述监控响应的第二次数不小于第二预设阈值,则监控结果表示所述处理核心处于异常状态,然后发送针对所述核心处理进程的保活命令至所述AI板卡。
5.根据权利要求3所述的AI板卡监控保活方法,其特征在于,所述向相应的所述处理核心的核心处理进程发送监控服务请求,包括:
通过PCIE接口向相应的所述处理核心的核心处理进程发送监控服务请求。
6.根据权利要求3所述的AI板卡监控保活方法,其特征在于,所述若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作,包括:
若监控结果表示所述核心处理进程处于异常状态,则发送针对所述处理核心的第二重启命令至所述AI板卡的保活服务进程,以便所述保活服务进程基于所述第二重启命令删除所述处理核心的所述核心处理进程,并为所述处理核心创建新核心处理进程。
7.根据权利要求1至6任一项所述的AI板卡监控保活方法,其特征在于,所述监控服务主进程通过进程判断机制判断所述处理核心对应的所述监控服务子进程是否处于异常状态,若处于异常状态,则删除所述监控服务子进程,并为所述处理核心创建新监控服务子进程。
8.一种AI板卡监控保活装置,其特征在于,应用于服务器端的监控服务子进程;所述监控服务子进程为所述服务器端的监控服务主进程分别为AI板卡的每个处理核心创建的子进程;所述装置包括:
监控模块,用于对相应的所述处理核心的核心处理进程进行状态监控;
第一命令发送模块,用于若监控结果表示所述核心处理进程处于异常状态,则发送针对所述核心处理进程的保活命令至所述AI板卡,以便所述AI板卡基于所述保活命令对所述核心处理进程进行保活操作;
第二命令发送模块,用于继续对所述核心处理进程进行状态监控,若监控结果表示所述核心处理进程处于异常状态,则跳转至所述发送针对所述核心处理进程的保活命令至所述AI板卡的步骤,直至连续发送所述保活命令的第一次数不小于第一预设阈值且所述核心处理进程仍处于异常状态时,发送针对所述AI板卡的第一重启命令至所述AI板卡,以便进行板卡重启。
9.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的AI板卡监控保活方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的AI板卡监控保活方法。
CN202310301791.0A 2023-03-24 2023-03-24 一种ai板卡监控保活方法、装置、设备及介质 Pending CN116361114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310301791.0A CN116361114A (zh) 2023-03-24 2023-03-24 一种ai板卡监控保活方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310301791.0A CN116361114A (zh) 2023-03-24 2023-03-24 一种ai板卡监控保活方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116361114A true CN116361114A (zh) 2023-06-30

Family

ID=86917133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310301791.0A Pending CN116361114A (zh) 2023-03-24 2023-03-24 一种ai板卡监控保活方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116361114A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117074915A (zh) * 2023-08-23 2023-11-17 扬州万方科技股份有限公司 基于特征关键字监测技术的板卡软硬重启测试系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117074915A (zh) * 2023-08-23 2023-11-17 扬州万方科技股份有限公司 基于特征关键字监测技术的板卡软硬重启测试系统及方法
CN117074915B (zh) * 2023-08-23 2024-05-17 扬州万方科技股份有限公司 基于特征关键字监测技术的板卡软硬重启测试方法

Similar Documents

Publication Publication Date Title
US7721153B2 (en) System, method and program product for recovering from a failure
CN108121543B (zh) 一种软件代码编译处理方法及装置
CN110673936B (zh) 编排业务的断点续作方法、装置、存储介质及电子设备
CN112769652B (zh) 一种节点服务监控方法、装置、设备及介质
CN110618864A (zh) 一种中断任务恢复方法及装置
CN104834602A (zh) 一种程序发布方法、装置和程序发布系统
CN116361114A (zh) 一种ai板卡监控保活方法、装置、设备及介质
CN115632706B (zh) 一种fc链路管理方法、装置、设备及可读存储介质
CN111930406A (zh) 车载终端微控制单元软件升级方法、电子设备及存储介质
CN115629785A (zh) 升级方法、电子设备及存储介质
CN112511368A (zh) 一种服务心跳监控方法及相关装置
CN114416284A (zh) 分布式作业系统控制方法、装置、设备、介质及程序产品
CN112559155A (zh) 批量作业处理方法、系统、计算机设备及可读存储介质
CN116319758A (zh) 数据迁移方法、装置、电子设备及可读存储介质
CN113342512B (zh) 一种io任务静默与驱动方法、装置及相关设备
CN105975359A (zh) 一种对服务器进行数据清理的方法、装置及服务器
US20090083747A1 (en) Method for managing application programs by utilizing redundancy and load balance
CN110908821B (zh) 任务失败管理的方法、装置、设备和存储介质
CN111064636B (zh) 前置机连接的控制方法、装置、系统、计算机设备
CN111694516B (zh) 一种分布式块存储系统的版本在线升级方法及终端
CN112148348B (zh) 任务处理方法、装置及存储介质
CN114374681A (zh) 任务执行方法、装置、设备和存储介质
CN113568770A (zh) 实时操作系统的应急救援方法、电子设备及计算机存储介质
CN118295854B (zh) 一种系统恢复方法、装置、设备及介质
CN111683094B (zh) Tcp通讯时客户端选择端口的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination