CN114996179B - 图形处理器辅助管理系统和方法 - Google Patents

图形处理器辅助管理系统和方法 Download PDF

Info

Publication number
CN114996179B
CN114996179B CN202210914380.4A CN202210914380A CN114996179B CN 114996179 B CN114996179 B CN 114996179B CN 202210914380 A CN202210914380 A CN 202210914380A CN 114996179 B CN114996179 B CN 114996179B
Authority
CN
China
Prior art keywords
processor device
graphics processor
request message
smbus
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210914380.4A
Other languages
English (en)
Other versions
CN114996179A (zh
Inventor
罗建洪
李开术
乐一栋
张钰勃
杨上山
余德军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Threads Technology Co Ltd
Original Assignee
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Threads Technology Co Ltd filed Critical Moore Threads Technology Co Ltd
Priority to CN202210914380.4A priority Critical patent/CN114996179B/zh
Publication of CN114996179A publication Critical patent/CN114996179A/zh
Application granted granted Critical
Publication of CN114996179B publication Critical patent/CN114996179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/24Handling requests for interconnection or transfer for access to input/output bus using interrupt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/22Handling requests for interconnection or transfer for access to input/output bus using successive scanning, e.g. polling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Information Transfer Systems (AREA)

Abstract

本申请涉及数据通信技术领域,公开了一种图形处理器辅助管理系统和方法,其中该系统包括:图形处理器设备,其具有SMBUS从接口;外部处理器设备,其具有SMBUS主接口,所述外部处理器设备的SMBUS主接口与所述图形处理器设备的SMBUS从接口SMBUS通信连接;所述外部处理器设备生成针对所述图形处理器设备的管理数据请求消息,将所述管理数据请求消息通过SMBUS主接口发送给所述图形处理器设备,所述图形处理器设备根据接收的所述管理数据请求消息生成管理数据答复消息,通过所述SMBUS从接口将所述管理数据答复消息发送给所述外部处理器设备。本申请实施例可以提高GPU管理的可靠性。

Description

图形处理器辅助管理系统和方法
技术领域
本申请涉及数据通信技术领域,尤其涉及一种图形处理器辅助管理系统和方法。
背景技术
在图形处理器(Graphics Processing Unit,GPU)板卡与主板的连接技术中,通过外围组件接口扩展(Peripheral Component Interconnect express,PCIe)总线标准连接正成为主流的趋势,GPU板卡为集成有GPU并包含周边电路的印制电路板。
在现有的GPU板卡产品中,仅保留有PCIe总线作为对外接口,即主板侧的设备只能通过PCIe总线与GPU板卡进行业务数据和管理数据的交互,或者说,主板侧的设备利用PCIe总线作为与GPU之间的唯一管理通道和数据业务通道,完成GPU的监控管理、调试、业务运行等,其中,主板侧的设备包括中央处理器(central processing unit,CPU)或基板管理控制器(Baseboard Management Controller,BMC)等,其中服务器主板通过BMC实现GPU板卡的监控和管理。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
申请人发现,由于GPU板卡仅保留PCIe总线作为对外接口,存在的问题是:在工作状态,PCIe总线的带宽可能处于高负载模式,在此情况下,如果占用PCIe总线的带宽进行GPU的管理,很有可能不能及时地获取相应的信息(例如温度、功耗、GPU占用率等信息),导致动态电压和频率缩放(Dynamic Voltage and Frequency Scaling,DVFS)策略不能及时实施、GPU板卡负载过高,GPU板卡异常等问题,此外,在PCIe总线甚至无法正常通信时(如GPU异常或GPU板卡异常等),无法通过PCIe总线调试,无法实时地定位导致异常问题发生的真正原因,存在GPU板卡的可靠管理的问题。
针对上述问题中的至少之一或类似的问题,本申请实施例提供一种图形处理器辅助管理系统和方法,用以提高GPU管理的可靠性,提升GPU产品的性能。
所述图形处理器辅助管理系统包括:
图形处理器设备,其具有系统管理总线(SMBUS)从接口;以及
外部处理器设备,其具有系统管理总线(SMBUS)主接口,所述外部处理器设备的系统管理总线(SMBUS)主接口与所述图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接;
所述外部处理器设备生成针对所述图形处理器设备的管理数据请求消息,将所述管理数据请求消息通过所述系统管理总线(SMBUS)主接口发送给所述图形处理器设备,
所述图形处理器设备根据接收的所述管理数据请求消息生成管理数据答复消息,通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备。
本申请实施例还提供一种外部处理器设备,用以提高GPU管理的可靠性,提升GPU产品的性能,所述外部处理器设备具有:
系统管理总线(SMBUS)主接口,其与图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接;
第一生成单元,其生成针对所述图形处理器设备的管理数据请求消息;
第一发送单元,其通过所述系统管理总线(SMBUS)主接口向所述图形处理器设备发送所述管理数据请求消息;
第一接收单元,其通过所述系统管理总线(SMBUS)主接口接收来自所述图形处理器设备的管理数据答复消息。
本申请实施例还提供一种图形处理器设备,能够提高GPU管理的可靠性,提升GPU产品的性能,所述图形处理器设备具有:
系统管理总线(SMBUS)从接口,其与外部处理器设备的系统管理总线(SMBUS)主接口通过系统管理总线(SMBUS)通信连接;
第二接收单元,其通过所述系统管理总线(SMBUS)从接口接收来自所述外部处理器设备的针对所述图形处理器设备的管理数据请求消息;
第二消息生成单元,其根据接收的所述管理数据请求消息生成管理数据答复消息;以及
第二发送单元,其通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备。
本申请实施例还提供一种图形处理器辅助管理方法,用以提高GPU管理的可靠性,提升GPU产品的性能,所述方法应用于图形处理器辅助管理系统,所述系统包括图形处理器设备和外部处理器设备,所述图形处理器具有系统管理总线(SMBUS)从接口,所述外部处理器设备具有系统管理总线(SMBUS)主接口,所述外部处理器设备的系统管理总线(SMBUS)主接口与所述图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接,所述方法包括:
所述外部处理器设备生成针对所述图形处理器设备的管理数据请求消息;
所述外部处理器设备将所述管理数据请求消息通过所述系统管理总线(SMBUS)主接口发送给所述图形处理器设备;
所述图形处理器设备根据接收的所述管理数据请求消息生成管理数据答复消息;以及
所述图形处理器设备通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备。
本申请实施例还提供一种图形处理器辅助管理方法,应用于外部处理器设备,用以提高GPU管理的可靠性,提升GPU产品的性能,
所述外部处理器设备具有系统管理总线(SMBUS)主接口,其与图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接,所述方法包括:
生成针对所述图形处理器设备的管理数据请求消息;
通过所述系统管理总线(SMBUS)主接口向所述图形处理器设备发送所述管理数据请求消息;
通过所述系统管理总线(SMBUS)主接口接收来自所述图形处理器设备的管理数据答复消息。
本申请实施例还提供一种图形处理器辅助管理方法,应用于图形处理器设备,能够提高GPU管理的可靠性,提升GPU产品的性能,所述图形处理器设备具有系统管理总线(SMBUS)从接口,其与外部处理器设备的系统管理总线(SMBUS)主接口通过系统管理总线(SMBUS)通信连接,所述方法包括:
通过所述系统管理总线(SMBUS)从接口接收来自所述外部处理器设备的针对所述图形处理器设备的管理数据请求消息;
根据接收的所述管理数据请求消息生成管理数据答复消息;以及
通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备。
本申请实施例还提供一种计算机设备,包括存储器、图形处理器或外部处理器及存储在存储器上并可在图形处理器或外部处理器上运行的计算机程序,所述图形处理器或所述外部处理器执行所述计算机程序时实现上述方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被图形处理器或外部处理器执行时实现上述方法。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被图形处理器或外部处理器执行时实现上述方法。
本申请实施例的有益效果之一在于:图形处理器设备通过系统管理总线和外部处理器设备进行通信连接,并进行针对图形处理器设备的管理消息的交互。由此,能够提高对于GPU的管理的可靠性,提升系统性能。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
附图说明
在此描述的附图仅用于解释目的,而不意图以任何方式来限制本申请公开的范围。另外,图中的各部件的形状和比例尺寸等仅为示意性的,用于帮助对本申请的理解,并不是具体限定本申请各部件的形状和比例尺寸。本领域的技术人员在本申请的教导下,可以根据具体情况选择各种可能的形状和比例尺寸来实施本申请。
图1为本申请实施例的图形处理器辅助管理方法的一个示意图;
图2是IPMI消息帧格式的一个示意图;
图3是本申请实施例的第一通信帧格式的一个示意图;
图4是本申请实施例的第二通信帧格式的一个示意图;
图5是本申请实施例的图形处理器辅助管理方法的一实施示意图;
图6是本申请实施例的图形处理器辅助管理方法的另一个示意图;
图7是本申请实施例的图形处理器辅助管理方法的又一个示意图;
图8是本申请实施例的图形处理器辅助管理系统的一个示意图;
图9是本申请实施例的外部处理器设备的一个示意图;
图10是本申请实施例的图形处理器设备的一个示意图。
具体实施方式
下面将结合附图和具体实施例,对本申请的技术方案作详细说明,应理解这些实施例仅用于说明本申请而不用于限制本申请的范围,在阅读了本申请之后,本领域技术人员对本申请的各种等价形式的修改均落入本申请所附权利要求所限定的范围内。
在本申请实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请实施例提供一种图形处理器辅助管理方法,该方法应用于图形处理器辅助管理系统,该系统包括图形处理器设备和外部处理器设备,图形处理器具有系统管理总线(System Management Bus,SMBUS,以下有时也记为“SMBUS总线”)从接口,外部处理器设备具有SMBUS主接口,外部处理器设备的SMBUS主接口与图形处理器设备的SMBUS从接口通过SMBUS通信连接。
图1为本申请实施例的图形处理器辅助管理方法的一个示意图,如图1所示,该方法可以包括:
步骤101:外部处理器设备生成针对图形处理器设备的管理数据请求消息;
步骤102:外部处理器设备将管理数据请求消息通过SMBUS主接口发送给图形处理器设备;
步骤103:图形处理器设备根据接收的管理数据请求消息生成管理数据答复消息;
步骤104:图形处理器设备通过SMBUS从接口将管理数据答复消息发送给外部处理器设备。
由此,外部处理器设备和图形处理器设备能够通过SMBUS进行通信连接,并进行针对图形处理器设备的管理消息的交互。由此,能够提高对于GPU的管理的可靠性,提升系统性能。
在一些实施例中,外部处理器设备为例如集成有CPU的主板,或者为集成有BMC的服务器主板等,外部处理器设备包括可通过SMBUS和图形处理器设备进行通信的部件或模块,称为SMBUS主设备,SMBUS主设备实现本申请实施例的上述方法中的外部处理器设备侧的功能。SMBUS主设备可包括相应的软件和/或硬件以实现相应的功能,例如SMBUS主设备可包括SMBUS主程序、存储/执行该SMBUS主程序的部件等。
在一些实施例中,图形处理器设备为集成有GPU并包含周边电路的印制电路板,例如GPU板卡,图形处理器设备包括可通过SMBUS和SMBUS主设备进行通信的部件或模块,称为SMBUS从设备,SMBUS从设备实现本申请实施例的上述方法中的图形处理器设备侧的功能。SMBUS从设备可包括相应的软件和/或硬件以实现相应的功能,例如SMBUS从设备可包括SMBUS从程序、存储/执行该SMBUS从程序的部件等。
其中,管理数据请求消息可以是用于对GPU进行管理的任意消息,管理数据答复消息是与管理数据请求消息相对应的至少一个答复消息,本公开对管理数据请求消息以及管理数据请求消息的类型和数量均不做限制。
在一些实施例中,管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。相应地,管理数据答复消息包括和上述各管理数据请求消息相对应的一个或多个答复消息,由此,能够实现对于图形处理器设备的多个方面的管理。
在一些实施例中,管理数据请求消息具有第一通信帧格式,管理数据答复消息具有第二通信帧格式,第一通信帧格式兼容智能平台管理接口(IPMI)消息帧格式,第二通信帧格式兼容智能平台管理接口(IPMI)消息帧格式。也就是说,管理数据请求消息、管理数据答复消息封装成和IPMI消息帧格式一致的帧格式,或者说,管理数据请求消息、管理数据答复消息和IPMI消息帧格式可封装成一致的帧格式,从而本申请实施例所实现的通信协议数据格式既能够支持现有的(基于IPMI消息格式的)数据通信,也能够支持本申请实施例中所实现的对于图形处理器设备的管理的数据通信(或称自定义管理消息的数据通信),从而能够提升产品的可移植性。
图2是与IPMI帧格式兼容的一个帧格式的示意图。
如图2所示,本申请实施例定义了与IPMI帧格式兼容的帧格式,关于IPMI帧格式可参考相关技术,在此不再赘述。与IPMI帧格式兼容的一个帧格式也可称为预定义的帧格式,其用于外部处理器设备和图形处理器设备之间的通信,可用于IPMI消息的传输,也可用于管理数据请求消息和管理数据答复消息的传输,当外部处理器设备和其它设备,如网络设备基于IPMI协议进行通信时,外部处理器设备可以接收基于各种网络协议的IPMI消息并将其封装成图2所示预定义的帧格式,例如,提取和预定义帧格式对应的各个字段而组成预定义的帧格式,然后可将其发送给图形处理器设备,反之,外部处理器设备可以将从图形处理器设备接收的预定义格式的IPMI消息封装成各种标准的IPMI消息,如增加和各种格式的IPMI消息对应的字段,并发给网络设备。
如图2所示,该预定义的帧格式可包括头部和数据字段,头部包括网络功能字段和命令字段,该网络功能字段对应IPMI帧格式的网络功能字段,该命令字段对应IPMI帧格式的命令字段。此外,预定义的帧格式的头部还可包括请求/响应标识符字段、请求程序ID字段、响应程序ID字段,关于各字段的含义,可参见IPMI协议的相关技术。
在本申请实施例中,在图形处理器设备和外部处理器设备可通过图2所示预定义帧格式中的网络功能字段来区分IPMI消息和自定义管理消息,其中,IPMI消息指的是其它设备(如网络设备)发送并经由外部处理器设备(CPU或BMC)转发给图形处理器设备的消息,或者为图形处理器发送并经由外部处理器设备(CPU或BMC)转发给其它设备(如网络设备)的信息,也可称为标准IPMI消息。
举例来说,外部处理器设备可以将其它设备发送的IPMI消息封装为具有第一通信帧格式的管理数据请求消息,例如,把IPMI消息中IPMI协议标准规范的关键字段提取出来,封装成第一通信帧格式的管理数据请求消息后发送给GPU。其中,提取的关键字段可以为针对GPU的有效字段。GPU收到管理数据请求消息后,可以根据网络功能字段确定该管理数据请求消息包括标准IPMI消息。应理解,GPU可以将响应于管理数据请求消息确定的答复消息封装为第二通信帧格式的管理数据答复消息,并发送给外部处理器设备,外部处理器设备将管理数据答复消息中IPMI协议标准规范的关键字段提取出来,以用于确定待发送给其它设备(如网络设备)的标准IPMI消息。
其中,自定义管理消息为外部处理器设备(CPU或BMC)和图形处理器设备之间互为收发的用于GPU管理的消息。这样,网络功能字段的不同取值可分别对应IPMI消息和自定义管理消息,接收方在接收到消息帧(管理数据请求消息或管理数据答复消息)的情况下,通过判断网络功能的具体取值而判断消息帧为IPMI消息还是自定义管理消息,从而进行相应的处理。
但本申请不限于此,可以通过其它字段来区分IPMI标准消息和自定义管理消息,例如,可以通过命令字段来区分。也就是说,图2仅示例性说明了和IPMI格式兼容的一个帧格式,但本申请不限于此,还可以采用其它的和标准IPMI帧格式兼容的帧格式,例如,可以在图2所示预定义格式中增加符合IPMI标准的其它字段,或者也可以删除图2中的字段,例如,可以删除图2中的“网络功能”字段,只要预定义的帧格式能够兼容IPMI标准即可。
图3是本申请实施例的第一通信帧格式的一个示意图。图4是本申请实施例的第二通信帧格式的一个示意图。
在一些实施例中,如图3和图4所示,第一通信帧格式和第二通信帧格式为基于预定义的帧格式的具体帧格式,也就是说,第一通信帧格式和第二通信帧格式也均包括头部和数据字段,其中头部包括“网络功能”字段,接收方在接收到第一通信帧或第二通信帧的情况下,通过解析“网络字段”而区分所接收的帧为标准IPMI帧或本申请所定义的帧格式,即自定义管理消息,此外,头部还包括“命令”字段,不过,第一通信帧格式和第二通讯帧格式中的“命令”字段为针对图形处理器的自定义命令字段,即,与IPMI消息帧格式中的命令字段的含义不同,第一通信帧格式和第二通讯帧格式的自定义管理消息中的“命令”字段专用于图形处理器的管理,换言之,第一通信帧格式和第二通讯帧格式的自定义管理消息中的自定义命令字段和IPMI帧格式中的命令字段在头部的位置和比特长度均相同,但比特的取值不同,例如,自定义命令字段可以是取值为0x3E的一个字节,而IPMI帧格式中的命令字段对应的一个字节的取值为不同于0x3E的其它取值,由此,在接收方接收到消息时,可以根据该字段的具体取值确定所收到的消息的具体帧格式,进而能够进行相应的解析处理,由此能够实现第一通信帧格式和第二通信帧格式兼容IPMI消息帧格式。
图3和图4仅为第一通信帧格式和第二通信帧格式的一个示例,但不限于此,例如,头部可不包括自定义命令字段,或者头部可不包括网络功能字段,即头部可包括网络功能字段和命令字段中的至少一者。可根据实际需要而灵活进行选择。
此外,还可以通过其它方式使得第一通信帧格式和第二通信帧格式兼容IPMI消息帧格式,例如,第一通信帧格式中的命令字段可以直接定义为子命令字段,也就是说,以IPMI消息帧格式中的命令字段为1字节为例进行说明,IPMI消息帧格式的命令字段的取值范围为0x00-0xFF中的多个取值组成的第一集合,第一通信帧格式中的命令字段为0x00-0xFF中的多个取值组成的第二集合,第二集合和第一集合没有交集,第二集合中的不同取值分别对应第一通信帧格式的不同子命令,第一通信帧格式中的数据字段包括数据长度字段和数据2字段,由此,在接收方接收到消息时,可以根据该命令字段的具体取值所属集合确定所收到的消息的具体帧格式,从而能够进行对应的解析。由此,能够兼容IPMI消息帧格式。以上关于自定义命令字段的取值为示例性说明,也可以为其它数值,本申请对此不作限制,可以通过GPU厂商自定义的方式确定。以下以自定义命令为0x3E为例进行说明。
在一些实施例中,如图3所示,第一通信帧格式中的数据字段包括子命令字段,该子命令字段用于表示针对图形处理器设备的管理的具体方面,也就是说,该子命令字段的不同取值用于表示对于图形处理器设备的不同方面的管理。
在一些实施例中,如图3所示,第一通信帧格式中的数据字段还可包括数据长度字段和数据2字段,但本申请不下于此,也可根据实际需要而不包括数据长度字段、数据2字段,下文进行举例说明。
在一些实施例中,如图4所示,第二通信帧格式中的数据字段可包括完成码字段,该完成码字段用于数据接收方进行接收数据检查,例如根据完成码可确定是否完成所有数据的发送,但不限于此,通过该完成码字段,外部处理器设备还能够了解命令执行的结果,如成功或失败,并且在失败的情况下,还能了解失败原因,从而更加有利于针对图形处理器设备的管理。
在一些实施例中,图形处理器辅助管理方法包括:外部处理器设备检查第二通信帧格式中的数据字段的完成码字段,在完成码的检查结果为图形处理器设备完成数据发送的情况下,通信完成;在第二通信帧格式中的数据字段的完成码的检查结果为图形处理器设备未完成数据发送的情况下,外部处理器设备可以采取相应的操作,例如重发管理数据请求消息,或继续接收图形处理器设备侧的数据,或者结束通信。
在一些实施例中,如图4所示,第二通信帧格式中的数据字段可包括数据1字段,但本申请不限于此,也可根据实际需要而不包括数据1字段,下文进行举例说明。
以下对于第一通信帧格式以及对应的第二通信帧格式进行举例说明。
表1列出了第一通信帧格式的部分字段(网络功能、自定义命令、子命令、数据长度、数据)的数据格式,其中数据字段包括第一通信帧格式中的数据2字段或第二通信帧格式中的数据1字段。
表1:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
以下对于针对图形处理器设备的管理的不同方面的第一通信帧格式的不同请求消息以及对应的第二通信帧格式的不同答复消息进行举例说明。
表2为获取GPU板卡异常log信息的管理数据请求消息的一个示例,其中不包括数据2字段,如下表2所示:
Figure DEST_PATH_IMAGE003
表3为和获取GPU板卡异常log信息的管理数据请求消息对应的管理数据答复消息的一个示例,如下表3所示:
Figure DEST_PATH_IMAGE004
表4为用于读GPU板卡寄存器的管理数据请求消息的一个示例,如下表4所示:
Figure DEST_PATH_IMAGE005
表5为和用于读GPU板卡寄存器的管理数据请求消息对应的管理数据答复消息的一个示例,如下表5所示:
Figure DEST_PATH_IMAGE006
表6为用于写GPU板卡寄存器的管理数据请求消息的一个示例,如下表6所示:
Figure DEST_PATH_IMAGE007
表7为和用于写GPU板卡寄存器的管理数据请求消息对应的管理数据答复消息的一个示例,如下表7所示:
Figure DEST_PATH_IMAGE008
表8为用于丢弃GPU板卡内存的管理数据请求消息的一个示例,如下表8所示:
Figure DEST_PATH_IMAGE009
表9为和用于丢弃GPU板卡内存的管理数据请求消息对应的管理数据答复消息的一个示例,如下表9所示:
Figure DEST_PATH_IMAGE010
表10为获取 GPU板卡功耗的管理数据请求消息的一个示例,其中不包括数据长度和数据2,如下表10所示:
Figure DEST_PATH_IMAGE011
表11为和获取 GPU板卡功耗的管理数据请求消息对应的管理数据答复消息的一个示例,如下表11所示:
Figure DEST_PATH_IMAGE012
表12为获取 GPU板卡温度的管理数据请求消息的一个示例,其中不包括数据长度和数据2,如下表12所示:
Figure DEST_PATH_IMAGE013
表13为和获取 GPU板卡温度的管理数据请求消息对应的管理数据答复消息的一个示例,如下表13所示:
Figure DEST_PATH_IMAGE014
表14为获取 GPU板卡性能数据的管理数据请求消息的一个示例,其中不包括数据长度和数据2,如下表14所示:
Figure DEST_PATH_IMAGE015
表15为和获取 GPU板卡性能参数的管理数据请求消息对应的管理数据答复消息的一个示例,如下表15所示:
Figure DEST_PATH_IMAGE016
在一些实施例中,图形处理器设备还可包括外围组件接口扩展(PCIe)总线接口,外部处理器设备还包括与图形处理器设备的PCIe总线接口通过PCIe总线通信连接的PCIe总线接口。
在一些实施例中,在步骤101中,外部处理器设备在PCIe总线异常或外围组件接口扩展PCIe总线的负载超过预定值的情况下生成管理数据请求消息。由此,即使由于PCIe异常而无法对图形处理器设备进行管理,外部处理器设备也能够通过SMBUS总线实现对图形处理器设备的管理,从而能够进一步提升针对图形处理器设备的管理的可靠性,提升产品的性能。
在本申请实施例中,预定值可以为85%,即当PCIe总线的负载超过85%时,外部处理器设备可生成管理数据请求消息并通过SMBUS总线进行传输。但本申请不限于此,预定值还可以为其它数值,本申请对此不作限制,可根据实际需要而进行选择。
但本申请不限于此,例如外部处理器设备可以在不考虑PCIe总线的工作状态的情况下通过SMBUS总线实现对图形处理器设备的管理,例如,外部处理器设备可以基于时间驱动(周期或定时)或事件驱动(如图形处理器设备重启)的方式通过SMBUS总线获取关于图形处理器设备的信息以对图形处理器设备进行管理,由此,能够提升针对图形处理器设备的管理的可靠性。
在一些实施例中,该图形处理器辅助管理方法还包括:图形处理器设备通过产生中断的方式接收管理数据请求消息。也就是说,一旦图形处理器设备侧接收到来自SMBUS总线的管理数据请求消息,则产生中断(如硬件中断),基于所产生的中断调用SMBUS从设备响应该管理数据请求消息,由此,能够确保图形处理器设备的及时响应,实现对于图形处理器设备的更加有效的管理。
但本申请不限于此,例如,图形处理器设备侧也可以通过轮询的方式响应SMBUS总线上的管理数据请求消息,以进行相应的处理,可根据实际需要而进行选择。
值得注意的是,上述仅为对于第一数据帧格式管理数据请求消息和第二数据帧格式的管理数据答复消息的示例性说明,对于其中各个消息的各个字段的取值,还可以为其它情况,本申请对此不作限制,例如管理数据请求消息中“网络”字段还可以为其它数值,例如为0x30、0x3D等,管理数据答复消息中“网络”字段为0x31、0x3等,或者,“网络”字段还可以为其它数值,例如,管理数据请求消息中“网络”字段为偶数,管理数据答复消息中的“网络”字段为该偶数加1。另外,上述仅示出对于图形处理器的某些方面的管理,但本申请不限于此,例如,外部处理器设备还可以读取图形处理器设备的电压信息以实现对于图形处理器设备的管理。
由此,通过本申请实施例所定义的第一通信帧格式的管理数据请求消息和第二通信帧格式的管理数据答复消息,能够兼容IPMI消息帧格式,从而能够提升产品的可移植性。
在一些实施例中,该图形处理器辅助管理方法还包括:外部处理器设备在发送管理数据请求消息后的预定时间段后,确定是否接收到管理数据答复消息,在未接收到管理数据答复消息的情况下,判定请求失败。由此,确保SMBUS主设备不会长时间地占用外部处理器设备侧资源。
图5是本申请实施例的图形处理器辅助管理方法的一实施示意图。
如图5所示,方法包括SMBUS主设备侧流程510和SMBUS从设备侧流程520。
如图5所示,SMBUS主设备侧流程510包括:
操作511:SMBUS主设备侧初始化,包括SMBUS主程序以及相关硬件单元完成初始化;
操作512:生成管理数据请求消息,SMBUS主设备可根据前述的方式而触发生成管理请求数据消息,管理请求数据消息的格式请参见上述关于第一通信帧格式的说明;
操作513:通过SMBUS发送管理数据请求消息,SMBUS主设备发送完管理数据请求消息之后,SMBUS主设备可进入答复消息等待模式(如答复消息轮询等待模式),并可设定相应定时器;
操作514:判断等待是否超时,如定时器时钟是否超时,在未超时的情况下继续等待答复消息,否则进入步骤516;
操作515:接收并解析管理数据答复消息,之后,判定通信完成;
操作516:超时处理,例如判定请求失败,之后确认通信完成。
在步骤515中,解析管理数据答复消息,并检查答复消息中的完成码,当确认完成码为例如上述第二通信帧格式所描述的0x00时,判定一次通信完成,当确认完成码为非0x00时,判定一次通信未完成,SMBUS主设备可根据完成码字段的值采取相应措施,例如重发管理数据请求消息、或者继续等待SMBUS总线传输的管理数据答复消息、或者结束通信。
如图5所示,SMBUS从设备侧流程520包括:
操作521:SMBUS从设备侧初始化,包括SMBUS从程序以及相关硬件单元完成初始化,SMBUS从设备完成初始化后,进入等待模式,等待接收管理数据请求消息,其中,SMBUS从设备可以采用中断等待的方式,但不限于此,也可以采用轮询等待的方式;
操作522:等待SMBUS数据收发中断,例如为硬件中断;
操作523:处理中断,SMBUS从设备响应SMBUS数据中断,并执行相应操作以从SMBUS接收管理数据请求消息;
操作524:解析管理数据请求消息;
操作525:判断管理数据请求消息是否为IPMI帧格式消息,如果判断结果为是IPMI标准的SMBUS命令,则进入操作526,否则进入操作527;
操作526:接收数据并根据IPMI协议处理,包括调用相应的IPMI接口,关于各IPMI接口,可参考相关技术;
操作527:在判断为SMBUS命令是自定义SMBUS命令,即自定义管理消息的情况下,根据第一通信帧格式解析管理数据请求消息;
操作528:根据管理数据请求消息中的自定义命令,执行相应操作,例如获取图形处理器设备的异常日志信息、读图形处理器设备的寄存器、写图形处理器设备的寄存器、丢弃图形处理器设备的内存信息、获取图形处理器设备的功耗、获取图形处理器设备的温度、获取图形处理器设备的性能数据、获取图形处理器设备的电压信息;
操作529:回复SMBUS消息,根据所接收的管理数据请求消息的格式,构造相应的答复信息,例如根据所接收的具有第一通信帧格式的管理数据请求消息,构造具有第二通信帧格式的管理数据答复消息,并将构造的答复消息发送给SMBUS主设备,之后确认通信完成。
通过上述实施例,外部处理器设备和图形处理器设备能够通过SMBUS进行通信连接,并进行针对图形处理器设备的管理消息的交互。由此,能够提高对于GPU的管理的可靠性,提升系统性能。
本申请实施例还提供一种图形处理器辅助管理方法,该方法可以应用于外部处理器设备,外部处理器设备具有系统管理总线(SMBUS)主接口,外部处理器设备的SMBUS主接口与图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接。
如图6是该方法的一个示意图,如图6所示,该方法500包括:
步骤601:生成针对所图形处理器设备的管理数据请求消息;
步骤602:通过SMBUS主接口向图形处理器设备发送管理数据请求消息;
步骤603:通过SMBUS主接口接收来自图形处理器设备的管理数据答复消息。
由于在上述方法100和流程500中已经对相关步骤进行了详细说明,相同内容被合并于此,此处不再赘述。
本申请实施例还提供一种图形处理辅助管理方法,该方法可以应用于图形处理器设备,图形处理器设备具有系统管理总线(SMBUS)从接口,图形处理器设备的SMBUS从接口与外部处理器设备的SMBUS主接口通过SMBUS通信连接。
图7是该方法的一个示意图。
如图7所示,方法700可以包括:
步骤701:通过SMBUS从接口接收来自外部处理器设备的针对图形处理器设备的管理数据请求消息;
步骤702:根据接收的管理数据请求消息生成管理数据答复消息;以及
步骤703:通过SMBUS从接口将管理数据答复消息发送给外部处理器设备。
由于在上述方法100和流程500中已经对相关步骤进行了详细说明,相同内容被合并于此,此处不再赘述。
本申请实施例还提供一种图形处理辅助管理系统。图8是该系统的一个示意图。
如图8所示,系统800可以包括图形处理器设备810和外部处理器设备820。
在本申请实施例中,如图8所示,图形处理器设备810具有SMBUS从接口811,外部处理器设备820具有SMBUS主接口821,外部处理器设备820的SMBUS主接口821与图形处理器设备810的SMBUS从接口811通过SMBUS 830通信连接。
例如,图形处理器设备810为GPU板卡,GPU板卡上设置有SMBUS从接口811,外部处理器设备820可以为集成有CPU的主板,主板上设置有SMBUS主接口821,或者,外部处理器设备820可以为集成有BMC的服务器主板,服务器主板上设置有主接口821,本申请对此不作限制,可根据实际需要而进行设置。
在一些实施例中,外部处理器设备820生成针对图形处理器设备810的管理数据请求消息,将管理数据请求消息通过SMBUS主接口821发送给图形处理器设备810,图形处理器设备810根据接收的管理数据请求消息生成管理数据答复消息,通过SMBUS从接口811将管理数据答复消息发送给外部处理器设备820。
由此,外部处理器设备810和图形处理器设备820能够通过SMBUS 830进行通信连接,并进行针对图形处理器设备的管理消息的交互。由此,能够提高对于GPU的管理的可靠性,提升系统性能。
本申请实施例中的图形处理器设备810的工作原理与方法100中的图形处理器设备的工作原理相同,本申请实施例中的外部处理器设备820的工作原理与方法100中的外部处理器设备的工作原理相同,其内容被合并于此,此处不再赘述。
在一些实施例中,如图8所示,图形处理器设备810还包括外围组件接口扩展(PCIe)总线接口812,外部处理器设备820还包括与图形处理器设备810的PCIe总线接口813通过PCIe总线840通信连接的PCIe总线接口822,外部处理器设备820在PCIe总线840异常或PCIe总线840的负载超过预定值的情况下生成管理数据请求消息。
在一些实施例中,如图8所示,外部处理器设备820可设置有PCIe插槽823,外部处理器设备820上的SMBUS主接口821和PCIe总线接口822可以为PCIe插槽823上的相应接口,相应的,图形处理器设备810上设有插入到PCIe插槽823中的PCIe接头,图形处理器设备810上的SMBUS从接口811和PCIe总线接口812可以为该接头中的插针(pin)。
换言之,外部处理器设备820和图形处理器设备810上均集成有基于PCIe标准的接口,外部处理器设备820的用于和图形处理器设备810通信的部件或模块(如图8中的PCIe/SMBUS主模块或BMC)连接至外部处理器设备820侧的PCIe标准接口、即插槽823中的对应引脚,图形处理器设备810侧的用于和外部处理器设备820通信的部件或模块(如图8中的PCIe/SMBUS从模块)连接至图形处理器设备810侧的PCIe标准接口,即插针(pin),在将图形处理器设备810,如GPU板卡插入外部处理器820的PCIe插槽823的情况下,GPU板卡和外部处理器820通过PCIe标准接口连接,从而实现PCIe/SMBUS从模块和PCIe/SMBUS主模块的物理连接,其中PCIe从模块通过PCIe总线连接PCIe主模块,SMBUS从模块通过SMBUS总线连接SMBUS主模块。
由此,能够通过标准的PCIe接口实现外部处理器设备820的SMBUS主接口821和图形处理器设备810的SMBUS从接口811的连接,连接方式简单。
在一些实施例中,如图8所示,图形处理器设备810可包括SMBUS从模块814,SMBUS从模块814获取图形处理器设备810的管理数据并连接SMBUS从接口,例如,如图8所示,SMBUS从模块814可连接图形处理器设备810的系统管理单元815,并从系统管理单元815获取管理数据,其中系统管理单元815对于图形处理器设备中的一个或多个图像处理器GPU816进行管理并收集管理数据,但本申请不限于此,SMBUS从模块814本身也可以测量图形处理器设备810的状态以获得相应的管理数据,例如SMBUS从模块814可包括传感器以测量图形处理器设备810。
在本申请实施例中,SMBUS从模块814还可包括用于实现SMBUS从设备的功能的硬件,例如硬件中断电路,其可在SMBUS总线发生传输的时候产生中断。
在本申请实施例中,如图8所示,图形处理器设备810中还存储有SMBUS从应用程序817,或者称为SMBUS从程序,图形处理器设备810侧通过执行该SMBUS从应用程序而实现相应的功能。
在本申请实施例中,SMBUS从设备可包括SMBUS从模块814和SMBUS从应用程序817,以实现上文描述的图形处理器设备侧的功能。
在一些实施例中,如图8所示,外部处理器设备820可包括SMBUS主模块824,SMBUS主模块824连接SMBUS主接口821,例如,如图8所示,SMBUS主模块824可通过外部处理器设备820的内部SMBUS总线连接至SMBUS主接口821。
在一些实施例中, SMBUS主模块824还可包括用于实现SMBUS主设备的功能的硬件,例如定时器电路,其用于SMBUS主设备的等待定时。
在一些实施例中,如图8所示,外部处理器设备820中还存储有SMBUS主应用程序826,或者称为SMBUS主程序,外部处理器设备820侧通过CPU825执行该SMBUS主应用程序而实现相应的功能。
在本申请实施例中,SMBUS主设备可包括SMBUS主模块824和SMBUS主应用程序826,以实现上文描述的外部处理器设备侧的功能。
但本申请不限于此,如图8所示,SMBUS主设备还可以为由BMC 827控制而与图形处理器侧的SMBUS从设备通信。
本申请实施例还提供一种外部处理器设备,图9是本申请实施例的外部处理器设备的一个示意图。
如图9所示,图形处理器900包括SMBUS主接口901、第一生成单元902、第一发送单元903、第一接收单元904。其中,SMBUS从接口1001能够与处理器的SMBUS主接口通信连接。
在本申请实施例中,SMBUS主接口901与图形处理器设备的SMBUS从接口通过SMBUS通信连接,第一生成单元902生成针对图形处理器设备的管理数据请求消息,第一发送单元903通过SMBUS主接口901向图形处理器设备发送管理数据请求消息,第一接收单元904通过SMBUS主接口901接收来自图形处理器设备的管理数据答复消息。
本申请实施例的外部处理器设备900的工作原理与方法100中的外部处理器设备的工作原理相同,其内容被合并于此,此处不再赘述。
在本申请实施例中,外部处理器设备900可以是包含CPU的设备或者包含BMC的设备,也可以是包含其它类型的处理器的设备,本申请对此不作限制。
此外,如图9所示,外部处理器设备900还可以包括PCIe接口905,外部处理器设备900还通过PCIe总线接口905与图形处理器设备的PCIe总线接口通过PCIe总线通信连接,外部处理器设备900在PCIe总线异常或PCIe总线的负载超过预定值的情况下生成管理数据请求消息。
此外,外部处理器设备900还可以包括图9中没有示出的单元,例如存储单元,本申请实施例对外部处理器设备900具体包括哪些单元不作限制,可以根据实际情况进行配置。
本申请实施例还提供一种图形处理器设备,图10是本申请实施例的图形处理器设备的一个示意图。
如图10所示,图形处理器设备1000具有SMBUS从接口1001、第二接收单元1002、第二消息生成单元1003和第二发送单元1004。
在本申请实施例中,SMBUS从接口1001与外部处理器设备的SMBUS主接口通过SMBUS通信连接,第二接收单元1002通过SMBUS从接口1001接收来自外部处理器设备的针对图形处理器设备1000的管理数据请求消息,第二消息生成单元1003根据接收的管理数据请求消息生成管理数据答复消息,第二发送单元1004通过SMBUS从接口1001将管理数据答复消息发送给外部处理器设备。
本申请实施例的图形处理器设备1000的工作原理与方法100中的图形处理器设备的工作原理相同,其内容被合并于此,此处不再赘述。
此外,如图10所示,图形处理器设备1000还可以包括外围组件接口扩展(PCIe)总线接口1005,图形处理器设备1000还通过PCIe总线接口1005与外部处理器设备的PCIe总线接口通过PCIe总线通信连接。
此外,图形处理器设备1000还可以包括图10中没有示出的单元,例如存储单元,本申请实施例对,图形处理器设备1000具体包括哪些单元不作限制,可以根据实际情况进行配置。
在一些实施例中,图形处理器设备1000可包括SMBUS从模块,SMBUS从模块获取图形处理器设备1000的管理数据并连接SMBUS从接口1001。
本申请实施例还提供一种计算机设备,包括存储器、图形处理器设备或外部处理器设备及存储在存储器上并可在图形处理器设备或外部处理器设备上运行的计算机程序,所述图形处理器设备或所述外部处理器设备执行所述计算机程序时实现上述的图形处理器辅助管理方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被图形处理器设备执行时实现上述的图形处理器设备侧的图形处理器辅助管理方法。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被外部处理器设备执行时实现上述的外部处理器设备侧的图形处理器辅助管理方法。
本申请实施例中,外部处理器设备和图形处理器设备能够通过SMBUS进行通信连接,并进行针对图形处理器设备的管理消息的交互。由此,能够提高对于GPU的管理的可靠性,提升系统性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (21)

1.一种图形处理器辅助管理系统,其特征在于,所述系统包括:
图形处理器设备,其具有系统管理总线(SMBUS)从接口;以及
外部处理器设备,其具有系统管理总线(SMBUS)主接口,所述外部处理器设备的系统管理总线(SMBUS)主接口与所述图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接;
所述外部处理器设备生成针对所述图形处理器设备的管理数据请求消息,将所述管理数据请求消息通过所述系统管理总线(SMBUS)主接口发送给所述图形处理器设备,
所述图形处理器设备根据接收的所述管理数据请求消息生成管理数据答复消息,通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备,
所述管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。
2.根据权利要求1所述的系统,其特征在于,
所述管理数据请求消息具有第一通信帧格式,所述管理数据答复消息具有第二通信帧格式,所述第一通信帧格式和所述第二通信帧格式兼容智能平台管理接口(IPMI)消息帧格式。
3.根据权利要求2所述的系统,其特征在于,
所述第一通信帧格式和所述第二通信帧格式包括头部和数据字段,所述头部包括网络功能字段和命令字段中的至少一者,所述网络功能字段和所述命令字段分别对应所述智能平台管理接口(IPMI)消息帧格式中的网络功能字段和命令字段,所述第一通信帧格式中的数据字段包括子命令字段,
所述第二通信帧格式中的数据字段包括完成码字段。
4.根据权利要求1所述的系统,其特征在于,
所述图形处理器设备还包括外围组件接口扩展(PCIe)总线接口,
所述外部处理器设备还包括与所述图形处理器设备的所述外围组件接口扩展(PCIe)总线接口通过外围组件接口扩展(PCIe)总线通信连接的外围组件接口扩展(PCIe)总线接口,
所述外部处理器设备在所述外围组件接口扩展(PCIe)总线异常或所述外围组件接口扩展(PCIe)总线的负载超过预定值的情况下生成所述管理数据请求消息。
5.根据权利要求1所述的系统,其特征在于,
所述图形处理器设备包括系统管理总线(SMBUS)从模块,其获取所述图形处理器设备的管理数据并连接所述系统管理总线(SMBUS)从接口,
所述外部处理器设备包括系统管理总线(SMBUS)主模块,其连接所述系统管理总线(SMBUS)主接口。
6.根据权利要求1至5中任意一项所述的系统,其特征在于,
所述图形处理器设备通过产生中断的方式接收所述管理数据请求消息。
7.一种外部处理器设备,其特征在于,所述外部处理器设备具有:
系统管理总线(SMBUS)主接口,其与图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接;
第一生成单元,其生成针对所述图形处理器设备的管理数据请求消息;
第一发送单元,其通过所述系统管理总线(SMBUS)主接口向所述图形处理器设备发送所述管理数据请求消息;
第一接收单元,其通过所述系统管理总线(SMBUS)主接口接收来自所述图形处理器设备的管理数据答复消息,
所述管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。
8.根据权利要求7所述的外部处理器设备,其特征在于,
所述管理数据请求消息具有第一通信帧格式,所述第一通信帧格式兼容智能平台管理接口(IPMI)消息帧格式。
9.根据权利要求8所述的外部处理器设备,其特征在于,
所述第一通信帧格式包括头部和数据字段,所述头部包括网络功能字段和命令字段中的至少一者,所述网络功能字段和所述命令字段分别对应所述智能平台管理接口(IPMI)消息帧格式中的网络功能字段和命令字段,
所述第一通信帧格式中的数据字段包括子命令字段。
10.根据权利要求7所述的外部处理器设备,其特征在于,
所述外部处理器设备还包括外围组件接口扩展(PCIe)总线接口,所述外部处理器设备还通过所述外围组件接口扩展(PCIe)总线接口与所述图形处理器设备的外围组件接口扩展(PCIe)总线接口通过外围组件接口扩展(PCIe)总线通信连接,
所述外部处理器设备在所述外围组件接口扩展(PCIe)总线异常或所述外围组件接口扩展(PCIe)总线的负载超过预定值的情况下生成所述管理数据请求消息。
11.一种图形处理器设备,其特征在于,所述图形处理器设备具有:
系统管理总线(SMBUS)从接口,其与外部处理器设备的系统管理总线(SMBUS)主接口通过系统管理总线(SMBUS)通信连接;
第二接收单元,其通过所述系统管理总线(SMBUS)从接口接收来自所述外部处理器设备的针对所述图形处理器设备的管理数据请求消息;
第二消息生成单元,其根据接收的所述管理数据请求消息生成管理数据答复消息;以及
第二发送单元,其通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备,
所述管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。
12.根据权利要求11所述的图形处理器设备,其特征在于,
所述管理数据答复消息具有第二通信帧格式,所述第二通信帧格式兼容智能平台管理接口(IPMI)消息帧格式。
13.根据权利要求12所述的图形处理器设备,其特征在于,
所述第二通信帧格式包括头部和数据字段,所述头部包括网络功能字段和命令字段中的至少一者,所述网络功能字段和所述命令字段分别对应所述智能平台管理接口(IPMI)消息帧格式中的网络功能字段和命令字段,
所述第二通信帧格式中的数据字段包括完成码字段。
14.根据权利要求11所述的图形处理器设备,其特征在于,
所述图形处理器设备还包括外围组件接口扩展(PCIe)总线接口,所述图形处理器设备还通过所述外围组件接口扩展(PCIe)总线接口与所述外部处理器设备的外围组件接口扩展(PCIe)总线接口通过外围组件接口扩展(PCIe)总线通信连接。
15.根据权利要求11所述的图形处理器设备,其特征在于,
所述图形处理器设备包括系统管理总线(SMBUS)从模块,其获取所述图形处理器设备的管理数据并连接所述系统管理总线(SMBUS)从接口。
16.根据权利要求11至15中任意一项所述的图形处理器设备,其特征在于,
所述图形处理器设备通过产生中断的方式接收所述管理数据请求消息。
17.一种图形处理器辅助管理方法,其特征在于,所述方法应用于图形处理器辅助管理系统,所述系统包括图形处理器设备和外部处理器设备,所述图形处理器具有系统管理总线(SMBUS)从接口,所述外部处理器设备具有系统管理总线(SMBUS)主接口,所述外部处理器设备的系统管理总线(SMBUS)主接口与所述图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接,所述方法包括:
所述外部处理器设备生成针对所述图形处理器设备的管理数据请求消息;
所述外部处理器设备将所述管理数据请求消息通过所述系统管理总线(SMBUS)主接口发送给所述图形处理器设备;
所述图形处理器设备根据接收的所述管理数据请求消息生成管理数据答复消息;以及
所述图形处理器设备通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备,
所述管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。
18.一种图形处理器辅助管理方法,应用于外部处理器设备,其特征在于,
所述外部处理器设备具有系统管理总线(SMBUS)主接口,其与图形处理器设备的系统管理总线(SMBUS)从接口通过系统管理总线(SMBUS)通信连接,所述方法包括:
生成针对所述图形处理器设备的管理数据请求消息;
通过所述系统管理总线(SMBUS)主接口向所述图形处理器设备发送所述管理数据请求消息;
通过所述系统管理总线(SMBUS)主接口接收来自所述图形处理器设备的管理数据答复消息,
所述管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。
19.一种图形处理器辅助管理方法,应用于图形处理器设备,其特征在于,所述图形处理器设备具有系统管理总线(SMBUS)从接口,其与外部处理器设备的系统管理总线(SMBUS)主接口通过系统管理总线(SMBUS)通信连接,所述方法包括:
通过所述系统管理总线(SMBUS)从接口接收来自所述外部处理器设备的针对所述图形处理器设备的管理数据请求消息;
根据接收的所述管理数据请求消息生成管理数据答复消息;以及
通过所述系统管理总线(SMBUS)从接口将所述管理数据答复消息发送给所述外部处理器设备,
所述管理数据请求消息包括以下消息中的任意一者或其组合:获取图形处理器设备的异常日志的请求消息、用于读图形处理器设备的寄存器的请求消息、用于写图形处理器设备的寄存器的请求消息、用于丢弃图形处理器设备的内存信息的请求消息、获取图形处理器设备的功耗的请求消息、获取图形处理器设备的温度的请求消息、获取图形处理器设备的性能数据的请求消息。
20.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求18或19所述方法。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求18或19所述方法。
CN202210914380.4A 2022-08-01 2022-08-01 图形处理器辅助管理系统和方法 Active CN114996179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210914380.4A CN114996179B (zh) 2022-08-01 2022-08-01 图形处理器辅助管理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210914380.4A CN114996179B (zh) 2022-08-01 2022-08-01 图形处理器辅助管理系统和方法

Publications (2)

Publication Number Publication Date
CN114996179A CN114996179A (zh) 2022-09-02
CN114996179B true CN114996179B (zh) 2022-11-04

Family

ID=83021917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210914380.4A Active CN114996179B (zh) 2022-08-01 2022-08-01 图形处理器辅助管理系统和方法

Country Status (1)

Country Link
CN (1) CN114996179B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100541444C (zh) * 2006-08-15 2009-09-16 环达电脑(上海)有限公司 多主板系统之管理系统
CN101281639B (zh) * 2008-05-30 2010-06-09 华硕电脑股份有限公司 控制图形处理器操作模式的方法及图形处理器
US8745366B2 (en) * 2011-03-31 2014-06-03 Nvidia Corporation Method and apparatus to support a self-refreshing display device coupled to a graphics controller
US10180924B2 (en) * 2017-05-08 2019-01-15 Liqid Inc. Peer-to-peer communication for graphics processing units

Also Published As

Publication number Publication date
CN114996179A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
TWI618380B (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
KR100946395B1 (ko) 내장형 마이크로컨트롤러를 가진 마이크로컴퓨터 브리지 아키텍처
US8443126B2 (en) Hot plug process in a distributed interconnect bus
CN109558371B (zh) 用于与微控制器通信的方法、以及计算系统
CN108255776B (zh) 一种兼容apb总线的i3c主设备、主从系统及通信方法
CN114116378B (zh) 获取PCIe设备温度的方法、系统、终端及存储介质
EP3722963B1 (en) System, apparatus and method for bulk register accesses in a processor
US7305675B1 (en) Processing tasks with failure recovery
CN114003445B (zh) Bmc的i2c监控功能测试方法、系统、终端及存储介质
CN114996179B (zh) 图形处理器辅助管理系统和方法
CN112346878A (zh) 信息处理系统、中继装置及程序
CN116204214A (zh) Bmc升级方法、装置、系统、电子设备及存储介质
CN113489607B (zh) 一种业务处理系统、采集设备和汇聚设备
CN115632900B (zh) 一种计算设备
CN103858105B (zh) 连接方法
US7172129B2 (en) Integrated circuit card capable of automatically transmitting NULL byte information without intervention by CPU
CN114488871A (zh) 控制方法、变频器及计算机可读存储介质
CN111930582A (zh) 系统管理总线检测平台、处理器及系统管理总线检测方法
CN113709141B (zh) 应用于物联网固件的通信方法、装置及智能终端
KR100814436B1 (ko) 웹 기반 모니터링 모듈, 이를 포함하는 하드웨어 시스템,그리고 웹 기반 모니터링 모듈의 모니터링 방법
CN113630294B (zh) 一种交换机模块化检测方法和装置
TWI383294B (zh) 用以識別資料通訊架構之構件的系統
CN114884768B (zh) 一种总线空闲状态的检测装置、系统及检测方法
CN115643223B (zh) 一种中断信号传输方法及装置
CN117834750B (zh) 获取协议数据的装置、方法、系统、设备、介质及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant