CN112000545A - 一种图形处理器板卡和图形处理器管理方法 - Google Patents

一种图形处理器板卡和图形处理器管理方法 Download PDF

Info

Publication number
CN112000545A
CN112000545A CN202010805429.3A CN202010805429A CN112000545A CN 112000545 A CN112000545 A CN 112000545A CN 202010805429 A CN202010805429 A CN 202010805429A CN 112000545 A CN112000545 A CN 112000545A
Authority
CN
China
Prior art keywords
chip
graphics processor
management
interface
board card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010805429.3A
Other languages
English (en)
Inventor
王培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010805429.3A priority Critical patent/CN112000545A/zh
Publication of CN112000545A publication Critical patent/CN112000545A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3648Software debugging using additional hardware
    • G06F11/3656Software debugging using additional hardware using a specific debug interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Abstract

本发明公开了一种图形处理器板卡和图形处理器管理方法,所述图形处理器板卡包括主控芯片、图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片对外通过管理接口和时序控制接口连接服务器主机,对内连接图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片根据管理接口接收的管理信号切换对内的信号连接通路,实现外部对图形处理器的管理;所述图形处理器板卡通过USB接口进行debug。所述方法包括服务器主机向图形处理器板卡发送管理接口信号,所述管理接口信号包含预先定义的功能指令;图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路,实现对图形处理器的管理。本发明通过一个主控芯片和简单的接口信号,实现板卡管理功能。

Description

一种图形处理器板卡和图形处理器管理方法
技术领域
本发明涉及领域,具体涉及一种图形处理器板卡和图形处理器管理方法。
背景技术
服务器是网络中存储和计算数据的核心,服务器的稳定运行是网络环境稳定的基础,服务器监控自身运行状态的主控芯片是基板管理控制器(Baseboard ManagementController,BMC),BMC可以监控主板和其他系统板卡的温度、电压、中央处理器(CentralProcessing Unit,CPU)状态、内存状态、硬盘状态、板卡信息,调控风扇,显示系统状态,实现远程访问和控制服务器。
图形处理器(Graphics Processing Unit,GPU)服务器可以应用于人工智能(Artificial Intelligence,AI)、高性能计算、深度学习、视频编解码、科学计算等多种场景,随着AI技术的发展,GPU服务器的应用越来越广泛。GPU服务器的核心就是GPU,服务器中会有多个GPU卡或GPU模块、CPU及其他设备,只有实现对每个GPU相关器件的监控管理才能保证GPU服务器稳定运行。
由于GPU服务器中GPU的数量较多,所有GPU的监控管理、时序控制、debug接口信号就会有很多,主板会通过BMC和复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)连接多组信号对GPU进行管理和控制。如果多个GPU安装在独立的板卡上,其监控管理信号较多,需要的对外接口也比较多,无法实现GPU模块化设计。
发明内容
为了解决上述技术问题,本发明提出了一种图形处理器板卡和图形处理器管理方法,通过简单的接口信号,实现管理图形处理器板卡的功能。
为实现上述目的,本发明采用以下技术方案:
一种图形处理器板卡,包括主控芯片、图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片对外通过管理接口和时序控制接口连接服务器主机,对内连接图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片根据管理接口接收的管理信号切换对内的信号连接通路,实现外部对图形处理器的管理;所述图形处理器板卡通过USB接口进行debug。
进一步地,所述主控芯片包括对外接口管理模块、I2C桥接模块、寄存器存储模块和GPIO模块;
所述对外接口管理模块接收来自外部的管理接口信号,所述管理接口信号包含预先定义的功能指令,对外接口管理模块根据功能指令切换连通I2C桥接模块、寄存器模块或GPIO模块;
所述I2C桥接模块根据接收的功能指令选择连通对应的图形处理器、VR芯片、监控芯片或时钟芯片;
所述寄存器存储模块定期读取图形处理器、VR芯片和监控芯片的信息并存储在寄存器中,根据接收的功能指令读取对应的寄存器存储信息;
所述GPIO模块根据接收的功能指令控制主控芯片对应的GPIO接口。
进一步地,所述时序控制接口连接电源使能信号、电源PowerGood信号、时钟使能信号和复位信号。
进一步地,所述USB接口通过USB hub芯片和USB转UART接口芯片连接图形处理器,通过主控芯片的GPIO信号控制USB转UART接口芯片切换通道,选通不同的图形处理器。
进一步地,所述USB接口对外连接主板的基板管理控制器或PCH。
进一步地,所述USB接口对外连接计算机。
本发明还提出了一种图形处理器管理方法,包括:
服务器主机向图形处理器板卡发送管理接口信号,所述管理接口信号包含预先定义的功能指令;
图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路,实现对图形处理器的管理。
进一步地,所述图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路具体为:
主控芯片的对外接口管理模块根据功能指令切换连通I2C桥接模块、寄存器模块或GPIO模块;
所述I2C桥接模块根据接收的功能指令选择连通对应的图形处理器、VR芯片、监控芯片或时钟芯片;
所述寄存器存储模块定期读取图形处理器、VR芯片和监控芯片的信息并存储在寄存器中,根据接收的功能指令读取对应的寄存器存储信息;
所述GPIO模块根据接收的功能指令控制主控芯片对应的GPIO接口。
本发明的有益效果是:
本发明通过提出一种图形处理器板卡和图形处理器管理方法,图形处理器板卡只留有限的对外接口与主板沟通,通过一个主控芯片完成图形处理器板卡的监控管理和时序控制,代替BMC和CPLD功能,通过简单的接口信号,完成复杂的GPU系统的监控管理功能,实现图形处理器板卡独立的监控管理、时序控制、链路状态管理、固件(Firmware,FW)升级工作。主控芯片对外有一个管理接口,对内管理内部所有GPU,实现对GPU板外接口和对内管理的隔离,便于图形处理器板卡的模块化设计,从而兼容多个主板设计,使图形处理器板卡搭配不同的服务器主板工作。通过主板的BMC进行GPU底层链路信息获取,实现GPU的固件升级,并预留对外的USB接口,当主板BMC挂掉后,依然能够通过PC软件来debug。
附图说明
图1是本发明实施例图形处理器板卡结构示意图;
图2是本发明实施例主控芯片管理部分结构示意图;
图3是本发明实施例主控芯片时序控制部分结构示意图;
图4是本发明实施例图形处理器管理方法流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例公开了一种图形处理器板卡,包括主控芯片、图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片对外通过管理接口和时序控制接口连接服务器主机,对内连接图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片根据管理接口接收的管理信号切换对内的信号连接通路,实现外部对图形处理器的管理;所述图形处理器板卡通过USB接口进行debug。
具体地,所述主控芯片可选为现场可编程逻辑门阵列(Field Programmable GateArray,FPGA)或微控制单元(Microcontroller Unit,MCU)。主控芯片的对外接口可选为主板或其他服务器主机系统,主控芯片对内通过多组连接信号连接GPU、VR芯片、温度电压监控芯片、时钟芯片;通过多组时序控制信号控制每个VR芯片上电,控制时钟开始工作;通过复位信号控制GPU等PCIe设备解复位;通过GPIO信号控制板卡其他逻辑功能。
如图2所示,所述主控芯片的管理功能实现方式具体为:所述主控芯片包括对外接口管理模块、I2C桥接模块、寄存器存储模块和GPIO模块;
所述对外接口管理模块接收来自外部的管理接口信号,所述管理接口信号包含预先定义的功能指令,对外接口管理模块根据功能指令切换连通I2C桥接模块、寄存器模块或GPIO模块;对外接口管理模块可以采用一组I2C信号与主板的BNC连接,也可以使用UART信号。功能指令定义可采用表1定义的GPIO指令,也可以采用其他定义规则,每个指令对应不同的功能。
所述I2C桥接模块根据接收的功能指令选择连通对应的图形处理器、VR芯片、监控芯片或时钟芯片;GPIO指令01h对应I2C桥接模块,前端I2C直接与后端一路I2C连接,通过不同的指令,决定是哪一路I2C与前端连接。
所述寄存器存储模块定期读取图形处理器、VR芯片和监控芯片的信息并存储在寄存器中,根据接收的功能指令读取对应的寄存器存储信息;GPIO指令02h对应寄存器存储模块,寄存器存储模块的功能是主控芯片作为master定期读取后端GPU和其他设备的信息,比如GPU运行状态报错、温度电压告警,然后存储在寄存器中。主控芯片的寄存器模块与前端I2C直连,主板管理模块通过对外接口的I2C或UART信号,用不同的指令读取不同寄存器的信息。
所述GPIO模块根据接收的功能指令控制主控芯片对应的GPIO接口;GPIO指令03h对应GPIO模块,前端控制接口通过I2C转GPIO功能直接控制主控芯片的某个GPIO pin。
表1管理功能指令定义
Figure BDA0002634104260000051
如图3所示,主控芯片的时序控制功能实现方式具体为:所述时序控制接口连接电源使能信号、电源PowerGood信号、时钟使能信号和复位信号,控制后端所有的设备上电、时钟输出和复位功能。上电时,主控芯片收到主板CPLD发出电源Enable信号后,发出VR1的Enable信号,然后按顺序控制所有VR上电,直到收到最后一个VR的PGD信号,向主板CPLD发出电源Power Good信号。主控芯片收到主板的时钟使能信号后控制发出时钟控制信号,控制时钟芯片输出。主控芯片收到主板的复位信号后,发出解复位信号给后端的GPU和其他PCIe设备。
所述USB接口通过USB hub芯片和USB转UART接口芯片连接图形处理器,通过主控芯片的GPIO信号控制USB转UART接口芯片切换通道,选通不同的图形处理器。GPU debug接口信号主要用于带外读取GPU的PCIe、GPU互联总线等链路状态,更新GPU Firmware。这组接口信号也是GPU的带外管理信号,但是比I2C信号更能深入GPU的底层。对外接口是一组USB信号,对内通过多组UART连接多个GPU,中间通过USB转UART接口芯片连接。当GPU数量多时,USB转UART接口可以使用1对2的芯片或者1对4的芯片,主控芯片通过GPIO控制通道切换信号,选通其中一路USB对UART通道,对应某一个GPU的debug接口打开,如果有8个以上的GPU,可以通过USB hub芯片扩展USB信号。GPU debug接口可以对接主板的BMC或者PCH,也可以直接预留USB debug端口,通过主板或外部接口进行GPU底层链路信息获取。主控芯片或USBhub上都可以预留对外的USB接口,当主板BMC挂掉后依然能够通过计算机软件来debug。
如图4所示,本发明实施例还公开了一种图形处理器管理方法,包括:
服务器主机向图形处理器板卡发送管理接口信号,所述管理接口信号包含预先定义的功能指令;
图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路,实现对图形处理器的管理。
所述图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路具体为:
主控芯片的对外接口管理模块根据功能指令切换连通I2C桥接模块、寄存器模块或GPIO模块;
所述I2C桥接模块根据接收的功能指令选择连通对应的图形处理器、VR芯片、监控芯片或时钟芯片;
所述寄存器存储模块定期读取图形处理器、VR芯片和监控芯片的信息并存储在寄存器中,根据接收的功能指令读取对应的寄存器存储信息;
所述GPIO模块根据接收的功能指令控制主控芯片对应的GPIO接口。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种图形处理器板卡,其特征在于,包括主控芯片、图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片对外通过管理接口和时序控制接口连接服务器主机,对内连接图形处理器、VR芯片、监控芯片和时钟芯片;所述主控芯片根据管理接口接收的管理信号切换对内的信号连接通路,实现外部对图形处理器的管理;所述图形处理器板卡通过USB接口进行debug。
2.根据权利要求1所述的图形处理器板卡,其特征在于,所述主控芯片包括对外接口管理模块、I2C桥接模块、寄存器存储模块和GPIO模块;
所述对外接口管理模块接收来自外部的管理接口信号,所述管理接口信号包含预先定义的功能指令,对外接口管理模块根据功能指令切换连通I2C桥接模块、寄存器模块或GPIO模块;
所述I2C桥接模块根据接收的功能指令选择连通对应的图形处理器、VR芯片、监控芯片或时钟芯片;
所述寄存器存储模块定期读取图形处理器、VR芯片和监控芯片的信息并存储在寄存器中,根据接收的功能指令读取对应的寄存器存储信息;
所述GPIO模块根据接收的功能指令控制主控芯片对应的GPIO接口。
3.根据权利要求1所述的图形处理器板卡,其特征在于,所述时序控制接口连接电源使能信号、电源PowerGood信号、时钟使能信号和复位信号。
4.根据权利要求1所述的图形处理器板卡,其特征在于,所述USB接口通过USB hub芯片和USB转UART接口芯片连接图形处理器,通过主控芯片的GPIO信号控制USB转UART接口芯片切换通道,选通不同的图形处理器。
5.根据权利要求4所述的图形处理器板卡,其特征在于,所述USB接口对外连接主板的基板管理控制器或PCH。
6.根据权利要求4所述的图形处理器板卡,其特征在于,所述USB接口对外连接计算机。
7.一种图形处理器管理方法,其特征在于,包括:
服务器主机向图形处理器板卡发送管理接口信号,所述管理接口信号包含预先定义的功能指令;
图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路,实现对图形处理器的管理。
8.根据权利要求7所述的图形处理器管理方法,其特征在于,所述图形处理器板卡的主控芯片根据功能指令切换板卡内的信号连接通路具体为:
主控芯片的对外接口管理模块根据功能指令切换连通I2C桥接模块、寄存器模块或GPIO模块;
所述I2C桥接模块根据接收的功能指令选择连通对应的图形处理器、VR芯片、监控芯片或时钟芯片;
所述寄存器存储模块定期读取图形处理器、VR芯片和监控芯片的信息并存储在寄存器中,根据接收的功能指令读取对应的寄存器存储信息;
所述GPIO模块根据接收的功能指令控制主控芯片对应的GPIO接口。
CN202010805429.3A 2020-08-14 2020-08-14 一种图形处理器板卡和图形处理器管理方法 Withdrawn CN112000545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010805429.3A CN112000545A (zh) 2020-08-14 2020-08-14 一种图形处理器板卡和图形处理器管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805429.3A CN112000545A (zh) 2020-08-14 2020-08-14 一种图形处理器板卡和图形处理器管理方法

Publications (1)

Publication Number Publication Date
CN112000545A true CN112000545A (zh) 2020-11-27

Family

ID=73463827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805429.3A Withdrawn CN112000545A (zh) 2020-08-14 2020-08-14 一种图形处理器板卡和图形处理器管理方法

Country Status (1)

Country Link
CN (1) CN112000545A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204508A (zh) * 2021-04-25 2021-08-03 山东英信计算机技术有限公司 一种复杂可编程逻辑器件扫描方法和装置
CN113204510A (zh) * 2021-04-29 2021-08-03 山东英信计算机技术有限公司 一种服务器管理架构和服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408445A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种图形处理器板卡
CN109992555A (zh) * 2019-03-13 2019-07-09 苏州浪潮智能科技有限公司 一种供多路服务器共用的管理板卡
CN110658758A (zh) * 2019-09-23 2020-01-07 北京中科晶上科技股份有限公司 控制方法和控制系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408445A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种图形处理器板卡
CN109992555A (zh) * 2019-03-13 2019-07-09 苏州浪潮智能科技有限公司 一种供多路服务器共用的管理板卡
CN110658758A (zh) * 2019-09-23 2020-01-07 北京中科晶上科技股份有限公司 控制方法和控制系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204508A (zh) * 2021-04-25 2021-08-03 山东英信计算机技术有限公司 一种复杂可编程逻辑器件扫描方法和装置
CN113204510A (zh) * 2021-04-29 2021-08-03 山东英信计算机技术有限公司 一种服务器管理架构和服务器

Similar Documents

Publication Publication Date Title
CN111400217B (zh) 一种ocp转接卡及计算机设备
CN207367115U (zh) 一种基于飞腾处理器的服务器主板及服务器
CN107346293A (zh) 动态重新配置系统的至少一外围总线交换器的方法及系统
US11199890B2 (en) Peripheral device expansion card system
US20170220506A1 (en) Modular Software Defined Storage Technology
CN211427190U (zh) 一种基于飞腾处理器2000+的服务器电路和主板
CN107038139A (zh) 一种基于ft1500a的国产服务器主板的实现方法
CN112000545A (zh) 一种图形处理器板卡和图形处理器管理方法
US20200133912A1 (en) Device management messaging protocol proxy
CN109992555A (zh) 一种供多路服务器共用的管理板卡
CN115757236A (zh) 一种存储扩展池化设备及系统
US11308002B2 (en) Systems and methods for detecting expected user intervention across multiple blades during a keyboard, video, and mouse (KVM) session
WO2023016379A1 (zh) 计算机系统、基于PCIe设备的控制方法及相关设备
CN116501678A (zh) 一种拓扑板卡和板载系统
CN216352292U (zh) 服务器主板及服务器
CN115718529A (zh) 一种基于龙芯cpu come模块加固计算机主板系统
CN211375594U (zh) 一种基于sw421处理器的接口扩展机构
CN115509985A (zh) 一种处理器的i/o控制器
CN111400240A (zh) 电路板及人工智能边缘计算嵌入式控制器
CN115237849B (zh) 可动态重构和异构的计算模块及计算装置
US11748288B2 (en) Discovery and safe enablement of high-speed management interface via PCIe card electro-mechanical connector
CN220357535U (zh) 一种计算存储刀片及设备
CN210666768U (zh) Ai训练推理服务器和系统
CN114153388B (zh) 一种硬盘系统和硬盘配置信息刷新方法、装置及介质
CN114610663B (zh) 一种支持多种板卡的装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201127

WW01 Invention patent application withdrawn after publication