CN111221771A

CN111221771A - 一种适用于vpx架构的gpu刀片装置

Info

Publication number: CN111221771A
Application number: CN201911125989.8A
Authority: CN
Inventors: 魏凯
Original assignee: Tianjin Jinhang Computing Technology Research Institute
Current assignee: Tianjin Jinhang Computing Technology Research Institute
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-06-02
Anticipated expiration: 2039-11-18
Also published as: CN111221771B

Abstract

本发明涉及一种适用于VPX架构的GPU刀片装置，属于VPX架构国产化刀片装置技术领域。本发明实现了国产FT1500A‑16处理器与国产JM7200 GPU的协作适配，该刀片装置既可以进行高性能的逻辑计算，又可以完成2D/3D图形加速处理和高分辨率输出。VIRTEX‑7 FPGA对输入的高速数据流进行预处理，为数据流的分类分流做了充分的准备，大大降低了大数据流直接输入对刀片装置的压力冲击。PCIE3.0 Switch PM8541的配置实现了FT1500A‑16处理器高速高效访问外围，管控调度大数据流的作用。JM7200在整个PCIE交换网络中，作为了一个核心的中枢，既可以作为RC，直接获取经过FPGA预处理后的图形相关数据，进行必要的加速处理，有可以作为FT1500A‑16处理器的EP设备，受FT1500A‑16处理器的管控和调度，负责高分辨率视频输出。

Description

一种适用于VPX架构的GPU刀片装置

技术领域

本发明属于VPX架构国产化刀片装置技术领域，具体涉及一种适用于VPX架构的GPU刀片装置。

背景技术

VPX架构作为VME架构的升级和替代，一经推出，就得到了军事、航空航天等高端应用领域的青睐。VPX架构，可以支持高速的互联及串行交换机结构，如SRIO、PCIE等，能够满足最苛刻的计算机模块和数字信号处理模块的要求。与此同时，受欧美国家的技术垄断，国产处理器和国产显卡芯片发展缓慢，特别是国产处理器和国产显卡芯片的协作适配，国内技术还很不成熟。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何解决现有VPX架构下国产处理器和国产GPU协作适配性能不佳的问题，具体来讲就是国产处理器和国产GPU无法完全适配，难以协同处理高速高带宽的数据流的问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种适用于VPX架构的GPU刀片装置，包括FT1500A-16处理器、JM7200 GPU、Virtex-7 FPGA、PCIE3.0 Switch PM8541；其中，FT1500A-16处理器用于负责数据流的管控和调度；JM7200用于负责逻辑计算和2D/3D图形显示处理；Virtex-7FPGA用于对输入的高速数据流进行缓存和预处理，然后通过高速PCIE3.0 SwitchPM8541进行数据流在FT1500A-16处理器和JM7200之间的交换；JM7200的PCIE接口可拆成两个X8接口，一个作ROOT，直接与Virtex-7 FPGA相连，获取需要进行逻辑计算和图形加速的数据，另一个作为FT1500A-16处理器的EP设备，负责FT1500A-16处理器的高清视频显示。

优选地，还包括BMC管理芯片，FT1500A-16处理器还用于通过BMC管理芯片进行刀片装置的BMC健康管理。

优选地，所述BMC管理芯片为LPC2148。

优选地，LPC2148通过两路主从I2C总线与VPX总线相连，通过UART与FT1500A-16处理器相连，受FT1500A-16处理器的管控。

优选地，LPC2148还通过I2C总线与一温度传感器和一电压控制器芯片相连，以实现对刀片装置电流、电压、主芯片温度的实时监控。

优选地，所述GPU刀片装置可同时处理40G、SRIO X4共2路的数据流。

本发明还提供了一种所述的装置实现FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据的方法，包括以下步骤:

步骤一，PCIE3.0 Switch PM8541下，FT1500A-16处理器作为ROOT，Virtex-7 FPGA被设置为EP，JM7200 GPU既作CPU的EP，也可被设置为Virtex-7 FPGA的ROOT；

步骤二，FT1500A-16处理器通过PCIE3.0 Switch PM8541对Virtex-7 FPGA进行配置，对输入的40G和SRIO X4，分为两个冗余备份的通道进行处理；

步骤三，FT1500A-16处理器通过对Virtex-7 FPGA预处理数据的分析，命令JM7200GPU直接取走其中与图形计算和加速相关的数据，该部分数据不再经过PCIE3.0 SwitchPM8541；

步骤四，JM7200 GPU从FT1500A-16处理器取走需要进行图形显示的数据，送外部显示接口；

步骤五，FT1500A-16处理器通过LPC2148实时监控数据处理的全过程。

优选地，步骤二FT1500A-16处理器对输入的40G和SRIO X4，分为两个冗余备份的通道进行处理时，一个通道是，直接用VIRTEX-7FPGA的PCIE3.0接口处理数据流，前提是先将输入的40G和SRIO X4转换成PCIE3.0的数据包；另一个通道是，用VIRTEX-7FPGA的高速接口GTH直接接收40G和SRIO X4，再进行缓存处理。

(三)有益效果

本发明的装置实现了国产FT1500A-16处理器与国产JM7200GPU的协作适配，该刀片装置既可以进行高性能的逻辑计算，又可以完成2D/3D图形加速处理和高分辨率输出。VIRTEX-7 FPGA对输入的高速数据流进行预处理，为数据流的分类分流做了充分的准备，大大降低了大数据流直接输入对刀片装置的压力冲击。PCIE3.0 Switch PM8541的配置实现了FT1500A-16处理器高速高效访问外围，管控调度大数据流的作用。JM7200在整个PCIE交换网络中，作为了一个核心的中枢，既可以作为RC，直接获取经过FPGA预处理后的图形相关数据，进行必要的加速处理，有可以作为FT1500A-16处理器的EP设备，受FT1500A-16处理器的管控和调度，负责高分辨率视频输出。这样的处理，既简化了数据流传输的路径，降低了数据延迟，又对数据流进行了分类分流，提高了数据在FT1500A-16处理器和JM7200之间流转的效率，系统总带宽可以达到100G以上。通过BMC管理芯片LPC2148可以实现刀片装置的故障上报、开机自检、运行状态自检功能，可以向用户软件输出电流、电压、主芯片温度、操作系统及版本、固件版本等信息的软件接口。

附图说明

图1为本发明实施例的方法所基于的GPU刀片装置原理框图；

图2为本发明实施例的方法所基于的PCIE3.0 Switch原理框图；

图3为本发明实施例的方法所基于的VIRTEX-7 FPGA数据流预处理原理框图；

图4为本发明实施例的方法所基于的BMC模块原理框图；

图5为本发明实施例的FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据逻辑流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

结合图1所示的GPU刀片装置原理框图、图2所示的PCIE3.0 Switch原理框图、图3所示的VIRTEX-7 FPGA数据流预处理原理框图、图4所示的BMC模块原理框图以及图5所示的数据处理逻辑流程图，下面对本发明方法作进一步描述。

如图1所示，该装置的高性能CPU刀片装置采用CPU+GPU+FPGA的架构，包括国产FT1500A-16处理器CPU、国产JM7200 GPU、Virtex-7(XT/HT系列)FPGA、PCIE3.0 SwitchPM8541和BMC管理芯片；其中，FT1500A-16用于负责大数据流的管控和调度；JM7200用于负责逻辑计算和2D/3D图形显示处理；Virtex-7(XT/HT系列)FPGA用于对输入的高速数据流进行缓存和预处理，然后通过高速PCIE3.0Switch PM8541进行数据流在FT1500A-16和JM7200之间的交换；JM7200的PCIE接口可以拆成两个X8接口，一个作ROOT，直接与Virtex-7 FPGA相连，获取需要进行逻辑计算和图形加速的数据，另一个作为FT1500A-16的EP设备，负责处理器的高清视频显示；FT1500A-16处理器还通过BMC管理芯片LPC2148进行刀片装置的BMC健康管理。本发明的飞腾国产GPU刀片装置可以同时处理2路40G或SRIO X4的高速数据流，通过对PCIE3.0 Switch和GPU的PCIE接口的配置，可以实现刀片装置的高速运转，国产处理器和显卡芯片的高效协作。

国产FT1500A-16处理器，主频可达1.5GHz，集成4个DDR3 SDRAM，支持ECC校验功能，速率可达1600Mbytes，内存16GB(颗粒焊装)，集成32Lane PCI Expressv3.0接口，最多支持4个PCIE Root Complex。

国产JM7200 GPU，是长沙景嘉微公司推出的第三代具有完全自主知识产权的图形处理芯片，是一款具有高可靠性的高性能图形处理芯片(GPU)，能够高效的完成2D、3D图形加速功能。支持PCIE2.0x16、4K超高清显示、4路独立图形显示、十屏同时输出(4路HDMI 1.4或DVI，2路VGA，2路LVDS，2路DVO)和高清解码功能(H246、MPEG4、MPEG2、VP8等)。片上最大可集成4GB的DDR3存储器，提供了多种丰富的外设接口。支持四路输入多格式外视频在图形上进行开窗、缩放、旋转以及叠加显示。支持国产CPU和国产操作系统平台。

如图2所示，PCIE3.0 Switch PM8541符合PCI Express Gen3规范，支持多达96个lanes，48个ports，24个交换分区以及48个非透明桥NTBs。国产FT1500A-16处理器作为RC连接到PCIE 3.0 Switch PM8541的Upstream端口(端口0)，包括FPGA在内的其他设备作为国产FT1500A-16处理器的EP，连接在Downstream端口，它可以高速访问同一交换分区的EP设备EP1、EP2、EP3以及扩展的PCIE3.0X16；JM7200的PCIE接口可以拆成两个X8接口，一个作ROOT，直接与Virtex-7 FPGA相连，获取需要进行逻辑计算和图形加速的数据；另一个作为FT1500A-16的EP设备，负责处理器的高清视频显示。

如图3所示，VIRTEX-7 FPGA支持PCIE3.0X8，支持多达96路高速GTH接口，单路速率可达28Gb/s，其中GTH可以支持PCIE3.0，40G(XLAUI)以及SRIO等应用。对输入的40G和SRIOX4，分为两个冗余备份的通过进行处理。一个通道是，直接用VIRTEX-7 FPGA的PCIE3.0接口处理高速大数据流，前提是先将输入的40G和SRIO X4转换成PCIE3.0的数据包；另一个通道是，用VIRTEX-7 FPGA的高速接口GTH直接接收40G和SRIO X4，再进行缓存处理。

BMC管理芯片LPC2148，是一款ARM7 TDMI-S CPU微处理器，并带有32KB和512KB嵌入的高速Flash存储器，支持IPMI2.0标准协议，支持iKVM功能，可通过IPMI命令控制刀片开关电以及上报刀片在位信息，支持远程更新操作系统及应用软件，支持本地启动远程系统镜像文件的功能。如图4所示，BMC模块LPC2148通过两路主从I2C总线与VPX总线相连，通过UART与FT1500A-16处理器相连，受FT1500A-16处理器的管控。通过I2C总线与温度传感器和电压控制器芯片相连，可以实现对刀片装置电流、电压、主芯片温度的实时监控。

如图5所示，为FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据逻辑流程图，具体的实施步骤如下:

步骤一，PCIE3.0 Switch PM8541下，FT1500A-16处理器作为ROOT，Virtex-7 FPGA被设置为EP，JM7200GPU既可以作CPU的EP，也可以根据需要，被设置为Virtex-7FPGA的ROOT；

步骤二，FT1500A-16处理器通过PCIE3.0Switch PM8541对Virtex-7 FPGA进行配置，对输入的40G和SRIO X4，分为两个冗余备份的通道进行处理；

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种适用于VPX架构的GPU刀片装置，其特征在于，包括FT1500A-16处理器、JM7200GPU、Virtex-7 FPGA、PCIE3.0 Switch PM8541；其中，FT1500A-16处理器用于负责数据流的管控和调度；JM7200用于负责逻辑计算和2D/3D图形显示处理；Virtex-7FPGA用于对输入的高速数据流进行缓存和预处理，然后通过高速PCIE3.0 Switch PM8541进行数据流在FT1500A-16处理器和JM7200之间的交换；JM7200的PCIE接口可拆成两个X8接口，一个作ROOT，直接与Virtex-7 FPGA相连，获取需要进行逻辑计算和图形加速的数据，另一个作为FT1500A-16处理器的EP设备，负责FT1500A-16处理器的高清视频显示。

2.如权利要求1所述的装置，其特征在于，还包括BMC管理芯片，FT1500A-16处理器还用于通过BMC管理芯片进行刀片装置的BMC健康管理。

3.如权利要求2所述的装置，其特征在于，所述BMC管理芯片为LPC2148。

4.如权利要求3所述的装置，其特征在于，LPC2148通过两路主从I2C总线与VPX总线相连，通过UART与FT1500A-16处理器相连，受FT1500A-16处理器的管控。

5.如权利要求4所述的装置，其特征在于，LPC2148还通过I2C总线与一温度传感器和一电压控制器芯片相连，以实现对刀片装置电流、电压、主芯片温度的实时监控。

6.如权利要求5所述的装置，其特征在于，所述GPU刀片装置可同时处理40G、SRIO X4共2路的数据流。

7.一种如权利要求6所述的装置实现FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据的方法，其特征在于，包括以下步骤:

步骤三，FT1500A-16处理器通过对Virtex-7 FPGA预处理数据的分析，命令JM7200 GPU直接取走其中与图形计算和加速相关的数据，该部分数据不再经过PCIE3.0 SwitchPM8541；

8.如权利要求7所述的方法，其特征在于，步骤二FT1500A-16处理器对输入的40G和SRIO X4，分为两个冗余备份的通道进行处理时，一个通道是，直接用VIRTEX-7 FPGA的PCIE3.0接口处理数据流，前提是先将输入的40G和SRIO X4转换成PCIE3.0的数据包；另一个通道是，用VIRTEX-7 FPGA的高速接口GTH直接接收40G和SRIO X4，再进行缓存处理。