CN111221771A - 一种适用于vpx架构的gpu刀片装置 - Google Patents

一种适用于vpx架构的gpu刀片装置 Download PDF

Info

Publication number
CN111221771A
CN111221771A CN201911125989.8A CN201911125989A CN111221771A CN 111221771 A CN111221771 A CN 111221771A CN 201911125989 A CN201911125989 A CN 201911125989A CN 111221771 A CN111221771 A CN 111221771A
Authority
CN
China
Prior art keywords
ft1500a
processor
data
virtex
7fpga
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911125989.8A
Other languages
English (en)
Other versions
CN111221771B (zh
Inventor
魏凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN201911125989.8A priority Critical patent/CN111221771B/zh
Publication of CN111221771A publication Critical patent/CN111221771A/zh
Application granted granted Critical
Publication of CN111221771B publication Critical patent/CN111221771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

本发明涉及一种适用于VPX架构的GPU刀片装置,属于VPX架构国产化刀片装置技术领域。本发明实现了国产FT1500A‑16处理器与国产JM7200 GPU的协作适配,该刀片装置既可以进行高性能的逻辑计算,又可以完成2D/3D图形加速处理和高分辨率输出。VIRTEX‑7 FPGA对输入的高速数据流进行预处理,为数据流的分类分流做了充分的准备,大大降低了大数据流直接输入对刀片装置的压力冲击。PCIE3.0 Switch PM8541的配置实现了FT1500A‑16处理器高速高效访问外围,管控调度大数据流的作用。JM7200在整个PCIE交换网络中,作为了一个核心的中枢,既可以作为RC,直接获取经过FPGA预处理后的图形相关数据,进行必要的加速处理,有可以作为FT1500A‑16处理器的EP设备,受FT1500A‑16处理器的管控和调度,负责高分辨率视频输出。

Description

一种适用于VPX架构的GPU刀片装置
技术领域
本发明属于VPX架构国产化刀片装置技术领域,具体涉及一种适用于VPX架构的GPU刀片装置。
背景技术
VPX架构作为VME架构的升级和替代,一经推出,就得到了军事、航空航天等高端应用领域的青睐。VPX架构,可以支持高速的互联及串行交换机结构,如SRIO、PCIE等,能够满足最苛刻的计算机模块和数字信号处理模块的要求。与此同时,受欧美国家的技术垄断,国产处理器和国产显卡芯片发展缓慢,特别是国产处理器和国产显卡芯片的协作适配,国内技术还很不成熟。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决现有VPX架构下国产处理器和国产GPU协作适配性能不佳的问题,具体来讲就是国产处理器和国产GPU无法完全适配,难以协同处理高速高带宽的数据流的问题。
(二)技术方案
为了解决上述技术问题,本发明提供了一种适用于VPX架构的GPU刀片装置,包括FT1500A-16处理器、JM7200 GPU、Virtex-7 FPGA、PCIE3.0 Switch PM8541;其中,FT1500A-16处理器用于负责数据流的管控和调度;JM7200用于负责逻辑计算和2D/3D图形显示处理;Virtex-7FPGA用于对输入的高速数据流进行缓存和预处理,然后通过高速PCIE3.0 SwitchPM8541进行数据流在FT1500A-16处理器和JM7200之间的交换;JM7200的PCIE接口可拆成两个X8接口,一个作ROOT,直接与Virtex-7 FPGA相连,获取需要进行逻辑计算和图形加速的数据,另一个作为FT1500A-16处理器的EP设备,负责FT1500A-16处理器的高清视频显示。
优选地,还包括BMC管理芯片,FT1500A-16处理器还用于通过BMC管理芯片进行刀片装置的BMC健康管理。
优选地,所述BMC管理芯片为LPC2148。
优选地,LPC2148通过两路主从I2C总线与VPX总线相连,通过UART与FT1500A-16处理器相连,受FT1500A-16处理器的管控。
优选地,LPC2148还通过I2C总线与一温度传感器和一电压控制器芯片相连,以实现对刀片装置电流、电压、主芯片温度的实时监控。
优选地,所述GPU刀片装置可同时处理40G、SRIO X4共2路的数据流。
本发明还提供了一种所述的装置实现FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据的方法,包括以下步骤:
步骤一,PCIE3.0 Switch PM8541下,FT1500A-16处理器作为ROOT,Virtex-7 FPGA被设置为EP,JM7200 GPU既作CPU的EP,也可被设置为Virtex-7 FPGA的ROOT;
步骤二,FT1500A-16处理器通过PCIE3.0 Switch PM8541对Virtex-7 FPGA进行配置,对输入的40G和SRIO X4,分为两个冗余备份的通道进行处理;
步骤三,FT1500A-16处理器通过对Virtex-7 FPGA预处理数据的分析,命令JM7200GPU直接取走其中与图形计算和加速相关的数据,该部分数据不再经过PCIE3.0 SwitchPM8541;
步骤四,JM7200 GPU从FT1500A-16处理器取走需要进行图形显示的数据,送外部显示接口;
步骤五,FT1500A-16处理器通过LPC2148实时监控数据处理的全过程。
优选地,步骤二FT1500A-16处理器对输入的40G和SRIO X4,分为两个冗余备份的通道进行处理时,一个通道是,直接用VIRTEX-7FPGA的PCIE3.0接口处理数据流,前提是先将输入的40G和SRIO X4转换成PCIE3.0的数据包;另一个通道是,用VIRTEX-7FPGA的高速接口GTH直接接收40G和SRIO X4,再进行缓存处理。
(三)有益效果
本发明的装置实现了国产FT1500A-16处理器与国产JM7200GPU的协作适配,该刀片装置既可以进行高性能的逻辑计算,又可以完成2D/3D图形加速处理和高分辨率输出。VIRTEX-7 FPGA对输入的高速数据流进行预处理,为数据流的分类分流做了充分的准备,大大降低了大数据流直接输入对刀片装置的压力冲击。PCIE3.0 Switch PM8541的配置实现了FT1500A-16处理器高速高效访问外围,管控调度大数据流的作用。JM7200在整个PCIE交换网络中,作为了一个核心的中枢,既可以作为RC,直接获取经过FPGA预处理后的图形相关数据,进行必要的加速处理,有可以作为FT1500A-16处理器的EP设备,受FT1500A-16处理器的管控和调度,负责高分辨率视频输出。这样的处理,既简化了数据流传输的路径,降低了数据延迟,又对数据流进行了分类分流,提高了数据在FT1500A-16处理器和JM7200之间流转的效率,系统总带宽可以达到100G以上。通过BMC管理芯片LPC2148可以实现刀片装置的故障上报、开机自检、运行状态自检功能,可以向用户软件输出电流、电压、主芯片温度、操作系统及版本、固件版本等信息的软件接口。
附图说明
图1为本发明实施例的方法所基于的GPU刀片装置原理框图;
图2为本发明实施例的方法所基于的PCIE3.0 Switch原理框图;
图3为本发明实施例的方法所基于的VIRTEX-7 FPGA数据流预处理原理框图;
图4为本发明实施例的方法所基于的BMC模块原理框图;
图5为本发明实施例的FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据逻辑流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
结合图1所示的GPU刀片装置原理框图、图2所示的PCIE3.0 Switch原理框图、图3所示的VIRTEX-7 FPGA数据流预处理原理框图、图4所示的BMC模块原理框图以及图5所示的数据处理逻辑流程图,下面对本发明方法作进一步描述。
如图1所示,该装置的高性能CPU刀片装置采用CPU+GPU+FPGA的架构,包括国产FT1500A-16处理器CPU、国产JM7200 GPU、Virtex-7(XT/HT系列)FPGA、PCIE3.0 SwitchPM8541和BMC管理芯片;其中,FT1500A-16用于负责大数据流的管控和调度;JM7200用于负责逻辑计算和2D/3D图形显示处理;Virtex-7(XT/HT系列)FPGA用于对输入的高速数据流进行缓存和预处理,然后通过高速PCIE3.0Switch PM8541进行数据流在FT1500A-16和JM7200之间的交换;JM7200的PCIE接口可以拆成两个X8接口,一个作ROOT,直接与Virtex-7 FPGA相连,获取需要进行逻辑计算和图形加速的数据,另一个作为FT1500A-16的EP设备,负责处理器的高清视频显示;FT1500A-16处理器还通过BMC管理芯片LPC2148进行刀片装置的BMC健康管理。本发明的飞腾国产GPU刀片装置可以同时处理2路40G或SRIO X4的高速数据流,通过对PCIE3.0 Switch和GPU的PCIE接口的配置,可以实现刀片装置的高速运转,国产处理器和显卡芯片的高效协作。
国产FT1500A-16处理器,主频可达1.5GHz,集成4个DDR3 SDRAM,支持ECC校验功能,速率可达1600Mbytes,内存16GB(颗粒焊装),集成32Lane PCI Expressv3.0接口,最多支持4个PCIE Root Complex。
国产JM7200 GPU,是长沙景嘉微公司推出的第三代具有完全自主知识产权的图形处理芯片,是一款具有高可靠性的高性能图形处理芯片(GPU),能够高效的完成2D、3D图形加速功能。支持PCIE2.0x16、4K超高清显示、4路独立图形显示、十屏同时输出(4路HDMI 1.4或DVI,2路VGA,2路LVDS,2路DVO)和高清解码功能(H246、MPEG4、MPEG2、VP8等)。片上最大可集成4GB的DDR3存储器,提供了多种丰富的外设接口。支持四路输入多格式外视频在图形上进行开窗、缩放、旋转以及叠加显示。支持国产CPU和国产操作系统平台。
如图2所示,PCIE3.0 Switch PM8541符合PCI Express Gen3规范,支持多达96个lanes,48个ports,24个交换分区以及48个非透明桥NTBs。国产FT1500A-16处理器作为RC连接到PCIE 3.0 Switch PM8541的Upstream端口(端口0),包括FPGA在内的其他设备作为国产FT1500A-16处理器的EP,连接在Downstream端口,它可以高速访问同一交换分区的EP设备EP1、EP2、EP3以及扩展的PCIE3.0X16;JM7200的PCIE接口可以拆成两个X8接口,一个作ROOT,直接与Virtex-7 FPGA相连,获取需要进行逻辑计算和图形加速的数据;另一个作为FT1500A-16的EP设备,负责处理器的高清视频显示。
如图3所示,VIRTEX-7 FPGA支持PCIE3.0X8,支持多达96路高速GTH接口,单路速率可达28Gb/s,其中GTH可以支持PCIE3.0,40G(XLAUI)以及SRIO等应用。对输入的40G和SRIOX4,分为两个冗余备份的通过进行处理。一个通道是,直接用VIRTEX-7 FPGA的PCIE3.0接口处理高速大数据流,前提是先将输入的40G和SRIO X4转换成PCIE3.0的数据包;另一个通道是,用VIRTEX-7 FPGA的高速接口GTH直接接收40G和SRIO X4,再进行缓存处理。
BMC管理芯片LPC2148,是一款ARM7 TDMI-S CPU微处理器,并带有32KB和512KB嵌入的高速Flash存储器,支持IPMI2.0标准协议,支持iKVM功能,可通过IPMI命令控制刀片开关电以及上报刀片在位信息,支持远程更新操作系统及应用软件,支持本地启动远程系统镜像文件的功能。如图4所示,BMC模块LPC2148通过两路主从I2C总线与VPX总线相连,通过UART与FT1500A-16处理器相连,受FT1500A-16处理器的管控。通过I2C总线与温度传感器和电压控制器芯片相连,可以实现对刀片装置电流、电压、主芯片温度的实时监控。
如图5所示,为FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据逻辑流程图,具体的实施步骤如下:
步骤一,PCIE3.0 Switch PM8541下,FT1500A-16处理器作为ROOT,Virtex-7 FPGA被设置为EP,JM7200GPU既可以作CPU的EP,也可以根据需要,被设置为Virtex-7FPGA的ROOT;
步骤二,FT1500A-16处理器通过PCIE3.0Switch PM8541对Virtex-7 FPGA进行配置,对输入的40G和SRIO X4,分为两个冗余备份的通道进行处理;
步骤三,FT1500A-16处理器通过对Virtex-7 FPGA预处理数据的分析,命令JM7200GPU直接取走其中与图形计算和加速相关的数据,该部分数据不再经过PCIE3.0 SwitchPM8541;
步骤四,JM7200 GPU从FT1500A-16处理器取走需要进行图形显示的数据,送外部显示接口;
步骤五,FT1500A-16处理器通过LPC2148实时监控数据处理的全过程。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种适用于VPX架构的GPU刀片装置,其特征在于,包括FT1500A-16处理器、JM7200GPU、Virtex-7 FPGA、PCIE3.0 Switch PM8541;其中,FT1500A-16处理器用于负责数据流的管控和调度;JM7200用于负责逻辑计算和2D/3D图形显示处理;Virtex-7FPGA用于对输入的高速数据流进行缓存和预处理,然后通过高速PCIE3.0 Switch PM8541进行数据流在FT1500A-16处理器和JM7200之间的交换;JM7200的PCIE接口可拆成两个X8接口,一个作ROOT,直接与Virtex-7 FPGA相连,获取需要进行逻辑计算和图形加速的数据,另一个作为FT1500A-16处理器的EP设备,负责FT1500A-16处理器的高清视频显示。
2.如权利要求1所述的装置,其特征在于,还包括BMC管理芯片,FT1500A-16处理器还用于通过BMC管理芯片进行刀片装置的BMC健康管理。
3.如权利要求2所述的装置,其特征在于,所述BMC管理芯片为LPC2148。
4.如权利要求3所述的装置,其特征在于,LPC2148通过两路主从I2C总线与VPX总线相连,通过UART与FT1500A-16处理器相连,受FT1500A-16处理器的管控。
5.如权利要求4所述的装置,其特征在于,LPC2148还通过I2C总线与一温度传感器和一电压控制器芯片相连,以实现对刀片装置电流、电压、主芯片温度的实时监控。
6.如权利要求5所述的装置,其特征在于,所述GPU刀片装置可同时处理40G、SRIO X4共2路的数据流。
7.一种如权利要求6所述的装置实现FT1500A-16处理器和JM7200 GPU协作适配处理高速高带宽的数据的方法,其特征在于,包括以下步骤:
步骤一,PCIE3.0 Switch PM8541下,FT1500A-16处理器作为ROOT,Virtex-7 FPGA被设置为EP,JM7200 GPU既作CPU的EP,也可被设置为Virtex-7 FPGA的ROOT;
步骤二,FT1500A-16处理器通过PCIE3.0 Switch PM8541对Virtex-7 FPGA进行配置,对输入的40G和SRIO X4,分为两个冗余备份的通道进行处理;
步骤三,FT1500A-16处理器通过对Virtex-7 FPGA预处理数据的分析,命令JM7200 GPU直接取走其中与图形计算和加速相关的数据,该部分数据不再经过PCIE3.0 SwitchPM8541;
步骤四,JM7200 GPU从FT1500A-16处理器取走需要进行图形显示的数据,送外部显示接口;
步骤五,FT1500A-16处理器通过LPC2148实时监控数据处理的全过程。
8.如权利要求7所述的方法,其特征在于,步骤二FT1500A-16处理器对输入的40G和SRIO X4,分为两个冗余备份的通道进行处理时,一个通道是,直接用VIRTEX-7 FPGA的PCIE3.0接口处理数据流,前提是先将输入的40G和SRIO X4转换成PCIE3.0的数据包;另一个通道是,用VIRTEX-7 FPGA的高速接口GTH直接接收40G和SRIO X4,再进行缓存处理。
CN201911125989.8A 2019-11-18 2019-11-18 一种适用于vpx架构的gpu刀片装置 Active CN111221771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911125989.8A CN111221771B (zh) 2019-11-18 2019-11-18 一种适用于vpx架构的gpu刀片装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911125989.8A CN111221771B (zh) 2019-11-18 2019-11-18 一种适用于vpx架构的gpu刀片装置

Publications (2)

Publication Number Publication Date
CN111221771A true CN111221771A (zh) 2020-06-02
CN111221771B CN111221771B (zh) 2023-04-28

Family

ID=70810192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911125989.8A Active CN111221771B (zh) 2019-11-18 2019-11-18 一种适用于vpx架构的gpu刀片装置

Country Status (1)

Country Link
CN (1) CN111221771B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060232590A1 (en) * 2004-01-28 2006-10-19 Reuven Bakalash Graphics processing and display system employing multiple graphics cores on a silicon chip of monolithic construction
CN106788950A (zh) * 2016-11-28 2017-05-31 天津津航计算技术研究所 基于vpx架构的b码对时方法
CN108307128A (zh) * 2018-03-21 2018-07-20 中国航空工业集团公司洛阳电光设备研究所 一种视频显示处理装置
CN109271330A (zh) * 2018-08-16 2019-01-25 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于综合化信息系统的通用bmc系统
CN109495751A (zh) * 2018-10-30 2019-03-19 天津津航计算技术研究所 一种基于cpu+som+fpga的混合架构主板

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060232590A1 (en) * 2004-01-28 2006-10-19 Reuven Bakalash Graphics processing and display system employing multiple graphics cores on a silicon chip of monolithic construction
CN106788950A (zh) * 2016-11-28 2017-05-31 天津津航计算技术研究所 基于vpx架构的b码对时方法
CN108307128A (zh) * 2018-03-21 2018-07-20 中国航空工业集团公司洛阳电光设备研究所 一种视频显示处理装置
CN109271330A (zh) * 2018-08-16 2019-01-25 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于综合化信息系统的通用bmc系统
CN109495751A (zh) * 2018-10-30 2019-03-19 天津津航计算技术研究所 一种基于cpu+som+fpga的混合架构主板

Also Published As

Publication number Publication date
CN111221771B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN102611869A (zh) 一种面向输出的多屏拼接系统网络传输技术
KR20170033806A (ko) Av 플레이 디바이스, 데이터 디스플레이 방법 및 저장 매체
CN102970546B (zh) 视频编码单元及其实现方法
US9563582B2 (en) Modular device, system, and method for reconfigurable data distribution
KR20160079365A (ko) 다중 디스플레이 시스템을 구성하는 디스플레이 장치 및 그 제어 방법
CN105007307A (zh) 一种存储控制方法和系统
CN110971855A (zh) 基于USB Type-C接口的DVR系统及方法
CN104717466A (zh) 一种基于fpga的hd-sdi视频处理板
WO2019010836A1 (zh) 触摸响应方法、芯片及智能设备
CN105608039A (zh) 一种基于fifo和arinc659总线的双余度计算机周期控制系统及方法
CN103813125B (zh) 一种多路数字图像处理系统
US20130155078A1 (en) Configurable graphics control and monitoring
CN113038138A (zh) 一种嵌入式图像处理及回传系统
CN203708370U (zh) 一种多路数字图像处理系统
CN104954748A (zh) 一种视频处理架构
CN110852931B (zh) 一种适用于vpx架构的高性能cpu刀片装置
CN111221771A (zh) 一种适用于vpx架构的gpu刀片装置
CN101969552B (zh) 一种视频数据并行处理系统及其方法
Yu et al. Image processing and return system based on zynq
CN115237830A (zh) 一种基于龙芯2k的vpx管理控制仲裁装置及方法
CN213186290U (zh) 一种超高清无缝拼接矩阵处理器
CN203522918U (zh) 一种hdmi转pcie的采集卡
CN204498285U (zh) 一种4g-wifi高清网络视频服务器
CN105120211A (zh) 一种视频数据传输方法
CN202488592U (zh) 一种实时高清视频发送器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant