CN109710229A

CN109710229A - 一种面向gpu芯片图形管线单元架构验证方法及平台

Info

Publication number: CN109710229A
Application number: CN201811510326.3A
Authority: CN
Inventors: 吴晓成; 张少锋; 姜丽云; 陈佳; 楼晓强; 郑新建
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-03
Anticipated expiration: 2038-12-11
Also published as: CN109710229B

Abstract

本发明涉及计算机硬件验证技术领域，尤其涉及一种面向图形处理单元GPU芯片图形管线单元架构验证方法及平台本发明采用的方法是搭建基于SystemC的图形处理单元GPU芯片TLM虚拟原型平台(该虚拟原型验证平台包括主机、ROM、显示器、DDR0、DDR1和GPU)，通过仿真的方式对图形管线单元架构涉及到的软硬件协同配合、寄存器定义和硬件结构进行验证，改进了传统的以文档为载体的架构分析，提高了系统架构设计、验证的效率，加快了GPU芯片后续阶段的工作进度。

Description

一种面向GPU芯片图形管线单元架构验证方法及平台

技术领域

本发明涉及计算机硬件验证技术领域，尤其涉及一种基于SystemC TLM虚拟原型的GPU架构验证平台。

背景技术

随着图形化应用的不断增加，早期单靠CPU进行图形绘制的解决方案已经难以满足成绩和技术增长的图形处理需求，图形处理器(Graphic Processing Unit，GPU)应运而生。从1999年Nvidia发布第一款GPU产品至今，GPU技术的发展主要经历了固定功能流水线阶段、分离染色器架构阶段、统一染色器架构阶段，其图形处理能力不断提升，应用领域也从最初的图形绘制逐步扩展到通用计算领域。GPU流水线高速、并行的特征和灵活的可编程能力，为图形处理和通用并行计算提供了良好的运行平台。

对于类似于GPU这样的超大规模集成电路芯片的软/硬件架构、设计，如何完成从传统的规格说明书文档到硬件RTL电路实现的跨越，成为工程实践过程中一个重要的、急待解决的问题。为了缩短从系统架构文档到硬件RTL电路实现之间的巨大鸿沟，必须要在这两个阶段之间采用一种高级建模语言对整个电路系统的功能、架构进行描述，同时又不能陷入硬件电路繁杂的信号时序、门电路之中。

事务级模型(Transaction Level Models，TLM)是比RTL级更高的抽象级别，在此级别可以根据系统的初始功能规范快速建立硬件的可执行规范、快速创建系统模型。通过在其中加入时序细节，可以评估系统的性能、探索系统的结构。

SystemC是OSCI(Open SystemC Initiative)组织制定和维护的一种基于C++的建模平台，它完全是用C++语言编写的，由经过精心设计的C++类库和仿真内核构成，支持门级、RTL级、系统级等各个抽象层次上硬件的建模和仿真，而且是开放源代码的。SystemC支持硬件/软件协同设计，能够描述由硬件和软件组成的复杂系统的结构，支持在C++环境下对硬件、软件和接口的描述。用SystemC可以实现功能模块、通信模块、软件模块和硬件模块在各种系统级层次上的抽象，其引进的端口和信号的数据类型描述、时钟和延时的概念，正是基于要把软硬件的描述统一到一种建模语言的思想。用SystemC可以快速有效地建立软件算法的精确模型、硬件的体系结构、SoC的接口和系统级的设计，并对设计进行仿真、验证和优化(用SystemC建模，其仿真速度一般是用VHDL或Verilog建模的10～100倍)。SystemC最基本的结构单元是模块(module)，模块可以包含其他模块或过程(process)和方法(method)，过程如同C语言中的函数用以实现某一行为。模块通过接口(port)与其他模块通信，接口之间用信号(Signal)相连。一个完整的系统由多个模块组成，每个模块包含一个或多个过程和方法，过程是平行工作的，它们之间通过信号来通信。时钟Clock是一种特殊的信号在仿真时用以控制时序及使过程同步。基于SystemC的设计方法支持设计者在不同层次上建模，减小了代码量和工作量，提供了更高的工作效率，SystemC与传统的方法相比可以更为高效快速地进行仿真。

发明内容

基于背景技术中存在的问题，本发明提供的一种基于SystemC TLM虚拟原型的GPU架构验证平台，能够借助GPU的TLM虚拟原型平台，通过仿真的方式来证明GPU架构的软硬件协同配合、硬件模块间的交互是否符合预期，改进了以往以文档为载体的硬件架构分析，加快了GPU芯片RTL开发和验证工作。

第一方面，本发明提供了一种面向图形处理单元GPU芯片图形管线单元架构验证方法，所述方法包括：采用SystemC语言和事务级建模TLM方法，对图形处理单元GPU芯片图形管线单元架构涉及到的软硬件协同配合、寄存器定义和硬件结构进行事务级建模，搭建GPU芯片图形管线单元的架构验证平台。

可选的，所述方法应用在面向GPU芯片图形管线单元架构验证平台，所述平台包括主机接口单元(1)、图形管线单元(2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)，所述方法还包括：

所述主机接口单元(1)接收主机发送的OpenGL函数命令，通过对所述OpenGL函数命令进行解析获得图形命令，将所述图形命令发送至所述图形管线单元(2)；

所述图形管线单元(2)根据所述图形命令对图形数据进行计算，并将需要在屏幕上显示的图形数据发送至所述AXI总线交叉开关(6)；

所述AXI总线交叉开关(6)将来自所述显示控制单元(5)、所述主机接口单元(1)和所述图形管线单元(2)的AXI总线访问，转化为对所述第一DDR控制器(7)、所述第二DDR控制器(8)的寄存器配置和数据通道访问；

所述显示控制单元(5)通过访问所述AXI总线交叉开关(6)，获取屏幕待显示的数据，并对所述数据进行显示；

所述第一DDR控制器(7)和第二DDR控制器(8)将来自所述AXI总线交叉开关(6)的所述寄存器配置和数据通道访问，转化为DDR存储器的接口读写访问；

所述帧缓冲cache单元(3)内部存储着访问GPU外部DDR0和DDR1的帧缓冲区数据镜像；

所述纹理cache单元(4)内部存储着访问GPU外部DDR0和DDR1的纹理缓冲区数据镜像。

可选的，所述方法还包括：

通过在所述平台中进行功能仿真，根据仿真结果来判断图形管线单元架构中的软件和硬件是否能够协同配合、寄存器定义是否合理正确、硬件结构是否能够实现其算法的功能要求。

第二方面，本发明提供了一种面向图形处理单元GPU芯片图形管线单元架构验证平台，其特征在于，所述平台包括主机接口单元(1)、图形管线单元(2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)。

可选的，所述主机接口单元(1)包括了host2PcieCfgExport端口，该端口与Host的host2PcieCfgPort端口进行相连，端口之间通过PcieCfgIf接口进行通信；

所述主机接口单元(1)包括了pcie2HostMemPort端口，该端口与Host的pcie2HostMemExport端口进行相连，端口之间通过Pcie2HostIf接口进行通信；

所述主机接口单元(1)包括了cmd2RomPort端口，该端口与ROM的cmd2RomExport端口进行相连，端口之间通过RomReadIf接口进行通信；

所述主机接口单元(1)包括了cmd2SguGraphPort端口，该端口与所述图形管线单元(2)的cmd2SguGraphExport端口进行相连，端口之间通过Cmd2SguGraphIf接口进行通信；

所述主机接口单元(1)包括了rou2PcieIntExport端口、spmu2PcieIntExport端口、jsu2PcieIntExport端口、geu2PcieIntExport端口，分别依次与所述图形管线单元(2)的rou2PcieIntPort端口、spmu2PcieIntPort端口、jsu2PcieIntPort端口、geu2PcieIntPort端口进行相连，上述端口之间通过PcieBackendIntIf接口进行通信；

所述主机接口单元(1)包括了archRegPort端口，该端口与所述图形管线单元(2)的archRegExport端口进行相连，端口之间通过PcieBackendRegIf接口进行通信；

所述主机接口单元(1)包括了dma2AxiPort端口、cmd2AxiPort端口、cmdIcache2AxiPort端口、cmdDcache2AxiPort端口，上述端口分别依次与AXI总线交叉开关(6)的dma2AxiExport端口、cmd2AxiExport端口、cmdIcache2AxiExport端口、cmdDcache2AxiExport端口进行相连，端口之间通过AxiMasterIf接口进行通信；

所述主机接口单元(1)包括了dcArchRegPort端口，该端口与显示控制单元5的dcArchRegExport端口进行相连，端口之间通过PcieBackendRegIf接口进行通信。

可选的，所述图形管线单元端口转换(2)包括了usa2AxiPort端口，该端口与AXI总线交叉开关(6)的usa2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

所述图形管线单元端口转换(2)包括了frameCachePort端口，该端口与帧缓冲cache单元(3)的frameCacheExport端口相连，端口之间通过FrameCacheIf接口进行通信；

所述图形管线单元端口转换(2)包括了texCachePort端口，该端口与纹理缓冲cache单元的texCacheExport端口相连，端口之间通过TextureCacheIf接口进行通信。

可选的，所述显示控制单元(5)包括了dc2AxiPort端口，该端口与AXI总线交叉开关(6)的dc2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

所述显示控制单元(5)包括了displayPort端口，该端口与Display的displayExport端口相连，端口之间通过DisplayIf接口进行通信。

可选的，所述帧缓冲cache单元(3)包括了pCache2AxiPort端口，该端口与AXI总线交叉开关(6)的pCache2AxiExport端口进行相连，上述端口之间通过AxiMasterIf接口进行通信。

可选的，所述纹理cache单元(4)包括了tCache2AxiPort端口，该端口与AXI总线交叉开关(6)的tCache2AxiExport端口进行相连，端口之间通过AxiMasterIf接口进行通信。

可选的，所述第一DDR控制器(7)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[0]端口相连，端口之间通过AxiSlaveIf接口进行通信；

所述第一DDR控制器(7)包括了ddrPort端口，该端口与DDR0的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。

可选的，所述第二DDR控制器(8)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[1]端口相连，端口之间通过AxiSlaveIf接口进行通信；

所述第二DDR控制器(8)包括了ddrPort端口，该端口与DDR1的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。

综上所述，本发明的技术效果是：

1、采用SystemC按照模块划分对GPU的架构进行TLM建模，可以通过建模形成的虚拟原型平台，对架构涉及到的软硬件划分、寄存器定义和硬件结构进行验证。

2、改进了传统的以文档为载体的架构分析，提高了系统架构的效率，加快了GPU芯片后续阶段的进度。

附图说明

图1是本发明SystemC TLM虚拟原型的GPU架构验证平台。

具体实施方式

具体的，本发明提供的一种基于SystemC TLM虚拟原型的GPU架构验证平台，采用SystemC语言和TLM(Transaction Level Modeling，事务级建模)方法，对GPU(GraphProcess Unit，图形处理单元)芯片的架构进行事务级建模；

所述的一种基于SystemC TLM虚拟原型的GPU架构验证平台，包括HIU，图形管线单元，AXI总线交叉开关，显示控制单元，DDR控制器0和DDR控制器1模块；

所述HIU模块实现了将来自主机Host的OpenGL函数命令解析分类为图形绘制命令、图形功能命令和图形寄存器资源访问命令，并将这三类命令发送给图形管线单元模块；

所述HIU模块实现了将来自主机Host的图形数据传递给图形管线单元模块或AXI总线交叉开关模块；

所述图形管线单元实现了按照来自于HIU模块的图形命令对图形数据进行计算，并将需要在屏幕上显示的图形数据发送给AXI总线交叉开关；

所述AXI总线交叉开关实现了将来自AXI主设备(显示控制单元、HIU和图形管线单元)的AXI总线访问，转化为对AXI从设备(DDR控制器0、DDR控制器1)的寄存器空间或mem空间访问；

所述显示控制单元实现了通过访问AXI总线交叉开关模块获取屏幕待显示的数据，并将数据发送给Display进行显示；

所述DDR控制器0、DDR控制器1实现了将来自AXI总线的读写操作访问，转化为DDR存储器的接口读写访问；

所述HIU包括了host2PcieCfgExport端口，其与Host的host2PcieCfgPort端口进行相连，端口之间通过PcieCfgIf接口进行通信。其中，PcieCfgIf接口提供了Write_Architect_Register、Read_Architect_Register服务；

所述HIU包括了pcie2HostMemPort端口，其与Host的pcie2HostMemExport端口进行相连，端口之间通过Pcie2HostIf接口进行通信。其中，Pcie2HostIf接口提供了Write_Host_Mem、Read_Host_Mem服务；

所述HIU包括了cmd2RomPort端口，其与ROM的cmd2RomExport端口进行相连，端口之间通过RomReadIf接口进行通信。其中，RomReadIf接口提供了Read服务；

所述HIU包括了cmd2SguGraphPort端口，其与图形管线单元的cmd2SguGraphExport端口进行相连，端口之间通过cmd2SguGraphIf接口进行通信。其中，cmd2SguGraphIf接口提供了Get_Graph_Draw_Service、Get_Graph_Func_Service、Get_Graph_Reg_Service、Put_Graph_Draw_Command、Put_Graph_Function_Code、Put_Graph_Reg_Access、Set_Cmd_Status服务；

所述HIU包括了cmd2SpmuPort端口，其与图形管线单元的cmd2SpmuExport端口进行相连，端口之间通过cmd2SpmuIf接口进行通信。其中，cmd2SpmuIf接口提供了Report_Exception服务；

所述HIU包括了rou2PcieIntExport端口、spmu2PcieIntExport端口、jsu2PcieIntExport端口、geu2PcieIntExport端口，分别与图形管线单元的rou2PcieIntPort端口、spmu2PcieIntPort端口、jsu2PcieIntPort端口、geu2PcieIntPort端口进行相连，这些端口之间统一通过PcieBackendIntIf接口进行通信。其中，PcieBackendIntIf接口提供了Report_Interrupt服务；

所述HIU包括了archRegPort端口，其与图形管线单元的archRegExport端口进行相连，这些端口之间统一通过PcieBackendRegIf接口进行通信。其中，PcieBackendRegIf接口提供了Arch_Reg_Read、Arch_Reg_Write服务；

所述HIU包括了dma2AxiPort端口、cmd2AxiPort端口、cmdIcache2AxiPort端口、cmdDcache2AxiPort端口，分别与AXI总线交叉开关的dma2AxiExport端口、cmd2AxiExport端口、cmdIcache2AxiExport端口、cmdDcache2AxiExport端口进行相连，这些端口之间统一通过AxiMasterIf接口进行通信。其中，AxiMasterIf接口提供了Request_Bus、Release_Bus、Read_Bus、Write_Bus服务；

所述HIU包括了dcArchRegPort端口，其与显示控制单元的dcArchRegExport端口进行相连，端口之间通过PcieBackendRegIf接口进行通信。其中，PcieBackendRegIf接口提供了Arch_Reg_Read、Arch_Reg_Write服务；

所述显示控制单元包括了dc2AxiPort端口，其与AXI总线交叉开关的dc2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信。其中，AxiMasterIf接口提供了Request_Bus、Release_Bus、Read_Bus、Write_Bus服务；

所述显示控制单元包括了displayPort端口，其与Display的displayExport端口相连，端口之间通过DisplayIf接口进行通信。其中，DisplayIf接口提供了Refresh_Screen服务；

所述DDR控制器0包括了axiSlaveExport端口，其与AXI总线交叉开关的axiSlavePort[0]端口相连，端口之间通过AxiSlaveIf接口进行通信。其中，AxiSlaveIf接口提供了Read_Slave、Write_Slave服务；

所述DDR控制器0包括了ddrPort端口，其与DDR0的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。其中，DdrAccessIf接口提供了Read、Write服务；

所述DDR控制器1包括了axiSlaveExport端口，其与AXI总线交叉开关的axiSlavePort[1]端口相连，端口之间通过AxiSlaveIf接口进行通信。其中，AxiSlaveIf接口提供了Read_Slave、Write_Slave服务；

所述DDR控制器1包括了ddrPort端口，其与DDR1的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。其中，DdrAccessIf接口提供了Read、Write服务；

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向图形处理单元GPU芯片图形管线单元架构验证方法，其特征在于，所述方法包括：采用SystemC语言和事务级建模TLM方法，对图形处理单元GPU芯片图形管线单元架构涉及到的软硬件协同配合、寄存器定义和硬件结构进行事务级建模，搭建GPU芯片图形管线单元的架构验证平台。

2.根据权利要求1所述的方法，其特征在于：所述方法应用在面向GPU芯片图形管线单元架构验证平台，所述平台包括主机接口单元(1)、图形管线单元(2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种面向图形处理单元GPU芯片图形管线单元架构验证平台，其特征在于，所述平台包括主机接口单元(1)、图形管线单元(2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)。

5.根据权利要求4所述的平台，其特征在于：

所述主机接口单元(1)包括了host2PcieCfgExport端口，该端口与Host的host2PcieCfgPort端口进行相连，端口之间通过PcieCfgIf接口进行通信；

6.根据权利要求4所述的平台，其特征在于：

所述图形管线单元端口转换(2)包括了usa2AxiPort端口，该端口与AXI总线交叉开关(6)的usa2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

7.根据权利要求4所述的平台，其特征在于：

所述显示控制单元(5)包括了dc2AxiPort端口，该端口与AXI总线交叉开关(6)的dc2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

8.根据权利要求4所述的平台，其特征在于：

所述帧缓冲cache单元(3)包括了pCache2AxiPort端口，该端口与AXI总线交叉开关(6)的pCache2AxiExport端口进行相连，上述端口之间通过AxiMasterIf接口进行通信。

9.根据权利要求4所述的平台，其特征在于：

所述纹理cache单元(4)包括了tCache2AxiPort端口，该端口与AXI总线交叉开关(6)的tCache2AxiExport端口进行相连，端口之间通过AxiMasterIf接口进行通信。

10.根据权利要求4所述的平台，其特征在于：

所述第一DDR控制器(7)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[0]端口相连，端口之间通过AxiSlaveIf接口进行通信；