CN109711003A

CN109711003A - 一种面向gpu芯片图形管线单元功能仿真方法及平台

Info

Publication number: CN109711003A
Application number: CN201811510313.6A
Authority: CN
Inventors: 吴晓成; 陈佳; 张少锋; 姜丽云; 楼晓强; 韩立敏
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-03

Abstract

本发明涉及计算机硬件验证技术领域，尤其涉及一种面向图形处理单元GPU芯片图形管线单元功能仿真方法及平台。本发明采用的方法是搭建基于SystemC的图形处理单元GPU芯片TLM虚拟原型平台(该虚拟原型验证平台包括主机、ROM、显示器、DDR0、DDR1和GPU)，通过将GPU图形管线单元的TLM事务级端口转化为硬件信号级端口，把图形管线单元的RTL代码嵌入到TLM虚拟原型平台中，对GPU的RTL进行模块级、系统级功能仿真。这样就通过TLM虚拟原型平台解决了GPU模块级、系统级两个RTL仿真环境模型行为不统一问题，提高了仿真环境的复用性，加快了GPU芯片RTL开发和验证工作。

Description

一种面向GPU芯片图形管线单元功能仿真方法及平台

技术领域

本发明涉及计算机硬件验证技术领域，尤其涉及一种基于SystemC TLM虚拟原型的GPU功能仿真平台。

背景技术

随着图形化应用的不断增加，早期单靠CPU进行图形绘制的解决方案已经难以满足成绩和技术增长的图形处理需求，图形处理器(Graphic Processing Unit，GPU)应运而生。从1999年Nvidia发布第一款GPU产品至今，GPU技术的发展主要经历了固定功能流水线阶段、分离染色器架构阶段、统一染色器架构阶段，其图形处理能力不断提升，应用领域也从最初的图形绘制逐步扩展到通用计算领域。GPU流水线高速、并行的特征和灵活的可编程能力，为图形处理和通用并行计算提供了良好的运行平台。

对于类似于GPU这样的超大规模集成电路芯片的软/硬件架构、设计，如何完成从传统的规格说明书文档到硬件RTL电路实现的跨越，成为工程实践过程中一个重要的、急待解决的问题。为了缩短从系统架构文档到硬件RTL电路实现之间的巨大鸿沟，必须要在这两个阶段之间采用一种高级建模语言对整个电路系统的功能、架构进行描述，同时又不能陷入硬件电路繁杂的信号时序、门电路之中。

事务级模型(Transaction Level Models，TLM)是比RTL级更高的抽象级别，在此级别可以根据系统的初始功能规范快速建立硬件的可执行规范、快速创建系统模型。通过在其中加入时序细节，可以评估系统的性能、探索系统的结构。

SystemC是OSCI(Open SystemC Initiative)组织制定和维护的一种基于C++的建模平台，它完全是用C++语言编写的，由经过精心设计的C++类库和仿真内核构成，支持门级、RTL级、系统级等各个抽象层次上硬件的建模和仿真，而且是开放源代码的。SystemC支持硬件/软件协同设计，能够描述由硬件和软件组成的复杂系统的结构，支持在C++环境下对硬件、软件和接口的描述。用SystemC可以实现功能模块、通信模块、软件模块和硬件模块在各种系统级层次上的抽象，其引进的端口和信号的数据类型描述、时钟和延时的概念，正是基于要把软硬件的描述统一到一种建模语言的思想。用SystemC可以快速有效地建立软件算法的精确模型、硬件的体系结构、SoC的接口和系统级的设计，并对设计进行仿真、验证和优化(用SystemC建模，其仿真速度一般是用VHDL或Verilog建模的10～100倍)。SystemC最基本的结构单元是模块(module)，模块可以包含其他模块或过程(process)和方法(method)，过程如同C语言中的函数用以实现某一行为。模块通过接口(port)与其他模块通信，接口之间用信号(Signal)相连。一个完整的系统由多个模块组成，每个模块包含一个或多个过程和方法，过程是平行工作的，它们之间通过信号来通信。时钟Clock是一种特殊的信号在仿真时用以控制时序及使过程同步。基于SystemC的设计方法支持设计者在不同层次上建模，减小了代码量和工作量，提供了更高的工作效率，SystemC与传统的方法相比可以更为高效快速地进行仿真。

发明内容

基于背景技术中存在的问题，本发明提供的一种基于SystemC TLM虚拟原型的GPU功能仿真平台，能够借助GPU的TLM虚拟原型平台、以最小的开发代价迅速获得GPU的RTL模块级和系统级仿真平台，解决了GPU的模块级和系统级RTL仿真平台不易搭建的问题，可以快速地对GPU模块级和系统级进行RTL仿真。这样便于协调软件人员、硬件模块RTL开发人员和仿真验证人员之间的工作，减少不必要的迭代。

第一方面，本发明提供一种面向图形处理单元GPU芯片图形管线单元功能仿真方法，方法包括：

采用SystemC语言和事务级建模TLM方法，对图形处理单元GPU芯片的功能进行建模，以便搭建GPU芯片图形管线单元的功能仿真平台。

可选的，所述仿真平台包括，主机接口单元(1)、图形管线单元端口转换(2)、图形管线TLM单元(2-1)、图形管线RTL单元(2-2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)，所述方法还包括：

所述主机接口单元(1)接收主机发送的OpenGL函数命令，通过对所述OpenGL函数命令进行解析获得图形命令，将所述图形命令发送至所述图形管线单元(2)；

所述图形管线单元端口转换(2)根据所述外部的TLM端口输入，将其转换为图形管线RTL单元(2-2)的硬件信号端口输入，并将图形管线RTL单元(2-2)的硬件信号端口输出转换为TLM端口输出；

所述图形管线TLM单元(2-1)根据所述图形命令对图形数据进行计算，并将需要在屏幕上显示的图形数据发送至所述AXI总线交叉开关(6)；

所述图形管线RTL单元(2-2)根据所述图形命令对图形数据进行计算，并将需要在屏幕上显示的图形数据发送至所述AXI总线交叉开关(6)；

所述AXI总线交叉开关(6)将来自所述显示控制单元(5)、所述主机接口单元(1)和所述图形管线单元(2)的AXI总线访问，转化为对所述第一DDR控制器(7)、所述第二DDR控制器(8)的寄存器配置和数据通道访问；

所述显示控制单元(5)通过访问所述AXI总线交叉开关(6)，获取屏幕待显示的数据，并对所述数据进行显示；

所述第一DDR控制器(7)和第二DDR控制器(8)将来自所述AXI总线交叉开关(6)的所述寄存器配置和数据通道访问，转化为DDR存储器的接口读写访问；

所述帧缓冲cache单元(3)内部存储着访问GPU外部DDR0和DDR1的帧缓冲区数据镜像；

所述纹理cache单元(4)内部存储着访问GPU外部DDR0和DDR1的纹理缓冲区数据镜像。

可选的，在所述平台中依次例化图形管线TLM单元(2-1)和图形管线RTL单元(2-2)并分两次运行，比较两次运行之后第一DDR控制器(7)和第二DDR控制器(8)中的数据，就可判定图形管线RTL单元(2-2)与图形管线TLM单元(2-1)的功能是否一致。

第二方面，本发明提供一种面向图形处理单元GPU芯片图形管线单元功能仿真平台，其特征在于：

所述仿真平台包括主机接口单元(1)、图形管线单元端口转换(2)、图形管线TLM单元(2-1)、图形管线RTL单元(2-2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)。

可选的，所述主机接口单元(1)包括了host2PcieCfgExport端口，该端口与Host的host2PcieCfgPort端口进行相连，端口之间通过PcieCfgIf接口进行通信；

所述主机接口单元(1)包括了pcie2HostMemPort端口，该端口与Host的pcie2HostMemExport端口进行相连，端口之间通过Pcie2HostIf接口进行通信；

所述主机接口单元(1)包括了cmd2RomPort端口，该端口与ROM的cmd2RomExport端口进行相连，端口之间通过RomReadIf接口进行通信；

所述主机接口单元(1)包括了cmd2SguGraphPort端口，该端口与所述图形管线单元端口转换(2)的cmd2SguGraphExport端口进行相连，端口之间通过Cmd2SguGraphIf接口进行通信；

所述主机接口单元(1)包括了rou2PcieIntExport端口、spmu2PcieIntExport端口、jsu2PcieIntExport端口、geu2PcieIntExport端口，分别依次与所述图形管线单元端口转换(2)的rou2PcieIntPort端口、spmu2PcieIntPort端口、jsu2PcieIntPort端口、geu2PcieIntPort端口进行相连，上述端口之间通过PcieBackendIntIf接口进行通信；

所述主机接口单元(1)包括了archRegPort端口，该端口与所述图形管线单元端口转换(2)的archRegExport端口进行相连，端口之间通过PcieBackendRegIf接口进行通信；

所述主机接口单元(1)包括了dma2AxiPort端口、cmd2AxiPort端口、cmdIcache2AxiPort端口、cmdDcache2AxiPort端口，上述端口分别依次与AXI总线交叉开关(6)的dma2AxiExport端口、cmd2AxiExport端口、cmdIcache2AxiExport端口、cmdDcache2AxiExport端口进行相连，端口之间通过AxiMasterIf接口进行通信；

所述主机接口单元(1)包括了dcArchRegPort端口，该端口与显示控制单元(5)的dcArchRegExport端口进行相连，端口之间通过PcieBackendRegIf接口进行通信。

可选的，所述图形管线单元端口转换(2)包括了usa2AxiPort端口，该端口与AXI总线交叉开关(6)的usa2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

所述图形管线单元端口转换(2)包括了frameCachePort端口，该端口与帧缓冲cache单元(3)的frameCacheExport端口相连，端口之间通过FrameCacheIf接口进行通信；

所述图形管线单元端口转换(2)包括了texCachePort端口，该端口与纹理缓冲cache单元的texCacheExport端口相连，端口之间通过TextureCacheIf接口进行通信。

可选的，所述显示控制单元(5)包括了dc2AxiPort端口，该端口与AXI总线交叉开关(6)的dc2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

所述显示控制单元(5)包括了displayPort端口，该端口与Display的displayExport端口相连，端口之间通过DisplayIf接口进行通信。

可选的，所述帧缓冲cache单元(3)包括了pCache2AxiPort端口，该端口与AXI总线交叉开关(6)的pCache2AxiExport端口进行相连，上述端口之间通过AxiMasterIf接口进行通信。

可选的，所述纹理cache单元(4)包括了tCache2AxiPort端口，该端口与AXI总线交叉开关(6)的tCache2AxiExport端口进行相连，端口之间通过AxiMasterIf接口进行通信。

可选的，所述第一DDR控制器(7)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[0]端口相连，端口之间通过AxiSlaveIf接口进行通信；

所述第一DDR控制器(7)包括了ddrPort端口，该端口与DDR0的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。

可选的，所述第二DDR控制器(8)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[1]端口相连，端口之间通过AxiSlaveIf接口进行通信；

所述第二DDR控制器(8)包括了ddrPort端口，该端口与DDR1的ddrExport。

综上所述，本发明的技术效果是：

1、采用SystemC按照模块划分对GPU的功能进行TLM建模，可以将GPU内部任何规模、任何层次的TLM模块替换成RTL代码，从而使GPU的RTL模块仿真平台可以复用GPU虚拟原型平台；

2、采用SystemC按照模块划分对GPU的功能进行TLM建模，可以将GPU的TLM模型整个替换成RTL代码，从而使GPU的RTL系统仿真平台复用GPU虚拟原型平台。

附图说明

图1是本发明GPU的SystemC TLM虚拟原型平台。

具体实施方式

实施例一

一种基于SystemC TLM虚拟原型的GPU功能仿真平台，采用SystemC语言和TLM(TransactionLevel Modeling，事务级建模)方法，对GPU(Graph Process Unit，图形处理单元)芯片的功能进行事务级建模；

所述的一种基于SystemC TLM虚拟原型的GPU功能仿真平台，包括HIU，图形管线单元，AXI总线交叉开关，显示控制单元，DDR控制器0和DDR控制器1模块；

所述HIU模块实现了将来自主机Host的OpenGL函数命令解析分类为图形绘制命令、图形功能命令和图形寄存器资源访问命令，并将这三类命令发送给图形管线单元模块；

所述HIU模块实现了将来自主机Host的图形数据传递给图形管线单元模块或AXI总线交叉开关模块；

所述图形管线单元实现了按照来自于HIU模块的图形命令对图形数据进行计算，并将需要在屏幕上显示的图形数据发送给AXI总线交叉开关；

所述AXI总线交叉开关实现了将来自AXI主设备(显示控制单元、HIU和图形管线单元)的AXI总线访问，转化为对AXI从设备(DDR控制器0、DDR控制器1)的寄存器空间或mem空间访问；

所述显示控制单元实现了通过访问AXI总线交叉开关模块获取屏幕待显示的数据，并将数据发送给Display进行显示；

所述DDR控制器0、DDR控制器1实现了将来自AXI总线的读写操作访问，转化为DDR存储器的接口读写访问；

所述HIU包括了host2PcieCfgExport端口，其与Host的host2PcieCfgPort端口进行相连，端口之间通过PcieCfgIf接口进行通信。其中，PcieCfgIf接口提供了Write_Architect_Register、Read_Architect_Register服务；

所述HIU包括了pcie2HostMemPort端口，其与Host的pcie2HostMemExport端口进行相连，端口之间通过Pcie2HostIf接口进行通信。其中，Pcie2HostIf接口提供了Write_Host_Mem、Read_Host_Mem服务；

所述HIU包括了cmd2RomPort端口，其与ROM的cmd2RomExport端口进行相连，端口之间通过RomReadIf接口进行通信。其中，RomReadIf接口提供了Read服务；

所述HIU包括了cmd2SguGraphPort端口，其与图形管线单元的cmd2SguGraphExport端口进行相连，端口之间通过cmd2SguGraphIf接口进行通信。其中，cmd2SguGraphIf接口提供了Get_Graph_Draw_Service、Get_Graph_Func_Service、Get_Graph_Reg_Service、Put_Graph_Draw_Command、Put_Graph_Function_Code、Put_Graph_Reg_Access、Set_Cmd_Status服务；

所述HIU包括了cmd2SpmuPort端口，其与图形管线单元的cmd2SpmuExport端口进行相连，端口之间通过cmd2SpmuIf接口进行通信。其中，cmd2SpmuIf接口提供了Report_Exception服务；

所述HIU包括了rou2PcieIntExport端口、spmu2PcieIntExport端口、jsu2PcieIntExport端口、geu2PcieIntExport端口，分别与图形管线单元的rou2PcieIntPort端口、spmu2PcieIntPort端口、jsu2PcieIntPort端口、geu2PcieIntPort端口进行相连，这些端口之间统一通过PcieBackendIntIf接口进行通信。其中，PcieBackendIntIf接口提供了Report_Interrupt服务；

所述HIU包括了archRegPort端口，其与图形管线单元的archRegExport端口进行相连，这些端口之间统一通过PcieBackendRegIf接口进行通信。其中，PcieBackendRegIf接口提供了Arch_Reg_Read、Arch_Reg_Write服务；

所述HIU包括了dma2AxiPort端口、cmd2AxiPort端口、cmdIcache2AxiPort端口、cmdDcache2AxiPort端口，分别与AXI总线交叉开关的dma2AxiExport端口、cmd2AxiExport端口、cmdIcache2AxiExport端口、cmdDcache2AxiExport端口进行相连，这些端口之间统一通过AxiMasterIf接口进行通信。其中，AxiMasterIf接口提供了Request_Bus、Release_Bus、Read_Bus、Write_Bus服务；

所述HIU包括了dcArchRegPort端口，其与显示控制单元的dcArchRegExport端口进行相连，端口之间通过PcieBackendRegIf接口进行通信。其中，PcieBackendRegIf接口提供了Arch_Reg_Read、Arch_Reg_Write服务；

所述显示控制单元包括了dc2AxiPort端口，其与AXI总线交叉开关的dc2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信。其中，AxiMasterIf接口提供了Request_Bus、Release_Bus、Read_Bus、Write_Bus服务；

所述显示控制单元包括了displayPort端口，其与Display的displayExport端口相连，端口之间通过DisplayIf接口进行通信。其中，DisplayIf接口提供了Refresh_Screen服务；

所述DDR控制器0包括了axiSlaveExport端口，其与AXI总线交叉开关的axiSlavePort[0]端口相连，端口之间通过AxiSlaveIf接口进行通信。其中，AxiSlaveIf接口提供了Read_Slave、Write_Slave服务；

所述DDR控制器0包括了ddrPort端口，其与DDR0的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。其中，DdrAccessIf接口提供了Read、Write服务；

所述DDR控制器1包括了axiSlaveExport端口，其与AXI总线交叉开关的axiSlavePort[1]端口相连，端口之间通过AxiSlaveIf接口进行通信。其中，AxiSlaveIf接口提供了Read_Slave、Write_Slave服务；

所述DDR控制器1包括了ddrPort端口，其与DDR1的ddrExport端口相连，端口之间通过DdrAccessIf接口进行通信。其中，DdrAccessIf接口提供了Read、Write服务。

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向图形处理单元GPU芯片图形管线单元功能仿真方法，其特征在于，方法包括：

2.根据权利要求1所述的方法，其特征在于，所述仿真平台包括，主机接口单元(1)、图形管线单元端口转换(2)、图形管线TLM单元(2-1)、图形管线RTL单元(2-2)、帧缓冲cache单元(3)、纹理cache单元(4)、显示控制单元(5)、AXI总线交叉开关(6)、第一DDR控制器(7)和第二DDR控制器(8)，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述平台中依次例化图形管线TLM单元(2-1)和图形管线RTL单元(2-2)并分两次运行，比较两次运行之后第一DDR控制器(7)和第二DDR控制器(8)中的数据，就可判定图形管线RTL单元(2-2)与图形管线TLM单元(2-1)的功能是否一致。

4.一种面向图形处理单元GPU芯片图形管线单元功能仿真平台，其特征在于：

5.根据权利要求4所述的仿真平台，其特征在于：

所述主机接口单元(1)包括了host2PcieCfgExport端口，该端口与Host的host2PcieCfgPort端口进行相连，端口之间通过PcieCfgIf接口进行通信；

6.根据权利要求4所述的仿真平台，其特征在于：

所述图形管线单元端口转换(2)包括了usa2AxiPort端口，该端口与AXI总线交叉开关(6)的usa2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

7.根据权利要求4所述的仿真平台，其特征在于：

所述显示控制单元(5)包括了dc2AxiPort端口，该端口与AXI总线交叉开关(6)的dc2AxiExport端口相连，端口之间通过AxiMasterIf接口进行通信；

8.根据权利要求4所述的仿真平台，其特征在于：

所述帧缓冲cache单元(3)包括了pCache2AxiPort端口，该端口与AXI总线交叉开关(6)的pCache2AxiExport端口进行相连，上述端口之间通过AxiMasterIf接口进行通信。

9.根据权利要求4所述的仿真平台，其特征在于：

所述纹理cache单元(4)包括了tCache2AxiPort端口，该端口与AXI总线交叉开关(6)的tCache2AxiExport端口进行相连，端口之间通过AxiMasterIf接口进行通信。

10.根据权利要求4所述的仿真平台，其特征在于：

所述第一DDR控制器(7)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[0]端口相连，端口之间通过AxiSlaveIf接口进行通信；

11.根据权利要求4所述的仿真平台，其特征在于：

所述第二DDR控制器(8)包括了axiSlaveExport端口，该端口与AXI总线交叉开关(6)的axiSlavePort[1]端口相连，端口之间通过AxiSlaveIf接口进行通信；