CN111047504B

CN111047504B - 一种基于SystemC的GPU子图像处理的TLM微结构

Info

Publication number: CN111047504B
Application number: CN201911147159.5A
Authority: CN
Inventors: 张少锋; 吴晓成; 张骏; 陈佳; 姜丽云; 任向隆
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-06-13
Anticipated expiration: 2039-11-21
Also published as: CN111047504A

Abstract

本发明涉及计算机硬件建模技术领域，尤其涉及一种基于SystemC的GPU子图像处理的TLM微结构，包括参数管理模块、DMA长度计算模块、图像参数计算模块、对齐操作模块、skip和DMA执行模块、下一行首地址计算模块；所述参数管理模块通过事务级接口同时与所述DMA长度计算模块、所述图像参数计算模块和所述对齐操作模块连接；所述skip和DMA执行模块通过事务级接口同时与所述DMA长度计算模块、所述图像参数计算模块、所述对齐操作模块和下一行首地址计算模块连接；所述对齐操作模块通过事务级接口与下一行首地址计算模块连接。本发明实现了基于DMA的子图像处理功能TLM模型，解决了基于DMA的GPU子图像处理TLM微结构的算法功能验证的问题，有效的加快RTL设计开发。

Description

一种基于SystemC的GPU子图像处理的TLM微结构

技术领域

本发明涉及计算机硬件建模技术领域，尤其涉及一种基于SystemC的GPU子图像处理的TLM微结构。

背景技术

在图形处理器芯片（下简称GPU）设计与开发中，算法的正确性和高效性是决定GPU功能和性能的重要因素。但是，GPU芯片硬件逻辑规模巨大，尤其是对于细节算法，很难在RTL阶段验证到并debug。因此需要在RTL设计之前，尽可能早的对算法进行验证，为RTL设计提供参考依据。

发明内容

基于背景技术中存在的问题，本发明提供的一种基于DMA的GPU子图像处理的TLM微结构，能够解决RTL仿真基于DMA的GPU子图像处理的正确性问题以及高效性问题，能够解决在RTL开发之前对GPU子图像处理算法的硬件微结构在TLM模型上进行功能验证的问题。

本发明的具体技术解决方案为：

本发明提出一种基于SystemC的GPU子图像处理的TLM微结构，包括参数管理模块、DMA长度计算模块、图像参数计算模块、对齐操作模块、skip和DMA执行模块、下一行首地址计算模块；

优选的，所述参数管理模块通过事务级接口同时与所述DMA长度计算模块、所述图像参数计算模块和所述对齐操作模块连接；

所述skip和DMA执行模块通过事务级接口同时与所述DMA长度计算模块、所述图像参数计算模块、所述对齐操作模块和下一行首地址计算模块连接；

所述对齐操作模块通过事务级接口与下一行首地址计算模块连接；

优选的，所述参数管理模块用于接收和更新图像处理参数、子图像配置寄存器计算参数、子图像标记和bitmap标记；

所述DMA长度计算模块用于计算子图像处理DMA行长度；

所述图像参数计算模块用于计算图像参数和子图像skip参数，其中图像参数包括行长度row_length和图像高度image_height，子图像skip参数包括skip_pixels、skip_rows和skip_images；

所述对齐操作模块用于将像素行地址按照配置进行对齐操作；

所述skip和DMA执行模块用于将像素行地址按照skip参数跳过相应个数的像素、行和图像，并配置DMA描述符启动DMA操作；

所述下一行首地址计算模块用于计算子图像处理的下一行像素行地址。

优选的，所述参数管理模块、DMA长度计算模块、图像参数计算模块、对齐操作模块、skip和DMA执行模块和下一行首地址计算模块通过SystemC进行TLM建模。

优选的，所述基于SystemC的GPU子图像处理的TLM微结构的事务级执行方式具体包括控制参数计算、skip的执行和DMA的执行；

优选的，所述控制参数计算包括以下步骤：

1）所述DMA长度计算模块首先判断bitmap标记，OpenGL为非bitmap类命令时，根据每像素所占字节数pixelSize、图像处理宽度width计算出DMA字长度；OpenGL为bitmap类命令时，将图像处理宽度width加上配置寄存器中的SkipPixels中不足8的倍数的部分，计算出DMA字长度。

2）所述图像参数计算模块，首先判断RowLength和子图像标记的值，当配置寄存器中的RowLength为0或者子图像标记subgraphFlag为0时，行长度row_length设置为图像处理宽度width，否则，行长度row_length设置为配置寄存器中的RowLength；

然后判断配置寄存器中的ImageHeight和子图像标记的值，当ImageHeight为0或者子图像标记为0时，将图像高度image_height设置为图像处理高度height，否则，将图像高度image_height设置为配置寄存器中的ImageHeight；

当subgraphFlag为0时，将skip_pixels、skip_rows和skip_images都设置为0，否则将skip_pixels、skip_rows和skip_images分别设置为配置寄存器中的SkipPixels、SkipRows、SkipImages。

3）所述对齐操作模块首先判断行号和图像号是否都小于最大值，如果是，继续后续的操作，如果不是结束GPU子图像处理操作，其中行号的最大值为图像处理高度height与skip_rows之和，图像号的最大值为图像处理深度depth与skip_images之和；然后判断当前像素行地址是否能整除配置寄存器中的参数Alignment，如果是，将像素行地址保持不变，否则，将像素行地址后移至能整除Alignment的位置。

优选的，所述skip的执行和DMA的执行包括以下步骤：

A）所述skip和DMA执行模块首先判断bitmapFlag的值，当bitmapFlag为0时，将像素行地址后移pixelSize*skip_pixels个字节地址，当bitmapFlag不为0时，将像素行地址后移pixelSize*skip_pixels/8个字节地址；然后判断行号和图像号的值，当行号不小于skip_rows并且图像号不小于skip_images时，转入B）；

B）配置DMA描述符并且启动DMA传输，转入C）；

C）所述下一行首地址计算模块首先判断bitmapFlag的值，当bitmapFlag为0时，将像素行地址后移row_length*pixelSize个字节地址，当bitmapFlag不为0时，将像素行地址后移row_length*pixelSize/8个字节地址；然后将行号和图像号分别加1，转入步骤3）。

本发明的有益效果：

本发明实现了基于TLM模型和基于DMA的GPU子图像处理算法功能和实现结构，解决了面向GPU硬件子图像算法功能验证的问题，有效的加快RTL设计开发。

附图说明

图1为本发明一种基于SystemC的GPU子图像处理的TLM微结构框图；

具体实施方式

下面结合说明书附图和具体实施例，对本发明的技术方案进行清楚、完整地表述。显然，所表述的实施例仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提所获得的所有其他实施例，都属于本发明的保护范围。

在本发明的一个实施例中，如图1所示，提出一种基于SystemC的GPU子图像处理的TLM微结构，包括参数管理模块1、DMA长度计算模块2、图像参数计算模块3、对齐操作模块4、skip和DMA执行模块5、下一行首地址计算模块6；

在一个实施例中，如图1所示，所述参数管理模块1通过事务级接口同时与所述DMA长度计算模块2、所述图像参数计算模块3和所述对齐操作模块4连接；

所述skip和DMA执行模块5通过事务级接口同时与所述DMA长度计算模块2、所述图像参数计算模块3、所述对齐操作模块4和下一行首地址计算模块6连接；

所述对齐操作模块4通过事务级接口与下一行首地址计算模块6连接；

在一个实施例中，所述参数管理模块1用于接收和更新图像处理参数、子图像配置寄存器计算参数、子图像标记和bitmap标记；

所述DMA长度计算模块2用于计算子图像处理DMA行长度；

所述图像参数计算模块3用于计算图像参数和子图像skip参数，其中图像参数包括行长度row_length和图像高度image_height，子图像skip参数包括skip_pixels、skip_rows和skip_images；

所述对齐操作模块4用于将像素行地址按照配置进行对齐操作；

所述skip和DMA执行模块5用于将像素行地址按照skip参数跳过相应个数的像素、行和图像，并配置DMA描述符启动DMA操作；

所述下一行首地址计算模块6用于计算子图像处理的下一行像素行地址。

在一个实施例中，所述参数管理模块1、DMA长度计算模块2、图像参数计算模块3、对齐操作模块4、skip和DMA执行模块5和下一行首地址计算模块6通过SystemC进行TLM建模。

在一个实施例中，所述基于SystemC的GPU子图像处理的TLM微结构的事务级执行方式具体包括控制参数计算、skip的执行和DMA的执行；

在一个实施例中，所述控制参数计算包括以下步骤：

1）所述DMA长度计算模块2首先判断bitmap标记，OpenGL为非bitmap类命令时，根据每像素所占字节数pixelSize、图像处理宽度width计算出DMA字长度；OpenGL为bitmap类命令时，将图像处理宽度width加上配置寄存器中的SkipPixels中不足8的倍数的部分，计算出DMA字长度。

2）所述图像参数计算模块3，首先判断RowLength和子图像标记的值，当配置寄存器中的RowLength为0或者子图像标记subgraphFlag为0时，行长度row_length设置为图像处理宽度width，否则，行长度row_length设置为配置寄存器中的RowLength；

3）所述对齐操作模块4首先判断行号和图像号是否都小于最大值，如果是，继续后续的操作，如果不是结束GPU子图像处理操作，其中行号的最大值为图像处理高度height与skip_rows之和，图像号的最大值为图像处理深度depth与skip_images之和；然后判断当前像素行地址是否能整除配置寄存器中的参数Alignment，如果是，将像素行地址保持不变，否则，将像素行地址后移至能整除Alignment的位置。

在一个实施例中，所述skip的执行和DMA的执行包括以下步骤：

A）所述skip和DMA执行模块5首先判断bitmapFlag的值，当bitmapFlag为0时，将像素行地址后移pixelSize*skip_pixels个字节地址，当bitmapFlag不为0时，将像素行地址后移pixelSize*skip_pixels/8个字节地址；然后判断行号和图像号的值，当行号不小于skip_rows并且图像号不小于skip_images时，转入B）；

B）配置DMA描述符并且启动DMA传输，转入C）；

C）所述下一行首地址计算模块6首先判断bitmapFlag的值，当bitmapFlag为0时，将像素行地址后移row_length*pixelSize个字节地址，当bitmapFlag不为0时，将像素行地址后移row_length*pixelSize/8个字节地址；然后将行号和图像号分别加1，转入步骤3）。

Claims

1.一种基于SystemC的GPU子图像处理的TLM微结构，其特征在于：

包括参数管理模块（1）、DMA长度计算模块（2）、图像参数计算模块（3）、对齐操作模块（4）、skip和DMA执行模块（5）、下一行首地址计算模块（6）；

所述参数管理模块（1）通过事务级接口同时与所述DMA长度计算模块（2）、所述图像参数计算模块（3）和所述对齐操作模块（4）连接；

所述skip和DMA执行模块（5）通过事务级接口同时与所述DMA长度计算模块（2）、所述图像参数计算模块（3）、所述对齐操作模块（4）和下一行首地址计算模块（6）连接；

所述对齐操作模块（4）通过事务级接口与下一行首地址计算模块（6）连接；

所述参数管理模块（1）用于接收和更新图像处理参数、子图像配置寄存器计算参数、子图像标记和bitmap标记；

所述DMA长度计算模块（2）用于计算子图像处理DMA行长度；

所述图像参数计算模块（3）用于计算图像参数和子图像skip参数，其中图像参数包括行长度row_length和图像高度image_height，子图像skip参数包括skip_pixels、skip_rows和skip_images；

所述对齐操作模块（4）用于将像素行地址按照配置进行对齐操作；

所述skip和DMA执行模块（5）用于将像素行地址按照skip参数跳过相应个数的像素、行和图像，并配置DMA描述符启动DMA操作；

所述下一行首地址计算模块（6）用于计算子图像处理的下一行像素行地址；

所述基于SystemC的GPU子图像处理的TLM微结构的事务级执行方式具体包括控制参数计算、skip的执行和DMA的执行。

2.根据权利要求书1所述的一种基于SystemC的GPU子图像处理的TLM微结构，其特征在于，所述控制参数计算包括以下步骤：

1）所述DMA长度计算模块（2）首先判断bitmap标记，OpenGL为非bitmap类命令时，根据每像素所占字节数pixelSize、图像处理宽度width计算出DMA字长度；OpenGL为bitmap类命令时，将图像处理宽度width加上配置寄存器中的SkipPixels中不足8的倍数的部分，计算出DMA字长度；

2）所述图像参数计算模块（3），首先判断RowLength和子图像标记的值，当配置寄存器中的RowLength为0或者子图像标记subgraphFlag为0时，行长度row_length设置为图像处理宽度width，否则，行长度row_length设置为配置寄存器中的RowLength；

当subgraphFlag为0时，将skip_pixels、skip_rows和skip_images都设置为0，否则将skip_pixels、skip_rows和skip_images分别设置为配置寄存器中的SkipPixels、SkipRows、SkipImages；

3）所述对齐操作模块（4）首先判断行号和图像号是否都小于最大值，如果是，继续后续的操作，如果不是结束GPU子图像处理操作，其中行号的最大值为图像处理高度height与skip_rows之和，图像号的最大值为图像处理深度depth与skip_images之和；然后判断当前像素行地址是否能整除配置寄存器中的参数Alignment，如果是，将像素行地址保持不变，否则，将像素行地址后移至能整除Alignment的位置。

3.根据权利要求书2所述的一种基于SystemC的GPU子图像处理的TLM微结构，其特征在于，所述skip的执行和DMA的执行包括以下步骤：

A）所述skip和DMA执行模块（5）首先判断bitmapFlag的值，当bitmapFlag为0时，将像素行地址后移pixelSize*skip_pixels个字节地址，当bitmapFlag不为0时，将像素行地址后移pixelSize*skip_pixels/8个字节地址；然后判断行号和图像号的值，当行号不小于skip_rows并且图像号不小于skip_images时，转入B）；

B）配置DMA描述符并且启动DMA传输，转入C）；

C）所述下一行首地址计算模块（6）首先判断bitmapFlag的值，当bitmapFlag为0时，将像素行地址后移row_length*pixelSize个字节地址，当bitmapFlag不为0时，将像素行地址后移row_length*pixelSize/8个字节地址；然后将行号和图像号分别加1，转入步骤3）。