CN114461406A

CN114461406A - DMA OpenGL优化方法

Info

Publication number: CN114461406A
Application number: CN202210381080.4A
Authority: CN
Inventors: 李洪涛; 张铎; 王勇军; 刘意虎; 周磊; 刘云; 孙立明
Original assignee: Kirin Software Co Ltd
Current assignee: Kirin Software Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-05-10

Abstract

本发明涉及一种DMA OpenGL优化方法，包括申请一段连续并且DMA要求指定数据大小且地址对齐的GPU设备地址缓存空间、加速读操作、加速写操作、释放申请的GPU设备地址缓存空间这四步。本方法通过采用GPU自带的DMA块拷贝加速控制器和X100 DMA控制器，加速对GPU显存访问操作，一定程度上解决现有的OpenGL/ES的部分API访问GPU显存效率低的问题，达到提高OpenGL/ES API效率及用户体验的目的。

Description

DMA OpenGL优化方法

技术领域

本专利申请属于DMA优化技术领域，更具体地说，是涉及一种基于飞腾X100平台的DMA OpenGL优化方法。

背景技术

飞腾X100平台是一款集成了多种控制器的PCIE桥片，简称X100桥片，主要包含了GPU、DC显示控制器、VPU、DMA、USB、SATA等部件。该平台支持外部扩展DDR用于GPU渲染及显示；支持OpenGL3.0/OpenGL ES3.0 API接口。OpenGL主要是图形渲染的API，API就是操作系统留给应用程序的一个调用接口，应用程序通过调用操作系统的API而使操作系统去执行应用程序的命令，其中OpenGL主要用于PC端；OpenGL ES主要用于嵌入式设备，如ios、android 等。

DMA (Direct Memory Access，直接内存存取) 是所有现代电脑的重要特色，它允许不同速度的硬件装置来沟通，而不需要依赖于 CPU 的大量中断负载。否则，CPU 需要从来源把每一片段的资料复制到暂存器，然后把它们再次写回到新的地方。在这个时间中，CPU对于其他的工作来说就无法使用。

但是，前述提到的X100 DMA控制器只支持从CPU内存到GPU显存之间的直接拷贝，不支持块拷贝；GPU内部集成了块拷贝加速功能，但只能支持GPU显存之间块拷贝，不支持CPU内存到GPU显存之间的块拷贝。

为了更好地充分发挥X100 GPU加速渲染性能，需要结合X100桥片的特性，对原有的X100 OpenGL/ES API接口进行优化，是当前需要考虑的问题。

鉴于飞腾X100平台无直接块CPU内存到GPU显存之间的拷贝加速功能，原始的X100桥片 OpenGL/ES驱动在实现的过程中，采用mmap将GPU显存地址映射到CPU地址空间，然后直接读写访问该映射后的CPU地址。该种访问的操作方法存在的缺陷是不能充分利用PCIE的传输带宽，存在CPU使用率高、访问速度慢、传输效率低等缺点，从而导致OpenGL/ES的部分API效率低，用户体验差等问题。飞腾X100平台OpenGL优化前原始处理示意图如图2所示。

目前有一些涉及此方面的现有技术，部分技术介绍如下：

（1）中国发明专利“一种基于DMA的GPU子图像处理方法”（申请号CN201911147514，CN111080508A），该发明涉及计算机硬件建模技术领域，具体涉及一种基于DMA的GPU子图像处理方法，本方法包括以下步骤：对子图像处理的DMA长度进行计算；并计算图像参数和子图像skip参数；按照上述所得计算结果和参数的基础上将当前图像存储地址按配置进行对齐操作；将对齐操作后的图像存储地址跳过步骤1）所得子图像skip参数对应的像素数、行数和层数并配置DMA描述符启动DMA操作；计算下一个图像行的图像存储地址，重复上述步骤直到子图像处理完成；本发明针对GPU子图像处理问题，提出了一种绘制或读取在内存中所存储的图像数据矩形的一个子矩形的方法，为GPU的研制奠定了算法基础。但是该方法未能实现块拷贝加速功能及一次性DMA拷贝加速功能，而是采用每一行DMA一次，性能方面远比不上本发明。

（2）中国发明专利“一种基于Android系统的云桌面显示优化方法及系统”（申请号CN202011308080，CN112486606A），该发明公开了一种基于Android系统的云桌面显示优化方法及系统，本发明包括Android云终端云桌面显示优化的步骤：搭建OpenGL ES的运行环境；在OpenGL ES中创建2D纹理；通过OpenGL ES在GPU中创建两个第一像素内存缓冲区，利用GPU中像素缓冲区具备异步DMA快速传输的特点，在同一时间，CPU往一个像素缓冲区写入云桌面待显示数据并立即返回，GPU利用另一个像素缓冲区的数据进行纹理绘制并提交显示，两个像素缓冲区不断交替各自所充当的角色持续刷新云桌面。本发明能够在不降低画面质量的情况下，充分利用移动终端的GPU计算能力，让云桌面的显示变得流畅。但是该方法只能应用于两个缓冲区之间的DMA，并不能实现指定显存对象区域的一部分与CPU内存交互，不适用于X100平台。

（3）中国发明专利“一种面向OpenGL实现的属性配置优化方法”（申请号CN201711202220，CN107945099A），该发明属于计算机图形处理领域，尤其涉及一种面向OpenGL实现的属性配置优化方法。所述方法包括以下步骤，1）OpenGL图形命令获取；2）图形命令参数提取与分类；3）参数处理与更新；4）参数重新排布；5）参数信息存储。本发明加速了有效参数的计算，实现了相关参数的快速、连续配置，提高了OpenGL图形指令与GPU图形属性的配置过程。但是该方法与本发明的优化方向完全不一致，也并不适用于X100的OpenGL/ES的优化。

（4）中国发明专利“一种基于OpenGL着色语言的程序式纹理的优化方法和系统”（申请号CN201910737216，CN110517343A），该发明公开了一种基于OpenGL着色语言的程序式纹理的优化方法和系统，包括以下步骤，定义模块定义程序式纹理着色器；输入待渲染的对象图像；运行所述程序式纹理着色器并绘制生成程序式条纹纹理；对所述条纹纹理依次进行操作，包括预先解析滤波模块、自适应的解析滤波模块、解析积分模块和频率截断模块；得到优化后的程序式条纹纹理结果。本发明的有益效果：提供程序式纹理反走样方法，能够在图像处理中渲染出更加真实的图像，从时间和空间两方面克服显示上的限制。但是该方法与本发明的优化方向完全不一致，也并不适用于X100的OpenGL/ES的优化。

发明内容

本发明需要解决的技术问题是提供一种基于飞腾X100平台的DMA OpenGL优化方法，该方法旨在通过采用GPU自带的DMA块拷贝加速控制器和X100 DMA控制器，加速对GPU显存访问操作，一定程度上解决现有的OpenGL/ES的部分API访问GPU显存效率低的问题，达到提高OpenGL/ES API效率及用户体验的目的。

为了解决上述问题，本发明所采用的技术方案是：

一种DMA OpenGL优化方法，包括如下步骤：

S1、申请一段连续并且DMA要求指定数据大小且地址对齐的GPU设备地址缓存空间；

S2、加速读操作：首先通过GPU自带的DMA块拷贝加速控制器，将GPU设备中指定要传输的（x,y,w,h）区域位置数据DMA块拷贝到申请的GPU设备地址缓存空间，再将申请的GPU设备地址缓存空间数据通过X100桥片的DMA控制器DMA到CPU内存空间；

S3、加速写操作：首先通过X100桥片的DMA控制器，将CPU内存空间数据DMA到申请的GPU设备地址缓存空间，再通过GPU自带的DMA块拷贝加速控制器，将申请的GPU设备地址缓存空间数据DMA块拷贝到GPU设备显存对象中指定要传输的（x,y,w,h）区域位置；

S4、释放申请的GPU设备地址缓存空间。

本发明技术方案的进一步改进在于：根据显存对象格式计算出显存对象指定要传输的（x,y,w,h）区域位置的数据的大小，步骤S1中，然后在GPU显存空间申请一段连续、地址是DMA cache对齐的、为计算出的大小设备缓冲区，用于建立GPU到CPU之间DMA传输以及GPU显存之间块拷贝的中间缓冲区，以解决GPU到CPU之间的直接块拷贝问题。

本发明技术方案的进一步改进在于：步骤S2中，将GPU显存对象中要传输区域（x,y,w,h）多段地址不连续的数据内容，先通过GPU内部块传输控制器，一次性块传输到连续的GPU设备地址缓存空间内，再通过DMA控制器一次性将GPU设备地址缓存空间内数据传输到CPU内存，从而实现OpenGL/ES的读显存操作的优化。

本发明技术方案的进一步改进在于：步骤S3中，将CPU内存数据，先通过DMA控制器一次性传输到GPU设备地址缓存空间内，再通过GPU内部块传输控制器一次性将GPU设备地址缓存空间内数据传输到显存对象中要传输区域（x,y,w,h），从而实现OpenGL/ES的写显存操作的优化。

由于采用了上述技术方案，本发明取得的有益效果是：

（1）通过在GPU显存对象中建立缓存，间接解决了X100桥片中CPU内存与GPU显存之间的块拷贝路径问题。

（2）通过外部DMA加内部块拷贝加速的方式，极大的加快了X100桥片CPU内存与GPU显存之间的块拷贝速度，能有效降低CPU使用率。

（3）通过该方法，效果提升明显，极大地提升X100桥片glReadPixels、glTexSubImage2D、glCopyTexImage2D、glCopyTexSubImage2D等OpenGL/ES函数的性能和效率，由原来的2s的延时缩短到3ms，从而提升桌面系统的用户体验。

附图说明

图1为飞腾X100平台硬件框架结构示意图。

图2为飞腾X100平台OpenGL优化前原始处理示意图。

图3为飞腾X100平台OpenGL优化方法示意图。

具体实施方式

下面结合实施例对本发明做进一步详细说明。

本发明公开了一种DMA OpenGL优化方法，是基于飞腾X100平台的DMA OpenGL优化方法，下面参照附图对本发明的实施例进行详细的说明，在描述过程中省略了对于本发明来说不必要的细节和功能，以防止对本发明的理解造成混淆。

如图1所示，本实施例基于飞腾X100平台硬件，飞腾X100平台是一款集成了多种控制器的PCIE桥，主要包含了GPU设备、DC显示控制器、VPU、DMA控制器、USB、SATA等控制器。外部CPU通过PCIE总线与X100平台硬件的PCIE桥片互联，PCIE桥分别通过各自的PCIE与GPU设备、DC显示控制器、VPU、DMA控制器、USB、SATA等控制器，GPU设备、DC显示控制器、VPU等通过各自的内部总线与DDR显存互联。

如图2所示，本实施例基于飞腾X100平台OpenGL优化前原始处理方式：先将显存对象mmap映射到CPU地址，通过多次拷贝实现CPU内存数据与显存对象传输区域（x,y,w,h）内的数据交互。之间的数据传输经过CPU内存、CPU映射地址、显存对象传输区域（x,y,w,h）这三个对象，具体动作包括读、写、mmap映射到CPU这几种操作。

如图3所示，本实施例基于飞腾X100平台OpenGL优化方法，除了图2中拥有的CPU内存、显存对象传输区域（x,y,w,h）这两个对象外，还有DMA控制器、GPU内部DMA块传输控制器、GPU显存设备缓存这三个对象，具体动作包括DMA读、DMA写、块传输这几种操作。可以看出，不仅结构以及结构连接不同，而且动作也不同，较优化前原始处理方式而言，具有较大的进步。

本实施例的实施步骤如下：

S1、申请一段连续并且DMA要求指定数据大小且地址对齐的GPU设备地址缓存空间；对于申请GPU设备地址缓存空间，不需要克服特定的技术障碍。对于显示驱动，均会有显存管理，直接通过显存管理即可申请。

步骤S1中根据显存对象格式计算出显存对象指定要传输的（x,y,w,h）区域位置的数据的大小，然后在GPU显存空间申请一段连续、地址是DMA cache对齐的、为计算出的大小设备缓冲区，用于建立GPU到CPU之间DMA传输以及GPU显存之间块拷贝的中间缓冲区，以解决GPU到CPU之间的直接块拷贝问题。

S2、加速读操作：首先通过GPU自带的DMA块拷贝加速控制器，将GPU设备中指定要传输的（x,y,w,h）区域位置数据DMA块拷贝到申请的GPU设备地址缓存空间，再将申请的GPU设备地址缓存空间数据通过X100桥片的DMA控制器DMA到CPU内存空间。

步骤S2中，将GPU显存对象中要传输区域（x,y,w,h）多段地址不连续的数据内容，先通过GPU内部块传输控制器，一次性块传输到连续的GPU设备地址缓存空间内，再通过DMA控制器一次性将GPU设备地址缓存空间内数据传输到CPU内存。将该方法代替OpenGL/ES原有的实现方法：先将显存对象mmap映射到CPU地址，通过多次拷贝将要传输区域（x,y,w,h）的数据拷贝到CPU内存，通过上述的方法优化或取代，实现了OpenGL/ES的读显存操作的优化。

S3、加速写操作：首先通过X100桥片的DMA控制器，将CPU内存空间数据DMA到申请的GPU设备地址缓存空间，再通过GPU自带的DMA块拷贝加速控制器，将申请的GPU设备地址缓存空间数据DMA块拷贝到GPU设备显存对象中指定要传输的（x,y,w,h）区域位置。

步骤S3中，将CPU内存数据，先通过DMA控制器一次性传输到GPU设备地址缓存空间内，再通过GPU内部块传输控制器一次性将GPU设备地址缓存空间内数据传输到显存对象中要传输区域（x,y,w,h）；将该方法代替OpenGL/ES原有的实现方法：先将显存对象mmap映射到CPU地址，通过多次拷贝将CPU内存数据拷贝到要传输区域（x,y,w,h）内。通过方法优化或取代，从而实现OpenGL/ES的写显存操作的优化。

如图3所示，对于一个显存对象，也可以说是一片显存，整个地址可以是连续的，但是在这个显存对象中的一个矩形区域(x,y,w,h)的范围，也就是图3的传输区域部分，上下两行的地址是不连续的，是多个断断续续的一行一行数据，如果直接DMA则需要进行多次拷贝，除非有直接CPU内存到GPU显存的块拷贝加速器，但是X100平台没有。鉴于X100平台CPU上的数据不能一次性直接到GPU显存对象的（x,y,w,h）这个原因，需要在GPU上申请一个连续缓存空间（也即GPU设备地址缓存空间）作为中间路径，通过X100 DMA控制器实现从CPU数据到GPU上的申请一个连续缓存一次性拷贝，再通过X100 内部集成的块拷贝加速功能，实现GPU上申请的缓存到显存对象的（x,y,w,h）一次性块拷贝，以达到直接块拷贝的目的。

S4、释放申请的GPU设备地址缓存空间。

以上所述仅是本发明的优选实施方式，只是用于帮助理解本申请的方法及其核心思想，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种DMA OpenGL优化方法，其特征在于：包括如下步骤：

S4、释放申请的GPU设备地址缓存空间。

2.根据权利要求1所述的DMA OpenGL优化方法，其特征在于：步骤S1中，根据显存对象格式计算出显存对象指定要传输的（x,y,w,h）区域位置的数据的大小，然后在GPU显存空间申请一段连续、地址是DMA cache对齐的设备缓冲区，用于建立GPU到CPU之间DMA传输以及GPU显存之间块拷贝的中间缓冲区，以解决GPU到CPU之间的直接块拷贝问题。

3.根据权利要求2所述的DMA OpenGL优化方法，其特征在于：步骤S2中，将GPU显存对象中要传输区域（x,y,w,h）多段地址不连续的数据内容，先通过GPU内部块传输控制器，一次性块传输到连续的GPU设备地址缓存空间内，再通过DMA控制器一次性将GPU设备地址缓存空间内数据传输到CPU内存，从而实现OpenGL/ES的读显存操作的优化。

4.根据权利要求3所述的DMA OpenGL优化方法，其特征在于：步骤S3中，将CPU内存数据，先通过DMA控制器一次性传输到GPU设备地址缓存空间内，再通过GPU内部块传输控制器一次性将GPU设备地址缓存空间内数据传输到显存对象中要传输区域（x,y,w,h），从而实现OpenGL/ES的写显存操作的优化。