CN111163352A

CN111163352A - 基于cuda的视频解码硬件加速数据与中间数据转换方法

Info

Publication number: CN111163352A
Application number: CN201811326947.6A
Authority: CN
Inventors: 邓华阳
Original assignee: China Changfeng Science Technology Industry Group Corp
Current assignee: China Changfeng Science Technology Industry Group Corp
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2020-05-15

Abstract

本发明提供一种基于CUDA的视频解码硬件加速数据与中间数据转换方法，根据图像大小在device上分配存储空间，该储存空间用于存放转换后的中间数据；在device上确定线程数，分别定义合适的线程block大小和线程grid大小；根据视频解码硬件加速输出的Gpumat结构的数据指针，获取每个像素点的BGR三个通道的数值，减去预定义的mean值存入预先分配的显存中；在显存上构造TBlob结构，将中间数据作为其数据区；使用NDArray的方法将TBlob数据拷贝到NDArray的数据区。本发明充分利用了GPU的计算特性，降低了对系统总线带宽需求，提高了程序处理效率。

Description

基于CUDA的视频解码硬件加速数据与中间数据转换方法

技术领域

本发明涉及NVIDIA显卡上的视频解码硬件加速技术和MXNet图像分类模型的中间数据转换方法，属于数字视频解码技术和深度学习技术的交叉领域。

背景技术

CUDA是由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。开发人员可以使用C语言来为CUDA架构编写程序，支持CUDA的处理器上以超高性能运行。OpenCV是一个基于BSD许可发行的跨平台计算机视觉库。它轻量级而且高效，实现了图像处理和计算机视觉方面的很多通用算法。基于NVIDIA方案的视频解码硬件加速技术结合了CUDA和Opencv特性，使运算量较大的解码运算在GPU上完成，并在GPU上输出Gpumat结构的图像数据。

MXNet是Amazon选择的深度学习库。它拥有类似于Theano和TensorFlow的数据流图，为多GPU并行计算提供了良好的配置，有着类似于Lasagne和Blocks更高级别的模型构建块。在使用MXNet深度学习框架的图像分类方案中，可以充分利用MXNet提供的GPU并行计算特性，将深度学习大量的复杂运算放在GPU上完成，而CPU主要承担运算量相对较轻的控制和逻辑处理等任务。

在MXNet官方自带的图像分类例程中，未采用视频解码硬件加速技术，输入图像数据的读入及处理过程步骤如下：

第一步，对图像作预处理。

第二步，在host(主机)端设备构造用于存储图像数据的vector。

第三步，在host端构造TBlob数据结构，将vector数据作为其数据区。

第四步，使用NDArray的方法将TBlob数据从host端拷贝到device(GPU)端。

从以上处理过程中可以看出，源图像数据在host端，而MXNet的核心算法依托GPU设备，因此图像数据必须从host端拷贝到device端。但是，当使用视频解码硬件加速时，解码后的图像数据存放在GPU显存中，MXNet提供的接口无法直接从显存接收图像数据。现有的方法是先将解码后的图像数据通过PCI-e总线从device端拷贝到host端，再使用MXNet提供的接口从host端读入图像数据。于是，显存上的图像数据需要经过从device端到host端，再从host端到device端的处理过程，需要占用较高总线带宽和CPU时钟周期。另外，解码后的图像数据通常还需要一系列的图像预处理，这些计算会消耗大量的CPU计算能力，如果把这些计算全部转移到GPU上完成，既能充分发挥GPU设备的计算优势，也能有效释放CPU负载，提升系统的整体性能。

发明内容

本发明的目的是提出一种存在于GPU显存上的视频解码硬件加速输出数据与中间数据的转换方法，可以实现转换后的图像数据直接送入GPU上的MXNet算法模型。避免了host到device之间反复拷贝操作，为后续在显存上增加图像预处理提供可能。

本发明的技术方案如下：

一种基于CUDA的视频解码硬件加速数据与中间数据转换方法，经视频解码硬件加速处理后已经在device端得到图像数据的显存地址，其特征在于：

(1)根据图像大小在device上分配存储空间，该储存空间用于存放转换后的中间数据；

(2)在device上确定线程数，分别定义合适的线程block大小和线程grid大小；

(3)根据视频解码硬件加速输出的Gpumat结构的数据指针，获取每个像素点的BGR三个通道的数值，减去预定义的mean值存入步骤(1)中预先分配的显存中；

(4)在显存上构造TBlob结构，将中间数据作为其数据区；

(5)使用NDArray的方法将TBlob数据拷贝到NDArray的数据区。

本发明算法复杂度低，易于实现，充分利用了GPU的计算特性，降低了对系统总线带宽需求，提高了程序处理效率。

附图说明

图1是本发明的工作流程图；

图2是Gpumat数据在显存上的存储格式；

图3是中间数据在显存上的存储格式。

具体实施方式

采用MXNet框架的图像分类方案中，MXNet提供对GPU的良好支持，当图像数据来源于host端时，采用现有的实现方案具有较好的性能特性。当图像数据来源于device端时，性能瓶颈就充分暴露出来。

为解决上述问题，本发明提出的视频解码硬件加速输出数据与中间数据的转换方法在VS2015中编程实现，依赖Opencv342，cuda9.0以及mxnet1.3等开发库。实验结果表明，该方法通过在device端构造中间数据，避免了host与device间的冗余拷贝操作。本方法和MXNet官方自带的图像分类例程做对比实验，目标对象分类结果一致，输出的全部置信度一致。同时，CPU负载显著降低，证明了该方法是可行的。

如图1所示，本发明具体过程如下：

假设经视频解码硬件加速处理后已经在device端得到图像数据的显存地址；

根据图像大小在device上分配存储空间，该储存空间用于存放转换后的中间数据；

在device上确定线程数，分别定义合适的线程block大小和线程grid大小；

如图2所示，根据视频解码硬件加速输出的Gpumat结构的数据指针，获取每个像素点的BGR三个通道的数值，减去预定义的mean值存入步骤(1)中预先分配的显存中；

如图3所示，在显存上构造TBlob结构，将中间数据作为其数据区；

使用NDArray的方法Copy<gpu,gpu>将TBlob数据拷贝到NDArray的数据区。

Claims

1.一种基于CUDA的视频解码硬件加速数据与中间数据转换方法，经视频解码硬件加速处理后已经在device端得到图像数据的显存地址，其特征在于：

(4)在显存上构造TBlob结构，将中间数据作为其数据区；

(5)使用NDArray的方法将TBlob数据拷贝到NDArray的数据区。