CN111741232A

CN111741232A - 基于双显卡nvlink提高超高清非编编辑性能的方法

Info

Publication number: CN111741232A
Application number: CN202010798976.3A
Authority: CN
Inventors: 罗天; 张金沙; 向俊臣; 吴若寒; 陈晋苏
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-10-02
Anticipated expiration: 2040-08-11
Also published as: CN111741232B

Abstract

本发明公开了一种基于双显卡NVLINK提高超高清非编编辑性能的方法，包括步骤：S1，CPU端对媒体文件读取后直接调用CUDA的上行函数将数据上行至解码GPU中；S2，调用对应的GPU解码器解码；S3，解码完成的数据利用NVLINK桥接器传输到渲染GPU，并存放到渲染GPU的CUDA缓冲区；S4，将解码后的数据从CUDA缓冲区拷贝到DirectX纹理中利用DirectX函数进行渲染等；本发明既能使用GPU解码加快解码速度，又能不削弱GPU渲染能力，同时避开了PCIE总线传输带宽不足的瓶颈，使非编软件在超高清多层实时编辑达到了理想的性能，能够兼容只能使用CPU进行解码的情形。

Description

基于双显卡NVLINK提高超高清非编编辑性能的方法

技术领域

本发明涉及视频编辑技术领域，更为具体的，基于双显卡NVLINK提高超高清非编编辑性能的方法。

背景技术

非编（非线性编辑）软件在进行视频编辑的过程中，视频解码和视频渲染是两个最重要的环节。目前非编软件的主流架构是CPU+GPU。通常来说，视频解码是在CPU完成的，视频渲染是在GPU完成的，CPU将解码出来的数据通过PCIE总线传递给GPU（数据上行），GPU将渲染完毕的数据再通过PCIE总线传递给CPU（数据下行）。

CPU解码+GPU渲染的架构在标清和高清时代运转良好，但在进入超高清尤其8K时代以后，此架构逐渐暴露出性能问题。主要原因在于，用于连接CPU和GPU的PCIE总线带宽不足。目前Intel CPU和Nvidia GPU支持的PCIE最高标准是PCIE 3.0 x16，理论带宽是15.754GB/s，实测数据上下行的带宽则最多只能达到12GB/s。PCIE的带宽不足限制了CPU和GPU之间数据流动的速度，因而拖累了非编软件的整体实时性。

这几年来，GPU的硬件能力发展到了很高的水平。GPU内部有几千个流处理器，非常适合并行计算。GPU的应用场景不再局限为图形渲染，也扩展到了通用计算，NVIDIA的CUDA技术就是代表。适宜于非编编辑的一些后期制作格式，比如JPEG XS、ProRes、DNxHR以及各摄像机厂商的RAW格式，其格式的设计是具备高并行化特征的，与GPU的硬件设计理念契合，因而可以利用GPU来实现解码，相比CPU解码能获得更快的解码速度。一些视频厂商也利用了NVIDIA的CUDA技术，为自己主推的视频格式实现了高效率的GPU解码。

虽然GPU解码提高了视频解码速度，但在非编软件中仍然存在很多问题。非编软件不仅仅是对视频做解码和播放，通常还有很多种字幕和特效等复杂的渲染操作。在NVIDIAGPU上，解码使用CUDA接口，渲染使用DirectX接口，解码出来的数据不能直接渲染，需要涉及到CUDA和DirectX的数据交互。更重要的是，GPU解码和GPU渲染是共用GPU的流处理器单元的，在同一张GPU上面既做解码又做渲染，性能会相互影响，相比CPU解码+GPU渲染的架构来说，用GPU做解码后，GPU的渲染能力被削弱了。这显然不是我们期望的结果。

NVLINK是NVIDIA公司近年推出的GPU之间的高速数据传输技术，它以NVLINK桥接器的方式连接两张GPU，其单向传输速度可达50GB/s，双向传输速度可达100GB/s，远超过PCIE总线目前的带宽。NVLINK只支持两张GPU的CUDA数据交互，在高性能科学计算和AI深度学习领域应用较多。NVLINK不支持DirectX纹理数据交互，因此在图形渲染和视频制作领域尚无人使用。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于双显卡NVLINK提高超高清非编编辑性能的方法，在非编软件中既能使用GPU解码加快解码速度，又能不削弱GPU渲染能力，避开了PCIE总线传输带宽不足的瓶颈，使非编软件在超高清多层实时编辑达到了理想的性能。同时，能够兼容只能使用CPU进行解码的情形。

本发明的目的是通过以下方案实现的：

一种基于双显卡NVLINK提高超高清非编编辑性能的方法，包括步骤：

S1，非编软件在CPU端对媒体文件的视频帧进行读取之后，不做解码，直接调用CUDA的上行函数将这一视频帧的未解码数据上行至1#解码GPU的显存之中；

S2，未解码数据上行至1#解码GPU之后，非编软件根据具体格式调用对应的GPU解码器进行解码；

S3，1#解码GPU解码完成的视频数据利用NVLINK桥接器传输到2#渲染GPU，并存放到2#渲染GPU的CUDA缓冲区；

S4，将解码后的视频数据从所述CUDA缓冲区拷贝到DirectX纹理中利用DirectX函数进行渲染，渲染完成的视频帧存放于2#渲染GPU的DirectX纹理中。

进一步地，包括步骤：

S5，将渲染完成的视频帧通过2#渲染GPU的DP或HDMI接口输出到显示器，和/或通过IO卡送到监视器进行监看，和/或通过2#渲染GPU从PCIE总线下行。

进一步地，在步骤S2中，采用基于CUDA的GPU解码器解码时，包括如下步骤：

S21，在GPU全局显存中创建两块缓冲区，一块存放待解码的编码数据，一块存放解码后的数据；

S22，对编码数据进行码流和语义分析，找到能够并行执行的每个解码子块的起始地址；

S23，GPU的多个CUDA计算单元各自领取一个解码子块的解码任务，并将数据读取到自己所在CUDA计算单元的共享显存中进行解码操作；

S24，每个CUDA计算单元解码后的数据，拷贝到GPU全局显存提前创建的缓冲区的对应地址之中；所有并行计算单元都结束任务时，完成此视频帧的解码。

进一步地，在步骤S2中，在采用基于OPENCL实现的GPU解码器进行解码时，增加OPENCL缓冲区，用于与CUDA缓冲区进行数据交互。

进一步地，在步骤S3中，在非编引擎创建时间线时，创建CUDA缓冲区队列并进行注册绑定，利用NVLINK桥接器传输时两端GPU都有一个若干帧的CUDA缓冲区队列。

进一步地，在步骤S4中，在非编引擎创建时间线时，创建CUDA缓冲区队列和DirectX纹理队列并进行注册绑定，在进行拷贝时两端GPU都有一个若干帧的CUDA缓冲区队列和DirectX纹理队列。

进一步地，在步骤S5中，待显示的DirectX纹理与显示窗口提前绑定，每帧渲染数据准备好之后调用DirectX的present函数，将渲染好的数据通过2#渲染GPU的DP或HDMI接口实时输出到显示器，并按照所绑定窗口的位置和尺寸自动适配进行绘制。

进一步地，包括步骤：

对于使用CPU解码的格式，在CPU端读取媒体文件的视频帧并进行解码后，直接调用DirectX的上行函数上行到2#渲染GPU的DirectX纹理之中。

本发明的有益效果是：

本发明可以克服背景中所有方案的缺点，在非编软件中既能使用GPU解码加快解码速度，又能不削弱GPU渲染能力，避开了PCIE总线传输带宽不足的瓶颈，使非编软件在超高清多层实时编辑达到了理想的性能。同时，能够兼容只能使用CPU进行解码的情形。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的架构示意图；

图2为本发明的方法步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征（包括任何附加权利要求、摘要和附图），或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合或替换。

如图1，2所示，一种基于双显卡NVLINK提高超高清非编编辑性能的方法，包括步骤：

进一步地，包括步骤：

在本发明的实施例中，包括：

本实施例的硬件部分，使用一台计算机工作站，其中CPU、内存、硬盘按需配置，在PCIE插槽中插入一张专业IO卡用于实时输出到专业监视器进行监看。另外在相邻的两个PCIE3.0 x16插槽中插入两张支持NVLINK的NVIDIA GPU，使用NVLINK桥接器连接两张GPU。其中一张GPU的HDMI或DP接口接显示器用于非编软件的界面显示。

本实施例的软件部分，本实施例的软件核心架构为GPU解码+NVLINK传输+GPU渲染。两张GPU分工明确，1# GPU是解码GPU，2# GPU是渲染GPU，通过NVLINK桥接。以非编软件对8K视频编辑为例，架构示意图如图1所示。

一、数据上行

对于可以使用GPU解码的格式，非编软件在CPU端对媒体文件的视频帧进行读取之后，不做解码，直接调用CUDA的上行函数，将这一帧的未解码数据上行至1#解码GPU的显存之中。以8K格式举例说明。8K 10bit 4:2:2 50p解码后的基带数据，按紧凑方式排列其每帧大小为82MB，每秒钟的数据量超过4GB。如果以基带数据上行至GPU，对PCIE带宽压力很大。而适用于视频后期制作的8K的压缩格式，其码率在2Gbps~8Gbps范围内，每秒钟的数据量只有250MB~1000MB。因此我们在CPU端不做解码，上行的是压缩数据，极大地节省了PCIE带宽，消除了PCIE带宽不足的瓶颈。

二、GPU解码

视频压缩数据上行至1#解码GPU之后，非编软件根据具体格式调用对应的GPU解码器进行解码。GPU解码器一般都是基于CUDA实现的。基于CUDA的GPU解码器一般性操作为：

1）在GPU全局显存中创建两块缓冲区，一块存放编码数据（待解码），一块存放解码后的数据。

2）对编码数据进行码流和语义分析，找到可以并行执行的每个解码子块的起始地址。

3）GPU的多个CUDA计算单元，各自领取一个解码子块的解码任务，将数据读取到自己所在CUDA计算单元的共享显存中进行解码操作。

4）每个CUDA计算单元解码后的数据，拷贝到GPU全局显存提前创建的缓冲区的对应地址之中。所有并行计算的单元都结束任务时，此视频帧的解码就已完成。

对于个别使用OPENCL实现的GPU解码器，需要额外增加OPENCL缓冲区和CUDA缓冲区数据交互的操作，其他环节与CUDA解码器基本相同，不做赘述。

三、NVLINK传输

在1#解码GPU解码完成的视频数据，需要传输到2#渲染GPU做进一步的渲染处理。此过程完全避开了PCIE总线，是通过NVLINK桥接器实现的传输。NVLINK单向传输带宽有50GB/s。而8K解码后的4:2:2视频数据，如果以16bit存放，每秒数据量是6.5GB/s。所以使用NVLINK至少可实现7层8K基带数据的实时传输，相比PCIE有极大的提高。

使用NVLINK传输，需要在两端GPU各自创建CUDA缓冲区并进行注册绑定。此操作在非编引擎创建时间线时就已完成，两端GPU都有一个若干帧的CUDA缓冲区队列，并提前绑定好，避免后期临时绑定带来性能损失。

四、从CUDA缓冲区拷贝到DirectX纹理

从1#解码GPU通过NVLINK传输到2#渲染GPU的解码后视频数据，是存放在2#渲染GPU的CUDA缓冲区之中的，无法直接用于渲染。因此需要有一步必要的操作，将解码后的视频数据，从CUDA缓冲区拷贝到DirectX的2D纹理之中，才能做下一步的渲染操作。

CUDA缓冲区和DirectX纹理的拷贝，也需要注册和绑定。同NVLINK传输中类似，为了避免后期临时绑定带来性能损失，创建CUDA缓冲区队列和DirectX纹理队列，以及相互绑定的过程，都是需要提前完成的。

五、GPU渲染

进入2#渲染GPU的DirectX纹理之中的视频数据，可以使用各种DirectX函数，与其他轨道的视频数据，或者字幕、CG等数据一起，按照通常的渲染方式进行渲染。具体操作这里不再展开进行说明。

由于解码是在1#解码GPU上面完成的，没有占用2#渲染GPU的处理单元，所以2#渲染GPU的渲染能力几乎是100%全满的。对于使用非编的用户来说，可以完全信任采用本实施例方案的非编软件的渲染能力与使用单张GPU的渲染能力是相同的，这正是本实施例方案所带来的好处之一。

六、窗口绘制

渲染完成的帧，存放于2#渲染GPU的DirectX纹理之中。待显示的DirectX纹理可以和显示窗口提前绑定好，每帧渲染数据准备好之后调用DirectX的present函数，将渲染好的数据通过2#渲染GPU的HDMI或者DP接口，实时输出到显示器，并按照所绑定窗口的位置和尺寸自动适配进行绘制。

七、数据下行

渲染完成的帧，需要从2#渲染GPU下行，通过专业IO卡送到专业监视器进行监看。通过渲染，多轨视频数据以及字幕CG等数据，已经合并成了一轨视频数据，对于8K 4:2:2 10bit50p格式，按紧凑形式存放每秒数据量是4GB/s，可以通过PCIE总线实时下行。

本实施例方案中选用的NVIDIA高端专业GPU，以及选用的专业IO卡，都是支持GPUDirect技术的。数据从GPU的DirectX纹理显存，可以直接传输到IO卡的板上内存，无需CPU干预。使用GPUDirect技术缩短了数据传输路径，减轻了CPU负荷，进一步提高了非编软件的实时性。

在使用非编软件的实际生产环境中，存在多种格式在一条时间线上进行混合编辑的应用场景。不是所有格式都能使用GPU进行解码，很多格式只能使用CPU进行解码。本发明实施例的方案必须兼容此种情况，即对于使用CPU解码的格式，在CPU端读取媒体文件的视频帧并进行解码之后，直接调用DirectX的上行函数上行到2#渲染GPU的DirectX纹理之中，之后的处理和步骤五至七中所描述的处理方式相同。

本发明提出了一种新的GPU解码+NVLINK传输+GPU渲染的方案，可以克服上述背景技术方案的缺点，在非编软件中既能使用GPU解码加快解码速度，又能不削弱GPU渲染能力，同时避开了PCIE总线传输带宽不足的瓶颈，使非编软件在超高清多层实时编辑达到了理想的性能。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，包括步骤：

3.根据权利要求1所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，在步骤S2中，采用基于CUDA的GPU解码器解码时，包括如下步骤：

4.根据权利要求1所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，在步骤S2中，在采用基于OPENCL实现的GPU解码器进行解码时，增加OPENCL缓冲区，用于与CUDA缓冲区进行数据交互。

5.根据权利要求1所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，在步骤S3中，在非编引擎创建时间线时，创建CUDA缓冲区队列并进行注册绑定，利用NVLINK桥接器传输时两端GPU都有一个若干帧的CUDA缓冲区队列。

6.根据权利要求1所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，在步骤S4中，在非编引擎创建时间线时，创建CUDA缓冲区队列和DirectX纹理队列并进行注册绑定，在进行拷贝时两端GPU都有一个若干帧的CUDA缓冲区队列和DirectX纹理队列。

7.根据权利要求2所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，在步骤S5中，待显示的DirectX纹理与显示窗口提前绑定，每帧渲染数据准备好之后调用DirectX的present函数，将渲染好的数据通过2#渲染GPU的DP或HDMI接口实时输出到显示器，并按照所绑定窗口的位置和尺寸自动适配进行绘制。

8.根据权利要求1~7任一所述的基于双显卡NVLINK提高超高清非编编辑性能的方法，其特征在于，包括步骤：