CN111737015A

CN111737015A - 基于多gpu提高大幅面非线性编辑实时层数的方法

Info

Publication number: CN111737015A
Application number: CN202010796885.6A
Authority: CN
Inventors: 罗天; 张金沙; 郑建宏; 张旭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-10-02
Anticipated expiration: 2040-08-10
Also published as: CN111737015B

Abstract

本发明公开了一种基于多GPU提高大幅面非线性编辑实时层数的方法，包括步骤：S1，多个GPU通过独立的PCIE插槽分别连接PCIE总线，PCIE总线连接CPU；将CPU解码后的帧，按照帧号交替，分别上行到多个GPU进行渲染；S2，对渲染完成的帧进行重排序；S3，非编软件从排序后的帧依序取帧，并判断帧在哪个GPU之上，调用对应GPU的下行，送给IO卡输出等；本发明一方面增强了非编软件的总体渲染能力，另一方面显著提高了非编软件的超高清编辑实时层数；并且，能使用多GPU进行动态字幕和特效的渲染，实现了计算密集型线程在多个CPU组之间的均衡，充分利用了CPU的所有核等。

Description

基于多GPU提高大幅面非线性编辑实时层数的方法

技术领域

本发明涉及视频编辑技术领域，更为具体的，涉及一种基于多GPU提高大幅面非线性编辑实时层数的方法。

背景技术

非编（非线性编辑）软件在进行视频编辑的过程中，视频解码和视频渲染是两个最重要的环节。目前非编软件的主流架构是CPU+单GPU。通常来说，视频解码是在CPU完成的，视频渲染是在GPU完成的，CPU将解码出来的数据通过PCIE总线传递给GPU（数据上行），GPU将渲染完毕的数据再通过PCIE总线传递给CPU（数据下行）。

CPU+单GPU的架构在标清和高清时代运转良好，但在进入超高清时代以后，此架构逐渐暴露出性能问题。超高清4K 50p编辑实时层数在达到6层时就出现瓶颈，无法实现更多的实时层数。主要原因在于，虽然CPU的解码能力和GPU的渲染能力都还有富余，但PCIE总线带宽不足的问题越来越突出。目前Intel CPU和Nvidia GPU支持的PCIE最高标准是PCIE3.0 x16，理论带宽是15.754GB/s，实测数据上下行的带宽则最多只能达到12GB/s。PCIE的带宽不足限制了CPU和GPU之间数据流动的速度，因而拖累了非编软件的整体实时性。

在游戏等其他行业中也有使用两张GPU做SLI交火的方式提高整体渲染性能的方案。这种方式的本质是把GPU任务调度的掌控权交给微软windows操作系统，由操作系统自动调度渲染任务在两张GPU上的分配，对用户模拟出一张GPU的形态。我们对此种方式做了测试，发现在非编软件的应用场景中，双GPU做SLI交火的方式并不理想，对非编整体实时性的提升非常有限，大约只能带来10%-20%的性能提升。因此我们有必要在非编软件中研究新的多GPU使用方式。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多GPU提高大幅面非线性编辑实时层数的方法，一方面增强了非编软件的总体渲染能力，另一方面显著提高了非编软件的超高清编辑实时层数；并且，能使用多GPU进行动态字幕和特效的渲染，实现了计算密集型线程在多个CPU组之间的均衡，充分利用了CPU的所有核等。

本发明的目的是通过以下方案实现的：

一种基于多GPU提高大幅面非线性编辑实时层数的方法，包括步骤：

S1，多个GPU通过独立的PCIE插槽分别连接PCIE总线，PCIE总线连接CPU；将CPU解码后的帧，按照帧号交替，分别上行到多个GPU进行渲染；

S2，对渲染完成的帧进行重排序；

S3，非编软件从排序后的帧依序取帧，并判断帧在哪个GPU之上，调用对应GPU的下行，送给IO卡输出。

进一步地，在步骤S1中，CPU解码后的帧按照非编时间线绝对位置的帧号交替上行到多个GPU。

进一步地，在步骤S2中，在非编软件中建立渲染完成帧队列，该队列记录的每个元素是一个结构体。

进一步地，所述队列的每个元素按照时间线帧号顺序插入队列。

进一步地，所述结构体包括时间线帧号、GPU编号和GPU显存地址指针，GPU显存地址指针用于存放渲染完成的帧数据。

进一步地，在步骤S3中，在非编MV窗口显示渲染数据，且多个GPU绑定同一个非编MV窗口。

进一步地，对于轻量级线程由windows操作系统自动调度；而对于计算密集型线程，采用进程内全局监控的方式在线程创建或唤醒时，根据当前正在工作的计算密集型线程在两个CPU组的分配关系，选择一个合适的CPU组，将其指定在这个CPU组中运行。

进一步地，非编代码中与GPU资源相关的全局变量处理成动态管理和指针数组管理，并根据当前时间线绝对位置来决定向哪个设备申请、释放GPU资源。

进一步地，对非编的特效和字幕插件设置具体的GPU索引编号。

进一步地，对动态的字幕和特效进行帧间解耦，使每帧的参数修改为能够独立计算；在多个GPU上面完成特效和字幕插件的初始化数据和渲染操作。

本发明的有益效果是：

（1）本发明在非编软件中采用CPU+多GPU的架构，通过本发明将CPU解码后的帧上行到多个GPU，并对多个GPU渲染后的帧排序、判断位置和调用下行输出，能够自主控制调度多个GPU资源，实现将渲染任务合理分配到多个GPU去完成。实施本方案之后，一方面因为GPU数量的增加从而增强了非编软件的总体渲染能力，另一方面因为每个GPU使用独立的PCIE插槽，增加了PCIE传输总带宽，从而显著提高了非编软件的超高清编辑实时层数；并且，能使用多GPU进行动态字幕和特效的渲染，实现了计算密集型线程在多个CPU组之间的均衡，充分利用了CPU的所有核。

（2）应用本发明在非编软件使用场景中，在非编时间线相同时，使用多GPU处理完成一帧的平均时间会比单GPU更低。例如对于非编恒定帧率的播放来说，单位时间内使用多GPU会节约出更多的时间余量，从而可以实现更多的实时层数，因此在渲染能力上高于在游戏行业场景中使用两张GPU做SLI交火的方式提高整体渲染性能的方案，且通过上行CPU解码数据到多个GPU，多个GPU通过独立的PCIE插槽分别连接CPU，增加了PCIE传输总带宽，提高了非编软件的超高清编辑实时层数，并对多个GPU渲染后的帧排序、判断位置和调用下行输出等，提高了GPU任务划分、渲染和调用效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的架构示意图；

图2为本发明的方法步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征（包括任何附加权利要求、摘要和附图），或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合或替换。

如图1，2所示，一种基于多GPU提高大幅面非线性编辑实时层数的方法，包括步骤：

S2，对渲染完成的帧进行重排序；

在本发明的实施例中，使用一台计算机工作站，其中CPU、内存、硬盘按需配置，在PCIE插槽中插入一张专业IO卡用于实时输出到专业监视器进行监看。另外在PCIE插槽中插入多张GPU，GPU的数量一般为2至4张（视具体工作站的PCIE 3.0 x16插槽数量而定），其中一张GPU的HDMI或DP接口接显示器用于非编软件的界面显示。

本发明实施例的软件架构为CPU+多GPU。CPU将解码后的视频数据，以帧作为渲染任务划分的最小粒度，按时间线帧号顺序依次交替送给多个GPU进行视频渲染，多个GPU渲染完成的数据经排序后送给显示器显示和监视器监看。

一、GPU任务划分

采用按帧划分任务的方式，即CPU解码之后的帧，按照非编时间线绝对位置的帧号交替上行到多个GPU，在多个GPU上面分别做渲染。如图1所示，假设总共使用了N张GPU，则时间线第0帧所有视频轨道的数据上行到0# GPU，时间线第1帧所有视频轨道的数据上行到1#GPU…时间线第N-1帧所有视频轨道的数据上行到N-1# GPU，时间线第N帧所有视频轨道的数据上行到0# GPU…以此类推，循环往复。

二、渲染完成帧的排序

非编在做编辑时，需要用非编MV窗口在显示器上实时显示渲染效果，以及需要用专业IO卡实时输出到专业监视器做监看。由于使用了多个GPU做渲染，各帧渲染完成的数据是分散在多个GPU之上的，所以需要对渲染完成的帧重新进行排序。

本发明实施例在非编软件中建立了一个渲染完成帧队列，记录的每个元素是一个结构体，其中包括时间线帧号、GPU编号和GPU显存地址指针（存放渲染完成的帧数据）。队列的每个元素按照时间线帧号顺序插入队列，这样从队列里往外获取的时候是严格保证帧号是顺序的。

对于专业IO卡输出渲染数据，非编从渲染完成队列里顺序取帧，判断数据在哪个GPU之上，调用对应GPU的下行，送给专业IO卡输出。

对于非编MV窗口显示渲染数据，非编是使用DirectX API接口，多个GPU绑定了同一个显示窗口。非编从渲染完成队列里顺序取帧，调用DirectX的Present接口函数，由DirectX自动实现将这帧数据在显示器窗口中绘制出来。

三、非编使用多GPU涉及到的其他改造

针对多GPU资源的管理及应用，涉及多GPU资源构建、释放、重置、切换、窗口注册流程。非编代码中和GPU资源相关的全局变量需处理成动态管理、单指针调整为指针数组。上行、下行、颜色转换、缓冲帧创建（MV/SV预览）、纹理归一化、字幕渲染缓冲区、合场等各个需要GPU资源的环节动态根据当前时间线绝对位置来决定向哪个设备申请、释放GPU资源。

非编的特效和字幕插件，需要被设置具体的GPU索引编号，在多个GPU上面完成初始化数据和接下来的渲染操作。静态的字幕和特效，在每个GPU上面的渲染算法，和单GPU渲染算法相同。动态的字幕和特效，因为帧间具备相关性，这帧的输入参数依赖前一帧的参数计算结果，无法直接移植到多GPU，所以需要对动态的渲染算法进行改造，帧间解耦，每帧的参数修改为可以独立计算，这样就能使用多GPU进行动态字幕和特效的渲染。

四、指定线程分配在不同的CPU组

由于使用多GPU方案之后，渲染能力和视频数据上下行能力得到很大提升，非编实时层数上升很多，相应的对CPU解码能力也提出了更高要求，需要使用总共64核以上的CPU才能满足更多数量的多层视频实时解码。由于windows操作系统的限制，当CPU总核数超过64时，windows操作系统会将cpu划分成两个组，并且windows会将一个进程中的所有线程放在一个cpu组中去执行。要想把另外一个cpu组也利用起来，需要对线程手动指定cpu组的亲和性，即手动指定这个线程运行在哪一个cpu组之上。

在本方案中，本发明实施例对非编软件中的所有线程进行了梳理，有些线程属于计算密集型线程，如解码线程，格式变换线程等，而其他大多线程属于轻量级的消息和事务型线程，它们对cpu消耗很低。对于轻量级线程，本发明实施例仍然交给windows操作系统自动调度。而对于计算密集型线程，本发明实施例采用进程内全局监控的方式，在线程创建或唤醒时，根据当前正在工作的计算密集型线程在两个CPU组的分配关系，选择一个合适的CPU组，将其指定在这个CPU组中运行，这样就实现了计算密集型线程在多个CPU组之间的均衡，充分利用了CPU的所有核。

本发明实施例使用相同的非编时间线，对单GPU和多GPU情况下的耗时进行分析。当非编软件只使用单GPU时，每帧在CPU处理的平均时间为t_d，每帧平均上下行时间为t_t，每帧平均渲染时间为t_r，则处理完成一帧的总时间为t_d+t_t+t_r。

当使用多GPU时，假设使用N张GPU。每帧在CPU处理的平均时间仍然为t_d，每帧平均上下行时间缩减为t_t/N，每帧平均渲染时间也缩减为t_r/N，则处理完成一帧的总时间为t_d+t_t/N+t_r/N。

显而易见，在非编时间线相同时，使用多GPU处理完成一帧的平均时间会比单GPU更低。对于非编恒定帧率（例如50fps）的播放来说，单位时间内使用多GPU会节约出更多的时间余量，从而可以实现更多的实时层数。

在非编软件中采用CPU+多GPU的架构，通过本发明实施例控制调度多个GPU资源，将渲染任务合理分配到多个GPU去完成。实践证明，实施本方案之后，一方面因为GPU数量的增加从而增强了非编软件的总体渲染能力，另一方面因为每个GPU使用独立的PCIE插槽，本质上增加了PCIE传输总带宽，从而显著提高了非编软件的超高清编辑实时层数。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，包括步骤：

S2，对渲染完成的帧进行重排序；

2.根据权利要求1所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，在步骤S1中，CPU解码后的帧按照非编时间线绝对位置的帧号交替上行到多个GPU。

3.根据权利要求1所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，在步骤S2中，在非编软件中建立渲染完成帧队列，该队列记录的每个元素是一个结构体。

4.根据权利要求3所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，所述队列的每个元素按照时间线帧号顺序插入队列。

5.根据权利要求3所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，所述结构体包括时间线帧号、GPU编号和GPU显存地址指针，GPU显存地址指针用于存放渲染完成的帧数据。

6.根据权利要求1所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，在步骤S3中，在非编MV窗口显示渲染数据，且多个GPU绑定同一个非编MV窗口。

7.根据权利要求1~6任一所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，对于轻量级线程由windows操作系统自动调度；而对于计算密集型线程，采用进程内全局监控的方式在线程创建或唤醒时，根据当前正在工作的计算密集型线程在两个CPU组的分配关系，选择一个合适的CPU组，将其指定在这个CPU组中运行。

8.根据权利要求1~6所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，非编代码中与GPU资源相关的全局变量处理成动态管理和指针数组管理，并根据当前时间线绝对位置来决定向哪个设备申请、释放GPU资源。

9.根据权利要求8所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，对非编的特效和字幕插件设置具体的GPU索引编号。

10.根据权利要求9所述的基于多GPU提高大幅面非线性编辑实时层数的方法，其特征在于，对动态的字幕和特效进行帧间解耦，使每帧的参数修改为能够独立计算；在多个GPU上面完成特效和字幕插件的初始化数据和渲染操作。