CN104768000A

CN104768000A - 异构集群中实现x264编码加速的方法、系统及计算节点

Info

Publication number: CN104768000A
Application number: CN201410002089.5A
Authority: CN
Inventors: 王继刚; 周斌
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2015-07-08
Also published as: WO2015100956A1

Abstract

本发明公开了一种异构集群中实现X264编码加速的方法、系统及计算节点，包括获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理；将来自各计算节点利用GPU设备进行编码加速处理后得到的编码后的结果，合并为完整的视频。本发明中基于支持GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了GPU设备进行二次加速，充分发挥了异构集群的优势。而且，在本发明提供的技术方案中，利用GPU设备的性能优势，提高了通用性和兼容性。

Description

异构集群中实现X264编码加速的方法、系统及计算节点

技术领域

本发明涉及图形处理技术，尤指一种基于支持GPU的异构集群中实现X264编码加速的方法、系统及计算节点。

背景技术

目前，在X264编码优化领域主要有软件优化和硬件优化两个方面。其中，专门的硬件优化技术代价高，往往需要特定的硬件平台来支持，而且不能通用；软件优化技术，主要从算法层次和并行加速两个方面着手：X264程序本身，简化了H.264标准中的很多复杂算法，同时使用CPU中的多媒体指令从指令并行的角度进行了加速设计。目前，已有的X264程序的加速方案主要是利用同构集群或者单机上的图形处理器（GPU，Graphic ProcessingUnit）设备，来加速X264编码效率。

现有技术中，提出了集群环境中加速X264程序的设计和实现方案，参见“PC集群中的H.264并行编码效率分析”（“Parallel Coding EfficiencyAnalysis of H.264on PC cluster”(IEEE2010)，其中，在集群中对slice并行方案和帧（frame）并行方案，进行了设计与分析，H.264标准规定每个图像帧可以划分为一个或多个slice，每个slice可包含多个宏块。虽然frame级并行方案，能减缓数据传输的压力，但是，frame方案中针对的是同构的集群环境，而且，在其基于帧（frame_based）并行方案中，主节点每次将一帧的数据传给一个计算节点进行计算，这样的实现方式并不能在有多个计算节点的集群中很好的发挥作用。

在AMD的公开号为US2009/0016430，发明名称为“利用GPU加速的软件视频编码器”（“Software Video Encoder with GPU Acceleration”）的申请中，提出了一种将整个编码任务分解，不同的任务调度到不同的设备进行计算的方案。在该技术方案中，GPU主要完成运动搜索过程以及熵编码过程。该方法突出的是，CPU间多线程的任务分配，而GPU设备的性能并没有发挥出来。

在“基于CUDA的H.264并行编码器研究与实现”（国防科学技术大学，苏华友硕士论文，2010年11月）中，提出了在单个GPU上利用统一设备架构（CUDA）加速H.264并行编码器的实现方案。利用GPU加速了X.264程序中的帧间预测、帧内预测、熵编码等过程。但是，其提出的加速方案中，由于加速的几个模块是严格的串行执行过程，因此，整体的加速性能受到了很大的影响。同时，在每一个模块的计算时，都是以宏块为单位顺序进行的，虽然文中采用了对角线扫描的方式以增加宏块处理的并行性，但是，这样的并行处理方式仍不能发挥GPU的优势。另外，该方法仅使用单个GPU加速，没有考虑集群环境，且基于CUDA加速，故其能够支持的GPU设备显然是受限的，比如该方法就不能支持AMD公司的GPU设备。

综上所述，现有基于支持GPU的异构集群的X264编码加速中，要么不能在有多个计算节点的集群中发挥作用，要么未考虑集群环境，不能将GPU设备的性能优势发挥出来，而且通用性和兼容性不好。

发明内容

为了解决上述技术问题，本发明提供一种异构集群中实现X264编码加速的方法、系统及计算节点，能够充分发挥异构集群的优势，利用GPU设备的性能优势，提高通用性和兼容性。

为了达到本发明目的，本发明提供了一种异构集群中实现X264编码加速的方法，包括：获取集群中计算节点的设备信息；

计算待编码的视频序列帧数目，同时按照所述计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理；

将来自各计算节点利用图形处理器GPU设备进行编码加速处理后得到的结果，合并为完整的视频。

所述计算待编码的视频序列帧frame数目包括：

对待编码的视频中的码流数据进行分离，获取视频流数据；

针对不同的视频格式，对获得的视频流数据进行解析，获取不同的视频流数据的头部以及视频流数据的视频段；

根据计算得出的视频流数据每一帧的大小，以及视频流数据的总长度，计算待编码的视频序列数目。

所述计算节点的设备信息，主要包括CPU设备的核的数目、GPU设备工作组信息。

所述每一个计算节点的计算任务v(v₁,v₂L v_n)如下式所示：

其中，v_i表示计算节点i上的计算任务，其中i=1,2,3…n；g_i（i=1,2,3…n）表示计算节点i上是否存在GPU设备，^～g_i表示对g_i的值取反的运算；v表示视频序列数目；p_i（p_i=1,2,3…n）表示计算节点i的CPU设备的核的数目；floor表示下取整运算;。

所述将待编码的视频序列帧分段调度到相应的计算节点并行处理包括：

将各所述计算任务所包含的视频段调度到对应的计算节点上，每一个计算节点从对应的偏移量开始，依次处理接下来的vi帧视频序列；

其中，待编码的视频帧的偏移量分别为

本发明还提供了一种异构集群中实现X264编码加速的方法，包括：计算节点对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的GPU工作组中，并行地处理一帧中的所有像素点的插值结果；

根据得到的插值结果，在GPU设备中并行计算时，将一个宏块的计算映射到GPU的一个本地工作组中，将不同的计算任务分别映射到不同的工作单元中进行计算；将编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价；

同时，并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价；

比较当前编码帧，在不同的编码模式下的帧内编码代价、帧间编码代价，以及综合编码中率失真优化、确定当前帧的编码类型。

本发明又公开了一种异构集群中实现X264编码加速的系统，至少包括源主节点、目的主节点、一个或一个以上计算节点；其中，

源主节点，用于获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；

计算节点，用于利用GPU设备进行编码加速处理后，将编码后的结果输出给目的主节点；

目的主节点，用于接收来自各计算节点的编码后的结果，将其合并为完整的视频。

所述源主节点与目的主节点是同一节点。

所述计算节点的设备信息至少包括CPU设备的核的数目、GPU设备工作组信息。

本发明还公开了一种节点，用于获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；接收来自各计算节点利用图形处理器GPU设备进行编码加速处理后的编码结果，并将编码后的结果合并为完整的视频。

本发明再公开了一种计算节点，至少包括预处理模块、帧内编码代价计算模块、帧间编码代价计算模块，以及处理模块；其中，

预处理模块，用于对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的GPU工作组中，并行地处理一帧中的所有像素点的插值结果，将插值结果输出给帧内编码代价计算模块和帧间编码代价计算模块；

帧内编码代价计算模块，用于在GPU设备中并行计算时，将一个宏块的计算映射到GPU的一个本地工作组中，将不同的计算任务分别映射到不同的工作单元中进行计算；将编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价；

帧间编码代价计算模块，用于并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价；

处理模块，用于比较当前编码帧，在不同的编码模式下的帧内编码代价、帧间编码代价，以及综合编码中率失真优化、确定当前帧的编码类型。

与现有技术相比，本申请技术方案提供包括获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理；各计算节点利用GPU设备进行编码加速处理后，将编码后的结果合并为完整的视频。本发明中基于支持GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了GPU设备进行二次加速，充分发挥了异构集群的优势。而且，在本发明提供的技术方案中，利用GPU设备的性能优势，提高了通用性和兼容性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于支持GPU的异构集群中实现X264编码加速的方法的流程图；

图2为本发明基于支持GPU的异构集群中实现X264编码加速的系统的组成结构示意图；

图3为本发明计算节点的组成结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明基于支持GPU的异构集群中实现X264编码加速的方法的流程图，如图1所示，包括以下步骤：

步骤100：获取集群中计算节点的设备信息。

在异构集群中，计算节点可以是一个或一个以上，计算节点的设备信息是指计算节点中的所有设备的信息，主要包括CPU设备的核的数目、GPU设备工作组信息等，目前的集群系统或集群软件都提供直接获取到各计算节点的设备信息的功能，属于本领域技术人员的公知技术，这里不再赘述。

对于异构集群，假设计算节点的数目是n，n为大于1的自然数；那么，CPU设备的核的数目采用p(p₁,p₂L p_n)表示，其中，p_i（i=1,2,3…n）表示计算节点i的CPU设备的核的数目；GPU设备工作组采用local_dim(x,y,z)，global_dim(x,y,z)，其中，前者为工作组的局部ID，后者为工作组的全局ID，是OpenCL中的默认表示方式，这里的ID是每个核的ID。这里，使用exist_gpu(g₁,g₂L g_n)来表示对应的计算节点上是否存在GPU设备，其中,g_i（i=1,2,3…n）表示计算节点i上是否存在GPU设备，比如g_i=0表示不存在，g_i=1表示存在等。

步骤101：计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理。

本步骤中，计算待编码的视频序列帧（frame）数目包括：将待编码的视频按照不同的视频序列的类型和视频格式，计算待编码的视频序列frame数目V。具体实现中，首先，对待编码的视频中的码流数据进行分离，获取视频流数据，具体实现属于本领域技术人员的惯用技术手段，这里不再赘述；然后，针对不同的视频格式，对获得的视频流数据进行解析，获取不同的视频流数据的头部（即头字段）以及视频数据的详细信息（即视频段）；最后，计算视频流数据每一帧的大小frame_size，以及视频流数据的总长度len，并按照公式(1)计算得出待编码的视频序列frame数目V：

V＝len/frame_size (1)

本步骤中，按照计算节点的设备信息分配视频编码任务包括：

按照每一个计算节点的CPU设备的核的数目，以及GPU设备的设备信息，分配视频编码任务。具体的编码任务分配中，为了简化编码任务分配的难度，可以认为每一个CPU节点的处理能力只与处理器数目相关，有GPU的计算节点和没有GPU计算节点的处理能力相比是一个常量。由此，得出每一个计算节点的编码任务即计算任务v(v₁,v₂L v_n)如公式(2)所示：

v_{i} = floor (\frac{v \times (p_{i} \times g_{i} \times &PartialD; + p_{i} \times^{~} g_{i})}{Σ_{1}^{n} p_{i} \times g_{i} \times &PartialD; + Σ_{1}^{n} p_{i} \times^{~} g_{i}}) - - - (2)

在公式(2)中，v_i表示计算节点i上的计算任务，其中i=1,2,3…n。^～g_i表示对g_i的值取反的运算，floor表示下取整运算;p_i（p_i=1,2,3…n）表示计算节点i的CPU设备的核的数目，g_i（i=1,2,3…n）表示计算节点i上是否存在GPU设备，V表示视频序列frame数目。

那么，每一个计算节点在对其编码任务进行编码时，读取的待编码的视频帧的偏移量分别为

offset (0, v_{1}, v_{1} + v_{2}, . . ., Σ_{1}^{n - 1} v_{i}) .

本步骤中，将待编码的视频序列帧分段调度到相应的计算节点并行处理包括：按照公式(2)中分配的计算任务，将各自的计算任务所包含的视频段调度到对应的计算节点上。每一个计算节点从对应的偏移量开始，依次处理接下来的v_i帧视频序列。

通过本发明步骤100～步骤101，依据计算节点的设备信息，针对其处理能力为每一个计算节点划分了计算任务，各计算节点在在整个集群环境中，对待编码的视频进行并行处理，达到了加速视频编码的目的，提高了编码效率。

步骤102：将来自各计算节点利用GPU设备进行编码加速处理后得到的编码后的结果，合并为完整的视频。

本步骤中，对于各个计算节点，针对X264程序的特点和编码流程的限制，对X264的前期预测线程进行并行加速处理。这样，对于X264的整体处理过程来讲，本发明强调的是，编码过程由适宜做逻辑运算的CPU设备来执行，而预测处理过程则由GPU设备来执行，GPU的编码是采用的通用的OpenCL技术来实现的。具体地，本步骤中，各计算节点利用GPU设备进行编码加速处理包括：

首先，对待编码的视频段进行预处理，即将不同的待编码的视频帧的最小组成单元即像素点映射到计算节点中的不同的GPU工作组中，所有的像素点计算都是独立进行的，并行地处理一帧中的所有像素点的插值结果，并缓存最终结果以作为计算帧编码代价的输入参数；这里，为了降低运算的复杂度，可以将预处理设置为比如针对8×8宏块进行处理。

然后，根据预处理后的插值结果进行帧内编码代价计算和帧间编码代价计算，其中，

帧内编码代价计算包括：每一个宏块（像素点的集合）的处理都有M种如8种不同的预测模式。在GPU设备中并行计算时，将一个宏块的计算映射到GPU的一个本地工作组中，将8种不同的计算任务分别映射到8个不同的工作单元中进行计算。一帧中的所有宏块映射到GPU的全局工作组中。计算得出每一个宏块的预测模式后，比较8种预测模式中编码代价最小的预测模式，选择编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价。计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价intra_cost；

帧间编码代价计算包括：并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中。计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价inter_cost。

其中，帧内编码代价计算、帧间编码代价计算属于本领域技术人员的惯用技术手段，具体实现这里不再赘述。

接着，通过比较当前编码帧，在不同的编码模式下的帧内编码代价intra_cost、帧间编码代价inter_cost，以及综合编码中率失真优化、及其它编码参数限制条件下，确定当前帧的编码类型。具体实现属于本领域技术人员的公知技术，这里不再赘述。

本步骤中，将编码后的结果合并为完整的视频包括：

每一个计算节点，会将编码后的编码结果返回给主节点，主节点按照输出视频的格式，对来自各计算节点编码后的码流数据进行重新封装，合成一个完整的视频。具体实现属于本领域技术人员的惯用技术手段，这里不再赘述。其中，对于本发明来讲，主节点指的是同一节点，也可以将其分为源节点与目的节点。

通过本步骤，在单个计算节点中，CPU和GPU设备相互协调工作，对待编码视频的前期预处理在GPU中实现，而视频编码在CPU中实现，充分发挥了GPU和CPU各自设备的优势，进一步提升了编码的性能。

与传统的同构集群不同，本发明中使用的支持GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了GPU设备进行二次加速，充分发挥了异构集群的优势。与已有的采用CUDA技术实现环节不同，本发明提供的技术方案中，GPU的加速环节采用OpenCL技术来实现，实现了在应用X264应用软件的通用性和兼容性上提供支持，从而实现了在不同公司如AMD和Nivida公司的GPU设备上的运行。

图2为本发明基于支持GPU的异构集群中实现X264编码加速的系统的组成结构示意图，如图2所示，至少包括源主节点、目的主节点、一个或一个以上计算节点；其中，

其中，源主节点与目的主节点可以是同一节点。本发明还提供一种节点，用于获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；接收来自各计算节点利用图形处理器GPU设备进行编码加速处理后的编码结果，并将编码后的结果合并为完整的视频。

其中，计算节点的设备信息至少包括CPU设备的核的数目、GPU设备工作组信息。

图3为本发明计算节点的组成结构示意图，如图3所示，计算节点至少包括预处理模块300、帧内编码代价计算模块301、帧间编码代价计算模块302，以及处理模块303；其中，

预处理模块300，用于对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的GPU工作组中，并行地处理一帧中的所有像素点的插值结果，将插值结果输出给帧内编码代价计算模块301和帧间编码代价计算模块302；

帧内编码代价计算模块301，用于在GPU设备中并行计算时，将一个宏块的计算映射到GPU的一个本地工作组中，将不同的计算任务分别映射到不同的工作单元中进行计算；将编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价；

帧间编码代价计算模块302，用于并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价；

处理模块303，用于比较当前编码帧，在不同的编码模式下的帧内编码代价、帧间编码代价，以及综合编码中率失真优化、确定当前帧的编码类型。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种异构集群中实现X264编码加速的方法，其特征在于，包括：获取集群中计算节点的设备信息；

2.根据权利要求1所述的方法，其特征在于，所述计算待编码的视频序列帧frame数目包括：

对待编码的视频中的码流数据进行分离，获取视频流数据；

3.根据权利要求1所述的方法，其特征在于，所述计算节点的设备信息，主要包括CPU设备的核的数目、GPU设备工作组信息。

4.根据权利要求3所述的方法，其特征在于，所述每一个计算节点的计算任务v(v₁,v₂…v_n)如下式所示：

其中，v_i表示计算节点i上的计算任务，其中i=1,2,3…n；g_i（i=1,2,3…n）表示计算节点i上是否存在GPU设备，^～g_i表示对g_i的值取反的运算；v表示视频序列数目；p_i（p_i=1,2,3…n）表示计算节点i的CPU设备的核的数目；floor表示下取整运算。

5.根据权利要求1所述的方法，其特征在于，所述将待编码的视频序列帧分段调度到相应的计算节点并行处理包括：

将各所述计算任务所包含的视频段调度到对应的计算节点上，每一个计算节点从对应的偏移量开始，依次处理接下来的v_i帧视频序列；

其中，待编码的视频帧的偏移量分别为

6.一种异构集群中实现X264编码加速的方法，其特征在于，包括：计算节点对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的GPU工作组中，并行地处理一帧中的所有像素点的插值结果；

7.一种异构集群中实现X264编码加速的系统，其特征在于，至少包括源主节点、目的主节点、一个或一个以上计算节点；其中，

8.根据权利要求7所述的系统，其特征在于，所述源主节点与目的主节点是同一节点。

9.根据权利要求7或8所述的系统，其特征在于，所述计算节点的设备信息至少包括CPU设备的核的数目、GPU设备工作组信息。

10.一种节点，其特征在于，用于获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；接收来自各计算节点利用图形处理器GPU设备进行编码加速处理后的编码结果，并将编码后的结果合并为完整的视频。

11.一种计算节点，其特征在于，至少包括预处理模块、帧内编码代价计算模块、帧间编码代价计算模块，以及处理模块；其中，