CN110381321A

CN110381321A - 一种用于运动补偿的插值计算并行实现方法

Info

Publication number: CN110381321A
Application number: CN201910784994.3A
Authority: CN
Inventors: 谢晓燕; 周金娜; 朱筠; 蒋林; 雷祥; 王昱
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-10-25
Anticipated expiration: 2039-08-23
Also published as: CN110381321B

Abstract

本发明实施例涉及一种用于运动补偿的插值计算并行实现方法，该方法包括：基于邻接互连的4×4的二维处理元阵列构建用于运动补偿的并行结构；基于获取的视频图像，读取原始像素值和参考像素值，并在所述并行结构的所述处理元中并行地进行插值计算，得到预测值；根据所述预测值和所述原始像素值计算得到运动补偿的残差值；根据所述预测值和经过处理后的残差值进行图像重建，得到补偿后的视频图像。本发明通过构建并行结构，对运动补偿算法进行并行化实现，提高其插值过程的计算效率，能够满足插值计算的并行计算要求，缩短其编码时间。

Description

一种用于运动补偿的插值计算并行实现方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种用于运动补偿的插值计算并行实现方法。

背景技术

HEVC(High Efficiency Video Coding，简称HEVC)中运动补偿算法所需的预测单元(Prediction Unit，简称PU)块越大，需要计算的插值像素点越多，需要处理的分像素位置情况也更复杂。如果每次只处理一个像素点，只针对一种分像素位置进行处理，耗时较长，算法的计算效率低下。运动补偿算法在同一时间内可以进行相同的插值计算操作，比如执行8×8像素块，每个像素点的插值计算和其余63个像素点的插值计算并无数据相关性，所以插值计算过程可以采用并行的思想，在同一时刻处理多个像素。

HEVC是在视频编码专家组(Video Coding Experts Group，简称ITU-T VCEG)和运动图像专家组(Moving Picture Experts Group，简称ISO/IEC MPEG)的共同协作下开发的最新视频编码标准。其运动补偿算法采用了8抽头亮度滤波器和4抽头色度滤波器进行插值操作，分别占编码器和解码器执行时间的20～30％和20～40％，使得插值滤波器成为HEVC中最耗时的编码工具之一，而且插值运算的高复杂性也增加了对硬件加速的需求。

可见，现有技术中的运动补偿存在编码耗时的问题。

上述缺陷是本领域技术人员期望克服的。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种用于运动补偿的插值计算并行实现方法，解决现有技术中的运动补偿编码耗时的问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

本发明一实施例提供一种用于运动补偿的插值计算并行实现方法，包括：

基于邻接互连的4×4的二维处理元阵列构建用于运动补偿的并行结构；

基于获取的视频图像，读取原始像素值和参考像素值，并在所述并行结构的所述处理元中并行地进行插值计算，得到预测值；

根据所述预测值和所述原始像素值计算得到运动补偿的残差值；

根据所述预测值和经过处理后的残差值进行图像重建，得到补偿后的视频图像。

本发明的一个实施例中，所述读取原始像素值和参考像素值之前，还包括：

将视频的测试序列转换成所述阵列能识别的二进制数据；

将所述二进制数据分布在文档中，并存储在数据输入存储DIM中，作为所述原始像素值；

根据所述视频中的前一帧处理后的图像，存储在数据输出存储DOM中，作为所述参考像素值。

本发明的一个实施例中，所述读取原始像素值和参考像素值包括：

通过所述二维处理元阵列中第一行第一列的处理元PE00以邻接互连的方式访问所述DIM读取相应的原始像素值；

通过所述二维处理元阵列中第一行第二列的处理元PE01以邻接互连的方式访问所述DOM读取相应的参考像素值。

本发明的一个实施例中，所述读取原始像素值和参考像素值之后，所述在所述并行结构的所述处理元中并行地进行插值计算之前，还包括：

处理元PE00将所述原始像素值下发到处理元PE03中，处理元PE01将所述参考像素值下发到处理元PE00，PE02，PE03中；

处理元PE00，PE01，PE02，PE03分别将所述参考像素值并行下发到处理元PE10，PE11，PE12，PE13中；处理元PE10，PE11，PE12，PE13分别将所述参考像素值并行下发到处理元PE20，PE21，PE22，PE23中；

处理元PE20，PE21，PE22，PE23分别将所述参考像素值并行下发到处理元PE30，PE31，PE32，PE33中。

本发明的一个实施例中，在所述并行结构的所述处理元中并行地进行插值计算包括：

以1/2像素精度或1/4像素精度在所述二维处理元阵列的每个处理元中同时进行插值计算，每个所述处理单元中执行4个像素值的计算，得到4个像素预测值；

将每个所述处理单元中的4个像素预测值分别存储到所述二维处理元阵列中第一行第四列的处理元PE03中。

本发明的一个实施例中，以1/2像素精度进行插值时，使用8抽头滤波器进行插值计算。

本发明的一个实施例中，以1/4像素精度进行插值时，使用7阶非对称FIR滤波器。

本发明的一个实施例中，进行插值计算时采用水平方向滤波、垂直方向滤波和水平方向与垂直方向相结合的方式滤波三种模式进行滤波。

本发明的一个实施例中，进行插值计算时，当运动矢量指向整数样本所在的位置时，不进行插值计算；当所述运动矢量指向非整数样本所在的位置时，利用插值对所述非整数样本进行预测，得到所述预测值。

(三)有益效果

本发明的有益效果是：本发明实施例提供的用于运动补偿的插值计算并行实现方法，通过构建并行结构，对运动补偿算法进行并行化实现，提高其插值过程的计算效率，能够满足插值计算的并行计算要求，缩短其编码时间。

附图说明

图1为本发明一实施例提供的一种用于运动补偿的插值计算并行实现方法的流程图；

图2为本发明一实施例中用于运动补偿的并行结构的架构图；

图3为本发明一实施例中亮度插值分数样本位置示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

在本发明相关实施例中，HEVC中运动补偿算法所需的预测单元(PredictionUnit，简称PU)块越大，需要计算的插值像素点越多，需要处理的分像素位置情况也更复杂。如果每次只处理一个像素点，只针对一种分像素位置进行处理，耗时较长，算法的计算效率低下。运动补偿算法在同一时间内可以进行相同的插值计算操作，比如执行8×8像素块，每个像素点的插值计算和其余63个像素点的插值计算并无数据相关性，所以在插值计算过程可以采用并行的思想，即在同一时刻处理多个像素。因此本发明中设计一种能够支持HEVC视频编码标准的运动补偿算法的体系结构，并不能套用原有的架构，而是要重新设计其架构，该架构可以满足插值计算的并行计算要求。

图1为本发明一实施例提供的一种用于运动补偿的插值计算并行实现方法的流程图，如图1所示，该方法包括以下步骤：

如图1所示，在步骤S110中，基于邻接互连的4×4的二维处理元阵列构建用于运动补偿的并行结构；

如图1所示，在步骤S120中，基于获取的视频图像，读取原始像素值和参考像素值，并在所述并行结构的所述处理元中并行地进行插值计算，得到预测值；

如图1所示，在步骤S130中，根据所述预测值和所述原始像素值计算得到运动补偿的残差值；

如图1所示，在步骤S140中，根据所述预测值和经过处理后的残差值进行图像重建，得到补偿后的视频图像。

在图1所示本发明实施例所提供的技术方案中，通过构建并行结构，对运动补偿算法进行并行化实现，提高其插值过程的计算效率，能够满足插值计算的并行计算要求，缩短其编码时间。

以下对图1所示实施例的各个步骤的具体实现进行详细阐述：

在步骤S110中，基于邻接互连的4×4的二维处理元阵列构建用于运动补偿的并行结构。

本发明的一个实施例中，在视频编码中，将视频图像划分为多个宏块，每个宏块由一个亮度像素块和两个色度像素块组成。本实施例中以16个处理元(Processing Element，简称PE)为例，图2为本发明一实施例中用于运动补偿的并行结构的架构图，如图2所示，包括4×4的PE，即第一行分别是PE00、PE01、PE02和PE03，第二行分别是PE10、PE11、PE12和PE13，第三行分别是PE20、PE21、PE22和PE23，第四行分别是PE30、PE31、PE32和PE33。

本发明的一个实施例中，该步骤中读取原始像素值和参考像素值之前，还包括：

首先，将视频的测试序列转换成所述阵列能识别的二进制数据；其次，将所述二进制数据分布在文档中，并存储在数据输入存储DIM中，作为所述原始像素值；最后，根据所述视频中的前一帧处理后的图像，存储在数据输出存储DOM中，作为所述参考像素值。

该步骤主要是数据准备的过程，在加载数据之前应针对不同分辨率的测试序列进行编码块首地址存放。需要将视频的YUV测试序列通过Matlab软件转换成阵列结构能识别的二进制数值。然后该二进制数值的数据以阵列的格式分布在文档中，并存放到数据输入存储(Data Input Memory，简称DIM)中；参考帧的数据是前一帧处理之后的像素值存储在(Data Output Memory，简称DOM)中的。其中YUV为一种数据格式，Y表示亮度，U、V表示颜色的色度。

在步骤S120中，基于获取的视频图像，读取原始像素值和参考像素值，并在所述并行结构的所述处理元中并行地进行插值计算，得到预测值。

本发明的一个实施例中，该步骤中读取原始像素值和参考像素值包括：

首先，通过所述二维处理元阵列中第一行第一列的处理元PE00以邻接互连的方式访问所述DIM读取相应的原始像素值；然后，通过所述二维处理元阵列中第一行第二列的处理元PE01以邻接互连的方式访问所述DOM读取相应的参考像素值。

上述为数据加载的过程，即通过处理元PE00以邻接互连的方式访问DIM，并读取相应的原始像素值；处理元PE01以邻接互连的方式访问DOM，并读取相应的参考像素值。

本发明的一个实施例中，该步骤中读取原始像素值和参考像素值之后，在所述并行结构的所述处理元中并行地进行插值计算之前，还包括：

数据下发的过程，即待处理元PE00读取到原始像素，处理元PE01读取到参考像素值后，处理元PE00将所述原始像素值下发到处理元PE03中，处理元PE01将所述参考像素值下发到处理元PE00，PE02，PE03中；处理元PE00，PE01，PE02，PE03分别将所述参考像素值并行下发到处理元PE10，PE11，PE12，PE13中；处理元PE10，PE11，PE12，PE13分别将所述参考像素值并行下发到处理元PE20，PE21，PE22，PE23中；处理元PE20，PE21，PE22，PE23分别将所述参考像素值并行下发到处理元PE30，PE31，PE32，PE33中。

本发明的一个实施例中，该步骤中在所述并行结构的所述处理元中并行地进行插值计算具体包括：

首先，以1/2像素精度或1/4像素精度在所述二维处理元阵列的每个处理元中同时进行插值计算，每个所述处理单元中执行4个像素值的计算，得到4个像素预测值；然后，将每个所述处理单元中的4个像素预测值分别存储到所述二维处理元阵列中第一行第四列的处理元PE03中。

基于上述，每个PE接收到数据(原始像素值或参考像素值)之后，就开始进行1/2或者1/4插值计算。由于运动补偿算法在同一时间内有大量相同的插值计算，每个像素点的插值计算和其他像素点的插值计算并无数据相关性，所以插值计算可以在16个PE中同时进行，以8×8像素块为例解释插值计算过程，具体如下：

每个PE可以执行4个像素值的计算，可分别分配到16个PE中。以图2所示结构为例，PE00计算1号、5号、33号、37号这四个像素，将计算的值分别存储到PE03的300、304、332、336号地址中；PE01插值计算2号、6号、34号、38号这四个像素，将计算的值分别存储到PE03的301、305、333、337号地址中；PE02插值计算3号、7号、35号、39号这四个像素，将计算的值分别存储到PE03的302、306、334、338号地址中；PE03插值计算4号、8号、36号、40号这四个像素，将计算的值分别存储到PE03的303、307、335、339号地址中；PE10插值计算9号、13号、41号、45号这四个像素，将计算的值分别存储到PE03的308、312、340、344号地址中；PE11插值计算10号、14号、42号、46号这四个像素，将计算的值分别存储到PE03的309、313、341、345号地址中；PE12插值计算11号、15号、43号、47号这四个像素，将计算的值分别存储到PE03的310、314、342、346号地址中；PE13插值计算12号、16号、44号、48号这四个像素，将计算的值分别存储到PE03的311、315、343、347号地址中；PE20插值计算17号、21号、49号、53号这四个像素，将计算的值分别存储到PE03的316、320、348、352号地址中；PE21插值计算18号、22号、50号、54号这四个像素，将计算的值分别存储到PE03的317、321、349、353号地址中；PE22插值计算19号、23号、51号、55号这四个像素，将计算的值分别存储到PE03的318、322、350、354号地址中；PE23插值计算20号、24号、52号、56号这四个像素，将计算的值分别存储到PE03的319、323、351、355号地址中；PE30插值计算25号、29号、57号、61号这四个像素，将计算的值分别存储到PE03的324、328、356、360号地址中；PE31插值计算26号、30号、58号、62号这四个像素，将计算的值分别存储到PE03的325、329、357、361号地址中；PE32插值计算27号、31号、59号、63号这四个像素，将计算的值分别存储到PE03的326、330、358、362号地址中；PE33插值计算28号、32号、60号、64号这四个像素，将计算的值分别存储到PE03的327、331、359、363号地址中。

在步骤S130中，根据所述预测值和所述原始像素值计算得到运动补偿的残差值。

该步骤为残差值计算的过程，所有参考像素值经插值计算完成后，将原始像素值与插值后得到的预测值相减后，得到运动补偿的残差值。

由于运动补偿是减少图像间冗余的有效手段，可以根据前后帧的局部图像来预测补偿当前的局部图像，主要完成的是亚像素插值补偿的工作。在运动估计中，得到的运动矢量(Motion Vector，简称MV)是亚像素精度，而参考图像是整像素的，亚像素位置上没有值。这就需要对参考图像进行插值，构造亚像素参考块，得到的亚像素参考块将用于计算残差值。

在步骤S140中，根据所述预测值和经过处理后的残差值进行图像重建，得到补偿后的视频图像。

该步骤为像素块重建的过程，该步骤之前，需要对步骤S130得到的残差值先通过其他算法进行处理，处理后再基于经过处理后的残差值和预测值进行图像重建。以图2所示为例，通过将经过处理后的残差值传输到PE30中与预测值完成图像重建，构成补偿后的视频图像。

需要说明的是，在最新的视频编解码标准HEVC中，运动补偿时可以采用1/2、1/4像素精度进行插值，如果以1/2像素精度进行插值时，使用8抽头滤波器进行插值计算。1/4像素以7抽头滤波器生成，表1为分数精度样本位置对应的插值系数表。

表1

由于样本包括整数精度样本(简称整数样本)和非整数精度样本(即分数精度样本，简称分数样本)，其中整数样本在本实施例中不做具体介绍。具体为：进行插值计算时，当运动矢量指向整数样本所在的位置时，不进行插值计算；当所述运动矢量指向非整数样本所在的位置时，利用插值对所述非整数样本进行预测，得到所述预测值。

图3为本发明一实施例中亮度插值分数样本位置示意图。如图3所示，整数样本所在位置用大写字母表示，如A0,0，A0,1……为整数样本(即灰度部分)，分数样本所在位置用小写字母表示，如A0,0之后的a0,0，b0,0，c0,0，A0,0下一行的d0,0……。当运动矢量(Motion Vector，简称MV)指向整数样本所在位置时，不进行插值运算，直接以此整数样本值作为最后的预测结果输出。当运动矢量指向分数位置时，即1/2像素精度或1/4像素精度位置时，运动补偿插值模块将利用插值滤波器进行非整数样本预测。

以图2和图3所示为例，分数样本一共有15个，根据不同的样本位置，HEVC运动补偿插值算法可以被划分成3种模式，具体为采用水平方向滤波、垂直方向滤波和水平方向与垂直方向相结合的方式滤波三种模式。

模式一：水平方向滤波。分数样本a、b、c中b为1/2像素，根据表1中第二行插值系数对应的8抽头滤波器，进行水平方向上的插值计算得到预测值，a、c为1/4像素，分别用表1中第一行和第三行插值系数对应的7抽头滤波器进行水平方向上的插值计算。

模式二：垂直方向滤波。分数样本d、h、n中h为1/2像素，根据表1中第二行系数对应的8抽头滤波器进行垂直方向上的插值计算得到预测值，d、n为1/4像素，分别用表1中第一行和第三行系数对应的7抽头滤波器进行垂直方向上的插值计算。

模式三：对于其余的分数样本，预测值的计算分成两个步骤。采用水平和垂直相结合的方式。首先，先利用模式一在水平方向上计算出分数样本a、b、c的预测中间值，然后在垂直方向上对最近的8个分数样本中间值进行插值滤波得到最后的预测值。比如，计算e0,0位置的预测值时，首先对A0,-3，A0,-2，A0,-1，A0,0，A0,1，A0,2，A0,3，A0,4进行水平方向滤波，得到中间值a0,-3，a0,-2，a0,-1，a0,0，a0,1，a0,2，a0,3，a0,4，再对这8个中间值进行垂直方向滤波，最后得到预测结果。

由此可见，插值计算针对不同的分像素位置，所用的插值计算公式和参考块数据都不相同。PU块越大，需要计算的插值像素点越多，需要处理的分像素位置的情况越复杂。如果每次处理一个像素点，针对一种分像素位置进行处理，算法的执行效率越来越低，耗时越来越多。基于本实施例中的并行结构和方法，在同一时间不仅处理一个像素点，采用并行的思想，同时计算多个像素点，从而达到提高该算法的计算效率，缩短时间的目的。

本实施例是基于8×8的块大小进行设计的，在本发明其他实施例中还可以通过设计一种可变块大小的并行化架构，从而在提高算法灵活性的同时降低算法复杂度。

综上所述，本发明实施例提供的方法，对运动补偿插值计算设计一种并行结构，尽可能大的提高插值计算的并行度，缩短编码时间。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种用于运动补偿的插值计算并行实现方法，其特征在于，包括：

2.如权利要求1所述的用于运动补偿的插值计算并行实现方法，其特征在于，所述读取原始像素值和参考像素值之前，还包括：

将视频的测试序列转换成所述阵列能识别的二进制数据；

3.如权利要求1所述的用于运动补偿的插值计算并行实现方法，其特征在于，所述读取原始像素值和参考像素值包括：

4.如权利要求1所述的用于运动补偿的插值计算并行实现方法，其特征在于，所述读取原始像素值和参考像素值之后，所述在所述并行结构的所述处理元中并行地进行插值计算之前，还包括：

处理元PE00，PE01，PE02，PE03分别将所述参考像素值并行下发到处理元PE10，PE11，PE12，PE13中；

处理元PE10，PE11，PE12，PE13分别将所述参考像素值并行下发到处理元PE20，PE21，PE22，PE23中；

5.如权利要求4所述的用于运动补偿的插值计算并行实现方法，其特征在于，所述在所述并行结构的所述处理元中并行地进行插值计算包括：

6.如权利要求5所述的用于运动补偿的插值计算并行实现方法，其特征在于，以1/2像素精度进行插值时，使用8抽头滤波器进行插值计算。

7.如权利要求5所述的用于运动补偿的插值计算并行实现方法，其特征在于，以1/4像素精度进行插值时，使用7阶非对称FIR滤波器。

8.如权利要求5所述的用于运动补偿的插值计算并行实现方法，其特征在于，进行插值计算时采用水平方向滤波、垂直方向滤波和水平方向与垂直方向相结合的方式滤波三种模式进行滤波。

9.如权利要求5所述的用于运动补偿的插值计算并行实现方法，其特征在于，进行插值计算时，当运动矢量指向整数样本所在的位置时，不进行插值计算；当所述运动矢量指向非整数样本所在的位置时，利用插值对所述非整数样本进行预测，得到所述预测值。