CN110933441B

CN110933441B - 一种深度图轮廓预测的并行实现方法

Info

Publication number: CN110933441B
Application number: CN201911288512.1A
Authority: CN
Inventors: 谢晓燕; 张西红; 王昱; 朱筠; 蒋林
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-05-30
Anticipated expiration: 2039-12-12
Also published as: CN110933441A

Abstract

本发明提供一种深度图轮廓预测的并行实现方法，通过构建基于邻接互连的4×4二维处理元阵列并行结构，完成三维高效视频编码中深度图轮廓预测的并行处理，包括：读取纹理像素值和深度像素值到所述并行结构的所述处理元中，并行地进行深度图编码块和纹理图参考块的4×4、8×8和16×16的纹理均值、二值映射矩阵、恒定分区过程和SAD代价计算。本发明实施例提供的用于深度图轮廓预测的并行实现方法，通过构建并行结构，采用不同的处理器单元对不同大小编码块的轮廓预测并行处理，减少了深度图轮廓预测的时间，有效的提升了深度图轮廓预测编码的效率。

Description

一种深度图轮廓预测的并行实现方法

技术领域

本发明涉及视频处理技术领域，尤其涉及三维高效视频编码中深度图轮廓预测算法的并行实现方法。

背景技术

深度图(Depth Map)是将从图像采集器到场景中各点的距离(深度)作为像素值的图像。是视频处理领域构建三维立体图像的重要手段。JCT-3V提出的三维高效视频编码(3DHigh Efficiency Video Coding，简称3D-HEVC)，采用多视点视频加深度格式对多个视点的纹理图像(Texture Map)和深度图像进行编码。由于深度图的特征及成像方式与纹理图非常不同，使用对纹理图的帧内预测方法来压缩深度图将会导致合成的虚拟视点图像严重失真。因此，3D-HEVC标准在深度图帧内预测中增加了楔形预测(Wedgelet Prediction)和轮廓预测(Contour Prediction)两种技术，专门针对深度图特征进行数据压缩。而轮廓预测在复杂场景中效果远远优于楔形预测效果。

轮廓预测基于纹理参考块与深度编码块所处场景一致因而拥有相似对象轮廓信息的原理，因此寻找最佳的轮廓分割方式所采用的参考块是当前深度编码块所对应的纹理参考块。但是，这样会导致该方法的参考点数量远远大于常规的楔形分割等预测方法。例如，对一个N×N大小的深度块进行编码，其它预测模式最多需要4N+1个参考像素点，而轮廓预测却需要N×N的参考点。除了4×4大小的编码块，其他规模的编码块的参考像素数都偏大，而且N越大情况越严重。其次，由于对一个N×N大小的深度块需要进行4×4、8×8直到N×N尺寸的预测深度图失真代价评价后才能得到最优预测模式。传统的串行实现方法无法对复杂的重复迭代计算进行简化，导致编码时间过长。尽管在HTM(3D HEVC Test Model)中考虑了子CU和父CU之间的相关性，采取子CU继承父CU预测模式的方式来减少迭代次数，但是基于软件优化的PC机处理效率依然难以提升。而普通的硬件并行方案无法很好应对非固定块尺寸带来的面积开销。

上述缺陷是本领域技术人员期望克服的。

因此，亟需一种用于三维高效视频编码的深度图轮廓预测并行实现方法。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种深度图轮廓预测并行实现方法，既要解决现有技术中的相同操作重复迭代导致的深度图帧内预测编码效率低下的问题，又要考虑非固定分块尺寸带来的硬件面积开销。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

本发明一实施例提供一种深度图轮廓预测的并行实现方法，通过构建基于邻接互连的4×4二维处理元阵列并行结构，同时完成三维高效视频编码中4×4、8×8和16×16大小编码块的深度图轮廓预测并行处理，包括以下步骤：

步骤1、基于获取的视频图像读取纹理像素值和深度像素值到所述并行结构的所述处理元中；

步骤2、在所述并行结构的所述处理元中并行地进行深度图编码块和纹理图参考块的4×4、8×8和16×16规模划分；

步骤3、在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小参考块的纹理均值及二值映射矩阵计算；

步骤4、根据得到的所述二值映射矩阵，在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小编码块的恒定分区过程和SAD代价计算；

步骤5、根据得到的所述4×4、8×8和16×16大小编码块的SAD值，在所述处理元中计算选出最优预测模式，输出其二值映射矩阵、恒定分区值及残差矩阵。

本发明的一个实施例中，在步骤1所述读取纹理像素值和深度像素值之前，还包括：

将视频的测试序列的深度图像转换成所述阵列能识别的二进制数据，将所述二进制数据分布在文档中，并存储在数据输入存储DIM中，作为所述深度像素值；

将所述视频中前一帧纹理图像处理后重建图像的亮度分量，存储在数据输出存储DOM中，作为所述纹理图像素值。

本发明的一个实施例中，在步骤1所述读取纹理像素值和深度像素值到所述并行结构的所述处理元中，包括：

通过所述二维处理元阵列中的处理元PE00以邻接互连的方式访问所述DIM，依次将16×16的深度编码块读入处理元PE00的本地数据存储，并将其传递到处理元PE01、PE20和PE22；

通过所述二维处理元阵列中的处理元PE03以邻接互连的方式访问所述DOM，依次将16×16的纹理图参考块读入处理元PE03的本地数据存储，并将其传递到处理元PE01、PE20和PE22。

本发明的一个实施例中，在步骤2中包括：

处理元PE01依次将所述16×16的深度编码块和纹理参考块等分成4行4列共16个4×4的子块，并将第2行的4个子块传递到处理元PE02，第3行的4个子块传递到处理元PE11，第4行的4个子块传递到处理元PE12；

处理元PE22依次将所述16×16的深度编码块和纹理参考块等分成2行2列共4个8×8的子块，并将右上第2子块传递到处理元PE23，左下第3子块传递到处理元PE32，右下第4子块传递到处理元PE33；

处理元PE20将所述16×16的深度编码块传递到PE30和PE31，将16×16的纹理参考块传递到PE21。

本发明的一个实施例中，在步骤3中包括：

在处理元PE01、PE02、PE11和PE12中并行地对各自存储的4个4×4纹理子块进行纹理均值，并计算得到4个4×4二值映射矩阵；

在处理元PE22、PE23、PE32和PE33中并行地对各自存储的8×8纹理子块进行纹理均值，并计算得到1个8×8二值映射矩阵；

在处理元PE21中进行16×16纹理子块进行纹理均值，并计算得到1个16×16二值映射矩阵。

本发明的一个实施例中，在步骤4中包括：

根据步骤3得到的所述4×4二值映射矩阵，在处理元PE01、PE02、PE11和PE12中并行地对各自存储的4×4深度子块计算其恒定分区值，根据所述恒定分区值计算4×4分块模式的深度预测块，根据所述深度预测块计算残差矩阵及SAD值SAD4×4，并将SAD值传递给处理元PE13；

根据步骤3得到的所述8×8二值映射矩阵，在处理元PE22、PE23、PE32和PE33中并行地对各自存储的8×8深度子块计算其恒定分区值，根据所述恒定分区值计算8×8分块模式的深度预测块，根据所述深度预测块计算残差矩阵及SAD值SAD4×4，并将SAD值传递给处理元PE13；

根据步骤3得到的所述16×16二值映射矩阵，在处理元PE30中对16×16的深度子块计算其恒定分区值并将其传递给PE31，处理元PE31根据所述恒定分区值计算16×16分块模式的深度预测块，根据所述深度预测块读取PE30对应位置数据计算残差矩阵及SAD值SAD16×16，并将SAD值传递给处理元PE13。

该方法所述SAD(Sum of Absolute Differences)根据公式(1)计算得到，包括：

(1)

其中，k为编码块的索引号，PB_k(i,j)为深度图编码块第i行第j列的像素值，g_k(i,j)为CPV方法填充后得到的深度预测块的第i行第j列像素值，N为深度图编码块的规模。

本发明的一个实施例中，在步骤5中包括：

根据步骤4得到的SAD4×4、SAD8×8和SAD16×16，处理元PE13先将4个SAD8×8求和与SAD16×16相比，若SAD16×16小，则选择16×16分块模式并输出其二值映射矩阵、恒定分区值和残差矩阵；

若SAD16×16大，则将PE01、PE02的前2个SAD4×4求和与PE22的SAD8×8相比、将PE01、PE02的后2个SAD4×4求和与PE23的SAD8×8相比、PE11、PE12的前2个SAD4×4求和与PE32的SAD8×8相比、PE11、PE12的后2个SAD4×4求和与PE33的SAD8×8相比，依次选择每种SAD代价最小的分块模式，并将其二值映射矩阵、恒定分区值和残差矩阵输出。

(三)有益效果

本发明的有益效果是：本发明实施例提供的用于深度图轮廓预测的并行实现方法，通过构建并行结构，采用不同的处理器单元对不同大小编码块的轮廓预测并行处理，既解决现有技术中的相同操作重复迭代导致的深度图帧内预测编码效率低下的问题，减少了深度图轮廓预测的时间，有效的提升了深度图轮廓预测编码的效率，又限制了硬件面积成本。实验结果表明，本实施例方法的串/并平均加速比达到14.838。

附图说明

图1为本发明一实施例提供的一种深度图轮廓预测的并行实现方法的流程图；

图2为本发明一实施例中深度图轮廓预测的并行结构架构图；

图3为本发明一实施例中用于深度图轮廓预测并行实现的编码块数据分块方案示意图；

图4为本发明一实施例中所述深度图纹理平均、二值映射、恒定分区及残差矩阵计算过程示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

在3D-HEVC中，用于三维高效视频编码的深度图轮廓预测方法的理论依据是，纹理图与深度图所处场景一致因而拥有相似对象的轮廓信息，因此可以通过提取当前深度编码块所对应的纹理参考块的亮度分布来寻找最佳的轮廓分割方式。在3D-HEVC编码过程中，每一帧图像的深度图编码是在纹理图编码之后，因此会使用纹理图帧内预测后的重建图像作为深度图编码的参考图像。该方法只需要使用参考图像的亮度分量.

由于对一个N×N大小的深度编码块，轮廓预测需要使用N×N规模的参考块，且需要对4×4、8×8直到N×N尺寸的预测深度参考块进行失真代价评价后才能得到最优预测模式。传统的串行实现方法无法对复杂的重复迭代计算进行简化，导致编码时间过长。而在轮廓预测过程中，对于不同大小的编码块，使用的参考图像和处理过程是相同的，因此可以让不同尺寸的预测并行执行。因此，本发明一实施例设计一种用于三维高效视频编码的深度图轮廓预测并行结构，并不能套用原有的算法框架，而是要重新设计其架构，该架构可以满足了深度图轮廓预测的并行计算要求。考虑到子CU之间的相关性，可以通过继承CU预测模式的方式来减少迭代次数，本发明本实施例仅实现4×4、8×8和16×16规模的轮廓预测。

在本发明实施例提供的技术方案中，通过构建基于邻接互连的4×4二维处理元阵列并行结构，同时完成三维高效视频编码中4×4、8×8和16×16大小编码块的深度图轮廓预测并行处理，如图1所示，包括以下步骤：

如图1所示，在步骤1中，基于获取的视频图像读取纹理像素值和深度像素值到所述并行结构的所述处理元中；

如图1所示，在步骤2中，在所述并行结构的所述处理元中并行地进行深度图编码块和纹理图参考块的4×4、8×8和16×16规模划分；

如图1所示，在步骤3中，在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小参考块的纹理均值及二值映射矩阵计算；

如图1所示，在步骤4中，根据得到的所述二值映射矩阵，在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小编码块的恒定分区过程和SAD代价计算；

如图1所示，在步骤5中，根据得到的所述4×4、8×8和16×16大小编码块的SAD值，在所述处理元中计算选出最优预测模式，输出其二值映射矩阵、恒定分区值及残差矩阵。

以下对图1所示实施例的各个步骤的具体实现进行详细阐述：

在图2所示实施例中，基于邻接互联的4×4二维处理元阵列构建用于深度图轮廓预测算法的并行结构。

本发明的实施例中，以16个处理元(Processing Element，简称PE)为例，图2为本发明实施例中用于深度图轮廓预测的并行结构架构图，如图2所示，包括4×4的PE，即第一行分别是PE00、PE01、PE02和PE03，第二行分别是PE10、PE11、PE12和PE13，第三行分别是PE20、PE21、PE22和PE23，第四行分别是PE30、PE31、PE32和PE33。每个PE包含一个本地存储(0-255编址)和一个共享存储(256-512编址)，本地存储用来进行PE内部的计算和数据缓存，共享存储采用物理统一、逻辑独立的设计可以支持跨PE之间的数据访问。DIM是数据输入存储，DOM是数据输出存储。为了支持本发明本实施例中不同PE同时执行不同操作的功能，所述二维阵列的所述PE被设计成指令流和数据流双驱动模式。驱动处理元PE00用于从DIM取数及下发，PE03用于从DOM取数及下发，PE01、PE02、PE11和PE12用于进行4×4块的纹理均值、二进制映射矩阵、深度图预测和SAD代价计算操作，PE22、PE23、PE32和PE33用于进行8×8块的纹理均值、二进制映射矩阵、深度图预测和SAD代价计算操作，PE20、PE21、PE30和PE31用于进行16×16块的纹理均值、二进制映射矩阵、深度图预测和SAD代价计算操作，PE13用于进行最优预测模式选择和输出操作。

在图1所示实施例步骤1中，所述读取纹理像素值和深度像素值之前，还包括：

在图1所示实施例步骤1中，所述读取纹理像素值和深度像素值到所述并行结构的所述处理元中，具体包括：

处理元PE00利用R10寄存器从DIM缓存区读取一个大小为16×16的深度图编码块，存放到本地数据存储0-255号地址中，待数据加载完成后，依次向PE01、PE20和PE22的共享存储256-511存放该编码块数据，处理元PE01、PE20和PE22将深度编码块读入本地数据存储0-255号地址中；

处理元PE03利用R10寄存器从DOM缓存区读取一个大小为16×16的纹理图参考块，存放到0-255号地址中，待数据加载完成后，依次向PE01、PE20和PE22的256-511号地址存放该纹理参考块数据。

在图1所示实施例步骤2中，所述在所述处理元中并行地进行深度图编码块和纹理图参考块的4×4、8×8和16×16规模划分，包括：

a.4×4划分

处理元PE01中的深度图编码块按照地址可以等分成4行4列共16个4×4的编码块PB4×4(Prediction Block，简称PB)，如图3(a)所示。PE01依次以将PB_e、PB_f、PB_g、PB_h即64-127号地址的数据写入PE02的256-319号地址、将PB_i、PB_j、PB_k、PB_l即128-191号地址的数据写入PE11的256-319号地址、将PB_m、PB_n、PB_o、PB_p即192-255号地址的数据写入PE12的256-319号地址；

处理元PE01对共享存储中的纹理图参考块RB4×4(Reference block，简称RB)进行同样的处理。PE01依次将320-383号地址的RB_e、RB_f、RB_g、RB_h数据写入PE02的RB_i、RB_j、RB_k、RB_l320-383号地址、将384-447号地址的RB_m、RB_n、RB_o、RB_p数据写入PE11的320-383号地址、将448-511号地址的数据写入PE12的320-383号地址；

处理元PE01完成以上操作后，将256-319号地址的4个纹理图RB4×4转移到320-383号地址，然后将0-63号地址的4个深度图PB4×4转移到256-319号地址。

b.8×8划分

处理元PE22中的深度图编码块按照地址可以等分成2行2列共4个8×8的PB8×8，如图3(b)所示。PE22依次将PB _r即8-15、24-31、40-47、56-63、72-79、88-95、104-111、120-127号地址的数据写入PE23的256-319号地址，PB_s即128-135、144-151、160-167、176-183、192-199、208-215、224-231、240-247号地址的数据写入PE32的256-319号地址，PB_t即136-143、152-159、168-175、184-191、200-207、216-223、232-239、248-255号地址的数据写入PE33的256-319号地址；

对处理元PE22中的纹理图参考块进行RB8×8的划分。PE22依次将264-271、280-287、196-303、312-319、328-335、344-351、360-367、376-383号地址的RB_r数据写入PE23的320-383号地址、将384-391、400-407、416-423、432-439、448-455、464-471、480-487、496-503号地址的RB_s数据写入PE32的320-383号地址、将392-399、408-415、424-431、440-447、456-463、472-479、488-495、504-511号地址的RB_t数据写入PE33的320-383号地址；

处理元PE22完成以上操作后，将256-319号地址的RB8×8转移到320-383号地址，然后将0-63号地址的深度图PB8×8转移到256-319号地址。

c.16×16划分

16×16的深度编码块和纹理参考块不需要划分，处理元PE20将纹理RB16×16写入PE21的256-511号地址，将深度PB16×16写入PE30和PE31的256-511号地址。

在图1所示实施例步骤3中，所述在所述处理元中并行地进行4×4、8×8和16×16大小参考块的纹理均值及二值映射矩阵计算，具体包括：

处理元PE01、PE02、PE11、PE12并行地依次对各自320-335、336-351、352-367、368-383地址中的RB4×4进行纹理平均和二值映射矩阵操作，PE22、PE23、PE32、PE33并行地对各自320-383号地址的RB8×8进行纹理平均和二值映射矩阵操作，同时PE21对256-511号地址中的RB16×16进行纹理平均和二值映射矩阵操作。如图4所示，具体计算方法为：

对纹理图像参考块采用公式(1)求平均值average value，然后用average value作为阈值采用公式(2)推导纹理图参考块的二值映射矩阵A：

(1)

(2)

其中，N为纹理图参考块的尺寸，p_(i,j)为纹理图(i,j)位置的像素值。

需要说明的是，考虑到纹理RB只在生成二值映射矩阵时有用，本发明生成和存储二值映射矩阵采用的策略是使用纹理均值对RB进行扫描，同时根据公式(2)立即修改RB内部的数据，扫描完成后共享存储中的RB被修改成二值映射矩阵A。

在图1所示实施例步骤4中，所述根据得到的所述二值映射矩阵，在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小编码块的恒定分区过程和SAD代价计算，具体包括：

a.PB4×4恒定分区过程

处理元PE01、PE02、PE11、PE12并行地使用各自320-335地址中的二值映射矩阵A4×4对256-271中的深度PB4×4进行扫描，按照图4所示方法分别计算PB4×4的恒定分区值(Constant partition value，简称CPVs)CPVs₁和CPVs₂，并将其存入各自248、249号地址。CPVs计算方法为：

根据得到的二值映射矩阵A将深度图PB划分成两类区域f₁和f₂，与A中值为1位置对应的像素组成区域f₁、0位置对应的像素组成区域f₂，分别对区域f₁和f₂的深度像素值采用公式(3)求平均值CPVs₁和CPVs₂，该平均值即恒定分区值：

(3)

其中，f_(i,j)为深度图编码块(i,j)位置的像素值，K₁为二值映射矩阵A中1的个数，K₂为二值映射矩阵A中0的个数。

处理元PE01、PE02、PE11、PE12接着并行地依次对336-351、352-367、368-383地址的二值映射矩阵A4×4和272-287、288-303、304-319号地址的深度PB4×4也进行相同操作，将每次计算得到的CPVs₁和CPVs₂分别存入各PE的250-251、252-253、254-255号地址中。

b.PB4×4SAD代价计算

处理元PE01、PE02、PE11、PE12并行地使用各自248-255号地址中的4组CPVs和二值映射矩阵A4×4，并行地在各自0-63号地址构造4个深度预测块G_k：0-15号地址G₁对应第1组CPVs，16-31号地址G₂对应第2组CPVs，32-47号地址G₃对应第3组CPVs，48-63号地址G₄对应第4组CPVs。深度预测块G_k构造方法如公式(4)所示：

(4)

其中，A_(i,j)为二值映射矩阵的第i行第j列元素值，k为PE中深度PB或纹理RB的索引，CPVsk₁为第k个深度PB的CPVs₁，CPVsk₂为第k个深度PB的CPVs₂。

处理元PE01、PE02、PE11、PE12并行地对得到的第k个深度预测块G_k与其对应的深度图编码块PB_k求残差矩阵F_k＝PB_k-G_k，如公式(5)所示：

(5)

其中，k为深度编码块的索引号，f_k(i,j)为残差矩阵第i行第j列的像素值，PB_k(i,j)为深度图编码块第i行第j列的像素值，g_k(i,j)为深度预测块G_k的第i行第j列的元素值，N为深度图编码块尺寸。

将计算得到的残差矩阵F₁存放到各自的384-399号地址中，F₂存放到各自的400-415号地址中，F₃存放到各自的416-431号地址中，F₄存放到各自的432-447号地址中。

本发明中失真度评价使用绝对误差和SAD(Sum of Absolute Differences)方法，如公式(6)所示：

(6)

其中，k为深度编码块的索引号，PB_k(i,j)为深度图编码块第i行第j列的像素值，g_k(i,j)为深度预测块G_k的第i行第j列的元素值，N为深度图编码块尺寸。SAD值越小说明深度预测块与深度编码块的误差越小，在解码侧可以使用具有最小SAD值的CPVs、残差矩阵F和二进制映射矩阵A恢复出最佳效果的深度图像。

根据公式(5)和(6)，可以推导出第k个深度编码块的SAD值就是残差矩阵的各元素之和，如公式(7)所示：

(7)

其中，k为深度编码块的索引号，f_k(i,j)为残差矩阵第i行第j列的元素值。由于需要输出残差矩阵，因此本发明的本实施例使用公式(7)计算SAD值。

处理元PE01将计算得到的4个SAD4×4发送到PE13的256-259号地址，PE02将计算得到的4个SAD4×4发送到PE13的260-263号地址，PE11将计算得到的4个SAD4×4发送到PE13的264-267号地址，PE12将计算得到的4个SAD4×4发送到PE13的268-271号地址。

c.PB8×8恒定分区和SAD8×8计算

处理元PE22、PE23、PE32、PE33采用与PB4×4类似的处理方法和过程：

处理元PE22、PE23、PE32、PE33并行地读取各自320-383号地址的二值映射矩阵A8×8，与各自256-319号地址中的深度PB8×8使用公式(3)计算CPVs₁和CPVs₂并分别存储到各自的248、249号地址；

处理元PE22、PE23、PE32、PE33并行地扫描各自320-383号地址的二进制映射矩阵A8×8，采用公式(4)在各自0-63号地址构造8×8的深度预测块，然后采用公式(5)计算各自残差矩阵F8×8并存放到各自384-447号共享存储中，最后根据公式(7)计算各自的SAD8×8；

计算完成后通过与PE13建立握手，PE22将计算得到SAD8×8发送到PE13的272号地址，PE23将计算得到SAD8×8发送到PE13的273号地址，PE32将计算得到SAD8×8发送到PE13的274号地址，PE33将计算得到SAD8×8发送到PE13的275号地址。

d.PB16×16恒定分区和SAD16×16计算

需要特别说明的是，本发明本实施例的PE使用轻量级存储以减少面积开销，每个PE的存储空间只有512个地址(0-255用于本地存储，256-512用于共享存储)，而且只有共享存储地址才可以被其他PE访问。因此，本实施例的RB16×16的纹理平均、二值映射与PB16×16的CPVs计算、深度预测块构造和SAD16×16必须设计到不同PE协同完成；

在本发明本实施例中，通过扫描处理元PE21中256-511号地址的二值映射矩阵A16×16，处理元PE30采用公式(3)计算CPVs₁和CPVs₂并分别存储到248、249号地址；

处理元PE30再次扫描PE21中256-511号地址的二值映射矩阵，使用本地248、249号地址的CPVs₁和CPVs₂采用公式(4)填充自己共享存储的256-511号地址，构造出深度预测块G16×16，操作完成后向PE31发送握手信号555；

处理元PE31收到握手信号后扫描PE30中256-511号地址的深度预测块G16×16，采用公式(5)将自己共享存储的深度图PB修改残差矩阵F16×16；

处理元PE31根据残差矩阵F16×16，采用公式(7)计算SAD16×16，并将其发送到PE13的276号地址。

在图1所示实施例步骤5中，所述根据得到的所述4×4、8×8和16×16大小编码块的SAD值，在所述处理元中计算选出最优预测模式，输出其二值映射矩阵、恒定分区值及残差矩阵，具体包括：

处理元PE13在接收完所有SAD值后，首先将272-275号地址中的SAD8×8累加求和，然后与276号地址的SAD16×16比较；

若SAD16×16小，则选择16×16的分块模式，并依次读取PE21中256-511号地址的二值映射矩阵、PE31中256-511号地址的残差矩阵输出；

若SAD16×16大，则处理元PE13依次将256、257、260、261号地址中的SAD4×4累加求和值与272号地址中的SAD8×8比较，将258、259、262、263号地址中的SAD4×4累加求和与273号地址中的SAD8×8比较，将264、265、268、269号地址中的SAD4×4累加求和与274号地址中的SAD8×8比较，将266、267、270、271号地址中的SAD4×4累加求和与275号地址中的SAD8×8比较；

对于SAD8×8小的PB8×8，选择8×8的分块模式，并由PE13读取PE22、PE23、PE32、PE33中对应PE的320-383号地址的二进制映射矩阵和384-447号地址的残差矩阵输出；

对于SAD8×8大的PB8×8，选择4×4的分块模式，并由PE13读取对应PE01、PE02、PE11、PE12的320-383号地址的二进制映射矩阵和384-447号地址的残差矩阵输出。

由于本公开的示例实施例的用于深度图轮廓预测的并行结构的各个功能模块与上述图1所示的用于深度图轮廓预测并行实现方法的示例实施例的步骤对应，因此对于本公开结构实施例中未披露的细节，请参照本公开上述的用于深度图轮廓预测并行实现方法的实施例。

需要理解的是，以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点，其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施，但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种深度图轮廓预测的并行实现方法，其特征在于，

通过构建基于邻接互连的4×4二维处理元阵列并行结构，其中，构建基于邻接互连的4×4二维处理元阵列并行结构，包括：

4×4二维处理元阵列并行结构包括4×4个PE，驱动处理元PE00用于从DIM取数及下发，PE03用于从DOM取数及下发，PE01、PE02、PE11和PE12用于进行4×4块的纹理均值、二进制映射矩阵、深度图预测和SAD代价计算操作，PE22、PE23、PE32和PE33用于进行8×8块的纹理均值、二进制映射矩阵、深度图预测和SAD代价计算操作，PE20、PE21、PE30和PE31用于进行16×16块的纹理均值、二进制映射矩阵、深度图预测和SAD代价计算操作，PE13用于进行最优预测模式选择和输出操作；

同时完成三维高效视频编码中4×4、8×8和16×16大小编码块的深度图轮廓预测并行处理，包括以下步骤：

步骤1、基于获取的视频图像读取纹理像素值和深度像素值到所述并行结构的所述处理元中，所述读取纹理像素值和深度像素值到所述并行结构的所述处理元中，包括：

通过所述二维处理元阵列中的处理元PE03以邻接互连的方式访问所述DOM，依次将16×16的纹理图参考块读入处理元PE03的本地数据存储，并将其传递到处理元PE01、PE20和PE22；

步骤2、在所述并行结构的所述处理元中并行地进行深度图编码块和纹理图参考块的4×4、8×8和16×16规模划分，包括：

处理元PE20将所述16×16的深度编码块传递到PE30和PE31，将16×16的纹理参考块传递到PE21；

步骤3、在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小参考块的纹理均值及二值映射矩阵计算，包括：

在处理元PE21中进行16×16纹理子块进行纹理均值，并计算得到1个16×16二值映射矩阵；

步骤4、根据得到的所述二值映射矩阵，在所述并行结构的所述处理元中并行地进行4×4、8×8和16×16大小编码块的恒定分区过程和SAD代价计算，包括：

根据步骤3得到的所述16×16二值映射矩阵，在处理元PE30中对16×16的深度子块计算其恒定分区值并将其传递给PE31，处理元PE31根据所述恒定分区值计算16×16分块模式的深度预测块，根据所述深度预测块读取PE30对应位置数据计算残差矩阵及SAD值SAD16×16，并将SAD值传递给处理元PE13；

步骤5、根据得到的所述4×4、8×8和16×16大小编码块的SAD值，在所述处理元中计算选出最优预测模式，输出其二值映射矩阵、恒定分区值及残差矩阵，包括：

2.如权利要求1所述的方法，其特征在于，

在步骤1所述读取纹理像素值和深度像素值之前，还包括：

将所述视频中前一帧纹理图像处理后重建图像的亮度分量，存储在数据输出存储DOM中，作为所述纹理像素值。