CN112243131B

CN112243131B - 基于可重构阵列处理器的先进残差预测方法

Info

Publication number: CN112243131B
Application number: CN202010931336.5A
Authority: CN
Inventors: 朱筠; 谢晓燕; 周金娜; 王淑欣; 王安琪
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-10-31
Filing date: 2020-10-31
Publication date: 2022-11-11
Anticipated expiration: 2040-10-31
Also published as: CN112243131A

Abstract

本申请属于三维视频图像处理技术领域，具体涉及一种基于可重构阵列处理器的先进残差预测方法。其中的方法包括：获取待编码纹理图像当前编码单元的纹理图像数据和相应的深度图像数据；当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过先进残差预测规则匹配得到当前编码单元的先进残差预测算法，当前编码单元的纹理图像数据采用得到的先进残差预测算法进行预测编码；所述先进残差预测规则是通过统计视频测试图像编码单元采取的先进残差预测算法得到的，所述视频测试图像与所述待编码纹理图像属于相同场景。本申请方法计算复杂性低、编码时间短，满足多媒体系统中视频图像的实时编码要求。

Description

基于可重构阵列处理器的先进残差预测方法

技术领域

本申请属于三维视频图像处理技术领域，具体涉及一种基于可重构阵列处理器的先进残差预测方法、阵列处理器。

背景技术

三维高效视频编码(3-Dimensional-High Efficiency Video Coding,3D-HEVC)是二维视频编码HEVC标准的扩展，用于多视图视频和深度图的编码，其中增了一些如视差补偿预测(Disparity Compensated Prediction,DCP)、先进残差预测(Advanced ResidualPrediction,ARP)等高级编码工具，来减少视点间冗余信息。

3D-HEVC视图间预测算法中新的ARP算法的核心是使用视图之间的残差信息来减少视图之间的冗余。ARP的原理如图1所示，其中V0代表基本视点，V1代表非基本视点，Dc代表当前编码块，Dr代表当前编码视图的时域参考块，Bc代表视图参考块，Br表示基本视图的时域参考块，Ti和Tj表示图像采样时间，DV为视差矢量，MV为运动矢量。根据当前块的参考块类型，将其分为时域ARP和视点间ARP。

图2为先进残差预测算法框架流程图，如图2所示，其中块1代表当前时刻的当前编码块，块2代表当前时刻视点之间的参考块，块3代表目标的时域参考块，块4代表当前视点的时间参考块。若当前块的参考块为时域参考块，则使用时域ARP，参见式(1)；若为视图间参考块，则使用视图间ARP，参见式(2)。为了能够更准确地进行预测，公式中的残差信息引入了加权因子w，分别为0、0.5和1。

Block1′＝Block4+w*(Block2-Block3) (1)

Block1′＝Block2+w*(Block4-Block3) (2)

若当前块的参考块为时域参考块，则使用时域ARP；若当前块的参考块为视图间参考块，则使用视图间ARP。对视图间ARP而言，当前视图间残差通过在时间方向上对应的视图间残差来预测；对时域ARP而言，当前时间残差通过来自视图间方向上的对应时间残差来预测。

现有ARP算法中确定时域ARP和视图间ARP的方法计算复杂性高、编码时间长，进而增加了整个视频图像编码过程的复杂度，不能满足多媒体系统中视频图像的实时编码要求。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本申请提供一种基于可重构阵列处理器的先进残差预测方法、阵列处理器。

(二)技术方案

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请实施例提供一种基于可重构阵列处理器的先进残差预测方法，该方法包括：

S10、针对非基本视点纹理图像的预测编码，获取待编码纹理图像当前编码单元的纹理图像数据和相应的深度图像数据；

S20、基于先进残差预测对当前编码单元的纹理图像数据进行预测编码；

其中，当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过所述先进残差预测规则匹配得到当前编码单元的先进残差预测算法，当前编码单元的纹理图像数据采用得到的先进残差预测算法进行预测编码；所述先进残差预测规则是通过统计视频测试图像编码单元采取的先进残差预测算法得到的，所述视频测试图像与所述待编码纹理图像属于相同场景。

可选地，所述先进残差预测规则是通过统计视频测试图像编码单元采取的先进残差预测算法得到的，包括：

S21、获取3D视频图像作为视频测试图像，所述3D视频图像包括多视点的纹理图像和相应的深度图像；

S22、基于先进残差预测对所述视频测试图像中非基本视点纹理图像每个编码单元的纹理图像数据进行预测编码；

S23、令第一深度阈值取值为0，第二深度阈值取值为255；

S24、确定每个编码单元的区域类型，包括：

若编码单元对应的深度数据小于等于第一深度阈值，则编码单元属于远区域；

若编码单元对应的深度数据大于等于第二深度阈值，则编码单元属于近区域；

否则，编码单元属于中区域；

S25、根据编码单元的区域类型，统计得到每个区域中采用时域先进残差预测和采用视点间先进残差预测的编码单元的百分比值；

S26、以预设的步长增大第一深度阈值并缩小第二深度阈值取值；

S27、迭代执行步骤S24-S26，直至第一深度阈值大于等于第二深度阈值，得到整个迭代过程中最大百分比值对应的区域取值范围；

S28、将最大百分比值对应的先进残差预测算法和相应的区域取值范围，作为先进残差预测规则。

可选地，所述相同场景基于图像的纹理特征和运动特征确定。

可选地，所述先进残差预测规则包括：

规则一、第一类视频图像的灰度取值属于(180，255)的纹理图像编码单元，采用时域先进残差预测算法进行预测编码，所述第一类视频图像为具有全局运动信息和/或丰富纹理信息的室外图像；

规则二、第二类视频图像的灰度取值属于(0，70)的纹理图像编码单元，采用时域先进残差预测算法进行预测编码，所述第二类视频图像为具有局部运动信息和丰富细节纹理信息的室内图像；

规则三、第三类视频图像的纹理图像编码单元，采用时域先进残差预测算法进行预测编码，所述第三类视频图像为具有较小局部运动信息的室内图像。

可选地，当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过所述先进残差预测规则匹配得到当前编码单元的先进残差预测算法，包括：

S31、将(0，70)作为远区域的深度范围，将(70，180)作为中区域的深度范围，将(180，255)作为远区域的深度范围，判断当前编码单元所属的区域；

S32、若当前编码单元处于远区域，则第二类视频图像、第三类视频图像的编码单元执行时域先进残差预测，第一类视频图像的编码单元选择执行时域先进残差预测和视点间先进残差预测；

若当前编码单元处于近区域，则第一类视频图像、第三类视频图像的编码单元执行时域先进残差预测，第二类视频图像的编码单元选择执行时域先进残差预测和视点间先进残差预测；

若当前编码单元处于中区域，则第三类视频图像的编码单元执行时域先进残差预测，第一类视频图像、第二类视频图像的编码单元选择执行时域先进残差预测和视点间先进残差预测。

可选地，可重构阵列处理器的包括：n*n个处理元簇，每一个处理元簇中包括：m*m个处理元PE；DIM存储器、DOM存储器；

所述处理元簇用于根据原始块数据、时域参考块数据和视点间参考块数据、基本视点时域参考块数据，确定先进残差预测数据；

所述DIM存储器为输入存储器，用于存储原始块数据、时域参考块数据、视点间参考块数据和基本视点时域参考块数据；

所述DOM存储器为输出存储器，用于存储先进残差预测数据。

可选地，若处理元簇包括4*4个处理元PE，则用于处理时域先进残差预测算法的处理元簇中：

PE00、PE01、PE10和PE20用于从所述DIM存储器中加载原始块数据并将原始块数据分别下发到PE02、PE11和PE21中；

PE00、PE01、PE10和PE20分别用于读取视点间参考块数据、基本视点时域参考块数据和时域参考块数据并存储；

PE30用于设置深度阈值第一深度阈值和第二深度阈值，并通过阈值判断当前编码单元所在区域；

PE02、PE21、PE11分别用于计算视点间参考块的预测块、时域参考块的预测块、基本视点时域参考块的预测块；

PE12用于计算时域参考块的预测块与基本视点时域参考块的预测块残差数据；

PE22用于对视点间参考块的预测块和残差数据求和，得到时域高级残差预测块。

可选地，若处理元簇包括4*4个处理元PE，则用于处理视点间先进残差预测算法的处理元簇中：

PE00、PE10、PE20、PE30用于从所述DIM存储器中加载原始块数据并将原始块数据分别下发到PE11，PE21和PE31中；

PE00、PE30、PE20和PE10分别用于读取视点间参考块数据、基本视点时域参考块数据和时域参考块数据并存储；

PE11、PE21、PE31分别用于计算基本视点时域参考块的预测块、时域参考块的预测块、视点间参考块的预测块；

PE22用于计算基本视点时域参考块的预测块与视点间参考块的预测块残差数据；

PE32用于对时域参考块的预测块和残差数据求和，得到视点间高级残差预测块。

可选地，基于可重构阵列处理器的先进残差预测方法的重构过程包括：

S41、数据准备，包括：在Host端存储外部数据和指令信息，然后控制编程指令或者配置信息加载到片上存储中；

S42、PE30中设置深度阈值Z₀和Z₁，然后通过阈值判断当前CU所在区域，若当前CU为远区域时，PE30在160号存储8888握手信号；如果当前CU为近区域和中区域时，PE30在160号存储8888握手信号，在161号地址存储9999握手信号；

S43、时域ARP和视点间ARP算法的下发和执行，包括：

若HRM获取的标志位只为8888时，下发时域先进残差预测算法到PE中，下发的具体PE有：PE01、PE02、PE03、PE10、PE11、PE12、PE20、PE21、PE22和PE33；配置信息下发完成后，使用CALL指令启动这些PE工作；

若HRM同时检测到标志位8888和9999时，则首先下发时域先进残差预测算法，当时域先进残差预测算法执行完成后，通过共享存储写入时域ARP算法执行完成后的标志位；然后HRM通过反馈网络循环检测到该标志位后下发视点间先进残差预测算法，下发的具体PE有：PE00、PE01、PE02、PE03、PE10、PE11、PE12、PE20、PE21、PE22、PE30和PE33；配置信息下发完成后，使用CALL指令启动这些PE执行。

第二方面，本申请提出一种可重构阵列处理器，包括多个处理元簇和DIM存储器、DOM存储器；

其中，所述可重构阵列处理器执行上述的方法。

(三)有益效果

本申请的有益效果是：本申请提出了一种基于可重构阵列处理器的先进残差预测方法、阵列处理器。其中的方法包括：获取待编码纹理图像当前编码单元的纹理图像数据和相应的深度图像数据；当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过先进残差预测规则匹配得到当前编码单元的先进残差预测算法。本申请方法计算复杂性低、编码时间短，满足多媒体系统中视频图像的实时编码要求。

附图说明

本申请借助于以下附图进行描述：

图1为先进残差预测算法原理图；

图2为先进残差预测算法框架流程图；

图3为本申请一个实施例中的基于可重构阵列处理器的先进残差预测方法流程示意图；

图4为本申请另一个实施例中的基于深度阈值确定先进残差预测算法的流程示意图；

图5为本申请另一个实施例中的时域先进残差预测和视点间先进残差预测的并行实现示意图；

图6为本申请再一个实施例中的高级残差预测算法的可重构设计示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。可以理解的是，以下所描述的具体的实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合；为了便于描述，附图中仅示出了与发明相关的部分。

目前针对3D视频的快速算法，都只利用3D视频基本视点编码单元划分的深度信息或者时域空域相关性，未考虑深度信息与3D编码影响视点间算法的计算可能性，这样不能较好降低3D视频的复杂度。因此，本发明通过对3D-HEVC新增编码工具的深入剖析，研究ARP的可优化空间及可并行性，对ARP在时域和视点间进行改进，设计了基于深度阈值的时域和视点间的ARP算法，并利用可重构阵列平台完成了时域ARP和视点间ARP的可重构实现。

下面将参考附图并结合实施例来详细说明本申请。

实施例一

图3示出了本申请一个实施例中的基于可重构阵列处理器的先进残差预测方法流程示意图。如图所示，本实施例的基于可重构阵列处理器的先进残差预测方法，包括：

其中，当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过先进残差预测规则匹配得到当前编码单元的先进残差预测算法，当前编码单元的纹理图像数据采用得到的先进残差预测算法进行预测编码；先进残差预测规则是通过统计视频测试图像编码单元采取的先进残差预测算法得到的，视频测试图像与待编码纹理图像属于相同场景。

在一些实施例中，先进残差预测规则是通过统计视频测试图像编码单元采取的先进残差预测算法得到的，包括：

S21、获取3D视频图像作为视频测试图像，3D视频图像包括多视点的纹理图像和相应的深度图像；

S22、基于先进残差预测对视频测试图像中非基本视点纹理图像每个编码单元的纹理图像数据进行预测编码；

S23、令第一深度阈值取值为0，第二深度阈值取值为255；

S24、确定每个编码单元的区域类型，包括：

否则，编码单元属于中区域；

在一些实施例中，相同场景基于图像的纹理特征和运动特征确定。

在一些实施例中，先进残差预测规则包括：

规则一、第一类视频图像的灰度取值属于(180，255)的纹理图像编码单元，采用时域先进残差预测算法进行预测编码，第一类视频图像为具有全局运动信息和/或丰富纹理信息的室外图像；

规则二、第二类视频图像的灰度取值属于(0，70)的纹理图像编码单元，采用时域先进残差预测算法进行预测编码，第二类视频图像为具有局部运动信息和丰富细节纹理信息的室内图像；

规则三、第三类视频图像的纹理图像编码单元，采用时域先进残差预测算法进行预测编码，第三类视频图像为具有较小局部运动信息的室内图像。

在一些实施例中，当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过先进残差预测规则匹配得到当前编码单元的先进残差预测算法，包括：

在一些实施例中，可重构阵列处理器的包括：n*n个处理元簇，每一个处理元簇中包括：m*m个处理元PE；DIM存储器、DOM存储器；

处理元簇用于根据原始块数据、时域参考块数据和视点间参考块数据、基本视点时域参考块数据，确定先进残差预测数据；

DIM存储器为输入存储器，用于存储原始块数据、时域参考块数据、视点间参考块数据和基本视点时域参考块数据；

DOM存储器为输出存储器，用于存储先进残差预测数据。

在一些实施例中，若处理元簇包括4*4个处理元PE，则用于处理时域先进残差预测算法的处理元簇中：

PE00、PE01、PE10和PE20用于从DIM存储器中加载原始块数据并将原始块数据分别下发到PE02、PE11和PE21中；

在一些实施例中，若处理元簇包括4*4个处理元PE，则用于处理视点间先进残差预测算法的处理元簇中：

PE00、PE10、PE20、PE30用于从DIM存储器中加载原始块数据并将原始块数据分别下发到PE11，PE21和PE31中；

在一些实施例中，基于可重构阵列处理器的先进残差预测方法的重构过程包括：

S43、时域ARP和视点间ARP算法的下发和执行，包括：

针对ARP主要的计算复杂性，整合算法内部的可并行部分，通过ARP算法的可重构设计并根据深度阈值实现时域ARP和视点间ARP的灵活切换，从而进一步减少平均编码时间，提高算法的计算效率，同时可重构设计也节省了硬件资源。

为了可以节省视点间中先进残差预测(ARP)的编码时间，本申请根据3D视频编码的特点，结合深度信息和运动的相关性，对ARP进行快速选择降低了算法的复杂度，编码时间短，进而降低了整个视频图像编码过程的复杂度，满足了多媒体系统中视频图像的实时编码要求。

实施例二

本申请另一个实施例提出的基于可重构阵列处理器的先进残差预测方法，包括：

S100、深度阈值的判定。

3D视频中对象的深度信息表示从摄像机到对象的相对距离。深度值在0到255之间，令Zfar和Znear值分别为0和255。在HTM-16.1版本中，首先假设Z₀＝Znear，Z₁＝Zfar，对不同区域模式下编码单元(CU)选择时域先进残差预测(ARP)或视点间先进残差预测算法的结果进行统计。如果当前所设的深度阈值统计出时域和视点间ARP算法的选择次数均为0、或统计出时域和视点间ARP算法的选择次数有一个为0时，则将深度阈值Z₀和Z₁按照步长为5分别均进行减少和增加；按上述方法不断更新，直到取到变化幅度最明显的数为此测试序列的阈值Z₀和Z₁。可得各测试序列的阈值及不同区域模式CU的时域和视点间ARP算法的选择比例如表1所示。

表1

分析表中的统计数据，可将测试序列分为3类。A类视频是具有较大全局运动或丰富纹理信息的室外图像，测试序列采用GT_fly，Undo_Dancer和Poznan_Street；在近区域模式下，时域ARP大于94％，视点间ARP小于6％。因此，A类视频在近区域更倾向于选择时域ARP。B类视频是具有中等运动信息和高细节纹理信息的室内图像，测试序列采用Kendo，Balloons和Newspaper；在远区域模式下，选择时域ARP大于94％，视图间ARP小于6％。因此，B类视频更倾向于在远区域选择时域ARP。C类视频是具有较小全局运动信息的室内图像，测试序列采用Poznan_Hall2；在近区域、中区和远区模式下选择时域ARP都大于94％，倾向于选择时域ARP。

S200、基于深度阈值确定先进残差预测算法。

图4为本申请另一个实施例中的基于深度阈值确定先进残差预测算法的流程示意图，如图4所示，基于深度阈值确定先进残差预测算法包括以下步骤。

S201、当使用到ARP进行编码时，首先确定视频图像的类别，即属于A、B、C类视频图像中的哪一类。

S202、根据深度阈值判断当前CU所属的区域，判定公式如式(3)所示：

其中，Z_CU表示当前CU的灰度值，Z₀表示远区域的深度阈值，Z₁表示近区域的深度阈值。

S203、若当前CU处于远区域模式时，B类、C类视频执行时域ARP，跳过视点间ARP，其余视频选择执行时域ARP和视点间ARP。

S204、若不是远区域，判断当前CU是否处于近区域模式。若是，则A类、C类视频执行时域ARP，跳过视点间ARP。其余视频选择执行时域ARP和视点间ARP。

S205、反之，当前CU则处于中区域，则C类视频执行时域ARP，其他视频选择执行时域ARP和视点间ARP。

本发明方法针对3D-HEVC中ARP算法中计算复杂性高、编码时间长的问题，分析ARP算法后，利用深度信息和ARP算法之间的相关性来减少编码时间，从而显著提高视点间的编码效率。

S300、针对每类视频，基于可重构阵列处理器实现ARP算法选择和图像编码。

首先通过CU的划分，从而设置相应的深度阈值。然后通过深度阈值进行时域ARP和视点间ARP算法的选择切换。

可重构阵列处理器系统包括全局指令存储器、全局控制器、输入存储器(DIM)、输出存储器(DOM)、阵列处理器；通过主机接口与主机互联。DIM存储器为输入存储器，DOM存储器为输出存储器。DIM、DOM存储器均可用于读数，写数操作。处理元簇主要用于进行独立的计算操作，包含简单的算术运算、逻辑运算、分支运算，加载/存储等操作。

本实施例中，可重构的阵列处理器是由32×32个处理元(PE)组成，4×4个PE划分成一个处理元簇(PEG)，通过全局控制器传送相关指令来完成时域ARP和视点间ARP算法的重构操作，并使用PEG00和PEG01的4×4阵列结构执行不同类型ARP算法的重构过程。

图5为本申请另一个实施例中的时域先进残差预测和视点间先进残差预测的并行实现示意图，如图5所示，时域ARP算法并行化映射在PEG00簇内实现，视点间ARP算法并行化映射在PEG01簇内实现。DIM存储器用于存储原始块数据、时域参考块数据、视点间参考块数据和基本视点时域参考块数据；DOM存储器用于存储先进残差预测数据。

PE00簇中，PE00、PE01、PE10和PE20用于从DIM存储器中加载原始块数据并将原始块数据分别下发到PE02、PE11和PE21中；PE00、PE01、PE10和PE20分别用于读取视点间参考块数据、基本视点时域参考块数据和时域参考块数据并存储；PE30用于设置深度阈值第一深度阈值和第二深度阈值，并通过阈值判断当前编码单元所在区域；PE02用于计算视差矢量(DV)得到视点间参考块的预测块、PE21用于计算非基本视点的运动矢量(MV)得到时域参考块的预测块、PE11用于计算基本视点的运动矢量(MV)得到基本视点时域参考块的预测块；PE12用于计算时域参考块的预测块与基本视点时域参考块的预测块残差数据；PE22用于对视点间参考块的预测块和残差数据求和，得到时域高级残差预测块，PE33用于存放时域高级残差预测块和视点间高级残差预测块，并存储到DOM存储器中。

PE01簇中，PE00、PE10、PE20、PE30用于从DIM存储器中加载原始块数据并将原始块数据分别下发到PE11，PE21和PE31中；PE00、PE30、PE20和PE10分别用于读取视点间参考块数据、基本视点时域参考块数据和时域参考块数据并存储；PE11用于计算非基本视点的运动矢量(MV)得到时域参考块的预测块，PE21用于计算基本视点的运动矢量(MV)得到基本视点时域参考块的预测块，PE31用于计算视差矢量(DV)得到视点间参考块的预测块；PE22用于计算基本视点时域参考块的预测块与视点间参考块的预测块残差数据；PE32用于对时域参考块的预测块和残差数据求和，得到视点间高级残差预测块，PE33用于存放视点间高级残差预测块，并存储至PEG00的PE33中。

PEG在设计上采用了邻接互连的设计结构，PE之间可以通过共享寄存器和周围四个方向的PE进行相互访问。处理元簇包括16个处理元PE，每个处理元PE中有16个寄存器，为R0～R15寄存器；其中12个寄存器为本地寄存器，4个寄存器(RE、RW、RS和RN)为共享寄存器，本地寄存器3、4、5、6用于PE内部读、写数据的存取，共享寄存器RE、RW、RS和RN用于与相邻的PE通过邻接互连进行数据储存再转发进行数据交换。

本申请方法结合深度图的深度值信息，首先，将编码单元(Coding Unit，CU)按照深度图的深度值划分为近区域、中区域和远区域。然后统计了不同CU编码时域ARP和视点间ARP的执行比例，最后基于深度阈值优化ARP算法。时域和视点间高级残差预测算法的并行化方案，实现了其算法在阵列处理器上的并行映射。结果表明将算法可串行部分并行化后，有效减少了算法的编码时间，提高了整体的编码效率。

实施例三

时域高级残差预测算法与视点间高级残差预测算法的并行化使用了两个簇的硬件存储。虽然对两个时域和视点间高级残差预测算法进行并行实现，达到了大幅度减少算法计算周期数的目的，但是却增加了电路的面积和功耗。为了减少不必要的硬件开销，结合深度阈值，本实施例利用阵列处理器的PE功能可重构特点，通过下发配置指令完成时域高级残差预测与视点间高级残差预测算法的功能切换，在单个PE簇上实现了时域ARP和视点间ARP功能可选择的高级残差预测。

图6为本申请再一个实施例中的高级残差预测算法的可重构设计示意图，请参阅图6及图5中的PEG00时域ARP映射，本实施例中，主机接口(Host interface)通过全局控制器(Global controller)传送相关指令来完成时域ARP和视点间ARP算法的重构操作，并使用PEG00的4×4阵列结构执行ARP算法的重构过程。图6中每个PE标识有该PE的功能或编号。LD表示加载数据，DV表示视差矢量，MV表示运动矢量，reset表示复位，out表示数据输出，13、23、31、32分别为PE的编号，Z₀ Z₁表示深度阈值，residual表示计算残差，prediction表示计算预测块，PE的信息按照左0右1、上0下1的原则配置。

具体重构过程包括：

第一步：数据准备阶段。首先在主机(Host)端存储外部数据和指令信息，然后控制编程指令或者配置信息加载到片上存储中。

PE00执行原始块数据的加载以及下发过程。首先，PE00从DIM存储器中加载原始块数据，并会依次存储至PE00的0-63号地址中。当64个像素值都加载完成后，PE00再通过PE内共享存储的方式将原始块数据分别下发到PE02和PE21的150-213号地址中。

PE01、PE10和PE20分别将读取到的Dr时域参考块数据、Bc视点间参考块数据和Br基本视点时域参考块数据依次存放到PE01、PE10和PE20的0-483号Data Memory中。Bc在得到最优的预测块时再将数据下发到PE11的150-213号地址中。

第二步：PE30中设置深度阈值Z₀和Z₁，然后通过阈值判断当前CU所在区域。若当前CU为远区域时，PE30在160号存储8888握手信号。如果当前CU为近区域和中区域时，PE30在160号存储8888握手信号，在161号地址存储9999握手信号。PE30执行完后，通过HRM反馈网络得到两个标志位8888和9999。其中8888代表下发时域ARP算法，9999代表下发视点间ARP算法。

第三步：时域ARP和视点间ARP算法的下发和执行。

若HRM获取的标志位只为8888时下发时域ARP算法。下发的具体PE有：PE01、PE02、PE03、PE10、PE11、PE12、PE20、PE21、PE22和PE33。配置信息下发完成后，使用CALL指令启动这些PE工作；

若HRM同时检测到标志位8888和9999时，则首先下发时域ARP算法，当ARP算法执行完成后，通过共享存储写入时域ARP算法执行完成后的标志位。然后HRM通过反馈网络循环检测到该标志位后下发视点间ARP算法，下发的具体PE有：PE00、PE03、PE10、PE11、PE20、PE21、PE22、PE30、PE31、PE32和PE33。配置信息下发完成后，使用CALL指令启动这些PE执行。

针对ARP主要的计算复杂性，整合算法内部的可并行部分，通过ARP算法的可重构设计并根据深度阈值实现时域ARP和视点间ARP的灵活切换，从而进一步减少平均编码时间，提高算法的计算效率，同时可重构设计也节省了硬件资源，达到减少硬件开销的目的。

本申请第二方面提出了一种可重构阵列处理器，包括多个处理元簇和DIM存储器、DOM存储器；其中，可重构阵列处理器执行上述的基于可重构阵列处理器的先进残差预测方法。

基于可重构阵列处理器结构，通过深度阈值实现时域ARP和视点间ARP的灵活切换，减少不必要的硬件资源浪费，达到减少硬件开销的目的。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种基于可重构阵列处理器的先进残差预测方法，其特征在于，该方法包括：

其中，当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过所述先进残差预测规则匹配得到当前编码单元的先进残差预测算法，当前编码单元的纹理图像数据采用得到的先进残差预测算法进行预测编码；所述先进残差预测规则是通过统计视频测试图像编码单元采取的先进残差预测算法得到的，包括以下步骤：

S23、令第一深度阈值取值为0，第二深度阈值取值为255；

S24、确定每个编码单元的区域类型，包括：

否则，编码单元属于中区域；

S28、将最大百分比值对应的先进残差预测算法和相应的区域取值范围，作为先进残差预测规则；

所述视频测试图像与所述待编码纹理图像属于相同场景。

2.根据权利要求1所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，所述相同场景基于图像的纹理特征和运动特征确定。

3.根据权利要求1所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，所述先进残差预测规则包括：

4.根据权利要求3所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，当当前编码单元的深度数据属于预先得到的先进残差预测规则中的深度范围时，当前编码单元通过所述先进残差预测规则匹配得到当前编码单元的先进残差预测算法，包括：

5.根据权利要求4所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，可重构阵列处理器的包括：n*n个处理元簇，每一个处理元簇中包括：m*m个处理元PE；DIM存储器、DOM存储器；

所述DOM存储器为输出存储器，用于存储先进残差预测数据。

6.根据权利要求5所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，若处理元簇包括4*4个处理元PE，则用于处理时域先进残差预测算法的处理元簇中：

7.根据权利要求5所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，若处理元簇包括4*4个处理元PE，则用于处理视点间先进残差预测算法的处理元簇中：

8.根据权利要求6所述的基于可重构阵列处理器的先进残差预测方法，其特征在于，基于可重构阵列处理器的先进残差预测方法的重构过程包括：

S43、时域ARP和视点间ARP算法的下发和执行，包括：

9.一种可重构阵列处理器，其特征在于，包括多个处理元簇和DIM存储器、DOM存储器；

其中，所述可重构阵列处理器执行上述权利要求1至8任一所述的方法。