CN100339976C

CN100339976C - 多模多尺度运动估计的超大规模集成电路体系结构及方法

Info

Publication number: CN100339976C
Application number: CNB2004100580304A
Authority: CN
Inventors: 刘华平; 王识霖; 苑泽生
Original assignee: THOMSON BROADBAND DEVELOPMENT (BEIJING) Co Ltd
Current assignee: Beijing Thomson Commercial Co.,Ltd.; Special Art China Technology Co ltd
Priority date: 2004-08-09
Filing date: 2004-08-09
Publication date: 2007-09-26
Anticipated expiration: 2024-08-09
Also published as: CN1588638A

Abstract

本发明涉及数字视频信号编码中多尺度多模式运动估计的超大规模集成电路实现的体系结构及处理过程。本发明所提出的装置和方法的核心部件为由四个内部结构完全一样的处理单元PE-A、PE-B、PE-C和PE-D组成的多模运动估计器，和一个控制器。该装置通过四个PE彼此间的协作运算、控制器对各PE的任务分配、以及对各处理单元中基本计算部件SAD₁₆的运用，实现灵活高效的运动估计过程。本发明提出了一整套方法来支持从4×4到16×16各种尺度多种模式的运动估计。本发明特别适用于ITU-T H.264视频编码中多种块模式运动估计方法的集成电路硬件实现，也同样可以有效地支持其他视频编码方法(例如MPEG-2，MPEG-4等)的超大规模集成电路实现。

Description

多模多尺度运动估计的超大规模集成电路体系结构及方法

所属技术领域

本发明属于电子行业技术领域，具体涉及一种超大规模集成电路体系结构，及该集成电路中进行多尺度多模式运动估计的方法。

背景技术

图1是一般视频编码中以块为单位的运动估计(Motion Estimation，ME)的功能示意图。运动估计的方法是，对当前帧图像中一个被编码的像素块，在参考帧图像中一个指定的窗口中搜索与之相差最小的像素块，作为最佳匹配。运动估计得到两个值：一个是被编码的像素块相对于参考帧中最佳匹配像素块的偏移，即运动矢量MV(Motion Vector)；另一个是被编码像素块与最佳匹配像素之间的残差绝对值之和SAD。这部分计算占了整个编码过程计算量的很大比重，因此，这部分硬件的执行效率直接关系到整个集成电路芯片是否有效运行。

图2是ITU-T H.264/MPEG-4 AVC标准中运动估计的功能示意图。在这个标准中，有七种不同尺寸和形状的像素块被用于运动估计。

运动估计在整个视频编码过程中占有相当重要的地位，也占有了大量的处理器资源，尤其在H.264中引入了从4×4到16×16块的各种尺度的各种模式的运动估计技术，进一步增加了运动估计的计算量和复杂度，因此使运动估计过程灵活高效地进行是实现H.264实时编码的一个重要条件。

由于技术改进、市场化进程、和标准化过程三者之间的不同步发展，视频编码领域内形成了多种编码标准共存的局面。因此，在同一个计算平台上对包括MPEG-1/2/4和H.264在内的多种数字视频编码标准的支持是必要的。

发明内容

本发明的一个目的是提供一种超大规模集成电路体系结构，为进行灵活高效的运动估计提供一种硬件结构。

一种超大规模集成电路体系结构，用于多尺度多模式运动估计，其特征在于包括：

一个当前帧像素块数据提供器；

一个参考帧搜索窗口块数据提供器；

一个多模运动估计器；

一个控制器。

其中多模运动估计器由四个内部结构完全一样的处理单元PE-A(302)，PE-B(303)，PE-C(304)，和PE-D(305)组成。

四个处理单元PE-A(302)，PE-B(303)，PE-C(304)，和PE-D(305)与控制器(301)之间的控制和通道；

四个处理单元PE-A(302)，PE-B(303)，PE-C(304)，和PE-D(305)之间的数据通道和控制通道。

本发明的另一个目的是提供一种在该超大规模集成电路体系结构中的计算方法，使运动估计过程得以灵活高效地进行。

该方法包括以下步骤：

当前帧像素块数据器和参考帧搜索窗口块数据器的数据调入多模运动估计器。

多模运动估计器根据控制器的指令灵活地对数据采用不同的工作模式进行运动估计。

多模运动估计器在16个SAD₁₆部件下对不同的工作模式实现高效运动估计。

其中多模运动估计器能够实现的不同工作模式运动估计方法包括：

第一种工作模式下，四个PE各自并行地独立工作，生成针对四个不同的4×4像素块的运动估计结果MV和SAD。

第二种工作模式下，PE-A和PE-B协同工作，生成针对一个8×4像素块的MV和SAD；与此同时，PE-C和PE-D协同工作，生成针对另一个8×4像素块的MV和SAD。

第三种工作模式下，PE-A和PE-C协同工作，生成针对一个4×8像素块的MV和SAD；与此同时，PE-B和PE-D协同工作，生成针对另一个4×8像素块的MV和SAD。

第四种工作模式下，四个PE协同工作，生成针对一个8×8像素块的MV和SAD。

第五、六种工作模式下，四个PE协同工作，并且循环计算两次，得出针对一个8×16或反向16×8像素块的MV和SAD。

第七种工作模式下，四个PE协同工作，并且循环计算四次，生成针对一个16×16像素块的MV和SAD。

其中多模运动估计器在16个SAD₁₆部件下对不同的工作模式实现高效运动估计的方法包括：

第一种工作模式下，四个PE各自并行地独立工作，每个PE中的四个SAD₁₆的输出端连接到一个比较器上。

第二种工作模式下，把PE-A中的四个SAD₁₆的输出端和PE-B中的四个SAD₁₆的输出端分别连接到四个加法器上，这四个加法器的输出再被送到比较器上。同样地，PE-C中的四个SAD₁₆的输出端和PE-D中的四个SAD₁₆的输出端分别连接到四个加法器上，这四个加法器的输出再被送到比较器上。

第三种工作模式下，多模运动估计器的工作模式与第二种模式类似，但PE搭配不同，由PE-A和PE-C协同工作、PE-B和PE-D协同工作，得到与第二种工作模式反向的MV和SAD。

第四种工作模式下，四个PE协同工作，各自的四个SAD₁₆的输出端分别连接到四个加法器上，这四个加法器的输出再被送到比较器上。

第五、六、七种工作模式下，其运动估计的实现需要对多模运动估计器重复使用一次以上，实现方法可以是纯软件的，即完全由图3中的控制器(301)完成；也可以是纯硬件的，即完全由多模运动估计器完成；还可以是一个软硬件协同工作的过程。由于有控制器中软件程序的参与，因此实现的方式并非唯一。

本发明针对数字视频及图像编码、转码等计算处理过程中的运动估计步骤，提出了一种灵活、高效的计算方法，及其专用超大规模集成电路并行实现结构。使得基于其开发的新一代多模ASIC芯片组可支持包括最新的ITU-T H.264(即MPEG-4第10部分)标准和中国的AVS标准在内的所有MPEG/ITU-T H.26x类标准。适用范围涵盖包括数字电视、网络媒体、信息家电、多媒体移动通讯、激光视盘等在内的多个产业领域。

附图说明

图1为一般视频编码中以块为单位的运动估计(Motion Estimation，ME)的功能示意图；

图2为ITU-TH.264/MPEG-4 AVC标准中运动估计的功能示意图；

图3为本发明超大规模集成电路体系结构；

图4为本发明实现的第一种工作模式；

图5为本发明实现的第二种工作模式；

图6为本发明实现的第三种工作模式；

图7为本发明实现的第四种工作模式；

图8为本发明实现的第五、六种工作模式；

图9为本发明实现的第七种工作模式；

图10显示多模运动估计器ME的组成结构，即数据提供单元和计算单元；

图11显示对本发明构造原理的不同实现方式；

图12介绍计算单元的基本计算部件SAD₁₆；

图13显示四个SAD₁₆部件在多模运动估计器中的配置情形；

图14显示十六个SAD₁₆部件在多模运动估计器中的配置情形；

图15显示十六个SAD₁₆部件下第一种工作模式(图4)的运动估计；

图16显示第一种工作模式(图4)中任意一个PE处的数据提供情况；

图17显示十六个SAD₁₆部件下第二种工作模式(图5)的运动估计；

图18介绍第二种工作模式(图5)中当前帧中的关联4×4像素块和参考帧中的关联搜索位置；

图19显示第二种工作模式(图5)中的数据提供情况；

图20显示十六个SAD₁₆部件下第三种工作模式(图6)的运动估计；

图21介绍第三种工作模式(图6)中当前帧中的关联4×4像素块和参考帧中的关联搜索位置；

图22显示第三种工作模式(图6)中的数据提供情况；

图23显示十六个SAD₁₆部件下第四种工作模式(图7)的运动估计；

图24示出第四种工作模式(图7)中当前帧中的关联4×4像素块和参考帧中的关联搜索位置；

图25示出确定第四种工作模式(图7)中当前帧中的关联4×4像素块和参考帧中的关联搜索位置的过程的示意图；以及

图26示出第五、六、七种工作模式(图8、9)中当前帧中的关联4×4像素块和参考帧中的关联搜索位置。

具体实施方式

下面结合附图对本发明的实施例作进一步的详细描述。

图3是本发明超大规模集成电路体系结构，是一个能对从4×4，4×8，8×4，8×8，8×16，16×8，到16×16等各种几何形状和尺寸的像素块进行运动估计的并行装置。如果它被重复使用更多的次数，它也能对大于16×16的像素块进行运动估计。

整个装置的行为由一个控制器(301)控制。计算的发起和操作模式选择均由控制器发出的操作指令(308)决定。装置的核心部件是由四个内部结构完全一样的处理单元PE-A(302)，PE-B(303)，PE-C(304)，和PE-D(305)组成的多模运动估计器。每个PE能独立完成一个4×4大小的像素块的运动估计，其结果是一组运动矢量MV-A，MV-B，MV-C，MV-D，和相应的残差绝对值和SAD-A，SAD-B，SAD-C，SAD-D。这些运动矢量和残差绝对值和被送往控制器(301)做进一步处理。四个PE也有数据通路和控制通路互联(310)，使得它们可以协同起来完成比4×4更大的像素块的运动估计。

整个多模运动估计器由一个当前帧数据CACHE(306)和参考帧搜索窗口数据CACHE(307)提供输入数据，这些数据被分别引导到四个PE中。

控制器(301)具有一定的处理能力，例如加法，求绝对值，比较大小等。控制器(301)可以用指令序列即程序对多模运动估计器的工作模式和数据准备进行控制。

整个装置能以7种不同的工作模式进行运动估计。

图4是本发明实现的第一种工作模式。即四个PE各自并行地独立工作，生成针对四个不同的4×4像素块的运动估计结果MV和SAD。这种工作模式支持H.264中的编码过程。

图5是本发明实现的第二种工作模式：PE-A和PE-B协同工作，生成针对一个8×4像素块的MV和SAD；与此同时，PE-C和PE-D协同工作，生成针对另一个8×4像素块的MV和SAD。这种工作模式支持H.264中的编码过程。

图6是本发明实现的第三种工作模式：PE-A和PE-C协同工作，生成针对一个4×8像素块的MV和SAD；与此同时，PE-B和PE-D协同工作，生成针对另一个4×8像素块的MV和SAD。这种工作模式支持H.264中的编码过程。

图7是本发明实现的第四种工作模式：这四个PE协同工作，生成针对一个8×8像素块的MV和SAD。这种工作模式支持包括H.264在内的MPEG族标准的编码过程。

图8是本发明实现的第五种工作模式：这四个PE协同工作，并且循环计算两次，得出针对一个8×16像素块的MV和SAD。这种工作模式支持H.264中的编码过程。

图8同时也显示第六种工作模式：这四个PE协同工作，并且循环计算两次，得出针对一个16×8像素块的MV和SAD。这种工作模式支持H.264中的编码过程。

图9是本发明实现的第七种工作模式：这四个PE协同工作，并且循环计算四次，生成针对一个16×16像素块的MV和SAD。这种工作模式支持包括H.264在内的MPEG族标准的编码过程。

图10显示多模运动估计器ME部分主要由两类单元组成：一是计算单元；二是为计算单元提供数据的单元。其中，提供数据的单元被分别分割成PE-A，PE-B，PE-C，和PE-D等四个处理单元，而计算单元有两种实现方式。图10A显示各个处理单元分别独享一个计算单元的构造；图10B表示各个处理单元共享一套计算单元的构造。

图11是显示对本发明构造原理(见图3)的不同实现方式。其中图11(A)和11(B)给出了少于四个4×4的PE的情形。在图11(A)中，整个多模运动估计器只含有一个能完成4×4像素块的运动估计的PE，控制器通过多次、串行地调用这个PE的处理功能，来完成任意尺度像素块的运动估计。在图11(B)中，有两个PE可被调用。这时控制器可利用的计算资源增加了一倍。在图11(C)中给出了多模运动估计器中，4×4的PE个数多于四个的一个例子。在这个具体例子中，有八个可以独立运行的PE被利用于多模运动估计器中。

图12介绍计算单元的一个基本计算部件SAD₁₆。在流水处理情形中，它每个时钟节拍可以产生一个关于16对数的SAD结果。这个基本部件有很多构造方法。本发明适用于所有这些方法。

图13是显示四个SAD₁₆部件在多模运动估计器中的配置情形。对于图10中显示的两类多模运动估计器来说，如果每个PE拥有一套SAD₁₆(图13A)，或者这四个PE共享四套SAD₁₆(图13B)，则整个多模运动估计器每一个时钟节拍便产生关于四个4×4像素块的SAD结果。对应的四个运动矢量可以从取操作数的地址容易地获得，有许多方法可以对此实现，本发明不对此做具体描述。

图14是显示十六个SAD₁₆部件在多模运动估计器中的配置情形。对于图10中显示的两类多模运动估计器来说，如果每个PE拥有4套SAD₁₆(图14A)，或者这四个PE共享16套SAD₁₆(图14B)，则整个多模运动估计器每一个时钟节拍便产生关于十六个4×4像素块的SAD结果。

以下我们给出图14中的多模运动估计器在七种工作模式(见图4-9)的每一种情形中的计算工作描述。同时我们要指出，所描述的原理对于图11中给出的每一种变化的构造都是适用的，不同的只是完成计算工作所用的时间(节拍数)大小而已。

图15显示图14中的多模运动估计器在图4所示的第一种工作模式中的计算工作(亦即四个PE并行独立工作，分别对四个4×4像素块进行运动估计)。在这种模式中，每个PE中的四个SAD₁₆的输出端被连接到一个比较器上。比较器既可以是两端口的，一次给出两个被比较数的最小数判决；也可以是四端口的，一次给出四个被比较数的最小数判决。比较器既可以是多模运动估计器内部的一个计算逻辑部件，也可以是控制器中的一个计算逻辑。同时，比较器还具有一个记忆单元存放以前最小的SAD值，当新的SAD值被送至比较器并完成比较后，新产生的最小SAD值将与以前的最小SAD比较，其中较小的一个SAD将被存放在比较器中。

图16显示第一种工作模式(图4)中任意一个PE处的数据提供情况。第一种工作模式中，每个PE中的数据提供单元分别向计算单元提供运动估计操作所需要的、当前帧中同一个4×4像素块的数据，以及所分别对应的参考帧中搜索窗口内四个搜索位置上的数据。

在每个PE处，由于每个SAD₁₆部件每个节拍均能产生一个SAD₁₆结果，故按照图16的数据提供方式，每个节拍每个PE能就当前帧中的一个4×4像素块产生出在搜索窗口中四个不同位置的SAD值。这些SAD值被送到比较器处以便确定最小SAD及其所在位置。由于一个多模运动估计器中有四个PE，因此，每个节拍该多模运动估计器能就当前帧中的四个4×4像素块分别产生出在搜索窗口中四个不同位置的SAD值，并同时分别确定出四个对应的最小SAD值。

图17显示，图14中的多模运动估计器在图5所示的第二种工作模式中的计算工作(亦即PE-A和PE-B两个PE协同工作，PE-C和PE-D两个PE协同工作，分别对两个8×4像素块进行运动估计的情况)。在这种模式中，PE-A中的四个SAD₁₆的输出端和PE-B中的四个SAD₁₆的输出端分别被连接到四个加法器上，这四个加法器的输出再被送到比较器上。同样地，PE-C中的四个SAD₁₆的输出端和PE-D中的四个SAD₁₆的输出端分别被连接到四个加法器上，这四个加法器的输出再被送到比较器上。

图18表示第二种工作模式(图5)中，关联4×4像素块和关联搜索位置的概念。其中，当一个当前帧中被进行运动估计的4×4像素块(1801)被确定后，其关联像素块是在同一帧中紧邻其右侧的4×4像素块(1802)。当一个参考帧中的搜索窗口内的搜索位置(1803)被确定后，其关联搜索位置是在同一帧中紧邻其右侧的下一个位置(1804)。

图19显示第二种工作模式(图5)中的数据提供情况。四个PE中的数据提供单元分别向计算单元提供运动估计操作所需要的、当前帧中两个8×4像素块的数据，以及分别对应的参考帧中搜索窗口内四个搜索位置上的数据。

在每个PE处，由于每个SAD₁₆部件每个节拍均能产生一个SAD₁₆结果，故按照图19的数据提供方式，每个节拍每个PE对(即PE-A和PE-B，PE-C和PE-D)能就当前帧中的一个8×4像素块产生出在搜索窗口中四个不同位置的SAD值。这些SAD值被送到比较器处以便确定最小SAD及其所在位置。由于一个多模运动估计器中有两个PE对，因此，每个节拍该多模运动估计器能就当前帧中的两个8×4像素块分别产生出在搜索窗口中四个不同位置的SAD值，并同时分别确定出两个对应的最小SAD值。

图20至图22显示在图6所示的第三种工作模式中，多模运动估计器中，两个PE对(PE-A和PE-C，PE-B和PE-D)协同工作，每个节拍就当前帧中的两个4×8像素块分别产生出在搜索窗口中四个不同位置的SAD值，并同时分别确定出两个对应的最小SAD值。对这些图的描述与第二种工作模式(图17至图19)是类似的，所不同的是，PE对的搭配不同(图20)，关联像素块和关联搜索位置的概念不同(图21)。

图23至图25显示在图7所示的第四种工作模式中，多模运动估计器中，四个PE协同工作，每个节拍就当前帧中的一个8×8像素块产生出在搜索窗口中四个不同位置的SAD值，并同时确定出一个最小SAD值。

对于长或宽大于8个像素点的三类像素块(8×16，16×8，16×16)来说，其运动估计的实现需要对多模运动估计器重复使用一次以上，实现方法可以是纯软件的，即完全由图3中的控制器(301)完成；也可以是纯硬件的，即完全由多模运动估计器完成；还可以是一个软硬件协同工作的过程。由于有控制器中软件程序的参与，因此实现的方式不是唯一的，以下给出三种具体实现方法(embodiment)。同时需要声明，本发明的原理和构造对不同的、采用图3结构的、软硬件协同的实现方式皆适用。

图26显示图8、9所示的第五、六、七种工作模式中当前帧中的关联像素块和参考帧中的关联搜索位置。对于8×16像素块的运动估计(图8所示的第五种工作模式)，可以分为三步实现：

把当前帧中的一个8×16像素块的上半部分(8×8像素)作为像素块，先用第四种工作模式(图7)把在参考帧中搜索窗口内四个搜索位置上的不同的SAD值计算出来，并保存起来。

把该8×16像素块的下半部分(8×8像素)作为关联像素块，用第四种工作模式(图7)把参考帧中搜索窗口内四个关联位置上的SAD计算出来，并保存起来。

把第1步得到的四个搜索位置上的不同的SAD值分别和第2步得到的四个关联位置上的SAD值相加，得到这四个位置上的关于原8×16像素块在这四个搜索位置上的SAD值；然后通过比较得出这4个位置上最小的SAD。

类似地，对于16×8像素块的运动估计(图8所示的第六种工作模式)，可以分为三步实现：

把当前帧中的一个16×8像素块的左半部分(8×8像素)作为像素块，先用模式4把在参考帧中搜索窗口内四个搜索位置上的不同的SAD值计算出来，并保存起来。

把该16×8像素块的右半部分(8×8像素)作为关联像素块，用第四种工作模式(图7)把参考帧中搜索窗口内四个关联位置上的SAD计算出来，并保存起来。

把第一步得到的四个搜索位置上的不同的SAD值分别和第二步得到的四个关联位置上的SAD值相加，得到这四个位置上的关于原16×8像素块在这四个搜索位置上的SAD值；然后通过比较得出这4个位置上最小的SAD。

对于16×16像素块的运动估计(图9所示的第七种工作模式)，可以分为五步实现：

把当前帧中的一个16×16像素块的左上角部分(8×8像素)作为像素块，先用第四种工作模式(图7)把在参考帧中搜索窗口内四个搜索位置上的不同的SAD值计算出来，并保存起来。

把该16×16像素块的右上角部分(8×8像素)作为关联像素块，用第四种工作模式(图7)把参考帧中搜索窗口内四个关联位置上的SAD计算出来，并保存起来。

把该16×16像素块的左下角部分(8×8像素)作为关联像素块，用第四种工作模式(图7)把参考帧中搜索窗口内四个关联位置上的SAD计算出来，并保存起来。

把该16×16像素块的右下角部分(8×8像素)作为关联像素块，用第四种工作模式(图7)把参考帧中搜索窗口内四个关联位置上的SAD计算出来，并保存起来。

把第一步得到的四个搜索位置上的不同的SAD值分别和第二、三、四步得到的四个关联位置上的SAD值相加，得到这四个位置上的关于原16×16像素块在这四个搜索位置上的SAD值；然后通过比较得出这4个位置上最小的SAD。

最后需要指出，虽然本发明提出的方法是针对视频信号编码过程提出的，但它同样适用于对视频信号的其它处理和分析过程，例如运动预测，运动分析，运动跟踪，等等。

Claims

1、一种超大规模集成电路体系结构，用于多尺度多模式运动估计，其特征在于包括：

1)一个能完成4×4，4×8，8×4，8×8，8×16，16×8，16×16尺度像素块运动估计的多模运动估计器，其中所述多模运动估计器由四个内部结构完全一样的处理单元PE-A，PE-B，PE-C，和PE-D组成；

2)一个通过向上述多模运动估计器发出指令来决定该多模运动估计器执行何种尺度像素块运动估计的控制器；

3)一个为上述多模运动估计器提供当前帧像素块数据的数据提供器和一个为上述多模运动估计器提供参考帧搜索窗口数据的数据提供器。

2、根据权利要求1所述的超大规模集成电路体系结构，其特征在于多模运动估计器的组织结构为：

1)四个处理单元PE-A，PE-B，PE-C，和PE-D均能接受控制器的指令，以决定工作模式；

2)四个处理单元PE-A，PE-B，PE-C，和PE-D均从一个共享或独享的当前帧像素块数据提供器和一个共享或独享的参考帧搜索窗口数据提供器获得输入数据；

3)每个处理单元PE均能独立完成一个4×4大小的像素块的运动估计，其结果是一组运动矢量MV-A，MV-B，MV-C，MV-D，和相应的残差绝对值和SAD-A，SAD-B，SAD-C，SAD-D，这些运动矢量和残差绝对值和被送往控制器。

3、根据权利要求1或2所述的超大规模集成电路体系结构，其特征在于多模运动估计器中每个处理单元PE的内部构造包括一个基本计算部件SAD₁₆，在流水处理情形中，该基本计算部件SAD₁₆每个时钟节拍产生一个关于16对整数的差的绝对值的和SAD。

4、一种多模多尺度运动估计的方法，用于权利要求1所述的超大规模集成电路体系结构中，使运动估计过程得以灵活高效进行，所述方法包括以下步骤：

1)控制器向多模运动估计器发出指令以决定运动估计的不同工作模式；

2)当前帧像素块数据提供器和参考帧搜索窗口块数据提供器的数据被调入多模运动估计器；

3)多模运动估计器中的四个基本处理单元PE-A，PE-B，PE-C，PE-D根据控制器指令所决定的模式，分别独立并行地对当前帧像素块数据提供器和参考帧搜索窗口块数据提供器的数据进行运动估计；

4)多模运动估计器产生的运动矢量MV和残差绝对值和SAD被送往控制器。

5、根据权利要求4所述的多模多尺度运动估计的方法，其特征在于多模运动估计器能够实现不同工作模式的运动估计，包括：

1)第一种工作模式，四个PE各自并行地独立工作，生成针对四个不同的4×4像素块的运动估计结果MV和SAD；

2)第二种工作模式，PE-A和PE-B协同工作，生成针对一个8×4像素块的MV和SAD；与此同时，PE-C和PE-D协同工作，生成针对另一个8×4像素块的MV和SAD；

3)第三种工作模式，PE-A和PE-C协同工作，生成针对一个4×8像素块的MV和SAD；与此同时，PE-B和PE-D协同工作，生成针对另一个4×8像素块的MV和SAD；

4)第四种工作模式，四个PE协同工作，生成针对一个8×8像素块的MV和SAD；

5)第五种工作模式，四个PE协同工作，并且循环计算两次，得出针对一个8×16像素块的MV和SAD；

6)第六种工作模式，四个PE协同工作，并且循环计算两次，得出针对一个16×8像素块的MV和SAD；

7)第七种工作模式，四个PE协同工作，并且循环计算四次，生成针对一个16×16像素块的MV和SAD。

6、根据权利要求5所述的多模多尺度运动估计的方法，第一种工作模式的实现方法，其特征在于四个PE各自并行地独立工作，每个PE中的四个基本计算部件SAD₁₆的输出端连接到一个比较器上，每个节拍该多模运动估计器就当前帧中的四个4×4像素块分别产生出在搜索窗口中四个不同位置的SAD值，并同时分别确定出四个对应的最小SAD值。

7、根据权利要求5所述的多模多尺度运动估计的方法，当两个PE或四个PE协同工作时的方法，其特征在于：

1)在第二种工作模式中，设定当前被编码的4×4像素块的右侧的4×4像素块为关联像素块；

2)在第三种工作模式中，设定当前被编码的4×4像素块的下侧的4×4像素块为关联像素块；

3)在第四种工作模式中，设定当前被编码的4×4像素块的右侧、下侧、和右下侧的三个4×4像素块为关联像素块；

4)在第二种工作模式中，设定搜索窗口中当前位置上的4×4像素块的右侧的4×4像素块为关联搜索像素块；

5)在第三种工作模式中，设定搜索窗口中当前位置上的4×4像素块的下侧的4×4像素块为关联搜索像素块；

6)在第四种工作模式中，设定搜索窗口中当前位置上的4×4像素块的右侧、下侧、和右下侧的三个4x4像素块为关联搜索像素块。

8、根据权利要求5或7所述的多模多尺度运动估计的方法，当两个PE或四个PE协同工作时的方法，其特征在于：

1)在第二种工作模式中，采用附加加法器，将PE-A和PE-B中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个8×4像素块的SAD结果；以及采用附加加法器，将PE-C和PE-D中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个8×4像素块的SAD结果；

2)在第三种工作模式中，采用附加加法器，将PE-A和PE-C中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个4×8像素块的SAD结果；以及采用附加加法器，将PE-B和PE-D中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个4×8像素块的SAD结果；

3)在第四种工作模式中，采用附加加法器，将PE-A、PE-B、PE-C、和PE-D中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个8×8像素块的SAD结果。

9、根据权利要求5或7所述的多模多尺度运动估计的方法，第五、六、七种工作模式的实现方法，其特征在于：

1)在第五种工作模式中，设定当前被编码的8×8像素块的下侧的8×8像素块为关联像素块；

2)在第六种工作模式中，设定当前被编码的8×8像素块的右侧的8×8像素块为关联像素块；

3)在第七种工作模式中，设定当前被编码的8×8像素块的右侧、下侧、和右下侧的三个8×8像素块为关联像素块；

4)在第五种工作模式中，设定搜索窗口中当前位置上的8×8像素块的下侧的8×8像素块为关联搜索像素块；

5)在第六种工作模式中，设定搜索窗口中当前位置上的8×8像素块的右侧的8×8像素块为关联搜索像素块；

6)在第七种工作模式中，设定搜索窗口中当前位置上的8×8像素块的右侧、下侧、和右下侧的三个8×8像素块为关联搜索像素块。

10、根据权利要求8所述的多模多尺度运动估计的方法，第五、六、七种工作模式的实现方法，其特征在于：

11、根据权利要求5或7所述的多模多尺度运动估计的方法，第五、六、七种工作模式的实现方法，其特征在于：

1)运动估计的实现是一个软硬件协同工作，即控制器和多模运动估计器协同完成的过程；

2)运动估计的实现需要对多模运动估计器按第四种工作模式重复使用一次以上；

3)运动估计的实现采用分步操作的办法，即通过第四种工作模式即四个PE协同工作的方法和设定关联像素块和关联搜索像素块的方法，由多模运动估计器对各8×8像素块和关联像素块求出四个搜索位置上的SAD值并送至控制器，由控制器相加总和，最后比较得出最小的SAD值，其中，在第四种工作模式的四个PE协同工作的方法中：设定搜索窗口中当前位置上的4×4像素块的右侧、下侧、和右下侧的三个4×4像素块为关联搜索像素块；当两个PE或四个PE协同工作时，采用附加加法器，将PE-A、PE-B、PE-C、和PE-D中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个8×8像素块的SAD结果；在设定关联像素块和关联搜索像素块的方法中：在第五种工作模式中，设定当前被编码的8×8像素块的下侧的8×8像素块为关联像素块；在第六种工作模式中，设定当前被编码的8×8像素块的右侧的8×8像素块为关联像素块；在第七种工作模式中，设定当前被编码的8×8像素块的右侧、下侧、和右下侧的三个8×8像素块为关联像素块；在第五种工作模式中，设定搜索窗口中当前位置上的8×8像素块的下侧的8×8像素块为关联搜索像素块；在第六种工作模式中，设定搜索窗口中当前位置上的8×8像素块的右侧的8×8像素块为关联搜索像素块；在第七种工作模式中，设定搜索窗口中当前位置上的8×8像素块的右侧、下侧、和右下侧的三个8×8像素块为关联搜索像素块。

12、根据权利要求8所述的多模多尺度运动估计的方法，第五、六、七种工作模式的实现方法，其特征在于：

3)运动估计的实现采用分步操作的办法，即通过第四种工作模式即四个PE协同工作的方法和设定关联像素块和关联搜索像素块的方法，由多模运动估计器对各8×8像素块和关联像素块求出四个搜索位置上的SAD值并送至控制器，由控制器相加总和，最后比较得出最小的SAD值；其中，在设定关联像素块和关联搜索像素块的方法中：在第五种工作模式中，设定当前被编码的8×8像素块的下侧的8×8像素块为关联像素块；在第六种工作模式中，设定当前被编码的8×8像素块的右侧的8×8像素块为关联像素块；在第七种工作模式中，设定当前被编码的8×8像素块的右侧、下侧、和右下侧的三个8×8像素块为关联像素块；在第五种工作模式中，设定搜索窗口中当前位置上的8×8像素块的下侧的8×8像素块为关联搜索像素块；在第六种工作模式中，设定搜索窗口中当前位置上的8×8像素块的右侧的8×8像素块为关联搜索像素块；在第七种工作模式中，设定搜索窗口中当前位置上的8×8像素块的右侧、下侧、和右下侧的三个8×8像素块为关联搜索像素块。

13、根据权利要求9所述的多模多尺度运动估计的方法，第五、六、七种工作模式的实现方法，其特征在于：

3)运动估计的实现采用分步操作的办法，即通过第四种工作模式即四个PE协同工作的方法和设定关联像素块和关联搜索像素块的方法，由多模运动估计器对各8×8像素块和关联像素块求出四个搜索位置上的SAD值并送至控制器，由控制器相加总和，最后比较得出最小的SAD值，其中，在第四种工作模式的四个PE协同工作的方法中：设定搜索窗口中当前位置上的4x4像素块的右侧、下侧、和右下侧的三个4×4像素块为关联搜索像素块；当两个PE或四个PE协同工作时，采用附加加法器，将PE-A、PE-B、PE-C、和PE-D中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个8×8像素块的SAD结果。

14、根据权利要求10所述的多模多尺度运动估计的方法，第五、六、七种工作模式的实现方法，其特征在于：

3)运动估计的实现采用分步操作的办法，即通过第四种工作模式即四个PE协同工作的方法和设定关联像素块和关联搜索像素块的方法，由多模运动估计器对各8x8像素块和关联像素块求出四个搜索位置上的SAD值并送至控制器，由控制器相加总和，最后比较得出最小的SAD值，其中，在第四种工作模式的四个PE协同工作的方法中：设定搜索窗口中当前位置上的4×4像素块的右侧、下侧、和右下侧的三个4×4像素块为关联搜索像素块；当两个PE或四个PE协同工作时，采用附加加法器，将PE-A、PE-B、PE-C、和PE-D中的基本计算部件SAD₁₆得到的结果作为部分和，相加得到关于一个8×8像素块的SAD结果。