CN1144471C

CN1144471C - 利用基于特征点的运动估算编码视频信号的方法和装置

Info

Publication number: CN1144471C
Application number: CNB951977822A
Authority: CN
Inventors: ��Ĭ��; 丁海默; 李敏燮
Original assignee: Daewoo Electronics Co Ltd
Current assignee: Fengye Vision Technology Co Ltd
Priority date: 1995-03-18
Filing date: 1995-05-06
Publication date: 2004-03-31
Anticipated expiration: 2015-05-06
Also published as: NO974209L; PL177586B1; MX9707106A; BR9510541A; TW257924B; AU711311B2; CN1178057A; PL322302A1; CA2215386C; JPH11506576A; KR0181034B1; JP4187264B2; EP0815690B1; ATE207279T1; FI973715A0; KR960036766A; DE69523340D1; US5978030A; NO974209D0; AU2420695A

Abstract

一种装置，用于对一数字视频信号(217)编码以减少该数字视频信号的传送率，该装置包括基于特征点的运动补偿电路(150)，用于从重建的参考帧中选择一组特征点以通过利用基于特征点的运动估算来检测当前帧和初始参考帧之间与该组特征点相应的一组运动矢量，并用于基于该组运动矢量和重建的参考帧来产生一第二预测帧。该基于特征点的运动估算利用了一收敛过程，其中每一特征点的位移被给予它的运动矢量，而每一个六边形的6个三角形被利用其顶点特征点的位移独立地进行了仿射变换。如果该位移提供了更好的峰值信噪比，则该主特征点的运动矢量被顺序地更新。因此本发明的收敛过程在匹配处理中非常有效地确定尽可能接近于具有目标的变焦、旋转或缩放的初始图象的预测图象。

Description

利用基于特征点的运动估算编码视频信号的方法和装置

技术领域

本发明涉及一种用于对视频信号进行编码的方法和装置；更具体地，涉及一种用于利用基于改进的特征点的运动估算对数字视频信号进行编码的方法和装置，由此有效地减少该数字视频信号的传送率并确保图象质量完好。

背景技术

众所周知，数字化的视频信号的传送能够获得比模拟信号的传送更高质量的视频图象。当包含一序列图象“帧”的图象信号被以数字形式表示时，就会产生大量的待传输的数据，尤其是在高分辩率电视系统的情况下。然而，由于传统发送信道的可用频率带宽有限，为了由此传送大量的数字数据，不可避免地要压缩或减少传输的数据量。在各种视频压缩技术中，已知的最有效的是所谓的混合编码技术，该技术将时间和空间压缩技术与统计编码技术结合在一起。

大多数混合编码技术使用一运动补偿DPCM(差分脉冲编码调制)、二维DCT(离散余弦变换)、DCT系数量化，和VLC(可变长编码)。运动补偿DPCM是一个估算一目标在当前帧和先前帧或将来帧(即参考帧)之间的运动、并根据该目标的运动流预测此当前帧以产生一代表当前帧与其预测值之间的差的差分信号的过程。此方法被描述在例如，Staffan Ericsson的“FixeD anD ADaptive PreDictors for HybriD PreDictive/Transform CoDing”，IEEE Transactions on Communications，COM-33，第12期(1985年12月)；与Ninomiya和Ohtsuka的“A Motion-CompensateD Interframe CoDing Scheme for TelvisionPictures”，IEEE Transactions on Communications，COM-30，第1期(1982年1月)。

减少或利用图象数据间的空间冗余的二维DCT将一块数字图象数据，例如一8×8象素的块，转换成一组变换系数数据。此技术被描述在Chen和Pratt的“Scene ADaptive CoDer”，IEEE Transactions on Communications，COM-32，第3期(1984年3月)。通过用量化器、折线扫描器和VLC处理此变换系数数据，被传送的数据量可被有效地压缩。

具体地，在运动补偿DPCM中，根据估算当前和参考帧之间的运动从相应的参考帧数据预测当前帧数据。这种估算的运动可根据代表参考和当前帧之间象素的位移的二维运动矢量来描述。

有两种基本方法来估算一目标的象素的位移：一种是逐块估算，而另一种是逐象素的方法。

在逐块运动估算中，当前帧中的一块和其参考帧中的块进行比较直到确定了最佳匹配。由此，可以为被传送的当前帧预计整个块的帧间位移矢量(该矢量表示该块象素在帧间移动了多少)。

此种块匹配技术可被用在预测包含在视频序列中的P和B帧，如公开于ITU Telecommunication StanDarDization Sector StuDy Group 15，Working Party 15/1 Expert′s Groupon Very Low Bit Rate Visual Telephony的“ViDeo CoDec Test MoDel，TMN4 Rev1”，(1994年10月25日)，其中P或预测帧表示从其先前帧(作为参考帧)预测的一帧，而B或双向预测帧是从其先前和将来帧(作为参考帧)预测的。具体地，在对所谓的B帧编码中，利用双向运动估算技术以便向前和向后导出位移矢量，其中前向位移矢量是通过估算—目标在B帧和其先前内部帧(I)或预测帧(P)(作为参考帧)之间的运动来获得，而后向位移矢量是基于B帧和其将来帧I或P帧(作为参考帧)导出的。

然而，在逐块运动估算中，在一块的边界处的分块效应可能发生在一运动补偿过程中；并且如果该块中所有的象素不以同样方式运动的话可能导致失真的估算，由此减低了整体图象质量。

另一方面，使用逐象素的方法，为每一个象素确定一位移。此技术可使更精确地估算该象素值，并且能够轻易地处理尺寸变化(例如，变焦，垂直于图象平面的运动)。然而，在逐象素方法中，因为在每一个象素处确定一运动矢量，实际上不可能向接收机传送所有的运动矢量。

为消除处理由逐象素方法导致的多余或过多的传送数据的问题而引入的技术之一是基于特征点的运动估算方法。

在基于特征点的运动估算技术中，一组被选择的象素，即特征点的运动矢量被传送至一接收器，其中每一个特征点被定义为能够代表其相邻象素的象素以便非特征点的运动矢量能够在该接收机从这些特征点被恢复或逼近。在一共有未决的申请即美国序列号08/367,520(题为“MethoD anD Apparatus for EncoDing a ViDeo Signal Using Pixel-by-Pixel Motion Estimation”)中公开的采用该基于特征点的运动估算的一编码器中，首先从所有包含在先前帧中的象素选择多个特征点。然后，确定被选的特征点的运动矢量，其中每一运动矢量代表先前帧中的一特征点和当前帧中的一相应匹配点，即一最相似象素之间的空间位移。具体地，通过使用一已知的块匹配算法在当前帧内的一搜索区中搜索每一特征点的匹配点，其中一特征点块被定义为围绕该被选择的特征点的一块；而搜索区被定义为围绕相应特征点的位置的一预定区内的一区域。

在这种情况下，最希望或方便的是在与被选的特征点相应的全部搜索区中找到唯一的最佳匹配特征点块。然而，有时，在特征点匹配中可能有多个相同的最佳匹配特征点块。结果，难于正确检测具有此特征点块和相应搜索区之间相关性的特征点的运动矢量。而且，如果不根据参考帧中的特征点和相应的匹配点，即当前帧中的一最相似点之间的空间位移确定搜索区，可能引起失真的估算，由此减低了整体图象质量。

发明内容

因此，本发明的一个月的是提供一种方法，用于有效地估算特征点的运动矢量，由此有效地减少具有良好图象质量的数字视频信号的传送率。

本发明的另一个目的是提供一种装置，使用在视频信号编码系统中，用于利用基于一特征点的运动估算有效地估算运动矢量，由此有效地减少具有良好图象质量的数字视频信号的传送率。

本发明的另一目的是提供一种有选择地利用基于特征点的运动估算和基于块的运动估算的视频信号编码系统，以由此改进整体图象质量。

根据本发明的一个方面，提供了一种方法，用于通过利用基于特征点的运动估算方法来检测视频信号的当前帧和参考帧之间的一组运动矢量，其中该参考帧包括一重建的参考帧和一初始的参考帧，该方法包括以下步骤：

(a)从包含在重建参考帧中的象素中选择一组特征点，其中该组特征点形成一具有多个重叠多边形的多边网；

(b)基于该组特征点在当前帧上确定一组准特征点；

(c)为该组准特征点分配一组初始运动矢量，其中每一初始运动矢量被置为(0，0)；

(D)指定准特征点之一作为主准特征点，其中该主准特征点具有N个相邻的准特征点，这些相邻的准特征点形成由连接该N个相邻准特征点的线段定义的一个主当前多边形，其中N是正整数；

(e)顺序地将该主准特征点的初始运动矢量加至M个候选运动矢量以产生M个更新初始运动矢量，M是一正整数，其中所述M个候选运动矢量覆盖该主当前多边形中的一预定区域，而所述相邻特征点的初始运动矢量是固定的；

(f)根据M个该主准特征点的已更新的初始运动矢量和所述N个该相邻特征点的初始运动矢量中的每一个为包含在该主当前多边形中的每一象素在初始参考帧上确定一预测的位置；

(g)根据初始参考帧中的该预测位置为所述每一象素提供一预测象素值以形成M个预测的主当前多边形；

(h)计算当前多边形和每一预测主当前多边形之间的差以产生M个峰值信噪比(PSNR)；

(i)选择一个已更新运动矢量作为一被选择已更新运动矢量，该矢量使一预测主当前多边形具有最大PSNR以用该被选择的已更新运动矢量更新该主准特征点的初始运动矢量；

(j)重复步骤(D)到(i)直到所有的初始运动矢量都被更新；

(k)重复步骤(j)直到所述重复被执行了预定次；及

(n)将该组初始矢量设置为该组运动矢量，以由此确定该组运动矢量。

根据本发明的另一方面，提供了一种装置，使用在一视频编码系统中，用于通过利用基于特征点的运动估算来检测一组视频信号的当前帧和参考帧之间的运动矢量，其中该参考帧包括一重建参考帧和一初始参考帧中，该装置包括：

第一选择装置，用于从该重建参考帧中选择一组象素作为一组特征点，其中该组特征点形成具有多个重叠多边形的一多边形网；

装置，用于确定一组相应于该组特征点的当前帧上的准特征点；

存储装置，用于存储一组该组准特征点的初始运动矢量，其中每一初始运动矢量被置为(0，0)；

第二选择装置，用于从该组准特征点中选择L个主准特征点，其中每一主准特征点具有N个相邻准特征点，此N个相邻准特征点形成了由连接该主准特征点和所述N个相邻准特征点的线段定义的一非重叠的主当前多边形，所述L和N是正整数；

加法器装置，用于将每一主准特征点的初始运动矢量加至M个候选运动矢量以形成每一主准特征矢量的M个更新后的初始运动矢量，M是一正整数，其中所述M个候选运动矢量覆盖了每一非重叠主多边形中的一预定区域，而每一主准特征点的相邻特征点的初始运动矢量是固定的；

装置，用于根据每一更新的初始运动矢量和相应的相邻准特征点的初始运动矢量为包含在每一非重叠主当前多边形中的每一象素在初始参考帧上确定一预测位置；

装置，用于根据此预测的位置从初始参考帧中获得一预测的象素值以由此为每一非重叠主当前多边形形成M个预测的主当前多边形；

装置，用于计算每一非重叠主当前多边形和相应的M个预测主当前多边形之间的差以为每一非重叠主当前多边形产生M个峰值信噪比；

第三选择装置，用于为每一主准特征点选择一更新的初始矢量作为被选择的已更新的初始运动矢量，其使该预测的主当前多边形具有最大的PSNR，以产生L个被选择的已更新初始运动矢量；

装置，用于以相应的被选择的更新的初始运动矢量为存储在存储器装置中的每一主准特征点更新该初始运动矢量；及

装置，用于当更新了所有初始运动矢量预定次数时，从该存储器装置中取出该组初始运动矢量作为该组运动矢量。

根据本发明的另一方面，提供了一种用于对一数字视频信号编码以减少该数字视频信号的传送率的装置，所述数字视频信号具有包括一当前帧和一参考帧的多个帧，该装置包括：

第一存储器装置，用于存储该数字视频信号的一初始参考帧；

第二存储器装置，用于存储该数字视频信号的一重建的参考帧；

第一运动补偿装置，用于通过利用基于块的运动估算来检测当前帧和重建的参考帧之间的多个运动矢量，并用于根据该多个运动矢量和重建的参考帧产生第一预测当前帧；

用于确定一组相应于该组特征点的当前帧上的准特征点的装置；

第二选择装置，用于从该组准特征点中选择L个主准特征点，其中每一主准特征点具有N个相邻准特征点，此N个相邻准特征点形成了由连接所述N个相邻准特征点的线段定义的一非重叠的主当前多边形，所述L和N是正整数；

装置，用于根据此预测的位置从初始参考帧中获得一预测的象素值以由此为每一非重叠主当前多边形形成M个预定的主当前多边形；

第三选择装置，用于为每一主准特征点选择一更新的初始矢量作为被选择的已更新的初始运动矢量，其使该预测的主当前多边形具有最大的峰值信噪比，以产生L个被选择的已更新初始运动矢量；

装置，用于以相应的被选择的更新的初始运动矢量为存储在存储器装置中的的每一主准特征点更新该初始运动矢量；及

装置，用于当更新了所有初始运动矢量预定次数时，从该存储器装置中取出该组初始运动矢量作为该组运动矢量；

装置，用于有选择性地将该多个运动矢量和第一预测当前帧或该组运动矢量和第二预测当前帧提供作为被选运动矢量和预测当前帧；

装置，用于变换编码(transform-coding)代表预测当前帧和当前帧之间的差的一误差信号以产生一变换编码误差信号；及

装置，用于统计地编码该变换编码误差信号和被选择的运动矢量以产生一被发送的已编码视频信号。

附图说明

本发明的以上和其它目的和特征将通过对下述参考附图的优选实施例的描述中变得显而易见，其中：

图1是一具有根据本发明的基于特征点的运动补偿装置的图象信号编码装置；

图2A和2b是说明二帧序列的原理图。

图3是描述了图1所示的运动补偿装置的详细方框图；

图4描述了图3所示的运动矢量搜索块的示例性方框图；

图5A和5B提供了当前帧和重建的先前帧的示例性图；

图6A至6E说明用于显示根据本发明的特征点选择操作的示意图；及

图7A和7B说明了用于显示根据本发明的运动矢量搜索过程的示意图。

具体实施方式

参考图1，其示出了根据本发明的图象编码系统的方框图。该图象编码系统包括帧重组电路101、减法器102、图象信号编码器105、图象信号解码器113、加法器115、第一存储器装置120、第二存储器装置130、平均信息量编码器107和运动补偿装置150。

一输入数字视频信号包括如图2A和2B所示的二帧(或图象)序列：第一帧序列具有一内部(I)帧(I1)、3个双向预测帧(B1，B2。B3)和3个预测帧(P1，P2，P3)；而第二帧序列有一内部(I)帧(I1)、3个前向预测帧(F1，F2，F3)和3个预测帧(P1，P2，P3)。因此，该图象编码系统包括二序列编码方式：第一序列编码方式和第二序列编码方式。在第一序列编码方式中，线路L17通过第一切换器103与线路11耦合，而包括了I1、B1、P1、B2、P2、B3、P3的第一帧序列经第一切换器103施于帧重组电路101，该帧重组电路101用于将其重组成例如I1、P1、B1、P2、B2、P3、B3的重组数字视频信号，以便双向导出B帧的预测帧信号。被重组的数字视频信号随后经线路L18、L12、L1分别被提供给第二切换器104a、第一存储器装置120和运动补偿装置150。在第二序列编码方式中，线路L17经第一切换器103与线路L10耦合，而第二帧序列I1、F1、P1、F2、P2、F3、P3经第一切换器103被耦合至分别在线路L12、L1、L18上的第一存储器装置120、运动补偿装置150和第二切换器104a。第一切换器103由来自例如是一微处理器(未示出)的传统系统控制器的序列方式控制信号CS1激发。如由上述可看到的，由于在第一序列编码方式中有重组延时，第二序列编码方式可被有利地用作如电视电路和电路会议装置之类的应用中的低延时方式。

如图1所示，图象编码系统包括：第二切换器104a和第三切换器104b，它们用于有选择地执行二帧编码方式：内部帧编码方式和帧间编码方式。如本专业内熟知的，由来自系统控制器的帧方式控制信号CS2同时激发第二和第三切换器104a和104b。

在内部帧编码方式中，经线路L14，内部帧I1作为当前帧信号直接与图象信号编码器105耦合，其中例如通过利用离散余弦变换(DCT)和任何公知的量化方法将当前帧信号编码成该组量化变换系数。内部帧I1也作为一初始参考帧存储在第一存储器装置120的帧存储器121中，其中第一存储器装置120包括分别通过线路L2、L3和L4连至运动补偿装置150的3个帧存储器121、122和123。然后，量化变换系数被发送至平均信息量编码器107和图象信号解码器113。在平均信息量编码器107，通过利用例如可变长编码技术，来自图象信号编码器105的量化变换系数被一起编码并发送至一发送器(未示出)用于从其发送。

另一方面，通过利用反量化和反离散余弦变换，图象信号解码器113将来自图象信号解码器105的量化变换系数转换回重建的内部帧信号。来自图象信号解码器113的该重建的内部帧信号作为一重建的参考帧随后被存在第二存储器装置130的帧存储器131，其中第二存储器装置130包括分别经线路L’2，L’3和L’4连至运动补偿装置150的3个帧存储器131、132、133。

在帧间编码方式，一帧间帧(例如预测帧P1、双向预测帧或前向预测帧F1)作为当前信号被施于减法器102和运动补偿装置150，并被存储在第一存储器装置120的帧存储器121，其中所谓的帧间帧包括：双向预测帧B1、B2、B3，预测帧P1、P2、P3和前向预测帧F1、F2、F3。原先存储在帧存储器121中的初始参考帧然后经线路L2被耦合至运动补偿装置150，并被变换或存储在帧存储器122。该运动补偿装置150包括如下所述的基于块的运动补偿信道和基于特征点的运动补偿信道。

当当前帧是预测帧P1时，通过利用基于块的运动补偿信道对线路L1上的当前帧信号和来自帧存储器131的线路L’1上的重建参考帧信号进行处理以根据在线路L30上产生预测的当前帧信号和线路L20上的该组运动矢量来预测当前帧。当当前帧是前向预测帧F1(或双向预测帧B1)时，通过利用基于特征点的运动补偿信道对线路L1上的当前帧信号、来自第一存储器装置120的线路L2、L3和L4之一上的初始参考帧信号以及来自第二存储器130的线路L’2、L’3和L’4之一的重建的参考帧信号进行处理以预测当前帧用来在线路L30上产生一预测的当前帧信号及在线路L20上产生一组运动矢量。将参考图3对运动补偿装置150进行详细地描述。

在减法器102将线路L30上的预测当前帧信号从线路L15上的当前帧信号中减去。而将结果数据，即表示差分象素值的误差信号分配至图象信号编码器105，在此，通过利用DCT和任何公知的量化方法将该误差信号编码成一组量化变换系数。那就是，通过从当前帧中减去预测当前帧而获得的误差是DCT编码的。在这种情况下，量化器步长被设成一大值，以便只补偿由不正确估测运动矢量引起的严重变形的区域。

之后，量化变换系数被送至平均信息量编码器107和图象信号解码器113。在平均信息量编码器107，通过利用例如可变长编码技术对来自图象信号编码器105的量化变换系数和经线路L20来自运动补偿装置150的运动矢量一起编码，并传送至一发送器(未示出)用于从其发送。

另一方面，图象信号解码器113通过利用反量化和反离散余弦变换将来自图象信号解码器105的量化变换系数转换回重建误差信号。

来自图象信号解码器113的重建误差信号和线路L16上的来自运动补偿装置150的预测的当前帧信号经切换器104b在加法器115被加在一起以由此经线路L’1提供一重建参考帧信号被作为先前帧存储在第二帧存储器130中。帧存储器装置130包括，例如，如图1所示串联的3个帧存储器131、132和133。那就是，来自加法器115的重建的帧信号被首先存储在例如帧存储器131，然后经线路L’2被提供至运动补偿装置150，并且如果来自加法器115的下一重建帧信号被输入至第一帧存储器131，则就被在逐帧的基础上变换到第二帧存储器132。只要执行图象编码工作就顺序地重复此过程。

参考图2A和2B，其中提供了说明上述第一和第二帧序列的示意图。如图所示，当当前帧是预测帧P1时，通过将重建的内部帧I1用作自第二帧存储器130恢复的参考帧就在逐块地基础上获得了一组运动矢量SMV1。以同样的方式，利用参考帧P1和P2获得当前帧P2和P3的那组运动矢量SMV2和SMV3。

当当前帧是双向预测帧B1时，通过利用自第二帧存储器130恢复的重建的参考帧I1和自第一存储器120恢复的初始参考帧I1从特征点获得一组前向运动矢量FMV1。以同样的方式，通过利用初始参考帧P1和重建参考帧P1获得当前帧B1的那组后向运动矢量BMV1。之后，图象编码系统在该组前向运动矢量FMV1和该组后向运动矢量BMV1之间选择并传送相应的运动矢量。

当当前帧是前向预测帧F1时，通过利用自第一存储器装置120恢复的初始参考帧I1和自第二存储器130恢复的重建参考帧F1从特征点获得一组前向运动矢量FMV2。

如上可看到的，对于运动估算和补偿，包含在第一和第二帧序列中的帧被如表I和表II所示地安排在第一和第二帧存储存储装置120和130。

表中○表示用于前向运动估算的一帧，而△表示用于后向运动估算的一帧。

如上可看到的，使用基于块的运动估算，通过利用基于DCT的预测编码(所谓的TMN4)重建了预测帧P1、P2和P3；根据本发明通过利用基于改进的特征点的运动补偿—离散余弦变换(MC-DCT)重建了插入帧，即双向预测帧B1、B2、B3或前向预测帧F1、F2、F3。

参考图3，其说明了图1所示的运动补偿装置150的细节。如图3所示，运动补偿装置150包括：输入选择器154、155和156，基于块的运动补偿电路151，基于第一特征点的运动补偿电路152，基于第二特征点运动补偿电路153和输出选择器157和158。

利用一传统块匹配算法的基于块的运动补偿电路151用于为每一预测帧P1、P2、P3检测一组运动矢量，并为相应的预测帧产生一预测当前帧。因此，当预测帧P1如表I和II所说的被作为当前帧施于基于块的运动补偿路151时，选择器154用于将线路L’2上的重建内部帧I1作为参考帧耦合到基于块的运动补偿电路151。在基于块的运动补偿电路151，经过其估算一组运动矢量并重建一预测当前帧信号。之后，该组运动矢量和该预测的当前帧信号分别经输出选择器157和158被耦合在线路L20和L30上。

利用下述的仿射变换的基于第一特征点的运动补偿电路152用于为每一双向预测帧B1、B2、B3或前向预测帧F1、F2和F3检测一组前向估算运动矢量，并用于为相应的双向或前向预测帧产生一预测当前帧。因此，当线路L1上的双向预测帧B1作为当前帧被施于基于特征点的运动补偿电路152时，如表I所示，选择器155用于将线路L2上的初始内部帧I1作为初始参考帧耦合到基于特征点的运动补偿电路152。选择器156用于将线路L’2上的重建内部帧I1作为重建参考帧耦合至基于特征点的运动补偿电路152以产生预测帧。在基于第一特征点的运动补偿电路152，通过利用该重建的和该初始的参考帧估算一组前向估算运动矢量，又通过利用该重建的参考帧重建一预测当前帧信号。之后，该组前向估算运动矢量和预测当前帧信号被分别经输出选择器157和158耦合至线路L20和L30上，其中通过来自系统控制器(未示出)的控制信号CS5和CS6控制输出选择器157和158。

利用下述的仿射变换的基于第二特征点的运动补偿电路153用于为每一双向预测帧B1、B2、B3检测那组后向估算运动矢量并用于为相应的双向预测帧产生一预测当前帧。因此，当双向预测帧B1被作为当前帧施于基于第二特征点的运动补偿电路153时，线路L1上的初始预测帧P1被作为初始参考帧耦合至基于特征点的运动补偿电路153，而线路L’2上的重建的预测帧P1被作为重建的参考帧耦合至基于第二特征点的运动补偿电路153。在基于第二特征点的运动补偿电路153，通过利用此重建的和初始的参考帧获得一组后向估算运动矢量，又通过利用此重建的参考帧建立一预测的当前帧信号。之后，该组后向估算运动矢量和预测当前帧信号被分别经输出选择器157和158耦合到线路L20和L30上。

参考图4，其示出图3所示的基于特征点的运动补偿电路的细节。来自第二帧存储器130的线路L’2上的一重建的参考帧信号被输入至用于产生一组特征点的特征点选择块210和运动补偿块240。该组特征点然后被耦合至运动矢量搜索块230和运动补偿块240。运动矢量搜索块230接收该初始参考帧和当前帧并用于为该组特征点产生一组运动矢量。该组运动矢量被耦合至用于根据该组运动矢量和该组特征点产生一预测当前帧的运动补偿块240。

在特征点选择块210，该组特征点被从包含在被重建的参考帧中的多个象素中选出，每一特征点根据一象素的位置被定义。图5A和5B示出了一示例当前帧和一重建参考帧。

参考图6A至6E，示出了说明根据本发明的特征点选择过程的解释图。如图6A所示，通过利用公知的索伯边缘检测器(Sobel edgedetector)(见A.K.Jain的“Fundamentals of Digital ImageProcessing”，1989，Pretice-Hall International)，在图5B所示的重建参考帧

中检测出边缘。从Sobel算子来的输出

与一预定阈值Te比较。根据本发明该预定阈值Te最好选为6。如果自Sobel算子的输出值

小于该预定阈值Te，则输出值被置为0。否则，输出值|p(x，y)|可不改变。因此，图6A中所示的一边缘图象信号eg(x，y)被定义如下：

(公式1)

在本发明的一优选实施例中，如图6B所示通过使用利用具有多个重叠六边形的一六边形网格的网格技术来确定特征点。如图6C所示，由连接6个网点611至616的线段定义一六边形610。包含一六边形610中的网点617包围着比四边形更多的相邻网点611至616，由此使该特征点更有效地组构起来。六边形610包括6个非重叠三角形621至626，而网点611至617是三角形621至626的顶点。六边形610的分辨率由线HH和HV定义，在本发明中HH和HV最为分别被置成13和10。

参考图6D，对于每一网点，例如G1至G4，设置非重叠搜索范围，例如SR1至SR4。如果围绕设边缘点(例如E7)的8个象素的总和值最大，位于搜索范围SR1中的一边缘点(例如E7)变成了网格(例如G1)的一特征点，因此，特征点Di可被表示如下：

Di = {(x, y) | Max Σ_{k = - 1}^{1} Σ_{k = - 1}^{1} EG (x + k, y + l)}

(公式2)

其中EG(x，y)是包含在搜索区SRi中的边缘点的值，而i是一正整数。

通过利用等式2确定此组特征点，其中该组特征点包括：重叠一边缘点的一网点，所述边缘点位于非重叠搜索区SRi并具有其围绕象素点的最大和值，以及所述的网点不包含那些处于非重叠搜索区域内的边缘点。

如果多于一个边缘点具有相同最大和值，那么将最靠近该网点的边缘点选作特征点。

当确定了该组特征点时，图6B所示的六边形网格就被形成为图6E所示的一六边形特征点网。确定了该六边形特征点网之后，该组特征点就与用于检测它的一组运动矢量的图4所示的运动矢量搜索块230相耦合。根据本发明，利用仿射变换的一收敛过程被用于搜索该组运动矢量。

参考图7A和7B，示出一说明根据本发明的运动矢量搜索过程的示例性图。通过利用该组特征点在当前帧中确定一组准特征点，其中在重建的参考帧中的每一特征点都与当前帧中的相应准特征点相匹配。对于每一准特征点，例如D1至D30，初始运动矢量被置为(0，0)。

当准特征点(例如D7)随之被分配或设置为被用于估算其运动矢量的处理的一主准特征点时，一主当前多边形700被用于此收敛处理。主当前多边形700被连接主准特征点D7和围绕该主准特征点D7的其相邻的准特征点(例如D1至D6)的线段所定义。当前多边形700包括六个非重叠三角形701至706，其中该主准特征点位于该三角形的公共顶点上。

然后预定数目的候选运动矢量被顺序地加至准特征点D7的初始运动矢量上，其中该预定数目的候选运动矢量最好水平地或垂直地从0至±7的范围内选择，而候选运动矢量 D7Y1是不允许的，图为三角形701是反的。候选运动矢量 D7X1被加至主准特征点D7的初始矢量而不改变其相邻的特征点D1至D6的初始运动矢量，以便产生一更新的初始运动矢量 D7D′7。因此，更新后的初始运动矢量 D7D′7代表主准特征点D7和候选准特征点D′7之间的位移。

通过利用该更新的初始运动矢量和相邻准特征点的初始矢量在初始参考帧上确定包含在主当前多边形700中的每一象素的一预测位置。然后，包含在主当前多边形700中的每一象素位置在相应于该预测位置的初始参考帧上被用一象素值插值以形成一预测主当前多边形。根据本发明的优选实施例，在具有3个特征点(例如D1，D2，D7)作其顶点的每一三角形(例如701)处用公知的仿射变换执行该过程。仿射变换如下

定义：

[\begin{matrix} x^{'} \\ y^{'} \end{matrix}] = [\begin{matrix} a & b \\ c & d \end{matrix}] \cdot [\begin{matrix} x \\ y \end{matrix}] + [\begin{matrix} e \\ f \end{matrix}]

(公式3)

其中，(x，y)代表在该预测的主当前多边形内的一象素的x和y座标；(x’，y’)表示在初始参考帧上的一预测位置的座标；而a至f是仿射变换系数。

利用三个准特征点(例如D1、D2、D7)的运动矢量唯一地确定6个映射参数a，b，c，d，e，f。一旦知道了仿射变换系数，三角形701中的每一剩余象素就能映射到初始参考帧中的一个位置上。因为在多数情况下获得的初始参考帧的预测位置(x’，y’)不是一组整数，所以用公知的双线性(bilinear)插值技术来计算预测位置(x’，y’)处的插值灰度级。仿射映射过程独立地用于三角形701至706。然后获得候选运动矢量的预测主当前多边形。

然后将预测主当前六边形和当前六边形700比较，并检查是否预测的主当前六边形和当前六边形的峰值信噪比增加了。如果增加了，就用更新的初始运动矢量D7D′7更新主准特征点D7的初始运动矢量(0，0)。

对于剩余候选运动矢量，重复此过程。在一次递归中，在包含在所述当前帧中的所有准特征点也执行上述过程。

参考图7B，假设完成了一次递归，准特征点D7被设置为一主准特征点；而相邻准特征点D1至D6的更新的初始运动矢量是 D1D′2， D2D′2，D3D′3， D4D′4， D5D′5，和 D6D′6；并且，以类似的方式，预定候选运动矢量被顺序地加至主准特征点 D7D′7的初始矢量。例如，候选运动矢量 D′7X2被加至主准特征点 D7D′7的初始矢量，而不改变其6个相邻特征点的初始运动矢量 D1D′1， D2D′2， D3D′3， D4D′4， D5D′ 5， D6D′6。因此，更新的初始运动矢量变成 D7X2。如上所述，预定数目的候选运动矢量最好被水平地或垂直地在0至±7的范围内选出，而候选运动矢量 D7Y2是不允许的，因为三角形701是反的。

包含在主当前多边形700的中的每一象素的一预测位置通过利用更新的运动矢量 D7X2和相邻准特征点的初始矢量( D1D′1， D2D′2，D3D′ 3， D4D′4， D5D′5， D6D′6)被在初始参考帧上确定。之后，包含在主当前多边形700中的每一象素位置被用一相应于预测位置的初始参考帧上的象素值插值，以形成预测主当前多边形700’(由图7B所示的一虚线代表)。

然后，将预测主当前六边形700’和当前六边形比较，且检查是否预测主当前六边形和当前六边形的PSNR增加了。如果增加了，则用更新的初始运动矢量 D7X2更新主准特征点的初始运动矢量 D7D′7。

对于剩余的候选运动矢量，重复此过程。在第二次递归中，在包含在所述当前帧中的所有准特征点也执行上述过程。

此过程也相对于所有准特征点执行几次直到达到了收敛。最好是，此过程的递归设为5次，因为在大多数情况下，在第5次递归之前该运动矢量收敛。

如从上述可看到的，在收敛过程中，每一特征点的位移被给予其运动矢量，而利用它们的顶点特征点的位移独立地仿射变换每一六边形的6个三角形。如果该位移提供了更好的PSNR，则顺序地更新此主特征点的运动矢量。因此，在匹配过程中，收敛过程非常有效地确定尽可能地接近于具有变焦、旋转或缩放目标的初始图象的预测图象。

根据本发明的优选实施例，对于硬件实现，本过程可用三个步骤完成。形成非重叠主当前多边形的、图7A所示的表示为D1、D3和D5的准特征点被首先用6个相邻特征点(D2，D7，D6，D10，D11，D17)，(D2，D4，D7，D12，D13，D19)，(D4，D6，D7，D8，D9，D15)中的每一个处理。下一步对点D2、D4和D6重复同样的过程。在最后一步，最后处理剩余的点D7、D8和D9。

回过来参考图4，然后将所获得的所有准特征点的运动矢量作为所有特征点的那组运动矢量耦合至用作通过利用重建的参考帧来产生一预测的当前帧信号的运动补偿块240。那就是说，通过仿射变换利用重建的先前帧和所获得的运动矢量获得了预测的当前帧信号。从上面可看出，这是利用用于运动矢量搜索过程的仿射变换的相同映射，除了使用重建的参考帧而不是初始参考帧，因为一解码器系统(未示出)只有一个重建的参考帧。另一方面，因为使用此基于特征点的运动补偿的编码系统产生只具有运动矢量的相当好的图象，当前帧和预测的当前帧之间的差或误差信号可以不发送。

如从以上看到的，容易理解利用基于特征点的运动补偿的本发明的编码系统能够获得可靠的一组运动矢量，由此改进编码效率。

基于特征点的运动补偿算法是基于图象特征的，且仿射变换被用于补偿目标的旋转和变焦。在大多数情况下，该运动补偿图象具有较高的PSNR和好的主观质量。如果在大范围运动中此运动预测失效，则误差图象能利用具有大量化步长的DCT被编码和发射。具体地，通过利用本发明的24Kbps的编码系统获得好的主观质量。另外，由于特征点的位置逐帧改变，本发明的编码器系统将既在编码器又在解码器中存在的重建的先前帧作为参考帧使用，以便不必发送特征点的位置信息。进一步地，用于编码系统中的象素方向的运动补偿产生比基于块的运动补偿更好的主观质量，因为它可以通过利用只具有运动矢量的仿射变换来补偿目标的变焦、旋转和缩放。

虽然参考了具体实施例对本发明显示和描述，但对本专业人士显而易见的是在不背离所附权利要求中所定义的本发明的精神和范围的前提下可作许多更改和变化。

表I

表II

Claims

1.一种方法，用于通过利用基于特征点的运动估算方法来检测视频信号的当前帧和参考帧之间的一组运动矢量，其中该参考帧包括一重建的参考帧和一初始的参考帧，该方法包括以下步骤：

(b)基于该组特征点在当前帧上确定一组准特征点；

(f)根据M个该主准特征点的已更新的初始运动矢量和所述N个该相邻特征点的初始运动矢量中的每一个为包含在该主当前多边形中的每一象素在原始参考帧上确定一预测的位置；

(h)计算当前多边形和每一预测主当前多边形之间的差以产生M个峰值信噪比；

(i)选择一个已更新运动矢量作为一被选择的已更新运动矢量，该矢量使一预测主当前多边形具有最大峰值信噪比以用该被选择的已更新运动矢量更新该主准特征点的初始运动矢量；

(j)重复步骤(D)到(i)直到所有的初始运动矢量都被更新；

(k)重复步骤(j)直到所述重复被执行了预定次；及

2.如权利要求1所述的方法，其中步骤(a)包括下列步骤：

(a1)检测重建的参考帧的边缘图象，其中边缘图象eg(x，y)被定义如下

其中代表参考帧，表示自公知的Sobel算子的一输出；而Te是一预定阈值；

(a2)在边缘图象上建立多边形网格，其中该多边形网格包括多个网点以形成多个重叠的多边形；

(a3)为每一网点分配一非重叠搜索区；及

(a4)确定一组特征点，其中该组特征点包括重叠一边缘点的一网点，所述边缘点位于非重叠搜索区并具有其围绕象素点的最大和值，以及所述的网点不包含那些处于非重叠搜索区域内的边缘点。

3.如权利要求2所述的方法，其中当在搜索区中有多于一个边缘点具有相同的最大和值时，该组特征点将最靠近该网点的边缘点选作特征点。

4.如权利要求3所述的方法，其中该多边形是一个六边形，而N是6。

5.如权利要求4所述的方法，其中该主当前六边形包括由连接该主准特征点和其相邻准特征点的线段定义的6个三角形；而步骤(f)和(g)是通过利用公知的仿射变换执行的。

6.如权利要求5所述的方法，其中围绕象素的点数是8；预定重复次数是5；而预定阈值是6。

7.如权利要求6所述的方法，其中该预定区域的范围是水平方向上和垂直方向上0至±7。

8.如权利要求7所述的方法，其中特征点Di被定义如下：

Di = {(x, y) | Max Σ_{k = - 1}^{1} Σ_{l = - 1}^{1} EG (x + k, y + l)}

其中EG(x，y)是包含在该搜索区中的边缘点的值，而i是一正整数。

9.一种装置，使用在一视频编码系统中，用于通过利用基于特征点的运动估算来检测一组视频信号的当前帧和参考帧之间的运动矢量，其中该参考帧包括一重建参考帧和一初始参考帧中，该装置包括：

10.如权利要求9所述的装置，其中第一选择装置包括：

装置，用于检测重建的参考帧的边缘图象，其中边缘图象eg(x，y)被定义如下

其中代表参考帧，

表示自公知的Sobel算子的一输出；而Te是一预定阈值；

装置，用于在边缘图象上建立多边形网格，其中该多边形网格包括多个网点以形成多个重叠的多边形；

装置，用于为每一网点建立一非重叠搜索区；及

装置，用于确定一组特征点，其中该组特征点包括重叠一边缘点的一网点，所述边缘点位于非重叠搜索区中并具有其围绕象素点的最大和值，且所述网点没有包含在其非重叠搜索区中的边缘点。

11.如权利要求10所述的装置，其中当在搜索区中有多于一个边缘点具有相同的最大和值时，该组特征点将最靠近该网点的边缘点选作特征点。

12.如权利要求11所述的装置，其中该多边形是一个六边形，而N是6。

13.如权利要求12所述的装置，其中该主当前六边形包括由连接该主准特征点和其相邻准特征点的线段定义的6个三角形；且用于确定预测位置的装置包括一公知的仿射变换器。

14.如权利要求13所述的装置，其中围绕象素的点数是8；预定重复次数是5；而预定阈值是6。

15.如权利要求14所述的装置，其中该预定区域的范围是水平方向上和垂直方向上0至±7。

16.一种用于对一数字视频信号编码以减少该数字视频信号的传送率的装置，所述数字视频信号具有包括一当前帧和一参考帧的多个帧，该装置包括：

装置，用于变换编码代表预测当前帧和当前帧之间的差的一误差信号以产生一变换编码误差信号；及

17.如权利要求16所述的装置，其中第一选择装置包括：

装置，用于为每一网点建立一非重叠搜索区；及

18.如权利要求17所述的装置，其中该多边形是六边形，N是6，该主当前六边形包括由连接该主准特征点和其相邻准特征点的线段定义的6个三角形；且用于确定预测位置的装置包括一公知的仿射变换器。

19.如权利要求18所述的装置，其中围绕象素的点数是8；预定重复次数是5；而预定阈值是6。

20.如权利要求19所述的装置，其中该预定区域的范围是水平方向上和垂直方向上0至±7。