CN101485207B

CN101485207B - 帧模式或场模式的编码方法和设备

Info

Publication number: CN101485207B
Application number: CN200780025056.0A
Authority: CN
Inventors: 菲利普·吉纳泰尔; 多米尼克·索罗; 朱利安·哈达德
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-06-30
Filing date: 2007-06-26
Publication date: 2013-01-30
Anticipated expiration: 2027-06-26
Also published as: CN101485207A; JP5148605B2; US20090304079A1; FR2903271A1; WO2008000737A1; EP2036356A1; US8428132B2; JP2009542145A

Abstract

本发明的特征包括以下步骤：-在场模式下，计算每个宏块的空间活动性，以及计算组成宏块组的宏块之间的时间活动性；-计算关于所述组的活动性指数，所述活动性指数是时间活动性的递增函数以及所述组的空间活动性的递减函数；-将关于所述组的活动性指数与预定义阈值之间进行比较(10)，以便将所述组定义为具有活动性的组(11)；-根据相比于图像中宏块组的数目被检测到到具有活动性的宏块组的数目(14)，在场或帧模式(15、16)下对图像进行编码。其应用涉及数据压缩，特别涉及H264标准。

Description

帧模式或场模式的编码方法和设备

技术领域

本发明涉及一种在场模式或帧模式下对图像进行编码的方法和设备，对于宏块组而言，所述帧模式能够在图像中局部使用场模式。

背景技术

隔行视频是对于电视而言最普遍使用的格式。帧图像包括：偶数和奇数两个场，也称作顶场和底场，分别代表图像的偶数行和奇数行。顶场和底场是在不同的两次获取的。由于两次获取之间的运动，使得序列的一些图像呈现出隔行伪影。

为了改进对该格式的支持，MPEG 4或H264标准根据三种不同模式——“帧”、“场”和“MBAFF”(宏块自适应场帧)实现对图像编码。在帧模式下，对图像实际的样子进行编码；在场模式下，分别对两个场进行编码。还可以在帧模式以外使用MBAFF模式，以通过在图像局部独立地使用场模式来改进该模式。

图1示出了在场模式或帧模式下编码的两个垂直宏块(MB)所组成的图像宏块组或超级宏块(SMB，supermacroblock)。在帧模式下对超级宏块的编码在于：对标记为1和2的、每个都由第一和第二场的隔行组成的宏块进行编码。在帧模式下对超级宏块的编码在于：对标记为3和4的、每个都由分别属于第一和第二场的连续行组成的宏块进行编码。图2示出了标记为5的图像，对于该图像，在实现局部编码选择的、标记为6的宏块对或超级宏块对中执行图像扫描。

因此，造成了对以下模式的模式选择问题：图像的场或帧编码模式、图像的场编码模式、图像的超级宏块的场或帧编码模式，这些模式从图像的比特率/质量的观点实现压缩优化。

目前，存在以下两种解决方案以解决该问题：基于后验准则的解决方案以及基于先验准则的解决方案。

在后验算法的情况下，在两次传递中执行编码，一次在场模式下，另一次在帧或帧+MBAFF模式下。然后，编码器存储每次传递后所获得的结果，而后基于图像的比特率/质量折衷、使用优化功能对结果进行比较。这种方法的缺点是其计算时间成本。

存在多种先验方案：

第一种“先验”方案是在标题为“Fast decision on picture adaptiveframe/field coding for H.264”、作者为Yin，A.Tourapis，J.Boyce的文献中描述的。所描述的算法提出在编码器仅从场和帧模式之间选择的情况下解决该问题。基于如下假设：在场模式下比在帧模式下常常能更好地对运动中的图像区域进行编码。

主要思想是：使用在标题为“A Robust Motion Detection andEstimation Filter For Video Signals”、作者为M.Latzel，J.K.Tsotsos、发布于Proceedings of the 2003 SPIE Conf.on Image and VideoCommunication and Processing，Jan.2003的文献中提出的运动检测滤波器，来检测属于运动中的区域的、由2个垂直宏块组成的超级宏块。

如果图像总体上由“运动中的”宏块组成，则在场模式下，算法采用判决来对其进行编码，而在帧模式下，采用另一种情况来编码。

给出所用的运动检测滤波器的系数K_BP＝[-1，2，-3，4，-3，2，-1]。该滤波器垂直地应用于图像I(x，y)，即，应用于该图像的亮度值，以便在输出处给出图像I_BP(x，y)。然后，以如下方式构造掩码图像：

其中T1是预定义阈值。

在所述超级宏块SMB的x、y像素满足如下情况时宏块被认为处于运动中：

\underset{x, y &Element; SMB}{Σ} M (x, y) > T_{2}

其中T2是预定义阈值。

然后，计算运动中的超级宏块与图像中的超级宏块之比S以及当前图像与其参考之间的亮度差D的绝对值的均值。

如下针对整个图像采用帧/场判决：

-如果图像是帧内类型

且如果S<0.5，则编码在帧模式下

否则编码在场模式下，

-否则，如果图像是双向预测类型

且如果S<0.6，则编码在帧模式下

否则编码在场模式下，

-否则，如果图像是单向预测类型

且如果((S>0.5)OR((S>0.3AND D>4.5)AND

(D<10.0)))，则编码在帧模式下

否则编码在帧模式下

大写字母AND和OR项是逻辑运算符。

文献中还提出了各种阈值的自动确定。

该方法的缺点是：由于其没有考虑场或帧模式的可能的局部使用，因此其没有被优化。该方法不适合MBAFF模式。

另一种方案是在公布号为EP 1494483的、标题为“Video coderwith control of GOP structure by spatial and temporal activity”的、于2005年1月5日提交的、发明人为X.Ducloux，P Alexandre和L Noblet的欧洲专利申请中提出的，该欧洲专利申请中描述了本次基于全局准则的算法。在整个图像上计算的两种度量的比较实现了帧/场选择。

这两种度量如下：

场内亮度梯度是两个连续行之间差值的绝对值之和，在场中对于每16行如下计算该场内亮度梯度：

{FLADIntra}_{n} [k] = Σ_{j = 8 k}^{j = 8 k + 7 i} Σ_{i = 0}^{= nbpels - 1} | FYn (i, 2 j) - FYn (i, 2 j + 1) |

其中FY_n(i，j)代表场n中16×16块的第k排的水平坐标i和垂直坐标j的像素的亮度值，指数k从k＝0变化到k＝(场的行数)/16-1。

场间亮度梯度由以周期1T、2T、xT分离的两个场的协同定位像素之间的差值的绝对值之和给出，在场中对每16行如下计算该场间亮度梯度：

{FLADInter 1 T}_{n} [k] = Σ_{j = 16 k}^{j = 16 k + 15 i} Σ_{i = 0}^{= nbpels - 1} | FYn (i, j) - FYn - 1 (i, j) |

{FLADInter 2 T}_{n} [k] = Σ_{j = 16 k}^{j = 16 k + 15 i} Σ_{i = 0}^{= nbpels - 1} | FYn (i, j) - FYn - 2 (i, j) |

{FLADInterxT}_{n} [k] = Σ_{j = 16 k}^{j = 16 k + 15 i} Σ_{i = 0}^{= nbpels - 1} | FYn (i, j) - FYn - x (i, j) |

命名FLADIntra和FLADInterD被认为与场绝对差值类似。

对于第n场，全局梯度场内FLADIntraSum_n和场间FLADInterlT_n由下式给出：

FLADIntraSu m_{n} = Σ_{k = 0}^{k = nblines / 16 - 1} FLAD {Intra}_{n} [k]

FLADInter 1 Su m_{n} = Σ_{k = 0}^{k = nblines / 16 - 1} {FLADInter 1 T}_{n} [k]

假设场n-1是图像的顶场，场n是底场，选择准则由空间活动性(activity)给出：

SPAct = \frac{1 + \min (FLADInter 1 TSu m_{n - 1}, FL {ADInter 1 TSum}_{n})}{2 + 0.5 * \max (picture_size, ({FLADIntraSum}_{n - 1} + {FLADIntraSum}_{n}))}

如果在预定义阈值处SPAct更大，则在场模式下对图像进行编码，否则使用帧模式+MBAFF对图像进行编码。

最后，第三种方案在于：在帧模式下对双向预测类型的所有B图像进行编码，在场模式下对单向预测类型的图像P进行编码。这种简单的算法源自如下共识：它们是后验算法针对每个图像类型而最常使用的模式。

关于这样的现有技术，运动检测滤波器需要在全部图像上的处理操作、计算以及掩码存储。过滤技术方案没有被优化，特别是对于宏块处或超级宏块级上的编码模式的选择，该方案没有被优化。

同样地，全局梯度的计算不能够优化压缩，编码模式的选择是针对全部图像而执行的。

最后一种解决方案虽然容易实现，但在给定恢复质量时在压缩率方面没有被优化。

发明内容

本发明的目的之一是克服上述缺点。本发明的目的是一种在场或帧模式下对图像进行编码的方法和设备，对于宏块组而言，图像帧模式能够在图像中局部使用场模式，

其中，所述方法包括以下步骤：

-在场模式下，针对宏块组，计算每个组成宏块的空间活动性以及计算每个组成场的宏块之间的时间活动性；

-计算关于所述组的活动性指数，所述活动性指数是时间活动性的递增函数以及计算出的空间活动性的递减函数；

-将关于所述组的活动性指数与预定义阈值进行比较，以便将所述组定义为具有活动性的组；

-根据相比于图像中的宏块组数的、被检测到具有活动性的宏块组的数目，在场或帧模式下对图像进行编码。

根据特定的实施方式，时间活动性是：在场模式下，宏块组的场宏块之间的场间梯度的函数；空间活动性是：在场模式下，从每个场宏块隔行提取出的行之间的场内梯度的函数。

根据特定的实施方式，活动性指数是：场间梯度的递增函数以及场内梯度之和的递减函数。

根据特定的实施方式，所述宏块组是超级宏块，且宏块组级上的场或帧模式是MBAFF(宏块自适应场帧)模式。

根据特定的实施方式，相对活动性具有以下值：

R = \frac{FLADInterMB}{1 + FLADIntra {MB}_{n} + {FLADIntraMB}_{n - 1}}

其中

FLADInterMB = Σ_{j = 0}^{15} Σ_{i = 0}^{15} | FYn (i, j) - FYn - 1 (i, j) |,

FLADIntraM B_{n} = Σ_{j = 0}^{7} Σ_{i = 0}^{15} | FYn (i, 2 j) - FYn (i, 2 j + 1) |,

FY_n(i，j)代表超级宏块的场n的水平坐标i和垂直坐标j的像素的亮度值。

根据特定的实施方式，如果声明具有活动性的宏块组的数目与宏块组总数之比大于预定义阈值，则在场模式下对图像进行编码，否则在MBAFF模式下对图像进行编码。

根据特定的实施方式，预定义阈值是1/2。

本发明还涉及一种实现该方法的设备，所述设备包括：执行编码判决算法的预分析电路，其接至用于在场或帧模式下对图像的实际编码的编码电路，其中编码电路从预分析电路接收图像中的、根据被检测到具有活动性的宏块组的数目的、场或帧模式下的编码信息。

本发明在将运动或活动性的检测适配于编码实体以及可能的编码模式(即，宏块组以及场和帧模式)的过程中，以及在改进这种检测的过程中，实现了针对图像的场或帧编码模式选择的优化。改进了数据压缩或给定比特率时的图像质量。

附图说明

根据以下描述，其他具体特征和优点将变得显而易见，该描述作为非限定性示例而提供，并参考如下附图：

图1示出了帧和场模式下的宏块组；

图2示出了使用MBAFF模式的图像编码；

图3示出了根据本发明的编码算法。

具体实施方式

本发明原理在于：使用局部方案中的度量梯度。本发明原理包括：对满足涉及梯度的特定准则的图像超级宏块进行检测。预分析阶段使它们的比率得以计算，以便在图像级上对帧/场编码模式进行判决。

在该描述的其余部分，块的空间活动性或空间复杂度将被称作与块内的空间相关性有直接联系的值。当空间复杂度高时，相关性低，反之亦然。同样地，时间复杂度与通常在图像序列的两个协同定位图像块或连续场之间的时间相关性有联系。

在场中使用垂直空间活动性来对超级宏块的编码模式进行选择的事实能够使与场间差值对应的运动信息相对化。如果MBAFF编码涉及同质运动区域或稳定纹理的区域，其优点实际上更少。在这种情况下，即，在将图像编码进分离的场或编码进具有MBAFF可能性的帧的情况下，要点是：采用明智的场或帧判决，并在必要处能够使用MBAFF编码。因此，如果考虑前述公式：

SPAct = \frac{1 + \min (FLADInter 1 TSu m_{n - 1}, FL {ADInter 1 TSum}_{n})}{2 + 0.5 * \max (picture_size, ({FLADIntraSum}_{n - 1} + {FLADIntraSum}_{n}))}

则可见，值SPAct是整个图像上的全局计算的结果，关于阈值采用场/帧判决。实际上，该全局计算通过求平均，有削弱关于宏块对的局部测量的趋势。如文件中以下提出的，本发明首先提出局部地且随后采用场/帧判决，以作出全局分析，该分析对一组局部判决进行操作。文件中提出的模拟结果示出了该方案的实用性。

图3示出了根据本发明的方法的流程图。

将关于场n-1和场1的数据发送到流程图的输入端。连续处理由场n-1的宏块和场n的宏块组成的每个超级宏块。

步骤7执行FLADIntraMB_n的场内计算，与场n的16×16宏块内隔行提取的行的绝对值之差对应。

FLADIntraM B_{n} = Σ_{j = 0}^{7} Σ_{i = 0}^{15} | F Y_{n} (i, 2 j) - F Y_{n} (i, 2 j + 1) |

同样地，对于与场n-1的16×16宏块对应的FLADIntraMB_n-1的计算，有：

FLADIntraM B_{n - 1} = Σ_{j = 0}^{7} Σ_{i = 0}^{15} | F Y_{n - 1} (i, 2 j) - F Y_{n - 1} (i, 2 j + 1) |

FY_n(i，j)代表超级宏块的场n的水平坐标i和垂直坐标j的像素的亮度值。假设场n-1是超级宏块图像的顶场，场n是超级宏块图像的底场。

步骤8执行FLADinterMB的帧间计算，与场n的宏块与场n-1的宏块之间的绝对值差对应。

FLADInterMB = Σ_{j = 0}^{15} Σ_{i = 0}^{15} | FYn (i, j) - FYn - 1 (i, j) |

对于由场n的宏块的行和与场n-1对应的宏块的行组成的每个超级宏块，将处于帧配置时的16×32块的垂直梯度与处于场配置时的16×32块的垂直梯度进行比较。步骤9由此计算被称作相对活动性指数的比率R：

R = \frac{FLADInterMB}{1 + FLADIntra {MB}_{n} + {FLADIntraMB}_{n - 1}}

按照另一种方式，R比率代表：分子处，两个连续场n-1与n之间的16×16场宏块的梯度；分母处，场n与场n-1中隔行的连续行之间的16×16场宏块的梯度与1的和。

以下步骤10将计算出的该值R与可凭经验确定的预定义阈值T1进行比较。如果R比率大于T1阈值，则该超级宏块被认为属于运动中或活动中的区域，并被称作具有活动性的超级宏块。

如果R大于阈值T1，则步骤11将计数器NbMBfield加1，该计数器NbMBfield使满足该条件的图像宏块数已知。

如果R小于阈值T1，则下一步骤步骤12，步骤12检验是否所涉及的是图像的最后一个超级宏块。

如果所涉及的不是最后一个超级宏块，则步骤12通过步骤13返回至步骤7，步骤13用按照扫描方向的下一个超级宏块替换当前的超级宏块。如果所涉及的是最后一个超级宏块，即，当已完全处理了图像时，下一步骤14将值NbMBfield与图像中的宏块数除以2进行比较。如果值NbMBfield大于该数，即，如果运动中的超级宏块与图像的超级宏块之比超过50％，则如步骤15，在场模式下对图像进行编码。如果值NbMBfield小于或等于该数，则如步骤16，使用MBAFF模式，在帧模式下对图像进行编码。

所实现的算法基于先验准则。如果在预分析期间，所声明的运动中的或具有空间和时间活动性的宏块的数目大于阈值(在该示例中为图像中的宏块数的一半)，则在场模式下执行对图像的所有宏块的编码是有利的，即，在场模式下对图像进行编码。如果是相反的情况，则在帧模式下对图像进行编码，对于超级宏块级上的编码，选择场或帧模式。

在已知有益地用作测试序列的多个典型序列上，将根据本发明的方法与前述的方法(即，使用梯度算法的方法、以及使用将预测类型的P图像编码进场模式和将双向类型的B图像编码进帧模式的编码算法的方法)进行比较，以确定编码质量。

在下表中，提供了结果，以与作为给出最佳结果的参考算法的后验算法比较。

所示的图代表在相对于标有叉号的“最佳”算法的算法的比特率/失真方面丢失的百分比。其涉及曲线——失真＝f(比特率)下面积的比率。这种对视频编码算法进行比较的方式与视频压缩领域中当前使用的一种方式相对应，视频压缩领域中的这种方式公知为在测量名“Bjontegaard”下，并在Gisle Bjontegaard“Calculation of average PSNRdifferences between RD curves”，document VCEG-M33，ITU-T VideoCoding Experts Group(VCEG)Meeting，April 2001文献中描述。

	后验算法	场中P、帧中 B算法	梯度算法	提出的算法
					auto+	x	-24.88	-22.93	-19.83
ski+	x	-17.17	-21.24	-21.04
					tennis+	x	-16.46	-15.77	-15.77
bigdil+	x	-13.46	-14.43	-18.73
					guards-parade_720_ 576	x	-20.55	-19.17	-19.17
speed-skatel_720_5 76	x	-23.49	-26.32	-21.47
					speed-skate2_720_5 76	x	-19.04	-25.82	-19.4
mobcal_720x480	x	-19.09	-14.81	-14.81
					flower+	x	-18.86	-14.58	-14.58
ferris+	x	-18.07	-17.19	-15.99

[0101] 除单个序列(bigdil)以外，根据本发明的算法产生了比梯度算法更好或至少与梯度算法等价的结果。

本发明还涉及一种实现该方法的设备。所述设备包括预分析电路和实际编码器。预分析电路使用前述的场帧判决算法。将场帧编码模式的有关信息发送到编码器，以便有效地实现对图像序列的编码。

提供了大小为16×16的宏块的示例。当然，本发明适用于任何大小的宏块。

本发明适用于使用MBAFF模式的任何类型的标准，特别是MPEG4标准或H 264。

Claims

1.一种在场模式或帧模式下对图像(5)进行编码的方法，对于宏块组而言，图像帧模式(1、2)能够在图像中局部使用场模式(3、4)，

其中，所述方法包括以下步骤：

在场模式下，针对宏块组，计算每个组成宏块的空间活动性以及计算每个组成场的宏块之间的时间活动性；

计算关于所述组的活动性指数，所述活动性指数是时间活动性的递增函数以及计算出的空间活动性的递减函数；

比较(10)关于所述组的活动性指数与预定义阈值，以便将所述组定义为具有活动性的组(11)；

根据被检测到具有活动性的宏块组的数目(14)相比于图像中的宏块组的数目，在场或帧模式(15、16)下对图像进行编码，其中所述组是超级宏块，并且活动性指数等于

R = \frac{FLADInterMB}{1 + FLADIntra {MB}_{n} + FLADIntra {MB}_{n - 1}}

其中

FLADInterMB = Σ_{j = 0}^{15} Σ_{i = 0}^{15} | {FY}_{n} (i, j) - {FY}_{n - 1} (i, j) |,

FLADIntraM B_{n} = Σ_{j = 0}^{7} Σ_{i = 0}^{15} | {FY}_{n} (i, 2 j) - {FY}_{n} (i, 2 j + 1) |,

2.根据权利要求1所述的方法，其中超级宏块级别上的场模式或帧模式是宏块自适应场帧MBAFF模式。

3.根据权利要求1所述的方法，其中如果声明具有活动性的超级宏块的数目与超级宏块总数之比大于预定义阈值(14)，则在场模式(15)下对图像进行编码，否则在MBAFF(16)帧模式下对图像进行编码。

4.根据权利要求3所述的方法，其中所述预定义阈值(14)是1/2。

5.一种在场模式或帧模式下对图像进行编码的设备，对于宏块组而言，图像帧模式能够在图像中局部使用场模式，

其中，所述设备包括：

用于在场模式下，针对宏块组，计算每个组成宏块的空间活动性以及计算每个组成场的宏块之间的时间活动性的装置；

用于计算关于所述组的活动性指数的装置，所述活动性指数是时间活动性的递增函数以及计算出的空间活动性的递减函数；

用于比较关于所述组的活动性指数与预定义阈值，以便将所述组定义为具有活动性的组的装置；

用于根据被检测到具有活动性的宏块组的数目相比于图像中的宏块组的数目，在场或帧模式下对图像进行编码的装置，其中所述组是超级宏块，并且活动性指数等于

R = \frac{FLADInterMB}{1 + FLADIntra {MB}_{n} + FLADIntra {MB}_{n - 1}}

其中

FLADInterMB = Σ_{j = 0}^{15} Σ_{i = 0}^{15} | {FY}_{n} (i, j) - {FY}_{n - 1} (i, j) |,

FLADIntraM B_{n} = Σ_{j = 0}^{7} Σ_{i = 0}^{15} | {FY}_{n} (i, 2 j) - {FY}_{n} (i, 2 j + 1) |,