CN1197381C

CN1197381C - 使用小波分解的视频编码方法

Info

Publication number: CN1197381C
Application number: CNB018028594A
Authority: CN
Inventors: B·菲尔茨; B·佩斯奎特－波佩斯库
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-07-25
Filing date: 2001-07-18
Publication date: 2005-04-13
Anticipated expiration: 2021-07-18
Also published as: WO2002009438A3; CN1428050A; KR20020064786A; JP2004505520A; EP1305952A2; US20020064231A1; WO2002009438A2

Abstract

为了在约束下压缩视频序列，基于小波分解的范围内缺乏有效信息的预测，已知的2D或3D SPIHT，比较对应于不同分辨率的相同图像区域的一组像素和称作有效性等级的值。在两种情况下，转换系数通过包含用三个排序列表表示的重要性测试来排序，这三个列表叫做无效设定列表(LIS)、无效象素列表(LIP)和有效象素列表(LSP)。在原始视频序列中，像素值依赖于围绕着它的像素的值。当条件事件的数量增加时，给于前d比特的符号的概率估计成为困难的任务。本发明的目的是提出一种有效的图像编码方法，反映出用于比特流的信息源的特性中的变化：为了估计在每个有效性等级上所述列表中符号0和1出现的概率，考虑用丝和前后关系树表示的四种模式，这些模式对应于LIS、LIP、LSP和标记，并且对亮度系数和色度系数模式之间作出区分。

Description

使用小波分解的视频编码方法

技术领域

本发明涉及一种用于压缩分成帧组的视频序列的编码方法，其中帧组通过三维(3D)小波变换分解，从而产生给定数量的连续分辨率等级，所述方法基于称为“在分级树中的局部设定”(SPIHT)的分级子带编码处理并从视频序列的图像元(象素)的原始设定转换为用二进制格式编码的小波变换系数，所述系数构成树并按照对应于各自的有效级的局部子设定排序，这通过包含用三个排序的列表表示的像素的量值测试，这三个列表称为无效设定列表(LIS)、无效象素列表(LIP)和有效象素列表(LSP)，执行所述测试从而把所述的象素的原始设定根据分解程序分成所述的局部子设定，该程序持续到每个有效系数在所述的二进制表示范围内被编码为止，并且标志位也被放到将被发送的输出比特流中。

背景技术

传统的视频压缩方案可以认为包括四个主要的模块：运动估计和补偿，系数转换(例如，离散余弦变换或小波分解)，系数的量化和编码，和熵编码。当视频编码器除此之外必须可升级时，该装置必须能够从低比特率到高比特率编码图像，用速率增加图象的质量。很自然通过提供图像的分级表示，借助于小波分解的变换看来比传统的离散余弦变换(DCT)更适于可升级的方案。

小波分解使原始输入信号用子带信号的设定来描述。每个子带表示实际上在给定的分辨率级和特定频率范围内的原始信号。分解为不正确的子带通常通过首先施加到当前图象的第一行接着施加到由此滤波的图像列的一维滤波器库的设定来完成。这样的实现的例子在1995年6月的信号处理第44卷，n°1中27-38页的由S.S.Goh撰写的“图象的小波分解中的置换”中被描述。实际上两个滤波器，即一个低通滤波器和一个高通滤波器被用于分离图像的低频和高频。该操作首先在行上执行并随后用因数2进行子取样操作，接着在子取样图像的列上执行该操作，产生的图像也用2进行下取样。从而获得小于原始值四倍的四幅图像：一个低频子图像(或“平滑图像”)，它包括涉及原始图像的初始内容的主要部分，和三个高频子图象，它们只包含所述原始图像的水平、垂直和对角线的细节。该分解处理持续到从最新的平滑图像中不再获得有用信息时为止。

一种用于图象压缩的计算相当简单的技术，它使用两维(2D)小波分解，在1996年6月IEEE视频技术的电路和系统学报第6卷，n°3，243-250页，由A.Said和W.A.Pearlman撰写的“基于分级树中的局部设定(＝SPIHT)的新的快速和有效的图像编解码器”中进行了描述。如上述文献中所述，原始图像假定用一组像素值p(x，y)确定，其中x和y是像素坐标，原始图像用分级子带转换编码，用如下公式(1)表示：

c(x，y)＝Ω(p(x，y)) (1)

其中Ω表示转换，每个元素c(x，y)被称为“对像素坐标(x，y)的转换系数”。

主要的目的是接着选择将被首先发送的最重要的信息，这造成根据它们的重要性(大重要性的系数具有更大的信息内容，它们或至少它们的最有效比特应当首先发送)排列这些转换系数的顺序。如果排序信息明确地发送到解码器，只要相对小数量的像素坐标一发送，相当好质量的图像就能够恢复。如果排序信息不被明确地发送，则假定编码运算法则的执行路径由它的分支点上比较的结果确定，并且如果接收到重要性比较的结果，具有相同分类运算法则的解码器能够重复编码器的该执行路径。则排序信息能够从执行路径恢复。

在所述的分类运算法则中一个重要的事实是没有必要分类所有系数，而只分类2ⁿ＜|c_x，y|＜2ⁿ⁺¹，其中n在每次传递中递减。给定n，如果|c_x，y|≥2ⁿ(2ⁿ＝被称作有效性等级)，也就是说系数有效；否则被称为无效。分类运算法则把一组像素分为局部子设定T_m并执行重要性测试(2)：

\max_{(x, y) &Element; T_{m}} {| c_{x, y} |} &GreaterEqual; 2^{n} ? - - - (2)

如果解码器接收到“否”(全部涉及的子设定无效)，则可知该子设定T_m中的所有系数无效。如果答案是“是”(子设定有效)，则由编码器和解码器使用的预定规则用于把T_m分为新的子设置T_m，1，有效性测试进一步施加到这些新的子设定上。该设定区分程序持续到对所有单一坐标有效子设定完成重要性测试为止，从而识别每个有效系数并用二进制格式对系数编码。

为了降低发送的重要性比较(即消息位)的数量，可以确定局部设定规则，该规则使用由子带锥体确定的分级中预期的排序。目的是建立预期无效的子带包含大量元素并且预期有效的子带只包含一个元素的新的局部。为了明确重要性比较和消息位之间的关系，使用如下函数来表示坐标T的子设定的有效性：

而且，已经观察到在子带之间有空间自相似性，并且如果在锥体中沿着相同的空间取向系数向下移动，则预期系数被更好地按重要性排序。例如，如果低活动区域被预期在锥体的最高级中识别，则它们在相同空间位置上的较低等级被复制。一个称为空间取向树的树结构实际上确定了小波分解的分级锥体上的空间关系。图1示出了怎样用递归的四子带分离构成的锥体中确定空间取向树。以每个节点或者没有衍生物(叶)或者具有四个衍生物的方式，树的每个节点对应于相同空间取向的像素，这总是形成一组2×2相邻像素。在图1中，箭头从亲节点指向它的衍生物。锥体的最高级中的象素是树的根部也分组为2×2相邻像素。但是，它们的衍生分支规则不同，在每一组中，分支之一(在图1中用星号表示)没有子节点。

接下来的坐标设定被用于提出该编码方法，(x，y)表示系数的位置：

.0(x，y)：节点(x，y)的所有支系的坐标组；

.D(x，y)：节点(x，y)的所有子节点的坐标组；

.H：所有空间取向树根部(在锥体最高等级中的节点)的坐标组；

.L(x，y)＝D(x，y)-0(x，y)

能够观察到，子设置被测试为有效的排序是重要的，在实际应用中有效信息保存在三个排序列表中，它们称为无效设置列表(LIS)、无效象素列表(LIP)和有效象素列表(LSP)。在所有这些列表中，每个输入用坐标(i，j)表示，其中在LIP和LSP中它表示单独像素，而在LIS中它表示D(i，j)或L(i，j)组(为了区分它们，如果它代表D(i，j)则LIS输入可以被称为A型，如果它代表L(i，j)则LIS输入可以被称为B型)。SPIHT运算法则实际上基于三个列表LIS、LIP和LSP的操作。

2D SPIHF运算法则基于密钥概念：通过使用自然图象中固有的自相似性，缺乏有效信息的预测穿过小波分解的范围。这意味着如果小波分解的最低读数的系数无效，其他读数的对应于相同区域的系数有很大可能性也是无效的。基本上，SPIHT运算法则包括比较一组对应于不同分辨率的相同图像区域的像素和前面称为“有效性等级”的值。

3D SPIHT运算法则与2D SPIHT运算法则很不同。3D小波分解在一个帧组(GOF)上执行。沿着时间方向，实现运动补偿和暂态滤波。代替空间组(2D)，具有3D空间暂态设置，并且具有相同的空间-暂态取向并由亲子关系描述的系数树。在图2中这些连接在3D的情况下被描述。树的根部用最低分辨率的近似值子带(“根”子带)的像素形成。在3D SPIHT运算法则中，在所有的子带而不是叶中，每个像素具有8个衍生物像素，并且每个像素只有一个亲体。在该规则中有一个例外：在根的情况下，8个之外的一个像素没有衍生物。

在2D情况下，空间暂态取向树实际上确定了分级小波分解中的空间暂态关系，并且使用以下的系数组：

.0(x，y，z，色度)：节点(x，y，z，色度)的所有支系的坐标组；

.D(x，y，z，色度)：节点(x，y，z，色度)的所有子节点的坐标组；

.H：所有空间暂态取向树根部(在锥体最高等级中的节点)的坐标组；

.L(x，y，z，色度)＝D(x，y，z，色度)-0(x，y，z，色度)

其中(x，y，z)表示系数的位置，“色度”表示Y、U或V。也确定了三个排序列表：LIS(无效设置列表)，LIP(无效象素列表)，LSP(有效象素列表)。在所有这些列表中，每个输入用坐标(x，y，z，色度)来识别，其中LIP和LSP表示单独像素，LIS表示D(x，y，z，色度)或L(x，y，z，色度)组之一。为了区分它们，如果它表示D(x，y，z，色度)则LIS输入是A型，如果它表示L(x，y，z，色度)则LIS输入是B型。与前述2D的情况一样，运算法则2D SPIHT基于这三个列表LIS、LIP和LSP的操作。

不幸的是，使用子带之间的冗余度的SPIHT运算法则破坏了每个子带内相邻像素间的从属性。由一组逻辑条件产生的列表LIS、LIP、LSP的操作甚至使像素扫描的顺序几乎不能预测。属于同一个3D衍生树但来自不同的空间暂态子带的像素被编码并一个接一个放入列表中，这对混合不相关的子带的像素起作用。因此，相同子带的像素之间的地区间的相互关联丢失了。而且，因为空间暂态子带从暂态或空间滤波产生，所以帧沿着给出细节取向的特许的轴滤波。使用SPIHT时该取向相关性丢失，因为扫描不遵照地区的顺序。为了改善扫描顺序和重新建立同一子带的像素之间相邻关系，已经提出LIS的特殊的初始组织和读出衍生物的特殊顺序。

该解决方案允许部分地重建系数的地区扫描并在先前在2000年4月4日申请的欧洲专利申请、申请号为00400932.0(PHFR000032)中描述，该申请涉及压缩分成帧组的视频序列的编码方法，其中帧组通过三维小波变换分解，从而产生给定数量的连续分辨率等级，所述方法使用SPIHT处理并造成从视频序列的图像元素的原始设定转换为用二进制格式编码的小波变换系数，所述系数组成根部在最低频率子带并由更高频率的中的衍生物完成的空间暂态取向树或空间暂态逼近，所述树的系数还按照对应于相关的有效性等级的局部设定排序并通过重要性测试确定，从而产生在三个排序列表中的有效性信息的分类，这三个表称为无效设定列表(LIS)，无效象素列表(LIP)和有效象素列表(LSP)，执行所述测试从而根据分割处理把所述图像元素的原始设定分为所述的局部设定，该处理一直持续直到每个有效系数用所述二进制表示编码为止。更准确地说，所述文献中描述的方法其特征在于它包括以下步骤：

(A)从3D小波变换产生的空间暂态近似子带包含暂态近似子带中的两帧的空间近似子带，由z＝0和z＝1索引，每个像素具有坐标(x，y，z)，x和y分别从0到长度x和从0到长度y变化，所述列表LIS则用所述空间暂态近似子带的系数初始化，除了具有形成z＝0(mod2)，x＝0(mod2)，y＝0(mod2)的坐标的系数之外，LIS的初始化顺序如下：

(a)把所有验证x＝0(mod.2)和y＝0(mod.2)和z＝1的像素放入列表中，作为亮度成分Y和以及色度成分U和V；

(b)把所有验证x＝1(mod.2)和y＝0(mod.2)和z＝0的像素放入列表中，作为Y和以及U和V；

(c)把所有验证x＝1(mod.2)和y＝1(mod.2)和z＝0的像素放入列表中，作为Y和以及U和V；

(d)把所有验证x＝0(mod.2)和y＝1(mod.2)和z＝0的像素放入列表中，作为Y和以及U和V；

(B)确定小波分解的分级子带锥体中的空间暂态关系的空间暂态取向树从最低分辨率等级使用到最高分辨率等级，同时保持相邻像素在一起并考虑到细节的取向，完成所述衍生系数的使用是由于在水平和对角线细节子带所述系数的扫描排序，特别是对四衍生物组和所述组向水平方向上下一个组的推移，对四衍生物组和对最低和最好的分辨率等级。

对于熵编码模块，编码运算法则是广泛使用的技术，在视频压缩方面比霍夫曼编码更有效率，原因在于：获得的编码长度更接近于最佳长度，该方法尤其适用于自适应模式(估计源的统计没有进行)，并且能够分成两个独立的模块(一个模式模块和一个编码模决)。接下来的描述主要关于模式，它包括特定源串事件和它们的前后关系(前后关系指获取被考虑的源串的全部设定的冗余)的确定，以及估计它们的相关统计数字。

在原始图象序列中，像素值实际上依赖于围绕着它的那些像素。在小波分解后，“地区”相互关系的相同特性保持在每个空间暂态子带中。如果系数按照保存这些相关性的顺序发送，有可能取得“地区”信息为有界的存储器树源的全部编码的结构的进步，例如在1995年五月IEEE信息技术学报第42卷，n°3，643-652页由M.J.Weinberger等撰写的文献“通用的有限存储器源”中有所描述。有限存储器树源具有下一个符号概率依赖于最近的符号(前后关系)的有限数字的实际值的特性。对于有限存储器树源的二进制连续通用源编码程序经常使用前后关系树，它对每个串(前后关系)包含考虑的前后关系所给出的零和一出现的数量。该树允许估计符号的可能性，给出前d比特：

\hat{P} (X_{n} | x_{n - 1} . . . x_{n - d}),

其中x_n是测试比特的值，x_n-1…x_n-d表示前后关系，即d比特的在前序列。由于前后关系稀释问题或模式耗费，当条件事件的数量增加时该估计是困难的任务。通过降低模式冗余同时保持合理的复杂性来解决该问题的一种方法是前后关系树加权方法，即CTW，在1995年五月的IEEE信息技术学报第41卷n°3，653-664页由F.M.J.Willems等撰写的“前后关系树加权方法：基本特性”中有详细描述。

降低最终编码程度的该方法的原则是使用对于测试比特最有效的前后关系来估计加权的概率(有时最好使用更短的前后关系来编码一个比特：如果前后关系的最后比特不影响当前比特，它们可能不被考虑)。如果一个用x₁′＝x₁…x_t表示比特的源序列并且如果假定编码器和解码器都已经接入在前的d符号x_1-d ⁰，CTW方法与前后关系树的每个节点s相关联，表示二进制符号的长度K的串，加权的概率P_w ^s，通过用从树的叶开始的它的两个子节点的加权固有的概率循环地估计：

证实这样的加权的模式将模式冗余度最小化。给定在前序列x₁ ^t-1和x_1-d ⁰的符号0和1的传统的概率用以下关系式来估计：

P_{e}^{s} (X_{t} = 0 | x_{1}^{t - 1}, x_{1 - d}^{0}) = \frac{n_{0} + 1 / 2}{n_{0} + n_{1} + 1}

P_{e}^{s} (X_{t} = 1 | x_{1}^{t - 1}, x_{1 - d}^{0}) = \frac{n_{1} + 1 / 2}{n_{0} + n_{1} + 1}

其中n₀、n₁是序列x₁ ^t-1中的0和1的有条件的计数。该CTW方法用于估计编码模块运算法则所需要的概率。

发明内容

本发明的目的是提出一种更有效的视频编码方法，它反映出比特流所使用的信息源的特性中的变化。

为此，本发明涉及一种编码方法，比如在说明书的引言部分所定义的编码方法，其特征在于：为了估计在每一有效性等级所述列表中符号0和1出现的概率，考虑用四种前后关系树表示的四种模式，这些模式对应于LIS、LIP、LSP和符号，并且进一步的特征是在用于亮度系数和用于色度系数的模式之间产生，U和V系数之间没有差别。

附图说明

本发明将参照附图以更详细的方式描述，其中：

图1表示在二维情况下空间取向树中的亲子衍生关系的例子；

图2表示在三维情况下空间暂态取向树中的亲子衍生关系的类似的例子；

图3表示根据位面等级符号1出现的概率，对每种模式例如在30视频序列上进行估计。

具体实施方式

在SPIHT运算法则的执行的连续过程中，像素的坐标从三个列表LIS、LIP、LSP中的一个向另一个移动，并且输出有效比特。在发送系数比特之前符号比特也放在比特流中。从统计学的观点看，这三个列表的特性和符号位图的特性相当不同。例如，列表LIP表示无效象素的设定；类似，如果一个像素由无效象素包围，有可能它也是无效的。相反，对于列表LSP，假定如果在给定的有效等级，像素的相邻的精确比特是1(或0)，检测的像素的精确比特也是1(或0)看来是困难的。在有效性的每一个等级这些列表中符号0和1出现的估计概率的测试显示出这些假定被证实是正确的。该检测报告使人们考虑提供给标记的另一种独立模式。现在已经有四种不同的模式，它们用四种概率估计的前后关系树表示并对应于LIS、LIP、LSP和标记：

LIS→LIS类型

LIP→LIP类型

LSP→LSP类型

标记→标记类型

亮度系数和色度系数模式之间的产生另一个不同点，但是色度系数中U和V面没有不同：相同的前后关系树用于估计数与这两个色面的概率，因为它们具有相同的统计概率。而且，如果考虑到个别的模式则将没有足够的值来正确地估计概率(对U和V用分开的模式作测试给出更低的压缩率)。最终，具有8个前后关系树(在黑白图像中只有4个)。

当考虑到不同的位面中符号出现的概率时，如图3所示，在它们之间观察到差别，预备试验已经显示出在每个位面模式的再初始化给出更好的压缩结果，这证明每个位面考虑一种模式是正确的。但是，对具有相同特性的几个位面使用相同的模式会降低计算的复杂性并改善编码方法的性能。

已经区分了2×4模式(用前后关系树表示并用于估计条件概率)，有必要对前后关系执行至少相同的操作。但是，对U和V系数的前后关系这时被区分。实际上，已经作出U图像和V图像具有相同的统计学特性(并且具有相同的前后关系树，这与Y图像的前后关系树不同)这一基本假设，但是每个前后关系必须包含只来自一个色面的比特。对U和V系数使用相同的前后关系将具有和混合两个不同的图像相同的效果(相同的序列将包含属于U图像和V图像的混合的比特)，这能够被避免。对每个暂态子带的帧作出对前后关系的相同的区分。能够假定它们服从相同的统计学模式(该假设相当强，但每个暂态子带的模式之间的额外的区别将把前后关系树的在前设定乘以暂态子带数，从而产生庞大的存储器空间需求)。

从而已经对Y、U、V系数和空间暂态分解中的每一帧区分了前后关系的设定。对于该实现方式，d比特形成的这些前后关系组成一种结构，基于：

来自LIS、LIP、LSP或来自标记位图的符号的类型；

色面(Y或U或V)；

暂态子带中的帧。

所有这些前后关系的简单的表示是三维结构前后关系，它用在每一种情况下测试的最后d比特的序列填满：

前后关系[类型][色度][n°帧]，其中类型是LIP类型、LIS类型、LSP类型或标记类型，并且色度表示Y、U或V。

为了反映统计学模式中的变化，则SPIHT运算法则中每一个通路的最后(在有效性等级降低之前，并且与位面变化一起)，前后关系和前后关系树被再初始化，这简单的包括对每个前后关系树和前后关系排列的所有输入重设0概率。为了反映所述的变化，已经通过试验证实该步骤是有必要的：当在每个通路的最后执行再初始化时获得更好的比率。

Claims

1.一种用于分成帧组的视频序列的压缩的编码方法，其中帧组通过三维小波变换分解，从而产生给定数量的连续分辨率等级，所述方法基于称为在分级树中的局部设定的分级子带编码处理并从视频序列的图像象素的原始设定转换为用二进制格式编码的小波变换系数，所述系数构成树并按照对应于各自的有效级的局部子设定排序，这通过包含用三个排序的列表表示的像素的量值测试，这三个列表称为无效设定列表、无效象素列表和有效象素列表，所述测试被执行从而把所述的象素的原始设定根据分解程序分成所述的局部子设定，该程序持续到每个有效系数在所述的二进制表示范围内被编码为止，并且符号位也被放到将被发送的输出比特流中，所述方法进一步特征在于为了估计在每个有效性等级上所述列表中符号0和1出现的概率，考虑用四种前后关系树表示的四种模式，这些模式对应于无效设定列表、无效象素列表和有效象素列表和标记，并且对亮度系数和色度系数模式之间作出进一步的区分，不区分U和V系数。

2.根据权利要求1的编码方法，其中，对每个比特的编码，使用先于当前比特d比特形成的前后关系和不同于根据对所述当前比特考虑的模式，所述的前后关系对亮度系数、色度系数和空间暂态分解中的每一帧进行区分，同时U和V平面不同，这些前后关系依赖于符号的类型、色面Y、U或V以及在空间子带中的帧组成一种结构，符号来自无效设定列表、无效象素列表和有效象素列表或来自符号位图。

3.根据权利要求2的编码方法，其中所述的前后关系的表示方法是三维结构的前后关系，它用在每种情况下测试的最后d比特的序列填满：

前后关系[类型][色度][n°帧]，其中类型是无效设定列表类型、无效象素列表类型和有效象素列表类型或标记类型，并且色度表示Y、U或V。