CN101551902B

CN101551902B - 基于学习的压缩视频超分辨率的特征匹配方法

Info

Publication number: CN101551902B
Application number: CN 200910062070
Authority: CN
Inventors: 胡瑞敏; 兰诚栋; 陈军; 卢涛; 韩镇; 王中元; 陈萍
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2009-05-15
Filing date: 2009-05-15
Publication date: 2011-07-27
Anticipated expiration: 2029-05-15
Also published as: CN101551902A

Abstract

本发明公开了一种基于学习的压缩视频超分辨率的特征匹配方法，该方法利用匹配特征的准确提取和量化噪声的补偿提高匹配精确性，在输入图像的分块与样本分块进行匹配时，利用受量化噪声影响小的低频系数做为匹配特征，依据视频码流中的量化步长在匹配准则中对量化噪声进行补偿，进而在输入图像存在量化噪声的情况下，获得更准确的匹配性能。

Description

基于学习的压缩视频超分辨率的特征匹配方法

技术领域

本发明属于图象超分辨率处理领域，特别是涉及在监控应用中，基于样本学习以增强视频和图象分辨率的方法。

背景技术

视频监控系统通过技术手段获取现实世界的图象进行传输和存储，以便用户可以使用网络实时获得异地监控情况，提高了对突发事件的应对能力和安全防范能力。同时，视频监控录象也可用于公安部门事后调查取证，从而提供了一种有效的刑侦手段。为了从监控视频中获取更多的关于目标的细节信息，比如人脸特征、车牌号码等等，以便辨识确定其身份，常常需要监控视频提供有关目标的高质量高清晰的图象，以便从中获取更多的有用信息。因此，对视频监控应用而言获得高质量高清晰的图象是其核心业务需求。

但在实际应用中，存在多种因素造成了监控视频图象质量的降低。有环境因素：如光线亮度，大雾，下雨等；有摄象机本身因素：如镜头光学模糊，CCD采样分辨率，器件噪声等；有摄象过程产生的因素：如镜头与物体相对运动，散焦等。其中，监控应用中最常见且非常严重的一类降质是由设备对视频进行下采样和压缩处理引起的。目前在监控视频分辨率上，CIF(352×288)是主流的分辨率，随着存储技术的发展，D1(720×576)将会成为设备厂商的首选，但图象分辨率远远满足不了视频监控的要求。受到网络传输带宽和存储设备容量的限制，需要在传输和存储之前进行降分辨率和压缩处理以减少数据量，这将导致大量高频细节信息的丢失，使感兴趣目标对象的细节无法辨识，这种现象普遍存在，如图1所示。

目前，针对不同因素造成的模糊有不同的技术方法来解决，如去运动模糊、去噪、夜间图象处理、去雾处理等，但是这些方法都无法恢复由于降分辨率与压缩造成的细节信息损失。超分辨率重建技术是近年来发展起来的用于提高图象分辨率的技术，其基本原理是对物理成象过程建立数学降质模型，然后结合目标图象重建误差和先验知识约束等方法建立代价函数，最后通过迭代法求取代价函数的最小值。它提供了一种能够融合多帧有效信息并且结合先验知识来恢复和增强细节信息的途径。同时由于超分辨率的降质模型中包含了镜头光学模糊点扩散函数和高斯白噪声，因此，它也具有去光学模糊和噪声的作用。综上所述，超分辨率重建技术是监控业务中具有潜在应用价值的的关键技术。

由于目前视频图象大部分都是压缩格式的，压缩中的量化过程使得获得的低分辨率图象丢失了一部分数据，即观测图象中增加了量化噪声的影响。对于基于样本学习的超分辨率方法，训练库中的低分辨率图象并没有受到量化影响，这将导致原有的特征向量不能准确地做为匹配的依据。而传统方法都没有考虑量化噪声影响基于学习的超分辨率方法精确性的问题。

发明内容

为了解决上述压缩量化噪声影响匹配精确性的问题而提供一种基于学习的压缩视频超分辨率的特征匹配方法，该方法通过利用图象频域中受量化噪声小的低频部分做为匹配特征，同时依据量化步长补偿平均量化噪声，提高基于学习的压缩视频超分辨率的匹配准确度。

实现本发明目的采用以下的技术方案：

一种基于学习的压缩视频超分辨率的特征匹配方法，是在基于样本学习方法进行压缩视频超分辨率过程中，利用匹配特征的准确提取和量化噪声的补偿提高匹配精确性。在输入图像分块与样本分块进行匹配时，利用低频系数做为匹配特征，依据量化步长在匹配准则中进行量化噪声补偿，进而使输入图像存在量化噪声的情况下，获得更准确的匹配。

上述基于样本学习方法进行压缩视频超分辨率包括以下步骤：利用高分辨率的图像样本库，通过将输入的低分辨率压缩图像或分块与样本库图像或分块进行搜索匹配，从而学习推测出低分辨率图像相应的高分辨率图像信息。

上述匹配特征的低频系数包括：将空域图像数据进行DCT变换之后，抽取1个DC系数和按扇形紧跟其后的14个AC系数。

上述量化噪声补偿的匹配准则方法包括：假设量化前系数符合某种分布(如平均分布或拉普拉斯分布)，先计算出均方量化噪声，在匹配时，对相应匹配块的低频部分系数做差值，得到的值进行2范数，再减去均方量化噪声，将结果值最小的块做为匹配得到的块。

本发明是考虑量化噪声的特点，利用频域特征做为匹配的依据。首先增加频域匹配特征金字塔，将高斯金字塔利用DCT(离散余弦变换)转为频域系数。依据DCT频域变换的特点，在频域中，AC系数包含了局部细节信息，DC系数表达了目标块的平均能量，且能量都集中在靠前的系数中。根据视频压缩量化的基本原理，量化步长与频域系数的位置是相关的，频域中越靠前的系数，量化步长越小，越靠后的系数，量化步长越大。因此，不需要使用所有的频域系数做为匹配的依据，而只抽取低频部分系数做为匹配特征，这些频域系数由1个AC系数和某些DC系数组成。这样，不仅获得了受量化损失小的匹配特征，同时也降低了匹配的维数和内存需要。

由于低频部分系数也受到量化噪声的影响，为了进一步提高匹配的精确度，在匹配准则中考虑量化噪声补偿。先计算出均方量化噪声，在匹配时，对相应匹配块的低频部分系数做差值，得到的差值进行2范数，再减去均方量化噪声，将结果值最小的块做为匹配得到的块。

与现有技术相比，本发明利用图象频域中受量化噪声小的低频部分做为匹配特征，同时依据量化步长补偿平均量化噪声，提高基于学习的压缩视频超分辨率的匹配准确度。利用匹配得到高分辨率图象块建立先验约束项，进行基于学习的超分辨率重建，估计出高分辨率的图像。

附图说明

图1是DCT频域系数低频部分抽取方法示意图。

图2是改进后压缩视频人脸图象超分辨率方法的结构框图。

图3是符合均匀分布的量化噪声分布示意图。

具体实施方式

本发明提供一种存在量化噪声时，基于学习的压缩视频超分辨率的特征匹配方法。基本原理是利用压缩视频中，频域的低频部分受量化影响小，且量化步长已知的特点，选择低频部分进行平均量化噪声补偿做为匹配特征。

以下结合基于图象金字塔的人脸超分辨率(幻觉脸)方法的实施例来说明本发明。通过对实施例的详细描述来说明本发明的优点和特征，及其实现方法对本领域技术人员来讲更加清楚，然而，本发明的范围不局限于说明书中所公开的实施例，并且本发明也可以以其他形式来实现。

基于图象金字塔的压缩视频人脸图象超分辨率方法的基本算法框图如图2所示，其中涉及本发明的具体算法步骤说明如下：

1.基于图象金字塔的人脸超分辨率(幻觉脸)的方法中增加频域匹配特征金字塔。该特征金字塔是将高斯金字塔利用DCT转为频域系数，抽取低频部分系数1个DC系数(图1中的黑块)和按扇形紧跟其后的14个AC系数(图1中的阴影部分)做为匹配特征，如图1所示。例如在该金字塔中有一层图象分辨率大小为176*144，我们将该图像分成8*8的分块，某一分块原始数据为：

[\begin{matrix} 82 & 83 & 77 & 68 & 65 & 68 & 72 & 68 \\ 80 & 80 & 69 & 65 & 70 & 69 & 66 & 68 \\ 71 & 75 & 67 & 66 & 69 & 69 & 66 & 66 \\ 69 & 67 & 66 & 66 & 69 & 67 & 65 & 65 \\ 71 & 67 & 67 & 68 & 68 & 67 & 69 & 68 \\ 72 & 67 & 63 & 64 & 68 & 68 & 65 & 63 \\ 71 & 65 & 60 & 66 & 68 & 66 & 68 & 64 \\ 63 & 85 & 154 & 124 & 72 & 64 & 51 & 48 \end{matrix}]

利用DCT变换将该分块转化为频域系数：

[\begin{matrix} 562.125 & 31.470 & - 11.059 & - 10.638 & - 5.875 & 3.677 & 4.986 & 0 \\ - 6.305 & - 13.102 & 33.971 & 25.343 & 2.666 & - 12.994 & - 11.013 & 0 \\ 28.030 & 29.593 & - 20.265 & - 27.595 & - 11.246 & 8.558 & 8.924 & 0 \\ - 15.024 & - 17.944 & 26.871 & 24.730 & 6.448 & - 3.716 & - 8.906 & 0 \\ - 18.625 & 17.078 & - 20.106 & - 26.079 & - 7.875 & 9.836 & 9.275 & 2.717 \\ - 15.384 & - 14.871 & 14.189 & 16.313 & 4.396 & - 2.699 & - 7.224 & 0 \\ 8.549 & 10.781 & - 11.576 & - 12.290 & - 6.572 & 2.740 & 5.015 & 0 \\ 0 & - 6.663 & 6.034 & 3.486 & 0 & 0 & - 3.903 & 0 \end{matrix}]

抽取出低频部分系数为：

[\begin{matrix} 562.125 & 31.470 & - 11.059 & - 10.638 & - 5.875 & 0 & 0 & 0 \\ - 6.305 & - 13.102 & 33.971 & 25.343 & 0 & 0 & 0 & 0 \\ 28.030 & 29.593 & - 20.265 & 0 & 0 & 0 & 0 & 0 \\ - 15.024 & - 17.944 & 0 & 0 & 0 & 0 & 0 & 0 \\ 18.625 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{matrix}]

这样，不仅可以获得了受量化损失小的匹配特征，同时也降低了匹配的维数和内存需要(从原64个系数减为计算15个系数)。

2.截取视频码流的某一帧数据做为输入，依据视频解码方法，对该图象数据进行反量化处理，得到图象各分块的量化后频域系数。例如输入的图像的分辨率也是176*144，分块大小也是8*8，则以5为量化步长经过反量化后的频域系数为：

[\begin{matrix} 560 & 30 & - 10 & - 10 & - 5 & 5 & 5 & 0 \\ - 5 & - 15 & 35 & 25 & 5 & - 15 & - 10 & 0 \\ 30 & 30 & - 20 & - 30 & - 10 & 10 & 10 & 0 \\ - 15 & - 20 & 25 & 25 & 5 & - 5 & - 10 & 0 \\ 20 & 15 & - 20 & - 25 & - 10 & 10 & 10 & 5 \\ - 15 & - 15 & 15 & 15 & 5 & - 5 & - 5 & 0 \\ 10 & 10 & - 10 & - 10 & - 5 & 5 & 5 & 0 \\ 0 & - 5 & 5 & 5 & 0 & 0 & - 5 & 0 \end{matrix}]

对于输入图象分块的量化后频域系数，依据构建频域特征金字塔的方法抽取低频部分系数1个DC系数和前面的14个AC系数。

[\begin{matrix} 560 & 30 & - 10 & - 10 & - 5 & 0 & 0 & 0 \\ - 5 & - 15 & 35 & 25 & 0 & 0 & 0 & 0 \\ 30 & 30 & - 20 & 0 & 0 & 0 & 0 & 0 \\ - 15 & - 20 & 0 & 0 & 0 & 0 & 0 & 0 \\ 20 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{matrix}]

另外，如果是P帧或B帧则得到残差的量化后频域系数，不具体例举。

3.这15个系数也受到量化噪声的影响，为了进一步提高匹配的精确度，在匹配时必须对量化噪声的影响进行补偿。为了简化过程，假设量化噪声满足均匀分布如图3所示，则均方量化噪声为：

\frac{1}{q} {&Integral;}_{- \frac{q}{2}}^{\frac{q}{2}} x^{2} dx = \frac{q^{2}}{12}

其中，x为量化噪声，q为该分块的量化步长。因此，将匹配准则可表达为：

\underset{T}{\arg} \min | | | PS (Z (m, n)) - PS (T (m, n)) | | - \frac{q^{2}}{12} * 15 |

其中，PS表示抽取图象分块的低频部分系数做为频域匹配特征，Z(m，n)表示输入图像的某一分块，T(m，n)表示样本库中某一个分块，m和n分别代表分块的宽和高，|.||表示2范数操作。匹配准则表示对于输入图像的某一分块Z(m，n)，满足使匹配误差式子：

| | | PS (Z (m, n)) - PS (T (m, n)) | | - \frac{q^{2}}{12} * 15 |

值最小的样本库分块T(m，n)为匹配的分块。对于实施例中1、2的分块例子，匹配误差的值计算如下：

|(-2.125)²+(-1.470)²+(1.059)²+0.638²+0.875²+1.305²+(-1.898)²+1.029²+(-0.343)²+1.97²+0.407²+0.265²+0.024²+(-2.056)²+1.375²-25*15/12|＝5.561

如果是输入图像是P帧或B帧，则匹配准则为：

\underset{T}{\arg} \min | | | PS (Z (m, n)) - PS (T (m, n) - R (m, n)) | | - \frac{q^{2}}{12} * 15 |

其中，R(m，n)表示参考帧分块。

4.根据该匹配准则在样本库中进行搜索匹配最相似的。利用匹配得到高分辨率人脸图象块建立先验约束项，进行基于学习的超分辨率重建，估计出高分辨率人脸图像。

Claims

1.一种基于学习的压缩视频超分辨率的特征匹配方法，其特征在于：在基于样本学习方法进行压缩视频超分辨率过程中，利用匹配特征的准确提取和量化噪声的补偿提高匹配精确性，其中在输入图像分块与样本分块进行匹配时，利用低频系数作为匹配特征，依据量化步长在匹配准则中进行量化噪声补偿，进而使输入图像存在量化噪声的情况下，获得更准确的匹配；其中基于样本学习方法进行压缩视频超分辨率包括以下步骤：利用高分辨率的图像样本库，通过将输入的低分辨率压缩图像或分块与样本库图像或分块进行搜索匹配，从而推测出低分辨率图像相应的高分辨率图像信息；量化噪声补偿的匹配准则方法包括：量化前系数的值符合某种已知概率分布，则先计算出均方量化噪声，在匹配时，对相应匹配块的低频部分系数做差值，得到的值进行2范数，再减去均方量化噪声，将结果值最小的块作为匹配得到的块。

2.根据权利要求1所述基于学习的压缩视频超分辨率的特征匹配方法，其特征在于，作为匹配特征的低频系数包括：将空域图像数据进行DCT变换之后，抽取1个DC系数和按扇形紧跟其后的14个AC系数。