CN103533353A

CN103533353A - 一种近似视频编码系统

Info

Publication number: CN103533353A
Application number: CN201310455325.4A
Authority: CN
Inventors: 王瀚漓; 马鸣
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2014-01-22
Anticipated expiration: 2033-09-29
Also published as: CN103533353B

Abstract

本发明涉及一种近似视频编码系统，包括：分析器，用于检测各视频间的近似关系，获得一组近似视频，并输出与该近似视频相应的索引文件：编码器，与分析器连接，用于接收分析器输出的索引文件，并根据该索引文件对近似视频进行编码压缩，输出与每个视频相对应的独立码流：集成器，与编码器连接，用于将所有独立码流进行整合，生成一个单一码流：解码器，与集成器连接，用于对整合后的单一码流进行解码。与现有技术相比，本发明具有压缩效率高、可有效降低视频数据库空间消耗等优点。

Description

一种近似视频编码系统

技术领域

本发明涉及视频编码领域，尤其是涉及一种近似视频编码系统。

背景技术

伴随着多媒体原创互动体系的崛起，网络多媒体和移动多媒体等新媒体的流行，在互联网上的视频数量正呈现海量级爆炸式地增长。国内外众多的网络电视台，如：中国网络电视台、CNN、ABC等，以不同语言全天候播报视频信息；视频分享网站如雨后春笋般地涌现，包括国外的YouTube，国内的优酷、土豆、酷六、六间房、迅雷等；用户还可通过便携智能终端设备(如：IPhone，IPad、笔记本等)访问网络来获取并发布图像、视频等信息；社交网络快速的增长使得数以万计的网络视频可供人们观看与分享。海量的视频在数据服务器中进行存储并在互联网上进行传输，通过互联网搜索和观看丰富的视频资源已成为广大网民获取信息的重要方式。

面对海量的视频数据，如何更有效地对其进行存储和传输已成为一项迫切的任务。实际上，在新闻视频和网络视频等大型视频数据库中存在着大量的近似视频(Near-Duplicate Video，NDV)。NDV指的是多个具有相似或相同图像内容的视频序列，但是在捕获条件、获取时间、渲染条件、图像变化(如：光线、亮度改变)和后期编辑(如：添加边框、图标、字幕)等方面造成内容虽相似但视频图像本身可能并不完全相同。相关研究表明，在大型的新闻视频数据库和网络视频数据库中，存在NDV的比率通常占整个数据库的20～30％，甚至更高。因此，如果可以对大量的NDV进行高效压缩和存储，将有效降低视频数据库的存储空间消耗。目前，对于构成NDV中的每一个分量视频，都采用独立方式进行压缩编码并在视频库中进行存储；NDV中各分量视频之间的相关性没有被很好地利用，视频压缩效率有待进一步提高。

综上所述，为了有效提高NDV的视频编码效率，本发明提出了一种面向NDV的联合编码框架，在保证NDV中各视频图像编码质量的前提下，提高NDV压缩效率，减少视频数据库存储空间消耗。本发明将为海量视频数据的存储、组织和管理提供新的解决方法。

在本发明所提出的近似视频联合编码框架中，涉及到两项背景技术：近似视频检索和多视点视频编码(Multiview Video Coding，MVC)。其中，近似视频检索用于查找和定位视频数据库中的近似视频；多视点视频编码则为本发明所提出的近似视频联合编码框架提供了原型参考。

迄今为止，关于近似视频检索的研究大致可分为两类：一类追求检索的速度，另一类则追求检索的准确性。追求速度的检索方法经常采用视频图像的全局特征，例如：颜色、边缘和序(Ordinal)等，因此检索速度较快。当视频内容变化较小时，这类方法通常能达到很好的检索效果；可是当视频内容的变化较大时，这类算法的检索效果就变得差强人意。另一方面，追求检索准确性的算法采用局部特征，并在此基础上进行扩展，从而提高检索的准确性和速度，例如：使用三维结构张量的描述模型提高算法的准确度，同时跳过不必要的匹配对来加快算法的速度。

另一项背景技术，多视点视频编码MVC已经在多媒体研究应用中引起了广泛关注，例如：三维电视、自由视点电视等。多视点视频是指由多个摄像机从不同的角度或地点对同一场景进行拍摄而采集的多个相关的视频序列。相比于将多视点视频进行单独编码，多视点视频编码MVC不仅充分利用了视频在时间维度上的相关性，而且很好地利用了多视点视频在视点间的相关性，从而对多视点视频进行高效压缩。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种压缩效率高、可有效降低视频数据库空间消耗的近似视频编码(Near-Duplicate Video Coding，NDVC)系统。

本发明的目的可以通过以下技术方案来实现：

一种近似视频编码系统，包括：

分析器，用于检测各视频间的近似关系，获得一组近似视频，并输出与该近似视频相应的索引文件；

编码器，与分析器连接，用于接收分析器输出的索引文件，并根据该索引文件对近似视频进行编码压缩，输出与每个视频相对应的独立码流；

集成器，与编码器连接，用于将所有独立码流进行整合，生成一个单一码流；

解码器，与集成器连接，用于对整合后的单一码流进行解码。

所述的分析器输出索引文件的步骤具体为：

101)分析器采用近似视频检索方法检测并确定各视频间的近似关系，获得一组近似视频；

102)指定该组视频中的一个为基本视频，其余为依赖视频；

103)对每个依赖视频中的一帧，分析器从基本视频中检索与该帧相似度最高的帧，判断该最高相似度是否大于给定阈值，若是，则将该最高相似度对应的基本视频帧作为相应依赖视频帧的参考帧，并记录，若否，则依赖视频帧以本视频当中的帧作为参考帧，并记录；

104)重复步骤103)，获得所有依赖视频帧与基本视频帧的参照关系，生成索引文件并输出。

所述的步骤101)具体为：

对每个视频进行视频特征提取，确定其特征向量，当两个视频的特征向量之间的离散余弦相似度值大于指定的阈值时，即确定为满足近似关系。

所述的指定的阈值为0.83～0.89。

所述的编码器根据该索引文件对近似视频进行编码压缩具体为：

201)参考帧控制器在索引文件基础上，对当前待编码帧执行基于率失真最优模式选择的编码过程，确定最优的编码参数；

202)编码器通过运动补偿生成预测残差来去除当前待编码帧的冗余信息；

203)通过离散余弦变换、量化和熵编码生成编码后的码流；

204)编码器通过反量化、反向离散余弦变换对编码后的码流进行重构，生成重构帧，存入参考帧缓存区中，作为后续帧编码时的参考帧。

所述的基于率失真最优模式选择的编码过程具体为：

301)将待编码帧拆分成大小相等的由像素组成的矩阵，即宏块，并用其作为编码的基本单位；

302)将待编码帧的宏块依次与参考帧中的几个指定宏块进行编码预测，并选择其中率失真效果最优的作为参考宏块；

303)对宏块进行压缩编码，随后整合成统一的待编码帧的码流。

所述的编码参数包括参考索引、编码模式和运动向量。

所述的解码器中设有参考帧控制器和解码缓冲区。

所述的解码器对单一码流进行解码的过程为编码器编码压缩的逆过程。

与现有技术相比，本发明在保证近似视频中各视频图像编码质量的前提下，提高近似视频的压缩效率，有效降低视频数据库的存储空间消耗。

附图说明

图1为本发明的结构示意图；

图2为本发明编码过程示意图；

图3为本发明解码过程示意图；

图4为本发明与单独编码方法的率失真曲线对比示意图；

图4中，(4a)为说唱视频序列的率失真曲线示意图；(4b)为篮球视频序列的率失真曲线示意图；(4c)为音乐视频序列的率失真曲线示意图；(4d)为自然景色视频序列的率失真曲线示意图；(4e)为哈林摇视频序列的率失真曲线示意图；(4f)为动画视频序列的率失真曲线示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，一种近似视频编码(NDVC)系统，包括依次连接的分析器1、编码器2、集成器3和解码器4，分析器1用于检测各视频间的近似关系，获得一组近似视频，并输出与该近似视频相应的索引文件；编码器2用于接收分析器输出的索引文件，并根据该索引文件对近似视频进行编码压缩，输出与每个视频相对应的独立码流；集成器3用于将所有独立码流进行整合，生成一个单一码流，方便传输和存储；解码器4用于对整合后的单一码流进行解码。

分析器1输出索引文件的步骤具体为：

101)分析器采用近似视频检索方法检测并确定各视频间的近似关系，当确定满足近似关系后，获得一组近似视频；

满足近似关系是指：每个视频由传统的视频特征提取方法来确定其特征向量，当两个视频的特征向量之间的离散余弦相似度值大于指定的阈值时，即确定为满足近似关系，指定的阈值优选为0.83～0.89；

102)指定该组视频中的一个为基本视频，其余为依赖视频，依赖视频在编解码时需要使用基本视频作为参照；

103)对每个依赖视频中的一帧，分析器从基本视频中检索与该帧相似度最高的帧，判断该最高相似度是否大于给定阈值，若是，则将该最高相似度对应的基本视频帧作为相应依赖视频帧的参考帧，并记录，在编解码时使用，若否，则依赖视频帧以本视频当中的帧作为参考帧，并记录；

在实际应用中，这种参照关系可能是一种间接的映射关系，例如：使用不同参数的摄像机从不同的角度对同一场景进行拍摄。在这种情况下，被参照的视频帧可能需要进行预处理变换，例如：使用单应性矩阵进行变换，从而得到更准确的参考帧。因此，分析器需要对视频组进行预处理分析，包括确定哪些视频满足近似关系，其中的基本视频是否可以直接用作参考视频或者需要先进行矩阵变换后再作为参考视频。

编码器2中设有参考帧控制器和参考帧缓存区。如图2所示，编码器根据该索引文件对近似视频进行编码压缩具体为：

201)参考帧控制器在索引文件基础上，对当前待编码帧执行基于率失真最优模式选择的编码过程，确定最优的编码参数，包括参考索引、编码模式和运动向量等；

203)通过离散余弦变换(Discrete Cosine Transform，DCT)、量化和熵编码生成编码后的码流；

204)编码器通过反量化、反向离散余弦变换(Inverse Discrete Cosine Transform，IDCT)对编码后的码流进行重构，生成重构帧，存入参考帧缓存区中，作为后续帧编码时的参考帧。

上述步骤201)中，基于率失真最优模式选择的编码过程具体为：

301)将待编码帧拆分成大小相等的由像素组成的矩阵(宏块)，并用其作为编码的基本单位；

解码器3中设有参考帧控制器和解码缓冲区。如图3所示，解码器对单一码流进行解码的过程为编码器编码压缩的逆过程。

为了检验本发明的性能，以Google公司在Google Zeitgeist网站上公布的2012年搜索量最高的视频排行榜中前10的视频，连同Youku网站上6个分类里各选取一个点击率较高的视频，共16个视频作为原始视频，并对它们进行了4种近似变换来测试所提出的NDVC系统。这4种变换包括：(1)在视频中加入字幕和标签，(2)加入高斯白噪声，(3)将视频的前2/3部分播放速度减为原来的一半，并在最后1/3部分将播放速度加快为原来的两倍，(4)将视频的宽和高均调整为原来的1/2。所有的视频的格式均为4：2：0YUV，原始视频的分辨率为320x240，帧率为每秒25帧，播放长度为1575帧。

在实验过程中，我们使用了两个评判标准，包括峰值信噪比(Peak-Signal-to-Noise Ratio，PSNR)的改变ΔP和压缩比C％，其定义如下：

ΔP=P_NDVC-P_org

C % = \frac{S_{NDVC}}{S_{org}} \times 100 %

其中，P_NDVC和P_org分别表示用NDVC压缩和用H.264/AVC进行独立压缩时的峰值信噪比。S_NDVC和S_org则分别表示用NDVC压缩和用H.264/AVC进行独立压缩时的码率。整体的实验结果表1所示。

表1

从实验结果中我们不难看出，在大多数情况下，本发明提出的NDVC系统会节省大约45％的码率，并且只会带来少许的PSNR降低。在当前的实验配置下，进行H.264/AVC独立编码和NDVC编码时，量化步长的设定值是相同的。为了进一步的展示NDVC的优越性，申请人设置了不同的量化步长，并在这些不同的量化步长下对NDVC和单独编码的性能进行了比较。图3给出了6个典型视频在添加字幕场景下的率失真性能曲线。

从结果中我们可以明显地看出本发明所提出的NDVC系统的率失真性能要远优于独立编码的性能。

Claims

1.一种近似视频编码系统，其特征在于，包括：

2.根据权利要求1所述的一种近似视频编码系统，其特征在于，所述的分析器输出索引文件的步骤具体为：

102)指定该组视频中的一个为基本视频，其余为依赖视频；

3.根据权利要求2所述的一种近似视频编码系统，其特征在于，所述的步骤101)具体为：

4.根据权利要求3所述的一种近似视频编码系统，其特征在于，所述的指定的阈值为0.83～0.89。

5.根据权利要求1所述的一种近似视频编码系统，其特征在于，所述的编码器中设有参考帧控制器和参考帧缓存区。

6.根据权利要求5所述的一种近似视频编码系统，其特征在于，所述的编码器根据该索引文件对近似视频进行编码压缩具体为：

203)通过离散余弦变换、量化和熵编码生成编码后的码流；

7.根据权利要求6所述的一种近似视频编码系统，其特征在于，所述的基于率失真最优模式选择的编码过程具体为：

8.根据权利要求6所述的一种近似视频编码系统，其特征在于，所述的编码参数包括参考索引、编码模式和运动向量。

9.根据权利要求6所述的一种近似视频编码系统，其特征在于，所述的解码器中设有参考帧控制器和解码缓冲区。

10.根据权利要求9所述的一种近似视频编码系统，其特征在于，所述的解码器对单一码流进行解码的过程为编码器编码压缩的逆过程。