CN103533353A - 一种近似视频编码系统 - Google Patents
一种近似视频编码系统 Download PDFInfo
- Publication number
- CN103533353A CN103533353A CN201310455325.4A CN201310455325A CN103533353A CN 103533353 A CN103533353 A CN 103533353A CN 201310455325 A CN201310455325 A CN 201310455325A CN 103533353 A CN103533353 A CN 103533353A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- approximate
- code stream
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种近似视频编码系统,包括:分析器,用于检测各视频间的近似关系,获得一组近似视频,并输出与该近似视频相应的索引文件:编码器,与分析器连接,用于接收分析器输出的索引文件,并根据该索引文件对近似视频进行编码压缩,输出与每个视频相对应的独立码流:集成器,与编码器连接,用于将所有独立码流进行整合,生成一个单一码流:解码器,与集成器连接,用于对整合后的单一码流进行解码。与现有技术相比,本发明具有压缩效率高、可有效降低视频数据库空间消耗等优点。
Description
技术领域
本发明涉及视频编码领域,尤其是涉及一种近似视频编码系统。
背景技术
伴随着多媒体原创互动体系的崛起,网络多媒体和移动多媒体等新媒体的流行,在互联网上的视频数量正呈现海量级爆炸式地增长。国内外众多的网络电视台,如:中国网络电视台、CNN、ABC等,以不同语言全天候播报视频信息;视频分享网站如雨后春笋般地涌现,包括国外的YouTube,国内的优酷、土豆、酷六、六间房、迅雷等;用户还可通过便携智能终端设备(如:IPhone,IPad、笔记本等)访问网络来获取并发布图像、视频等信息;社交网络快速的增长使得数以万计的网络视频可供人们观看与分享。海量的视频在数据服务器中进行存储并在互联网上进行传输,通过互联网搜索和观看丰富的视频资源已成为广大网民获取信息的重要方式。
面对海量的视频数据,如何更有效地对其进行存储和传输已成为一项迫切的任务。实际上,在新闻视频和网络视频等大型视频数据库中存在着大量的近似视频(Near-Duplicate Video,NDV)。NDV指的是多个具有相似或相同图像内容的视频序列,但是在捕获条件、获取时间、渲染条件、图像变化(如:光线、亮度改变)和后期编辑(如:添加边框、图标、字幕)等方面造成内容虽相似但视频图像本身可能并不完全相同。相关研究表明,在大型的新闻视频数据库和网络视频数据库中,存在NDV的比率通常占整个数据库的20~30%,甚至更高。因此,如果可以对大量的NDV进行高效压缩和存储,将有效降低视频数据库的存储空间消耗。目前,对于构成NDV中的每一个分量视频,都采用独立方式进行压缩编码并在视频库中进行存储;NDV中各分量视频之间的相关性没有被很好地利用,视频压缩效率有待进一步提高。
综上所述,为了有效提高NDV的视频编码效率,本发明提出了一种面向NDV的联合编码框架,在保证NDV中各视频图像编码质量的前提下,提高NDV压缩效率,减少视频数据库存储空间消耗。本发明将为海量视频数据的存储、组织和管理提供新的解决方法。
在本发明所提出的近似视频联合编码框架中,涉及到两项背景技术:近似视频检索和多视点视频编码(Multiview Video Coding,MVC)。其中,近似视频检索用于查找和定位视频数据库中的近似视频;多视点视频编码则为本发明所提出的近似视频联合编码框架提供了原型参考。
迄今为止,关于近似视频检索的研究大致可分为两类:一类追求检索的速度,另一类则追求检索的准确性。追求速度的检索方法经常采用视频图像的全局特征,例如:颜色、边缘和序(Ordinal)等,因此检索速度较快。当视频内容变化较小时,这类方法通常能达到很好的检索效果;可是当视频内容的变化较大时,这类算法的检索效果就变得差强人意。另一方面,追求检索准确性的算法采用局部特征,并在此基础上进行扩展,从而提高检索的准确性和速度,例如:使用三维结构张量的描述模型提高算法的准确度,同时跳过不必要的匹配对来加快算法的速度。
另一项背景技术,多视点视频编码MVC已经在多媒体研究应用中引起了广泛关注,例如:三维电视、自由视点电视等。多视点视频是指由多个摄像机从不同的角度或地点对同一场景进行拍摄而采集的多个相关的视频序列。相比于将多视点视频进行单独编码,多视点视频编码MVC不仅充分利用了视频在时间维度上的相关性,而且很好地利用了多视点视频在视点间的相关性,从而对多视点视频进行高效压缩。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种压缩效率高、可有效降低视频数据库空间消耗的近似视频编码(Near-Duplicate Video Coding,NDVC)系统。
本发明的目的可以通过以下技术方案来实现:
一种近似视频编码系统,包括:
分析器,用于检测各视频间的近似关系,获得一组近似视频,并输出与该近似视频相应的索引文件;
编码器,与分析器连接,用于接收分析器输出的索引文件,并根据该索引文件对近似视频进行编码压缩,输出与每个视频相对应的独立码流;
集成器,与编码器连接,用于将所有独立码流进行整合,生成一个单一码流;
解码器,与集成器连接,用于对整合后的单一码流进行解码。
所述的分析器输出索引文件的步骤具体为:
101)分析器采用近似视频检索方法检测并确定各视频间的近似关系,获得一组近似视频;
102)指定该组视频中的一个为基本视频,其余为依赖视频;
103)对每个依赖视频中的一帧,分析器从基本视频中检索与该帧相似度最高的帧,判断该最高相似度是否大于给定阈值,若是,则将该最高相似度对应的基本视频帧作为相应依赖视频帧的参考帧,并记录,若否,则依赖视频帧以本视频当中的帧作为参考帧,并记录;
104)重复步骤103),获得所有依赖视频帧与基本视频帧的参照关系,生成索引文件并输出。
所述的步骤101)具体为:
对每个视频进行视频特征提取,确定其特征向量,当两个视频的特征向量之间的离散余弦相似度值大于指定的阈值时,即确定为满足近似关系。
所述的指定的阈值为0.83~0.89。
所述的编码器根据该索引文件对近似视频进行编码压缩具体为:
201)参考帧控制器在索引文件基础上,对当前待编码帧执行基于率失真最优模式选择的编码过程,确定最优的编码参数;
202)编码器通过运动补偿生成预测残差来去除当前待编码帧的冗余信息;
203)通过离散余弦变换、量化和熵编码生成编码后的码流;
204)编码器通过反量化、反向离散余弦变换对编码后的码流进行重构,生成重构帧,存入参考帧缓存区中,作为后续帧编码时的参考帧。
所述的基于率失真最优模式选择的编码过程具体为:
301)将待编码帧拆分成大小相等的由像素组成的矩阵,即宏块,并用其作为编码的基本单位;
302)将待编码帧的宏块依次与参考帧中的几个指定宏块进行编码预测,并选择其中率失真效果最优的作为参考宏块;
303)对宏块进行压缩编码,随后整合成统一的待编码帧的码流。
所述的编码参数包括参考索引、编码模式和运动向量。
所述的解码器中设有参考帧控制器和解码缓冲区。
所述的解码器对单一码流进行解码的过程为编码器编码压缩的逆过程。
与现有技术相比,本发明在保证近似视频中各视频图像编码质量的前提下,提高近似视频的压缩效率,有效降低视频数据库的存储空间消耗。
附图说明
图1为本发明的结构示意图;
图2为本发明编码过程示意图;
图3为本发明解码过程示意图;
图4为本发明与单独编码方法的率失真曲线对比示意图;
图4中,(4a)为说唱视频序列的率失真曲线示意图;(4b)为篮球视频序列的率失真曲线示意图;(4c)为音乐视频序列的率失真曲线示意图;(4d)为自然景色视频序列的率失真曲线示意图;(4e)为哈林摇视频序列的率失真曲线示意图;(4f)为动画视频序列的率失真曲线示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种近似视频编码(NDVC)系统,包括依次连接的分析器1、编码器2、集成器3和解码器4,分析器1用于检测各视频间的近似关系,获得一组近似视频,并输出与该近似视频相应的索引文件;编码器2用于接收分析器输出的索引文件,并根据该索引文件对近似视频进行编码压缩,输出与每个视频相对应的独立码流;集成器3用于将所有独立码流进行整合,生成一个单一码流,方便传输和存储;解码器4用于对整合后的单一码流进行解码。
分析器1输出索引文件的步骤具体为:
101)分析器采用近似视频检索方法检测并确定各视频间的近似关系,当确定满足近似关系后,获得一组近似视频;
满足近似关系是指:每个视频由传统的视频特征提取方法来确定其特征向量,当两个视频的特征向量之间的离散余弦相似度值大于指定的阈值时,即确定为满足近似关系,指定的阈值优选为0.83~0.89;
102)指定该组视频中的一个为基本视频,其余为依赖视频,依赖视频在编解码时需要使用基本视频作为参照;
103)对每个依赖视频中的一帧,分析器从基本视频中检索与该帧相似度最高的帧,判断该最高相似度是否大于给定阈值,若是,则将该最高相似度对应的基本视频帧作为相应依赖视频帧的参考帧,并记录,在编解码时使用,若否,则依赖视频帧以本视频当中的帧作为参考帧,并记录;
104)重复步骤103),获得所有依赖视频帧与基本视频帧的参照关系,生成索引文件并输出。
在实际应用中,这种参照关系可能是一种间接的映射关系,例如:使用不同参数的摄像机从不同的角度对同一场景进行拍摄。在这种情况下,被参照的视频帧可能需要进行预处理变换,例如:使用单应性矩阵进行变换,从而得到更准确的参考帧。因此,分析器需要对视频组进行预处理分析,包括确定哪些视频满足近似关系,其中的基本视频是否可以直接用作参考视频或者需要先进行矩阵变换后再作为参考视频。
编码器2中设有参考帧控制器和参考帧缓存区。如图2所示,编码器根据该索引文件对近似视频进行编码压缩具体为:
201)参考帧控制器在索引文件基础上,对当前待编码帧执行基于率失真最优模式选择的编码过程,确定最优的编码参数,包括参考索引、编码模式和运动向量等;
202)编码器通过运动补偿生成预测残差来去除当前待编码帧的冗余信息;
203)通过离散余弦变换(Discrete Cosine Transform,DCT)、量化和熵编码生成编码后的码流;
204)编码器通过反量化、反向离散余弦变换(Inverse Discrete Cosine Transform,IDCT)对编码后的码流进行重构,生成重构帧,存入参考帧缓存区中,作为后续帧编码时的参考帧。
上述步骤201)中,基于率失真最优模式选择的编码过程具体为:
301)将待编码帧拆分成大小相等的由像素组成的矩阵(宏块),并用其作为编码的基本单位;
302)将待编码帧的宏块依次与参考帧中的几个指定宏块进行编码预测,并选择其中率失真效果最优的作为参考宏块;
303)对宏块进行压缩编码,随后整合成统一的待编码帧的码流。
解码器3中设有参考帧控制器和解码缓冲区。如图3所示,解码器对单一码流进行解码的过程为编码器编码压缩的逆过程。
为了检验本发明的性能,以Google公司在Google Zeitgeist网站上公布的2012年搜索量最高的视频排行榜中前10的视频,连同Youku网站上6个分类里各选取一个点击率较高的视频,共16个视频作为原始视频,并对它们进行了4种近似变换来测试所提出的NDVC系统。这4种变换包括:(1)在视频中加入字幕和标签,(2)加入高斯白噪声,(3)将视频的前2/3部分播放速度减为原来的一半,并在最后1/3部分将播放速度加快为原来的两倍,(4)将视频的宽和高均调整为原来的1/2。所有的视频的格式均为4:2:0YUV,原始视频的分辨率为320x240,帧率为每秒25帧,播放长度为1575帧。
在实验过程中,我们使用了两个评判标准,包括峰值信噪比(Peak-Signal-to-Noise Ratio,PSNR)的改变ΔP和压缩比C%,其定义如下:
ΔP=PNDVC-Porg
其中,PNDVC和Porg分别表示用NDVC压缩和用H.264/AVC进行独立压缩时的峰值信噪比。SNDVC和Sorg则分别表示用NDVC压缩和用H.264/AVC进行独立压缩时的码率。整体的实验结果表1所示。
表1
从实验结果中我们不难看出,在大多数情况下,本发明提出的NDVC系统会节省大约45%的码率,并且只会带来少许的PSNR降低。在当前的实验配置下,进行H.264/AVC独立编码和NDVC编码时,量化步长的设定值是相同的。为了进一步的展示NDVC的优越性,申请人设置了不同的量化步长,并在这些不同的量化步长下对NDVC和单独编码的性能进行了比较。图3给出了6个典型视频在添加字幕场景下的率失真性能曲线。
从结果中我们可以明显地看出本发明所提出的NDVC系统的率失真性能要远优于独立编码的性能。
Claims (10)
1.一种近似视频编码系统,其特征在于,包括:
分析器,用于检测各视频间的近似关系,获得一组近似视频,并输出与该近似视频相应的索引文件;
编码器,与分析器连接,用于接收分析器输出的索引文件,并根据该索引文件对近似视频进行编码压缩,输出与每个视频相对应的独立码流;
集成器,与编码器连接,用于将所有独立码流进行整合,生成一个单一码流;
解码器,与集成器连接,用于对整合后的单一码流进行解码。
2.根据权利要求1所述的一种近似视频编码系统,其特征在于,所述的分析器输出索引文件的步骤具体为:
101)分析器采用近似视频检索方法检测并确定各视频间的近似关系,获得一组近似视频;
102)指定该组视频中的一个为基本视频,其余为依赖视频;
103)对每个依赖视频中的一帧,分析器从基本视频中检索与该帧相似度最高的帧,判断该最高相似度是否大于给定阈值,若是,则将该最高相似度对应的基本视频帧作为相应依赖视频帧的参考帧,并记录,若否,则依赖视频帧以本视频当中的帧作为参考帧,并记录;
104)重复步骤103),获得所有依赖视频帧与基本视频帧的参照关系,生成索引文件并输出。
3.根据权利要求2所述的一种近似视频编码系统,其特征在于,所述的步骤101)具体为:
对每个视频进行视频特征提取,确定其特征向量,当两个视频的特征向量之间的离散余弦相似度值大于指定的阈值时,即确定为满足近似关系。
4.根据权利要求3所述的一种近似视频编码系统,其特征在于,所述的指定的阈值为0.83~0.89。
5.根据权利要求1所述的一种近似视频编码系统,其特征在于,所述的编码器中设有参考帧控制器和参考帧缓存区。
6.根据权利要求5所述的一种近似视频编码系统,其特征在于,所述的编码器根据该索引文件对近似视频进行编码压缩具体为:
201)参考帧控制器在索引文件基础上,对当前待编码帧执行基于率失真最优模式选择的编码过程,确定最优的编码参数;
202)编码器通过运动补偿生成预测残差来去除当前待编码帧的冗余信息;
203)通过离散余弦变换、量化和熵编码生成编码后的码流;
204)编码器通过反量化、反向离散余弦变换对编码后的码流进行重构,生成重构帧,存入参考帧缓存区中,作为后续帧编码时的参考帧。
7.根据权利要求6所述的一种近似视频编码系统,其特征在于,所述的基于率失真最优模式选择的编码过程具体为:
301)将待编码帧拆分成大小相等的由像素组成的矩阵,即宏块,并用其作为编码的基本单位;
302)将待编码帧的宏块依次与参考帧中的几个指定宏块进行编码预测,并选择其中率失真效果最优的作为参考宏块;
303)对宏块进行压缩编码,随后整合成统一的待编码帧的码流。
8.根据权利要求6所述的一种近似视频编码系统,其特征在于,所述的编码参数包括参考索引、编码模式和运动向量。
9.根据权利要求6所述的一种近似视频编码系统,其特征在于,所述的解码器中设有参考帧控制器和解码缓冲区。
10.根据权利要求9所述的一种近似视频编码系统,其特征在于,所述的解码器对单一码流进行解码的过程为编码器编码压缩的逆过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310455325.4A CN103533353B (zh) | 2013-09-29 | 2013-09-29 | 一种近似视频编码系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310455325.4A CN103533353B (zh) | 2013-09-29 | 2013-09-29 | 一种近似视频编码系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103533353A true CN103533353A (zh) | 2014-01-22 |
CN103533353B CN103533353B (zh) | 2016-11-09 |
Family
ID=49934968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310455325.4A Active CN103533353B (zh) | 2013-09-29 | 2013-09-29 | 一种近似视频编码系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103533353B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103780902A (zh) * | 2014-02-14 | 2014-05-07 | 北京奇艺世纪科技有限公司 | 一种近似视频检测方法及装置 |
CN108733737A (zh) * | 2017-04-25 | 2018-11-02 | 合信息技术(北京)有限公司 | 视频库的建立方法及装置 |
CN108769690A (zh) * | 2018-05-28 | 2018-11-06 | 思百达物联网科技(北京)有限公司 | 基于视频压缩的连续图片管理方法、装置、设备和介质 |
CN113423004A (zh) * | 2021-08-23 | 2021-09-21 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102668564A (zh) * | 2009-12-21 | 2012-09-12 | 阿尔卡特朗讯公司 | 一种用于对多个视频流进行联合编码的方法和装置 |
-
2013
- 2013-09-29 CN CN201310455325.4A patent/CN103533353B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102668564A (zh) * | 2009-12-21 | 2012-09-12 | 阿尔卡特朗讯公司 | 一种用于对多个视频流进行联合编码的方法和装置 |
Non-Patent Citations (2)
Title |
---|
WAN-LEI ZHAO, ET AL.: "On the Annotation of Web Videos by Efficient Near-Duplicate Search", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
王宝亮: "基于H.264的多视点立体视频关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103780902A (zh) * | 2014-02-14 | 2014-05-07 | 北京奇艺世纪科技有限公司 | 一种近似视频检测方法及装置 |
CN103780902B (zh) * | 2014-02-14 | 2016-05-11 | 北京奇艺世纪科技有限公司 | 一种近似视频检测方法及装置 |
CN108733737A (zh) * | 2017-04-25 | 2018-11-02 | 合信息技术(北京)有限公司 | 视频库的建立方法及装置 |
CN108733737B (zh) * | 2017-04-25 | 2021-02-09 | 阿里巴巴(中国)有限公司 | 视频库的建立方法及装置 |
CN108769690A (zh) * | 2018-05-28 | 2018-11-06 | 思百达物联网科技(北京)有限公司 | 基于视频压缩的连续图片管理方法、装置、设备和介质 |
CN113423004A (zh) * | 2021-08-23 | 2021-09-21 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
CN113423004B (zh) * | 2021-08-23 | 2021-11-30 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103533353B (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duan et al. | Overview of the MPEG-CDVS standard | |
CN105187850B (zh) | 提供经编码视频数据的信息及接收经编码视频数据的方法和设备 | |
CN101374234B (zh) | 一种基于内容的视频拷贝监测方法及装置 | |
Duan et al. | Compact descriptors for visual search | |
CN108882020A (zh) | 一种视频信息处理方法、装置及系统 | |
Zhang et al. | A joint compression scheme of video feature descriptors and visual content | |
CN103475935A (zh) | 一种视频片段的检索方法及装置 | |
CN103609112A (zh) | 视频译码中的内部位深度增加 | |
CN1913640A (zh) | 多模式多视点视频信号编码压缩方法 | |
Fang et al. | 3dac: Learning attribute compression for point clouds | |
CN102724554A (zh) | 一种基于场景分割的视频资源语义水印嵌入方法 | |
CN1166202C (zh) | 由视频重放系统从压缩数字视频信号中动态地提取特征 | |
CN103533353B (zh) | 一种近似视频编码系统 | |
Ding et al. | Rate-performance-loss optimization for inter-frame deep feature coding from videos | |
CN103020138A (zh) | 一种视频检索的方法和装置 | |
Meng et al. | A robust coverless video steganography based on maximum DC coefficients against video attacks | |
US10536726B2 (en) | Pixel patch collection for prediction in video coding system | |
JP4734047B2 (ja) | ビデオドキュメントを圧縮するためのプロセス及び装置 | |
WO2019018030A1 (en) | COMPRESSION AND RECOVERY OF STRUCTURED RECORDINGS | |
CN203086632U (zh) | 一种基于压缩域的视频检索系统 | |
CN115914631A (zh) | 熵解码复杂度可控的编解码方法及系统 | |
Adami et al. | Embedded indexing in scalable video coding | |
Tonge et al. | Key frame extraction for video content summarization using orthogonal transforms and fractional energy coefficients | |
Shirani | Content-based multiple description image coding | |
CN105847822A (zh) | 一种视频解码方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |