CN1784008A - 高清晰视频超强压缩编码方法及解码方法 - Google Patents
高清晰视频超强压缩编码方法及解码方法 Download PDFInfo
- Publication number
- CN1784008A CN1784008A CN 200410096712 CN200410096712A CN1784008A CN 1784008 A CN1784008 A CN 1784008A CN 200410096712 CN200410096712 CN 200410096712 CN 200410096712 A CN200410096712 A CN 200410096712A CN 1784008 A CN1784008 A CN 1784008A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- wavelet
- image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种高清晰视频超强压缩编码方法及解码方法,所述压缩编码方法主要包括:对每一个输入视频作分解后,利用小波变换提取特征,排序,量化,量化的结果一路经帧内压缩输出,另一路经反量化和小波逆变换后对图像进行对象分离,利用对象进行下一帧的预测,再将预测结果与下一帧的输入视频相比较,从下一帧内抠除相同的对象,得到剩余信号,从而实现较高的压缩比,所述剩余信号作为输入视频进行下一个循环,只是在预测前要与已抠除的对象进行复合后再进行预测。本发明的解码方法对将压缩的数据解压出来,进行反量化和小波逆变换,修正后输出。本发明的压缩方法,基于对象,压缩比高,码流低,灵活性强,图象水印安全性较高。
Description
技术领域
本发明涉及一种视频信息压缩编码方法,还涉及解压该压缩编码的解码方法。
背景技术
随着高清晰度电视HDTV技术、计算机技术、数字编解码技术的发展,以数字电视为龙头的数字音视频产业已经成为国家的支柱产业之一。
在数字音视频行业里最重要的算法就是编码算法,尤其是高压缩比的视频编码算法。一个优秀的图像算法将带来整个行业的巨变,也是产业发展的里程碑。
MPEG-1出台于1992年,设计目标为工业级标准,可对标准分辨率的图像进行压缩,传输速率为1.5Mbps,视频质量基本与VHS相当,主要应用于VCD。分辨率为352*288。在历史上扮演了很重要的角色,现在已经不能满足日益提升的显示终端的要求。
MPEG-2出台于1994年,设计目标为高级工业标准,传输速率在3-10Mbps之间,较广的压缩比范围适应于不同画面质量、存储容量和带宽的要求。主要应用于DVD。主级分辨率NTSC制式为720*576,PAL制式为720*480,满足普通电视机的标准清晰度显示要求。MPEG2分类里有很多级别,其中高级采用20-40Mbps码流,可达到1920*1080的高分辨率,是DVD的5倍,可达到高端电视1000线左右的显示要求。但对数据存储量要求极高,需要15-20GB左右的数据来存储,相当于4-5张普通的DVD光盘。
MPEG-4制定于1998年,传输速率在5-64Kbps之间,支持基于对象的压缩编码;采用帧重建技术以最少的传输数据获得最佳的图像质量;主要应用于小画面、低码流的网络媒体。
MPEG-2的编码技术是基于视频图像的时间相关性与空间相关性,采用预测编码、变换编码和统计编码的基本编码技术,对矩形图像进行压缩编码。
MPEG-2可以达到质量很高的图像效果,但基于矩形图像的压缩编码使得数据量无法压缩到更高,这直接导致了蓝光技术的发展。使用蓝光技术可以在一张同样尺寸的光盘上存储20G-25G字节的数据,是一张D5容量的5倍,(D5即红光技术下普通的DVD光盘,容量为4.7G)。
普通的DVD压缩技术在一张D5盘片上可以存储2小时左右的标清节目,这是因为使用了传统的MPEG2技术,这样的话,相对于标准清晰度分辨率(720*576)5倍的高清晰度节目(1920*1080),蓝光就在所难免了。
因此,目前急需一种压缩方法,使用最少的数据获得最佳的图像质量,满足低码率应用的需求,确保红光高清产业化,解决高清视频大数据容量存储要求与红光小存储容量之间的矛盾。
小波变换在图像压缩方法中应用较多,以下对其基本内容进行说明:设小波函数为Ψ,其一般表达式为
其中:Ψ称为小波母函数,对于母小波Ψ有: 为尺度参数或伸缩因子,b为平移参数,系数|a|-1/2是归一化因子,它的引入是为了使不同尺度的小波保持相等的能量。令:
a=2j,b=k2j
则式(1)变为:
Ψj,k=2-j/2Ψ(2-jt-k) (2)
即得到常用的二进离散小波。离散小波变换可以看作不同尺度a=2j下信号f经过不同带宽的带通滤波器所谓小波变换(WT)就是将能量受限的信号f(t),表示为小波基函数的加权和(小波基函数在所给定的小波空间中构成完全标准正交系;而不同尺度下的小波空间彼此正交,小波空间又称细节空间),即小波变换为:
f=∑Cj,k(f)Ψj,k (3)
在Ψj,k构成正交基的条件下,可得:
其中:<>表示内积,Ψj,k′:是Ψj,k的共轭,当Ψj,k(t)为实数且是偶函数时,则式(4)中没有复共轭的作用,就是2个普通原函数乘积的积分。显然系数Cj,k(f)包含了原信号的信息,其系数不仅仍是稀疏的,且大部分为0或接近于0。而信号f(t)的逆变换即f(t)可由所有尺度下任何位置处的Cj,k(f)来精确地确定,即小波变换是信息保持的,重构公式为:
理论上,时域窗越窄,其对信号的时间定位能力越强;同样,频域窗越窄,其对信号的频率定位能力也越强。小波变换具备很好的时频变换特性,鉴于绝大多数信号具有“低频部分持续时间相对长,能量大;高频部分持续时间短,能量小”之客观情况,小波变换的显著特点是:
(1)用短时尺度支持高频分析|a|<1(即对应于离散状态下的j≤0)或更窄的宽度,此时小波压缩的频率成分主要位于高频区域。频响宽度变宽,时间位移步进减小,意味对信号细节的观察,也即对应时间分辨率越高,因此分析高频宜采用窄的分析窗口;
(2)用长时尺度支持低频分析|a|>1(j>0)或更宽的宽度,小波扩展,低频成分占主导地位,频响宽度变窄,时间位移步进大,表示信号大范围的观察。
换言之,如果用小波进行信号分析,其多尺度思想是:将待处理的信号用小波变换的方法在不同的尺度上进行分解,分解到粗尺度上的信号称之为平滑信号或称概貌信号,也即基本层信号;在细尺度上分解的信号称之为细节信号,也即增强层信号。可见,小波变换是连续不同尺度上信号的桥梁。所以说小波变换具有这种多尺度分解特性即分辨率分解特性,这是包括(窗口)傅里叶变换在内的众多变换方法所不及的。从小波变换式可知,每个空间的分辨率是2j。所以系数<f;Ψj,k>表达了f在分辨率2j-1下的近似到更粗分辨率2j下的近似之间的信息损失。或者说在两种分辨率下的信息差。Cj,k表示信号f(x)在角频率为2j附近的情况,j每减小1,频率增加一倍,即分辨率在高频时较低(j越小其空间分辨率越高),而在低频时可较高--这与傅氏变换中高低频具有相同的分辨率不同。或者说小波变换系数给出了f(t)的尺度2j位置k处的逼近。
与傅里叶变换是三角函数作为基底而展开的相对应,小波变换是局部化函数所形成的相似函数作为基底而展开的。其变换的过程可以理解为是不同尺度的正交小波基函数对图像信号进行抽样,这种抽样的过程就是一种多分辨率的分解过程。可以地说小波变换有以下一些重要性质:
(1)小波变换的过程是根据信号不同频域,采取不同的j(或a)的动态滤波过程,而这一过程的不同带通滤波器却具有相同的品质因素;
(2)小波变换的冗余性事实上是自相似性的直接反映;
(3)离散小波变换系数Cj,k(f)给出了信号f(t)的尺度2j位置k处的逼近;
(4)小波可以在不同尺度下反映出图像在不同分辨率下的特性;
(5)分解级越高,小波系数对应的空间分辨率就越低;
(6)小波变换同时具有时间和空间的局部化(高频)特性;
(7)小波变换对突发的奇异信号有很强的处理能力;
(8)小波变换可以在不同方向上进行分解,匹配了人眼对于光刺激的方向选择性。
因此只要选择合适的小波基函数就可通过f′恢复出几乎不失真的f。图像压缩中所使用的离散正交小波一般由滤波函数构造:对于给定的数字信号矩阵,利用劈方法将其分解为一个高通的和一个低通的子信号,且二者是相互正交的。在必要时可以递归地对每一个子信号劈下去,一直到需要的信号带宽为止,然后再进行分析和运算。
小波变换采用塔形分解的数据结构,与人眼由粗到细,由全貌到细节的观察习惯相一致(匹配),可以实行分级累进传输实现渐进显示。小波分析来源于伸缩和平移思想,他能将时间域、空间域和频率域有机地结合起来,具有多分辨率、方向选择、自动“调焦”和“显微”的特点。
发明内容
本发明克服了现有技术的缺点,提供了一种高清晰视频超强压缩编码方法,还提供了一种解压该压缩编码的解压方法。统称HD12编解码算法。
本发明高清晰视频超强压缩编码方法,包括以下步骤:
(1)将输入视频信号的每一帧影像分为多个块,对每个块进行小波变换,将空间域转换为频率域,对视频数据进行特征提取,并且从低频数据到高频数据进行排序;
(2)将上一步输出的信号送入量化器,在量化器内对视频信号进行量化处理;
(3)量化器将量化好的数据分两路输出,一路进入运动组织编码器,另一路输入反向量化器及小波逆变换,将已量化好的数据反向量化和小波逆变换,形成可进行数据处理的多个宏块;
(4)将上一步的输出信号输入预测编码器,在预测编码器中利用小波变换,计算出各宏块之间的相似度,将处理的视频信号分离为多个对象,应用已分离的对象对下一帧的图像进行预测,得到预测信号;
(5)再将预测信号输出到视频信号输入端,将下一帧视频信号中与预测信号相同的地方抠去,得到一个剩余信号,将该剩余信号作为第(1)步中的视频信号重复第(1)步的过程,其中与上面不同的是为了产生新的预测信号,在剩余信号进入预测编码器之前,应与上一帧的预测信号输出端进行复合后,再进入预测编码器进行下一帧的预测;
(6)运动组织编码器对来自量化的每一帧数据进行帧内压缩,然后输出压缩结果。
本发明压缩编码方法所压缩的数据的解码方法,包括以下步骤:将压缩的数据解压出来,进行反量化和小波逆变换,根据形状编码中合适的位置修正后输出。
本发明的高清晰视频超强压缩编码方法,具有以下优点:
1、基于对象的压缩
采用对象的概念,针对不同对象的特性采取不同的压缩编码方法,以得到最好的压缩效果。其标准的基本内容就是高效率的编码、组织、存储和传输对象。提高了多媒体系统的灵活性和交互性,更适合于交互式服务和新一代音视频应用系统。
2、高压缩比,
压缩率可以超过200倍,但仍然保持极佳的画质,用最少的数据获得最佳的图像质量,确保红光高清产业化的理论基础。同等压缩数据大小条件下图像效果更好,如比MPEG4效果好。低码流应用(用6-10M BPS实现高清图像压缩,用500K-2M BPS实现标清图像压缩),适合于网络上的应用,可以通过网络传输,满足低带宽需要,对传输错误不敏感。
3、灵活性
可满足各种应用的需求,具有广泛的适应性和可扩展性,可进行时域和空域的扩展。
4、安全特性
越高质量的图像和声音制品带来越重要的版权保护问题。有水印版权保护技术,配合数字内容保护技术使得节目版权和网络播放的安全性得以保障,同时提供给限制播放次数或播放时间的条件播放机构以前无法实现的授权播放功能。
附图说明
图1表示本发明实施例压缩编码方法结构方框图;
图2表示本发明实施例压缩编码方法中对象抠除的图像示意图;
图3表示本发明实施例压缩编码方法中三级小波分解图;
图4表示本发明实施例压缩编码方法中按幅度排序信息的二进制表示。
具体实施方式
参照附图,将详细叙述本发明的具体实施方式。
(压缩编码方法)
视频运动图像由一帧一帧静止图像构成,可用的帧率包括23.98帧/秒,24帧/秒,25帧/秒,29.97帧/秒,30帧/秒,50帧/秒,59.94帧/秒,60帧/秒。
本发明的高清晰视频超强压缩编码方法,其压缩过程的方框图如图1所示,视频信号(一帧一帧的图像)可以分为并行的三路进入编码器:
第一步:将第一路视频信号的每一帧影像等分为若干个块,所述块可以是矩形或菱形的,实践表明,菱形的视频对象形状描述类型,更适于图像分割,对每个块进行小波变换,将空间域转换为频率域,将图像变换到小波域,产生各层、各子带的图像,对视频/图像数据进行特征提取,提取颜色、纹理、运动、帧差、和语义等特征,并且从低频数据到高频数据进行排序。本过程是为以下的处理提供一个基本信息表,为提高运算速度而服务。
第二步:经小波变换的数据送入量化器,在量化器内对视频信号进行量化编码处理,形成多个宏块,量化器将量化好的宏块数据分两路输出,一路进入运动组织编码器,另一路输入反向量化器,将已量化好的宏块数据反向量化,再经小波逆变换,形成可进行数据处理的视频信号。
第三步:将第二步中的输出信号输入预测编码器,在预测编码器中利用小波变换,计算出各宏块之间的相似度,即:基于均匀性标准来确定分割决策,根据第一步中所提取特征将视频数据归类,最后进行相关组合处理,将无组合关联的琐碎象素块丢弃,以实现滤除噪声及准确提取边界,从而实现了对输入视频信号中的对象分离,即:相似度大的多个宏块被认为是一个对象。比如:以纹理作为特征,通过低频带上的分析,把特征相近的宏块描述出来备用;同时通过画面的颜色匹配,把画面分割为不同的区域,将位于这些区域及附近的宏块的纹理特征进行比对,分割出不相近的宏块,组合特征相近的宏块成为对象,并将对象的轮廓细化和滤除躁点。
第四步:将已分离出来的对象信息经预测变化后,记录为预测信号,再将预测信号分两路输出,第一路输出到视频信号输入端,使下一帧的视频信号与该预测信号相减,得到一个剩余信号,即:将下一帧信号中与预测信号相同的地方抠去,使得在下一帧内要储存的信息大大减少,剩余信号的幅度将远远小于原始信号。再将已得到的剩余信号返回第一步,进入同上所述的下一个循环,其中与上面不同的是为了产生新的预测信号,在反向量化器输出端要与上一帧的预测信号输出端进行复合(加运算)后,再进入预测编码器进行下一帧的预测。
在连续的帧中“基本相同”的对象区域内的像素信息将不被后一帧记录,以节省空间并得到更高的压缩比例。正例如上图2中说话的男子,第2到第4帧除了正在移动的嘴部附近画面,其他部分并不一一复制。就可以节省超过70%存储空间。有效的对象分离与预测,会使得视频压缩效率成倍提高。
如果在连续的几个帧中都有相同或相似的由关键点所组成的对象,则可以在后面的几帧中去掉相同的关键点所组成的对象,以便更快的更准确的分离一幅完整的图像。如果当前帧中的对象和随后的图像帧上的对象不同,则可以将现有的对象作为一个宏模型保存,而后面新出现的对象可以作为新的宏以便和后面的图像帧做比较。
第五步:运动组织编码器将来自量化器的量化数据利用常规方法进行帧内压缩。之后将形状编码器输出的轮廓信号以及其他如音频,字幕等数据进行数据复合,完成数据编码,将压缩数据输出。
在上述第四步中,为了使预测编码器所产生的预测信号与下一帧的图像更加近似,即预测更加准确,从而提高压缩率,所以本发明的压缩方法,还采取了以下措施:
(1)将输入的视频信号并行地送入运动估算器,并且在对象分离过程中,保留一个序列中多个帧的组合对象的特征值,为运动估算做参考数据。运动估算是指:利用小波变换分析两个或更多帧上的对象,以判断下一帧中对象可能出现的位置。通过矫正对象在时间轴上的运动矢量,运动预测和运动补偿技术可以去除图像信息中的时间冗余成分,对象的运动信息编码可视为从像素向任意形状的对象的延伸。
利用小波变换具有放大、缩小和平移的数学显微镜的功能来预测宏块中的关键点的之间的关系。可以通过连续的图像帧中相同关键点的变换位置或由关键点组成的基本的对象之间的变换关系,是否满足一些现有的如公式、组合运动规律等,或各帧之间相近或相似,来推测出各帧之间的联系以及之间的运动关系。如果关键点在各个帧中没有规律可以寻找,还可以用模糊预测、穷举预测、材质变化预测以及形体变形预测等方法来预测帧中关键点以及由关键点组成的对象的运动规律。
将运动估算器中所得到的关键点及对象的运动规律输入至预测编码器中,利用小波变换预测得到更加准确的预测信号,从而可以从下一帧中减去更多的数据,从而得到更高的压缩比。
(2)运动估算器中,在一个序列当中,计算相邻帧的帧差,如果图像接近并且样本序列在时间上相关性较强,那么误差信号的幅度将远远小于原始信号,从而可以得到大数据量压缩。这样根据误差信号的幅度,可以用帧差作为压缩相近数据的方法。误差信号相当于小特征的整体变化,如位移增加,或小尺度上的细节对象的变化。帧差较小时优先使用帧差代替对象预测的压缩方法,对象预测的运算结果仍然保留,在后续不适于用帧差描述图象变化的帧中参考使用。
为了使经过以上变化的图像从整体上不失真,所以本发明还采用了以下措施:
第三路输入视频信号并行地送入形状编码器,同时预测编码器将已完成分离的各个对象的信息也输入形状编码器,在所述形状编码器中,将输入视频信号上的对象轮廓关键点以内的数据及颜色均减掉,最终形成一个只有对象轮廓的数据量较小的轮廓信号(保留各个对象的形状和位置信息),该轮廓信号在解码时用来修正最后的图像,提取的形状和位置信息也用来控制对象的运动和纹理编码。
为了进一步减小轮廓信号的量,本发明对于一些比如:圆形,长方形等规则形状或常见形状进行了模型定义,用较少的数据描述特定形状对象的轮廓,形成如图1中的素材库,如果在所述轮廓信号内有已在素材库中定义过的形状,就可以将该形状用素材库中的形状的模型代替。素材库为形状编码提供了良好模型,突出的,为动画片、FLASH等计算机生成的非自然物体提供了较大压缩空间。
以下对上述过程中的一些具体细节进行进一步说明:
(1)在上述第一步中,利用小波变换,提取特征是非常重要的,因为传统的视频对象的编码方式是将整个视频信号作为一个内容单体来处理,其本身不可再分割;而这与人类对视觉信息的判别法则,也就是大脑对视神经导入的视觉信号的处理方法是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来。但现代图像编码理论指出,人眼捕获图像信息的本质是″轮廓—纹理″,即人眼感兴趣的是视频对象的一些表面特性,如形状、运动、纹理等。视频对象的表面往往是不规则的、千变万化的,但可将其视为一定视角下,n个形状规则的、具有一定纹理的剖面(视频对象中的关键点)的组合的连续运动,这些剖面的组合定义为视频对象平面。视频对象平面描述了视频对象在一定视角条件下的表面特性。
编码器输入的是任意形状的视频对象平面,图像平面的形状和位置也可随帧的变化而改变。不同的图像具有不同的象素点的分布,利用小波变换,将图像变换到小波域,产生各层、各子带图像。小波变换是时间和频率的局域变换,能更加有效地提取信号和分析局部信号。
我们利用了小波变换,得到8*8像素矩形形状或菱形形状的图像帧中的各种特征,取得关键点,从而为以下的处理提供了一个基本信息源。
(2)在上述第一步中,对经小波变换得到的块的频率进行排序,便于在后面的步骤中从重要的块到非重要的块进行分析、搜索,从而提高了计算效率。
图3示出三级小波分解图,一副图像经过三级小波分解后形成了十个子带(块),小波系数的分布特点是越往低频子带系数值越大,包含的图像信息越多,即关键点,如图3中的LL3子带。而越往高频子带系数值越小,包含的图像信息越少,即非关键点。就是在数值相同的情况下,由于低频子带反映的是图像的低频信息,对视觉比较重要,而高频子带反映的是图像的高频信息,对视觉来说不太重要。这样对相同数值的系数选择先传较低频的系数的重要比特,后传输较高频系数的重要比特。因此,小波变换可将待编码的比特流按重要性的不同进行排序,根据目标码率或失真度大小要求随时结束编码;同样,对于给定码流解码器也能够随时结束解码,并可以得到相应码流截断处的目标码率的恢复图像。首先传输的是最重要的信息,也就是幅值最大的变换系数的位信息。
图4显示了一个幅度值由大到小排序后的变换系数的二进制列表。表中每一列代表一个变换系数的二进制表示,每一行代表一层位平面,最上层为符号位,越高层的位平面的信息权重越大,对于编码也越重要。编码的次序是从最重要的位(最高位)到最不重要的位(最低位)逐个发送,直到达到所需码率后停止。以上的编码方法称为内嵌编码。
这样利用小波变换将图像分为重要的和不重要的信息,将该图像内的各个像素点进行重要性排序,再对排序后的像素点进行搜索,在上述第三步中,利用分离原则对其进行归类及相关性处理,从而能快速地将图像内相关性较大的宏块归为一个对象,所分离出的对象也会是按重要性来排序的,利用分离出的对象再进一步进行对下一帧的预测,从而可以很快地将重要的对象加入到预测信号内,从而大大提高了预测的效率。
在具体的压缩方法中,用到以下定义:
集合定义:LIS-不重要系数集合列表,用最低频子带系数初始化(如三级分解中的LL3)。
LSP-重要系数列表,存放重要系数以便进一步量化。
集合S-放置待处理的块,用最低频子带系数初始化(如三级分解中的LL3)。
集合I-放置除了S之外的剩余块集合,I=X-S,X是所有块的集合。
块:相应小波分解的每一个子带定义一个相应的块。块可以是只包含单个元素,如8*8系数阵经过三级分解后对应的LL3、HL3、LH3和HH3都只包含一个元素。一般一个块中包含22N(N=0,1,2,…,n)个元素,其中,n-1是小波分解的层数。
对于只包含一个元素的块,若重要则把它转到LSP中,以便进行进一步量化。对于包含2N×2N个元素的块,如果是不重要的,可以只用一个符号表示它。对于重要的块,则要等分为四个子块,然后从上到下、从左到右对各个子块进行重要性判断,对重要的子块继续分解,如此重复直到找出块中所有的重要系数,并把它转到LSP表中,以便进一步量化。
对各个块的处理顺序是从低频块(子带)依次到高频块(子带)。具体实现中,采用倍频分裂的方法,来决定各块扫描顺序。初始化时集合X由所有块构成,集合S是由最低频块(如LL3)来初始化,而剩余集合I=X-S。集合I依次分解出三个最低频的块(如HL3,LH3,HH3)和剩余集合I。然后对剩余集合I再进行一次分裂,分解出三个次最低频的块(如HL2,LH2,HH2),如此重复直到把所有的块分裂出来,直到剩余集合I变为空集。这样就可以把各个块依次排列,重要图扫描就是以此顺序来进行。
(3)在上述第二步的量化过程中,具体过程如下
首先,每一帧影像被在每一步的小波变换中已被分割成许多8*8像素的矩形或菱形像块,(也可以被分割成16*16像素,或者分割成16的倍数等像素大小的像块,分割的大小可以不定,但是块的个数不能大于65536个,)而这些二维变换系数再以8*8的量化矩阵进行量化处理,由于原本的值在进行量化后,无法再完整地反转回去,因此这个量化处理过程会造成一些影像的失真。一般而言,高频部份的变换分量系数会比低频部份变换分量系数有较小的值,由于人的视力对影像之高频部份较不敏感,因此在经过量化处理的工作后,会使得变换系数的高频部份产生许多的零值。变换的最大特点是对于一般的图像都能够将像块的能量集中于少数低频变换系数上,即生成8*8变换系数块中,仅少量低频系数数值较大,其余系数的数值很小,这样就可能只编码和传输少数系数,而不严重影响图像质量。
之后进行量化处理,量化是针对变换变换系数进行的,量化过程就是以某个量化步长去除变换系数。量化步长的大小称为量化精度,量化步长越小,量化精度就越细,包含的信息越多,但所需的传输频带越高。不同的变换系数对人类视觉感应的重要性是不同的,因此编码器根据视觉感应准则,对一个8*8的变换块中的64个变换系数采用不同的量化精度,以保证尽可能多地包含特定的变换空间频率信息,又使量化精度不超过需要。变换系数中,低频系数对视觉感应的重要性较高,因此分配的量化精度较细;高频系数对视觉感应的重要性较低,分配的量化精度较粗,通常情况下,一个变换块中的大多数高频系数量化后都会变为零。为了提高码率控制的能力,量化步长的变化的幅度控制在12.5%左右,而不是以不变的增幅变化。变换系数幅度的归一化被放在反量化过程中处理,以减少计算的复杂性。为了强调彩色的逼真性,对色度系数采用了较小量化步长。
具体而言,在编码过程采用了逐次逼近的量化方法。按顺序使用了一系列阈值T0、T1,---,TN-1来判决重要性,其中Ti=Ti-1/2,初始阈值T0按如下条件选择,|Xj|<2T0,其中Xj表示所有变换系数。
在编码过程中,始终保持着两个分离的列表:主表和辅表。主表对应于编码中的不重要的集合或系数,其输出信息起到了恢复各重要值的空间位置结构的作用,而辅表是编码的有效信息,输出为各重要系数的二进制值。编码分为主、辅两个过程:在主过程中,设定阈值为Ti,按上述原理对主表进行扫描编码,若是重要系数,则将其幅值加入辅表中,然后将该系数在数组中置为零,这样当阈值减小时,该系数不会影响新零树的出现;在辅过程中,对辅表中的重要系数进行细化,细化过程类似于比特平面编码。对阈值Ti来说,重要系数的所在区间为[Ti,2Ti],若辅表中的重要系数位于[Ti,3Ti/2],则用符号“0”表示,否则用符号“1”表示。编码在两个过程中交替进行,在每个主过程前将阈值减半。解码时系数的重构值可以位于不确定区间的任意处,实际中为简单起见使用区间的中心作为重构值。
(4)在上述第二步中,反量化过程重建了用于预测的简化过的参考图像,是将在压缩过程中经过变换后的频率系数还原出来,使用影像中8*8的量化表和还原后的二维变换系数矩阵进行矩阵相乘的运算来进行反量化。然后进行小波逆变换。小波逆变换的输入是8*8个分量系数,输出则是8*8个像素点。此转换把影像由频率定义域转换到空间定义域像素点的值(即:宏块)。
(5)在上述第三步中,对象运动的预测方法
预测方法大都可以归纳到下面的三种方法中去。
对象运动我们通常用单帧预测编码、帧间预测编码和多帧预测编码等方法来预测。
在单帧预测中,在给定帧中充分利用相邻宏块的空间相关性,相邻的宏块通常含有相似的属性。因此,在对一给定宏块编码时,首先可以根据周围的宏块预测,然后对预测值与实际值的差值进行编码,这样,相对于直接对该帧编码而言,可以大大减小码率。如静止图像或活动很慢的图像就可以利用单帧预测编码对图像对象进行运动预测。
采用预测编码的方法消除序列图像在时间上的相关性,即不直接传送当前帧的像素值,而是传送x和其前一帧或后一帧的对应像素x’之间的差值,这称为帧间预测。帧间预测编码是通过小波变换计算视频图像帧间的相关性,即时间相关性,来达到图像压缩的目的。由时间上以帧周期为间隔的连续图像帧组成的时间图像序列为活动图像,它在时间上比在空间上具有更大的相关性。图像相邻帧间细节变化是很小的,即视频图像帧间具有很强的相关性,利用帧所具有的相关性的特点进行帧间编码,可获得比帧内编码高得多的压缩比。当各帧之间只有相同或相近的关键点组成的宏块在变换,其它的象素点没有太大的变化,我们可以只记录关键点的变化,而将没有太大变化的认为是静止的。
利用小波变换将图像分解成相对静止的背景和若干运动的物体,各个物体可能有不同的位移,但构成每个物体的所有像素的位移相同,通过运动估值得到每个物体的位移矢量;然后,利用位移矢量计算经运动补偿后的预测值。在帧间预测中引入运动补偿的目的是为了减少预测误差,从而提高编码效率。使恢复的内插帧中的运动物体不致因为内插而引起太大的图像质量下降。这是由于在丢弃帧内没有传送任何信息,要确定运动物体在丢弃帧中的位置必须知道该物体的运动速度。运动估值的不准确,将导致内插出来的丢弃帧图像的失真。另外,在帧间内插中的位移估值一般要对运动区的每一个像素进行,而不是对一个子块;否则,内插同样会引起运动物体边界的模糊。在活动图像的帧间内插编码是在系统发送端每隔一段时间丢弃一帧或几帧图像,而在接收端再利用图像的帧间相关性将丢弃的帧通过内插恢复出来,以防止帧率下降引起闪烁和动作不连续。多帧预测编码就是前两种的上一种结合体,根据输入的图像的不同采用不同的方式,将前两种方式的互相补充。使得运动的对象预测更准确。
(6)在上述第四步中,如果无法从如帧差等方法进行对下一帧的有效预测,则需要对预测信号与输入视频信号进行匹配,从而从输入视频信号中抠除已有的对象。在上述匹配的过程中,可以采用以下步骤:
(a)用小波基函数对目标论域中的预测信号的变换值提取不同尺度下图像的特征信息。(b)采用与步骤(a)相同的方法对输入信号进行处理,得出相应小波变换的图像特征信息。(c)获取输入信号的旋转校正角,并对输入信号进行相应的旋转。(d)定义输入信号相对的隶属函数,并分别设置比较轮廓(和比较不同细节)时的阈值。(e)若有必要,进一步比较输入信号与候选目标在水平、垂直、对角不同方向的细节分量。(f)确定图像轮廓和图像细节在最终识别结果中的加权因子。(g)计算识辨结果,根据最大值原理确定最后识别结果。
(7)水印版权保护,本发明在用小波变换处理各帧的图像时可以内嵌入水印,以保护版权。
水印的嵌入:
1)确定水印的嵌入位置。根据小波系数绝对值对高频子带的小波系数进行排序(降序),选择前X×Y个小波系数Q(i)(i=1,2,…,X×Y),形成嵌入水印序列W′(i)的小波系数序列。同时,得到序列K(K(i)=(xi,yi),其中xi,yi代表Q(i)所在的位置)。
2)对X×Y的灰度水印图像W置乱,得到新的水印图像W′,即序列W′(i),i=1,2,…,X×Y。
3)调整嵌入强度α(用于调整水印的强度),并根据α自适应地嵌入水印图像W′。其中,嵌入公式为:Q′(i)=Q(i)+αW′(i)
水印的提取:
首先,将水印化的彩色图像进行色彩空间的转化,提取它们的Y分量,并作自适应离散小波变换,得到各自的子带。然后根据之前的序列K和嵌入水印的公式,提取出水印的相应信号。若提取的数值大部分都大于某个阈值时(如0.5),则可推出水印不存在;若存在,对提取的水印图像做反置乱变换就可以得到恢复的水印图像。
通常定义ρ为相似度,来衡量提取的水印P′和原始水印P之间的相似程度ρ为
本方法分利用了自适应小波的优点和人眼的视觉特性,同时,利用混合置乱算法对水印进行处理,使得算法有很强的隐蔽性,而且嵌入的水印具有很好的鲁棒性,实验证明该算法具有很好的抗噪声干扰、裁减、旋转压缩等优良性能。而且算法安全、易于实现。以上水印以象素点形式存储于图像中,使得图像变换对水印影响不大,改变了以往水印只能以非图像数据形式存储于码流中,一经变换即消失的情况。
(解码方法及解码器)
对以上编码完成的数据进行解码,解码复杂度远远低于编码,只要把压缩的数据解压出来(此处针对运动组织编码器的帧内压缩进行解压),进行反量化和小波逆变换,根据形状编码中合适的位置修正后输出就可以了。
通常基于速度的要求,解码器都以硬件化的形式出现,视频解码器可以是芯片,也可以是软件。
Claims (11)
1、一种高清晰视频超强压缩编码方法,包括以下步骤:
(1)将输入视频信号的每一帧影像分为多个块,对每个块进行小波变换,将空间域转换为频率域,对视频数据进行特征提取,并且从低频数据到高频数据进行排序;
(2)将上一步输出的信号送入量化器,在量化器内对视频信号进行量化处理;
(3)量化器将量化好的数据分两路输出,一路进入运动组织编码器,另一路输入反向量化器及小波逆变换,将已量化好的数据反向量化和小波逆变换,形成可进行数据处理的多个宏块;
(4)将上一步的输出信号输入预测编码器,在预测编码器中利用小波变换,计算出各宏块之间的相似度,将处理的视频信号分离为多个对象,应用已分离的对象对下一帧的图像进行预测,得到预测信号;
(5)再将预测信号输出到视频信号输入端,将下一帧视频信号中与预测信号相同的地方抠去,得到一个剩余信号,将该剩余信号作为第(1)步中的视频信号重复第(1)步的过程,其中与上面不同的是为了产生新的预测信号,在剩余信号进入预测编码器之前,应与上一帧的预测信号输出端进行复合后,再进入预测编码器进行下一帧的预测;
(6)运动组织编码器对来自量化的每一帧数据进行帧内压缩,然后输出压缩结果。
2、根据权利要求1所述的高清晰视频超强压缩编码方法,其特征在于,还包括以下步骤:输入视频信号并行地送入形状编码器,同时预测编码器将已完成分离的各个对象的信息也输入形状编码器,在所述形状编码器中,将输入视频信号上的对象轮廓关键点以内的数据及颜色均减掉,最终形成一个只有对象轮廓的数据量较小的轮廓信号。
3、根据权利要求2所述的高清晰视频超强压缩编码方法,其特征在于,在第(1)步中,首先每一帧影像被等分成许多矩形或菱形像块。
4、根据权利要求3所述的高清晰视频超强压缩编码方法,其特征在于,在第(2)步中的量化处理指:二维变换系数以所述像块大小的量化矩阵进行量化处理,量化过程就是以量化步长去除变换系数,量化步长的大小称为量化精度,对每个像块的变换块中的多个变换系数采用不同的量化精度,低频系数分配的量化精度较细;高频系数量化精度较粗,对色度系数采用了较小量化步长。
5、根据权利要求4所述的高清晰视频超强压缩编码方法,其特征在于,所述量化步长的变化的幅度控制在12.5%左右。
6、根据权利要求3所述的高清晰视频超强压缩编码方法,其特征在于,还包括以下步骤:
将第(1)步中的输入视频信号并行地送入运动估算器,并且在第(5)步中的对象分离过程中,保留一个序列中多个帧的组合对象的特征值,在运动估算器中,利用小波变换分析两个或更多帧上的对象,通过矫正对象在时间轴上的运动矢量,推测出各帧之间的联系以及之间的运动关系,将该运动关系输入预测编码器中,利用小波变换预测得到更加准确的预测信号。
7、根据权利要求6所述的高清晰视频超强压缩编码方法,其特征在于,运动估算器中,在一个序列当中,计算相邻帧的帧差,如果图像接近并且样本序列在时间上相关性较强,根据误差信号的幅度,可以用帧差作为压缩相近数据的方法。
8、根据权利要求7所述的高清晰视频超强压缩编码方法,其特征在于,在本方法中建立了一个素材库,在所述素材库中存有形状模型,如果在所述轮廓信号内有已在素材库中定义过的形状,就可以将该形状用素材库中的形状模型代替。
9、根据权利要求1到8任一所述的高清晰视频超强压缩编码方法,其特征在于,在用小波变换处理各帧的图像时,内嵌入水印的方法为:
1)确定水印的嵌入位置。根据小波系数绝对值对高频子带的小波系数进行排序,选择最高的前X×Y个小波系数Q(i),其中:i=1,2,…,X×Y,形成嵌入水印序列W′(i)的小波系数序列。同时,得到序列K:K(i)=(xi,yi),其中xi,yi代表Q(i)所在的位置。
2)对X×Y的灰度水印图像W置乱,得到新的水印图像W′,即序列W′(i),i=1,2,…,X×Y。
3)调整嵌入强度α(用于调整水印的强度),并根据α自适应地嵌入水印图像W′。其中,嵌入公式为:Q′(i)=Q(i)+αW′(i)
10、根据权利要求9所述的高清晰视频超强压缩编码方法,其特征在于,将上述水印的提取的方法为:
首先,将水印化的彩色图像进行色彩空间的转化,提取它们的Y分量,并作自适应离散小波变换,得到各自的子带;然后根据上述的序列K和嵌入水印的公式,提取出水印的相应信号;若提取的数值大部分都大于某个阈值时,则可推出水印不存在;若存在,对提取的水印图像做反置乱变换就可以得到恢复的水印图像。
11、如权利要求2至10任一所述的压缩编码方法所压缩的数据的解码方法,包括以下步骤:将压缩的数据解压出来,进行反量化和小波逆变换,根据形状编码中合适的位置修正后输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410096712 CN1784008B (zh) | 2004-12-02 | 2004-12-02 | 高清晰视频超强压缩编码方法及解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410096712 CN1784008B (zh) | 2004-12-02 | 2004-12-02 | 高清晰视频超强压缩编码方法及解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1784008A true CN1784008A (zh) | 2006-06-07 |
CN1784008B CN1784008B (zh) | 2010-04-28 |
Family
ID=36773685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410096712 Expired - Fee Related CN1784008B (zh) | 2004-12-02 | 2004-12-02 | 高清晰视频超强压缩编码方法及解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1784008B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101237577B (zh) * | 2007-01-31 | 2011-09-07 | 索尼株式会社 | 信息处理设备和方法 |
CN101676953B (zh) * | 2008-08-22 | 2012-08-29 | 奥多比公司 | 自动视频图像分割 |
CN101676949B (zh) * | 2008-09-19 | 2012-09-19 | 深圳富泰宏精密工业有限公司 | 水印信息移除系统及方法 |
CN102903078A (zh) * | 2012-07-13 | 2013-01-30 | 南京大学 | 一种基于多分辨率傅里叶分析理论的运动模糊图像参数估计方法 |
CN101998125B (zh) * | 2009-08-19 | 2013-12-25 | 宏碁股份有限公司 | 图像文档传输系统及其方法 |
CN103826123A (zh) * | 2014-03-04 | 2014-05-28 | 无锡海之量软件科技有限公司 | 面向对象的视频控制流的编码及传输方法 |
CN104683660A (zh) * | 2015-01-29 | 2015-06-03 | 乐视网信息技术(北京)股份有限公司 | 一种视频去噪方法及装置 |
CN105681787A (zh) * | 2016-01-22 | 2016-06-15 | 北京大学 | 对时空信号进行编码的方法和装置 |
CN110780780A (zh) * | 2019-09-04 | 2020-02-11 | 西安万像电子科技有限公司 | 图像处理方法及装置 |
CN111464187A (zh) * | 2020-04-17 | 2020-07-28 | 北京百瑞互联技术有限公司 | 一种主机控制接口命令事件编码方法 |
US10893300B2 (en) | 2015-05-29 | 2021-01-12 | SZ DJI Technology Co., Ltd. | System and method for video processing |
CN112565776A (zh) * | 2021-02-25 | 2021-03-26 | 北京城建设计发展集团股份有限公司 | 一种视频转码压缩方法及系统 |
US11800098B2 (en) | 2016-01-22 | 2023-10-24 | Spike Vision (Beijing) Technology Co., Ltd. | Imaging method and device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112014010966A2 (pt) | 2011-11-08 | 2017-06-06 | Samsung Electronics Co Ltd | método para determinar vetor de movimento para previsão inter, aparelho determinador de vetor de movimento para previsão inter, e mídia de gravação legível por computador |
-
2004
- 2004-12-02 CN CN 200410096712 patent/CN1784008B/zh not_active Expired - Fee Related
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8107755B2 (en) | 2007-01-31 | 2012-01-31 | Sony Corporation | Information processing apparatus and method |
CN101237577B (zh) * | 2007-01-31 | 2011-09-07 | 索尼株式会社 | 信息处理设备和方法 |
CN101676953B (zh) * | 2008-08-22 | 2012-08-29 | 奥多比公司 | 自动视频图像分割 |
CN101676949B (zh) * | 2008-09-19 | 2012-09-19 | 深圳富泰宏精密工业有限公司 | 水印信息移除系统及方法 |
CN101998125B (zh) * | 2009-08-19 | 2013-12-25 | 宏碁股份有限公司 | 图像文档传输系统及其方法 |
CN102903078B (zh) * | 2012-07-13 | 2015-10-14 | 南京大学 | 一种基于多分辨率傅里叶分析理论的运动模糊图像参数估计方法 |
CN102903078A (zh) * | 2012-07-13 | 2013-01-30 | 南京大学 | 一种基于多分辨率傅里叶分析理论的运动模糊图像参数估计方法 |
CN103826123B (zh) * | 2014-03-04 | 2017-01-18 | 无锡海之量软件科技有限公司 | 面向对象的视频控制流的编码及传输方法 |
CN103826123A (zh) * | 2014-03-04 | 2014-05-28 | 无锡海之量软件科技有限公司 | 面向对象的视频控制流的编码及传输方法 |
CN104683660A (zh) * | 2015-01-29 | 2015-06-03 | 乐视网信息技术(北京)股份有限公司 | 一种视频去噪方法及装置 |
US10893300B2 (en) | 2015-05-29 | 2021-01-12 | SZ DJI Technology Co., Ltd. | System and method for video processing |
CN105681787A (zh) * | 2016-01-22 | 2016-06-15 | 北京大学 | 对时空信号进行编码的方法和装置 |
WO2017125086A1 (zh) * | 2016-01-22 | 2017-07-27 | 北京大学 | 对时空信号进行编码的方法和装置 |
CN105681787B (zh) * | 2016-01-22 | 2019-01-18 | 北京大学 | 对时空信号进行编码的方法和装置 |
US10523972B2 (en) | 2016-01-22 | 2019-12-31 | Peking University | Method and device for encoding space-time signals |
US11800098B2 (en) | 2016-01-22 | 2023-10-24 | Spike Vision (Beijing) Technology Co., Ltd. | Imaging method and device |
CN110780780A (zh) * | 2019-09-04 | 2020-02-11 | 西安万像电子科技有限公司 | 图像处理方法及装置 |
CN110780780B (zh) * | 2019-09-04 | 2022-03-22 | 西安万像电子科技有限公司 | 图像处理方法及装置 |
CN111464187B (zh) * | 2020-04-17 | 2023-04-28 | 北京百瑞互联技术有限公司 | 一种主机控制接口命令事件编码方法、存储介质及计算机设备 |
CN111464187A (zh) * | 2020-04-17 | 2020-07-28 | 北京百瑞互联技术有限公司 | 一种主机控制接口命令事件编码方法 |
CN112565776A (zh) * | 2021-02-25 | 2021-03-26 | 北京城建设计发展集团股份有限公司 | 一种视频转码压缩方法及系统 |
CN112565776B (zh) * | 2021-02-25 | 2021-07-20 | 北京城建设计发展集团股份有限公司 | 一种视频转码压缩方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN1784008B (zh) | 2010-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1215439C (zh) | 执行可缩放的分层运动估算的装置与方法 | |
CN1125409C (zh) | 使用可变块尺寸的分层运动估算装置和方法 | |
CN1232123C (zh) | 用于精细可伸缩性增强层的基于活动的频率加权方法及系统 | |
CN1784008A (zh) | 高清晰视频超强压缩编码方法及解码方法 | |
CN1251508C (zh) | 图像编码装置和图像解码装置 | |
CN1968419A (zh) | 利用人类视觉特性对图像进行编码及解码的方法和设备 | |
JP5166435B2 (ja) | 画像符号化方法及び係る方法を実現する装置 | |
US7162095B2 (en) | Method of automatically determining the region of interest from an image | |
CN1127562A (zh) | 视频信号编码方法及设备和视频信号译码设备 | |
CN1802667A (zh) | 用于视频压缩的基于超完备基变换的运动残余帧编码方法和装置 | |
CN1437408A (zh) | 考虑人类视觉特征的图像编码和解码方法及装置 | |
CN1640147A (zh) | 小波域半像素运动补偿 | |
CN1211146A (zh) | 图象压缩 | |
CN1914926A (zh) | 运动图像编码方法和设备以及运动图像解码方法和设备 | |
CN101044764A (zh) | 视频图像的分级编码方法 | |
Babel et al. | Interleaved S+ P pyramidal decomposition with refined prediction model | |
CN1816146A (zh) | 一种视频数据压缩中的运动矢量估计方法 | |
CN1809166A (zh) | 图像编码和解码装置及其方法 | |
Singh et al. | JPEG2000: A review and its performance comparison with JPEG | |
Mhedhbi et al. | Mask motion adaptive medical image coding | |
CN1585486A (zh) | 基于时空自适应预测的无损视频压缩方法 | |
Martínez-Rach et al. | Optimizing the image R/D coding performance by tuning quantization parameters | |
Babel et al. | Lossless and lossy minimal redundancy pyramidal decomposition for scalable image compression technique | |
Baudry et al. | Adaptive video fingerprints for accurate temporal registration | |
CN1843035A (zh) | 使用预解码器的可伸缩视频编码方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100428 Termination date: 20101202 |