CN100502507C - 视频数据压缩编码方法 - Google Patents

视频数据压缩编码方法 Download PDF

Info

Publication number
CN100502507C
CN100502507C CN 200610053395 CN200610053395A CN100502507C CN 100502507 C CN100502507 C CN 100502507C CN 200610053395 CN200610053395 CN 200610053395 CN 200610053395 A CN200610053395 A CN 200610053395A CN 100502507 C CN100502507 C CN 100502507C
Authority
CN
China
Prior art keywords
vector
dimension
coefficient
groups
component analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200610053395
Other languages
English (en)
Other versions
CN1921627A (zh
Inventor
庄越挺
姚蕾
吴飞
刘健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 200610053395 priority Critical patent/CN100502507C/zh
Publication of CN1921627A publication Critical patent/CN1921627A/zh
Application granted granted Critical
Publication of CN100502507C publication Critical patent/CN100502507C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种视频数据的压缩编码方法。视频的原始图像序列经过运动预测和补偿后得到残差,将残差映射到向量空间,然后通过主成分分析算法对向量进行初步降维,再采用广义主成分分析算法对降维后的系数进行分组,最后用主成分分析算法对每一组系数进行再次降维。视频压缩编码的输出就是这一过程中产生的线性空间的基、向量在主成分分析中的系数、向量集的平均向量以及运动预测中得到的运动向量等。该方法对视频数据具有较好压缩效率,重建后的视频能达到较好的图像质量。同时,本发明通过舍弃线性空间中相对不重要的基向量和系数的方法来实现视频数据的信噪比可扩展性,在数据量保留较少的情况下重建的视频也能达到良好的视觉效果。

Description

视频数据压缩编码方法
技术领域
本发明涉及视频及多媒体数据处理领域,尤其涉及一种视频数据压缩编码方法。
背景技术
视频编码框架都具有相似的功能模块,如运动预测用于消除时间冗余,变换用于消除空间冗余,量化用于控制比特率,熵编码用于降低统计冗余等。基于块的预测和变换编码(即混合编码)已成为目前视频压缩编码的主流,运动预测补偿和离散余弦变换(DCT)在各种编码标准中被广泛采用,如MPEG、ITU-T和H.264/AVC。H.264复杂的运动预测技术使它的视频压缩效率比以往所有的标准都高。它的运动预测技术允许多种块大小和多种预测模式,消除了视频图像序列中绝大部分的帧间冗余和帧内冗余。而今要进一步提高视频编码的效率变得十分困难。
DCT变换源自傅利叶变换。它将图像转换到频域中,并表示为一组基函数的叠加。这些基函数是固定的,不能随图像内容的变化而适应性地调整。而且傅利叶变换有吉伯斯现象,也意味着DCT变换不能很好得表达图像信号中的不连续部分。
近年来计算机视觉和图像处理中的技术在视频编码中得到了应用。IEEE1995年论文集(“Region-based video coding using mathematical morphology”,Proc.IEEE,vol.83,no.6,pp.843-857,Jun.1995.)公布的基于区域分割的编码方法将图像分割成纹理类似的区域,通过记录区域的形状和对纹理建模能够达到很高的编码效率。ACM Multimedia 2005(“An Object—based Video Coding Framework for Video Sequences Obtained From Static Cameras”,ACMMultimedia’05 Singapore)公布的基于对象的编码方法尝试理解视频中的语义内容,然后用主成分分析算法(PCA)进行对象建模,如对视频中的人脸进行建模。但是这些方法还未发展成熟,并且其适用领域受到严格的限制。
PCA算法通过降低样本空间的维数来达到压缩数据的目的,同时也表达了样本的一种模式。它用样本所属线性空间的一组基的加权叠加来表达原始图像中的样本数据。与DCT变换相比,PCA算法构建的线性空间是根据图像本身的信息来确定的,有一定的自适应性。但是PCA算法只有当样本数据符合单分布模型时才能达到比较高的压缩效率,而绝大部分的图像和视频的样本数据的分布都很复杂,单模型并不适用。因此这种数据压缩方法不能直接用于视频编码。
IEEE计算机视觉和模式识别会议2003年论文集(“Generalized Principal ComponentAnalysis(GPCA)”,Proceedings of the 2003 IEEE Computer Society Conference on ComputerVision and Pattern Recognition(CVPR’03)1063-6919/03,2003 IEEE)公布的广义主成分分析算法(Generalized Principle Component Analysis,GPCA)用代数几何的方法解决了从样本数据中估计多个线性子空间的问题。这种方法在运动分割,图像分割,数据压缩等领域都能得到应用。2005年国际计算机视觉大会(“A Multi-Scale Hybrid Linear Model for Lossy ImageRepresentation”,ICCV 2005:764-771)公布的结合GPCA算法的多尺度图像压缩方法达到了比小波变换更好的效果。它采用混合线性模型对图像数据进行建模。在不知道子空间个数和维数的情况下,用GPCA算法估计子空间的个数,然后对每个子空间的样本数据再用PCA算法进行建模。
可扩展性编码是将视频数据压缩成由基本层和增强层组成的多个码流的技术。基本层可以独立解码,增强层能与基本层和它以前的增强层一起解码,以提高视频的图像质量。增强层可根据需要被截断,来适应网络带宽的变化。可扩展性包括空间可扩展性、时间可扩展性和信噪比(SNR)可扩展性。SNR可扩展性是通过改变量化阶来达到分层编码的目的。MPEG4标准中公布的精细可伸缩性(FGS)也是一种信噪比可扩展性。它通过对增强层的系数按比特位的重要程度来编码实现码率接近连续的变化,其缺点是编码的开销较大。
发明内容
本发明的目的是克服了计算机视觉中区域分割和对象分割算法复杂和适用范围窄的缺点,提供一种视频数据压缩编码方法。
本方法包括以下步骤:
(1)将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量集;
(2)用主成分分析算法(PCA)对向量集进行初步的降维,并用降维后线性空间的一组基和向量集的系数来表示向量集;
(3)用广义主成分分析算法(GPCA)对步骤(2)中得到的向量集的系数进行分组,得到多个向量组;向量集的系数进行分组,得到多个向量组;
(4)对步骤(3)中得到的多个向量组用主成分分析算法降维,并用每个向量组的平均向量、向量组所在线性空间的一组基和向量组的系数表示向量组;
(5)通过舍弃线性空间部分基和向量组的系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性。
所述将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量集,其转换形式有如下三种:
(1)将图像划分为l×m的窗口,l为窗口高度,m为窗口宽度,把窗口内各颜色分量的采样值置于同一向量中,则窗口内像素的颜色值组成D维的向量,那么图像帧Frame可以表示为:
Frame={xi∈RD,i=1,…,N},D=c1+c2+c3,N=W×H/(l×m)
其中W×H为原图像的大小,c1,c2,c3分别为窗口中各颜色分量的采样个数,xi为向量集中第i个向量,D为向量维数,RD为D维实向量空间,N为向量个数;
(2)将图像的各颜色分量置于不同的向量中,对每一个颜色分量均取l×m个相邻的采样值,即水平和垂直方向采样个数分别为m和l,则每个颜色分量构成一个D维的向量集,图像帧Frame可以表示为:
Frame={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4},
v_vectors={xi∈RD,i=1,…,N/4}
D=l×m,N=W×H/D,
其中W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma)和两个色度分量(Cb/Cr)构成的向量集,xi为向量集中第i个向量,D为向量的维数,RD为D维实向量空间,N为亮度分量的向量个数,N/4为色度分量的向量个数。
用主成分分析算法对向量集进行初步的降维,并用降维后线性空间的一组基和向量集的系数来表示向量集:是将步骤(1)中得到的向量集X={xi∈RD,i=1,…,N}中模小于预设阈值ε的向量用零向量表示,并用N维的二值向量mask记录这些向量在向量集X中的位置,即当‖xi‖<ε,mask(i)=0,当‖xi‖≥ε,mask(i)=1,将向量集合中mask(i)=1的子集 X 1 = { x i x i &prime; , i = 1 , . . . , n } 减去平均向量x得到ΔX,ΔX进行奇异值分解得到ΔX=USVT,从ΔX的奇异值分解中可以获得线性空间的基和向量的系数,设线性空间的维数为d,ΔX的维数为D,其中R代表实数,Rd×D是d×D维实矩阵空间,向量的系数为C∈Rd×n,其计算方法如下:
x &OverBar; = 1 n &Sigma; i = 1 n xx i &prime; ,
&Delta;X = { x i x i &prime; - x &OverBar; , i = 1 , &CenterDot; &CenterDot; &CenterDot; , n } ,
S=diagonal(α1,α2,…,αD),
d = min k = 1 , &CenterDot; &CenterDot; &CenterDot; , D - 1 ( &Sigma; i = k + 1 D &alpha; i 2 < &epsiv; ) ,
B=U(:,1:d)T
C=S(1:d,1:d)VT(1:d,:)
其中S为对角矩阵,{αi,i=1,…,D}是S对角线上的元素,U、S、V是ΔX进行奇异值分解的结果,
Figure C200610053395D00075
为步骤(1)中所得向量集X的子集X1中的第i个向量,n为向量集X1中的向量个数,D为ΔX的维数,视频残差的向量表示X可以表示为X=B+C+x,由B,C,x和mask可以重建残差数据。
用广义主成分分析算法对步骤(2)中得到的向量集的系数进行分组,得到多个向量组:是用广义主成分分析算法将步骤(2)得到的系数中的样本向量映射到m个不同的线性子空间,设步骤(2)所得系数中的样本向量为C={ci∈Rd,i=1,2,...,n},其中ci为步骤(2)所得系数中的第i个样本向量,d为步骤(2)所得系数中的样本向量的维数,n为步骤(2)所得系数中的样本向量的个数,Rd为d维实向量空间,分组的结果为:
G = { g i &Element; R d &times; m i , i = 1 , &CenterDot; &CenterDot; &CenterDot; , m } , &Sigma; i = 1 m m i = n ,
其中gi为第i个分组,或称为第i个子空间,mi为属于第i个子空间的向量个数,保留样本向量所属子空间的标签sambleLabel,即若向量ci∈gj,则sambleLabeli=j,其中ci为步骤(2)所得系数中的第i个样本向量,gj为对步骤(2)所得系数中的样本向量进行分组得到的第j个分组,sampleLabel是一个向量,sambleLabeli是向量sampleLabel的第i个元素,广义主成分分析算法为样本数据建立混合线性模型,每组向量对应一个线性子空间,这样属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,通过这种方法,不需要复杂的计算机视觉技术也可达到一定的图像分割效果。
对步骤(3)中得到的多个向量组用主成分分析算法降维,并用每个向量组的平均向量、向量组所在线性空间的一组基和向量组的系数表示向量组:是对步骤(3)的分组结果中的每一个向量组gi采用主成分分析算法进行降维,并用向量组的平均向量
Figure C200610053395D00083
向量组所在线性空间的一组基 B g i &Element; R sd i &times; d 和向量组的系数 C g i &Element; R sd i &times; m i 表示该向量组,其中sdi是向量组gi所在线性空间的维数,所以视频残差的向量表示X可以进一步表示成为: X = B + { B g i + C g i + x g i &OverBar; } + x &OverBar; , 总的系数个数Count包括所有线性空间的基,向量在主成分分析中的系数和每个向量组的平均向量,其计算方法为:
Count = d &times; D + &Sigma; i = 1 m ( sd i &times; ( m i + d ) + d ) + D - - - 5
其中D为原向量集合的向量维数,d为原向量集经过主成分分析后得到的线性子空间的维数,sdi为向量组gi所在线性空间的维数,X的所有系数个数为N×D,当N远大于D时,在Count中基和平均向量系数的数量只占很小的比例。
通过舍弃线性空间部分基和向量组的系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性:是指通过降低向量组 g i &Element; R d &times; m i 所在线性空间的维数来减少视频的数据量,其中d为向量组gi降维之前的维数,mi为向量组gi中的向量个数,向量组gi经主成分分析算法降维后可表示为
Figure C200610053395D00091
其中 B g i &Element; R sd i &times; d 为线性空间的基, C g i &Element; R sd i &times; m i 为向量组经主成分分析后得到的系数,
Figure C200610053395D00094
为向量组gi的平均向量,sdi为该线性空间的维数,若线性空间只保留sdi-Δd维,其中Δd为线性空间舍弃的维数,则系数将减少Δd×(d+mi),原向量组可以近似地表示为: g i &prime; = B g i ( 1 : ( sd i - &Delta;d ) , : ) + C g i ( 1 : ( sd i - &Delta;d ) , : ) + x g i &OverBar; , 在重建视频残差时,用gi′代替gi作为输入,因为每个向量组经主成分分析算法降维后得到的线性空间维数可能是不同的,所以可以设定一个维数的最大值Bound,然后以这个最大值作为所有线性空间维数的上限,对于维数sdi小于或等于Bound的向量组,其系数和基不做变化,而对于维数sdi大于Bound的向量组,它的基和系数都要舍弃Δdi=sdi-Bound维数据,减少的系数量为:
reducedCount Bound = &Sigma; i = 1 m ( &Delta; d i &times; ( m i + d g i ) )
其中m为分组后向量组的数目,mi为向量组gi的向量个数,
Figure C200610053395D00097
为向量组gi经主成分分析后的基向量的维数。
本发明的有益效果:
(1)该方法用广义主成分分析算法(GPCA)和主成分分析算法(PCA)取代了传统视频编码框架中的离散余弦变换(DCT)变换部分,把残差数据映射到线性空间,并建立混合线性模型,能有效地压缩数据。
(2)该方法用线性空间的基,向量在主成分分析中的系数,平均向量等作为视频压缩编码的输出,能高效地重建视频残差数据,并且达到较高的信噪比。
(3)该方法通过舍弃混合线性模型的线性空间中不重要的基和系数来实现视频数据的信噪比(SNR)可扩展性,因为舍弃的是相对不重要的基向量,所以重建的视频有较好的图像质量。
(4)该方法用广义主成分分析算法(GPCA)和主成分分析算法(PCA)为图像建立混合线性模型,属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,可达到一定的图像分割效果。
附图说明
图1是本发明的步骤(1)中第一种向量表示方法的示意图;
图2是本发明的步骤(1)中第二种向量表示方法的示意图;
图3是本发明的步骤(1)中第三种向量表示方法的示意图;
图4(a)是重建视频残差步骤中根据向量的分组标签sambleLabel重新排列向量组向量的示意图;
图4(b)是重建视频残差步骤中根据屏蔽零向量的二值向量mask插入零向量的示意图;
图5是本发明的处理视频残差数据的流程图;
图6是本发明的实例中用到的视频数据的原图像序列;
图7是离散余弦变换(DCT)系数的重要性排序示意图;
图8是两种方法(本发明提出的方法和DCT方法)的重建视频的平均峰值信噪比的比较,其中向量表示采用步骤(1)的第二种方法;
图9是两种方法(本发明提出的方法和DCT方法)的重建视频的平均峰值信噪比的比较,其中向量表示采用步骤(1)的第三种方法。
具体实施方式
本发明的视频数据压缩编码方法将视频数据映射到线性空间,用线性空间的基的叠加来表达样本向量,取代了传统的离散余弦变换(DCT)来处理运动预测和补偿后的视频残差,具有一定的自适应性。信噪比(SNR)可扩展性是通过舍弃向量空间中相对不重要的基所表达的信息来实现的,在保留较少数据量的情况下也能达到较好的视频质量。
具体实施的技术方案及步骤如下:
1.视频残差数据的向量表示
要将视频残差数据映射到线性空间,必须先用向量来表示图像残差。本发明将描述三种图像残差的向量表示方法:
(1)将图像划分为l×m的窗口,把窗口内各颜色分量的采样值置于同一向量中,则窗口内像素的颜色值组成D维的向量,那么图像帧Frame可以表示为:
Frame={xi∈RD,i=1,…,N},D=c1+c2+c3,N=W×H/(i×m)
其中W×H为原图像的大小,c1,c2,c3分别为窗口中各颜色分量的采样个数,D为向量维数,N为向量个数,如在YUV420格式图像中,窗口大小设为2×2,则c1=4,c2=1,c3=1,D=6。2×2窗口内4个像素的4个亮度(Luma)采样值和2个色度采样值(Cb、Cr各1个)采样值组成6维的向量。附图(1)给出了这种向量表示的示意图。
(2)将图像的各颜色分量置于不同的向量中,对每一个颜色分量均取l×m个相邻的采样值,即水平和垂直方向采样个数分别为m和l,则每个颜色分量构成一个D维的向量集,以YUV420格式图像为例,图像帧Frame可以表示为:
Frame={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4},
v_vectors={xi∈RD,i=1,…,N/4}
D=l×m,N=W×H/D,
其中W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma)和两个色度分量(Cb和Cr)构成的向量集,D为向量的维数,N为亮度分量的向量个数,N/4为色度分量的向量个数。附图(2)给出了这种向量表示的示意图。
(3)向量不是由同一帧内的相邻像素组成,而是来自一组连续图像的所有帧,例如某颜色分量在同组所有图像的相同位置的采样值可以组成一个向量,以YUV420格式图像为例,各颜色分量分别组成向量集,则这组图像可以表示为:
GOP={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4},
v_vectors={xi∈RD,i=1,…,N/4}
D=S,N=W×H,
其中GOP表示一组连续图像,W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma)和两个色度分量(Cb和Cr)构成的向量集,D为向量的维数,S为这组连续图像中的图像数目,N为亮度分量的向量个数,N/4为色度分量的向量个数。附图(3)给出了这种向量表示的示意图。
2.视频残差的向量表示的初步降维
在步骤(1)不论采用哪一种向量表示方法,输出都是向量的集合X={xi∈RD,i=1,…,N}。对各颜色分量分开构建向量的情况,各颜色分量的向量集合分开处理。将步骤(1)中得到的向量的集合X={xi∈RD,i=1,…,N}中模小于预设阈值ε的向量用零向量表示,但用N维的二值向量mask记录这些向量在原向量集的位置,即当‖xi‖<ε,mask(i)=0,当‖xi‖≥ε,mask(i)=1,将向量集中mask(i)=1的子集X1={xi,i=1,...,n}减去平均向量x得到ΔX,ΔX进行奇异值分解(SVD)得到ΔX=USVT,从ΔX的奇异值分解中可以获得线性空间的基和向量在主成分分析中的系数,线性空间的维数为d,基为B∈Rd×D,向量在主成分分析中的系数为C∈Rd×n,其计算方法如下:
x &OverBar; = 1 n &Sigma; i = 1 n x i ,
ΔX={xi-x,i=1,…,n},
S=diagonal(α1,α2,…,αD),
d = min k = 1 , &CenterDot; &CenterDot; &CenterDot; , D - 1 ( &Sigma; i = k + 1 D &alpha; i 2 < &epsiv; ) ,
B=U(:,1:d)T
C=S(1:d,1:d)VT(1:d,:)
其中S为对角矩阵,{αi,i=1,…,D}是S对角线上的元素。视频残差的向量表示X可以表示为X=B+C+x,由B,C,x和mask可以重建残差数据。
3.向量的主成分分析系数的分组
一般来说,步骤(2)得到的系数C中的向量分布是十分复杂的,很可能属于不同的线性子空间,各子空间的维数也可能不同,直接用PCA等单模型建模方法不能有效地压缩数据。本发明用广义主成分分析算法(GPCA)将步骤(2)得到的系数C∈Rd×n中的样本向量映射到m个不同的线性子空间,分组的结果为:
G = { g i &Element; R d &times; m i , i = 1 , &CenterDot; &CenterDot; &CenterDot; , m } , &Sigma; i = 1 m m i = n
其中mi为属于第i个子空间的向量个数,保留样本向量所属子空间的标签sambleLabel,即若向量xi∈gj,则sambleLabeli=j,GPCA算法为样本数据建立混合线性模型,每组向量对应一个线性子空间,这样属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,通过这种方法,不需要复杂的计算机视觉技术也可达到一定的图像分割效果。
4.向量组的降维
步骤(3)的分组结果为步骤(2)得到的系数C提供了较优的混合模型,相对于单模型的方法,混合模型对数据有更好的压缩效率。对步骤(3)的分组结果中的每一个向量组gi采用主成分分析算法(PCA)进行降维,并用向量组的平均向量
Figure C200610053395D00125
向量组所在线性空间的一组基 B g i &Element; R sd i &times; d 和系数 C g i &Element; R sd i &times; m i 表示该向量组,其中sdi是向量组gi所在线性空间的维数,平均向量
Figure C200610053395D00128
线性空间维数sdi、基
Figure C200610053395D00129
和向量的系数
Figure C200610053395D001210
的计算方法与步骤(3)相同,所以视频残差的向量表示X可以进一步表示成为: X = B + { B g i + C g i + x g i &OverBar; } + x &OverBar; , 总的系数个数Count包括所有线性空间的基,向量在主成分分析中的系数和每个向量组的平均向量,其计算方法为:
Count = d &times; D + &Sigma; i = 1 m ( sd i &times; ( m i + d ) + d ) + D
其中D为原向量集合的向量维数,d为原向量集经过主成分分析后得到的线性子空间的维数,sdi为每组系数构成的向量集经过主成分分析后得到的线性子空间的维数,X的所有系数个数为N×D,当N远大于D时,在Count中基和平均向量系数的数量只占很小的比例。
视频残差数据的重建步骤如下:
输入:步骤(2)得到的N维二值向量mask;向量集X′的平均向量x;基向量B;步骤(3)得到的向量的分组标签sambleLabel;步骤(4)得到的每组向量 g i &Element; R d &times; m i 在主成分分析中的系数 C g i &Element; R sd i &times; m i , B g i &Element; R sd i &times; d 和平均向量
输出:重建后的视频图像残差;
步骤1:重建每个向量组, g i &prime; = B g i T &times; C g i + x g i &OverBar; ;
步骤2:根据向量的分组标签sambleLabel,将 G &prime; = { g i &prime; &Element; R d &times; m i , i = 1 , &CenterDot; &CenterDot; &CenterDot; , m } , &Sigma; i = 1 m m i = n , 重新排列得到重建的C′∈Rd×n,即gi′中的向量按顺序置于C′的对应sambleLabel值为i的位置,排列方法如附图4(a)所示;
步骤3:重建X1′=BT×C′+x;
步骤4:根据二值向量mask,将零向量插入X1′的相应位置得到X′,零向量插入方法如附图4(b)所示;
步骤5:将视频残差的向量表示X′转换成图像表示,即按所采用的视频残差的向量表示方法,对X′作逆变换,将向量转换成图像;
5.可扩展性的实现
可扩展性包括空间、时间和信噪比(SNR)可扩展性,本发明所涉及的是信噪比可扩展性,是通过降低向量组 g i &Element; R d &times; m i 所在线性空间的维数来减少数据量。向量组gi经主成分分析算法(PCA)降维后可表示为
Figure C200610053395D00139
其中 B g i &Element; R sd i &times; d 为线性空间的基, C g i &Element; R sd i &times; m i 为向量组的主成分分析系数,
Figure C200610053395D001312
为向量组gi的平均向量,sdi为该线性空间的维数,若线性空间只保留sdi-Δd维,则系数将减少Δd×(d+mi),原向量组可以近似地表示为: g i &prime; = B g i ( 1 : ( sd i - &Delta;d ) , : ) + C g i ( 1 : ( sd i - &Delta;d ) , : ) + x g i &OverBar; , 在重建视频残差时,用gi′代替gi作为输入,因为每个向量组经PCA算法降维后得到的线性空间维数可能是不同的,所以可以设定一个维数的最大值Bound,然后以这个最大值作为所有线性空间维数的上限,对于维数sdi小于或等于Bound的向量组,其系数和基不做变化,而对于维数sdi大于Bound的向量组,它的基和系数都要舍弃Δdi=sdi-Bound维数据,减少的系数量为:
reducedCount Bound = &Sigma; i = 1 m ( &Delta; d i &times; ( m i + d g i ) )
其中m为分组后向量组的数目,mi为向量组gi的向量个数,
Figure C200610053395D00142
为向量组gi经主成分分析后的基向量的维数。
附图(5)给出了本发明的视频数据压缩编码方法的工作流程图。该方法的具体实施流程包括视频残差数据输入、数据预处理、用户指定向量模的阈值、向量集初步降维、建立混合线性模型、向量组降维、用户指定线性空间维数上限、舍弃维数大于上限的基及相应系数、重建视频残差。
视频残差数据输入,这里的视频图像残差是视频的原图像序列经运动预测和补偿后得到的残差图像。
数据预处理,将输入的视频残差数据映射到线性空间,用本发明所描述的向量表示方法得到向量集。
用户指定向量模的阈值,该阈值用来指导选取向量集中模较大的子集,对模小于该阈值的向量作零向量处理,该阈值也用来指导线性空间的降维,其中用于屏蔽零向量的二值向量是本发明的视频压缩编码方法输出的一部分。
向量集初步降维,对模大于阈值的子集用主成分分析算法(PCA)降维,用降维后的线性空间的一组基的叠加来表示向量集,其中线性空间的基和向量集的平均向量是本发明的视频压缩编码方法输出的一部分。
建立混合线性模型,对初步降维后向量的主成分分析系数构成的向量集用广义主成分分析算法(GPCA)分组,每个向量组对应一个线性子空间,其中向量的分组标签是本发明的视频压缩编码方法输出的一部分。
向量组降维,对向量组用主成分分析算法降维,得到子空间的基和向量的主成分分析系数,向量组的基,主成分分析系数和平均向量是本发明的视频压缩编码方法输出的一部分。
用户指定线性空间维数上限,该上限决定了需要舍弃的基和系数。
舍弃维数大于上限的基及相应系数,即对混合线性模型中的每个线性子空间,若其维数大于上限,则舍弃部分基及系数,否则不做变化。
重建视频残差,用视频压缩编码输出中的平均向量、基(或舍弃了部分基向量的基)和系数(与基对应,可舍弃部分系数),以及屏蔽零向量的二值向量和建立混合模型时产生的向量分组标签来恢复视频残差数据。
实施例1
附图(8)的实例采用附图(2)所示的向量表示方法。在保留相同数据量的情况下,附图(8)给出了两种残差数据处理方法(本发明中的方法和DCT方法)重建视频的所有图像帧的峰值信噪比(PSNR)平均值的比较。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
(1)用附图(2)所示的向量表示方法将每一帧残差图像都表示为:
Frame = y _ vectors &Element; R D &times; N , u _ vectors &Element; R D &times; N / 4 , v _ vectors &Element; R D &times; N / 4 , D=l×m,N=W×H/D
在这里输入的视频残差是附图(6)所示的图像序列经运动预测和补偿后的残差图像,原图像大小W×H=352×288,窗口大小l×m=2×4,向量模的阈值ε=1.5。
(2)对每一帧残差图像的每个颜色分量{c_vectors,c=y,u,v}的向量表示都进行如下处理:
I 以步骤(2)所描述的方法对c_vectors进行初步降维,得到B,C,x和mask;
II 用广义主成分分析算法(GPCA)对C进行分组,得到sambleLabel;
III 以步骤(4)所描述的方法,对每个向量组gi进行降维,得到
Figure C200610053395D0015160300QIETU
Figure C200610053395D0015160307QIETU
IV 以步骤(5)描述的方法实现视频数据的可扩展性。设置向量空间维数最大值Bound,在此例中D=8,因此经初步降维后的维数d≤8,各向量组映射到的子空间维数sdi≤d-1。Bound可取的范围为 1 &le; Bound &le; max i ( sd i ) , 已知各子空间维数sdi,可以将Bound从最大值逐渐减少至1。最后得到不同维数限制下的各子空间的基和系数。
(3)按步骤(4)描述的重建过程,用不同维数限制下的子空间的基和系数来重建视频残差,在此例中Bound的范围为1≤Bound≤7,因此可以得到7组不同信噪比的重建图像。
本实例中用作比较的方法是离散余弦变换(DCT),对残差图像的每个4×4大小的块做DCT变换,重建的过程即反DCT变换。当向量空间维数的上限Bound变化时,所保留的系数的比例ratio也在变化,对DCT系数保留ratio最重要的部分,将其余系数置为零。4×4的DCT系数的重要性可按附图(6)的顺序排列,系数的重要性随序号的增加递减。ratio的计算公式为:
ratio = &Sigma;Count - &Sigma;reducedCount W &times; H &times; 3 2
实施例2
附图(9)的实例采用附图(3)所示的向量表示方法。在保留相同数据量的情况下,附图(9)给出了两种残差数据处理方法(本发明中的方法和DCT方法)重建视频的所有图像帧的峰值信噪比(PSNR)平均值的比较。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
(1)用附图(3)所示的向量表示方法将一组连续的残差图像表示为:
GOP = y _ vectors &Element; R D &times; N , u _ vectors &Element; R D &times; N / 4 , v _ vectors &Element; R D &times; N / 4 , D=S,N=W×H
在这里输入的视频残差是附图(6)所示的图像序列经运动预测和补偿后的残差图像,原图像大小W×H=352×288,S=15,向量模的阈值ε=2。
(2)对每个颜色分量{c_vectors,c=y,u,v}的向量表示都进行如下处理:
I 以步骤(2)所描述的方法对c_vectors进行初步降维,得到B,C,x和mask;
II 用广义主成分分析算法(GPCA)对C进行分组,得到sambleLabel;
III 以步骤(4)所描述的方法,对每个向量组gi进行降维,得到
Figure C200610053395D0016160224QIETU
Figure C200610053395D0016160232QIETU
Figure C200610053395D00162
IV以步骤(5)描述的方法实现视频数据的可扩展性。设置向量空间维数最大值Bound,在此例中D=15,因此经初步降维后的维数d≤15,各向量组映射到的子空间维数sdi≤d-1。Bound可取的范围为 1 &le; Bound &le; max i ( sd i ) , 已知各子空间维数sdi,可以将Bound从最大值逐渐减少至1。最后得到不同维数限制下的各子空间的基和系数。
(3)按步骤(4)描述的重建过程,用不同维数限制下的子空间的基和系数来重建视频残差,在此例中Bound的范围为1≤Bound≤14,因此可以得到14组不同信噪比的重建图像。本实例中用作比较的方法是离散余弦变换(DCT),对残差图像的每个4×4大小的块做DCT变换,重建的过程即其反DCT变换。当向量空间维数的上限Bound变化时,所保留的系数的比例ratio也在变化,对DCT系数保留ratio最重要的部分,将其余系数置为零。4×4的DCT系数的重要性可按附图(6)的顺序排列,系数的重要性随序号的增加递减。ratio的计算公式为:
ratio = &Sigma;Count - &Sigma;reducedCount W &times; H &times; 3 2

Claims (6)

1.一种视频数据压缩编码方法,其特征在于包括以下步骤:
(1)将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量集;
(2)用主成分分析算法对所述向量集进行初步的降维,并用通过降维获得的线性空间的基和获得的所述向量集在主成分分析中的系数来表示所述向量集;
(3)用广义主成分分析算法对通过降维获得的所述向量集在主成分分析中的系数进行分组,得到多个向量组;
(4)对步骤(3)中所述向量组用主成分分析算法降维,并用通过降维获得的所述向量组的平均向量、所述向量组所在线性空间的基和所述向量组在主成分分析中的系数表示所述向量组;
(5)通过舍弃线性空间的部分基和向量组的部分系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性。
2.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述步骤(1)包括两种转换形式:
(1)将图像划分为l×m的窗口,l为窗口高度,m为窗口宽度,把窗口内各颜色分量的采样值置于同一向量中,则窗口内像素的颜色值组成D维的向量,那么图像帧Frame可以表示为:
Frame={xi∈RD,i=1,…,N},D=c1+c2+c3,N=W×H/(l×m)
其中W×H为原图像的大小,c1,c2,c3分别为窗口中各颜色分量的采样个数,xi为向量集中第i个向量,D为向量维数,RD为D维实向量空间,N为向量个数;
(2)将图像的各颜色分量置于不同的向量中,对每一个颜色分量均取l×m个相邻的采样值,即水平和垂直方向采样个数分别为m和l,则每个颜色分量构成一个D维的向量集,图像帧Frame可以表示为:
Frame={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4},
v_vectors={xi∈RD,i=1,…,N/4}
D=l×m,N=W×H/D,
其中W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量和两个色度分量构成的向量集,xi为向量集中第i个向量,D为向量的维数,RD为D维实向量空间,N为亮度分量的向量个数,N/4为色度分量的向量个数。
3.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述步骤(2)是将步骤(1)中得到的向量集X={xi∈RD,i=1,…,N}中模小于预设阈值ε的向量用零向量表示,并用N维的二值向量mask记录这些向量在向量集X中的位置,即当‖xi‖<ε,mask(i)=0,当‖xi‖≥ε,mask(i)=1,将向量集合中mask(i)=1的子集X1={xixi′,i=1,...,n}减去平均向量x得到ΔX,ΔX进行奇异值分解得到ΔX=USVT,从ΔX的奇异值分解中可以获得线性空间的基和向量的系数,设线性空间的维数为d,ΔX的维数为D,基为B∈Rd×D,其中R代表实数,Rd×D是d×D维实矩阵空间,向量的系数为C∈Rd×n,其计算方法如下:
x &OverBar; = 1 n &Sigma; i = 1 n xx i &prime; ,
&Delta;X = { x i x i &prime; - x &OverBar; , i = 1 , &CenterDot; &CenterDot; &CenterDot; , n } ,
S=diagonal(α1,α2,…,αD),
d = min k = 1 , &CenterDot; &CenterDot; &CenterDot; , D - 1 ( &Sigma; i = k + 1 D &alpha; i 2 < &epsiv; ) ,
B=U(:,1:d)T
C=S(1:d,1:d)VT(1:d,:)
其中S为对角矩阵,{αi,i=1,…,D}是S对角线上的元素,U、S、V是ΔX进行奇异值分解的结果,
Figure C200610053395C00034
为步骤(1)中所得向量集X的子集X1中的第i个向量,n为子集X1中的向量个数,D为ΔX的维数,步骤(1)中得到的向量集X可以表示为X=B+C+x,由B,C,x和mask可以重建残差数据。
4.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述步骤(3)是用广义主成分分析算法将步骤(2)得到的系数中的样本向量映射到m个不同的线性子空间,设步骤(2)所得系数中的样本向量为C={ci∈Rd,i=1,2,...,n},其中ci为步骤(2)所得系数中的第i个样本向量,d为步骤(2)所得系数中的样本向量的维数,n为步骤(2)所得系数中的样本向量的个数,Rd为d维实向量空间,分组的结果为:
G = { g i &Element; R d &times; m i , i = 1 , &CenterDot; &CenterDot; &CenterDot; , m } , &Sigma; i = 1 m m i = n ,
其中gi为第i个分组,或称为第i个子空间,mi为属于第i个子空间的向量个数,保留样本向量所属子空间的标签sambleLabel,即若向量ci∈gj,则sambleLabeli=j,其中ci为步骤(2)所得系数中的第i个样本向量,gj为对步骤(2)所得系数中的样本向量进行分组得到的第j个分组,sampleLabel是一个向量,sambleLabeli是向量sampleLabel的第i个元素,广义主成分分析算法为样本数据建立混合线性模型,每组向量对应一个线性子空间。
5.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述步骤(4)是对步骤(3)的分组结果中的每一个向量组gi采用主成分分析算法进行降维,并用向量组的平均向量
Figure C200610053395C00041
向量组所在线性空间的一组基 B g i &Element; R sd i &times; d 和向量组的系数 C g i &Element; R sd i &times; m i 表示该向量组,其中sdi是向量组gi所在线性空间的维数,步骤(1)中得到的向量集X可以进一步表示成为: X = B + { B g i + C g i + x g i &OverBar; } + x &OverBar; , 总的系数个数Count包括所有线性空间的基,向量组的系数和每个向量组的平均向量,其计算方法为:
Count = d &times; D + &Sigma; i = 1 m ( sd i &times; ( m i + d ) + d ) + D
其中D为原向量集合的向量维数,d为原向量集经过主成分分析后得到的线性子空间的维数,sdi为向量组gi所在线性空间的维数,X的所有系数个数为N×D。
6.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述步骤(5)是指通过降低向量组 g i &Element; R d &times; m i 所在线性空间的维数来减少视频的数据量,其中d为向量组gi降维之前的维数,mi为向量组gi中的向量个数,向量组gi经主成分分析算法降维后可表示为其中 B g i &Element; R sd i &times; d 为线性空间的基, C g i &Element; R sd i &times; m i 为向量组经主成分分析后得到的系数,
Figure C200610053395C0004103449QIETU
为向量组gi的平均向量,sdi为该线性空间的维数,若线性空间只保留sdi-Δd维,其中Δd为线性空间舍弃的维数,则系数将减少Δd×(d+mi),原向量组可以近似地表示为: g i &prime; = B g i ( 1 : ( sd i - &Delta;d ) , : ) + C g i ( 1 : ( sd i - &Delta;d ) , : ) + x g i &OverBar; , 在重建视频残差时,用gi′代替gi作为输入,因为每个向量组经主成分分析算法降维后得到的线性空间维数可能是不同的,所以可以设定一个维数的最大值Bound,然后以这个最大值作为所有线性空间维数的上限,对于维数sdi小于或等于Bound的向量组,其系数和基不做变化,而对于维数sdi大于Bound的向量组,它的基和系数都要舍弃Δdi=sdi-Bound维数据,减少的系数量为:
reducedCount Bound = &Sigma; i = 1 m ( &Delta;d i &times; ( m i + d g i ) )
其中m为分组后向量组的数目,mi为向量组gi的向量个数,
Figure C200610053395C0004084655QIETU
为向量组gi经主成分分析后的基向量的维数。
CN 200610053395 2006-09-14 2006-09-14 视频数据压缩编码方法 Expired - Fee Related CN100502507C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610053395 CN100502507C (zh) 2006-09-14 2006-09-14 视频数据压缩编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610053395 CN100502507C (zh) 2006-09-14 2006-09-14 视频数据压缩编码方法

Publications (2)

Publication Number Publication Date
CN1921627A CN1921627A (zh) 2007-02-28
CN100502507C true CN100502507C (zh) 2009-06-17

Family

ID=37779160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610053395 Expired - Fee Related CN100502507C (zh) 2006-09-14 2006-09-14 视频数据压缩编码方法

Country Status (1)

Country Link
CN (1) CN100502507C (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103501438B (zh) * 2013-09-18 2016-06-29 浙江大学 一种基于主成分分析的内容自适应图像压缩方法
RU2653295C2 (ru) * 2014-03-04 2018-05-07 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Адаптивное переключение цветовых пространств, частот цветовой дискретизации и/или битовых глубин
EP3114835B1 (en) 2014-03-04 2020-04-22 Microsoft Technology Licensing, LLC Encoding strategies for adaptive switching of color spaces
CN103873879A (zh) * 2014-03-18 2014-06-18 中山大学深圳研究院 一种基于双重奇异值分解的视频图像压缩方法
EP3123716B1 (en) 2014-03-27 2020-10-28 Microsoft Technology Licensing, LLC Adjusting quantization/scaling and inverse quantization/scaling when switching color spaces
WO2016054765A1 (en) 2014-10-08 2016-04-14 Microsoft Technology Licensing, Llc Adjustments to encoding and decoding when switching color spaces
CN106331719B (zh) * 2016-09-28 2019-04-26 武汉大学 一种基于k-l变换误差空间拆分的图像数据压缩方法
WO2021007742A1 (zh) * 2019-07-15 2021-01-21 上海极清慧视科技有限公司 获得视频文件的压缩方法、解压缩方法、系统及存储介质

Also Published As

Publication number Publication date
CN1921627A (zh) 2007-02-28

Similar Documents

Publication Publication Date Title
CN100502507C (zh) 视频数据压缩编码方法
CN101742306A (zh) 高动态范围编解码器
CN1757240A (zh) 视频编码
CN108965887B (zh) 一种基于块间去耦合的视频信息隐藏方法和装置
CN102006483B (zh) 一种视频编解码方法及装置
CN100366091C (zh) 一种视频压缩方法
Hu et al. Fvc: An end-to-end framework towards deep video compression in feature space
Danyali et al. Flexible, highly scalable, object-based wavelet image compression algorithm for network applications
KR100697516B1 (ko) 3차원 웨이블릿 변환 기반의 동영상 코딩 방법
Jeon et al. Context-based trit-plane coding for progressive image compression
US6956973B1 (en) Image compression
CN100586185C (zh) 一种h.264视频降低分辨率转码的模式选择方法
Singh et al. JPEG2000: A review and its performance comparison with JPEG
US7006572B2 (en) Method and apparatus for decoding video bitstreams to reduced spatial resolutions
Zhang et al. Enhanced video compression with region-based texture models
CN114173131A (zh) 一种基于帧间相关性的视频压缩方法及系统
CN102811349A (zh) 可自动调节冗余的无反馈多描述分布式视频编解码器
Balcilar et al. Reducing the mismatch between marginal and learned distributions in neural video compression
Zhang et al. Region-based texture modelling for next generation video codecs
CN104602001A (zh) 一种基于帧差图像的低码率视频编码方法
US20060176961A1 (en) Method for reducing bit rate requirements for encoding multimedia data
Gopalan Exploiting Region Of Interest For Improved Video Coding
Montajabi et al. Recurrent Neural Network-Based Video Compression
Khan et al. Wavelet-based video coding with early-predicted zerotrees
Shen et al. Fast video enhancement transcoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090617

Termination date: 20120914