CN1921627A - 视频数据压缩编码方法 - Google Patents
视频数据压缩编码方法 Download PDFInfo
- Publication number
- CN1921627A CN1921627A CN 200610053395 CN200610053395A CN1921627A CN 1921627 A CN1921627 A CN 1921627A CN 200610053395 CN200610053395 CN 200610053395 CN 200610053395 A CN200610053395 A CN 200610053395A CN 1921627 A CN1921627 A CN 1921627A
- Authority
- CN
- China
- Prior art keywords
- vector
- coefficient
- dimension
- component analysis
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000005056 compaction Methods 0.000 title claims description 7
- 239000013598 vector Substances 0.000 claims abstract description 387
- 238000007906 compression Methods 0.000 claims abstract description 14
- 230000006835 compression Effects 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000000513 principal component analysis Methods 0.000 claims description 87
- 230000009467 reduction Effects 0.000 claims description 38
- 238000000205 computational method Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 241000023320 Luma <angiosperm> Species 0.000 description 5
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 5
- 238000002620 method output Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013144 data compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012966 insertion method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种视频数据的压缩编码方法。视频的原始图像序列经过运动预测和补偿后得到残差,将残差映射到向量空间,然后通过主成分分析算法对向量进行初步降维,再采用广义主成分分析算法对降维后的系数进行分组,最后用主成分分析算法对每一组系数进行再次降维。视频压缩编码的输出就是这一过程中产生的线性空间的基、向量在主成分分析中的系数、向量集的平均向量以及运动预测中得到的运动向量等。该方法对视频数据具有较好压缩效率,重建后的视频能达到较好的图像质量。同时,本发明通过舍弃线性空间中相对不重要的基向量和系数的方法来实现视频数据的信噪比可扩展性,在数据量保留较少的情况下重建的视频也能达到良好的视觉效果。
Description
技术领域
本发明涉及视频及多媒体数据处理领域,尤其涉及一种视频数据压缩编码方法。
背景技术
视频编码框架都具有相似的功能模块,如运动预测用于消除时间冗余,变换用于消除空间冗余,量化用于控制比特率,熵编码用于降低统计冗余等。基于块的预测和变换编码(即混合编码)已成为目前视频压缩编码的主流,运动预测补偿和离散余弦变换(DCT)在各种编码标准中被广泛采用,如MPEG、ITU-T和H.264/AVC。H.264复杂的运动预测技术使它的视频压缩效率比以往所有的标准都高。它的运动预测技术允许多种块大小和多种预测模式,消除了视频图像序列中绝大部分的帧间冗余和帧内冗余。而今要进一步提高视频编码的效率变得十分困难。
DCT变换源自傅利叶变换。它将图像转换到频域中,并表示为一组基函数的叠加。这些基函数是固定的,不能随图像内容的变化而适应性地调整。而且傅利叶变换有吉伯斯现象,也意味着DCT变换不能很好得表达图像信号中的不连续部分。
近年来计算机视觉和图像处理中的技术在视频编码中得到了应用。IEEE1995年论文集(“Region-based video coding using mathematical morphology”,Proc.IEEE,vol.83,no.6,pp.843-857,Jun.1995.)公布的基于区域分割的编码方法将图像分割成纹理类似的区域,通过记录区域的形状和对纹理建模能够达到很高的编码效率。ACM Multimedia 2005(“An Object-based Video Coding Framework for Video Sequences Obtained From Static Cameras”,ACMMultimedia’05 Singapore)公布的基于对象的编码方法尝试理解视频中的语义内容,然后用主成分分析算法(PCA)进行对象建模,如对视频中的人脸进行建模。但是这些方法还未发展成熟,并且其适用领域受到严格的限制。
PCA算法通过降低样本空间的维数来达到压缩数据的目的,同时也表达了样本的一种模式。它用样本所属线性空间的一组基的加权叠加来表达原始图像中的样本数据。与DCT变换相比,PCA算法构建的线性空间是根据图像本身的信息来确定的,有一定的自适应性。但是PCA算法只有当样本数据符合单分布模型时才能达到比较高的压缩效率,而绝大部分的图像和视频的样本数据的分布都很复杂,单模型并不适用。因此这种数据压缩方法不能直接用于视频编码。
IEEE计算机视觉和模式识别会议2003年论文集(“Generalized Principal ComponentAnalysis(GPCA)”,Proceedings of the 2003 IEEE Computer Society Conference on ComputerVision and Pattern Recognition(CVPR’03)1063-6919/03,2003IEEE)公布的广义主成分分析算法(Generalized Principle Component Analysis,GPCA)用代数几何的方法解决了从样本数据中估计多个线性子空间的问题。这种方法在运动分割,图像分割,数据压缩等领域都能得到应用。2005年国际计算机视觉大会(“A Multi-Scale Hybrid Linear Model for Lossy ImageRepresentation”,ICCV 2005:764-771)公布的结合GPCA算法的多尺度图像压缩方法达到了比小波变换更好的效果。它采用混合线性模型对图像数据进行建模。在不知道子空间个数和维数的情况下,用GPCA算法估计子空间的个数,然后对每个子空间的样本数据再用PCA算法进行建模。
可扩展性编码是将视频数据压缩成由基本层和增强层组成的多个码流的技术。基本层可以独立解码,增强层能与基本层和它以前的增强层一起解码,以提高视频的图像质量。增强层可根据需要被截断,来适应网络带宽的变化。可扩展性包括空间可扩展性、时间可扩展性和信噪比(SNR)可扩展性。SNR可扩展性是通过改变量化阶来达到分层编码的目的。MPEG4标准中公布的精细可伸缩性(FGS)也是一种信噪比可扩展性。它通过对增强层的系数按比特位的重要程度来编码实现码率接近连续的变化,其缺点是编码的开销较大。
发明内容
本发明的目的是克服了计算机视觉中区域分割和对象分割算法复杂和适用范围窄的缺点,提供一种视频数据压缩编码方法。
本方法包括以下步骤:
(1)将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量的形式;
(2)用主成分分析算法(PCA)对向量集进行初步的降维,并用降维后线性空间的一组基和向量在主成分分析中的系数来表示原向量集;
(3)用广义主成分分析算法(GPCA)对步骤(2)中得到的向量的系数进行分组;
(4)对每组系数构成的向量集用主成分分析算法降维,并用向量集的平均向量、所在线性空间的一组基和向量在主成分分析中的系数表示向量集;
(5)通过舍弃线性空间部分基向量和系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性。
所述将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量的形式,其转换形式有如下三种:
(1)将图像划分为l×m的窗口,把窗口内各颜色分量的采样值置于同一向量中,则窗口内像素的颜色值组成D维的向量,那么图像帧Frame可以表示为:
Frame={xi∈RD,i=1,…,N},D=c1+c2+c3,N=W×H/(l×m) 1
其中W×H为原图像的大小,c1,c2,c3分别为窗口中各颜色分量的采样个数,D为向量维数,N为向量个数,如在YUV420格式图像中,窗口大小设为2×2,则c1=4,c2=1,c3=1,D=6;
(2)将图像的各颜色分量置于不同的向量中,对每一个颜色分量均取l×m个相邻的采样值,即水平和垂直方向采样个数分别为m和l,则每个颜色分量构成一个D维的向量集,以YUV420格式图像为例,图像帧Frame可以表示为:
Frame={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4}, 2
v_vectors={xi∈RD,i=1,…,N/4}
D=l×m,N=W×H/D,
其中W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma)和两个色度分量(Cb/Cr)构成的向量集,D为向量的维数,N为亮度分量的向量个数,N/4为色度分量的向量个数;
(3)向量不是由同一帧内的相邻像素组成,而是来自一组连续图像的所有帧,例如某颜色分量在同组所有图像的相同位置的采样值可以组成一个向量,以YUV420格式图像为例,各颜色分量分别组成向量集,则这组图像可以表示为:
GOP={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4}, 3
v_vectors={xi∈RD,i=1,…,N/4}
D=S,N=W×H,
其中GOP表示一组连续图像,W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma),和两个色度分量(Cb/Cr)构成的向量集,D为向量的维数,S为这组连续图像中的图像数目,N为亮度分量的向量个数,N/4为色度分量的向量个数。
用主成分分析算法对向量集进行初步的降维,并用降维后线性空间的一组基和向量在主成分分析中的系数来表示原向量集:是将步骤(1)中得到的向量的集合X={xi∈RD,i=1,…,N}中模小于预设阈值ε的向量用零向量表示,但用N维的二值向量mask记录这些向量在原向量集的位置,即当‖xi‖<ε,mask(i)=0,当‖xi‖≥ε,mask(i)=1,将向量集合中mask(i)=1的子集X1={xi,i=1,…,n}减去平均向量
x得到ΔX,ΔX进行奇异值分解得到ΔX=USVT,从ΔX的奇异值分解中可以获得线性空间的基和向量在主成分分析中的系数,线性空间的维数为d,基为B∈Rd×D,向量在主成分分析中的系数为C∈Rd×n,其计算方法如下:
ΔX={xi-
x,i=1,…,n},
S=diagonal(α1,α2,…,αD),
B=U(:,1:d)T,
C=S(1:d,1:d)VT(1:d,:)
其中S为对角矩阵,{αi,i=1,…,D}是S对角线上的元素,视频残差的向量表示X可以表示为X=B+C+
x,由B,C,
x和mask可以重建残差数据。
用广义主成分分析算法对步骤(2)中得到的向量的系数进行分组:是用广义主成分分析算法将步骤(2)得到的系数C∈Rd×n中的样本向量映射到m个不同的线性子空间,分组的结果为:
其中mi为属于第i个子空间的向量个数,保留样本向量所属子空间的标签sambleLabel,即若向量xi∈gj,则sambleLabeli=j,广义主成分分析算法为样本数据建立混合线性模型,每组向量对应一个线性子空间,这样属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,通过这种方法,不需要复杂的计算机视觉技术也可达到一定的图像分割效果。
对每组系数构成的向量集用主成分分析算法降维,并用向量集的平均向量、所在线性空间的一组基和向量在主成分分析中的系数表示向量集:是对步骤(3)的分组结果中的每一个向量组gi采用主成分分析算法进行降维,并用向量组的平均向量
向量组所在线性空间的一组基
和系数
表示该向量组,其中sdi是向量组gi所在线性空间的维数,平均向量
线性空间维数sdi、基Bgi、和向量的系数Cgi的计算方法与步骤(3)相同,所以视频残差的向量表示X可以进一步表示成为:
总的系数个数Count包括所有线性空间的基,向量在主成分分析中的系数和每个向量组的平均向量,其计算方法为:
其中D为原向量集合的向量维数,d为原向量集经过主成分分析后得到的线性子空间的维数,sdi为每组系数构成的向量集经过主成分分析后得到的线性子空间的维数,X的所有系数个数为N×D,当N远大于D时,在Count中基和平均向量系数的数量只占很小的比例;
视频残差数据的重建步骤如下:
输入:步骤(2)得到的N维二值向量mask;向量集X′的平均向量
x;基向量B;步骤(3)得到的向量的分组标签sambleLabel;步骤(4)得到的每组向量
在主成分分析中的系数
基
和平均向量
输出:重建后的视频图像残差;
步骤1:重建每个向量组,
步骤2:根据向量的分组标签sambleLabel,将
重新排列得到重建的C′∈Rd×n;
步骤3:重建X1′=BT×C′+
x;
步骤4:根据二值向量mask,将零向量插入X1′的相应位置得到X′;
步骤5:将视频残差的向量表示X′转换成图像表示。
通过舍弃线性空间部分基向量和系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性:是指通过降低向量组
所在线性空间的维数来减少视频的数据量,向量组gi经主成分分析算法降维后可表示为
其中
为线性空间的基, 为向量组经主成分分析后得到的系数,
为向量组gi的平均向量,sai为该线性空间的维数,若线性空间只保留sdi-Δd维,则系数将减少Δd×(d+mi),原向量组可以近似地表示为:
在重建视频残差时,用gi′代替gi作为输入,因为每个向量组经主成分分析算法降维后得到的线性空间维数可能是不同的,所以可以设定一个维数的最大值Bound,然后以这个最大值作为所有线性空间维数的上限,对于维数sdi小于或等于Bound的向量组,其系数和基不做变化,而对于维数sdi大于Bound的向量组,它的基和系数都要舍弃Δdi=sdi-Bound维数据,减少的系数量为:
其中m为分组后向量组的数目,mi为向量组gi的向量个数,dgi为向量组gi经主成分分析后的基向量的维数。
本发明的有益效果:
(1)该方法用广义主成分分析算法(GPCA)和主成分分析算法(PCA)取代了传统视频编码框架中的离散余弦变换(DCT)变换部分,把残差数据映射到线性空间,并建立混合线性模型,能有效地压缩数据。
(2)该方法用线性空间的基,向量在主成分分析中的系数,平均向量等作为视频压缩编码的输出,能高效地重建视频残差数据,并且达到较高的信噪比。
(3)该方法通过舍弃混合线性模型的线性空间中不重要的基和系数来实现视频数据的信噪比(SNR)可扩展性,因为舍弃的是相对不重要的基向量,所以重建的视频有较好的图像质量。
(4)该方法用广义主成分分析算法(GPCA)和主成分分析算法(PCA)为图像建立混合线性模型,属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,可达到一定的图像分割效果。
附图说明
图1是本发明的步骤(1)中第一种向量表示方法的示意图;
图2是本发明的步骤(1)中第二种向量表示方法的示意图;
图3是本发明的步骤(1)中第三种向量表示方法的示意图;
图4(a)是重建视频残差步骤中根据向量的分组标签sambleLabel重新排列向量组向量的示意图;
图4(b)是重建视频残差步骤中根据屏蔽零向量的二值向量mask插入零向量的示意图;
图5是本发明的处理视频残差数据的流程图;
图6是本发明的实例中用到的视频数据的原图像序列;
图7是离散余弦变换(DCT)系数的重要性排序示意图;
图8是两种方法(本发明提出的方法和DCT方法)的重建视频的平均峰值信噪比的比较,其中向量表示采用步骤(1)的第二种方法;
图9是两种方法(本发明提出的方法和DCT方法)的重建视频的平均峰值信噪比的比较,其中向量表示采用步骤(1)的第三种方法。
具体实施方式
本发明的视频数据压缩编码方法将视频数据映射到线性空间,用线性空间的基的叠加来表达样本向量,取代了传统的离散余弦变换(DCT)来处理运动预测和补偿后的视频残差,具有一定的自适应性。信噪比(SNR)可扩展性是通过舍弃向量空间中相对不重要的基所表达的信息来实现的,在保留较少数据量的情况下也能达到较好的视频质量。
具体实施的技术方案及步骤如下:
1.视频残差数据的向量表示
要将视频残差数据映射到线性空间,必须先用向量来表示图像残差。本发明将描述三种图像残差的向量表示方法:
(1)将图像划分为l×m的窗口,把窗口内各颜色分量的采样值置于同一向量中,则窗口内像素的颜色值组成D维的向量,那么图像帧Frame可以表示为:
Frame={xi∈RD,i=1,…,N},D=c1+c2+c3,N=W×H/(l×m) 1
其中W×H为原图像的大小,c1,c2,c3分别为窗口中各颜色分量的采样个数,D为向量维数,N为向量个数,如在YUV420格式图像中,窗口大小设为2×2,则c1=4,c2=1,c3=1,D=6。2×2窗口内4个像素的4个亮度(Luma)采样值和2个色度采样值(Cb、Cr各1个)采样值组成6维的向量。附图(1)给出了这种向量表示的示意图。
(2)将图像的各颜色分量置于不同的向量中,对每一个颜色分量均取l×m个相邻的采样值,即水平和垂直方向采样个数分别为m和l,则每个颜色分量构成一个D维的向量集,以YUV420格式图像为例,图像帧Frame可以表示为:
Frame={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4}, 2
v_vectors={xi∈RD,i=1,…,N/4}
D=l×m,N=W×H/D,
其中W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma)和两个色度分量(Cb和Cr)构成的向量集,D为向量的维数,N为亮度分量的向量个数,N/4为色度分量的向量个数。附图(2)给出了这种向量表示的示意图。
(3)向量不是由同一帧内的相邻像素组成,而是来自一组连续图像的所有帧,例如某颜色分量在同组所有图像的相同位置的采样值可以组成一个向量,以YUV420格式图像为例,各颜色分量分别组成向量集,则这组图像可以表示为:
GOP={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4}, 3
v_vectors={xi∈RD,i=1,…,N/4}
D=S,N=W×H,
其中GOP表示一组连续图像,W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量(Luma)和两个色度分量(Cb和Cr)构成的向量集,D为向量的维数,S为这组连续图像中的图像数目,N为亮度分量的向量个数,N/4为色度分量的向量个数。附图(3)给出了这种向量表示的示意图。
2.视频残差的向量表示的初步降维
在步骤(1)不论采用哪一种向量表示方法,输出都是向量的集合X={xi∈RD,i=1,…,N}。对各颜色分量分开构建向量的情况,各颜色分量的向量集合分开处理。将步骤(1)中得到的向量的集合X={xi∈RD,i=1,…,N}中模小于预设阈值ε的向量用零向量表示,但用N维的二值向量mask记录这些向量在原向量集的位置,即当‖xi‖<ε,mask(i)=0,当‖xi‖≥ε,mask(i)=1,将向量集中mask(i)=1的子集X1={xi,i=1,…,n}减去平均向量
x得到ΔX,ΔX进行奇异值分解(SVD)得到ΔX=USVT,从ΔX的奇异值分解中可以获得线性空间的基和向量在主成分分析中的系数,线性空间的维数为d,基为B∈Rd×D,向量在主成分分析中的系数为C∈Rd×n,其计算方法如下:
ΔX={xi-
x,i=1,…,n},
S=diagonal(α1,α2,…,αD),
B=U(:,1:d)T,
C=S(1:d,1:d)VT(1:d,:)
其中S为对角矩阵,{αi,i=1,…,D}是S对角线上的元素。视频残差的向量表示X可以表示为X=B+C+
x,由B,C,
x和mask可以重建残差数据。
3.向量的主成分分析系数的分组
一般来说,步骤(2)得到的系数C中的向量分布是十分复杂的,很可能属于不同的线性子空间,各子空间的维数也可能不同,直接用PCA等单模型建模方法不能有效地压缩数据。本发明用广义主成分分析算法(GPCA)将步骤(2)得到的系数C∈Rd×n中的样本向量映射到m个不同的线性子空间,分组的结果为:
其中mi为属于第i个子空间的向量个数,保留样本向量所属子空间的标签sambleLabel,即若向量xi∈gj,则sambleLabeli=j,GPCA算法为样本数据建立混合线性模型,每组向量对应一个线性子空间,这样属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,通过这种方法,不需要复杂的计算机视觉技术也可达到一定的图像分割效果。
4.向量组的降维
步骤(3)的分组结果为步骤(2)得到的系数C提供了较优的混合模型,相对于单模型的方法,混合模型对数据有更好的压缩效率。对步骤(3)的分组结果中的每一个向量组gi采用主成分分析算法(PCA)进行降维,并用向量组的平均向量
向量组所在线性空间的一组基
和系数
表示该向量组,其中sdi是向量组gi所在线性空间的维数,平均向量
线性空间维数sdi、基Bgi和向量的系数Cgi的计算方法与步骤(3)相同,所以视频残差的向量表示X可以进一步表示成为:
总的系数个数Count包括所有线性空间的基,向量在主成分分析中的系数和每个向量组的平均向量,其计算方法为:
其中D为原向量集合的向量维数,d为原向量集经过主成分分析后得到的线性子空间的维数,sdi为每组系数构成的向量集经过主成分分析后得到的线性子空间的维数,X的所有系数个数为N×D,当N远大于D时,在Count中基和平均向量系数的数量只占很小的比例。
视频残差数据的重建步骤如下:
输出:重建后的视频图像残差;
步骤1:重建每个向量组,
步骤2:根据向量的分组标签sambleLabel,将
重新排列得到重建的C′∈Rd×n,即gi′中的向量按顺序置于C′的对应sambleLabel值为i的位置,排列方法如附图4(a)所示;
步骤3:重建X1′=BT×C′+
x;
步骤4:根据二值向量mask,将零向量插入X1′的相应位置得到X′,零向量插入方法如附图4(b)所示;
步骤5:将视频残差的向量表示X′转换成图像表示,即按所采用的视频残差的向量表示方法,对X′作逆变换,将向量转换成图像;
5.可扩展性的实现
可扩展性包括空间、时间和信噪比(SNR)可扩展性,本发明所涉及的是信噪比可扩展性,是通过降低向量组
所在线性空间的维数来减少数据量。向量组gi经主成分分析算法(PCA)降维后可表示为
其中
为线性空间的基,
为向量组的主成分分析系数,
为向量组gi的平均向量,sdi为该线性空间的维数,若线性空间只保留sdi-Δd维,则系数将减少Δd×(d+mi),原向量组可以近似地表示为:
其中m为分组后向量组的数目,mi为向量组gi的向量个数,dgi为向量组gi经主成分分析后的基向量的维数。
附图(5)给出了本发明的视频数据压缩编码方法的工作流程图。该方法的具体实施流程包括视频残差数据输入、数据预处理、用户指定向量模的阈值、向量集初步降维、建立混合线性模型、向量组降维、用户指定线性空间维数上限、舍弃维数大于上限的基及相应系数、重建视频残差。
视频残差数据输入,这里的视频图像残差是视频的原图像序列经运动预测和补偿后得到的残差图像。
数据预处理,将输入的视频残差数据映射到线性空间,用本发明所描述的向量表示方法得到向量集。
用户指定向量模的阈值,该阈值用来指导选取向量集中模较大的子集,对模小于该阈值的向量作零向量处理,该阈值也用来指导线性空间的降维,其中用于屏蔽零向量的二值向量是本发明的视频压缩编码方法输出的一部分。
向量集初步降维,对模大于阈值的子集用主成分分析算法(PCA)降维,用降维后的线性空间的一组基的叠加来表示向量集,其中线性空间的基和向量集的平均向量是本发明的视频压缩编码方法输出的一部分。
建立混合线性模型,对初步降维后向量的主成分分析系数构成的向量集用广义主成分分析算法(GPCA)分组,每个向量组对应一个线性子空间,其中向量的分组标签是本发明的视频压缩编码方法输出的一部分。
向量组降维,对向量组用主成分分析算法降维,得到子空间的基和向量的主成分分析系数,向量组的基,主成分分析系数和平均向量是本发明的视频压缩编码方法输出的一部分。
用户指定线性空间维数上限,该上限决定了需要舍弃的基和系数。
舍弃维数大于上限的基及相应系数,即对混合线性模型中的每个线性子空间,若其维数大于上限,则舍弃部分基及系数,否则不做变化。
重建视频残差,用视频压缩编码输出中的平均向量、基(或舍弃了部分基向量的基)和系数(与基对应,可舍弃部分系数),以及屏蔽零向量的二值向量和建立混合模型时产生的向量分组标签来恢复视频残差数据。
实施例1
附图(8)的实例采用附图(2)所示的向量表示方法。在保留相同数据量的情况下,附图(8)给出了两种残差数据处理方法(本发明中的方法和DCT方法)重建视频的所有图像帧的峰值信噪比(PSNR)平均值的比较。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
(1)用附图(2)所示的向量表示方法将每一帧残差图像都表示为:
在这里输入的视频残差是附图(6)所示的图像序列经运动预测和补偿后的残差图像,原图像大小W×H=352×288,窗口大小l×m=2×4,向量模的阈值ε=1.5。
(2)对每一帧残差图像的每个颜色分量{c_vectors,c=y,u,v}的向量表示都进行如下处理:
I 以步骤(2)所描述的方法对c_vectors进行初步降维,得到B,C,
x和mask;
II 用广义主成分分析算法(GPCA)对C进行分组,得到sambleLabel;
IV 以步骤(5)描述的方法实现视频数据的可扩展性。设置向量空间维数最大值Bound,在此例中D=8,因此经初步降维后的维数d≤8,各向量组映射到的子空间维数sdi≤d-1。Bound可取的范围为
已知各子空间维数sdi,可以将Bound从最大值逐渐减少至1。最后得到不同维数限制下的各子空间的基和系数。
(3)按步骤(4)描述的重建过程,用不同维数限制下的子空间的基和系数来重建视频残差,在此例中Bound的范围为1≤Bound≤7,因此可以得到7组不同信噪比的重建图像。
本实例中用作比较的方法是离散余弦变换(DCT),对残差图像的每个4×4大小的块做DCT变换,重建的过程即反DCT变换。当向量空间维数的上限Bound变化时,所保留的系数的比例ratio也在变化,对DCT系数保留ratio最重要的部分,将其余系数置为零。4×4的DCT系数的重要性可按附图(6)的顺序排列,系数的重要性随序号的增加递减。ratio的计算公式为:
实施例2
附图(9)的实例采用附图(3)所示的向量表示方法。在保留相同数据量的情况下,附图(9)给出了两种残差数据处理方法(本发明中的方法和DCT方法)重建视频的所有图像帧的峰值信噪比(PSNR)平均值的比较。下面结合本发明的方法详细说明该实例实施的具体步骤,如下:
(1)用附图(3)所示的向量表示方法将一组连续的残差图像表示为:
在这里输入的视频残差是附图(6)所示的图像序列经运动预测和补偿后的残差图像,原图像大小W×H=352×288,S=15,向量模的阈值ε=2。
(2)对每个颜色分量{c_vectors,c=y,u,v}的向量表示都进行如下处理:
I 以步骤(2)所描述的方法对c_vectors进行初步降维,得到B,C,
x和mask;
II 用广义主成分分析算法(GPCA)对C进行分组,得到sambleLabel;
III 以步骤(4)所描述的方法,对每个向量组gi进行降维,得到Bgi,Cgi和
IV 以步骤(5)描述的方法实现视频数据的可扩展性。设置向量空间维数最大值Bound,在此例中D=15,因此经初步降维后的维数d≤15,各向量组映射到的子空间维数sdi≤d-1。Bound可取的范围为
已知各子空间维数sdi,可以将Bound从最大值逐渐减少至1。最后得到不同维数限制下的各子空间的基和系数。
(3)按步骤(4)描述的重建过程,用不同维数限制下的子空间的基和系数来重建视频残差,在此例中Bound的范围为1≤Bound≤14,因此可以得到14组不同信噪比的重建图像。本实例中用作比较的方法是离散余弦变换(DCT),对残差图像的每个4×4大小的块做DCT变换,重建的过程即其反DCT变换。当向量空间维数的上限Bound变化时,所保留的系数的比例ratio也在变化,对DCT系数保留ratio最重要的部分,将其余系数置为零。4×4的DCT系数的重要性可按附图(6)的顺序排列,系数的重要性随序号的增加递减。ratio的计算公式为:
Claims (6)
1.一种视频数据压缩编码方法,其特征在于包括以下步骤:
(1)将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量的形式;
(2)用主成分分析算法对向量集进行初步的降维,并用降维后线性空间的一组基和向量在主成分分析中的系数来表示原向量集;
(3)用广义主成分分析算法对步骤(2)中得到的向量的系数进行分组;
(4)对每组系数构成的向量集用主成分分析算法降维,并用向量集的平均向量、所在线性空间的一组基和向量在主成分分析中的系数表示向量集;
(5)通过舍弃线性空间部分基向量和系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性。
2.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述将运动预测和补偿后的视频图像残差映射到线性空间,转换成向量的形式,其转换形式有如下三种:
(1)将图像划分为l×m的窗口,把窗口内各颜色分量的采样值置于同一向量中,则窗口内像素的颜色值组成D维的向量,那么图像帧Frame可以表示为:
Frame={xi∈RD,i=1,…,N},D=c1+c2+c3,N=W×H/(l×m) 1
其中W×H为原图像的大小,c1,c2,c3分别为窗口中各颜色分量的采样个数,D为向量维数,N为向量个数,如在YUV420格式图像中,窗口大小设为2×2,则c1=4,c2=1,c3=1,D=6;
(2)将图像的各颜色分量置于不同的向量中,对每一个颜色分量均取l×m个相邻的采样值,即水平和垂直方向采样个数分别为m和l,则每个颜色分量构成一个D维的向量集,以YUV420格式图像为例,图像帧Frame可以表示为:
Frame={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4}, 2
v_vectors={xi∈RD,i=1,…,N/4}
D=l×m,N=W×H/D,
其中W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量和两个色度分量构成的向量集,D为向量的维数,N为亮度分量的向量个数,N/4为色度分量的向量个数;
(3)向量不是由同一帧内的相邻像素组成,而是来自一组连续图像的所有帧,例如某颜色分量在同组所有图像的相同位置的采样值可以组成一个向量,以YUV420格式图像为例,各颜色分量分别组成向量集,则这组图像可以表示为:
GOP={y_vectors∈RD×N,u_vectors∈RD×N/4,v_vectors∈RD×N/4},
y_vectors={xi∈RD,i=1,…,N},
u_vectors={xi∈RD,i=1,…,N/4}, 3
v_vectors={xi∈RD,i=1,…,N/4}
D=S,N=W×H,
其中GOP表示一组连续图像,W×H为原图像的大小,y_vectors,u_vectors,v_vectors分别为图像的亮度分量和两个色度分量构成的向量集,D为向量的维数,S为这组连续图像中的图像数目,N为亮度分量的向量个数,N/4为色度分量的向量个数。
3.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述用主成分分析算法对向量集进行初步的降维,并用降维后线性空间的一组基和向量在主成分分析中的系数来表示原向量集:是将步骤(1)中得到的向量的集合X={xi∈RD,i=1,…,N}中模小于预设阈值ε的向量用零向量表示,但用N维的二值向量mask记录这些向量在原向量集的位置,即当‖xi‖<ε,mask(i)=0,当‖xi‖≥ε,mask(i)=1,将向量集合中mask(i)=1的子集X1={xi,i=1,…,n}减去平均向量
x得到ΔX,ΔX进行奇异值分解得到ΔX=USVT,从ΔX的奇异值分解中可以获得线性空间的基和向量在主成分分析中的系数,线性空间的维数为d,基为B∈Rd×D,向量在主成分分析中的系数为C∈Rd×n,其计算方法如下:
ΔX={xi-
x,i=1,…,n},
S=diagonal(α1,α2,…,αD),
B=U(:,1:d)T,
C=S(1:d,1:d)VT(1:d,:)
其中S为对角矩阵,{αi,i=1,…,D}是S对角线上的元素,视频残差的向量表示X可以表示为X=B+C+
x,由B,C,
x和mask可以重建残差数据。
4.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述用广义主成分分析算法对步骤(2)中得到的向量的系数进行分组:是用广义主成分分析算法将步骤(2)得到的系数C∈Rd×n中的样本向量映射到m个不同的线性子空间,分组的结果为:
其中mi为属于第i个子空间的向量个数,保留样本向量所属子空间的标签sambleLabel,即若向量xi∈gj,则sambleLabeli=j,广义主成分分析算法为样本数据建立混合线性模型,每组向量对应一个线性子空间,这样属于同一线性空间的向量往往有着相似的纹理或者属于同一对象,通过这种方法,不需要复杂的计算机视觉技术也可达到一定的图像分割效果。
5.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述对每组系数构成的向量集用主成分分析算法降维,并用向量集的平均向量、所在线性空间的一组基和向量在主成分分析中的系数表示向量集:是对步骤(3)的分组结果中的每一个向量组gi采用主成分分析算法进行降维,并用向量组的平均向量
向量组所在线性空间的一组基 和系数
表示该向量组,其中sdi是向量组gi所在线性空间的维数,平均向量
线性空间维数sdi、基Bgi、和向量的系数Cgi的计算方法与步骤(3)相同,所以视频残差的向量表示X可以进一步表示成为:
总的系数个数Count包括所有线性空间的基,向量在主成分分析中的系数和每个向量组的平均向量,其计算方法为:
其中D为原向量集合的向量维数,d为原向量集经过主成分分析后得到的线性子空间的维数,sdi为每组系数构成的向量集经过主成分分析后得到的线性子空间的维数,X的所有系数个数为N×D,当N远大于D时,在总的系数个数中基和平均向量系数的数量只占很小的比例;
视频残差数据的重建步骤如下:
输出:重建后的视频图像残差;
步骤1:重建每个向量组,
步骤2:根据向量的分组标签sambleLabel,将
重新排列得到重建的C′∈Rd×n;
步骤3:重建X1′=BT×C′+
x;
步骤4:根据二值向量mask,将零向量插入X1′的相应位置得到X′;
步骤5:将视频残差的向量表示X′转换成图像表示。
6.根据权利要求1所述的一种视频数据的压缩编码方法,其特征在于,所述通过舍弃线性空间部分基向量和系数,用子空间的信息来恢复视频数据,实现视频数据的可扩展性:是指通过降低向量组
所在线性空间的维数来减少视频的数据量,向量组gi经主成分分析算法降维后可表示为
其中
为线性空间的基,
为向量组经主成分分析后得到的系数,
为向量组gi的平均向量,sdi为该线性空间的维数,若线性空间只保留sdi-Δd维,则系数将减少Δd×(d+mi),原向量组可以近似地表示为: 在重建视频残差时,用gi′代替gi作为输入,因为每个向量组经主成分分析算法降维后得到的线性空间维数可能是不同的,所以可以设定一个维数的最大值Bound,然后以这个最大值作为所有线性空间维数的上限,对于维数sdi小于或等于Bound的向量组,其系数和基不做变化,而对于维数sdi大于Bound的向量组,它的基和系数都要舍弃Δdi=sdi-Bound维数据,减少的系数量为:
其中m为分组后向量组的数目,mi为向量组gi的向量个数,dgi为向量组gi经主成分分析后的基向量的维数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610053395 CN100502507C (zh) | 2006-09-14 | 2006-09-14 | 视频数据压缩编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610053395 CN100502507C (zh) | 2006-09-14 | 2006-09-14 | 视频数据压缩编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1921627A true CN1921627A (zh) | 2007-02-28 |
CN100502507C CN100502507C (zh) | 2009-06-17 |
Family
ID=37779160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200610053395 Expired - Fee Related CN100502507C (zh) | 2006-09-14 | 2006-09-14 | 视频数据压缩编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100502507C (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103501438A (zh) * | 2013-09-18 | 2014-01-08 | 浙江大学 | 一种基于主成分分析的内容自适应图像压缩方法 |
CN103873879A (zh) * | 2014-03-18 | 2014-06-18 | 中山大学深圳研究院 | 一种基于双重奇异值分解的视频图像压缩方法 |
WO2015131328A1 (en) * | 2014-03-04 | 2015-09-11 | Microsoft Technology Licensing, Llc | Adaptive switching of color spaces, color sampling rates and/or bit depths |
CN106331719A (zh) * | 2016-09-28 | 2017-01-11 | 武汉大学 | 一种基于k‑l变换误差空间拆分的图像数据压缩方法 |
US10116937B2 (en) | 2014-03-27 | 2018-10-30 | Microsoft Technology Licensing, Llc | Adjusting quantization/scaling and inverse quantization/scaling when switching color spaces |
US10182241B2 (en) | 2014-03-04 | 2019-01-15 | Microsoft Technology Licensing, Llc | Encoding strategies for adaptive switching of color spaces, color sampling rates and/or bit depths |
US10687069B2 (en) | 2014-10-08 | 2020-06-16 | Microsoft Technology Licensing, Llc | Adjustments to encoding and decoding when switching color spaces |
CN111406404A (zh) * | 2019-07-15 | 2020-07-10 | 上海极清慧视科技有限公司 | 获得视频文件的压缩方法、解压缩方法、系统及存储介质 |
-
2006
- 2006-09-14 CN CN 200610053395 patent/CN100502507C/zh not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103501438B (zh) * | 2013-09-18 | 2016-06-29 | 浙江大学 | 一种基于主成分分析的内容自适应图像压缩方法 |
CN103501438A (zh) * | 2013-09-18 | 2014-01-08 | 浙江大学 | 一种基于主成分分析的内容自适应图像压缩方法 |
RU2653295C2 (ru) * | 2014-03-04 | 2018-05-07 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Адаптивное переключение цветовых пространств, частот цветовой дискретизации и/или битовых глубин |
CN105230023A (zh) * | 2014-03-04 | 2016-01-06 | 微软技术许可有限责任公司 | 色彩空间、色彩采样率和/或比特深度的自适应切换 |
WO2015131328A1 (en) * | 2014-03-04 | 2015-09-11 | Microsoft Technology Licensing, Llc | Adaptive switching of color spaces, color sampling rates and/or bit depths |
US10171833B2 (en) | 2014-03-04 | 2019-01-01 | Microsoft Technology Licensing, Llc | Adaptive switching of color spaces, color sampling rates and/or bit depths |
US10182241B2 (en) | 2014-03-04 | 2019-01-15 | Microsoft Technology Licensing, Llc | Encoding strategies for adaptive switching of color spaces, color sampling rates and/or bit depths |
CN105230023B (zh) * | 2014-03-04 | 2019-10-18 | 微软技术许可有限责任公司 | 色彩空间、色彩采样率和/或比特深度的自适应切换 |
CN103873879A (zh) * | 2014-03-18 | 2014-06-18 | 中山大学深圳研究院 | 一种基于双重奇异值分解的视频图像压缩方法 |
US10116937B2 (en) | 2014-03-27 | 2018-10-30 | Microsoft Technology Licensing, Llc | Adjusting quantization/scaling and inverse quantization/scaling when switching color spaces |
US10687069B2 (en) | 2014-10-08 | 2020-06-16 | Microsoft Technology Licensing, Llc | Adjustments to encoding and decoding when switching color spaces |
CN106331719A (zh) * | 2016-09-28 | 2017-01-11 | 武汉大学 | 一种基于k‑l变换误差空间拆分的图像数据压缩方法 |
CN111406404A (zh) * | 2019-07-15 | 2020-07-10 | 上海极清慧视科技有限公司 | 获得视频文件的压缩方法、解压缩方法、系统及存储介质 |
WO2021007742A1 (zh) * | 2019-07-15 | 2021-01-21 | 上海极清慧视科技有限公司 | 获得视频文件的压缩方法、解压缩方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100502507C (zh) | 2009-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1921627A (zh) | 视频数据压缩编码方法 | |
CN1225126C (zh) | 用于视频编码的新型空间预测方法及其装置 | |
CN1232122C (zh) | 用于编码和/或解码运动图像的方法和装置 | |
CN1742488A (zh) | 用于编码和解码立体视频的方法和装置 | |
CN1829326A (zh) | 色彩空间可伸缩性视频编码和解码方法及其设备 | |
CN1347620A (zh) | 转换mpeg-2 4:2:2-轮廓位流为主轮廓位流的方法及架构 | |
CN1794815A (zh) | 产生对图像或图像序列进行编码的量化矩阵的方法和设备 | |
CN1926884A (zh) | 视频编码方法和装置 | |
CN1625265A (zh) | 用于可伸缩视频编码和解码的方法和设备 | |
CN1947426A (zh) | 用于实现运动可伸缩性的方法和设备 | |
CN1870754A (zh) | 减少分块现象的编/解码装置、方法及计算机可读记录介质 | |
CN1247670A (zh) | 编码系统中用于优化速率控制的装置和方法 | |
CN1383684A (zh) | 彩色视频编码与解码方法 | |
CN1757240A (zh) | 视频编码 | |
CN1302419A (zh) | 缩放压缩的图象 | |
CN101715135A (zh) | 基于模板匹配的自适应帧内预测滤波编码方法 | |
CN1808469A (zh) | 图像检索装置及方法、程序和程序记录介质 | |
CN1930890A (zh) | 用于可缩放视频编码和解码的方法和设备 | |
CN1751522A (zh) | 利用对选定宏块的跳过移动估计进行的视频编码 | |
CN1723711A (zh) | 用于数字视频处理的一元化量度(umdvp) | |
CN1225919C (zh) | 编码图像信息的方法和设备及解码图像信息的方法和设备 | |
CN1713729A (zh) | 一种视频压缩方法 | |
CN1225904C (zh) | 在压缩域视频处理中降低存储器要求和实施有效的逆运动补偿的方法和设备 | |
CN101056408A (zh) | 用于确定视频编码中跳跃模式的阈值的方法和装置 | |
CN1871858A (zh) | 规格化视觉品质的比特率控制方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090617 Termination date: 20120914 |