CN104363460A - 一种基于三维自组织映射的立体图像编码方法 - Google Patents
一种基于三维自组织映射的立体图像编码方法 Download PDFInfo
- Publication number
- CN104363460A CN104363460A CN201410734545.5A CN201410734545A CN104363460A CN 104363460 A CN104363460 A CN 104363460A CN 201410734545 A CN201410734545 A CN 201410734545A CN 104363460 A CN104363460 A CN 104363460A
- Authority
- CN
- China
- Prior art keywords
- vector
- code
- image
- dimensional
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于三维自组织映射的立体图像编码方法,用3DSOM算法对左右图像,获得最优的量化码书;将左图作为输入矢量,进行量化编码,由左图和量化码矢获得量化误差,并对其进行DCT变换、量化和霍夫曼编码;解码端用重建左图、视差估计误差和视差矢量重建右图,实现对立体图像的有效编码。还引用了一个距离不等式作判据,同时引入了一个频率敏感因子,对三维自组织映射算法进行了改进,降低了失真测度计算复杂度,提高了码书性能,接着本发明将改进的三维自组织映射算法应用到了立体图像编码中,有效的提高了左图像的编码效率,降低了重建右图的方块效应。
Description
技术领域
本发明涉及图像处理领域,具体为一种基于三维自组织映射的立体图像编码方法。
背景技术
立体图像增加了景物的深度信息,具有强烈的临场感和真实感,因此正越来越受到人们的追捧,立体图像目前应用最广泛的是双目视图方案,利用双目视差原理产生立体感,但与二维平面图像相比,立体图像数据量成倍的增加了,因此,需要对立体图像进行压缩编码,以便能有效地传输和存储。
为了解决上述问题,目前主要的立体图像编码方法有基于小波法、与MPEG(MovingPictures Experts Group,动态图像专家组)标准结合基于块的方法以及基于模式识别的编码方法。
方法1:基于小波的立体图像编码方法对参考图像和估计的视差图都采用小波变换编码,而视差估计则采用简化的块图像匹配方法,该方法虽然大大降低计算复杂度,但当压缩比较高时,重建图像的质量较差。
方法2:与MPEG标准结合的算法是当前在实际中使用较多的方案,该方案使用JPEG(JointPhotographic Experts Group,联合图像专家组)标准对左图像进行编码,利用视差估计技术从重建左图像获取预测右图像,预测误差也使用类似于JPEG标准的方法进行编码,该方案虽考虑到了左右图像之间的相关性,但压缩效率仍较低,且重建图像存在明显的块效应。
方法3:基于模式识别的立体图像编码方法是一种新的图像编码方法,该方法对右图像采用DE(Disparity Estimation,视差估计)补偿技术编码,对左图像则使用基于SOM(Self-organizing Map,自组织映射)算法的矢量量化编码来取代传统的JPEG方法,矢量量化与视差估计的残差均使用DCT(Discrete Cosine Transform,离散余弦变换)+霍夫曼进行编码,该方法能较好的克服变换编码适应性不足的缺点且压缩效率较高,但计算复杂度高,同时也存在一定的方块效应。
发明内容
针对现有技术的不足,本发明提供一种基于三维自组织映射的立体图像编码方法,该方法降低了算法计算复杂度,提高了左图像的编码效率同时明显降低了重建右图的方块效应。
实现本发明目的的技术方案是:
一种基于三维自组织映射的立体图像编码方法,包括如下步骤:
1)采用3DSOM(Three-dimensional Self-organizing Map,三维自组织映射)算法对左右图像进行分块学习训练,获得最优的矢量量化码书;
2)将左图作为输入矢量,进行基于3DSOM的矢量量化编码,由左图和矢量量化码矢获得矢量量化误差,并对其进行DCT变换、量化和霍夫曼编码;
3)对编码后的码流进行解码,由解码后的矢量量化误差和矢量量化码矢对左图进行重建,即将解码后得到的矢量量化误差和矢量量化码矢进行求和匹配运算,得到重建左图;
4)将立体图像对中的右图进行分块,利用重建左图,使用固定块视差估计补偿技术获得右图的预测图像及视差矢量;
5)由右图的预测图像和右图进行做差运算得到视差估计误差,对视差估计误差图像分块进DCT变换、量化和霍夫曼编码;
6)在解码端由重建左图、视差估计误差和视差矢量对右图进行重建,从而实现了对立体图像的有效编码。
步骤1中,设置自组织神经网络大小为(N,M),其中N为码书大小,即输出层输出神经元的个数,M为输入训练矢量的大小,训练矢量集为S={X1,X2…,XM},网络输入节点为k(等于矢量维数),各输入节点到各输出节点的权值为Wji,l=1,2…,k,j=1,2…,N,失真测度为d(xi,wj),一般采用均方误差准则。
采用频率敏感函数对失真测度进行修正,即
式中,s为频率敏感参数,cj为响应计数器,每响应一次cj加1,t为迭代次数。通过引入频率敏感函数降低了获胜码矢再次成为响应码矢的可能,使码书中每个码矢都能得到充分利用,从而获得最优的矢量量化码书。
使用一个距离不等式判据准则,降低失真测度的计算复杂度,定义一个输入矢量的和值为i=1,2…M,码字Wj的和值为即输入训练矢量与码书中各码矢间的失真为容易证明:
若引入频域敏感因子则有 由于f(cj)≥1所以(2)式仍然满足,
设当前的最小失真为dmin,并令
MD=kdmin,若 则根据式(2)可得
d(xi,wj)≥dmin (4)
因此可以在每次搜索获胜神经元前,预先计算N个码字的和值并保存在码书中,同时在搜索获胜神经元的过程中预先计算MD,然后判断码字Wj的和值是否满足(3)式,若满足,则码字Wj可以排除,从而免去距离计算,降低了算法的计算复杂度。
步骤4中,视差估计实质上就是寻找同一空间点在左右图像对上投影点之间的匹配关系,视差矢量就是两个对应点之间的位置差异,它代表了左右图像在空间上的冗余信息,本发明中使用固定8×8块进行视差估计,视差补偿与视频压缩中的运动补偿技术相似,在视差补偿中,通过参考图像得到目标图像的预测图像,对预测图像和目标图像做差,得到残差图像。
本申请的优点或有益效果在于:
本发明采用了一个距离不等式判据同时引入了一个频率敏感因子对三维自组织映射算法进行了改进,降低了失真测度计算复杂度,提高了码书性能,接着本发明将改进的三维自组织映射算法应用到了立体图像编码中,有效的提高了左图像的编码效率,降低了重建右图的方块效应。
附图说明
图1是本发明的算法结构框图;
图2是本发明的三维SOM算法输入输出层网络结构,图中仅展示了一个神经元的权值连接;
图2中A是三维神经网络结构的行数;B是三维神经网络结构的列数;C是三维神经网络结构的层数。
具体实施方式
下面结合附图和实施例对本发明内容作进一步详细描述,但不是对本发明的限定。
实施例:
如图1所示,一种基于三维自组织映射的立体图像编码方法,包括如下步骤:
1)采用3DSOM算法对左右图像进行分块学习训练,获得最优的矢量量化码书;
2)将左图作为输入矢量,进行基于3DSOM的矢量量化编码,由左图和矢量量化码矢获得矢量量化误差,并对其进行DCT变换、量化和霍夫曼编码;
3)对编码后的码流进行解码,由解码后的矢量量化误差和矢量量化码矢对左图进行重建,即将解码后得到的矢量量化误差和矢量量化码矢进行求和匹配运算,得到重建左图;
4)将立体图像对中的右图进行分块,利用重建左图,使用固定块视差估计补偿技术获得右图的预测图像及视差矢量;
5)由右图的预测图像和右图进行做差运算得到视差估计误差,对视差估计误差图像分块进DCT变换、量化和霍夫曼编码;
6)在解码端由重建左图、视差估计误差和视差矢量对右图进行重建,从而实现了对立体图像的高效编码。
步骤1)中,如图2所示,三维邻域SOM网络由二维输入层和三维输出层组成。输出层码书N被排列成N=A*B*C三维立体结构,合理的对3个参数进行分配能有效地提高算法性能。输出层每个神经元都和输入层所有节点通过权值向量进行联系,竞争学习过程中不仅获胜神经元的权值不断得到调整,该神经元邻域内的神经元权值也被调整。全部输入样本训练完后,就得到了每个神经元的所有权值和稳定的神经元拓扑关系图,图像压缩时所需的码书就由此构成。
采用频率敏感函数对失真测度进行修正,即
式中,s为频率敏感参数,cj为响应计数器,每响应一次cj加1,t为迭代次数。通过引入频率敏感函数降低了获胜码矢再次成为响应码矢的可能,使码书中每个码矢都能得到充分利用,从而获得最优的矢量量化码书。
使用一个距离不等式判据准则,降低失真测度的计算复杂度,定义一个输入矢量的和值为i=1,2…M,码字Wj的和值为即输入训练矢量与码书中各码矢间的失真为容易证明:
若引入频域敏感因子则有 由于f(cj)≥1所以(2)式仍然满足,
设当前的最小失真为dmin,并令
MD=kdmin,若 则根据式(2)可得
d(xi,wj)≥dmin (4)
因此可以在每次搜索获胜神经元前,预先计算N个码字的和值并保存在码书中,同时在搜索获胜神经元的过程中预先计算MD,然后判断码字Wj的和值是否满足(3)式,若满足,则码字Wj可以排除,从而免去距离计算,降低了算法的计算复杂度。
所述的3DSOM算法,包括如下步骤:
a)初始化码书{Wjl(0)=wjl,l=1,2,…k,j=1,2,…N},用各训练矢量的方差把训练矢量集分成低频和高频两个部分,然后分别从低频和高频部分中抽出一定数量的矢量构成初始码书,并将码矢排列成A*B*C的三维立体结构;
b)计算当前码书中各码矢wjl(t)的和值同时计算输入训练矢量Xi的和值Xi以并行方式输入到每一个神经元;
c)根据(3)式提出的不等式判据以及引入频率敏感因子后(1)式失真测度的表达式,搜索具有最小失真的码矢j*作为响应码矢,即
式中,s为频率敏感参数,选择具有最小失真的模式矢量j*,即
d)调整响应码矢j*及j*的拓扑邻域NE范围内的码矢
式中NEj*(t)为
码矢j*的邻域,邻域函数通常为
a(cj)为学习速度,一般选用单调递减函数
e)返回步骤b),直到训练完所有的输入矢量。
步骤1中,通过采用改进的3DSOM算法对输入的图像矢量进行学习训练,减小了算法计算复杂度,得到了最优的矢量量化码书。
步骤4中,视差估计实质上就是寻找同一空间点在左右图像对上投影点之间的匹配关系,视差矢量就是两个对应点之间的位置差异,它代表了左右图像在空间上的冗余信息,本发明中使用固定8×8块进行视差估计,视差补偿与视频压缩中的运动补偿技术相似,在视差补偿中,通过参考图像得到目标图像的预测图像,对预测图像和目标图像做差,得到残差图像。
步骤5中,由右图的预测图像和右图进行做差运算得到视差估计误差,对视差估计误差进行类似于JPEG标准的方法进行编码。
步骤6中,在解码端由重建左图、视差估计误差和视差矢量对右图进行重建,从而实现了对立体图像的有效编码。
本方法采用了一个距离不等式判据同时引入了一个频率敏感因子对三维自组织映射算法进行了改进,降低了失真测度计算复杂度,提高了码书性能,接着本发明将改进的三维自组织映射算法应用到了立体图像编码中,有效的提高了左图像的编码效率,降低了重建右图的方块效应。
Claims (6)
1.一种基于三维自组织映射的立体图像编码方法,其特征是,包括如下步骤:
1)采用3DSOM(Three-dimensional Self-organizing Map,三维自组织映射)算法对左右图像进行分块学习训练,获得最优的矢量量化码书;
2)将左图作为输入矢量,进行基于3DSOM的矢量量化编码,由左图和矢量量化码矢获得矢量量化误差,并对其进行DCT变换、量化和霍夫曼编码;
3)对编码后的码流进行解码,由解码后的矢量量化误差和矢量量化码矢对左图进行重建,即将解码后得到的矢量量化误差和矢量量化码矢进行求和匹配运算,得到重建左图;
4)将立体图像对中的右图进行分块,利用重建左图,使用固定块视差估计补偿技术获得右图的预测图像及视差矢量;
5)由右图的预测图像和右图进行做差运算得到视差估计误差,对视差估计误差图像分块进DCT变换、量化和霍夫曼编码;
6)在解码端由重建左图、视差估计误差和视差矢量对右图进行重建,从而实现了对立体图像的有效编码。
2.根据权利要求1所述的基于三维自组织映射的立体图像编码方法,其特征是,步骤1中,设置自组织神经网络大小为(N,M),其中N为码书大小,即输出层输出神经元的个数,M为输入训练矢量的大小,训练矢量集为S={X1,X2...,XM},网络输入节点为k(等于矢量维数),各输入节点到各输出节点的权值为Wjl,l=1,2...,k,j=1,2...,N,
采用频率敏感函数对失真测度进行修正,即
降低了获胜码矢再次成为响应码矢的可能,使码书中每个码矢都能得到充分利用,使用一个距离不等式判据准则,有效降低计算复杂度,定义一个输入矢量的和值为i=1,2...M,码字Wj的和值为即输入训练矢量与码书中各码矢间的失真为 容易证明:
若引入频域敏感因子则有 由于f(cj)≥1所以(2)式仍然满足,
设当前的最小失真为dmin,并令MD=kdmin,若则根据式(2)可得d(xi,wj)≥dmin (4)
因此可以在每次搜索获胜神经元前,预先计算N个码字的和值并保存在码书中,同时在搜索获胜神经元的过程中预先计算MD,然后判断码字Wj的和值是否满足(3)式,若满足,则码字Wj可以排除。
3.根据权利要求1所述的基于三维自组织映射的立体图像编码方法,其特征是,步骤4中,视差估计实质上就是寻找同一空间点在左右图像对上投影点之间的匹配关系,视差矢量就是两个对应点之间的位置差异,它代表了左右图像在空间上的冗余信息,本发明中使用固定8×8块进行视差估计,视差补偿与视频压缩中的运动补偿技术相似,在视差补偿中,通过参考图像得到目标图像的预测图像,对预测图像和目标图像做差,得到残差图像。
4.根据权利要求1所述的基于三维自组织映射的立体图像编码方法,其特征是,步骤5中,由右图的预测图像和右图进行做差运算得到视差估计误差,对视差估计误差进行类似于JPEG标准的方法进行编码。
5.根据权利要求1所述的基于三维自组织映射的立体图像编码方法,其特征是,步骤6中,在解码端由重建左图、视差估计误差和视差矢量对右图进行重建,从而实现了对立体图像的有效编码。
6.根据权利要求1所述的基于三维自组织映射的立体图像编码方法,其特征是,所述的3DSOM
算法,包括如下步骤:
a)初始化码书{Wjl(0)=wjl,l=1,2,…k,j=1,2,…N},用各训练矢量的方差把训练矢量集分成低频和高频两个部分,然后分别从低频和高频部分中抽出一定数量的矢量构成初始码书,并将码矢排列成A*B*C的三维立体结构;
b)计算当前码书中各码矢wjl(t)的和值同时计算输入训练矢量Xi的和值Xi以并行方式输入到每一个神经元;
c)根据(3)式提出的不等式判据以及引入频率敏感因子后(1)式失真测度的表达式,搜索具有最小失真的码矢j*作为响应码矢,即
式中,s为频率敏感参数,选择具有最小失真的模式矢量j*,即
d)调整响应码矢j*及j*的拓扑邻域NE范围内的码矢
(6)式中为码矢j*的邻域,邻域函数通常为
a(cj)为学习速度,一般选用单调递减函数
e)返回步骤b),直到训练完所有的输入矢量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410734545.5A CN104363460A (zh) | 2014-12-05 | 2014-12-05 | 一种基于三维自组织映射的立体图像编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410734545.5A CN104363460A (zh) | 2014-12-05 | 2014-12-05 | 一种基于三维自组织映射的立体图像编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104363460A true CN104363460A (zh) | 2015-02-18 |
Family
ID=52530679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410734545.5A Pending CN104363460A (zh) | 2014-12-05 | 2014-12-05 | 一种基于三维自组织映射的立体图像编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104363460A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104902256A (zh) * | 2015-05-21 | 2015-09-09 | 南京大学 | 一种基于运动补偿的双目立体图像编解码方法 |
CN105530702A (zh) * | 2016-01-25 | 2016-04-27 | 杭州电子科技大学 | 一种基于自组织映射的无线传感网络移动节点定位方法 |
CN105933691A (zh) * | 2016-05-13 | 2016-09-07 | 桂林电子科技大学 | 基于分类频率敏感三维自组织映射的视差估计方法 |
CN105959701A (zh) * | 2016-05-13 | 2016-09-21 | 桂林电子科技大学 | 基于三维自组织映射的立体视频视差估计方法 |
CN106028043A (zh) * | 2016-05-13 | 2016-10-12 | 桂林电子科技大学 | 基于新的邻域函数的三维自组织映射图像编码方法 |
CN108230235A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN113542758A (zh) * | 2020-04-15 | 2021-10-22 | 辉达公司 | 生成对抗神经网络辅助的视频压缩和广播 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103763565A (zh) * | 2014-01-24 | 2014-04-30 | 桂林电子科技大学 | 基于三维自组织映射的视差图像编码方法 |
-
2014
- 2014-12-05 CN CN201410734545.5A patent/CN104363460A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103763565A (zh) * | 2014-01-24 | 2014-04-30 | 桂林电子科技大学 | 基于三维自组织映射的视差图像编码方法 |
Non-Patent Citations (8)
Title |
---|
JIANG QIN: "A Wavelet Based Stereo Image Coding Algorithm", 《ACOUSTICS,SPEECH,AND SIGNAL PROCESSING》 * |
刘爽: "视差立体视频对象提取与DT网格压缩编码", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张成等: "改进的自组织特征映射算法及其在图像矢量量化中的应用", 《兰州大学学报(自然科学版)》 * |
李达等: "一种改进的立体图像编码算法", 《北京师范大学学报(自然科学版)》 * |
白雪: "基于视点映射的立体视频编码研究", 《基于视点映射的立体视频编码研究 信息科技辑》 * |
陆哲明等: "基于自组织特征映射神经网络的矢量量化", 《中国图象图形学报》 * |
韩军功: "立体图像和视频编码的理论及算法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
黎洪松: "新的学习矢量量化初始码书算法", 《北京邮电大学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104902256A (zh) * | 2015-05-21 | 2015-09-09 | 南京大学 | 一种基于运动补偿的双目立体图像编解码方法 |
CN105530702A (zh) * | 2016-01-25 | 2016-04-27 | 杭州电子科技大学 | 一种基于自组织映射的无线传感网络移动节点定位方法 |
CN105933691A (zh) * | 2016-05-13 | 2016-09-07 | 桂林电子科技大学 | 基于分类频率敏感三维自组织映射的视差估计方法 |
CN105959701A (zh) * | 2016-05-13 | 2016-09-21 | 桂林电子科技大学 | 基于三维自组织映射的立体视频视差估计方法 |
CN106028043A (zh) * | 2016-05-13 | 2016-10-12 | 桂林电子科技大学 | 基于新的邻域函数的三维自组织映射图像编码方法 |
CN105933691B (zh) * | 2016-05-13 | 2017-11-10 | 桂林电子科技大学 | 基于分类频率敏感三维自组织映射的视差估计方法 |
CN106028043B (zh) * | 2016-05-13 | 2018-08-31 | 桂林电子科技大学 | 基于新的邻域函数的三维自组织映射图像编码方法 |
CN105959701B (zh) * | 2016-05-13 | 2019-03-19 | 桂林电子科技大学 | 基于三维自组织映射的立体视频视差估计方法 |
CN108230235A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN108230235B (zh) * | 2017-07-28 | 2021-07-02 | 北京市商汤科技开发有限公司 | 一种视差图生成系统、方法及存储介质 |
CN113542758A (zh) * | 2020-04-15 | 2021-10-22 | 辉达公司 | 生成对抗神经网络辅助的视频压缩和广播 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104363460A (zh) | 一种基于三维自组织映射的立体图像编码方法 | |
CN101668205B (zh) | 基于残差宏块自适应下采样立体视频压缩编码方法 | |
WO2019213986A1 (zh) | 一种基于多角度自适应帧内预测的点云属性压缩方法 | |
CN103618907B (zh) | 基于压缩感知多视点分布式视频编码及帧排列装置及方法 | |
CN102970529B (zh) | 一种基于对象的多视点视频分形编码压缩与解压缩方法 | |
CN108259916B (zh) | 一种分布式视频压缩感知中帧内最佳匹配插值重构方法 | |
CN104641643A (zh) | 在分层层级中信号编码、解码和重构期间残差数据的分解 | |
CN101980537A (zh) | 一种基于对象和分形的双目立体视频压缩编解码方法 | |
CN102281446B (zh) | 一种分布式视频编码中基于视觉感知特性的量化方法 | |
CN110392258A (zh) | 一种联合时空边信息的分布式多视点视频压缩采样重建方法 | |
CN103763564A (zh) | 基于边缘无损压缩的深度图编码方法 | |
CN113132727B (zh) | 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法 | |
CN103596006A (zh) | 基于视觉冗余度量的图像压缩方法 | |
WO2017092072A1 (zh) | 一种分布式视频编码框架 | |
CN103688544A (zh) | 用于对数字图像序列进行编码的方法 | |
CN102316323A (zh) | 一种快速的双目立体视频分形压缩与解压缩方法 | |
CN112637599A (zh) | 一种基于分布式压缩视频感知系统的新型重构方法 | |
Hachicha et al. | 1D directional DCT-based stereo residual compression | |
CN103295249B (zh) | 一种多视角压缩感知图像的重建方法 | |
CN103647969B (zh) | 一种基于对象的快速分形视频压缩与解压缩方法 | |
CN103702120A (zh) | 一种合成视点主观失真估计方法 | |
CN102263952A (zh) | 一种基于对象的快速双目立体视频分形压缩与解压缩方法 | |
Bensalma et al. | Optimizing the disparity map by the integration of HVS binocular properties for efficient coding of stereoscopic images | |
CN102625124B (zh) | 一种立体编码、解码装置及系统 | |
Deng et al. | MASIC: Deep Mask Stereo Image Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150218 |