CN102413332B - 基于时域增强的视点合成预测多视点视频编码方法 - Google Patents

基于时域增强的视点合成预测多视点视频编码方法 Download PDF

Info

Publication number
CN102413332B
CN102413332B CN 201110392122 CN201110392122A CN102413332B CN 102413332 B CN102413332 B CN 102413332B CN 201110392122 CN201110392122 CN 201110392122 CN 201110392122 A CN201110392122 A CN 201110392122A CN 102413332 B CN102413332 B CN 102413332B
Authority
CN
China
Prior art keywords
frame
viewpoint
pixel
initial
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110392122
Other languages
English (en)
Other versions
CN102413332A (zh
Inventor
胡瑞敏
胡金晖
王中元
段漭
严飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kean electric Polytron Technologies Inc
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN 201110392122 priority Critical patent/CN102413332B/zh
Publication of CN102413332A publication Critical patent/CN102413332A/zh
Application granted granted Critical
Publication of CN102413332B publication Critical patent/CN102413332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及多视点视频编码领域,尤其涉及一种基于时域增强的视点合成预测多视点视频编码方法。本发明在编码当前视点待编码帧时,首先利用已编码的邻近视点在同一时刻的帧及该帧的深度图像合成当前视点待编码帧的初始合成视点帧;然后,对当前视点的已编码重建帧建立统计背景模型,得到当前视点待编码帧的背景图像;其次,利用当前视点待编码帧的背景图像对初始合成视点图像进行区域增强,得到最终的合成视点帧;再次,将上述合成视点帧加入当前视点待编码帧的参考帧列表;最后,编码器对当前视点待编码帧进行编码。本发明利用当前视点内已解码的时域信息来增强合成视点的预测效率,进一步提高了基于视点合成预测的多视点视频编码效率。

Description

基于时域增强的视点合成预测多视点视频编码方法
技术领域
本发明涉及多视点视频编码领域,尤其涉及一种基于时域增强的视点合成预测多视点视频编码方法。
背景技术
进入二十世纪九十年代后,多媒体技术获得了迅猛发展,2D视频技术已深入到人们日常生活的各个方面,逐渐步入成熟。然而,由于人们对视频欣赏要求的日益提高,人们希望记录自然景物的视频能够更加逼真自然,随着立体显示技术的发展,立体视频满足了人们的需求。立体视频是通过模拟人的立体感觉而设计的,在科学技术高速发展的现在受到了热烈的欢迎并有着广泛应用。
从立体视频的表达形式来看,立体视频分为双目立体视频、多视点视频、多视点视频加深度视频、自由视点电视(FTV)等。立体视频与传统的单通道视频相比,要处理至少翻一倍的数据量,而对于多视点视频,通常是几倍于传统的单通道视频,所以必须采用更高效的数字压缩编码技术,才能对多视点视频数据进行有效的存储和传输。同时,随着人们对视频观看质量要求的提高,高分辨率、高清晰度是今后的趋势,这将带来视频数据量的急剧增加,仅仅依靠网络带宽的提高和存储量的提高是无法解决这个问题的,高效的数据压缩非常必要。
为了降低自由视点视频的数据量, ITU-T和MPEG的联合视频组(JVT)制订了采用视点预测机制的多视点视频编码标准(MVC),得到了业界的广泛认可。尽管MVC的编码效率较simulcast提高了25%,编码码率依然与视点数的成比增长,随着自由视点电视技术的逐步发展,未来将无法满足自由视点电视的编码需求。为此,MPEG在2007年4月提出多视加深度的编码(MVD)形式。深度图像是用来表示场景中像素深度信息的灰度图像,可以有效表示三维场景几何信息,在解码端可以辅助生成任意视点的虚拟视图。尤其是在自由视点电视应用中,该表现形式能有效表示三维场景,降低了传输视点的个数,一定程度上节省了传输带宽,深度图像的引入为多视点视频编码提供了更广阔的空间。
多视点视频编码中,由于拍摄角度的差异,多个摄像机在拍摄同一场景时,视点之间存在几何失真,为了补偿视点间的几何失真,提高视间预测的效率,研究者们提出了基于虚拟视点合成预测的多视点视频编码方法(例如:MARTINIAN E, BEHRENS A, XIN J. View synthesis for multiview video compression[A]. 25th PCS Proceedings: Picture Coding Symposium[C]. Beijing, China, 2006;Sehoon Yea, Anthony Vetro. View synthesis prediction for multiview video coding[J]. Signal Processing: Image Communication, Vol.24, pp.89–100,2008.),利用深度图像合成一个虚拟视图用作当前编码图像的参考图像,并要求生成的虚拟视图比视点间参考图像更接近于当前编码图像, 从而提高 MVC的编码效率。然而目前的方法中,虚拟视图的合成质量不仅取决于深度信息的准确性,还极易受到视点间光照、颜色差异的影响,尤其在多视点监控场景下,不同摄像机接收光源角度不同,不同视点间的背景亮度存在差异,并且如果视点间角度差异较大的话,合成视点的对象区域边缘还会出现空洞,这些差异极大限制了基于虚拟视点合成预测多视点视频编码方法的编码效率。进一步通过实验证明,在中高码率下,对于non-anchor帧(非关键帧),当前视图待编码帧中仅有7.6%的块选择虚拟视图来进行预测,与时域预测块与视点间预测块相比,所占的比重最小。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于时域增强的视点合成预测多视点视频编码方法,提高多视点视频的编码效率。
    本发明的技术方案为一种基于时域增强的视点合成预测多视点视频编码方法,在编码当前视点待编码帧时,进行以下步骤,
步骤1,根据已编码的邻近视点在同一时刻的帧及该帧的深度图像,合成当前视点待编码帧的初始合成视点帧;
步骤2,对当前视点的已编码重建帧建立统计背景模型,得到当前视点待编码帧的背景图像;
步骤3,根据用步骤2所得当前视点待编码帧的背景图像,对步骤1所得初始合成视点图像进行区域增强,得到最终的合成视点帧;
步骤4,将步骤3所得合成视点帧加入当前视点待编码帧的参考帧列表;
步骤5,根据参考帧列表对当前视点待编码帧进行编码。
而且,步骤1中,合成当前视点待编码帧的初始合成视点帧采用以下步骤实现,
步骤1.1,对已编码的邻近视点在同一时刻的帧中的每一个像素进行三维图像变换映射,得到当前视点待编码帧的初始合成视点帧,记为                                                
Figure 519162DEST_PATH_IMAGE001
,采用公式如下, 
Figure 2011103921226100002DEST_PATH_IMAGE002
Figure 453358DEST_PATH_IMAGE003
 
Figure 2011103921226100002DEST_PATH_IMAGE004
其中,
Figure 959426DEST_PATH_IMAGE005
为世界坐标系中的坐标,
Figure 2011103921226100002DEST_PATH_IMAGE006
为已编码的邻近视点在同一时刻的帧中的像素坐标,
Figure 113327DEST_PATH_IMAGE007
为已编码的邻近视点在同一时刻的帧中像素坐标
Figure 933515DEST_PATH_IMAGE006
处的深度值,
Figure 2011103921226100002DEST_PATH_IMAGE008
为初始合成视点帧的像素坐标,表示对像素坐标
Figure 900651DEST_PATH_IMAGE008
的横坐标和纵坐标分别取整,
Figure 2011103921226100002DEST_PATH_IMAGE010
为初始合成视点帧中像素坐标
Figure 338586DEST_PATH_IMAGE009
处的像素值,
Figure 461000DEST_PATH_IMAGE011
为已编码的邻近视点在同一时刻的帧中像素坐标处的像素值, 
Figure DEST_PATH_IMAGE012
为视点索引,
Figure 719123DEST_PATH_IMAGE013
为帧索引,
Figure DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,
Figure 582037DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
为摄像机参数,分别表示内参矩阵、旋转矩阵和平移矢量;
步骤1.2,已编码的邻近视点在同一时刻的帧中每一个像素映射得到的像素坐标
Figure 744028DEST_PATH_IMAGE009
构成集合;通过如下公式,判断初始合成视点中的空洞位置:
Figure 507322DEST_PATH_IMAGE019
其中,
Figure 791673DEST_PATH_IMAGE012
为视点索引,
Figure 938621DEST_PATH_IMAGE013
为帧索引,
Figure DEST_PATH_IMAGE020
为当前视点待编码帧的图像中每一个像素的坐标,1≤ , 1≤
Figure 23569DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
Figure 416504DEST_PATH_IMAGE022
为图像高度,
Figure 316327DEST_PATH_IMAGE024
为图像宽度,
Figure 336234DEST_PATH_IMAGE025
表示空洞。表示初始合成视点中像素的空洞标志,如该值为1,则表示该像素所在位置不是空洞,反之则为空洞。 
而且,步骤2采用中值背景建模方法对当前视点的已编码重建帧建立统计背景模型,得到当前视点待编码图像的背景图像
Figure 372323DEST_PATH_IMAGE027
Figure 936159DEST_PATH_IMAGE012
为视点索引,
Figure 57699DEST_PATH_IMAGE013
为帧索引,
Figure 427500DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,中值背景建模方法的实现方式如下,
用当前视点的K个已编码重建帧作为训练样本,从每个已编码重建帧的图像中取像素坐标为
Figure DEST_PATH_IMAGE028
处的像素值,所得K个像素值构成集合
Figure 521358DEST_PATH_IMAGE029
,对集合
Figure 256096DEST_PATH_IMAGE029
中K个像素值进行降序排序,取降序排序后的K个像素值的中值作为背景图像中坐标为
Figure 864932DEST_PATH_IMAGE028
处的像素值。
而且,步骤3中,对初始合成视点图像进行区域增强采用以下步骤实现,
步骤3.1,用背景图像对初始合成视点图像进行第一次增强,填补初始合成视点中的空洞位置,得到填补空洞后的初始合成视点图像,记为
Figure 2011103921226100002DEST_PATH_IMAGE030
,采用公式如下, 
Figure 209064DEST_PATH_IMAGE031
其中,
Figure 219745DEST_PATH_IMAGE012
为视点索引,为帧索引,
Figure 221516DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,
Figure DEST_PATH_IMAGE032
表示当前视点待编码图像的背景图像;
步骤3.2,计算初始合成视点图像
Figure 933120DEST_PATH_IMAGE030
中的亮度分量
Figure 1570DEST_PATH_IMAGE033
,采用公式如下,
Figure DEST_PATH_IMAGE034
其中,
Figure 140427DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
Figure 395959DEST_PATH_IMAGE037
分别为初始合成视点图像
Figure 347473DEST_PATH_IMAGE030
中的R、G、B分量;
步骤3.3,计算初始合成视点图像中每个像素的前景因子值
Figure DEST_PATH_IMAGE038
,采用公式如下,
Figure 580188DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
其中,
Figure 385333DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
分别为像素横坐标的最大偏移值以及像素纵坐标的最大偏移值;
Figure 376423DEST_PATH_IMAGE043
为每个像素的权重,
Figure DEST_PATH_IMAGE044
Figure 153886DEST_PATH_IMAGE045
分别表示像素横坐标的偏移值以及像素纵坐标的偏移值,-
Figure 628784DEST_PATH_IMAGE045
Figure 220303DEST_PATH_IMAGE042
, -
Figure 180168DEST_PATH_IMAGE041
Figure 769413DEST_PATH_IMAGE044
Figure 549150DEST_PATH_IMAGE041
步骤3.4,根据步骤3.3所得前景因子值
Figure 882042DEST_PATH_IMAGE038
,为初始合成视点图像
Figure 696414DEST_PATH_IMAGE030
中每个像素分别设定前景标志位flag_fg,采用公式如下,
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
其中,
Figure 898638DEST_PATH_IMAGE012
为视点索引,
Figure 165671DEST_PATH_IMAGE013
为帧索引,
Figure 364571DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,
Figure 971133DEST_PATH_IMAGE022
为图像高度,
Figure 964497DEST_PATH_IMAGE024
为图像宽度;
步骤3.5,根据步骤3.4所得前景标志位flag_fg,用背景图像对步骤3.1所得填补空洞后的初始合成视点图像
Figure 594192DEST_PATH_IMAGE030
进行第二次增强,用背景图像更新初始合成视点图像中的背景区域,得到最终的合成视点帧
Figure 596783DEST_PATH_IMAGE049
,采用公式如下,
Figure DEST_PATH_IMAGE050
其中,
Figure 556387DEST_PATH_IMAGE012
为视点索引,
Figure 720652DEST_PATH_IMAGE013
为帧索引,
Figure 899961DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标。
而且,步骤4中,将步骤3所得合成视点帧添加至前向参考帧列表和后向参考帧列表的末尾。
本发明提出了一种基于时域增强的视点合成预测多视点视频编码方法,利用在一段时间内单个视点的背景内容固定不变,且每一帧的背景亮度较为一致的特性,在编码当前视点图像时,利用视点内已解码的帧通过背景建模来更新建立背景帧,利用该背景帧对初始合成视点图像进行区域增强,将增强后的合成视点图像对当前视点进行预测。与现有技术相比,本发明通过利用视点内的时域信息对初始合成视点进行区域增强,既保留了虚拟视点图像的几何差异补偿能力,又降低了虚拟视点图像与当前视点图像的差异性,从而进一步提高多视点视频的编码效率。
附图说明
图1是本发明的实施例流程图。
具体实施方式   
本发明技术方案可采用软件技术实现自动流程运行。为便于实施参考起见,结合附图和实施例详细说明本发明技术方案。本发明实施例提供基于时域增强的视点合成预测多视点视频编码方法,采用MVC参考软件JMVC4.0作为编码器,编码第0个视点和第1个视点,只对第1个视点进行本算法的测试,GOP(图像组)设置为8,QP(量化步长)分别为22,27,32,37 ,选取分辨率为1024×768大小的多视点标准测试序列“ballet”的第0个视点和第1个视点进行测试,首先编码第0个视点。以在编码第1个视点时,以第4帧为例,说明编码当前视点待编码帧时的步骤,流程图见图1:
步骤1,根据已编码的邻近视点在同一时刻的帧及该帧的深度图像,合成当前视点待编码帧的初始合成视点帧。
实施例利用已编码重建的视点0的第4帧及该帧的深度图像合成视点1的第4帧的初始合成视点帧。为便于实施参考起见,提供具体步骤如下:
步骤1.1,对视点0的第4帧中的每一个像素进行3D warping(三维图像变换)映射,得到视点1的第4帧的的初始合成视点帧,记为
Figure 440663DEST_PATH_IMAGE001
,采用公式如下, 
 
Figure 758009DEST_PATH_IMAGE051
其中,
Figure 102403DEST_PATH_IMAGE005
为世界坐标系中的坐标,
Figure 771019DEST_PATH_IMAGE006
为已编码的邻近视点在同一时刻的帧中的像素坐标,
Figure 542666DEST_PATH_IMAGE007
为视点0的第4帧中像素坐标处的深度值,
Figure 313493DEST_PATH_IMAGE008
为初始合成视点帧的像素坐标,表示对像素
Figure 608525DEST_PATH_IMAGE008
的横坐标和纵坐标分别取整,为初始合成视点帧中像素坐标
Figure 670339DEST_PATH_IMAGE009
处的像素值,
Figure 815013DEST_PATH_IMAGE011
为视点0的第4帧中像素坐标
Figure 928462DEST_PATH_IMAGE009
处的像素值, 
Figure 853693DEST_PATH_IMAGE012
为视点索引,此处为1,
Figure 514219DEST_PATH_IMAGE013
为帧索引,此处为4,
Figure 841295DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,
Figure 797750DEST_PATH_IMAGE015
Figure 210277DEST_PATH_IMAGE016
Figure 238276DEST_PATH_IMAGE017
为摄像机参数,分别表示内参矩阵、旋转矩阵和平移矢量。
步骤1.2,视点0的第4帧中每一个像素映射得到的像素坐标构成集合
Figure 812794DEST_PATH_IMAGE018
;通过如下公式,判断初始合成视点中的空洞位置:
Figure 447037DEST_PATH_IMAGE019
其中,
Figure 950831DEST_PATH_IMAGE012
为视点索引,此处为1,
Figure 252499DEST_PATH_IMAGE013
为帧索引,此处为4,为当前视点待编码帧的图像中每一个像素的坐标,1≤
Figure 430551DEST_PATH_IMAGE021
Figure 800353DEST_PATH_IMAGE022
 , 1≤
Figure 894211DEST_PATH_IMAGE023
Figure 691265DEST_PATH_IMAGE024
Figure 300101DEST_PATH_IMAGE022
为图像的高度,
Figure 145698DEST_PATH_IMAGE024
为图像的宽度,1≤
Figure 156379DEST_PATH_IMAGE021
≤768 , 1≤
Figure DEST_PATH_IMAGE052
≤1024,1024和768分别为当前视点待编码图像的宽度值和高度值,表示空洞,表示初始合成视点中像素的空洞标志,如该值为1,则表示该像素所在位置不是空洞,反之则为空洞。 
步骤2,对当前视点的已编码重建帧建立统计背景模型,得到当前视点待编码帧的背景图像,记为
Figure 305972DEST_PATH_IMAGE027
Figure 171160DEST_PATH_IMAGE012
为视点索引,为帧索引,分别表示图像中像素的横坐标和纵坐标。
实施例对视点1中已编码重建的帧建立统计背景模型,得到视点1的第4帧的背景图像。
为了降低编码复杂度,采用中值背景建模的方法进行背景建模。用视点1中已编码的第1、2、3、5、7帧作为训练样本,取每副图像中位置为
Figure 346424DEST_PATH_IMAGE028
的像素值,这5个像素值构成集合S,对集合S中5个像素值进行降序排序,取降序排序后的5个像素值的中值作为背景图像中坐标为处的像素值。对第1、2、3、5、7的每个像素坐标位置重复一遍上述过程,即可最终得到当前视点待编码图像的背景图像
步骤3,根据用步骤2所得当前视点待编码帧的背景图像,对步骤1所得初始合成视点图像进行区域增强,得到最终的合成视点帧。
实施例用视点1的第4帧的背景图像对初始合成视点图像进行区域增强,用背景图像替换初始合成视点图像中的背景区域,只保留其前景区域,得到最终的合成视点帧。为便于实施参考起见,提供具体步骤如下:
步骤3.1,用背景图像对初始合成视点图像进行第一次增强,填补初始合成视点中的空洞位置,得到填补空洞后的初始合成视点图像,记为
Figure 384284DEST_PATH_IMAGE030
,采用公式如下, 
Figure 375374DEST_PATH_IMAGE053
其中,
Figure 215154DEST_PATH_IMAGE012
为视点索引,
Figure 695814DEST_PATH_IMAGE013
为帧索引,
Figure 690052DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,
Figure 281570DEST_PATH_IMAGE032
表示当前视点待编码图像的背景图像。此处
Figure 913540DEST_PATH_IMAGE012
=1,
Figure 830680DEST_PATH_IMAGE013
=4。
步骤3.2,计算初始合成视点图像
Figure 610418DEST_PATH_IMAGE030
中的亮度分量
Figure 943310DEST_PATH_IMAGE033
,采用公式如下,
其中,
Figure 580145DEST_PATH_IMAGE035
Figure 784861DEST_PATH_IMAGE036
Figure 983761DEST_PATH_IMAGE037
分别为初始合成视点图像
Figure 88858DEST_PATH_IMAGE030
中的R、G、B分量。
步骤3.3,计算初始合成视点图像
Figure 82222DEST_PATH_IMAGE030
中每个像素的前景因子值
Figure 836551DEST_PATH_IMAGE038
,采用公式如下,
Figure 511246DEST_PATH_IMAGE039
Figure 34632DEST_PATH_IMAGE040
其中,
Figure 643785DEST_PATH_IMAGE042
分别为像素横坐标的最大偏移值以及像素纵坐标的最大偏移值
,此处
Figure 918908DEST_PATH_IMAGE041
=2,
Figure 562379DEST_PATH_IMAGE042
=2;为每个像素的权重,
Figure 564150DEST_PATH_IMAGE044
Figure 85042DEST_PATH_IMAGE045
分别表示像素横坐标的偏移值以及像素纵坐标的偏移值,-
Figure 583020DEST_PATH_IMAGE042
Figure 354667DEST_PATH_IMAGE045
Figure 242988DEST_PATH_IMAGE042
, -
Figure 125494DEST_PATH_IMAGE041
Figure 415661DEST_PATH_IMAGE044
Figure 358209DEST_PATH_IMAGE041
步骤3.4,根据步骤3.3所得前景因子值
Figure 796143DEST_PATH_IMAGE038
,为初始合成视点图像
Figure 154444DEST_PATH_IMAGE030
中每个像素分别设定前景标志位flag_fg,采用公式如下,
Figure 627013DEST_PATH_IMAGE046
Figure 101912DEST_PATH_IMAGE048
其中,
Figure 326220DEST_PATH_IMAGE012
为视点索引,此处为1,
Figure 325400DEST_PATH_IMAGE013
为帧索引,此处为4。
Figure 609750DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标,
Figure 22277DEST_PATH_IMAGE022
为图像高度,此处为768,
Figure 987959DEST_PATH_IMAGE024
为图像宽度,此处为1024。
步骤3.5,根据步骤3.4所得前景标志位flag_fg,用背景图像对步骤3.1所得填补空洞后的初始合成视点图像
Figure 169542DEST_PATH_IMAGE030
进行第二次增强,用背景图像更新初始合成视点图像中的背景区域,得到最终的合成视点帧
Figure 359215DEST_PATH_IMAGE049
,采用公式如下,
Figure DEST_PATH_IMAGE054
其中,为视点索引,此处为1,
Figure 199049DEST_PATH_IMAGE013
为帧索引,此处为4,
Figure 500718DEST_PATH_IMAGE014
分别表示图像中像素的横坐标和纵坐标。
步骤4,将步骤3所得合成视点帧加入当前视点待编码帧的参考帧列表。实施例将上述合成视点图像加入视点1的第4帧的参考帧列表。
步骤5,根据参考帧列表对当前视点待编码帧进行编码。实施例将更新后的合成视点帧添加至前向和后向参考帧列表的末尾,利用编码器对视点1的第4帧进行编码。
为说明本发明所取得的技术效果起见,对分辨率为1024×768大小的“ballet”多视点序列的第1个视点进行测试,编码帧数为31帧,将本发明提出的方法与传统的基于视点合成预测的多视点视频编码方法(Sehoon Yea, Anthony Vetro. View synthesis prediction for multiview video coding[J]. Signal Processing: Image Communication, Vol.24, pp.89–100,2008.)进行了比较,编码的码率节省结果如表1所示,从中可以看出本发明具有更佳的压缩效率。
表1  ballet序列测试结果
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于时域增强的视点合成预测多视点视频编码方法,其特征在于:在编码当前视点待编码帧时,进行以下步骤,
步骤1,根据已编码的邻近视点在同一时刻的帧及该帧的深度图像,合成当前视点待编码帧的初始合成视点帧;
步骤2,对当前视点的已编码重建帧建立统计背景模型,得到当前视点待编码帧的背景图像;
步骤3,根据用步骤2所得当前视点待编码帧的背景图像,对步骤1所得初始合成视点帧进行区域增强,得到最终的合成视点帧;
步骤4,将步骤3所得合成视点帧加入当前视点待编码帧的参考帧列表;
步骤5,根据参考帧列表对当前视点待编码帧进行编码。
2.根据权利要求1所述基于时域增强的视点合成预测多视点视频编码方法,其特征在于:步骤1中,合成当前视点待编码帧的初始合成视点帧采用以下步骤实现,
步骤1.1,对已编码的邻近视点在同一时刻的帧中的每一个像素进行三维图像变换映射,得到当前视点待编码帧的初始合成视点帧,记为Initial_Virtual_Frame(v,n,x,y),采用公式如下,
Pwc=R-1·A-1·PFrame(v-1,n)·D(PFrame(v-1,n))-R-1·t
PVirtual_Frame(v,n)=A·R·[Pwc+R-1·t]
Initial_Virtual_Frame(v,n,round(PVirtual_Frame(v,n)))=Frame(v-1,n,round(PVirtual_Frame(v,n)))
其中,Pwc为世界坐标系中的坐标,PFrame(v-1,n)为已编码的邻近视点在同一时刻的帧中的像素坐标,D(PFrame(v-1,n))为已编码的邻近视点在同一时刻的帧中像素坐标PFrame(v-1,n)处的深度值,PVirtual_Frame(v,n)为初始合成视点帧的像素坐标,round(PVirtual_Frame(v,n))表示对像素坐标PVirtual_Frame(v,n)的横坐标和纵坐标分别取整,Initial_Virtual_Frame(v,n,round(PVirtual_Frame(v,n)))为初始合成视点帧中像素坐标round(PVirtual_Frame(v,n))处的像素值,Frame(v-1,n,round(PVirtual_Frame(v,n)))为已编码的邻近视点在同一时刻的帧中像素坐标round(PVirtual_Frame(v,n))处的像素值,v为视点索引,n为帧索引,x,y分别表示图像中像素的横坐标和纵坐标,A、R和t为摄像机参数,分别表示内参矩阵、旋转矩阵和平移矢量;
步骤1.2,已编码的邻近视点在同一时刻的帧中每一个像素映射得到的像素坐标round(PVirtual_Frame(v,n))构成集合VS;通过如下公式,判断初始合成视点帧中的空洞位置:
Flag initial _ virtual _ Frame ( v , n , x , y ) = 1 if ( x , y ) ∈ VS Hole if ( x , y ) ∉ VS
其中,v为视点索引,n为帧索引,(x,y)为当前视点待编码帧中每一个像素的坐标,1≤x≤H,1≤y≤W,H为图像高度,W为图像宽度,Hole表示空洞,Flaginitial_virtual_Frame(v,n,x,y)表示初始合成视点帧中像素的空洞标志,如其值为1,则表示该像素所在位置不是空洞,反之则为空洞。
3.根据权利要求2所述基于时域增强的视点合成预测多视点视频编码方法,其特征在于:步骤2采用中值背景建模方法对当前视点的已编码重建帧建立统计背景模型,得到当前视点待编码帧的背景图像BgFrame(v,n,x,y),v为视点索引,n为帧索引,x,y分别表示图像中像素的横坐标和纵坐标,中值背景建模方法的实现方式如下,
用当前视点的K个已编码重建帧作为训练样本,从每个已编码重建帧的图像中取像素坐标为(x,y)处的像素值,所得K个像素值构成集合S,对集合S中K个像素值进行降序排序,取降序排序后的K个像素值的中值作为背景图像中坐标为(x,y)处的像素值。
4.根据权利要求3所述的基于时域增强的视点合成预测多视点视频编码方法,其特征在于:步骤3中,对初始合成视点帧进行区域增强采用以下步骤实现,
步骤3.1,用背景图像对初始合成视点帧进行第一次增强,填补初始合成视点帧中的空洞位置,得到填补空洞后的初始合成视点帧,记为VF(v,n,x,y),采用公式如下,
VF ( v , n , x , y ) = BgFrame ( v , n , x , y ) if ( Flag initial _ virtual _ Frame ( v , n , x , y ) = = Hole ) Initial _ Virtual _ Frame ( v , n , x , y ) if ( Flag initial _ virtual _ Frame ( v , n , x , y ) = = 1 )
其中,v为视点索引,n为帧索引,x,y分别表示图像中像素的横坐标和纵坐标,BgFrame(v,n,x,y)表示当前视点待编码帧的背景图像;
步骤3.2,计算初始合成视点帧VF(v,n,x,y)中的亮度分量VF_I(v,n,x,y),采用公式如下,
VF_I(v,n,x,y)=(VF_r(v,n,x,y)+VF_g(v,n,x,y)+VF_b(v,n,x,y))/3
其中,VF_r(v,n,x,y),VF_g(v,n,x,y),VF_b(v,n,x,y)分别为初始合成视点帧VF(v,n,x,y)中的R、G、B分量;
步骤3.3,计算初始合成视点帧VF(v,n,x,y)中每个像素的前景因子值C(v,n,x,y),采用公式如下,
C ( v , n , x , y ) = Σ l = - h h Σ k = - w w w ( k , l ) | VF _ I ( v , n , x , y ) - VF _ I ( v , n , x + k , y + l ) | Σ l = - h h Σ k = - w w w ( k , l )
w ( k , l ) = 1 k 2 + l 2
其中,w和h分别为像素横坐标的最大偏移值以及像素纵坐标的最大偏移值;w(k,l)为每个像素的权重,k和l分别表示像素横坐标的偏移值以及像素纵坐标的偏移值,-h≤l≤h,-w≤k≤w;
步骤3.4,根据步骤3.3所得前景因子值C(v,n,x,y),为初始合成视点帧VF(v,n,x,y)中每个像素分别设定前景标志位flag_fg,采用公式如下,
C ~ = Σ x = 1 H Σ y = 1 W C ( v , n , x , y ) H × W
σ = Σ x = 1 H Σ y = 1 W | C ( v , n , x , y ) - C ~ | 2 H × W
flag _ fg ( v , n , x , y ) = 1 if | C ( v , n , x , y ) - C ~ | > σ 0 otherwise
其中,v为视点索引,n为帧索引,x,y分别表示图像中像素的横坐标和纵坐标,H为图像高度,W为图像宽度;
步骤3.5,根据步骤3.4所得前景标志位flag_fg,用背景图像对步骤3.1所得填补空洞后的初始合成视点帧VF(v,n,x,y)进行第二次增强,用背景图像更新初始合成视点帧中的背景区域,得到最终的合成视点帧Virtual_Frame(v,n,x,y),采用公式如下,
Virtual _ Frame ( v , n , x , y ) = BgFrame ( v , n , x , y ) if ( flag _ fg ( v , n , x , y ) = = 0 ) VF ( v , n , x , y ) if ( flag _ fg ( v , n , x , y , ) = = 1 )
其中,v为视点索引,n为帧索引,x,y分别表示图像中像素的横坐标和纵坐标。
5.根据权利要求1或2或3或4所述基于时域增强的视点合成预测多视点视频编码方法,其特征在于:步骤4中,将步骤3所得合成视点帧添加至前向参考帧列表和后向参考帧列表的末尾。
CN 201110392122 2011-12-01 2011-12-01 基于时域增强的视点合成预测多视点视频编码方法 Active CN102413332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110392122 CN102413332B (zh) 2011-12-01 2011-12-01 基于时域增强的视点合成预测多视点视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110392122 CN102413332B (zh) 2011-12-01 2011-12-01 基于时域增强的视点合成预测多视点视频编码方法

Publications (2)

Publication Number Publication Date
CN102413332A CN102413332A (zh) 2012-04-11
CN102413332B true CN102413332B (zh) 2013-07-24

Family

ID=45915141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110392122 Active CN102413332B (zh) 2011-12-01 2011-12-01 基于时域增强的视点合成预测多视点视频编码方法

Country Status (1)

Country Link
CN (1) CN102413332B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379349B (zh) * 2012-04-25 2016-06-29 浙江大学 一种视点合成预测编码方法、解码方法、对应的装置及码流
CN102790895B (zh) * 2012-07-30 2015-03-25 武汉大学 一种基于最小二乘的多视点视频编码视点合成预测方法
WO2014166068A1 (en) * 2013-04-09 2014-10-16 Mediatek Inc. Refinement of view synthesis prediction for 3-d video coding
WO2015006967A1 (en) * 2013-07-19 2015-01-22 Mediatek Singapore Pte. Ltd. Simplified view synthesis prediction for 3d video coding
CN110858916B (zh) * 2018-08-24 2020-11-24 上海交通大学 支持大跨度相关性信息编码的标识方法及系统
CN110149508B (zh) * 2019-05-28 2021-01-12 吉林大学 一种基于一维集成成像系统的阵列图生成及填补方法
CN111800653B (zh) * 2020-07-29 2021-06-11 北京大学深圳研究生院 视频解码方法、系统、设备及计算机可读存储介质
CN117015970A (zh) * 2020-12-14 2023-11-07 浙江大学 一种解码方法、视点间预测方法、解码器和编码器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729891A (zh) * 2009-11-05 2010-06-09 宁波大学 一种多视点深度视频的编码方法
CN101917619A (zh) * 2010-08-20 2010-12-15 浙江大学 一种多视点视频编码快速运动估计方法
CN102017627A (zh) * 2008-04-25 2011-04-13 汤姆森许可贸易公司 使用基于深度信息的视差估计的多视点视频编码

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102017627A (zh) * 2008-04-25 2011-04-13 汤姆森许可贸易公司 使用基于深度信息的视差估计的多视点视频编码
CN101729891A (zh) * 2009-11-05 2010-06-09 宁波大学 一种多视点深度视频的编码方法
CN101917619A (zh) * 2010-08-20 2010-12-15 浙江大学 一种多视点视频编码快速运动估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Emin Martinian et al.View Synthesis for Multiview Video Compression.《Picture Coding Symposium 2006》.2006,1-8.
View Synthesis for Multiview Video Compression;Emin Martinian et al;《Picture Coding Symposium 2006》;20060531;1-8 *
张秋闻等.面向编码和绘制的多视点图像深度估计.《光电子·激光》.2011,第22卷(第10期),1569-1574.
面向编码和绘制的多视点图像深度估计;张秋闻等;《光电子·激光》;20111031;第22卷(第10期);1569-1574 *

Also Published As

Publication number Publication date
CN102413332A (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
CN102413332B (zh) 基于时域增强的视点合成预测多视点视频编码方法
CN100563340C (zh) 基于深度图像渲染的多通道视频流编码器和解码器
CN100563339C (zh) 一种利用深度信息的多通道视频流编码方法
EP2150065B1 (en) Method and system for video rendering, computer program product therefor
CN100512431C (zh) 用于编码和解码立体视频的方法和装置
CN100496121C (zh) 一种交互式多视点视频系统的图像信号处理方法
CN101986716B (zh) 一种快速深度视频编码方法
CN101742349B (zh) 一种对三维场景的表达方法及其电视系统
CN107277550A (zh) 多视点信号编解码器
CN102065296B (zh) 一种三维立体视频编码方法
CN104838648B (zh) 用于创建和重建视频流的装置和方法
CN105049866B (zh) 基于绘制失真模型的多视点加深度编码的码率分配方法
Po et al. Automatic 2D-to-3D video conversion technique based on depth-from-motion and color segmentation
Ma et al. Low complexity adaptive view synthesis optimization in HEVC based 3D video coding
WO2016119551A1 (zh) 一种二维自由视点视频的深度图编码失真预测方法
CN104159095B (zh) 一种多视点纹理视频和深度图编码的码率控制方法
CN101888566A (zh) 立体视频编码率失真性能估计方法
CN102790895B (zh) 一种基于最小二乘的多视点视频编码视点合成预测方法
CN102685532A (zh) 自由视点四维空间视频编码系统的编码方法
US20140192165A1 (en) Signaling of camera and/or depth parameters
CN103402097A (zh) 一种自由视点视频深度图编码方法及其失真预测方法
CN103067705B (zh) 一种多视点深度视频预处理方法
CN106791768A (zh) 一种基于图割优化的深度图帧率提升方法
CN104506871B (zh) 一种基于hevc的3d视频快速编码方法
Lee et al. A framework of 3D video coding using view synthesis prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160203

Address after: 100102 Beijing city Chaoyang District Guangshun North Street Hospital No. 33, No. 1 Building 1 unit 7 room 808

Patentee after: Kean electric (Beijing) Technology Co., Ltd.

Address before: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee before: Wuhan University

CP03 Change of name, title or address

Address after: 100102 Beijing city Chaoyang District Guangshun North Street Hospital No. 33 Building 1 unit 7 room 808

Patentee after: Kean electric (Beijing) Polytron Technologies Inc

Address before: 100102 Beijing city Chaoyang District Guangshun North Street Hospital No. 33, No. 1 Building 1 unit 7 room 808

Patentee before: Kean electric (Beijing) Technology Co., Ltd.

CP01 Change in the name or title of a patent holder

Address after: 100102 Beijing city Chaoyang District Guangshun North Street Hospital No. 33 Building 1 unit 7 room 808

Patentee after: Kean electric Polytron Technologies Inc

Address before: 100102 Beijing city Chaoyang District Guangshun North Street Hospital No. 33 Building 1 unit 7 room 808

Patentee before: Kean electric (Beijing) Polytron Technologies Inc

CP01 Change in the name or title of a patent holder