CN105612748B - 活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序 - Google Patents

活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序 Download PDF

Info

Publication number
CN105612748B
CN105612748B CN201480056611.6A CN201480056611A CN105612748B CN 105612748 B CN105612748 B CN 105612748B CN 201480056611 A CN201480056611 A CN 201480056611A CN 105612748 B CN105612748 B CN 105612748B
Authority
CN
China
Prior art keywords
image
region
motion information
referring
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480056611.6A
Other languages
English (en)
Other versions
CN105612748A (zh
Inventor
志水信哉
杉本志织
小岛明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN105612748A publication Critical patent/CN105612748A/zh
Application granted granted Critical
Publication of CN105612748B publication Critical patent/CN105612748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0085Motion estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

一边预测由多个不同的视点的活动图像构成的多视点活动图像一边进行编码/解码的活动图像编码/解码装置具备:对应区域设定部,针对编码/解码对象区域设定深度图上的对应区域;区域分割部,设定作为对编码/解码对象区域进行分割后的区域的预测区域;视差矢量生成部,按照每个预测区域,使用对应区域内的该预测区域所对应的区域中的深度信息来生成针对参照视点的视差矢量;运动信息生成部,基于针对参照视点的视差矢量,根据参照视点运动信息来生成预测区域中的运动信息;以及预测图像生成部,使用预测区域中的运动信息来生成针对预测区域的预测图像。

Description

活动图像编码方法、活动图像解码方法、活动图像编码装置、 活动图像解码装置、活动图像编码程序、以及活动图像解码 程序
技术领域
本发明涉及对多视点活动图像进行编码和解码的活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序。
本申请基于在2013年10月17日向日本申请的特愿2013-216526号要求优先权,并将其内容引用于此。
背景技术
以往,已知由使用多个摄像机拍摄了相同的被摄物和背景的多个图像构成的多视点图像(Multiview images:多视点图像)。将该使用多个摄像机拍摄的活动图像称为多视点活动图像(或多视点视频)。在以下的说明中,将使用1个摄像机拍摄的图像(活动图像)称为“二维图像(二维活动图像)”,将使用位置、方向(以下称为视点)不同的多个摄像机拍摄了相同的被摄物和背景的二维图像(二维活动图像)组称为“多视点图像(多视点活动图像)”。
二维活动图像关于时间方向具有强的相关性,通过利用该相关性,从而能够提高编码效率。另一方面,在多视点图像或多视点活动图像中,在各摄像机被同步的情况下,各摄像机的视频的相同的时刻所对应的帧(图像)是从不同的位置拍摄了完全相同的状态的被摄物和背景的帧(图像),因此,在摄像机间(相同的时刻的不同的二维图像间)具有强的相关性。在多视点图像或多视点活动图像的编码中,通过利用该相关性,从而能够提高编码效率。
在此,对与二维活动图像的编码技术相关的现有技术进行说明。在以作为国际编码标准的H.264、MPEG–2、MPEG–4为首的以往的许多二维活动图像编码方式中,利用运动补偿预测、正交变换、量化、熵编码这样的技术来进行高效率的编码。例如,在H.264中,能够实现利用了与编码对象帧过去或未来的多个帧的时间相关性的编码。
关于在H.264中使用的运动补偿预测技术的细节,例如被记载在非专利文献1中。对在H.264中使用的运动补偿预测技术的概要进行说明。H.264的运动补偿预测将编码对象帧分割为各种尺寸的块,在各块中允许具有不同的运动矢量和不同的参照帧。通过在各块中使用不同的运动矢量,从而实现对按照每个被摄物而不同的运动进行补偿后的精度高的预测。另一方面,通过在各块中使用不同的参照帧,从而实现考虑了由于时间变化而产生的遮挡(occlusion)的精度高的预测。
接着,对以往的多视点图像、多视点活动图像的编码方式进行说明。多视点图像的编码方法与多视点活动图像的编码方法的不同在于,在多视点活动图像中除了摄像机间的相关性之外还同时存在时间方向的相关性。可是,在哪一种情况下均能使用相同的方法来利用摄像机间的相关性。因此,在此,对在多视点活动图像的编码中使用的方法进行说明。
关于多视点活动图像的编码,为了利用摄像机间的相关性,以往存在利用将运动补偿预测应用于相同时刻的被不同摄像机拍摄的图像的“视差补偿预测”来对多视点活动图像高效率地进行编码的方式。在此,视差是指在配置于不同的位置的摄像机的图像平面上被摄物上的相同部分所存在的位置的差。图8是示出在摄像机(第一摄像机和第二摄像机)间产生的视差的概念图。在图8所示的概念图中,垂直地俯视光轴平行的摄像机的图像平面。像这样,在不同的摄像机的图像平面上投影被摄物上的相同的部分的位置通常被称为对应点。
在视差补偿预测中,基于其对应关系,根据参照帧来预测编码对象帧的各像素值,对其预测残差和表示对应关系的视差信息进行编码。视差按照作为对象的摄像机对、位置的每一个发生变化,因此,需要按照进行视差补偿预测的每个区域对视差信息进行编码。实际上,在H.264的多视点活动图像编码方式中,按照使用视差补偿预测的每个块对表示视差信息的矢量进行编码。
关于根据视差信息提供的对应关系,通过使用摄像机参数,从而能够基于对极几何约束用表示被摄物的三维位置的一维量而不是二维矢量来进行表示。作为表示被摄物的三维位置的信息,存在各种表现,但是,使用从成为基准的摄像机到被摄物的距离或者与摄像机的图像平面不平行的轴上的坐标值的情况较多。再有,也存在不使用距离而使用距离的倒数的情况。此外,由于距离的倒数为与视差成比例的信息,所以,也存在设定2个成为基准的摄像机并将三维位置表现为在被这些摄像机拍摄的图像间的视差量的情况。无论使用了怎样的表现,都没有本质的不同,因此,在以下,不进行根据表现的区别,将表示这些三维位置的信息表现为深度。
图9是对极几何约束的概念图。根据对极几何约束,与某个摄像机的图像上的点对应的另外的摄像机的图像上的点被约束在极线这样的直线上。此时,在得到了针对其像素的深度的情况下,对应点被唯一地确定在极线上。例如,如图9所示那样,针对在第一摄像机图像中被投影到m的位置的被摄物的在第二摄像机图像中的对应点在实空间中的被摄物的位置为M’的情况下被投影到极线上的位置m’,在实空间中的被摄物的位置为M’’的情况下被投影到极线上的位置m’’。
在非专利文献2中,利用该性质,按照由针对参照帧的深度图(距离图像)提供的各被摄物的三维信息,根据参照帧生成针对编码对象帧的合成图像,将所生成的合成图像作为每个区域的预测图像的候补,由此,实现精度高的预测,实现高效的多视点活动图像的编码。再有,基于该深度生成的合成图像被称为视点合成图像、视点内插图像或视差补偿图像。
现有技术文献
非专利文献
非专利文献1:ITU-T Recommendation H.264 (03/2009), “Advanced videocoding for generic audiovisual services”, 2009年3月;
非专利文献2:S. Shimizu, H. Kimata, and Y. Ohtani, “Adaptiveappearance compensated view synthesis prediction for Multiview Video Coding”,2009 16th IEEE International Conference on Image Processing (ICIP), pp. 2949-2952, 7-10 2009年11月。
发明内容
发明要解决的课题
根据非专利文献2所记载的方法,能够通过使用根据深度图得到的被摄物的三维信息来进行高精度的视差补偿的视点合成图像来实现高效率的预测。此外,通过按照每个区域选择现有的预测和利用视点合成图像的预测,从而即使在受到深度图的品质、遮挡的影响而部分地生成精度低的视点合成图像的情况下,也能够通过按照每个区域选择是否将视点合成图像作为预测图像来防止码量增加。
可是,在非专利文献2所记载的方法中,在由深度图表现的三维信息的精度低的情况下,与使用了通常的视差矢量的视差补偿预测相比,只能以低的精度补偿视差,因此,存在不能实现高效率的预测的这样的问题。
本发明是鉴于这样的情况而完成的,其目的在于提供即使在由深度图表现的视差量的精度低的情况下也能够实现精度高的预测来实现高效率的编码的活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序。
用于解决课题的方案
本发明的一个方式是,一种活动图像编码装置,在对由多个不同的视点的活动图像构成的多视点活动图像的1帧进行编码时,使用针对与编码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述编码对象图像进行分割后的区域的编码对象区域的每一个进行编码,其中,所述活动图像编码装置具备:对应区域设定部,针对所述编码对象区域设定所述深度图上的对应区域;区域分割部,设定作为对所述编码对象区域进行分割后的区域的预测区域;视差矢量生成部,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;运动信息生成部,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及预测图像生成部,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
在本发明的活动图像编码装置中,所述视差矢量生成部还针对所述编码对象区域生成针对所述深度图的视差矢量,所述对应区域设定部将由针对所述深度图的所述视差矢量示出的区域设定为所述对应区域也可。
在本发明的活动图像编码装置中,所述视差矢量生成部使用在对与所述编码对象区域邻接的区域进行编码时使用的视差矢量来设定针对所述深度图的所述视差矢量也可。
在本发明的活动图像编码装置中,所述区域分割部基于所述对应区域内的深度信息来设定针对所述编码对象区域的区域分割也可。
在本发明的活动图像编码装置中,所述视差矢量生成部按照每个所述预测区域根据所述对应区域内的该预测区域所对应的所述区域中的所述深度信息设定代表深度,基于该代表深度来设定针对所述参照视点的所述视差矢量也可。
在本发明的活动图像编码装置中,所述运动信息生成部使用针对所述预测区域预先确定的像素的位置和针对所述参照视点的所述视差矢量来求取在所述参照视点的对应位置,将所述参照视点运动信息之中的针对包含该对应位置的区域提供的运动信息作为所述预测区域中的所述运动信息也可。
在本发明的活动图像编码装置中,还具备参照图像设定部,所述参照图像设定部针对所述编码对象图像将在编码对象视点的与所述编码对象图像不同的已经编码完毕的1帧设定为参照图像,所述运动信息生成部配合所述编码对象图像与所述参照图像的时间间隔缩放根据所述参照视点运动信息得到的运动信息,由此,生成所述预测区域中的所述运动信息也可。
在本发明的活动图像编码装置中,所述预测图像生成部使用第一预测图像和第二预测图像来生成针对所述预测区域的所述预测图像,所述第一预测图像使用所述预测区域中的所述运动信息来生成,所述第二预测图像使用针对所述参照视点的所述视差矢量和所述参照视点图像来生成也可。
本发明的一个方式是,一种活动图像解码装置,在根据由多个不同的视点的活动图像构成的多视点活动图像的码数据对解码对象图像进行解码时,使用针对与所述解码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述解码对象图像进行分割后的区域的解码对象区域的每一个进行解码,其中,所述活动图像解码装置具备:对应区域设定部,针对所述解码对象区域设定所述深度图上的对应区域;区域分割部,设定作为对所述解码对象区域进行分割后的区域的预测区域;视差矢量生成部,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;运动信息生成部,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及预测图像生成部,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
在本发明的活动图像解码装置中,所述视差矢量生成部还针对所述解码对象区域生成针对所述深度图的视差矢量,所述对应区域设定部将由针对所述深度图的所述视差矢量示出的区域设定为所述对应区域也可。
在本发明的活动图像解码装置中,所述视差矢量生成部使用在对与所述解码对象区域邻接的区域进行解码时使用的视差矢量来设定针对所述深度图的所述视差矢量也可。
在本发明的活动图像解码装置中,所述区域分割部基于所述对应区域内的深度信息来设定针对所述解码对象区域的区域分割也可。
在本发明的活动图像解码装置中,所述视差矢量生成部按照每个所述预测区域根据所述对应区域内的该预测区域所对应的所述区域中的所述深度信息设定代表深度,基于该代表深度来设定针对所述参照视点的所述视差矢量也可。
在本发明的活动图像解码装置中,所述运动信息生成部使用针对所述预测区域预先确定的像素的位置和针对所述参照视点的所述视差矢量来求取在所述参照视点的对应位置,将所述参照视点运动信息之中的针对包含该对应位置的区域提供的运动信息作为所述预测区域中的所述运动信息也可。
在本发明的活动图像解码装置中,还具备参照图像设定部,所述参照图像设定部针对所述解码对象图像将在解码对象视点的与所述解码对象图像不同的已经解码完毕的1帧设定为参照图像,所述运动信息生成部配合所述解码对象图像与所述参照图像的时间间隔缩放根据所述参照视点运动信息得到的运动信息,由此,生成所述预测区域中的所述运动信息也可。
在本发明的活动图像解码装置中,所述预测图像生成部使用第一预测图像和第二预测图像来生成针对所述预测区域的所述预测图像,所述第一预测图像使用所述预测区域中的所述运动信息来生成,所述第二预测图像使用针对所述参照视点的所述视差矢量和所述参照视点图像来生成也可。
本发明的一个方式是,一种活动图像编码方法,在对由多个不同的视点的活动图像构成的多视点活动图像的1帧进行编码时,使用针对与编码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述编码对象图像进行分割后的区域的编码对象区域的每一个进行编码,其中,所述活动图像编码方法具有:对应区域设定步骤,针对所述编码对象区域设定所述深度图上的对应区域;区域分割步骤,设定作为对所述编码对象区域进行分割后的区域的预测区域;视差矢量生成步骤,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;运动信息生成步骤,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及预测图像生成步骤,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
本发明的一个方式是,一种活动图像解码方法,在根据由多个不同的视点的活动图像构成的多视点活动图像的码数据对解码对象图像进行解码时,使用针对与所述解码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述解码对象图像进行分割后的区域的解码对象区域的每一个进行解码,其中,所述活动图像解码方法具有:对应区域设定步骤,针对所述解码对象区域设定所述深度图上的对应区域;区域分割步骤,设定作为对所述解码对象区域进行分割后的区域的预测区域;视差矢量生成步骤,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;运动信息生成步骤,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及预测图像生成步骤,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
本发明的一个方式是,一种活动图像编码程序,用于使计算机执行所述活动图像编码方法。
本发明的一个方式是,一种活动图像解码程序,用于使计算机执行所述活动图像解码方法。
发明效果
根据本发明,得到如下这样的效果:即使在由深度图表现的视差的精度低的情况下,也能够实现小数像素精度的预测,能够以少的码量对多视点活动图像进行编码。
附图说明
图1是示出本发明的一个实施方式的活动图像编码装置的结构的框图。
图2是示出图1所示的活动图像编码装置100的工作的流程图。
图3是示出图1所示的运动信息生成部105中的生成运动信息的工作(步骤S104)的详细处理工作的流程图。
图4是示出本发明的一个实施方式的活动图像解码装置的结构的框图。
图5是示出图4所示的活动图像解码装置200的工作的流程图。
图6是示出通过计算机和软件程序构成图1所示的活动图像编码装置100的情况下的硬件结构的框图。
图7是示出通过计算机和软件程序构成图4所示的活动图像解码装置200的情况下的硬件结构的框图。
图8是示出在摄像机间产生的视差的概念图。
图9是对极几何约束的概念图。
具体实施方式
以下,参照附图来对本发明的实施方式的活动图像编码装置和活动图像解码装置进行说明。在以下的说明中,说明设想对使用第一摄像机(称为摄像机A)、第二摄像机(称为摄像机B)这2个摄像机拍摄的多视点活动图像进行编码的情况,并将摄像机A作为参照视点来对摄像机B的活动图像的1帧进行编码或解码。再有,假设另外提供为了根据深度信息得到视差而需要的信息。具体地,该信息为表示摄像机A和摄像机B的位置关系的外部参数或表示利用摄像机的向图像平面的投影信息的内部参数,但是,即使为这些以外的方式,只要根据深度信息得到视差,也可以提供另外的信息。与这些摄像机参数相关的详细的说明例如被记载在参考文献“Olivier Faugeras,“Three-Dimensional Computer Vision”, pp.33-66, MIT Press; BCTC/UFF-006.37 F259 1993, ISBN: 0-262-06158-9.”中。在该参考文献中,记载了与示出多个摄像机的位置关系的参数、表示利用摄像机的向图像平面的投影信息的参数相关的说明。
在以下的说明中,假设对图像、视频帧、深度图附加由记号[]夹着的能够对位置进行特别指定的信息(坐标值或能够与坐标值相对应的索引等),由此,示出利用该位置的像素采样后的图像信号或针对其的深度。此外,假设通过能够与坐标值或块相对应的索引值和矢量的相加来表示使该坐标或块错开矢量的量的位置的坐标值或块。
图1是示出本实施方式的活动图像编码装置的结构的框图。活动图像编码装置100如图1所示那样具备:编码对象图像输入部101、编码对象图像存储器102、参照视点运动信息输入部103、深度图输入部104、运动信息生成部105、视点合成图像生成部106、图像编码部107、图像解码部108、以及参照图像存储器109。
编码对象图像输入部101输入成为编码对象的图像。在以下,将该成为编码对象的图像称为编码对象图像。在此,假设1帧1帧地输入摄像机B的活动图像。此外,将拍摄了编码对象图像的视点(在此为视点B)称为编码对象视点。编码对象图像存储器102存储所输入的编码对象图像。参照视点运动信息输入部103输入针对参照视点的活动图像的运动信息(运动矢量等)。在以下,将在此输入的运动信息称为参照视点运动信息。在此,假设输入摄像机A的运动信息。
深度图输入部104输入在生成视点合成图像时参照的深度图。在此,假设输入针对编码对象图像的深度图,但是,也可以为针对参照视点等另外的视点的深度图。再有,深度图是指表示在对应的图像的各像素中显现的被摄物的三维位置。关于深度图,只要为利用另外提供的摄像机参数等信息来得到三维位置的信息,则为怎样的信息都可以。例如,能够使用从摄像机到被摄物的距离、相对于与图像平面不平行的轴的坐标值、针对另外的摄像机(例如摄像机A)的视差量。此外,在此,只要得到视差量即可,因此,不是使用深度图而是使用直接表现视差量的视差图也可。再有,在此,深度图以图像的方式给出,但是,只要得到同样的信息,则也可以不是图像的方式。
运动信息生成部105使用参照视点运动信息和深度图来生成针对编码对象图像的运动信息。视点合成图像生成部106基于被生成的运动信息根据参照图像来生成针对编码对象图像的视点合成图像。图像编码部107一边使用视点合成图像一边对编码对象图像进行预测编码。图像解码部108对编码对象图像的位流进行解码。参照图像存储器109蓄积在对编码对象图像的位流进行解码时得到的图像。
接着,参照图2来说明图1所示的活动图像编码装置100的工作。图2是示出图1所示的活动图像编码装置100的工作的流程图。首先,编码对象图像输入部101输入编码对象图像Org,将所输入的编码对象图像Org存储到编码对象图像存储器102中(步骤S101)。接着,参照视点运动信息输入部103输入参照视点运动信息,将所输入的参照视点运动信息向运动信息生成部105输出,深度图输入部104输入深度图,将所输入的深度图向运动信息生成部105输出(步骤S102)。
再有,假设在步骤S102中输入的参照视点运动信息和深度图与对已经编码完毕的信息进行解码后的信息等在解码侧得到的信息相同。这是因为,通过使用与由解码装置得到的信息完全相同的信息,从而抑制漂移(drift)等编码噪声的产生。但是,在容许那样的编码噪声的产生的情况下,也可以输入编码前的信息等仅在编码侧得到的信息。关于深度图,除了对已经编码完毕的信息进行解码后的信息以外,也能够将通过对针对多个摄像机而解码后的多视点活动图像应用立体匹配(stereo matching)等而估计出的深度图或者使用解码后的视差矢量或运动矢量等而估计出的深度图等用作在解码侧得到相同的信息的信息。
关于参照视点运动信息,也可以使用在对针对参照视点的图像进行编码时使用的运动信息,也可以为针对参照视点另外编码后的信息。此外,也能够对针对参照视点的活动图像进行解码而使用根据此估计而得到的运动信息。
在编码对象图像、参照视点运动信息、深度图的输入结束之后,将编码对象图像分割为预先确定的大小的区域,按照每个所分割的区域对编码对象图像的视频信号进行编码(步骤S103~S109)。即,当假设使用blk表示编码对象区域索引并且使用numBlks表示1帧中的总编码对象区域数量时,使用0初始化blk(步骤S103),之后,一边对blk加上1(步骤S108),一边重复进行以下的处理(步骤S104~S107)直到blk变为numBlks(步骤S109)。在通常的编码中,向16像素×16像素的被称为宏块的处理单位块分割,但是,只要与解码侧相同,则也可以分割为其他的大小的块。
在按照每个编码对象区域重复的处理中,首先,运动信息生成部105生成编码对象区域blk中的运动信息(步骤S104)。在此的处理在后面详细地说明。在得到针对编码对象区域blk的运动信息之后,视点合成图像生成部106按照该运动信息根据蓄积在参照图像存储器109中的图像来生成针对编码对象区域blk的视点合成图像Syn(步骤S105)。具体地,视点合成图像生成部106按照编码对象区域blk所包含的像素p的每一个如由下面的数式表示的那样求取由运动信息表示的参照图像上的对应点的像素值,由此,生成视点合成图像Syn。
mv(p)和Ref(p)表示针对像素p的运动信息所示的运动矢量和其时间间隔,DecT对于编码对象图像表示时间间隔T的蓄积在参照图像存储器109中的图像(参照图像)。再有,在对应点p+mv(p)不是整数像素位置的情况下,将最近的整数像素位置的像素值作为对应点的像素值也可,通过对对应点的周边的整数像素组实施滤波处理来生成对应点处的像素值也可。但是,假设使用与在解码侧的处理相同的方法来生成对应点的像素值。
在存在2个以上的针对像素p的运动信息的情况下,通过其平均值来生成视点合成图像也可。即,当使用N(p)表示针对像素p的运动信息的数量并且将运动信息的索引设为n时,视点合成图像由下述的数式来表示。
[数式1]
再有,在该数式中不考虑除法运算中的向整数的舍入,但是,以进行四舍五入的方式加上偏移也可。具体地,在加上N(p)/2之后使用N(p)来进行除法运算。此外,在存在3个以上的运动信息的情况下,也可以不使用平均值而使用中央值来进行预测。但是,需要进行与在解码侧的处理相同的处理。在此,假设按照每个像素生成视点合成图像,但是,在按照每个小区域具有相同的运动信息的情况下,也能够按照每个该小区域进行处理。
接着,在得到视点合成图像之后,图像编码部107一边将视点合成图像作为预测图像,一边对编码对象区域blk中的编码对象图像的视频信号(像素值)进行编码(步骤S106)。编码的结果得到的位流成为活动图像编码装置100的输出。再有,在编码的方法中,使用怎样的方法都可以。在MPEG-2、H. 264/AVC等通常的编码中,对块blk的视频信号与预测图像的差分信号依次实施DCT(Discrete Cosine Transform,离散余弦变换)等频率变换、量化、二值化、熵编码,由此,进行编码。
接着,图像解码部108使用位流和视点合成图像来对针对块blk的视频信号进行解码,将所作为解码结果的解码图像Dec[blk]蓄积到参照图像存储器109中(步骤S107)。在此,使用与在编码时使用的手法对应的手法。例如,只要为MPEG-2、H. 264/AVC等通常的编码,则对码数据依次实施熵解码、逆二值化、逆量化、IDCT(Inverse Discrete CosineTransform,反离散余弦变换)等频率逆变换,对所得到的二维信号加上预测图像,最后在像素值的值域中进行裁剪(clipping),由此,对视频信号进行解码。再有,接收在编码侧的处理成为无损耗的稍前的数据和预测图像,通过简化后的处理来进行解码也可。即,只要为前述的例子,则在编码时接收施加量化处理后的值和预测图像,对向该量化后的值依次实施逆量化、频率逆变换而得到的二维信号加上预测图像,在像素值的值域中进行裁剪,由此,对视频信号进行解码也可。
接着,参照图3来对图1所示的运动信息生成部105生成编码对象区域blk中的运动信息的处理(图2所示的步骤S104)详细地进行说明。在生成运动信息的处理中,首先,运动信息生成部105设定针对编码对象区域blk的深度图上的区域(针对编码对象区域的深度图上的对应区域)(步骤S1401)。在此,输入针对编码对象图像的深度图,因此,设定与编码对象区域blk相同的位置的深度图。再有,在编码对象图像和深度图的分辨率不同的情况下,根据分辨率比来设定缩放(scaling)的区域。
在将与编码对象视点不同的视点之一设为深度视点时使用针对深度视点的深度图的情况下,求取编码对象区域blk中的编码对象视点与深度视点的视差DV(针对深度图的视差矢量),设定blk+DV中的深度图。再有,在编码对象图像与深度图的分辨率不同的情况下,根据分辨率比进行位置和大小的缩放。
关于编码对象区域blk中的编码对象视点与深度视点的视差DV,只要为与解码侧相同的方法,则使用怎样的方法来求取都可以。例如,能够使用在对编码对象区域blk的周边区域进行编码时使用的视差矢量、针对编码对象图像整体或包含编码对象区域的部分图像设定的全局视差矢量、针对编码对象区域另外设定并编码的视差矢量等。此外,蓄积在与编码对象区域blk不同的区域或在过去编码的图像中使用的视差矢量,使用所蓄积的视差矢量也可。进而,也可以使用变换针对编码对象视点在过去编码的深度图的与编码对象区域相同位置的深度图而得到的视差矢量。
接着,运动信息生成部105决定编码对象区域blk的分割方法(步骤S1402)。作为分割方法,也可以使用预先确定的方法来分割,也可以解析所设定的深度图来决定分割方法。但是,使用与解码侧相同的方法来设定分割方法。
作为预先确定的方法,存在以固定的块尺寸设定分割的方法。例如,存在分割为4像素×4像素的块或8像素×8像素的块的方法等。此外,也存在根据编码对象区域blk的大小来决定分割尺寸的方法。例如,存在在编码对象区域的尺寸为2N×2M的情况下分割为(N/2)×(M/2)的块或MAX(N/2, 4)×MAX(M/2, 4)的块的方法。再有,MAX(a, b)表示a和b的最大值。此外,也存在在编码对象区域的尺寸比16像素×16像素大的情况下分割为8像素×8像素的块而在编码对象区域的尺寸为16像素×16像素以下的情况下为4像素×4像素的块尺寸等方法。
作为解析深度图来决定分割方法的方法,例如,存在使用根据深度值聚集(clustering)后的结果的方法、以四叉树表现递归地(recursively)分割以使每个生成的分割的深度值的方差为阈值以下的方法。也可以通过代替每个生成的分割的深度值的方差而比较针对编码对象区域的深度图上的对应区域的4顶点处的深度值来决定分割方法。
接着,在编码对象区域blk的分割方法决定之后,按照依据该分割方法生成的子区域(预测区域)的每一个生成运动信息(步骤S1403~S1409)。即,当假设使用sblk表示子区域索引并且用numSBlksblk表示编码对象区域blk内的子区域数量时,使用0初始化sblk(步骤S1403),之后,一边对sblk加上1(步骤S1408),一边重复进行以下的处理(步骤S1404~S1407)直到sblk变为numSBlksblk(步骤S1409)。
在按照每个子区域重复的处理中,首先,运动信息生成部105根据针对子区域sblk设定的深度图(对应区域内的预测区域所对应的区域中的深度信息)决定代表深度值(步骤S1404)。使用怎样的方法来决定代表深度值都可以,但是,需要使用与解码侧相同的方法。例如,存在使用针对子区域sblk的深度图的平均值、中央值、最大值、最小值等的方法。此外,也可以使用不是针对针对子区域sblk的深度图的全部的像素而是针对一部分的像素的深度值的平均值、中央值、最大值、最小值等。作为一部分的像素,也可以使用4顶点或者4顶点和中央等。进而,也存在使用针对相对于子区域sblk左上或中央等预先确定的位置的深度值的方法。
在得到代表深度值之后,运动信息生成部105使用与编码对象视点和参照视点的位置关系相关的信息根据代表深度值来求取视差矢量dvsblk(针对参照视点的视差矢量)(步骤S1405)。具体地,存在通过使用了摄像机参数的反投影和再投影来求取视差矢量dvsblk的方法、通过使用了单应矩阵的变换来求取视差矢量dvsblk的方法、参照预先制作的针对深度值的视差矢量的查找表来求取视差矢量dvsblk的方法等。
在得到视差矢量之后,运动信息生成部105求取在参照视点对应的位置(步骤S1406)。具体地,通过对代表子区域sblk的点Psblk(针对预测区域预先确定的像素的位置)加上视差矢量dvsblk来求取对应位置。作为代表子区域的点,能够使用相对于子区域左上或中央等预先确定的位置。再有,关于将哪个位置作为代表的点,需要与解码侧相同。
接着,运动信息生成部105将针对包含在参照视点的对应点Psblk+dvsblk的区域蓄积的参照视点运动信息设定为针对子区域sblk的运动信息(预测区域中的运动信息)(步骤S1407)。再有,在针对包含对应点Psblk+dvsblk的区域未蓄积运动信息的情况下,即使设定没有运动信息的信息,即使设定零矢量等默认(default)的运动信息,也确认蓄积最接近对应点Psblk+dvsblk的运动信息的区域,设定在该区域中蓄积的运动信息也可。但是,以与解码侧相同的规则设定运动信息。
在前述的说明中,将参照视点运动信息直接设定为运动信息,但是,预先设定时间间隔,按照该预先确定的时间间隔和参照视点运动信息中的时间间隔对运动信息进行缩放,设定将参照视点运动信息中的时间间隔替换为该预先确定的时间间隔而得到的运动信息也可。像这样做,由此,针对不同区域生成的运动信息全部具有相同的时间间隔,统一生成视点合成图像时的参照图像(将编码对象视点中的与编码对象图像不同的已经编码完毕的1帧设定为参照图像),能够限定访问的存储器空间。再有,通过限定访问的存储器空间,使高速缓存命中(cache hit),能够提高处理速度。
在本实施方式中,仅使用按照每个子区域根据参照视点运动信息生成的运动信息来生成了视点合成图像(第一预测图像),但是,除了运动信息之外,也可以使用按照每个子区域得到的视差矢量dvsblk。例如,当将针对参照视点的解码图像设为DecIV时,也可以使用下面的数式来生成视点合成图像(求取第一预测图像和第二预测图像的舍入为整数的平均值,由此,生成针对预测区域的预测图像)。
再有,dv(p)表示针对包含像素p的子区域的视差矢量。
此外,按照子区域或像素的每一个,一边选择运动信息和视差矢量的任一个,一边生成视点合成图像也可。进而,也可以选择运动信息和视差矢量的任一个或双方。再有,只要为与解码侧相同的方法,则选择地使用怎样的方法都可以。例如,存在如下的方法:在关于在步骤S1406中求取的对应点不存在在步骤S1407中设定的参照视点运动信息的情况下或者在对针对参照视点的活动图像进行编码时在包含该对应点的区域中使用了运动补偿预测以外的预测的情况下,使用视差矢量来生成视点合成图像,在其以外的情况下,使用运动信息来生成视点合成图像。
作为另一方法,也存在如下的方法:在包含针对参照视点的活动图像的对应点的区域中编码后的运动补偿预测残差的量比预先确定的阈值大的情况下,使用视差矢量来生成视点合成图像,在该运动补偿预测残差的量为阈值以下的情况下,使用运动信息来生成视点合成图像。
作为又一方法,也存在使用在参照视点时间间隔T的解码图像DecIVT来决定选择运动信息和视差矢量之中的哪一个的方法。例如,使用在参照视点的编码完毕的活动图像,生成在区域sblk+dvsblk中使用针对sblk生成的运动信息来进行运动补偿预测时的预测残差来使用也可。具体地,在所生成的预测残差的量比预先确定的阈值大的情况下,使用视差矢量来生成视点合成图像,在该量为阈值以下的情况下,使用运动信息来生成视点合成图像。再有,使用下面的数式表示此时使用的预测残差ResIVMC。
作为使用了DecIVT的另一方法,除了ResIVMC之外,也存在生成下面的预测残差ResPastIV来使用的方法。具体地,将︱ResIVMC︱和︱ResPastIV︱比较,在︱ResIVMC︱更小的情况下,使用运动信息来生成视点合成图像,在︱ResPastIV︱更小的情况下,使用视差矢量来生成视点合成图像。在两者相等的情况下,使用任一个也可,使用双方也可。
此外,设定阈值,将︱ResIVMC︱和︱ResPastIV︱分别与所设定的阈值比较,仅使用比阈值小的值所对应的信息来生成视点合成图像也可。此时,在双方比阈值大的情况下,按照前述的规则仅使用具有更小的值的残差所对应的信息也可,使用双方也可。
此外,在使用在参照视点的时间间隔T的解码图像DecIVT的情况下,按照下面的数式来生成视点合成图像或其候补也可。
在此,w0和w1为另外确定的权重系数,只要为与解码侧相同的值,则怎样决定都可以。例如,也可以使用预先确定的值。在将按照上述数式生成的图像用作视点合成图像的候补的情况下,代替仅使用根据前述的参照视点运动信息生成的运动信息来生成的视点合成图像或者代替仅使用按照每个子区域得到的视差矢量来生成的视点合成图像而使用按照上述数式生成的图像也可,将按照上述数式生成的图像作为另外的候补添加到选择项也可。
接着,对本实施方式的活动图像解码装置进行说明。图4是示出本实施方式的活动图像解码装置的结构的框图。活动图像解码装置200如图4所示那样具备:位流输入部201、位流存储器202、参照视点运动信息输入部203、深度图输入部204、运动信息生成部205、视点合成图像生成部206、图像解码部207、以及参照图像存储器208。
位流输入部201输入成为解码对象的活动图像的位流。在以下,将该成为解码对象的活动图像的1帧称为解码对象图像。在此,解码对象图像指摄像机B的活动图像的1帧。此外,在以下,将拍摄了解码对象图像的视点(在此为摄像机B)称为解码对象视点。位流存储器202存储所输入的针对解码对象图像的位流。参照视点运动信息输入部203输入针对参照视点的活动图像的运动信息(运动矢量等)。在以下,将在此输入的运动信息称为参照视点运动信息,在此,假设输入摄像机A的运动信息。
深度图输入部204输入在生成视点合成图像时参照的深度图。在此,假设输入针对解码对象图像的深度图,但是,也可以为针对参照视点等另外的视点的深度图。再有,深度图是指表示在对应的图像的各像素中显现的被摄物的三维位置。关于深度图,只要为利用另外提供的摄像机参数等信息来得到三维位置的信息,则为怎样的信息都可以。例如,能够使用从摄像机到被摄物的距离、相对于与图像平面不平行的轴的坐标值、针对另外的摄像机(例如摄像机A)的视差量。此外,在此,只要得到视差量即可,因此,不是使用深度图而是使用直接表现视差量的视差图也可。再有,在此,深度图以图像的方式给出,但是,只要得到同样的信息,则也可以不是图像的方式。
运动信息生成部205使用参照视点运动信息和深度图来生成针对解码对象图像的运动信息。视点合成图像生成部206基于被生成的运动信息根据参照图像来生成针对编码对象图像的视点合成图像。图像解码部207一边使用视点合成图像一边根据位流对解码对象图像进行解码并输出。参照图像存储器208蓄积所得到的解码对象图像,以便以后的解码。
接着,参照图5来说明图4所示的活动图像解码装置200的工作。图5是示出图4所示的活动图像解码装置200的工作的流程图。首先,位流输入部201输入对解码对象图像进行编码后的位流,将所输入的位流存储到位流存储器202中(步骤S201)。接着,参照视点运动信息输入部203输入参照视点运动信息,将所输入的参照视点运动信息向运动信息生成部205输出,深度图输入部204输入深度图,将所输入的深度图向运动信息生成部205输出(步骤S202)。
再有,假设在步骤S202中输入的参照视点运动信息和深度图与在编码侧使用的信息相同。这是因为,通过使用与由活动图像编码装置得到的信息完全相同的信息,从而抑制漂移等编码噪声的产生。但是,在容许那样的编码噪声的产生的情况下,也可以输入与在编码时使用的信息不同的信息。关于深度图,除了另外解码后的信息以外,有时也使用通过对针对多个摄像机而解码后的多视点图像应用立体匹配等而估计出的深度图或者使用解码后的视差矢量或运动矢量等而估计出的深度图等。
关于参照视点运动信息,也可以使用在对针对参照视点的图像进行解码时使用的运动信息,也可以为针对参照视点另外编码后的信息。此外,也能够对针对参照视点的活动图像进行解码而使用根据此估计而得到的运动信息。
在位流、参照视点运动信息、深度图的输入结束之后,将解码对象图像分割为预先确定的大小的区域,按照每个所分割的区域根据位流对解码对象图像的视频信号进行解码(步骤S203~S208)。即,当假设使用blk表示解码对象区域索引并且使用numBlks表示1帧中的总解码对象区域数量时,使用0初始化blk(步骤S203),之后,一边对blk加上1(步骤S207),一边重复进行以下的处理(步骤S204~S206)直到blk变为numBlks(步骤S208)。在通常的解码中,向16像素×16像素的被称为宏块的处理单位块分割,但是,只要与编码侧相同,则也可以分割为其他的大小的块。
在按照每个解码对象区域重复的处理中,首先,运动信息生成部205生成解码对象区域blk中的运动信息(步骤S204)。在此的处理与前述的步骤S104相同。在得到针对解码对象区域blk的运动信息之后,视点合成图像生成部206按照该运动信息根据蓄积在参照图像存储器208中的图像来生成针对解码对象区域blk的视点合成图像Syn(步骤S205)。在此的处理与前述的步骤S105相同。
接着,在得到视点合成图像之后,图像解码部207将视点合成图像用作预测图像,根据位流对解码对象图像进行解码(步骤S206)。所得到的解码对象图像被蓄积到参照图像存储器208中,并且,成为活动图像解码装置200的输出。
在解码对象图像的解码中使用与在编码时使用的方法对应的方法。例如,在使用了MPEG-2、H. 264/AVC等通常的编码的情况下,对码数据依次实施熵解码、逆二值化、逆量化、IDCT(Inverse Discrete Cosine Transform)等频率逆变换,对所得到的二维信号加上预测图像,最后在像素值的值域中进行裁剪,由此,对视频信号进行解码。
在前述的说明中,按照对编码对象图像或者解码对象图像进行分割后的区域的每一个进行了运动信息的生成和视点合成图像的生成,但是,也可以针对编码对象图像或解码对象图像的整体生成运动信息或者运动信息和视点合成图像双方。在针对图像整体生成运动信息的情况下,需要对所生成的运动信息进行缓冲的存储器。此外,在针对图像整体生成运动信息和视点合成图像双方的情况下,需要用于蓄积所生成的视点合成图像的存储器。
此外,在前述的说明中,作为对图像整体进行编码/解码的处理,说明了本手法的处理,但是,也能够仅对图像的一部分应用处理。在该情况下,判断是否应用处理,对示出应用的是否需要的标志进行编码或解码也可,使用任何另外的方案来指定应用的是否需要也可。例如,作为示出生成每个区域的预测图像的手法的模式之一,使用表现应用的是否需要的方法也可。
像这样,在使用根据深度图求取的视差来生成视点合成图像时,不是在视点间直接预测像素值,而是在视点间预测运动矢量之后,在时间方向上预测像素值,由此,即使在由深度图表现的视差的精度低的情况下,也能够实现小数像素精度(fractional pixelaccuracy)的预测,能够以少的码量对多视点活动图像进行编码。
图6是示出通过计算机和软件程序构成前述的活动图像编码装置100的情况下的硬件结构的框图。图6所示的系统为以总线连接有以下各部的结构:执行程序的CPU(Central Processing Unit,中央处理单元)50、CPU50访问的储存有程序、数据的RAM(Random Access Memory,随机存取存储器)等存储器51、输入来自摄像机等的编码对象的图像信号的编码对象图像输入部52(也可以是利用磁盘装置等的存储图像信号的存储部)、从存储器等输入参照视点的运动信息的参照视点运动信息输入部53(也可以是利用磁盘装置等的存储运动信息的存储部)、输入来自深度摄像机等的针对拍摄了编码对象图像的视点的深度图的深度图输入部54(也可以是利用磁盘装置等的存储深度图的存储部)、储存有使CPU50执行活动图像编码处理的软件程序即图像编码程序551的程序存储装置55、以及例如经由网络输出通过CPU50执行被加载到存储器51中的图像编码程序551而生成的位流的位流输出部56(也可以是利用磁盘装置等的存储位流的存储部)。
图7是示出通过计算机和软件程序构成前述的活动图像解码装置200的情况下的硬件结构的框图。图7所示的系统为以总线连接有以下各部的结构:执行程序的CPU60、CPU60访问的储存有程序、数据的RAM等存储器51、输入活动图像编码装置利用本手法来进行编码后的位流的位流输入部62(也可以是利用磁盘装置等的存储位流的存储部)、输入来自摄像机等的参照视点的运动信息的参照视点运动信息输入部63(也可以是利用磁盘装置等的存储运动信息的存储部)、输入来自深度摄像机等的针对拍摄了解码对象的视点的深度图的深度图输入部64(也可以是利用磁盘装置等的存储深度信息的存储部)、储存有使CPU60执行图像解码处理的软件程序即图像解码程序651的程序存储装置65、以及将通过CPU60执行被加载到存储器61中的图像解码程序651来对位流进行解码而得到的解码对象图像输出到再生装置等中的解码对象图像输出部66(也可以是利用磁盘装置等的存储图像信号的存储部)。
也可以通过计算机实现前述的实施方式中的活动图像编码装置100和活动图像解码装置200。在该情况下,将用于实现该功能的程序记录在计算机可读取的记录介质中,使计算机系统读入记录在该记录介质中的程序并执行,由此,也可以实现活动图像编码装置100和活动图像解码装置200。再有,在此所说的“计算机系统”包含OS(Operating System,操作系统)、周围设备等硬件。此外,“计算机可读取的记录介质”是指软盘、光磁盘、ROM(Read Only Memory,只读存储器)、CD(Compact Disc,紧致盘)-ROM等可移动介质、内置于计算机系统的硬盘等存储装置。进而,“计算机可读取的记录介质”也可以还包含像经由因特网等网络或电话线路等通信线路来发送程序的情况下的通信线那样在短时间的期间动态地保持程序的记录介质、像该情况下的成为服务器或客户端的计算机系统内部的易失性存储器那样将程序保持固定时间的记录介质。此外,上述程序也可以是用于实现前述的功能的一部分的程序,进而,还可以是能通过与已经记录在计算机系统中的程序的组合来实现前述的功能的程序,此外,活动图像编码装置100和活动图像解码装置200也可以是使用PLD(Programmable Logic Device,可编程逻辑器件)、FPGA(Field Programmable GateArray,现场可编程门阵列)等硬件来实现的程序。
以上,参照附图来说明了本发明的实施方式,但是,上述实施方式只不过是本发明的例示,显然本发明并不限定于上述实施方式。因此,也可以在不偏离本发明的技术思想和范围的范围内进行结构要素的追加、省略、替换、其它变更。
产业上的可利用性
本发明能够应用于在例如使用从与拍摄了编码(解码)对象图像的视点不同的视点拍摄的图像和针对这些图像中的被摄物的深度图来对编码(解码)对象图像进行视点合成预测时即使该深度图不表现高精度的视差信息也达成高的编码效率的用途。
附图标记的说明
100…活动图像编码装置
101…编码对象图像输入部
102…编码对象图像存储器
103…参照视点运动信息输入部
104…深度图输入部
105…运动信息生成部
106…视点合成图像生成部
107…图像编码部
108…图像解码部
109…参照图像存储器
200…活动图像解码装置
201…位流输入部
202…位流存储器
203…参照视点运动信息输入部
204…深度图输入部
205…运动信息生成部
206…视点合成图像生成部
207…图像解码部
208…参照图像存储器。

Claims (20)

1.一种活动图像编码装置,在对由多个不同的视点的活动图像构成的多视点活动图像的1帧进行编码时,使用针对与编码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述编码对象图像进行分割后的区域的编码对象区域的每一个进行编码,其中,所述活动图像编码装置具备:
对应区域设定部,针对所述编码对象区域设定所述深度图上的对应区域;
区域分割部,设定作为对所述编码对象区域进行分割后的区域的预测区域;
视差矢量生成部,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;
运动信息生成部,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及
预测图像生成部,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
2.根据权利要求1所述的活动图像编码装置,其中,
所述视差矢量生成部还针对所述编码对象区域生成针对所述深度图的视差矢量,
所述对应区域设定部将由针对所述深度图的所述视差矢量示出的区域设定为所述对应区域。
3.根据权利要求2所述的活动图像编码装置,其中,所述视差矢量生成部使用在对与所述编码对象区域邻接的区域进行编码时使用的视差矢量来设定针对所述深度图的所述视差矢量。
4.根据权利要求1至3的任一项所述的活动图像编码装置,其中,所述区域分割部基于所述对应区域内的深度信息来设定针对所述编码对象区域的区域分割。
5.根据权利要求1至3的任一项所述的活动图像编码装置,其中,所述视差矢量生成部按照每个所述预测区域根据所述对应区域内的该预测区域所对应的所述区域中的所述深度信息设定代表深度,基于该代表深度来设定针对所述参照视点的所述视差矢量。
6.根据权利要求1至权利要求3的任一项所述的活动图像编码装置,其中,所述运动信息生成部使用针对所述预测区域预先确定的像素的位置和针对所述参照视点的所述视差矢量来求取在所述参照视点的对应位置,将所述参照视点运动信息之中的针对包含该对应位置的区域提供的运动信息作为所述预测区域中的所述运动信息。
7.根据权利要求1至权利要求3的任一项所述的活动图像编码装置,其中,
还具备参照图像设定部,所述参照图像设定部针对所述编码对象图像将在编码对象视点的与所述编码对象图像不同的已经编码完毕的1帧设定为参照图像,
所述运动信息生成部配合所述编码对象图像与所述参照图像的时间间隔缩放根据所述参照视点运动信息得到的运动信息,由此,生成所述预测区域中的所述运动信息。
8.根据权利要求1至权利要求3的任一项所述的活动图像编码装置,其中,所述预测图像生成部使用第一预测图像和第二预测图像来生成针对所述预测区域的所述预测图像,所述第一预测图像使用所述预测区域中的所述运动信息来生成,所述第二预测图像使用针对所述参照视点的所述视差矢量和所述参照视点图像来生成。
9.一种活动图像解码装置,在根据由多个不同的视点的活动图像构成的多视点活动图像的码数据对解码对象图像进行解码时,使用针对与所述解码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述解码对象图像进行分割后的区域的解码对象区域的每一个进行解码,其中,所述活动图像解码装置具备:
对应区域设定部,针对所述解码对象区域设定所述深度图上的对应区域;
区域分割部,设定作为对所述解码对象区域进行分割后的区域的预测区域;
视差矢量生成部,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;
运动信息生成部,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及
预测图像生成部,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
10.根据权利要求9所述的活动图像解码装置,其中,
所述视差矢量生成部还针对所述解码对象区域生成针对所述深度图的视差矢量,
所述对应区域设定部将由针对所述深度图的所述视差矢量示出的区域设定为所述对应区域。
11.根据权利要求10所述的活动图像解码装置,其中,所述视差矢量生成部使用在对与所述解码对象区域邻接的区域进行解码时使用的视差矢量来设定针对所述深度图的所述视差矢量。
12.根据权利要求9至权利要求11的任一项所述的活动图像解码装置,其中,所述区域分割部基于所述对应区域内的深度信息来设定针对所述解码对象区域的区域分割。
13.根据权利要求9至权利要求11的任一项所述的活动图像解码装置,其中,所述视差矢量生成部按照每个所述预测区域根据所述对应区域内的该预测区域所对应的所述区域中的所述深度信息设定代表深度,基于该代表深度来设定针对所述参照视点的所述视差矢量。
14.根据权利要求9至权利要求11的任一项所述的活动图像解码装置,其中,所述运动信息生成部使用针对所述预测区域预先确定的像素的位置和针对所述参照视点的所述视差矢量来求取在所述参照视点的对应位置,将所述参照视点运动信息之中的针对包含该对应位置的区域提供的运动信息作为所述预测区域中的所述运动信息。
15.根据权利要求9至权利要求11的任一项所述的活动图像解码装置,其中,
还具备参照图像设定部,所述参照图像设定部针对所述解码对象图像将在解码对象视点的与所述解码对象图像不同的已经解码完毕的1帧设定为参照图像,
所述运动信息生成部配合所述解码对象图像与所述参照图像的时间间隔缩放根据所述参照视点运动信息得到的运动信息,由此,生成所述预测区域中的所述运动信息。
16.根据权利要求9至权利要求11的任一项所述的活动图像解码装置,其中,所述预测图像生成部使用第一预测图像和第二预测图像来生成针对所述预测区域的所述预测图像,所述第一预测图像使用所述预测区域中的所述运动信息来生成,所述第二预测图像使用针对所述参照视点的所述视差矢量和所述参照视点图像来生成。
17.一种活动图像编码方法,在对由多个不同的视点的活动图像构成的多视点活动图像的1帧进行编码时,使用针对与编码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述编码对象图像进行分割后的区域的编码对象区域的每一个进行编码,其中,所述活动图像编码方法具有:
对应区域设定步骤,针对所述编码对象区域设定所述深度图上的对应区域;
区域分割步骤,设定作为对所述编码对象区域进行分割后的区域的预测区域;
视差矢量生成步骤,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;
运动信息生成步骤,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及
预测图像生成步骤,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
18.一种活动图像解码方法,在根据由多个不同的视点的活动图像构成的多视点活动图像的码数据对解码对象图像进行解码时,使用针对与所述解码对象图像不同的参照视点的参照视点图像的运动信息即参照视点运动信息和针对所述多视点活动图像中的被摄物的深度图,一边在不同的视点间进行预测一边按照作为对所述解码对象图像进行分割后的区域的解码对象区域的每一个进行解码,其中,所述活动图像解码方法具有:
对应区域设定步骤,针对所述解码对象区域设定所述深度图上的对应区域;
区域分割步骤,设定作为对所述解码对象区域进行分割后的区域的预测区域;
视差矢量生成步骤,按照每个所述预测区域,使用所述对应区域内的该预测区域所对应的区域中的深度信息来生成针对所述参照视点的视差矢量;
运动信息生成步骤,基于针对所述参照视点的所述视差矢量,根据所述参照视点运动信息来生成所述预测区域中的运动信息;以及
预测图像生成步骤,使用所述预测区域中的所述运动信息来生成针对所述预测区域的预测图像。
19.一种计算机可读取的记录介质,其中,存储有用于使计算机执行根据权利要求17所述的活动图像编码方法的活动图像编码程序。
20.一种计算机可读取的记录介质,其中,存储有用于使计算机执行根据权利要求18所述的活动图像解码方法的活动图像解码程序。
CN201480056611.6A 2013-10-17 2014-10-15 活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序 Active CN105612748B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013216526 2013-10-17
JP2013-216526 2013-10-17
PCT/JP2014/077436 WO2015056712A1 (ja) 2013-10-17 2014-10-15 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム

Publications (2)

Publication Number Publication Date
CN105612748A CN105612748A (zh) 2016-05-25
CN105612748B true CN105612748B (zh) 2019-04-02

Family

ID=52828154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480056611.6A Active CN105612748B (zh) 2013-10-17 2014-10-15 活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序

Country Status (5)

Country Link
US (1) US10911779B2 (zh)
JP (1) JPWO2015056712A1 (zh)
KR (1) KR101750421B1 (zh)
CN (1) CN105612748B (zh)
WO (1) WO2015056712A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6758977B2 (ja) * 2016-07-22 2020-09-23 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
EP3509308A1 (en) * 2018-01-05 2019-07-10 Koninklijke Philips N.V. Apparatus and method for generating an image data bitstream
JP7412343B2 (ja) * 2018-09-21 2024-01-12 日本放送協会 画像符号化装置、画像復号装置、及びプログラム
JP7005480B2 (ja) * 2018-12-27 2022-01-21 Kddi株式会社 画像復号装置、画像符号化装置、プログラム及び画像処理システム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619256A (en) * 1995-05-26 1997-04-08 Lucent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing disparity and motion compensated predictions
US5612735A (en) * 1995-05-26 1997-03-18 Luncent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing two disparity estimates
JP4999860B2 (ja) * 2006-10-30 2012-08-15 日本電信電話株式会社 動画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
WO2010093351A1 (en) * 2009-02-13 2010-08-19 Thomson Licensing Depth map coding to reduce rendered distortion
KR101628383B1 (ko) * 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
JPWO2012121052A1 (ja) * 2011-03-08 2014-07-17 ソニー株式会社 画像処理装置、画像処理方法、及び、プログラム
WO2013001813A1 (ja) * 2011-06-29 2013-01-03 パナソニック株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
US9076267B2 (en) * 2011-07-19 2015-07-07 Panasonic Intellectual Property Corporation Of America Image coding device, integrated circuit thereof, and image coding method
JP5729825B2 (ja) * 2011-09-26 2015-06-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
IN2014CN02708A (zh) * 2011-09-28 2015-08-07 Pelican Imaging Corp
AU2012323631B2 (en) * 2011-10-11 2015-09-17 Mediatek Inc. Method and apparatus of motion and disparity vector derivation for 3D video coding and HEVC
CN102510500B (zh) 2011-10-14 2013-12-18 北京航空航天大学 一种基于深度信息的多视点立体视频错误隐藏方法
US9253486B2 (en) * 2012-09-28 2016-02-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for motion field backward warping using neighboring blocks in videos

Also Published As

Publication number Publication date
KR101750421B1 (ko) 2017-06-23
KR20160045864A (ko) 2016-04-27
US10911779B2 (en) 2021-02-02
US20170055000A2 (en) 2017-02-23
US20160255370A1 (en) 2016-09-01
JPWO2015056712A1 (ja) 2017-03-09
WO2015056712A1 (ja) 2015-04-23
CN105612748A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN106068527B (zh) 用于立体数据的深度感知增强
US20210021868A1 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
JP6232076B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP5947977B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
CN104885450B (zh) 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
US11601677B2 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
JP5833757B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP6053200B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
WO2014050827A1 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、画像復号プログラム及び記録媒体
JP5281623B2 (ja) 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム
CN105612748B (zh) 活动图像编码方法、活动图像解码方法、活动图像编码装置、活动图像解码装置、活动图像编码程序、以及活动图像解码程序
JP5926451B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム
WO2015083742A1 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
JP5729825B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
WO2015098827A1 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
JP4332061B2 (ja) 画像作成方法,画像符号化方法,画像復号方法,画像作成装置,画像符号化装置,画像復号装置,画像作成プログラム,画像符号化プログラム,画像復号プログラムおよびそれらのプログラム記録媒体
CN106464899A (zh) 活动图像编码装置及方法和活动图像解码装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant