CN103202021A - 编码装置、解码装置、再现装置、编码方法及解码方法 - Google Patents

编码装置、解码装置、再现装置、编码方法及解码方法 Download PDF

Info

Publication number
CN103202021A
CN103202021A CN2012800035584A CN201280003558A CN103202021A CN 103202021 A CN103202021 A CN 103202021A CN 2012800035584 A CN2012800035584 A CN 2012800035584A CN 201280003558 A CN201280003558 A CN 201280003558A CN 103202021 A CN103202021 A CN 103202021A
Authority
CN
China
Prior art keywords
viewpoint
subordinate
looked
video
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012800035584A
Other languages
English (en)
Other versions
CN103202021B (zh
Inventor
佐佐木泰治
矢羽田洋
小川智辉
西孝启
川口透
小泽由佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN103202021A publication Critical patent/CN103202021A/zh
Application granted granted Critical
Publication of CN103202021B publication Critical patent/CN103202021B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

编码装置在将表示多个视点中的各个视点的随着时间经过的景象的帧图像群编码时,将基准视点的帧图像群不使用其他视点的帧图像作为参照图像而是作为基本视视频流数据进行编码。此外,将上述多个视点中的处于与上述基准视点之间至少夹着其他1个视点的位置关系的第1种视点的帧图像群使用基本视视频流数据的同一时刻的帧图像或其他的第1从属视视频流数据作为参照图像,作为第1从属视视频流数据而编码。进而,将作为基准视点及第1种视点以外的视点、被其他视点夹着的第2种视点的帧图像群参照夹着这第2种视点的2视点的同时刻的帧图像,作为第2从属视视频流数据而编码。

Description

编码装置、解码装置、再现装置、编码方法及解码方法
技术领域
本发明涉及用来将影像记录或传送的编码及进行解码并再现的技术,特别涉及多视点的影像的编码及解码技术。
背景技术
以往,在用来对来自视听者选择的视点位置的影像进行再现的技术中,有自由视点影像技术。
在自由视点影像技术中,进行从使用多个摄像机从分别不同的视点拍摄的影像(以下,将从一个视点拍摄的影像称作“视点影像”)中的、距视听者选择的视点位置最近的视点影像的再现、或者使用距视听者的视点位置较近的视点影像通过插补而生成的视听者的视点位置处的影像的再现(专利文献1)。
在这样的自由视点影像技术中,为了将来自各种各样的视点位置的影像高精度地再现,需要尽可能多数量的视点影像。
现有技术文献
专利文献
专利文献1:日本特开2008-21210号公报
非专利文献
非专利文献1:“MPEG-4Part10Advanced Video Coding”,ISO/IEC,14496-10,2003
发明概要
发明要解决的问题
但是,在将许多数量的视点影像(以下,将许多数量的视点影像的集合称作“多视点影像”)分发的情况下,与单一视点的视点影像或固定视点的3D影像的分发相比,分发的数据量增加。
在用广播波等进行分发的情况下,由于广播波的带宽是有限的,所以希望分发的视频流整体的数据量尽可能少。
发明内容
所以,本发明是鉴于这样的问题而做出的,目的是提供一种在将多视点影像编码时生成能够削减视频流整体的数据量的视频流的编码装置及编码方法、以及这样的视频流的解码装置、再现装置及解码方法。
为了解决上述课题,有关本发明的编码装置,进行视频流数据的生成,该视频流数据是将表示多个视点中的各个视点的随着时间经过的景象的帧图像群编码而得到的,其特征在于,具备:输入机构,受理上述多个视点中的各个视点的帧图像群的输入;基本视编码机构,将上述多个视点的帧图像群中的1个作为基准视点的帧图像群,生成将该帧图像群不使用其他视点的帧图像作为参照图像而编码得到的基本视视频流数据;第1从属视编码机构,生成第1从属视视频流数据,该第1从属视视频流数据是将上述多个视点中的、处于与上述基准视点之间至少夹着其他1个视点的位置关系的第1种视点的帧图像群,使用基本视视频流数据的同一时刻的帧图像或其他第1从属视视频流数据的同一时刻的帧图像作为参照图像而编码得到的;第2从属视编码机构,生成第2从属视视频流数据,该第2从属视视频流数据是将上述基准视点及第1种视点以外的、处于被其他视点夹着的位置关系的第2种视点的帧图像群,使用夹着该视点的2个视点的同时刻的帧图像作为参照图像而编码得到的;以及视频流数据输出机构,将上述基本视视频流数据和上述第1及第2从属视视频流数据输出。
此外,有关本发明的编码方法,进行视频流数据的生成,该视频流数据是将表示多个视点中的各个视点的随着时间经过的景象的帧图像群编码而得到的,其特征在于,包括:输入步骤,受理上述多个视点中的各个视点的帧图像群的输入;基本视编码步骤,将上述多个视点的帧图像群中的1个作为基准视点的帧图像群,生成将该帧图像群不使用其他视点的帧图像作为参照图像而编码得到的基本视视频流数据;第1从属视编码步骤,生成第1从属视视频流数据,该第1从属视视频流数据是将上述多个视点中的、处于与上述基准视点之间至少夹着其他1个视点的位置关系的第1种视点的帧图像群,使用基本视视频流数据的同一时刻的帧图像或其他第1从属视视频流数据的同一时刻的帧图像作为参照图像而编码得到的;第2从属视编码步骤,生成第2从属视视频流数据,该第2从属视视频流数据是将作为上述基本视视频流数据及上述第1从属视视频流数据而编码的视点以外的、处于被其他视点夹着的位置关系的第2种视点的帧图像群,使用夹着该视点的2个视点的同时刻的帧图像作为参照图像而编码得到的;以及视频流数据输出步骤,将上述基本视视频流数据和上述第1及第2从属视视频流数据输出。
此外,有关本发明的解码装置,其特征在于,具备:取得机构,取得由上述的编码装置生成的流数据;基本视解码机构,将包含在上述流数据中的基本视视频流数据解码,得到基准视点的帧图像群;第1从属视解码机构,先将与对第1从属视视频流数据进行解码时的参照目标的1个视点相对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第1从属视视频流数据解码后的帧图像群;第2从属视解码机构,先将与对第2从属视视频流数据进行解码时的参照目标的2个视点分别对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第2从属视视频流数据解码后的帧图像群;以及输出机构,将由上述基本视解码机构得到的帧图像群、和由上述第1及第2从属视解码机构得到的帧图像群输出。
此外,有关本发明的再现装置,接收从上述的编码装置发送的传输流并再现,其特征在于,具备:流接收机构,接收上述传输流;基本视解码机构,将包含在上述传输流中的基本视视频流解码,得到基准视点的帧图像群;属性信息提取机构,提取包含在上述传输流中的属性信息;第1从属视解码机构,得到将包含在上述传输流中的第1从属视视频流基于上述属性信息而解码后的帧图像群;第2从属视解码机构,得到将包含在上述传输流中的第2从属视视频流基于上述属性信息而解码后的帧图像群;以及再现机构,将由上述基本视解码机构得到的帧图像群、和由上述第1、第2从属视解码机构得到的帧图像群再现。
此外,有关本发明的解码方法,对由上述的编码装置生成的流数据进行解码,其特征在于,具备:取得步骤,取得所述流数据;基本视解码步骤,将包含在上述流数据中的基本视视频流数据解码,得到基准视点的帧图像群;第1从属视解码步骤,先将与对第1从属视视频流数据进行解码时的参照目标的1个视点相对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第1从属视视频流数据解码后的帧图像群;第2从属视解码步骤,先将与对第2从属视视频流数据进行解码时的参照目标的2个视点分别对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第2从属视视频流数据解码后的帧图像群;以及输出步骤,将由上述基本视解码步骤得到的帧图像群、和由上述第1及第2从属视解码步骤得到的帧图像群输出。
发明效果
通过上述结构,根据有关本发明的编码装置及编码方法,在将多视点影像编码时,能够生成能削减视频流整体的数据量的视频流。
此外,根据有关本发明的解码装置及解码方法,能够将这样的视频流解码。
此外,根据有关本发明的再现装置,能够将包括这样的视频流的传输流解码,将多视点影像再现。
附图说明
图1是表示多个视点影像的编码时的视点间的参照关系的概念图,图1(i)是仅参照1个视点影像的例子,图1(ii)是参照最近的视点影像的例子,图1(iii)是参照夹着视点影像的2视点的例子。
图2是表示编码装置2600的结构的框图。
图3是表示编码类型表100的结构和其一例的图。
图4是表示作为从属视编码时的各个视点影像间的参照关系的参照信息200的结构和其一例的图。
图5是表示基本视视频流和从属视视频流的GOP结构的图。
图6是表示利用MPEG-4MVC形式的编码方式的基本视与从属视的参照关系的概念图。
图7是表示多个视点影像的编码时的视点间的参照关系的概念图,图7(i)是将相邻接的视点影像依次参照的情况的一例,图7(ii)是表示本实施方式的参照关系的一例。
图8是概念性地表示图7(i)所示的视点间的参照关系的情况下的视频流的参照关系的图。
图9是概念性地表示图7(ii)所示的视点间的参照关系的情况下的视频流的参照关系的图。
图10是视频流的访问单元的内部结构的概念图。
图11是表示传输流的结构与PMT关系的图。
图12是表示MVC信息描述符的结构的图。
图13是表示MVC立体3D描述符的图(后接图14)。
图14是表示MVC立体3D描述符的图(上接图13)。
图15是表示MVC立体3D流描述符的图。
图16是表示MVC多视描述符的图。
图17是表示各视的视间参照中的参照关系的概念图。
图18是表示多视访问单元中的访问单元的保存顺序的一例的概念图。
图19是表示编码装置2600中的编码处理的动作的流程图。
图20是表示再现装置2800的结构的框图。
图21是表示再现装置2800中的多视视频流的解码处理的动作的流程图。
图22是表示从许多视点位置进行拍摄时的视点位置的一例的概念图。
图23是接收多视点影像的自由视点电视机的概略图。
图24是表示自由视点电视机接收的视点位置的一例的概略图。
图25是表示MPEG-4MVC的编码中的视间的参照关系的概念图。
图26是表示各图片视频的编码时的参照关系的变形例的图,图26(i)是在SI图片视频与SP图片视频之间设定SP图片视频的情况,图26(ii)是设定从其他视点影像参照的SBr图片视频的情况。
图27是表示视点影像的视点间的参照关系与各个视点影像的深度图的视点间的参照关系的图。
图28是表示将视点影像的视点位置配置到2维矩阵上的一例的概念图。
图29是表示MVC多视描述符的变形例的图。
图30是表示将视点位置配置到2维矩阵上的情况下的参照关系的一例的概念图。
图31是表示将视点位置配置到2维矩阵上的情况下的参照关系的变形例的概念图(其1)。
图32是表示将视点位置配置到2维矩阵上的情况下的参照关系的变形例的概念图(其2)。
图33是表示将视点影像划分为多个GOV的情况下的一例的概念图。
图34是表示将基准视点变更的情况下的一例的概念图。
图35是表示用来验证基本视与从属视的参照关系的补充数据的一例的概念图。
图36是表示在生成用户的视点位置的影像的情况下使用的视点影像的一例的概念图,图36(i)是用户的视点位置正在移动的情况,图36(ii)是没有用户的视点位置的移动的情况。
图37是表示基于视点影像生成3D影像的情况下的各视点位置的间隔的一例的概念图。
图38是传输流形式的数字流的结构的概念图。
图39是视频流的结构的概念图。
图40是PES包的结构的概念图。
图41是表示构成传输流的TS包的数据结构的图。
图42是表示PMT的数据结构的图。
图43是表示对应于3D影像再现的3D数字电视机和2D影像再现的2D数字电视机的图。
图44是表示立体视觉图像的显示的一例的图。
图45是并列方式的概念图。
图46是表示视频流的时间方向的图片的参照关系的图。
图47是表示MPEG-4MVC形式的视视频流的内部结构的一例的图。
图48是表示对基本视视频流和从属视视频流的各视频访问单元分配的PTS与DTS的关系的图。
图49是根据2D影像和深度图生成左眼用图像和右眼用图像的视差图像的情况下的概念图。
图50是裁剪区域信息和缩放信息的概念图。
图51是表示裁剪区域信息和缩放信息的具体的指定方法的图。
图52是表示变形例中的各图片类型的参照关系的图。
具体实施方式
<1.实施方式1>
<1-1.概要>
图1是表示多个视点影像的编码时的视点间的参照关系的概念图。
该图是表示视点影像a~c的参照关系的一例。
各视点影像由表示对应的视点的随着时间经过的景象、即由摄像机拍摄的在时间上连续的图像的图片群构成,各图片(picture)是指将构成由再现装置再现时的1个画面的图像、即构成帧或场的图像。
该图的箭头表示有处在箭头前端的视点影像被从处在箭头尾端的视点影像参照的关系。例如,图1(i)的视点影像a意味着参照视点影像c的同时刻的图片进行编码。
在具有由图1(i)表示的参照关系的视点影像的情况下,依据MPEG-4MVC(Multi view coding:多视点编码),生成将视点影像c压缩编码的基本视(base view)。并且,生成将视点影像a和视点影像b的图片分别使用参照基本视的表示同时刻的图片的图片间预测编码进行了压缩编码的从属视(dependent view)。在同时刻的接近的视点影像的图片间,在图片中有相似性(相关性较大)。并且,图片间的相关性越大,图片间的差越小,在通过MPEG-4MVC的压缩编码中,一般差越小则编码出的数据量也越小。因此,对该差进行压缩编码而生成的从属视与基本视相比能够削减数据量。另外,以下为了便于说明,也有将基本视和从属视单称作“视”(view)的情况。此外,将对不同视点的视的图片进行参照,称作“视间参照”。
在由图1(ii)表示的参照关系的情况下,使用不是参照视点影像c、而是参照视点影像b的同时刻的图片的图片间预测编码,生成将视点影像a的图片编码后的从属视。
视点影像a参照的视点影像b的图片与图1(i)的情况相比,由于参照距离较近的视点影像,所以图片间的相关性较大,可以认为能够将数据量进一步削减而压缩编码。但是,在将视点影像a解码时,虽然在图1(i)中不需要视点影像b的图片的解码,但在此情况下,必须将视点影像b的图片也解码。在这样参照相邻的视点影像进行编码的情况下,有视点影像越多、则将从基准视点远离的视点影像再现时要解码的视点影像的数量也越多的问题。
在由图1(iii)表示的视点影像的情况下,与图1(i)的情况同样,视点影像a参照视点影像c的图片,而视点影像b通过参照视点影像c和视点影像a的两者的图片的图片间预测编码进行编码,生成从属视。在此情况下,视点影像b由于参照视点影像c和视点影像a的两者的图片,所以与如图1(i)及图1(ii)的情况那样仅参照1个视点影像进行编码的情况相比能够进一步削减数据量而编码。可以认为,参照两个视点影像的图片而编码的视点影像的数越多,则与图1(i)及图1(ii)的情况相比,作为多个视点影像整体越能够削减数据量。
所以,有关本实施方式的编码装置在一边参照两个视点影像一边编码的视点影像的情况下,使用由图1(iii)表示那样的参照关系的视点影像、即夹着要编码的视点影像的两个视点影像进行编码。由此,在多个视点影像整体中能够进行削减了数据量的编码。作为该情况下的压缩编码方法,使用与MPEG-2或MPEG-4MVC的压缩编码方法中的、在时间方向上作为B图片进行编码的情况同样的编码方法,即,使用通过参照前后两个图片求出图片内的对象的运动矢量、以宏块单位将其差压缩编码的编码方法,进行压缩编码。
另外,在本实施方式中,将编码时的图片类型分类为3个,称作“SI(Spacial Intra:空间内部)图片”、“SP(Spatial Predictive:空间预测)图片”、“SB(Spatial Bi-directionally Predictive:空间双向预测)图片”。
所谓SI图片,是不参照其他视点影像的图片、能够单独解码的基本视的图片。
所谓SP图片,是仅参照将与编码对象的视点影像不同的视点影像编码后的视中的1个视进行编码的从属视的图片。
所谓SB图片,是参照将与编码对象的视点影像不同的视点影像编码后的视中的不同的两个视进行编码的从属视的图片。SB图片在将其他视点影像编码时不被参照。另外,将在对其他视点影像进行编码时被参照的SB图片特别称作“SBr图片”。
本实施方式的编码装置生成将各视点影像遍及整体用相同种类的图片类型编码的视视频流。将由SI图片群构成的视视频流称作“SI图片视频”,将由SP图片群构成的视视频流称作“SP图片视频”,将由SB图片群构成的视视频流称作“SB图片视频”,将由SBr图片群构成的视视频流称作“SBr图片视频”。
以下,对有关本发明的一实施方式的编码装置、和包括解码装置的再现装置进行说明。
<1-2.编码装置>
<1-2-1.结构>
图2是表示有关本实施方式的编码装置2600的结构的框图。
编码装置2600以多个视点影像为输入,将各视点影像编码,输出后述的数据格式的保存基本视视频流及从属视视频流的传输流。
编码装置2600由控制部2601、基本视视频编码器2602、从属视视频编码器2603、编码器选择器2604、视频解码器2605、图片存储器2606、视视频编码信息存储部2607、解码视频选择器2608、视视频存储部2609、参照信息存储部2610、基本视视频流生成部2611、从属视视频流生成部2612、PMT(Program Map Table:节目映射表)生成部2613、复用器2614、传输流输出部2615构成。
编码装置2600包括未图示的处理器及存储器而构成,控制部2601、基本视视频流生成部2611、从属视视频流生成部2612及PMT生成部2613的功能通过该处理器执行存储在该存储器中的程序来实现。
(控制部2601)
控制部2601具备按照输入的每个视点影像、对编码器选择器2604指示将所输入的视点影像向基本视视频编码器2602和从属视视频编码器2603的哪个输出的功能。
控制部2601基于视点影像的提供者对多个视点影像分别预先指定的编码类型的信息(例如,以下所示的编码类型表100),判断将输出目标的视频编码器设为哪个。视点影像的提供者指定各视点影像的编码类型,以便能够尽可能高效率地进行编码及解码。例如,在各视点影像配置在一直线上的情况下,将设想为用户可能主要视听的中央的视点位置的视点影像决定为基准视点的视点影像,进行指定以便作为SI图片视频来编码,进行指定以便将从基准视点在两侧最远离的两个视点影像作为SP图片视频、将其余的视点影像作为SB图片视频来编码。
这里,在图3中表示指定图片视频的编码类型的编码类型表100的一例。
编码类型表100是将视点影像101与视频类型102建立了关联的表。视点影像101是编码对象的视点影像的识别信息,视频类型102是表示将由视点影像101表示的视点影像编码时的视频类型的信息。视频类型是表示将视点影像的图片作为SI图片、SP图片、SB(包括SBr图片)图片的哪个图片来编码的信息。在该图的例子中,视点影像e表示作为基准视点即SI图片视频来编码,视点影像a、i表示作为SP图片视频,视点影像b、c、d、f、g、h表示作为SB图片视频来编码。
控制部2601参照编码类型表100进行控制,以便按照视频类型102是SI图片视频的视点影像、是SP图片视频的视点影像、是SB图片视频的视点影像的顺序来编码。并且,在输入的视点影像的编码类型是SI图片视频的情况下,对编码器选择器2604指示以向基本视视频编码器2602输出,在SP图片视频及SB(包括SBr)图片视频的情况下,指示向从属视视频编码器2603输出。
此外,控制部2601具备以下功能:在从属视视频编码器2603编码时,基于后述的视视频编码信息,确定同时刻的参照的图片,对解码视频选择器2608进行向视频解码器2605输出参照目标的视点影像的视的指示,以便能够用视频解码器2605将参照目标的视点影像的同时刻的图片解码。控制部2601例如在将图1(iii)的视点影像a编码时,对解码视频选择器2608指示,以将由基本视视频编码器2602编码了视点影像c的SI图片视频向视频解码器2605输出。此外,在将视点影像b编码时,对解码视频选择器2608进行指示,以按照要编码的每个图片,依次切换地将由基本视视频编码器2602编码了视点影像c的SI图片视频、和由从属视视频编码器2603编码了视点影像a的SP图片视频向视频解码器2605输出。
(基本视视频编码器2602)
基本视视频编码器2602具有以下功能:根据经由编码器选择器2604输入的视点影像,依据MPEG-4MVC形式,生成不参照他的视点影像而编码的基本视,向后述的视频解码器2605及视视频存储部2609输出。
(从属视视频编码器2603)
从属视视频编码器2603具有以下功能:根据经由编码器选择器2604输入的视点影像,依据MPEG-4MVC形式,生成使用视间参照编码的从属视,向视频解码器2605及视视频存储部输出。从属视视频编码器2603基于包含在后述的视视频编码信息中的信息,作为视间参照,使用由视频解码器2605将参照目标的视点影像的视解码得到的同时刻的图片(以下,称作“解码图片”)进行视点影像的图片的编码。还具有基于识别此时参照的视点影像的信息生成后述的参照信息200、向参照信息存储部2610输出的功能。
(编码器选择器2604)
编码器选择器2604具有按照控制部2601的指示、对所输入的视点影像要输出的编码器进行切换的功能。编码器选择器2604在控制部2601的指示是将SI图片视频输出的指示的情况下,将输入到基本视视频编码器2602中的视点影像输出,在是将SP图片视频及SB图片视频输出的指示的情况下,将输入到从属视视频编码器2603中的视点影像输出。
(视频解码器2605)
视频解码器2605具备将在由从属视视频编码器压缩编码时参照的图片解码的功能。
视频解码器2605具备与MPEG-4MVC的已有的解码器同等的功能,与解码后的图片一起,在各视点影像的视中,将用于在解码时显示及取解码顺序的同步的DTS、PTS的信息输出。基于这些信息,从属视视频编码器2603能够使用与参照目标的图片相同的PTS进行编码。
视频解码器2605在将视点影像编码时,从之前被编码的SI图片视频及SP图片视频中,将与参照源的视点影像的图片同时刻的图片解码,向图片存储器2606输出。视频解码器2605例如在将某1个视点影像作为SP图片视频编码时,按照控制部2601的指示,将经由解码视频选择器2608输入的、之前被编码的SI图片视频解码,将解码得到的图片作为视间参照用的图片向图片存储器2606输出,将关于所解码的视的视视频编码信息输出。关于视视频编码信息在后面叙述。
(图片存储器2606)
图片存储器2606是能够读写的存储器(例如DRAM:Dynamic RandomAccess Memory:动态随机存取存储器),具备保存由存储器视频解码器2605解码后的图片的功能。保存在图片存储器2606中的图片由从属视视频编码器2603对视点影像进行编码时参照。
(视视频编码信息存储部2607)
视视频编码信息存储部2607例如是非易失性存储器,存储了包括在由视频解码器2605解码时得到的视的属性信息(分辨率、宽高比、帧速率、逐行还是隔行的区别等)、对应的图片的图片属性信息(图片类型等)、后述的GOP(Group of Pictures:图片组)结构及图片存储器管理信息的视视频编码信息。
图片存储器管理信息是将保存在图片存储器2606中的解码图片的存储器地址、对应图片的显示顺序信息(PTS:Presentation Time Stamp:演示时间戳)、代码顺序信息(文件的代码顺序或DTS:Decoding Time Stamp:解码时间戳)建立了关联的信息。
这些信息是在由视频解码器2605将图片视频解码时得到的信息,基本上是与在以往的MPEG-4MVC的解码时得到的信息同样的信息。
(解码视频选择器2608)
解码视频选择器2608是具备按照控制部2601的指示、切换为了视间参照而解码的视、并向视频解码器2605输出的功能的选择器。
(视视频存储部2609)
视视频存储部2609例如是硬盘,存储由基本视视频编码器2602及从属视视频编码器2603编码的视的数据。
(参照信息存储部2610)
参照信息存储部2610例如是硬盘,在将1个视点影像编码而生成从属视时,存储表示该视点影像与参照目标的视点影像的参照关系的参照信息200。
这里,将参照信息200的一例表示在图4中。参照信息200是将视点影像201与参照目标202建立了关联的表。视点影像201是编码对象的视点影像的识别信息,参照目标202表示在将由视点影像201表示的视点影像编码时所参照的视点影像的识别信息。参照目标202的项目的“0”意味着在将视点影像编码时没有所参照的视点影像。即,在参照目标中记载有“0”的视点影像表示作为基本视的SI图片视频而被编码。在该图中表示,视点影像e不参照其他视点影像,视点影像a、i参照视点影像e,视点影像b、c、d参照视点影像a、e的两个视点影像,视点影像f、g、h参照视点影像e、i的两个视点影像而编码。
(基本视视频流生成部2611)
基本视视频流生成部2611具备根据由基本视视频编码器2602编码并保存在视视频存储部2609中的基本视的数据、生成由复用器2614与从属视视频流一起复用并作为传输流输出的基本视视频流的功能。
(从属视视频流生成部2612)
从属视视频流生成部2612具备根据由从属视视频编码器2603编码并保存在视视频存储部2609中的从属视、生成由复用器2614与基本视视频流一起复用并作为传输流输出的从属视视频流的功能。
(PMT生成部2613)
PMT生成部2613具备生成PMT头、关于传输流的各种描述符、以及关于包含在传输流中的影像、声音、字幕等的各流的流信息的PMT的功能。
复用器2614具备将从基本视视频流生成部2611输出的基本视视频流及从从属视视频流生成部2612输出的从属视视频流复用、在形成PES(Packetized Elementary Stream:打包基本流)包后以TS包单位分割并输出的功能。另外,复用器2614不仅是视频流,在有在将各视点影像再现时同步再现的共用的声音的流及字幕的流的情况下,将这些流与视频流复用并输出。
(传输流输出部2615)
传输流输出部2615是具备将由复用器复用的TS包作为传输流依次输出的功能的接口。
<1-2-3.数据格式>
接着,参照附图对数据格式进行说明。
在本实施方式中使用的将视点影像的各图片编码后的数据的数据格式与MPEG-4MVC形式的数据格式相同。
图5表示本实施方式中的基本视视频流和从属视视频流的GOP结构。是与MPEG-4MVC中的视频流的GOP相同的结构。
GOP由1个以上的视频访问单元(access unit,以下,称作“AU”)构成。AU是对图片的压缩编码数据进行保存的单位,在1个AU中保存1帧的图片的数据。基本视视频流及从属视视频流由1个以上的GOP构成,GOP分别由1个以上的AU构成。另外,AU是与以往的视频流中的AU相同的结构,详细情况后述。
在编码时,为了对应于再现装置中的跳入再现等的特殊再现,将基本视视频流的GOP和从属视视频流的GOP(以下,称作“从属GOP”)全部用相同张数构成。即,各从属GOP的开头图片是被赋予了与基本视视频流的各GOP开头的I图片的PTS相同的PTS的图片。
此外,基于MPEG-4MVC的标准,生成保存有表示GOP开头的图片处于文件上的哪里的入口映射(entry map)信息的管理信息。此时,不仅是基本视视频流的GOP开头的图片的位置,也保存表示同时刻的从属视的图片的GOP开头的位置的入口映射信息。
接着,对将多视点影像以MPEG-4MVC形式将视点影像编码得到的基本视及从属视的参照关系和多视访问单元的结构进行说明。
图6是表示构成基本视和从属视的各图片间的参照关系的概念图。在各图片间的参照关系中,有同一视内的时间上的参照关系、和各视间的空间上的参照关系。
该图的箭头表示,处在箭头前端的图片有被从处在箭头尾端的图片参照的关系。例如,基本视的I0图片表示在时间方向上被从基本视的Br1、Br2、P3图片参照,在空间方向上被从从属视1的P10图片、从属视2的P20图片参照。
各多视视频访问单元(以下,称作“多视AU”)由基本视的AU、和与基本视同时刻的多个从属视的AU构成,再现装置以该多视AU单位进行解码。将由多视AU群构成的视频流称作多视视频流。多视AU的详细情况后述。
这里,举具体例,对将多视点影像编码得到的基本视及从属视的关系进行说明。
图7是表示多视点影像的编码时的视点间的参照关系的概念图。该图是有视点影像a~i的9个视点影像的情况下的一例。
在图7(i)中,视点影像e是基准视点的视点影像,生成将视点影像e编码的基本视。并且,生成将相邻接于视点影像e的视点影像d、f,参照视点影像e的基本视而进行了编码的从属视。
进而,在图中,相邻于视点影像d的视点影像c生成参照视点影像d而编码的从属视。这样依次参照相邻的视点影像的视进行编码。
可是,在再现装置中,为了生成图7(i)的用户视点X的位置的影像而需要视点影像a、b。为了得到视点影像a、b,首先将视点影像e的基本视解码,接着,必须以视点影像d、c、b、a的顺序将从属视解码。即,需要进行视点影像a~e的5个视点影像的视的解码处理,随着从基准视点离开,对于再现装置而言处理负荷增大。以下,将为了得到在将解码对象的视解码时参照的图片而需要解码的视的数量称作“需要解码视数”。在该例的情况下,需要解码视数是5。
另一方面,图7(ii)是表示在编码装置2600中使用的视点间的参照关系的一例的图。
在图7(ii)的情况下,也与图7(i)同样,视点影像e为基准视点的视点影像,生成将视点影像e编码的基本视。
接着,在图中,将两端的视点影像a、i,参照将视点影像e编码的基本视来进行编码,生成各个视点影像的从属视。并且,将处于视点影像e与视点影像a之间视点位置的视点影像b、c、d,参照将视点影像e和视点影像a分别编码的视来进行编码,生成各个视点影像的从属视。此外,关于视点影像f、g、h,参照将视点影像e和视点影像i分别编码的视来进行编码,分别生成从属视。
在这样编码的情况下,也在再现装置中为了生成用户视点X的位置的影像而与上述情况同样需要视点影像a、b。但是,为了得到视点影像a,只要将视点影像e的视解码就足够,此外,视点影像b只要将视点影像a、e的视解码就足够。即,该情况下的需要解码视数是3,与图7(i)的情况相比能够削减需要解码视数。进而,即使视点影像a与视点影像e之间的视点影像变多,视点影像a与视点影像e之间的视点影像的解码时的需要解码视数也是3,需要解码视数不增加。
接着,使用附图对将具有由图7(i)、图7(ii)表示的参照关系的视点影像用MPEG-4MVC形式编码的情况下的各视的参照关系进行说明。
图8是概念性地表示由图7(i)表示的视点间的参照关系的情况下的视的参照关系的图。
该图的基本视对应于视点影像e,从属视1对应于视点影像d,从属视2对应于视点影像c,从属视3对应于视点影像b。将从属视1参照基本视编码,将从属视2参照从属视1编码,将从属视3参照从属视2编码。因此,例如在将从属视2的P20图片解码的情况下,需要首先将基本视的I0图片解码,接着将从属视1的P10图片解码。此外,为了将从属视3解码,同样需要以基本视的I0图片、从属视1的P10图片、从属视2的P20图片的顺序解码。
另一方面,图9是概念性地表示由图7(ii)表示的视点间的参照关系的情况下的视的参照关系的图。
该图的基本视对应于视点影像e,从属视1对应于视点影像a,从属视2对应于视点影像b,从属视3对应于视点影像c。
从属视1参照基本视,从属视2及从属视3参照基本视和从属视1。因而,即使是将从属视3的图片解码的情况,也不需要进行从属视2的图片的解码,而只要将基本视和从属视1的图片解码就可以。
(多视AU)
接着,对多视AU进行说明。
图10是多视AU的内部结构的概念图。
多视AU是使基本视与多个从属视的同时刻的各自的AU连结而成的结构。
在GOP开头的AU中,作为压缩图片数据而保存I图片的数据,必定保存AU识别码、序列头、图片头、压缩图片数据。根据需要而适当保存补充数据、填充(padding)数据、序列末端码、流末端码。
另一方面,在GOP开头以外的AU中,必定保存AU识别码、压缩图片数据,根据需要而适当保存补充数据、填充数据、序列末端码、流末端码。
(MVC信息描述符及MVC流描述符)
这里,对为了使接收到多视点影像的传输流的再现装置能够利用多视点影像而包含在传输流中的信息进行说明。
在用广播波等分发的传输流中,在多视点影像以外的传输流以外还有2D影像、3D影像等的传输流,接收的再现装置需要能够识别接收到的传输流是怎样的影像。所以,在传输流的PMT(Program Map Table)包中,包含进行这样的影像的解码处理上的信令信息。
图11表示传输流的结构与PMT(Program Map Table)包的关系。如该图所示,描述符包括记述有各视频流的关系及本方式的影像再现的开始/结束等的信息的MVC信息描述符、和按照每个视频流设定的MVC流描述符而构成。
以下,对保存在PMT中的MVC信息描述符和MVC流描述符进行说明。
图12表示MVC信息描述符的结构。
MVC信息描述符由再现方式和再现信息描述符构成。
再现方式是表示如下信息的识别符,该信息表示所输入的视频流的影像再现方式。在该图的例子中,在“1”的情况下表示2D影像的再现,在“2”的情况下表示使用两个视点影像的3D影像的再现,在“3”的情况下表示使用1张2D影像和深度图(Depth Map)的3D影像的再现,在“4”的情况下表示使用多个视点的再现,“5”表示是扩展用的保留。
另外,在本实施方式的编码装置中,扩展用的保留的“5”是未使用,分配的再现方式虽然还没有分配,但将来例如也可以分配以下这样的再现方式。
作为对扩展用的保留的“5”分配的再现方式的一例,有在再现时改变颜色灰度而再现的方式。在该再现方式中,例如将生成了以8位的颜色灰度将2D影像压缩编码的基本视视频流、生成了对具有12位的颜色灰度的影像与基本视视频流的解码结果之间的差分影像进行压缩编码后的从属视视频流的传输流分发。接收到这样的传输流的再现装置通过在将基本视视频流解码后的图片中合成将从属视视频流解码后的差分图片并再现,能够用不同的颜色灰度进行再现。
再现信息描述符是表示用来识别按照每个再现方式使用的描述符的种类的信息的识别符。在图12的例子中,意味着在再现方式的值是“1”的情况下使用MVC2D描述符,在“2”的情况下使用MVC立体3D描述符,在“3”的情况下使用MVC2D+Depth描述符,在“4”的情况下使用MVC多视描述符。即,关于在本实施方式中生成的视频流的MVC信息描述符的再现方式的值是“4”,使用多视描述符。
接着,对在本实施方式中使用的MVC多视描述符详细地说明。另外,MVC多视描述符由于与使用两个视点影像的3D影像的情况下的MVC立体3D描述符共用的部分较多,所以首先对MVC立体3D描述符进行说明,接着对扩展部分进行说明。
(MVC立体3D描述符)
在图13及图14中表示MVC立体3D描述符的各字段。
以下,对各个字段进行说明。
(base_view_left_flag)
base_view_left_flag是表示基本视是左眼用、右眼用的影像的哪种的识别符。在base_view_left_flag的值是“0”的情况下,表示基本视是左眼用的影像,在“1”的情况下,表示是右眼用的影像。再现装置通过参照该识别符,在作为3D影像显示在电视机上的情况下,判断将基本视设为左眼用、右眼用的哪一方的视点影像输出。此外,由于也可以通过在该识别符中设定值来将内容的基本视不固定为某一方,所以在内容的编码中,选择作为基本视编码的视点影像时的自由度增加。
(LR_same_content_flag)
LR_same_content_flag是表示基本视与从属视的内容(详情)是否相同的识别符。即,在左眼影像与右眼影像的详情完全相同的情况下,即实质上是2D影像下的再现的情况下,将该识别符设为“1”。再现装置例如在该识别符的值是“1”的情况下,由于只要仅将基本视解码、作为左眼用、右眼用输出相同的影像就可以,所以能够降低解码时的处理负荷。
(interview_reference_flag)
interview_reference_flag是表示在基本视与从属视之间是否有视间参照的识别符。在interview_reference_flag的值是“0”的情况下,表示在基本视与从属视之间没有视间参照,再现装置在将基本视和从属视解码时能够将各个视流独立地并行解码处理。此外,例如在该识别符的值是“0”的情况下,能够不使用视间参照用的图片存储器而解码。
(interview_reference_type)
interview_reference_type是表示intereview_reference_flag的值是“1”的情况下、即视间参照的情况下的视间参照的参照方法的识别符。
在interview_reference_type的值是“0”的情况下,表示仅基本视的GOP开头的图片进行视间参照。在“1”的情况下,表示仅在基本视的图片是I图片的情况下进行视间参照。在“2”的情况下,表示仅在基本视的图片是I图片或P图片的情况下进行视间参照。在“3”的情况下,表示即使基本视的图片是I图片、P图片以外的图片,即B图片,也进行视间参照。
再现装置由于在开始解码处理之前知道视间参照的参照方法,所以能够进行对应于参照方法的解码处理。例如,在interview_reference_type的值是“0”的情况下,即在视间参照只是GOP开头的情况下,在GOP开头的图片的解码时,在进行基本视的图片的解码后将从属视解码。并且,在此情况下,GOP开头的图片的解码以外的图片能够不参照基本视的图片而将从属视的图片解码,所以再现装置通过将两者的解码并行进行,能够缩短在解码中花费的时间。
(sub_audelimiter_flag)
sub_audelimiter_flag是表示是否有辅(sub)AU识别码的识别符。再现装置通过参照该识别符,能够进行与是否存在辅AU识别码相对应的控制。例如,在sub_audelimiter_flag的值是“1”的情况下,通过调查辅AU识别码的位置,能够迅速地确定从属视的数据的位置,所以能够降低流的解析处理的负荷。
(base_view_first_flag)
base_view_first_flag是表示“基本视的I图片的开头TS包”是否比“从属视的对应的图片的开头TS包”靠前的识别符。另外,在本实施方式的说明中,将接近于传输流的开头的一方表现为“前”,将接近于末端的一方表现为“后”。
在base_view_first_flag的值是“1”的情况下,意味着基本视的I图片的开头TS包必定比从属视的对应的图片的开头TS包靠前。因而,再现装置在进行随机访问再现的情况下,通过从基本视的I图片的包起再现,能够将对应的从属视的数据再读出解码并再现。在“0”的情况下,由于基本视的I图片不限于比对应的从属视的图片的TS包处于后方,所以在随机访问再现时,难以进行从属视的TS包的读出,有可能不能进行3D下的随机访问再现。在此情况下,再现装置能够通过作为2D影像仅将基本视再现的处理来进行对应。
(dept_view_end_flag)
dept_view_end_flag是表示“基本视的I图片的开头TS包”是否处于“在从属视的对应的图片的再现顺序中前一个图片的末端TS包”靠后方的识别符。在dept_view_end_flag的值是“1”的情况下,意味着“基本视的I图片的开头TS包”必定处于“在从属视的对应的图片的再现顺序中前一个图片的末端TS包”靠后方。因而,再现装置通过将从基本视的I图片的开头到下个I图片的开头读入并再现,能够将对应的从属视也同时再现。另外,也可以仅将在base_view_first_flag或dept_view_end_flag中作为基准的I图片仅作为GOP开头的I图片。
(num_of_sub_bitstreams)
num_of_sub_bitstreams是表示辅比特流的数量的识别符。所谓辅比特流,是在传输流内被分配了PID的视频流。
在num_of_sub_bitstreams的值是“1”的情况下,意味着辅比特流是1个,表示将基本视与从属视结合而用相同的PID保存。在“2”的情况下,意味着辅比特流是两个,表示将基本视和从属视用不同的PID保存。
在辅比特流是1个情况下,如图10那样,以将基本视的AU与从属视的AU结合后的多视AU的单位构成基本流,用相同的PID复用。在再现装置中,通过参照num_of_sub_bitstreams,在将视频流自身解析之前,能够判别基本视和从属视是保存在一个PID的流中、还是以不同的PID保存,所以能够减轻视频流的解复用的处理的负荷。另外,也可以在后述的扩展为多视点影像的情况下的MVC多视描述符的num_of_subbitstreams的循环内保存PID的值。由此,在再现装置中,能够不将视频流自身解析而取得全部的辅比特流的PID。
(max_disparity)
max_disparity是表示基本视与从属视的影像的最大视差的大小(像素单位)的识别符。在再现装置中,能够使用该值使基本视和从属视的图片移位来调整视差的大小。例如,如果视差相对于电视机尺寸过大,则将图片移位以使视差变小,来调整3D显示。
(assumed_TV_size)
assumed_TV_size是作为视听3D影像的情况下的基准的电视机尺寸的识别符。再现装置通过参照该尺寸,例如如果实际视听的电视机的大小比assumed_TV_size大,则视差变得过大,有可能成为不适合视听的3D影像,所以能够将图片移位以使视差变小,进行视差的调整。
(BB_during_PopUp)
BB_during_PopUp是表示在视听3D影像时、给出再现装置的OSD(OnScreen Display:屏幕显示)弹出菜单的情况下的影像再现方法的识别符。再现装置进行控制,以在BB_during_PopUp的值是“0”的情况下以3D影像再现的原状显示,在“1”的情况下仅将基本视再现,作为2D影像显示。由此,内容制作方能够按照内容的特性来设定,以适当地控制3D影像视听中的菜单选择的显示。
(pg_for_3D)
pg_for_3D是表示面向3D的父母锁的最低视听年龄的识别符。如果再现装置的为了父母锁而设定的值比设定在pg_for_3D中的值低,则再现装置不作为3D影像再现,而作为2D影像进行再现。因而,再现装置能够进行控制,以防止眼睛发育不成熟的成长过程的儿童误视听3D影像。
(closed_caption_for_3D_flag)
closed_caption_for_3D_flag是表示存在面向3D的Closed Caption(隐藏式字幕)的识别符。在closed_caption_for_3D_flag的值是“0”的情况下表示不存在面向3D的Closed Caption,在“1”的情况下意味着存在。再现装置在显示Closed Caption的情况下,如果该识别符的值是“0”,则通过将3D影像切换为2D影像来显示,能够避免在3D影像中显示面向2D的ClosedCaption。
(base_2D_preferable_flag)
base_2D_preferable_flag是表示在作为2D影像再现的情况下是应将基本视再现还是应将从属视再现的识别符。
在base_2D_preferable_flag的值是“0”的情况下,表示优选的是将基本视作为2D影像显示,在“1”的情况下,表示优选的是将从属视作为2D影像显示。根据影像不同,也有从属视作为影像更好看的情形,在编码时内容制作者能够在该识别符中指定优先进行2D再现的影像的视,以便在再现装置中能够选择好看的影像作为2D影像。
(profile,level)
profile及level是表示为了将3D影像再现而在再现装置中需要的性能的识别符。分别是相当于MPEG-4MVC方式中的profile_idc、level_idc的识别符。
(MVC立体3D流描述符)
接着,对MVC立体3D流描述符进行说明。
在图15中表示MVC立体3D流描述符的识别符。MVC立体3D流描述符按照PID定义。
(num_of_views)
num_of_views是表示在由各PID表示的视频流中包含的视的数量的识别符。在视频流中保存有基本视和从属视两者的情况下(MVC立体3D描述符的num_of_sub_bitstreams的值是“1”的情况下),num_of_views为“2”。
(view_id)
view_id表示用来识别视的ID,是相当于MPEG-4MVC的view_id的识别符。
(profile,level)
profile及level是表示为了将该视再现而在再现装置中需要的性能的识别符,分别相当于MPEG-4MVC方式的profile_idc、level_idc。
(interviewed_flag)
interviewed_flag是表示该视是否被视间参照的识别符。在interviewed_flag的值是“1”的情况下,表示该视被从其他视进行视间参照,在“0”的情况下表示不被视间参照。
(interview_flag)
interview_flag是表示该视是否进行视间参照的识别符。在interview_flag的值是“1”的情况下,表示该视对其他视进行视间参照,在“0”的情况下表示不进行视间参照。
(MVC多视描述符)
接着,对MVC多视描述符进行说明。
图16是表示MVC多视描述符的识别符的图。另外,在MVC多视描述符中,除了图16所示的识别符以外,还包含与上述MVC立体3D描述符相同的字段名的识别符。
(num_of_sub_bitstreams)
与MVC立体3D描述符的num_of_sub_bitstreams同样,是表示辅比特流的数量的识别符。
(sub_bitstreams_order[num_of_subbitstreams])
sub_bitstreams_order[num_of_subbitstreams]是表示辅比特流的复用顺序的排列的识别符。表示辅比特流的GOP开头图片的开头TS包的排列顺序。使用在sub_bitstream_id中记述的ID将排列顺序保存。再现装置在通过参照该ID实现跳入再现等的情况下,能够确定如果从哪个辅流的GOP开头的TS包读入并进行处理、则能够将全部的辅比特流读出。
(sub_bitstream_id)
sub_bitstream_id是保存对辅比特流赋予的唯一的ID的识别符。
(PID)
PID是该辅比特流的PID。它只要是能够区别复用的视频流的信息就可以。
(num_of_views)
num_of_views是表示构成该多视的合计视数的识别符。例如在如图7那样将9个视点影像编码并作为传输流发送的情况下,num_of_views是“9”。
view_id是用来识别视的ID,是相当于MPEG-4MVC形式的情况下的view_id的识别符。
(view_type)
view_type是表示该视符合SI图片视频、SP图片视频、SB(包括SBr)图片视频的哪种的识别符。
(profile,level)
profile及level是表示为了将该视再现而在再现装置中需要的性能的识别符,分别相当于MPEG-4MVC方式的profile_idc、level_idc。
(view_ids_refers_to_this_view[])
view_ids_refers_to_this_view[]是表示如下view_id的列表的识别符,该view_id表示在视间参照中利用该视的图片的那些视。
(view_ids_refered_to_by_this_view[])
view_ids_refered_to_by_this_view[]是表示如下view_id的列表的识别符,该view_id表示该视进行视间参照的那些视。
通过参照全部的视的view_ids_refers_to_this_view[]和view_ids_refered_to_by_this_view[],能够知道各视的参照关系,能够构建表示图17所示那样的参照关系的树结构。在该图的例子中,view_ID为0的视是基本视,是被从view_ID为1~7的视参照的SI图片视频。view_id为1及2的视是SP图片视频,表示view_id为1的视频被从view_id为3~5的视参照,view_id为2的视频被从view_id为6及7的视参照。view_id为3~6的视是SB图片视频,表示是参照view_id为0的视和view_id为1或2的视的关系。
(left_position_view_id,distance_to_left等)
left_position_view_id是表示与在对应于该视的视点影像的左侧处于最近的位置的视点影像相对应的视的view_id的识别符,distance_to_left是表示到该视点影像的物理的距离的识别符。
同样,right_position_view_id、up_position_view_id、down_position_view_id分别是表示与在对应于该视的视点影像的右侧、上侧、下侧处于最近的位置的视点影像对应的视的view_id的识别符,distance_to_right,distance_to_up、distance_to_down分别是表示到该视点影像的物理的距离的识别符。在再现装置中,通过参照这些识别符,判断对应于各视的视点影像的位置关系。
(view_id_order[num_of_views])
view_id_order[num_of_views]是在辅比特流中保存多个视的情况下的在多视AU内的各视的排列顺序中保存有view_id的排列的识别符。
在图18中表示该保存的一例。如在图18中表示那样,在各自的多视AU内,有view_id的值为“0”~“3”的AU,如果以view_id的值为“0”、“3”、“2”、“1”的顺序保存有视的AU,则在view_id_order[num_of_views]中,该值以“0”、“3”、“2”、“1”的顺序保存。即,在再现装置中,通过参照view_id_order[num_of_views]的值,能够知道在多视AU中以由图18表示的顺序保存有AU,能够确定并提取想要解码的视的AU。
<1-2-4.动作>
接着,对编码装置2600的编码处理的动作进行说明。
图19是表示编码装置2600中的编码处理的动作的流程图。
在编码装置2600中,在由多个摄像机拍摄的视点影像中,将各个视点影像的同时刻的帧图像按照每一定时间(例如,每1/30秒)依次输入。在视点影像有N个的情况下,如果按照每1/30秒输入帧图像,则在全部的视点影像的同时刻的帧图像的输入中花费N/30秒。
将输入的各帧图像附加表示用SI图片、SP图片、SB图片视频的哪个图片类型编码的信息而输入。另外,为了便于说明,在以下的说明中,有将“视点影像的帧图像的输入”只表现为“视点影像的输入”等的情况。此外,在输出视点影像的帧图像的情况下,也有使用“视点影像的输出”的表现的情况。
编码器选择器2604基于编码类型表100判断所输入的视点影像是否是基准视点的视点影像(步骤S10)。具体而言,编码器选择器基于识别在与记载在编码类型表100的视点影像101中的视点影像的识别信息相对应的视频类型102中所记载的SI、SP、SB的信息,来判别视频类型。例如,在输入的视点影像是视点影像e的情况下,由于在编码类型表100中将视点影像e的编码类型记载为SI图片视频,所以编码器选择器2604将输入的视点影像e判断为基准视点的视点影像,向基本视视频编码器2602输出。
在编码器选择器2604对基本视视频编码器2602输出了视点影像的情况下(步骤S10:是),基本视视频编码器2602将输入的视点影像作为SI图片视频编码(步骤S11)。并且,基本视视频编码器2602对视视频存储部2609和图片存储器2606输出SI图片视频,视视频存储部2609将SI图片视频存储(步骤S20)。
接着,编码器选择器2604判断是否被输入了视点影像(步骤S21),如果没有被输入的视点影像(步骤S21:否)则向步骤S22前进。另一方面,在有被输入的视点影像的情况下(步骤S21:是),进行从步骤S10起的处理。
另一方面,在步骤S10中,在编码器选择器2604判断为被输入了不是基准视点的视点的视点影像的情况下(步骤S10:否),将被输入的视点影像向从属视视频编码器2603输出。
解码视频选择器2608按照控制部2601的指示,为了将从属视视频编码器2603编码时所参照的SI图片解码,将SI图片视频从基本视视频编码器2602向视频解码器2605输出。视频解码器2605将输入的SI图片视频解码,将得到的SI图片向图片存储器2606输出,将在编码时得到的视视频编码信息向视视频编码信息存储部2607输出(步骤S12)。
接着,从属视视频编码器2603参照编码类型表100判断被输入的视点影像是否是作为SP图片视频编码的视点影像(步骤S13)。具体而言,基于在与记载在编码类型表100的视点影像101中的视点影像相对应的视频类型102中所记载的视频类型来判断。例如,在被输入了视点影像a的情况下,由于在与视点影像a对应的视频类型102中记载有SP,所以判断为作为SP图片视频来编码(步骤S13:是)。
在步骤S13中为是的情况下,从属视视频编码器2603将表示作为SP图片视频编码的视点影像的参照目标视点影像的信息向参照信息200追加(步骤S14)。例如,在图7(ii)的视点影像a的情况下,将表示在将视点影像a编码时参照的视点影像是视点影像e的参照信息向参照信息200追加。
接着,从属视视频编码器2603基于视视频编码信息,参照存储在图片存储器2606中的、与被输入的视点影像的图片同时刻的SI图片,将被输入的视点影像作为SP图片视频编码(步骤S15)。从属视视频编码器2603将新追加了参照信息的参照信息200向参照信息存储部2610输出,参照信息存储部2610将新的参照信息200存储(步骤S19)。接着,从属视视频编码器2603将SP图片视频向视视频存储部2609输出,视视频存储部2609将SP图片视频存储(步骤S20)。
另一方面,在从属视视频编码器2603判断为不将被输入的视点影像作为SP图片视频编码的情况下(步骤S13:否),解码视频选择器2608进行切换,以将用来生成从属视视频编码器2603在编码时参照的SP图片的SP图片视频从从属视视频编码器2603向视频解码器2605输出。视频解码器2605将被输入的SP图片视频解码,将得到的SP图片向图片存储器2606输出,将在编码时得到的视视频编码信息向视视频编码信息存储部2607输出(步骤S16)。
接着,从属视视频编码器2603将表示作为SB图片视频编码的视点影像的参照目标视点影像的信息向参照信息200追加(步骤S17)。例如,在图7(ii)的视点影像b的情况下,将表示在将视点影像b编码时参照的视点影像是视点影像a、e的参照信息向参照信息200追加。
从属视视频编码器2603基于记载在视视频编码信息中的PTS的信息,提取存储在图片存储器2606中的、PTS与被输入的视点影像的图片相同的SI图片和SB图片,使用这些图片,通过视间参照,将被输入的视点影像作为SB图片视频编码(步骤S18)。从属视视频编码器2603将新追加了参照信息的参照信息200向参照信息存储部2610输出,参照信息存储部2610将新的参照信息200存储(步骤S19)。接着,从属视视频编码器2603将SB图片视频向视视频存储部2609输出,视视频存储部2609将SB图片视频存储(步骤S20)。
编码器选择器2604接着判断是否被输入了视点影像(步骤S21),在有被输入的视点影像的情况下(步骤S21:是),进行从步骤S10起的处理。
另一方面,如果没有被输入的视点影像(步骤S21:否),则基本视视频流生成部2611将存储在视视频存储部2609中的将基准视点编码后的基本视读出,生成基本视视频流(步骤S22)。接着,从属视视频流生成部2612将存储在视视频存储部2609中的基准视点以外的视点影像编码后的全部的从属视读出,生成从属视视频流(步骤S23)。
PMT生成部2613生成包含关于基本视视频流及从属视视频流的MVC信息描述符和MVC流描述符的流信息、以及包含关于传输流的描述符的PMT(步骤S24)。具体而言,在表示MVC信息描述符的再现方式的识别符中记载作为表示是多视的流的值的“4”。
此外,基于记载在参照信息200中的参照关系,设定MVC多视描述符的view_ids_refers_to_this_view[]及view_ids_refered_to_by_this_view[]的值。具体而言,在记述关于与记载在参照信息200的视点影像201中的视点影像相对应的视的view_id的识别符的部位的view_ids_refered_to_by_this_view[]中,记载与记载在参照目标202中的视点影像对应的view_id。
进而,在记载关于与记载在参照目标202中的视点影像相对应的view_id的识别符的部位的view_ids_refers_to_this_view[]中,记载与记载在对应于参照目标202的视点影像201中的视点影像相对应的view_id。例如,参照信息200的视点影像201记载在与“a”对应的参照目标202中的是“e”。如果设对应于视点影像a的视的view_id为“1”、对应于视点影像e的view_id为“2”,则在记载关于view_id是“2”的视的识别符的部位的view_ids_refers_to_this_view[]中,由于被从view_id为“1”的视进行参照,所以记载“1”,由于自身的视不参照其他视,所以在view_ids_refered_to_by_this_view[]中不记载值。
另一方面,在记载关于view_id是“1”的视的识别符的部位的view_ids_refered_to_by_this_view[]中,记载表示参照view_id为“2”的视的“2”。
此外,在视点影像201是“b”的情况下,在参照目标202中作为参照目标记载的是“a、e”。如果设对应于视点影像b的视的view_id为“3”,则在记载关于view_id是“3”的视的识别符的部位的view_ids_refered_to_by_this_view[]中,记载表示参照view_id为“1”和“2”的视的“1、2”。并且,在view_ids_refers_to_this_view[]中,由于该视不被从其他视参照,所以不记述值。
进而,在此情况下,在记载关于view_id是“2”的视的识别符的部位的view_ids_refers_to_this_view[]中,追加表示也被从view_id为“3”的视参照的“3”,并且,view_ids_refers_to_this_view[]的值为“1、3”。
此外,在记载关于view_id是“1”的视的识别符的部位的view_ids_refers_to_this_view[]中,也记述表示被从view_id为“3”的视参照的“3”。这样,对于记载在参照信息200中的全部的视点影像,基于视点影像201与参照目标202的参照关系,设定MVC多视描述符的view_ids_refers_to_this_view[]及view_ids_refered_to_by_this_view[]的值。
其他的识别符基于视视频编码信息记载MVC多视描述符的各识别符的值。各识别符的值基于记载在以MPEG-4MVC形式编码时构建的syntax(语法)要素中的信息设定。所谓syntax要素,是规定在MPEG-4MVC形式的压缩编码方式的编码中需要的属性信息的要素。
接着,复用器2614将PMT、基本视视频流及从属视视频流复用,进行PES包化(步骤S25)。
传输流输出部2615将由复用器2614进行了PES包化的传输流分割为TS包单位并输出(步骤S26)。
通过以上的处理,编码装置2600将包括将多视点影像编码后的数据的传输流输出。
<1-3.再现装置>
这里,对接收由上述的编码装置2600编码的传输流并再现的再现装置2800进行说明。
<1-3-1.结构>
图20是表示有关本实施方式的再现装置2800的结构的框图。
再现装置2800由用户位置取得机构2801、视视频流决定机构2802、PID过滤器2803、数据选择器2804、多视视频解码器2822、平面存储器2820及音频解码器2824构成。
再现装置2800包括未图示的处理器及存储器而构成,用户位置取得机构2801、视视频流决定机构的各功能通过该处理器执行存储在该存储器中的程序来实现。
(用户位置取得机构2801)
用户位置取得机构2801具备用来拍摄用户的摄像机,具有从摄像机拍摄的影像中使用脸识别技术检测用户的脸的位置、根据检测出的脸的位置确定用户的视点位置、将关于视点位置的信息(例如,视点位置的坐标值)向视视频流决定机构输出的功能。
(视视频流决定机构2802)
视视频流决定机构2802具备基于从用户位置取得机构2801得到的关于视点位置的信息(例如,视点位置的坐标值)确定应解码的视点影像、选择与所确定的视点影像对应的视频流的功能。具体而言,视视频流决定机构2802取得由PID过滤器2803过滤并输出的PMT数据,基于包含在PMT中的MVC信息描述符和根据MVC流描述符得到的关于各视的位置信息的识别符(left_position_view_id、distance_to_left等),与从用户位置取得机构2801得到的关于视点位置的信息相比较,选择距用户的视点位置最近的视作为解码对象的视。将包括所选择的视的视视频流数据,根据所选择的视的视频类型,对数据选择器2804进行切换输出目标的TB(Transport Stream Buffer)的指示。即,对数据选择器2804指示,以在包含在被输入的视视频流数据中的视的视频类型是SI图片视频的情况下向TB(1)输出,在SP图片视频及SB图片视频的情况下向TB(2)或TB(3)输出。在该图的结构的情况下,通过分别向TB(2)、TB(3)输入不同的SP图片视频,能够进行并行处理。另外,关于TB在后面叙述。
(PID过滤器2803)
PID过滤器2803具备按照视视频流决定机构2802的指示对被输入的传输流进行过滤的功能。具体而言,PID过滤器2803将被输入的TS包按照TS包的PID,经由数据选择器2804向多视视频解码器2822或音频解码器2824输出。
PID过滤器2803通过将PMT包解析来识别与PID对应的流。例如,将基本视视频流和从属视视频流作为具有不同的PID的视频流生成,如果编码装置将基本视视频流的PID在PMT中记述为0x1012,则参照输入的TS包的PID,将PID的值是0x1012的TS包判断为是基本视视频流的TS包,经由数据选择器2804向多视视频解码器2822输出。在PID是表示是音频数据的流的PID的情况下,将符合的PID的TS包向音频解码器2824输出。
(数据选择器2804)
数据选择器2804具备按照视视频流决定机构2802的指示、将从PID过滤器2803输入的TS包向被指示的输出目标的TB输出的功能。
(多视视频解码器2822)
多视视频解码器2822由TB(1)2806、MB(Multiplexing Buffer:复用缓冲器)(1)2807、EB(Elementary Stream Buffer:基本流缓冲器)(1)2808、TB(2)2809、MB(2)2810、EB(2)2811、TB(3)2812、MB(3)2813、EB(3)2814、解码开关2815、视间缓冲器2816、D2(2817)及DPB(Decoded Picture Buffer:解码图片缓冲器)2818构成。
(TB、MB、EB)
TB(1)2806是将从数据选择器2804输入的包含基本视频流的TS包以TS包的原样暂时储存的缓冲器。
MB(1)2807是在从TB(1)2806向EB(1)2808输出视频流时、用来暂时将PES包储存的缓冲器。在从TB(1)2806向MB(1)2807转送数据时,将TS包的TS头及适应字段去除。
EB(1)2808是将被压缩编码的图片(I图片、B图片、P图片)数据保存的缓冲器。在从MB(1)2806向EB(1)2808转送数据时将PES头去除。
TB(2)2809、MB(2)2810及EB(2)2811分别具有与TB(1)2806、MB(1)2807及EB(1)2808相同的功能,但在缓冲的数据是从属基本视视频流这一点上不同。
TB(3)2812、MB(3)2813及EB(3)2814分别具备与TB(2)2809、MB(2)2810及EB(2)2811相同的功能。
解码开关2815从EB(1)2808、EB(2)2811及EB(3)2814,按照DTS的值,将被赋予了该DTS的AU的数据取出,构成多视AU,向D2(2817)输出。
(D2(2817)、视间缓冲器2816)
D2(2817)是进行对从解码开关2815输出的多视AU的解码处理而生成帧图像的解码器。D2(2817)具备将MPEG-4MVC形式的从属视视频流解码的功能。
视间缓冲器2816是保存在D2(2817)进行解码处理时进行视间参照的图片的可读写的存储器(例如,DRAM)。
由D2(2817)解码后的图片被暂时保存到视间缓冲器2816中。对于从属视的图片,D2(2817)参照保存在视间缓冲器2816中的PTS是相同值的基本视的解码图片或作为参照目标的视点影像的从属视的解码图片,来进行解码处理。
此外,D2(2817)具备将解码后的图片经由DPB2818按照PTS的值向平面存储器2820输出的功能。
(DPB2818)
DPB2818是将由D2(2817)解码后的图片为了按照PTS的值输出而用来暂时保持的可读写的存储器(例如,DRAM)。保持在DPB2818中的图片用于D2(2817)在使用时间方向的图片间预测编码模式将P图片或B图片等的AU解码时来进行参照。
(平面存储器2820)
平面存储器2820是用来按照PTS的值保持DPB2818输出的图片的可读写的存储器(例如,DRAM)。将解码后的图片经由平面存储器输出。将输出的图片显示到连接在再现装置2800上的显示器等的显示装置上。
(音频解码器2824)
音频解码器2824具备将从PID过滤器2803输出的音频的TS包解码、将声音数据输出的功能。将输出的声音数据用连接在再现装置2800上的扬声器等再现。
<1-3-2.动作>
接着,对再现装置2800的解码处理的动作进行说明。
图21是表示再现装置2800的多视视频流的解码处理的动作的流程图。
视视频流决定机构2802基于从用户位置取得机构2801得到的用户的视点位置的信息,选择解码的视视频流(步骤S30)。具体而言,用户位置取得机构2801,作为表示用户的视点位置的信息,将包含以基准视点的位置为原点的视点影像的xy平面(参照图28)的坐标系中的坐标值输出,视视频流决定机构2802根据用户的视点位置的坐标值、和记述在MVC多视描述符中的关于各视的视点影像的位置的信息(left_position_view_id、distance_to_left等),计算用户的视点位置与各视点影像的距离,选择包含与距用户的视点位置最近的视点影像对应的视的视视频流。
接着,视视频流决定机构2802判断所选择的视的视频类型是否是SI图片视频(步骤S31)。具体而言,在MVC多视描述符中,判断与所选择的视的视ID对应的view_type的值是否是SI。
在所选择的视的视频类型是SI的情况下(步骤S31:是),视视频流决定机构2802对数据选择器2804进行指示,将包含所选择的视的视视频流向TB(1)2806输出,数据选择器2804按照指示,将所选择的视视频流向TB(1)2806输出。D2(2817)对由MB(1)2807、EB(1)2808将头等去除后的视视频流进行解码,向DPB2818输出(步骤S39)。
另一方面,在所选择的视的视频类型不是SI图片视频的情况下(步骤S31:否),由于所选择的视不能单独解码,所以需要将参照目标的视先解码。因此,视视频流决定机构2802首先选择作为所选择的视所参照的能够单独解码的视的SI图片视频(步骤S32)。具体而言,视视频流决定机构2802参照MVC多视描述符的view_ids_refers_to_this_view[],确定参照目标的视频流的view_id,选择其中的view_type为SI者。
接着,视视频流决定机构2802对数据选择器2804进行将所选择的SI图片视频向TB(1)2806输出的指示,数据选择器2804按照视视频流决定机构2802的指示,将SI图片视频的视频流向TB(1)2806输出。
并且,D2(2817)将由MB(1)2807、EB(1)2808去除了头等的SI图片视频解码(步骤S33),将解码后的图片向视间缓冲器2816保存(步骤S34)。
接着,视视频流决定机构2802判断所选择的视的视频类型是否是SP图片视频(步骤S35)。与步骤S31中的判断同样,用所选择的视的view_type的值判断。
在所选择的视的视频类型是SP图片视频的情况下(步骤S35:是),视视频流决定机构2802对数据选择器2804进行将包含所选择的视的视频流向TB(2)2809输出的指示,数据选择器2804将所选择的视视频流向TB(2)2809输出。
并且,D2(2817),对由MB(2)2810、EB(2)2811去除了头等的SP图片视频,一边参照先解码并保存在视间缓冲器2816中的SI图片视频的PTS的值相同的图片,一边进行解码,并向DPB2818输出(步骤S39)。
另一方面,在所选择的视的视频类型不是SP图片视频的情况下(步骤S35:否),视视频流决定机构2802选择所选择的视参照的SP图片视频(步骤S36)。具体而言,视视频流决定机构2802参照MVC多视描述符的view_ids_refers_to_this_view[]确定参照目标的视的view_id,选择其中的view_type为SP者。
接着,视视频流决定机构2802对数据选择器2804进行将所选择的SP图片视频向TB(2)2809输出的指示,数据选择器2804按照指示,将SP图片视频向TB(2)2809输出。
并且,D2(2817),对由MB(2)2810、EB(2)2811去除了头等的SP图片视频,一边参照保存在视间缓冲器2816中的先被解码的SI图片视频的PTS的值相同的图片一边进行解码(步骤S37),将解码后的SP图片向视间缓冲器2816输出(步骤S38)。
接着,视视频流决定机构2802对数据选择器2804进行将包含所选择的视的视视频流向TB(3)2812输出的指示,数据选择器2804按照视视频流决定机构2802的指示,将视视频流向TB(3)2812输出。
并且,D2(2817)对由MB(3)2813、EB(3)2814去除了头等的SB图片视频的视视频流,一边参照保存在视间缓冲器2816中的先被解码的SI图片视频的图片及SP图片视频的PTS的值相同的图片一边进行解码,并向DPB2818输出(步骤S39)。
DPB2818按照PTS的值,将解码后的图片向平面存储器2820输出(步骤S40)。将输出到平面存储器2820中的图片显示到连接在再现装置上的显示器上。
<1-4.总结>
编码装置2600在将在同时刻拍摄的多个视点的视点影像编码的情况下,对处于被其他两个视点影像夹着的位置关系的视点影像,使用参照夹着该视点影像的两个视点影像的视间参照来进行压缩编码,由此能够生成包含削减了数据量的视频流的复用的传输流。
此外,再现装置2800可以使用由编码装置2600生成的传输流,从多个视点位置的视点影像中选择距用户的视点位置最近的视点影像,将与该视点影像对应的视频流解码并再现。
<1-5.补充>
以下,对由本实施方式的编码装置或再现装置实现的多视点影像的视听进行补充说明。
如已经叙述那样,作为用来实现来自多个视点的影像的视听的技术,有自由视点影像技术。
在实际拍摄的自由视点影像的再现中,使用由多个摄像机同时拍摄的多视点影像。未由摄像机拍摄的视点位置的影像,生成使用由摄像机拍摄的视点影像插补后的影像。因此,使摄像机的间隔越密,越能够生成高品质的自由视点影像。
图22是表示摄像机拍摄时的视点位置的一例的概念图。
在该图的例子中,表示对被摄体从9个视点位置(摄影视点A~I)同时拍摄。另外,来自摄影视点A~I的视点影像分别对应于图7的视点影像a~i。此时,在用户的视点如X的位置(以下,将用户的视点位置称作“用户视点”,例如,将X的位置的用户视点称作“用户视点X”)那样处于与被拍摄的视点不同的位置的情况下,使用附近的摄影视点生成合成影像。在生成来自该图的用户视点X的影像的情况下,使用由摄影视点D所拍摄的视点影像d和由摄影视点E拍摄的视点影像e。作为合成影像的生成方法的一例,基于处在视点影像d及视点影像e中的对象的特征点的对应关系,生成各个视点影像的深度图。进而,基于该深度图,将视点影像d及视点影像e的视点影像中的各对象移位以成为从用户视点看到的影像,生成用户视点X的影像。
图23是作为接收到这样的多视点影像的情况下的利用形态的一例的自由视点电视机的概略图。
自由视点电视机10将用户视点的影像再现。自由视点电视机10在显示器的上部具备摄像机,用摄像机拍摄用户,通过使用脸识别技术识别用户的脸来确定用户的位置。该自由视点电视机10如图24那样,从编码装置接收视点影像a~i的9个视点影像,按照用户的位置,生成并显示该位置的视点影像。该图的用户视点X的视点影像使用夹着用户视点X、在各自一方处在最近的位置的视点影像d及视点影像e生成。
为了实现这样的自由视点电视机而需要将许多影像同时分发,但希望分发的数据量较小。
对于相同的对象物在同时刻拍摄的多个视点影像,相互的相关性较大。在利用不同的影像间的相关性削减数据量而压缩编码的技术中有MPEG-4MVC。MPEG-4MVC是在BD(Blu-ray Disc(注册商标))的3D影像、即2视点的视点影像的压缩编码中使用的编码方式。另外,在3D影像的编码的情况下编码的影像是左眼用和右眼用的两个,但MPEG-4MVC是能够将两个以上的影像集中压缩编码的标准。
图25是表示MPEG-4MVC的编码中的视间的参照关系的概念图。
在MPEG-4MVC中,将多视点影像作为1个基本视和1个以上的从属视来编码。另外,该图表示2视点的情况下的例子,是1个基本视与1个从属视的参照关系的一例。
该图的箭头表示图片间的参照关系,表示是箭头的前端的图片参照箭头尾端的图片的关系。例如表示,该图的作为从属视的开头的P图片的图片P0参照作为基本视的I图片的图片I0。作为从属视的B图片的图片B1参照作为基本视的Br图片的图片Br1。作为从属视的第二个P图片的图片P3参照作为基本视的P图片的图片P3。
由于基本视不参照从属视的图片,所以能够仅用该基本视解码并再现。
另一方面,由于从属视一边参照基本视一边解码,所以不能以从属视单独解码并再现。但是,从属视使用表示同时刻的视的别的视点的基本视的图片进行图片间预测编码。在同时刻的接近的视点的图片间,在图片中有相似性(相关性较大),通过将两图片内的相互相似的宏块的差以宏块单位压缩编码,从属视与基本视相比能够削减数据量。
<2.变形例>
以上,说明了本发明的实施方式,但也可以将例示的编码装置及再现装置如以下这样变形,本发明当然并不限定于在上述实施方式中表示那样的编码装置及再现装置。
(1)编码装置2600以处于直线上的视点影像的中央的视点影像为基准视点,作为SI图片视频而编码,将距基准视点最远的两端的视点影像作为SP图片视频而编码,但作为SP视频而编码的视点影像并不限于两端的视点影像。在基准视点与两端的视点影像之间有多个视点影像的情况下,也可以将其中的一些作为SP图片视频而编码。例如,也可以如图26(i)那样,不仅将与左端的视点位置I对应的视点影像、也将与视点位置A和视点位置I之间的视点位置E对应的视点影像作为SP图片视频而编码。如果这样,则由于参照的视点影像的距离变近,所以各个视点的图片间的差变小,能够进一步削减从属视视频的数据量而编码。
在此情况下,多视点影像的提供者设定从基准视点每离开规定的视点影像的数量就设定SP图片的编码类型表100。例如,在图3的例子中,也可以将视点影像c、g的视频类型不是设定为SB,而是设定为SP。
此外,也可以将SI图片视频与SP图片视频之间的SB图片视频中的1个作为从其他视点影像参照的SBr图片视频。例如,在图26(ii)中,也可以将与视点位置E对应的视点影像作为SBr图片视频而编码,视点位置B、C、D的视点影像参照该SBr图片视频和视点位置A的SI图片视频,视点位置F、G、H的视点影像参照该SBr图片视频和视点位置I的SP图片视频来编码。由此,与参照SP图片视频的情况相比,与所参照的视点影像的距离变近,所以各个视点的图片间的差变小,能够将视点位置B、C、D、F、G、H的视点影像以更高的压缩率编码。
另外,在图26中,添加在SI、SP、SB之后的数字表示在得到该图片为止需要解码的其他视点影像的数量。以下,在图27、图30、图31、图32、图33、图36的SI、SP、SB、SBr之后添加的数字也同样。
例如,在图26中,SI0的“0”表示不需要其他视点影像的解码,SP1的“1”意味着需要1个视点影像、即SI图片视频的解码。此外,SB2的“2”意味着需要两个视点影像、即SI图片视频和SP图片视频的解码。此外,在如该图(ii)那样将视点影像E作为SBr2而编码的情况下,为了得到对于视点影像B、C、D的图片视频,需要SI、SP1、SBr的3个图片视频的解码,所以将对应于它们的图片视频表示为SB3。
(2)在实施方式中,以视点影像的视点位置处于一直线上的情况为例进行了说明,但并不限于视点位置处于一直线上的情况。各个视点位置处于怎样的位置关系都可以。例如,也可以如图28那样,各个视点位置处于2维矩阵上。图28的xy平面上的中空的椭圆及涂黑的椭圆都表示各视点位置。特别是,涂黑的椭圆对应于在实施方式中说明的配置在一直线上的视点位置。另外,如图28所示那样,将水平方向设为x轴,将垂直方向设为y轴,将从中央的视点位置朝向对象物的方向设为z轴。
在MVC多视描述符中,定义用来记述这样在xy平面上具有分布的视点位置的位置关系的识别符。
在图29中,表示新定义了用来记述视点位置的位置关系的识别符的MVC多视描述符的一例。与图16的MVC多视描述符相比,追加了x_position及y_position的识别符。
x_position在将与作为基准视点的SI图片视频对应的视点位置在xy平面中将其坐标值设为(x,y)=(0,0)的情况下,是表示该图片视频的x轴方向的坐标值的识别符。
y_position同样是表示该图片视频的y轴方向的坐标值的识别符。
通过参照这两个识别符,再现装置能够确定处于xy平面上的视点位置,知道各视点位置的位置关系。
另外,也可以再追加z_position,扩展为xyz轴的3维,将朝向对象物的方向设为z轴的正(+)方向,将基准视点的位置坐标设为(x,y,z)=(0,0,0),进行与x_position、y_position同样的记述,将视点位置配置到3维矩阵上。
图30是表示视点位置被配置在2维矩阵上的情况下的各视点影像的参照关系的图。图中的箭头表示有处在箭头前端的视点影像被从处在箭头尾端的视点影像参照的关系。另外,如果在图中将全部的参照关系的箭头图示,则图变得复杂,所以参照关系的箭头仅显示了一部分。
在该图的例子中,将中心的视点影像300决定为基准视点,作为SI图片视频而编码。将处在距中心的视点影像在纵向、横向及对角线方向的各方向中最远的位置上的视点影像作为SP图片视频而编码。并且,将其余的视点位置的视点影像作为SB图片视频,参照由图的虚线的箭头表示的视点影像而编码。例如,图中的视点影像301表示,参照其两旁的视点影像302和视点影像303的SP1图片视频而作为SB图片视频被编码。
此外,也可以使用图31所示的参照关系将各视点影像编码。
在图30中,将对角方向的4角的视点位置的视点影像作为SP图片视频而编码,但在图31中,在作为SBr图片视频而编码这一点上不同。
例如,视点影像311参照视点影像312和视点影像313的SP图片视频作为SBr图片视频而被编码。并且,视点影像314参照视点影像311的SBr图片视频和视点影像312的SP图片视频作为SB图片视频而被编码。这样,通过将视点影像作为SBr图片视频来编码而不是作为SP图片视频来编码,能够进一步削减数据量。
此外,也可以使用图32所示的参照关系将各视点影像编码。
在图30中,将在基准视点的上下左右方向上最远的视点位置的视点影像作为SP图片视频而编码,相对于此,在图32中,在作为SBr图片视频而编码这一点上不同。
例如,视点影像321参照视点影像322和视点影像323的SP图片视频作为SBr图片视频而被编码。并且,视点影像324参照该视点影像321的SBr图片视频和视点影像322的SP图片视频作为SB图片视频而被编码。
这样,与图31的情况同样,通过将视点影像作为SBr图片视频来编码而不是作为SP图片视频来编码,能够进一步削减数据量。
(3)在实施方式中,假设作为基准视点的视点影像为1个进行了说明,但基准视点并不限定于1个。基准视点也可以设定多个。例如,也可以如图33所示那样,将视点影像划分为多个组,在各个组内设定1个基准视点。并且,进行视间参照的视点影像的图片限定于各组内的视点影像的图片,使得不同组的视点影像的图片不进行视间参照。将这样的视点影像的组定义为GOV(Group of Views)。
该图是将在从相对于对象物的正面的位置-15度~+15度的角度的范围中包含的视点影像的组设为GOV1、将在-15度~-45度的范围中包含的视点影像的组设为GOV2、将在+15度~+45度的范围中包含的视点影像设为GOV3的例子。
将各个GOV的中央的视点影像作为基准视点的视点影像,按照每个GOV将包含在该GOV中的各视点影像编码。并且,按照每个GOV生成不同的传输流。通过这样将视点影像的组划分为多个GOV,能够削减在1个传输流中包含的视点影像的数量。即,能够削减在1个传输流中包含的数据量。再现装置只要仅将与包含要再现的视点位置的视点影像的GOV对应的传输流解码并再现就可以。
(4)在本实施方式中,以将1个视点影像设定为基准视点而编码的例子进行了说明,但基准视点的视点影像也可以不固定为1个视点影像。也可以将作为基准视点的视点影像在编码的中途改变。
图34是在编码的中途改变作为基准视点的视点影像的情况下的一例。
该图表示有用将相互的摄像机位置保持为一定的左(L摄像机)、中央(C摄像机)、右(R摄像机)的3个摄像机同时拍摄的视点影像L、C、R、全部的摄像机向左侧摇摄而拍摄的影像与向右侧摇摄而拍摄的影像连续的情况。
在一边将摄像机向左侧摇摄一边拍摄的情况下,C摄像机及R摄像机将由L摄像机拍摄的影像在时间上稍稍延迟而拍摄,所以如果视点影像L作为基准视点的视点影像而编码,参照该视点影像将视点影像C、R编码,则与将视点影像C或视点影像R作为基准视点的视点影像对其他视点影像进行编码的情况相比,一般整体上的编码的压缩效率较好。在摄像机一边向右侧摇摄一边拍摄的情况下,相反将视点影像R作为基准视点的视点影像而编码更好。所以,通过在摄像机的运动切换的定时将作为基准视点的视点影像从视点影像L切换为视点影像R而编码、生成基本视,能够将视点影像全体的数据量进一步削减。
并且,也可以是,在基准视点不变化的期间中进行编码以成为相同的GOP,如果基准视点变化则进行编码以成为不同的GOP,在作为基准视点而编码得到的AU的补充数据中记载表示是基准视点的信息。再现装置根据在该补充数据中记载的信息,能够判断作为基本视被编码的基准视点的视点影像。
(5)在本实施方式的再现装置中,以将基本视与从属视的参照关系基于在作为MVC多视描述符的识别符的view_ids_refers_to_this_view[]及view_ids_refered_to_by_this_view[]中记述的view_id判断的例子进行了说明。也可以再追加用来验证该参照关系是否错误的信息,再现装置验证在MVC多视描述符的识别符中记述的参照关系是否正确。
以具有将一系列的2视点的视点影像压缩编码后的基本视A1和从属视A2、和将另一系列的2视点的视点影像在相同的条件下编码后的基本视B1和从属视B2的情况为例进行说明。在将这样的流分发的情况下,根据通信状态不同,在通信时有可能发生位错误。如果该位错误是与描述符中的记述有参照关系的识别符对应的部分,则有可能解释为从属视B2参照基本视A1。在此情况下,再现装置不能判断参照关系是否正确,基于所记载的参照关系正常地进行解码处理自身。但是,通过基于错误的参照关系的解码处理得到的图片有可能不是原来的视点影像的图片。
所以,也可以如图35那样,为了验证基本视视频流与从属视视频流的对应关系,在各AU的补充数据等中保存确定各AU的信息。在图35的例子中,将标题名和AU号码(例如,“#100”意味着第100个AU)保存在补充数据中。
再现装置在将从属视视频流的图片解码时,参照具有相同的AU号码的参照目标的基本视视频流的AU的补充数据,通过与解码对象的从属视视频流的AU的补充数据的记载进行比较,来判别参照关系是否正确。在图30上段,在从属视视频流的第100个AU的补充数据中记载的标题名是“棋王战”,在从属视视频流参照的基本视视频流的第100个AU的补充数据中记载的标题名是“名人战”,所以标题名不一致,能够判断为参照目标的视频流错误。在这样的情况下,再现装置也可以不进行从属视视频流的解码,而向用户提示表示该情况的消息、或者进行仅基本视视频流的再现。
(6)在实施方式中,作为再现装置的再现处理,以将距用户视点最近的视点影像解码而再现的例子进行了说明,但再现的影像并不限定于最近的视点影像。也可以将基于距用户视点较近的视点影像将视点位置的影像通过插补生成的影像再现。
例如,图7的用户视点X的影像使用根据作为夹着用户视点X的视点位置中的距离最近的两个视点位置的视点影像的视点影像a和视点影像b而解码出的图片来生成。作为将用户视点的影像通过插补生成的方法的一例,有使用视点影像的深度图的方法。在使用深度图的方法中,首先,使用这两个视点影像,提取各个视点影像上的对象的特征点的对应关系,通过使用视差信息等计算该特征点的进深信息,制作各个视点影像的深度图。接着,基于该深度图和两个视点位置的信息,例如用与各个视点影像的距离的比来进行内分,计算生成了深度图的视点影像的各对象的移位量。并且,按照计算出的移位量使各个对象移位,生成用户视点的影像。
此外,也可以是,在用户视点从基准视点A的位置向左移动的过程中,不是使用夹着用户视点的视点位置中的距离最近的两个视点位置的视点影像,而使用夹着用户视点的作为SI图片视频及SP图片视频而被编码的视点影像生成用户视点的影像。
图36(i)表示用户视点从基准视点A的位置向左移动到视点影像G与视点影像H之间的视点位置的情况。
用户视点在移动中,在处于视点影像B和视点影像C的位置的期间中,本来使用视点影像B的SB图片视频和视点影像C的SB图片视频生成用户视点的影像,但为了将视点影像B和视点影像C的SB图片视频解码,必须在将视点影像A的SI图片视频和视点影像E的SP图片视频解码后将SB图片视频解码并再现。此外,在用户视点移动中的情况下,可以认为用户视点位于视点影像B与视点影像C之间的时间是短时间,必须将为了生成用户视点的影像而使用的视点影像在短时间的期间中切换。因此,再现装置的解码处理的负荷较大。
所以,在用户视点移动的期间的用户视点的影像的生成处理中,也可以是,在用户视点位于视点影像A与视点影像E之间的期间中,使用视点影像A的SI图片视频和视点影像E的SP图片视频生成用户视点的影像。此外,在用户视点进一步移动而处于视点位置E与视点位置I之间的情况下,也可以使用视点影像E的SP图片视频和视点影像I的SP图片视频生成用户视点的影像。通过这样,能够将SB图片视频的解码处理省略,所以能够减轻再现装置的负荷。
并且,在用户视点的移动消失的时点,只要使用夹着用户视点的视点位置中的距离最近的两个视点影像的图片视频生成用户视点的影像即可。图36(ii)表示用户视点停止在视点影像G与视点影像H之间的情况,在此情况下,使用将视点影像G的SB图片视频和视点影像H的SB图片视频解码而得到的图片生成用户视点的影像并再现。
此外,通过插补生成的视点影像并不限于2D的视点影像。
也可以在左眼的视点位置和右眼的视点位置生成不同的视点影像,作为3D的立体视觉影像再现。
图37是在生成左眼用的视点影像和右眼用的视点影像的情况下、编码的视点影像的视点位置的间隔的一例。
一般而言,人的左右眼的间隔是6cm(厘米)左右。据此,在各视点影像的视点位置的间隔比6cm小的(例如4cm)的情况下,根据用户的位置,如图37(i)那样,在生成左眼用的视点影像的情况下需要将视点影像A和视点影像B,在生成右眼用的视点影像的情况下需要将视点影像C和视点影像D解码。即,根据用户的视点位置,有必须将最大4个不同的视点影像解码的情况。另一方面,如果使各视点影像的视点位置的间隔为比6cm稍宽的间隔(例如7cm),则如图37(ii)那样,左眼用的视点影像可以使用视点影像A和视点影像B生成,右眼用的视点影像可以使用视点影像B和视点影像C生成。即,不论用户的视点位置是哪个位置,都能够通过将最大3个不同的视点位置的视点影像解码来生成左眼用和右眼用的视点影像。通过以这样的间隔将视点影像编码,在再现装置中能够减少解码的视点影像,能够减轻再现装置的负荷。
可是,如果使视点影像的间隔过大,则视点影像间的差变大,难以高精度地生成插补影像。因此,编码的视点影像的视点位置的间隔优选的是比设想的左右眼的间隔(例如6cm)大、比左右眼的间隔的2倍(例如12cm)小的间隔。
(7)在编码装置2600中,也可以在将视点影像编码时,制作与各个视点影像对应的深度图来编码。在将深度图编码时,也如图27所示那样,参照在将视点影像编码时所参照的视点位置的深度图而编码。并且,也可以生成包含所生成的深度图的流数据而复用的多视视频流。
在如上述(6)那样通过使用深度图的插补来生成来自用户视点的影像的情况下,如果分发包含有编码装置2600将与各个视点影像对应的深度图编码后的多视视频流的传输流,则接收到它的再现装置2800能够省略深度图的生成处理,所以能够减轻再现处理的负荷。
(8)在实施方式中,再现装置2800以分别具有3个TB、MB、EB的结构进行了说明,但TB、MB、EB分别并不限于3个。也可以根据包含在传输流中的视的数量而增减。例如,如果增加TB、MB、EB的数量,则能够增加能同时处理的视的数量。
(9)在本实施方式中,多个视点影像的视点位置以通过一定间隔配置为前提进行了说明,但视点影像的视点位置的间隔并不限定于一定间隔。各个视点位置间的距离也可以不是一定。
例如也可以是,在设想为用户主要视听的视点位置(例如,与监视器画面的正面对应的视点位置)周边,使各视点影像的视点位置的间隔变小,如果从设想为主要视听的视点位置远离,则使视点位置的间隔变大。即,多视点影像的提供者通过在设想为用户可能视听的视点位置的范围内使编码的视点位置变多,由此能够高精度地再现。
(10)在本实施方式中,以多个视点影像各自的关于影像的画质的条件(例如,分辨率)等相同为前提,但关于画质的条件也可以在各个视点影像中不同。
例如,也可以使设想为用户主要视听的视点位置(例如,与监视器画面的正面对应的视点位置)的附近以外的视点位置的视点影像的分辨率变低。在水平方向上有多个视点影像的情况下,在使分辨率变低的情况下,优选的是使影像的横向的分辨率变低。这是因为,在视线位置在水平方向上移动的情况下,在各视点影像中相同的对象物的纵向的影像的变化较少,但在水平方向上,与从正面观察的情况相比,从离开正面的位置观察到的对象物的影像为在横向上被压缩的影像,所以即使使分辨率变低,视听时的不协调感也较少。这样,通过使视点影像的分辨率变低,能够削减整体的数据量。
(11)在本实施方式中,将MVC立体3D描述符及MVC立体3D流描述符的信息记述在PMT中,但这些信息的记述并不限定于PMT。只要记述在被分发的流中就可以。例如,也可以将这些信息的全部或一部分不是保存到PMT包中,而是保存到其他系统包或各视频流的补充数据等中。
(12)在实施方式中,将SP图片类型、SB图片类型的定义分别定义为一边参照1个其他视点的图片一边编码的图片、一边参照不同的两个其他视点的图片一边编码的图片,但图片类型的定义并不限定于此。
也可以如图52所示那样定义SI图片、SP图片、SB图片。图52上段是表示各视间的参照关系的图,各箭头表示图片的参照关系。例如,E地点的图片参照A地点的图片。C地点的图片参照A地点的图片和E地点的图片。这里,图52中段的箭头表示参照空间矢量。参照空间矢量是从对应地点朝向在对应地点的图片的编码中所利用的参照图片的方向矢量。例如,图52中段的粗线箭头是地点E的图片的参照空间矢量。图52中段的点线箭头是视点C的图片的参照空间矢量。也可以使用这样的参照空间矢量来定义SP图片、SB图片。
即,将SP图片的定义设为“是在空间上参照其他视的图片,参照空间矢量是1个方向”,将SB图片的定义设为“是在空间上参照其他视的图片,参照空间矢量是2个方向”。由此,由于图52中段的粗线箭头的参照空间矢量是1方向,所以地点E的图片能够定义为SP图片,由于图52中段的点线箭头的参照空间矢量是2方向,所以地点C的图片能够定义为SB图片。
在该定义的情况下,SP图片没有参照目标是1个的限制,例如在I地点的SP图片的情况下,也可以做成不仅是地点E的SP图片、还参照地点A的SI图片的结构。在这样构成的情况下,虽然SP图片的参照空间矢量有两个,但是是相同方向的空间矢量。另外,关于参照空间矢量的方向是否相同,既可以计算矢量彼此的角度、如果该角度是0度则判断为相同,也可以即使不是0度、例如是-10度~10度以内也判断为是相同的方向。
此外,SB图片视频也可以加以不参照超过了自身的空间上的位置最近的SI图片视频或SP图片视频的图片视频的制约。例如,在图52上段例的情况下,在地点C的空间上的位置中,由于处于右侧、左侧的位置的最近的SI图片及SP图片视频是地点A的SI图片视频和地点E的SP图片视频,所以不能参照在空间上超越它的例如I地点的SP图片视频。通过这样制约,能够防止参照位置较大地离开的图片,减轻再现装置的处理负荷。
(13)也可以将用来使编码装置或再现装置执行在实施方式中说明的各处理(由图19、图21表示的处理)的控制程序记录到记录介质中或经由各种通信路径等流通发布。在这样的记录介质中,有IC卡、硬盘、光盘、软盘、ROM、闪存存储器等。被流通、发布的控制程序通过保存到能够由各个装置的处理器读取的存储器等中而供使用,通过各个处理器执行该控制程序,实现由实施方式表示的各功能。
(14)也可以将在实施方式中说明的编码装置的控制部2601、基本视视频编码器2602、从属视视频编码器2603、视频解码器2605、基本视视频流生成部2611、从属视视频流生成部2612、PMT生成部2613、复用器2614及传输流输出部的构成要素中的全部或一部分用1芯片或多芯片的集成电路实现,也可以用计算机程序实现,也可以通过其他任何形态来实现。
此外,也可以将再现装置的用户位置取得机构2801、视视频流决定机构2802、多视视频解码器2822及音频解码器2824的构成要素中的全部或一部分用1芯片或多芯片的集成电路实现,也可以用计算机程序实现,也可以通过其他任何形态来实现。
(15)也可以将上述实施方式及上述变形例适当组合。
<3.补充>
以下,再对作为本发明的一实施方式的编码装置、解码装置及其变形例和效果进行说明。
(a)作为本发明的一形态的编码装置,进行视频流数据的生成,该视频流数据是将表示多个视点中的各个视点的随着时间经过的景象的帧图像群编码而得到的,其特征在于,具备:输入机构,受理上述多个视点中的各个视点的帧图像群的输入;基本视编码机构,将上述多个视点的帧图像群中的1个作为基准视点的帧图像群,生成将该帧图像群不使用其他视点的帧图像作为参照图像而编码得到的基本视视频流数据;第1从属视编码机构,生成第1从属视视频流数据,该第1从属视视频流数据是将上述多个视点中的、处于与上述基准视点之间至少夹着其他1个视点的位置关系的第1种视点的帧图像群,使用基本视视频流数据的同一时刻的帧图像或其他第1从属视视频流数据的同一时刻的帧图像作为参照图像而编码得到的;第2从属视编码机构,生成第2从属视视频流数据,该第2从属视视频流数据是将上述基准视点及第1种视点以外的、处于被其他视点夹着的位置关系的第2种视点的帧图像群,使用夹着该视点的2个视点的同时刻的帧图像作为参照图像而编码得到的;以及视频流数据输出机构,将上述基本视视频流数据和上述第1及第2从属视视频流数据输出。
这里所述的“帧图像”,不仅是构成1帧的图像,还包括构成1个场的图像。
该结构的编码装置在将被不同的两个视点影像夹着的视点影像作为从属视编码时,能够参照夹着该视点影像的两个视点影像的帧图像进行编码。因而,能够生成能在编码后的多视视频流整体中削减数据量的视频流。
(b)这里,也可以是,上述第2从属视编码机构,使用基准视点及第1种视点、或者使用不同的两个第1种视点,作为在将上述第2种视点的帧图像群编码时所参照的2个视点。
根据该结构,在生成第2从属视视频流时所参照的视点影像的帧图像使用基准视点及第1种视点的视点影像的帧图像。因而,基于不需要参照其他视点影像即能够解码的视点影像、以及通过参照其他1个视点影像能够解码的第1种视点的视点影像,能够生成第2从属视视频流。
(c)这里,也可以是,上述第2从属视编码机构,作为在将上述第2种视点的帧图像群编码时所参照的2个视点,使用满足在将该2个视点连结的直线上有上述第2种视点的条件的位置关系的2个视点。
根据该结构,作为第2从属视视频流生成的第2种视点的视点影像的视点位置和参照目标的2个视点的视点位置处于一直线上,处于由参照目标的2个视点夹着第2种视点的视点位置的位置关系。
因而,第2子视点的视点影像能够参照在直线上分别位于相反方向的视点影像的帧图像而编码,所以能够以较高的压缩效率进行编码。
(d)这里,也可以是,上述第2从属视编码机构,使用还满足与上述第2种视点的方向不同、且在各个方向中距上述第2种视点的距离最近的条件的2个视点。
该结构的编码装置在第2种视点的视点影像的编码时参照的视点影像的视点位置使用距该视点影像的方向相反、在各自的方向中最近的视点位置的视点影像的帧图像。因而,能够使用多个视点影像中的认为相关最大的视点影像的帧图像编码,所以能够以较高的压缩效率进行编码。
(e)这里,也可以是,在上述输入机构中,被输入配置在1个直线上的视点位置的多个视点的帧图像群;上述基本视编码机构将处于上述直线上的视点中的、处于与距离最远的2个视点的距离之差为最小的位置的视点决定为基准视点,生成将该基准视点的帧图像群编码的基本视视频流数据;上述第1从属视编码机构对于上述距离最远的2个视点,分别生成将该视点的帧图像群参照上述基准视点的帧图像而编码的第1从属视视频流数据。
该结构的编码装置将配置在直线上的视点影像中的、中央附近的视点影像作为基准视点而编码,将距基准视点的方向相反、在各自的方向中从基准视点离开最多的位置的视点影像作为第1从属视而编码。
因而,能够生成在多视视频流整体中削减了数据量的视频流。
(f)这里,也可以是,在上述输入机构中,输入在以上述基准视点的视线方向的矢量为法线矢量且包含上述基准视点的视点位置的平面上、以上述基准视点为中心以预先设定的间隔配置在2维矩阵上的视点位置的多个视点的帧图像群;上述第1从属视编码机构将上述多个视点中的、处于从上述基准视点相对于上下左右倾斜方向分别最远离的位置的视点决定为第1种视点,将该第1种视点的帧图像群参照上述基准视点的同时刻的帧图像而编码;上述第2从属视编码机构将上述基准视点及第1种视点以外的全部的视点的帧图像群,参照夹着该视点的基准视点及第1种视点的同时刻的帧图像而编码。
该结构的编码装置生成与视点位置配置在2维矩阵上的视点影像相对应的多视视频流数据。
因而,能够生成用户的视点位置不仅是水平方向,还对应于在上下方向上移动的情况的多视视频流。
(g)这里,也可以是,还具备深度图生成机构,该深度图生成机构对于上述多个视点的帧图像群分别生成表示各帧图像的像素单位的进深信息的深度图。
该结构的编码装置在视点影像的编码时,同时生成该视点影像的深度图。
因而,在由再现装置再现时,能够使用深度图的进深信息减轻从该视点的3D影像生成中的处理负荷。
(h)这里,也可以是,上述基本视编码机构将上述基准视点的帧图像群以依据MPEG-4MVC中的基本视的形式编码;上述第1从属视编码机构将第1种视点的帧图像群以依据MPEG-4MVC中的从属视的形式编码;上述第2从属视编码机构将第2种视点的帧图像群以依据MPEG-4MVC中的从属视的形式编码,生成将MPEG-4MVC中的语法扩展后的视频流数据,以便记载表示在将第2种视点的帧图像群编码时所参照的2个视点的信息。
该结构的编码装置依据MPEG-4MVC,将多个视点位置的视点影像压缩编码。
因而,与从多个视点影像分别单独编码相比,能够生成削减了数据量的视频流数据。
(i)这里,也可以是,还具备基准视点变更机构,该基准视点变更机构根据各视点的帧图像的内容的时间变化,按照预先设定的每个期间变更基准视点。
该结构的编码装置将作为基准视点的视点影像以时间单位切换而进行编码。因而,能够按照每个时间,选择在多个视点影像整体中能够将数据量进一步削减的视点影像作为基准视点。
(j)这里,也可以是,上述基本视编码机构、上述第1从属视编码机构及上述第2从属视编码机构,对于每个上述视点的帧图像群,在每当变更基准视点时作为不同的GOP图片组的视频流数据而进行编码。
该结构的编码装置将以不同的基准视点进行了编码的帧图像群分别作为不同的GOP的视频流数据而编码。
因而,能够将以不同的基准视点编码的视频流以GOP单位来管理,所以能够生成能减轻再现装置中的跳入再现等的特殊再现时的解码的处理负荷的视频流数据。
(k)这里,也可以是,还具备:多视视频流生成机构,使用上述基本视视频流数据、上述第1从属视视频流数据及第2从属视视频流数据,生成多视视频流;流参照信息生成机构,按照每个视频流,生成表示有关该视频流的参照关系的流参照信息;以及流送出机构,将复用了上述多视流和上述流参照信息而得到的传输流送出。
该结构的编码装置输出将编码了多个视点影像的视频流数据复用后的传输流。
因而,能够将编码了多个视点的视点影像的传输流用广播波等分发。
(l)作为本发明的一形态的解码装置,其特征在于,具备:取得机构,取得由本发明的编码装置生成的流数据;基本视解码机构,将包含在上述流数据中的基本视视频流数据解码,得到基准视点的帧图像群;第1从属视解码机构,先将与对第1从属视视频流数据进行解码时的参照目标的1个视点相对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第1从属视视频流数据解码后的帧图像群;第2从属视解码机构,先将与对第2从属视视频流数据进行解码时的参照目标的2个视点分别对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第2从属视视频流数据解码后的帧图像群;以及输出机构,将由上述基本视解码机构得到的帧图像群、和由上述第1及第2从属视解码机构得到的帧图像群输出。
该结构的解码装置基于多个视点影像间的参照关系,将与各视点的视点影像对应的视频流数据解码、再现。
因而,能够将由上述(a)编码的多视视频流解码、再现。
(m)作为本发明的一形态的再现装置,接收从本实施方式的编码装置发送的传输流并再现,其特征在于,具备:流接收机构,接收上述传输流;基本视解码机构,将包含在上述传输流中的基本视视频流解码,得到基准视点的帧图像群;属性信息提取机构,提取包含在上述传输流中的属性信息;第1从属视解码机构,得到将包含在上述传输流中的第1从属视视频流基于上述属性信息而解码后的帧图像群;第2从属视解码机构,得到将包含在上述传输流中的第2从属视视频流基于上述属性信息而解码后的帧图像群;以及再现机构,将由上述基本视解码机构得到的帧图像群、和由上述第1、第2从属视解码机构得到的帧图像群再现。
该再现装置接收包括编码了多个视点影像的视频流数据而复用并分发的传输流,将该视频流数据解码、再现。因而,能够将由上述(k)输出的传输流解码、再现。
(n)这里,也可以是,还具备:用户视点位置检测机构,检测用户的视点位置;用户视点帧图像群生成机构,生成由上述用户视点位置检测机构检测出的上述用户的视点位置的帧图像群;以及视频流选择机构,选择由上述用户视点帧图像群生成机构使用的视频流;上述用户视点帧图像群生成机构使用将由上述视频流选择机构所选择的视频流解码而得到的帧图像群,生成上述用户的视点位置的帧图像群;上述再现机构将上述用户的视点位置的帧图像群再现。
该结构的再现装置检测进行视听的用户的视点位置,使用将接收到的多个视点的视点影像编码后的视频流,生成用户的视点位置的影像并再现。
因而,即使用户的视点位置不与包含在传输流中的视频流数据的视点位置一致,也能够将来自用户的视点位置的影像再现。
(o)这里,也可以是,还具备帧图像群存储机构,该帧图像群存储机构存储由上述基本视解码机构解码后的上述基准视点的帧图像群、和由上述从属视解码机构解码后的第1种视点的帧图像群;上述视频流选择机构在上述用户视点位置检测机构检测到用户的视点位置的移动的期间,从基本视视频流和第1从属视视频流中选择用户的视点位置的帧图像群的生成所用的视频流,在上述用户视点位置检测机构没有检测到用户的视点位置的移动的情况下,从还包括第2从属视视频流的视频流中进行选择。
该结构的再现装置在用户的视点位置正在移动的期间,不使用作为第2从属视视频流而被编码的视点影像的帧图像,而使用作为基本视视频流和第1从属视视频流被编码的视点影像的帧图像,进行用户的视点位置的影像的生成。
因而,在用户的视点正在移动中的影像的再现时,能够将解码处理简化,能够减轻再现装置的负荷。
<4.补充说明>
以下,对在本实施方式中利用的流形式及影像压缩技术简单地补充说明。
<流数据的说明>
在通过数字电视的广播波等的传送中,使用MPEG-2传输流形式的数字流。
所谓MPEG-2传输流,是用于将视频及音频等各种各样的流复用而传送的标准。在ISO/IEC13818-1及ITU-T推荐H222.0中被标准化。另外,在本实施方式中,假设生成该形式的传输流。
图38是表示MPEG-2传输流形式的数字流的结构的图。
如图38所示,传输流513将视频的TS(Transport Stream:传输流)包503、音频的TS包506、字幕流的TS包509等复用而得到。视频的TS包503保存着节目的主影像,音频的TS包506保存着节目的主声音部分及副声音,字幕流的TS包509保存着节目的字幕信息。
视频帧列501被使用MPEG-2、MPEG-4AVC等的影像的编码方式压缩编码。音频帧列504被用杜比AC-3、MPEG-2AAC、MPEG-4AAC、HE-AAC等的声音的编码方式压缩编码。
包含在传输流中的各流通过称作PID的流识别ID来识别。通过提取该PID的包,再现装置能够提取处理对象的流。PID与流的对应关系的信息被保存到在以后说明的PMT包的描述符中。
为了生成传输流,首先,将由多个视频帧构成的视频帧序列501、由多个音频帧构成的音频帧序列504分别变换为PES包序列502及505。接着,将PES包序列502及505分别变换为TS包503及506。同样,将字幕流507的数据分别变换为PES包序列508,再变换为TS包509。传输流513通过将这些TS包复用到1条流中而构成。关于PES包、TS包在后面叙述。
<视频流的数据结构>
接着,对将影像以上述编码方式压缩编码而得到的视频流的数据结构进行说明。
视频流是图39所示那样的层级结构的数据。视频流由多个GOP构成,通过将其作为压缩编码处理的基本单位,能够进行动态图像的编辑及随机访问。
GOP由1个以上的AU构成。各AU是包括AU识别码、序列头、图片头、补充数据、压缩图片数据、填充数据、序列末端码及流末端码的结构。AU的各数据在MPEG-4AVC的情况下,以称作NAL单元的单位保存。
AU识别码是表示访问单元的开头的开始代码。
序列头是保存由多个视频访问单元构成的再现序列中的共用的信息的头,保存有分辨率、帧速率、宽高比、位速率等的信息。
图片头是保存有图片整体的编码的方式等的信息的头。
补充数据是在压缩图片数据的解码中不是必须的附加信息,例如由与影像同步显示在TV上的隐藏式字幕的字符信息或GOP结构信息等。
在压缩图片数据中,保存被压缩编码的图片的数据。
填充数据保存用来调整形式的数据。例如,作为用来保持所决定的位速率的填入(stuffing)数据使用。
序列末端码是表示再现序列的末端的数据。
流末端码是表示比特流的末端的数据。
AU识别码、序列头、图片头、补充数据、压缩图片数据、填充数据、序列末端码、流末端码的数据结构根据视频的编码方式而不同。
在MPEG-4AVC的情况下,AU识别码对应于AU定界符(Access UnitDelimiter),序列头对应于SPS(Sequence Parameter Set),图片头对应于PPS(Picture Parameter Set),压缩图片数据对应于多个片(slice),补充数据对应于SEI(Supplemental Enhancement Information),填充数据对应于Filler Data,序列末端码对应于End of Sequence,流末端码对应于End of Stream。
并且,如果是MPEG-2形式的情况,则序列头对应于sequence_Header、sequence_extension、group_of_picture_header,图片头对应于picture_header、picture_coding_extension,压缩图片数据对应于多个片,补充数据对应于user_data,序列末端码对应于sequence_end_code。虽然不存在AU识别码,但只要使用各个头的开始码,就能够判断访问单元的分界点。
各属性信息的数据不是总需要,序列头仅在GOP开头的视频访问单元中需要,在其以外的视频访问单元中能够不附加而编码。此外,图片头也可以参照在代码顺序上靠前的视频访问单元者,而在自身的视频访问单元内将图片头省略。
图40是表示在PES包序列中怎样保存视频流的图。
图40的第1段表示视频流的视频帧序列。第2段表示PES包序列。
如图40中的yy1、yy2、yy3、yy4所示,视频流中的多个作为VideoPresentation Unit(视频演示单元)的I图片、B图片、P图片被按照图片分割,保存到PES包的有效载荷中。
各PES包具有PES头,在PES头中,保存作为图片的显示时刻的PTS及作为图片的解码时刻的DTS。
图41是表示构成传输流的TS包的数据结构的图。
TS包是由4字节的TS头、适应字段和TS有效载荷构成的188字节固定长的包。TS头是包括transport_priority、PID、adaptaion_field_control的结构。PID是用来识别如上述那样复用在传输流中的流的ID。
transport_priority是用来识别同一PID的TS包中的包的种类的信息。
adaptation_field_control是用来控制适应字段和TS有效载荷的结构的信息。适应字段和TS有效载荷有仅存在某一方的情况和存在两者的情况,adaptation_field_control是表示其有无的信息。
在adaptation_field_control的值是“1”的情况下表示仅存在TS有效载荷,在adaptation_field_control的值是“2”的情况下表示仅存在适应字段,在adaptation_field_control的值是“3”的情况下表示存在TS有效载荷和适应字段的两者。
适应字段是用于PCR(Program Clock Reference:节目时钟参考)等的信息的保存、及使TS包成为188字节固定长的填入的数据的保存区域。在TS有效载荷中将PES包分割保存。
在包含在传输流中的TS包的种类中,在影像、声音、字幕等的各流的包以外还有PAT(Program Association Table:节目关联表)、PMT、PCR等的包。这些包称作PSI(Program Specific Information:节目特定信息)。
PAT表示在传输流中利用的PMT的PID是什么,PAT自身的PID是“0”。
图42是表示PMT的数据结构的图。
PMT具备PMT头、关于传输流的各种描述符、以及关于包含在传输流中的影像、声音、字幕等的各流的流信息。
在PMT头中,记录有包含在PMT中的数据的长度等的信息。
在关于传输流的描述符中,记录指示允许/不允许影像、声音等的各流的拷贝的拷贝控制信息等。
关于各流的流信息包括用来识别流的压缩编码方式等的流类型、流的PID、记载有流的属性信息(例如,帧速率、宽高比)的流描述符而构成。
PCR为了取TS包的向解码器的到达时刻与作为PTS、DTS的时间轴的STC(System Time Clock:系统时钟)的同步,具有与将该PCR包向解码器转送的时刻对应的STC时间的信息。
<影像压缩技术的说明>
<使用视差图像的3D影像>
在使用视差图像的立体视觉的方式中,分别准备右眼用图像(R图像)和左眼用图像(L图像),通过对用户进行控制使得仅与各个眼睛对应的图像映照到各个眼睛中的显示,实现立体视觉。
将由右眼用图像构成的动态图像称作右视视频,将由左眼用图像构成的动态图像称作左视视频。
在图43中,表示能够将3D影像再现的3D数字电视机20、和不支持3D影像的再现的仅能够再现2D影像的2D数字电视机40。
如图43(a)所示,用户使用3D数字电视机20和3D眼镜30视听3D影像。
3D数字电视机20能够显示2D影像及3D影像,通过将包含在接收到的广播波中的流再现来显示影像。具体而言,对以MPEG-2形式压缩编码的2D用的视频流、以及以MPEG-4MVC形式压缩编码的3D用的基本视视频流和从属视视频流进行再现。
3D数字电视机40在3D影像的再现时,交替地显示将基本视视频流解码而得到的左眼用图像和将从属视视频流解码而得到的右眼用图像。
用户通过佩戴3D眼镜30观看这样被再现的影像,能够作为立体影像视听。
图43(b)表示3D眼镜30的左眼用图像的显示时的情况。
在画面上显示有左眼用的图像的瞬间,3D眼镜30使对应于左眼的液晶快门(shutter)成为透光,对应于右眼的液晶快门遮光。
图43(c)表示右眼用图像的显示时的情况。
在画面上显示有右眼用图像的瞬间,与刚才相反,使对应于右眼的液晶快门成为透光,将对应于左眼的液晶快门遮光。
图43(d)的2D数字电视机40对应于2D影像的再现,能够再现将包含在传输流中的视频流中的2D用的视频流解码而得到的2D影像。
图44是表示立体视觉图像的显示的一例的图。表示显示有作为对象物的恐龙的骨骼的左眼用图像和右眼用图像的例子。如果使用3D眼镜从右眼及左眼的透光、遮光重复,则在用户的脑内,通过眼睛的残像反应而进行左右的场景的叠加,能够识别为立体影像存在于脸的中央的延长线上。
在将左视视频和右视视频压缩编码的3D的影像方式中,有帧互换方式和多视编码方式。
帧互换方式是将左视视频和右视视频的与表示同时刻的视的图像相对应的各图片分别间隔剔除或缩小后合成为一个图片、进行压缩编码的方式。作为一例,有图45所示那样的并列(side-by-side)方式。在并列方式中,在将左视视频和右视视频的与表示同时刻的视的图像相对应的各图片分别在水平方向上压缩为1/2后,通过左右排列而合成为一个图片。通过将由合成后的图片形成的动态图像用2D影像的压缩编码方式(例如MPEG-2)压缩编码而生成视频流。另一方面,在再现时,将视频流基于与视频流生成相同的压缩编码方式来解码。将解码后的各图片分割为左右图像,将分割后的图像分别在水平方向上伸展为2倍,得到与左视视频和右视视频分别对应的图片。通过将得到的左视视频的图片(L图像)和右视视频的图片(R图像)交替地显示,能够得到图44所示那样的立体视觉图像。
相对于此,多视编码方式是不将左视视频和右视视频的图片合成为1个图片、而分别以不同的图片的原状压缩编码的方式。
相对于此,多视编码方式是不将左视视频和右视视频的图片合成为1个图片、而分别以不同的图片的原状压缩编码的方式。作为一例,有MPEG-4MVC。
<多视影像压缩技术>
接着,对由有关本实施方式的编码装置及解码装置利用的MPEG-4MVC形式的压缩编码方法简单地说明。
在该压缩编码中,利用动态图像的空间方向及时间方向的冗余性进行数据量的压缩编码。
作为利用冗余性压缩编码的方法,可以使用图片间预测编码。在图片间预测编码中,在将某个图片编码时,将在显示时间顺序上处于前方或后方的图片作为参照图片。并且,检测与该参照图片相比的运动量,将进行运动补偿后的图片与编码对照的图片之间的差压缩编码。
图46表示视频流的时间方向的图片间的参照关系。在图46中,将图片P3参照图片I0压缩编码,将图片B1和图片B2分别参照图片I0和图片P3压缩编码。
此外,如图6所示,在MPEG-4MVC中,也利用空间上的冗余性。即,从属视参照同时刻的基本视的图片进行压缩编码。通过这样利用时间上的冗余性及空间上的冗余性,能够实现压缩率较高的压缩编码。
<MPEG-4MVC形式的视频流的数据结构>
接着,对MPEG-4MVC形式的视频流进行说明。
图47是表示MPEG-4MVC形式的视频流的内部结构的一例的图。
在该图中,将右视视频流的图片参照左视视频流的相同的显示时刻的图片压缩编码。将右视视频流的图片P1、P2分别参照左视视频流的图片I1、P2,将右视视频流的图片B3、B4、B6、B7分别参照左视视频流的图片Br3、Br4、Br6、Br7压缩编码。
该图的第2段表示左视视频流的内部结构。在该左视视频流中,包含有图片I1、P2、Br3、Br4、P5、Br6、Br7、P9。这些图片是以设定在DTS中的时刻顺序被解码的图片。
第1段表示向显示器等显示的左眼用图像。左眼用图像将第2段的解码后的图片I1、P2、Br3、Br4、P5、Br6、Br7、P9以设定在PTS中的时刻顺序、即I1、Br3、Br4、P2、Br6、Br7、P5的顺序显示。
第4段表示右视视频流的内部结构。在该右视视频流中包括图片P1、P2、B3、B4、P5、B6、B7、P8。这些图片是以设定在DTS中的时刻顺序被解码的图片。
第3段表示向显示器等显示的右眼用图像。右眼用图像将第4段的解码后的图片P1、P2、B3、B4、P5、B6、B7、P8以设定在PTS中的时刻顺序、即P1、B3、B4、P2、B6、B7、P5的顺序显示。但是,使在PTS中被赋予了相同的值的左眼用图像和右眼用图像中的某一方的显示,以到下个PTS的时间的间隔的一半的时间量延迟。
第5段表示使3D眼镜30的状态怎样变化。如该第5段所示,在左眼用图像的视听时,将右眼的快门关闭,在右眼用图像的视听时,将左眼的快门关闭。
图48表示对视频流中的基本视视频流和从属视视频流的各视频访问单元分配的PTS与DTS的关系的例子。
保存表示同时刻的视的视差图像的基本视视频流的图片和从属视视频流的图片设定为,使DTS及PTS具有相同的值。
通过这样构成,将基本视视频流的图片和从属视视频流的图片解码的再现装置,能够以3D视频访问单元单位解码而进行显示。
<使用深度图的3D影像的生成>
图49示意地表示根据2D影像和深度图生成左眼用图像和右眼用图像的视差图像的例子。
深度图具有与2D影像内的各个像素对应的进深值,在该图的例子中,2D影像的圆形的物体在深度图中被分配表示圆形的物体处于近处的信息(进深值为High:高),其以外的区域被分配表示处于比圆形的物体远处(进深值为Low:低)的信息。该信息既可以以按照每个像素的位序列保存,也可以作为图像图(例如将“黑”表示为进深是Low、将“白”表示进深是High的图像形象)保存。视差图像可以通过根据深度图的进深值调整2D影像的视差量来制作。在该图的例子中,由于2D影像内的圆形的物体的进深值是High,所以在制作视差图像时,使圆形的物体的像素的视差量变大。另一方面,圆形物体以外的区域由于进深值是Low,所以使圆形的物体以外的像素的视差量变小,制作左眼用图像、右眼用图像。如果将该左眼用图像和右眼用图像使用时序分离方式等显示,则能够进行立体视觉。
<裁剪及缩放的调整>
在MPEG-2形式、MPEG-4MVC形式的编码方式中,能够将压缩编码的帧的区域中的实际显示的区域变更。
因此,在一边通过视间参照对其他视点影像的视频流的图片进行参照一边将从属视视频流的图片解码时,需要调整属性信息,以使在同时刻的视的裁剪范围及缩放成为相同的范围或表示缩放的值。
参照图50对裁剪区域信息和缩放信息进行说明。
如图50那样,能够将从压缩编码后的帧区域中指定实际显示的区域作为裁剪区域。在MPEG-4AVC的情况下,使用保存在SPS中的frame_cropping信息指定。frame_cropping信息如图51的左方的图那样,指定裁剪区域的上线、下线、左线、右线与压缩编码后的帧区域的上线、下线、左线、右线的各自的差作为上下左右的裁剪量。具体而言,在指定裁剪区域的情况下,在frame_cropping_flag中设定“1”,在frame_crop_top_offset、frame_crop_bottom_offset、frame_crop_left_offset、frame_crop_right_offset中分别指定上、下、左、右的裁剪量。
在MPEG-2形式的情况下,如图51的右图那样,使用裁剪区域的纵横的尺寸(sequence_display_extension的display_horizontal_size、display_vertical_size)、和压缩编码后的帧区域的中心与裁剪区域的中心的差信息(picture_display_extension的frame_centre_horizontal_offset、frame_centre_vertical_offset)指定裁剪区域。此外,作为表示将裁剪区域实际向电视机等显示时的缩放方法的缩放信息而设定宽高比。再现装置使用宽高比的信息,将裁剪区域向上变换进行显示。在MPEG-4AVC的情况下,作为该缩放信息,在SPS中保存宽高比的信息(aspect_ratio_idc)。例如,为了将1440x1080的裁剪区域放大为1920x1080显示,将宽高比指定为4:3。在此情况下,在水平方向上向上变换(1440x4/3=1920)为4/3倍,放大为1920x1080的尺寸而显示。
在MPEG-2形式的情况下也同样,有sequence_header的保存宽高比的信息(aspect_ratio_information)的属性信息,通过适当设定该属性信息的值,能够实现与上述同样的处理。
产业上的可利用性
有关本发明的编码装置与将多视点影像分别单独编码的情况相比,能够进一步削减数据量而编码,此外,有关本发明的解码装置能够解码这样的编码了多视点影像的数据,所以对于生成与多视点影像对应的视频流的编码装置或将这样的视频流再现的再现装置等具有实用性。
附图标记说明
2600 编码装置
2601 控制部
2602 基本视视频编码器
2603 从属视视频编码器
2604 编码器选择器
2605 视频解码器
2606 图片存储器
2607 视视频编码信息存储部
2608 解码视频选择器
2609 视视频存储部
2610 参照信息存储部
2611 基本视视频流生成部
2612 从属视视频流生成部
2613 PMT生成部
2614 复用器
2615 传输流输出部
2800 再现装置
2801 用户位置取得机构
2802 视视频流决定机构
2803 PID过滤器
2804 数据选择器
2806 TB(1)
2807 MB(1)
2808 EB(1)
2809 TB(2)
2810 MB(2)
2811 EB(2)
2812 TB(3)
2813 MB(3)
2814 EB(3)
2815 解码开关
2816 视间缓冲器
2817 D2(多视视频压缩影像解码器)
2818 DPB(解码图片缓冲器)
2820 平面存储器
2822 多视视频解码器

Claims (17)

1.一种编码装置,进行视频流数据的生成,该视频流数据是将表示多个视点中的各个视点的随着时间经过的景象的帧图像群编码而得到的,其特征在于,具备:
输入机构,受理上述多个视点中的各个视点的帧图像群的输入;
基本视编码机构,将上述多个视点的帧图像群中的1个作为基准视点的帧图像群,生成将该帧图像群不使用其他视点的帧图像作为参照图像而编码得到的基本视视频流数据;
第1从属视编码机构,生成第1从属视视频流数据,该第1从属视视频流数据是将上述多个视点中的、处于与上述基准视点之间至少夹着其他1个视点的位置关系的第1种视点的帧图像群,使用基本视视频流数据的同一时刻的帧图像或其他第1从属视视频流数据的同一时刻的帧图像作为参照图像而编码得到的;
第2从属视编码机构,生成第2从属视视频流数据,该第2从属视视频流数据是将上述基准视点及第1种视点以外的、处于被其他视点夹着的位置关系的第2种视点的帧图像群,使用夹着该视点的2个视点的同时刻的帧图像作为参照图像而编码得到的;以及
视频流数据输出机构,将上述基本视视频流数据和上述第1及第2从属视视频流数据输出。
2.如权利要求1所述的编码装置,其特征在于,
上述第2从属视编码机构,使用基准视点及第1种视点、或者使用不同的两个第1种视点,作为在将上述第2种视点的帧图像群编码时所参照的2个视点。
3.如权利要求2所述的编码装置,其特征在于,
上述第2从属视编码机构,作为在将上述第2种视点的帧图像群编码时所参照的2个视点,使用满足在将该2个视点连结的直线上有上述第2种视点的条件的位置关系的2个视点。
4.如权利要求3所述的编码装置,其特征在于,
上述第2从属视编码机构,使用还满足与上述第2种视点的方向不同、且在各个方向中距上述第2种视点的距离最近的条件的2个视点。
5.如权利要求4所述的编码装置,其特征在于,
在上述输入机构中,被输入配置在1个直线上的视点位置的多个视点的帧图像群;
上述基本视编码机构将处于上述直线上的视点中的、处于与距离最远的2个视点的距离之差为最小的位置的视点决定为基准视点,生成将该基准视点的帧图像群编码的基本视视频流数据;
上述第1从属视编码机构对于上述距离最远的2个视点,分别生成将该视点的帧图像群参照上述基准视点的帧图像而编码的第1从属视视频流数据。
6.如权利要求4所述的编码装置,其特征在于,
在上述输入机构中,被输入在以上述基准视点的视线方向的矢量为法线矢量且包含上述基准视点的视点位置的平面上、以上述基准视点为中心以预先设定的间隔配置在2维矩阵上的视点位置的多个视点的帧图像群;
上述第1从属视编码机构将上述多个视点中的、处于从上述基准视点相对于上下左右倾斜方向分别最远离的位置的视点决定为第1种视点,将该第1种视点的帧图像群参照上述基准视点的同时刻的帧图像而编码;
上述第2从属视编码机构将上述基准视点及第1种视点以外的全部的视点的帧图像群,参照夹着该视点的基准视点及第1种视点的同时刻的帧图像而编码。
7.如权利要求4所述的编码装置,其特征在于,
还具备深度图生成机构,该深度图生成机构对于上述多个视点的帧图像群分别生成表示各帧图像的像素单位的进深信息的深度图。
8.如权利要求4所述的编码装置,其特征在于,
上述基本视编码机构将上述基准视点的帧图像群以依据MPEG-4MVC中的基本视的形式编码;
上述第1从属视编码机构将第1种视点的帧图像群以依据MPEG-4MVC中的从属视的形式编码;
上述第2从属视编码机构将第2种视点的帧图像群以依据MPEG-4MVC中的从属视的形式编码,生成将MPEG-4MVC中的语法扩展后的视频流数据,以便记载表示在将第2种视点的帧图像群编码时所参照的2个视点的信息。
9.如权利要求8所述的编码装置,其特征在于,
还具备基准视点变更机构,该基准视点变更机构根据各视点的帧图像的内容的时间变化,按照预先设定的每个期间变更基准视点。
10.如权利要求9所述的编码装置,其特征在于,
上述基本视编码机构、上述第1从属视编码机构及上述第2从属视编码机构,对于每个上述视点的帧图像群,在每当变更基准视点时作为不同的GOP图片组的视频流数据而进行编码。
11.如权利要求4所述的编码装置,其特征在于,还具备:
多视视频流生成机构,使用上述基本视视频流数据、上述第1从属视视频流数据及第2从属视视频流数据,生成多视视频流;
流参照信息生成机构,按照每个视频流,生成表示有关该视频流的参照关系的流参照信息;以及
流送出机构,将复用了上述多视流和上述流参照信息而得到的传输流送出。
12.一种解码装置,其特征在于,具备:
取得机构,取得由权利要求1所述的编码装置生成的流数据;
基本视解码机构,将包含在上述流数据中的基本视视频流数据解码,得到基准视点的帧图像群;
第1从属视解码机构,先将与对第1从属视视频流数据进行解码时的参照目标的1个视点相对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第1从属视视频流数据解码后的帧图像群;
第2从属视解码机构,先将与对第2从属视视频流数据进行解码时的参照目标的2个视点分别对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第2从属视视频流数据解码后的帧图像群;以及
输出机构,将由上述基本视解码机构得到的帧图像群、和由上述第1及第2从属视解码机构得到的帧图像群输出。
13.一种再现装置,接收从权利要求11所述的编码装置发送的传输流并再现,其特征在于,具备:
流接收机构,接收上述传输流;
基本视解码机构,将包含在上述传输流中的基本视视频流解码,得到基准视点的帧图像群;
属性信息提取机构,提取包含在上述传输流中的属性信息;
第1从属视解码机构,得到将包含在上述传输流中的第1从属视视频流基于上述属性信息而解码后的帧图像群;
第2从属视解码机构,得到将包含在上述传输流中的第2从属视视频流基于上述属性信息而解码后的帧图像群;以及
再现机构,将由上述基本视解码机构得到的帧图像群、和由上述第1、第2从属视解码机构得到的帧图像群再现。
14.如权利要求13所述的再现装置,其特征在于,
还具备:
用户视点位置检测机构,检测用户的视点位置;
用户视点帧图像群生成机构,生成由上述用户视点位置检测机构检测出的上述用户的视点位置的帧图像群;以及
视频流选择机构,选择由上述用户视点帧图像群生成机构使用的视频流;
上述用户视点帧图像群生成机构使用将由上述视频流选择机构所选择的视频流解码而得到的帧图像群,生成上述用户的视点位置的帧图像群;
上述再现机构将上述用户的视点位置的帧图像群再现。
15.如权利要求14所述的再现装置,其特征在于,
还具备帧图像群存储机构,该帧图像群存储机构存储由上述基本视解码机构解码后的上述基准视点的帧图像群、和由上述从属视解码机构解码后的第1种视点的帧图像群;
上述视频流选择机构在上述用户视点位置检测机构检测到用户的视点位置的移动的期间,从基本视视频流和第1从属视视频流中选择用户的视点位置的帧图像群的生成所用的视频流,在上述用户视点位置检测机构没有检测到用户的视点位置的移动的情况下,从还包括第2从属视视频流的视频流中进行选择。
16.一种编码方法,进行视频流数据的生成,该视频流数据是将表示多个视点中的各个视点的随着时间经过的景象的帧图像群编码而得到的,其特征在于,包括:
输入步骤,受理上述多个视点中的各个视点的帧图像群的输入;
基本视编码步骤,将上述多个视点的帧图像群中的1个作为基准视点的帧图像群,生成将该帧图像群不使用其他视点的帧图像作为参照图像而编码得到的基本视视频流数据;
第1从属视编码步骤,生成第1从属视视频流数据,该第1从属视视频流数据是将上述多个视点中的、处于与上述基准视点之间至少夹着其他1个视点的位置关系的第1种视点的帧图像群,使用基本视视频流数据的同一时刻的帧图像或其他第1从属视视频流数据的同一时刻的帧图像作为参照图像而编码得到的;
第2从属视编码步骤,生成第2从属视视频流数据,该第2从属视视频流数据是将作为上述基本视视频流数据及上述第1从属视视频流数据而编码的视点以外的、处于被其他视点夹着的位置关系的第2种视点的帧图像群,使用夹着该视点的2个视点的同时刻的帧图像作为参照图像而编码得到的;以及
视频流数据输出步骤,将上述基本视视频流数据和上述第1及第2从属视视频流数据输出。
17.一种解码方法,对由权利要求1所述的编码装置生成的流数据进行解码,其特征在于,具备:
取得步骤,取得所述流数据;
基本视解码步骤,将包含在上述流数据中的基本视视频流数据解码,得到基准视点的帧图像群;
第1从属视解码步骤,先将与对第1从属视视频流数据进行解码时的参照目标的1个视点相对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第1从属视视频流数据解码后的帧图像群;
第2从属视解码步骤,先将与对第2从属视视频流数据进行解码时的参照目标的2个视点分别对应的视流数据解码,参照通过解码得到的同时刻的帧图像,得到将该第2从属视视频流数据解码后的帧图像群;以及
输出步骤,将由上述基本视解码步骤得到的帧图像群、和由上述第1及第2从属视解码步骤得到的帧图像群输出。
CN201280003558.4A 2011-09-13 2012-09-13 编码装置、解码装置、再现装置、编码方法及解码方法 Expired - Fee Related CN103202021B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161533971P 2011-09-13 2011-09-13
US61/533,971 2011-09-13
PCT/JP2012/005850 WO2013038679A1 (ja) 2011-09-13 2012-09-13 符号化装置、復号装置、再生装置、符号化方法、及び復号方法

Publications (2)

Publication Number Publication Date
CN103202021A true CN103202021A (zh) 2013-07-10
CN103202021B CN103202021B (zh) 2017-06-13

Family

ID=47882928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280003558.4A Expired - Fee Related CN103202021B (zh) 2011-09-13 2012-09-13 编码装置、解码装置、再现装置、编码方法及解码方法

Country Status (5)

Country Link
US (1) US9661320B2 (zh)
EP (1) EP2757783A4 (zh)
JP (2) JP6025065B2 (zh)
CN (1) CN103202021B (zh)
WO (1) WO2013038679A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276170A (zh) * 2014-08-07 2020-06-12 松下电器(美国)知识产权公司 解码系统以及解码方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013126048A (ja) * 2011-12-13 2013-06-24 Sony Corp 送信装置、送信方法、受信装置および受信方法
WO2013133587A1 (ko) * 2012-03-07 2013-09-12 엘지전자 주식회사 비디오 신호 처리 방법 및 장치
US10390041B2 (en) * 2012-03-30 2019-08-20 Sun Patent Trust Predictive image coding and decoding using two reference pictures
KR20140004591A (ko) * 2012-07-02 2014-01-13 삼성전자주식회사 3차원 영상 데이터 스트림 생성 방법 및 장치, 3차원 영상 데이터 스트림 재생 방법 및 장치
CN105144720B (zh) * 2013-01-04 2018-12-28 Ge视频压缩有限责任公司 高效可伸缩编码概念
JP6214233B2 (ja) 2013-06-21 2017-10-18 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム。
WO2015054235A1 (en) * 2013-10-07 2015-04-16 Vid Scale, Inc. User adaptive 3d video rendering and delivery
JP6303829B2 (ja) * 2014-06-03 2018-04-04 富士通株式会社 多重化プログラム、多重化装置、及び多重化方法
US20160360141A1 (en) * 2015-06-03 2016-12-08 Mitsubishi Electric Research Laboratories, Inc. System and Method for Hybrid Wireless Video Transmission
US10334224B2 (en) * 2016-02-19 2019-06-25 Alcacruz Inc. Systems and method for GPU based virtual reality video streaming server
WO2018048078A1 (ko) * 2016-09-08 2018-03-15 가온미디어 주식회사 공간적 구조 정보를 이용한 동기화된 다시점 영상의 부호화/복호화 방법 및 그 장치
FR3058858A1 (fr) * 2016-11-15 2018-05-18 Orange Procede et dispositif de codage et de decodage d'une sequence multi-vues
KR102295264B1 (ko) * 2019-11-28 2021-08-30 주식회사 알파서클 하나의 스트리밍영상을 이용하여 복수의 가상현실영상을 재생하는 가상현실영상재생장치 및 방법
CN111698518A (zh) * 2020-06-11 2020-09-22 莆田学院 一种基于pid控制理论的3d码率控制方法和存储设备
CN115243076A (zh) * 2021-04-22 2022-10-25 华为技术有限公司 视频播放方法、装置及系统、计算机可读存储介质
US20230097425A1 (en) * 2021-09-29 2023-03-30 Tencent America LLC Techniques for signaling multiview view positions in sei message

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5886736A (en) * 1996-10-24 1999-03-23 General Instrument Corporation Synchronization of a stereoscopic video sequence
US20020009137A1 (en) * 2000-02-01 2002-01-24 Nelson John E. Three-dimensional video broadcasting system
CN1551636A (zh) * 1997-06-05 2004-12-01 用于编码双向预测视频对象面的方法及其解码装置
CN101390396A (zh) * 2006-03-09 2009-03-18 三星电子株式会社 编码和解码多视角视频以提供均匀画面质量的方法和装置
WO2010126612A2 (en) * 2009-05-01 2010-11-04 Thomson Licensing Reference picture lists for 3dv

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
WO2006072993A1 (ja) 2005-01-07 2006-07-13 Fujitsu Limited 圧縮符号化装置、伸張復号化装置
JP4825983B2 (ja) * 2005-07-26 2011-11-30 国立大学法人名古屋大学 画像情報圧縮方法及び自由視点テレビシステム
JP4775903B2 (ja) 2006-07-14 2011-09-21 Kddi株式会社 多視点画像を用いた自由視点画像生成方法、装置及びプログラム
JP4786585B2 (ja) * 2007-04-20 2011-10-05 Kddi株式会社 多視点映像符号化装置
US20120294374A1 (en) * 2011-05-17 2012-11-22 Amir Said Conditional replenishment for three-dimensional images with block-based spatial thresholding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5886736A (en) * 1996-10-24 1999-03-23 General Instrument Corporation Synchronization of a stereoscopic video sequence
CN1551636A (zh) * 1997-06-05 2004-12-01 用于编码双向预测视频对象面的方法及其解码装置
US20020009137A1 (en) * 2000-02-01 2002-01-24 Nelson John E. Three-dimensional video broadcasting system
CN101390396A (zh) * 2006-03-09 2009-03-18 三星电子株式会社 编码和解码多视角视频以提供均匀画面质量的方法和装置
WO2010126612A2 (en) * 2009-05-01 2010-11-04 Thomson Licensing Reference picture lists for 3dv

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276170A (zh) * 2014-08-07 2020-06-12 松下电器(美国)知识产权公司 解码系统以及解码方法
CN111276170B (zh) * 2014-08-07 2021-09-07 松下电器(美国)知识产权公司 解码系统以及解码方法

Also Published As

Publication number Publication date
WO2013038679A1 (ja) 2013-03-21
EP2757783A4 (en) 2015-03-18
JPWO2013038679A1 (ja) 2015-03-23
US9661320B2 (en) 2017-05-23
JP2016220236A (ja) 2016-12-22
JP6229962B2 (ja) 2017-11-15
JP6025065B2 (ja) 2016-11-16
CN103202021B (zh) 2017-06-13
EP2757783A1 (en) 2014-07-23
US20130243103A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
CN103202021A (zh) 编码装置、解码装置、再现装置、编码方法及解码方法
CN101868970B (zh) 记录三维图像数据的方法
KR100962696B1 (ko) 부호화된 스테레오스코픽 영상 데이터 파일의 구성방법
US8289998B2 (en) Method and apparatus for generating three (3)-dimensional image data stream, and method and apparatus for receiving three (3)-dimensional image data stream
JP5336666B2 (ja) 符号化方法、表示装置、復号方法
CN102860000B (zh) 产生用于提供三维多媒体服务的数据流的方法和设备以及用于接收所述数据流的方法和设备
CN102484731B (zh) 用于产生和接收3维图像数据流的方法和设备
KR101812612B1 (ko) 3d 비디오 신호를 생성하는 방법
CN103125123A (zh) 再现装置、再现方法、集成电路、广播系统及广播方法
CN103098462A (zh) 编码方法、显示装置以及解码方法
WO2012111320A1 (ja) 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
JP2010508752A (ja) 立体映像コンテンツ再生に利用されるメタデータの復号化方法及び装置
JP2005094168A (ja) ファイル構造及びそれを用いる画像記録装置並びに画像再生装置
TW201246940A (en) Video encoding device, video encoding method, video encoding program, video playback device, video playback method, and video playback program
CN102640503B (zh) 产生流的方法及设备和处理流的方法及设备
WO2012169204A1 (ja) 送信装置、受信装置、送信方法及び受信方法
JP6008292B2 (ja) ビデオストリームの映像のデータ作成装置及び再生装置
KR101591703B1 (ko) 3차원 영상 데이터스트림 생성 방법 및 그 장치와 3차원 영상 데이터스트림 수신 방법 및 그 장치
KR101382618B1 (ko) 콘텐츠 정보 생성 방법 및 콘텐츠 정보를 이용한 콘텐츠처리 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160229

Address after: Osaka Japan

Applicant after: PANASONIC INTELLECTUAL PROPERTY MANAGEMENT Co.,Ltd.

Address before: Osaka Japan

Applicant before: Matsushita Electric Industrial Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170613

Termination date: 20190913

CF01 Termination of patent right due to non-payment of annual fee