CN102308584B

CN102308584B - 多视点图像编码方法、多视点图像译码方法、多视点图像编码装置以及多视点图像译码装置

Info

Publication number: CN102308584B
Application number: CN201080006489.3A
Authority: CN
Inventors: 志水信哉; 木全英明
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-02-12
Filing date: 2010-02-05
Publication date: 2015-01-07
Anticipated expiration: 2030-02-05
Also published as: CA2751297C; TW201034469A; EP2398241A1; RU2011132661A; TW201424405A; US8532411B2; US20110286678A1; KR20110114614A; BRPI1008226A2; TWI432034B; WO2010092772A1; JPWO2010092772A1; CN102308584A; KR101287458B1; JP5436458B2; CA2751297A1; RU2525850C2

Abstract

本发明的多视点图像编码/译码，在对编码/译码对象帧进行分割，按每个区域进行编码/译码的情况下，首先，不仅在处理对象区域，而且在与该处理对象区域邻接的已经编码/译码完成的区域中，也以同一预测方法生成预测图像。接着，根据邻接区域中的预测图像和译码图像，估计对亮度、颜色的失配进行校正的校正参数。由于这时估计的校正参数在译码侧也能够求取，所以不需要进行编码。而且，使用估计的校正参数，对针对处理对象区域生成的预测图像进行校正，由此生成实际使用的校正预测图像。

Description

多视点图像编码方法、多视点图像译码方法、多视点图像编码装置以及多视点图像译码装置

技术领域

本发明涉及对通过多个摄影机对某个被摄体进行摄影的图像进行编码的多视点图像编码方法及其装置、对通过该多视点图像编码方法编码了的码数据进行译码的多视点图像译码方法及其装置、用于实现该多视点图像编码方法的多视点图像编码程序、用于实现该多视点图像译码方法的多视点图像译码程序。

本申请基于2009年2月12日在日本申请的日本特愿2009-29249号要求优先权，在这里引用其内容。

背景技术

多视点图像指的是以多个摄影机对相同的被摄体和背景进行摄影的多个图像，多视点活动图像（多视点视频）是其活动图像。

作为用于通常的活动图像编码、多视点活动图像编码的技术，提出了运动补偿预测和视差补偿预测。

运动补偿预测是在以H.264为代表的近年来的活动图像编码方式的国际标准中也采用的手法，在编码对象帧与已经编码完成的参照帧之间对被摄体的运动进行补偿，取得图像信号的帧间差分，仅对该差分信号进行编码（参照非专利文献1）。

另一方面，视差补偿预测通过使用以其它的摄影机摄影的帧作为参照帧来对被摄体的视差进行补偿，一边取得图像信号的帧间差分一边进行编码（参照非专利文献2）。

在这里使用的视差指的是在配置于不同位置的摄影机的图像平面上，被摄体上的相同位置被投影的位置的差。在视差补偿预测中，将其以二维矢量来表现并进行编码。如图8所示，由于视差是依赖于摄影机和被摄体到摄影机的距离（深度）而产生的信息，所以存在利用该原理的被称为视点合成预测（视点内插预测）的方式。

在视点合成预测（视点内插预测）中，有对在编码侧或译码侧获得的多视点视频使用摄影机的位置信息和三角测量的原理对被摄体的深度进行估计，使用该估计的深度对编码对象帧进行合成（内插）而生成预测图像的方式（参照专利文献1、非专利文献3）。再有，在编码侧对深度进行估计的情况下，需要对使用的深度（depth）进行编码。

在视差补偿预测、视点合成预测中，当在摄影机的摄像元件的响应中存在个体差时，或按每个摄影机进行增益控制、伽玛校正时，或每个摄影机的被摄体深度、光圈等的设定相异时，或在场景中有依赖于方向的照明效果时，编码效率劣化。其理由在于，因为以在编码对象帧和参照帧中被摄体的亮度、颜色相同作为前提来进行预测。

作为为了应对该被摄体的亮度、颜色的变化而研究的方式，有被称为亮度补偿、颜色补偿的方式。在该方式中，通过将校正了亮度、颜色后的参照帧作为在预测中使用的帧，从而将编码的预测残差抑制得较小。

在H.264中，采用利用1次函数进行校正的Weighted Prediction（加权预测）（参照非专利文献1），在非专利文献3中，提出了使用颜色表进行校正的方式。

现有技术文献

专利文献

专利文献1：日本特开2007-036800号公报“映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体”

非专利文献

非专利文献1：ITU-T Rec. H.264/ISO/IEC 11496-10, "Advanced video coding for generic audiovisual services", Final Committee Draft, Document JVT-E022d7, September 2002.(pp.10-13, pp.62-73)

非专利文献2：Hideaki Kimata and Masaki Kitahara, "Preliminary results on multiple view video coding (3DAV)", document M10976 MPEG Redmond Meeting, July, 2004.

非专利文献3: K.Yamamoto, M.Kitahara, H.Kimata, T.Yendo, T.Fujii, M.Tanimoto, S.Shimizu, K.Kamikura, and Y.Yashima, "Multiview Video Coding Using View Interpolation and Color Correction," IEEE Transactions on Circuits and System for Video Technology, Vol.17, No.11, pp.1436-1449, November, 2007。

发明内容

发明要解决的课题

在使用上述的亮度补偿、颜色校正的编码的情况下，存在以下2个问题。

第1个问题是附加亮度补偿/颜色校正参数导致的码量的增加。由于产生对在通常的视差补偿预测、视点合成(内插)预测中不需要编码的亮度补偿/颜色校正参数进行编码的需要，所以编码效率降低。

第2个问题是缺乏对局部的失配（mismatch）的应对能力。在这里，失配指的是在编码对象帧与参照帧、视点合成图像之间存在的亮度、颜色的不一致。

在通常的活动图像编码中的减弱（fade）、闪烁（flash）的情况下，由于画面整体同样地变化，所以以单一的校正参数能够进行充分的亮度补偿、颜色校正。可是，由于被摄体不是完全扩散反射体或每个摄影机的景深、焦点不完全一致，导致失配不是依赖于场景、而是依赖于被摄体的失配，该失配是局部的。因此，在利用单一的校正参数的亮度补偿、颜色校正中，不能充分减小预测差分。

对于该问题，为了应对局部的变化也考虑使用多个校正参数的方法。可是，当使用该方法时，由于不仅是对多个校正参数进行编码的码量，而且需要对表示对每个图像区域使用哪个校正参数的信息进行编码，所以招致进一步的码量增大，不能够解决第1个问题。

本发明正是鉴于这样的情况而完成的，其目的在于提供一种新的多视点图像编码和译码技术，即使在摄影机间伴随局部的亮度、颜色的失配的多视点图像（多视点静止图像、活动图像）中，也能够实现高效率的编码，并且实现在实现高效率的编码中所需要的码量的削减。

用于解决课题的方案

[1]本发明的基本的技术思想

为了解决上述的课题，在本发明中，在对编码/译码对象帧进行分割，按每个区域进行编码/译码的情况下，采用如下手段。

首先，不仅在处理对象区域，而且在与该处理对象区域邻接的已经编码/译码完成的区域中，也以同一预测方法生成预测图像。接着，根据邻接区域中的预测图像和译码图像，估计对亮度、颜色的失配进行校正的校正参数。接着，使用估计的校正参数，对针对处理对象区域生成的预测图像进行校正，由此生成实际使用的校正预测图像。

在对编码对象帧和参照帧进行比较来计算校正参数的现有的方法的情况下，由于编码对象帧不能在译码侧获得，所以需要对校正参数进行编码。

另一方面，在本发明中，因为根据邻接区域中的预测图像和译码图像来估计校正参数，所以对编码/译码完成帧和参照帧（成为预测图像的生成源的帧）进行比较来计算校正参数。由于任一个帧都是在译码侧能够获得的帧，所以不需要对校正参数进行编码。也就是说，通过本发明能够解决码量增加的问题。

此外，由于编码处理是尽可能忠实地对输入信号进行变换的处理，所以能够将编码对象帧和编码/译码完成帧看作大致相同的帧。也就是说，通过本发明计算出的校正参数能够使预测图像接近编码对象帧，将编码的预测差分充分减小。

此外，在本发明中，按处理对象区域的每个使用邻接区域的信息来估计校正参数。由此，能够进行与局部的亮度、颜色的失配对应的校正。

在上述的多视点图像编码/译码中，使用估计的校正参数对邻接区域的预测图像进行校正，将其结果与邻接区域的编码/译码完成图像进行比较，由此能够计算校正参数的可靠度。在该可靠度没有超过阈值的情况下（可靠度低的情况下），不进行利用校正参数的校正，将针对处理对象区域而生成的预测图像直接作为校正预测图像也可。再有，作为可靠度，能够使用通过如下函数计算的值，即校正后的预测图像和编码/译码完成图像的差分的最大值、方差值等越大，可靠度示出越低的值的函数（倒数等的函数）。

此外，在估计校正参数时，也能够使用如下方法，即，求取邻接区域中的预测图像与编码/译码完成图像的每个像素的差分，对应于该差分值对邻接区域的像素进行分群，仅使用属于要素数最多的群的像素来导出校正参数。

[2]本发明的结构

接着，针对本发明的多视点图像编码装置和多视点图像译码装置的结构进行说明。

[2-1] 本发明的多视点图像编码装置的结构

本发明的多视点图像编码装置，将以第1摄影机摄影的被摄体的输入图像分割成多个编码对象区域，使用以配置在与所述第1摄影机不同位置的第2摄影机摄影的、所述被摄体的已经编码完成的图像，按每个编码对象区域进行预测编码，由此对多视点图像（多视点的静止图像、活动图像），其中，具有：（1）样本区域设定部，在所述输入图像中将与编码对象区域邻接的已经译码完成的区域作为样本区域而设定；（2）预测图像生成部，针对属于编码对象区域和样本区域的像素，根据以所述第2摄影机摄影的所述编码完成图像来生成预测图像；（3）校正参数估计部，基于针对样本区域的预测图像和针对所述样本区域已经译码了的译码图像，对校正亮度、颜色的失配的校正参数进行估计；（4）预测图像校正部，使用校正参数，对针对编码对象区域的预测图像进行校正，生成第1校正预测图像；（5）图像编码部，使用第1校正预测图像，对编码对象区域的图像信号进行编码，生成码数据；以及（6）图像译码部，对该码数据进行译码，生成编码对象区域的译码图像。

本发明的实施方式的多视点图像编码装置还具备：（7）样本图像校正部，使用估计的校正参数，对针对样本区域的预测图像进行校正，生成第2校正预测图像；以及（8）校正参数评价部，基于该第2校正预测图像和译码图像，对估计的校正参数进行评价。在该情况下，在预测图像校正部中，通过比较估计的校正参数的评价值和预先决定的阈值，在判断为估计的校正参数的可靠度高的情况下，使用估计的校正参数对针对编码对象区域的预测图像进行校正，生成所述第1校正预测图像，在判断为该校正参数的可靠度低的情况下，将针对编码对象区域的预测图像作为第1预测图像也可。

此外，本发明的实施方式的多视点图像编码装置还具备：（9）样本像素分类部，使用预测图像和译码图像的差分值，对属于样本区域的像素进行分群；以及（10）样本区域修正部，在以分群而获得的群内，将属于要素数最多的群的像素作为样本区域重新设定来对修正了的样本区域进行设定。在该情况下，校正参数估计部仅使用属于修正了的样本区域的像素，进行校正参数的估计也可。

通过以上的各处理单元工作而实现的本发明的多视点图像编码方法也能够以计算机程序来实现。该计算机程序记录在适当的计算机能够读取的记录介质中而被提供，或经由网络而被提供，在实施本发明时被安装并通过在CPU等的控制单元上工作，从而实现本发明。

[2-2] 本发明的多视点图像译码装置的结构

本发明的多视点图像译码装置，将以第1摄影机摄影的被摄体的图像使用配置在与所述第1摄影机不同位置的第2摄影机摄影的所述被摄体的图像进行编码后的译码对象图像的码数据，使用以所述第2摄影机摄影的已经译码完成的所述被摄体的图像，按照将所述译码对象图像分割后的多个译码对象区域的每一个进行译码，其中，具有：（1）样本区域设定部，在所述译码对象图像中将与所述译码对象区域邻接的已经译码完成的区域作为样本区域而设定；（2）预测图像生成部，针对属于译码对象区域和设定的样本区域的像素，根据以所述第2摄影机摄影的所述编码完成图像来生成预测图像；（3）校正参数估计部，基于针对设定的样本区域的预测图像和针对所述样本区域已经译码了的译码图像，对校正亮度和颜色的失配的校正参数进行估计；（4）预测图像校正部，使用该校正参数，对针对译码对象区域的预测图像进行校正，生成第1校正预测图像；以及（5）图像译码部，使用该第1校正预测图像，根据码数据对译码对象区域的图像信号进行译码。

本发明的实施方式的多视点图像译码装置还具备：（6）样本图像校正部，使用估计的校正参数，对针对样本区域的所述预测图像进行校正，生成第2校正预测图像；以及（7）校正参数评价部，基于该第2校正预测图像和所述译码图像，对估计的校正参数进行评价。在该情况下，在预测图像校正部中，通过比较所述校正参数的评价值和预先决定的阈值，在判断为所述校正参数的可靠度高的情况下，使用该校正参数对针对译码对象区域的所述预测图像进行校正，生成所述第1校正预测图像，在判断为所述校正参数的可靠度低的情况下，将针对译码对象区域的所述预测图像作为所述第1预测图像也可。

此外，本发明的实施方式的多视点图像译码装置还具备：（8）样本像素分类部，使用所述预测图像和所述译码图像的差分值，对属于样本区域的像素进行分群；以及（9）样本区域修正部，在以分群而获得的群内，将属于要素数最多的群的像素作为样本区域重新设定来对修正了的样本区域进行设定。在该情况下，校正参数估计部仅使用属于修正了的样本区域的像素，进行所述校正参数的估计也可。

通过以上的各处理单元工作而实现的本发明的多视点图像译码方法以计算机程序也能够实现，该计算机程序记录在适当的计算机能够读取的记录介质中而被提供，或经由网络而被提供，在实施本发明时通过被安装并在CPU等的控制单元上工作，从而实现本发明。

发明的效果

根据本发明，即使在摄影机间局部地产生亮度、颜色的失配的情况下，也局部地求取用于应对该失配的校正参数，因此能够减小预测差分。因此，能够实现高效率的多视点图像、多视点活动图像的编码和译码。

并且，根据本发明，因为不需要对这样求取的校正参数另外进行编码/译码，所以在多视点图像、多视点活动图像的编码和译码时能够大幅削减码量。

附图说明

图1是表示本发明的第1实施方式的多视点视频编码装置的框图。

图2是表示本发明的第1实施方式的多视点视频编码装置执行的处理的流程图。

图3是表示本发明的第1实施方式的多视点视频编码装置执行的处理的细节的流程图。

图4是表示本发明的第1实施方式的多视点视频编码装置执行的处理的流程图。

图5是表示本发明的第2实施方式的多视点视频译码装置的框图。

图6是表示本发明的第2实施方式的多视点视频译码装置执行的处理的流程图。

图7是表示本发明的第2实施方式的多视点视频译码装置执行的处理的细节的流程图。

图8是表示视差补偿预测方式的图。

具体实施方式

以下，参照表示本发明的实施方式的附图详细地说明本发明。

再有，在以下的说明中，通过对视频（帧）附加能够特别指定位置的信息（以记号[]夹着的信息，是坐标值或能够与坐标值对应起来的索引），从而通过该位置的像素表示被采样的视频信号。

[1]本发明的第1实施方式例的多视点视频编码装置

图1示出本发明的第1实施方式的多视点视频编码装置100的装置结构。

如图1所示，实施方式例1的多视点视频编码装置100具备：编码对象图像输入部101、编码对象图像存储器102、参照摄影机图像输入部103、参照摄影机图像存储器104、预测图像生成部105、校正参数估计部106、预测图像校正部107、图像编码部108、图像译码部109、译码图像存储器110。

编码对象图像输入部101将以第1摄影机摄影的被摄体的图像的帧作为编码对象进行输入。编码对象图像存储器102对输入的编码对象帧进行蓄积。参照摄影机图像输入部103将以与第1摄影机不同的第2摄影机对同一被摄体进行摄影而获得的图像的帧作为参照帧而输入。参照摄影机图像存储器104对输入的参照帧进行蓄积。预测图像生成部105使用参照帧来生成编码对象帧的预测图像。校正参数估计部106基于编码对象区域的周围区域的预测图像和译码图像来估计校正参数。预测图像校正部107使用估计的校正参数对编码对象区域的预测图像进行校正。图像编码部108一边将校正后的预测图像作为预测信号进行使用一边对编码对象区域的图像信号进行编码。图像译码部109对编码了的图像信号进行译码。译码图像存储器110对译码了的图像进行蓄积。

图2表示以该方式构成的本实施方式的多视点视频编码装置100执行的处理流程。

接着，按照该处理流程，对本实施方式的多视点视频编码装置100执行的处理详细地进行说明。

首先，通过编码对象图像输入部101输入编码对象帧Org，储存在编码对象图像存储器102中。通过参照摄影机图像输入部103输入参照帧Ref，储存在参照摄影机图像存储器104中[A1]。

输入的参照帧是对已经编码完成的图像进行译码后的图像帧。这是因为通过使用与在译码装置获得的信息相同的信息能够抑制漂移（drift）等的编码噪声的产生。但是，在容许这些的编码噪声的产生的情况下，输入编码前的原始信号也可。再有，在存在多个参照帧的情况下，在这里输入多个参照帧。

接着，编码装置100将编码对象帧分割为多个编码对象区域（在以下的说明中，有时称为“编码处理块”），按该编码对象区域的每一个一边生成/校正预测图像，一边在图像编码部108对编码对象帧的图像信号进行编码[A2-A9]。

也就是说，当以blk表示编码处理块（即，编码对象区域）的索引（index），以numBlks表示总编码处理块数时，在以0对blk进行初始化后[A2]，一边对blk加上1[A8]，一边到blk变为numBlks为止[A9]，反复进行以下的处理[A3-A7]。

在按每个编码处理块反复进行的处理中，编码装置100首先在预测图像生成部105一边使用参照帧，一边使用同一生成手法生成对于块blk（编码对象区域）和其周围的编码完成区域（样本区域）的预测图像Pred[A3]。

在这里，作为周围区域能够使用与块blk邻接的编码处理块、邻接像素等的各种单位的区域。虽然使用任何定义的周围区域均可，但需要使用与在译码侧使用的定义相同的区域。在本实施方式例中，以N_blk表示在块blk的周围的编码完成区域中包含的像素的集合，以C_blk表示在块blk中包含的像素的集合。

作为预测图像的生成方法，只要是使用参照帧Ref的方法的话使用任何方法均可，但在块blk及其周围区域中使用相同的方法生成预测图像Pred。例如，在使用利用视差矢量的视差补偿预测的情况下，使用单一的视差矢量dv，如下式（1）那样，生成块blk及其样本区域双方的预测图像Pred。

此外，在使用视点合成（内插）预测的情况下，对使用参照帧Ref合成（内插）了编码对象摄影机的图像整体的视点合成（内插）图像Synth，以下式（2）那样生成预测图像Pred。

接着，使用周围区域中的预测图像和译码图像Dec，在校正参数估计部106求取校正参数[A4]。

作为校正方法、校正参数估计，使用任何方法均可，但需要使用与在译码侧使用的方法相同的方法。

作为校正方法，有利用偏移（offset）的校正、使用1次函数的校正、抽头长k的二维线性滤波器处理等。当将校正对象的像素设为p，将校正前的值设为In，将校正后的值设为Out时，它们分别能够以下面的数式（3）~数式（5）来表示。

利用偏移的校正、使用了1次函数的校正是利用线性滤波器处理的校正的特殊的例子。再有，校正处理不必须是线性处理，只要能够进行校正参数估计的话，使用非线性滤波器也可。作为非线性的校正方法的例子，有伽玛校正。伽玛校正能够以下面的数式（6）表示。

在这些校正模型的例子中，offset、(α,β)、({F_i,j }, o)、(γ,a,b)分别成为校正参数。

在周围区域中，校正前的值是预测图像，理想的校正后的值是译码图像。因此，当以校正处理后的值与理想的校正后的值的差变小的方式求取校正参数时，能够进行精度高的校正。

例如，在利用偏移值的校正中，能够使用下面的数式（7）求取offset。再有，|| ||表示该集合的要素数。

此外，在进行利用1次函数的校正的情况下，作为导出使均方误差的和最小化的校正参数的方法，能够使用最小二乘法进行求取。在该情况下，校正参数(α,β)能够以下面的数式（8）来表示。

这些校正参数按亮度、色差信号的每一个来求取也可，按RGB等的颜色通道的每一个来求取也可。此外，以进行在R通道的0~127和128~255中使用不同的校正参数的校正的方式，对各通道进行细分，按每个固定的范围进行不同的校正也可。

在估计了校正参数之后，在预测图像校正部107按照校正参数来校正对于块blk的预测图像Pred，生成校正预测图像CPred[A5]。

该校正预测图像CPred的生成处理具体如图3的处理流程所示，按每个像素来进行。在图3的处理流程中，pix表示像素的识别信息，numPix_blk表示块blk内的像素数。

例如，在进行使用了偏移值的校正的情况下，按照下面的数式（9）生成CPred。

作为校正方法（校正模型），以进行使用了偏移值的数式（3）的校正的情况为例进行说明。如图4所示，在处理A4中，在将周围的编码完成区域的预测图像的像素值设为In，将周围的编码完成区域的译码图像的像素值设为Out的情况下通过估计offset，决定成为像素值变换式的校正模型。接着，在处理A5中，通过对该决定了的像素值变换式的In代入块blk的预测图像的像素值，从而校正块blk的预测图像。

在对块blk的预测图像的校正完成之后，在图像编码部108中一边将校正预测图像CPred作为预测信号一边将对于块blk的编码对象帧Org编码。

使用任何编码方法均可，但在H.264等的通常的编码手法中，通过对Org和CPred的差分施加DCT/量化/2值化/熵编码，从而进行编码。

编码结果的比特流成为多视点编码装置100的输出。与此一起，按每个块在图像译码部109进行译码，作为译码结果的译码图像Dec为了其它块中的校正参数估计而储存在译码图像存储器110中[A7]。

这样，本实施方式的多视点视频编码装置100为了能够对在摄影机间伴随局部的亮度、颜色的失配的多视点视频高效率地进行编码，局部地求取用于应对该失配的校正参数。进而，为了回避码量的增加，以不需要另外进行编码/译码的方式求取该校正参数，并且执行该多视点视频的编码。

在本实施方式例中，在仅存在1个预测模式的情况下进行了说明，但在从存在的多个预测模式中选择1个编码效率最好的模式进行编码的多视点视频编码装置100的情况下，也能够使用本发明。

具体地，对各预测模式进行处理A3~A6，比较编码效率，最终将对编码效率最高的预测模式的编码结果作为多视点视频编码装置100的输出，并且向图像译码部109发送。这时，从图像编码部108向预测图像生成部105发送控制信号，该控制信号表示使用什么样的预测模式。图1的虚线表示该控制信号。

[2]本发明的第2实施方式例的多视点视频译码装置

接着，针对本发明的第2实施方式例进行说明。

图5示出本发明的实施方式例2的多视点视频译码装置200的装置结构。

如图5所示，本实施方式的多视点视频译码装置200具备：码数据输入部201、码数据存储器202、参照摄影机图像输入部203、参照摄影机图像存储器204、预测图像生成部205、校正参数估计部206、预测图像校正部207、图像译码部207、译码图像存储器209。码数据输入部201将通过第1摄影机摄影的被摄体的图像帧的码数据作为译码对象进行输入。码数据存储器202对输入的码数据进行蓄积。参照摄影机图像输入部203对成为参照帧的、通过与第1摄影机不同的第2摄影机摄影的同一被摄体的图像帧进行输入。参照摄影机图像存储器204对输入的参照帧进行蓄积。预测图像生成部205使用参照帧来生译码对象帧的预测图像。校正参数估计部206基于译码对象区域的周围区域的预测图像和译码图像来估计校正参数。预测图像校正部207使用估计的校正参数对译码对象区域的预测图像进行校正。图像译码部208一边将校正后的预测图像作为预测信号进行使用一边对译码对象区域的码数据进行译码。译码图像存储器209对译码了的图像进行蓄积。

图6表示这样构成的第2实施方式的多视点视频译码装置200执行的处理流程。

接着，按照该处理流程，对多视点视频译码装置200执行的处理详细地进行说明。

首先，通过码数据输入部201输入码数据，储存在码数据存储器202中。通过参照摄影机图像输入部203输入参照帧Ref），储存在参照摄影机图像存储器204中[B1]。通过与摄影了该参照帧Ref的摄影机对应地设置的多视点视频译码装置200，参照帧Ref已经被译码。

再有，在存在多个参照帧的情况下，在这里输入多个参照帧。

接着，译码装置200将译码对象帧分割为多个译码对象区域（在以下的说明中，有时称为“译码处理块”），按该译码对象区域的每一个一边生成/校正预测图像，一边在图像译码部208对译码对象帧的图像信号进行译码[B2-B8]。

也就是说，当以blk表示译码处理块的索引，以numBlks表示总译码处理块数时，译码装置200在以0对blk进行初始化后[B2]，一边对blk加上1[B7]，一边到blk变为numBlks为止[B8]，反复进行以下的处理[B3-B6]。

在按译码处理块（即，译码对象区域）的每一个反复进行的处理中，译码装置200首先在预测图像生成部205一边使用参照帧，一边使用同一生成手法生成对于块blk（译码对象区域）和其周围的译码完成区域（样本区域）的预测图像Pred[B3]。

在这里的处理与实施方式例1的处理A3相同。与处理A3同样地，作为周围区域能够使用与块blk邻接的译码处理块、邻接像素等的各种单位的区域。虽然使用任何定义的周围区域均可，但需要使用与在编码侧使用的定义相同的区域。在本实施方式例中，以N_blk表示在块blk的周围的译码完成区域中包含的像素的集合，以C_blk表示在块blk中包含的像素的集合。

再有，作为在这里进行的预测图像（第1和第2摄影机间的预测图像）的生成手法，需要使用与在编码侧使用的方法相同的方法。在从多个预测模式中选择1个进行编码的情况下，在码数据中包含表示使用了哪个预测模式的信息。因此，在预测图像生成部105中接收该控制信号，以指定的预测方法生成块blk和周围区域的预测图像。图5的虚线表示该控制信号。

接着，使用周围区域中的预测图像和译码图像Dec，在校正参数估计部206求取校正参数[B4]。

在校正方法、校正参数估计中使用任何方法均可，但需要使用与在编码侧使用的方法相同的方法。在这里的处理与实施方式例1的处理A4相同。

在估计了校正参数之后，在预测图像校正部207按照校正参数校正对于块blk的预测图像Pred，生成校正预测图像CPred[B5]。

在这里的处理与实施方式例1的处理A5相同，如图7的处理流程所示，按每个像素来进行。在这里，在图7的处理流程中，pix表示像素的识别信息，numPix_blk表示块blk内的像素数。

在对块blk的预测图像的校正完成之后，在图像译码部208中一边将校正预测图像CPred作为预测信号一边将对于块blk的码数据译码，获得对于块blk的译码图像Dec[blk][B6]。

在这里进行的译码处理需要使用与在生成码数据时使用的方法对应的方法。例如，在使用H.264进行编码的情况下，通过对进行了熵译码、多值化、反量化、反DCT而译码的残差信号加上预测信号，从而进行译码处理。

译码结果的译码图像成为多视点视频译码装置200的输出，并且为了其它块中的校正参数估计而储存在译码图像存储器209中。

像这样，在如图5那样构成的多视点视频译码装置200中，以对如图1那样构成的多视点视频编码装置100生成的码数据进行译码的方式来处理。

在上述说明的实施方式例1和实施方式例2中，在全部的块中进行校正，但也可以采用通过按每个块对1位（bit）的标签信息进行编码，从而选择是否进行校正的结构。

此外，也有不对1位的标签信息进行编码，而测定校正参数的可靠度，对应于该可靠度选择是否进行校正的方法。

具体地，在处理A4和处理B4中求取校正参数之后，求取下面的数式（10）~数式（12）所示那样的表现校正的可靠度和有效性的值。仅在该值比预先赋予的阈值大的情况下，在处理A5和处理B5中对块blk的预测图像进行校正。

在这里，数式（10）的第1项表示译码图像Dec和校正前的预测图像Pred的差分绝对值和，第2项表示译码图像Dec和校正预测图像CPred的差分绝对值和。由此，数式（10）表示通过进行校正，真值和预测值的差分绝对值和被削减到什么程度。此外，数式（11）的第1项表示译码图像Dec和校正前的预测图像Pred的差分平方和，第2项表示译码图像Dec和校正预测图像CPred的差分绝平方和，数式（11）表示通过进行校正，真值和预测值的差分平方和被削减到什么程度。此外，数式（12）是表示校正模型对于获得的样本是多可靠。

这些数式（10）~数式（12）表示的值均不使用处理对象块而使用周围区域的值来进行求取，因此仅对在整体中使用的阈值进行编码，对译码侧通知即可。

为了求取更耐用（robust）的校正参数，在第1实施方式和第2实施方式的周围区域的设定中，能够进行将在周围区域中的像素中具有离群值（outlier）的像素从校正参数估计时的样本中除去的处理。

例如，以译码图像和预测图像的差分为尺度，对周围区域中的各像素进行分群（clustering），仅将属于要素数最多的群的像素作为在校正参数估计中使用的周围像素集合（即，样本区域）N_blk的要素。

作为最简单的分群方法，有如下方法，即如果译码图像和预测图像向的差分值的方差（variance）是某个阈值以下的话，作为整体设为1个群，在比阈值大的情况下以差分值的平均为分界分割为2个群。在该情况下，如果全部的群中包含的像素的译码图像和预测图像的差分值的方差变为某个阈值以下的话，结束分群。

作为更复杂的分群方法，有如下方法，即最初以各像素设为1个群，在使某2个群融合时，以从群内的像素的译码图像和预测图像的差分值的方差的增加是最少的群起的顺序进行融合的方法。在该情况下，在使任意2个群融合也产生具有超过某个阈值的方差的群的情况下，结束分群。

再有，在本实施方式例中，说明了对1个摄影机的1个帧进行编码或译码的处理，但通过将该处理按每个帧反复进行，能够实现多视点视频的编码或译码。进而，通过按每个摄影机反复进行，能够实现多个摄影机的多视点视频的编码或译码。

以上说明的处理也能够通过计算机和软件程序来实现。该程序记录在计算机可读取的记录介质来提供也可，通过网络来提供也可。

此外，在以上的实施方式例中，以多视点视频编码装置和多视点视频译码装置为中心进行了说明，但通过与该多视点视频编码装置的各部分的工作对应的步骤，能够实现本实施方式的多视点视频编码方法。此外，通过与该多视点视频译码装置的各部分的工作对应的步骤，能够实现本实施方式的多视点视频译码方法。

以上，参照附图对本发明的实施方式进行了说明，但上述实施方式不过是本发明的例示，很明显本发明不被上述实施方式所限定。

因此，在不脱离本发明的范围中，也能够进行结构要素的追加、省略、置换、或其他的变更。

产业上的利用可能性

本发明能够应用于多视点图像的编码方法，通过应用本发明，即使在摄影机间局部地产生亮度、颜色的失配的情况下，也能够实现高效率的多视点图像、多视点活动图像的编码和译码。此外，能够大幅削减在该实现中的码量。

附图标记说明

100 多视点视频编码装置；

101 编码对象图像输入部；

102 编码对象图像存储器；

103 参照摄影机图像输入部；

104 参照摄影机图像存储器；

105 预测图像生成部；

106 校正参数估计部；

107 预测图像校正部；

108 图像编码部；

109 图像译码部；

110 译码图像存储器；

200 多视点视频译码装置；

201 码数据输入部；

202 码数据存储器；

203 参照摄影机图像输入部；

204 参照摄影机图像存储器；

205 预测图像生成部；

206 校正参数估计部；

207 预测图像校正部；

208 图像译码部；

209 译码图像存储器。

Claims

1.一种多视点图像编码方法，将以第1摄影机摄影的被摄体的输入图像分割成多个编码对象区域，使用以配置在与所述第1摄影机不同位置的第2摄影机摄影的、所述被摄体的已经编码完成的图像，按每个所述编码对象区域进行预测编码，其中，具有：

样本区域设定步骤，在所述输入图像中将与所述编码对象区域邻接的已经译码完成的区域作为样本区域而设定；

预测图像生成步骤，针对属于所述编码对象区域和所述样本区域的像素，根据以所述第2摄影机摄影的所述编码完成的图像来生成预测图像；

校正参数估计步骤，基于针对所述样本区域的所述预测图像和针对所述样本区域已经译码了的译码图像，估计对亮度和颜色的至少任意一个的失配进行校正的校正参数；

预测图像校正步骤，使用所述校正参数，对针对所述编码对象区域的所述预测图像进行校正，生成第1校正预测图像；

图像编码步骤，使用所述第1校正预测图像，对所述编码对象区域的图像信号进行编码，生成码数据；以及

图像译码步骤，对所述码数据进行译码，生成所述编码对象区域的译码图像。

2.根据权利要求1所述的多视点图像编码方法，其中，具备：

样本图像校正步骤，使用所述校正参数，对针对所述样本区域的所述预测图像进行校正，生成第2校正预测图像；以及

校正参数评价步骤，基于所述第2校正预测图像和所述译码图像，对所述校正参数进行评价，

在所述预测图像校正步骤中，通过比较所述校正参数的评价值和预先决定的阈值，在判断为所述校正参数的可靠度高的情况下，使用所述校正参数对针对所述编码对象区域的所述预测图像进行校正，生成所述第1校正预测图像，在判断为所述校正参数的可靠度低的情况下，将针对所述编码对象区域的所述预测图像作为所述第1校正预测图像。

3.根据权利要求1所述的多视点图像编码方法，其中，具备：

样本像素分类步骤，使用所述预测图像和所述译码图像的差分值，对属于所述样本区域的像素进行分群；以及

样本区域修正步骤，在以所述分群而获得的群内，将属于要素数最多的群的像素作为所述样本区域而重新设定来对修正了的样本区域进行设定，

在所述校正参数估计步骤中，仅使用属于所述修正了的样本区域的像素来进行所述校正参数的估计。

4.一种多视点图像译码方法，将以第1摄影机摄影的被摄体的图像使用配置在与所述第1摄影机不同位置的第2摄影机摄影的所述被摄体的图像进行编码后的译码对象图像的码数据，使用以所述第2摄影机摄影的已经译码完成的所述被摄体的图像，按照将所述译码对象图像分割后的多个译码对象区域的每一个进行译码，其中，具有：

样本区域设定步骤，在所述译码对象图像中将与所述译码对象区域邻接的已经译码完成的区域作为样本区域而设定；

预测图像生成步骤，针对属于所述译码对象区域和所述样本区域的像素，根据以所述第2摄影机摄影的所述译码完成的图像来生成预测图像；

预测图像校正步骤，使用所述校正参数，对针对所述译码对象区域的所述预测图像进行校正，生成第1校正预测图像；以及

图像译码步骤，使用所述第1校正预测图像，根据所述码数据对所述译码对象区域的图像信号进行译码。

5.根据权利要求4所述的多视点图像译码方法，其中，具备：

在所述预测图像校正步骤中，通过比较所述校正参数的评价值和预先决定的阈值，在判断为所述校正参数的可靠度高的情况下，使用所述校正参数对针对所述译码对象区域的所述预测图像进行校正，生成所述第1校正预测图像，在判断为所述校正参数的可靠度低的情况下，将针对所述译码对象区域的所述预测图像作为所述第1校正预测图像。

6.根据权利要求4所述的多视点图像译码方法，其中，具备：

样本区域修正步骤，在以所述分群而获得的群内，将属于要素数最多的群的像素作为样本区域重新设定来对修正了的样本区域进行设定，

在所述校正参数估计步骤中，仅使用属于所述修正了的样本区域的像素，进行所述校正参数的估计。

7.一种多视点图像编码装置，将以第1摄影机摄影的被摄体的输入图像分割成多个编码对象区域，使用以与所述第1摄影机不同的第2摄影机摄影的、所述被摄体的已经编码完成的图像，按每个所述编码对象区域进行预测编码，其中，具有：

样本区域设定部，在所述输入图像中将与所述编码对象区域邻接的已经译码完成的区域作为样本区域而设定；

预测图像生成部，针对属于所述编码对象区域和所述样本区域的像素，根据以所述第2摄影机摄影的所述编码完成的图像来生成预测图像；

校正参数估计部，基于针对所述样本区域的所述预测图像和针对所述样本区域已经译码了的译码图像，估计对亮度和颜色的至少任意一个的失配进行校正的校正参数；

预测图像校正部，使用所述校正参数，对针对所述编码对象区域的所述预测图像进行校正，生成校正预测图像；

图像编码部，使用所述校正预测图像，对所述编码对象区域的图像信号进行编码，生成码数据；以及

图像译码部，对所述码数据进行译码，生成所述编码对象区域的译码图像。

8.一种多视点图像译码装置，将以第1摄影机摄影的被摄体的图像使用与所述第1摄影机不同的第2摄影机摄影的所述被摄体的图像进行编码后的译码对象图像的码数据，使用以所述第2摄影机摄影的已经译码完成的所述被摄体的图像，按照将所述译码对象图像分割后的多个译码对象区域的每一个进行译码，其中，具有：

样本区域设定部，在所述译码对象图像中将与所述译码对象区域邻接的已经译码完成的区域作为样本区域而设定；

预测图像生成部，针对属于所述译码对象区域和所述样本区域的像素，根据以所述第2摄影机摄影的所述译码完成的图像来生成预测图像；

预测图像校正部，使用所述校正参数，对针对所述译码对象区域的所述预测图像进行校正，生成校正预测图像；以及

图像译码部，使用所述校正预测图像，根据码数据对所述译码对象区域的图像信号进行译码。

9.一种多视点图像编码方法，将以第1摄影机摄影的被摄体的输入图像分割成多个编码对象区域，使用以配置在与所述第1摄影机不同位置的第2摄影机摄影的、所述被摄体的已经编码完成的图像，按每个所述编码对象区域进行预测编码，其中，具有：

第1预测图像生成步骤，针对属于所述编码对象区域的像素，根据以所述第2摄影机摄影的所述编码完成的图像来生成第1预测图像；

第2预测图像生成步骤，针对属于所述样本区域的像素，根据以所述第2摄影机摄影的所述编码完成的图像，以与所述第1预测图像生成步骤相同的方法来生成第2预测图像；

校正参数估计步骤，基于针对所述样本区域的所述第2预测图像和针对所述样本区域已经译码了的译码图像，估计对亮度和颜色的至少任意一个的失配进行校正的校正参数；

预测图像校正步骤，使用所述校正参数，对针对所述编码对象区域的所述第1预测图像进行校正，生成第1校正预测图像；

图像译码步骤，对所述码数据进行译码，生成所述编码对象区域的译码图像，

在所述第1预测图像生成步骤中，根据以所述第2摄影机摄影的所述编码完成的图像，对以所述第1摄影机摄影的图像进行合成，生成针对所述编码对象区域的视点合成图像，作为所述第1预测图像，

在所述第2预测图像生成步骤中，根据以所述第2摄影机摄影的所述编码完成的图像，对以所述第1摄影机摄影的图像进行合成，生成针对所述样本区域的视点合成图像，作为所述第2预测图像。

10.一种多视点图像译码方法，将以第1摄影机摄影的被摄体的图像使用配置在与所述第1摄影机不同位置的第2摄影机摄影的所述被摄体的图像进行编码后的译码对象图像的码数据，使用以所述第2摄影机摄影的已经译码完成的所述被摄体的图像，按照将所述译码对象图像分割后的多个译码对象区域的每一个进行译码，其中，具有：

第1预测图像生成步骤，针对属于所述译码对象区域的像素，根据以所述第2摄影机摄影的所述译码完成的图像来生成第1预测图像；

第2预测图像生成步骤，针对属于所述样本区域的像素，根据以所述第2摄影机摄影的所述译码完成的图像，以与所述第1预测图像生成步骤相同的方法来生成第2预测图像；

预测图像校正步骤，使用所述校正参数，对针对所述译码对象区域的所述第1预测图像进行校正，生成第1校正预测图像；

图像译码步骤，使用所述第1校正预测图像，根据所述码数据对所述译码对象区域的图像信号进行译码，

在所述第1预测图像生成步骤中，根据以所述第2摄影机摄影的所述译码完成的图像，对以所述第1摄影机摄影的图像进行合成，生成针对所述译码对象区域的视点合成图像，作为所述第1预测图像，

在所述第2预测图像生成步骤中，根据以所述第2摄影机摄影的所述译码完成的图像，对以所述第1摄影机摄影的图像进行合成，生成针对所述样本区域的视点合成图像，作为所述第2预测图像。