CN101945295A

CN101945295A - 生成深度图的方法和设备

Info

Publication number: CN101945295A
Application number: CN2009101517103A
Authority: CN
Inventors: 马赓宇; 王海涛; 王西颖; 金智元; 郑用柱; 金智渊
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2009-07-06
Filing date: 2009-07-06
Publication date: 2011-01-12
Anticipated expiration: 2029-07-06
Also published as: KR101710444B1; KR20110004267A; CN101945295B

Abstract

一种生成深度图的设备和方法，从普通视频中自动生成与视频中每幅2D图像相应的深度图。所述生成深度图的设备包括：图像拾取装置，从输入的视频中获得时间上连续的多个2D图像；显著性图生成模块，根据HVP模型生成与当前2D图像相应的至少一个显著性图；基于显著性的深度图生成模块；3D结构匹配模块，计算所述多个2D图像中当前2D图像与多个预先存储的3D典型结构的每一个的匹配度并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；基于匹配的深度图生成模块；综合深度图生成模块，将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图；以及空域和时域平滑模块，对所述综合深度图进行平滑。

Description

生成深度图的方法和设备

技术领域

本发明涉及一种生成深度图的方法和设备，尤其涉及一种从普通视频中自动生成与视频中每幅2D图像相应的深度图的方法及其设备。

背景技术

最近，在研究领域和商业市场上，三维(3D)电视都是一个热点问题。3D电视与传统的二维(2D)电视的不同在于它可显示立体视频。观众可感受到如同观看真实的3D场景一样的深度效果。这种效果所基于的技术理论是人类的双眼视觉模型。人类利用双眼来观看真实世界，当观看3D场景时，双眼中的图像是不同的。通过独立地投影到人的左眼和右眼的两副不同的图像，人类可以在脑海中重建3D场景。

但是目前大部分现有的媒体内容(电影、视频)和图像获取装置(数字相机、数字摄像机)仍然基于一个相机的单视图系统。如果将这些媒体内容直接显示在3D电视上，则不能示出3D效果。为了将这些媒体内容转换为3D视频，一种解决方法是雇佣很多工作人员来手工地标注视频中每个区域的深度。这种转换结果会非常令人满意，但缺点也是很明显的，就是需要很多的人力。

目前已经有一些解决这个问题的方法，但都存在不能应用于普通的视频序列的限制。例如，一些方法提供了需要人机交互的深度标注系统，但是这些方法不能完全地无人监督的应用于3D电视，而是需要用户输入，并且也不是实时的。还有一些方法基于图像中的对象进行水平运动并且背景是静止的假设使用运动视差来仿真立体视差，而这些假设在普通的视频中并不是真实的，所以这些方法能处理的视频类型有限。

发明内容

本发明提供一种完全自动的、不需要用户输入的，并且可处理任何类型的视频(包括静止图像序列)的方法及其设备。

根据本发明的一方面，提供一种生成深度图的设备包括：图像拾取装置，从输入的视频中获得时间上连续的多个2D图像；3D结构匹配模块，计算所述多个2D图像中当前2D图像与多个在该3D结构匹配模块中预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；基于匹配的深度图生成模块，预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值。

所述基于匹配的深度值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

所述3D结构匹配模块还包括：平面分割模块，将当前2D图像分割成与进行匹配的3D典型结构中的平面相应的至少一个区域；匹配度计算模块，根据每个所述区域中的特征的分布来计算每个所述区域的密度；计算每个所述区域中的特征的平均值，并根据所述平均值之间的差的范数来计算两两区域间的相似性；根据每个所述区域的密度和所述两两区域间的相似性的和来计算匹配度；3D结构确定模块，根据所述匹配度，将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构。

匹配度计算模块根据

来计算每个所述区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，

是所述区域中所有像素的特征值的平均值，area(r)是所述区域中像素的数量。

匹配度计算模块根据

来计算区域ri和区域rj间的相似性，其中，

是所述区域中的特征的平均值，|.|是范数。

所述特征是颜色、梯度或边缘。

所述范数是1-范数、2-范数或∞范数。

根据本发明的另一方面，提供一种生成深度图的设备，包括：图像拾取装置，从输入的视频中获得时间上连续的多个2D图像；显著性图生成模块，根据HVP模型生成与所述多个2D图像中当前2D图像相应的至少一个显著性图，所述显著性图的每个像素表示当前2D图像中的相应像素的显著性；基于显著性的深度图生成模块，使用所述至少一个显著性图生成与当前2D图像相应的基于显著性的深度图，所述基于显著性的深度图的每个像素表示当前2D图像中的相应像素的基于显著性的深度值；3D结构匹配模块，计算所述多个2D图像中当前2D图像与多个在该3D结构匹配模块中预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；基于匹配的深度图生成模块，预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值；综合深度图生成模块，将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值。

所述显著性图生成模块包括：特征显著性图生成模块，通过识别当前2D图像中的特征来生成特征显著性图；运动显著性图生成模块，通过识别当前2D图像和与当前2D图像在时间上相邻的2D图像之间的运动来生成运动显著性图；对象显著性图生成模块，通过识别当前2D图像中的对象来生成对象显著性图；以及显著性图控制模块，使用特征显著性图生成模块、运动显著性图生成模块和对象显著性图生成模块中的一个、任意两个或全部，以生成一个、任意两个或全部显著性图。

基于显著性的深度图生成模块通过以下处理生成基于显著性的深度图：如果显著性图生成模块仅生成了对象显著性图，则基于显著性的深度图生成模块将在(0，1)范围内的常数值赋给基于显著性的深度图中与2D图像中被识别为对象的像素相应的像素，将0赋给基于显著性的深度图中的其他像素；如果显著性图生成模块生成了特征显著性图或运动显著性图中的一个，则基于显著性的深度图生成模块根据特征显著性图或运动显著性图中每个像素的显著性将[0，1]范围内的值赋给基于显著性的深度图中的每个像素，0表示相应像素具有最小的显著性，1表示相应像素具有最大的显著性；如果显著性图生成模块生成了不包括对象显著性图的两个显著性图，则基于显著性的深度图生成模块将两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素；如果显著性图生成模块生成了包括对象显著性图的两个显著性图，则基于显著性的深度图生成模块将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将两个显著性图中除对象显著性图以外的显著性图中的相应像素值赋给基于显著性的深度图中的其他相应像素；如果显著性图生成模块生成了全部显著性图，则基于显著性的深度图生成模块将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将除对象显著性图以外的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

基于显著性的深度图和基于匹配的深度图的像素值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

所述综合深度图生成模块通过将基于显著性的深度图和基于匹配的深度图中的相应像素值相加并归一化或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

所述当前2D图像中的对象包括人像、人脸或文字。

根据本发明的另一方面，提供一种对深度图进行平滑的设备，包括：图像拾取装置，从输入的视频中获得时间上连续的多个2D图像；初始深度图拾取装置，获得输入的与所述多个2D图像中每个2D图像相应的初始深度图，所述深度图中的每个像素值是相应2D图像中相应像素的深度值；以及空域和时域平滑模块，对初始深度图进行空域和时域上的平滑。

所述空域和时域平滑模块还包括：平滑量计算模块，根据HVP模型，根据在时刻t的当前2D图像中的每个像素P1(x，y，t)和在时刻(t+Δt)的2D图像中的像素P2(x+Δx，y+Δy，t+Δt)之间的相似性、距离和深度值的差来计算平滑量S(P1，P2)，其中，根据期望的平滑效果确定Δx，Δy和Δt的值；平滑模块，根据所述平滑量S(P1，P2)来计算平滑后的当前2D图像的像素P1的深度值D′(P1)＝D(P1)-S(P1)，所述平滑量S(P1，P2)使得平滑后的像素P1的深度值D′(P1)和像素P2的深度值D′(P2)＝D(P2)+S(P1，P2)之间的差的绝对值小于平滑前的像素P1的深度值D(P1)和像素P2的深度值D(P2)之间的差的绝对值。

平滑量计算模块根据(D(P1)-D(P2))*N(P1，P2)*C(P1，P2)来计算所述平滑量S(P1，P2)，其中，D(.)是像素的深度值；

N (P 1, P 2) = \{\begin{matrix} 1, & | P 1, P 2 | < 1 \\ 0, & | P 1, P 2 | > 1 \end{matrix},

其中

| P 1, P 2 | = \sqrt{{Δx}^{2} + Δ y^{2} + Δ t^{2}};

其中I(.)是像素的特征(例如，颜色或纹理)的值，|.|是绝对值。

根据本发明的另一方面，提供一种生成深度图的设备，包括：图像拾取装置，从输入的视频中获得时间上连续的多个2D图像；显著性图生成模块，根据HVP模型生成与所述多个2D图像中当前2D图像相应的至少一个显著性图，所述显著性图的每个像素表示当前2D图像中的相应像素的显著性；基于显著性的深度图生成模块，使用所述至少一个显著性图生成与当前2D图像相应的基于显著性的深度图，所述基于显著性的深度图的每个像素表示当前2D图像中的相应像素的基于显著性的深度值；3D结构匹配模块，计算所述多个2D图像中当前2D图像与多个在该3D结构匹配模块中预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；基于匹配的深度图生成模块，预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值；综合深度图生成模块，将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值；以及空域和时域平滑模块，对综合深度图进行空域和时域上的平滑。

根据本发明的另一方面，提供一种生成深度图的方法，包括：从输入的视频中获得时间上连续的多个2D图像；计算所述多个2D图像中当前2D图像与多个预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值。

所述确定当前2D图像的3D结构还包括：将当前2D图像分割成与进行匹配的3D典型结构中的平面相应的至少一个区域；根据每个所述区域中的特征的分布来计算每个所述区域的密度；计算每个所述区域中的特征的平均值，并根据所述平均值之间的差的范数来计算两两区域间的相似性；根据每个所述区域的密度和所述两两区域间的相似性的和来计算匹配度；根据所述匹配度，将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构。

可根据来计算每个所述区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，是所述区域中所有像素的特征值的平均值，area(r)是所述区域中像素的数量。

可根据

来计算区域ri和区域rj间的相似性，其中，

是所述区域中的特征的平均值，|.|是范数。

根据本发明的另一方面，提供一种生成深度图的方法，包括：从输入的视频中获得时间上连续的多个2D图像；根据HVP模型生成与所述多个2D图像中当前2D图像相应的至少一个显著性图，所述显著性图的每个像素表示当前2D图像中的相应像素的显著性；使用所述至少一个显著性图生成与当前2D图像相应的基于显著性的深度图，所述基于显著性的深度图的每个像素表示当前2D图像中的相应像素的基于显著性的深度值；计算所述多个2D图像中当前2D图像与多个预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值；将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值。

所述显著性图的生成包括：生成特征显著性图、运动显著性图和对象显著性图中的一个、任意两个或全部，其中，通过识别当前2D图像中的特征来生成特征显著性图，通过识别当前2D图像和与当前2D图像在时间上相邻的2D图像之间的运动来生成运动显著性图，以及通过识别当前2D图像中的对象来生成对象显著性图。

基于显著性的深度图的生成包括：如果仅生成了对象显著性图，则将在(0，1)范围内的常数值赋给基于显著性的深度图中与2D图像中被识别为对象的像素相应的像素，将0赋给基于显著性的深度图中的其他像素；如果生成了特征显著性图或运动显著性图中的一个，则根据特征显著性图或运动显著性图中每个像素的显著性将[0，1]范围内的值赋给基于显著性的深度图中的每个像素，0表示相应像素具有最小的显著性，1表示相应像素具有最大的显著性；如果生成了不包括对象显著性图的两个显著性图，则将两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素；如果生成了包括对象显著性图的两个显著性图，则将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将两个显著性图中除对象显著性图以外的显著性图中的相应像素值赋给基于显著性的深度图中的其他相应像素；如果生成了全部显著性图，则将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将除对象显著性图以外的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

通过将基于显著性的深度图和基于匹配的深度图中的相应像素值相加并归一化或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

根据本发明的另一方面，提供一种对深度图进行平滑的方法，包括：从输入的视频中获得时间上连续的多个2D图像；获得输入的与所述多个2D图像中每个2D图像相应的初始深度图，所述深度图中的每个像素值是相应2D图像中相应像素的深度值；以及对初始深度图进行空域和时域上的平滑。

对初始深度图进行空域和时域上的平滑包括：根据HVP模型，根据在时刻t的当前2D图像中的每个像素P1(x，y，t)和在时刻(t+Δt)的2D图像中的像素P2(x+Δx，y+Δy，t+Δt)之间的相似性、距离和深度值的差来计算平滑量S(P1，P2)，其中，根据期望的平滑效果确定Δx，Δy和Δt的值；根据所述平滑量S(P1，P2)来计算平滑后的当前2D图像的像素P1的深度值D′(P1)＝D(P1)-S(P1)，所述平滑量S(P1，P2)使得平滑后的像素P1的深度值D′(P1)和像素P2的深度值D′(P2)＝D(P2)+S(P1，P2)之间的差的绝对值小于平滑前的像素P1的深度值D(P1)和像素P2的深度值D(P2)之间的差的绝对值。

根据(D(P1)-D(P2))*N(P1，P2)*C(P1，P2)来计算所述平滑量S(P1，P2)，其中，D(.)是像素的深度值；

N (P 1, P 2) = \{\begin{matrix} 1, & | P 1, P 2 | < 1 \\ 0, & | P 1, P 2 | > 1 \end{matrix},

其中

| P 1, P 2 | = \sqrt{{Δx}^{2} + Δ y^{2} + Δ t^{2}};

其中I(.)是像素的特征(颜色或纹理)的值，|.|是绝对值。

根据本发明的另一方面，提供一种生成深度图的方法，包括：从输入的视频中获得时间上连续的多个2D图像；根据HVP模型生成与所述多个2D图像中当前2D图像相应的至少一个显著性图，所述显著性图的每个像素表示当前2D图像中的相应像素的显著性；使用所述至少一个显著性图生成与当前2D图像相应的基于显著性的深度图，所述基于显著性的深度图的每个像素表示当前2D图像中的相应像素的基于显著性的深度值；计算所述多个2D图像中当前2D图像与多个在该3D结构匹配模块中预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值；将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值；以及对综合深度图进行空域和时域上的平滑。

附图说明

通过下面结合附图进行的对实施例的描述，本发明的上述和/或其他目的和优点将会变得更加清楚，其中：

图1是根据本发明第一示例性实施例的生成深度图的设备的框图；

图2示出一些3D典型结构的示例；

图3是根据本发明的3D结构匹配模块的框图；

图4是根据本发明第二示例性实施例的生成深度图的设备的框图；

图5是根据本发明的显著性图生成模块的框图；

图6是使用根据本发明第二示例性实施例的设备生成的深度图的示例。

图7是根据本发明第三示例性实施例的对深度图进行平滑的设备的框图；

图8是根据本发明的空域和时域平滑模块的框图；

图9是根据本发明的进行空域和时域平滑的示意图；

图10是根据本发明第四示例性实施例的生成深度图的设备的框图；

图11示出根据本发明第四示例性实施例的设备生成的深度图的示例；

图12是根据本发明的第五示例性实施例的生成深度图的方法的流程图；

图13是根据本发明的确定当前2D图像的3D结构的流程图；

图14是根据本发明的第六示例性实施例的生成深度图的方法的流程图；

图15是根据本发明的第七示例性实施例的对深度图进行平滑的方法流程图；

图16是根据本发明的第八示例性实施例的生成深度图的方法的流程图。

具体实施方式

现在将详细描述本发明的实施例，其示例在附图中示出，其中，即使是在不同的视图中，相同的标号始终表示相同的部件。下面通过参照附图来描述这些示例性实施例以解释本发明。必要时将省略对相同部件的重复性说明。

图1示出根据本发明的第一示例性实施例的生成深度图的设备。

参照图1，所述生成深度图的设备100包括图像拾取装置110、3D结构匹配模块120和基于匹配的深度图生成模块130。

对生成深度图的设备100的输入是由多个图像组成的视频序列。图像拾取装置110从输入的视频中获得在时间上连续的多个2D图像。对多个2D图像中的每一幅图像，3D结构匹配模块120从多个预先存储的3D典型结构中得到与当前图像最匹配的3D结构。更具体地说，通过应用关于3D典型结构的先验知识，可以得到当前图像的3D结构的近似。所述3D典型结构的一些示例示于图2。参照图2，第二行示出3D典型结构的一些示例，第一行是相应的真实场景的图像。现实中，场景的真实结构通常比预先存储的3D典型结构要复杂得多，但由于人眼视觉系统的限制，将复杂的3D结构示于3D电视中并不会给予观众更多的3D感受，所以，仅根据简单的3D典型结构生成2D图像的深度图就可以给予观众比传统的2D视频好得多的3D感受。

为了从多个预先存储的3D典型结构中得到与当前图像最匹配的3D结构，需要计算当前2D图像与多个预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的预定3D典型结构确定为当前2D图像的3D结构。

图3示出根据本发明的3D结构匹配模块120。

参照图3，3D结构匹配模块120包括平面分割模块121、匹配度计算模块122和3D结构确定模块123。平面分割模块121根据多个预先存储的3D典型结构中的一个将当前图像分割成至少一个平面。例如，当将当前图像与图2中的第二行的第一个3D典型结构进行匹配时，因为所述3D典型结构只有一个平面，所以当前图像的全部是一个区域；但是，当将当前图像与图2中的第二行的第四个3D典型结构进行匹配时，需要将当前图像的分割成与第四个3D典型结构中的4个平面相应的四个区域。随后，匹配度计算模块122可通过当前图像的每个区域中的特征(诸如颜色、梯度或边缘)计算每个区域的密度和两两区域间的相似性来计算所述匹配度S(等式1)。在等式1中，n是所述图像分割成的区域数量，ri，rj是分割成的区域，Dense(ri)可以是根据区域中的特征来计算的每个区域的密度，diff(ri，rj)可以是根据区域中的特征来计算的区域间的相似性。

S = Σ_{i = 1}^{n} Dense (ri) + Σ_{i = 1}^{n} Σ_{\overset{j = 1}{j &NotEqual; i}}^{n} diff (ri, rj) - - - (1)

关于Dense(ri)的计算可在如下的等式2中示出。

Dense (ri) = \frac{1}{1 + std (ri)} - - - (2)

等式2中的std(ri)是区域ri中的特征的标准分布，可由如下等式3表示。

std (r) = \sqrt{\frac{\underset{p &Element; r}{Σ} {(I (p) - \overset{&OverBar;}{I})}^{2}}{area (r)}} - - - (3)

等式3中，p是区域ri中的像素，I(p)是像素p的特征值，

是区域ri中所有像素的特征值的平均值，area(r)是区域ri中像素的数量。

关于diff(ri，rj)的计算可由如下等式4示出。

diff (ri, rj) = | {\overset{&OverBar;}{I}}_{ri} - {\overset{&OverBar;}{I}}_{rj} | - - - (4)

等式4中，

是区域中所有像素的特征值的平均值，|.|是范数，可以是1-范数

2-范数

或∞范数|X|_∞＝max(x_i)。

也就是说，Dense(ri)是一个区域中的特征的密度，所述区域中的特征越紧密，则Dense(ri)的值越高。diff(ri，rj)是两个区域间的相似性，两个区域差异越大，则diff(ri，rj)值越大。所以，较高的匹配度S意味着：分割后的每个图像区域中的特征具有一致性和独特性。而通常，每个3D平面具有一致的图像特征，而两个不同的3D平面具有不同的特征。因此，在根据不同的3D典型结构对当前图像进行分割并分别计算匹配度时，如果得到的某一匹配度越高，则意味着当前图像与其分割所根据的某一3D典型结构越匹配。所以，3D结构确定模块123根据所述匹配度，将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构。

随后，基于匹配的深度图生成模块根据确定的3D结构来生成当前图像的基于匹配的深度图，所述基于匹配的深度图中的每个像素在[0，1]范围内，表示当前2D图像中的相应像素的深度值。0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。本示例性实施例对场景占主要部分的图像能够产生较好的效果。

图4示出根据本发明的第二示例性实施例的生成深度图的设备。

参照图4，所述生成深度图的设备400可包括图像拾取装置410、显著性图生成模块420、基于显著性的深度图生成模块430、3D结构匹配模块120、基于匹配的深度图生成模块130和综合深度图生成模块440。其中，3D结构匹配模块120、基于匹配的深度图生成模块130与图1中具有相同标号的模块相同。

对生成深度图的设备400的输入是由多个图像组成的视频序列。图像拾取装置410从输入的视频中获得在时间上连续的多个2D图像。

根据HVP模型可知，观众对视频中的具有显著性的部分等更感兴趣，并且所述具有显著性部分通常距离观众更近(即，具有较小的深度)。因此，可识别出2D图像中的具有显著性的特征、运动或对象等，并根据这些识别出的特征、运动或对象等将[0，1]之间的深度值赋给每个像素以得到基于显著性的深度图。

为了识别图像中的具有显著性的特征、运动或对象，显著性图生成模块420可包括特征显著性图生成模块421、运动显著性图生成模块422、对象显著性图生成模块423和显著性图控制模块424，如图5所示。

特征显著性图生成模块421识别2D图像中的颜色、梯度或边缘特征等特征。例如，可使用Soble算子或Prewitt算子来识梯度特征、可使用拉普拉斯边缘检测算法来识别图像中的边缘特征。运动显著性图生成模块422通过识别时间上相邻的两副2D图像之间的运动来生成运动显著性图。对象显著性图生成模块423通过识别图像中的对象(诸如人像、人脸或文字)来生成对象显著性图，例如，可使用基于提升(boosting)算法的对象识别模型来识别图像中的人像和人脸。显著性图控制模块424使用特征显著性图生成模块、运动显著性图生成模块和对象显著性图生成模块中的一个、任意两个或全部，以生成一个、任意两个或全部显著性图。例如，如果视频序列中的2D图像中包含很多人像，则显著性图控制模块424使用的模块中可包括对象显著性图生成模块423。如果视频序列中的2D图像不包括人像、人脸或文字，而包括比较多的运动，则显著性图控制模块424使用的模块中可不包括对象显著性图生成模块423而包括运动显著性图生成模块422，等等。也就是说，可根据要处理的2D图像序列本身的特点来使用所述三种模块。

如果仅生成了对象显著性图，则基于显著性的深度图生成模块430将在(0，1)范围内的常数值(例如，0.8)赋给基于显著性的深度图中与2D图像中被识别为对象的像素相应的像素，将0赋给基于显著性的深度图中的其他像素。

如果生成了特征显著性图或运动显著性图中的一个，则基于显著性的深度图生成模块430根据特征显著性图或运动显著性图中每个像素的显著性将[0，1]范围内的值赋给基于显著性的深度图中的每个像素，0表示相应像素具有最小的显著性，1表示相应像素具有最大的显著性。例如，根据以不同的尺度在图像中的每个位置计算的中心像素或中心块的特征值与上、下、左和右邻近像素或邻近块的特征均值之间的差将[0，1]范围内的值赋给基于显著性的深度图中的每个像素。例如，假设使用颜色特征来生成特征显著性图，并且所述颜色特征是(R，G，B)矢量。则首先计算并记录单个像素的(R，G，B)矢量与周围的上、下、左和右邻近像素的(R，G，B)矢量的平均之间的差；随后，将尺度扩大到4*4的块，计算每个4*4块中的16个像素的(R，G，B)矢量的平均(称作中心平均)，并将周围的上、下、左和右邻近块的每块的(R，G，B)矢量的平均相加并计算平均(称作邻近平均)，然后计算并记录中心平均和邻近平均之间的差；接下来计算8*8块的中心平均和邻近平均之间的差...一直执行这种操作直到尺度扩大为整幅图像；最后，将每个像素的所有尺度的差相加并归一化到[0，1]的范围内，得到基于显著性的深度图。

如果生成了不包括对象显著性图的两个显著性图，则基于显著性的深度图生成模块430将生成的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素；

如果生成了包括对象显著性图的两个显著性图，则基于显著性的深度图生成模块430将(0，1)范围内的常数(例如，0.8)赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将两个显著性图中除对象显著性图以外的显著性图中的相应像素值赋给基于显著性的深度图中的其他相应像素。

如果生成了全部显著性图，则基于显著性的深度图生成模块430将(0，1)范围内的常数(例如，0.8)赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将除对象显著性图以外的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

综合深度图生成模块440通过将基于显著性的深度图和基于匹配的深度图中的相应像素值相加并归一化或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

图6示出根据本发明的将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图的效果图。

图7示出根据本发明的第三示例性实施例的对深度图进行平滑的设备700。

参照图7，对深度图进行平滑的设备700可包括图像拾取装置710、深度图拾取装置720和空域和时域平滑模块730。

图像拾取装置710从输入的由多个图像组成的视频序列中获得在时间上连续的多个2D图像，深度图拾取装置720可获得输入的与所述多个2D图像的每一个相应的初始深度图，初始深度图中的每个像素值是相应2D图像中相应像素的深度值。

根据HVP模型，人眼仅对处于图像中的边界处的大的深度变化敏感，而且如果在相邻帧之间存在快速的深度变化会使观众感到眩晕。所以，应该对初始深度图进行空域和时域平滑以生成使观众感觉舒服的深度图。

图8示出根据本发明的空域和时域平滑模块730。

参照图8，空域和时域平滑模块730包括平滑量计算模块731和平滑模块732。

图9是根据本发明的进行空域和时域平滑的示例。

参照图8和图9，平滑量计算模块731将在帧t中的像素P1(x，y，t)与在空域和时域上都与P1相邻的像素P2(x+Δx，y+Δy，t+Δt)的特征值(例如，颜色或纹理)进行比较。如果Δx，Δy和Δt的值设置的过大，则会平滑过度；反之，如果Δx，Δy和Δt的值设置的过小，则起不到平滑效果。所以，可根据期望得到的平滑效果来确定Δx，Δy和Δt的值，例如，Δx＝5，Δy＝5，Δt＝5可得到较适中的平滑效果。根据HVP模型，例如，在使用颜色作为特征的情况下，如果P1和P2的颜色相似，则P1和P2的深度也应该相似。因此，根据P1和P2的颜色来调整P1和P2的深度，使得平滑后的像素P1的深度值D′(P1)和像素P2的深度值D′(P2)之间的差的绝对值小于平滑前的像素P1的深度值D(P1)和像素P2的深度值D(P2)之间的差。

平滑量计算模块731可根据如下等式5来计算平滑量S。

S(P1，P2)＝(D(P1)-D(P2))*N(P1，P2)*C(P1，P2) (5)

等式5中，D(.)是像素的深度值。C(P1，P2)是像素P1和P2的特征值之间的差(即，相似性)，N(P1，P2)是根据(Δx，Δy，Δt)计算的P1和P2之间的距离。可根据如下等式6和7来计算C(P1，P2)和N(P1，P2)。

C (P 1, P 2) = \{\begin{matrix} 0.2, & | I (P 1) - I (P 2) | \leq 32 \\ 0, & | I (P 1) - I (P 2) | \leq 32 \end{matrix} - - - (6)

等式6中，I(.)是像素的特征的值，|.|是绝对值。

N (P 1, P 2) = \{\begin{matrix} 1, & | P 1, P 2 | < 1 \\ 0, & | P 1, P 2 | > 1 \end{matrix} - - - (7)

等式7中，

| P 1, P 2 | = \sqrt{{Δx}^{2} + Δ y^{2} + Δ t^{2}};

平滑模块732，根据所述平滑量S(P1，P2)来计算平滑后的当前2D图像的像素P1的深度值D′(P1)＝D(P1)-S(P1)。

对当前2D图像中的每个像素应用平滑量计算模块和平滑模块的功能，得到平滑后的当前2D图像的深度图。

图10是根据本发明的第四示例性实施例的生成深度图的设备1000。

生成深度图的设备1000包括图像拾取装置1010、显著性图生成模块420、基于显著性的深度图生成模块430、3D结构匹配模块120、基于匹配的深度图生成模块130、综合深度图生成模块440和空域和时域平滑模块730。显著性图生成模块420、基于显著性的深度图生成模块430与图4中示出的具有相同标号的模块相同。3D结构匹配模块120、基于匹配的深度图生成模块130与图1中示出的具有相同标号的模块相同。空域和时域平滑模块730与图7中示出的具有相同标号的模块相同。

图像拾取装置1010从输入的视频中获得时间上连续的多个2D图像。

图11是根据本发明的生成深度图的设备1000生成的深度图的示例。可以看出，根据本发明得到的深度图具有较好的效果。

图12是根据本发明的第五示例性实施例的生成基于匹配的深度图的方法的流程图。

参照图12，步骤S1210从输入的视频中获得在时间上连续的多个2D图像。步骤S1220计算当前2D图像与预先存储的3D典型结构的匹配度并将具有最高匹配度的3D典型结构确定为当前图像的3D结构。虽然预先存储的3D典型结构通常比现实中的场景的真实结构要简单，但由于人眼视觉系统的特点，仅根据简单的3D典型结构生成2D图像的深度图就可以给予观众比传统的2D视频好得多的3D感受。

为了从多个预先存储的3D典型结构中得到与当前图像最匹配的3D结构，需要计算当前2D图像与多个预先存储的3D典型结构的每一个的匹配度。

图13是根据本发明的计算匹配度的流程图。

参照图13，在步骤S1221中根据多个预先存储的3D典型结构中的一个将当前图像分割成至少一个平面。例如，当与当前图像与图2进行匹配的3D典型结构只有一个平面时，将当前图像的全部作为一个分割的区域；但是，当与当前图像与图2进行匹配的3D典型结构具有多个平面时，需要将当前图像的分割成与所述3D典型结构的各个平面相应的多个区域。随后，步骤S1221可使用等式1、等式2、等式3和等式4通过当前图像的每个区域中的特征(诸如颜色、梯度或边缘)来计算每个区域的密度和两两区域间的相似性来计算所述匹配度S。通过等式1计算的匹配度S如果越高，则意味着当前图像与其分割所根据的某一3D典型结构越匹配。所以，在步骤1225，将具有最高匹配度的3D典型结构确定为当前图像的3D结构。

随后，再参照图12，在步骤1230中根据确定的3D结构来生成当前图像的基于匹配的深度图，所述基于匹配的深度图中的每个像素在[0，1]范围内，表示当前2D图像中的相应像素的深度值。0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。本示例性实施例对场景占主要部分的图像能够产生较好的效果。

图14是根据本发明的第六示例性实施例的生成基于显著性的深度图的流程图。

参照图14，在步骤S1410中从输入的视频中获得在时间上连续的多个2D图像。

在步骤S1420中生成特征显著性图、运动显著性图和对象显著性图中一个、任意两个或全部显著性图，其中，通过识别2D图像中的特征(诸如颜色、梯度或边缘特征)来生成特征显著性图，通过识别时间上相邻的两副2D图像之间的运动来生成运动显著性图，通过识别2D图像中的对象(诸如人像、人脸或文字)来生成对象显著性图。

如果在步骤S1420仅生成了对象显著性图，则在步骤S1430中将在(0，1)范围内的常数值(例如，0.8)赋给基于显著性的深度图中与2D图像中被识别为对象的像素相应的像素，将0赋给基于显著性的深度图中的其他像素。

如果在步骤S1420生成了特征显著性图或运动显著性图中的一个，则在步骤S1430中根据特征显著性图或运动显著性图中每个像素的显著性将[0，1]范围内的值赋给基于显著性的深度图中的每个像素，0表示相应像素具有最小的显著性，1表示相应像素具有最大的显著性。例如，根据以不同的尺度在图像中的每个位置计算的中心像素或中心块的特征值与上、下、左和右邻近像素或邻近块的特征均值之间的差将将[0，1]范围内的值赋给基于显著性的深度图中的每个像素。

如果在步骤S1420生成了不包括对象显著性图的两个显著性图，则在步骤S1430中将两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

如果在步骤S1420生成了包括对象显著性图的两个显著性图，则在步骤S1430中将(0，1)范围内的常数(例如，0.8)赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将所述两个显著性图中除对象显著性图以外的显著性图中的相应像素值赋给基于显著性的深度图中的其他相应像素。

如果在步骤S1420生成了全部显著性图，则在步骤S1430中将(0，1)范围内的常数(例如，0.8)赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将除对象显著性图以外的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

步骤S1440与图12中的步骤S1220相同，步骤S1450与图12中的步骤S1230相同。

在步骤S1460中，通过将在步骤1430中生成的基于显著性的深度图和在步骤1450中生成的基于匹配的深度图中的相应像素值相加并归一化或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

图15是根据本发明的第七示例性实施例的对深度图进行平滑的方法流程图。

参照图15，在步骤S1510中，从输入的由多个图像组成的视频序列中获得在时间上连续的多个2D图像。

在步骤S1520中获得输入的与每个2D图像相应的初始深度图，所述初始深度图中的每个像素值是相应2D图像中相应像素的深度值。

再参照图9，在步骤S1530中，将在帧t中的像素P1(x，y，t)与在空域和时域上都与P1相邻的像素P2(x+Δx，y+Δy，t+Δt)的特征值(例如颜色或纹理)进行比较。根据期望得到的平滑效果，确定Δx，Δy和Δt的值。根据HVP模型，例如，在使用颜色作为特征的情况下，则如果P1和P2的颜色相似，则P1和P2的深度也应该相似。因此，根据P1和P2的颜色来调整P1和P2的深度，使得平滑后的像素P1的深度值D′(P1)和像素P2的深度值D′(P2)之间的差的绝对值小于平滑前的像素P1的深度值D(P1)和像素P2的深度值D(P2)之间的差。

可根据等式5、等式6和等式7来计算平滑量S。

随后，根据所述平滑量S(P1，P2)来计算平滑后的当前2D图像的像素P1的深度值D′(P1)＝D(P1)-S(P1)。

对当前2D图像中的每个像素计算平滑量S并进行平滑，得到平滑后的当前2D图像的深度图。

参照图16，在步骤S1610中，从输入的由多个图像组成的视频序列中获得在时间上连续的多个2D图像。步骤S1620、步骤S1630、步骤S1640、步骤S1650和步骤S1660分别与图14中的步骤S1420、步骤S1430、步骤S1440、步骤S1450和步骤S1460相同。步骤S1670与图15中的步骤S1530相同。

虽然参照本发明的示例性实施例具体示出和描述了本发明，但是本领域普通技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可对其进行形式和细节的各种改变。

Claims

1.一种生成深度图的设备，包括：

图像拾取装置，从输入的视频中获得时间上连续的多个2D图像；

3D结构匹配模块，计算所述多个2D图像中当前2D图像与多个在该3D结构匹配模块中预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；

基于匹配的深度图生成模块，预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值。

2.如权利要求1所述的设备，其中，所述基于匹配的深度值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

3.如权利要求1所述的设备，其中，所述3D结构匹配模块还包括：

平面分割模块，将当前2D图像分割成与进行匹配的3D典型结构中的平面相应的至少一个区域；

匹配度计算模块，根据每个所述区域中的特征的分布来计算每个所述区域的密度；计算每个所述区域中的特征的平均值，并根据所述平均值之间的差的范数来计算两两区域间的相似性；根据每个所述区域的密度和所述两两区域间的相似性的和来计算匹配度；

3D结构确定模块，根据所述匹配度，将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构。

4.如权利要求3所述的设备，其中，匹配度计算模块根据来计算每个所述区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，

5.如权利要求3所述的设备，其中，匹配度计算模块根据

来计算区域ri和区域rj间的相似性，其中，

是所述区域中的特征的平均值，|.|是范数。

6.如权利要求3、权利要求4或权利要求5所述的设备，其中，所述特征是颜色、梯度或边缘。

7.如权利要求5所述的设备，其中，所述范数是1-范数、2-范数或∞范数。

8.一种生成深度图的设备，包括：

显著性图生成模块，根据HVP模型生成与所述多个2D图像中当前2D图像相应的至少一个显著性图，所述显著性图的每个像素表示当前2D图像中的相应像素的显著性；

基于显著性的深度图生成模块，使用所述至少一个显著性图生成与当前2D图像相应的基于显著性的深度图，所述基于显著性的深度图的每个像素表示当前2D图像中的相应像素的基于显著性的深度值；

基于匹配的深度图生成模块，预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值；

综合深度图生成模块，将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值。

9.如权利要求8所述的设备，其中，所述显著性图生成模块包括：

特征显著性图生成模块，通过识别当前2D图像中的特征来生成特征显著性图；

运动显著性图生成模块，通过识别当前2D图像和与当前2D图像在时间上相邻的2D图像之间的运动来生成运动显著性图；

对象显著性图生成模块，通过识别当前2D图像中的对象来生成对象显著性图；

显著性图控制模块，使用特征显著性图生成模块、运动显著性图生成模块和对象显著性图生成模块中的一个、任意两个或全部，以生成一个、任意两个或全部显著性图。

10.如权利要求9所述的设备，其中，基于显著性的深度图生成模块通过以下处理生成基于显著性的深度图：

如果显著性图生成模块仅生成了对象显著性图，则基于显著性的深度图生成模块将在(0，1)范围内的常数值赋给基于显著性的深度图中与2D图像中被识别为对象的像素相应的像素，将0赋给基于显著性的深度图中的其他像素；

如果显著性图生成模块生成了特征显著性图或运动显著性图中的一个，则基于显著性的深度图生成模块根据特征显著性图或运动显著性图中每个像素的显著性将[0，1]范围内的值赋给基于显著性的深度图中的每个像素，0表示相应像素具有最小的显著性，1表示相应像素具有最大的显著性；

如果显著性图生成模块生成了不包括对象显著性图的两个显著性图，则基于显著性的深度图生成模块将所述两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素；

如果显著性图生成模块生成了包括对象显著性图的两个显著性图，则基于显著性的深度图生成模块将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将两个显著性图中除对象显著性图以外的显著性图中的相应像素值赋给基于显著性的深度图中的其他相应像素；

如果显著性图生成模块生成了全部显著性图，则基于显著性的深度图生成模块将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将除对象显著性图以外的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

11.如权利要求8所述的设备，其中，所述3D结构匹配模块还包括：

12.如权利要求11所述的设备，其中，匹配度计算模块根据

来计算所述每个区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，

13.如权利要求11所述的设备，其中，匹配度计算模块根据

来计算区域ri和区域rj间的相似性，其中，

是所述区域中的特征的平均值，|.|是范数。

14.如权利要求11、权利要求12或权利要求13所述的设备，其中，所述特征是颜色、梯度或边缘。

15.如权利要求13所述的设备，其中，所述范数是1-范数、2-范数或∞范数。

16.如权利要求8所述的设备，其中，基于显著性的深度图和基于匹配的深度图的像素值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

17.如权利要求8所述的设备，其中，所述综合深度图生成模块通过将基于显著性的深度图和基于匹配的深度图中的相应像素的相加并归一化的值或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

18.如权利要求9所述的设备，其中，所述当前2D图像中的对象包括人像、人脸或文字。

19.一种对深度图进行平滑的设备，包括：

初始深度图拾取装置，获得输入的与所述多个2D图像中每个2D图像相应的初始深度图，所述深度图中的每个像素值是相应2D图像中相应像素的深度值；以及

空域和时域平滑模块，对初始深度图进行空域和时域上的平滑。

20.如权利要求19所述的设备，其中，所述空域和时域平滑模块还包括：

平滑量计算模块，根据HVP模型，根据在时刻t的当前2D图像中的每个像素P1(x，y，t)和在时刻(t+Δt)的2D图像中的像素P2(x+Δx，y+Δy，t+Δt)之间的相似性、距离和深度值的差来计算平滑量S(P1，P2)，其中，根据期望的平滑效果确定Δx，Δy和Δt的值；

平滑模块，根据所述平滑量S(P1，P2)来计算平滑后的当前2D图像的像素P1的深度值D′(P1)＝D(P1)-S(P1)，所述平滑量S(P1，P2)使得平滑后的像素P1的深度值D′(P1)和像素P2的深度值D′(P2)＝D(P2)+S(P1，P2)之间的差的绝对值小于平滑前的像素P1的深度值D(P1)和像素P2的深度值D(P2)之间的差的绝对值。

21.如权利要求20所述的设备，其中，平滑量计算模块根据(D(P1)-D(P2))*N(P1，P2)*C(P1，P2)来计算所述平滑量S(P1，P2)，其中，

D(.)是像素的深度值；

N (P 1, P 2) = \{\begin{matrix} 1, & | P 1, P 2 | < 1 \\ 0, & | P 1, P 2 | > 1 \end{matrix},

其中

| P 1, P 2 | = \sqrt{{Δx}^{2} + Δ y^{2} + Δ t^{2}};

其中I(.)是像素的特征的值，|.|是绝对值。

22.如权利要求21所述的设备，其中，所述特征是颜色或纹理。

23.一种生成深度图的设备，包括：

综合深度图生成模块，将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值；以及

空域和时域平滑模块，对综合深度图进行空域和时域上的平滑。

24.如权利要求23所述的设备，其中，所述显著性图生成模块包括：

25.如权利要求24所述的设备，其中，基于显著性的深度图生成模块通过以下处理生成基于显著性的深度图：

26.如权利要求23所述的设备，其中，所述3D结构匹配模块还包括：

匹配度计算模块，根据每个所述区域中的特征的分布来计算每个区域的密度；计算每个所述区域中的特征的平均值，并根据所述平均值之间的差的范数来计算两两区域间的相似性；根据每个所述区域的密度和所述两两区域间的相似性的和来计算匹配度；

27.如权利要求26所述的设备，其中，匹配度计算模块根据

来计算所述每个区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，

28.如权利要求27所述的设备，其中，匹配度计算模块根据

来计算区域ri和区域rj间的相似性，其中，是所述区域中的特征的平均值，|.|是范数。

29.如权利要求26、权利要求27或权利要求28所述的设备，其中，所述特征是颜色、梯度或边缘。

30.如权利要求28所述的设备，其中，所述范数是1-范数、2-范数或∞范数。

31.如权利要求23所述的设备，其中，基于显著性的深度图和基于匹配的深度图的像素值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

32.如权利要求23所述的设备，其中，所述综合深度图生成模块通过将基于显著性的深度图和基于匹配的深度图中的相应像素相加并归一化或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

33.如权利要求23所述的设备，其中，所述当前2D图像中的对象包括人像、人脸或文字。

34.如权利要求23所述的设备，其中，所述空域和时域平滑模块还包括：

35.如权利要求34所述的设备，其中，平滑量计算模块根据(D(P1)-D(P2))*N(P1，P2)*C(P1，P2)来计算平滑量S(P1，P2)，其中，

D(.)是像素的深度值；

N (P 1, P 2) = \{\begin{matrix} 1, & | P 1, P 2 | < 1 \\ 0, & | P 1, P 2 | > 1 \end{matrix},

其中

| P 1, P 2 | = \sqrt{{Δx}^{2} + Δ y^{2} + Δ t^{2}};

其中I(.)是像素的特征的值，|.|是绝对值。

36.如权利要求35所述的设备，其中，所述特征是颜色或纹理。

37.一种生成深度图的方法，包括：

从输入的视频中获得时间上连续的多个2D图像；

计算所述多个2D图像中当前2D图像与多个预先存储的3D典型结构的每一个的匹配度，并将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构；

预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值。

38.如权利要求37所述的方法，其中，所述基于匹配的深度值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

39.如权利要求37所述的方法，其中，所述确定当前2D图像的3D结构还包括：

将当前2D图像分割成与进行匹配的3D典型结构中的平面相应的至少一个区域；

根据每个所述区域中的特征的分布来计算每个所述区域的密度；计算每个所述区域中的特征的平均值，并根据所述平均值之间的差的范数来计算两两区域间的相似性；根据每个所述区域的密度和所述两两区域间的相似性的和来计算匹配度；以及

根据所述匹配度，将具有最高匹配度的3D典型结构确定为当前2D图像的3D结构。

40.如权利要求39所述的方法，其中，根据

来计算每个所述区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，

41.如权利要求39所述的方法，其中，根据

来计算区域ri和区域rj间的相似性，其中，

是所述区域中的特征的平均值，|.|是范数。

42.如权利要求39、权利要求40或权利要求41所述的方法，其中，所述特征是颜色、梯度或边缘。

43.如权利要求41所述的方法，其中，所述范数是1-范数、2-范数或∞范数。

44.一种生成深度图的方法，包括：

从输入的视频中获得时间上连续的多个2D图像；

根据HVP模型生成与所述多个2D图像中当前2D图像相应的至少一个显著性图，所述显著性图的每个像素表示当前2D图像中的相应像素的显著性；

使用所述至少一个显著性图生成与当前2D图像相应的基于显著性的深度图，所述基于显著性的深度图的每个像素表示当前2D图像中的相应像素的基于显著性的深度值；

预先存储所述3D典型结构的深度图，并将被确定为当前2D图像的3D结构的3D典型结构的深度图作为与当前2D图像相应的基于匹配的深度图，所述基于匹配的深度图中的每个像素表示当前2D图像中的相应像素的基于匹配的深度值；以及

将基于显著性的深度图和基于匹配的深度图进行结合以生成综合深度图，所述综合深度图中的每个像素表示当前2D图像中的相应像素的综合深度值。

45.如权利要求44所述的方法，其中，所述显著性图的生成包括：

生成特征显著性图、运动显著性图和对象显著性图中的一个、任意两个或全部，其中，通过识别当前2D图像中的特征来生成特征显著性图，通过识别当前2D图像和与当前2D图像在时间上相邻的2D图像之间的运动来生成运动显著性图，以及通过识别当前2D图像中的对象来生成对象显著性图。

46.如权利要求45所述的方法，其中，所述基于显著性的深度图的生成包括：

如果仅生成了对象显著性图，则将在(0，1)范围内的常数值赋给基于显著性的深度图中与2D图像中被识别为对象的像素相应的像素，将0赋给基于显著性的深度图中的其他像素；

如果生成了特征显著性图或运动显著性图中的一个，则根据特征显著性图或运动显著性图中每个像素的显著性将[0，1]范围内的值赋给基于显著性的深度图中的每个像素，0表示相应像素具有最小的显著性，1表示相应像素具有最大的显著性；

如果生成了不包括对象显著性图的两个显著性图，则将两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素；

如果生成了包括对象显著性图的两个显著性图，则将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将两个显著性图中除对象显著性图以外的显著性图中的相应像素值赋给基于显著性的深度图中的其他相应像素；

如果生成了全部显著性图，则将(0，1)范围内的常数赋给基于显著性的深度图中与对象显著性图中的识别出的每个对象中的像素相应的像素，并且将除对象显著性图以外的两个显著性图中的相应像素的相加并归一化的值或较大的值赋给基于显著性的深度图中的相应像素。

47.如权利要求44所述的方法，其中，所述确定当前2D图像的3D结构还包括：

48.如权利要求47所述的方法，其中，根据

来计算所述每个区域r的密度，其中，

p是所述区域中的像素，I(p)是像素p的特征值，

49.如权利要求47所述的方法，其中，根据

来计算区域ri和区域rj间的相似性，其中，

是所述区域中的特征的平均值，|.|是范数。

50.如权利要求47、权利要求48或权利要求49所述的方法，其中，所述特征是颜色、梯度或边缘。

51.如权利要求49所述的方法，其中，所述范数是1-范数、2-范数或∞范数。

52.如权利要求44所述的方法，其中，基于显著性的深度图和基于匹配的深度图的像素值在[0，1]范围内，0表示相应像素具有最大的深度，1表示相应像素具有最小的深度。

53.如权利要求44所述的方法，其中，通过将基于显著性的深度图和基于匹配的深度图中的相应像素值相加并归一化或选择基于显著性的深度图和基于匹配的深度图中的相应像素中较大的值来生成综合深度图。

54.如权利要求45所述的方法，其中，所述当前2D图像中的对象包括人像、人脸或文字。

55.一种对深度图进行平滑的方法，包括：

从输入的视频中获得时间上连续的多个2D图像；

获得输入的与所述多个2D图像中每个2D图像相应的初始深度图，所述深度图中的每个像素值是相应2D图像中相应像素的深度值；以及

对初始深度图进行空域和时域上的平滑。

56.如权利要求55所述的方法，其中，对初始深度图进行空域和时域上的平滑包括：

根据HVP模型，根据在时刻t的当前2D图像中的每个像素P1(x，y，t)和在时刻(t+Δt)的2D图像中的像素P2(x+Δx，y+Δy，t+Δt)之间的相似性、距离和深度值的差来计算平滑量S(P1，P2)，其中，根据期望的平滑效果确定Δx，Δy和Δt的值；

根据所述平滑量S(P1，P2)来计算平滑后的当前2D图像的像素P1的深度值D′(P1)＝D(P1)-S(P1)，所述平滑量S(P1，P2)使得平滑后的像素P1的深度值D′(P1)和像素P2的深度值D′(P2)＝D(P2)+S(P1，P2)之间的差的绝对值小于平滑前的像素P1的深度值D(P1)和像素P2的深度值D(P2)之间的差的绝对值。

57.如权利要求56所述的方法，其中，根据(D(P1)-D(P2))*N(P1，P2)*C(P1，P2)来计算所述平滑量S(P1，P2)，其中，

D(.)是像素的深度值；