CN113129353A - 深度估计方法和装置 - Google Patents

深度估计方法和装置 Download PDF

Info

Publication number
CN113129353A
CN113129353A CN202010046284.3A CN202010046284A CN113129353A CN 113129353 A CN113129353 A CN 113129353A CN 202010046284 A CN202010046284 A CN 202010046284A CN 113129353 A CN113129353 A CN 113129353A
Authority
CN
China
Prior art keywords
sub
images
image
pixels
parallax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010046284.3A
Other languages
English (en)
Inventor
俞佳茜
陈一伟
徐静涛
韩在濬
俞炳仁
李韩娥
崔昌圭
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN202010046284.3A priority Critical patent/CN113129353A/zh
Priority to KR1020200172465A priority patent/KR20210092669A/ko
Priority to US17/146,752 priority patent/US11663728B2/en
Publication of CN113129353A publication Critical patent/CN113129353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/564Depth or shape recovery from multiple images from contours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种深度估计方法和装置,所述深度估计方法包括:获取图像,其中,所述图像的像素具有多个子像素;基于所述图像来获取多个子图像,其中,所述子图像的像素为所述子像素;获取子图像之间的视差;以及基于子图像之间的视差来获取所述图像的深度。

Description

深度估计方法和装置
技术领域
本发明涉及图像处理领域,更具体地,涉及一种深度估计方法和装置。
背景技术
随着便携式电子装置(诸如,智能电话、平板电脑等)的日益发展,其相机是否能够满足使用需求已经成为用户选择产品时最重要的衡量指标之一。此外,由于专业相机存在使用难度、市场价格、携带方便程度等局限性,如何使用便携式电子装置的相机模拟专业相机的拍照效果也已经成为便携式电子装置相机的功能开发的重要课题。
在专业相机的众多拍照效果中,其多样化的景深效果是区别于便携式电子装置的相机的最显著特征之一。景深是指相机能够获取清晰的被摄物体前后的距离范围。例如,在拍摄人像时,较小的景深可以使得对焦中的人像清晰,而景深距离之外的背景模糊,使得照片呈现出一种突出人像的立体感。再例如,拍摄带人物的风景照时,较大的景深可以使得人像和较远的背景同时清晰,既突出了人像又保留了风景。专业相机基于其硬件的优势,往往可以提供范围比较大的景深选择,使得用户在不同拍照场景下,根据需求,选择不同的光圈大小和焦距,以达到不同景深的拍照效果。由于便携式电子装置的相机的硬件局限,无法达到与专业相机同等水平的光圈和焦距,从而无法呈现多样化的景深效果,故需要通过算法在便携式电子装置上模拟这样的效果。
在便携式电子装置上模拟的专业相机景深效果通常称之为散焦模式或散焦效果(Bokeh Effect)。在现有技术中,散焦效果通常可通过图像分割、基于单目或双目的深度估计等方法来实现,将拍摄主体从图像分离,并将将主体以外的内容(诸如,背景)模糊化。然而,这些现有方法存在无法获得与真实场景对应的合理效果、无法区分真实3D场景和假性3D场景(诸如,高质量打印的照片、播放的影片等)、无法计算有效的深度信息以及对硬件要求高并且功耗大等缺点。
发明内容
根据本发明的示例性实施例,提供了一种深度估计方法,包括:获取图像,其中,所述图像的像素具有多个子像素;基于所述图像来获取多个子图像,其中,所述子图像的像素为所述子像素;获取子图像之间的视差;以及基于子图像之间的视差来获取所述图像的深度。
获取子图像之间的视差的步骤可包括:将所述多个子图像两两配对,并获取两两配对的子图像之间的视差。
获取子图像之间的视差的步骤还可包括如下中的至少一种:获取输入的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;对输入的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;对输入的两两配对的子图像进行位移,获取位移后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;对输入的两两配对的子图像进行位移,对位移后的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差。
可按照相反方向和/或相同位移值来对输入的两两配对的子图像进行位移。
基于所述差值获取子图像之间的视差的步骤可包括:将所述差值与预定常数进行比较,根据比较结果来确定子图像之间的视差。
所述深度估计方法还可包括:基于所述多个子图像来获取所述图像的边缘检测图和/或图像分割图。
所述多个子图像可以为四个子图像。
所述四个子图像可包括由在每个像素中处于左上位置的子像素构成的左上子图像、由在每个像素中处于左下位置的子像素构成的左下子图像、由在每个像素中处于右上位置的子像素构成的右上子图像以及由在每个像素中处于右下位置的子像素构成的右下子图像。
根据本发明的示例性实施例,提供了一种深度估计装置,包括:图像获取单元,获取图像,其中,所述图像的像素具有多个子像素;子图像获取单元,基于所述图像来获取多个子图像,其中,所述子图像的像素为所述子像素;视差获取单元,获取子图像之间的视差;以及深度估计单元,基于子图像之间的视差来获取所述图像的深度。
视差获取单元可将所述多个子图像两两配对,并获取两两配对的子图像之间的视差。
视差获取单元还可进行如下操作中的至少一种:获取输入的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;对输入的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;对输入的两两配对的子图像进行位移,获取位移后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;对输入的两两配对的子图像进行位移,对位移后的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差。
视差获取单元可按照相反方向和/或相同位移值来对输入的两两配对的子图像进行位移。
视差获取单元可将所述差值与预定常数进行比较,根据比较结果来确定子图像之间的视差。
所述深度估计装置还可包括:边缘检测图和/或图像分割图获取单元,基于所述多个子图像来获取所述图像的边缘检测图和/或图像分割图。
所述多个子图像可以为四个子图像。
所述四个子图像可包括由在每个像素中处于左上位置的子像素构成的左上子图像、由在每个像素中处于左下位置的子像素构成的左下子图像、由在每个像素中处于右上位置的子像素构成的右上子图像以及由在每个像素中处于右下位置的子像素构成的右下子图像。
根据本发明的示例性实施例,提供了一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。
根据本发明的示例性实施例,提供了一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合附图进行的详细描述,本发明的上述和其它目的和特点将会变得更加清楚,其中:
图1是示出根据本发明示例性实施例的深度估计方法的流程图;
图2是示出根据本发明示例性实施例的全像素四核相机的图像传感器的示意图;
图3是示出根据本发明示例性实施例的子图像合成的示意图;
图4是示出根据本发明示例性实施例的视差计算的示意图;
图5是示出根据本发明示例性实施例的四种视差计算方式的示意图;
图6是示出根据本发明示例性实施例的处于与相机不同距离的物体的示意图;
图7是示出根据本发明示例性实施例的合成深度图的示意图;
图8是示出根据本发明示例性实施例的总体深度估计方法的示意图;
图9是示出根据本发明示例性实施例的第三神经网络的边缘提取的示意图;
图10是示出根据本发明示例性实施例的第四神经网络的图像分割的示意图;
图11是示出根据本发明示例性实施例的多任务学习网络的示意图;
图12是示出根据本发明示例性实施例的总体深度估计方法的训练阶段的示意图;
图13是示出根据本发明示例性实施例的总体深度估计方法的测试阶段的示意图;
图14是示出根据本发明示例性实施例的深度估计装置的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1是示出根据本发明示例性实施例的深度估计方法的流程图。
参照图1,在步骤S110,可获取图像,其中,所述图像的像素具有多个子像素,这里,所述图像的每个像素可均具有多个子像素。这里,可基于具有相位检测(即,相位自动对焦)功能的相机来获取图像,应注意,所述相机可以为任意便携式终端(诸如,智能电话、平板电脑等)上安装的相机。更具体地,全像素多核(诸如,全像素双核、全像素四核等)技术作为实现相位检测功能的一种方式,可由仅作为示例而非限制的全像素四核相机来获取图像。全像素四核相机的图像传感器可在每个像素同时生成四个子像素。
图2是示出根据本发明示例性实施例的全像素四核相机的图像传感器的示图,如图2的(a)所示,斜线和空白的方框表示图像传感器可采用拜耳阵列(Bayer Pattern)(诸如,RGGB列阵)为每个像素提供三个通道(诸如,R、G、B)的信息,每个通道的像素又均包括2*2的四个子像素,可将其称为四倍拜耳阵列,并可如图2的(a)的右侧所示将对四倍拜耳阵列进行阵列转换;图2的(b)同样示出了由四个子像素构成一个像素的四倍拜耳阵列。相应地,在采用全像素四核相机获取图像的情况下,所述多个子像素可为四个子像素。
在步骤S120,可基于所述图像来获取多个子图像(子图像也可以称为相位图),其中,所述子图像的像素为所述子像素。更具体地,可将获取的图像依照拜耳阵列的规律进行处理以获得多个子图像,即,可将在每个像素中处于对应位置的子像素合成为子图像,仅作为示例而非限制,这里的对应位置可以为相同位置。具有相位自动对焦功能的相机在对场景拍照后可以提供多种原始数据输出方式,比如彩色图像(诸如,RGB图像)和相位图(Phaseimage),其中RGB图像即通常的输出图,最终图像上每个像素值来自拜耳排列的RGGB三原色信息,而RGB三个通道的每个信息又由多个子像素的差值合成。另一种数据格式即相位图可以看成为一张单通道的“灰度图”,直接输出原始像素值。通过处理,可以分离出与拜耳阵列中子像素数量相同的子图像。对于全像素四核技术也就是四倍拜耳阵列,可分离出四个子图像。图3是示出根据本发明示例性实施例的子图像合成的示意图,如图3所示,在如上所述使用全像素四核相机获取图像的情况下可获得四个子图像,即,可将在每个像素中处于左上位置的子像素合成为左上子图像,将在每个像素中处于左下位置的子像素合成为左下子图像,将在每个像素中处于右上位置的子像素合成为右上子图像,并将在每个像素中处于右下位置的子像素合成为右下子图像。因此,所述四个子图像可包括由在每个像素中处于左上位置的子像素构成的左上子图像、由在每个像素中处于左下位置的子像素构成的左下子图像、由在每个像素中处于右上位置的子像素构成的右上子图像以及由在每个像素中处于右下位置的子像素构成的右下子图像。此外,应该理解,在如上所述使用全像素四核相机获取图像的情况下,可获得左上子图像、左下子图像、右上子图像和右下子图像中的一部分子图像或全部子图像用于下面的步骤。
在步骤S130,可获取子图像之间的视差。更具体地,可将所述多个子图像两两配对,并获取两两配对的子图像之间的视差。图4是示出根据本发明示例性实施例的视差计算的示意图,如图4所示,可将所述多个子图像两两配对输入到第一神经网络。这里,仅作为示例而非限制,第一神经网络可以为卷积神经网络。此外,仅作为示例而非限制,按照位置关系,将左上子图像和右上子图像配对可用于计算垂直方向视差dtx,将左下子图像和右下子图像配对可用于计算垂直方向视差dbx,将左上子图像和左下子图像配对可用于计算水平方向视差dly,将右上子图像和右下子图像配对可用于计算水平方向视差dry,将左上子图像和右下子图像配对可用于计算对角线方向视差dlr,将右上子图像和左下子图像配对可用于计算对角线方向视差drl。在获得视差(也可称为视差特征)之后,可进而获得视差图。应该了解,可使用上述配对中的全部或部分用于下面的步骤。
更具体地,步骤S130可包括将所述多个子图像两两配对输入到多个第一神经网络以通过第一神经网络使用如下等式计算视差。图5是示出根据本发明示例性实施例的四种视差计算方式的示意图,如图5所示,图5中的(a)对应于等式(1),表示获取输入的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;图5中的(b)对应于等式(2),表示对输入的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;图5中的(c)对应于等式(3),表示对输入的两两配对的子图像进行位移,获取位移后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差,这里,仅作为示例而非限制,可按照相反方向和/或相同位移值来对输入的两两配对的子图像进行位移;图5中的(d)对应于等式(4),表示对输入的两两配对的子图像进行位移,对位移后的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差。此外,等式(1)、(2)、(3)、(4)中的基于所述差值获取子图像之间的视差的步骤可包括:将所述差值与预定常数α进行比较,根据比较结果来确定子图像之间的视差;根据比较结果来确定子图像之间的视差的步骤可包括:将所述差值与预定常数α中的较大值作为视差。应该理解,仅作为示例而非限制,这里的对应位置可以为相同位置。
Idiff=max(α,I1-I2) (1)
Idiff=max(α,conv(I1)-conv(I2)) (2)
Idiff=max(α,shift(I1,1/2d)-shift(I2,-1/2d)) (3)
Idiff=max(α,conv(shift(I1,1/2d))-conv(shift(I2,-1/2d))) (4)
其中,I1和I2分别表示配对的两个子图像;max表示取最大值操作;α为预定常数,仅作为示例而非限制,可将α取值为0(如果α取值为0,则公式0等价于取子图像I1和子图像I2的对应位置的子像素的差值中的正数值);conv表示卷积操作;shift表示位移操作;d表示位移操作的位移值,其为常数(仅作为示例而非限制,如果d取值为2,则公式0表示将子图像I1向上(或向下)移动1个子像素位置,将子图像I2向下(或向上)移动1个子像素位置)。
如果存在零视差点(与物体到相机的距离有关),则处于该位置的物体在配对的两个子图像中的成像位置相同,没有视差。此时经过上述计算,处于该位置的图像特征被大幅度减少,如图5中的(a)所示,位于中间的物体在零视差点位置,视差图中该物体的图像特征大幅度减少。
返回图1,在步骤S140,可基于子图像之间的视差来获取所述图像的深度。更具体地,可将子图像之间的视差输入到第二神经网络以估计所述图像的深度,从而得到所述图像的深度图。这里,仅作为示例而非限制,第二神经网络可以为卷积神经网络。更具体地,假设相机参数固定,对于物体在距离相机不同距离的位置,视差与深度是一一对应的,即,可根据视差估计物体的不同深度顺序,并从而获得深度图。图6是示出根据本发明示例性实施例的处于与相机不同距离的物体的示意图。如图6所示,用D(z)表示物体S处于距离z时该物体在两个子图像中的视差,f表示相机的对焦距离,可得知D(f)=0,而在z≠f的任意距离z,D(z)≠0,并且在z1<f<z2的情况下D(z1)<D(f)=0<D(z2),从而可通过视差的关系来获得图像中物体的相对深度,并进一步获得相对深度图。图7是示出根据本发明示例性实施例的合成深度图的示意图。如图7所示,可通过以上方式,根据物体的视差关系来获得图像的相对深度图。此外,还可根据视差与深度之间的一一对应获得图像的绝对深度图。
图8是示出根据本发明示例性实施例的总体深度估计方法的示意图。如图8所示,可使用第一神经网络和第二神经网络分别进行视差计算和深度估计步骤,从而获得深度图。此外,还可使用获得的深度图对第一神经网络和第二神经网络进行端到端训练,在训练时,由于没有视差特征的标定数据,两个神经网络为同时训练学习,但不必有相同的网络结构,不共享参数。
此外,如图1所示的根据本发明示例性实施例的深度估计方法还可基于所述多个子图像来获取所述图像的边缘检测图。此外,还可基于子图像之间的视差来获取所述图像的边缘检测图。更具体地,可将所述多个子图像输入到第三神经网络来获取所述图像的边缘检测图。这里,仅作为示例而非限制,第三神经网络可以为卷积神经网络。也就是说,在对第三神经网络进行训练时,可采用多任务训练的方式,增强图像的边缘检测的提取。图像的边缘检测是计算机视觉任务中非常重要的特征,在视差图深度估计任务中,边缘的视差特征往往更加明显。可通过多任务训练的方式,增强第二神经网络和第三神经网络对有效特征的提取。例如,在子图像视差特征检测时,可以明显观察到前景物体与背景之间的位移差。直接利用深度神经网络进行端到端学习,难以有针对性的提取到这一特征。若在训练时加入利用前后背景的边缘图的辅助监督学习,可以协助网络更好地提取这一特征。这里,仅作为示例而非限制,第三神经网络可以通过off-shelf的方式训练得到,即训练此网络模型不必与第二神经网络同时进行,训练第三神经网络使用的数据集不必与第二神经网络相同。第三神经网络的输入可以为单张彩色RGB图像,输出为所述图像的边缘检测图。但是已有的边缘检测算法会提取出场景内有所的边缘信息,因此这里可采用人工合成图像,合成仅针对前后背景分界的边缘检测图并训练第三神经网络,并根据所需情况生成前后背景图以及前后背景边缘检测图。图9是示出根据本发明示例性实施例的第三神经网络的边缘提取的示意图。如图9中的(a)所示,从左至右分别表示含有人脸的图像、含有人脸的图像在真实场景中出现、应用传统边缘检测算法提取整个场景边缘检测的结果和应用根据本发明的示例性实施例提供的方法提取的结果;如图9中的(b)所示,在对第三神经网络进行(图9中的(b)中的Encoder-Decoder即为第三神经网络的结构)训练时,输入人工合成的彩色图像,输出匹配的合成的真值边缘检测图;在第三神经网络测试时,输入真实场景的彩色图像,输出预测的边缘检测图,该预测的边缘检测图仅包含期望的边缘;如图9中的(c)所示,训练后的第三神经网络可以在真实数据中提取到预期的有效的边缘特征。
此外,如图1所示的根据本发明示例性实施例的深度估计方法还可基于所述多个子图像来获取所述图像的图像分割图。此外,还可基于子图像之间的视差来获取所述图像的图像分割图。更具体地,可将所述多个子图像输入到第四神经网络来获取所述图像的图像分割图。这里,仅作为示例而非限制,第四神经网络可以为卷积神经网络。与上述的图像边缘检测类似,在基于视差获得深度的任务中,前景的分割也可以辅助网络提高对有效图像特征的提取效率。与边缘检测任务类似,第四神经网络也可以通过off-shelf的方式训练得到。图10是示出根据本发明示例性实施例的第四神经网络的图像分割图的示意图。如图10所示,第四神经网络的输入可以为彩色图像,输出为所述图像的图像分割图。这里,以基于全像素四核技术的活体检测任务为例,活体检测任务旨在区分3D的真人活体面部数据和2D照片、屏幕等假人脸数据,区分两者的本质差别在于真人脸数据包括深度信息,而假人脸数据不包括深度信息。图11是示出根据本发明示例性实施例的多任务学习网络的示意图,图11中的conv表示卷积操作,此外,仅作为示例而非限制,图11中的处理可包括位移处理。如图11所示的多任务学习网络,划框部分相应于第四神经网络中的特征解码器(后面将参照图12和图13进行描述)的操作,特征解码器的位置也可不位于图11所示的主干网络(即,第一神经网络和第二神经网络,对应于图11中的框外部分)的最后,而是穿插在各个中间结果之后;训练数据包括1831张真人脸数据和1840张假人脸数据,测试数据包括569张真人脸数据和679张假人脸数据。仅作为二分类任务,测试阶段最好的准确率达到94.6314。加入图像分割的辅助监督,准确率达到96.3141。
图12是示出根据本发明示例性实施例的总体深度估计方法的训练阶段的示意图,图13是示出根据本发明示例性实施例的总体深度估计方法的测试阶段的示意图。图12和图13中的特征解码器本质也是几层神经网络,是神经网络Encoder-Decoder结构中的Decoder,用于从网络提取的特征中,解码出需要的信息并得到最终的输出结果。特征解码器与计算深度的第一神经网络和第二神经网络独立,但可利用第一神经网络和第二神经网络中间计算的图像特征。这样的设计,在训练阶段,可以通过多个监督信号进行多任务学习;在测试阶段可以在输出主要产物即深度图的同时得到边缘检测图和图像分割图。
图14是示出根据本发明示例性实施例的深度估计装置的框图。
如图14所示,根据本发明示例性实施例的深度估计装置1400可包括图像获取单元1410、子图像获取单元1420、视差获取单元1430和深度估计单元1440。
图像获取单元1410可获取图像,其中,所述图像的像素具有多个子像素,这里,所述图像的每个像素可均具有多个子像素。
子图像获取单元1420可基于所述图像来获取多个子图像,其中,所述子图像的像素为所述子像素。这里,仅作为示例而非限制,所述多个子图像可以为四个子图像,并且所述四个子图像可包括由在每个像素中处于左上位置的子像素构成的左上子图像、由在每个像素中处于左下位置的子像素构成的左下子图像、由在每个像素中处于右上位置的子像素构成的右上子图像以及由在每个像素中处于右下位置的子像素构成的右下子图像。
视差获取单元1430可获取子图像之间的视差。此外,视差获取单元1430可将所述多个子图像两两配对,并获取两两配对的子图像之间的视差。更具体地,视差获取单元1430还可获取输入的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;视差获取单元1430还可对输入的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;视差获取单元1430还可对输入的两两配对的子图像进行位移,获取位移后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;视差获取单元1430还可对输入的两两配对的子图像进行位移,对位移后的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差。此外,视差获取单元1430可将所述差值与预定常数进行比较,根据比较结果来确定子图像之间的视差。这里,仅作为示例而非限制,视差获取单元1430可按照相反方向和/或相同位移值来对输入的两两配对的子图像进行位移,并且所述预定常数可以为0。
深度估计单元1440可基于子图像之间的视差来获取所述图像的深度。更具体地,深度估计单元1440可将子图像之间的视差输入到第二神经网络。
此外,根据本发明示例性实施例的深度估计装置1400还可包括:边缘检测图和/或图像分割图获取单元,可基于所述多个子图像来获取所述图像的边缘检测图和/或图像分割图。此外,边缘检测图和/或图像分割图获取单元还可基于子图像之间的视差来获取所述图像的边缘检测图和/或图像分割图。更具体地,边缘检测图和/或图像分割图获取单元可将所述多个子图像输入到第三神经网络来获得所述图像的边缘检测图,其中,第三神经网络与第一神经网络和第二神经网络共享参数;边缘检测图和/或图像分割图获取单元可将所述多个子图像输入到第四神经网络来获得所述图像的图像分割图,其中,第四神经网络与第一神经网络和第二神经网络共享参数。
此外,根据本发明的示例性实施例,还可提供一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。根据本发明的示例性实施例,还可提供一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
根据本发明的实施例,可基于单一全像素多核相机(即,相位检测相机)进行深度估计,相比于现有技术中的双目摄像头方案、深度传感器方案等对硬件设备的要求简单、功耗低、成本低;此外,通过设备采集的原始图像,经过预处理得到等效的多个子图像,经过两两配对的方式,可以计算多个方向上的有效视差;通过构造人工合成数据,可解决训练样本不足的问题;加入图像分割、边缘检测等多任务学习的约束,训练深度神经网络,最终达到从视差图到深度图的像素级的一一对应关系。
虽然已经参照特定示例性实施例示出和描述了本发明,但是本领域的技术人员将理解,在不脱离范围由权利要求及其等同物限定的本发明的精神和范围的情况下可作出形式和细节上的各种改变。

Claims (11)

1.一种深度估计方法,包括:
获取图像,其中,所述图像的像素具有多个子像素;
基于所述图像来获取多个子图像,其中,所述子图像的像素为所述子像素;
获取子图像之间的视差;以及
基于子图像之间的视差来获取所述图像的深度。
2.如权利要求1所述的深度估计方法,其中,获取子图像之间的视差的步骤包括:
将所述多个子图像两两配对,并获取两两配对的子图像之间的视差。
3.如权利要求2所述的深度估计方法,其中,获取子图像之间的视差的步骤还包括如下中的至少一种:
获取输入的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;
对输入的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;
对输入的两两配对的子图像进行位移,获取位移后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差;
对输入的两两配对的子图像进行位移,对位移后的两两配对的子图像进行卷积,获取卷积后的两两配对的子图像的对应位置的子像素的差值,并基于所述差值来获取子图像之间的视差。
4.如权利要求3所述的深度估计方法,其中,按照相反方向和/或相同位移值来对输入的两两配对的子图像进行位移。
5.如权利要求3所述的深度估计方法,其中,基于所述差值获取子图像之间的视差的步骤包括:
将所述差值与预定常数进行比较,根据比较结果来确定子图像之间的视差。
6.如权利要求1所述的深度估计方法,还包括:
基于所述多个子图像来获取所述图像的边缘检测图和/或图像分割图。
7.如权利要求1或2所述的深度估计方法,其中,所述多个子图像为四个子图像。
8.如权利要求7所述的深度估计方法,其中,所述四个子图像包括由在每个像素中处于左上位置的子像素构成的左上子图像、由在每个像素中处于左下位置的子像素构成的左下子图像、由在每个像素中处于右上位置的子像素构成的右上子图像以及由在每个像素中处于右下位置的子像素构成的右下子图像。
9.一种深度估计装置,包括:
图像获取单元,获取图像,其中,所述图像的像素具有多个子像素;
子图像获取单元,基于所述图像来获取多个子图像,其中,所述子图像的像素为所述子像素;
视差获取单元,获取子图像之间的视差;以及
深度估计单元,基于子图像之间的视差来获取所述图像的深度。
10.一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述权利要求1~8中任一项所述的方法。
11.一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述权利要求1~8中任一项所述的方法。
CN202010046284.3A 2020-01-16 2020-01-16 深度估计方法和装置 Pending CN113129353A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010046284.3A CN113129353A (zh) 2020-01-16 2020-01-16 深度估计方法和装置
KR1020200172465A KR20210092669A (ko) 2020-01-16 2020-12-10 깊이 추정 방법 및 장치
US17/146,752 US11663728B2 (en) 2020-01-16 2021-01-12 Depth estimation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010046284.3A CN113129353A (zh) 2020-01-16 2020-01-16 深度估计方法和装置

Publications (1)

Publication Number Publication Date
CN113129353A true CN113129353A (zh) 2021-07-16

Family

ID=76771654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010046284.3A Pending CN113129353A (zh) 2020-01-16 2020-01-16 深度估计方法和装置

Country Status (2)

Country Link
KR (1) KR20210092669A (zh)
CN (1) CN113129353A (zh)

Also Published As

Publication number Publication date
KR20210092669A (ko) 2021-07-26

Similar Documents

Publication Publication Date Title
US11562498B2 (en) Systems and methods for hybrid depth regularization
US9374571B2 (en) Image processing device, imaging device, and image processing method
US9591237B2 (en) Automated generation of panning shots
KR101483660B1 (ko) 깊이-관련 정보 전파를 위한 방법 및 장치
US8928736B2 (en) Three-dimensional modeling apparatus, three-dimensional modeling method and computer-readable recording medium storing three-dimensional modeling program
US20110032341A1 (en) Method and system to transform stereo content
US20130010073A1 (en) System and method for generating a depth map and fusing images from a camera array
US20140146139A1 (en) Depth or disparity map upscaling
CN106997579B (zh) 图像拼接的方法和装置
EP2757789A1 (en) Image processing system, image processing method, and image processing program
CN103313081A (zh) 图像处理设备和方法
RU2690757C1 (ru) Система синтеза промежуточных видов светового поля и способ ее функционирования
JP5755571B2 (ja) 仮想視点画像生成装置、仮想視点画像生成方法、制御プログラム、記録媒体、および立体表示装置
US10074209B2 (en) Method for processing a current image of an image sequence, and corresponding computer program and processing device
US20140192163A1 (en) Image pickup apparatus and integrated circuit therefor, image pickup method, image pickup program, and image pickup system
JP2007053621A (ja) 画像生成装置
CN105791795B (zh) 立体图像处理方法、装置以及立体视频显示设备
JP2014035597A (ja) 画像処理装置、コンピュータプログラム、記録媒体及び画像処理方法
KR101281003B1 (ko) 다시점 영상을 이용한 영상 시스템 및 영상 처리 방법
GB2585197A (en) Method and system for obtaining depth data
CN105282534A (zh) 用于嵌入立体图像的系统及方法
US9380285B2 (en) Stereo image processing method, stereo image processing device and display device
CN113129353A (zh) 深度估计方法和装置
US11663728B2 (en) Depth estimation method and apparatus
KR20110025020A (ko) 입체 영상 시스템에서 입체 영상 디스플레이 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination