CN109977981A - 基于双目视觉的场景解析方法、机器人及存储装置 - Google Patents

基于双目视觉的场景解析方法、机器人及存储装置 Download PDF

Info

Publication number
CN109977981A
CN109977981A CN201711468458.XA CN201711468458A CN109977981A CN 109977981 A CN109977981 A CN 109977981A CN 201711468458 A CN201711468458 A CN 201711468458A CN 109977981 A CN109977981 A CN 109977981A
Authority
CN
China
Prior art keywords
original image
analysis
scale features
image
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711468458.XA
Other languages
English (en)
Other versions
CN109977981B (zh
Inventor
熊友军
谭圣琦
潘慈辉
王先基
庞建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Shenzhen Youbihang Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN201711468458.XA priority Critical patent/CN109977981B/zh
Publication of CN109977981A publication Critical patent/CN109977981A/zh
Application granted granted Critical
Publication of CN109977981B publication Critical patent/CN109977981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双目视觉的场景解析方法,包括:获取双目视觉对应的第一原始图像和第二原始图像,并分别提取第一原始图像的多尺度特征和第二原始图像的多尺度特征;将第一原始图像的多尺度特征和第二原始图像的多尺度特征进行组合,并进行深度估计运算后输出第一原始图像基于组合的多尺度特征的初级深度估计信息;使用第一原始图像的多尺度特征进行语义分割计算,并输出第一原始图像对应的初级语义分割信息;将初级深度估计信息、初级语义分割信息和第一原始图像的多尺度特征进行融合,然后输出最终的深度估计信息和语义分割信息。本申请能够提高计算效率,加快计算速度,提高计算精度。

Description

基于双目视觉的场景解析方法、机器人及存储装置
技术领域
本申请涉及机器人行业的视觉识别技术领域,特别是涉及一种基于双目视觉的场景解析方法、机器人以及存储装置。
背景技术
双目视觉由于可以克服外部环境中主动光源的干扰,因而成为一种常用的视觉系统解决方案,在机器人、无人机中应用的越来越多。同时,由于机器人、无人机等需要在复杂多变、不确定或不受控制的环境下自主运行,必须具备对周遭环境和事物高效的识别、感知、理解、判断及行动能力,这些因素使得机器人和无人机对于视觉系统的依赖和要求越来越高。因此需要一套能使机器人、无人机对周遭环境和事物进行高效识别和感知的视觉系统。目前基于双目视觉的场景解析方法往往通过两个独立的子任务分别完成深度估计和语义分割,在对现有技术的研究和实践过程中,本发明的发明人发现这类场景解析方法计算冗杂,非常消耗计算资源,而且使用起来也较为繁琐。
发明内容
本发明主要解决的技术问题是如何提高计算效率,加快计算速度,提高计算精度。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于双目视觉的场景解析方法,所述方法包括:获取所述双目视觉对应的第一原始图像和第二原始图像,并分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征;将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征进行组合,并进行深度估计运算后输出所述第一原始图像基于所述组合的多尺度特征的初级深度估计信息;使用所述第一原始图像的多尺度特征进行语义分割计算,并输出所述第一原始图像对应的初级语义分割信息;将所述初级深度估计信息、所述初级语义分割信息和所述第一原始图像的多尺度特征进行融合,然后输出最终的深度估计信息和语义分割信息。
其中,所述分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征的步骤包括:通过采用相同的计算方式分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征。
其中,所述分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征的步骤包括:通过基于ImageNet数据集里所定义的公开的计算方式进行提取或者基于所述ImageNet数据集自定义计算方式进行提取。
其中,将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征进行组合,并进行深度估计运算的步骤包括:将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征以无监督学习的方式进行深度估计运算。
其中,所述将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征以无监督学习的方式进行深度估计运算的步骤包括:将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征的组合,并计算出所述第一原始图像的初级深度估计信息;通过所述第一原始图像以及所述第一原始图像的初级深度估计信息重建所述第二原始图像对应的第二重建图像;利用所述第二原始图像和所述第二重建图像构建损失函数,并通过所述损失函数进行无监督学习。
其中,所述利用所述第二原始图像和所述第二重建图像构建所述损失函数的步骤包括:通过所述第二重建图像与所述第二原始图像间的结构相似性和图像像素值均方误差进行构建。
其中,所述使用所述第一原始图像的多尺度特征进行语义分割计算的步骤包括:对所述第一原始图像的多尺度特征进行编码,以逐渐提取所述第一原始图像的高维语义信息;对所述高维语义进行解码,以逐渐获得所述初始语义分割信息的细节和空间维度。
其中,所述对所述高维语义进行解码,以逐渐获得所述初始语义分割信息的细节和空间维度的步骤包括:通过反卷积的计算方式逐步获得所述初始语义分割信息的细节和空间维度。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种机器人,包括:处理器和存储器,所述存储器存储程序数据,所述程序数据能够被所述处理器执行以实现上述场景解析方法。
为解决上述技术问题,本发明采用的又一个技术方案是:提供一种存储装置,其上存储有程序数据,所述程序数据能够被执行以实现上述场景解析方法。
以上方案,通过将提取的第一原始图像与第二原始图像的多尺度特征,分别进行深度估计运算与语义分割计算,并将得到的深度估计信息、语义分割信息与图像的多尺度特征进行融合,从而输出最终的深度估计和语义分割信息。实现了仅通过一次输入就可以同时进行两个方面的子运算,从而输出两个子运算融合后的场景解析图像,这样不仅简化了大量的数据运算,提高计算效率,加快计算速度,而且融合了两个子任务的计算,得到的场景解析图像也较传统方法计算的图像更加光滑,细节更加清晰,输出结果更加精确,同时也简化了操作,提高了场景识别效率和精度。
附图说明
图1是本申请基于双目视觉的场景解析方法一实施例的流程图;
图2是本申请深度估计无监督学习方式流程示意图;
图3是语义分割网络的结构示意图;
图4是本发明场景解析方法的整体网络架构示意图;
图5是本发明机器人一实施例的结构示意图;
图6是本发明存储装置的结构示意图。
具体实施方式
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,图1是本申请基于双目视觉的场景解析方法一实施例的流程图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:获取双目视觉对应的第一原始图像和第二原始图像,并分别提取第一原始图像的多尺度特征和第二原始图像的多尺度特征。
其中,双目视觉是模拟人类视觉原理,基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。在本实施例中,成像设备所获取的两副图像分别为第一原始图像和第二原始图像。
进一步地,采用相同的计算方式分别提取第一原始图像的多尺度特征和第二原始图像的多尺度特征。具体地,提取第一原始图像的多尺度特征和第二原始图像的多尺度特征是采用相同的方法来同时提取的,即第一原始图像和第二原始图像在提取过程中共享权重。
进一步地,提取第一原始图像的多尺度特征和第二原始图像的多尺度特征是通过基于ImageNet数据集所定义的公开的计算方式进行提取或者基于ImageNet数据集自定义计算方式进行提取。ImageNet数据集是目前广泛使用的一个图像数据集,Imagenet数据集有1400多万幅图片,是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开,利用Imagenet数据集里默认的计算方式或者通过Imagenet数据集自定义的计算方式有较好的提取特征的能力。具体地,首先搭建一个基础网络,基础网络可以采用ResNeXt-101+FPN(feature pyramid networks,特征金字塔网络),或者VGG16/VGG19/ResNet152+FPN等多种形式,然后利用ImageNet数据集里预训练的模型对基础网络进行初始化训练,使得基础网络对应获得数据集所定义的公开的计算方式,或者利用ImageNet数据集对基础网络进行自定义训练,使得基础网络对应获得自定义的计算方式来提取第一原始图像和第二原始图像的多尺度特征。
进一步地,基础网络可以根据使用的计算平台和计算资源来进行选择。如果计算资源丰富、计算平台计算能力强,则可以选择较大型的网络来提取丰富的特征,例如:选择ResNeXt-101(Aggregated residual transformations for deep neural networks,深度神经网络的聚合残差变换)+FPN(feature pyramid networks,特征金字塔网络)、VGG16(Very deep convolutional networks for large-scale image recognition,用于大规模图像识别的非常深的卷积网络)/VGG19/ResNet101(Deep residual learning forimage recognition,深度残差网络)/ResNet152+FPN等;如果计算资源有限,计算平台计算能力弱,则可以选择针对嵌入式平台的轻量网络,例如:选择MobileNet+FPN(Efficientconvolutional neural networks for mobile vision applications,用于移动视觉应用的高效卷积神经网络)、ShuffleNet+FPN(An extremely efficient convolutionalneural network for mobile devices,用于移动设备的非常高效的卷积神经网络)等。
S102:将第一原始图像的多尺度特征和第二原始图像的多尺度特征进行组合,并进行深度估计运算后输出第一原始图像基于组合的多尺度特征的初级深度估计信息。
其中,将第一原始图像的多尺度特征和第二原始图像的多尺度特征进行组合的方式为将第二原始图像的多尺度特征放在第一原始图像的多尺度特征后,即进行有序的拼接在一起。
进一步地,将第一原始图像的多尺度特征和第二原始图像的多尺度特征以无监督学习的方式进行深度估计运算。其中,无监督学习方式对应有监督学习方式,有监督学习方式是对于输入信息有一一对应的提前准备好的输出,而无监督学习方式因为输出结果难以大量的准备或获取,因而没有一一对应好的输出,采用无监督学习方式需要对深度估计网络进行大量的数据训练,从而得到更多的计算方式。本实施例中,采用无监督学习方式的好处在于:无监督学习方式不需要标注数据,由深度估计网络利用双目立体视觉中的左右一致性原则计算得出第一原始图像基于组合的多尺度特征的初级深度估计信息,避免了标注数据采用高精度的激光雷达进行采集,成本高,获取难度大,极消耗资源的缺点。
具体地,请参阅图2,图2是本申请深度估计无监督学习方式流程示意图。进行无监督学习方式进一步包括以下步骤:
S102a:根据组合的多尺度特征计算出第一原始图像的初级深度估计信息。
S102b:通过第一原始图像以及第一原始图像的初级深度估计信息重建第二原始图像对应的第二重建图像。重建方法是根据计算的初级深度估计信息计算图像视差,计算方式是z=fb/d,z是深度估计信息,d是视差,f是相机的焦距,b是左右相机间的距离,也即基线。图像视差是融合第一原始图像和第二原始图像,并观察它们之间的差别,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来,从而获得明显的深度感。
在本实施例中,通过第一原始图像以及第一原始图像的初级深度估计信息重建第二原始图像对应的第二重建图像,具体做法为:根据第一原始图像和第一原始图像的初级深度估计信息两幅输入图像,对于第一原始图像中的一个点p,对应的初级深度估计信息中的视差值是d1,那么p在第二原始图像中的对应点应该是(p-d1),即第二重建图像中像素点(p-d1)的像素值与第一原始图像中点p的像素值一样,根据本原理可重建出第二重建图像。
S102c:利用第二原始图像和第二重建图像构建损失函数,并通过损失函数进行无监督学习。
进一步地,构建损失函数的步骤包括:通过第二重建图像与第二原始图像间的结构相似性和图像像素值均方误差进行构建。结构相似性是一种衡量两幅图像相似度的指标。该指标首先由德州大学奥斯丁分校的图像和视频工程实验室(Laboratory for Imageand Video Engineering)提出。采用这种方法的优点在于,这种计算方式无需大量高精度的标记数据,极大降低了数据准备难度和方法应用难度。
S103:使用第一原始图像的多尺度特征进行语义分割计算,并输出第一原始图像对应的初级语义分割信息。
其中,使用第一原始图像的多尺度特征进行语义分割计算的步骤包括:对第一原始图像的多尺度特征进行编码,以逐渐提取第一原始图像的高维语义信息;对高维语义进行解码,以逐渐获得初始语义分割信息的细节和空间维度。具体地,语义分割网络采用编码器-解码器结构,将基础网络提取的第一原始图像的多尺度特征作为输入,通过编码器逐渐提取第一原始图像的高维语义信息,由于编码器和解码器是利用直接的信息连接,从而第一原始图像的高维语义信息输入解码器,解码器对高维语义信息进行解码,从而获得初级语义分割信息的细节和空间维度。
请参阅图3,图3是语义分割网络的结构示意图。
语义分割网络的一种典型结构为U-Net网络,该网络通过标注数据进行训练。
编码器逐渐提取第一原始图像的高维语义信息的过程是将第一原始图像的尺寸逐渐缩小,将第一原始图像特征通道逐渐增加;而解码器逐渐获得初始语义分割信息的细节和空间维度的过程是将缩小后的图像尺寸逐渐放大,并将特征通道逐渐减少,通过编码、解码的过程可以得到两副大小相同但图像信息不同的图像。
进一步地,解码器逐渐恢复场景的细节和相应空间维度是通过反卷积的计算方式。
S104:将初级深度估计信息、初级语义分割信息和第一原始图像的多尺度特征进行融合,然后进行精细化分析后输出最终的深度估计信息和语义分割信息。
本实施例采用交替分步训练的方法对各个网络分步进行训练,第一步是基于ImageNet数据集里预训练的模型对基础网络进行初始化训练,使得基础网络对应获得ImageNet数据集所定义的公开的计算方式,或者基于ImageNet数据集对基础网络进行自定义训练,使得基础网络对应获得自定义的计算方式;第二步是利用基础网络提取的图像多尺度特征,对深度估计网络进行无监督训练;第三步是利用基础网络提取的图像多尺度特征,和语义分割标注数据,对语义分割网络进行独立训练;第四步是对整体网络进行训练,主要是对精细化网络进行网络参数训练,同时微调其他三步中的网络参数,整个网络按照以上四个步骤进行分步训练,同时可以对多个任务同时进行处理,使得整个网络的性能更加完善。
请参阅图4,图4是本发明场景解析方法的整体网络架构示意图。整体网络包括:基础网络10、深度估计网络20、语义分割网络30和精细化网络40。本实施例中,左图像为上述实施例中的第一原始图像,右图像为上述实施例中的第二原始图像。
基础网络10用于提取左图像的多尺度特征和右图像的多尺度特征。
深度估计网络20用于将左图像的多尺度特征和右图像的多尺度特征进行组合,并输出左图像基于左图像和右图像组合的多尺度特征的初级深度估计信息。
语义分割网络30用于将左图像的多尺度特征进行语义分割计算,并输出左图像的初级语义分割信息。
精细化网络40用于将左图像的初级深度估计信息、左图像的初级语义分割信息和左图像的多尺度特征进行融合,并输出场景最终的深度估计信息和语义分割信息。
可选地,基础网络10采用相同的计算方式分别提取左图像的多尺度特征和右图像的多尺度特征。
可选地,基础网络10通过基于ImageNet数据集所定义的公开的计算方式进行提取或者基于ImageNet数据集自定义计算方式进行提取左图像的多尺度特征和右图像的多尺度特征。
可选地,深度估计网络20将左图像的多尺度特征和右图像的多尺度特征以无监督学习的方式进行深度估计运算。
可选地,深度估计网络20通过无监督学习的方式进行深度估计运算的方法包括:将左图像的多尺度特征和右图像的多尺度特征组合,并计算出左图像的初级深度估计信息;通过左图像以及左图像的初级深度估计信息重建右图像;利用右图像和重建的右图像构建损失函数,并通过损失函数进行无监督学习。
可选地,深度估计网络20构建损失函数的方法为通过右图像和重建右图像图像间的结构相似性和图像像素值均方误差进行构建。
可选地,语义分割网络30通过对左图像进行编码,以逐渐提取左图像的高维语义信息;并对左图像高维语义进行解码,以逐渐获得初始语义分割信息的细节和空间维度。
可选地,语义分割网络30解码的过程是通过反卷积的计算方式进行的。
本实施例中,是对左图像进行解析,应理解,在其他实施例中,同样可以通过上述方法对右图像进行解析。
上述实施例的有益效果为:将双目视觉的第一原始图像和第二原始图像输入一个由基础网络,深度估计网络,语义分割网络和精细化网络四个子网络组成的整体大网络中,通过一次输入即可获得整个场景全貌的深度估计信息和语义分割信息,而且深度估计网络和语义分割网络利用的都是由基础网络提取的多尺度特征,计算过程中被多次复用,大大简化了计算程序,提高了计算效率,加快了计算速度,使用方便。
请参阅图5,图5是本发明机器人一实施例的结构示意图。该机器人可以执行上述方法中整体网络架构执行的步骤。相关内容请参见上述方法中的详细说明,在此不再赘叙。
本实施例中,该机器人50包括:处理器51、与处理器51耦合的存储器52。存储器52用于存储程序数据,处理器51用于执行存储器52上存储的程序数据。
机器人进一步包括接收器53,接收器53用于接收双目视觉输入的场景图像。
具体而言,处理器51对于接受器53输入的左图像和右图像分别提取左图像的多尺度特征和右图像的多尺度特征;将左图像的多尺度特征和右图像的多尺度特征进行组合,并输出左图像基于组合的多尺度特征的初级深度估计信息;使用左图像的多尺度特征进行语义分割计算,并输出左图像的初级语义分割信息;将左图像的初级深度估计信息、左图像的初级语义分割信息和左图像的多尺度特征进行融合,并输出场景最终的深度估计信息和语义分割信息。
可选地,处理器51采用相同的计算方式分别提取左图像的多尺度特征和右图像的多尺度特征。
可选地,处理器51通过基于ImageNet数据集所定义的公开的计算方式进行提取或者基于ImageNet数据集自定义计算方式进行提取左图像的多尺度特征和右图像的多尺度特征。
可选地,处理器51通过无监督学习的方式进行深度估计运算的方法包括:将左图像的多尺度特征和右图像的多尺度特征组合,并计算出左图像的初级深度估计信息;通过左图像以及左图像的初级深度估计信息重建右图像;利用右图像和重建的右图像构建损失函数,并通过损失函数进行无监督学习。
可选地,处理器51构建损失函数的方法为通过右图像和重建右图像图像间的结构相似性和图像像素值均方误差进行构建。
可选地,处理器51通过对左图像进行编码,以逐渐提取左图像的高维语义信息;并对左图像高维语义进行解码,以逐渐获得初始语义分割信息的细节和空间维度。
可选地,处理器51解码的过程是通过反卷积的计算方式进行的。
请参阅图6,图6是本发明存储装置的结构示意图。
该存储装置60存储有程序数据61,所述程序数据61能够被执行以实现上述实施例中所阐述的场景解析方法,在此就不再赘述。
如本领域技术人员所理解,该存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等物理存储介质,也可以是服务器等虚拟存储介质。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于双目视觉的场景解析方法,其特征在于,具体包括以下步骤:
获取所述双目视觉对应的第一原始图像和第二原始图像,并分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征;
将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征进行组合,并进行深度估计运算后输出所述第一原始图像基于所述组合的多尺度特征的初级深度估计信息;
使用所述第一原始图像的多尺度特征进行语义分割计算,并输出所述第一原始图像对应的初级语义分割信息;
将所述初级深度估计信息、所述初级语义分割信息和所述第一原始图像的多尺度特征进行融合,然后输出最终的深度估计信息和语义分割信息。
2.根据权利要求1所述的场景解析方法,其特征在于,所述分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征的步骤包括:
通过采用相同的计算方式分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征。
3.根据权利要求2所述的场景解析方法,其特征在于,所述分别提取所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征的步骤包括:
通过基于ImageNet数据集所定义的公开的计算方式进行提取或者基于所述ImageNet数据集自定义计算方式进行提取。
4.根据权利要求1所述的场景解析方法,其特征在于,将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征进行组合,并进行深度估计运算的步骤包括:
将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征以无监督学习的方式进行深度估计运算。
5.根据权利要求4所述的场景解析方法,其特征在于,所述将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征以无监督学习的方式进行深度估计运算的步骤包括:
将所述第一原始图像的多尺度特征和所述第二原始图像的多尺度特征组合,并计算出所述第一原始图像的初级深度估计信息;
通过所述第一原始图像以及所述第一原始图像的初级深度估计信息重建所述第二原始图像对应的第二重建图像;
利用所述第二原始图像和所述第二重建图像构建损失函数,并通过所述损失函数进行无监督学习。
6.根据权利要求5所述的场景解析方法,其特征在于,所述利用所述第二原始图像和所述第二重建图像构建所述损失函数的步骤包括:
通过所述第二重建图像与所述第二原始图像间的结构相似性和图像像素值均方误差进行构建。
7.根据权利要求1所述的场景解析方法,其特征在于,所述将所述第一原始图像的多尺度特征进行语义分割的步骤包括:
对所述第一原始图像的多尺度特征进行编码,以逐渐提取所述第一原始图像的高维语义信息;
对所述高维语义进行解码,以逐渐获得所述初始语义分割信息的细节和空间维度。
8.根据权利要求7所述的场景解析方法,其特征在于,所述对所述高维语义进行解码,以逐渐获得所述初始语义分割信息的细节和空间维度的步骤包括:
通过反卷积的计算方式逐步获得所述初始语义分割信息的细节和空间维度。
9.一种机器人,其特征在于,所述机器人包括处理器和存储器,所述存储器存储程序数据,所述程序数据能够被所述处理器执行以实现如权利要求1-8任一项所述的场景解析方法。
10.一种存储装置,其特征在于,其上存储有程序数据,所述程序数据被执行以实现如权利要求1-8任一项所述的场景解析方法。
CN201711468458.XA 2017-12-27 2017-12-27 基于双目视觉的场景解析方法、机器人及存储装置 Active CN109977981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711468458.XA CN109977981B (zh) 2017-12-27 2017-12-27 基于双目视觉的场景解析方法、机器人及存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711468458.XA CN109977981B (zh) 2017-12-27 2017-12-27 基于双目视觉的场景解析方法、机器人及存储装置

Publications (2)

Publication Number Publication Date
CN109977981A true CN109977981A (zh) 2019-07-05
CN109977981B CN109977981B (zh) 2020-11-24

Family

ID=67075448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711468458.XA Active CN109977981B (zh) 2017-12-27 2017-12-27 基于双目视觉的场景解析方法、机器人及存储装置

Country Status (1)

Country Link
CN (1) CN109977981B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349215A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种相机位姿估计方法及装置
CN110348569A (zh) * 2019-07-18 2019-10-18 华中科技大学 基于卷积神经网络的实时光学层析方法和系统
CN110363145A (zh) * 2019-07-16 2019-10-22 深圳市凌云视迅科技有限责任公司 基于稀疏fpn的3d物体点云数据识别方法
CN110568445A (zh) * 2019-08-30 2019-12-13 浙江大学 一种轻量化卷积神经网络的激光雷达与视觉融合感知方法
CN110751220A (zh) * 2019-10-24 2020-02-04 江西应用技术职业学院 一种基于改进卷积神经网络结构的机器视觉室内定位方法
CN111046672A (zh) * 2019-12-11 2020-04-21 山东众阳健康科技集团有限公司 多场景文本摘要生成方法
CN111402310A (zh) * 2020-02-29 2020-07-10 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN111414860A (zh) * 2020-03-20 2020-07-14 杭州趣维科技有限公司 一种实时的人像跟踪分割方法
CN111915558A (zh) * 2020-06-30 2020-11-10 成都思晗科技股份有限公司 一种高压输电线销钉状态检测方法
CN112258482A (zh) * 2020-10-23 2021-01-22 广东博智林机器人有限公司 建筑外墙砂浆流坠检测方法及装置
CN112634341A (zh) * 2020-12-24 2021-04-09 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN113139999A (zh) * 2021-05-14 2021-07-20 广东工业大学 一种透明物体单视图多尺度深度估计方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101720047A (zh) * 2009-11-03 2010-06-02 上海大学 基于颜色分割的多目摄像立体匹配获取深度图像的方法
KR20130053980A (ko) * 2011-11-16 2013-05-24 재단법인대구경북과학기술원 영상 데이터 융합 기반의 장애물체 검출 방법 및 장치
CN103413347A (zh) * 2013-07-05 2013-11-27 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN106355570A (zh) * 2016-10-21 2017-01-25 昆明理工大学 一种结合深度特征的双目立体视觉匹配方法
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN106599805A (zh) * 2016-12-01 2017-04-26 华中科技大学 一种基于有监督数据驱动的单目视频深度估计方法
CN106920250A (zh) * 2017-02-14 2017-07-04 华中科技大学 基于rgb‑d视频的机器人目标识别与定位方法及系统
CN107018400A (zh) * 2017-04-07 2017-08-04 华中科技大学 一种将2d视频转换成3d视频的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101720047A (zh) * 2009-11-03 2010-06-02 上海大学 基于颜色分割的多目摄像立体匹配获取深度图像的方法
KR20130053980A (ko) * 2011-11-16 2013-05-24 재단법인대구경북과학기술원 영상 데이터 융합 기반의 장애물체 검출 방법 및 장치
CN103413347A (zh) * 2013-07-05 2013-11-27 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN106355570A (zh) * 2016-10-21 2017-01-25 昆明理工大学 一种结合深度特征的双目立体视觉匹配方法
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN106599805A (zh) * 2016-12-01 2017-04-26 华中科技大学 一种基于有监督数据驱动的单目视频深度估计方法
CN106920250A (zh) * 2017-02-14 2017-07-04 华中科技大学 基于rgb‑d视频的机器人目标识别与定位方法及系统
CN107018400A (zh) * 2017-04-07 2017-08-04 华中科技大学 一种将2d视频转换成3d视频的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OMID HOSSEINI JAFARI: "Analyzing Modular CNN Architectures for Joint Depth Prediction and Semantic Segmentation", 《ARXIV》 *
罗桂娥: "双目立体视觉深度感知与三维重建若干问题研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349215B (zh) * 2019-07-10 2021-10-12 北京悉见科技有限公司 一种相机位姿估计方法及装置
CN110349215A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种相机位姿估计方法及装置
CN110363145A (zh) * 2019-07-16 2019-10-22 深圳市凌云视迅科技有限责任公司 基于稀疏fpn的3d物体点云数据识别方法
CN110363145B (zh) * 2019-07-16 2022-11-29 深圳市凌云视迅科技有限责任公司 基于稀疏fpn的3d物体点云数据识别方法
CN110348569A (zh) * 2019-07-18 2019-10-18 华中科技大学 基于卷积神经网络的实时光学层析方法和系统
CN110568445A (zh) * 2019-08-30 2019-12-13 浙江大学 一种轻量化卷积神经网络的激光雷达与视觉融合感知方法
CN110751220A (zh) * 2019-10-24 2020-02-04 江西应用技术职业学院 一种基于改进卷积神经网络结构的机器视觉室内定位方法
CN110751220B (zh) * 2019-10-24 2022-02-11 江西应用技术职业学院 一种基于改进卷积神经网络结构的机器视觉室内定位方法
CN111046672A (zh) * 2019-12-11 2020-04-21 山东众阳健康科技集团有限公司 多场景文本摘要生成方法
CN111046672B (zh) * 2019-12-11 2020-07-14 山东众阳健康科技集团有限公司 多场景文本摘要生成方法
CN111402310A (zh) * 2020-02-29 2020-07-10 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN111402310B (zh) * 2020-02-29 2023-03-28 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN111414860A (zh) * 2020-03-20 2020-07-14 杭州趣维科技有限公司 一种实时的人像跟踪分割方法
CN111915558A (zh) * 2020-06-30 2020-11-10 成都思晗科技股份有限公司 一种高压输电线销钉状态检测方法
CN111915558B (zh) * 2020-06-30 2023-12-01 成都思晗科技股份有限公司 一种高压输电线销钉状态检测方法
CN112258482A (zh) * 2020-10-23 2021-01-22 广东博智林机器人有限公司 建筑外墙砂浆流坠检测方法及装置
CN112634341B (zh) * 2020-12-24 2021-09-07 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN112634341A (zh) * 2020-12-24 2021-04-09 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN113139999A (zh) * 2021-05-14 2021-07-20 广东工业大学 一种透明物体单视图多尺度深度估计方法和系统

Also Published As

Publication number Publication date
CN109977981B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN109977981A (zh) 基于双目视觉的场景解析方法、机器人及存储装置
Shivakumar et al. Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion
Bloesch et al. Codeslam—learning a compact, optimisable representation for dense visual slam
CN111260653B (zh) 一种图像分割方法、装置、存储介质和电子设备
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
Jung et al. Depth prediction from a single image with conditional adversarial networks
KR20210058683A (ko) 깊이 맵 생성 방법 및 장치
US12026930B2 (en) Complementary learning for multi-modal saliency detection
CN111553267A (zh) 图像处理方法、图像处理模型训练方法及设备
Hua et al. Depth estimation with convolutional conditional random field network
CN111242068B (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
WO2024087858A1 (zh) 图像处理模型的训练方法、装置、电子设备、计算机程序产品及计算机存储介质
US20230098548A1 (en) Image processing method and apparatus, computer device, program, and storage medium
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN104243956B (zh) 一种立体图像视觉显著图提取方法
Choi et al. Point cloud deformation for single image 3d reconstruction
CN117745944A (zh) 预训练模型确定方法、装置、设备以及存储介质
CN118365796A (zh) 一种用于语言大模型的联合三维表征与场景重建方法及装置
Tong et al. 3D-CDRNet: Retrieval-based dense point cloud reconstruction from a single image under complex background
CN111435533A (zh) 图像分割方法、装置、设备及计算机可读存储介质
JP2014149788A (ja) 物体領域境界推定装置、物体領域境界推定方法及び物体領域境界推定プログラム
CN116486009A (zh) 单目三维人体重建方法、装置以及电子设备
CN113240780B (zh) 生成动画的方法和装置
Zhang et al. Adaptive coding unit size convolutional neural network for fast 3D-HEVC depth map intracoding
CN112966670A (zh) 人脸识别方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen UBTECH Technology Co.,Ltd.

Address before: 22nd floor, building C1, Nanshan wisdom Park, 1001 Xueyuan Avenue, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: Shenzhen UBTECH Technology Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20220126

Address after: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen UBTECH Technology Co.,Ltd.

Patentee after: Shenzhen youbihang Technology Co.,Ltd.

Address before: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen UBTECH Technology Co.,Ltd.

TR01 Transfer of patent right