CN111311722B - 信息处理方法及装置、电子设备和存储介质 - Google Patents

信息处理方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111311722B
CN111311722B CN202010076496.6A CN202010076496A CN111311722B CN 111311722 B CN111311722 B CN 111311722B CN 202010076496 A CN202010076496 A CN 202010076496A CN 111311722 B CN111311722 B CN 111311722B
Authority
CN
China
Prior art keywords
current scene
voxel
sketch
information
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010076496.6A
Other languages
English (en)
Other versions
CN111311722A (zh
Inventor
陈小康
林君仪
钱晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202010076496.6A priority Critical patent/CN111311722B/zh
Publication of CN111311722A publication Critical patent/CN111311722A/zh
Application granted granted Critical
Publication of CN111311722B publication Critical patent/CN111311722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/08Projecting images onto non-planar surfaces, e.g. geodetic screens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/49Analysis of texture based on structural texture description, e.g. using primitives or placement rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

本公开涉及一种信息处理方法及装置、电子设备和存储介质,其中,所述方法包括:获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息;基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。本公开实施例可以得到当前场景更加准确的补全结果。

Description

信息处理方法及装置、电子设备和存储介质
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种信息处理方法及装置、电子设备和存储介质。
背景技术
目前,随着计算机技术的发展,计算机视觉技术应运而生。计算机视觉技术可以将计算机技术与生物视觉相结合,通过电子设备模拟人眼对物体进行识别、跟踪和测量等。计算机视觉领域中通常会涉及到对三维数据的处理,例如,在虚拟现实、增强现实、自动驾驶、医学三维图像处理等应用场景中,都会涉及对三维数据的处理,利用三维数据重构物体。
目前,可以利用体素表示三维数据,但是利用体素表示空间中的三维数据的准确度较低。
发明内容
本公开提出了一种信息处理技术方案。
根据本公开的一方面,提供了一种信息处理方法,包括:获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息;基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果,包括:基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图;基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果。
这样,通过在场景补全过程中引入表示当前场景的空间结构的第一素描图,可以在提取色彩图像的图像特征的过程中引入先验信息,得到精度较高的补全结果。
在一个或多个实现方式中,所述方法还包括:根据所述第一体素信息携带的所述几何信息,对所述第一体素信息进行至少一次卷积操作,得到所述第一体素信息的第一体素特征;对所述第一体素特征进行至少一次卷积操作和/或上采样操作,得到所述第一体素信息的第二体素特征;所述基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图,包括:基于所述第一体素特征和所述第二体素特征,得到所述当前场景的空间结构的第一素描图。
这样,通过将第一体素特征和第二体素特征相结合,可以减少体素特征提取过程中的特征损失,从而可以提高第一素描图的准确程度。
在一个或多个实现方式中,所述基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果,包括:获取通过随机过程进行采样得到的至少一个第一采样信息;基于所述第一素描图以及所述至少一个第一采样信息,得到表示所述当前场景的空间结构的第二素描图;基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
这里,第二素描图相比于第一素描图而言,可以更加准确、更加完整地表示当前场景的空间结构,可以在一定程度上弥补输入信息缺失的不足,从而可以在提取色彩图像的图像特征的过程中,将第二素描图作为先验信息,可以得到精度更高的补全结果。
在一个或多个实现方式中,所述基于所述第一素描图以及所述第一采样信息,得到表示所述当前场景的空间结构的第二素描图,包括:基于所述第一素描图和所述至少一个第一采样信息,生成所述第一素描图的至少一个模拟结果;基于所述至少一个模拟结果,得到表示所述当前场景的空间结构的第二素描图。这里,通过结合多个模拟结果,可以得到更加准确的第二素描图。
在一个或多个实现方式中,所述基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果,包括:基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
这样在提取色彩图像的图像特征的过程中,可以将第一素描图和第二素描图均作为先验信息,利用语义补全网络对当前场景的色彩图像、第一素描图以及第二素描图共同进行特征提取,可以进一步提高补全结果的准确程度。
在一个或多个实现方式中,所述基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果,包括:对所述当前场景的色彩图像进行特征提取,得到所述色彩图像的图像特征;根据通过所述当前场景的深度图像得到的二维至三维的映射关系,将所述色彩图像的图像特征映射到三维体素空间,得到第二体素信息;基于所述第二体素信息、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
这里,由于色彩图像中具有当前场景的色彩信息以及纹理信息,第二体素信息相比于第一体素信息而言,通过将色彩图像的图像特征映射到三维体素空间,根据第二体素信息、第一素描图以及第二素描图得到的补全结果,可以更加准确地描述当前场景。
在一个或多个实现方式中,所述基于所述第二体素信息、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果,包括:将所述第一素描图映射到所述第二体素信息的三维体素空间,得到映射后的第一素描图;将所述第二素描图映射到所述第二体素信息的三维体素空间,得到映射后的第二素描图;将所述第二体素信息、映射后的第一素描图和所述映射后的第二素描图进行融合,得到融合结果;基于所述融合结果得到针对所述当前场景进行补全的补全结果。
这里,融合结果可以包括当前场景的颜色特征和纹理特征,同时,还包括经过修整的空间结构信息,从而由融合结果得到准确的补全结果。
在一个或多个实现方式中,所述基于所述融合结果得到针对所述当前场景进行补全的补全结果,包括:对所述融合结果进行至少一次卷积操作,得到所述当前场景的三维体素体以及所述三维体素体中每个体素所表示的目标对象的类别。
这样,本公开实施例提供的方案不仅可以针对当前场景中被遮挡的部分进行补全,还可以对当前场景进行理解,确定当前场景中目标对象的类别,从而实现对当前场景进行语义补全。
在一个或多个实现方式中,所述方法还包括:获取参考场景的样本图像以及样本体素信息,所述样本体素信息携带有参考场景的几何信息;将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果;基于所述输出结果与所述参考场景对应的语义标签,确定所述神经网络的网络损失;根据所述神经网络的网络损失对所述神经网络的网络参数进行调整,得到语义补全网络;其中,所述语义补全网络用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
这里,通过对构建的神经网络训练,可以得到输出针对当前场景进行补全的补全结果的语义补全网络。
在一个或多个实现方式中,所述将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果,包括:利用所述神经网络对所述样本体素信息进行特征提取,得到用于表示所述参考场景的空间结构的第三素描图;利用所述神经网络基于所述第三素描图以及所述参考素描图,得到用于表示所述参考场景的空间结构的第四素描图;基于所述第三素描图、所述第四素描图以及所述样本图像,得到所述神经网络输出的针对所述参考场景进行补全的输出结果。
这样,通过将表示参考场景的空间结构的第三素描图和第四素描图作为先验信息,可以使神经网络得到较为准确的输出结果。
在一个或多个实现方式中,所述基于所述输出结果与所述参考场景的语义标签,确定所述神经网络的网络损失,包括:根据所述输出结果与所述语义标签,确定所述神经网络的第一损失;根据所述第四素描图与所述参考素描图,确定所述神经网络的第二损失;基于所述第一损失和所述第二损失,确定所述神经网络的网络损失。
通过由第一损失和第二损失确定的网络损失对神经网络的网络参数进行调整,可以使神经网络得到更加准确的第四素描图和输出结果。
在一个或多个实现方式中,所述方法还包括:获取通过随机过程进行采样得到的至少一个第二采样信息;基于所述第三素描图以及所述至少一个第二采样信息,得到第五素描图;基于所述第五素描图与所述参考素描图之间的第一比对结果,以及所述第四素描图与所述参考素描图之间的第二比对结果,确定所述神经网络的第三损失;所述基于所述第一损失和所述第二损失,确定所述神经网络的网络损失,包括:基于所述第一损失、所述第二损失和所述第三损失,确定所述神经网络的网络损失。
通过第三损失可以利用参考素描图对神经网络得到的第四素描图和第五素描图共同进行约束,使神经网络得到更加准确的第四素描图和第五素描图。进一步地,可以根据第一损失、第二损失和第三损失,得到更加准确且更加全面的神经网络的网络损失。
根据本公开的一方面,提供了一种信息处理装置,其特征在于,包括:获取模块,用于获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息;补全模块,用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述补全模块,具体用于基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图;基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述装置还包括:特征提取模块,用于根据所述第一体素信息携带的所述几何信息,对所述第一体素信息进行至少一次卷积操作,得到所述第一体素信息的第一体素特征;对所述第一体素特征进行至少一次卷积操作和/或上采样操作,得到所述第一体素信息的第二体素特征;
所述补全模块,具体用于基于所述第一体素特征和所述第二体素特征,得到所述当前场景的空间结构的第一素描图。
在一个或多个实现方式中,所述补全模块,具体用于获取通过随机过程进行采样得到的至少一个第一采样信息;基于所述第一素描图以及所述至少一个第一采样信息,得到表示所述当前场景的空间结构的第二素描图;基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述补全模块,具体用于基于所述第一素描图和所述至少一个第一采样信息,生成所述第一素描图的至少一个模拟结果;基于所述至少一个模拟结果,得到表示所述当前场景的空间结构的第二素描图。
在一个或多个实现方式中,所述补全模块,具体用于基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述补全模块,具体用于对所述当前场景的色彩图像进行特征提取,得到所述色彩图像的图像特征;根据通过所述当前场景的深度图像得到的二维至三维的映射关系,将所述色彩图像的图像特征映射到三维体素空间,得到第二体素信息;基于所述第二体素信息、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述补全模块,具体用于将所述第一素描图映射到所述第二体素信息的三维体素空间,得到映射后的第一素描图;将所述第二素描图映射到所述第二体素信息的三维体素空间,得到映射后的第二素描图;将所述第二体素信息、映射后的第一素描图和所述映射后的第二素描图进行融合,得到融合结果;基于所述融合结果得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述补全模块,具体用于对所述融合结果进行至少一次卷积操作,得到所述当前场景的三维体素体以及所述三维体素体中每个体素所表示的目标对象的类别。
在一个或多个实现方式中,所述装置还包括:
训练模块,用于获取参考场景的样本图像以及样本体素信息,所述样本体素信息携带有参考场景的几何信息;将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果;基于所述输出结果与所述参考场景对应的语义标签,确定所述神经网络的网络损失;根据所述神经网络的网络损失对所述神经网络的网络参数进行调整,得到语义补全网络;其中,所述语义补全网络用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述训练模块,具体用于利用所述神经网络对所述样本体素信息进行特征提取,得到用于表示所述参考场景的空间结构的第三素描图;利用所述神经网络基于所述第三素描图以及所述参考素描图,得到用于表示所述参考场景的空间结构的第四素描图;基于所述第三素描图、所述第四素描图以及所述样本图像,得到所述神经网络输出的针对所述参考场景进行补全的输出结果。
在一个或多个实现方式中,所述训练模块,具体用于根据所述输出结果与所述语义标签,确定所述神经网络的第一损失;根据所述第四素描图与所述参考素描图,确定所述神经网络的第二损失;基于所述第一损失和所述第二损失,确定所述神经网络的网络损失。
在一个或多个实现方式中,所述训练模块,还用于获取通过随机过程进行采样得到的至少一个第二采样信息;基于所述第三素描图以及所述至少一个第二采样信息,得到第五素描图;基于所述第五素描图与所述参考素描图之间的第一比对结果,以及所述第四素描图与所述参考素描图之间的第二比对结果,确定所述神经网络的第三损失;基于所述第一损失、所述第二损失和所述第三损失,确定所述神经网络的网络损失。
根据本公开的一方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行上述信息处理方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述信息处理方法。
在本公开实施例中,可以获取当前场景的色彩图像和第一体素信息,第一体素信息携带有当前场景的几何信息,然后基于当前场景的色彩图像以及第一体素信息,得到针对当前场景进行补全的补全结果。这样,在对当前场景进行场景补全的情况下,可以充分利用当前场景的几何信息,从而得到更加准确的补全结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的信息处理方法的流程图。
图2示出根据本公开实施例的不同分辨率的第一素描图的框图。
图3示出根据本公开实施例的语义补全网络的框图。
图4示出根据本公开实施例的得到第四素描图的框图。
图5示出根据本公开实施例的信息处理装置的框图。
图6示出根据本公开实施例的电子设备示例的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本公开实施例提供的信息处理方案,可以获取当前场景的色彩图像和第一体素信息,其中,第一体素信息携带有当前场景的几何信息。然后基于当前场景的色彩图像以及第一体素信息,得到针对当前场景进行补全的补全结果。由于第一体素信息携带有当前场景的几何信息,从而可以结合当前场景的几何信息,更好地对当前场景进行场景补全,得到更加准确的补全结果。
在相关技术中,通常利用场景的不含有场景几何信息的体素信息对场景进行补全。这种方式很难准确的对场景细节进行理解。在场景的体素信息缺失较多的情况下,难以得到较好的补全结果。而本公开实施例提供的信息处理方案,可以在场景补全过程中考虑当前场景的几何信息,从而得到较为准确的补全结果,即使在对未知场景进行场景补全的情况下也能得到较好的场景补全结果。
本公开实施例提供的技术方案可以应用于三维场景重建、三维成像的扩展等等,本公开实施例对此不做限定。
图1示出根据本公开实施例的信息处理方法的流程图。该信息处理方法可以由终端设备、服务器或其它类型的电子设备执行,其中,终端设备可以为用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(PersonalDigital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该信息处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。下面以电子设备作为执行主体为例对本公开实施例的信息处理方法进行说明。
步骤S11,获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息。
在本公开实施例中,当前场景的色彩图像可以是针对当前场景进行图像采集得到的具有色彩特征的图像,即,可以理解为,是由多种颜色叠加的图像。例如,色彩图像可以是RGB图像,RGB图像是通过红(R)、绿(G)、蓝(B)三种颜色叠加的图像。当前场景的第一体素信息可以是对当前场景进行模拟的体数据,第一体素信息可以包括多个体素,一个体素可以是表示当前场景中的一个立体区域。第一体素信息可以携带有当前场景的几何信息,该几何信息可以是表示当前场景中物体之间几何关系的信息,例如,第一体素信息中的每个体素可以携带该体素表示的当前场景中三维点到当前场景中表面的距离,或者,携带该体素表示的当前场景中三维点到当前场景中最近表面的距离。当前场景的第一体素信息可以是根据当前场景的深度图像得到的。
这里,电子设备可以针对当前场景进行拍摄,获取当前场景的色彩图像,或者,电子设备可以从其他设备处获取当前场景的色彩图像,例如,从图像采集装置获取当前场景的色彩图像。电子设备可以当前场景进行拍摄,得到当前场景的深度图像,然后根据当前场景的深度图像,得到当前场景的第一体素信息,或者,电子设备可以从其他设备处获取当前场景的第一体素信息。
步骤S12,基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
在本公开实施例中,可以将当前场景的色彩图像和第一体素信息作为语义补全网络的输入信息,输入语义补全网络,得到由语义补全网络输出的针对当前场景进行补全的补全结果。由于图像采集视角、光线等一些因素,当前场景的色彩图像或有当前场景的深度图像得到的第一体素信息通常是缺失的,可以通过语义补全网络对当前场景的色彩图像以及第一体素信息进行处理,对当前场景一些被遮挡的部分进行补全。语义补全网络可以是由神经网络进行训练得到的。语义补全网络可以结合第一体素信息携带的当前场景的几何信息以及色彩图像携带的当前场景的纹理信息,得到当前场景较为精确的补全结果。
这里,得到的补全结果可以包括表示三维体素体以及三维体素体中每个体素所表示的目标对象的类别,三维体素体可以表示针对当前场景进行补全的补全场景。补全场景可以理解为对于色彩图像中展示的当前场景中一些被遮挡的部分场景进行补全。举例来说,在某个色彩图像的采集视角,观测到的当前场景被一张餐桌遮挡了左半部分场景,三维体素体表示的补全场景可以包括被遮挡的左半部分场景。三维体素体可以包括多个体素,每个体素可以表示当前场景中的某个目标对象或者某个目标对象的一部分。补全结果中还可以包括每个体素所表示的目标对象的类别,例如,某个体素可能表示墙壁、窗户、地板、沙发等目标对象的类别。也就是说,本公开实施例提供的信息处理方案,不仅可以针对当前场景中被遮挡的部分场景进行补全,还可以对当前场景进行理解,确定当前场景中目标对象的类别,从而实现对当前场景进行语义补全。
在一个可能的实现方式中,可以基于第一体素信息的体素特征,得到用于表示当前场景的空间结构的第一素描图,然后基于当前场景的色彩图像以及第一素描图,得到针对当前场景进行补全的补全结果。
在该实现方式中,可以利用上述语义补全网络对第一体素信息进行特征提取,例如,对第一体素信息进行至少一次卷积操作,得到第一体素信息的体素特征,然后根据第一体素信息的体素特征,可以得到用于表示当前场景的空间结构的第一素描图。由于第一体素信息中包括当前场景的几何信息,从而第一体素信息的体素特征中也包括当前场景的几何特征,从而得到第一素描图可以用于表示当前场景的空间结构。然后可以利用上述语义补全网络对当前场景的色彩图像进行特征提取,在提取特征的过程中,可以将第一素描图作为先验信息,提供当前场景的空间结构,最终可以得到较为准确的补全结果。通过在场景补全过程中引入表示当前场景的空间结构的第一素描图,可以在提取色彩图像的图像特征的过程中引入先验信息,得到精度较高的补全结果。
这里,第一素描图可以用于表示当前场景的空间结构,从而第一素描图受分辨率的影响较小。图2示出根据本公开实施例的不同分辨率的第一素描图的框图。可以看到,随着第一素描图的分辨率的不断降低(分辨率变化为:240×144×240到120×72×120到80×48×80到60×36×60),第一素描图所表示的当前场景的空间结构没有明显改变,从而即使降低图像采集的分辨率,也可以通过第一素描图准确地描述当前场景的空间结构,从而减少由第一体素信息得到第一素描图的信息处理量,提高得到第一素描图的效率。
本公开实施例中,可以基于第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图,下面通过一实施例对得到第一素描图的过程进行说明。
在一个可能的实现方式中,可以根据第一体素信息携带的几何信息,对第一体素信息进行至少一次卷积操作,得到第一体素信息的第一体素特征,对第一体素特征进行至少一次卷积操作和/或上采样操作,得到所述第一体素信息的第二体素特征,然后基于第一体素特征和第二体素特征,得到当前场景的空间结构的第一素描图。
在该实现方式中,可以利用上述语义补全网络对携带有当前场景几何信息的第一体素信息进行一次或多次卷积操作,先将携带有当前场景几何信息的第一体素信息映射到高维特征空间中,即,增加第一体素信息的特征维度,然后对映射到的高维特征空间的第一体素信息进行特征提取,例如,进行一次或多次卷积操作、上采样操作等,可以得到第一体素信息的第一体素特征。然后可以对第一体素特征继续进行特征提取,例如,进行一次或多次卷积操作、上采样操作等,可以得到第一体素信息的第二体素特征。进一步地,可以将第一体素特征和第二体素特征进行融合,例如,将第一体素特征和第二体素特征进行拼接操作,或者,进行相加操作,可以得到第一素描图。或者,在将第一体素特征和第二体素特征进行融合之后,再对融合结果进行至少一次卷积操作,得到第一素描图。通过将第一体素特征和第二体素特征相结合,可以减少体素特征提取过程中的特征损失,从而可以提高第一素描图的准确程度。
本公开实施例中,可以基于当前场景的色彩图像以及第一素描图,得到针对当前场景进行补全的补全结果,下面通过一实施例对得到当前场景的补全结果的过程进行说明。
在一个可能的实现方式中,可以获取通过随机过程进行采样得到的至少一个第一采样信息,然后基于第一素描图以及至少一个第一采样信息,得到表示当前场景的空间结构的第二素描图,然后再基于当前场景的色彩图像以及第二素描图,得到针对当前场景进行补全的补全结果。
在该实现方式中,为了得到精度较高的补全结果,可以对第一素描图进行修整,得到经过修整的第二素描图,然后基于当前场景的色彩图像以及第二素描图,得到针对当前场景进行补全的补全结果。这里,可以获取通过随机过程进行采样得到的至少一个第一采样信息,然后利用上述语义补全网络的编码网络由第一素描图和第一采样信息得到补全结果。随机过程可以理解为随机变量在不同时刻形成观测值的过程。随机过程的随机变量可以服从相应的随机分布,随机分布可以理解为随机变量取值的概率规律,随机分布可以是高斯分布、伯努利分布、标准正态分布、均匀分布等随机分布。这里形成的观测值可以是第一采样信息。
举例来说,可以利用上述语义补全网络的编码解码网络对第一素描图和第一采样信息进行至少一次卷积操作、池化操作等,可以得到经过修整的第二素描图。或者,可以先利用上述语义补全网络的编码解码网络进行至少一次卷积操作、池化操作等操作,得到对第一素描图的卷积结果,然后再利用编码解码网络对第一素描图的卷积结果和采样信息至少一次卷积操作、池化操作等操作,得到经过修整的第二素描图。第二素描图相比于第一素描图而言,可以更加准确、更加完整地表示当前场景的空间结构,可以在一定程度上弥补输入信息缺失的不足,从而可以在提取色彩图像的图像特征的过程中,将第二素描图作为先验信息,可以得到精度更高的补全结果。
在该实现方式的一个示例中,可以基于第一素描图和所述至少一个第一采样信息,生成所述第一素描图的至少一个模拟结果,然后基于至少一个模拟结果,得到表示当前场景的空间结构的第二素描图。
在该示例中,可以利用上述编码解码网络对第一素描图和第一采样信息进行多次相同的处理,每次处理使用的第一采样信息可以不同,例如,在每次处理中,可以利用上述编码解码网络对第一素描图和一个第一采样信息进行至少一次卷积操作、池化操作等操作,得到一个模拟结果。由于每次处理使用的第一采样信息可以不同,从而每次处理得到的模拟结果也略有不同。然后可以将多次处理得到的多个模拟结果进行融合,例如,对多个模拟结果取均值或中间值,可以得到最终经过修整的第二素描图。通过结合多个模拟结果,可以得到更加准确的第二素描图。
在一个示例中,可以基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在该示例中,为了进一步提高补全结果的准确程度,可以在提取色彩图像的图像特征的过程中,将第一素描图和第二素描图均作为先验信息,利用语义补全网络对当前场景的色彩图像、第一素描图以及第二素描图共同进行特征提取,例如,将色彩图像、第一素描图以及第二素描图进行融合,然后再进行多次卷积操作等,可以得到精度更高的补全结果。
在一个示例中,可以对当前场景的色彩图像进行特征提取,得到色彩图像的图像特征,然后根据通过当前场景的深度图像得到的二维至三维的映射关系,将色彩图像的图像特征映射到三维体素空间,得到第二体素信息,再基于第二体素信息、第一素描图以及第二素描图,得到针对当前场景进行补全的补全结果。
该示例提供了一个基于当前场景的色彩图像、第一素描图以及第二素描图,得到针对当前场景进行补全的补全结果的示例。在该示例中,可以利用上述语义补全网络对色彩图像进行特征提取,例如,对色彩图像进行至少一次卷积操作、上采样操作、池化操作等操作,得到色彩图像的图像特征。然后通过二维至三维的映射关系,将色彩图像的图像特征映射到三维体素空间,得到当前场景的第二体素信息。由于色彩图像中具有当前场景的色彩信息以及纹理信息,第二体素信息相比于第一体素信息而言,可以更加准确地描述当前场景。
这里的二维至三维的映射关系可以是基于当前场景的深度图像得到的,例如,根据当前场景的深度图像以及深度图像在采集时图像采集装置的相机参数,例如,焦距、成像平面的尺寸、位姿信息等相机参数,可以确定二维至三维的映射关系。进一步基于第二体素信息、第一素描图以及第二素描图,可以得到针对当前场景进行补全的补全结果。
在一个示例中,可以将第一素描图映射到第二体素信息的三维体素空间,得到映射后的第一素描图,将第二素描图映射到第二体素信息的三维体素空间,得到映射后的第二素描图,然后将第二体素信息、映射后的第一素描图和所述映射后的第二素描图进行融合,得到融合结果,再基于融合结果得到针对当前场景进行补全的补全结果。
在该示例中,为了使第一体素信息和第二体素信息提供当前场景空间结构的指导,可以将第一素描图和第二素描图映射到蕴含有丰富颜色特征和纹理特征的第二体素信息的三维体素空间中,例如,通过一个空间映射矩阵,可以将第一素描图和第二素描图映射到第二体素信息的三维体素空间中。然后可以将第二体素信息、映射后的第一素描图和映射后的第二素描图进行融合,例如,将第二体素信息、映射后的第一素描图和映射后的第二素描图相加,可以得到融合结果。融合结果可以包括当前场景的颜色特征和纹理特征,同时,还包括经过修整的空间结构信息,从而由融合结果得到准确的补全结果。
在一个示例中,可以对融合结果进行至少一次卷积操作,得到当前场景的三维体素体以及三维体素体中每个体素所表示的目标对象的类别。
在该示例中,为了更好地得到补全结果,可以利用上述语义补全网络对融合结果进行至少一次卷积操作,得到第一融合特征,然后可以进一步对第一融合特征进行至少一次卷积操作,得到第二融合特征,然后将第一融合特征和第二融合特征进行相加,再利用上述语义补全网络对相加后得到的相加结果进行至少一次卷积操作,得到对当前场景进行补全的补全结果。补全结果可以是一个携带有所表示目标对象的类别的三维体素体。三维体素体可以包括多个体素,每个体素可以表示当前场景中的某个目标对象或者某个目标对象的一部分,每个体素可以携带相应体素所表示的目标对象的类别,这样,本公开实施例提供的方案不仅可以针对当前场景中被遮挡的部分进行补全,还可以对当前场景进行理解,确定当前场景中目标对象的类别,从而实现对当前场景进行语义补全。
下面通过一示例对利用语义补全网络得到针对当前场景进行补全的补全结果的过程进行说明。图3示出根据本公开实施例的语义补全网络的框图。
在该示例中,可以将对当前场景进行补全的补全结果的过程分为两个阶段,第一个阶段可以是得到第二素描图的过程,第二阶段可以是在第二素描图的指导下得到当前场景的补全结果的过程。第一阶段的输入可以是携带有当前场景几何信息的第一体素信息,第一体素信息可以是由当前场景的深度图像得到的,例如,利用符号距离函数由当前场景的深度图像得到带有当前场景几何信息的第一体素信息。可以使第一体素信息经过3层卷积层,将第一体素信息映射到高维特征空间中,然后再利用8个分解残差层对映射到高维空间的第一体素信息进行特征提取,得到一个特征图,该特征图的尺寸可以是第一体素信息的尺寸的1/4。该特征图再经过两个反卷积层进行上采样操作,可以得到与第一体素信息的尺寸相同的第一素描图。这里,经过前4个分解残差层可以得到第一体素信息的第一体素特征,第一体素特征经过4个分解残差层和一个反卷积层可以得到第二体素特征。通过跨连接操作可以将第一体素特征和第二体素特征进行融合,从而可以得到更好的第一素描图。
得到第一素描图之后,可以将第一素描图以及由高斯过程产生的第一采样信息输入语义补全网络中的解码器,利用解码器对第一素描图和第一采样信息进行多次处理,可以得到第一素描图的多个模拟结果,然后可以对多个模拟结果取平均值,得到最终修整的第二素描图。第二素描图相比于第一素描图更加精确、完整。这里,解码器可以基于条件变分自编码网络(CVAE,Conditional Variational Autoencoder)中的解码器部分得到的。
第二阶段的输入可以是当前场景的色彩图像,色彩图像中携带有当前场景的色彩信息和纹理信息,有利于图像特征的提取。可以先利用二维的残差神经网络ResNet-50对色彩图像进行特征提取,得到色彩图像的图像特征。然后可以利用由深度图像确定的投影关系将色彩图像的图像特征投影到三维体素空间中,得到第二体素信息。可以利用3个卷积层,将第一素描图以及第二素描图映射到和第二体素信息相同的三维体素空间中,并对映射后的第一素描图、映射后的第二素描图和第二体素信息进行加法,得到融合结果。然后再将融合结果经过8个分解残差层和2个反卷积层,得到对当前场景进行补全的补全结果。
上面对本公开实施例提供的利用语义补全网络得到当前场景的补全结果进行说明,下面通过一个或多个实例例对语义补全网络的训练过程进行说明。
在一个实现方式中,可以获取参考场景的样本图像以及样本体素信息,样本体素信息携带有参考场景的几何信息。然后将样本图像和样本体素信息输入构建的神经网络,得到神经网络输出的针对参考场景进行补全的输出结果。再基于输出结果与参考场景对应的语义标签,确定神经网络的网络损失,根据神经网络的网络损失对神经网络的网络参数进行调整,得到语义补全网络。这里,语义补全网络用于基于当前场景的色彩图像以及第一体素信息,得到针对当前场景进行补全的补全结果。
在该实现方式中,参考场景可以是样本图像采集的场景。样本图像可以是具有色彩特征的图像,例如,样本图像可以是RGB图像。样本体素信息可以是对参考场景进行模拟的体数据,样本体素信息根据参考场景的深度图像生成。样本体素信息携带有参考场景的几何信息,例如,可以携带样本体素信息中每个体素表示的参考场景中三维点到参考场景中最近表面的距离。将样本图像和样本体素信息输入构建的神经网络中,可以得到神经网络输出的针对参考场景进行补全的输出结果,输出结果可以是一个三维体素体,三维体素体中可以包括多个体素,每个体素可以表示参考场景中的某个参考对象或者某个参考对象的一部分,每个体素可以携带相应体素所表示的参考对象的预测类别。参考场景对应的语义标签可以包括参考对象的参考类别,该参考类别是参考对象的真实类别,例如,参考类别可以包括窗户、床、沙发等多个参考对象的类别。然后可以将输出结果与参考场景对应的语义标签进行对比,确定神经网络的网络损失,从而根据得到的网络损失对神经网络的网络参数进行调整,直到神经网络收敛,或者达到网络参数的最大调整次数,可以得到训练好的语义补全网络。通过对构建的神经网络训练,可以得到输出针对当前场景进行补全的补全结果的语义补全网络。
在一个可能的实现方式中,可以利用神经网络对样本体素信息进行特征提取,得到用于表示参考场景的空间结构的第三素描图,然后利用神经网络基于第三素描图以及参考素描图,得到用于表示所述参考场景的空间结构的第四素描图,基于第三素描图、第四素描图以及第一样本图,可以得到神经网络输出的针对所述参考场景进行补全的输出结果。
在该实现方式中,可以利用神经网络对样本体素信息进行特征提取,例如,对样本体素信息进行至少一次或多次卷积操作、上采样操作等,可以得到用于表示参考场景的空间结构的第三素描图。为了得到精度较高的输出结果,可以对第三素描图进行修整,由第三素描图以及参考素描图可以得到修整的第四素描图。然后可以第三素描图和第四素描图作为先验信息,根据第三素描图、第四素描图以及样本图像得到神经网络的输出结果,例如,可以二维的残差神经网络ResNet-50对样本图像进行特征提取,得到样本图像的图像特征。然后可以利用由参考场景的深度图像确定的投影关系将样本图像的图像特征投影到三维体素空间中,再利用卷积层,将第三素描图以及第四素描图映射到三维体素空间中,并对映射后的第一素描图、映射后的第二素描图和投影后的样本图像的图像特征进行相加,得到相加特征。然后再将相加特征进行至少一次卷积操作,得到神经网络的输出结果。通过将表示参考场景的空间结构的第三素描图和第四素描图作为先验信息,可以使神经网络得到较为准确的输出结果。
图4示出根据本公开实施例的得到第四素描图的框图。在基于第三素描图以及参考素描图得到第四素描图时,可以利用神经网络的编码解码网络的编码器εg对第三素描图
Figure BDA0002378615270000151
以及参考素描图Ggt进行编码,得到编码结果
Figure BDA0002378615270000152
这里,编码解码网络可以是条件变分自编码网络,参考素描图Ggt可以作为条件变分自编码网络的输入条件,编码结果
Figure BDA0002378615270000153
可以是一个服从高斯分布的数据集合,可近似为一个高斯过程。然后可以在编码结果中进行至少一次采样,得到多个采样结果然后再将第三素描图
Figure BDA0002378615270000154
和一个采样结果输入编码解码网络的解码器Dg,可以得到一个第一解码结果,多次将第三素描图
Figure BDA0002378615270000155
和一个采样结果输入编码解码网络的解码器可以得到多个第一解码结果。这里,每次输入解码器的采样结果可以不同,从而多个第一解码结果也可以不同,为了得到更加准确的第四素描图,可以对多个第一解码结果取平均值,得到第四素描图。通过这种方式得到准确表示参考场景的空间结果的第四素描图。
需要说明的是,由于在实际应用过程中没有参考素描图Ggt,可以直接从高斯过程中进行采样以得到当前场景修正后的素描图,即,通过上述第一采样信息和上述第一素描图生成上述第二素描图。
下面通过一可能的实现方式对训练上述神经网络使用的损失函数进行介绍。
在一个可能的实现方式中,可以根据输出结果与语义标签,确定神经网络的第一损失,可以根据第四素描图与参考素描图,确定神经网络的第二损失,然后可以基于第一损失和第二损失,确定所述神经网络的网络损失。
在该实现方式中,神经网络的网络损失可以包括多个损失,其中,第一损失可以是上述神经网络的输出结果与语义标签之间的差异确定的损失。将神经网络的输出结果与参考场景的语义标签进行对比,并根据对比结果确定神经网络的第一损失,可以通过语义标签对神经网络的输出结果进行约束,使调整网络参数后的神经网络的输出结果可以不断趋近于参考场景的语义标签。第二损失可以是第四素描图与参考素描图之间的差异确定的损失,参考素描图可以是基于参考场景的完整的体素信息得到的。将神经网络的第四素描图与神经网络的参考素描图进行对比,并根据对比结果确定神经网络的第二损失,可以通过参考素描图可以对神经网络得到的第四素描图进行约束,使调整网络参数后的神经网络得到的第四素描图可以不断趋近于参考场景的参考素描图。通过由第一损失和第二损失确定的网络损失对神经网络的网络参数进行调整,可以使神经网络得到更加准确的第四素描图和输出结果。
这里,第一损失的损失函数可以如公式(1)所示:
Figure BDA0002378615270000162
其中,
Figure BDA0002378615270000163
可以表示第一损失函数;Sgt可以表示参考场景的语义标签;Dss(XRGB))可以表示神经网络的输出结果,其中,XRGB可以表示参考场景的样本图像。根据参考场景的样本图像得到神经网络的输出结果可以被视为对样本图像进行编码解码的过程,基于此,εs可以表示此过程中的编码过程,Ds可以表示此过程中的解码过程。这里,∈可以表示交叉熵函数。
这里,第二损失的损失函数可以如公式(2)所示:
Figure BDA0002378615270000164
其中,
Figure BDA0002378615270000161
可以表示第二损失函数;Ggt可以表示参考场景的参考素描图;Dgg(XTSDF))可以表示神经网络得到的第四素描图,其中,XTSDF可以表示参考场景的样本体素信息。根据参考场景的样本体素信息得到第四素描图可以被视为对样本体素信息进行编码解码的过程,基于此,εg可以表示此过程中的编码过程,Dg可以表示此过程中的解码过程。这里,∈可以表示交叉熵函数。
利用上述公式(1)和公式(2),可以计算神经网络的第一损失和第二损失,进一步根据第一损失和第二损失可以得到神经网络的网络损失,从而可以根据神经网络的网络损失对神经网络的网络参数进行调整,实现对神经网络的训练。
在该实现方式的一个示例中,可以获取通过随机过程进行采样得到的至少一个第二采样信息,然后基于第三素描图以及至少一个第二采样信息,得到第五素描图;基于第五素描图与参考素描图之间的第一比对结果,以及第四素描图与参考素描图之间的第二比对结果,确定所述神经网络的第三损失,再基于所述第一损失、所述第二损失和所述第三损失,确定所述神经网络的网络损失。
在该示例中,神经网络的网络损失还可以包括第三损失。第三损失可以包括三个部分,其中,第一部分可以是第五素描图与参考素描图之间的差异形成的损失,第二部分可以是第四素描图与参考素描图之间的差异形成的损失,第三部分可以是编码结果
Figure BDA0002378615270000171
与高斯过程之间的差异形成的损失。第五素描图可以是通过随机过程进行采样得到的。通过对随机过程进行采样,可以得到多个第二采样信息,多个第二采样信息可以服从相应的随机分布。举例来说,随机过程可以是高斯过程,通过对高斯过程进行采样,可以得到多个第二采样信息,多个第二采样信息服从高斯分布。将第三素描图和一个第二采样信息输入上述编码解码网路中的解码器,可以得到一个第二解码结果,相应地,多次将第三素描图和一个第二采样信息输入上述编码解码网路中的解码器,可以得到多个第二解码结果。为了得到较为准确的第五素描图,可以将多个第二解码结果进行平均,得到第五素描图。然后将第五素描图与参考素描图进行比对,根据比对结果可以第五素描图与参考素描图之间的差异形成的损失,即,得到第三损失中的第一部分。将上述第四素描图与参考素描图进行比对,根据比对结果可以第四素描图与参考素描图之间的差异形成的损失,即,得到第三损失中的第二部分。为了使编码结果
Figure BDA0002378615270000172
近似模拟高斯过程,可以使用高斯分布(例如,标准正态分布)的随机过程对编码结果进行约束,即,得到第三损失中的第三部分。再将这三个部分的损失相加,或者,加权求和,可以得到最终的第三损失。
通过第三损失可以利用参考素描图对神经网络得到的第四素描图和第五素描图共同进行约束,使神经网络得到更加准确的第四素描图和第五素描图。进一步地,可以将第一损失和第二损失和第三损失相加,得到更加准确且更加全面的神经网络的网络损失。
这里,第三损失的损失函数可以如公式(3)所示:
Figure BDA0002378615270000181
其中,
Figure BDA0002378615270000182
可以是第三损失中的第一部分;
Figure BDA0002378615270000183
可以是第三损失中的第二部分和第三部分;α和β可以是超参数,可以根据实际应用场景进行设置,本公开不对α和β的取值进行限定。这里,可以将α设置为2,β设置为1.5。
Figure BDA0002378615270000184
其中,
Figure BDA0002378615270000185
可以表示第三损失中的第一部分;
Figure BDA0002378615270000186
可以表示第二采样信息z的期望,
Figure BDA0002378615270000187
可以是正态分布;
Figure BDA0002378615270000188
可以表示第五素描图
Figure BDA0002378615270000189
与参考素描图Ggt之间的交叉熵;
Figure BDA00023786152700001810
表示第三素描图。
Figure BDA00023786152700001811
其中,
Figure BDA00023786152700001812
可以表示第三损失中的第二部分和第三部分;
Figure BDA00023786152700001813
可以表示编码器的编码结果;编码结果可以视为一个随机过程;p(z)可以表示正态分布的随机过程;
Figure BDA00023786152700001814
可以表示对编码结果进行采样得到的采样结果
Figure BDA00023786152700001815
的期望;
Figure BDA00023786152700001816
可以是编码结果与正态分布的随机过程之间的相对熵,表示利用正态分布的随机过程约束编码结果,可以是第三损失中的第三部分;
Figure BDA00023786152700001817
可以是第四素描图与参考素描图之间的交叉熵,可以是第三损失中的第二部分。λ1和λ2可以是超参数,可以根据实际应用场景进行设置。
通过上述公式(4)和(5),可以计算第三损失中的三个部分,进而得到神经网络的第三损失。
通过对上述神经网络进行训练,可以得到用于对当前场景进行补全的语义补全网络。语义补全网络可以结合第一体素信息携带的当前场景的几何信息以及色彩图像携带的当前场景的纹理信息,得到当前场景较为精确的补全结果。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种信息处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
图5示出根据本公开实施例的信息处理装置的框图,如图5所示,所述装置包括:
获取模块51,用于获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息;
补全模块52,用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,补全模块52,具体用于基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图;基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述装置还包括:特征提取模块,用于根据所述第一体素信息携带的所述几何信息,对所述第一体素信息进行至少一次卷积操作,得到所述第一体素信息的第一体素特征;对所述第一体素特征进行至少一次卷积操作和/或上采样操作,得到所述第一体素信息的第二体素特征;
所述补全模块52,具体用于基于所述第一体素特征和所述第二体素特征,得到所述当前场景的空间结构的第一素描图。
在一个或多个实现方式中,补全模块52,具体用于获取通过随机过程进行采样得到的至少一个第一采样信息;基于所述第一素描图以及所述至少一个第一采样信息,得到表示所述当前场景的空间结构的第二素描图;基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,补全模块52,具体用于基于所述第一素描图和所述至少一个第一采样信息,生成所述第一素描图的至少一个模拟结果;基于所述至少一个模拟结果,得到表示所述当前场景的空间结构的第二素描图。
在一个或多个实现方式中,补全模块52,具体用于基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中补全模块52,具体用于对所述当前场景的色彩图像进行特征提取,得到所述色彩图像的图像特征;根据通过所述当前场景的深度图像得到的二维至三维的映射关系,将所述色彩图像的图像特征映射到三维体素空间,得到第二体素信息;基于所述第二体素信息、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,补全模块52,具体用于将所述第一素描图映射到所述第二体素信息的三维体素空间,得到映射后的第一素描图;将所述第二素描图映射到所述第二体素信息的三维体素空间,得到映射后的第二素描图;将所述第二体素信息、映射后的第一素描图和所述映射后的第二素描图进行融合,得到融合结果;基于所述融合结果得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,补全模块52,具体用于对所述融合结果进行至少一次卷积操作,得到所述当前场景的三维体素体以及所述三维体素体中每个体素所表示的目标对象的类别。
在一个或多个实现方式中,所述装置还包括:
训练模块,用于获取参考场景的样本图像以及样本体素信息,所述样本体素信息携带有参考场景的几何信息;将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果;基于所述输出结果与所述参考场景对应的语义标签,确定所述神经网络的网络损失;根据所述神经网络的网络损失对所述神经网络的网络参数进行调整,得到语义补全网络;其中,所述语义补全网络用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
在一个或多个实现方式中,所述训练模块,具体用于利用所述神经网络对所述样本体素信息进行特征提取,得到用于表示所述参考场景的空间结构的第三素描图;利用所述神经网络基于所述第三素描图以及所述参考素描图,得到用于表示所述参考场景的空间结构的第四素描图;基于所述第三素描图、所述第四素描图以及所述样本图像,得到所述神经网络输出的针对所述参考场景进行补全的输出结果。
在一个或多个实现方式中,所述训练模块,具体用于根据所述输出结果与所述语义标签,确定所述神经网络的第一损失;根据所述第四素描图与所述参考素描图,确定所述神经网络的第二损失;基于所述第一损失和所述第二损失,确定所述神经网络的网络损失。
在一个或多个实现方式中,所述训练模块,还用于获取通过随机过程进行采样得到的至少一个第二采样信息;基于所述第三素描图以及所述至少一个第二采样信息,得到第五素描图;基于所述第五素描图与所述参考素描图之间的第一比对结果,以及所述第四素描图与所述参考素描图之间的第二比对结果,确定所述神经网络的第三损失;基于所述第一损失、所述第二损失和所述第三损失,确定所述神经网络的网络损失。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图6是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图6,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种信息处理方法,其特征在于,包括:
获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息,所述第一体素信息为对所述当前场景进行模拟的体数据;
基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果,所述补全结果包括:三维体素体;
所述基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果,包括:
基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图;
基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果;
所述方法还包括:
根据所述第一体素信息携带的所述几何信息,对所述第一体素信息进行至少一次卷积操作,得到所述第一体素信息的第一体素特征;
对所述第一体素特征进行至少一次卷积操作和/或上采样操作,得到所述第一体素信息的第二体素特征;
所述基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图,包括:基于所述第一体素特征和所述第二体素特征,得到所述当前场景的空间结构的第一素描图。
2.根据权利要求1所述的方法,其特征在于,所述基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果,包括:
获取通过随机过程进行采样得到的至少一个第一采样信息;
基于所述第一素描图以及所述至少一个第一采样信息,得到表示所述当前场景的空间结构的第二素描图;
基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一素描图以及所述第一采样信息,得到表示所述当前场景的空间结构的第二素描图,包括:
基于所述第一素描图和所述至少一个第一采样信息,生成所述第一素描图的至少一个模拟结果;
基于所述至少一个模拟结果,得到表示所述当前场景的空间结构的第二素描图。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果,包括:
基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所5述当前场景进行补全的补全结果。
5.根据权利要求4所述的方法,其特征在于,所述基于所述当前场景的色彩图像、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果,包括:
对所述当前场景的色彩图像进行特征提取,得到所述色彩图像的图像特征;
0根据通过所述当前场景的深度图像得到的二维至三维的映射关系,将所述色彩图像的图像特征映射到三维体素空间,得到第二体素信息;
基于所述第二体素信息、所述第一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二体素信息、所述第5一素描图以及所述第二素描图,得到针对所述当前场景进行补全的补全结果,包括:
将所述第一素描图映射到所述第二体素信息的三维体素空间,得到映射后的第一素描图;
将所述第二素描图映射到所述第二体素信息的三维体素空间,得到映射后的第二素描图;
0将所述第二体素信息、映射后的第一素描图和所述映射后的第二素描图进行融合,得到融合结果;
基于所述融合结果得到针对所述当前场景进行补全的补全结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述融合结果得到针对所述当前场景进行补全的补全结果,包括:
5对所述融合结果进行至少一次卷积操作,得到所述当前场景的三维体素体以及所述三维体素体中每个体素所表示的目标对象的类别。
8.根据权利要求1-3、5-7任意一项所述的方法,其特征在于,所述方法还包括:
获取参考场景的样本图像以及样本体素信息,所述样本体素信息携带有参考场景的几何信息;
0将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果;
基于所述输出结果与所述参考场景对应的语义标签,确定所述神经网络的网络损失;根据所述神经网络的网络损失对所述神经网络的网络参数进行调整,得到语义补全网络;其中,所述语义补全网络用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
9.根据权利要求8所述的方法,其特征在于,所述将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果,包括:
利用所述神经网络对所述样本体素信息进行特征提取,得到用于表示所述参考场景的空间结构的第三素描图;
利用所述神经网络基于所述第三素描图以及参考素描图,得到用于表示所述参考场景的空间结构的第四素描图;
基于所述第三素描图、所述第四素描图以及所述样本图像,得到所述神经网络输出的针对所述参考场景进行补全的输出结果。
10.根据权利要求9所述的方法,其特征在于,所述基于所述输出结果与所述参考场景的语义标签,确定所述神经网络的网络损失,包括:
根据所述输出结果与所述语义标签,确定所述神经网络的第一损失;
根据所述第四素描图与所述参考素描图,确定所述神经网络的第二损失;
基于所述第一损失和所述第二损失,确定所述神经网络的网络损失。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取通过随机过程进行采样得到的至少一个第二采样信息;
基于所述第三素描图以及所述至少一个第二采样信息,得到第五素描图;
基于所述第五素描图与所述参考素描图之间的第一比对结果,以及所述第四素描图与所述参考素描图之间的第二比对结果,确定所述神经网络的第三损失;
所述基于所述第一损失和所述第二损失,确定所述神经网络的网络损失,包括:
基于所述第一损失、所述第二损失和所述第三损失,确定所述神经网络的网络损失。
12.一种信息处理装置,其特征在于,包括:
获取模块,用于获取当前场景的色彩图像和第一体素信息,所述第一体素信息携带有当前场景的几何信息,所述第一体素信息为对所述当前场景进行模拟的体数据;
补全模块,用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果,所述补全结果包括:三维体素体;
所述补全模块,具体用于基于所述第一体素信息的体素特征,得到用于表示所述当前场景的空间结构的第一素描图;基于所述当前场景的色彩图像以及所述第一素描图,得到针对所述当前场景进行补全的补全结果;
所述装置还包括:
特征提取模块,用于根据所述第一体素信息携带的所述几何信息,对所述第一体素信息进行至少一次卷积操作,得到所述第一体素信息的第一体素特征;对所述第一体素特征进行至少一次卷积操作和/或上采样操作,得到所述第一体素信息的第二体素特征;
所述补全模块,具体用于基于所述第一体素特征和所述第二体素特征,得到所述当前场景的空间结构的第一素描图。
13.根据权利要求12所述的装置,其特征在于,所述补全模块,具体用于获取通过随机过程进行采样得到的至少一个第一采样信息;基于所述第一素描图以及所述至少一个第一采样信息,得到表示所述当前场景的空间结构的第二素描图;基于所述当前场景的色彩图像以及所述第二素描图,得到针对所述当前场景进行补全的补全结果。
14.根据权利要求12或13所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取参考场景的样本图像以及样本体素信息,所述样本体素信息携带有参考场景的几何信息;将所述样本图像和所述样本体素信息输入构建的神经网络,得到所述神经网络输出的针对所述参考场景进行补全的输出结果;基于所述输出结果与所述参考场景对应的语义标签,确定所述神经网络的网络损失;根据所述神经网络的网络损失对所述神经网络的网络参数进行调整,得到语义补全网络;其中,所述语义补全网络用于基于所述当前场景的色彩图像以及所述第一体素信息,得到针对所述当前场景进行补全的补全结果。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至11中任意一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至11中任意一项所述的方法。
CN202010076496.6A 2020-01-23 2020-01-23 信息处理方法及装置、电子设备和存储介质 Active CN111311722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010076496.6A CN111311722B (zh) 2020-01-23 2020-01-23 信息处理方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010076496.6A CN111311722B (zh) 2020-01-23 2020-01-23 信息处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111311722A CN111311722A (zh) 2020-06-19
CN111311722B true CN111311722B (zh) 2023-03-21

Family

ID=71148301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010076496.6A Active CN111311722B (zh) 2020-01-23 2020-01-23 信息处理方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111311722B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022104774A1 (zh) * 2020-11-23 2022-05-27 华为技术有限公司 目标检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447923A (zh) * 2018-09-27 2019-03-08 中国科学院计算技术研究所 一种语义场景补全系统与方法
CN110047144A (zh) * 2019-04-01 2019-07-23 西安电子科技大学 一种基于Kinectv2的完整物体实时三维重建方法
CN110443842A (zh) * 2019-07-24 2019-11-12 大连理工大学 基于视角融合的深度图预测方法
CN110458939A (zh) * 2019-07-24 2019-11-15 大连理工大学 基于视角生成的室内场景建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180330194A1 (en) * 2017-05-15 2018-11-15 Siemens Aktiengesellschaft Training an rgb-d classifier with only depth data and privileged information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447923A (zh) * 2018-09-27 2019-03-08 中国科学院计算技术研究所 一种语义场景补全系统与方法
CN110047144A (zh) * 2019-04-01 2019-07-23 西安电子科技大学 一种基于Kinectv2的完整物体实时三维重建方法
CN110443842A (zh) * 2019-07-24 2019-11-12 大连理工大学 基于视角融合的深度图预测方法
CN110458939A (zh) * 2019-07-24 2019-11-15 大连理工大学 基于视角生成的室内场景建模方法

Also Published As

Publication number Publication date
CN111311722A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
Chen et al. Self-supervised learning of detailed 3d face reconstruction
CN110335330B (zh) 图像模拟生成方法及其系统、深度学习算法训练方法及电子设备
CN109300151B (zh) 图像处理方法和装置、电子设备
Li et al. The synthesis of unpaired underwater images using a multistyle generative adversarial network
CN111028279A (zh) 点云数据处理方法及装置、电子设备和存储介质
CN110276831B (zh) 三维模型的建构方法和装置、设备、计算机可读存储介质
CN114187624B (zh) 图像生成方法、装置、电子设备及存储介质
CN113781659A (zh) 一种三维重建方法、装置、电子设备及可读存储介质
Makarov et al. Depth inpainting via vision transformer
CN116051719A (zh) 一种基于神经辐射场模型的图像渲染方法及装置
CN113570695B (zh) 一种图像生成方法、装置及电子设备
CN111311722B (zh) 信息处理方法及装置、电子设备和存储介质
CN117095132B (zh) 基于隐式函数的三维重建方法和系统
CN114419091A (zh) 一种前景抠图方法、装置及电子设备
Garduño-Ramón et al. A new method for inpainting of depth maps from time-of-flight sensors based on a modified closing by reconstruction algorithm
Huang et al. Underwater image enhancement via LBP‐based attention residual network
CN117576292A (zh) 三维场景渲染方法及装置、电子设备、存储介质
CN117745944A (zh) 预训练模型确定方法、装置、设备以及存储介质
CN115656189B (zh) 基于光度立体与深度学习算法的缺陷检测方法及装置
Polasek et al. Vision UFormer: Long-range monocular absolute depth estimation
CN114842066A (zh) 图像深度识别模型训练方法、图像深度识别方法及装置
US20220058779A1 (en) Inpainting method and apparatus for human image, and electronic device
US20190286918A1 (en) Method and device for aiding the navigation of a vehicle
CN116645468B (zh) 人体三维建模方法、训练人体结构生成模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant