CN116205788B - 一种三维特征图的获取方法、图像处理方法及相关装置 - Google Patents

一种三维特征图的获取方法、图像处理方法及相关装置 Download PDF

Info

Publication number
CN116205788B
CN116205788B CN202310464995.6A CN202310464995A CN116205788B CN 116205788 B CN116205788 B CN 116205788B CN 202310464995 A CN202310464995 A CN 202310464995A CN 116205788 B CN116205788 B CN 116205788B
Authority
CN
China
Prior art keywords
dimensional
feature map
query
dimensional feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310464995.6A
Other languages
English (en)
Other versions
CN116205788A (zh
Inventor
李弘洋
张�浩
刘世隆
曾兆阳
李峰
任天和
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202310464995.6A priority Critical patent/CN116205788B/zh
Publication of CN116205788A publication Critical patent/CN116205788A/zh
Application granted granted Critical
Publication of CN116205788B publication Critical patent/CN116205788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种三维特征图的获取方法、图像处理方法及相关装置,方法包括获取目标场景的二维图像,提取二维图像的若干二维特征图;估计每张二维特征图的深度概率分布;基于二维特征图及深度概率分布,确定预设三维查询中的各查询的候选特征以得到若干候选特征;基于若干候选特征确定查询的目标特征,基于各查询的目标特征生成到二维图像对应的三维特征图。本申请在提取到二维特征图后,对二维特征图进行深度估计以得到深度概率分布,然后基于二维特征图和深度概率分布形成的三维空间确定三维特征图,这样将深度信息添加到二维特征图转换为三维特征图的过程中,可以消除三维特征图的深度歧义问题,从而可以提高三维特征图的准确性。

Description

一种三维特征图的获取方法、图像处理方法及相关装置
技术领域
本申请涉及图像处理技术领域,特别涉及一种三维特征图的获取方法、图像处理方法及相关装置。
背景技术
3D目标检测及分割等3D视觉任务是计算机视觉领域、机器人领域以及自动驾驶领域的一个基础任务。为了让3D视觉任务可以更快、更低成本地落地到实际生产中的各个领域(例如,自动驾驶领域等),以及可以对周遭世界的颜色信息的处理,基于2D图像的3D视觉任务逐渐被受到重视。其中,基于2D图像的3D视觉任务可以不依赖高精、高成本的雷达信息,仅使用一个或者多个低成本的图像相机所提供的RGB信息即可以完成3D视觉任务。
现有基于2D图像的3D视觉任务中,基于2D注意力机制将2D图像提取的二维特征图转换为三维特征图,然后通过Transformer来逐层优化转换得到的三维特征图的能力。然而,基于2D注意力机制进行图像转换时忽略了深度信息,容易导致通过Transformer优化得到的三维特征图含有深度歧义性问题,影响三维特征图的准确性。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种三维特征图的获取方法、图像处理方法及相关装置。
为了解决上述技术问题,本申请实施例第一方面提供了一种三维特征图的获取方法,所述方法包括:
获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;
估计每张二维特征图的深度概率分布;
对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;
基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。
所述的三维特征图的获取方法,其中,当所述二维图像为多张二维图像时,各二维图像对应的三维特征图对应的三维空间相同;所述基于各查询的目标特征生成所述二维图像对应的三维特征图之后,所述方法还包括:
将各二维图像各自对应的三维空间特征进行融合,以得到所述目标场景对应的三维特征图。
所述的三维特征图的获取方法,其中,所述预设三维查询的确定过程包括:
为所述目标场景选取三维感兴趣空间;
在所述三维感兴趣空间中选取若干查询,并为每个查询随机生成初始特征,以得到预设三维查询。
所述的三维特征图的获取方法,其中,所述基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征具体包括:
基于所述深度概率分布将所述二维特征图扩展为三维扩展图,以得到若干三维扩展图;
对于每张三维扩展图,在所述三维扩展图所处的三维像素空间中确定预设三维查询中的每个查询对应的采样点;
基于所述采样点及所述三维扩展图确定所述查询的候选特征,以得到每个查询的若干候选特征。
所述的三维特征图的获取方法,其中,所述基于所述深度概率分布将所述二维特征图扩展为三维扩展图具体包括:
将所述深度概率分布与所述二维特征图做外积,以将所述二维特征图扩展为三维扩展图,其中,所述三维扩展图携带有深度信息。
所述的三维特征图的获取方法,其中,所述在所述三维扩展图所处的三维像素空间中确定预设三维查询中的每个查询对应的采样点具体包括:
将预设三维查询投影至所述三维扩展图对应的三维像素坐标系,得到投影三维查询;
对于投影三维查询中的每个投影查询,基于所述投影查询的位置信息以及所述投影查询的初始特征确定所述投影查询对应的采样点,以得到所述查询对应的采样点。
所述的三维特征图的获取方法,其中,基于所述采样点及所述三维扩展图确定所述查询的候选特征具体包括:
在所述三维扩展图中选取所述采样点对应的第一预设数量的候选采样点,通过对第一预设数量的候选采样点的特征向量进行三线性插值确定所述采样点的特征向量;
将所述采样点的特征向量作为所述查询的候选特征。
所述的三维特征图的获取方法,其中,所述基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征具体包括:
确定预设三维查询中的每个查询在所述二维特征图以及所述深度概率分布所形成的三维像素空间中的位置信息;
基于所述位置信息确定所述查询对应的三维坐标点;
基于深度概率分布确定所述三维坐标点对应的权重系数,并基于所述权重系数以及所述二维特征图确定所述查询的候选特征。
所述的三维特征图的获取方法,其中,所述基于深度概率分布确定所述三维坐标点对应的权重系数具体包括:
获取所述三维坐标点对应的深度坐标,并基于所述深度坐标及预设深度阈值确定目标深度值和深度概率集;
基于所述目标深度值和深度概率集进行单线性插值,以得到权重系数。
所述的三维特征图的获取方法,其中,所述基于所述权重系数以及所述二维特征图确定所述查询的候选特征具体包括:
基于所述三维坐标点中的二维图像坐标在所述二维特征图中选取第二预设数量的候选图像点;
基于所述权重系数对所述第二预设数量的候选图像点进行双线性插值,以得到所述查询的候选特征。
本申请实施例第二方面提供了一种图像处理方法,应用如上所述的三维特征图的获取方法,所述图像处理方法包括:
采用所述三维特征图的获取方法获取目标图像对应的三维空间特征;
基于所述三维空间特征确定所述目标图像对应的图像信息。
所述图像处理方法,其中,所述图像信息为目标图像中的目标物品的物品类别,和/或目标物品的物品位置信息。
本申请实施例第二方面提供了一种三维特征图的获取装置,所述装置包括:
提取模块,用于获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;
估计模块,用于估计每张二维特征图的深度概率分布;
确定模块,用于对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;
生成模块,用于基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。
本申请实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的三维特征图的获取方法中的步骤,和/或以实现如上所述的图像处理方法中的步骤。
本申请实施例第五方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上所述的三维特征图的获取方法中的步骤,和/或实现如上所述的图像处理方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种三维特征图的获取方法、图像处理方法及相关装置,所述方法包括获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;估计每张二维特征图的深度概率分布;对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。本申请在提取到二维特征图后,对二维特征图进行深度估计以得到深度概率分布,然后基于二维特征图和深度概率分布形成的三维空间确定三维特征图,这样将深度信息添加到二维特征图转换三维特征图的过程中,可以消除三维特征图的深度歧义问题,从而可以提高三维特征图的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的三维特征图的获取方法的流程图。
图2为本申请提供的三维特征图的获取方法的候选特征的确定过程的原理流程图。
图3为本申请提供的三维特征图的获取方法中的候选特征的确定过程的另一个实现方式的原理流程图。
图4为本申请提供的图像处理方法的流程图。
图5为本申请提供的三维特征图的获取装置的结构原理图。
图6为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种三维特征图的获取方法、图像处理方法及相关装置,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
经过研究发现,3D目标检测及分割等3D视觉任务是计算机视觉领域、机器人领域以及自动驾驶领域的一个基础任务。为了让3D视觉任务可以更快、更低成本地落地到实际生产中的各个领域(例如,自动驾驶领域等),以及可以对周遭世界的颜色信息的处理,基于2D图像的3D视觉任务逐渐被受到重视。其中,基于2D图像的3D视觉任务可以不依赖高精、高成本的雷达信息,仅使用一个或者多个低成本的图像相机所提供的RGB信息即可以完成3D视觉任务。
现有基于2D图像的3D视觉任务中,基于2D注意力机制将2D图像提取的二维特征图转换为三维特征图后,然后通过Transformer来逐层优化转换得到的三维特征图的能力。然而,基于2D注意力机制进行图像转换时忽略了深度信息,容易导致通过Transformer优化得到的三维特征图含有深度歧义性问题,影响三维特征图的准确性。
为了解决上述问题,在本申请实施例中,获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;估计每张二维特征图的深度概率分布;对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。本申请在提取到二维特征图后,对二维特征图进行深度估计以得到深度概率分布,然后基于二维特征图和深度概率分布形成的三维空间确定三维特征图,这样将深度信息添加到二维特征图转换三维特征图的过程中,可以消除三维特征图的深度歧义问题,从而可以提高三维特征图的准确性。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种三维特征图的获取方法,如图1所示,所述方法包括:
S10、获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图。
具体地,目标场景为用于执行3D视觉任务的场景,例如,自动驾驶场景,机器人行走场景等。二维图像可以通过图像采集装置(例如,图像相机、摄像头等)拍摄得到的RGB图像,其中,获取到的二维图像可以为一张,也可以为多张,当获取到的二维图像为多张时,多张二维图像用于共同确定目标场景对应的三维特征图,换句话说,不管获取到的二维图像为一张二维图像,还是多张二维图像,最终确定的三维特征图均为一张。此外,当获取到二维图像为多张时,多张二维图像对应的拍摄时刻相同。例如,目标场景为自动驾驶场景,获取到的二维图像为6张二维图像,6张二维图像根本是通过车载的六个摄像头同时拍摄的六个视角的二维图像。此外,值得说明的是,当获取到多张二维图像时,每张二维图像的执行过程均相同,这里以一张二维图像为例进行说明,当多张二维图像时,仅需要将各张二维图像各自对应的三维特征图进行融合即可。
若干二维特征图中的每张二维特征图均为对二维图像进行特征提取所得到的,并且各张二维特征图的图像尺寸互不相同,各张二维特征图的通道数相同。例如,若干二维特征图包括二维特征图a和二维特征图b,其中,二维特征图a的图像尺度为H1×W1×C,二维特征图b的图像尺度为H2×W2×C。在一个实现方式中,若干二维特征图可以通过经过训练的特征提取模型提取得到的,其中,特征提取模型可以为ResNet50或ResNet101等网络模型,若干二维特征图为特征提取模型中的不同网络层所提取到的特征图,例如,若干二维特征图为四张二维特征图,其为特征提取模型的四个网络层提取到的。
S20、获取每张二维特征图的深度概率分布。
具体地,所述深度概率分别用于反映二维特征图中的各特征点的深度分布信息,其中,深度概率分布可以通过预先训练的深度估计网络确定的,即将二维特征图输入深度估计网络,通过深度估计网络输出二维特征图对应的深度概率分布,其中,深度估计网络可以包括卷积模块和多层感知器模块,卷积模块与多层感知器模块相连接,卷积模块的输出项为多层感知器模块的输入项。在实际应用中,卷积模块可以包括若干级联的卷积层,或者是,包括若干级联的卷积单元,每个卷积单元均包括卷积层、批归一化层和激活函数层等。
S30、对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征。
具体地,预设三维查询包括若干查询,若干查询中的每个查询均为一个配置有特征向量的三维锚点。也就是说,每个查询均配置有三维坐标和特征向量,三维坐标用于反映查询的位置信息,特征向量用于反映查询所携带的特征信息。其中,查询的特征向量可以采用随机生成的方式确定的,也可以直接采用默认特征向量等。
在一个实现方式中,所述预设三维查询的确定过程包括:
为所述目标场景选取三维感兴趣空间;
在所述三维感兴趣空间中选取若干查询,并为每个查询随机生成初始特征,以得到预设三维查询。
具体地,三维感兴趣空间为目标场景所处三维空间的子空间,三维感兴趣空间所处的三维坐标系为目标场景所处的世界坐标系,其中,世界坐标系为以三维空间中的预设点为原点,单位为米的坐标系。三维感兴趣空间可以是根据目标场景确定的,例如,对于自动驾驶场景,三维感兴趣空间可以为车辆前后左右50m,上下5m的范围内的三维空间;对于机器人行走,可以为机器人前后左右2m,上下1米范围内的三维空间等。
在获取到三维感兴趣空间后,由于三维感兴趣空间为连续空间,从而需要在三维感兴趣空间内选取若干离散的三维锚点,并将选取到的三维锚点作为查询,其中,离散的三维锚点可以通过随机离散选取的方式确定,也可以是通过网格化的方式选取等。在选取到若干查询后,为每个查询设置初始特征以得到查询的特征向量,其中,初始特征采用随机初始化方式得到的,每个查询维护各自对应的初始特征。
查询对应的若干候选特征与若干二维特征图一一对应,每个二维特征图及其对应的深度概率分布均会确定一个候选特征。其中,候选特征为三维特征,候选特征对应的像素点包含于二维特征图和深度概率分布所形成的三维像素空间内。也就是说,候选特征所对应的像素点的三维坐标包括二维特征图的图像宽度维度,二维特征图的图像高度维度以及深度维度,例如,候选特征的三维坐标为,其中,/>属于图像宽度维度,/>属于图像高度维度,/>属于深度维度。
候选特征可以采用一步获取的方式确定,也可与采用分步获取的方式确定,其中,一步获取的方式指的是直接基于由二维特征图和深度概率分布确定的三维扩展图确定候选特征,分步获取的方式指的是首先基于深度概率分布维度确定权重系数,然后基于二维特征图和权重系数确定候选特征。
在一个实现方式中,如图2所示,所述基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征具体包括:
S311、基于所述深度概率分布将所述二维特征图扩展为三维扩展图,以得到若干三维扩展图;
S312、对于每张三维扩展图,在所述三维扩展图所处的三维像素空间中确定预设三维查询中的每个查询对应的采样点;
S313、基于所述采样点及所述三维扩展图确定所述查询的候选特征,以得到每个查询的若干候选特征。
具体地,在步骤D311中,深度概率分布包括二维特征图中的每个像素点的离散的深度概率分布,可以通过为二维特征图中的每个像素点配置深度概率分布的方式将二维特征图从二维空间扩展为三维空间,以形成三维扩展图,其中,三维扩展图比二维特征图多一个深度维度。
在一个实现方式中,所述基于所述深度概率分布将所述二维特征图扩展为三维扩展图具体包括:
将所述深度概率分布与所述二维特征图做外积,以将所述二维特征图扩展为三维扩展图。
具体地,三维扩展图包括二维特征图的图像宽度维度、图像高度维度和深度维度,其中,深度维度等于深度概率分布的深度维度与二维特征图的通道维度的乘积。例如,二维特征图的图像尺度为WxHxC,离散深度分布的图像尺度为WxHxD,其中,D为表示深度维度;那么三维扩展图的图像尺度为WxHxDxC。
进一步,在步骤S312中,采样点所处的三维空间为三维扩展图所处的三维像素空间,也就是说,采样点处于三维扩展图所处的三维像素坐标系内。而预设三维查询处于目标场景对应的世界坐标系内,从而在确定查询对应的采样点时,可以将预设三维查询投影至三维扩展图所处的三维像素坐标系内,然后在基于投影的查询来确定采样点。基于此,所述在所述三维扩展图所处的三维像素空间中确定预设三维查询中的每个查询对应的采样点具体包括:
将预设三维查询投影至所述三维扩展图对应的三维像素坐标系,得到投影三维查询;
对于投影三维查询中的每个投影查询,基于所述投影查询的位置信息以及所述投影查询的初始特征确定所述投影查询对应的采样点,以得到所述查询对应的采样点。
具体地,三维像素坐标系是以二维特征图的图像中心为原点,图像宽度方向、图像高度方向和深度方向为三个方向的三维坐标系,其中,图像宽度方向和图像高方向的单位为像素,深度方向的单位为米。投影三维查询可以基于二维图像对应的拍摄相机的相机参数将预设三维查询投影至三维像素坐标系内所得到的,其中,投影三维查询的确定过程可以为:根据拍摄二维图像所用的拍摄相机的相机内参和相机外参,通过透视投影变换将预设三维查询从世界坐标系变换到三维扩展图对应的三维像素坐标系,以得到投影三维查询。其中,相机外参为将查询的三维坐标由世界坐标系转换到二维图像所对应的拍摄相机的相机坐标系所需的参数,相机外参可以包括拍摄相机自身相对于世界坐标系原点的平移以及旋转等。相机内参为将查询在相机坐标系下对应的坐标转变到三维像素坐标系所需的参数,相机内参可以包括相机的焦距,一个像素在相机感光板上的物理长度(即一个像素在相机感光板上是多少毫米)等。
进一步,投影查询的位置信息指的是投影查询在三维像素坐标系中的三维坐标,在确定投影查询的位置信息后,可以基于位置信息确定投影查询对应的采样点,其中,采样点的确定过程可以为:将投影查询的位置信息以及投影查询的初始特征输入经过训练的采样模型,通过所述采样模型输出投影查询对应的采样点,或者采样点和各采样点对应的注意力值,其中,注意力值用于将各二维特征图对应的候选特征进行加权。
在一个实现方式中,采样模型配置有注意力机制,通过注意力机制确定投影查询对应的采样点以及采样点对应的注意力值,其中,在通过注意力机制确定采样点时,可以将投影查询的初始特征作为查询,将位置信息作为键和值,然后通过注意力机制在三维像素坐标系中查询投影查询对应的采样点及采样点对应的注意力值。采样模块可以包括多层感知器,通过多层感知器确定候选查询对应的采样点和采样点对应的注意力值。当然,在实际应用中,采样模块还可以采用其他配置有注意力机制的模型来确定采样点及注意力值,这里就不一一说明。
进一步,在步骤S313中,由于三维扩展图包括若干离散的三维图像点,从而在获取到采样点后,可以在三维扩展图中选取第一预设数量的候选采样点,然后基于各候选采样点各自对应的特征向量来生成采样点对应的特征向量。基于此,所述基于所述采样点及所述三维扩展图确定所述查询的候选特征具体包括:
在所述三维扩展图中选取所述采样点对应的第一预设数量的候选采样点,通过对第一预设数量的候选采样点的特征向量进行三线性插值确定所述采样点的特征向量;
将所述采样点的特征向量作为所述查询的候选特征。
具体地,第一预设数量为预先设置的,例如,8,16,32等。在本实施例中,所述第一预设数量为8,即选取距离采样点最邻近的8个图像特征点作为候选采样点。可以理解的是,基于采样点的三维坐标在三维扩展图中选取距离采样点最近的8个图像特征点,并将选取到的8个图像特征点作为采样点的候选采样点。此外,在获取到采样点对应的候选采样点后,可以采用对第一预设数量的候选采样点的特征向量进行三线性插值的方式确定采样点的特征向量。
在另一个实现方式中,所述基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征具体包括:
S321、确定预设三维查询中的每个查询在所述二维特征图以及所述深度概率分布所形成的三维像素空间中的位置信息;
S322、基于所述位置信息确定所述查询对应的三维坐标点;
S323、基于深度概率分布确定所述三维坐标点对应的权重系数,并基于所述权重系数以及所述二维特征图确定所述查询的候选特征。
具体地,三维像素空间与上述实现方式中的三维像素空间相同;并且确定查询在三维像素空间中的位置信息的过程与上述实现方式也相同(例如,均是通过基于相机参数的透视投影实现的);若干三维坐标点的确定过程与若干采样点的确定过程相同(例如,均是通过配置有注意力机制的采样模块确定的),这里就不具体说明,具体可以参照上述实现方式的说明过程。例如,如图3所示,三维坐标点在三维像素空间可以选取到的最邻近的候选三维坐标点/>,其中,每个候选三维坐标点均对应一个图像特征点/>,/>为其所对应的2D图像特征,/>为/>经过深度估计得到的深度概率分布,/>则为从/>中根据各个候选三维坐标点的深度值所采样得到的深度概率值。
进一步,在获取到三维坐标点后,可以确定三维坐标点对应的若干候选三维坐标点/>,然后基于三维坐标点的深度坐标以及候选三维坐标点中的深度坐标,可以沿深度维度进行单线性插值得到权重系数,其中,权重系数为三维坐标点对应的二维图像点的插值系数。基于此,所述基于深度概率分布确定所述三维坐标点对应的权重系数具体包括:
获取所述三维坐标点对应的深度坐标,并基于所述深度坐标及预设深度阈值确定目标深度值和深度概率集;
基于所述目标深度值和深度概率集进行单线性插值,以得到权重系数。
具体地,如图3所示,查询对应的三维坐标点为,其中,所述深度信息为三维坐标点的深度坐标/>,预设深度阈值为预先设置的,用于确定目标深度值/>和深度概率集/>,/>表示深度概率集,目标深度值/>用于反映深度坐标与第一参考深度和第二参考深度的位置关系,深度概率集包括三维坐标点对应的二维图像坐标的图像特征在基于深度信息和预设深度阈值确定第一参考深度和第二参考深度处从深度概率分布中采样到的深度概率值。其中,第一参考深度/>,第二参考深度,目标深度值/>,/>表示预设深度阈值,/>表示深度坐标。
进一步,权重系数为沿深度维度进行单线性插值得到,其中,权重系数的表达式可以为:
其中,,/>表示三维坐标点对应的二维图像坐标的图像特征在第一参考深度处从深度概率分布中采样到的深度概率值,/>表示三维坐标点对应的二维图像坐标的图像特征在第二参考深度处从深度概率分布中采样到的深度概率值。
进一步,由于对于三维空间中的两个坐标点,当两个坐标点在图像宽度维度和图像高度维度的坐标相同时,而在基于二维特征图和深度概率分布确定的三维像素空间中选取到的第一预设数量的候选三维坐标点中,存在四组候选坐标点组,每组候选坐标点组中的两个候选坐标点对应的图像宽度维度和图像高度维度的坐标相同。从而可以在二维特征图中基于权重系数对四组候选坐标组各自对应的二维图像特征进行双线性插值得到查询的候选特征。
基于此,所述基于所述权重系数以及所述二维特征图确定所述查询的候选特征具体包括:
基于所述三维坐标点中的二维图像坐标在所述二维特征图中选取第二预设数量的候选图像点;
基于所述权重系数对所述第二预设数量的候选图像点进行双线性插值,以得到所述查询的候选特征。
具体地,第二预设数量为基于第一预设数量确定,第二预设数量等于第一预设数量的候选坐标点所形成的候选坐标组的数量。在本实施例中,第一预设数量为8,第二预设数量为4。其中,第二预设数量的候选图像点的确定可以为:通过上述实现方式的方式在三维像素空间中选取第一预设数量的候选三维坐标点,然后将候选三维坐标点按照图像宽度维度和图像高度维度的坐标相同进行分组,得到四组候选三维坐标点,最后基于每组候选三维坐标点中的图像宽度维度和图像高度维度在二维特征图中选取候选图像点,以得到第二预设数量的候选图像点。
在获取到第二预设数量的候选图像点后,将基于权重系数对所述第二预设数量的候选图像点进行双线性插值,以得到所述查询的候选特征,其中,候选特征的表达式可以为:
其中,表示目标深度值,/>,/>表示深度概率集,/>表示图像宽度坐标,/>表示图像高度坐标,/>,/>表示候选图像点的特征向量。
S40、基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。
具体地,目标特征可以是通过对若干候选特征进行加权得的,也可以是按照预设条件在若干候选特征中选取的一个候选特征,还可以是若干候选特征中的部分候选特征加权得到的。在本实施例中,目标特征为若干候选特征进行加权得到的,使得目标特征可以融合不同感受野的二维特征图中查询的特征信息,其中,若干候选特征进行加权的加权系数可以是预先设置的,也可以是为查询的采样点的注意力值,其中,查询的候选特征为基于采样点确定的。
在一个实现方式中,每个采样点均携带有注意力值,所述在获取到查询对应的若干候选特征后,将各采样点对应的注意力值作为各采样点对应的候选特征的加权系数,然后将各候选特征进行加权以得到查询的目标特征。本实施例通过基于注意力机制确定查询对应的采样点的注意力值,然后将各候选特征基于各自对应的采样点的注意力值进行加权来确定目标特征,这样通过注意力机制确定各查询的目标特征,然后在基于各查询的目标特征形成三维空间特征,使得三维空间特征可以进行逐层优化(例如,将本申请的方法融合到Transformer的结构中,通过Transformer进行逐层优化),以得更优的三维空间特征。
进一步,在获取到各查询的目标特征后,可以直接基于各查询的目标特征生成二维图像对应饿三维特征图,其中,三维特征图中的每个特征点对应的特征向量为其对应的查询的目标向量。此外,在实际应用中,在获取到查询的目标特征后,可以将查询的目标特征作为初始特征更新预设三维查询,然后再重新执行基于二维特征图和深度概率分别确定预设三维查询中的每个查询的目标特征的过程,直至执行次数达到预设次数,这样通过不断更新预设三维查询中的每个查询的目标特征,可以提高每个预审查询在基于二维特征图和深度概率分布确定的三维像素空间中的空间位置,从而可以提供用于确定查询对应的采样点的准确性,从而可以提高确定的目标特征的准确性。
在一个实现方式,由于在获取二维图像时,可以获取到多张二维图像,从而也可以确定得到目标场景对应的多张三维特征图。因此,在获取到多张二维图像时,在获取到二维图像对应的三维特征图后,会将各二维图像各自对应的三维特征图进行融合得到目标场景对应的三维特征图。相应的,当所述二维图像为多张二维图像时,各二维图像对应的三维特征图对应的三维空间相同;所述基于各查询的目标特征生成所述二维图像对应的三维特征图之后,所述方法还包括:
将各二维图像各自对应的三维空间特征进行融合,以得到所述目标场景对应的三维特征图。
具体地,各二维图像各自对应的三维空间特征位于相同的三维空间,从而在将各三维空间特征进行融合时可以在三维空间特征所处的三维空间中将各二维图像各自对应的三维空间特征进行拼接,其中,对于位置信息相同的三维特征点,可以通过取均值的方式确定该位置信息对应的最终三维特征点。
综上所述,本实施例提供了一种三维特征图的获取方法,所述方法包括获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;估计每张二维特征图的深度概率分布;对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。本申请在提取到二维特征图后,对二维特征图进行深度估计以得到深度概率分布,然后基于二维特征图和深度概率分布形成的三维空间确定三维特征图,这样将深度信息添加到二维特征图转换三维特征图的过程中,可以消除三维特征图的深度歧义问题,从而可以提高三维特征图的准确性。
基于上述一种三维特征图的获取方法,本实施例提供了一种图像处理方法,应用如上所述的三维特征图的获取方法,如图4所示,所述图像处理方法包括:
N10、采用所述三维特征图的获取方法获取目标图像对应的三维空间特征;
N20、基于所述三维空间特征确定所述目标图像对应的图像信息。
所述图像处理方法,其中,所述图像信息为目标图像中的目标物品的物品类别,和/或目标物品的物品位置信息。
基于上述三维特征图的获取方法,本实施例提供了一种三维特征图的获取装置,如图5所示,所述装置包括:
提取模块100,用于获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;
估计模块200,用于估计每张二维特征图的深度概率分布;
确定模块300,用于对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;
生成模块400,用于基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。
基于上述三维特征图的获取方法和/或基于上述图像处理方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的三维特征图的获取方法和/或上述图像处理方法中的步骤。
基于上述三维特征图的获取方法,本申请还提供了一种终端设备,如图6所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种三维特征图的获取方法,其特征在于,所述方法包括:
获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;
估计每张二维特征图的深度概率分布;
对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;
基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。
2.根据权利要求1所述的三维特征图的获取方法,其特征在于,当所述二维图像为多张二维图像时,各二维图像对应的三维特征图对应的三维空间相同;所述基于各查询的目标特征生成所述二维图像对应的三维特征图之后,所述方法还包括:
将各二维图像各自对应的三维空间特征进行融合,以得到所述目标场景对应的三维特征图。
3.根据权利要求1所述的三维特征图的获取方法,其特征在于,所述预设三维查询的确定过程包括:
为所述目标场景选取三维感兴趣空间;
在所述三维感兴趣空间中选取若干查询,并为每个查询随机生成初始特征,以得到预设三维查询。
4.根据权利要求1-3任意一项所述的三维特征图的获取方法,其特征在于,所述基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征具体包括:
基于所述深度概率分布将所述二维特征图扩展为三维扩展图,以得到若干三维扩展图;
对于每张三维扩展图,在所述三维扩展图所处的三维像素空间中确定预设三维查询中的每个查询对应的采样点;
基于所述采样点及所述三维扩展图确定所述查询的候选特征,以得到每个查询的若干候选特征。
5.根据权利要求4所述的三维特征图的获取方法,其特征在于,所述基于所述深度概率分布将所述二维特征图扩展为三维扩展图具体包括:
将所述深度概率分布与所述二维特征图做外积,以将所述二维特征图扩展为三维扩展图,其中,所述三维扩展图携带有深度信息。
6.根据权利要求4所述的三维特征图的获取方法,其特征在于,所述在所述三维扩展图所处的三维像素空间中确定预设三维查询中的每个查询对应的采样点具体包括:
将预设三维查询投影至所述三维扩展图对应的三维像素坐标系,得到投影三维查询;
对于投影三维查询中的每个投影查询,基于所述投影查询的位置信息以及所述投影查询的初始特征确定所述投影查询对应的采样点,以得到所述查询对应的采样点。
7.根据权利要求4所述的三维特征图的获取方法,其特征在于,所述基于所述采样点及所述三维扩展图确定所述查询的候选特征具体包括:
在所述三维扩展图中选取所述采样点对应的第一预设数量的候选采样点,通过对第一预设数量的候选采样点的特征向量进行三线性插值确定所述采样点的特征向量;
将所述采样点的特征向量作为所述查询的候选特征。
8.根据权利要求1-3任意一项所述的三维特征图的获取方法,其特征在于,所述基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征具体包括:
确定预设三维查询中的每个查询在所述二维特征图以及所述深度概率分布所形成的三维像素空间中的位置信息;
基于所述位置信息确定所述查询对应的三维坐标点;
基于深度概率分布确定所述三维坐标点对应的权重系数,并基于所述权重系数以及所述二维特征图确定所述查询的候选特征。
9.根据权利要求8所述的三维特征图的获取方法,其特征在于,所述基于深度概率分布确定所述三维坐标点对应的权重系数具体包括:
获取所述三维坐标点对应的深度坐标,并基于所述深度坐标及预设深度阈值确定目标深度值和深度概率集;
基于所述目标深度值和深度概率集进行单线性插值,以得到权重系数。
10.根据权利要求8所述的三维特征图的获取方法,其特征在于,所述基于所述权重系数以及所述二维特征图确定所述查询的候选特征具体包括:
基于所述三维坐标点中的二维图像坐标在所述二维特征图中选取第二预设数量的候选图像点;
基于所述权重系数对所述第二预设数量的候选图像点进行双线性插值,以得到所述查询的候选特征。
11.一种图像处理方法,其特征在于,应用如权利要求1-10任意一项所述的三维特征图的获取方法,所述图像处理方法包括:
采用所述三维特征图的获取方法获取目标图像对应的三维空间特征;
基于所述三维空间特征确定所述目标图像对应的图像信息。
12.根据权利要求11所述图像处理方法,其特征在于,所述图像信息为目标图像中的目标物品的物品类别,和/或目标物品的物品位置信息。
13.一种三维特征图的获取装置,其特征在于,所述装置包括:
提取模块,用于获取目标场景对应的二维图像,并提取所述二维图像的若干二维特征图;
估计模块,用于估计每张二维特征图的深度概率分布;
确定模块,用于对于每张二维特征图,基于所述二维特征图以及所述二维特征图对应的深度概率分布,确定预设三维查询中的每个查询的候选特征,以得到每个查询的若干候选特征;
生成模块,用于基于若干候选特征确定所述查询的目标特征,并基于各查询的目标特征生成所述二维图像对应的三维特征图。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-10任意一项所述的三维特征图的获取方法中的步骤,和/或以实现如权利要求11-12任意一项所述的图像处理方法中的步骤。
15.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-10任意一项所述的三维特征图的获取方法中的步骤,和/或实现如权利要求11-12任意一项所述的图像处理方法中的步骤。
CN202310464995.6A 2023-04-27 2023-04-27 一种三维特征图的获取方法、图像处理方法及相关装置 Active CN116205788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310464995.6A CN116205788B (zh) 2023-04-27 2023-04-27 一种三维特征图的获取方法、图像处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310464995.6A CN116205788B (zh) 2023-04-27 2023-04-27 一种三维特征图的获取方法、图像处理方法及相关装置

Publications (2)

Publication Number Publication Date
CN116205788A CN116205788A (zh) 2023-06-02
CN116205788B true CN116205788B (zh) 2023-08-11

Family

ID=86513192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310464995.6A Active CN116205788B (zh) 2023-04-27 2023-04-27 一种三维特征图的获取方法、图像处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN116205788B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447718A (zh) * 2016-08-31 2017-02-22 天津大学 一种2d转3d深度估计方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN112396703A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种单图像三维点云模型重建方法
CN113673400A (zh) * 2021-08-12 2021-11-19 土豆数据科技集团有限公司 基于深度学习的实景三维语义重建方法、装置及存储介质
CN115346207A (zh) * 2022-08-03 2022-11-15 北京交通大学 一种基于实例结构相关性的二维图像中三维目标检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI469086B (zh) * 2011-04-26 2015-01-11 Univ Nat Cheng Kung 利用紋理特徵之影像分割法
US9414048B2 (en) * 2011-12-09 2016-08-09 Microsoft Technology Licensing, Llc Automatic 2D-to-stereoscopic video conversion
WO2020030331A1 (en) * 2018-08-07 2020-02-13 Siemens Healthcare Gmbh 3d depth reconstruction of vessels in 2d medical images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447718A (zh) * 2016-08-31 2017-02-22 天津大学 一种2d转3d深度估计方法
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN112396703A (zh) * 2020-11-18 2021-02-23 北京工商大学 一种单图像三维点云模型重建方法
CN113673400A (zh) * 2021-08-12 2021-11-19 土豆数据科技集团有限公司 基于深度学习的实景三维语义重建方法、装置及存储介质
CN115346207A (zh) * 2022-08-03 2022-11-15 北京交通大学 一种基于实例结构相关性的二维图像中三维目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动机器人环境识别与语义理解;马会芳;《中国博士学位论文全文数据库 (信息科技辑)》;第2021年卷(第01期);I140-139 *

Also Published As

Publication number Publication date
CN116205788A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
JP6745328B2 (ja) 点群データを復旧するための方法及び装置
US10885659B2 (en) Object pose estimating method and apparatus
CN111563923B (zh) 获得稠密深度图的方法及相关装置
CN109683699B (zh) 基于深度学习实现增强现实的方法、装置及移动终端
JP6902122B2 (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
CN110176032B (zh) 一种三维重建方法及装置
Bergman et al. Deep adaptive lidar: End-to-end optimization of sampling and depth completion at low sampling rates
US10621446B2 (en) Handling perspective magnification in optical flow processing
CN107735797B (zh) 用于确定第一坐标系与第二坐标系之间的运动的方法
Panek et al. Meshloc: Mesh-based visual localization
US20220392201A1 (en) Image feature matching method and related apparatus, device and storage medium
CN107862733B (zh) 基于视线更新算法的大规模场景实时三维重建方法和系统
CN114445265A (zh) 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层
CN112541950A (zh) 一种深度相机外参的标定方法、及装置
CN115830406A (zh) 一种基于多视差尺度的快速光场深度估计方法
CN113963117A (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
Liu et al. Graphcspn: Geometry-aware depth completion via dynamic gcns
Lin et al. SAN: Scale-aware network for semantic segmentation of high-resolution aerial images
CN114445479A (zh) 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层
CN116205788B (zh) 一种三维特征图的获取方法、图像处理方法及相关装置
CN116485697A (zh) 基于图像块匹配和视差优化的立体匹配方法
CN115601275A (zh) 点云增广方法及装置、计算机可读存储介质、终端设备
CN115409949A (zh) 模型训练方法、视角图像生成方法、装置、设备及介质
Ruchay et al. Real-time dense 3D object reconstruction using RGB-D sensor
KR20150102011A (ko) 다른 이미지들로부터의 정보의 함수들에 기초한 범함수를 사용한 대상 이미지 생성

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant