CN116258754A - 一种图像处理方法、装置及设备 - Google Patents

一种图像处理方法、装置及设备 Download PDF

Info

Publication number
CN116258754A
CN116258754A CN202111499904.XA CN202111499904A CN116258754A CN 116258754 A CN116258754 A CN 116258754A CN 202111499904 A CN202111499904 A CN 202111499904A CN 116258754 A CN116258754 A CN 116258754A
Authority
CN
China
Prior art keywords
depth map
depth
scale
image
scale factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111499904.XA
Other languages
English (en)
Inventor
向显嵩
柳跃天
李良骥
鲍文
刘养东
曾柏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202111499904.XA priority Critical patent/CN116258754A/zh
Priority to PCT/CN2022/133950 priority patent/WO2023103792A1/zh
Publication of CN116258754A publication Critical patent/CN116258754A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种图像处理方法、装置及设备,涉及终端技术领域。该方法可以利用目标场景的图像对应的相对深度图,对该目标场景对应的原始稀疏深度图中的有效点进行筛选,以剔除了原始稀疏深度图中的异常值;以及将剔除异常值的原始稀疏深度图和该目标场景的图像输入至神经网络,以得到所需的深度图。由此,通过剔除原始稀疏深度图中的异常值,减少了后续处理过程中深度图的变形失真,提升了后续处理得到的深度图的质量。

Description

一种图像处理方法、装置及设备
技术领域
本申请涉及终端技术领域,尤其涉及一种图像处理方法、装置及设备。
背景技术
获取场景的深度图是手机等设备为用户提供增强现实(augmented reality,AR)体验的关键技术。其中,设备可以通过场景的深度图,感知和理解到其所处的客观环境,进而实现场景重建、虚实遮挡等功能。因此,场景的深度图的完整度、准确度和精细度影响了后续AR特效的体验。
发明内容
本申请提供了一种图像处理方法、装置、设备、计算机存储介质及计算机程序产品,能够利用目标场景的相对深度图对原始稀疏深度图中的有效点进行筛选,剔除了原始稀疏深度图中的异常值,减少了深度图的变形失真,提升了后续处理得到的深度图的质量。
第一方面,本申请提供一种图像处理方法,包括:获取目标场景的第一图像;将第一图像输入至第一神经网络,以得到第一图像对应的第一深度图;获取目标场景对应的第二深度图,第二深度图至少用于表征目标场景中所包含的部分景物的深度信息,其中,第二深度图所包含的深度信息少于或等于第一深度图所包含的深度信息;基于第一深度图,剔除第二深度图中的异常值,得到第三深度图;将第一图像和第三深度图输入至第二神经网络,以得到第四深度图;输出第四深度图。这样,利用目标场景的相对深度图(即第一深度图)对原始稀疏深度图(即第二深度图)中的有效点进行筛选,剔除了原始稀疏深度图中的异常值,减少了深度图的变形失真,提升了后续处理得到的深度图的质量。示例性的,第一神经网络和第二神经网络可以为同一个神经网络。
在一种可能的实现方式中,将第一深度图和第三深度图输入至第二神经网络之前,还包括:基于尺度因子,对第三深度图进行尺度变换,尺度因子基于第一深度图和第二深度图确定,尺度因子用于表征第一深度图和第二深度图之间的比例;输出第四深度图之前,还包括:基于尺度因子,对第四深度图进行尺度反变换。由此通过尺度变换使得输入至神经网络中的深度图对应的图像条件可以与该神经网络的训练数据集相匹配,降低了神经网络输出的深度图对应的尺度与真实值间的误差,保证了深度估计结果符合实际尺度,提升了神经网络输出的深度图的质量,同时也提升了深度估计算法的通用性。
在一种可能的实现方式中,当尺度因子用于表征第二深度图相对于第一深度图的比例时,基于尺度因子,对第三深度图进行尺度变换,具体包括:将第三深度图中的每个点对应的深度值均除以尺度因子;基于尺度因子,对第四深度图进行尺度反变换,具体包括:将第四深度图中的每个点对应的深度值均乘以尺度因子。
在一种可能的实现方式中,当尺度因子用于表征第一深度图相对于第二深度图的比例时,基于尺度因子,对第三深度图进行尺度变换,具体包括:将第三深度图中的每个点对应的深度值均乘以尺度因子;基于尺度因子,对第四深度图进行尺度反变换,具体包括:将第四深度图中的每个点对应的深度值均除以尺度因子。
在一种可能的实现方式中,基于尺度因子,对第三深度图进行尺度变换之前,还包括:确定第一图像的图像条件与第二神经网络对应的训练数据集不匹配,其中,图像条件包括视场角和横纵比中的一项或多项。由此,在第一图像的图像条件与第二神经网络对应的训练集不匹配时再进行尺度变换,降低了系统的计算量,提升了系统的稳定性,节省了功耗。示例性的,训练数据集可以理解为训练时所用到的数据的集合。
在一种可能的实现方式中,基于第一深度图,剔除第二深度图中的异常值,得到第三深度图,具体包括:分别确定第二深度图中每个第一目标点的深度值与第一深度图中第二目标点的深度值间的比值,以得到N个比值,其中,第二深度图中包括N个第一目标点,N为大于或等于1的正整数,第二目标点为与第一目标点的位置相同的点;根据N个比值,确定尺度因子,尺度因子用于表征第一深度图和第二深度图之间的比例;分别确定每个第一目标点对应的目标比值与尺度因子之间的偏差值,以得到N个偏差值,目标比值为第一目标点与第二目标点间的比值;在第二深度图中,将N个偏差值中未处于预设偏差范围内的偏差值对应的第一目标点剔除,以得到第三深度图。
在一种可能的实现方式中,第一图像通过图像采集装置获得;第二深度图通过深度传感器和/或利用惯性传感器并结合多视几何算法获得。
第二方面,本申请提供一种图像处理装置,包括至少一个处理器和接口;至少一个处理器通过接口获取程序指令或者数据;至少一个处理器用于执行程序行指令,以实现第一方面所提供的方法。
第三方面,本申请提供一种设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面所提供的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行第一方面所提供的方法。
第五方面,本申请提供一种计算机程序产品,其特征在于,当计算机程序产品在电子设备上运行时,使得电子设备执行第一方面所提供的方法。
可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
图1是本申请实施例提供的一种得到深度图的过程示意图;
图2是本申请实施例提供的另一种得到深度图的过程示意图;
图3是本申请实施例提供的一种设备的硬件结构示意图;
图4是本申请实施例提供的一种图像处理方法的系统框架示意图;
图5是本申请实施例提供的另一种图像处理方法的系统框架示意图;
图6是本申请实施例提供的一种图像处理方法的流程示意图;
图7是本申请实施例提供的一种由原始稀疏深度图得到稀疏深度图和尺度因子的过程意图;
图8是本申请实施例提供的另一种图像处理方法的步骤示意图;
图9是本申请实施例提供的一种定位装置的硬件结构示意图。
具体实施方式
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
示例性的,图1示出了一种得到深度图的过程。如图1所示,该得到深度图的过程为:将摄像头采集的场景的红绿蓝(red,green,blue;RGB)图像直接输入到一个预先训练好的单目深度估计神经网络中。通过该单目深度估计神经网络对RGB图像进行处理,得到稠密深度图,即得到所需的深度图。但这种方式得到的深度图与实际的深度图之间往往存在尺度差异,一般只是将这种深度图作为相对深度图。此外,当实际获取到的图像的条件(比如:视场角(field of view,FOV)、横纵比等)与神经网络中的训练集不匹配时,神经网络输出的深度图对应的尺度与真实值间的误差往往较大,因此,这种方式的通用性较差。
示例性的,图2示出了另一种得到深度图的过程。如图2所示,该得到深度图的过程为:使用主动测距设备(如:激光雷达等),或者多视几何方法(如双目匹配、视觉里程计等),得到场景的部分深度,即图2中所示的原始稀疏深度图。然后,再将得到的原始稀疏深度图和摄像头采集的场景的RGB图像一起输入一个预先训练好的联合深度估计神经网络中。通过该联合深度估计神经网络对原始稀疏深度图和RGB图像进行处理,得到稠密、绝对尺度深度图,即得到所需的深度图。其中,该联合深度估计神经网络一方面具有单目深度估计神经网络的稠密深度图输出能力;另一方面由于融合了场景的部分深度信息,其预测值比只用RGB图像作输入的单目深度估计神经网络更加准确。但由于神经网络的预测尺度由训练数据决定,因此,这种方式仍然存在通用性较差的问题。此外,神经网络输出的深度往往依赖于图像相应位置的输入深度,而输入信息中的异常深度(如测距设备的深度折叠值、多视几何中的误匹配点等)会严重影响输出深度图,使输出的深度结构变形失真。
为提升深度图的质量,以提升后续AR特效的体验,本申请提供了一种图像处理方法。该方法可以将目标场景的图像对应的相对深度图与该目标场景对应的至少包含有该目标场景中部分深度信息的第一深度图进行比较,以剔除该第一深度图中的异常值,进而通过神经网络对该剔除异常值的第一深度图和目标场景的图像进行处理,以得到所需的深度图。由此避免第一深度图中的异常值对后续输出的深度图的影响,提升了神经网络输出的深度图的质量。此外,该方法中还可以由目标场景的图像对应的相对深度图和第一深度图得到一个尺度因子,该尺度因子可以表示第一深度图与相对深度图之间的比例关系;以及,在将第一深度图输入神经网络之前,可以利用该尺度因子对第一深度图进行尺度变化,从而使得第一深度图的图像条件与神经网络的训练集相匹配,由此使得神经网络在理想的尺度上进行预测,提升神经网络输出的深度图的质量。另外,在神经网络输出深度图后,利用该尺度因子对神经网络输出的深度图再次进行尺度变化,以使得获取到的深度图的尺度与第一深度图的尺度(即实际尺度)一致,再次提升神经网络输出的深度图的质量。在一个例子中,深度信息可以但不限于指所检测到的物体各个点的三维坐标信息。
示例性的,图3示出了一种设备的硬件结构。如图3所示,该设备300可以包括处理器311、存储器312、图像采集装置313和深度图获取装置314。
其中,处理器311是设备300的计算核心及控制核心。处理器311可以包括一个或多个处理单元。例如,处理器311可以包括应用处理器(application processor,AP)、调制解调器(modem)、图形处理器(graphics processing unit,GPU)、图像信号处理器(imagesignal processor,ISP)、控制器、视频编解码器、数字信号处理器(digital signalprocessor,DSP)、基带处理器、和/或神经网络处理器(neural-network processing unit,NPU)等中的一项或多项。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
存储器312可以存储有程序,程序可被处理器311运行,使得处理器311执行本申请提供的方法。存储器312还可以存储有数据。处理器311可以读取存储器312中存储的数据。存储器312和处理器311可以单独设置。可选地,存储器312也可以集成在处理器311中。
图像采集装置313用于采集场景中的图像。该图像采集装置313可以但不限于为摄像头、相机等。该图像采集装置313可以集成在设备300上,也可以与设备300单独布置。其中,当两者单独布置时,两者之间可以但不限于通过有线网络或无线网络建立连接。
深度图获取装置314用于获取场景中的深度图;其中,该深度图可以但不限于是局部的、范围有限的、低分辨率的、包含个别较大错误值的场景的深度图。深度图获取装置314可以为深度传感器,比如激光雷达等,该深度传感器集成在设备300上,也可以与设备300单独布置,当深度传感器与设备300单独布置时,两者之间可以但不限于通过有线网络或无线网络建立连接。此外,该深度图获取装置314也可以为惯性传感器(inertial measurementunit,IMU)。该惯性传感器可以用于支持设备300进行视觉同步定位与建图(simultaneouslocalization and mapping,SLAM)运算,进而提供场景中特征点的位置信息,该信息可以但不限于是局部的、范围有限的、低分辨率的、包含个别错误值的。示例性的,当深度图像获取装置314为惯性传感器时,在获取深度图时可以利用惯性传感器并结合多视几何算法得到深度图。
可以理解的是,本方案图3示意的结构并不构成对设备300的具体限定。在本方案另一些实施例中,设备300可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
可以理解的是,本申请实施例中,设备300可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对该电子设备的具体类型不作特殊限制。
示例性的,图4示出了一种图像处理方法的系统框架。如图4所示,该系统框架可以包括联合深度估计神经网络模块、尺度计算&一致性筛选模块和尺度变换/反变换模块。其中,各个模块的名称仅是示意性说明,也可以根据实际情况变更这些模块的名称,变更名称后的方案仍在本申请的保护范围内。
在该系统框架下,首先,可以利用联合深度估计神经网络模块对场景对应的RGB图像进行处理,例如使用单目深度估计算法处理等,得到该RGB图像对应的场景的相对深度图;即将场景对应的RGB图像作为联合深度估计神经网络模块的输入。其中,该相对深度图虽然尺度不佳,但其所表达的RGB图像中景物的前后关系合理。可以理解的是,场景的RGB图像也可以替换为其他形式的图像,比如黑白图像等,替换后的方案仍在本申请的保护范围内。
然后,将该相对深度图和利用深度图获取装置(比如上文所描述的深度图获取装置314)获取到的原始稀疏深度图输入至尺度计算&一致性筛选模块,通过尺度计算&一致性筛选模块对原始稀疏深度图进行尺度计算和一致性筛选,以得到稀疏深度图和尺度因子。由此,以剔除该原始稀疏深度图中的异常值,避免原始稀疏深度图中的异常值对后续输出的深度图的影响,提升后续输出的深度图的质量。其中,原始稀疏深度图是至少包含有RGB图像对应的场景中部分深度信息的深度图;稀疏深度图是将原始稀疏深度图中的异常信息剔除后所得到的深度图;尺度因子是原始稀疏深度图与相对深度图之间的比例关系。
接着,可以通过尺度变换/反变换模块使用尺度因子对得到的稀疏深度图进行尺度变换,以使得该稀疏深度图的条件(比如:视场角(field of view,FOV)、横纵比等)与联合深度估计神经网络模块中的训练数据集相匹配,进而以降低联合深度估计神经网络模块输出的深度图对应的尺度与真实值间的误差,提升后续输出的深度图的质量和联合深度估计神经网络模块中神经网络的通用性。其中,尺度变换/反变换模块此时的输入为尺度因子和稀疏深度图。
接着,将场景对应的RGB图像和已进行尺度变换的稀疏深度图同时输入至联合深度估计神经网络模块。通过该联合深度估计神经网络模块对场景对应的RGB图像和已进行尺度变换的稀疏深度图进行处理。
最后,可以通过尺度变换/反变换模块使用尺度因子对联合深度估计神经网络模块输出的结果进行尺度反变换,以得到稠密、绝对尺度深度图,即得到所需的深度图。其中,由于前边步骤已对稀疏深度图进行尺度变换,所以在后续需要对联合深度估计神经网络模块输出的结果进行尺度反变换,以使得这两个深度图中的信息相匹配。
在一些实施例中,在实施过程中,在得到稀疏深度图后,也可以不对其进行尺度变换,而是直接将其和场景对应的RGB图像输入至联合深度估计神经网络模块。这时联合深度估计神经网络模块输出的结果即为所需的深度图,此时也不需要对联合深度估计神经网络模块输出的结果进行尺度反变换。其中,当不需要对稀疏深度图进行尺度变换时,尺度计算&一致性筛选模块也可以不输出尺度因子。
图5示出了另一种图像处理方法的系统框架。其中,图5与图4的主要区别在于:图5中获取场景的RGB图像和获取场景对应的原始稀疏深度图的装置均集成在设备300上,而图4中获取场景的RGB图像和获取场景对应的原始稀疏深度图的装置可以均集成在设备300上,也可以部分或全部与设备300单独布置。
下面基于上文所描述的内容,对本申请提供的图像处理方法进行详细描述。为便于叙述,以与设备300配套的图像采集装置313采集到的图像为RGB图像,且图像采集装置313为彩色摄像头为例,当然了,当图像采集装置313采集到的图像不是RGB图像的方案,仍在本申请的保护范围之内。
示例性的,图6示出了一种图像处理方法的流程。如图6所示,该图像处理方法可以包括以下步骤:
S601、将由彩色摄像头采集的目标场景的RGB图像单独输入联合深度估计网络,进行单目深度估计获得相对深度图。
具体地,彩色摄像头采集到目标场景的RGB图像后,可以将该RGB图像单独输入联合深度估计网络,进行单目深度估计获得相对深度图。其中,该相对深度图虽然尺度不佳,但其所表达的RGB图像中景物的前后关系合理。示例性的,联合深度估计网络可以是预先训练好的RGB-D(深度)四通道输入的神经网络,该网络在进行单目深度估计时,将输入数据中的深度通道填零即可。
S602、将原始稀疏深度图和相对深度图进行尺度计算和一致性筛选,得到联合深度估计网络的尺度因子和剔除异常值后的稀疏深度图。
具体地,得到目标场景对应的相对深度图后,在获取到原始稀疏深度图后,可以将它们进行尺度计算和一致性筛选,从而得到联合深度估计网络的尺度因子和剔除异常值后的稀疏深度图。其中,原始稀疏深度图是包含有目标场景中部分深度信息的深度图,该深度图中所包含的深度信息可能是局部的、范围有限的、低分辨率的、包含个别较大错误值的。
可以理解的是,由于相对深度图中反应的景物的前后关系是合理的,因此可以利用该相对深度图剔除掉原始稀疏深度图中的不合理的点,进而使得得到的稀疏深度图更为准确,这就提升了后续得到的深度图的质量。此外,该步骤也可以理解为是使用由彩色摄像头采集到的场景的RGB图像和对应的深度传感器或者机器视觉算法得到的场景深度图(该深度图所包含的深度信息可能是局部的、范围有限的、低分辨率的、包含个别较大错误值的),通过融合计算得到场景对应的深度图(即稀疏深度图)。
作为一种可能的实现方式,如图7所示,得到尺度因子和稀疏深度图的过程可以包括以下步骤:
S701、将原始稀疏深度信息通过投影到RGB相机视角、升/降采样、合并等方法,获得原始稀疏深度图。
具体地,当前期获取到的是目标场景对应的原始稀疏深度信息时,可以将原始稀疏深度信息通过投影到RGB相机视角、升/降采样、合并等方法,获得原始稀疏深度图,由此以得到原始稀疏深度图。
在一个例子中,当前期获取的是原始稀疏深度图时,该步骤则可以省略。
S702、计算原始稀疏深度图中每个有效深度值和相对深度图中对应位置的深度值之比r,以及所有r的平均值R。
具体地,得到原始稀疏深度图后,可以计算原始稀疏深度图中每个有效深度值和相对深度图中对应位置的深度值之比r。以及计算所有r的平均值R。
S703、对于原始稀疏深度图中每个有效点,计算每个有效点对应的r/R。
具体地,得到R后,可以分别计算原始稀疏深度图中每个有效点对应的r/R。示例性的,有效点可以理解为是在原始稀疏深度图中的有效深度值对应的点。
S704、判断N个有效点中的第i个有效点对应的r/R是否处于预设范围,i的初始值为1,N为原始稀疏深度图中有效点的总数。
具体地,将N个有效点中的第i个有效点对应的r/R与预设范围进行对比,即可以确定出该第i个有效点是否处于预设范围内,若是,则执行S705,否则,则执行S706。i的初始值为1,N为原始稀疏深度图中有效点的总数。其中,当第i个有效点未处于预设范围内时,表明该第i个有效点为离群点,即该点为异常值,因此可以剔除该有效点,即执行S706。当第i个有效点处于预设范围内时,表明该第i个有效点为正常值值,因此可以保留该有效点,即执行S705。
S705、保留第i个有效点,以及i=i+1。
具体地,当第i个有效点对应的r/R处于预设范围内时,则保留该点。以及将i=i+1,并执行S707,以便遍历到N个有效点中的每个有效点。
S706、剔除第i个有效点,以及i=i+1。
具体地,当第i个有效点对应的r/R未处于预设范围内时,则剔除该点。以及将i=i+1,并执行S707,以便遍历到N个有效点中的每个有效点。
S707、判断i是否小于或等于N。
具体地,将i与N进行比较即可以确定出两者的大小。其中,当i小于或等于N时,表明此时未遍历到N个有效点中的每个点,因此可以返回执行S704;当i大于N时,表明此时已遍历到N个有效点中的每个点,此时已经可以得到剔除异常点的稀疏深度图,因此可以结束遍历过程,即执行S708。
S708、得到稀疏深度图。
具体地,在遍历完N个有效点中的每个有效点后,即可以得到稀疏深度图。
S709、将R作为尺度因子。
具体地,可以将上述得到的R作为尺度因子。
在一些实施例中,继续参阅图7,可以重复执行S702至S708,直至迭代M轮,M为大于或等于1的正整数,或者直至无有效点可剔除。其中,在重复执行S702至S708时,本次执行S702中所需的原始稀疏深度图可以为前次执行S702至S708所得到的稀疏深度图。此外,S709所得到的R为最后一次执行S702所得到的R,且最终获取到的稀疏深度图为最后一次执行S702至S708所获取到的稀疏深度图。
这样就得到了稀疏深度图和尺度因子,之后即可以执行S603。
S603、利用尺度因子对获取到的稀疏深度图进行尺度变换。
具体地,在得到稀疏深度图和尺度因子后,可以利用尺度因子对获取到的稀疏深度图进行尺度变换。
示例性的,当R为原始稀疏深度图相对于相对深度图的尺度因子时,尺度变换可以为将筛选后得到的稀疏深度图中每个有效点深度值除以尺度因子R进行缩放。在一个例子中,当上述r为原始稀疏深度图中每个有效深度值除以相对深度图中对应位置的深度值得到的值时,R可以理解为是原始稀疏深度图相对于相对深度图的尺度因子。
当R为相对深度图相对于原始稀疏深度图的尺度因子时,尺度变换可以为将筛选后得到的稀疏深度图中每个有效点深度值乘以尺度因子R进行缩放。在一个例子中,当上述r为相对深度图中与原始稀疏深度图中每个有效深度值相对应的位置处的深度值除以原始稀疏深度图中对应位置的深度值得到的值时,R可以理解为是相对深度图相对于原始稀疏深度图的尺度因子。
S604、将尺度变换后的稀疏深度图和目标场景的RGB图像拼接为RGB-D(深度)四通道输入数据同时输入联合深度估计网络,并经联合深度估计网络处理后得到一个深度图。
具体地,在得到尺度变换后的稀疏深度图后,可以将该稀疏深度图和目标场景的RGB图像拼接为RGB-D(深度)四通道输入数据同时输入联合深度估计网络,并经联合深度估计网络处理后得到一个深度图。
S605、将联合深度估计网络输出的深度图进行尺度反变换,得到所需的深度图。
具体地,在联合深度估计网络输出深度图后,可以对该深度图进行尺度反变换,进而得到所需的深度图(即稠密、绝对尺度深度图)。
示例性的,当尺度因子为原始稀疏深度图相对于相对深度图的尺度因子时,尺度反变换是指将神经网络输出的深度图中每个有效点深度值乘以尺度因子R进行缩放;当尺度因子为相对深度图相对于原始稀疏深度图的尺度因子时,尺度反变换是指将神经网络输出的深度图中每个有效点深度值除以尺度因子R进行缩放其中,尺度反变换是与上述尺度变换相反的过程。
在一些实施例中,当不需要尺度变换时,S602中也可以不用得到尺度因子,同时,在执行S602后可以直接执行S604,并将S604输出的结果作为最终所需的结果。
在一些实施例中,当需要尺度变换时,在S601由彩色摄像头采集的目标场景的RGB图像的图像条件(比如视场角、横纵比等)与联合深度估计网络对应的训练集不匹配。当不需要尺度变换时,在S601由彩色摄像头采集的目标场景的RGB图像的图像条件与联合深度估计网络对应的训练集匹配。
由此,通过利用目标场景的相对深度图对原始稀疏深度图中的有效点进行筛选,剔除了原始稀疏深度图中的异常值,减少了深度图的变形失真,提升了后续处理得到的深度图的质量。另外,通过尺度变换使得输入至神经网络中的深度图对应的图像条件可以与该神经网络中的数据集相匹配,降低了神经网络输出的深度图对应的尺度与真实值间的误差,保证了深度估计结果符合实际尺度,提升了神经网络输出的深度图的质量,同时也提升了神经网络和/或深度估计算法的通用性。
接下来,基于上文所描述的图像处理方法,对本申请实施例提供的另一种图像处理方法进行介绍。可以理解的是,该方法是上文所描述的图像处理方法的另一种表达方式,两者是相结合的。该方法是基于上文所描述的图像处理方法提出,该方法中的部分或全部内容可以参见上文中图像处理方法的描述。
请参阅图8,图8是本申请实施例提供的一种图像处理方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图8所示,该图像处理方法包括:
S801、获取目标场景的第一图像。
具体地,可以当不限于通过图像采集装置(比如相机、摄像头等)获取目标场景的第一图像。示例性的,该第一图像可以但不限于为RGB图像。
S802、将第一图像输入至第一神经网络,以得到第一图像对应的第一深度图。
具体地,获取到第一图像后,可以将该第一图像输入至第一神经网络,以通过第一神经网络对第一图像进行处理,例如通过单目深度估计算法处理第一图像,得到该第一图像对应的第一深度图。示例性的,该第一深度图可以为上文图6中所描述的相对深度图。
S803、获取目标场景对应的第二深度图,第二深度图至少用于表征目标场景中所包含的部分景物的深度信息,其中,第二深度图所包含的深度信息少于或等于第一深度图所包含的深度信息。
具体地,可以但不限于通过深度图获取装置(比如深度传感器和/或惯性传感器等)获取目标场景对应的第二深度图。第二深度图至少用于表征目标场景中所包含的部分景物的深度信息,其中,第二深度图所包含的深度信息少于或等于第一深度图所包含的深度信息。示例性的,第二深度图可以为上文图6中所描述的原始稀疏深度图。
S804、基于第一深度图,剔除第二深度图中的异常值,得到第三深度图。
具体地,确定出第一深度图和第二深度图后,可以基于第一深度图,剔除第二深度图中的异常值,得到第三深度图。示例性的,第三深度图可以为上文图6中所描述的稀疏深度图。在一个例子中,剔除可以理解为移除、去除等,其所表达的意思上在第二深度图中保留下正常值,而去除掉异常值。
作为一种可能的实现方式,可以先分别确定第二深度图中每个第一目标点的深度值与第一深度图中第二目标点的深度值间的比值,以得到N个比值,其中,第二深度图中包括N个第一目标点,N为大于或等于1的正整数,第二目标点为与第一目标点的位置相同的点。然后,再根据N个比值,确定用于表征第一深度图和第二深度图之间的比例的尺度因子。接着,再分别确定每个第一目标点对应的目标比值与尺度因子之间的偏差值,以得到N个偏差值,其中,目标比值为第一目标点与第二目标点间的比值。最后,在第二深度图中,将N个偏差值中未处于预设偏差范围内的偏差值对应的第一目标点剔除,以得到第三深度图。其中,该过程可以参见上文图7中的相关描述,此处就不再一一赘述。示例性的,该偏差值可以为比值或差值,预设偏差范围可以但不限于为上文图7中所描述的预设范围。
S805、将第一图像和第三深度图输入至第二神经网络,以得到第四深度图。
具体地,得到第三深度图后,可以将第一图像和第三深度图同时或分时输入至第二神经网络中,得到第四深度图。示例性的,该第二神经网络与第一神经网络可以为同一神经网络。
S806、输出第四深度图。
具体地,得到第四深度图后,可以输出该第四深度图。
由此,通过利用目标场景的相对深度图对原始稀疏深度图中的有效点进行筛选,剔除了原始稀疏深度图中的异常值,减少了深度图的变形失真,提升了后续处理得到的深度图的质量。
在一些实施例中,在S805之前,可以基于尺度因子,对第三深度图进行尺度变换,该尺度因子基于第一深度图和第二深度图确定,该尺度因子用于表征第一深度图和第二深度图之间的比例。以及,在S806之前,基于该尺度因子,对第四深度图进行尺度反变换。由此通过尺度变换使得输入至神经网络中的深度图对应的图像条件可以与该神经网络中的训练数据集相匹配,降低了神经网络输出的深度图对应的尺度与真实值间的误差,保证了深度估计结果符合实际尺度,提升了神经网络输出的深度图的质量,同时也提升了神经网络和/或深度估计算法的通用性。其中,对于尺度变换和尺度反变换的过程可以参见上文图6中的描述,此处就不再一一赘述。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。此外,在一些可能的实现方式中,上述实施例中的各步骤可以根据实际情况选择性执行,可以部分执行,也可以全部执行,此处不做限定。此外,本申请的任意实施例的任意特征的全部或部分在不矛盾的前提下,可以自由地、任何地组合。组合后的技术方案也在本申请的范围之内。
基于上述实施例中的描述的方法,本申请实施例还提供了一种图像处理装置。请参阅图9,图9为本申请实施例提供的一种图像处理装置的结构示意图。如图9所示,图像处理装置900包括一个或多个处理器901以及接口电路902。可选的,图像处理装置900还可以包含总线903。其中:
处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、神经网络处理器(Neural Network Processing Unit,NPU)、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
接口电路902可以用于数据、指令或者信息的发送或者接收,处理器901可以利用接口电路902接收的数据、指令或者其它信息,进行加工,可以将加工完成信息通过接口电路902发送出去。
可选的,图像处理装置900还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。其中,该存储器可以与处理器901耦合。
可选的,存储器存储了可执行软件模块或者数据结构,处理器901可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
可选的,接口电路902可用于输出处理器901的执行结果。
需要说明的,处理器901、接口电路902各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。
应理解,上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。

Claims (11)

1.一种图像处理方法,其特征在于,所述方法包括:
获取目标场景的第一图像;
将所述第一图像输入至第一神经网络,以得到所述第一图像对应的第一深度图;
获取所述目标场景对应的第二深度图,所述第二深度图至少用于表征所述目标场景中所包含的部分景物的深度信息,其中,所述第二深度图所包含的深度信息少于或等于所述第一深度图所包含的深度信息;
基于所述第一深度图,剔除所述第二深度图中的异常值,得到第三深度图;
将所述第一图像和所述第三深度图输入至第二神经网络,以得到第四深度图;
输出所述第四深度图。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一图像和所述第三深度图输入至第二神经网络之前,所述方法还包括:
基于尺度因子,对所述第三深度图进行尺度变换,所述尺度因子基于所述第一深度图和所述第二深度图确定,所述尺度因子用于表征所述第一深度图和所述第二深度图之间的比例;
所述输出所述第四深度图之前,所述方法还包括:
基于所述尺度因子,对所述第四深度图进行尺度反变换。
3.根据权利要求2所述的方法,其特征在于,所述尺度因子用于表征所述第二深度图相对于所述第一深度图的比例;
所述基于尺度因子,对所述第三深度图进行尺度变换,具体包括:
将所述第三深度图中的每个点对应的深度值均除以所述尺度因子;
所述基于所述尺度因子,对所述第四深度图进行尺度反变换,具体包括:
将所述第四深度图中的每个点对应的深度值均乘以所述尺度因子。
4.根据权利要求2所述的方法,其特征在于,所述尺度因子用于表征所述第一深度图相对于所述第二深度图的比例;
所述基于尺度因子,对所述第三深度图进行尺度变换,具体包括:
将所述第三深度图中的每个点对应的深度值均乘以所述尺度因子;
所述基于所述尺度因子,对所述第四深度图进行尺度反变换,具体包括:
将所述第四深度图中的每个点对应的深度值均除以所述尺度因子。
5.根据权利要求2-4任一所述的方法,其特征在于,所述基于尺度因子,对所述第三深度图进行尺度变换之前,所述方法还包括:
确定所述第一图像的图像条件与所述第二神经网络对应的训练数据集不匹配,其中,所述图像条件包括视场角和横纵比中的一项或多项。
6.根据权利要求1-5任一所述的方法,其特征在于,所述基于所述第一深度图,剔除所述第二深度图中的异常值,得到第三深度图,具体包括:
分别确定所述第二深度图中每个第一目标点的深度值与所述第一深度图中第二目标点的深度值间的比值,以得到N个比值,其中,所述第二深度图中包括N个第一目标点,N为大于或等于1的正整数,所述第二目标点为与所述第一目标点的位置相同的点;
根据所述N个比值,确定尺度因子,所述尺度因子用于表征所述第一深度图和所述第二深度图之间的比例;
分别确定每个所述第一目标点对应的目标比值与所述尺度因子之间的偏差值,以得到N个偏差值,所述目标比值为所述第一目标点与所述第二目标点间的比值;
在所述第二深度图中,将所述N个偏差值中未处于预设偏差范围内的偏差值对应的所述第一目标点剔除,以得到所述第三深度图。
7.根据权利要求1-6任一所述的方法,其特征在于,所述第一图像通过图像采集装置获得;
所述第二深度图通过深度传感器和/或利用惯性传感器并结合多视几何算法获得。
8.一种图像处理装置,其特征在于,包括至少一个处理器和接口;
所述至少一个处理器通过所述接口获取程序指令或者数据;
所述至少一个处理器用于执行所述程序行指令,以实现如权利要求1-7任一所述的方法。
9.一种设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-7任一所述的方法。
11.一种计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如权利要求1-7任一所述的方法。
CN202111499904.XA 2021-12-09 2021-12-09 一种图像处理方法、装置及设备 Pending CN116258754A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111499904.XA CN116258754A (zh) 2021-12-09 2021-12-09 一种图像处理方法、装置及设备
PCT/CN2022/133950 WO2023103792A1 (zh) 2021-12-09 2022-11-24 一种图像处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111499904.XA CN116258754A (zh) 2021-12-09 2021-12-09 一种图像处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN116258754A true CN116258754A (zh) 2023-06-13

Family

ID=86686670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111499904.XA Pending CN116258754A (zh) 2021-12-09 2021-12-09 一种图像处理方法、装置及设备

Country Status (2)

Country Link
CN (1) CN116258754A (zh)
WO (1) WO2023103792A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7418340B2 (ja) * 2018-03-13 2024-01-19 マジック リープ, インコーポレイテッド 機械学習を使用した画像増強深度感知
CN111340864B (zh) * 2020-02-26 2023-12-12 浙江大华技术股份有限公司 基于单目估计的三维场景融合方法及装置
CN111985535A (zh) * 2020-07-17 2020-11-24 南京大学 一种通过神经网络优化人体深度图的方法及其装置
CN112861729B (zh) * 2021-02-08 2022-07-08 浙江大学 一种基于伪深度图引导的实时深度补全方法

Also Published As

Publication number Publication date
WO2023103792A1 (zh) 2023-06-15

Similar Documents

Publication Publication Date Title
CN107223269B (zh) 三维场景定位方法和装置
CN108833785B (zh) 多视角图像的融合方法、装置、计算机设备和存储介质
US11816810B2 (en) 3-D reconstruction using augmented reality frameworks
CN109640066B (zh) 高精度稠密深度图像的生成方法和装置
CN112784874B (zh) 双目视觉立体匹配方法、装置、电子设备及存储介质
US20230237683A1 (en) Model generation method and apparatus based on multi-view panoramic image
CN115439543B (zh) 孔洞位置的确定方法和元宇宙中三维模型的生成方法
CN115035235A (zh) 三维重建方法及装置
CN114627244A (zh) 三维重建方法及装置、电子设备、计算机可读介质
CN112233149A (zh) 场景流的确定方法及装置、存储介质、电子装置
CN116402876A (zh) 双目深度估计方法、装置、嵌入式设备和可读存储介质
CN115170637A (zh) 虚拟视角图像构建方法及装置、控制设备和可读存储介质
CN110717593A (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
WO2024056030A1 (zh) 一种图像深度估计方法、装置、电子设备及存储介质
CN117745845A (zh) 一种外参信息确定方法、装置、设备和存储介质
CN112508996A (zh) 无锚点孪生网络角点生成的目标跟踪方法及装置
CN114820755B (zh) 一种深度图估计方法及系统
CN116258754A (zh) 一种图像处理方法、装置及设备
CN115375740A (zh) 位姿确定方法和三维模型的生成方法、装置、设备、介质
CN115330849A (zh) 弱纹理的多阶段稠密重建网络方法、装置及存储介质
CN117252914A (zh) 深度估计网络的训练方法、装置、电子设备及存储介质
CN110853087B (zh) 一种视差估计方法、装置、存储介质及终端
CN110245553B (zh) 路面测距方法及装置
CN112615993A (zh) 深度信息获取方法、双目摄像模组、存储介质及电子设备
AU2017300877B2 (en) Method and device for aiding the navigation of a vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination