CN112991418B - 图像深度预测和神经网络训练方法和装置、介质、设备 - Google Patents

图像深度预测和神经网络训练方法和装置、介质、设备 Download PDF

Info

Publication number
CN112991418B
CN112991418B CN202110256840.4A CN202110256840A CN112991418B CN 112991418 B CN112991418 B CN 112991418B CN 202110256840 A CN202110256840 A CN 202110256840A CN 112991418 B CN112991418 B CN 112991418B
Authority
CN
China
Prior art keywords
depth
confidence
map
feature map
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110256840.4A
Other languages
English (en)
Other versions
CN112991418A (zh
Inventor
高鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Information Technology Co Ltd
Original Assignee
Beijing Horizon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Information Technology Co Ltd filed Critical Beijing Horizon Information Technology Co Ltd
Priority to CN202110256840.4A priority Critical patent/CN112991418B/zh
Publication of CN112991418A publication Critical patent/CN112991418A/zh
Application granted granted Critical
Publication of CN112991418B publication Critical patent/CN112991418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开实施例公开了一种图像深度预测和神经网络训练方法和装置、介质、设备,其中,图像深度预测方法包括:基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图;基于所述神经网络中的置信度分支网络对所述深度特征图进行置信度预测,得到置信度特征图;基于所述置信度特征图,从所述深度特征图中确定所述待预测图像的深度。本公开实施例以一个神经网络的两个分支网络确定深度值和置信度值,加快了深度值确定的效率,并且,基于置信度值确定图像对应的深度值,给出图像中哪部分的像素的深度值更加有效,提升测距精度。

Description

图像深度预测和神经网络训练方法和装置、介质、设备
技术领域
本公开涉及图像深度预测技术,尤其是一种图像深度预测和神经网络训练方法和装置、介质、设备。
背景技术
图像深度估计的方法主要分为单目深度估计的方法和双目深度估计的方法,单目是基于一个镜头,而双目是基于两个镜头,基于它们有许多深度估计的方法。其中,单目是基于一幅图像来估计它的深度信息,相对于双目深度估计的方法,有一定的难度,有基于图像内容理解,基于聚焦,基于散焦,基于明暗变化等。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种图像深度预测和神经网络训练方法和装置、介质、设备。
根据本公开实施例的一个方面,提供了一种图像深度预测方法,包括:
基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图;
基于所述神经网络中的置信度分支网络对所述深度特征图进行置信度预测,得到置信度特征图;
基于所述置信度特征图,从所述深度特征图中确定所述待预测图像的深度。
根据本公开实施例的另一方面,提供了一种神经网络训练方法,包括:
确定训练图像中部分像素点对应的监督深度值,得到监督深度图;
利用神经网络中的深度分支网络对所述训练图像进行深度预测,得到所述训练图像中每个像素点的预测深度值,得到预测深度图;
基于所述预测深度图和所述监督深度图,调整所述神经网络的网络参数。
根据本公开实施例的又一方面,提供了一种图像深度预测装置,包括:
深度图确定模块,用于基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图;
置信度预测模块,用于基于所述神经网络中的置信度分支网络对所述深度预测模块确定的深度特征图进行置信度预测,得到置信度特征图;
深度确定模块,用于基于所述置信度预测模块确定的置信度特征图,从所述深度特征图中确定所述待预测图像的深度。
根据本公开实施例的还一方面,提供了一种神经网络训练装置,包括:
监督深度确定模块,用于确定训练图像中部分像素点对应的监督深度值,得到监督深度图;
深度预测模块,用于利用神经网络中的深度分支网络对所述训练图像进行深度预测,得到所述训练图像中每个像素点的预测深度值,得到预测深度图;
网络训练模块,用于基于所述深度预测模块确定的预测深度图和所述监督深度确定模块确定的监督深度图,调整所述神经网络的网络参数。
根据本公开实施例的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的图像深度预测方法或上述任一实施例所述的神经网络训练方法。
根据本公开实施例的又一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的图像深度预测方法或上述任一实施例所述的神经网络训练方法。
基于本公开上述实施例提供的一种图像深度预测和神经网络训练方法和装置、介质、设备,以一个神经网络的两个分支网络确定深度值和置信度值,加快了深度值确定的效率,并且,基于置信度值确定图像对应的深度值,给出图像中哪部分的像素的深度值更加有效,提升测距精度。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的图像深度预测方法的流程示意图。
图2是本公开另一示例性实施例提供的图像深度预测方法的流程示意图。
图3是本公开图2所示的实施例中步骤202的一个流程示意图。
图4是本公开图2所示的实施例中步骤203的一个流程示意图。
图5是本公开又一示例性实施例提供的图像深度预测方法的流程示意图。
图6是本公开一示例性实施例提供的神经网络训练方法的流程示意图。
图7是本公开图6所示的实施例中步骤603的一个流程示意图。
图8是本公开一示例性实施例提供的图像深度预测装置的结构示意图。
图9是本公开另一示例性实施例提供的图像深度预测装置的结构示意图。
图10是本公开一示例性实施例提供的神经网络训练装置的结构示意图。
图11是本公开另一示例性实施例提供的神经网络训练装置的结构示意图。
图12是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术中对于图像深度估计中的置信度,通常是采用无监督的训练置信度网络获得,该现有技术至少存在以下问题:获取的置信度不准确。
示例性系统
图1是本公开一示例性实施例提供的图像深度预测系统的结构示意图。如图1所示,至少包括以下步骤:
通过神经网络110接收待预测图像;基于神经网络110中的深度分支网络101对待预测图像中的每个像素点进行深度预测,得到深度特征图。
基于神经网络110中的置信度分支网络102对深度特征图进行置信度预测,得到置信度特征图。
基于置信度分支网络102输出的置信度特征图,从深度特征图中确定待预测图像的深度。
本公开实施例提供的方法能够基于像素深度值和置信度,确定出待预测图像中深度值更加有效的像素点,以更有效的像素点对应的深度值作为待预测图像的深度值,避免了置信度低的深度值参与图像的深度预测,从而大大提升了测距精度;此外,本实施例提供的方法不依赖深度分支网络自身结构,可以在已经训练的深度分支网络上增加置信度的部分(置信度分支网络),可应用于所有的深度预测网络的置信度获取,因此,应用范围更加广泛。
示例性方法
图2是本公开另一示例性实施例提供的图像深度预测方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图。
其中,待预测图像可以是任意图像,例如,在自动驾驶场景中,采集到的前方路面图像;本实施例中的神经网络是经过训练得到的,例如,该神经网络可如图1所示的神经网络110所示,包括深度分支网络101和置信度分支网络102。
步骤202,基于神经网络中的置信度分支网络对深度特征图进行置信度预测,得到置信度特征图。
在一实施例中,通过置信度分支网络对深度特征图中每个深度值进行置信度预测,得到置信度特征图,其中,深度特征图中的每个深度值对应待预测图像中的每个像素点,在置信度特征图中,一个置信度值与深度特征图中的一个深度值一一对应。在一实施例中,置信度值用于表示该置信度值对应的深度值的准确度。
步骤203,基于置信度特征图,从深度特征图中确定待预测图像的深度。
本实施例中,通过置信度特征图中对应深度特征图中每个深度值的置信度值,将深度特征图中置信度值达到设定条件的至少一个深度值确定为待预测图像的深度,提高了得到的深度的准确性。
基于本公开上述实施例提供的一种图像深度预测方法,以一个神经网络的两个分支网络确定深度值和置信度值,加快了深度值确定的效率,并且,基于置信度值确定图像对应的深度值,给出图像中哪部分的像素的深度值更加有效,提升测距精度。
如图3所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2021,基于神经网络中的置信度分支网络对深度特征图中的每个深度值进行置信度预测,得到深度特征图中的每个深度值的置信度值。
本实施例中的置信度分支网络经过有监督的训练,因此,基于该置信度分支网络确定的深度特征图中的每个深度值的置信度值,其中,每个置信度值表示该置信度值对应的深度值的准确度。
步骤2022,基于每个深度值的置信度值,得到置信度特征图。
由于分别对深度特征图中的每个深度值进行置信度值预测,因此,可得到与深度特征图相同大小的置信度特征图,该置信度特征图中的每个置信度值与深度特征图中的每个深度值相对应,并分别表示对应深度值的置信度值,本实施例通过经过训练的置信度分支网络获得置信度特征图,提高了置信度特征图中每个置信度值的准确性,进而提高了确定的图像深度的准确性。
如图4所示,在上述图2所示实施例的基础上,步骤203可包括如下步骤:
步骤2031,基于置信度特征图中每个像素点的置信度值,确定置信度值大于或等于设定阈值的至少一个像素点。
本实施例中,设定阈值可根据实际情况进行设置,对于不同场景,可设置不同的设定阈值;通过设定阈值将置信度特征图中的像素点区分为两部分,一部分像素点的置信度值全部大于或等于设定阈值,另一部分像素点的置信度值全部小于设定阈值。
步骤2032,基于置信度值大于或等于设定阈值的至少一个像素点在深度特征图中对应的深度值,确定待预测图像的深度。
本实施例中,将置信度大于或等于设定阈值的部分像素点确定为深度值更准确的像素点,以这些像素点在深度特征图中对应的深度值确定的待预测图像的深度更准确,提升了本实施例提供的图像深度预测方法的准确性。
图5是本公开又一示例性实施例提供的图像深度预测方法的流程示意图。如图5所示,包括如下步骤:
步骤501,基于雷达确定待预测图像中的多个像素点的雷达深度值,得到监督深度图。
可选地,为了实现对神经网络的准确度进行监督,本实施例可通过雷达确定待预测图像中的多个像素点的雷达深度值,以这些像素点的深度值构成监督深度图;该步骤501可以在步骤502之前执行,或者在步骤502之后执行,或者与步骤502同时执行,本实施例不限制步骤501与步骤502之间的执行顺序。
步骤502,基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图。
该步骤的实现及技术效果可参照图2所示实施例中的步骤201,在此不再赘述。
步骤503,基于神经网络中的置信度分支网络对深度特征图进行置信度预测,得到置信度特征图。
该步骤的实现及技术效果可参照图2所示实施例中的步骤202,在此不再赘述。
步骤504,基于置信度特征图,从深度特征图中确定待预测图像的深度。
该步骤的实现及技术效果可参照图2所示实施例中的步骤203,在此不再赘述。
步骤505,基于深度特征图和监督深度图,确定监督置信度特征图。
可选地,可通过深度特征图与监督深度图之间的差异确定监督置信度特征图,其中,监督置信度特征图中包括的像素点数量与监督深度图包括的像素点数量相对应,即,对于监督深度图中不存在值的位置点,不与深度特征图相应的位置点的数值做差;可选地,将监督深度图中每个位置点的深度值与深度特征图中对应位置点的深度值做差,并对每个差值进行归一化后,得到监督置信度特征图,其中,监督置信度值越大表示两个位置点之间的差异越小。
步骤506,基于置信度特征图和监督置信度特征图,确定网络损失。
基于步骤503确定的置信度特征图与步骤505确定的监督置信度特征图之间的差异,以该差异作为神经网络的网络损失,衡量神经网络的精度。
步骤507,基于网络损失确定神经网络的预测精度。
本实施例中,通过网络损失衡量神经网络的预测精度,网络损失越小表示该神经网络的预测精度越高,只有当神经网络的网络损失达到设定条件时,才以该神经网络输出的深度值作为待预测图像的深度,其中,设定条件可以包括但不限于:网络损失小于设定损失值;而当神经网络的预测精度未达到设定条件时,可停止利用该神经网络进行图像深度预测,还可以通过报警等方式提示用户基于该神经网络进行的深度预测存在问题,通过该实施例可提高通过神经网络预测图像深度的准确度。
可选地,上述实施例中步骤505可以包括:
基于深度特征图和监督深度图,得到差异特征图。
本实施例中,监督深度图中仅包括待预测图像中部分位置点的深度值,因此,仅以监督深度图中具有值的位置点对应的深度值与深度特征图中对应位置点的预测深度值做差,得到差异特征图中的部分位置点的值,该值可以为两个深度值差值的绝对值,该差异特征图中其他点置零,即可得到与深度特征图大小相同但仅包括部分值的差异特征图。
基于置信度分支网络对差异特征图进行归一化处理,得到部分像素点对应的监督置信度,确定监督置信度特征图。
由于差异特征图中的每个位置点对应的数据量为差值,本实施例通过归一化处理将差异特征图中的每个差值转换为概率体现,可选地,可利用softmax函数实现差异特征图的归一化处理,并且为了使归一化后的监督置信度与深度特征图中的值的准确度(差异越小,准确度越高)成正比,本实施例还可以通过1减归一化结果的方式得到监督置信度,此时,即可实现监督置信度值越大表示两个点之间的差异越小。
图6是本公开一示例性实施例提供的神经网络训练方法的流程示意图。本实施例可应用在电子设备上,如图6所示,包括如下步骤:
步骤601,确定训练图像中部分像素点对应的监督深度值,得到监督深度图。
可选地,可通过雷达等已有的深度测量设备确定训练图像中部分像素点的监督深度值,通过所有监督深度值确定一个与训练图像大小相同的监督深度图,监督深度图中不具有监督深度值的位置可置零。
步骤602,利用神经网络中的深度分支网络对训练图像进行深度预测,得到训练图像中每个像素点的预测深度值,得到预测深度图。
本实施例中的神经网络至少具有深度分支网络,该深度分支网络用于对训练图像中的每个像素点进行深度预测,得到包括多个预测深度值的预测深度图。
步骤603,基于预测深度图和监督深度图,调整神经网络的网络参数。
本实施例中,可直接基于预测深度图和监督深度图之间的差异确定网络损失,以该网络损失调整神经网络的网络参数;或者,如图1所示,神经网络110除了包括深度分支网络101,还包括置信度分支网102,以置信度分支网络102确定预测深度图对应的预测置信度特征图,再结合预测深度图和监督深度图确定网络损失,以该网络损失调整神经网络的网络参数。
本实施例提供的神经网络训练方法,利用监督深度图,实现了对神经网络的有监督的训练,提高了神经网络的深度预测的准确度。
如图7所示,在上述图6所示实施例的基础上,步骤603可包括如下步骤:
步骤6031,基于预测深度图和监督深度图,确定监督置信度特征图。
可选地,可通过预测深度图与监督深度图之间的差异确定监督置信度特征图,其中,监督置信度特征图中包括的像素点数量与监督深度图包括的像素点数量相对应,即,对于监督深度图中不存在值的位置点,不与预测深度图相应的位置点的数值做差;可选地,将监督深度图中每个位置点的深度值与预测深度图中对应位置点的深度值做差,并对每个差值进行归一化后,得到监督置信度特征图,其中,监督置信度值越大表示两个位置点之间的差异越小。
步骤6032,基于神经网络中的置信度分支网络对预测深度图进行处理,得到预测置信度特征图。
在一实施例中,通过置信度分支网络对预测深度图中每个像素点进行置信度预测,得到的预测置信度特征图中每个预测置信度值对应预测深度图中的一个像素点。
步骤6033,基于预测置信度特征图和监督置信度特征图,确定网络损失。
基于上述步骤确定的预测置信度特征图与监督置信度特征图之间的差异,以该差异作为神经网络的网络损失,确定神经网络当前性能。
步骤6034,基于网络损失调整深度分支网络和置信度分支网络的网络参数。
本实施例中,通过网络损失对神经网络中包括的深度分支网络和置信度分支网络进行联合训练,在神经网络中增加了置信度分支网络,可将置信度分支网络应用于所有深度预测网络中,即,本实施例中,不限制深度分支网络的网络结构;摈弃由于加入了监督置信度特征图,极大的提升了置信度分支网络的性能。
可选地,上述实施例中步骤6031可以包括:
基于预测深度图和监督深度图,得到差异特征图。
本实施例中,监督深度图中仅包括待预测图像中部分位置点的深度值,因此,仅以监督深度图中具有值的位置点对应的深度值与预测深度图中对应位置点的预测深度值做差,得到差异特征图中的部分位置点的值,该值可以为两个深度值差值的绝对值,该差异特征图中其他点置零,即可得到与预测深度图大小相同但仅包括部分值的差异特征图。
基于置信度分支网络对差异特征图进行归一化处理,得到部分像素点对应的监督置信度,确定监督置信度特征图。
由于差异特征图中的每个位置点为差值,本实施例通过归一化处理将差异特征图中的每个值转换为概率体现,可选地,可利用softmax函数实现差异特征图的归一化处理,并且为了使归一化后的监督置信度与预测深度图中的值的准确度(差异越小,准确度越高)成正比,本实施例还可以通过1减归一化结果的方式得到监督置信度,此时,即可实现监督置信度值越大表示两个点之间的差异越小。
本公开实施例提供的任一种图像深度预测和神经网络训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种图像深度预测和神经网络训练方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像深度预测和神经网络训练方法。下文不再赘述。
示例性装置
图8是本公开一示例性实施例提供的图像深度预测装置的结构示意图。如图8所示,本实施例提供的装置至少包括:
深度图确定模块81,用于基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图。
置信度预测模块82,用于基于神经网络中的置信度分支网络对深度图确定模块81确定的深度特征图进行置信度预测,得到置信度特征图。
深度确定模块83,用于基于置信度预测模块82确定的置信度特征图,从深度特征图中确定待预测图像的深度。
基于本公开上述实施例提供的一种图像深度预测装置,以一个神经网络的两个分支网络确定深度值和置信度值,加快了深度值确定的效率,并且,基于置信度值确定图像对应的深度值,给出图像中哪部分的像素的深度值更加有效,提升测距精度。
图9是本公开另一示例性实施例提供的图像深度预测装置的结构示意图。如图9所示,本实施例提供的装置至少包括:
置信度预测模块82包括:
点置信度单元821,用于基于神经网络中的置信度分支网络对深度特征图中的每个深度值进行置信度预测,得到深度特征图中的每个深度值的置信度值。
特征图确定单元822,用于基于每个深度值的置信度值,得到置信度特征图。
深度确定模块83包括:
阈值比较单元831,用于基于置信度特征图中每个像素点的置信度值,确定置信度值大于或等于设定阈值的至少一个像素点。
图像深度确定单元832,用于基于置信度值大于或等于设定阈值的至少一个像素点在深度特征图中对应的深度值,确定待预测图像的深度。
可选地,该实施例中提供的图像深度预测装置还包括:
监督测距模块84,用于基于雷达确定待预测图像中的多个像素点的雷达深度值,得到监督深度图。
可选地,该实施例中提供的图像深度预测装置还包括:
网络精度预测模块85,用于基于深度特征图和监督深度图,确定监督置信度特征图;基于置信度特征图和监督置信度特征图,确定网络损失;基于网络损失确定神经网络的预测精度。
其中,网络精度预测模块85在基于深度特征图和监督深度图,确定监督置信度特征图时,具体用于基于预测深度图和监督深度图,得到差异特征图;基于置信度分支网络对差异特征图进行归一化处理,得到部分像素点对应的监督置信度,确定监督置信度特征图。
图10是本公开一示例性实施例提供的神经网络训练装置的结构示意图。如图10所示,本实施例提供的装置至少包括:
监督深度确定模块11,用于确定训练图像中部分像素点对应的监督深度值,得到监督深度图。
深度预测模块12,用于利用神经网络中的深度分支网络对训练图像进行深度预测,得到训练图像中每个像素点的预测深度值,得到预测深度图。
网络训练模块13,用于基于深度预测模块12确定的预测深度图和监督深度确定模块11确定的监督深度图,调整神经网络的网络参数。
本实施例提供的神经网络训练装置,利用监督深度图,实现了对神经网络的有监督的训练,提高了神经网络的深度预测的准确度。
图11是本公开另一示例性实施例提供的神经网络训练装置的结构示意图。如图11所示,本实施例提供的装置至少包括:
网络训练模块13包括:
置信度监督单元131,用于基于预测深度图和监督深度图,确定监督置信度特征图。
置信度预测单元132,用于基于神经网络中的置信度分支网络对预测深度图进行处理,得到预测置信度特征图。
损失确定单元133,用于基于预测置信度特征图和监督置信度特征图,确定网络损失。
参数调整单元134,用于基于网络损失调整深度分支网络和置信度分支网络的网络参数。
可选地,置信度监督单元131,具体用于基于预测深度图和监督深度图,得到差异特征图;基于置信度分支网络对差异特征图进行归一化处理,得到部分像素点对应的监督置信度,确定监督置信度特征图。
示例性电子设备
下面,参考图12来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图12图示了根据本公开实施例的电子设备的框图。
如图12所示,电子设备120包括一个或多个处理器121和存储器122。
处理器121可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备120中的其他组件以执行期望的功能。
存储器122可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器121可以运行所述程序指令,以实现上文所述的本公开的各个实施例的图像深度预测和神经网络训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备120还可以包括:输入装置123和输出装置124,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置123可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置123可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备123还可以包括例如键盘、鼠标等等。
该输出装置124可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备124可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备120中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备120还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像深度预测和神经网络训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像深度预测和神经网络训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (9)

1.一种图像深度预测方法,包括:
基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图;
基于所述神经网络中的置信度分支网络对所述深度特征图进行置信度预测,得到置信度特征图;其中,在所述置信度特征图中,一个置信度值与所述深度特征图中的一个深度值一一对应;每个所述置信度值表示所述置信度值对应的所述深度值的准确度;
基于所述置信度特征图,从所述深度特征图中确定所述待预测图像的深度;
所述基于所述置信度特征图,从所述深度特征图中确定所述待预测图像的深度,包括:
基于所述置信度特征图中每个深度值的置信度值,确定所述置信度值大于或等于设定阈值的至少一个像素点;
基于所述置信度值大于或等于所述设定阈值的至少一个像素点在所述深度特征图中对应的深度值,确定所述待预测图像的深度。
2.根据权利要求1所述的方法,其中,所述基于所述神经网络中的置信度分支网络对所述深度特征图进行置信度预测,得到置信度特征图,包括:
基于所述神经网络中的置信度分支网络对所述深度特征图中的每个深度值进行置信度预测,得到所述深度特征图中的每个深度值的置信度值;
基于所述每个深度值的置信度值,得到所述置信度特征图。
3.根据权利要求1或2所述的方法,其中,所述方法还包括:
基于雷达确定所述待预测图像中的多个像素点的雷达深度值,得到监督深度图;
基于所述深度特征图和所述监督深度图,确定监督置信度特征图;
基于所述置信度特征图和所述监督置信度特征图,确定网络损失;
基于所述网络损失确定所述神经网络的预测精度。
4.根据权利要求3所述的方法,其中,所述基于所述深度特征图和所述监督深度图,确定监督置信度特征图,包括:
所述基于所述深度特征图和所述监督深度图,得到差异特征图;
基于所述置信度分支网络对所述差异特征图进行归一化处理,得到部分像素点对应的监督置信度,确定所述监督置信度特征图。
5.一种神经网络训练方法,包括:
确定训练图像中部分像素点对应的监督深度值,得到监督深度图;
利用神经网络中的深度分支网络对所述训练图像进行深度预测,得到所述训练图像中每个像素点的预测深度值,得到预测深度图;
基于所述预测深度图和所述监督深度图,调整所述神经网络的网络参数;
所述基于所述预测深度图和所述监督深度图,调整所述神经网络的网络参数,包括:
基于所述预测深度图和所述监督深度图,确定监督置信度特征图;
基于所述神经网络中的置信度分支网络对所述预测深度图进行处理,得到预测置信度特征图;其中,所述预测置信度特征图中每个预测置信度值对应所述预测深度图中的一个像素点;
基于所述预测置信度特征图和所述监督置信度特征图,确定网络损失;
基于所述网络损失调整所述深度分支网络和所述置信度分支网络的网络参数。
6.一种图像深度预测装置,包括:
深度图确定模块,用于基于神经网络中的深度分支网络对待预测图像中的每个像素点进行深度预测,得到深度特征图;
置信度预测模块,用于基于所述神经网络中的置信度分支网络对所述深度图确定模块确定的深度特征图进行置信度预测,得到置信度特征图;其中,在所述置信度特征图中,一个置信度值与所述深度特征图中的一个深度值一一对应;每个所述置信度值表示所述置信度值对应的所述深度值的准确度;
深度确定模块,用于基于所述置信度预测模块确定的置信度特征图,从所述深度特征图中确定所述待预测图像的深度;
所述深度确定模块包括:
阈值比较单元,用于基于所述置信度特征图中每个深度值的置信度值,确定所述置信度值大于或等于设定阈值的至少一个像素点;
图像深度确定单元,用于基于所述置信度值大于或等于所述设定阈值的至少一个像素点在所述深度特征图中对应的深度值,确定所述待预测图像的深度。
7.一种神经网络训练装置,包括:
监督深度确定模块,用于确定训练图像中部分像素点对应的监督深度值,得到监督深度图;
深度预测模块,用于利用神经网络中的深度分支网络对所述训练图像进行深度预测,得到所述训练图像中每个像素点的预测深度值,得到预测深度图;
网络训练模块,用于基于所述深度预测模块确定的预测深度图和所述监督深度确定模块确定的监督深度图,调整所述神经网络的网络参数;
所述网络训练模块包括:
置信度监督单元,用于基于所述预测深度图和所述监督深度图,确定监督置信度特征图;
置信度预测单元,用于基于所述神经网络中的置信度分支网络对所述预测深度图进行处理,得到预测置信度特征图;其中,所述预测置信度特征图中每个预测置信度值对应所述预测深度图中的一个像素点;
损失确定单元,用于基于所述预测置信度特征图和所述监督置信度特征图,确定网络损失;
参数调整单元,用于基于所述网络损失调整所述深度分支网络和所述置信度分支网络的网络参数。
8.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的方法。
9.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-5任一所述的方法。
CN202110256840.4A 2021-03-09 2021-03-09 图像深度预测和神经网络训练方法和装置、介质、设备 Active CN112991418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110256840.4A CN112991418B (zh) 2021-03-09 2021-03-09 图像深度预测和神经网络训练方法和装置、介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110256840.4A CN112991418B (zh) 2021-03-09 2021-03-09 图像深度预测和神经网络训练方法和装置、介质、设备

Publications (2)

Publication Number Publication Date
CN112991418A CN112991418A (zh) 2021-06-18
CN112991418B true CN112991418B (zh) 2024-03-29

Family

ID=76336206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110256840.4A Active CN112991418B (zh) 2021-03-09 2021-03-09 图像深度预测和神经网络训练方法和装置、介质、设备

Country Status (1)

Country Link
CN (1) CN112991418B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548311B (zh) * 2022-02-28 2022-12-02 江苏亚力亚气动液压成套设备有限公司 基于人工智能的液压设备智能控制系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765481A (zh) * 2018-05-25 2018-11-06 亮风台(上海)信息科技有限公司 一种单目视频的深度估计方法、装置、终端和存储介质
CN111340867A (zh) * 2020-02-26 2020-06-26 清华大学 图像帧的深度估计方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765481A (zh) * 2018-05-25 2018-11-06 亮风台(上海)信息科技有限公司 一种单目视频的深度估计方法、装置、终端和存储介质
CN111340867A (zh) * 2020-02-26 2020-06-26 清华大学 图像帧的深度估计方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于自适应像素级注意力模型的场景深度估计;陈裕如 等;《应用光学》;第41卷;第490-499页 *
王治文.《计算机多媒体辅助教学及其软件设计》.浙江科学技术出版社,2000,(第1版),第4.3.2节. *

Also Published As

Publication number Publication date
CN112991418A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN108269254B (zh) 图像质量评估方法和装置
CN108229419B (zh) 用于聚类图像的方法和装置
CN110516737B (zh) 用于生成图像识别模型的方法和装置
US11156968B2 (en) Adaptive control of negative learning for limited reconstruction capability auto encoder
CN113361710B (zh) 学生模型训练方法、图片处理方法、装置及电子设备
KR20210012012A (ko) 물체 추적 방법들 및 장치들, 전자 디바이스들 및 저장 매체
CN114821066A (zh) 模型训练方法、装置、电子设备及计算机可读存储介质
WO2022247414A1 (zh) 空间几何信息估计模型的生成方法和装置
CN112991418B (zh) 图像深度预测和神经网络训练方法和装置、介质、设备
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN114782510A (zh) 目标物体的深度估计方法和装置、存储介质、电子设备
CN111639591B (zh) 轨迹预测模型生成方法、装置、可读存储介质及电子设备
CN112770057A (zh) 摄像头参数调整方法和装置、电子设备和存储介质
CN112001300A (zh) 基于按位置交叉熵的楼宇监控方法、装置和电子设备
CN113111692B (zh) 目标检测方法、装置、计算机可读存储介质及电子设备
CN111723926B (zh) 用于确定图像视差的神经网络模型的训练方法和训练装置
CN113569860B (zh) 实例分割方法和实例分割网络的训练方法及其装置
CN112861811B (zh) 目标识别方法、装置、设备、存储介质及雷达
CN115205157A (zh) 图像处理方法和系统、电子设备和存储介质
CN115862597A (zh) 人物类型的确定方法、装置、电子设备和存储介质
KR20230015186A (ko) 신경망의 양자화를 위한 포화 비율 기반 양자화 범위의 결정 방법 및 장치
CN112153298B (zh) 确定目标对象理想亮度的方法及装置
CN114239736A (zh) 光流估计模型的训练方法和装置
CN113129330B (zh) 一种可移动设备的轨迹预测方法及装置
CN114399555B (zh) 数据在线标定方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant