CN114842066A - 图像深度识别模型训练方法、图像深度识别方法及装置 - Google Patents
图像深度识别模型训练方法、图像深度识别方法及装置 Download PDFInfo
- Publication number
- CN114842066A CN114842066A CN202210533519.0A CN202210533519A CN114842066A CN 114842066 A CN114842066 A CN 114842066A CN 202210533519 A CN202210533519 A CN 202210533519A CN 114842066 A CN114842066 A CN 114842066A
- Authority
- CN
- China
- Prior art keywords
- depth
- network
- layer
- image
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 92
- 230000009466 transformation Effects 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000013519 translation Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000003190 augmentative effect Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000002596 correlated effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了图像深度识别模型训练方法、图像深度识别方法及装置,涉及人工智能技术领域,具体涉及图像处理、计算机视觉和深度学习等技术领域,可应用于3D视觉、虚拟/增强现实等场景。具体方案为:用第一网络对第一样本图像组进行深度识别,获得第一深度图。用第一子网络、第二子网络和第三网络对第二样本图像组进行深度识别,获得三者处理结果。基于第一深度图和深度图标签,确定全监督损失值。确定第一处理结果和第二处理结果的一致性损失值。基于第一处理结果、第二处理结果和第三处理结果,确定对比损失值。基于全监督损失值、一致性损失值和对比损失值,训练图像深度识别模型,得到目标图像深度识别模型。能够提高图像深度识别的准确性。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及图像处理、计算机视觉和深度学习等技术领域,可应用于3D视觉、虚拟/增强现实等场景。
背景技术
计算机视觉中的多视图深度估计技术,能够对从多个视角拍摄物体得到的图像进行深度估计,使得后续可以根据深度估计结果进行多视图的立体重建。
发明内容
本公开提供了一种图像深度识别模型训练方法、图像深度识别方法及装置。
本公开实施例的第一方面,提供了一种图像深度识别模型训练方法,包括:
利用第一网络对第一样本图像组进行深度识别,获得第一深度图;
利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果;
基于所述第一深度图和所述第一样本图像组对应的预设深度图标签,确定全监督损失值;
确定所述第一处理结果和所述第二处理结果之间的一致性损失值;
基于所述第一处理结果、所述第二处理结果和所述第三处理结果,确定对比损失值;
基于所述全监督损失值、所述一致性损失值和所述对比损失值,对预训练的图像深度识别模型进行训练,得到目标图像深度识别模型,所述预训练的图像深度识别模型包括所述第一网络、所述第二网络和所述第三网络。
本公开实施例的第二方面,提供了一种图像深度识别方法,包括:
获取待预测图像组;
将所述待预测图像组输入目标图像深度识别模型,得到所述目标图像深度识别模型输出的深度图,所述目标图像深度识别模型为通过第一方面任一项所述的方法训练得到的模型。
本公开实施例的第三方面,提供了一种图像深度识别模型训练装置,包括:
识别模块,用于利用第一网络对第一样本图像组进行深度识别,获得第一深度图;
所述识别模块,还用于利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果;
确定模块,用于基于所述识别模块获得的所述第一深度图和所述第一样本图像组对应的预设深度图标签,确定全监督损失值;
所述确定模块,还用于确定所述识别模块获得的所述第一处理结果和所述第二处理结果之间的一致性损失值;
所述确定模块,还用于基于所述识别模块获得的所述第一处理结果、所述第二处理结果和所述第三处理结果,确定对比损失值;
训练模块,用于基于所述确定模块确定的所述全监督损失值、所述一致性损失值和所述对比损失值,对预训练的图像深度识别模型进行训练,得到目标图像深度识别模型,所述预训练的图像深度识别模型包括所述第一网络、所述第二网络和所述第三网络。
本公开实施例的第四方面,提供了一种图像深度识别装置,包括:
获取模块,用于获取待预测图像组;
输入模块,用于将所述获取模块获取的所述待预测图像组输入目标图像深度识别模型,得到所述目标图像深度识别模型输出的深度图,所述目标图像深度识别模型为通过第一方面任一项所述的方法训练得到的模型。
本公开实施例的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或者第二方面中任一项所述的方法。
本公开实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或者第二方面中任一项所述的方法。
本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或者第二方面中任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种图像深度识别模型训练方法的流程图;
图2是本公开实施例提供的一种网络结构的示例性示意图;
图3是本公开实施例提供的一种图像深度识别模型训练方法流程的示例性示意图;
图4是本公开实施例提供的一种图像深度识别方法的流程图;
图5是本公开实施例提供的一种图像深度识别模型训练装置的结构示意图;
图6是本公开实施例提供的一种图像深度识别装置的结构示意图;
图7是用来实现本公开实施例的图像深度识别模型训练方法或者图像深度识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
深度估计是指针对图像中的每个像素点,得到该像素点对应真实场景中的位置与图像采集器之间的距离,即得到深度估计结果。
图像的深度估计结果应用广泛,例如对单张图像进行深度估计能够得到图像中包含的物体与图像采集器之间的距离,达到测距的目的。对多视角图像进行深度估计能够应用在多视图立体重建场景。以下以多视图立体重建场景为例进行说明。
目前,在基于红绿蓝(Red Green Blue,RGB)图像的多视图立体重建场景中,基于多视角图像的深度估计结果进行多视图立体重建。多视图立体重建的优化方法一般是通过优化多视角图像的深度估计结果,从而缓解多视角图像中物体形状细小、存在遮挡以及存在弱纹理等问题,对多视图立体重建的完整性和精度的影响。其中,多视角图像指的是对同一物体从多个视角拍摄得到的多张图像。
目前对于多视角图像的深度估计方法从数据利用维度可以分为以下两类:
1、基于全监督的方法:基于带标签的多视角图像,通过代价量(cost-volume)、以点为基础(point-based)或者以块为基础(patch-based)的方式,训练得到能够识别图像深度的模型,使得后续可利用训练得到的模型识别多视角图像的深度。其中,多视角图像的标签是人工标注的。该方法需要大量的带标签的多视角图像来保证模型识别的准确性和泛化性,而真实场景中,人工难以对大量的多视角图像标记标签,使得带标签的多视角图像难以获得,因此训练样本的数据量限制了该方法得到的模型的泛化性和准确性。
2、基于自监督的方法:利用多视角图像的一致性信息,例如光度一致性、单应变换一致性等,从而挖掘伪标签,并将伪标签作为训练标签训练得到能够识别图像深度的模型,使得后续可利用训练得到的模型识别多视角图像的深度。但该方式基于伪标签训练,而伪标签的精度远不及人工标注的标签,使得该方法训练得到的模型的识别准确度较低,即性能较差。
为了提高图像的深度识别结果的准确性,本公开实施例提供了一种图像深度识别模型训练方法,该方法可以应用于电子设备。例如,电子设备可以是台式计算机、手机或者平板电脑等具备图像处理能力的设备。如图1所示,该方法包括如下步骤:
S101、利用第一网络对第一样本图像组进行深度识别,获得第一深度图。
在本公开实施例中,输入第一网络的第一样本图像组具有预设深度图标签。深度图标签是第一样本图像组的标准深度图。
S102、利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果。
输入第二网络和第三网络的第二样本图像组可以具有深度图标签,也可以不具有深度图标签。例如,第一样本图像组以及不带深度图标签的样本图像组,均可以作为第二样本图像组。
第一网络、第二网络的两个子网络和第三网络均用于识别样本图像组的深度图。
需要说明的是,本公开实施例中S101和S102可以并行执行也可以串行执行,本公开实施例对S101和S102的执行顺序不作具体限定。
S103、基于第一深度图和第一样本图像组对应的预设深度图标签,确定全监督损失值。
本公开实施例中,可采用预设的第一损失函数,计算第一深度图和第一样本图像组对应的预设深度图标签之间的误差,得到全监督损失值。例如,预设的第一损失函数为:L1损失(L1 Loss)或者L2损失(L2 Loss)等。其中,L1 Loss用于计算网络识别的深度图和深度图标签之间的平均绝对值误差。L2 Loss用于计算网络识别的深度图和深度图标签之间的均方误差。
可以理解的,由于深度图标签是高精度的训练标签,例如可以是人工标注的标签,因此第一深度图与第一样本图像组对应的预设深度图标签之间的误差越小,第一网络的识别准确度越高。本公开实施例通过第一网络输出的第一深度图,以及第一样本图像组对应的预设深度图标签,确定全监督损失值,能够体现第一网络的识别准确性,方便后续基于全监督损失值进行识别准确性的优化。
S104、确定第一处理结果和第二处理结果之间的一致性损失值。
其中,第二网络包括两个子网络,每个子网络均可以对样本图像组进行深度识别。
本公开实施例中,将第二网络的两个子网络中,其中一个子网络对第二样本图像组的处理结果作为伪标签,并采用预设的第二损失函数计算另一个子网络的处理结果与伪标签之间的误差,得到一致性损失值。例如,第二损失函数为:L1 Loss或者平滑L1损失(smooth L1 Loss)等。
可以理解的,由于第二网络的两个子网络均用于对第二样本图像组进行深度识别,处理结果应当相似,因此本公开实施例可以根据两个子网络的处理结果之间的误差,得到一致性损失值,从而体现出第二网络的识别准确性。方便后续通过一致性损失值进行识别准确性的优化。
S105、基于第一处理结果、第二处理结果和第三处理结果,确定对比损失值。
本公开实施例中,可以采用预设的第三损失函数,计算第二网络的两个子网络对第二样本图像组中相同位置的处理结果之间的误差,以及第二网络的其中一个子网络和第三网络对第二样本图像组中不同位置的处理结果之间的误差,得到对比损失值。第三损失函数可以是对比损失(contrastive Loss)。
可以理解的,第二网络的两个子网络对第二样本图像组中相同位置的处理结果之间应当相似,而第二网络的一个子网络和第三网络对第二样本图像组中不同位置的处理结果之间应当不相似。因此本公开实施例可以根据第一子网络的第一处理结果、第二子网络的第二处理结果和第三网络的第三处理结果之间的相似性,确定对比损失值,从而体现出第二网络和第三网络的识别准确性。方便后续通过对比损失值进行识别准确性的优化。
需要说明的是,本公开实施例中S103-S105可以并行执行也可以串行执行,本公开实施例对S103-S105的执行顺序不作具体限定。
S106、基于全监督损失值、一致性损失值和对比损失值,对预训练的图像深度识别模型进行训练,得到目标图像深度识别模型。其中,预训练的图像深度识别模型包括第一网络、第二网络和第三网络。
本公开实施例中,可以计算全监督损失值、一致性损失值和对比损失值的加权和,并根据加权和判断各网络是否收敛。在各网络未收敛的情况下,基于计算的加权和调整各网络的网络参数值,并基于下一批样本图像组返回S101以继续训练各网络。在各网络收敛的情况下,基于训练完成的一个网络得到目标图像深度识别模型。例如,在加权和小于预设阈值时,确定各网络收敛;否则,确定各网络未收敛。
本公开实施例在对预训练的图像深度识别模型进行训练时,结合了全监督损失值、一致性损失值和对比损失值,一致性损失值和对比损失值属于自监督损失值,计算时不需要高精度的深度图标签,从而减少训练过程对于高精度的深度图标签的依赖,因此可以基于无深度图标签的样本图像组得到。并且无深度图标签的样本图像组更容易获得,因此可以利用大量的无深度图标签的样本图像组进行训练,从而提高了训练得到的目标图像深度识别模型的泛化能力。而且,本公开实施例在训练预训练的图像深度识别模型时,还结合了全监督损失值,全监督损失值基于高精度的深度图标签确定,因此能够提高训练得到的目标图像深度识别模型识别深度图的准确性。因此本公开实施例结合三种损失值训练得到的目标图像深度识别模型,能够在保证模型泛化能力的基础上,提高对图像深度识别的准确性。
可选的,本公开实施例对预训练的图像深度识别模型进行训练时,在利用加权和对各网络的网络参数值进行整体调整之前或者之后,还可以利用单个损失函数对单个网络的网络参数值进行部分调整。其中,部分调整包括:利用全监督损失值对第一网络的网络参数值进行调整、利用一致性损失值对第二网络的两个子网络的网络参数值进行调整、和/或利用对比损失值对第三网络的网络参数值进行调整。
示例性的,可以在每次利用加权和进行整体调整之前,对各网络的网络参数值进行部分调整。或者,可以在对各网络的网络参数值进行指定次数的部分调整后,再利用加权和进行整体调整。
在本公开的一个实施例中,参见图2,以下对本公开实施例中各网络的结构进行说明:
第一网络包括第一变换层和第一编解码层。
第二网络的第一子网络包括弱增强层、第二变换层和第二编解码层,第二网络的第二子网络包括强增强层、第三变换层和第三编解码层。
第三网络包括第四变换层和第四编解码层。
其中,第一变换层、第二变换层、第三变换层和第四变换层的结构相同,且各变换层的网络参数值可以共享,即各变换层的网络参数值可以相同。例如,各变换层的结构均可以为多视角立体网络(Multi View Stereo Net,MVSNet)中的单应性变换(homographywarping)模块。
第一变换层、第二变换层、第三变换层和第四变换层分别进行变换处理的方式包括:提取输入的样本图像组中的图像的深度特征,然后将提取的深度特征变换到输入的样本图像组中参考图像(reference image)的图像视角,得到变换后的深度特征。其中,参考图像为所属样本图像组中的任一张图像,样本图像组包括相同物体的一张图像或多张不同视角的图像。
其中,变换层可以通过将输入的样本图像组中每张图像的深度特征进行可微分的单应性变换的方式,将每张图像的深度特征变换到参考图像的图像视角,得到输入的样本图像组中每张图像变换后的深度特征。其中,参考图像的深度特征经过变换前后保持不变。本公开实施例中的样本图像组可以仅包括一张图像,此时该图像作为参考图像,当样本图像组仅包括一张图像时,该图像的深度特征经过视角变换前后保持不变。
由于变换层可以将样本图像组中的图像的深度特征转换到参考图像视角,即,将多张图像的深度特征转换到相同的视角,使得深度特征之间可相互参考,有利于获得更准确的参考图像的深度图。
第一编解码层、第二编解码层、第三编解码层和第四编解码层的结构相同,且各编解码层的网络参数值可以共享。
可选的,第一编解码层、第二编解码层、第三编解码层和第四编解码层均可以包括特征合并模块、编码器和解码器。
其中,特征合并模块进行特征合并操作的方式包括:对输入的变换后的深度特征进行合并。例如,将非参考图像变换后的深度特征的通道数(channel,c)维度,合并(concat)到参考图像变换后的深度特征中。假设一张图像变换后的深度特征维度包括批数量(batch,b)、c、高度(hight,h)和宽度(width,w),假设样本图像组中包括7张非参考图像和1张参考图像,将7张非参考图像变换后的深度特征的c维度,合并到参考图像变换后的深度特征中,得到的合并后的深度特征维度为b(8c)hw,即包括1个b维度,8个c维度,1个h维度和1个w维度。
本公开实施例中的样本图像组可以仅包括一张图像,此时该图像作为参考图像,在输入的样本图像组仅包括一张图像的情况下,输入特征合并模块前后的深度特征保持不变。
编码器进行编码操作的方式包括:对合并后的深度特征进行特征提取,得到参考图像的特征图。
例如,编码器的结构可以为图像变压器的双向编码器表示(BidirectionalEncoder representation from Image Transformers,BEiT)、或者遮挡自编码器(MaskedAutoencoder,MAE)。
可选的,编码器可以是遮挡自编码器(masked autoencoder)。也就是说,编码器的编码方式可以实现为:对特征合并模块输出的合并后的深度特征进行部分遮挡(masked),并对未遮挡的部分进行特征提取,得到接收到的样本图像组中参考图像的特征图。由于带遮挡的特征提取可以对部分特征进行遮挡,进而无需对遮挡的深度特征进行特征提取,从而减少了所需提取的数据量,提高了特征提取效率。而且使得在解码时能够基于部分深度特征的特征提取结果还原出完整的深度图,从而提高了网络识别深度图的能力和准确性。
解码器进行解码操作的方式包括:对参考图像的特征图进行解码,得到参考图像的深度图。其中,解码器的解码过程是编码器编码过程的逆过程。
采用上述方法,本公开实施例可以对样本图像组的深度特征进行合并后编解码,从而对样本图像组的深度特征合并后进行进一步的深度识别,得到参考图像的深度图。由于样本图像组中的图像是对同一个物体的不同视角的图像,因此图像的深度特征具有相关性,所以综合样本图像组中的多张图像的深度特征,能够得到更准确的参考图像的深度图。
基于图2所示的网络结构,上述S101可以实现为以下第一方面,上述S102可以实现为以下的第二方面和第三方面。以下三个方面可以并行执行也可以串行执行,本公开实施例对以下三个方面的执行顺序不作具体限定。
第一方面、将第一样本图像组依次输入第一变换层和第一编解码层,获得第一深度图。
其中,第一深度图为第一样本图像组中的参考图像的深度图,为方便区分,本公开实施例将第一样本图像组中的参考图像称为第一参考图像。第一参考图像(referenceimage)为第一样本图像组中的任一张图像。样本图像组中的参考图像可以由电子设备在输入网络之前随机选定,或者,对于一个样本图像组,电子设备可以每次将该样本图像组输入网络之前,按照顺序选择一张图像作为参考图像。样本图像组中除参考图像以外的其他图像可以称为源图像(source image)。
在本公开实施例中,可以将第一样本图像组输入第一变换层,通过第一变换层提取第一样本图像组中图像的深度特征,并将图像的深度特征变换到第一参考图像的图像视角。之后将第一样本图像组中图像变换后的深度特征输入第一编解码层,通过第一编解码层包括的特征合并模块对第一样本图像组中图像变换后的深度特征进行合并,利用自身包括的编码器对合并后的深度特征进行特征提取,得到第一参考图像的第一特征图,并通过自身包括的解码器对特征提取后的第一特征图进行解码,得到第一参考图像的第一深度图。
第二方面、将第二样本图像组依次输入弱增强层、第二变换层和第二编解码层,获得第二特征图,以及第二特征图的第二深度图。以及,将第二样本图像组依次输入强增强层、第三变换层和第三编解码层,获得第三特征图,以及第三特征图的第三深度图。
可选的,弱增强层对第二样本图像组中各图像进行的弱增强处理方式可以包括裁剪、翻转和/或大小调整等。强增强层对第二样本图像组中各图像进行的强增强处理可以包括:亮度变换、对比度变换和/或色调变换等。
其中,第二深度图和第三深度图均为第二样本图像组中的参考图像的深度图,为方便区分,本公开实施例将第二样本图像组中的参考图像称为第二参考图像。
在本公开实施例中,可以将第二样本图像组输入弱增强层,通过弱增强层对第二样本图像组进行弱增强。然后将弱增强后的第二样本图像组输入第二变换层,通过第二变换层提取第二样本图像组中图像的深度特征,并将图像的深度特征变换到第二参考图像的图像视角;将第二样本图像组中图像变换后的深度特征输入第二编解码层,通过第二编解码层包括的特征合并层对第二样本图像组中图像变换后的深度特征进行合并,利用自身包括的编码器对合并后的深度特征进行特征提取,得到第二参考图像的第二特征图,并通过自身包括的解码器对特征提取后的第二特征图进行解码,得到第二参考图像的第二深度图。
以及,将第二样本图像组输入强增强层,通过强增强层对第二样本图像组进行强增强。之后将强增强后的第二样本图像组输入第三变换层,通过第三变换层提取第二样本图像组中图像的深度特征,并将图像的深度特征变换到第二样本图像组中参考图像的图像视角。然后将第二样本图像组中图像变换后的深度特征输入第三编解码层,通过第三编解码层包括的特征合并模块对第二样本图像组中图像变换后的深度特征进行合并,利用自身包括的编码器对合并后的深度特征进行特征提取,得到第二参考图像的第三特征图,并通过自身包括的解码器对特征提取后的第三特征图进行解码,得到第二参考图像的第三深度图。
第三方面、将第二样本图像组依次输入第四变换层和第四编解码层,获得第四特征图,以及第四特征图的第四深度图。
其中,第四深度图为第二参考图像的深度图。在本公开实施例中,可以将第二样本图像组输入第四变换层,通过第四变换层提取第二样本图像组中图像的深度特征,并将图像的深度特征变换到第二参考图像的图像视角。然后将第二样本图像组中图像变换后的深度特征输入第四编解码层,通过第四编解码层的特征合并层对第二样本图像组中图像变换后的深度特征进行合并,利用自身包括的编码器对合并后的深度特征进行特征提取,得到第二参考图像的第四特征图,并通过自身包括的解码器对特征提取后的第四特征图进行解码,得到第二参考图像的第四深度图。
通过上述方法,本公开实施例中的网络能够对输入的样本图像组进行深度识别,得到参考图像的特征图和深度图,方便后续基于参考图像的特征图和深度图确定各种损失值。
在本公开的一个实施例中,基于图2所示的各网络层结构,上述S106中得到目标图像深度识别模型的方式,可以为:将训练完成的第一网络作为目标图像深度识别模型。或者,将训练完成的第二网络的第一子网络包括的第二变换层和第二编解码层作为目标图像深度识别模型。或者,将训练完成的第二网络的第二子网络包括的第三变换层和第三编解码层作为目标图像深度识别模型。或者,将训练完成的第三网络作为目标图像深度识别模型。
通过上述方法,本公开实施例可以基于训练完成的其中一个网络,得到目标图像深度识别模型,由于训练过程能够提升各网络的泛化能力和识别准确性,因此基于训练完成的一个网络得到的目标图像深度识别模型泛化能力更好,且识别结果更准确。
在本公开的一个实施例中,上述S104中确定第一处理结果和第二处理结果之间的一致性损失值的方式,包括以下两种:
方式一、确定第二深度图以及第三深度图中,相同位置的像素点之间的误差,得到一致性损失值。
在本公开实施例中,可以通过预设的第二损失函数,确定第二网络的第一子网络输出的第二深度图和第二网络的第二子网络输出的第三深度中,相同位置的像素点的属性值之间的误差,得到一致性损失值。其中,像素点的属性值包括光度、光流、像素值和/或梯度值等。其中,像素点的梯度值为像素点的像素值与其相邻的像素点像素值之间的差值。
由于第二网络的两个子网络分别对第二样本图像组进行强增强和弱增强处理,强增强后的样本图像组与弱增强后的第二样本图像组是相似的。因此两个子网络的输出结果也应该是相似的,因此通过两个子网络对相似的第二样本图像组进行深度识别的结果之间的相似性,得到的一致性损失,能够表现出第二网络的识别准确性。
方式二、确定第二特征图以及第三特征图中,相同位置的特征点之间的误差,得到一致性损失值。
在本公开实施例中,可以通过预设的第二损失函数,确定第二网络的第一子网络识别的第二特征图和第二网络的第二子网络识别的第三特征图中,相同位置的特征点的特征值之间的误差,得到一致性损失值。其中,特征图的维度包括:批(batch)、视图(view)、深度(depth)、h和w。其中,batch表示本次训练输入子网络的第二样本图像组的数量,view表示输入的第二样本图像组中图像数量,depth表示特征图深度,h表示特征图高度,w表示特征图宽度。
由于第二网络的两个子网络分别对第二样本图像组进行强增强和弱增强处理,强增强后的样本图像组与弱增强后的第二样本图像组是相似的。因此两个子网络的特征提取结果也应该是相似的,因此通过两个子网络对相似的第二样本图像组进行特征提取的结果之间的相似性,得到的一致性损失,能够表现出第二网络的识别准确性。
上述S105中基于第一处理结果、第二处理结果和第三处理结果,确定对比损失值的方式,包括以下两种:
方式1、对于第二深度图中的像素点,选择第三深度图中相同位置的像素点作为正样本,并选择第四深度图中指定数量个不同位置的像素点作为负样本,确定对比损失值。
在本公开实施例中,可以对于第二编解码层解码后得到的第二深度图中的每个像素点,选择第三编解码层解码后得到的第三深度图中相同位置的像素点作为正样本,选择第四编解码层解码后得到的第四深度图中指定数量个不同位置的像素点作为负样本。分别确定该像素点的属性值与正样本的属性值之间的正误差,以及该像素点的属性值与负样本的属性值之间的负误差,根据计算的误差,得到对比损失值。
其中,正误差与对比损失值正相关,负误差与对比损失值负相关。即像素点与其正样本之间误差越小,对比损失值越小,像素点与其负样本之间的误差越大,对比损失值越小。方便后续通过优化对比损失值,达到像素点与其正样本之间的误差减小,且像素点与其负样本之间的误差增大的效果。
由于第二网络的两个子网络分别对第二样本图像组进行强增强和弱增强处理,强增强后的样本图像组与弱增强后的第二样本图像组是相似的。因此两个子网络对图像中相同位置的输出结果也应该是相似的,而第三网络对第二样本图像组中对与该位置不同的其他位置的输出结果,应当与该位置的输出结果不同。因此本公开实施例通过深度图中相同位置的像素点之间的相似性,以及不同位置的像素点之间的相似性,得到对比损失,从而表现出第二网络和第三网络的识别准确性。
方式2、对于第二特征图中的特征点,选择第三特征图中相同位置的特征点作为正样本,并选择第四特征图中指定数量个不同位置的特征点作为负样本,确定对比损失值。
在本公开实施例中,可以对于第二编解码层编码后得到的第二特征图中的每个像素点,选择第三编解码层编码后得到的第三特征图中相同位置的像素点作为正样本,并选择第四编解码层编码后得到的第四特征图中指定数量个不同位置的像素点作为负样本。分别确定该特征点的特征值与正样本的特征值之间的正误差,以及该特征点的特征值与负样本的特征值之间的负误差,根据计算的误差,得到对比损失值。
其中,正误差与对比损失值正相关,负误差与对比损失值负相关。即特征点与其正样本之间误差越小,对比损失值越小,特征点与其负样本之间的误差越大,对比损失值越小。方便后续通过优化对比损失值,达到特征点与其正样本之间的误差减小,且特征点与其负样本之间的误差增大的效果。
由于第二网络的两个子网络分别对第二样本图像组进行强增强和弱增强处理,强增强后的第二样本图像组与弱增强后的样本图像组是相似的。因此两个子网络对图像中相同位置的特征提取结果也应该是相似的,而第三网络对第二样本图像组中对与该位置不同的其他位置的特征提取结果,应当与该位置的特征提取结果不同。因此本公开实施例通过相同位置的特征提取结果之间的相似性,以及不同位置的特征提取结果之间的相似性,得到对比损失,从而表现出第二网络和第三网络的识别准确性。
本公开实施例中,计算一致性损失值的方式一和方式二,与计算对比损失值的方式1和方式2可以任意组合使用。例如,通过方式一计算一致性损失值,结合通过方式1计算对比损失值;通过方式一计算一致性损失值,结合通过方式2计算对比损失值;通过方式二计算一致性损失值,结合通过方式1计算对比损失值;通过方式二计算一致性损失值,结合通过方式2计算对比损失值。
参见图3,以下结合实际场景,对本公开实施例提供的图像深度识别模型训练方法的整体流程进行说明:
获取多个第一样本图像组和多个第二样本图像组。其中,每个样本图像组包括对同一个物体从三个不同的视角拍摄的得到的三张图像,其中一张是参考图像,另外两张是源图像,即非参考图像。各第一样本图像组均为带深度图标签的图像样本组,各第二样本图像组中存在带深度图标签的图像样本组以及不带深度图标签的图像样本组。
将第一样本图像组输入第一网络,得到第一网络输出的第一深度图;将第二样本图像组分别输入第二网络的第一子网络、第二子网络以及第三网络,得到第一子网络识别的第二特征图以及输出的第二深度图、第二子网络识别的第三特征图以及输出的第三深度图、以及第三网络识别的第四特征图以及输出的第四深度图。
基于第一网络输出的第一深度图和第一样本图像组对应的预设深度图标签,确定全监督损失值。
基于第二深度图和第三深度图中,相同位置的像素点之间的一致性,得到一致性损失值。
对于第二特征图中的每个特征点,选择第三特征图中相同位置的特征点作为正样本,并选择第四特征图中指定数量个不同位置的特征点作为负样本,确定对比损失值。
基于全监督损失值、一致性损失值和对比损失值的加权和,训练预训练的图像深度识别模型,并将训练完成的第一网络作为目标图像深度识别模型。
图3中各步骤的具体实现方式可参考上述描述,此处不再赘述。
基于相同的发明构思,本公开实施例还提供了一种图像深度识别方法,该方法可以应用于电子设备,例如,电子设备可以是台式计算机、手机或者平板电脑等具备图像处理能力的设备。而且本公开实施例中,图像深度识别模型训练方法和图像深度识别方法所应用的电子设备,可以是相同的电子设备,也可以是不同的电子设备。
如图4所示,本公开实施例提供的图像深度识别方法,可以包括如下步骤:
S401、获取待预测图像组。
其中,待预测图像组包括相同物体的一张图像或多张不同视角的图像。
S402、将待预测图像组输入目标图像深度识别模型,得到目标图像深度识别模型输出的深度图。
其中,目标图像深度识别模型为通过上述图像深度识别模型训练方法训练得到的模型。
目标图像深度识别模型输出的深度图为待预测图像组中参考图像的深度图。参考图像的深度图中的像素点表示参考图像中相同位置的像素点的深度。
参考图像可以是预设的或者随机选定的。例如,对于一组待预测图像组,每次按照顺序选择一张图像作为参考图像,利用目标图像深度识别模型识别参考图像的深度图,从而得到这组待预测图像组中每张图像的深度图。
采用上述方法,本公开实施例在对预训练的图像深度识别模型进行训练时,结合了全监督损失值、一致性损失值和对比损失值,一致性损失值和对比损失值属于自监督损失值,计算时不需要高精度的深度图标签,从而减少训练过程对于高精度的深度图标签的依赖,因此可以基于无深度图标签的样本图像组得到,而无深度图标签的样本图像组更容易获得,因此可以利用大量的无深度图标签的样本图像组进行训练,从而提高了训练得到的目标图像深度识别模型的泛化能力。此外,本公开实施例在训练预训练的图像深度识别模型时,还结合了全监督损失值,全监督损失值基于高精度的深度图标签确定,因此能够提高训练得到的目标图像深度识别模型识别深度图的准确性。因此本公开实施例结合三种损失值训练得到目标图像深度识别模型,能够在保证模型泛化能力的基础上,提高对图像深度识别的识别准确性。使得后续利用目标图像深度识别模型识别待预测图像组时,能够得到更准确的深度图。
基于相同的发明构思,对应于上述方法实施例,本公开实施例提供了一种图像深度识别模型训练装置,如图5所示,还装置包括:识别模块501、确定模块502和训练模块503;
识别模块501,用于利用第一网络对第一样本图像组进行深度识别,获得第一深度图;
识别模块501,还用于利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果;
确定模块502,用于基于识别模块501获得的第一深度图和第一样本图像组对应的预设深度图标签,确定全监督损失值;
确定模块502,还用于确定识别模块501获得的第一处理结果和第二处理结果之间的一致性损失值;
确定模块502,还用于基于识别模块501获得的第一处理结果、第二处理结果和第三处理结果,确定对比损失值;
训练模块503,用于基于确定模块502确定的全监督损失值、一致性损失值和对比损失值,对预训练的图像深度识别模型进行训练,得到目标图像深度识别模型,预训练的图像深度识别模型包括第一网络、第二网络和第三网络。
在本公开的一个实施例中,其中,第一网络包括第一变换层和第一编解码层;第一子网络包括弱增强层、第二变换层和第二编解码层,第二子网络包括强增强层、第三变换层和第三编解码层;第三网络包括第四变换层和第四编解码层;
识别模块501,具体用于:
将第一样本图像组依次输入第一变换层和第一编解码层,获得第一深度图;
识别模块501,具体用于:
将第二样本图像组依次输入弱增强层、第二变换层和第二编解码层,获得第二特征图,以及第二特征图的第二深度图;
将第二样本图像组依次输入强增强层、第三变换层和第三编解码层,获得第三特征图,以及第三特征图的第三深度图;
将第二样本图像组依次输入第四变换层和第四编解码层,获得第四特征图,以及第四特征图的第四深度图。
在本公开的一个实施例中,第一变换层、第二变换层、第三变换层和第四变换层分别用于:
提取输入的样本图像组中的图像的深度特征;
将提取的深度特征变换到输入的样本图像组中参考图像的图像视角,得到变换后的深度特征,参考图像为所属样本图像组中的任一张图像,样本图像组包括相同物体的一张图像或多张不同视角的图像。
在本公开的一个实施例中,其中,第一编解码层、第二编解码层、第三编解码层和第四编解码层均包括特征合并模块、编码器和解码器;
特征合并模块用于:对输入的变换后的深度特征进行合并;
编码器用于:对合并后的深度特征进行特征提取,得到参考图像的特征图;
解码器用于:对参考图像的特征图进行解码,得到参考图像的深度图。
在本公开的一个实施例中,其中,确定模块502,具体用于:
确定第二深度图以及第三深度图中,相同位置的像素点之间的误差,得到一致性损失值。
在本公开的一个实施例中,其中,确定模块502,具体用于:
确定第二特征图以及第三特征图中,相同位置的特征点之间的误差,得到一致性损失值。
在本公开的一个实施例中,其中,确定模块502,具体用于:
对于第二深度图中的像素点,选择第三深度图中相同位置的像素点作为正样本,并选择第四深度图中指定数量个不同位置的像素点作为负样本,确定对比损失值。
在本公开的一个实施例中,其中,确定模块502,具体用于:
对于第二特征图中的特征点,选择第三特征图中相同位置的特征点作为正样本,并选择第四特征图中指定数量个不同位置的特征点作为负样本,确定对比损失值。
在本公开的一个实施例中,其中,训练模块503,具体用于:
将训练完成的第一网络作为目标图像深度识别模型;或者,
将训练完成的第二网络的第一子网络包括的第二变换层和第二编解码层,作为目标图像深度识别模型;或者,
将训练完成的第二网络的第二子网络包括的第三变换层和第三编解码层,作为目标图像深度识别模型;或者,
将训练完成的第三网络作为目标图像深度识别模型。
在本公开的一个实施例中,其中,编码器为遮挡自编码器。
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种图像深度识别装置,如图6所示,该装置包括:获取模块601和输入模块602;
获取模块601,用于获取待预测图像组;
输入模块602,用于将获取模块601获取的待预测图像组输入目标图像深度识别模型,得到目标图像深度识别模型输出的深度图,目标图像深度识别模型为通过上述图像深度识别模型训练方法训练得到的模型。
本公开的技术方案中,所涉及的图像的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
需要说明的是,本实施例中的样本图像组并不是针对某一特定用户的图像,并不能反映出某一特定用户的个人信息。
需要说明的是,本实施例中的样本图像组可以来自于公开数据集。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如图像深度识别模型训练方法或者图像深度识别方法。例如,在一些实施例中,图像深度识别模型训练方法或者图像深度识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的图像深度识别模型训练方法或者图像深度识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像深度识别模型训练方法或者图像深度识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (25)
1.一种图像深度识别模型训练方法,包括:
利用第一网络对第一样本图像组进行深度识别,获得第一深度图;
利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果;
基于所述第一深度图和所述第一样本图像组对应的预设深度图标签,确定全监督损失值;
确定所述第一处理结果和所述第二处理结果之间的一致性损失值;
基于所述第一处理结果、所述第二处理结果和所述第三处理结果,确定对比损失值;
基于所述全监督损失值、所述一致性损失值和所述对比损失值,对预训练的图像深度识别模型进行训练,得到目标图像深度识别模型,所述预训练的图像深度识别模型包括所述第一网络、所述第二网络和所述第三网络。
2.根据权利要求1所述的方法,其中,所述第一网络包括第一变换层和第一编解码层;所述第一子网络包括弱增强层、第二变换层和第二编解码层,所述第二子网络包括强增强层、第三变换层和第三编解码层;所述第三网络包括第四变换层和第四编解码层;
所述利用第一网络对第一样本图像组进行深度识别,获得第一深度图,包括:
将所述第一样本图像组依次输入所述第一变换层和所述第一编解码层,获得所述第一深度图;
所述利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果,包括:
将所述第二样本图像组依次输入所述弱增强层、所述第二变换层和所述第二编解码层,获得第二特征图,以及所述第二特征图的第二深度图;
将所述第二样本图像组依次输入所述强增强层、所述第三变换层和所述第三编解码层,获得第三特征图,以及所述第三特征图的第三深度图;
将所述第二样本图像组依次输入所述第四变换层和所述第四编解码层,获得第四特征图,以及所述第四特征图的第四深度图。
3.根据权利要求2所述的方法,其中,所述第一变换层、第二变换层、第三变换层和第四变换层分别进行变换处理的方式包括:
提取输入的样本图像组中的图像的深度特征;
将提取的深度特征变换到输入的样本图像组中参考图像的图像视角,得到变换后的深度特征,所述参考图像为所属样本图像组中的任一张图像,所述样本图像组包括相同物体的一张图像或多张不同视角的图像。
4.根据权利要求3所述的方法,其中,所述第一编解码层、所述第二编解码层、所述第三编解码层和所述第四编解码层均包括特征合并模块、编码器和解码器;
所述特征合并模块进行特征合并操作的方式包括:对输入的变换后的深度特征进行合并;
所述编码器进行编码操作的方式包括:对合并后的深度特征进行特征提取,得到所述参考图像的特征图;
所述解码器进行解码操作的方式包括:对所述参考图像的特征图进行解码,得到所述参考图像的深度图。
5.根据权利要求2-4任一项所述的方法,其中,所述确定所述第一处理结果和所述第二处理结果之间的一致性损失值,包括:
确定所述第二深度图以及所述第三深度图中,相同位置的像素点之间的误差,得到所述一致性损失值。
6.根据权利要求2-4任一项所述的方法,其中,所述确定所述第一处理结果和所述第二处理结果之间的一致性损失值,包括:
确定所述第二特征图以及所述第三特征图中,相同位置的特征点之间的误差,得到所述一致性损失值。
7.根据权利要求2-4任一项所述的方法,其中,所述基于所述第一处理结果、所述第二处理结果和所述第三处理结果,确定对比损失值,包括:
对于所述第二深度图中的像素点,选择所述第三深度图中相同位置的像素点作为正样本,并选择所述第四深度图中指定数量个不同位置的像素点作为负样本,确定所述对比损失值。
8.根据权利要求2-4任一项所述的方法,其中,所述基于所述第一处理结果、所述第二处理结果和所述第三处理结果,确定对比损失值,包括:
对于所述第二特征图中的特征点,选择所述第三特征图中相同位置的特征点作为正样本,并选择所述第四特征图中指定数量个不同位置的特征点作为负样本,确定所述对比损失值。
9.根据权利要求2-4任一项所述的方法,其中,所述得到目标图像深度识别模型,包括:
将训练完成的所述第一网络作为所述目标图像深度识别模型;或者,
将训练完成的所述第二网络的第一子网络包括的所述第二变换层和所述第二编解码层,作为所述目标图像深度识别模型;或者,
将训练完成的所述第二网络的第二子网络包括的所述第三变换层和所述第三编解码层,作为所述目标图像深度识别模型;或者,
将训练完成的所述第三网络作为所述目标图像深度识别模型。
10.根据权利要求4所述的方法,其中,所述编码器为遮挡自编码器。
11.一种图像深度识别方法,包括:
获取待预测图像组;
将所述待预测图像组输入目标图像深度识别模型,得到所述目标图像深度识别模型输出的深度图,所述目标图像深度识别模型为通过权利要求1-10任一项所述的方法训练得到的模型。
12.一种图像深度识别模型训练装置,包括:
识别模块,用于利用第一网络对第一样本图像组进行深度识别,获得第一深度图;
所述识别模块,还用于利用第二网络的第一子网络、第二子网络和第三网络分别对第二样本图像组进行深度识别,获得第一处理结果、第二处理结果和第三处理结果;
确定模块,用于基于所述识别模块获得的所述第一深度图和所述第一样本图像组对应的预设深度图标签,确定全监督损失值;
所述确定模块,还用于确定所述识别模块获得的所述第一处理结果和所述第二处理结果之间的一致性损失值;
所述确定模块,还用于基于所述识别模块获得的所述第一处理结果、所述第二处理结果和所述第三处理结果,确定对比损失值;
训练模块,用于基于所述确定模块确定的所述全监督损失值、所述一致性损失值和所述对比损失值,对预训练的图像深度识别模型进行训练,得到目标图像深度识别模型,所述预训练的图像深度识别模型包括所述第一网络、所述第二网络和所述第三网络。
13.根据权利要求12所述的装置,其中,所述第一网络包括第一变换层和第一编解码层;所述第一子网络包括弱增强层、第二变换层和第二编解码层,所述第二子网络包括强增强层、第三变换层和第三编解码层;所述第三网络包括第四变换层和第四编解码层;
所述识别模块,具体用于:
将所述第一样本图像组依次输入所述第一变换层和所述第一编解码层,获得所述第一深度图;
所述识别模块,具体用于:
将所述第二样本图像组依次输入所述弱增强层、所述第二变换层和所述第二编解码层,获得第二特征图,以及所述第二特征图的第二深度图;
将所述第二样本图像组依次输入所述强增强层、所述第三变换层和所述第三编解码层,获得第三特征图,以及所述第三特征图的第三深度图;
将所述第二样本图像组依次输入所述第四变换层和所述第四编解码层,获得第四特征图,以及所述第四特征图的第四深度图。
14.根据权利要求13所述的装置,其中,所述第一变换层、第二变换层、第三变换层和第四变换层分别用于:
提取输入的样本图像组中的图像的深度特征;
将提取的深度特征变换到输入的样本图像组中参考图像的图像视角,得到变换后的深度特征,所述参考图像为所属样本图像组中的任一张图像,所述样本图像组包括相同物体的一张图像或多张不同视角的图像。
15.根据权利要求14所述的装置,其中,所述第一编解码层、所述第二编解码层、所述第三编解码层和所述第四编解码层均包括特征合并模块、编码器和解码器;
所述特征合并模块用于:对输入的变换后的深度特征进行合并;
所述编码器用于:对合并后的深度特征进行特征提取,得到所述参考图像的特征图;
所述解码器用于:对所述参考图像的特征图进行解码,得到所述参考图像的深度图。
16.根据权利要求13-15任一项所述的装置,其中,所述确定模块,具体用于:
确定所述第二深度图以及所述第三深度图中,相同位置的像素点之间的误差,得到所述一致性损失值。
17.根据权利要求13-15任一项所述的装置,其中,所述确定模块,具体用于:
确定所述第二特征图以及所述第三特征图中,相同位置的特征点之间的误差,得到所述一致性损失值。
18.根据权利要求13-15任一项所述的装置,其中,所述确定模块,具体用于:
对于所述第二深度图中的像素点,选择所述第三深度图中相同位置的像素点作为正样本,并选择所述第四深度图中指定数量个不同位置的像素点作为负样本,确定所述对比损失值。
19.根据权利要求13-15任一项所述的装置,其中,所述确定模块,具体用于:
对于所述第二特征图中的特征点,选择所述第三特征图中相同位置的特征点作为正样本,并选择所述第四特征图中指定数量个不同位置的特征点作为负样本,确定所述对比损失值。
20.根据权利要求13-15任一项所述的装置,其中,所述训练模块,具体用于:
将训练完成的所述第一网络作为所述目标图像深度识别模型;或者,
将训练完成的所述第二网络的第一子网络包括的所述第二变换层和所述第二编解码层,作为所述目标图像深度识别模型;或者,
将训练完成的所述第二网络的第二子网络包括的所述第三变换层和所述第三编解码层,作为所述目标图像深度识别模型;或者,
将训练完成的所述第三网络作为所述目标图像深度识别模型。
21.根据权利要求15所述的装置,其中,所述编码器为遮挡自编码器。
22.一种图像深度识别装置,包括:
获取模块,用于获取待预测图像;
输入模块,用于将所述获取模块获取的所述待预测图像组输入目标图像深度识别模型,得到所述目标图像深度识别模型输出的深度图,所述目标图像深度识别模型为通过权利要求1-10任一项所述的方法训练得到的模型。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10或11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10或11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-10或11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533519.0A CN114842066A (zh) | 2022-05-13 | 2022-05-13 | 图像深度识别模型训练方法、图像深度识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533519.0A CN114842066A (zh) | 2022-05-13 | 2022-05-13 | 图像深度识别模型训练方法、图像深度识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842066A true CN114842066A (zh) | 2022-08-02 |
Family
ID=82571093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210533519.0A Pending CN114842066A (zh) | 2022-05-13 | 2022-05-13 | 图像深度识别模型训练方法、图像深度识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842066A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578797A (zh) * | 2022-09-30 | 2023-01-06 | 北京百度网讯科技有限公司 | 模型训练方法、图像识别方法、装置及电子设备 |
-
2022
- 2022-05-13 CN CN202210533519.0A patent/CN114842066A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578797A (zh) * | 2022-09-30 | 2023-01-06 | 北京百度网讯科技有限公司 | 模型训练方法、图像识别方法、装置及电子设备 |
CN115578797B (zh) * | 2022-09-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 模型训练方法、图像识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163080B (zh) | 人脸关键点检测方法及装置、存储介质和电子设备 | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
CN113012210B (zh) | 深度图的生成方法、装置、电子设备和存储介质 | |
CN113971751A (zh) | 训练特征提取模型、检测相似图像的方法和装置 | |
CN112862877B (zh) | 用于训练图像处理网络和图像处理的方法和装置 | |
CN112634343A (zh) | 图像深度估计模型的训练方法、图像深度信息的处理方法 | |
CN113570606B (zh) | 目标分割的方法、装置及电子设备 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN114419519B (zh) | 目标对象检测方法、装置、电子设备和存储介质 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
CN115330940B (zh) | 一种三维重建方法、装置、设备和介质 | |
CN114612741A (zh) | 缺陷识别模型的训练方法、装置、电子设备及存储介质 | |
CN115423946A (zh) | 大场景弹性语义表征与自监督光场重建方法及装置 | |
CN112529018A (zh) | 图像局部特征的训练方法、装置及存储介质 | |
CN113177483B (zh) | 视频目标分割方法、装置、设备以及存储介质 | |
CN114549904A (zh) | 视觉处理及模型训练方法、设备、存储介质及程序产品 | |
CN114842066A (zh) | 图像深度识别模型训练方法、图像深度识别方法及装置 | |
CN114037630A (zh) | 一种模型训练及图像去雾方法、装置、设备及存储介质 | |
CN117011137B (zh) | 基于rgb相似度特征匹配的图像拼接方法、装置及设备 | |
CN113409340A (zh) | 语义分割模型训练方法、语义分割方法、装置及电子设备 | |
CN114494782B (zh) | 图像处理方法、模型训练方法、相关装置及电子设备 | |
CN115375740A (zh) | 位姿确定方法和三维模型的生成方法、装置、设备、介质 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN115019057A (zh) | 图像特征提取模型确定方法及装置、图像识别方法及装置 | |
CN114841870A (zh) | 图像处理方法、相关装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |