CN113781542A - 模型生成方法、深度估计方法、装置以及电子设备 - Google Patents
模型生成方法、深度估计方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN113781542A CN113781542A CN202111115025.2A CN202111115025A CN113781542A CN 113781542 A CN113781542 A CN 113781542A CN 202111115025 A CN202111115025 A CN 202111115025A CN 113781542 A CN113781542 A CN 113781542A
- Authority
- CN
- China
- Prior art keywords
- depth estimation
- estimation model
- training
- binocular depth
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种模型生成方法、深度估计方法、装置以及电子设备。所述方法包括:获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像;通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种模型生成方法、深度估计方法、装置、电子设备以及计算机程序产品。
背景技术
双目深度估计是计算机视觉领域的一项基础任务,它是基于深度原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。在此背景下,可以使用双目相机拍摄同一场景的左、右两幅视点图像,然后根据左、右两幅视点图像来得到获得深度图。而深度图的应用范围非常广泛,由于其能够记录场景中物体距离摄像机的距离,可以用以测量、三维重建、以及虚拟视点的合成等。
但是,相关的得到深度图的方式主要是通过神经网络来实现的,但是该神经网络还存在算法鲁棒性差的问题。
发明内容
鉴于上述问题,本申请提出了一种模型生成方法、深度估计方法、装置、电子设备以及计算机程序产品,以实现改善上述问题。
第一方面,本申请提供了一种模型生成方法,应用于电子设备,所述方法包括:获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像;通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。
第二方面,本申请提供了一种深度估计方法,应用于电子设备,所述方法包括:获取目标图像,所述目标图像包括通过双目相机拍摄的第一图像和第二图像;将所述目标图像输入上述方法得到的目标双目深度估计模型中,获取所述目标双目深度估计模型输出的所述目标图像对应的深度信息。
第三方面,本申请提供了一种模型生成装置,运行于电子设备,所述装置包括:训练集获取单元,用于获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像;初始模型获取单元,用于通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;目标模型获取单元,用于通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的对应有确定超参数的双目深度估计模型作为目标双目深度估计模型。
第四方面,本申请提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现上述方法的步骤。
第六方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种模型生成方法、深度估计方法、装置、电子设备、计算机程序产品以及存储介质,在获取包括多组双目图像的第一训练集和第二训练集后,通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型,通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提出的一种模型生成方法的流程图;
图2示出了本申请提出的一种初始双目深度估计模型的示意图;
图3示出了本申请提出的一种第一搜索空间的示意图;
图4示出了本申请提出的一种第二搜索空间的示意图;
图5示出了本申请另一实施例提出的一种模型生成方法的流程图;
图6示出了本申请图5中S250的一种实施例方式的流程图;
图7示出了本申请图5中S260的一种实施例方式的流程图;
图8示出了本申请又一实施例提出的一种模型生成方法的流程图;
图9示出了本申请再一实施例提出的一种模型生成方法的流程图;
图10示出了本申请实施例提出的一种深度估计方法的流程图;
图11示出了本申请实施例提出的一种模型生成装置的结构框图;
图12示出了本申请另一实施例提出的一种深度估计装置的结构框图;
图13示出了本申请提出的一种电子设备的结构框图;
图14是本申请实施例的用于保存或者携带实现根据本申请实施例的参数获取方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
双目深度估计是计算机视觉领域的一项基础任务,它是基于深度原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。在此背景下,可以使用双目相机拍摄同一场景的左、右两幅视点图像,然后根据左、右两幅视点图像来得到获得深度图。而深度图的应用范围非常广泛,由于其能够记录场景中物体距离摄像机的距离,可以用以测量、三维重建、以及虚拟视点的合成等。
发明人在对相关研究中发现,得到深度图的方式主要是通过神经网络来实现的,该神经网路通常是人工设计的,并且为了追求神经网络在公开数据集上的精度更高,神经网络的结构被设计得愈发复杂,从而使得该该神经网络还存在存储资源的浪费、实时性不高以及算法鲁棒性差的问题。
因此,发明人提出了本申请中的一种模型生成方法、深度估计方法、装置、电子设备以及计算机程序产品,在获取包括多组双目图像的第一训练集和第二训练集后,通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型,通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。
请参阅图1,本申请提供的一种模型生成方法,应用于电子设备,所述方法包括:
S110:获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像。
其中,第一训练集可以为公开数据集,例如Sceneflow数据集。第二训练集可以为一个或者多个数据集,其中,在多个数据集中可以有公开数据集和非公开数据集。示例性的,第二训练集可以为Kitti数据集、SceneFlow数据集、Eth3D数据集、手机相机采集数据集中的一个或者多个。其中,除了手机相机采集数据集是非公开数据集以外,其它数据集都为公开数据集,该手机相机数据集可以由多组不同场景下的双目图像组成,每组双目图像可以为通过两个相隔一定距离的摄像头同时获取同一场景下的两幅图像,其中,该摄像头可以部署在手机或者相机上,该场景可以包含人像等信息。
可以理解的是,公开数据集中的双目图像和实际双目图像可能存在一定差异,并且每个公开数据集也有各自的特点,如果只使用一个数据集进行模型训练,可能会使得训练好的模型在另一个数据集上的预测性能下降。而采用多个数据集对模型进行训练,可以使模型学习到不同场景下的双目图像的特征,从而提高模型的泛化能力。同时,相对于其它公开数据集来说,手机相机采集数据集所包含的双目图像的数量较少,主要是可以补充多种实际场景下的双目图像,进而可以提高模型的鲁棒性。
S120:通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型。
其中,可以将第一训练集按照比例划分为训练集和数据集,例如,该比例可以是训练集:验证集为9:1。
其中,如图2所示,初始双目深度估计模型可以由特征网络、匹配网络和预测层构成,通过将一组双目图像(双目图像1和双目图像2)输入特征网络中,可以得到该组双目图像各自对应的特征,每个特征大小可以为C×H×W,其中C可以为通道数,H×W可以为该特征的长×宽;在得到该组双目图像各自对应的特征后,可以根据视差深度范围提取视差特征得到一个四维特征体,该四维特征体的大小可以为D×2C×H×W,其中,D为最大视差,每一个视差都对应有一个由该组双目图像各自对应的特征级联起来的2C×H×W的视差特征,示例性的,最大视差可以为192,则视差深度范围可以为1~192;将视差特征输入匹配网络可以得到一个三维损失体,该三维损失体的大小可以为D×H×W;再将该三维损失体输入到预测层可以得到该组双目图像的深度信息,该深度信息的大小可以为H×W×1,其中,预测层可以由一个上采样模块和softmax组成。
作为一种方式,该初始双目深度估计模型的特征网络的结构可以通过第一搜索网络得到,该初始双目深度估计模型的匹配网络的结构可以通过第二搜索网络得到。第一搜索网络和第二搜索网络都包括有第一搜索空间和第二搜索空间,其中,如图3所示,所述第一搜索空间包括基本搜索单元,所述基本搜索单元对应有包含多个节点的完全连接的有向无环图,所述有向无环图中每两个节点之间连接的边对应有备选操作;如图4所示,所述第二搜索空间由多个所述基本搜索单元层级排列而成,每个所述基本搜索单元与前一层基本搜索单元的每一级存在路径连接。
可以理解的是,该第一搜索网络和该第二搜索网络中每条边所对应的备选操作可以不相同。示例性的,该第一搜索网络中每条边所对应的备选操作可以为二维卷积和跳层连接,该第二搜索网络中每条边所对应的备选操作可以为三维卷积和跳层连接。在图3中,实线的边可以对应于卷积操作,虚线的边可以对应于跳层操作。
作为另一种方式,该初始双目深度估计模型的特征网络的结构可以通过第一搜索网络得到,该初始双目深度估计模型的匹配网络的结构可以为Transformer结构,Transformer结构可以有注意力机制。
作为又一种方式,在该初始双目深度估计模型的特征网络和匹配网络的基础上还可以添加图像分割网络,该图像分割网络可以用于调节特征网络的特征权重,示例性的,在将一组双目图像(双目图像1和双目图像2)输入特征网络的同时,还可以将该组图像输入各自对应的图像分割网络,通过sigmoid函数可以将分割网络的输出特征范围变为0~1,可以将0~1范围的分割网络特征与特征网络的输出特征相乘得到新的特征。
可以理解的是,上述三种方式相比,通过第一搜索网络和第二搜索网络得到的初始双目深度估计模型的网络结构更加简单,可以节约电子设备的计算资源和存储空间;通过第一搜索网络得到的特征网络和Transformer结构的匹配网络得到的初始双目深度估计模型准确率更高,通过在特征网络和匹配网络的基础上增加了图像分割网络,可以考虑到双目图像边界的深度信息,提高初始双目深度估计模型的预测准确率。
S130:通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。
其中,作为一种方式,可以将所述第二训练集中的所有双目图像按比例随机划分为训练集和测试集。
作为另一种方式,可以将第二训练集中的每一个数据集的双目图像按比例划分为训练集和测试集;再将所有数据集的训练集合并为最终的训练集,将所有数据集的测试集合并为最终的测试集。
其中,作为一种方式,可以通过所述第二训练集对所述初始双目深度估计模型进行网络参数训练,以得到收敛的初始双目深度估计模型,并将该收敛的初始双目深度估计模型作为目标双目深度估计模型。
本实施例提供的一种模型生成方法,在获取目标设备的诊断信息后,所述诊断信息表征所述目标设备的当前网络状态,若所述诊断信息表征所述目标设备的当前网络状态差,获取所述目标设备的当前网络状态对应的调整信息,基于所述调整信息对所述目标设备进行网络双目深度估计。通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。
请参阅图5,本申请提供的一种模型生成方法,应用于电子设备,所述方法包括:
S210:获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像。
S220:将所述第一训练集输入所述待训练双目深度估计模型。
S230:利用所述第一训练集在第一搜索网络的第一搜索空间和第二搜索空间中搜索,得到第一权重参数集以及第二权重参数集,所述第一权重参数集表征第一搜索网络的第一搜索空间中每一条边所对应的备选操作的权重,所述第二权重参数集中的权重表征所述第一搜索网络的的第二搜索空间中每一路径的权重。
其中,第一搜索网络可以用于确定特征网络的结构。如图3所示,第一搜索空间可以包括基本搜索单元,所述基本搜索单元对应有包含多个节点的完全连接的有向无环图,该有向无环图中包含两个输入节点,一个输出节点和三个中间节点,其中,输出节点可以通过多个中间节点的输出进行连接(concat)得到。如图4所示,第二搜索空间可以由多个基本搜索单元层级排列而成,每一层都对应于一个基本搜索单元,同时考虑到网络中上、下采样的问题,每一层的基本搜索单元都对应有多级基本搜索单元,其中,每一级的基本搜索单元都对应于不同的分辨率,所以要考虑常规网络中的上下采样问题,即分辨率变化。示例性的,第一搜索网络可以由6层基本搜素单元组成,每一层可以按照1/3、1/2、1/2、1/2的下采样比率对应于四种不同的分辨率,依次为1/3、1/6、1/12、1/24。
可以理解的是,基本搜索单元在第二搜索空间中是层级排列的,因此,不同层的基本搜索单元可以对应有不同的输入。示例性的,若基本搜索单元排在第一搜索网络的第一层,则该基本搜索单元两个输入节点的输入可以都为对应的双目图像;若基本搜索单元排在第一搜索网络的第二层,则该基本搜索单元输入节点1的输入可以为对应的双目图像,输入节点2的输入可以为第一层基本搜索单元的输出;若基本搜索单元排在第一搜索网络的第三层,则该基本搜索单元输入节点1的输入可以为可以为第一层基本搜索单元的输出,输入节点2的输入可以为第二层基本搜索单元的输出。
S240:利用所述第一训练集在第二搜索网络的第一搜索空间和所述第二搜索空间中搜索,得到第三权重参数集以及第四权重参数集,所述第三权重参数集表征第二搜索网络的第一搜索空间中每一条边所对应的备选操作的权重,所述第四权重参数集中的权重表征所述第二搜索网络的的第二搜索空间中每一路径的权重。
其中,第二搜索网络可以用于确定匹配网络的结构。示例性的,第二搜索网络可以由12层基本搜素单元组成,每一层可以按照1/3、1/2、1/2、1/2的下采样比率对应于四种不同的分辨率,依次为1/3、1/6、1/12、1/24。
需要说明的是,第一搜索网络与第二搜索网络的层数和采样比率是可以根据电子设备的数据处理能力、存储空间的大小确定的,层数过多或者采样比率过多都可能会导致搜索空间变大,从而浪费计算资源以及存储空间。
S250:基于所述第一权重参数集以及第二权重参数集对所述第一搜索网络进行处理得到确定的特征网络。
其中,如图6所示,基于所述第一权重参数集以及第二权重参数集对所述第一搜索网络进行处理得到确定的特征网络,包括:
S251:基于所述第一权重参数集,从第一搜索网络中每个边各自对应的备选操作中,选择每个边各自对应的目标操作,所述目标操作为每个边对应操作操作中权重最大的备选操作;
S252:基于所述第二权重参数集,从第一搜索网络中每个基本搜索单元各自对应的路径中,选择每个基本搜索单元各自对应的目标路径,所述目标路径为为每个基本搜索单元对应路径中权重最大的路径;
S253:基于第一搜索网络中每个边各自对应的目标操作,以及第一搜索网络中每个基本搜索单元各自对应的目标路径得到确定的特征网络。
S260:基于所述第三权重参数集以及第四权重参数集对所述第二搜索网络进行处理得到确定的匹配网络。
其中,如图7所示,基于所述第三权重参数集以及第四权重参数集对所述第二搜索网络进行处理得到确定的匹配网络,包括:
S261:基于所述第三权重参数集,从第二搜索网络中每个边各自对应的备选操作中,选择每个边各自对应的目标操作,所述目标操作为每个边对应操作操作中权重最大的备选操作;
S262:基于所述第四权重参数集,从第二搜索网络中每个基本搜索单元各自对应的路径中,选择每个基本搜索单元各自对应的目标路径,所述目标路径为为每个基本搜索单元对应路径中权重最大的路径;
S263:基于第二搜索网络中每个边各自对应的目标操作,以及第二搜索网络中每个基本搜索单元各自对应的目标路径得到确定的匹配网络。
S270:基于所述确定的特征网络和匹配网络的结构得到所述初始双目深度估计模型。
S280:通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。
本实施例提供的一种模型生成方法,通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。并且,在本实施例中,通过第一训练集在两个不同的搜索网络中进行搜索,利用多个权重参数集得到确定的特征网络和匹配网络的结构,从而得到初始双目深度估计模型,与人工设计的网络结构相比,初始双目深度估计模型的网络结构更加简单,并且初始双目深度估计模型是通过训练而确定的,可以使得该模型更加适配于深度估计任务,从而提高了模型的准确率。
请参阅图8,本申请提供的一种模型生成方法,应用于电子设备,所述方法包括:
S310:获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像。
其中,可以将第一训练集和第二训练集按一定比例划分为各自对应的训练集、验证集与测试集,其中,验证集可以用于调整模型的网络参数。示例性的,训练集:验证集:测试集可以为8:1:1。
S320:通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型。
S330:通过所述第二训练集对所述初始双目深度估计模型的网络参数进行多个轮次训练,以得到目标双目深度估计模型。
其中,所述初始双目深度估计模型的网络参数可以为模型中每个神经元的网络参数,例如权重等。
S340:其中,若检测到训练过程中的双目深度估计模型对应的损失处于震荡状态,则终止训练。
其中,为了将性能最优的初始双目深度估计模型作为目标双目深度估计模型,可以使用每个轮次所得到的初始双目深度估计模型对验证集的双目图像进行预测,若检测到在一定轮次范围内,验证集损失值处于震荡状态,则终止训练。
需要说明的是,可以根据初始双目深度估计模型的收敛程度来确定轮次范围的大小,若收敛程度越低,则轮次范围越大,示例性的,可以为20个轮次;若收敛程度越高,则轮次范围越小,示例性的,可以为10个轮次。
S350:获取所述初始双目深度估计模型对应的更新后的训练参数。
其中,训练参数可以为学习率、轮次范围等,例如,可以调低学习率。
S360:基于所述更新后的训练参数对在终止训练之前所得到过的对应的损失最小的双目深度估计模型继续进行训练。
其中,作为一种方式,为了得到最优的目标双目深度估计模型,可以对每个轮次训练得到的初始双目深度估计模型都进行保存,在训练参数更新后,可以基于终止训练前的所有初始双目深度估计模型中验证集损失值最小的模型继续训练。
作为另一种方式,可以只对将训练过程中验证集损失最小的模型进行保存,在每个轮次训练完成时,将这个轮次的验证集损失值与之前保存的模型的验证集损失值进行比较,若这个轮次的验证集损失值小于之前保存的模型的损失值,则将这个轮次所得到的模型作为训练过程中验证集损失最小的模型并将之前保存的模型更新为这个轮次所得到的模型;若这个轮次的验证集损失值大于之前保存的权重模型的损失值,则之前保存的权模型仍为训练过程中验证集损失最小的模型。
需要说明的是,除了更新训练参数外,还可以改变输入初始双目深度估计模型的双目图像的大小,示例性的,可以随机修改输入初始双目深度估计模型的双目图像的大小,使得每次终止训练前后输入初始双目深度估计模型的双目图像大小不同。这样可以使得初始双目深度估计模型可以适应于不同大小的输入图像,提高了模型的泛化能力。
本实施例提供的一种模型生成方法,通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。并且,在本实施例中可以基于一定轮次范围的损失值检测结果,更新训练参数并继续进行初始双目深度估计模型的网络参数训练,以得到目标双目深度估计模型,通过上述方式可以提高目标双目深度估计模型的准确率。
请参阅图9,本申请提供的一种模型生成方法,应用于电子设备,所述方法包括:
S410:获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像。
S420:对所述第一训练集和第二训练集的图像进行数据增强处理,得到数据增强处理的第一训练集和第二训练集。
其中,所述数据增强处理包括随机旋转、随机平移、随机裁剪、对比度调整、亮度调整、水平翻转、垂直翻转中的至少一项。
S430:通过数据增强处理的第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型。
S440:通过数据增强处理的第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的双目深度估计模型作为目标双目深度估计模型。
本实施例提供的一种模型生成方法,通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。并且,在本实施例中,通过数据增强技术对第一训练集和第二训练集的双目图像进行处理,可以使得处理后的双目图像更加贴近实际应用场景,例如双目图像基线不平整、亮度或者对比度不一致等场景,提高了目标双目深度估计模型的准确率。
请参阅图10,本申请提供的一种深度估计方法,应用于电子设备,所述方法包括:
S510:获取目标图像,所述目标图像包括通过双目相机拍摄的第一图像和第二图像。
其中,该目标图像可以对应于多种场景,例如:自动驾驶、人像等。
S520:将所述目标图像输入目标双目深度估计模型中,获取所述目标双目深度估计模型输出的所述目标图像对应的深度信息。
其中,所述目标图像对应的深度信息为深度图,
本实施例提供的一种深度估计方法,通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。
请参阅图11,本申请提供的一种模型生成装置700,运行于电子设备,所述装置700包括:
训练集获取单元710,用于获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像;
初始模型获取单元720,用于通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;
目标模型获取单元730,用于通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的对应有确定超参数的双目深度估计模型作为目标双目深度估计模型。
可选的,所述待训练双目深度估计模型包括第一搜索网络和第二搜索网络,所述第一搜索网络和所述第二搜索网络都包括第一搜索空间和第二搜索空间,其中,所述第一搜索空间包括有多个节点的完全连接的有向无环图,所述有向无环图中每两个节点之间连接的边对应有备选操作,所述第二搜索空间由多个所述基本搜索单元层级排列而成,每个所述基本搜索单元与前一层基本搜索单元的每一级存在路径连接,初始模型获取单元720,具体用于将所述第一训练集输入所述待训练双目深度估计模型;利用所述第一训练集在第一搜索网络的第一搜索空间和第二搜索空间中搜索,得到第一权重参数集以及第二权重参数集,所述第一权重参数集表征第一搜索网络的第一搜索空间中每一条边所对应的备选操作的权重,所述第二权重参数集中的权重表征所述第一搜索网络的的第二搜索空间中每一路径的权重;利用所述第一训练集在第二搜索网络的第一搜索空间和所述第二搜索空间中搜索,得到第三权重参数集以及第四权重参数集,所述第三权重参数集表征第二搜索网络的第一搜索空间中每一条边所对应的备选操作的权重,所述第四权重参数集中的权重表征所述第二搜索网络的的第二搜索空间中每一路径的权重;基于所述第一权重参数集以及第二权重参数集对所述第一搜索网络进行处理得到确定的特征网络;基于所述第三权重参数集以及第四权重参数集对所述第二搜索网络进行处理得到确定的匹配网络;基于所述确定的特征网络和匹配网络的结构得到所述初始双目深度估计模型。
其中,可选的,所述第一搜索网络和所述第二搜索网络中每条边所对应的备选操作不相同。
可选的,所述第一搜索网络中每条边所对应的备选操作包括二维卷积和跳层连接,所述第二搜索网络中每条边所对应的备选操作包括三维卷积和跳层连接。
其中,作为一种方式,初始模型获取单元720,具体用于基于所述第一权重参数集,从第一搜索网络中每个边各自对应的备选操作中,选择每个边各自对应的目标操作,所述目标操作为每个边对应操作操作中权重最大的备选操作;基于所述第二权重参数集,从第一搜索网络中每个基本搜索单元各自对应的路径中,选择每个基本搜索单元各自对应的目标路径,所述目标路径为为每个基本搜索单元对应路径中权重最大的路径;基于第一搜索网络中每个边各自对应的目标操作,以及第一搜索网络中每个基本搜索单元各自对应的目标路径得到确定的特征网络。
作为另一种方式,初始模型获取单元720,具体用于基于所述第三权重参数集,从第二搜索网络中每个边各自对应的备选操作中,选择每个边各自对应的目标操作,所述目标操作为每个边对应操作操作中权重最大的备选操作;基于所述第四权重参数集,从第二搜索网络中每个基本搜索单元各自对应的路径中,选择每个基本搜索单元各自对应的目标路径,所述目标路径为为每个基本搜索单元对应路径中权重最大的路径;基于第二搜索网络中每个边各自对应的目标操作,以及第二搜索网络中每个基本搜索单元各自对应的目标路径得到确定的匹配网络。
作为一种方式,目标模型获取单元730,具体用于通过所述第二训练集对所述初始双目深度估计模型的网络参数进行多个轮次训练,以得到目标双目深度估计模型;其中,若检测到训练过程中的双目深度估计模型对应的损失处于震荡状态,则终止训练;获取所述初始双目深度估计模型对应的更新后的训练参数;基于所述更新后的训练参数对在终止训练之前所得到过的对应的损失最小的双目深度估计模型继续进行训练。
其中,所述装置700还包括:
数据增强处理单元740,用于对所述第一训练集和第二训练集的图像进行数据增强处理,得到数据增强处理的第一训练集和第二训练集。
其中,可选的,所述数据增强处理包括随机旋转、随机平移、随机裁剪、对比度调整、亮度调整、水平翻转、垂直翻转中的至少一项。
可选的,初始模型获取单元720,具体用于通过数据增强处理的第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型。模型获取单元730,具体用于通过数据增强处理的第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的双目深度估计模型作为目标双目深度估计模型。
请参阅图12,本申请提供的一种深度估计装置900,运行于电子设备,所述装置900包括:
目标图像获取单元910,用于获取目标图像,所述目标图像包括通过双目相机拍摄的第一图像和第二图像。
深度信息获取单元920,用于将所述目标图像输入目标双目深度估计模型中,获取所述目标双目深度估计模型输出的所述目标图像对应的深度信息。
下面将结合图13对本申请提供的一种电子设备进行说明。
请参阅图13,基于上述的模型生成方法、深度估计方法、装置,本申请实施例还提供的另一种可以执行前述终端控制方法的电子设备100。电子设备100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图14,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1100中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。
综上所述,本申请提供的一种模型生成方法、深度估计方法、装置以及电子设备,在获取包括多组双目图像的第一训练集和第二训练集后,通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型,通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。通过上述方式使得,通过第一训练集和第二训练集对模型进行训练可以提高算法的鲁棒性。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种模型生成方法,其特征在于,应用于电子设备,所述方法包括:
获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像;
通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;
通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的初始双目深度估计模型作为目标双目深度估计模型。
2.根据权利要求1所述的方法,其特征在于,所述待训练双目深度估计模型包括第一搜索网络和第二搜索网络,所述第一搜索网络和所述第二搜索网络都包括第一搜索空间和第二搜索空间,其中,所述第一搜索空间包括基本搜索单元,所述基本搜索单元对应有包含多个节点的完全连接的有向无环图,所述有向无环图中每两个节点之间连接的边对应有备选操作,所述第二搜索空间由多个所述基本搜索单元层级排列而成,每个所述基本搜索单元与前一层基本搜索单元的每一级存在路径连接,
所述通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型,包括:
将所述第一训练集输入所述待训练双目深度估计模型;
利用所述第一训练集在第一搜索网络的第一搜索空间和第二搜索空间中搜索,得到第一权重参数集以及第二权重参数集,所述第一权重参数集表征第一搜索网络的第一搜索空间中每一条边所对应的备选操作的权重,所述第二权重参数集中的权重表征所述第一搜索网络的的第二搜索空间中每一路径的权重;
利用所述第一训练集在第二搜索网络的第一搜索空间和所述第二搜索空间中搜索,得到第三权重参数集以及第四权重参数集,所述第三权重参数集表征第二搜索网络的第一搜索空间中每一条边所对应的备选操作的权重,所述第四权重参数集中的权重表征所述第二搜索网络的的第二搜索空间中每一路径的权重;
基于所述第一权重参数集以及第二权重参数集对所述第一搜索网络进行处理得到确定的特征网络;
基于所述第三权重参数集以及第四权重参数集对所述第二搜索网络进行处理得到确定的匹配网络;
基于所述确定的特征网络和匹配网络的结构得到所述初始双目深度估计模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一权重参数集以及第二权重参数集对所述第一搜索网络进行处理得到确定的特征网络,包括:
基于所述第一权重参数集,从第一搜索网络中每个边各自对应的备选操作中,选择每个边各自对应的目标操作,所述目标操作为每个边对应操作操作中权重最大的备选操作;
基于所述第二权重参数集,从第一搜索网络中每个基本搜索单元各自对应的路径中,选择每个基本搜索单元各自对应的目标路径,所述目标路径为为每个基本搜索单元对应路径中权重最大的路径;
基于第一搜索网络中每个边各自对应的目标操作,以及第一搜索网络中每个基本搜索单元各自对应的目标路径得到确定的特征网络。
4.根据权利要求2所述的方法,其特征在于,所述基于基于所述第三权重参数集以及第四权重参数集对所述第二搜索网络进行处理得到,得到匹配网络,包括:
基于所述第三权重参数集,从第二搜索网络中每个边各自对应的备选操作中,选择每个边各自对应的目标操作,所述目标操作为每个边对应操作操作中权重最大的备选操作;
基于所述第四权重参数集,从第二搜索网络中每个基本搜索单元各自对应的路径中,选择每个基本搜索单元各自对应的目标路径,所述目标路径为为每个基本搜索单元对应路径中权重最大的路径;
基于第二搜索网络中每个边各自对应的目标操作,以及第二搜索网络中每个基本搜索单元各自对应的目标路径得到确定的匹配网络。
5.根据权利要求2所述的方法,其特征在于,所述第一搜索网络和所述第二搜索网络中每条边所对应的备选操作不相同。
6.根据权利要求2所述的方法,其特征在于,所述第一搜索网络中每条边所对应的备选操作包括二维卷积和跳层连接,所述第二搜索网络中每条边所对应的备选操作包括三维卷积和跳层连接。
7.根据权利要求1所述的方法,其特征在于,所述通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的双目深度估计模型作为目标双目深度估计模型,包括:
通过所述第二训练集对所述初始双目深度估计模型的网络参数进行多个轮次训练,以得到目标双目深度估计模型;
其中,若检测到训练过程中的双目深度估计模型对应的损失处于震荡状态,则终止训练;
获取所述初始双目深度估计模型对应的更新后的训练参数;
基于所述更新后的训练参数对在终止训练之前所得到过的对应的损失最小的双目深度估计模型继续进行训练。
8.根据权利要求1所述的方法,其特征在于,所述获取第一训练集和第二训练集之后,还包括:
对所述第一训练集和第二训练集的图像进行数据增强处理,得到数据增强处理的第一训练集和第二训练集;
所述通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型,包括:
通过数据增强处理的第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;
所述通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的对应有确定超参数的双目深度估计模型作为目标双目深度估计模型,包括:
通过数据增强处理的第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的收敛的双目深度估计模型作为目标双目深度估计模型。
9.根据权利要求8所述的方法,其特征在于,所述数据增强处理包括随机旋转、随机平移、随机裁剪、对比度调整、亮度调整、水平翻转、垂直翻转中的至少一项。
10.一种深度估计方法,其特征在于,应用于电子设备,所述方法包括:
获取目标图像,所述目标图像包括通过双目相机拍摄的第一图像和第二图像;
将所述目标图像输入权利要求1-9任一所述方法得到的目标双目深度估计模型中,获取所述目标双目深度估计模型输出的所述目标图像对应的深度信息。
11.一种模型生成装置,其特征在于,运行于电子设备,所述装置包括:
训练集获取单元,用于获取第一训练集和第二训练集,所述第一训练集和第二训练集分别包括有多组双目图像;
初始模型获取单元,用于通过所述第一训练集对待训练双目深度估计模型进行训练,以将训练得到的对应有确定网络结构的双目深度估计模型作为初始双目深度估计模型;
目标模型获取单元,用于通过所述第二训练集对所述初始双目深度估计模型进行训练,以将训练得到的对应有确定超参数的双目深度估计模型作为目标双目深度估计模型。
12.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;
一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-10任一所述的方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-10所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111115025.2A CN113781542A (zh) | 2021-09-23 | 2021-09-23 | 模型生成方法、深度估计方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111115025.2A CN113781542A (zh) | 2021-09-23 | 2021-09-23 | 模型生成方法、深度估计方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113781542A true CN113781542A (zh) | 2021-12-10 |
Family
ID=78852954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111115025.2A Pending CN113781542A (zh) | 2021-09-23 | 2021-09-23 | 模型生成方法、深度估计方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113781542A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001278901A1 (en) * | 2000-07-12 | 2002-01-21 | Karo Bio Ab | Method of identifying conformation-sensitive binding peptides and uses thereof |
CN109741388A (zh) * | 2019-01-29 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 用于生成双目深度估计模型的方法和装置 |
CN111340867A (zh) * | 2020-02-26 | 2020-06-26 | 清华大学 | 图像帧的深度估计方法、装置、电子设备及存储介质 |
CN111445476A (zh) * | 2020-02-27 | 2020-07-24 | 上海交通大学 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN112149691A (zh) * | 2020-10-10 | 2020-12-29 | 上海鹰瞳医疗科技有限公司 | 用于双目视觉匹配的神经网络搜索方法及设备 |
CN113379813A (zh) * | 2021-06-08 | 2021-09-10 | 北京百度网讯科技有限公司 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-23 CN CN202111115025.2A patent/CN113781542A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001278901A1 (en) * | 2000-07-12 | 2002-01-21 | Karo Bio Ab | Method of identifying conformation-sensitive binding peptides and uses thereof |
CN109741388A (zh) * | 2019-01-29 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 用于生成双目深度估计模型的方法和装置 |
CN111340867A (zh) * | 2020-02-26 | 2020-06-26 | 清华大学 | 图像帧的深度估计方法、装置、电子设备及存储介质 |
CN111445476A (zh) * | 2020-02-27 | 2020-07-24 | 上海交通大学 | 基于多模态无监督图像内容解耦的单目深度估计方法 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN112149691A (zh) * | 2020-10-10 | 2020-12-29 | 上海鹰瞳医疗科技有限公司 | 用于双目视觉匹配的神经网络搜索方法及设备 |
CN113379813A (zh) * | 2021-06-08 | 2021-09-10 | 北京百度网讯科技有限公司 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
赵晨园;李文新;张庆熙;: "双目视觉的立体匹配算法研究进展", 计算机科学与探索, no. 07 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798132B2 (en) | Image inpainting method and apparatus, computer device, and storage medium | |
US11250591B2 (en) | Target detection method, system, and non-volatile storage medium | |
CN109697434B (zh) | 一种行为识别方法、装置和存储介质 | |
CN109815770B (zh) | 二维码检测方法、装置及系统 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN109598250B (zh) | 特征提取方法、装置、电子设备和计算机可读介质 | |
CN111340866A (zh) | 深度图像生成方法、装置及存储介质 | |
CN112749726B (zh) | 目标检测模型的训练方法、装置、计算机设备和存储介质 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN110610143A (zh) | 多任务联合训练的人群计数网络方法、系统、介质及终端 | |
CN111242176B (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN115410030A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN115393181A (zh) | 美漫风格的头像生成模型的训练、生成方法及电子设备 | |
CN116090536A (zh) | 神经网络的优化方法、装置、计算机设备及存储介质 | |
CN108986210B (zh) | 三维场景重建的方法和设备 | |
CN114529793A (zh) | 一种基于门控循环特征融合的深度图像修复系统及方法 | |
CN112802076A (zh) | 反射图像生成模型及反射去除模型的训练方法 | |
CN109871814B (zh) | 年龄的估计方法、装置、电子设备和计算机存储介质 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN110866866A (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN116385369A (zh) | 深度图像质量评价方法、装置、电子设备及存储介质 | |
CN113781542A (zh) | 模型生成方法、深度估计方法、装置以及电子设备 | |
CN115294361A (zh) | 一种特征提取的方法及装置 | |
CN111488476B (zh) | 图像推送方法、模型训练方法及对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |