CN109658418A

CN109658418A - 场景结构的学习方法、装置及电子设备

Info

Publication number: CN109658418A
Application number: CN201811285677.9A
Authority: CN
Inventors: 何雷; 侯瑞杰; 沈莉霞; 杨光垚; 彭亮; 董芳芳; 宋适宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-04-19

Abstract

本发明实施例提供一种场景结构的学习方法、装置及电子设备，该方法包括：获取训练样本集，训练样本集包括每个场景的多个连续的图像帧；将多个连续的图像帧输入至训练模型中，得到训练模型输出的预测深度信息和预测语义信息，其中，训练模型至少包括深度估计网络和语义分割网络；根据深度估计网络的第一损失函数和语义分割网络的第二损失函数，对训练模型进行训练，得到训练后的模型；其中，第一损失函数是根据预测深度信息和预测语义信息确定的；该方法实现了端到端的训练过程，提高了训练模型的场景结构的识别准确性；另外，在对场景深度信息进行预测时，还将场景的语义信息作为先验信息，进一步提高了训练模型的场景结构的识别准确性。

Description

场景结构的学习方法、装置及电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种场景结构的学习方法、装置及电子设备。

背景技术

语义分割是人工智能领域的一个重要分支，是机器视觉技术中关于图像理解的重要一环。语义分割是机器自动分割并识别出图像中的内容，是理解图像的基础。语义分割在自动驾驶系统、无人机应用中具有重要意义。例如：在自动驾驶技术中，在车载摄像头探测到行人、车辆、树木和电线杆等障碍物后，通过对图像进行语义分割，提示驾驶员采取相应的避让措施。在无人机技术中，在无人机上安装摄像头，无人机通过拍摄周边环境，利用语义分割技术对环境中的建筑物、植物、道路等进行分割，从而判断着陆点。

对图像进行语义分割的过程，就是对图像中的场景结构进行分割和识别的过程。现有技术中，对图像中的场景结构进行分割和识别时，通常采用运动恢复结构(Structurefrom motion)的方法，即通过分析图像序列得到相机参数并进行三维重建的技术。具体包括：对图像进行特征提取，根据提取的特征估计场景的初始结构和相机运动，然后对相机进行标定，得到场景的稠密描述，从而推理得到场景中的几何结构、深度等信息。

然而，上述的现有技术，对场景结构识别准确率较低。

发明内容

本发明实施例提供一种场景结构的学习方法、装置及电子设备，用以提高场景结构的识别准确率。

第一方面，本发明实施例提供一种场景结构的学习方法，包括：

获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧；

将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络；

根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型；其中，所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。

可选的，所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练之前，所述方法还包括：

根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数；

根据所述语义分割网络的交叉熵损失确定第二损失函数。

可选的，所述根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数，包括：

根据所述训练模型输出的预测深度信息和所述图像帧的真实深度信息，获取第一损失子函数；

根据相邻两个图像帧之间的重投影误差，获取第二损失子函数；

根据所述训练模型输出的预测语义信息和所述图像帧的真实语义信息，获取第三损失子函数；

根据所述第一损失子函数、所述第二损失子函数以及所述第三损失子函数确定所述第一损失函数。

可选的，所述根据相邻两个图像帧之间的重投影误差，获取第二损失子函数，包括：

根据所述深度估计网络输出的预测深度信息，获取每一帧图像对应的三维点云；

根据每一帧图像对应的三维点云，得到所述场景的三维点云；

根据所述场景的三维点云和所述预测语义信息，得到场景中的结构的三维点云；

根据所述场景中的结构的三维点云在平面上的投影分布方差，得到第二损失函数。

可选的，所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型，包括：

根据所述第一损失函数和所述第二损失函数，获取整体损失函数；

根据所述整体损失函数对所述训练模型进行训练，在所述整体损失函数的值达到预设条件时停止训练，得到训练后的模型。

可选的，所述预设条件为相邻两次训练对应的整体损失函数的值的差值小于预设值。

可选的，所述训练模型为深度神经网络。

第二方面，本发明实施例提供一种场景结构的学习装置，包括：

第一获取模块，用于获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧；

第二获取模块，用于将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络；

训练模块，用于根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型；其中，所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。

可选的，所述装置还包括：确定模块，用于：

根据所述语义分割网络的交叉熵损失确定第二损失函数。

可选的，所述确定模块具体用于：

可选的，所述训练模块具体用于：

可选的，所述训练模型为深度神经网络。

第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

本发明实施例提供的场景结构的学习方法、装置及电子设备，该方法包括：获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧；将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络；根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型；其中，所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的；实现了端到端的训练过程，提高了训练模型的场景结构的识别准确性；另外，在对场景深度信息进行预测时，还将场景的语义信息作为先验信息，提高了场景深度的预测精度，从而进一步提高了训练模型的场景结构的识别准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的场景结构的识别过程示意图；

图2为本发明实施例提供的场景结构的学习方法的流程示意图一；

图3为本发明实施例提供的场景结构的学习方法的流程示意图二；

图4为本发明实施例提供的第一损失函数的获取过程的流程示意图；

图5为本发明实施例提供的第二损失子函数的获取过程的流程示意图；

图6为本发明实施例提供的场景结构的学习装置的结构示意图一；

图7为本发明实施例提供的场景结构的学习装置的结构示意图二；

图8为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如前所述，现有技术中，对图像中的场景结构进行分割和识别时，通常采用运动恢复结构(Structure from motion)的方法，即通过分析图像序列得到相机参数并进行三维重建的技术。具体包括：对图像进行特征提取，根据提取的特征估计场景的初始结构和相机运动，然后对相机进行标定，得到场景的稠密描述，从而推理得到场景中的几何结构、深度等信息。然而，上述的现有技术，对场景结构识别准确率较低。

为了解决上述问题，本发明实施例提供一种场景结构的学习方法，通过对场景的多个连续的图像帧进行学习，得到训练模型，从而可以利用该训练模型对待检测的场景进行识别，得到待检测场景的深度信息和语义信息。

下面结合图1描述本发明实施例提供的训练模型的可能的应用场景，

图1为本发明实施例提供的场景结构的识别过程示意图，如图1所示，将本发明实施例提供的训练模型设置到电子设备中，使得该电子设备具有识别场景结构的能力，具体的，将包括待检测场景的多个连续的图像帧输入至电子设备中，该电子设备通过对图像帧中的场景进行预测，输出该场景对应的深度信息和语义信息。

具体的，场景对应的深度信息可以是该场景对应的深度图像，该深度图像中指示了场景中的各像素点距离拍摄装置的距离信息。场景对应的语义信息可以是该场景中的不同深度信息所对应的语义，例如：该深度图像中的第一深度信息对应的语义为汽车、第二深度信息对应语义为行人、第三深度信息对应的语义为道路，第四深度信息对应的语义为天空等。

需要说明的是，上述的深度信息以及语义信息的对应关系仅为示例，本发明实施例并不以此为限。另外，上述的第一深度信息、第二深度信息、第三深度信息和第四深度信息可以具体指示的是深度信息的范围。

另外，根据本发明实施例提供的场景结构的学习方法得到的训练后的模型可以应用到任意电子设备中，包括但不限于：智能终端、无人驾驶控制装置、无人机控制装置、拍摄装置等。

本发明实施例提供的场景结构的学习方法，训练模型包括深度估计网络和语义分割网络，通过根据深度估计网络的第一损失函数和语义分割网络的第二损失函数，对训练模型进行训练，提高了训练后模型的场景识别准确性；另外，在确定第一损失函数时，同时考虑了深度信息和语义信息，进一步提高了训练后模型的场景识别的准确性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的场景结构的学习方法的流程示意图一，本实施例的方法可以由图1中的电子设备执行，还可以由另外的电子设备，例如：服务器执行。当由服务器执行时，服务器通过执行本实施例的方法，得到训练后的模型后，可以将该模型设置到图1中的电子设备上，以使电子设备具有场景结构的识别能力。

如图2所示，本实施例的方法，包括：

S201：获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧。

具体的，采用拍摄装置对多个待训练的场景进行视频拍摄，从拍摄的视频中选择每个场景对应的多个连续的图像帧。

可以理解的，训练样本集中样本覆盖多个待训练场景，训练样本集中的样本为每个场景的多个连续的图像帧。可以理解的，连续的图像帧中的图像的内容具有相似性和时序性。

需要说明的是，连续的图像帧具体是指具有时序关系的图像帧，例如：假设某场景对应的原始图像帧序列为：图像帧1、图像帧2、图像帧3、….图像帧20。一种可选的实施方式中，从原始图像帧中截取其中的连续五帧作为连续的图像帧：图像帧1、图像帧2、图像帧3、图像帧4、图像帧5；另一种可选的实施方式中，从原始图像帧中按照时间顺序以帧间隔为2选择连续的图像帧：图像帧1、图像帧3、图像帧5、图像帧7、图像帧9。当然，还可以有其他获取连续图像帧的方式，本发明实施例不一一列举。

另外，对于每个场景对应的连续的图像帧的数量不作具体限定，例如：可以为5帧、8帧等。

S202：将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络。

具体的，本实施例中的训练模型是用于对图像的场景结构进行预测的模型。其中，训练模型至少包括深度估计网络和语义分割网络。深度估计网络用于对图像中的深度信息进行预测，语义分割网络用于对图像中的语义信息进行预测。可以理解的，对于图像而言，深度信息和语义信息是指示图像中的场景结构的重要信息。

可选的，所述训练模型为深度神经网络，其中的深度估计网络和语义分割网络可以是神经网络结构。一种可选的实施方式中，训练模型采用自编码器的网络结构。

需要说明的是，本实施例的训练模型中，除了深度估计网络和语义分割网络，还可以包括其他网络，例如：用于对图像帧进行预处理的预处理网络等，本发明实施例对此不作具体限定。

具体实施过程中，将每个场景对应的多个连续的图像帧输入至训练模型中，获取训练模型输出的该场景对应的预测深度信息和预测语义信息。其中，预测深度信息指示的是该场景中的每个像素点的深度信息，即每个像素点距离拍摄装置的距离信息；预测语义信息指示的是该场景中的几何结构对应的语义，例如：道路、树木、车辆、行人、电线杆等。

其中，本发明实施例对于预测深度信息和预测语义信息的表示形式不作具体限定。一种可选的实施方式中，采用深度图像来表示预测深度信息。另一种可选的实施方式中，采用预设的类别标签来表示预测语义信息，例如：平地、交通工具、建筑物、自然景观、天空、人物等。

S203：根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型；其中，所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。

具体的，本实施例对训练模型的训练过程中，根据第一损失函数和第二损失函数进行训练，其中，第一损失函数指示的是深度估计网络的预测损失，第二损失函数指示的是语义分割网络的预测损失。

具体训练过程中，可以根据第一损失函数和第二损失函数作为训练终止条件，即第一损失函数和第二损失函数满足预设条件时停止训练。

需要说明的是，本发明实施例对于第一损失函数和第二损失函数的计算方式不作具体限定，几种可选的实施方式可参见后续实施例的详细描述。

本发明实施例中，通过向训练模型输入待训练场景对应的连续的图像帧，由训练模型对该场景进行学习，输出该场景对应的预测深度信息和预测语义信息，然后根据训练模型的输出结果预测损失(第一损失函数和第二损失函数)，根据预测损失对训练模型进行调整，直到模型收敛或者达到预设条件结束训练，实现了端到端的训练过程，提高了训练模型的场景结构的识别准确性。

进一步的，本发明实施例中的第一损失函数是根据所述预测深度信息和所述预测语义信息确定的。也就是说，在计算第一损失函数时，除了考虑了预测深度信息，还考虑了预测语义信息，可见，在对场景深度信息进行预测时，还将场景的语义信息作为先验信息，提高了场景深度的预测精度，从而进一步提高了训练模型的场景结构的识别准确性。

本发明实施例提供的场景结构的学习方法，获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧；将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络；根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型；其中，所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的；实现了端到端的训练过程，提高了训练模型的场景结构的识别准确性；另外，在对场景深度信息进行预测时，还将场景的语义信息作为先验信息，提高了场景深度的预测精度，从而进一步提高了训练模型的场景结构的识别准确性。

图3为本发明实施例提供的场景结构的学习方法的流程示意图二，在上述实施例的基础上，本实施例对场景结构的学习过程进行细化，如图3所示，本实施例的方法，包括：

S301：获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧。

S302：将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络。

本实施例中S301、S302的具体实施方式与上述实施例中的S201、S202类似，此处不作赘述。

S303：根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数。

具体的，第一损失函数指示的是深度估计网络的预测损失，本实施例中，根据图像帧的真实深度信息、真实语义信息、预测深度信息和预测语义信息确定第一损失函数。

其中，真实深度信息可以根据原始输入的图像帧获取，或者通过拍摄装置的拍摄参数获取，本发明实施例不作具体限定。真实语义信息可以是对原始输入的图像帧标注的标签。其中，真实深度信息和真实语义信息作为深度估计网络的监督参数，对深度估计网络进行监督学习，从而可以提升深度估计网络的深度估计的精度。

需要说明的是，本实施例中第一损失函数可以有多种获取方式，第一损失函数还可以是几个子损失函数的总和。本发明实施例不作具体限定，一种可选的第一损失函数的获取方式可以参见后续实施例的详细描述。

S304：根据所述语义分割网络的交叉熵损失确定第二损失函数。

本实施例中，在语义分割网络中采用交叉熵作为损失函数，用于指示语义分割网络中真实语义与预测语义之间的差距。交叉熵作为损失函数其优势在于在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

需要说明的是，交叉熵损失函数可以有多种表示形式，可以采用现有技术中的交叉熵的公式，本发明实施例不作具体限定。

S305：根据所述第一损失函数和所述第二损失函数，获取整体损失函数。

S306：根据所述整体损失函数对所述训练模型进行训练，在所述整体损失函数的值达到预设条件时停止训练，得到训练后的模型。

具体的，本实施例中，可以将第一损失函数和第二损失函数进行求和，或者加权求和，得到整体损失函数。在训练过程中，将整体损失函数作为训练停止条件，当整体损失函数达到预设值时停止训练，得到训练后的模型。

一种可选的实施方式中，所述预设条件为相邻两次训练对应的整体损失函数的值的差值小于预设值。

下面结合一个具体的实施例详细描述第一损失函数的获取过程。

图4为本发明实施例提供的第一损失函数的获取过程的流程示意图，如图4所示，包括：

S401：根据所述训练模型输出的预测深度信息和所述图像帧的真实深度信息，获取第一损失子函数。

具体的，第一损失子函数指示的是预测深度信息与真实深度信息之间的误差。

本发明实施例对于第一损失子函数的表示方式不作具体限定，其可以采用任意误差的表示方式。例如：采用预设深度信息与真实深度信息之间的距离进行表示。

S402：根据相邻两个图像帧之间的重投影误差，获取第二损失子函数。

具体的，本实施例中将相邻两个图像帧之间的重投影误差作为第二损失子函数，其中，获取重投影误差的方法有多种，下面仅以其中一种可选的实施方式为例进行描述。

图5为本发明实施例提供的第二损失子函数的获取过程的流程示意图，如图5所示，包括：

S4021：根据所述深度估计网络输出的预测深度信息，获取每一帧图像对应的三维点云。

具体的，根据深度估计网络输出的预测深度信息，以及拍摄装置的内参和外参，获取每一帧图像对应的三维点云。三维点云中每一点指示的是图像中场景的结构的各点的物理参数信息，包括但不限于：各点的三维坐标值，三维点云数据能够真实、准确的反映场景中的结构信息。

其中，内参可以包括拍摄装置的内参矩阵和畸变参数矩阵，外参可以包括拍摄装置的旋转矩阵和平移矩阵。

S4022：根据每一帧图像对应的三维点云，得到所述场景的三维点云。

具体的，按照各图像帧之间的时序关系，将各帧图像的三维点云进行拼接，得到待训练场景对应的三维点云。

其中，点云拼接是一种将不同视角下获取的局部点云数据进行某种技术处理生成完整点云数据的技术。具体的，本实施例中，对各图像帧对应的点云数据进行预处理后，获取各图像帧对应的点云数据中的重叠部分，对重叠部分的点云数据进行旋转矩阵的求解，进而根据求得的旋转矩阵将各图像帧对应的点云数据转换到统一坐标系下，得到待训练场景对应的完整的三维点云。

S4023：根据所述场景的三维点云和所述预测语义信息，得到场景中的结构的三维点云。

S4024：根据所述场景中的结构的三维点云在平面上的投影分布方差，得到第二损失函数。

具体的，结合训练模型输出的预测语义信息，可以在场景的三维点云中，分别得到各结构对应的三维点云。例如：场景中包括道路、汽车和行人，则根据场景的三维点云和预测语义信息，可以得到道路对应的三维点云、汽车对应的三维点云和行人对应的三维点云。

通过求取三维点云的平面法向量，将场景中结构的三维点云向平面法向量上进行重投影，并获取场景中结构的三维点云在平面法向量上的投影分布方差，得到第二损失函数。

S403：根据所述训练模型输出的预测语义信息和所述图像帧的真实语义信息，获取第三损失子函数。

具体的，本实施例中，第三损失子函数指示的是预测语义信息与真实语义信息之间的误差。

本发明实施例对于第三损失子函数的表示方式不作具体限定，其可以采用任意误差的表示方式。例如：采用预设语义信息与真实语义信息之间的距离进行表示，或者，还可以通过其他的机器学习网络进行语义误差进行学习获取。

S404：根据所述第一损失子函数、所述第二损失子函数以及所述第三损失子函数确定所述第一损失函数。

具体的，通过上述步骤获取到第一损失子函数、第二损失子函数和第三损失子函数之后，可以将上述三个损失子函数进行求和，或者加权求和，得到第一损失函数。

本实施例中，在确定第一损失函数中，考虑了三个方面的损失子函数，即同时考虑了预测深度信息和真实深度信息的误差、相邻两个图像帧之间的重投影误差、预测语义信息和真实语义信息的误差，使得训练模型的损失函数更加准确，进一步提高了训练模型对场景结构的识别准确率。

图6为本发明实施例提供的场景结构的学习装置的结构示意图一，如图6所示，本实施例提供的场景结构的学习装置600，包括：第一获取模块601、第二获取模块602和训练模块603。

其中，第一获取模块601，用于获取训练样本集，所述训练样本集包括每个场景的多个连续的图像帧；

第二获取模块602，用于将所述多个连续的图像帧输入至训练模型中，得到所述训练模型输出的预测深度信息和预测语义信息，其中，所述训练模型至少包括深度估计网络和语义分割网络；

训练模块603，用于根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型；其中，所述第一损失函数是根据所述训练模型输出的预测深度信息和预测语义信息确定的。

本实施例提供的装置，可用于执行如图2所示的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本发明实施例提供的场景结构的学习装置的结构示意图二，在图6所示实施例的基础上，如图7所示，本实施例的装置，还可以包括确定模块604。

可选的，所述确定模块604，用于：

根据所述语义分割网络的交叉熵损失确定第二损失函数。

可选的，所述确定模块604具体用于：

可选的，所述训练模块603具体用于：

可选的，所述训练模型为深度神经网络。

本实施例提供的装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本发明实施例提供的电子设备的硬件结构示意图，如图8所示，本实施例提供的电子设备800，包括：至少一个处理器801和存储器802。其中，处理器801、存储器802通过总线803连接。

在具体实现过程中，至少一个处理器801执行所述存储器802存储的计算机执行指令，使得至少一个处理器801执行上述任一方法实施例的技术方案。

处理器801的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图8所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上述任一方法实施例的技术方案。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种场景结构的学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练之前，所述方法还包括：

根据所述语义分割网络的交叉熵损失确定第二损失函数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像帧的真实深度信息、真实语义信息、所述预测深度信息以及所述预测语义信息确定所述第一损失函数，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据相邻两个图像帧之间的重投影误差，获取第二损失子函数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述深度估计网络的第一损失函数和所述语义分割网络的第二损失函数，对所述训练模型进行训练，得到训练后的模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述预设条件为相邻两次训练对应的整体损失函数的值的差值小于预设值。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述训练模型为深度神经网络。

8.一种场景结构的学习装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的方法。