CN110060264B

CN110060264B - 神经网络训练方法、视频帧处理方法、装置及系统

Info

Publication number: CN110060264B
Application number: CN201910359870.0A
Authority: CN
Inventors: 丁明宇; 王哲; 周博磊; 石建萍
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2021-03-23
Anticipated expiration: 2039-04-30
Also published as: CN110060264A

Abstract

本公开实施例提供一种神经网络训练方法、视频帧处理方法、装置及系统，所述神经网络训练方法包括：获取第一视频帧和第二视频帧；使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练，得到训练结果；根据训练结果中的第二视频帧的光流结果、第一视频帧的语义分割结果、第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，所述第一参数用于表征所述第一神经网络的准确程度；根据所述第一参数，调整所述神经网络系统的网络参数值。该方法使得神经网络系统能够训练出更加准确、稳定的特征，并能够极大降低模型进行图像处理时的处理时长以及资源消耗。

Description

神经网络训练方法、视频帧处理方法、装置及系统

技术领域

本公开涉及计算机技术，尤其涉及一种神经网络训练方法、视频帧处理方法、装置及系统。

背景技术

语义分割是计算机视觉领域的关键问题之一，语义分割是指在进行图像分割时，能够识别出所分割出的每一块区域的语义，例如每一块区域属于哪种物体。对图像进行语义分割的结果可以应用于自动驾驶、室内导航、虚拟现实、增强现实等场景中。

现有技术中，可以预先训练用于进行语义分割的模型，在训练完成后，在模型中增加额外的特征融合模块或者预测模块，在此基础上进行图像的语义分割。

但是，现有技术的方法可能导致使用模型进行图像处理时的处理时长过长、资源消耗过大。

发明内容

本公开实施例提供一种神经网络训练方案。

本公开实施例第一方面提供一种用于处理视频帧的神经网络训练方法，所述方法包括：

获取第一视频帧和第二视频帧，所述第一视频帧和所述第二视频帧相邻、且所述第二视频帧的拍摄时间晚于所述第一视频帧的拍摄时间；

使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练，得到训练结果，所述神经网络系统包括第一神经网络和第二神经网络，所述训练结果包括：由所述第一神经网络得到的所述第一视频帧的语义分割结果以及所述第二视频帧的第一语义分割结果，以及，由所述第二神经网络得到的所述第二视频帧的光流结果；

根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，所述第一参数用于表征所述第一神经网络的准确程度；

根据所述第一参数，调整所述神经网络系统的网络参数值。

进一步的，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息；

所述方法还包括：

根据所述第一视频帧和所述第二视频帧的相似度信息，获取所述神经网络系统的第二参数，所述第二参数用于表征所述第二神经网络的准确程度；

所述根据所述第一参数，调整所述神经网络系统的网络参数值，包括：

根据所述第一参数和所述第二参数，调整所述神经网络系统的网络参数值。

进一步的，所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果，获取所述神经网络系统的第一参数，包括：

根据所述第一视频帧的语义分割结果和所述第二视频帧的光流结果，得到所述第二视频帧的第二语义分割结果；

根据所述第二视频帧的第二语义分割结果、所述第二视频帧的第一语义分割结果，获取所述第一参数。

进一步的，所述神经网络系统包括至少一层子神经网络系统，所述第一神经网络包括至少一层第一子神经网络，所述第二神经网络包括至少一层第二子神经网络，每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成；

所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，包括：

根据第i层的第二子神经网络输出的第二视频帧的光流结果、第i层的第一子神经网络输出的第一视频帧的语义分割结果、第i层的第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的所述子神经网络系统的第一参数，i为大于或等于1的整数；

根据所有层的所述子神经网络系统的第一参数之和，调整所述神经网络系统的网络参数值。

进一步的，所述根据所述第一视频帧和所述第二视频帧的相似度信息、获取第二参数，包括：

根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息，获取第i层的所述子神经网络系统的第二参数；

所述根据所述第一参数和所述第二参数，调整所述神经网络系统的网络参数值，包括：

根据所有层的所述子神经网络系统的第一参数之和以及所有层的所述子神经网络系统的第二参数之和，调整所述神经网络系统的网络参数值。

进一步的，当所述i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的语义分割结果、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

进一步的，若所述第二视频帧为标注有语义分割信息的视频帧，则所述方法还包括：

根据所述第二视频帧的第一语义分割结果，以及，所述第二视频帧所标注的语义分割信息，得到第三参数；

根据所述第一参数和第三参数，调整所述神经网络系统的网络参数值。

进一步的，所述方法还包括：

获取所述神经网络系统的第四参数，所述第四参数用于表征所述第二神经网络的平滑损失；

根据所述第一参数、第二参数、第三参数和第四参数，调整所述神经网络系统的网络参数值。

进一步的，所述训练结果还包括：所述第二视频帧的光流结果对应的遮挡区域信息；

根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，包括：

根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数。

进一步的，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息，所述遮挡区域差异信息为所述第二视频帧的第一语义分割结果对应的遮挡区域信息与所述第二视频帧的光流结果对应的遮挡区域信息的差异信息；

所述方法还包括：

根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息，获取所述神经网络系统的第五参数，所述第五参数用于表征所述第二神经网络的准确程度；

根据所述第一参数和所述第五参数，调整所述神经网络系统的网络参数值。

进一步的，所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息，获取所述神经网络系统的第一参数，包括：

根据所述第二视频帧的第二语义分割结果、所述第二视频帧的第一语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息，获取所述第一参数。

所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，包括：

根据第i层的所述第二子神经网络输出的第二视频帧的光流结果、第i层的所述第一子神经网络输出的第一视频帧的语义分割结果、第i层的所述第二子神经网络输出的第二视频帧的光流结果对应的遮挡区域信息、第i层的所述第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的所述子神经网络系统的第一参数，所述i为大于或等于1的整数；

进一步的，所述根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息，获取第五参数，包括：

根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息、第i层的所述子神经网络系统的遮挡区域差异信息、第i层的第二视频帧的光流结果对应的遮挡区域信息，获取第i层的所述子神经网络系统的第五参数；

所述根据所述第一参数和所述第五参数，调整所述神经网络系统的网络参数值，包括：

根据所有层的所述子神经网络系统的第一参数之和以及所有层的所述子神经网络系统的第五参数之和，调整所述神经网络系统的网络参数值。

进一步的，当所述i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的图像、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

根据所述第二视频帧的第一语义分割结果，以及，所述第二视频帧所标注的语义分割信息，得到第六参数；

根据所述第一参数和第六参数，调整所述神经网络系统的网络参数值。

进一步的，所述方法还包括：

获取所述神经网络系统的第七参数，所述第七参数用于表征所述第二神经网络的平滑损失；

根据所述第一参数、第五参数、第六参数和第七参数，调整所述神经网络系统的网络参数值。

进一步的，所述根据所述第一参数、第五参数、第六参数和第七参数，调整所述神经网络系统的网络参数值，包括：

根据所述第一参数、第五参数、第六参数、第七参数以及第八参数，调整所述神经网络系统的网络参数值；

其中，所述第八参数用于表征所述第二视频帧的光流结果对应的遮挡区域信息的准确程度。

本公开实施例第二方面提供一种视频帧处理方法，所述方法包括：

获取待处理的第三视频帧；

将所述第三视频帧输入至训练后的神经网络系统，获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，所述神经网络系统为上述第一方面所述的神经网络系统；

输出所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果。

进一步的，所述第三视频帧为拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧，所述方法还包括：

根据所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，控制所述车辆的驾驶行为。

本公开实施例第三方面提供一种用于处理视频帧的神经网络训练装置，所述装置包括：

第一获取模块，用于获取第一视频帧和第二视频帧，所述第一视频帧和所述第二视频帧相邻、且所述第二视频帧的拍摄时间晚于所述第一视频帧的拍摄时间；

训练模块，用于使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练，得到训练结果，所述神经网络系统包括第一神经网络和第二神经网络，所述训练结果包括：由所述第一神经网络得到的所述第一视频帧的语义分割结果以及所述第二视频帧的第一语义分割结果，以及，由所述第二神经网络得到的所述第二视频帧的光流结果；

第二获取模块，用于根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，所述第一参数用于表征所述第一神经网络的准确程度；

调整模块，用于根据所述第一参数，调整所述神经网络系统的网络参数值。

所述装置还包括：

第三获取模块，用于根据所述第一视频帧和所述第二视频帧的相似度信息，获取所述神经网络系统的第二参数，所述第二参数用于表征所述第二神经网络的准确程度；

所述调整模块具体用于：

进一步的，所述第二获取模块具体用于：

所述第二获取模块具体用于：

根据第i层的第二子神经网络输出的第二视频帧的光流结果、第i层的第一子神经网络输出的第一视频帧的语义分割结果、第i层的第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的所述子神经网络系统的第一参数，所述i为大于或等于1的整数；

所述调整模块具体用于：

进一步的，所述第三获取模块具体用于：

所述调整模块具体用于：

进一步的，若所述第二视频帧为标注有语义分割信息的视频帧，则所述装置还包括：

第四获取模块，用于根据所述第二视频帧的第一语义分割结果，以及，所述第二视频帧所标注的语义分割信息，得到第三参数；

所述调整模块具体用于：

进一步的，所述装置还包括：

第五获取模块，用于获取所述神经网络系统的第四参数，所述第四参数用于表征所述第二神经网络的平滑损失；

所述调整模块具体用于：

所述第二获取模块具体用于：

所述装置还包括：

第六获取模块，用于根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息，获取所述神经网络系统的第五参数，所述第五参数用于表征所述第二神经网络的准确程度；

所述调整模块具体用于：

进一步的，所述第二获取模块具体用于：

所述第二获取模块具体用于：

所述调整模块具体用于：

进一步的，所述第六获取模块具体用于：

所述调整模块具体用于：

第七获取模块，用于根据所述第二视频帧的第一语义分割结果，以及，所述第二视频帧所标注的语义分割信息，得到第六参数；

所述调整模块具体用于：

进一步的，所述装置还包括：

第八获取模块，用于获取所述神经网络系统的第七参数，所述第七参数用于表征所述第二神经网络的平滑损失；

所述调整模块具体用于：

进一步的，所述调整模块具体用于：

本公开实施例第四方面提供一种视频帧处理装置，所述装置还包括：

获取模块，用于获取待处理的第三视频帧；

处理模块，用于将所述第三视频帧输入至训练后的神经网络系统，获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，所述神经网络系统为权利要求1-17任一项所述的神经网络系统；

输出模块，用于输出所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果。

进一步的，所述第三视频帧为拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧，所述装置还包括：

控制模块，用于根据所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，控制所述车辆的驾驶行为。

本公开实施例第五方面提供一种驾驶控制方法，包括：

驾驶控制装置获取路面图像的语义分割结果和/或光流结果，所述语义分割结果和/或光流结果采用如上述第二方面所述的方法得到；

所述驾驶控制装置根据所述语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

本公开第六方面提供一种驾驶控制装置，包括：

获取模块，用于获取路面图像的语义分割结果和/或光流结果，所述语义分割结果和/或光流结果采用如上述第二方面所述的视频帧处理方法得到；

驾驶控制模块，用于根据所述语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

本公开实施例第七方面提供一种电子设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行权利要求上述第一方面或第二方面所述的方法步骤。

本公开实施例第八方面提供一种智能驾驶系统，包括：通信连接的图像采集装置、如上述第七方面所述的电子设备和如上述第六方面所述的驾驶控制装置，所述图像采集装置用于获取路面图像。

本公开实施例第九方面提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序用于执行上述第一方面或第二方面所述的方法步骤。

本公开实施例所提供的神经网络训练方法、视频帧处理方法、装置及系统，将由第二神经网络得到的第二视频帧的光流结果作为参数来生成用于表征第一神经网络准确程度的第一参数，即将第二神经网络的结果作为一个约束应用于第一神经网络的训练过程中，由于使用了第二神经网络的结果作为第一神经网络的约束，因此使得第一神经网络能够训练出更加准确、稳定的特征。由于第一参数只在神经网络系统训练过程中生成，在神经网络训练完成后，第一神经网络在第一参数的作用下能够训练出准确稳定的特征，在将神经网络系统应用于各种图像处理的场景中时，基于训练得到的第一神经网络即可得到准确的图像语义分割结果，不再需要在第一神经网络中增加额外的特征融合模块或者预测模块，因此，相比于现有技术，本实施例能够极大降低模型进行图像处理时的处理时长以及资源消耗，极大提升图像语义分割的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的用于处理视频帧的神经网络训练方法涉及的神经网络系统的示例性系统架构图；

图2为本公开实施例提供的用于处理视频帧的神经网络训练方法的流程示意图；

图3为本公开实施例提供的用于处理视频帧的神经网络训练方法的流程示意图；

图4为本公开实施例提供的视频帧处理方法的流程示意图；

图5为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图6为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图7为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图8为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图9为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图10为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图11为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图；

图12为本公开实施例提供的视频帧处理装置的模块结构图；

图13为本公开实施例提供的视频帧处理装置的模块结构图；

图14为本发明实施例提供的一种电子设备1400的结构示意图；

图15本发明实施例提供的驾驶控制方法的流程示意图；

图16本发明实施例提供的驾驶控制装置的结构示意图；

图17为本发明实施例提供的智能驾驶系统的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本公开实施例提供的用于处理视频帧的神经网络训练方法涉及的神经网络系统的示例性系统架构图，如图1所示，本公开所涉及的神经网络系统包括第一神经网络和第二神经网络。其中，第一神经网络用于对输入的图像进行语义分割处理，得到语义分割结果，第二神经网络用于对输入的图像进行光流估计，得到光流结果。

在神经网络系统训练时，第一神经网络可以通过第一参数的反馈，将第二神经网络的光流结果来调整第一神经网络，同时，第二神经网络可以结合第一神经网络的语义分割结果，用于第二神经网络的损失计算。

第一神经网络可以包括至少一层第一子神经网络，图1中以三层进行示例，但本公开并不以此为限。当第一神经网络包括两层或两层以上的第一子神经网络时，每层第一子神经网络的内部结构可以相同，也可以部分相同，也可以各不相同，本公开对此不做具体限定。另外，除最后一层第一子神经网络外，其他层的第一子神经网络所输出的网络参数可以作为下一层第一子神经网络的输入参数。示例性的，在图1中，第一子神经网络1可以输出卷积参数，该卷积参数可以作为第一子神经网络2的输入参数。

第二神经网络可以包括至少一层第二子神经网络，图1中以三层进行示例，但本公开并不以此为限。当第二神经网络包括两层或两层以上的第一子神经网络时，每层第二子神经网络的内部结构可以相同，也可以部分相同，也可以各不相同，本公开对此不做具体限定。另外，除最后一层第二子神经网络外，其他层的第二子神经网络所输出的网络参数可以作为下一层第二子神经网络的输入参数。

上述神经网络系统可以包括至少一层子神经网络系统，每层子神经网络系统由一层第二子神经网络和一层第一子神经网络组成。

上述图1所示的神经网络系统在训练完成后，可以应用于各种涉及图像处理的场景中，例如自动驾驶、室内导航、虚拟现实、增强现实等场景中。示例性的，在自动驾驶场景中，使用本公开所涉及的神经网络系统对车辆周围环境的视频图像进行语义分割处理，得到语义分割结果，进而，可以利用该语义分割结果控制车辆的驾驶行为，例如避让、停车、减速等。

图2为本公开实施例提供的用于处理视频帧的神经网络训练方法的流程示意图，该方法的执行主体可以为具有计算处理能力的电子设备。如图2所示，该方法包括：

S201、获取第一视频帧和第二视频帧，该第一视频帧和第二视频帧相邻、且第二视频帧的拍摄时间晚于第一视频帧的拍摄时间。

可选的，上述第一视频帧和第二视频帧可以均为进行过数据标注的视频帧，或者，也可以均为未进行过数据标注的视频帧，或者，也可以一个视频帧进行过数据标注，另一个视频帧为进行过数据标注。其中，数据标注是指在一个视频帧中，将需要场景理解的位置逐像素标记类别的过程。

在现有技术中，在模型训练时，只能使用进行过数据标注的视频帧进行训练。如果向模型中输入包括了多个视频帧的一段视频，该段视频中只有一部分视频帧进行过数据标注，则只有该段视频中的进行过数据标注的视频帧可以用于模型训练。因此，现有技术中可能无法利用到训练视频中的所有视频帧。

而在本实施例中，每一段视频中，可以仅对其中一部分视频帧进行数据标注，即可以使得一段视频中的所有视频帧均可用于神经网络系统的训练。示例性的，对于每一段包含了30个视频帧的视频，只需要选择一个视频帧进行数据标注即可。实现这一技术效果的过程将在下述技术效果的描述中详细说明。

S202、使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练，得到训练结果。

值得说明的是，神经网络系统的训练过程为多轮训练循环迭代的过程，每轮训练完成后，根据训练结果修正神经网络系统的网络参数，再基于修正后的网络参数进行下一轮的训练。本实施例为其中一轮训练的执行过程。对神经网络系统的训练过程也就是同时对该神经网络系统中的第一神经网络和第二神经网络进行训练的过程。

在一轮训练过程中，输入上述的第一视频帧和第二视频帧，即两个视频帧，这两个视频帧分别输入到第一神经网络和第二神经网络中。第一神经网络可以根据第一视频帧和第二视频帧得到第二视频帧的第一语义分割结果以及第一视频帧的语义分割结果，即第二视频帧的第一语义分割结果由第一神经网络生成。第二神经网络可以根据第一视频帧和第二视频帧得到第二视频帧的光流结果，进一步地，还可以得到第二视频帧的光流结果对应的遮挡区域信息。

训练结果包括：由第一神经网络得到的第一视频帧的语义分割结果以及第二视频帧的第一语义分割结果，以及，由第二神经网络得到的第二视频帧的光流结果。

作为一种可选的实施方式，上述训练结果还可以包括第二视频帧的光流结果对应的遮挡区域信息。

其中，对于第一神经网络，可以依次对第一视频帧和第二视频帧进行语义分割，得到第一视频帧的语义分割结果，以及第二视频帧的第一语义分割结果。可选的，在本公开中，语义分割结果具体可以为语义分割特征。

对于第二神经网络，可以结合第一视频帧以及第二视频帧进行光流估计，得到第二视频帧的光流结果。可选的，还可以得到第二视频帧的光流结果对应的遮挡区域信息。其中，该遮挡区域信息是能够表征第二视频帧中的遮挡区域的信息。示例性的，在一个视频帧中包括树林以及站在树林前的人，人遮挡住了树林的一部分，则在视频帧中人所在的区域即为一个遮挡区域。

S203、根据第二视频帧的光流结果、第一视频帧的语义分割结果、第二视频帧的第一语义分割结果，获取神经网络系统的第一参数。

可选的，如果上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息，则在本步骤中，可以根据第二视频帧的光流结果、第一视频帧的语义分割结果、第二视频帧的第一语义分割结果以及第二视频帧的光流结果对应的遮挡区域信息，获取第一神经网络的第一参数。

其中，上述第一参数用于表征第一神经网络的准确程度。

示例性的，第一参数越大，表示第一神经网络的准确程度越低，第一参数越小，表示第一神经网络的准确程度越高。

可选的，上述第一参数可以是以上述第二视频帧的光流结果、第一视频帧的语义分割结果、第二视频帧的第一语义分割结果为参数的损失函数的值。或者，上述第一参数可以是以上述第二视频帧的光流结果、第一视频帧的语义分割结果、第二视频帧的光流结果对应的遮挡区域信息、第二视频帧的第一语义分割结果为参数的损失函数的值。

本步骤中，在获取神经网络系统的第一参数时，除了基于由第一神经网络得到的第一视频帧的语义分割结果以及第二视频帧的第一语义分割结果，同时，还基于由第二神经网络得到的第二视频帧的光流结果，即将会将第二神经网络的结果作为一个约束应用于第一神经网络的训练过程中。

或者，在获取神经网络系统的第一参数时，除了基于由第一神经网络得到的第一视频帧的语义分割结果以及第二视频帧的第一语义分割结果，同时，还基于由第二神经网络得到的第二视频帧的光流结果，以及第二视频帧的光流结果对应的遮挡区域信息，即将会将第二神经网络的结果作为一个约束应用于第一神经网络的训练过程中。

S204、根据上述第一参数，调整神经网络系统的网络参数值。

其中，神经网络系统的网络参数值包括第一神经网络的网络参数值以及第二神经网络的网络参数值。本步骤中，当获取到神经网络系统的第一参数之后，可以根据第一参数，调整第一神经网络的网络参数值和第二神经网络的网络参数值。并基于调整后的网络参数值，进行下一轮的神经网络系统的训练。

本实施例中，将由第二神经网络得到的第二视频帧的光流结果作为参数来生成用于表征第一神经网络准确程度的第一参数，即将第二神经网络的结果作为一个约束应用于第一神经网络的训练过程中，由于使用了第二神经网络的结果作为第一神经网络的约束，因此使得第一神经网络能够训练出更加准确、稳定的特征。由于第一参数只在神经网络系统训练过程中生成，在神经网络训练完成后，第一神经网络在第一参数的作用下能够训练出准确稳定的特征，在将神经网络系统应用于各种图像处理的场景中时，基于训练得到的第一神经网络即可得到准确的图像语义分割结果，不再需要在第一神经网络中增加额外的特征融合模块或者预测模块，因此，相比于现有技术，本实施例能够极大降低模型进行图像处理时的处理时长以及资源消耗，极大提升图像语义分割的效率。

进一步的，由于上述第一参数基于第二视频帧的光流结果、第一视频帧的语义分割结果、第二视频帧的第一语义分割结果得到，并用于衡量第一神经网络训练后的准确程度，而上述第一参数的生成并不需要使用待训练视频帧的数据标注信息，因此，在神经网络系统的训练过程中，即使输入的一段视频中只有一个视频帧或一部分视频帧进行过数据标注，也可以利用未进行过数据标注的视频帧得到上述第一参数，并以此衡量第一神经网络一轮训练后的准确程度。因此，在本实施例中，在神经网络系统训练过程中，可以利用输入的视频中的所有视频帧，而现有技术中仅能利用进行过数据标注的视频帧，因此，本实施例相对于现有技术，能够极大提升训练视频的利用率。同时，在达到相同的训练准确度的前提下，本实施例相比于现有技术，能够极大减少进行过数据标注的视频帧的数量，因此能够极大减少对视频帧进行数据标注的过程，极大提升神经网络系统训练的效率。

另外，上述实施例中还可以将第二神经网络得到的第二视频帧的光流结果以及第二视频帧的光流结果对应的遮挡区域信息共同作为参数来生成用于表征第一神经网络准确程度的第一参数，可以进一步使得第一神经网络能够训练出更加准确、稳定的特征。

图3为本公开实施例提供的用于处理视频帧的神经网络训练方法的流程示意图，如图3所示，上述步骤S203中获取第一参数的过程包括：

S301、根据第一视频帧的语义分割结果和第二视频帧的光流结果，得到第二视频帧的第二语义分割结果。

S302、根据第二视频帧的第二语义分割结果、第二视频帧的第一语义分割结果，获取第一参数。

可选的，上述第一参数的损失函数可以通过如下公式(1)表示。

一种可选方式中，如果上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息，则可以根据第二视频帧的第二语义分割结果、第二视频帧的第一语义分割结果、第二视频帧的光流结果对应的遮挡区域信息，获取第一参数。

在该可选方式中，上述第一参数的损失函数可以通过如下公式(2)表示。

其中，上述公式(1)和上述公式(2)中的

通过如下公式(3)计算获得。

其中，Warp操作是指通过光流把一帧图像变换到第二帧图像的位置上。

在上述公式(1)、公式(2)和公式(3)中，p为待训练图像中的所有像素，i为第一视频帧的编号，i+t为第二视频帧的编号，

为第二视频帧的光流结果对应的遮挡区域信息，F_i→i+t为第二视频帧的光流结果，

为第一视频帧的语义分割结果，该语义分割结果是指由第一神经网络对第一视频帧进行语义分割所得出的语义分割结果，

为第二视频帧的第一语义分割结果，该第一语义分割结果是指由第一神经网络对第二视频帧进行语义分割所得出的语义分割结果。上述公式(3)利用光流结果，将第一视频帧形变以匹配第二视频帧。

是经过公式(3)的形变所得到的第二视频帧的语义分割结果，称为第二视频帧的第二语义分割结果。在上述公式(1)中，利用第二视频帧的第一语义分割结果和第二语义分割结果的差异，可以计算出神经网络系统在本轮训练中的损失，即计算出上述第一参数。在上述公式(2)中，利用第二视频帧的第一语义分割结果和第二语义分割结果的差异以及第二视频帧的光流结果对应的遮挡区域信息，可以计算出神经网络系统在本轮训练中的损失，即计算出上述第一参数。

如前所述，在一轮训练过程中，输入的第一视频帧和第二视频帧可以均为进行过数据标注的视频帧，或者，也可以均为未进行过数据标注的视频帧，或者，也可以一个视频帧进行过数据标注，另一个视频帧为进行过数据标注。如果第一视频帧和第二视频帧均未进行过数据标注，则可以基于上述的过程得到第一参数，并基于第一参数调整第一神经网络的网络参数。如果第一视频帧和第二视频帧均进行过数据标注，或者只有第二视频帧进行过数据标注，则可以结合第三参数调整第一神经网络的网络参数。以下对该结合过程进行说明。

可选的，如果第二视频帧为标注有语义分割信息的视频帧，则上述方法还包括：

根据第二视频帧的第一语义分割结果，以及，第二视频帧所标注的语义分割信息，得到第三参数。

如前所述，第二视频帧的第一语义分割结果是指由第一神经网络对第二视频帧进行语义分割所得出的语义分割结果，如果第二视频帧为标注有语义分割信息的视频帧，则第二视频帧还具有标注的语义分割信息。基于这两个信息，可以得到第三参数。

可选的，可以通过下述公式(4)计算第三参数。

其中，p为概率，log为对数，logp为负对数损失，x，y表示像素，S_xy表示第二视频帧的第一语义分割结果，

表示第二视频帧所标注的语义分割信息。

在一种可选方式中，如果上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息，则可以通过上述公式(4)计算出第六参数。即可以根据第二视频帧的第一语义分割结果，以及，第二视频帧所标注的语义分割信息，得到第六参数。

当得到上述第三参数或第六参数后，在上述步骤S204中调整神经网络系统的网络参数值时，可以根据第一参数和第三参数，或者，第一参数和第六参数，调整神经网络系统的网络参数值。示例性的，可以为第一参数和第三参数分别预先配置权值，当计算出第一参数和第三参数后，对第一参数和第三参数按照权值相加，得到一个综合的用于表示损失的参数值，并基于该参数值调整神经网络系统的网络参数值，也就是对神经网络系统中的第一神经网络的网络参数值和第二神经网络的网络参数值进行调整。

一种可选方式中，上述步骤S202中得到的训练结果还包括：第一视频帧和第二视频帧的相似度信息。

在该可选方式中，上述方法还包括：

根据第一视频帧和第二视频帧的相似度信息，获取神经网络系统的第二参数。

其中，上述第二参数用于表征第二神经网络的准确程度。

可选的，上述第二参数可以是以第一视频帧和第二视频帧的相似度信息为参数的损失函数的值。

可选的，首先，可以通过下述公式(5)计算第一视频帧和第二视频帧的相似度信息。

其中，I为第二视频帧，I’为对第一视频帧经过上述公式(3)的形变所得到的包含语义分割结果的帧，α为权值系数，示例性的，α可以设置为0.85。SSIM为一个图像相似度描述符，用于表示两帧图像的相似程度。

进一步的，可以通过下述公式(6)计算第二神经网络的损失函数的值，即计算第二参数。

L_pm＝∑(G(I,I′|F_i→i+t))(6)

基于上述第二参数，在上述步骤S204中调整神经网络系统的网络参数时，可以根据第一参数和第二参数调整神经网络系统的网络参数。

另一种可选方式中，当上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息时，上述训练结果还包括：第一视频帧和第二视频帧的相似度信息、遮挡区域差异信息。其中，该遮挡区域差异信息为第二视频帧的第一语义分割结果对应的遮挡区域信息与第二视频帧的光流结果对应的遮挡区域信息的差异信息。

在该可选方式中，在该可选方式中，上述方法还包括：

根据第一视频帧和第二视频帧的相似度信息、遮挡区域差异信息、第二视频帧的光流结果对应的遮挡区域信息，获取神经网络系统的第五参数。

其中，上述第五参数用于表征第二神经网络的准确程度。

可选的，上述第五参数可以是以第一视频帧和第二视频帧的相似度信息、遮挡区域差异信息、第二视频帧的光流结果对应的遮挡区域信息为参数的损失函数的值。

可选的，首先，可以通过上述公式(5)计算第一视频帧和第二视频帧的相似度信息。

进一步的，可以通过下述公式(7)计算第二神经网络的损失函数的值，即计算第五参数。

L_pm＝∑(G(I,I′|F_i→i+t))·(1+O_error-(O>0.5))(7)

其中，O_error为遮挡区域差异信息，O为第二视频帧的光流结果对应的遮挡区域信息。

基于上述第五参数，在上述步骤S204中调整神经网络系统的网络参数时，可以根据第一参数和第五参数调整神经网络系统的网络参数。

本实施例中，神经网络系统的第二参数由第一视频帧和第二视频帧的相似度信息确定，由于遮挡区域差异信息表示的是第二视频帧的第一语义分割结果对应的遮挡区域信息与第二视频帧的光流结果对应的遮挡区域信息的差异信息，即遮挡区域差异信息的计算中结合了由第一神经网络所得到的语义分割结果，再基于遮挡区域差异信息确定用于表征第二神经网络的准确程度的第五参数，即在神经网络系统的训练过程中，使用语义分割信息为第二神经网络的光流估计添加了语义信息，从而使得第二神经网络的光流估计在更加平滑的同时可以保留边缘信息，进而使得训练出的第二神经网络的光流估计的效果更好。

进一步的，在神经网络系统的训练中，并不需要预先对待训练视频帧进行光流信息的数据标注，因此，本实施例中训练第二神经网络的方法属于无监督的训练方法，通过该方法，可以极大减少对视频帧进行数据标注的过程，极大提升神经网络系统训练的效率。

可选的，在神经网络系统的每轮训练中，还可以使用如下公式(8)计算神经网络系统的第四参数，该第四参数用来表征第二神经网络的平滑损失。

Lsm＝∑_x,y|ΔF(x,y)|·(e^-|ΔI(x，y)) (8)

其中，x，y表示表示像素，ΔF(x,y)表示光流的梯度，ΔI(x,y)表示第二视频帧的梯度。

在具体实施时，一种可选方式中，可以根据上述的第一参数、第二参数和第四参数来调整神经网络系统的网络参数值。具体的，根据第一参数调整第一神经网络的网络参数值，根据第二参数和第四参数调整第二神经网络的网络参数值。

另一种可选方式中，可以根据上述的第一参数、第二参数、第三参数和第四参数来调整神经网络系统的网络参数值。具体的，根据第一参数和第三参数调整第一神经网络的网络参数值，根据第二参数和第四参数调整第二神经网络的网络参数值。

在一种可选方式中，如果上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息，则可以通过上述公式(8)计算出第七参数。即可以根据第二视频帧的第一语义分割结果，以及，第二视频帧所标注的语义分割信息，得到第七参数。该第七参数用来表征第二神经网络的平滑损失。

在得到上述第七参数后，可以根据上述的第一参数、第五参数和第七参数来调整神经网络系统的网络参数值。具体的，根据第一参数调整第一神经网络的网络参数值，根据第五参数和第七参数调整第二神经网络的网络参数值。

另一种可选方式中，也可以根据上述的第一参数、第五参数、第六参数和第七参数来调整神经网络系统的网络参数值。具体的，根据第一参数和第六参数调整第一神经网络的网络参数值，根据第五参数和第七参数调整第二神经网络的网络参数值。

另一实施例中，在根据上述第一参数、第五参数、第六参数和第七参数调整神经网络系统的网络参数值时，还可以同时结合第八参数进行调整。其中，第八参数用于表征第二视频帧的光流结果对应的遮挡区域的准确程度。具体的，可以根据上述第一参数、第五参数、第六参数、第七参数和第八参数，调整神经网络系统的网络参数值。

可选的，可以通过下述公式(9)计算第八参数：

其中x，y表示第二视频帧中像素的位置，α用于控制学习遮挡区域的大小，α越大，对遮挡区域的惩罚越大，学习到的遮挡区域越小。示例性的，α取值可以为0.2。O^xy为第二视频帧的光流结果对应的遮挡区域信息。

在上述实施例的基础上，本实施例涉及第一神经网络和/或第二神经网络包括多层时的处理过程。

首先，对于第一神经网络，第一神经网络包括至少一层第一子神经网络，则第一神经网络的第i层第一子神经网络的第一参数可以通过如下过程得到：

根据第i层的第二子神经网络输出的第二视频帧的光流结果、第i层的第一子神经网络输出的第一视频帧的语义分割结果、第i层的第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的子神经网络系统的第一参数。

如果上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息，则可以根据第i层的第二子神经网络输出的第二视频帧的光流结果、第i层的第一子神经网络输出的第一视频帧的语义分割结果、第i层的第二子神经网络输出的第二视频帧的光流结果对应的遮挡区域信息、第i层的第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的子神经网络系统的第一参数。

i为大于或等于1的整数。

第一神经网络的每一层作为一个子神经网络，均可以得到第一视频帧的语义分割结果和第二视频帧的第一语义分割结果，同时，第二神经网络中的相应层也可以得到该层的第二视频帧的光流结果以及遮挡区域信息，基于这些信息，可以得到神经网络系统的每一层对应的第一参数。

进一步的，当得到神经网络系统每一层的第一参数之后，可以根据所有层的第一参数之和来调整神经网络系统的网络参数值。

具体的，可以将所有的层的第一参数之和作为本轮训练的损失函数的值，并基于该值调整神经网络系统的网络参数值。

其次，对于第二神经网络，第二神经网络包括至少一层第二子神经网络，一种可选方式中，第二神经网络的层数与第一神经网络的层数相同，则当i大于或等于2时，第i层的第二子神经网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的语义分割结果、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

其中，第i-1层的第一子神经网络输出的语义分割结果可以是由第i-1层的第一子神经网络进行语义分割后输出的包含了语义分割结果的图像。

在进行第i层的第二子神经网络的训练时，同时基于第i-1层的光流结果和网络参数值，以及第i-1层的语义分割结果训练得到第i层的光流结果，从而实现了通过语义分割为光流估计添加语义信息，以及利用已有的光流结果进行本层的光流估计，从而使得光流估计更加平滑的同时保留了边缘信息，进而使得训练出的第二神经网络的光流估计的效果更好。

示例性的，参照图1，第一层的第一子神经网络1输出语义分割结果，第一层的第二子神经网络1输出光流结果，同时，第一层的第二子神经网络1还输出卷积参数，这三个信息同时作为第二层的第二子神经网络2的输入，用于得到第二子神经网络2的输入。依次类推，第三层的第二子神经网络3的光流结果可以根据第二层的第二子神经网络2的输出以及第二层的第一子神经网络2的输出得到，不再赘述。

当i小于2时，即i等于1时，可以基于第一层的第二神经网络的网络参数确定第一层的第二子神经网络的第二视频帧的光流结果。

另外，对于神经网络系统的每一层，均可根据该层的子神经网络系统的第一视频帧和第二视频帧的相似度信息、来获取该层的子神经网络系统的第二参数。并根据所有层的子神经网络系统的第二参数之和，调整神经网络系统的网络参数。

如果上述训练结果中包括第二视频帧的光流结果对应的遮挡区域信息，则，则对于神经网络系统的每一层，均可根据该层的子神经网络系统的第一视频帧和第二视频帧的相似度信息、遮挡区域差异信息、第二视频帧的光流结果对应的遮挡区域信息来获取该层的子神经网络系统的第二参数。并根据所有层的子神经网络系统的第二参数之和，调整神经网络系统的网络参数。

在神经网络系统训练完成后，该神经网络系统既可用于语义分割，还可进行光流估计，可以应用于各种图像处理场景中。可选的，在自动驾驶、室内导航、虚拟现实、增强现实等场景中，可以进行语义分割处理。可选的，在自动驾驶、室内导航、虚拟现实、增强现实等场景中，可以进行目标跟踪、目标动作识别。值得说明的是，具体实施过程中，可以仅进行语义分割处理，也可以仅进行光流估计，也可以在某种场景中同时进行语义分割处理并进行光流估计，本公开实施例对此不做具体限定。

图4为本公开实施例提供的视频帧处理方法的流程示意图，如图4所示，使用训练完成的第一神经网络和/或第二神经网络处理视频帧的过程包括：

S401、获取待处理的第三视频帧。

以自动驾驶场景为例，上述第三视频帧可以是拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧。车辆行驶过程中，拍摄装置持续拍摄车辆周围环境视频，并逐帧将拍摄的视频中的视频帧输入到神经网络系统中。上述第三视频帧可以是拍摄装置所拍摄的视频中的任意一个视频帧。

S402、将第三视频帧输入至训练后的神经网络系统，获取第三视频帧的语义分割结果和/或第三视频帧的光流结果。

S403、输出第三视频帧的语义分割结果和/或第三视频帧的光流结果。

可选的，可以将第三视频帧的语义分割结果和/或第三视频帧的光流结果发送给控制车辆行驶的装置或设备，由该装置或设备基于语义分割结果和/或第三视频帧的光流结果，控制车辆的驾驶行为。示例性的，车辆的驾驶行为可以包括避让、停车、减速等。图5为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图5所示，所述装置包括：

第一获取模块501，用于获取第一视频帧和第二视频帧，所述第一视频帧和所述第二视频帧相邻、且所述第二视频帧的拍摄时间晚于所述第一视频帧的拍摄时间。

训练模块502，用于使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练，得到训练结果，所述神经网络系统包括第一神经网络和第二神经网络，所述训练结果包括：由所述第一神经网络得到的所述第一视频帧的语义分割结果以及所述第二视频帧的第一语义分割结果，以及，由所述第二神经网络得到的所述第二视频帧的光流结果。

第二获取模块503，用于根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果，获取所述神经网络系统的第一参数，所述第一参数用于表征所述第一神经网络的准确程度。

调整模块504，用于根据所述第一参数，调整所述神经网络系统的网络参数值。

另一实施例中，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息；

图6为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图6所示，所述装置还包括：

第三获取模块505，用于根据所述第一视频帧和所述第二视频帧的相似度信息，获取所述神经网络系统的第二参数，所述第二参数用于表征所述第二神经网络的准确程度。

调整模块504具体用于：

另一实施例中，第二获取模块503具体用于：

另一实施例中，所述神经网络系统包括至少一层子神经网络系统，所述第一神经网络包括至少一层第一子神经网络，所述第二神经网络包括至少一层第二子神经网络，每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成。

第二获取模块503具体用于：

调整模块504具体用于：

另一实施例中，第三获取模块505具体用于：

调整模块504具体用于：

另一实施例中，当所述i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的语义分割结果、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

图7为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图7所示，若所述第二视频帧为标注有语义分割信息的视频帧，则所述装置还包括：

第四获取模块506，用于根据所述第二视频帧的第一语义分割结果，以及，所述第二视频帧所标注的语义分割信息，得到第三参数。

调整模块504具体用于：

图8为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图8所示，所述装置还包括：

第五获取模块507，用于获取所述神经网络系统的第四参数，所述第四参数用于表征所述第二神经网络的平滑损失。

调整模块504具体用于：

另一实施例中，所述训练结果还包括：所述第二视频帧的光流结果对应的遮挡区域信息；

第二获取模块503具体用于：

另一实施例中，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息，所述遮挡区域差异信息为所述第二视频帧的第一语义分割结果对应的遮挡区域信息与所述第二视频帧的光流结果对应的遮挡区域信息的差异信息；

图9为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图9所示，所述装置还包括：

第六获取模块508，用于根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息，获取所述神经网络系统的第五参数，所述第五参数用于表征所述第二神经网络的准确程度。

调整模块504具体用于：

另一实施例中，第二获取模块503具体用于：

第二获取模块503具体用于：

根据第i层的所述第二子神经网络输出的第二视频帧的光流结果、第i层的所述第一子神经网络输出的第一视频帧的语义分割结果、第i层的所述第二子神经网络输出的第二视频帧的光流结果对应的遮挡区域信息、第i层的所述第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的所述子神经网络系统的第一参数，所述i为大于或等于1的整数。

调整模块504具体用于：

另一实施例中，第六获取模块508具体用于：

根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息、第i层的所述子神经网络系统的遮挡区域差异信息、第i层的第二视频帧的光流结果对应的遮挡区域信息，获取第i层的所述子神经网络系统的第五参数。

调整模块504具体用于：

另一实施例中，当所述i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的图像、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

图10为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图10所示，若所述第二视频帧为标注有语义分割信息的视频帧，则所述装置还包括：

第七获取模块509，用于根据所述第二视频帧的第一语义分割结果，以及，所述第二视频帧所标注的语义分割信息，得到第六参数。

调整模块504具体用于：

图11为本公开实施例提供的用于处理视频帧的神经网络训练装置的模块结构图，如图11所示，所述装置还包括：

第八获取模块510，用于获取所述神经网络系统的第七参数，所述第七参数用于表征所述第二神经网络的平滑损失。

调整模块504具体用于：

另一实施例中，调整模块504具体用于：

图12为本公开实施例提供的视频帧处理装置的模块结构图，如图12所示种视频帧处理装置，所述装置包括：

获取模块1201，用于获取待处理的第三视频帧。

处理模块1202，用于将所述第三视频帧输入至训练后的神经网络系统，获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，所述神经网络系统为上述方法实施例中所述的神经网络系统。

输出模块1203，用于输出所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果。

图13为本公开实施例提供的视频帧处理装置的模块结构图，如图13所示所述装置还包括：

控制模块1204，用于根据所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，控制所述车辆的驾驶行为。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图14为本发明实施例提供的一种电子设备1400的结构示意图。如图14示，该电子设备可以包括：处理器14、存储器14、通信接口14和系统总线14，所述存储器14和所述通信接口14通过所述系统总线14与所述处理器14连接并完成相互间的通信，所述存储器14用于存储计算机执行指令，所述通信接口14用于和其他设备进行通信，所述处理器14执行所述计算机程序时实现如上述图1至图4所示实施例的方案。

该图14提到的系统总线可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。所述系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

图15本发明实施例提供的驾驶控制方法的流程示意图，在上述实施例的基础上，本发明实施例还提供一种驾驶控制方法，包括：

S1501、驾驶控制装置获取路面图像的语义分割结果和/或光流结果，其中，路面图像的语义分割结果和/或光流结果是采用本公开实施例提供的视频帧处理方法获取的。

S1502、驾驶控制装置根据所述语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

本实施例的执行主体是驾驶控制装置，本实施例的驾驶控制装置和上述实施例所述的电子设备可以位于同一设备中，也可以单独设备在不同的设备中。其中本实施例的驾驶控制装置与上述的电子设备之间通信连接。

其中，路面图像的语义分割结果和/或光流结果为上述实施例的方法得到，具体过程参照上述实施例的描述，在此不再赘述。

具体的，电子设备执行上述的视频帧处理方法，获得路面图像的语义分割结果和/或光流结果，并将路面图像的语义分割结果和/或光流结果输出。驾驶控制装置获取路面图像的语义分割结果和/或光流结果，并根据路面图像的语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

其中，提示信息可以包括车道线偏离预警提示，或者，进行车道线保持提示等。

本实施例的智能驾驶包括辅助驾驶、自动驾驶和/或辅助驾驶和自动驾驶之间的驾驶模式切换。

上述智能驾驶控制可以包括：制动、改变行驶速度、改变行驶方向、车道线保持、改变车灯状态、驾驶模式切换等，其中，驾驶模式切换可以是辅助驾驶与自动驾驶之间的切换，例如，将辅助驾驶切换为自动驾驶。

本实施例提供的驾驶控制方法，驾驶控制装置通过获取路面图像的语义分割结果和/或光流结果，并根据路面图像的语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制，进而提高了智能驾驶的安全性和可靠性。

图16本发明实施例提供的驾驶控制装置的结构示意图，在上述实施例的基础上，本发明实施例的驾驶控制装置1600，包括：

获取模块1601，用于获取路面图像的语义分割结果和/或光流结果，所述语义分割结果和/或光流结果采用上述的视频帧处理方法得到。

驾驶控制模块1602，用于根据所述语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

本发明实施例的驾驶控制装置，可以用于执行上述所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图17为本发明实施例提供的智能驾驶系统的示意图，如图17所示，本实施例的智能驾驶系统1700包括：通信连接的图像采集装置1701、电子设备1400和驾驶控制装置1600，其中电子设备1400如图14所示，驾驶控制装置1600如图16所示，图像采集装置1701用于拍摄路面图像。

具体的，如图17所示，在实际使用时，图像采集装置1701拍摄路面图像，并将路面图像发送给电子设备1400，电子设备1400接收到路面图像后，根据上述视频帧处理方法对路面图像进行处理，获得路面图像的语义分割结果和/或光流结果。接着，电子设备1400将获得的路面图像的语义分割结果和/或光流结果发送给驾驶控制装置1600，驾驶控制装置1600根据路面图像的语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

可选的，本申请实施例还提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述图1至图4任一所示实施例的方法。

可选的，本申请实施例还提供一种运行指令的芯片，所述芯片用于执行上述图1至图4任一所示实施例的方法。

本申请实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图1至图4所示实施例的方法。

在本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本发明实施例的范围。

可以理解的是，在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于处理视频帧的神经网络训练方法，其特征在于，所述方法包括：

根据所述第一参数，调整所述神经网络系统的网络参数值，其中，所述神经网络系统包括至少一层子神经网络系统，所述第一神经网络包括至少一层第一子神经网络，所述第二神经网络包括至少一层第二子神经网络，每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成。

2.根据权利要求1所述的方法，其特征在于，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息；

所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果，获取所述神经网络系统的第一参数，包括：

4.根据权利要求2或3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一视频帧和所述第二视频帧的相似度信息、获取第二参数，包括：

6.根据权利要求5所述的方法，其特征在于，当i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的语义分割结果、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

7.根据权利要求2-3任一项所述的方法，其特征在于，若所述第二视频帧为标注有语义分割信息的视频帧，则所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述训练结果还包括：所述第二视频帧的光流结果对应的遮挡区域信息；

10.根据权利要求9所述的方法，其特征在于，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息，所述遮挡区域差异信息为所述第二视频帧的第一语义分割结果对应的遮挡区域信息与所述第二视频帧的光流结果对应的遮挡区域信息的差异信息；

所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息，获取所述神经网络系统的第一参数，包括：

12.根据权利要求10或11所述的方法，其特征在于，所述神经网络系统包括至少一层子神经网络系统，所述第一神经网络包括至少一层第一子神经网络，所述第二神经网络包括至少一层第二子神经网络，每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成；

根据第i层的所述第二子神经网络输出的第二视频帧的光流结果、第i层的所述第一子神经网络输出的第一视频帧的语义分割结果、第i层的所述第二子神经网络输出的第二视频帧的光流结果对应的遮挡区域信息、第i层的所述第一子神经网络输出的第二视频帧的第一语义分割结果，获取第i层的所述子神经网络系统的第一参数，i为大于或等于1的整数；

13.根据权利要求12所述的方法，其特征在于，所述根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息，获取第五参数，包括：

14.根据权利要求13所述的方法，其特征在于，当i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的图像、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

15.根据权利要求11所述的方法，其特征在于，若所述第二视频帧为标注有语义分割信息的视频帧，则所述方法还包括：

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，所述根据所述第一参数、第五参数、第六参数和第七参数，调整所述神经网络系统的网络参数值，包括：

18.一种视频帧处理方法，其特征在于，所述方法包括：

获取待处理的第三视频帧；

将所述第三视频帧输入至训练后的神经网络系统，获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，所述神经网络系统为权利要求1或2所述的神经网络系统；

19.根据权利要求18所述的方法，其特征在于，所述第三视频帧为拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧，所述方法还包括：

20.一种用于处理视频帧的神经网络训练装置，其特征在于，所述装置包括：

调整模块，用于根据所述第一参数，调整所述神经网络系统的网络参数值，其中，所述神经网络系统包括至少一层子神经网络系统，所述第一神经网络包括至少一层第一子神经网络，所述第二神经网络包括至少一层第二子神经网络，每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成。

21.根据权利要求20所述的装置，其特征在于，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息；

所述装置还包括：

所述调整模块具体用于：

22.根据权利要求21所述的装置，其特征在于，所述第二获取模块具体用于：

23.根据权利要求21或22所述的装置，其特征在于，

所述第二获取模块具体用于：

所述调整模块具体用于：

24.根据权利要求23所述的装置，其特征在于，所述第三获取模块具体用于：

所述调整模块具体用于：

25.根据权利要求24所述的装置，其特征在于，当i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的语义分割结果、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

26.根据权利要求21-22任一项所述的装置，其特征在于，若所述第二视频帧为标注有语义分割信息的视频帧，则所述装置还包括：

所述调整模块具体用于：

27.根据权利要求26所述的装置，其特征在于，所述装置还包括：

所述调整模块具体用于：

28.根据权利要求20所述的装置，其特征在于，所述训练结果还包括：所述第二视频帧的光流结果对应的遮挡区域信息；

所述第二获取模块具体用于：

29.根据权利要求28所述的装置，其特征在于，所述训练结果还包括：所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息，所述遮挡区域差异信息为所述第二视频帧的第一语义分割结果对应的遮挡区域信息与所述第二视频帧的光流结果对应的遮挡区域信息的差异信息；

所述装置还包括：

所述调整模块具体用于：

30.根据权利要求29所述的装置，其特征在于，所述第二获取模块具体用于：

31.根据权利要求29或30所述的装置，其特征在于，所述神经网络系统包括至少一层子神经网络系统，所述第一神经网络包括至少一层第一子神经网络，所述第二神经网络包括至少一层第二子神经网络，每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成；

所述第二获取模块具体用于：

所述调整模块具体用于：

32.根据权利要求31所述的装置，其特征在于，所述第六获取模块具体用于：

所述调整模块具体用于：

33.根据权利要求32所述的装置，其特征在于，当i大于或等于2时，所述第i层的第二神经子网络的第二视频帧的光流结果根据第i-1层的第一子神经网络输出的图像、第i-1层的第二子神经网络输出的第二视频帧的光流结果、第i-1层的第二子神经网络的网络参数确定。

34.根据权利要求30所述的装置，其特征在于，若所述第二视频帧为标注有语义分割信息的视频帧，则所述装置还包括：

所述调整模块具体用于：

35.根据权利要求34所述的装置，其特征在于，所述装置还包括：

所述调整模块具体用于：

36.根据权利要求35所述的装置，其特征在于，所述调整模块具体用于：

37.一种视频帧处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的第三视频帧；

处理模块，用于将所述第三视频帧输入至训练后的神经网络系统，获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果，所述神经网络系统为权利要求1或2所述的神经网络系统；

38.根据权利要求37所述的装置，其特征在于，所述第三视频帧为拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧，所述装置还包括：

39.一种驾驶控制方法，其特征在于，包括：

驾驶控制装置获取路面图像的语义分割结果和/或光流结果，所述语义分割结果和/或光流结果采用如权利要求18或19所述的视频帧处理方法得到；

40.一种驾驶控制装置，其特征在于，包括：

获取模块，用于获取路面图像的语义分割结果和/或光流结果，所述语义分割结果和/或光流结果采用如权利要求18或19所述的视频帧处理方法得到；

41.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行权利要求1-17任一项或权利要求18-19任一项所述的方法步骤。

42.一种智能驾驶系统，其特征在于，包括：通信连接的图像采集装置、如权利要求41所述的电子设备和如权利要求40所述的驾驶控制装置，所述图像采集装置用于获取路面图像。

43.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1-17任一项或权利要求18-19任一项所述的方法步骤。