CN112016513B

CN112016513B - 视频语义分割方法、模型训练方法、相关装置及电子设备

Info

Publication number: CN112016513B
Application number: CN202010936701.1A
Authority: CN
Inventors: 王华彦; 王宇航
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2024-01-30
Anticipated expiration: 2040-09-08
Also published as: CN112016513A

Abstract

本公开关于一种视频语义分割方法、模型训练方法、相关装置及电子设备，包括：获取第一视频；其中，所述第一视频包括关键帧和非关键帧；识别所述第一视频的关键帧，基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；识别所述第一视频中与所述关键帧对应的非关键帧，基于所述神经网络模型提取所述非关键帧的第二独有特征；基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。本公开能够提高视频语义分割的效率。

Description

视频语义分割方法、模型训练方法、相关装置及电子设备

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种视频语义分割方法、用于视频语义分割的神经网络模型训练方法、相关装置及电子设备。

背景技术

目前，现实中越来越多的应用场景需要从影像中推理出相关的知识和语义，以进行场景理解。而视频语义分割作为场景理解的任务，其目的是在像素级别上对每个视频帧中的目标进行分类，以将每个视频帧分割成具有高级语义内容的区域。

相关技术中，在进行视频语义分割时，通常是将视频分为两类不同的视频帧，分别为关键帧和非关键帧，其中，关键帧可以理解为作为非关键帧的语义分割的参考视频帧。对于关键帧，通常是采用卷积神经网络(Convolutional Neural Networks，CNN)模型对关键帧进行语义分割，以获得表达能力比较强的高层语义特征。而对于非关键帧，由于视频数据的连续性，可以使用网络预测其特征与关键帧特征之间的空间转移关系，从而对关键帧的高层语义特征进行传播和变换，使之适用于非关键帧，再融合非关键帧的浅层特征，得到非关键帧的完整特征，以用于非关键帧的语义分割。

然而，视频帧特征之间的转移关系以及特征的变换都需要额外的计算，因此，现有技术中视频语义分割方式存在效率比较低的问题。

发明内容

本公开提供一种视频语义分割方法、用于视频语义分割的神经网络模型训练方法、相关装置及电子设备，以至少解决相关技术中视频语义分割方式存在效率比较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频语义分割方法，包括：

获取第一视频；其中，所述第一视频包括关键帧和非关键帧；

识别所述第一视频的关键帧，基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；

识别所述第一视频中与所述关键帧对应的非关键帧，基于所述神经网络模型提取所述非关键帧的第二独有特征；基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。

可选的，所述神经网络模型包括第一卷积层和第二卷积层，其中，所述第一卷积层用于确定所述关键帧的第一独有特征和所述非关键帧的第二独有特征，所述第二卷积层用于确定所述关键帧的第一共享特征。

可选的，所述关键帧的第一独有特征用于表征所述关键帧的细节纹理信息，所述关键帧的第一共享特征用于表征所述关键帧的语义信息，所述非关键帧的第二独有特征用于表征所述非关键帧的细节纹理信息。

根据本公开实施例的第二方面，提供一种用于视频语义分割的神经网络模型训练方法，包括：

获取训练样本；其中，所述训练样本包括多个图像帧集合，每个图像帧集合包括多个图像帧；

识别所述训练样本的第一图像帧集合，针对所述第一图像帧集合中每个图像帧，基于神经网络模型确定所述图像帧的独有特征和共享特征；其中，所述第一图像帧集合为所述多个图像帧集合中的任一图像帧集合；

针对所述第一图像帧集合中的第一图像帧，分别将每个所述共享特征和所述第一图像帧的独有特征进行融合，确定训练目标特征；基于训练目标特征对所述第一图像帧进行语义分割，输出所述第一图像帧的多个语义分割结果；其中，所述第一图像帧为所述第一图像帧集合中任一图像帧；

基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型。

可选的，所述方法还包括：

使用最小平方误差函数获取所述第一图像帧集合中各个图像帧的共享特征之间的第二差异信息；

基于所述第二差异信息更新所述神经网络模型。

可选的，所述基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型的步骤包括：

使用交叉熵损失函数分别获取所述第一图像帧的语义分割标签和所述第一图像帧的多个语义分割结果中每个语义分割结果的第三差异信息；

基于所述第三差异信息更新所述神经网络模型。

根据本公开实施例的第三方面，提供一种视频语义分割装置，包括：

第一获取模块，被配置为执行获取第一视频；其中，所述第一视频包括关键帧和非关键帧；

第一识别模块，被配置为执行识别所述第一视频的关键帧；

第一提取模块，被配置为执行基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；

第一确定模块，被配置为执行基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；

第二识别模块，被配置为执行识别所述第一视频中与所述关键帧对应的非关键帧；

第二提取模块，被配置为执行基于所述神经网络模型提取所述非关键帧的第二独有特征；

第二确定模块，被配置为执行基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。

根据本公开实施例的第四方面，提供一种用于视频语义分割的神经网络模型训练装置，包括：

第二获取模块，被配置为执行获取训练样本；其中，所述训练样本包括多个图像帧集合，每个图像帧集合包括多个图像帧；

第三识别模块，被配置为执行识别所述训练样本的第一图像帧集合；

第三确定模块，被配置为执行针对所述第一图像帧集合中每个图像帧，基于神经网络模型确定所述图像帧的独有特征和共享特征；其中，所述第一图像帧集合为所述多个图像帧集合中的任一图像帧集合；

融合模块，被配置为执行针对所述第一图像帧集合中的第一图像帧，分别将每个所述共享特征和所述第一图像帧的独有特征进行融合，确定训练目标特征；

语义分割模块，被配置为执行基于训练目标特征对所述第一图像帧进行语义分割，输出所述第一图像帧的多个语义分割结果；其中，所述第一图像帧为所述第一图像帧集合中任一图像帧；

第一更新模块，被配置为执行基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型。

可选的，所述装置还包括：

第三获取模块，被配置为执行使用最小平方误差函数获取所述第一图像帧集合中各个图像帧的共享特征之间的第二差异信息；

第二更新模块，被配置为执行基于所述第二差异信息更新所述神经网络模型。

可选的，所述第一更新模块，具体被配置为执行使用交叉熵损失函数分别获取所述第一图像帧的语义分割标签和所述第一图像帧的多个语义分割结果中每个语义分割结果的第三差异信息；基于所述第三差异信息更新所述神经网络模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面中任一项所述的视频语义分割方法，或者实现第二方面中任一项所述的用于视频语义分割的神经网络模型训练方法。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面中任一项所述的视频语义分割方法，或者执行第二方面中任一项所述的用于视频语义分割的神经网络模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括：可执行指令，当所述可执行指令在计算机上运行时，使得计算机能够执行第一方面中任一项所述的视频语义分割方法，或者执行第二方面中任一项所述的用于视频语义分割的神经网络模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取第一视频；其中，所述第一视频包括关键帧和非关键帧；识别所述第一视频的关键帧，基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；识别所述第一视频中与所述关键帧对应的非关键帧，基于所述神经网络模型提取所述非关键帧的第二独有特征；基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。这样，在对非关键帧进行语义分割时，通过共享关键帧的第一共享特征，可以直接将关键帧的第一共享特征与非关键帧的第二独有特征进行融合，而无需额外计算关键帧和非关键帧之间的特征转移关系，以及无需对关键帧的高层语义特征进行变换，即可得到非关键帧的完整特征，以用于非关键帧的语义分割。如此，在进行视频语义分割过程中，可以减少特征转移关系和特征变换的计算，从而可以提高视频语义分割的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频语义分割方法的流程图；

图2是基于神经网络模型对第一视频进行语义分割的具体实现示意图；

图3是根据一示例性实施例示出的一种用于视频语义分割的神经网络模型训练方法的流程图；

图4是神经网络模型的训练实现示意图；

图5是根据一示例性实施例示出的一种视频语义分割装置的框图；

图6是根据一示例性实施例示出的一种用于视频语义分割的神经网络模型训练装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，介绍本公开的视频语义分割方法的应用场景，所述视频语义分割方法通常可以应用于电子设备，所述电子设备可以为终端设备，也可以为服务器，用于对视频进行语义分割，以应用于自动驾驶、图像处理和智能机器人等领域中。

图1是根据一示例性实施例示出的一种视频语义分割方法的流程图，如图1所示，包括以下步骤：

在步骤S101中，获取第一视频；其中，所述第一视频包括关键帧和非关键帧；

在步骤S102中，识别所述第一视频的关键帧，基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；

在步骤S103中，识别所述第一视频中与所述关键帧对应的非关键帧，基于所述神经网络模型提取所述非关键帧的第二独有特征；基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。

所述第一视频可以为任一视频，所述第一视频包括关键帧和非关键帧，其关键帧的数量可以包括一个或多个，且每个关键帧关联的非关键帧的数量也可以包括一个或多个。在视频语义分割过程中，关键帧可以理解为作为非关键帧的语义分割的参考图像帧，而非关键帧可以理解为参考关键帧进行语义分割的图像帧。

可以使用现有的或者新的任何相关工作从第一视频中选取关键帧，在一可选实施方式中，可以在第一视频中等间距帧数选取关键帧，比如，可以在第一视频中每隔10帧选取一个图像帧作为关键帧，而相邻两个关键帧之间的图像帧可以为该相邻两个关键帧中前一个关键帧关联的非关键帧。

在又一可选实施方式中，可以监控第一视频中相邻两个图像帧之间的第一差异信息，根据相邻两个图像帧之间的第一差异信息识别所述第一视频中的关键帧。具体的，在步骤S101之前，所述方法还包括：

获取所述第一视频中当前识别的图像帧与前一个图像帧之间的第一差异信息；

在所述第一差异信息表征所述当前识别的图像帧与前一个图像帧之间的差异比预设差异大的情况下，确定所述当前识别的图像帧为所述第一视频的关键帧。

所述第一视频中相邻两个图像帧之间的第一差异信息可以通过该相邻两个图像帧中发生变化的像素点个数来表征。具体的，可以首先计算相邻两个图像帧中对应的像素点变化率，其中，像素点变化率可以通过对相邻两个图像帧中对应的像素点的像素进行相减得到，然后判断像素点变化率是否超过指定阈值，如果像素点变化率超过指定阈值，则说明该像素点发生较大变化，最后，统计像素点变化率超过指定阈值的像素点个数。该统计获得的像素点个数即可以为这相邻两个图像帧之间的第一差异信息。

在相邻两个图像帧之间的第一差异信息表征的差异大于预设差异的情况下，将当前识别的图像帧识别为关键帧，即作为视频语义分割的参考视频帧。如此，通过将变化比较大的相邻两个图像帧分开，从而在特征传播过程中，可以避免第一共享特征在变化比较大的图像帧之间传播，进而可以提高第一共享特征传播的准确性。

所述神经网络模型可以为基于CNN构建的神经网络模型，其可以包括多个卷积层，可以通过该神经网络模型中的这多个卷积层提取所述关键帧的第一独有特征和第一共享特征。

在一可选实施方式中，所述神经网络模型包括第一卷积层和第二卷积层，其中，所述第一卷积层用于确定所述关键帧的第一独有特征和所述非关键帧的第二独有特征，所述第二卷积层用于确定所述关键帧的第一共享特征。

其中，所述第一卷积层指的是多个卷积层，所述第二卷积层也可以指的是多个卷积层，所述第一卷积层的运行顺序可以位于所述第二卷积层的运行顺序之前。也就是说，所述关键帧的第一共享特征可以在神经网络模型的较深层提取，所述关键帧的第一独有特征和所述非关键帧的第二独有特征可以在神经网络模块的较浅层提取。

所述神经网络模型可以对第一视频中关键帧的第一共享特征和该关键帧关联的非关键帧的第二独有特征进行解耦，也就是说，关键帧可以和非关键帧共享第一共享特征。换句话说，在后续特征传播过程中，非关键帧可以共用关键帧的第一共享特征，而不需计算特征之间的转移关系对其进行变换，使之适用于非关键帧，即可以直接融合关键帧的第一共享特征和非关键帧的第二独有特征，以得到非关键帧的完整特征。

其中，所述关键帧的第一独有特征用于表征所述关键帧的细节纹理信息，所述关键帧的第一共享特征用于表征所述关键帧的语义信息，所述非关键帧的第二独有特征用于表征所述非关键帧的细节纹理信息。

关键帧的第一共享特征可以从神经网络模型的较深层提取，这是因为通常随着神经网络的加深，神经网络的特征图分辨率可以逐渐缩小，特征的图像语义信息逐渐加强，而与图像的空间对齐关系逐渐减弱，此时，第一共享特征可以表征关键帧的语义信息，比如，第一共享特征表征关键帧中包括一种动物。

而针对关键帧的第一独有特征和非关键帧的第二独有特征可以从神经网络模型的较浅层提取。这是因为通常在神经网络的较浅层，神经网络的特征图往往包含更多的图像细节纹理而在不同图像帧上各不相同，因此需要在每一图像帧上分别提取，以得到表征关键帧的细节纹理信息的第一独有特征和表征非关键帧的细节纹理信息的第二独有特征。比如，第一独有特征表征动物“猫”的细节纹理信息。

需要说明的是，在另一可选实施方式中，可以通过不同的神经网络模型分别提取关键帧的第一共享特征和第一独有特征。

识别所述第一视频的关键帧，并基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征之后，可以直接融合第一独有特征和第一共享特征，以确定第一目标特征，该第一目标特征即为该关键帧的完整特征，基于融合得到的完整特征对该关键帧进行语义分割，得到该关键帧的语义分割结果，如该关键帧的语义分割结果为“猫”。

识别第一视频中与上述识别出的关键帧关联的非关键帧，其中，在识别出下一个关键帧之前，位于当前关键帧之后的图像帧均为当前关键帧关联的非关键帧。

针对每个非关键帧，由于神经网络模型提取的关键帧的第一共享特征和非关键帧的第二独有特征是完全解耦的，因此，可以直接将关键帧的第一共享特征和非关键帧的第二独有特征进行融合，得到第二目标特征，该第二目标特征即为非关键帧的完整特征。

在具体实现过程中，可以在神经网络模型的顶层，将第一视频中关键帧的第一共享特征和该关键帧的第一独有特征特征进行融合，得到关键帧的完整特征，以及将第一视频中关键帧的第一共享特征和与之关联的非关键帧的第二独有特征进行融合，得到非关键帧的完整特征，以用于图像帧的语义分割，得到最终的视频语义分割结果。

实际应用中，参见图2，图2是基于神经网络模型对第一视频进行语义分割的具体实现示意图，如图2所示，神经网络模型包括第一卷积层201，第二卷积层202以及将共享特征和独有特征进行直接融合，以进行语义分割的卷积层(可以定义为第三卷积层203)。

可以基于第一卷积层201分别提取关键帧的第一独有特征和非关键帧的第二独有特征；并基于第二卷积层202提取关键帧的第一共享特征，在后续特征传播过程中，可以共用该第一共享特征。针对关键帧，基于第三卷积层203将关键帧的第一共享特征和第一独有特征进行融合，得到该关键帧的完整特征，并基于该完整特征对该关键帧进行语义分割，得到该关键帧的语义分割结果。

而针对每个非关键帧，基于第三卷积层203将关键帧的第一共享特征和该非关键帧的第二独有特征进行直接融合，得到该非关键帧的完整特征，并基于该完整特征对非关键帧进行语义分割，得到非关键帧的语义分割结果。

本实施例中，通过获取第一视频；其中，所述第一视频包括关键帧和非关键帧；识别所述第一视频的关键帧，基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；识别所述第一视频中与所述关键帧对应的非关键帧，基于所述神经网络模型提取所述非关键帧的第二独有特征；基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。这样，在对非关键帧进行语义分割时，通过共享关键帧的第一共享特征，可以直接将关键帧的第一共享特征与非关键帧的第二独有特征进行融合，而无需额外计算关键帧和非关键帧之间的特征转移关系，以及无需对关键帧的高层语义特征进行变换，即可得到非关键帧的完整特征，以用于非关键帧的语义分割。如此，在进行视频语义分割过程中，可以减少特征转移关系和特征变换的计算，从而可以提高视频语义分割的效率。

并且，在后续特征传播过程中，由于是直接共用关键帧的第一共享特征，无需计算图像帧特征之间的转移关系，因而可以避免由于计算获得的特征转移关系本身不一定精确而给非关键帧的特征带来误差的情况发生，从而可以提高视频语义分割的准确性。

以下详细介绍用于视频语义分割的神经网络模型训练方法，以实现图像帧的共享特征和独有特征的完全解耦。图3是根据一示例性实施例示出的一种用于视频语义分割的神经网络模型训练方法的流程图，如图3所示，包括以下步骤：

在步骤S301中，获取训练样本；其中，所述训练样本包括多个图像帧集合，每个图像帧集合包括多个图像帧；

在步骤S302中，识别所述训练样本的第一图像帧集合，针对所述第一图像帧集合中每个图像帧，基于神经网络模型确定所述图像帧的独有特征和共享特征；其中，所述第一图像帧集合为所述多个图像帧集合中的任一图像帧集合；

在步骤S303中，针对所述第一图像帧集合中的第一图像帧，分别将每个所述共享特征和所述第一图像帧的独有特征进行融合，确定训练目标特征；基于训练目标特征对所述第一图像帧进行语义分割，输出所述第一图像帧的多个语义分割结果；其中，所述第一图像帧为所述第一图像帧集合中任一图像帧；

在步骤S304中，基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型。

本实施例中，获取训练样本，其中，训练样本中包括多个图像帧集合，每个图像帧集合中包括多个图像帧，这多个图像帧中可以包括一个关键帧和与该关键帧关联的非关键帧。

识别训练样本的第一图像帧集合，其中，第一图像帧集合可以为训练样本中多个图像帧集合中的任一图像帧集合，可以通过识别训练样本中的关键帧来识别第一图像帧集合，在识别出关键帧的情况下，该关键帧加上该关键帧与下一个关键帧之间的非关键帧即为第一图像帧集合。

针对第一图像帧集合中的每个图像帧，均需要通过神经网络模型提取该图像帧的共享特征和独有特征，并将该第一图像帧集合中所有图像帧的共享特征和该图像帧的独有特征进行融合，得到该图像帧的训练目标特征，最终得到该图像帧的多个语义分割结果。然后，基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型。

具体的，参见图4，图4是神经网络模型的训练实现示意图，如图4所示，可以基于第一卷积层401分别对训练样本中第一图像帧集合中每个图像帧进行特征提取，得到每个图像帧的独有特征，并基于第二卷积层402分别对第一图像帧集合中每个图像帧进行特征提取，得到每个图像帧的共享特征。

其中，在特征传播过程中，针对第一图像帧，第一图像帧集合中其他图像帧的共享特征可以传播至第一图像帧，即第一图像帧可以共用其他图像帧的共享特征，同时，第一图像帧的共享特征也可以传播至其他图像帧，即其他图像帧可以共用第一图像帧的共享特征。其中，第一图像帧为第一图像帧集合中任一图像帧。

通过第三卷积层403将第一图像帧的独有特征和共享特征进行融合，并将其他图像帧的共享特征与该第一图像帧的独有特征进行融合，得到第一图像帧的训练目标特征。之后，对训练目标特征进行语义分割，得到第一图像帧的多个语义分割结果。

之后，基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型。具体的，所述基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型的步骤包括：

基于所述第三差异信息更新所述神经网络模型。

对于第一图像帧集合中每个图像帧的多个语义分割结果，均使用像素级别的语义分割标签对其进行约束和学习，具体的，使用交叉熵损失函数分别计算第一图像帧的每个语义分割结果与语义分割标签之间的交叉熵，获得多个交叉熵，在多个交叉熵收敛的情况下，更新得到进行视频语义分割的神经网络模型。

本实施例中，针对训练样本的图像帧集合中每个图像帧，通过分别基于第一卷积层401和第二卷积层402，提取每个图像帧的共享特征和独有特征，要求每个图像帧的共享特征可以用于其他图像帧的语义分割，将图像帧的共享特征分别与其他图像帧的独有特征进行融合，得到每个图像帧的训练目标特征，并基于每个图像帧的训练目标特征，得到每个图像帧的多个语义分割结果。进一步的，对每个图像帧的多个语义分割结果，使用像素级别的语义分割标签对其进行约束和学习，最终更新得到神经网络模型。如此，能够实现关键帧的共享特征和非关键帧的独有特征的解耦。

可选的，在训练过程中，为了使第二卷积层输出的每个图像帧的共享特征差异尽可能小，可以添加新的约束条件，所述方法还包括：

基于所述第二差异信息更新所述神经网络模型。

如图4所示，针对第一图像帧集合中第一图像帧，通过神经网络模型提取的第一图像帧集合中其他图像帧的共享特征可用于该第一图像帧，可以将第一图像帧的独有特征分别与第一图像帧集合中每个图像帧的共享特征进行融合，以用于产生该第一图像帧的多个语义分割结果。因此，对于第一图像帧集合中每个图像帧，使用神经网络模型对其提取的共享特征应该是相似的。基于这一点，在神经网络模型的训练过程中，可以在第二卷积层402中的共享特征提取层(如图4所示的第二卷积层402中的虚线框部分)添加新的约束条件，使得神经网络模型提取的第一图像帧集合中每个图像帧的共享特征都尽可能接近，即第二差异信息仅可能小。

在第二差异信息收敛的情况下，可更新得到最终的神经网络模型。之后，该神经网络模型即可以用于视频语义分割。

本实施例中，通过在共享特征提取层添加新的约束条件，使得图像帧集合中每个图像帧的共享特征之间都尽可能接近，从而可以使得关键帧的共享特征和非关键帧的独有特征的解耦更加彻底。

图5是根据一示例性实施例示出的一种视频语义分割装置的框图。参照图5，该装置包括第一获取模块501，第一识别模块502、第一提取模块503、第一确定模块504、第二识别模块505、第二提取模块506和第二确定模块507；其中，

第一获取模块501，被配置为执行获取第一视频；其中，所述第一视频包括关键帧和非关键帧；

第一识别模块502，被配置为执行识别所述第一视频的关键帧；

第一提取模块503，被配置为执行基于神经网络模型提取所述关键帧的第一独有特征和第一共享特征；

第一确定模块504，被配置为执行基于所述第一独有特征和第一共享特征确定第一目标特征，基于所述第一目标特征确定所述关键帧的语义分割结果；

第二识别模块505，被配置为执行识别所述第一视频中与所述关键帧对应的非关键帧；

第二提取模块506，被配置为执行基于所述神经网络模型提取所述非关键帧的第二独有特征；

第二确定模块507，被配置为执行基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于视频语义分割的神经网络模型训练装置的框图。参照图6，该装置包括第二获取模块601，第三识别模块602、第三确定模块603、融合模块604、语义分割模块605和第一更新模块606；其中，

第二获取模块601，被配置为执行获取训练样本；其中，所述训练样本包括多个图像帧集合，每个图像帧集合包括多个图像帧；

第三识别模块602，被配置为执行识别所述训练样本的第一图像帧集合；

第三确定模块603，被配置为执行针对所述第一图像帧集合中每个图像帧，基于神经网络模型确定所述图像帧的独有特征和共享特征；其中，所述第一图像帧集合为所述多个图像帧集合中的任一图像帧集合；

融合模块604，被配置为执行针对所述第一图像帧集合中的第一图像帧，分别将每个所述共享特征和所述第一图像帧的独有特征进行融合，确定训练目标特征；

语义分割模块605，被配置为执行基于训练目标特征对所述第一图像帧进行语义分割，输出所述第一图像帧的多个语义分割结果；其中，所述第一图像帧为所述第一图像帧集合中任一图像帧；

第一更新模块606，被配置为执行基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型。

可选的，所述装置还包括：

可选的，所述第一更新模块606，具体被配置为执行使用交叉熵损失函数分别获取所述第一图像帧的语义分割标签和所述第一图像帧的多个语义分割结果中每个语义分割结果的第三差异信息；基于所述第三差异信息更新所述神经网络模型。

图7是根据一示例性实施例示出的一种电子设备的框图，包括处理组件701，其进一步包括一个或多个处理器，以及由存储器702所代表的存储器资源，用于存储可由处理组件701的执行的指令，例如应用程序。存储器702中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件701被配置为执行指令，以执行上述视频语义分割方法，或者执行上述用于视频语义分割的神经网络模型训练方法。

电子设备700还可以包括一个电源组件703被配置为执行电子设备700的电源管理，一个有线或无线网络接口704被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口705。电子设备700可以操作基于存储在存储器702的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器702，上述指令可由电子设备700的处理组件701执行以完成上述视频语义分割方法，或者完成上述用于视频语义分割的神经网络模型训练方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频语义分割方法，其特征在于，包括：

识别所述第一视频中与所述关键帧对应的非关键帧，基于所述神经网络模型提取所述非关键帧的第二独有特征；基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果；

所述关键帧的第一独有特征用于表征所述关键帧的细节纹理信息，所述关键帧的第一共享特征用于表征所述关键帧的语义信息，所述非关键帧的第二独有特征用于表征所述非关键帧的细节纹理信息；通过神经网络模型中的相同卷积层提取所述关键帧的第一独有特征和所述非关键帧的第二独有特征，通过神经网络模型中的不同卷积层提取所述关键帧的第一独有特征和所述关键帧的第一共享特征。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括第一卷积层和第二卷积层，其中，所述第一卷积层用于确定所述关键帧的第一独有特征和所述非关键帧的第二独有特征，所述第二卷积层用于确定所述关键帧的第一共享特征。

3.一种用于视频语义分割的神经网络模型训练方法，其特征在于，包括：

基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型；

所述图像帧的独有特征用于表征所述图像帧的细节纹理信息，所述图像帧的共享特征用于表征所述图像帧的语义信息；通过神经网络模型的不同卷积层分别提取图像帧的共享特征和独有特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述第二差异信息更新所述神经网络模型。

5.根据权利要求3所述的方法，其特征在于，所述基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型的步骤包括：

基于所述第三差异信息更新所述神经网络模型。

6.一种视频语义分割装置，其特征在于，包括：

第一识别模块，被配置为执行识别所述第一视频的关键帧；

第二确定模块，被配置为执行基于所述第一共享特征和所述第二独有特征确定第二目标特征，基于所述第二目标特征确定所述非关键帧的语义分割结果；

7.根据权利要求6所述的装置，其特征在于，所述神经网络模型包括第一卷积层和第二卷积层，其中，所述第一卷积层用于确定所述关键帧的第一独有特征和所述非关键帧的第二独有特征，所述第二卷积层用于确定所述关键帧的第一共享特征。

8.一种用于视频语义分割的神经网络模型训练装置，其特征在于，包括：

第一更新模块，被配置为执行基于所述第一图像帧的语义分割标签及所述多个语义分割结果更新所述神经网络模型；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述第一更新模块，具体被配置为执行使用交叉熵损失函数分别获取所述第一图像帧的语义分割标签和所述第一图像帧的多个语义分割结果中每个语义分割结果的第三差异信息；基于所述第三差异信息更新所述神经网络模型。

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至2中任一项所述的视频语义分割方法，或者实现如权利要求3至5中任一项所述的用于视频语义分割的神经网络模型训练方法。

12.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至2中任一项所述的视频语义分割方法，或者执行如权利要求3至5中任一项所述的用于视频语义分割的神经网络模型训练方法。