CN112784701B

CN112784701B - 一种视频语义分割方法、装置及存储介质

Info

Publication number: CN112784701B
Application number: CN202110001680.9A
Authority: CN
Inventors: 国显达; 张宸鸣
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2023-11-24
Anticipated expiration: 2041-01-04
Also published as: CN112784701A

Abstract

本公开提供了一种视频语义分割方法、装置及存储介质，此方法包括：使用多个训练样本对，对视频语义分割模型进行训练直至训练成功；多个训练样本对包括第一类训练样本对和第二类训练样本对，每个第二类训练样本对中的M组样本输入数据均包括相同的样本图像和全零掩码矩阵，目标掩码矩阵是相同的样本图像对应的参考掩码矩阵；根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵。通过模拟待处理视频的第一帧图像没有前一帧图像的情况，可以自动确定出待处理视频的第一帧图像的预测掩码矩阵，从而解决了实际工业应用中待分割视频的第一帧图像的掩码未知导致的无法进行视频语义分割的问题。

Description

一种视频语义分割方法、装置及存储介质

技术领域

本文涉及移动终端数据处理技术领域，尤其涉及一种视频语义分割方法、装置及存储介质。

背景技术

随着深度学习技术的发展，语义分割技术在各个数据集上取得了很大的突破，然而视频语义分割仍然是一个十分具有挑战性的任务。

语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签，视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。

相比于单张图像，视频数据本身有很强的帧冗余性和不确定性，如果把视频直接单帧地送入图像分割的模型中，会导致分割结果很不稳定。

近期，很多研究人员利用视频之间的时序信息来提高图像分割的精度。但是，很多论文或模型使用的测试数据默认视频第一帧的掩码是事先人为标注好的，并在此基础上得到视频的分割结果，在实际工业应用中，视频的第一帧图像的掩码是未知的。

发明内容

为克服相关技术中存在的问题，本文提供了一种视频语义分割方法、装置及介质。

根据本公开实施例的第一方面，提供一种视频语义分割方法，包括：

确定样本视频中每帧样本图像的参考掩码矩阵；

使用多个训练样本对，对视频语义分割模型进行训练直至训练成功；其中，每个训练样本对包括M组样本输入数据和一个目标掩码矩阵，每组样本输入数据包括一个样本图像和一个掩码矩阵；所述多个训练样本对包括第一类训练样本对和第二类训练样本对，每个第一类训练样本对的M组样本输入数据中第一组样本输入数据包括第一图像和第一掩码矩阵，第二组样本输入数据包括第二图像和第二掩码矩阵，第一图像和第二图像不同，并且第一掩码矩阵和第二掩码矩阵均是第二图像对应的参考掩码矩阵，目标掩码矩阵是第一图像对应的参考掩码矩阵；每个第二类训练样本对中的M组样本输入数据均包括相同的样本图像和全零掩码矩阵，目标掩码矩阵是所述相同的样本图像对应的参考掩码矩阵；M是大于1的整数；

根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵；

根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵；

根据待处理视频的各帧图像的预测掩码矩阵对待处理视频进行语义分割。

在一实施方式中，M大于2时，每个第一类训练样本对中的M组样本输入数据中除第一组样本输入数据和第二组样本输入数据之外的其它组样本输入数据包括一样本图像和对应的参考掩码矩阵。

在一实施方式中，所述第二类训练样本对包含的训练样本对的数量，占所述第二类训练样本对包含的训练样本对的数量与所述第一类训练样本对包含的训练样本对的数量之和的比例，是设定概率。

在一实施方式中，所述使用多个训练样本对，对视频语义分割模型进行训练直至训练成功，包括：循环执行以下过程直至对视频语义分割模型训练成功；

以设定概率确定待构建的训练样本对中的掩码矩阵是否设置为全零掩码矩阵；

如果是，从所述样本视频中随机选择一个样本图像，根据选择出的样本图像和全零掩码矩阵，构建一个第二类训练样本对；

如果否，从所述样本视频中选择M个样本图像，确定M个样本图像中每个样本图像对应的参考掩码矩阵，根据选择出的M个样本图像和对应的参考掩码矩阵，构建一个第一类训练样本对；

使用构建出的训练样本对，对视频语义分割模型进行训练。

在一实施方式中，所述使用多个训练样本对，对视频语义分割模型进行训练直至训练成功，包括：

循环执行以下过程直至对视频语义分割模型训练成功；

从所述样本视频中选择M个样本图像；

如果是，从所述M个样本图像中选择一个样本图像，根据选择出的样本图像和全零掩码矩阵，构建一个第二类训练样本对；

如果否，确定所述M个样本图像中每个图像帧对应的参考掩码矩阵，根据选择出的M个样本图像和对应的参考掩码矩阵，构建一个第一类训练样本对；

使用构建出的训练样本对，对视频语义分割模型进行训练。

以设定概率确定所述第一类训练样本对包含的训练样本对的数量与所述第二类训练样本对包含的训练样本对的数量的比例，根据所述比例确定所述第一类训练样本对和所述第二类训练样本对；

使用确定出的多个训练样本对，对视频语义分割模型进行训练直至训练成功。

在一实施方式中，所述根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵，包括：

构建M对相同的输入数据，每对输入数据均包括待处理视频的第一帧图像和全零掩码矩阵；

将所述M对输入数据依次输入所述训练后的视频语义分割模型，将所述训练后的视频语义分割模型的输出结果作为待处理视频的第一帧图像的预测掩码矩阵。

在一实施方式中，所述根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵，包括：M为2时，根据待处理视频的第i-1帧图像的预测掩码矩阵确定待处理视频的第i帧图像的预测掩码矩阵，i是大于或等于2的整数；

M为2时，所述根据待处理视频的第i-1帧图像的预测掩码矩阵确定待处理视频的第i帧图像的预测掩码矩阵，包括：

构建2对输入数据，第1对输入数据包括待处理视频的第i帧图像以及第i-1帧图像对应的预测掩码矩阵，第2对输入数据包括待处理视频的第i-1帧图像以及第i-1帧图像对应的预测掩码矩阵，将所述2对输入数据输入至训练后的视频语义分割模型，获得输出结果，将所述输出结果作为所述第i帧图像的预测掩码矩阵。

在一实施方式中，所述根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵，包括：

M大于2时，根据待处理视频的第一帧图像的预测掩码矩阵确定待处理视频的第N帧图像的预测掩码矩阵，N大于或等于2并且小于M；

根据待处理视频的前M-1帧图像的预测掩码矩阵确定待处理视频的第M帧图像的预测掩码矩阵；

根据待处理视频的前P-1帧图像的预测掩码矩阵确定待处理视频的第P帧图像的预测掩码矩阵，P是大于M的整数。

在一实施方式中，所述根据待处理视频的第一帧图像的预测掩码矩阵确定待处理视频的第N帧图像的预测掩码矩阵，包括：

构建M对输入数据，前2对输入数据中，第1对输入数据包括待处理视频的第N帧图像以及第N-1帧图像的预测掩码矩阵，第2对输入数据包括待处理视频的第N-1帧图像以及第N-1帧图像的预测掩码矩阵，第3至第M对输入数据中，均包括待处理视频的第N-1帧图像以及第N-1帧图像的预测掩码矩阵；

所述根据待处理视频的前M-1帧图像的预测掩码矩阵确定待处理视频的第M帧图像的预测掩码矩阵，包括：

构建M对输入数据，前2对输入数据中，第1对输入数据包括待处理视频的第M帧图像以及第M-1帧图像的预测掩码矩阵，第2对输入数据包括待处理视频的第M-1帧图像以及第M-1帧图像的预测掩码矩阵，第3至第M对输入数据中的第j对输入数据包括待处理视频的第M-j+1帧图像以及第M-j+1帧图像的预测掩码矩阵,j是大于或等于3并且小于或等于M的整数；

所述根据待处理视频的前P-1帧图像的预测掩码矩阵确定待处理视频的第P帧图像的预测掩码矩阵，包括：

构建M对输入数据，前2对输入数据中，第1对输入数据包括待处理视频的第P帧图像以及第P-1帧图像的预测掩码矩阵，第2对输入数据包括待处理视频的第P-1帧图像以及第P-1帧图像的预测掩码矩阵，第3至第M对输入数据中的第k对输入数据包括待处理视频的第P-k+1帧图像以及第P-k+1帧图像的预测掩码矩阵,k是大于或等于3并且小于或等于M的整数。

根据本公开实施例的第二方面，提供了一种视频语义分割装置，包括：

第一确定模块，被配置为确定样本视频中每个样本图像的参考掩码矩阵；

训练模块，被配置为使用多个训练样本对，对视频语义分割模型进行训练直至训练成功；其中，每个训练样本对包括M组样本输入数据和一个目标掩码矩阵，每组样本输入数据包括一个样本图像和一个掩码矩阵；所述多个训练样本对包括第一类训练样本对和第二类训练样本对，每个第一类训练样本对的M组样本输入数据中第一组样本输入数据包括第一图像和第一掩码矩阵，第二组样本输入数据包括第二图像和第二掩码矩阵，第一图像和第二图像不同，并且第一掩码矩阵和第二掩码矩阵均是第二图像对应的参考掩码矩阵，目标掩码矩阵是第一图像对应的参考掩码矩阵；每个第二类训练样本对中的M组样本输入数据均包括相同的样本图像和全零掩码矩阵，目标掩码矩阵是所述相同的样本图像对应的参考掩码矩阵；M是大于1的整数；

第二确定模块，被配置为根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵；

第三确定模块，被配置为根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵；

分割模块，被配置为根据待处理视频的各帧图像的预测掩码矩阵对待处理视频进行语义分割。

在一实施方式中，M大于2时，每个第一类训练样本对中的M组样本输入数据中除第一组样本输入数据和第二组样本输入数据之外的其它组样本输入数据，均包括一样本图像和对应的参考掩码矩阵。

在一实施方式中，所述第二类训练样本对包含的训练样本对的数量占所述第二类训练样本对包含的训练样本对的数量与所述第一类训练样本对包含的训练样本对的数量之和的比例，是设定概率。

在一实施方式中，所述训练模块，还被配置为根据以下方法使用多个训练样本对，对视频语义分割模型进行训练直至训练成功：

循环执行以下过程直至对视频语义分割模型训练成功；

使用构建出的训练样本对，对视频语义分割模型进行训练。

循环执行以下过程直至对视频语义分割模型训练成功；

从所述样本视频中选择M个样本图像；

使用构建出的训练样本对，对视频语义分割模型进行训练。

在一实施方式中，所述第二确定模块，还被配置为使用以下方法根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵：

在一实施方式中，所述第二确定模块，还被配置为使用以下方法根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵：M为2时，根据待处理视频的第i-1帧图像的预测掩码矩阵确定待处理视频的第i帧图像的预测掩码矩阵，i是大于或等于2的整数；

在一实施方式中，所述第二确定模块，还被配置为根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵：

根据本公开实施例的第三方面，提供了一种视频语义分割装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中的可执行指令以实现所述方法的步骤。

根据本公开实施例的第四方面，提供了一种非临时性计算机可读存储介质，其上存储有可执行指令，该可执行指令被处理器执行时实现所述方法的步骤。

本文的实施例提供的技术方案可以包括以下有益效果：设置两种类型的训练样本对，第一类训练样本对中的掩码矩阵包括图像帧的参考掩码矩阵，第二类训练样本对中的掩码矩阵包括全零掩码矩阵，以模拟待处理视频的第一帧图像没有前一帧图像的情况，训练后的视频语义分割模型可以自动确定出待处理视频的第一帧图像的预测掩码矩阵，并根据第一帧图像的预测掩码矩阵依次预测其它帧的预测掩码矩阵，根据各个帧的预测掩码矩阵进行后续的视频语义分割，从而解决了待分割视频的第一帧图像的掩码未知导致的无法进行视频语义分割的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本文。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本文的实施例，并与说明书一起用于解释本文的原理。

图1是根据一示例性实施例示出的一种视频语义分割方法的流程图；

图2是根据一示例性实施例示出的一种训练过程的示意图；

图3是根据一示例性实施例示出的一种训练过程的示意图；

图4是根据一示例性实施例示出的一种训练过程的示意图；

图5是根据一示例性实施例示出的一种预测过程的示意图；

图6是根据一示例性实施例示出的一种预测过程的示意图；

图7是根据一示例性实施例示出的一种预测过程的示意图；

图8是根据一示例性实施例示出的一种训练过程的示意图；

图9是根据一示例性实施例示出的一种训练过程的示意图；

图10是根据一示例性实施例示出的一种预测过程的示意图；

图11是根据一示例性实施例示出的一种预测过程的示意图；

图12是根据一示例性实施例示出的一种预测过程的示意图；

图13是根据一示例性实施例示出的一种预测过程的示意图；

图14是根据一示例性实施例示出的一种视频语义分割装置的结构图；

图15是根据一示例性实施例示出的一种视频语义分割装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。

本公开实施例中提供一种视频语义分割方法。参照图1，图1是根据一示例性实施例示出的一种视频语义分割方法的流程图。如图1所示，此方法包括：

步骤S11，确定样本视频中每帧样本图像的参考掩码矩阵；

步骤S12，使用多个训练样本对，对视频语义分割模型进行训练直至训练成功；其中，每个训练样本对包括M组样本输入数据和一个目标掩码矩阵，每组样本输入数据包括一个样本图像和一个掩码矩阵；所述多个训练样本对包括第一类训练样本对和第二类训练样本对，每个第一类训练样本对的M组样本输入数据中第一组样本输入数据包括第一图像和第一掩码矩阵，第二组样本输入数据包括第二图像和第二掩码矩阵，第一图像和第二图像不同，并且第一掩码矩阵和第二掩码矩阵均是第二图像对应的参考掩码矩阵，目标掩码矩阵是第一图像对应的参考掩码矩阵；每个第二类训练样本对中的M组样本输入数据均包括相同的样本图像和全零掩码矩阵，目标掩码矩阵是所述相同的样本图像对应的参考掩码矩阵；M是大于1的整数。

步骤S13，根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵。

步骤S14，根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵。

步骤S15,根据待处理视频的各帧图像的预测掩码矩阵对待处理视频进行语义分割。

在一实施方式中，步骤S11中的样本视频包括多个视频段，例如：样本视频包括3000个视频段，每个视频段包括60帧连续的图像帧。

步骤S12中M组样本输入数据中包含的M个图像帧是样本视频中的任意的不连续的M个图像帧，或者是样本视频中的任意的连续的M个图像帧。M是2，或者3，或者4，或者更大的数值。

在一实施方式中，第二类训练样本对包含的训练样本对的数量，占所述第二类训练样本对包含的训练样本对的数量与所述第一类训练样本对包含的训练样本对的数量之和的比例，是设定概率，即以设定概率设置包括具有全零掩码矩阵的训练样本对在所有训练样本中所占的比重。

本实施例中，设置两种类型的训练样本对，第一类训练样本对中的掩码矩阵包括图像帧的参考掩码矩阵，第二类训练样本对中的掩码矩阵包括全零掩码矩阵，以模拟待处理视频的第一帧图像没有前一帧图像的情况，训练后的视频语义分割模型可以自动确定出待处理视频的第一帧图像的预测掩码矩阵，并根据第一帧图像的预测掩码矩阵依次预测其它帧的预测掩码矩阵，根据各个帧的预测掩码矩阵进行后续的视频语义分割，从而解决了待分割视频的第一帧图像的掩码未知导致的无法进行视频语义分割的问题。

本公开实施例中提供一种视频语义分割方法，此方法包括图1所示方法，并且：步骤S12中使用多个训练样本对，对视频语义分割模型进行训练直至训练成功，包括：

步骤1，以设定概率确定待构建的训练样本对中的掩码矩阵是否设置为全零掩码矩阵；

步骤2，使用构建出的训练样本对，对视频语义分割模型进行训练。

在一实施方式中，从所述样本视频中选择M个样本图像是指从所述样本视频中随机选择一个视频段，从此视频段中随机选择出M个样本图像。例如：从样本视频中的3000个视频段中随机选择出一个视频段，从此视频段中随机选择出M个样本图像。

其中，设定概率是指将待构建的训练样本对中的掩码矩阵设置为全零掩码矩阵的概率。

例如设定概率是10％时，待构建的训练样本中的掩码矩阵设置为全零掩码矩阵的概率是10％，在整个训练过程中构建出的所有训练样本对中，第一类训练样本对中的训练样本对的数量占90％，第二类训练样本对中的训练样本对的数量占10％。例如构建出的所有训练样本对的数量是1000，第一类训练样本对包含的训练样本对的数量是900，第二类训练样本对包含的训练样本对的数量是100。

本实施例中，实时生成训练样本对并根据生成的训练样本对进行训练，并且先根据设定概率判断待构建的训练样本对中的掩码矩阵是否设置全零掩码矩阵，根据判断的结果确定生成第一类训练本对还是第二类训练样本对，生成相应的训练本对后使用生成的训练本对进行训练，直至对视频语义分割模型训练完成。

循环执行以下过程直至对视频语义分割模型训练成功；

步骤1，从所述样本视频中选择M个样本图像；

步骤2，以设定概率确定待构建的训练样本对中的掩码矩阵是否设置为全零掩码矩阵；

步骤3，使用构建出的训练样本对，对视频语义分割模型进行训练。

本实施例中，实时生成训练样本对并根据生成的训练样本对进行训练，并且先从样本视频中选择出M个图像帧，再根据设定概率判断待构建的训练样本对中的掩码矩阵是否设置全零掩码矩阵，根据判断的结果确定生成第一类训练本对还是第二类训练样本对，生成相应的训练本对后使用生成的训练本对进行训练，直至对视频语义分割模型训练完成。

步骤1，以设定概率确定所述第一类训练样本对包含的训练样本对的数量与所述第二类训练样本对包含的训练样本对的数量的比例，根据所述比例确定所述第一类训练样本对和所述第二类训练样本对；

步骤2，使用确定出的多个训练样本对，对视频语义分割模型进行训练直至训练成功。

本实施例中与上两个实施例的区别是，事先确定好所有训练样本对，其中的掩码矩阵是使用设定概率进行实时置零处理的，统一使用样本集合进行训练，本实施例和上两个实施例均可以成功完成训练。

本公开实施例中提供一种视频语义分割方法，此方法包括图1所示方法，并且：步骤S13，根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵，包括：

本公开实施例中提供一种视频语义分割方法，此方法包括图1所示方法，并且：在M为2的情况下，步骤S14中根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵，包括：根据待处理视频的第i-1帧图像的预测掩码矩阵确定待处理视频的第i帧图像的预测掩码矩阵，i是大于或等于2的整数，具体包括：

本公开实施例中提供一种视频语义分割方法，此方法包括图1所示方法，并且：在M大于2的情况下，步骤S14中根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵，包括：

步骤S14-1，根据待处理视频的第一帧图像的预测掩码矩阵确定待处理视频的第N帧图像的预测掩码矩阵，N大于或等于2并且小于M；

步骤S14-2，根据待处理视频的前M-1帧图像的预测掩码矩阵确定待处理视频的第M帧图像的预测掩码矩阵；

步骤S14-3，根据待处理视频的前P-1帧图像的预测掩码矩阵确定待处理视频的第P帧图像的预测掩码矩阵，P是大于M的整数。

其中，步骤S14-1,根据待处理视频的第一帧图像的预测掩码矩阵确定待处理视频的第N帧图像的预测掩码矩阵，包括：

构建M对输入数据，前2对输入数据中，第1对输入数据包括待处理视频的第N帧图像以及第N-1帧图像的预测掩码矩阵，第2对输入数据包括待处理视频的第N-1帧图像以及第N-1帧图像的预测掩码矩阵，第3至第M对输入数据中，均包括待处理视频的第N-1帧图像以及第N-1帧图像的预测掩码矩阵。

步骤S14-2，根据待处理视频的前M-1帧图像的预测掩码矩阵确定待处理视频的第M帧图像的预测掩码矩阵，包括：

构建M对输入数据，前2对输入数据中，第1对输入数据包括待处理视频的第M帧图像以及第M-1帧图像的预测掩码矩阵，第2对输入数据包括待处理视频的第M-1帧图像以及第M-1帧图像的预测掩码矩阵，第3至第M对输入数据中的第j对输入数据包括待处理视频的第M-j+1帧图像以及第M-j+1帧图像的预测掩码矩阵,j是大于或等于3并且小于或等于M的整数。

步骤S14-3中根据待处理视频的前P-1帧图像的预测掩码矩阵确定待处理视频的第P帧图像的预测掩码矩阵，包括：

下面通过具体实施例进行详细说明。

具体实施例一

M的值是2。

样本视频共包括100帧样本图像，设定概率为10％。使用设定概率确定待构建的训练样本对是否需要设置全零掩码矩阵。具体的，产生一个0至1范围内的随机数，产生的随机数位于0.9至1的范围内时，确定需要设置全零掩码矩阵，产生的随机数位于0至0.9的范围内时，确定不需要设置全零掩码矩阵。

确定样本视频中每帧样本图像对应的参考掩码矩阵。

使用设定概率确定第一个待构建的训练样本对是否需要设置全零掩码矩阵，确定结果为不需要设置全零掩码矩阵。

从样本视频中任意选择2帧样本图像。选择出的两个相邻的样本图像是样本视频中的第1帧样本图像和第2帧样本图像。

如图2所示，构建训练输入数据，训练输入数据包括第一对数据和第二对数据。第一对数据包括第2帧样本图像，还包括第1帧样本图像的参考掩码矩阵，构建第二对数据包括第1帧样本图像，还包括第1帧样本图像的参考掩码矩阵。确定训练目标是第2帧样本图像的参考掩码矩阵。根据训练输入数据和训练目标对视频语义分割模型进行训练。其中的融合是指将样本图像和掩码矩阵依次排序成一个数据序列。

使用设定概率确定第二个待构建的训练样本对是否需要设置全零掩码矩阵，确定结果为不需要全零掩码矩阵。

从样本视频中任意选择2帧图像。选择出的两个相邻的样本图像是样本视频中的第5帧样本图像和第6帧样本图像。

如图3所示，构建训练输入数据，训练输入数据包括第一对数据和第二对数据，第一对数据包括第6帧样本图像，还包括第5帧样本图像的掩码矩阵，第二对数据包括第5帧样本图像，还包括第5帧样本图像的参考掩码矩阵。确定训练目标是第6帧样本图像的掩码矩阵。根据训练输入数据和训练目标对视频语义分割模型进行训练。

使用设定概率确定第三个待构建的训练样本对是否需要全零掩码矩阵，确定结果为需要设置全零掩码矩阵。

从样本视频中选择1帧样本图像。选择出的样本图像是样本视频中的第10帧样本图像。第10帧样本图像对应的掩码矩阵是第10个掩码矩阵。

如图4所示，构建训练输入数据，训练输入数据包括第一对数据和第二对数据，第一对数据和第二对数据相同，均是第10帧图像和全零掩码矩阵。确定训练目标是第10帧图像的掩码矩阵。根据训练输入数据和训练目标对视频语义分割模型进行训练。

以此类推，直至训练成功。

使用训练后的视频语义分割模型，生成待处理视频的第一帧图像的掩码矩阵时，如图5所示，针对待处理视频，构建第一对数据和第二对数据，第一对数据和所述第二对数据均包括待处理视频的第1帧图像和全零掩码矩阵；将所述第一对数据和所述第二对数据依次输入所述训练后的视频语义分割模型，将所述训练后的视频语义分割模型的输出结果作为待处理视频的第1帧图像的预测掩码矩阵。

生成待处理视频的第2帧图像的预测掩码矩阵时，如图6所示，针对待处理视频，构建第一对数据包括第2帧图像，还包括第1帧图像的预测掩码矩阵，构建第二对数据包括第1帧图像，还包括第1帧图像的预测掩码矩阵，将第一对数据和第二对数据依次输入所述训练后的视频语义分割模型，获得训练后的视频语义分割模型的输出结果，将此输出结果作为第2帧图像对应的预测掩码矩阵。

生成待处理视频的第2帧图像之后的各帧图像的预测掩码矩阵时，如图7所示，设置i的值为3，循环执行以下步骤1至步骤3直至获取到所需的各图像帧的预测掩码矩阵：

步骤1，构建第一对数据包括第i帧图像，还包括第i-1帧图像对应的预测掩码矩阵，构建第二对数据包括第i-1帧图像，还包括第i-1帧图像对应的预测掩码矩阵。

步骤2，将第一对数据和第二对数据输入所述训练后的视频语义分割模型，获得视频语义分割模型的输出结果，此输出结果作为第i帧图像的预测掩码矩阵。

步骤3，使i的值自加1。

根据获得的各帧图像的预测掩码矩阵进行视频语义分割。

具体实施例二

M的值是3。

确定样本视频中每帧图像对应的掩码矩阵。

从样本视频中任意选择3帧样本图像。选择出的样本图像是样本视频中的第1帧样本图像、第4帧样本图像和第9帧样本图像。

如图8所示，构建训练输入数据，训练输入数据包括3对数据。第一对数据包括第9帧样本图像，还包括第4帧样本图像的参考掩码矩阵；第二对数据包括第4帧样本图像，还包括第4帧样本图像的参考掩码矩阵；第三对数据包括第1帧样本图像，还包括第1帧图像的参考掩码矩阵。确定训练目标是第9帧图像的参考掩码矩阵。根据训练输入数据和训练目标对视频语义分割模型进行训练。

使用设定概率确定第二个待构建的训练样本对是否需要全零掩码矩阵，确定结果为需要设置全零掩码矩阵。

从样本视频中选择1帧样本图像。选择出的样本图像是样本视频中的第10帧样本图像。

如图9所示，构建训练输入数据，训练输入数据包括相同的第一对数据、第二对数据和第三对数据，此三对数据均包括第10帧样本图像和全零掩码矩阵。确定训练目标是第10帧图像的参考掩码矩阵。根据训练输入数据和训练目标对视频语义分割模型进行训练。

以此类推，直至训练成功。

使用训练后的视频语义分割模型，生成待处理视频的第1帧图像的掩码矩阵时，如图10所示，针对待处理视频，构建第一对数据、第二对数据和第三对数据。此三对数据均包括待处理视频的第1帧图像和全零掩码矩阵。将第一对数据、第二对数据和第三对数据依次输入所述训练后的视频语义分割模型，将所述训练后的视频语义分割模型的输出结果作为待处理视频的第1帧图像的预测掩码矩阵。

生成待处理视频的第2帧图像的预测掩码矩阵时，如图11所示，针对待处理视频，构建3对数据。第一对数据包括第2帧图像，还包括第1帧图像的预测掩码矩阵；第二对数据包括第1帧图像，还包括第1帧图像的预测掩码矩阵；第三对数据包括第1帧图像，还包括第1帧图像的预测掩码矩阵。将第一对数据、第二对数据和第三对数据依次输入所述训练后的视频语义分割模型，获得训练后的视频语义分割模型的输出结果，将此输出结果作为第2帧图像对应的预测掩码矩阵。

生成待处理视频的第3帧图像之后的各帧图像的预测掩码矩阵时，如图12所示，设置k的值为3，循环执行以下步骤1至步骤3直至获取到所需的各图像帧的预测掩码矩阵：

步骤1，构建第一对数据包括第k帧图像，还包括第k-1帧图像对应的预测掩码矩阵，构建第二对数据包括第k-1帧图像，还包括第k-1帧图像对应的预测掩码矩阵，构建第三对数据包括第k-2帧图像，还包括第k-2帧图像对应的预测掩码矩阵，

步骤2，将第一对数据、第二对数据和第三对数据输入所述训练后的视频语义分割模型，获得视频语义分割模型的输出结果，此输出结果作为第k帧图像的预测掩码矩阵。

步骤3，使k的值自加1。

例如：生成待处理视频的第3帧图像的预测掩码矩阵时，如图13所示，针对待处理视频，构建3对数据。第一对数据包括第3帧图像，还包括第2帧图像的预测掩码矩阵；第二对数据包括第2帧图像，还包括第2帧图像的预测掩码矩阵；第三对数据包括第1帧图像，还包括第1帧图像的预测掩码矩阵。将第一对数据、第二对数据和第三对数据依次输入所述训练后的视频语义分割模型，获得训练后的视频语义分割模型的输出结果，将此输出结果作为第3帧图像对应的预测掩码矩阵。

根据获得的各帧图像的预测掩码矩阵进行视频语义分割。

本公开实施例中提供一种视频语义分割装置。参照图14，图14是根据一示例性实施例示出的一种视频语义分割装置的结构图。如图14所示，此装置包括：

第一确定模块1401，被配置为确定样本视频中每个样本图像的参考掩码矩阵；

训练模块1402，被配置为使用多个训练样本对，对视频语义分割模型进行训练直至训练成功；其中，每个训练样本对包括M组样本输入数据和一个目标掩码矩阵，每组样本输入数据包括一个样本图像和一个掩码矩阵；所述多个训练样本对包括第一类训练样本对和第二类训练样本对，每个第一类训练样本对的M组样本输入数据中第一组样本输入数据包括第一图像和第一掩码矩阵，第二组样本输入数据包括第二图像和第二掩码矩阵，第一图像和第二图像不同，并且第一掩码矩阵和第二掩码矩阵均是第二图像对应的参考掩码矩阵，目标掩码矩阵是第一图像对应的参考掩码矩阵；每个第二类训练样本对中的M组样本输入数据均包括相同的样本图像和全零掩码矩阵，目标掩码矩阵是所述相同的样本图像对应的参考掩码矩阵；M是大于1的整数；

第二确定模块1403，被配置为根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵；

第三确定模块1404，被配置为根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵；

分割模块1405，被配置为根据待处理视频的各帧图像的预测掩码矩阵对待处理视频进行语义分割。

循环执行以下过程直至对视频语义分割模型训练成功；

使用构建出的训练样本对，对视频语义分割模型进行训练。

循环执行以下过程直至对视频语义分割模型训练成功；

从所述样本视频中选择M个样本图像；

使用构建出的训练样本对，对视频语义分割模型进行训练。

图15是根据一示例性实施例示出的一种视频语义分割装置1500的框图。例如，装置1500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图15，装置1500可以包括以下一个或多个组件：处理组件1502，存储器1504，电力组件1506，多媒体组件1508，音频组件1510，输入/输出(I/O)的接口1512，传感器组件1514，以及通信组件1516。

处理组件1502通常控制装置1500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1502可以包括一个或多个模块，便于处理组件1502和其他组件之间的交互。例如，处理组件1502可以包括多媒体模块，以方便多媒体组件1508和处理组件1502之间的交互。

存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1506为装置1500的各种组件提供电力。电力组件1506可以包括电源管理系统，一个或多个电源，及其他与为装置1500生成、管理和分配电力相关联的组件。

多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1510被配置为输出和/或输入音频信号。例如，音频组件1510包括一个麦克风(MIC)，当装置1500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中，音频组件1510还包括一个扬声器，用于输出音频信号。

I/O接口1512为处理组件1502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1514包括一个或多个传感器，用于为装置1500提供各个方面的状态评估。例如，传感器组件1514可以检测到设备1500的打开/关闭状态，组件的相对定位，例如所述组件为装置1500的显示器和小键盘，传感器组件1514还可以检测装置1500或装置1500一个组件的位置改变，用户与装置1500接触的存在或不存在，装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1504，上述指令可由装置1500的处理器1520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本文的真正范围和精神由下面的权利要求指出。

应当理解的是，本文并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本文的范围仅由所附的权利要求来限制。

Claims

1.一种视频语义分割方法，其特征在于，包括：

确定样本视频中每帧样本图像的参考掩码矩阵；

2.如权利要求1所述的方法，其特征在于，

M大于2时，每个第一类训练样本对中的M组样本输入数据中除第一组样本输入数据和第二组样本输入数据之外的其它组样本输入数据包括一样本图像和对应的参考掩码矩阵。

3.如权利要求1所述的方法，其特征在于，

所述第二类训练样本对包含的训练样本对的数量，占所述第二类训练样本对包含的训练样本对的数量与所述第一类训练样本对包含的训练样本对的数量之和的比例，是设定概率。

4.如权利要求1所述的方法，其特征在于，

所述使用多个训练样本对，对视频语义分割模型进行训练直至训练成功，包括：循环执行以下过程直至对视频语义分割模型训练成功；

使用构建出的训练样本对，对视频语义分割模型进行训练。

5.如权利要求1所述的方法，其特征在于，

所述使用多个训练样本对，对视频语义分割模型进行训练直至训练成功，包括：

循环执行以下过程直至对视频语义分割模型训练成功；

从所述样本视频中选择M个样本图像；

使用构建出的训练样本对，对视频语义分割模型进行训练。

6.如权利要求1所述的方法，其特征在于，

7.如权利要求1所述的方法，其特征在于，

所述根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵，包括：

8.如权利要求1所述的方法，其特征在于，

所述根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵，包括：M为2时，根据待处理视频的第i-1帧图像的预测掩码矩阵确定待处理视频的第i帧图像的预测掩码矩阵，i是大于或等于2的整数；

9.如权利要求1所述的方法，其特征在于，

所述根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵，包括：

10.如权利要求9所述的方法，其特征在于，

所述根据待处理视频的第一帧图像的预测掩码矩阵确定待处理视频的第N帧图像的预测掩码矩阵，包括：

11.一种视频语义分割装置，其特征在于，包括：

12.如权利要求11所述的装置，其特征在于，

M大于2时，每个第一类训练样本对中的M组样本输入数据中除第一组样本输入数据和第二组样本输入数据之外的其它组样本输入数据，均包括一样本图像和对应的参考掩码矩阵。

13.如权利要求11所述的装置，其特征在于，

所述第二类训练样本对包含的训练样本对的数量占所述第二类训练样本对包含的训练样本对的数量与所述第一类训练样本对包含的训练样本对的数量之和的比例，是设定概率。

14.如权利要求11所述的装置，其特征在于，

所述训练模块，还被配置为根据以下方法使用多个训练样本对，对视频语义分割模型进行训练直至训练成功：

循环执行以下过程直至对视频语义分割模型训练成功；

使用构建出的训练样本对，对视频语义分割模型进行训练。

15.如权利要求11所述的装置，其特征在于，

循环执行以下过程直至对视频语义分割模型训练成功；

从所述样本视频中选择M个样本图像；

使用构建出的训练样本对，对视频语义分割模型进行训练。

16.如权利要求11所述的装置，其特征在于，

17.如权利要求11所述的装置，其特征在于，

所述第二确定模块，还被配置为使用以下方法根据训练后的视频语义分割模型确定待处理视频的第一帧图像的预测掩码矩阵：

18.如权利要求11所述的装置，其特征在于，

所述第二确定模块，还被配置为使用以下方法根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵：M为2时，根据待处理视频的第i-1帧图像的预测掩码矩阵确定待处理视频的第i帧图像的预测掩码矩阵，i是大于或等于2的整数；

19.如权利要求11所述的装置，其特征在于，

所述第二确定模块，还被配置为根据待处理视频的第一帧图像的预测掩码矩阵确定其它帧图像的预测掩码矩阵：

20.如权利要求11所述的装置，其特征在于，

21.一种视频语义分割装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中的可执行指令以实现权利要求1至10中任一项所述方法的步骤。

22.一种非临时性计算机可读存储介质，其上存储有可执行指令，其特征在于，该可执行指令被处理器执行时实现权利要求1至10中任一项所述方法的步骤。