CN111815638A

CN111815638A - 视频分割网络模型的训练方法、视频分割方法及相关设备

Info

Publication number: CN111815638A
Application number: CN202010626881.3A
Authority: CN
Inventors: 崔婵婕; 任宇鹏; 卢维
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-23
Anticipated expiration: 2040-07-01
Also published as: CN111815638B

Abstract

本申请提供了一种视频分割网络模型的训练方法、视频分割方法及相关设备。视频分割网络模型包括多个特征提取模块以及多个递归神经模块，特征提取模块和递归神经模块一一对应的，方法包括：利用单帧训练图像对特征提取模块进行训练；利用连续帧训练图像集对递归神经模块进行训练；其中，当前帧的递归神经模块的输入包括前一帧递归神经模块的输出以及当前帧的特征提取模块的输出。本申请的视频分割网络模型的训练方法提高了视频分割的准确性。

Description

视频分割网络模型的训练方法、视频分割方法及相关设备

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种视频分割网络模型的训练方法、视频分割方法及相关设备。

背景技术

视频语义分割的技术应用广泛，视频分割在自动驾驶、人机交互、计算摄影学、图像搜索引擎、增强现实等领域都越来越重要。近年来由于深度神经网络的发展，图像语义分割取得了较大进步。但图像语义分割仅仅考虑每帧图像的空间信息，对于视频语义分割来说，由于视频由连续的帧序列组成，在对视频进行语义分割时不仅要考虑到每帧图像的空间信息，还得考虑到帧间的时序信息。

现有技术中，采用注意力机制和深度可分离卷积构建神经网络，以在神经网络的基础上利用帧间的相关信息，并结合光流场的特征聚合算法，实现不同帧间的特征传播，但该视频分割方法存在误差积累，降低了分割的准确性。

发明内容

本申请提供了一种视频分割网络模型的训练方法、视频分割方法及相关设备，主要解决的技术问题是如何提高视频分割的准确性。

为解决上述技术问题，本申请提供了一种视频分割网络模型的训练方法，视频分割网络模型包括多个特征提取模块以及多个递归神经模块，所述特征提取模块和所述递归神经模块一一对应的，所述方法包括：

利用单帧训练图像对特征提取模块进行训练；

利用连续帧训练图像集对递归神经模块进行训练；其中，当前帧的递归神经模块的输入包括前一帧递归神经模块的输出以及当前帧的特征提取模块的输出。

根据本申请提供的一实施方式，所述特征提取模块和所述递归神经模块的输出为相同大小的特征层。

根据本申请提供的一实施方式，所述特征提取模块为残差网络，所述残差网络中最后两个下采样层为空洞卷积层。

根据本申请提供的一实施方式，所述残差网络中最后两个下采样层分别为膨胀系数为2和4的空洞卷积层。

根据本申请提供的一实施方式，所述多个特征提取模块的网络参数相同，所述多个递归神经模块的时序单元参数相同。

根据本申请提供的一实施方式，所述视频分割网络模型包括多个输出模块，所述输出模块与所述递归神经模块一一对应；

所述输出模块包括卷积层，以及所述卷积层之后的BatchNorm激活层和Relu激活层。

根据本申请提供的一实施方式，所述递归神经模块的卷积层为2048通道，所述输出模块的卷积层为512通道；所述输出模块的卷积层包括3×3的卷积核和1×1的卷积核。

为解决上述技术问题，本申请提供了一种视频分割方法，所述方法包括：

获取待分割的视频数据；

将所述待分割的视频数据输入到视频分割网络模型，获得所述视频数据的分割结果；

其中，所述视频分割网络模型为上述任一项所述的方法所训练的视频分割网络模型。

根据本申请提供的一实施方式，所述待分割的视频数据包括多帧待分割图像；所述将所述待分割的视频数据输入到视频分割网络模型，获得所述视频数据的分割结果，包括：

将每一帧待分割图像输入到一特征提取模块，得到特征图像；其中，多个特征提取模块同步提取输入的待分割图像；

将每一特征提取模块输出的特征图像输入到对应的一递归神经模块，以输出每一帧待分割图像的分割结果；其中递归神经模块的输入还包括前一递归神经模块输出的分割结果。

为解决上述技术问题，本申请提供了一种终端设备，所述设备包括存储器以及与所述存储器耦接的处理器；

所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如上述的视频分割网络模型的训练方法和/或上述的视频分割方法。

为解决上述技术问题，本申请还提供了一种计算机存储介质，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现如上述的视频分割网络模型的训练方法和/或上述的视频分割方法。

本申请通过利用单帧训练图像对特征提取模块进行训练，获取每帧训练图像的空间信息；利用连续帧训练图像集对递归神经模块进行训练，获取连续帧训练图像的时序信息，以根据获取的空间信息和时序信息对视频进行语义分割，避免了误差积累，提高了视频语义分割的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的视频分割网络模型的训练方法一实施例的流程示意图；

图2是图1所示的视频分割网络模型中模块的简易示意图；

图3是图1所示的视频分割网络模型中递归神经模块的简易结构示意图；

图4为本申请提供的视频分割方法的一实施例的流程示意图；

图5是本申请提供的视频分割方法中获取的待分割视频数据示意图；

图6是图5所示的视频分割方法中分割结果示意图；

图7是本申请提供的移动终端一实施例的结构示意图；

图8是本申请提供的计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提出了一种视频分割网络模型的训练方法，具体请参阅图1，图1是本申请提供的视频分割网络模型的训练方法一实施例的流程示意图。本实施例中视频分割网络模型的训练方法可以应用于自动驾驶的终端设备，也可应用于具有数据处理能力的服务器。本实施例的视频分割网络模型的训练方法具体包括以下步骤：

S101：利用单帧训练图像对特征提取模块进行训练。

视频分割网络模型包括多个特征提取模块、多个递归神经模块及多个输出模块，特征提取模块、递归神经模块及输出模块一一对应，具体可参阅图2，图2是图1所示的视频分割网络模型中模块的简易示意图。

由于连续视频帧的冗余性及数量的庞大性，为了避免直接对连续帧训练图像进行语义分割时影响视频分割结果，本申请通过利用单帧训练图像对特征提取模块进行训练，确定特征提取模块中的网络权重。具体地，通过将单帧训练图像输入图像语义分割网络模型中，采用交叉熵损失函数对图像语义分割网络模型进行监督，即以交叉熵损失函数变小为目标训练图像语义分割网络模型，直至满足要求。其中，图像语义分割网络模型为特征提取模块与输出模块的连接构成，图像语义分割网络模型可为卷积神经网络CNN(Convolutional Neural Networks)。

S102：利用连续帧训练图像集对递归神经模块进行训练。

基于S101中获取的特征提取模块的网络权重，利用连续帧训练图像集对递归神经网络模块进行训练，采用交叉熵损失函数对连续帧训练图像的分割结果进行监督。具体地，将S101中获取的特征提取模块的网络权重加入图2所示的视频分割网络模型中，利用连续帧训练图像集训练视频分割网络模型，以交叉熵损失函数变小为目标训练视频分割网络模型，直至满足要求。递归神经模块为长短期记忆网络LSTM(Long Short-Term Memory)。

为了充分利用连续帧训练图像集间的时序信息，利于将连续帧训练图像集中相同空间特征的不同类别对象区别开，本实施例递归神经模块中，当前帧的递归神经模块的输入包括前一帧递归神经模块的输出以及当前帧的特征提取模块的输出。

本实施例中，利用单帧训练图像对特征提取模块进行训练，获取每帧训练图像的空间信息，确定特征提取模块中的网络权重；利用连续帧训练图像集对递归神经模块进行训练，获取连续帧训练图像的时序信息，以便于根据获取的空间信息和时序信息对视频进行语义分割，避免了误差积累，提高了视频语义分割的准确性。

进一步地，为了避免特征提取模块在进行特征提取时导致单帧训练图像的分辨率下降，本实施例将特征提取模块最后两个下采样层替代为空洞卷积层，以保存较多的信息。具体地，特征提取模块可为残差网络，将残差网络中最后两个下采样层替换为空洞卷积层，并设置两个下采样层为膨胀系数为2和4的空洞卷积层。其中，多个特征提取模块的网络参数相同。

可参阅图3，图3是图1所示的视频分割网络模型中递归神经模块的简易结构示意图。对于递归神经模块，由两个卷积层拼接而成，分别为第一卷积层和第二层卷积层，多个递归神经模块之间的时序单元参数相同。每个递归神经模块的输入为前一时序的递归神经模块的输出和当前时序对应的特征提取模块的输出。

对于输出模块，输出模块包括多个卷积层，卷积层之后连接BatchNorm激活层和Relu激活层。输出模块的卷积层包括3×3的卷积核和1×1的卷积核，输出模块由3×3的卷积核和等类别数量通道的1×1的卷积核拼接而成。

请继续参阅图2，在具体实施例中，输入模块为3通道的RGB图像，与输入模块相连的特征提取模块的输入即为输入模块的输出，即3通道的RGB图像，特征提取模块的输出为2048通道的1/8原图大小的特征层；递归神经模块的输入为前一时序的递归神经模块的输出和当前时序对应的特征提取模块的输出，即递归神经模块的输出也为2048通道的1/8原图大小的特征层；输出模块的输入为递归神经模块的输出，即2048通道的1/8原图大小的特征层，输出模块的输出为当前帧的语义分割结果。

在具体实施例中，视频网络分割模型还包括语义分割模块，语义分割模块与输出模块一一对应，语义分割模块的输入为输出模块输出的语义分割结果，语义分割模块的输出为单帧训练图像的语义分割结果。

对于步骤S102中利用连续帧训练图像集对递归神经模块进行训练之前，需采集视频数据，并进行人工的语义分割结果标注，标注集分为单帧训练图像和连续帧训练图像。具体地，除标注单帧训练图像的语义分割结果外，只需标注少量视频语义分割结果，不需标注额外的光流信息，节省了人力物力。在具体实施例中，若无连续帧训练图像集时，可采用关键帧图像对递归神经模块进行训练，并采用交叉熵损失函数对连续帧训练图像的分割结果进行监督。

本实施例中，利用单帧训练图像对特征提取模块进行训练，获取每帧训练图像的空间信息，确定特征提取模块中的网络权重；利用连续帧训练图像集对递归神经模块进行训练，获取连续帧训练图像的时序信息，以便于根据获取的空间信息和时序信息对视频进行语义分割，避免了误差积累，提高了视频语义分割的准确性；将特征提取模块中最后两个下采样层替换为膨胀系数为2和4的空洞卷积层，避免特征提取模块在进行特征提取时导致单帧训练图像的分辨率下降。

在另一实施例中，可参阅图4，图4为本申请提供的视频分割方法的一实施例的流程示意图。本实施例视频分割方法可应用于上述视频分割网络模型的训练方法中训练所得的视频分割网络模型，从而提高视频分割的效率及准确性。下面以用于视频分割的服务器为例，介绍本申请提供的视频分割方法，本实施例视频分割方法具体包括以下步骤：

S201：获取待分割的视频数据。

S202：将待分割的视频数据输入到视频分割网络模型，获得视频数据的分割结果。

对于步骤S201和S202的实际应用场景可参阅图5和图6，图5是本申请提供的视频分割方法中获取的待分割视频数据示意图，图6是图5所示的视频分割方法中分割结果示意图。

在具体实施例中，将每一帧待分割图像输入到一特征提取模块，得到特征图像，将每一特征提取模块输出的特征图像输入到对应的一递归神经模块，以输出每一帧待分割图像的分割结果。为了提高视频分割的分割效率，本实施例利用多个特征提取模块同步提取输入的待分割图像的图像特征，即多个特征提取模块并行进行图像特征的提取，使得视频分割网络模型分割的总时长为特征提取模块的并行提取时间和递归神经模块运行时间之和，减少了视频分割运行总时长，提高了运行效率。其中，递归神经模块的输入为每一特征提取模块的输出以及前一递归神经网络模型的输出，递归神经模块利于提取连续帧训练图像集的时序信息，使得分割结果更加精确，在利用帧间时序信息的同时，又能保持帧间的空间信息，且所有帧的空间特征同步提取，提高了视频分割的效率。待分割的视频数据包括多帧待分割图像。

本实施例，获取待分割的视频数据，将待分割的视频数据输入到视频分割网络模型，获得视频数据的分割结果。本申请利用特征提取模块同步提取输入的待分割图像的图像特征，使得视频分割的运行总时长为特征提取模块并行提取的时长以及递归神经模型运行时长，减少了视频分割的总时长，提高了视频分割的效率。

为实现上述实施例的网络模型训练方法和/或视频分割方法，本申请提出了另一种终端设备，具体请参阅图7，图7是本申请提供的终端设备一实施例的结构示意图。

终端设备700包括存储器71和处理器72，其中，存储器71和处理器72耦接。

存储器71用于存储程序数据，处理器72用于执行程序数据以实现上述实施例的视频分割网络模型的训练方法和/或视频分割方法。

在本实施例中，处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器72也可以是任何常规的处理器等。

本申请还提供一种计算机存储介质800，如图8所示，计算机存储介质800用于存储程序数据81，程序数据81在被处理器执行时，用以实现如本申请方法实施例中所述的视频分割网络模型的训练方法和/或视频分割方法。

本申请的视频分割网络模型的训练方法和/或视频分割方法实施例中所涉及到的方法，在实现时以软件功能单元的形式存在并作为独立的产品销售或使用时，可以存储在装置中，例如一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频分割网络模型的训练方法，其特征在于，视频分割网络模型包括多个特征提取模块以及多个递归神经模块，所述特征提取模块和所述递归神经模块一一对应的，所述方法包括：

利用单帧训练图像对特征提取模块进行训练；

2.根据权利要求1所述的训练方法，其特征在于，所述特征提取模块和所述递归神经模块的输出为相同大小的特征层。

3.根据权利要求1所述的训练方法，其特征在于，所述特征提取模块为残差网络，所述残差网络中最后两个下采样层为空洞卷积层。

4.根据权利要求3所述的训练方法，其特征在于，所述残差网络中最后两个下采样层分别为膨胀系数为2和4的空洞卷积层。

5.根据权利要求1所述的训练方法，其特征在于，所述多个特征提取模块的网络参数相同，所述多个递归神经模块的时序单元参数相同。

6.根据权利要求1所述的训练方法，其特征在于，所述视频分割网络模型包括多个输出模块，所述输出模块与所述递归神经模块一一对应；

7.根据权利要求6所述的训练方法，其特征在于，所述递归神经模块的卷积层为2048通道，所述输出模块的卷积层为512通道；所述输出模块的卷积层包括3×3的卷积核和1×1的卷积核。

8.一种视频分割方法，其特征在于，所述方法包括：

获取待分割的视频数据；

其中，所述视频分割网络模型为权利要求1-7中任一项所述的方法所训练的视频分割网络模型。

9.根据权利要求8所述的视频分割方法，其特征在于，所述待分割的视频数据包括多帧待分割图像；所述将所述待分割的视频数据输入到视频分割网络模型，获得所述视频数据的分割结果，包括：

10.一种终端设备，其特征在于，所述设备包括存储器以及与所述存储器耦接的处理器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1～7任一项所述的视频分割网络模型的训练方法和/或权利要求8-9所述的视频分割方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1～7任一项所述的视频分割网络模型的训练方法和/或权利要求8-9所述的视频分割方法。