CN111210446B

CN111210446B - 一种视频目标分割方法、装置和设备

Info

Publication number: CN111210446B
Application number: CN202010020091.0A
Authority: CN
Inventors: 张勇东; 林凡超; 谢洪涛
Original assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2022-07-29
Anticipated expiration: 2040-01-08
Also published as: CN111210446A

Abstract

本发明提供了一种视频目标分割方法、装置和设备，所述方法包括：对视频中第一帧图像进行分割目标区域标注，得到分割目标标签；利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测；将所述分割热力图进行二值化处理，得到所述分割目标区域。本发明能有效结合多帧特征信息，对查询帧内的目标分割进行引导，并且其中的变换预测分支网络使目标分割结果更加精准，实现了同时达到高速处理和高精度分割。

Description

一种视频目标分割方法、装置和设备

技术领域

本发明涉及人工智能领域，具体涉及一种视频目标分割方法、装置和设备。

背景技术

视频目标分割是多媒体领域的新兴课题，对视频中的特定目标进行追踪和分割可以有效提取出关键信息，促进对视频内容的理解。为节省对视频目标的标注时间，半监督的视频目标自动分割技术应运而生，其通过给出视频中特定目标的第一帧标签，自动进行后续每帧图像中的目标分割。已有的视频目标分割方法不能有效利用图像序列的帧间信息，难以同时达到高速处理和高精度分割。

发明内容

(一)要解决的技术问题

不能有效利用图像序列的帧间信息，难以同时达到高速处理和高精度分割。

(二)技术方案

为了解决上述问题，本发明一方面提供了一种视频目标分割方法，所述方法包括：对视频中第一帧图像进行分割目标区域标注，得到分割目标标签；利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测；将所述分割热力图进行二值化处理，得到所述分割目标区域。

可选地，所述通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，包括：对所述第一帧图像和所述分割目标标签连接后进行特征提取，得到第一帧特征；对所述第t-1帧图像和第t-1帧图像的预测结果连接后进行特征提取，得到第t-1帧特征，其中，t＞2；对第t帧图像进行特征提取，得到第t帧特征；将所述第一帧特征与所述t-1帧特征进行连接，形成记忆帧特征；将所述记忆帧特征与所述第t帧特征进行特征匹配，得到预测结果。

可选地，所述对所述第一帧图像和所述分割目标标签连接后进行特征提取，得到第一帧特征，包括：将第一帧图像和分割目标标签连接成4通道数据，通过第一编码器进行特征提取得到第一帧特征图；对所述第一帧特征图进行键-值卷积操作处理，得到第一帧键特征和第一帧值特征，将所述第一帧键特征和第一帧值特征作为所述第一帧特征。

可选地，所述对所述第t-1帧图像和第t-1帧图像的预测结果和连接后进行特征提取，得到第t-1帧特征，包括：将第t-1帧图像和第t-1帧图像的预测结果连接成4通道数据，通过第一编码器特征提取得到第t-1帧特征图；对所述第t-1帧特征图进行键-值卷积操作处理，得到第t-1帧键特征和第t-1帧值特征，将所述第t-1帧键特征和第t-1帧值特征作为所述第t-1帧特征。

可选地，所述对第t帧图像进行特征提取，得到第t帧特征，包括：将第t帧图像的3通道数据，通过第二编码器特征提取得到第t 帧特征图；对所述第t帧特征图进行键-值卷积操作处理，得到第t帧键特征和第t帧值特征，将所述第t帧键特征和第t帧值特征作为所述第t帧特征。

可选地，所述将所述记忆帧特征与所述第t帧特征进行特征匹配，得到预测结果，包括：将所述特征匹配后得到的特征图通过解码器网络进行卷积-上采样处理和归一化处理，得到分割热力图。

可选地，在将所述特征匹配后得到的特征图通过解码器网络进行卷积-上采样处理和归一化处理之前，还包括：利用变换预测分支网络对所述特征匹配后得到的特征图进行优化。

可选地，在通过视频目标分割网络按时间顺序依次对每一帧图像进行预测之前，还包括：利用损失函数对所述视频目标分割网络进行训练：

所述损失函数为：

L＝L_seg+λL_trans

其中，L_seg为解码器网络的损失函数，L_trans为变换预测分支网络的损失函数，λ为平衡比重参数。

本发明另一方面还提供了一种视频目标分割装置，所述装置包括：特征提取模块，用于对视频中第一帧图像进行分割目标区域标注，得到分割目标标签；预测模块，用于利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测；获取分割结果模块，用于将所述分割热力图进行二值化处理，得到所述分割目标区域。

本发明又一方面提供了一种电子设备，该电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上文所述的方法。

(三)有益效果

本发明至少具有以下有益效果：

与现有方法相比，本发明提供的方法基于全卷积神经网络的端到端框架，无需针对给定的数据集在线微调，可以快速准确地进行半监督的视频目标分割。本发明提供的方法能有效结合多帧特征信息，对查询帧内的目标分割进行引导。并且其中的变换预测分支网络提升了网络对目标的整体感知能力，使目标分割结果更加精准，实现了同时达到高速处理和高精度分割。

附图说明

图1是本发明实施例提供的视频目标分割方法流程图；

图2是本发明的一个实施例提供的视频目标分割方法中的视频目标分割网络的框架结构示意图；

图3是本发明的一个实施例提供视频目标分割方法中联合非局部模块结构示意图；

图4是本发明实施例提供的视频目标分割装置框图；

图5是本发明实施例提供的电子设备框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明的技术可以硬件和/或软件(包括同件、微代码等)的形式来实现。另外，本发明的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本发明的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

本发明的一个实施例提供了一种视频目标分割方法，参见图1，结合图2，(图2中

表示特征图级联)所述方法包括步骤101-103 的内容：

步骤101：对视频中第一帧图像进行分割目标区域标注，得到分割目标标签。

其中，该步骤101可以通过下列子步骤101a-101b进行实现：

步骤101a：构建数据集。

对于训练集，采用公开数据集YouTube-VOS，将其中每帧图像及其对应标签用双线性插值法缩小到384×384。

实际测试时，将原始视频按时间顺序以N帧为间隔等间隔采样，将采样得到的序列图像用双线性插值法缩小到384×384。

步骤101b：对视频中第一帧图像进行分割目标区域标注，得到分割目标标签。

此处的第一帧图像是指分割目标第一次出现的那一帧图像，具体地，确定需要分割的目标，在目标第一次出现的那一帧图像中，标注出目标区域(目标所在区域标签值为1，其他区域为0)，得到目标的模板标签，将该二值标签图像用最近邻法缩小到384×384，即得到分割目标标签。

需要说明的是，此处的标注出目标区域是指人为的对图像中的目标分割区域进行黑白标签标注，例如通过交互式的方式用手写笔输入。

步骤102：利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测。

此时，取上述数据集中的图像序列，按时间顺序排列。假设当前待查询帧为第t帧，分别取第1帧图像及其标签(分割目标标签)、第t-1帧图像及其预测分割结果、第t帧图像构成一组数据，作为整个视频目标分割网络框架的输入。

其中，在一种可行的方式中，所述通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，可以通过下列子步骤具体实现：

步骤102a：对所述第一帧图像和所述分割目标标签连接后进行特征提取，得到第一帧特征。

具体地，首先，将第一帧图像和分割目标标签连接成4通道数据，通过第一编码器进行特征提取得到第一帧特征图；

将第1帧图像及其分割标签(分割目标标签)连接成4通道数据 (RGB三通道+单通道的分割标签)并输入编码器1提取特征，分别得到长、宽为原图1/16(即24×24)的1024通道特征图(第一帧特征图)F^m1。其中，编码器1使用ResNet50网络结构的变体，将其第一阶段网络改为以4通道为输入，多出的一个通道通过额外的卷积与RGB通道的输出相加，作为新的第一阶段网络输出。

然后，对所述第一帧特征图进行键-值卷积操作处理，得到第一帧键特征和第一帧值特征，将所述第一帧键特征和第一帧值特征作为所述第一帧特征。

将第一帧特征图(编码特征)F^m1输入一个键-值卷积模块。该键 -值卷积模块由两个并行的卷积层组成，分别用3×3卷积核将输入的 1024通道编码特征变为128通道的‘键特征’和512通道的‘值特征’，以对特征通道进行压缩和精炼，提高后续特征融合的效率。经过该键-值模块的处理，得到第一帧的键特征K^m1，值特征V^m1。

步骤102b：对所述第t-1帧图像和第t-1帧图像的预测结果连接后进行特征提取，得到第t-1帧特征，其中，t＞2。

具体地，首先，将第t-1帧图像和第t-1帧图像的预测结果连接成4通道数据，通过第一编码器特征提取得到第t-1帧特征图。

将第t-1帧图像及其预测分割结果连接成4通道数据(RGB三通道+单通道的预测分割结果)并输入编码器1提取特征，分别得到长、宽为原图1/16(即24×24)的1024通道特征图(第t-1帧特征图)F^m2。其中，编码器1使用ResNet50网络结构的变体，将其第一阶段网络改为以4通道为输入，多出的一个通道通过额外的卷积与RGB通道的输出相加，作为新的第一阶段网络输出。

然后，对所述第t-1帧特征图进行键-值卷积操作处理，得到第t-1 帧键特征和第t-1帧值特征，将所述第t-1帧键特征和第t-1帧值特征作为所述第t-1帧特征。

将第t-1帧特征图F^m2输入另一个键-值卷积模块。该键-值卷积模块由两个并行的卷积层组成，分别用3×3卷积核将输入的1024通道编码特征变为128通道的‘键特征’和512通道的‘值特征’，以对特征通道进行压缩和精炼，提高后续特征融合的效率。经过该键- 值模块的处理，得到第t-1帧的键特征K^m2，值特征V^m2。

步骤102c：对第t帧图像进行特征提取，得到第t帧特征。

具体地，首先，将第t帧图像的3通道数据，通过第二编码器特征提取得到第t帧特征图。

将第t帧图像输入编码器2提取特征，同样得到长、宽为原图1/16 (即24×24)的1024通道特征图(第t帧特征图)F^q。其中，编码器2由ResNet50的前4个阶段卷积网络组成，以彩色图像的RGB三通道为输入。

然后，对所述第t帧特征图进行键-值卷积操作处理，得到第t帧键特征和第t帧值特征，将所述第t帧键特征和第t帧值特征作为所述第t帧特征。

将第t帧特征图F^q输入又一个键-值卷积模块。该键-值卷积模块由两个并行的卷积层组成，分别用3×3卷积核将输入的1024通道编码特征变为128通道的‘键特征’和512通道的‘值特征’，以对特征通道进行压缩和精炼，提高后续特征融合的效率。经过该键-值模块的处理，得到第t帧的键特征K^q，值特征V^q。

步骤102d：将所述第一帧特征与所述t-1帧特征进行连接，形成记忆帧特征。

将第1帧键特征、值特征与第t-1帧的键特征、值特征分别按通道方向连接，得到2×128通道的记忆帧键特征K^m，2×512通道的记忆帧值特征V^m。该记忆帧键特征和记忆帧值特征即为记忆帧特征。

步骤102e：将所述记忆帧特征与所述第t帧特征进行特征匹配，得到预测结果。

具体地，首先，将记忆帧的键-值特征K^m和V^m，第t帧的键-值特征K^q和V^q输入联合非局部模块进行特征匹配和精炼。所有输入特征的特征图大小均为24×24。将第t帧的键特征K^q展开成576×128 的特征图，经过128×128的全连接层映射，与展开成128×1152矩阵的记忆帧键特征K^m相乘，得到576×1152的相关性矩阵C。将矩阵C经过softmax函数在列方向上进行归一化后，与展开成1152×512 矩阵的记忆帧值特征V^m相乘得到加权的记忆帧值特征

将

变形成24×24×512的特征图，通过1×1卷积和softmax归一化得到24×24×1的得分图，将

变形得到的特征图与该得分图求哈达玛积后，得到24×24×512的特征

将

与查询帧值特征V^q按通道方向连接，最终得到24×24×1024的特征作为联合非局部模块的输出。

其中，该联合非局部模块参见图3，

表示特征图级联，

表示求矩阵乘积，⊙表示求矩阵哈达积。

然后，将所述特征匹配后得到的特征图通过解码器网络进行卷积 -上采样处理和归一化处理，得到分割热力图。

将联合非局部模块输出的特征图输入解码器网络，在解码器网络中，特征图依次经过两个阶段的卷积-上采样模块。在每个卷积-上采样模块阶段中，将前一阶段输出的特征图经过一个3×3卷积和一个残差模块的处理，将编码器中对应阶段(特征图大小相同)的特征图用双线性插值法上采样2倍并通过跳线连接与残差模块的输出相加，之后再经过一个残差模块，得到当前阶段的输出，也即下一个上采样阶段的输入。经过两个阶段的卷积-上采样，最终通过一个sigmoid 归一化函数输出大小为96×96的单通道热力图，热力图上每个点的预测值取值范围为(0，1)，表示该点属于给定目标的概率。

在后续处理过程中，将该热力图作为第t帧的预测结果，与第t 帧RGB图像连接成4通道数据，作为预测第t+1帧时的输入。

另外，在将所述特征匹配后得到的特征图通过解码器网络进行卷积-上采样处理和归一化处理之前，利用变换预测分支网络对所述特征匹配后得到的特征图进行优化。

具体地，额外将解码器各阶段的输入特征图并行地输入变换预测分支网络。该变换预测分支对于特征图上每个对应待查询目标的分割标签的点预测一个变换，该变换将这个特征点在特征图上的位置坐标映射到待查询目标所在边框的左上角和右下角在原始图像上的对应坐标。在网络中具体表现为，对每个特征图上的点，最终预测一组变换参数

该组参数的标签计算公式如下：

其中，i表示解码器的解码阶段，在第i个解码阶段，变换预测分支输入的特征图长、宽均为原始输入图像的

z为归一化因子，

并且，(x，y)为特征点在特征图上的坐标，(x₁，y₁)和(x₂，y₂)分别为待查询目标的对应边框的左上角和右下角坐标。该边框取自输入的大小为384×384的查询帧中目标分割标签的最小外接矩形。变换预测分支网络的具体结构由三个卷积层组成，每个卷积层都使用3× 3卷积核。第一个卷积层将通道数由1024降到256，第三个通道将通道数由256降到4，得到4通道的变换参数预测图。变换参数预测图的4个通道分别代表对变换参数

和

的预测结果，每个通道上每个点的预测值表示从该点到目标所在边框的一个变换参数。为训练该变换预测分支，首先需要获取查询帧的目标边框标签，为此首先对查询帧目标的分割标签取最小外接矩形，所得矩形左上角坐标为(x₁，y₁)，右下角坐标为(x₂，y₂)。将查询帧标签以双线性插值法缩小到

将缩小后的标签图中标签值大于0.5的点置为1，其余点置为0。对每个标签值为1的点，根据公式(1)到(4)计算该点的变换参数标签值，最终对于每个查询帧得到4个通道的变换参数标签。

需要说明的是，假设第t帧为查询帧，若t＝2，将第1帧图像及其标签(分割目标标签)和第2帧图像(查询帧)输入视频目标分割网络；若t＞2，将第1帧图像及其标签(分割目标标签)、第t-1帧图像及其分割预测结果和第t帧图像输入视频目标分割网络。

步骤103：将所述分割热力图进行二值化处理，得到所述分割目标区域。

将预测热力图中预测值大于0.5的点置为255，其余点置为0，得到预测的二值化分割结果图。其中值为255的部分(白色)为所分割的目标区域。

另外在通过视频目标分割网络按时间顺序依次对每一帧图像进行预测之前，还包括：

利用损失函数对所述视频目标分割网络进行训练：

所述损失函数为：

L＝L_seg+λL_trans

其中，对于变换预测分支网络，以该分支网络输出的4通道变换参数预测图与4通道的变换参数标签之间的平滑L1-loss损失作为该分支网络的损失函数：

其中，X_t为变换预测分支输出的变换参数预测结果，Y_t为变换参数标签。

对于解码器网络，以解码器网络输出的单通道分割预测热力图与查询帧的分割标签之间的均方误差作为网络的损失函数：

L_seg＝(X_S-Y_S)²

其中，X_s为解码器输出的分割预测结果，Y_s为二值分割标签。

采用本发明的上述方法，在单目标分割公开数据集DAVIS2016 上测试，视频目标分割结果的性能达到：Jaccard平均区域相似度为 79.9％，F-measure平均边界准确度为80.5％，处理速度达到10.1帧/ 秒。在目前最大的多目标分割公开数据集YouTube-VOS上测试，视频目标分割结果的性能达到：综合准确度为70.0％，处理速度可以达到8.3帧/秒。

本发明另一个实施例还提供了一种视频目标分割装置，参见图4，所述装置400包括：特征提取模块401，用于对视频中第一帧图像进行分割目标区域标注，得到分割目标标签；预测模块402，用于利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测；获取分割结果模块403，用于将所述分割热力图进行二值化处理，得到所述分割目标区域。

本发明又一个实施例还提供了一种电子设备，参见图5该电子设备500包括：处理器510和存储器520。该电子设备500可以执行根据本发明实施例的方法。

具体地，处理器510例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器510还可以包括用于缓存用途的板载存储器。处理器 510可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器520，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。其存储有计算机可执行程序，该程序在被处理器执行时，使得处理器执行如上文所述的基于Radius服务器的流量调度方法。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种视频目标分割方法，其特征在于，所述方法包括：

对视频中第一帧图像进行分割目标区域标注，得到分割目标标签；

利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测；

其中，所述通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，具体包括：

将第一帧图像和分割目标标签连接成4通道数据，通过第一编码器进行特征提取得到第一帧特征图；对所述第一帧特征图进行键-值卷积操作处理，得到第一帧键特征和第一帧值特征，将所述第一帧键特征和第一帧值特征作为第一帧特征；

将第t-1帧图像和第t-1帧图像的预测结果连接成4通道数据，通过第一编码器特征提取得到第t-1帧特征图；对所述第t-1帧特征图进行键-值卷积操作处理，得到第t-1帧键特征和第t-1帧值特征，将所述第t-1帧键特征和第t-1帧值特征作为第t-1帧特征，其中，t＞2；

将第t帧图像的3通道数据，通过第二编码器特征提取得到第t帧特征图；对所述第t帧特征图进行键-值卷积操作处理，得到第t帧键特征和第t帧值特征，将所述第t帧键特征和第t帧值特征作为第t帧特征；

将所述第一帧特征与所述t-1帧特征进行连接，形成记忆帧特征；

将所述记忆帧特征与所述第t帧特征进行特征匹配；

利用变换预测分支网络对所述特征匹配后得到的特征图进行优化；

将所述特征匹配后得到的特征图通过解码器网络进行卷积-上采样处理和归一化处理，得到分割热力图；

将所述分割热力图进行二值化处理，得到所述分割目标区域。

2.根据权利要求1所述的方法，其特征在于，在通过视频目标分割网络按时间顺序依次对每一帧图像进行预测之前，还包括：

利用损失函数对所述视频目标分割网络进行训练：

所述损失函数为：

L＝L_seg+λL_trans

3.一种视频目标分割装置，其特征在于，所述装置包括：

特征提取模块，用于对视频中第一帧图像进行分割目标区域标注，得到分割目标标签；

预测模块，用于利用所述第一帧图像和所述分割目标标签，通过视频目标分割网络按时间顺序依次对每一帧图像进行预测，得到每一帧图像的分割热力图；其中，所述预测包括利用前一帧图像和前一帧图像的预测结果对后一帧图像进行预测；

将所述记忆帧特征与所述第t帧特征进行特征匹配；

获取分割结果模块，用于将所述分割热力图进行二值化处理，得到所述分割目标区域。

4.一种电子设备，其特征在于，该电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至2中任一项所述的方法。