CN117315543A

CN117315543A - 一种基于置信度门控时空记忆网络的半监督视频目标分割方法

Info

Publication number: CN117315543A
Application number: CN202311338760.9A
Authority: CN
Inventors: 赵于前; 孟显帅; 张帆; 阳春华; 桂卫华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-12-29

Abstract

本发明公开了一种基于置信度门控时空记忆网络的半监督视频目标分割方法，包括：获取视频分割相关数据集以及对应的分割标签；构建编码器，提取视频图像中所包含的信息；构建置信度门控时空记忆读取模块，过滤历史时空信息中的噪声；构建空洞卷积空间池化金字塔模块，捕捉多尺度的目标特征信息，提升模型的特征识别能力；构建分割解码器，将目标外观信息恢复至高分辨率，得到目标分割结果。本发明方法能够有效减少因目标遮挡或消失对视频目标分割任务带来的影响，进一步提升模型对小目标或相似目标局部特征的识别能力和视频目标分割的准确率。

Description

一种基于置信度门控时空记忆网络的半监督视频目标分割方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于置信度门控时空记忆网络的半监督视频目标分割方法。

背景技术

视频目标分割(VOS)是计算机视觉中的一个具有挑战性的任务，在自动驾驶技术、视频摘要生成、人机交互等方面都有广泛的应用。其中半监督视频目标分割是一种只给定视频第一帧的先验信息，要求在视频的其余帧中分割出目标物体的方法。视频序列中的目标物体通常会因为一些复杂因素，如形变、遮挡、镜头抖动等发生较大的外观变化，同时视频中也可能会存在高速移动的物体，很容易导致预测偏移。因此，研究一种高效且准确的半监督视频目标分割方法对于自动驾驶、视频摘要等应用场景具有重要意义。

现有基于时空记忆网络的半监督视频目标分割方法，通过全局特征匹配的方式计算当前帧与历史帧的相似度，并根据该相似度对当前帧和所有历史帧进行特征融合，这种方式当遇到目标物体在视频序列中消失等情况时，会引入大量噪声，导致分割准确率降低，而且对视频序列中的小目标、极为相似的目标识别不够精细，容易产生错误的分割结果。

发明内容

本发明的目的在于克服现有基于历史时空信息的半监督视频目标分割方法的不足，提出一种基于置信度门控时空记忆网络的半监督视频目标分割方法，该方法通过设计置信度门控时空记忆读取模块以减少历史时空信息中的噪声对分割结果的影响，同时设计空洞卷积金字塔模块，增加视频目标分割网络对目标局部信息的关注度，进一步提升视频目标分割的准确性。

一、技术原理

半监督视频目标分割方法，仅在第一帧提供目标分割的真值，当前帧的分割结果将作为后续帧的目标掩膜，为后续帧的分割提供参考。然而，现有技术难以解决因目标消失或严重遮挡等情况引入的分割噪声，以及因目标过小或相似度太高而引起的错误分割。由于半监督视频目标分割方法为时序方法，此类问题对现有的半监督视频目标分割方法的影响将被进一步放大。针对上述问题，本发明提出置信度门控时空记忆读取模块，利用该模块使视频目标分割网络关注重要程度较高的视频帧而非所有的视频帧，减少因目标遮挡或消失带来的影响；提出空洞卷积金字塔模块用于增大卷积感受野并且捕捉多尺度的目标外观信息，进一步提升模型对小目标或相似目标局部特征的识别能力和视频目标分割的准确率。

二、根据上述原理本发明通过以下方案实现：

一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于包括以下步骤：

(1)获取数据集与分割标签：

获取半监督视频目标分割数据集与对应的分割标签。

(2)构建分割模型：该模型由编码器、置信度门控时空记忆读取模块、空洞卷积金字塔模块、解码器组成，具体构建过程包括以下步骤：

(2-a)构建编码器，包括查询编码器和记忆编码器，两者具有相同结构，都包括一个卷积模块、三个残差模块和一个特征嵌入模块。

查询编码器只对查询帧图像信息进行编码，当前查询帧图像依次经过查询编码器的卷积模块和三个残差模块，得到三个残差模块对应的输出特征图x^r1、x^r2和x^r3；x^r3经过特征嵌入模块编码后得到当前查询帧图像的特征对(k^Q,v^Q)，其中k^Q和v^Q分别是查询帧图像的键信息和值信息。

记忆编码器对图像和对应掩膜进行编码，当前查询帧图像的上一帧图像被视作记忆帧图像，该记忆帧图像及其掩膜依次经过记忆编码器的卷积模块和三个残差模块后，再经特征嵌入模块编码，得到记忆帧图像的特征对(k^M，v^M)，其中k^M和v^M分别表示记忆帧图像的键信息和值信息。

记忆编码器对记忆帧图像和该记忆帧图像之前帧的图像及其掩膜的编码结果共同构成记忆编码库其中/>表示记忆编码库中的第j个特征对，j≤T，T为正整数，T表示记忆编码库中特征对的最大个数，且0<T<200；当记忆帧图像及其之前的所有帧图像的总个数小于等于T时，则记忆编码库H由记忆帧图像和该记忆帧图像之前所有帧的图像及其掩膜的编码结果共同构成；当记忆帧图像及其之前的所有帧图像的总个数大于T时，则记忆编码库H由记忆帧图像和该记忆帧图像之前T-1帧的图像及其掩膜的编码结果共同构成。

(2-b)构建置信度门控时空记忆读取模块：分别计算由步骤(2-a)得到的k^Q与记忆编码库H中每一个键信息之间的置信度/>j为正整数，且j≤T；置信度门控机制根据置信度的大小从记忆编码库H中筛选出与当前查询帧图像关联性最强的前N个特征对，N为正整数，N<T且0<N<100；若记忆编码库H中现有特征对数不足N，则用特征值为(0,0)的特征对补充至N个；分别构建这N个特征对对应的键信息集合/>和值信息集合/>其中/>表示与当前查询帧图像关联性最强的第t个键信息，/>表示与当前查询帧图像关联性最强的第t个值信息；利用键信息集合Keys中的元素计算权值，然后用计算得到的权值对值信息集合Values中的元素加权求和得到v_sum，最后将v_sum与步骤(2-a)得到的v^Q进行特征拼接，得到综合特征信息R。

所述置信度门控机制权值计算及加权求和的计算公式分别为：

其中，W_t表示权值，exp(·)表示以自然常数e为底的指数运算。

(2-c)构建空洞卷积金字塔模块：所述模块包括并行的四个不同卷积模块，分别为1×1大小的标准卷积模块、膨胀率为6的3×3空洞卷积模块、膨胀率为12的3×3空洞卷积块以及膨胀率为18的3×3空洞卷积模块；利用四个不同的卷积模块对步骤(2-b)得到的综合特征信息R分别进行多尺度特征提取，对提取的结果进行逐像素相加操作，得到增强特征J。

(2-d)构建解码器：对步骤(2-c)得到的增强特征J进行两次3×3卷积和一次上采样后得到中间特征f₁；对由步骤(2-a)得到的x^r2进行两次3×3卷积得到中间特征将和f₁逐像素相加后再进行一次上采样得到中间特征f₂；对由步骤(2-a)得到的x^r1进行两次3×3卷积得到中间特征/>将/>和f₂逐像素相加后再进行一次3×3卷积和一次上采样得到当前查询帧的预测分割掩膜Y。

(2-e)当前查询帧图像的预测分割掩膜得到以后，该查询帧图像成为新的记忆帧图像，而该查询帧图像的下一帧图像成为新的查询帧图像，利用步骤(2-a)构建的记忆编码器对新的记忆帧图像进行编码，将编码结果保存至记忆编码库H，更新记忆编码库；利用步骤(2-a)构建的查询编码器对新的查询帧图像进行编码，得到新查询帧图像的编码特征对，利用步骤(2-b)构建的置信度门控时空记忆读取模块计算新查询帧图像的综合特征信息；利用步骤(2-c)构建的空洞卷积金字塔模块对综合特征信息进行多尺度特征提取得到增强特征；利用步骤(2-d)构建的解码器对增强特征进行解码，得到新查询帧图像的预测分割掩膜；新查询帧图像的预测分割掩膜完成以后，该查询帧图像成为最新的记忆帧图像，该查询帧图像的下一帧图像成为最新的查询帧图像；如此循环，直到视频序列最后一帧图像的预测分割掩膜完成。

(3)训练分割模型：

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型，使用交叉熵作为分割模型的损失函数得到损失值，并使用ADAM优化器更新分割模型的模型参数，直到损失值不再下降，得到训练好的分割模型。

(4)推理：

获取测试视频数据，将其输入至步骤(3)训练好的分割模型，得到该测试视频数据各帧图像的分割掩膜。

(5)视频目标分割：

获取推理阶段中测试视频序列的各帧分割结果，将原图与分割掩膜加权混合，并制作成视频流，得到视频目标分割结果。

步骤(2-a)中，常数T优选150。

步骤(2-b)中，常数N优选50。

本发明与现有技术相比，有以下优点：

(1)本发明提出了置信度门控时空记忆读取模块，添加该模块的视频目标分割网络将更加关注有效的历史时空信息，减少无效历史时空信息中的噪声对分割质量的影响。此外，该模块仅对非零的高置信度权重进行归一化，以大幅度减少计算量，提高读取速度，在保证性能的同时提高计算效率。

(2)本发明提出了空洞卷积金字塔模块，通过提取并整合多尺度的目标特征信息，使视频目标分割网络更加充分地关注目标的全局特征信息和局部特征信息，进一步增强对小目标和相似目标的识别能力并提高分割的准确性。

附图说明：

图1本发明实施方式的基于置信度门控时空记忆网络的半监督视频目标分割方法流程图；

图2本发明实施方式中构建的视频目标分割模型总体框架及推理流程图；

图3本发明实施方式分割模型中的置信度门控时空记忆读取模块结构图；

图4本发明实施方式分割模型中的空洞卷积金字塔模块结构图；

图5本发明实施方式分割模型中的解码器结构图；

图6本发明实施方式对视频序列的分割结果与其他方法分割结果对比图。

具体实施方式：

下面说明本发明具体实施方式：

实施例1

图1为本发明实施方式中构建的基于置信度门控时空记忆网络的半监督视频目标分割方法流程图，具体步骤如下：

步骤1，获取数据集与分割标签：

获取半监督视频目标分割数据集与对应的分割标签。

步骤2，构建分割模型：模型由编码器、置信度门控时空记忆读取模块、空洞卷积金字塔模块、解码器组成。图2所示为本发明实施方式中构建的视频目标分割模型总体框架及推理流程图，具体构建过程包括以下步骤：

查询编码器只对当前查询帧图像信息进行编码，尺寸为3×480×864的当前查询帧图像依次经过查询编码器的卷积模块和三个残差模块，得到三个残差模块对应的输出特征图x^r1、x^r2和x^r3，其尺寸分别为256×240×432，512×120×216和1024×60×108；x^r3经过特征嵌入模块编码后得到当前查询帧图像的特征对(k^Q,v^Q)，其中k^Q和v^Q分别是查询帧图像的键信息和值信息，其大小分别是128×60×108，512×60×108。

记忆编码器对图像和对应掩膜进行编码，记忆编码器输入信息大小4×480×864，当前查询帧图像的上一帧图像被视作记忆帧图像，该记忆帧图像及其掩膜依次经过记忆编码器的卷积模块和三个残差模块后，再经特征嵌入模块编码，得到记忆帧图像的特征对(k^M，v^M)，其中k^M和v^M分别表示记忆帧图像的键信息和值信息，他们的大小分别是128×60×108，512×60×108。

记忆编码器对记忆帧图像和该记忆帧图像之前帧的图像及其掩膜的编码结果共同构成记忆编码库其中/>表示记忆编码库中的第j个特征对，j≤T，T表示记忆编码库中特征对的最大个数，T＝150；当记忆帧图像及其之前的所有帧图像的总个数小于等于T时，则记忆编码库H由记忆帧图像和该记忆帧图像之前所有帧的图像及其掩膜的编码结果共同构成；当记忆帧图像及其之前的所有帧图像的总个数大于T时，则记忆编码库H由记忆帧图像和该记忆帧图像之前T-1帧的图像及其掩膜的编码结果共同构成。

(2-b)构建置信度门控时空记忆读取模块，图3所示为本发明实施方式中构建的置信度门控时空记忆读取模块结构图，该模块分别计算由步骤(2-a)得到的k^Q与记忆编码库H中每一个键信息之间的置信度/>j为正整数，且j≤T，符号/>表示点积操作，置信度门控机制根据置信度的大小从记忆编码库H中筛选出与当前查询帧图像关联性最强的前N个特征对，N<T，N＝50；若记忆编码库H中现有特征对数不足N，则用特征值为(0,0)的特征对补充至N个；分别构建这N个特征对对应的键信息集合/>和值信息集合/>其中/>表示与当前查询帧图像关联性最强的第t个键信息，/>表示与当前查询帧图像关联性最强的第t个值信息；利用键信息集合Keys中的元素计算权值，然后用计算得到的权值对值信息集合Values中的元素加权求和得到大小为512×60×108的v_sum，最后将v_sum与步骤(2-a)得到的v^Q进行特征拼接，得到得到大小为1024×60×108的综合特征信息R。

置信度门控机制权值计算和加权求和的计算公式分别为：

(2-c)构建空洞卷积金字塔模块，图4所示为本发明实施方式中构建的空洞卷积金字塔模块结构图，其中包括并行的四个不同的卷积模块，分别为1×1大小的标准卷积模块、膨胀率为6的3×3空洞卷积模块、膨胀率为12的3×3空洞卷积块以及膨胀率为18的3×3空洞卷积模块，通过四个不同的卷积模块对步骤(2-b)得到的综合特征信息R进行多尺度特征提取，得到四个大小都为1024×60×108的特征图，对提取的结果进行逐像素相加操作，得到尺寸为1024×60×108增强特征J。

(2-d)构建解码器，图5所示为本发明实施方式中构建的解码器结构图，解码器对步骤(2-c)得到的大小为1024×60×108增强特征J进行两次卷积和一次上采样后得到大小为1×120×216的中间特征f₁；对由步骤(2-a)得到的x^r2进行两次卷积得到大小为1×120×216的中间特征将/>和f₁逐像素相加后再进行一次上采样得到大小为1×240×432中间特征f₂；对由步骤(2-a)得到的x^r1进行两次卷积得到大小为1×240×432中间特征/>将和f₂逐像素相加后再进行一次卷积和一次上采样得到当前查询帧图像的预测分割掩膜Y，大小为1×480×864。

步骤3，训练分割模型：

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型，使用交叉熵作为整个模型的损失函数得到损失值，并使用ADAM算法更新分割模型内的参数，迭代次数为240次，初始学习率0.00001，后133次迭代的学习率衰减直到损失值不再下降，得到训练好的分割模型。

步骤4，推理：

步骤5，视频目标分割：

获取推理阶段中测试视频序列的各帧图像的分割结果，将原图与分割掩膜加权混合，制作成视频流，得到视频目标分割结果。

实施例2

采用实施例1中的方法对公开数据集DAVIS-16(Densely Annotated VideoSegmentation 2016)和DAVIS-17(Densely Annotated Video Segmentation 2017)进行半监督视频目标分割实验。其中DAVIS-16数据集为二分类数据集，分割类别有两种：前景和背景；DAVIS-17数据集为多分类数据集，前景存在多个类别。本实验操作系统为Linux ubuntu16.06版本，基于CUDA10.0和cuDNN7.6.0的PyTorch1.5.0框架实现，使用搭载了Intel XeonBronze 3104CPU(1.70Ghz)和NVIDIA GeForce RTX 2080Ti(11GB)硬件的个人电脑训练并测试。

本实例采用区域相似度(Region Similarity)、轮廓精确度(Contour Accuracy)、推理速度以及整体评测度四个指标对RGMP、RANet、FRTM这三个先进的算法模型进行对比实验；采用区域相似度、轮廓精确度和整体评测度三个指标对五个分割网络与本发明方法在DAVIS-17测试集上进行对比。区域相似度在所有样例中的平均结果以M_J指代，计算公式如下：

式中S表示视频样例分割结果，G表示视频样例对应标签，∪和∩分别表示并集和交集操作。

轮廓精确度在所有样例中的平均结果以M_F指代，计算公式如下：

式中P_c表示分割结果和标签轮廓点的查准率(precision)，R_c表示分割结果和标签轮廓点的查全率(recall)。

整体评测度为区域相似度和轮廓精确度的均值，在所有样例中的平均结果以M_J&F指代，计算公式如下：

对比结果如表1和表2所示，可以发现，使用本发明相较于其他方法，能够在较快的推理速度下得到更加准确的分割结果，充分保证了推理速度和分割精度的均衡。

图6所示为本发明实施方式对视频序列的分割结果与其他方法分割结果对比图。其中图6(a)为测试数据集的视频测试帧原图样例，图6(b)为测试帧原图样例对应的分割标签，图6(c)-(f)依次为本发明、FRTM、RANet、RGMP的分割结果，可以看到图6(e)方法和图6(f)方法对存在着多目标物体之间遮挡交互的视频序列分割效果不佳，有误分类和遗漏现象发生，比如第3行测试样例中摩托车上的人以及第5行测试样例中的人；图6(d)方法对小目标物体的分割较为粗糙，比如第4行测试样例中人手里的枪械，同时该方法对部分物体存在着割裂现象，比如第2行测试样例中的赛车。可以看出，本发明相较于以上方法，具备更好的分割效果，能更加有效地处理物体遮挡、物体尺寸过小等异常情况。

以上所述实施例仅为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围之内。

表1

表2

Claims

1.一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于包括以下步骤：

(1)获取数据集与分割标签：

获取半监督视频目标分割数据集与对应的分割标签；

(2)构建分割模型：所述模型由编码器、置信度门控时空记忆读取模块、空洞卷积金字塔模块、解码器组成，具体构建过程包括以下步骤：

(2-a)构建编码器，包括查询编码器和记忆编码器，两者具有相同结构，都包括一个卷积模块、三个残差模块和一个特征嵌入模块；

查询编码器只对查询帧图像信息进行编码，当前查询帧图像依次经过查询编码器的卷积模块和三个残差模块，得到三个残差模块对应的输出特征图x^r1、x^r2和x^r3；x^r3经过特征嵌入模块编码后得到当前查询帧图像的特征对(k^Q,v^Q)，其中k^Q和v^Q分别是查询帧图像的键信息和值信息；

记忆编码器对图像和对应掩膜进行编码，当前查询帧图像的上一帧图像被视作记忆帧图像，该记忆帧图像及其掩膜依次经过记忆编码器的卷积模块和三个残差模块后，再经特征嵌入模块编码，得到记忆帧图像的特征对(k^M，v^M)，其中k^M和v^M分别表示记忆帧图像的键信息和值信息；

记忆编码器对记忆帧图像和该记忆帧图像之前帧的图像及其掩膜的编码结果共同构成记忆编码库其中/>表示记忆编码库中的第j个特征对，j≤T，T为正整数，T表示记忆编码库中特征对的最大个数；当记忆帧图像及其之前的所有帧图像的总个数小于等于T时，则记忆编码库H由记忆帧图像和该记忆帧图像之前所有帧的图像及其掩膜的编码结果共同构成；当记忆帧图像及其之前的所有帧图像的总个数大于T时，则记忆编码库H由记忆帧图像和该记忆帧图像之前T-1帧的图像及其掩膜的编码结果共同构成；

(2-b)构建置信度门控时空记忆读取模块：分别计算由步骤(2-a)得到的k^Q与记忆编码库H中每一个键信息之间的置信度/>j为正整数，且j≤T；置信度门控机制根据置信度的大小从记忆编码库H中筛选出与当前查询帧图像关联性最强的前N个特征对，N为正整数，N<T；若记忆编码库H中现有特征对数不足N，则用特征值为(0,0)的特征对补充至N个；分别构建这N个特征对对应的键信息集合/>和值信息集合其中/>表示与当前查询帧图像关联性最强的第t个键信息，/>表示与当前查询帧图像关联性最强的第t个值信息；利用键信息集合Keys中的元素计算权值，然后用计算得到的权值对值信息集合Values中的元素加权求和得到v_sum，最后将v_sum与步骤(2-a)得到的v^Q进行特征拼接，得到综合特征信息R；

(2-c)构建空洞卷积金字塔模块：所述模块包括并行的四个不同卷积模块，利用四个不同的卷积模块对步骤(2-b)得到的综合特征信息R分别进行多尺度特征提取，对提取的结果进行逐像素相加操作，得到增强特征J；

(2-d)构建解码器：对步骤(2-c)得到的增强特征J进行两次卷积和一次上采样后得到中间特征f₁；对由步骤(2-a)得到的x^r2进行两次卷积得到中间特征将/>和f₁逐像素相加后再进行一次上采样得到中间特征f₂；对由步骤(2-a)得到的x^r1进行两次卷积得到中间特征/>将/>和f₂逐像素相加后再进行一次卷积和一次上采样得到当前查询帧图像的预测分割掩膜Y；

(2-e)当前查询帧图像的预测分割掩膜得到以后，该查询帧图像成为新的记忆帧图像，而该查询帧图像的下一帧图像成为新的查询帧图像，利用步骤(2-a)构建的记忆编码器对新的记忆帧图像进行编码，将编码结果保存至记忆编码库H，更新记忆编码库；利用步骤(2-a)构建的查询编码器对新的查询帧图像进行编码，得到新查询帧图像的编码特征对，利用步骤(2-b)构建的置信度门控时空记忆读取模块计算新查询帧图像的综合特征信息；利用步骤(2-c)构建的空洞卷积金字塔模块对综合特征信息进行多尺度特征提取得到增强特征；利用步骤(2-d)构建的解码器对增强特征进行解码，得到新查询帧图像的预测分割掩膜；新查询帧图像的预测分割掩膜完成以后，该查询帧图像成为最新的记忆帧图像，该查询帧图像的下一帧图像成为最新的查询帧图像；如此循环，直到视频序列最后一帧图像的预测分割掩膜完成；

(3)训练分割模型：

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型：使用交叉熵作为分割模型的损失函数得到损失值，并使用Adam优化器更新分割模型的模型参数，直到损失值不再下降，得到训练好的分割模型；

(4)推理：

获取测试视频数据，将其输入至步骤(3)训练好的分割模型，得到该测试视频数据各帧图像的分割掩膜；

(5)视频目标分割：

获取推理阶段中测试视频数据各帧图像的分割掩膜，将原图与分割掩膜加权混合，制作成视频流，得到视频目标分割结果。

2.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-b)中的置信度，其计算公式为：

其中，表示点积操作。

3.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-b)中的置信度门控机制权值计算和加权求和，它们的计算公式分别为：

4.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-c)中的空洞卷积金字塔模块，包含并行的四个不同的卷积模块，分别为1×1大小的标准卷积模块、膨胀率为6的3×3空洞卷积模块、膨胀率为12的3×3空洞卷积块以及膨胀率为18的3×3空洞卷积模块。

5.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法，其特征在于，所述步骤(2-d)中的解码器，解码器中卷积层的卷积核大小都为3×3。