CN116863384A

CN116863384A - 一种基于CNN-Transfomer的自监督视频分割方法和系统

Info

Publication number: CN116863384A
Application number: CN202310953967.0A
Authority: CN
Inventors: 林华治; 顾汉杰; 虞铭辉; 洪传强
Original assignee: Zhejiang Shuren University
Current assignee: Zhejiang Shuren University
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-10

Abstract

本发明公开了一种基于CNN‑Transfomer的自监督视频分割方法和系统，属于视频分割技术领域，方法包括：获取待分割视频数据；提取待分割视频数据的图像帧；通过CNN‑Transfomer神经网络，提取各个图像帧的精细图像特征；根据各个图像帧的精细图像特征，提取关键帧，并将关键帧作为视频分割的参考帧；通过K‑means聚类算法，自监督式地获取参考帧的参考分割掩膜；根据参考帧与待分割的目标帧的精细图像特征，计算参考帧与目标帧之间的相似度矩阵；根据相似度矩阵，对参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜；通过目标分割掩膜对目标帧进行分割；将当前目标帧作为参考帧，选取下一个目标帧，重复S106至S108，直至完成整个待分割视频的分割。

Description

一种基于CNN-Transfomer的自监督视频分割方法和系统

技术领域

本发明属于视频分割技术领域，具体涉及一种基于CNN-Transfomer的自监督视频分割方法和系统。

背景技术

随着光学传感器体积的缩小和精度的提升带来了摄像头的广泛应用，视频目标分割技术已经广泛地渗透到人们日常生活的方方面面中。比如，在汽车市场中，自动驾驶已经成为新款车型的基本配置，视频目标分割技术能够为自动驾驶提供实时的道路信息交互，为安全驾驶保驾护航；在智能监控领域，需要对人员轨迹进行跟踪，对监控范围人员进行行为检测等，视频目标分割技术能够为这些任务提供精细的分割轮廓，而非粗糙的检测框，在无人机领域，视频目标分割技术带来的更加精细的分割轮廓，可以为目标跟踪提供更加精确的跟踪信息，从而为无人机的智能跟踪等技术提供支持。

近年来，由于深度学习技术在各种计算机视觉任务(图像识别，目标跟踪，动作识别等)中的优秀表现，基于卷积神经网络的视频目标分割算法已经成为了解决视频目标分割任务的主流方法。但神经网络的性能的发挥建立在大量的训练数据对其进行训练的基础上。训练数据集的规模越大，则训练得到的神经网络的泛化性和鲁棒性越好，执行任务时的表现就越好。为了保证神经网络的性能，随着神经网络规模的扩大，训练它的数据集也需要相应扩大。

当前，对于基于卷积神经网络的视频目标分割算法的训练主要采用有监督学习的方式，训练数据集的制作需要经过人工标注的过程，这是一个极其昂贵且费时的过程。尤其是对于视频目标分割任务，视频目标分割数据集不仅需要在空间上对图像中的每一个像素进行标注，还需要在时间上对视频序列中的每一帧进行标注。相较于普通的计算机视觉任务数据集，视频目标分割数据集的制作代价将被成倍地放大，导致视频分割成本高、效率低。

发明内容

为了解决现有技术中采用采用有监督学习的方式对于基于卷积神经网络的视频目标分割算法进行训练，训练数据集的制作需要经过人工标注，导致成本高、效率低的技术问题，本发明提供一种基于CNN-Transfomer的自监督视频分割方法和系统。

第一方面

本发明提供了一种基于CNN-Transfomer的自监督视频分割方法，包括：

S101：获取待分割视频数据；

S102：提取待分割视频数据的图像帧；

S103：通过CNN-Transfomer神经网络，提取各个图像帧的精细图像特征；

S104：根据各个图像帧的精细图像特征，提取关键帧，并将关键帧作为视频分割的参考帧；

S105：通过K-means聚类算法，自监督式地获取参考帧的参考分割掩膜；

S106：根据参考帧与待分割的目标帧的精细图像特征，计算参考帧与目标帧之间的相似度矩阵；

S107：根据相似度矩阵，对参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜；

S108：通过目标分割掩膜对目标帧进行分割；

S109：将当前目标帧作为参考帧，选取下一个目标帧，重复S106至S108，直至完成整个待分割视频的分割。

第二方面

本发明提供了一种基于CNN-Transfomer的自监督视频分割系统，用于执行第一方面中的基于CNN-Transfomer的自监督视频分割方法。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，通过CNN-Transfomer神经网络，自动化地提取各个图像帧的精细图像特征，之后通过K-means聚类算法，自监督式地获取参考帧的参考分割掩膜，根据参考帧与待分割的目标帧的精细图像特征，计算参考帧与目标帧之间的相似度矩阵，根据相似度矩阵，对参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜，之后通过目标分割掩膜对目标帧进行分割。在整个视频分割的过程中，无需进行任何人工标注，降低视频分割成本，提升视频分割效率。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种基于CNN-Transfomer的自监督视频分割方法的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的基于CNN-Transfomer的自监督视频分割方法的流程示意图。

其中，CNN(Convolutional Neural Network，卷积神经网络)是一种主要用于处理和分析视觉数据的深度学习模型，如图像和视频。CNN以其在图像分类、目标检测和图像分割等计算机视觉任务中的有效性而闻名。

其中，Transfomer是一种重要的深度学习架构，Transformer的核心组件是自注意力机制(Self-Attention Mechanism)，它允许模型在处理序列时对不同位置的信息进行加权处理。这种机制使得模型能够捕捉输入序列中不同位置之间的依赖关系，从而在理解上下文信息和长距离依赖时表现更出色。

其中，自监督学习(Self-Supervised Learning)是一种学习范式，其中模型被训练用于根据数据的某些部分预测其余部分。与监督学习不同，监督学习利用标记数据来训练模型，而自监督学习利用数据本身来创建伪标签进行训练，无需对数据进行任何人工标注。

本发明提供的一种基于CNN-Transfomer的自监督视频分割方法，包括：

S101：获取待分割视频数据。

其中，待分割视频数据可以是自动驾驶过程中的实时视频，也可以是摄像头拍摄的监控视频，还可以是无人机视频等各个领域的视频数据。本发明对于视频数据的具体来源不做限定。

S102：提取待分割视频数据的图像帧。

在一种可能的实施方式中，S102具体包括子步骤S1021和S1022：

S1021：获取待分割视频数据的视频帧率和总帧数。

S1022：按帧提取待分割视频数据的每一帧图像作为图像帧。

需要说明的是，将视频转换为图像帧是一种常见的数据预处理方式。视频数据通常较大，包含连续的帧，处理起来相对复杂。将视频分解为图像帧后，可以将每一帧视为独立的图像，从而利用图像处理技术进行后续操作。

S103：通过CNN-Transfomer神经网络，提取各个图像帧的精细图像特征。

具体而言，通过CNN-Transformer神经网络，首先使用卷积层和池化层提取图像帧的低级特征，然后通过Transformer层进行自注意力加权处理，得到图像帧的精细特征。使得CNN-Transformer能够有效地捕获图像帧中的关键信息，提高视频分割的性能和准确性。

其中，CNN-Transfomer神经网络包括输入层、卷积层、池化层、Transformer层、全连接层和输出层。

其中，Transformer层用于对输入的特征进行特征映射和自注意力计算。它通过自注意力机制实现对输入特征的自适应加权处理，使得模型能够同时关注不同位置之间的依赖关系，从而更好地捕获长距离的依赖信息。

其中，输入层、卷积层、池化层、全连接层和输出层属于卷积神经网络中的基本结构，本发明不再赘述。

在一种可能的实施方式中，S103具体包括子步骤S1031至S1036：

S1031：输入层获取图像帧。

S1032：卷积层对图像帧进行卷积操作：

f_cnn(x)＝MaxPool[ReLU(Conv(x))]

u＝f_cnn(f_cnn(x))

其中，f_ccn(x)表示卷积结果，MaxPool表示最大池化操作，ReLU(·)表示ReLU激活函数，Conv(·)表示7×7的卷积操作，x表示输入的图像帧，u表示二级卷积结果。

需要说明的是，在卷积层中，每个输入的图像帧会经过一系列卷积操作，使用不同的卷积核(滤波器)来捕捉图像中的不同特征。这些卷积核会在图像上滑动，计算局部区域的线性组合，从而生成卷积结果f_ccn(x)。经过卷积操作后，图像的特征被进一步提取和变换。

S1033：池化层对二次卷积结果进行自适应指数加权池化操作，得到初级图像特征f_prim：

其中，AdaPool(·)表示自适应指数加权池化操作，表示广播机制下的矩阵相加。

需要说明的是，在池化层中，对经过卷积操作得到的二次卷积结果u进行自适应指数加权池化操作。这个操作是为了对特征进行降维和融合，从而得到初级图像特征f_prim。自适应指数加权池化操作会对输入特征矩阵中的每个元素进行指数运算，然后对指数运算后的结果进行池化操作。这样做有助于保留更重要的特征并抑制不重要的特征，增强特征的表征能力。

S1034：Transformer层对初级图像特征进行特征映射，计算Transformer编码模块的自注意力，对Transformer编码模块的自注意力拼接并与初级图像特征进行相加，得到拼接特征。

需要说明的是，在Transformer层中，对初级图像特征f_prim进行特征映射，并计算Transformer编码模块的自注意力。自注意力机制会为每个位置计算注意力权重，然后将注意力权重与相应位置的特征进行加权求和。得到的自注意力输出会与初级图像特征f_prim进行拼接，并进行元素级别的相加操作，得到拼接特征。这样做的目的是融合不同层次的特征并引入上下文信息，提高特征的表达能力。

在一种可能的实施方式中，Transformer编码模块的自注意力的计算方式为：

对初级图像特征进行特征映射，计算查询矩阵Q、键矩阵K和值矩阵V。

通过以下公式，计算自注意力：

其中，Attention表示自注意力，d_k表示键矩阵的列数，表示缩放因子。

需要说明的是，通过自注意力机制，模型能够根据每个位置与其他位置之间的关系，对图像的不同位置进行加权处理，从而捕捉图像中的长距离依赖关系和重要信息，得到更丰富和准确的特征表示。注意力权重表示了图像中每个位置的重要性，使得模型能够关注重要的特征并抑制不重要的特征，从而提高特征的表达能力。

S1035：全连接层对各个Transformer层的拼接特征进行加权组合，得到精细图像特征。

具体而言，全连接层通过权重矩阵的线性变换和激活函数的作用，对输入的拼接特征进行非线性映射。这样可以使得特征在更高维度空间中进行组合，并引入非线性关系，从而提高特征的表达能力。全连接层的输出即为精细图像特征，它包含了图像中的丰富信息和高层次的特征表示。

S1036：输出层输出精细图像特征。

需要说明的是，通过CNN-Transformer神经网络，可以从图像帧中自动提取精细的图像特征，并引入长距离依赖关系，进行非线性映射和特征融合，从而得到更具有表征能力的精细图像特征，为视频分割方法提供了更强的特征支持和语义理解能力。

S104：根据各个图像帧的精细图像特征，提取关键帧，并将关键帧作为视频分割的参考帧。

其中，关键帧是视频序列中具有特殊重要性的帧或图像。在视频中，每秒包含多个连续的图像帧，而关键帧则是其中具有代表性和关键内容的帧。由于关键帧通常选取了代表性较强、信息最丰富的帧，这些帧涵盖了视频的关键内容和主题，关键帧之间的内容变化较大，之间的相似性较低，因此，可以通过计算帧图像之间的距离确定关键帧。

在一种可能的实施方式中，S104具体包括S1041和S1042：

S1041：计算两个图像帧之间的距离：

其中，I_i表示第i个图像帧，I_j表示第j个图像帧，D(I_i,I_j)表示第i个图像帧与第j个图像帧的距离，H_ik表示第i帧图像第k个灰度区内像素点的数目，H_jk表示第j帧图像第k个灰度区内像素点的数目。

需要说明的是，通过计算图像帧之间的距离，特别是欧氏距离，有助于识别图像帧之间的相似性和差异性。

S1042：当两个图像帧之间的距离大于预设距离时，提取两个图像帧作为关键帧。

其中，本领域技术人员可以根据实际情况设置预设距离的大小，本发明不做限定。

需要说明的是，通过当两个图像帧之间的距离大于预设距离时，提取这两个图像帧作为关键帧，可以捕捉视频中内容变化较大的部分，提供更全面和多样化的信息，提高视频处理和分析的效率和精确度。

S105：通过K-means聚类算法，自监督式地获取参考帧的参考分割掩膜。

其中，K-means聚类算法是一种常用的无监督学习算法，用于将一组数据点划分成K个类别。它是一种迭代的、基于距离的聚类方法，通过最小化数据点与所属类别中心点之间的距离平方和来实现聚类。

在一种可能的实施方式中，S105具体包括S1051至S1055：

S1051：随机初始化K个聚类中心。

S1052：根据参考帧中当前像素点的图像特征，计算当前像素点到各个聚类中心的中心点的距离：

其中，D_j表示当前像素点到第j个聚类中心的距离，f_i表示当前像素点的第i种图像特征，c_ij表示第j个聚类中心的中心点的第i种图像特征，n表示图像特征的维度。

需要说明的是，图像特征可以是多维特征，也就是说图像特征可以是一个多维向量，比如，像素点的对比度、灰度、关联度均可以作为一种图像特征。

S1053：将当前像素点划分到D_j最小的聚类中，并更新聚类中心。

S1054：继续选取下一个像素点，直至完成图像帧中所有像素点的聚类，得到K个图像区域。

S1055：将图像面积大于预设面积的图像区域作为参考帧的参考分割掩膜。

需要说明的是，面积较大的图像区域往往代表着主要的目标或感兴趣的区域，而面积较小的区域可能只是背景或者无关紧要的细节。图像区域的图像面积越大，往往意味着该区域所指示的内容越重要，需要在视频分割过程中予以关注，因此，将图像面积大于预设面积的图像区域作为参考帧的参考分割掩膜。

进一步地，通过K-means聚类算法，可以自动化地获取参考帧的参考分割掩膜，无需人工标注，同时能够考虑多维特征，并且选择性地提取关键区域，提高了视频分割的效率和准确性，使得自监督视频分割方法更加可行和有效。

S106：根据参考帧与待分割的目标帧的精细图像特征，计算参考帧与目标帧之间的相似度矩阵。

在一种可能的实施方式中，S106具体包括：

通过以下公式，计算参考帧与目标帧之间的相似度矩阵：

A＝[a_ij]

其中，A表示相似度矩阵，a_ij表示相似度矩阵中第i行第j列的元素，表示目标帧的第i个像素的图像特征，/>表示参考帧的第j个像素的图像特征，/>表示参考帧的第n个像素的图像特征，第j个像素处于与第i个像素相邻的圆形区域内，r表示圆形区域的半径。

需要说明的是，由于在计算相似度时，参考帧的第j个像素的特征与目标帧的第i个像素的特征之间的相似度是在一个圆形区域内进行计算的，因此可以关注到目标帧像素点周围的局部上下文信息。这样有助于考虑像素点与其周围像素点的关系，使得相似度计算更加细致，能够更好地捕捉局部特征。

进一步地，通过计算相似度矩阵，能够获取目标帧中每个像素点与参考帧中所有像素点之间的相似度。这样的相似度信息可以辅助后续的分割过程，使得目标帧的分割掩膜更加准确，提高视频分割的精度和效果。

其中，本领域技术人员可以根据实际情况设置圆形区域的半径r的大小，本发明不做限定。

S107：根据相似度矩阵，对参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜。

需要说明的是，通过相似度矩阵，将参考帧的参考分割掩膜中的标签传递给目标帧中相似的像素点，从而得到目标帧的分割掩膜。这样的传递过程利用了相似度矩阵来将参考帧的信息传递到目标帧，实现了自监督的视频分割。

在一种可能的实施方式中，S107具体包括：

通过以下公式，对参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜：

m_t＝A·m_t-1

其中，m_t表示目标分割掩膜，m_t-1表示参考分割掩膜，A表示相似度矩阵。

S108：通过目标分割掩膜对目标帧进行分割。

具体而言，目标分割掩膜是一个二值图像，其中目标物体的像素点被标记为前景(通常为白色或值为1的像素)，背景像素点被标记为背景(通常为黑色或值为0的像素)。在目标分割阶段，将目标分割掩膜应用到目标帧上，通常使用像素级别的掩膜操作，即将目标分割掩膜中的前景像素点与目标帧中的对应像素点进行逐像素运算。这样，目标分割掩膜中标记为前景的像素点会被保留在目标帧中，而背景像素点则被置为背景值或者用其他方法进行填充。这样处理后，目标帧中的目标物体就被成功地分割出来。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，本发明提供的一种基于CNN-Transfomer的自监督视频分割系统，用于执行实施例1中的基于CNN-Transfomer的自监督视频分割方法。

本发明提供的一种基于CNN-Transfomer的自监督视频分割系统可以实现上述实施例1中的基于CNN-Transfomer的自监督视频分割方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于CNN-Transfomer的自监督视频分割方法，其特征在于，包括：

S101：获取待分割视频数据；

S102：提取所述待分割视频数据的图像帧；

S104：根据各个图像帧的精细图像特征，提取关键帧，并将所述关键帧作为视频分割的参考帧；

S105：通过K-means聚类算法，自监督式地获取所述参考帧的参考分割掩膜；

S107：根据所述相似度矩阵，对所述参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜；

S108：通过所述目标分割掩膜对目标帧进行分割；

S109：将当前目标帧作为参考帧，选取下一个目标帧，重复S106至S108，直至完成整个所述待分割视频的分割。

2.根据权利要求1所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述S102具体包括：

S1021：获取所述待分割视频数据的视频帧率和总帧数；

S1022：按帧提取所述待分割视频数据的每一帧图像作为图像帧。

3.根据权利要求1所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述CNN-Transfomer神经网络包括输入层、卷积层、池化层、Transformer层、全连接层和输出层。

4.根据权利要求3所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述S103具体包括：

S1031：所述输入层获取图像帧；

S1032：所述卷积层对所述图像帧进行卷积操作：

f_cnn(x)＝MaxPool[ReLU(Conv(x))]

u＝f_cnn(f_cnn(x))

其中，f_ccn(x)表示卷积结果，MaxPool表示最大池化操作，ReLU(·)表示ReLU激活函数，Conv(·)表示7×7的卷积操作，x表示输入的图像帧，u表示二级卷积结果；

S1033：所述池化层对二次卷积结果进行自适应指数加权池化操作，得到初级图像特征f_prim：

其中，AdaPool(·)表示自适应指数加权池化操作，表示广播机制下的矩阵相加；

S1034：所述Transformer层对所述初级图像特征进行特征映射，计算Transformer编码模块的自注意力，对Transformer编码模块的自注意力拼接并与所述初级图像特征进行相加，得到拼接特征；

S1035：所述全连接层对各个Transformer层的拼接特征进行加权组合，得到精细图像特征；

S1036：所述输出层输出所述精细图像特征。

5.根据权利要求4所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，Transformer编码模块的自注意力的计算方式为：

对所述初级图像特征进行特征映射，计算查询矩阵Q、键矩阵K和值矩阵V；

通过以下公式，计算自注意力：

6.根据权利要求1所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述S104具体包括：

S1041：计算两个图像帧之间的距离：

其中，I_i表示第i个图像帧，I_j表示第j个图像帧，D(I_i,I_j)表示第i个图像帧与第j个图像帧的距离，H_ik表示第i帧图像第k个灰度区内像素点的数目，H_jk表示第j帧图像第k个灰度区内像素点的数目；

7.根据权利要求1所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述S105具体包括：

S1051：随机初始化K个聚类中心；

S1052：根据所述参考帧中当前像素点的图像特征，计算当前像素点到各个聚类中心的中心点的距离：

其中，D_j表示当前像素点到第j个聚类中心的距离，f_i表示当前像素点的第i种图像特征，c_ij表示第j个聚类中心的中心点的第i种图像特征，n表示图像特征的维度；

S1053：将所述当前像素点划分到D_j最小的聚类中，并更新聚类中心；

S1054：继续选取下一个像素点，直至完成图像帧中所有像素点的聚类，得到K个图像区域；

S1055：将图像面积大于预设面积的图像区域作为所述参考帧的参考分割掩膜。

8.根据权利要求1所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述S106具体包括：

通过以下公式，计算参考帧与目标帧之间的相似度矩阵：

A＝[a_ij]

其中，A表示相似度矩阵，a_ij表示相似度矩阵中第i行第j列的元素，f_t ⁱ表示目标帧的第i个像素的图像特征，表示参考帧的第j个像素的图像特征，/>表示参考帧的第n个像素的图像特征，第j个像素处于与第i个像素相邻的圆形区域内，r表示圆形区域的半径。

9.根据权利要求8所述的基于CNN-Transfomer的自监督视频分割方法，其特征在于，所述S107具体包括：

通过以下公式，对所述参考帧的参考分割掩膜进行传递，计算出目标帧的目标分割掩膜：

m_t＝A·m_t-1

10.一种基于CNN-Transfomer的自监督视频分割系统，其特征在于，用于执行权利要求1至9任一项所述的基于CNN-Transfomer的自监督视频分割方法。