CN117456176A

CN117456176A - 一种实现视频图像时域一致性语义分割的方法

Info

Publication number: CN117456176A
Application number: CN202311392100.9A
Authority: CN
Inventors: 张国庆
Original assignee: China Industrial Internet Beijing Technology Group Co ltd
Current assignee: China Industrial Internet Beijing Technology Group Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-26

Abstract

本发明涉及图像处理、计算机视觉识别技术领域，具体涉及一种实现视频图像时域一致性语义分割的方法；在本方法中，首先对图像进行二维空域特征编码，随后利用自注意力机制构建相邻两帧之间的时域相关性，得到运动特征，再将图像特征与相邻帧的运动特征相融合，联合语义编码信息，送入基于语义大模型掩膜解码模块，进而通过语义分割大模型，实现对特定需求的分割掩膜，从而实现对整个视频连续一致的语义分割。本方法深入挖掘视频数据的时域连续性，联合空域编码和时域编码，从图像的特征层面，更快速的捕捉到运动信息，进而可产生视觉效果流畅、连续的多帧语义分割结果，用于三维生成、编辑等人物，显著提高视觉效果。

Description

一种实现视频图像时域一致性语义分割的方法

技术领域

本发明涉及图像处理、计算机视觉识别技术领域，具体涉及一种实现视频图像时域一致性语义分割的方法。

背景技术

语义分割是计算机视觉领域的一个重要任务，旨在将图像中的每个像素分配给特定的语义类别。与图像分类任务不同，语义分割要求对图像中的每个像素进行分类，因此需要更加细粒度的理解和推理能力。近年来，随着深度学习的快速发展，基于深度神经网络的语义分割方法取得了显著的进展。常规的语义分割大模型往往以卷积神经网络作为框架，通常由多个卷积层、池化层和上采样层组成，以提取图像中的特征并实现像素级别的分类。语义分割网络通过卷积操作有效提取图像的局部特征，并利用多层网络结构实现对图像的全局理解。此外，在细粒度的任务中，往往引入跳跃连接将底层特征与高层特征相融合以获得更丰富的语义信息，解决语义分割任务中的信息丢失问题，并提高模型的性能。另外，残差连接可以有效地解决梯度消失问题，使得网络能够更好地学习到图像的细节信息。传统的语义分割方法通常只能识别和分割出预定义的类别，如人、车、树等，而无法处理未知的物体或目标。然而，随着深度学习的发展，语义分割大模型能够实现对任意物体的分割，从而提供更加灵活和广泛的应用。

语义分割大模型是指具有大规模参数的深度神经网络模型，用于解决复杂的语义分割问题。近年来，许多基于语义分割的大模型已经被提出，并在各种计算机视觉任务中取得了显著的成果。例如，针对医学图像分割任务，一些大模型已经能够准确地识别和分割出病灶区域，帮助医生进行疾病诊断和治疗。此外，在自动驾驶领域，语义分割大模型可以帮助车辆准确地理解道路环境，实现智能驾驶。语义分割大模型是一种强大的工具，能够实现对图像中每个像素的精确分类。通过不断改进模型结构和优化算法，语义分割大模型在计算机视觉领域的应用前景广阔，将为我们提供更多的视觉理解和分析能力。2022年，Meta团队结合自然语言处理大模型，构建了语义分割大模型Segment Anything，可实现对任意物体或目标进行准确的分割。通过深度神经网络的端到端训练，可以自动学习到更丰富的特征表示和更准确的分类器，从而实现无需重新训练的任意物体的像素级分割结果。

Segment Anything的应用潜力巨大。例如，在智能交通领域，语义分割大模型可以实现对交通标志、行人、自行车等各种道路元素的准确分割，从而提供更精确的驾驶辅助和交通管理。在农业领域，语义分割大模型可以帮助农民对作物进行精确的分割和监测，从而实现精准农业管理。此外，在医学图像分析、环境监测、机器人导航等领域，语义分割大模型也有着广泛的应用前景。

尽管语义分割大模型在Segment Anything方面取得了重要进展，但仍面临一些挑战。例如，对于复杂场景和遮挡物体的分割仍然存在困难。而视频作为数据信息更丰富的载体，通过相机或物体的移动能够使人们更清晰地感知复杂场景下的一些遮挡信息，因此人们可以轻易通过视频来理解三维场景中的遮挡。在运动特征提取阶段，网络会选择一些关键点或特征点作为参考，这些点通常是图像中明显的边缘或纹理。然后根据这些特征点在相邻帧之间的位置变化来计算运动向量。利用视频相邻帧之间的相关性，能够构建物体在多个时刻的连续性描述，从而得到视觉效果连续的语义分割结果。

发明内容

针对现有技术中存在的不足，本发明目的是提供一种实现视频图像时域一致性语义分割的方法，可分析时域的连续性，从图像的特征层面，更快速的捕捉到运动信息，进而可产生视觉效果流畅、连续的多帧语义分割结果，用于三维生成、编辑等人物，显著提高视觉效果。

为解决上述技术问题，本发明提供的技术方案是：所述的实现视频图像时域一致性语义分割的方法，该方法包括以下步骤：

(1)基于ViT模型构建图像编码器，向编码器中输入原始图像，获得N个图像特征；

(2)对图像特征进行相关性挖掘处理，得到N-1个运动特征，并生成相邻图像特征对的运动特征；

(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码，生成得到第i帧掩膜，进而得到第1帧到第N-1帧的时域一致性掩膜；

(4)通过对多个视频的训练，最终生成时域连续的掩膜，实现时域一致的语义分割。

进一步地，在步骤(1)中，向所述编码器中输入原始图像，所述编码器将输入的图像分割成多个大小相同、宽高一致的图像patch，并将每个图像patch展平为一个向量，通过Transformer编码器对向量进行表示，每个图像patch对应一个一维向量表示，联合成为N个单帧图像特征。

进一步地，所述Transformer编码器由多个自注意力机制和前馈神经网络组成，所述自注意力机制用于学习多个图像patch之间的关系，所述前馈神经网络用于对每个图像patch的特征进行非线性变换。

进一步地，在步骤(2)中，采用基于Attention机制的多时域特征融合模型来对所述图像特征进行相关性挖掘处理。

进一步地，进行相关性挖掘处理的过称为，首先在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性，得到注意力权重矩阵，将输入数据的向量表示与注意力权重矩阵相乘，得到加权求和解，通过对每个图像特征进行加权来反映运动趋势，得到最终的运动特征的显示表示，即时域的运动特征。

进一步地，在步骤(3)中，融合的方式为，将第i个图像特征与第i+1个运动特征采样到一个空间维度上，将两者结合。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的语义分割方法的步骤流程示意图；

图2为实施例中采用现有语义分割方法对图像进行处理的示意图；

图3为实施例中采用本语义分割方法对图像进行处理的示意图。

具体实施方式

以下结合附图对本发明的优选实例进行说明，应当理解，此处所描述的优选实例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明所述的实现视频图像时域一致性语义分割的方法，包括以下步骤：

(1)基于ViT模型构建图像编码器，向编码器中输入原始图像，所述编码器将输入的图像分割成多个相同大小、宽高一致的图像patch，再通过ViT图像编码器对每个图像patch进行编码，每个patch最终对应一个一维向量表示，联合成为N个单帧图像特征。

所述Transformer编码器由多个自注意力机制和前馈神经网络组成，自注意力机制用于学习多个图像patch之间的关系，前馈神经网络用于对每个图像patch的特征进行非线性变换。

(2)采用基于Attention机制的多时域特征融合模型来对步骤(1)中获得的N个图像特征进行相关性挖掘处理，得到N-1组图像特征对，并生成相邻图像特征对的运动特征；

进行相关性挖掘处理的过程为，将第i个图像特征与第i+1个图像特征联合得到图像特征对，即在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性，得到注意力权重矩阵，进行运动编码，即将输入数据的向量表示与注意力权重矩阵相乘，得到加权求和解，通过对每个图像特征进行加权来反映运动趋势，得到最终的运动特征的显示表示，即时域的运动特征，N个图像共生成N-1个运动特征，可生成前N-1个图像的时域一致性语义分割结果；

具体的，首先将两帧空域相邻的编码进行相关性计算，每个图像特征向量与包括本身的所有特征向量求相关矩阵，设置W^Q，W^X，W^V三个可优化的矩阵，将相关矩阵与W^Q，W^X，W^V分别相乘，生成Q，K，V三个矩阵，随机设置初始值，并与每个相关矩阵进行相乘，利用Q，K，V矩阵通过如下公式计算每个相关矩阵的注意力矩阵A，输出的注意力矩阵A即为运动特征：

其中，softmax为激活函数，d表示QK^T的方差；

(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码，生成得到第i帧掩膜；

融合的方式为，将第i个图像特征与第i+1个运动特征采样到一个空间维度上，将两者结合，由此可得到第1帧到第N-1帧的时域一致性掩膜。将图像中的多个patch编码输出的一维特征连结成二维特征，并线性采样至与运动特征的前两维大小相同；将clip编码特征线性采样至与运动特征的前两维大小相同，随后将运动特征、图像特征和语义编码特征相连结。

(4)对多个视频的多个连续帧进行训练，在训练时，利用预训练的语义分割大模型的解码模块作为掩膜解码，固定语义分割大模型解码模块的参数，通过不断迭代优化Attention注意力矩阵的参数及W^Q，W^X，W^V三个矩阵参数，使其拟合至符合时域一致性的运动特征输出，由此可通过控制语义大模型的输入，实现时域一致性的视频语义大模型分割结果。

实施例：

如图2所示，该图采用了现有的独立单帧语义分割方法对图像进行处理，输入了时域多帧图像，要求输出黄色出租车的掩膜，从图中可看到，车顶的牌子时有时无，最后一帧左侧分割了不属于该车辆的其他车辆，不满足时域一致性。

图3为采用本方案的方法对图像进行处理，采用了基于语义大模型的掩膜解码，最终得到的图像中完整准确地输出了黄色出租车的掩膜。

分割提示的一般表现形式为关键词或在图像上的位置点，分割提示与多图像时域相关的特征共同送入掩膜解码网络，基于分割提示在相邻帧生成掩膜，得到最终的时域一致的语义分割结果。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实现视频图像时域一致性语义分割的方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的实现视频图像时域一致性语义分割的方法，其特征在于，在步骤(1)中，向所述编码器中输入原始图像，所述编码器将输入的图像分割成多个大小相同、宽高一致的图像patch，并将每个图像patch展平为一个向量，通过Transformer编码器对向量进行表示，每个图像patch对应一个一维向量表示，联合成为N个单帧图像特征。

3.根据权利要求2所述的实现视频图像时域一致性语义分割的方法，其特征在于，所述Transformer编码器由多个自注意力机制和前馈神经网络组成，所述自注意力机制用于学习多个图像patch之间的关系，所述前馈神经网络用于对每个图像patch的特征进行非线性变换。

4.根据权利要求2所述的实现视频图像时域一致性语义分割的方法，其特征在于，在步骤(2)中，采用基于Attention机制的多时域特征融合模型来对所述图像特征进行相关性挖掘处理。

5.根据权利要求4所述的实现视频图像时域一致性语义分割的方法，其特征在于，进行相关性挖掘处理的过称为，首先在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性，得到注意力权重矩阵，将输入数据的向量表示与注意力权重矩阵相乘，得到加权求和解，通过对每个图像特征进行加权来反映运动趋势，得到最终的运动特征的显示表示，即时域的运动特征。

6.根据权利要求1所述的实现视频图像时域一致性语义分割的方法，其特征在于，在步骤(3)中，融合的方式为，将第i个图像特征与第i+1个运动特征采样到一个空间维度上，将两者结合。