CN117456176A - 一种实现视频图像时域一致性语义分割的方法 - Google Patents

一种实现视频图像时域一致性语义分割的方法 Download PDF

Info

Publication number
CN117456176A
CN117456176A CN202311392100.9A CN202311392100A CN117456176A CN 117456176 A CN117456176 A CN 117456176A CN 202311392100 A CN202311392100 A CN 202311392100A CN 117456176 A CN117456176 A CN 117456176A
Authority
CN
China
Prior art keywords
image
semantic segmentation
feature
features
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311392100.9A
Other languages
English (en)
Inventor
张国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Industrial Internet Beijing Technology Group Co ltd
Original Assignee
China Industrial Internet Beijing Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Industrial Internet Beijing Technology Group Co ltd filed Critical China Industrial Internet Beijing Technology Group Co ltd
Priority to CN202311392100.9A priority Critical patent/CN117456176A/zh
Publication of CN117456176A publication Critical patent/CN117456176A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理、计算机视觉识别技术领域,具体涉及一种实现视频图像时域一致性语义分割的方法;在本方法中,首先对图像进行二维空域特征编码,随后利用自注意力机制构建相邻两帧之间的时域相关性,得到运动特征,再将图像特征与相邻帧的运动特征相融合,联合语义编码信息,送入基于语义大模型掩膜解码模块,进而通过语义分割大模型,实现对特定需求的分割掩膜,从而实现对整个视频连续一致的语义分割。本方法深入挖掘视频数据的时域连续性,联合空域编码和时域编码,从图像的特征层面,更快速的捕捉到运动信息,进而可产生视觉效果流畅、连续的多帧语义分割结果,用于三维生成、编辑等人物,显著提高视觉效果。

Description

一种实现视频图像时域一致性语义分割的方法
技术领域
本发明涉及图像处理、计算机视觉识别技术领域,具体涉及一种实现视频图像时域一致性语义分割的方法。
背景技术
语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素分配给特定的语义类别。与图像分类任务不同,语义分割要求对图像中的每个像素进行分类,因此需要更加细粒度的理解和推理能力。近年来,随着深度学习的快速发展,基于深度神经网络的语义分割方法取得了显著的进展。常规的语义分割大模型往往以卷积神经网络作为框架,通常由多个卷积层、池化层和上采样层组成,以提取图像中的特征并实现像素级别的分类。语义分割网络通过卷积操作有效提取图像的局部特征,并利用多层网络结构实现对图像的全局理解。此外,在细粒度的任务中,往往引入跳跃连接将底层特征与高层特征相融合以获得更丰富的语义信息,解决语义分割任务中的信息丢失问题,并提高模型的性能。另外,残差连接可以有效地解决梯度消失问题,使得网络能够更好地学习到图像的细节信息。传统的语义分割方法通常只能识别和分割出预定义的类别,如人、车、树等,而无法处理未知的物体或目标。然而,随着深度学习的发展,语义分割大模型能够实现对任意物体的分割,从而提供更加灵活和广泛的应用。
语义分割大模型是指具有大规模参数的深度神经网络模型,用于解决复杂的语义分割问题。近年来,许多基于语义分割的大模型已经被提出,并在各种计算机视觉任务中取得了显著的成果。例如,针对医学图像分割任务,一些大模型已经能够准确地识别和分割出病灶区域,帮助医生进行疾病诊断和治疗。此外,在自动驾驶领域,语义分割大模型可以帮助车辆准确地理解道路环境,实现智能驾驶。语义分割大模型是一种强大的工具,能够实现对图像中每个像素的精确分类。通过不断改进模型结构和优化算法,语义分割大模型在计算机视觉领域的应用前景广阔,将为我们提供更多的视觉理解和分析能力。2022年,Meta团队结合自然语言处理大模型,构建了语义分割大模型Segment Anything,可实现对任意物体或目标进行准确的分割。通过深度神经网络的端到端训练,可以自动学习到更丰富的特征表示和更准确的分类器,从而实现无需重新训练的任意物体的像素级分割结果。
Segment Anything的应用潜力巨大。例如,在智能交通领域,语义分割大模型可以实现对交通标志、行人、自行车等各种道路元素的准确分割,从而提供更精确的驾驶辅助和交通管理。在农业领域,语义分割大模型可以帮助农民对作物进行精确的分割和监测,从而实现精准农业管理。此外,在医学图像分析、环境监测、机器人导航等领域,语义分割大模型也有着广泛的应用前景。
尽管语义分割大模型在Segment Anything方面取得了重要进展,但仍面临一些挑战。例如,对于复杂场景和遮挡物体的分割仍然存在困难。而视频作为数据信息更丰富的载体,通过相机或物体的移动能够使人们更清晰地感知复杂场景下的一些遮挡信息,因此人们可以轻易通过视频来理解三维场景中的遮挡。在运动特征提取阶段,网络会选择一些关键点或特征点作为参考,这些点通常是图像中明显的边缘或纹理。然后根据这些特征点在相邻帧之间的位置变化来计算运动向量。利用视频相邻帧之间的相关性,能够构建物体在多个时刻的连续性描述,从而得到视觉效果连续的语义分割结果。
发明内容
针对现有技术中存在的不足,本发明目的是提供一种实现视频图像时域一致性语义分割的方法,可分析时域的连续性,从图像的特征层面,更快速的捕捉到运动信息,进而可产生视觉效果流畅、连续的多帧语义分割结果,用于三维生成、编辑等人物,显著提高视觉效果。
为解决上述技术问题,本发明提供的技术方案是:所述的实现视频图像时域一致性语义分割的方法,该方法包括以下步骤:
(1)基于ViT模型构建图像编码器,向编码器中输入原始图像,获得N个图像特征;
(2)对图像特征进行相关性挖掘处理,得到N-1个运动特征,并生成相邻图像特征对的运动特征;
(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码,生成得到第i帧掩膜,进而得到第1帧到第N-1帧的时域一致性掩膜;
(4)通过对多个视频的训练,最终生成时域连续的掩膜,实现时域一致的语义分割。
进一步地,在步骤(1)中,向所述编码器中输入原始图像,所述编码器将输入的图像分割成多个大小相同、宽高一致的图像patch,并将每个图像patch展平为一个向量,通过Transformer编码器对向量进行表示,每个图像patch对应一个一维向量表示,联合成为N个单帧图像特征。
进一步地,所述Transformer编码器由多个自注意力机制和前馈神经网络组成,所述自注意力机制用于学习多个图像patch之间的关系,所述前馈神经网络用于对每个图像patch的特征进行非线性变换。
进一步地,在步骤(2)中,采用基于Attention机制的多时域特征融合模型来对所述图像特征进行相关性挖掘处理。
进一步地,进行相关性挖掘处理的过称为,首先在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性,得到注意力权重矩阵,将输入数据的向量表示与注意力权重矩阵相乘,得到加权求和解,通过对每个图像特征进行加权来反映运动趋势,得到最终的运动特征的显示表示,即时域的运动特征。
进一步地,在步骤(3)中,融合的方式为,将第i个图像特征与第i+1个运动特征采样到一个空间维度上,将两者结合。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的语义分割方法的步骤流程示意图;
图2为实施例中采用现有语义分割方法对图像进行处理的示意图;
图3为实施例中采用本语义分割方法对图像进行处理的示意图。
具体实施方式
以下结合附图对本发明的优选实例进行说明,应当理解,此处所描述的优选实例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明所述的实现视频图像时域一致性语义分割的方法,包括以下步骤:
(1)基于ViT模型构建图像编码器,向编码器中输入原始图像,所述编码器将输入的图像分割成多个相同大小、宽高一致的图像patch,再通过ViT图像编码器对每个图像patch进行编码,每个patch最终对应一个一维向量表示,联合成为N个单帧图像特征。
所述Transformer编码器由多个自注意力机制和前馈神经网络组成,自注意力机制用于学习多个图像patch之间的关系,前馈神经网络用于对每个图像patch的特征进行非线性变换。
(2)采用基于Attention机制的多时域特征融合模型来对步骤(1)中获得的N个图像特征进行相关性挖掘处理,得到N-1组图像特征对,并生成相邻图像特征对的运动特征;
进行相关性挖掘处理的过程为,将第i个图像特征与第i+1个图像特征联合得到图像特征对,即在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性,得到注意力权重矩阵,进行运动编码,即将输入数据的向量表示与注意力权重矩阵相乘,得到加权求和解,通过对每个图像特征进行加权来反映运动趋势,得到最终的运动特征的显示表示,即时域的运动特征,N个图像共生成N-1个运动特征,可生成前N-1个图像的时域一致性语义分割结果;
具体的,首先将两帧空域相邻的编码进行相关性计算,每个图像特征向量与包括本身的所有特征向量求相关矩阵,设置WQ,WX,WV三个可优化的矩阵,将相关矩阵与WQ,WX,WV分别相乘,生成Q,K,V三个矩阵,随机设置初始值,并与每个相关矩阵进行相乘,利用Q,K,V矩阵通过如下公式计算每个相关矩阵的注意力矩阵A,输出的注意力矩阵A即为运动特征:
其中,softmax为激活函数,d表示QKT的方差;
(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码,生成得到第i帧掩膜;
融合的方式为,将第i个图像特征与第i+1个运动特征采样到一个空间维度上,将两者结合,由此可得到第1帧到第N-1帧的时域一致性掩膜。将图像中的多个patch编码输出的一维特征连结成二维特征,并线性采样至与运动特征的前两维大小相同;将clip编码特征线性采样至与运动特征的前两维大小相同,随后将运动特征、图像特征和语义编码特征相连结。
(4)对多个视频的多个连续帧进行训练,在训练时,利用预训练的语义分割大模型的解码模块作为掩膜解码,固定语义分割大模型解码模块的参数,通过不断迭代优化Attention注意力矩阵的参数及WQ,WX,WV三个矩阵参数,使其拟合至符合时域一致性的运动特征输出,由此可通过控制语义大模型的输入,实现时域一致性的视频语义大模型分割结果。
实施例:
如图2所示,该图采用了现有的独立单帧语义分割方法对图像进行处理,输入了时域多帧图像,要求输出黄色出租车的掩膜,从图中可看到,车顶的牌子时有时无,最后一帧左侧分割了不属于该车辆的其他车辆,不满足时域一致性。
图3为采用本方案的方法对图像进行处理,采用了基于语义大模型的掩膜解码,最终得到的图像中完整准确地输出了黄色出租车的掩膜。
分割提示的一般表现形式为关键词或在图像上的位置点,分割提示与多图像时域相关的特征共同送入掩膜解码网络,基于分割提示在相邻帧生成掩膜,得到最终的时域一致的语义分割结果。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种实现视频图像时域一致性语义分割的方法,其特征在于,该方法包括以下步骤:
(1)基于ViT模型构建图像编码器,向编码器中输入原始图像,获得N个图像特征;
(2)对图像特征进行相关性挖掘处理,得到N-1个运动特征,并生成相邻图像特征对的运动特征;
(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码,生成得到第i帧掩膜,进而得到第1帧到第N-1帧的时域一致性掩膜;
(4)通过对多个视频的训练,最终生成时域连续的掩膜,实现时域一致的语义分割。
2.根据权利要求1所述的实现视频图像时域一致性语义分割的方法,其特征在于,在步骤(1)中,向所述编码器中输入原始图像,所述编码器将输入的图像分割成多个大小相同、宽高一致的图像patch,并将每个图像patch展平为一个向量,通过Transformer编码器对向量进行表示,每个图像patch对应一个一维向量表示,联合成为N个单帧图像特征。
3.根据权利要求2所述的实现视频图像时域一致性语义分割的方法,其特征在于,所述Transformer编码器由多个自注意力机制和前馈神经网络组成,所述自注意力机制用于学习多个图像patch之间的关系,所述前馈神经网络用于对每个图像patch的特征进行非线性变换。
4.根据权利要求2所述的实现视频图像时域一致性语义分割的方法,其特征在于,在步骤(2)中,采用基于Attention机制的多时域特征融合模型来对所述图像特征进行相关性挖掘处理。
5.根据权利要求4所述的实现视频图像时域一致性语义分割的方法,其特征在于,进行相关性挖掘处理的过称为,首先在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性,得到注意力权重矩阵,将输入数据的向量表示与注意力权重矩阵相乘,得到加权求和解,通过对每个图像特征进行加权来反映运动趋势,得到最终的运动特征的显示表示,即时域的运动特征。
6.根据权利要求1所述的实现视频图像时域一致性语义分割的方法,其特征在于,在步骤(3)中,融合的方式为,将第i个图像特征与第i+1个运动特征采样到一个空间维度上,将两者结合。
CN202311392100.9A 2023-10-25 2023-10-25 一种实现视频图像时域一致性语义分割的方法 Pending CN117456176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311392100.9A CN117456176A (zh) 2023-10-25 2023-10-25 一种实现视频图像时域一致性语义分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311392100.9A CN117456176A (zh) 2023-10-25 2023-10-25 一种实现视频图像时域一致性语义分割的方法

Publications (1)

Publication Number Publication Date
CN117456176A true CN117456176A (zh) 2024-01-26

Family

ID=89592259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311392100.9A Pending CN117456176A (zh) 2023-10-25 2023-10-25 一种实现视频图像时域一致性语义分割的方法

Country Status (1)

Country Link
CN (1) CN117456176A (zh)

Similar Documents

Publication Publication Date Title
Seo et al. Masked world models for visual control
Finn et al. Unsupervised learning for physical interaction through video prediction
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN114882421B (zh) 一种基于时空特征增强图卷积网络的骨架行为识别方法
Akan et al. Stretchbev: Stretching future instance prediction spatially and temporally
CN111696110B (zh) 场景分割方法及系统
WO2023030182A1 (zh) 图像生成方法及装置
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113033276A (zh) 一种基于转换模块的行为识别方法
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
CN113139446A (zh) 一种端到端自动驾驶行为决策方法、系统及终端设备
CN116071701A (zh) 基于注意力机制和GSConv的YOLOv5行人检测方法
CN114066831A (zh) 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
Robert The Role of Deep Learning in Computer Vision
Gao et al. Edge Devices Friendly Self-Supervised Monocular Depth Estimation Via Knowledge Distillation
CN117710429A (zh) 一种融合CNN与Transformer改进的轻量化单目深度估计方法
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN112529047A (zh) 一种基于梯度屏蔽的对抗样本生成方法
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN113628107B (zh) 人脸图像超分辨率方法和系统
CN117456176A (zh) 一种实现视频图像时域一致性语义分割的方法
Yan et al. EMTNet: efficient mobile transformer network for real-time monocular depth estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination