CN117456176A - 一种实现视频图像时域一致性语义分割的方法 - Google Patents
一种实现视频图像时域一致性语义分割的方法 Download PDFInfo
- Publication number
- CN117456176A CN117456176A CN202311392100.9A CN202311392100A CN117456176A CN 117456176 A CN117456176 A CN 117456176A CN 202311392100 A CN202311392100 A CN 202311392100A CN 117456176 A CN117456176 A CN 117456176A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic segmentation
- feature
- features
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000033001 locomotion Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000005065 mining Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 3
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理、计算机视觉识别技术领域,具体涉及一种实现视频图像时域一致性语义分割的方法;在本方法中,首先对图像进行二维空域特征编码,随后利用自注意力机制构建相邻两帧之间的时域相关性,得到运动特征,再将图像特征与相邻帧的运动特征相融合,联合语义编码信息,送入基于语义大模型掩膜解码模块,进而通过语义分割大模型,实现对特定需求的分割掩膜,从而实现对整个视频连续一致的语义分割。本方法深入挖掘视频数据的时域连续性,联合空域编码和时域编码,从图像的特征层面,更快速的捕捉到运动信息,进而可产生视觉效果流畅、连续的多帧语义分割结果,用于三维生成、编辑等人物,显著提高视觉效果。
Description
技术领域
本发明涉及图像处理、计算机视觉识别技术领域,具体涉及一种实现视频图像时域一致性语义分割的方法。
背景技术
语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素分配给特定的语义类别。与图像分类任务不同,语义分割要求对图像中的每个像素进行分类,因此需要更加细粒度的理解和推理能力。近年来,随着深度学习的快速发展,基于深度神经网络的语义分割方法取得了显著的进展。常规的语义分割大模型往往以卷积神经网络作为框架,通常由多个卷积层、池化层和上采样层组成,以提取图像中的特征并实现像素级别的分类。语义分割网络通过卷积操作有效提取图像的局部特征,并利用多层网络结构实现对图像的全局理解。此外,在细粒度的任务中,往往引入跳跃连接将底层特征与高层特征相融合以获得更丰富的语义信息,解决语义分割任务中的信息丢失问题,并提高模型的性能。另外,残差连接可以有效地解决梯度消失问题,使得网络能够更好地学习到图像的细节信息。传统的语义分割方法通常只能识别和分割出预定义的类别,如人、车、树等,而无法处理未知的物体或目标。然而,随着深度学习的发展,语义分割大模型能够实现对任意物体的分割,从而提供更加灵活和广泛的应用。
语义分割大模型是指具有大规模参数的深度神经网络模型,用于解决复杂的语义分割问题。近年来,许多基于语义分割的大模型已经被提出,并在各种计算机视觉任务中取得了显著的成果。例如,针对医学图像分割任务,一些大模型已经能够准确地识别和分割出病灶区域,帮助医生进行疾病诊断和治疗。此外,在自动驾驶领域,语义分割大模型可以帮助车辆准确地理解道路环境,实现智能驾驶。语义分割大模型是一种强大的工具,能够实现对图像中每个像素的精确分类。通过不断改进模型结构和优化算法,语义分割大模型在计算机视觉领域的应用前景广阔,将为我们提供更多的视觉理解和分析能力。2022年,Meta团队结合自然语言处理大模型,构建了语义分割大模型Segment Anything,可实现对任意物体或目标进行准确的分割。通过深度神经网络的端到端训练,可以自动学习到更丰富的特征表示和更准确的分类器,从而实现无需重新训练的任意物体的像素级分割结果。
Segment Anything的应用潜力巨大。例如,在智能交通领域,语义分割大模型可以实现对交通标志、行人、自行车等各种道路元素的准确分割,从而提供更精确的驾驶辅助和交通管理。在农业领域,语义分割大模型可以帮助农民对作物进行精确的分割和监测,从而实现精准农业管理。此外,在医学图像分析、环境监测、机器人导航等领域,语义分割大模型也有着广泛的应用前景。
尽管语义分割大模型在Segment Anything方面取得了重要进展,但仍面临一些挑战。例如,对于复杂场景和遮挡物体的分割仍然存在困难。而视频作为数据信息更丰富的载体,通过相机或物体的移动能够使人们更清晰地感知复杂场景下的一些遮挡信息,因此人们可以轻易通过视频来理解三维场景中的遮挡。在运动特征提取阶段,网络会选择一些关键点或特征点作为参考,这些点通常是图像中明显的边缘或纹理。然后根据这些特征点在相邻帧之间的位置变化来计算运动向量。利用视频相邻帧之间的相关性,能够构建物体在多个时刻的连续性描述,从而得到视觉效果连续的语义分割结果。
发明内容
针对现有技术中存在的不足,本发明目的是提供一种实现视频图像时域一致性语义分割的方法,可分析时域的连续性,从图像的特征层面,更快速的捕捉到运动信息,进而可产生视觉效果流畅、连续的多帧语义分割结果,用于三维生成、编辑等人物,显著提高视觉效果。
为解决上述技术问题,本发明提供的技术方案是:所述的实现视频图像时域一致性语义分割的方法,该方法包括以下步骤:
(1)基于ViT模型构建图像编码器,向编码器中输入原始图像,获得N个图像特征;
(2)对图像特征进行相关性挖掘处理,得到N-1个运动特征,并生成相邻图像特征对的运动特征;
(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码,生成得到第i帧掩膜,进而得到第1帧到第N-1帧的时域一致性掩膜;
(4)通过对多个视频的训练,最终生成时域连续的掩膜,实现时域一致的语义分割。
进一步地,在步骤(1)中,向所述编码器中输入原始图像,所述编码器将输入的图像分割成多个大小相同、宽高一致的图像patch,并将每个图像patch展平为一个向量,通过Transformer编码器对向量进行表示,每个图像patch对应一个一维向量表示,联合成为N个单帧图像特征。
进一步地,所述Transformer编码器由多个自注意力机制和前馈神经网络组成,所述自注意力机制用于学习多个图像patch之间的关系,所述前馈神经网络用于对每个图像patch的特征进行非线性变换。
进一步地,在步骤(2)中,采用基于Attention机制的多时域特征融合模型来对所述图像特征进行相关性挖掘处理。
进一步地,进行相关性挖掘处理的过称为,首先在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性,得到注意力权重矩阵,将输入数据的向量表示与注意力权重矩阵相乘,得到加权求和解,通过对每个图像特征进行加权来反映运动趋势,得到最终的运动特征的显示表示,即时域的运动特征。
进一步地,在步骤(3)中,融合的方式为,将第i个图像特征与第i+1个运动特征采样到一个空间维度上,将两者结合。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的语义分割方法的步骤流程示意图;
图2为实施例中采用现有语义分割方法对图像进行处理的示意图;
图3为实施例中采用本语义分割方法对图像进行处理的示意图。
具体实施方式
以下结合附图对本发明的优选实例进行说明,应当理解,此处所描述的优选实例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明所述的实现视频图像时域一致性语义分割的方法,包括以下步骤:
(1)基于ViT模型构建图像编码器,向编码器中输入原始图像,所述编码器将输入的图像分割成多个相同大小、宽高一致的图像patch,再通过ViT图像编码器对每个图像patch进行编码,每个patch最终对应一个一维向量表示,联合成为N个单帧图像特征。
所述Transformer编码器由多个自注意力机制和前馈神经网络组成,自注意力机制用于学习多个图像patch之间的关系,前馈神经网络用于对每个图像patch的特征进行非线性变换。
(2)采用基于Attention机制的多时域特征融合模型来对步骤(1)中获得的N个图像特征进行相关性挖掘处理,得到N-1组图像特征对,并生成相邻图像特征对的运动特征;
进行相关性挖掘处理的过程为,将第i个图像特征与第i+1个图像特征联合得到图像特征对,即在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性,得到注意力权重矩阵,进行运动编码,即将输入数据的向量表示与注意力权重矩阵相乘,得到加权求和解,通过对每个图像特征进行加权来反映运动趋势,得到最终的运动特征的显示表示,即时域的运动特征,N个图像共生成N-1个运动特征,可生成前N-1个图像的时域一致性语义分割结果;
具体的,首先将两帧空域相邻的编码进行相关性计算,每个图像特征向量与包括本身的所有特征向量求相关矩阵,设置WQ,WX,WV三个可优化的矩阵,将相关矩阵与WQ,WX,WV分别相乘,生成Q,K,V三个矩阵,随机设置初始值,并与每个相关矩阵进行相乘,利用Q,K,V矩阵通过如下公式计算每个相关矩阵的注意力矩阵A,输出的注意力矩阵A即为运动特征:
其中,softmax为激活函数,d表示QKT的方差;
(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码,生成得到第i帧掩膜;
融合的方式为,将第i个图像特征与第i+1个运动特征采样到一个空间维度上,将两者结合,由此可得到第1帧到第N-1帧的时域一致性掩膜。将图像中的多个patch编码输出的一维特征连结成二维特征,并线性采样至与运动特征的前两维大小相同;将clip编码特征线性采样至与运动特征的前两维大小相同,随后将运动特征、图像特征和语义编码特征相连结。
(4)对多个视频的多个连续帧进行训练,在训练时,利用预训练的语义分割大模型的解码模块作为掩膜解码,固定语义分割大模型解码模块的参数,通过不断迭代优化Attention注意力矩阵的参数及WQ,WX,WV三个矩阵参数,使其拟合至符合时域一致性的运动特征输出,由此可通过控制语义大模型的输入,实现时域一致性的视频语义大模型分割结果。
实施例:
如图2所示,该图采用了现有的独立单帧语义分割方法对图像进行处理,输入了时域多帧图像,要求输出黄色出租车的掩膜,从图中可看到,车顶的牌子时有时无,最后一帧左侧分割了不属于该车辆的其他车辆,不满足时域一致性。
图3为采用本方案的方法对图像进行处理,采用了基于语义大模型的掩膜解码,最终得到的图像中完整准确地输出了黄色出租车的掩膜。
分割提示的一般表现形式为关键词或在图像上的位置点,分割提示与多图像时域相关的特征共同送入掩膜解码网络,基于分割提示在相邻帧生成掩膜,得到最终的时域一致的语义分割结果。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种实现视频图像时域一致性语义分割的方法,其特征在于,该方法包括以下步骤:
(1)基于ViT模型构建图像编码器,向编码器中输入原始图像,获得N个图像特征;
(2)对图像特征进行相关性挖掘处理,得到N-1个运动特征,并生成相邻图像特征对的运动特征;
(3)将第i个图像特征与第i+1个运动特征相融合并运用于第i个图像特征的掩膜解码,生成得到第i帧掩膜,进而得到第1帧到第N-1帧的时域一致性掩膜;
(4)通过对多个视频的训练,最终生成时域连续的掩膜,实现时域一致的语义分割。
2.根据权利要求1所述的实现视频图像时域一致性语义分割的方法,其特征在于,在步骤(1)中,向所述编码器中输入原始图像,所述编码器将输入的图像分割成多个大小相同、宽高一致的图像patch,并将每个图像patch展平为一个向量,通过Transformer编码器对向量进行表示,每个图像patch对应一个一维向量表示,联合成为N个单帧图像特征。
3.根据权利要求2所述的实现视频图像时域一致性语义分割的方法,其特征在于,所述Transformer编码器由多个自注意力机制和前馈神经网络组成,所述自注意力机制用于学习多个图像patch之间的关系,所述前馈神经网络用于对每个图像patch的特征进行非线性变换。
4.根据权利要求2所述的实现视频图像时域一致性语义分割的方法,其特征在于,在步骤(2)中,采用基于Attention机制的多时域特征融合模型来对所述图像特征进行相关性挖掘处理。
5.根据权利要求4所述的实现视频图像时域一致性语义分割的方法,其特征在于,进行相关性挖掘处理的过称为,首先在每两个连续帧之间通过计算输入数据中每个图像特征与其他图像特征之间的相关性,得到注意力权重矩阵,将输入数据的向量表示与注意力权重矩阵相乘,得到加权求和解,通过对每个图像特征进行加权来反映运动趋势,得到最终的运动特征的显示表示,即时域的运动特征。
6.根据权利要求1所述的实现视频图像时域一致性语义分割的方法,其特征在于,在步骤(3)中,融合的方式为,将第i个图像特征与第i+1个运动特征采样到一个空间维度上,将两者结合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311392100.9A CN117456176A (zh) | 2023-10-25 | 2023-10-25 | 一种实现视频图像时域一致性语义分割的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311392100.9A CN117456176A (zh) | 2023-10-25 | 2023-10-25 | 一种实现视频图像时域一致性语义分割的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117456176A true CN117456176A (zh) | 2024-01-26 |
Family
ID=89592259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311392100.9A Pending CN117456176A (zh) | 2023-10-25 | 2023-10-25 | 一种实现视频图像时域一致性语义分割的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456176A (zh) |
-
2023
- 2023-10-25 CN CN202311392100.9A patent/CN117456176A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seo et al. | Masked world models for visual control | |
Finn et al. | Unsupervised learning for physical interaction through video prediction | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN114882421B (zh) | 一种基于时空特征增强图卷积网络的骨架行为识别方法 | |
Akan et al. | Stretchbev: Stretching future instance prediction spatially and temporally | |
CN111696110B (zh) | 场景分割方法及系统 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN113139446A (zh) | 一种端到端自动驾驶行为决策方法、系统及终端设备 | |
CN116071701A (zh) | 基于注意力机制和GSConv的YOLOv5行人检测方法 | |
CN114066831A (zh) | 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法 | |
CN114638408A (zh) | 一种基于时空信息的行人轨迹预测方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
Du et al. | Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles | |
Robert | The Role of Deep Learning in Computer Vision | |
Gao et al. | Edge Devices Friendly Self-Supervised Monocular Depth Estimation Via Knowledge Distillation | |
CN117710429A (zh) | 一种融合CNN与Transformer改进的轻量化单目深度估计方法 | |
Chacon-Murguia et al. | Moving object detection in video sequences based on a two-frame temporal information CNN | |
CN112529047A (zh) | 一种基于梯度屏蔽的对抗样本生成方法 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN113628107B (zh) | 人脸图像超分辨率方法和系统 | |
CN117456176A (zh) | 一种实现视频图像时域一致性语义分割的方法 | |
Yan et al. | EMTNet: efficient mobile transformer network for real-time monocular depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |