CN114120202A - 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法 - Google Patents

一种基于多尺度目标模型和特征融合的半监督视频目标分割方法 Download PDF

Info

Publication number
CN114120202A
CN114120202A CN202111451336.6A CN202111451336A CN114120202A CN 114120202 A CN114120202 A CN 114120202A CN 202111451336 A CN202111451336 A CN 202111451336A CN 114120202 A CN114120202 A CN 114120202A
Authority
CN
China
Prior art keywords
module
target
feature
segmentation
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111451336.6A
Other languages
English (en)
Other versions
CN114120202B (zh
Inventor
阳春华
高博聪
赵于前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202111451336.6A priority Critical patent/CN114120202B/zh
Publication of CN114120202A publication Critical patent/CN114120202A/zh
Application granted granted Critical
Publication of CN114120202B publication Critical patent/CN114120202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,包括:获取视频分割相关数据集以及对应的分割标签;构建特征提取模块,提取视频图像中所包含的信息;构建多尺度目标模型,捕获不同尺度的目标外观细节,同时提升推理速度;构建由特征融合模块、通道注意力模块以及细化残差模块构成的分割解码器,突出视频的帧间目标变化,并将目标外观信息恢复至高分辨率,得到对应帧的目标分割结果;构建缓存池用于多尺度目标模型的参数更新,逐帧对视频序列进行推理,得到视频目标分割结果。本发明方法能够有效提升对视频中小目标、难分割目标的分割精度,同时可保证视频目标分割的快速性。

Description

一种基于多尺度目标模型和特征融合的半监督视频目标分割 方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于多尺度目标模型和特征融合的半监督视频目标分割方法。
背景技术
视频目标分割(VOS)是计算机视觉中的一项具有挑战性的任务,在自动驾驶、视频摘要、人机交互等方面均有着广泛的应用。其中半监督视频目标分割是给定一段视频和第一帧的目标物体,在视频的其余帧中分割出该目标物体。在一个视频序列中,目标物体往往会因为一些复杂因素如形变、遮挡、镜头抖动等而发生很大的外观改变,同时视频中往往会存在高速移动的物体,非常容易造成预测偏移。因此,研究一种高效、准确的半监督视频目标分割方法对于自动驾驶、视频摘要等应用场景具有重要意义。
现有的半监督视频目标分割方法一般可分为基于运动和基于检测两大类。基于运动的方法利用目标运动的时空相关性,将目标分割看作为目标掩膜从第一帧到后续帧的传播;这类分割技术当遇到目标物体在视频序列中消失等情况时,由于无法捕捉目标物体,导致准确率大幅降低。基于检测的方法并不使用时间信息,而是学习外观模型,在每一帧中对目标进行像素级分割;这类分割技术鲁棒性较强,保证了分割的准确性,但需要在每一帧上对整个网络进行微调,严重影响推理速度。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,该方法通过多尺度目标模型学习目标外观信息,设计特征融合模块捕捉帧间动态变化,从而有效利用视频帧间的关联信息,提高模型的准确性和鲁棒性,并保证高效的推理速度。
一、技术原理
现有的半监督视频目标分割方法大多考虑目标物体在视频序列中的时空关联信息,将目标分割看作为目标掩膜从第一帧到后续帧的传播,但现有技术并不能很好的解决目标消失或者严重遮挡等复杂情况带来的分割偏差,而后续传播则会进一步放大偏差,影响分割效果。为了更好地解决偏差影响,本发明提出了特征融合模块:通过对来自不同帧的目标特征信息进行自适应融合,来捕捉不同视频帧之间目标的动态变化,提升视频目标分割的准确率。
另外还有一些半监督视频目标分割方法不考虑目标物体在视频序列中的时空关联信息,通过对每一帧视频图像进行网络微调,来拟合目标外观模型,由于网络微调的庞大运算量,这类方法往往速度较慢,难以实现实时的视频推理。为了更加快速地实现视频目标分割,本发明提出了多尺度目标模型,使用两个独立的浅层模型来提取不同尺度的目标外观信息,在充分保证目标外观细节的前提下代替整个网络进行微调,在保证视频分割准确率的同时大幅提升视频推理速度。
二、根据上述原理,本发明通过以下方案实现:
一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,包括以下步骤:
(1)获取数据集与分割标签:
获取半监督视频目标分割数据集与对应的分割标签;
(2)构建分割模型,具体包括以下步骤:
(2-a)构建特征提取器,其中共包括一层卷积模块和四层残差模块,视频图像依次经过卷积模块及四层残差模块,分别得到残差模块对应的中间特征图xr1、xr2、xr3、xr4;第一层残差模块包括一个池化层和三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第一层残差模块的输出为中间特征图xr1;第二层残差模块包括四个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第二层残差模块的输出为中间特征图xr2;第三层残差模块包括六个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第三层残差模块的输出为中间特征图xr3;第四层残差模块包括三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第四层残差模块的输出为中间特征图xr4
(2-b)构建多尺度目标模型,该模型由两个独立的目标模型Tl和Th构成,两者各包括一个1×1卷积模块和一个3×3卷积模块,将步骤(2-a)得到的中间特征图xr2和xr3分别作为Tl和Th的输入;目标模型Tl和Th中的1×1卷积模块都是对特征进行降维;目标模型Tl中的3×3卷积模块得到低维目标外观信息csl,目标模型Th中的3×3卷积模块得到高维目标外观信息csh;该模型的作用是在视频推理阶段学习目标外观信息,提升视频推理速度,具体公式可表示为:
Figure BDA0003385342810000031
Figure BDA0003385342810000032
其中
Figure BDA0003385342810000033
Figure BDA0003385342810000034
分别表示Tl中的1×1卷积模块和3×3卷积模块,
Figure BDA0003385342810000035
Figure BDA0003385342810000036
分别表示Th中的1×1卷积模块和3×3卷积模块,·表示卷积操作;
(2-c)构建分割解码器,其中包括四层解码结构,第一层解码结构包括一个特征融合模块,一个全局池化模块,一个通道注意力模块和一个细化残差模块;第二、三、四层解码结构均包括一个特征融合模块,一个通道注意力模块和一个细化残差模块;
特征融合模块的作用是将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合,来捕捉不同视频帧之间目标的动态变化,该模块包括尺度转换和自适应融合两个部分,其中尺度转换部分将目标外观信息与中间特征图映射到同一尺度并拼接到一起,自适应融合部分计算拼接后的特征图中的各特征通道权重并进行适应性加权,具体过程为:
qd=Concat[U(csl),U(csh),R(xrd)]
Figure BDA0003385342810000037
其中xrd表示步骤(2-a)中得到的中间特征图,xrd中d的值取1,2,3,4,分别对应中间特征图xr1、xr2、xr3、xr4,csl和csh表示(2-b)中得到的低维和高维目标外观信息,R表示降维操作,U表示上采样操作,
Figure BDA0003385342810000038
表示逐像素相乘操作,
Figure BDA0003385342810000039
表示逐像素相加操作,Concat表示拼接操作,qd表示拼接后的特征图;Pool表示全局池化操作,Gate表示1×1卷积操作,σ表示sigmoid函数,Conv表示3×3卷积操作,sd表示融合特征图;
通道注意力模块的作用是将不同层的特征图进行通道注意力优化,提升分割效果;通道注意力模块将同一特征层中通过步骤(2-c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2-c)中细化残差模块得到的目标特征图合并后进行全局池化,得到初始通道权重,其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替;初始通道权重依次通过由1×1卷积块、ReLU函数、1×1卷积块和sigmoid函数组成的通道注意力结构进行权重优化;将优化后的通道权重与融合特征图进行逐像素相乘,再将相乘结果与经过上采样操作的目标特征图进行逐像素相加,得到注意力特征图。
细化残差模块的作用是对特征图进行进一步细化,优化目标细节;细化残差模块的输入为同一特征层中步骤(2-c)中通道注意力模块得到的注意力特征图,将注意力特征图依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块后得到的特征图与原注意力特征图通过1×1卷积块后得到的特征图进行逐像素相加,再通过ReLU函数得到目标特征图。
(2-d)将步骤(2-a)中得到的中间特征图xr4与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第一层解码结构内的特征融合模块中,得到融合特征图s4,对s4进行全局池化操作,其结果与s4一起输入到第一层解码结构内的通道注意力模块,再经过细化残差模块,得到目标特征图o4
将步骤(2-a)中得到的中间特征图xr3与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第二层解码结构内的特征融合模块中,得到融合特征图s3,将s3与第一层解码结构输出的目标特征图o4一起输入到第二层解码结构内的通道注意力模块中,再经过细化残差模块,得到目标特征图o3
将步骤(2-a)中得到的中间特征图xr2与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第三层解码结构内的特征融合模块中,得到融合特征图s2,将s2与第二层解码结构输出的目标特征图o3一起输入到第三层解码结构内的通道注意力模块中,再经过细化残差模块,得到目标特征图o2
将步骤(2-a)中得到的中间特征图xr1与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第四层解码结构内的特征融合模块中,得到融合特征图s1,将s1与第三层解码结构输出的目标特征图o2一起输入到第四层解码结构内的通道注意力模块中,再经过细化残差模块,得到目标特征图o1
将目标特征图o1进行上采样,得到分割结果
Figure BDA0003385342810000041
完成分割模型的构建;
(3)训练分割模型:
利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型,该模型中的特征提取器使用预训练模型,不更新模型参数;使用交叉熵作为分割模型的损失函数得到损失值,并使用Adam算法更新分割模型内除特征提取器外的模型参数,直到损失值不再下降,得到训练好的分割模型;
(4)推理:
将测试视频数据逐帧输入至分割模型;输入初始帧后,使用步骤(2-a)中构建的特征提取器提取特征,并初始化缓存池M,缓存池M用于存储步骤(2-a)中得到的中间特征图xr2和xr3、步骤(2-d)中得到的分割结果
Figure BDA0003385342810000051
以及每帧的样本权重θ,缓存池具体结构可表示为:
Figure BDA0003385342810000052
其中N为缓存池最大容量,N为整数,且50≤N≤100,xr2和xr3为步骤(2-a)中得到的中间特征图,
Figure BDA0003385342810000053
存在两种情况:在初始帧中
Figure BDA0003385342810000054
表示该帧对应标签,在其余帧中
Figure BDA0003385342810000055
则表示步骤(2-d)中得到的分割结果,θ表示样本权重;
接着按顺序输入其余帧,使用步骤(2-a)中构建的特征提取器提取特征,使用步骤(2-b)中构建的多尺度目标模型提取目标外观信息,使用(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息,得到对应帧的分割结果
Figure BDA0003385342810000056
将步骤(2-a)中得到的中间特征图xr2和xr3、步骤(2-c)中得到的分割结果
Figure BDA0003385342810000057
以及对应的样本权重θ制作成新的样本数据存入缓存池;更新缓存池样本权重θ:
θi=θi-1·(1+δ)
其中θi表示第i帧对应的样本权重,θi-1表示第i-1帧对应的样本权重,δ为权重更新参数,且0≤δ≤1;当缓存池容量达到N后,通过删除权重最小的样本来更新权重;
(5)视频目标分割:
获取推理阶段中测试视频序列的各帧分割结果,与原图进行混合加权融合,并制作成视频流,得到视频目标分割结果。
本发明与现有技术相比,有以下优点:
(1)本发明提出的多尺度目标模型,能够获取不同尺度的视频图像特征信息,从而捕捉更丰富的目标外观细节,同时避免在推理阶段对整个网络进行微调来拟合外观模型,大幅提升推理速度。
(2)本发明提出的特征融合模块,能够将多尺度目标模型生成的特征图与主干特征进行适应性融合,通过注意力机制进行权重分配,突出视频内不同帧之间的目标动态变化情况,提升分割精度。
附图说明
图1本发明实施方式的基于多尺度目标模型和特征融合的半监督视频目标分割方法流程图;
图2本发明实施方式中构建的视频目标分割模型总体框架及推理流程图;
图3本发明实施方式分割模型中的多尺度目标模型结构图;
图4本发明实施方式分割模型中的分割解码器结构图;
图5本发明实施方式分割解码器中的特征融合模块结构图;
图6本发明实施方式分割解码器中的通道注意力模块结构图;
图7本发明实施方式分割解码器中的细化残差模块结构图;
图8本发明实施方式对视频序列的分割结果与其他方法分割结果对比图。
具体实施方式
下面说明本发明具体实施方式:
实施例1
图1所示为本发明实施方式的基于多尺度目标模型和特征融合的半监督视频目标分割方法流程图,具体步骤如下:
步骤1,获取数据集与分割标签。
获取视频目标分割公开数据集与对应的分割标签。
步骤2,构建分割模型。
图2所示为本发明实施方式中构建的视频目标分割模型总体框架及推理流程图,具体步骤如下:
(2-a)构建特征提取器,其中共包括一组卷积模块和四组残差模块,视频图像依次经过卷积模块及四组残差模块:第一层残差模块包括一个池化层和三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,输入为3×480×864的可见光图像,输出为256×240×432的中间特征图xr1,第二层残差模块包四个残差卷积模块,每个残差卷积模块内包括三个卷积模块,输入为256×240×432的特征图,输出为512×120×216的中间特征图xr2;第三层残差模块包括六个残差卷积模块,每个残差卷积模块内包括三个卷积模块,输入为512×120×216的特征图,输出为1024×60×108的中间特征图xr3;第四层残差模块包括三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,输入为1024×60×108的特征图,输出为2048×30×54的中间特征图xr4
(2-b)构建多尺度目标模型,图3所示为本发明实施方式总体模型中的多尺度目标模型结构图。多尺度目标模型为两个独立模型,两者各自包括两个卷积模块,将步骤(2-a)得到的中间特征图中的低维特征xr2和高维特征xr3分别作为两个模型的输入,第一个卷积模块尺寸为1×1,目的是将特征通道降至64维,两个独立模型分别得到64×120×216和64×60×108的中间特征图;第二个卷积模块尺寸为3×3,两个独立模型分别得到1×120×216的低维目标信息csl和1×60×108的高维目标信息csh,多尺度目标模型的具体公式可表示为:
Figure BDA0003385342810000071
Figure BDA0003385342810000072
其中
Figure BDA0003385342810000073
Figure BDA0003385342810000074
分别表示Tl中的1×1卷积模块和3×3卷积模块,
Figure BDA0003385342810000075
Figure BDA0003385342810000076
分别表示Th中的1×1卷积模块和3×3卷积模块,·表示卷积操作.
(2-c)构建分割解码器,图4所示为本发明实施方式总体模型中的分割解码器结构图。其中包含三种重要结构:特征融合模块、通道注意力模块和细化残差模块。
图5所示为本发明实施方式分割解码器中的特征融合模块结构图,特征融合模块将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合,来捕捉不同视频帧之间目标的动态变化,具体过程为:
qd=Concat[U(csl),U(csh),R(xrd)]
Figure BDA0003385342810000077
其中xrd表示步骤(2-a)中得到的中间特征图,xrd中d的值取1,2,3,4,分别对应中间特征图xr1、xr2、xr3、xr4,以第三层中间层(d=3)为例,输入尺寸为1024×60×108的中间特征图xr3;csl和csh为(2-b)中得到的低维和高维目标外观信息,低维度尺寸为1×120×216,高维度为1×60×108;R表示为降维操作,将中间特征图降至64维,输出尺寸为64×60×108;U表示上采样操作,将多尺度目标外观信息csl和csh上采样至和中间特征图xr3相同的尺寸;进而通过拼接操作Concat将三者合并,输出为66×60×108的特征图q3;将合并后的特征图q3进行全局池化操作Pool,再通过1×1卷积块Gate以及sigmoid函数σ,得到尺寸为66×1×1的通道权重值;将权重与特征图q3进行逐像素相乘
Figure BDA0003385342810000081
得到各通道的适应性占比,进而将比值与特征图q3进行逐像素相加
Figure BDA0003385342810000082
并通过3×3卷积块Conv,得到最后尺寸为66×60×108融合特征图s3
图6所示为本发明实施方式分割解码器中的通道注意力模块结构图,通道注意力模块将不同层的特征图进行通道注意力优化,提升分割效果;通道注意力模块将同一特征层中通过步骤(2-c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2-c)中细化残差模块得到的目标特征图合并后进行全局池化,得到初始通道权重,其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替;以第三层中间层为例,左侧输入为66×60×108的融合特征图s3,下侧输入为66×30×54的目标特征图o4,两个合并后进行全局池化,得到132×1×1的初始通道权重;而后依次通过1×1卷积块(降维至66维)、ReLU函数、1×1卷积块和sigmoid函数的注意力结构进行权重优化,得到66×1×1的通道权重占比;将通道权重占比与融合特征图s3进行逐元素相乘,再相乘结果与经过上采样操作的目标特征图进行逐元素相加,得到最后尺寸为66×60×108的注意力特征图;
图7所示为本发明实施方式分割解码器中的细化残差模块结构图,以第三层中间层为例,输入为66×60×108的注意力特征图,依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块,将得到的特征图与原注意力特征图逐像素相加,并通过ReLU函数输出66×60×108的目标特征图;
(2-d)图4所示为本发明实施方式总体模型中的分割解码器结构图,分割解码器的具体运行流程为:将步骤(2-a)中得到的尺寸为2048×30×54的中间特征图xr4与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第一层解码结构内的特征融合模块中得到66×30×54的融合特征图s4,再经过通道注意力模块和细化残差模块得到输出为66×30×54的解码特征图o4;将步骤(2-a)中得到的尺寸为1024×60×108的中间特征图xr3与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第二层解码结构内的特征融合模块中得到66×60×108的融合特征图s3,并将第一层解码结构的输出o4输入到第二层解码结构内的通道注意力模块中,再经过通道注意力模块和细化残差模块得到输出为66×60×108的解码特征图o3;将步骤(2-a)中得到的尺寸为512×120×216的中间特征图xr2与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第三层解码结构内的特征融合模块中得到66×120×216的融合特征图s2,并将第二层解码结构的输出o3输入到第三层解码结构内的通道注意力机制中,再经过通道注意力模块和细化残差模块得到输出为66×120×216的解码特征图o2;将步骤(2-a)中得到的尺寸为256×240×432的中间特征图xr1与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第四层解码结构内的特征融合模块中得到66×240×432的融合特征图s1,并将第三层解码结构的输出o2输入到第四层解码结构内的通道注意力机制中,再经过通道注意力模块和细化残差模块得到输出为66×240×432的解码特征图o1;将第四层解码结构的输出o1进行上采样操作并降维,得到尺寸为1×480×864的预测结果y,完成分割模型的构建。
步骤3,训练分割模型。
利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型,其中步骤(2-a)构建的特征提取器使用预训练模型,模型权重不再更新;使用交叉熵作为整个模型的损失函数得到损失值,并使用ADAM算法更新分割模型内的参数,迭代次数为240次,初始学习率0.0001,后133次迭代的学习率衰减至设为直到损失值不再下降,得到训练好的分割模型。
步骤4,推理阶段。
图2所示为本发明实施方式中构建的视频目标分割模型总体框架及推理流程图,将测试视频数据逐帧输入至分割网络;输入初始帧后,使用步骤(2-a)中构建的特征提取器提取特征,并初始化缓存池M,缓存池M存储样本信息来更新多尺度目标模型,缓存池M整体可表示为:
Figure BDA0003385342810000091
其中N为缓存池最大容量,N为整数,且50≤N≤100,xr2和xr3为步骤(2-a)中得到的中间特征图,
Figure BDA0003385342810000092
存在两种情况:在初始帧中
Figure BDA0003385342810000093
表示该帧对应标签,在其余帧中
Figure BDA0003385342810000094
则表示步骤(2-d)中得到的分割结果,θ表示样本权重;
接着按顺序输入其余帧,使用步骤(2-a)中构建的特征提取器得到中间特征图xr1、xr2、xr3、xr4,使用步骤(2-b)中构建的多尺度目标模型得到目标外观信息csl和csh,使用步骤(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息,得到对应帧的分割结果
Figure BDA0003385342810000101
将步骤(2-a)中得到的中间特征图xr2和xr3、步骤(2-c)中得到的分割结果
Figure BDA0003385342810000102
以及对应的样本权重θ制作成新的样本数据存入缓存池;更新缓存池样本权重θ:
θi=θi-1·(1+δ)
其中θi表示第i帧对应的样本权重,θi-1表示第i-1帧对应的样本权重,δ为权重更新参数,且0≤δ≤1;当缓存池容量达到N后,通过删除权重最小的样本来更新权重。
步骤5,视频目标分割。
获取推理阶段中测试视频序列的各帧预测结果,与原图做图像混合加权融合,制作成视频流,得到视频目标分割结果。
实施例2
采用实施例1中的方法对公开数据集DAVIS-16(Densely Annotated VIdeoSegmentation 2016)和DAVIS-17(Densely Annotated VIdeo Segmentation 2017)进行半监督视频目标分割实验。其中DAVIS-16数据集为二分类数据集,分割类别有两种:前景和背景;DAVIS-17数据集为多分类数据集,前景存在多个类别。本实验操作系统为Linux ubuntu16.06版本,基于CUDA10.0和cuDNN7.6.0的PyTorch1.5.0框架实现,使用搭载了Intel XeonBronze 3104 CPU(1.70Ghz)和NVIDIA GeForce RTX 2080 Ti(11GB)硬件的个人电脑训练并测试。
本实施例采用区域相似度(Region Similarity)、轮廓精确度(ContourAccuracy)、推理速度以及整体评测度(区域相似度和轮廓精确度的均值)四个指标对OSMN、RGMP、Siam R-CNN、FEELVOS、FRTM五个分割网络与本发明方法在DAVIS-16测试集上进行对比;采用区域相似度、轮廓精确度和整体评测度三个指标对五个分割网络与本发明方法在DAVIS-17测试集上进行对比。区域相似度在所有样例中的平均结果以MJ指代,计算公式如下:
Figure BDA0003385342810000103
式中S表示视频样例分割结果,G表示视频样例对应标签,∩和∪分别表示交集和并集操作。
轮廓精确度在所有样例中的平均结果以MF指代,计算公式如下:
Figure BDA0003385342810000111
式中Pc和Rc分别表示分割结果和标签轮廓点的查准率(precision)及查全率(recall)。
整体评测度为区域相似度和轮廓精确度的均值,在所有样例中的平均结果以MJ&F指代,计算公式如下:
Figure BDA0003385342810000112
对比结果如表1和表2所示,可以发现,使用本发明相较于其他方法,能够在较快的推理速度下得到更加准确的分割结果,充分保证了推理速度和分割精度的均衡。
图8所示为本发明实施方式对视频序列的分割结果与其他方法分割结果对比图。其中图8(a)为测试数据集的视频测试样例,图8(b)为测试样例对应的标签,图8(c)-(f)依次为本发明、FRTM、RANet、RGMP的分割结果,可以看到图8(e)方法和图8(f)方法对存在着多目标物体之间遮挡交互的视频序列分割效果不佳,有误分类和遗漏现象发生,比如第3行测试样例中摩托车上的人以及第5行测试样例中右侧的宠物犬;图8(d)方法对小目标物体的分割较为粗糙,比如第4行测试样例中人手里的枪械,同时该方法对部分物体存在着割裂现象,比如第2行测试样例中的赛车。可以看出,本发明相较于以上方法,具备更好的分割效果,能更加有效地处理物体遮挡、物体尺寸过小等异常情况。
以上所述实施例仅为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围之内。
表1
Figure BDA0003385342810000121
表2
Figure BDA0003385342810000122

Claims (6)

1.一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于包括以下步骤:
(1)获取数据集与分割标签:
获取半监督视频目标分割数据集与对应的分割标签;
(2)构建分割模型,具体包括以下步骤:
(2-a)构建特征提取器,其中共包括一层卷积模块和四层残差模块,视频图像依次经过卷积模块及四层残差模块,分别得到残差模块对应的中间特征图xr1、xr2、xr3、xr4;第一层残差模块包括一个池化层和三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第一层残差模块的输出为中间特征图xr1;第二层残差模块包括四个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第二层残差模块的输出为中间特征图xr2;第三层残差模块包括六个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第三层残差模块的输出为中间特征图xr3;第四层残差模块包括三个残差卷积模块,每个残差卷积模块内包括三个卷积模块,第四层残差模块的输出为中间特征图xr4
(2-b)构建多尺度目标模型,该模型由两个独立的目标模型Tl和Th构成,两者各包括一个1×1卷积模块和一个3×3卷积模块,将步骤(2-a)得到的中间特征图xr2和xr3分别作为Tl和Th的输入;目标模型Tl和Th中的1×1卷积模块都是对特征进行降维;目标模型Tl中的3×3卷积模块得到低维目标外观信息csl,目标模型Th中的3×3卷积模块得到高维目标外观信息csh
(2-c)构建分割解码器,其中包括四层解码结构,第一层解码结构包括一个特征融合模块,一个通道注意力模块,一个细化残差模块和一个全局池化模块;第二、三、四层解码结构均包括一个特征融合模块,一个通道注意力模块和一个细化残差模块;其中特征融合模块的作用是将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合,来捕捉不同视频帧之间目标的动态变化,该模块包括尺度转换和自适应融合两个部分,其中尺度转换部分将目标外观信息与中间特征图映射到同一尺度并拼接到一起,自适应融合部分计算拼接后的特征图中的各特征通道权重并进行适应性加权;通道注意力模块的作用是将不同层的特征图进行通道注意力优化;细化残差模块的作用是对特征图进行进一步细化,优化目标细节;
(2-d)将步骤(2-a)中得到的中间特征图xr4与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第一层解码结构内的特征融合模块中,得到融合特征图s4,对s4进行全局池化操作,其结果与s4一起输入到第一层解码结构内的通道注意力模块,再经过细化残差模块,得到目标特征图o4
将步骤(2-a)中得到的中间特征图xr3与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第二层解码结构内的特征融合模块中,得到融合特征图s3,将s3与第一层解码结构输出的目标特征图o4一起输入到第二层解码结构内的通道注意力模块中,再经过细化残差模块,得到目标特征图o3
将步骤(2-a)中得到的中间特征图xr2与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第三层解码结构内的特征融合模块中,得到融合特征图s2,将s2与第二层解码结构输出的目标特征图o3一起输入到第三层解码结构内的通道注意力模块中,再经过细化残差模块,得到目标特征图o2
将步骤(2-a)中得到的中间特征图xr1与步骤(2-b)得到的多维信息csl和csh输入到步骤(2-c)构建的第四层解码结构内的特征融合模块中,得到融合特征图s1,将s1与第三层解码结构输出的目标特征图o2一起输入到第四层解码结构内的通道注意力模块中,再经过细化残差模块,得到目标特征图o1
将目标特征图o1进行上采样,得到分割结果
Figure FDA0003385342800000021
完成分割模型的构建;
(3)训练分割模型:
利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型,该模型中的特征提取器使用预训练模型,不更新模型参数;使用交叉熵作为分割模型的损失函数得到损失值,并使用Adam算法更新分割模型内除特征提取器外的模型参数,直到损失值不再下降,得到训练好的分割模型;
(4)推理:
将测试视频数据逐帧输入至分割模型;输入初始帧后,使用步骤(2-a)中构建的特征提取器提取特征,并初始化缓存池M,缓存池M用于存储步骤(2-a)中得到的中间特征图xr2和xr3、步骤(2-d)中得到的分割结果
Figure FDA0003385342800000022
以及每帧的样本权重θ;接着按顺序输入其余帧,使用步骤(2-a)中构建的特征提取器提取特征,使用步骤(2-b)中构建的多尺度目标模型提取目标外观信息,使用(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息,得到对应帧的分割结果,将分割结果与步骤(2-a)中得到的中间特征图存入缓存池M;更新缓存池样本权重θ,达到缓存池容量上限后,删除权重最小的样本;
(5)视频目标分割:
获取推理阶段中测试视频序列的各帧分割结果,与原图进行混合加权融合,并制作成视频流,得到视频目标分割结果。
2.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2-b)中的多尺度目标模型,该模型的作用是在视频推理阶段学习目标外观信息,提升视频推理速度,具体公式可表示为:
Figure FDA0003385342800000031
Figure FDA0003385342800000032
其中
Figure FDA0003385342800000033
Figure FDA0003385342800000034
分别表示Tl中的1×1卷积模块和3×3卷积模块,
Figure FDA0003385342800000035
Figure FDA0003385342800000036
分别表示Th中的1×1卷积模块和3×3卷积模块,*表示卷积操作。
3.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2-c)中的分割解码器中的特征融合模块,该模块的作用是将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合,来捕捉不同视频帧之间目标的动态变化,具体过程为:
qd=Concat[U(csl),U(csh),R(xrd)]
Figure FDA0003385342800000037
其中xrd表示步骤(2-a)中得到的中间特征图,xrd中d的值取1,2,3,4,分别对应中间特征图xr1、xr2、xr3、xr4,csl和csh表示(2-b)中得到的低维和高维目标外观信息,R表示降维操作,U表示上采样操作,
Figure FDA0003385342800000038
表示逐像素相乘操作,
Figure FDA0003385342800000039
表示逐像素相加操作,Concat表示拼接操作,qd表示拼接后的特征图;Pool表示全局池化操作,Gate表示1×1卷积操作,σ表示sigmoid函数,Conv表示3×3卷积操作,sd表示融合特征图。
4.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2-c)中的分割解码器中的通道注意力模块,该模块的作用是将不同层的特征图进行通道注意力优化,提升分割效果;通道注意力模块将同一特征层中通过步骤(2-c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2-c)中细化残差模块得到的目标特征图合并后进行全局池化,得到初始通道权重,其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替;初始通道权重依次通过由1×1卷积块、ReLU函数、1×1卷积块和sigmoid函数组成的通道注意力结构进行权重优化;将优化后的通道权重与融合特征图进行逐像素相乘,再将相乘结果与经过上采样操作的目标特征图进行逐像素相加,得到注意力特征图。
5.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(2-c)中的分割解码器中的细化残差模块,该模块的作用是对特征图进行进一步细化,优化目标细节;细化残差模块的输入为同一特征层中步骤(2-c)中通道注意力模块得到的注意力特征图,将注意力特征图依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块后得到的特征图与原注意力特征图通过1×1卷积块后得到的特征图进行逐像素相加,再通过ReLU函数得到目标特征图。
6.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法,其特征在于,所述步骤(4)中的推理,推理阶段将测试视频数据逐帧输入至分割模型,输入初始帧后,使用步骤(2-a)中构建的特征提取器提取特征,并初始化缓存池M;缓存池M存储样本信息来更新多尺度目标模型,缓存池M可表示为:
Figure FDA0003385342800000041
其中N为缓存池最大容量,N为整数,且50≤N≤100,xr2和xr3为步骤(2-a)中得到的中间特征图,θ表示样本权重,
Figure FDA0003385342800000042
存在两种情况:在初始帧中
Figure FDA0003385342800000043
表示该帧对应标签,在其余帧中
Figure FDA0003385342800000044
则表示步骤(2-d)中得到的分割结果;
接着按顺序输入其余帧,使用步骤(2-a)中构建的特征提取器得到中间特征图xr1、xr2、xr3、xr4,使用步骤(2-b)中构建的多尺度目标模型得到目标外观信息csl和csh,使用步骤(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息,得到对应帧的分割结果
Figure FDA0003385342800000045
将步骤(2-a)中得到的中间特征图xr2和xr3、步骤(2-c)中得到的分割结果
Figure FDA0003385342800000046
以及对应的样本权重θ制作成新的样本数据存入缓存池;更新缓存池样本权重θ:
θi=(1+δ)θi-1
其中θi表示第i帧对应的样本权重,θi-1表示第i-1帧对应的样本权重,δ为权重更新参数,且0≤δ≤1;当缓存池容量达到N后,通过删除权重最小的样本来更新权重。
CN202111451336.6A 2021-12-01 2021-12-01 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法 Active CN114120202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111451336.6A CN114120202B (zh) 2021-12-01 2021-12-01 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111451336.6A CN114120202B (zh) 2021-12-01 2021-12-01 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法

Publications (2)

Publication Number Publication Date
CN114120202A true CN114120202A (zh) 2022-03-01
CN114120202B CN114120202B (zh) 2024-04-30

Family

ID=80369055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111451336.6A Active CN114120202B (zh) 2021-12-01 2021-12-01 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法

Country Status (1)

Country Link
CN (1) CN114120202B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115685950A (zh) * 2022-12-31 2023-02-03 常州市聚凝电气自动化设备有限公司 一种基于工业以太网的计量配料混合浇筑控制方法及系统
CN118115543A (zh) * 2024-04-30 2024-05-31 深圳柯赛标识智能科技有限公司 基于视频的目标追踪方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111652899A (zh) * 2020-05-29 2020-09-11 中国矿业大学 一种时空部件图的视频目标分割方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN113344932A (zh) * 2021-06-01 2021-09-03 电子科技大学 一种半监督的单目标视频分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111652899A (zh) * 2020-05-29 2020-09-11 中国矿业大学 一种时空部件图的视频目标分割方法
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN113344932A (zh) * 2021-06-01 2021-09-03 电子科技大学 一种半监督的单目标视频分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
付利华;赵宇;孙晓威;卢中山;王丹;杨寒雪;: "基于孪生网络的快速视频目标分割", 电子学报, no. 04, 15 April 2020 (2020-04-15), pages 3 - 8 *
吴飞;阳春华;兰旭光;丁进良;郑南宁;桂卫华;高文;柴天佑;钱锋;李德毅;潘云鹤;韩军伟;付俊;刘克;宋苏;吴国政: "人工智能的回顾与展望", 《中国科学基金》, 15 May 2018 (2018-05-15), pages 243 - 250 *
王龙;宋慧慧;张开华;刘青山: "反馈学习高斯表观网络的视频目标分割", 《当代教育理论与实践》, 14 August 2020 (2020-08-14), pages 834 - 842 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115685950A (zh) * 2022-12-31 2023-02-03 常州市聚凝电气自动化设备有限公司 一种基于工业以太网的计量配料混合浇筑控制方法及系统
CN115685950B (zh) * 2022-12-31 2023-03-10 常州市聚凝电气自动化设备有限公司 一种基于工业以太网的计量配料混合浇筑控制方法及系统
CN118115543A (zh) * 2024-04-30 2024-05-31 深圳柯赛标识智能科技有限公司 基于视频的目标追踪方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN114120202B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN112070044B (zh) 一种视频物体分类方法及装置
CN113870335B (zh) 一种基于多尺度特征融合的单目深度估计方法
CN114758288B (zh) 一种配电网工程安全管控检测方法及装置
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN114038006A (zh) 一种抠图网络训练方法及抠图方法
CN114120202A (zh) 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN110807384A (zh) 低能见度下的小目标检测方法和系统
CN112784756B (zh) 人体识别跟踪方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN112926552B (zh) 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN111507215A (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Hou et al. A super-fast deep network for moving object detection
CN115713546A (zh) 移动终端设备用的轻量化目标跟踪算法
CN116363361A (zh) 基于实时语义分割网络的自动驾驶方法
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant