CN113139502A - 无监督视频分割方法 - Google Patents

无监督视频分割方法 Download PDF

Info

Publication number
CN113139502A
CN113139502A CN202110509393.9A CN202110509393A CN113139502A CN 113139502 A CN113139502 A CN 113139502A CN 202110509393 A CN202110509393 A CN 202110509393A CN 113139502 A CN113139502 A CN 113139502A
Authority
CN
China
Prior art keywords
semantic
target
features
semantic vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110509393.9A
Other languages
English (en)
Inventor
沙莎
张立和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110509393.9A priority Critical patent/CN113139502A/zh
Publication of CN113139502A publication Critical patent/CN113139502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种无监督视频分割方法,属于视频分割技术领域。首先,生成目标语义向量。其次,对生成的目标语义向量进行在线学习。再次,设计一个残差模块来修正并突出可以表示单个目标的语义向量,提升目标定位和分割的精度。最后,生成由边缘提炼引导的细节提取及视频帧实例分割掩码,即通过逐步的边缘提取并对边缘监督来增强细节并优化视频分割结果。本发明能够通过同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位,更好地处理外观相似目标的区分以及复杂背景中目标的检测,通过对基底特征边缘的强化来提高目标分割的精度。同时,也能够很好的扩展应用于图像和视频处理的其他领域中。

Description

无监督视频分割方法
技术领域
本发明属于视频分割技术领域,能够对在无人为干预的情况下对任意视频前景目标进行实例级分割,涉及到视频和图像处理的相关知识,尤其涉及一种无监督视频分割方法。
背景技术
无监督视频分割任务近年来显示出越来越突出了作用,它的主要目的是在无人为干涉的情况下分割出视频中的主要运动物体。无监督视频分割广泛地被应用于视频推理,视频理解等领域。
无监督视频分割主要分为两大类:基于检测和跟踪,以及基于像素的匹配和传播。基于检测和跟踪的方法首先对单帧图像进行目标框的检测,然后利用对应检测框内的特征相似度来寻找不同目标在时域上的连续性。这种方法可以对各种尺度目标进行较好的处理,但是错误的检测结果对于后续的分割产生了不可消除的影响。Lin等人在2020年CVPR提出的‘Video instance segmentation tracking with a modifiedvae architecture’方法在检测的基础上,为每个检测到的目标分配一个实例向量,通过对向量相似度的监督和计算来完成视频时域上的连续性。同时该方法增加了一个辅助迭代检测更好的解决了物体遮挡问题。Luiten等人在WACV会议中提出了‘Unsupervised offline video objectsegmentation andtracking’,该方法主要利用检测的结果生成长短跟踪段,由短变长的跟踪段使得该方法更好的适应长序列的目标跟踪。基于像素匹配和传播的算法可以对模型进行端到端的训练,避免了中间结果的影响,但是相似的物体会有相似的特征表现,因此该种方法会造成物体时域上联系失败。Athar在ECCV会议中提出的STemSeg模型可以直接对完整的视频序列进行逐像素的相似度学习和匹配,从而完成长序列的跟踪。
不仅如此,近年来提出了多种关于视频分割的发明。在专利CN202011124541.7中公开了《一种优化视频目标检测、识别或分割的精度和效率的方法》,该方法利用邻近帧的识别结果,先预测当前帧的待检测子区域,再在含有目标物的待检测子区域进行处理,不需要对无关背景进行处理,极大的减少了处理所需的运算量,提升了运算效率;2020年,李永杰等人在专利CN202010786958.3中提出的《一种视频图像前景像素深度信息分类与前景分割方法和装置》,利用视频帧的深度图对分割进行辅助;2021年,由陈祖国等人公开了专利CN202011227875.7《基于双通道卷积核与多帧特征融合动态视频图像分割方法》,通过双卷积核与多帧特征融合的方法,克服了传统边缘分割边界不封闭不连续的缺点,取得了良好的图像分割效果。
尽管目前的视频分割算法取得了不错的效果,但仍存在几个问题需要解决。首先,现有的大部分的视频分割方法都可以较好的解决运动明显,且外观突出的目标,但是处理外观相似且相近的实例目标时,很容易将多个目标分割成一个,这种错误会影响到后续的视频帧。另外,视频数据的范围非常广泛,场景复杂,当前景运动物体与背景相似或存在严重的遮挡时,会出现目标丢失或者错将背景分割成目标的问题。最后,现有的方法没有同时考虑到语义信息的获取和外观边缘区分,从而导致目标获取较好的方法在边缘处理上很粗糙,反之利用逐像素匹配细节的方法缺少物体的语义信息,造成相似外观物体无法区分。
发明内容
本发明要解决的技术问题是:对于给定的任意一个视频序列,没有任何的先验信息的情况下对视频序列中的视频帧每个目标进行分割。不仅如此,该发明还要能够较好的捕捉语义模糊的目标,如在视频序列中尺度变化较大的目标,与背景具有相似的颜色和亮度的目标等。另外,本发明的视频分割模型还可以广泛地应用于各种类别的目标分割。
为了达到上述目的,本发明采用的技术方案为:
本发明的设计原理为:根据一个观测到的结论:视频序列中视频帧的语义信息比外观信息可以更好的区分不同目标与背景,目标的语义信息包括该目标在视频帧中的相对位置、颜色、尺度等。本发明通过学习单个视频帧中所有目标的语义信息的关系,并传播每个目标在连续视频帧间的语义信息,能够优化相似目标的分割效果,并更好地从复杂场景中定位到目标。同时,目标边缘信息的强化对于目标的定位和分割也有引导作用,因此本发明通过逐步的边缘提取并对边缘监督来增强细节并优化视频分割结果。
一种无监督视频分割方法,包括以下步骤:
第一步,生成目标语义向量
1.1)首先输入给定的视频序列中的一帧视频帧I,使用经典的金字塔结构FCN提取物体特征得到一系列金字塔特征图
Figure BDA0003059702060000021
其中Hi、Wi和C分别表示第i层金字塔特征图的宽、高和通道数。FCN这种自下而上的结构被广泛的应用于视觉相关深度学习领域,如目标检测、全景分割、实例分割、视频分割等。
1.2)FCN输出的每个金字塔特征图Pi分别通过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征:
Figure BDA0003059702060000022
其中,Funif为融合特征,ConvUpi表示第i层金字塔特征图经过多组卷积层和上采样。
1.3)对步骤1.2)得到的融合特征进行空间、通道上的增强和语义信息的挖掘,从而更好的为后续的语义向量在线学习提供引导。利用融合特征Funif,采用公式(2)计算一个注意力图W:
W=Sig(Conv1×1(Funif)) (2)
其中,Conv1×1表示一层卷积层,Sig表示Sigmoid函数;W越大,表示该位置是目标位置的概率越大。
融合特征在注意力图的引导下经过如下的增强:
Fch=Funif⊙Sig(Chavg(Funif⊙W)) (3)
Fatt=Conv3×3(Concat(Fch,W)) (4)
式(3)输出Fch表示通道增强特征,其中Chavg表示通道平均操作。式(4)输出Fatt表示空间增强特征,其中Conv3×3表示卷积层,Concat表示通道拼接。
1.4)最后空间和通道增强特征Fatt经过四个相同组合结构(卷积层+组归一化+非线性激活函数),输出语义向量特征FIE。语义向量特征FIE中每一个像素点(一个语义向量)是对视频帧中一个目标或者背景的粗略语义表达。与外观像素的传播相比,本发明更多利用目标的语义全局特征(语义向量特征)的关系而不是局部外观的相似度。
第二步,语义向量的在线学习
初步得到的语义向量特征FIE只有每帧视频帧自身的信息,当视频帧中的目标遮挡较严重或与背景相似时,会出现目标定位的模糊,此时会出现目标丢失或有背景物体被误检测成目标的现象。由于每个视频序列中同一目标在不同帧的语义向量表示相似且与其他目标和背景不同,本发明利用每个目标语义向量在时域上的传播来引导目标定位模糊视频帧中语义向量的学习,从而更好的定位目标。同时为了防止过去信息的错误积累,还融合了自身增强语义向量特征来权衡时域的传播正确性。特别地,对于每个视频序列第一帧无时域传播的情况,直接进入第三步,生成语义掩码。在随后处理视频序列后续帧时,会利用之前成成的语义掩码。具体如下:
2.1)对于每一帧视频帧t,首先将位置信息融合进语义向量特征FIE;这里采用归一化坐标coord∈[-1,1]来代表位置信息,分别与当前T时刻视频帧的语义特征
Figure BDA0003059702060000031
和过去视频帧语义向量特征
Figure BDA0003059702060000041
进行通道上的拼接,这样可以在语义向量在线学习期间通过位置信息更好地区分相邻的实例。对于过去视频帧,额外再拼接上之前已经生成的语义掩码。对于过去视频帧,采用如下方式生成自注意语义特征
Figure BDA0003059702060000042
Figure BDA00030597020600000410
Figure BDA00030597020600000411
其中,At和Mt分别表示过去视频帧的语义对齐特征和自注意力图;Ot表示过去视频帧预测的语义掩码;
Figure BDA0003059702060000043
表示过去视频帧过滤后的语义向量特征。
采用公式(5)(6)描述的自注意机制用来过滤过去视频帧的误导性信息。
2.2)为了充分利用历史信息,每处理一帧后,全部过去时刻0≤t<T的视频帧过滤后的语义向量特征
Figure BDA0003059702060000044
将动态地更新成一个针对当前时刻T的固定大小的记忆池MemT
Figure BDA0003059702060000045
其中,T表示当前时刻。
公式(7)表明每一帧过去时刻0≤t<T视频帧在传播过程中对当前时刻T视频帧有同等的作用而不是更多的依靠临近帧。
对于当前视频帧,有式:
Figure BDA0003059702060000046
其中,AT和MT分别表示当前视频帧的语义对齐特征和自注意力图。
考虑到每个目标在视频序列中的运动变化较缓慢,当给定了记忆池MemT和当前视频帧的对齐特征AT后,本发明通过下式金字塔融合模块(ASPP)将每一个位置的语义向量和相邻的一系列不同距离的语义向量进行信息的融合和匹配,输出匹配后的时域传播语义特征
Figure BDA0003059702060000047
相比于逐像素的匹配,语义向量的匹配大幅度节约了计算量。
Figure BDA0003059702060000048
另外,本发明对当前视频帧语义向量特征加入自注意力机制得到自增强语义向量特征:
Figure BDA0003059702060000049
2.3)为了防止在时域传播时出现错误积累,本发明通过拼接和卷积层融合时域传播语义特征
Figure BDA0003059702060000051
和自增强语义向量特征
Figure BDA0003059702060000052
将时域传播后的语义信息融合到当前视频帧突出自身目标的语义信息中:
Figure BDA0003059702060000053
输出融合语义向量特征
Figure BDA0003059702060000054
增加目标对应语义向量和背景语义向量之间的差距,能够更好地突出当前视频帧中每个目标的语义信息。
第三步,语义向量的独立性增强
在第一步和第二步目标语义向量特征生成和学习的过程中,卷积变形操作可能导致一些语义向量包含多个相邻目标的信息(尤其是被大量遮挡的物体)。覆盖多个目标信息的语义向量会将只包含其中一个目标的语义向量削弱,从而造成目标丢失或定位错误。因此本发明设计一个残差模块来修正并突出可以表示单个目标的语义向量,从而提升目标定位和分割的精度。该残差模块的实现过程如下:
Figure BDA0003059702060000055
Figure BDA0003059702060000056
Figure BDA0003059702060000057
公式(12)中的金字塔融合模块ASPP可以建立
Figure BDA0003059702060000058
中每个语义向量和周围不同距离的语义向量的关系,输出的语义向量特征
Figure BDA0003059702060000059
包含着每个语义向量的冗余程度信息,经过公式(13)中一个卷积层Conv1×1和Sigmoid函数Sig,得到的权重图α表示每个位置点所对应的语义向量冗余程度。其中α越高,表示对应位置的语义向量包含的冗余信息越多,因此通过公式(14)能够减弱冗余较多的语义向量,突出单个目标的语义向量得到过滤后的语义向量特征
Figure BDA00030597020600000510
最后,
Figure BDA00030597020600000511
通过两个卷积核为3×3卷积层和一个Sigmoid函数来预测视频帧中目标位置,得到当前T时刻语义掩码,如公式(15)所示。
Figure BDA00030597020600000512
输出预测OT是一个权重图,权重越高表示该位置表示单个目标的概率越高。
第四步,生成由边缘提炼引导的细节提取及视频帧实例分割掩码
第三步通过语义向量特征生成的语义掩码表示每个位置单个目标的概率,采用基底特征和动态卷积核的卷积输出生成每个位置对应的目标分割掩码,所述动态卷积核K由融合特征Funif经过四个相同组合结构(卷积层+组归一化+非线性激活函数)生成,所述基底特征的细节信息直接影响到输出目标分割掩码的精度,因此基底特征通过对Funif进行细节增强后生成。
边缘是视频分割以及所有分割相关任务一个重要的线索。充分的利用边缘信息能够增强基底特征的细节从而提升一些困难场景的目标分割精度,例如多个目标相连时连接处的分割。因此,本发明首先对融合特征Funif进行降维得到降维特征Frdu,然后通过公式(16)、(17)逐步的提取边缘信息:
Bstr=Conv3×3(Deconv3×3(Frdu)) (16)
Bsub=Conv3×3(Deconv3×3(Bstr)) (17)
公式(16)中的Deconv3×3表示反卷积,它拥有恢复图像的功能,因此可以一定程度的恢复编码的降维特征Frdu的细节,然后通过一个卷积层来强化恢复的信息,得到粗略细节特征Bstr。公式(17)采用相同的结构进一步的恢复特征中的细节信息,得到细节特征Bsub。上述两种细节特征和降维特征通过公式(18)融合后得到边缘特征:
Fbdry=Conv3×3(Bstr+Conv1×1(Concat(Bsub,Frdu))) (18)
Fbdry在边缘掩码真值的监督下,学习融合特征Funif的边缘信息。
然后将边缘特征Fbdry和融合特征Funif结合来增强融合特征细节并生成基底特征
Figure BDA0003059702060000061
Figure BDA0003059702060000062
其中,ε表示一组3×3卷积,ReLU函数和1×1卷积。
Figure BDA0003059702060000063
与动态卷积核K卷积后得到对应O(OT的一般表示)每一个位置的分割预测:
Figure BDA0003059702060000064
最后分割预测m和语义掩码O,并通过已有技术Matrix NMS输出最后的分割结果。
本发明的有益效果为:
本发明提供的无监督视频分割方法能够通过同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位,能够更好地处理外观相似目标的区分以及复杂背景中目标的检测,最后通过对基底特征边缘的强化来提高目标分割的精度。同时,本发明也能够很好的扩展应用于图像和视频处理的其他领域中,如图像补全等。
附图说明
图1是系统框图。
图2(a)是视频帧中物体(背景)和语义向量的对应位置关系,(b)是语义特征中前景实例对应的向量,(c)是实例掩码和语义向量的对应位置关系。
图3(a)是完整的结果,(b)是没有时域信息传播的结果,(c)是缺少单帧独立性强化的结果(d)同时移除时域和空间强化得结果。
具体实施方式
以下结合具体实施例对本发明做进一步说明。
一种无监督视频分割方法,包括以下步骤:
步骤1:本发明首先输入两条狗和一个人草坪活动场景(图2(a))的视频帧I并缩放到480×864×3,使用经典的金字塔结构FCN提取物体特征得到一系列金字塔特征图
Figure BDA0003059702060000071
其中
Figure BDA0003059702060000072
和C=256分别表示第i层金字塔特征图的宽和高和通道数。
步骤2:FCN输出的每个金字塔特征图Pi通过公式(1)分别经过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征
Figure BDA0003059702060000073
步骤3:对步骤2得到的融合特征Funif,通过公式(2)计算一个注意力图
Figure BDA0003059702060000074
W越大,表示该位置是目标位置的概率越大。融合特征在注意力图的引导下首先经过公式(3)的通道增强,公式中通道平均操作会生成维数与通道数C=256相同的向量,将该向量经过Sigmoid函数后与融合特征相乘对通道加权增强。然后经过公式(4)的得到空间增强特征Fatt。步骤4:经过经过四个相同组合结构(卷积层+组归一化+非线性激活函数),输出语义向量特征
Figure BDA0003059702060000075
其中每一个像素点(256维的向量)代表一个语义向量。图2(a)中间的人和狗以及最右侧的狗分别对应图2(b)中的中间及右侧三个不同与其他颜色的像素点(语义向量)。
步骤5:对于每个视频序列第一帧无时域传播的情况,直接进入步骤9,生成语义掩码。在随后处理视频序列后续帧时,会利用之前成成的语义掩码。
步骤6:对于每一帧视频帧t,将位置信息融合进语义向量特征FIE;这里采用归一化坐标
Figure BDA0003059702060000081
来代表语义向量特征的位置信息,coord使用两个通道分别表示横坐标coordx和纵坐标coordy,对于特征中位置(i,j),有
Figure BDA0003059702060000082
Figure BDA0003059702060000083
coord分别与当前T时刻视频帧的语义特征
Figure BDA0003059702060000084
和过去视频帧语义向量特征
Figure BDA0003059702060000085
Figure BDA0003059702060000086
进行通道上的拼接。对于过去视频帧,额外再拼接上之前已经生成的语义掩码。对于过去视频帧,采用公式(5)(6)方式生成自注意语义特征
Figure BDA0003059702060000087
来过滤过去视频帧的误导性信息。
步骤7:每处理一帧后,全部过去时刻0≤t<T的视频帧过滤后的语义向量特征
Figure BDA0003059702060000088
将通过公式(7)动态地更新成一个针对当前时刻T的固定大小的记忆池
Figure BDA0003059702060000089
对于当前时刻视频帧,通过公式(8)生成对齐特征
Figure BDA00030597020600000810
和自注意力图
Figure BDA00030597020600000811
当给定了记忆池MemT和当前视频帧的对齐特征AT后,本发明通过公式(9)金字塔融合模块(ASPP)将每一个语义向量和相邻的一系列不同距离的语义向量进行信息的融合和匹配,输出匹配后的时域传播语义特征
Figure BDA00030597020600000812
ASPP是由不同空洞间隔的空洞卷积组成,并将空洞间隔设为{1,2,4}。另外,通过公式(10)可以对当前视频帧语义向量特征加入自注意力机制得到自增强语义向量特征
Figure BDA00030597020600000813
步骤8:通过拼接和卷积层融合时域传播语义特征
Figure BDA00030597020600000814
和自增强语义向量特征
Figure BDA00030597020600000815
通过公式(11)将时域传播后的语义信息融合到当前视频帧突出自身目标的语义信息中并输出融合语义向量特征
Figure BDA00030597020600000816
图3的(b)列和(d)列的结果缺少该步骤的语义向量学习,虽然两列中第一行的视频帧将每个目标分割的较好,但随着时间增加,大多出现了多个目标被分割成一个目标的错误,如(b)中的右侧两个人,(d)中第3行的三个人及第4行右侧两个人都被分割成了一个整体。
步骤9:融合语义向量特征
Figure BDA00030597020600000817
通过公式(12)金字塔融合模块ASPP建立每个语义向量和周围不同距离的语义向量的关系,该ASPP的空洞间隔为{1,2,3},输出的语义向量特征
Figure BDA0003059702060000091
包含着每个语义向量的冗余程度信息,然后
Figure BDA0003059702060000092
经过公式(13)中一个卷积层Conv1×1和Sigmoid函数Sig,得到的权重图α表示每个位置点所对应的语义向量冗余程度。其中α越高,表示对应位置的语义向量包含的冗余信息越多,因此通过公式(14)能够减弱冗余较多的语义向量,突出单个目标的语义向量得到过滤后的语义向量特征
Figure BDA0003059702060000093
最后,
Figure BDA0003059702060000094
通过公式(15)用两个卷积核为3×3卷积层和一个Sigmoid函数来预测视频帧中目标位置,输出预测OT是一个权重图,权重越高表示该位置表示单个目标的概率越高。图3中的(c)(d)没有该步骤的过滤过程,因此会训练过程中对于语义掩码的O(OT的一般表示)的监督使用焦点损失。图2表示视频帧和语义向量特征中目标的对应关系,视频帧(a)被划分成5×5的格子,目标占比较大的格子(中间人和狗,右侧狗尾巴)则在(b)中对应目标的语义向量(中间两个格子和右侧一个格子),经过语义向量的学习后,最后(c)得到目标的格子预测的对应目标的分割掩码。
步骤10:对于步骤9生成了单个目标的位置O,采用基底特征和动态卷积核的卷积输出生成每个位置对应的目标分割掩码,所述动态卷积核
Figure BDA0003059702060000095
由融合特征Funif经过四个相同组合结构(卷积层+组归一化+非线性激活函数)生成,所述基底特征的细节信息直接影响到输出目标分割掩码的精度,因此基底特征通过对Funif进行细节增强后生成。
本发明首先对融合特征Funif进行卷积降维得到降维特征Frdu,然后通过公式(16)(17)逐步的提取边缘信息。公式(16)中的Deconv3×3表示反卷积,它拥有恢复图像的功能,因此可以一定程度的恢复编码的降维特征Frdu的细节,然后通过一个卷积层来强化恢复的信息,得到粗略细节特征Bstr。公式(17)采用相同的结构进一步的恢复特征中的细节信息,得到细节特征Bsub。两种细节特征和降维特征通过公式(18)融合后得到边缘特征Fbdry。Fbdry在边缘掩码真值的监督下,学习融合特征Funif的边缘信息。然后将边缘特征Fbdry和融合特征Funif结合通过公式(19)来增强融合特征细节并生成基底特征
Figure BDA0003059702060000096
式中ε表示一组3×3卷积,ReLU函数和1×1卷积,输出
Figure BDA0003059702060000097
的通道数与动态卷积核相同。
Figure BDA0003059702060000098
与动态卷积核K经过公式(20)卷积后得到对应O每一个位置的分割预测
Figure BDA0003059702060000099
最后分割预测m和语义掩码O通过Matrix NMS输出最后的分割结果输出。
步骤11:训练过程中,对于边缘特征Fbdry的监督通过生成边缘掩码
Figure BDA0003059702060000101
bdry=Fbdry*K (21)
来完成。对于分割掩码和边缘掩码预测的监督方式为公式(22)(23)所示。
Figure BDA0003059702060000102
Figure BDA0003059702060000103
其中L表示损失值Npos表示正样本数目,k表示每一个语义向量对应位置,1是一个判断方程,当pk>0时为1否则为0。mk表示预测的分割(边缘)掩码,tk表示真值。i表示分割掩码中的每一个像素点。
步骤12:在测试过程中,将语义掩码O和分割掩码m通过Matrix NMS进行更新,MatrixNMS的算法如公式(24)-(26)所示:
Figure BDA0003059702060000104
Figure BDA0003059702060000105
f(D(mi,mj))=1-D(mi,mj) (26)
其中mi和mj分别表示不同的预测掩码,D与公式(23)相同,oi和oj表示语义掩码O中的两个不同的位置点,decayj表示预测第j个分割掩码的抑制率,抑制率越高,该分割掩码最后作为结果输出的可能性越低。最后,去除语义掩码概率小于0.1的位置的分割掩码,得到最终的视频帧分割结果(分割掩码)。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (1)

1.一种无监督视频分割方法,其特征在于,包括以下步骤:
第一步,生成目标语义向量
1.1)首先输入给定的视频序列中的一帧视频帧I,提取物体特征得到一系列金字塔特征图
Figure FDA0003059702050000011
其中Hi、Wi和C分别表示第i层金字塔特征图的宽、高和通道数;
1.2)每个金字塔特征图Pi分别通过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征:
Figure FDA0003059702050000012
其中,Funif为融合特征,ConvUpi表示第i层金字塔特征图经过多组卷积层和上采样;
1.3)对步骤1.2)得到的融合特征进行空间、通道上的增强和语义信息的挖掘,为后续的语义向量在线学习提供引导;利用融合特征Funif,采用公式(2)计算一个注意力图W:
W=Sig(Conv1×1(Funif)) (2)
其中,Conv1×1表示一层卷积层,Sig表示Sigmoid函数;
融合特征在注意力图的引导下经过如下的增强:
Fch=Funif⊙Sig(Chavg(Funif⊙W)) (3)
Fatt=Conv3×3(Concat(Fch,W)) (4)
式(3)输出Fch表示通道增强特征,其中Chavg表示通道平均操作;式(4)输出Fatt表示空间增强特征,其中Conv3×3表示卷积层,Concat表示通道拼接;
1.4)最后空间和通道增强特征Fatt经过四个相同组合结构输出语义向量特征FIE;语义向量特征FIE中每一个像素点是对视频帧中一个目标或者背景的粗略语义表达;
第二步,语义向量的在线学习
利用每个目标语义向量在时域上的传播来引导目标定位模糊视频帧中语义向量的学习,更好的定位目标;同时为了防止过去信息的错误积累,还融合自身增强语义向量特征来权衡时域的传播正确性;特别地,对于每个视频序列第一帧无时域传播的情况,直接进入第三步,生成语义掩码;在随后处理视频序列后续帧时,利用之前成成的语义掩码;具体如下:
2.1)对于每一帧视频帧t,首先将位置信息融合进语义向量特征FIE;采用归一化坐标coord∈[-1,1]来代表位置信息,分别与当前T时刻视频帧的语义特征
Figure FDA0003059702050000021
和过去视频帧语义向量特征
Figure FDA0003059702050000022
进行通道上的拼接,语义向量在线学习期间通过位置信息更好地区分相邻的实例;对于过去视频帧,再拼接上之前已经生成的语义掩码;
对于过去视频帧,采用如下方式生成自注意语义特征
Figure FDA0003059702050000023
Figure FDA0003059702050000024
Figure FDA0003059702050000025
其中,At和Mt分别表示过去视频帧的语义对齐特征和自注意力图;Ot表示过去视频帧预测的语义掩码;
Figure FDA0003059702050000026
表示过去视频帧过滤后的语义向量特征;
采用公式(5)、(6)描述的自注意机制用来过滤过去视频帧的误导性信息;
2.2)为充分利用历史信息,每处理一帧后,全部过去时刻0≤t<T的视频帧过滤后的语义向量特征
Figure FDA0003059702050000027
将动态地更新成一个针对当前时刻T的固定大小的记忆池MemT
Figure FDA0003059702050000028
其中,T表示当前时刻;
对于当前视频帧,有式:
Figure FDA0003059702050000029
其中,AT和MT分别表示当前视频帧的语义对齐特征和自注意力图;
当给定记忆池MemT和当前视频帧的对齐特征AT后,通过下式金字塔融合模块ASPP将每一个位置的语义向量和相邻的一系列不同距离的语义向量进行信息的融合和匹配,输出匹配后的时域传播语义特征
Figure FDA00030597020500000210
Figure FDA00030597020500000211
另外,对当前视频帧语义向量特征加入自注意力机制得到自增强语义向量特征:
Figure FDA00030597020500000212
2.3)为防止在时域传播时出现错误积累,通过拼接和卷积层融合时域传播语义特征
Figure FDA00030597020500000213
和自增强语义向量特征
Figure FDA0003059702050000031
将时域传播后的语义信息融合到当前视频帧突出自身目标的语义信息中:
Figure FDA0003059702050000032
第三步,语义向量的独立性增强
设计一个残差模块来修正并突出可以表示单个目标的语义向量,提升目标定位和分割的精度;该残差模块的实现过程如下:
Figure FDA0003059702050000033
Figure FDA0003059702050000034
Figure FDA0003059702050000035
公式(12)中的金字塔融合模块ASPP可以建立
Figure FDA0003059702050000036
中每个语义向量和周围不同距离的语义向量的关系,输出的语义向量特征
Figure FDA0003059702050000037
包含着每个语义向量的冗余程度信息,经过公式(13)得到的权重图α表示每个位置点所对应的语义向量冗余程度,通过公式(14)能够减弱冗余较多的语义向量,突出单个目标的语义向量得到过滤后的语义向量特征
Figure FDA0003059702050000038
最后,
Figure FDA0003059702050000039
预测视频帧中目标位置,得到当前T时刻语义掩码,如公式(15)所示:
Figure FDA00030597020500000310
输出预测OT是一个权重图,权重越高表示该位置表示单个目标的概率越高;
第四步,生成由边缘提炼引导的细节提取及视频帧实例分割掩码
第三步通过语义向量特征生成的语义掩码表示每个位置单个目标的概率,采用基底特征和动态卷积核的卷积输出生成每个位置对应的目标分割掩码,所述动态卷积核K由融合特征Funif经过四个相同组合结构生成,所述通过对Funif进行增强后生成;
首先对融合特征Funif进行降维得到降维特征Frdu,然后通过公式(16)、(17)逐步的提取边缘信息:
Bstr=Conv3×3(Deconv3×3(Frdu)) (16)
Bsub=Conv3×3(Deconv3×3(Bstr)) (17)
公中,Deconv3×3表示反卷积;Bstr表示粗略细节特征,征Bsub表示细节特征;
上述两种细节特征和降维特征通过公式(18)融合后得到边缘特征Fbdry,Fbdry在边缘掩码真值的监督下,学习融合特征Funif的边缘信息;
Fbdry=Conv3×3(Bstr+Conv1×1(Concat(Bsub,Frdu))) (18)
然后将边缘特征Fbdry和融合特征Funif结合来增强融合特征细节并生成基底特征
Figure FDA0003059702050000041
Figure FDA0003059702050000042
其中,ε表示一组3×3卷积,ReLU函数和1×1卷积;
Figure FDA0003059702050000043
与动态卷积核K卷积后得到对应O每一个位置的分割预测:
Figure FDA0003059702050000044
最后分割预测m和语义掩码O,输出最后的分割结果。
CN202110509393.9A 2021-05-11 2021-05-11 无监督视频分割方法 Pending CN113139502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110509393.9A CN113139502A (zh) 2021-05-11 2021-05-11 无监督视频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110509393.9A CN113139502A (zh) 2021-05-11 2021-05-11 无监督视频分割方法

Publications (1)

Publication Number Publication Date
CN113139502A true CN113139502A (zh) 2021-07-20

Family

ID=76817125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110509393.9A Pending CN113139502A (zh) 2021-05-11 2021-05-11 无监督视频分割方法

Country Status (1)

Country Link
CN (1) CN113139502A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762263A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种用于小尺度相似结构的语义分割方法及系统
CN114663460A (zh) * 2022-02-28 2022-06-24 华南农业大学 基于双流驱动编码器和特征记忆模块的视频分割方法及装置
CN117058595A (zh) * 2023-10-11 2023-11-14 齐鲁工业大学(山东省科学院) 视频语义特征和可扩展粒度感知时序动作检测方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762263A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种用于小尺度相似结构的语义分割方法及系统
CN114663460A (zh) * 2022-02-28 2022-06-24 华南农业大学 基于双流驱动编码器和特征记忆模块的视频分割方法及装置
CN114663460B (zh) * 2022-02-28 2024-05-10 华南农业大学 基于双流驱动编码器和特征记忆模块的视频分割方法及装置
CN117058595A (zh) * 2023-10-11 2023-11-14 齐鲁工业大学(山东省科学院) 视频语义特征和可扩展粒度感知时序动作检测方法及装置
CN117058595B (zh) * 2023-10-11 2024-02-13 齐鲁工业大学(山东省科学院) 视频语义特征和可扩展粒度感知时序动作检测方法及装置

Similar Documents

Publication Publication Date Title
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN113139502A (zh) 无监督视频分割方法
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN114565770B (zh) 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
Li et al. Detection-friendly dehazing: Object detection in real-world hazy scenes
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN114549985A (zh) 一种基于自监督对比学习的目标检测方法及系统
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113936034A (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN111753670A (zh) 注意力修复和关键点检测迭代协同的人脸超分方法
CN114549863B (zh) 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN115880660A (zh) 一种基于结构表征和全局注意力机制的轨道线检测方法和系统
CN115578574A (zh) 一种基于深度学习和拓扑感知的三维点云补全方法
CN115100599A (zh) 基于掩码transformer的半监督人群场景异常检测方法
CN112668643A (zh) 一种基于格式塔法则的半监督显著性检测方法
CN117392392B (zh) 一种割胶线识别与生成方法
CN113744306B (zh) 基于时序内容感知注意力机制的视频目标分割方法
Tanaka et al. Unsupervised Sound Source Localization From Audio-Image Pairs Using Input Gradient Map
Zhang et al. A Multi-Scale Cascaded Cross-Attention Hierarchical Network for Change Detection on Bitemporal Remote Sensing Images
CN117351194A (zh) 基于互补图推理网络的涂鸦式弱监督显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination