CN113298036A - 一种无监督视频目标分割的方法 - Google Patents

一种无监督视频目标分割的方法 Download PDF

Info

Publication number
CN113298036A
CN113298036A CN202110674441.XA CN202110674441A CN113298036A CN 113298036 A CN113298036 A CN 113298036A CN 202110674441 A CN202110674441 A CN 202110674441A CN 113298036 A CN113298036 A CN 113298036A
Authority
CN
China
Prior art keywords
frame
image
search
image block
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110674441.XA
Other languages
English (en)
Other versions
CN113298036B (zh
Inventor
祝文君
孟濬
许力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110674441.XA priority Critical patent/CN113298036B/zh
Publication of CN113298036A publication Critical patent/CN113298036A/zh
Application granted granted Critical
Publication of CN113298036B publication Critical patent/CN113298036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无监督视频目标分割的方法,具体为,首先进行视频数据预处理并进行图像对初始化,然后进行特征提取、遮挡引导的特征匹配、关键部分增强以及通道位置增强操作,最后进行定位操作和反向跟踪,通过计算损失函数并训练得到最后训练模型,使用最后训练模型进行在线视频目标分割。本发明提出一种无监督视频目标分割的方法,对于给定的任意一个视频,在仅知道第一帧给定的目标掩模,没有其他任何信息的条件下能够对目标进行持续的分割,并在后续视频序列中保持分割目标,并且提高了视频目标分割的鲁棒性和准确性。

Description

一种无监督视频目标分割的方法
技术领域
本发明涉及视频目标分割领域,尤其涉及一种无监督视频目标分割的方法。
背景技术
视频目标分割是计算机视觉中的一项基本任务,应用主要包括人机交互、自动驾驶、增强现实和视频内容理解等。它的目的是在视频的初始帧中给定一个我们关注的运动对象的掩模,在视频的序列中定位这个运动对象并分割出来。视频目标分割是一项集检测、跟踪、光流和人员再识别于一体的计算机视觉任务。随着深度学习方法的进步,大量基于CNN的网络被提出来解决这个问题,视频对象分割也有了显著的进展。尽管取得了最先进的结果,但大部分改进的性能是通过完全监督学习实现的,其目标是学习非线性映射函数,将原始图像转换为嵌入空间,并提取用于表达对象的像素。监督学习提供了更丰富的信息,但相对于其他视觉任务,像素级标注的成本是相对困难和昂贵的,并且和人类的视觉-大脑的学习过程有着明显的差异。另一方面,视频目标分割不同于其他识别任务(例如,目标检测,图像分类),在这个意义上,目标在后续视频的变化是根据第一帧上的初始的目标而变化。而完全监督得学习的效果严重依赖训练标记样本的好坏,这种不确定性引发了我们对完全监督学习的思考,我们想开发一种替代完全监督学习的模型,即利用大量的未标记视频来进行学习。
发明内容
本发明目的在于针对现有技术的不足,提出一种无监督视频目标分割的方法。
本发明的目的是通过以下技术方案来实现的:一种无监督视频目标分割的方法,该方法具体步骤如下:
(1)视频数据预处理
将获取的视频序列划分为若干个子序列;对于每一个子序列,用相同比例缩放每一帧,然后裁剪一个宽度和高度均为L的区域作为搜索图像序列,并将搜索图像区域的中心作为受限区域,将搜索图像区域中除受限区域外的剩余区域作为边缘区域,从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l的区域作为初始模板图像块。
(2)图像对初始化
将初始模板图像块作为模板图像块,将搜索图像的第二帧作为搜索图像,模板图像块和搜索图像结合组成图像对。
(3)特征提取
使用神经网络对步骤(2)中的图像对进行特征提取,步骤(2)中的图像对通过提取特征后得到的特征图表示为:(fx,fp),fp为模板图像块,fx为搜索图像。
(4)遮挡引导的特征匹配
对于步骤(3)中的得到的特征图(fx,fp),从模板图像块fp找到最具代表能力的部分
Figure BDA0003120496880000021
用宽和高度为1/21的掩模制造遮挡,用滑动窗口的方法从模板特征图的左上角滑动到右下角,在滑动的过程中,被掩模遮挡的区域称为被遮挡的候选区域
Figure BDA0003120496880000022
被遮挡的模板图像块称为被遮挡的候选特征图
Figure BDA0003120496880000023
候选特征图
Figure BDA0003120496880000024
和被遮挡的候选区域
Figure BDA0003120496880000025
一一对应。根据相似度评分较低的情况选择关键部分:
Figure BDA0003120496880000026
式中,*表示相关操作,n表示被遮挡候选特征图的个数,S=[S1,S2,…,Sn]是一个相似图的映射向量,表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示,生成n个的相似度得分。第n个相似度得分计算方法为:
Figure BDA0003120496880000027
式中,H和W分别为相似图S的高和宽,hs和ws分别为相似图的最右位置坐标和最下位置坐标,i,j是遍历的位置标号。当被遮挡的候选特征图
Figure BDA0003120496880000028
和受限区域特征图
Figure BDA0003120496880000029
相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分
Figure BDA00031204968800000210
(5)关键部分增强
计算像素级匹配作为关键部分增强,对于每一个步骤(4)中得到的
Figure BDA00031204968800000211
与fp计算内积并进行归一化增强fp的关键部分,计算过程如下:
Figure BDA00031204968800000212
然后利用匹配的置信度图作为权重与
Figure BDA00031204968800000213
乘积得到空间增强的特征
Figure BDA00031204968800000214
Relu作为激活函数,α作为超参数:
Figure BDA00031204968800000215
(6)通道位置增强
该步骤包括模板分支的增强和搜索分支的增强,两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算;并将计算的自通道注意力流的特征和互通道注意力流的特征组合在一起得到新的特征图
(7)定位模块
增强后的特征特征
Figure BDA0003120496880000031
Figure BDA0003120496880000032
通过矩阵乘法得到匹配矩阵APX。然后将计算得到的匹配矩阵利用CNN网络回归几何变换参数μ。以参数μ和增强后的特征特征
Figure BDA0003120496880000033
为输入,由网格生成器和采样机构结合生成最终的图像块;
(8)将新生成的图像块替换模板图像块,与搜索图像序列的下一帧组成图像对,重复执行步骤(3)~(7),直到执行到搜素图像序列的第N帧。
(9)将搜索图像序列的顺序反转,第N帧变为第一帧,第一帧变为第N帧,重复执行步骤(3)~(7),直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。
(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数;网络最终的损失函数Ltotal是初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc和初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc的叠加和,ξ是超参数,用于调节损失比例;
Ltotal=ξLstc-Lsmc·
(11)以目标函数为监督进行深度学习训练,通过在公开的数据集上进行训练,并设置训练代数,在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。
(12)用步骤(11)获得的最后训练模型进行视频目标在线分割,具体过程为如下:
A.对于每一个测试视频序列,在第一帧图像F1中给定图像前景对象的掩码M1,以基于每帧匹配的掩码传播方式进行分割。具体来说,假设在第一帧的注释中总共有L个目标对象,图像上每一个空间位置p都会关联一个one-hot类别向量
Figure BDA0003120496880000034
每个位置的向量
Figure BDA0003120496880000035
代表位置p属于1个目标对象的概率,概率越大,属于第1个目标的概率越大。
B.从第二帧开始,使用上一帧的分割结果Mt-1和当前帧的图像Ft组成输入对作为最后训练模型的输入,然后在特征空间中计算相似性矩阵At-1,t=softmax(Ft-1 T·Ft),对于每一个位置pt,计算了L个目标类别的概率值:
Figure BDA0003120496880000036
对于每一个位置q的类别,使用
Figure BDA0003120496880000037
来确定。
C.保存当前时间帧图像的分割结果为Mt-1,并与下一帧的图像Ft组成输入对,重复步骤B的结果,直到测试视频序列的最后一帧。
进一步地,步骤(1)中,给定输入视频序列X包含有I个连续视频帧{x1,…,xI},在相邻帧{xi,…,xi+N}上使用滑动缓冲区顺序处理每一帧,N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K,一个完整的视频序列可以被分为{X_1,…,X_m}个子序列。
进一步地,步骤(1)中,在搜索图像序列中,将图像分为两部分,第一部分是位于搜索图像区域的中心的受限区域,宽度和高度均为2/3L,第二部分是边缘区域,是搜索图像区域中除受限区域外的剩余区域。
进一步地,步骤(3)中,神经网络采用参数共享的ResNet-50结构作为提取特征的骨架,修改第四层和第五层的步长,原始步长为2修改为1,使第四层和第五层输出的feature大小保持一致。
进一步地,步骤(6)中,模板分支自通道注意力流计算过程为:首先对特征
Figure BDA0003120496880000041
扁平化和重塑以生成新的特征图,然后将
Figure BDA0003120496880000042
和转置矩阵
Figure BDA0003120496880000043
进行矩阵乘法和归一化处理得到自通道注意力图Apsc
Figure BDA0003120496880000044
然后使用特征
Figure BDA0003120496880000045
和自通道注意力图Apsc再次执行矩阵乘法,将得到的结果增强到特征
Figure BDA0003120496880000046
上:
Figure BDA0003120496880000047
进一步地,步骤(6)中,模板分支互通道注意力流计算过程为:由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致,搜索分支计算自通道注意力流产生的自通道注意力图记为Axsc,并共享到模板分支,记为
Figure BDA0003120496880000048
然后使用特征
Figure BDA0003120496880000049
和共享的自通道注意力图
Figure BDA00031204968800000410
执行矩阵乘法,将得到的结果增强到特征
Figure BDA00031204968800000411
上:
Figure BDA00031204968800000412
为了充分利用双流通道注意力的信息,将上述计算的自通道注意力流模块的特征和互通道注意力流模块的特征组合在一起得到新的特征图
Figure BDA00031204968800000413
Figure BDA00031204968800000414
式中,
Figure BDA0003120496880000051
表示逐元素相加。
进一步地,步骤(7)中,定位模块计算公式如下:
Figure BDA0003120496880000052
进一步地,步骤(10)中,初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc计算过程如下:
Figure BDA0003120496880000053
Figure BDA0003120496880000054
Figure BDA0003120496880000055
式中,
Figure BDA0003120496880000056
是计算前向跟踪和后向跟踪相邻图像块之间的对齐程度,
Figure BDA0003120496880000057
是计算同一帧中前向跟踪和反向跟踪预测的图像块之间的误差,Lstc
Figure BDA0003120496880000058
Figure BDA0003120496880000059
叠加和。
进一步地,步骤(10)中,初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc计算过程如下:
Figure BDA00031204968800000510
本发明的有益效果:本发明提出一种无监督视频目标分割的方法,对于给定的任意一个视频,在仅知道第一帧给定的目标掩模,没有其他任何信息的条件下能够对目标进行持续的分割,并在后续视频序列中保持分割目标,并且提高了视频目标分割的鲁棒性和准确性。
附图说明
图1为本发明中划分视频子序列示意图;
图2为本发明中搜索图像序列示意图;
图3为本发明中模板图像块和搜索图像结合组成图像对示意图;
图4为本发明中遮挡引导的特征匹配过程示意图;
图5为本发明中通道位置增强过程示意图;
图6为本发明中定位模块示意图;
图7为本发明流程图;
图8为本发明在线视频分割流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
本发明提供的一种无监督视频目标分割的方法,在连续的视频序列当中,目标在前后两帧图像中的位置偏移不会发生巨大的变化,而且形状变化也不会很明显。因此,本发明通过在第一帧中初始一个目标块,然后沿着时间维度在序列中预测与初始目标块相似的目标,接着利用序列最后一帧的预测目标反向进行跟踪直到序列的第一帧。理想状况下,初始的目标快和反向跟踪预测的序列块是一致的。所以在网络的训练中最小化初始目标块和预测目标块之间的差异,是网络学习到更有效的特征表示。
如图7所示,本发明方法具体步骤如下:
(1)视频数据预处理
如图1和图2所示,给定输入视频序列X包含有I个连续视频帧{x1,···,xI},在相邻帧{xi,···,xi+N}上使用滑动缓冲区顺序处理每一帧,N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K,一个完整的视频序列可以被分为{X_1,···,X_m}个子序列;对于每一个子序列,用相同比例缩放每一帧,然后裁剪一个宽度和高度均为L的区域作为搜索图像序列,在搜索图像序列中,将图像分为两部分,第一部分是位于搜索图像区域的中心的受限区域,宽度和高度均为2/3L,第二部分是边缘区域,是搜索图像区域中除受限区域外的剩余区域;从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l(l=1/3L)的区域作为初始模板图像块。
(2)图像对初始化
如图3所示,将初始模板图像块作为模板图像块,将搜索图像的第二帧作为搜索图像,模板图像块和搜索图像结合组成图像对。
(3)特征提取
采用参数共享的ResNet-50结构作为提取特征的骨架,修改第四层和第五层的步长,原始步长为2修改为1,使第四层和第五层输出的feature大小保持一致。步骤(2)中的图像对通过提取特征后得到的特征图表示为:(fx,fp),fp为模板图像块,fx为搜索图像。
(4)遮挡引导的特征匹配
如图4所示,对于步骤(3)中的得到的特征图(fx,fp),从模板图像块fp找到最具代表能力的部分
Figure BDA0003120496880000061
用宽和高度为1/2l的掩模制造遮挡,用滑动窗口的方法从模板特征图的左上角滑动到右下角,在滑动的过程中,被掩模遮挡的区域称为被遮挡的候选区域
Figure BDA0003120496880000062
被遮挡的模板图像块称为被遮挡的候选特征图
Figure BDA0003120496880000071
候选特征图
Figure BDA0003120496880000072
和被遮挡的候选区域
Figure BDA0003120496880000073
一一对应。把从候选区域
Figure BDA0003120496880000074
中找到最具代表能力的部分
Figure BDA0003120496880000075
视为比较
Figure BDA0003120496880000076
和受限区域特征图
Figure BDA0003120496880000077
相似性度量匹配的问题,相似度评分最低的遮挡特征表明该遮挡特征丢失的信息最多,其对应的裁剪部分比其他裁剪特征部分更重要。所以根据相似度评分较低的情况选择关键部分:
Figure BDA0003120496880000078
式中,*表示相关操作,n表示被遮挡候选特征图的个数,S=[S1,S2,…,Sn]是一个相似图的映射向量,表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示,生成n个的相似度得分。形式上,相似度得分向量为1×1×n,第n个相似度得分计算方法为:
Figure BDA0003120496880000079
式中,H和W分别为相似图S的高和宽,hs和ws分别为相似图的最右位置坐标和最下位置坐标,i,j是遍历的位置标号。当被遮挡的候选特征图
Figure BDA00031204968800000710
和受限区域特征图
Figure BDA00031204968800000711
相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分
Figure BDA00031204968800000712
(5)关键部分增强
如图5所示,计算像素级匹配作为关键部分增强,对于每一个步骤(4)中得到的
Figure BDA00031204968800000713
与fp计算内积并进行归一化增强fp的关键部分,计算过程如下:
Figure BDA00031204968800000714
使用余弦距离Fcos(·,·)来评估匹配置信相似性。θ通过1×1个卷积层实现,在保持特征空间大小的同时,将输入特征嵌入到特征空间中。然后利用匹配的置信度图作为权重与
Figure BDA00031204968800000715
乘积得到空间增强的特征
Figure BDA00031204968800000716
Relu作为激活函数,α作为超参数:
Figure BDA00031204968800000717
(6)通道位置增强
该步骤包括模板分支的增强和搜索分支的增强,两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算;
模板分支自通道注意力流计算过程为:首先对特征
Figure BDA0003120496880000081
扁平化和重塑以生成新的特征图,然后将
Figure BDA0003120496880000082
和转置矩阵
Figure BDA0003120496880000083
进行矩阵乘法和归一化处理得到自通道注意力图Apsc
Figure BDA0003120496880000084
然后使用特征
Figure BDA0003120496880000085
和自通道注意力图Apsc再次执行矩阵乘法,将得到的结果增强到特征
Figure BDA0003120496880000086
上:
Figure BDA0003120496880000087
模板分支互通道注意力流计算过程为:由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致,搜索分支计算自通道注意力流产生的自通道注意力图记为Axsc,并共享到模板分支,记为
Figure BDA0003120496880000088
然后使用特征
Figure BDA0003120496880000089
和共享的自通道注意力图
Figure BDA00031204968800000810
执行矩阵乘法,将得到的结果增强到特征
Figure BDA00031204968800000811
上:
Figure BDA00031204968800000812
为了充分利用双流通道注意力的信息,将上述计算的自通道注意力流模块的特征和互通道注意力流模块的特征组合在一起得到新的特征图
Figure BDA00031204968800000813
Figure BDA00031204968800000814
式中,
Figure BDA00031204968800000815
表示逐元素相加。
按照模板分支的计算过程,在搜索分支上,同样可以计算得到的新的特征图
Figure BDA00031204968800000816
Figure BDA00031204968800000817
(7)定位模块
如图6所示,增强后的特征特征
Figure BDA00031204968800000818
Figure BDA00031204968800000819
通过矩阵乘法得到匹配矩阵APX。然后将计算得到的匹配矩阵利用CNN网络(包括卷积层和全连接层)回归几何变换参数μ。以参数μ和增强后的特征特征
Figure BDA00031204968800000820
为输入,由网格生成器和采样机构结合生成最终的图像块;
Figure BDA0003120496880000091
(8)将新生成的图像块替换模板图像块,与搜索图像序列的下一帧组成图像对,重复执行步骤三四五六七,直到执行到搜素图像序列的第N帧。
(9)将搜索图像序列的顺序反转,第N帧变为第一帧,第一帧变为第N帧,重复执行步骤三四五六七,直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。
(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数;设计Lstc损失计算初始模板图像块和预测的模板图像块之间的对齐误差,
Figure BDA0003120496880000092
是计算前向跟踪和后向跟踪相邻图像块之间的对齐程度,
Figure BDA0003120496880000093
是计算同一帧中前向跟踪和反向跟踪预测的图像块之间的误差。Lstc
Figure BDA0003120496880000094
Figure BDA0003120496880000095
叠加和;
Figure BDA0003120496880000096
Figure BDA0003120496880000097
Figure BDA0003120496880000098
Lsmc损失是计算初始模板图像块和预测的模板图像块之间的匹配程度;
Figure BDA0003120496880000099
网络最终的损失函数Ltotal是Lstc损失和Lsmc损失的叠加和,ξ是超参数,用于调节损失比例;
Ltotal=ξLstc-Lsmc·
(11)以目标函数为监督进行深度学习训练,通过在公开的数据集上进行训练,并设置训练代数,在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。
(12)用步骤(11)获得的最后训练模型进行视频目标在线分割,如图8所示,具体过程为如下:
A.对于每一个测试视频序列,在第一帧图像F1中给定图像前景对象的掩码M1,以基于每帧匹配的掩码传播方式进行分割。具体来说,假设在第一帧的注释中总共有L个目标对象,图像上每一个空间位置p都会关联一个one-hot类别向量
Figure BDA0003120496880000101
每个位置的向量
Figure BDA0003120496880000102
代表位置p属于第l个目标对象的概率,概率越大,属于第l个目标的概率越大。
B.从第二帧开始,使用上一帧的分割结果Mt-1和当前帧的图像Ft组成输入对作为最后训练模型的输入,然后在特征空间中计算相似性矩阵At-1,t=softmax(Ft-1 T·Ft),对于每一个位置pt,计算了L个目标类别的概率值:
Figure BDA0003120496880000103
对于每一个位置q的类别,使用l=argmaxl({cq l}l=1 L)来确定。
C.保存当前时间帧图像的分割结果为Mt-1,并与下一帧的图像Ft组成输入对,重复步骤B的结果,直到测试视频序列的最后一帧。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (9)

1.一种无监督视频目标分割的方法,其特征在于,该方法具体步骤如下:
(1)视频数据预处理
将获取的视频序列划分为若干个子序列;对于每一个子序列,用相同比例缩放每一帧,然后裁剪一个宽度和高度均为L的区域作为搜索图像序列,并将搜索图像区域的中心作为受限区域,将搜索图像区域中除受限区域外的剩余区域作为边缘区域,从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l的区域作为初始模板图像块。
(2)图像对初始化
将初始模板图像块作为模板图像块,将搜索图像的第二帧作为搜索图像,模板图像块和搜索图像结合组成图像对。
(3)特征提取
使用神经网络对步骤(2)中的图像对进行特征提取,步骤(2)中的图像对通过提取特征后得到的特征图表示为:(fx,fp),fp为模板图像块,fx为搜索图像。
(4)遮挡引导的特征匹配
对于步骤(3)中的得到的特征图(fx,fp),从模板图像块fp找到最具代表能力的部分
Figure FDA0003120496870000011
用宽和高度为1/2l的掩模制造遮挡,用滑动窗口的方法从模板特征图的左上角滑动到右下角,在滑动的过程中,被掩模遮挡的区域称为被遮挡的候选区域
Figure FDA0003120496870000012
被遮挡的模板图像块称为被遮挡的候选特征图
Figure FDA0003120496870000013
候选特征图
Figure FDA0003120496870000014
和被遮挡的候选区域
Figure FDA0003120496870000015
一一对应。根据相似度评分较低的情况选择关键部分:
Figure FDA0003120496870000016
式中,*表示相关操作,n表示被遮挡候选特征图的个数,S=[S1,S2,···,Sn]是一个相似图的映射向量,表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示,生成n个的相似度得分。第n个相似度得分计算方法为:
Figure FDA0003120496870000017
式中,H和W分别为相似图S的高和宽,hs和ws分别为相似图的最右位置坐标和最下位置坐标,i,j是遍历的位置标号。当被遮挡的候选特征图
Figure FDA0003120496870000018
和受限区域特征图
Figure FDA0003120496870000019
相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分
Figure FDA00031204968700000110
(5)关键部分增强
计算像素级匹配作为关键部分增强,对于每一个步骤(4)中得到的
Figure FDA0003120496870000021
与fp计算内积并进行归一化增强fp的关键部分,计算过程如下:
Figure FDA0003120496870000022
然后利用匹配的置信度图作为权重与
Figure FDA0003120496870000023
乘积得到空间增强的特征
Figure FDA0003120496870000024
Relu作为激活函数,α作为超参数:
Figure FDA0003120496870000025
(6)通道位置增强
该步骤包括模板分支的增强和搜索分支的增强,两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算;并将计算的自通道注意力流的特征和互通道注意力流的特征组合在一起得到新的特征图
(7)定位模块
增强后的特征特征
Figure FDA0003120496870000026
Figure FDA0003120496870000027
通过矩阵乘法得到匹配矩阵APX。然后将计算得到的匹配矩阵利用CNN网络回归几何变换参数μ。以参数μ和增强后的特征特征
Figure FDA0003120496870000028
为输入,由网格生成器和采样机构结合生成最终的图像块;
(8)将新生成的图像块替换模板图像块,与搜索图像序列的下一帧组成图像对,重复执行步骤(3)~(7),直到执行到搜素图像序列的第N帧。
(9)将搜索图像序列的顺序反转,第N帧变为第一帧,第一帧变为第N帧,重复执行步骤(3)~(7),直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。
(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数;网络最终的损失函数Ltptal是初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc和初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc的叠加和,ξ是超参数,用于调节损失比例;
Ltotal=ξLstc-Lsmc.
(11)以目标函数为监督进行深度学习训练,通过在公开的数据集上进行训练,并设置训练代数,在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。
(12)用步骤(11)获得的最后训练模型进行视频目标在线分割,具体过程为如下:
A.对于每一个测试视频序列,在第一帧图像F1中给定图像前景对象的掩码M1,以基于每帧匹配的掩码传播方式进行分割。具体来说,假设在第一帧的注释中总共有L个目标对象,图像上每一个空间位置p都会关联一个one-hot类别向量
Figure FDA0003120496870000031
每个位置的向量
Figure FDA0003120496870000032
代表位置p属于第l个目标对象的概率,概率越大,属于第l个目标的概率越大。
B.从第二帧开始,使用上一帧的分割结果Mt-1和当前帧的图像Ft组成输入对作为最后训练模型的输入,然后在特征空间中计算相似性矩阵At-1,t=softmax(Ft-1 T·Ft),对于每一个位置pt,计算了L个目标类别的概率值:
Figure FDA0003120496870000033
对于每一个位置q的类别,使用l=argmaxl({cq l}l=1 L)来确定。
C.保存当前时间帧图像的分割结果为Mt-1,并与下一帧的图像Ft组成输入对,重复步骤B的结果,直到测试视频序列的最后一帧。
2.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(1)中,给定输入视频序列X包含有I个连续视频帧{x1,···,xI},在相邻帧{xi,···,xi+N}上使用滑动缓冲区顺序处理每一帧,N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K,一个完整的视频序列可以被分为{X_1,···,X_m}个子序列。
3.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(1)中,在搜索图像序列中,将图像分为两部分,第一部分是位于搜索图像区域的中心的受限区域,宽度和高度均为2/3L,第二部分是边缘区域,是搜索图像区域中除受限区域外的剩余区域。
4.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(3)中,神经网络采用参数共享的ResNet-50结构作为提取特征的骨架,修改第四层和第五层的步长,原始步长为2修改为1,使第四层和第五层输出的feature大小保持一致。
5.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(6)中,模板分支自通道注意力流计算过程为:首先对特征
Figure FDA0003120496870000034
扁平化和重塑以生成新的特征图,然后将
Figure FDA0003120496870000035
和转置矩阵
Figure FDA0003120496870000036
进行矩阵乘法和归一化处理得到自通道注意力图Apsc
Figure FDA0003120496870000037
然后使用特征
Figure FDA0003120496870000038
和自通道注意力图Apsc再次执行矩阵乘法,将得到的结果增强到特征
Figure FDA0003120496870000039
上:
Figure FDA0003120496870000041
6.根据权利要求5所述的一种无监督视频目标分割的方法,其特征在于,步骤(6)中,模板分支互通道注意力流计算过程为:由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致,搜索分支计算自通道注意力流产生的自通道注意力图记为Axsc,并共享到模板分支,记为
Figure FDA0003120496870000042
然后使用特征
Figure FDA0003120496870000043
和共享的自通道注意力图
Figure FDA0003120496870000044
执行矩阵乘法,将得到的结果增强到特征
Figure FDA0003120496870000045
上:
Figure FDA0003120496870000046
为了充分利用双流通道注意力的信息,将上述计算的自通道注意力流模块的特征和互通道注意力流模块的特征组合在一起得到新的特征图
Figure FDA0003120496870000047
Figure FDA0003120496870000048
式中,⊕表示逐元素相加。
7.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(7)中,定位模块计算公式如下:
Figure FDA0003120496870000049
8.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(10)中,初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc计算过程如下:
Figure FDA00031204968700000410
Figure FDA00031204968700000411
Figure FDA00031204968700000412
式中,
Figure FDA00031204968700000413
是计算前向跟踪和后向跟踪相邻图像块之间的对齐程度,
Figure FDA00031204968700000414
是计算同一帧中前向跟踪和反向跟踪预测的图像块之间的误差,Lstc
Figure FDA0003120496870000051
Figure FDA0003120496870000052
叠加和。
9.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(10)中,初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc计算过程如下:
Figure FDA0003120496870000053
CN202110674441.XA 2021-06-17 2021-06-17 一种无监督视频目标分割的方法 Active CN113298036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110674441.XA CN113298036B (zh) 2021-06-17 2021-06-17 一种无监督视频目标分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110674441.XA CN113298036B (zh) 2021-06-17 2021-06-17 一种无监督视频目标分割的方法

Publications (2)

Publication Number Publication Date
CN113298036A true CN113298036A (zh) 2021-08-24
CN113298036B CN113298036B (zh) 2023-06-02

Family

ID=77328576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110674441.XA Active CN113298036B (zh) 2021-06-17 2021-06-17 一种无监督视频目标分割的方法

Country Status (1)

Country Link
CN (1) CN113298036B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067251A (zh) * 2021-11-18 2022-02-18 西安交通大学 一种无监督监控视频预测帧异常检测方法
CN115393396A (zh) * 2022-08-18 2022-11-25 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN116843933A (zh) * 2023-09-02 2023-10-03 苏州聚视兴华智能装备有限公司 图像模板匹配优化方法、装置及电子设备
CN117392180A (zh) * 2023-12-12 2024-01-12 山东建筑大学 基于自监督光流学习的交互式视频人物跟踪方法及系统
CN117992928A (zh) * 2024-04-07 2024-05-07 中山大学 一种区域化最优基流分割方法、装置、设备和介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847263A (zh) * 2010-06-04 2010-09-29 西安电子科技大学 基于多目标免疫聚类集成的无监督图像分割方法
US20140270350A1 (en) * 2013-03-14 2014-09-18 Xerox Corporation Data driven localization using task-dependent representations
CN106649696A (zh) * 2016-12-19 2017-05-10 北京云知声信息技术有限公司 信息分类方法及装置
US20170193298A1 (en) * 2014-03-19 2017-07-06 Neurala, Inc. Methods and apparatus for autonomous robotic control
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
CN110569793A (zh) * 2019-09-09 2019-12-13 西南交通大学 一种无监督相似性判别学习的目标跟踪方法
CN110910391A (zh) * 2019-11-15 2020-03-24 安徽大学 一种双模块神经网络结构视频对象分割方法
CN111260687A (zh) * 2020-01-10 2020-06-09 西北工业大学 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
CN111399541A (zh) * 2020-03-30 2020-07-10 西北工业大学 无监督学习型神经网络的无人机全区域侦察路径规划方法
CN111444826A (zh) * 2020-03-25 2020-07-24 腾讯科技(深圳)有限公司 视频检测方法、装置、存储介质及计算机设备
US20210038198A1 (en) * 2019-08-07 2021-02-11 Siemens Healthcare Gmbh Shape-based generative adversarial network for segmentation in medical imaging

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847263A (zh) * 2010-06-04 2010-09-29 西安电子科技大学 基于多目标免疫聚类集成的无监督图像分割方法
US20140270350A1 (en) * 2013-03-14 2014-09-18 Xerox Corporation Data driven localization using task-dependent representations
US20170193298A1 (en) * 2014-03-19 2017-07-06 Neurala, Inc. Methods and apparatus for autonomous robotic control
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN106649696A (zh) * 2016-12-19 2017-05-10 北京云知声信息技术有限公司 信息分类方法及装置
CN109145769A (zh) * 2018-08-01 2019-01-04 辽宁工业大学 融合图像分割特征的目标检测网络设计方法
US20210038198A1 (en) * 2019-08-07 2021-02-11 Siemens Healthcare Gmbh Shape-based generative adversarial network for segmentation in medical imaging
CN110569793A (zh) * 2019-09-09 2019-12-13 西南交通大学 一种无监督相似性判别学习的目标跟踪方法
CN110910391A (zh) * 2019-11-15 2020-03-24 安徽大学 一种双模块神经网络结构视频对象分割方法
CN111260687A (zh) * 2020-01-10 2020-06-09 西北工业大学 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
CN111444826A (zh) * 2020-03-25 2020-07-24 腾讯科技(深圳)有限公司 视频检测方法、装置、存储介质及计算机设备
CN111399541A (zh) * 2020-03-30 2020-07-10 西北工业大学 无监督学习型神经网络的无人机全区域侦察路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENJUN ZHU ET AL.: "Self-supervised video object segmentation using integration-augmented attention", 《NEUROCOMPUTING》 *
苗中华 等: "基于图像处理多算法融合的杂草检测方法及试验", 《智慧农业(中英文)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067251A (zh) * 2021-11-18 2022-02-18 西安交通大学 一种无监督监控视频预测帧异常检测方法
CN114067251B (zh) * 2021-11-18 2023-09-15 西安交通大学 一种无监督监控视频预测帧异常检测方法
CN115393396A (zh) * 2022-08-18 2022-11-25 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN115393396B (zh) * 2022-08-18 2024-02-02 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN116843933A (zh) * 2023-09-02 2023-10-03 苏州聚视兴华智能装备有限公司 图像模板匹配优化方法、装置及电子设备
CN116843933B (zh) * 2023-09-02 2023-11-21 苏州聚视兴华智能装备有限公司 图像模板匹配优化方法、装置及电子设备
CN117392180A (zh) * 2023-12-12 2024-01-12 山东建筑大学 基于自监督光流学习的交互式视频人物跟踪方法及系统
CN117392180B (zh) * 2023-12-12 2024-03-26 山东建筑大学 基于自监督光流学习的交互式视频人物跟踪方法及系统
CN117992928A (zh) * 2024-04-07 2024-05-07 中山大学 一种区域化最优基流分割方法、装置、设备和介质

Also Published As

Publication number Publication date
CN113298036B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN113298036B (zh) 一种无监督视频目标分割的方法
Zhang et al. SCSTCF: spatial-channel selection and temporal regularized correlation filters for visual tracking
EP1934941B1 (en) Bi-directional tracking using trajectory segment analysis
CN112651998B (zh) 基于注意力机制和双流多域卷积神经网络的人体跟踪算法
CN112330719B (zh) 基于特征图分割和自适应融合的深度学习目标跟踪方法
CN112560656A (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN112348849A (zh) 一种孪生网络视频目标跟踪方法及装置
CN112750148A (zh) 一种基于孪生网络的多尺度目标感知跟踪方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN113920170B (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN115375737B (zh) 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN113706581A (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN116310971A (zh) 基于稀疏注意力更新模板特征的无监督目标跟踪的方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
CN116402858A (zh) 基于transformer的时空信息融合的红外目标跟踪方法
CN113673540A (zh) 一种基于定位信息引导的目标检测方法
Yang et al. TGAN: A simple model update strategy for visual tracking via template-guidance attention network
CN116543019A (zh) 一种基于精确边界框预测的单目标跟踪方法
CN108665470B (zh) 一种交互式轮廓提取方法
CN116543021A (zh) 一种基于特征融合的Siamese网络视频单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant