CN113298036A - 一种无监督视频目标分割的方法 - Google Patents
一种无监督视频目标分割的方法 Download PDFInfo
- Publication number
- CN113298036A CN113298036A CN202110674441.XA CN202110674441A CN113298036A CN 113298036 A CN113298036 A CN 113298036A CN 202110674441 A CN202110674441 A CN 202110674441A CN 113298036 A CN113298036 A CN 113298036A
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- search
- image block
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无监督视频目标分割的方法,具体为,首先进行视频数据预处理并进行图像对初始化,然后进行特征提取、遮挡引导的特征匹配、关键部分增强以及通道位置增强操作,最后进行定位操作和反向跟踪,通过计算损失函数并训练得到最后训练模型,使用最后训练模型进行在线视频目标分割。本发明提出一种无监督视频目标分割的方法,对于给定的任意一个视频,在仅知道第一帧给定的目标掩模,没有其他任何信息的条件下能够对目标进行持续的分割,并在后续视频序列中保持分割目标,并且提高了视频目标分割的鲁棒性和准确性。
Description
技术领域
本发明涉及视频目标分割领域,尤其涉及一种无监督视频目标分割的方法。
背景技术
视频目标分割是计算机视觉中的一项基本任务,应用主要包括人机交互、自动驾驶、增强现实和视频内容理解等。它的目的是在视频的初始帧中给定一个我们关注的运动对象的掩模,在视频的序列中定位这个运动对象并分割出来。视频目标分割是一项集检测、跟踪、光流和人员再识别于一体的计算机视觉任务。随着深度学习方法的进步,大量基于CNN的网络被提出来解决这个问题,视频对象分割也有了显著的进展。尽管取得了最先进的结果,但大部分改进的性能是通过完全监督学习实现的,其目标是学习非线性映射函数,将原始图像转换为嵌入空间,并提取用于表达对象的像素。监督学习提供了更丰富的信息,但相对于其他视觉任务,像素级标注的成本是相对困难和昂贵的,并且和人类的视觉-大脑的学习过程有着明显的差异。另一方面,视频目标分割不同于其他识别任务(例如,目标检测,图像分类),在这个意义上,目标在后续视频的变化是根据第一帧上的初始的目标而变化。而完全监督得学习的效果严重依赖训练标记样本的好坏,这种不确定性引发了我们对完全监督学习的思考,我们想开发一种替代完全监督学习的模型,即利用大量的未标记视频来进行学习。
发明内容
本发明目的在于针对现有技术的不足,提出一种无监督视频目标分割的方法。
本发明的目的是通过以下技术方案来实现的:一种无监督视频目标分割的方法,该方法具体步骤如下:
(1)视频数据预处理
将获取的视频序列划分为若干个子序列;对于每一个子序列,用相同比例缩放每一帧,然后裁剪一个宽度和高度均为L的区域作为搜索图像序列,并将搜索图像区域的中心作为受限区域,将搜索图像区域中除受限区域外的剩余区域作为边缘区域,从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l的区域作为初始模板图像块。
(2)图像对初始化
将初始模板图像块作为模板图像块,将搜索图像的第二帧作为搜索图像,模板图像块和搜索图像结合组成图像对。
(3)特征提取
使用神经网络对步骤(2)中的图像对进行特征提取,步骤(2)中的图像对通过提取特征后得到的特征图表示为:(fx,fp),fp为模板图像块,fx为搜索图像。
(4)遮挡引导的特征匹配
对于步骤(3)中的得到的特征图(fx,fp),从模板图像块fp找到最具代表能力的部分用宽和高度为1/21的掩模制造遮挡,用滑动窗口的方法从模板特征图的左上角滑动到右下角,在滑动的过程中,被掩模遮挡的区域称为被遮挡的候选区域被遮挡的模板图像块称为被遮挡的候选特征图候选特征图和被遮挡的候选区域一一对应。根据相似度评分较低的情况选择关键部分:
式中,*表示相关操作,n表示被遮挡候选特征图的个数,S=[S1,S2,…,Sn]是一个相似图的映射向量,表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示,生成n个的相似度得分。第n个相似度得分计算方法为:
式中,H和W分别为相似图S的高和宽,hs和ws分别为相似图的最右位置坐标和最下位置坐标,i,j是遍历的位置标号。当被遮挡的候选特征图和受限区域特征图相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分
(5)关键部分增强
(6)通道位置增强
该步骤包括模板分支的增强和搜索分支的增强,两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算;并将计算的自通道注意力流的特征和互通道注意力流的特征组合在一起得到新的特征图
(7)定位模块
(8)将新生成的图像块替换模板图像块,与搜索图像序列的下一帧组成图像对,重复执行步骤(3)~(7),直到执行到搜素图像序列的第N帧。
(9)将搜索图像序列的顺序反转,第N帧变为第一帧,第一帧变为第N帧,重复执行步骤(3)~(7),直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。
(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数;网络最终的损失函数Ltotal是初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc和初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc的叠加和,ξ是超参数,用于调节损失比例;
Ltotal=ξLstc-Lsmc·
(11)以目标函数为监督进行深度学习训练,通过在公开的数据集上进行训练,并设置训练代数,在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。
(12)用步骤(11)获得的最后训练模型进行视频目标在线分割,具体过程为如下:
A.对于每一个测试视频序列,在第一帧图像F1中给定图像前景对象的掩码M1,以基于每帧匹配的掩码传播方式进行分割。具体来说,假设在第一帧的注释中总共有L个目标对象,图像上每一个空间位置p都会关联一个one-hot类别向量每个位置的向量代表位置p属于1个目标对象的概率,概率越大,属于第1个目标的概率越大。
B.从第二帧开始,使用上一帧的分割结果Mt-1和当前帧的图像Ft组成输入对作为最后训练模型的输入,然后在特征空间中计算相似性矩阵At-1,t=softmax(Ft-1 T·Ft),对于每一个位置pt,计算了L个目标类别的概率值:
C.保存当前时间帧图像的分割结果为Mt-1,并与下一帧的图像Ft组成输入对,重复步骤B的结果,直到测试视频序列的最后一帧。
进一步地,步骤(1)中,给定输入视频序列X包含有I个连续视频帧{x1,…,xI},在相邻帧{xi,…,xi+N}上使用滑动缓冲区顺序处理每一帧,N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K,一个完整的视频序列可以被分为{X_1,…,X_m}个子序列。
进一步地,步骤(1)中,在搜索图像序列中,将图像分为两部分,第一部分是位于搜索图像区域的中心的受限区域,宽度和高度均为2/3L,第二部分是边缘区域,是搜索图像区域中除受限区域外的剩余区域。
进一步地,步骤(3)中,神经网络采用参数共享的ResNet-50结构作为提取特征的骨架,修改第四层和第五层的步长,原始步长为2修改为1,使第四层和第五层输出的feature大小保持一致。
进一步地,步骤(6)中,模板分支互通道注意力流计算过程为:由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致,搜索分支计算自通道注意力流产生的自通道注意力图记为Axsc,并共享到模板分支,记为然后使用特征和共享的自通道注意力图执行矩阵乘法,将得到的结果增强到特征上:
进一步地,步骤(7)中,定位模块计算公式如下:
进一步地,步骤(10)中,初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc计算过程如下:
进一步地,步骤(10)中,初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc计算过程如下:
本发明的有益效果:本发明提出一种无监督视频目标分割的方法,对于给定的任意一个视频,在仅知道第一帧给定的目标掩模,没有其他任何信息的条件下能够对目标进行持续的分割,并在后续视频序列中保持分割目标,并且提高了视频目标分割的鲁棒性和准确性。
附图说明
图1为本发明中划分视频子序列示意图;
图2为本发明中搜索图像序列示意图;
图3为本发明中模板图像块和搜索图像结合组成图像对示意图;
图4为本发明中遮挡引导的特征匹配过程示意图;
图5为本发明中通道位置增强过程示意图;
图6为本发明中定位模块示意图;
图7为本发明流程图;
图8为本发明在线视频分割流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
本发明提供的一种无监督视频目标分割的方法,在连续的视频序列当中,目标在前后两帧图像中的位置偏移不会发生巨大的变化,而且形状变化也不会很明显。因此,本发明通过在第一帧中初始一个目标块,然后沿着时间维度在序列中预测与初始目标块相似的目标,接着利用序列最后一帧的预测目标反向进行跟踪直到序列的第一帧。理想状况下,初始的目标快和反向跟踪预测的序列块是一致的。所以在网络的训练中最小化初始目标块和预测目标块之间的差异,是网络学习到更有效的特征表示。
如图7所示,本发明方法具体步骤如下:
(1)视频数据预处理
如图1和图2所示,给定输入视频序列X包含有I个连续视频帧{x1,···,xI},在相邻帧{xi,···,xi+N}上使用滑动缓冲区顺序处理每一帧,N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K,一个完整的视频序列可以被分为{X_1,···,X_m}个子序列;对于每一个子序列,用相同比例缩放每一帧,然后裁剪一个宽度和高度均为L的区域作为搜索图像序列,在搜索图像序列中,将图像分为两部分,第一部分是位于搜索图像区域的中心的受限区域,宽度和高度均为2/3L,第二部分是边缘区域,是搜索图像区域中除受限区域外的剩余区域;从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l(l=1/3L)的区域作为初始模板图像块。
(2)图像对初始化
如图3所示,将初始模板图像块作为模板图像块,将搜索图像的第二帧作为搜索图像,模板图像块和搜索图像结合组成图像对。
(3)特征提取
采用参数共享的ResNet-50结构作为提取特征的骨架,修改第四层和第五层的步长,原始步长为2修改为1,使第四层和第五层输出的feature大小保持一致。步骤(2)中的图像对通过提取特征后得到的特征图表示为:(fx,fp),fp为模板图像块,fx为搜索图像。
(4)遮挡引导的特征匹配
如图4所示,对于步骤(3)中的得到的特征图(fx,fp),从模板图像块fp找到最具代表能力的部分用宽和高度为1/2l的掩模制造遮挡,用滑动窗口的方法从模板特征图的左上角滑动到右下角,在滑动的过程中,被掩模遮挡的区域称为被遮挡的候选区域被遮挡的模板图像块称为被遮挡的候选特征图候选特征图和被遮挡的候选区域一一对应。把从候选区域中找到最具代表能力的部分视为比较和受限区域特征图相似性度量匹配的问题,相似度评分最低的遮挡特征表明该遮挡特征丢失的信息最多,其对应的裁剪部分比其他裁剪特征部分更重要。所以根据相似度评分较低的情况选择关键部分:
式中,*表示相关操作,n表示被遮挡候选特征图的个数,S=[S1,S2,…,Sn]是一个相似图的映射向量,表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示,生成n个的相似度得分。形式上,相似度得分向量为1×1×n,第n个相似度得分计算方法为:
式中,H和W分别为相似图S的高和宽,hs和ws分别为相似图的最右位置坐标和最下位置坐标,i,j是遍历的位置标号。当被遮挡的候选特征图和受限区域特征图相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分
(5)关键部分增强
使用余弦距离Fcos(·,·)来评估匹配置信相似性。θ通过1×1个卷积层实现,在保持特征空间大小的同时,将输入特征嵌入到特征空间中。然后利用匹配的置信度图作为权重与乘积得到空间增强的特征Relu作为激活函数,α作为超参数:
(6)通道位置增强
该步骤包括模板分支的增强和搜索分支的增强,两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算;
模板分支互通道注意力流计算过程为:由于搜索分支的计算过程和模板分支的自通道注意力流计算过程一致,搜索分支计算自通道注意力流产生的自通道注意力图记为Axsc,并共享到模板分支,记为然后使用特征和共享的自通道注意力图执行矩阵乘法,将得到的结果增强到特征上:
(7)定位模块
如图6所示,增强后的特征特征和通过矩阵乘法得到匹配矩阵APX。然后将计算得到的匹配矩阵利用CNN网络(包括卷积层和全连接层)回归几何变换参数μ。以参数μ和增强后的特征特征为输入,由网格生成器和采样机构结合生成最终的图像块;
(8)将新生成的图像块替换模板图像块,与搜索图像序列的下一帧组成图像对,重复执行步骤三四五六七,直到执行到搜素图像序列的第N帧。
(9)将搜索图像序列的顺序反转,第N帧变为第一帧,第一帧变为第N帧,重复执行步骤三四五六七,直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。
(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数;设计Lstc损失计算初始模板图像块和预测的模板图像块之间的对齐误差,是计算前向跟踪和后向跟踪相邻图像块之间的对齐程度,是计算同一帧中前向跟踪和反向跟踪预测的图像块之间的误差。Lstc是和叠加和;
Lsmc损失是计算初始模板图像块和预测的模板图像块之间的匹配程度;
网络最终的损失函数Ltotal是Lstc损失和Lsmc损失的叠加和,ξ是超参数,用于调节损失比例;
Ltotal=ξLstc-Lsmc·
(11)以目标函数为监督进行深度学习训练,通过在公开的数据集上进行训练,并设置训练代数,在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。
(12)用步骤(11)获得的最后训练模型进行视频目标在线分割,如图8所示,具体过程为如下:
A.对于每一个测试视频序列,在第一帧图像F1中给定图像前景对象的掩码M1,以基于每帧匹配的掩码传播方式进行分割。具体来说,假设在第一帧的注释中总共有L个目标对象,图像上每一个空间位置p都会关联一个one-hot类别向量每个位置的向量代表位置p属于第l个目标对象的概率,概率越大,属于第l个目标的概率越大。
B.从第二帧开始,使用上一帧的分割结果Mt-1和当前帧的图像Ft组成输入对作为最后训练模型的输入,然后在特征空间中计算相似性矩阵At-1,t=softmax(Ft-1 T·Ft),对于每一个位置pt,计算了L个目标类别的概率值:
对于每一个位置q的类别,使用l=argmaxl({cq l}l=1 L)来确定。
C.保存当前时间帧图像的分割结果为Mt-1,并与下一帧的图像Ft组成输入对,重复步骤B的结果,直到测试视频序列的最后一帧。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (9)
1.一种无监督视频目标分割的方法,其特征在于,该方法具体步骤如下:
(1)视频数据预处理
将获取的视频序列划分为若干个子序列;对于每一个子序列,用相同比例缩放每一帧,然后裁剪一个宽度和高度均为L的区域作为搜索图像序列,并将搜索图像区域的中心作为受限区域,将搜索图像区域中除受限区域外的剩余区域作为边缘区域,从搜索图像序列第一帧的受限区域中随机裁剪宽度和高度均为l的区域作为初始模板图像块。
(2)图像对初始化
将初始模板图像块作为模板图像块,将搜索图像的第二帧作为搜索图像,模板图像块和搜索图像结合组成图像对。
(3)特征提取
使用神经网络对步骤(2)中的图像对进行特征提取,步骤(2)中的图像对通过提取特征后得到的特征图表示为:(fx,fp),fp为模板图像块,fx为搜索图像。
(4)遮挡引导的特征匹配
对于步骤(3)中的得到的特征图(fx,fp),从模板图像块fp找到最具代表能力的部分用宽和高度为1/2l的掩模制造遮挡,用滑动窗口的方法从模板特征图的左上角滑动到右下角,在滑动的过程中,被掩模遮挡的区域称为被遮挡的候选区域被遮挡的模板图像块称为被遮挡的候选特征图候选特征图和被遮挡的候选区域一一对应。根据相似度评分较低的情况选择关键部分:
式中,*表示相关操作,n表示被遮挡候选特征图的个数,S=[S1,S2,···,Sn]是一个相似图的映射向量,表示所有遮挡特征与受限搜索区域之间的相似性。全局空间相似度信息用全局平均池化(Fgap)表示,生成n个的相似度得分。第n个相似度得分计算方法为:
式中,H和W分别为相似图S的高和宽,hs和ws分别为相似图的最右位置坐标和最下位置坐标,i,j是遍历的位置标号。当被遮挡的候选特征图和受限区域特征图相似性度量匹配得分最低时所对应的候选区域即为最具代表能力的部分
(5)关键部分增强
(6)通道位置增强
该步骤包括模板分支的增强和搜索分支的增强,两支分支的计算过程均需要进行自通道注意力流计算和互通道注意力流计算;并将计算的自通道注意力流的特征和互通道注意力流的特征组合在一起得到新的特征图
(7)定位模块
(8)将新生成的图像块替换模板图像块,与搜索图像序列的下一帧组成图像对,重复执行步骤(3)~(7),直到执行到搜素图像序列的第N帧。
(9)将搜索图像序列的顺序反转,第N帧变为第一帧,第一帧变为第N帧,重复执行步骤(3)~(7),直到执行到反转后搜素图像序列的第N帧(即原始搜索图像序列的第一帧)。
(10)计算图像序列中初始模板图像块和预测的模板图像块之间的损失函数;网络最终的损失函数Ltptal是初始模板图像块和预测的模板图像块之间的对齐误差损失Lstc和初始模板图像块和预测的模板图像块之间的匹配程度损失Lsmc的叠加和,ξ是超参数,用于调节损失比例;
Ltotal=ξLstc-Lsmc.
(11)以目标函数为监督进行深度学习训练,通过在公开的数据集上进行训练,并设置训练代数,在训练好的模型中选择更准的精度和更高的鲁棒性得到最后训练模型。
(12)用步骤(11)获得的最后训练模型进行视频目标在线分割,具体过程为如下:
A.对于每一个测试视频序列,在第一帧图像F1中给定图像前景对象的掩码M1,以基于每帧匹配的掩码传播方式进行分割。具体来说,假设在第一帧的注释中总共有L个目标对象,图像上每一个空间位置p都会关联一个one-hot类别向量每个位置的向量代表位置p属于第l个目标对象的概率,概率越大,属于第l个目标的概率越大。
B.从第二帧开始,使用上一帧的分割结果Mt-1和当前帧的图像Ft组成输入对作为最后训练模型的输入,然后在特征空间中计算相似性矩阵At-1,t=softmax(Ft-1 T·Ft),对于每一个位置pt,计算了L个目标类别的概率值:
对于每一个位置q的类别,使用l=argmaxl({cq l}l=1 L)来确定。
C.保存当前时间帧图像的分割结果为Mt-1,并与下一帧的图像Ft组成输入对,重复步骤B的结果,直到测试视频序列的最后一帧。
2.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(1)中,给定输入视频序列X包含有I个连续视频帧{x1,···,xI},在相邻帧{xi,···,xi+N}上使用滑动缓冲区顺序处理每一帧,N表示相邻帧子集的长度。设定两个连续子集的采样间隔为K,一个完整的视频序列可以被分为{X_1,···,X_m}个子序列。
3.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(1)中,在搜索图像序列中,将图像分为两部分,第一部分是位于搜索图像区域的中心的受限区域,宽度和高度均为2/3L,第二部分是边缘区域,是搜索图像区域中除受限区域外的剩余区域。
4.根据权利要求1所述的一种无监督视频目标分割的方法,其特征在于,步骤(3)中,神经网络采用参数共享的ResNet-50结构作为提取特征的骨架,修改第四层和第五层的步长,原始步长为2修改为1,使第四层和第五层输出的feature大小保持一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674441.XA CN113298036B (zh) | 2021-06-17 | 2021-06-17 | 一种无监督视频目标分割的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674441.XA CN113298036B (zh) | 2021-06-17 | 2021-06-17 | 一种无监督视频目标分割的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298036A true CN113298036A (zh) | 2021-08-24 |
CN113298036B CN113298036B (zh) | 2023-06-02 |
Family
ID=77328576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110674441.XA Active CN113298036B (zh) | 2021-06-17 | 2021-06-17 | 一种无监督视频目标分割的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298036B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067251A (zh) * | 2021-11-18 | 2022-02-18 | 西安交通大学 | 一种无监督监控视频预测帧异常检测方法 |
CN115393396A (zh) * | 2022-08-18 | 2022-11-25 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN116843933A (zh) * | 2023-09-02 | 2023-10-03 | 苏州聚视兴华智能装备有限公司 | 图像模板匹配优化方法、装置及电子设备 |
CN117392180A (zh) * | 2023-12-12 | 2024-01-12 | 山东建筑大学 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
CN117992928A (zh) * | 2024-04-07 | 2024-05-07 | 中山大学 | 一种区域化最优基流分割方法、装置、设备和介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847263A (zh) * | 2010-06-04 | 2010-09-29 | 西安电子科技大学 | 基于多目标免疫聚类集成的无监督图像分割方法 |
US20140270350A1 (en) * | 2013-03-14 | 2014-09-18 | Xerox Corporation | Data driven localization using task-dependent representations |
CN106649696A (zh) * | 2016-12-19 | 2017-05-10 | 北京云知声信息技术有限公司 | 信息分类方法及装置 |
US20170193298A1 (en) * | 2014-03-19 | 2017-07-06 | Neurala, Inc. | Methods and apparatus for autonomous robotic control |
WO2017130434A1 (ja) * | 2016-01-28 | 2017-08-03 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
CN109145769A (zh) * | 2018-08-01 | 2019-01-04 | 辽宁工业大学 | 融合图像分割特征的目标检测网络设计方法 |
CN110569793A (zh) * | 2019-09-09 | 2019-12-13 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
CN110910391A (zh) * | 2019-11-15 | 2020-03-24 | 安徽大学 | 一种双模块神经网络结构视频对象分割方法 |
CN111260687A (zh) * | 2020-01-10 | 2020-06-09 | 西北工业大学 | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 |
CN111399541A (zh) * | 2020-03-30 | 2020-07-10 | 西北工业大学 | 无监督学习型神经网络的无人机全区域侦察路径规划方法 |
CN111444826A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、存储介质及计算机设备 |
US20210038198A1 (en) * | 2019-08-07 | 2021-02-11 | Siemens Healthcare Gmbh | Shape-based generative adversarial network for segmentation in medical imaging |
-
2021
- 2021-06-17 CN CN202110674441.XA patent/CN113298036B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847263A (zh) * | 2010-06-04 | 2010-09-29 | 西安电子科技大学 | 基于多目标免疫聚类集成的无监督图像分割方法 |
US20140270350A1 (en) * | 2013-03-14 | 2014-09-18 | Xerox Corporation | Data driven localization using task-dependent representations |
US20170193298A1 (en) * | 2014-03-19 | 2017-07-06 | Neurala, Inc. | Methods and apparatus for autonomous robotic control |
WO2017130434A1 (ja) * | 2016-01-28 | 2017-08-03 | 楽天株式会社 | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム |
CN106649696A (zh) * | 2016-12-19 | 2017-05-10 | 北京云知声信息技术有限公司 | 信息分类方法及装置 |
CN109145769A (zh) * | 2018-08-01 | 2019-01-04 | 辽宁工业大学 | 融合图像分割特征的目标检测网络设计方法 |
US20210038198A1 (en) * | 2019-08-07 | 2021-02-11 | Siemens Healthcare Gmbh | Shape-based generative adversarial network for segmentation in medical imaging |
CN110569793A (zh) * | 2019-09-09 | 2019-12-13 | 西南交通大学 | 一种无监督相似性判别学习的目标跟踪方法 |
CN110910391A (zh) * | 2019-11-15 | 2020-03-24 | 安徽大学 | 一种双模块神经网络结构视频对象分割方法 |
CN111260687A (zh) * | 2020-01-10 | 2020-06-09 | 西北工业大学 | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 |
CN111444826A (zh) * | 2020-03-25 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、存储介质及计算机设备 |
CN111399541A (zh) * | 2020-03-30 | 2020-07-10 | 西北工业大学 | 无监督学习型神经网络的无人机全区域侦察路径规划方法 |
Non-Patent Citations (2)
Title |
---|
WENJUN ZHU ET AL.: "Self-supervised video object segmentation using integration-augmented attention", 《NEUROCOMPUTING》 * |
苗中华 等: "基于图像处理多算法融合的杂草检测方法及试验", 《智慧农业(中英文)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067251A (zh) * | 2021-11-18 | 2022-02-18 | 西安交通大学 | 一种无监督监控视频预测帧异常检测方法 |
CN114067251B (zh) * | 2021-11-18 | 2023-09-15 | 西安交通大学 | 一种无监督监控视频预测帧异常检测方法 |
CN115393396A (zh) * | 2022-08-18 | 2022-11-25 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN115393396B (zh) * | 2022-08-18 | 2024-02-02 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN116843933A (zh) * | 2023-09-02 | 2023-10-03 | 苏州聚视兴华智能装备有限公司 | 图像模板匹配优化方法、装置及电子设备 |
CN116843933B (zh) * | 2023-09-02 | 2023-11-21 | 苏州聚视兴华智能装备有限公司 | 图像模板匹配优化方法、装置及电子设备 |
CN117392180A (zh) * | 2023-12-12 | 2024-01-12 | 山东建筑大学 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
CN117392180B (zh) * | 2023-12-12 | 2024-03-26 | 山东建筑大学 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
CN117992928A (zh) * | 2024-04-07 | 2024-05-07 | 中山大学 | 一种区域化最优基流分割方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113298036B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113298036B (zh) | 一种无监督视频目标分割的方法 | |
Zhang et al. | SCSTCF: spatial-channel selection and temporal regularized correlation filters for visual tracking | |
EP1934941B1 (en) | Bi-directional tracking using trajectory segment analysis | |
CN112651998B (zh) | 基于注意力机制和双流多域卷积神经网络的人体跟踪算法 | |
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
CN112560656A (zh) | 一种联合注意力机制端到端训练的行人多目标跟踪方法 | |
CN112348849A (zh) | 一种孪生网络视频目标跟踪方法及装置 | |
CN112750148A (zh) | 一种基于孪生网络的多尺度目标感知跟踪方法 | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN107067410B (zh) | 一种基于增广样本的流形正则化相关滤波目标跟踪方法 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN117252904B (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN113706581A (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN116310971A (zh) | 基于稀疏注意力更新模板特征的无监督目标跟踪的方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115205336A (zh) | 一种基于多层感知机的特征融合目标感知跟踪方法 | |
CN116402858A (zh) | 基于transformer的时空信息融合的红外目标跟踪方法 | |
CN113673540A (zh) | 一种基于定位信息引导的目标检测方法 | |
Yang et al. | TGAN: A simple model update strategy for visual tracking via template-guidance attention network | |
CN116543019A (zh) | 一种基于精确边界框预测的单目标跟踪方法 | |
CN108665470B (zh) | 一种交互式轮廓提取方法 | |
CN116543021A (zh) | 一种基于特征融合的Siamese网络视频单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |