CN111507215B - 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法 - Google Patents

基于时空卷积循环神经网络与空洞卷积的视频目标分割方法 Download PDF

Info

Publication number
CN111507215B
CN111507215B CN202010268501.3A CN202010268501A CN111507215B CN 111507215 B CN111507215 B CN 111507215B CN 202010268501 A CN202010268501 A CN 202010268501A CN 111507215 B CN111507215 B CN 111507215B
Authority
CN
China
Prior art keywords
convolution
module
neural network
output
cyclic neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010268501.3A
Other languages
English (en)
Other versions
CN111507215A (zh
Inventor
龚声蓉
徐牧洲
王朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changshu Institute of Technology
Original Assignee
Changshu Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changshu Institute of Technology filed Critical Changshu Institute of Technology
Priority to CN202010268501.3A priority Critical patent/CN111507215B/zh
Publication of CN111507215A publication Critical patent/CN111507215A/zh
Application granted granted Critical
Publication of CN111507215B publication Critical patent/CN111507215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,包括步骤一、建立编码器‑解码器网络结构,编码器的最顶层利用多个空洞率不同的卷积核,从多个尺寸对目标进行捕捉,以获得更精确的外观信息。在解码器阶段,每一个卷积循环神经网络单元将接收不同尺寸的特征图,并将上一帧该目标的分割结果、上一个卷积循环神经网络单元得到的特征图作为输入;步骤二、利用数据集对编码器‑解码器网络结构进行训练;步骤三、将待分割视频输入训练好的编码器‑解码器网络结构输出分割结果。本发明具有可靠的时空相关性,能提高目标分割准确性和分割速度。

Description

基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
技术领域
本发明涉及一种视频目标分割方法,特别是涉及一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法。
背景技术
视频目标分割,即将视频中的主体运动目标从背景中分割出来。由于视频中存在的各种复杂场景使得视频目标分割任务的完成面临很大的挑战。首先,视频中出现的遮掩、目标的非刚性运动、形变以及拍摄视角的变化使得目标的外观在不同帧中会有很大差异;其次,目标在视频中的非连续运动、高速运动以及运动模糊使得在视频序列中建立可靠的时序相关性存在着较大的难度。
现有的视频目标分割方法主要包括基于检测的视频目标分割方法和基于运动的视频目标分割方法。基于检测的视频目标分割方法即不考虑视频中存在的时序信息,仅通过学到的目标外观来对视频进行分割。SergiCaelles等人通过在通用分割模型上对每个视频序列进行微调产生微调模型的方法,来识别每个视频序列的感兴趣目标,他们的方法仅是通过外观相似度来对目标进行分割,并没有将时序信息考虑在内。Qiang Wang等人使用孪生网络,并利用目标之间的外观相似性来同时解决视频目标分割任务与视频目标追踪任务,分割速度达到了35fps。基于运动的目标分割方法通过建立视频帧之间的时序相关性来进行分割。Federico Perazzi等人利用光流以及掩码传播,将上一帧的分割结果输出作为下一帧的分割输入来进行分割,使模型的分割过程更具连续性。Carles Ventura等人利用长短时记忆神经网络来建立帧之间的时间以及空间相关性,当视频中出现短暂的目标丢失(例如发生了遮挡)时,网络模型仍然会记住目标的相关信息,从而能够更好地建立视频中的时空相关性。
上述两种方法面对不同的复杂场景展现出了不同的适应能力。基于检测的视频目标分割方法在面对具有巨大形变的情况,例如遭遇遮掩或者目标的非刚性运动时,由于学习到的目标外观与当前目标外观有较大差异,所以无法很好地检测到目标外观;基于运动的视频目标分割方法,由于利用连续帧之间的时序相关性来进行分割,所以对目标外观的变化适应较好,但是较难适应视频中出现的非连续运动,例如目标的快速移动,遮挡。为此,很多方法采用微调或者数据增强等方式来提升模型的分割效果,然而,这些方法在提升模型分割效果的同时,会消耗巨大的计算资源,减慢了模型的分割速度。
发明内容
针对上述现有技术的缺陷,本发明提供了一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,提升目标分割准确性和分割速度。
本发明技术方案如下:一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,包括以下步骤:
步骤一、建立编码器-解码器网络结构;
步骤二、利用数据集对编码器-解码器网络结构进行训练;
步骤三、将待分割视频输入训练好的编码器-解码器网络结构输出分割结果;
所述编码器-解码器网络结构包括编码器和解码器,所述编码器包括第一卷积模块、第二卷积模块、第三卷积模块、第一空洞卷积模块和并行空洞卷积模块,所述并行空洞卷积模块包括若干空洞卷积模块,所述空洞卷积模块的输出与浅层特征图拼接后得到多尺度模块的特征图作为所述并行空洞卷积模块的输出,所述并行空洞卷积模块的输出连接第一降维卷积模块,所述第一空洞卷积模块的输出连接第二降维卷积模块,所述第三卷积模块的输出连接第三降维卷积模块,所述第二卷积模块的输出连接第四降维卷积模块,所述第一卷积模块的输出连接第五降维卷积模块;所述解码器包括第一卷积循环神经网络模块、第二卷积循环神经网络模块、第三卷积循环神经网络模块和第四卷积循环神经网络模块,所述第一卷积循环神经网络模块的输入由上一帧的分割结果和所述第一降维卷积模块的输出进行拼接得到,所述第二卷积循环神经网络模块的输入由上一帧的分割结果、所述第二降维卷积模块的输出和所述第一卷积循环神经网络模块的输出进行拼接得到,所述第三卷积循环神经网络模块的输入由上一帧的分割结果、所述第三降维卷积模块的输出和所述第二卷积循环神经网络模块的输出进行拼接得到,所述第四卷积循环神经网络模块的输入由上一帧的分割结果、所述第四降维卷积模块的输出和所述第三卷积循环神经网络模块的输出进行拼接得到,上一帧的分割结果、所述第五降维卷积模块的输出和所述第四卷积循环神经网络模块的输出进行拼接然后上采样得到编码器-解码器网络结构的输出。
进一步地,所述第一卷积模块、第二卷积模块和第三卷积模块输出的特征图尺寸依次下降,所述第三卷积模块输出和第一空洞卷积模块所述的特征图尺寸相同。
进一步地,所述第一卷积模块输出的特征图大小为原图的1/4,所述第二卷积模块输出的特征图大小为原图的1/8,所述第三卷积模块输出的特征图大小为原图的1/16,所述第一降维卷积模块、所述第二降维卷积模块、所述第三降维卷积模块、所述第四降维卷积模块和所述第五降维卷积模块是1*1卷积模块。
进一步地,所述并行空洞卷积模块中的若干空洞卷积模块的空洞率各不相同。
进一步地,所述第一卷积循环神经网络模块、所述第二卷积循环神经网络模块、所述第三卷积循环神经网络模块和所述第四卷积循环神经网络模块的输出均包括当前帧分割出的目标掩码、当前帧建立的空间相关性和当前帧建立的时间相关性。
进一步地,所述步骤二利用数据集对编码器-解码器网络结构进行训练包括以下两阶段训练:阶段一,在前若干步迭代过程中,以真实标定数据掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作;阶段二,在其余步迭代过程中,将所述编码器-解码器网络结构模型分割出的掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作。
进一步地,为了防止过拟合,所述步骤二利用数据集对编码器-解码器网络结构进行训练首先在Youtube-VOS数据集训练,之后将经过Youtube-VOS数据集训练的编码器-解码器网络结构迁移到Davis-2017数据集上进行训练。
本发明所提供的技术方案的优点在于:通过将空洞卷积、多尺度采样与卷积循环神经网络相结合,从而建立了视频中的时空相关性来实现分割,多尺度采样与空洞卷积的引入使得模型相比于其他方法提取到更好的空间细节信息,从而更可靠的建立了时空相关性。
附图说明
图1为编码器-解码器网络结构的总体框架图。
图2为卷积循环神经网络计算过程示意图。
图3为本发明实施例与RVOS分割比较图。
具体实施方式
下面结合实施例对本发明作进一步说明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等同形式的修改均落于本申请所附权利要求所限定的范围内。
本实施例涉及的一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,包括如下步骤:
步骤一:建立编码器-解码器网络结构,请结合图1所示,整体网络架构采用U-型结构。首先利用深度卷积神经网络对其进行特征提取,得到三个尺寸不同的特征图。之后利用空洞卷积对深层的特征图提取特征以获得具有更充分空间细节信息的深度特征。在编码器的最顶层利用多个空洞率不同的卷积核,从多个尺寸对目标进行捕捉,以获得更精确的外观信息。在解码器阶段,每一个卷积循环神经网络(ConvLSTM)模块将接收不同尺寸的特征图,并将上一帧该目标的分割结果、上一个ConvLSTM模块得到的特征图作为输入,来在视频帧中建立时空相关性。
(1)、编码器:
编码器的基础网络架构为ResNet-101。在此基础之上,根据Deeplab-V3,将编码器最深层的模块中的卷积操作替换为空洞卷积,并且添加多个并行操作的不同空洞率的卷积模块,以从多个尺度捕获目标。为了能够充分利用编码器中每个模块提取到的特征信息,输出了每个模块中的特征图,并用1*1的卷积操作对特征图进行降维。突出了深层特征图对解码器的影响,减弱了浅层特征图的影响。最终,为了充分利用各个模块提取到的特征信息,编码器每个模块提取到的特征图将被输出,最终作为解码器中的输入,参与到时空相关性的构建中。具体的,编码器包括第一卷积模块1、第二卷积模块2、第三卷积模块3、第一空洞卷积模块4和并行空洞卷积模块5,并行空洞卷积模块5包括四个空洞卷积模块,四个空洞卷积模块的输出与浅层特征图6拼接后得到多尺度模块的特征图作为并行空洞卷积模块5的输出,并行空洞卷积模块5的输出连接第一降维卷积模块7,第一空洞卷积模块4的输出连接第二降维卷积模块8,第三卷积模块3的输出连接第三降维卷积模块9,第二卷积模块2的输出连接第四降维卷积模块10,第一卷积模块1的输出连接第五降维卷积模块11。
第一卷积模块1、第二卷积模块2和第三卷积模块3进行卷积操作后分别得到三个尺寸(尺寸大小分别为原图的1/4、1/8、1/16)不同的特征图,之后利用第一空洞卷积模块4进行空洞卷积,在不下降特征图尺寸的同时对其进行特征提取。在输出方面,将每一个模块得到的特征图通过1*1卷积进行特征降维,输入至解码器中。
2)、解码器:
解码器包括第一卷积循环神经网络模块12、第二卷积循环神经网络模块13、第三卷积循环神经网络模块14和第四卷积循环神经网络模块15,第一卷积循环神经网络模块12的输入由上一帧的分割结果和第一降维卷积模块7的输出进行拼接得到,第二卷积循环神经网络模块13的输入由上一帧的分割结果、第二降维卷积模块8的输出和第一卷积循环神经网络模块12的输出进行拼接得到,第三卷积循环神经网络模块14的输入由上一帧的分割结果、第三降维卷积模块9的输出和第二卷积循环神经网络模块13的输出进行拼接得到,第四卷积循环神经网络模块15的输入由上一帧的分割结果、第四降维卷积模块10的输出和第三卷积循环神经网络模块14的输出进行拼接得到,上一帧的分割结果、第五降维卷积模块11的输出和第四卷积循环神经网络模块15的输出进行拼接然后上采样得到编码器-解码器网络结构的输出。
每个卷积循环神经网络模块对每一个尺寸的特征图进行计算,以建立视频中的时空相关性。垂直方向代表着空间相关性,是指在同一帧中建立不同目标之间的关联;水平方向代表着时间相关性,指的是建立同一目标在不同帧之间的关联。在一个视频序列中,编码器-解码器网络结构运作方式如图2所示,每一张图像经过编码器进行特征提取后,由ConvLSTM建立时空相关性。每一个ConvLSTM模块接受的输入包括上一帧分割出的目标掩码、上一帧由ConvLSTM建立的时间相关性、上一个目标由ConvLSTM建立的空间相关性、当前帧由编码器提取到的特征图;每个ConvLSTM模块的输出包括当前帧分割出的目标掩码、当前帧建立的空间相关性、当前帧建立的时间相关性。
步骤二:训练编码器-解码器网络结构,在模型的训练过程中,采用二阶段训练策略。阶段一:在模型训练的第一阶段,模型自主分割出的掩膜效果较差,无法充当引导掩膜。所以在前40个迭代中,利用真实标定数据(Ground-Truth)掩膜作为引导掩膜并将其输入到下一帧卷积循环神经网络(ConvLSTM)的操作中。阶段二:在第二阶段,后20次迭代过程中,模型已经能较好的分割出感兴趣目标,于是将模型分割出的掩膜作为引导掩膜。由于Youtube-VOS数据集是目前最大的视频目标分割数据集,拥有最多的复杂场景和目标类别,于是先将模型在Youtube-VOS上进行训练以防过拟合的发生,之后将在Youtube-VOS训练好的模型迁移到Davis-2017数据集上进一步训练。受内存限制,在训练过程中,batchsize大小设置为4,同时选取5个连续帧作为一个剪辑。
步骤三:将欲分割视频输入训练完成的编码器-解码器网络得到结果。
为验证本发明效果,所使用的数据集包括DAVIS-2017和Youtube-VOS。DAVIS-2017数据集由150个视频序列组成,其中共包含384个目标,10474个标注帧。该数据集的主要评估指标有三:(1)、J—分割掩码与Ground-Truth之间的交并比;(2)、F--分割掩码的轮廓精确度;(3)、D—随时间增长的分割掩码在J和F上的效果衰减。Youtube-VOS是目前视频目标分割任务上最大的数据集,共由3252个视频序列组成,其中包含78个目标类别,6048个目标以及133886个标注帧。Youtbue-VOS数据集的评估指标与DAVIS-2017数据集类似,采用交并比以及轮廓精确度作为主要的衡量标准。
首先将本发明和RVOS比较。结果表明,RVOS在对目标进行分割时会产生一定的掩码漂移的情况并且不能很好识别目标外观,本发明虽然同样会随着时间有一定的掩码漂移,但是已经更好地识别目标外观。结果如图3所示
另外,评估了目前最先进的几种方法在DAVIS-2017数据集上的表现,OL代表在线学习,可以看到使用了在线学习的方法,在速度上低于未使用在线学习的方法100倍以上,在与未使用在线学习的方法做对比,本发明的方法在各个指标上的表现均达到了最佳,结果如下表所示。
Figure BDA0002442253550000051
Figure BDA0002442253550000061
下标展示了Youtube-VOS数据集上各个方法之间的效果对比,可以看到使用了在线学习方法的OnAVOS的分割效果相比于在DAVIS-2017上有明显的下降,本发明方法在两个数据集上的表现均非常稳定。
Figure BDA0002442253550000062

Claims (6)

1.一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,包括如下步骤:
步骤一、建立编码器-解码器网络结构;
步骤二、利用数据集对编码器-解码器网络结构进行训练,包括以下两阶段训练:阶段一,在前40次迭代过程中,以真实标定数据掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作;阶段二,在后20次迭代过程中,将所述编码器-解码器网络结构模型分割出的掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作;
步骤三、将待分割视频输入训练好的编码器-解码器网络结构输出分割结果;
所述编码器-解码器网络结构包括编码器和解码器,所述编码器包括第一卷积模块、第二卷积模块、第三卷积模块、第一空洞卷积模块和并行空洞卷积模块,所述并行空洞卷积模块包括四个空洞卷积模块,所述空洞卷积模块的输出与浅层特征图拼接后得到多尺度模块的特征图作为所述并行空洞卷积模块的输出,所述并行空洞卷积模块的输出连接第一降维卷积模块,所述第一空洞卷积模块的输出连接第二降维卷积模块,所述第三卷积模块的输出连接第三降维卷积模块,所述第二卷积模块的输出连接第四降维卷积模块,所述第一卷积模块的输出连接第五降维卷积模块;所述解码器包括第一卷积循环神经网络模块、第二卷积循环神经网络模块、第三卷积循环神经网络模块和第四卷积循环神经网络模块,所述第一卷积循环神经网络模块的输入由上一帧的分割结果和所述第一降维卷积模块的输出进行拼接得到,所述第二卷积循环神经网络模块的输入由上一帧的分割结果、所述第二降维卷积模块的输出和所述第一卷积循环神经网络模块的输出进行拼接得到,所述第三卷积循环神经网络模块的输入由上一帧的分割结果、所述第三降维卷积模块的输出和所述第二卷积循环神经网络模块的输出进行拼接得到,所述第四卷积循环神经网络模块的输入由上一帧的分割结果、所述第四降维卷积模块的输出和所述第三卷积循环神经网络模块的输出进行拼接得到,上一帧的分割结果、所述第五降维卷积模块的输出和所述第四卷积循环神经网络模块的输出进行拼接然后上采样得到编码器-解码器网络结构的输出。
2.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述第一卷积模块、第二卷积模块和第三卷积模块输出的特征图尺寸依次下降,所述第三卷积模块输出和第一空洞卷积模块输出的特征图尺寸相同。
3.根据权利要求2所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述第一卷积模块输出的特征图大小为原图的1/4,所述第二卷积模块输出的特征图大小为原图的1/8,所述第三卷积模块输出的特征图大小为原图的1/16,所述第一降维卷积模块、所述第二降维卷积模块、所述第三降维卷积模块、所述第四降维卷积模块和所述第五降维卷积模块是1*1卷积模块。
4.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述并行空洞卷积模块中的四个空洞卷积模块的空洞率各不相同。
5.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述第一卷积循环神经网络模块、所述第二卷积循环神经网络模块、所述第三卷积循环神经网络模块和所述第四卷积循环神经网络模块的输出均包括当前帧分割出的目标掩码、当前帧建立的空间相关性和当前帧建立的时间相关性。
6.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述步骤二利用数据集对编码器-解码器网络结构进行训练首先在Youtube-VOS数据集训练,之后将经过Youtube-VOS数据集训练的编码器-解码器网络结构迁移到Davis-2017数据集上进行训练。
CN202010268501.3A 2020-04-08 2020-04-08 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法 Active CN111507215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268501.3A CN111507215B (zh) 2020-04-08 2020-04-08 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268501.3A CN111507215B (zh) 2020-04-08 2020-04-08 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法

Publications (2)

Publication Number Publication Date
CN111507215A CN111507215A (zh) 2020-08-07
CN111507215B true CN111507215B (zh) 2022-01-28

Family

ID=71874185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268501.3A Active CN111507215B (zh) 2020-04-08 2020-04-08 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法

Country Status (1)

Country Link
CN (1) CN111507215B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102251B (zh) * 2020-08-20 2023-10-31 上海壁仞智能科技有限公司 一种分割影像的方法及装置、电子设备和存储介质
CN112184566B (zh) * 2020-08-27 2023-09-01 北京大学 一种针对附着水雾水珠去除的图像处理方法和系统
CN112529934B (zh) * 2020-12-02 2023-12-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN113810715B (zh) * 2021-08-18 2024-04-05 南京航空航天大学 一种基于空洞卷积神经网络的视频压缩参考图像生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572696A (zh) * 2019-08-12 2019-12-13 浙江大学 一种变分自编码器与生成对抗网络结合的视频生成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102462B (zh) * 2018-08-01 2023-04-07 中国计量大学 一种基于深度学习的视频超分辨率重建方法
EP3608844A1 (en) * 2018-08-10 2020-02-12 Naver Corporation Methods for training a crnn and for semantic segmentation of an inputted video using said crnn
CN109509192B (zh) * 2018-10-18 2023-05-30 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN109598728B (zh) * 2018-11-30 2019-12-27 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN109902601B (zh) * 2019-02-14 2023-04-07 武汉大学 一种结合卷积网络和递归网络的视频目标检测方法
CN110097115B (zh) * 2019-04-28 2022-11-25 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110175613B (zh) * 2019-06-03 2021-08-10 常熟理工学院 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110619369B (zh) * 2019-09-23 2020-12-11 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN110889894A (zh) * 2019-10-25 2020-03-17 中国科学院深圳先进技术研究院 三维人脸重建方法、装置及终端设备
CN110826702A (zh) * 2019-11-18 2020-02-21 方玉明 一种多任务深度网络的异常事件检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572696A (zh) * 2019-08-12 2019-12-13 浙江大学 一种变分自编码器与生成对抗网络结合的视频生成方法

Also Published As

Publication number Publication date
CN111507215A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111507215B (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN103593464B (zh) 基于视觉特征的视频指纹检测及视频序列匹配方法及系统
CN110175613B (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN108320297B (zh) 一种视频目标实时跟踪方法及系统
CN110570458A (zh) 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN112465008B (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
US20230410328A1 (en) Target tracking method and system of spiking neural network based on event camera
US11361534B2 (en) Method for glass detection in real scenes
CN107564007B (zh) 融合全局信息的场景分割修正方法与系统
CN112434599B (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
WO2023038574A1 (en) Method and system for processing a target image
Yang et al. Diffusion model as representation learner
CN114519880A (zh) 基于跨模态自监督学习的主动说话人识别方法
CN112257659A (zh) 检测跟踪方法、装置以及介质
CN113569687B (zh) 基于双流网络的场景分类方法、系统、设备及介质
CN111242114B (zh) 文字识别方法及装置
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN111612803A (zh) 一种基于图像清晰度的车辆图像语义分割方法
Long et al. Detail preserving residual feature pyramid modules for optical flow
CN113627368B (zh) 基于深度学习的视频行为识别方法
CN114359786A (zh) 一种基于改进时空卷积网络的唇语识别方法
CN112215868B (zh) 基于生成对抗网络的去除手势图像背景的方法
CN113920584A (zh) 一种基于时间感知特征学习的动作质量评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant