CN113255493B - 一种融合视觉词和自注意力机制的视频目标分割方法 - Google Patents

一种融合视觉词和自注意力机制的视频目标分割方法 Download PDF

Info

Publication number
CN113255493B
CN113255493B CN202110533314.8A CN202110533314A CN113255493B CN 113255493 B CN113255493 B CN 113255493B CN 202110533314 A CN202110533314 A CN 202110533314A CN 113255493 B CN113255493 B CN 113255493B
Authority
CN
China
Prior art keywords
video
self
visual words
visual
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110533314.8A
Other languages
English (en)
Other versions
CN113255493A (zh
Inventor
陈亚当
季传俊
江结林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110533314.8A priority Critical patent/CN113255493B/zh
Publication of CN113255493A publication Critical patent/CN113255493A/zh
Application granted granted Critical
Publication of CN113255493B publication Critical patent/CN113255493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种融合视觉词和自注意力机制的视频目标分割方法,属于计算机视觉技术领域。该方法包括如下步骤:首先利用固定数量的视觉词来表示感兴趣的目标,即使一个对象作为一个整体可能会受到遮挡,变形,视点变化或者从同一视频中消失并重新出现,但其某些局部部分的外观仍会保持一致,因此使用视觉词可以实现更鲁棒的匹配。然后,我们将自注意力机制用于视觉单词匹配生成的相似图,以捕获不同相似图之间的依赖关系。最后,为了解决目标对象的外观变化和视觉词不匹配问题,提出了在线更新和全局匹配机制进一步提高准确率。本发明在部分视频场景中分割精度超出同类算法,同时分割效率有明显的提升。

Description

一种融合视觉词和自注意力机制的视频目标分割方法
技术领域:
本发明涉及一种融合视觉词和自注意力机制的视频目标分割方法,属于计算机视觉技术领域。
背景技术:
视频目标分割是计算机视觉中的一项基本任务,在图像视觉内容分析与理解方面起着重要作用。视频目标分割可以更好地帮助理解视频,有助于完成交互式视频编辑、自动驾驶和机器人导航等任务。视频目标分割是指在视频帧序列中将前景对象与背景分离的过程。目前该领域内已有许多方法解决这种二元分割问题,这些方法可以分为无监督方法和监督方法。前者不需要人工介入,直接输入视频数据;后者则要求人为提供额外的标签数据来进行初始化。
目前大多数高精度的方法都依赖在线微调深度神经网络来学习目标物体的外观。虽然它们的预测精度很高,但由于在线学习过程需要花费大量额外时间,使得这些方法速度通常较慢,这在很大程度上限制了它们在实际场景中的应用。为了解决上述依赖在线微调的方法的问题,最近的研究集中在设计无需微调的网络模型,旨在避免在线学习并获得更快的运行速度。基于掩码传播的方法主要依赖于前一帧的预测结果来推断当前帧,这些方法虽然简单,快速,但是无法处理在传播过程中受到遮挡、形变和快速运动的目标,并且可能会出现误差累积。另外一种方法采用基于匹配的网络模型来解决分割任务,该方法通过在学习的度量空间中将第一帧特征与后续每一帧特征之间进行像素级匹配来预测分割结果。这些方法需要大量数据来训练网络,故而它们通常依赖大型图像数据集进行复杂的预训练,这也限制它的实用性。这些方法各自的优缺点显而易见。具体来说,基于在线学习的方法以牺牲速度为代价来获得准确的预测,需要几秒钟来分割每帧。相反,简单的基于匹配或传播的方法速度更快,但分割精度欠佳。综上所述,现有的大多数方法无法同时满足视频目标分割任务的精度和速度,这对实际应用是必不可少的。因此,仍然需要更有效的方法来达到更好的速度与精度权衡。
发明内容:
针对视频中往往会出现目标形状不规则、帧间运动存在干扰信息和运动速度过快等情况,本发明提出了一种融合视觉词和自注意力机制的视频目标分割方法。首先利用固定数量的视觉词来表示感兴趣的目标,即使一个对象作为一个整体可能会受到遮挡,变形,视点变化或者从同一视频中消失并重新出现,但其某些局部部分的外观仍会保持一致,因此使用视觉词可以实现更鲁棒的匹配。然后,我们将自注意力机制用于视觉单词匹配生成的相似图,以捕获不同相似图之间的依赖关系。最后,为了解决目标对象的外观变化和视觉词不匹配问题,提出了在线更新和全局匹配机制进一步提高准确率。本发明在部分视频场景中分割精度超出同类算法,同时分割效率有明显的提升。
本发明为解决其技术问题采用如下技术方案:
一种融合视觉词和自注意力机制的视频目标分割方法包括以下步骤:
步骤1:采用基于ResNet-101的DeepLabV3+的深度卷积神经网络作为编码器,将视频第一帧图像输入编码器中,提取分辨率为原图像1/8的特征;
步骤2:将步骤1提取的特征输入到嵌入空间中获得嵌入特征,使用双线性插值对嵌入特征进行上采样,恢复中至原始图像大小;
步骤3:利用参考帧标注的掩膜信息,通过聚类算法对步骤2嵌入空间中像素进行聚类分簇形成视觉词;
步骤4:将所要分割的视频帧图像进行步骤1的操作提取特征,随后对提取的特征进行步骤2操作,获得所要分割的视频帧图像的嵌入特征;
步骤5:结合步骤3形成的视觉词,通过单词匹配操作以固定数量的视觉词来表示步骤4中提取的嵌入特征,生成前背景相似图;
步骤6:对步骤5的前背景相似图应用自注意力机制,获得前背景特征图;
步骤7:对步骤6的前背景特征图取通道方向的最大值作为预测分割掩膜;
步骤8:采用在线更新和全局匹配机制对外观变化和视觉词不匹配问题进行处理。
所述嵌入空间由128维3x3卷积层构成。
步骤6所述自注意力机制包括空间注意力和通道注意力。
本发明的有益效果如下:
本发明融合视觉词和自注意力机制进行视频对象分割。由于视频中的对象作为一个整体可能会受到遮挡、变形、视点变化或者同一视频中消失并重新出现,但其某些局部部分的外观仍会保持一致,因此使用视觉词可以实现更鲁棒的匹配。针对目标对象在运动过程中的外观变化和视觉词失配问题,采用在线更新机制和全局匹配机制可以进一步提高准确率。在没有耗时的微调、光流或预处理/后处理的情况下,获得了与基于在线学习的方法相当的精度,但速度却快了几个量级。
附图说明
图1为本发明实施例提供的一种融合视觉词和自注意力机制的视频目标分割技术的框架图。
图2为本发明实施例提供的自注意力机制架构图。
图3为本发明实施例提供的空间注意力示意图。
图4为本发明实施例提供的通道注意力示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明实施例提供一种融合视觉词和自注意力机制的视频目标分割方法,该方法能够基于视频首帧中的目标的像素标注对目标进行连续的跟踪和像素级分割,可以应用于视频编辑、自动驾驶和机器人导航等各种交互场景。在实施上,可以以软件的方式安装于电脑、手机等各种具备并行计算的智能终端,提供对指定目标的实时跟踪分割。
如图1所示,为该方法的整体框架,主要包括如下处理过程:
将参考帧图像输入编码器中进行特征提取,提取分辨率为原图像1/8的特征。
随后将提取的特征输进由128维3x3卷积层构成的嵌入空间中,提取嵌入特征。
为了提高效率,使用双线性插值将嵌入特征图像上采样到原始图像大小。通过训练,使得嵌入空间中来自同一目标的像素彼此靠近,而来自不同目标的像素彼此远离。
利用参考帧标注的掩膜信息,通过聚类算法对特征图fω(x)进行聚类分簇,从而为每个对象构建视觉词,考虑到算法的效率和复杂性,故采用k均值聚类算法。
令CK为参考帧中类别为c的像素的集合,每个集合CK划分为K个簇C1,....,CK。换句话说,我们用一组视觉字典Mc={μ1,...,μk}表示嵌入空间中每个像素集合CK中的分布。其计算方式为:
Figure BDA0003068819000000041
Figure BDA0003068819000000042
其中,xi表示参考帧中的第i个像素,fω(xi)表示像素xi的嵌入特征,K表示聚类生成的单词数量,μk表示簇的质心,即视觉词。
将目标帧图像输入编码器f(ω)中进行特征提取,提取分辨率为原图像1/8的特征。
将提取的特征输进由128维3x3卷积层构成的嵌入空间中,提取嵌入特征fω(x)。
通过单词匹配操作以固定数量的视觉词来表示目标帧的嵌入特征fω(x)。
对于单词匹配操作,一旦为每个对象构造好视觉词后,就可以使用非参数softmax分类器计算将像素xi分配给来自第c个对象类别的第k个视觉单词的概率。
最后,计算预测帧上所有像素分配给每个视觉词的概率,从而形成具有K个通道的相似图。单词分配概率的计算公式为
Figure BDA0003068819000000043
其中,cos()表示余弦函数,exp()表示以e为底的指数函数,M表示视频中出现的所有对象的视觉字典。
自注意力是一种有效的计算机视觉技术,它具有捕获全局依赖的能力。它被广泛用在大多数最新的语义分割方法中,由于VOS(视频目标分割)中的相似度图在语义分割中起到高级特征的作用,因此我们对视觉词匹配生成的相似度图使用了自注意力。
如图2所示,本发明提出的自注意力机制主要由空间注意力和通道注意力组成。
空间注意力操作如图3所示,首先对特征图A进行重塑形和转置得到B,尺寸变为N×C,其中N的大小为H×W。
然后将B和C相乘,再通过softmax函数得到S,此时S的尺寸为N×N。将A进行尺寸变化得到D,这是D的尺寸为C×N。
之后与S进行矩阵乘法得到空间注意图E,再乘以系数α,之后将维度变换为C×H×W。其中α的初始化为0,并在训练过程中不断学习。
最后,E与A相加得到F,F即为空间注意力模块的输出。
通道注意力操作如图4所示,首先对特征图A分别进行重塑形、重塑形、重塑形和转置,得到B、C和D,其中B和C的尺寸为C×N,D的尺寸为N×C的特征图。
然后在C和D之间进行乘法并且通过softmax得到X,X的大小为C×C。
将B与X相乘得到通道注意图E,再将其与系数β相乘后,重塑形为C×H×W,其中β初始化为0,并通过训练学习。
最后E与A相加得到F,F为通道注意力模块的输出。
将通过自注意力机制得到的结果取通道方向的最大值作为预测分割掩膜。
由于来自视频第一帧的目标对象以及背景经常经历变形、遮挡和视点变化等情况,因此,为了获得良好的性能,在整个推理过程中调整网络模型对于获得良好的性能至关重要。在本工作中,我们提出一种在线更新机制来调整我们的网络模型。具体而言,我们通过更新用于表示目标对象的视觉词来优化我们的模型。给定一个由视频第tj帧生成的视觉字典Mj,由此我们预测了第tj+δ帧的掩膜,此时我们将第tj+δ帧图像作为新的支持集,将其输入网络模型中计算出该帧的嵌入特征。
接着,以第tj+δ帧的预测掩膜为指导,由上述公式计算新的视觉词
Figure BDA0003068819000000061
由于视频中的目标对象可能恢复到初始状态,因此视觉字典/>
Figure BDA0003068819000000062
中的所有现有单词都不会被丢弃而是添加新词μt+δ。并且我们假设在适当的时间间隔δ内,视频中的目标对象变化缓慢,像素级嵌入也不会变化很大,故仅添加与现有单词相似的新单词。
此外,为了确保在线更新机制中用来更新视觉词的预测掩膜可靠,我们对预测掩膜应用了一个简单的异常值去除过程。具体而言,给定一个具有相同预测标注的区域,只有当该预测区域与前一帧中预测的对象掩膜相交时才接受该预测。如果没有交集,则放弃该预测掩膜并根据先前的结果直接对其进行预测。
本发明实施例中,图1所示的整个框架需要预先进行训练,训练阶段与测试阶段的预测方式相同,由于在线更新机制与训练无关,所以无需训练过程中模拟。
训练阶段,对于训练集,可以采用公开的数据集,如DAVIS 2016、DAVIS 2017以及YouTube-VOS。
学习视觉词是一项具有挑战性的任务,因为没有任何关于它们对应的物体部分的真实信息,故这里使用一种元学习方法进行训练,以针对不同的视频生成不同的视觉词。在视频目标分割任务中,分割网络从视频参考帧(支持集)中对象标注掩膜中学习,进而分割和跟踪视频其余帧(查询集)中的同一对象。在本方法中,为了使训练得到的分割网络能够更好的适应新的任务,从元训练集中采样生成各种训练任务,每个训练任务都由支持集和查询集构成。通过在这些任务上训练学习,元训练的训练目标为:
Figure BDA0003068819000000063
其中,ω*表示处理特定任务的网络模型参数,ω表示处理各种任务的网络模型参数,Tn表示第n个训练任务,p(T)表示元训练数据集,
Figure BDA0003068819000000064
表示训练任务Tn的模型损失。
对于训练阶段的参数设置,使用50个视觉词来表示前景。
背景通常包含更多的变化,故使用4倍于前景的视觉词来表示,即200个视觉词。
对于在线更新机制,假设视频中的目标缓慢变化,所以每5帧更新一次视觉字典。
使用交叉熵损失函数,采用Adam优化器,设置动量β1=0.9、β2=0.999。
使用已在COCO(上下文中的常见对象)数据集上训练的公共Deeplab-v2模型初始化网络的编码器,并将编码器的权重固定,使其不参与训练。
随后,根据元训练的方法对网络模型进行训练,即首先在训练数据集中随机抽取一个视频,将视频第一帧的像素视为支持集,然后从视频其余帧中随机选择3帧作为查询集,以此来构建整个训练过程。
基于本实施例上述方案,在单目标分割公开数据集DAVIS 2016上测试,视频目标分割结果的性能达到:Jaccard(杰卡德系数)平均区域相似度为82.5%,F-measure(精度和召回加权调和平均)平均边界准确度为83.8%,在一块NVIDIA GeForce RTX 2080Ti显卡上处理速度达到6.8帧/秒。在对目标分割公开数据集DAVIS 2017上测试,性能达到:综合准确度为72.3%,在一块NVIDIA GeForce RTX2080Ti显卡上处理速度仍为6.8帧/秒,这是因为本发明的方法可以通过一次推理分割出多个目标,而其它方法只能单个目标分割,最后再拼起来,故目标越多,分割速度越慢。可见,无论是分割性能还是处理速度都较于现有技术有了较大的提升。

Claims (3)

1.一种融合视觉词和自注意力机制的视频目标分割方法,其特征在于,包括以下步骤:
步骤1:采用基于ResNet-101的DeepLabV3+的深度卷积神经网络作为编码器,将视频第一帧图像输入编码器中,提取分辨率为原图像1/8的特征;
步骤2:将步骤1提取的特征输入到嵌入空间中获得嵌入特征,使用双线性插值对嵌入特征进行上采样,恢复中至原始图像大小;
步骤3:利用参考帧标注的掩膜信息,通过聚类算法对步骤2嵌入空间中像素进行聚类分簇形成视觉词;
步骤4:将所要分割的视频帧图像进行步骤1的操作提取特征,随后对提取的特征进行步骤2操作,获得所要分割的视频帧图像的嵌入特征;
步骤5:结合步骤3形成的视觉词,通过单词匹配操作以固定数量的视觉词来表示步骤4中提取的嵌入特征,生成前背景相似图;
步骤6:对步骤5的前背景相似图应用自注意力机制,获得前背景特征图;
步骤7:对步骤6的前背景特征图取通道方向的最大值作为预测分割掩膜;
步骤8:采用在线更新和全局匹配机制对外观变化和视觉词不匹配问题进行处理。
2.根据权利要求1所述的一种融合视觉词和自注意力机制的视频目标分割方法,其特征在于,步骤2所述嵌入空间由128维3x3卷积层构成。
3.根据权利要求1所述的一种融合视觉词和自注意力机制的视频目标分割方法,其特征在于,步骤6所述自注意力机制包括空间注意力和通道注意力。
CN202110533314.8A 2021-05-17 2021-05-17 一种融合视觉词和自注意力机制的视频目标分割方法 Active CN113255493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110533314.8A CN113255493B (zh) 2021-05-17 2021-05-17 一种融合视觉词和自注意力机制的视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110533314.8A CN113255493B (zh) 2021-05-17 2021-05-17 一种融合视觉词和自注意力机制的视频目标分割方法

Publications (2)

Publication Number Publication Date
CN113255493A CN113255493A (zh) 2021-08-13
CN113255493B true CN113255493B (zh) 2023-06-30

Family

ID=77182230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110533314.8A Active CN113255493B (zh) 2021-05-17 2021-05-17 一种融合视觉词和自注意力机制的视频目标分割方法

Country Status (1)

Country Link
CN (1) CN113255493B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012156774A1 (en) * 2011-05-18 2012-11-22 Ltu Technologies Method and apparatus for detecting visual words which are representative of a specific image category
CN104239501A (zh) * 2014-09-10 2014-12-24 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN108182421A (zh) * 2018-01-24 2018-06-19 北京影谱科技股份有限公司 视频分割方法和装置
CN110390293A (zh) * 2019-07-18 2019-10-29 南京信息工程大学 一种基于高阶能量约束的视频对象分割算法
CN110472478A (zh) * 2019-06-26 2019-11-19 南京邮电大学 一种基于光流场统计特征的场景分析方法及系统
CN112784750A (zh) * 2021-01-22 2021-05-11 清华大学 基于像素和区域特征匹配的快速视频物体分割方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416774B2 (en) * 2019-10-23 2022-08-16 Samsung Electronica Da Amazonia Ltda. Method for video recognition capable of encoding spatial and temporal relationships of concepts using contextual features

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012156774A1 (en) * 2011-05-18 2012-11-22 Ltu Technologies Method and apparatus for detecting visual words which are representative of a specific image category
CN104239501A (zh) * 2014-09-10 2014-12-24 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN108182421A (zh) * 2018-01-24 2018-06-19 北京影谱科技股份有限公司 视频分割方法和装置
CN110472478A (zh) * 2019-06-26 2019-11-19 南京邮电大学 一种基于光流场统计特征的场景分析方法及系统
CN110390293A (zh) * 2019-07-18 2019-10-29 南京信息工程大学 一种基于高阶能量约束的视频对象分割算法
CN112784750A (zh) * 2021-01-22 2021-05-11 清华大学 基于像素和区域特征匹配的快速视频物体分割方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Fast Video Object Segmentation Using the Global Context Module;Yu Li 等;《ECCV 2020》;135-750 *
Meta-Learning Deep Visual Words for Fast Video Object Segmentation;Harkirat Singh Behl 等;《arXiv》;1-15 *
Self-supervised video object segmentation using integration-augmented attention;Wenjun Zhu 等;《Neurocomputing》;325-339 *
Towards fast and parameter-independent support vector data description for image and video segmentation;Alya Slimene 等;《Expert Systems With Applications》;271-286 *
基于深度网络的多模态视频场景分割算法;苏筱涵 等;《武 汉理工大学学报( 信息与管理工程版)》;第42卷(第3期);246-251、259 *
面向复杂环境的图像语义分割方法综述;王嫣然 等;《计算机科学》;第46卷(第9期);36-46 *

Also Published As

Publication number Publication date
CN113255493A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN110910391A (zh) 一种双模块神经网络结构视频对象分割方法
CN111210446B (zh) 一种视频目标分割方法、装置和设备
CN111696110B (zh) 场景分割方法及系统
CN111968150A (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
Hu et al. Apanet: Auto-path aggregation for future instance segmentation prediction
Alam et al. Two dimensional convolutional neural network approach for real-time bangla sign language characters recognition and translation
CN113255493B (zh) 一种融合视觉词和自注意力机制的视频目标分割方法
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
Zeng et al. Deeplabv3+ semantic segmentation model based on feature cross attention mechanism
CN107798329A (zh) 基于cnn的自适应粒子滤波目标跟踪方法
CN112258557B (zh) 一种基于空间注意力特征聚合的视觉跟踪方法
CN114663798A (zh) 一种基于强化学习的单步视频内容识别方法
Ben Mahjoub et al. An efficient end-to-end deep learning architecture for activity classification
Qin et al. Application of video scene semantic recognition technology in smart video
Zhu et al. Two-branch encoding and iterative attention decoding network for semantic segmentation
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN114882076B (zh) 一种基于大数据记忆存储的轻量型视频对象分割方法
Gao et al. Video object segmentation based on multi-level target models and feature integration
CN113139966B (zh) 一种基于贝叶斯记忆的层次级联视频目标分割方法
Wang et al. Dual-path processing network for high-resolution salient object detection
Lu et al. Research on Reinforcement Learning algorithms in Computer Vision
Cao et al. Deformable convolutional networks tracker
Su et al. A survey of face image inpainting based on deep learning
CN116170638B (zh) 用于在线动作检测任务的自注意力视频流压缩方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant