CN114882076A - 一种基于大数据记忆存储的轻量型视频对象分割方法 - Google Patents

一种基于大数据记忆存储的轻量型视频对象分割方法 Download PDF

Info

Publication number
CN114882076A
CN114882076A CN202210808471.XA CN202210808471A CN114882076A CN 114882076 A CN114882076 A CN 114882076A CN 202210808471 A CN202210808471 A CN 202210808471A CN 114882076 A CN114882076 A CN 114882076A
Authority
CN
China
Prior art keywords
memory
frame
query
pixel
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210808471.XA
Other languages
English (en)
Other versions
CN114882076B (zh
Inventor
张勇
徐珂
王昊冉
何华
戴超凡
杨欣琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210808471.XA priority Critical patent/CN114882076B/zh
Publication of CN114882076A publication Critical patent/CN114882076A/zh
Application granted granted Critical
Publication of CN114882076B publication Critical patent/CN114882076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于大数据记忆存储的轻量型视频对象分割方法,所述方法将视频首帧的图像和真实标签作为记忆编码器的输入,编码得到键
Figure 9963DEST_PATH_IMAGE001
和值
Figure 832426DEST_PATH_IMAGE002
映射对,并对初始化记忆库;将查询帧的图像作为查询编码器的输入,编码得到键
Figure 568301DEST_PATH_IMAGE003
和值
Figure 95097DEST_PATH_IMAGE004
映射对,将所述键
Figure 232817DEST_PATH_IMAGE005
和值
Figure 583771DEST_PATH_IMAGE004
映射对通过核记忆搜索器,对记忆库进行搜索;将核记忆搜索的输出与查询帧的值拼接作为解码器的输入,并为查询帧重建掩码;将查询帧的图像和所述掩码输入变化感知器以计算帧间的差异,自适应地激活对变化帧的记忆库更新。本方法能使网络模型轻量化,并通过局部匹配来缓解相似目标对象的干扰,从而实现高精度、高速度的视频对象分割。

Description

一种基于大数据记忆存储的轻量型视频对象分割方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于大数据记忆存储的轻量型视频对象分割方法。
背景技术
视频对象分割是计算机视觉中的一项基本任务,在图像视觉内容分析与理解方面起着重要作用。视频对象分割可以更好地帮助理解视频,有助于完成交互式视频编辑、自动驾驶和机器人导航等任务。视频对象分割是指在视频帧序列中将前景对象与背景分离的过程。目前该领域内已有许多方法解决这种二元分割问题,这些方法可以分为无监督方法和监督方法。前者不需要人工介入,直接输入视频数据;后者则要求人为提供视频首帧的标签数据来进行初始化。虽然人为提供了额外的目标信息,但由于目标物体运动过程中可能出现失真、遮挡和相似物体的干扰,仍然具有挑战性。本发明专利属于半监督视频对象分割技术。
早期的一些方法大都依赖对人为提供的数据进行各种数据增强策略,并利用这些生成的数据在线微调深度神经网络模型来学习目标物体的外观。尽管这些方法具有较高的预测精度和对遮挡的鲁棒性,但在线微调过程需要巨大的时间开销和计算成本,故而其推理过程缓慢,这在很大程度上限制了它们在实际场景中的应用。
最近的方法使用基于匹配的模型来解决上述限制,其基本思想是通过在当前帧和过去帧之间进行全局匹配来获得其目标对象的关联性。它们中的大多数只使用第一帧和前一帧,或统一采样的关键帧。基于时空记忆的方法使用保存在内存中的过去帧和相应的分割结果来指导当前帧的目标掩码预测,这可以有效的处理物体遮挡和漂移。然而,目前这类方法有两个问题:
(1)它们定期对过去的帧进行采样并将其添加到内存中。当视频帧的数量增加时,不加区分的采样可能会错过一些关键帧;也就是说,包含增量物体信息的动态帧会得到较少的关注,或者没有物体变化的静态帧会被反复添加到内存中,导致内存冗余。
(2)视频中要分割的目标对象通常只在场景中的某个地方出现。然而,这些方法使用全局对全局的匹配,即在没有目标对象的区域记忆和匹配特征,这会导致相似物体的误匹配和高计算复杂性。
发明内容
本发明为了解决上述问题,提出了一种基于大数据记忆存储的轻量型视频对象分割方法,所述视频对象分割方法可以缓解相似目标对象的干扰问题,从而实现高精度、高速度的视频对象分割。
本发明公开的一种基于大数据记忆存储的轻量型视频对象分割方法,具体包括:
给定一个带有第一帧注释掩码的测试视频,该视频后序帧中的目标对象的分割过程如下:
将视频首帧的图像和真实标签通过记忆编码器得到键
Figure DEST_PATH_IMAGE001
和值
Figure DEST_PATH_IMAGE002
映射对,所述键
Figure 485928DEST_PATH_IMAGE001
和值
Figure 871910DEST_PATH_IMAGE002
映射对用来初始化记忆库,查询帧的图像通过查询编码器得到键
Figure DEST_PATH_IMAGE003
和值
Figure DEST_PATH_IMAGE004
映射对;
将所述键
Figure DEST_PATH_IMAGE005
和值
Figure 995855DEST_PATH_IMAGE004
映射对通过核记忆搜索器,对记忆库进行搜索,首先,计算查询帧和记忆帧之间的相似度,得到最匹配的查询位置,其次,以所述最匹配的查询位置为中心计算二维高斯核,最后,使用所述二维高斯核,在局部检索所述记忆库中的值,将检索结果作为核记忆搜索器的输出;
将所述核记忆搜索器的输出与查询帧的值拼接作为解码器的输入,并为查询帧重建掩码,得到预测掩码;
将查询帧的图像和所述预测掩码输入变化感知器以计算帧间的差异,自适应地激活对变化帧的记忆库更新,并忽略静态帧。
进一步的,本发明中的所述变化感知器为:
给定帧图像与对象掩码,分别计算图像中每个像素
Figure DEST_PATH_IMAGE006
的变化
Figure DEST_PATH_IMAGE007
和对象掩码的变化
Figure DEST_PATH_IMAGE008
,并更新整体运行变化度
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
超过阈值,激活记忆库更新。
进一步的,所述忽略静态帧具体为:
对于一个新像素特征,若与记忆库中的像素特征的相似度超过设定的阈值,则不被添加到内存中,否则,则作为一个新的特征添加到所述记忆库中。
进一步的,本发明通过LFU索引来确定很少使用的旧特性,具体为:
在每次用查询帧的键
Figure 607708DEST_PATH_IMAGE003
和值
Figure 890922DEST_PATH_IMAGE004
对记忆库进行搜索时,如果相似度大于预设阈值时,则增加记忆库中相应特征的使用次数,且当检测到内存大小超过预算时,移除最低LFU索引的像素特征,直到内存大小低于预算。
本发明中使用二维高斯核,在局部检索所述记忆库中的值,具体为:
Figure DEST_PATH_IMAGE012
其中,d为键的通道数,
Figure DEST_PATH_IMAGE013
是一个比例系数,i和j分别表示查询帧和记忆库中的像素特征索引,
Figure DEST_PATH_IMAGE014
为记忆库中像素j的值,
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
的特征相似度,
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
表示矩阵内积操作,
Figure DEST_PATH_IMAGE020
为记忆库中像素j的键,
Figure DEST_PATH_IMAGE021
为查询帧中像素i的键,
Figure DEST_PATH_IMAGE022
为二维高斯核
Figure DEST_PATH_IMAGE023
中元素,其计算方式为:
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
分别表示像素i的坐标位置,
Figure DEST_PATH_IMAGE027
表示标准差,
Figure DEST_PATH_IMAGE028
表示以
Figure DEST_PATH_IMAGE029
为底的指数函数,
Figure DEST_PATH_IMAGE030
为最匹配的查询位置,
Figure DEST_PATH_IMAGE031
本发明中所述查询编码器和记忆编码器都是用resnet-50作为骨干网络。
本发明通过局部匹配以缓解相似目标对象的干扰问题,从而实现高精度、高速度的视频对象分割,同时,在保留有益于目标对象分割的信息,降低记忆存储的数据冗余,使网络模型轻量化。本发明在DAVIS 2016验证集上,Jaccard(杰卡德系数)平均区域相似度为91.6%,F-measure(精度和召回加权调和平均)平均边界准确度为90.0%,在一块NVIDIAGeForce RTX 2080Ti显卡上处理速度达到25帧/秒,接近了实时分割的速度。在场景更为复杂的DAVIS 2017数据集上测试,Jaccard(杰卡德系数)平均区域相似度为80.4%,F-measure(精度和召回加权调和平均)平均边界准确度为85.6%。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为一种基于大数据记忆存储的轻量型视频对象分割方法的框架图。
图2为核记忆搜索器的示意图。
图3为实验结果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本发明实施例提供一种基于大数据记忆存储的轻量型视频对象分割方法,该方法能够基于视频第一帧中目标对象的像素标注对目标进行连续的跟踪和像素级分割,可以应用于视频编辑、自动驾驶和机器人导航等各种交互场景。在实施上,可以以软件的方式安装于电脑、手机等各种具备并行计算的智能终端,提供对指定目标的实时跟踪分割。
如图1为视频对象分割方法的框架图,主要包括如下处理过程:
一、给定一个带有第一帧注释掩码的测试视频,将视频首帧的图像和真实标签通过记忆编码器得到键
Figure 352865DEST_PATH_IMAGE001
和值
Figure 354319DEST_PATH_IMAGE002
映射对,所述键
Figure 22061DEST_PATH_IMAGE001
和值
Figure 110846DEST_PATH_IMAGE002
映射对用来初始化记忆库,查询帧的图像通过查询编码器得到键
Figure 573052DEST_PATH_IMAGE003
和值
Figure 796223DEST_PATH_IMAGE004
映射对。
记忆编码器将RGB图像与对象掩码一起作为输入,其中对象掩码表示为0~1的单通道概率图,查询编码器的输入仅为RGB图像。查询编码器和记忆编码器都是用resnet-50作为骨干网络。取4通道张量,将记忆编码器中第一个卷积层的输入通道数改为4,查询编码器中的第一个卷积层与ResNet50一样保持不变。记忆编码器和查询编码器的输出键和值特征由两个平行的卷积层嵌入,卷积层输出相对于输入图像的1/16分辨率特征。
将视频第一帧的RGB图像和真实标签作为记忆编码器的输入,编码成键
Figure 516923DEST_PATH_IMAGE001
和值
Figure 509149DEST_PATH_IMAGE002
映射对并初始化记忆库
Figure DEST_PATH_IMAGE032
,为每个目标对象建立独立的记忆库。其中,键
Figure 830672DEST_PATH_IMAGE001
用于寻址,值
Figure 806718DEST_PATH_IMAGE002
存储生成掩码估计的详细信息,确定每个特征是属于前景还是背景的掩码信息。
将查询帧的图像作为查询编码器的输入,编码成键
Figure 550683DEST_PATH_IMAGE003
和值
Figure 115525DEST_PATH_IMAGE004
映射对,其中,键
Figure 919533DEST_PATH_IMAGE005
用于寻址,值
Figure 382876DEST_PATH_IMAGE004
用于存储详细的外观信息,以便准确地解码对象掩码。
二、将所述键
Figure 461690DEST_PATH_IMAGE003
和值
Figure 645153DEST_PATH_IMAGE004
映射对通过核记忆搜索器,对记忆库进行搜索。将查询帧的键
Figure 416800DEST_PATH_IMAGE005
和值
Figure 305122DEST_PATH_IMAGE004
通过核记忆搜索器操作对记忆库进行搜索,使用二维高斯核来缓解视频中相似对象的误匹配,如图2所示。具体地说,计算查询的关键特征和记忆帧之间的相似度,以确定何时何地检索相关的记忆值,查询关键特征图上的每个像素与记忆帧紧密匹配,然后使用相对匹配分数来寻址记忆帧的值特征映射,并将相应的值组合起来返回输出。
计算查询帧的关键特征和记忆帧之间的相似度,得到最匹配的查询位置,计算像素
Figure 374578DEST_PATH_IMAGE016
Figure 727062DEST_PATH_IMAGE017
的特征相似度:
Figure DEST_PATH_IMAGE033
其中,
Figure 295709DEST_PATH_IMAGE019
表示矩阵内积操作,i和j分别表示查询帧和记忆库中的像素特征索引,
Figure DEST_PATH_IMAGE034
为记忆库中像素j的键,
Figure DEST_PATH_IMAGE035
为查询帧像素i的键。
那么最为匹配的查询位置
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
以最匹配的查询位置
Figure DEST_PATH_IMAGE038
为中心计算二维高斯核
Figure DEST_PATH_IMAGE039
,其计算方式为:
Figure DEST_PATH_IMAGE040
其中,
Figure 419129DEST_PATH_IMAGE025
Figure 839746DEST_PATH_IMAGE026
分别表示像素i的坐标位置,
Figure DEST_PATH_IMAGE041
表示标准差,
Figure DEST_PATH_IMAGE042
表示以
Figure 436950DEST_PATH_IMAGE029
为底的指数函数。
使用二维高斯核,在局部检索所述记忆库中
Figure 238815DEST_PATH_IMAGE032
的值,将检索结果作为核记忆搜索器的输出,计算方式为:
Figure DEST_PATH_IMAGE043
其中,d为键的通道数,
Figure DEST_PATH_IMAGE044
是一个比例系数,以防止softmax中的参数振幅变大,
Figure DEST_PATH_IMAGE045
为记忆库中像素j的值。
三、将所述核记忆搜索器的输出与查询帧的值拼接作为解码器的输入,并为查询帧重建掩码,得到预测掩码。
四、将查询帧的图像和所述预测掩码输入变化感知器以计算帧间的差异,自适应地激活对变化帧的记忆库更新,并忽略静态帧。
由于来自视频第一帧的目标对象以及背景经常经历变形、遮挡和视点变化等情况,因此,为了获得良好的性能,在整个推理过程中调整网络模型对于获得良好的性能至关重要。
此处,引入一个变化感知器,用于逐帧评估视频的帧间变化。具体而言,给定帧图像与对象掩码
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
,分别计算图像的变化
Figure DEST_PATH_IMAGE048
和对象掩码的变化
Figure DEST_PATH_IMAGE049
,其计算方式为:
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
对于每个像素
Figure 974165DEST_PATH_IMAGE016
,更新整体运行变化度
Figure DEST_PATH_IMAGE052
如下:
Figure DEST_PATH_IMAGE053
当累积的
Figure 824572DEST_PATH_IMAGE052
超过阈值,记忆库更新就会被激活以减少时空冗余。
此外,由于更新操作会将高度相似的特征添加到记忆库中,这会带来巨大的存储和计算开销,因此,本发明引入了一种更为高效的方式来实现记忆库更新。
当给出一个新的像素特征时,如果它与记忆库中的像素特征有很高的相似度,它就会被忽略,即不被添加到内存中。如果内存中的相似度较低的特征,它就被作为一个新的特征添加到库中。这可以有效地压缩多余的信息,有助于提高记忆效率。
为每个新特征
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
,计算余弦相似度:
Figure DEST_PATH_IMAGE056
其中,i和j分别表示查询帧和记忆库中的像素特征索引,
Figure 10702DEST_PATH_IMAGE019
表示矩阵内积操作。
对于每个新特征
Figure DEST_PATH_IMAGE057
,从
Figure 918222DEST_PATH_IMAGE032
中选择最为相似的特征
Figure DEST_PATH_IMAGE058
,计算它们的相似度:
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
足够大且超过某个阈值,那么意味着这两个特征高度相似,故而舍弃该特征,即不将该特征添加到记忆库
Figure 455383DEST_PATH_IMAGE032
中。若低于阈值,则添加到记忆库
Figure 171797DEST_PATH_IMAGE032
中。
虽然上述的记忆库的更新策略可以有效地缓解存储压力,但记忆库的大小会随着视频帧数的增加而不断扩大。因此,本发明通过使用最低使用频率LFU索引来确定很少使用的旧特性,然后删除它们。
当每次用查询帧的键
Figure DEST_PATH_IMAGE061
和值
Figure DEST_PATH_IMAGE062
对记忆库进行搜索时,如果相似度函数
Figure DEST_PATH_IMAGE063
大于
Figure DEST_PATH_IMAGE064
时,则增加使用该特征的次数。当内存大小超过预算时,则移除最低LFU索引的像素特征,直到内存大小低于预算。计算LFU指数和特征去除的过程是非常高效的,可以使本专利的网络模型处理任何长度的视频。
本发明实施例中,图1所示的整个框架需要预先进行训练,训练阶段与测试阶段的预测方式相同,实验结果如图3所示,具体细节如下:
采用图像数据集进行预训练:在视频数据集不足的情况下,为保证本发明专利中网络模型的泛化能力,可从图像数据集生成模拟训练视频。具体来说,对同一图像进行数据增强操作,如:随机仿射、颜色变换、翻转、调整大小和裁剪等,以组成一个视频序列,每个视频序列有一个第一帧和五个后序帧。然后使用第一帧初始化记忆库,其余5帧形成一个小的训练批次。
经过预训练,使用公开的视频对象分割数据集(DAVIS 2016、DAVIS 2017、YouTubeVOS)对网络模型进行20000次微调。
用ImageNet预训练的ResNet-50的参数初始化网络模型,使用交叉熵损失函数,采用adam优化器,默认设置动量
Figure DEST_PATH_IMAGE065
Figure DEST_PATH_IMAGE066
网络模型首先以
Figure DEST_PATH_IMAGE067
的学习率迭代训练59k,此时骨干网络的参数固定,不参与训练。之后以完整的网络,包括骨干网络,以
Figure 62303DEST_PATH_IMAGE067
的学习率在全分辨率下迭代训练50k,最后以
Figure DEST_PATH_IMAGE068
的学习率进行另一轮训练,迭代20k次。
基于本实施例上述方案,在单目标分割公开数据集DAVIS 2016上测试,视频目标分割结果的性能达到:Jaccard(杰卡德系数)平均区域相似度为91.6%,F-measure(精度和召回加权调和平均)平均边界准确度为90.0%,在一块NVIDIA GeForce RTX 2080Ti显卡上处理速度达到25帧/秒,接近了实时分割的速度。在场景更为复杂的DAVIS 2017数据集上测试,Jaccard(杰卡德系数)平均区域相似度为80.4%,F-measure(精度和召回加权调和平均)平均边界准确度为85.6%。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种基于大数据记忆存储的轻量型视频对象分割方法,其特征在于,所述方法包括:
给定一个带有第一帧注释掩码的测试视频,将视频首帧的图像和真实标签通过记忆编码器得到键
Figure 208829DEST_PATH_IMAGE001
和值
Figure 317600DEST_PATH_IMAGE002
映射对,所述键
Figure 506136DEST_PATH_IMAGE001
和值
Figure 471686DEST_PATH_IMAGE002
映射对用来初始化记忆库,查询帧的图像通过查询编码器得到键
Figure 11252DEST_PATH_IMAGE003
和值
Figure 330238DEST_PATH_IMAGE004
映射对;
将所述键
Figure 262029DEST_PATH_IMAGE003
和值
Figure 211530DEST_PATH_IMAGE004
映射对通过核记忆搜索器,对记忆库进行搜索,首先,计算查询帧和记忆帧之间的相似度,得到最匹配的查询位置,其次,以所述最匹配的查询位置为中心计算二维高斯核,最后,使用所述二维高斯核,再局部检索所述记忆库中的值,将检索结果作为核记忆搜索器的输出;
将所述核记忆搜索器的输出与查询帧的值拼接作为解码器的输入,并为查询帧重建掩码,得到预测掩码;
将查询帧的图像和所述预测掩码输入变化感知器以计算帧间的差异,自适应地激活对变化帧的记忆库更新,并忽略静态帧。
2.根据权利要求1所述的视频对象分割方法,其特征在于,所述变化感知器为:
对于给定帧图像与对象掩码,分别计算图像中每个像素
Figure 363026DEST_PATH_IMAGE005
的变化
Figure 157806DEST_PATH_IMAGE006
和对象掩码的变化
Figure 445568DEST_PATH_IMAGE007
,并更新整体运行变化度
Figure 831550DEST_PATH_IMAGE008
Figure 876867DEST_PATH_IMAGE009
Figure 865551DEST_PATH_IMAGE010
超过阈值,激活记忆库更新。
3.根据权利要求2所述的视频对象分割方法,其特征在于,所述忽略静态帧,具体为:
对于一个新像素特征,若与记忆库中的像素特征的相似度超过设定的阈值,则不被添加到内存中,否则,则作为一个新的特征添加到所述记忆库中。
4.根据权利要求3所述的视频对象分割方法,其特征在于,通过LFU索引来确定很少使用的旧特性,并移除相应特征,具体为:
在每次用查询帧的键
Figure 148765DEST_PATH_IMAGE003
和值
Figure 66168DEST_PATH_IMAGE004
对记忆库进行搜索时,如果相似度大于预设阈值时,则增加记忆库中相应特征的使用次数,且当检测到内存大小超过预算时,移除最低LFU索引的像素特征,直到内存大小低于预算。
5.根据权利要求1-4任一项所述的视频对象分割方法,其特征在于,所述使用所述二维高斯核,再局部检索所述记忆库中的值,具体为:
Figure 536463DEST_PATH_IMAGE011
其中,d为键的通道数,
Figure 943DEST_PATH_IMAGE012
是一个比例系数,i和j分别表示查询帧和记忆库中的像素特征索引,
Figure 263297DEST_PATH_IMAGE013
为记忆库中像素j的值,
Figure 725502DEST_PATH_IMAGE014
Figure 807728DEST_PATH_IMAGE015
Figure 13581DEST_PATH_IMAGE016
的特征相似度,
Figure 802545DEST_PATH_IMAGE017
Figure 825865DEST_PATH_IMAGE018
表示矩阵内积操作,
Figure 536332DEST_PATH_IMAGE019
为记忆库中像素j的键,
Figure 903466DEST_PATH_IMAGE020
为查询帧中像素i的键,
Figure 15779DEST_PATH_IMAGE021
为二维高斯核
Figure 678841DEST_PATH_IMAGE022
中元素,其计算方式为:
Figure 673342DEST_PATH_IMAGE023
Figure 220998DEST_PATH_IMAGE024
Figure 46872DEST_PATH_IMAGE025
分别表示像素i的坐标位置,
Figure 287360DEST_PATH_IMAGE026
表示标准差,
Figure 831474DEST_PATH_IMAGE027
表示以
Figure 979558DEST_PATH_IMAGE028
为底的指数函数,
Figure 800884DEST_PATH_IMAGE029
Figure 572793DEST_PATH_IMAGE030
为最匹配的查询位置,
Figure 400941DEST_PATH_IMAGE031
6.根据权利要求1-4任一项所述的视频对象分割方法,其特征在于,所述查询编码器和记忆编码器都是用resnet-50作为骨干网络。
CN202210808471.XA 2022-07-11 2022-07-11 一种基于大数据记忆存储的轻量型视频对象分割方法 Active CN114882076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210808471.XA CN114882076B (zh) 2022-07-11 2022-07-11 一种基于大数据记忆存储的轻量型视频对象分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210808471.XA CN114882076B (zh) 2022-07-11 2022-07-11 一种基于大数据记忆存储的轻量型视频对象分割方法

Publications (2)

Publication Number Publication Date
CN114882076A true CN114882076A (zh) 2022-08-09
CN114882076B CN114882076B (zh) 2022-09-23

Family

ID=82682663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210808471.XA Active CN114882076B (zh) 2022-07-11 2022-07-11 一种基于大数据记忆存储的轻量型视频对象分割方法

Country Status (1)

Country Link
CN (1) CN114882076B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393396A (zh) * 2022-08-18 2022-11-25 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100092036A1 (en) * 2008-06-17 2010-04-15 Subhodev Das Method and apparatus for detecting targets through temporal scene changes
CN112784750A (zh) * 2021-01-22 2021-05-11 清华大学 基于像素和区域特征匹配的快速视频物体分割方法和装置
CN114330516A (zh) * 2021-12-15 2022-04-12 安徽大学 基于多图引导神经网络模型的小样本徽景图像分类
WO2022133627A1 (zh) * 2020-12-21 2022-06-30 广州视源电子科技股份有限公司 图像分割方法、装置、设备及存储介质
CN114724060A (zh) * 2022-03-14 2022-07-08 中国人民解放军国防科技大学 基于掩码自编码器的无监督视频异常检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100092036A1 (en) * 2008-06-17 2010-04-15 Subhodev Das Method and apparatus for detecting targets through temporal scene changes
WO2022133627A1 (zh) * 2020-12-21 2022-06-30 广州视源电子科技股份有限公司 图像分割方法、装置、设备及存储介质
CN112784750A (zh) * 2021-01-22 2021-05-11 清华大学 基于像素和区域特征匹配的快速视频物体分割方法和装置
CN114330516A (zh) * 2021-12-15 2022-04-12 安徽大学 基于多图引导神经网络模型的小样本徽景图像分类
CN114724060A (zh) * 2022-03-14 2022-07-08 中国人民解放军国防科技大学 基于掩码自编码器的无监督视频异常检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VIPUL SHARMA,ET AL.: "SSFNET-VOS:semantic segmentation and fusion network for video object segmentation", 《PATTERN RECOGNITION LETTERS》 *
贲雅芳: "基于差异性点击策略的交互式图像分割算法研究", 《CNKI硕士电子期刊》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393396A (zh) * 2022-08-18 2022-11-25 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法
CN115393396B (zh) * 2022-08-18 2024-02-02 西安电子科技大学 一种基于掩码预训练的无人机目标跟踪方法

Also Published As

Publication number Publication date
CN114882076B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN112069896B (zh) 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
Chen et al. Unsupervised texture segmentation using multichannel decomposition and hidden Markov models
CN110942471B (zh) 一种基于时空约束的长时目标跟踪方法
CN110889863B (zh) 一种基于目标感知相关滤波的目标跟踪方法
CN110674673A (zh) 一种关键视频帧抽取方法、装置和存储介质
CN114998601B (zh) 基于Transformer的在线更新目标跟踪方法及系统
CN114882076B (zh) 一种基于大数据记忆存储的轻量型视频对象分割方法
CN114663798A (zh) 一种基于强化学习的单步视频内容识别方法
CN115620206A (zh) 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法
Kavitha et al. Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins.
Wang et al. An efficient sparse pruning method for human pose estimation
Cui et al. Autocorrelation aware aggregation network for salient object detection of strip steel surface defects
Peng et al. Swin transformer-based supervised hashing
CN117453949A (zh) 一种视频定位方法以及装置
CN116543019A (zh) 一种基于精确边界框预测的单目标跟踪方法
CN113255493B (zh) 一种融合视觉词和自注意力机制的视频目标分割方法
CN116245913A (zh) 基于层次化上下文引导的多目标跟踪方法
Wang et al. A temporal attention based appearance model for video object segmentation
CN114972435A (zh) 基于长短时集成外观更新机制的目标跟踪方法
CN115049546A (zh) 样本数据处理方法、装置、电子设备及存储介质
Li et al. Multi-memory video anomaly detection based on scene object distribution
Wang et al. Online visual tracking via cross‐similarity‐based siamese network
Koohzadi et al. A context based deep temporal embedding network in action recognition
Monnier et al. Survey on fast dense video segmentation techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant