CN114241388A - 基于时空记忆信息的视频实例分割方法和分割装置 - Google Patents
基于时空记忆信息的视频实例分割方法和分割装置 Download PDFInfo
- Publication number
- CN114241388A CN114241388A CN202111581049.7A CN202111581049A CN114241388A CN 114241388 A CN114241388 A CN 114241388A CN 202111581049 A CN202111581049 A CN 202111581049A CN 114241388 A CN114241388 A CN 114241388A
- Authority
- CN
- China
- Prior art keywords
- memory
- feature map
- frame image
- segmented
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于时空记忆信息的视频实例分割方法和分割装置。视频实例分割方法包括:获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中待分割实例的记忆键特征图和记忆值特征图;计算各幅记忆帧图像中待分割实例的记忆键特征图在进行注意力匹配时的权重值;按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;根据各个权重系数、各个权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;根据全局特征图、查询键特征图和查询值特征图得到当前帧图像的实例分割结果。该方法可以充分利用记忆帧图像的历史信息,提高了分割结果的鲁棒性。
Description
技术领域
本发明属于视频处理技术领域,具体地讲,涉及一种基于时空记忆信息的视频实例分割方法、分割装置、计算机可读存储介质、计算机设备。
背景技术
视频实例分割的目标是在不需要任何人为干预的情况下,对某些特定类别的物体进行分割,得到其分割掩膜。与无监督的视频目标分割不同,视频实例分割需要识别出特定物体,而不仅仅是显著的物体,为了同时完成检测、分割和跟踪任务,大多数视频实例分割方法往往以目标检测的方法为基础框架扩展分割模块,分为单阶段和两阶段方法。
两阶段方法即“先检测后分割”的方法,首先定位到目标物体的边框,然后在边框内分割目标物体,典型的代表是Mask R-CNN。Mask R-CNN是在Faster R-CNN的基础上添加了一个预测分割mask的分支,很大程度上依赖于ROI特征和操作,首先产生一组候选方案,然后预测每个ROI上的前景掩码,两阶段的问题是分割和检测之间不能共享特征,这样就无法进行端到端的反向传播;其次ROI特征被裁剪成了固定分辨率大小,使得一些大的物体会损失分割精度;最后是ROI本身的问题,ROI候选区域远远大于最终预测,这限制了算法的运行效率。
单阶段方法把视频实例分割中检测、分割和跟踪看为可以同时解决的问题。早期的单阶段方法不进行目标检测,直接进行分割,这丢失了物体的类别信息,准确率也很低。后期单阶段方法主要是在设计原型掩膜和目标实例之间的组合关系,通过学习一组系数将目标位置和语义分割结果对应起来,2019年YOLACT将实例分割分解为两个并行任务,生成一组原型掩码并预测每个实例的掩码系数,进一步提高的精度。2021年提出的SG-Net和ST-Mask在前述方法的基础上对分割模块进行的细化处理,并且增添了前一帧分割结果信息来指导当前帧的分割过程。然而历史分割结果包含许多帧,包含目标实例的不同状态的分割结果,这些对分割分支抵抗物理形变和遮挡有重要指导意义。
现有的单阶段视频实例分割方法往往没有考虑历史的分割结果,对剧烈的物体外观变化和遮挡不具有较高的鲁棒性。
发明内容
(一)本发明所要解决的技术问题
本发明解决的技术问题是:如何在视频实例分割中充分利用历史分割结果,以提高分割鲁棒性。
(二)本发明所采用的技术方案
一种基于时空记忆信息的视频实例分割方法,所述视频实例分割方法包括:
获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图,其中所述记忆帧图像为视频中在所述当前帧图像之前的含有所述待分割实例的历史帧图像;
计算各幅所述记忆帧图像中所述待分割实例的记忆键特征图在进行注意力匹配时的权重值;
按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;
根据各个所述权重系数、各个所述权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;
根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果。
优选地,获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图的方法包括:
对所述当前帧图像进行特征提取,获得若干不同尺度的特征图;
根据若干不同尺度的所述特征图得到所述待分割实例的中心点和边界框以及所述当前帧图像的整体查询键特征图和整体查询值特征图;
根据所述待分割实例的中心点和边界框分别对所述当前帧图像的整体查询键特征图、整体查询值特征图进行二值化处理,获得所述待分割实例的查询键特征图和查询值特征图。
优选地,获取视频中各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图的方法包括:
获取视频中在所述当前帧图像之前的所有历史帧图像对应的分割结果、原图、各个实例的中心点和边界框;
根据历史帧图像对应的分割结果、原图得到所述历史帧图像的整体记忆键特征图和整体记忆值特征图;
根据所述历史帧图像中各个实例的中心点和边界框分别对所述历史帧图像的整体记忆键特征图、整体记忆值特征图进行二值化操作,获得所述历史帧图像中各个实例的记忆键特征图和记忆值特征图;
根据所述待分割实例的类别从各幅所述历史帧图像中各个实例的记忆键特征图和记忆值特征图筛选出各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图。
优选地,计算各幅所述记忆帧图像中所述待分割实例的记忆键特征图在进行注意力匹配时的权重值的方法包括:
将各幅所述记忆帧图像中所述待分割实例的记忆键特征图进行空间连接,获得通道维度相连的特征图;
对所述通道维度相连的特征图进行全局池化处理,得到各个权重值。
优选地,所述视频实例分割方法还包括:
确定所述待分割实例在所述当前帧图像的预测区域以及所述待分割实例在与所述当前帧图像相邻的记忆帧图像中的历史区域;
计算所述预测区域和所述历史区域之间的余弦相似度,其中所述余弦相似度的值大于0且小于1;
根据所述余弦相似度和含有所述待分割实例的记忆帧图像的总数确定所述预定数目。
优选地,根据各个所述权重系数、各个所述权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图的方法包括:
计算各个所述权重系数Wn[u]对应的记忆帧图像的加权记忆键特征图KMWu,n:
KMWu,n=KMu,n*Wn[u]
将记忆帧图像的加权记忆键特征图KMWu,n和记忆值特征图VMu,n进行矩阵乘法计算:
Du,n=KMWu,nVMu,n
根据如下公式计算得到具有加权时空信息的全局特征图Gu,n:
其中,1≤u≤gq,n,gq,n表示预定数目,KMu,n表示记忆帧图像的记忆键特征图。
优选地,根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果的方法包括:
将全局特征图所述待分割实例的查询键特征图进行矩阵点积,得到注意力矩阵;
将所述注意力矩阵与所述待分割实例的进行通道维度的连接操作,并将连接操作的结果送入解码器进行反卷积和上采样得到实例分割结果。
本申请还公开了一种基于时空记忆加权网络的视频实例分割装置,所述视频实例分割装置包括:
特征图获取模块,用于获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图,其中所述记忆帧图像为视频中在所述当前帧图像之前的含有所述待分割实例的历史帧图像;
权重值计算模块,用于计算各幅所述记忆帧图像中所述待分割实例的记忆键特征图在进行注意力匹配时的权重值;
权重系数筛选模块,用于按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;
加权值计算模块,用于根据各个所述权重系数、各个所述权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;
注意力匹配模块,用于根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有基于时空记忆加权网络的视频实例分割程序,所述基于时空记忆加权网络的视频实例分割程序被处理器执行时实现上述的基于时空记忆信息的视频实例分割方法。
本申请还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于时空记忆加权网络的视频实例分割程序,所述基于时空记忆加权网络的视频实例分割程序被处理器执行时实现上述的基于时空记忆信息的视频实例分割方法。
(三)有益效果
本发明公开了一种基于时空记忆信息的视频实例分割方法和分割装置,相对于现有方法,具有如下技术效果:
该方法可以充分利用记忆帧图像的历史信息,提高了分割结果的鲁棒性,同时通过筛选出权重高的记忆帧图像进行加权匹配,避免直接采用全部记忆帧图像进行计算,在减少了计算量的同时,让网络自己学习记忆帧的注意力匹配权重达到优化注意力匹配效果的作用。
同时,对特征图进行二值化处理,使空间注意力匹配只在局部进行,减少了相似物体对分割结果的影响。
附图说明
图1为本发明的实施例一的基于时空记忆信息的视频实例分割方法的整体流程图;
图2为本发明的实施例一的基于时空记忆信息的视频实例分割方法的详细流程图;
图3为本发明的实施例一的记忆键特征图的权重值的计算过程示意图;
图4为本发明的实施例二的基于时空记忆加权网络的视频实例分割装置的原理框图;
图5为本发明的实施例四的计算机设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的发明构思:现有技术中在进行视频实例分割时,往往没有有效地利用历史帧信息,当对剧烈的物体外观变化和遮挡时,极大地减弱分割结果鲁棒性。为此,本申请提供了一种基于时空记忆信息的视频实例分割方法,首先获取当前帧图像和各幅记忆帧图像中的待分割实例的键特征图、值特征图,接着计算各个记忆键特征图在进行注意力匹配时的权重值,并进一步筛选出权重值较大的键特征图用作加权匹配,利用筛选出的根据各个权重值、对应的记忆帧图像的记忆键特征图和记忆值特征图对当前帧图像中待分割实例的键特征图、值特征图进行时空加权匹配,获得最终的视频实例分割结果。该方法可以充分利用记忆帧图像的历史信息,提高了分割结果的鲁棒性,同时通过筛选出权重高的记忆帧图像进行加权匹配,避免直接采用全部记忆帧图像进行计算,减少了计算量。
具体地,如图1和图2所示,本实施例一的基于时空记忆信息的视频实例分割方法包括如下步骤:
步骤S10:获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图,其中记忆帧图像为视频中在当前帧图像之前的含有待分割实例的历史帧图像;
步骤S20:计算各幅记忆帧图像中待分割实例的记忆键特征图在进行注意力匹配时的权重值;
步骤S30:按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;
步骤S40:根据各个权重系数、各个权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;
步骤S50:根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果。
在步骤S10中,获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图的方法包括如下步骤:
步骤S101、对当前帧图像进行特征提取,获得若干不同尺度的特征图。
示例性地,实例分割框架采用FCOS单阶段实例分割框架,在中心点和边框预测的基础上添加分割分支,骨干网络和FCOS一样,选择ResNet和FPNs提取输入特征。其中,采用ResNet对当前帧图像进行特征提取,得到5种不同尺度的卷积特征图r1,r2,r3,r4,r5,将其中的三个卷积特征图r3,r4,r5横向连接到FPN网络得到三种不同尺度的金字塔特征图P3,P4,P5,接着对金字塔特征图P5进行池化操作下采样得到金字塔特征图P6,P7,将不同尺度的金字塔特征图P3,P4,P5,P6,P7作为后续的输入。
步骤S102、根据若干不同尺度的特征图得到待分割实例的中心点和边界框以及当前帧图像的整体查询键特征图和整体查询值特征图。
一方面,将不同尺度的金字塔特征图P3,P4,P5,P6,P7分别输入到中心点回归分支网络和边框回归分类预测分支网络,得到待分割实例的中心点CEt,i、边界框Bt,i、类别CLt,i。
另一方面,将ResNet的第四个卷积块结合一个卷积层用作查询帧编码器,将当前帧原图输入到查询帧编码器,输出得到当前帧图像的整体查询键特征图Kq和整体查询值特征图Vq,q代表query,表示查询,查询帧等价于当前帧。
步骤S103、根据待分割实例的中心点和边界框分别对当前帧图像的整体查询键特征图、整体查询值特征图进行二值化处理,获得待分割实例的查询键特征图和查询值特征图。
根据得到的中心点、边界框对每个待分割实例的边界框进行1.5倍大小进行二值化,在当前帧图像的整体查询键特征图、整体查询值特征图的边界框内部将每个待分割实例的边界框所在区域的像素灰度值设置为1,其他区域像素灰度值设置为0,这个可以得到N个查询键特征图Kq,n和查询值特征图Vq,n,其中N为待分割实例的数量,n∈[1,N]。二值化处理是为了防止相似实例对分割结果产生影响,有效增加了分割准确率。
进一步地,在步骤S10中,获取视频中各幅记忆帧图像中待分割实例的记忆键特征图和记忆值特征图的方法包括:
步骤S111、获取视频中在当前帧图像之前的所有历史帧图像对应的分割结果、原图、各个实例的中心点和边界框。
所有历史帧图像I1~It-1对应的分割结果、原图、各个实例的中心点和边界框以及各个实例已预先存储。
步骤S112、根据历史帧图像对应的分割结果、原图得到历史帧图像的整体记忆键特征图和记忆查询值特征图。
将ResNet的第四个卷积块用作记忆帧编码器,将历史帧图像对应的分割结果、原图进行空间连接,将空间连接结果输入到记忆帧编码器,记忆帧编码器输出历史帧图像的整体记忆键特征图KMT和整体记忆查询值特征图VMT,T∈[1,t-1]。
步骤S113、根据历史帧图像中各个实例的中心点和边界框分别对历史帧图像的整体记忆键特征图、整体记忆值特征图进行二值化操作,获得历史帧图像中各个实例的记忆键特征图和记忆值特征图。
根据得到的中心点、边界框对每个实例的边界框进行1.5倍大小进行二值化,在历史帧图像的整体记忆键特征图、整体记忆值特征图的边界框内部将每个实例的边界框所在区域的像素灰度值设置为1,其他区域像素灰度值设置为0,这个可以得到N个记忆键特征图KMT,n和查询值特征图VMT,n,其中N为实例的数量。二值化处理是为了防止相似实例对分割结果产生影响,有效增加了分割准确率。
步骤S114、根据待分割实例的类别从各幅历史帧图像中各个实例的记忆键特征图和记忆值特征图筛选出各幅记忆帧图像中待分割实例的记忆键特征图和记忆值特征图。
在进行二值化处理之后,有利于将各个实例精准地分割出来,从各幅历史帧图像中找出与待分割实例类别相同的实例,将对应的记忆键特征图和记忆值特征图作为各幅记忆帧图像中待分割实例的记忆键特征图和记忆值特征图。
进一步地,在步骤S20中,计算各幅记忆帧图像中待分割实例的记忆键特征图在进行注意力匹配时的权重值的方法包括:将各幅记忆帧图像中待分割实例的记忆键特征图进行空间连接,获得通道维度相连的特征图;对通道维度相连的特征图进行全局池化处理,得到各个权重值。
如图3所示,假设待分割实例的记忆键特征图KMT,n的维度为H×W×C,记忆帧图像的总数是L,进行空间连接后,得到通道维度相连的特征图Cn的维度是HWC×L,经过H×W×C的卷积核进行全局池化,得到权重向量Wn,权重向量Wn含有L个权重值。
进一步地,视频实例分割方法还包括:
确定所述待分割实例在当前帧图像的预测区域以及待分割实例在与当前帧图像相邻的记忆帧图像中的历史区域。
计算预测区域和历史区域之间的余弦相似度Pgate,其中余弦相似度的值大于0且小于1。
根据余弦相似度和含有待分割实例的记忆帧图像的总数Ln确定所述预定数目,具体地,根据如下公式计算预定数目gq,n,
gq,n=[Pgate*Ln]
其中,余弦相似度Pgate越接近1表示实例的预测区域与历史区域越相似,[]表示取整。
在计算得到预定数目gq,n之后,从L个权重值Wn选出排在前gq,n位的权重值Wn作为权重系数Wn[u],即利用关联度高的记忆帧图像的特征图进行后续的注意力匹配计算,在充分利用历史信息的同时,减少计算量,减少运算时间和内存占用。
进一步地,在步骤S40中,根据各个权重系数Wn[u]、各个权重系数Wn[u]对应的记忆帧图像的记忆键特征图KMu,n和记忆值特征图VMu,n得到具有加权时空信息的全局特征图Gu,n的方法包括:
计算各个权重系数Wn[u]对应的记忆帧图像的加权记忆键特征图KMWu,n:
KMWu,n=KMu,n*Wn[u]
将记忆帧图像的加权记忆键特征图KMWu,n和记忆值特征图VMu,n进行矩阵乘法计算:
Du,n=KMWu,nVMu,n
根据如下公式计算得到具有加权时空信息的全局特征图Gu,n:
其中,1≤u≤gq,n,gq,n表示预定数目,KMu,n表示记忆帧图像的记忆键特征图,Du,n为包含注意力信息和历史分割细节的编号u的记忆帧帧对应的特征图,全局特征图Gu,n的维度为固定维度。
在步骤S50中,根据全局特征图Gu,n、查询键特征图Kq,n和查询值特征图Vq,n得到当前帧图像的实例分割结果的方法包括:
将全局特征图Gu,n与待分割实例的查询键特征图Kq,n进行矩阵点积,得到注意力矩阵;
将注意力矩阵与待分割实例的查询值特征图Vq,n进行通道维度的连接操作,并将连接操作的结果送入解码器进行反卷积和上采样得到实例分割结果。
最后,将得到的当前帧图像的实例分割结果、中心点CEt,i、边界框Bt,i、类别CLt,i存入到记忆模块,用于后续帧图像的分割。重复上述过程,直至将视频中每一帧图像分割完成。
进一步地,如图4所示,实施例二的基于时空记忆加权网络的视频实例分割装置包括特征图获取模块10、权重值计算模块20、权重系数筛选模块30、加权值计算模块40和注意力匹配模块50。特征图获取模块10用于获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中待分割实例的记忆键特征图和记忆值特征图;权重值计算模块20用于计算各幅记忆帧图像中待分割实例的记忆键特征图在进行注意力匹配时的权重值;权重系数筛选模块30用于按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;加权值计算模块40用于根据各个权重系数、各个权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;注意力匹配模块50用于根据全局特征图、查询键特征图和查询值特征图得到当前帧图像的实例分割结果。
具体地,特征图获取模块10用于:对当前帧图像进行特征提取,获得若干不同尺度的特征图;根据若干不同尺度的所述特征图得到待分割实例的中心点和边界框以及当前帧图像的整体查询键特征图和整体查询值特征图;根据待分割实例的中心点和边界框分别对当前帧图像的整体查询键特征图、整体查询值特征图进行二值化处理,获得待分割实例的查询键特征图和查询值特征图。以及,特征图获取模块10用于:获取视频中在当前帧图像之前的所有历史帧图像对应的分割结果、原图、各个实例的中心点和边界框;根据历史帧图像对应的分割结果、原图得到历史帧图像的整体记忆键特征图和整体记忆值特征图;根据历史帧图像中各个实例的中心点和边界框分别对历史帧图像的整体记忆键特征图、整体记忆值特征图进行二值化操作,获得历史帧图像中各个实例的记忆键特征图和记忆值特征图;根据待分割实例的类别从各幅历史帧图像中各个实例的记忆键特征图和记忆值特征图筛选出各幅记忆帧图像中待分割实例的记忆键特征图和记忆值特征图。其中,特征图获取模块10的具体处理细节可参考实施例一中相关描述,在此不进行赘述。
进一步地,权重值计算模块20用于将各幅记忆帧图像中待分割实例的记忆键特征图进行空间连接,获得通道维度相连的特征图;对通道维度相连的特征图进行全局池化处理,得到各个权重值。
进一步地,权重系数筛选模块30、加权值计算模块40和注意力匹配模块50的具体处理细节可参考实施例一中相关描述,在此不进行赘述。
本申请的实施例三还公开了一种计算机可读存储介质,计算机可读存储介质存储有基于时空记忆加权网络的视频实例分割程序,基于时空记忆加权网络的视频实例分割程序被处理器执行时实现上述的基于时空记忆加权网络的视频实例分割方法。
本实施例四还公开了一种计算机设备,在硬件层面,如图5所示,该计算机设备包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。计算机可读存储介质11上存储有基于时空记忆加权网络的视频实例分割程序,基于时空记忆加权网络的视频实例分割程序被处理器执行时实现上述的基于时空记忆加权网络的视频实例分割方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。
Claims (10)
1.一种基于时空记忆信息的视频实例分割方法,其特征在于,所述视频实例分割方法包括:
获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图,其中所述记忆帧图像为视频中在所述当前帧图像之前的含有所述待分割实例的历史帧图像;
计算各幅所述记忆帧图像中所述待分割实例的记忆键特征图在进行注意力匹配时的权重值;
按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;
根据各个所述权重系数、各个所述权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;
根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果。
2.根据权利要求1所述的基于时空记忆信息的视频实例分割方法,其特征在于,获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图的方法包括:
对所述当前帧图像进行特征提取,获得若干不同尺度的特征图;
根据若干不同尺度的所述特征图得到所述待分割实例的中心点和边界框以及所述当前帧图像的整体查询键特征图和整体查询值特征图;
根据所述待分割实例的中心点和边界框分别对所述当前帧图像的整体查询键特征图、整体查询值特征图进行二值化处理,获得所述待分割实例的查询键特征图和查询值特征图。
3.根据权利要求1所述的基于时空记忆信息的视频实例分割方法,其特征在于,获取视频中各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图的方法包括:
获取视频中在所述当前帧图像之前的所有历史帧图像对应的分割结果、原图、各个实例的中心点和边界框;
根据历史帧图像对应的分割结果、原图得到所述历史帧图像的整体记忆键特征图和整体记忆值特征图;
根据所述历史帧图像中各个实例的中心点和边界框分别对所述历史帧图像的整体记忆键特征图、整体记忆值特征图进行二值化操作,获得所述历史帧图像中各个实例的记忆键特征图和记忆值特征图;
根据所述待分割实例的类别从各幅所述历史帧图像中各个实例的记忆键特征图和记忆值特征图筛选出各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图。
4.根据权利要求1所述的基于时空记忆信息的视频实例分割方法,其特征在于,计算各幅所述记忆帧图像中所述待分割实例的记忆键特征图在进行注意力匹配时的权重值的方法包括:
将各幅所述记忆帧图像中所述待分割实例的记忆键特征图进行空间连接,获得通道维度相连的特征图;
对所述通道维度相连的特征图进行全局池化处理,得到各个权重值。
5.根据权利要求4所述的基于时空记忆信息的视频实例分割方法,其特征在于,所述视频实例分割方法还包括:
确定所述待分割实例在所述当前帧图像的预测区域以及所述待分割实例在与所述当前帧图像相邻的记忆帧图像中的历史区域;
计算所述预测区域和所述历史区域之间的余弦相似度,其中所述余弦相似度的值大于0且小于1;
根据所述余弦相似度和含有所述待分割实例的记忆帧图像的总数确定所述预定数目。
7.根据权利要求6所述的基于时空记忆信息的视频实例分割方法,其特征在于,根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果的方法包括:
将全局特征图所述待分割实例的查询键特征图进行矩阵点积,得到注意力矩阵;
将所述注意力矩阵与所述待分割实例的进行通道维度的连接操作,并将连接操作的结果送入解码器进行反卷积和上采样得到实例分割结果。
8.一种基于时空记忆加权网络的视频实例分割装置,其特征在于,所述视频实例分割装置包括:
特征图获取模块,用于获取视频中当前帧图像的待分割实例的查询键特征图和查询值特征图以及各幅记忆帧图像中所述待分割实例的记忆键特征图和记忆值特征图,其中所述记忆帧图像为视频中在所述当前帧图像之前的含有所述待分割实例的历史帧图像;
权重值计算模块,用于计算各幅所述记忆帧图像中所述待分割实例的记忆键特征图在进行注意力匹配时的权重值;
权重系数筛选模块,用于按照从大至小的顺序从所有权重值选出预定数目的权重值作为权重系数;
加权值计算模块,用于根据各个所述权重系数、各个所述权重系数对应的记忆帧图像的记忆键特征图和记忆值特征图得到具有加权时空信息的全局特征图;
注意力匹配模块,用于根据所述全局特征图、所述查询键特征图和所述查询值特征图得到当前帧图像的实例分割结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于时空记忆加权网络的视频实例分割程序,所述基于时空记忆加权网络的视频实例分割程序被处理器执行时实现权利要求1至7任一项所述的基于时空记忆信息的视频实例分割方法。
10.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于时空记忆加权网络的视频实例分割程序,所述基于时空记忆加权网络的视频实例分割程序被处理器执行时实现权利要求1至7任一项所述的基于时空记忆信息的视频实例分割方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581049.7A CN114241388A (zh) | 2021-12-22 | 2021-12-22 | 基于时空记忆信息的视频实例分割方法和分割装置 |
PCT/CN2022/140070 WO2023116632A1 (zh) | 2021-12-22 | 2022-12-19 | 基于时空记忆信息的视频实例分割方法和分割装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581049.7A CN114241388A (zh) | 2021-12-22 | 2021-12-22 | 基于时空记忆信息的视频实例分割方法和分割装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241388A true CN114241388A (zh) | 2022-03-25 |
Family
ID=80761294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111581049.7A Pending CN114241388A (zh) | 2021-12-22 | 2021-12-22 | 基于时空记忆信息的视频实例分割方法和分割装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114241388A (zh) |
WO (1) | WO2023116632A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023116632A1 (zh) * | 2021-12-22 | 2023-06-29 | 中国科学院深圳先进技术研究院 | 基于时空记忆信息的视频实例分割方法和分割装置 |
WO2023226009A1 (zh) * | 2022-05-27 | 2023-11-30 | 中国科学院深圳先进技术研究院 | 图像处理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118519A (zh) * | 2018-07-26 | 2019-01-01 | 北京纵目安驰智能科技有限公司 | 基于实例分割的目标Re-ID方法、系统、终端和存储介质 |
CN112669324B (zh) * | 2020-12-31 | 2022-09-09 | 中国科学技术大学 | 基于时序特征聚合和条件卷积的快速视频目标分割方法 |
CN113361519B (zh) * | 2021-05-21 | 2023-07-28 | 北京百度网讯科技有限公司 | 目标处理方法、目标处理模型的训练方法及其装置 |
CN114241388A (zh) * | 2021-12-22 | 2022-03-25 | 中国科学院深圳先进技术研究院 | 基于时空记忆信息的视频实例分割方法和分割装置 |
-
2021
- 2021-12-22 CN CN202111581049.7A patent/CN114241388A/zh active Pending
-
2022
- 2022-12-19 WO PCT/CN2022/140070 patent/WO2023116632A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023116632A1 (zh) * | 2021-12-22 | 2023-06-29 | 中国科学院深圳先进技术研究院 | 基于时空记忆信息的视频实例分割方法和分割装置 |
WO2023226009A1 (zh) * | 2022-05-27 | 2023-11-30 | 中国科学院深圳先进技术研究院 | 图像处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2023116632A1 (zh) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107424159B (zh) | 基于超像素边缘和全卷积网络的图像语义分割方法 | |
Yang et al. | A constant-space belief propagation algorithm for stereo matching | |
US20170351941A1 (en) | System and Method for Performing Saliency Detection Using Deep Active Contours | |
CN111768432A (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
GB2580671A (en) | A computer vision system and method | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN114241388A (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN114998595B (zh) | 弱监督语义分割方法、语义分割方法及可读存储介质 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN114332133A (zh) | 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统 | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN114549913A (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN112651274A (zh) | 路上障碍物检测装置、路上障碍物检测方法及记录介质 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN114048845B (zh) | 点云修复方法、装置、计算机设备和存储介质 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN113918744A (zh) | 相似图像检索方法、装置、存储介质及计算机程序产品 | |
CN116310832A (zh) | 遥感图像处理方法、装置、设备、介质及产品 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
CN113326847B (zh) | 一种基于全卷积神经网络的遥感图像语义分割方法及装置 | |
CN115187768A (zh) | 一种基于改进YOLOv5的鱼眼图像目标检测方法 | |
CN112001479B (zh) | 基于深度学习模型的处理方法、系统及电子设备 | |
CN110490235B (zh) | 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 | |
CN117710235B (zh) | 图像目标增强方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |