CN114494297B - 处理多种先验知识的自适应视频目标分割方法 - Google Patents

处理多种先验知识的自适应视频目标分割方法 Download PDF

Info

Publication number
CN114494297B
CN114494297B CN202210105882.2A CN202210105882A CN114494297B CN 114494297 B CN114494297 B CN 114494297B CN 202210105882 A CN202210105882 A CN 202210105882A CN 114494297 B CN114494297 B CN 114494297B
Authority
CN
China
Prior art keywords
target
video
convolution kernel
feature map
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210105882.2A
Other languages
English (en)
Other versions
CN114494297A (zh
Inventor
李平
张宇
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210105882.2A priority Critical patent/CN114494297B/zh
Publication of CN114494297A publication Critical patent/CN114494297A/zh
Application granted granted Critical
Publication of CN114494297B publication Critical patent/CN114494297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了处理多种先验知识的自适应视频目标分割方法。本发明方法首先对含目标掩膜及描述语句的视频进行采样,并利用时空编码器获得时空视觉特征图;然后构建目标先验自适应编码器,将不同形式的先验知识统一编码为目标卷积核;再通过级联目标过滤器使用目标卷积核将时空视觉特征图中的目标与背景相分离,得到目标的概率张量;最后利用Adam算法优化分割网络模型,对包含先验知识的新视频依次通过上述步骤获得目标的预测掩膜。本发明方法提供了端到端的训练模型,既能自适应处理给定的目标掩膜或描述语句等先验知识,还能有效刻画目标先验知识与视频帧外观特征之间的时空关系,有利于更为准确高效地分割视频的重要目标。

Description

处理多种先验知识的自适应视频目标分割方法
技术领域
本发明属于计算机视觉技术领域,尤其是视觉目标分割领域,涉及一种处理多种先验知识的自适应视频目标分割方法。
背景技术
在互联网时代,视频作为信息交换的重要媒介,相比图像数据,为人们生活方式和工作方式的革新带来更大的推动作用。而视频中的前景目标往往是大家最为关注的对象,视频目标分割是指提取视频帧中的感兴趣物体,如前景目标,该类技术近年来得到了快速发展,并广泛应用于视频编辑、影视特效、视频会议等实际领域。
具体地,视频目标分割通过对视频帧的时空关系建模,从而提取视频内的感兴趣物体对应的像素级别标记矩阵,即目标掩膜。该矩阵的元素值表示视频帧的像素类别,其中前景目标像素标为1,其他则为0。在一个视频中往往存在多个物体,一般需要指定其中单个或多个物体作为目标,并提供其先验知识,如目标掩膜。常见的目标先验知识表现形式有两种:视频首帧的真实掩膜和描述目标的语句。相应地,视频目标分割可分为两种:1)半监督视频目标分割:给定视频首帧真实掩膜,获取像素级别的目标类别;2)基于描述语句的视频目标分割:给定目标描述语句,通过语言描述指定目标。在现实应用中,经常遇到多种先验知识交叉的场景,对有些视频给定首帧真实掩膜,而对另一些视频给定目标描述语句,这就需要视频目标分割模型自适应地有效处理多种先验知识。
现有方法需要设计多个不同的算法模型才能够处理不同的目标先验知识。例如,针对半监督视频目标分割,一般利用卷积神经网络提取视频帧的特征表示,采用匹配或在线学习的方式实现分割。其中,基于匹配的方式一般通过计算成对视频帧特征表示的逐像素相似度,并据此从给定真实掩膜中获取逐像素的类别估计,从而判断视频帧的每个像素是否属于目标。而基于在线学习的方法基于给定真实掩膜构建训练样本,利用全卷积神经网络在线学习新输入样本的目标特征表示,有利于判断后续视频帧的目标与背景。此外,针对基于描述语句的视频目标分割同样利用卷积神经网络进行特征提取,并利用预训练语言模型获得描述语句的特征向量,然后设计不同的特征融合模块处理视觉特征与语言特征,输出预测的目标掩膜。
上述方法的不足点主要表现在两方面:1)单一方法无法同时利用不同类型的目标先验知识用于指定视频内的目标对象,在实际应用中无法自适应地接受目标掩膜或描述语句等目标指定信息并完成分割;2)为了在统一框架下实现半监督视频目标分割与基于描述语句的视频目标分割,需要集成多个方法,造成集成模型的复杂度过高且无法进行端到端训练。为了解决上述问题,迫切需要设计能够统一处理多种不同的目标先验知识且能端到端训练的视频目标分割方法。
发明内容
本发明的目的就是针对现有技术的不足,提出了一种处理多种先验知识的自适应视频目标分割方法,利用自适应编码器处理多种不同形式的目标先验知识,并通过刻画视觉帧外观特征与目标先验之间的内在关系将目标准确地从视频帧背景中分离出来,从而满足现实应用中不同目标指定方式下的分割需求。
本发明方法获取含有目标掩膜及描述语句的视频数据集合后,依次进行如下操作:
步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合;
步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵;
步骤(3)构建级联目标过滤器,将目标卷积核与时空视觉特征图集合作为输入,获得目标概率张量;
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络;
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。
进一步,步骤(1)具体是:
(1-1)对输入视频进行均匀采样,获得视频帧序列
Figure BDA0003493906180000021
t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1-3)将N个连续视频帧{It,It+1,...,It+N-1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合
Figure BDA0003493906180000031
c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
(1-4)将视觉特征图F1/16输入自注意力模块,获得时空视觉特征图
Figure BDA0003493906180000032
具体是:Q=LN(F1/16)Wq,K=LN(F1/16)Wk,V=LN(F1/16)Wv
Figure BDA0003493906180000033
Figure BDA0003493906180000034
其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为(Nh3w3)×C,中间特征矩阵
Figure BDA00034939061800000310
的维度为(Nh3w3)×C,Nh3w3=N×h3×w3
(1-5)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉特征图集合
Figure BDA0003493906180000035
又进一步,步骤(2)具体是:
(2-1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1}H×W输入由多个卷积层组成的掩膜编码器,获得掩膜特征图
Figure BDA0003493906180000036
具体是:
Figure BDA0003493906180000037
Figure BDA0003493906180000038
Figure BDA0003493906180000039
其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次,
Figure BDA0003493906180000041
表示初始掩膜特征图,
Figure BDA0003493906180000042
表示中间掩膜特征图;
(2-2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量
Figure BDA0003493906180000043
其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度。
(2-3)将语言特征向量
Figure BDA0003493906180000044
输入由两个线性层组成的语言嵌入层,并通过复制操作获得语言特征图
Figure BDA0003493906180000045
具体是:
Figure BDA0003493906180000046
Figure BDA0003493906180000047
Figure BDA0003493906180000048
其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
(2-4)将掩膜特征图M3和语言特征图
Figure BDA0003493906180000049
输入目标先验层,按照
Figure BDA00034939061800000410
获得目标先验特征图
Figure BDA00034939061800000411
参数0≤α≤0.5;
(2-5)将目标先验特征图
Figure BDA00034939061800000412
输入第一个目标卷积核生成器,获得初级目标卷积核矩阵
Figure BDA00034939061800000413
具体是:
Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v
Figure BDA00034939061800000414
Figure BDA00034939061800000415
其中,初级目标先验查询矩阵
Figure BDA00034939061800000416
为全零初始化的可学习参数,b=50,W′q、W′k和W′v均为可学习参数,其维度均为C×C;
(2-6)将初级目标先验查询矩阵
Figure BDA0003493906180000051
与初级目标卷积核
Figure BDA0003493906180000052
进行逐元素累加,作为中级目标先验查询矩阵
Figure BDA0003493906180000053
中级目标先验查询矩阵
Figure BDA0003493906180000054
与目标先验特征图
Figure BDA0003493906180000055
一起输入第二个相同结构的目标卷积核生成器,获得中级目标卷积核矩阵
Figure BDA0003493906180000056
(2-7)将中级目标先验查询矩阵
Figure BDA0003493906180000057
与初级目标卷积核
Figure BDA0003493906180000058
进行逐元素累加,作为高级目标先验查询矩阵
Figure BDA0003493906180000059
高级目标先验查询矩阵
Figure BDA00034939061800000510
与目标先验特征图
Figure BDA00034939061800000511
一起输入第三个相同结构的目标卷积核生成器,获得高级目标卷积核矩阵
Figure BDA00034939061800000512
再进一步,步骤(3)具体是:
(3-1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3-2)将时空视觉特征图集合中
Figure BDA00034939061800000513
Figure BDA00034939061800000514
以及初级目标卷积核矩阵
Figure BDA00034939061800000515
输入第一个目标过滤器,获得初级目标过滤特征图
Figure BDA00034939061800000516
具体是:
Figure BDA00034939061800000517
其中,θ1(·)与
Figure BDA00034939061800000518
均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3-3)将初级目标过滤特征图
Figure BDA00034939061800000519
通过双线性上采样放大特征图分辨率至h2×w2,即
Figure BDA00034939061800000520
与时空视觉特征图集合中
Figure BDA00034939061800000521
以及中级目标卷积核矩阵
Figure BDA00034939061800000522
输入第二个目标过滤器,获得中级目标过滤特征图
Figure BDA00034939061800000523
具体是:
Figure BDA00034939061800000524
其中,θ2(·)与
Figure BDA00034939061800000525
均表示卷积核大小为3×3的卷积层;
(3-4)将中级目标过滤特征图
Figure BDA00034939061800000526
通过双线性上采样放大特征图分辨率至h1×w1,即
Figure BDA00034939061800000527
与时空视觉特征图集合中
Figure BDA00034939061800000528
以及高级目标卷积核矩阵
Figure BDA00034939061800000529
输入第三个目标过滤器,获得高级目标过滤特征图
Figure BDA00034939061800000530
具体是:
Figure BDA00034939061800000531
其中,θ3(·)与
Figure BDA00034939061800000532
均表示卷积核大小为3×3的卷积层;
(3-5)将高级目标过滤特征图
Figure BDA0003493906180000061
输入掩膜预测层,获得目标概率张量
Figure BDA0003493906180000062
其中,ρ(·)表示卷积核大小为3×3的卷积层,其输出通道为1,Up(·)表示通过双线性上采样将分辨率从h1×w1放大至视频帧的分辨率H×W,σ(·)表示Sigmoid函数。
更进一步,步骤(4)具体是:
(4-1)将目标概率张量
Figure BDA0003493906180000063
和真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T}作为输入,利用交叉熵损失函数计算损失值
Figure BDA0003493906180000064
其中,
Figure BDA0003493906180000065
表示输入第n个视频帧第i个像素属于目标的概率值,pn,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值,为0或1;
(4-2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化,其中预训练语言模型BERT不参与优化,优化过程中以0.1为间隔循环调整参数α,0≤α≤0.5,获得训练好的目标分割网络。
还进一步,步骤(5)的具体是:
(5-1)对输入的新视频进行均匀采样,得到视频帧集合
Figure BDA0003493906180000066
T表示视频的总帧数,
Figure BDA0003493906180000067
表示在t时刻的视频帧;
(5-2)将视频帧
Figure BDA0003493906180000068
按照步骤(1)方法获得时空视觉特征图集合;
(5-3)根据给定目标先验知识类型调整分割网络结构:目标先验知识为视频首帧掩膜,则将其按照步骤(2-1),步骤(2-4)~(2-7)以及步骤(3)进行操作,并设置参数α=0.5;目标先验知识为描述语句,则将其按照步骤(2-2)~(2-7)以及步骤(3)进行操作,并设置参数α=0;获得各帧的目标概率张量后,将概率大于0.5的元素值设置为1,否则为0,输出预测目标掩膜
Figure BDA0003493906180000069
本发明提出了一种处理多种先验知识的自适应视频目标分割方法,该方法具有以下几个特点:1)通过目标先验自适应编码器实现对不同目标先验知识的比例控制,能够处理多种目标先验知识如视频首帧掩膜或描述语句;2)通过级联目标过滤器对视频帧外观特征进行卷积操作,并且卷积核参数来自目标先验知识编码的统一目标卷积核,能够逐步将目标从背景中过滤出来;3)通过设计端到端训练的分割网络,并通过其中目标先验自适应编码器与级联目标过滤器自适应处理不同目标先验知识,实现像素级别的目标提取。
本发明适用于存在多种目标先验知识的视频目标分割场景,有益效果包括:1)利用自适应编码器能够根据不同的目标先验知识类型,自适应调整网络结构实现统一的目标编码;2)利用级联目标过滤器刻画目标先验知识与视频帧外观特征之间的时空关系,从而将目标从视频帧的背景中提取出来;3)在统一的框架下设计能够端到端训练的分割网络,能够自适应处理多种目标先验知识并完成视频目标分割。该方法在视频编辑、影视特效、视频会议等领域具有广阔的应用前景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种处理多种先验知识的自适应视频目标分割方法:首先对视频进行帧采样获得视频帧序列,并使用时空编码器在时空域内捕捉上下文信息,获得时空视觉特征图集合;再将目标先验如视频首帧掩膜或描述语句输入目标先验自适应编码器,将目标先验知识统一编码为目标卷积核,其中通过调整目标先验知识的比例可实现任何单一目标先验的编码;接着通过级联目标过滤器,使用目标卷积核将时空视觉特征图中的目标与背景相分离,获得预测目标掩膜。本发明提出的方法既能自适应实现对给定视频首帧目标掩膜或描述语句的视频目标分割任务,又采用端到端的神经网络结构,从而满足实际应用中不同目标指定方式与端到端模型的需求。
处理多种先验知识的自适应视频目标分割方法,获取含有目标掩膜与描述语句的视频数据集合后,进行如下操作:
步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合。具体是:
(1-1)对输入视频以30帧为间隔进行均匀采样,获得视频帧序列
Figure BDA0003493906180000071
t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1-3)将N个连续视频帧{It,It+1,...,It+N-1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合
Figure BDA0003493906180000081
1<N≤5,c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
(1-4)将视觉特征图F1/16输入自注意力模块,获得时空视觉特征图
Figure BDA0003493906180000082
具体是:Q=LN(F1/16)Wq,K=LN(F1/16)Wk,V=LN(F1/16)Wv
Figure BDA0003493906180000083
Figure BDA0003493906180000084
其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为(Nh3w3)×C,中间特征矩阵
Figure BDA0003493906180000088
的维度为(Nh3w3)×C,Nh3w3=N×h3×w3
(1-5)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉特征图集合
Figure BDA0003493906180000085
步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵。具体是:
(2-1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型BERT(Bidirectional EncoderRepresentation from Transformer)、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1}H×W输入由多个卷积层组成的掩膜编码器,获得掩膜特征图
Figure BDA0003493906180000086
具体是:
Figure BDA0003493906180000087
Figure BDA0003493906180000091
Figure BDA0003493906180000092
其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次,
Figure BDA0003493906180000093
表示初始掩膜特征图,
Figure BDA0003493906180000094
表示中间掩膜特征图;
(2-2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量
Figure BDA0003493906180000095
其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度。
(2-3)将语言特征向量
Figure BDA0003493906180000096
输入由两个线性层组成的语言嵌入层,并通过复制操作获得语言特征图
Figure BDA0003493906180000097
具体是:
Figure BDA0003493906180000098
Figure BDA0003493906180000099
Figure BDA00034939061800000910
其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
(2-4)将掩膜特征图M3和语言特征图
Figure BDA00034939061800000911
输入目标先验层,按照
Figure BDA00034939061800000912
获得目标先验特征图
Figure BDA00034939061800000913
参数0≤α≤0.5;
(2-5)将目标先验特征图
Figure BDA00034939061800000914
输入第一个目标卷积核生成器,获得初级目标卷积核矩阵
Figure BDA00034939061800000915
具体是:
Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v
Figure BDA00034939061800000916
Figure BDA0003493906180000101
其中,初级目标先验查询矩阵
Figure BDA0003493906180000102
为全零初始化的可学习参数,b=50,W′q、W′k和W′v均为可学习参数,其维度均为C×C;
(2-6)将初级目标先验查询矩阵
Figure BDA0003493906180000103
与初级目标卷积核
Figure BDA0003493906180000104
进行逐元素累加,作为中级目标先验查询矩阵
Figure BDA0003493906180000105
中级目标先验查询矩阵
Figure BDA0003493906180000106
与目标先验特征图
Figure BDA0003493906180000107
一起输入第二个相同结构的目标卷积核生成器,获得中级目标卷积核矩阵
Figure BDA0003493906180000108
(2-7)将中级目标先验查询矩阵
Figure BDA0003493906180000109
与初级目标卷积核
Figure BDA00034939061800001010
进行逐元素累加,作为高级目标先验查询矩阵
Figure BDA00034939061800001011
高级目标先验查询矩阵
Figure BDA00034939061800001012
与目标先验特征图
Figure BDA00034939061800001013
一起输入第三个相同结构的目标卷积核生成器,获得高级目标卷积核矩阵
Figure BDA00034939061800001014
步骤(3)构建级联目标过滤器,将目标卷积核与时空视觉特征图集合作为输入,获得目标概率张量。具体是:
(3-1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3-2)将时空视觉特征图集合中
Figure BDA00034939061800001015
Figure BDA00034939061800001016
以及初级目标卷积核矩阵
Figure BDA00034939061800001017
输入第一个目标过滤器,获得初级目标过滤特征图
Figure BDA00034939061800001018
具体是:
Figure BDA00034939061800001019
其中,θ1(·)与
Figure BDA00034939061800001020
均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3-3)将初级目标过滤特征图
Figure BDA00034939061800001021
通过双线性上采样放大特征图分辨率至h2×w2,即
Figure BDA00034939061800001022
与时空视觉特征图集合中
Figure BDA00034939061800001023
以及中级目标卷积核矩阵
Figure BDA00034939061800001024
输入第二个目标过滤器,获得中级目标过滤特征图
Figure BDA00034939061800001025
具体是:
Figure BDA00034939061800001026
其中,θ2(·)与
Figure BDA00034939061800001027
均表示卷积核大小为3×3的卷积层;
(3-4)将中级目标过滤特征图
Figure BDA00034939061800001028
通过双线性上采样放大特征图分辨率至h1×w1,即
Figure BDA0003493906180000111
与时空视觉特征图集合中
Figure BDA0003493906180000112
以及高级目标卷积核矩阵
Figure BDA0003493906180000113
输入第三个目标过滤器,获得高级目标过滤特征图
Figure BDA0003493906180000114
具体是:
Figure BDA0003493906180000115
其中,θ3(·)与
Figure BDA0003493906180000116
均表示卷积核大小为3×3的卷积层;
(3-5)将高级目标过滤特征图
Figure BDA0003493906180000117
输入掩膜预测层,获得目标概率张量
Figure BDA0003493906180000118
其中,ρ(·)表示卷积核大小为3×3的卷积层,其输出通道为1,Up(·)表示通过双线性上采样将分辨率从h1×w1放大至视频帧的分辨率H×W,σ(·)表示Sigmoid函数。
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络。具体是:
(4-1)将目标概率张量
Figure BDA0003493906180000119
和真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T}作为输入,利用交叉熵损失函数计算损失值
Figure BDA00034939061800001110
其中,
Figure BDA00034939061800001111
表示输入第n个视频帧第i个像素属于目标的概率值,pn,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值,为0或1;
(4-2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化,其中预训练语言模型BERT不参与优化,优化过程中以0.1为间隔循环调整参数α,0≤α≤0.5,获得训练好的目标分割网络。
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。具体是:
(5-1)对输入的新视频以30帧为间隔进行均匀采样,得到视频帧集合
Figure BDA00034939061800001112
T表示视频的总帧数,
Figure BDA00034939061800001113
表示在t时刻的视频帧;
(5-2)将视频帧
Figure BDA00034939061800001114
按照步骤(1)方法获得时空视觉特征图集合;
(5-3)根据给定目标先验知识类型调整分割网络结构:目标先验知识为视频首帧掩膜,则将其按照步骤(2-1),步骤(2-4)~(2-7)以及步骤(3)进行操作,并设置参数α=0.5;目标先验知识为描述语句,则将其按照步骤(2-2)~(2-7)以及步骤(3)进行操作,并设置参数α=0;获得各帧的目标概率张量后,将概率大于0.5的元素值设置为1,否则为0,输出预测目标掩膜
Figure BDA0003493906180000121
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (4)

1.处理多种先验知识的自适应视频目标分割方法,其特征在于,该方法获取含有目标掩膜及描述语句的视频数据集合后,依次进行如下操作:
步骤(1)对视频进行帧采样后获得视频帧序列,将其输入由残差卷积网络与自注意力模块构成的时空编码器,获得时空视觉特征图集合;具体是:
(1-1)对输入视频进行均匀采样,获得视频帧序列
Figure FDA0003888248090000011
t表示视频帧的时刻下标,T为视频帧数目,H为视频帧的高度,W为视频帧的宽度;给定所有视频帧的真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T},其中Pt是维度为H×W的二值矩阵,元素值为1表示对应位置的视频帧像素属于目标,元素值为0表示背景;
(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器,其中残差卷积网络已去除最后的全局池化层与全连接层;
(1-3)将N个连续视频帧{It,It+1,...,It+N-1}依次输入时空编码器中的残差卷积网络,获得视觉特征图集合
Figure FDA0003888248090000012
c表示视觉特征图的通道数,且c1<c2<c3,h和w表示集合中视觉特征图的高度和宽度,且依次为视频帧高度H与宽度W的1/4、1/8与1/16,而视觉特征图F的下标也用于表示高度与宽度的缩放比例;
(1-4)将视觉特征图F1/16输入自注意力模块,获得时空视觉特征图
Figure FDA0003888248090000013
具体是:
Q=LN(F1/16)Wq,K=LN(F1/16)Wk,V=LN(F1/16)Wv
Figure FDA0003888248090000014
Figure FDA0003888248090000015
其中,LN(·)表示层归一化操作,MLP(·)表示两个级联的线性层,softmax(·)表示归一化指数函数,Wq、Wk与Wv均为可学习参数,其维度均为C×c3,C=256,特征矩阵Q、K和V的维度均为Nh3w3×C,中间特征矩阵
Figure FDA0003888248090000016
的维度为Nh3w3×C,Nh3w3=N×h3×w3
(1-5)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉特征图集合
Figure FDA0003888248090000017
步骤(2)构建目标先验自适应编码器,其输入为视频首帧掩膜与描述语句、时空视觉特征图集合,并输出目标卷积核矩阵;具体是:
(2-1)构建目标先验自适应编码器,具体构成包括:由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器;将视频第一帧的掩膜P1∈{0,1}H×W输入由多个卷积层组成的掩膜编码器,获得掩膜特征图
Figure FDA0003888248090000021
具体是:
Figure FDA0003888248090000022
Figure FDA0003888248090000023
Figure FDA0003888248090000024
其中,Conv2D(·)表示卷积核为3×3的2D卷积层,BN(·)表示批归一化操作,ReLU(·)表示线性整流函数,MaxPool(·)表示全局池化操作,Repeat(·)表示复制操作,此处将维度为h3×w3×C的张量复制N次,
Figure FDA0003888248090000025
表示初始掩膜特征图,
Figure FDA0003888248090000026
表示中间掩膜特征图;
(2-2)将视频对应的描述语句,即由多个单词组成的集合{word1,word2,…,worde}输入预训练语言模型BERT,获得语言特征向量
Figure FDA0003888248090000027
其中worde表示描述语句中的第e个单词,C0=768为特征向量的长度;
(2-3)将语言特征向量
Figure FDA0003888248090000028
输入由两个线性层组成的语言嵌入层,并通过复制操作获得语言特征图
Figure FDA0003888248090000029
具体是:
Figure FDA00038882480900000210
Figure FDA00038882480900000211
Figure FDA00038882480900000212
其中,Linear(·)表示线性层,tanh(·)表示双曲正切函数,Repeat(·)表示复制操作,此处将维度为C的向量复制N×h3×w3次,L′为初始语言特征向量,L″为中间语言特征向量;
(2-4)将掩膜特征图M3和语言特征图
Figure FDA00038882480900000213
输入目标先验控制层,按照
Figure FDA00038882480900000214
获得目标先验特征图
Figure FDA0003888248090000031
参数0≤α≤0.5;
(2-5)将目标先验特征图
Figure FDA0003888248090000032
输入第一个目标卷积核生成器,获得初级目标卷积核矩阵
Figure FDA0003888248090000033
具体是:
Q′=LN(U1)W′q,K′=LN(O)W′k,V′=LN(O)W′v
Figure FDA0003888248090000034
Figure FDA0003888248090000035
其中,初级目标先验查询矩阵
Figure FDA0003888248090000036
为全零初始化的可学习参数,b=50,W′q、W′k和W′v均为可学习参数,其维度均为C×C;
(2-6)将初级目标先验查询矩阵
Figure FDA0003888248090000037
与初级目标卷积核
Figure FDA0003888248090000038
进行逐元素累加,作为中级目标先验查询矩阵
Figure FDA0003888248090000039
中级目标先验查询矩阵
Figure FDA00038882480900000310
与目标先验特征图
Figure FDA00038882480900000311
一起输入第二个相同结构的目标卷积核生成器,获得中级目标卷积核矩阵
Figure FDA00038882480900000312
(2-7)将中级目标先验查询矩阵
Figure FDA00038882480900000313
与初级目标卷积核
Figure FDA00038882480900000314
进行逐元素累加,作为高级目标先验查询矩阵
Figure FDA00038882480900000315
高级目标先验查询矩阵
Figure FDA00038882480900000316
与目标先验特征图
Figure FDA00038882480900000317
一起输入第三个相同结构的目标卷积核生成器,获得高级目标卷积核矩阵
Figure FDA00038882480900000318
步骤(3)构建级联目标过滤器,将目标卷积核矩阵与时空视觉特征图集合作为输入,获得目标概率张量;
步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络,使用交叉熵损失函数进行模型优化,获得已训练的目标分割网络;
步骤(5)对新视频进行帧采样后,将视频目标先验知识及帧序列输入已训练的分割网络中,输出新视频对应的预测目标掩膜。
2.如权利要求1所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(3)具体是:
(3-1)构建级联目标过滤器,级联目标过滤器由三个具有相同结构的目标过滤器,以及掩膜预测层组成,目标过滤器由卷积层、双线性上采样组成;
(3-2)将时空视觉特征图集合中
Figure FDA0003888248090000041
Figure FDA0003888248090000042
以及初级目标卷积核矩阵
Figure FDA0003888248090000043
输入第一个目标过滤器,获得初级目标过滤特征图
Figure FDA0003888248090000044
具体是:
Figure FDA0003888248090000045
其中,θ1(·)与
Figure FDA0003888248090000046
均表示卷积核大小为3×3的卷积层,并且卷积层的输出通道数均为C,*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作;
(3-3)将初级目标过滤特征图
Figure FDA0003888248090000047
通过双线性上采样放大特征图分辨率至h2×w2,即
Figure FDA0003888248090000048
与时空视觉特征图集合中
Figure FDA0003888248090000049
以及中级目标卷积核矩阵
Figure FDA00038882480900000410
输入第二个目标过滤器,获得中级目标过滤特征图
Figure FDA00038882480900000411
具体是:
Figure FDA00038882480900000412
其中,θ2(·)与
Figure FDA00038882480900000413
均表示卷积核大小为3×3的卷积层;
(3-4)将中级目标过滤特征图
Figure FDA00038882480900000414
通过双线性上采样放大特征图分辨率至h1×w1,即
Figure FDA00038882480900000415
与时空视觉特征图集合中
Figure FDA00038882480900000416
以及高级目标卷积核矩阵
Figure FDA00038882480900000417
输入第三个目标过滤器,获得高级目标过滤特征图
Figure FDA00038882480900000418
具体是:
Figure FDA00038882480900000419
其中,θ3(·)与
Figure FDA00038882480900000420
均表示卷积核大小为3×3的卷积层;
(3-5)将高级目标过滤特征图
Figure FDA00038882480900000421
输入掩膜预测层,获得目标概率张量
Figure FDA00038882480900000422
其中,ρ(·)表示卷积核大小为3×3的卷积层,其输出通道为1,Up(·)表示通过双线性上采样将分辨率从h1×w1放大至视频帧的分辨率H×W,σ(·)表示Sigmoid函数。
3.如权利要求2所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(4)具体是:
(4-1)将目标概率张量
Figure FDA00038882480900000423
和真实目标掩膜{Pt∈{0,1}H×W|t=1,2,...,T}作为输入,利用交叉熵损失函数计算损失值
Figure FDA00038882480900000424
Figure FDA00038882480900000425
其中,
Figure FDA00038882480900000426
表示输入第n个视频帧第i个像素属于目标的概率值,pn,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值,为0或1;
(4-2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化,其中预训练语言模型BERT不参与优化,优化过程中以0.1为间隔循环调整参数α,0≤α≤0.5,获得训练好的目标分割网络。
4.如权利要求3所述的处理多种先验知识的自适应视频目标分割方法,其特征在于,步骤(5)的具体是:
(5-1)对输入的新视频进行均匀采样,得到视频帧集合
Figure FDA0003888248090000051
T表示视频的总帧数,
Figure FDA0003888248090000052
表示在t时刻的视频帧;
(5-2)将视频帧
Figure FDA0003888248090000053
按照步骤(1)方法获得时空视觉特征图集合;
(5-3)根据给定目标先验知识类型调整分割网络结构:目标先验知识为视频首帧掩膜,则将其按照步骤(2-1),步骤(2-4)~(2-7)以及步骤(3)进行操作,并设置参数α=0.5;目标先验知识为描述语句,则将其按照步骤(2-2)~(2-7)以及步骤(3)进行操作,并设置参数α=0;获得各帧的目标概率张量后,将概率大于0.5的元素值设置为1,否则为0,输出预测目标掩膜
Figure FDA0003888248090000054
CN202210105882.2A 2022-01-28 2022-01-28 处理多种先验知识的自适应视频目标分割方法 Active CN114494297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210105882.2A CN114494297B (zh) 2022-01-28 2022-01-28 处理多种先验知识的自适应视频目标分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210105882.2A CN114494297B (zh) 2022-01-28 2022-01-28 处理多种先验知识的自适应视频目标分割方法

Publications (2)

Publication Number Publication Date
CN114494297A CN114494297A (zh) 2022-05-13
CN114494297B true CN114494297B (zh) 2022-12-06

Family

ID=81476974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210105882.2A Active CN114494297B (zh) 2022-01-28 2022-01-28 处理多种先验知识的自适应视频目标分割方法

Country Status (1)

Country Link
CN (1) CN114494297B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147598B (zh) * 2022-06-02 2023-07-14 粤港澳大湾区数字经济研究院(福田) 目标检测分割方法、装置、智能终端及存储介质
CN115442660B (zh) * 2022-08-31 2023-05-19 杭州影象官科技有限公司 自监督对抗视频摘要提取方法、装置、设备和存储介质
CN116229337B (zh) * 2023-05-10 2023-09-26 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、系统、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476133A (zh) * 2020-03-30 2020-07-31 杭州电子科技大学 面向无人驾驶的前背景编解码器网络目标提取方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644429B (zh) * 2017-09-30 2020-05-19 华中科技大学 一种基于强目标约束视频显著性的视频分割方法
CN108596940B (zh) * 2018-04-12 2021-03-30 北京京东尚科信息技术有限公司 一种视频分割方法和装置
CN110555337B (zh) * 2018-05-30 2022-12-06 腾讯科技(深圳)有限公司 一种指示对象的检测方法、装置以及相关设备
US10818014B2 (en) * 2018-07-27 2020-10-27 Adobe Inc. Image object segmentation based on temporal information
CN109165563B (zh) * 2018-07-27 2021-03-23 北京市商汤科技开发有限公司 行人再识别方法和装置、电子设备、存储介质、程序产品
CN110222560B (zh) * 2019-04-25 2022-12-23 西北大学 一种嵌入相似性损失函数的文本人员搜索方法
CN110310293B (zh) * 2019-07-04 2021-08-10 北京字节跳动网络技术有限公司 人体图像分割方法及设备
CN110866938B (zh) * 2019-11-21 2021-04-27 北京理工大学 一种全自动视频运动目标分割方法
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN113139966B (zh) * 2021-03-19 2022-06-24 杭州电子科技大学 一种基于贝叶斯记忆的层次级联视频目标分割方法
CN112818955B (zh) * 2021-03-19 2023-09-15 北京市商汤科技开发有限公司 一种图像分割方法、装置、计算机设备以及存储介质
CN112801068B (zh) * 2021-04-14 2021-07-16 广东众聚人工智能科技有限公司 一种视频多目标跟踪与分割系统和方法
CN113538457B (zh) * 2021-06-28 2022-06-24 杭州电子科技大学 利用多频动态空洞卷积的视频语义分割方法
CN113869154B (zh) * 2021-09-15 2022-09-02 中国科学院大学 根据语言描述的视频动作者分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476133A (zh) * 2020-03-30 2020-07-31 杭州电子科技大学 面向无人驾驶的前背景编解码器网络目标提取方法

Also Published As

Publication number Publication date
CN114494297A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN114494297B (zh) 处理多种先验知识的自适应视频目标分割方法
CN111210435B (zh) 一种基于局部和全局特征增强模块的图像语义分割方法
Wang et al. Contextual transformation network for lightweight remote-sensing image super-resolution
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Zhu et al. Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure
CN113705575B (zh) 一种图像分割方法、装置、设备及存储介质
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
CN117474817B (zh) 对合成连续图像进行内容一致化的方法
CN113936243A (zh) 一种离散表征的视频行为识别系统及方法
CN111898614A (zh) 神经网络系统以及图像信号、数据处理的方法
Ji et al. Semantic segmentation based on spatial pyramid pooling and multi-layer feature fusion
Ou et al. Semantic segmentation based on double pyramid network with improved global attention mechanism
CN111723934A (zh) 图像处理方法及系统、电子设备及存储介质
CN115035402B (zh) 一种用于土地覆盖分类问题的多级特征聚合系统及方法
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
CN116152710A (zh) 一种基于跨帧实例关联的视频实例分割方法
CN113450313B (zh) 一种基于区域对比学习的图像显著性可视化方法
CN114898227A (zh) 一种云图分割方法
Gao et al. Mixed entropy model enhanced residual attention network for remote sensing image compression
CN112926665A (zh) 一种基于领域自适应的文本行识别系统以及使用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant