CN114154016B - 基于目标空间语义对齐的视频描述方法 - Google Patents
基于目标空间语义对齐的视频描述方法 Download PDFInfo
- Publication number
- CN114154016B CN114154016B CN202111404350.0A CN202111404350A CN114154016B CN 114154016 B CN114154016 B CN 114154016B CN 202111404350 A CN202111404350 A CN 202111404350A CN 114154016 B CN114154016 B CN 114154016B
- Authority
- CN
- China
- Prior art keywords
- target
- word
- video
- vector
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于目标空间语义对齐的视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是视觉内容理解与分析领域,涉及一种基于目标空间语义对齐的视频描述方法。
背景技术
在互联网+2.0时代,人、机、物均由网络和边缘设备紧密联系在一起,信息传递至关重要,视频作为占有量与日俱增的多媒体数据形态,包含着比文本图像更为丰富的视觉特征。准确理解视频内容成为诸如视频监控、自动驾驶、视障人群导航等各类实际应用的迫切需求,用人类易于理解的自然语言描述视频内容是视觉理解的重要研究方向,称之为视频描述。
视频描述任务是用一句或一段符合语法规范的自然语句对视频内容进行描述,从技术上颇具挑战性。其中关键的技术问题是如何利用视觉外观特征和运动特征,并刻画视频帧中不同目标空间关系及其与描述单词的映射关系,从而生成更符合真实视频内容的自然语句。
目前,主流的视频描述方法大部分采用编码器-解码器(Encoder-decoder)框架。其中,编码器一般采用卷积神经网络(CNN:Convolutional Neural Network)和卷积三维神经网络(C3D:Convolutional 3D Neural Network)分别获取视频的外观特征和运动特征;解码器一般采用长短时记忆网络(LSTM:Long-Short Time Memory)用于解码视频特征生成对应的描述语句。众所周知,视频数据中往往存在某些冗余片段,对于视频中的整体人物事件描述并无益处。现有基于卷积神经网络的编码器无法过滤此类冗余片段,难以实现对与人物事件直接关联片段的重点关注。而视觉理解领域广泛应用的注意力机制(Attention)作为一种权重调整策略能用于实现对某些感兴趣视频片段的关注,因此可被用于构建视频描述模型;作为注意力的改进版本,转换器(Transformer)的自注意力(Self-attention)和多头注意力(Multi-head Attention)模块能有效捕获视频帧之间的时序关系,并将这种关系映射到描述语句中,有利于生成能准确描述事件内容及其时序先后关系的语句。
上述视频描述方法主要存在以下不足:(1)提取特征时只考虑视频的二维静态特征和三维动态特征,没有充分考虑视频中目标物体之间的关系,往往会导致对不同目标间关系进行描述的语句出现语义错乱,如将两个毫无关联的目标词语进行组合;(2)当利用注意力机制时,往往考虑单词与视频帧的对应关系,而忽略了单词与视频帧的目标物体的对应关系,导致生成语句出现目标物体无关的描述;(3)传统注意力机制的时间和空间复杂度过高,与视频帧数量成二次正比,难以用于实时性较高的实际任务中。基于以上考虑,迫切需要一种既能有效捕获视频帧目标关系又能降低时空复杂度的视频描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提出了一种基于目标空间语义对齐的视频描述方法,通过刻画目标边缘的邻接关系反映视频帧中不同目标的空间关系;并利用随机注意力机制以线性时空复杂度实现单词-视频帧以及单词-视频目标之间的语义对齐,最终能快速生成自然流畅的视频描述语句。
本发明方法获取含有描述语句的视频数据集合后,依次进行如下操作:
步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;
步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;
步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词-视频帧对齐和单词-视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;
步骤(4).将注意力特征向量输入注意力-语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;
步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。
进一步,步骤(1)具体是:
(1-1).对视频均匀采样N个视频帧,获得帧序列集合其中三维张量xi为第i帧图像,表示实数域,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热编码其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;
(1-2).利用残差网络提取视频的外观特征向量集合其中表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络提取视频的运动特征向量集合其中表示第i-1帧至第i+1帧提取的运动特征向量,m表示运动,表示运动特征的通道维度;
(1-4).对于视频帧xi,利用掩膜区域卷积神经网络进行目标检测,获取第i个视频帧中的目标特征向量集合和目标掩膜集合Gi={gi,j|0≤j≤M,gi,j∈0,1H×W},oi,j表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,r表示目标特征向量的维度大小,gi,j表示第i个视频帧的第j个目标的掩膜。
又进一步,步骤(2)具体是:
(2-1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;首先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即其中表示第i帧中第q个目标中的第ω个像素点与第i帧中第w个目标中的第σ个像素点之间的距离小于ψ,ψ为正实数,||·||2为L2范数;
(2-2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,表示当两个目标匹配时为1,否则为0;将目标对匹配数归一化处理,获得归一化目标对匹配得分
(2-3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度所述的共享边界长度是指两个目标之间相邻像素点的个数,其中用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长Τ(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度与目标周长计算目标对共边缘率即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率归一化处理,得到归一化目标对共边缘率得分
再进一步,步骤(3)具体是:
(3-1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词-视频帧和单词-视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;
(3-2).构建单词选择子模块,具体是:
①首先输入生成的单词组集合t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词作为历史单词,对其进行词嵌入编码,得到历史单词嵌入矩阵表示对单词yt进行词嵌入编码,为可学习矩阵,l表示词向量的长度,T表示转置;
②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft-1]T,使用点积注意力方法获取第t时间步的单词注意力矩阵softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;
④将单词相似度集合{α1,t,...,αp,t,...,αt-1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集表示第t时间步加入候选集中的第个历史单词嵌入向量;
(3-3).构建随机注意力子模块,具体是:
①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi:
③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第个历史单词的单词-视频帧对齐特征向量其中,表示外积,为可学习参数矩阵;
(3-4).构建目标随机注意力子模块,具体是:
①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量使用加性注意力方法计算关系得分表示第t时间步时第个历史单词与第i个视频帧之间的关系得分,其中分别是可学习的参数矩阵,为可学习的参数向量,为可学习的参数矩阵的第一个维度;
②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合
④在第t时间步时,利用随机目标邻接关系特征向量历史单词的随机单词特征向量和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第个历史单词与第i个视频帧的单词-视频帧目标对齐特征向量其中,为可学习参数矩阵;
更进一步,步骤(4)具体是:
(4-1).构造注意力-语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第个历史单词的注意力特征向量将所有的历史单词的注意力特征相加得到注意力语义对齐向量
(4-2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量和第t-1时间步的时序注意力隐藏向量输入长短时记忆网络,输出为时序注意力特征γ表示注意力隐藏向量维度大小,Attn表示注意力;
(4-3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量其中表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量并将其加入历史嵌入矩阵Rt=[f1,f2,...,ft-1]T得到
还进一步,步骤(5)的具体是:
(5-1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力-语言记忆模块;
(5-2).输入新视频均匀采样N个视频帧后得到首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1;
(5-3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。
本发明提出了一种目标空间语义对齐的视频描述方法,该方法具有以下几个特点:1)将目标关系引入视频描述方法,提出利用目标对匹配数和目标对共边缘率表示不同目标空间邻接关系,2)在单词与视频帧对齐的基础上提出单词与目标之间的对齐,提高生成描述语句的准确性;3)通过随机注意力机制计算单词-视频帧和单词-视频目标之间的注意力权重,将二次复杂度降低为线性复杂度。
本发明适用于目标关系复杂同时时序较长的视描述任务,有益效果包括:1)利用目标对匹配数和目标共边缘率获取目标空间邻接关系,增加生成描述语句对目标描述的准确性;2)利用语义对齐模块,实现单词-视频帧和单词-视频目标之间的对应,从而缩小生成语句与视频内容之间的语义差异;3)利用随机特征注意力方式,引入核函数思想,将现有注意力方法的复杂度和序列长度呈平方的关系,降低到呈线性关系,显著提高了模型运行效率。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种基于目标空间语义对齐的视频描述方法,首先对视频进行均匀采样,提取其视频特征向量、目标特征向量和掩膜集合;然后将视频掩膜集合输入目标空间邻接关系模块,该模块能获得目标邻接关系矩阵;利用目标邻接关系矩阵与目标特征向量共同构建目标邻接关系特征,同时利用单词选择模块得到单词候选集;将目标邻接关系特征向量、视频特征向量和候选单词集共同输入目标语义对齐模块,实现语义对齐;得到语义对齐向量后输入注意力-语言记忆模块,实现最终语句的生成。该方法可以不仅捕获目标空间关系,而且实现单词-视频帧和单词-视频目标之间的对齐,从而能生成准确的描述语句。具体是获取含有描述语句的视频数据集合后,进行如下操作:
步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;具体是:
(1-1).对视频均匀采样N个视频帧,获得帧序列集合其中三维张量xi为第i帧图像,表示实数域,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热(One-hot)编码其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;
(1-2).利用残差网络提取视频的外观特征向量集合其中表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络(C3D)提取视频的运动特征向量集合其中表示第i-1帧至第i+1帧提取的运动特征向量,m表示运动,表示运动特征的通道维度;
(1-4).对于视频帧xi,利用掩膜区域卷积神经网络(Mask R-CNN:Mask Region-based Convolutional Neural Network)进行目标检测,获取第i个视频帧中的目标特征向量集合和目标掩膜集合oi,j表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,r表示目标特征向量的维度大小,gi,j表示第i个视频帧的第j个目标的掩膜。
步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;具体是:
(2-1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即其中表示第i帧中第q个目标中的第ω个像素点与第i帧中第w个目标中的第σ个像素点之间的距离小于ψ,ψ为正实数,·||2为L2范数;
(2-2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,表示当两个目标匹配时为1,否则为0;将目标对匹配数归一化处理,获得归一化目标对匹配得分
(2-3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度所述的共享边界长度是指两个目标之间相邻像素点的个数,其中用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长Τ(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度与目标周长计算目标对共边缘率即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率归一化处理,得到归一化目标对共边缘率得分
步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词-视频帧对齐和单词-视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;具体是:
(3-1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词-视频帧和单词-视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;
(3-2).构建单词选择子模块,具体是:
①首先输入生成的单词组集合t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词称为历史单词并将对其进行词嵌入编码得到历史单词嵌入矩阵表示对单词yt进行词嵌入编码,为可学习矩阵,l表示词向量的长度,T表示转置;
②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft-1]T,使用点积注意力方法获取第t时间步的单词注意力矩阵softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;
④为减少历史单词重复,将单词相似度集合{α1,t,...,αp,t,...,αt-1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集表示第t时间步加入候选集中的第个历史单词嵌入向量;
(3-3).构建随机注意力子模块,具体是:
①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi:
③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第个历史单词的单词-视频帧对齐特征向量其中,表示外积,为可学习参数矩阵;
(3-4).构建目标随机注意力子模块,具体是:
①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量使用加性注意力方法计算关系得分表示第t时间步时第个历史单词与第i个视频帧之间的关系得分,其中分别是可学习的参数矩阵,为可学习的参数向量,为可学习的参数矩阵的第一个维度;
②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合
④在第t时间步时,利用随机目标邻接关系特征向量历史单词的随机单词特征向量和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第个历史单词与第i个视频帧的单词-视频帧目标对齐特征向量其中,为可学习参数矩阵;
步骤(4).将注意力特征向量输入注意力-语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;具体是:
(4-1).构造注意力-语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第个历史单词的注意力特征向量将所有的历史单词的注意力特征相加得到注意力语义对齐向量
(4-2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量和第t-1时间步的时序注意力隐藏向量输入长短时记忆网络(LSTM:Long-ShortTerm Memory),输出为时序注意力特征γ表示注意力隐藏向量维度大小,Attn表示注意力;
(4-3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量其中表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量并将其加入历史嵌入矩阵Rt=[f1,f2,...,ft-1]T得到
步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句;具体是:
(5-1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力-语言记忆模块;
(5-2).输入新视频均匀采样N个视频帧后得到首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1;
(5-3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。
Claims (5)
1.基于目标空间语义对齐的视频描述方法,其特征在于,该方法首先获取包含描述语句的视频数据集合,然后进行如下操作:
步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;
步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;
步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词-视频帧对齐和单词-视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;具体是:
(3-1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词-视频帧和单词-视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;
(3-2).构建单词选择子模块,具体是:
①首先输入生成的单词组集合 表示实数域,t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词作为历史单词,对其进行词嵌入编码,得到历史单词嵌入矩阵 表示对单词yt进行词嵌入编码,为可学习矩阵,l表示词向量的长度,T表示转置;
②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft-1]T,使用点积注意力方法获取第t时间步的单词注意力矩阵softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;
④将单词相似度集合{α1,t,...,αp,t,...,αt-1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集 表示第t时间步加入候选集中的第个历史单词嵌入向量;
(3-3).构建随机注意力子模块,具体是:
①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi:
③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第个历史单词的单词-视频帧对齐特征向量 其中,表示外积,为可学习参数矩阵;
(3-4).构建目标随机注意力子模块,具体是:
①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量使用加性注意力方法计算关系得分 表示第t时间步时第个历史单词与第i个视频帧之间的关系得分,其中分别是可学习的参数矩阵,为可学习的参数向量,为可学习的参数矩阵的第一个维度;
②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合
④在第t时间步时,利用随机目标邻接关系特征向量历史单词的随机单词特征向量和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第个历史单词与第i个视频帧的单词-视频帧目标对齐特征向量
步骤(4).将注意力特征向量输入注意力-语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;
步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。
2.如权利要求1所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(1)具体是:
(1-1).对视频均匀采样N个视频帧,获得帧序列集合其中三维张量xi为第i帧图像,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热编码其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;
(1-2).利用残差网络提取视频的外观特征向量集合其中表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络提取视频的运动特征向量集合其中表示第i-1帧至第i+1帧提取的运动特征向量,m表示运动,表示运动特征的通道维度;
3.如权利要求2所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(2)具体是:
(2-1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;首先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即其中表示第i帧中第q个目标中的第ω个像素点与第i帧中第w个目标中的第σ个像素点之间的距离小于ψ,ψ为正实数;
(2-2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,表示当两个目标匹配时为1,否则为0;将目标对匹配数归一化处理,获得归一化目标对匹配得分
(2-3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度所述的共享边界长度是指两个目标之间相邻像素点的个数,其中用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长T(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度与目标周长计算目标对共边缘率即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率归一化处理,得到归一化目标对共边缘率得分
4.如权利要求3所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(4)具体是:
(4-1).构造注意力-语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第个历史单词的注意力特征向量将所有的历史单词的注意力特征相加得到注意力语义对齐向量
(4-2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量和第t-1时间步的时序注意力隐藏向量输入长短时记忆网络,输出为时序注意力特征γ表示注意力隐藏向量维度大小,Attn表示注意力;
(4-3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量其中表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量并将其加入历史嵌入矩阵Rt=[f1,f2,...,ft-1]T得到
5.如权利要求4所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(5)的具体是:
(5-1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力-语言记忆模块;
(5-2).输入新视频均匀采样N个视频帧后得到首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量 分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1;
(5-3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111404350.0A CN114154016B (zh) | 2021-11-24 | 2021-11-24 | 基于目标空间语义对齐的视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111404350.0A CN114154016B (zh) | 2021-11-24 | 2021-11-24 | 基于目标空间语义对齐的视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154016A CN114154016A (zh) | 2022-03-08 |
CN114154016B true CN114154016B (zh) | 2022-05-31 |
Family
ID=80457682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111404350.0A Active CN114154016B (zh) | 2021-11-24 | 2021-11-24 | 基于目标空间语义对齐的视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154016B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661953B (zh) * | 2022-03-18 | 2023-05-16 | 北京百度网讯科技有限公司 | 视频描述生成方法、装置、设备以及存储介质 |
CN114511813B (zh) * | 2022-04-20 | 2022-06-28 | 天津市城市规划设计研究总院有限公司 | 视频语义描述方法及装置 |
CN117253177B (zh) * | 2023-11-20 | 2024-04-05 | 之江实验室 | 一种动作视频分类方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111488807A (zh) * | 2020-03-29 | 2020-08-04 | 复旦大学 | 基于图卷积网络的视频描述生成系统 |
CN113420179A (zh) * | 2021-06-24 | 2021-09-21 | 杭州电子科技大学 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
-
2021
- 2021-11-24 CN CN202111404350.0A patent/CN114154016B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111488807A (zh) * | 2020-03-29 | 2020-08-04 | 复旦大学 | 基于图卷积网络的视频描述生成系统 |
CN113420179A (zh) * | 2021-06-24 | 2021-09-21 | 杭州电子科技大学 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
Non-Patent Citations (2)
Title |
---|
Sequence level semantics aggregation for video object detection;Wu H etc.;《Proceedings of the IEEE/CVF International Conference on Computer Vision》;20191231;9217-9225 * |
基于图卷积注意力网络的视频摘要方法;李平等;《Frontiers of Information Technology & Electronic Engineering》;20210630;第22卷(第6期);902-914 * |
Also Published As
Publication number | Publication date |
---|---|
CN114154016A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114154016B (zh) | 基于目标空间语义对齐的视频描述方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
Li et al. | Truncation cross entropy loss for remote sensing image captioning | |
CN110909673B (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN106960206A (zh) | 字符识别方法和字符识别系统 | |
CN110399850A (zh) | 一种基于深度神经网络的连续手语识别方法 | |
US11461638B2 (en) | Figure captioning system and related methods | |
Li et al. | Recurrent attention and semantic gate for remote sensing image captioning | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN114998673B (zh) | 一种基于本地自注意力机制的大坝缺陷时序图像描述方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN115116066A (zh) | 一种基于字符距离感知的场景文本识别方法 | |
CN116682144B (zh) | 一种基于多层次跨模态差异调和的多模态行人重识别方法 | |
Zhang et al. | Image caption generation with adaptive transformer | |
CN114973136A (zh) | 一种极端条件下场景图像识别方法 | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
Peng et al. | Image to LaTeX with graph neural network for mathematical formula recognition | |
CN114913342A (zh) | 融合事件和图像的运动模糊图像线段检测方法及系统 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN113554040B (zh) | 一种基于条件生成对抗网络的图像描述方法、装置设备 | |
Wang et al. | Scene uyghur recognition with embedded coordinate attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |