CN114154016B - 基于目标空间语义对齐的视频描述方法 - Google Patents

基于目标空间语义对齐的视频描述方法 Download PDF

Info

Publication number
CN114154016B
CN114154016B CN202111404350.0A CN202111404350A CN114154016B CN 114154016 B CN114154016 B CN 114154016B CN 202111404350 A CN202111404350 A CN 202111404350A CN 114154016 B CN114154016 B CN 114154016B
Authority
CN
China
Prior art keywords
target
word
video
vector
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111404350.0A
Other languages
English (en)
Other versions
CN114154016A (zh
Inventor
李平
王涛
李佳晖
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111404350.0A priority Critical patent/CN114154016B/zh
Publication of CN114154016A publication Critical patent/CN114154016A/zh
Application granted granted Critical
Publication of CN114154016B publication Critical patent/CN114154016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于目标空间语义对齐的视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。

Description

基于目标空间语义对齐的视频描述方法
技术领域
本发明属于计算机视觉技术领域,尤其是视觉内容理解与分析领域,涉及一种基于目标空间语义对齐的视频描述方法。
背景技术
在互联网+2.0时代,人、机、物均由网络和边缘设备紧密联系在一起,信息传递至关重要,视频作为占有量与日俱增的多媒体数据形态,包含着比文本图像更为丰富的视觉特征。准确理解视频内容成为诸如视频监控、自动驾驶、视障人群导航等各类实际应用的迫切需求,用人类易于理解的自然语言描述视频内容是视觉理解的重要研究方向,称之为视频描述。
视频描述任务是用一句或一段符合语法规范的自然语句对视频内容进行描述,从技术上颇具挑战性。其中关键的技术问题是如何利用视觉外观特征和运动特征,并刻画视频帧中不同目标空间关系及其与描述单词的映射关系,从而生成更符合真实视频内容的自然语句。
目前,主流的视频描述方法大部分采用编码器-解码器(Encoder-decoder)框架。其中,编码器一般采用卷积神经网络(CNN:Convolutional Neural Network)和卷积三维神经网络(C3D:Convolutional 3D Neural Network)分别获取视频的外观特征和运动特征;解码器一般采用长短时记忆网络(LSTM:Long-Short Time Memory)用于解码视频特征生成对应的描述语句。众所周知,视频数据中往往存在某些冗余片段,对于视频中的整体人物事件描述并无益处。现有基于卷积神经网络的编码器无法过滤此类冗余片段,难以实现对与人物事件直接关联片段的重点关注。而视觉理解领域广泛应用的注意力机制(Attention)作为一种权重调整策略能用于实现对某些感兴趣视频片段的关注,因此可被用于构建视频描述模型;作为注意力的改进版本,转换器(Transformer)的自注意力(Self-attention)和多头注意力(Multi-head Attention)模块能有效捕获视频帧之间的时序关系,并将这种关系映射到描述语句中,有利于生成能准确描述事件内容及其时序先后关系的语句。
上述视频描述方法主要存在以下不足:(1)提取特征时只考虑视频的二维静态特征和三维动态特征,没有充分考虑视频中目标物体之间的关系,往往会导致对不同目标间关系进行描述的语句出现语义错乱,如将两个毫无关联的目标词语进行组合;(2)当利用注意力机制时,往往考虑单词与视频帧的对应关系,而忽略了单词与视频帧的目标物体的对应关系,导致生成语句出现目标物体无关的描述;(3)传统注意力机制的时间和空间复杂度过高,与视频帧数量成二次正比,难以用于实时性较高的实际任务中。基于以上考虑,迫切需要一种既能有效捕获视频帧目标关系又能降低时空复杂度的视频描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提出了一种基于目标空间语义对齐的视频描述方法,通过刻画目标边缘的邻接关系反映视频帧中不同目标的空间关系;并利用随机注意力机制以线性时空复杂度实现单词-视频帧以及单词-视频目标之间的语义对齐,最终能快速生成自然流畅的视频描述语句。
本发明方法获取含有描述语句的视频数据集合后,依次进行如下操作:
步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;
步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;
步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词-视频帧对齐和单词-视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;
步骤(4).将注意力特征向量输入注意力-语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;
步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。
进一步,步骤(1)具体是:
(1-1).对视频均匀采样N个视频帧,获得帧序列集合
Figure BDA0003372227670000021
其中三维张量xi为第i帧图像,
Figure BDA0003372227670000022
表示实数域,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热编码
Figure BDA0003372227670000023
其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;
(1-2).利用残差网络提取视频的外观特征向量集合
Figure BDA0003372227670000024
其中
Figure BDA0003372227670000025
表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络提取视频的运动特征向量集合
Figure BDA0003372227670000031
其中
Figure BDA0003372227670000032
表示第i-1帧至第i+1帧提取的运动特征向量,m表示运动,
Figure BDA0003372227670000033
表示运动特征的通道维度;
(1-3).将Va中的外观特征向量
Figure BDA0003372227670000034
以及Vm中的运动特征向量
Figure BDA0003372227670000035
依次沿通道维度进行拼接,得到视频特征向量集合
Figure BDA0003372227670000036
其中vi表示为第i个视频帧特征向量,其通道维度大小
Figure BDA0003372227670000037
(1-4).对于视频帧xi,利用掩膜区域卷积神经网络进行目标检测,获取第i个视频帧中的目标特征向量集合
Figure BDA0003372227670000038
和目标掩膜集合Gi={gi,j|0≤j≤M,gi,j∈0,1H×W},oi,j表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,r表示目标特征向量的维度大小,gi,j表示第i个视频帧的第j个目标的掩膜。
又进一步,步骤(2)具体是:
(2-1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;首先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合
Figure BDA0003372227670000039
将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即
Figure BDA00033722276700000310
其中表示第i帧中第q个目标中的第ω个像素点
Figure BDA00033722276700000311
与第i帧中第w个目标中的第σ个像素点
Figure BDA00033722276700000312
之间的距离小于ψ,ψ为正实数,||·||2为L2范数;
(2-2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数
Figure BDA00033722276700000313
表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,
Figure BDA0003372227670000041
表示当两个目标匹配时为1,否则为0;将目标对匹配数
Figure BDA0003372227670000042
归一化处理,获得归一化目标对匹配得分
Figure BDA0003372227670000043
利用归一化目标对匹配得分
Figure BDA0003372227670000044
构建目标对匹配得分矩阵集合:
Figure BDA0003372227670000045
其中,第i个视频帧的目标对匹得分矩阵
Figure BDA0003372227670000046
其中归一化目标对匹配得分
Figure BDA0003372227670000047
为目标对匹得分矩阵
Figure BDA0003372227670000048
中第q行、第w列的元素,也即第i个视频帧中第q个目标和第w个目标在所有视频帧中的匹配次数的归一化得分;
(2-3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度
Figure BDA0003372227670000049
所述的共享边界长度是指两个目标之间相邻像素点的个数,其中
Figure BDA00033722276700000410
用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长
Figure BDA00033722276700000411
Τ(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度
Figure BDA00033722276700000412
与目标周长
Figure BDA00033722276700000413
计算目标对共边缘率
Figure BDA00033722276700000414
即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率
Figure BDA00033722276700000415
归一化处理,得到归一化目标对共边缘率得分
Figure BDA00033722276700000416
利用归一化目标对共边缘率得分
Figure BDA00033722276700000417
构建目标对共边缘率矩阵集合:
Figure BDA00033722276700000418
其中,第i个视频帧的目标对共边缘率矩阵
Figure BDA00033722276700000419
归一化目标对匹配得分
Figure BDA0003372227670000051
为目标对共边缘率矩阵
Figure BDA0003372227670000052
中第q行、第w列的元素,表示第i个视频帧中第q个目标和第w个目标在所有视频帧中的共边缘率的归一化得分;
(2-4).利用目标对共边缘率矩阵集合
Figure BDA0003372227670000053
与目标对匹配得分矩阵集合
Figure BDA0003372227670000054
获取目标邻接关系矩阵集合
Figure BDA0003372227670000055
其中,第i个视频帧的目标邻接关系矩阵
Figure BDA0003372227670000056
目标邻接关系矩阵Qi的元素为目标邻接关系得分ei,q,w
再进一步,步骤(3)具体是:
(3-1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词-视频帧和单词-视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;
(3-2).构建单词选择子模块,具体是:
①首先输入生成的单词组集合
Figure BDA0003372227670000057
t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,
Figure BDA0003372227670000058
表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词作为历史单词,对其进行词嵌入编码,得到历史单词嵌入矩阵
Figure BDA0003372227670000059
表示对单词yt进行词嵌入编码,
Figure BDA00033722276700000510
为可学习矩阵,l表示词向量的长度,T表示转置;
②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft-1]T,使用点积注意力方法获取第t时间步的单词注意力矩阵
Figure BDA00033722276700000511
softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;
③使用余弦相似度计算单词和单词之间的相关程度:第t个时间步中第p个单词与其他单词的相关程度
Figure BDA0003372227670000061
输出单词相似度集合{α1,t,...,αp,t,...,αt-1,t};
④将单词相似度集合{α1,t,...,αp,t,...,αt-1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集
Figure BDA0003372227670000062
表示第t时间步加入候选集中的第
Figure BDA0003372227670000063
个历史单词嵌入向量;
(3-3).构建随机注意力子模块,具体是:
①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi
Figure BDA0003372227670000064
其中,
Figure BDA0003372227670000065
为可学习参数向量,θ表示为可学习参数向量的数目,z表示正整数;
②然后利用第t时间步单词候选集Pt的历史单词嵌入向量
Figure BDA0003372227670000066
计算第t时间步第
Figure BDA0003372227670000067
个历史单词的随机单词特征向量
Figure BDA0003372227670000068
Figure BDA0003372227670000069
其中,
Figure BDA00033722276700000610
为可学习参数向量;
③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量
Figure BDA00033722276700000611
和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第
Figure BDA00033722276700000612
个历史单词的单词-视频帧对齐特征向量
Figure BDA00033722276700000613
其中,
Figure BDA00033722276700000614
表示外积,
Figure BDA00033722276700000615
为可学习参数矩阵;
(3-4).构建目标随机注意力子模块,具体是:
①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量
Figure BDA00033722276700000616
使用加性注意力方法计算关系得分
Figure BDA00033722276700000617
表示第t时间步时第
Figure BDA0003372227670000071
个历史单词与第i个视频帧之间的关系得分,其中
Figure BDA0003372227670000072
分别是可学习的参数矩阵,
Figure BDA0003372227670000073
为可学习的参数向量,
Figure BDA0003372227670000074
为可学习的参数矩阵的第一个维度;
②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量
Figure BDA0003372227670000075
其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合
Figure BDA0003372227670000076
③利用第i帧中第q个目标的目标邻接关系特征向量ci,q,计算第i帧中第q个目标的随机目标邻接关系特征向量
Figure BDA0003372227670000077
Figure BDA0003372227670000078
其中,
Figure BDA0003372227670000079
为可学习参数向量;
④在第t时间步时,利用随机目标邻接关系特征向量
Figure BDA00033722276700000710
历史单词的随机单词特征向量
Figure BDA00033722276700000711
和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第
Figure BDA00033722276700000712
个历史单词与第i个视频帧的单词-视频帧目标对齐特征向量
Figure BDA00033722276700000713
其中,
Figure BDA00033722276700000714
为可学习参数矩阵;
⑤利用关系得分
Figure BDA00033722276700000715
和单词-视频帧目标对齐特征向量
Figure BDA00033722276700000716
计算得到第t时间步第
Figure BDA00033722276700000717
个历史单词的单词-视频目标对齐特征向量
Figure BDA00033722276700000718
(3-5).最后将单词-视频帧对齐特征向量
Figure BDA00033722276700000719
单词-视频目标对齐特征向量
Figure BDA00033722276700000720
和历史单词嵌入向量
Figure BDA00033722276700000721
依次在通道上拼接,得到第
Figure BDA00033722276700000722
个历史单词的注意力特征向量表示
Figure BDA00033722276700000723
更进一步,步骤(4)具体是:
(4-1).构造注意力-语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第
Figure BDA0003372227670000081
个历史单词的注意力特征向量
Figure BDA0003372227670000082
将所有的历史单词的注意力特征相加得到注意力语义对齐向量
Figure BDA0003372227670000083
(4-2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量
Figure BDA0003372227670000084
和第t-1时间步的时序注意力隐藏向量
Figure BDA0003372227670000085
输入长短时记忆网络,输出为时序注意力特征
Figure BDA0003372227670000086
γ表示注意力隐藏向量维度大小,Attn表示注意力;
将第t时间步的时序注意力特征
Figure BDA0003372227670000087
第t-1时间步生成的历史单词嵌入向量ft-1和时序语言隐藏向量
Figure BDA0003372227670000088
输入长短时记忆网络,输出为时序语言特征
Figure BDA0003372227670000089
上标Lang表示语言;
(4-3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量
Figure BDA00033722276700000810
其中
Figure BDA00033722276700000811
表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量
Figure BDA00033722276700000812
并将其加入历史嵌入矩阵Rt=[f1,f2,...,ft-1]T得到
Figure BDA00033722276700000813
(4-4).针对真实的文本描述语句B,历史单词嵌入矩阵Rt+1,计算两者的交叉熵损失
Figure BDA00033722276700000814
其中
Figure BDA00033722276700000815
表示独热编码。
还进一步,步骤(5)的具体是:
(5-1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力-语言记忆模块;
(5-2).输入新视频均匀采样N个视频帧后得到
Figure BDA00033722276700000816
首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量
Figure BDA00033722276700000817
分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1
(5-3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。
本发明提出了一种目标空间语义对齐的视频描述方法,该方法具有以下几个特点:1)将目标关系引入视频描述方法,提出利用目标对匹配数和目标对共边缘率表示不同目标空间邻接关系,2)在单词与视频帧对齐的基础上提出单词与目标之间的对齐,提高生成描述语句的准确性;3)通过随机注意力机制计算单词-视频帧和单词-视频目标之间的注意力权重,将二次复杂度降低为线性复杂度。
本发明适用于目标关系复杂同时时序较长的视描述任务,有益效果包括:1)利用目标对匹配数和目标共边缘率获取目标空间邻接关系,增加生成描述语句对目标描述的准确性;2)利用语义对齐模块,实现单词-视频帧和单词-视频目标之间的对应,从而缩小生成语句与视频内容之间的语义差异;3)利用随机特征注意力方式,引入核函数思想,将现有注意力方法的复杂度和序列长度呈平方的关系,降低到呈线性关系,显著提高了模型运行效率。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种基于目标空间语义对齐的视频描述方法,首先对视频进行均匀采样,提取其视频特征向量、目标特征向量和掩膜集合;然后将视频掩膜集合输入目标空间邻接关系模块,该模块能获得目标邻接关系矩阵;利用目标邻接关系矩阵与目标特征向量共同构建目标邻接关系特征,同时利用单词选择模块得到单词候选集;将目标邻接关系特征向量、视频特征向量和候选单词集共同输入目标语义对齐模块,实现语义对齐;得到语义对齐向量后输入注意力-语言记忆模块,实现最终语句的生成。该方法可以不仅捕获目标空间关系,而且实现单词-视频帧和单词-视频目标之间的对齐,从而能生成准确的描述语句。具体是获取含有描述语句的视频数据集合后,进行如下操作:
步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;具体是:
(1-1).对视频均匀采样N个视频帧,获得帧序列集合
Figure BDA0003372227670000091
其中三维张量xi为第i帧图像,
Figure BDA0003372227670000092
表示实数域,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热(One-hot)编码
Figure BDA0003372227670000101
其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;
(1-2).利用残差网络提取视频的外观特征向量集合
Figure BDA0003372227670000102
其中
Figure BDA0003372227670000103
表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络(C3D)提取视频的运动特征向量集合
Figure BDA0003372227670000104
其中
Figure BDA0003372227670000105
表示第i-1帧至第i+1帧提取的运动特征向量,m表示运动,
Figure BDA0003372227670000106
表示运动特征的通道维度;
(1-3).将Va中的外观特征向量
Figure BDA0003372227670000107
以及Vm中的运动特征向量
Figure BDA0003372227670000108
依次沿通道维度进行拼接,得到视频特征向量集合
Figure BDA0003372227670000109
其中vi表示为第i个视频帧特征向量,其通道维度大小
Figure BDA00033722276700001010
(1-4).对于视频帧xi,利用掩膜区域卷积神经网络(Mask R-CNN:Mask Region-based Convolutional Neural Network)进行目标检测,获取第i个视频帧中的目标特征向量集合
Figure BDA00033722276700001011
和目标掩膜集合
Figure BDA00033722276700001012
oi,j表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,r表示目标特征向量的维度大小,gi,j表示第i个视频帧的第j个目标的掩膜。
步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;具体是:
(2-1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合
Figure BDA00033722276700001013
将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即
Figure BDA00033722276700001014
其中表示第i帧中第q个目标中的第ω个像素点
Figure BDA00033722276700001015
与第i帧中第w个目标中的第σ个像素点
Figure BDA00033722276700001016
之间的距离小于ψ,ψ为正实数,·||2为L2范数;
(2-2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数
Figure BDA0003372227670000111
表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,
Figure BDA0003372227670000112
表示当两个目标匹配时为1,否则为0;将目标对匹配数
Figure BDA0003372227670000113
归一化处理,获得归一化目标对匹配得分
Figure BDA0003372227670000114
利用归一化目标对匹配得分
Figure BDA0003372227670000115
构建目标对匹配得分矩阵集合:
Figure BDA0003372227670000116
其中,第i个视频帧的目标对匹得分矩阵
Figure BDA0003372227670000117
其中归一化目标对匹配得分
Figure BDA0003372227670000118
为目标对匹得分矩阵
Figure BDA0003372227670000119
中第q行、第w列的元素,也即第i个视频帧中第q个目标和第w个目标在所有视频帧中的匹配次数的归一化得分;
(2-3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度
Figure BDA00033722276700001110
所述的共享边界长度是指两个目标之间相邻像素点的个数,其中
Figure BDA00033722276700001111
用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长
Figure BDA00033722276700001112
Τ(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度
Figure BDA00033722276700001113
与目标周长
Figure BDA00033722276700001114
计算目标对共边缘率
Figure BDA00033722276700001115
即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率
Figure BDA00033722276700001116
归一化处理,得到归一化目标对共边缘率得分
Figure BDA00033722276700001117
利用归一化目标对共边缘率得分
Figure BDA0003372227670000121
构建目标对共边缘率矩阵集合:
Figure BDA0003372227670000122
其中,第i个视频帧的目标对共边缘率矩阵
Figure BDA0003372227670000123
归一化目标对匹配得分
Figure BDA0003372227670000124
为目标对共边缘率矩阵
Figure BDA0003372227670000125
中第q行、第w列的元素,表示第i个视频帧中第q个目标和第w个目标在所有视频帧中的共边缘率的归一化得分;
(2-4).利用目标对共边缘率矩阵集合
Figure BDA0003372227670000126
与目标对匹配得分矩阵集合
Figure BDA0003372227670000127
获取目标邻接关系矩阵集合
Figure BDA0003372227670000128
其中,第i个视频帧的目标邻接关系矩阵
Figure BDA0003372227670000129
目标邻接关系矩阵Qi的元素为目标邻接关系得分ei,q,w
步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词-视频帧对齐和单词-视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;具体是:
(3-1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词-视频帧和单词-视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;
(3-2).构建单词选择子模块,具体是:
①首先输入生成的单词组集合
Figure BDA00033722276700001210
t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,
Figure BDA00033722276700001211
表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词称为历史单词并将对其进行词嵌入编码得到历史单词嵌入矩阵
Figure BDA00033722276700001212
表示对单词yt进行词嵌入编码,
Figure BDA00033722276700001213
为可学习矩阵,l表示词向量的长度,T表示转置;
②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft-1]T,使用点积注意力方法获取第t时间步的单词注意力矩阵
Figure BDA0003372227670000131
softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;
③使用余弦相似度计算单词和单词之间的相关程度:第t个时间步中第p个单词与其他单词的相关程度
Figure BDA0003372227670000132
输出单词相似度集合{α1,t,...,αp,t,...,αt-1,t};
④为减少历史单词重复,将单词相似度集合{α1,t,...,αp,t,...,αt-1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集
Figure BDA0003372227670000133
表示第t时间步加入候选集中的第
Figure BDA0003372227670000134
个历史单词嵌入向量;
(3-3).构建随机注意力子模块,具体是:
①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi
Figure BDA0003372227670000135
其中,
Figure BDA0003372227670000136
为可学习参数向量,θ表示为可学习参数向量的数目,z表示正整数;
②然后利用第t时间步单词候选集Pt的历史单词嵌入向量
Figure BDA0003372227670000137
计算第t时间步第
Figure BDA0003372227670000138
个历史单词的随机单词特征向量
Figure BDA0003372227670000139
Figure BDA00033722276700001310
其中,
Figure BDA00033722276700001311
为可学习参数向量;
③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量
Figure BDA00033722276700001312
和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第
Figure BDA00033722276700001313
个历史单词的单词-视频帧对齐特征向量
Figure BDA0003372227670000141
其中,
Figure BDA0003372227670000142
表示外积,
Figure BDA0003372227670000143
为可学习参数矩阵;
(3-4).构建目标随机注意力子模块,具体是:
①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量
Figure BDA0003372227670000144
使用加性注意力方法计算关系得分
Figure BDA0003372227670000145
表示第t时间步时第
Figure BDA0003372227670000146
个历史单词与第i个视频帧之间的关系得分,其中
Figure BDA0003372227670000147
分别是可学习的参数矩阵,
Figure BDA0003372227670000148
为可学习的参数向量,
Figure BDA0003372227670000149
为可学习的参数矩阵的第一个维度;
②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量
Figure BDA00033722276700001410
其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合
Figure BDA00033722276700001411
③利用第i帧中第q个目标的目标邻接关系特征向量ci,q,计算第i帧中第q个目标的随机目标邻接关系特征向量
Figure BDA00033722276700001412
Figure BDA00033722276700001413
其中,
Figure BDA00033722276700001414
为可学习参数向量;
④在第t时间步时,利用随机目标邻接关系特征向量
Figure BDA00033722276700001415
历史单词的随机单词特征向量
Figure BDA00033722276700001416
和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第
Figure BDA00033722276700001417
个历史单词与第i个视频帧的单词-视频帧目标对齐特征向量
Figure BDA00033722276700001418
其中,
Figure BDA00033722276700001419
为可学习参数矩阵;
⑤利用关系得分
Figure BDA0003372227670000151
和单词-视频帧目标对齐特征向量
Figure BDA0003372227670000152
计算得到第t时间步第
Figure BDA0003372227670000153
个历史单词的单词-视频目标对齐特征向量
Figure BDA0003372227670000154
(3-5).最后将单词-视频帧对齐特征向量
Figure BDA0003372227670000155
单词-视频目标对齐特征向量
Figure BDA0003372227670000156
和历史单词嵌入向量
Figure BDA0003372227670000157
依次在通道上拼接,得到第
Figure BDA0003372227670000158
个历史单词的注意力特征向量表示
Figure BDA0003372227670000159
步骤(4).将注意力特征向量输入注意力-语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;具体是:
(4-1).构造注意力-语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第
Figure BDA00033722276700001510
个历史单词的注意力特征向量
Figure BDA00033722276700001511
将所有的历史单词的注意力特征相加得到注意力语义对齐向量
Figure BDA00033722276700001512
(4-2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量
Figure BDA00033722276700001513
和第t-1时间步的时序注意力隐藏向量
Figure BDA00033722276700001514
输入长短时记忆网络(LSTM:Long-ShortTerm Memory),输出为时序注意力特征
Figure BDA00033722276700001515
γ表示注意力隐藏向量维度大小,Attn表示注意力;
再将第t时间步的时序注意力特征
Figure BDA00033722276700001516
第t-1时间步生成的历史单词嵌入向量ft-1和时序语言隐藏向量
Figure BDA00033722276700001517
输入长短时记忆网络,输出为时序语言特征
Figure BDA00033722276700001518
上标Lang表示语言;
(4-3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量
Figure BDA00033722276700001519
其中
Figure BDA00033722276700001520
表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量
Figure BDA00033722276700001521
并将其加入历史嵌入矩阵Rt=[f1,f2,...,ft-1]T得到
Figure BDA00033722276700001522
(4-4).针对真实的文本描述语句B,历史单词嵌入矩阵Rt+1,计算两者的交叉熵损失
Figure BDA00033722276700001523
其中
Figure BDA00033722276700001524
表示独热编码。
步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句;具体是:
(5-1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力-语言记忆模块;
(5-2).输入新视频均匀采样N个视频帧后得到
Figure BDA0003372227670000161
首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量
Figure BDA0003372227670000162
分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1
(5-3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。

Claims (5)

1.基于目标空间语义对齐的视频描述方法,其特征在于,该方法首先获取包含描述语句的视频数据集合,然后进行如下操作:
步骤(1).对视频均匀采样得到帧序列,利用二维和三维卷积网络,分别获取外观特征和运动特征向量,并通过掩膜区域卷积神经网络获取目标特征向量和目标掩膜集合;
步骤(2).构建目标空间邻接关系模块,输入为视频的目标掩膜集合,输出为目标邻接关系矩阵;
步骤(3).利用随机注意力机制构建目标语义对齐模块,实现单词候选集的单词-视频帧对齐和单词-视频目标对齐,输入为外观特征、运动特征以及目标特征向量和目标邻接关系矩阵,输出为注意力特征向量;具体是:
(3-1).目标语义对齐模块由单词选择子模块、视频随机注意力子模块和目标随机注意力子模块组成,用于实现单词-视频帧和单词-视频目标的对齐;单词选择子模块,该模块由一个点积注意力层和一个线性层组成,用于选择重复度较小的单词;视频随机注意力子模块由一个随机注意力层和多个线性层组成,用于实现单词和视频帧之间的对齐;目标随机注意力子模块由一个加性注意力层、一个随机注意力层和多个线性层组成,用于实现单词与视频帧中目标的对齐;
(3-2).构建单词选择子模块,具体是:
①首先输入生成的单词组集合
Figure FDA0003596238160000011
Figure FDA0003596238160000012
表示实数域,t表示时间步的索引,第t时间步生成第t个单词,yt表示第t时间步生成单词的独热编码向量,
Figure FDA0003596238160000013
表示生成描述语句长度,n表示词汇表单词的个数;将第t时间步之前生成的单词作为历史单词,对其进行词嵌入编码,得到历史单词嵌入矩阵
Figure FDA0003596238160000014
Figure FDA0003596238160000015
表示对单词yt进行词嵌入编码,
Figure FDA0003596238160000016
为可学习矩阵,l表示词向量的长度,T表示转置;
②然后利用历史单词嵌入矩阵Rt=[f1,f2,...,ft-1]T,使用点积注意力方法获取第t时间步的单词注意力矩阵
Figure FDA0003596238160000017
softmax为归一化指数函数,ap,t为第t时间步第p个单词与所有单词对应的注意力权重向量;Ft表示第t时间步的随机视频特征向量;
③使用余弦相似度计算单词和单词之间的相关程度:第t个时间步中第p个单词与其他单词的相关程度
Figure FDA0003596238160000021
输出单词相似度集合{α1,t,...,αp,t,...,αt-1,t},||·||2为L2范数;
④将单词相似度集合{α1,t,...,αp,t,...,αt-1,t}按照数值大小升序排列,取出前λ个元素的单词下标,并根据单词下标从历史单词嵌入矩阵Rt中取出对应单词向量,加入单词候选集
Figure FDA0003596238160000022
Figure FDA0003596238160000023
表示第t时间步加入候选集中的第
Figure FDA0003596238160000024
个历史单词嵌入向量;
(3-3).构建随机注意力子模块,具体是:
①首先输入第i帧视频特征向量vi,计算第i帧的随机视频特征向量Fi
Figure FDA0003596238160000025
其中,
Figure FDA0003596238160000026
为可学习参数向量,θ表示为可学习参数向量的数目,z表示正整数;
②然后利用第t时间步单词候选集Pt的历史单词嵌入向量
Figure FDA0003596238160000027
计算第t时间步第
Figure FDA0003596238160000028
个历史单词的随机单词特征向量
Figure FDA0003596238160000029
Figure FDA00035962381600000210
其中,
Figure FDA00035962381600000211
为可学习参数向量;
③最后在第t时间步时,利用视频帧的随机视频特征向量Fi,历史单词的随机单词特征向量
Figure FDA00035962381600000212
和所有视频帧的视频特征向量集合V,使用随机注意力机制,计算得到第t时间步时第
Figure FDA00035962381600000213
个历史单词的单词-视频帧对齐特征向量
Figure FDA00035962381600000214
Figure FDA00035962381600000215
其中,
Figure FDA00035962381600000216
表示外积,
Figure FDA00035962381600000217
为可学习参数矩阵;
(3-4).构建目标随机注意力子模块,具体是:
①首先输入第i个视频帧的视频特征向量vi和第t时间步的单词候选集Pt中的历史单词嵌入向量
Figure FDA0003596238160000031
使用加性注意力方法计算关系得分
Figure FDA0003596238160000032
Figure FDA0003596238160000033
表示第t时间步时第
Figure FDA0003596238160000034
个历史单词与第i个视频帧之间的关系得分,其中
Figure FDA0003596238160000035
分别是可学习的参数矩阵,
Figure FDA0003596238160000036
为可学习的参数向量,
Figure FDA0003596238160000037
为可学习的参数矩阵的第一个维度;
②然后利用第i帧的目标邻接关系矩阵Qi与目标特征向量集合Oi,计算目标邻接关系特征向量
Figure FDA0003596238160000038
其中ci,q表示第i个视频帧第q个目标的目标邻接关系特征向量,oi,w表式第i个视频帧中的第w个目标的目标特征向量,得到第i帧目标邻接关系特征向量集合
Figure FDA0003596238160000039
③利用第i帧中第q个目标的目标邻接关系特征向量ci,q,计算第i帧中第q个目标的随机目标邻接关系特征向量
Figure FDA00035962381600000310
Figure FDA00035962381600000311
其中,
Figure FDA00035962381600000312
为可学习参数向量,r表示目标特征向量的维度大小;
④在第t时间步时,利用随机目标邻接关系特征向量
Figure FDA00035962381600000313
历史单词的随机单词特征向量
Figure FDA00035962381600000314
和第i帧的目标邻接关系特征向量集合Ci,使用随机注意力机制计算得到第t时间步时第
Figure FDA00035962381600000315
个历史单词与第i个视频帧的单词-视频帧目标对齐特征向量
Figure FDA00035962381600000316
Figure FDA00035962381600000317
其中,
Figure FDA00035962381600000318
为可学习参数矩阵;
⑤利用关系得分
Figure FDA00035962381600000319
和单词-视频帧目标对齐特征向量
Figure FDA00035962381600000320
计算得到第t时间步第
Figure FDA00035962381600000321
个历史单词的单词-视频目标对齐特征向量
Figure FDA00035962381600000322
(3-5).最后将单词-视频帧对齐特征向量
Figure FDA00035962381600000323
单词-视频目标对齐特征向量
Figure FDA00035962381600000324
和历史单词嵌入向量
Figure FDA00035962381600000325
依次在通道上拼接,得到第
Figure FDA00035962381600000326
个历史单词的注意力特征向量表示
Figure FDA00035962381600000327
步骤(4).将注意力特征向量输入注意力-语言记忆模块,获得生成单词的概率分布,利用随机梯度下降算法优化视频描述模型直至收敛;
步骤(5).对新视频依次通过(1)~(4)得到生成语句的概率分布,利用贪心搜索算法得到相应的描述语句。
2.如权利要求1所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(1)具体是:
(1-1).对视频均匀采样N个视频帧,获得帧序列集合
Figure FDA0003596238160000041
其中三维张量xi为第i帧图像,C、H、W分别为图像的通道数、高度和宽度;视频描述语句对应的独热编码
Figure FDA0003596238160000042
其中,L为描述语句长度,bt为描述语句的第t个单词在词汇表中的独热向量,n表示词汇表的单词个数;
(1-2).利用残差网络提取视频的外观特征向量集合
Figure FDA0003596238160000043
其中
Figure FDA0003596238160000044
表示第i帧的外观特征向量,a表示外观,u表示外观特征向量的通道维度大小;利用卷积三维网络提取视频的运动特征向量集合
Figure FDA0003596238160000045
其中
Figure FDA0003596238160000046
表示第i-1帧至第i+1帧提取的运动特征向量,m表示运动,
Figure FDA0003596238160000047
表示运动特征的通道维度;
(1-3).将Va中的外观特征向量
Figure FDA0003596238160000048
以及Vm中的运动特征向量
Figure FDA0003596238160000049
依次沿通道维度进行拼接,得到视频特征向量集合
Figure FDA00035962381600000410
其中vi表示为第i个视频帧特征向量,其通道维度大小
Figure FDA00035962381600000411
(1-4).对于视频帧xi,利用掩膜区域卷积神经网络进行目标检测,获取第i个视频帧中的目标特征向量集合
Figure FDA00035962381600000412
和目标掩膜集合Gi={gi,j|0≤j≤M,gi,j∈0,1H×W},oi,j表示第i个视频帧的第j个目标的特征向量,M表示设定的视频帧目标数量,gi,j表示第i个视频帧的第j个目标的掩膜。
3.如权利要求2所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(2)具体是:
(2-1).目标空间邻接关系模块由目标对匹得分矩阵和目标对共边缘率矩阵组成,用于获取目标之间的空间关系;首先计算目标像素点的位置,具体是:输入目标掩膜集合Gi,获取目标像素点位置信息集合
Figure FDA0003596238160000051
将第i个视频帧中的第j个目标的掩膜gi,j中任意元素为1的空间位置下标ι和μ作为目标像素点位置信息集合di,j中的元素,定义相邻像素点为两个像素点之间的距离小于一个阈值即
Figure FDA0003596238160000052
其中表示第i帧中第q个目标中的第ω个像素点
Figure FDA0003596238160000053
与第i帧中第w个目标中的第σ个像素点
Figure FDA0003596238160000054
之间的距离小于ψ,ψ为正实数;
(2-2).构建目标对匹得分矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j,计算目标对匹配数
Figure FDA0003596238160000055
表示第i个视频帧中第q个目标和第w个目标在所有视频帧中匹配的次数,match表示匹配,其中di,q表示第i个视频帧中第q个目标中所有像素点的位置信息,di,w表示第i个视频帧中第w个目标中所有像素点的位置信息,匹配表示两个目标存在相邻像素点,
Figure FDA0003596238160000056
表示当两个目标匹配时为1,否则为0;将目标对匹配数
Figure FDA0003596238160000057
归一化处理,获得归一化目标对匹配得分
Figure FDA0003596238160000058
利用归一化目标对匹配得分
Figure FDA0003596238160000059
构建目标对匹配得分矩阵集合:
Figure FDA00035962381600000510
其中,第i个视频帧的目标对匹得分矩阵
Figure FDA00035962381600000511
其中归一化目标对匹配得分
Figure FDA00035962381600000512
为目标对匹得分矩阵
Figure FDA00035962381600000513
中第q行、第w列的元素,也即第i个视频帧中第q个目标和第w个目标在所有视频帧中的匹配次数的归一化得分;
(2-3).构建目标对共边缘率矩阵,具体是:利用视频帧的目标像素点位置信息集合di,j计算第i帧中的第q个目标和第w个目标的共享边界长度
Figure FDA00035962381600000514
所述的共享边界长度是指两个目标之间相邻像素点的个数,其中
Figure FDA00035962381600000515
用于计算两个目标的共同边界长度;输入第i个视频帧中的第q个目标的掩膜gi,q,计算第i帧中的第q个目标的周长
Figure FDA00035962381600000516
T(·)用于计算目标的周长,周长是指一个目标边界像素点的个数;输入共享边界长度
Figure FDA0003596238160000061
与目标周长
Figure FDA0003596238160000062
计算目标对共边缘率
Figure FDA0003596238160000063
即第i帧的第q个目标和第w个目标的共享边界长度除以在视频帧i中第q个目标的周长,edge表示边缘;对目标对共边缘率
Figure FDA0003596238160000064
归一化处理,得到归一化目标对共边缘率得分
Figure FDA0003596238160000065
利用归一化目标对共边缘率得分
Figure FDA0003596238160000066
构建目标对共边缘率矩阵集合:
Figure FDA0003596238160000067
其中,第i个视频帧的目标对共边缘率矩阵
Figure FDA0003596238160000068
归一化目标对匹配得分
Figure FDA0003596238160000069
为目标对共边缘率矩阵
Figure FDA00035962381600000610
中第q行、第w列的元素,表示第i个视频帧中第q个目标和第w个目标在所有视频帧中的共边缘率的归一化得分;
(2-4).利用目标对共边缘率矩阵集合
Figure FDA00035962381600000611
与目标对匹配得分矩阵集合
Figure FDA00035962381600000612
获取目标邻接关系矩阵集合
Figure FDA00035962381600000613
其中,第i个视频帧的目标邻接关系矩阵
Figure FDA00035962381600000614
目标邻接关系矩阵Qi的元素为目标邻接关系得分ei,q,w
4.如权利要求3所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(4)具体是:
(4-1).构造注意力-语言记忆模块,该模块由一个双层长短时记忆网络组成,用于获得生成单词的概率分布;首先获取注意力语言对齐向量,具体是:输入为第
Figure FDA00035962381600000615
个历史单词的注意力特征向量
Figure FDA00035962381600000616
将所有的历史单词的注意力特征相加得到注意力语义对齐向量
Figure FDA00035962381600000617
(4-2).构造双层长短时记忆网络,具体是:将第t时间步的注意力语义对齐向量
Figure FDA00035962381600000618
和第t-1时间步的时序注意力隐藏向量
Figure FDA00035962381600000619
输入长短时记忆网络,输出为时序注意力特征
Figure FDA0003596238160000071
γ表示注意力隐藏向量维度大小,Attn表示注意力;
将第t时间步的时序注意力特征
Figure FDA0003596238160000072
第t-1时间步生成的历史单词嵌入向量ft-1和时序语言隐藏向量
Figure FDA0003596238160000073
输入长短时记忆网络,输出为时序语言特征
Figure FDA0003596238160000074
上标Lang表示语言;
(4-3).利用全连接层及softmax函数计算第t时间步预测单词的独热编码向量yt的概率分布向量
Figure FDA0003596238160000075
其中
Figure FDA0003596238160000076
表示全连接层权重矩阵,计算yt对应的历史单词嵌入向量
Figure FDA0003596238160000077
并将其加入历史嵌入矩阵Rt=[f1,f2,...,ft-1]T得到
Figure FDA0003596238160000078
(4-4).针对真实的文本描述语句B,历史单词嵌入矩阵Rt+1,计算两者的交叉熵损失
Figure FDA0003596238160000079
其中
Figure FDA00035962381600000710
表示独热编码。
5.如权利要求4所述的基于目标空间语义对齐的视频描述方法,其特征在于,步骤(5)的具体是:
(5-1).利用随机梯度下降法通过最小化交叉熵损失函数,优化视频描述模型直至收敛,其中视频描述模型包含目标语义对齐模块和注意力-语言记忆模块;
(5-2).输入新视频均匀采样N个视频帧后得到
Figure FDA00035962381600000711
首先依次经过步骤(1)~(4)得到第一个单词的概率分布向量
Figure FDA00035962381600000712
Figure FDA00035962381600000713
分别表示第一个单词的概率分布向量,开始符的概率分布向量,通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为第一个生成的单词b′1
(5-3).重复步骤(3)~(4),最终获得描述语句{b′1,b′2,b′3,...,b′L'},其中b′t为第t个单词,L′为生成语句长度。
CN202111404350.0A 2021-11-24 2021-11-24 基于目标空间语义对齐的视频描述方法 Active CN114154016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111404350.0A CN114154016B (zh) 2021-11-24 2021-11-24 基于目标空间语义对齐的视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111404350.0A CN114154016B (zh) 2021-11-24 2021-11-24 基于目标空间语义对齐的视频描述方法

Publications (2)

Publication Number Publication Date
CN114154016A CN114154016A (zh) 2022-03-08
CN114154016B true CN114154016B (zh) 2022-05-31

Family

ID=80457682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111404350.0A Active CN114154016B (zh) 2021-11-24 2021-11-24 基于目标空间语义对齐的视频描述方法

Country Status (1)

Country Link
CN (1) CN114154016B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661953B (zh) * 2022-03-18 2023-05-16 北京百度网讯科技有限公司 视频描述生成方法、装置、设备以及存储介质
CN114511813B (zh) * 2022-04-20 2022-06-28 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
CN117253177B (zh) * 2023-11-20 2024-04-05 之江实验室 一种动作视频分类方法、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111325347A (zh) * 2020-02-19 2020-06-23 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN113420179A (zh) * 2021-06-24 2021-09-21 杭州电子科技大学 基于时序高斯混合空洞卷积的语义重构视频描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111325347A (zh) * 2020-02-19 2020-06-23 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN113420179A (zh) * 2021-06-24 2021-09-21 杭州电子科技大学 基于时序高斯混合空洞卷积的语义重构视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sequence level semantics aggregation for video object detection;Wu H etc.;《Proceedings of the IEEE/CVF International Conference on Computer Vision》;20191231;9217-9225 *
基于图卷积注意力网络的视频摘要方法;李平等;《Frontiers of Information Technology & Electronic Engineering》;20210630;第22卷(第6期);902-914 *

Also Published As

Publication number Publication date
CN114154016A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN114154016B (zh) 基于目标空间语义对齐的视频描述方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
Li et al. Truncation cross entropy loss for remote sensing image captioning
CN110909673B (zh) 一种基于自然语言描述的行人再识别方法
CN106960206A (zh) 字符识别方法和字符识别系统
CN110399850A (zh) 一种基于深度神经网络的连续手语识别方法
US11461638B2 (en) Figure captioning system and related methods
Li et al. Recurrent attention and semantic gate for remote sensing image captioning
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110390363A (zh) 一种图像描述方法
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN114998673B (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
CN116682144B (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
Zhang et al. Image caption generation with adaptive transformer
CN114973136A (zh) 一种极端条件下场景图像识别方法
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
Peng et al. Image to LaTeX with graph neural network for mathematical formula recognition
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及系统
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
Wang et al. Scene uyghur recognition with embedded coordinate attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant