CN108388900B - 基于多特征融合和时空注意力机制相结合的视频描述方法 - Google Patents
基于多特征融合和时空注意力机制相结合的视频描述方法 Download PDFInfo
- Publication number
- CN108388900B CN108388900B CN201810110287.1A CN201810110287A CN108388900B CN 108388900 B CN108388900 B CN 108388900B CN 201810110287 A CN201810110287 A CN 201810110287A CN 108388900 B CN108388900 B CN 108388900B
- Authority
- CN
- China
- Prior art keywords
- feature
- attention mechanism
- video
- time
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于多特征融合和时空注意力机制相结合的视频描述方法,首先对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作以及光流等特征,并将这些特征融合拼接成一个特征向量,然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,最后输入到单向长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。本发明对待描述视频分别提取了物体、场景以及运动特征,表征了视频的对象信息与对象之间的关系以及运动信息,同时考虑到视频在空间维度和时间维度上的变化,利用3D卷积特征进一步捕捉到视频流的运动信息。
Description
技术领域
本发明涉及视频描述、深度学习技术领域,特别涉及一种基于多特征融合和时空注意力机制相结合的视频描述方法。
背景技术
在移动互联网普及和大数据时代的背景下,互联网多媒体数据如图片、视频呈爆发式增长中,计算机视觉已成为当今的热门研究领域,以往完全依赖人工对图片、视频进行标注和描述的任务效率十分低,几乎不可能完成。因此,对于视频自动描述方法的研究具有十分高的应用价值和现实意义。
让机器能够高效自动地对视频做出描述,在视频检索、人机交互、智能安防、虚拟现实等领域也有着广泛的应用前景,这将进一步促进人们对视频的语义描述的研究。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于多特征融合和时空注意力机制相结合的视频描述方法,对待描述视频分别提取了物体、场景以及运动特征,表征了视频的对象信息与对象之间的关系以及运动信息,同时考虑到视频在空间维度和时间维度上的变化,利用3D卷积特征进一步捕捉到视频流的运动信息。
本发明的目的通过以下的技术方案实现:一种基于多特征融合和时空注意力机制相结合的视频描述方法,具体包括如下步骤:
S1、对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作、光流以及3D卷积特征;
S2、将上一步获得的多种特征融合拼接成一个特征向量;
S3、利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达;
S4、将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。
优选的,步骤S1中所述对待描述视频提取物体、场景、行为动作、光流以及3D卷积特征具体为:
S1.1、对于物体、场景和行为动作特征的提取步骤具体为:
S1.1.1、首先对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;
S1.1.2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;
S1.2、对于3D卷积特征的提取步骤具体为:
S1.2.1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能好于一定阈值的中间模型的参数;
S1.2.2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;
S1.3、对于光流特征的提取步骤具体为:
S1.3.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
S1.3.2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图;
S1.3.3、利用生成的光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
优选的,步骤S2中将上一步获得的多种特征融合拼接成一个特征向量的具体步骤如下:
S2.1、对步骤S1获得的物体、场景、动作、光流特征和3D卷积特征进行直接拼接,如果用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取这些特征的组合直接拼接得到的融合特征为Ffusion,则融合特征可表示为公式(1-1):
Ffusion=(F1,F2,…,Fm) (1-1)
S2.2、对拼接的多维特征向量进行主成分分析PCA降维,最终保留1024维特征向量。
优选的,步骤S3中利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,具体为:
S3.1、引入时空注意力机制可分为时间注意力机制和空间注意力机制,其具体步骤如下:
S3.1.1、用V表示特征向量,V={v1,v2,…,vn},具体地,时间注意力权重α可由公式(1-2)计算得到:
α(t)=softmax(Wia+bi) (1-4)
S3.1.2、用V表示特征向量,V={v1,v2,…,vn},具体地,空间注意力权重β可由公式(1-5)计算得到:
β(t)=softmax(Wi′b+bi′) (1-7)
S3.1.3、引入时空注意力机制可以有两种形式,分别是S-T和T-S;第一种形式S-T表示先引入空间注意力机制,而第二种形式T-S表示先引入时间注意力机制;S-T形式的计算过程可表示为公式(1-8):
X=f(V,α,β) (1-8)
同理,T-S形式的计算过程可表示为公式(1-9):
X=f(V,α,β) (1-9)
其中,fs,fc分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出,X表示引入时空注意力机制后最终得到的语义编码表达。
S3.2、双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码,在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达;
在计算隐藏层变量时有正向计算和反向计算两个过程,因此隐藏层变量Ht的生成需要保存两个值并将这两个值拼接起来;正向计算时,t时刻的隐藏层变量ht与t-1时刻下隐藏层变量ht-1和当前输入xt有关;反向计算时,t时刻的隐藏层变量ht与t+1时刻下隐藏层变量ht+1和当前输入xt有关,具体计算过程可表示为:
ht=f(W1xt+W3ht-1) (1-10)
ht′=f(W2xt+W4h′t+1) (1-11)
Ht=[ht,ht′] (1-12)
其中,W1,W2分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵,W3代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W4代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵。
优选的,步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,生成与所述视频对应的自然语言描述句子,前向传播过程具体为:
基于单向的长短时记忆网络模型的基本单元是LSTM神经单元,每个LSTM神经单元的前向传播过程可表示为:
it=σ(Wxixt+Wuiut+Whiht-1+bi) (1-13)
ft=σ(Wxfxt+Wufut+Whfht-1+bf) (1-14)
ot=σ(Wxoxt+Wuout+Whoht-1+bo) (1-15)
ct=ft*ct-1+it*gt (1-17)
其中,xt,ut,ht-1分别代表t时刻下的视觉特征输入,t时刻前生成的上下文信息输入和t-1时刻的lstm隐层变量,是sigmoid激活函数,是双曲正切激活函数;it,ft,ot,ct依次表示t时刻下输入门,记忆门,输出门和核心门对应的状态量;对于每个逻辑门,Wxi,Wxf,Wxo,Wxg依次表示输入门,记忆门,输出门和核心门与特征输入xt对应的权重转移矩阵,Wui,Wuf,Wuo,Wug依次表示输入门,记忆门,输出门和核心门与上下文输入ut对应的权重转移矩阵,Whi,Whf,Who,Whg依次表示输入门,记忆门,输出门和核心门在t-1时刻隐藏层变量ht-1对应的权重转移矩阵,bi,bf,bo,bg依次表示输入门,记忆门,输出门和核心门对应的偏置向量;
优选的,步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,生成与所述视频对应的自然语言描述句子,网络优化过程具体为:
在解码的阶段,网络会有信息的损失,因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下,最大化整个输出预测语句的对数似然函数;对于用参数θ和输出语句Y=(y1,y2,…,ym)表示的模型,参数优化目标可表示为:
其中,θ为参数,Y代表输出的预测语句,h为隐层表达,使用随机梯度下降法对目标函数进行优化,整个网络的误差通过反向传播算法在时间维度上累积传递。
优选的,步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,生成与所述视频对应的自然语言描述句子,描述语句生成过程具体为:
S4.1、采用softmax激活函数计算每个单词在词汇表V中的出现概率,可用公式(1-20)表示:
其中,y表示输出预测的单词,zt表示长短时记忆网络在t时刻的输出值,Wy表示该单词在词汇表中的权重值;
S4.2、在每个时刻的解码阶段,取softmax激活函数输出值中概率最大的单词,从而组成对应的视频描述语句。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用了多种特征的提取和融合,考虑到了视频在空间维度和时间维度上的变化,从物体、场景、动作、光流以及三维角度上分析视频流中出现的对象以及对象之间的关系等信息。
2、本发明引入了时空注意力机制,允许模型动态地把注意力集中在当前时刻预测单词时更关注的部分视频帧和图像内容区域。
3、本发明利用双向的长短时记忆网络模型作为特征编码器,能够在已知过去的上下文信息和预知未来的上下文信息的情况下,对当前时刻的视频流进行更符合语境的特征编码。
附图说明
图1是实施例方法的流程框架图。
图2是实施例所采用时空注意力机制示意图。
图3是实施例所采用的基于双向长短时记忆网络的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
一种基于多特征融合和时空注意力机制相结合的视频描述方法,对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作以及光流等特征,并将这些特征融合拼接成一个特征向量,然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,最后输入到单向长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。
图1为本方法的整体流程图,包括如下步骤:
(1)对待描述视频分别提取物体、场景、行为动作以及光流等特征,具体为:
对于物体、场景和行为动作特征的提取步骤具体为:
1、首先对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;
2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量。
对于3D卷积特征的提取步骤具体为:
1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能较好的中间模型的参数;
2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量。
对于光流特征的提取步骤具体为:
1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图;
3、利用生成的光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
将前面获得的多种特征融合拼接成一个特征向量的具体步骤如下:
S2.1、对获得的物体、场景、动作、光流特征和3D卷积特征进行直接拼接,如果用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取这些特征的组合直接拼接得到的融合特征为Ffusion,则融合特征可表示为公式(1-1):
Ffusion=(F1,F2,…,Fm) (1-1)
S2.2、由于通过网络的非线性映射关系生成对应的物体、场景、动作以及光流特征的向量维度为1024,3D卷积特征向量维度为512,因此将这些特征直接拼接起来特征向量维度为4608=1024*4+512,若直接输入到语言生成模型中计算量较大,故对这4608维特征向量进行主成分分析PCA降维,最终保留1024维特征向量。
(2)利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达。通过引入时空注意力机制,可以让解码器在生成当前时刻的单词输出过程中有选择性地把注意力聚焦在待描述视频的一帧或几帧图像,以及更关注图像中的某部分区域时,该部分特征在得到注意力机制的强调作用下能够更加突出,从而生成更精确的描述单词输出,这一步骤也可以理解为动态的特征提取机制。
S3.1、引入时空注意力机制可分为时间注意力机制和空间注意力机制,其具体步骤如下:
S3.1.1、引入时间注意力机制是为了让解码器在一次生成单词中能够仅聚焦在一小集合的视频帧,避免由于视频流持续时间较长时生成的描述单词之间语义重复或冲突的情况。注意力机制本质上是动态地对特征向量进行加权求和,实现为关键特征分配更大的权重,让模型的注意力更集中在这部分内容上。用V表示特征向量,V={v1,v2,…,vn}。具体地,时间注意力权重α可由公式(1-2)计算得到:
α(t)=softmax(Wia+bi) (1-4)
S3.1.2、引入空间注意力机制是为了让解码器在生成当前时刻的单词时能够让关注的图像区域部分受到强调,分配更大的权重,让模型的注意力更集中在该区域的内容。用V表示特征向量,V={v1,v2,…,vn}。具体地,空间注意力权重β可由公式(1-5)计算得到:
β(t)=softmax(Wi′b+bi′) (1-7)
如图2中给出了时空注意力机制的示意图,引入时空注意力机制可分为时间注意力机制和空间注意力机制,具体的接入形式也有两种,分别是S-T(Spatial-Temporal)和T-S(Temporal-Spatial)。第一种形式S-T表示先引入空间注意力机制,而第二种形式T-S表示先引入时间注意力机制。S-T形式的计算过程可表示为:
X=f(V,α,β) (1-8)
同理,T-S形式的计算过程可表示为:
X=f(V,α,β) (1-9)
其中,fs,fc分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出。X表示引入时空注意力机制后最终得到的语义编码表达。
S3.2、双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码,在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达。如图3中给出了基于双向长短时记忆网络的示意图。在计算隐藏层变量时有正向计算和反向计算两个过程,因此隐藏层变量Ht的生成需要保存两个值并将这两个值拼接起来;正向计算时,t时刻的隐藏层变量ht与t-1时刻下隐藏层变量ht-1和当前输入xt有关;反向计算时,t时刻的隐藏层变量ht与t+1时刻下隐藏层变量ht+1和当前输入xt有关,具体计算过程可表示为:
ht=f(W1xt+W3ht-1) (1-10)
ht′=f(W2xt+W4h′t+1) (1-11)
Ht=[ht,ht′] (1-12)
其中,W1,W2分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵,W3代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W4代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵。
(3)将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,生成与所述视频对应的自然语言描述句子,前向传播过程具体为:
基于单向的长短时记忆网络模型的基本单元是LSTM神经单元,一般地,每个LSTM神经单元的前向传播过程可表示为:
it=σ(Wxixt+Wuiut+Whiht-1+bi) (1-13)
ft=σ(Wxfxt+Wufut+Whfht-1+bf) (1-14)
ot=σ(Wxoxt+Wuout+Whoht-1+bo) (1-15)
ct=ft*ct-1+it*gt (1-17)
其中,xt,ut,ht-1分别代表t时刻下的视觉特征输入,t时刻前生成的上下文信息输入和t-1时刻的lstm隐层变量,是sigmoid激活函数,是双曲正切激活函数;it,ft,ot,ct依次表示t时刻下输入门,记忆门,输出门和核心门对应的状态量;对于每个逻辑门,Wxi,Wxf,Wxo,Wxg依次表示输入门,记忆门,输出门和核心门与特征输入xt对应的权重转移矩阵,Wui,Wuf,Wuo,Wug依次表示输入门,记忆门,输出门和核心门与上下文输入ut对应的权重转移矩阵,Whi,Whf,Who,Whg依次表示输入门,记忆门,输出门和核心门在t-1时刻隐藏层变量ht-1对应的权重转移矩阵,bi,bf,bo,bg依次表示输入门,记忆门,输出门和核心门对应的偏置向量。
在解码的阶段,网络会有信息的损失,因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下,最大化整个输出预测语句的对数似然函数;对于用参数θ和输出语句Y=(y1,y2,…,ym)表示的模型,参数优化目标可表示为:
其中,θ为参数,Y代表输出的预测语句,h为隐层表达,使用随机梯度下降法对目标函数进行优化,整个网络的误差通过反向传播算法在时间维度上累积传递。
最后生成描述语句的具体操作为:
1、采用softmax激活函数计算每个单词在词汇表V中的出现概率,可表示为:
其中,y表示输出预测的单词,zt表示长短时记忆网络在t时刻的输出值,Wy表示该单词在词汇表中的权重值。
2、在每个时刻的解码阶段,取softmax激活函数输出值中概率最大的单词,从而组成对应的视频描述语句。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,包括如下步骤:
S1、对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作、光流以及3D卷积特征;
S2、将上一步获得的多种特征融合拼接成一个特征向量;
S3、利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达;
S4、将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。
2.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S1中所述对待描述视频提取物体、场景、行为动作、光流以及3D卷积特征具体为:
S1.1、对于物体、场景和行为动作特征的提取步骤具体为:
S1.1.1、首先对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的多帧图像用于下一步作特征提取;
S1.1.2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;
S1.2、对于3D卷积特征的提取步骤具体为:
S1.2.1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能好于一定阈值的中间模型的参数;
S1.2.2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;
S1.3、对于光流特征的提取步骤具体为:
S1.3.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
S1.3.2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图;
S1.3.3、利用生成的光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
3.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S2中将上一步获得的多种特征融合拼接成一个特征向量的具体步骤如下:
S2.1、对步骤S1获得的物体、场景、动作、光流特征和3D卷积特征进行直接拼接,如果用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取这些特征的组合直接拼接得到的融合特征为Ffusion,则融合特征可表示为公式(1-1):
Ffusion=(F1,F2,…,Fm) (1-1)
S2.2、对拼接的多维特征向量进行主成分分析PCA降维,最终保留1024维特征向量。
4.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S3中利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,具体为:
S3.1、引入时空注意力机制分为时间注意力机制和空间注意力机制;
S3.2、双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码,在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达。
5.根据权利要求4所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,引入时空注意力机制可分为时间注意力机制和空间注意力机制,其具体步骤如下:
S3.1.1、用V表示特征向量,V={v1,v2,…,vn},具体地,时间注意力权重α可由公式(1-2)计算得到:
α(t)=softmax(Wia+bi) (1-4)
S3.1.2、用V表示特征向量,V={v1,v2,…,vn},具体地,空间注意力权重β可由公式(1-5)计算得到:
β(t)=softmax(Wi′b+bi′) (1-7)
S3.1.3、引入时空注意力机制可以有两种形式,分别是S-T和T-S;第一种形式S-T表示先引入空间注意力机制,而第二种形式T-S表示先引入时间注意力机制;S-T形式的计算过程可表示为公式(1-8):
X=f(V,α,β) (1-8)
同理,T-S形式的计算过程可表示为公式(1-9):
X=f(V,α,β) (1-9)
其中,fs,fc分别表示空间注意力机制作用于特征向量的函数输出和时间注意力机制作用于特征向量的函数输出,X表示引入时空注意力机制后最终得到的语义编码表达。
6.根据权利要求4所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S3.2中双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码,在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达;
在计算隐藏层变量时有正向计算和反向计算两个过程,因此隐藏层变量Ht的生成需要保存两个值并将这两个值拼接起来;正向计算时,t时刻的隐藏层变量ht与t-1时刻下隐藏层变量ht-1和当前输入xt有关;反向计算时,t时刻的隐藏层变量ht与t+1时刻下隐藏层变量ht+1和当前输入xt有关,具体计算过程可表示为:
ht=f(W1xt+W3ht-1) (1-10)
ht′=f(W2xt+W4h′t+1) (1-11)
Ht=[ht,ht′] (1-12)
其中,W1,W2分别代表正向计算时和反向计算时t时刻的隐藏层变量与当前输入变量的权重转移矩阵,W3代表正向计算时t时刻的隐藏层变量与t-1时刻的隐藏层变量的权重转移矩阵,W4代表反向计算时t时刻的隐藏层变量与t+1时刻的隐藏层变量的权重转移矩阵。
7.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,生成与所述视频对应的自然语言描述句子,前向传播过程具体为:
基于单向的长短时记忆网络模型的基本单元是LSTM神经单元,每个LSTM神经单元的前向传播过程可表示为:
it=σ(Wxixt+Wuiut+Whiht-1+bi) (1-13)
ft=σ(Wxfxt+Wufut+Whfht-1+bf) (1-14)
ot=σ(Wxoxt+Wuout+Whoht-1+bo) (1-15)
ct=ft*ct-1+it*gt (1-17)
其中,xt,ut,ht-1分别代表t时刻下的视觉特征输入,t时刻前生成的上下文信息输入和t-1时刻的lstm隐层变量,是sigmoid激活函数,是双曲正切激活函数;it,ft,ot,ct依次表示t时刻下输入门,记忆门,输出门和核心门对应的状态量;对于每个逻辑门,Wxi,Wxf,Wxo,Wxg依次表示输入门,记忆门,输出门和核心门与特征输入xt对应的权重转移矩阵,Wui,Wuf,Wuo,Wug依次表示输入门,记忆门,输出门和核心门与上下文输入ut对应的权重转移矩阵,Whi,Whf,Who,Whg依次表示输入门,记忆门,输出门和核心门在t-1时刻隐藏层变量ht-1对应的权重转移矩阵,bi,bf,bo,bg依次表示输入门,记忆门,输出门和核心门对应的偏置向量。
8.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S4中将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,生成与所述视频对应的自然语言描述句子,网络优化过程具体为:
在解码的阶段,网络会有信息的损失,因此模型参数训练和学习的目标是在给定隐层表达和上一时刻的输出预测的前提下,最大化整个输出预测语句的对数似然函数;对于用参数θ和输出语句Y=(y1,y2,…,ym)表示的模型,参数优化目标可表示为:
其中,θ为参数,Y代表输出的预测语句,h为隐层表达,使用随机梯度下降法对目标函数进行优化,整个网络的误差通过反向传播算法在时间维度上累积传递。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810110287.1A CN108388900B (zh) | 2018-02-05 | 2018-02-05 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810110287.1A CN108388900B (zh) | 2018-02-05 | 2018-02-05 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388900A CN108388900A (zh) | 2018-08-10 |
CN108388900B true CN108388900B (zh) | 2021-06-08 |
Family
ID=63075180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810110287.1A Active CN108388900B (zh) | 2018-02-05 | 2018-02-05 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388900B (zh) |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299657B (zh) * | 2018-08-14 | 2020-07-03 | 清华大学 | 基于语义注意力保留机制的群体行为识别方法及装置 |
CN109064507B (zh) * | 2018-08-21 | 2021-06-22 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN109190619A (zh) * | 2018-08-23 | 2019-01-11 | 重庆大学 | 一种基于目标掩膜的图像描述方法 |
CN109325911B (zh) * | 2018-08-27 | 2020-04-14 | 北京航空航天大学 | 一种基于注意力增强机制的空基铁轨检测方法 |
CN109101948B (zh) * | 2018-08-28 | 2021-06-04 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109446887B (zh) * | 2018-09-10 | 2022-03-25 | 易诚高科(大连)科技有限公司 | 一种针对图像质量主观评测的图像场景描述生成方法 |
CN109344288B (zh) * | 2018-09-19 | 2021-09-24 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109409499B (zh) * | 2018-09-20 | 2022-03-15 | 北京航空航天大学 | 一种基于深度学习和卡尔曼滤波修正的轨迹恢复方法 |
CN109460483B (zh) * | 2018-09-26 | 2021-05-04 | 北京理工大学 | 一种基于深度注意力机制的图片新闻封面自动选择方法 |
CN109359214A (zh) * | 2018-10-15 | 2019-02-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频描述生成方法、存储介质及终端设备 |
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
CN109508642B (zh) * | 2018-10-17 | 2021-08-17 | 杭州电子科技大学 | 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 |
CN109257622A (zh) * | 2018-11-01 | 2019-01-22 | 广州市百果园信息技术有限公司 | 一种音视频处理方法、装置、设备及介质 |
CN109710800B (zh) * | 2018-11-08 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法、装置、终端及存储介质 |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN109614988B (zh) * | 2018-11-12 | 2020-05-12 | 国家电网有限公司 | 一种生物识别方法及装置 |
CN109583346A (zh) * | 2018-11-21 | 2019-04-05 | 齐鲁工业大学 | 基于lstm-fc的脑电信号特征提取与分类识别方法 |
CN109871736B (zh) | 2018-11-23 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 自然语言描述信息的生成方法及装置 |
CN109784171A (zh) * | 2018-12-14 | 2019-05-21 | 平安科技(深圳)有限公司 | 车辆定损图像筛选方法、装置、可读存储介质及服务器 |
CN109450830B (zh) * | 2018-12-26 | 2021-09-21 | 重庆大学 | 一种高速移动环境下基于深度学习的信道估计方法 |
CN110188239B (zh) * | 2018-12-26 | 2021-06-22 | 北京大学 | 一种基于跨模态注意力机制的双流视频分类方法和装置 |
CN111464881B (zh) * | 2019-01-18 | 2021-08-13 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
CN109886477B (zh) * | 2019-01-25 | 2022-11-04 | 平安科技(深圳)有限公司 | 水污染的预测方法、装置及电子设备 |
CN109829049B (zh) * | 2019-01-28 | 2021-06-01 | 杭州一知智能科技有限公司 | 利用知识库渐进时空注意力网络解决视频问答任务的方法 |
CN109871798B (zh) * | 2019-02-01 | 2021-06-29 | 浙江大学 | 一种基于卷积神经网络的遥感影像建筑物提取方法 |
CN110020596B (zh) * | 2019-02-21 | 2021-04-30 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN109829055B (zh) * | 2019-02-22 | 2021-03-12 | 苏州大学 | 基于过滤门机制的用户法条预测方法 |
CN109886496B (zh) * | 2019-02-27 | 2023-02-03 | 中南大学 | 一种基于气象信息的农产量预测方法 |
CN109919221B (zh) * | 2019-03-04 | 2022-07-19 | 山西大学 | 基于双向双注意力机制图像描述方法 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN110084128B (zh) * | 2019-03-29 | 2021-12-14 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN110175979B (zh) * | 2019-04-08 | 2021-07-27 | 杭州电子科技大学 | 一种基于协同注意力机制的肺结节分类方法 |
CN109874029B (zh) | 2019-04-22 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、设备及存储介质 |
CN110288665B (zh) * | 2019-05-13 | 2021-01-15 | 中国科学院西安光学精密机械研究所 | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 |
CN110298361B (zh) * | 2019-05-22 | 2021-05-04 | 杭州未名信科科技有限公司 | 一种rgb-d图像的语义分割方法和系统 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
CN110188775B (zh) * | 2019-05-28 | 2020-06-26 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110287879B (zh) * | 2019-06-26 | 2023-01-17 | 天津大学 | 一种基于注意力机制的视频行为识别方法 |
CN110289096B (zh) * | 2019-06-28 | 2021-12-07 | 电子科技大学 | 一种基于深度学习的icu院内死亡率预测方法 |
CN110334716B (zh) * | 2019-07-04 | 2022-01-11 | 北京迈格威科技有限公司 | 特征图处理方法、图像处理方法及装置 |
CN110348462B (zh) * | 2019-07-09 | 2022-03-04 | 北京金山数字娱乐科技有限公司 | 一种图像特征确定、视觉问答方法、装置、设备及介质 |
CN110458867B (zh) * | 2019-08-15 | 2020-07-24 | 北京邮电大学 | 一种基于注意力循环网络的目标跟踪方法 |
CN110705692B (zh) * | 2019-09-25 | 2022-06-24 | 中南大学 | 一种时空注意力网络的非线性动态工业过程产品预测方法 |
CN110769242A (zh) * | 2019-10-09 | 2020-02-07 | 南京航空航天大学 | 基于时空信息建模的全自动2d视频到3d视频的转换方法 |
CN111091044B (zh) * | 2019-10-25 | 2022-04-01 | 武汉大学 | 一种面向网约车的车内危险场景识别方法 |
CN110929587B (zh) * | 2019-10-30 | 2021-04-20 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
CN110826475B (zh) * | 2019-11-01 | 2022-10-04 | 北京齐尔布莱特科技有限公司 | 一种检测近重复视频的方法、装置及计算设备 |
CN111031315B (zh) * | 2019-11-18 | 2023-05-30 | 复旦大学 | 基于注意力机制和时间依赖性的压缩视频质量增强方法 |
CN110912598B (zh) * | 2019-11-22 | 2020-08-28 | 中原工学院 | 基于长短时注意力机制的大规模mimo系统csi反馈方法 |
CN110991290B (zh) * | 2019-11-26 | 2023-03-10 | 西安电子科技大学 | 基于语义指导与记忆机制的视频描述方法 |
CN110969872A (zh) * | 2019-12-18 | 2020-04-07 | 上海天壤智能科技有限公司 | 基于强化学习和图注意力网络的交通信号控制方法及系统 |
CN111276131B (zh) * | 2020-01-22 | 2021-01-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111339404B (zh) * | 2020-02-14 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 基于人工智能的内容热度预测方法、装置和计算机设备 |
CN111310676A (zh) * | 2020-02-21 | 2020-06-19 | 重庆邮电大学 | 基于CNN-LSTM和attention的视频动作识别方法 |
CN113392314A (zh) * | 2020-03-13 | 2021-09-14 | 北京京东尚科信息技术有限公司 | 用于对象推荐的预测方法、装置、存储介质与电子设备 |
CN111310766A (zh) * | 2020-03-13 | 2020-06-19 | 西北工业大学 | 基于编解码和二维注意力机制的车牌识别方法 |
CN111444861A (zh) * | 2020-03-30 | 2020-07-24 | 西安交通大学 | 一种基于监控视频的车辆偷盗行为识别方法 |
CN111626116B (zh) * | 2020-04-21 | 2022-12-27 | 泉州装备制造研究所 | 基于融合多注意力机制和Graph的视频语义分析方法 |
CN111901598B (zh) * | 2020-06-28 | 2023-10-13 | 华南理工大学 | 视频解码与编码的方法、装置、介质及电子设备 |
CN111818397B (zh) * | 2020-06-29 | 2021-10-08 | 同济大学 | 一种基于长短时记忆网络变体的视频描述生成方法 |
CN112115601B (zh) * | 2020-09-10 | 2022-05-17 | 西北工业大学 | 一种可靠的用户注意力监测估计表示模型 |
CN114268846A (zh) * | 2020-09-16 | 2022-04-01 | 镇江多游网络科技有限公司 | 一种基于注意机制的视频描述生成模型 |
CN112183391A (zh) * | 2020-09-30 | 2021-01-05 | 中国科学院计算技术研究所 | 一种第一视角视频行为预测系统及方法 |
CN112287816B (zh) * | 2020-10-28 | 2023-05-23 | 西安交通大学 | 一种基于深度学习的危险工作区事故自动检测报警方法 |
CN112395505B (zh) * | 2020-12-01 | 2021-11-09 | 中国计量大学 | 一种基于协同注意力机制的短视频点击率预测方法 |
CN112735477B (zh) * | 2020-12-31 | 2023-03-17 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
CN112597975B (zh) * | 2021-02-26 | 2021-06-08 | 上海闪马智能科技有限公司 | 一种基于视频的火灾烟雾和抛洒物检测方法及系统 |
CN112668559B (zh) * | 2021-03-15 | 2021-06-18 | 冠传网络科技(南京)有限公司 | 一种多模态信息融合的短视频情感判定装置及方法 |
CN113066022B (zh) * | 2021-03-17 | 2022-08-16 | 天津大学 | 一种基于高效时空信息融合的视频比特增强方法 |
CN113139446B (zh) * | 2021-04-12 | 2024-02-06 | 长安大学 | 一种端到端自动驾驶行为决策方法、系统及终端设备 |
CN113099228B (zh) * | 2021-04-30 | 2024-04-05 | 中南大学 | 一种视频编解码方法及系统 |
CN113326739B (zh) * | 2021-05-07 | 2022-08-09 | 山东大学 | 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 |
CN113422952B (zh) * | 2021-05-17 | 2022-05-31 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
CN113204670B (zh) * | 2021-05-24 | 2022-12-09 | 合肥工业大学 | 一种基于注意力模型的视频摘要描述生成方法及装置 |
CN113537024B (zh) * | 2021-07-08 | 2022-06-21 | 天津理工大学 | 多层时序注意力融合机制的弱监督神经网络手语识别方法 |
CN113569932B (zh) * | 2021-07-18 | 2023-07-18 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
CN113792148B (zh) * | 2021-11-15 | 2022-02-11 | 成都晓多科技有限公司 | 一种基于序列到序列的评论方面类别检测方法及系统 |
CN114553648B (zh) * | 2022-01-26 | 2023-09-19 | 嘉兴学院 | 基于时空图卷积神经网络的无线通信调制模式识别方法 |
CN114627413B (zh) * | 2022-03-11 | 2022-09-13 | 电子科技大学 | 视频密集事件内容理解方法 |
CN114979801A (zh) * | 2022-05-10 | 2022-08-30 | 上海大学 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
CN115175006B (zh) * | 2022-06-09 | 2023-07-07 | 中国科学院大学 | 基于层级模块化的视频描述方法及系统 |
CN115994668B (zh) * | 2023-02-16 | 2023-06-20 | 浙江非线数联科技股份有限公司 | 智慧社区资源管理系统 |
CN116436106B (zh) * | 2023-06-14 | 2023-09-05 | 浙江卓松电气有限公司 | 低压配电检测系统、方法、终端设备及计算机存储介质 |
CN116797981B (zh) * | 2023-08-18 | 2023-11-28 | 成都锦城学院 | 一种基于深度学习的跨模态视频情感处理方法 |
CN118172829B (zh) * | 2024-03-07 | 2024-09-10 | 武汉理工大学 | 一种基于动作感知的视频描述方法及系统 |
CN117933145B (zh) * | 2024-03-22 | 2024-05-24 | 长江三峡集团实业发展(北京)有限公司 | 基于gnss的面向沙戈荒干旱区域的对流层延迟建模方法 |
CN117951585A (zh) * | 2024-03-27 | 2024-04-30 | 国网山东省电力公司曲阜市供电公司 | 一种电力设备运行状态实时检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402697B2 (en) * | 2016-08-01 | 2019-09-03 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
-
2018
- 2018-02-05 CN CN201810110287.1A patent/CN108388900B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
Non-Patent Citations (1)
Title |
---|
《Tricornet: A hybrid temporal convolutional and recurrent network for video action segmentation》;Li Ding等;《arXiv》;20170522;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108388900A (zh) | 2018-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388900B (zh) | 基于多特征融合和时空注意力机制相结合的视频描述方法 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN108600701B (zh) | 一种基于深度学习判断视频行为的监控系统和方法 | |
KR20210114074A (ko) | 멀티미디어 데이터의 캡셔닝 정보를 생성하는 방법, 장치, 디바이스 및 매체 | |
Walker et al. | Predicting video with vqvae | |
Wang et al. | Abnormal behavior detection in videos using deep learning | |
Pu et al. | Adaptive feature abstraction for translating video to text | |
CN111931549B (zh) | 一种基于多任务非自回归解码的人体骨架的动作预测方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
Bolelli et al. | A hierarchical quasi-recurrent approach to video captioning | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN117115706A (zh) | 基于多尺度时空注意力网络的视频场景图生成方法 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN113553445B (zh) | 一种生成视频描述的方法 | |
CN116091978A (zh) | 一种基于高级语义信息特征编码的视频描述方法 | |
CN113971826B (zh) | 估计连续的效价和唤醒水平的动态情感识别方法和系统 | |
Zhao et al. | Human action recognition based on improved fusion attention CNN and RNN | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
Zhou et al. | Morphology-Guided Network via Knowledge Distillation for RGB-D Mirror Segmentation | |
Chen et al. | Multi-timescale context encoding for scene parsing prediction | |
CN113657200A (zh) | 一种基于掩码r-cnn的视频行为动作识别方法及系统 | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN114386569B (zh) | 一种使用胶囊网络的新型图像描述生成方法 | |
CN114979801A (zh) | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |