CN113420179A - 基于时序高斯混合空洞卷积的语义重构视频描述方法 - Google Patents
基于时序高斯混合空洞卷积的语义重构视频描述方法 Download PDFInfo
- Publication number
- CN113420179A CN113420179A CN202110704646.8A CN202110704646A CN113420179A CN 113420179 A CN113420179 A CN 113420179A CN 202110704646 A CN202110704646 A CN 202110704646A CN 113420179 A CN113420179 A CN 113420179A
- Authority
- CN
- China
- Prior art keywords
- video
- convolution
- time
- time sequence
- gaussian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000203 mixture Substances 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000009826 distribution Methods 0.000 claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000009471 action Effects 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000007774 longterm Effects 0.000 claims abstract description 9
- 238000010845 search algorithm Methods 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 13
- 239000011800 void material Substances 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。
Description
技术领域
本发明属于计算机技术领域,尤其是计算机视觉中的视频描述领域,涉及一种基于时序高斯混合空洞卷积的语义重构视频描述方法。
背景技术
快速发展的互联网产生了种类丰富的多媒体数据资源,比如视频、图像、音频以及文字。近年来,随着手机、摄像头等智能终端的普及和互联网带宽的大幅增长,抖音、快手等视频平台受到广大用户的喜爱,网络直播和自媒体行业快速崛起,每天都有数以万计的视频产生和传播,视频数量呈现爆炸式增长,对人们的日常生活方式产生了较大影响。在大数据时代,如何有效利用海量视频至关重要,相对于文本、图像和音频等数据而言,视频包含非常丰富的视觉内容信息。对于人类来说,准确理解视频内容比较容易,但是对于机器来讲非常具有挑战性。机器不仅需要捕捉视频中的物体、场景以及物体之间的关系,还要捕捉视频的时序依赖关系。而视频描述技术可将视频转换为文字表示,有利于机器理解视频内容。
视频描述技术旨在自动生成自然语句对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系,还能够生成符合语法规则且正确描述视频内容的语句。
随着深度学习技术的发展,基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络(Convolutional Neural Network,CNN)提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络(Long-Short Time Memory,LSTM)、门控循环单元(Gated Recurrent Units,GRU)解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器(Hierarchical Recurrent NeuralEncoder,HRNE),其将视频划分为多个短视频,将短视频输入低层LSTM得到每个短视频的特征表示,再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息,高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型(HierarchicalTemporal Model,HTM),通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络(Attention-based Densely Connected Long Short-Term Memory,DenseLSTM),将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
上述方法的不足点主要表现在以下几个方面:(1)由于LSTM仍然存在梯度消失或者梯度爆炸问题,难以有效捕捉视频长期时序信息,不利于学习视频上下文的特征表示;(2)自然语句和视频属于两种不同结构的数据模态,难以将视频内容语义准确无误转换为自然语句,生成语句和视频内容存在语义鸿沟,现有方法常用交叉熵损失函数从单词级别角度缩小生成语句和视频的语义差异,而忽略了语句级别的语义差异。基于这些考虑,针对视频标题生成、视频检索、视障人群观看视频等实际应用场景,迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于时序高斯混合空洞卷积的语义重构视频描述方法,既能捕捉视频长期时序信息、减少模型训练参数量,又能缩小视频内容和生成语句的语义差异,生成自然流畅的视频描述语句。
本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。
进一步,步骤(1)具体是:
(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征利用深度3D卷积神经网络C3D提取视频的动作特征其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。
再进一步,步骤(2)具体是:
(2-1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵表示,由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
其中, 和分别表示第m个高斯分布的均值和标准方差;作为归一化常数,使得通过学习一组注意力权重让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵使得每个输出通道对应的权重之和为1,即Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
(2-2)第一层时序高斯混合空洞卷积层的卷积核为利用第k个时序高斯混合卷积核对视频特征表示F进行空洞卷积操作,卷积结果作为第一层输出结果的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O1,如下:
(2-3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为其输入为第q-1层的输出对输入特征Oq-1进行平均池化处理,获得聚合特征再通过一维卷积利用聚合特征计算通道权重Wc=σ(conv1d(Xq-1)),σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对Oq-1的通道进行加权处理,获得输入特征将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果继而得到第q层的输出Oq,即最终Q个时序高斯混合空洞卷积层的输出为
(2-4)利用1×1大小的卷积层和ReLU激活函数对输出特征OQ的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(OQ)),作为包含时序信息的视频特征将被输入解码器。
更进一步,步骤(3)具体是:
(3-1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词以及第一层LSTM第t-1时间步LSTM单元的隐藏向量其输出dh表示隐藏向量维度,表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量和第二层LSTM第t-1时间步的隐藏向量以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量为注意力模块,βt,δ∈(0,1)表示隐藏向量和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3-2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量其中,θdecoder表示解码器参数, 表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失 其中,y0是句子的开始标志符,yT+1是句子的结束标志符。
又进一步,步骤(4)具体是:
(4-2)利用Kullback-Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失即其中,DKL(·||·)表示两种概率分布之间的Kullback-Leibler散度,为真实语句概率分布,为生成语句的概率分布,τ为词汇表的单词索引。
还进一步,步骤(5)具体是:
本发明提出了一种基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法具有以下几个特点:1)利用时序高斯混合空洞卷积层在视频特征时序维度上进行空洞卷积操作,能够有效捕捉视频时序信息;2)通过重构真实语句的概率分布,缩小生成语句和视频的语义差异,促使模型生成语义更准确的语句。
本发明针对生成语句与视频内容存在语义差异问题,具有以下几个优点:1)利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并利用高斯分布初始化卷积核参数使得其训练参数量为常数,与卷积核尺寸无关,从而减少模型训练参数量;2)利用全连接层构建语义重构网络,将生成语句和真实语句映射至语义空间,通过Kullback-Leibler散度衡量真实语句和生成语句间的语句级别概率分布差异,从而缩小生成语句和视频内容的语义差异。这为视频标题生成、视频检索、视障人群观看视频等实际应用场景奠定了基础。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法首先对原始视频进行均匀采样,利用卷积神经网络提取外观特征和动作特征,并按照特征维度进行拼接得到视频特征;构建时序高斯混合空洞卷积编码器得到时序高斯视频特征;再将时序高斯特征和文本描述输入解码器,输出为生成语句概率分布和隐藏向量;然后建立语义重构网络,并计算语义重构损失;利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型;对新视频利用优化后的模型生成其描述语句。该方法利用时序高斯混合空洞卷积捕捉视频长期时序信息,又通过语义重构网络缩小视频内容和生成语句的语义差异,从而生成语义准确的描述语句。
本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;具体如下:
视频对应的描述语句其中,T为描述语句长度,yt为采取独热编码(one-hot)方式描述语句的第t时间步的单词,V为词汇表的单词个数,词汇表是根据所有视频对应的描述语句生成的,一般将出现次数大于5的单词放入词汇表;
(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征利用深度3D卷积神经网络C3D提取视频的动作特征其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示其中,视频特征维度大小d=dr+da。
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体如下:
(2-1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成;所述的时序高斯混合空洞卷积层是指空洞卷积层沿着视频时序维度上计算且卷积核参数符合混合高斯分布;所述的空洞卷积属于一种卷积操作,即在卷积核参数之间加入一些零元素来扩大卷积核;编码器的卷积核用参数矩阵表示,其由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
其中, 和分别表示第m个高斯分布的均值和标准方差;作为归一化常数,使得通过学习一组注意力权重让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;同时,将softmax函数应用于注意力权重得到注意力权重矩阵使得每个输出通道对应的权重之和为1,即Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
(2-2)第一层时序高斯混合空洞卷积层的卷积核为利用第k个时序高斯混合卷积核对视频特征表示F进行空洞卷积操作,卷积结果作为第一层输出结果的第k个通道,通道索引与卷积核一一对应,最终第一层时序高斯混合空洞卷积层的输出为O1,如下:
(2-3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为其输入为第q-1层的输出为了能够利用更多输入通道信息,首先对输入特征Oq-1进行平均池化处理,获得聚合特征再通过一维卷积利用聚合特征计算通道权重Wc=σ(conv1d(Xq-1)),σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对Oq-1的通道进行加权处理,获得输入特征将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果继而得到第q层的输出Oq,即 最终Q个时序高斯混合空洞卷积层的输出为
(2-4)为了融合多个输出通道特征,利用1×1大小的卷积层和ReLU激活函数对输出特征OQ的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(OQ)),作为包含时序信息的视频特征将被输入解码器。
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;具体如下:
(3-1)为了生成描述语句,利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词以及第一层LSTM第t-1时间步LSTM单元的隐藏向量其输出dh表示隐藏向量维度,表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量和第二层LSTM第t-1时间步的隐藏向量以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量为注意力模块,βt,δ∈(0,1)表示隐藏向量h1 t和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3-2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量其中,θdecoder表示解码器参数, 表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失 其中,y0是句子的开始标志符(Start ofSentence,SOS),yT+1是句子y的结束标志符(End of Sentence,EOS)。
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;具体如下:
(4-1)为了缩小生成语句和视频内容的语义差异,利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布,由于第一层LSTM的输入为真实语句,其隐藏向量包含了真实语句的语义信息,而第二层LSTM的隐藏向量用来预测单词概率分布,可视为包含生成语句的语义信息,因此,分别将解码器中的隐藏向量和映射为维度为V的单词概率分布向量,即和其中,表示权重矩阵,表示偏置向量;
(4-2)利用Kullback-Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失即其中,DKL(·||·)表示两种概率分布之间的Kullback-Leibler散度,为真实语句概率分布,为生成语句的概率分布,τ为词汇表的单词索引。
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句;具体如下:
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (6)
1.基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,该方法首先获取包含文本描述的视频数据集合,然后进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。
2.如权利要求1所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(1)具体是:
3.如权利要求2所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(2)具体是:
(2-1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵表示,由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
其中, 和分别表示第m个高斯分布的均值和标准方差;作为归一化常数,使得通过学习一组注意力权重让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵使得每个输出通道对应的权重之和为1,即Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
(2-2)第一层时序高斯混合空洞卷积层的卷积核为利用第k个时序高斯混合卷积核对视频特征表示F进行空洞卷积操作,卷积结果作为第一层输出结果的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O1,如下:
(2-3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为其输入为第q-1层的输出对输入特征Oq-1进行平均池化处理,获得聚合特征再通过一维卷积利用聚合特征计算通道权重Wc=σ(conv1d(Xq-1)),σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对Oq-1的通道进行加权处理,获得输入特征将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果继而得到第q层的输出Oq,即最终Q个时序高斯混合空洞卷积层的输出为
4.如权利要求3所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(3)具体是:
(3-1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词以及第一层LSTM第t-1时间步LSTM单元的隐藏向量其输出dh表示隐藏向量维度,表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量和第二层LSTM第t-1时间步的隐藏向量以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量 为注意力模块,βt,δ∈(0,1)表示隐藏向量和第δ帧视频特征Oδ的相关性大小,lstm2(×)表示第二层长短时记忆神经网络;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110704646.8A CN113420179B (zh) | 2021-06-24 | 2021-06-24 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110704646.8A CN113420179B (zh) | 2021-06-24 | 2021-06-24 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420179A true CN113420179A (zh) | 2021-09-21 |
CN113420179B CN113420179B (zh) | 2022-03-22 |
Family
ID=77716780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110704646.8A Active CN113420179B (zh) | 2021-06-24 | 2021-06-24 | 基于时序高斯混合空洞卷积的语义重构视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420179B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154016A (zh) * | 2021-11-24 | 2022-03-08 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114511813A (zh) * | 2022-04-20 | 2022-05-17 | 天津市城市规划设计研究总院有限公司 | 视频语义描述方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110267544A1 (en) * | 2010-04-28 | 2011-11-03 | Microsoft Corporation | Near-lossless video summarization |
CN105869178A (zh) * | 2016-04-26 | 2016-08-17 | 昆明理工大学 | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
-
2021
- 2021-06-24 CN CN202110704646.8A patent/CN113420179B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110267544A1 (en) * | 2010-04-28 | 2011-11-03 | Microsoft Corporation | Near-lossless video summarization |
CN105869178A (zh) * | 2016-04-26 | 2016-08-17 | 昆明理工大学 | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Non-Patent Citations (2)
Title |
---|
PING LI等: "Video summarization with a graph convolutional attention network", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》 * |
莫凌飞等: "基于深度学习的视频预测研究综述", 《智能系统学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154016A (zh) * | 2021-11-24 | 2022-03-08 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114154016B (zh) * | 2021-11-24 | 2022-05-31 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114511813A (zh) * | 2022-04-20 | 2022-05-17 | 天津市城市规划设计研究总院有限公司 | 视频语义描述方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113420179B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN107480206B (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
US12008810B2 (en) | Video sequence selection method, computer device, and storage medium | |
CN111507311B (zh) | 一种基于多模态特征融合深度网络的视频人物识别方法 | |
CN111581437A (zh) | 一种视频检索方法及装置 | |
CN107979764A (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN109919221B (zh) | 基于双向双注意力机制图像描述方法 | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN111464881B (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN112883231B (zh) | 短视频流行度预测方法、系统、电子设备及存储介质 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN114443956A (zh) | 内容推荐方法以及相关设备 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN113407663A (zh) | 基于人工智能的图文内容质量识别方法和装置 | |
Chen et al. | Image Aesthetics Assessment with Emotion-Aware Multi-Branch Network | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Xu et al. | Isolated Word Sign Language Recognition Based on Improved SKResNet‐TCN Network | |
CN111768214A (zh) | 产品属性的预测方法、系统、设备和存储介质 | |
CN113505247B (zh) | 基于内容的高时长视频色情内容检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |