CN113420179B - 基于时序高斯混合空洞卷积的语义重构视频描述方法 - Google Patents

基于时序高斯混合空洞卷积的语义重构视频描述方法 Download PDF

Info

Publication number
CN113420179B
CN113420179B CN202110704646.8A CN202110704646A CN113420179B CN 113420179 B CN113420179 B CN 113420179B CN 202110704646 A CN202110704646 A CN 202110704646A CN 113420179 B CN113420179 B CN 113420179B
Authority
CN
China
Prior art keywords
video
convolution
time
time sequence
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110704646.8A
Other languages
English (en)
Other versions
CN113420179A (zh
Inventor
李平
张盼
蒋昕怡
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110704646.8A priority Critical patent/CN113420179B/zh
Publication of CN113420179A publication Critical patent/CN113420179A/zh
Application granted granted Critical
Publication of CN113420179B publication Critical patent/CN113420179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了基于时序高斯混合空洞卷积的语义重构视频描述方法。本发明方法首先对含文本描述的采样视频帧提取外观特征和动作特征,将其拼接后输入到时序高斯混合空洞卷积编码器获得时序高斯特征;然后利用两层长短时记忆神经网络构建解码器,得到生成语句概率分布和隐藏向量;再建立语义重构网络并计算语义重构损失;利用随机梯度下降算法优化模型,对新视频依次通过上述步骤获得生成语句概率分布,用贪心搜索算法获得视频描述语句。本发明方法利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并通过语义重构网络获得语句级的概率分布差异,能够缩小生成语句和视频内容的语义鸿沟,从而生成更准确描述视频内容的自然语句。

Description

基于时序高斯混合空洞卷积的语义重构视频描述方法
技术领域
本发明属于计算机技术领域,尤其是计算机视觉中的视频描述领域,涉及一种基于时序高斯混合空洞卷积的语义重构视频描述方法。
背景技术
快速发展的互联网产生了种类丰富的多媒体数据资源,比如视频、图像、音频以及文字。近年来,随着手机、摄像头等智能终端的普及和互联网带宽的大幅增长,抖音、快手等视频平台受到广大用户的喜爱,网络直播和自媒体行业快速崛起,每天都有数以万计的视频产生和传播,视频数量呈现爆炸式增长,对人们的日常生活方式产生了较大影响。在大数据时代,如何有效利用海量视频至关重要,相对于文本、图像和音频等数据而言,视频包含非常丰富的视觉内容信息。对于人类来说,准确理解视频内容比较容易,但是对于机器来讲非常具有挑战性。机器不仅需要捕捉视频中的物体、场景以及物体之间的关系,还要捕捉视频的时序依赖关系。而视频描述技术可将视频转换为文字表示,有利于机器理解视频内容。
视频描述技术旨在自动生成自然语句对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系,还能够生成符合语法规则且正确描述视频内容的语句。
随着深度学习技术的发展,基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络(Convolutional Neural Network,CNN)提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络(Long-Short Time Memory,LSTM)、门控循环单元(Gated Recurrent Units,GRU)解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器(Hierarchical Recurrent NeuralEncoder,HRNE),其将视频划分为多个短视频,将短视频输入低层LSTM得到每个短视频的特征表示,再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息,高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型(HierarchicalTemporal Model,HTM),通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络(Attention-based Densely Connected Long Short-Term Memory,DenseLSTM),将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
上述方法的不足点主要表现在以下几个方面:(1)由于LSTM仍然存在梯度消失或者梯度爆炸问题,难以有效捕捉视频长期时序信息,不利于学习视频上下文的特征表示;(2)自然语句和视频属于两种不同结构的数据模态,难以将视频内容语义准确无误转换为自然语句,生成语句和视频内容存在语义鸿沟,现有方法常用交叉熵损失函数从单词级别角度缩小生成语句和视频的语义差异,而忽略了语句级别的语义差异。基于这些考虑,针对视频标题生成、视频检索、视障人群观看视频等实际应用场景,迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于时序高斯混合空洞卷积的语义重构视频描述方法,既能捕捉视频长期时序信息、减少模型训练参数量,又能缩小视频内容和生成语句的语义差异,生成自然流畅的视频描述语句。
本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。
进一步,步骤(1)具体是:
(1-1)对原始视频均匀采样n个视频帧,采样后的视频
Figure BDA0003131714140000021
其中,三维张量Xi为第i帧图像,
Figure BDA0003131714140000022
为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
视频
Figure BDA0003131714140000023
对应的描述语句
Figure BDA0003131714140000024
其中,T为描述语句长度,yt为描述语句的第t时间步的单词,V为词汇表的单词个数;
(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征
Figure BDA0003131714140000025
利用深度3D卷积神经网络C3D提取视频的动作特征
Figure BDA0003131714140000026
其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示
Figure BDA0003131714140000031
其中,视频特征维度大小d=dr+da
再进一步,步骤(2)具体是:
(2-1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵
Figure BDA0003131714140000032
表示,由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
Figure BDA0003131714140000033
其中,
Figure BDA0003131714140000034
Figure BDA0003131714140000035
Figure BDA0003131714140000036
分别表示第m个高斯分布的均值和标准方差;
Figure BDA0003131714140000037
作为归一化常数,使得
Figure BDA0003131714140000038
通过学习一组注意力权重
Figure BDA0003131714140000039
让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵
Figure BDA00031317141400000310
使得每个输出通道对应的权重之和为1,即
Figure BDA00031317141400000311
Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
利用卷积核
Figure BDA00031317141400000312
和注意力权重矩阵
Figure BDA00031317141400000313
获得第k个时序高斯混合卷积核
Figure BDA00031317141400000314
(2-2)第一层时序高斯混合空洞卷积层的卷积核为
Figure BDA00031317141400000315
利用第k个时序高斯混合卷积核
Figure BDA00031317141400000316
对视频特征表示F进行空洞卷积操作,卷积结果
Figure BDA00031317141400000317
作为第一层输出结果的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O1,如下:
Figure BDA00031317141400000318
符号*表示空洞卷积操作;
(2-3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为
Figure BDA00031317141400000319
其输入为第q-1层的输出
Figure BDA00031317141400000320
对输入特征Oq-1进行平均池化处理,获得聚合特征
Figure BDA00031317141400000321
再通过一维卷积利用聚合特征计算通道权重Wc=σ(conv1d(Xq-1)),
Figure BDA00031317141400000322
σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对Oq-1的通道进行加权处理,获得输入特征
Figure BDA0003131714140000041
将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果
Figure BDA0003131714140000042
继而得到第q层的输出Oq,即
Figure BDA0003131714140000043
最终Q个时序高斯混合空洞卷积层的输出为
Figure BDA0003131714140000044
(2-4)利用1×1大小的卷积层和ReLU激活函数对输出特征OQ的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(OQ)),
Figure BDA0003131714140000045
作为包含时序信息的视频特征将被输入解码器。
更进一步,步骤(3)具体是:
(3-1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词
Figure BDA0003131714140000046
以及第一层LSTM第t-1时间步LSTM单元的隐藏向量
Figure BDA0003131714140000047
其输出
Figure BDA0003131714140000048
dh表示隐藏向量维度,
Figure BDA0003131714140000049
表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量
Figure BDA00031317141400000410
和第二层LSTM第t-1时间步的隐藏向量
Figure BDA00031317141400000411
以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量
Figure BDA00031317141400000412
为注意力模块,βt,δ∈(0,1)表示隐藏向量
Figure BDA00031317141400000413
和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3-2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量
Figure BDA00031317141400000414
其中,θdecoder表示解码器参数,
Figure BDA00031317141400000415
Figure BDA00031317141400000416
表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
Figure BDA00031317141400000417
Figure BDA00031317141400000418
其中,y0是句子
Figure BDA00031317141400000419
的开始标志符,yT+1是句子
Figure BDA00031317141400000420
的结束标志符。
又进一步,步骤(4)具体是:
(4-1)利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布;分别将解码器中的隐藏向量
Figure BDA0003131714140000051
Figure BDA0003131714140000052
映射为维度为V的单词概率分布向量,即
Figure BDA0003131714140000053
Figure BDA0003131714140000054
其中,
Figure BDA0003131714140000055
表示权重矩阵,
Figure BDA0003131714140000056
表示偏置向量;
(4-2)利用Kullback-Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失
Figure BDA0003131714140000057
Figure BDA0003131714140000058
其中,DKL(·||·)表示两种概率分布之间的Kullback-Leibler散度,
Figure BDA0003131714140000059
为真实语句概率分布,
Figure BDA00031317141400000510
为生成语句的概率分布,τ为词汇表的单词索引。
还进一步,步骤(5)具体是:
(5-1)视频描述模型总体损失函数为
Figure BDA00031317141400000511
其中,λ>0为交叉熵损失和语义重构损失的权衡系数,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
(5-2)输入新视频
Figure BDA00031317141400000512
首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量
Figure BDA00031317141400000513
为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
(5-3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句
Figure BDA00031317141400000514
其中,T′为生成语句长度。
本发明提出了一种基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法具有以下几个特点:1)利用时序高斯混合空洞卷积层在视频特征时序维度上进行空洞卷积操作,能够有效捕捉视频时序信息;2)通过重构真实语句的概率分布,缩小生成语句和视频的语义差异,促使模型生成语义更准确的语句。
本发明针对生成语句与视频内容存在语义差异问题,具有以下几个优点:1)利用时序高斯混合空洞卷积对视频长期时序关系进行建模,并利用高斯分布初始化卷积核参数使得其训练参数量为常数,与卷积核尺寸无关,从而减少模型训练参数量;2)利用全连接层构建语义重构网络,将生成语句和真实语句映射至语义空间,通过Kullback-Leibler散度衡量真实语句和生成语句间的语句级别概率分布差异,从而缩小生成语句和视频内容的语义差异。这为视频标题生成、视频检索、视障人群观看视频等实际应用场景奠定了基础。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,基于时序高斯混合空洞卷积的语义重构视频描述方法,该方法首先对原始视频进行均匀采样,利用卷积神经网络提取外观特征和动作特征,并按照特征维度进行拼接得到视频特征;构建时序高斯混合空洞卷积编码器得到时序高斯视频特征;再将时序高斯特征和文本描述输入解码器,输出为生成语句概率分布和隐藏向量;然后建立语义重构网络,并计算语义重构损失;利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型;对新视频利用优化后的模型生成其描述语句。该方法利用时序高斯混合空洞卷积捕捉视频长期时序信息,又通过语义重构网络缩小视频内容和生成语句的语义差异,从而生成语义准确的描述语句。
本发明方法对给定含文本描述的视频数据集合后,依次进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;具体如下:
(1-1)对原始视频均匀采样n个视频帧,采样后的视频
Figure BDA0003131714140000061
其中,三维张量Xi为第i帧图像,
Figure BDA0003131714140000062
为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
视频
Figure BDA0003131714140000063
对应的描述语句
Figure BDA0003131714140000064
其中,T为描述语句长度,yt为采取独热编码(one-hot)方式描述语句的第t时间步的单词,V为词汇表的单词个数,词汇表是根据所有视频对应的描述语句生成的,一般将出现次数大于5的单词放入词汇表;
(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征
Figure BDA0003131714140000065
利用深度3D卷积神经网络C3D提取视频的动作特征
Figure BDA0003131714140000066
其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示
Figure BDA0003131714140000067
其中,视频特征维度大小d=dr+da
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体如下:
(2-1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成;所述的时序高斯混合空洞卷积层是指空洞卷积层沿着视频时序维度上计算且卷积核参数符合混合高斯分布;所述的空洞卷积属于一种卷积操作,即在卷积核参数之间加入一些零元素来扩大卷积核;编码器的卷积核用参数矩阵
Figure BDA0003131714140000071
表示,其由M个高斯分布生成,L表示卷积核时序长度,该参数矩阵的第m行l列的元素表示为:
Figure BDA0003131714140000072
其中,
Figure BDA0003131714140000073
Figure BDA0003131714140000074
Figure BDA0003131714140000075
分别表示第m个高斯分布的均值和标准方差;
Figure BDA0003131714140000076
作为归一化常数,使得
Figure BDA0003131714140000077
通过学习一组注意力权重
Figure BDA0003131714140000078
让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;同时,将softmax函数应用于注意力权重得到注意力权重矩阵
Figure BDA0003131714140000079
使得每个输出通道对应的权重之和为1,即
Figure BDA00031317141400000710
Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
利用卷积核
Figure BDA00031317141400000711
和注意力权重矩阵
Figure BDA00031317141400000712
获得第k个时序高斯混合卷积核
Figure BDA00031317141400000713
(2-2)第一层时序高斯混合空洞卷积层的卷积核为
Figure BDA00031317141400000714
利用第k个时序高斯混合卷积核
Figure BDA00031317141400000715
对视频特征表示F进行空洞卷积操作,卷积结果
Figure BDA00031317141400000716
作为第一层输出结果的第k个通道,通道索引与卷积核一一对应,最终第一层时序高斯混合空洞卷积层的输出为O1,如下:
Figure BDA00031317141400000717
符号*表示空洞卷积操作;
(2-3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为
Figure BDA00031317141400000718
其输入为第q-1层的输出
Figure BDA00031317141400000719
为了能够利用更多输入通道信息,首先对输入特征Oq-1进行平均池化处理,获得聚合特征
Figure BDA00031317141400000720
再通过一维卷积利用聚合特征计算通道权重Wc=σ(conv1d(Xq-1)),
Figure BDA00031317141400000721
σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对Oq-1的通道进行加权处理,获得输入特征
Figure BDA0003131714140000081
将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果
Figure BDA0003131714140000082
继而得到第q层的输出Oq,即
Figure BDA0003131714140000083
Figure BDA0003131714140000084
最终Q个时序高斯混合空洞卷积层的输出为
Figure BDA0003131714140000085
(2-4)为了融合多个输出通道特征,利用1×1大小的卷积层和ReLU激活函数对输出特征OQ的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(OQ)),
Figure BDA0003131714140000086
作为包含时序信息的视频特征将被输入解码器。
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;具体如下:
(3-1)为了生成描述语句,利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词
Figure BDA0003131714140000087
以及第一层LSTM第t-1时间步LSTM单元的隐藏向量
Figure BDA0003131714140000088
其输出
Figure BDA0003131714140000089
dh表示隐藏向量维度,
Figure BDA00031317141400000810
表示单词嵌入矩阵,lstm1(·)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量
Figure BDA00031317141400000811
和第二层LSTM第t-1时间步的隐藏向量
Figure BDA00031317141400000812
以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量
Figure BDA00031317141400000813
为注意力模块,βt,δ∈(0,1)表示隐藏向量h1 t和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3-2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量
Figure BDA00031317141400000814
其中,θdecoder表示解码器参数,
Figure BDA00031317141400000815
Figure BDA00031317141400000816
表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
Figure BDA00031317141400000817
Figure BDA00031317141400000818
其中,y0是句子
Figure BDA00031317141400000819
的开始标志符(Start ofSentence,SOS),yT+1是句子y的结束标志符(End of Sentence,EOS)。
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;具体如下:
(4-1)为了缩小生成语句和视频内容的语义差异,利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布,由于第一层LSTM的输入为真实语句,其隐藏向量包含了真实语句的语义信息,而第二层LSTM的隐藏向量用来预测单词概率分布,可视为包含生成语句的语义信息,因此,分别将解码器中的隐藏向量
Figure BDA0003131714140000091
Figure BDA0003131714140000092
映射为维度为V的单词概率分布向量,即
Figure BDA0003131714140000093
Figure BDA0003131714140000094
其中,
Figure BDA0003131714140000095
表示权重矩阵,
Figure BDA0003131714140000096
表示偏置向量;
(4-2)利用Kullback-Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失
Figure BDA0003131714140000097
Figure BDA0003131714140000098
其中,DKL(·||·)表示两种概率分布之间的Kullback-Leibler散度,
Figure BDA0003131714140000099
为真实语句概率分布,
Figure BDA00031317141400000910
为生成语句的概率分布,τ为词汇表的单词索引。
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句;具体如下:
(5-1)视频描述模型总体损失函数为
Figure BDA00031317141400000911
其中,λ>0为交叉熵损失和语义重构损失的权衡系数,取值为0.5,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
(5-2)输入新视频
Figure BDA00031317141400000912
首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量
Figure BDA00031317141400000913
为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
(5-3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句
Figure BDA00031317141400000914
其中,T′为生成语句长度。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,该方法首先获取包含文本描述的视频数据集合,然后进行如下操作:
步骤(1)对原始视频均匀采样,利用卷积神经网络提取采样后视频的外观特征和动作特征,并将两种特征进行拼接,得到视频特征表示;
步骤(2)构建时序高斯混合空洞卷积编码器,输入为视频特征表示,输出为时序高斯特征;具体是:
(2-1)构建时序高斯混合空洞卷积编码器,捕捉视频的长期时序上下文信息,该编码器由多层时序高斯混合空洞卷积层构成,编码器的卷积核用参数矩阵
Figure FDA0003471259390000011
表示,由M个高斯分布生成,L表示卷积核时序长度,
Figure FDA0003471259390000012
为实数域,该参数矩阵的第m行l列的元素表示为:
Figure FDA0003471259390000013
其中,
Figure FDA0003471259390000014
Figure FDA0003471259390000015
Figure FDA0003471259390000016
分别表示第m个高斯分布的均值和标准方差;
Figure FDA0003471259390000017
作为归一化常数,使得
Figure FDA0003471259390000018
通过学习一组注意力权重
Figure FDA0003471259390000019
让多个高斯分布在时序动态之间共享,Cout表示输出通道数量;将softmax函数应用于注意力权重得到注意力权重矩阵
Figure FDA00034712593900000110
使得每个输出通道对应的权重之和为1,即
Figure FDA00034712593900000111
Aj,m表示第m个高斯分布作用于第j个通道的注意力权重,下标j表示注意力权重矩阵W的行索引,对应通道,s表示注意力权重矩阵W的列索引;
利用卷积核
Figure FDA00034712593900000112
和注意力权重矩阵
Figure FDA00034712593900000113
获得第k个时序高斯混合卷积核
Figure FDA00034712593900000114
(2-2)第一层时序高斯混合空洞卷积层的卷积核为
Figure FDA00034712593900000115
利用第k个时序高斯混合卷积核
Figure FDA00034712593900000116
对视频特征表示F进行空洞卷积操作,卷积结果
Figure FDA00034712593900000117
作为第一层输出结果的第k个通道,最终第一层时序高斯混合空洞卷积层的输出为O1,如下:
Figure FDA00034712593900000118
符号*表示空洞卷积操作;
(2-3)编码器包含Q层时序高斯混合空洞卷积层,第q个时序高斯混合空洞卷积层的卷积核为
Figure FDA0003471259390000021
其输入为第q-1层的输出
Figure FDA0003471259390000022
对输入特征Oq-1进行平均池化处理,获得聚合特征
Figure FDA0003471259390000023
再通过一维卷积利用聚合特征计算通道权重Wc=σ(conv1d(Xq-1)),
Figure FDA0003471259390000024
σ(·)表示sigmoid函数,conv1d(·)表示一维卷积操作;得到每个输入通道的权重后,对Oq-1的通道进行加权处理,获得输入特征
Figure FDA0003471259390000025
将第k个通道分别与第k个时序高斯空洞卷积核进行空洞卷积得到第k个输出通道的结果
Figure FDA0003471259390000026
继而得到第q层的输出Oq,即
Figure FDA0003471259390000027
最终Q个时序高斯混合空洞卷积层的输出为
Figure FDA0003471259390000028
(2-4)利用1×1大小的卷积层和ReLU激活函数对输出特征OQ的Cout个通道映射为单个通道,获得编码器输出时序高斯特征矩阵O=ReLU(conv1d(OQ)),
Figure FDA0003471259390000029
作为包含时序信息的视频特征将被输入解码器;
步骤(3)利用两层长短时记忆神经网络构建解码器,输入为时序高斯特征和文本描述,输出为生成语句概率分布和隐藏向量,计算交叉熵损失;
步骤(4)建立语义重构网络,输入为解码器的隐藏向量,计算语义重构损失;
步骤(5)利用随机梯度下降法优化由编码器、解码器和语义重构网络组成的视频描述模型,对新视频依次通过步骤(1)~(3)得到生成语句概率分布,再利用贪心搜索算法获得视频描述语句。
2.如权利要求1所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(1)具体是:
(1-1)对原始视频均匀采样n个视频帧,采样后的视频
Figure FDA00034712593900000210
其中,三维张量Xi为第i帧图像,
Figure FDA00034712593900000211
为实数域,w、h、c分别为视频帧的宽度、高度、通道数;
视频
Figure FDA00034712593900000212
对应的描述语句
Figure FDA00034712593900000213
其中,T为描述语句长度,yt为描述语句的第t时间步的单词,V为词汇表的单词个数;
(1-2)利用深度2D卷积神经网络GoogLeNet提取视频的外观特征
Figure FDA00034712593900000214
利用深度3D卷积神经网络C3D提取视频的动作特征
Figure FDA00034712593900000215
其中,dr、da分别为视频帧外观特征和动作特征维度大小;将外观特征和动作特征按照特征维度进行拼接,得到视频特征表示
Figure FDA0003471259390000031
其中,视频特征维度大小d=dr+da
3.如权利要求2所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(3)具体是:
(3-1)利用两层LSTM构建解码器,第一层LSTM第t时间步LSTM单元的输入为第t-1时间步单词
Figure FDA0003471259390000032
以及第一层LSTM第t-1时间步LSTM单元的隐藏向量
Figure FDA0003471259390000033
其输出
Figure FDA0003471259390000034
dh表示隐藏向量维度,
Figure FDA0003471259390000035
表示单词嵌入矩阵,lstm1(×)表示第一层长短时记忆神经网络;
第二层LSTM第t时间步LSTM单元的输入为第一层LSTM第t时间步的隐藏向量
Figure FDA0003471259390000036
和第二层LSTM第t-1时间步的隐藏向量
Figure FDA0003471259390000037
以及编码器输出的包含时序信息的视频特征O,其输出为隐藏向量
Figure FDA0003471259390000038
Figure FDA0003471259390000039
为注意力模块,βt,δ∈(0,1)表示隐藏向量
Figure FDA00034712593900000310
和第δ帧视频特征Oδ的相关性大小,lstm2(·)表示第二层长短时记忆神经网络;
(3-2)利用全连接层及softmax函数计算第t时间步的单词yt的概率分布,其概率分布向量
Figure FDA00034712593900000311
其中,θdecoder表示解码器参数,
Figure FDA00034712593900000312
Figure FDA00034712593900000313
表示全连接层权重矩阵和偏置向量;计算模型的交叉熵损失
Figure FDA00034712593900000314
Figure FDA00034712593900000315
其中,y0是句子
Figure FDA00034712593900000316
的开始标志符,yT+1是句子
Figure FDA00034712593900000317
的结束标志符。
4.如权利要求3所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(4)具体是:
(4-1)利用两个全连接层fc1和fc2构建语义重构网络,利用解码器隐藏向量重构真实语句的概率分布;分别将解码器中的隐藏向量
Figure FDA00034712593900000318
Figure FDA00034712593900000319
映射为维度为V的单词概率分布向量,即
Figure FDA00034712593900000320
Figure FDA00034712593900000321
其中,
Figure FDA00034712593900000322
表示权重矩阵,
Figure FDA00034712593900000323
表示偏置向量;
(4-2)利用Kullback-Leibler散度衡量生成语句和真实语句的概率分布差异,作为语义重构损失
Figure FDA0003471259390000041
Figure FDA0003471259390000042
其中,DKL(·||·)表示两种概率分布之间的Kullback-Leibler散度,
Figure FDA0003471259390000043
为真实语句概率分布,
Figure FDA0003471259390000044
为生成语句的概率分布,τ为词汇表的单词索引。
5.如权利要求4所述的基于时序高斯混合空洞卷积的语义重构视频描述方法,其特征在于,步骤(5)具体是:
(5-1)视频描述模型总体损失函数为
Figure FDA0003471259390000045
其中,λ>0为交叉熵损失和语义重构损失的权衡系数,利用随机梯度下降法优化由编码器、解码器和语义重构网络构成的视频描述模型;
(5-2)输入新视频
Figure FDA0003471259390000046
首先依次经过步骤(1)~(3)得到第一个单词的概率分布向量
Figure FDA0003471259390000047
Figure FDA0003471259390000048
为编码器输出的时序高斯特征,再通过贪心搜索算法将最大概率对应索引的单词看作当前时刻生成的单词;
(5-3)重复步骤(3),依次得到单词{y′2,y′3,...,y′T'},最终获得视频描述语句
Figure FDA0003471259390000049
其中,T′为生成语句长度。
CN202110704646.8A 2021-06-24 2021-06-24 基于时序高斯混合空洞卷积的语义重构视频描述方法 Active CN113420179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704646.8A CN113420179B (zh) 2021-06-24 2021-06-24 基于时序高斯混合空洞卷积的语义重构视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704646.8A CN113420179B (zh) 2021-06-24 2021-06-24 基于时序高斯混合空洞卷积的语义重构视频描述方法

Publications (2)

Publication Number Publication Date
CN113420179A CN113420179A (zh) 2021-09-21
CN113420179B true CN113420179B (zh) 2022-03-22

Family

ID=77716780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704646.8A Active CN113420179B (zh) 2021-06-24 2021-06-24 基于时序高斯混合空洞卷积的语义重构视频描述方法

Country Status (1)

Country Link
CN (1) CN113420179B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154016B (zh) * 2021-11-24 2022-05-31 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114511813B (zh) * 2022-04-20 2022-06-28 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869178A (zh) * 2016-04-26 2016-08-17 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9628673B2 (en) * 2010-04-28 2017-04-18 Microsoft Technology Licensing, Llc Near-lossless video summarization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869178A (zh) * 2016-04-26 2016-08-17 昆明理工大学 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Video summarization with a graph convolutional attention network;Ping LI等;《Frontiers of Information Technology & Electronic Engineering》;20210603;全文 *
基于深度学习的视频预测研究综述;莫凌飞等;《智能系统学报》;20180122;全文 *

Also Published As

Publication number Publication date
CN113420179A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN111581437A (zh) 一种视频检索方法及装置
CN109919221B (zh) 基于双向双注意力机制图像描述方法
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
CN110929587A (zh) 一种基于层次注意力机制的双向重构网络视频描述方法
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
EP3885966B1 (en) Method and device for generating natural language description information
CN108985370B (zh) 图像标注语句自动生成方法
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN112883231B (zh) 短视频流行度预测方法、系统、电子设备及存储介质
CN111598183A (zh) 一种多特征融合图像描述方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant