CN110929587B - 一种基于层次注意力机制的双向重构网络视频描述方法 - Google Patents

一种基于层次注意力机制的双向重构网络视频描述方法 Download PDF

Info

Publication number
CN110929587B
CN110929587B CN201911045154.1A CN201911045154A CN110929587B CN 110929587 B CN110929587 B CN 110929587B CN 201911045154 A CN201911045154 A CN 201911045154A CN 110929587 B CN110929587 B CN 110929587B
Authority
CN
China
Prior art keywords
video
decoder
features
frame
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911045154.1A
Other languages
English (en)
Other versions
CN110929587A (zh
Inventor
李平
张盼
胡海洋
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Haixie Technology Co ltd
Nanjing Chima Information Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911045154.1A priority Critical patent/CN110929587B/zh
Publication of CN110929587A publication Critical patent/CN110929587A/zh
Application granted granted Critical
Publication of CN110929587B publication Critical patent/CN110929587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种基于层次注意力机制的双向重构网络视频描述方法。本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,并利用层次注意力机制处理视频特征得到视频特征动态表示;其次,利用长短时记忆神经网络作为解码器,以视频特征动态表示及其文本描述为输入,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;再次,通过构建以解码器的隐藏向量为输入的双向重构网络,最小化重构损失,可输出重构的视频特征,使得生成的文本描述和视频内容具有很高的语义相似性。本发明能有效提取多尺度视频特征反映视频时空结构,减少无关信息干扰,挖掘潜在视频语义信息,生成更准确更自然流畅的视频内容描述。

Description

一种基于层次注意力机制的双向重构网络视频描述方法
技术领域
本发明属于计算机技术领域,具体是视觉计算中的视频描述技术领域,涉及一种基于层次注意力机制的双向重构网络视频描述方法。
背景技术
在当今互联网时代,直播网络平台、视频监控以及手机等智能设备每天产生大量的视频数据,这些数据正呈现爆炸式增长。若需人工描述这些视频所含的内容则耗时耗力,视频描述领域由此诞生。视频描述方法主要可用于视频标题生成、视频检索、视障人群观看视频等实际应用场景。
视频描述任务即用一段文字对视频内容进行描述,其目标是不但能够捕捉视频中的人或物、动作、场景以及人或物之间的复杂高维关系,还能够生成符合语法规则且描述视频内容正确的语句。
在传统视频描述领域,基于模板或检索的方法不能生成同时满足描述正确且自然流畅的语句。近年来,以神经网络为主要研究对象的深度学习被成功应用于计算机视觉和自然语言处理领域,促使了许多研究者探索将深度学习技术用于解决视频描述问题。目前,主流的视频描述方法采用编码器-解码器框架,编码器用于把视频编码成向量或张量表示,解码器基于生成的张量或向量自动生成一段视频文字描述。比如利用卷积神经网络(CNN:Convolutional Neural Network)作为编码器提取视频帧的图像空间特征,通过对所有帧图像特征进行平均得到视频的向量表示,然后将该向量输入长短时记忆神经网络(LSTM:Long-Short Time Memory)即解码器生成视频的文本描述。但对所有帧的图像特征进行平均处理破坏了视频的时序特性,所以有研究工作利用LSTM作为编码器对视频帧的时序关系进行编码,得到与视频内容更匹配的描述。此外,随着时序注意力机制的引入,解码器能够动态调整不同视频帧的权重向量,使得与已生成描述关联度高的视频帧更受关注,从而生成更准确的细粒度文本描述。
上述方法的不足点主要表现在以下几个方面:第一,提取视频帧特征的尺度单一,难以充分表示丰富的视频信息;第二,只考虑从视频内容到文本描述的正向信息传播,没有考虑从文本描述到视频内容的反向信息传播,使得生成文本描述和视频内容之间的语义相似性不高;第三,没有考虑视频帧区域特征与生成文本描述的相关性,当被描述物体较小时,容易引入不相关的背景信息,对文本描述生成产生干扰。因此,这些方法难以准确地描述视频内容,不能充分捕获视频语义信息。基于这些考虑,针对视频标题生成、视频检索、视障人群观看视频等实际应用场景,迫切需要设计一种既能充分捕获视频语义信息又能准确描述视频内容的视频描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于层次注意力机制的双向重构网络视频描述方法,可以提取多尺度视频特征,充分捕获视频语义信息,生成自然流畅的视频内容描述语句。
本发明方法首先获取视频数据集合,然后进行如下操作:
步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,利用层次注意力机制处理视频特征得到视频特征动态表示;
步骤(2).利用长短时记忆神经网络作为解码器,输入为视频特征动态表示及其文本描述,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;
步骤(3).建立双向重构网络,输入为解码器的隐藏向量,输出为重构的视频特征;
步骤(4).利用随机梯度下降法优化上述网络模型,对新视频依次通过步骤(1)~(2)得到视频描述语句。
进一步,步骤(1)具体方法是:
(1-1).假设给定的视频
Figure GDA0002949758180000021
含有n帧,其中Xi为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;
Figure GDA0002949758180000022
为视频
Figure GDA0002949758180000023
对应的描述语句,L为描述语句的长度,单词Yl采取独热编码,V为词汇表单词的个数;
(1-2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合;
所述的多尺度是将视频帧划分为14×14个浅层区域集合和7×7个深层区域集合,区域特征即为每个区域通过所述卷积模块提取的特征;
浅层区域特征集合表示为:
Figure GDA0002949758180000024
深层区域特征集合表示为:
Figure GDA0002949758180000025
(1-3).层次注意力机制包括区域注意力机制和帧级注意力机制;
所述的区域注意力机制包括浅层区域注意力机制和深层区域注意力机制,是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制;
所述的帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制。
进一步,步骤(2)具体方法是:
(2-1).利用一层长短时记忆神经网络(LSTM)构建解码器,解码器第t个LSTM单元的输入分别为步骤(1-3)所述的视频特征videot、第t-1个单词Yt-1以及解码器第t-1个LSTM单元的隐藏向量
Figure GDA0002949758180000031
解码器输出为隐藏向量
Figure GDA0002949758180000032
其中
Figure GDA0002949758180000033
为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM;
(2-2).利用全连接层及softmax函数得到词汇表所有单词的概率分布,概率最高的单词为当前时间步预测单词,概率分布为
Figure GDA0002949758180000034
其中
Figure GDA0002949758180000035
为全连接层参数,
Figure GDA0002949758180000036
是维度转换矩阵,
Figure GDA0002949758180000037
softmax(·)为逻辑回归函数;
(2-3).根据(1-3)、(2-1)、(2-2)得到下一时间步预测单词,不断循环执行,直至产生语句结束符或达到最大语句长度为止;
(2-4).生成整个描述语句的交叉熵损失
Figure GDA0002949758180000038
表示为:
Figure GDA0002949758180000039
其中,Y0是句子
Figure GDA00029497581800000310
的开始标志符,YL+1是句子
Figure GDA00029497581800000311
的结束标志符。
进一步,步骤(3)具体方法是:
(3-1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi-LSTM),Bi-LSTM能够利用视频序列的前向和反向信息重构视频帧特征;解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制:
(3-2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi-LSTM单元的输入,即
Figure GDA00029497581800000312
其中,
Figure GDA00029497581800000313
为解码器第i个LSTM单元的隐藏向量,μti∈(0,1)为
Figure GDA00029497581800000314
的权重大小,反映了
Figure GDA00029497581800000315
与重构网络第t-1个Bi-LSTM单元隐藏向量的相关性;
(3-3).通过双向重构网络得到视频第t帧的特征重构表示,即
Figure GDA00029497581800000316
其中,
Figure GDA00029497581800000317
为重构网络第t个Bi-LSTM单元的隐藏向量,r表示重构,bi_lstm(·)表示双向长短时记忆神经网络,双向重构网络的重构损失函数为
Figure GDA0002949758180000041
其中,||·||2表示向量的L2范数,n表示视频帧数。
进一步,步骤(4)具体方法是:
(4-1).通过最小化由(2-4)描述语句的交叉熵损失
Figure GDA0002949758180000042
和(3-3)双向重构网络的重构损失
Figure GDA0002949758180000043
组成的总体损失
Figure GDA0002949758180000044
λ为权衡系数,取值为0.1;利用随机梯度下降法优化编码器、解码器、双向重构网络,得到视频描述模型;
(4-2).输入新视频
Figure GDA0002949758180000045
依次经过步骤(1)~(2)得到视频的描述语句
Figure GDA0002949758180000046
本发明方法首先利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,并利用层次注意力机制处理视频特征得到视频特征动态表示;其次,利用长短时记忆神经网络作为解码器,以视频特征动态表示及其文本描述为输入,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;再次,通过构建以解码器的隐藏向量为输入的双向重构网络,最小化重构损失,可输出重构的视频特征,使得生成的文本描述和视频内容具有很高的语义相似性。
本发明方法能够有效提取多尺度视频特征充分表征视频时空结构,利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征,能够减少无关信息的干扰,挖掘潜在视频语义信息,从而生成更准确更自然流畅的视频内容描述。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
基于层次注意力机制的双向重构网络视频描述方法方法,重点考虑提取多尺度视频特征以充分表征视频时空结构,同时利用层次注意力机制使得构建的双向重构网络模型更加关注与已生成描述语句最相关的视频特征。主要思想是利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,并利用层次注意力机制处理视频特征得到视频特征动态表示;利用长短时记忆神经网络作为解码器,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;通过构建以解码器的隐藏向量为输入的双向重构网络最小化重构损失,可输出重构的视频特征。通过这种方式,可以有效地进行视频描述。
如图1,该方法首先获取视频数据集合,然后进行如下操作:
步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,利用层次注意力机制处理视频特征得到视频特征动态表示。具体方法是:
(1-1).假设给定的视频
Figure GDA0002949758180000051
含有n帧,其中Xi为第i帧图像,w,h,c分别表示视频帧的宽度、高度、通道数,
Figure GDA0002949758180000052
为视频
Figure GDA0002949758180000053
对应的描述语句,L为描述语句的长度,单词Yl采取独热编码(One-hot),V为词汇表单词的个数;
所述的词汇表是根据所有视频对应的描述语句生成的,本实施例将出现次数大于5的单词放入词汇表;
(1-2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合,多尺度指的是把视频帧划分为14×14个浅层区域集合和7×7个深层区域集合,区域特征即为每个区域通过上述卷积模块提取的特征,浅层指的是卷积模块inception_4e位于GoogLeNet的低层,深层指的是卷积模块inception_5b位于GoogLeNet的高层;
浅层区域特征集合表示为:
Figure GDA0002949758180000054
深层区域特征集合表示为:
Figure GDA0002949758180000055
(1-3).层次注意力机制包括浅层区域注意力机制、深层区域注意力机制以及帧级注意力机制。区域注意力机制是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制。帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制,具体是:
①通过视频第i帧多尺度区域特征集合加权求和分别得到视频帧浅层特征
Figure GDA0002949758180000056
和深层特征
Figure GDA0002949758180000057
其中,
Figure GDA0002949758180000058
αij∈(0,1)为第i帧第j个浅层区域特征的注意力大小,βij∈(0,1)为第i帧第j个深层区域特征的注意力大小;第i帧特征
Figure GDA0002949758180000059
为视频帧浅层特征和深层特征的拼接向量,浅层特征能够捕获视频帧的空间特征,深层特征能够捕获视频帧抽象语义特征,两层特征互补形成视频帧特征,更能充分表示视频帧内容;
②对视频帧特征加权求和,得到解码器第t个LSTM单元的输入视频特征
Figure GDA00029497581800000510
其中
Figure GDA00029497581800000511
f_d=1856为视频特征维度,
Figure GDA00029497581800000512
为解码器第t个LSTM单元第i个视频帧特征的注意力大小,反映了视频第i帧与解码器第t-1个LSTM单元隐藏向量
Figure GDA0002949758180000061
的相关性,其中k为隐藏向量维度,d表示解码器。
步骤(2).利用长短时记忆神经网络作为解码器,输入为视频特征动态表示及其文本描述,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句。具体方法是:
(2-1).利用一层LSTM构建解码器,解码器第t个LSTM单元的输入分别为(1-3)中的输入视频特征videot、第t-1个单词Yt-1以及解码器第t-1个LSTM单元的隐藏向量
Figure GDA0002949758180000062
解码器输出为隐藏向量
Figure GDA0002949758180000063
其中
Figure GDA0002949758180000064
为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM;
(2-2).利用全连接层及softmax函数得到词汇表所有单词的概率分布,概率最高的单词为当前时间步预测单词,概率分布为
Figure GDA0002949758180000065
其中
Figure GDA0002949758180000066
为全连接层参数,
Figure GDA0002949758180000067
是维度转换矩阵,
Figure GDA0002949758180000068
softmax(·)为逻辑回归函数;
(2-3).根据步骤(1-3)(2-1)(2-2)得到下一时间步预测单词,不断循环执行,直至产生语句结束符(EOS:End of Sentence)或达到最大语句长度为止;
(2-4).生成整个描述语句的交叉熵损失
Figure GDA0002949758180000069
表示为:
Figure GDA00029497581800000610
其中,Y0是句子
Figure GDA00029497581800000611
的开始标志符(SOS:Start of Sentence),YL+1是句子
Figure GDA00029497581800000612
的结束标志符EOS。
步骤(3).建立双向重构网络,输入为解码器的隐藏向量,输出为重构的视频特征。具体方法是:
(3-1).所述的双向重构网络为一层双向长短时记忆神经网络(Bi-LSTM),双向长短时记忆神经网络能够利用视频序列的前向和反向信息重构视频帧特征;
所述的解码器隐藏层的注意力机制是指视频描述模型能够自适应地赋予解码器隐藏向量不同权重的机制:
(3-2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi-LSTM单元的输入,即
Figure GDA00029497581800000613
其中,
Figure GDA00029497581800000614
为解码器第i个LSTM单元的隐藏向量,μti∈(0,1)为
Figure GDA00029497581800000615
的权重大小,反映了
Figure GDA0002949758180000071
与重构网络第t-1个Bi-LSTM单元隐藏向量的相关性;
(3-3).通过双向重构网络得到视频第t帧的特征重构表示,即
Figure GDA0002949758180000072
其中,
Figure GDA0002949758180000073
为重构网络第t个Bi-LSTM单元的隐藏向量,r表示重构,bi_lstm(·)表示双向长短时记忆神经网络,双向重构网络的重构损失函数为
Figure GDA0002949758180000074
其中,||·||2表示向量的L2范数,n表示视频帧数。
步骤(4).利用随机梯度下降法优化上述网络模型,对新视频依次通过步骤(1)~(2)得到视频描述语句。具体方法是:
(4-1).通过最小化由步骤(2-4)描述语句的交叉熵损失
Figure GDA0002949758180000075
和步骤(3-3)双向重构网络的重构损失
Figure GDA0002949758180000076
组成的总体损失
Figure GDA0002949758180000077
λ为权衡系数,取值为0.1;利用随机梯度下降法优化编码器、解码器、双向重构网络,得到视频描述模型;
(4-2).输入新视频
Figure GDA0002949758180000078
依次经过步骤(1)~(2)得到视频的描述语句
Figure GDA0002949758180000079
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种基于层次注意力机制的双向重构网络视频描述方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:
步骤(1).利用卷积神经网络作为编码器提取视频帧的多尺度区域特征,利用层次注意力机制处理视频特征得到视频特征动态表示;具体方法是:
(1-1).假设给定的视频
Figure FDA0002959599330000011
含有n帧,其中Xi为第i帧图像,w,h,c分别表示视频帧的宽度、高度、通道数;
Figure FDA0002959599330000012
为视频
Figure FDA0002959599330000013
对应的描述语句,L为描述语句的长度,单词Yl采取独热编码,V为词汇表单词的个数;
(1-2).利用深度卷积神经网络GoogLeNet的卷积模块inception_4e和inception_5b分别提取视频第i帧的多尺度区域特征集合;
所述的多尺度是将视频帧划分为14×14个浅层区域集合和7×7个深层区域集合,区域特征即为每个区域通过所述卷积模块提取的特征;
浅层区域特征集合表示为:
Figure FDA0002959599330000014
深层区域特征集合表示为:
Figure FDA0002959599330000015
(1-3).层次注意力机制包括区域注意力机制和帧级注意力机制;
所述的区域注意力机制包括浅层区域注意力机制和深层区域注意力机制,是指视频描述模型能够自适应地赋予不同视频帧区域特征不同权重的机制;
所述的帧级注意力机制是指视频描述模型自适应地赋予不同视频帧特征不同权重的机制;
步骤(2).利用长短时记忆神经网络作为解码器,输入为视频特征动态表示及其文本描述,通过最小化交叉熵损失函数得到词汇表单词的概率分布并据此获得生成语句;
步骤(3).建立双向重构网络,输入为解码器的隐藏向量,输出为重构的视频特征;
步骤(4).利用随机梯度下降法优化上述网络模型,对新视频依次通过步骤(1)~(2)得到视频描述语句。
2.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法,其特征在于,步骤(2)具体方法是:
(2-1).利用一层LSTM构建解码器,解码器第t个LSTM单元的输入分别为输入视频特征videot、第t-1个单词Yt-1以及解码器第t-1个LSTM单元的隐藏向量
Figure FDA0002959599330000016
解码器输出为隐藏向量
Figure FDA0002959599330000021
其中
Figure FDA0002959599330000022
为单词嵌入矩阵,e表示单词嵌入维度大小,lstm(·)表示长短时记忆神经网络LSTM;
(2-2).利用全连接层及softmax函数得到词汇表所有单词的概率分布,概率最高的单词为当前时间步预测单词,概率分布为
Figure FDA0002959599330000023
其中
Figure FDA0002959599330000024
为全连接层参数,
Figure FDA0002959599330000025
是维度转换矩阵,
Figure FDA0002959599330000026
softmax(·)为逻辑回归函数;
(2-3).根据(1-3)、(2-1)、(2-2)得到下一时间步预测单词,不断循环执行,直至产生语句结束符或达到最大语句长度为止;
(2-4).生成整个描述语句的交叉熵损失
Figure FDA0002959599330000027
表示为:
Figure FDA0002959599330000028
其中,Y0是句子
Figure FDA0002959599330000029
的开始标志符,YL+1是句子
Figure FDA00029595993300000210
的结束标志符。
3.如权利要求2所述的一种基于层次注意力机制的双向重构网络视频描述方法,其特征在于,步骤(3)具体方法是:
(3-1).双向重构网络为一层Bi-LSTM,Bi-LSTM能够利用视频序列的前向和反向信息重构视频帧特征,Bi-LSTM为双向长短时记忆神经网络;
(3-2).根据解码器隐藏层的注意力机制得到双向重构网络第t个Bi-LSTM单元的输入,即
Figure FDA00029595993300000211
其中,
Figure FDA00029595993300000212
为解码器第i个LSTM单元的隐藏向量,μti∈(0,1)为
Figure FDA00029595993300000213
的权重大小,反映了
Figure FDA00029595993300000214
与重构网络第t-1个Bi-LSTM单元隐藏向量的相关性;
(3-3).通过双向重构网络得到视频第t帧的特征重构表示,即
Figure FDA00029595993300000215
其中,
Figure FDA00029595993300000216
为重构网络第t个Bi-LSTM单元的隐藏向量,r表示重构,bi_lstm(·)表示双向长短时记忆神经网络,双向重构网络的重构损失函数为
Figure FDA00029595993300000217
其中,||·||2表示向量的L2范数,n表示视频帧数。
4.如权利要求3所述的一种基于层次注意力机制的双向重构网络视频描述方法,其特征在于,步骤(4)具体方法是:
(4-1).通过最小化由(2-4)描述语句的交叉熵损失
Figure FDA0002959599330000031
和(3-3)双向重构网络的重构损失
Figure FDA0002959599330000032
组成的总体损失
Figure FDA0002959599330000033
λ为权衡系数,取值为0.1;利用随机梯度下降法优化编码器、解码器、双向重构网络,得到视频描述模型;
(4-2).输入新视频
Figure FDA0002959599330000034
依次经过步骤(1)~(2)得到视频的描述语句
Figure FDA0002959599330000035
5.如权利要求1所述的一种基于层次注意力机制的双向重构网络视频描述方法,其特征在于,所述的帧级注意力机制具体是:
①通过视频第i帧多尺度区域特征集合加权求和分别得到视频帧浅层特征
Figure FDA0002959599330000036
和深层特征
Figure FDA0002959599330000037
其中,
Figure FDA0002959599330000038
αij∈(0,1)为第i帧第j个浅层区域特征的注意力大小,βij∈(0,1)为第i帧第j个深层区域特征的注意力大小;第i帧特征
Figure FDA0002959599330000039
为视频帧浅层特征和深层特征的拼接向量;浅层特征用于捕获视频帧的空间特征,深层特征用于捕获视频帧抽象语义特征,两层特征互补形成视频帧特征;
②对视频帧特征加权求和得到解码器第t个LSTM单元的输入视频特征,即
Figure FDA00029595993300000310
其中
Figure FDA00029595993300000311
f_d=1856为视频特征维度,
Figure FDA00029595993300000312
为解码器第t个LSTM单元第i个视频帧特征的注意力大小,反映了视频第i帧与解码器第t-1个LSTM单元隐藏向量
Figure FDA00029595993300000313
的相关性,其中k为隐藏向量维度,d表示解码器。
CN201911045154.1A 2019-10-30 2019-10-30 一种基于层次注意力机制的双向重构网络视频描述方法 Active CN110929587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911045154.1A CN110929587B (zh) 2019-10-30 2019-10-30 一种基于层次注意力机制的双向重构网络视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911045154.1A CN110929587B (zh) 2019-10-30 2019-10-30 一种基于层次注意力机制的双向重构网络视频描述方法

Publications (2)

Publication Number Publication Date
CN110929587A CN110929587A (zh) 2020-03-27
CN110929587B true CN110929587B (zh) 2021-04-20

Family

ID=69849915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911045154.1A Active CN110929587B (zh) 2019-10-30 2019-10-30 一种基于层次注意力机制的双向重构网络视频描述方法

Country Status (1)

Country Link
CN (1) CN110929587B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111626116B (zh) * 2020-04-21 2022-12-27 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN111612103B (zh) * 2020-06-23 2023-07-11 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111818397B (zh) * 2020-06-29 2021-10-08 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN112135200B (zh) * 2020-08-13 2022-07-08 南京众智未来人工智能研究院有限公司 一种针对压缩视频的视频描述生成方法
CN112738647B (zh) * 2020-12-28 2022-04-01 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN113361250A (zh) * 2021-05-12 2021-09-07 山东师范大学 一种基于语义一致性的双向文本生成图像方法及系统
CN113422952B (zh) * 2021-05-17 2022-05-31 杭州电子科技大学 基于时空传播层次编解码器的视频预测方法
CN113420179B (zh) * 2021-06-24 2022-03-22 杭州电子科技大学 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114186568B (zh) * 2021-12-16 2022-08-02 北京邮电大学 一种基于关系编码和层次注意力机制的图像段落描述方法
CN116723333B (zh) * 2023-08-02 2023-10-31 清华大学 基于语义信息的可分层视频编码方法、装置及产品
CN117893697A (zh) * 2024-03-15 2024-04-16 之江实验室 一种三维人体视频重建方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109743642A (zh) * 2018-12-21 2019-05-10 西北工业大学 基于分层循环神经网络的视频摘要生成方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679085B2 (en) * 2017-10-31 2020-06-09 University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
CN108009148B (zh) * 2017-11-16 2021-04-27 天津大学 基于深度学习的文本情感分类表示方法
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
US11024041B2 (en) * 2018-12-10 2021-06-01 Intel Corporation Depth and motion estimations in machine learning environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109743642A (zh) * 2018-12-21 2019-05-10 西北工业大学 基于分层循环神经网络的视频摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Two-Level Attention Model Based Video Action Recognition Network;Haifeng Sang 等;《IEEE Access》;20190905;第7卷;第118388-118401页 *
基于重构特征的视频语义描述生成方法研究;王柏瑞;《中国优秀硕士学位论文全文数据库信息科技辑》;20190915;第27-38页 *

Also Published As

Publication number Publication date
CN110929587A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929587B (zh) 一种基于层次注意力机制的双向重构网络视频描述方法
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
US10885344B2 (en) Method and apparatus for generating video
CN110475129B (zh) 视频处理方法、介质及服务器
CN110738090A (zh) 使用神经网络进行端到端手写文本识别的系统和方法
CN110059324B (zh) 基于依存信息监督的神经网络机器翻译方法及装置
EP3885966B1 (en) Method and device for generating natural language description information
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN110347799A (zh) 语言模型训练方法、装置和计算机设备
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
Xue et al. A better way to attend: Attention with trees for video question answering
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN108985370B (zh) 图像标注语句自动生成方法
CN113392717A (zh) 一种基于时序特征金字塔的视频密集描述生成方法
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN113434664A (zh) 文本摘要生成方法、装置、介质及电子设备
US11687711B2 (en) Method and apparatus for generating commentary
Xia et al. Boosting image caption generation with feature fusion module
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
Chen et al. A survey on recent advances in image captioning
CN117079081A (zh) 一种多模态视频文本处理模型训练方法及系统
CN115329073A (zh) 一种基于注意力机制的方面级文本情感分析方法及系统
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN113722536A (zh) 基于双线性自适应特征交互与目标感知的视频描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230822

Address after: Room 102, Building C14, Zidong International Creative Park, No. 2 Zidong Road, Maqun Street, Qixia District, Nanjing City, Jiangsu Province, 210000

Patentee after: Nanjing Chima Information Technology Co.,Ltd.

Address before: No. 508-2A, Baoli Tianji North Block, Qiandenghu, Guicheng Street, Nanhai District, Foshan City, Guangdong Province, 528000 (Residence application)

Patentee before: Foshan Haixie Technology Co.,Ltd.

Effective date of registration: 20230822

Address after: No. 508-2A, Baoli Tianji North Block, Qiandenghu, Guicheng Street, Nanhai District, Foshan City, Guangdong Province, 528000 (Residence application)

Patentee after: Foshan Haixie Technology Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Bidirectional Reconstruction Network Video Description Method Based on Hierarchical Attention Mechanism

Granted publication date: 20210420

Pledgee: Bank of China Limited Nanjing Chengdong Branch

Pledgor: Nanjing Chima Information Technology Co.,Ltd.

Registration number: Y2024980007341

PE01 Entry into force of the registration of the contract for pledge of patent right