CN110991290A - 基于语义指导与记忆机制的视频描述方法 - Google Patents

基于语义指导与记忆机制的视频描述方法 Download PDF

Info

Publication number
CN110991290A
CN110991290A CN201911171235.6A CN201911171235A CN110991290A CN 110991290 A CN110991290 A CN 110991290A CN 201911171235 A CN201911171235 A CN 201911171235A CN 110991290 A CN110991290 A CN 110991290A
Authority
CN
China
Prior art keywords
video
semantic attribute
network
semantic
lstm network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911171235.6A
Other languages
English (en)
Other versions
CN110991290B (zh
Inventor
田春娜
杨喆
袁瑾
丁宇轩
张相南
王超华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911171235.6A priority Critical patent/CN110991290B/zh
Publication of CN110991290A publication Critical patent/CN110991290A/zh
Application granted granted Critical
Publication of CN110991290B publication Critical patent/CN110991290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义指导与记忆机制的视频描述方法,主要解决现有技术中视频语义信息利用不足,LSTM网络记忆能力有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层感知机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或人机交互中视频的自动语义描述。

Description

基于语义指导与记忆机制的视频描述方法
技术领域
本发明属于视频处理技术领域,特别涉及一种视频描述方法,可用于视频检索、人机交互和监控安防,分析视频中出现的目标对象,同时检测和识别这些目标对象的行为。
背景技术
在各式各样的多媒体数据中,视频数据复杂,包含内容更丰富,可传达的信息量也更大,因此,视频成为当今社会信息传播的重要载体。然而,人们亟需一种有效的技术来管理这些海量复杂的视频数据,并且帮助用户从中获取有用信息。而视频的自动语义描述,可以节省观看和标注视频的时间和人工成本,克服人工标注的主观性等问题,这使视频自动语义描述成为视频处理、分析与理解领域的关键技术。但是,为视频生成自然语言描述是一项非常具有挑战性的复杂任务,它不仅要识别视频中显著的目标和场景,还要描述它们的时空上下文关系以及动作交互等。因而,该任务涉及视频的视觉内容分析和自然语言处理等方面的技术。
目前的视频描述方法主要分为两类:
一类是基于模板的方法,其对描述视频的句子进行模板划分,使句子的每个片段与视觉内容相对齐,然后将从视觉中检测出的单词填入预定义的模板。
日本大阪府立大学的Kojima等人提出的基于动作概念的视频描述方法是早期的代表性工作之一,该方法首先检测人体姿势,包括头部位置、头部方向和手部位置,然后通过对齐动作的语义和视频的视觉特征,选择合适的目标及动词,按照句法结构填充到常用的案例模板中。
德州大学奥斯汀分校的Thomason等人提出了整合语言与视觉的方法,该方法首先通过视觉识别系统来获得视频中存在的目标、动作和场景的置信度,然后将其结合基于因子图模型FGM从文本语料库中挖掘出概率知识,以估计语句中的主语、动词、宾语和地点。
第二类是基于机器翻译的方法,该方法首先采用深度卷积神经网络CNN提取视频特征,然后采用循环神经网络将视频特征翻译为语句。典型的方法如下:
德州大学奥斯汀分校的Venugopalan等人提出的基于长短时记忆网络LSTM的视频描述模型。该模型是首先利用在大规模物体识别图像数据集ImageNet上预训练好的CNN模型来提取视频的帧级视觉特征,然后对帧级特征进行平均池化,以获得固定维度的视频帧级特征,并将其输入到LSTM网络中生成描述视频的句子。
蒙特利尔大学的Yao等人提出在生成视频描述时考虑视频的局部和全局时间结构。这种方法是利用三维卷积神经网络提取视频段视频的局部动作特征,利用二维卷积神经网络提取视频的视觉特征,并且结合时序注意力机制TA来探索视频的全局时间结构,在生成单词时,动态地关注与该单词最相关的那一部分视觉特征。
上述第一类方法过度依赖于预定义的模板和检测出来的视觉元素,生成的句子语法结构受限并且准确率低,只能简单的描述视频,缺乏语言的张力和表现力,不能展示语言自身的丰富性和美感。第二类方法中的大多数只用了视频的视觉信息,而忽略了视频中丰富的语义信息,且对视觉特征直接进行平均操作,导致视觉信息利用不充分;此外,只使用LSTM网络对视觉特征解码,没有充分利用视频的时序记忆,在解码过程中会使部分视觉信息丢失。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于语义指导与记忆机制的视频描述方法,以增加视频的语义信息,充分利用视频的视觉信息与时序记忆,提高视频描述语句的准确性和丰富性。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,将数据集Q中每个视频分解成视频单帧图像,使用已预训练好的ResNet152网络提取视频单帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个视频的总帧数;
(2)将数据集Q中每个视频的连续16帧图像作为一个视频段,使用已预训练好的C3D-ResNet18网络提取每个视频段的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},j=1,2,…,r,r为每个视频的总视频段数;
(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典:全局语义属性词典、目标语义属性词典、动作语义属性词典,用这三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器;
(4)取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进行加权求和,得到加权求和后的结果
Figure BDA0002288776250000021
Figure BDA0002288776250000022
(5)创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互;
(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器,分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va
(7)用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合,分别得到融合后的结果
Figure BDA0002288776250000031
(8)用目标语义属性oa与(4)得到的目标视觉特征的加权和
Figure BDA0002288776250000032
进行融合,得到融合后的结果v*
(9)用动作语义属性va与(4)得到的动作视觉特征的加权和
Figure BDA0002288776250000033
进行融合,得到融合后的结果c*
(10)将(7)~(9)的计算过程重复4遍,分别得到4组融合结果
Figure BDA0002288776250000034
mi、vi、ci
Figure BDA0002288776250000035
mf、vf、cf
Figure BDA0002288776250000036
mo、vo、co
Figure BDA0002288776250000037
mg、vg、cg
(11)将(10)计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态;
(12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态进行融合,得到融合后的结果R1,用目标语义属性oa与(4)得到的目标视觉特征的加权和
Figure BDA0002288776250000038
进行融合,得到融合后的结果R2,用动作语义属性va与(4)得到的动作视觉特征的加权和
Figure BDA0002288776250000039
进行融合,得到融合后的结果R3,并将R1、R2、R3进一步融合得到Pt
(13)将(12)的计算结果输入到softmax函数,计算得到数据集Q中所选视频的当前时刻的单词概率分布wt
(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ);
(15)对训练集E中的每个视频进行(4)~(14)操作,用Adam算法更新所有随机初始化的参数,使所有视频的交叉熵总和最小;
(16)固定所有参数的值,对测试集S中的每个视频进行(4)~(13)操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为描述该视频的单词。
本发明与现有技术相比具有如下优点:
1.对视频的描述更加准确
现有大多数已有的视频描述方法只使用了视频中的视觉信息,而忽视了视频中丰富的语义信息。
本发明利用视频的三种语义属性作为视频的语义信息,指导更新视觉特征、单词向量以及LSTM网络的隐藏状态,即将视觉信息、语义信息相结合,使视频获得的自然语言描述更准确。
2.能更好地捕获视频的时间动态
现有大多数已有的视频描述方法对视觉特征直接进行平均操作,导致视觉信息利用不充分,并且只使用LSTM网络对视觉特征解码,在解码过程中会使部分视觉信息丢失。
本发明使用注意力机制根据之前生成的单词自动地选择当前时刻应该关注的重要信息,并且在解码过程中加入外部记忆网络,提高了模型的记忆能力,可以更好地捕获视频的时间动态。
附图说明
图1是本发明的实现流程图;
图2是本发明中的语义属性预测示例;
图3是本发明仿真实验使用的MSVD数据集中视频与对应描述句子的示例图;
图4是用本发明在MSVD数据集上的仿真结果图。
具体实施方式
以下结合附图,对本发明的实施例和效果作进一步详细描述。
参照图1本实例的实施步骤如下:
步骤1,数据集视频预处理及提取视频的目标视觉特征。
1.1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,将数据集Q中每个视频分解成视频单帧图像;
1.2)将每个视频单帧图像随机裁剪成224×224像素大小,将裁减后的图像分别输入在ImageNet数据集上预训练好的ResNet152网络中,使用ResNet152网络pool5层的输出作为视频单帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个视频的总帧数。
步骤2,提取视频的动作视觉特征。
2.1)将数据集Q中每个视频的连续16帧图像作为一个视频段,将视频段送到在Sport1M数据集上预训练好的C3D-ResNet18网络中,通过该网络将该段中的每一帧图像都随机裁剪为112×112像素大小,并且对每个视频段中的帧以间隔J为采样率进行采样;
2.2)使用C3D-ResNet18网络中pool5层的输出作为视频的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},j=1,2,…,r,r为每个视频的总视频段数。
步骤3,利用训练集E中的单词与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器。
3.1)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析,从解析出的关系中选择名词主语和直接宾语;
3.2)从名词主语和直接宾语的单词对中提取名词和动词,从中选择出现频次最高的前T个单词来构建全局语义属性词典;
3.3)在一个视频的所有句子描述中选择出现次数不少于两次的名词,用这些名词构建出目标语义属性词典;
3.4)在一个视频的所有句子描述中选择出现次数不少于两次的动词,用这些动词构建出动作语义属性词典;
3.5)对于训练集E中的一个视频,用g=[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局语义属性,用o=[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性,用v=[v1,v2,…vi,…vY]∈{0,1}Y表示该视频的动作语义属性;
其中,gi是g中第i个位置的值,i=1,2,…,K,K表示全局语义属性词典的大小,如果全局语义属性词典中的第i个单词出现在描述该视频的句子中,就让gi=1,否则gi=0;oi是o中第i个位置的值,X表示目标语义属性词典的大小,如果目标语义属性词典中的第i个单词出现在描述该视频的句子中,就让oi=1,否则oi=0;vi是v中第i个位置的值,Y表示动作语义属性词典的大小,如果动作语义属性词典中的第i个单词出现在描述该视频的句子中,就让vi=1,否则vi=0;
3.6)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机,分别得到该视频三种语义属性的预测值,计算公式如下:
ga=MLP([f,m])
oa=MLP(f)
va=MLP(m),
其中,ga表示全局语义属性预测值,oa表示目标语义属性预测值,va表示动作语义属性预测值,f表示对该视频的目标视觉特征{fi}取平均之后的特征,m表示对该视频的动作视觉特征{mj}取平均之后的特征,[f,m]表示f与m的拼接;
3.7)计算三种语义属性预测值与真实语义属性之间的交叉熵,计算公式如下:
Figure BDA0002288776250000051
Figure BDA0002288776250000052
Figure BDA0002288776250000053
其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵,L(o,oa)是目标语义属性预测值与真实目标语义属性的交叉熵,L(v,va)是动作语义属性预测值与真实动作语义属性的交叉熵,gai表示ga中第i个位置的值,oai表示oa中第i个位置的值,vai表示va中第i个位置的值;
3.8)对训练集E中的每个视频进行3.5)~3.7)操作,用Adam算法更新三个多层感知机的参数,使所有视频的语义属性交叉熵总和最小。
步骤4,取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进行加权求和,得到加权求和后的结果
Figure BDA0002288776250000061
Figure BDA0002288776250000062
4.1)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1和视频第i帧的目标视觉特征fi作为输入,计算相似性得分
Figure BDA0002288776250000063
并根据相似性得分
Figure BDA0002288776250000064
计算目标视觉特征加权权重
Figure BDA0002288776250000065
计算公式如下:
Figure BDA0002288776250000066
Figure BDA0002288776250000067
其中,
Figure BDA0002288776250000068
表示tanh函数,ω1、Wb、Wf、bb都是随机初始化的不同参数;
4.2)计算LSTM网络在t时刻输入的目标视觉特征加权和
Figure BDA0002288776250000069
Figure BDA00022887762500000610
4.3)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1和视频第j个视频段的动作视觉特征mj作为输入,计算相似性得分
Figure BDA00022887762500000611
并根据相似性得分
Figure BDA00022887762500000612
计算动作视觉特征加权权重
Figure BDA00022887762500000613
计算公式如下:
Figure BDA00022887762500000614
Figure BDA00022887762500000615
其中,
Figure BDA00022887762500000616
表示tanh函数,ω2、Wc、Wm、bc都是随机初始化的不同参数;
4.4)计算LSTM网络在t时刻输入的动作视觉特征加权和
Figure BDA00022887762500000617
Figure BDA00022887762500000618
步骤5,创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互。
5.1)在生成视频描述句子的每个单词概率分布之前,先根据LSTM网络前一时刻的隐藏状态计算出擦除向量et和添加向量at
et=σ(Weht-1+be)
at=φ(Waht-1+ba),
其中,σ表示sigmoid函数,
Figure BDA00022887762500000619
表示tanh函数,ht-1为LSTM网络前一时刻的隐藏状态,We、Wa、be、ba都是随机初始化的不同参数;
5.2)计算出写入关键值向量
Figure BDA0002288776250000071
写入强度系数
Figure BDA0002288776250000072
和写入权重向量
Figure BDA0002288776250000073
计算公式如下:
Figure BDA0002288776250000074
Figure BDA0002288776250000075
Figure BDA0002288776250000076
其中,δ为ReLU函数,Ww
Figure BDA0002288776250000077
bw
Figure BDA0002288776250000078
都是随机初始化的不同参数,
Figure BDA0002288776250000079
是记忆写入权重值,是由写入关键值向量
Figure BDA00022887762500000710
与记忆网络中每个位置的存储向量Mt-1(i)进行相似性度量得到的,||·||表示取二范数,ε是为了防止分母为0而取的一个正数;
5.3)用擦除向量et、添加向量at和写入权重向量
Figure BDA00022887762500000711
对记忆网络每个位置的存储向量进行更新,得到每个位置更新后的存储向量Mt(i):
Figure BDA00022887762500000712
其中,⊙表示逐元素点乘操作;
5.4)在记忆网络内的存储向量完成更新后,分别计算读取关键值向量
Figure BDA00022887762500000713
读取强度系数
Figure BDA00022887762500000714
读取权重向量
Figure BDA00022887762500000715
计算公式为:
Figure BDA00022887762500000716
Figure BDA00022887762500000717
Figure BDA00022887762500000718
其中,
Figure BDA00022887762500000719
为记忆读取权重值,Wr
Figure BDA00022887762500000720
br
Figure BDA00022887762500000721
都是随机初始化的不同参数;
5.5)LSTM网络读取记忆网络里的内容rt,表示为:
Figure BDA00022887762500000722
步骤6,将数据集Q中所选视频的视觉特征输入到步骤3得到的三个语义属性预测器,分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va
6.1)对数据集Q中所选视频的一组目标视觉特征{fi}取平均得到f,将f输入目标语义属性预测器,得到该视频的目标语义属性oa
6.2)将该视频的一组动作视觉特征{mj}取平均得到m,将m输入动作语义属性预测器,得到该视频的动作语义属性va
6.3)将f与m拼接起来输入全局语义属性预测器,得到该视频的全局语义属性ga,得到的三种语义属性,如图2所示。
步骤7,用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合,分别得到融合后的结果
Figure BDA0002288776250000081
m*
7.1)将全局语义属性ga与LSTM网络前一时刻的隐藏状态ht-1融合,得到融合后的结果
Figure BDA0002288776250000082
计算公式为:
Figure BDA0002288776250000083
其中,⊙表示逐元素点乘操作,Ua*、Ub*是随机初始化的不同参数;
7.2)将全局语义属性ga与当前时刻的单词向量xt融合,得到融合后的结果
Figure BDA0002288776250000084
计算公式为:
Figure BDA0002288776250000085
其中,xt是已预训练得到的单词向量,Wa*、Wb*是随机初始化的不同参数;
7.3)将全局语义属性ga与从外部记忆网络读取的信息rt融合,得到融合后的结果m*,计算公式为:
m*=Ma*rt⊙Mb*ga
其中,Ma*、Mb*是随机初始化的不同参数。
步骤8,用目标语义属性oa与目标视觉特征的加权和
Figure BDA0002288776250000086
进行融合,用动作语义属性va与动作视觉特征的加权和
Figure BDA0002288776250000087
进行融合。
8.1)将目标语义属性oa与步骤4得到的目标视觉特征的加权和
Figure BDA0002288776250000088
进行融合,得到融合后的结果v*,计算公式为:
Figure BDA0002288776250000089
其中,⊙表示逐元素点乘操作,Va*、Vb*是随机初始化的不同参数。
8.2)将动作语义属性va与步骤4得到的动作视觉特征的加权和
Figure BDA00022887762500000810
进行融合,得到融合后的结果c*,计算公式为:
Figure BDA00022887762500000811
其中,⊙表示逐元素点乘操作,Ca*、Cb*是随机初始化的不同参数。
步骤9,将步骤7~步骤8的计算过程重复4遍,分别得到4组融合结果
Figure BDA00022887762500000812
mi、vi、ci
Figure BDA00022887762500000813
mf、vf、cf
Figure BDA00022887762500000814
mo、vo、co
Figure BDA00022887762500000815
mg、vg、cg
步骤10,将步骤9计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态。
10.1)计算LSTM网络当前时刻输入门it,遗忘门ft,输出门ot,输入权重门gt的值,计算公式为:
Figure BDA0002288776250000091
Figure BDA0002288776250000092
Figure BDA0002288776250000093
Figure BDA0002288776250000094
其中,σ表示sigmoid函数,
Figure BDA0002288776250000095
表示tanh函数,
Figure BDA0002288776250000096
mi、vi、ci
Figure BDA0002288776250000097
mf、vf、cf
Figure BDA0002288776250000098
mo、vo、co
Figure BDA0002288776250000099
mg、vg、cg是(9)计算得到的四组结果,Wci、Wcf、Wco、Wcg、Uci、Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数;
10.2)根据输入门it、遗忘门ft、输入权重门gt的值,计算LSTM网络当前时刻的细胞记忆状态ct
ct=gt⊙it+ct-1⊙ft
其中,⊙表示逐元素点乘操作,ct-1为LSTM网络前一时刻细胞记忆状态的值;
10.3)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值,计算LSTM网络当前时刻的隐藏状态ht
ht=ot⊙φ(ct)。
步骤11,用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合,用目标语义属性oa与目标视觉特征的加权和
Figure BDA00022887762500000910
进行融合,用动作语义属性va与动作视觉特征的加权和
Figure BDA00022887762500000911
进行融合,并将这三个融合结果进一步融合。
11.1)将全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合,得到融合后的结果R1,计算公式为:
R1=Wkht⊙Wlga
其中,⊙表示逐元素点乘操作,Wk、Wl是随机初始化的不同参数;
11.2)将目标语义属性oa与步骤4得到的目标视觉特征的加权和
Figure BDA00022887762500000912
融合,得到融合后的结果R2,计算公式为:
Figure BDA00022887762500000913
其中,Wp、Ws是随机初始化的不同参数;
11.3)将动作语义属性va与步骤4得到的动作视觉特征的加权和
Figure BDA0002288776250000101
融合,得到融合后的结果R3,计算公式为:
Figure BDA0002288776250000102
其中,Wu、Wv是随机初始化的不同参数;
11.4)将R1、R2、R3融合,得到融合后的结果Pt,计算公式为:
Pt=φ(Wq[R1,R2,R3]+bq),
其中,Wq、bq是随机初始化的不同参数,[R1,R2,R3]表示R1、R2、R3的拼接。
步骤12,计算数据集Q中选取的一个视频的单词概率分布wt
将步骤11的计算结果输入到softmax函数中,计算得到数据集Q所选视频的当前时刻单词概率分布wt
wt=softmax(WdPt+bd),
其中,softmax表示softmax函数,Wd、bd是随机初始化的两个不同参数。
步骤13,计算数据集Q所选视频的单词概率分布与正确的单词概率分布的交叉熵L(θ)。
根据步骤12得到的单词概率分布wt及所选视频的视觉特征V、语义属性S、所有随机初始化的参数θ,计算交叉熵L(θ):
Figure BDA0002288776250000103
其中,Ti表示数据集Q所选视频自带的第i个正确句子的单词数量,w1~(t-1)表示t时刻之前得到的所有单词的概率分布。
步骤14,对训练集E中的每个视频进行步骤4~步骤13操作,用Adam算法更新所有随机初始化的参数,使训练集E中所有视频的交叉熵总和最小。
步骤15,在步骤14完成所有参数的更新后,固定所有参数的值,对测试集S中的每个视频进行步骤4~步骤12操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为描述该视频的单词。
本发明的优点可通过以下实验进一步说明:
1.实验条件
本发明的仿真实验是在MSVD数据集上进行的,实验中将数据集的1970个视频划分为大小分别为1200、100、670的训练集、验证集、测试集。
数据集中视频与对应描述句子的示例如图3所示,图3(a)是数据集中的一个视频,图3(b)是该视频自带的一些语言描述。
对仿真的结果用METEOR、BLEU、ROUGE、CIDER四种评价指标进行打分。
2.仿真内容
仿真1,用本发明在MSVD数据集上进行仿真,图4展示了本发明对测试集上前六个视频的描述结果,其中,每三幅图代表一个视频,每个视频下面的句子代表本发明对该视频生成的描述,即第一个视频生成的描述是“men are playing basketball”,第二个视频生成的描述是“a band is performing on stage”,第三个视频生成的描述是“a boy isplaying a guitar”,第四个视频生成的描述是“a person is cutting meat”,第五个视频生成的描述是“a man is riding a motorcycle”,第六个视频生成的描述是“a dog isswimming in a pool”,由图4可看出本发明可以对视频生成准确、生动的自然语言描述。
将仿真结果的四种评分与其他现有的8种主流方法进行比较,评分结果如表1所示。
表1
方法 METEOR BLEU@1 BLEU@2 BLEU@3 BLEU@4 CIDEr ROUGE_L
FGM 23.9 - - - - - -
LSTM 29.1 - - - 33.3 - -
S2VT 29.8 - - - - - -
TA 29.6 80.0 64.7 52.6 41.9 51.7 -
LSTM-E 31.0 78.8 66.0 55.4 45.3 - -
GRU-RCN 31.6 - - - 43.3 68.0 -
h-RNN 32.6 81.5 70.4 60.4 49.9 65.8 -
HRNE 33.9 81.1 68.6 57.8 46.7 - -
本发明 34.1 81.8 70.4 60.9 51.3 76.3 70.8
表1中,FGM是整合语言与视觉特征的方法,
LSTM是仅基于LSTM网络的方法,
S2VT是使用图像特征和光流特征,并使用两个LSTM网络的方法,
TA是使用了注意力机制的方法,
LSTM-E是将视觉特征和文本特征嵌入到同一空间的方法,
GRU-RCN是结合GRU网络和循环卷积网络的方法,
h-RNN是使用多层循环网络做视频解码的方法,
HRNE是使用多层循环网络做视频编码的方法,
BLEU@1、BLEU@2、BLEU@3、BLEU@4是BLEU评价指标中的四种评价方法,分别表示生成的句子与参考句子之间连续1、2、3、4个单词序列相同的比率,
ROUGE-L是ROUGE评价指标中以最长公共子句的精确率以及召回率为基础的评价方法。
表1表明本发明提出的方法性能在各项评价指标上均高于其它主流方法,并且在CIDER指标上的结果达到了76.3,相对于TA,GRU-RCN,h-RNN分别提高了47.6%,12.0%,16.0%,并且在METEOR指标上也达到了34.1,目前极少有方法能在METEOR指标上突破34,此外与其它方法相比,本发明在BLEU的各项指标上的结果也具有非常显著提升。
仿真2,对本发明提出的方法做消融实验,即分别去掉注意力机制、外部记忆网络、语义属性,比较仿真结果的评分变化,结果如表2所示。
表2
Figure BDA0002288776250000121
表2表明,使用语义属性、注意力机制、外部记忆网络相结合的方法结果最好,并且语义信息、注意力机制和外部记忆网络分别都对提升视频描述模型的性能有帮助。
综上,本发明提出的方法使用注意力机制动态选择最相关的目标视觉特征和动作视觉特征,同时也可以相对抑制不重要的视觉信息,并且通过外加记忆网络,将外部记忆网络和语言模型的内部状态进行信息交流,可以帮助语言模型记住更长时间的信息,帮助生成的单词可以更好的理解上下文信息;此外还使用了三种类型语义属性,融入在每一时刻生成单词的计算过程,可以让模型更好的关注与整个视频的目标和动作相关的信息,从而生成更加准确、生动的自然语言描述。

Claims (13)

1.一种基于语义指导与记忆机制的视频描述方法,其特征在于,包括如下:
(1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,将数据集Q中每个视频分解成视频单帧图像,使用已预训练好的ResNet152网络提取视频单帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个视频的总帧数;
(2)将数据集Q中每个视频的连续16帧图像作为一个视频段,使用已预训练好的C3D-ResNet18网络提取每个视频段的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},j=1,2,…,r,r为每个视频的总视频段数;
(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典:全局语义属性词典、目标语义属性词典、动作语义属性词典,用这三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器;
(4)取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进行加权求和,得到加权求和后的结果
Figure FDA0002288776240000011
Figure FDA0002288776240000012
(5)创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互;
(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器,分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va
(7)用全局语义属性ga分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合,分别得到融合后的结果
Figure FDA0002288776240000013
m*
(8)用目标语义属性oa与(4)得到的目标视觉特征的加权和
Figure FDA0002288776240000014
进行融合,得到融合后的结果v*
(9)用动作语义属性va与(4)得到的动作视觉特征的加权和
Figure FDA0002288776240000015
进行融合,得到融合后的结果c*
(10)将(7)~(9)的计算过程重复4遍,分别得到4组融合结果
Figure FDA0002288776240000016
mi、vi、ci
Figure FDA0002288776240000017
mf、vf、cf
Figure FDA0002288776240000018
mo、vo、co
Figure FDA0002288776240000019
mg、vg、cg
(11)将(10)计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态;
(12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合,得到融合后的结果R1,用目标语义属性oa与(4)得到的目标视觉特征的加权和
Figure FDA0002288776240000021
进行融合,得到融合后的结果R2,用动作语义属性va与(4)得到的动作视觉特征的加权和
Figure FDA0002288776240000022
进行融合,得到融合后的结果R3,并将R1、R2、R3进一步融合得到Pt
(13)将(12)的计算结果输入到softmax函数,计算得到数据集Q所选视频的当前时刻的单词概率分布wt
(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ);
(15)对训练集E中的每个视频进行(4)~(14)操作,用Adam算法更新所有随机初始化的参数,使所有视频的交叉熵总和最小;
(16)在步骤14完成所有参数的更新后,固定所有参数的值,对测试集S中的每个视频进行(4)~(13)操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为描述该视频的单词。
2.根据权利要求1所述的方法,其特征在于,(3)中将训练集E中句子所包含的单词分为三种类型的语义属性词典,按如下过程进行:
(3a)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析,从解析出的关系中选择名词主语和直接宾语;
(3b)从名词主语和直接宾语的单词对中提取名词和动词,从中选择出现频次最高的前T个单词来构建全局语义属性词典;
(3c)在一个视频的所有句子描述中选择出现次数不少于两次的名词,用这些名词构建出目标语义属性词典;
(3d)在一个视频的所有句子描述中选择出现次数不少于两次的动词,用这些动词构建出动作语义属性词典。
3.根据权利要求1所述的方法,其特征在于,(3)中用三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器,按如下过程进行:
(3e)对于训练集E中的一个视频,用g=[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局语义属性,用o=[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性,用v=[v1,v2,…vi,…vY]∈{0,1}Y表示该视频的动作语义属性,其中,gi是g中第i个位置的值,i=1,2,…,K,K表示全局语义属性词典的大小,如果全局语义属性词典中的第i个单词出现在描述该视频的句子中,就让gi=1,否则gi=0;oi是o中第i个位置的值,X表示目标语义属性词典的大小,如果目标语义属性词典中的第i个单词出现在描述该视频的句子中,就让oi=1,否则oi=0;vi是v中第i个位置的值,Y表示动作语义属性词典的大小,如果动作语义属性词典中的第i个单词出现在描述该视频的句子中,就让vi=1,否则vi=0;
(3f)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机,分别得到该视频三种语义属性的预测值,计算公式如下:
ga=MLP([f,m])
oa=MLP(f)
va=MLP(m)
其中,ga表示全局语义属性预测值,oa表示目标语义属性预测值,va表示动作语义属性预测值,f表示对该视频的目标视觉特征{fi}取平均之后的特征,m表示对该视频的动作视觉特征{mj}取平均之后的特征,[f,m]表示f与m的拼接;
(3g)计算三种语义属性预测值与真实语义属性之间的交叉熵,计算公式如下:
Figure FDA0002288776240000031
Figure FDA0002288776240000032
Figure FDA0002288776240000033
其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵,L(o,oa)是目标语义属性预测值与真实目标语义属性的交叉熵,L(v,va)是动作语义属性预测值与真实动作语义属性的交叉熵,gai表示ga中第i个位置的值,oai表示oa中第i个位置的值,vai表示va中第i个位置的值;
(3h)对训练集E中的每个视频进行(3e)~(3g)操作,用Adam算法更新三个多层感知机的参数,使所有视频的语义属性交叉熵总和最小。
4.根据权利要求1所述的方法,其特征在于,(4)中对一个视频的一组目标视觉特征{fi}进行加权求和,按如下过程进行:
(4a)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1和视频第i帧的目标视觉特征fi作为输入,计算相似性得分
Figure FDA0002288776240000034
并根据相似性得分
Figure FDA0002288776240000041
计算目标视觉特征加权权重
Figure FDA0002288776240000042
计算公式如下:
Figure FDA0002288776240000043
Figure FDA0002288776240000044
其中,
Figure FDA00022887762400000414
表示tanh函数,ω1、Wb、Wf、bb都是随机初始化的不同参数;
(4b)计算LSTM网络在t时刻输入的目标视觉特征加权和
Figure FDA0002288776240000045
Figure FDA0002288776240000046
5.根据权利要求1所述的方法,其特征在于,(4)中对一个视频的一组动作视觉特征{mj}进行加权求和,按如下过程进行:
(4c)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1和视频第j个视频段的动作视觉特征mj作为输入,计算相似性得分
Figure FDA0002288776240000047
并根据相似性得分
Figure FDA0002288776240000048
计算动作视觉特征加权权重
Figure FDA0002288776240000049
计算公式如下:
Figure FDA00022887762400000410
Figure FDA00022887762400000411
其中,
Figure FDA00022887762400000415
表示tanh函数,ω2、Wc、Wm、bc都是随机初始化的不同参数;
(4d)计算LSTM网络在t时刻输入的动作视觉特征加权和
Figure FDA00022887762400000412
Figure FDA00022887762400000413
6.根据权利要求1所述的方法,其特征在于,(5)中外部记忆网络通过写入和读取操作与LSTM网络进行信息交互,按如下步骤进行:
(5a)在生成视频描述句子的每个单词概率分布之前,先根据LSTM网络前一时刻的隐藏状态计算出擦除向量et和添加向量at
et=σ(Weht-1+be)
at=φ(Waht-1+ba)
其中,σ表示sigmoid函数,
Figure FDA00022887762400000416
表示tanh函数,ht-1为LSTM网络前一时刻的隐藏状态,We、Wa、be、ba都是随机初始化的不同参数;
(5b)计算出写入关键值向量
Figure FDA0002288776240000051
写入强度系数
Figure FDA0002288776240000052
和写入权重向量
Figure FDA0002288776240000053
计算公式如下:
Figure FDA0002288776240000054
Figure FDA0002288776240000055
Figure FDA0002288776240000056
其中,δ为ReLU函数,Ww
Figure FDA0002288776240000057
bw
Figure FDA0002288776240000058
都是随机初始化的不同参数,
Figure FDA0002288776240000059
是记忆写入权重值,是由写入关键值向量
Figure FDA00022887762400000510
与记忆网络中每个位置的存储向量Mt-1(i)进行相似性度量得到的,||·||表示取二范数,ε是为了防止分母为0而取的一个正数;
(5c)用擦除向量et、添加向量at和写入权重向量
Figure FDA00022887762400000511
对记忆网络每个位置的存储向量进行更新,得到每个位置更新后的存储向量Mt(i):
Figure FDA00022887762400000512
其中,⊙表示逐元素点乘操作;
(5d)在记忆网络内的存储向量完成更新后,分别计算读取关键值向量
Figure FDA00022887762400000513
读取强度系数
Figure FDA00022887762400000514
读取权重向量
Figure FDA00022887762400000515
计算公式为:
Figure FDA00022887762400000516
Figure FDA00022887762400000517
Figure FDA00022887762400000518
其中,
Figure FDA00022887762400000519
为记忆读取权重值,Wr
Figure FDA00022887762400000520
br
Figure FDA00022887762400000521
都是随机初始化的不同参数;
(5e)LSTM网络读取记忆网络里的内容rt,表示为:
Figure FDA00022887762400000522
7.根据权利要求1所述的方法,其特征在于,(7)中得到融合后的结果
Figure FDA00022887762400000523
m*分别表示如下:
全局语义属性ga与LSTM网络前一时刻的隐藏状态ht-1融合后的结果
Figure FDA0002288776240000061
为:
Figure FDA0002288776240000062
其中,⊙表示逐元素点乘操作,Ua*、Ub*是随机初始化的不同参数;
全局语义属性ga与当前时刻的单词向量xt融合后的结果
Figure FDA0002288776240000063
为:
Figure FDA0002288776240000064
其中,xt是已预训练得到的单词向量,Wa*、Wb*是随机初始化的不同参数;
全局语义属性ga与从外部记忆网络读取的信息rt融合后的结果m*为:m*=Ma*rt⊙Mb*ga,其中,Ma*、Mb*是随机初始化的不同参数。
8.根据权利要求1所述的方法,其特征在于,(8)中得到融合后的结果v*表示如下:
Figure FDA0002288776240000065
其中,⊙表示逐元素点乘操作,Va*、Vb*是随机初始化的不同参数。
9.根据权利要求1所述的方法,其特征在于,(9)中得到融合后的结果c*表示如下:
Figure FDA0002288776240000066
其中,⊙表示逐元素点乘操作,Ca*、Cb*是随机初始化的不同参数。
10.根据权利要求1所述的方法,其特征在于,(11)中LSTM网络当前时刻的隐藏状态,按如下过程得到:
(11a)计算LSTM网络当前时刻输入门it,遗忘门ft,输出门ot,输入权重门gt的值,计算公式为:
Figure FDA0002288776240000067
Figure FDA0002288776240000068
Figure FDA0002288776240000069
Figure FDA00022887762400000610
其中,σ表示sigmoid函数,
Figure FDA00022887762400000615
表示tanh函数,
Figure FDA00022887762400000611
mi、vi、ci
Figure FDA00022887762400000612
mf、vf、cf
Figure FDA00022887762400000613
mo、vo、co
Figure FDA00022887762400000614
mg、vg、cg是(10)计算得到的四组结果,Wci、Wcf、Wco、Wcg、Uci、Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数;
(11b)根据输入门it、遗忘门ft、输入权重门gt的值,计算LSTM网络当前时刻的细胞记忆状态ct
ct=gt⊙it+ct-1⊙ft
其中,⊙表示逐元素点乘操作,ct-1为LSTM网络前一时刻细胞记忆状态的值;
(11c)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值,计算LSTM网络当前时刻的隐藏状态ht
ht=ot⊙φ(ct)。
11.根据权利要求1所述的方法,其特征在于,(12)中得到的融合结果R1、R2、R3、Pt分别表示如下:
全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合后的结果R1为:R1=Wkht⊙Wlga,其中,⊙表示逐元素点乘操作,Wk、Wl是随机初始化的不同参数;
目标语义属性oa与(4)得到的目标视觉特征的加权和
Figure FDA0002288776240000074
融合后的结果R2为:
Figure FDA0002288776240000071
其中Wp、Ws是随机初始化的不同参数;
动作语义属性va与(4)得到的动作视觉特征的加权和
Figure FDA0002288776240000075
融合后的结果R3为:
Figure FDA0002288776240000072
其中Wu、Wv是随机初始化的不同参数;
R1、R2、R3融合后的结果Pt为:Pt=φ(Wq[R1,R2,R3]+bq),其中,Wq、bq是随机初始化的不同参数,[R1,R2,R3]表示R1、R2、R3的拼接。
12.根据权利要求1所述的方法,其特征在于,(13)中计算得到该视频的当前时刻的单词概率分布wt,通过如下公式计算:
wt=softmax(WdPt+bd)
其中,softmax表示softmax函数,Wd、bd是随机初始化的不同参数。
13.根据权利要求1所述的方法,其特征在于,(14)中计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ),通过如下公式计算:
Figure FDA0002288776240000073
其中,Ti表示该视频自带的第i个正确句子的单词数量,w1~(t-1)表示t时刻之前得到的所有单词的概率分布,V表示该视频的视觉特征,S表示该视频的语义属性,θ表示所有随机初始化的参数。
CN201911171235.6A 2019-11-26 2019-11-26 基于语义指导与记忆机制的视频描述方法 Active CN110991290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171235.6A CN110991290B (zh) 2019-11-26 2019-11-26 基于语义指导与记忆机制的视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171235.6A CN110991290B (zh) 2019-11-26 2019-11-26 基于语义指导与记忆机制的视频描述方法

Publications (2)

Publication Number Publication Date
CN110991290A true CN110991290A (zh) 2020-04-10
CN110991290B CN110991290B (zh) 2023-03-10

Family

ID=70086939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171235.6A Active CN110991290B (zh) 2019-11-26 2019-11-26 基于语义指导与记忆机制的视频描述方法

Country Status (1)

Country Link
CN (1) CN110991290B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112183391A (zh) * 2020-09-30 2021-01-05 中国科学院计算技术研究所 一种第一视角视频行为预测系统及方法
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法
WO2022011493A1 (zh) * 2020-07-13 2022-01-20 广东石油化工学院 一种神经语义记忆存储方法
CN114511813A (zh) * 2022-04-20 2022-05-17 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
CN116229174A (zh) * 2023-03-10 2023-06-06 南京审计大学 一种基于空谱联合注意力机制的高光谱多类变化检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭玉青等: "融合场景因素的视频内容理解模型", 《中国科技论文》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022011493A1 (zh) * 2020-07-13 2022-01-20 广东石油化工学院 一种神经语义记忆存储方法
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN111985612B (zh) * 2020-07-21 2024-02-06 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112183391A (zh) * 2020-09-30 2021-01-05 中国科学院计算技术研究所 一种第一视角视频行为预测系统及方法
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN112685597B (zh) * 2021-03-12 2021-07-13 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法
CN113312923B (zh) * 2021-06-18 2023-03-24 广东工业大学 一种球类赛事文字解说生成方法
CN114511813A (zh) * 2022-04-20 2022-05-17 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
CN116229174A (zh) * 2023-03-10 2023-06-06 南京审计大学 一种基于空谱联合注意力机制的高光谱多类变化检测方法

Also Published As

Publication number Publication date
CN110991290B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN107133211B (zh) 一种基于注意力机制的作文评分方法
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
Liu et al. Chinese image caption generation via visual attention and topic modeling
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113536804A (zh) 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
Wei et al. Exploiting the local temporal information for video captioning
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
Deorukhkar et al. A detailed review of prevailing image captioning methods using deep learning techniques
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
Parmar et al. Abstractive text summarization using artificial intelligence
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN114743143A (zh) 一种基于多概念知识挖掘的视频描述生成方法及存储介质
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant