CN110991290B - 基于语义指导与记忆机制的视频描述方法 - Google Patents
基于语义指导与记忆机制的视频描述方法 Download PDFInfo
- Publication number
- CN110991290B CN110991290B CN201911171235.6A CN201911171235A CN110991290B CN 110991290 B CN110991290 B CN 110991290B CN 201911171235 A CN201911171235 A CN 201911171235A CN 110991290 B CN110991290 B CN 110991290B
- Authority
- CN
- China
- Prior art keywords
- video
- semantic attribute
- semantic
- network
- lstm network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007246 mechanism Effects 0.000 title claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000002844 melting Methods 0.000 claims 1
- 230000008018 melting Effects 0.000 claims 1
- 238000004088 simulation Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 235000019987 cider Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义指导与记忆机制的视频描述方法,主要解决现有技术中视频语义信息利用不足,LSTM网络记忆能力有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层感知机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或人机交互中视频的自动语义描述。
Description
技术领域
本发明属于视频处理技术领域,特别涉及一种视频描述方法,可用于视频检索、人机交互和监控安防,分析视频中出现的目标对象,同时检测和识别这些目标对象的行为。
背景技术
在各式各样的多媒体数据中,视频数据复杂,包含内容更丰富,可传达的信息量也更大,因此,视频成为当今社会信息传播的重要载体。然而,人们亟需一种有效的技术来管理这些海量复杂的视频数据,并且帮助用户从中获取有用信息。而视频的自动语义描述,可以节省观看和标注视频的时间和人工成本,克服人工标注的主观性等问题,这使视频自动语义描述成为视频处理、分析与理解领域的关键技术。但是,为视频生成自然语言描述是一项非常具有挑战性的复杂任务,它不仅要识别视频中显著的目标和场景,还要描述它们的时空上下文关系以及动作交互等。因而,该任务涉及视频的视觉内容分析和自然语言处理等方面的技术。
目前的视频描述方法主要分为两类:
一类是基于模板的方法,其对描述视频的句子进行模板划分,使句子的每个片段与视觉内容相对齐,然后将从视觉中检测出的单词填入预定义的模板。
日本大阪府立大学的Kojima等人提出的基于动作概念的视频描述方法是早期的代表性工作之一,该方法首先检测人体姿势,包括头部位置、头部方向和手部位置,然后通过对齐动作的语义和视频的视觉特征,选择合适的目标及动词,按照句法结构填充到常用的案例模板中。
德州大学奥斯汀分校的Thomason等人提出了整合语言与视觉的方法,该方法首先通过视觉识别系统来获得视频中存在的目标、动作和场景的置信度,然后将其结合基于因子图模型FGM从文本语料库中挖掘出概率知识,以估计语句中的主语、动词、宾语和地点。
第二类是基于机器翻译的方法,该方法首先采用深度卷积神经网络CNN提取视频特征,然后采用循环神经网络将视频特征翻译为语句。典型的方法如下:
德州大学奥斯汀分校的Venugopalan等人提出的基于长短时记忆网络LSTM的视频描述模型。该模型是首先利用在大规模物体识别图像数据集ImageNet上预训练好的CNN模型来提取视频的帧级视觉特征,然后对帧级特征进行平均池化,以获得固定维度的视频帧级特征,并将其输入到LSTM网络中生成描述视频的句子。
蒙特利尔大学的Yao等人提出在生成视频描述时考虑视频的局部和全局时间结构。这种方法是利用三维卷积神经网络提取视频段视频的局部动作特征,利用二维卷积神经网络提取视频的视觉特征,并且结合时序注意力机制TA来探索视频的全局时间结构,在生成单词时,动态地关注与该单词最相关的那一部分视觉特征。
上述第一类方法过度依赖于预定义的模板和检测出来的视觉元素,生成的句子语法结构受限并且准确率低,只能简单的描述视频,缺乏语言的张力和表现力,不能展示语言自身的丰富性和美感。第二类方法中的大多数只用了视频的视觉信息,而忽略了视频中丰富的语义信息,且对视觉特征直接进行平均操作,导致视觉信息利用不充分;此外,只使用LSTM网络对视觉特征解码,没有充分利用视频的时序记忆,在解码过程中会使部分视觉信息丢失。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于语义指导与记忆机制的视频描述方法,以增加视频的语义信息,充分利用视频的视觉信息与时序记忆,提高视频描述语句的准确性和丰富性。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,将数据集Q中每个视频分解成视频单帧图像,使用已预训练好的ResNet152网络提取视频单帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个视频的总帧数;
(2)将数据集Q中每个视频的连续16帧图像作为一个视频段,使用已预训练好的C3D-ResNet18网络提取每个视频段的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},j=1,2,…,r,r为每个视频的总视频段数;
(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典:全局语义属性词典、目标语义属性词典、动作语义属性词典,用这三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器;
(4)取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进行加权求和,得到加权求和后的结果和
(5)创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互;
(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器,分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va;
(11)将(10)计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态;
(12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态进行融合,得到融合后的结果R1,用目标语义属性oa与(4)得到的目标视觉特征的加权和进行融合,得到融合后的结果R2,用动作语义属性va与(4)得到的动作视觉特征的加权和进行融合,得到融合后的结果R3,并将R1、R2、R3进一步融合得到Pt;
(13)将(12)的计算结果输入到softmax函数,计算得到数据集Q中所选视频的当前时刻的单词概率分布wt;
(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ);
(15)对训练集E中的每个视频进行(4)~(14)操作,用Adam算法更新所有随机初始化的参数,使所有视频的交叉熵总和最小;
(16)固定所有参数的值,对测试集S中的每个视频进行(4)~(13)操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为描述该视频的单词。
本发明与现有技术相比具有如下优点:
1.对视频的描述更加准确
现有大多数已有的视频描述方法只使用了视频中的视觉信息,而忽视了视频中丰富的语义信息。
本发明利用视频的三种语义属性作为视频的语义信息,指导更新视觉特征、单词向量以及LSTM网络的隐藏状态,即将视觉信息、语义信息相结合,使视频获得的自然语言描述更准确。
2.能更好地捕获视频的时间动态
现有大多数已有的视频描述方法对视觉特征直接进行平均操作,导致视觉信息利用不充分,并且只使用LSTM网络对视觉特征解码,在解码过程中会使部分视觉信息丢失。
本发明使用注意力机制根据之前生成的单词自动地选择当前时刻应该关注的重要信息,并且在解码过程中加入外部记忆网络,提高了模型的记忆能力,可以更好地捕获视频的时间动态。
附图说明
图1是本发明的实现流程图;
图2是本发明中的语义属性预测示例;
图3是本发明仿真实验使用的MSVD数据集中视频与对应描述句子的示例图;
图4是用本发明在MSVD数据集上的仿真结果图。
具体实施方式
以下结合附图,对本发明的实施例和效果作进一步详细描述。
参照图1本实例的实施步骤如下:
步骤1,数据集视频预处理及提取视频的目标视觉特征。
1.1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,将数据集Q中每个视频分解成视频单帧图像;
1.2)将每个视频单帧图像随机裁剪成224×224像素大小,将裁减后的图像分别输入在ImageNet数据集上预训练好的ResNet152网络中,使用ResNet152网络pool5层的输出作为视频单帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个视频的总帧数。
步骤2,提取视频的动作视觉特征。
2.1)将数据集Q中每个视频的连续16帧图像作为一个视频段,将视频段送到在Sport1M数据集上预训练好的C3D-ResNet18网络中,通过该网络将该段中的每一帧图像都随机裁剪为112×112像素大小,并且对每个视频段中的帧以间隔J为采样率进行采样;
2.2)使用C3D-ResNet18网络中pool5层的输出作为视频的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},j=1,2,…,r,r为每个视频的总视频段数。
步骤3,利用训练集E中的单词与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器。
3.1)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析,从解析出的关系中选择名词主语和直接宾语;
3.2)从名词主语和直接宾语的单词对中提取名词和动词,从中选择出现频次最高的前T个单词来构建全局语义属性词典;
3.3)在一个视频的所有句子描述中选择出现次数不少于两次的名词,用这些名词构建出目标语义属性词典;
3.4)在一个视频的所有句子描述中选择出现次数不少于两次的动词,用这些动词构建出动作语义属性词典;
3.5)对于训练集E中的一个视频,用g=[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局语义属性,用o=[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性,用v=[v1,v2,…vi,…vY]∈{0,1}Y表示该视频的动作语义属性;
其中,gi是g中第i个位置的值,i=1,2,…,K,K表示全局语义属性词典的大小,如果全局语义属性词典中的第i个单词出现在描述该视频的句子中,就让gi=1,否则gi=0;oi是o中第i个位置的值,X表示目标语义属性词典的大小,如果目标语义属性词典中的第i个单词出现在描述该视频的句子中,就让oi=1,否则oi=0;vi是v中第i个位置的值,Y表示动作语义属性词典的大小,如果动作语义属性词典中的第i个单词出现在描述该视频的句子中,就让vi=1,否则vi=0;
3.6)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机,分别得到该视频三种语义属性的预测值,计算公式如下:
ga=MLP([f,m])
oa=MLP(f)
va=MLP(m),
其中,ga表示全局语义属性预测值,oa表示目标语义属性预测值,va表示动作语义属性预测值,f表示对该视频的目标视觉特征{fi}取平均之后的特征,m表示对该视频的动作视觉特征{mj}取平均之后的特征,[f,m]表示f与m的拼接;
3.7)计算三种语义属性预测值与真实语义属性之间的交叉熵,计算公式如下:
其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵,L(o,oa)是目标语义属性预测值与真实目标语义属性的交叉熵,L(v,va)是动作语义属性预测值与真实动作语义属性的交叉熵,gai表示ga中第i个位置的值,oai表示oa中第i个位置的值,vai表示va中第i个位置的值;
3.8)对训练集E中的每个视频进行3.5)~3.7)操作,用Adam算法更新三个多层感知机的参数,使所有视频的语义属性交叉熵总和最小。
步骤4,取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进行加权求和,得到加权求和后的结果和
4.3)在LSTM网络生成描述视频的每个单词时,将LSTM网络的前一时刻的隐藏状态ht-1和视频第j个视频段的动作视觉特征mj作为输入,计算相似性得分并根据相似性得分计算动作视觉特征加权权重计算公式如下:
步骤5,创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互。
5.1)在生成视频描述句子的每个单词概率分布之前,先根据LSTM网络前一时刻的隐藏状态计算出擦除向量et和添加向量at:
et=σ(Weht-1+be)
at=φ(Waht-1+ba),
其中,δ为ReLU函数,Ww、bw、都是随机初始化的不同参数,是记忆写入权重值,是由写入关键值向量与记忆网络中每个位置的存储向量Mt-1(i)进行相似性度量得到的,||·||表示取二范数,ε是为了防止分母为0而取的一个正数;
其中,⊙表示逐元素点乘操作;
5.5)LSTM网络读取记忆网络里的内容rt,表示为:
步骤6,将数据集Q中所选视频的视觉特征输入到步骤3得到的三个语义属性预测器,分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va。
6.1)对数据集Q中所选视频的一组目标视觉特征{fi}取平均得到f,将f输入目标语义属性预测器,得到该视频的目标语义属性oa;
6.2)将该视频的一组动作视觉特征{mj}取平均得到m,将m输入动作语义属性预测器,得到该视频的动作语义属性va;
6.3)将f与m拼接起来输入全局语义属性预测器,得到该视频的全局语义属性ga,得到的三种语义属性,如图2所示。
其中,⊙表示逐元素点乘操作,Ua*、Ub*是随机初始化的不同参数;
其中,xt是已预训练得到的单词向量,Wa*、Wb*是随机初始化的不同参数;
7.3)将全局语义属性ga与从外部记忆网络读取的信息rt融合,得到融合后的结果m*,计算公式为:
m*=Ma*rt⊙Mb*ga,
其中,Ma*、Mb*是随机初始化的不同参数。
其中,⊙表示逐元素点乘操作,Va*、Vb*是随机初始化的不同参数。
其中,⊙表示逐元素点乘操作,Ca*、Cb*是随机初始化的不同参数。
步骤10,将步骤9计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态。
10.1)计算LSTM网络当前时刻输入门it,遗忘门ft,输出门ot,输入权重门gt的值,计算公式为:
其中,σ表示sigmoid函数,表示tanh函数,mi、vi、ci,mf、vf、cf,mo、vo、co,mg、vg、cg是(9)计算得到的四组结果,Wci、Wcf、Wco、Wcg、Uci、Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数;
10.2)根据输入门it、遗忘门ft、输入权重门gt的值,计算LSTM网络当前时刻的细胞记忆状态ct:
ct=gt⊙it+ct-1⊙ft,
其中,⊙表示逐元素点乘操作,ct-1为LSTM网络前一时刻细胞记忆状态的值;
10.3)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值,计算LSTM网络当前时刻的隐藏状态ht:
ht=ot⊙φ(ct)。
步骤11,用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合,用目标语义属性oa与目标视觉特征的加权和进行融合,用动作语义属性va与动作视觉特征的加权和进行融合,并将这三个融合结果进一步融合。
11.1)将全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合,得到融合后的结果R1,计算公式为:
R1=Wkht⊙Wlga,
其中,⊙表示逐元素点乘操作,Wk、Wl是随机初始化的不同参数;
其中,Wp、Ws是随机初始化的不同参数;
其中,Wu、Wv是随机初始化的不同参数;
11.4)将R1、R2、R3融合,得到融合后的结果Pt,计算公式为:
Pt=φ(Wq[R1,R2,R3]+bq),
其中,Wq、bq是随机初始化的不同参数,[R1,R2,R3]表示R1、R2、R3的拼接。
步骤12,计算数据集Q中选取的一个视频的单词概率分布wt。
将步骤11的计算结果输入到softmax函数中,计算得到数据集Q所选视频的当前时刻单词概率分布wt:
wt=softmax(WdPt+bd),
其中,softmax表示softmax函数,Wd、bd是随机初始化的两个不同参数。
步骤13,计算数据集Q所选视频的单词概率分布与正确的单词概率分布的交叉熵L(θ)。
根据步骤12得到的单词概率分布wt及所选视频的视觉特征V、语义属性S、所有随机初始化的参数θ,计算交叉熵L(θ):
其中,Ti表示数据集Q所选视频自带的第i个正确句子的单词数量,w1~(t-1)表示t时刻之前得到的所有单词的概率分布。
步骤14,对训练集E中的每个视频进行步骤4~步骤13操作,用Adam算法更新所有随机初始化的参数,使训练集E中所有视频的交叉熵总和最小。
步骤15,在步骤14完成所有参数的更新后,固定所有参数的值,对测试集S中的每个视频进行步骤4~步骤12操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为描述该视频的单词。
本发明的优点可通过以下实验进一步说明:
1.实验条件
本发明的仿真实验是在MSVD数据集上进行的,实验中将数据集的1970个视频划分为大小分别为1200、100、670的训练集、验证集、测试集。
数据集中视频与对应描述句子的示例如图3所示,图3(a)是数据集中的一个视频,图3(b)是该视频自带的一些语言描述。
对仿真的结果用METEOR、BLEU、ROUGE、CIDER四种评价指标进行打分。
2.仿真内容
仿真1,用本发明在MSVD数据集上进行仿真,图4展示了本发明对测试集上前六个视频的描述结果,其中,每三幅图代表一个视频,每个视频下面的句子代表本发明对该视频生成的描述,即第一个视频生成的描述是“men are playing basketball”,第二个视频生成的描述是“a band is performing on stage”,第三个视频生成的描述是“a boy isplaying a guitar”,第四个视频生成的描述是“a person is cutting meat”,第五个视频生成的描述是“a man is riding a motorcycle”,第六个视频生成的描述是“a dog isswimming in a pool”,由图4可看出本发明可以对视频生成准确、生动的自然语言描述。
将仿真结果的四种评分与其他现有的8种主流方法进行比较,评分结果如表1所示。
表1
方法 | METEOR | BLEU@1 | BLEU@2 | BLEU@3 | BLEU@4 | CIDEr | ROUGE_L |
FGM | 23.9 | - | - | - | - | - | - |
LSTM | 29.1 | - | - | - | 33.3 | - | - |
S2VT | 29.8 | - | - | - | - | - | - |
TA | 29.6 | 80.0 | 64.7 | 52.6 | 41.9 | 51.7 | - |
LSTM-E | 31.0 | 78.8 | 66.0 | 55.4 | 45.3 | - | - |
GRU-RCN | 31.6 | - | - | - | 43.3 | 68.0 | - |
h-RNN | 32.6 | 81.5 | 70.4 | 60.4 | 49.9 | 65.8 | - |
HRNE | 33.9 | 81.1 | 68.6 | 57.8 | 46.7 | - | - |
本发明 | 34.1 | 81.8 | 70.4 | 60.9 | 51.3 | 76.3 | 70.8 |
表1中,FGM是整合语言与视觉特征的方法,
LSTM是仅基于LSTM网络的方法,
S2VT是使用图像特征和光流特征,并使用两个LSTM网络的方法,
TA是使用了注意力机制的方法,
LSTM-E是将视觉特征和文本特征嵌入到同一空间的方法,
GRU-RCN是结合GRU网络和循环卷积网络的方法,
h-RNN是使用多层循环网络做视频解码的方法,
HRNE是使用多层循环网络做视频编码的方法,
BLEU@1、BLEU@2、BLEU@3、BLEU@4是BLEU评价指标中的四种评价方法,分别表示生成的句子与参考句子之间连续1、2、3、4个单词序列相同的比率,
ROUGE-L是ROUGE评价指标中以最长公共子句的精确率以及召回率为基础的评价方法。
表1表明本发明提出的方法性能在各项评价指标上均高于其它主流方法,并且在CIDER指标上的结果达到了76.3,相对于TA,GRU-RCN,h-RNN分别提高了47.6%,12.0%,16.0%,并且在METEOR指标上也达到了34.1,目前极少有方法能在METEOR指标上突破34,此外与其它方法相比,本发明在BLEU的各项指标上的结果也具有非常显著提升。
仿真2,对本发明提出的方法做消融实验,即分别去掉注意力机制、外部记忆网络、语义属性,比较仿真结果的评分变化,结果如表2所示。
表2
表2表明,使用语义属性、注意力机制、外部记忆网络相结合的方法结果最好,并且语义信息、注意力机制和外部记忆网络分别都对提升视频描述模型的性能有帮助。
综上,本发明提出的方法使用注意力机制动态选择最相关的目标视觉特征和动作视觉特征,同时也可以相对抑制不重要的视觉信息,并且通过外加记忆网络,将外部记忆网络和语言模型的内部状态进行信息交流,可以帮助语言模型记住更长时间的信息,帮助生成的单词可以更好的理解上下文信息;此外还使用了三种类型语义属性,融入在每一时刻生成单词的计算过程,可以让模型更好的关注与整个视频的目标和动作相关的信息,从而生成更加准确、生动的自然语言描述。
Claims (13)
1.一种基于语义指导与记忆机制的视频描述方法,其特征在于,包括如下:
(1)从公开网络下载视频描述任务的数据集Q,将该数据集Q划分为训练集E和测试集S,将数据集Q中每个视频分解成视频单帧图像,使用已预训练好的ResNet152网络提取视频单帧图像的目标视觉特征fi,构成每个视频的一组目标视觉特征{fi},i=1,2,…,n,n为每个视频的总帧数;
(2)将数据集Q中每个视频的连续16帧图像作为一个视频段,使用已预训练好的C3D-ResNet18网络提取每个视频段的动作视觉特征mj,构成每个视频的一组动作视觉特征{mj},j=1,2,…,r,r为每个视频的总视频段数;
(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典:全局语义属性词典、目标语义属性词典、动作语义属性词典,用这三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器;
(4)取数据集Q中的一个视频,在LSTM网络生成描述该视频的每个单词时,使用注意力机制中的注意力分值,分别对该视频的一组目标视觉特征{fi}和一组动作视觉特征{mj}进行加权求和,得到加权求和后的结果和
(5)创建一个M×N的矩阵作为外部记忆网络,M代表记忆网络中存储器的总数,N代表每个位置的存储长度,该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互;
(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器,分别得到该视频全局语义属性ga、目标语义属性oa、动作语义属性va;
(11)将(10)计算的结果输入LSTM网络,得到LSTM网络当前时刻的隐藏状态;
(12)用全局语义属性ga与LSTM网络当前时刻的隐藏状态ht进行融合,得到融合后的结果R1,用目标语义属性oa与(4)得到的目标视觉特征的加权和进行融合,得到融合后的结果R2,用动作语义属性va与(4)得到的动作视觉特征的加权和进行融合,得到融合后的结果R3,并将R1、R2、R3进一步融合得到Pt;
(13)将(12)的计算结果输入到softmax函数,计算得到数据集Q所选视频的当前时刻的单词概率分布wt;
(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ);
(15)对训练集E中的每个视频进行(4)~(14)操作,用Adam算法更新所有随机初始化的参数,使所有视频的交叉熵总和最小;
(16)在步骤14完成所有参数的更新后,固定所有参数的值,对测试集S中的每个视频进行(4)~(13)操作,对于测试集S中的每个视频的单词概率分布,取概率值最大的单词作为描述该视频的单词。
2.根据权利要求1所述的方法,其特征在于,(3)中将训练集E中句子所包含的单词分为三种类型的语义属性词典,按如下过程进行:
(3a)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析,从解析出的关系中选择名词主语和直接宾语;
(3b)从名词主语和直接宾语的单词对中提取名词和动词,从中选择出现频次最高的前T个单词来构建全局语义属性词典;
(3c)在一个视频的所有句子描述中选择出现次数不少于两次的名词,用这些名词构建出目标语义属性词典;
(3d)在一个视频的所有句子描述中选择出现次数不少于两次的动词,用这些动词构建出动作语义属性词典。
3.根据权利要求1所述的方法,其特征在于,(3)中用三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型,得到三个语义属性预测器,按如下过程进行:
(3e)对于训练集E中的一个视频,用g=[g1,g2,…gi,…gK]∈{0,1}K表示该视频的全局语义属性,用o=[o1,o2,…oi,…oX]∈{0,1}X表示该视频的目标语义属性,用v=[v1,v2,…vi,…vY]∈{0,1}Y表示该视频的动作语义属性,其中,gi是g中第i个位置的值,i=1,2,…,K,K表示全局语义属性词典的大小,如果全局语义属性词典中的第i个单词出现在描述该视频的句子中,就让gi=1,否则gi=0;oi是o中第i个位置的值,X表示目标语义属性词典的大小,如果目标语义属性词典中的第i个单词出现在描述该视频的句子中,就让oi=1,否则oi=0;vi是v中第i个位置的值,Y表示动作语义属性词典的大小,如果动作语义属性词典中的第i个单词出现在描述该视频的句子中,就让vi=1,否则vi=0;
(3f)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机,分别得到该视频三种语义属性的预测值,计算公式如下:
ga=MLP([f,m])
oa=MLP(f)
va=MLP(m)
其中,ga表示全局语义属性预测值,oa表示目标语义属性预测值,va表示动作语义属性预测值,f表示对该视频的目标视觉特征{fi}取平均之后的特征,m表示对该视频的动作视觉特征{mj}取平均之后的特征,[f,m]表示f与m的拼接;
(3g)计算三种语义属性预测值与真实语义属性之间的交叉熵,计算公式如下:
其中L(g,ga)是全局语义属性预测值与真实全局语义属性的交叉熵,L(o,oa)是目标语义属性预测值与真实目标语义属性的交叉熵,L(v,va)是动作语义属性预测值与真实动作语义属性的交叉熵,gai表示ga中第i个位置的值,oai表示oa中第i个位置的值,vai表示va中第i个位置的值;
(3h)对训练集E中的每个视频进行(3e)~(3g)操作,用Adam算法更新三个多层感知机的参数,使所有视频的语义属性交叉熵总和最小。
6.根据权利要求1所述的方法,其特征在于,(5)中外部记忆网络通过写入和读取操作与LSTM网络进行信息交互,按如下步骤进行:
(5a)在生成视频描述句子的每个单词概率分布之前,先根据LSTM网络前一时刻的隐藏状态计算出擦除向量et和添加向量at:
et=σ(Weht-1+be)
at=φ(Waht-1+ba)
其中,δ为ReLU函数,Ww、bw、都是随机初始化的不同参数,是记忆写入权重值,是由写入关键值向量与记忆网络中每个位置的存储向量Mt-1(i)进行相似性度量得到的,||·||表示取二范数,ε是为了防止分母为0而取的一个正数;
其中,⊙表示逐元素点乘操作;
(5e)LSTM网络读取记忆网络里的内容rt,表示为:
10.根据权利要求1所述的方法,其特征在于,(11)中LSTM网络当前时刻的隐藏状态,按如下过程得到:
(11a)计算LSTM网络当前时刻输入门it,遗忘门ft,输出门ot,输入权重门gt的值,计算公式为:
其中,σ表示sigmoid函数,表示tanh函数,mi、vi、ci,mf、vf、cf,mo、vo、co,mg、vg、cg是(10)计算得到的四组结果,Wci、Wcf、Wco、Wcg、Uci、Ucf、Uco、Ucg、Vci、Vcf、Vco、Vcg、Cci、Ccf、Cco、Ccg、Mci、Mcf、Mco、Mcg、bi、bf、bo、bg都是随机初始化的不同参数;
(11b)根据输入门it、遗忘门ft、输入权重门gt的值,计算LSTM网络当前时刻的细胞记忆状态ct:
ct=gt⊙it+ct-1⊙ft,
其中,⊙表示逐元素点乘操作,ct-1为LSTM网络前一时刻细胞记忆状态的值;
(11c)根据LSTM网络当前时刻输出门ot和细胞记忆状态ot的值,计算LSTM网络当前时刻的隐藏状态ht:
ht=ot⊙φ(ct)。
11.根据权利要求1所述的方法,其特征在于,(12)中得到的融合结果R1、R2、R3、Pt分别表示如下:
全局语义属性ga与LSTM网络当前时刻的隐藏状态ht融合后的结果R1为:R1=Wkht⊙Wlga,其中,⊙表示逐元素点乘操作,Wk、Wl是随机初始化的不同参数;
R1、R2、R3融合后的结果Pt为:Pt=φ(Wq[R1,R2,R3]+bq),其中,Wq、bq是随机初始化的不同参数,[R1,R2,R3]表示R1、R2、R3的拼接。
12.根据权利要求1所述的方法,其特征在于,(13)中计算得到该视频的当前时刻的单词概率分布wt,通过如下公式计算:
wt=softmax(WdPt+bd)
其中,softmax表示softmax函数,Wd、bd是随机初始化的不同参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911171235.6A CN110991290B (zh) | 2019-11-26 | 2019-11-26 | 基于语义指导与记忆机制的视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911171235.6A CN110991290B (zh) | 2019-11-26 | 2019-11-26 | 基于语义指导与记忆机制的视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991290A CN110991290A (zh) | 2020-04-10 |
CN110991290B true CN110991290B (zh) | 2023-03-10 |
Family
ID=70086939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911171235.6A Active CN110991290B (zh) | 2019-11-26 | 2019-11-26 | 基于语义指导与记忆机制的视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991290B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022011493A1 (zh) * | 2020-07-13 | 2022-01-20 | 广东石油化工学院 | 一种神经语义记忆存储方法 |
CN111985612B (zh) * | 2020-07-21 | 2024-02-06 | 西安理工大学 | 一种提高视频文本描述准确性的编码器网络模型设计方法 |
CN112183391A (zh) * | 2020-09-30 | 2021-01-05 | 中国科学院计算技术研究所 | 一种第一视角视频行为预测系统及方法 |
CN112685597B (zh) * | 2021-03-12 | 2021-07-13 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
CN113312923B (zh) * | 2021-06-18 | 2023-03-24 | 广东工业大学 | 一种球类赛事文字解说生成方法 |
CN113920458A (zh) * | 2021-09-20 | 2022-01-11 | 复旦大学 | 基于感知上下文堆叠式注意力的视频描述生成算法 |
CN114511813B (zh) * | 2022-04-20 | 2022-06-28 | 天津市城市规划设计研究总院有限公司 | 视频语义描述方法及装置 |
CN116229174A (zh) * | 2023-03-10 | 2023-06-06 | 南京审计大学 | 一种基于空谱联合注意力机制的高光谱多类变化检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
-
2019
- 2019-11-26 CN CN201911171235.6A patent/CN110991290B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
Non-Patent Citations (1)
Title |
---|
融合场景因素的视频内容理解模型;彭玉青等;《中国科技论文》;20180723(第14期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110991290A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN107918782B (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
CN107133211B (zh) | 一种基于注意力机制的作文评分方法 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN109800434B (zh) | 基于眼动注意力的抽象文本标题生成方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN109711465A (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114743143A (zh) | 一种基于多概念知识挖掘的视频描述生成方法及存储介质 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113378919B (zh) | 融合视觉常识和增强多层全局特征的图像描述生成方法 | |
CN116385937B (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
Wei et al. | Exploiting the local temporal information for video captioning | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
Deorukhkar et al. | A detailed review of prevailing image captioning methods using deep learning techniques | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |