CN107066973B - 一种利用时空注意力模型的视频内容描述方法 - Google Patents

一种利用时空注意力模型的视频内容描述方法 Download PDF

Info

Publication number
CN107066973B
CN107066973B CN201710250098.XA CN201710250098A CN107066973B CN 107066973 B CN107066973 B CN 107066973B CN 201710250098 A CN201710250098 A CN 201710250098A CN 107066973 B CN107066973 B CN 107066973B
Authority
CN
China
Prior art keywords
time
video
local
global
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710250098.XA
Other languages
English (en)
Other versions
CN107066973A (zh
Inventor
颜成钢
涂云斌
张曦珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710250098.XA priority Critical patent/CN107066973B/zh
Publication of CN107066973A publication Critical patent/CN107066973A/zh
Application granted granted Critical
Publication of CN107066973B publication Critical patent/CN107066973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用时空注意力模型的视频内容描述方法。本发明通过利用时间注意力模型捕捉视频中全局时间结构的同时,利用空间注意力模型捕捉每一帧图片上的空间结构,目的是使视频描述模型在把握视频中主体事件的同时增强对局部信息的识别能力。具体的:首先对视频格式进行预处理;其次建立时空注意力模型;最后对视频描述模型进行训练和测试。本发明通过利用时间注意力模型,在保留视频中主要的时间结构的同时,利用空间注意力模型在每帧图片中重点关注一些关键区域,使得生成的视频描述能在把握视频内容中主体事件的同时捕捉一些关键但有容易忽略的细节信息。

Description

一种利用时空注意力模型的视频内容描述方法
技术领域
本发明属于计算机视觉与自然语言处理技术领域,涉及一种利用时空注意力模型的视频内容描述方法。
背景技术
之前在视频内容描述方面的研究工作主要分为以下几个方面:
1.基于特征识别与语言模板填充的方法。具体而言,该方法分为两个步骤,首先将视频按照一定的时间间隔转化成具有连续帧的图像集合;其次,使用一系列预先在大规模的图像训练集中训练好的特征分类器,将视频中的静态特征与动态特征分类标记,具体而言,这些特征可细分为实体、实体属性、实体间的交互关系以及场景等;最后,根据人类语言的特点制定一个“主语,谓语,宾语”的语言模板,在按分类器估计出的概率大小将概率最大的特征填充到语言模版中。
2.基于深度学习的编码-解码方法。该研究方法来源于机器翻译,在编码部分,将待翻译句子用一个固定维度的特征向量表示,之后,解码部分以该向量中储存的信息为条件,将该特征向量转化为目标语言。基于此思想,有人将编码-解码的方法应用到了视觉-文本转化的工作中,通过将图片或视频中的视觉特征编码为固定维度的特征向量,并应用递归神经网络RNN将编码后的特征向量转化为目标文本,从而实现对一副图片或一个视频的自动描述。
3.注意力模型
目前在视觉-文本翻译中广泛应用了注意力模型,该模型仿照了人脑特有的注意力能力,在图片内容描述中,主要利用了空间注意力模型,即在第t个时间点将视觉特征解码为自然语言时,解码模型能够选择性地关注与t-1个时间点生成的描述信息关联最大的区域,通过该模型,能够捕捉到一副图片中的全局空间结构。在视频描述中,主要利用是时间注意力模型,因为捕捉一个视频中的时间结构是了解该视频主要内容的重要手段,因此利用时间注意力模型,可以在第t个时间点根据t-1个时间点生成的描述信息选择性地关注一些关键帧,避免造成视频中不同时间点的事件发生混乱。
对于视频描述现有的方法而言,第一种基于特征识别与语言模板填充的方法不仅需要训练大量的特征分类器用于特征识别,而且在将这些特征填充进语言模板时,容易导致生成的语言描述不完整或不符合人类语言习惯,也就是该使用哪些特征以及这些特征怎么有效结合是导致生成的语言描述正确率很低的关键因素。对于第二种方法,虽然其是目前该研究领域中最为先进也是准确率最高的方法,但是这并不是简单的工作,因为相较于图片而言,视频中含有更多的特征,包括全局静态特征、局部静态特征,局部动态特征等,如何恰当地选取和利用这些特征仍然是现在一个值得继续深入研究的问题。在视频描述中,虽然利用时间注意力模型可以选择性的关注一些关键帧,但是利用的仍然是每一帧上的全局特征,所以容易忽略一些关键的局部特征,所以现在的视频描述方法虽然捕捉了视频中的全局时间结构,但是却忽略了每一帧图片中的空间结构,即忽略了视频中一些关键的局部信息,由此造成的问题主要有以下两方面:1)生成的视频描述不完整,且容易发生歧义;2)因为关键细节的预测错误,会导致视频描述的完全错误。
发明内容
为了克服现有视频内容描述方法中因丢失每一帧图片中空间结构而导致忽略一些关键信息的问题,以及进一步提高描述的准确率,本发明拟在现有时间注意力模型的基础上加入空间注意力模型,新提出一种利用时空注意力模型的视频内容描述方法。本发明通过利用时间注意力模型捕捉视频中全局时间结构的同时,利用空间注意力模型捕捉每一帧图片上的空间结构,目的是使视频描述模型在把握视频中主体事件的同时增强对局部信息的识别能力。
本发明解决上述技术问题所采用的技术方法是:
首先利用公开发表且预先训练好的卷积神经网络(CNN),如GoogleNet、C3D等,提取每一帧图片中的全局特征以及连续帧形成的动态特征,并级联成固定维度的特征向量;其次利用公开发表且预先训练好的快速区域目标检测模型Faster R-CNN,在每帧图像上进行目标检测,基于需求训练的Faster R-CNN模型可以在每张图片上识别p个物体,因此可以从视频中的每帧图片中提取出p个物体的局部特征;因为图片中的物体个数一般不超过10个,因此我们根据每帧图片检测后得到的每个物体置信度得分,选取得分最高的top-n个物体,作为每帧图片中的重要局部对象,并提取对应的特征作为视频中的局部特征。然后,我们通过时间注意力模型选取每一个时间点的全局、动态、局部特征输入到基于长短期记忆的递归神经网络(LSTM),将每一帧编码后的特征向量解码为单词序列。我们以每个时间点生成单词概率的对数似然最大为目标函数。
本发明解决其技术问题所采用的技术方案具体包括以下步骤:
步骤(1)对视频格式进行预处理。
1-1.将待描述视频转换为连续帧的图像集合;利用预先训练好的卷积神经网络GoogLeNet和Faster R-CNN模型分别提取每一帧图片的全局特征和局部特征,其中全局特征取自GoogLeNet卷积神经网络中pool5/7×7_s1层,局部特征取自Faster R-CNN模型中的全连接层fc7。
1-2.采用预先训练好的C3D卷积神经网络,在连续几帧图片中提取视频中的动态特征,特征取自模型中全连接层fc6。
1-3.因为每一个待描述视频的总帧数不一样,为了后续操作方便,统一将所有帧均分成k组,并取每组的第一帧,所以每一个视频最后会有k个全局特征vg={vg1,…,vgk},、k*n个局部特征vl={vl1n,…,vlkn}和k个动态特征vm={vm1,…,vmk}。
1-4.利用级联的方法将全局特征和动态特征融合成一个全局-动态特征向量v[gm]i
v[gm]i=[vgi,vmi] (1)
其中,vgi表示全局特征,vmi表示动态特征,[vgi,vmi]表示全局特征和动态特征进行级联。
步骤(2)建立用于时空注意力模型。
2-1.首先利用空间注意力模型将每一帧图片中top-n个区域的特征{vlin,…,vlin}编码成长度为k的局部空间表征:
ψ(VL)={ψ1(VL),…ψj(VL)…,ψk(VL)} (2)
每个ψj(VL)是利用空间注意力模型得到的每帧图片上所有局部特征的权重和,即每帧图片上n个局部特征都有相应的权重,根据权重LSTM在解码时能够选择性地关注每帧图片上的重要区域,从而在视频描述中捕捉到更多的关键细节。
2-2.将k个全局-动态特征向量v[gm]i和局部空间表征ψ(VL)编码成句子长度为m的时间表征:
Figure BDA0001271840420000041
其中,每个
Figure BDA0001271840420000042
为全局-动态时间表征和局部时间表征的静态融合,即:
Figure BDA0001271840420000043
上式中,
Figure BDA0001271840420000044
表示全局-动态时间表征和局部时间表征的级联。
每个
Figure BDA0001271840420000045
是分别利用时间注意力模型得到的k个全局-动态特征和k个局部空间表征的权重和。
步骤(3)对视频描述模型进行训练
当每个时间点的时间表征
Figure BDA0001271840420000046
计算出来后,结合人类给出的句子描述,在每个时间节点将时间表征和人类给出的句子描述中的每个单词依次加入到LSTM网络中。
由于在视频描述模型训练阶段需要添加人类句子描述作为指导,所以总的训练时间步长为已知,即人类给出的描述句子的长度。整个训练过程按照LSTM中三个门和cell的计算来不断更新隐藏状态ht,每个ht中储存了t个时间点生成的所有单词信息,每次将其从LSTM网络中输出到前馈神经网络中,通过施加激活函数将其转化为R*V维的向量,R代表LSTM网络的维度,V代表候选单词维度,最后利用softmax函数的多分类方法,从V选择概率最高的那一维的索引,对应到事先准备好的字典中,即可选择出每个时间节点应生成的单词。经过L个时间点,L表示该视频人类句子描述的长度,所以最后会得到L个ht={h1,…,hL},同时得到L个单词预测概率,因为训练阶段描述句子已知,所以目标函数是最大化生成单词的对数似然,也就是使得损失函数最小,即L个损失函数的和最小,所以通过梯度下降算法更新所需的训练参数直到损失函数的和最小。
步骤(4)对视频描述模型进行测试。
由于描述句子的内容和长度是未知的,所以运用beam search的方法,设定搜索范围k,在第一个时间节点设定初始单词索引为-1(即是一个零向量),并输入到第一个时间节点,计算出当前状态h0,并根据h0和softmax函数算出当前节点可能产生的k个单词索引,并将该k个单词继续加入到下一个时间节点中,计算下一个时间节点可能产生的k个单词并和上一节点的对应单词组成序列。如果在某一时刻,其中一个由ki单词开头的序列搜索到索引为0的单词,则该序列结束搜索,搜索范围也减少为k-1。直到最后第ki个序列也搜索到索引为0的单词,则整个beamsearch过程结束,在k个句子中选择损失最小的一句,将其每一个索引对应到事先准备好的字典中,对应输出相应单词,如果没有对应,则输出UNK(未知),如果对应为0,则输出<eos>,即句子结束。
本发明的有益效果:
相比于现有的视频内容描述方法,通过利用时间注意力模型,在保留视频中主要的时间结构的同时,利用空间注意力模型在每帧图片中重点关注一些关键区域,使得生成的视频描述能在把握视频内容中主体事件的同时捕捉一些关键但有容易忽略的细节信息。
附图说明
图1为本发明时空注意力模型示意图;
图2为本发明的实现流程图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步的详细说明。
本发明提出的一种利用时空注意力的视频内容描述方法,通过利用公开发表且预先训练好的卷积神经网络(CNN),如GoogleNet、C3D等,提出出每一帧中的全局特征以及连续帧形成的动态特征,并级联成固定维度的特征向量;其次利用公开发表且预先训练好的快速区域目标检测模型Faster R-CNN,在每帧图像上进行目标检测,基于需求训练的Faster R-CNN模型预先在MSCOCO图片数据集上训练,可快速检测80个名词物体。,因此可以从视频中的每帧图片中提取出80个物体的局部特征向;因为图片中的物体个数一般不超过10个,因此我们根据每帧图片检测后得到的每个物体置信度得分,选取得分最高的top-8个物体,作为每帧图片中的重要局部对象,并提取对应的特征作为视频中的局部特征。然后,通过空间注意力模型选取每帧图片上的空间表征。接着,利用时间注意力模型选取每一个时间点的全局、动态特征局部空间表征输入到基于长短期记忆的递归神经网络(LSTM),将每一帧编码后的特征向量解码为单词序列。模型的训练过程利用Adadelta算法和反向传播算法计算梯度,通过最大化生成目标单词概率来估计最佳参数。实施流程如图2所示。本发明所述方法在视频内容描述模型的训练和测试过程中具体包括以下步骤:
步骤(1)对视频格式进行预处理。首先按照帧率的5%-10%将待描述视频转化为一系列图片集合,其次利用预先在1.2M图像分类训练集ImageNet训练好的卷积神经网络GoogLeNet和在MS COCO图片分类训练集上训练好的Faster R-CNN模型提取每一帧图片的全局特征和局部特征。对于1024维的全局特征,取自GoogLeNet卷积神经网络中pool5/7×7_s1层;对于4096维的局部特征,首先选取了输出层80个物体的最大置信度得分,我们根据这80个最大的置信度得分,选取了top-8个重要的局部对象,然后,根据这top-8个对象回归框的位置提取出该区域fc7层4096维的CNN特征;对于视频中的动态特征,采用预先在sport-1M视频数据集上训练好的C3D卷积神经网络,在连续几帧图片中提取视频中的动态特征,4096维的动态特征取自模型中全连接层fc6。
因为每一个待描述视频的总帧数不一样,为了后续操作方便,统一将所有帧均分成28组,并取每组的第一帧,所以每一个视频最后会有28个全局特征vg={vg1,…,vg28},、28*8个局部特征vl={vl18,…,vl28*8}和28个动态特征vm={vm1,…,vm28}。
利用级联的方法将全局特征和动态特征融合成一个全局-动态特征向量v[gm]i。计算方法如式(1)所示:
v[gm]i=[vgi,vmi] (1)
其中,vgi表示全局特征,vmi表示动态特征,[vgi,vmi]表示全局特征和动态特征进行级联,级联后的全局-动态特征向量有5120维。
如图1所示为本发明时空注意力模型示意图,具体过程如下:
步骤(2)建立空间注意力模型。
我们利用空间注意力模型将每一帧图片上top-8个区域的特征{vli8,…,vli8}编码成视频长度的空间表征:
ψ(VL)={ψ1(VL),…ψj(VL)…,ψk(VL)}) (2)
每个ψj(VL)是利用空间注意力模型得到的所有局部特征的权重和,即;
Figure BDA0001271840420000071
上式中,
Figure BDA0001271840420000072
在LSTM解码过程中的每个时间点t中被计算,我们称其为每个t的空间注意力权重。
其中空间注意力权重
Figure BDA0001271840420000073
反映了每一帧上第j个局部特征和之前生成单词信息,也就是y1,…,yt-1的关联程度。因此,我们设计了以下计算公式用来计算
Figure BDA0001271840420000074
将之前的隐藏状态ht-1和第j个局部特征作为输入:
Figure BDA0001271840420000075
ht-1表示之前生成的隐藏状态,其储存了t-1个时间点产生的单词信息,
Figure BDA0001271840420000076
Wa,Ua,za是我们模型需要学习的参数,这些参数将被所有局部特征在整个训练过程中共享。
一旦每一帧图片上所有局部区域j=1,…,n的与t-1个生成单词的相关分数
Figure BDA0001271840420000077
得到后,我们利用softmax函数对
Figure BDA0001271840420000078
进行归一化操作后获得空间注意力权重
Figure BDA0001271840420000079
Figure BDA0001271840420000081
空间注意力模型使得LSTM神经网络解码时能够选择性地关注每个时间点t每一帧图片上权重增加的局部特征,从而在视频描述中捕捉到更多的关键细节。
步骤(3)建立时间注意力模型
我们将视频长度的全局-动态特征和局部空间表征编码成句子长度的时间表征:
Figure BDA0001271840420000082
其中,每个
Figure BDA0001271840420000083
为全局-动态时间表征和静态时间表征的静态融合,即:
Figure BDA0001271840420000084
上式中,
Figure BDA0001271840420000085
表示全局-动态和局部时间表征级联。
每个
Figure BDA0001271840420000086
是利用时间注意力模型得到的28个全局-动态特征和局部空间表征的权重和。
Figure BDA0001271840420000087
Figure BDA0001271840420000088
上式中,
Figure BDA0001271840420000089
同样地,
Figure BDA00012718404200000810
Figure BDA00012718404200000811
在LSTM解码过程中的每个时间点t中被计算,我们分别称其为每个t的局部时间注意力权重和全局-动态时间注意力权重。
Figure BDA00012718404200000812
Figure BDA00012718404200000813
反映了第i帧局部空间表征、全局-动态特征与之前生成单词信息,也就是y1,…,yt-1的关联程度。因此,我们设计了以下计算公式用来计算
Figure BDA00012718404200000814
Figure BDA00012718404200000815
将之前的隐藏状态ht-1和第i帧全局-动态特征和局部空间表征分别作为输入:
Figure BDA00012718404200000816
Figure BDA0001271840420000091
ht-1表示之前生成的隐藏层状态,其储存了t-1个时间点产生的单词信息,
Figure BDA0001271840420000092
Wb,Wc,Ub,Uc,zb,zc是我们模型需要学习的参数。
一旦所有帧i=1,…,k的全局-动态特征、局部空间表征与t-1个时间点生成单词的相关分数
Figure BDA0001271840420000093
得到后,我们利用softmax函数分别对
Figure BDA0001271840420000094
Figure BDA0001271840420000095
进行归一化操作后获得全局-动态时间注意力权重
Figure BDA0001271840420000096
和局部时间注意力权重
Figure BDA0001271840420000097
Figure BDA0001271840420000098
Figure BDA0001271840420000099
步骤(4)用于将前面的时间表征进行解码。
在解码过程中,利用式(7)—式(13)计算的出每个时间点的时间表征即
Figure BDA00012718404200000910
并结合人类给出的句子描述中的每个单词,在每个时间节点将特征和单词依次加入到LSTM网络中。因为在训练视频描述模型训练阶段,是需要添加人类句子描述作为指导,所以总的训练节点是已知的,即人类描述句子的长度。整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态ht,每个ht中储存了t个时间点生成的所有单词信息。根据输入到LSTM每一个神经单元信息的改变,本发明对每一个时间点的it,ot,ft,gt,ct,ht的基础公式做出相应改进,每一个时间节点的隐藏状态ht的计算方法如式(14)-(19)所示:
Figure BDA00012718404200000911
Figure BDA00012718404200000912
Figure BDA00012718404200000913
Figure BDA00012718404200000914
Figure BDA00012718404200000915
Figure BDA00012718404200000916
在每个时间节点将得到一个隐藏状态ht,其储存了之前时间节点产生的单词信息,将其从LSTM网络中输出到前馈神经网络中,通过施加激活函数将其转化为R*V维的向量,R代表LSTM网络的维度,V代表候选单词维度,最后利用softmax函数的多分类方法,从V选择概率最高的那一维的索引,对应到事先准备好的字典中,即可选择出每个时间节点应生成的单词。经过L个时间点,L表示该视频人类句子描述的长度,所以最后会得到L个ht={h1,…,hL},同时得到L个单词预测概率,因为训练阶段描述句子已知,所以目标函数是最大化生成单词的对数似然,也就是使得损失函数最小,即L个损失函数的和最小,所以通过梯度下降算法更新所需的训练参数直到损失函数的和最小。
目标函数计算方法如式(20)所示:
Figure BDA0001271840420000101
其中,m表示句子长度,
Figure BDA0001271840420000105
是所有训练的参数集合。
通过梯度下降算法更新所有训练的参数直到损失函数最小,计算方法如式(21)、(22)所示:
Figure BDA0001271840420000102
Figure BDA0001271840420000103
其中,wk,bk代表第k个训练参数,η表示学习效率(一般取0.001),n表示n个参数。
步骤(5)的测试阶段,在该阶段中,不会传入人类描述句子,描述句子的内容和长度是未知的。训练后的视频内容描述模型运用beamsearch的方法,设定搜索范围k,在第一个时间节点设定初始单词索引-1(即零向量)输入到第一个时间节点,计算出当前状态h0,并根据h0和softmax函数算出当前节点可能产生的k个单词索引,并将该k个单词继续加入到下一个时间节点中,计算下一个时间节点可能产生的k个单词并和上一节点的对应单词组成序列。在大小为V的候选单词中每个单词的概率计算公式如式(23)所示:
Figure BDA0001271840420000104
其中,ht代表当前节点的隐藏状态,yt-1代表前一个时间节点由beamsearch搜索到的概率最大单词。
利用式(23)选出概率最大的k个单词索引,并添加到下一个时间节点中继续计算。如果在接下来的时间节点中,某一个由ki单词开头的序列搜索到索引为0的单词,则该序列结束搜索,搜索范围也减少为k-1。直到最后第ki个序列也搜索到索引为0的单词,则整个beam search过程结束。随后,在k个句子中选择累计损失最小的一句,将其每一个索引对应到事先准备好的字典中,对应输出相应单词,如果没有对应,则输出UNK(未知),如果对应为0,则输出<eos>,即句子结束。
步骤(6)是对测试阶段生成的句子使用当前主流的机器评价方式进行打分,该方法主要涉及BLEU,METERO,CIDEr等,该方法原理不在本发明技术范围内。根据评分结果,可对模型超参数和迭代次数做修改。
实施例
下面结合图2,给出视频内容描述具体训练和测试实施实例,详细计算过程如下:
(1)某一段视频共430帧,首先对视频格式进行预处理,按照帧率的10%将待描述视频转化为43帧有间隔的图片集合;
(2)利用预先训练好的卷积神经网络GoogLeNet、Faster R-CNN和C3D分别提取出43张图片中的全局特征、局部特征以及整个视频的动态特征,并利用级联的方式按照式(1)所列方法,将全局特征和动态融合;
(3)按照式(2)-(5)所列方法,计算出每帧图片上局部特征的空间表征
Figure BDA0001271840420000111
(4)按照式(8)-(13)所列方法,分别计算出视频中的全局-动态特征和局部空间表征的时间表征,并按照(7)所列方法将全局-动态时间表征和局部时间表征融合成整个视频的时间表征
Figure BDA0001271840420000112
(5)按照(14)-(19)所列方法,在解码过程中的每个时间节点依次加入时间表征
Figure BDA0001271840420000113
和人类句子描述,计算每一个时间节点的隐藏状态ht,第一个时间节点的h0是通过将融合后的全局-动态特征平均池化后得到;
(6)将LSTM网络中每个时间节点得到的ht输入到前馈神经网络,施加激活函数将其转化为V=20000维的向量,按照(20)—(22)所列方法,利用随机梯度下降的方法使得损失函数最小,并求解出模型训练过程中的最佳参数集合;
(7)在模型测试阶段,不会传入人类描述,训练后的视频描述模型利用beamsearch的方法,设定搜索宽度为5,第一个单词索引设为-1(即零向量),将其代入(14)—(19)中计算每个时间节点的ht。根据式(23)选出概率最大的五个单词索引,和ht一起传入下一个时间节点继续搜索下5个可能单词。
(8)每当新一个单词出现索引0,即代表结束符<EOS>时,则从搜索队列中去除,将其添加到候选句子队列中,同时搜索宽度减1。直到搜索宽度变为1且最后一个队列也搜索到索引为0的单词,则整个beamsearch过程结束。从5个候选句子队列中选出损失最小的一句作为该视频的描述。
(9)根据机器翻译评价方法如BLEU、METEOR和CIDEr等对于步骤(8)中得到的句子进行评分,根据评分结果的优劣确定或调整视频内容描述模型的参数。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种利用时空注意力模型的视频内容描述方法,其特征在于包括以下步骤:
步骤(1)对视频格式进行预处理;
1-1.将待描述视频转换为连续帧的图像集合;利用预先训练好的卷积神经网络GoogLeNet和Faster R-CNN模型分别提取每一帧图片的全局特征和局部特征,其中全局特征取自GoogLeNet卷积神经网络中pool5/7×7_s1层,局部特征取自Faster R-CNN模型中的全连接层fc7;
1-2.采用预先训练好的C3D卷积神经网络,在连续几帧图片中提取视频中的动态特征,特征取自模型中全连接层fc6;
1-3.因为每一个待描述视频的总帧数不一样,为了后续操作方便,统一将所有帧均分成k组,并取每组的第一帧,所以每一个视频最后会有k个全局特征vg={vg1,…,vgk},k*n个局部特征vl={vl1n,…,vlkn}和k个动态特征vm={vm1,…,vmk};
1-4.利用级联的方法将全局特征和动态特征融合成一个全局-动态特征向量v[gm]i
v[gm]i=[vgi,vmi] (1)
其中,vgi表示全局特征,vmi表示动态特征,[vgi,vmi]表示全局特征和动态特征进行级联;
步骤(2)建立时空注意力模型;
2-1.对于每个时间点t,首先利用空间注意力模型将每一帧图片中top-n个区域的特征{vli1,vli2,…,vlin}编码成长度为k的局部空间表征:
Figure FDA0002471533490000011
每帧图片上n个局部特征都有相应的权重,所以
Figure FDA0002471533490000012
是利用空间注意力模型得到的每帧图片上所有局部特征的加权平均值;
2-2.将k个全局-动态特征向量v[gm]i和局部空间表征ψ(VL)编码成句子长度为m的时间表征:
Figure FDA0002471533490000021
其中,每个
Figure FDA0002471533490000022
为全局-动态时间表征和局部时间表征的静态融合,即:
Figure FDA0002471533490000023
上式中,
Figure FDA0002471533490000024
表示全局-动态时间表征和局部时间表征的级联;
Figure FDA0002471533490000025
是分别利用视频描述任务中的时空注意力模型得到的k个全局-动态特征和k个局部空间表征的加权平均值;
步骤(3)对视频描述任务中的时空注意力模型进行训练;
步骤(4)对视频描述任务中的时空注意力模型进行测试。
2.根据权利要求1所述的一种利用时空注意力模型的视频内容描述方法,其特征在于步骤2-1具体如下:
所述的所有局部特征的加权平均值的具体公式如下:
Figure FDA0002471533490000026
上式中,
Figure FDA0002471533490000027
Figure FDA0002471533490000028
在LSTM解码过程中的每个时间点t中被计算,称其为每个t的空间注意力权重;
其中,空间注意力权重
Figure FDA0002471533490000029
反映了每一帧上第j个局部特征和之前生成的单词信息,也就是y1,…,yt-1的关联程度;因此通过以下计算公式用来计算
Figure FDA00024715334900000210
将之前的隐藏状态ht-1和第j个局部特征作为输入:
Figure FDA00024715334900000211
ht-1表示之前生成的隐藏状态,其储存了t-1个时间点产生的单词信息,
Figure FDA00024715334900000212
Wa,Ua,za是需要学习的参数,且这些参数将被所有局部特征在整个训练过程中共享;
一旦每一帧图片上所有局部区域j=1,…,n与t-1个时间点生成单词的相关分数
Figure FDA0002471533490000031
得到后,利用softmax函数对
Figure FDA0002471533490000032
进行归一化操作后获得空间注意力权重
Figure FDA0002471533490000033
Figure FDA0002471533490000034
空间注意力模型使得LSTM神经网络解码时能够选择性地关注每个时间点t每一帧图片上权重增加的局部特征,从而在视频描述中捕捉到更多的关键细节。
3.根据权利要求1所述的一种利用时空注意力模型的视频内容描述方法,其特征在于步骤2-2具体如下:
所述的
Figure FDA0002471533490000035
是分别利用视频描述任务中的时空注意力模型得到的k个全局-动态特征和k个局部空间表征的加权平均值,具体如下:
Figure FDA0002471533490000036
Figure FDA0002471533490000037
上式中,
Figure FDA0002471533490000038
同样地,γi (t)
Figure FDA0002471533490000039
在LSTM解码过程中的每个时间点t中被计算,分别称其为每个t的局部时间注意力权重和全局-动态时间注意力权重;γi (t)
Figure FDA00024715334900000310
反映了第i帧局部空间表征、全局-动态特征与之前生成单词信息,也就是y1,…,yt-1的关联程度;因此通过以下计算公式用来计算γi (t)
Figure FDA00024715334900000311
将之前的隐藏状态ht-1和第i帧全局-动态特征和局部空间表征分别作为输入:
Figure FDA00024715334900000312
Figure FDA00024715334900000313
ht-1表示之前生成的隐藏层状态,其储存了t-1个时间点产生的单词信息,
Figure FDA0002471533490000041
Wb,Wc,Ub,Uc,zb,zc是我们模型需要学习的参数;
一旦所有帧i=1,…,k的全局-动态特征、局部空间表征与t-1个时间点生成单词的相关分数
Figure FDA0002471533490000042
得到后,利用softmax函数分别对
Figure FDA0002471533490000043
Figure FDA0002471533490000044
进行归一化操作,获得全局-动态时间注意力权重
Figure FDA0002471533490000045
和局部时间注意力权重γi (t)
Figure FDA0002471533490000046
Figure FDA0002471533490000047
4.根据权利要求1所述的一种利用时空注意力模型的视频内容描述方法,其特征在于步骤(3)所述的对视频描述任务中的时空注意力模型进行训练,具体如下:
当每个时间点的时间表征
Figure FDA0002471533490000048
计算出来后,结合人类给出的句子描述,在每个时间节点将时间表征和人类给出的句子描述中的每个单词依次加入到LSTM网络中;
由于在视频描述任务中的时空注意力模型训练阶段需要添加人类句子描述作为指导,所以总的训练时间步长为已知,即人类给出的描述句子的长度;整个训练过程按照LSTM中三个门和cell的计算来不断更新隐藏状态ht,每个ht中储存了t个时间点生成的所有单词信息,每次将其从LSTM网络中输出到前馈神经网络中,通过施加激活函数将其转化为R*D维的向量,R代表LSTM网络的维度,D代表候选单词维度,最后利用softmax函数的多分类方法,从D选择概率最高的那一维的索引,对应到事先准备好的字典中,即可选择出每个时间节点应生成的单词;经过L个时间点,L表示该视频人类句子描述的长度,所以最后会得到L个ht={h1,…,hL},同时得到L个单词预测概率,因为训练阶段描述句子已知,所以目标函数是最大化生成单词的对数似然,也就是使得损失函数最小,即L个损失函数的和最小,所以通过梯度下降算法更新所需的训练参数直到损失函数的和最小。
5.根据权利要求1所述的一种利用时空注意力模型的视频内容描述方法,其特征在于步骤(4)所述的对视频描述任务中的时空注意力模型进行测试,具体如下:
由于描述句子的内容和长度是未知的,所以运用beam search的方法,设定搜索范围q,在第一个时间节点设定初始单词索引为一1,即是一个零向量,并输入到第一个时间节点,计算出当前状态h0,并根据h0和softmax函数算出当前节点可能产生的q个单词索引,并将该q个单词继续加入到下一个时间节点中,计算下一个时间节点可能产生的q个单词并和上一节点的对应单词组成序列;如果在某一时刻,其中一个由qp单词开头的序列搜索到索引为0的单词,则该序列结束搜索,搜索范围也减少为q-1;直到最后第qp个序列也搜索到索引为0的单词,则整个beamsearch过程结束,在q个句子中选择损失最小的一句,将其每一个索引对应到事先准备好的字典中,对应输出相应单词,如果没有对应,则输出UNK,如果对应为0,则输出<eos>,即句子结束。
CN201710250098.XA 2017-04-17 2017-04-17 一种利用时空注意力模型的视频内容描述方法 Active CN107066973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710250098.XA CN107066973B (zh) 2017-04-17 2017-04-17 一种利用时空注意力模型的视频内容描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710250098.XA CN107066973B (zh) 2017-04-17 2017-04-17 一种利用时空注意力模型的视频内容描述方法

Publications (2)

Publication Number Publication Date
CN107066973A CN107066973A (zh) 2017-08-18
CN107066973B true CN107066973B (zh) 2020-07-21

Family

ID=59600296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710250098.XA Active CN107066973B (zh) 2017-04-17 2017-04-17 一种利用时空注意力模型的视频内容描述方法

Country Status (1)

Country Link
CN (1) CN107066973B (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062505B (zh) * 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
CN108305296B (zh) * 2017-08-30 2021-02-26 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN107909014A (zh) * 2017-10-31 2018-04-13 天津大学 一种基于深度学习的视频理解方法
CN107818306B (zh) * 2017-10-31 2020-08-07 天津大学 一种基于注意力模型的视频问答方法
CN110598779B (zh) * 2017-11-30 2022-04-08 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
CN109918058B (zh) * 2017-12-13 2022-08-12 富士通株式会社 信息处理装置和方法以及在编程环境中推荐代码的方法
CN108171198B (zh) * 2018-01-11 2020-02-11 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN108256631A (zh) * 2018-01-26 2018-07-06 深圳市唯特视科技有限公司 一种基于注意力模型的用户行为推荐系统
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108334861A (zh) * 2018-03-02 2018-07-27 北京未来媒体科技股份有限公司 一种基于机器学习的视频内容识别方法及装置
CN108419094B (zh) 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN108492273A (zh) * 2018-03-28 2018-09-04 深圳市唯特视科技有限公司 一种基于自注意力模型的图像生成方法
CN108334910B (zh) * 2018-03-30 2020-11-03 国信优易数据股份有限公司 一种事件检测模型训练方法以及事件检测方法
CN108764019A (zh) * 2018-04-03 2018-11-06 天津大学 一种基于多源深度学习的视频事件检测方法
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108665769B (zh) * 2018-05-11 2021-04-06 深圳市鹰硕技术有限公司 基于卷积神经网络的网络教学方法以及装置
CN110019849B (zh) * 2018-05-23 2020-11-24 山东大学 一种基于注意力机制的视频关注时刻检索方法及装置
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108683924B (zh) * 2018-05-30 2021-12-28 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN108881950B (zh) * 2018-05-30 2021-05-25 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN108960063B (zh) * 2018-06-01 2021-07-02 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述方法
CN108984628B (zh) * 2018-06-20 2020-01-24 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置
CN110659641B (zh) * 2018-06-28 2023-05-26 杭州海康威视数字技术股份有限公司 一种文字识别的方法、装置及电子设备
CN109165561A (zh) * 2018-07-27 2019-01-08 北京以萨技术股份有限公司 一种基于视频特征的交通拥堵识别方法
CN109190619A (zh) * 2018-08-23 2019-01-11 重庆大学 一种基于目标掩膜的图像描述方法
CN109101948B (zh) * 2018-08-28 2021-06-04 电子科技大学 一种基于时空及通道的多注意力机制视频描述方法
CN109190578B (zh) * 2018-09-13 2019-10-18 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109359539B (zh) * 2018-09-17 2021-04-02 中国科学院深圳先进技术研究院 注意力评估方法、装置、终端设备及计算机可读存储介质
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109446923B (zh) * 2018-10-10 2021-09-24 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109558811B (zh) * 2018-11-12 2023-04-07 中山大学 一种基于运动前景关注及非监督的关键帧提取的动作识别方法
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110059587A (zh) * 2019-03-29 2019-07-26 西安交通大学 基于时空注意力的人体行为识别方法
CN110110601B (zh) * 2019-04-04 2023-04-25 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别方法及装置
CN110096987B (zh) * 2019-04-24 2022-04-12 东北大学 一种基于双路3dcnn模型的哑语动作识别方法
CN110135472B (zh) * 2019-04-25 2021-02-09 暗物智能科技(广州)有限公司 用于图像描述模型的奖赏的确定方法及电子设备
CN110276715B (zh) * 2019-05-14 2020-07-17 北京邮电大学 一种图像去夜方法和装置
CN111783506B (zh) * 2019-05-17 2024-09-24 北京京东尚科信息技术有限公司 目标特征的确定方法、装置和计算机可读存储介质
CN110210358A (zh) * 2019-05-24 2019-09-06 北京大学 一种基于双向时序图的视频描述生成方法和装置
CN110335261B (zh) * 2019-06-28 2020-04-17 山东科技大学 一种基于时空循环注意力机制的ct淋巴结检测系统
CN110288597B (zh) * 2019-07-01 2021-04-02 哈尔滨工业大学 基于注意力机制的无线胶囊内窥镜视频显著性检测方法
CN110349229B (zh) * 2019-07-09 2023-06-02 北京金山数字娱乐科技有限公司 一种图像描述方法及装置
CN110619313B (zh) * 2019-09-20 2023-09-12 西安电子科技大学 遥感图像判别性描述生成方法
CN110765921B (zh) * 2019-10-18 2022-04-19 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN111737511B (zh) * 2020-06-17 2022-06-07 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法
CN112418012B (zh) * 2020-11-09 2022-06-07 武汉大学 一种基于时空注意力模型的视频摘要生成方法
CN113569068B (zh) * 2021-01-19 2023-09-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113591593B (zh) * 2021-07-06 2023-08-15 厦门路桥信息股份有限公司 基于因果干预的异常天气下目标检测方法、设备及介质
CN113784199B (zh) * 2021-09-10 2022-09-13 中国科学院计算技术研究所 一种用于生成视频描述文本的系统、方法、存储介质与电子设备
CN113901846B (zh) * 2021-09-15 2024-05-24 昆明理工大学 基于时空注意力的视频引导机器翻译方法
CN115641763B (zh) * 2022-09-12 2023-12-19 中南迅智科技有限公司 一种记忆背诵辅助系统
CN116524419B (zh) * 2023-07-03 2023-11-07 南京信息工程大学 基于时空解耦与自注意力差分lstm的视频预测方法、系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508923A (zh) * 2011-11-22 2012-06-20 北京大学 基于自动分类和关键字标注的自动视频注释方法
CN102930302A (zh) * 2012-10-18 2013-02-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN103065326A (zh) * 2012-12-26 2013-04-24 西安理工大学 基于时-空多尺度运动注意力分析的目标检测方法
CN103514608A (zh) * 2013-06-24 2014-01-15 西安理工大学 基于运动注意力融合模型的运动目标检测与提取方法
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence
CN105426813A (zh) * 2015-10-27 2016-03-23 杭州电子科技大学 一种视频异常行为检测方法
CN105893936A (zh) * 2016-03-28 2016-08-24 浙江工业大学 一种基于hoirm和局部特征融合的行为识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508923A (zh) * 2011-11-22 2012-06-20 北京大学 基于自动分类和关键字标注的自动视频注释方法
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence
CN102930302A (zh) * 2012-10-18 2013-02-13 山东大学 基于在线序贯极限学习机的递增式人体行为识别方法
CN103065326A (zh) * 2012-12-26 2013-04-24 西安理工大学 基于时-空多尺度运动注意力分析的目标检测方法
CN103514608A (zh) * 2013-06-24 2014-01-15 西安理工大学 基于运动注意力融合模型的运动目标检测与提取方法
CN105426813A (zh) * 2015-10-27 2016-03-23 杭州电子科技大学 一种视频异常行为检测方法
CN105893936A (zh) * 2016-03-28 2016-08-24 浙江工业大学 一种基于hoirm和局部特征融合的行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Describing Videos by Exploiting Temporal Structure;Li Yao et al.;《Computer Vision Foundation》;20151231;第4507-4515页 *
Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks;Haonan Yu et al.;《2016 IEEE Conference on Computer Vsion and Pattern Recognition》;20161231;第4584-4593页 *
基于空时显著性感知的运动目标检测方法;李正周 等;《计算机应用研究》;20100630;第27卷(第6期);第2391-2393页 *

Also Published As

Publication number Publication date
CN107066973A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066973B (zh) 一种利用时空注意力模型的视频内容描述方法
CN107038221B (zh) 一种基于语义信息引导的视频内容描述方法
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN108932304B (zh) 基于跨模态的视频时刻定位方法、系统及存储介质
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
CN103810299B (zh) 基于多特征融合的图像检索方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN108829677A (zh) 一种基于多模态注意力的图像标题自动生成方法
Hoxha et al. A new CNN-RNN framework for remote sensing image captioning
CN112488055B (zh) 一种基于渐进图注意力网络的视频问答方法
CN110110648B (zh) 基于视觉感知与人工智能的动作提名方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN111797814A (zh) 基于通道融合和分类器对抗的无监督跨域动作识别方法
Hani et al. Image caption generation using a deep architecture
CN114821770B (zh) 文本到图像的跨模态行人再识别方法、系统、介质和设备
CN112200096A (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN117152851B (zh) 基于大模型预训练的人脸、人体协同聚类方法
CN112307778B (zh) 特定场景手语视频的翻译模型训练方法、翻译方法及系统
Papadimitriou et al. End-to-End Convolutional Sequence Learning for ASL Fingerspelling Recognition.
WO2024093466A1 (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN116453514B (zh) 一种基于多视角的语音关键词检测与定位方法及装置
CN108985385A (zh) 基于生成对抗学习的快速弱监督目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Tu Yunbin

Inventor after: Zhang Xishan

Inventor before: Tu Yunbin

Inventor before: Yan Chenggang

Inventor before: Zhang Xishan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant