CN107038221B

CN107038221B - 一种基于语义信息引导的视频内容描述方法

Info

Publication number: CN107038221B
Application number: CN201710174883.1A
Authority: CN
Inventors: 颜成钢; 涂云斌; 冯欣乐; 李兵; 楼杰栋; 彭冬亮; 张勇东; 王建中
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2020-11-17
Anticipated expiration: 2037-03-22
Also published as: CN107038221A

Abstract

本发明一种基于语义信息引导的视频内容描述方法。本发明包括如下步骤：步骤(1)对视频格式进行预处理；步骤(2)建立用于引导的语义信息；步骤(3)计算语义特征向量[A_i,XMS⁽ⁱ⁾]的权重

步骤(4)对语义特征向量[A_i,XMS⁽ⁱ⁾]进行解码；步骤(5)对视频描述模型进行测试。本发明通过利用faster‑rcnn模型，能快速检测每帧图像上的关键语义信息，并加入到原有用CNN提取的特征中，使得每个时间节点输入LSTM网络的特征向量具有语义信息，从而在解码过程中，既保证视频内容时空关联性，又提高了语言描述的准确率。

Description

一种基于语义信息引导的视频内容描述方法

技术领域

本发明属于计算机视觉与自然语言处理技术领域，涉及一种基于语义信息引导的视频内容描述方法。

背景技术

一、视频内容描述方面

之前在视频内容描述方面的研究工作主要分为两个方向：

1.基于特征识别与语言模板填充的方法。具体而言，该方法分为两个步骤，首先将视频按照一定的时间间隔转化成具有连续帧的图像集合；其次，使用一系列预先在大规模的图像训练集中训练好的特征分类器，将视频中的静态特征与动态特征分类标记，具体而言，这些特征可细分为实体、实体属性、实体间的交互关系以及场景等；最后，根据人类语言的特点制定一个“主语，谓语，宾语”的语言模板，在按分类器估计出的概率大小将概率最大的特征填充到语言模版中。

2.基于深度学习的编码-解码方法。该研究方法来源于早前的图像内容描述中，其首先利用预先训练好卷积神经网络(CNN)提取图像特征；其次将其编码成一个适当维数大小的向量形式；最后利用递归神经网络(RNN)通过在大规模图像训练集中学习后，将编码后的向量进行解码，最终转化为一个大小为V的向量，V代表候选单词的维度，并运用多分类回归softmax从中挑选概率值最大索引，循环t个时间节点，直到返回的索引为0停止循环(因人为规定0序号索引为停止字符)，最后将由索引组成的序列对应到事先准备好的字典中去，每个字典中都标注了每个索引所对应的单词。所以，生成的单词序列和字典中索引值相同即输出对应单词，如果在字典中无对应索引，则输出UNK(未知)，遇到0(eos)则代表结束，对比t次即可生成此图像的描述。所以，利用此研究基础，在视频描述中，同样利用预先训练好的卷积神经网络(CNN)将视频转化后的每一帧图像编码成一个适当维数的向量；最后同样利用递归神经网络(RNN)将这些向量解码成一系列候选单词并将其组合成视频描述。

二、语义信息引导方面

语义信息引导目前的研究主要集中在图像内容描述中，具体而言，语义信息在这里主要指与待描述的图像内容和描述语言最为相关的额外信息，该信息可以通过近邻域检索的方式，通过从图像训练集中搜索出与待描述图像最相似的几幅图像，按相似度排名(例如取相似度最高的十幅图像)，并将其对应的人工描述用于递归神经网络的解码过程，作为解码过程的引导，目的是使得生成的语言描述更符合人类语言习惯。

对于视频描述现有的方法而言，第一种基于特征识别与语言模板填充的方法不仅需要训练大量的特征分类器用于特征识别，而且在将这些特征填充进语言模板时，容易导致生成的语言描述不完整或不符合人类语言习惯，也就是该使用哪些特征以及这些特征怎么有效结合是导致生成的语言描述正确率很低的关键因素。对于第二种方法，虽然其是目前该研究领域中最为先进也是准确率最高的方法，但是在如何将一系列编码后的图像特征向量融合成一个固定的、具有时间序列的向量仍存在较大的问题，例如：在现有的研究中，有人在融合过程中仅简单的对这些向量集合取平均值，这显然忽略了视频内容中事件间的时空关联性；另外，有人为了保留时间序列引入了注意力模型，即对所有的向量计算权重大小，在特定的时间点只解码权重最大的向量，但该方法并没有很好地区分出向量中的动态特征和静态特征等等。所以在视频描述方面现有研究方法仍然具有较大的改进空间。

对于语义信息引导方面，目前相关研究主要集中在图像描述方面，并且在提升描述准确度方面取得了显著的效果。所以该方法在与视频描述有效结合上具有较大的研究空间。

发明内容

为了克服现有视频内容描述领域中研究方法繁琐、多种特征融合时造成的时序混乱以及进一步提高描述的准确率，本发明拟在上述两种方法的基础上新提出一种基于语义信息引导的视频内容描述方法。本发明在解码过程的每一个时间节点添加关联度最高的语义信息作为引导，目的是使得生成的语言描述更为准确。

本发明解决上述技术问题所采用的技术方法是：

首先利用预先训练好的卷积神经网络(CNN)，如GoogleNet、VGG16等，此类预先在ImageNet和MSCOCO等图片集上训练好的神经网络模型在git网站可直接下载，利用这些神经网络模型可将待处理视频中的每一帧图像和连续的动作进行特征提取，并级联成固定维度的向量；其次利用快速区域目标检测(faster-rcnn)模型，该方法引用相关论文资料，技术原理不再本发明研究范围内。将faster-rcnn模型预先在MS COCO上训练，可快速检测80个名词物体。利用该检测模型可以在每帧图像上进行目标检测，并形成81维的向量(80个物体+1个背景)，每个向量的值代表了该帧图像上可能存在80个物体中任何一个的概率；然后将用faster-rcnn提取出的81维向量和原有的CNN+3-D CNN提取的特征向量级联，形成一个1457维的语义特征向量；最后利用基于长短期记忆的递归神经网络(LSTM)将每一帧编码后的语义特征向量解码为单词序列，通过beam search的方法从单词序列中选出损失函数最小的语言描述作为该视频内容的语言描述。

本发明解决其技术问题所采用的技术方案具体包括以下步骤：

步骤(1)对视频格式进行预处理。

1-1.将待描述视频转换为连续帧的图像集合；利用预先训练好的卷积神经网络对每一帧静态图像进行特征提取，并取GoogleNet模型最后一个全连接层的1024维作为一个固定维数的向量X＝{x₁,x₂,…,x₁₀₂₄}，因为每一个待描述视频的总帧数不一样，为了后续操作方便，统一将所有帧均分成K组，并取每组的第一帧，所以最后将形成维数为K*1024的向量。

1-2.采用预先训练好的三维卷积神经网络，对连续动作帧提取其行为特征，并取三维卷积神经网络模型最后一个全连接层的352维向量，作为一个固定维数的向量X′＝{x₁′,…,x′₃₅₂}；每个待描述视频只做一次连续动作帧提取，所以每个待描述视频的行为特征最后可处理成1×352维的向量。

1-3.利用级联的方法将静态图像提取的特征与连续动作帧提取的行为特征进行融合，融合后的每帧图像级联为1×1376维的向量XMS(ⁱ)。，计算方法如式(1)所示：

XMS⁽ⁱ⁾＝θ([XM⁽ⁱ⁾,XS⁽ⁱ⁾]^T)

其中，XM⁽ⁱ⁾表示连续动作帧提取的行为特征，XS⁽ⁱ⁾表示静态图像提取的特征，[XM⁽ⁱ⁾,XS⁽ⁱ⁾]^T表示第i帧静态图像提取的特征和连续动作帧提取的行为特征进行级联。

所述的三维卷积神经网络3-D CNN，如C3D等，训练方法在git网站上有相应的开源代码供参考；

所述的行为特征形式包括HoG,HoF,MBH；

步骤(2)建立用于引导的语义信息。

2-1.为了提高语义信息的准确率，利用深度学习参数估计的方法在最大的图片集合MS COCO上统计出的80个名词物体；通过预先在MS COCO图片集上训练的faster-rcnn模型对每一帧图像进行目标检测；

2-2.通过目标检测对步骤(1)中得到的每帧图像提取语义信息向量{A_i}其中，i为自然数，且i小于等于80；

所述的语义信息向量{A_i}有81维，代表了一个图片背景和80个名词物体，用于后续作为语义信息引导。

2-3.将得到的语义信息向量{A_i}与步骤1-3融合后的1376维特征向量级联，形成一个新的1457维的语义特征向量[A_i,XMS⁽ⁱ⁾]，并将该语义特征向量[A_i,XMS⁽ⁱ⁾]添加到LSTM的每个时间节点中，并将该语义特征向量[A_i,XMS⁽ⁱ⁾]解码为单词。

步骤(3)计算语义特征向量[A_i,XMS⁽ⁱ⁾]的权重

每个待描述视频有K帧语义特征向量，但针对每个时间节点只需要添加一帧语义特征向量，所以需要分别计算出每个时间节点K帧图像中语义特征向量[A_i,XMS⁽ⁱ⁾]的权重，用于后续解码中选出权重最大也就是和当前时间节点视频内容最相关的一帧图像。

步骤(4)对语义特征向量[A_i,XMS⁽ⁱ⁾]进行解码。

在解码过程中，利用步骤(3)中计算出的语义特征向量的权重，计算出每个时间节点应选择的第i帧语义特征向量，即

并结合人类给出的句子描述中的每个单词，在每个时间节点将特征和单词依次加入到LSTM网络中。

因为在视频描述模型训练阶段，是需要添加人类句子描述作为指导，所以总的训练节点是已知的，即人类描述句子的长度。整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态h_t，训练L个时间节点，L表示该视频人类句子描述的长度，所以最后会得到L个h_t。将其从LSTM网络中输出到前馈神经网络中，通过施加激活函数将其转化为R*V维的向量，R代表LSTM网络的维度，V代表候选单词维度，最后利用softmax函数的多分类方法，从V选择概率最高的那一维的索引，对应到事先准备好的字典中，即可选择出每个时间节点应生成的单词。因为训练阶段描述句子已知，所以目标函数是最大化生成单词的正确率，也就是使得损失函数最小，所以通过梯度下降算法更新所需的训练的参数直到损失函数最小。

步骤(5)对视频描述模型进行测试。

测试阶段，因为描述句子的内容和长度是未知的，所以运用beam search的方法，设定搜索范围k，在第一个时间节点设定初始单词索引为-1(即是一个零向量)，并输入到第一个时间节点，计算出当前状态h₀，并根据h₀和softmax函数算出当前节点可能产生的k个单词索引，并将该k个单词继续加入到下一个时间节点中，计算下一个时间节点可能产生的k个单词并和上一节点的对应单词组成序列。如果在某一时刻，其中一个由k_i单词开头的序列搜索到索引为0的单词，则该序列结束搜索，搜索范围也减少为k-1。直到最后第k_i个序列也搜索到索引为0的单词，则整个beam search过程结束，在k个句子中选择损失最小的一句，将其每一个索引对应到事先准备好的字典中，对应输出相应单词，如果没有对应，则输出UNK(未知)，如果对应为0，则输出<eos>，即句子结束。

本发明的有益效果：

相比于现有的视频内容描述方法，通过利用faster-rcnn模型，能快速检测每帧图像上的关键语义信息，并加入到原有用CNN提取的特征中，使得每个时间节点输入LSTM网络的特征向量具有语义信息，从而在解码过程中，既保证视频内容时空关联性，又提高了语言描述的准确率。

附图说明

图1为本发明的实现流程图；

图2为本发明设计的语义信息引导示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步的详细说明。

本发明提出的一种基于语义信息引导的视频内容描述的方法，通过在原有的用CNN和3-D CNN提取的特征向量中加入语义信息，来提高描述的准确性。首先利用预先训练好的卷积神经网络(CNN)将每一帧图像的静态特征和连续的动作如：接电话，踢球等进行特征提取，并级联成固定维度的向量；其次利用快速区域目标检测(faster-rcnn)模型，该方法引用相关论文资料，技术原理不再本发明研究范围内。将faster-rcnn模型预先在MSCOCO上训练，可快速检测80个名词物体。利用该检测模型可以在每帧图像上进行目标检测，并形成81维的向量(80个物体+1个背景)，每个向量的值代表了该帧图像上可能存在80个物体中任何一个的概率；然后将用faster-rcnn提取出的81维向量和原有的CNN+3-D CNN提取的特征向量级联，形成一个1457维的语义特征向量；最后利用基于长短期记忆的递归神经网络(LSTM)将每一帧编码后的语义特征向量解码为单词序列，通过beam search的方法从单词序列中选出损失函数最小的作为该视频内容的语言描述，实施流程如图1所示。本发明所述方法在视频内容描述模型的训练和测试过程中具体包括以下步骤：

步骤(1)对视频格式进行预处理。首先将待描述视频按照一定的时间间隔转化为一系列图像集合，利用预先训练好的卷积神经网络对每一帧图像进行特征提取，并分别处理成固定维数的向量(x₁,x₂,…,x_n)。例如，某一段视频共280帧，可以将其均分成28块(某些视频可能存在均分后的28块中，每一块的帧数不相同，但这不影响实验结果)，并取每一块的第一帧，所以该视频可以转化为28张连续的图片，每一帧图像缩放为256*256像素，并裁剪为227*227像素。其次利用预先在1.2M图像分类训练集ImageNet和MS COCO上训练好的GoogleNet卷积神经网络模型对28张图片进行特征提取，并取该卷积神经网络最后一个全连接层1024维的向量，即X＝{x₁,x₂,…,x₁₀₂₄}，所以每个视频的静态特征最后可处理成一个28×1024维的向量。对于视频中的连续动作，同样利用预先训练好的三维卷积神经网络(3-D CNN)建立高层语义代表，用于将短的连续帧序列概括和储存为局部动态特征，同样取3-DCNN最后一个全连接层352维的向量，即X′＝{x₁′,…,x′₃₅₂}，每个视频只做一次动态特征提取，所以每个视频的动态特征最后可处理成1×352维的向量。最后，为了将静态图像特征和连续动作特征进行融合，可利用级联的方法，将每帧图像级联为1×1376维的向量，计算方法如式(1)所示：

XMS⁽ⁱ⁾＝θ([XM⁽ⁱ⁾,XS⁽ⁱ⁾]^T) (1)

步骤(2)建立用于引导的语义信息。为了提高语义信息的准确率，利用深度学习参数估计的方法，利用现在最大的图片集合MS COCO上统计出的80个名词物体，利用预先在MSCOCO图片集上训练faster-rcnn模型，可在每一帧图像上进行目标检测，目的是从步骤(1)中得到的每帧图像中提取语义信息{A_i}(i＝80)，该语义信息有81维，代表了一个图片背景和80个名词物体，用于后续作为语义信息引导。因为faster-rcnn在每张图片上最多300个区域做目标检测，即每张图片检测过后会生成一个q×81维度的向量(q代表检测的区域数量)，所以为了后续计算的统一，通过对每帧图像上q×81的向量做平均处理形成1×81维的语义信息向量A_i，最后，将得到的A_i与原有的每帧1376维向量级联，形成一个新的1×1457维的语义特征向量[A_i,XMS⁽ⁱ⁾]，由此在原有的CNN和3-D CNN特征中加入了语义信息引导。最后，每个视频会形成28×1457维度的向量，因为要保证视频内容的时间关联性，所以需要根据前面生成的词语，从28帧图像中选出一个符合当前时间节点生成单词所需要的语义特征向量，将其添加到当前时间节点中，该向量

的计算方法如式(2)所示：

其中，[A_i,XMS⁽ⁱ⁾]表示第i帧图像的语义信息向量A_i和CNN+3-D CNN特征向量XMS⁽ⁱ⁾级联形成的语义特征向量，

表示第t个时间节点上第i帧语义特征向量[A_i,XMS⁽ⁱ⁾]的权重，加入权重的目的是在28帧图像中，选择出与每个时间节点关联度最大的一帧语义特征向量，加入到LSTM网络中。权重

的计算方法将会在步骤(3)中提到。

步骤(3)计算语义特征向量[A_i,XMS⁽ⁱ⁾]的权重

在每个时间节点，每帧图像中语义信息A_i和CNN+3-D CNN特征级联后，新形成的语义特征向量[A_i,XMS⁽ⁱ⁾]的权重计算方法如式(3)、(4)所示：

其中，w^T，W_e，U_v表示训练参数，

是每个时间节点每一帧图像语义特征向量的值，

是每帧语义特征向量值在28帧语义特征向量中的比重，即为该语义特征向量的权重。

步骤(4)用于将前面的语义特征向量进行解码。在解码过程中，利用式(3)和(4)中计算出的语义特征向量的权重代入式(2)中，计算出每个时间节点应选择的第i帧语义特征向量，即

并结合人类给出的句子描述中的每个单词，在每个时间节点将特征和单词依次加入到LSTM网络中。因为在训练视频描述模型训练阶段，是需要添加人类句子描述作为指导，所以总的训练节点是已知的，即人类描述句子的长度。整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态h_t，训练L个时间节点，L表示该视频人类句子描述的长度，所以最后会得到L个h_t。根据输入到LSTM每一个神经单元信息的改变，本发明对每一个时间点的i_t，O_t，f_t，g_t，c_t，h_t的基础公式做出相应改进，每一个时间节点的隐藏状态h_t的计算方法如式(5)-(9)所示：

c_t＝f_t⊙c_t-1+i_t⊙g_t (9)

h_t＝o_t⊙tanh(c_t)

在每个时间节点将得到一个隐藏状态h_t，其储存了之前时间节点产生的句子信息，将其从LSTM网络中输出到前馈神经网络中，通过施加激活函数将其转化为R*V维的向量，R代表LSTM网络的维度，V代表候选单词维度，最后利用softmax函数的多分类方法，从V中选择概率最高的那一维的索引，对应到事先准备好的字典中，即可选择出每个时间节点应生成的单词。因为训练阶段描述句子已知，所以不需要生成句子，目标函数是最大化生成单词的正确率，也就是使得损失函数最小，损失函数计算方法如式(10)所示：

其中，m表示训练的样本数，所以E是每一批训练样本中的平均损失函数，

是所有训练的参数集合。

通过梯度下降算法更新所有训练的参数直到损失函数最小，计算方法如式(11)、(12)所示：

其中，w_k，b_k代表第k个训练参数，m表示每一批训练的样本，η表示学习效率(一般取0.001)，n表示n个参数。

步骤(5)的测试阶段，在该阶段中，不会传入人类描述句子，描述句子的内容和长度是未知的。训练后的视频内容描述模型运用beam search的方法，设定搜索范围k，在第一个时间节点设定初始单词索引-1(即零向量)输入到第一个时间节点，计算出当前状态h₀，并根据h₀和softmax函数算出当前节点可能产生的k个单词索引，并将该k个单词继续加入到下一个时间节点中，计算下一个时间节点可能产生的k个单词并和上一节点的对应单词组成序列。在大小为V的候选单词中每个单词的概率计算公式如式(13)所示：

其中，h_t代表当前节点的隐藏状态，y_t-1代表前一个时间节点由beam search搜索到的概率最大单词。

利用式(13)选出概率最大的k个单词索引，并添加到下一个时间节点中继续计算。如果在接下来的时间节点中，某一个由k_i单词开头的序列搜索到索引为0的单词，则该序列结束搜索，搜索范围也减少为k-1。直到最后第k_i个序列也搜索到索引为0的单词，则整个beam search过程结束。随后，在k个句子中选择累计损失最小的一句，将其每一个索引对应到事先准备好的字典中，对应输出相应单词，如果没有对应，则输出UNK(未知)，如果对应为0，则输出<eos>，即句子结束。

步骤(6)是对测试阶段生成的句子使用当前主流的机器评价方式进行打分，该方法主要涉及bleu，meteor，cidEr等，该方法原理不在本发明技术范围内。根据评分结果，可对训练阶段初始参数和迭代次数做修改。

实施实例

下面结合图2，给出视频内容描述具体训练和测试实施实例，详细计算过程如下：

(1)某一段视频共280帧，可以将其均分成28块，并取每一块的第一帧，所以该视频可以转化为28张连续的图片；

(2)按照式(1)所列方法，利用预先训练好的卷积神经网络分别提取出28张图片中的静态特征以及整个视频的动态特征，并利用级联的方式将二者融合；

(3)利用预先训练好的faster-rcnn对28张图片进行快速目标检测，形成28个81维的语义信息向量；

(4)将每帧的语义信息向量和原有用CNN+3-D CNN提取出的特征向量级联，形成1457维的语义特征向量。按照式(3)、(4)所列方法，计算出每个语义特征向量的权重

(5)按照(5)-(9)所列方法，在解码过程中的每个时间节点依次加入语义特征向量[A_i,XMS⁽ⁱ⁾]和人类句子描述，计算每一个时间节点的隐藏状态h_t，第一个时间节点的h₀设为0；

(6)将LSTM网络中每个时间节点得到的h_t输入到前馈神经网络，施加激活函数将其转化为V＝20000维的向量，按照(10)—(12)所列方法，利用随机梯度下降的方法使得损失函数最小，并求解出模型训练过程中的最佳参数集合；

(7)在模型测试阶段，不会传入人类描述，训练后的视频描述模型利用beamsearch的方法，设定搜索宽度为5，第一个单词索引设为-1(即零向量)，将其代入(5)—(8)中计算每个时间节点的h_t以及权重。根据式(13)选出概率最大的五个单词索引，和h_t一起传入下一个时间节点继续搜索下5个可能单词。

(8)每当新一个单词出现索引0，即代表结束符<EOS>时，则从搜索队列中去除，将其添加到候选句子队列中，同时搜索宽度减1。直到搜索宽度变为1且最后一个队列也搜索到索引为0的单词，则整个beamsearch过程结束。从5个候选句子队列中选出损失最小的一句作为该视频的描述。

(9)根据机器翻译评价方法如bleu，meteor等对于步骤(8)中得到的句子进行评分，根据评分结果的优劣确定或调整视频内容描述模型的参数。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于语义信息引导的视频内容描述方法，其特征在于包括如下步骤：

步骤(1)对视频格式进行预处理；

步骤(2)建立用于引导的语义信息；

步骤(3)计算语义特征向量[A_i，XMS⁽ⁱ⁾]的权重

步骤(4)对语义特征向量[A_i，XMS⁽ⁱ⁾]进行解码；

步骤(5)对视频描述模型进行测试；

步骤(1)所述的对视频格式进行预处理，具体如下：

1-1.将待描述视频转换为连续帧的图像集合；利用预先训练好的卷积神经网络对每一帧静态图像进行特征提取，并取GoogleNet模型最后一个全连接层的1024维作为一个固定维数的向量X＝{x₁，x₂，…，x₁₀₂₄}，因为每一个待描述视频的总帧数不一样，为了后续操作方便，统一将所有帧均分成K组，并取每组的第一帧，所以最后将形成维数为K*1024的向量；

1-2.采用预先训练好的三维卷积神经网络，对连续动作帧提取其行为特征，并取三维卷积神经网络模型最后一个全连接层的352维向量，作为一个固定维数的向量X′＝{x′₁，…，x′₃₅₂}；每个待描述视频只做一次连续动作帧提取，所以每个待描述视频的行为特征最后可处理成1×352维的向量；

1-3.利用级联的方法将静态图像提取的特征与连续动作帧提取的行为特征进行融合，融合后的每帧图像级联为1×1376维的向量XMS⁽ⁱ⁾，计算方法如式(1)所示：

XMS⁽ⁱ⁾＝[XM⁽ⁱ⁾，XS⁽ⁱ⁾] (1)

其中，XM⁽ⁱ⁾表示连续动作帧提取的行为特征，XS⁽ⁱ⁾表示静态图像提取的特征，[XM⁽ⁱ⁾，XS⁽ⁱ⁾]表示第i帧静态图像提取的特征和连续动作帧提取的行为特征进行级联；

步骤(2)所述的建立用于引导的语义信息，具体建立过程如下：

2-1.利用深度学习参数估计的方法在最大的图片集合MS COCO上统计出的80个名词物体；通过预先在MS COCO图片集上训练的faster-Fcnn模型对每一帧图像进行目标检测；

所述的语义信息向量{A_i}有81维，代表了一个图片背景和80个名词物体，用于后续作为语义信息引导；

2-3.将得到的语义信息向量{A_i}与步骤1-3融合后的1376维特征向量级联，形成一个新的1457维的语义特征向量[A_i，XMS⁽ⁱ⁾]，并将该语义特征向量[A_i，XMS⁽ⁱ⁾]添加到LSTM的每个时间节点中，并将该语义特征向量[A_i，XMS⁽ⁱ⁾]解码为单词；每个时间节点应选择的第i帧语义特征向量

的计算方法如式(2)所示：

其中，[A_i，XMS⁽ⁱ⁾]表示第i帧图像的语义信息向量A_i和卷积神经网络及3D卷积神经网络提取的特征向量XMS⁽ⁱ⁾级联形成的语义特征向量，

表示第t个时间节点上第i帧语义特征向量[A_i，XMS⁽ⁱ⁾]的权重，加入权重的目的是在K帧图像中，选择出与每个时间节点关联度最大的一帧语义特征向量，加入到LSTM网络中；

步骤(3)所述的计算语义特征向量[A_i，XMS⁽ⁱ⁾]的权重

具体计算过程如下：

每个待描述视频有K帧语义特征向量，但针对每个时间节点只需要添加一帧语义特征向量，所以需要分别计算出每个时间节点K帧图像中语义特征向量[A_i，XMS⁽ⁱ⁾]的权重，用于后续解码中选出权重最大也就是和当前时间节点视频内容最相关的一帧图像，语义特征向量[A_i，XMS⁽ⁱ⁾]的权重计算方法如式(3)、(4)所示：

其中，w^T，W_e，U_e表示训练参数，

是每个时间节点每一帧图像语义特征向量的值，

是每帧语义特征向量值在K帧语义特征向量中的比重，即为该语义特征向量的权重；

步骤(4)所述的对语义特征向量[A_i，XMS⁽ⁱ⁾]进行解码的过程如下：

利用式(3)和(4)中计算出的语义特征向量的权重代入式(2)中，计算出每个时间节点应选择的第i帧语义特征向量，即

并结合人类给出的句子描述中的每个单词，在每个时间节点将特征和单词依次加入到LSTM网络中；因为在训练视频描述模型训练阶段，是需要添加人类句子描述作为指导，所以总的训练节点是已知的，即人类描述句子的长度；整个训练过程是按照LSTM中三个门和cell的计算来不断更新隐藏状态h_t，训练L个时间节点，L表示该视频人类句子描述的长度，所以最后会得到L个h_t；根据输入到LSTM每一个神经单元信息的改变，对每一个时间点的i_t，o_t，f_t，g_t，c_t，h_t的基础公式做出相应改进，每一个时间节点的隐藏状态h_t的计算方法如式(5)-(9)所示：

c_t＝f_t⊙c_t-1+i_t⊙g_t (9)

h_t＝o_t⊙tanh(c_t)

在每个时间节点将得到一个隐藏状态h_t，其储存了之前时间节点产生的句子信息，将其从LSTM网络中输出到前馈神经网络中，通过施加激活函数将其转化为R*V维的向量，R代表LSTM网络的维度，V代表候选单词维度，最后利用softmax函数的多分类方法，从V中选择概率最高的那一维的索引，对应到事先准备好的字典中，即可选择出每个时间节点应生成的单词；目标函数是最大化生成单词的正确率，也就是使得损失函数最小，损失函数计算方法如式(10)所示：

其中，m表示训练的样本数，所以E是每一批训练样本中的平均损失函数，θ是所有训练的参数集合；p()表示表示生成第t个目标单词y_t的概率；

其中，w_k，b_k代表第k个训练参数，m表示每一批训练的样本，η表示学习效率，n表示n个参数；

步骤(5)所述的对视频描述模型进行测试，具体如下：

测试阶段，因为描述句子的内容和长度是未知的，训练后的视频内容描述模型运用beam search的方法，设定搜索范围q，在第一个时间节点设定初始单词索引为-1输入到第一个时间节点，即将零向量输入到第一个时间节点；计算出当前状态h₀，并根据h₀和softmax函数算出当前节点可能产生的q个单词索引，并将该q个单词继续加入到下一个时间节点中，计算下一个时间节点可能产生的q个单词并和上一节点的对应单词组成序列；在大小为V的候选单词中每个单词的概率计算公式如式(13)所示：

其中，h_t代表当前节点的隐藏状态，y_t-1代表前一个时间节点由beam search搜索到的概率最大单词；

每当新一个单词出现索引0，则从搜索队列中去除，将其添加到候选句子队列中，同时搜索宽度减1；直到搜索宽度变为1且最后一个队列也搜索到索引为0的单词，则整个beamsearch过程结束；从q个候选句子队列中选出损失函数最小的一句作为该视频的描述。