CN110991290B

CN110991290B - 基于语义指导与记忆机制的视频描述方法

Info

Publication number: CN110991290B
Application number: CN201911171235.6A
Authority: CN
Inventors: 田春娜; 杨喆; 袁瑾; 丁宇轩; 张相南; 王超华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-03-10
Anticipated expiration: 2039-11-26
Also published as: CN110991290A

Abstract

本发明公开了一种基于语义指导与记忆机制的视频描述方法，主要解决现有技术中视频语义信息利用不足，LSTM网络记忆能力有限的问题，其实现方案是：提取视频的视觉特征；利用单词与视频的视觉特征训练多层感知机得到语义属性预测器；使用注意力机制对视觉特征进行动态的加权求和；构建外部记忆网络，以与LSTM网络进行信息交互；将视频的语义属性融入加权求和后的视觉特征与记忆网络，计算视频的单词概率分布；更新参数，使训练集中所有视频的单词概率分布接近正确分布；固定更新后的参数，得到测试集中视频的描述。本发明能充分利用视频信息，且记忆力强，获得的视频描述准确，可用于视频检索或人机交互中视频的自动语义描述。

Description

基于语义指导与记忆机制的视频描述方法

技术领域

本发明属于视频处理技术领域，特别涉及一种视频描述方法，可用于视频检索、人机交互和监控安防，分析视频中出现的目标对象，同时检测和识别这些目标对象的行为。

背景技术

在各式各样的多媒体数据中，视频数据复杂，包含内容更丰富，可传达的信息量也更大，因此，视频成为当今社会信息传播的重要载体。然而，人们亟需一种有效的技术来管理这些海量复杂的视频数据，并且帮助用户从中获取有用信息。而视频的自动语义描述，可以节省观看和标注视频的时间和人工成本，克服人工标注的主观性等问题，这使视频自动语义描述成为视频处理、分析与理解领域的关键技术。但是，为视频生成自然语言描述是一项非常具有挑战性的复杂任务，它不仅要识别视频中显著的目标和场景，还要描述它们的时空上下文关系以及动作交互等。因而，该任务涉及视频的视觉内容分析和自然语言处理等方面的技术。

目前的视频描述方法主要分为两类：

一类是基于模板的方法，其对描述视频的句子进行模板划分，使句子的每个片段与视觉内容相对齐，然后将从视觉中检测出的单词填入预定义的模板。

日本大阪府立大学的Kojima等人提出的基于动作概念的视频描述方法是早期的代表性工作之一，该方法首先检测人体姿势，包括头部位置、头部方向和手部位置，然后通过对齐动作的语义和视频的视觉特征，选择合适的目标及动词，按照句法结构填充到常用的案例模板中。

德州大学奥斯汀分校的Thomason等人提出了整合语言与视觉的方法，该方法首先通过视觉识别系统来获得视频中存在的目标、动作和场景的置信度，然后将其结合基于因子图模型FGM从文本语料库中挖掘出概率知识，以估计语句中的主语、动词、宾语和地点。

第二类是基于机器翻译的方法，该方法首先采用深度卷积神经网络CNN提取视频特征，然后采用循环神经网络将视频特征翻译为语句。典型的方法如下:

德州大学奥斯汀分校的Venugopalan等人提出的基于长短时记忆网络LSTM的视频描述模型。该模型是首先利用在大规模物体识别图像数据集ImageNet上预训练好的CNN模型来提取视频的帧级视觉特征，然后对帧级特征进行平均池化，以获得固定维度的视频帧级特征，并将其输入到LSTM网络中生成描述视频的句子。

蒙特利尔大学的Yao等人提出在生成视频描述时考虑视频的局部和全局时间结构。这种方法是利用三维卷积神经网络提取视频段视频的局部动作特征，利用二维卷积神经网络提取视频的视觉特征，并且结合时序注意力机制TA来探索视频的全局时间结构，在生成单词时，动态地关注与该单词最相关的那一部分视觉特征。

上述第一类方法过度依赖于预定义的模板和检测出来的视觉元素，生成的句子语法结构受限并且准确率低，只能简单的描述视频，缺乏语言的张力和表现力，不能展示语言自身的丰富性和美感。第二类方法中的大多数只用了视频的视觉信息，而忽略了视频中丰富的语义信息，且对视觉特征直接进行平均操作，导致视觉信息利用不充分；此外，只使用LSTM网络对视觉特征解码，没有充分利用视频的时序记忆，在解码过程中会使部分视觉信息丢失。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于语义指导与记忆机制的视频描述方法，以增加视频的语义信息，充分利用视频的视觉信息与时序记忆，提高视频描述语句的准确性和丰富性。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)从公开网络下载视频描述任务的数据集Q，将该数据集Q划分为训练集E和测试集S，将数据集Q中每个视频分解成视频单帧图像，使用已预训练好的ResNet152网络提取视频单帧图像的目标视觉特征f_i，构成每个视频的一组目标视觉特征{f_i}，i＝1,2,…,n，n为每个视频的总帧数；

(2)将数据集Q中每个视频的连续16帧图像作为一个视频段，使用已预训练好的C3D-ResNet18网络提取每个视频段的动作视觉特征m_j，构成每个视频的一组动作视觉特征{m_j}，j＝1,2,…,r，r为每个视频的总视频段数；

(3)将训练集E中句子所包含的单词分为三种类型的语义属性词典：全局语义属性词典、目标语义属性词典、动作语义属性词典，用这三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型，得到三个语义属性预测器；

(4)取数据集Q中的一个视频，在LSTM网络生成描述该视频的每个单词时，使用注意力机制中的注意力分值，分别对该视频的一组目标视觉特征{f_i}和一组动作视觉特征{m_j}进行加权求和，得到加权求和后的结果

和

(5)创建一个M×N的矩阵作为外部记忆网络，M代表记忆网络中存储器的总数，N代表每个位置的存储长度，该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互；

(6)将数据集Q中所选视频的视觉特征输入到(3)得到的三个语义属性预测器，分别得到该视频全局语义属性g_a、目标语义属性o_a、动作语义属性v_a；

(7)用全局语义属性g_a分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合，分别得到融合后的结果

(8)用目标语义属性o_a与(4)得到的目标视觉特征的加权和

进行融合，得到融合后的结果v_*；

(9)用动作语义属性v_a与(4)得到的动作视觉特征的加权和

进行融合，得到融合后的结果c_*；

(10)将(7)～(9)的计算过程重复4遍，分别得到4组融合结果

m_i、v_i、c_i，

m_f、v_f、c_f，

m_o、v_o、c_o，

m_g、v_g、c_g；

(11)将(10)计算的结果输入LSTM网络，得到LSTM网络当前时刻的隐藏状态；

(12)用全局语义属性g_a与LSTM网络当前时刻的隐藏状态进行融合，得到融合后的结果R₁，用目标语义属性o_a与(4)得到的目标视觉特征的加权和

进行融合，得到融合后的结果R₂，用动作语义属性v_a与(4)得到的动作视觉特征的加权和

进行融合，得到融合后的结果R₃，并将R₁、R₂、R₃进一步融合得到P_t；

(13)将(12)的计算结果输入到softmax函数，计算得到数据集Q中所选视频的当前时刻的单词概率分布w_t；

(14)计算该视频的单词概率分布与该视频自带的正确的单词概率分布的交叉熵L(θ)；

(15)对训练集E中的每个视频进行(4)～(14)操作，用Adam算法更新所有随机初始化的参数，使所有视频的交叉熵总和最小；

(16)固定所有参数的值，对测试集S中的每个视频进行(4)～(13)操作，对于测试集S中的每个视频的单词概率分布，取概率值最大的单词作为描述该视频的单词。

本发明与现有技术相比具有如下优点：

1.对视频的描述更加准确

现有大多数已有的视频描述方法只使用了视频中的视觉信息，而忽视了视频中丰富的语义信息。

本发明利用视频的三种语义属性作为视频的语义信息，指导更新视觉特征、单词向量以及LSTM网络的隐藏状态，即将视觉信息、语义信息相结合，使视频获得的自然语言描述更准确。

2.能更好地捕获视频的时间动态

现有大多数已有的视频描述方法对视觉特征直接进行平均操作，导致视觉信息利用不充分，并且只使用LSTM网络对视觉特征解码，在解码过程中会使部分视觉信息丢失。

本发明使用注意力机制根据之前生成的单词自动地选择当前时刻应该关注的重要信息，并且在解码过程中加入外部记忆网络，提高了模型的记忆能力，可以更好地捕获视频的时间动态。

附图说明

图1是本发明的实现流程图；

图2是本发明中的语义属性预测示例；

图3是本发明仿真实验使用的MSVD数据集中视频与对应描述句子的示例图；

图4是用本发明在MSVD数据集上的仿真结果图。

具体实施方式

以下结合附图，对本发明的实施例和效果作进一步详细描述。

参照图1本实例的实施步骤如下：

步骤1，数据集视频预处理及提取视频的目标视觉特征。

1.1)从公开网络下载视频描述任务的数据集Q，将该数据集Q划分为训练集E和测试集S，将数据集Q中每个视频分解成视频单帧图像；

1.2)将每个视频单帧图像随机裁剪成224×224像素大小，将裁减后的图像分别输入在ImageNet数据集上预训练好的ResNet152网络中，使用ResNet152网络pool5层的输出作为视频单帧图像的目标视觉特征f_i，构成每个视频的一组目标视觉特征{f_i}，i＝1,2,…,n，n为每个视频的总帧数。

步骤2，提取视频的动作视觉特征。

2.1)将数据集Q中每个视频的连续16帧图像作为一个视频段，将视频段送到在Sport1M数据集上预训练好的C3D-ResNet18网络中，通过该网络将该段中的每一帧图像都随机裁剪为112×112像素大小，并且对每个视频段中的帧以间隔J为采样率进行采样；

2.2)使用C3D-ResNet18网络中pool5层的输出作为视频的动作视觉特征m_j，构成每个视频的一组动作视觉特征{m_j}，j＝1,2,…,r，r为每个视频的总视频段数。

步骤3，利用训练集E中的单词与视频的视觉特征分别训练多层感知机模型，得到三个语义属性预测器。

3.1)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析，从解析出的关系中选择名词主语和直接宾语；

3.2)从名词主语和直接宾语的单词对中提取名词和动词，从中选择出现频次最高的前T个单词来构建全局语义属性词典；

3.3)在一个视频的所有句子描述中选择出现次数不少于两次的名词，用这些名词构建出目标语义属性词典；

3.4)在一个视频的所有句子描述中选择出现次数不少于两次的动词，用这些动词构建出动作语义属性词典；

3.5)对于训练集E中的一个视频，用g＝[g₁,g₂,…g_i,…g_K]∈{0,1}^K表示该视频的全局语义属性，用o＝[o₁,o₂,…o_i,…o_X]∈{0,1}^X表示该视频的目标语义属性，用v＝[v₁,v₂,…v_i,…v_Y]∈{0,1}^Y表示该视频的动作语义属性；

其中，g_i是g中第i个位置的值，i＝1,2,…,K，K表示全局语义属性词典的大小，如果全局语义属性词典中的第i个单词出现在描述该视频的句子中，就让g_i＝1，否则g_i＝0；o_i是o中第i个位置的值，X表示目标语义属性词典的大小，如果目标语义属性词典中的第i个单词出现在描述该视频的句子中，就让o_i＝1，否则o_i＝0；v_i是v中第i个位置的值，Y表示动作语义属性词典的大小，如果动作语义属性词典中的第i个单词出现在描述该视频的句子中，就让v_i＝1，否则v_i＝0；

3.6)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机，分别得到该视频三种语义属性的预测值，计算公式如下：

g_a＝MLP([f,m])

o_a＝MLP(f)

v_a＝MLP(m)，

其中，g_a表示全局语义属性预测值，o_a表示目标语义属性预测值，v_a表示动作语义属性预测值，f表示对该视频的目标视觉特征{f_i}取平均之后的特征，m表示对该视频的动作视觉特征{m_j}取平均之后的特征，[f,m]表示f与m的拼接；

3.7)计算三种语义属性预测值与真实语义属性之间的交叉熵，计算公式如下：

其中L(g,g_a)是全局语义属性预测值与真实全局语义属性的交叉熵，L(o,o_a)是目标语义属性预测值与真实目标语义属性的交叉熵，L(v,v_a)是动作语义属性预测值与真实动作语义属性的交叉熵，g_ai表示g_a中第i个位置的值，o_ai表示o_a中第i个位置的值，v_ai表示v_a中第i个位置的值；

3.8)对训练集E中的每个视频进行3.5)～3.7)操作，用Adam算法更新三个多层感知机的参数，使所有视频的语义属性交叉熵总和最小。

步骤4，取数据集Q中的一个视频，在LSTM网络生成描述该视频的每个单词时，使用注意力机制中的注意力分值，分别对该视频的一组目标视觉特征{f_i}和一组动作视觉特征{m_j}进行加权求和，得到加权求和后的结果

和

4.1)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态h_t-1和视频第i帧的目标视觉特征f_i作为输入，计算相似性得分

并根据相似性得分

计算目标视觉特征加权权重

计算公式如下：

其中，

表示tanh函数，ω₁、W_b、W_f、b_b都是随机初始化的不同参数；

4.2)计算LSTM网络在t时刻输入的目标视觉特征加权和

4.3)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态h_t-1和视频第j个视频段的动作视觉特征m_j作为输入，计算相似性得分

并根据相似性得分

计算动作视觉特征加权权重

计算公式如下：

其中，

表示tanh函数，ω₂、W_c、W_m、b_c都是随机初始化的不同参数；

4.4)计算LSTM网络在t时刻输入的动作视觉特征加权和

步骤5，创建一个M×N的矩阵作为外部记忆网络，M代表记忆网络中存储器的总数，N代表每个位置的存储长度，该外部记忆网络通过写入和读取操作与LSTM网络进行信息交互。

5.1)在生成视频描述句子的每个单词概率分布之前，先根据LSTM网络前一时刻的隐藏状态计算出擦除向量e_t和添加向量a_t：

e_t＝σ(W_eh_t-1+b_e)

a_t＝φ(W_ah_t-1+b_a)，

其中，σ表示sigmoid函数，

表示tanh函数，h_t-1为LSTM网络前一时刻的隐藏状态，W_e、W_a、b_e、b_a都是随机初始化的不同参数；

5.2)计算出写入关键值向量

写入强度系数

和写入权重向量

计算公式如下：

其中，δ为ReLU函数，W_w、

b_w、

都是随机初始化的不同参数，

是记忆写入权重值，是由写入关键值向量

与记忆网络中每个位置的存储向量M_t-1(i)进行相似性度量得到的，||·||表示取二范数，ε是为了防止分母为0而取的一个正数；

5.3)用擦除向量e_t、添加向量a_t和写入权重向量

对记忆网络每个位置的存储向量进行更新，得到每个位置更新后的存储向量M_t(i)：

其中，⊙表示逐元素点乘操作；

5.4)在记忆网络内的存储向量完成更新后，分别计算读取关键值向量

读取强度系数

读取权重向量

计算公式为：

其中，

为记忆读取权重值，W_r、

b_r、

都是随机初始化的不同参数；

5.5)LSTM网络读取记忆网络里的内容r_t，表示为：

步骤6，将数据集Q中所选视频的视觉特征输入到步骤3得到的三个语义属性预测器，分别得到该视频全局语义属性g_a、目标语义属性o_a、动作语义属性v_a。

6.1)对数据集Q中所选视频的一组目标视觉特征{f_i}取平均得到f，将f输入目标语义属性预测器，得到该视频的目标语义属性o_a；

6.2)将该视频的一组动作视觉特征{m_j}取平均得到m，将m输入动作语义属性预测器，得到该视频的动作语义属性v_a；

6.3)将f与m拼接起来输入全局语义属性预测器，得到该视频的全局语义属性g_a，得到的三种语义属性，如图2所示。

步骤7，用全局语义属性g_a分别与LSTM网络前一时刻的隐藏状态、当前时刻的单词向量及从外部记忆网络读取的信息进行融合，分别得到融合后的结果

m_*。

7.1)将全局语义属性g_a与LSTM网络前一时刻的隐藏状态h_t-1融合，得到融合后的结果

计算公式为：

其中，⊙表示逐元素点乘操作，U_a*、U_b*是随机初始化的不同参数；

7.2)将全局语义属性g_a与当前时刻的单词向量x_t融合，得到融合后的结果

计算公式为：

其中，x_t是已预训练得到的单词向量，W_a*、W_b*是随机初始化的不同参数；

7.3)将全局语义属性g_a与从外部记忆网络读取的信息r_t融合，得到融合后的结果m_*，计算公式为：

m_*＝M_a*r_t⊙M_b*g_a，

其中，M_a*、M_b*是随机初始化的不同参数。

步骤8，用目标语义属性o_a与目标视觉特征的加权和

进行融合，用动作语义属性v_a与动作视觉特征的加权和

进行融合。

8.1)将目标语义属性o_a与步骤4得到的目标视觉特征的加权和

进行融合，得到融合后的结果v_*，计算公式为：

其中，⊙表示逐元素点乘操作，V_a*、V_b*是随机初始化的不同参数。

8.2)将动作语义属性v_a与步骤4得到的动作视觉特征的加权和

进行融合，得到融合后的结果c_*，计算公式为：

其中，⊙表示逐元素点乘操作，C_a*、C_b*是随机初始化的不同参数。

步骤9，将步骤7～步骤8的计算过程重复4遍，分别得到4组融合结果

m_i、v_i、c_i，

m_f、v_f、c_f，

m_o、v_o、c_o，

m_g、v_g、c_g。

步骤10，将步骤9计算的结果输入LSTM网络，得到LSTM网络当前时刻的隐藏状态。

10.1)计算LSTM网络当前时刻输入门i_t，遗忘门f_t，输出门o_t，输入权重门g_t的值，计算公式为：

其中，σ表示sigmoid函数，

表示tanh函数，

m_i、v_i、c_i，

m_f、v_f、c_f，

m_o、v_o、c_o，

m_g、v_g、c_g是(9)计算得到的四组结果，W_ci、W_cf、W_co、W_cg、U_ci、U_cf、U_co、U_cg、V_ci、V_cf、V_co、V_cg、C_ci、C_cf、C_co、C_cg、M_ci、M_cf、M_co、M_cg、b_i、b_f、b_o、b_g都是随机初始化的不同参数；

10.2)根据输入门i_t、遗忘门f_t、输入权重门g_t的值，计算LSTM网络当前时刻的细胞记忆状态c_t：

c_t＝g_t⊙i_t+c_t-1⊙f_t，

其中，⊙表示逐元素点乘操作，c_t-1为LSTM网络前一时刻细胞记忆状态的值；

10.3)根据LSTM网络当前时刻输出门o_t和细胞记忆状态o_t的值，计算LSTM网络当前时刻的隐藏状态h_t：

h_t＝o_t⊙φ(c_t)。

步骤11，用全局语义属性g_a与LSTM网络当前时刻的隐藏状态h_t进行融合，用目标语义属性o_a与目标视觉特征的加权和

进行融合，用动作语义属性v_a与动作视觉特征的加权和

进行融合，并将这三个融合结果进一步融合。

11.1)将全局语义属性g_a与LSTM网络当前时刻的隐藏状态h_t融合，得到融合后的结果R₁，计算公式为：

R₁＝W_kh_t⊙W_lg_a，

其中，⊙表示逐元素点乘操作，W_k、W_l是随机初始化的不同参数；

11.2)将目标语义属性o_a与步骤4得到的目标视觉特征的加权和

融合，得到融合后的结果R₂，计算公式为：

其中，W_p、W_s是随机初始化的不同参数；

11.3)将动作语义属性v_a与步骤4得到的动作视觉特征的加权和

融合，得到融合后的结果R₃，计算公式为：

其中，W_u、W_v是随机初始化的不同参数；

11.4)将R₁、R₂、R₃融合，得到融合后的结果P_t，计算公式为：

P_t＝φ(W_q[R₁,R₂,R₃]+b_q)，

其中，W_q、b_q是随机初始化的不同参数，[R₁,R₂,R₃]表示R₁、R₂、R₃的拼接。

步骤12，计算数据集Q中选取的一个视频的单词概率分布w_t。

将步骤11的计算结果输入到softmax函数中，计算得到数据集Q所选视频的当前时刻单词概率分布w_t：

w_t＝softmax(W_dP_t+b_d)，

其中，softmax表示softmax函数，W_d、b_d是随机初始化的两个不同参数。

步骤13，计算数据集Q所选视频的单词概率分布与正确的单词概率分布的交叉熵L(θ)。

根据步骤12得到的单词概率分布w_t及所选视频的视觉特征V、语义属性S、所有随机初始化的参数θ，计算交叉熵L(θ)：

其中，T_i表示数据集Q所选视频自带的第i个正确句子的单词数量，w_1～(t-1)表示t时刻之前得到的所有单词的概率分布。

步骤14，对训练集E中的每个视频进行步骤4～步骤13操作，用Adam算法更新所有随机初始化的参数，使训练集E中所有视频的交叉熵总和最小。

步骤15，在步骤14完成所有参数的更新后，固定所有参数的值，对测试集S中的每个视频进行步骤4～步骤12操作，对于测试集S中的每个视频的单词概率分布，取概率值最大的单词作为描述该视频的单词。

本发明的优点可通过以下实验进一步说明：

1.实验条件

本发明的仿真实验是在MSVD数据集上进行的，实验中将数据集的1970个视频划分为大小分别为1200、100、670的训练集、验证集、测试集。

数据集中视频与对应描述句子的示例如图3所示，图3(a)是数据集中的一个视频，图3(b)是该视频自带的一些语言描述。

对仿真的结果用METEOR、BLEU、ROUGE、CIDER四种评价指标进行打分。

2.仿真内容

仿真1，用本发明在MSVD数据集上进行仿真，图4展示了本发明对测试集上前六个视频的描述结果，其中，每三幅图代表一个视频，每个视频下面的句子代表本发明对该视频生成的描述，即第一个视频生成的描述是“men are playing basketball”，第二个视频生成的描述是“a band is performing on stage”，第三个视频生成的描述是“a boy isplaying a guitar”，第四个视频生成的描述是“a person is cutting meat”，第五个视频生成的描述是“a man is riding a motorcycle”，第六个视频生成的描述是“a dog isswimming in a pool”，由图4可看出本发明可以对视频生成准确、生动的自然语言描述。

将仿真结果的四种评分与其他现有的8种主流方法进行比较，评分结果如表1所示。

表1

方法	METEOR	BLEU@1	BLEU@2	BLEU@3	BLEU@4	CIDEr	ROUGE_L
								FGM	23.9	-	-	-	-	-	-
LSTM	29.1	-	-	-	33.3	-	-
								S2VT	29.8	-	-	-	-	-	-
TA	29.6	80.0	64.7	52.6	41.9	51.7	-
								LSTM-E	31.0	78.8	66.0	55.4	45.3	-	-
GRU-RCN	31.6	-	-	-	43.3	68.0	-
								h-RNN	32.6	81.5	70.4	60.4	49.9	65.8	-
HRNE	33.9	81.1	68.6	57.8	46.7	-	-
								本发明	34.1	81.8	70.4	60.9	51.3	76.3	70.8

表1中，FGM是整合语言与视觉特征的方法，

LSTM是仅基于LSTM网络的方法，

S2VT是使用图像特征和光流特征，并使用两个LSTM网络的方法，

TA是使用了注意力机制的方法，

LSTM-E是将视觉特征和文本特征嵌入到同一空间的方法，

GRU-RCN是结合GRU网络和循环卷积网络的方法，

h-RNN是使用多层循环网络做视频解码的方法，

HRNE是使用多层循环网络做视频编码的方法，

BLEU@1、BLEU@2、BLEU@3、BLEU@4是BLEU评价指标中的四种评价方法，分别表示生成的句子与参考句子之间连续1、2、3、4个单词序列相同的比率，

ROUGE-L是ROUGE评价指标中以最长公共子句的精确率以及召回率为基础的评价方法。

表1表明本发明提出的方法性能在各项评价指标上均高于其它主流方法，并且在CIDER指标上的结果达到了76.3，相对于TA，GRU-RCN，h-RNN分别提高了47.6％，12.0％，16.0％，并且在METEOR指标上也达到了34.1，目前极少有方法能在METEOR指标上突破34，此外与其它方法相比，本发明在BLEU的各项指标上的结果也具有非常显著提升。

仿真2，对本发明提出的方法做消融实验，即分别去掉注意力机制、外部记忆网络、语义属性，比较仿真结果的评分变化，结果如表2所示。

表2

表2表明，使用语义属性、注意力机制、外部记忆网络相结合的方法结果最好，并且语义信息、注意力机制和外部记忆网络分别都对提升视频描述模型的性能有帮助。

综上，本发明提出的方法使用注意力机制动态选择最相关的目标视觉特征和动作视觉特征，同时也可以相对抑制不重要的视觉信息，并且通过外加记忆网络，将外部记忆网络和语言模型的内部状态进行信息交流，可以帮助语言模型记住更长时间的信息，帮助生成的单词可以更好的理解上下文信息；此外还使用了三种类型语义属性，融入在每一时刻生成单词的计算过程，可以让模型更好的关注与整个视频的目标和动作相关的信息，从而生成更加准确、生动的自然语言描述。

Claims

1.一种基于语义指导与记忆机制的视频描述方法，其特征在于，包括如下：

和

m_*；

(8)用目标语义属性o_a与(4)得到的目标视觉特征的加权和

进行融合，得到融合后的结果v_*；

(9)用动作语义属性v_a与(4)得到的动作视觉特征的加权和

进行融合，得到融合后的结果c_*；

(10)将(7)～(9)的计算过程重复4遍，分别得到4组融合结果

m_i、v_i、c_i，

m_f、v_f、c_f，

m_o、v_o、c_o，

m_g、v_g、c_g；

(12)用全局语义属性g_a与LSTM网络当前时刻的隐藏状态h_t进行融合，得到融合后的结果R₁，用目标语义属性o_a与(4)得到的目标视觉特征的加权和

(13)将(12)的计算结果输入到softmax函数，计算得到数据集Q所选视频的当前时刻的单词概率分布w_t；

(16)在步骤14完成所有参数的更新后，固定所有参数的值，对测试集S中的每个视频进行(4)～(13)操作，对于测试集S中的每个视频的单词概率分布，取概率值最大的单词作为描述该视频的单词。

2.根据权利要求1所述的方法，其特征在于，(3)中将训练集E中句子所包含的单词分为三种类型的语义属性词典，按如下过程进行：

(3a)使用斯坦福语法解析器对训练集E中所有句子进行依存句法关系解析，从解析出的关系中选择名词主语和直接宾语；

(3b)从名词主语和直接宾语的单词对中提取名词和动词，从中选择出现频次最高的前T个单词来构建全局语义属性词典；

(3c)在一个视频的所有句子描述中选择出现次数不少于两次的名词，用这些名词构建出目标语义属性词典；

(3d)在一个视频的所有句子描述中选择出现次数不少于两次的动词，用这些动词构建出动作语义属性词典。

3.根据权利要求1所述的方法，其特征在于，(3)中用三种类型的语义属性词典与视频的视觉特征分别训练多层感知机模型，得到三个语义属性预测器，按如下过程进行：

(3e)对于训练集E中的一个视频，用g＝[g₁,g₂,…g_i,…g_K]∈{0,1}^K表示该视频的全局语义属性，用o＝[o₁,o₂,…o_i,…o_X]∈{0,1}^X表示该视频的目标语义属性，用v＝[v₁,v₂,…v_i,…v_Y]∈{0,1}^Y表示该视频的动作语义属性，其中，g_i是g中第i个位置的值，i＝1,2,…,K，K表示全局语义属性词典的大小，如果全局语义属性词典中的第i个单词出现在描述该视频的句子中，就让g_i＝1，否则g_i＝0；o_i是o中第i个位置的值，X表示目标语义属性词典的大小，如果目标语义属性词典中的第i个单词出现在描述该视频的句子中，就让o_i＝1，否则o_i＝0；v_i是v中第i个位置的值，Y表示动作语义属性词典的大小，如果动作语义属性词典中的第i个单词出现在描述该视频的句子中，就让v_i＝1，否则v_i＝0；

(3f)将该视频的视觉特征输入到三个含有两层隐藏层的多层感知机，分别得到该视频三种语义属性的预测值，计算公式如下：

g_a＝MLP([f,m])

o_a＝MLP(f)

v_a＝MLP(m)

(3g)计算三种语义属性预测值与真实语义属性之间的交叉熵，计算公式如下：

(3h)对训练集E中的每个视频进行(3e)～(3g)操作，用Adam算法更新三个多层感知机的参数，使所有视频的语义属性交叉熵总和最小。

4.根据权利要求1所述的方法，其特征在于，(4)中对一个视频的一组目标视觉特征{f_i}进行加权求和，按如下过程进行：

(4a)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态h_t-1和视频第i帧的目标视觉特征f_i作为输入，计算相似性得分

并根据相似性得分

计算目标视觉特征加权权重

计算公式如下：

其中，

(4b)计算LSTM网络在t时刻输入的目标视觉特征加权和

5.根据权利要求1所述的方法，其特征在于，(4)中对一个视频的一组动作视觉特征{m_j}进行加权求和，按如下过程进行：

(4c)在LSTM网络生成描述视频的每个单词时，将LSTM网络的前一时刻的隐藏状态h_t-1和视频第j个视频段的动作视觉特征m_j作为输入，计算相似性得分

并根据相似性得分

计算动作视觉特征加权权重

计算公式如下：

其中，

(4d)计算LSTM网络在t时刻输入的动作视觉特征加权和

6.根据权利要求1所述的方法，其特征在于，(5)中外部记忆网络通过写入和读取操作与LSTM网络进行信息交互，按如下步骤进行：

(5a)在生成视频描述句子的每个单词概率分布之前，先根据LSTM网络前一时刻的隐藏状态计算出擦除向量e_t和添加向量a_t：

e_t＝σ(W_eh_t-1+b_e)

a_t＝φ(W_ah_t-1+b_a)

其中，σ表示sigmoid函数，

(5b)计算出写入关键值向量

写入强度系数

和写入权重向量

计算公式如下：

其中，δ为ReLU函数，W_w、

b_w、

都是随机初始化的不同参数，

是记忆写入权重值，是由写入关键值向量

(5c)用擦除向量e_t、添加向量a_t和写入权重向量

其中，⊙表示逐元素点乘操作；

(5d)在记忆网络内的存储向量完成更新后，分别计算读取关键值向量

读取强度系数

读取权重向量

计算公式为：

其中，

为记忆读取权重值，W_r、

b_r、

都是随机初始化的不同参数；

(5e)LSTM网络读取记忆网络里的内容r_t，表示为：

7.根据权利要求1所述的方法，其特征在于，(7)中得到融合后的结果

m_*分别表示如下：

全局语义属性g_a与LSTM网络前一时刻的隐藏状态h_t-1融合后的结果

为：

全局语义属性g_a与当前时刻的单词向量x_t融合后的结果

为：

全局语义属性g_a与从外部记忆网络读取的信息r_t融合后的结果m_*为：m_*＝M_a*r_t⊙M_b*g_a，其中，M_a*、M_b*是随机初始化的不同参数。

8.根据权利要求1所述的方法，其特征在于，(8)中得到融合后的结果v_*表示如下：

9.根据权利要求1所述的方法，其特征在于，(9)中得到融合后的结果c_*表示如下：

10.根据权利要求1所述的方法，其特征在于，(11)中LSTM网络当前时刻的隐藏状态，按如下过程得到：

(11a)计算LSTM网络当前时刻输入门i_t，遗忘门f_t，输出门o_t，输入权重门g_t的值，计算公式为：

其中，σ表示sigmoid函数，

表示tanh函数，

m_i、v_i、c_i，

m_f、v_f、c_f，

m_o、v_o、c_o，

m_g、v_g、c_g是(10)计算得到的四组结果，W_ci、W_cf、W_co、W_cg、U_ci、U_cf、U_co、U_cg、V_ci、V_cf、V_co、V_cg、C_ci、C_cf、C_co、C_cg、M_ci、M_cf、M_co、M_cg、b_i、b_f、b_o、b_g都是随机初始化的不同参数；

(11b)根据输入门i_t、遗忘门f_t、输入权重门g_t的值，计算LSTM网络当前时刻的细胞记忆状态c_t：

c_t＝g_t⊙i_t+c_t-1⊙f_t，

(11c)根据LSTM网络当前时刻输出门o_t和细胞记忆状态o_t的值，计算LSTM网络当前时刻的隐藏状态h_t：

h_t＝o_t⊙φ(c_t)。

11.根据权利要求1所述的方法，其特征在于，(12)中得到的融合结果R₁、R₂、R₃、P_t分别表示如下：

全局语义属性g_a与LSTM网络当前时刻的隐藏状态h_t融合后的结果R₁为：R₁＝W_kh_t⊙W_lg_a，其中，⊙表示逐元素点乘操作，W_k、W_l是随机初始化的不同参数；

目标语义属性o_a与(4)得到的目标视觉特征的加权和