CN107391646A

CN107391646A - 一种视频图像的语义信息提取方法及装置

Info

Publication number: CN107391646A
Application number: CN201710569482.6A
Authority: CN
Inventors: 尹首; 尹首一; 杨建勋; 欧阳鹏; 刘雷波; 魏少军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2017-11-24
Anticipated expiration: 2037-07-13
Also published as: CN107391646B

Abstract

本发明提供了一种视频图像的语义信息提取方法及装置，涉及视频描述及视频标注技术领域，首先按一定的帧间隔提取视频的帧序列，通过卷积神经网络提取每帧图像的特征向量，将该特征向量作为LSTM网络编码器的输入，该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入，更新外部存储器EMM中的存储矩阵的内容；外部存储器EMM输出两个读向量，分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写，实现在编码阶段存储视频各帧图像的信息特征，在解码阶段通过预测单词的反馈，调整外部存储器下一时间步的输出，使得生成视频标注时可根据当前已经生成的单词序列调节上下文特征向量。

Description

一种视频图像的语义信息提取方法及装置

技术领域

本发明涉及视频描述及视频标注技术领域，尤其涉及一种视频图像的语义信息提取方法及装置。

背景技术

当前，随着互联网、数字化设备以及多媒体技术的发展，由于视频相比文字和图片更为生动，因此视频受到了多媒体用户更多的关注。目前微信、快手等短视频应用及各种网络直播平台的快速发展，使得视频在人们的生活中扮演着愈来愈重要的角色。为了便于人们更好的了解视频图像内容，对视频图像进行描述和标注，从而得到视频图像的语义信息格外重要。视频描述，就是根据一个视频的具体内容，使用自然语言描述视频内容的特征，使用应用拍摄短视频然后自动生成相应的描述是视频描述的一个重要应用。视频描述在人机接口、视频检索、为盲人描述电影等领域中发挥的作用也愈发显著。对视频进行标注、描述的最直接传统的方法是人工的方式，然而面对目前网络时代的海量视频，此种方式无疑是不可行的。随着机器学习技术的发展，使用计算机自动对视频生成描述语句的方法逐渐被提出，其标注效果也渐渐被提高。

目前，采用神经网络实现视频图像描述语句自动生成的比较主流的方法是Subhashini Venugopalan等人提出的序列到序列的可以端到端训练的编码-解码模型(Sequence to Sequence–Video to Text,2015 IEEE International Conference onComputer Vision)。该模型利用循环神经网络(Recurrent Neural Network，简称RNN)，特别是长短期记忆网络(Long Short-Term Memory，简称LSTM)，解决了不同视频帧数及描述语句单词数的变长问题。通过采用两层LSTM，第一层LSTM将视频流的帧序列通过卷积神经网络(Convolutional Neural Network，简称CNN)后的输出编码为一个定长向量，第二层LSTM实现解码过程，生成描述语句的单词序列。同时该模型学会了输入视频流各帧序列的时序结构以及产生的标注语句的序列结构，实现了视频和描述语句序列的同步训练。之后，很多学者相继提出了一些该模型的变种及拓展结构，如Yu Gao等人提出加入了注意力机制的序列到序列的模型，该模型能够从输入序列中获得更多的语义信息，提高了模型性能。Rasool Fakoor等人提出了一种结合注意力机制及记忆机制的视频标注模型，该模型由三个模块构成：时序模型、迭代注意力/记忆模型和一个解码模型。时序模型通过LSTM网络及软注意力机制实现对输入视频帧序列的处理，迭代注意力/记忆模型学会记住视频流全部帧和单词序列的关系，不仅考虑了局部的注意力，而且在单词产生阶段也考虑了输入视频流的所有帧。解码模型通过LSTM网络生成视频的描述单词。由于RNN、LSTM等循环网络不能满足更长序列对记忆能力的依赖，一些记忆网络被提出，如Westion提出的Memorynetworks(International Conference on Learning Representations，2015)，能够有效记住更长的序列。Alex Graves等人在“Hybrid computing using a neural network withdynamic external memory”(Nature Publishing Group,538(7626),471–476,2016)中提出了一种将神经网络和动态外部存储器结合的神经图灵机(DNC)。该外部存储器可以由DNC的内核有选择性地写入和读取，该结构对序列数据的处理、记忆能力相比RNN、LSTM增强了很多。

上述的几种序列到序列的模型虽然能够实现视频描述的任务，但当输入视频的时间较长，提取的帧数较多时，这些模型通过编码生成的上下文向量不能包含全局的所有信息，尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉，导致模型性能下降。

发明内容

本发明的实施例提供一种视频图像的语义信息提取方法及装置，以解决现有技术中的输入视频的时间较长，提取的帧数较多时，现有技术模型通过编码生成的上下文向量不能包含全局的所有信息，尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉，导致模型性能下降的问题。

为达到上述目的，本发明采用如下技术方案：

一种视频图像的语义信息提取方法，包括：

步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集；

步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像，生成多个视频的帧序列；

步骤103、将所述视频的帧序列通过卷积神经网络进行处理，获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量；

步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理，生成LSTM网络编码器在当前时间步输出的特征向量；

步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量；

步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量；

重复执行步骤104至步骤106，直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值，完成视频训练，形成视频训练模型；

步骤107、获取视频验证集中的视频，并调取所述视频训练模型，生成视频验证集中的视频的语义标注信息。

进一步的，在从预先设置的视频标注数据集中获取视频训练集和视频验证集之后，还包括：

获取视频训练集中的视频对应的预先设置的视频语义标注结果，生成视频训练集中的视频的词汇表；所述视频语义标注结果的序列长度被设置为一预先设置的固定值t_i。

具体的，在所述多个视频的帧序列中，每个视频的帧序列的长度被设置为预先设置的帧序列长度值。

具体的，将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，包括：

根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M_t′；

根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M_t″；

根据所述第一更新存储矩阵M_t′和第二更新存储矩阵M_t″，形成当前时间步的外部存储器EMM的存储矩阵内容M_t；其中，M_t＝M_t′+M_t″。

具体的，根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M_t′，包括：

将LSTM网络编码器在当前时间步输出的特征向量h_t′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′_t-1拼接，并与一第一输入权重矩阵W′_in相乘，生成第一特征向量p_t′；其中，p_t′＝W′_in[h_t′；y′_t-1]；

根据公式：将所述第一特征向量p_t′进行解析，得到多个分向量

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e_t′和g_t′；

根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重

根据公式：确定当前时间步写权重其中为上一时间步写权重；

根据公式：确定第一更新存储矩阵M_t′。

具体的，根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M_t″，包括：

将LSTM网络解码器在上一时间步输出的特征向量h″_t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″_t-1拼接，并与一第二输入权重矩阵W″_in相乘，生成第二特征向量p_t″；其中，p_t″＝W″_in[h″_t-1；y″_t-1]；

根据公式：将所述第二特征向量p_t″进行解析，得到多个分向量；

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e_t″和g_t″；

根据公式：确定第二更新存储矩阵M_t″。

具体的，所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，包括：

根据分向量和分向量采用计算余弦相似度方式得到当前时间步读权重

根据公式：确定当前时间步读向量r_t′；

将当前时间步读向量r_t′与LSTM网络编码器在当前时间步输出的特征向量h_t′进行拼接，并与一第一输出权重矩阵W″_out相乘，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y_t′；其中，y_t′＝W″_out[r_t′；h′_t]；

将当前时间步LSTM网络编码器对外部存储器EMM的读向量y_t′作为下一时间步LSTM网络编码器的一个输入分量。

具体的，所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量，包括：

根据公式：确定当前时间步读向量r_t″；

将当前时间步读向量r_t″与LSTM网络解码器在上一时间步输出的特征向量h″_t-1进行拼接，并与一第二输出权重矩阵W″_out相乘，生成当前时间步LSTM网络解码器对外部存储器EMM的读向量y_t″；其中，y_t″＝W″_out[r_t″；h″_t-1]。

具体的，所述根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量，包括：

根据公式：生成LSTM网络解码器在当前时间步输出的特征向量h″_t；其中，表示LSTM网络解码器的处理；h″_t-1为LSTM网络解码器在上一时间步输出的特征向量；c″_t-1表示LSTM网络解码器的cell值；x_t为当前时间步的输入词嵌入向量，所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的；

将LSTM网络解码器在当前时间步输出的特征向量h″_t经过LSTM网络解码器的一个全连接层进行处理，得到当前时间步的预测单词向量pre_t；其中，pre_t＝W_Vh″_t；其中，W_V为一单词权重矩阵，V表示视频训练集中的视频的词汇表中的单词数量，当前时间步的预测单词向量pre_t为一个1×V的向量。

具体的，根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值，完成视频训练，形成视频训练模型，包括：

根据各时间步的预测单词向量pre_t形成的语义标注的长度达到的预先设置的长度阈值为预先设置的固定值t_i时，完成视频训练，形成视频训练模型。

进一步的，所述视频图像的语义信息提取方法，还包括根据各时间步的预测单词向量pre_t，采用公式确定损失函数L(Θ)；其中，N表示视频训练集中的视频个数；vⁱ表示第i个视频；Θ为所有的可训练的参数；λ为正则化系数；

根据所述损失函数L(Θ)对LSTM网络进行反向传播调整网络参数。

一种视频图像的语义信息提取装置，包括：

视频获取单元，用于从预先设置的视频标注数据集中获取视频训练集和视频验证集；

视频帧图像提取单元，用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像，生成多个视频的帧序列；

视频帧图像的特征向量单元，用于将所述视频的帧序列通过卷积神经网络进行处理，获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量；

LSTM网络编码器处理单元，用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理，生成LSTM网络编码器在当前时间步输出的特征向量；

存储矩阵内容更新单元，用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量；

预测单词向量确定单元，用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量；

重复执行LSTM网络编码器处理单元、存储矩阵内容更新单元和预测单词向量确定单元的执行过程；

视频训练模型形成单元，用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时，完成视频训练，形成视频训练模型。

视频验证集中的视频的语义标注信息生成单元，用于获取视频验证集中的视频，并调取所述视频训练模型，生成视频验证集中的视频的语义标注信息。

进一步的，所述视频图像的语义信息提取装置，还包括：

词汇表生成单元，用于获取视频训练集中的视频对应的预先设置的视频语义标注结果，生成视频训练集中的视频的词汇表；所述视频语义标注结果的序列长度被设置为一预先设置的固定值t_i。

另外，在所述视频帧图像提取单元中的多个视频的帧序列中，每个视频的帧序列的长度被设置为预先设置的帧序列长度值。

具体的，所述存储矩阵内容更新单元，包括：

第一更新存储矩阵生成模块，用于根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M_t′；

第二更新存储矩阵生成模块，用于根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M_t″；

存储矩阵内容更新模块，用于根据所述第一更新存储矩阵M_t′和第二更新存储矩阵M_t″，形成当前时间步的外部存储器EMM的存储矩阵内容M_t；其中，M_t＝M_t′+M_t″。

此外，所述第一更新存储矩阵生成模块，具体用于：

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

根据公式：确定第一更新存储矩阵M_t′。

此外，所述第二更新存储矩阵生成模块，具体用于：

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

根据公式：确定第二更新存储矩阵M_t″。

另外，所述存储矩阵内容更新单元，具体还用于：

根据公式：确定当前时间步读向量r_t′；

将当前时间步读向量r_t′与LSTM网络编码器在当前时间步输出的特征向量h_t′进行拼接，并与一第一输出权重矩阵W′_out相乘，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y_t′；其中，y_t′＝W′_out[r_t′；h′_t]；

另外，所述存储矩阵内容更新单元，具体还用于：

根据公式：确定当前时间步读向量r_t″；

另外，所述预测单词向量确定单元，具体用于：

根据公式：生成LSTM网络解码器在当前时间步输出的特征向量h″_t；其中，表示LSTM网络解码器的处理；为LSTM网络解码器在上一时间步输出的特征向量；c″_t-1表示LSTM网络解码器的cell值；x_t为当前时间步的输入词嵌入向量，所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的；

此外，所述视频训练模型形成单元，具体用于：

进一步的，所述视频图像的语义信息提取装置，还包括反向传播调整网络参数单元，用于：

根据各时间步的预测单词向量pre_t，采用公式确定损失函数L(Θ)；其中，N表示视频训练集中的视频个数；vⁱ表示第i个视频；Θ为所有的可训练的参数；λ为正则化系数；

本发明实施例提供的一种视频图像的语义信息提取方法及装置，通过对视频按一定的帧间隔提取视频的帧序列，通过卷积神经网络提取每帧图像的特征向量，然后将该特征向量作为LSTM网络编码器的输入，该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入，通过一系列运算更新外部存储器EMM中的存储矩阵的内容；之后，外部存储器EMM输出两个读向量，分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写，实现在编码阶段存储视频各帧图像的信息特征，在解码阶段通过预测单词的反馈，调整外部存储器下一时间步的输出，使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量，避免了传统编码——解码模型中输入视频的时间较长，提取的帧数较多时，现有技术模型通过编码生成的上下文向量不能包含全局的所有信息，尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉，导致模型性能下降的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频图像的语义信息提取方法的流程图一；

图2为本发明实施例提供的一种视频图像的语义信息提取方法的流程图二；

图3为本发明实施例中的4帧图像的编码和解码过程示例示意图；

图4为本发明实施例提供的一种视频图像的语义信息提取装置的结构示意图一；

图5为本发明实施例提供的一种视频图像的语义信息提取装置的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种视频图像的语义信息提取方法，包括：

步骤101、从预先设置的视频标注数据集中获取视频训练集和视频验证集。

步骤102、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像，生成多个视频的帧序列。

步骤103、将所述视频的帧序列通过卷积神经网络进行处理，获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。

步骤104、将视频帧图像的特征向量输入LSTM网络编码器中进行处理，生成LSTM网络编码器在当前时间步输出的特征向量。

步骤105、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器(External Memory Model，简称EMM)中，以更新外部存储器EMM的存储矩阵内容，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。

步骤106、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量。

重复执行步骤104至步骤106，直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值，完成视频训练，形成视频训练模型。

本发明实施例提供的一种视频图像的语义信息提取方法，通过对视频按一定的帧间隔提取视频的帧序列，通过卷积神经网络提取每帧图像的特征向量，然后将该特征向量作为LSTM网络编码器的输入，该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入，通过一系列运算更新外部存储器EMM中的存储矩阵的内容；之后，外部存储器EMM输出两个读向量，分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写，实现在编码阶段存储视频各帧图像的信息特征，在解码阶段通过预测单词的反馈，调整外部存储器下一时间步的输出，使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量，避免了传统编码——解码模型中输入视频的时间较长，提取的帧数较多时，现有技术模型通过编码生成的上下文向量不能包含全局的所有信息，尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉，导致模型性能下降的问题。

为了使本领域的技术人员更好的了解本发明，下面列举一个更为详细的实施例，如图2所示，本发明实施例提供一种视频图像的语义信息提取方法，包括：

步骤201、从预先设置的视频标注数据集中获取视频训练集和视频验证集。

步骤202、获取视频训练集中的视频对应的预先设置的视频语义标注结果，生成视频训练集中的视频的词汇表。

其中，所述视频语义标注结果的序列长度被设置为一预先设置的固定值t_i。如预先设置的固定值t_i为20，对于单词数小于20的视频语义标注结果，在其视频语义标注结果的序列最后加入pad，以使所有的序列长度都等于20，pad的值为0。此外，在编码阶段，LSTM网络解码器不输入正确单词的词向量，因此，这些时间步的单词的词向量的输入也为pad。

步骤203、对视频训练集中的视频以预先设置的帧间隔提取视频帧图像，生成多个视频的帧序列。

具体的，在所述多个视频的帧序列中，每个视频的帧序列的长度被设置为预先设置的帧序列长度值。对于帧数较少的视频，在帧序列的最后加上pad，值为0。此外，在解码阶段，LSTM网络编码器不进行帧序列的输入，这些时间步的输入视频帧序列也为pad。

步骤204、将所述视频的帧序列通过卷积神经网络进行处理，获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。

此处的卷积神经网络可以为已经训练完成的VGGNet，GoogleNet等。

步骤205、将视频帧图像的特征向量输入LSTM网络编码器中进行处理，生成LSTM网络编码器在当前时间步输出的特征向量。

步骤206、将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。

此处外部存储器EMM的存储矩阵M的大小为N×K，N表示存储矩阵的行数，K表示每一行可以存储的向量大小。

具体的，在步骤206中，将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，可以通过如下步骤(一)、(二)、(三)来实现：

(一)、根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M_t′，其过程为：

将LSTM网络编码器在当前时间步输出的特征向量h_t′与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′_t-1拼接，并与一第一输入权重矩阵W′_in相乘，生成第一特征向量p_t′；其中，p_t′＝W′_in[h_t′；y′_t-1]。

根据公式：将所述第一特征向量p_t′进行解析，得到多个分向量表示当前时间步得到的写键；

将分向量和分向量分别通过oneplus函数进行处理得到分向量和此处的oneplus函数定义为：oneplus(x)＝1+log(1+e^x)，从而控制取值范围为[1，∞]。表示当前时间步得到的写键的强度。

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e_t′和g_t′。此处的sigmoid函数定义为：从而控制取值范围为[0，1]。

根据分向量和分向量采用计算余弦相似度方式得到当前时间步权重即采用余弦相似度公式：完成的计算。

根据公式：确定当前时间步写权重其中为上一时间步写权重。g′_t表示一个插值门，控制上一时间步的写权重向当前时间步的写权重变化的程度。

根据公式：确定第一更新存储矩阵M_t′。e_t′表示擦除向量，完成对上一时间步存储矩阵内容的擦除，e_t′的每一个元素的值在[0,1]之间，表示对存储矩阵中每一行擦除的程度。a′_t表示加向量，将当前时间步的信息写入存储矩阵。

(二)、根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M_t″，其过程为(此步骤中的函数和系数解释与上一步骤(一)相同或相似，此处不再赘述)：

将LSTM网络解码器在上一时间步输出的特征向量h″_t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″_t-1拼接，并与一第二输入权重矩阵W″_in相乘，生成第二特征向量p_t″；其中，p_t″＝W″_in[h″_t-1；y″_t-1]。

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e_t″和g_t″。

根据公式：确定当前时间步写权重其中为上一时间步写权重。

根据公式：确定第二更新存储矩阵M_t″。

(三)、根据所述第一更新存储矩阵M_t′和第二更新存储矩阵M_t″，形成当前时间步的外部存储器EMM的存储矩阵内容M_t；其中，M_t＝M_t′+M_t″。

另外，在步骤206中，所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，可以通过如下方式实现：

即采用余弦相似度公式：完成的计算。

根据公式：确定当前时间步读向量r_t′。

将当前时间步读向量r_t′与LSTM网络编码器在当前时间步输出的特征向量h_t′进行拼接，并与一第一输出权重矩阵W′_out相乘，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y_t′；其中，y_t′＝W′_out[r_t′；h′_t]。

另外，在步骤206中，所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量可以通过如下方式实现：

根据公式：确定当前时间步读向量r_t″。

步骤207、根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量。

此处，上述步骤207可以采用如下方式实现：

根据公式：生成LSTM网络解码器在当前时间步输出的特征向量h″_t；其中，表示LSTM网络解码器的处理；h″_t-1为LSTM网络解码器在上一时间步输出的特征向量；c″_t-1表示LSTM网络解码器的cell值；需要说明的是，在训练阶段中，通过将正确的标注单词序列延后一个时间步的序列，作为LSTM网络解码器的一个输入分量，以实现LSTM网络学会单词之间的依赖性。如：

输入：<BOS>He is talking.

输出：He is talking.<EOS>

<BOS>表示开始标志，<EOS>表示结束标志。x_t为当前时间步的输入词嵌入向量，所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的。

重复执行步骤205至步骤207，直至根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值(可以是预先设置的固定值t_i)，完成视频训练，形成视频训练模型。

另外，在步骤207之后，还可以根据各时间步的预测单词向量pre_t，采用公式确定损失函数L(Θ)；其中，N表示视频训练集中的视频个数；vⁱ表示第i个视频；Θ为所有的可训练的参数；λ为正则化系数。

步骤208、获取视频验证集中的视频，并调取所述视频训练模型，生成视频验证集中的视频的语义标注信息。

此处，为了快速并有效地生成标注序列，得到语义标注信息，和大多数图片标注生成任务一样，此处可以使用集束搜索算法(beam search)。即每一时间步，只保留分值最高的前K个标注序列。(K一般取3或5)。

为了使上述步骤201至步骤208更加直观，如图3所示，展示了4帧图像的编码和解码过程，最终形成的语义标注信息为“a man is talking”即一个人在说话。

对应于上述图1和图2所示的方法实施例，如图4所示，本发明实施例还提供一种视频图像的语义信息提取装置，包括：

视频获取单元31，用于从预先设置的视频标注数据集中获取视频训练集和视频验证集。

视频帧图像提取单元32，用于对视频训练集中的视频以预先设置的帧间隔提取视频帧图像，生成多个视频的帧序列。

视频帧图像的特征向量单元33，用于将所述视频的帧序列通过卷积神经网络进行处理，获取卷积神经网络最后一个全连接层的输出信息作为视频帧图像的特征向量。

LSTM网络编码器处理单元34，用于将视频帧图像的特征向量输入LSTM网络编码器中进行处理，生成LSTM网络编码器在当前时间步输出的特征向量。

存储矩阵内容更新单元35，用于将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，并生成当前时间步LSTM网络解码器对外部存储器EMM的读向量。

预测单词向量确定单元36，用于根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量。

重复执行LSTM网络编码器处理单元34、存储矩阵内容更新单元35和预测单词向量确定单元36的执行过程。

视频训练模型形成单元37，用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时，完成视频训练，形成视频训练模型。

视频验证集中的视频的语义标注信息生成单元38，用于获取视频验证集中的视频，并调取所述视频训练模型，生成视频验证集中的视频的语义标注信息。

进一步的，如图5所示，所述视频图像的语义信息提取装置，还包括：

词汇表生成单元39，用于获取视频训练集中的视频对应的预先设置的视频语义标注结果，生成视频训练集中的视频的词汇表；所述视频语义标注结果的序列长度被设置为一预先设置的固定值t_i。

另外，在所述视频帧图像提取单元32中的多个视频的帧序列中，每个视频的帧序列的长度被设置为预先设置的帧序列长度值。

具体的，如图5所示，所述存储矩阵内容更新单元35，包括：

第一更新存储矩阵生成模块351，可以根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M_t′。

第二更新存储矩阵生成模块352，用于根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M_t″。

存储矩阵内容更新模块353，用于根据所述第一更新存储矩阵M_t′和第二更新存储矩阵M_t″，形成当前时间步的外部存储器EMM的存储矩阵内容M_t；其中，M_t＝M_t′+M_t″。

此外，所述第一更新存储矩阵生成模块351，具体用于：

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e_t′和g_t′。

根据公式：确定第一更新存储矩阵M_t′。

此外，所述第二更新存储矩阵生成模块352，具体用于：

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

根据公式：确定第二更新存储矩阵M_t″。

另外，所述存储矩阵内容更新单元35，具体还用于：

根据公式：确定当前时间步读向量r_t′。

另外，所述存储矩阵内容更新单元35，具体还用于：

根据公式：确定当前时间步读向量r_t″。

另外，所述预测单词向量确定单元36，具体用于：

根据公式：生成LSTM网络解码器在当前时间步输出的特征向量h″_t；其中，表示LSTM网络解码器的处理；h″_t-1为LSTM网络解码器在上一时间步输出的特征向量；c″_t-1表示LSTM网络解码器的cell值；x_t为当前时间步的输入词嵌入向量，所述输入词嵌入向量是通过视频训练集中的视频的词汇表中的单词经过词嵌入矩阵转化得到的。

此外，所述视频训练模型形成单元37，具体用于：

进一步的，所述视频图像的语义信息提取装置，还包括反向传播调整网络参数单元40，用于：

根据各时间步的预测单词向量pre_t，采用公式确定损失函数L(Θ)；其中，N表示视频训练集中的视频个数；vⁱ表示第i个视频；Θ为所有的可训练的参数；λ为正则化系数。

需要说明的是，本发明实施例提供的一种视频图像的语义信息提取装置的具体实现方式可以参见上述图1和图2对应的方法实施例，此处不再赘述。

本发明实施例提供的一种视频图像的语义信息提取装置，通过对视频按一定的帧间隔提取视频的帧序列，通过卷积神经网络提取每帧图像的特征向量，然后将该特征向量作为LSTM网络编码器的输入，该LSTM网络编码器的每一时间步的输出及LSTM网络解码器上一时间步的输出作为外部存储器EMM的输入，通过一系列运算更新外部存储器EMM中的存储矩阵的内容；之后，外部存储器EMM输出两个读向量，分别作为下一时间步解码和编码的一个输入向量。通过两个LSTM网络动态控制外部存储器EMM的读写，实现在编码阶段存储视频各帧图像的信息特征，在解码阶段通过预测单词的反馈，调整外部存储器下一时间步的输出，使得生成视频标注时可以根据当前已经生成的单词序列调节上下文特征向量，避免了传统编码——解码模型中输入视频的时间较长，提取的帧数较多时，现有技术模型通过编码生成的上下文向量不能包含全局的所有信息，尤其是较早时刻输入帧的图片中的信息可能会被遗忘掉，导致模型性能下降的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频图像的语义信息提取方法，其特征在于，包括：

2.根据权利要求1所述的视频图像的语义信息提取方法，其特征在于，在从预先设置的视频标注数据集中获取视频训练集和视频验证集之后，还包括：

3.根据权利要求2所述的视频图像的语义信息提取方法，其特征在于，在所述多个视频的帧序列中，每个视频的帧序列的长度被设置为预先设置的帧序列长度值。

4.根据权利要求3所述的视频图像的语义信息提取方法，其特征在于，将LSTM网络编码器在当前时间步输出的特征向量和LSTM网络解码器在上一时间步输出的特征向量输入到外部存储器EMM中，以更新外部存储器EMM的存储矩阵内容，包括：

根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M′_t；

根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M″_t；

根据所述第一更新存储矩阵M′_t和第二更新存储矩阵M″_t，形成当前时间步的外部存储器EMM的存储矩阵内容M_t；其中，M_t＝M′_t+M″_t。

5.根据权利要求4所述的视频图像的语义信息提取方法，其特征在于，根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M′_t，包括：

将LSTM网络编码器在当前时间步输出的特征向量h′_t与上一时间步LSTM网络编码器对外部存储器EMM的读向量y′_t-1拼接，并与一第一输入权重矩阵W′_in相乘，生成第一特征向量p′_t；其中，p′_t＝W′_in[h′_t；y′_t-1]；

根据公式：将所述第一特征向量p′_t进行解析，得到多个分向量

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e′_t和g′_t；

根据公式：确定第一更新存储矩阵M′_t。

6.根据权利要求5所述的视频图像的语义信息提取方法，其特征在于，根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M″_t，包括：

将LSTM网络解码器在上一时间步输出的特征向量h″_t-1与上一时间步LSTM网络解码器对外部存储器EMM的读向量y″_t-1拼接，并与一第二输入权重矩阵W″_in相乘，生成第二特征向量p″_t；其中，p″_t＝W″_in[h″_t-1；y″_t-1]；

根据公式：将所述第二特征向量p″_t进行解析，得到多个分向量；

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

将分向量和分向量分别通过sigmoid函数进行处理得到分向量e_t″和g″_t；

根据公式：确定第二更新存储矩阵M″_t。

7.根据权利要求6所述的视频图像的语义信息提取方法，其特征在于，所述生成当前时间步LSTM网络编码器对外部存储器EMM的读向量，作为下一时间步LSTM网络编码器的一个输入分量，包括：

根据公式：确定当前时间步读向量r_t′；

将当前时间步读向量r_t′与LSTM网络编码器在当前时间步输出的特征向量h′_t进行拼接，并与一第一输出权重矩阵W′_out相乘，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y′_t；其中，y′_t＝W′_out[r_t′；h′_t]；

将当前时间步LSTM网络编码器对外部存储器EMM的读向量y′_t作为下一时间步LSTM网络编码器的一个输入分量。

8.根据权利要求7所述的视频图像的语义信息提取方法，其特征在于，所述生成当前时间步LSTM网络解码器对外部存储器EMM的读向量，包括：

根据公式：确定当前时间步读向量r_t″；

将当前时间步读向量r_t″与LSTM网络解码器在上一时间步输出的特征向量h″_t-1进行拼接，并与一第二输出权重矩阵W″_out相乘，生成当前时间步LSTM网络解码器对外部存储器EMM的读向量y″_t；其中，y″_t＝W″_out[r″_t；h″_t-1]。

9.根据权利要求8所述的视频图像的语义信息提取方法，其特征在于，所述根据当前时间步LSTM网络解码器对外部存储器EMM的读向量，通过LSTM网络解码器生成LSTM网络解码器在当前时间步输出的特征向量，并确定当前时间步的预测单词向量，包括：

10.根据权利要求9所述的视频图像的语义信息提取方法，其特征在于，根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值，完成视频训练，形成视频训练模型，包括：

11.根据权利要求10所述的视频图像的语义信息提取方法，其特征在于，还包括根据各时间步的预测单词向量pre_t，采用公式确定损失函数L(Θ)；其中，N表示视频训练集中的视频个数；vⁱ表示第i个视频；Θ为所有的可训练的参数；λ为正则化系数；

12.一种视频图像的语义信息提取装置，其特征在于，包括：

视频训练模型形成单元，用于在根据各时间步的预测单词向量形成的语义标注的长度达到预先设置的长度阈值时，完成视频训练，形成视频训练模型；

13.根据权利要求12所述的视频图像的语义信息提取装置，其特征在于，还包括：

14.根据权利要求13所述的视频图像的语义信息提取装置，其特征在于，在所述视频帧图像提取单元中的多个视频的帧序列中，每个视频的帧序列的长度被设置为预先设置的帧序列长度值。

15.根据权利要求14所述的视频图像的语义信息提取装置，其特征在于，所述存储矩阵内容更新单元，包括：

第一更新存储矩阵生成模块，用于根据LSTM网络编码器在当前时间步输出的特征向量，生成当前时间步LSTM网络编码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第一更新存储矩阵M′_t；

第二更新存储矩阵生成模块，用于根据LSTM网络解码器在上一时间步输出的特征向量，生成当前时间步LSTM网络解码器对上一时间步的外部存储器EMM的存储矩阵内容M_t-1的第二更新存储矩阵M″_t；

存储矩阵内容更新模块，用于根据所述第一更新存储矩阵M′_t和第二更新存储矩阵M″_t，形成当前时间步的外部存储器EMM的存储矩阵内容M_t；其中，M_t＝M′_t+M″_t。

16.根据权利要求15所述的视频图像的语义信息提取装置，其特征在于，所述第一更新存储矩阵生成模块，具体用于：

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

根据公式：确定第一更新存储矩阵M′_t。

17.根据权利要求16所述的视频图像的语义信息提取装置，其特征在于，所述第二更新存储矩阵生成模块，具体用于：

将分向量和分向量分别通过oneplus函数进行处理得到分向量和

根据公式：确定第二更新存储矩阵M″_t。

18.根据权利要求17所述的视频图像的语义信息提取装置，其特征在于，所述存储矩阵内容更新单元，具体还用于：

根据公式：确定当前时间步读向量r_t′；

将当前时间步读向量r_t′与LSTM网络编码器在当前时间步输出的特征向量h′_t进行拼接，并与一第一输出权重矩阵W′_out相乘，生成当前时间步LSTM网络编码器对外部存储器EMM的读向量y′_t；其中，y′_t＝W′_out[r′_t；h′_t]；

19.根据权利要求18所述的视频图像的语义信息提取装置，其特征在于，所述存储矩阵内容更新单元，具体还用于：

根据公式：确定当前时间步读向量r_t″；

20.根据权利要求19所述的视频图像的语义信息提取装置，其特征在于，所述预测单词向量确定单元，具体用于：

21.根据权利要求20所述的视频图像的语义信息提取装置，其特征在于，所述视频训练模型形成单元，具体用于：

22.根据权利要求21所述的视频图像的语义信息提取装置，其特征在于，还包括反向传播调整网络参数单元，用于：