CN110019952A

CN110019952A - 视频描述方法、系统及装置

Info

Publication number: CN110019952A
Application number: CN201710940199.XA
Authority: CN
Inventors: 蔡海军; 陈院林; 王亮; 王威
Original assignee: Huawei Technologies Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Huawei Technologies Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2019-07-16
Anticipated expiration: 2037-09-30
Also published as: CN110019952B

Abstract

本发明实施例提供了一种视频描述方法、系统及装置，其中，该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见，该实施例采用多模态描述方法，有助于增加视频描述的灵活性。

Description

视频描述方法、系统及装置

技术领域

本申请涉及自动化技术领域，尤其涉及一种视频描述方法、系统及装置。

背景技术

视频内容的自动化描述是计算机视觉与机器学习领域的一项重大挑战，具有广泛的应用背景。例如，帮助盲人描述电影内容、视频检索以及人机交互等。为了实现视频内容的自动化描述，计算机算法需要对视频内容进行全面的理解，还需要构造一个强大的语言模型，更需要能准确地将视频中的元素映射到语言空间。

然而，目前的视频描述方法大多是基于固定的句子模板，对视频信息进行描述，导致输出的描述会过于生硬。

发明内容

本申请提供一种视频描述方法、系统及装置，可以基于多模态信息输出视频的描述，有助于增加描述的灵活性。

一方面，本申请实施例提供了一种视频描述方法，利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见，本发明实施例采用视觉、文本以及属性等多模态特征来预测单词，可以提高视频描述中的特征表达能力，提高视频描述的灵活度。进一步的，本发明实施例采用视觉记忆存储、文本记忆存储和属性记忆存储器可以解决长范围的视觉与文本依赖性建模的问题。

作为一种实施方式，所述利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前，还可以基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示，获得属性特征，所述属性特征存储在属性记忆存储器中。

作为另一种实施方式，所述利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，从当前时刻的文本记忆存储器读取文本信息；根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；所述将当前时刻的视觉特征表示写入到视觉记忆存储器中，包括：将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器。

可见，该实施方式可以从当前时刻的文本记忆存储器中读取文本信息，根据该文本信息通过注意力模型对当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示，将当前时刻关注的视觉特征表示写入到视觉记忆存储器中，从而，在进行单词预测时从视觉记忆存储器中读取的视觉特征可以更加贴合用户当前关注的内容，从而，增加单词预测的准确度。也就是说，本发明实施例可以重点关注输入的视频帧中的关键部分，从而改善特征提取能力。

其中，该视频描述方法还可以判断所述待描述视频的视频描述是否结束；若未结束，则利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示，以及执行上述其他操作，直至所述待描述视频的视频描述结束。

其中，利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，所述方法还包括：将所述预测的单词写入所述文本记忆存储器中以及输出所述预测的单词。本发明实施例中，输出所述预测的单词的方式可以以语音的方式输出，也可以以文本的方式输出。

另一方面，本申请发明实施例还提供一种视频描述系统，其特征在于，包括：视频编码器、文本解码器、视觉记忆存储器、文本记忆存储器、属性记忆存储器，其中，所述视频编码器，用于利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；所述视觉记忆存储器，用于将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；所述属性记忆存储器，用于根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；所述文本解码器，用于利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

其中，所述视频编码器，还用于基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；所述文本解码器，还用于基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示，获得属性特征，所述属性特征存储在属性记忆存储器中。

其中，所述系统还包括注意力处理器，文本记忆存储器，用于在利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，从当前时刻的文本记忆存储器读取文本信息；所述注意力处理器，用于根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；所述视觉记忆存储器，用于将当前时刻的视觉特征表示写入到视觉记忆存储器中，具体为将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器。

其中，所述视频编码器还用于判断所述待描述视频的视频描述是否结束；若未结束，则利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示，直至所述待描述视频的视频描述结束。

其中，所述文本解码器利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，还用于将所述预测的单词写入所述文本记忆存储器中以及输出所述预测的单词。

又一方面，本申请实施例还提供一种视频描述装置，提取单元，用于利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；写入单元，用于将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；读取单元，用于根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；生成单元，用于利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

其中，该装置中，还包括预处理单元，用于在所述提取单元利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前，基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；以及基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；以及根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示，获得属性特征，所述属性特征存储在属性记忆存储器中。

其中，该装置中，读取单元，还用于在所述提取单元利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，从当前时刻的文本记忆存储器读取文本信息；所述装置还包括：选择单元，用于根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；所述写入单元将当前时刻的视觉特征表示写入到视觉记忆存储器中，具体为：将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器。

其中，该装置中，还包括：判断单元，用于判断所述待描述视频的视频描述是否结束；若未结束，则触发上述单元执行相应的操作，直至所述待描述视频的视频描述结束。

其中，该装置中，所述写入单元，还用于在所述生成单元利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，将所述预测的单词写入所述文本记忆存储器中；所述装置还包括：输出单元，用于输出所述预测的单词。

又一方面，本发明实施例还提供了一种设备，该设备具有实现上述方法示例中第一方面所述方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

又一方面，本申请提供了一种计算机存储介质，用于储存为上述第一设备或第二设备所用的计算机软件指令，其包括用于执行上述方面所设计的程序。

又一方面，本申请还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

又一方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于设备实现上述方面中所涉及的功能，例如，确定或检测上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存第一设备或第二设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

附图说明

图1是一种基于统计模板的视频描述方法的示意图；

图2为本发明实施例提供的一种视频描述系统的示意图；

图3是本发明实施例提供的一种视频描述方法的流程示意图；

图4是本发明实施例提供的另一种视频描述方法的流程示意图；

图5是本发明实施例提供的另一种视频描述结构的示意图；

图6是本发明实施例提供的又一种视频描述方法的流程示意图；

图7是本发明实施例提供的一种视频描述装置的结构示意图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

其中,本发明实施例所述的视频描述方法可以应用在终端或服务器上进行视频的智能描述。例如，智能手机、平板电脑以及可穿戴设备等终端；还可以是终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。可选的，该视频描述方法也可以在云端设备或者云端服务器中执行等，本发明实施例不做限定。

视频内容的自动化描述是计算机视觉与机器学习研究领域一项重大挑战，并且具有广泛的应用背景。例如，帮助盲人描述电影内容，视频检索，人机交互。为了解决这一问题，计算机算法不仅需要对视频内容进行全面的理解，还需要构造一个强大的语言模型，更需要能准确地将视频中的元素映射到语言空间。早期受限于问题数据集和计算资源的规模，许多基于启发式的规则系统被应用到了这一问题，结果仅能产生有限词汇量的简单语句。后来随着问题规模的扩大，一些基于统计模型、深度学习的算法开始被应用过来，这也直接导致了这一问题的性能有了很大的提升。

例如，基于统计模板的视频描述方法，即事先通过大数据统计的方法，输出视频描述的一般模式，如主语-谓语-宾语结构，在对新的视频描述时，严格按照该模式来输出视频描述的结果。如图1所示，图1是一种基于统计模板的视频描述方法的示意图，基于统计模板的视频描述方法会事先根据大量的常用描述语句格式，归纳出输出序列的模板结构，如entity-do-entity等，实际执行时，会输入视频序列，利用基于统计模板的视频描述方法来学习每帧图像中的视觉信息，并按照给定的模板格式输出视频描述结果，如图1所示，基于统计末班的视频描述方法或者现有方案的输出结果为“Person cuts water”，而人工描述结果是“A woman is mixing an egg”，“Someone is making dough”等，而我们本发明实施例的输出结果为“Person cooks something”。可见，基于统计模板的视频描述方法需要预先检测出给定视频的语义标签，因此，很难形成一个端到端的系统，另外统计模板的方法过于依赖预定义的句子模板，输出的描述因此而变得生硬且简单，而本发明实施例的输出结果与人工描述结果更加相近。

下面对本申请提供的一种视频描述方法、系统及装置能够基于多模态方式增加视频描述的灵活性。

请参阅图2，图2为本发明实施例提供的一种视频描述系统的示意图，该视频描述系统包括基于卷积神经网络(Convolutional Neural Network，CNN)的视频编码器、视觉记忆存储器、基于长短时记忆网络(Long Short-Term Memory，LSTM)的文本解码器、文本记忆存储器以及属性检测器，其中，该属性检测器为基于多示例学习的属性检测器。

如图2所示，本发明实施例中，终端可以基于CNN的视频编码器和基于LSTM的文本解码器可以分别构建视觉记忆存储和文本记忆存储器，并且还可以根据视觉记忆存储和文本记忆存储器对应的共有属性构建基于多示例学习的属性检测器，这样，对视频描述，可以基于两个模态信息与高层属性信息分别进行单独标识和交互建模，从而构建了图2所示的层次化记忆模型，对于给定的视频进行描述时，可以基于文本记忆存储器和视觉记忆存储器中读取的两个模态信息在高层属性记忆存储器中选择出当前时刻单词预测需要的属性信息用于当前语言模型的单词预测。

基于图2所示的视频描述结构，请参阅图3，图3是本发明实施例提供的一种视频描述方法的流程示意图，该视频描述方法可以包括以下步骤：

S101、终端利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；

本发明实施例中，基于卷积神经网络的视频编码器可以选择3D卷积神经网络C3D、视觉几何组网络(Visual Geometry Group，VGGnet)、GoogLeNet、Inception v3、Resnet等深度学习模型，也可以根据系统的复杂度与精度需求选取。其中，GoogLeNet是一个具有22层的深度网络，该网络时为了解决深度和宽度受限而设计的；Inception v3一个最重要的改进是分解(Factorization)，将7x7分解成两个一维的卷积(1x7,7x1)，3x3也是一样(1x3,3x1)，这样的好处是可以加速计算(多余的计算能力可以用来加深网络)；Resnet的改进点在于解决网络层次比较深的时候无法训练的问题。

其中，卷积神经网络是一种前馈神经网络，即人工神经元可以响应周围单元，用于大型图像处理。卷积神经网络是一种有监督的前馈多层结构，其中每层通过将特征检测器应用于特征图来学习更高层的视觉特征表示，从而提取出有用的视频帧。

本发明实施例中，视觉特征表示也可以称为视频特征表示、视觉表示或视频表示等。

S102、终端将所述视觉特征表示写入到视觉记忆存储器中；

本发明实施例中，视觉记忆存储器可以预先设定大小，即设定N*M矩阵，包括的位置个数以及每个位置对应的向量长度，可以通过训练样本对矩阵中的各向量进行初始化。

通过将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器，可以修改视觉记忆存储器中的各向量。

S103、终端根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；

本发明实施例中，视觉记忆存储器用于存储视觉特征信息，文本记忆存储器用于存储文本特征信息，属性记忆存储器用于存储视觉特征信息和文本特征信息融合之后得到的属性特征。

其中，终端根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息，可以包括：终端从当前时刻的视觉记忆存储器中读取视觉特征信息，从当前时刻的文本记忆存储器中读取文本特征信息，根据该视觉特征信息和文本特征信息对属性记忆存储器中的属性信息进行选择。

S104、利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

其中，长短时记忆网络(Long Short-Term Memory，LSTM)是一种特殊的时间递归神经网络，能够学习长期依赖关系。基于LSTM的文本解码器对输入的上一时刻单词和当前时刻读取的属性信息进行建模，生成需要预测的单词。

本发明实施例中，终端利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前，还可以采用给定的训练样本对视频记忆存储器、文本记忆存储器以及属性记忆存储器进行初始化，具体的，终端可以执行以下步骤：

基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；

基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；

根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示，获得属性特征，所述属性特征存储在属性记忆存储器中。

其中，训练样本包括视频和对应的文本描述，通过上述预处理过程后，可以建立相应的词库，从中选取前预设数量个出现频率最高的词汇。对于该预设数量的词汇，每个出现在视频的低层文本描述中的单词属于该视频的正包元素，未出现在视频的低层文本描述中的单词属于该视频的负包元素。通过多示例学习模型，每个包中属性出现的概率用全卷积的pre-trained VGG网络来计算，该全卷积网络的最后一个卷积层连接着sigmoid层，输出视频各个区域包含的属性概率，再通过交叉熵损失函数来优化该多示例模型。

其中，对于给定的训练样本中的视频进行预处理，主要包括视频帧(或片段)的均匀采样，零值填补，归一化到同一尺度等；使用2D-CNN和3D-CNN预训练网络提取上一步处理后视频的appearance特征和motion特征，并对其进行拼接；使用RNN网络对上面的时序视频表示进行进一步建模，得到新的视频时序表示，再通过注意力机制选择当前时刻关注的视觉表示信息。

其中，对于给定的训练样本中的文本(句子)，对其进行预处理，主要包括分词、大写转小写、稀有词消除等操作；建立相应的词库，并用one-hot编码方式表示每一个输入样本中的单词；将上面处理过的句子(单词序列)送入到LSTM递归网络中，该递归网络中同时引入了从记忆存取器中读取到的信息，并按照LSTM的更新策略进行预测下一时刻的单词。

通过给定的视频描述信息，建立一个top 1000的高频属性词库，再按照上述多示例学习的方法，通过一个全卷积网络训练出一个能检测出视频中包含的关键属性信息的模型；分别存储相应模态的信息，并通过低层文本和视觉信息对高层属性信息进行选择，选择得到的属性信息再用于当前的LSTM解码器中的句子预测，重复以上过程，直至训练样本中的视频描述分析结束。

可见，本发明实施例中，终端可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见，本发明实施例采用视觉、文本以及属性等多模态特征来预测单词，可以提高视频描述中的特征表达能力，提高视频描述的灵活度。进一步的，本发明实施例采用视觉记忆存储、文本记忆存储和属性记忆存储器可以解决长范围的视觉与文本依赖性建模的问题。

请参阅图4，图4是本发明实施例提供的另一种视频描述方法的流程示意图，如图4所示，该视频描述方法可以包括：

S201、终端利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；

S202、终端从当前时刻的文本记忆存储器读取文本信息；

S203、终端根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；

S204、终端将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器；

S205、终端根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；

S206、终端利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

可见，本发明实施例中，终端可以从当前时刻的文本记忆存储器中读取文本信息，根据该文本信息通过注意力模型对当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示，将当前时刻关注的视觉特征表示写入到视觉记忆存储器中，从而，在进行单词预测时从视觉记忆存储器中读取的视觉特征可以更加贴合用户当前关注的内容，从而，增加单词预测的准确度。也就是说，本发明实施例可以重点关注输入的视频帧中的关键部分，从而改善特征提取能力。

请参阅图5，图5是本发明实施例提供的另一种视频描述结构的示意图，其中，图3所示的视频描述结构是图2所示的视频描述系统的进一步细化，基于图3所示的视频描述结构，请参阅图6，图6是本发明实施例提供的又一种视频描述方法的流程示意图，如图6所示，该视频描述方法可以包括：

S301、终端利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；

S302、终端从当前时刻的文本记忆存储器读取文本信息；

S303、终端根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；

S304、终端将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器；

S305、终端根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；

S306、终端利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

S307、终端将所述预测的单词写入所述文本记忆存储器中以及输出所述预测的单词；

S308、终端判断所述待描述视频的视频描述是否结束；若未结束，则继续执行步骤S301，直至所述待描述视频的视频描述结束。

例如，如图5所示，待描述视频的各个时刻的视频帧输入到基于卷积神经网络的视频编码器CNN中，再根据当前时刻的文本记忆存储器TM(t)通过注意力机制从当前时刻的视频帧的视觉特征表示中选择当前时刻关注的视觉特征表示，将选择的当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器VM(t)中，根据当前时刻的文本记忆存储器TM(t)和当前时刻的文本记忆存储器VM(t)从当前时刻的属性记忆存储器AM(t)中读取属性信息，从而，利用基于长短时记忆网络的文本解码器根据上一时刻单词man和当前时刻读取的属性信息生成预测的单词is。

本发明实施例中，输出所述预测的单词的方式可以以语音的方式输出，也可以以文本的方式输出，本发明实施例不做限定。

可见，本发明实施例将视觉、文本等特征进行多模态融合，得到高层的属性特征，从而引导后续的文本预测；采用视觉、文本、属性等多个记忆存储器，提升长序列的依赖性建模能力；在视觉特征提取时引入注意力机制，增强视觉特征提取能力。从而，提升了特征表达能力，解决了长序列依赖性建模的问题以及引入注意力机制提升了特征提取能力。

本发明实施例还提供了一种视频描述系统，该视频描述系统基于上述图2所示的示意图，可以包括：视频编码器、文本解码器、视觉记忆存储器、文本记忆存储器、属性记忆存储器，其中，

所述视频编码器，用于利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；

所述视觉记忆存储器，用于将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；

所述属性记忆存储器，用于根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；

所述文本解码器，用于利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

所述视频编码器，还用于基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；

所述文本解码器，还用于基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；

所述系统还包括注意力处理器，其中，

文本记忆存储器，用于在利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，从当前时刻的文本记忆存储器读取文本信息；

所述注意力处理器，用于根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；

所述视觉记忆存储器，用于将当前时刻的视觉特征表示写入到视觉记忆存储器中，具体为将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器。

基于同一发明构思，本发明实施例中提供的视频描述系统解决问题的原理与本发明方法实施例相似，因此该电子设备的实施以及有益效果可以参见以及有益效果，为简洁描述，在这里不再赘述。

基于上述一种视频描述方法的实施例，请参阅图7，图7是本发明实施例提供的一种视频描述装置的结构示意图，如图7所示，该视频描述装置可以包括：

提取单元701，用于利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示。

写入单元702，用于将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中。

读取单元703，用于根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息。

生成单元704，用于利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

可选的，预处理单元705，用于在所述提取单元701利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前，基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；以及基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；以及根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示，获得属性特征，所述属性特征存储在属性记忆存储器中。

可选的，所述读取单元703，还用于在所述提取单元701利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，从当前时刻的文本记忆存储器读取文本信息。

可选的，选择单元706，用于根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示。

可选的，所述写入单元将当前时刻的视觉特征表示写入到视觉记忆存储器中，具体为：

将所述当前时刻关注的视觉特征表示写入到视觉记忆存储器。

可选的，判断单元707，用于判断所述待描述视频的视频描述是否结束；若未结束，则触发上述单元执行相应的操作，直至所述待描述视频的视频描述结束。

可选的，所述写入单元，还用于在所述生成单元利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，将所述预测的单词写入所述文本记忆存储器中；

可选的，输出单元708，用于输出所述预测的单词。

本发明实施例中，该视频描述装置具有实现上述图3及、图4及图6对应实施例中的视频描述方法中电子设备执行的相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件。

基于同一发明构思，由于该视频描述装置解决问题的原理以及有益效果可以参见上述图3及、图4及图6所述视频描述方法的实施方式以及所带来的有益效果，因此该视频描述装置的实施方式可以参见上述图3及、图4及图6所述视频描述方法的实施方式，重复之处不再赘述。

基于上述对一种视频描述装置的描述，本发明实施提供了一种电子设备，请参见图8，图8是本发明实施例提供的一种电子设备的结构示意图，如图8所示的电子设备可以包括：包括处理器801、存储器802、通信接口803和电源804，所述处理器801、存储器802、通信接口803和电源804通过总线相互连接。

处理器801可以是一个或多个中央处理器(英文：central processing unit，简称：CPU)，在处理器801是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器802包括但不限于是随机存储记忆体(英文：random access memory，简称：RAM)、只读存储器(英文：read-only memory，简称：ROM)、可擦除可编程只读存储器(英文：erasable programmable read only memory，简称：EPROM)、或便携式只读存储器(英文：compactdisc read-only memory，简称：CD-ROM)，该存储器802用于存储指令及数据，如存储与该控制设备连接的网关的标识等。

上述通信接口803与其他网络设备相连。例如，通信接口803包括多个接口，分别与多个网关相连。通信接口803可以是有线接口，无线接口或其组合。有线接口例如可以为以太网接口。以太网接口可以是光接口，电接口或其组合。无线接口例如可以为无线局域网(英文：wireless local area network，缩写：WLAN)接口，蜂窝网络接口或其组合。电源804，用于为电子设备进行供电。

上述存储器802还用于存储程序指令。上述处理器801可以调用上述存储器802存储的程序指令，实现如本申请上述各实施例所示的视频描述方法。

基于同一发明构思，本发明实施例中提供的电子设备解决问题的原理与本发明方法实施例相似，因此该电子设备的实施以及有益效果可以参见以及有益效果，为简洁描述，在这里不再赘述。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

还应理解，本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分，并不用来限制本发明实施例的范围。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step)，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频描述方法，其特征在于，包括：

利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；

将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；

根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；

利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

2.根据权利要求1所述的方法，其特征在于，所述利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，所述方法还包括：

从当前时刻的文本记忆存储器读取文本信息；

根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；

所述将当前时刻的视觉特征表示写入到视觉记忆存储器中，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

判断所述待描述视频的视频描述是否结束；

若未结束，则执行所述的利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示的步骤，直至所述待描述视频的视频描述结束。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，所述方法还包括：

将所述预测的单词写入所述文本记忆存储器中以及输出所述预测的单词。

6.一种视频描述系统，其特征在于，包括：视频编码器、文本解码器、视觉记忆存储器、文本记忆存储器、属性记忆存储器，其中，

7.根据权利要求6所述的系统，其特征在于，

8.根据权利要求6或7所述的系统，其特征在于，

所述系统还包括注意力处理器，其中，

9.根据权利要求6至8任一项所述的系统，其特征在于，所述视频编码器还用于判断所述待描述视频的视频描述是否结束；若未结束，则所述视频编码器利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示，直至所述待描述视频的视频描述结束。

10.根据权利要求6至8任一项所述的系统，其特征在于，所述文本解码器利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，还用于将所述预测的单词写入所述文本记忆存储器中以及输出所述预测的单词。

11.一种视频描述装置，其特征在于，包括：

提取单元，用于利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示；

写入单元，用于将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中；

读取单元，用于根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息；

生成单元，用于利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

预处理单元，用于在所述提取单元利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之前，基于卷积神经网络的视频编码器对给定的训练样本中的视频进行预处理，获得视频特征表示，将所述视频特征表示存储在视频记忆存储器中；以及基于长短时记忆网络的文本解码器对所述训练样本中的文本进行预处理，获得文本特征表示，所述文本特征表示存储在文本记忆存储器中；以及根据所述视频记忆存储器中的视频特征表示以及文本记忆存储器中的文本特征表示，获得属性特征，所述属性特征存储在属性记忆存储器中。

13.根据权利要求11或12所述的装置，其特征在于，

所述读取单元，还用于在所述提取单元利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示之后，从当前时刻的文本记忆存储器读取文本信息；

所述装置还包括：

选择单元，用于根据所述文本信息通过注意力模型对所述当前时刻视频帧的特征表示进行选择，获得当前时刻关注的视觉特征表示；

所述写入单元将当前时刻的视觉特征表示写入到视觉记忆存储器中，具体为：

14.根据权利要求11至13任一项所述的装置，其特征在于，所述装置还包括：

判断单元，用于判断所述待描述视频的视频描述是否结束；若未结束，则触发所述提取单元利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示，直至所述待描述视频的视频描述结束。

15.根据权利要求11至13任一项所述的装置，其特征在于，

所述写入单元，还用于在所述生成单元利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词之后，将所述预测的单词写入所述文本记忆存储器中；

所述装置还包括：

输出单元，用于输出所述预测的单词。