CN111325068B

CN111325068B - 基于卷积神经网络的视频描述方法及装置

Info

Publication number: CN111325068B
Application number: CN201811536611.2A
Authority: CN
Inventors: 潘滢炜; 姚霆; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2023-11-07
Anticipated expiration: 2038-12-14
Also published as: CN111325068A

Abstract

本发明实施例提供一种基于卷积神经网络的视频描述方法及装置，针对待描述视频提取出视觉特征序列后，将该视觉特征序列输入至编码器，由编码器对视觉特征序列进行计算，得到待描述视频的各视频帧的状态向量，然后根据各状态向量确定出平均池化结果并输入至解码器，由解码器根据平均池化结果生成与待描述视频相对应的描述结果。该过程中，利用基于卷积神经网络的编码器‑解码器对待描述视频进行描述，以得到符合人类自然语言且不呆板的描述结果，从而提升视频描述结果。基于卷积神经网络的编码器的前向卷积结构使得计算能够并行化，能够对待描述视频的长序列依赖关系进行建模，解码器能够避免递归神经网络容易出现的梯度弥散和爆炸问题。

Description

基于卷积神经网络的视频描述方法及装置

技术领域

本发明实施例涉及视频描述技术领域，尤其涉及一种基于卷积神经网络的视频描述方法及装置。

背景技术

目前，理解视频内容并使用自然语言对视频进行描述，是计算机视觉和多媒体领域中倍受关注的课题。视频描述是指针对给定的视频，通过观察该视频包含的内容，生成相应的句子。

传统的视频描述方法是采用递归神经网络学习视频描述模型，该视频描述模型包括编码器和解码器。训练好视频描述模型后，将待描述视频输入到视频描述模型，由视频描述模型对待描述视频进行学习，得到描述结果。示例性的，视频描述模型基于模板的方法，分析待描述视频，识别待描述视频中存在的物体，以及物体之间的关系，然后采用固定的语言模板，如主语+谓语+宾语，从所识别的物体中确定主语、宾语，并将物体之间的动作关系作为谓语，从而生成待描述视频的描述结果。

上述视频描述过程中，描述结果很大程度上依赖于给定的句子模板，导致生成的描述结果句式固定，句式过于单一，缺乏人类自然语言表达色彩。

发明内容

本发明实施例提供一种基于卷积神经网络的视频描述方法及装置，以实现提供视频描述质量的目的。

第一方面，本发明实施例提供的一种基于卷积神经网络的视频描述方法，包括：

对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列；

将所述视觉特征序列中的视觉特征依次输入编码器，得到各所述视频帧的状态向量，所述状态向量包含对应视频帧的上下文语义；

确定各所述视频帧的状态向量的平均池化结果；

将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的。

一种可行的设计中，所述将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，包括：

确定所述待描述视频的中间向量，所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的；

根据所述中间向量和所述状态向量，确定时序注意力值；

根据所述时序注意力机制和所述中间向量，获得与所述待描述视频对应的描述结果。

一种可行的设计中，所述对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，还包括：

利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器和/或所述解码器，所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。

一种可行的设计中，所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器，包括：

对于所述训练集中的每一个训练视频，对所述训练视频的每一视频帧提取视觉特征，得到训练视觉特征序列，所述训练视频包含N帧，所述训练视觉特征序列v＝(v₁，v₂，……v_N)；

将所述训练视觉特征序列输入到待训练编码器，所述待训练编码器包含L个卷积块，L≥2且为整数；

对所述待训练编码器包含L个卷积块进行训练，得到所述编码器。

一种可行的设计中，所述对所述待训练编码器包含L个卷积块进行训练，得到所述编码器，包括：

根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，其中，所述第l-1个卷积块的输出结果为第l个卷积块的输出结果为所述/>表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果；

根据所述L个卷积块中各卷积块的输出结果，对所述L个卷积块进行训练，得到所述编码器。

一种可行的设计中，所述根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，包括：

将所述p^l-1中的子序列输入至所述第l个卷积块中的第一一维卷积，得到所述子序列中每个采样位置的偏移量，所述第l个卷积块的卷积核大小为k，所述p^l-1中的子序列为r_n表示所述R中的第n个元素；

根据所述p^l-1中的子序列的每个采样位置的偏移量，对所述p^l-1中的子序列中对应的采样位置进行偏移，得到中间子序列；

将所述中间子序列输入至所述第l个卷积块的第二一维卷积，得到所述第二一维卷积的输出结果；

根据所述第二一维卷积的输出结果和门线性单元，确定所述第l个卷积块的输出结果。

一种可行的设计中，所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述解码器，包括：

对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；

对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

一种可行的设计中，所述对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器，包括：

根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，其中，所述第m-1个的输出结果为第m个卷积块的输出结果为所述/>表示第m个卷积块第t时刻的输出结果；

根据所述M个卷积块中各卷积块的输出结果，对所述M个卷积块进行训练，得到所述解码器。

一种可行的设计中，所述根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，包括：

将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果，所述第m个卷积块的卷积核大小为k，所述q^m-1中的子序列为

一种可行的设计中，所述将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果之后，还包括：

根据所述训练视频的各视频帧的所述状态向量和所述解码器，确定注意力分布函数。

第二方面，本发明实施例提供一种基于卷积神经网络的视频描述装置，包括：

提取模块，用于对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列

编码器模块，用于将所述视觉特征序列中的视觉特征依次输入编码器，得到各所述视频帧的状态向量，所述状态向量包含对应视频帧的上下文语义；

池化模块，用于确定各所述视频帧的状态向量的平均池化结果；

解码器模块，用于将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的。

一种可行的设计中，上述的装置还包括：

时序注意力模块，用于在所述解码器模块确定所述待描述视频的中间向量，所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的之后，根据所述中间向量和所述状态向量，确定时序注意力值；

所述解码器模块，用于根据所述时序注意力机制和所述中间向量，获得与所述待描述视频对应的描述结果。

一种可行的设计中，上述的装置还包括：

训练模块，用于在所述提取模块对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器和/或所述解码器，所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。

一种可行的设计中，所述训练模块，在利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器时，对于所述训练集中的每一个训练视频，对所述训练视频的每一视频帧提取视觉特征，得到训练视觉特征序列，所述训练视频包含N帧，所述训练视觉特征序列v＝(v₁，v₂，……v_N)；将所述训练视觉特征序列输入到待训练编码器，所述待训练编码器包含L个卷积块，L≥2且为整数；对所述待训练编码器包含L个卷积块进行训练，得到所述编码器。

一种可行的设计中，所述训练模块，在对所述待训练编码器包含L个卷积块进行训练，得到所述编码器时，根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，其中，所述第l-1个卷积块的输出结果为第l个卷积块的输出结果为/>所述/>表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果；根据所述L个卷积块中各卷积块的输出结果，对所述L个卷积块进行训练，得到所述编码器。

一种可行的设计中，所述训练模块，在根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果时，将所述p^l-1中的子序列输入至所述第l个卷积块中的第一一维卷积，得到所述子序列中每个采样位置的偏移量，所述第l个卷积块的卷积核大小为k，所述p^l-1中的子序列为 r_n表示所述R中的第n个元素；根据所述p^l-1中的子序列的每个采样位置的偏移量，对所述p^l-1中的子序列中对应的采样位置进行偏移，得到中间子序列；将所述中间子序列输入至所述第l个卷积块的第二一维卷积，得到所述第二一维卷积的输出结果；根据所述第二一维卷积的输出结果和门线性单元，确定所述第l个卷积块的输出结果。

一种可行的设计中，所述训练模块，对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

一种可行的设计中，所述训练模块，在对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器时，用于根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，其中，所述第m-1个的输出结果为第m个卷积块的输出结果为/>所述/>表示第m个卷积块第t时刻的输出结果；根据所述M个卷积块中各卷积块的输出结果，对所述M个卷积块进行训练，得到所述解码器。

一种可行的设计中，所述训练模块，在根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果时，用于将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果，所述第m个卷积块的卷积核大小为k，所述q^m-1中的子序列为

一种可行的设计中，所述训练模块，在将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果之后，还用于根据所述训练视频的各视频帧的所述状态向量和所述解码器，确定注意力分布函数。

本发明实施例提供的基于卷积神经网络的视频描述方法及装置，针对待描述视频提取出视觉特征序列后，将该视觉特征序列输入至编码器，由编码器对视觉特征序列进行计算，得到待描述视频的各视频帧的状态向量，然后根据各状态向量确定出平均池化结果并输入至解码器，由解码器根据平均池化结果生成与待描述视频相对应的描述结果。该过程中，利用基于卷积神经网络的编码器-解码器对待描述视频进行描述，以得到符合人类自然语言且不呆板的描述结果，从而提升视频描述结果。基于卷积神经网络的编码器的前向卷积结构使得计算能够并行化，能够对待描述视频的长序列依赖关系进行建模，解码器能够避免递归神经网络容易出现的梯度弥散和爆炸问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于卷积神经网络的视频描述方法的流程图；

图2是本发明实施例提供的一种基于卷积神经网络的编码器-解码器的总体框架图；

图3A是本发明基于卷积神经网络的视频描述方法中一个时序可变形卷积块的示意图；

图3B是本发明基于卷积神经网络的视频描述方法中对时序可变形卷积块中偏移过程的示意图；

图3C是本发明实施例提供的一种基于卷积神经网络的视频描述方法中解码器的卷积块的举例示意图；

图4为本发明实施例提供的一种视频描述装置的结构示意图；

图5为本发明实施例提供的另一种视频描述装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着科技的不断发展，越来越多的用户利用移动设备拍摄视频并上传到互联网，使得通过互联网分享和传播的视频呈爆炸式增长。因此，理解视频内容并使用自然语言对该视频进行描述，成为计算机视觉和多媒体领域中备受关注的课题。对视频描述课题的研究能够推动检索引擎和智能机器人系统的发展，同时还能够辅助视力障碍人士更好的掌握现实世界的情况。

通常情况下，视频描述包括训练视频描述模型和利用训练好的视频描述模型对待描述视频进行描述两部分。现有的视频描述模型是基于递归神经网络的编码器-解码器，由于递归神经网络天然的递归特性，导致基于递归神经网络的编码器-解码器具有如下缺点：第一、在递归神经网络中，编码器-解码器每一时刻状态的计算依赖于前一时刻状态的计算，使得该类模型无法在训练过程中并行化，降低了图形处理器(graphics processingunit，GPU)的使用效率；第二、递归神经网络在对特征序列进行建模的过程中容易出现梯度弥散/爆炸问题，使得模型会忘记长依赖关系；第三，递归神经网络的非线性运算数据随着输入序列的长短而发生变化，使得对模型的优化变得困难。而且，利用基于递归神经网络的编码器-解码器对待描述视频进行视频描述时，基于模板的方法，分析待描述视频，识别待描述视频中存在的物体，以及物体之间的关系，然后采用固定的语言模板，如主语+谓语+宾语，从所识别的物体中确定主语、宾语，并将物体之间的动作关系作为谓语，从而生成待描述视频的描述结果。上述视频描述过程中，描述结果很大程度上依赖于给定的句子模板，导致生成的描述结果句式固定，句式过于单一，缺乏人类自然语言表达色彩。

综合上述可知：现有的视频描述方案和基于递归神经网络的编码器-解码器均存在弊端。有鉴于此，本发明实施例提供一种基于卷积神经网络的视频描述方法及装置，利用卷积神经网络训练编码器-解码器，并利用基于卷积神经网络的编码器-解码器对待描述视频进行描述，以得到符合人类自然语言且不呆板的描述结果，从而提升视频描述结果。

本发明实施例提供的基于卷积神经网络的视频描述方法可应用于需要对视频进行描述的任何场景，执行基于卷积神经网络的视频描述方法的视频描述装置可以设置在电子设备上，也可以设置在服务器上，电子设备例如可以是计算机设备、移动终端设备、自动驾驶车载设备、人机交互设备以及其他电子设备。下面，对本发明实施例所述的基于卷积神经网络的视频描述方法进行详细说明。示例性的，请参照图1。

图1是本发明实施例提供的一种基于卷积神经网络的视频描述方法的流程图。本实施例的执行主体是基于卷积神经网络的视频描述装置，该装置可以通过软件、硬件或者软硬件结合的方式实现，该装置可以是电子设备的部分或者全部，也可以是服务器的部分或全部。本实施以该基于卷积神经网络的视频描述方法应用于电子设备为例进行说明，本实施例包括：

101、对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列。

本发明实施例中，预先获取包含视频-描述对的训练集，利用卷积神经网络对该训练集中的视频-描述对进行学习，得到基于卷积神经网络的编码器-解码器。该基于卷积神经网络的编码器-解码器主要包括编码器和解码器，编码器由若干个时序可变形的卷积块堆叠而成，编码器用于根据每一视频帧的视觉特征，得到包含该视频帧的上下文语义的状态向量，也称之为中间状态向量。解码器由若干个偏移卷积块堆叠而成，用于根据待描述视频所有的视频帧的状态向量的平均池化结果，获得待描述视频的描述结果。

本步骤中，电子设备对待描述视频进行分帧处理，将待描述视频分为连续的视频帧。然后，对每一视频帧提取视觉特征，得到视觉特征序列。其中，视觉特征指视频的场景、视频的对象、对象的动作等。

102、将所述视觉特征序列中的视觉特征依次输入编码器，得到各所述视频帧的状态向量，所述状态向量包含对应视频帧的上下文语义。

本步骤中，将步骤101得到的视觉特征序列输入至视频描述模型的编码器中，得到每一视频帧对应的蕴含上下文语义的状态向量。

103、确定各所述视频帧的状态向量的平均池化结果。

本步骤中，根据各视频帧的状态向量，确定出一个平均池化结果。

104、将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果。

其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的。

本步骤中，将各视频帧的平均池化结果输入到视频描述模型的解码器中，由解码器对平均池化结果进行学习，得到待描述视频的视频描述结果。

图2是本发明实施例提供的一种基于卷积神经网络的编码器-解码器的总体框架图。根据图2可知，本发明实施例中，基于卷积神经网络的编码器-解码器包括编码器、解码器、平均池化和时序注意力机制。其中，编码器由若干个时序可变形的卷积块堆叠而成，解码器由若干个偏移卷积块堆叠而成。视频描述过程中，将待描述视频输入标准的卷积神经网络，如图2中最左边部分所示，利用该标准的卷积神经网络对待描述视频逐帧进行视觉特征提取，得到视觉特征序列。然后，将该视觉特征序列输入到由若干个时序可变性卷积块堆叠而成的时序可变形卷积编码器中，计算得到每一帧对应的蕴含上下文语义的状态向量。接着，将状态向量的平均池化结果输入到由偏移卷积块堆叠而成的卷积解码其中生成描述结果。

本发明实施例提供的基于卷积神经网络模的视频描述方法，针对待描述视频提取出视觉特征序列后，将该视觉特征序列输入至编码器，由编码器对视觉特征序列进行计算，得到待描述视频的各视频帧的状态向量，然后根据各状态向量确定出平均池化结果并输入至解码器，由解码器根据平均池化结果生成与待描述视频相对应的描述结果。该过程中，利用基于卷积神经网络的编码器-解码器对待描述视频进行描述，以得到符合人类自然语言且不呆板的描述结果，从而提升视频描述结果。

上述实施例中，将平均池化结果作为解码器的输入从而生成描述结果。然而，解码过程中t时刻生成的描述结果中的词语很可能仅仅和待描述视频中的部分视频帧相关，若简单的通过平均池化将编码器输出的状态向量压缩成一个全局特征，很可能会破坏待描述视频的时序结构并引入不相关的视频帧，得到的描述结果并不是最优的。因此，解码过程中，需要引入时序注意力机制，从待描述视频中确定出描述结果中的每个词语对应的视频帧，以精确定位和描述结果中的各个词语有关的视频帧，从而进一步提升视频描述结果。再请参照图2，引入时序注意力机制以后，如图中粗黑实线所示，解码器确定所述待描述视频的中间向量后发送给时序注意力模块，所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的，例如图2中从下往上共3层；时序注意力模块根据所述中间向量和所述状态向量，确定时序注意力值并发送给解码器，如图中粗黑虚线所示；解密器根据所述时序注意力机制和所述中间向量，获得与所述待描述视频对应的描述结果。

以上是如何对待描述视频进行描述进行详细说明。下面，对如何训练视频描述模型，基于卷积神经网络的编码器-解码器进行详细说明。

一种可行的实现方式中，电子设备对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，还利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器和/或所述解码器，所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。其中，训练基于卷积神经网络的编码器-解码器的过程包括收集训练数据阶段和训练阶段，下面的，对该两个阶段分别进行详细说明。

首先，收集训练数据阶段。

该阶段，从数据库中或网络上搜集视频，并通过人工描述方式等对搜集到的视频进行描述，得到视频-描述对，并将所有的视频-描述对存储在训练集中。例如，从微软研究视频描述语料库(microsoft research video description corpus，MSVD)中获得YouTube的1970个短的视频片段，每个视频片段例如为10帧左右，不同的视频片段的帧数可以相同或不同，每个视频大约有40个英文描述，合计共80000个视频-描述对。再如，从互联网搜集10000个视频，涵盖20个常见类别，平均每个视频大约有20个英文标注，合计共包含200000个视频-描述对。

其次，训练阶段。

本发明实施例中，训练阶段包括确定损失函数阶段、训练编码器阶段、训练解码器阶段和训练时序注意力分布阶段。

首先，确定损失函数阶段。

示例性的，对于训练集中的任意一个训练视频，假设该训练训练视频包含N个视频帧，该训练视频的描述结果为S，定义S＝(w₁，w₂，...，w_N)为包含N个词语的句子，v＝(v₁，v₂，...v_N)为该训练视频的视觉特征序列。利用待训练编码器对该视觉特征训练进行编码，输出结果为z＝(z₁，z₂，...z_N)，其中，z_i表示表示第i帧的状态向量，1≤i≤N，z＝(z₁，z₂，...z_N)蕴含了在自由位置上卷积采样的视频帧之间的上下文信息。随后，z＝(z₁，z₂，...z_N)经过平均池化后输入到待训练解码器中生成训练视频的描述结果。此外，本发明实施例利用时序注意力机制来精确定位视觉特征序列中和生成词语相关的部分，进一步提升结果。损失函数如下：

E(v，S)＝-logPr(S|v)；

给定输入视频的情况下，该损失函数也可以称之为负对数概率函数，该函数中的Pr表示概率(probablily)。利用联合概率计算的链式法则，上述的对数概率可以表示为：

本发明实施例中，解码过程中使用前向卷积操作生成描述结果。由于解码器中不存在递归依赖关系，并且所有的真实单词在训练过程中都可以得到，所以联合概率Pr(S|v)可以进行并行计算，从而克服基于递归神经网络的解码器无法并行计算的弊端。

其次，训练编码器阶段。

本发明实施例中，编码器的作用是将视觉序列作为输入然后产生编码了语义内容的状态向量。其中，编码器为时序可变形卷积编码器，该时序可变形编码器通过改进常规的时序卷积，能够学习到训练视频中的场景、动态等。同时，编码器中的前向卷积结果使得计算能够并行化。另外，为了能够对训练视频的长序列关系进行建模，编码器中叠加了时序可变形卷积块。

本发明实施例中，利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器时，对于训练集中的每一个训练视频，对该训练视频的每一个视频帧提取视觉特征，得到训练视觉特征训序列，该训练视频包含N帧，不同训练视频对于的N可以相同或不同，则训练视频对应的视觉特征序列为v＝(v₁，v₂，...v_N)，将该训练视觉特征序列输入到包含L个卷积块的待训练编码器中，对该待训练编码器包含的L个卷积块进行训练，得到编码器。对待训练编码器包含L个卷积块进行训练，得到编码器的过程中，根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，其中，所述第l-1个卷积块的输出结果为第l个卷积块的输出结果为/>所述/>表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果，然后，根据所述L个卷积块中各卷积块的输出结果，对所述L个卷积块进行训练，得到所述编码器。示例性的，请参照图3A，图3A是本发明基于卷积神经网络的视频描述方法中一个时序可变形卷积块的示意图。

请参照图3A，令为t时刻的子序列，X_t，可变形卷积块是指输入为以X_t为中心，将X_t左右两边的部分均作为输入，如图中的X_t-k/2到X_t+k/2。

本发明实施例中，时序可变形卷积的计算分为偏移量计算过程和偏移过程。示例性的，可参见图3B。

图3B是本发明基于卷积神经网络的视频描述方法中对时序可变形卷积块中偏移过程的示意图。请参照图3B，偏移量计算过程中，首先，将p^l-1中的子序列输入至所述第l个卷积块中的第一一维卷积，得到所述子序列中每个采样位置的偏移量，所述第l个卷积块的卷积核大小为k，所述p^l-1中的子序列为r_n表示所述R中的第n个元素。第l个卷积块的第一一维卷积可以用变换矩阵/>和偏置/>表示，输入为X中个k元素的拼接，而输出为k个偏移/>

其中，Δrⁱ中的第n个元素表示子序列X中第n个卷积采样位置的时序偏移量。

其次，利用得到的偏移量对原来的卷积采样位置进行偏移并输入到另外一个一维卷积中得到输出。该过程中，根据所述p^l-1中的子序列的每个采样位置的偏移量，对所述p^l-1中的子序列中对应的采样位置进行偏移，得到中间子序列；将所述中间子序列输入至所述第l个卷积块的第二一维卷积，得到所述第二一维卷积的输出结果；根据所述第二一维卷积的输出结果和门线性单元，确定所述第l个卷积块的输出结果。其中，第二一维卷积的输出结果为：

其中，表示第二一维卷积中的变换矩阵，/>表示偏置。应为时序偏移通常为分数，所以/>可以通过时序线性插值来得到：

其中，表示序列中的任意位置，s枚举了p^l-1中所有的整数位置，以及插值函数B(a，b)＝max(0，1-|a-b|)。

除此之外，本发明实施例中还利用门线性单元(gated linear units，GLU)来使得梯度更容易反向传递。给定时序可变卷积的输出GLU通过一个简单的门机制来计算输出：

其中，A，B∈R^Dr和表示点乘，σ(B)表示A中每一个元素和当前上下文相关的概率。引入残差连接后，使得编码器能够有更深的结构。所以，输出/>最终等于：

通过叠加若干个时序可变形卷积块，编码器最后得到输出z＝(z₁，z₂，...z_N)，其中，z_i∈R^Dr表示第i个视频帧的编码特征，即状态向量。

再次，训练解码器阶段。

一种可行的实现方式中，训练解码器时，对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

示例性的，另解码器的输出为z＝(z₁，z₂，...z_N)，对该输出进行平均池化得到在每一个时刻的计算中，将/>和训练视频对应的描述结果中的词语的嵌入表达式拼接在一起作为第一个偏移卷积块的输入。假设共有M个偏移卷积块，定义第m个卷积块的输出结果为/>第m-1个的输出结果为/>所述/>表示第m个卷积块第t时刻的输出结果；根据所述M个卷积块中各卷积块的输出结果，对所述M个卷积块进行训练，得到所述解码器。

本实施例中，通过将第m-1个偏移卷积块的输出q^m-1的子序列输入到一个卷积核大小为k的一维卷积和非线性单元GLU，然后加上残差分支输入，得到t时刻输出和编码器不同的时，因为解码器在解码过程中无法得到未来信息，所以输入的q^m-1子序列为示例性的，可参见图3C，图3C是本发明实施例提供的一种基于卷积神经网络的视频描述方法中解码器的卷积块的举例示意图。一个卷积块的输入为t-k时刻到t时刻之间的内容。解码器中每个偏移卷积块操作如下：

其中，和/>表示第m个卷积块的变换矩阵和偏置。通过叠加若干个偏移卷积块，最后得到输出序列h＝(h₁，h₂，...，h_N)，其中，h_t∈R^Df表示t时刻的解码器的状态。

最后，训练时序注意力分布阶段。

一种可行的实现方式中，所述将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果之后，还包括：根据所述训练视频的各视频帧的所述状态向量和所述解码器，确定注意力分布函数。

通常情况下，解码过程中t时刻生成的词语仅仅和输入的视频内容的某些部分相关，简单的通过平均池化将编码器输出的状态向量压缩成一个全局特征，可能会破坏时频中的时序结构并引入不相关的视频内容。本发明实施例中，为避免该弊端，引入时序注意力机制，在每一个时刻t，利用时序注意力机制，根据状态向量和解码器的输出结果计算一个归一化的注意力分布：

其中，表示a^t中的第i个元素，W_a∈R^1xDa、W_z∈R^DaxDr、W_h∈R^DaxDf分别表示变换矩阵。λ^t∈R^N表示归一化注意力分布，/>表示第i帧状态向量z_i的注意力概率。基于注意力概率分布，通过加权和的方式计算/>

/>

然后，将进一步的通过一个线性变换然后和h_t结合在一起，用于生成下一个词语。

再请参照图2，确定注意力分布函数时，平均池化结果自下往上经过3层偏移卷积块后，得到中间向量，如图中粗黑实线部分所示，该中间向量被返回输入指时序注意力模块，时序注意力模块利用该中间向量和之前的状态向量，得到时序注意力值并返回给解码器，如图中的粗黑虚线所示，解码器根据时序注意力值和中间向量生成描述结果。

图4为本发明实施例提供的一种视频描述装置的结构示意图，该视频描述装置可以通过软件和/或硬件的方式实现。如图4所示，该视频描述装置100包括：

提取模块11，用于对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列

编码器模块12，用于将所述视觉特征序列中的视觉特征依次输入编码器，得到各所述视频帧的状态向量，所述状态向量包含对应视频帧的上下文语义；

池化模块13，用于确定各所述视频帧的状态向量的平均池化结果；

解码器模块14，用于将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的。

图5为本发明实施例提供的另一种视频描述装置的结构示意图，该视频描述装置在上述图4的基础上，进一步的，还包括：时序注意力模块15；

时序注意力模块15，用于在所述解码器模块14确定所述待描述视频的中间向量，所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的之后，根据所述中间向量和所述状态向量，确定时序注意力值；

所述解码器模块14，用于根据所述时序注意力机制和所述中间向量，获得与所述待描述视频对应的描述结果。

再请参照图5，上述的视频描述装置进一步的，还包括：

训练模块16，用于在所述提取模块11对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器和/或所述解码器，所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。

一种可行的设计中，所述训练模块16，在利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器时，对于所述训练集中的每一个训练视频，对所述训练视频的每一视频帧提取视觉特征，得到训练视觉特征序列，所述训练视频包含N帧，所述训练视觉特征序列v＝(v₁，v₂，……v_N)；将所述训练视觉特征序列输入到待训练编码器，所述待训练编码器包含L个卷积块，L≥2且为整数；对所述待训练编码器包含L个卷积块进行训练，得到所述编码器。

一种可行的设计中，所述训练模块16，在对所述待训练编码器包含L个卷积块进行训练，得到所述编码器时，根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，其中，所述第l-1个卷积块的输出结果为第l个卷积块的输出结果为/>所述/>表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果；根据所述L个卷积块中各卷积块的输出结果，对所述L个卷积块进行训练，得到所述编码器。/>

一种可行的设计中，所述训练模块16，在根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果时，将所述p^l-1中的子序列输入至所述第l个卷积块中的第一一维卷积，得到所述子序列中每个采样位置的偏移量，所述第l个卷积块的卷积核大小为k，所述p^l ^-1中的子序列为 r_n表示所述R中的第n个元素；根据所述p^l-1中的子序列的每个采样位置的偏移量，对所述p^l-1中的子序列中对应的采样位置进行偏移，得到中间子序列；将所述中间子序列输入至所述第l个卷积块的第二一维卷积，得到所述第二一维卷积的输出结果；根据所述第二一维卷积的输出结果和门线性单元，确定所述第l个卷积块的输出结果。

一种可行的设计中，所述训练模块16，对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

一种可行的设计中，所述训练模块16，在对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器时，用于根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，其中，所述第m-1个的输出结果为第m个卷积块的输出结果为/>所述/>表示第m个卷积块第t时刻的输出结果；根据所述M个卷积块中各卷积块的输出结果，对所述M个卷积块进行训练，得到所述解码器。

一种可行的设计中，所述训练模块16，在根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果时，用于将所述q^m-1中的子序列和所述训练视频对应的描述结果中t时刻之前的词语输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果，所述第m个卷积块的卷积核大小为k，所述q^m-1中的子序列为

一种可行的设计中，所述训练模块16，在将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果之后，还用于根据所述训练视频的各视频帧的所述状态向量和所述解码器，确定注意力分布函数。

本发明实施例提供的视频描述装置，其实现原理和技术可参见上述方法实施例，在此不再赘述。

图6为本发明实施例提供的一种电子设备的结构示意图。如图6所示，该电子设备200包括：

至少一个处理器21和存储器22；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的基于卷积神经网络的视频描述方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该电子设备200还包括通信部件23。其中，处理器21、存储器22以及通信部件23可以通过总线24连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的基于卷积神经网络的视频描述方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述基于卷积神经网络的视频描述方法。

在上述的实施例中，应该理解到，所描述的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extendedIndustry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于卷积神经网络的视频描述方法，其特征在于，包括：

确定各所述视频帧的状态向量的平均池化结果；

将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的；基于卷积神经网络的编码器-解码器包括编码器、解码器、平均池化和时序注意力机制；其中，所述编码器由若干个时序可变形的卷积块堆叠而成，解码器由若干个偏移卷积块堆叠而成；

所述对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，还包括：对于训练集中的每一个训练视频，对所述训练视频的每一视频帧提取视觉特征，得到训练视觉特征序列，所述训练视频包含N帧，所述训练视觉特征序列v＝(v₁，v₂，……v_N)；将所述训练视觉特征序列输入到待训练编码器，所述待训练编码器包含L个卷积块，L≥2且为整数；对所述待训练编码器包含L个卷积块进行训练，得到所述编码器；

对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

2.根据权利要求1所述的方法，其特征在于，所述将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，包括：

根据所述中间向量和所述状态向量，确定时序注意力值；

3.根据权利要求1或2所述的方法，其特征在于，

所述训练集包含至少一对训练视频和所述训练视频对应的描述结果。

4.根据权利要求1所述的方法，其特征在于，所述对所述待训练编码器包含L个卷积块进行训练，得到所述编码器，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器，包括：

根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，其中，所述第m-1个卷积块的输出结果为第m个卷积块的输出结果为所述/>表示第m个卷积块第t时刻的输出结果；

7.根据权利要求6所述的方法，其特征在于，所述根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果之后，还包括：

9.一种基于卷积神经网络的视频描述装置，其特征在于，包括：

解码器模块，用于将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的；基于卷积神经网络的编码器-解码器包括编码器、解码器、平均池化和时序注意力机制；其中，所述编码器由若干个时序可变形的卷积块堆叠而成，解码器由若干个偏移卷积块堆叠而成；

所述装置还包括：

训练模块，用于在所述提取模块对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器和/或所述解码器；

所述训练模块，在利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器时，对于所述训练集中的每一个训练视频，对所述训练视频的每一视频帧提取视觉特征，得到训练视觉特征序列，所述训练视频包含N帧，所述训练视觉特征序列v＝(v₁，v₂，……v_N)；将所述训练视觉特征序列输入到待训练编码器，所述待训练编码器包含L个卷积块，L≥2且为整数；对所述待训练编码器包含L个卷积块进行训练，得到所述编码器；

所述训练模块，对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

10.根据权利要求9所述的装置，其特征在于，还包括：

11.根据权利要求9或10所述的装置，其特征在于，

12.根据权利要求9所述的装置，其特征在于，

所述训练模块，在对所述待训练编码器包含L个卷积块进行训练，得到所述编码器时，根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，其中，所述第l-1个卷积块的输出结果为第l个卷积块的输出结果为/>所述/>表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果；根据所述L个卷积块中各卷积块的输出结果，对所述L个卷积块进行训练，得到所述编码器。

13.根据权利要求12所述的装置，其特征在于，

所述训练模块，在根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果时，将所述p^l-1中的子序列输入至所述第l个卷积块中的第一一维卷积，得到所述子序列中每个采样位置的偏移量，所述第l个卷积块的卷积核大小为k，所述p^l-1中的子序列为 r_n表示所述R中的第n个元素；根据所述p^l-1中的子序列的每个采样位置的偏移量，对所述p^l-1中的子序列中对应的采样位置进行偏移，得到中间子序列；将所述中间子序列输入至所述第l个卷积块的第二一维卷积，得到所述第二一维卷积的输出结果；根据所述第二一维卷积的输出结果和门线性单元，确定所述第l个卷积块的输出结果。

14.根据权利要求9所述的装置，其特征在于，

所述训练模块，在对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器时，用于根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果，其中，所述第m-1个的输出结果为第m个卷积块的输出结果为所述/>表示第m个卷积块第t时刻的输出结果；根据所述M个卷积块中各卷积块的输出结果，对所述M个卷积块进行训练，得到所述解码器。

15.根据权利要求14所述的装置，其特征在于，

所述训练模块，在根据第m-1个卷积块的输出结果，确定第m个卷积块的输出结果时，用于将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果，所述第m个卷积块的卷积核大小为k，所述q^m-1中的子序列为

16.根据权利要求15所述的装置，其特征在于，

所述训练模块，在将所述q^m-1中的子序列输入至所述第m个卷积块中的一维卷积，得到所述第m个卷积块的输出结果之后，还用于根据所述训练视频的各视频帧的所述状态向量和所述解码器，确定注意力分布函数。