CN110210358A

CN110210358A - 一种基于双向时序图的视频描述生成方法和装置

Info

Publication number: CN110210358A
Application number: CN201910439203.3A
Authority: CN
Inventors: 彭宇新; 张俊超
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-06

Abstract

本发明涉及一种基于双向时序图的视频描述生成方法和装置。该方法包括以下步骤：对视频提取视频帧并进行对象检测，每个视频帧检测得到若干个对象；对视频对象构建双向时序图，包含正向图和反向图，计算得到对象的双向时序轨迹；对视频帧和对象提取局部特征，构建特征聚合模型，通过对局部特征进行聚合得到表达能力强的聚合特征；构建解码模型生成自然语言描述，并在生成过程中利用层次化注意力机制自适应区分不同视频帧和不同对象实例的作用。本发明能够通过双向时序图建模视频对象的时序轨迹，能够有效表达视频对象的时序变化信息，并且利用局部特征聚合提高视频特征的表达能力，建模细粒度的视频时空信息，从而提高了视频描述生成的准确率。

Description

一种基于双向时序图的视频描述生成方法和装置

技术领域

本发明涉及视频描述生成技术领域，具体涉及一种基于双向时序图的视频描述生成方法和装置。

背景技术

随着互联网和多媒体技术的迅速发展，互联网上的视频数量急剧增长。统计数据表明，YouTube视频分享网站上用户每天观看的视频时长超过10亿小时，用户每分钟上传的视频时长超过400个小时。根据美国CISCO公司预测，到2022年，全球视频流量将占据IP流量的82％。面对海量规模且快速增长的互联网视频数据，如何对其内容进行有效的分析和理解，对满足用户的信息获取需求具有重要的意义。

视频描述生成是指计算机自动生成描述视频内容的自然语言语句，是计算机视觉和自然语言处理两个领域的交叉研究方向，可应用于视频管理、视频检索等方面，具有重要的研究和应用价值。早期研究者们采用基于语言模板的方法进行视频描述生成，首先从视频中检测对象、动作、事件等视觉内容，用单词进行表示，然后使用预定义的语言模板将上述单词连接成语句。代表方法是Thomason等人2014年发表在COLING会议的文献“Integrating Language and Vision to Generate Natural Language Descriptions ofVideos in the Wild”中提出的因素图模型(Factor Graph Model)，该模型利用文本语料库将检测到的单词适配到SVOP(Subject-Verb-Object-Place)元组中，即学习可能的主语、谓语、宾语和地点，然后根据语言模板生成连贯的自然语言描述。然而，基于语言模板的方法依赖人工定义的语言模板，限制了语句的多样性。

随着深度学习技术的发展，循环神经网络(Recurrent Neural Network，RNN)展现出良好的序列建模能力，并成功应用于机器翻译等自然语言处理技术中。受此启发，研究者们将RNN引入视频描述生成，利用其进行语言建模，提出了一系列基于序列学习的方法。基于序列学习的方法采用编码器-解码器结构，编码器利用卷积神经网络(ConvolutionalNeural Network，CNN)或者RNN对视频进行特征学习并建模视频内容，解码器利用RNN构建语言模型，将视频内容转换成自然语言描述。基于序列学习的方法能够从语料库中直接学习语句结构，生成具有灵活结构的自然语言描述，更符合人类的语言表达习惯。Venugopalan等人2015年发表在ACL会议上的文献“Translating Videos to NaturalLanguage Using Deep Recurrent Neural Networks”中提出的方法在编码阶段使用CNN提取视频帧特征，在解码阶段使用长短时记忆(Long Short Term Memory，LSTM)网络生成语句。该方法使用平均池化(Mean Pooling)策略，将多个视频帧特征平均融合成一个视频特征。然而平均池化策略忽略了视频序列的时序结构信息，因此Yao等人2015年在ICCV会议上发表的“Describing Videos by Exploiting Temporal Structure”文献中提出利用时序注意力机制建模视频的时序结构。时序注意力为每个视频帧学习一个注意力权重，表示每个视频帧对视频描述生成的重要程度，以此利用视频的时序结构信息促进视频描述生成。Yang等人2017年在ACM MM会议上发表的文献“Catching the Temporal Regions-of-Interest for Video Captioning”进一步利用了视频帧的空间显著性区域。该方法提出一种空间注意力机制，在语句生成过程中自适应地选择视频帧的空间显著性区域，通过空间显著性区域建模减少视频帧的背景区域对语句生成的负面影响，从而提高视频描述生成的效果。还有一些研究者利用视频的多模态特点，综合利用视觉、音频等多模态的信息进行视频描述生成。代表方法是Xu等人2017年在ACM MM会议上发表的文献“Learning MultimodalAttention LSTM Networks for Video Captioning”中提出的MA-LSTM方法。该方法在编码阶段对视频提取使用视频帧、运动、音频三种模态的特征，并在解码阶段使用注意力机制区分不同模态的特征对语句生成的不同作用。

对于视频描述生成而言，视频中的对象以及对象的时序变化能够提供关键的信息，因为它们构成了视频的主要内容。上述方法都是针对视频帧整体或者显著性区域进行建模和描述，它们忽略了视频中具体对象的时序变化。另一方面，视频特征的表达能力对于视频描述生成也至关重要。上述方法通常采用CNN的全连接层或全局池化层提取视频特征，忽略了视频帧中细粒度的空间信息，因此限制了视频描述生成的效果。

发明内容

针对现有技术的不足，本发明提出了一种基于双向时序图的视频描述生成方法和装置，一方面通过建立时序方向和逆时序方向的双向时序图，捕捉视频中主要对象的时序轨迹，另一方面对视频对象进行局部特征聚合，学习表达能力更强的视频对象特征。本发明以双向时序图建模视频对象以及对象时序变化，并通过局部特征聚合充分建模视频细粒度的时空信息，提高了视频描述生成的效果。

为达到以上目的，本发明采用的技术方案如下：

一种基于双向时序图的视频描述生成方法，用于分析理解视频内容并生成自然语言描述，包括以下步骤：

(1)对训练集和测试集的视频提取视频帧，并对视频帧进行对象检测，每个视频帧检测得到若干个对象。

(2)对步骤(1)中检测得到的对象构建双向时序图，计算对象的时序轨迹。

(3)对步骤(1)中得到的视频帧和对象提取局部特征，输入到由循环神经网络构成的特征聚合模型中，并结合步骤(2)中得到的时序轨迹学习视频帧和对象的聚合特征。

(4)利用注意力机制分别对步骤(3)中得到的视频帧和对象的聚合特征进行融合，并利用循环神经网络构建解码模型，生成自然语言描述。

进一步，上述一种基于双向时序图的视频描述生成方法，所述步骤(1)中，提取训练集和测试集视频的视频帧，并利用对象检测模型对视频帧进行对象检测，每个视频帧检测得到若干个对象。

进一步，上述一种基于双向时序图的视频描述生成方法，所述步骤(2)中，双向时序图的节点表示步骤(1)中检测得到的对象，边表示不同视频帧的对象之间的相似度。两帧之间相似度最大的两个对象属于同一对象实例，把不同视频帧中属于同一对象实例的对象连接起来，就构成了该对象的时序轨迹。双向时序图包含正向图和反向图两个子图，正向图沿时序方向构建而成，反向图沿逆时序方向构建而成。根据正向图和反向图分别可以得到正向时序轨迹和反向时序轨迹，两个方向的时序轨迹具有互补性。

进一步，上述一种基于双向时序图的视频描述生成方法，所述步骤(3)中，用卷积神经网络的卷积层对步骤(1)中得到的视频帧和对象提取特征图(Feature Map)，以此作为局部特征。每个局部特征对应视频帧和对象中的局部块，表示细粒度的空间信息。

进一步，上述一种基于双向时序图的视频描述生成方法，所述步骤(3)中，用循环神经网络构建特征聚合模型，在学习过程中对视频帧和对象的局部特征进行聚类，并通过累积局部特征到聚类中心的差异学习聚合特征。特征聚合模型按照时序顺序分别处理视频帧和对象的局部特征，其中对象的时序顺序由步骤(2)中计算的时序轨迹得到。

进一步，上述一种基于双向时序图的视频描述生成方法，所述步骤(4)中，构建层次化注意力机制，先利用时序注意力对多个视频帧学习注意力权重，区分不同视频帧的重要程度，再利用对象注意力对多个对象实例学习注意力权重，区分不同对象实例的作用。用学习得到的注意力权重对视频帧和对象的聚合特征进行加权融合。

进一步，上述一种基于双向时序图的视频描述生成方法，所述步骤(4)中，用循环神经网络构建解码模型，以视频帧特征和对象特征为输入，每个时间步输出一个单词，所有单词连接起来即构成语句。

与上面方法对应地，本发明还提供一种基于双向时序图的视频描述生成装置，其包括：

视频帧提取模块，负责对视频提取视频帧；

对象检测模块，负责对提取的视频帧进行对象检测，每个视频帧检测得到若干个对象；

双向时序图构建模块，连接所述对象检测模块，负责对检测得到的对象构建双向时序图，计算对象的时序轨迹；

特征聚合模块，连接所述视频帧提取模块、所述对象检测模块和所述双向时序图构建模块，负责对视频帧和对象区域提取局部特征，并构建特征聚合模型，利用局部特征和对象的时序轨迹学习聚合特征；

特征融合模块，连接所述特征聚合模块，负责利用注意力机制分别对多个视频帧和多个对象的聚合特征进行融合；

解码模块，连接所述特征融合模块，负责构建解码模型，根据融合后的特征生成自然语言描述。

本发明的效果在于：与现有方法相比，本发明能够建模视频中的对象以及对象的时序轨迹，并通过局部特征聚合建模视频细粒度的时空信息，学习表达能力强的视频特征，提高视频描述生成的准确率。

本发明之所以具有上述发明效果，其原因在于：一方面对视频对象构建双向时序图，能够从时序方向和逆时序方向捕捉视频对象的时序轨迹，以此建模视频的显著性对象以及对象的时序演化信息。另一方面构建特征聚合模型，能够在学习过程中对视频帧和对象的局部特征进行聚类，并聚合成表达能力强的聚合特征，并利用层次化注意力机制区分不同视频帧和不同对象实例对视频描述生成的作用，提高了视频描述生成的准确率。

附图说明

图1是本发明的基于双向时序图的视频描述生成方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于时空注意力的视频分类方法，其流程如图1所示，具体包含以下步骤：

(1)对视频提取视频帧，并进行对象检测

对训练集和测试集的视频提取视频帧，并利用对象检测模型对视频帧进行对象检测。本实施例中每个视频提取T个视频帧，每帧检测出N个对象，即选取对象检测模型得分最高的N个对象作为检测结果。

(2)对视频对象构建双向时序图，计算对象的时序轨迹

对步骤(1)中检测得到的对象建立双向时序图，节点表示对象，边表示不同帧对象之间的相似度。本发明根据对象的外观和空间位置信息计算相似度，公式如下：

其中s(i,j)表示第i个对象和第j个对象之间的相似度。s_app(i,j)表示第i个对象和第j个对象的外观相似度，通过计算两个对象特征的欧氏距离得到：

其中x表示对象特征。s_iou(i,j)表示第i个对象和第j个对象空间区域的交并比(Intersection over Union，IoU)，计算公式如下：

其中area表示对象的空间区域，如果两个对象属于同一对象示例，其IoU应该接近于1。s_area(i,j)表示第i个对象和第j个对象空间区域的面积比，计算公式如下：

其中A表示对象空间区域的面积。

双向时序图包含两个子图，分别是沿时序方向建立的正向图和沿逆时序方向建立的反向图。正向图以视频序列的起始帧(起始时刻的视频帧)中的对象为参考节点，与其他视频帧中的对象计算相似度。反向图以视频序列的结束帧(结束时刻的视频帧)中的对象为参考节点，与其他视频帧中的对象计算相似度。

根据双向时序图，本发明通过最近邻方法将视频帧的对象向参考视频帧(起始帧或结束帧)的对象对齐，即将不同视频帧中的属于同一对象实例的对象对齐起来，以此计算对象的时序轨迹。以正向图为例，起始帧的对象记为r_i ⁽¹⁾，第t帧中与r_i ⁽¹⁾相似度最大的对象记为那么两者属于同一对象实例，其中i,j＝1,…,N，t＝2,…,T。由此将T个视频帧中的对象连接起来，构成对象的时序轨迹。根据正向图和反向图，每个对象分别得到正向、反向两个时序轨迹，它们具有互补性。

(3)对视频帧和对象提取局部特征，进行局部特征聚合

本实施例中利用卷积门限循环神经单元(Convolutional Gated RecurrentUnit，C-GRU)构建特征聚合模型，以视频帧和对象的局部特征为输入，学习表达能力强的聚合特征。

首先利用卷积神经网络对视频帧和对象提取卷积层特征图，作为视频帧和对象的局部特征，分别记为X＝{x_t}，其中H、W、D分别表示特征图的高、宽和通道(Channel)数。局部特征能够建模视频帧和对象的细粒度空间信息。

下面以对象局部特征聚合为例，说明特征聚合的学习过程，计算公式如下：

其中表示第t帧中对象的聚合特征。c_k∈R^D表示局部特征的第k个聚类中心，a_t(h,w,k)表示局部特征到聚类中心c_k的软分配系数(Soft Assignments)。公式(5)的含义即是对局部特征进行聚类，并累积局部特征到每个聚类中心的差异，进而得到聚合特征。聚合特征表示了空间局部特征的统计信息，并且具有较高的维度，因此具有较强的表达能力。

公式(5)中a_t和c_k都是可学习的参数，其中a_t通过C-GRU学习得到，公式如下：

其中W和U表示卷积核，*表示卷积操作，⊙表示逐元素相乘，σ表示Sigmoid函数。

通过上述局部特征聚合过程，分别得到视频帧和对象的聚合特征，记为VL＝{vl_t}，

(4)利用注意力机制分别对视频帧和对象的聚合特征进行融合，输入到解码模型中生成自然语言描述

本实施例中利用门限循环神经单元(Gated Recurrent Unit，C-GRU)构建解码模型，用于生成自然语言描述，并在语句生成过程中利用层次化注意力机制自适应区分不同视频帧和不同对象的作用。

层次化注意力机制包含时序注意力和对象注意力两种注意力机制，时序注意力用于区分不同视频帧的作用，对象注意力进一步区分不同对象实例的作用。时序注意力的计算公式为：

其中W_att、U_att表示权重参数，b_att表示偏置参数，均初始化为随机值，并在模型训练中进行学习。h_l-1表示解码模型在第l-1时间步的隐状态，β_lt表示学习到的时序注意力权重。利用β_lt对多个视频帧中同一对象实例的特征进行加权融合，即可得到特征对象注意力的计算公式为：

其中表示权重参数，表示偏置参数，均初始化为随机值，并在模型训练中进行学习。h_l-1表示解码模型在第l-1时间步的隐状态，表示学习到的注意力权重。利用对不同对象实例的特征进行加权融合，即可得到特征另外，利用时序注意力对视频帧特征vl_t进行融合，即可得到特征

将上述得到的视频帧特征和对象特征输入到解码模型中，由解码模型在每个时间步预测并生成单词，连接多个单词组成语句。

下面的实验结果表明，与现有方法相比，本发明的基于双向时序图的视频描述生成方法，可以取得更高的准确率。

本实施例采用了MSVD数据集。该数据集共有1970个视频和大约8000英文语句，平均每个视频40条语句。其中1200个视频作为训练集，100个视频作为验证集，670个视频作为测试集。该数据集是视频描述生成任务广泛采用的数据集，包含了运动、饮食、动物、音乐等多种主题，具有较大的挑战性，有助于证明本方法的有效性。

现有方法一：Zhang等人2017年发表在CVPR会议上的文献“Task-Driven DynamicFusion:Reducing Ambiguity in Video Description”中提出的方法。

现有方法二：Wu等人2018年发表在IJCAI会议上的文献“Multi-modal CirculantFusion for Video-to-Language and Backward”中提出的方法。

现有方法三：Xu等人2018年发表在IEEE TIP期刊上的文献“Sequential VideoVLAD:Training the Aggregation Locally and Temporally”中提出的方法。

本发明：本实施例的方法。

实验采用BLEU@4指标来评测视频描述生成的准确性。BLEU@4是指生成语句和人工标注语句的四元词组(4-grams)匹配比率，BLEU@4值越高，说明视频描述生成的结果越好。

从表1可以看出，本发明取得了更好的视频描述生成结果。现有方法不能建模视频中具体对象时序变化，导致其视频描述生成的结果低于本发明。本发明构建双向时序图捕捉视频对象的时序轨迹，建模视频中具体对象的时序变化信息，并对视频对象进行局部特征聚合，充分建模视频细粒度的时空信息，提高了视频描述生成的准确率。

表1.与现有方法的对比实验结果

方法	准确率
		现有方法一	0.458
现有方法二	0.465
		现有方法三	0.510
本发明	0.569

本发明另一实施例提供一种基于双向时序图的视频描述生成装置，其包括：

视频帧提取模块，负责对视频提取视频帧；

特征聚合模块，连接所述所述视频帧提取模块、对象检测模块和所述双向时序图构建模块，负责对视频帧和对象区域提取局部特征，并构建特征聚合模型，利用局部特征和对象的时序轨迹学习聚合特征；

本发明中的对象检测模型可以采用RCNN、Mask RCNN等多种模型；用于提取局部特征的卷积神经网络可以采用AlexNet、GooLeNet和ResNet等；解码模型可以采用GRU、LSTM等多种循环神经网络。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于双向时序图的视频描述生成方法，包括以下步骤：

(1)对视频提取视频帧并进行对象检测，每个视频帧检测得到若干个对象；

(2)对检测得到的对象构建双向时序图，计算对象的时序轨迹；

(3)对视频帧和对象区域提取局部特征，并构建特征聚合模型，利用局部特征和对象的时序轨迹学习聚合特征；

(4)利用注意力机制分别对多个视频帧和多个对象的聚合特征进行融合，并构建解码模型生成自然语言描述。

2.如权利要求1所述的方法，其特征在于，所述步骤(1)对每个视频提取T个视频帧，对每个视频帧进行对象检测，取检测得分最高的N个对象作为对象检测结果。

3.如权利要求1所述的方法，其特征在于，所述步骤(2)中双向时序图建立在不同视频帧之间，图的节点表示视频对象，图的边表示不同视频帧对象之间的相似度。

4.如权利要求3所述的方法，其特征在于，根据对象的外观和空间区域信息计算所述相似度：

其中s(i,j)表示第i个对象和第j个对象之间的相似度，s_app、s_iou、s_area分别表示两个对象的外观相似度、空间区域交并比和面积比，计算公式如下：

其中i、j、p、q表示对象的编号，x表示对象特征，L₂表示两个对象特征的欧氏距离，area表示对象的空间区域，A表示对象空间区域的面积。

5.如权利要求1所述的方法，其特征在于，所述步骤(2)中双向时序图包含两个子图，即沿时序方向建立的正向图和沿逆时序方向建立的反向图；正向图以起始帧为参考帧，计算该帧对象和其他视频帧对象的相似度；反向图以结束帧为参考帧，计算该帧对象和其他视频帧对象的相似度；根据双向时序图，利用最近邻方法计算所有视频帧中与参考帧对象属于同一对象实例的对象，将其按照时序顺序连接起来得到对象的时序轨迹；所述最近邻方法选取相似度最大的边的两个节点作为同一对象实例。

6.如权利要求1所述的方法，其特征在于，所述步骤(3)对视频帧和对象提取卷积神经网络的卷积层特征图，以此作为局部特征；并利用循环神经网络构建特征聚合模型，分别对视频帧和对象的局部特征进行聚合，学习得到视频帧和对象的聚合特征；聚合特征的计算公式如下：

其中x∈R^H×W×D表示局部特征，H、W、D分别表示特征图的高、宽、通道数，c_k表示第k个聚类中心，a(h,w,k)表示局部特征x(h,w)到聚类中心c_k的软分配系数。

7.如权利要求1所述的方法，其特征在于，所述步骤(4)中构建层次化注意力机制，包含时序注意力和对象注意力，首先利用时序注意力为每个视频帧计算注意力权重，对同一对象实例在多个视频帧中的聚合特征进行加权融合，然后利用对象注意力机制为每个对象实例计算注意力权重，对多个对象实例的聚合特征进行融合。

8.如权利要求7所述的方法，其特征在于，所述时序注意力权重的计算公式如下：

其中W_att、U_att表示权重参数，b_att表示偏置参数，h_l-1表示解码模型在第l-1时间步的隐状态，vl_t表示第t个视频帧对应的聚合特征。β_lt表示学习到的时序注意力权重。

9.如权利要求7所述的方法，其特征在于，所述对象注意力权重的计算公式如下：

其中表示权重参数，表示偏置参数，h_l-1表示解码模型在第l-1时间步的隐状态，表示第i个对象实例的聚合特征，表示学习到的对象注意力权重。

10.一种基于双向时序图的视频描述生成装置，其特征在于，包括：

视频帧提取模块，负责对视频提取视频帧；