CN107909014A

CN107909014A - 一种基于深度学习的视频理解方法

Info

Publication number: CN107909014A
Application number: CN201711053056.3A
Authority: CN
Inventors: 苏育挺; 刘瑶瑶; 刘安安
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-04-13

Abstract

一种基于深度学习的视频理解方法：1、通过训练获取基于LSTM网络的模型：使用C3D算法取得图像特征；使用PCA算法进行降维处理，将特征向量的维数由4096降至128，并进行时域混叠和归一化，得到归一化后的特征向量；使用MSR‑VTT数据库在LSTM网络中进行训练，得到LSTM网络模型；2、通过基于LSTM网络的模型，得到待测视频图像序列的语句信息：使用C3D算法取得待测视频图像序列的特征向量；使用PCA算法进行降维处理，并进行时域混叠和归一化，得到归一化后的特征向量；通过基于LSTM网络的模型，得到待测视频图像序列的输出的语句。本发明可以提高现有模型的准确率，原有模型可以基于新的数据进行进一步的优化。

Description

一种基于深度学习的视频理解方法

技术领域

本发明涉及一种视频理解方法。特别是涉及一种基于深度学习的视频理解方法。

背景技术

随着互联网的快速发展，人类逐渐进入大数据的时代。网络上存在着大量的图片和视频数据。这些数据的来源也各不相同，绝大部分数据没有相关的文字描述。这样，我们大规模地处理这些数据时，就有着相当大的困难。对于人类而言，根据图片或者视频的内容写出一段对应的描述性文字是很容易的，但对于计算机进行这样的任务就具有相当大的难度。图片/视频描述(image/video caption)这一课题就是由此进入了人们的视野。这是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片/视频为一段描述文字。最初的视频描述问题是用于道路监控系统之中的，Kollnig等人在1994年的文章中就提出了用一系列动词和短句替代数字来表述车辆的活动情况。这类问题被称为逆好莱坞问题(inverse Hollywood problem)。当时，人们处理这类问题的思路是将图像语义分为底层特征层，对象层和概念层。先识别出图像中关键的对象，再通过环境和对象预测发生的事情，最后整合为一句话。

近年来，随着大数据和深度网络在机器翻译领域的应用，图片和视频描述这一研究课题迎来了新的突破。Subhashini Venugopalan等人在2015ICCV上所发表的《Sequenceto Sequence–Video to Text》(如Venugopalan S,Rohrbach M,Donahue J,etal.Sequence to Sequence--Video to Text[C]//IEEE International Conference onComputer Vision.IEEE,2015:4534-4542)引入LSTM网络来处理视频描述问题，使得深度学习的方法在该领域得以应用。

研究图片和视频描述问题，一方面为互联网上大量无标签的图片和视频数据的处理、整合和利用提供了可能；一方面也为使用深度网络处理语言文字类问题，实现深度网络中图像视频数据与文字数据的相互转换提供了思路。

从实际的应用角度而言，图片视频描述的研究，可以应用于大量监控视频的处理，如道路交通监控、机场和火车站的安全监控等等。亦可以用于视觉障碍人士获取信息。随着社交网络的发展，YouTube、Facebook等社交媒体上有用户上传的大量图片视频，很多都是未经描述的。使用图片和视频描述技术对这些数据进行初步处理有利于这些数据进一步的分类和整合。

从科研角度而言，当下这一课题结合了深度学习方法和语言学知识，是一类多学科融合性问题。这一问题的研究有利于为深度网络在其他领域的应用提供参考，也对机器翻译等其他语言学问题的研究提供了新的思路。使用卷积神经网络处理二维图片数据的研究已经很多了，但是使用深度网络处理视频数据的方法还处于有待提高的阶段。视频描述的研究对于如何整合时域信息以达到有效地利用提供了大量的参照样本。

发明内容

本发明所要解决的技术问题是，提供一种基于深度学习的视频理解方法，能够基于深度学习网络进行端到端的优化，并基于视频的时间维度信息和图像信息进行处理，大幅提高视频理解输出信息的有效性和准确率。

本发明所采用的技术方案是：一种基于深度学习的视频理解方法，包括如下步骤：

1)通过训练获取基于LSTM网络的模型，包括：

(1)使用C3D算法取得图像特征；

(2)使用PCA算法进行降维处理，将特征向量的维数由4096降至128，并进行时域混叠和归一化，得到归一化后的特征向量；

(3)使用MSR-VTT数据库在LSTM网络中进行训练，得到LSTM网络模型，具体是对每个视频图像序列x归一化后的特征向量，按视频图像序列x分组，将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络，训练得到基于LSTM网络的模型；

2)通过基于LSTM网络的模型，得到待测视频图像序列的语句信息，包括：

(1)使用C3D算法取得待测视频图像序列的特征向量；

(3)通过基于LSTM网络的模型，得到待测视频图像序列的输出的语句。

步骤1)中的第(1)步包括：对于每一个输入的视频图像序列x＝{x₁,x₂,…,x_t,…,x_n}，其中，x₁,x₂,…,x_t,…,x_n分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像，将视频图像序列x的所有帧分为8帧一组的图片组，每8帧输出一次C3D的fc7层数据作为特征提取结果，得到k个4096维的特征向量，其中k为n÷8向下取整。

步骤1)中的第(2)步包括：

对MSR-VTT数据库中的所有视频共有m个对象特征向量，特征是4096维，建立一个4096×m的矩阵作为样本；求所述样本的协方差矩阵，得到一个4096×4096的协方差矩阵；然后求出所述协方差矩阵的特征值和特征向量，有4096个特征值和4096个特征向量，根据特征值的大小，取前128个特征值所对应的特征向量，构成一个4096×128的特征矩阵，这个矩阵就是需要求的特征矩阵，用第(1)步所提取的所有视频图像序列x的特征向量乘上4096×128的特征矩阵，维数就下降为128维；将每个视频图像序列x中的相邻两个特征向量对应项相加，即第1项与第2项对应项，第2项与第3项对应项相加，依次进行，再进行归一化，得到归一化后的特征向量。

步骤2)中的第(1)步包括：对于待测视频图像序列x₀＝{x₀₁,x₀₂,…,x_0t,…,x_0l}，x₀₁,x₀₂,…,x_0t,…,x_0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像，将待测视频图像序列x₀的所有帧分为8帧一组的图片组，每8帧输出一次C3D的fc7层数据作为特征提取结果，得到p个4096维的特征向量，其中p为n÷8向下取整。

步骤2)中的第(2)步包括：对待测视频图像序列x₀生成的p×4096维特征向量，使用步骤1)的第(2)步中取得的4096×128的特征矩阵，进行矩阵乘法，得到p×128维特征向量，将待测视频图像序列x₀中的相邻两个特征向量对应项相加，即第1项与第2项对应项，第2项与第3项对应项相加，依次进行，再进行归一化，得到归一化后的特征向量。

步骤2)中的第(3)步包括：将得到的p×128维特征向量输入LSTM网络，使用步骤1)的第(3)步中的得到的基于LSTM网络的模型，得到待测视频图像序列x₀对应的输出的语句。

本发明的一种基于深度学习的视频理解方法，具有的有益效果是：

1、本方法可以基于给出的已标定数据实现端到端的优化，随着数据量的提升，可以提高现有模型的准确率，并且原有模型可以基于新的数据进行进一步的优化；

2、本方法在处理视频信息的时候考虑了时间维度的信息，这是原先其他方法所不具备的，使本方法在处理视频信息时的准确度大幅提高；

3、本文的方法结合了C3D和LSTM两种深度学习算法，实现了从视频信息到文本信息的多模态转换。

附图说明

图1是本发明基于深度学习的视频理解方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的一种基于深度学习的视频理解方法做出详细说明。

如图1所示，本发明的一种基于深度学习的视频理解方法，包括如下步骤：

1)通过训练获取基于LSTM网络的模型，包括：

(1)使用C3D算法取得图像特征，包括：对于每一个输入的视频图像序列x＝{x₁,x₂,…,x_t,…,x_n}，其中，x₁,x₂,…,x_t,…,x_n分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像，将视频图像序列x的所有帧分为8帧一组的图片组，每8帧输出一次C3D的fc7层数据作为特征提取结果，得到k个4096维的特征向量，其中k为n÷8向下取整。

(2)使用PCA算法进行降维处理，将特征向量的维数由4096降至128，并进行时域混叠和归一化，得到归一化后的特征向量，具体是在MSR-VTT数据库中进行，MSR-VTT数据库为ACM Multimedia 2016的Microsoft Research-Video to Text(MSR-VTT)Challenge。该数据库包含10000个视频片段(video clip)，被分为训练，验证和测试集三部分。每个视频片段都被标注了大概20条英文句子。此外，MSR-VTT还提供了每个视频的类别信息(共计20类)，这个类别信息算是先验的，在测试集中也是已知的。同时，视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标，分别为：METEOR,BLEU@1-4,ROUGE-L,CIDEr。

该第(2)步具体包括：

(1)使用C3D算法取得待测视频图像序列的特征向量；包括：对于待测视频图像序列x₀＝{x₀₁,x₀₂,…，x_0t,…,x_0l}，x₀₁,x₀₂,…,x_0t,…,x_0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像，将待测视频图像序列x₀的所有帧分为8帧一组的图片组，每8帧输出一次C3D的fc7层数据作为特征提取结果，得到p个4096维的特征向量，其中p为n÷8向下取整。

(2)使用PCA算法进行降维处理，将特征向量的维数由4096降至128，并进行时域混叠和归一化，得到归一化后的特征向量；包括：对待测视频图像序列x₀生成的p×4096维特征向量，使用步骤1)的第(2)步中取得的4096×128的特征矩阵，进行矩阵乘法，得到p×128维特征向量，将待测视频图像序列x₀中的相邻两个特征向量对应项相加，即第1项与第2项对应项，第2项与第3项对应项相加，依次进行，再进行归一化，得到归一化后的特征向量。

(3)通过基于LSTM网络的模型，得到待测视频图像序列的输出的语句，包括：将得到的p×128维特征向量输入LSTM网络，使用步骤1)的第(3)步中的得到的基于LSTM网络的模型，得到待测视频图像序列x₀对应的输出的语句。

Claims

1.一种基于深度学习的视频理解方法，其特征在于，包括如下步骤：

1)通过训练获取基于LSTM网络的模型，包括：

(1)使用C3D算法取得图像特征；

(1)使用C3D算法取得待测视频图像序列的特征向量；

2.根据权利要求1所述的一种基于深度学习的视频理解方法，其特征在于，步骤1)中的第(1)步包括：对于每一个输入的视频图像序列x＝{x₁,x₂,...,x_t,...,x_n}，其中，x₁,x₂,...,x_t,...,x_n分别对应视频图像序列x中第1帧、第2帧、…、第t帧、…、第n帧图像，将视频图像序列x的所有帧分为8帧一组的图片组，每8帧输出一次C3D的fc7层数据作为特征提取结果，得到k个4096维的特征向量，其中k为n÷8向下取整。

3.根据权利要求1所述的一种基于深度学习的视频理解方法，其特征在于，步骤1)中的第(2)步包括：

4.根据权利要求1所述的一种基于深度学习的视频理解方法，其特征在于，步骤2)中的第(1)步包括：对于待测视频图像序列x₀＝{x₀₁,x₀₂,...,x_0t,...,x_0l}，x₀₁,x₀₂,...,x_0t,...,x_0l分别对应视频图像中第1帧、第2帧、…、第t帧、…、第l帧图像，将待测视频图像序列x₀的所有帧分为8帧一组的图片组，每8帧输出一次C3D的fc7层数据作为特征提取结果，得到p个4096维的特征向量，其中p为n÷8向下取整。

5.根据权利要求1所述的一种基于深度学习的视频理解方法，其特征在于，步骤2)中的第(2)步包括：对待测视频图像序列x₀生成的p×4096维特征向量，使用步骤1)的第(2)步中取得的4096×128的特征矩阵，进行矩阵乘法，得到p×128维特征向量，将待测视频图像序列x₀中的相邻两个特征向量对应项相加，即第1项与第2项对应项，第2项与第3项对应项相加，依次进行，再进行归一化，得到归一化后的特征向量。

6.根据权利要求1所述的一种基于深度学习的视频理解方法，其特征在于，步骤2)中的第(3)步包括：将得到的p×128维特征向量输入LSTM网络，使用步骤1)的第(3)步中的得到的基于LSTM网络的模型，得到待测视频图像序列x₀对应的输出的语句。