CN108648746B

CN108648746B - 一种基于多模态特征融合的开放域视频自然语言描述生成方法

Info

Publication number: CN108648746B
Application number: CN201810460398.5A
Authority: CN
Inventors: 袁家斌; 杜晓童
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2020-11-20
Anticipated expiration: 2038-05-15
Also published as: CN108648746A

Abstract

一种基于多模态特征融合的开放域视频自然语言描述方法，采用深度卷积神经网络模型提取RGB图像特征和灰度光流图片特征，加入视频时空信息和音频信息，组成多模态特征系统，提取C3D特征时，动态调整输入到三维卷积神经网络中的连续帧块间的覆盖率，解决训练数据大小的限制问题，并且对可处理的视频长度具有鲁棒性，音频信息弥补视觉上的不足，最后针对多模态特征融合。本发明使用数据规范化方法将各模态特征值规范在一定范围内，解决了特征值差异问题；采用PCA方法降低个别模态特征维度，并有效的保留99％的重要信息，解决了因维度过大导致训练失败的问题，有效的提高了生成的开放域视频描述语句的准确性，并且对于场景、人物、事件都具有较高的鲁棒性。

Description

一种基于多模态特征融合的开放域视频自然语言描述生成方法

技术领域

本发明属于视频分析技术，具体涉及一种基于多模态特征融合的开放域视频自然语言描述生成方法。

背景技术

随着近年来智能移动设备的普及，大量的网络平台视频数据亟待分析管理，因此研究视频的自然语言描述技术有着很大的实用价值。社交平台如微博、微信上的违法视频层出不穷，而现在主要依靠群众举报等人工方式来检举控制这类视频的传播，效果不佳。除了控制黄色暴力反动等违法视频的传播，维护网络安全性之外，视频的语言描述也可以为盲人等有着视觉障碍的人群提供读懂视频的智能化技术。由于这些迫切的应用需求，面向开放域视频的自然语言描述生成技术的研究获得了广泛的关注。

2015年Venugopalan等人提出了S2VT模型(Venugopalan S,Rohrbach M,DonahueJ,et al.Sequence to Sequence--Video to Text[C]//IEEE International Conferenceon Computer Vision.IEEE,2015:4534-4542.)用于自动生成开放域视频的自然语言描述，是该领域一个里程碑式的模型，它是第一个端到端模型，将特征序列翻译为单词序列，因此又叫sequence to sequence。首先使用VGGNet提取视频RGB图像特征，使用AlexNet提取灰度光流图片特征，然后将这些特征按照视频帧序列的顺序依次输入到语言模型中，语言模型是由双层LSTM单元组成的，上层LSTM用于特征的编码(encoder)，下层LSTM用于自然语言的解码(decoder)，生成一系列单词组成最后的描述语句。S2VT模型在一个标准视频描述数据集上取得了29.8％的METEOR值，高于之前所有的模型结果，但是S2VT只考虑了视频的图像特征和光流特征这两个方面，对于视频的其他信息未过多研究。

后来也有一些模型被提出，比如双向LSTM模型(Yi B,Yang Y,Shen F,etal.Bidirectional Long-Short Term Memory for Video Description[C]//ACM onMultimedia Conference.ACM,2016:436-440.)，多尺度多实例模型(Xu H,Venugopalan S,Ramanishka V,et al.A Multi-scale Multiple Instance Video Description Network[J].Computer Science,2015,6738:272-279.)但都没有考虑除图像和光流之外的其他特征。2017年Pasunuru等人提出多任务模型(Pasunuru R,Bansal M.Multi-Task VideoCaptioning with Video and Entailment Generation[J].2017.)，在无监督视频预测任务(编码)和语言生成任务(解码)之间共享参数，取得了目前最好的结果，METEOR值为36％，但该模型只使用了RGB图像特征。

发明内容

发明目的：通过对视频自然语言描述领域现有的技术进行分析，可以看出在视频分析特征提取阶段，广泛使用的是基于CNNs提取的RGB图像特征和光流特征。为了克服上述技术的不足，本发明结合深度神经模型提取的RGB特征、光流特征，3D卷积神经网络提取的时空特征，以及视频所包含的音频特征这4种特征，提出了一种基于多模态特征融合的开放域视频自然语言描述生成方法，提升了描述语句的准确度，并且本发明鲁棒性高，可以应对任何场景下的各类人事物的描述任务

技术方案：基于多模态特征融合的开放域视频自然语言描述生成方法的主要关键技术包括多模态特征提取技术以及特征融合技术这俩大部分。下面先简单介绍本发明实施的软硬件环境，然后具体分为四部分介绍技术方案。

硬件基础：一台配有4块GPU卡的服务器，包括Tesla c2050、Tesla k20m，本发明实验在多GPU上进行。

软件基础：Caffe、Tensorflow、python、opencv、cuda等机器学习领域常用软件。

一种基于多模态特征融合的开放域视频自然语言描述生成方法，包括：

步骤一：采用ResNet提取RGB图像特征和光流特征，

使用ImageNet图片分类数据库预训练ResNet模型，该模型包含150个卷积层conv后接1个池化层pool5和1个全连接层fc1000，然后用其提取视频RGB图像特征，使用TVL1算法计算视频连续俩帧之间的光流值，得到对应的二维矩阵，然后数值化该矩阵为灰度图片，即所需的光流图片，再使用UCF-101视频行为分类库预训练ResNet模型，并用其提取光流图片的特征值；

步骤二：三维卷积神经网络提取C3D特征，

根据语言模型输入特点调整三维卷积神经网络模型，提取Spatio-temporal特征，即C3D特征作为视频多模态表示之一，C3D特征是由三维卷积神经网络模型提取的，使用三维卷积核，在进行卷积操作时，输入是三维的，在Sport-1M视频行为分类库上进行预训练；

步骤三：音频特征提取，

收集每段视频所对应的音频信息，调整音频特征提取模型，使其适应自然语言模型的输入，将其作为视频多模态特征表示之一，在freesound数据库上进行预训练，freesound数据库为一个免费开源的音频片段数据库，使其更准确的识别不同生物的声音；

步骤四：多模态特征融合，

对于前三个部分提取到的4种特征，即RGB图像特征、光流图片特征，C3D特征，音频特征，使用PCA方法，将C3D特征和光流特征进行降维，使用数据标准化方法，将C3D特征值规范在[-50,50]，与其他模态特征值的范围保持一致，最终得到视频最为全面的特征表示，即多模态特征表示，作为语言模型的输入。

进一步地，步骤一中使用的ResNet模型为152层，对于RGB图像特征，选取池化层pool5之后的全连接层fc1000的输出作为最终结果，即每张RGB图像特征可以表示为1000维的特征向量，视频RGB图像特征的最终表示为N×1000的二维矩阵，N表示语言模型输入维度，即特征编码阶段LSTM的个数，每个LSTM单元对应一个特征向量，将N维特征向量按顺序输入到语言模型中。

进一步地，N为80，对于总长度不足80帧的视频，多余维补零。

进一步地，步骤一中提取光流信息时，假设点A第T帧上的位置是(x₁,y₁)，而在第T+1帧上的位置是(x₂,y₂)，这两帧图片之间的A点的移动可以表示为(μ_x,ν_y)＝(x₂,y₂)-(x₁,y₁)，即为A点的光流，速度是矢量，所以每点的光流表示为两个值，μ和ν，因此的包含n帧的视频可以提取到2×(n-1)张光流灰度图片，从光流图片中提取光流特征，依次选取fc1000层的输出结果，将描述同一个速度的两张光流图片提取的结果合并得为一个2000维的特征向量，视频光流特征的最终表示为N×2000的二维矩阵。

进一步地，步骤二中的三维卷积核大小为k×k×d，将所有视频帧大小都调整为H×W，提取连续L帧输入到三维卷积神经网络模型中，这样第一次卷积后输出大小为(H-k+1)×(W-k+1)×(L-d+1)，根据视频帧数量自动调整选取视频帧块时的覆盖率，对于越短的视频，覆盖率越大，以使不同长度的视频提取出来的特征维度适应后面的语言模型。

进一步地，选取三维卷积神经网络中fc6层的输出作为结果，fc6层输出的是一个4096维向量，这样视频C3D特征的最终表示为N×4096的二维矩阵。

进一步地，步骤三中根据视频源，在网站上下载完整视频，然后剪辑提取音频信息，根据音频长度自动设置mid-term窗口大小和步长为L/N，使不同长度的视频对应的音频特征维度都适应于语言模型。

进一步地，选取mid-term特征作为结果，视频的音频特征最终表示为N×68的二维矩阵。

进一步地，步骤四中C3D特征值在[-1×10⁷,1×10⁷]。

进一步地，步骤四中将光流和C3D特征降维到N×N，实验表明即使这样大幅度降维也可以保留99％的重要信息，且此方法有效的解决了训练爆炸的问题。

有益效果：

1.增加了多模态特征提取的鲁棒性和速度，很大程度上提升了单独使用RGB图像特征、光流图像特征、C3D特征以及音频特征生成描述语言的准确性。

2.将4种特征结合时生成的自然语言描述语句的准确度最高，取得了近年来在MSVD数据集上最好的结果，部分直观性实验结果见说明书中的表格。

3.使用数据规范化方法将各模态特征值规范在一定范围内，解决了特征值差异问题；采用PCA方法降低个别模态特征维度，并有效的保留99％的重要信息，解决了因维度过大导致训练失败的问题，有效的提高了生成的开放域视频描述语句的准确性，并且对于场景、人物、事件都具有较高的鲁棒性。

附图说明

图1是本发明的模型结构图；

图2是本发明提出的变长C3D特征提取概念示意图。

具体实施方式

如图1所示的基于多模态特征融合的开放域视频自然语言描述模型，主要分为两大模型，一是特征提取模型，二是自然语言模型，本发明主要研究特征提取模型，将分为四大部分介绍。

第一部分：ResNet152提取RGB图像特征和光流特征，

(1)RGB图像特征的提取，

使用ImageNet图像数据库预训练ResNet模型，ImageNet包含12000000张图像，分为1000个类别，可以使模型更准确识别开放域视频中的物体，神经网络模型的批处理大小设置为50，刚开始的学习率设为0.0001，MSVD(Microsoft Research Video DescriptionCorpus)数据集包含1970段视频剪辑，时长大约在8到25秒之间，对应8万5千个视频描述语句。采用预训练好的ResNet提取MSVD数据集中所有视频的RGB特征，首先从视频V中提取80帧作为RGB图像的代表帧，提取策略为平均提取，若不足80，则全部提取，然后将这些代表帧按序输入到神经网络模型中，对于每一帧，我们选取pool5层之后的fc1000层的输出作为最终结果，因此，视频V的RGB图像特征最终表示为80×1000的二维矩阵。

将视频数据集划分为训练集和测试集，也就是划分特征表示集，使用1570段视频对应的RGB特征训练自然语言模型，然后在剩下的400个测试集上得出结果，最后计算结果与测试集对应的正确描述语句间的METEOR值，值越大表示语句间相似度越高，即准确度越高。

在实验中，本发明将自然语言模型的输入维度设置为80，这样可以在保证硬件允许范围内提取尽可能多的代表帧，对于总长度不足80帧的视频，多余维补零。

(2)光流特征的提取

使用UCF-101视频行为分类数据库预训练ResNet模型，UCF-101含有13320段视频，分为101个行为类，可以使模型更准确的识别不同的行为，网络模型的参数设置同RGB中的神经网络模型。

首先提取视频的光流信息，我们假设点A在时间T，或者说是第T帧上的位置是(x₁,y₁)，而在T+1帧的位置是(x₂,y₂)，因此，这俩帧图片之间的A点的移动可以表示为(μ_x,ν_y)＝(x₂,y₂)-(x₁,y₁)，即为A点的光流，速度是矢量，所以每点的光流表示为俩个值，μ和ν，因此的包含n帧的视频可以提取到2×(n-1)张光流灰度图片。

然后从光流图片中提取光流特征，依次选取fc1000层的输出结果，将描述同一个速度的俩张光流图片提取的结果合并得为一个2000维的特征向量，因此，一个视频V的光流特征最终表示为80×2000的二维矩阵。同样的，将1970段视频所对应的特征划分为1570个训练，400个测试。

第二部分：三维卷积神经网络提取C3D(Convolution 3-dimension)特征，

三维卷积核大小为k×k×d，实验中设置k＝d＝3，将所有视频帧大小都调整为H×W，实验中设置H＝W＝128，，提取连续L帧，实验中设置L＝16帧输入到三维卷积神经网络模型中，这样第一次卷积后输出大小为(H-k+1)×(W-k+1)×(L-d+1)，神经网络模型最终输出的是一个一维向量f，即每一个长度为L的帧块可以提取一个特征向量f，根据自然语言模型的设置，每段视频需要提取80个帧块。如图2所示，本发明提出的变长C3D特征提取概念，即根据视频总长度自动调整连续俩次输入到三维卷积神经网络模型中的视频帧块间的覆盖率，上层视频包含更多的视频帧，则减少视频帧块提取时的覆盖率。本发明方法可以根据视频帧数量自动调整选取视频帧块时的覆盖率，对于越短的视频，覆盖率越大，使得不同长度的视频提取出来的特征维度都可以适应后面的语言模型。覆盖帧长

C可以为负，表示俩个连续帧块之间不仅不重叠，还隔着C帧，实验证明本发明中的变长方法对结果准确度起到了很大的提升效果。

使用Sport-1M(运动行为分类数据库)视频库预训练3D卷积神经网络模型，Sport-1M含有487种运动标签，共计50000段视频。将MSVD数据集中所有视频输入到模型中提取C3D特征。我们选取已经被证明比三维卷积神经网络中fc7层和prob层准确性更高的fc6层的输出作为结果，这样一段视频V的C3D特征最终表示为80×4096的二维矩阵。同样的，将1970段视频所对应的特征划分为1570个训练，400个测试。

第三部分：音频特征提取，

本发明是在MSVD数据集上进行的验证实验，官方只提供消音的视频数据，所以我们根据视频源，在YouTube网站上下载完整视频，然后剪辑提取音频信息。现存于网络上的视频只有1600段，即对应的音频也只有1600段，数据量较其他模态特征少一点，但不影响证明音频特征在视频智能分析领域的重要性。常用的音频特征是34维的，其中包括13维的梅尔频率倒谱系数(MFCC)，MFCC是通过将音频信号转换为梅尔频率并对其进行倒谱分析而获得的。此外，还有过零率、短时能量、短时平均幅度差、基于FFT的语谱图、短时功率谱密度等21维特征向量。

将音频A输入到特征提取模型，本发明根据音频长度自动设置mid-term窗口大小和步长为L/N，使不同长度的视频对应的音频特征维度都适应于语言模型。最后会产生两种特征结果，一个是短期(short-term)特征，另一个是中期(mid-term)特征。mid-term特征实际两种short-term特征的统计量的结合，即平均值和标准差。为了获得更多的信息，我们选择了结合34个音频特征的平均值和标准差的mid-term特征，该34个音频特征包括13个MFCC。这样，一段音频描述符用80×64的特征矩阵表示。由于音频数据量较少，我们选取1200段音频对应的特征进行训练，剩下的400个特征进行测试，减少训练集数目，更能验证音频特征的有效性。

第四部分：多模态特征融合

本发明提出的一种基于多模态特征融合的方法就是将上述三个部分中得到的四种模态特征，即RGB图像特征、光流特征、C3D特征以及音频特征，进行有效的融合，得到最适合描述视频全局的特征。由于每种特征都是通过单独的模型提取的，特征值之间可能差异甚远，不能直接进行拼接，主要通过以下两个方面进行特征的融合处理。

(1)数据规范化

对各模态特征值进行分析发现，C3D特征值在[-1×10⁷,1×10⁷]范围内，远远大于其余特征值范围[-50,50]，如果不使用数据规范化方法，将会导致融合RGB特征和C3D特征的效果还不如单独使用RGB和C3D特征，因此使用数据规范化方法将C3D特征值映射到小范围中，在此不能将数据范围直接缩小到[0,1]，实验证明这样会大大降低生成句子的准确性，而规范到[-50,50]可以有效提高特征融合后的效果。

(2)数据降维

数据规范化后就可以考虑将这些特征组合到一起了，但由于维度的增大，可能会发生梯度爆炸，导致训练失败，因此使用PCA(Principal Components Analysis)方法对光流特征和C3D特征进行降维。PCA即主成分分析，就是求协方差矩阵的特征值和特征向量，然后做数据转换，它的特点是最终特征向量的维度一定不会大于样本数量，即生成的二维矩阵的列数小于等于行数。本发明将光流和C3D特征降维到80×80，实验表明即使这样大幅度降维也可以保留99％的重要信息。

表1

表1是本发明方法的实验验证结果，从表中可以看出，本发明采用的方法取得了更好的实验结果，也验证了发明的有效性。

设计大量实验将这些特征排列组合，分析不同融合方法下特征的优劣，最终找到最佳的特征组合即为我们的多模态特征。通过本方法可以看出，将所有模态特征融合到一起可以得到最为准确的描述语句，这种融合特征从多个角度全面的描述视频，提高了开放域视频特征提取的鲁棒性，提升了描述语句的准确性，不同场景下的人事物都可以取得很好的效果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，包括：

步骤一：采用ResNet提取RGB图像特征和光流特征，

使用ImageNet图片分类数据库预训练ResNet模型，该模型包含150个卷积层conv后接1个池化层pool5和1个全连接层fc1000，然后用其提取视频RGB图像特征，使用TVL1算法计算视频连续两帧之间的光流值，得到对应的二维矩阵，然后数值化该矩阵为灰度图片，即所需的光流图片，再使用UCF-101视频行为分类库预训练ResNet模型，并用其提取光流图片的特征值；

步骤二：三维卷积神经网络提取C3D特征，

根据语言模型输入特点调整三维卷积神经网络模型，提取Spatio-temporal特征，即C3D特征作为视频多模态特征表示之一，C3D特征是由三维卷积神经网络模型提取的，使用三维卷积核，在进行卷积操作时，输入是三维的，在Sport-1M视频行为分类库上进行预训练；三维卷积核大小为k×k×d，将所有视频帧大小都调整为H×W，提取连续L帧输入到三维卷积神经网络模型中，这样第一次卷积后输出大小为(H-k+1)×(W-k+1)×(L-d+1)，其中，k＝d＝3，H＝W＝128，L＝16，根据视频帧数量自动调整选取视频帧块时的覆盖率，对于越短的视频，覆盖率越大，以使不同长度的视频提取出来的特征维度适应后面的语言模型，选取三维卷积神经网络中fc6层的输出作为结果，fc6层输出的是一个4096维向量，这样视频C3D特征的最终表示为N×4096的二维矩阵，N为80；

步骤三：音频特征提取，

收集每段视频所对应的音频信息，调整音频特征提取模型，使其适应自然语言模型的输入，将其作为视频多模态特征表示之一，在freesound数据库上进行预训练，使其识别不同生物的声音；

步骤四：多模态特征融合，

对于前三个部分提取到的4种特征，即RGB图像特征、光流图片特征，C3D特征，音频特征，使用PCA方法，将C3D特征和光流特征进行降维，使用数据标准化方法，将C3D特征值规范在[-50,50]，与其他模态特征值的范围保持一致，多模态特征表示，作为语言模型的输入。

2.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，步骤一中使用的ResNet模型为152层，对于RGB图像特征，选取池化层pool5之后的全连接层fc1000的输出作为最终结果，即每张RGB图像特征表示为1000维的特征向量，视频RGB图像特征的最终表示为N×1000的二维矩阵，N表示语言模型输入维度，即特征编码阶段LSTM的个数，每个LSTM单元对应一个特征向量，将N维特征向量按顺序输入到语言模型中。

3.根据权利要求2所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，对于总长度不足80帧的视频，多余维补零。

4.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，步骤一中提取光流信息时，假设点A第T帧上的位置是(x₁,y₁)，而在第T+1帧上的位置是(x₂,y₂)，这两帧图片之间的A点的移动表示为(μ_x,ν_y)＝(x₂,y₂)-(x₁,y₁)，即为A点的光流，速度是矢量，所以每点的光流表示为两个值，μ和ν，因此的包含n帧的视频提取到2×(n-1)张光流灰度图片，从光流图片中提取光流特征，依次选取fc1000层的输出结果，将描述同一个速度的两张光流图片提取的结果合并得为一个2000维的特征向量，视频光流特征的最终表示为N×2000的二维矩阵。

5.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，步骤三中根据视频源，在网站上下载完整视频，然后剪辑提取音频信息，根据音频长度自动设置mid-term窗口大小和步长为L/N，使不同长度的视频对应的音频特征维度都适应于语言模型。

6.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，选取mid-term特征作为结果，视频的音频特征最终表示为N×68的二维矩阵。

7.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，步骤四中C3D特征值在[-1×10⁷,1×10⁷]。

8.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法，其特征在于，步骤四中将光流和C3D特征降维到N×N。