CN107256221B - 基于多特征融合的视频描述方法 - Google Patents
基于多特征融合的视频描述方法 Download PDFInfo
- Publication number
- CN107256221B CN107256221B CN201710281305.8A CN201710281305A CN107256221B CN 107256221 B CN107256221 B CN 107256221B CN 201710281305 A CN201710281305 A CN 201710281305A CN 107256221 B CN107256221 B CN 107256221B
- Authority
- CN
- China
- Prior art keywords
- video
- word
- sentence generation
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Abstract
本发明公开了一种基于多特征融合的视频描述方法,其特征在于:1)通过融合传统CNN特征和SIFT流特征提取视频的深层时空特征;2)根据步骤1)提取的深层时空特征,采用加入以平均池化特征作为视频整体特征的S2VT句子生成模型生成相应的句子描述;3)采用word2vec词向量替换one‑hot vector词表征优化步骤2)中的句子生成模型。本方法优点是通过多特征融合,能更好地提取到更加鲁棒的时空特征,同时在句子生成模型中加入平均池化特征,以便视觉信息与单词间建立更多联系,最后采用word2vec词向量方法替换one‑hot vector词表征,在单词与单词之间建立更多的联系,有效提高视频描述性能。
Description
技术领域
本发明涉及视频描述技术,尤其是一种基于多特征融合的视频描述方法。
背景技术
概念-基本概念:视频描述是指根据给定的视频的视觉信息,用一个自然语言的句子将视频中的语义信息描述出来。
目的和意义:视频描述的目的是从视频信息中学习到视频中包含的语义信息,并用自然语言描述出来。它在许多领域具有广泛的应用价值,如基于语义内容的视频检索和视频标注、描述性的视频服务、盲人导航和自动化视频监控等。近年来,伴随互联网与多媒体等技术的飞速发展,视觉数据的数量呈指数级的增长,从视觉信息中学习到语义信息的技术已经逐渐成为一种新的需求。目前从单幅图像中学习到语义信息的技术已经日益成熟,但相对于图像而言,视频中包含有更加复杂的目标、场景和行为,这对学习视频中的语义信息提出了更高的要求,我们迫切需要一种能够生成表征视频内容且符合语言规范的句子的视频描述方法。
方法-基本过程:尽管视频描述的方法不同,但基本过程大致可以分为两个部分。第一部分是通过卷积神经网络(Convolutional Neural Network,CNN)提取视频的特征。第二部分是根据提取到的视频特征采用循环神经网络(Recurrent Neural Network,RNN)生成视频句子描述。
方法-视频特征提取:近年来,随着机器学习、深度学习研究的发展,CNN在目标识别、行为识别、人脸识别等任务中都表现出了很好的性能。目前大多数方法都是采用现有的CNN网络模型提取视频帧的空间特征。关于时间特征(运动特征)提取方面,Hom等人提出了光流法来提取相邻帧之间的运动特征。该方法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻之间物体的运动信息的一种方法。David Lowe等人提出SIFT流方法提取不同相邻帧之间的运动特征。通过利用图像的SIFT特征的局部描述,生成原始图像对应的SIFT特征图,经过时间的变化,对应的特征之间会有相对位置上的变化,这种变化构成了流场,形成SIFT流,Tran等人提出了3-D CNN模型。该模型通过在CNN的卷积层进行3D卷积,以捕捉在时间和空间都具有区分性的特征。
方法-视频句子生成模型:近些年,随着自然语言处理的发展,机器翻译中的一些思想可以很好地应用到视频句子生成中,Donahue等人提出LRCNs模型,它使用CNN提取视频的视觉特征,再使用叠加的双层LSTM生成图像的句子描述。Yu等人提出h-RNN模型,其中层次RNN包含了句子生成器和段落生成器。Pan等人提出了LSTM-E的RNN句子生成模型,并结合3-D CNN构成最终的模型。Venugopalan等人提出了在文本数据集上做迁移学习,并加入了DCC模型。现有的视频句子生成模型中单词的表示大多采用one-hot vector编码,这种编码方式比较简单,无法表示出单词与单词之间的相关性。
缺陷:就视频描述而言,主要存在三个问题。
1、现有的视频特征提取方法对时空特征表达能力不足。传统的视频特征提取方法主要跟图像特征提取方法类似,更加侧重于对空间特征的提取,而忽略了对时序特征的提取。视频中的目标随着物体运动和摄像头的移动会出现尺度的变化,光流法虽然可以获取视频中的运动信息,但是无法获取尺度不变性的特征表达。3D CNN在没有加入视觉注意机制时对视频特征提取性能的提升是有限的,而且3D CNN训练是比较耗时的。
2、视频描述的句子生成模型不能充分建立视觉信息与单词之间的联系。现有的方法在句子生成过程中大多采用某一帧的特征作为输入来建立视觉信息与单词之间的联系,而视频帧具有随机性,有些帧的特征无法很好地表现视频相关内容,而可以表征视频整体的特征就被忽略了。虽然有方法将句子生成模型的所有输入均为视频的整体特征,但是这种方法忽略了视频每一帧特有的信息。
3、视频描述的句子生成模型中采用的one-hot vector词表征方式单词之间相互独立,无法体现单词与单词之间的关联性。目前视频描述领域中大多数句子生成模型都使用one-hot vector这种单词表示方法,使得模型在生成单词阶段无法很好地考虑不同单词之间的联系。
发明内容
本发明目的是:为了解决现有视频描述方法中存在的问题,而提出一种多特征融合的视频描述方法,该方法能够更好提取到更加鲁棒的时空特征,同时在句子生成模型中加入整体特征,以便视觉信息与单词之间建立更多的联系,最后采用word2vec词向量方法替换one-hot vector词表征,在单词与单词之间建立更多的联系,从而更好的提高视频描述的性能。
本发明的技术方案是:一种基于多特征融合的视频描述方法,其特征在于:
1)视频时空特征提取
通过融合传统的CNN特征和SIFT流特征提取视频的深层时空特征;
2)句子描述的生成
根据步骤1)提取到的深层时空特征,采用加入了视频整体特征的S2VT句子生成模型生成相应的句子描述;
3)句子生成模型的优化
采用word2vec词向量替换one-hot vector词表征优化句子生成模型。
进一步的,本发明的上述步骤1)视频时空特征提取,进一步包括如下三个步骤:
(1)提取视频的空间特征
利用已有的VGG-16网络模型提取原始视频帧的fc7层特征;
(2)提取视频的时间特征
利用微调的VGG-16网络模型提取视频的SIFT流场图的fc7层特征;
(3)特征融合
分别对两者采用主成份分析(PCA)方法降维并采用连接的方式得到4096维的特征向量作为视频的特征表达,用以输入到句子生成模型中。
更进一步的,本发明中所述步骤1)视频时空特征提取的详细步骤如下:
(1)提取视频的空间特征
采用在ImageNet数据集上预训练的VGG-16网络模型,将测试数据集MSVD中的视频每隔10帧取一帧,送入到VGG-16网络模型中,提取fc7层的4096维输出作为当前帧的特征向量;
(2)提取视频的时间特征
首先在行为识别数据集UCF-101样本视频每十帧取第一帧和第三帧,并根据这两帧得到一幅SIFT流场图,并为它们打上与视频相同的标签;接着将带有标签的SIFT流场图按照2:1的比例分为训练集和验证集,并送入到VGG-16网络模型中进行网络的微调;然后在测试数据集MSVD上提取出SIFT流场图,送入到微调好的VGG-16网络模型中,提取fc7层的4096维输出作为当前帧的特征向量;
所述的SIFT流场图是指采用SIFT流方法计算相邻帧之间的SIFT流场后再将其可视化而成的图像;
(3)特征融合
将提取到的两个4096维特征向量分别采用离差标准化Min-MaxNormalization方法进行归一化,然后将归一化后的特征向量分别采用主成份分析(PCA)方法降维,得到两个2048为特征向量,最后采用向量连接的方法,得到最终的4096维特征向量作为句子生成模型的输入。
更进一步的,本发明中所述步骤2)句子描述生成中所述视频平均池化特征的加入是指在S2VT句子生成模型的编码阶段,当完成对视频帧的读取之后输入视频的平均池化特征,而所述平均池化特征的提取过程如下:
首先利用VGG-16网络模型提取出所有原始视频帧,也即RGB图像的fc7层特征,然后对所有视频帧的特征采用平均池化方法,按照如下公式:
其中vi表示提取的视频V视频帧,n表示视频V提取视频帧的数量。最终得到视频的一个平均池化特征;
与此同时,句子生成模型的解码阶段也开始工作,每次生成单词都会有视觉信息输入进来,直到输出结束标记<EOS>表示句子生成结束,生成的单词是由softmax函数确定的,按照如下公式:
每个时刻t都会计算出词汇表V中每个单词在第二层输出zt条件下的概率分布。其中y表示词汇表中的单词。在测试阶段,选择概率最大的单词y作为时刻t的单词输出。严格来讲,句子描述的生成步骤中在S2VT编码阶段加入平均池化特征作为视频整体特征也是对S2VT句子生成模型的一种优化。因此本发明中也可以说对于句子生成模型采用了两种优化方法,第一个是在句子生成模型中加入了作为视频整体特征的平均池化特征,这个是句子生成模型的一部分,可以理解为提出了一个新的句子生成模型。而第二个则是在单词表示上采用更好的单词表示方法替换原有的方法,这是在不修改句子生成模型的情况下对句子生成模型的一个优化过程,仅仅将单词表示换成了更加好的word2vec。这两种方法显然也存在先后关系的,即先提出新的句子生成模型,然后再进行优化。
更进一步的,本发明中所述步骤3)句子生成模型的优化的详细过程如下:
首先将英文wiki语料库中XML格式的文件转成TXT文件,然后通过对TXT文件进行训练处理得到语料集中所有单词的词向量表示,在得到了文本的词向量之后,将原来网络模型中的one-hot vector表示的单词向量表示替换成word2vec词向量。
本发明的优点是:
本发明以视频为研究对象,设计出了一种基于多特征融合的视频描述方法。通过多特征融合,本方法能够更好提取到更加鲁棒的时空特征,同时在句子生成模型中加入整体特征,以便视觉信息与单词之间建立更多的联系,最后采用word2vec词向量方法替换one-hot vector词表征,在单词与单词之间建立更多的联系。具体创新点如下:
1.为了提取更加鲁棒的视频的时空特征,本发明提出了一个基于传统CNN特征和SIFT流特征融合的视频特征提取方法。本方法首先利用已有的VGG-16网络模型提取原始视频帧的fc7层特征。然后利用微调的VGG-16网络模型提取视频的SIFT流场图的fc7层特征。最后分别对两者采用PCA降维并采用连接的方式得到4096维的特征向量作为视频的特征表达。实验结果充分证明了提出的方法可以提高视频描述的性能。
2.为了在视觉信息和单词之间建立更多的联系,本发明提出了在经典的S2VT句子生成模型上加入视频的整体特征。本方法在编码阶段视频帧输入结束后,输入视频的平均池化特征来辅助解码阶段,即句子生成阶段,使得在生成单词的过程中充分利用视频的视觉信息。实验结果充分证明了再句子生成模型中融入视频整体特征可以提高视频描述的性能。
3.为了在单词和单词之间建立更多的联系,本发明提出了在视频描述任务中采用word2vec取代传统的one-hot vector作为单词的表示。本方法是在英文维基百科语料库上进行训练并得到相应的词向量,并将该词向量加入到句子生成模型中。实验结果充分证明了word2vec这种词向量表示方法可以有效地提高视频描述的性能。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明方法的流程图;
图2为本发明方法的框架结构图;
图3为视频特征提取方法的框架构图;
图4为MSVD数据集上一个视频样本的原始视频帧与SIFT流场图;
图5为MSVD数据集上另一视频样本的原始视频帧与SIFT流场图;
图6为采用加入了视频整体特征的S2VT句子生成模型生成相应的句子描述步骤的框架构图;
图7为采用word2vec词向量替换one-hot vector词表征优化S2VT句子生成模型步骤的框架构图;
图8最终模型生成的句子描述与标准值。
具体实施方式
实施例:下面结合图1~图8对本发明提供的这种基于多特征融合的视频描述方法进行具体说明如下:
本发明方法的整体流程图和框架图分别如图1和图2所示,通过融合传统的CNN特征和SIFT流特征提取视频的深层时空特征。然后根据提取到的特征采用加入了整体特征的S2VT句子生成模型生成相应的句子描述。最后采用word2vec词向量替换one-hot vector词表征优化句子生成模型。
本实施例中采用BLEU和METEOR评价视频描述方法和性能,论证实验使用数据集是:MSVD(Microsoft Research Video Description),也称之为Youtube2Text。MSVD是目前在视频描述领域应用最多且得到认可的数据集,它包含有1970个短视频,这些视频均来自于YouTube。每个短视频的时间在10s-25s之间,描述一个单一的行为,并且该数据集涵盖了多种场景。每个视频对应的文本描述有100多条,包含有多种语言。实验中,本文采用的是语言为English的文本描述,每个视频大约有40条文本描述。实验中,我们选择1200个视频作为训练数据集,100个视频作为验证数据集,670个视频作为测试数据集。实验环境如下:CPU是Intel Xeon E5-2620 2.10GHz,GPU为Tesla K20(5G显存),内存为64G,硬盘为1T。所使用的操作系统为CentOS 6.7。
整个方法流程具体分为3个步骤:视频深层时空特征提取、句子描述的生成、句子生成模型的优化,如图1所示。下面对三个步骤分别具体说明:
1、视频时空特征提取
视频不同于图像,它的特征提取分为空间特征提取和时间特征提取。本发明采用传统的CNN提取原始视频帧中的空间特征,采用SIFT流提取视频中的时间特征,最后将两个特征进行融合作为句子生成模型的输入。视频时空特征提取分为下面3个步骤,具体的方法框架结合图3所示:
(1)提取视频的空间特征
在提取视频的空间特征中,本发明采用目前比较成熟的在ImageNet数据集上预训练的VGG-16网络模型。将测试数据集MSVD中的视频每隔10帧取一帧,送入到VGG-16网络模型中,提取fc7层的4096维输出作为当前帧的特征向量。
(2)提取视频的时间特征
在提取视频的时间特征中,本发明采用2004年David Lowe等人提出的SIFT流方法计算相邻帧之间的SIFT流场,并将其可视化成SIFT流场图。首先在行为识别数据集UCF-101样本视频每十帧取第一帧和第三帧,并根据这两帧得到一幅SIFT流场图,并为它们打上与视频相同的标签。接着将带有标签的SIFT流场图按照2:1的比例分为训练集和验证集,并送入到VGG-16网络模型中进行网络的微调(finetuning)。然后在测试数据集MSVD上提取出SIFT流场图,送入到微调好的VGG-16网络模型中,提取fc7层的4096维输出作为当前帧的特征向量。图4和图5分别给出了本实施例的MSVD数据集中两个样本的原始视频帧与提取出来的SIFT流场图对比示例图。图4的视频中表现的是“a man is singing”,即一个正在唱歌的男人,图4上半部分为原始视频帧,下半部分为提取出来的SIFT流场图。而图5的视频中表现的是“the toy train are moving”,即正在行驶的玩具火车,同样图5上半部分为原始视频帧,下半部分为提取出来的SIFT流场图。
(3)特征融合
以原始视频帧为输入得到的特征能够很好地表征视频的空间特征,如目标和场景,而以SIFT流场图为输入得到的特征能够很好地表征视频的时间特征。两者之间形成一个互补,组成视频的时空深层特征,可以较好地表示视频的时空特征。为了将视频的空间特征和时间特征进行融合,首先将提取到的两个4096维特征向量分别采用离差标准化(Min-Max Normalization)方法进行归一化。然后将归一化后的特征向量分别采用主成份分析(PCA)方法降维,得到两个2048为特征向量。最后采用向量连接的方法,得到最终的4096维特征向量作为句子生成模型的输入,如图3所示。
2、句子描述的生成
本发明是基于Venugopalan等人提出的S2VT句子生成模型来生成句子描述,经典的S2VT句子生成模型的编码阶段当视频帧输入结束之后,接着全部输入的是空的视觉信息。为了能够在句子生成阶段在视觉信息和单词之间建立更多的联系,在S2VT句子生成模型完成对视频帧的读取之后输入视频的平均池化特征,如图6所示。为了提取平均池化特征,首先先利用VGG-16网络模型提取出所有原始视频帧(RGB图像)的fc7层特征,然后对所有视频帧的特征进行平均池化操作,然后对所有视频帧的特征采用平均池化方法,按照如下公式:
其中vi表示提取的视频V视频帧,n表示视频V提取视频帧的数量。最终得到视频的一个平均池化特征作为视频的整体特征表达。
与此同时,句子生成模型的解码阶段也开始工作,每次生成单词都会有视觉信息输入进来,直到输出结束标记<EOS>表示句子生成结束。生成的单词是由softmax函数确定的,按照如下公式:
每个时刻t都会计算出词汇表V中每个单词在第二层输出zt条件下的概率分布。其中y表示词汇表中的单词,在测试阶段,选择概率最大的单词y作为时刻t的单词输出。每次在词汇表V中求出条件概率最大的单词y,其中zt=ht,表示t时刻第二层LSTM的输出。
实质上在上述S2VT句子生成模型生成句子描述的过程中,我们在其编码阶段加入视频整体特征来增加视觉信息与单词之间的联系严格来说也是对于S2VT句子生成模型的一种优化,即属于模型编码阶段的优化。
3、采用word2vec词向量表示方法进一步优化句子生成模型
为了能够更好地获取单词与单词之间的相似性和相关性,我们提出的基于word2vec的优化方法是在英文wiki语料库上训练,得到的单词向量替换one-hot vector,并加入到改进的S2VT句子生成模型中,方法框架如图7所示。本文采用Google公司研发出来的开源工具包word2vec来生成文本单词向量。为了训练出性能更好的文本词向量表示,本方法在英文wiki语料库上训练单词向量。英文wiki语料库大小约11G,是XML格式的文本。首先需要将XML格式的文件转成TXT文件,其中包含大约375万篇文章。然后通过对TXT文件进行训练处理得到语料集中所有单词的词向量表示。在得到了文本的词向量之后,将原来网络模型中的one-hot vector表示的单词向量表示替换成word2vec词向量。
如图8所示是本发明最终模型生成的句子描述与标准值。图中可以发现本文提出的模型可以较好地获取视频中重要的信息,尤其是运动信息。虽然对于细节方面还有不足,但是对视频的整体内容都能够较好地描述出来。
接下来对每个方法进行实验验证:
1、视频特征提取方法验证
本发明对提出的视频特征提取方法在视频描述数据集MSVDC上进行了对比实验,结果如表1所示。表1中呈现了不同的算法在MSVDC上多个指标的对比情况。其中主要包括了经典的S2VT的不同变形。该部分句子生成模型部分均采用经典的S2VT句子生成模型。实验结果表明本发明提出的方法可以提取更加鲁棒的视频特征,从而有效地提升视频描述的性能。
表1MSVD数据集上特征提取方法对比结果(单位为%)
2、S2VT句子生成模型优化方法验证
本发明对提出的句子生成模型优化方法在视频描述数据集MSVDC上进行了对比实验,对比实验结果如表2和表3所示。表2中呈现了经典的S2VT句子生成模型和加入了平均池化(meanpool)特征后的S2VT句子生成模型的对比实验。实验结果表明本发明提出的方法可以在视频的整体信息与单词之间建立更多的联系,从而有效地提升视频描述的性能。表3中呈现了在改进的句子生成模型的基础上分别采用one-hot vector词表征和word2vec词向量得到的模型的性能对比。实验结果表明word2vec比one-hotvector更加有助于视频描述性能的提高。
表2MSVD数据集上优化方法1的对比结果(单位%)
方法 | BLEU | METEOR |
RGB | 34.7 | 28.8 |
RGB+meanpool | 35.9 | 29.4 |
SIFT | 24.7 | 24.8 |
SIFT+meanpool | 30.1 | 26.2 |
RGB+SIFT | 37.8 | 30.4 |
RGBT+SIFT+meanpool | 40.5 | 30.8 |
表3MSVD数据集上优化方法2对比结果(单位%)
方法 | BLEU | METEOR |
RGB+one-hot vector | 35.9 | 29.4 |
RGB+word2vec | 37.0 | 29.7 |
SIFT | 30.1 | 26.2 |
SIFT+word2vec | 31.8 | 26.6 |
RGB+SIFT | 40.5 | 30.8 |
RGBT+SIFT+word2vec | 41.7 | 31.2 |
3、最终模型与其他方法的对比验证
表4中呈现了目前现有方法与本发明最终模型的性能的对比。用于对比的方法包括Thomason等人2014年提出的FGM方法,Venugopalan等人2015年提出的提取视频的平均池化特征作为输入的方法,Yao等人2015年提出的基于3D CNN和视觉注意机制方法,Venugopalan等人2015年提出的S2VT方法,Pan等人2015年提出的LSTM-E方法,Yu等人2015年提出的h-RNN方法和Venugopalan在2016年提出的基于文本的迁移学习和DCC模型的方法。实验结果表明,本发明的最终模型在BLEU和METEOR两个指标上比大多数方法要好,跟最好的方法相比也是具有一定竞争力的。
表4MSVD数据集上视频描述模型对比结果(单位为%)
方法 | BLEU | METEOR |
Thomason等人2014 | 13.6 | 23.9 |
Venugopalan等人2015 | 31.2 | 26.9 |
Yao等人2015 | 41.9 | 29.8 |
Venugopalan等人2015 | - | 26.2 |
Pan等人2015 | 43.6 | 32.1 |
Yu等人2015 | 44.3 | 31.1 |
Venugopalan等人2016 | 42.1 | 31.4 |
Ours | 41.7 | 31.2 |
当然上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于多特征融合的视频描述方法,其特征在于:
1)视频时空特征提取
通过融合传统的CNN特征和SIFT流特征提取视频的深层时空特征,具体步骤为:
(1)提取视频的空间特征
利用已有的VGG-16网络模型提取原始视频帧的fc7层特征;
(2)提取视频的时间特征
利用微调的VGG-16网络模型提取视频的SIFT流场图的fc7层特征;
(3)特征融合
分别对两个特征采用主成份分析方法降维并采用连接的方式得到4096维的特征向量作为视频的特征表达,作为句子生成模型的输入。
2)句子描述的生成
根据步骤1)提取到的深层时空特征,采用加入了以平均池化特征作为视频整体特征的S2VT句子生成模型生成相应的句子描述;
3)句子生成模型的优化
采用word2vec词向量替换one-hot vector词表征优化步骤2)中的句子生成模型;
2.根据权利要求1所述的基于多特征融合的视频描述方法,其特征在于所述步骤(1)、(2)、(3)的详细步骤如下:
(1)提取视频的空间特征
采用在ImageNet数据集上预训练的VGG-16网络模型,将测试数据集MSVD中的视频每隔10帧取一帧,送入到VGG-16网络模型中,提取fc7层的4096维输出作为当前帧的特征向量;
(2)提取视频的时间特征
首先在行为识别数据集UCF-101上,对样本视频每十帧取第一帧和第三帧,并根据这两帧计算得到一幅SIFT流场图,并为它们打上与视频类别相同的标签;接着将所有带有标签的SIFT流场图按照2∶1的比例划分为训练集和验证集,并送入到在ImageNet数据集上预训练过的VGG-16网络模型中对网络进行微调;然后在测试数据集MSVD上提取出SIFT流场图,送入到微调好的VGG-16网络模型中,提取fc7层的4096维输出作为当前帧的特征向量;
所述的SIFT流场图是指采用SIFT流方法计算相邻帧之间的SIFT流场后再将其可视化而成的图像;
(3)特征融合
将提取到的两个4096维特征向量分别采用离差标准化Min-MaxNormalization方法进行归一化,然后将归一化后的特征向量分别采用主成份分析方法降维,得到两个2048为特征向量,最后采用向量连接的方法,得到最终的4096维特征向量作为句子生成模型的输入。
3.根据权利要求1或2所述的基于多特征融合的视频描述方法,其特征在于所述步骤2)句子描述生成中所述视频整体特征的加入是指在S2VT句子生成模型的编码阶段,当完成对视频帧的读取之后输入视频的平均池化特征,而所述平均池化特征的提取过程如下:
首先利用VGG-16网络模型提取出所有原始视频帧,也即RGB图像的fc7层特征,然后对所有视频帧的特征采用平均池化方法,按照如下公式:
其中vi表示提取的视频V视频帧,n表示视频V提取视频帧的数量,最终得到视频的一个平均池化特征;
与此同时,句子生成模型的解码阶段也开始工作,每次生成单词都会有视觉信息输入进来,即提取的平均池化特征,直到输出结束标记<EOS>表示句子生成结束,生成的单词是由softmax函数确定的,按照如下公式:
4.根据权利要求1或2所述的基于多特征融合的视频描述方法,其特征在于所述步骤3)句子生成模型的优化的详细过程如下:
首先将英文wiki语料库中XML格式的文件转成TXT文件,然后通过对TXT文件进行训练处理得到语料集中所有单词的词向量表示,在得到了文本的词向量之后,将原来网络模型中的one-hot vector表示的单词向量表示替换成word2vec词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710281305.8A CN107256221B (zh) | 2017-04-26 | 2017-04-26 | 基于多特征融合的视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710281305.8A CN107256221B (zh) | 2017-04-26 | 2017-04-26 | 基于多特征融合的视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107256221A CN107256221A (zh) | 2017-10-17 |
CN107256221B true CN107256221B (zh) | 2020-11-03 |
Family
ID=60027893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710281305.8A Active CN107256221B (zh) | 2017-04-26 | 2017-04-26 | 基于多特征融合的视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256221B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909014A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于深度学习的视频理解方法 |
CN107944409B (zh) * | 2017-11-30 | 2020-05-08 | 清华大学 | 能够区分关键动作的视频分析方法及装置 |
CN108153853B (zh) * | 2017-12-22 | 2022-02-01 | 齐鲁工业大学 | 基于Wikipedia链接结构的中文概念向量生成方法和装置 |
CN108200483B (zh) * | 2017-12-26 | 2020-02-28 | 中国科学院自动化研究所 | 动态多模态视频描述生成方法 |
CN108509880A (zh) * | 2018-03-21 | 2018-09-07 | 南京邮电大学 | 一种视频人物行为语义识别方法 |
CN108648746B (zh) * | 2018-05-15 | 2020-11-20 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108960074B (zh) * | 2018-06-07 | 2020-09-04 | 西安电子科技大学 | 基于深度学习的小尺寸行人目标检测方法 |
CN108932304B (zh) * | 2018-06-12 | 2019-06-18 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN110163050B (zh) * | 2018-07-23 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 一种视频处理方法及装置、终端设备、服务器及存储介质 |
CN109242090B (zh) * | 2018-08-28 | 2020-06-26 | 电子科技大学 | 一种基于gan网络的视频描述及描述一致性判别方法 |
CN109871736B (zh) | 2018-11-23 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 自然语言描述信息的生成方法及装置 |
CN109740665B (zh) * | 2018-12-29 | 2020-07-17 | 珠海大横琴科技发展有限公司 | 基于专家知识约束的遮挡图像船只目标检测方法及系统 |
CN109800689B (zh) * | 2019-01-04 | 2022-03-29 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN109886090B (zh) * | 2019-01-07 | 2020-12-04 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN109960747B (zh) * | 2019-04-02 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 视频描述信息的生成方法、视频处理方法、相应的装置 |
CN110083729B (zh) * | 2019-04-26 | 2023-10-27 | 北京金山数字娱乐科技有限公司 | 一种图像搜索的方法及系统 |
CN110414571A (zh) * | 2019-07-05 | 2019-11-05 | 浙江网新数字技术有限公司 | 一种基于特征融合的网站报错截图分类方法 |
CN110519653B (zh) * | 2019-07-22 | 2021-09-03 | 同济大学 | 一种基于事实转移的情感嵌入视频描述方法 |
CN112698660B (zh) * | 2020-12-31 | 2022-05-27 | 杭州电子科技大学 | 基于9轴传感器的驾驶行为视觉感知装置及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6892193B2 (en) * | 2001-05-10 | 2005-05-10 | International Business Machines Corporation | Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities |
CN101763439A (zh) * | 2010-03-05 | 2010-06-30 | 中国科学院软件研究所 | 一种基于草图的超视频构建方法 |
CN102201115A (zh) * | 2011-04-07 | 2011-09-28 | 湖南天幕智能科技有限公司 | 无人机航拍视频实时全景图拼接方法 |
CN103294829A (zh) * | 2013-06-26 | 2013-09-11 | 公安部第三研究所 | 基于Android操作系统实现轻量化视频结构化描述的系统及方法 |
CN104965199A (zh) * | 2015-07-28 | 2015-10-07 | 中国人民解放军海军航空工程学院 | 雷达视频运动目标特征融合判定方法 |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
-
2017
- 2017-04-26 CN CN201710281305.8A patent/CN107256221B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6892193B2 (en) * | 2001-05-10 | 2005-05-10 | International Business Machines Corporation | Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities |
CN101763439A (zh) * | 2010-03-05 | 2010-06-30 | 中国科学院软件研究所 | 一种基于草图的超视频构建方法 |
CN102201115A (zh) * | 2011-04-07 | 2011-09-28 | 湖南天幕智能科技有限公司 | 无人机航拍视频实时全景图拼接方法 |
CN103294829A (zh) * | 2013-06-26 | 2013-09-11 | 公安部第三研究所 | 基于Android操作系统实现轻量化视频结构化描述的系统及方法 |
CN104965199A (zh) * | 2015-07-28 | 2015-10-07 | 中国人民解放军海军航空工程学院 | 雷达视频运动目标特征融合判定方法 |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107256221A (zh) | 2017-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256221B (zh) | 基于多特征融合的视频描述方法 | |
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
Xian et al. | Semantic projection network for zero-and few-label semantic segmentation | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
CN107239801B (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN110110800B (zh) | 自动图像标注方法、装置、设备及计算机可读存储介质 | |
CN110874411A (zh) | 一种基于注意力机制融合的跨领域情感分类系统 | |
CN116610803B (zh) | 基于大数据的产业链优企信息管理方法及系统 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN115130591A (zh) | 一种基于交叉监督的多模态数据分类方法及装置 | |
CN112541083A (zh) | 一种基于主动学习混合神经网络的文本分类方法 | |
CN113836992A (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
Zhu et al. | Multi-scale temporal network for continuous sign language recognition | |
Hoxha et al. | Remote sensing image captioning with SVM-based decoding | |
CN110750669B (zh) | 一种图像字幕生成的方法及系统 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN111563378A (zh) | 一种联合学习的多文档阅读理解实现方法 | |
Leyva et al. | Video memorability prediction via late fusion of deep multi-modal features | |
CN115186683A (zh) | 一种基于跨模态翻译的属性级多模态情感分类方法 | |
Tiwari et al. | Automatic caption generation via attention based deep neural network model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |