CN108648746B - 一种基于多模态特征融合的开放域视频自然语言描述生成方法 - Google Patents
一种基于多模态特征融合的开放域视频自然语言描述生成方法 Download PDFInfo
- Publication number
- CN108648746B CN108648746B CN201810460398.5A CN201810460398A CN108648746B CN 108648746 B CN108648746 B CN 108648746B CN 201810460398 A CN201810460398 A CN 201810460398A CN 108648746 B CN108648746 B CN 108648746B
- Authority
- CN
- China
- Prior art keywords
- video
- features
- feature
- optical flow
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000003062 neural network model Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract 2
- 230000003287 optical effect Effects 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 claims description 2
- 238000011425 standardization method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 abstract description 5
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 208000031968 Cadaver Diseases 0.000 description 1
- 208000013521 Visual disease Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
一种基于多模态特征融合的开放域视频自然语言描述方法,采用深度卷积神经网络模型提取RGB图像特征和灰度光流图片特征,加入视频时空信息和音频信息,组成多模态特征系统,提取C3D特征时,动态调整输入到三维卷积神经网络中的连续帧块间的覆盖率,解决训练数据大小的限制问题,并且对可处理的视频长度具有鲁棒性,音频信息弥补视觉上的不足,最后针对多模态特征融合。本发明使用数据规范化方法将各模态特征值规范在一定范围内,解决了特征值差异问题;采用PCA方法降低个别模态特征维度,并有效的保留99%的重要信息,解决了因维度过大导致训练失败的问题,有效的提高了生成的开放域视频描述语句的准确性,并且对于场景、人物、事件都具有较高的鲁棒性。
Description
技术领域
本发明属于视频分析技术,具体涉及一种基于多模态特征融合的开放域视频自然语言描述生成方法。
背景技术
随着近年来智能移动设备的普及,大量的网络平台视频数据亟待分析管理,因此研究视频的自然语言描述技术有着很大的实用价值。社交平台如微博、微信上的违法视频层出不穷,而现在主要依靠群众举报等人工方式来检举控制这类视频的传播,效果不佳。除了控制黄色暴力反动等违法视频的传播,维护网络安全性之外,视频的语言描述也可以为盲人等有着视觉障碍的人群提供读懂视频的智能化技术。由于这些迫切的应用需求,面向开放域视频的自然语言描述生成技术的研究获得了广泛的关注。
2015年Venugopalan等人提出了S2VT模型(Venugopalan S,Rohrbach M,DonahueJ,et al.Sequence to Sequence--Video to Text[C]//IEEE International Conferenceon Computer Vision.IEEE,2015:4534-4542.)用于自动生成开放域视频的自然语言描述,是该领域一个里程碑式的模型,它是第一个端到端模型,将特征序列翻译为单词序列,因此又叫sequence to sequence。首先使用VGGNet提取视频RGB图像特征,使用AlexNet提取灰度光流图片特征,然后将这些特征按照视频帧序列的顺序依次输入到语言模型中,语言模型是由双层LSTM单元组成的,上层LSTM用于特征的编码(encoder),下层LSTM用于自然语言的解码(decoder),生成一系列单词组成最后的描述语句。S2VT模型在一个标准视频描述数据集上取得了29.8%的METEOR值,高于之前所有的模型结果,但是S2VT只考虑了视频的图像特征和光流特征这两个方面,对于视频的其他信息未过多研究。
后来也有一些模型被提出,比如双向LSTM模型(Yi B,Yang Y,Shen F,etal.Bidirectional Long-Short Term Memory for Video Description[C]//ACM onMultimedia Conference.ACM,2016:436-440.),多尺度多实例模型(Xu H,Venugopalan S,Ramanishka V,et al.A Multi-scale Multiple Instance Video Description Network[J].Computer Science,2015,6738:272-279.)但都没有考虑除图像和光流之外的其他特征。2017年Pasunuru等人提出多任务模型(Pasunuru R,Bansal M.Multi-Task VideoCaptioning with Video and Entailment Generation[J].2017.),在无监督视频预测任务(编码)和语言生成任务(解码)之间共享参数,取得了目前最好的结果,METEOR值为36%,但该模型只使用了RGB图像特征。
发明内容
发明目的:通过对视频自然语言描述领域现有的技术进行分析,可以看出在视频分析特征提取阶段,广泛使用的是基于CNNs提取的RGB图像特征和光流特征。为了克服上述技术的不足,本发明结合深度神经模型提取的RGB特征、光流特征,3D卷积神经网络提取的时空特征,以及视频所包含的音频特征这4种特征,提出了一种基于多模态特征融合的开放域视频自然语言描述生成方法,提升了描述语句的准确度,并且本发明鲁棒性高,可以应对任何场景下的各类人事物的描述任务
技术方案:基于多模态特征融合的开放域视频自然语言描述生成方法的主要关键技术包括多模态特征提取技术以及特征融合技术这俩大部分。下面先简单介绍本发明实施的软硬件环境,然后具体分为四部分介绍技术方案。
硬件基础:一台配有4块GPU卡的服务器,包括Tesla c2050、Tesla k20m,本发明实验在多GPU上进行。
软件基础:Caffe、Tensorflow、python、opencv、cuda等机器学习领域常用软件。
一种基于多模态特征融合的开放域视频自然语言描述生成方法,包括:
步骤一:采用ResNet提取RGB图像特征和光流特征,
使用ImageNet图片分类数据库预训练ResNet模型,该模型包含150个卷积层conv后接1个池化层pool5和1个全连接层fc1000,然后用其提取视频RGB图像特征,使用TVL1算法计算视频连续俩帧之间的光流值,得到对应的二维矩阵,然后数值化该矩阵为灰度图片,即所需的光流图片,再使用UCF-101视频行为分类库预训练ResNet模型,并用其提取光流图片的特征值;
步骤二:三维卷积神经网络提取C3D特征,
根据语言模型输入特点调整三维卷积神经网络模型,提取Spatio-temporal特征,即C3D特征作为视频多模态表示之一,C3D特征是由三维卷积神经网络模型提取的,使用三维卷积核,在进行卷积操作时,输入是三维的,在Sport-1M视频行为分类库上进行预训练;
步骤三:音频特征提取,
收集每段视频所对应的音频信息,调整音频特征提取模型,使其适应自然语言模型的输入,将其作为视频多模态特征表示之一,在freesound数据库上进行预训练,freesound数据库为一个免费开源的音频片段数据库,使其更准确的识别不同生物的声音;
步骤四:多模态特征融合,
对于前三个部分提取到的4种特征,即RGB图像特征、光流图片特征,C3D特征,音频特征,使用PCA方法,将C3D特征和光流特征进行降维,使用数据标准化方法,将C3D特征值规范在[-50,50],与其他模态特征值的范围保持一致,最终得到视频最为全面的特征表示,即多模态特征表示,作为语言模型的输入。
进一步地,步骤一中使用的ResNet模型为152层,对于RGB图像特征,选取池化层pool5之后的全连接层fc1000的输出作为最终结果,即每张RGB图像特征可以表示为1000维的特征向量,视频RGB图像特征的最终表示为N×1000的二维矩阵,N表示语言模型输入维度,即特征编码阶段LSTM的个数,每个LSTM单元对应一个特征向量,将N维特征向量按顺序输入到语言模型中。
进一步地,N为80,对于总长度不足80帧的视频,多余维补零。
进一步地,步骤一中提取光流信息时,假设点A第T帧上的位置是(x1,y1),而在第T+1帧上的位置是(x2,y2),这两帧图片之间的A点的移动可以表示为(μx,νy)=(x2,y2)-(x1,y1),即为A点的光流,速度是矢量,所以每点的光流表示为两个值,μ和ν,因此的包含n帧的视频可以提取到2×(n-1)张光流灰度图片,从光流图片中提取光流特征,依次选取fc1000层的输出结果,将描述同一个速度的两张光流图片提取的结果合并得为一个2000维的特征向量,视频光流特征的最终表示为N×2000的二维矩阵。
进一步地,步骤二中的三维卷积核大小为k×k×d,将所有视频帧大小都调整为H×W,提取连续L帧输入到三维卷积神经网络模型中,这样第一次卷积后输出大小为(H-k+1)×(W-k+1)×(L-d+1),根据视频帧数量自动调整选取视频帧块时的覆盖率,对于越短的视频,覆盖率越大,以使不同长度的视频提取出来的特征维度适应后面的语言模型。
进一步地,选取三维卷积神经网络中fc6层的输出作为结果,fc6层输出的是一个4096维向量,这样视频C3D特征的最终表示为N×4096的二维矩阵。
进一步地,步骤三中根据视频源,在网站上下载完整视频,然后剪辑提取音频信息,根据音频长度自动设置mid-term窗口大小和步长为L/N,使不同长度的视频对应的音频特征维度都适应于语言模型。
进一步地,选取mid-term特征作为结果,视频的音频特征最终表示为N×68的二维矩阵。
进一步地,步骤四中C3D特征值在[-1×107,1×107]。
进一步地,步骤四中将光流和C3D特征降维到N×N,实验表明即使这样大幅度降维也可以保留99%的重要信息,且此方法有效的解决了训练爆炸的问题。
有益效果:
1.增加了多模态特征提取的鲁棒性和速度,很大程度上提升了单独使用RGB图像特征、光流图像特征、C3D特征以及音频特征生成描述语言的准确性。
2.将4种特征结合时生成的自然语言描述语句的准确度最高,取得了近年来在MSVD数据集上最好的结果,部分直观性实验结果见说明书中的表格。
3.使用数据规范化方法将各模态特征值规范在一定范围内,解决了特征值差异问题;采用PCA方法降低个别模态特征维度,并有效的保留99%的重要信息,解决了因维度过大导致训练失败的问题,有效的提高了生成的开放域视频描述语句的准确性,并且对于场景、人物、事件都具有较高的鲁棒性。
附图说明
图1是本发明的模型结构图;
图2是本发明提出的变长C3D特征提取概念示意图。
具体实施方式
如图1所示的基于多模态特征融合的开放域视频自然语言描述模型,主要分为两大模型,一是特征提取模型,二是自然语言模型,本发明主要研究特征提取模型,将分为四大部分介绍。
第一部分:ResNet152提取RGB图像特征和光流特征,
(1)RGB图像特征的提取,
使用ImageNet图像数据库预训练ResNet模型,ImageNet包含12000000张图像,分为1000个类别,可以使模型更准确识别开放域视频中的物体,神经网络模型的批处理大小设置为50,刚开始的学习率设为0.0001,MSVD(Microsoft Research Video DescriptionCorpus)数据集包含1970段视频剪辑,时长大约在8到25秒之间,对应8万5千个视频描述语句。采用预训练好的ResNet提取MSVD数据集中所有视频的RGB特征,首先从视频V中提取80帧作为RGB图像的代表帧,提取策略为平均提取,若不足80,则全部提取,然后将这些代表帧按序输入到神经网络模型中,对于每一帧,我们选取pool5层之后的fc1000层的输出作为最终结果,因此,视频V的RGB图像特征最终表示为80×1000的二维矩阵。
将视频数据集划分为训练集和测试集,也就是划分特征表示集,使用1570段视频对应的RGB特征训练自然语言模型,然后在剩下的400个测试集上得出结果,最后计算结果与测试集对应的正确描述语句间的METEOR值,值越大表示语句间相似度越高,即准确度越高。
在实验中,本发明将自然语言模型的输入维度设置为80,这样可以在保证硬件允许范围内提取尽可能多的代表帧,对于总长度不足80帧的视频,多余维补零。
(2)光流特征的提取
使用UCF-101视频行为分类数据库预训练ResNet模型,UCF-101含有13320段视频,分为101个行为类,可以使模型更准确的识别不同的行为,网络模型的参数设置同RGB中的神经网络模型。
首先提取视频的光流信息,我们假设点A在时间T,或者说是第T帧上的位置是(x1,y1),而在T+1帧的位置是(x2,y2),因此,这俩帧图片之间的A点的移动可以表示为(μx,νy)=(x2,y2)-(x1,y1),即为A点的光流,速度是矢量,所以每点的光流表示为俩个值,μ和ν,因此的包含n帧的视频可以提取到2×(n-1)张光流灰度图片。
然后从光流图片中提取光流特征,依次选取fc1000层的输出结果,将描述同一个速度的俩张光流图片提取的结果合并得为一个2000维的特征向量,因此,一个视频V的光流特征最终表示为80×2000的二维矩阵。同样的,将1970段视频所对应的特征划分为1570个训练,400个测试。
第二部分:三维卷积神经网络提取C3D(Convolution 3-dimension)特征,
三维卷积核大小为k×k×d,实验中设置k=d=3,将所有视频帧大小都调整为H×W,实验中设置H=W=128,,提取连续L帧,实验中设置L=16帧输入到三维卷积神经网络模型中,这样第一次卷积后输出大小为(H-k+1)×(W-k+1)×(L-d+1),神经网络模型最终输出的是一个一维向量f,即每一个长度为L的帧块可以提取一个特征向量f,根据自然语言模型的设置,每段视频需要提取80个帧块。如图2所示,本发明提出的变长C3D特征提取概念,即根据视频总长度自动调整连续俩次输入到三维卷积神经网络模型中的视频帧块间的覆盖率,上层视频包含更多的视频帧,则减少视频帧块提取时的覆盖率。本发明方法可以根据视频帧数量自动调整选取视频帧块时的覆盖率,对于越短的视频,覆盖率越大,使得不同长度的视频提取出来的特征维度都可以适应后面的语言模型。覆盖帧长C可以为负,表示俩个连续帧块之间不仅不重叠,还隔着C帧,实验证明本发明中的变长方法对结果准确度起到了很大的提升效果。
使用Sport-1M(运动行为分类数据库)视频库预训练3D卷积神经网络模型,Sport-1M含有487种运动标签,共计50000段视频。将MSVD数据集中所有视频输入到模型中提取C3D特征。我们选取已经被证明比三维卷积神经网络中fc7层和prob层准确性更高的fc6层的输出作为结果,这样一段视频V的C3D特征最终表示为80×4096的二维矩阵。同样的,将1970段视频所对应的特征划分为1570个训练,400个测试。
第三部分:音频特征提取,
本发明是在MSVD数据集上进行的验证实验,官方只提供消音的视频数据,所以我们根据视频源,在YouTube网站上下载完整视频,然后剪辑提取音频信息。现存于网络上的视频只有1600段,即对应的音频也只有1600段,数据量较其他模态特征少一点,但不影响证明音频特征在视频智能分析领域的重要性。常用的音频特征是34维的,其中包括13维的梅尔频率倒谱系数(MFCC),MFCC是通过将音频信号转换为梅尔频率并对其进行倒谱分析而获得的。此外,还有过零率、短时能量、短时平均幅度差、基于FFT的语谱图、短时功率谱密度等21维特征向量。
将音频A输入到特征提取模型,本发明根据音频长度自动设置mid-term窗口大小和步长为L/N,使不同长度的视频对应的音频特征维度都适应于语言模型。最后会产生两种特征结果,一个是短期(short-term)特征,另一个是中期(mid-term)特征。mid-term特征实际两种short-term特征的统计量的结合,即平均值和标准差。为了获得更多的信息,我们选择了结合34个音频特征的平均值和标准差的mid-term特征,该34个音频特征包括13个MFCC。这样,一段音频描述符用80×64的特征矩阵表示。由于音频数据量较少,我们选取1200段音频对应的特征进行训练,剩下的400个特征进行测试,减少训练集数目,更能验证音频特征的有效性。
第四部分:多模态特征融合
本发明提出的一种基于多模态特征融合的方法就是将上述三个部分中得到的四种模态特征,即RGB图像特征、光流特征、C3D特征以及音频特征,进行有效的融合,得到最适合描述视频全局的特征。由于每种特征都是通过单独的模型提取的,特征值之间可能差异甚远,不能直接进行拼接,主要通过以下两个方面进行特征的融合处理。
(1)数据规范化
对各模态特征值进行分析发现,C3D特征值在[-1×107,1×107]范围内,远远大于其余特征值范围[-50,50],如果不使用数据规范化方法,将会导致融合RGB特征和C3D特征的效果还不如单独使用RGB和C3D特征,因此使用数据规范化方法将C3D特征值映射到小范围中,在此不能将数据范围直接缩小到[0,1],实验证明这样会大大降低生成句子的准确性,而规范到[-50,50]可以有效提高特征融合后的效果。
(2)数据降维
数据规范化后就可以考虑将这些特征组合到一起了,但由于维度的增大,可能会发生梯度爆炸,导致训练失败,因此使用PCA(Principal Components Analysis)方法对光流特征和C3D特征进行降维。PCA即主成分分析,就是求协方差矩阵的特征值和特征向量,然后做数据转换,它的特点是最终特征向量的维度一定不会大于样本数量,即生成的二维矩阵的列数小于等于行数。本发明将光流和C3D特征降维到80×80,实验表明即使这样大幅度降维也可以保留99%的重要信息。
表1
表1是本发明方法的实验验证结果,从表中可以看出,本发明采用的方法取得了更好的实验结果,也验证了发明的有效性。
设计大量实验将这些特征排列组合,分析不同融合方法下特征的优劣,最终找到最佳的特征组合即为我们的多模态特征。通过本方法可以看出,将所有模态特征融合到一起可以得到最为准确的描述语句,这种融合特征从多个角度全面的描述视频,提高了开放域视频特征提取的鲁棒性,提升了描述语句的准确性,不同场景下的人事物都可以取得很好的效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,包括:
步骤一:采用ResNet提取RGB图像特征和光流特征,
使用ImageNet图片分类数据库预训练ResNet模型,该模型包含150个卷积层conv后接1个池化层pool5和1个全连接层fc1000,然后用其提取视频RGB图像特征,使用TVL1算法计算视频连续两帧之间的光流值,得到对应的二维矩阵,然后数值化该矩阵为灰度图片,即所需的光流图片,再使用UCF-101视频行为分类库预训练ResNet模型,并用其提取光流图片的特征值;
步骤二:三维卷积神经网络提取C3D特征,
根据语言模型输入特点调整三维卷积神经网络模型,提取Spatio-temporal特征,即C3D特征作为视频多模态特征表示之一,C3D特征是由三维卷积神经网络模型提取的,使用三维卷积核,在进行卷积操作时,输入是三维的,在Sport-1M视频行为分类库上进行预训练;三维卷积核大小为k×k×d,将所有视频帧大小都调整为H×W,提取连续L帧输入到三维卷积神经网络模型中,这样第一次卷积后输出大小为(H-k+1)×(W-k+1)×(L-d+1),其中,k=d=3,H=W=128,L=16,根据视频帧数量自动调整选取视频帧块时的覆盖率,对于越短的视频,覆盖率越大,以使不同长度的视频提取出来的特征维度适应后面的语言模型,选取三维卷积神经网络中fc6层的输出作为结果,fc6层输出的是一个4096维向量,这样视频C3D特征的最终表示为N×4096的二维矩阵,N为80;
步骤三:音频特征提取,
收集每段视频所对应的音频信息,调整音频特征提取模型,使其适应自然语言模型的输入,将其作为视频多模态特征表示之一,在freesound数据库上进行预训练,使其识别不同生物的声音;
步骤四:多模态特征融合,
对于前三个部分提取到的4种特征,即RGB图像特征、光流图片特征,C3D特征,音频特征,使用PCA方法,将C3D特征和光流特征进行降维,使用数据标准化方法,将C3D特征值规范在[-50,50],与其他模态特征值的范围保持一致,多模态特征表示,作为语言模型的输入。
2.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,步骤一中使用的ResNet模型为152层,对于RGB图像特征,选取池化层pool5之后的全连接层fc1000的输出作为最终结果,即每张RGB图像特征表示为1000维的特征向量,视频RGB图像特征的最终表示为N×1000的二维矩阵,N表示语言模型输入维度,即特征编码阶段LSTM的个数,每个LSTM单元对应一个特征向量,将N维特征向量按顺序输入到语言模型中。
3.根据权利要求2所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,对于总长度不足80帧的视频,多余维补零。
4.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,步骤一中提取光流信息时,假设点A第T帧上的位置是(x1,y1),而在第T+1帧上的位置是(x2,y2),这两帧图片之间的A点的移动表示为(μx,νy)=(x2,y2)-(x1,y1),即为A点的光流,速度是矢量,所以每点的光流表示为两个值,μ和ν,因此的包含n帧的视频提取到2×(n-1)张光流灰度图片,从光流图片中提取光流特征,依次选取fc1000层的输出结果,将描述同一个速度的两张光流图片提取的结果合并得为一个2000维的特征向量,视频光流特征的最终表示为N×2000的二维矩阵。
5.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,步骤三中根据视频源,在网站上下载完整视频,然后剪辑提取音频信息,根据音频长度自动设置mid-term窗口大小和步长为L/N,使不同长度的视频对应的音频特征维度都适应于语言模型。
6.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,选取mid-term特征作为结果,视频的音频特征最终表示为N×68的二维矩阵。
7.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,步骤四中C3D特征值在[-1×107,1×107]。
8.根据权利要求1所述的一种基于多模态特征融合的开放域视频自然语言描述生成方法,其特征在于,步骤四中将光流和C3D特征降维到N×N。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810460398.5A CN108648746B (zh) | 2018-05-15 | 2018-05-15 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810460398.5A CN108648746B (zh) | 2018-05-15 | 2018-05-15 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648746A CN108648746A (zh) | 2018-10-12 |
CN108648746B true CN108648746B (zh) | 2020-11-20 |
Family
ID=63755520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810460398.5A Active CN108648746B (zh) | 2018-05-15 | 2018-05-15 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648746B (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376696B (zh) * | 2018-11-28 | 2020-10-23 | 北京达佳互联信息技术有限公司 | 视频动作分类的方法、装置、计算机设备和存储介质 |
CN111325073B (zh) * | 2018-12-17 | 2024-02-20 | 上海交通大学 | 基于运动信息聚类的监控视频异常行为检测方法 |
CN109815903B (zh) * | 2019-01-24 | 2020-10-02 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN111488473B (zh) * | 2019-01-28 | 2023-11-07 | 北京京东尚科信息技术有限公司 | 图片描述的生成方法、装置和计算机可读存储介质 |
CN110020596B (zh) * | 2019-02-21 | 2021-04-30 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN109978756B (zh) | 2019-03-18 | 2021-03-09 | 腾讯科技(深圳)有限公司 | 目标检测方法、系统、装置、存储介质和计算机设备 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110097617B (zh) * | 2019-04-25 | 2020-09-15 | 北京理工大学 | 基于卷积神经网络与显著性权重的图像融合方法 |
CN110084250B (zh) * | 2019-04-26 | 2024-03-12 | 北京金山数字娱乐科技有限公司 | 一种图像描述的方法及系统 |
CN111860064B (zh) * | 2019-04-30 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | 基于视频的目标检测方法、装置、设备及存储介质 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN110234018B (zh) * | 2019-07-09 | 2022-05-31 | 腾讯科技(深圳)有限公司 | 多媒体内容描述生成方法、训练方法、装置、设备及介质 |
CN110674483B (zh) * | 2019-08-14 | 2022-05-13 | 广东工业大学 | 一种基于多模态信息的身份识别方法 |
CN110674350B (zh) * | 2019-09-23 | 2022-02-08 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
CN110705463A (zh) * | 2019-09-29 | 2020-01-17 | 山东大学 | 基于多模态双流3d网络的视频人体行为识别方法及系统 |
JP2021081930A (ja) * | 2019-11-18 | 2021-05-27 | 日本放送協会 | 学習装置、情報分類装置、及びプログラム |
CN111079658B (zh) * | 2019-12-19 | 2023-10-31 | 北京海国华创云科技有限公司 | 基于视频的多目标连续行为分析方法、系统、装置 |
CN111083469A (zh) * | 2019-12-24 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种视频质量确定方法、装置、电子设备及可读存储介质 |
CN113516970A (zh) * | 2020-03-27 | 2021-10-19 | 北京奇虎科技有限公司 | 基于语言模型的报警方法、设备、存储介质及装置 |
CN111476162A (zh) * | 2020-04-07 | 2020-07-31 | 广东工业大学 | 一种操作命令生成方法、装置及电子设备和存储介质 |
CN111242110B (zh) * | 2020-04-28 | 2020-08-14 | 成都索贝数码科技股份有限公司 | 一种新闻自动拆条的自适应条件随机场算法的训练方法 |
CN111832384B (zh) * | 2020-05-20 | 2022-11-08 | 东南大学 | 一种融合图像和声音信息的视频标注方法 |
CN111931690A (zh) * | 2020-08-28 | 2020-11-13 | Oppo广东移动通信有限公司 | 模型训练方法、装置、设备及存储介质 |
CN112115832A (zh) * | 2020-09-10 | 2020-12-22 | 北京影谱科技股份有限公司 | 一种多模态特征融合的视频时序事件检测方法及系统 |
CN114268846A (zh) * | 2020-09-16 | 2022-04-01 | 镇江多游网络科技有限公司 | 一种基于注意机制的视频描述生成模型 |
CN112183275A (zh) * | 2020-09-21 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 视频描述信息的生成方法、装置及服务器 |
CN112200317B (zh) * | 2020-09-28 | 2024-05-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN112487949B (zh) * | 2020-11-27 | 2023-05-16 | 华中师范大学 | 一种基于多模态数据融合的学习者行为识别方法 |
CN113221613B (zh) * | 2020-12-14 | 2022-06-28 | 国网浙江宁海县供电有限公司 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
CN112995748A (zh) * | 2021-01-26 | 2021-06-18 | 浙江香侬慧语科技有限责任公司 | 基于多模态的自动弹幕生成方法、系统、存储介质及设备 |
CN112926662B (zh) * | 2021-02-25 | 2022-05-03 | 电子科技大学 | 一种基于多尺度语言嵌入rec的目标检测方法 |
CN114359768B (zh) * | 2021-09-30 | 2024-04-16 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
CN116089654B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于音频监督的可转移视听文本生成方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
CN107273835A (zh) * | 2017-06-07 | 2017-10-20 | 南京航空航天大学 | 基于视频分析的暴力行为智能检测方法 |
CN107316015A (zh) * | 2017-06-19 | 2017-11-03 | 南京邮电大学 | 一种基于深度时空特征的高精度面部表情识别方法 |
CN107463949A (zh) * | 2017-07-14 | 2017-12-12 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN107590567A (zh) * | 2017-09-13 | 2018-01-16 | 南京航空航天大学 | 一种基于信息熵聚类和注意力机制的循环神经网络短期负荷预测方法 |
CN107909014A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于深度学习的视频理解方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170323163A1 (en) * | 2016-05-06 | 2017-11-09 | City Of Long Beach | Sewer pipe inspection and diagnostic system and method |
-
2018
- 2018-05-15 CN CN201810460398.5A patent/CN108648746B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107256221A (zh) * | 2017-04-26 | 2017-10-17 | 苏州大学 | 基于多特征融合的视频描述方法 |
CN107273835A (zh) * | 2017-06-07 | 2017-10-20 | 南京航空航天大学 | 基于视频分析的暴力行为智能检测方法 |
CN107316015A (zh) * | 2017-06-19 | 2017-11-03 | 南京邮电大学 | 一种基于深度时空特征的高精度面部表情识别方法 |
CN107463949A (zh) * | 2017-07-14 | 2017-12-12 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN107590567A (zh) * | 2017-09-13 | 2018-01-16 | 南京航空航天大学 | 一种基于信息熵聚类和注意力机制的循环神经网络短期负荷预测方法 |
CN107909014A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于深度学习的视频理解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108648746A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648746B (zh) | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 | |
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
Jamaludin et al. | You said that?: Synthesising talking faces from audio | |
EP3399460B1 (en) | Captioning a region of an image | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
Ye et al. | Evaluating two-stream CNN for video classification | |
Fenghour et al. | Lip reading sentences using deep learning with only visual cues | |
CN111581437A (zh) | 一种视频检索方法及装置 | |
CN110148400B (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
CN110622176A (zh) | 视频分区 | |
US20210174162A1 (en) | Spatial-Temporal Reasoning Through Pretrained Language Models for Video-Grounded Dialogues | |
Hashmi et al. | An exploratory analysis on visual counterfeits using conv-lstm hybrid architecture | |
Xie et al. | Attention-based dense LSTM for speech emotion recognition | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
Qu et al. | Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading | |
Shukla et al. | Learning speech representations from raw audio by joint audiovisual self-supervision | |
CN116189039A (zh) | 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统 | |
Sah et al. | Understanding temporal structure for video captioning | |
El‐Bialy et al. | Developing phoneme‐based lip‐reading sentences system for silent speech recognition | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 | |
Vougioukas et al. | Dino: A conditional energy-based gan for domain translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |