CN110020596A - 一种基于特征融合和级联学习的视频内容定位方法 - Google Patents
一种基于特征融合和级联学习的视频内容定位方法 Download PDFInfo
- Publication number
- CN110020596A CN110020596A CN201910129460.7A CN201910129460A CN110020596A CN 110020596 A CN110020596 A CN 110020596A CN 201910129460 A CN201910129460 A CN 201910129460A CN 110020596 A CN110020596 A CN 110020596A
- Authority
- CN
- China
- Prior art keywords
- video
- fusion
- video content
- low level
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000004807 localization Effects 0.000 title claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 238000000576 coating method Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 239000011248 coating agent Substances 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 239000012634 fragment Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000005906 menstruation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于特征融合的视频内容定位方法,包括视频的特征提取过程、特征融合过程和视频内容定位过程。特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络进行融合;后融合将神经网络的输出进行拼接,再通过神经网络CF(·)对视频各维度的高层语义特征进行融合。本发明能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
Description
技术领域
本发明属于机器视觉及深度学习技术领域,涉及视频内容定位技术,尤其涉及一种使用级联神经网络基于特征前后融合的视频内容定位的方法。
背景技术
在各种各样的视频中,包含着大量的事件和动作等,视频的核心内容在这些事件中。然而视频大多是冗余的,长时间的,观看者需要在大量的冗余信息中寻找有用信息,所以急需一种技术可以自动定位出所需要的内容片段。这种视频内容定位对后续进行内容分析,分类有着很大帮助,在安防,教育,影视领域中都有很大应用空间。
在关于视频内容定位方法的现有技术中,采用神经网络方法,但对于图像、声音等不同维度的信息特征并不进行深度融合,而是对信息特征进行简单拼接以后就作为视频特征表示,作为后级神经网络的输入。例如:用卷积神经网络方法得到视频的RGB图像的特征向量X,如果视频帧长为T,则得到维度为(T,li)的特征向量,其中li为视频内容类别数,例如在ActivityNet数据集中li为200;声音的特征向量为Y,同样也是维度为(T,li)的特征向量。将图像和声音的特征向量级联得其中n是模态总个数。使用特征向量F作为视频最终的特征表示,作为后一级神经网络的输入,进行视频内容定位。
视频图像和视频声音中包含的信息差别很大,而且具有互补效应。比如综艺节目中定位一个歌手的表演片段,由于镜头并不是时时对准歌手,而是会不时指向观众等区域,而歌手的声音可以用来帮助准确识别表演片段的位置。
现有视频内容定位方法中,神经网络的特征提取模块直接将视频图像的特征向量和视频声音的特征向量进行简单拼接作为视频的特征向量,会损失掉图像和声音特征中包含的互补的高层语义信息,大大降低视频内容定位的精确性,难以实现视频内容的精准定位。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于特征融合的视频内容定位方法,基于特征前融合、后融合和级联学习,使用级联的神经网络来进行视频的特征提取、特征融合、内容定位,用以解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
本发明提供的技术方案是:
一种基于特征融合的视频内容定位方法,使用级联的神经网络进行视频的特征提取、特征融合、内容定位;视频包括多个维度的特征,如图像特征、声音特征和光流特征等;特征融合包括前融合和后融合;前融合对视频各个维度的低层次特征进行融合,方法为将各个低层次特征级联后通过神经网络进行融合;后融合网络CF(·)对视频各个维度的高层语义特征进行融合,方法为将神经网络C1,C2,…Ci,的输出进行拼接,再通过神经网络CF(·)进行融合;具体包括如下步骤:
1)提取视频各个模态的低层次特征,如图像特征、声音特征和光流特征等,得到多个二维特征向量;分别记为fi,二维特征向量的相应大小为(T,li),T为视频抽帧帧数;i表示各个模态/维度;
本发明方法输入的是提取出的f1,f2,….fn的大小相同的特征feature。特征提取可采用现有方法。本发明具体实施时,以图像特征和声音特征为例,即模态数为2,采用TSN和VGGish提取视频各个模态的低层次特征。
1.1)预训练视频分类器,作为视频图像特征提取模块M1;
包括:抽取视频帧,将视频转化为多帧图片;使用Temporal Segment Network(TSN:https://github.com/yjxiong/tsn-pytorch)模型作为预训练视频分类器,即RGB图像特征提取模块;将图像特征提取模块输出特征向量,作为提取得到的视频图像特征;
具体实施时,对于RGB图片,首先使用工具ffmepeg抽取视频帧,将视频转化为多帧图片。记每个视频抽帧帧数为T。在UCF101数据集的训练集上抽好图片帧后,使用TSN模型结构预训练一个视频分类器,将预训练好的TSN视频分类器作为RGB图像特征提取模块M1。然后将预训练好的视频分类器(TSN模型)最后线性层finetune为实际使用的数据集动作类别数(假设为li),将模型最后输出的特征向量记为f1,二维特征向量大小为:(T,l1)。
其中,TSN模型采用文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,andL.Van Gool.Temporal segment networks:Towards good practices for deep actionrecognition.In European Conference on Computer Vision,pages”中记载的模型结构,代码链接:https://github.com/yjxiong/tsn-pytorch。
1.2)训练声音特征提取器M2;
包括:从视频中提取声音信号;对提取的声音信号进行微调得到实际使用的数据集中每个视频对应的声音特征;输出的声音特征向量即为提取得到的视频声音特征;
具体实施时,使用MFCC(Mel Frequency Cepstral Coefficient:https://github.com/jameslyons/python_speech_features)方法从视频中提取声音信号,然后使用VGGish(https://github.com/tensorflow/models/tree/master/research/audioset)对提取的声音信号在ActivityNet或者Baidu Highlight Detection数据集的正样本视频片段和采样后的负样本视频片段上微调得到实际使用的数据集中每个视频对应的声音特征f2,我们将MFCC+VGGish合并记为声音提取模块M2,输出的声音特征向量记为f2,二维特征向量大小为(T,l2)。
2)得到前融合的输入将提取得到的视频各个模态的低层次特征在类别维度直接进行级联,得到特征向量作为前融合的输入,的维度为具体实施时,模态数n=2;i=1,2;
具体实施时,将f1和f2在类别维度级联,记为的维度为(T,(l1+l2)),即为图像低层次特征和声音低层次特征进行前融合的结果;T为视频抽帧帧数。
3)使用与模态数相同个数的,由两个一维的卷积和激活层组成的神经网络Ci,分别学习各个模态的低层次特征信号的表示,得到各个模态的低层次特征信号编码,记作特征向量ai;
具体实施时,模态数相同个数n=2,使用一维的卷积神经网络C1和C2分别学习图像和声音信号的时序上更高层次的表示,C1和C2均由两层1维卷积构成,分别得到图像信号编码表示a1,a1大小为(T,256)和声音信号编码a2,a2大小为(T,256)的特征向量。
4)构建前融合网络使用前融合网络融合视频的各个模态的低层次特征;
具体实施时,包括图像低层次特征和声音低层次特征,的输入为向量记为前融合网络,由两层1维卷积构成。得到前融合结果大小为(T,n×256),这里n为多模态特征的模态个数;n=2。
5)将步骤3)得到的各个模态的低层次特征信号编码和步骤4)得到的前融合结果进行级联,得到结果记为作为后融合网络CF(·)的输入;
具体实施时,将a1,a2和级联得到大小为(T,1024),作为后融合网络CF(·)的输入。
6)后融合网络CF(·)由三层1维卷积构成,输出维度为(T,3),T为视频的抽帧帧数;分别对应每帧视频作为被定位的动作开始(start)、过程(action)和结束(end)三个阶段的分数,将三个阶段的分数序列集合分别记为三个集合分别对应曲线曲线Start(s),曲线End(e),和曲线Action(s)在时刻t=1,2,3,…,T的概率。
7)通过筛选后融合网络CF(·)输出组成的分数-视频时序曲线中的峰值,使用特定算法来生成一定数量的候选定位片段。算法如下:
7.1)生成候选时间片段:
设当前帧时刻为t,将曲线Start(s)上分数高于设定值(如0.5)的点,以及满足的点s筛选为集合{s|s_i>0.5},这里s_i的取值范围为[0,1]。将曲线End(e)上分数高于设定值(0.5)的点,以及满足的点e筛选为集合{e|e_i>0.5}。将两个集合间的点相互连接,根据不同段长度(视频中每个动作开始到结束时间可以是不一样的,段长度由start和end点确定)生成候选时间片段。
具体地,在图1的曲线图中,画一条0.5的线,如果当前帧时刻的分数是最大值或者大于0.5,即记录下来形成集合s;三条曲线形成三个集合;
7.2)对生成的每个候选时间片段进行线性插值,将候选时间片段统一为相同长度的一系列候选定位片段
8)构造神经网络CG(·),使用卷积神经网络CG(·)为步骤7)生成的候选定位片段打分,得到每个视频的候选定位片段的评分。
构造神经网络CG(·),CG(·)的输入为候选时间片段在CF(·)的第一个隐藏层中对应的特征片段,和经过插值为同样大小的可以代表每个候选段分数的特征。CG(·)的输出为候选时间片段的评分。
具体地,CG(·)的输入为Cm和步骤7)得到的Cm为候选时间片段在经过CF(·)的第一个隐藏层(512,64,3,1,relu)以后的输出。CG(·)的输出为每个视频的候选定位片段的评分pi。评分为[0,1]的一个值,表示这一段动作的置信度(即这一段确实是动作的概率)。
9)使用非极大化抑制算法对结果进行后处理,从中去除重复区域。
具体实施时,使用非极大化抑制soft-NMS算法来抑制重叠结果,对应图1中PP(·)操作。
通过上述步骤,实现种基于特征融合的视频内容定位。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于特征融合的视频内容定位方法,通过使用前后融合和级联学习技术,进行视频的特征提取、特征融合、内容定位;前融合将各个维度的低层次特征级联后通过神经网络进行融合;后融合网络CF(·)将神经网络C1,C2,…Ci,的输出进行拼接,再通过神经网络CF(·),对视频各个维度的高层语义特征进行融合,提高了视频内容定位技术的准确率。本发明具体实施时,在Video Highlights数据集上将现有方法平均精度均值提高了10.54%。
附图说明
图1为本发明提供的视频内容定位方法的系统框架示意图。
图2为本发明实施例提供的视频内容定位方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于特征融合的视频内容定位方法,基于特征前后融合和级联学习,使用级联的神经网络来进行视频的特征提取、特征融合、内容定位,能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
如图1所示,采用本发明所述基于特征前后融合和级联学习的视频内容定位方法,对视频进行精准定位。视频包括多个模态的特征,如图像、声音和光流等,假设本次只使用声音和RGB图像两种模态,故以下n均为2;具体实施包括如下步骤:
1)提取视频各个模态的低层次特征,如图像特征、声音特征和光流特征等,此处以图像特征和声音特征为例;
1.1)预训练视频分类器,作为视频图像特征提取模块M1;
具体实施时,对于RGB图片,首先使用工具ffmepeg抽取视频帧,将视频转化为多帧图片。记每个视频抽帧帧数为T。在UCF101数据集的训练集上抽好图片帧后,使用TSN模型(文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,and L.Van Gool.Temporalsegment networks:Towards good practices for deep action recognition.InEuropean Conference on Computer Vision,pages”)结构预训练一个视频分类器,将预训练好的TSN视频分类器作为RGB图像特征提取模块M1。然后将TSN最后线性层finetune为实际使用的数据集动作类别数(假设为m),将模型最后输出的特征向量记为f1,二维特征向量大小为:(T,l1),其中T指的是提取的特征的时序长度,这里为512,l1的值是1024,指的是提取的每一帧的向量维度。。
1.2)训练声音特征提取器M2;
使用MFCC(Mel Frequency Cepstral Coefficents:https://github.com/jameslyons/python_speech_features)方法从视频中提取声音信号,然后使用VGGish(https://github.com/tensorflow/models/tree/master/research/audioset)网络对提取的声音信号在ActivityNe或者BaiduHighlightDetection数据集的正样本和采样后的负样本上微调得到实际使用的数据集中每个视频对应的声音特征f2,我们将MFCC+VGGish合并记为声音提取模块M2,输出的声音特征向量记为f2,二维特征向量大小为(T,l2),其中T指的是提取的特征的时序长度,这里为512,l2的值是1024,指的是提取的每一帧的向量维度。
2)将f1和f2在类别维度级联,记为的维度为(T,(l1+l2))。
3)构造n+1个卷积神经网络。神经网络的隐藏层的结构使用四元组表示为(输入通道数,输出通道数,卷积核尺寸,卷积核步数,激活函数)。
3.1)前i个神经网络Ci的输入为fi,Ci的网络结构为:输入fi–conv1d(li,512,3,1,relu)–conv1d(512,256,3,1,relu)-输出ai。这里i的取值为{1,2}
3.2)第n+1个卷积神经网络的输入为f1,f2,…,fi拼接成的向量,的网络结构为:输入-conv1d(512*n,3,1,relu)-conv1d(512*n,256*n,3,1,relu)-输出这个神经网络第一次融合了视频i个不同模态的特征,即为前融合网络。
4)构造卷积神经网络CF(·),CF的输入为a1,a2…ai,的输出拼接成的向量。CF(·)的网络结构为:输入-conv1d(256*(2n),1024,3,1,relu)-conv1d(1024,64,3,1,relu)-conv1d(512,3,3,1,sigmiod)-输出。CF(·)将视频各模态特征信息高层语义的特征表示已经前融合的结果进行了融合,即为后融合。
CF(·)的输出为视频每帧作为被定位的动作开始、过程和结束阶段的评分。将动作开始评分在时间维度上连接成曲线Start({s}),将动作结束评分在时间维度上连接成曲线End({e})。将曲线Start({s})上分数高于0.5*最大值的点筛选为集合{s|s_i>0.5}。将曲线End(e)上分数高于0.5*最大值的点筛选为集合{e|e_i>0.5}。将两个集合间的点相互连接,生成候选时间片段。具体来说,首先计算start节点和end节点中间的action长度la(帧数),然后在start节点前后采样在end节点前后采样将这三个片段拼接起来形成候选时间片段。之后对每个时间片段进行线性插值,将时间片段统一为相同长度。具体来说,对开始,过程,结束三个时间片段在三个曲线上按照41,82,41三种不同特征长度进行线性插值,得到总长度为164的特征片段
5)构造神经网络CG(·),CG(·)的输入为候选时间片段在CF(·)的第一个隐藏层(512,64,3,1,relu)中对应的特征片段Cm,和经过插值整理为同样大小的可以代表每个候选段分数的特征CG(·)的输出为候选时间片段的评分。这里CG(·)对应的操作是:输入Cm-conv1d(64,16,3,1,relu)-reshape(num_proposal*batch_size,164*16)-fc(2624,1)-其中num_proposal为候选段的数量,batch_size为训练的batch大小,fc表示全连接层,输出一个最终
6)使用非极大化抑制对结果进行后处理,从结果中去除重复区域。这里我们使用soft-NMS算法(Improving Object Detection With One Line of Code)来抑制重叠结果。对应图1中PP(·)操作。以下是soft-NMS的算法流程:
Input:B={bi,…,bN},S={S1,…,Si,…,SN}。B是所有候选时间片段,S是时间片段对应的分数。
IOU表示交并比,IOU越大,候选段重复度越高。M表示S集合中数值最大的数对应的下标,假设对应下标为m,则M=bm。SM和bM分别是S中分数最大的值以及这个值对应的候选段。对于si←sif(iou(M,bi)),
在传统的NMS算法中,直接设定一个阈值,IOU大于该阈值则过滤掉较小的框,相当于对Si直接清零,而这样做会使得有重叠的多个动作段识别错误。文献(Soft-NMS--Improving Object Detection With One Line of Code)https://arxiv.org/abs/1704.04503)对上述方法进行改进。本发明采用改进的NMS算法,使得分数Si不完全为0,而等于一个比较小的值。具体地,本发明采用的算法伪代码如下:
所描述的视频内容定位技术使用了前后融合和级联学习,充分利用了视频不同模态的特征来定位视频内容。
本发明提出的前后融合技术可以应用于视频的多个模态的特征,包括但不限于图像、声音和光流等。前后融合技术的含义包括前融合和后融合:前融合主要对视频各个模态的低层次特征进行融合,方法为将各个低层次特征拼接以后通过神经网络来进行融合;后融合主要对视频各个模态的高层语义特征进行融合,方法为将神经网络C1,C2…Ci,的输出进行拼接,然后通过神经网络CF(·)来进行融合。
本发明提出的级联学习技术将视频内容定位的过程分为了多个步骤。如图1中所示,G1阶段从视频的各个模态中提取出了高层语义特征并进行了融合。使用G1阶段中神经网络CF(·)的第一个隐藏层(512,64,3,1)的向量作为视频最终的特征向量,并传递给后级神经网络CG(·)使用,这使得神经网络的信息传递与利用更加灵活。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (9)
1.一种基于特征融合的视频内容定位方法,所述特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络进行融合;后融合将神经网络的输出进行拼接,再通过神经网络CF(·)对视频各维度的高层语义特征进行融合;视频内容定位方法包括视频的特征提取过程、特征融合过程和视频内容定位过程;具体包括如下步骤:
1)提取视频各个模态的低层次特征;,得到多个二维特征向量;分别记为fi,二维特征向量的相应大小为(T,li);T为视频抽帧帧数;i表示视频各个模态;
2)将提取得到的视频各个模态的低层次特征在类别维度直接进行级联,得到特征向量,记为作为前融合的输入,的维度为(T,);n为模态个数;
3)使用与模态数相同个数的,由两个一维的卷积层和激活层组成的神经网络Ci,分别学习各个模态的低层次特征信号的表示,得到各个模态的低层次特征信号编码,记作特征向量ai;
4)构建前融合网络包括两层一维的卷积层;使用前融合网络融合视频的各个模态的低层次特征,的输入为向量得到前融合结果
5)将步骤3)得到的各个模态的低层次特征信号编码和步骤4)得到的前融合结果进行级联,得到结果记为大小为(T,1024),作为后融合网络CF(·)的输入;
6)构建后融合网络CF(·),包括三层一维卷积层,输出维度为(T,3),分别对应每帧视频作为被定位的动作为开始start阶段、过程action阶段和结束end阶段的分数,将各阶段的分数序列集合分别记为分别对应曲线Start(s),曲线End(e),和曲线Action(s)在时刻t=1,2,3,…,T的概率;
7)通过筛选后融合网络CF(·)输出组成的分数-视频时序曲线中的峰值,来生成多个候选定位片段;具体执行如下操作:
7.1)生成候选时间片段:
设当前帧时刻为t,将曲线Start(s)上分数高于设定值的点,以及满足或的点s筛选为集合{s|s_i>设定值};s_i的取值范围为[0,1];将曲线End(e)上分数高于设定值的点,以及满足的点e筛选为集合{e|e_i>设定值};将两个集合间的点相互连接,根据不同段长度生成候选时间片段;
7.2)对生成的每个候选时间片段进行线性插值,将候选时间片段统一为相同长度的一系列候选定位片段
8)构造神经网络CG(·),使用卷积神经网络CG(·)为步骤7)生成的候选定位片段打分,CG(·)的输出为每个视频的候选定位片段的评分;该评分表示将候选定位片段作为定位结果的契合程度,根据评分实现基于特征融合的视频内容定位。
2.如权利要求1所述基于特征融合的视频内容定位方法,其特征是,使用非极大化抑制算法soft-NMS对步骤8)的结果进行后处理,从中去除重复区域,从而抑制重叠结果。
3.如权利要求2所述基于特征融合的视频内容定位方法,其特征是,所述非极大化抑制算法soft-NMS具体地:
输入为:B={bi,…,bN},S={S1,…,Si,…,SN};B是所有候选时间片段,S是时间片段对应的分数;
计算交并比:
其中,M表示S中数值最大的数对应的下标;IOU为交并比,IOU越大,候选段重复度越高;
对于si←sif(iou(M,bi)),
Si等于一个比较小的值,不完全为0,由此减少对重叠的多个动作段的识别错误。
4.如权利要求1所述基于特征融合的视频内容定位方法,其特征是,视频各个模态的低层次特征包括图像特征、声音特征和光流特征。
5.如权利要求1所述基于特征融合的视频内容定位方法,其特征是,优选地,模态数为2,视频低层次特征包括图像特征、声音特征;具体采用TSN和VGGish提取视频两个模态的低层次特征。
6.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤2)将f1和f2在类别维度级联,得到图像低层次特征和声音低层次特征进行前融合的结果 的维度为(T,(l1+l2))。
7.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤3)具体使用一维的两个卷积神经网络C1和C2,分别学习图像和声音信号的时序上更高层次的表示,分别得到大小均为(T,256)的图像信号编码表示a1和声音信号编码a2。
8.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤4)得到前融合结果的大小为(T,n×256),n=2;步骤5)进行级联得到的大小为(T,1024)。
9.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤7.1)中,设定值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910129460.7A CN110020596B (zh) | 2019-02-21 | 2019-02-21 | 一种基于特征融合和级联学习的视频内容定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910129460.7A CN110020596B (zh) | 2019-02-21 | 2019-02-21 | 一种基于特征融合和级联学习的视频内容定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020596A true CN110020596A (zh) | 2019-07-16 |
CN110020596B CN110020596B (zh) | 2021-04-30 |
Family
ID=67189074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910129460.7A Active CN110020596B (zh) | 2019-02-21 | 2019-02-21 | 一种基于特征融合和级联学习的视频内容定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020596B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434604A (zh) * | 2020-11-24 | 2021-03-02 | 中国科学院深圳先进技术研究院 | 基于视频特征的动作时段定位方法与计算机设备 |
CN113128285A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 一种处理视频的方法及装置 |
CN113679413A (zh) * | 2021-09-15 | 2021-11-23 | 北方民族大学 | 一种基于vmd-cnn的肺音特征识别分类方法及系统 |
CN114863370A (zh) * | 2022-07-08 | 2022-08-05 | 合肥中科类脑智能技术有限公司 | 一种复杂场景高空抛物识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753992A (zh) * | 2008-12-17 | 2010-06-23 | 深圳市先进智能技术研究所 | 一种多模态智能监控系统和方法 |
CN107463952A (zh) * | 2017-07-21 | 2017-12-12 | 清华大学 | 一种基于多模态融合深度学习的物体材质分类方法 |
CN107808146A (zh) * | 2017-11-17 | 2018-03-16 | 北京师范大学 | 一种多模态情感识别分类方法 |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
-
2019
- 2019-02-21 CN CN201910129460.7A patent/CN110020596B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753992A (zh) * | 2008-12-17 | 2010-06-23 | 深圳市先进智能技术研究所 | 一种多模态智能监控系统和方法 |
WO2018124309A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Corporation | Method and system for multi-modal fusion model |
CN107463952A (zh) * | 2017-07-21 | 2017-12-12 | 清华大学 | 一种基于多模态融合深度学习的物体材质分类方法 |
CN107808146A (zh) * | 2017-11-17 | 2018-03-16 | 北京师范大学 | 一种多模态情感识别分类方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
Non-Patent Citations (5)
Title |
---|
ANKIT GANDHI 等: ""GeThR-Net: A Generalized Temporally Hybrid Recurrent Neural Network for Multimodal Information Fusion"", 《ARXIV:1609.05281V1》 * |
CHAITANYA AHUJA 等: "Multimodal Machine Learning:A Survey and Taxonomy", 《ARXIV:1705.09406V2》 * |
DONGLIANG HE 等: ""Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for Human Action Recognition"", 《ARXIV:1806.10319V1》 * |
P. K. ATREY 等: ""Multimodal fusion for multimedia analysis: a survey"", 《MULTIMEDIA SYSTEMS》 * |
YUNLONG BIAN 等: ""Revisiting the Effectiveness of Off-the-shelf Temporal Modeling Approaches for Large-scale Video Classification"", 《ARXIV:1708.03805V1》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128285A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 一种处理视频的方法及装置 |
CN112434604A (zh) * | 2020-11-24 | 2021-03-02 | 中国科学院深圳先进技术研究院 | 基于视频特征的动作时段定位方法与计算机设备 |
CN113679413A (zh) * | 2021-09-15 | 2021-11-23 | 北方民族大学 | 一种基于vmd-cnn的肺音特征识别分类方法及系统 |
CN113679413B (zh) * | 2021-09-15 | 2023-11-10 | 北方民族大学 | 一种基于vmd-cnn的肺音特征识别分类方法及系统 |
CN114863370A (zh) * | 2022-07-08 | 2022-08-05 | 合肥中科类脑智能技术有限公司 | 一种复杂场景高空抛物识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110020596B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020596A (zh) | 一种基于特征融合和级联学习的视频内容定位方法 | |
Harwath et al. | Jointly discovering visual objects and spoken words from raw sensory input | |
Zhang et al. | Chinese sign language recognition with adaptive HMM | |
WO2020248376A1 (zh) | 情绪检测方法、装置、电子设备及存储介质 | |
US20190066732A1 (en) | Video Skimming Methods and Systems | |
EP2641401B1 (en) | Method and system for video summarization | |
CN103761261B (zh) | 一种基于语音识别的媒体搜索方法及装置 | |
CN103838864B (zh) | 一种视觉显著性与短语相结合的图像检索方法 | |
CN108932304A (zh) | 基于跨模态的视频时刻定位方法、系统及存储介质 | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN111048082A (zh) | 一种改进的端到端语音识别方法 | |
CN105096935A (zh) | 一种语音输入方法、装置和系统 | |
CN110012349A (zh) | 一种端到端的新闻节目结构化方法及其结构化框架体系 | |
CN112733660B (zh) | 一种视频拆条的方法和装置 | |
Stappen et al. | Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild | |
CN111753923A (zh) | 基于人脸的智能相册聚类方法、系统、设备及存储介质 | |
CN110210416A (zh) | 基于动态伪标签解码的手语识别系统优化方法及装置 | |
Radha | Video retrieval using speech and text in video | |
CN115129934A (zh) | 一种多模态视频理解方法 | |
Chen et al. | Towards unsupervised automatic speech recognition trained by unaligned speech and text only | |
Azuh et al. | Towards Bilingual Lexicon Discovery From Visually Grounded Speech Audio. | |
CN116469404A (zh) | 一种视听跨模态融合语音分离方法 | |
CN106550268B (zh) | 视频处理方法和视频处理装置 | |
Han et al. | Randmasking augment: A simple and randomized data augmentation for acoustic scene classification | |
CN104504162A (zh) | 一种基于机器人视觉平台的视频检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |