CN110020596B - 一种基于特征融合和级联学习的视频内容定位方法 - Google Patents

一种基于特征融合和级联学习的视频内容定位方法 Download PDF

Info

Publication number
CN110020596B
CN110020596B CN201910129460.7A CN201910129460A CN110020596B CN 110020596 B CN110020596 B CN 110020596B CN 201910129460 A CN201910129460 A CN 201910129460A CN 110020596 B CN110020596 B CN 110020596B
Authority
CN
China
Prior art keywords
video
fusion
feature
features
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910129460.7A
Other languages
English (en)
Other versions
CN110020596A (zh
Inventor
赵祈杰
单开禹
王勇涛
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201910129460.7A priority Critical patent/CN110020596B/zh
Publication of CN110020596A publication Critical patent/CN110020596A/zh
Application granted granted Critical
Publication of CN110020596B publication Critical patent/CN110020596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于特征融合的视频内容定位方法,包括视频的特征提取过程、特征融合过程和视频内容定位过程。特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络
Figure DDA0001974772150000011
进行融合;后融合将神经网络
Figure DDA0001974772150000012
的输出进行拼接,再通过神经网络CF(·)对视频各维度的高层语义特征进行融合。本发明能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。

Description

一种基于特征融合和级联学习的视频内容定位方法
技术领域
本发明属于机器视觉及深度学习技术领域,涉及视频内容定位技术,尤其涉及一种使用级联神经网络基于特征前后融合的视频内容定位的方法。
背景技术
在各种各样的视频中,包含着大量的事件和动作等,视频的核心内容在这些事件中。然而视频大多是冗余的,长时间的,观看者需要在大量的冗余信息中寻找有用信息,所以急需一种技术可以自动定位出所需要的内容片段。这种视频内容定位对后续进行内容分析,分类有着很大帮助,在安防,教育,影视领域中都有很大应用空间。
在关于视频内容定位方法的现有技术中,采用神经网络方法,但对于图像、声音等不同维度的信息特征并不进行深度融合,而是对信息特征进行简单拼接以后就作为视频特征表示,作为后级神经网络的输入。例如:用卷积神经网络方法得到视频的RGB图像的特征向量X,如果视频帧长为T,则得到维度为(T,li)的特征向量,其中li为视频内容类别数,例如在ActivityNet数据集中li为200;声音的特征向量为Y,同样也是维度为(T,li)的特征向量。将图像和声音的特征向量级联得
Figure BDA0001974772130000011
其中n是模态总个数。使用特征向量F作为视频最终的特征表示,作为后一级神经网络的输入,进行视频内容定位。
视频图像和视频声音中包含的信息差别很大,而且具有互补效应。比如综艺节目中定位一个歌手的表演片段,由于镜头并不是时时对准歌手,而是会不时指向观众等区域,而歌手的声音可以用来帮助准确识别表演片段的位置。
现有视频内容定位方法中,神经网络的特征提取模块直接将视频图像的特征向量和视频声音的特征向量进行简单拼接作为视频的特征向量,会损失掉图像和声音特征中包含的互补的高层语义信息,大大降低视频内容定位的精确性,难以实现视频内容的精准定位。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于特征融合的视频内容定位方法,基于特征前融合、后融合和级联学习,使用级联的神经网络来进行视频的特征提取、特征融合、内容定位,用以解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
本发明提供的技术方案是:
一种基于特征融合的视频内容定位方法,使用级联的神经网络进行视频的特征提取、特征融合、内容定位;视频包括多个维度的特征,如图像特征、声音特征和光流特征等;特征融合包括前融合和后融合;前融合对视频各个维度的低层次特征进行融合,方法为将各个低层次特征级联后通过神经网络
Figure BDA0001974772130000021
进行融合;后融合网络CF(·)对视频各个维度的高层语义特征进行融合,方法为将神经网络C1,C2,…Ci
Figure BDA0001974772130000022
的输出进行拼接,再通过神经网络CF(·)进行融合;具体包括如下步骤:
1)提取视频各个模态的低层次特征,如图像特征、声音特征和光流特征等,得到多个二维特征向量;分别记为fi,二维特征向量的相应大小为(T,li),T为视频抽帧帧数;i表示各个模态/维度;
本发明方法输入的是提取出的f1,f2,…fn的大小相同的特征feature。特征提取可采用现有方法。本发明具体实施时,以图像特征和声音特征为例,即模态数为2,采用TSN和VGGish提取视频各个模态的低层次特征。
1.1)预训练视频分类器,作为视频图像特征提取模块M1;
包括:抽取视频帧,将视频转化为多帧图片;使用Temporal Segment Network(TSN:https://github.com/yjxiong/tsn-pytorch)模型作为预训练视频分类器,即RGB图像特征提取模块;将图像特征提取模块输出特征向量,作为提取得到的视频图像特征;
具体实施时,对于RGB图片,首先使用工具ffmepeg抽取视频帧,将视频转化为多帧图片。记每个视频抽帧帧数为T。在UCF101数据集的训练集上抽好图片帧后,使用TSN模型结构预训练一个视频分类器,将预训练好的TSN视频分类器作为RGB图像特征提取模块M1。然后将预训练好的视频分类器(TSN模型)最后线性层finetune为实际使用的数据集动作类别数(假设为li),将模型最后输出的特征向量记为f1,二维特征向量大小为:(T,l1)。
其中,TSN模型采用文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,andL.Van Gool.Temporal segment networks:Towards good practices for deep actionrecognition.In European Conference on Computer Vision,pages”中记载的模型结构,代码链接:https://github.com/yjxiong/tsn-pytorch
1.2)训练声音特征提取器M2;
包括:从视频中提取声音信号;对提取的声音信号进行微调得到实际使用的数据集中每个视频对应的声音特征;输出的声音特征向量即为提取得到的视频声音特征;
具体实施时,使用MFCC(Mel Frequency Cepstral Coefficient:https://github.com/jameslyons/python_speech_features)方法从视频中提取声音信号,然后使用VGGish(https://github.com/tensorflow/models/tree/master/research/audioset)对提取的声音信号在ActivityNet或者Baidu Highlight Detection数据集的正样本视频片段和采样后的负样本视频片段上微调得到实际使用的数据集中每个视频对应的声音特征f2,我们将MFCC+VGGish合并记为声音提取模块M2,输出的声音特征向量记为f2,二维特征向量大小为(T,l2)。
2)得到前融合的输入
Figure BDA0001974772130000036
将提取得到的视频各个模态的低层次特征在类别维度直接进行级联,得到特征向量
Figure BDA0001974772130000031
作为前融合的输入,
Figure BDA0001974772130000032
的维度为
Figure BDA0001974772130000033
具体实施时,模态数n=2;i=1,2;
具体实施时,将f1和f2在类别维度级联,记为
Figure BDA0001974772130000034
的维度为(T,(l1+l2)),即为图像低层次特征和声音低层次特征进行前融合的结果;T为视频抽帧帧数。
3)使用与模态数相同个数的,由两个一维的卷积和激活层组成的神经网络Ci,分别学习各个模态的低层次特征信号的表示,得到各个模态的低层次特征信号编码,记作特征向量ai;
具体实施时,模态数相同个数n=2,使用一维的卷积神经网络C1和C2分别学习图像和声音信号的时序上更高层次的表示,C1和C2均由两层1维卷积构成,分别得到图像信号编码表示a1,a1大小为(T,256)和声音信号编码a2,a2大小为(T,256)的特征向量。
4)构建前融合网络
Figure BDA0001974772130000037
使用前融合网络
Figure BDA0001974772130000038
融合视频的各个模态的低层次特征;
具体实施时,包括图像低层次特征和声音低层次特征,
Figure BDA0001974772130000039
的输入为向量
Figure BDA00019747721300000310
记为前融合网络,由两层1维卷积构成。得到前融合结果
Figure BDA00019747721300000311
大小为(T,n×256),这里n为多模态特征的模态个数;n=2。
5)将步骤3)得到的各个模态的低层次特征信号编码和步骤4)得到的前融合结果进行级联,得到结果记为
Figure BDA00019747721300000312
作为后融合网络CF(·)的输入;
具体实施时,将a1,a2和
Figure BDA00019747721300000313
级联得到
Figure BDA00019747721300000314
大小为(T,1024),作为后融合网络CF(·)的输入。
6)后融合网络CF(·)由三层1维卷积构成,输出维度为(T,3),T为视频的抽帧帧数;分别对应每帧视频作为被定位的动作开始(start)、过程(action)和结束(end)三个阶段的分数,将三个阶段的分数序列集合分别记为
Figure BDA0001974772130000035
三个集合分别对应曲线曲线Start(s),曲线End(e),和曲线Action(s)在时刻t=1,2,3,…,T的概率。
7)通过筛选后融合网络CF(·)输出组成的分数-视频时序曲线中的峰值,使用特定算法来生成一定数量的候选定位片段。算法如下:
7.1)生成候选时间片段:
设当前帧时刻为t,将曲线Start(s)上分数高于设定值(如0.5)的点,以及满足
Figure BDA0001974772130000041
的点s筛选为集合{s|s_i>0.5},这里s_i的取值范围为[0,1]。将曲线End(e)上分数高于设定值(0.5)的点,以及满足
Figure BDA0001974772130000042
的点e筛选为集合{e|e_i>0.5}。将两个集合间的点相互连接,根据不同段长度(视频中每个动作开始到结束时间可以是不一样的,段长度由start和end点确定)生成候选时间片段。
具体地,在图1的曲线图中,画一条0.5的线,如果当前帧时刻的分数是最大值或者大于0.5,即记录下来形成集合s;三条曲线形成三个集合;
7.2)对生成的每个候选时间片段进行线性插值,将候选时间片段统一为相同长度的一系列候选定位片段
Figure BDA0001974772130000043
8)构造神经网络CG(·),使用卷积神经网络CG(·)为步骤7)生成的候选定位片段打分,得到每个视频的候选定位片段的评分。
构造神经网络CG(·),CG(·)的输入为候选时间片段在CF(·)的第一个隐藏层中对应的特征片段,和经过插值为同样大小的可以代表每个候选段分数的特征。CG(·)的输出为候选时间片段的评分。
具体地,CG(·)的输入为Cm和步骤7)得到的
Figure BDA0001974772130000044
Cm为候选时间片段在经过CF(·)的第一个隐藏层(512,64,3,1,relu)以后的输出。CG(·)的输出为每个视频的候选定位片段的评分pi。评分为[0,1]的一个值,表示这一段动作的置信度(即这一段确实是动作的概率)。
9)使用非极大化抑制算法对结果进行后处理,从
Figure BDA0001974772130000045
中去除重复区域。
具体实施时,使用非极大化抑制soft-NMS算法来抑制重叠结果,对应图1中PP(·)操作。
通过上述步骤,实现种基于特征融合的视频内容定位。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于特征融合的视频内容定位方法,通过使用前后融合和级联学习技术,进行视频的特征提取、特征融合、内容定位;前融合将各个维度的低层次特征级联后通过神经网络
Figure BDA0001974772130000046
进行融合;后融合网络CF(·)将神经网络C1,C2,…Ci
Figure BDA0001974772130000047
的输出进行拼接,再通过神经网络CF(·),对视频各个维度的高层语义特征进行融合,提高了视频内容定位技术的准确率。本发明具体实施时,在Video Highlights数据集上将现有方法平均精度均值提高了10.54%。
附图说明
图1为本发明提供的视频内容定位方法的系统框架示意图。
图2为本发明实施例提供的视频内容定位方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于特征融合的视频内容定位方法,基于特征前后融合和级联学习,使用级联的神经网络来进行视频的特征提取、特征融合、内容定位,能够解决视频图像和声音中包含的互补的高层语义信息丢失的问题,实现视频内容的精准定位。
如图1所示,采用本发明所述基于特征前后融合和级联学习的视频内容定位方法,对视频进行精准定位。视频包括多个模态的特征,如图像、声音和光流等,假设本次只使用声音和RGB图像两种模态,故以下n均为2;具体实施包括如下步骤:
1)提取视频各个模态的低层次特征,如图像特征、声音特征和光流特征等,此处以图像特征和声音特征为例;
1.1)预训练视频分类器,作为视频图像特征提取模块M1;
具体实施时,对于RGB图片,首先使用工具ffmepeg抽取视频帧,将视频转化为多帧图片。记每个视频抽帧帧数为T。在UCF101数据集的训练集上抽好图片帧后,使用TSN模型(文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,and L.Van Gool.Temporalsegment networks:Towards good practices for deep action recognition.InEuropean Conference on Computer Vision,pages”)结构预训练一个视频分类器,将预训练好的TSN视频分类器作为RGB图像特征提取模块M1。然后将TSN最后线性层finetune为实际使用的数据集动作类别数(假设为m),将模型最后输出的特征向量记为f1,二维特征向量大小为:(T,l1),其中T指的是提取的特征的时序长度,这里为512,l1的值是1024,指的是提取的每一帧的向量维度。。
1.2)训练声音特征提取器M2;
使用MFCC(Mel Frequency Cepstral Coefficents:https://github.com/jameslyons/python_speech_features)方法从视频中提取声音信号,然后使用VGGish(https://github.com/tensorflow/models/tree/master/research/audioset)网络对提取的声音信号在ActivityNe或者BaiduHighlightDetection数据集的正样本和采样后的负样本上微调得到实际使用的数据集中每个视频对应的声音特征f2,我们将MFCC+VGGish合并记为声音提取模块M2,输出的声音特征向量记为f2,二维特征向量大小为(T,l2),其中T指的是提取的特征的时序长度,这里为512,l2的值是1024,指的是提取的每一帧的向量维度。
2)将f1和f2在类别维度级联,记为
Figure BDA0001974772130000061
的维度为(T,(l1+l2))。
3)构造n+1个卷积神经网络。神经网络的隐藏层的结构使用四元组表示为(输入通道数,输出通道数,卷积核尺寸,卷积核步数,激活函数)。
3.1)前i个神经网络Ci的输入为fi,Ci的网络结构为:输入fi–conv1d(li,512,3,1,relu)–conv1d(512,256,3,1,relu)-输出ai。这里i的取值为{1,2}
3.2)第n+1个卷积神经网络
Figure BDA0001974772130000062
的输入为f1,f2,…,fi拼接成的向量,
Figure BDA0001974772130000063
的网络结构为:输入
Figure BDA0001974772130000064
-conv1d(
Figure BDA0001974772130000065
512*n,3,1,relu)-conv1d(512*n,256*n,3,1,relu)-输出
Figure BDA0001974772130000066
这个神经网络第一次融合了视频i个不同模态的特征,即为前融合网络。
4)构造卷积神经网络CF(·),CF的输入为a1,a2…ai
Figure BDA0001974772130000067
的输出拼接成的向量。CF(·)的网络结构为:输入-conv1d(256*(2n),1024,3,1,relu)-conv1d(1024,64,3,1,relu)-conv1d(512,3,3,1,sigmiod)-输出。CF(·)将视频各模态特征信息高层语义的特征表示已经前融合的结果进行了融合,即为后融合。
CF(·)的输出为视频每帧作为被定位的动作开始、过程和结束阶段的评分。将动作开始评分在时间维度上连接成曲线Start({s}),将动作结束评分在时间维度上连接成曲线End({e})。将曲线Start({s})上分数高于0.5*最大值的点筛选为集合{s|s_i>0.5}。将曲线End(e)上分数高于0.5*最大值的点筛选为集合{e|e_i>0.5}。将两个集合间的点相互连接,生成候选时间片段。具体来说,首先计算start节点和end节点中间的action长度la(帧数),然后在start节点前后采样
Figure BDA0001974772130000068
在end节点前后采样
Figure BDA0001974772130000069
将这三个片段拼接起来形成候选时间片段。之后对每个时间片段进行线性插值,将时间片段统一为相同长度。具体来说,对开始,过程,结束三个时间片段在三个曲线上按照41,82,41三种不同特征长度进行线性插值,得到总长度为164的特征片段
Figure BDA00019747721300000610
5)构造神经网络CG(·),CG(·)的输入为候选时间片段在CF(·)的第一个隐藏层(512,64,3,1,relu)中对应的特征片段Cm,和经过插值整理为同样大小的可以代表每个候选段分数的特征
Figure BDA00019747721300000611
CG(·)的输出为候选时间片段的评分。这里CG(·)对应的操作是:输入Cm-conv1d(64,16,3,1,relu)-reshape(num_proposal*batch_size,164*16)-fc(2624,1)-
Figure BDA00019747721300000612
其中num_proposal为候选段的数量,batch_size为训练的batch大小,fc表示全连接层,输出一个
Figure BDA0001974772130000071
最终
Figure BDA0001974772130000072
6)使用非极大化抑制对结果进行后处理,从结果中去除重复区域。这里我们使用soft-NMS算法(Improving Object Detection With One Line of Code)来抑制重叠结果。对应图1中PP(·)操作。以下是soft-NMS的算法流程:
Input:B={bi,…,bN},S={S1,…,Si,…,SN}。B是所有候选时间片段,S是时间片段对应的分数。
Figure BDA0001974772130000073
IOU表示交并比,IOU越大,候选段重复度越高。M表示S集合中数值最大的数对应的下标,假设对应下标为m,则M=bm。SM和bM分别是S中分数最大的值以及这个值对应的候选段。对于si←sif(iou(M,bi)),
Figure BDA0001974772130000074
在传统的NMS算法中,直接设定一个阈值,IOU大于该阈值则过滤掉较小的框,相当于对Si直接清零,而这样做会使得有重叠的多个动作段识别错误。文献(Soft-NMS--Improving Object Detection With One Line of Code)https://arxiv.org/abs/1704.04503)对上述方法进行改进。本发明采用改进的NMS算法,使得分数Si不完全为0,而等于一个比较小的值。具体地,本发明采用的算法伪代码如下:
Figure BDA0001974772130000075
所描述的视频内容定位技术使用了前后融合和级联学习,充分利用了视频不同模态的特征来定位视频内容。
本发明提出的前后融合技术可以应用于视频的多个模态的特征,包括但不限于图像、声音和光流等。前后融合技术的含义包括前融合和后融合:前融合主要对视频各个模态的低层次特征进行融合,方法为将各个低层次特征拼接以后通过神经网络
Figure BDA0001974772130000081
来进行融合;后融合主要对视频各个模态的高层语义特征进行融合,方法为将神经网络C1,C2…Ci
Figure BDA0001974772130000082
的输出进行拼接,然后通过神经网络CF(·)来进行融合。
本发明提出的级联学习技术将视频内容定位的过程分为了多个步骤。如图1中所示,G1阶段从视频的各个模态中提取出了高层语义特征并进行了融合。使用G1阶段中神经网络CF(·)的第一个隐藏层(512,64,3,1)的向量作为视频最终的特征向量,并传递给后级神经网络CG(·)使用,这使得神经网络的信息传递与利用更加灵活。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于特征融合的视频内容定位方法,其特征是,所述特征融合包括前融合和后融合;前融合将视频各维度的低层次特征进行级联后通过神经网络
Figure FDA0002913735480000011
进行融合;后融合将神经网络
Figure FDA0002913735480000012
的输出进行拼接,再通过神经网络CF(·)对视频各维度的高层语义特征进行融合;视频内容定位方法包括视频的特征提取过程、特征融合过程和视频内容定位过程;具体包括如下步骤:
1)提取视频各个模态的低层次特征,得到多个二维特征向量;分别记为fi,二维特征向量的相应大小为(T,li);T为视频抽帧帧数;i表示视频各个模态;
2)将提取得到的视频各个模态的低层次特征在类别维度直接进行级联,得到特征向量,记为
Figure FDA0002913735480000013
作为前融合的输入,
Figure FDA0002913735480000014
的维度为
Figure FDA0002913735480000015
n为模态个数;
3)使用与模态数相同个数的,由两个一维的卷积层和激活层组成的神经网络Ci,分别学习各个模态的低层次特征信号的表示,得到各个模态的低层次特征信号编码,记作特征向量ai;
4)构建前融合网络
Figure FDA0002913735480000016
包括两层一维的卷积层;使用前融合网络
Figure FDA0002913735480000017
融合视频的各个模态的低层次特征,
Figure FDA0002913735480000018
的输入为向量
Figure FDA0002913735480000019
得到前融合结果
Figure FDA00029137354800000110
5)将步骤3)得到的各个模态的低层次特征信号编码和步骤4)得到的前融合结果进行级联,得到结果记为
Figure FDA00029137354800000111
大小为(T,1024),作为后融合网络CF(·)的输入;
6)构建后融合网络CF(·),包括三层一维卷积层,输出维度为(T,3),分别对应每帧视频作为被定位的动作为开始start阶段、过程action阶段和结束end阶段的分数,将各阶段的分数序列集合分别记为
Figure FDA00029137354800000112
分别对应曲线Start(s),曲线End(e),和曲线Action(s)在时刻t=1,2,3,…,T的概率;
7)通过筛选后融合网络CF(·)输出组成的分数-视频时序曲线中的峰值,来生成多个候选定位片段;具体执行如下操作:
7.1)生成候选时间片段:
设当前帧时刻为t,将曲线Start(s)上分数高于设定值的点,以及满足
Figure FDA00029137354800000113
Figure FDA00029137354800000114
的点s筛选为集合{s|s_i>设定值};s_i的取值范围为[0,1];将曲线End(e)上分数高于设定值的点,以及满足
Figure FDA00029137354800000115
的点e筛选为集合{e|e_i>设定值};将两个集合间的点相互连接,根据不同段长度生成候选时间片段;
7.2)对生成的每个候选时间片段进行线性插值,将候选时间片段统一为相同长度的一系列候选定位片段
Figure FDA00029137354800000116
8)构造神经网络CG(·),使用卷积神经网络CG(·)为步骤7)生成的候选定位片段打分,CG(·)的输出为每个视频的候选定位片段的评分;该评分表示将候选定位片段
Figure FDA0002913735480000021
作为定位结果的契合程度,根据评分实现基于特征融合的视频内容定位。
2.如权利要求1所述基于特征融合的视频内容定位方法,其特征是,使用非极大化抑制算法soft-NMS对步骤8)的结果进行后处理,从
Figure FDA0002913735480000022
中去除重复区域,从而抑制重叠结果。
3.如权利要求2所述基于特征融合的视频内容定位方法,其特征是,所述非极大化抑制算法soft-NMS具体地:
输入为:B={bi,…,bN},S={S1,…,Si,…,SN};B是所有候选时间片段,S是时间片段对应的分数;
计算交并比:
Figure FDA0002913735480000023
其中,M表示S中数值最大的数对应的下标;iou 为交并比,iou 越大,候选段重复度越高;
对于si←sif(iou(M,bi)),
Figure FDA0002913735480000024
Si等于一个比较小的值,不完全为0,由此减少对重叠的多个动作段的识别错误。
4.如权利要求1所述基于特征融合的视频内容定位方法,其特征是,视频各个模态的低层次特征包括图像特征、声音特征和光流特征。
5.如权利要求1所述基于特征融合的视频内容定位方法,其特征是,优选地,模态数为2,视频低层次特征包括图像特征、声音特征;具体采用TSN和VGGish提取视频两个模态的低层次特征。
6.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤2)将f1和f2在类别维度级联,得到图像低层次特征和声音低层次特征进行前融合的结果
Figure FDA0002913735480000025
Figure FDA0002913735480000026
的维度为(T,(l1+l2))。
7.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤3)具体使用一维的两个卷积神经网络C1和C2,分别学习图像和声音信号的时序上更高层次的表示,分别得到大小均为(T,256)的图像信号编码表示a1和声音信号编码a2。
8.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤4)得到前融合结果
Figure FDA0002913735480000027
的大小为(T,n×256),n=2;步骤5)进行级联得到
Figure FDA0002913735480000028
的大小为(T,1024)。
9.如权利要求5所述基于特征融合的视频内容定位方法,其特征是,步骤7.1)中,设定值为0.5。
CN201910129460.7A 2019-02-21 2019-02-21 一种基于特征融合和级联学习的视频内容定位方法 Active CN110020596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910129460.7A CN110020596B (zh) 2019-02-21 2019-02-21 一种基于特征融合和级联学习的视频内容定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910129460.7A CN110020596B (zh) 2019-02-21 2019-02-21 一种基于特征融合和级联学习的视频内容定位方法

Publications (2)

Publication Number Publication Date
CN110020596A CN110020596A (zh) 2019-07-16
CN110020596B true CN110020596B (zh) 2021-04-30

Family

ID=67189074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910129460.7A Active CN110020596B (zh) 2019-02-21 2019-02-21 一种基于特征融合和级联学习的视频内容定位方法

Country Status (1)

Country Link
CN (1) CN110020596B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434604A (zh) * 2020-11-24 2021-03-02 中国科学院深圳先进技术研究院 基于视频特征的动作时段定位方法与计算机设备
CN113679413B (zh) * 2021-09-15 2023-11-10 北方民族大学 一种基于vmd-cnn的肺音特征识别分类方法及系统
CN114863370B (zh) * 2022-07-08 2022-10-25 合肥中科类脑智能技术有限公司 一种复杂场景高空抛物识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753992A (zh) * 2008-12-17 2010-06-23 深圳市先进智能技术研究所 一种多模态智能监控系统和方法
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
CN107463952B (zh) * 2017-07-21 2020-04-03 清华大学 一种基于多模态融合深度学习的物体材质分类方法
CN107808146B (zh) * 2017-11-17 2020-05-05 北京师范大学 一种多模态情感识别分类方法
CN108648746B (zh) * 2018-05-15 2020-11-20 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Also Published As

Publication number Publication date
CN110020596A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US20240038218A1 (en) Speech model personalization via ambient context harvesting
CN110020596B (zh) 一种基于特征融合和级联学习的视频内容定位方法
Mroueh et al. Deep multimodal learning for audio-visual speech recognition
CN113408385A (zh) 一种音视频多模态情感分类方法及系统
US20030212556A1 (en) Factorial hidden markov model for audiovisual speech recognition
CN111488489A (zh) 视频文件的分类方法、装置、介质及电子设备
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
CN114245280B (zh) 一种基于神经网络的场景自适应助听器音频增强系统
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN109766918B (zh) 基于多层次上下文信息融合的显著性物体检测方法
US11557283B2 (en) Artificial intelligence system for capturing context by dilated self-attention
CN115129934A (zh) 一种多模态视频理解方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
Boilard et al. A literature review of wavenet: Theory, application, and optimization
Koumparoulis et al. Deep view2view mapping for view-invariant lipreading
Oghbaie et al. Advances and challenges in deep lip reading
Sayed et al. Bimodal variational autoencoder for audiovisual speech recognition
CN111462732B (zh) 语音识别方法和装置
CN117764115A (zh) 多模态模型的多任务预训练方法、多模态识别方法及设备
CN117275465A (zh) 基于Conformer的实时中文语音识别及识别结果文本处理方法
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN116469404A (zh) 一种视听跨模态融合语音分离方法
CN115565533A (zh) 语音识别方法、装置、设备及存储介质
Narayanan et al. Hierarchical sequence to sequence voice conversion with limited data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant